CN106228973A

CN106228973A - 稳定音色的音乐语音变调方法

Info

Publication number: CN106228973A
Application number: CN201610573399.1A
Authority: CN
Inventors: 张栋; 彭建云; 余春艳; 张为凡; 刘宇欣
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2016-07-21
Filing date: 2016-07-21
Publication date: 2016-12-14

Abstract

本发明涉及一种稳定音色的音乐语音变调方法，利用语音信号可分为声门激励分量和声道冲激响应分量，通过语音信号的倒谱序列导出频谱包络，然后利用频谱包络分离出语音信号的激励分量，再将语音信号的激励分量通过变调算法处理改变其音高，最后将频谱包络和音高改变后的激励分量重新合成，得到音高改变但音色稳定的音乐语音信号。本发明所提出的一种稳定音色的音乐语音变调方法，该方法简单，实现灵活，具有较强的实用性。

Description

稳定音色的音乐语音变调方法

技术领域

本发明涉及语音合成领域，特别是一种稳定音色的音乐语音变调方法。

背景技术

近年来，随着音乐娱乐的普及，对于音乐语音的声音效果处理成为研究与应用的热点，受到学术界和业界的广泛关注。众所周知，传统基于重采样的变调方法可以改变音调的高低，其实质是语音信号在频率轴上频谱整体的移动，在改变音高的同时也会使频谱包络随之改变，从而导致变调后的语音信号失去原有的声道响应信息，如男声、女声和小孩之间音调的转变。为了可以达到保持音色相对不变而音高变化，以实现音高调整或和声等效果。因此，如何在音乐语音变调处理中只改变音高而保持音色不变，是变调处理中的一个重要问题。

发明内容

本发明的目的在于提供一种稳定音色的音乐语音变调方法，能够使音乐语音信号在变调处理后只改变音高而保持音色基本不变。

为实现上述目的，本发明的技术方案是：一种稳定音色的音乐语音变调方法，按照如下步骤实现：

步骤S1：将输入的数字音乐语音信号进行预处理，包括：滤波、预加重和归一化；

步骤S2：对数字音乐语音信号进行分帧处理，分别计算每一帧的倒谱序列；

步骤S3：根据倒谱序列导出频谱包络，利用频谱包络分离出数字音乐语音信号的激励分量；

步骤S4：将数字音乐语音信号的激励分量通过变调处理得到音高改变的激励分量；

步骤S5：将频谱包络和音高改变后的激励分量重新合成，得到音高改变且音色稳定的音乐语音信号，并将每一帧重新叠加以获得完整的语音信号；

其中，n、k、i均为序列号。

在本发明一实施例中，在所述步骤S2中，所述每一帧的倒谱序列的计算按照以下步骤实现：

步骤S21：根据每一帧的帧长W和每一帧的帧移WF对数字音乐语音信号分帧后得到；

步骤S22：对进行傅立叶变换得到频域信号；

步骤S23：根据公式得到对数频谱，对进行逆傅立叶变换得到的倒谱序列。

在本发明一实施例中，在所述步骤S2中，所述帧长W为10ms至30内的采样数，W=每一帧的时间长度*采样频率；所述帧移WF为相邻两帧未重叠部分，WF=W/3。

在本发明一实施例中，在所述步骤S3中，还包括如下步骤：

步骤S31：将所述倒谱序列乘以一个低通倒谱窗函数得到，其中，为一矩形窗函数；

步骤S32：对进行傅立叶变换得到对数频谱的包络线，并对取指数得到频谱的包络线；

步骤S33：根据公式，计算得到数字语音信号的声门激励分量，其中，为一hamming窗函数。

在本发明一实施例中，在所述步骤S4中，还包括如下步骤：

步骤S41：采用波形相似重叠叠加算法对所述激励分量进行时长调整，并根据公式，得到时长变为倍的激励分量，其中，为一hanning窗函数，为分析窗帧移，为合成窗帧移，=WF，WF为每一帧的帧移，为音高调整系数，，为每帧最佳匹配点相对于分析窗帧移的偏移量，采用互相关来确定最佳匹配波形点；

步骤S42：对所述激励分量进行重采样处理，重采样系数为，得到音高改变且时长不变的激励信号。

在本发明一实施例中，在所述步骤S5中，根据公式，将音高改变后的激励信号和原数字音乐语音信号的频谱包络重新合成得到音高改变且音色稳定的语音信号，其中，为音高改变后的激励分量，为原语音信号的频谱包络，为一hamming窗函数；将每一帧按照帧移WF重新叠加以获得完整的语音信号。

相较于现有技术，本发明具有以下有益效果：本发明提出了一种稳定音色的音乐语音变调方法，其通过倒谱序列对语音的声门激励分量和声道冲激响应分量进行分离处理，保留原有的声道冲激响应分量，改变声门激励分量的音高，从而得到音高改变而音色稳定的音乐语音信号，该方法简单，实现灵活，具有较强的实用性。

附图说明

图1为本发明中稳定音色的音乐语音变调方法的流程图。

图2(a)为本发明一实施例中原始音乐语音信号频谱图。

图2(b)为本发明一实施例中采用稳定音色的音乐语音变调方法变调处理后的音乐语音信号频谱图。

图3(a)为本发明一实施例中原始音乐语音信号的共振峰分布图。

图3(b)为本发明一实施例中采用稳定音色的音乐语音变调方法变调处理后的音乐语音信号共振峰分布图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提出一种稳定音色的音乐语音变调方法，如图1所示，利用语音信号可分为声门激励分量和声道冲激响应分量，通过语音信号的倒谱序列导出频谱包络，然后利用频谱包络分离出语音信号的激励分量，再将语音信号的激励分量通过变调算法处理改变其音高，最后将频谱包络和音高改变后的激励分量重新合成，得到音高改变但音色稳定的音乐语音信号，具体如下：

步骤S1：计算语音信号的倒谱序列：首先对整个语音信号进行滤波，预加重、归一化等预处理。然后将得到的语音信号按照长度为W、帧移为WF分成小段的语音帧得到，其中，W表示帧长，W=每一帧的时间长度*采样频率；WF表示帧移，WF=W/3。对于每一帧作如下处理：首先将经过傅立叶变换得，然后根据公式得到的对数频谱，最后将经过逆傅立叶变换得到倒谱序列。

步骤S2：分离语音信号的激励分量：首先将所述的倒谱序列乘以一个低通倒谱窗函数得到，其中，为矩形窗函数；然后对进行傅立叶变换得到对数频谱；接着对取指数得到频谱的包络线；最后根据公式，将语音信号与系统函数进行卷积加窗运算，得到语音信号的声门激励分量，其中为一hamming窗函数。

步骤S3：激励分量的变调处理：首先采用波形相似重叠叠加算法（WSOLA）对激励分量进行时长调整，根据公式，得到时长变为倍的激励分量，其中，为一hanning窗函数，为分析窗帧移，为合成窗帧移，=WF，为音高调整系数，，为每帧最佳匹配点相对于分析窗帧移的偏移量，采用互相关来确定最佳匹配波形点；然后对激励分量进行重采样处理，为了使激励分量的时间长度保持不变重采样系数设定为，得到音高改变而时长不变的激励信号。

进一步的，在本实施例中，频谱包络为数字语音信号中各个频率的振幅最高点所连结起来形成的曲线。

步骤4：重新合成语音信号：根据公式，将音高改变后的激励信号和原语音信号的频谱包络重新合成得到音高改变而音色稳定的语音信号，其中，为变调后的激励分量，为原语音信号的频谱包络，为hamming窗函数。最后将每一帧按照帧移WF重新叠加以获得完整的语音信号。

为了让本领域技术人员进一步了解本发明所提出的稳定音色的音乐语音变调方法，下面结合具体实施例进行说明。

如图2（a）以及图2（b）所示，按照本发明提供的方法对一段音乐语音信号进行变调处理，将两张频谱图进行对比，可以看出变调处理后音乐语音信号的音高是原始音乐语音信号的倍。

如图3（a）以及图3（b）所示，按照本发明提供的方法对一段音乐语音信号进行变调处理，将两张共振峰分布图进行对比，可以看出处理前后的共振峰分布基本保持一致，从而使音色基本保持稳定。

因此，按照本发明提供的方法对音乐语音信号进行处理可以得到音高改变而音色稳定的音乐语音信号。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种稳定音色的音乐语音变调方法，其特征在于，按照如下步骤实现：

其中，n、k、i均为序列号。

2.据权利要求1所述的稳定音色的音乐语音变调方法，其特征在于，在所述步骤S2中，所述每一帧的倒谱序列的计算按照以下步骤实现：

步骤S22：对进行傅立叶变换得到频域信号；

3.根据权利要求2所述的稳定音色的音乐语音变调方法，其特征在于，在所述步骤S2中，所述帧长W为10ms至30ms内的采样数，W=每一帧的时间长度*采样频率；所述帧移WF为相邻两帧未重叠部分，WF=W/3。

4.根据权利要求1所述的稳定音色的音乐语音变调方法，其特征在于，在所述步骤S3中，还包括如下步骤：

5.根据权利要求1所述的稳定音色的音乐语音变调方法，其特征在于，在所述步骤S4中，还包括如下步骤：

6.根据权利要求1所述的稳定音色的音乐语音变调方法，其特征在于，在所述步骤S5中，根据公式，将音高改变后的激励信号和原数字音乐语音信号的频谱包络重新合成得到音高改变且音色稳定的语音信号，其中，为音高改变后的激励分量，为原数字音乐语音信号的频谱包络，为一hamming窗函数；将每一帧按照帧移WF重新叠加以获得完整的语音信号。