CN105679331A

CN105679331A - 一种声气信号分离与合成的方法及系统

Info

Publication number: CN105679331A
Application number: CN201511033483.6A
Authority: CN
Inventors: 滕少华; 霍颖翔; 张巍
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2016-06-15
Anticipated expiration: 2035-12-30
Also published as: CN105679331B

Abstract

本发明公开了一种声气信号分离与合成的方法及系统，方法包括：将采样的人声语音信号由时域转换到频域，得到原始的频谱图；根据原始的频谱图测定人声语音信号的基频；在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置，以两峰之间的位置作为谷值的位置；从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来，进而得到对应的声音信息频谱图以及对应的气音信息频谱图；分别对声音信息和气音信息进行处理；将处理后的声音信息和处理后的气音信息频进行合成，得到最终的人声语音信号。本发明能将声音信息与气音信息进行分离，以单独对声音信号或气音信号进行修改等后续处理，可广泛应用于信号处理领域。

Description

一种声气信号分离与合成的方法及系统

技术领域

本发明涉及信号处理领域，尤其是一种声气信号分离与合成的方法及系统。

背景技术

语音是语言的声学表现，是人类交流信息最自然、最有效、最方便的手段，也是人类进行思维的一种依托。人类开始进入了信息化时代，用现代手段研究语音处理技术，使人们能更加有效地产生、传输、存储和获取语音信息，这对于促进社会的发展具有十分重要的意义。最近几十年，对语音的研究使科学家和工程师们走到一起，从而形成了一门重要的学科：语音信号处理。语音信号处理技术简称语音处理，它与语言学、语音学、心理学、声学、计算机学以及人工智能等学科都有着紧密的联系，极大地推动了社会的科技进步，我们可以用自动语音识别技术，使手写文稿和手工打印文本变成自动听写机操作；把人工查阅各种书面文字资料的操作变为口呼自动查阅各种各样的数据库；可以采用语音合成技术，将存储的语音或文字资料转化为语音高质量的回放，甚至自动翻译成另一种语言的语音回放或进行文字显示。总而言之，语音信号处理技术的研究对于信息化社会的发展具有极其重要的意义。

然而，目前对人声的语音信号处理技术大多只能根据基频与共振峰的关系提取出声带与口腔共鸣发出的声音信号，尚未能从人声语音信号中提取出唇齿发出的气音信号，无法单独对声音信号或气音信号进行修改等后续处理。

发明内容

为解决上述问题，本发明的目的在于：提供一种能将声音信号和气音信号进行分离的，声气信号分离与合成的方法。

本发明的另一目的在于：提供一种能将声音信号和气音信号进行分离的，声气信号分离与合成的系统。

本发明所采取的技术方案是：

一种声气信号分离与合成的方法，包括：

A、将采样的人声语音信号由时域转换到频域，得到原始的频谱图；

B、根据原始的频谱图测定人声语音信号的基频；

C、在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置，以两峰之间的位置作为谷值的位置；

D、从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来，进而得到峰值的位置信息对应的声音信息频谱图以及谷值的位置信息对应的气音信息频谱图；

E、分别对声音信息频谱图中的声音信息和气音信息频谱图中的气音信息进行处理；

F、将处理后的声音信息和处理后的气音信息频进行合成，得到最终的人声语音信号。

进一步，所述步骤A，其具体为：

采用至少0.02322*a点的重叠加窗快速傅里叶变换对采样的人声语音信号进行处理，得到原始的频谱图，其中，a为设定的采样频率。

进一步，所述步骤B，其具体为：

通过分片段重叠加窗测定时域信号周期序列的方法，准确测定出人声语音信号的信号流在不同时间点的基频，其中，片段的长度在快速傅里叶变换窗口长度的1到4倍的范围内，重叠加窗的间距小于等于快速傅里叶变换的窗间距。

进一步，所述步骤D，其包括：

将峰值的位置信息从原始的频谱图中提取出来，进而得到声音信息频谱图；

将峰谷的位置的信息从原始的频谱图中提取出来，进而得到声音信息频谱图。

进一步，所述将峰值的位置信息提取出来，得到声音信息频谱图这一步骤，其包括：

D11、计算快速傅里叶变换结果中的理论峰值位置p，所述理论峰值位置p的计算公式为：p=2ⁿz/a*m，其中，2ⁿ为快速傅里叶变换的点数，n和m均为正整数，z为快速傅里叶变换窗口对应位置所测定的基频，0<p<2^n-1；

D12、判断理论峰值位置p是否为整数，若是，则以理论峰值位置p对应的信息作为提取出的声音信息；反之，则采用四舍五入法或线性插值法进行处理，得到提取出的声音信息。

进一步，所述步骤D12中采用四舍五入法或线性插值法进行处理，得到提取出的声音信息这一步骤，其具体为：

若采用四舍五入法，则对理论峰值位置p进行四舍五入，然后以p四舍五入后的结果对应的信息作为提取出的声音信息；

若采用线性插值法，则提取出的声音信息x的计算公式为：x=(1-(p-q))*f_q+(p-q)*f_p，其中，q为p向下取整的结果，f_q和f_p分别为快速傅里叶变换结果中位置q和位置p对应的分量。

进一步，所述将峰谷的位置的信息从原始的频谱图中提取出来，进而得到声音信息频谱图这一步骤，其包括：

D21、计算快速傅里叶变换结果中的理论谷值位置s，所述理论谷值位置s的计算公式为：s=2ⁿz/a*(m-0.5)，其中，2ⁿ为快速傅里叶变换的点数，n和m均为正整数，z为快速傅里叶变换窗口对应位置所测定的基频，0<s<2^n-1；

D22、判断理论谷值位置s是否为整数，若是，则以理论谷值位置s对应的信息作为提取出的气音信息；反之，则采用四舍五入法或线性插值法进行处理，得到提取出的气音信息。

进一步，所述步骤D22中采用四舍五入法或线性插值法进行处理，得到提取出的气音信息这一步骤，其具体为：

若采用四舍五入法，则对理论谷值位置s进行四舍五入，然后以s四舍五入后的结果对应的信息作为提取出的气音信息；

若采用线性插值法，则提取出的气音信息k的计算公式为：k=(1-(s-r))*f_r+(s-r)*f_s，其中，r为s向下取整的结果，f_s和f_r分别为快速傅里叶变换结果中位置s和位置r对应的分量。

进一步，所述步骤D在将峰值的位置信息和谷值的位置信息提取出来得到两张频谱图后，还需对这两张频谱图分别执行插值处理才能得到完整的声音信息频谱图和气音信息频谱图。

本发明所采取的另一技术方案是：

一种声气信号分离与合成的系统，包括：

转换模块，用于将采样的人声语音信号由时域转换到频域，得到原始的频谱图；

测定模块，用于根据原始的频谱图测定人声语音信号的基频；

标记模块，用于在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置，以两峰之间的位置作为谷值的位置；

提取模块，用于从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来，进而得到峰值的位置信息对应的声音信息频谱图以及谷值的位置信息对应的气音信息频谱图；

单独处理模块，用于分别对声音信息频谱图中的声音信息和气音信息频谱图中的气音信息进行处理；

合成模块，用于将处理后的声音信息和处理后的气音信息频进行合成，得到最终的人声语音信号；

所述转换模块的输出端依次通过测定模块、标记模块、提取模块和单独处理模块进而与合成模块的输入端连接。

本发明的方法的有益效果是：根据测定的基频来确定波峰和波谷的位置，然后根据波峰和波谷的位置将声音信号和气音信号从人声语言信号中分离出来，解决了现有技术只能提取声音信号而未能从人声语音信号中提取出唇齿发出的气音信号的问题，能单独对声音信号或气音信号进行修改等后续处理；能将处理后的气音信号和声音信号重新合成正常的人声语音信号，更加方便和全面。进一步，在提取声音信息频谱图以及气音信息频谱图时，能根据效率或精度的要求选择采用四舍五入法或线性插值法得到完整的频谱图，更加灵活。

本发明的系统的有益效果是：根据测定的基频来确定波峰和波谷的位置，然后提取模块根据波峰和波谷的位置将声音信号和气音信号从人声语言信号中分离出来，解决了现有技术只能提取声音信号而未能从人声语音信号中提取出唇齿发出的气音信号的问题，能单独对声音信号或气音信号进行修改等后续处理；合成模块能将处理后的气音信号和声音信号重新合成正常的人声语音信号，更加方便和全面。

附图说明

图1为本发明一种声气信号分离与合成的方法的整体流程图；

图2为本发明一种声气信号分离与合成的系统的结构框图；

图3为本发明实施例一的整体流程图。

具体实施方式

参照图1，一种声气信号分离与合成的方法，包括：

B、根据原始的频谱图测定人声语音信号的基频；

其中，谷值的位置可取两峰之间的平分点位置（中间位置）或其它两峰之间的位置。

步骤E执行的处理包括但不限于修改。

进一步作为优选的实施方式，所述步骤A，其具体为：

进一步作为优选的实施方式，所述步骤B，其具体为：

进一步作为优选的实施方式，所述步骤D，其包括：

进一步作为优选的实施方式，所述将峰值的位置信息提取出来，得到声音信息频谱图这一步骤，其包括：

进一步作为优选的实施方式，所述步骤D12中采用四舍五入法或线性插值法进行处理，得到提取出的声音信息这一步骤，其具体为：

进一步作为优选的实施方式，所述将峰谷的位置的信息从原始的频谱图中提取出来，进而得到声音信息频谱图这一步骤，其包括：

进一步作为优选的实施方式，所述步骤D22中采用四舍五入法或线性插值法进行处理，得到提取出的气音信息这一步骤，其具体为：

进一步作为优选的实施方式，所述步骤D在将峰值的位置信息和谷值的位置信息提取出来得到两张频谱图后，还需对这两张频谱图分别执行插值处理才能得到完整的声音信息频谱图和气音信息频谱图。

其中，从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来后即可得到两张频谱图，但这两张频谱图可能会存在沟壑，所以还需要先通过插值处理填平这两张频谱图的沟壑才能得到完整的声音信息频谱图和气音信息频谱图。

参照图2，一种声气信号分离与合成的系统，包括：

下面结合说明书附图和具体实施例对本发明作进一步详细说明。

实施例一

本发明在现有技术基础上进一步将语音信号中声带与口腔共鸣发出的声音信号与唇齿发出的气音信号进行分离，从而能够对声音信号和气音信号单独做出修改等后续处理，并在修改等处理完成之后，可以再合成语音信号。参照图3，本发明可以将声带与口腔共鸣发出的声音信息与唇齿发出的气音信息进行提取分离，经处理后再进行合成声气信号，具体的实现步骤如下：

（一）将人声语音信号转换到频域，获取频谱图。

实际使用时，对获取的人声语音信号样本，常常通过快速傅里叶变换（即FFT变换）将时域信号转换到频域，以得到原始人声的频谱图。

设人声语音信号样本的采样率为a赫兹，为保持最基本的语音频域范围，a应不低于8000赫兹；对于采样率为a赫兹的人声语音信号，适宜使用0.02322*a点或0.02322*a点以上的重叠加窗FFT变换进行转换，FFT的点数应该向上取整为2的n次方，其中n为正整数；窗间距小于等于FFT长度的一半。

（二）通过分片段重叠加窗测定时域信号周期序列的方法，准确测定出人声语音信号的信号流在不同时间点的基频，其中，片段的长度适宜在FFT窗口的1到4倍之间，重叠加窗的间距应小于等于FFT的窗间距。

（三）在频谱图上将与基频整数倍关系的位置标记为峰值的位置，两峰之间则为波谷值位置。

根据先验知识，声带与口腔共鸣发出的声音信号对应频谱图上的峰值位置，唇齿发出的气音信号对应频谱图上的峰谷位置。峰值位置和峰谷位置确认后即可得到相应的声音信息频谱图和气音信息频谱图。

（四）提取声音信息频谱图和气音信息频谱图。

提取声音信息频谱图和气音信息频谱图这一过程可进一步细分为：

（1）将峰值位置的信息提取出来，得到相应的声音信息频谱图。

具体来说，设FFT窗对应位置的基频被测定为z赫兹，FFT的点数为2ⁿ，则FFT结果中的多个位置p=2ⁿz/a*m均为峰值所在的位置，其中，m>0,m为整数，0<p<2^n-1，记f₁，f₂，f₃…为FFT结果的各个分量。由上述公式计算出的位置p不一定为整数，而FFT结果中的分量位置为整数，故还应采取一定方法进行取数，以得到所需的声音信息，本发明所采用的方法有以下两种：

方法1：使用四舍五入法取整下标，则取得的数值（即提取出的声音信息）为x=f_[p],其中[p]表示对p进行四舍五入。

方法2：如图3所示，使用线性插值取数方式，记q为p向下取整的结果；则取得的数值（即提取出的声音信息）为x=(1-(p-q))*f_q+(p-q)*f_p。

以上两种方法中，方法1的效率较高，而方法2则能获得较高精度。在使用时，可根据实际的效率或精度要求进行灵活选取。

（2）将谷值位置的信息提取出来，可以得到相应的气音信息频谱图。

具体来说，设FFT窗对应位置的基频被测定为z赫兹，FFT的点数为2ⁿ，则FFT结果中的多个位置s=2ⁿz/a*(m-0.5)均为谷值所在的位置，其中，m>0,m为整数，0<s<2^n-1，记f₁，f₂，f₃…为FFT结果的各个分量。由上述公式计算出的位置s不一定为整数，而FFT结果中的分量位置为整数，故还应采取一定方法进行取数，以得到所需的气音信息，本发明所采用的方法有以下两种：

方法1：使用四舍五入法取整下标，则取得的数值（即提取出的气音信息）为k=f_[s],其中[s]表示对s进行四舍五入。

方法2：如图3所示，使用线性插值取数方式，记r为s向下取整的结果；则取得的数值（即提取出的气音信息）为k=(1-(s-r))*f_r+(s-r)*f_s。

（五）分别对声音信息和气音信息进行修改。

经过步骤（四）可以得到两张独立的频谱图，可根据实际需要在这两张频谱图上分别对声音信息和气音信息进行修改。

（六）合成修改后的声音信息和气音信息，得到最终的人声语音信号。

声音信息和气音信息的单独修改结束后，可根据声音信息和气音信息相互之间的位置关系进行排序将两张频谱图合成，以还原为语音信号。

本实施例具有的有益效果是：

1)能够将声音信息与气音信息进行分离，从而能实现对这两者的单独修改操作。

2)可以将修改后的声音信息与气音信息合成，以恢复成正常的人类声音语音信号，更加方便和全面。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种声气信号分离与合成的方法，其特征在于：包括：

B、根据原始的频谱图测定人声语音信号的基频；

2.根据权利要求1所述的一种声气信号分离与合成的方法，其特征在于：所述步骤A，其具体为：

3.根据权利要求2所述的一种声气信号分离与合成的方法，其特征在于：所述步骤A，其具体为：所述步骤B，其具体为：

4.根据权利要求2所述的一种声气信号分离与合成的方法，其特征在于：所述步骤D，其包括：

5.根据权利要求4所述的一种声气信号分离与合成的方法，其特征在于：所述将峰值的位置信息提取出来，得到声音信息频谱图这一步骤，其包括：

6.根据权利要求5所述的一种声气信号分离与合成的方法，其特征在于：所述步骤D12中采用四舍五入法或线性插值法进行处理，得到提取出的声音信息这一步骤，其具体为：

7.根据权利要求4所述的一种声气信号分离与合成的方法，其特征在于：所述将峰谷的位置的信息从原始的频谱图中提取出来，进而得到声音信息频谱图这一步骤，其包括：

8.根据权利要求7所述的一种声气信号分离与合成的方法，其特征在于：所述步骤D22中采用四舍五入法或线性插值法进行处理，得到提取出的气音信息这一步骤，其具体为：

9.根据权利要求1-8任一项所述的一种声气信号分离与合成的方法，其特征在于：所述步骤D在将峰值的位置信息和谷值的位置信息提取出来得到两张频谱图后，还需对这两张频谱图分别执行插值处理才能得到完整的声音信息频谱图和气音信息频谱图。

10.一种声气信号分离与合成的系统，其特征在于：包括：