CN106653048B

CN106653048B - 基于人声模型的单通道声音分离方法

Info

Publication number: CN106653048B
Application number: CN201611237076.1A
Authority: CN
Inventors: 曹裕行
Original assignee: Unisound Shanghai Intelligent Technology Co Ltd
Current assignee: Xiamen Yunzhixin Intelligent Technology Co Ltd; Unisound Shanghai Intelligent Technology Co Ltd
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2019-10-15
Anticipated expiration: 2036-12-28
Also published as: CN106653048A

Abstract

本发明涉及一种基于人声模型的单通道声音分离方法，包括如下步骤：利用源滤波器模型建立人声模型，所建立的人声模型包括声带振动功率模型和声道口腔的滤波滤波器模型；提供输入信号；利用所述声带振动功率模型和所述声道口腔的滤波滤波器模型构建所述输入信号的人声功率；构建所述输入信号的背景声功率；依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱；以及求解重建的信号功率谱中的人声功率和背景声功率，并根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号。本发明的单通道声音分离方法可以在极端嘈杂的情况下分离出人声和背景声，可以用于语音增强和人声提取等领域，实用性较强。

Description

基于人声模型的单通道声音分离方法

技术领域

本发明涉及声音分离技术领域，特指一种基于人声模型的单通道声音分离方法。

背景技术

语噪分离(Speech and noise separation)是为了实现在复杂噪声环境中分离出目标说话语音而对带噪语音所做的处理，其中主要目标是消除环境噪声对语音的干扰，提高语音质量。语噪分离可以说是语音增强(Speech Enhancement)算法的一种扩展，其处理的噪声甚至可以包括其他说话人语音。

随着计算机信号处理技术和互联网技术的不断发展，单通道声音分离技术越来越受人们重视，其可以用于语音增强、人声提取等领域。该单通道声音分离技术在很多系数都会用到，比如KTV系统中音乐伴奏的获得，KTV系统歌唱水平打分中人声的获得，音乐推荐系统中利用歌唱者声音特质来推荐音乐等，为了保证系数有较好的性能，必须得到较为纯净的伴奏或者人声，由于现实中音乐信号大部分是单通道音乐信号，所以单通道音乐人声分离技术在这些系统中能够得到广泛的应用。然而，现在针对单通道声音分离技术还远远不能达到人耳系统的性能，因此对于单通道声音分离技术提出一种新的分离方法显得尤为重要。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种基于人声模型的单通道声音分离方法，解决现有分离技术不能达到人耳系统的性能问题。

实现上述目的的技术方案是：

本发明提供了一种基于人声模型的单通道声音分离方法，包括如下步骤：

利用源滤波器模型建立人声模型，所建立的人声模型包括声带振动功率模型和声道口腔的滤波滤波器模型；

提供输入信号；

利用所述声带振动功率模型和所述声道口腔的滤波滤波器模型构建所述输入信号的人声功率；

构建所述输入信号的背景声功率；

依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱；以及

求解重建的信号功率谱中的人声功率和背景声功率，并根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号。

本发明的单通道声音分离方法可以在极端嘈杂的情况下分离出人声和背景声，其分离出的信号能够达到人耳听觉系统的要求，本发明的分离方法采用源滤波器模型，将人的发声简化为声带振动和声道口腔的滤波的卷积，再针对两者进行建模，根据所建立的模型构建出输入信号的人声功率和背景声功率，再通过重建输入信号的信号功率谱，求解出人声功率和背景声功率，从而很好的将人声和背景声从输入信号中分离。本发明的单通道声音分离方法可以用于语音增强，比如电话会议、人机交互等，还可以用于人声提取，比如从单通道的音乐信号中提取出人声和伴奏带，实用性较强。

本发明基于人声模型的单通道声音分离方法的进一步改进在于，利用源滤波器模型建立人声模型，包括：

基于源滤波器模型将人声简化为声带振动e和声道口腔的滤波g的卷积；

构建声带振动功率模型：将所述声带振动e的时域波形利用短时傅里叶变换变换到频域，以变换得到的声带振动e的频域波形从而得到对应的幅度谱，根据声道振动e的幅度谱计算得出对应的功率谱以实现声带振动功率模型的构建；

构建声道口腔的滤波滤波器模型：设定滤波器的形状有k个，每一形状用p个不同的位置的窗函数进行线性组合从而组合得出k个形状的滤波器，将组合出的滤波器变换到频域以获得滤波器的频域波形从而得到对应的幅度谱，根据滤波器的幅度谱计算得出对应的功率谱以实现声道口腔滤波滤波器模型的构建。

本发明基于人声模型的单通道声音分离方法的进一步改进在于，构建声带振动功率模型，还包括：

采用KLGLOTT88模型计算声带振动e的时域波形：

式一和式二中，O_q为声带开闭的参数，O_q的取值为0.5，F(u)为第u个声带激励对应的频率，c_h为第h次谐波幅度，e_u(t)为声带振动e的时域波形，T_s为采样周期；

将所述声带振动e的时域波形利用短时傅里叶变换变换到频域时得到如下公式：

E_u(f)＝STFT(e_u) (式三)

式三中，E_u(f)为的声带振动e的频域波形；

第u个声带激励对应的频率F(u)表示为：

式四表示u与频率f的对应关系；

第u个声带激励产生的波形变换到频域后并计算出对应的功率谱为：

式五中，为频率f的功率幅度值。

本发明基于人声模型的单通道声音分离方法的进一步改进在于，利用所述声带振动功率模型和所述声道口腔的滤波滤波器模型构建所述输入信号的人声功率，包括：

估计出所述输入信号当前帧的人声基频，利用所述人声基频查找所述声带振动功率模型的功率谱中对应的功率幅度值，则声带激励部分的功率表示为：

式六中，S(f)表示声带激励在频率f处的功率，u₀为与人声基频最接近的声带激励；

表示第u₀个声带激励产生的波形变换到频域后，在频率f的功率幅度值；

利用所述声道口腔的滤波滤波器模型计算滤波器在频率f的功率：

式七中，F(f)表示滤波器在频率f的功率，是由滤波器模型乘以其对应的激活系数H组成，H_k(f)为第k个滤波器在频率f的激活系数，G_k(f)为第k个滤波器在频率f的功率幅值；

由式六和式七构建人声功率：

本发明基于人声模型的单通道声音分离方法的进一步改进在于，构建所述输入信号的背景声功率，包括：

设定背景声的功率由背景声模型M和其对应的系数C组成：

式九中，S^M(f)表示背景声在频率f的功率，是由背景声模型M乘以其对应的系数C组成，背景声含有J个形状，M_j(f)为第j个背景声在频率f的功率幅值，C_j(f)为第j个背景声在频率f的系数。

本发明基于人声模型的单通道声音分离方法的进一步改进在于，依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱，包括：

式十由式八和式九得出，式十中的S^X(f)为重建的信号功率谱。

本发明基于人声模型的单通道声音分离方法的进一步改进在于，求解重建的信号功率谱中的人声功率和背景声功率，包括：

利用EM求解式十的信号功率谱；

将求解问题抽象成最小化方程：

min D(|X|²|S^X) (式十一)

式十一中，X为输入信号，|X|²表示输入信号的功率谱，S^X为重建的信号功率谱，D为代价函数，利用EM迭代方法求解出激活系数H、背景声模型M和背景声模型M对应的系数C。

本发明基于人声模型的单通道声音分离方法的进一步改进在于，根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号，包括：

利用维纳滤波求解出所述输入信号中的人声信号并予以输出；和/或

利用维纳滤波求解出所述输入信号中的背景声信号并予以输出。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本发明提供了一种基于人声模型的单通道声音分离方法，可以在极端嘈杂的情况下分离出人声，分离出的人声信号质量较高。该单通道声音分离方法可以用于语音增强，比如电话会议、人机交互场景，还能实现人声提取，比如可用于从MP3的音乐信号中提取出人声和伴奏带，伴奏可以用于KTV演唱，人声可以用于用户歌唱水平打分。本发明的单通道声音分离方法应用范围广，实用性强。下面对本发明基于人声模型的单通道声音分离方法进行说明。

该单通道声音分离方法采用源滤波器(source-filter)模型来建模人声，源滤波器模型中经常做出的重要假设是源和滤波器的独立性。本发明也利用这一假设，假设信号X由人声V和背景声M独立，则有：

X＝V+M (方程式一)

由上述的独立性假设可得：

S^X(f)＝S^V(f)+S^M(f) (方程式二)

方程式二中，f为频率，S^X为信号X的功率，S^V为人声V的功率，S^M为背景声M的功率。

采用源滤波器模型来建模人声，人的发声可以简化为声带振动e和声道口腔的滤波g的卷积，由此得到人声的功率谱：

S^V(f)＝F(f)*S(f) (方程式三)

方程式三中，S^V为人声的功率，F(f)为声道口腔的滤波g对应的功率谱在频率f处的幅值，S(f)为声带振动e对应的功率谱在频率f处的幅值。

利用源滤波器模型建立人声模型，所建立的人声模型包括声带振动功率模型和声道口腔的滤波滤波器模型；包括：

构建声带振动功率模型：将声带振动e的时域波形利用短时傅里叶变换变换到频域，以变换得到的声带振动e的频域波形从而得到对应的幅度谱，根据声带振动e的幅度谱计算得出对应的功率谱以实现声带振动功率模型的构建，针对声带振动e的幅度谱求平方之后得到对应的功率谱；具体地，包括：

采用KLGLOTT88模型计算声带振动e的时域波形：

式一和式二中，O_q为声带开闭的参数，O_q的取值为0.5，F(u)为第u个声带激励对应的频率，c_h为第h次谐波幅度，e_u(t)为声带振动e的时域波形，T_s为采样周期；上述的KLGLOTT88模型可参见引文(D.Klatt and L.Klatt，“Analysis，synthesis，andperception of voice quality variations among female and male talkers，”Journalof the Acoustical Society of America，vol.87，no.2，pp.820-857，1990)。

将声带振动e的时域波形利用短时傅里叶变换(STFT)变换到频域时得到如下公式：

E_u(f)＝STFT(e_u) (式三)

式三中，E_u(f)为的声带振动e的频域波形；

根据心理声学，人对频率的感知是非线性的，故而可按照log域将频率离散成多个点，其不会影响声音的和谐，音程足够满足人耳的听觉要求。假设人的发音基频在100Hz至800Hz之间，也就是三个八度，假设每个八度平均离散成48个声带激励(source)点，那么总共有145个声带激励点，则第u个声带激励对应的频率F(u)表示为：

式四表示u与频率f的对应关系，这样根据式四可以找到与频率f最接近的u；

式五中，为频率f的功率幅度值。

构建声道口腔的滤波滤波器模型：

由于人能发有限数量的元音，所以只需要构建有限数量个的滤波器(filter)。设定滤波器的形状有k个，每一形状用p个不同的位置的窗函数进行线性组合从而组合得出k个形状的滤波器，将组合出的滤波器变换到频域以获得滤波器的频域波形从而得到对应的幅度谱，根据滤波器的幅度谱计算得出对应的功率谱以实现声道口腔的滤波滤波器模型的构建。利用幅度谱求平方得到对应的功率谱。第k个滤波器在频率f的功率幅值为G_k(f)。较佳地，将k取值为10，p为30。窗函数可以采用hanning窗(汉宁窗)、高斯窗、或者海明(Hamming)窗等。

提供输入信号，该输入信号即为待进行分离的信号；

利用声带振动功率模型和声道口腔的滤波滤波器模型构建输入信号的人声功率；包括：

估计出输入信号当前帧的人声基频f₀，可以利用谐波和的方法估计出当前帧的人声的基频。利用人声基频f₀查找声带振动功率模型的功率谱中对应的功率幅度值

则声带激励部分的功率表示为：

式六中，S(f)表示声带激励在频率f处的功率，u₀为与人声基频最接近的声带激励，该u₀可通过式四计算得出；

利用声道口腔的滤波滤波器模型计算滤波器在频率f的功率：

由式六和式七构建人声功率：

构建输入信号的背景声功率；

设定背景声的功率由背景声模型M和其对应的系数C组成：

式九中，S^M(f)表示背景声在频率f的功率，是由背景声模型M乘以其对应的系数C组成，背景声含有了个形状，M_j(f)为第j个背景声在频率f的功率幅值，C_j(f)为第j个背景声在频率f的系数。较佳地，J的取值为40。

依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱；包括：

式十由式八和式九得出，式十中的S^X(f)为重建的信号功率谱。其中式十中的人声的滤波器的激活系数H、背景声模型M和背景声模型M对应的系数C是待求的数值。而

和G_k都是已经构建好的模型，为已知。

其中求解重建的信号功率谱中的人声功率和背景声功率，包括：

利用EM求解式十的信号功率谱；

将求解问题抽象成最小化方程：

min D(|X|²|S^X) (式十一)

式十一中，X为输入信号，|X|²表示输入信号的功率谱，S^X为重建的信号功率谱，D为代价函数，该常用的代价函数有欧式距离、KL散度等。利用EM迭代方法求解出激活系数H、背景声模型M和背景声模型M对应的系数C。

其中根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号，包括：

利用维纳滤波求解出输入信号中的人声信号并予以输出；和/或

利用维纳滤波求解出输入信号中的背景声信号并予以输出。

根据方程式一，可得：

在需要提取出人声时，利用维纳滤波可以得出人声信号，具体参见式十二，在需要提取出背景声时，利用维纳滤波可以得出背景声信号，具体参见式十三。

本发明基于人声模型的单通道声音分离方法的有益效果为：

本发明不需要任何训练数据，实现过程简单，可以直接对单通道的音频进行人声分离，并且能够实现在非常嘈杂的情况下分离出人声，还能够确保分离出的人声和背景声的语音质量。

以上结合实施例对本发明进行了详细说明，本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而，实施例中的某些细节不应构成对本发明的限定，本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims

1.一种基于人声模型的单通道声音分离方法，其特征在于，包括如下步骤：

利用源滤波器模型建立人声模型，所建立的人声模型包括声带振动功率模型和声道口腔的滤波滤波器模型；利用源滤波器模型建立人声模型，包括：

提供输入信号；

构建所述输入信号的背景声功率；

2.如权利要求1所述的基于人声模型的单通道声音分离方法，其特征在于，利用源滤波器模型建立人声模型，还包括：

构建声带振动功率模型：将所述声带振动e的时域波形利用短时傅里叶变换变换到频域，以变换得到的声带振动e的频域波形从而得到对应的幅度谱，根据声带振动e的幅度谱计算得出对应的功率谱以实现声带振动功率模型的构建；

构建声道口腔的滤波滤波器模型：设定滤波器的形状有k个，每一形状用p个不同的位置的窗函数进行线性组合从而组合得出k个形状的滤波器，将组合出的滤波器变换到频域以获得滤波器的频域波形从而得到对应的幅度谱，根据滤波器的幅度谱计算得出对应的功率谱以实现声道口腔的滤波滤波器模型的构建。

3.如权利要求2所述的基于人声模型的单通道声音分离方法，其特征在于，构建声带振动功率模型，还包括：

采用KLGLOTT88模型计算声带振动e的时域波形：

E_u(f)＝STFT(e_u) (式三)

式三中，E_u(f)为的声带振动e的频域波形；

第u个声带激励对应的频率F(u)表示为：

式四表示u与频率f的对应关系；

式五中，

为频率f的功率幅度值。

4.如权利要求2所述的基于人声模型的单通道声音分离方法，其特征在于，利用所述声带振动功率模型和所述声道口腔的滤波滤波器模型构建所述输入信号的人声功率，包括：

由式六和式七构建人声功率：

5.如权利要求4所述的基于人声模型的单通道声音分离方法，其特征在于，构建所述输入信号的背景声功率，包括：

设定背景声的功率由背景声模型M和其对应的系数C组成：

6.如权利要求5所述的基于人声模型的单通道声音分离方法，其特征在于，依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱，包括：

7.如权利要求6所述的基于人声模型的单通道声音分离方法，其特征在于，求解重建的信号功率谱中的人声功率和背景声功率，包括：

利用EM求解式十的信号功率谱；

将求解问题抽象成最小化方程：

minD(|X|²|S^X) (式十一)

8.如权利要求1所述的基于人声模型的单通道声音分离方法，其特征在于，根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号，包括：