CN108922557A

CN108922557A - 一种聊天机器人的多人语音分离方法及系统

Info

Publication number: CN108922557A
Application number: CN201810612893.3A
Authority: CN
Inventors: 刘宏哲; 张启坤
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2018-11-30

Abstract

本发明提供一种聊天机器人的多人语音分离方法及系统，其中方法包括使用麦克风采集语音信号得到混合信号，还包括以下步骤：对所述混合信号x进行预处理；随机生成解混矩阵w；采用负梯度下降法求所述解混矩阵w的负梯度方向；判断所述解混矩阵w是否收敛；使用改进差商法求最优解混矩阵；求源信号的估计信号；输出分离的语音。本发明提出的一种聊天机器人的多人语音分离方法及系统，解决FastICA算法的初值敏感性问题和分离多人混合语音时计算量大的问题，引入负梯度下降法，克服初值敏感性，增强算法收敛稳定性；提出改进差商法，代替FastICA的优化算法——牛顿法，避免因求导和雅可比矩阵计算导致的计算量大的问题。

Description

一种聊天机器人的多人语音分离方法及系统

技术领域

本发明涉及数字信号处理与计算机听觉的技术领域，特别是一种聊天机器人的多人语音分离方法及系统。

背景技术

随着互联网和人工智能技术的高速发展，我们的生活方式和工作方式都有了很大的改变，最好的证明就是智能语音技术在人机交互中的广泛应用。在现实生活中，感兴趣的语音信号通常会被其它来源的环境背景噪声、其他说话人的语音以及表面反射产生的混响等各种问题干扰。这些问题很大程度上会降低语音的可懂度，并且导致后续语音识别、声纹识别性能的下降。针对背景噪声、其他人干扰语音的影响，必须要进行多人混合语音分离处理。对于多人场景下的语音分离问题，独立成分分析(Independent Component Analysis,ICA)是最著名的解决方法。针对快速独立成分分析(Fast fixed-point algorithm forICA,FastICA)的缺陷：(1)初值敏感性问题，收敛稳定性易受初值矩阵选择的影响；(2)迭代过程计算量大、比较耗时的问题。我们提出一种改进的FastICA语音分离算法解决上述问题。首先引入负梯度下降法解决初值敏感性问题，然后提出改进差商法减少计算量，加快收敛速度。

公开号为CN103811020A的发明专利公开了一种智能语音处理方法，本发明通过建立对话人声音模型库，实现在多人语音环境下智能识别多个对话人的身份同时分离混合语音得到每个对话人的独立语音，根据用户需求为用户放大要听取的对话人的语音同时消除非用户要求的对话人的语音。该申请存在以下问题：(1)需要建立对话人声音模型库，语音分离的实时性不足。(2)模型泛化性、可移植性不好。不同的背景噪声和不同的其他说话人的干扰声音训练的模型不同，当前场景训练的模型并不适用于其他的背景噪声和说话人干扰声音的场景。

发明内容

为了解决上述的技术问题，本发明提出的一种聊天机器人的多人语音分离方法及系统，不用建立模型库，也不用识别说话人的身份，实时性更好，不需要训练模型，适用性更好。本发明主要解决了FastICA算法的初值敏感性问题和分离多人混合语音时计算量大的问题，引入负梯度下降法，克服初值敏感性，增强算法收敛稳定性；提出改进差商法，代替FastICA的优化算法——牛顿法，避免因求导和雅可比矩阵计算导致的计算量大的问题。

本发明的第一目的是提供一种聊天机器人的多人语音分离方法，包括使用麦克风采集语音信号得到混合信号，还包括以下步骤：

步骤1：对所述混合信号x进行预处理；

步骤2：随机生成解混矩阵w；

步骤3：采用负梯度下降法求所述解混矩阵w的负梯度方向；

步骤4：判断所述解混矩阵w是否收敛；

步骤5：使用改进差商法求最优解混矩阵；

步骤6：求源信号的估计信号；

步骤7：输出分离的语音。

优选的是，所述步骤1包括以下子步骤：

步骤11：对所述混合信号x进行中心化处理，

其中，i＝1…..n，n为实系数；

步骤12：进行PCA白化处理，

z＝Vx＝ED^-1/2E^Tx

其中，V为白化矩阵，E为中心化数据的特征向量构成的正交矩阵，D为特征向量对应的特征值构成的对角矩阵，E^T为E转置矩阵。

在上述任一方案中优选的是，所述步骤3包括以下子步骤：

步骤31：计算E{zg(w^Tz)}在w_i处的负梯度值，计算每次迭代的修正参数λ，

其中，z为白化向量；

步骤32：沿负梯度方向迭代更新所述解混矩阵w，

在上述任一方案中优选的是，所述步骤4中判断所述解混矩阵w收敛的公式为|w_n+1-w_n|<ε，其中，ε为收敛门限。

在上述任一方案中优选的是，所述步骤5包括以下子步骤：

步骤51：采用基于改进差商法的FastICA语音分离算法迭代更新所述解混矩阵w；

步骤52：如果所述解混矩阵w收敛，则算法收敛，停止迭代；否则返回步骤51。

在上述任一方案中优选的是，所述FastICA语音分离算法的迭代优化公式如下

在上述任一方案中优选的是，所述步骤52中判断所述解混矩阵w收敛的公式为|w_n+1-w_n|<ε，其中，ε为收敛门限。

在上述任一方案中优选的是，所述步骤6为将收敛后的最优所述解混矩阵w与白化变量z相乘，得到源信号的估计信号y，公式为y＝w_n+1 ^Tz。

本发明的第二目的是提供一种聊天机器人的多人语音分离系统，包括用于使用麦克风采集语音信号得到混合信号的语音采集模块，还包括以下模块：

解混矩阵生成模块：对所述混合信号x进行预处理，随机生成解混矩阵w，并对所述解混矩阵w进行初处理；

解混矩阵优化模块：使用改进差商法求最优解混矩阵，求源信号的估计信号并输出分离的语音。

优选的是，所述预处理的方法包括以下子步骤：

步骤11：对所述混合信号x进行中心化处理，

其中，i＝1…..n，n为实系数；

步骤12：进行PCA白化处理，

z＝Vx＝ED^-1/2E^Tx

在上述任一方案中优选的是，所述初处理包括：

1)采用负梯度下降法求所述解混矩阵w的负梯度方向；

2)判断所述解混矩阵w是否收敛。

在上述任一方案中优选的是，求解所述负梯度方向的方法步骤如下：

其中，z为白化向量；

步骤32：沿负梯度方向迭代更新所述解混矩阵w

在上述任一方案中优选的是，判断所述解混矩阵w收敛的公式为|w_n+1-w_n|<ε，其中，ε为收敛门限。

在上述任一方案中优选的是，所述使用改进差商法求最优解混矩阵的方法包括以下子步骤：

在上述任一方案中优选的是，所述求源信号的估计信号的方法为将收敛后的最优所述解混矩阵w与白化变量z相乘，得到源信号的估计信号y，公式为y＝w_n+1 ^Tz。

本发明提出了一种聊天机器人的多人语音分离方法及系统，克服了FastICA算法的初值敏感性问题，增强算法收敛稳定性；减少了FastICA算法在多人环境中的处理多人混合语音计算量、比较耗时的问题；增加了语音分离算法的稳定性，加快了分离的速度，可以更好、更快的完成多人场景下的语音分离。

附图说明

图1为按照本发明的聊天机器人的多人语音分离方法的一优选实施例的流程图。

图2为按照本发明的聊天机器人的多人语音分离系统的一优选实施例的模块图。

图3为按照本发明的聊天机器人的多人语音分离方法的另一优选实施例的FastICA算法流程图。

图4为按照本发明的聊天机器人的多人语音分离方法的如图3所示实施例的改进的FastICA算法流程图。

图5为按照本发明的聊天机器人的多人语音分离方法的如图3所示实施例的负梯度下降法示意图。

图6为按照本发明的聊天机器人的多人语音分离方法的如图3所示实施例的改进差商法示意图。

图7为按照本发明的聊天机器人的多人语音分离方法的如图3所示实施例的多人语音分离示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图1、2所示，执行步骤100，语音采集模块200使用麦克风采集语音信号得到混合信号。执行步骤110，语音采集模块200对所述混合信号x进行预处理。执行步骤111，对所述混合信号x进行中心化处理，

其中，i＝1…..n，n为实系数。执行步骤112，进行PCA白化处理，

z＝Vx＝ED^-1/2E^Tx

执行步骤120，解混矩阵生成模块210随机生成解混矩阵w。

执行步骤130，采用负梯度下降法求所述解混矩阵w的负梯度方向。

执行步骤131，计算E{zg(w^Tz)}在w_i处的负梯度值，计算每次迭代的修正参数λ，

其中，z为白化向量。执行步骤132，沿负梯度方向迭代更新所述解混矩阵w，

执行步骤140，判断所述解混矩阵w是否收敛。如果w收敛，即|w_n+1-w_n|<ε，则w_n+1为局部最优的初始值，停止迭代。否则，返回步骤132继续迭代。

执行步骤150，解混矩阵优化模块220使用改进差商法求最优解混矩阵。执行步骤151，采用基于改进差商法的FastICA语音分离算法迭代更新所述解混矩阵w，FastICA语音分离算法的迭代优化公式如下

执行步骤152，判断所述解混矩阵w是否收敛。如果w收敛，即|w_n+1-w_n|<ε，则w_n+1为局部最优的初始值，停止迭代。否则，返回步骤151继续迭代。

执行步骤160，求源信号的估计信号，将收敛后的最优所述解混矩阵w与白化变量z相乘，得到源信号的估计信号y，公式为y＝w_n+1 ^Tz。

执行步骤170，输出分离的语音。

实施例二

本申请的目的在于解决FastICA算法的初值敏感性问题和分离多人混合语音时计算量大的问题，提出了一种基于负梯度下降法和改进差商法的FastICA语音分离方法：(1)引入负梯度下降法，克服初值敏感性，增强算法收敛稳定性；(2)提出改进差商法，代替FastICA的优化算法——牛顿法，避免因求导和雅可比矩阵计算导致的计算量大的问题。

独立成分分析(Independent component analysis,ICA)是处理类似于“鸡尾酒会问题”的多人混合语音的代表性方法。ICA方法假定每个源信号之间都是统计独立的，根据源信号的统计特性，从混合观测信号中分离出源信号的各个具有非高斯性的独立成分。

一般将ICA模型用向量-矩阵符号的方式表示更为简洁。用随机变量x来表示n个不同的语音信号x_i构成的观测混合变量，其元素分别是x₁，x₂，…，x_n。同样地，用隐变量s来表示n个独立成分元素s₁，s₂，…，s_n构成的向量。用矩阵A表示混合系数a_ij构成的矩阵。所以，ICA观测混合模型为：x＝As。

语音分离是通过已知的观测信号x估计出未知的独立源信号s和混合矩阵A，使得分离信号y能够尽可能地逼近源信号S。

为了实现上述目的，本发明采取了如下的技术方案：

步骤1：采集多人场景下的混合语音数据。

步骤2：进行预处理，中心化处理去除背景噪声，白化处理去除不同人混合语音之间的相关性。

预处理对于语音分离非常重要，中心化处理能够降低环境噪声的干扰，白化处理去除不同人的混合语音之间的相关性。尤其是用PCA进行白化处理，不仅可以进行数据降维，而且当观测信号的数量多于源信号数量时，经过PCA算法处理可以将观测信号数量降到与源信号数量相同，保证ICA模型可以进行。

如图3所示，标准的FastICA算法的流程图，其中预处理是后续优化过程的基础。其中PCA白化处理是最为重要的一步，寻找混合信号中的主要分量，去除不同分量的相关性，区分出不同分量。主要分量是主信号(主要说话人)；而次要分量被认为是噪音或(次要说话人)。

如图4所示，改进的FastICA算法的流程图，先进行预处理(中心化和白化)，再利用负梯度下降法优化初值解混矩阵，再通过改进差商法进行迭代优化，最后求得分离信号Y。

步骤2-1：中心化处理：

中心化处理主要是对混合信号去均值，对数据进行简化，同时降低噪声的影响。具体来说，从观测向量中减去观测向量的平均值，使得观测向量成为零均值向量，也称为中心化数据。

步骤2-2：PCA白化处理：z＝Vx＝ED^-1/2E^Tx。

每个人的音色各不相同，所以不同人的语音信号可以看作相互独立的，这一特点刚好符合PCA算法的特点，所以可以用PCA算法去除混合语音中的相关性，实现降维和去噪。白化处理主要是对观测信号的零均值向量的协方差矩阵进行特征值分解，用主成分分析(PCA)进行白化处理。这样不仅可以进行数据降维，而且当观测信号的数量多于源信号数量时，经过PCA算法处理可以将观测信号数量降到与源信号数量相同。

白化过程可以看作是将新得到的零均值向量x与某个矩阵V进行线性相乘，得到的向量z即为白化向量，即：z＝Vx＝ED^-1/2E^Tx，其中E表示中心化数据的特征向量构成的正交矩阵，D＝diag(d₁，……d_n)表示特征向量对应的特征值构成的对角矩阵，表示把对角矩阵的元素逐个开方。

步骤3：随机生成解混矩阵w。

步骤4：负梯度下降法求w负梯度方向。

FastICA算法可以简单理解为找到一个方向，即一个单位向量w，使得隐藏在混合信号中的独立成分的投影y＝wx的非高斯性达到最大值的迭代算法。一般用负熵J_G(w)来描述语音信号的非高斯性，即：J_G(w)＝E{G(w^Tz)}+β(‖w‖²-1)，G(.)表示任意的非二次函数，一般选用根据拉格朗日条件，E{G(w^Tz)}在E{(w^Tz)²}＝‖w‖²＝1条件下的极值，是在拉格朗日函数的梯度为零的点处取得。所以求负熵J_G(w)最大值问题可以转化为求E{G(w^Tz)}的极大值问题，两边求偏导，令偏导等于零求极值点，可得：E{zg(w^Tz)}+βw＝0。令目标函数F(w)为：F(w)＝E{zg(w^Tz)}+βw。

负梯度下降法，通常求f(x)的极小值点x^*，一般从x₀出发，找到一个方向p(x)，令x_n+1＝x_n+λp(x)，其中λ为迭代步长，也就是修正参数，得到梯度下降法的目标函数：

f(x_n+1)＝minf(x_n+λp(x_n))，结合F(w)可知：p(w)＝E{zg(w^Tz)}。

步骤4-1：计算E{zg(w^Tz)}在w_i处的负梯度值，计算每次迭代的修正参数λ，

其中，z为白化向量。

步骤4-2：沿负梯度方向迭代更新解混矩阵w，

负梯度下降法，求取负梯度方向进行迭代，不但增强算法收敛稳定性，提高算法的鲁棒性，而且的迭代初期能够加快收敛速度。

步骤5：判断是否收敛：如果w收敛，即|w_n+1-w_n|<ε，则w_n+1为局部最优的初始值，停止迭代。否则，返回步骤4-2继续迭代。

根据中心极限定理，具有非高斯性的独立成分的混合信号属于混合高斯分布，根据正态分布3-σ原则，一般取ε＝0.00135。

步骤6：改进差商法求最优解混矩阵，免了求导运算，降低了目标函数的计算量，加快迭代的速度，是非常有效的方法。

差商法是在牛顿迭代法的变形，用函数f(x)曲线上两点(x_n,f(x_n))和(x_n-1,f(x_n-1))弦的斜率近似的代替函数f(x)在点(x_n,f(x_n))处的切线斜率，即：

可推导出迭代公式为：

虽然差商法很大程度上减少了迭代过程中的计算量，但是差商法的收敛阶数为1.618，略低于牛顿迭代法的二阶收敛阶数，迭代速度稍显不足。为了改善差商法收敛阶数不足、迭代速度略慢的缺陷，我们提出改进差商法。这样既能加快迭代速度，又能减少每次迭代过程中的计算量。改进差商法如下：

理论上，迭代方法的收敛阶数越高，迭代收敛速度越快。改进差商法的收敛阶数为2.414，明显大于牛顿法的2阶收敛。改进弦截法的收敛阶数为2.414，明显大于牛顿法的二阶收敛阶数。所以我们提出的改进差商法的迭代收敛速度理论上比牛顿法更快。

所以，可以得到改进差商法的FastICA算法关于解混矩阵w的迭代形式：

所以基于改进差商法的FastICA语音分离算法的迭代优化公式为：

步骤6-1：迭代更新w：带入上式。

步骤6-2：如果w收敛，即|w_n+1-w_n|<ε，根据正态分布4-σ原则取ε＝0.00135，则算法收敛，停止迭代。否则返回步骤6-1；

步骤7：求源信号的估计信号：y＝w_n+1 ^T。

将收敛后的最优解混矩阵w与白化变量z相乘，得到源信号的估计信号y。

步骤8：输出分离的语音。

本发明通过可行的技术方案，具有以下几点有益效果：

1.克服了FastICA算法的初值敏感性问题，增强算法收敛稳定性。

2.减少了FastICA算法在多人环境中的处理多人混合语音计算量、比较耗时的问题；

3.本发明增加了语音分离算法的稳定性，加快了分离的速度，可以更好、更快的完成多人场景下的语音分离。

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种聊天机器人的多人语音分离方法，包括使用麦克风采集语音信号得到混合信号，其特征在于，还包括以下步骤：

步骤1：对所述混合信号x进行预处理；

步骤2：随机生成解混矩阵w；

步骤3：采用负梯度下降法求所述解混矩阵w的负梯度方向；

步骤4：判断所述解混矩阵w是否收敛；

步骤5：使用改进差商法求最优解混矩阵；

步骤6：求源信号的估计信号；

步骤7：输出分离的语音。

2.如权利要求1所述的聊天机器人的多人语音分离方法，其特征在于：所述步骤1包括以下子步骤：

步骤11：对所述混合信号x进行中心化处理，

其中，i＝1…..n，n为实系数；

步骤12：进行PCA白化处理，

z＝Vx＝ED^-1/2E^Tx

3.如权利要求2所述的聊天机器人的多人语音分离方法，其特征在于：所述步骤3包括以下子步骤：

其中，z为白化向量；

步骤32：沿负梯度方向迭代更新所述解混矩阵w，

4.如权利要求3所述的聊天机器人的多人语音分离方法，其特征在于：所述步骤4中判断所述解混矩阵w收敛的公式为|w_n+1-w_n|<ε，其中，ε为收敛门限。

5.如权利要求4所述的聊天机器人的多人语音分离方法，其特征在于：所述步骤5包括以下子步骤：

6.如权利要求5所述的聊天机器人的多人语音分离方法，其特征在于：所述FastICA语音分离算法的迭代优化公式如下

7.如权利要求5所述的聊天机器人的多人语音分离方法，其特征在于：所述步骤52中判断所述解混矩阵w收敛的公式为|w_n+1-w_n|<ε，其中，ε为收敛门限。

8.如权利要求6所述的聊天机器人的多人语音分离方法，其特征在于：所述步骤6为将收敛后的最优所述解混矩阵w与白化变量z相乘，得到源信号的估计信号y，公式为y＝w_n+ ₁ ^Tz。

9.一种聊天机器人的多人语音分离系统，包括用于使用麦克风采集语音信号得到混合信号的语音采集模块，其特征在于，还包括以下模块：

10.如权利要求9所述的聊天机器人的多人语音分离系统，其特征在于：所述预处理的方法包括以下子步骤：

步骤11：对所述混合信号x进行中心化处理，

其中，i＝1…..n，n为实系数；

步骤12：进行PCA白化处理，

z＝Vx＝ED^-1/2E^Tx