CN108922557A - 一种聊天机器人的多人语音分离方法及系统 - Google Patents
一种聊天机器人的多人语音分离方法及系统 Download PDFInfo
- Publication number
- CN108922557A CN108922557A CN201810612893.3A CN201810612893A CN108922557A CN 108922557 A CN108922557 A CN 108922557A CN 201810612893 A CN201810612893 A CN 201810612893A CN 108922557 A CN108922557 A CN 108922557A
- Authority
- CN
- China
- Prior art keywords
- matrix
- mixed
- signal
- speech separation
- chat robots
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 50
- 239000011159 matrix material Substances 0.000 claims abstract description 91
- 238000000034 method Methods 0.000 claims abstract description 73
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- 238000011478 gradient descent method Methods 0.000 claims abstract description 15
- 238000005457 optimization Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 26
- 230000002087 whitening effect Effects 0.000 claims description 22
- 230000035945 sensitivity Effects 0.000 abstract description 10
- 238000009795 derivation Methods 0.000 abstract description 3
- 238000012880 independent component analysis Methods 0.000 description 12
- 238000000513 principal component analysis Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000452 restraining effect Effects 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供一种聊天机器人的多人语音分离方法及系统,其中方法包括使用麦克风采集语音信号得到混合信号,还包括以下步骤:对所述混合信号x进行预处理;随机生成解混矩阵w;采用负梯度下降法求所述解混矩阵w的负梯度方向;判断所述解混矩阵w是否收敛;使用改进差商法求最优解混矩阵;求源信号的估计信号;输出分离的语音。本发明提出的一种聊天机器人的多人语音分离方法及系统,解决FastICA算法的初值敏感性问题和分离多人混合语音时计算量大的问题,引入负梯度下降法,克服初值敏感性,增强算法收敛稳定性;提出改进差商法,代替FastICA的优化算法——牛顿法,避免因求导和雅可比矩阵计算导致的计算量大的问题。
Description
技术领域
本发明涉及数字信号处理与计算机听觉的技术领域,特别是一种聊天机器人的多人语音分离方法及系统。
背景技术
随着互联网和人工智能技术的高速发展,我们的生活方式和工作方式都有了很大的改变,最好的证明就是智能语音技术在人机交互中的广泛应用。在现实生活中,感兴趣的语音信号通常会被其它来源的环境背景噪声、其他说话人的语音以及表面反射产生的混响等各种问题干扰。这些问题很大程度上会降低语音的可懂度,并且导致后续语音识别、声纹识别性能的下降。针对背景噪声、其他人干扰语音的影响,必须要进行多人混合语音分离处理。对于多人场景下的语音分离问题,独立成分分析(Independent Component Analysis,ICA)是最著名的解决方法。针对快速独立成分分析(Fast fixed-point algorithm forICA,FastICA)的缺陷:(1)初值敏感性问题,收敛稳定性易受初值矩阵选择的影响;(2)迭代过程计算量大、比较耗时的问题。我们提出一种改进的FastICA语音分离算法解决上述问题。首先引入负梯度下降法解决初值敏感性问题,然后提出改进差商法减少计算量,加快收敛速度。
公开号为CN103811020A的发明专利公开了一种智能语音处理方法,本发明通过建立对话人声音模型库,实现在多人语音环境下智能识别多个对话人的身份同时分离混合语音得到每个对话人的独立语音,根据用户需求为用户放大要听取的对话人的语音同时消除非用户要求的对话人的语音。该申请存在以下问题:(1)需要建立对话人声音模型库,语音分离的实时性不足。(2)模型泛化性、可移植性不好。不同的背景噪声和不同的其他说话人的干扰声音训练的模型不同,当前场景训练的模型并不适用于其他的背景噪声和说话人干扰声音的场景。
发明内容
为了解决上述的技术问题,本发明提出的一种聊天机器人的多人语音分离方法及系统,不用建立模型库,也不用识别说话人的身份,实时性更好,不需要训练模型,适用性更好。本发明主要解决了FastICA算法的初值敏感性问题和分离多人混合语音时计算量大的问题,引入负梯度下降法,克服初值敏感性,增强算法收敛稳定性;提出改进差商法,代替FastICA的优化算法——牛顿法,避免因求导和雅可比矩阵计算导致的计算量大的问题。
本发明的第一目的是提供一种聊天机器人的多人语音分离方法,包括使用麦克风采集语音信号得到混合信号,还包括以下步骤:
步骤1:对所述混合信号x进行预处理;
步骤2:随机生成解混矩阵w;
步骤3:采用负梯度下降法求所述解混矩阵w的负梯度方向;
步骤4:判断所述解混矩阵w是否收敛;
步骤5:使用改进差商法求最优解混矩阵;
步骤6:求源信号的估计信号;
步骤7:输出分离的语音。
优选的是,所述步骤1包括以下子步骤:
步骤11:对所述混合信号x进行中心化处理,
其中,i=1…..n,n为实系数;
步骤12:进行PCA白化处理,
z=Vx=ED-1/2ETx
其中,V为白化矩阵,E为中心化数据的特征向量构成的正交矩阵,D为特征向量对应的特征值构成的对角矩阵,ET为E转置矩阵。
在上述任一方案中优选的是,所述步骤3包括以下子步骤:
步骤31:计算E{zg(wTz)}在wi处的负梯度值,计算每次迭代的修正参数λ,
其中,z为白化向量;
步骤32:沿负梯度方向迭代更新所述解混矩阵w,
在上述任一方案中优选的是,所述步骤4中判断所述解混矩阵w收敛的公式为|wn+1-wn|<ε,其中,ε为收敛门限。
在上述任一方案中优选的是,所述步骤5包括以下子步骤:
步骤51:采用基于改进差商法的FastICA语音分离算法迭代更新所述解混矩阵w;
步骤52:如果所述解混矩阵w收敛,则算法收敛,停止迭代;否则返回步骤51。
在上述任一方案中优选的是,所述FastICA语音分离算法的迭代优化公式如下
在上述任一方案中优选的是,所述步骤52中判断所述解混矩阵w收敛的公式为|wn+1-wn|<ε,其中,ε为收敛门限。
在上述任一方案中优选的是,所述步骤6为将收敛后的最优所述解混矩阵w与白化变量z相乘,得到源信号的估计信号y,公式为y=wn+1 Tz。
本发明的第二目的是提供一种聊天机器人的多人语音分离系统,包括用于使用麦克风采集语音信号得到混合信号的语音采集模块,还包括以下模块:
解混矩阵生成模块:对所述混合信号x进行预处理,随机生成解混矩阵w,并对所述解混矩阵w进行初处理;
解混矩阵优化模块:使用改进差商法求最优解混矩阵,求源信号的估计信号并输出分离的语音。
优选的是,所述预处理的方法包括以下子步骤:
步骤11:对所述混合信号x进行中心化处理,
其中,i=1…..n,n为实系数;
步骤12:进行PCA白化处理,
z=Vx=ED-1/2ETx
其中,V为白化矩阵,E为中心化数据的特征向量构成的正交矩阵,D为特征向量对应的特征值构成的对角矩阵,ET为E转置矩阵。
在上述任一方案中优选的是,所述初处理包括:
1)采用负梯度下降法求所述解混矩阵w的负梯度方向;
2)判断所述解混矩阵w是否收敛。
在上述任一方案中优选的是,求解所述负梯度方向的方法步骤如下:
步骤31:计算E{zg(wTz)}在wi处的负梯度值,计算每次迭代的修正参数λ,
其中,z为白化向量;
步骤32:沿负梯度方向迭代更新所述解混矩阵w
在上述任一方案中优选的是,判断所述解混矩阵w收敛的公式为|wn+1-wn|<ε,其中,ε为收敛门限。
在上述任一方案中优选的是,所述使用改进差商法求最优解混矩阵的方法包括以下子步骤:
步骤51:采用基于改进差商法的FastICA语音分离算法迭代更新所述解混矩阵w;
步骤52:如果所述解混矩阵w收敛,则算法收敛,停止迭代;否则返回步骤51。
在上述任一方案中优选的是,所述FastICA语音分离算法的迭代优化公式如下
在上述任一方案中优选的是,所述步骤52中判断所述解混矩阵w收敛的公式为|wn+1-wn|<ε,其中,ε为收敛门限。
在上述任一方案中优选的是,所述求源信号的估计信号的方法为将收敛后的最优所述解混矩阵w与白化变量z相乘,得到源信号的估计信号y,公式为y=wn+1 Tz。
本发明提出了一种聊天机器人的多人语音分离方法及系统,克服了FastICA算法的初值敏感性问题,增强算法收敛稳定性;减少了FastICA算法在多人环境中的处理多人混合语音计算量、比较耗时的问题;增加了语音分离算法的稳定性,加快了分离的速度,可以更好、更快的完成多人场景下的语音分离。
附图说明
图1为按照本发明的聊天机器人的多人语音分离方法的一优选实施例的流程图。
图2为按照本发明的聊天机器人的多人语音分离系统的一优选实施例的模块图。
图3为按照本发明的聊天机器人的多人语音分离方法的另一优选实施例的FastICA算法流程图。
图4为按照本发明的聊天机器人的多人语音分离方法的如图3所示实施例的改进的FastICA算法流程图。
图5为按照本发明的聊天机器人的多人语音分离方法的如图3所示实施例的负梯度下降法示意图。
图6为按照本发明的聊天机器人的多人语音分离方法的如图3所示实施例的改进差商法示意图。
图7为按照本发明的聊天机器人的多人语音分离方法的如图3所示实施例的多人语音分离示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1、2所示,执行步骤100,语音采集模块200使用麦克风采集语音信号得到混合信号。执行步骤110,语音采集模块200对所述混合信号x进行预处理。执行步骤111,对所述混合信号x进行中心化处理,
其中,i=1…..n,n为实系数。执行步骤112,进行PCA白化处理,
z=Vx=ED-1/2ETx
其中,V为白化矩阵,E为中心化数据的特征向量构成的正交矩阵,D为特征向量对应的特征值构成的对角矩阵,ET为E转置矩阵。
执行步骤120,解混矩阵生成模块210随机生成解混矩阵w。
执行步骤130,采用负梯度下降法求所述解混矩阵w的负梯度方向。
执行步骤131,计算E{zg(wTz)}在wi处的负梯度值,计算每次迭代的修正参数λ,
其中,z为白化向量。执行步骤132,沿负梯度方向迭代更新所述解混矩阵w,
执行步骤140,判断所述解混矩阵w是否收敛。如果w收敛,即|wn+1-wn|<ε,则wn+1为局部最优的初始值,停止迭代。否则,返回步骤132继续迭代。
执行步骤150,解混矩阵优化模块220使用改进差商法求最优解混矩阵。执行步骤151,采用基于改进差商法的FastICA语音分离算法迭代更新所述解混矩阵w,FastICA语音分离算法的迭代优化公式如下
执行步骤152,判断所述解混矩阵w是否收敛。如果w收敛,即|wn+1-wn|<ε,则wn+1为局部最优的初始值,停止迭代。否则,返回步骤151继续迭代。
执行步骤160,求源信号的估计信号,将收敛后的最优所述解混矩阵w与白化变量z相乘,得到源信号的估计信号y,公式为y=wn+1 Tz。
执行步骤170,输出分离的语音。
实施例二
本申请的目的在于解决FastICA算法的初值敏感性问题和分离多人混合语音时计算量大的问题,提出了一种基于负梯度下降法和改进差商法的FastICA语音分离方法:(1)引入负梯度下降法,克服初值敏感性,增强算法收敛稳定性;(2)提出改进差商法,代替FastICA的优化算法——牛顿法,避免因求导和雅可比矩阵计算导致的计算量大的问题。
独立成分分析(Independent component analysis,ICA)是处理类似于“鸡尾酒会问题”的多人混合语音的代表性方法。ICA方法假定每个源信号之间都是统计独立的,根据源信号的统计特性,从混合观测信号中分离出源信号的各个具有非高斯性的独立成分。
一般将ICA模型用向量-矩阵符号的方式表示更为简洁。用随机变量x来表示n个不同的语音信号xi构成的观测混合变量,其元素分别是x1,x2,…,xn。同样地,用隐变量s来表示n个独立成分元素s1,s2,…,sn构成的向量。用矩阵A表示混合系数aij构成的矩阵。所以,ICA观测混合模型为:x=As。
语音分离是通过已知的观测信号x估计出未知的独立源信号s和混合矩阵A,使得分离信号y能够尽可能地逼近源信号S。
为了实现上述目的,本发明采取了如下的技术方案:
步骤1:采集多人场景下的混合语音数据。
步骤2:进行预处理,中心化处理去除背景噪声,白化处理去除不同人混合语音之间的相关性。
预处理对于语音分离非常重要,中心化处理能够降低环境噪声的干扰,白化处理去除不同人的混合语音之间的相关性。尤其是用PCA进行白化处理,不仅可以进行数据降维,而且当观测信号的数量多于源信号数量时,经过PCA算法处理可以将观测信号数量降到与源信号数量相同,保证ICA模型可以进行。
如图3所示,标准的FastICA算法的流程图,其中预处理是后续优化过程的基础。其中PCA白化处理是最为重要的一步,寻找混合信号中的主要分量,去除不同分量的相关性,区分出不同分量。主要分量是主信号(主要说话人);而次要分量被认为是噪音或(次要说话人)。
如图4所示,改进的FastICA算法的流程图,先进行预处理(中心化和白化),再利用负梯度下降法优化初值解混矩阵,再通过改进差商法进行迭代优化,最后求得分离信号Y。
步骤2-1:中心化处理:
中心化处理主要是对混合信号去均值,对数据进行简化,同时降低噪声的影响。具体来说,从观测向量中减去观测向量的平均值,使得观测向量成为零均值向量,也称为中心化数据。
步骤2-2:PCA白化处理:z=Vx=ED-1/2ETx。
每个人的音色各不相同,所以不同人的语音信号可以看作相互独立的,这一特点刚好符合PCA算法的特点,所以可以用PCA算法去除混合语音中的相关性,实现降维和去噪。白化处理主要是对观测信号的零均值向量的协方差矩阵进行特征值分解,用主成分分析(PCA)进行白化处理。这样不仅可以进行数据降维,而且当观测信号的数量多于源信号数量时,经过PCA算法处理可以将观测信号数量降到与源信号数量相同。
白化过程可以看作是将新得到的零均值向量x与某个矩阵V进行线性相乘,得到的向量z即为白化向量,即:z=Vx=ED-1/2ETx,其中E表示中心化数据的特征向量构成的正交矩阵,D=diag(d1,……dn)表示特征向量对应的特征值构成的对角矩阵,表示把对角矩阵的元素逐个开方。
步骤3:随机生成解混矩阵w。
步骤4:负梯度下降法求w负梯度方向。
FastICA算法可以简单理解为找到一个方向,即一个单位向量w,使得隐藏在混合信号中的独立成分的投影y=wx的非高斯性达到最大值的迭代算法。一般用负熵JG(w)来描述语音信号的非高斯性,即:JG(w)=E{G(wTz)}+β(‖w‖2-1),G(.)表示任意的非二次函数,一般选用 根据拉格朗日条件,E{G(wTz)}在E{(wTz)2}=‖w‖2=1条件下的极值,是在拉格朗日函数的梯度为零的点处取得。所以求负熵JG(w)最大值问题可以转化为求E{G(wTz)}的极大值问题,两边求偏导,令偏导等于零求极值点,可得:E{zg(wTz)}+βw=0。令目标函数F(w)为:F(w)=E{zg(wTz)}+βw。
负梯度下降法,通常求f(x)的极小值点x*,一般从x0出发,找到一个方向p(x),令xn+1=xn+λp(x),其中λ为迭代步长,也就是修正参数,得到梯度下降法的目标函数:
f(xn+1)=minf(xn+λp(xn)),结合F(w)可知:p(w)=E{zg(wTz)}。
步骤4-1:计算E{zg(wTz)}在wi处的负梯度值,计算每次迭代的修正参数λ,
其中,z为白化向量。
步骤4-2:沿负梯度方向迭代更新解混矩阵w,
负梯度下降法,求取负梯度方向进行迭代,不但增强算法收敛稳定性,提高算法的鲁棒性,而且的迭代初期能够加快收敛速度。
步骤5:判断是否收敛:如果w收敛,即|wn+1-wn|<ε,则wn+1为局部最优的初始值,停止迭代。否则,返回步骤4-2继续迭代。
根据中心极限定理,具有非高斯性的独立成分的混合信号属于混合高斯分布,根据正态分布3-σ原则,一般取ε=0.00135。
步骤6:改进差商法求最优解混矩阵,免了求导运算,降低了目标函数的计算量,加快迭代的速度,是非常有效的方法。
差商法是在牛顿迭代法的变形,用函数f(x)曲线上两点(xn,f(xn))和(xn-1,f(xn-1))弦的斜率近似的代替函数f(x)在点(xn,f(xn))处的切线斜率,即:
可推导出迭代公式为:
虽然差商法很大程度上减少了迭代过程中的计算量,但是差商法的收敛阶数为1.618,略低于牛顿迭代法的二阶收敛阶数,迭代速度稍显不足。为了改善差商法收敛阶数不足、迭代速度略慢的缺陷,我们提出改进差商法。这样既能加快迭代速度,又能减少每次迭代过程中的计算量。改进差商法如下:
理论上,迭代方法的收敛阶数越高,迭代收敛速度越快。改进差商法的收敛阶数为2.414,明显大于牛顿法的2阶收敛。改进弦截法的收敛阶数为2.414,明显大于牛顿法的二阶收敛阶数。所以我们提出的改进差商法的迭代收敛速度理论上比牛顿法更快。
所以,可以得到改进差商法的FastICA算法关于解混矩阵w的迭代形式:
所以基于改进差商法的FastICA语音分离算法的迭代优化公式为:
步骤6-1:迭代更新w:带入上式。
步骤6-2:如果w收敛,即|wn+1-wn|<ε,根据正态分布4-σ原则取ε=0.00135,则算法收敛,停止迭代。否则返回步骤6-1;
步骤7:求源信号的估计信号:y=wn+1 T。
将收敛后的最优解混矩阵w与白化变量z相乘,得到源信号的估计信号y。
步骤8:输出分离的语音。
本发明通过可行的技术方案,具有以下几点有益效果:
1.克服了FastICA算法的初值敏感性问题,增强算法收敛稳定性。
2.减少了FastICA算法在多人环境中的处理多人混合语音计算量、比较耗时的问题;
3.本发明增加了语音分离算法的稳定性,加快了分离的速度,可以更好、更快的完成多人场景下的语音分离。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (10)
1.一种聊天机器人的多人语音分离方法,包括使用麦克风采集语音信号得到混合信号,其特征在于,还包括以下步骤:
步骤1:对所述混合信号x进行预处理;
步骤2:随机生成解混矩阵w;
步骤3:采用负梯度下降法求所述解混矩阵w的负梯度方向;
步骤4:判断所述解混矩阵w是否收敛;
步骤5:使用改进差商法求最优解混矩阵;
步骤6:求源信号的估计信号;
步骤7:输出分离的语音。
2.如权利要求1所述的聊天机器人的多人语音分离方法,其特征在于:所述步骤1包括以下子步骤:
步骤11:对所述混合信号x进行中心化处理,
其中,i=1…..n,n为实系数;
步骤12:进行PCA白化处理,
z=Vx=ED-1/2ETx
其中,V为白化矩阵,E为中心化数据的特征向量构成的正交矩阵,D为特征向量对应的特征值构成的对角矩阵,ET为E转置矩阵。
3.如权利要求2所述的聊天机器人的多人语音分离方法,其特征在于:所述步骤3包括以下子步骤:
步骤31:计算E{zg(wTz)}在wi处的负梯度值,计算每次迭代的修正参数λ,
其中,z为白化向量;
步骤32:沿负梯度方向迭代更新所述解混矩阵w,
4.如权利要求3所述的聊天机器人的多人语音分离方法,其特征在于:所述步骤4中判断所述解混矩阵w收敛的公式为|wn+1-wn|<ε,其中,ε为收敛门限。
5.如权利要求4所述的聊天机器人的多人语音分离方法,其特征在于:所述步骤5包括以下子步骤:
步骤51:采用基于改进差商法的FastICA语音分离算法迭代更新所述解混矩阵w;
步骤52:如果所述解混矩阵w收敛,则算法收敛,停止迭代;否则返回步骤51。
6.如权利要求5所述的聊天机器人的多人语音分离方法,其特征在于:所述FastICA语音分离算法的迭代优化公式如下
7.如权利要求5所述的聊天机器人的多人语音分离方法,其特征在于:所述步骤52中判断所述解混矩阵w收敛的公式为|wn+1-wn|<ε,其中,ε为收敛门限。
8.如权利要求6所述的聊天机器人的多人语音分离方法,其特征在于:所述步骤6为将收敛后的最优所述解混矩阵w与白化变量z相乘,得到源信号的估计信号y,公式为y=wn+ 1 Tz。
9.一种聊天机器人的多人语音分离系统,包括用于使用麦克风采集语音信号得到混合信号的语音采集模块,其特征在于,还包括以下模块:
解混矩阵生成模块:对所述混合信号x进行预处理,随机生成解混矩阵w,并对所述解混矩阵w进行初处理;
解混矩阵优化模块:使用改进差商法求最优解混矩阵,求源信号的估计信号并输出分离的语音。
10.如权利要求9所述的聊天机器人的多人语音分离系统,其特征在于:所述预处理的方法包括以下子步骤:
步骤11:对所述混合信号x进行中心化处理,
其中,i=1…..n,n为实系数;
步骤12:进行PCA白化处理,
z=Vx=ED-1/2ETx
其中,V为白化矩阵,E为中心化数据的特征向量构成的正交矩阵,D为特征向量对应的特征值构成的对角矩阵,ET为E转置矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810612893.3A CN108922557A (zh) | 2018-06-14 | 2018-06-14 | 一种聊天机器人的多人语音分离方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810612893.3A CN108922557A (zh) | 2018-06-14 | 2018-06-14 | 一种聊天机器人的多人语音分离方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108922557A true CN108922557A (zh) | 2018-11-30 |
Family
ID=64421436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810612893.3A Pending CN108922557A (zh) | 2018-06-14 | 2018-06-14 | 一种聊天机器人的多人语音分离方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108922557A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021012734A1 (zh) * | 2019-07-25 | 2021-01-28 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101388677A (zh) * | 2008-10-23 | 2009-03-18 | 华南理工大学 | 基于盲信号分离的通信接收机抗干扰方法及其系统 |
CN101661752A (zh) * | 2009-09-16 | 2010-03-03 | 深圳华为通信技术有限公司 | 信号处理方法和装置 |
CN102981798A (zh) * | 2012-12-17 | 2013-03-20 | 中国科学院半导体研究所 | 基于fpga的浮点独立源分析算法的电路结构 |
CN103106903A (zh) * | 2013-01-11 | 2013-05-15 | 太原科技大学 | 一种单通道盲源分离法 |
CN105550716A (zh) * | 2016-01-22 | 2016-05-04 | 江苏科技大学 | 一种施加多重约束的欠定盲源分离方法 |
CN107644650A (zh) * | 2017-09-29 | 2018-01-30 | 山东大学 | 一种基于渐进串行正交化盲源分离算法的改进声源定位方法及其实现系统 |
-
2018
- 2018-06-14 CN CN201810612893.3A patent/CN108922557A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101388677A (zh) * | 2008-10-23 | 2009-03-18 | 华南理工大学 | 基于盲信号分离的通信接收机抗干扰方法及其系统 |
CN101661752A (zh) * | 2009-09-16 | 2010-03-03 | 深圳华为通信技术有限公司 | 信号处理方法和装置 |
CN102981798A (zh) * | 2012-12-17 | 2013-03-20 | 中国科学院半导体研究所 | 基于fpga的浮点独立源分析算法的电路结构 |
CN103106903A (zh) * | 2013-01-11 | 2013-05-15 | 太原科技大学 | 一种单通道盲源分离法 |
CN105550716A (zh) * | 2016-01-22 | 2016-05-04 | 江苏科技大学 | 一种施加多重约束的欠定盲源分离方法 |
CN107644650A (zh) * | 2017-09-29 | 2018-01-30 | 山东大学 | 一种基于渐进串行正交化盲源分离算法的改进声源定位方法及其实现系统 |
Non-Patent Citations (2)
Title |
---|
张启坤等: "基于改进弦截法的FastICA算法研究", 《计算机应用研究》 * |
陈明城等: "噪声环境下的FastICA算法研究", 《计算机科学》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021012734A1 (zh) * | 2019-07-25 | 2021-01-28 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444214B (zh) | 语音信号处理模型训练方法、装置、电子设备及存储介质 | |
Luo et al. | Speaker-independent speech separation with deep attractor network | |
US9741360B1 (en) | Speech enhancement for target speakers | |
JP2021516369A (ja) | 混合音声の認識方法、装置及びコンピュータ可読記憶媒体 | |
US20130294611A1 (en) | Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation | |
CN109272989A (zh) | 语音唤醒方法、装置和计算机可读存储介质 | |
CN110600018A (zh) | 语音识别方法及装置、神经网络训练方法及装置 | |
WO2019080551A1 (zh) | 目标语音检测方法及装置 | |
CN108766459A (zh) | 一种多人语音混合中目标说话人估计方法及系统 | |
JP2018504642A (ja) | オーディオ源の分離 | |
Berdibaeva et al. | Pre-processing voice signals for voice recognition systems | |
Sivaraman et al. | Personalized speech enhancement through self-supervised data augmentation and purification | |
CN109074818A (zh) | 音频源参数化 | |
CN108922557A (zh) | 一种聊天机器人的多人语音分离方法及系统 | |
CN112151052A (zh) | 语音增强方法、装置、计算机设备及存储介质 | |
Zhang et al. | Blind source separation of postnonlinear convolutive mixture | |
Chen et al. | Voice conversion using generative trained deep neural networks with multiple frame spectral envelopes. | |
CN111192569B (zh) | 双麦语音特征提取方法、装置、计算机设备和存储介质 | |
CN113223552B (zh) | 语音增强方法、装置、设备、存储介质及程序 | |
Chen | Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering | |
KR101568282B1 (ko) | 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치 | |
JP2018028620A (ja) | 音源分離方法、装置およびプログラム | |
CN112489678A (zh) | 一种基于信道特征的场景识别方法及装置 | |
Chehrehsa et al. | Speech enhancement using Gaussian mixture models, explicit Bayesian estimation and Wiener filtering | |
Gang et al. | Towards automated single channel source separation using neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181130 |