CN108766459B - 一种多人语音混合中目标说话人估计方法及系统 - Google Patents

一种多人语音混合中目标说话人估计方法及系统 Download PDF

Info

Publication number
CN108766459B
CN108766459B CN201810610015.8A CN201810610015A CN108766459B CN 108766459 B CN108766459 B CN 108766459B CN 201810610015 A CN201810610015 A CN 201810610015A CN 108766459 B CN108766459 B CN 108766459B
Authority
CN
China
Prior art keywords
voice
speech
target speaker
person
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810610015.8A
Other languages
English (en)
Other versions
CN108766459A (zh
Inventor
刘宏哲
张启坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Original Assignee
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University filed Critical Beijing Union University
Priority to CN201810610015.8A priority Critical patent/CN108766459B/zh
Publication of CN108766459A publication Critical patent/CN108766459A/zh
Application granted granted Critical
Publication of CN108766459B publication Critical patent/CN108766459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

本发明提供一种多人语音混合中目标说话人估计方法及系统,其中方法包括使用麦克风阵列采集语音信号得到混合信号x,还包括以下步骤:使用FastICA算法进行多人混合语音分离,得到N个分离语音y;提取多个语音特征;进行语音特征归一化;归一化的语音特征加权融合;使用高斯混合模型进行加权参数优化;使用期望最大化算法EM算法进行高斯混合模型估计;输出目标语音。本发明提出的一种多人语音混合中目标说话人估计方法及系统,解决了多人场景下语音分离的不确定性问题和语音识别率低的问题,对多人混合语音中目标说话人进行概率估计,以便增强目标说话人语音的可懂度和识别率。

Description

一种多人语音混合中目标说话人估计方法及系统
技术领域
本发明涉及计算机听觉与人工智能的技术领域,特别是一种多人语音混合中目标说话人估计方法及系统。
背景技术
随着计算机和人工智能技术的快速发展,智能语音技术在人机交互中被广泛应用。如微信、QQ等移动通讯方式都有很多关于语音的应用。在理想的安静条件下,语音识别转文本、声纹识别解锁等智能语音技术给我们带来很多便利。但是在多人说话场景下,识别效果就大大降低,这就需要对多人混合语音进行目标说话人估计,以提高目标说话人语音的可懂度和识别率。针对背景噪声、其他人干扰语音的影响,最常见的方法就是进行语音分离或语音增强处理。然而语音的混合会导致语音分离得到的分离语音具有不确定性。具体来说,语音混合时我们不知道原始语音信号的状态,也不知道语音混合的方式,所以导致分离语音具有不确定性,也就是说,即使分离完也不知道分离的语音是属于谁的语音,不知道哪个语音是目标说话人的语音。所以,必须进行目标说话人估计,对多人混合语音分离得到的语音进行处理,概率估计出哪个分离语音是属于目标说话人的语音,以此提高语音的分离性能、可懂度、识别率。
公开号为CN103811020A的发明专利公开了一种智能语音处理方法,本发明通过建立对话人声音模型库,实现在多人语音环境下智能识别多个对话人的身份同时分离混合语音得到每个对话人的独立语音,根据用户需求为用户放大要听取的对话人的语音同时消除非用户要求的对话人的语音。该申请存在以下问题:(1)模型训练实时性不足。需要先建立模型库,再进行说话人身份识别,再分离混合语音;(2)建立对话人声音模型库,需要大量的语音样本数据。如果样本数据太多,训练会更耗时。如果样本数据太少,训练的模型适用性更差。(3)模型的泛化性、可移植性存在问题。因为不同背景噪声、不同的其他干扰人的语音训练的模型不同,不一定适用与其他的背景噪声环境和其他不同干扰说话人的声音环境。
发明内容
为了解决上述的技术问题,本发明提出的一种多人语音混合中目标说话人估计方法及系统,不需要建立模型库,也不需要样本数据进行训练,实时性更好,不会因为背景环境或者干扰说话人改变而导致分离性能下降,适用性更强,解决了多人场景下混合语音分离的不确定性问题和语音识别率低的问题,对多人混合语音中目标说话人进行概率估计,以便增强目标说话人语音的可懂度和识别率。
本发明的第一目的是提供一种多人语音混合中目标说话人估计方法,包括通用麦克风阵列采集语音信号得到混合信号x,还包括以下步骤:
步骤1:使用FastICA算法进行多人混合语音分离,得到N个分离语音;
步骤2:提取多个语音特征;
步骤3:进行语音特征归一化;
步骤4:归一化的语音特征加权融合;
步骤5:使用高斯混合模型进行加权参数优化;
步骤6:使用期望最大化算法EM算法进行高斯混合模型估计;
步骤7:输出目标语音。
优选的是,所述步骤1包括以下子步骤:
步骤11:对混合观测信号x中心化去均值,
Figure BDA0001695352560000021
其中,i=1…..n,n为实系数;
步骤12:白化处理去混合语音之间的相关性,
z=Vx=ED-1/2ETx
其中,V为白化矩阵,E为中心化数据的特征向量构成的正交矩阵,D为特征向量对应的特征值构成的对角矩阵,ET为E转置矩阵;
步骤13;随机生成初始解混矩阵w0,‖w02=1;
步骤14:更新解混矩阵w,
Figure BDA0001695352560000031
其中,g(y)=y×exp(-y2/2),g′为g的导数;
步骤15:如果所述解混矩阵w收敛,则wn+1解混矩阵,停止迭代,反之重新执行步骤14继续迭代;
步骤16:得到N个分离语音信号y=[y1,y2,……yn],
Figure BDA0001695352560000032
在上述任一方案中优选的是,判断所述解混矩阵w收敛的公式为|wn+1-wn|<ε,其中,ε为收敛门限。
在上述任一方案中优选的是,所述语音特征包括每次说话时长Sn(L)、说话次数Sn(N)、短时能量En和MFCC系数Cn中至少一种。
在上述任一方案中优选的是,所述每次说话时长Sn(L)是指检测语音段的起始时间和结束时间中间的时间长度。
在上述任一方案中优选的是,所述说话次数Sn(N)是指每条语音中出现的分段语音的次数。
在上述任一方案中优选的是,所述短时能量En是指语音信号的第n个采样点的短时能量。
在上述任一方案中优选的是,所述MFCC系数Cn是指每个人语音的梅尔频率倒谱系数特征点。
在上述任一方案中优选的是,所述步骤3为使用下面公式对所述语音特征进行归一化处理,
Figure BDA0001695352560000033
其中,
Figure BDA0001695352560000041
表示归一化后的Sn(F)特征,Sn(F)是第n个说话人的某一个特征,Sn(Fmax)表示Sn(F)的最小值,Sn(Fmin)表示Sn(F)的最大值。
在上述任一方案中优选的是,所述步骤3还为将所述每次说话时长Sn(L)、所述说话次数Sn(N)、所述短时能量En和所述MFCC系数Cn分别带入到上面公式中,得到归一化的说话时长
Figure BDA0001695352560000042
归一化的说话次数
Figure BDA0001695352560000043
归一化的短时能量
Figure BDA0001695352560000044
和归一化的MFCC系数
Figure BDA0001695352560000045
在上述任一方案中优选的是,所述步骤4为融合构成各个人的语音特征矢量xn
Figure BDA0001695352560000046
其中,λ为对应的加权参数。
在上述任一方案中优选的是,所述步骤5包括在目标说话人语音特征空间中,使用概率密度函数p(x|λ)计算d维的特征参数矢量x的分布,
Figure BDA0001695352560000047
其中,N(x;μi;∑i)表示d维每个子分布的联合高斯概率分布函数,αi表示第i个子高斯分布在总体混合高斯分布中所占的权值,μi和∑i分别表示第i个高斯分量的均值和协方差,m表示描述总体分布所用的高斯函数的个数。
在上述任一方案中优选的是,所述联合高斯概率分布函数N(x;μi;∑i)的计算公式为
Figure BDA0001695352560000048
在上述任一方案中优选的是,所述步骤5为计算高斯混合模型λ的似然度,公式为
Figure BDA0001695352560000051
其中,λ=(m;x;μi;∑),为高斯混合模型,X=[x1,x2,……xn]表示分离的说话人的总体的语音特征矢量序列。
在上述任一方案中优选的是,所述EM算法是一种递归最大似然估计算法,每次迭代都会不断优化参数λ的值,使得似然度L(X|λ)达到最大,所述EM算法分E步和M步。
在上述任一方案中优选的是,所述E步是指利用模型初始参数,计算特征矢量xi在第k个高斯模型上的后验概率p(k|xi,λ),
Figure BDA0001695352560000052
其中,m为子高斯分布的个数,N(x;μk;∑k)为子高斯分布的联合概率密度函数。
在上述任一方案中优选的是,所述M步为对第k个混合度的所述后验概率p(k|xi,λ)分别计算混合度的权值ai、均值μi、协方差∑i的最大似然估计值。
在上述任一方案中优选的是,第k个所述混合度的权值αk的计算公式为
Figure BDA0001695352560000053
在上述任一方案中优选的是,第k个所述混合度的均值μk的计算公式为
Figure BDA0001695352560000054
在上述任一方案中优选的是,第k个所述混合度的协方差αk的计算公式为
Figure BDA0001695352560000061
在上述任一方案中优选的是,所述步骤7为通过高斯混合模型对语音特征矢量序列X=[x1,x2,……xn]进行概率估计,得到对应的特征矢量xi的概率αi,概率值大的是目标说话人的语音特征。
本发明的第二目的是提供一种多人语音混合中目标说话人估计系统,包括用于进行多人混合语音分离的语音分离模块,还包括以下模块:
多语音特征融合模块:提取多个语音特征,特征归一化之后,进行加权参数融合,得到语音特征序列;
融合参数优化模块:用高斯混合模型对融合参数进行优化,通过期望最大化算法EM算法,估计出概率值最大的语音特征序列。
优选的是,所述混合语音分离方法包括以下步骤:
步骤11:对混合观测信号x中心化去均值,
Figure BDA0001695352560000062
其中,i=1…..n,n为实系数;
步骤12:白化处理去混合语音之间的相关性,
z=Vx=ED-1/2ETx
其中,V为白化矩阵,E为中心化数据的特征向量构成的正交矩阵,D为特征向量对应的特征值构成的对角矩阵,ET为E转置矩阵;
步骤13;随机生成初始解混矩阵w0,‖w02=1;
步骤14:更新解混矩阵w,
Figure BDA0001695352560000063
其中,g(y)=y×exp(-y2/2),g′为g的导数;
步骤15:如果所述解混矩阵w收敛,则wn+1解混矩阵,停止迭代,反之重新执行步骤14继续迭代;
步骤16:得到N个分离语音信号y=[y1,y2,……yn],
Figure BDA0001695352560000071
在上述任一方案中优选的是,判断所述解混矩阵w收敛的公式为|wn+1-wn|<ε,其中,ε为收敛门限。
在上述任一方案中优选的是,所述语音特征包括每次说话时长Sn(L)、说话次数Sn(N)、短时能量En和MFCC系数Cn中至少一种。
在上述任一方案中优选的是,所述每次说话时长Sn(L)是指检测语音段的起始时间和结束时间中间的时间长度。
在上述任一方案中优选的是,所述说话次数Sn(N)是指每条语音中出现的分段语音的次数。
在上述任一方案中优选的是,所述短时能量En是指语音信号的第n个采样点的短时能量。
在上述任一方案中优选的是,所述MFCC系数Cn是指每个人语音的梅尔频率倒谱系数特征点。
在上述任一方案中优选的是,所述多语音特征融合模块用于使用下面公式对所述语音特征进行归一化处理,
Figure BDA0001695352560000072
其中,
Figure BDA0001695352560000073
表示归一化后的Sn(F)特征,Sn(F)是第n个说话人的某一个特征,Sn(Fmax)表示Sn(F)的最小值,Sn(Fmin)表示Sn(F)的最大值。
在上述任一方案中优选的是,所述多语音特征融合模块还用于所述每次说话时长Sn(L)、所述说话次数Sn(N)、所述短时能量En和所述MFCC系数Cn分别带入到上面公式中,得到归一化的说话时长
Figure BDA0001695352560000074
归一化的说话次数
Figure BDA0001695352560000075
归一化的短时能量
Figure BDA0001695352560000076
和归一化的MFCC系数
Figure BDA0001695352560000077
在上述任一方案中优选的是,所述多语音特征融合模块还用于融合构成各个人的语音特征矢量xn
Figure BDA0001695352560000081
其中,λ为对应的加权参数。
在上述任一方案中优选的是,所述融合参数优化模块用于在目标说话人语音特征空间中,使用概率密度函数p(x|λ)计算d维的特征参数矢量x的分布,
Figure BDA0001695352560000082
其中,N(x;μi;∑i)表示d维每个子分布的联合高斯概率分布函数,αi表示第i个子高斯分布在总体混合高斯分布中所占的权值,μi和∑i分别表示第i个高斯分量的均值和协方差,m表示描述总体分布所用的高斯函数的个数。
在上述任一方案中优选的是,所述联合高斯概率分布函数N(x;μi;∑i)的计算公式为
Figure BDA0001695352560000083
在上述任一方案中优选的是,所述融合参数优化模块还用于计算高斯混合模型λ的似然度,公式为
Figure BDA0001695352560000084
其中,λ=(m;x;μi;∑),为高斯混合模型,X=[x1,x2,……xn]表示分离的说话人的总体的语音特征矢量序列。
在上述任一方案中优选的是,所述EM算法是一种递归最大似然估计算法,每次迭代都会不断优化参数λ的值,使得似然度L(X|λ)达到最大,所述EM算法分E步和M步。
在上述任一方案中优选的是,所述E步是指利用模型初始参数,计算特征矢量xi在第k个高斯模型上的后验概率p(k|xi,λ),
Figure BDA0001695352560000091
其中,m为子高斯分布的个数,N(x;μk;∑k)为子高斯分布的联合概率密度函数。
在上述任一方案中优选的是,所述M步为对第k个混合度的所述后验概率p(k|xi,λ)分别计算混合度的权值ai、均值μi、协方差∑i的最大似然估计值。
在上述任一方案中优选的是,第k个所述混合度的权值αk的计算公式为
Figure BDA0001695352560000092
在上述任一方案中优选的是,第k个所述混合度的均值μk的计算公式为
Figure BDA0001695352560000093
在上述任一方案中优选的是,第k个所述混合度的协方差αk的计算公式为
Figure BDA0001695352560000094
在上述任一方案中优选的是,所述融合参数优化模块还用于通过高斯混合模型对语音特征矢量序列X=[x1,x2,……xn]进行概率估计,得到对应的特征矢量xi的概率αi,概率值大的是目标说话人的语音特征。
本发明提出了一种多人语音混合中目标说话人估计方法及系统,解决了FastICA算法的分离不确定性(无序性)问题,提高多人混合语音的分离性能。
附图说明
图1为按照本发明的多人语音混合中目标说话人估计方法的一优选实施例的流程图。
图2为按照本发明的多人语音混合中目标说话人估计系统的一优选实施例的模块图。
图3为按照本发明的多人语音混合中目标说话人估计方法的另一优选实施例的流程图。
图4为按照本发明的多人语音混合中目标说话人估计方法的如图3所示实施例的FastICA算法流程图。
图5为按照本发明的多人语音混合中目标说话人估计方法的如图3所示实施例的分离语音对应说话时长和说话次数检测示意图。
图5A为按照本发明的多人语音混合中目标说话人估计方法的如图5所示实施例的分离语音短时能量示意图。
图5B为按照本发明的多人语音混合中目标说话人估计方法的如图5所示实施例的分离语音MFCC系数特征示意图。
图6为按照本发明的多人语音混合中目标说话人估计方法的如图3所示实施例的分离语音特征归一化示意图。
图7为按照本发明的多人语音混合中目标说话人估计方法的如图3所示实施例的高斯混合模型参数优化过程示意图。
图8为按照本发明的多人语音混合中目标说话人估计方法的如图3所示实施例的多人混合语音中目标说话人估计工作示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1、2所示,执行步骤100,语音分离模块200使用通用麦克风阵列采集语音信号得到混合信号x。
执行步骤110,语音分离模块200使用FastICA算法进行多人混合语音分离,得到N个分离语音。该步骤包括以下子步骤:
步骤111:对混合观测信号x中心化去均值,
Figure BDA0001695352560000111
其中,i=1…..n,n为实系数;
步骤112:白化处理去混合语音之间的相关性,
z=Vx=ED-1/2ETx
其中,V为白化矩阵,E为中心化数据的特征向量构成的正交矩阵,D为特征向量对应的特征值构成的对角矩阵,ET为E转置矩阵;
步骤113;随机生成初始解混矩阵w0,‖w02=1;
步骤114:更新解混矩阵w,
Figure BDA0001695352560000112
其中,g(y)=y×exp(-y2/2),g′为g的导数;
步骤115:如果所述解混矩阵w收敛,即|wn+1-wn|<ε,其中,ε为收敛门限(据正态分布3-σ原则,一般取ε=0.00135),则wn+1解混矩阵,停止迭代,反之重新执行步骤14继续迭代;
步骤116:得到N个分离语音信号y=[y1,y2,……yn],
Figure BDA0001695352560000113
执行步骤120,多语音特征融合模块210提取多个语音特征,语音特征包括每次说话时长Sn(L)、说话次数Sn(N)、短时能量En和MFCC系数Cn中至少一种,每次说话时长Sn(L)是指检测语音段的起始时间和结束时间中间的时间长度,说话次数Sn(N)是指每条语音中出现的分段语音的次数,所述短时能量En是指语音信号的第n个采样点的短时能量,MFCC系数Cn是指每个人语音的梅尔频率倒谱系数特征点。
执行步骤130,多语音特征融合模块210使用下面公式对步骤110中的语音特征进行归一化处理,
Figure BDA0001695352560000114
其中,
Figure BDA0001695352560000121
表示归一化后的Sn(F)特征,Sn(F)是第n个说话人的某一个特征,Sn(Fmax)表示Sn(F)的最小值,Sn(Fmin)表示Sn(F)的最大值。将所述每次说话时长Sn(L)、所述说话次数Sn(N)、所述短时能量En和所述MFCC系数Cn分别带入到上面公式中,得到归一化的说话时长
Figure BDA0001695352560000122
归一化的说话次数
Figure BDA0001695352560000123
归一化的短时能量
Figure BDA0001695352560000124
和归一化的MFCC系数
Figure BDA0001695352560000125
执行步骤140,多语音特征融合模块210对归一化的语音特征加权融合,融合构成各个人的语音特征矢量xn
其中,λ为对应的加权参数。
执行步骤150,融合参数优化模块220使用高斯混合模型进行加权参数优化。在目标说话人语音特征空间中,使用概率密度函数p(x|λ)计算d维的特征参数矢量x的分布,
Figure BDA0001695352560000127
其中,N(x;μi;∑i)表示d维每个子分布的联合高斯概率分布函数,αi表示第i个子高斯分布在总体混合高斯分布中所占的权值,μi和∑i分别表示第i个高斯分量的均值和协方差,m表示描述总体分布所用的高斯函数的个数。联合高斯概率分布函数N(x;μi;∑i)的计算公式为
Figure BDA0001695352560000128
计算高斯混合模型λ的似然度,公式为
Figure BDA0001695352560000129
其中,λ=(m;x;μi;∑),为高斯混合模型,X=[x1,x2,……xn]表示分离的说话人的总体的语音特征矢量序列
执行步骤160,融合参数优化模块220使用期望最大化算法EM算法进行高斯混合模型估计。EM算法是一种递归最大似然估计算法,每次迭代都会不断优化参数λ的值,使得似然度L(X|λ)达到最大,所述EM算法分E步和M步。E步是指利用模型初始参数,计算特征矢量xi在第k个高斯模型上的后验概率p(k|xi,λ),
Figure BDA0001695352560000131
其中,m为子高斯分布的个数,N(x;μk;∑k)为子高斯分布的联合概率密度函数。
M步为对第k个混合度的所述后验概率p(k|xi,λ)分别计算混合度的权值ai、均值μi、协方差∑i的最大似然估计值。第k个所述混合度的权值αk的计算公式为
Figure BDA0001695352560000132
第k个所述混合度的均值μk的计算公式为
Figure BDA0001695352560000133
第k个所述混合度的协方差αk的计算公式为
Figure BDA0001695352560000134
执行步骤170,融合参数优化模块220输出目标语音。通过高斯混合模型对语音特征矢量序列X=[x1,x2,……xn]进行概率估计,得到对应的特征矢量xi的概率αi,概率值大的是目标说话人的语音特征。
实施例二
本申请的目的在于解决多人场景下语音分离的不确定性问题和语音识别率低的问题,提出了一种多人混合语音中目标说话人估计方法。首先对多人混合语音分离,然后对分离后的语音进行目标说话人估计,以此提高目标说话人语音的分离效果和识别率。本发明主要分为三个模块:(1)语音分离模块,使用著名的FastICA语音分离算法进行多人混合语音分离;(2)多语音特征融合模块,提取多个语音特征,特征归一化之后,进行加权参数融合,得到语音特征序列;(3)融合参数的优化模块,即使用高斯混合模型对融合参数进行优化,通过期望最大化算法,估计出概率值最大的语音特征序列,概率最大最可能是目标说话人。
一个人可以在众多混合声音中听取其感兴趣的声音,人耳能够在混合声音中区分自己关注的声音。但对于机器而言,在多人的环境下分离不同人的声音是一个非常困难的问题,独立成分分析(ICA)可以有效的解决这一问题,进行多人混合语音的分离。每个人的音色不同,每个人的声音都有其独特的规律,所以多人语音的混合可以近似看着是多个相对独立成分的线性混合。ICA方法假定每个源信号之间都是统计独立的,根据源信号的统计特性,从混合观测信号中分离出源信号的各个具有非高斯性的独立成分。快速独立成分分析算法(Fast fixed-point algorithm for ICA,FastICA),也被称作固定点算法,是一种以分离速度快和鲁棒性好而著名的ICA算法。该算法是基于牛顿迭代法来实现混合信号中隐藏的独立成分局部非高斯性极大化的方法。
由于FastICA算法的不确定性(无序性),导致分离得到的语音并不知道哪一个是属于目标语音。所以,需要进行目标说话人估计,以便提取目标语音,提升目标说话人语音的可懂度和识别率。
本发明通过可行的技术方案,具有以下几点有益效果:
1.解决了FastICA算法的分离不确定性(无序性)问题,提高多人混合语音的分离性能。
2.对多人混合语音中目标说话人进行概率估计,以便增强目标说话人语音的可懂度和识别率。
结合图3进一步对本发明的具体实施过程进行说明。本发明在FastICA算法上进行分离语音的目标说话人估计,以便去除环境噪声和非目标人的语音干扰,提高多人混合语音中目标说话人语音的分离性能、可懂度和识别率。
顺序执行步骤300和步骤310,采集多人场景下的混合语音数据并进行预处理。执行步骤320,进行多人混合语音的分离。如图4所示,使用著名的FastICA算法对多人混合语音进行分离,得到多个分离语音。执行步骤400,用麦克风阵列采集语音信号,得到混合信号x。执行步骤410,对混合观测信号x中心化去均值,
Figure BDA0001695352560000151
执行步骤420,白化处理去混合语音之间的相关性,
z=Vx=ED-1/2ETx
执行步骤430,随机生成初始解混矩阵w0,‖w02=1。执行步骤440,更新解混矩阵w,
Figure BDA0001695352560000152
执行步骤450,判断解混矩阵w是否收敛,公式为|wn+1-wn|<ε。当解混矩阵w不收敛时,重新执行步骤440。当解混矩阵w收敛时,顺序执行步骤460和步骤470,得到N个分离语音信号y=[y1,y2,……yn],
Figure BDA0001695352560000153
并输出分离语音y。
执行步骤330,提取多个语音特征。不同语音特征示意图如图5、5A、5B所示,图5对应的是分离语音对应说话时长和说话次数检测示意图,图5A对应的是分离语音短时能量示意图,图5B对应的是分离语音MFCC系数特征示意图。
执行步骤340,进行目标说话人估计。分别对语音特征进行归一化处理,是每个语音特征的取值大小在[0,1]之间。语音特征归一化示意图如图6所示。完成语音特征序列的高斯混合模型参数优化。分别对多个语音特征序列构成的高斯混合模型进行估计,优化过程不断迭代,得到不同的参数值。参数优化过程如图7所示。
执行步骤350,输出目标语音。根据语音特征序列xi对应的权重值ai的大小进行判断,权重值ai大的就是概率估计的目标说话人对应的语音。
本申请提出的一种多人混合语音中目标说话人估计方法的工作示意图如图8所示。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (10)

1.一种多人语音混合中目标说话人估计方法,包括使用麦克风阵列采集语音信号得到混合信号x,其特征在于,还包括以下步骤:
步骤1:使用FastICA算法进行多人混合语音分离,得到N个分离语音y;
步骤2:提取多个语音特征;
步骤3:进行语音特征归一化;步骤4:归一化的语音特征加权融合;融合构成各个人的语音特征矢量xn
Figure FDA0002430070960000011
Figure FDA0002430070960000012
其中,λ为对应的加权参数,
Figure FDA0002430070960000013
为归一化的说话时长,
Figure FDA0002430070960000014
为归一化的说话次数、
Figure FDA0002430070960000015
为归一化的短时能量,
Figure FDA0002430070960000016
为归一化的MFCC系数;
步骤5:使用高斯混合模型进行加权参数优化;
步骤6:使用期望最大化算法EM算法进行高斯混合模型估计;
步骤7:输出目标语音。
2.如权利要求1所述的多人语音混合中目标说话人估计方法,其特征在于:所述步骤1包括以下子步骤:
步骤11:对混合观测信号x中心化去均值,
Figure FDA0002430070960000017
其中,i=1.....n,n为实系数;
步骤12:白化处理去混合语音之间的相关性,
z=Vx=ED-1/2ETx
其中,V为白化矩阵,E为中心化数据的特征向量构成的正交矩阵,D为特征向量对应的特征值构成的对角矩阵,ET为E转置矩阵;
步骤13;随机生成初始解混矩阵w0,||w0||2=1;
步骤14:更新解混矩阵w,
Figure FDA0002430070960000021
其中,g(y)=y×exp(-y2/2),g′为g的导数;
步骤15:如果所述解混矩阵w收敛,则wn+1解混矩阵,停止迭代,反之重新执行步骤14继续迭代;
步骤16:得到N个分离语音信号y=[y1,y2,......yn],
Figure FDA0002430070960000022
3.如权利要求2所述的多人语音混合中目标说话人估计方法,其特征在于:判断所述解混矩阵w收敛的公式为|wn+1-wn|<ε,其中,ε为收敛门限。
4.如权利要求1所述的多人语音混合中目标说话人估计方法,其特征在于:所述语音特征包括每次说话时长Sn(L)、说话次数Sn(N)、短时能量En和MFCC系数Cn中至少一种。
5.如权利要求4所述的多人语音混合中目标说话人估计方法,其特征在于:所述每次说话时长Sn(L)是指检测语音段的起始时间和结束时间中间的时间长度。
6.如权利要求4所述的多人语音混合中目标说话人估计方法,其特征在于:所述说话次数Sn(N)是指每条语音中出现的分段语音的次数。
7.如权利要求4所述的多人语音混合中目标说话人估计方法,其特征在于:所述短时能量En是指语音信号的第n个采样点的短时能量。
8.如权利要求4所述的多人语音混合中目标说话人估计方法,其特征在于:所述MFCC系数Cn是指每个人语音的梅尔频率倒谱系数特征点。
9.如权利要求4所述的多人语音混合中目标说话人估计方法,其特征在于:所述步骤3为使用下面公式对所述语音特征进行归一化处理,
Figure FDA0002430070960000031
其中,
Figure FDA0002430070960000032
表示归一化后的Sn(F)特征,Sn(F)是第n个说话人的某一个特征,Sn(Fmax)表示Sn(F)的最小值,Sn(Fmin)表示Sn(F)的最大值。
10.一种多人语音混合中目标说话人估计系统,包括用于进行多人混合语音分离的语音分离模块,其特征在于,还包括以下模块:
多语音特征融合模块:提取多个语音特征,特征归一化之后,进行加权参数融合,得到语音特征序列;融合构成各个人的语音特征矢量xn
Figure FDA0002430070960000033
其中,λ为对应的加权参数,
Figure FDA0002430070960000034
为归一化的说话时长,
Figure FDA0002430070960000035
为归一化的说话次数、
Figure FDA0002430070960000036
为归一化的短时能量,
Figure FDA0002430070960000037
为归一化的MFCC系数;
融合参数优化模块:用高斯混合模型对融合参数进行优化,通过期望最大化算法EM算法,估计出概率值最大的语音特征序列。
CN201810610015.8A 2018-06-13 2018-06-13 一种多人语音混合中目标说话人估计方法及系统 Active CN108766459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810610015.8A CN108766459B (zh) 2018-06-13 2018-06-13 一种多人语音混合中目标说话人估计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810610015.8A CN108766459B (zh) 2018-06-13 2018-06-13 一种多人语音混合中目标说话人估计方法及系统

Publications (2)

Publication Number Publication Date
CN108766459A CN108766459A (zh) 2018-11-06
CN108766459B true CN108766459B (zh) 2020-07-17

Family

ID=64021274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810610015.8A Active CN108766459B (zh) 2018-06-13 2018-06-13 一种多人语音混合中目标说话人估计方法及系统

Country Status (1)

Country Link
CN (1) CN108766459B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583171A (zh) * 2018-12-05 2019-04-05 北京蓦然认知科技有限公司 一种用户登录解锁方法、装置
CN109785852A (zh) * 2018-12-14 2019-05-21 厦门快商通信息技术有限公司 一种增强说话人语音的方法及系统
CN110335621A (zh) * 2019-05-28 2019-10-15 深圳追一科技有限公司 音频处理的方法、系统及相关设备
CN112185411A (zh) * 2019-07-03 2021-01-05 南京人工智能高等研究院有限公司 语音分离方法、装置、介质和电子设备
CN110288996A (zh) * 2019-07-22 2019-09-27 厦门钛尚人工智能科技有限公司 一种语音识别装置和语音识别方法
CN110853666B (zh) * 2019-12-17 2022-10-04 科大讯飞股份有限公司 一种说话人分离方法、装置、设备及存储介质
CN113223553B (zh) * 2020-02-05 2023-01-17 北京小米移动软件有限公司 分离语音信号的方法、装置及介质
CN111816185A (zh) * 2020-07-07 2020-10-23 广东工业大学 一种对混合语音中说话人的识别方法及装置
CN111863020B (zh) * 2020-07-30 2022-09-20 腾讯科技(深圳)有限公司 语音信号处理方法、装置、设备及存储介质
CN113793614B (zh) * 2021-08-24 2024-02-09 南昌大学 一种基于独立向量分析的语音特征融合的说话人识别方法
CN114598914A (zh) * 2022-02-17 2022-06-07 厦门快商通科技股份有限公司 一种基于视频的人声分离方法、终端设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968986A (zh) * 2012-11-07 2013-03-13 华南理工大学 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN103531208A (zh) * 2013-11-01 2014-01-22 东南大学 一种基于短时记忆权重融合的航天应激情感识别方法
CN103578481A (zh) * 2012-07-24 2014-02-12 东南大学 一种跨语言的语音情感识别方法
CN103811020A (zh) * 2014-03-05 2014-05-21 东北大学 一种智能语音处理方法
CN103971680A (zh) * 2013-01-24 2014-08-06 华为终端有限公司 一种语音识别的方法、装置
CN106205623A (zh) * 2016-06-17 2016-12-07 福建星网视易信息系统有限公司 一种声音转换方法及装置
CN106548786A (zh) * 2015-09-18 2017-03-29 广州酷狗计算机科技有限公司 一种音频数据的检测方法及系统
WO2018036610A1 (en) * 2016-08-22 2018-03-01 Telefonaktiebolaget Lm Ericsson (Publ) Systems, apparatuses, and methods for speaker verification using artificial neural networks
CN107886943A (zh) * 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置
CN107919133A (zh) * 2016-10-09 2018-04-17 赛谛听股份有限公司 针对目标对象的语音增强系统及语音增强方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10056076B2 (en) * 2015-09-06 2018-08-21 International Business Machines Corporation Covariance matrix estimation with structural-based priors for speech processing

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578481A (zh) * 2012-07-24 2014-02-12 东南大学 一种跨语言的语音情感识别方法
CN102968986A (zh) * 2012-11-07 2013-03-13 华南理工大学 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN103971680A (zh) * 2013-01-24 2014-08-06 华为终端有限公司 一种语音识别的方法、装置
CN103531208A (zh) * 2013-11-01 2014-01-22 东南大学 一种基于短时记忆权重融合的航天应激情感识别方法
CN103811020A (zh) * 2014-03-05 2014-05-21 东北大学 一种智能语音处理方法
CN106548786A (zh) * 2015-09-18 2017-03-29 广州酷狗计算机科技有限公司 一种音频数据的检测方法及系统
CN106205623A (zh) * 2016-06-17 2016-12-07 福建星网视易信息系统有限公司 一种声音转换方法及装置
WO2018036610A1 (en) * 2016-08-22 2018-03-01 Telefonaktiebolaget Lm Ericsson (Publ) Systems, apparatuses, and methods for speaker verification using artificial neural networks
CN107919133A (zh) * 2016-10-09 2018-04-17 赛谛听股份有限公司 针对目标对象的语音增强系统及语音增强方法
CN107886943A (zh) * 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
噪声环境下的FastICA算法研究;陈明诚;《计算机科学》;20171031;第44卷(第10A期);全文 *
说话人识别中特征提取的方法研究;张荣强;《中国优秀硕士学位论文全文数据库 信息科技辑》;20050715(第03期);正文第2-5章 *

Also Published As

Publication number Publication date
CN108766459A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108766459B (zh) 一种多人语音混合中目标说话人估计方法及系统
Luo et al. Speaker-independent speech separation with deep attractor network
CN107919133B (zh) 针对目标对象的语音增强系统及语音增强方法
CN110970053B (zh) 一种基于深度聚类的多通道与说话人无关语音分离方法
Taherian et al. Robust speaker recognition based on single-channel and multi-channel speech enhancement
EP2306457B1 (en) Automatic sound recognition based on binary time frequency units
Ji et al. Speaker-aware target speaker enhancement by jointly learning with speaker embedding extraction
Araki et al. Spatial correlation model based observation vector clustering and MVDR beamforming for meeting recognition
CN110197665A (zh) 一种用于公安刑侦监听的语音分离与跟踪方法
CN113096684A (zh) 一种基于双麦克风阵列的目标语音提取方法
Sun et al. A speaker-dependent approach to separation of far-field multi-talker microphone array speech for front-end processing in the CHiME-5 challenge
Matsui et al. Online integration of DNN-based and spatial clustering-based mask estimation for robust MVDR beamforming
JP2006510060A (ja) 複数の音響源が生成した複数の音響信号を分離する方法及びシステム
Khan et al. Speaker separation using visually-derived binary masks
Ramgire et al. A survey on speaker recognition with various feature extraction and classification techniques
Chakraborty et al. Front-End Feature Compensation and Denoising for Noise Robust Speech Emotion Recognition.
CN113870893A (zh) 一种多通道双说话人分离方法及系统
Delfarah et al. Recurrent neural networks for cochannel speech separation in reverberant environments
Grondin et al. WISS, a speaker identification system for mobile robots
Hao et al. Speech enhancement using Gaussian scale mixture models
Marti et al. Automatic speech recognition in cocktail-party situations: A specific training for separated speech
Delfarah et al. Talker-independent speaker separation in reverberant conditions
Kundegorski et al. Two-Microphone dereverberation for automatic speech recognition of Polish
Aloradi et al. Speaker verification in multi-speaker environments using temporal feature fusion
Sun et al. A two-stage single-channel speaker-dependent speech separation approach for chime-5 challenge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant