CN111816185A

CN111816185A - 一种对混合语音中说话人的识别方法及装置

Info

Publication number: CN111816185A
Application number: CN202010646240.4A
Authority: CN
Inventors: 杨祖元; 叶佳锐; 袁志勇
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-10-23

Abstract

本申请公开了一种对混合语音中说话人的识别方法及装置，方法包括：获取待测混合语音信号；判断待测混合语音信号中的说话人人数；由说话人人数对待测混合语音信号进行分离，分离后的语音信号与说话人人数相对应；提取分离后的语音信号的声纹特征向量；根据预置第一公式计算声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分，得到识别结果。本申请解决了混杂语音对识别目标说话人的干扰，难以保证辨别准确率的技术问题。

Description

一种对混合语音中说话人的识别方法及装置

技术领域

本申请涉及语音识别技术领域，尤其涉及一种对混合语音中说话人的识别方法及装置。

背景技术

声纹识别技术是信息科学和人工智能的重要组成部分，分为说话人确认技术与说话人辨认技术两个方面，通常理解的都是说话人辨认技术，常常应用于刑侦破案、罪犯跟踪、国防监听、个性化应用等等，说话人确认技术常常应用于证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的识别等。当前主要的识别方法包括矢量量化技术、隐马尔可夫模型、动态时间规整法、人工神经网络和高斯混合模型等。其中高斯混合模型已经在声纹识别领域得到了广泛应用，但在现实应用场景往往比较复杂，难以录取到纯净的语音信息。

ICA是基于鸡尾酒会问题模型所提出来的一种解决未知源信号的混合信号分离方法，也可说ICA是解决盲源分离(Blind Sources Separation，简称BSS)问题的一种可行方法。ICA在语音信号的接收过程中往往可能不仅仅是指令信号，还包括其他噪声信号，那么声控计算机所接收的信号就是可观测的混合信号，为了获得指令信号，就需要对可观测的混合信号进行分离。快速固定点算法(Fast ICA)作为ICA算法中最常用的算法，自1997年被提出来后，受到广泛的关注，该算法正是因为有比较快的收敛速度而被命名为FastICA算法。

但是由于应用场景的不同，使用通用的声纹识别系统会对对于特定情况下的识别效果不够理想。

发明内容

本申请提供了一种对混合语音中说话人的识别方法及装置，解决混杂语音对识别目标说话人的干扰，难以保证辨别准确率的技术问题。

有鉴于此，本申请第一方面提供了一种对混合语音中说话人的识别方法，所述方法包括：

获取待测混合语音信号；

判断所述待测混合语音信号中的说话人人数；

由所述说话人人数对所述待测混合语音信号进行分离，分离后的语音信号与所述说话人人数相对应；

提取所述分离后的语音信号的声纹特征向量；

根据预置第一公式计算所述声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分，得到识别结果。

可选的，所述在所述计算所述声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分，得到识别结果，之前还包括：

采用多种语音样本训练GMM-UBM声纹模型，并将所述语音样本对应的声纹模型保存至所述声纹模型库。

可选的，所述采用多种语音样本训练GMM-UBM声纹模型，并将所述语音样本对应的声纹模型保存至所述声纹模型库，具体包括：

提取多种所述语音样本的MFCC特征向量；

将所述MFCC特征向量训练所述GMM-UBM声纹模型，并将所述语音样本对应的GMM声纹模型保存至所述声纹模型库。

可选的，所述提取多种所述语音样本的MFCC特征向量，将所述MFCC特征向量训练所述GMM-UBM声纹模型，并将所述语音样本对应的GMM声纹模型保存至所述声纹模型库，具体包括：

预处理多种所述语音样本；

将预处理后的所述语音样本输入至MEL滤波器组，输出的对数能量经过离散余弦变换后得到MFCC特征向量；

利用EM算法将所述MFCC特征向量训练全局背景模型UBM；

在所述背景模板UBM的基础上，利用MAP算法通过目标说话人的语音样本调整所述背景模板UBM的参数，得到所述目标说话人的所述GMM声纹模型，并将所述GMM声纹模型保存至所述声纹模型库。

可选的，所述由所述说话人人数对所述待测混合语音信号进行分离，具体包括：

采用FastICA算法对所述待测混合语音信号进行分离。

可选的，所述预置第一公式计算具体为：

S(Y)＝log P(Y|λ_GMM)-log P(Y|λ_UBM)

式中，λ_UBM是训练好的UBM的模型参数，P(Y|λ_UBM)表示UBM模型中测试所述声纹特征向量Y的似然得分；P(Y|λ_GMM)表示测试所述声纹特征向量Y在所述声纹模型库中的所述声纹模板下的似然得分，得分最大的即为识别结果。

本申请第二方面提供一种对混合语音中说话人的识别装置，所述装置包括：

待测语音获取单元，用于获取待测混合语音信号；

判断单元，用于判断所述待测混合语音信号中的说话人人数；

语音分离单元，用于由所述说话人人数对所述待测混合语音信号进行分离，分离后的语音信号与所述说话人人数相对应；

第一特征提取单元，用于提取所述分离后的语音信号的声纹特征向量；

计算单元，用于根据预置第一公式计算所述声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分，得到识别结果。

可选的，还包括：

第一模型训练单元，用于采用多种语音样本训练GMM-UBM声纹模型，并将所述语音样本对应的声纹模型保存至所述声纹模型库。

可选的，所述第一模型训练单元具体包括：

第二特征提取单元，用于提取多种所述语音样本的MFCC特征向量；

第二模型训练单元，用于将所述MFCC特征向量训练所述GMM-UBM声纹模型，并将所述语音样本对应的GMM声纹模型保存至所述声纹模型库。

可选的，所述第一模型训练单元具体包括：

预处理单元，用于预处理多种所述语音样本；

第三特征提取单元，用于将预处理后的所述语音样本输入至MEL滤波器组，输出的对数能量经过离散余弦变换后得到MFCC特征向量；

第三模型训练单元，用于利用EM算法将所述MFCC特征向量训练全局背景模型UBM；

第四模型训练单元，用于在所述背景模板UBM的基础上，利用MAP算法通过目标说话人的语音样本调整所述背景模板UBM的参数，得到所述目标说话人的所述GMM声纹模型，并将所述GMM声纹模型保存至所述声纹模型库。

从以上技术方案可以看出，本申请具有以下优点：

本申请中，提供了一种对混合语音中说话人的识别方法，包括：获取待测混合语音信号；判断待测混合语音信号中的说话人人数；由说话人人数对待测混合语音信号进行分离，分离后的语音信号与说话人人数相对应；提取分离后的语音信号的声纹特征向量；根据预置第一公式计算声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分，得到识别结果。

本申请首先判断采集的语音信号中说话人的人数，然后对采集的音频信号进行分离，从而解决混杂语音对识别目标说话人的干扰，保证有较高的辨别准确率；对分离后的语音信号依次提取声纹特征向量，计算分离后的语音信号的声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分，对得分进行判断，从而得到识别结果，解决了混杂语音对识别目标说话人的干扰，难以保证辨别准确率的技术问题。

附图说明

图1为本申请一种对混合语音中说话人的识别方法的一个实施例的方法流程图；

图2为本申请一种对混合语音中说话人的识别方法的另一个实施例的方法流程图；

图3为本申请一种对混合语音中说话人的识别装置的一个实施例的装置结构图；

图4为本发明实施例中训练GMM-UBM声纹模型的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1为本申请一种对混合语音中说话人的识别方法的一个实施例的方法流程图，如图1所示，图1中包括：

101、获取待测混合语音信号。

需要说明的是，本申请中首先需要获取待测的混合语音信号，混合语音信号中包括多个说话人的混合声音。混合语音信号中可以包括多个目标语音信号，例如目标语音信号可以是刑侦破案和罪犯跟踪中的犯罪嫌疑人语音信号，即用户需要检测的信号。

在一种具体的实施方式中，可以采用至少3通道的音频采集设备采集待测语音信号，以便于后续判断说话人的音频信号源的源数，从而在对语音信息进行分离时具有更好的识别效果。

102、判断待测混合语音信号中的说话人人数。

需要说明的是，判断混合语音信号中的说话人人数可以采用基于信息论的最短描述长度(Minimum Description Length，MDL)准则的判断方法，对说话人的音频信号源的源数进行估计。

103、由说话人人数对待测混合语音信号进行分离，分离后的语音信号与说话人人数相对应。

需要说明的是，由说话人人数对待测混合语音信号进行分离，具体的可以根据说话人的音频信号源的源数对待测混合语音信号进行分离，即有多少信号源对应多少分离后的语音信号。

在一种具体的实施方式中，可以使用独立成分分析(Independent ComponentAnalysis，ICA)中的FastICA方法，对说话人的音频信号源进行分离，得到每个音频信号源对应的语音信号。

104、提取分离后的语音信号的声纹特征向量。

需要说明的是，将分离后的多个语音信号进行声纹特征向量提取，其提取的声纹特征向量可以为梅尔频率倒谱系数MFCC特征向量。

105、根据预置第一公式计算声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分，得到识别结果。

需要说明的是，将多个语音信号提取的声纹特征向量分别与声纹模型库中已经保存的声纹模型进行比对，具体的，根据预置第一公式计算声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分，其得分越高，表示该语音信号的声纹特征向量与声纹模型越相似，那么，当该语音信号在声纹模型库中存在相似高的声纹模型，则找到目标说话人。例如，当需要检测混合语音信号中是否存在犯罪嫌疑人，可以找到已经获取的犯罪嫌疑人的语音用来训练声纹模型，获得声纹模型后将其保存至声纹模型库中，从而将混合语音信号中提取的声纹语音特征与声纹模型库中声纹模型进行比对，判断出是否存在犯罪嫌疑人。

本申请，本申请首先以MDL准则判断采集的语音信号中说话人的人数，然后使用FASTICA算法对采集的音频信号进行分离，从而解决混杂语音对识别目标说话人的干扰，保证有较高的辨别准确率；对分离后的语音信号依次提取声纹特征向量，计算分离后的语音信号的声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分，对得分进行判断，从而得到识别结果，解决了混杂语音对识别目标说话人的干扰，难以保证辨别准确率的技术问题。

如图2所示，本申请还提供了一种对混合语音中说话人的识别方法的另外一个实施例，具体包括：

201、预处理多种语音样本。

需要说明的是，可以获取大量、与目标说话人无关的且包含各年龄段不同性别的混杂语音样本，当做训练样本(背景数据)，用于训练全局背景模型UBM；获取目标说话人的语音样本用于训练GMM模型，目标说话人的语音样本可以是提前获取的待检测目标的语音样本，例如犯罪嫌疑人还未被逮捕前获取的语音数据，通过该语音样本训练得到的模型来检测待测语音信号是否存在犯罪嫌疑人。

首先，需要对混杂语音样本以及目标说话人的语音样本进行预处理，使得混杂语音样本能够输入至UBM模型进行训练，使得目标说话人的语音样本能够输入至GMM模型用于训练。

202、将预处理后的语音样本输入至MEL滤波器组，输出的对数能量经过离散余弦变换后得到MFCC特征向量。

需要说明的是，将预处理后的混杂语音样本输入至MEL滤波器组，经过MEL滤波器组得到的对数能量经过离散余弦变换后可以得到MFCC特征向量。

203、利用EM算法将MFCC特征向量训练全局背景模型UBM。

需要说明的是，将提取混杂语音样本得到的MFCC特征向量经过EM算法训练UBM模型，从而获得背景模型。即背景模型是通过与目标说话人的语音样本无关的语音样本训练得到的，是通过大范围的语音样本训练得到的背景模板。

204、在背景模板UBM的基础上，利用MAP算法通过目标说话人的语音样本调整背景模板UBM的参数，得到目标说话人的GMM声纹模型，并将GMM声纹模型保存至声纹模型库。

需要说明的是，通过最大后验概率算法(Maximum A-Posteriori，MAP)，使用每个目标说话人的语音样本在UBM的基础上对UBM模型的参数进行微调，从而得到目标说话人对应的GMM模型，这种方法提高目标样本过少时的训练模型的检测效果，并且可以有效减少建模时的计算量，节省建模时间。由上可知，本申请通过大量、与说话人无关的包含各年龄段不同性别的混杂语音样本，训练全局背景模型(UBM)，有效弥补目标语音样本不足的问题；通过MAP自适应算法，使用每个目标说话人的语音样本在UBM基础上进行参数的微调得到目标说话人对应的GMM模型，从而能够有效减少建模时的计算量，节省建模时间。

205、获取待测混合语音信号。

需要说明的是，本申请中首先需要获取待测的混合语音信号，混合语音信号中包括多个说话人的混合声音，混合声音可以包括目标说话人的语音信号。目标说话人的语音信号可以是刑侦破案和罪犯跟踪中的犯罪嫌疑人语音信号，即用户需要检测的信号。

在一种具体的实施方式中，可以采用至少3通道的音频采集设备采集待测混合语音信号，以便于后续判断说话人的音频信号源的源数，从而在对语音信息进行分离时具有更好的识别效果。

206、判断待测混合语音信号中的说话人人数。

具体的，基于MDL的判断方法为：

式中，当MDL(n)最小化时，得到的n为输入信号的源数，其中λ_i为第i个通道的音频向量的特征值，N为输入音频通道的总数。

207、由说话人人数对待测混合语音信号进行分离，分离后的语音信号与说话人人数相对应。

在一种具体的实施方式中，采用FastICA方法对待测混合语音信号进行分离的过程包括：

S1：获取混合语音信号的解混矢量矩阵，选择解混矢量矩阵的初始点(一般设置为单位矩阵)，同时规定收敛的阈值为0.0001；

S2：根据解混矩阵迭代公式对解混矩阵进行迭代更新；

S3：归一化解混矩阵；

S4：判断算法是否收敛：若收敛，输出解混矩阵，否则重复步骤S2到步骤S4；

S5：输出解混后的音频信号。

208、提取分离后的语音信号的声纹特征向量。

209、根据预置第一公式计算声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分，得到识别结果。

需要说明的是，将多个语音信号提取的声纹特征向量分别与声纹模型库中已经保存的GMM声纹模型进行比对，具体的，根据预置第一公式计算声纹特征向量与声纹模型库中的GMM声纹模型的对数似然概率得分，其得分越高，表示该语音信号的声纹特征向量与GMM声纹模型越相似，那么，当该语音信号在声纹模型库中存在相似高的GMM声纹模型，则找到目标说话人。例如，当需要检测混合语音信号中是否存在犯罪嫌疑人，可以找到已经获取的犯罪嫌疑人的语音用来训练声纹模型，获得声纹模型后将其保存至声纹模型库中，从而将混合语音信号中提取的声纹语音特征与声纹模型库中声纹模型进行比对，判断出是否存在犯罪嫌疑人。

本申请结合MATLAB仿真实验对本申请一种对混合语音中说话人的识别方法的进行测试。

首先，本发明实验使用TIMIT语料库，使用m*n的混合矩阵A模拟m通道音频采集设备采集n个说话人同时说话的音频信息。

将对数似然得分作为识别结果，得分越高，表明识别结果越好。

实验中设置对照组和实验组，对照组为混合语音信号各通道分别求对数似然得分，实验组为使用基于信息论的MDL准则联合FASTICA算法解混后的音频信号各通道分别求其对数似然得分。

实验分为以下四种情况进行：

1.四通道录音设备录取三个说话人的声音，其中有两个已注册(已注册表示声纹模型库中已经具有对应的GMM声纹模型)；

2.四通道录音设备录取三个说话人的声音，其中有一个已注册；

3.五通道录音设备录取四个说话人的声音，其中有三个已注册；

4.五通道录音设备录取四个说话人的声音，其中有两个已注册；

实验表明：使用基于信息论的MDL准则联合FASTICA算法解混后再进行声纹模识别相比于直接使用混合语音信号进行声纹识别，对数似然得分在各种情况下的提升均在200％以上。可见，本申请提出的一种基于盲分离的混合语音说话人识别方法用于混合声纹识别可使其性能有较大提升。

以上是本申请一种对混合语音中说话人的识别方法的实施例，本申请还包括一种对混合语音中说话人的识别装置的实施例，如图3所示，包括：

待测语音获取单元301，用于获取待测混合语音信号；

判断单元302，用于判断待测混合语音信号中的说话人人数；

语音分离单元303，用于由说话人人数对待测混合语音信号进行分离，分离后的语音信号与说话人人数相对应；

第一特征提取单元304，用于提取分离后的语音信号的声纹特征向量；

计算单元305，用于根据预置第一公式计算声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分，得到识别结果。

在一种具体的实施方式中，还包括：

第一模型训练单元，用于采用多种语音样本训练GMM-UBM声纹模型，并将语音样本对应的声纹模型保存至声纹模型库。

第一模型训练单元具体包括：

第二特征提取单元，用于提取多种语音样本的MFCC特征向量；

第二模型训练单元，用于将MFCC特征向量训练GMM-UBM声纹模型，并将语音样本对应的GMM声纹模型保存至声纹模型库。

第一模型训练单元具体还包括：

预处理单元，用于预处理多种语音样本；

第三特征提取单元，用于将预处理后的语音样本输入至MEL滤波器组，输出的对数能量经过离散余弦变换后得到MFCC特征向量；

第三模型训练单元，用于利用EM算法将MFCC特征向量训练全局背景模型UBM；

第四模型训练单元，用于在背景模板UBM的基础上，利用MAP算法通过目标说话人的语音样本调整背景模板UBM的参数，得到目标说话人的GMM声纹模型，并将GMM声纹模型保存至声纹模型库。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种对混合语音中说话人的识别方法，其特征在于，包括：

获取待测混合语音信号；

判断所述待测混合语音信号中的说话人人数；

提取所述分离后的语音信号的声纹特征向量；

2.根据权利要求1所述的对混合语音中说话人的识别方法，其特征在于，所述在所述计算所述声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分，得到识别结果，之前还包括：

3.根据权利要求2所述的对混合语音中说话人的识别方法，其特征在于，所述采用多种语音样本训练GMM-UBM声纹模型，并将所述语音样本对应的声纹模型保存至所述声纹模型库，具体包括：

提取多种所述语音样本的MFCC特征向量；

4.根据权利要求3所述的对混合语音中说话人的识别方法，其特征在于，所述提取多种所述语音样本的MFCC特征向量，将所述MFCC特征向量训练所述GMM-UBM声纹模型，并将所述语音样本对应的GMM声纹模型保存至所述声纹模型库，具体包括：

预处理多种所述语音样本；

利用EM算法将所述MFCC特征向量训练全局背景模型UBM；

5.根据权利要求1所述的对混合语音中说话人的识别方法，其特征在于，所述由所述说话人人数对所述待测混合语音信号进行分离，具体包括：

采用FastICA算法对所述待测混合语音信号进行分离。

6.根据权利要求1所述的对混合语音中说话人的识别方法，其特征在于，所述预置第一公式计算具体为：

S(Y)＝logP(Y|λ_GMM)-logP(Y|λ_UBM)

7.一种对混合语音中说话人的识别装置，其特征在于，包括：

待测语音获取单元，用于获取待测混合语音信号；

8.根据权利要求7所述的对混合语音中说话人的识别装置，其特征在于，还包括：

9.根据权利要求8所述的对混合语音中说话人的识别装置，其特征在于，所述第一模型训练单元具体包括：

10.根据权利要求9所述的对混合语音中说话人的识别装置，其特征在于，所述第一模型训练单元具体包括：

预处理单元，用于预处理多种所述语音样本；