CN110299142B

CN110299142B - 一种基于网络融合的声纹识别方法及装置

Info

Publication number: CN110299142B
Application number: CN201810456054.7A
Authority: CN
Inventors: 蔡晓东; 李波
Original assignee: Guilin Topintelligent Communication Technology Co ltd
Current assignee: Guilin Topintelligent Communication Technology Co ltd
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2021-11-19
Anticipated expiration: 2038-05-14
Also published as: CN110299142A

Abstract

本发明公开了基于网络融合的声纹识别方法及装置，包括：将待识别声纹音频的语音样本转换为第一语谱图，将与所述待识别声纹音频进行比对的声纹数据库中的语音样本转换为第二语谱图；将第一语谱图和第二语谱图输入时序相关卷积神经网络声纹识别模型，分别提取声纹特征；在所述时序相关卷积神经网络声纹识别模型中引入CSR模型；将待识别声纹音频的声纹特征与所述声纹数据库中的声纹特征进行比对，根据引入CSR模型提供的奖惩函数，确定识别结果。本发明采用时序相关卷积神经网络，引入CSR模型，可以解决GMM‑HMM方法对大规模语音数据建模不是很好的问题，并且能够对抗一定噪声，与传统的声纹识别方法相比，能够提高声纹识别的识别率。

Description

一种基于网络融合的声纹识别方法及装置

技术领域

本发明涉及声纹识别技术领域，特别涉及一种基于网络融合的声纹识别方法及装置。

背景技术

声纹识别，是从一段语音中提取分析和提取出说话人的个性特征，自动确定说话人的过程。声纹识别技术作为一种典型的声纹特征识别技术，以其便捷、安全可靠等特点，在安防领域、公安司法领域、军事领域及医学领域都有广泛的应用前景。

声纹识别技术，又称为说话人识别技术，是一种生物识别的技术。说话人识别包括说话人确认技术和说话人辨认技术，说话人确认是指判断一段话是否为某人所说，为“一对一”问题；说话人辨认是指在n个已知样本中选择一个与未知音频样本最像的一个音频，是“多选一”问题。

声纹识别技术又发分为文本相关和文本无关两类，与文本有关的声纹识别系统要求用户按照规定的内容发音，每个人的声纹模型逐个被精确地建立，而识别时也必须按规定的内容发音，因此可以达到较好的识别效果，但系统需要用户配合，如果用户的发音与规定的内容不符合，则无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容，模型建立相对困难，但用户使用方便，可应用范围较宽。根据特定的任务和应用，两种是有不同的应用范围的。比如，在银行交易时可以使用文本相关的声纹识别，因为用户自己进行交易时是愿意配合的；而在刑侦或侦听应用中则无法使用文本相关的声纹识别，因为你无法要求犯罪嫌疑人或被侦听的人配合。

在对说话的人辨认方面，根据待识别的说话人是否在注册的说话人集合内，说话人辨认可以分为开集(open-set)辨认和闭集(close-set)辨认。前者假定待识别说话人可以在集合外，而后者假定待识别说话人在集合内。显然，开集辨认需要有一个对集外说话人的“拒识问题”，而且闭集辨认的结果要好于开集辨认结果。本质上讲，说话人确认和开集说话人辨认都需要用到拒识技术，为了达到很好的拒识效果，通常需要训练一个假冒者模型或背景模型，以便拒识时有可资比较的对象，阈值容易选定。而建立背景模型的好坏直接影响到拒识甚至声纹识别的性能。另外现有的GMM-HMM模型用于语音识别，对大规模语音数据建模处理的不是很好。

传统说话人识别技术采用GMM-UBM通用背景模型，首先利用大量说话人的语音数据训练一个说话人无关的通用背景模型，然后利用可获得的少量当前说话人的语音数据，通过最大后验概率或者最大似然回归准则，训练得到说话人模型。

传统方法中，分别针对待识别语音数据计算说话人对应的GMM和UBM模型似然度，并通过对数似然比这个度量来计算最后的得分，但其识别的准确率较低。如何提高声纹识别率一直是同行业技术人员亟待解决的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于网络融合的声纹识别方法及装置。

第一方面，本发明实施例提供一种基于网络融合的声纹识别方法，包括：

将待识别声纹音频的语音样本转换为第一语谱图，将与所述待识别声纹音频进行比对的声纹数据库中的语音样本转换为第二语谱图；

将所述第一语谱图和第二语谱图输入时序相关卷积神经网络声纹识别模型，分别提取声纹特征；

在所述时序相关卷积神经网络声纹识别模型中引入CSR模型；

将待识别声纹音频的声纹特征与所述声纹数据库中的声纹特征进行比对，根据引入CSR模型提供的奖惩函数，确定识别结果。

在一个实施例中，所述时序相关卷积神经网络声纹识别模型的训练方法，包括：

获取多个语音训练样本，将每个所述语音训练样本的音频进行变换得到第三语谱图；

将所述第三语谱图并行投入时序相关卷积神经网络中进行训练，生成时序相关卷积神经网络声纹识别模型。

在一个实施例中，所述时序相关卷积神经网络为：在卷积神经网络中的池化层中融入时序相关的神经网络；

所述时序相关卷积神经网络的架构，包括：

输入语谱图，依次经过两个卷积层和两个池化层,在经过第三个池化层时，嵌入时序相关神经网络3；在经过第四个池化层时，嵌入时序相关神经网络2；在经过第五个池化层时，嵌入时序相关神经网络1；将时序相关神经网络1经过第六和第七个卷积层时，进行上采样得到score2；经过时序相关神经网络2后得到一个score_pool4；将score2与score_pool4进行累加并进行上采样得到score4；将经过时序相关神经网络3得到的score_pool3与score4进行累加并上采样得到输出。

在一个实施例中，根据引入CSR模型提供的奖惩函数，确定识别结果，包括：

在CSR模型中设置奖惩函数，输入所述分别提取特征所对应的特征向量，计算lost方程的值；当所述值大于等于预设的阈值时，则CSR返回一个惩罚值；当所述值小于等于所述阈值时，则返回一个奖励值；根据所述惩罚值和所述奖励值，确定识别结果。

在一个实施例中，CSR模型提供的奖惩函数的表达式为：

其中，lostⁿ是第n个待检测语音在通过所述时序相关卷积神经网络模型训练后得到的归一化特征向量和目标特征向量的误差函数，b是根据所述CSR模型识别率给定的误差阈值；

CSR模型中，确定识别结果的识别函数的数学表达式如下：

其中，

是判断第n时刻的状态，f(lostⁿ)是第n时刻的奖惩函数。

第二方面，本发明实施例提供一种基于网络融合的声纹识别装置，包括：

转换模块，用于将待识别声纹音频的语音样本转换为第一语谱图，将与所述待识别声纹音频进行比对的声纹数据库中的语音样本转换为第二语谱图；

提取模块，用于将所述第一语谱图和第二语谱图输入时序相关卷积神经网络声纹识别模型，分别提取声纹特征；

引入模块，用于在所述时序相关卷积神经网络声纹识别模型中引入CSR模型；

确定模块，用于将待识别声纹音频的声纹特征与所述声纹数据库中的声纹特征进行比对，根据引入CSR模型提供的奖惩函数，确定识别结果。

在一个实施例中，所述提取模块62中时序相关卷积神经网络声纹识别模型的训练方法，包括：

所述时序相关卷积神经网络的架构，包括：

在一个实施例中，所述确定模块64，具体用于将待识别声纹特征与所述声纹数据库中的声纹特征进行比对，在CSR模型中设置奖惩函数，输入所述分别提取特征所对应的特征向量，计算lost方程的值；当所述值大于等于预设的阈值时，则CSR返回一个惩罚值；当所述值小于等于所述阈值时，则返回一个奖励值；根据所述惩罚值和所述奖励值，确定识别结果。

在一个实施例中，所述确定模块64中CSR模型提供的奖惩函数的表达式为：

CSR模型中，识别结果的识别函数的数学表达式如下：

其中，

是判断第n时刻的状态，f(lostⁿ)是第n时刻的奖惩函数。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明实施例提供的基于网络融合的声纹识别方法及装置，该方法可以解决GMM-HMM方法对大规模语音数据建模不是很好的问题，并且能够对抗一定噪声，与传统的声纹识别方法相比，本发明采用时序相关卷积神经网络声纹识别模型，引入CSR模型，进行声纹识别，能够提高声纹识别的识别率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的基于网络融合的声纹识别方法的流程图；

图2为本发明实施例提供语谱图的示意图；

图3为本发明实施例提供的时序相关卷积神经网络声纹识别模型训练流程图；

图4为本发明实施例提供时序相关卷积神经网络架构图；

图5为本发明实施例提供的基于网络融合的声纹识别方法的框架示意图；

图6为本发明实施例提供的CSR模型结构图；

图7为本发明实施例提供的基于网络融合的声纹识别装置的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明采用深度学习的方法来训练语音数据得到模型，将待识别声纹音频和与待识别声纹音频进行比对的声纹数据库中的语音样本，分别输入该模型进行比对识别，其中所涉及到的网络融合，是指基于卷积神经网络(Convolutional Neural Network,CNN)中嵌入一种时序相关的神经网络，即循环神经网络(Recurrent Neural Networks，RNN)声纹识别模型，并引入连续语音识别(Continuous Speech Recognition,CSR)模型，组成CSR-时序相关卷积神经网络模型。另外，本发明中涉及到的第一语谱图、第二语谱图和第三语谱图，为了便于区分，只是名称上的差异，并非是顺序上的命名。

参照图1所示，本发明实施例提供的基于网络融合的声纹识别方法，包括以下步骤：

S101、将待识别声纹音频的语音样本转换为第一语谱图，将与所述待识别声纹音频进行比对的声纹数据库中的语音样本转换为第二语谱图；

S102、将所述第一语谱图和第二语谱图输入时序相关卷积神经网络声纹识别模型，分别提取声纹特征；

S103、在所述时序相关卷积神经网络声纹识别模型中引入CSR模型；

S104、将待识别声纹音频的声纹特征与所述声纹数据库中的声纹特征进行比对，根据引入CSR模型提供的奖惩函数，确定识别结果。

本实施例中，比如将待识别声纹音频和与待识别声纹音频进行比对的声纹数据库中的语音样本通过傅里叶，变换得到语谱图，待识别声纹音频的语音样本转换为第一语谱图，声纹数据库中的语音样本转换为第二语谱图，第二语谱图为多个语谱图，即为数组。待识别声纹音频转换语谱图是语音信号的时频表示，可视为一种三维频谱，可同时在视觉和频率上显示语音频谱随着时间的变化，语谱图的横轴为时间，纵轴为频率，参照图2所示，该语谱图为0-10的11个数字发音的语谱示意图。

比如做说话人辨认任务，则有个与待识别声纹进行比对的声纹数据库，将该数据库中的语音样本转换为语谱图，投入训练好的时序相关卷积神经网络识别模型中进行特征提取。同时也将待识别的声纹投入训练好的上述时序相关卷积神经网络模型中，进行特征提取。将待识别声纹特征与数据库中声纹特征进行比对后，根据CSR模型提供的奖惩函数，来确定识别结果。该方法可以解决GMM-HMM方法对大规模语音数据建模不是很好的问题，并且能够对抗一定噪声，与传统的声纹识别方法相比，本发明采用时序相关卷积神经网络，引入CSR模型，能够提高声纹识别的识别率。

在一个实施例中，上述时序相关卷积神经网络声纹识别模型，是通过以下步骤训练生成的，参照图3所示，包括：

S301、获取多个语音训练样本，将每个所述语音训练样本的音频进行变换得到第三语谱图；

S302、将所述第三语谱图并行投入时序相关卷积神经网络中进行训练，生成时序相关卷积神经网络声纹识别模型。

首先收集大量语音样本，对每个语音样本音频进行变换得到语谱图；将语谱图并行投入时序相关卷积神经网络中进行训练，训练得到一个时序相关卷积神经网络识别模型；然后再引入CSR模型，可以判断待识别声纹音频是否属于待比对的声纹数据库，从而实现声纹识别。

在一个实施例中，上述时序相关卷积神经网络包括：在卷积神经网络中的池化层中融入时序相关的神经网络，即循环神经网络RNN，从而更有效地获取语谱图特征。

上述时序相关卷积神经网络声纹识别模型的架构，参照图4所示：

首先输入语谱图，依次经过两个卷积层(conv1，conv2)和两个池化层(pool1，pool2)，在经过第三个池化层(pool3)时，嵌入时序相关神经网络3。

在经过第四个池化层(pool4)时，嵌入时序相关神经网络2。

在经过第五个池化层(pool5)时，嵌入时序相关神经网络1。

将时序相关神经网络1经过第六和第七个卷积层时，进行上采样得到score2。

经过时序相关神经网络2后得到一个score_pool4。

将score2与score_pool4进行累加并进行上采样得到score4。

将经过时序相关神经网络3得到的score_pool3与score4进行累加并上采样得到输出。

进一步地，本发明提出的声纹识别方法的框架图如图5所示：待识别语音经过CNN-RNN模块和CSR模块，然后输出结果。具体地，待识别语音经过时序相关卷积神经网络模型，即CNN-RNN模块进行特征提取。还比如会经过Softmax分类器进行分类，可以处理大规模语音数据。

将提取的特征送入CSR模块，对其特征向量计算所得的lost方程进行奖惩，并通过该奖惩进行判别识别结果。

CSR模型中，奖惩函数表达式如下：

其中，lostⁿ是第n个待检测语音在通过时序相关卷积神经网络模型训练后得到的归一化特征向量和目标特征向量的误差函数，b是根据CSR模型识别率给定的误差阈值。参照图6所示，为CSR模型结构图。

当lostⁿ的值低于给定阈值的时候，给予说话人识别函数一个奖励函数，反之给予一个惩罚函数。

系统识别函数的数学表达式如下：

其中，

是判断第n时刻的系统状态，f(lostⁿ)是第n时刻的奖惩函数。

比如，设定说话人识别函数Φ_n取值区间为[c,d]，即当说话人识别函数达到最大值或者最小值时，它的值就不会改变，并且给出一个识别阈值w。当Φ_n>w时，则表示目标说话人身份鉴定成功；当Φ_n≤w时，则表示目标说话人身份鉴定失败。当语音数据源源不断输入，该模型可以不间断地确认说话人的身份。

基于同一发明构思，本发明实施例还提供了基于网络融合的声纹识别装置，由于该装置所解决问题的原理与前述基于网络融合的声纹识别方法相似，因此该装置的实施可以参见前述方法的实施，重复之处不再赘述。

本发明实施例还提供了一种基于网络融合的声纹识别装置，参照图7所示，包括：

转换模块71，用于将待识别声纹音频的语音样本转换为第一语谱图，将与所述待识别声纹音频进行比对的声纹数据库中的语音样本转换为第二语谱图；

提取模块72，用于将所述第一语谱图和第二语谱图输入时序相关卷积神经网络声纹识别模型，分别提取声纹特征；

引入模块73，用于在所述时序相关卷积神经网络声纹识别模型中引入CSR模型；

确定模块74，用于将待识别声纹音频的声纹特征与所述声纹数据库中的声纹特征进行比对，根据引入CSR模型提供的奖惩函数，确定识别结果。

在一个实施例中，所述提取模块72中时序相关卷积神经网络声纹识别模型的训练方法，包括：

所述时序相关卷积神经网络的架构，包括：

在一个实施例中，所述确定模块74，具体用于将待识别声纹特征与所述声纹数据库中的声纹特征进行比对，在CSR模型中设置奖惩函数，输入所述分别提取特征所对应的特征向量，计算lost方程的值；当所述值大于等于预设的阈值时，则CSR返回一个惩罚值；当所述值小于等于所述阈值时，则返回一个奖励值；根据所述惩罚值和所述奖励值，确定识别结果。

在一个实施例中，所述确定模块74中CSR模型提供的奖惩函数的表达式为：

CSR模型中，识别结果的识别函数的数学表达式如下：

其中，

是判断第n时刻的状态，f(lostⁿ)是第n时刻的奖惩函数。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于网络融合的声纹识别方法，其特征在于，包括：

在所述时序相关卷积神经网络声纹识别模型中引入CSR模型；

将待识别声纹音频的声纹特征与所述声纹数据库中的声纹特征进行比对，根据引入CSR模型提供的奖惩函数，确定识别结果；

所述时序相关卷积神经网络为：在卷积神经网络中的池化层中融入时序相关的神经网络；

所述时序相关卷积神经网络的架构，包括：

2.如权利要求1所述的声纹识别方法，其特征在于，所述时序相关卷积神经网络声纹识别模型的训练方法，包括：

3.如权利要求1所述的声纹识别方法，其特征在于，根据引入CSR模型提供的奖惩函数，确定识别结果，包括：

4.如权利要求3所述的声纹识别方法，其特征在于，CSR模型提供的奖惩函数的表达式为：

CSR模型中，确定识别结果的识别函数的数学表达式如下：

其中，

是判断第n时刻的状态，f(lostⁿ)是第n时刻的奖惩函数。

5.一种基于网络融合的声纹识别装置，其特征在于，包括：

确定模块，用于将待识别声纹音频的声纹特征与所述声纹数据库中的声纹特征进行比对，根据引入CSR模型提供的奖惩函数，确定识别结果；

所述时序相关卷积神经网络的架构，包括：

6.如权利要求5所述的声纹识别装置，其特征在于，所述提取模块中时序相关卷积神经网络声纹识别模型的训练方法，包括：

7.如权利要求5所述的声纹识别装置，其特征在于，所述确定模块，具体用于将待识别声纹特征与所述声纹数据库中的声纹特征进行比对，在CSR模型中设置奖惩函数，输入所述分别提取特征所对应的特征向量，计算lost方程的值；当所述值大于等于预设的阈值时，则CSR返回一个惩罚值；当所述值小于等于所述阈值时，则返回一个奖励值；根据所述惩罚值和所述奖励值，确定识别结果。

8.如权利要求7所述的声纹识别装置，其特征在于，所述确定模块中CSR模型提供的奖惩函数的表达式为：

CSR模型中，识别结果的识别函数的数学表达式如下：

其中，

是判断第n时刻的状态，f(lostⁿ)是第n时刻的奖惩函数。