CN113077796A

CN113077796A - 说话人辨认方法及系统

Info

Publication number: CN113077796A
Application number: CN202110285325.9A
Authority: CN
Inventors: 冷严; 李文静; 赵玮玮; 孙建德; 唐勇; 齐广慧; 王荣燕; 李登旺; 万洪林
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-07-06

Abstract

本发明提供一种说话人辨认方法及系统，属于说话人辨认技术领域，使用确认网络对语音信号进行分析，提取语音信号的声纹特征，确认所述语音信号是否来自同一个说话人；使用辨认网络对语音信号的声纹特征进行分析，辨认所述语音信号的说话人身份。本发明提取了说话人特有的声纹特征，减少了信道噪声干扰，提高了说话人辨认准确率；采用多任务学习的形式使得说话人确认网络和说话人辨认网络能互相辅助，提高了确认效果和辨认效果；结合说话人确认技术模拟了人脑思维模式，在说话人数量庞大，辨认难度高的情况下，结合确认技术来进行辨认；对人脑思维模式的模拟应用，提高了算法的智能性，增强了模型在高难度情况下的辨认能力。

Description

说话人辨认方法及系统

技术领域

本发明涉及说话人辨认技术领域，具体涉及一种提高了说话人辨认准确率的说话人辨认方法及系统。

背景技术

说话人识别具有广阔的应用前景，可广泛用于安防、社保、刑侦等领域。说话人识别包括说话人确认和说话人辨认两大技术。说话人确认是指根据说话声确认当前的说话人是否是已经登记注册的人员，或者确定两个说话声是否来自于同一个人。说话人确认是一项二类分类技术。说话人辨认是指根据人的说话声来判别说话人的身份，是一种多类分类技术。

说话人辨认的实施方法通常是搭建特征提取模型来提取说话人的语音特征，然后将语音特征送入说话人分类模型实现辨认。特征提取模型提取的说话人的语音特征往往有较大的信道噪声干扰，不能很好地展现说话人特有的声纹特征，导致说话人辨认的准确率较低。

发明内容

本发明的目的在于提供一种结合说话人确认技术和说话人辨认技术来进行说话人辨认，提高了说话人辨认准确率的说话人辨认方法及系统，以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的，本发明采取了如下技术方案：

一方面，本发明提供一种说话人辨认方法，包括：

使用确认网络对语音信号进行分析，确认所述语音信号是否来自同一个说话人，确认网络能提取说话人特有的声纹特征，减少特征中信道噪声的干扰；其中，所述确认网络使用第一训练集训练得到，所述第一训练集包括第一数据对儿和第二数据对儿；

使用辨认网络对语音信号的声纹特征进行分析，辨认所述语音信号的说话人身份，声纹特征是通过确认网络辅助提取的，信道噪声干扰小，基于此类声纹特征进行说话人身份辨认，将能提高辨认准确率；其中，所述辨认网络使用第二训练集训练得到，所述第二训练集包括说话人的语音片段的声纹特征以及标识该语音片段的说话人身份的标签。

优选的，所述第一数据对儿由某一说话人的第一语音片段的特征矩阵、该某一说话人的第二语音片段的特征矩阵以及标识第一语音片段和第二语音片段来自于该某一说话人的标签组成；

所述第二数据对儿由某一说话人的第一语音片段的特征矩阵、其它说话人的某一语音片段的特征矩阵以及标识某一说话人的第一语音片段和其它说话人的某一语音片段来自于不同说话人的标签组成。

神经网络的训练是一个迭代的过程，在以下说话人确认网络和说话人辨认网络的训练的步骤都是指在一轮迭代中的步骤。将迭代重复进行多次，直至神经网络的损失函数值减少到小于预先设定的阈值为止。

优选的，使用第一训练集训练得到所述确认网络包括：

某一说话人的第一语音片段的特征矩阵为F1，该某一说话人的除了第一语音片段之外的其它语音片段中随机选取的第二语音片段的特征矩阵为F2，其它说话人中随机选取某一语音片段的特征矩阵记为F2’；

第一数据对儿(F1，F2，0)中，0表示F1和F2来自于同一个说话人的标签；第二数据对儿(F1，F2’，1)中，1表示F1和F2’来自于不同说话人的标签；

将F1作为第一卷积神经网络的输入，通过第一卷积神经网络将其映射为特征向量E1；随机从第一数据对儿和第二数据对儿中选取一个数据对儿；如果选到的是第一数据对儿，则将F2作为第二卷积神经网络的输入，通过第二卷积神经网络将其映射为特征向量E2；如果选到的是第二数据对儿，则将F2’作为第二卷积神经网络的输入，通过第二卷积神经网络将其映射为特征向量E2’；

如果第二卷积神经网络映射得到特征向量E2，则求特征向量E1和特征向量E2的L1距离向量：L1＝|E1-E2|；如果第二卷积神经网络映射得到特征向量E2’，则求特征向量E1和特征向量E2’的L1距离向量：L1＝|E1-E2’|。其中，L1＝|·|表示对向量的每一维求绝对值。L1距离向量后接确认网络的全连接层和输出层，通过全连接层和输出层的映射得到确认网络的输出值。

前述随机从第一数据对儿和第二数据对儿中选取一个数据对儿时，如果选到的是第一数据对儿，则以标签0作为确认网络输出层的理想输出，如果选到的是第二数据对儿，则以标签1作为确认网络输出层的理想输出；用确认网络输出层的理想输出和确认网络输出层的实际输出求差的平方值，将此值记作P。

优选的，以第一语音片段的特征矩阵F1所对应的说话人的身份标签作为辨认网络输出层的理想输出。用辨认网络输出层的理想输出和辨认网络输出层的实际输出求平方欧式距离，将此距离值记作Q。

以P+Q作为整体神经网络模型的损失函数，对模型进行训练。整体神经网络模型包括确认网络和辨认网络。由F1输入至第一卷积神经网络映射为E1的处理部分是确认网络和辨认网络共享的部分，由此共享部分将确认网络和辨认网络连接成一个整体神经网络。

整体神经网络模型训练好以后，固定模型参数。

应用整体神经网络模型进行说话人辨认的步骤如下：

对待辨认身份的语音片段进行分帧处理，对每帧提取39维的MFCC特征，语音片段内所有帧的MFCC特征组成该语音片段的MFCC特征矩阵；

将待辨认身份的语音片段的MFCC特征矩阵同时作为第一卷积神经网络和第二卷积神经网络的输入值，在辨认网络的输出层得到待辨认身份的语音片段在各个说话人身份上的概率分布，以具有最大概率值的说话人身份作为辨认结果。

优选的，所述特征矩阵为MFCC特征矩阵。

第二方面，本发明提供一种说话人辨认系统，包括：

确认模块，用于使用确认网络对语音信号进行分析，提取语音信号的声纹特征，确认所述语音信号是否来自同一个说话人；其中，所述确认网络使用第一训练集训练得到，所述第一训练集包括第一数据对儿和第二数据对儿；

辨认模块，用于使用辨认网络对语音信号的声纹特征进行分析，辨认所述语音信号的说话人身份；其中，所述辨认网络使用第二训练集训练得到，所述第二训练集包括说话人的语音片段的声纹特征以及标识该语音片段的说话人身份的标签。

优选的，所述特征矩阵为MFCC特征矩阵。

第三方面，本发明提供一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如上所述的说话人辨认方法。

第四方面，本发明提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的说话人辨认方法。

本发明有益效果：通过说话人确认网络辅助提取说话人特有的声纹特征，减少提取的特征中的信道噪声干扰，因而能有效地辅助提高说话人辨认准确率；采用多任务学习的形式将说话人确认技术和说话人辨认技术相结合，使得说话人确认网络和说话人辨认网络能互相辅助对方提高网络的分类识别能力，同时取得较好的确认效果和辨认效果；结合说话人确认技术的说话人辨认方法模拟了人脑的思维模式，在说话人数量庞大，辨认难度高的情况下，通过确认技术来辅助进行辨认；对人脑思维模式的模拟应用，提高了算法的智能性，增强了模型在高难度情况下的辨认能力。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的说话人辨认方法流程示意图。

图2为本发明实施例所述的图1中的第一卷积神经网络和第二卷积神经网络的结构示意图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

为便于理解本发明，下面结合附图以具体实施例对本发明作进一步解释说明，且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

实施例1

为了解决语音特征中有较大的信道噪声干扰，不能很好地展现说话人特有的声纹特征问题，本发明实施例1提供一种说话人辨认系统，该系统通过说话人确认网络辅助提取说话人特有的声纹特征，减少信道噪声干扰，辅助提高说话人辨认准确率。

所述说话人辨认系统包括：

在本实施例1中，利用上述的说话人辨认系统，实现了一种结合说话人确认技术的说话人辨认方法，该方法具体包括如下步骤：

本实施例1提出的结合说话人确认技术的说话人辨认方法主要包括两部分：说话人确认部分和说话人辨认部分。

假设有一带有说话人身份标签的定长说话人数据库，对数据库中每个说话人的每个语音片段进行分帧处理，对每帧提取说话人识别领域常用的语音特征：39维的MFCC特征，得到每个语音片段的尺寸为39×n的MFCC特征矩阵，n表示语音片段中包含的帧的数量。假设数据库中共有N个说话人，采用one-hot向量表示说话人的身份标签：对于数据库中的第i个人，其身份标签为[0,0,…,1,0,…,0],标签向量只在第i维的值为1，在其它维度上的值都为0。

图1中两个卷积神经网络的结构完全相同，其结构示意图如图2所示，包括卷积层、最大池化层、卷积层、最大池化层和特征展平层。每一层的具体结构根据数据库内数据情况进行设置。

图1中的说话人确认部分在L1距离向量后接一层全连接层和输出层。全连接层的具体结构根据数据库内数据情况进行设置。说话人确认属于二类分类，说话人确认网络的输出层设置一个输出节点，采用sigmoid函数作为激活函数。

图1中的说话人辨认部分在特征向量E1后接一层全连接层和输出层。全连接层的具体结构根据数据库内数据情况进行设置。说话人辨认属于多类分类，输出层节点个数设置为数据库中说话人的个数N，采用softmax函数作为激活函数。

在本实施例中，最终神经网络中的确认网络、辨认网络两部分融合共同一起训练，其训练步骤如下：

(1)说话人确认部分

假设说话人数据库中的某一说话人的某一语音片段的MFCC特征矩阵记为F1，从此说话人的其它语音片段中随机选取一个语音片段，记其MFCC特征矩阵为F2，从除去此说话人的其它说话人中随机选取一个语音片段，该语音片段的MFCC特征矩阵记为F2’。在此基础上，说话人确认的步骤为：

①随机选取数据库中的一个音频片段，为其生成一个同人数据对儿(F1，F2,0)和一个异人数据对儿(F1，F2’,1)。(F1，F2,0)中的0是数据对儿(F1，F2)的标签，表示F1和F2来自于同一个说话人。同理，(F1，F2’,1)中的1是数据对儿(F1，F2’)的标签，表示F1和F2’来自于两个不同的说话人。

②将F1作为图1中第一卷积神经网络的输入，通过第一卷积神经网络将其映射为特征向量E1。E1即为说话人确认网络辅助提取的说话人特有的声纹特征。

③随机从数据对儿(F1，F2,0)和数据对儿(F1，F2’,1)中选取一个数据对儿。

④如果在③中选到的是数据对儿(F1，F2,0)，则将F2作为图1中第二卷积神经网络的输入，通过第二卷积神经网络将其映射为特征向量E2；如果在③中选到的是数据对儿(F1，F2’,1)，则将F2’作为图1中第二卷积神经网络的输入，通过第二卷积神经网络将其映射为特征向量E2’。

⑤如果在④中映射得到特征向量E2，则求特征向量E1和特征向量E2的L1距离向量：L1＝|E1-E2|。如果在④中映射得到特征向量E2’，则求特征向量E1和特征向量E2’的L1距离向量：L1＝|E1-E2’|。其中，L1＝|·|表示对向量的每一维求绝对值。

⑥如果在③中选到的是数据对儿(F1，F2,0)，则以数据对儿(F1，F2)的标签0作为确认网络的理想输出；如果在③中选到的是数据对儿(F1，F2’,1)，则以数据对儿(F1，F2’)的标签1作为确认网络的理想输出；用确认网络的理想输出和确认网络的实际输出求差的平方值，将此值记作P。

(2)说话人辨认网络部分

以F1所对应的说话人的身份标签作为辨认网络的理想输出，用辨认网络的理想输出和辨认网络的实际输出求平方欧式距离，将此距离值记作Q。

(3)整体神经网络的训练

以P+Q作为图1中整体神经网络模型的损失函数，对整个模型进行训练。整体神经网络模型包括确认网络和辨认网络。由F1输入至第一卷积神经网络映射为E1的处理部分是确认网络和辨认网络共享的部分，由此共享部分将确认网络和辨认网络连接成一个整体神经网络。

神经网络的训练是一个迭代的过程，在上述说话人确认网络和说话人辨认网络的训练的步骤都是指在一轮迭代中的步骤。将迭代重复进行多次，直至神经网络的损失函数值减少到小于预先设定的阈值为止。

整体神经网络模型训练好以后，固定模型参数。应用该模型进行说话人辨认的步骤如下：

将待辨认身份的语音片段的MFCC特征矩阵同时作为图1中两个卷积神经网络的输入值，在辨认网络的输出层得到待辨认身份的语音片段在各个说话人身份上的概率分布，以具有最大概率值的说话人身份作为辨认结果。

实施例2

本发明实施例2提供一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行说话人辨认方法，该方法包括：

使用确认网络对语音信号进行分析，提取语音信号的声纹特征，确认所述语音信号是否来自同一个说话人；其中，所述确认网络使用第一训练集训练得到，所述第一训练集包括第一数据对儿和第二数据对儿；

使用辨认网络对语音信号的声纹特征进行分析，辨认所述语音信号的说话人身份；其中，所述辨认网络使用第二训练集训练得到，所述第二训练集包括说话人的语音片段的声纹特征以及标识该语音片段的说话人身份的标签。

本实施例所提出的电子设备可以是移动终端以及非移动终端，非移动终端包括台式计算机，移动终端包括智能手机(Smart Phone，如Android手机、IOS手机等)、智能眼镜、智能手表、智能手环、平板电脑、笔记本电脑、个人数字助理等可以进行无线通信的移动互联网设备。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

实施例3

本发明实施例3提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现说话人辨认方法，该方法包括：

该处理器可以是中央处理单元CPU，该处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

综上所述，本发明实施例所述的说话人辨认方法及系统，采用多任务学习的形式将说话人确认技术和说话人辨认技术相结合，说话人确认网络和说话人辨认网络能互相辅助对方提高网络的分类识别能力，同时取得较好的确认效果和辨认效果；模型通过说话人确认网络辅助提取说话人特有的声纹特征，将此声纹特征作为说话人辨认网络的输入进行说话人辨认；通过说话人确认网络辅助提取的声纹特征可以减少信道噪声干扰，因而能有效地辅助提高说话人辨认准确率；模拟了人脑的思维模式，在说话人数量庞大，辨认难度高的情况下，通过确认技术来辅助进行辨认，增强了算法在高难度情况下的辨认能力。

上述实施例提出的将说话人识别中的说话人确认和说话人辨认相结合的思路具有很广的适用性，该思路不限于说话人识别，可以为其它领域的分类识别提供很好的方法借鉴。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种说话人辨认方法，其特征在于，包括：

2.根据权利要求1所述的说话人辨认方法，其特征在于：所述第一数据对儿由某一说话人的第一语音片段的特征矩阵、该某一说话人的第二语音片段的特征矩阵以及标识第一语音片段和第二语音片段来自于该某一说话人的标签组成；

3.根据权利要求2所述的说话人辨认方法，其特征在于，使用第一训练集和所述第二训练集训练得到所述确认网络和所述辨认网络包括：

将F1作为第一卷积神经网络的输入，通过第一卷积神经网络将其映射为特征向量E1；

随机从第一数据对儿和第二数据对儿中选取一个数据对儿；如果选到的是第一数据对儿，则将F2作为第二卷积神经网络的输入，通过第二卷积神经网络将其映射为特征向量E2；如果选到的是第二数据对儿，则将F2’作为第二卷积神经网络的输入，通过第二卷积神经网络将其映射为特征向量E2’；

如果第二卷积神经网络映射得到特征向量E2，则求特征向量E1和特征向量E2的L1距离向量：L1＝|E1-E2|；如果第二卷积神经网络映射得到特征向量E2’，则求特征向量E1和特征向量E2’的L1距离向量：L1＝|E1-E2’|；

L1距离向量后接确认网络的全连接层和输出层，通过全连接层和输出层的映射得到确认网络的输出值。

4.根据权利要求3所述的说话人辨认方法，其特征在于：

如果选到的是第一数据对儿，则以标签0作为确认网络的理想输出；如果选到的是第二数据对儿，则以标签1作为确认网络的理想输出；用确认网络的理想输出和确认网络的实际输出求差的平方值，将此值记作P；

以第一语音片段的特征矩阵F1所对应的说话人的身份标签作为辨认网络的理想输出；用辨认网络的理想输出和辨认网络的实际输出求平方欧式距离，将此距离值记作Q；

以P+Q作为整体神经网络模型的损失函数，对整体神经网络模型进行迭代训练，直至损失函数值减少到小于预先设定的阈值为止。

5.根据权利要求4所述的说话人辨认方法，其特征在于，所述特征矩阵为MFCC特征矩阵。

6.一种说话人辨认系统，其特征在于，包括：

7.根据权利要求6所述的说话人辨认系统，其特征在于，所述第一数据对儿由某一说话人的第一语音片段的特征矩阵、该某一说话人的第二语音片段的特征矩阵以及标识第一语音片段和第二语音片段来自于该某一说话人的标签组成；

8.根据权利要求7所述的说话人辨认系统，其特征在于，所述特征矩阵为MFCC特征矩阵。

9.一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，其特征在于：所述处理器调用所述程序指令执行如权利要求1-5任一项所述的说话人辨认方法。

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的说话人辨认方法。