CN109256135A

CN109256135A - 一种端到端说话人确认方法、装置及存储介质

Info

Publication number: CN109256135A
Application number: CN201810988567.2A
Authority: CN
Inventors: 蔡晓东; 李波
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2019-01-22
Anticipated expiration: 2038-08-28
Also published as: CN109256135B

Abstract

本发明提供一种端到端说话人确认方法、装置及存储介质，其方法包括构建说话人确认端到端网络，所述说话人确认端到端网络包括前端的ResCNN残差卷积神经网络模型和后端的，ResCNN残差卷积神经网络模型用于提取语音帧级别特征，阈值再加权注意力模型对语音帧级别特征转化为句子级别特征，从而完成对所述说话人确认端到端网络的训练；通过训练得到的说话人确认端到端网络，以确定测试语音的注册人；本发明实现了端到端处理，阈值再加权注意力模型通过赋予权重的形式提取出关键语音帧级别特征，将非关键语音帧级别特征筛除，再进行加权平均处理来放大关键语音帧级别特征，从帧级别特征转化为句子级别特征，极大的提高了语音识别度。

Description

一种端到端说话人确认方法、装置及存储介质

技术领域

本发明主要涉及声纹识别技术处理领域，具体涉及一种端到端说话人确认方法、装置及存储介质。

背景技术

声纹识别，又称为说话人识别，是一种生物识别的技术，是从一段语音中提取分析和提取出说话人的个性特征，自动确定说话人的过程。说话人识别包括说话人确认技术和说话人辨认技术，“说话人确认”是指判断一段话是否为某人所说，为“一对一”问题，“说话人辨认”是指在n个已知样本中选择一个与未知音频样本最像的一个音频，是“多选一”问题；而目前“说话人确认”技术中，通常都是将提取的语音帧级别特征取平均值进行处理，将语音特征中一些非重要帧一并处理，导致处理结果不精确、识别效果不佳的问题。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种端到端说话人确认方法、装置及存储介质。

本发明解决上述技术问题的技术方案如下：一种端到端说话人确认方法，包括如下步骤：

构建说话人确认端到端网络，所述说话人确认端到端网络包括前端的ResCNN残差卷积神经网络模型和后端的阈值再加权注意力模型；

对所述说话人确认端到端网络进行训练，包括：

将多个语音训练样本输入所述ResCNN残差卷积神经网络模型中，得到每个语音训练样本的多个语音帧级别特征；

通过所述阈值再加权注意力模型从所述多个语音帧级别特征中提取出多个目标语音帧级别特征，并对所述多个目标语音帧级别特征加以权重；

从经加以权重的所述多个目标语音帧级别特征中剔除小于或等于预设权重平均值的目标语音帧级别特征，从而得到多个关键语音帧级别特征；

分别对属于同一语音训练样本的所述多个关键语音帧级别特征进行加权平均处理，得到句子级别特征，从而完成对所述说话人确认端到端网络的训练；

将测试语音输入经训练后的说话人确认端到端网络中，得到测试语音句子级别特征，并比较所述测试语音句子级别特征和预先得到的注册语音句子级别特征，根据比较结果以确定所述测试语音的注册人，其中，所述预先得到的注册语音句子级别特征为将注册人的注册语音输入经训练后的说话人确认端到端网络中得到的。

本发明解决上述技术问题的另一技术方案如下：一种端到端说话人确认装置，包括：

网络构建模块，用于构建说话人确认端到端网络，所述说话人确认端到端网络包括前端的ResCNN残差卷积神经网络模型和后端的阈值再加权注意力模型；

训练模块，用于对所述说话人确认端到端网络进行训练：将多个语音训练样本输入所述ResCNN残差卷积神经网络模型中，得到每个语音训练样本的多个语音帧级别特征；

分别对属于同一语音训练样本的所述多个关键语音帧级别特征进行加权平均处理，得到句子级别特征，完成对所述说话人确认端到端网络的训练；

确定模块，用于将测试语音输入经训练后的说话人确认端到端网络中，得到测试语音句子级别特征，并比较所述测试语音句子级别特征和预先得到的注册语音句子级别特征，根据比较结果以确定所述测试语音的注册人，其中，所述预先得到的注册语音句子级别特征为将注册人的注册语音输入经训练后的说话人确认端到端网络中得到的。

本发明解决上述技术问题的另一技术方案如下：一种端到端说话人确认装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如所述方法的步骤。

本发明解决上述技术问题的另一技术方案如下：一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如所述方法的步骤。

本发明的有益效果是：通过说话人确认端到端网络整体化实现了特征提取及特征处理，前端的ResCNN残差卷积神经网络模型和后端的阈值再加权注意力模型实现端到端数据处理，ResCNN残差卷积神经网络模型进行特征提取，特征处理过程中利用阈值再加权注意力模型通过赋予权重的形式提取出关键语音帧级别特征，将非关键语音帧级别特征筛除，再进行加权平均处理来放大关键语音帧级别特征，从帧级别特征得到句子级别特征，实现了端到端处理，极大的提高了语音识别度。

附图说明

图1为本发明一实施例提供的端到端说话人确认方法的方法流程图；

图2为本发明一实施例提供的端到端说话人确认方法的方法流程图；

图3为本发明另一实施例提供的端到端说话人确认方法的方法流程图；

图4为本发明一实施例提供的帧特征转换为句子级别特征的示意性流程图；

图5为本发明一实施例提供的端到端说话人确认装置的模块框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1-2所示，一种端到端说话人确认方法，包括如下步骤：

对所述说话人确认端到端网络进行训练，包括：

具体的，ResCNN残差卷积神经网络模型由堆叠残差块和卷积神经网络融合而成，堆叠残差卷积神经网络包含了12个残差块，每个残差块包含两个卷积层，其中每3个残差块堆叠在一起称为堆叠块，总共含有4个堆叠块；当每个堆叠块通道数增加的时候，使用单个卷积层做连接。每个堆叠块分别采用64，128，256，512通道，且其残差块中采用的步长为1x1，而连接各个堆叠块的卷积层采用卷积核为5x5，步长为2x2。

上述实施例中，通过说话人确认端到端网络整体化实现了特征提取及特征处理，前端的ResCNN残差卷积神经网络模型和后端的阈值再加权注意力模型实现端到端数据处理，ResCNN残差卷积神经网络模型进行特征提取，特征处理过程中利用阈值再加权注意力模型通过赋予权重的形式提取出关键语音帧级别特征，将非关键语音帧级别特征筛除，再进行加权平均处理来放大关键语音帧级别特征，从帧级别特征得到句子级别特征，实现了端到端处理，极大的提高了语音识别度。

可选的，作为本发明的一个实施例，在图2的基础上进行改进，如图3所示，所述将多个语音训练样本输入所述ResCNN残差卷积神经网络模型，包括：

根据预设分帧参数对多个语音训练样本分别进行分帧处理，得到多个语句，其中，所述预设分帧参数包括帧时长、帧数和前后帧重复时长；

根据预设二维参数和Fbank特征提取算法对所述多个语句进行转化，得到多个二维语音信息，将所述多个二维语音信息作为预处理后的所述多个语音训练样本输入所述ResCNN残差卷积神经网络模型。

具体的，帧时长为25ms，帧数为240帧，即每个语音训练样本为以240帧定长进行分帧处理，前后帧重复时长为10ms；对每一帧提取64维的Fbank特征，形成240x64的二维语音信息。

上述实施例中，以短语音的形式，从一维语音信息转化为二维语音信息使数据更适应于ResCNN残差卷积神经网络模型，利于快速的提取特征向量。

可选的，作为本发明的一个实施例，如图4所示，所述对多个目标语音帧级别特征加以权重，包括：

设属于同一语音训练样本的所述多个目标语音帧级别特征的序列为：

F＝[f(x₁)，f(x₂)，...，f(x_T)]＝f_t＝[f₁，f₂，...，f_T]，

通过非线性全连接神经子网络对所述多个目标语音帧级别特征进行非归一化打分，得到score＝[g(f₁)，g(f₂)，...，g(f_T)]＝g_t＝[g₁，g₂，...，g_T]，其中，g_t＝[g₁，g₂，...，g_T]为所述多个目标语音帧级别特征的分值；

根据经打分后的所述多个目标语音帧级别特征，结合下式计算所述多个语音帧级别特征的归一化权重α_t：

其中，α_t∈[0，1]。

具体的，所述非线性全连接神经子网络由单层线性全连接网络加ReLU激活函数构成。如果权重较小的，通常说明此帧含有较少的说话人信息，因此若将对说话人区分作用较小的帧去除，放大对说话人区分作用较大的帧的权重，则能得到更优的说话人句子级别特征。

上述实施例中，通过非归一化打分的方式，能够对各个目标语音帧级别特征赋予权重，区分出权重高的和权重低的目标语音帧级别特征。

可选的，作为本发明的一个实施例，如图4所示，所述得到多个关键语音帧级别特征，包括：

将所述归一化权重α_t中小于或等于预设权重平均值的权重系数置零，得到新的归一化权重系数β_t，对经置零的权重系数所对应的多个目标语音帧级别特征进行剔除处理，从而得到多个关键语音帧级别特征。

上述实施例中，将小于或等于预设权重平均值的权重系数置零，能够将权重低的目标语音帧级别特征筛选出来，剔除目标语音帧级别特征中非关键的语音帧级别特征，例如一些空语音帧，从而得到多个关键语音帧级别特征，提高识别的精确度。

可选的，作为本发明的一个实施例，如图4所示，所述得到句子级别特征，包括：

对属于同一语音训练样本的所述多个关键语音帧级别特征再次加以权重，得到新的归一化权重系数γ_t：

通过公式进行加权平均处理，得到句子级别特征，其中，f_t为属于同一语音训练样本的所述多个目标语音帧级别特征的序列。

上述实施例中，再次加以权重的处理方式能够放大关键语音帧级别特征，提高识别的精确度，通过加权平均处理，使帧级别特征过渡为句子级别特征，更有利于最终的说话人确认。

可选的，作为本发明的一个实施例，所述得到句子级别特征后，还包括：

使用三重损失函数(triplet loss)对所述说话人确认端到端网络进行收敛的步骤。

上述实施例中，通过三重损失函数对说话人确认端到端网络进行收敛，提高说话人确认端到端网络处理特征的精确度。

图5为本发明另一实施例提供的端到端说话人确认装置的模块框图；

可选的，作为本发明的另一个实施例，如图5所示，一种端到端说话人确认装置，包括：

确定模块，用于测试语音输入经训练后的说话人确认端到端网络中，得到测试语音句子级别特征，并比较所述测试语音句子级别特征和预先得到的注册语音句子级别特征，根据比较结果以确定所述测试语音的注册人，其中，所述预先得到的注册语音句子级别特征为将注册人的注册语音输入经训练后的说话人确认端到端网络中得到的。

可选的，作为本发明的一个实施例，所述训练模块具体用于：

根据预设二维参数和Fbank特征提取算法对所述多个语句进行转化，得到多个二维语音信息，将所述多个二维语音信息作为所述ResCNN残差卷积神经网络模型。

F＝[f(x₁)，f(x₁)，...，f(x_T)]＝f_t＝[f₁，f₂，...，f_T]，

其中，α_t∈[0，1]。

具体的，所述非线性全连接神经子网络由单层线性全连接网络加ReLU激活函数构成。

可选的，作为本发明的一个实施例，所述训练模块还具体用于：

可选的，作为本发明的另一个实施例，一种端到端说话人确认装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如所述方法的步骤。

可选的，作为本发明的另一个实施例，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如所述方法的步骤。

本发明通过说话人确认端到端网络整体化实现了特征提取及特征处理，前端的ResCNN残差卷积神经网络模型和后端的阈值再加权注意力模型实现端到端数据处理，ResCNN残差卷积神经网络模型进行特征提取，特征处理过程中利用阈值再加权注意力模型通过赋予权重的形式提取出关键语音帧级别特征，将非关键语音帧级别特征筛除，再进行加权平均处理来放大关键语音帧级别特征，从帧级别特征得到句子级别特征，实现了端到端处理，极大的提高了语音识别度。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种端到端说话人确认方法，其特征在于，包括如下步骤：

对所述说话人确认端到端网络进行训练，包括：

2.根据权利要求1所述的端到端说话人确认方法，其特征在于，所述将多个语音训练样本输入所述ResCNN残差卷积神经网络模型，包括：

3.根据权利要求2所述的端到端说话人确认方法，其特征在于，所述对多个目标语音帧级别特征加以权重，包括：

F＝[f(x₁)，f(x₂)，...，f(x_T)]＝f_t＝[f₁，f₂，...，f_T]，

对所述多个目标语音帧级别特征进行非归一化打分，得到score＝[g(f₁)，g(f₂)，...，g(f_T)]＝g_t＝[g₁，g₂，...，g_T]，其中，g_t＝[g₁，g₂，...，g_T]为所述多个目标语音帧级别特征的分值；

根据经打分后的所述多个目标语音帧级别特征结合下式计算所述多个语音帧级别特征的归一化权重α_t：

其中，α_t∈[0，1]。

4.根据权利要求3所述的端到端说话人确认方法，其特征在于，所述得到多个关键语音帧级别特征，包括：

5.根据权利要求4所述的端到端说话人确认方法，其特征在于，所述得到句子级别特征，包括：

6.根据权利要求1至5任一项所述的端到端说话人确认方法，其特征在于，所述得到句子级别特征后，还包括：

使用三重损失函数对所述说话人确认端到端网络进行收敛的步骤。

7.一种端到端说话人确认装置，其特征在于，包括：

8.根据权利要求7所述的端到端说话人确认装置，其特征在于，所述训练模块具体用于：

9.一种端到端说话人确认装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。