CN111326161A

CN111326161A - 一种声纹确定方法及装置

Info

Publication number: CN111326161A
Application number: CN202010119901.8A
Authority: CN
Inventors: 邱广; 冯大航; 陈孝良; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2020-06-23
Anticipated expiration: 2040-02-26
Also published as: CN111326161B

Abstract

本申请公开了一种声纹确定方法及装置，包括：获取语音数据，所述语音数据包括一条或多条语音信息；提取每一条所述语音信息的声学前端特征；将所述声学前端特征输入卷积神经网络CNN进行特征训练，得到每一条所述语音信息对应的声纹特征。所述声纹确定方法及装置，首先提取的是简单的声学前端特征，能够保留更多的原始语音特征，并且减少提取特征时所需的计算量，降低时间复杂度；同时采用卷积神经网络对语音信息进行编码，对语音提取深度特征，从而能够更有效的提取准确的声纹信息。

Description

一种声纹确定方法及装置

技术领域

本发明涉及数据处理技术，更具体的说，是涉及一种声纹确定方法及装置。

背景技术

声纹是用电声学仪器显示的携带言语信息的声波频谱。不同人的声纹都具有差异性，因此，可以通过声纹区别不同人的声音或判断两个声纹对应的是否为同一人的声音。

声纹识别包括两部分内容，即说话人辨认和说话人确认。前者用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；而后者用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。

不管是辨认还是确认，都需要先对说话人的声纹进行建模，即获取声纹的过程。现有技术中已有的声纹建模过程，都存在一定的问题，例如不能很好地学习同一个说话人不同语音之间的类内信息、训练过程过拟合，即泛化能力差的问题。

发明内容

有鉴于此，本申请提出了一种声纹确定方法及装置，以克服现有技术中由于类内信息学习能力差和泛化能力差而导致的声纹建模准确性差的问题。

本发明提供如下技术方案：

一种声纹确定方法，包括：

获取语音数据，所述语音数据包括一条或多条语音信息；

提取每一条所述语音信息的声学前端特征；

将所述声学前端特征输入卷积神经网络CNN进行特征训练，得到每一条语音信息对应的声纹特征。

可选的，在所述提取每一条所述语音信息的声学前端特征前，还包括：

对所述语音信息做静音段去除操作。

可选的，所述提取每一条所述语音信息的声学前端特征，包括：

提取每一条所述语音信息的语谱图特征。

可选的，所述语谱图特征的特征维数为512维、513维或257维中的一种。

可选的，在所述将所述声学前端特征输入卷积神经网络CNN进行特征训练前，还包括：

对所有的声学前端特征做补齐和切割操作，使得处理后的每一个声学前端特征为相同大小的矩阵，所述矩阵中包括对应的声学前端特征的全部内容。

可选的，所述对所有的声学前端特征做补齐和切割操作，使得处理后的每一个声学前端特征为相同大小的矩阵，包括：

确定所有声学前端特征中具有最大时长的声学前端特征对应的最大帧长；

将所有声学前端特征补齐至不小于(最大帧长+切割标准长度)的帧长；

依据所述切割标准长度将每一个补齐后的声学前端特征切割为包含n个具有所述切割标准长度的切割段，所述n为正整数。

可选的，所述卷积神经网络的激活函数为ReLU函数。

可选的，所述卷积神经网络的损失函数包括大裕量余弦lmc损失函数。

一种声纹确定装置，包括：

语音获取模块，用于获取语音数据，所述语音数据包括一条或多条语音信息；

特征提取模块，用于提取每一条所述语音信息的声学前端特征；

特征训练模块，用于将所述声学前端特征输入卷积神经网络CNN进行特征训练；

声纹输出模块，用于在经过特征训练模块的特征训练后，得到每一条语音信息对应的声纹特征。

可选的，还包括：

语音处理模块，用于在所述特征提取模块提取每一条所述语音信息的声学前端特征前，对所述语音信息做静音段去除操作。

可选的，所述特征提取模块具体用于：提取每一条所述语音信息的语谱图特征，所述语谱图特征的特征维数为512维、513维或257维中的一种。

经由上述的技术方案可知，与现有技术相比，本发明实施例公开了一种声纹确定方法及装置，包括：获取语音数据，所述语音数据包括一条或多条语音信息；提取每一条所述语音信息的声学前端特征；将所述声学前端特征输入卷积神经网络CNN进行特征训练，得到每一条语音信息对应的声纹特征。所述声纹确定方法及装置，首先提取的是简单的声学前端特征，能够保留更多的原始语音特征，并且减少提取特征时所需的计算量，降低时间复杂度；同时采用卷积神经网络对语音信息进行编码，对语音提取深度特征，从而能够更有效的提取准确的声纹信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种声纹确定方法的流程图；

图2为本发明实施例公开的另一种声纹确定方法的流程图；

图3为本发明实施例公开的对声学前端特征的处理流程图；

图4为本发明实施例公开的对声学前端特征做补齐和切割操作流程图；

图5为本发明实施例公开的卷积神经网络处理模型图；

图6为本发明实施例公开的一种声纹确定装置的结构示意图；

图7为本发明实施例公开的另一种声纹确定装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例公开的一种声纹确定方法的流程图，参见图1所示，声纹确定方法可以包括：

步骤101：获取语音数据，所述语音数据包括一条或多条语音信息。

其中，所述语音数据包括一条或多条语音信息，即所述语音数据可以是一条或者至少包括两条语音信息。所述语音数据的来源可以有不同的实现方式，例如，可以是采用录音设备直接获取的用户的说话声音，或者是用户在采用手机、固定电话等通讯设备进行语音通话过程中录取的语音，或者是用户通过麦克风讲话过程中采用录音设备录取的语音，上述不同方式下产生的语音对应不同的信道。

即使是同一个人，其在不同信道产生的语音信息的声纹特征也会有不同，因此，来源于不同信道的语音信息，最终获得的声纹特征也只代表在某个特定信道上用户的声纹特征。

步骤102：提取每一条所述语音信息的声学前端特征。

其中，所述声学前端特征在本申请中指还没有输入卷积神经网络进行处理的声学特征，所述声学前端特征具体可以为语谱图特征，即STFT特征。提取出的语谱图特征的维度可以根据需要配置为257维、512维、513维或其他维数。基于提取出的声学前端特征，通过神经网络提取语音信息的深度特征，就能够得到语音信息对应的声纹特征。

步骤103：将所述声学前端特征输入卷积神经网络CNN进行特征训练，得到每一条语音信息对应的声纹特征。

本实施例中，提取语音信息的深度特征的神经网络采用卷积神经网络CNN。将所述声学前端特征输入卷积神经网络CNN进行特征训练的过程，即对语音信息提取多维向量的过程，该多维向量根据实际需要可以为512维、256维、128维或其他维度，用该多维向量代表对应语音信息所属说话人在特定信道上的特定的发音特征，即声纹特征。

经过一定的迭代训练后，在达到迭代终止条件后，即可得到特征训练结果，特征训练结果即每一条语音信息对应的声纹特征。依据识别出的声纹特征，可以对一些场景下上下文相关或无关的语音信息进行有效的甄别，从而根据声纹特征确定特定的说话人。

所述声纹确定方法，首先提取的是简单的声学前端特征，能够保留更多的原始语音特征，并且减少提取特征时所需的计算量，降低时间复杂度；同时采用卷积神经网络对语音信息进行编码，对语音提取深度特征，从而能够更有效的提取准确的声纹信息。

图2为本发明实施例公开的另一种声纹确定方法的流程图，如图2所示，声纹确定方法可以包括：

步骤201：获取语音数据，所述语音数据包括一条或多条语音信息；

步骤202：对所述语音信息做静音段去除操作；

对获取的语音信息做静音段去除操作，然后再将去除静音段后的数个语音片段拼接起来，形成一个新的语音信息。由于去除了无用的静音段，这样后续对静音段去除后的语音信息分帧，并提取声学前端特征STFT的过程将会节省部分处理资源，也会缩短处理所需时间。

步骤203：提取每一条所述语音信息的声学前端特征。

步骤204：将所述声学前端特征输入卷积神经网络CNN进行特征训练

，得到每一条语音信息对应的声纹特征。

本实施例中，在提取每一条所述语音信息的声学前端特征前，首先对获取到的语音信息进行语音活动检测(Voice Activity Detection,VAD)，将静音段去除，再进行后续相关操作。由于去除语音信息静音段可减少语音信息内容，因此缩短了语音信息长度，因此后续处理过程中能够节省资源开销，并缩短后续相关处理的处理时间，提升处理效率。

图3为本发明实施例公开又一种声纹确定方法的流程图，本实施例中，语音数据中包括多条语音信息，如图3所示，声纹确定方法可以包括：

步骤301：获取语音数据，所述语音数据包括一条或多条语音信息。

步骤302：提取每一条所述语音信息的声学前端特征。

步骤303：对所有的声学前端特征做补齐和切割操作，使得处理后的每一个声学前端特征为相同大小的矩阵，所述矩阵中包括对应的声学前端特征的全部内容。

由于不同的语音时长不同，而不同语音输入神经网络时需要保持相同大小的矩阵，因此需要对所有的声学前端特征做补齐和切割操作。具体的，可以是先将所有声学前端特征进行补帧操作，然后再进行切割操作。

步骤304：将上述处理后的声学前特征输入卷积神经网络CNN进行特征训练，得到每一条语音信息对应的声纹特征。

上述步骤303的具体实现可以参见图4，图4为本发明实施例公开的对声学前端特征做补齐和切割操作流程图，参见图4所示，可以包括：

步骤401：确定所有声学前端特征中具有最大时长的声学前端特征对应的最大帧长。

例如，当前共有10个语音信息，对应10个声学前端特征，这10个语音信息的时长(帧长)长短不一，首先，需要确定这10个语音信息具有的最大帧长。

步骤402：将所有声学前端特征补齐至不小于(最大帧长+切割标准长度)的帧长。

步骤403：依据所述切割标准长度将每一个补齐后的声学前端特征切割为包含n个具有所述切割标准长度的切割段，所述n为正整数。

以512帧为切割标准长度为例介绍，例如，若最大帧长超过512帧，则首先所有语音信息在特征上做补齐操作，统一补齐至(最大帧长+512帧)的帧长，然后再做切割操作，按照512帧长的距离对语音信息做切割；若最大帧长小于512帧，则对所有语音信息的特征做补齐操作，统一补齐至512帧。补齐操作采用循环补齐的方式，即将语音信息本身重复的复制粘贴，直至其帧长达到(最大帧长+512帧)的帧长。

所有的语音信息中选择的切割语音的帧长为512，而每个语音并不一定都是512帧，或大或小于512，但对于训练的一个批量中的所有特征，需要同样的维度，基于此需要进行切割和补齐操作。对于一个批量中的所有特征，统一补齐至(最大帧长+512帧)再按照512帧长切割，可以保证该批量中的每个语音信息所包含的所有信息都能取到。

需要说明的是，切割标准长度的帧长不是必须为512帧，具体可以根据语音信息的长度范围确定，针对语音信息时长都比较大的场景，切割标准长度可以设置的大一点，针对语音信息时长都偏小的场景，切割标准长度可以设置的小一点。

图5为本发明实施例公开的卷积神经网络处理模型图，结合图5所示，其中最上方的第一步为特征输入的步骤，输入内容为语谱图特征，语谱图特征的维度为B*n*257，其中B代表B条语音，n代表语音的语音切割段的个数，257代表特征维度；再向下Conv_1到Conv_N代表N层卷积处理层，每一层中处理包括BN(对B条语音或上一层卷积处理输出内容的规范化处理)，ReLU代表处理过程中采用的激活函数，Pooling代表池化层处理；再向下Output为输出，输出内容为B条512维向量的声纹特征；再下面的模块为Loss损失函数，本实现中采用softmax+lmc+triplet的损失函数；最下方的模块表示的B条语音中，每一条语音对应哪一个人。

具体实现中，所述卷积神经网络的激活函数可以但不限制为为ReLU函数。

可选的，所述卷积神经网络的损失函数包括大裕量余弦lmc(Large MarginCosine Loss，大裕量余弦损失)损失函数。具体的，损失函数可以只采用大裕量余弦lmc损失函数，也可以采用大裕量余弦lmc和triplet(triplet是三元组抽象数据类型的定义)结合的损失函数。

本申请中，在训练过程中采用的网络结构是卷积神经网络，激活函数可以是ReLU(Rectified LinearUnit,线性整流函数)函数，并对每一层都标准化，损失函数可以为lmc和triplet。首先采用lmc损失函数对网络参数进行训练一次所有数据的迭代，然后采用lmc+triplet损失函数训练剩下的迭代。

在传统意义上的深度卷积神经网络的softmax(归一化指数函数)代价函数的监督下，所学习的模型通常缺乏足够的判别性。而大裕量余弦lmc损失函数通过对特征向量和权向量的归一化，把softmax损失函数转化为余弦损失函数，这样做消除了半径方向的变化，并在此基础上引入了一个余弦边缘值m来进一步最大化所学习的特征在角度空间的决策边界。其计算公式如下：

其中，N为样本个数，y表示真实标签，θ表示真是标签与预测标签之间的夹角，s表示预测标签向量的模。

在训练过程中，triplet损失函数的计算基于三元组(a,p,n)，其中a,p分别为同一说话人的不同语音经过网络提取的512维特征，n为与a,p不属于同一个说话人的语音经过网络提取的512维特征。该函数以三元组(a,p,n)形式进行优化，不同类特征的L2距离要比同类特征的L2距离大，同时获得类内紧凑(即同一个说话人的多个语音能够分布的更紧密)和类间分离(即不同的说话人的语音信息之间尽量分开)。若采用cos距离，则相反。其计算公式如下：

上式中，D表示距离，即相似度，f表示特征向量，x则表示对语音提取的STFT特征，a表示间隔。

其中，语音信息经过声纹识别模型(即卷积神经网络)提取出特征向量，对于来自同一个说话人的语音a,p，基于该语音提取的特征向量之间的距离应该小于来自不同说话人的语音a,n的特征向量，并且小于的间隔为α。

上述实施例中，采用lmc损失函数对模型进行训练，使得各个说话人之间的特征距离增大，并用triplet损失函数进行精调模型，使得提取的声纹特征更加具有区分度。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

上述本发明公开的实施例中详细描述了方法，对于本发明的方法可采用多种形式的装置实现，因此本发明还公开了一种装置，下面给出具体的实施例进行详细说明。

图6为本发明实施例公开的一种声纹确定装置的结构示意图，如图6所示，声纹确定装置60可以包括：

语音获取模块601，用于获取语音数据，所述语音数据包括一条或多条语音信息。

特征提取模块602，用于提取每一条所述语音信息的声学前端特征。

特征训练模块603，用于将所述声学前端特征输入卷积神经网络CNN进行特征训练，得到每一条语音信息对应的声纹特征。

图7为本发明实施例公开的另一种声纹确定装置的结构示意图，参见图7所示，在其他的实施例中，声纹确定装置70除了上述语音获取模块601、特征提取模块602和特征训练模块603外，还可以包括语音处理模块701，用于在所述特征提取模块602提取每一条所述语音信息的声学前端特征前，对所述语音信息做静音段去除操作。

声纹确定装置各部分的具体实现可参见方法实施例中对应部分的记载内容，在此不再重复赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种声纹确定方法，其特征在于，包括：

获取语音数据，所述语音数据包括一条或多条语音信息；

提取每一条所述语音信息的声学前端特征；

2.根据权利要求1所述的声纹确定方法，其特征在于，在所述提取每一条所述语音信息的声学前端特征前，所述方法还包括：

对所述语音信息做静音段去除操作。

3.根据权利要求1所述的声纹确定方法，其特征在于，所述提取每一条所述语音信息的声学前端特征，包括：

提取每一条所述语音信息的语谱图特征。

4.根据权利要求3所述的声纹确定方法，其特征在于，所述语谱图特征的特征维数为512维、513维或257维中的一种。

5.根据权利要求1所述的声纹确定方法，其特征在于，在所述将所述声学前端特征输入卷积神经网络CNN进行特征训练前，还包括：

6.根据权利要求5所述的声纹确定方法，其特征在于，所述对所有的声学前端特征做补齐和切割操作，使得处理后的每一个声学前端特征为相同大小的矩阵，包括：

7.根据权利要求1-6任一项所述的声纹确定方法，其特征在于，所述卷积神经网络的激活函数为ReLU函数。

8.根据权利要求7所述的声纹确定方法，其特征在于，所述卷积神经网络的损失函数包括大裕量余弦lmc损失函数。

9.一种声纹确定装置，其特征在于，包括：

特征训练模块，用于将所述声学前端特征输入卷积神经网络CNN进行特征训练

得到每一条语音信息对应的声纹特征。

10.根据权利要求9所述的声纹确定装置，其特征在于，所述装置还包括：