CN110660399A

CN110660399A - 声纹识别的训练方法、装置、终端及计算机存储介质

Info

Publication number: CN110660399A
Application number: CN201911099099.4A
Authority: CN
Inventors: 陈昊亮; 许敏强; 杨世清
Original assignee: Guangzhou National Acoustic Intelligent Technology Co Ltd
Current assignee: Guangzhou National Acoustic Intelligent Technology Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-01-07

Abstract

本发明公开了一种声纹识别的训练方法、装置、终端及计算机存储介质。所述声纹识别的训练方法包括：获取标识的声纹信息的声纹特征向量，将所述声纹特征向量作为声纹识别的神经网络的输入值，获取所述声纹识别的神经网络的输出值，基于所述输出值与所述标识的声纹信息的标识信息，调整所述声纹识别的神经网络的层结构，以获得更加精准的声纹识别的神经网络，进而提高声纹识别的神经网络的识别准确率。

Description

声纹识别的训练方法、装置、终端及计算机存储介质

技术领域

本发明涉及声纹识别领域，尤其一种声纹识别的训练方法、装置、终端及计算机存储介质。

背景技术

现阶段，将深度学习引入声纹识别领域后，经过了几年的发展，目前声纹识别技术相比之前已经相对完善，但是仍处于发展阶段，声纹识别具有易采集、非接触、高可靠等特点，操作简单，且验证内容可变化，因此在各个领域大有用途，对声纹识别的结果也因此要求更加严格，故如何提高声纹识别的神经网络识别准确率是本领域研究的一大重要课题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种声纹识别的训练方法、装置、终端及计算机存储介质，旨在解决现有技术中声纹识别的神经网络识别准确率不高的技术问题。

为实现上述目的，本发明提供一种声纹识别的训练方法，所述声纹识别的训练方法包括以下步骤：

获取标识的声纹信息的声纹特征向量；

将所述声纹特征向量作为声纹识别的神经网络的输入值，获取所述声纹识别的神经网络的输出值；

基于所述输出值与所述标识的声纹信息的标识信息，调整所述声纹识别的神经网络的层结构。

优选地，获取所述输出值与所述标识信息的损失偏差；

若所述损失误差大于预设损失误差，则获取所述声纹识别的神经网络的权重平均值；

获取所述声纹识别的神经网络的各个层结构的权重值与所述权重平均值的偏差值；

基于所述偏差值，调整所述声纹识别的神经网络的层结构。

优选地，获取所述偏差值大于预设偏差值的声纹识别的神经网络的目标层；

确认所述目标层的结构属性，并基于所述目标层的结构属性，调整所述声纹识别的神经网络的层结构。

优选地，若所述目标层的结构属性为输入层，则在结构属性为输入层的目标层后面插入预设层；

若所述目标层的结构属性为隐藏层，则在结构属性为隐藏层的目标层后面插入预设层；

若所述目标层的结构属性为输出层，则在结构属性为输出层的目标层前面插入预设层。

优选地，将所述标识的声纹信息进行预处理，以获得目标声纹信息；

获取所述目标声纹信息的梅尔频率倒谱系数；

基于所述梅尔频率倒谱系数，获取所述目标声纹信息的声纹特征向量。

优选地，将所述标识的声纹信息进行预滤波，以获取预滤波的声纹信息；

将所述预滤波的声纹信息进行预加重，以获取预加重的声纹信息；

将所述预加重的声纹信息进行分帧加窗，以获取多帧声纹信息；

将所述多帧声纹信息进行端点检测，以获取目标声纹信息。

优选地，对所述目标声纹信息进行快速傅里叶变换，以获得目标声纹信息的频谱，并根据所述频谱获取所述目标声纹信息的功率谱；

获取所述目标声纹信息的梅尔功率谱；

在所述梅尔功率谱上进行倒谱分析，获取所述目标声纹信息的梅尔频率倒谱系数。

此外，为实现上述目的，本发明还提供一种声纹识别的训练装置，所述声纹识别的训练装置包括：

第一获取模块，用于获取标识的声纹信息的声纹特征向量；

第二获取模块，用于将所述声纹特征向量作为声纹识别的神经网络的输入值，获取所述声纹识别的神经网络的输出值；

调整模块，用于基于所述输出值与所述标识的声纹信息的标识信息，调整所述声纹识别的神经网络的层结构。

优选地，所述调整模块还用于：

获取所述输出值与所述标识信息的损失偏差；

基于所述偏差值，调整所述声纹识别的神经网络的层结构。

优选地，所述调整模块还用于：

获取所述偏差值大于预设偏差值的声纹识别的神经网络的目标层；

优选地，所述调整模块还用于：

若所述目标层的结构属性为输入层，则在结构属性为输入层的目标层后面插入预设层；

优选地，所述第一获取模块还用于：

将所述标识的声纹信息进行预处理，以获得目标声纹信息；

获取所述目标声纹信息的梅尔频率倒谱系数；

优选地，所述第一获取模块还用于：

将所述标识的声纹信息进行预滤波，以获取预滤波的声纹信息；

将所述多帧声纹信息进行端点检测，以获取目标声纹信息。

优选地，所述第一获取模块还用于：

对所述目标声纹信息进行快速傅里叶变换，以获得目标声纹信息的频谱，并根据所述频谱获取所述目标声纹信息的功率谱；

获取所述目标声纹信息的梅尔功率谱；

此外，为实现上述目的，本发明还提供一种终端，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声纹识别的训练程序，所述声纹识别的训练程序被所述处理器执行时实现以上所述的声纹识别的训练方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机存储介质，所述计算机存储介质上存储有声纹识别的训练程序，所述声纹识别的训练程序被处理器执行时实现以上所述的声纹识别的训练方法的步骤。

本发明通过获取标识的声纹信息的声纹特征向量，将声纹特征向量作为声纹识别的神经网络的输入值，并获取所述声纹识别的神经网络的输出值，基于输出值与标识的声纹信息的标识信息，调整声纹识别的神经网络的层结构，以获得更加精准的声纹识别的神经网络，进而提高声纹识别的神经网络的识别准确率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明声纹识别的训练方法第一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是PC，也可以是智能手机、平板电脑等具有声纹识别功能的终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及声纹识别的训练程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的声纹识别的训练程序。

在本实施例中，声纹识别的训练装置包括：存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的声纹识别的训练程序，其中，处理器1001调用存储器1005中存储的声纹识别的训练程序时，并执行以下操作：

获取标识的声纹信息的声纹特征向量；

进一步地，处理器1001可以调用存储器1005中存储的声纹识别的训练程序，还执行以下操作：

获取所述输出值与所述标识信息的损失偏差；

基于所述偏差值，调整所述声纹识别的神经网络的层结构。

将所述标识的声纹信息进行预处理，以获得目标声纹信息；

获取所述目标声纹信息的梅尔频率倒谱系数；

将所述多帧声纹信息进行端点检测，以获取目标声纹信息。

获取所述目标声纹信息的梅尔功率谱；

本发明还提供一种方法，参照图2，图2为本发明声纹识别的训练方法第一实施例的流程示意图。

步骤S100，获取标识的声纹信息的声纹特征向量；

在本实施例中，在对神经网络进行训练时，需预先准备一个训练集，可以理解地，训练集的好坏决定着神经网络的训练结果的好坏，具体地，获取标识的声纹信息的声纹特征向量，具体地，获取类型不同的声纹信息，比如，获取年龄层次不同用户的带标识的声纹信息，或者获取地域不同的用户的带标识的声纹信息，在获取类型不同的声纹信息之后，接着获取声纹信息的声纹特征向量。

具体地，获取标识的声纹信息的声纹特征向量的步骤包括，

步骤S110，将所述标识的声纹信息进行预处理，以获得目标声纹信息；

步骤S120，获取所述目标声纹信息的梅尔频率倒谱系数；

步骤S130，基于所述梅尔频率倒谱系数，获取所述目标声纹信息的声纹特征向量。

该步骤中，在获取标识的声纹信息之后，将标识的声纹信息进行预处理，以获得目标声纹信息，接着获取目标声纹信息的梅尔频率倒谱系数，并基于梅尔频率倒谱系数，获取目标声纹信息的声纹特征向量。

具体地，步骤S110包括，

步骤S111，将所述标识的声纹信息进行预滤波，以获取预滤波的声纹信息；

步骤S112，将所述预滤波的声纹信息进行预加重，以获取预加重的声纹信息；

步骤S113，将所述预加重的声纹信息进行分帧加窗，以获取多帧声纹信息；

步骤S114，将所述多帧声纹信息进行端点检测，以获取目标声纹信息。

该步骤中，即将标识的声纹信息依次经过预滤波、预加重、分帧加窗、端点检测，以获取目标声纹信息，具体地，将标识的声纹信息先转化为数字型声纹信息，接着将数字型声纹信息经过一个预滤波器进行预滤波，以防止声纹信息中的混迭干扰，接着将经过预滤波的数字型声纹信息经过预加重，提高声纹信息的高频频谱部分。

数字型声纹信息在经过预滤波、预加重之后，由于声音信号具有很强的时变特性，所以声音信号只有在短时间内才具有时域上的准、平稳特性，因此，在经过预加重之后，接着将数字型声纹信息经过分帧加窗，具体地，采用交叠分帧的方法，分帧时长可取20ms，帧与帧之间的交叠偏移可取帧长的1/2或1/3，即时隔1/2或1/3进行分帧，接着通过矩形窗进行每一帧的加窗，最后，可选地，通过双门限端点检测法对分帧加窗之后的声纹信息进行端点检测，以获得，目标声纹信息，或则，通过谱熵端点检测法对分帧加窗之后的声纹信息进行端点检测，以获得，目标声纹信息。

在获取目标声纹信息之后，获取目标声纹信息的梅尔频率倒谱系数，并基于梅尔频率倒谱系数，获取目标声纹信息的声纹特征向量。

步骤S200，将所述声纹特征向量作为声纹识别的神经网络的输入值，获取所述声纹识别的神经网络的输出值；

在本实施例中，在获取标识声纹信息的声纹特征向量之后，将声纹特征向量作为声纹识别的神经网络的输入值，其中，可以理解地，神经网络有三个全连接层堆叠而成，即输入层、隐藏层和输出层，每个全连接层有若干个节点，在输入的声纹特征向量之后，经过声纹识别的神经网络节点运算，输出输入声纹特征向量对应的训练结果数据，则获取声纹识别的神经网络的输出值，即获取标识的声纹信息的预测值。

步骤S300，基于所述输出值与所述标识的声纹信息的标识信息，调整所述声纹识别的神经网络的层结构。

在本实施例中，在获取标识的声纹信息的输出值之后，获取标识的声纹信息的标识信息，即输入标识的声纹信息的声纹特征向量对应的标识信息，之后基于输出值与标识的声纹信息的标识信息，调整声纹识别的神经网络的层结构，可以理解地，在训练声纹识别的神经网络的过程中，在输入声纹特征向量之后，依次经过神经网络中各个全连接层的神经元的运算，然后输入对应的输出值，之后基于损失函数计算出预测值与真实值的损失偏差，然后基于损失偏差调整声纹识别的神经网络的层结构，具体地，在输入声纹特征向量之后，输入的特征向量与神经元的权重相乘，然后加上一个偏置，之后经过激活函数处理之后，输出得到对应的输出值，之后基于损失函数计算出预测值与真实值的损失偏差，然后基于损失偏差调整声纹识别的神经网络的权重，即基于损失偏差调整声纹识别的神经网络的层结构。

在本实施例中，通过获取标识的声纹信息的声纹特征向量，然后将声纹特征向量作为声纹识别的神经网络的输入值，获取声纹识别的神经网络的输出值，最后基于输出值与标识的声纹信息的标识信息，调整声纹识别的神经网络的层结构，以获得更加精准的声纹识别的神经网络，进而提高声纹识别的神经网络的识别准确率。

基于第一实施例，提出本发明声纹识别的训练方法的第二实施例，在本实施例中，步骤S300，

步骤S310，获取所述输出值与所述标识信息的损失偏差；

步骤S320，若所述损失误差大于预设损失误差，则获取所述声纹识别的神经网络的权重平均值；

步骤S330，获取所述声纹识别的神经网络的各个层结构的权重值与所述权重平均值的偏差值；

步骤S340，基于所述偏差值，调整所述声纹识别的神经网络的层结构。

在本实施例中，在将声纹特征向量作为声纹识别的神经网络的输入值，获取声纹识别的神经网络的输出值之后，获取该输出值与标识的声纹信息的标识信息的损失偏差，具体地，基于损失函数获取该输出值与标识信息的损失偏差，可以理解地，若损失偏差过大，则表示声纹识别的神经网络未训练完成，具体地，设置一个预设损失误差，其中，预设损失误差可基于历史训练结果数据设置。

若损失误差大于预设损失误差，则获取声纹识别的神经网络的权重平均值，具体地，获取声纹识别的神经网络的各个层结构的权重值，然后计算声纹识别的神经网络的权重平均值，之后获取声纹识别的神经网络的各个层结构的权重值与权重平均值的偏差值，然后基于声纹识别的神经网络的各个层结构的权重值与权重平均值的偏差值，调整声纹识别的神经网络的层结构。

具体地，步骤S340包括，

步骤S341，获取所述偏差值大于预设偏差值的声纹识别的神经网络的目标层；

步骤S342，确认所述目标层的结构属性，并基于所述目标层的结构属性，调整所述声纹识别的神经网络的层结构。

该步骤中，在获取声纹识别的神经网络的各个层结构的权重值与权重平均值的偏差值之后，若声纹识别的神经网络的目标层的偏差值大于预设偏差值，则需对目标层结构进行调整，其中，具体地，由于神经网络具有三个全连接层，输入层、输出层，由于每一层的结构不同，因此在获取偏差值大于预设偏差值的声纹识别的神经网络的目标层之后，需先确认目标层的结构属性，然后基于目标层的结构属性，调整声纹识别的神经网络的层结构。

具体地，基于目标层的结构属性，调整声纹识别的神经网络的层结构的步骤为，

步骤S343，若所述目标层的结构属性为输入层，则在结构属性为输入层的目标层后面插入预设层；

步骤S344，若所述目标层的结构属性为隐藏层，则在结构属性为隐藏层的目标层后面插入预设层；

步骤S345，若所述目标层的结构属性为输出层，则在结构属性为输出层的目标层前面插入预设层。

该步骤中，如果目标层的结构属性为输入层，则在结构属性为输入层的目标层后面插入预设层，可以理解地，输出层作为神经网络的初始层，因此若输入层的权重值与权重平均值的偏差值大于预设偏差值，则只能在输入层的后面插入预设层，以调整声纹识别的神经网络的层结构。

如果目标层的结构属性为隐藏层，则在结构属性为隐藏层的目标层后面插入预设层，可以理解地，隐藏层为神经网络中的中间层，则可选地，或则在结构属性为隐藏层的目标层前面插入预设层。

如果目标层的结构属性为输出层，则在结构属性为输出层的目标层前面插入预设层，可以理解地，输出层作为神经网络的末端层，因此若输出层的权重值与权重平均值的偏差值大于预设偏差值，则只能在输出层的后面插入预设层，以调整声纹识别的神经网络的层结构。

在本实施例中，通过获取偏差值大于预设偏差值的声纹识别的神经网络的目标层，接着确认目标层的结构属性，并基于目标层的结构属性，调整声纹识别的神经网络的层结构，以获得更加精准的声纹识别的神经网络，进而提高声纹识别的神经网络的识别准确率。

基于第一实施例，提出本发明声纹识别的训练方法的第三实施例，在本实施例中，步骤S120包括：

步骤S121，对所述目标声纹信息进行快速傅里叶变换，以获得目标声纹信息的频谱，并根据所述频谱获取所述目标声纹信息的功率谱；

步骤S122，获取所述目标声纹信息的梅尔功率谱；

步骤S123，在所述梅尔功率谱上进行倒谱分析，获取所述目标声纹信息的梅尔频率倒谱系数。

在本实施例中，在获取经过预滤波、预加重、分帧加窗、端点检测之后的目标声纹信息，再对目标声纹信息进行快速傅里叶变换，得到目标声纹信息在频谱上的能量分布，以获得目标声纹信息的频谱，接着在完成快速傅里叶变换后，得到的能量分布是频域信号。每一个频带范围的能量大小不一，不同音素的能量谱也不一样，需要对目标声纹信息的频谱取模平方得到目标声纹信息的功率谱。

接着获取目标声纹信息的梅尔功率谱，可选地，通过梅尔滤波器组获取目标声纹信息的梅尔功率谱，其中，梅尔滤波器组是一组非线性分布的滤波器组，其在低频部分分布密集，在高频部分分布稀疏，即将目标声纹信息的功率谱乘以一组三角滤波器，以将目标声纹信息的功率谱转化为向量，接着将向量中的每一个元素作为梅尔滤波器组中的一个梅尔滤波器的输出，然后对向量中的每一个元素进行取对数运算，得到梅尔滤波器组输出的对数能量，该对数能量用于进行倒谱分析，即在梅尔功率谱上进行倒谱分析，获取目标声纹信息的梅尔频率倒谱系数。

在本实施例中，通过对目标声纹信息进行快速傅里叶变换，以获得目标声纹信息的频谱，并根据频谱获取目标声纹信息的功率谱，获取目标声纹信息的梅尔功率谱，然后在梅尔功率谱上进行倒谱分析，获取目标声纹信息的梅尔频率倒谱系数，以获得更加精准的声纹识别的神经网络，进而提高声纹识别的神经网络的识别准确率。

此外，本发明实施例还提出一种声纹识别的训练装置，所述声纹识别的训练装置包括：

第一获取模块，用于获取标识的声纹信息的声纹特征向量；

进一步地，所述调整模块还用于：

获取所述输出值与所述标识信息的损失偏差；

基于所述偏差值，调整所述声纹识别的神经网络的层结构。

进一步地，所述调整模块还用于：

进一步地，所述第一获取模块还用于：

将所述标识的声纹信息进行预处理，以获得目标声纹信息；

获取所述目标声纹信息的梅尔频率倒谱系数；

进一步地，所述第一获取模块还用于：

将所述多帧声纹信息进行端点检测，以获取目标声纹信息。

进一步地，所述第一获取模块还用于：

获取所述目标声纹信息的梅尔功率谱；

此外，本发明实施例还提出一种计算机存储介质，所述计算机存储介质上存储有声纹识别的训练程序，所述声纹识别的训练程序被处理器执行时实现以上声纹识别的训练方法各个步骤的操作。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种声纹识别的训练方法，其特征在于，所述声纹识别的训练方法包括以下步骤：

获取标识的声纹信息的声纹特征向量；

2.如权利要求1所述的声纹识别的训练方法，其特征在于，所述基于所述输出值与所述标识的声纹信息的标识信息，调整所述声纹识别的神经网络的层结构的步骤包括：

获取所述输出值与所述标识信息的损失偏差；

基于所述偏差值，调整所述声纹识别的神经网络的层结构。

3.如权利要求2所述的声纹识别的训练方法，其特征在于，所述基于所述偏差值，调整所述声纹识别的神经网络的层结构的步骤包括：

4.如权利要求3所述的声纹识别的训练方法，其特征在于，所述基于所述目标层的结构属性，调整所述声纹识别的神经网络的层结构的步骤包括：

5.如权利要求1所述的声纹识别的训练方法，其特征在于，所述获取带标识的声纹信息的声纹特征向量的步骤包括：

将所述标识的声纹信息进行预处理，以获得目标声纹信息；

获取所述目标声纹信息的梅尔频率倒谱系数；

6.如权利要求5所述的声纹识别的训练方法，其特征在于，所述将所述标识的声纹信息进行预处理，以获得目标声纹信息的步骤包括：

将所述多帧声纹信息进行端点检测，以获取目标声纹信息。

7.如权利要求6所述的声纹识别的训练方法，其特征在于，所述获取所述目标声纹信息的梅尔频率倒谱系数的步骤包括：

获取所述目标声纹信息的梅尔功率谱；

8.一种声纹识别的训练装置，其特征在于，所述声纹识别的训练装置包括：

第一获取模块，用于获取标识的声纹信息的声纹特征向量；

9.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声纹识别的训练程序，所述声纹识别的训练程序被所述处理器执行时实现如权利要求1至7中任一项所述的声纹识别的训练方法的步骤。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有声纹识别的训练程序，所述声纹识别的训练程序被处理器执行时实现如权利要求1至7中任一项所述的声纹识别的训练方法的步骤。