CN116825114B

CN116825114B - 声纹识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN116825114B
Application number: CN202311115669.0A
Authority: CN
Inventors: 黎荣晋; 陈东鹏; 张伟彬; 李亚桐
Original assignee: Voiceai Technologies Co ltd
Current assignee: Voiceai Technologies Co ltd
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-11-10
Anticipated expiration: 2043-08-31
Also published as: CN116825114A

Abstract

本申请公开了一种声纹识别方法、装置、电子设备及计算机可读存储介质，涉及人工智能技术领域，该方法包括：获取语音特征，通过目标时延神经网络的帧级别层对语音特征逐帧进行抽象压缩，得到T帧帧特征，T为大于或等于1的整数，通过目标时延神经网络的池化层对T帧帧特征进行汇聚得到段特征，池化层包括多头注意力单元，多头注意力单元用于为T帧帧特征确定权重，通过目标时延神经网络的段级别层对段特征进行抽象压缩，得到语音特征对应的声纹特征。本申请实施例中，在对语音特征进行识别之后，能够提升声纹识别的精度。

Description

声纹识别方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种声纹识别方法、装置、电子设备及计算机可读存储介质。

背景技术

随着神经网络技术的应用和推广，声纹识别技术得到了飞速的发展。基于时延神经网络（Time Delay Network，TDNN）的声纹识别技术可以先通过多层的一维卷积神经网络（Convolutional Neural Network，CNN）组件搭建帧级别网络，然后通过统计池化层将多帧级别特征拼接为段级别特征，进而得到声纹识别的结果。然而，最终得到的声纹识别结果精度较低。

发明内容

本申请实施例公开一种声纹识别方法、装置、电子设备及计算机可读存储介质，能够提升声纹识别的精度。

第一方面，本申请实施例公开了一种声纹识别方法，包括：

获取语音特征；

通过目标时延神经网络的帧级别层对语音特征逐帧进行抽象压缩，得到T帧帧特征，T为大于或等于1的整数；

通过目标时延神经网络的池化层对T帧帧特征进行汇聚得到段特征，池化层包括多头注意力单元，多头注意力单元用于为T帧帧特征确定权重；

通过目标时延神经网络的段级别层对段特征进行抽象压缩，得到语音特征对应的声纹特征。

第二方面，本申请实施例公开了一种声纹识别装置，包括：

获取模块，用于获取语音特征；

帧级别模块，用于通过目标时延神经网络的帧级别层对语音特征逐帧进行抽象压缩，得到T帧帧特征，T为大于或等于1的整数；

池化模块，用于通过目标时延神经网络的池化层对T帧帧特征进行汇聚得到段特征，池化层包括多头注意力单元，多头注意力单元用于为T帧帧特征确定权重；

段级别模块，用于通过目标时延神经网络的段级别层对段特征进行抽象压缩，得到语音特征对应的声纹特征。

第三方面，本申请实施例公开了一种电子设备，该电子设备包括处理器和存储器，存储器存储有计算机程序，处理器调用所述计算机程序实现上述的声纹识别方法。

第四方面，本申请实施例公开了一种计算机可读存储介质，该计算机可读存储介质中存储有程序代码，程序代码可被处理器调用实现上述的声纹识别方法。

本申请实施例中，在获取语音特征之后，可以先通过目标时延神经网络的帧级别层对语音特征逐帧进行抽象压缩得到T帧帧特征，T为大于或等于1的整数；然后可以通过目标时延神经网络的池化层对T帧帧特征进行汇聚得到段特征，池化层包括多头注意力单元，多头注意力单元用于为T帧帧特征确定权重；最后可以通过目标时延神经网络的段级别层对段特征进行抽象压缩，得到语音特征对应的声纹特征。因为目标时延神经网络中的池化层包括多头注意力单元，又因为多头注意力单元可以提供样本之间横纵轴的相关性，提高了目标时延神经网络对语音特征进行识别的针对性，因而可以提高声纹识别的精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种TDNN的结构示意图。

图2是本申请实施例公开的一种声纹识别方法的流程示意图。

图3是本申请实施例公开的一种池化层的结构示意图。

图4是本申请实施例公开的另一种声纹识别方法的流程示意图。

图5是本申请实施例公开的另一种池化层的结构示意图。

图6是本申请实施例公开的又一种声纹识别方法的流程示意图。

图7是本申请实施例公开的一种声纹识别装置的结构示意图。

图8是本申请实施例公开的一种电子设备的结构示意图。

图9是本申请实施例公开的一种计算机可读存储介质的结构示意图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地，仅用于解释本申请，而不能理解为对本申请的限制。

为了使本技术领域的人员更好地理解本申请的方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着神经网络技术的应用和推广，声纹识别技术得到了飞速的发展。时延神经网络（Time Delay Network，TDNN）是应用于声纹识别领域的卷积神经网络。基于TDNN的声纹识别技术可以先通过多层的一维卷积神经网络（Convolutional Neural Network，CNN）组件搭建帧级别网络，从而可以多尺度地描述语音特征；然后通过统计池化层计算多帧级别特征的均值和方差，将该均值和方差拼接为段级别特征，进而得到声纹识别的结果。然而，在通过现有的TDNN进行声纹识别的过程中，由于现有的TDNN包括的统计池化层只能计算出时间维度信息，没有考虑频率维度信息，可能会导致最终得到的声纹识别结果精度较低。

为了解决上述问题，本申请实施例中，在获取语音特征之后，可以先通过目标时延神经网络的帧级别层对语音特征逐帧进行抽象压缩得到T帧帧特征，T为大于或等于1的整数；然后可以通过目标时延神经网络的池化层对T帧帧特征进行汇聚得到段特征，池化层包括多头注意力单元，多头注意力单元用于为T帧帧特征确定权重；最后可以通过目标时延神经网络的段级别层对段特征进行抽象压缩，得到语音特征对应的声纹特征。因为目标时延神经网络中的池化层包括多头注意力单元，又因为多头注意力单元可以提供样本之间横纵轴的相关性，提高了目标时延神经网络对语音特征进行识别的针对性，因而可以提升声纹识别的精度。

为了更清楚地描述本申请实施例，先对TDNN的结构进行说明。请参阅图1，图1是本申请实施例公开的一种TDNN的结构示意图。如图1所示，该TDNN包括输入层110、帧级别层120、池化层130、段级别层140以及输出层150。

可以通过输入层输入需要进行声纹识别的语音特征。该语音特征可以为梅尔倒谱系数（Mel Frequency Cepstrum Coefficient，MFCC）语音特征、线性预测倒谱系数（LinearPredictive Cepstral Coefficient，LPCC）语音特征等从语音数据中提取出的语音特征。输入层110可以接收输入的语音特征，之后可以将语音特征输出至帧级别层120。帧级别层120接收到来自输入层110的语音特征后，可以对语音特征逐帧进行处理。具体的，帧级别层120可以将语音特征中每一帧特征包含的密集信息进行抽象压缩，得到对应的高维度的表征信息，然后可以将包含该表征信息的多帧帧特征作为池化层130的输入帧特征。池化层130可以将该多帧帧特征进行汇聚得到段特征，然后可以将段特征输入至段级别层140。段级别层140接收到段特征后，可以对段特征包含的密集信息进行抽象压缩，得到对应的声纹特征。在训练该TDNN的过程中，在段级别层140对段特征进行处理后，可以将处理结果输入至输出层150。输出层150可以根据接收到的处理结果计算损失，之后可以根据损失优化TDNN的参数得到该TDNN。

请参阅图2，图2是本申请实施例公开的一种声纹识别方法的流程示意图。其中，该声纹识别方法可以应用于能够运行TDNN的电子设备。如图2所示，该声纹识别方法可以包括以下步骤。

210、获取语音特征。

在需要进行声纹识别的情况下，可以获取需要识别的语音特征。该语音特征可以是从本地获取的，也可以是从服务器获取的，还可以是从数据库获取的，还可以是用户输入的。该语音特征可以为MFCC语音特征、LPCC语音特征等。

该语音特征可以是预先通过特征提取技术从语音数据中提取出来的该语音数据对应的语音特征。示例性的，可以通过MFCC技术提取出语音数据对应的MFCC语音特征，然后可以将该MFCC语音特征作为TDNN的输入语音特征。示例性的，也可以通过LPCC技术提取出语音数据对应的LPCC语音特征，然后可以将该LPCC语音特征作为TDNN的输入语音特征。在此不对语音特征的具体类型进行限定。

220、通过目标时延神经网络的帧级别层对语音特征逐帧进行抽象压缩，得到T帧帧特征。

目标时延神经网络可以包括帧级别层，在获取语音特征之后，可以通过该帧级别层对语音特征逐帧进行抽象压缩，得到T帧帧特征。示例性的，帧级别层可以对语音特征一帧一帧进行处理，即对语音特征中的每一帧帧特征包含的密集信息进行抽象压缩得到高维度的表征信息，从而得到包含该表征信息的T帧帧特征，T为大于或等于1的整数。

目标时延神经网络可以由初始时延神经网络和训练样本训练得到。训练样本包括多个训练语音特征。示例性的，可以通过多次输入不同的训练语音特征对初始时延神经网络进行多次训练得到目标时延神经网络。

230、通过目标时延神经网络的池化层对T帧帧特征进行汇聚得到段特征。

目标时延神经网络还可以包括池化层。在得到T帧帧特征之后，可以通过该池化层对T帧帧特征进行汇聚得到段特征。该池化层可以包括多头注意力单元，该多头注意力单元可以用于为T帧帧特征确定权重。

在通过多头注意力单元为T帧帧特征确定权重之后，可以得到T帧加权帧特征。示例性的，可以先根据T帧帧特征和多头注意力机制确定权重矩阵，然后可以根据T帧帧特征的维度对权重矩阵进行扩展处理得到扩展后的权重矩阵，最后可以根据T帧帧特征和扩展后的权重矩阵，确定T帧加权帧特征。

在根据T帧帧特征和多头注意力机制确定权重矩阵时，可以根据T帧帧特征的维度和多头注意力机制的头向量的维度，确定第一尺寸，还可以根据多头注意力机制的头个数和多头注意力机制的头向量的维度，确定第二尺寸，然后可以根据第一尺寸确定第一矩阵并根据第二尺寸确定第二矩阵，最后可以根据第一矩阵、第二矩阵和T帧帧特征确定权重矩阵。

在训练阶段，可以预先设置多头注意力机制的头个数为H个以及多头注意力机制的头向量的维度为维。示例性的，假设T帧帧特征的维度为D维，则H可以为大于或等于1且小于或等于D的整数，/>可以根据需求设置。示例性的，/>可以为1，也可以为2，还可以为3，还可以为其他值。

示例性的，第一尺寸可以为D行列，第二尺寸可以为/>行H列。可以根据上述第一尺寸确定第一权重矩阵/>，并根据上述第二尺寸确定第二权重矩阵/>。可以通过以下公式计算权重矩阵：

其中，为权重矩阵，且/>的尺寸为T行H列，/>为非线性激活函数，/>为第i帧在第d维度的特征。/>可以为tanh函数，也可以为sigmoid函数，还可以为ReLu函数，还可以为其他非线性激活函数，在此不做限定。

在得到权重矩阵之后，可以根据T帧帧特征的维度对权重矩阵进行扩展处理得到扩展后的权重矩阵，可以将权重矩阵扩展为与T帧帧特征的维度相同的矩阵。示例性的，当多头注意力机制的头个数H=1时，此时权重矩阵为向量，可以将/>复制粘贴D份，从而得到扩展后的权重矩阵，且该权重矩阵的尺寸为T行D列。示例性的，当多头注意力机制的头个数H>1时，可以先将权重矩阵/>按列拆分得到H个向量，可以分别将H个向量进行扩展，得到H个扩展后的权重矩阵。示例性的，可以将H个向量分别复制粘贴D份，从而得到H个扩展后的权重矩阵，该H个权重矩阵的尺寸均为T行D列。

在得到扩展后的权重矩阵之后，可以根据T帧帧特征和扩展后的权重矩阵，确定T帧加权帧特征。示例性的，可以将T帧帧特征与权重矩阵进行元素相乘得到T帧加权帧特征。可以通过以下公式计算加权帧特征：

其中，为第i帧帧特征对应的加权帧特征。

作为一种实施方式，在根据矩阵的尺寸和T帧帧特征确定权重矩阵之后，可以对该权重矩阵进行规整处理，得到规整后的权重矩阵。可以对重矩阵进行softmax规整处理，也可以对重矩阵进行sigmoid规整处理，还可以对重矩阵进行tanh规整处理，还可以对重矩阵进行ReLU规整处理。示例性的，可以通过以下公式对权重矩阵进行softmax规整处理：

其中，为规整后的权重矩阵中的第i帧在第d维度对应的元素，exp为以e为底的指数函数。

可以基于规整后的权重矩阵计算T帧加权帧特征，可以通过以下公式计算加权帧特征：

在得到T帧加权帧特征之后，可以将T帧加权帧特征进行汇聚得到段特征。

作为一种实施方式，可以通过池化层包括的协方差单元计算T帧帧特征对应的协方差矩阵。示例性的，

在图2所描述的方法实施例中，在获取语音特征之后，可以先通过目标时延神经网络的帧级别层对语音特征逐帧进行抽象压缩得到T帧帧特征；然后可以通过目标时延神经网络的池化层对T帧帧特征进行汇聚得到段特征，池化层包括多头注意力单元，多头注意力单元用于为T帧帧特征确定权重；最后可以通过目标时延神经网络的段级别层对段特征进行抽象压缩，得到语音特征对应的声纹特征。因为目标时延神经网络中的池化层包括多头注意力单元，又因为多头注意力单元可以提供样本之间横纵轴的相关性，提高了目标时延神经网络对语音特征进行识别的针对性，因而可以提升声纹识别的精度。

请参阅图3，图3是本申请实施例公开的一种池化层的结构示意图。如图3所示，该池化层可以包括多头注意力单元、协方差单元以及卷积单元。请参阅图4，图4是本申请实施例公开的另一种声纹识别方法的流程示意图。其中，该声纹识别方法可以应用于能够运行TDNN的电子设备。如图4所示，该声纹识别方法可以包括以下步骤。

410、获取语音特征。

该语音特征可以是预先通过特征提取技术从语音数据中提取出来的该语音数据对应的语音特征。示例性的，可以通过MFCC技术提取出语音数据对应的MFCC语音特征，然后可以将该MFCC语音特征作为TDNN的输入语音特征；也可以通过LPCC技术提取出语音数据对应的LPCC语音特征，然后可以将该LPCC语音特征作为TDNN的输入语音特征。在此不对语音特征的具体类型进行限定。

420、通过目标时延神经网络的帧级别层对语音特征逐帧进行抽象压缩，得到T帧帧特征。

帧级别层在接收到语音特征之后，可以对语音特征一帧一帧进行处理，即对语音特征中的每一帧帧特征包含的密集信息进行抽象压缩得到高维度的表征信息，从而得到包含该表征信息的T帧帧特征。

430、通过多头注意力单元确定T帧帧特征的权重，得到T帧加权帧特征。

池化层可以包括多头注意力单元，在通过池化层将T帧帧特征进行汇聚得到段特征时，可以先通过多头注意力单元确定T帧帧特征的权重，得到T帧帧特征对应的T帧加权帧特征。步骤430的详细描述可以参考步骤230的详细描述。

440、通过协方差单元计算T帧加权帧特征对应的协方差矩阵。

池化层还可以包括协方差单元，在通过多头注意力单元得到T帧加权帧特征之后，可以通过协方差单元计算T帧加权帧特征对应的协方差矩阵。示例性的，可以先确定T帧加权帧特征同一维度的方差，可以确定T帧加权帧特征不同维度的协方差，然后可以根据该方差和该协方差确定T帧加权帧特征对应的协方差矩阵。可以通过以下公式计算T帧帧特征对应的协方差矩阵：

其中，为T帧帧特征第k维度和第m维度的协方差，/>为T帧帧特征中第i帧的第k维度特征，/>为T帧帧特征中第i帧的第m维度特征，/>为T帧帧特征在第k维度特征的平均值，/>为T帧帧特征在第m维度特征的平均值；

其中，可以通过以下公式计算T帧帧特征不同维度特征的平均值：

在计算出T帧帧特征各维度的协方差之后，可以根据T帧帧特征各维度的协方差得到如下的协方差矩阵C：

450、基于卷积单元对协方差矩阵进行卷积得到段特征。

池化层还可以包括卷积单元。在通过协方差单元计算出T帧帧特征对应的协方差矩阵之后，可以先通过卷积单元对协方差矩阵进行卷积，得到协方差矩阵对应的一维矢量，即段特征。

作为一种实施方式，卷积单元可以包括预设的一维卷积层，可以通过预设的一维卷积层对协方差矩阵进行卷积。示例性的，可以在训练阶段预设一维卷积层。可以根据设置的一维卷积层的卷积核大小、填充尺寸、扩张尺寸以及跨步尺寸等参数初始化一维卷积层，上述参数应满足以下等式：

其中，L为T帧帧特征的维度，“”为恒等于符号，/>为填充尺寸，/>为扩张尺寸，/>为卷积核大小，/>为跨步尺寸。

作为一种实施方式，在初始时延神经网络每被训练连续预设次数的情况下，卷积单元被进行一次半正交约束。示例性的，在训练阶段，每当初始时延神经网络被连续训练预设次数，可以对卷积单元包括的一维卷积层进行一次半正交约束。可以通过以下公式对一维卷积层进行半正交约束：

其中，为一维卷积层的参数矩阵，/>为/>的转置矩阵，/>为浮点系数，/>为单位矩阵。示例性的，/>可以为1。

协方差单元输出的协方差矩阵C与参数矩阵M之间可以存在以下关系：

其中，为一维卷积层输出的一维矢量。

通过对一维卷积层进行半正交约束，可以使得协方差矩阵和参数矩阵满足以下式子：

在对一维卷积层进行半正交约束后，由于半正交约束可以使得矢量化特征能大限度保留协方差矩阵的信息，即可以使得通过一维卷积层得到的一维矢量更逼近语音特征的效果，可以起到表征重要分量和次要分量的作用。

作为一种实施方式，在得到协方差矩阵对应的一维矢量之后，可以通过规整单元对一维矢量进行规整，之后可以将规整后的一维矢量作为段特征输入到段级别层。该规整可以为平方根规整、立方根规整、批量规整、均值标准差规整等的任意一种，具体的规整方式在此不做限定。对一维矢量进行规整可以提升时延神经网络的收敛程度。示例性的，可以通过以下公式对一维矢量进行平方根规整：

其中，为规整后的一维矢量，/>为符号函数。

示例性的，还可以通过以下公式对一维矢量进行均值标准差规整：

其中，为平均值函数，/>为标准差函数。

460、通过目标时延神经网络的段级别层对段特征进行抽象压缩，得到语音特征对应的声纹特征。

在通过池化层得到段特征后，段级别层可以对该段特征进行抽象压缩，得到语音特征对应的声纹特征。示例性的，段特征可以包含密集信息，段级别层可以将段特征包含的密集信息进行抽象压缩，得到段特征对应的高维度的表征信息，从而根据该表征信息得到声纹信息。

在图4所描述的方法实施例中，在获取语音特征之后，可以先通过目标时延神经网络的帧级别层对语音特征逐帧进行抽象压缩得到T帧帧特征，通过多头注意力单元确定T帧帧特征的权重，得到T帧加权帧特征，通过协方差单元计算T帧加权帧特征对应的协方差矩阵，基于卷积单元对协方差矩阵进行卷积得到段特征，通过段级别层对段特征进行抽象压缩得到语音特征对应的声纹特征。因为多头注意力单元可以提高语音特征包括的T帧帧特征之间的横纵轴相关性，也就提高了目标时延神经网络对语音特征进行识别的针对性，又因为协方差能兼顾考虑时间与频率维度信息，能把声纹特征中独立无关的维度信息进行整合，因而可以提升声纹识别的精度。

请参阅图5，图5是本申请实施例公开的另一种池化层的结构示意图。如图5所示，该池化层可以包括多头注意力单元、均值单元、标准差单元、协方差单元、卷积单元以及拼接单元。请参阅图6，图6是本申请实施例公开的又一种声纹识别方法的流程示意图。其中，该声纹识别方法可以应用于能够运行TDNN的电子设备。如图6所示，该声纹识别方法可以包括以下步骤。

610、获取语音特征。

620、通过目标时延神经网络的帧级别层对语音特征逐帧进行抽象压缩，得到T帧帧特征。

630、通过多头注意力单元确定T帧帧特征的权重，得到T帧加权帧特征。

池化层可以包括多头注意力单元，在通过池化层将T帧帧特征进行汇聚得到段特征时，可以先通过多头注意力单元确定T帧帧特征的权重，得到T帧帧特征对应的T帧加权帧特征。

步骤630的详细描述可以参考步骤230。

640、通过协方差单元计算T帧加权帧特征对应的协方差矩阵。

池化层还可以包括协方差单元，在通过多头注意力单元得到T帧加权帧特征之后，可以通过协方差单元计算T帧加权帧特征对应的协方差矩阵。示例性的，可以先确定T帧加权帧特征同一维度的方差并确定T帧加权帧特征不同维度的协方差，然后可以根据该方差和该协方差确定T帧加权帧特征对应的协方差矩阵。

步骤640的详细描述可以参考步骤440。

650、通过均值单元计算T帧加权帧特征的均值。

池化层还可以包括均值单元，在得到T帧加权帧特征之后，可以计算T帧加权帧特征的均值。

660、通过标准差单元计算T帧加权帧特征的标准差。

池化层还可以包括标准差单元，在得到T帧加权帧特征之后，可以计算T帧加权帧特征的标准差。

670、基于卷积单元对协方差矩阵进行卷积，得到协方差矩阵对应的一维矢量。

池化层还可以包括卷积单元，在通过协方差单元计算出T帧帧特征对应的协方差矩阵之后，可以通过卷积单元对协方差矩阵进行卷积，得到协方差矩阵对应的一维矢量。

卷积单元可以包括预设的一维卷积层，可以通过预设的一维卷积层对协方差矩阵进行卷积。

在得到一维矢量之后，还可以对一维矢量进行规整，得到规整后的一维矢量。步骤670的详细描述可以参考步骤450。

680、通过拼接单元将均值、标准差和一维矢量进行拼接，得到段特征。

池化层还可以包括拼接单元，在得到T帧加权帧特征对应的均值、标准差以及协方差矩阵对应的一维矢量之后，可以通过拼接单元包括的拼接函数将该均值、标准差以及一维矢量进行拼接，将拼接结果作为段特征输入段级别层。示例性的，拼接函数可以为cat函数，可以将均值、标准差以及一维矢量作为cat函数的输入数据，从而通过cat函数输出对应的拼接结果。示例性的，还可以将均值、标准差以及规整后的一维矢量作为cat函数的输入数据，从而通过cat函数输出对应的拼接结果。在此不对拼接函数进行具体限定。

690、通过目标时延神经网络的段级别层对段特征进行抽象压缩，得到语音特征对应的声纹特征。

段特征可以包含密集信息，段级别层可以将段特征包含的密集信息进行抽象压缩，得到段特征对应的高维度的表征信息，从而根据该表征信息得到声纹信息。

其中，步骤640、步骤650以及步骤660的执行顺序可以任意排列，在此不对步骤640、步骤650以及步骤660的执行顺序进行限定。

在图6所描述的方法实施例中，在获取语音特征之后，可以先通过帧级别层对语音特征逐帧进行抽象压缩得到T帧帧特征，通过多头注意力单元确定T帧帧特征的权重，得到T帧帧特征对应的T帧加权帧特征，通过协方差单元计算T帧加权帧特征对应的协方差矩阵，通过均值单元计算T帧加权帧特征的均值，通过标准差单元计算T帧加权帧特征的标准差，基于卷积单元对协方差矩阵进行卷积得到协方差矩阵对应的一维矢量，通过拼接单元将均值、标准差以及一维矢量进行拼接得到段特征。因为多头注意力单元可以提高语音特征包括的T帧帧特征之间的横纵轴相关性，也就提高了目标时延神经网络对语音特征进行识别的针对性，又因为协方差能兼顾考虑时间与频率维度信息，能把声纹特征中独立无关的维度信息进行整合，又因为同时计算了T帧加权帧特征的均值和标准差，并将该均值、标准差和协方差对应的一维矢量进行拼接得到段特征，因而提升声纹识别的精度。

应理解，上述不同实施例中的相同或相应的信息可以相互参考。

请参阅图7，图7是本申请实施例公开的一种声纹识别装置的结构示意图。该声纹识别装置可以包括获取模块以及识别模块，其中：

获取模块710，用于获取语音特征；

帧级别模块720，用于通过目标时延神经网络的帧级别层对语音特征逐帧进行抽象压缩，得到T帧帧特征，T为大于或等于1的整数；

池化模块730，用于通过目标时延神经网络的池化层对T帧帧特征进行汇聚得到段特征，池化层包括多头注意力单元，多头注意力单元用于为T帧帧特征确定权重；

段级别模块740，用于通过目标时延神经网络的段级别层对段特征进行抽象压缩，得到语音特征对应的声纹特征。

在一些实施例中，池化层还包括协方差单元以及卷积单元，池化模块730具体用于：

通过多头注意力单元确定T帧帧特征的权重，得到T帧加权帧特征；

通过协方差单元计算T帧加权帧特征对应的协方差矩阵；

通过卷积单元对协方差矩阵进行卷积得到段特征。

在一些实施例中，池化模块730具体用于：

根据T帧帧特征和多头注意力机制确定权重矩阵；

根据T帧帧特征的维度，对权重矩阵进行扩展处理得到扩展后的权重矩阵；

根据T帧帧特征和扩展后的权重矩阵，确定T帧加权帧特征。

在一些实施例中，池化模块730具体用于：

根据T帧帧特征的维度和多头注意力机制的头向量的维度，确定第一尺寸；

根据多头注意力机制的头个数和多头注意力机制的头向量的维度，确定第二尺寸；

根据第一尺寸确定第一矩阵；

根据第二尺寸确定第二矩阵；

根据第一矩阵、第二矩阵和T帧帧特征确定权重矩阵。

在一些实施例中，池化层还可以包括规整单元，池化模块730具体用于：

通过卷积单元对协方差矩阵进行卷积，得到协方差矩阵对应的一维矢量；

通过规整单元对一维矢量进行规整得到段特征。

在一些实施例中，池化层还可以包括均值单元、标准差单元以及拼接单元，池化模块730具体用于：

通过均值单元计算T帧加权帧特征的均值；

通过标准差单元计算T帧加权帧特征的标准差；

基于卷积单元对协方差矩阵进行卷积，得到协方差矩阵对应的一维矢量；

通过拼接单元将均值、标准差和一维矢量进行拼接，得到段特征。

在一些实施例中，目标时延神经网络由初始时延神经网络训练得到，初始时延神经网络每被训练连续预设次数，卷积单元被进行一次半正交约束。

在一些实施例中，规整为平方根规整、立方根规整、批量规整以及均值标准差规整中的任意一种。

在图7所描述的装置实施例中，在获取语音特征之后，可以先通过目标时延神经网络的帧级别层对语音特征逐帧进行抽象压缩得到T帧帧特征，T为大于或等于1的整数；然后可以通过目标时延神经网络的池化层，对T帧帧特征进行汇聚得到段特征，池化层包括多头注意力单元，多头注意力单元用于为T帧帧特征确定权重；最后可以通过目标时延神经网络的段级别层对段特征进行抽象压缩，得到语音特征对应的声纹特征。因为目标时延神经网络中的池化层包括多头注意力单元，又因为多头注意力单元可以提供样本之间横纵轴的相关性，提高了目标时延神经网络对语音特征进行识别的针对性，因而可以提升声纹识别的精度。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所公开的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

如图8所示，本申请实施例还公开一种电子设备800的结构示意图，该电子设备800包括处理器810、存储器820，存储器820存储有计算机程序指令，计算机程序指令被处理器810调用时，可实执行上述的实施例公开的各种方法步骤。本领域技术人员可以理解，图中示出的电子设备的结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器810可以包括一个或多个处理核。处理器810利用各种接口和线路连接整个电池管理系统内的各种部分，通过运行或执行存储在存储器820内的指令、程序、代码集或指令集，调用存储在存储器820内的数据，执行电池管理系统的各种功能和处理数据，以及执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选地，处理器810可以采用数字信号处理（Digital Signal Processing，DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（Programmable Logic Array，PLA）中的至少一种硬件形式来实现。处理器810可集成中央处理器810（Central ProcessingUnit，CPU）、图像处理器810（Graphics Processing Unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器810中，单独通过一块通信芯片进行实现。

存储器820可以包括随机存储器820（Random Access Memory，RAM），也可以包括只读存储器820（Read-Only Memory）。存储器820图可用于存储指令、程序、代码、代码集或指令集。存储器820可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现下述各种方法实施例的指令等。存储数据区还可以存储电子设备在使用中所创建的数据（比如电话本、音视频数据、聊天记录数据）等。相应地，存储器820还可以包括存储器控制器，以公开处理器810对存储器820的访问。

尽管未示出，电子设备800还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器810会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器820中，并由处理器810来运行存储在存储器820中的应用程序，从而实现前述实施例公开的各种方法步骤。

如图9所示，本申请实施例还公开一种计算机可读存储介质900，该计算机可读存储介质900中存储有计算机程序指令910，计算机程序指令910可被处理器调用以执行上述实施例中所描述的方法。

计算机可读存储介质可以是诸如闪存、EEPROM（电可擦除可编程只读存储器）、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质包括非易失性计算机可读存储介质（Non-Transitory Computer-Readable Storage Medium）。计算机可读存储介质900具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

根据本申请的一个方面，公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述实施例公开的各种可选实现方式中公开的方法。

以上，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制，虽然本申请已以较佳实施例揭示如上，然而并非用以限定本申请，任何本领域技术人员，在不脱离本申请技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本申请技术方案内容，依据本申请的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本申请技术方案的范围内。

Claims

1.一种声纹识别方法，其特征在于，包括：

获取语音特征；

通过目标时延神经网络的帧级别层对所述语音特征逐帧进行抽象压缩，得到T帧帧特征，T为大于或等于1的整数；

通过所述目标时延神经网络的池化层对所述T帧帧特征进行汇聚得到段特征，所述池化层包括多头注意力单元，所述多头注意力单元用于为所述T帧帧特征确定权重；

通过所述目标时延神经网络的段级别层对所述段特征进行抽象压缩，得到所述语音特征对应的声纹特征；

所述通过所述目标时延神经网络的池化层对所述T帧帧特征进行汇聚得到段特征包括：

通过所述多头注意力单元确定所述T帧帧特征的权重，得到T帧加权帧特征；

通过所述协方差单元计算所述T帧加权帧特征对应的协方差矩阵；

通过所述卷积单元对所述协方差矩阵进行卷积得到段特征；

所述通过所述多头注意力单元确定所述T帧帧特征的权重，得到T帧加权帧特征包括：

根据所述T帧帧特征和多头注意力机制确定权重矩阵；

根据所述T帧帧特征的维度，对所述权重矩阵进行扩展处理得到扩展后的权重矩阵；

根据所述T帧帧特征和所述扩展后的权重矩阵，确定T帧加权帧特征。

2.根据权利要求1所述的方法，其特征在于，所述根据所述T帧帧特征和多头注意力机制确定权重矩阵包括：

根据所述T帧帧特征的维度和多头注意力机制的头向量的维度，确定第一尺寸；

根据所述多头注意力机制的头个数和所述多头注意力机制的头向量的维度，确定第二尺寸；

根据所述第一尺寸确定第一矩阵；

根据所述第二尺寸确定第二矩阵；

根据所述第一矩阵、所述第二矩阵和所述T帧帧特征确定权重矩阵。

3.根据权利要求1所述的方法，其特征在于，所述池化层还包括规整单元，所述通过所述卷积单元对所述协方差矩阵进行卷积得到段特征包括：

通过所述卷积单元对所述协方差矩阵进行卷积，得到所述协方差矩阵对应的一维矢量；

通过所述规整单元对所述一维矢量进行规整得到段特征。

4.根据权利要求1所述的方法，其特征在于，所述池化层还包括均值单元、标准差单元和拼接单元，所述通过所述目标时延神经网络的池化层对所述T帧帧特征进行汇聚得到段特征还包括：

通过所述均值单元计算所述T帧加权帧特征的均值；

通过所述标准差单元计算所述T帧加权帧特征的标准差；

所述通过所述卷积单元对所述协方差矩阵进行卷积得到段特征包括：

通过所述拼接单元将所述均值、所述标准差和所述一维矢量进行拼接，得到段特征。

5.根据权利要求1所述的方法，其特征在于，所述通过所述协方差单元计算所述T帧加权帧特征对应的协方差矩阵包括：

确定所述T帧加权帧特征同一维度的方差；

确定所述T帧加权帧特征不同维度的协方差；

根据所述方差和所述协方差确定所述T帧加权帧特征对应的协方差矩阵。

6.根据权利要求2-5任一项所述的方法，其特征在于，所述目标时延神经网络由初始时延神经网络训练得到，所述初始时延神经网络每被训练连续预设次数，所述卷积单元被进行一次半正交约束。

7.根据权利要求3所述的方法，其特征在于，所述规整为平方根规整、立方根规整、批量规整以及均值标准差规整中的任意一种。

8.一种声纹识别装置，其特征在于，包括：

获取模块，用于获取语音特征；

帧级别模块，用于通过目标时延神经网络的帧级别层对所述语音特征逐帧进行抽象压缩，得到T帧帧特征，T为大于或等于1的整数；

池化模块，用于通过所述目标时延神经网络的池化层对所述T帧帧特征进行汇聚得到段特征，所述池化层包括多头注意力单元，所述多头注意力单元用于为所述T帧帧特征确定权重；

段级别模块，用于通过所述目标时延神经网络的段级别层对所述段特征进行抽象压缩，得到所述语音特征对应的声纹特征；

通过所述卷积单元对所述协方差矩阵进行卷积得到段特征；

根据所述T帧帧特征和多头注意力机制确定权重矩阵；

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器调用所述计算机程序实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用实现如权利要求1-7任一项所述的方法。