CN111640438B

CN111640438B - 音频数据处理方法、装置、存储介质及电子设备

Info

Publication number: CN111640438B
Application number: CN202010457129.0A
Authority: CN
Inventors: 毕成
Original assignee: Tongdun Holdings Co Ltd
Current assignee: Tongdun Holdings Co Ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2023-09-05
Anticipated expiration: 2040-05-26
Also published as: CN111640438A

Abstract

本发明实施例提供一种音频数据处理方法、装置、存储介质及电子设备，该方法包括：获取目标音频数据的频谱特征；利用神经网络模型的第一卷积模块对频谱特征进行卷积处理，获取第一卷积处理结果，第一卷积模块包括第一层归一化层；利用第一激活模块对第一卷积处理结果进行激活处理，获取第一激活处理结果；利用第二卷积模块对第一激活处理结果进行卷积处理，获取第二卷积处理结果，第二卷积模块包括第二层归一化层；利用第二激活模块对第二卷积处理结果以及频谱特征进行激活处理，获取目标音频数据的目标声纹特征；基于目标声纹特征与注册的声纹特征进行打分，确定目标音频数据对应的对象信息。提升了声纹识别的效率和准确性。

Description

音频数据处理方法、装置、存储介质及电子设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种音频数据处理方法、装置、存储介质及电子设备。

背景技术

声纹识别是生物识别技术的一种，也称为说话人识别，声纹识别的准确性主要依赖于提取的声纹特征。

相关技术中，提出了利用神经网络模型来进行声纹特征提取，但是，在实际处理过程中，由于声纹不同于图像，声纹的输入数据是时序数据，帧数较多，而神经网络模型能够处理的数据的大小为：批大小(batch size)×帧数×通道数，而通道数是固定的，在帧数较多时，由于内存或显存的限制，数据的批大小需要减小，但是，若批数据减小，会造成模型不稳定的问题。

在实现本发明的过程中，发明人发现相关技术中存在着模型训练不稳定的问题，这导致声纹识别不准确。

因此，需要一种新的音频数据处理方法、装置、存储介质及电子设备，提升模型的稳定性以及声纹识别的准确性。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本发明提供一种新的音频数据处理方法、装置、存储介质及电子设备，至少在一定程度上能够，提升声纹识别的效率以及准确性。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的一方面，提供一种音频数据处理方法，其中，所述方法包括：获取目标音频数据的频谱特征；利用神经网络模型的第一卷积模块对所述频谱特征进行卷积处理，获取第一卷积处理结果，所述第一卷积模块包括第一层归一化层；利用所述神经网络模型的第一激活模块对所述第一卷积处理结果进行激活处理，获取第一激活处理结果；利用所述神经网络模型的第二卷积模块对所述第一激活处理结果进行卷积处理，获取第二卷积处理结果，所述第二卷积模块包括第二层归一化层；利用所述神经网络模型的第二激活模块对所述第二卷积处理结果以及所述频谱特征进行激活处理，获取所述目标音频数据的目标声纹特征；基于所述目标声纹特征与注册的声纹特征进行打分，确定所述目标音频数据对应的对象信息。

在本发明的一些示例性实施例中，基于前述方案，所述方法还包括：训练所述神经网络模型；训练所述神经网络模型，包括：获取样本音频数据的标签以及频谱特征；利用所述神经网络模型的第一卷积模块对所述频谱特征进行卷积处理，获取第一卷积处理结果，所述第一卷积模块包括第一层归一化层；利用所述神经网络模型的第一激活模块对所述第一卷积处理结果进行激活处理，获取第一激活处理结果；利用所述神经网络模型的第二卷积模块对所述第一激活处理结果进行卷积处理，获取第二卷积处理结果，所述第二卷积模块包括第二层归一化层；利用所述神经网络模型的第二激活模块对所述第二卷积处理结果以及所述频谱特征进行激活处理，获取所述样本音频数据的预测声纹特征；基于所述样本音频数据的标签以及预测声纹特征的损失函数，确定所述神经网络模型的待更新梯度；基于所述待更新梯度更新所述神经网络模型。

在本发明的一些示例性实施例中，基于前述方案，所述神经网络模型包括多个串联的包括所述第一卷积模块、所述第一激活模块、所述第二卷积模块以及所述第二激活模块的残差网络模块。

在本发明的一些示例性实施例中，基于前述方案，所述方法还包括：注册声纹特征；注册声纹特征，包括：获取需注册的音频数据的对象信息以及频谱特征；利用所述神经网络模型的第一卷积模块对所述频谱特征进行卷积处理，获取第一卷积处理结果，所述第一卷积模块包括第一层归一化层；利用所述神经网络模型的第一激活模块对所述第一卷积处理结果进行激活处理，获取第一激活处理结果；利用所述神经网络模型的第二卷积模块对所述第一激活处理结果进行卷积处理，获取第二卷积处理结果，所述第二卷积模块包括第二层归一化层；利用所述神经网络模型的第二激活模块对所述第二卷积处理结果以及所述频谱特征进行激活处理，获取所述需注册的音频数据的声纹特征；将所述对象信息以及所述声纹特征关联存储以进行注册。

在本发明的一些示例性实施例中，基于前述方案，基于所述目标声纹特征与注册的声纹特征进行打分，确定所述目标音频数据对应的对象信息，包括：获取所述目标音频数据对应的对象的身份标识；从对象信息与注册的声纹特征的对应关系中查找到所述身份标识对应的对象的注册的声纹特征；对所述目标声纹特征与查找到的注册的声纹特征进行打分；若分数超过第一阈值，确定所述目标音频数据对应的对象为所述注册的声纹特征对应的对象，并获取所述对象的对象信息。

在本发明的一些示例性实施例中，基于前述方案，基于所述目标声纹特征与注册的声纹特征进行打分，确定所述目标音频数据对应的对象信息，包括：对每一注册的声纹特征与所述目标声纹特征进行打分；选择分数最高且超过第二阈值的注册的声纹特征对应的对象为所述目标声纹特征对应的对象，并获取所述对象的对象信息。

在本发明的一些示例性实施例中，基于前述方案，获取目标音频数据的频谱特征，包括：获取所述目标音频数据的对数域梅尔谱特征。

根据本发明实施例的另一方面，提供一种音频数据处理装置，其中，所述装置包括：获取模块，配置为获取目标音频数据的频谱特征；第一卷积模块，配置为对所述频谱特征进行卷积处理，获取第一卷积处理结果，所述第一卷积模块包括第一层归一化层；第一激活模块，配置为对所述第一卷积处理结果进行激活处理，获取第一激活处理结果；第二卷积模块，配置为对所述第一激活处理结果进行卷积处理，获取第二卷积处理结果，所述第二卷积模块包括第二层归一化层；第二激活模块，配置为对所述第二卷积处理结果以及所述频谱特征进行激活处理，获取所述目标音频数据的目标声纹特征；打分模块，配置为基于所述目标声纹特征与注册的声纹特征进行打分，确定所述目标音频数据对应的对象信息。

在本发明的一些示例性实施例中，基于前述方案，所述装置还包括：训练模块，配置为训练所述神经网络模型；所述训练模块，配置为获取样本音频数据的标签以及频谱特征；利用所述神经网络模型的第一卷积模块对所述频谱特征进行卷积处理，获取第一卷积处理结果，所述第一卷积模块包括第一层归一化层；利用所述神经网络模型的第一激活模块对所述第一卷积处理结果进行激活处理，获取第一激活处理结果；利用所述神经网络模型的第二卷积模块对所述第一激活处理结果进行卷积处理，获取第二卷积处理结果，所述第二卷积模块包括第二层归一化层；利用所述神经网络模型的第二激活模块对所述第二卷积处理结果以及所述频谱特征进行激活处理，获取所述样本音频数据的预测声纹特征；基于所述样本音频数据的标签以及预测声纹特征的损失函数，确定所述神经网络模型的待更新梯度；基于所述待更新梯度更新所述神经网络模型。

在本发明的一些示例性实施例中，基于前述方案，所述装置还包括：注册模块，配置为注册声纹特征；所述注册模块，配置为获取需注册的音频数据的对象信息以及频谱特征；利用所述神经网络模型的第一卷积模块对所述频谱特征进行卷积处理，获取第一卷积处理结果，所述第一卷积模块包括第一层归一化层；利用所述神经网络模型的第一激活模块对所述第一卷积处理结果进行激活处理，获取第一激活处理结果；利用所述神经网络模型的第二卷积模块对所述第一激活处理结果进行卷积处理，获取第二卷积处理结果，所述第二卷积模块包括第二层归一化层；利用所述神经网络模型的第二激活模块对所述第二卷积处理结果以及所述频谱特征进行激活处理，获取所述需注册的音频数据的声纹特征；将所述对象信息以及所述声纹特征关联存储以进行注册。

在本发明的一些示例性实施例中，基于前述方案，所述打分模块，包括：标识获取单元，配置为获取所述目标音频数据对应的对象的身份标识；对象查找单元，配置为从对象信息与注册的声纹特征的对应关系中查找到所述身份标识对应的对象的注册的声纹特征；第一打分单元，配置为对所述目标声纹特征与查找到的注册的声纹特征进行打分；对象确定单元，配置为若分数超过第一阈值，确定所述目标音频数据对应的对象为所述注册的声纹特征对应的对象，并获取所述对象的对象信息。

在本发明的一些示例性实施例中，基于前述方案，所述打分模块，包括：第二打分单元，配置为对每一注册的声纹特征与所述目标声纹特征进行打分；选择对象单元，配置为选择分数最高且超过第二阈值的注册的声纹特征对应的对象为所述目标声纹特征对应的对象，并获取所述对象的对象信息。

在本发明的一些示例性实施例中，基于前述方案，所述获取模块，配置为获取所述目标音频数据的对数域梅尔谱特征。

根据本发明实施例的再一方面，提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述的方法步骤。

根据本发明实施例的再一方面，提供一种电子设备，其中，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的方法步骤。

本发明实施例中，获取目标音频数据的频谱特征；利用神经网络模型的第一卷积模块对所述频谱特征进行卷积处理，获取第一卷积处理结果，所述第一卷积模块包括第一层归一化层；利用所述神经网络模型的第一激活模块对所述第一卷积处理结果进行激活处理，获取第一激活处理结果；利用所述神经网络模型的第二卷积模块对所述第一激活处理结果进行卷积处理，获取第二卷积处理结果，所述第二卷积模块包括第二层归一化层；利用所述神经网络模型的第二激活模块对所述第二卷积处理结果以及所述频谱特征进行激活处理，获取所述目标音频数据的目标声纹特征；基于所述目标声纹特征与注册的声纹特征进行打分，确定所述目标音频数据对应的对象信息。本发明实施例中利用层归一化层进行归一化，解除了对声纹特征提取的模型的批的大小的限制，从而增加了模型的稳定性，提升了模型提取的声纹特征的准确性。而且，无需对神经元输出数值进行截断，降低了模型的复杂度，提升了提取声纹特征的效率，进而提升了声纹识别的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出的是相关技术中的神经网络模型的结构示意图；

图2示出的是相关技术中的神经网络模型的训练过程示意图；

图3示出的是本发明实施例中的神经网络模型的结构示意图；

图4示出的是本发明实施例中的神经网络模型的训练过程示意图；

图5示出的是本发明实施例中的音频数据处理方法的流程示意图；

图6示出的是图5所示的音频数据处理方法的数据流示意图；

图7示出的是本发明实施例中的注册声纹特征方法的流程示意图；

图8示出的是图7所示的注册过程的数据流示意图；

图9是根据一示例性实施例示出的一种音频数据处理装置的结构示意图；

图10是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本发明将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

下面首先对相关技术中的确定设备标识进行声纹特征提取的神经网络模型进行详细的说明。相关技术中，由于在声纹中，神经网络模型能够处理的数据的大小为：批大小(batch size)×帧数×通道数，而通道数是固定的。需要说明的是，在图像中，通道数一般为3，即红、绿、蓝。而在本发明实施例提出的声纹中，基于神经网络的声纹特征一般采用对数域梅尔谱特征log fbank，通道数为梅尔滤波器组的个数，通常为64维。在帧数较多时，由于内存或显存的限制，数据的批大小需要减小，这会导致批归一化batch normalization的均值和方差的估算不准确，存在偏差，在逐个残差网络residual block堆叠过程中，这种偏差被逐步放大，使得最终得到的声纹特征的表征空间过于庞大以及模型训练不稳定，因此，可以通过添加对神经元输出数值的截断以及梯度的裁剪来解决上述问题。

图1示出的是相关技术中的神经网络模型的结构示意图。如图1所示，相关技术中的神经网络模型由4个相同的残差网络模块构成，图1仅以一个残差网络模块为例说明，其中，每个残差网络包括：第一卷积模块、第一截断激活模块、第二卷积模块以及第二截断激活模块，第一卷积模块以及第二卷积模块均包括：卷积层以及批归一化(BatchNormalization，BN)层，其中，卷积层的卷积核为3×3。第一截断激活模块以及第二截断激活模块均包括：截断的线性映射层，线性映射层ReLU(Rectified Linear Unit,ReLU)，又称修正线性单元，是一种人工神经网络中常用的激活函数(activation function)，通常指代以斜坡函数及其变种为代表的非线性函数。线性整流函数指代数学中的斜坡函数，即f(x)＝max(x，0)，对线性映射层的截断是指将该斜坡函数的值限定在一个范围之内，例如，若该范围的最大值为20，则截断的线性映射层可以表示为min(max(x，0)，20)，此时，该范围限定在0至20。

相关技术中，在声纹提取时，无法满足BN层对数据的批大小的限制，导致模型稳定性差，输出声纹特征的表征空间过于庞大，而输出声纹特征表征空间过大，会导致对验证数据以及目标数据提取的声纹特征不准确。若没有神经元数值的截断，那么神经元输出的范围大概在[0,10^6]之间，输出分布过于发散。因此，需要对神经元数值进行截断。

在实验中发现，采用数值截断可以使得单层的神经元输出范围限制在[0,20]，但是由于模型结构中残差的存在，并不能保证卷积块的输入输出分布一致，在多个卷积块堆叠时，神经元的输出范围仍然被逐步放大。

图2示出的是相关技术中的神经网络模型的训练过程示意图。如图2所示，该方法可以包括但不限于以下步骤：

在S210中，获取样本音频数据的标签以及频谱特征。

在S220中，利用神经网络模块提取样本音频数据的预测声纹特征。

需要指出的是，此处的神经网络模型是指图1中的神经网络模型。

在S230中，基于所述样本音频数据的标签以及预测的声纹特征的损失函数，确定待更新梯度。

在S240中，对待更新梯度进行裁剪，确定裁剪梯度。

需要说明的是，可以利用优化器确定需要裁剪的梯度。

在S250中，基于裁剪梯度更新神经网络模型。

相关技术中，在采用了BN层的情况下，参数的估算依赖于当前参与训练的批数据。在多个批数据分布不一致的情况下，梯度变化会比较剧烈，因此会出现梯度过大的情况。如果不对梯度进行裁剪，模型会出现参数值溢出、激活层死亡(dead unit)等现象，导致模型不收敛。在使用梯度裁剪后，避免某些梯度更新方向上的数值过大，可以一定程度上缓解上述现象。

相关技术中，利用BN层进行归一化，为了避免得到的声纹特征的表征空间过于庞大以及模型训练不稳定，增加了对神经元输出数值的截断以及训练过程中对梯度的裁剪，这增加了模型架构的复杂程度，降低了模型提取声纹特征的效率，而且，这也只能在一定程度上能够解决声纹特征的表征空间过于庞大以及模型训练不稳定的问题，由于进行神经元输出数值的截断，使得最终声纹特征向量被迫挤压到特定大小的超球体表面，使得分类器的模型容量被降低，特征向量表征能力降低。而且,神经网络的参数优化是非凸优化，参数空间存在大量的突变点。突变点可以从模型训练中损失的突变间接观察到。在参数优化空间中如果存在大量突变点，此时如果梯度的变化太剧烈，损失的变化也将过于剧烈，表现为模型的发散。适当对梯度进行裁剪可以起到对参数变化量的限制，可以一定程度上减少参数更新到突变点的风险。然而，当参数空间突变点的密度很大时，梯度裁剪仍然无法避免上述问题。

基于此，本发明实施例提供一种音频数据处理方法，利用将BN层替换为层归一化(Layer Normalization，LN)层，且不需要进行数值截断以及模型训练阶段对梯段裁剪的、简化的神经网络模型提取声纹特征，提升模型的稳定性，降低提取的声纹特征的表征空间，实现快速、准确的提取声纹特征，从而提升声纹识别的效率和准确性。

下面结合具体的实施例，对本发明实施例提出的音频数据处理方法进行详细的说明。需要说明的是，执行本发明实施例的执行主体可以是任意具有计算能力的电子设备，如，服务器或终端设备。但本发明并不限于此。

图3示出的是本发明实施例中的神经网络模型的结构示意图。如图3所示，本发明实施例中，神经网络模型可以由N个相同的残差网络模块构成，N是大于等于1的正整数。当N大于1时，N个残差网络模块之间串联连接。图3仅以一个残差网络模块为例说明。

如图3所示，每个残差网络模块中：第一卷积模块，第一激活模块、第二卷积模块以及第二激活模块。其中，第一卷积模块包括：卷积层以及第一层归一化(LayerNormalization，LN)层，第二卷积模块包括：卷积层以及第二LN层。其中，每个卷积层的卷积核为3×3。第一激活模块以及第二激活模块均包括：线性映射层ReLU，f(x)＝max(x，0)。

与图1中相关技术中的神经网络模型相比，本发明实施例中的第一卷积模块和第二卷积模块中的LN层替换了相关技术中的BN层，采用BN层的情况下，不同批的数据的分布差异可能很大，导致BN内部计算均值和方差会出现剧烈震荡。虽然根据蒙特卡罗monte-carlo采样方法可知，最终BN依然能够得到全局准确的均值和方差。但是，在最初训练中的这种震荡对模型参数能够朝正确的方向更新是致命的。采用LN替换BN后,均值和方差的统计发生在神经元节点上，因此无论输入数据如何都能有效保证神经元输出的数值分布的稳定性，跟批数据大小无关，即利用LN层替换BN层摆脱对批大小的限制，从而在声纹特征提取的过程中，避免了对由于BN层造成的声纹特征的表征空间过于庞大而增加的对线性映射层的截断。去除了对神经元输出数值的截断，既是去除了对神经元输出分布的强约束，从而简化了神经网络模型的架构，增加了声纹特征提取的效率，同时，提升了声纹识别的效率，而且，摆脱了BN层对批大小的限制，在批数据较小时也能有效稳定模型训练，提升模型的稳定性，增加了提取的目标声纹特征的准确性，从而提升声纹识别的准确性。

图4示出的是本发明实施例中的神经网络模型的训练过程示意图。如图4所示，该方法可以包括但不限于以下步骤：

在S410中，获取样本音频数据的标签以及频谱特征。

本发明实施例中，样本音频数据可以来自各种能够进行语音采集的设备，如电话信道录音、用户朗读录音、语音机器人对话录音，语音可以为8k采样率音频，有不同程度压缩。样本音频数据的标签是指样本音频数据的声纹特征。频谱特征可以是对数域梅尔谱logfbank特征。

需要指出的是，本发明实施例中可以在获取到样本音频数据后，对样本音频数据进行数据清洗，去除有效语音时长太短的音频后，提取logfbank频谱特征。

还需要指出的是，本发明实例中可以将样本音频数据划分成多个批次，输入至神经网络模型。

在S420中，利用神经网络模型提取样本音频数据的预测声纹特征。

需要指出的是，此处的神经网络模型可以理解为一个预设的初始模型，其各模块的参数为预设置，其架构为图3中的神经网络模型，本发明实施例中通过对模型进行训练，确定神经网络模型的各模块的参数。

根据本发明实施例，将样本音频数据的频谱特征输入至神经网络模型后，神经网络模型(以包括一个残差网络模块为例)的数据流如下：

(1)利用所述神经网络模型的第一卷积模块对所述频谱特征进行卷积处理，获取第一卷积处理结果，所述第一卷积模块包括第一LN层。

(2)利用所述神经网络模型的第一激活模块对所述第一卷积处理结果进行激活处理，获取第一激活处理结果。

(3)利用所述神经网络模型的第二卷积模块对所述第一激活处理结果进行卷积处理，获取第二卷积处理结果，所述第二卷积模块包括第二LN层。

(4)利用所述神经网络模型的第二激活模块对所述第二卷积处理结果以及所述频谱特征进行激活处理，获取所述样本音频数据的预测声纹特征。

在S430中，基于所述样本音频数据的标签以及预测的声纹特征的损失函数，确定待更新梯度。

本发明实施例中，损失函数可以为三元组损失triplet loss，最大化向量的类间距离，最小化向量的类内距离。基于triplet loss，可以使两个具有同样标签的样本，他们在新的编码空间里距离很近。两个具有不同标签的样本，他们在新的编码空间里距离很远。

本发明实施例中，基于损失函数可以确定模型待更新的梯度，待更新的梯度可以用于表示模型需要修正的方向，如模型的各参数。

在S440中，基于待更新梯度更新神经网络模型。

与图2中相关技术中的神经网络模型训练过程相比，本发明实施例中在确定待更新梯度后，无需对待更新梯度进行梯度裁剪，避免了对由于BN层造成的训练过程中的模型不稳定而增加的梯度裁剪。利用将BN层替换为LN层的神经网络模型，去除了对神经元输出数值的截断，以及训练过程中的梯度裁剪，简化了神经网络模型的架构，简化了神经网络模型的训练步骤，增加了神经网络模型的训练效率，解除了对批大小的要求，在批数据较小时也能有效稳定模型训练，提升模型的稳定性以及提取的目标声纹特征的准确性，进而提升声纹识别的效率和准确性。

图5示出的是本发明实施例中的音频数据处理方法的流程示意图。如图5所示，该方法可以包括但不限于以下流程：

在S510中，获取目标音频数据的频谱特征。

本发明实施例中，目标音频数据是指需要进行声纹识别的音频数据。提取这些音频数据的数域梅尔谱特征。

在S520中，利用神经网络模型的第一卷积模块对所述频谱特征进行卷积处理，获取第一卷积处理结果，所述第一卷积模块包括第一LN层。

本发明实施例中，第一卷积模块包括卷积层以及第一LN层，其中，卷积层的卷积核可以为3×3。

在S530中，利用所述神经网络模型的第一激活模块对所述第一卷积处理结果进行激活处理，获取第一激活处理结果。

本发明实施例中，第一激活模块包括线性映射层ReLU，f(x)＝max(x，0)。

在S540中，利用所述神经网络模型的第二卷积模块对所述第一激活处理结果进行卷积处理，获取第二卷积处理结果，所述第二卷积模块包括第二LN层。

本发明实施例中，第二卷积模块包括卷积层以及第二LN层，其中，卷积层的卷积核可以为3×3。

在S550中，利用所述神经网络模型的第二激活模块对所述第二卷积处理结果以及所述频谱特征进行激活处理，获取所述目标音频数据的目标声纹特征。

本发明实施例中，第二激活模块包括线性映射层ReLU，f(x)＝max(x，0)。

需要指出的是，针对第二激活模块的输入数据包括第二卷积处理结果以及目标音频数据的频谱特征。

需要说明的是，第一卷积模块、第一激活模块以及第二卷积模块构成一个卷积模块，而该卷积模块与第二激活模块构成残差网络模块，神经网络模型中可以至少一个残差网络模块，当存在多个残差网络模块时，各残差网络模块之间串联。

还需要说明的是，通过本发明实施例中的神经网络模型提取的声纹特征为高维向量，即高维声纹特征。

在S560中，基于所述目标声纹特征与注册的声纹特征进行打分，确定所述目标音频数据对应的对象信息。

本发明实施例中，针对需注册的音频数据，在提取到注册的声纹特征后，将该音频数据的对象信息与提取的注册声纹特征进行关联存储。例如，声纹特征X，对应的对象为Y(Y为身份标识)，Y的对象信息还可以包括其年龄、性别、籍贯、证件号码、住址等信息。

本发明实施例中，对目标声纹特征与注册的声纹特征进行打分，确定目标音频数据的对应的对象信息可以分为两种情况：

1、目标声纹特征与注册的声纹特征1:1的认证。

根据本发明实施例，可以获取目标音频数据对应的对象的身份标识，从存储的对象信息与注册的声纹特征的对应关系中查找到所述身份标识对应的对象的注册的声纹特征，然后对所述目标声纹特征与查找到的注册的声纹特征进行打分，若分数超过第一阈值，确定所述目标音频数据对应的对象为所述注册的声纹特征对应的对象，并获取所述对象的对象信息。若分数未超过第一阈值，确定该目标音频数据对应的对象不是该注册的声纹特征对应的对象。

需要说明的是，可以基于相似度对目标声纹特征与查找到的注册的声纹特征进行打分，若两者的各个声纹特征的相似度总值超过第一阈值，则两者来自同一对象，基于注册的声纹特征对应的对象信息获取到该目标声纹特征对应的对象信息，认证成功。反之，两者来自不同的对象，认证失败。

2、目标声纹特征与注册的声纹特征1:N的识别。

根据本发明实施例，可以对每一注册的声纹特征与目标声纹特征进行打分，选择分数最高且超过第二阈值的注册的声纹特征对应的对象为所述目标声纹特征对应的对象，并获取所述对象的对象信息。

需要指出的是，可以遍历存储的每一注册的声纹特征，基于相似度对每一注册的声纹特征与目标声纹特征进行打分，然后按照分数从高到低进行排序，选择分数最高的注册的声纹特征，并判断该分数是否超过第二阈值，若超过第二阈值，则认为该分数对应的注册的声纹特征与目标声纹特征来自同一对象，基于该注册的声纹特征对应的对象信息获取到该目标声纹特征对应的对象信息，对该目标音频数据识别成功，若最高分数未超过第二阈值，则认为该分数对象的注册的声纹特征与目标声纹特征不是来自同一对象，即与该目标声纹特征相似度最高的注册的声纹特征与该目标声纹特征不是来自同一对象，则该目标声纹特征并不在注册的声纹特征中，识别失败。

图6示出的是图5所示的音频数据处理方法的数据流示意图，如图6所示，在获取到目标音频数据后，提取目标音频数据的频谱特征，基于神经网络模型提取目标声纹特征(对应于S520-S550)，对目标声纹特征与声纹库中的注册的声纹特征进行打分，识别目标音频数据对应的对象。

图7示出的是本发明实施例中的注册声纹特征方法的流程示意图。如图7所示，该方法可以包括但不限于以下步骤：

在S710中，获取需注册的音频数据的对象信息以及频谱特征。

本发明实施例中，对象信息可以包括但不限于：身份标识、年龄、性别、籍贯、证件号码、住址信息。

本发明实施例中，针对需注册的音频数据、样本音频数据以及目标音频数据，频谱特征均指对数域梅尔谱特征。

在S720中，利用所述神经网络模型的第一卷积模块对所述频谱特征进行卷积处理，获取第一卷积处理结果，所述第一卷积模块包括第一层归一化层。

在S730中，利用所述神经网络模型的第一激活模块对所述第一卷积处理结果进行激活处理，获取第一激活处理结果。

在S740中，利用所述神经网络模型的第二卷积模块对所述第一激活处理结果进行卷积处理，获取第二卷积处理结果，所述第二卷积模块包括第二层归一化层。

在S750中，利用所述神经网络模型的第二激活模块对所述第二卷积处理结果以及所述频谱特征进行激活处理，获取所述需注册的音频数据的声纹特征。

需要指出的是，S720-S750的步骤均是在神经网络模型中执行。本发明实施例中仅以包括一个残差网络模块的神经网络为例。

在S760中，将所述对象信息以及所述声纹特征关联存储以进行注册。

本发明实施中，可以将对象信息与注册的声纹特征关联存储至声纹库，以完成注册。

图8示出的是图7所示的注册过程的数据流示意图，如图8所示，在获取到需注册的音频数据以及对象信息后，提取频谱特征，然后基于神经网络模型提取出频谱特征，然后将注册的频谱的特征与对象信息关联存储至声纹库。

本发明实施例中，利用将BN层替换为LN层，去除了对神经元输出数值的截断，以及在训练过程中去除了对待更新梯度的裁剪的神经网络模型，解除了对声纹特征提取的模型的批的大小的限制，从而增加了模型的稳定性，提升了模型提取的声纹特征的准确性。而且，无需对神经元输出数值进行截断，降低了模型的复杂度，提升了提取声纹特征的效率，进而提升了注册过程的效率以及准确性。

应清楚地理解，本发明描述了如何形成和使用特定示例，但本发明的原理不限于这些示例的任何细节。相反，基于本发明公开的内容的教导，这些原理能够应用于许多其它实施例。

下述为本发明装置实施例，可以用于执行本发明方法实施例。在下文对系统的描述中，与前述方法相同的部分，将不再赘述。

图9是根据一示例性实施例示出的一种音频数据处理装置的结构示意图，其中，所述装置900包括：获取模块910，第一卷积模块920，第一激活模块930、第二卷积模块940、第二激活模块950以及打分模块960。

获取模块910，配置为获取目标音频数据的频谱特征；

第一卷积模块920，配置为对所述频谱特征进行卷积处理，获取第一卷积处理结果，所述第一卷积模块包括第一层归一化层；

第一激活模块930，配置为对所述第一卷积处理结果进行激活处理，获取第一激活处理结果；

第二卷积模块940，配置为对所述第一激活处理结果进行卷积处理，获取第二卷积处理结果，所述第二卷积模块包括第二层归一化层；

第二激活模块950，配置为对所述第二卷积处理结果以及所述频谱特征进行激活处理，获取所述目标音频数据的目标声纹特征；

打分模块960，配置为基于所述目标声纹特征与注册的声纹特征进行打分，确定所述目标音频数据对应的对象信息。

本发明实施例中，获取目标音频数据的频谱特征；利用神经网络模型的第一卷积模块对所述频谱特征进行卷积处理，获取第一卷积处理结果，所述第一卷积模块包括第一层归一化层；利用所述神经网络模型的第一激活模块对所述第一卷积处理结果进行激活处理，获取第一激活处理结果；利用所述神经网络模型的第二卷积模块对所述第一激活处理结果进行卷积处理，获取第二卷积处理结果，所述第二卷积模块包括第二层归一化层；利用所述神经网络模型的第二激活模块对所述第二卷积处理结果以及所述频谱特征进行激活处理，获取所述目标音频数据的目标声纹特征；基于所述目标声纹特征与注册的声纹特征进行打分，确定所述目标音频数据对应的对象信息。增加了声纹特征提取的效率以及准确性，提升了声纹识别的效率和准确性。

图10是根据一示例性实施例示出的一种电子设备的结构示意图。需要说明的是，图10示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统1000包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分608加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的终端中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

以上具体示出和描述了本发明的示例性实施例。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种音频数据处理方法，其特征在于，所述方法包括：

获取目标音频数据的频谱特征；

利用神经网络模型的第一卷积模块对所述频谱特征进行卷积处理，获取第一卷积处理结果，所述第一卷积模块包括第一层归一化层；

利用所述神经网络模型的第一激活模块对所述第一卷积处理结果进行激活处理，获取第一激活处理结果；

利用所述神经网络模型的第二卷积模块对所述第一激活处理结果进行卷积处理，获取第二卷积处理结果，所述第二卷积模块包括第二层归一化层；

利用所述神经网络模型的第二激活模块对所述第二卷积处理结果以及所述频谱特征进行激活处理，获取所述目标音频数据的目标声纹特征；

基于所述目标声纹特征与注册的声纹特征进行打分，确定所述目标音频数据对应的对象信息；

基于所述目标声纹特征与注册的声纹特征进行打分，确定所述目标音频数据对应的对象信息，包括：

获取所述目标音频数据对应的对象的身份标识；

从对象信息与注册的声纹特征的对应关系中查找到所述身份标识对应的对象的注册的声纹特征；

对所述目标声纹特征与查找到的注册的声纹特征进行打分；

若分数超过第一阈值，确定所述目标音频数据对应的对象为所述注册的声纹特征对应的对象，并获取所述对象的对象信息；以及，

对每一注册的声纹特征与所述目标声纹特征进行打分；

选择分数最高且超过第二阈值的注册的声纹特征对应的对象为所述目标声纹特征对应的对象，并获取所述对象的对象信息。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：训练所述神经网络模型；

训练所述神经网络模型，包括：

获取样本音频数据的标签以及频谱特征；

利用所述神经网络模型的第一卷积模块对所述频谱特征进行卷积处理，获取第一卷积处理结果，所述第一卷积模块包括第一层归一化层；

利用所述神经网络模型的第二激活模块对所述第二卷积处理结果以及所述频谱特征进行激活处理，获取所述样本音频数据的预测声纹特征；

基于所述样本音频数据的标签以及预测声纹特征的损失函数，确定所述神经网络模型的待更新梯度；

基于所述待更新梯度更新所述神经网络模型。

3.如权利要求1所述的方法，其特征在于，所述神经网络模型包括多个串联的包括所述第一卷积模块、所述第一激活模块、所述第二卷积模块以及所述第二激活模块的残差网络模块。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：注册声纹特征；

注册声纹特征，包括：

获取需注册的音频数据的对象信息以及频谱特征；

利用所述神经网络模型的第二激活模块对所述第二卷积处理结果以及所述频谱特征进行激活处理，获取所述需注册的音频数据的声纹特征；

将所述对象信息以及所述声纹特征关联存储以进行注册。

5.如权利要求1所述的方法，其特征在于，获取目标音频数据的频谱特征，包括：

获取所述目标音频数据的对数域梅尔谱特征。

6.一种音频数据处理装置，其特征在于，所述装置包括：

获取模块，配置为获取目标音频数据的频谱特征；

第一卷积模块，配置为对所述频谱特征进行卷积处理，获取第一卷积处理结果，所述第一卷积模块包括第一层归一化层；

第一激活模块，配置为对所述第一卷积处理结果进行激活处理，获取第一激活处理结果；

第二卷积模块，配置为对所述第一激活处理结果进行卷积处理，获取第二卷积处理结果，所述第二卷积模块包括第二层归一化层；

第二激活模块，配置为对所述第二卷积处理结果以及所述频谱特征进行激活处理，获取所述目标音频数据的目标声纹特征；

打分模块，配置为基于所述目标声纹特征与注册的声纹特征进行打分，确定所述目标音频数据对应的对象信息；

所述打分模块，包括：标识获取单元，配置为获取所述目标音频数据对应的对象的身份标识；对象查找单元，配置为从对象信息与注册的声纹特征的对应关系中查找到所述身份标识对应的对象的注册的声纹特征；第一打分单元，配置为对所述目标声纹特征与查找到的注册的声纹特征进行打分；对象确定单元，配置为若分数超过第一阈值，确定所述目标音频数据对应的对象为所述注册的声纹特征对应的对象，并获取所述对象的对象信息；以及，

所述打分模块，包括：第二打分单元，配置为对每一注册的声纹特征与所述目标声纹特征进行打分；选择对象单元，配置为选择分数最高且超过第二阈值的注册的声纹特征对应的对象为所述目标声纹特征对应的对象，并获取所述对象的对象信息。

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

8.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。