CN115547345A

CN115547345A - 声纹识别模型训练及相关识别方法、电子设备和存储介质

Info

Publication number: CN115547345A
Application number: CN202211199538.0A
Authority: CN
Inventors: 郑斯奇
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2022-12-30

Abstract

本申请实施例提供了一种声纹识别模型训练及相关识别方法、电子设备和存储介质，声纹识别方法包括：提取待识别语音片段的声学特征；提取所述待识别语音片段的隐藏特征，其中，所述隐藏特征用于指示所述待识别语音片段对应的说话内容；对所述待识别语音片段的声学特征和隐藏特征进行拼接，获得所述待识别语音片段的拼接特征；将所述待识别语音片段的拼接特征输入声纹识别模型，对所述待识别语音片段进行声纹识别，获得声纹识别结果。本方案能够提高声纹识别的准确率。

Description

声纹识别模型训练及相关识别方法、电子设备和存储介质

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种声纹识别模型训练及相关识别方法、电子设备和存储介质。

背景技术

声纹识别(Voiceprint Recognition,VPR)也被为说话人识别(SpeakerRecognition)，属于生物识别技术的一种，具体实现时通过声纹识别模型识别不同说话人的声音特征，以实现说话人辨认或说话人确认。

目前，声纹识别模型从语音数据中提取用于指示说话人声音特征的声学特征，进而基于提取到的声学特征来区分不同说话人的语音信息。

然而，从语音数据中提取出的声学特征，不仅包括说话人声音特征，还包括说话内容的相关特征，因此，从同一说话人说不同内容的语音片段中提取出的声学特征会存在较大差异，从不同说话人说相同内容的语音片段中提取出的声学特征具有较高的相似度，从而导致声纹识别的准确率较低。

发明内容

有鉴于此，本申请实施例提供一种声纹识别模型训练及相关识别方法、电子设备和存储介质，以至少解决或缓解上述问题。

根据本申请实施例的第一方面，提供了一种声纹识别方法，包括：提取待识别语音片段的声学特征；提取所述待识别语音片段的隐藏特征，其中，所述隐藏特征用于指示所述待识别语音片段对应的说话内容；对所述待识别语音片段的声学特征和隐藏特征进行拼接，获得所述待识别语音片段的拼接特征；将所述待识别语音片段的拼接特征输入声纹识别模型，对所述待识别语音片段进行声纹识别，获得声纹识别结果。

根据本申请实施例的第二方面，提供了一种说话人识别方法，包括：对第一语音片段和第二语音片段进行拼接，获得拼接语音片段；提取所述拼接语音片段的声学特征；提取所述拼接语音片段的隐藏特征，其中，所述隐藏特征用于指示所述第一语音片段和所述第二语音片段对应的说话内容；对所述拼接语音片段的声学特征和隐藏特征进行拼接，获得所述拼接语音片段的拼接特征；将所述拼接语音片段的拼接特征输入声纹识别模型，对所述拼接语音片段进行声纹识别，获得所述拼接语音片段的声纹识别结果；根据所述拼接语音片段的声纹识别结果，确定说话人识别结果，其中，所述说话人识别结果用于指示所述第一语音片段和所述第二语音片段对应相同说话人的概率。

根据本申请实施例的第三方面，提供了一种说话人日志生成方法，包括：提取待处理语音的声学特征；提取所述待处理语音的隐藏特征，其中，所述隐藏特征用于指示所述待处理语音对应的说话内容；对所述待处理语音的声学特征和所述隐藏特征进行拼接，获得所述待处理语音的拼接特征；将所述待处理语音的拼接特征输入声纹识别模型，对所述待处理语音进行声纹识别，获得所述待处理语音的声纹识别结果；将所述待处理语音的声纹识别结果输入前馈神经网络进行特征提取，获得说话人日志，其中，所述说话人日志用于标识所述待处理语音中按说话人划分的语音片段。

根据本申请实施例的第四方面，提供了一种声纹识别模型的训练方法，包括：从无标签语音数据集中获取至少两个语音片段；对所述至少两个语音片段进行拼接，获得第一语音样本；提取所述第一语音样本的声学特征；提取所述第一语音样本的隐藏特征，其中，所述隐藏特征用于指示所述第一语音样本中各语音片段对应的说话内容；对所述第一语音样本的声学特征和隐藏特征进行拼接，获得所述第一语音样本的拼接特征；将所述第一语音样本的拼接特征输入待训练的声纹识别模型，获得所述声纹识别模型输出的声纹识别结果；根据所述声纹识别结果，确定所述声纹识别模型的声纹识别损失；根据所述声纹识别损失调整所述声纹识别模型的参数，直至所述声纹识别损失小于预设的第一损失阈值，停止对所述声纹识别模型进行上述训练。

根据本申请实施例的第五方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；存储器用于存放至少一可执行指令，可执行指令使处理器执行上述第一方面至第四方面中任一方面所述方法对应的操作。

根据本申请实施例的第六方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面至第四方面中任一方面所提供的方法。

根据本申请实施例的第七方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如上述第一方面至第四方面中任一方面所提供的方法。

由上述技术方案可知，提取待识别语音片段的声学特征和隐藏特征后，对声学特征和隐藏特征进行拼接，获得待识别语音片段的拼接特征，进而将拼接特征输入声纹识别模型对待识别语音片段进行声纹识别，获得声纹识别结果。由于声学特征包括说话人的声纹特征和说话内容的相关特征，而隐藏特征可以指示待识别语音片段对应的说话内容，所以将声学特征和隐藏特征拼接成拼接特征作为声纹识别模型的输入，声纹识别模型基于拼接特征进行声纹识别时，可以屏蔽由于说话内容不同的影响，而仅基于说话人特征进行声纹识别，从而可以提高声纹识别的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例所应用示例性系统的示意图；

图2是本申请一个实施例的声纹识别方法的流程图；

图3是本申请一个实施例的声纹识别模型的示意图；

图4是本申请一个实施例的说话人识别方法的流程图；

图5是本申请一个实施例的说话人日志生成方法的流程图；

图6是本申请一个实施例的声纹识别模型训练方法的流程图；

图7是本申请一个实施例的声纹识别模型微调方法的流程图；

图8是本申请另一个实施例的声纹识别模型微调方法的流程图；

图9是本申请一个实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本申请进行描述，但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质，公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。

首先，对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释。

声纹识别：声纹识别是生物识别技术的一种，是一种通过声音判别说话人身份的技术。

说话人识别：通过提取人的声纹特征，识别两条音频是否属于同一个人。

说话人日志：在多人说话的场景中，一段音频包括多个人的声音，将每个角色的声音和说话内容进行区分。

示例性系统

图1示出了一种适用于本申请实施例的声纹识别方法和声纹识别模型训练方法的示例性系统。如图1所示，该系统包括云服务器端10、通信网络20和至少一个用户设备30，图1中示例的为多个用户设备30。

云服务器端10可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的设备，包括但不限于分布式存储系统设备、服务器集群、计算云服务端集群等。在一些实施例中，云服务器端10可以执行任何适当的功能。例如，云服务器端10可以用于声纹识别和声纹识别模型的训练字。在一些实施例中，云服务器端10可以接收用户设备30发送的语音数据，对语音数据进行声纹识别，并将声纹识别结果发送给用户设备30。在另一些实施例中，云服务器端10可以接收来自用户设备30的模型训练指令，进而根据模型训练指令训练声纹识别模型，然后将训练完成的声纹识别模型发送给用户设备30，或者基于训练完成的声纹识别模型进行声纹识别。

通信网络20可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络20能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备30可以通过一个或多个通信链路(例如通信链路112)连接到通信网络20，该通信网络20能够经由一个或多个通信链路(例如通信链路114)被连接到云服务器端10。通信链路可以是适合于在云服务器端10与用户设备30之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

用户设备30可以包括适合于语音采集、运行声纹识别模型进行声纹识别的任何一个或多个设备。用户设备30可以包括任何适合类型的设备，例如，用户设备30可以是移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、游戏控制台、媒体播放器或会议设备等任何合适类型的设备。

需要说明的是，云服务器端10进行声纹识别和训练声纹识别模型仅是本申请实施例的其中一个应用场景，本申请实施例提供的声纹识别方法和声纹识别模型训练方法还可以由本地服务器、客户端、IoT设备等实施，对此本申请实施例不作限定。

声纹识别方法

图2是本申请一个实施例的声纹识别方法的流程图。如图2所示，该声纹识别方法包括如下步骤：

步骤201、提取待识别语音片段的声学特征。

待识别语音片段为需要进行声纹识别的语音片段，待识别语音片段包括一个或多个说话人的声音。

在一个例子中，在提取待识别语音片段的声学特征时，可以提取待识别语音片段的Fbank特征，作为待识别语音片段的声学特征。

对应相同说话内容和不同说话人的语音片段，具有不同的声学特征，对应相对说话人和不同说话内容的语音片段，也具有不同的声学特征，所以从待识别语音片段中提取到的声学特征，不仅包括说话人的声纹特征，还包括说话内容的相关特征。

步骤202、提取待识别语音片段的隐藏特征。

在获取到待识别语音片段后，除了提取待识别语音片段的声学特征外，还需要提取待识别语音片段的隐藏特征，隐藏特征可以指示待识别语音片段对应的说话内容。针对不同的两个语音片段，如果这两个语音片段对应相同的说话内容，则从这两个语音片段中提取到的隐藏特征相同。

步骤203、对待识别语音片段的声学特征和隐藏特征进行拼接，获得待识别语音片段的拼接特征。

在提取到待识别语音片段的声学特征和隐藏特征后，对待识别语音片段的声学特征和隐藏特征进行拼接，获得待识别语音片段的拼接特征。声学特征和隐藏特征的拼接方法，可以是任何类型的特征拼接方法，比如，按照声学特征至隐藏特征的顺序对两个特征矩形进行拼接获得拼接特征，或者按照隐藏特征值声学特征的顺序对两个特征矩阵进行拼接获得拼接特征，或者对声学特征和隐藏特征进行加权平均获得拼接特征，本申请实施例对声学特征与隐藏特征的拼接方法不作限定。

步骤204、将待识别语音片段的拼接特征输入声纹识别模型，对待识别语音片段进行声纹识别，获得声纹识别结果。

声纹识别模型是预先训练的神经网络模型，用于基于输入的特征数据进行声纹识别，并输出声纹识别结果。在获取待识别语音片段的拼接特征后，将拼接特征输入声纹识别模型，通过声纹识别模型对待识别语音片段进行声纹识别，进而获得声纹识别模型输出的声纹识别结果。

声纹识别结果可以指示待识别语音片段中每一帧对应的说话人，根据声纹识别结果可以确定待识别语音片段中哪些帧对应同一说话人，从而在待识别语音片段包括多个说话人的声音时，可以按说话人将待识别语音片段划分为多个语音片段。根据实际应用场景的不同，声纹识别结果可以作为最终输出下发给下游应用，也可以作为其他神经网络模型的输入，作进一步处理，对此本申请实施例不作限定。

应理解，声纹识别模型以拼接特征作为输入，拼接特征由声学特征和隐藏特征拼接而成，所以在对声纹识别模型进行训练时，也需要通过由声学特征和隐藏特征拼接而成的样本进行训练，后序实施例会对声纹识别模型的训练过程进行具体说明。

在本申请实施例中，提取待识别语音片段的声学特征和隐藏特征后，对声学特征和隐藏特征进行拼接，获得待识别语音片段的拼接特征，进而将拼接特征输入声纹识别模型对待识别语音片段进行声纹识别，获得声纹识别结果。由于声学特征包括说话人的声纹特征和说话内容的相关特征，而隐藏特征可以指示待识别语音片段对应的说话内容，所以将声学特征和隐藏特征拼接成拼接特征作为声纹识别模型的输入，声纹识别模型基于拼接特征进行声纹识别时，可以屏蔽由于说话内容不同的影响，而仅基于说话人特征进行声纹识别，从而可以提高声纹识别的准确率。

在一种可能的实现方式中，提取待识别语音片段的隐藏特征时，首先提取待识别语音片段的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)特征，然后将MFCC特征输入自动语音识别(Automatic Speech Recognition，ASR)模型，通过ASR模型提取待识别语音片段中每一帧所对应说话内容的隐藏特征，进而对待识别语音片段中各帧所对应说话内容的隐藏特征进行顺序组合，获得待识别语音片段的隐藏特征。

在提取待识别语音片段的MFCC特征后，将MFCC特征输入预先训练的ASR模型，ASR模型可以基于MFCC特征对待识别语音片段进行语音识别，从而确定待识别语音片段包括的说话内容，进而可以确定待识别语音片段中每帧所对应的说话内容，获得每帧所对应说话内容的隐藏特征。由于说话内容中的每个发音可能对应待识别语音片段中的多个帧，所以相邻的多个帧可能对应相同的隐藏特征。

在获得待识别语音片段中每帧所对应说话内容的隐藏特征后，可以根据各帧在待识别语音片段中的顺序，对各帧所对应说话内容的隐藏特征进行顺序组合，获得待识别语音片段的隐藏特征，使得待识别语音片段的隐藏特征能够完整地指示待识别语音片段对应的说话内容。

在本申请实施例中，提取待识别语音片段的MFCC特征后，将MFCC特征作为ASR模型的输入，通过ASR模型分别提取待识别语音片段中每一帧所对应说话内容的隐藏特征，进而由各帧所对应说话内容的隐藏特征组合为待识别语音片段的隐藏特征，使得待识别语音片段的隐藏特征能够从帧级别指示待识别语音片段对应的说话内容，保证隐藏特征能够准确地指示说话内容，进而保证基于待识别语音片段的隐藏特征进行声纹识别时，所获得识别结果的准确性。

图3是本申请一个实施例的声纹识别模型的示意图。如图3所示，声纹识别模型包括依次设备的第一卷积层301、第一空洞卷积层302、第二空洞卷积层303、第三空洞卷积层304、第二卷积层305、第一编解码层306和第二编解码层307。其中，第一卷积层301的输入为待识别语音片段的拼接特征，第二编解码层307的输出为待识别语音片段的声纹识别结果，按照从第一卷积层301至第二编解码层307的顺序，在后层级以在前乘积的输出作为输入。

在本申请实施例中，声纹识别模型为7层结构，第一层为卷积层，第二层至第四层为空洞卷积层，第五层为卷积层，第六层和第七层为编解码层，通过这7层结构可以充分从输入数据中提取特征，基于拼接特征中的隐藏特征滤除说话内容的影响，而基于说话人特征之间的差异进行声纹识别，从而保证声纹识别结果的准确性。另外，第二层至第四层为空洞卷积层，空洞卷积层对输入数据进行空洞卷积，可以增大卷积神经网络的感受野，从而基于待识别语音片段中相邻多帧进行声纹识别，进一步提高声纹识别结果的准确性。

在一种可能的实现方式中，第一卷积层301和第二卷积层305用于对各自的输入进行一维卷积，第一空洞卷积层302、第二空洞卷积层303和第三空洞卷积层304用于对各自的输入进行空洞卷积，第一编解码层306和第二编解码层307均包括至少一个编码器(encoder)和至少一个解码器(decoder)，用于对各自的输入进行编解码处理。第一空洞卷积层302、第二空洞卷积层303和第三空洞卷积层304可以均包括SE-Res2Block模型，第一编解码层306和第二编解码层307可以均包括Transformer模型。

SE-Res2Block模型包含具有前一层和后一层上下文为1帧的空洞卷积，第一个层可用于降低特征维度，第二个密集层将特征数据恢复到原始维度，然后用SE模块来缩放每个通道，整个单元使用一个跳跃连接。SE-Res2Block模型的集成能够提高声纹识别模型的性能，同时还能够减少声纹识别模型的模型参数的数量。

在本申请实施例中，待识别语音片段的拼接特征输入声纹识别模型后，依次进行一维卷积、三次空洞卷积、一维卷积和两次编解码，从输入到拼接特征中提取说人话特征信息，而滤除说话内容的相关特征，进而基于说话人特征进行声纹识别，从而保证声纹识别结果的准确性。三个空洞卷积层均包括SE-Res2Block模型，通过SE-Res2Block模型进行空洞卷积，不仅可以增大感受野，从而提高声纹识别模型的性能，而且可以减少声纹识别模型的模型参数的数量，从而减小声纹识别模型的训练耗时。

说话人识别方法

在说话人识别的应用场景，基于上述实施例提供的声纹识别方法，本申请实施例提供了一种说话人识别方法，用于识别两个语音片段是否对应相同的说话人。图4是本申请实施例的说话人识别方法的流程图，如图4所示，该说话人识别方法包括如下步骤：

步骤401、对第一语音片段和第二语音片段进行拼接，获得拼接语音片段。

第一语音片段和第二语音片段是需要进行说话人识别的两个语音片段，即需要识别第一语音片段和第二语音片段是否为同一说话人的语音。应理解，第一语音片段和第二语音片段均仅对应一个说话人，即第一语音片段和第二语音片段均只包括一个说话人的语音。

在对第一语音片段和第二语音片段进行片接时，可以在第一语音片段和第二语音片段之间插入分隔符，使得提取声学特征和隐藏特征后，声纹识别模型仍能够区分出第一语音片段的特征和第二语音片段的特征。

步骤402、提取拼接语音片段的声学特征。

步骤403、提取拼接语音片段的隐藏特征。

步骤404、对拼接语音片段的声学特征和隐藏特征进行拼接，获得拼接语音片段的拼接特征。

步骤405、将拼接语音片段的拼接特征入声纹识别模型，对拼接语音片段进行声纹识别，获得拼接语音片段的声纹识别结果。

需要说明的是，上述步骤402至步骤405可参考前述实施例中的步骤201至步骤204，此处对于步骤402至步骤405不再进行赘述。

步骤406、根据拼接语音片段的声纹识别结果，确定说话人识别结果。

在获取到拼接语音片段的声纹识别结果后，由于声纹识别结果可以指示拼接语音片段中每一帧对应的说话人，所以根据拼接语音片段的声纹识别结果，可以确定声纹识别结果中对应第一语音片段的部分所指示的说话人，及声纹识别结果中对应第二语音片段的部分所指示的说话人，从而可以确定第一语音片段与第二语音片段是否对应相同的说话人，最终输出用于指示第一语音片段和第二语音片段对应相同说话人的概率。

在一个例子中，如果说话人识别结果所指示的概率为零，则说明第一语音片段与第二语音片段对应不同的说话人，如果说话人识别二级果所指示的概率为1，则说明第一语音片段与第二语音片段对应相同的说话人。

在本申请实施例中，将需要进行说话人识别的两个语音片段拼接获得拼接语音片段后，提取拼接语音片段的声学特征和隐藏特征，对声学特征和隐藏特征进行拼接，获得拼接语音片段的拼接特征，进而将拼接特征输入声纹识别模型对拼接语音片段进行声纹识别，获得拼接语音片段的声纹识别结果，进而根据拼接语音片段的声纹识别结果确定说话人识别结果。由于声学特征包括说话人的声纹特征和说话内容的相关特征，而隐藏特征可以指示待识别语音片段对应的说话内容，所以将声学特征和隐藏特征拼接成拼接特征作为声纹识别模型的输入，声纹识别模型基于拼接特征进行声纹识别时，可以屏蔽由于说话内容不同的影响，而仅基于说话人特征进行声纹识别，可以提高声纹识别的准确率，进而可以提高根据声纹识别结果所确定出的说话人识别结果的准确率。

在一种可能的实现方式中，在根据拼接语音片段的声纹识别结果确定说话人识别结果时，可以对拼接语音片段的声纹识别结果中第一语音片段对应的矩阵和第二语音片段对应的矩阵分别进行池化处理，获得分布式特征表示，然后通过全连接层将分布式特征表示映射为说话人识别结果。

说话人识别模型包括声纹识别模型、池化层和全连接层，声纹识别模型输出的声纹识别结果被输入池化层，池化层对声纹识别结果进行池化处理，获得分布式特征表示，全连接层将分布式特征表示映射为说话人识别结果。

在本申请实施例中，通过池化层对声纹识别模型输出的声纹识别结果进行池化处理，对声纹识别结果进行降维压缩，获得分布式特征表示，进而将分布式特征表示输入通过全连接层进行分类，获得可以指示第一语音片段和第二语音片段会否对应相同说话人的说话人识别结果。通过对声纹识别结果进行池化处理，可以将声纹识别结果进行降维压缩，加快运算速度，提高说话人识别的效率。

需要说明的是，图4所示的说话人识别方法，为本申请实施例中声纹识别方法的具体应用，具体的声纹识别方法可参见前述实施例中的描述，在此不再进行赘述。

说话人日志生成方法

在说话人识别的应用场景，基于上述实施例提供的声纹识别方法，本申请实施例提供了一种说话人日志生成方法，用于对同一音频中不同说话人的声音和说话内容进行区分。图5是本申请实施例的说话人日志生成方法的流程图，如图5所示，该说话人日志生成方法包括如下步骤：

步骤501、提取待处理语音的声学特征。

待处理语音对应多个说话人，即待处理语音中包括多个角色的语音信息，比如，待处理语音可以是多人会议过程中采集的音频，其中包括多人轮流发言的语音信息，或者待处理语音可以是教学过程汇总采集的音频，其中包括老师和学生轮流发言的语音信息。

步骤502、提取待处理语音的隐藏特征。

步骤503、对待处理语音的声学特征和隐藏特征进行拼接，获得待处理语音的拼接特征。

步骤504、将待处理语音的拼接特征输入声纹识别模型，对待处理语音进行声纹识别，获得待处理语音的声纹识别结果。

需要说明的是，上述步骤501至步骤504可参考前述实施例中的步骤201至步骤204，此处对于步骤501至步骤504不再进行赘述。

步骤505、将待处理语音的声纹识别结果输入前馈神经网络进行特征提取，获得说话人日志。

在获取到待处理语音的声纹识别结果后，将待处理语音的声纹识别结果输入前馈神经网络进行特征提取，获得说话人日志。说话人日志可以标识待处理语音中对应不同说话人的语音片段，比如，说话人日志可以指示待处理语音对应的说话人有3个，并指示待处理语音的前15s是对应说话人Spk1的语音片段，15s～45s是对应说话人Spk2的语音片段，45s～120s是对应说话人Spk3的语音片段。

在本申请实施例中，提取待处理语音的声学特征和隐藏特征，对声学特征和隐藏特征进行拼接，获得待处理语音的拼接特征，进而将拼接特征输入声纹识别模型对待处理语音进行声纹识别，获得待处理语音的声纹识别结果，进而根据待处理语音的声纹识别结果生成说话人日志。由于声学特征包括说话人的声纹特征和说话内容的相关特征，而隐藏特征可以指示待识别语音片段对应的说话内容，所以将声学特征和隐藏特征拼接成拼接特征作为声纹识别模型的输入，声纹识别模型基于拼接特征进行声纹识别时，可以屏蔽由于说话内容不同的影响，而仅基于说话人特征进行声纹识别，提高声纹识别的准确率，进而可以提高根据声纹识别结果所生成说话人日志的准确率。

需要说明的是，图5所示的说话人日志生成方法，为本申请实施例中声纹识别方法的具体应用，具体的声纹识别方法可参见前述实施例中的描述，在此不再进行赘述。

声纹识别模型的训练方法

下面对上述各实施例中的声纹识别模型的训练方法进行详细说明。图6是本申请一个实施例的声纹识别模型训练方法的流程图，如图6所示，该声纹识别模型的训练方法包括如下步骤：

步骤601、从无标签语音数据集中获取至少两个语音片段。

无标签语音数据集中包括大量音频数据，但并未标注每条音频数据所对应的说话人，但可以确定两条音频数据是否对应相同的说话人。从无标签语音数据集中获取语音片段时，可以从无标签语音数据集中随机获取多个语音片段，不同的语音片段可以从同一条音频数据上截取，也可以从不同的音频数据上截取。当两个语音片段从同一音频数据上截取时，这两个语音片段对应相同的说话人，当两个语音片段从对应不同说话人的两条音频数据上截取时，这两个语音片段对应不同的说话人。

步骤602、对获取到的各语音片段进行拼接，获得第一语音样本。

在获取到多个语音片段后，可以随机确定各语音片段的顺序，进而按照确定出的顺序对各语音片段进行拼接，获得用于对声纹识别模型进行训练的第一语音样本。

步骤603、提取第一语音样本的声学特征。

步骤604、提取第一语音样本的隐藏特征，其中，隐藏特征用于指示第一语音样本中各语音片段对应的说话内容。

步骤605、对第一语音样本的声学特征和隐藏特征进行拼接，获得第一语音样本的拼接特征。

步骤606、将第一语音样本的拼接特征输入待训练的声纹识别模型，获得声纹识别模型输出的声纹识别结果。

需要说明的是，上述步骤603至步骤606可参考前述实施例中的步骤201至步骤204，此处对于步骤603至步骤606不再进行赘述。

步骤607、根据声纹识别结果，确定声纹识别模型的声纹识别损失。

在获取到声纹识别模型输出的声纹识别结果后，可以根据该声纹识别结果确定声纹识别模型的声纹识别损失，声纹识别损失可以指示声纹识别模型对于第一语音样本进行声纹识别的准确率。

步骤608、根据声纹识别损失调整声纹识别模型的参数，直至声纹识别损失小于预设的第一损失阈值，停止对声纹识别模型进行上述训练。

在获取到声纹识别模型的声纹识别损失后，判断声纹识别损失是否小于预设的第一损失阈值。如果声纹识别损失小于第一损失阈值，说明声纹识别模型进行声纹识别的准确率已经达到了预期目标，停止对声纹识别模型进行训练，获得可用于推理的声纹识别模型，所获得的声纹识别模型可用于前述实施例中的说话人识别和说话人日志生成。如果声纹识别损失大于或等于第一损失阈值，说明声纹识别模型进行声纹识别的准确率未经达到预期目标，则根据声纹识别损失调整声纹识别模型的参数，并重复执行上述各步骤，直至声纹识别损失小于第一损失阈值。

在本申请实施例中，获取无标签的语音片段进行拼接，获得第一语音样本，提取第一语音样本的声学特征和隐藏特征后，对声学特征和隐藏特征进行拼接，获得第一语音样本的拼接特征，进而通过第一语音样本的拼接特征对声纹识别模型进行训练。由于拼接特征包括声学特征和用于指示说话内容的隐藏特征，通过拼接特征对声纹识别模型进行训练，使得声纹识别模型可以学习到两个说话人特征之间的差异，是由声音本身引起的，还是由说话内容引起的，同步不断的学习，声纹识别模型逐步可以避免说话内容对说话人特征的影响，从而可以保证所训练出的声纹识别模型在进行声纹识别时具有较高的准确率。

语音片段从无标签语音数据集中获取，无需为语音片段打标签，节省了声纹识别模型训练的成本。由于无标签语音数据来源广泛，可以利用海量的无标签语音数据对声纹识别模型进行训练，从而可以提高声纹识别模型进行声纹识别的准确率。

在一种可能的实现方式中，在根据声纹识别结果确定声纹识别模型的声纹识别损失时，可以根据声纹识别结果确定声纹识别模型对第一语音样本中每一帧的识别结果，进而根据声纹识别模型对第一语音样本中每一帧的识别结果确定帧级对抗损失，将帧级对抗损失确定为声纹识别模型的声纹识别损失。

在本申请实施例中，根据声纹识别模型对每一帧的识别结果，获得帧级对抗损失作为声纹识别损失，进而基于声纹识别损失对声纹识别模型的参数进行调整。由于帧级对抗损失可以从帧级层面反映声纹识别模型进行声纹识别的准确率，所以帧级对抗损失可以更加准确和全面的反映声纹识别模型进行声纹识别的准确率，进而基于帧级对抗损失对声纹识别模型的模型参数进行调整，可以使训练完成的声纹识别模型具有较高的声纹识别准确率。

根据帧级对抗损失对声纹识别模型的模型参数进行调整，可以使相同说话人的特征尽可能相近，而不同说话人的特征尽可能远离，从而使得声纹识别模型学习到区分不同说话人的能力。

在一种可能的实现方式中，通过上述实施例中的声纹识别模型训练方法，可以训练出通用场景的声纹识别模型，在将声纹识别模型应用于具体的场景时，还需要对声纹识别模型进行微调，以使声纹识别模型适用于相应的应用场景，保证在相应应用场景下进行声纹识别的准确性。

图7是本申请一个实施例的声纹识别模型微调方法的流程图，用于对应用于说话人识别场景中的声纹识别模型进行微调，如图7所示，该声纹识别模型微调方法包括如下步骤：

步骤701、对两个语音片段进行拼接，获得第二语音样本。

用于拼接获得第二语音样本的语音片段可以从说话人识别场景中获取，所获取的语音片段为无标签的语音片段。

步骤702、提取第二语音样本的声学特征。

步骤703、提取第二语音样本的隐藏特征，其中，隐藏特征用于指示第二语音样本中各语音片段对应的说话内容。

步骤704、对第二语音样本的声学特征和隐藏特征进行拼接，获得第二语音样本的拼接特征。

步骤705、将第二语音样本的拼接特征输入训练完成的声纹识别模型，获得声纹识别模型对第二语音样本的声纹识别结果。

本步骤中的训练完成的声纹识别模型，是指通过图6所示方法训练完成的声纹识别模型。

需要说明的是，上述步骤701至步骤705可参考前述实施例中的步骤602至步骤606，此处对于步骤701至步骤705不再进行赘述。

步骤706、通过池化层对第二语音样本的声纹识别结果中两个语音片段对应的矩阵分别进行池化处理，获得第二语音样本对应的分布式特征表示。

步骤707、通过全连接层将第二语音样本对应的分布式特征表示，映射为第二语音样本对应的说话人识别结果。

步骤708、根据第二语音样本对应的说话人识别结果，确定说话人识别损失。

在一个例子中，可以将第二语音样本对应的说话人识别结果输入AM-Softmax损失算法，计算获得说话人识别损失。

步骤709、根据说话人识别损失调整池化层和全连接层的参数，或者调整声纹识别模型、池化层和全连接层的参数，直至说话人识别损失小于预设的第二损失阈值，停止对声纹识别模型、池化层和全连接层进行上述训练。

在获取到说话人识别损失后，如果说话人识别损失大于或等于第二损失阈值，可以仅对池化层和全连接层的参数进行调整，也可以对声纹识别模型、池化层和全连接层的参数进行调整，从而可以适用于不同用户和具体应用场景的需求，提高用户的使用体验，并提高该方法的适用性。

需要说明的是，图7所示的声纹识别模型微调方法，为本申请实施例中声纹识别模型训练方法的具体应用，具体的声纹识别模型训练方法可参见前述实施例中的描述，在此不再进行赘述。

图8是本申请另一个实施例的声纹识别模型微调方法的流程图，用于对应用于说话人日志生成场景中的声纹识别模型进行微调，如图8所示，该声纹识别模型微调方法包括如下步骤：

步骤801、提取待处理语音的声学特征。

待处理语音可以从说话人日志生成场景中获取，待处理语音为无标签的语音片段和语音数据流。

步骤802、提取待处理语音的隐藏特征，其中，隐藏特征用于指示待处理语音对应的说话内容。

步骤803、对待处理语音的声学特征和隐藏特征进行拼接，获得待处理语音的拼接特征。

步骤804、将待处理语音的拼接特征输入训练完成的声纹识别模型，获得声纹识别模型对待处理语音的声纹识别结果。

需要说明的是，上述步骤801至步骤804可参考前述实施例中的步骤603至步骤606，此处对于步骤801至步骤804不再进行赘述。

步骤805、通过前馈神经网络对待处理语音的声纹识别结果进行特征提取，获得待处理语音对应的说话人日志。

步骤806、根据待处理语音对应的说话人日志，确定说话人日志损失。

在一个例子中，可以将待处理语音对应的说话人日志输入PIT损失算法，计算获得说话人日志损失。

步骤807、根据说话人日志损失调整前馈神经网络的参数，或者调整声纹识别模型和前馈神经网络的参数，直至说话人日志损失小于预设的第三损失阈值，停止对声纹识别模型和前馈神经网络进行上述训练。

在获取到说话人日志损失后，如果说话人日志损失大于或等于第三损失阈值，可以仅对前馈神经网络的参数进行调整，也可以对声纹识别模型和前馈神经网络的参数进行调整，从而可以适用于不同用户和具体应用场景的需求，提高用户的使用体验，并提高该方法的适用性。

需要说明的是，图8所示的声纹识别模型微调方法，为本申请实施例中声纹识别模型训练方法的具体应用，具体的声纹识别模型训练方法可参见前述实施例中的描述，在此不再进行赘述。

电子设备

图9是本申请实施例提供的一种电子设备的示意性框图，本申请具体实施例并不对电子设备的具体实现做限定。如图9所示，该电子设备可以包括：处理器(processor)902、通信接口(Communications Interface)904、存储器(memory)906、以及通信总线908。其中：

处理器902、通信接口904、以及存储器906通过通信总线908完成相互间的通信。

通信接口904，用于与其它电子设备或服务器进行通信。

处理器902，用于执行程序910，具体可以执行前述任一方法实施例中的相关步骤。

具体地，程序910可以包括程序代码，该程序代码包括计算机操作指令。

处理器902可能是CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

RISC-V是一种基于精简指令集(RISC)原则的开源指令集架构，其可以应用于单片机和FPGA芯片等各个方面，具体可应用在物联网安全、工业控制、手机、个人计算机等领域，且由于其在设计时考虑了小型、快速、低功耗的现实情况，使得其尤其适用于仓库规模云计算机、高端移动电话和微小嵌入式系统等现代计算设备。随着人工智能物联网AIoT的兴起，RISC-V指令集架构也受到越来越多的关注和支持，并有望成为下一代广泛应用的CPU架构。

本申请实施例中的计算机操作指令可以是基于RISC-V指令集架构的计算机操作指令，对应地，处理器902可以基于RISC-V的指令集设计。具体地，本申请实施例提供的电子设备中的处理器的芯片可以为采用RISC-V指令集设计的芯片，该芯片可基于所配置的指令执行可执行代码，进而实现上述实施例中的方法。

存储器906，用于存放程序910。存储器906可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序910具体可以用于使得处理器902执行前述任一实施例中的方法。

程序910中各步骤的具体实现可以参见前述任一方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本申请实施例的电子设备，提取待识别语音片段的声学特征和隐藏特征后，对声学特征和隐藏特征进行拼接，获得待识别语音片段的拼接特征，进而将拼接特征输入声纹识别模型对待识别语音片段进行声纹识别，获得声纹识别结果。由于声学特征包括说话人的声纹特征和说话内容的相关特征，而隐藏特征可以指示待识别语音片段对应的说话内容，所以将声学特征和隐藏特征拼接成拼接特征作为声纹识别模型的输入，声纹识别模型基于拼接特征进行声纹识别时，可以屏蔽由于说话内容不同的影响，而仅基于说话人特征进行声纹识别，从而可以提高声纹识别的准确率。

计算机存储介质

本申请还提供了一种计算机可读存储介质，存储用于使一机器执行如本文所述方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本申请的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

计算机程序产品

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种声纹识别方法，包括：

提取待识别语音片段的声学特征；

提取所述待识别语音片段的隐藏特征，其中，所述隐藏特征用于指示所述待识别语音片段对应的说话内容；

对所述待识别语音片段的声学特征和隐藏特征进行拼接，获得所述待识别语音片段的拼接特征；

将所述待识别语音片段的拼接特征输入声纹识别模型，对所述待识别语音片段进行声纹识别，获得声纹识别结果。

2.根据权利要求1所述的方法，其中，所述提取所述待识别语音片段的隐藏特征，包括：

提取所述待识别语音片段的梅尔频率倒谱系数特征；

将所述梅尔频率倒谱系数特征输入自动语音识别模型，提取所述待识别语音片段中每一帧所对应说话内容的隐藏特征；

对所述待识别语音片段中各帧所对应说话内容的隐藏特征进行顺序组合，获得所述待识别语音片段的隐藏特征。

3.根据权利要求1所述的方法，其中，所述声纹识别模型包括依次设置的第一卷积层、第一空洞卷积层、第二空洞卷积层、第三空洞卷积层、第二卷积层、第一编解码层和第二编解码层，所述第一卷积层的输入为所述待识别语音片段的拼接特征，所述第二编解码层的输出为所述声纹识别结果。

4.根据权利要求3所述的方法，其中，所述第一卷积层和所述第二卷积层用于对输入进行一维卷积，所述第一空洞卷积层、所述第二空洞卷积层和所述第三空洞卷积层均包括SE-Res2Block模型，所述第一编解码层和所述第二编解码层均包括Transformer模型。

5.一种说话人识别方法，包括：

对第一语音片段和第二语音片段进行拼接，获得拼接语音片段；

提取所述拼接语音片段的声学特征；

提取所述拼接语音片段的隐藏特征，其中，所述隐藏特征用于指示所述第一语音片段和所述第二语音片段对应的说话内容；

对所述拼接语音片段的声学特征和隐藏特征进行拼接，获得所述拼接语音片段的拼接特征；

将所述拼接语音片段的拼接特征输入声纹识别模型，对所述拼接语音片段进行声纹识别，获得所述拼接语音片段的声纹识别结果；

根据所述拼接语音片段的声纹识别结果，确定说话人识别结果，其中，所述说话人识别结果用于指示所述第一语音片段和所述第二语音片段对应相同说话人的概率。

6.根据权利要求5所述的方法，其中，所述根据所述拼接语音片段的声纹识别结果，确定说话人识别结果，包括：

对所述拼接语音片段的声纹识别结果中所述第一语音片段对应的矩阵和所述第二语音片段对应的矩阵分别进行池化处理，获得分布式特征表示；

通过全连接层将所述分布式特征表示映射为所述说话人识别结果。

7.一种说话人日志生成方法，包括：

提取待处理语音的声学特征；

提取所述待处理语音的隐藏特征，其中，所述隐藏特征用于指示所述待处理语音对应的说话内容；

对所述待处理语音的声学特征和所述隐藏特征进行拼接，获得所述待处理语音的拼接特征；

将所述待处理语音的拼接特征输入声纹识别模型，对所述待处理语音进行声纹识别，获得所述待处理语音的声纹识别结果；

将所述待处理语音的声纹识别结果输入前馈神经网络进行特征提取，获得说话人日志，其中，所述说话人日志用于标识所述待处理语音中按说话人划分的语音片段。

8.一种声纹识别模型的训练方法，包括：

从无标签语音数据集中获取至少两个语音片段；

对所述至少两个语音片段进行拼接，获得第一语音样本；

提取所述第一语音样本的声学特征；

提取所述第一语音样本的隐藏特征，其中，所述隐藏特征用于指示所述第一语音样本中各语音片段对应的说话内容；

对所述第一语音样本的声学特征和隐藏特征进行拼接，获得所述第一语音样本的拼接特征；

将所述第一语音样本的拼接特征输入待训练的声纹识别模型，获得所述声纹识别模型输出的声纹识别结果；

根据所述声纹识别结果，确定所述声纹识别模型的声纹识别损失；

根据所述声纹识别损失调整所述声纹识别模型的参数，直至所述声纹识别损失小于预设的第一损失阈值，停止对所述声纹识别模型进行上述训练。

9.根据权利要求8所述的方法，其中，所述根据所述声纹识别结果，确定所述声纹识别模型的声纹识别损失，包括：

根据所述声纹识别结果，确定所述声纹识别模型对所述第一语音样本中每一帧的识别结果；

根据所述声纹识别模型对所述第一语音样本中每一帧的识别结果，确定帧级对抗损失；

将所述帧级对抗损失确定为所述声纹识别模型的声纹识别损失。

10.根据权利要求8或9所述的方法，其中，所述方法还包括：

对两个语音片段进行拼接，获得第二语音样本；

提取所述第二语音样本的声学特征；

提取所述第二语音样本的隐藏特征，其中，所述隐藏特征用于指示所述第二语音样本中各语音片段对应的说话内容；

对所述第二语音样本的声学特征和隐藏特征进行拼接，获得第二语音样本的拼接特征；

将所述第二语音样本的拼接特征输入训练完成的所述声纹识别模型，获得所述声纹识别模型对所述第二语音样本的声纹识别结果；

通过池化层对所述第二语音样本的声纹识别结果中两个语音片段对应的矩阵分别进行池化处理，获得所述第二语音样本对应的分布式特征表示；

通过全连接层将所述第二语音样本对应的分布式特征表示，映射为所述第二语音样本对应的说话人识别结果；

根据所述第二语音样本对应的说话人识别结果，确定说话人识别损失；

根据所述说话人识别损失调整所述池化层和所述全连接层的参数，或者调整所述声纹识别模型、所述池化层和所述全连接层的参数，直至所述说话人识别损失小于预设的第二损失阈值，停止对所述声纹识别模型、所述池化层和所述全连接层进行上述训练。

11.根据权利要求8或9所述的方法，其中，所述方法还包括：

提取待处理语音的声学特征；

对所述待处理语音的声学特征和隐藏特征进行拼接，获得所述待处理语音的拼接特征；

将所述待处理语音的拼接特征输入训练完成的所述声纹识别模型，获得所述声纹识别模型对所述待处理语音的声纹识别结果；

通过前馈神经网络对所述待处理语音的声纹识别结果进行特征提取，获得所述待处理语音对应的说话人日志；

根据所述待处理语音对应的说话人日志，确定说话人日志损失；

根据所述说话人日志损失调整所述前馈神经网络的参数，或者调整所述声纹识别模型和所述前馈神经网络的参数，直至所述说话人日志损失小于预设的第三损失阈值，停止对所述声纹识别模型和所述前馈神经网络进行上述训练。

12.一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行如权利要求1-11中任一项方法对应的操作。

13.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-11中任一项的方法。

14.一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如权利要求1-11中任一项的方法。