CN115565537B

CN115565537B - 声纹识别方法及电子设备

Info

Publication number: CN115565537B
Application number: CN202211062369.6A
Authority: CN
Inventors: 王耀光; 夏日升
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2024-03-15
Anticipated expiration: 2042-09-01
Also published as: CN115565537A

Abstract

本申请提供了一种声纹识别方法及电子设备。该方法包括：目标语音进行特征提取，生成第一目标语谱图，以及对注册语音进行特征提取，生成第二目标语谱图；根据第一目标语谱图生成目标掩码，将目标掩码作用到第二目标语谱图上，得到第三目标语谱图；从第一目标语谱图提取出第一声纹矢量，从第三目标语谱图提取出第二声纹矢量；确定第一声纹矢量与第二声纹矢量之间的相似度；如果相似度大于或等于预设的相似度阈值，确定目标语音属于注册语音对应的用户。这样，将口罩对语音的掩蔽作用等效为一个作用在语音上的掩码，该掩码能够灵活准确地模拟口罩对不同频率的声音的抑制作用，从而可以更准确地识别用户在戴口罩的情况下发出的语音，提高声纹召回率。

Description

声纹识别方法及电子设备

技术领域

本申请涉及终端设备领域，尤其涉及一种声纹识别方法及电子设备。

背景技术

语音助手APP是电子设备上一种基于用户语音的应用。在使用语音助手之前，用户需要用语音唤醒语音助手APP。

电子设备中会预先注册用户的语音。这样，当有用户通过语音来试图唤醒语音助手APP时，电子设备会根据唤醒语音和已注册语音判断唤醒人是否是用户本人，是用户本人的情况下才允许唤醒。

在用户佩戴口罩的情况下，口罩会对用户语音造成一定的抑制，用户在戴口罩的情况下发出的唤醒语音和已注册语音的区别较大，导致电子设备可能无法识别出是用户本人的声音，声纹召回率降低，影响用户的使用体验。

发明内容

为了解决上述技术问题，本申请提供一种声纹识别方法及电子设备，提高声纹召回率，提升用户的使用体验。

第一方面，本申请提供一种声纹识别方法。该方法应用于电子设备。该方法包括：目标语音进行特征提取，生成第一目标语谱图，以及对注册语音进行特征提取，生成第二目标语谱图；根据第一目标语谱图生成目标掩码，将目标掩码作用到第二目标语谱图上，得到第三目标语谱图；从第一目标语谱图提取出第一声纹矢量，从第三目标语谱图提取出第二声纹矢量；确定第一声纹矢量与第二声纹矢量之间的相似度；如果相似度大于或等于预设的相似度阈值，确定目标语音属于注册语音对应的用户。这样，将口罩对语音的掩蔽作用等效为一个作用在语音上的掩码，该掩码能够灵活准确地模拟口罩对不同频率的声音的抑制作用，从而可以更准确地识别用户在戴口罩的情况下发出的语音，提高声纹召回率。

将本申请实施例的声纹识别方法应用于对语音助手的唤醒语音的识别场景中，由于声纹召回率高，能够更加准确地识别出用户戴口罩时发出的唤醒语音，从而能够有效唤醒语音助手APP，减少误识别的情况，提升用户的使用体验。

根据第一方面，从第一目标语谱图提取出第一声纹矢量，从第三目标语谱图提取出第二声纹矢量，包括：将第一目标语谱图输入声纹矢量提取模型，由声纹矢量提取模型输出第一目标语谱图对应的第一声纹矢量；将第三目标语谱图输入声纹矢量提取模型，由声纹矢量提取模型输出第三目标语谱图对应的第二声纹矢量。这样，可以利用已经训练好的声纹矢量提取模型，准确、快速地提取出声纹矢量。

根据第一方面，声纹矢量提取模型为时间延迟网络TDNN模型或Resnet34模型。

根据第一方面，根据第一目标语谱图生成目标掩码，包括：将目标语音输入已训练好的口罩特征提取器，由口罩特征提取器输出目标语音对应的目标特征；将目标特征和第一目标语谱图输入已训练好的掩码生成模型，由掩码生成模型输出目标掩码。

根据第一方面，掩码生成模型的生成方法包括：构建第一网络模型，并设置第一网络模型的初始参数值；采集若干组第一样本数据，每组第一样本数据包括人工头在戴口罩情况下发出的第一语音，以及与第一语音对应的第二语音，第二语音为人工头在不戴口罩情况下发出的语音；利用第一样本数据对第一网络模型进行训练，得到训练完毕的第一网络模型，以训练完毕的第一网络模型作为掩码生成模型。

根据第一方面，利用第一样本数据对第一网络模型进行训练，得到训练完毕的第一网络模型，包括：在训练过程中，第1组第一样本数据对应的第一网络模型中的参数值为设置的初始参数值，第j组第一样本数据对应的第一网络模型为经第j-1组第一样本数据训练后得到的第一网络模型，j为自然数，且j≥2；对于每组第一样本数据，执行如下操作：对本组第一样本数据中的第一语音进行特征提取，生成第一语谱图，以及对本组第一样本数据中的第二语音进行特征提取，生成第二语谱图；确定本组第一样本数据中的第一语音对应的第一特征，第一特征用于表征第一语音对应的口罩类型；将第一特征和第一语谱图输入本组第一样本数据对应的第一网络模型，获得第一网络模型输出的第一掩码；将第一掩码作用到第二语谱图上，得到第三语谱图；对第三语谱图与第一语谱图的进行逐时频点差值，得到第一均方误差；以第一均方误差作为损失函数的值进行反向传播训练第一网络模型，调整第一网络模型的参数值，使得第二均方误差小于第一均方误差；其中，第二均方误差是对第四语谱图与该组第一样本数据中的第一语谱图进行逐时频点差值得到的，第四语谱图是调整后的第一网络模型输出的第二掩码作用到本组第一样本数据中的第二语谱图上得到的；判断是否满足收敛条件，如果满足，停止训练，否则执行下一组第一样本数据的训练。

根据第一方面，确定本组第一样本数据中的第一语音对应的第一特征，包括：将本组第一样本数据中的第一语音输入口罩特征提取器，由口罩特征提取器输出第一语音对应的第一特征。

根据第一方面，口罩特征提取器的生成方法包括：构建深度学习网络模型，深度学习网络模型包括顺次相连的特征提取模块、网络层、嵌入层和分类层，并设置初始参数值，分类层包括N+1个输出概率值，N+1个输出概率值与N+1种口罩类型一一对应；获得若干组第二样本数据，每组第二样本数据包括第一语音，以及第一语音对应的标签概率向量，标签概率向量中的元素与N+1种口罩类型一一对应，元素值为第一语音对应相应口罩类型的概率值，标签概率向量中第一语音对应的标签口罩类型对应的概率值为1，其余口罩类型对应的概率值为0；第一语音是人工头在戴口罩情况下发出的语音，或者第一语音是人工头在不戴口罩情况下发出的语音；利用第二样本数据对深度学习网络模型进行训练，得到训练完毕的深度学习网络模型，以训练完毕的深度学习网络模型作为口罩识别模型；从口罩识别模型中删除分类层，得到口罩特征提取器。

根据第一方面，深度学习网络模型还包括频谱遮掩增强层，频谱遮掩增强层位于特征提取模块和网络层之间。

根据第一方面，利用第二样本数据对深度学习网络模型进行训练，得到训练完毕的深度学习网络模型，包括：在训练过程中，第1组第二样本数据对应的深度学习网络模型中的参数值为设置的初始参数值，第j组第二样本数据对应的深度学习网络模型为经第j-1组第二样本数据训练后得到的深度学习网络模型，j为自然数，且j≥2；对于每组第二样本数据，执行如下操作：将本组第二样本数据中的第一语音输入本组第二样本数据对应的深度学习网络模型，获得深度学习网络模型输出的第一概率向量，第一概率向量中的元素值等于本组第二样本数据中的第一语音对应相应口罩类型的概率值；根据第一概率向量和本组第二样本数据中的标签概率向量，确定交叉熵损失函数的函数值；根据函数值反向传播训练深度学习网络模型，调整深度学习网络模型的参数值，得到经本组第二样本数据训练后得到的深度学习网络模型；判断是否满足收敛条件，如果满足，停止训练，将本次调整后的深度学习网络模型作为训练好的深度学习网络模型；如果不满足，继续下一组第二样本数据的训练。

第二方面，本申请提供一种电子设备，包括：存储器和处理器，存储器与处理器耦合；存储器存储有程序指令，当程序指令由所述处理器执行时，使得电子设备执行第一方面任意一项所述的声纹识别方法。

第三方面，本申请提供一种计算机可读存储介质，包括计算机程序，当计算机程序在电子设备上运行时，使得电子设备执行前述的第一方面任意一项所述的声纹识别方法。

附图说明

图1为示例性示出的电子设备100的结构示意图；

图2为示例性示出的本申请实施例的电子设备100的软件结构框图；

图3为示例性示出的口罩识别模型的一种结构示例图；

图4为示例性示出的口罩识别模型的另一种结构示例图；

图5为示例性示出的掩码生成模型的训练原理示意图；

图6为示例性示出的声纹识别过程的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一目标对象和第二目标对象等是用于区别不同的目标对象，而不是用于描述目标对象的特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，除非另有说明，“多个”的含义是指两个或两个以上。例如，多个处理单元是指两个或两个以上的处理单元；多个系统是指两个或两个以上的系统。

本申请实施例中，口罩泛指一切能够对用户的口部造成遮挡的物体，例如围巾、医用口罩、头盔、橡胶面罩等都属于本申请实施例中的口罩。

相关技术中，将口罩当作低通滤波器。即将用户在佩戴口罩情况下发出的语音，看做是用户未佩戴口罩情况下发出的正常语音经过低通滤波器后得到的语音。

但是，研究表明，口罩的作用更接近带通滤波器，并且不同类型的口罩对不同的频段有衰减效果，衰减程度也不同，而且高频成分包含的一定的声纹信息，相关技术将高频部分直接掩蔽掉可能会造成声纹信息的丢失，从而降低声纹召回率。

本申请实施例提供一种声纹识别方法，提高声纹召回率，提升用户的使用体验。

本申请实施例中的声纹识别方法可以应用于电子设备，例如智能手机、平板等电子设备。该电子设备的结构可以如图1所示。

图1为示例性示出的电子设备100的结构示意图。应该理解的是，图1所示电子设备100仅是电子设备的一个范例，并且电子设备100可以具有比图中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图1中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

请参见图1，电子设备100可以包括：处理器110，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，指示器192，摄像头193等。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

其中，麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

本申请实施例中，可以通过麦克风170C来采集用户的语音。

其中，电子设备100的软件系统可以采用分层架构、事件驱动架构、微核架构、微服务架构，或云架构。本申请实施例以分层架构的安卓(Android)系统为例，示例性说明电子设备100的软件结构。

图2为示例性示出的本申请实施例的电子设备100的软件结构框图。

电子设备100的分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，Android系统可以包括应用程序层、应用程序框架层、系统层以及内核层等。

应用程序层可以包括一系列应用程序包。

如图2所示，电子设备100的应用程序层的应用程序包可以包括语音助手应用，即前述的语音助手APP。

如图2所示，电子设备100的应用程序层的应用程序包还可以包括相机、图库、通话、WLAN(Wireless Local Area Networks，无线局域网络)、蓝牙、视频等应用程序。

如图2所示，应用程序框架层可以包括资源管理器、声纹识别模块等应用程序。

其中，资源管理器为应用程序提供各种资源。

声纹识别模块用于执行本申请实施例中的声纹识别方法。

如图2所示，系统库可以包括多个功能模块。例如：安卓运行时等。

在本申请其他实施例中，系统库还可以包括表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等功能模块。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。

如图2所示，内核层可以包括显示驱动、Wi-Fi驱动、蓝牙驱动、音频驱动、传感器驱动等。

可以理解的是，图2示出的软件结构中的层以及各层中包含的部件，并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的层，以及每个层中可以包括更多或更少的部件，本申请不做限定。

下面通过实施例，对本申请进行详细说明。

图3为示例性示出的口罩识别模型的一种结构示例图。请参见图3，本实施例中，口罩识别模型包括顺次相连的特征提取模块、网络层、嵌入层和分类层。

其中，特征提取模块用于提取输入语音的初步特征信息，并输出该初步特征信息给网络层。例如，该特征信息可以是输入语音的MFCC(Mel Frequency CepstrumCoefficient，Mel频率倒谱系数)。

网络层用于根据输入到网络层的语音的初步特征信息，提取语音的深层特征，即嵌入特征(embedding)，并将嵌入特征传输给嵌入层。

嵌入层用于对网络层得到的嵌入特征进行输出。该嵌入特征用于表征输入语音对应的口罩作用在用户语音上的特征。

其中，输入语音对应的口罩是指用户在发出输入语音时所戴的口罩。

分类层的输入信息为嵌入层输出的嵌入特征。分类层用于根据输入语音对应的嵌入特征确定口罩类型。该口罩类型即用户在发出输入语音时所戴的口罩的类型。

图4为示例性示出的口罩识别模型的另一种结构示例图。请参见图4，本实施例中，口罩识别模型包括顺次相连的特征提取模块、频谱遮掩增强层、网络层、嵌入层和分类层。与图3所示实施例相比，本实施例中，频谱遮掩增强层位于特征提取模块和网络层之间。

其中，特征提取模块、网络层、嵌入层和分类层的作用与图3所示实施例相同，此处不再赘述。

频谱遮掩增强层用于模拟时频域掩蔽作用，可以在一定程度上模拟频带掩蔽。通过增加频谱遮掩增强层，可以提高口罩识别模型的鲁棒性。

在一个示例中，口罩识别模型的生成方法可以包括：

构建深度学习网络模型，并设置初始参数值，其中，该深度学习网络模型的结构可以如图3或图4所示，其中，深度学习网络模型的分类层包括N+1个输出概率值，N+1个输出概率值与N+1种口罩类型一一对应；

获得若干组样本数据A，每组样本数据A包括第一语音，以及第一语音对应的标签概率向量；其中，第一语音是人工头在戴口罩情况下发出的语音，或者第一语音是人工头在不戴口罩情况下发出的语音；标签概率向量中的元素与N+1种口罩类型一一对应，元素值为第一语音对应相应口罩类型的概率值，标签概率向量中第一语音对应的标签口罩类型对应的概率值为1，其余口罩类型对应的概率值为0；

利用样本数据A对深度学习网络模型进行训练，得到训练完毕的深度学习网络模型，以训练完毕的深度学习网络模型作为口罩识别模型。

从口罩识别模型中删除分类层，得到口罩特征提取器。

其中，嵌入层用于输出嵌入特征。

在一个示例中，深度学习网络模型可以为神经网络模型。

在一个示例中，可以根据口罩的材质、厚度、松紧等将口罩分为不同类型，例如口罩类型可以包括围巾、医用口罩、头盔、橡胶面罩等。假设共有N种口罩类型，N为自然数。那么，用于训练口罩识别模型的深度学习网络模型的分类层的输出节点为N+1个，其中一个输出节点表示没有戴口罩的概率(可以将没有戴口罩看作一种特殊的口罩类型)，另外N个输出节点表示戴口罩且所戴口罩为该节点对应的口罩类型的概率。

其中，标签口罩类型是指第一语音对应的实际口罩类型。例如，假设第一语音是人工头戴头盔的情况下发出的语音，那么第一语音对应的标签口罩类型为头盔。

这里对标签概率向量进行举例说明。假设N+1＝5，口罩类型分别为：围巾、医用口罩、头盔、橡胶面罩、不戴口罩，对应的标签概率向量为：[第一语音对应围巾的概率值，第一语音对应医用口罩的概率值，第一语音对应头盔的概率值，第一语音对应橡胶面罩的概率值，第一语音对应不戴口罩的概率值]。如果第一语音是人工头在戴头盔的情况下发出的，那么对应的标签概率向量＝[0，0，1，0，0]。

在一个示例中，利用样本数据A对深度学习网络模型进行训练的过程可以包括：

在训练过程中，第1组样本数据A对应的深度学习网络模型中的参数值为设置的初始参数值，第j组样本数据A对应的深度学习网络模型为经第j-1组样本数据A训练后得到的深度学习网络模型，j为自然数，且j≥2；对于每组样本数据A，执行如下操作：

将本组样本数据A中的第一语音输入本组样本数据A对应的深度学习网络模型，获得深度学习网络模型输出的第一概率向量，第一概率向量中的元素值等于本组第二样本数据中的第一语音对应相应口罩类型的概率值；

根据第一概率向量和本组第二样本数据中的标签概率向量，确定交叉熵损失函数的函数值；

根据函数值反向传播训练深度学习网络模型，调整深度学习网络模型的参数值，得到经本组第二样本数据训练后得到的深度学习网络模型；

判断是否满足收敛条件，如果满足，停止训练，将本次调整后的深度学习网络模型作为训练好的深度学习网络模型；如果不满足，继续下一组样本数据A的训练。

其中，在一个示例中，收敛条件可以是：训练次数达到预设次数。

在已经训练好口罩识别模型的基础上，本申请实施例进一步训练掩码生成模型。掩码生成模型用于根据输入的语谱图和嵌入特征，生成掩码。

在一个示例中，掩码生成模型的生成方法可以包括：

构建第一网络模型，并设置第一网络模型的初始参数值；

采集若干组样本数据B，每组样本数据B包括人工头在戴口罩情况下发出的第一语音，以及与第一语音对应的第二语音，第二语音为所述人工头在不戴口罩情况下发出的语音；

利用样本数据B对第一网络模型进行训练，得到训练完毕的第一网络模型，以训练完毕的第一网络模型作为掩码生成模型。

在一个示例中，利用样本数据B对第一网络模型进行训练，得到训练完毕的第一网络模型，以训练完毕的第一网络模型作为掩码生成模型，可以包括：

在训练过程中，第1组样本数据B对应的第一网络模型中的参数值为设置的初始参数值，第j组样本数据B对应的第一网络模型为经第j-1组样本数据B训练后得到的第一网络模型，j为自然数，且j≥2；对于每组样本数据B，执行如下操作：

对本组样本数据B中的第一语音进行特征提取，生成第一语谱图，以及对本组样本数据B中的第二语音进行特征提取，生成第二语谱图；

确定本组样本数据B中的第一语音对应的第一特征，第一特征用于表征第一语音对应的口罩类型；

将第一特征和第一语谱图输入本组样本数据B对应的第一网络模型，获得第一网络模型输出的第一掩码；

将第一掩码作用到第二语谱图上，得到第三语谱图；

对第三语谱图与第一语谱图进行逐时频点差值，得到第一均方误差；

以第一均方误差作为损失函数的值进行反向传播训练第一网络模型，调整第一网络模型的参数值，使得第二均方误差小于第一均方误差；

其中，第二均方误差是对第四语谱图与该组样本数据B中的第一语谱图进行逐时频点差值得到的，第四语谱图是调整后的第一网络模型输出的第二掩码作用到本组样本数据B中的第二语谱图上得到的；

判断是否满足收敛条件，如果满足，停止训练，否则执行下一组第一样本数据的训练。此处的收敛条件例如可以是第二均方误差小于预设的均方误差阈值。

下面结合图5，对上述掩码生成模型的训练过程进行说明。

图5为示例性示出的掩码生成模型的训练原理示意图。如图5所示，假设(语音1，语音2)是样本数据B中的一组样本数据，语音1是人工头在戴口罩情况下发出的语音，语音2是人工头在不戴口罩情况下发出的相应的语音。例如，人工头在戴口罩情况下发出的语音“开启语音助手”为语音1，人工头在不戴口罩情况下发出的语音“开启语音助手”为语音2。

该组样本数据B(语音1，语音2)对应的第一网络模型为网络模型1。如果(语音1，语音2)是训练过程中的第一组训练数据，那么网络模型1的参数值就是设置的第一网络模型的初始参数值。如果(语音1，语音2)是训练过程中的第二组及第二组以后的训练数据，那么网络模型1的参数值就是上一组训练数据训练之后的第一网络模型的参数值。

请参见图5，样本数据B(语音1，语音2)的训练过程如下：

利用特征提取模块对语音1进行特征提取，生成语谱图1，以及对语音2进行特征提取，生成语谱图2；

将语音1输入前述已训练好的口罩特征提取器，由口罩特征提取器输出语音1对应的嵌入特征1，嵌入特征1用于表征语音1对应的口罩类型；

将嵌入特征1和语谱图1输入网络模型1(对应训练过程中的图5中的掩码生成模型)，网络模型1输出掩码1；其中，口罩特征提取器输出的嵌入特征作为掩码生成模型的先验信息；

将掩码1作用到语谱图2上，得到语谱图3；

对语谱图1和语谱图3进行逐时频点差值，得到均方误差1；

以均方误差1作为损失函数的值进行反向传播训练网络模型1，调整网络模型1的参数值，得到网络模型2，使得均方误差2小于均方误差1；

网络模型2是对网络模型1进行参数调整后的新的第一网络模型；其中，均方误差2的获取方式如下：

将嵌入特征1和语谱图1输入网络模型2(对应图5中的掩码生成模型)，网络模型2输出掩码2；

将掩码2作用到语谱图2上，得到语谱图4；

对语谱图1和语谱图4进行逐时频点差值，得到均方误差2。

然后，将网络模型2作为本组样本数据B(语音1，语音2)训练后得到的第一网络模型，执行下一组样本数据B的训练。如此训练直至满足收敛条件，停止训练。如果不满足收敛条件，则继续执行下一组样本数据B的训练。

下一组样本数据B的训练过程请参见本组样本数据B(语音1，语音2)的训练过程，此处不再赘述。

在已经获得口罩特征提取器和掩码生成模型的基础上，本申请实施例利用该两个模型进行声纹识别。

图6为示例性示出的声纹识别过程的示意图。如图6所示，本申请实施例中，声纹识别过程可以包括如下步骤：

对目标语音Y进行特征提取，生成语谱图Y1，以及对注册语音X进行特征提取，生成语谱图X1；其中，目标语音Y是用户戴口罩情况下发出的语音，注册语音X是用户不戴口罩情况下发出的语音；

将目标语音Y输入已训练好的口罩特征提取器，由口罩特征提取器输出目标语音Y对应的目标特征；

将目标特征和语谱图Y1输入已训练好的掩码生成模型，由掩码生成模型输出目标掩码；

将目标掩码作用到语谱图X1，得到语谱图X2；

利用声纹矢量提取模块从语谱图Y1提取出声纹矢量1，从语谱图X2提取出声纹矢量2；

确定声纹矢量1与声纹矢量2之间的相似度；

如果该相似度大于或等于预设的相似度阈值，确定目标语音Y属于注册语音X对应的用户，也即发出目标语音Y的用户与发出注册语音X的用户是同一人。

如果该相似度小于预设的相似度阈值，确定目标语音Y不属于注册语音X对应的用户，也即发出目标语音Y的用户与发出注册语音X的用户不是同一人。

其中，从语谱图提取出声纹矢量的方式可以包括：

将语谱图输入声纹矢量提取模型，由声纹矢量提取模型输出语谱图对应的声纹矢量。

声纹矢量提取模型能够根据输入的语谱图输出表征说话人信息的深层嵌入式特征，即声纹矢量。

需要说明的是，以上流程适用于目标语音Y为用户戴口罩时发出的语音的场景，如果目标语音Y为用户不戴口罩时发出的语音，可以按照如下流程进行声纹识别：

将目标语音Y输入已训练好的口罩特征提取器，由口罩特征提取器输出目标语音Y对应的目标特征；目标特征指示目标语音Y为用户不戴口罩时发出的语音；

利用声纹矢量提取模块从语谱图Y1提取出声纹矢量1，从语谱图X1提取出声纹矢量3；

确定声纹矢量1与声纹矢量3之间的相似度；

由上可见，本申请实施例的声纹识别方法，将口罩对语音的掩蔽作用等效为一个作用在语音上的掩码，该掩码不同于传统的滤波器只能对一段连续的频段进行抑制，而是能够灵活地模拟口罩对不同频率的声音的抑制作用(被抑制的频率可以是不连续的)，从而可以更准确地识别用户在戴口罩的情况下发出的语音，提高声纹召回率。

将本申请实施例的声纹识别方法应用于对语音助手的唤醒语音的识别场景中，由于声纹召回率高，能够更加准确地识别出用户戴口罩时发出的唤醒语音，从而有效唤醒语音助手APP，减少了误识别的情况，提升了用户的使用体验。

本申请实施例还提供一种电子设备，该电子设备包括存储器和处理器，存储器与处理器耦合，存储器存储有程序指令，当程序指令由所述处理器执行时，使得电子设备前述电子设备所执行的声纹识别方法。

可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本实施例还提供一种计算机存储介质，该计算机存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的声纹识别方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的声纹识别方法。

另外，本申请实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的声纹识别方法。

其中，本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本申请各个实施例的任意内容，以及同一实施例的任意内容，均可以自由组合。对上述内容的任意组合均在本申请的范围之内。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

结合本申请实施例公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read Only Memory，ROM)、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

Claims

1.一种声纹识别方法，其特征在于，应用于电子设备，包括：

对目标语音进行特征提取，生成第一目标语谱图，以及对注册语音进行特征提取，生成第二目标语谱图；

根据所述第一目标语谱图生成目标掩码，将所述目标掩码作用到所述第二目标语谱图上，得到第三目标语谱图；

从所述第一目标语谱图提取出第一声纹矢量，从所述第三目标语谱图提取出第二声纹矢量；

确定所述第一声纹矢量与所述第二声纹矢量之间的相似度；

如果所述相似度大于或等于预设的相似度阈值，确定所述目标语音属于所述注册语音对应的用户；

其中，所述目标掩码是将所述目标语音对应的表征口罩类型的目标特征和所述第一目标语谱图输入已训练好的掩码生成模型，由所述掩码生成模型输出的；

所述掩码生成模型是利用第一样本数据对构建的第一网络模型进行训练得到的，每组所述第一样本数据包括同一发声体在戴口罩情况下发出的第一语音以及在不戴口罩情况下发出的第二语音，对每组第一样本数据的训练操作如下：

对本组第一样本数据中的第一语音进行特征提取，生成第一语谱图，以及对本组第一样本数据中的第二语音进行特征提取，生成第二语谱图；

确定本组第一样本数据中的第一语音对应的第一特征，所述第一特征用于表征所述第一语音对应的口罩类型；

将所述第一特征和所述第一语谱图输入本组第一样本数据对应的第一网络模型，获得第一网络模型输出的第一掩码；

将所述第一掩码作用到所述第二语谱图上，得到第三语谱图；

对所述第三语谱图与所述第一语谱图的进行逐时频点差值，得到第一均方误差；

以所述第一均方误差作为损失函数的值进行反向传播训练第一网络模型，调整第一网络模型的参数值，使得第二均方误差小于所述第一均方误差；其中，第二均方误差是对第四语谱图与该组第一样本数据中的第一语谱图进行逐时频点差值得到的，所述第四语谱图是调整后的第一网络模型输出的第二掩码作用到本组第一样本数据中的第二语谱图上得到的；

判断是否满足收敛条件，如果满足，停止训练，否则执行下一组第一样本数据的训练。

2.根据权利要求1所述的方法，其特征在于，从所述第一目标语谱图提取出第一声纹矢量，从所述第三目标语谱图提取出第二声纹矢量，包括：

将所述第一目标语谱图输入声纹矢量提取模型，由所述声纹矢量提取模型输出所述第一目标语谱图对应的第一声纹矢量；

将所述第三目标语谱图输入声纹矢量提取模型，由所述声纹矢量提取模型输出所述第三目标语谱图对应的第二声纹矢量。

3.根据权利要求2所述的方法，其特征在于，所述声纹矢量提取模型为时间延迟网络TDNN模型或Resnet34模型。

4.根据权利要求1所述的方法，其特征在于，确定本组第一样本数据中的第一语音对应的第一特征，包括：

将本组第一样本数据中的第一语音输入口罩特征提取器，由口罩特征提取器输出所述第一语音对应的第一特征。

5.根据权利要求4所述的方法，其特征在于，所述口罩特征提取器的生成方法包括：

构建深度学习网络模型，所述深度学习网络模型包括顺次相连的特征提取模块、网络层、嵌入层和分类层，并设置初始参数值，所述分类层包括N+1个输出概率值，所述N+1个输出概率值与N+1种口罩类型一一对应；

获得若干组第二样本数据，每组所述第二样本数据包括所述第一语音，以及所述第一语音对应的标签概率向量，所述标签概率向量中的元素与所述N+1种口罩类型一一对应，元素值为第一语音对应相应口罩类型的概率值，所述标签概率向量中所述第一语音对应的标签口罩类型对应的概率值为1，其余口罩类型对应的概率值为0；所述第一语音是人工头在戴口罩情况下发出的语音，或者所述第一语音是人工头在不戴口罩情况下发出的语音；

利用所述第二样本数据对所述深度学习网络模型进行训练，得到训练完毕的深度学习网络模型，以所述训练完毕的深度学习网络模型作为口罩识别模型；

从所述口罩识别模型中删除分类层，得到口罩特征提取器。

6.根据权利要求5所述的方法，其特征在于，所述深度学习网络模型还包括频谱遮掩增强层，所述频谱遮掩增强层位于所述特征提取模块和所述网络层之间。

7.根据权利要求5所述的方法，其特征在于，利用所述第二样本数据对所述深度学习网络模型进行训练，得到训练完毕的深度学习网络模型，包括：

在训练过程中，第1组第二样本数据对应的深度学习网络模型中的参数值为设置的初始参数值，第j组第二样本数据对应的深度学习网络模型为经第j-1组第二样本数据训练后得到的深度学习网络模型，j为自然数，且j≥2；对于每组第二样本数据，执行如下操作：

将本组第二样本数据中的第一语音输入本组第二样本数据对应的深度学习网络模型，获得深度学习网络模型输出的第一概率向量，所述第一概率向量中的元素值等于本组第二样本数据中的第一语音对应相应口罩类型的概率值；

根据所述第一概率向量和本组第二样本数据中的标签概率向量，确定交叉熵损失函数的函数值；

根据所述函数值反向传播训练深度学习网络模型，调整深度学习网络模型的参数值，得到经本组第二样本数据训练后得到的深度学习网络模型；

判断是否满足收敛条件，如果满足，停止训练，将本次调整后的深度学习网络模型作为训练好的深度学习网络模型；如果不满足，继续下一组第二样本数据的训练。

8.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器与所述处理器耦合；

所述存储器存储有程序指令，当所述程序指令由所述处理器执行时，使得所述电子设备执行权利要求1-7中任意一项所述的声纹识别方法。

9.一种计算机可读存储介质，包括计算机程序，其特征在于，当所述计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1-7中任意一项所述的声纹识别方法。