CN105869644A

CN105869644A - 基于深度学习的声纹认证方法和装置

Info

Publication number: CN105869644A
Application number: CN201610353878.2A
Authority: CN
Inventors: 吴本谷; 李超; 关勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-05-25
Filing date: 2016-05-25
Publication date: 2016-08-17
Also published as: US20190130918A1; WO2017201912A1

Abstract

本发明提出一种基于深度学习的声纹认证方法和装置，该基于深度学习的声纹认证方法包括：接收说话人的语音；提取所述语音的d‑vector特征；获取所述说话人在注册阶段确定的d‑vector特征；计算上述两个d‑vector特征之间的匹配值；如果所述匹配值大于或等于阈值，则确定所述说话人通过认证。该方法能够提高声纹认证的效果。

Description

基于深度学习的声纹认证方法和装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种基于深度学习的声纹认证方法和装置。

背景技术

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。声纹认证是指根据说话人发出的语音中的声纹特征，对说话人进行身份认证。

相关技术中，通常基于梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient，MFCC)或感知加权线性预测(Perceptual Linear Predictive，PLP)特征，以及高斯混合模型(Gaussian Mixture Model，GMM)进行声纹认证。相关技术中的声纹认证效果有待提高。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于深度学习的声纹认证方法，该方法可以提高声纹认证的效果。

本发明的另一个目的在于提出一种基于深度学习的声纹认证装置。

为达到上述目的，本发明第一方面实施例提出的基于深度学习的声纹认证方法，包括：接收说话人的语音；提取所述语音的d-vector特征；获取所述说话人在注册阶段确定的d-vector特征；计算上述两个d-vector特征之间的匹配值；如果所述匹配值大于或等于阈值，则确定所述说话人通过认证。

本发明第一方面实施例提出的基于深度学习的声纹认证方法，基于d-vector特征进行声纹认证，由于d-vector特征是通过DNN网络得到的，相对于GMM模型可以得到更有效的声纹特征，因此，可以提高声纹认证的效果。

为达到上述目的，本发明第二方面实施例提出的基于深度学习的声纹认证装置，包括：接收模块，用于接收说话人的语音；第一提取模块，用于提取所述语音的d-vector特征；第一获取模块，用于获取所述说话人在注册阶段确定的d-vector特征；第一计算模块，用于计算上述两个d-vector特征之间的匹配值；认证模块，用于如果所述匹配值大于或等于阈值，则确定所述说话人通过认证。

本发明第二方面实施例提出的基于深度学习的声纹认证装置，基于d-vector特征进行声纹认证，由于d-vector特征是通过DNN网络得到的，相对于GMM模型可以得到更有效的声纹特征，因此，可以提高声纹认证的效果。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例提出的基于深度学习的声纹认证方法的流程示意图；

图2是本发明实施例中采用的DNN的示意图；

图3是本发明实施例中注册阶段的流程示意图；

图4是本发明一个实施例提出的基于深度学习声纹认证装置的结构示意图；

图5是本发明一个实施例提出的基于深度学习声纹认证装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一个实施例提出的基于深度学习的声纹认证方法的流程示意图。

参见图1，本实施例的方法包括：

S11：接收说话人的语音。

其中，认证可以分为文本有关或文本无关，文本有关时，说话人可以根据提示或固定内容发出相应的语音，文本无关时可以不限制的发出语音。

S12：提取所述语音的d-vector特征。

其中，d-vector特征是通过深度神经网络(Deep Neural Network，DNN)提取的一种特征，具体是DNN中最后一层隐层的输出。

DNN的示意图可以参见图2。如图2所示，DNN可以分为输入层21、隐层22和输出层23。

其中，输入层用于接收从语音中提取的输入特征，如大小为41*40的FBANK特征，输出层的节点个数与说话人个数相同，每个节点对应一个说话人。隐层的层数可以设置。DNN可以具体采用全连接方式。

其中，FBANK特征是对数域的Mel滤波器的输出为声学特征，即Filter-bank特征。

如图2所示，在需要提取语音的d-vector特征时，可以先提取该语音的FBANK特征，再将FBANK特征输入到DNN输入层，经过参数已确定(通过模型训练确定)的DNN，可以得到最后一个隐层的输出24，将该输出确定为d-vector特征。从该流程可以看出，在确定语音的d-vector特征时，不需要使用DNN的输出层。而在训练模型时会用到输出层，当然还会用到输入层和隐层等。

S13：获取所述说话人在注册阶段确定的d-vector特征。

其中，在认证阶段，还可以获取说话人的身份标识，而在注册阶段，可以对应保存身份标识和d-vector特征，从而可以根据身份标识获取到注册阶段确定的d-vector特征。

其中，在认证阶段之前可以先进行注册。

参见图3，说话人的注册流程可以包括：

S31：获取所述说话人在注册阶段发出的多条语音。

例如，在注册阶段，每个说话人可以发出多条语音，客户端接收到语音后可以发送给服务端进行处理。

S32：对应每条语音提取d-vector特征，得到多个d-vector特征。

其中，服务端在接收到每条语音后，可以提取该语音的d-vector特征，从而当语音为多条时，d-vector特征也为多个。

服务端在提取语音的d-vector特征时，可以采用图2所示的DNN(具体不使用最后的输出层)进行提取，具体内容可以参见上述相关描述，在此不再详细说明。

S33：将多个d-vector特征求平均，确定为所述说话人在注册阶段确定的d-vector特征。

进一步的，注册流程还可以包括：

S34：获取所述说话人的身份标识。

例如，说话人在注册时可以输入账号等身份标识。

S35：存储所述身份标识和所述注册阶段确定的d-vector特征，并建立身份标识和d-vector之间的对应关系。

例如，说话人的身份标识是ID1，经过上述计算得到的d-vector的均值是d-vector-avg，则可以存储ID1和d-vector-avg，且建立ID1与d-vector-avg的对应关系。

S14：计算上述两个d-vector特征之间的匹配值。

例如，在认证阶段提取出的d-vector特征用d-vector1表示，注册阶段确定的d-vector特征，如上述的均值用d-vector2表示，则可以计算d-vector1与d-vector2之间的匹配值。

由于d-vector1和d-vector2都是向量，因此可以采用向量间匹配度的计算方式，例如，采用余弦距离、线性鉴别分析(Linear Discriminant Analysis，LDA)等。

S15：如果所述匹配值大于或等于阈值，则确定所述说话人通过认证。

另一方面，如果所述匹配值小于阈值，则确定所述说话人未通过认证。

本实施例中，基于d-vector特征进行声纹认证，由于d-vector特征是通过DNN网络得到的，相对于GMM模型可以得到更有效的声纹特征，因此，可以提高声纹认证的效果。

图4是本发明一个实施例提出的基于深度学习的声纹认证装置的结构示意图。

参见图4，本实施例的装置40包括：接收模块401、第一提取模块402、第一获取模块403、第一计算模块404和认证模块405。

接收模块401，用于接收说话人的语音；

第一提取模块402，用于提取所述语音的d-vector特征；

第一获取模块403，用于获取所述说话人在注册阶段确定的d-vector特征；

第一计算模块404，用于计算上述两个d-vector特征之间的匹配值；

认证模块405，用于如果所述匹配值大于或等于阈值，则确定所述说话人通过认证。

一些实施例中，参见图5，该装置40还包括：

第二获取模块406，用于获取所述说话人在注册阶段发出的多条语音；

第二提取模块407，用于对应每条语音提取d-vector特征，得到多个d-vector特征；

第二计算模块408，用于将多个d-vector特征求平均，确定为所述说话人在注册阶段确定的d-vector特征。

一些实施例中，参见图5，该装置40还包括：

第三获取模块409，用于在注册阶段，获取所述说话人的身份标识；

存储模块410，用于存储所述身份标识和所述注册阶段确定的d-vector特征，并建立身份标识和d-vector之间的对应关系。

一些实施例中，所述第一获取模块403具体用于：

接收说话人的语音后，获取所述说话人的身份标识；

根据所述对应关系，获取与所述身份标识对应的d-vector特征。

一些实施例中，所述第一提取模块402具体用于：

提取语音的输入特征；

采用预先确定的DNN和所述输入特征，得到DNN的最后一层隐层的输出，将所述输出确定为所述d-vector特征。

一些实施例中，所述输入特征包括：

FBANK特征。

可以理解的是，本实施例的装置与上述方法实施例对应，具体内容可以参见相关描述，在此不再详细说明。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度学习的声纹认证方法，其特征在于，包括：

接收说话人的语音；

提取所述语音的d-vector特征；

获取所述说话人在注册阶段确定的d-vector特征；

计算上述两个d-vector特征之间的匹配值；

如果所述匹配值大于或等于阈值，则确定所述说话人通过认证。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取所述说话人在注册阶段发出的多条语音；

对应每条语音提取d-vector特征，得到多个d-vector特征；

将多个d-vector特征求平均，确定为所述说话人在注册阶段确定的d-vector特征。

3.根据权利要求2所述的方法，其特征在于，还包括：

在注册阶段，获取所述说话人的身份标识；

存储所述身份标识和所述注册阶段确定的d-vector特征，并建立身份标识和d-vector之间的对应关系。

4.根据权利要求3所述的方法，其特征在于，所述获取所述说话人在注册阶段确定的d-vector特征，包括：

接收说话人的语音后，获取所述说话人的身份标识；

5.根据权利要求1-4任一项所述的方法，其特征在于，提取语音的d-vector特征包括：

提取语音的输入特征；

6.根据权利要求5所述的方法，其特征在于，所述输入特征包括：

FBANK特征。

7.一种基于深度学习的声纹认证装置，其特征在于，包括：

接收模块，用于接收说话人的语音；

第一提取模块，用于提取所述语音的d-vector特征；

第一获取模块，用于获取所述说话人在注册阶段确定的d-vector特征；

第一计算模块，用于计算上述两个d-vector特征之间的匹配值；

认证模块，用于如果所述匹配值大于或等于阈值，则确定所述说话人通过认证。

8.根据权利要求7所述的装置，其特征在于，还包括：

第二获取模块，用于获取所述说话人在注册阶段发出的多条语音；

第二提取模块，用于对应每条语音提取d-vector特征，得到多个d-vector特征；

第二计算模块，用于将多个d-vector特征求平均，确定为所述说话人在注册阶段确定的d-vector特征。

9.根据权利要求8所述的装置，其特征在于，还包括：

第三获取模块，用于在注册阶段，获取所述说话人的身份标识；

存储模块，用于存储所述身份标识和所述注册阶段确定的d-vector特征，并建立身份标识和d-vector之间的对应关系。

10.根据权利要求9所述的装置，其特征在于，所述第一获取模块具体用于：

接收说话人的语音后，获取所述说话人的身份标识；

11.根据权利要求7-10任一项所述的装置，其特征在于，所述第一提取模块具体用于：

提取语音的输入特征；

12.根据权利要求11所述的装置，其特征在于，所述输入特征包括：

FBANK特征。