CN105933323B

CN105933323B - 声纹注册、认证方法及装置

Info

Publication number: CN105933323B
Application number: CN201610384014.7A
Authority: CN
Inventors: 李超; 吴本谷
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-06-01
Filing date: 2016-06-01
Publication date: 2019-05-31
Anticipated expiration: 2036-06-01
Also published as: US20190122669A1; WO2017206375A1; CN105933323A; US11348590B2

Abstract

本发明公开了一种声纹注册、认证方法及装置，其中注册方法包括：对用户语音输入的注册字符串进行帧对齐，提取每个字符的声学特征；将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计；通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征；将所有字符的矢量特征进行顺序拼接，获取用户的注册声纹模型。通过该发明实施例，分别对注册字符串中的各字符进行特征处理，提高声纹注册模型的准确性。

Description

声纹注册、认证方法及装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种声纹注册、认证方法及装置。

背景技术

目前，通过声纹作为密码以进行登录验证网站登录系统越来越多，具体地，注册时系统会提示一定长度的字符串，用户需要朗诵字符串若干遍来完成注册；登陆的时候，系统会提示系统的字符串，用户朗诵一遍，如果声纹验证一致，则认为是用户本人，予以通过，否则不通过。

然而，在注册声纹模型建立的时候，如果用户使用过程中有大量的噪声或者停顿，会影响声纹注册模型的准确性，声纹系统的性能将下降明显。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种声纹注册方法，该方法分别对注册字符串中的各字符进行特征处理，提高声纹注册模型的准确性。

本发明的第二个目的在于提出了一种声纹认证方法。

本发明的第三个目的在于提出了一种声纹注册装置。

本发明的第四个目的在于提出了一种声纹认证装置。

为达上述目的，根据本发明第一方面实施例提出的一种声纹注册方法，包括以下步骤：对用户语音输入的注册字符串进行帧对齐，提取每个字符的声学特征；将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW(Baum-Welch)统计；通过预设的多个字符的矢量特征(identity-vector，i-vector)提取器分别提取每个字符的矢量特征；将所有字符的矢量特征进行顺序拼接，获取所述用户的注册声纹模型。

本发明实施例的声纹注册方法，首先提取每个字符的声学特征，接着将每个字符的声学特征进行BW统计，再通过预设每个字符的矢量特征提取器提取每个字符的矢量特征后将所有字符的矢量特征进行顺序拼接，获取用户的注册声纹模型。该方法分别对注册字符串中的各字符进行特征处理，提高声纹注册模型的准确性。

为达上述目的，根据本发明的第二方面实施例提出的一种声纹认证方法,包括：对用户语音输入的认证字符串进行帧对齐，提取每个字符的声学特征；将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计；通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征；将所有字符的矢量特征进行顺序拼接，获取所述用户的认证声纹模型；将预存的所述用户的注册声纹模型与所述认证声纹模型进行匹配，根据匹配结果确定所述用户是否合法。

本发明实施例的声纹认证方法，首先提取每个字符的声学特征，接着将每个字符的声学特征进行BW统计，再通过预设每个字符的矢量特征提取器提取每个字符的矢量特征后将所有字符的矢量特征进行顺序拼接，获取用户的认证声纹模型，进而与注册声纹模型匹配确定用户是否合法。该方法提高了系统性能进而减少声纹认证的时间，进一步提高用户使用声纹登录服务的体验。

为达上述目的，根据本发明的第三方面实施例提出的声纹注册装置，包括：

第一处理模块，用于对用户语音输入的注册字符串进行帧对齐，提取每个字符的声学特征；第一统计模块，用于将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计；第一提取模块，用于通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征；第一获取模块，用于将所有字符的矢量特征进行顺序拼接，获取所述用户的注册声纹模型。

本发明实施例的声纹注册装置，首先第一处理模块提取每个字符的声学特征，接着第一统计模块将每个字符的声学特征进行BW统计，第一提取模块再通过预设每个字符的矢量特征提取器提取每个字符的矢量特征后，第一获取模块将所有字符的矢量特征进行顺序拼接，获取用户的注册声纹模型。该装置分别对注册字符串中的各字符进行特征处理，提高声纹注册模型的准确性。

为达上述目的，根据本发明的第四方面实施例提出的声纹认证装置，包括：第四处理模块，用于对用户语音输入的认证字符串进行帧对齐，提取每个字符的声学特征；第二统计模块，用于将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计；第二提取模块，用于通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征；第二获取模块，用于将所有字符的矢量特征进行顺序拼接，获取所述用户的认证声纹模型；确定模块，用于将预存的所述用户的注册声纹模型与所述认证声纹模型进行匹配，根据匹配结果确定所述用户是否合法。

本发明实施例的声纹认证装置，首先第四处理模块提取每个字符的声学特征，接着第二统计模块将每个字符的声学特征进行BW统计，第二提取模块再通过预设每个字符的矢量特征提取器提取每个字符的矢量特征后，第二获取模块将所有字符的矢量特征进行顺序拼接，获取用户的认证声纹模型，进而确定模块将认证声纹模型与注册声纹模型匹配确定用户是否合法。该装置提高了系统性能进而减少声纹认证的时间，进一步提高用户使用声纹登录服务的体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的声纹注册方法的流程图；

图2是根据本发明一个实施例的离线训练阶段的流程图；

图3是根据本发明一个具体实施例的声纹注册方法的流程图；

图4是根据本发明一个实施例的声纹认证方法的流程图；

图5是根据本发明一个实施例的声纹注册装置的结构示意图；

图6是根据本发明一个实施例的离线训练阶段的结构示意图；以及

图7根据本发明一个实施例的声纹认证装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的声纹注册、认证方法及装置。

图1是根据本发明一个实施例的声纹注册方法的流程图。

如图1所示，本发明实施例的声纹注册方法包括以下步骤：

步骤101，对用户语音输入的注册字符串进行帧对齐，提取每个字符的声学特征。

具体地，用户通过声纹作为密码以进行验证登录网站或者设备的登录系统，需要声纹注册，为了避免注册场景干扰，生成精确的声纹模型，因此提出一种能够得到精确的声纹模型的声纹注册方法。

首先，对用户语音输入的注册字符串进行帧对齐，提取每个字符的声学特征。需要说明的是，注册字符串有很多，例如包括：文字字符串、和/或、数字字符串。即用户朗读输入一段文字“登录百度钱包”、一段数字“567765”或者“登录567”后，利用语音识别模块进行帧对齐，每一帧对应一个文字或数字，即“登”对应一帧，“5”对应一帧等。

其中，声学特征可以根据实际应用需要进行选择，例如，可以是提取每个字符语音的梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients，MFCC)特征，也可以是每个字符语音的感知线性预测系数(Perceptual Linear Predictive，PLP)特征，或线性预测倒谱系数(Linear Prediction Cepstrum Coefficient，LPCC)等。需要注意的是，也可以是两种或以上的声学特征的融合。

步骤102，将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计。

步骤103，通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征。

具体地，获取与每种注册字符串对应的声学特征，并将每个字符的声学特征在全局GMM模型中计算后验概率进行BW(Baum-Welch)统计，进而通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征。

为了更加清楚的说明上述全局GMM模型和预设的多个字符的矢量特征提取器的建立过程，下面结合图2详细说明：

步骤201，对用户语音输入的训练字符串进行帧对齐，提取每个字符的声学特征。

步骤202，根据所有训练字符串中每个字符的声学特征训练全局GMM模型。

步骤203，将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计，进而利用联合因子分析方法，训练每个字符的矢量特征提取器。

具体地，预先获取与每种训练字符串对应的声学特征，并根据每个字符的声学特征训练全局GMM模型作为普通背景模型UBM(Universal Background Model)，再将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计，进而利用联合因子分析方法，训练每个字符的矢量特征提取器。

需要说明的是，训练字符串有很多，例如包括：文字字符串、和/或、数字字符串。以及所有训练字符串的声学特征一起训练一个全局的GMM模型，其中，所有训练字符串是不区分文字的。例如“567765”，将6个字符的声学特征一起训练一个全局的GMM模型。

另外，模型不限于是基于全局GMM模型的普通背景模型UBM(UniversalBackground Model)，也可以是隐马尔可夫模型(Hidden Markov Model，HMM)，或支持向量机(Support Vector Machine，SVM)等。

举例而言，提取用户输入训练字符串的语音信息“登录百度钱包”，将输入训练字符串的语音信息中的每个字符(“登”、“录”、“百”、“度”、“钱”和“包”)的语音的声学特征在高斯混合模型GMM(Gaussian Mixture Model)条件下进行BW(Baum-Welch)统计，从而得到每句话中的每个字符(“登”、“录”、“百”、“度”、“钱”和“包”)的BW统计量，再利用联合因子分析方法训练每个字符(“登”、“录”、“百”、“度”、“钱”和“包”)的语音的矢量特征，进而，得到预设的“登录百度钱包”中每个字符的矢量特征提取器。

其中，将同一文字标签的每一帧的声学特征(例如MFCC)在普通背景模型UBM(Universal Background Model)条件下进行Baum-Welch统计，以计算其后验概率，该后验概率服从高斯分布，该后验概率的期望便是矢量特征(identity-vector，ivector)。

需要注意的是，进行Baum-Welch统计时，是区分文字的，将同一文字或者数字标签的每一帧的声学特征在高斯混合模型GMM中计算后验概率。例如，“567765”，将同一数字的“5”、“6”和“7”的每一帧的声学特征在高斯混合模型GMM中计算后验概率。

步骤104，将所有字符的矢量特征进行顺序拼接，获取用户的注册声纹模型。

从而，根据预设的多个字符的矢量特征提取器提取注册字符串中的每个字符的矢量特征后进行顺序拼接得到用户的注册声纹模型。

例如，所有字符全是数字的时候，可以采用0123456789的顺序拼接在一起，作为用户的注册声纹模型。

为了更加清楚的了解本发明实施例的声纹注册方法，下面结合图3对该声纹注册方法进行举例说明，具体说明如下：

结合图3中的m1为例详细说明，具体如下：

首先获取用户输入一段注册字符串的语音信息，接着将其进行切分排序后，对用户输入注册字符串中的每个字符语音信息进行帧对齐(每一帧对应的具体文字或者数字)提取以得到用户的声学特征MFCC，然后根据每个字符的声学特征训练全局GMM模型作为全局普通背景模型UBM(Universal Background Model)条件下进行Baum-Welch统计，最后通过预设的字符的矢量特征提取器分别提取字符的矢量特征。

与上述实施例中的m1得到的字符的矢量特征的过程相同，可以得到1至N个字符的矢量特征，并进行顺序拼接，获取用户的注册声纹模型M＝{m1，m2，…，mN}。即完成建立且保存该用户的用户信息与声纹的对应关系。由此，用户完成语音注册。

综上所述，本发明实施例的声纹注册方法，首先提取每个字符的声学特征，接着将每个字符的声学特征进行BW统计，再通过预设每个字符的矢量特征提取器提取每个字符的矢量特征后将所有字符的矢量特征进行顺序拼接，获取用户的注册声纹模型。该方法分别对注册字符串中的各字符进行特征处理，提高声纹注册模型的准确性。

图4是根据本发明一个实施例的声纹认证方法的流程图。

如图4所示，本发明实施例的声纹认证方法包括以下步骤：

步骤401，对用户语音输入的认证字符串进行帧对齐，提取每个字符的声学特征。

步骤402，将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计。

步骤403，通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征。

步骤404，将所有字符的矢量特征进行顺序拼接，获取用户的认证声纹模型。

步骤405，将预存的用户的注册声纹模型与认证声纹模型进行匹配，根据匹配结果确定用户是否合法。

具体地，首先，对用户语音输入的认证字符串进行帧对齐，提取每个字符的声学特征。需要说明的是，注册字符串有很多，例如包括：文字字符串、和/或、数字字符串。

例如，登录字符串为一串文字，则用户朗读该字符串时一般会用一句话读完该字符串，例如“登录百度钱包”，即输入的语音信息中该语音应为一段语音“登录百度钱包”，以这一段语音为例，在本发明的实施例中，对声纹认证的具体实现过程可如下：

例如，获取用户输入一段语音“登录百度钱包”，接着将其进行切分排序后，对用户输入“登录百度钱包”中的每个字符语音信息进行帧对齐(每一帧分别对应“登”、“录”、“百”、“度”、“钱”和“包”)提取以得到用户的声学特征MFCC，然后在全局普通背景模型UBM(Universal Background Model)条件下进行Baum-Welch统计，再通过预设每个字符的矢量特征提取器提取每个字符的矢量特征后将所有字符的矢量特征进行顺序拼接，获取用户的认证声纹模型，将认证声纹模型与注册声纹模型进行比对以判断声纹是否匹配从而确定用户是否合法。

具体地，声纹模型匹配是将登陆过程产生的认证声纹模型和用户注册时生成的注册声纹模型进行比对打分，如果注册声纹模型与认证声纹模型的匹配度大于等于预设阈值，则确定用户合法，认证成功，接收该用户登录；如果注册声纹模型与认证声纹模型的匹配度小于预设阈值，则确定用户非法，认证失败，拒绝该用户登录。

其中，可以采用余弦距离、支持向量机(SVM)、贝叶斯分类器、以及GPLDA(高斯概率线性判别分析)等方法来实现。

综上所述，本发明实施例的声纹认证方法，首先提取每个字符的声学特征，接着将每个字符的声学特征进行BW统计，再通过预设每个字符的矢量特征提取器提取每个字符的矢量特征后将所有字符的矢量特征进行顺序拼接，获取用户的认证声纹模型，进而与注册声纹模型匹配确定用户是否合法。该方法提高了系统性能进而减少声纹认证的时间，进一步提高用户使用声纹登录服务的体验。

本发明实施例提出的一种声纹注册、认证方法可以应用于终端设备中需要登录的软件或者网页中，例如手机百度、百度贴吧和百度钱包等手机APP登录，终端设备的类型很多，可以是个人电脑、手机、多媒体电视等终端设备。

为了实现上述实施例，本发明还提出了一种声纹注册装置，图5是根据本发明一个实施例的声纹注册装置的结构示意图，如图5所示，该声纹注册装置包括：第一处理模块110，第一统计模块120、第一提取模块130和第一获取模块140。

其中，第一处理模块110用于对用户语音输入的注册字符串进行帧对齐，提取每个字符的声学特征。

具体地，第一处理模块110对用户语音输入的注册字符串进行帧对齐，提取每个字符的声学特征。需要说明的是，注册字符串有很多，例如包括：文字字符串、和/或、数字字符串。即用户朗读输入一段文字“登录百度钱包”、一段数字“567765”或者“登录567”后，利用语音识别模块进行帧对齐，每一帧对应一个文字或数字，即“登”对应一帧，“5”对应一帧等。

第一统计模块120用于将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计。

第一提取模块130用于通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征。

为了更加清楚的说明上述全局GMM模型和预设的多个字符的矢量特征提取器的建立过程，下面结合图6详细说明：

第二处理模块150用于对用户语音输入的训练字符串进行帧对齐，提取每个字符的声学特征。

训练模块160用于根据所有训练字符串中每个字符的声学特征训练全局GMM模型。

第三处理模块170用于将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计，进而利用联合因子分析方法，训练每个字符的矢量特征提取器。

需要说明的是，前述声纹注册方法实施例的解释说明全局GMM模型和预设的多个字符的矢量特征提取器的建立过程，此处不再赘述。

第一获取模块140用于将所有字符的矢量特征进行顺序拼接，获取用户的注册声纹模型。

需要说明的是，前述对声纹注册方法实施例的解释说明也适用于该实施例的声纹注册装置，其实现原理类似，此处不再赘述。

图7根据本发明一个实施例的声纹认证装置的结构示意图。

图7是根据本发明一个实施例的声纹认证装置的结构示意图，如图7所示，该声纹认证装置包括：第四处理模块210、第二统计模块220、第二提取模块230、第二获取模块240和确定模块250。

其中，第四处理模块210用于对用户语音输入的认证字符串进行帧对齐，提取每个字符的声学特征。

第二统计模块220用于将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计。

第二提取模块230用于通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征。

第二获取模块240用于将所有字符的矢量特征进行顺序拼接，获取用户的认证声纹模型。

确定模块250用于将预存的用户的注册声纹模型与认证声纹模型进行匹配，根据匹配结果确定所述用户是否合法。

进而，声纹模型匹配是将登陆过程产生的认证声纹模型和用户注册时生成的注册声纹模型进行比对打分，如果注册声纹模型与认证声纹模型的匹配度大于等于预设阈值，则确定用户合法，认证成功，接收该用户登录；如果注册声纹模型与认证声纹模型的匹配度小于预设阈值，则确定用户非法，认证失败，拒绝该用户登录。

需要说明的是，前述对声纹认证方法实施例的解释说明也适用于该实施例的声纹认证装置，其实现原理类似，此处不再赘述。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种声纹注册方法，其特征在于，包括以下步骤：

对用户语音输入的注册字符串进行帧对齐，提取每个字符的声学特征；其中，每一帧对应一个注册字符串；

将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计；

通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征；其中，每个字符对应一个矢量特征提取器；

将所有字符的矢量特征进行顺序拼接，获取所述用户的注册声纹模型。

2.如权利要求1所述的方法，其特征在于，所述注册字符串的类型包括：

文字字符串，和/或，数字字符串。

3.如权利要求1所述的方法，其特征在于，还包括：

对用户语音输入的训练字符串进行帧对齐，提取每个字符的声学特征；

根据所有训练字符串中每个字符的声学特征训练全局GMM模型；

将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计，进而利用联合因子分析方法，训练每个字符的矢量特征提取器。

4.一种声纹认证方法，其特征在于，包括以下步骤：

对用户语音输入的认证字符串进行帧对齐，提取每个字符的声学特征；其中，每一帧对应一个注册字符串；

将所有字符的矢量特征进行顺序拼接，获取所述用户的认证声纹模型；

将预存的所述用户的注册声纹模型与所述认证声纹模型进行匹配，根据匹配结果确定所述用户是否合法。

5.如权利要求4所述的方法，其特征在于，所述将预存的所述用户的注册声纹模型与所述认证声纹模型进行匹配，根据匹配结果确定所述用户是否合法，包括：

如果所述注册声纹模型与所述认证声纹模型的匹配度大于等于预设阈值，则确定所述用户合法；

如果所述注册声纹模型与所述认证声纹模型的匹配度小于预设阈值，则确定所述用户非法。

6.一种声纹注册装置，其特征在于，包括：

第一处理模块，用于对用户语音输入的注册字符串进行帧对齐，提取每个字符的声学特征；其中，每一帧对应一个注册字符串；

第一统计模块，用于将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计；

第一提取模块，用于通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征；其中，每个字符对应一个矢量特征提取器；

第一获取模块，用于将所有字符的矢量特征进行顺序拼接，获取所述用户的注册声纹模型。

7.如权利要求6所述的装置，其特征在于，所述注册字符串的类型包括：

文字字符串，和/或，数字字符串。

8.如权利要求6所述的装置，其特征在于，还包括：

第二处理模块，用于对用户语音输入的训练字符串进行帧对齐，提取每个字符的声学特征；

训练模块，用于根据所有训练字符串中每个字符的声学特征训练全局GMM模型；

第三处理模块，用于将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计，进而利用联合因子分析方法，训练每个字符的矢量特征提取器。

9.一种声纹认证装置，其特征在于，包括：

第四处理模块，用于对用户语音输入的认证字符串进行帧对齐，提取每个字符的声学特征；其中，每一帧对应一个注册字符串；

第二统计模块，用于将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计；

第二提取模块，用于通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征；其中，每个字符对应一个矢量特征提取器；

第二获取模块，用于将所有字符的矢量特征进行顺序拼接，获取所述用户的认证声纹模型；

确定模块，用于将预存的所述用户的注册声纹模型与所述认证声纹模型进行匹配，根据匹配结果确定所述用户是否合法。

10.如权利要求9所述的装置，其特征在于，所述确定模块具体用于：