CN111613230A

CN111613230A - 声纹验证方法、装置、设备及存储介质

Info

Publication number: CN111613230A
Application number: CN202010591954.XA
Authority: CN
Inventors: 李红岩; 刘岩; 党莹; 黄洪运; 李玉莹
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-09-01

Abstract

本公开提供一种声纹验证方法、装置、设备及存储介质，涉及人工智能技术领域。该方法包括：获取密码字符；获取输入语音；对所述输入语音进行语音识别获得所述输入语音的语音识别结果；根据所述输入语音的语音识别结果对所述输入语音按照字符进行切分，获得多个语音片段；从所述多个语音片段中选取语音识别结果与所述密码字符中对应位置的密码字符相一致的语音片段作为待验证语音片段；对所述待验证语音片段进行声纹识别以实现用户验证。该方法一定程度上提高了声纹识别的准确性。

Description

声纹验证方法、装置、设备及存储介质

技术领域

本公开涉及人工智能技术领域，具体而言，涉及一种声纹验证方法、装置、设备及可读存储介质。

背景技术

声纹识别，也称为说话人识别，为一种生物识别技术。声纹识别的原理是每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。声纹识别通常包括以下过程：1)对待识别语音进行预处理；2)提取预处理后的语音的特征；3)将提取的特征与语音模型库进行模型匹配。在文本相关的声纹识别技术中，模型匹配的精度较差，声纹识别的准确率较低。

如上所述，如何提高声纹识别的准确率成为亟待解决的问题。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种声纹验证方法、装置、设备及可读存储介质，至少在一定程度上克服声纹识别准确率较低的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提供一种声纹验证方法，包括：获取密码字符；获取输入语音；对所述输入语音进行语音识别获得所述输入语音的语音识别结果；根据所述输入语音的语音识别结果对所述输入语音按照字符进行切分，获得多个语音片段；从所述多个语音片段中选取语音识别结果与所述密码字符中对应位置的密码字符相一致的语音片段作为待验证语音片段；对所述待验证语音片段进行声纹识别以实现用户验证。

根据本公开的一实施例，所述对所述待验证语音片段进行声纹识别以实现用户验证包括：获取所述待验证语音片段的身份向量，所述身份向量表征语音的说话人特征和信道特征；获取所述待验证语音片段对应的密码字符的预定用户的身份向量；基于信道补偿算法计算所述待验证语音片段的身份向量与所述预定用户的身份向量的相似度。

根据本公开的一实施例，所述待验证语音片段包括多个识别结果一致字符的语音片段；所述获取所述待验证语音片段的身份向量包括：获取所述多个识别结果一致字符的语音片段的多个身份子向量；将所述多个身份子向量进行拼接，获得所述待验证语音片段的身份向量；所述获取所述待验证语音片段对应的密码字符的预定用户的身份向量包括：获取所述多个识别结果一致字符的语音片段对应的多个密码字符的所述预定用户的多个身份子向量；将所述预定用户的多个身份子向量进行拼接，获得所述预定用户的身份向量。

根据本公开的一实施例，在所述对所述待验证语音片段进行声纹识别以实现用户验证之前，所述方法还包括：获取所述预定用户的注册语音，所述注册语音包括多个注册语音片段，所述多个注册语音片段中的各个注册语音片段对应单个字符；计算所述各个注册语音片段的身份子向量，获得所述多个注册语音片段的多个身份子向量；所述获取所述多个识别结果一致字符的语音片段对应的密码字符的所述预定用户的多个身份子向量包括：从所述多个注册语音片段的多个身份子向量中获取所述预定用户的多个身份子向量。

根据本公开的一实施例，所述计算所述各个注册语音片段的身份子向量包括：分别提取所述各个注册语音片段的特征向量；基于训练获得的通用背景模型和所述特征向量分别获得所述各个注册语音片段的高斯均值超矢量；基于所述各个注册语音片段的高斯均值超矢量和训练获得的全局差异空间矩阵获得所述各个注册语音片段的身份子向量。

根据本公开的一实施例，所述多个注册语音片段包括各个一位数字的注册语音片段；所述密码字符包括随机生成的多位数字。

根据本公开的一实施例，在所述根据所述输入语音的语音识别结果对所述输入语音按照字符进行切分之前，所述对所述输入语音进行语音识别获得所述输入语音的语音识别结果之后，所述方法还包括：

将所述输入语音的语音识别结果与所述密码字符进行匹配以获得字符识别准确率；

所述输入语音的语音识别结果包括所述输入语音的时间轴上字符的语音活动端点；

所述根据所述输入语音的语音识别结果对所述输入语音按照字符进行切分包括：

在所述字符识别准确率大于预设阈值时，在所述字符的语音活动端点对所述输入语音进行切分。

根据本公开的再一方面，提供一种声纹验证装置，包括：密码获取模块，用于获取密码字符；语音采集模块，用于获取输入语音；语音识别模块，用于对所述输入语音进行语音识别获得所述输入语音的语音识别结果；语音切分模块，用于根据所述输入语音的语音识别结果对所述输入语音按照字符进行切分，获得多个语音片段；语音选取模块，用于从所述多个语音片段中选取语音识别结果与所述密码字符中对应位置的密码字符相一致的语音片段作为待验证语音片段；声纹识别模块，用于对所述待验证语音片段进行声纹识别以实现用户验证。

根据本公开的一实施例，所述声纹识别模块，还用于获取所述待验证语音片段的身份向量，所述身份向量表征语音的说话人特征和信道特征；获取所述待验证语音片段对应的密码字符的预定用户的身份向量；基于信道补偿算法计算所述待验证语音片段的身份向量与所述预定用户的身份向量的相似度。

根据本公开的一实施例，所述待验证语音片段包括多个识别结果一致字符的语音片段；所述声纹识别模块，还用于获取所述多个识别结果一致字符的语音片段的多个身份子向量；将所述多个身份子向量进行拼接，获得所述待验证语音片段的身份向量；获取所述多个识别结果一致字符的语音片段对应的多个密码字符的所述预定用户的多个身份子向量；将所述预定用户的多个身份子向量进行拼接，获得所述预定用户的身份向量。

根据本公开的一实施例，所述装置还包括：声纹注册模块，用于获取所述预定用户的注册语音，所述注册语音包括多个注册语音片段，所述多个注册语音片段中的各个注册语音片段对应单个字符；计算所述各个注册语音片段的身份子向量，获得所述多个注册语音片段的多个身份子向量；所述声纹识别模块，还用于从所述多个注册语音片段的多个身份子向量中获取所述预定用户的多个身份子向量。

根据本公开的一实施例，所述装置还包括：声纹识别模型训练模块，用于训练通用背景模型；训练全局差异空间模型获得全局差异空间矩阵；所述声纹注册模块，还用于分别提取所述各个注册语音片段的特征向量；基于训练获得的通用背景模型和所述特征向量分别获得所述各个注册语音片段的高斯均值超矢量；基于所述各个注册语音片段的高斯均值超矢量和训练获得的全局差异空间矩阵获得所述各个注册语音片段的身份子向量。

根据本公开的一实施例，所述装置还包括：识别判断模块，用于将所述输入语音的语音识别结果与所述密码字符进行匹配以获得字符识别准确率；所述输入语音的语音识别结果包括所述输入语音的时间轴上字符的语音活动端点；所述语音切分模块，还用于在所述字符识别准确率大于预设阈值时，在所述字符的语音活动端点对所述输入语音进行切分。

根据本公开的再一方面，提供一种设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，所述处理器执行所述可执行指令时实现如上述任一种方法。

根据本公开的再一方面，提供一种计算机可读存储介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现如上述任一种方法。

本公开的实施例提供的方法，通过对输入语音进行语音识别获得语音识别结果后，根据语音识别结果对输入语音按照字符进行切分获得多个语音片段，从中选取语音识别结果与密码字符中对应位置的密码字符相一致的语音片段作为待验证语音片段，然后对待验证语音片段进行声纹识别以实现用户验证，从而可实现一定程度上提高声纹识别的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。

图1示出本公开实施例中一种系统结构的示意图；

图2示出本公开实施例中一种声纹验证方法的流程图。

图3示出本公开实施例中另一种声纹验证方法的流程图。

图4示出本公开实施例中一种用于声纹验证的声纹注册方法的流程图。

图5示出本公开实施例中另一种用于声纹验证的声纹注册方法的流程图。

图6示出本公开实施例中一种用于声纹验证的声纹识别模型训练方法的流程图。

图7示出本公开实施例中再一种声纹验证方法的流程图。

图8示出本公开实施例中一种声纹验证装置的框图。

图9示出本公开实施例中另一种声纹验证装置的框图。

图10示出本公开实施例中一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施例使得本公开将更加全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。

在本公开中，除非另有明确的规定和限定，“连接”等术语应做广义理解，例如，可以是电连接或可以互相通讯；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本公开中的具体含义。

如上所述，在文本相关的声纹识别技术中，在对输入语音进行声纹识别之前会对其进行语音识别。但语音识别结果可能与语音的实际内容不符，会使模型匹配的精度较差，进而导致声纹识别的准确率较低。相关技术中基于声纹识别的密码验证方法主要有两种：固定文本和文本限定。固定文本的声纹识别需要用户设置固定的密码串，每次验证时对用户输入的同一密码串进行声纹识别，由于密码文本内容固定，一旦他人获得该用户设置的密码录音文件即可冒用。文本限定的声纹识别则根据有限的词库随机生成密码供用户注册和验证，未充分考虑部分语音识别结果错误、信道差异等影响，实际应用效果较差。因此，本公开提供了一种声纹验证方法，通过对输入语音进行语音识别获得语音识别结果后，根据语音识别结果对输入语音按照字符进行切分获得多个语音片段，从中选取语音识别结果与密码字符中对应位置的密码字符相一致的语音片段作为待验证语音片段，然后对待验证语音片段进行声纹识别以实现用户验证，从而可实现一定程度上提高声纹识别的准确性。

图1示出了可以应用本公开的声纹验证方法或声纹验证装置的示例性系统架构10。

如图1所示，系统架构10可以包括终端设备102、网络104、服务器106和数据库108。网络104用以在终端设备102和服务器106之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备102通过网络104与服务器106和数据库108交互，以接收或发送数据等。例如用户可以朗读终端设备102上显示的密码文本，终端设备102接收用户的验证语音后，通过网络104发送给服务器106。再例如服务器106对用户的验证语音进行声纹识别获得验证结果，可将验证结果通过网络104返回终端设备102。终端设备102可以是具有显示屏并且支持输入、输出的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、虚拟现实设备、智能家居等等。

服务器106也可通过网络104从数据库108接收数据或向数据库108发送数据等。服务器106可以是提供各种服务的服务器或服务器集群等，例如服务器106对用户利用终端设备102输入的验证语音进行声纹识别时，将验证语音的特征模型与通过网络104从数据库108中获取模型进行匹配，然后将获得验证结果等反馈给终端设备102。

应该理解，图1中的终端设备、网络、数据库和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络、数据库和服务器。

图2是根据一示例性实施例示出的一种声纹验证方法的流程图。如图2所示的方法例如可以应用于上述系统的服务器端，也可以应用于上述系统的终端设备。

参考图2，本公开实施例提供的方法20可以包括以下步骤。

在步骤S202中，获取密码字符。在进行声纹验证时，可先提示用户朗读显示的密码字符。可随机生成包括多个字符的密码，显示给用户以提示用户朗读出密码的内容。字符可以为数字、中文文字、英文字母等等。也可从预先存储的候选密码库中随机抽取包括多个字符的密码。

在步骤S204中，获取输入语音。可通过音频采集模块获取用户朗读显示的密码字符的语音。

在步骤S206中，对输入语音进行语音识别获得输入语音的语音识别结果。语音识别将输入音频进行内容识别，输出识别的文本结果。可采用基于隐马尔可夫模型(HMM)和语言模型(N-gram)的开源语音识别引擎对输入语音进行语音识别，基于统计原理在已标记的语料库中查找最可能为输入语音的文本。

在步骤S208中，根据输入语音的语音识别结果对输入语音按照字符进行切分，获得多个语音片段。对输入语音进行切分时，可根据输入语音的语音识别结果进行切分。例如输出的语音识别结果中可包括字符的语音活动端点，将语音活动端点作为分割点对输入语音进行切分。也可采用基于模型的切分方法，利用训练好的语音模型、环境音模型等对每一帧(或若干帧)语音依据最大似然准则分类，视类别发生变化处为分割点，然后将分割成的语音片段的数量与语音识别结果的文本字符数量进行比对，以矫正分割点。

在步骤S210中，从多个语音片段中选取语音识别结果与密码字符中对应位置的密码字符相一致的语音片段作为待验证语音片段。可将各个字符的语音片段对应的语音识别结果与原密码字符进行比较，根据比较结果从语音片段中选取待验证语音片段，以排除与原密码字符无关的语音片段，提高声纹识别的准确率。

在一些实施例中，例如，可从中选择识别的文本与原密码字符完全一致的语音片段，如原密码字符为“234912”，输入语音的语音识别结果为“244972”，则“2”“4”“9”“2”为识别的文本与原密码字符完全一致的语音片段，可将这些语音片段按照原密码的顺序拼接起来作为整体进行声纹识别，也可将这些语音片段分别进行声纹识别。

在另一些实施例中，例如，也可从中选择识别的文本与原密码读音一致的语音片段进行声纹识别，例如密码字符为“河”“塘”“月”“色”，语音识别文本为“荷”“塘”“月”“色”，则该四个字符的语音片段都可作为待验证语音进行声纹识别。

在步骤S212中，对待验证语音片段进行声纹识别以实现用户验证。声纹识别通常采用模式识别方法，基本流程为：预处理-特征提取-模型训练-模型匹配。可将待验证语音经过采样量化、预加重、加窗、滤波等预处理后，进行特征提取(例如可为梅尔频率倒谱系数(MFCC)特征、线性预测倒谱系数(LPCC)特征等等)；然后对提取出的特征进行建模，即建立描述说话人的语音特征在特征空间的分布的模型，常用的模型可为参数模型、人工神经网络(Artificial Neural Network，ANN)模型以及支撑向量机(Support Vector Machine，SVM)模型等等，参数模型是指采用某种特定的概率密度函数来描述说话人的语音特征在特征空间的分布情况，并以该概率密度函数的一组参数来作为说话人的模型，例如高斯混合模型(Gaussian Mixture Model，GMM)等等；模型训练完成后则与模型库中的模型进行匹配，匹配到较为接近的模型时则认为匹配成功。

在一些实施例中，例如，可提示待验证用户输入个人信息，在声纹识别步骤之前通过待验证用户输入的信息在模型库中查找预定用户的语音模型，然后将待验证用户输入的语音建模后与查找到的语音模型进行匹配，若匹配成功则验证成功。

在另一些实施例中，例如，模型库中可包含多个预定用户的语音模型，可将待验证用户输入的语音建模后与模型库中的语音模型逐一进行匹配，在匹配成功时验证成功。

根据本公开实施例提供的方法，通过对输入语音进行语音识别获得语音识别结果后，根据语音识别结果对输入语音按照字符进行切分获得多个语音片段，从中选取语音识别结果与密码字符中对应位置的密码字符相一致的语音片段作为待验证语音片段，然后对待验证语音片段进行声纹识别以实现用户验证，实现了仅对语音识别结果正确的语音片段进行声纹识别，从而可一定程度上提高声纹识别的准确性。

图3是根据一示例性实施例示出的一种声纹验证方法的流程图。如图3所示的方法例如可以应用于上述系统的服务器端，也可以应用于上述系统的终端设备。

参考图3，本公开实施例提供的方法30可以包括以下步骤。

在步骤S302中，获取随机生成的多位数字密码。可通过随机算法生成多位(如6位、7位或8位等)数字密码，其中可有重复数字，也可为不同的数字。将生成的密码显示给用户提示朗读，并获取该密码文本以待后续与语音识别结果比对。

在步骤S304中，获取用户根据多位数字密码提示输入的语音。

在步骤S306中，对输入语音进行语音识别获得输入语音的语音识别结果，语音识别结果包括输入语音的时间轴上字符的语音活动端点。将语音活动端点作为分割点对输入语音进行切分。

在步骤S308中，将输入语音的语音识别结果与密码字符进行匹配以获得字符识别准确率。将语音识别结果的文本字符与密码字符逐一进行比对，比对一致的字符为识别准确的字符，识别准确的字符数量除以密码的总字符数量则为字符识别准确率。

在步骤S310中，在字符识别准确率大于预设阈值时，在字符的语音活动端点对输入语音进行切分，获得多个语音片段。字符识别准确率阈值例如可设为45％、或60％、或70％等等，若密码共8位数字，在语音识别结果正确的字符数量大于4、或5、或6时，可继续进行声纹识别，否则返回步骤S302，重新生成随机密码并进行语音识别。

在步骤S312中，从多个语音片段中选取语音识别结果与密码字符中对应位置的密码字符相一致的语音片段，获得包括多个识别结果一致字符的语音片段的待验证语音片段。

在一些实施例中，例如，可从中选择语音识别的文本与原密码字符完全一致的语音片段，如原密码字符为“35625437”，输入语音的语音识别结果为“45925447”，则“5”“2”“5”“4”“7”为识别的文本与原密码字符完全一致的语音片段。

在步骤S314中，获取多个识别结果一致字符的语音片段的多个身份子向量。将待验证语音片段进行特征提取后，可先基于通用背景模型(Universal Background Model，UBM)利用提取出的特征进行训练以建立GMM模型，以描述说话人的语音特征在特征空间的分布。在GMM模型中，空间分布的概率密度用多个高斯概率密度函数的加权来拟合，可以平滑的逼近任意形状的概率密度函数，是一个易于处理的参数模型，具备对实际数据极强的表征力。GMM模型建立完成后，获得待验证语音片段的说话人语音的高斯均值超矢量s，可将其定义为：

s＝m+Tω (1)

式中，m为UBM的高斯均值超矢量(与说话人及信道无关)；T为全局差异空间(TotalVariability space，TV)矩阵，可在声纹验证前通过训练获得，具体实施方式可参照图6，此处不予详述；ω为全局差异空间因子组成的向量，即身份向量(I-Vector)。可根据式(1)从训练完成的GMM模型高斯均值超矢量s中提取出身份向量ω。

在一些实施例中，例如，分别获得“5”“2”“5”“4”“7”为识别的文本与原密码字符完全一致的语音片段

在步骤S316中，将多个身份子向量进行拼接，获得待验证语音片段的身份向量。可将各个识别正确的字符的语音片段的身份子向量按照原密码文本顺序进行拼接，获得一个身份向量。

在一些实施例中，例如，也可通过上述方法从各个字符的待验证语音片段的身份子向量后，将各个字符的身份子向量作为多个待验证的身份向量，以待后续分别进行声纹验证。

在步骤S318中，获取多个识别结果一致字符的语音片段对应的多个密码字符的预定用户的多个身份子向量。从多个注册语音片段的多个身份子向量中获取预定用户的多个身份子向量。在密码为数字的情况下，注册的语音片段应包括各个一位数字的注册语音片段。可在声纹验证前提示预定用户进行声纹注册，采集注册用户朗读各密码字符的语音，然后通过上述方法获取各数字的身份子向量，具体实施方式可参照图4至图5，此处不予详述。

在步骤S320中，将预定用户的多个身份子向量进行拼接，获得预定用户的身份向量。在一些实施例中，例如，也可将各个字符的身份子向量分别与预定用户的各密码字符的身份子向量进行匹配，综合各匹配结果进行相似度判断。

在步骤S322中，基于信道补偿算法计算待验证语音片段的身份向量与预定用户的身份向量的相似度。信道补偿算法可减少I-Vector特征中信道信息对说话人信息的干扰，增大类间的离散度并且降低类内的离散度，以此获得更高的区分性，提高模式匹配性能。

在一些实施例中，例如，可采用线性判别分析(Linear Discriminant Analysis，LDA)对I-Vector特征进行降维，将高维的I-Vector投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果。其使用标签信息来寻找最优的投影方向，使得投影后的样本集具有最小的类内差异，减少信道引起的变化，并最大化类间差异，即增大说话人之间的差异信息。

在另一些实施例中，例如，可采用概率线性判别分析(ProbabilisticLinearDiscriminant Analysis，PLDA)方法，将一组来自N个说话人的I-Vector向量ω记为{x_ij，i＝1，...N，j＝1，2，...，M_i}，其中，每个说话人有M_i条语音样本，可将第i个说话人的第j条语音的I-Vector向量分解x_ij，为信号部分和噪声部分：

x_ij＝μ+Fh_i+Gω_ij+∈_ij (2)

式中，μ+Fh_i为信号部分，描述了说话人之间的差异(类间差异)，其中μ为声纹识别前通过将训练数据集中所有I-Vector向量求均值得到，F为包含了可以用来表示各种说话人的信息的类间空间特征矩阵，F的每一列相当于类间空间的特征向量，h_i为第i个说话人的语音在类间空间的特征表示，如果两条语音的h_i特征相同的似然度越大，那么它们来自同一个说话人的可能性就越大；Gω_ij+∈_ij为噪声部分，G为包含了可以用来表示同一个说话人的不同语音变化信息的类内空间特征矩阵，ω_ij为第i个说话人的第j条语音在类内空间的特征表示，∈_ij为残留噪声项，其服从零均高斯分布，方差为∑。由于本公开只关心区分不同的说话人的类间特征，而不关心同一个说话人的类内特征，所以不必考虑类内空间特征项，因此可将式(2)简化为：

x_ij＝μ+Fh_i+∈_ij (3)

式中参数含义与式(2)相同。获得待验证语音片段的x_i与同一字符的预定用户的x′_i后，可计算其在H空间的相似度，即计算h_i与h′_i的相似度，可采用对数似然比来计算。

根据本公开实施例提供的声纹验证方法，通过根据有限的词库(0～9)随机生成密码提示给用户，验证过程中根据语音识别结果将音频切分成各个字符对应的语音片段，只对识别结果正确的语音片段进行特征提取并相似度计算。在验证过程中，在字符识别准确率大于预设阈值时进行声纹识别，有效降低了录音攻击的风险，并在声纹识别时采用PLDA模型进行相似度判断，降低了信道干扰的影响。

图4是根据一示例性实施例示出的一种声纹注册方法的流程图。如图4所示的方法例如可以应用于上述系统的服务器端，也可以应用于上述系统的终端设备。

参考图4，本公开实施例提供的方法40可以包括以下步骤。

在步骤S402中，获取预定用户的注册语音，注册语音包括多个注册语音片段，多个注册语音片段中的各个注册语音片段对应单个字符。例如密码为数字时，注册语音应包括注册用户的0-9共10个数字的语音片段；密码为英文字母时，注册语音应包括注册用户的a-z共26个字母的语音片段。

在步骤S404中，计算各个注册语音片段的身份子向量，获得多个注册语音片段的多个身份子向量。

在步骤S4042中，分别提取各个注册语音片段的特征向量。可提取语音片段的MFCC特征，首先将语音片段通过高通滤波器进行预加重处理，然后进行分帧、加窗增加帧左、右端的连续性，再进行快速傅里叶变换获得能量谱，然后将能量谱通过一组梅尔尺度的三角形滤波器组，计算每个滤波器组输出的对数能量，然后经离散余弦变换得到MFCC系数，并计算各帧的对数能量、提取动态差分参数。

在步骤S4044中，基于训练获得的通用背景模型和特征向量分别获得各个注册语音片段的高斯均值超矢量。基于训练获得的UBM与注册用户的多个语音片段的特征训练GMM，可基于最大似然准则，通过最大期望算法(EM)进行迭代，使注册用户的多个语音片段的特征在GMM模型中的平均概率最大，即对数似然函数最大，此时的GMM模型中各个高斯分布的均值构成高斯均值超矢量。

在步骤S4046中，基于各个注册语音片段的高斯均值超矢量和训练获得的全局差异空间矩阵获得各个注册语音片段的身份子向量。计算方法可参照上述步骤S314，此处不再赘述。

根据本公开实施例提供的声纹注册方法，通过获得单个字符的注册语音并分别提取特征，获得注册用户单个字符的身份子向量，以便在声纹验证时可与对识别结果正确的语音片段的身份子向量计算相似度，提高了声纹识别的准确率。

图5是根据一示例性实施例示出的一种声纹注册方法的流程图。如图5所示，验证的密码为数字密码，在注册步骤中，可随机生成包含0～9在内的8位密码(S5052)提示给用户(S501)，采集用户输入的注册语音信号(S502)，然后将用户输入的注册语音信号传送至语音识别模块进行识别(S503)，并根据语音识别结果对注册语音进行切分，得到密码中各个数字的训练语料(S504)；此时可判断是否语料库包含同一注册用户的0～9全部数字的训练语料，如果全部包含则继续步骤S506，否则生成包含缺失数字在内的8位随机密码，重复步骤S5052，该步骤通常重复3次；对切分得到的每个数字的训练语料，分别进行特征提取(S506)；基于UBM模型训练得到待注册用户的各数字的GMM模型(S507)；(7)基于各数字的高斯均值超矢量及训练阶段得到的各数字的TV模型，提取各数字的I-Vector，得到多个身份子向量(sub-i-vector)(S508)，注册完成(S509)。

图6是根据一示例性实施例示出的一种声纹识别模型训练方法的流程图。如图6所示，首先利用尽可能覆盖所有发音和因素的0-9中各数字训练数据(S601)，训练得到UBM模型(S6021)获得各个高斯模型的权重、均值和方差；将训练数据根据语音识别结果进行切分，得到每个数字的训练语料(S6022)，然后进行MFCC特征提取(S6023)；基于UBM模型及提取的特征，训练得到每个数字的GMM模型(S603)；假设语料库中每一段语音都来自不同的说话人，计算训练数据库中每个说话人对应的Baum-Welcn统计量，采用最大期望算法迭代训练每个数字的TV模型(S604)，即全局差异空间矩阵T，计算每个数字的训练语料I-Vector；输入训练数据的I-Vector，采用最大期望算法迭代训练PLDA模型(S605)，得到PLDA模型参数数据均值μ，空间特征矩阵F，噪声协方差∑。

图7是根据一示例性实施例示出的再一种声纹验证方法的流程图。如图7所示，随机生成包含0～9在内的8位密码串提示给用户(S701)，采集用户输入的语音信号(S702)；将用户输入的语音信号传送至语音识别模块进行识别(S703)；计算语音密码的识别准确率(S704)，如果准确率大于设定阈值(S705)，例如识别准确率阈值可设定为60％(即至少需要识别正确5个字符)，则继续步骤S7061；否则提示密码验证失败(S7062)，如果连续密码验证失败次数小于3(S7063)，则重新生成提示密码，重复步骤S701，否则认为可能是录音攻击，终止本次服务；切分得到每个识别正确的密码文本对应的语音片段(S7061)，然后分别进行特征提取(S707)，基于UBM模型训练每个语音片段的GMM模型(S708)，再基于GMM模型的高斯均值超矢量及训练阶段得到的对应数字的TV模型，提取各语音片段的I-Vector，得到各语音片段的sub-i-vector，拼接组成这些语音片段的总的I-Vector，(S709)；然后按识别正确的密码文本顺序，将各对应数字注册sub-i-vector)进行排序并拼接，得到注册语音的I-Vector(如识别正确的数字为12345，则将这5个数字对应的注册模型的sub-i-vector按12345的顺序进行拼接)(S710)；将注册I-Vector与待验证I-Vector传递至已训练好的PLDA模型，计算相似度得分(S711)，若得分大于设定阈值(S712)，则认为两条语音可能同属一个人，声纹验证通过(S7131)；否则认为声纹验证失败(S7132)，如果连续声纹验证失败次数<3(S7133)，则重新生成提示密码，重复步骤(S701)，否则认为可能是他人假冒，终止本次服务。

图8是根据一示例性实施例示出的一种声纹验证装置的框图。如图8所示的装置例如可以应用于上述系统的服务器端，也可应用于上述系统的终端设备。

参考图8，本公开实施例提供的声纹验证装置80可以包括密码获取模块802、语音采集模块804、语音识别模块806、语音切分模块808、语音选取模块810和模块812。

密码获取模块802可用于获取密码字符。

语音采集模块804可用于获取输入语音。

语音识别模块806可用于对输入语音进行语音识别获得输入语音的语音识别结果。

语音切分模块808可用于根据输入语音的语音识别结果对输入语音按照字符进行切分，获得多个语音片段。

语音选取模块810可用于从多个语音片段中选取语音识别结果与密码字符中对应位置的密码字符相一致的语音片段作为待验证语音片段。

声纹识别模块812可用于对待验证语音片段进行声纹识别以实现用户验证。

图9是根据一示例性实施例示出的另一种声纹验证装置的框图。如图9所示的装置例如可以应用于上述系统的服务器端，也可应用于上述系统的终端设备。

参考图9，本公开实施例提供的声纹验证装置90可以包括声纹识别模型训练模块901、密码获取模块902、语音采集模块904、语音识别模块906、识别判断模块907、语音切分模块908、语音选取模块910、声纹注册模块911和声纹识别模块912。

声纹识别模型训练模块901可用于训练通用背景模型；训练全局差异空间模型获得全局差异空间矩阵。

密码获取模块902可用于获取密码字符。密码字符包括随机生成的多位数字。

语音采集模块904可用于获取输入语音。

语音识别模块906可用于对输入语音进行语音识别获得输入语音的语音识别结果。

识别判断模块907可用于将输入语音的语音识别结果与密码字符进行匹配以获得字符识别准确率；输入语音的语音识别结果包括输入语音的时间轴上字符的语音活动端点。

语音切分模块908可用于根据输入语音的语音识别结果对输入语音按照字符进行切分，获得多个语音片段。

语音切分模块908还可用于在字符识别准确率大于预设阈值时，在字符的语音活动端点对输入语音进行切分。

语音选取模块910可用于从多个语音片段中选取语音识别结果与密码字符中对应位置的密码字符相一致的语音片段作为待验证语音片段待验证语音片段包括多个识别结果一致字符的语音片段。

声纹注册模块911可用于获取预定用户的注册语音，注册语音包括多个注册语音片段，多个注册语音片段中的各个注册语音片段对应单个字符；计算各个注册语音片段的身份子向量，获得多个注册语音片段的多个身份子向量。多个注册语音片段包括各个一位数字的注册语音片段。

声纹注册模块911还可用于分别提取各个注册语音片段的特征向量；基于训练获得的通用背景模型和特征向量分别获得各个注册语音片段的高斯均值超矢量；基于各个注册语音片段的高斯均值超矢量和训练获得的全局差异空间矩阵获得各个注册语音片段的身份子向量。

声纹识别模块912可用于对待验证语音进行声纹识别以实现用户验证。

声纹识别模块912还可用于获取待验证语音片段的身份向量，身份向量表征语音的说话人特征和信道特征；获取待验证语音片段对应的密码字符的预定用户的身份向量；基于信道补偿算法计算待验证语音片段的身份向量与预定用户的身份向量的相似度。

声纹识别模块912还可用于获取多个识别结果一致字符的语音片段的多个身份子向量；将多个身份子向量进行拼接，获得待验证语音片段的身份向量；获取多个识别结果一致字符的语音片段对应的多个密码字符的预定用户的多个身份子向量；将预定用户的多个身份子向量进行拼接，获得预定用户的身份向量。

声纹识别模块912还可用于从多个注册语音片段的多个身份子向量中获取预定用户的多个身份子向量。

本公开实施例提供的装置中的各个模块的具体实现可以参照上述方法中的内容，此处不再赘述。

图10示出本公开实施例中一种电子设备的结构示意图。需要说明的是，图10示出的设备仅以计算机系统为示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，设备1000包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有设备1000操作所需的各种程序和数据。CPU1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本公开的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括密码获取模块、语音采集模块、语音识别模块、语音切分模块、语音选取模块和声纹识别模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，密码获取模块还可以被描述为“获取生成的提示密码的模块”。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取密码字符；获取输入语音；对输入语音进行语音识别获得输入语音的语音识别结果；根据输入语音的语音识别结果对输入语音按照字符进行切分，获得多个语音片段；从多个语音片段中选取语音识别结果与密码字符中对应位置的密码字符相一致的语音片段作为待验证语音片段；对待验证语音进行声纹识别以实现用户验证。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种声纹验证方法，其特征在于，包括：

获取密码字符；

获取输入语音；

对所述输入语音进行语音识别获得所述输入语音的语音识别结果；

根据所述输入语音的语音识别结果对所述输入语音按照字符进行切分，获得多个语音片段；

从所述多个语音片段中选取语音识别结果与所述密码字符中对应位置的密码字符相一致的语音片段作为待验证语音片段；

对所述待验证语音片段进行声纹识别以实现用户验证。

2.根据权利要求1所述的方法，其特征在于，所述对所述待验证语音片段进行声纹识别以实现用户验证包括：

获取所述待验证语音片段的身份向量，所述身份向量表征语音的说话人特征和信道特征；

获取所述待验证语音片段对应的密码字符的预定用户的身份向量；

基于信道补偿算法计算所述待验证语音片段的身份向量与所述预定用户的身份向量的相似度。

3.根据权利要求2所述的方法，其特征在于，所述待验证语音片段包括多个识别结果一致字符的语音片段；

所述获取所述待验证语音片段的身份向量包括：

获取所述多个识别结果一致字符的语音片段的多个身份子向量；

将所述多个身份子向量进行拼接，获得所述待验证语音片段的身份向量；

所述获取所述待验证语音片段对应的密码字符的预定用户的身份向量包括：

获取所述多个识别结果一致字符的语音片段对应的多个密码字符的所述预定用户的多个身份子向量；

将所述预定用户的多个身份子向量进行拼接，获得所述预定用户的身份向量。

4.根据权利要求3所述的方法，其特征在于，在所述对所述待验证语音片段进行声纹识别以实现用户验证之前，所述方法还包括：

获取所述预定用户的注册语音，所述注册语音包括多个注册语音片段，所述多个注册语音片段中的各个注册语音片段对应单个字符；

计算所述各个注册语音片段的身份子向量，获得所述多个注册语音片段的多个身份子向量；

所述获取所述多个识别结果一致字符的语音片段对应的密码字符的所述预定用户的多个身份子向量包括：

从所述多个注册语音片段的多个身份子向量中获取所述预定用户的多个身份子向量。

5.根据权利要求4所述的方法，其特征在于，所述计算所述各个注册语音片段的身份子向量包括：

分别提取所述各个注册语音片段的特征向量；

基于训练获得的通用背景模型和所述特征向量分别获得所述各个注册语音片段的高斯均值超矢量；

基于所述各个注册语音片段的高斯均值超矢量和训练获得的全局差异空间矩阵获得所述各个注册语音片段的身份子向量。

6.根据权利要求3-5中任一项所述的方法，其特征在于，所述多个注册语音片段包括各个一位数字的注册语音片段；

所述密码字符包括随机生成的多位数字。

7.根据权利要求1所述的方法，其特征在于，在所述根据所述输入语音的语音识别结果对所述输入语音按照字符进行切分之前，所述对所述输入语音进行语音识别获得所述输入语音的语音识别结果之后，所述方法还包括：

8.一种声纹验证装置，其特征在于，包括：

密码获取模块，用于获取密码字符；

语音采集模块，用于获取输入语音；

语音识别模块，用于对所述输入语音进行语音识别获得所述输入语音的语音识别结果；

语音切分模块，用于根据所述输入语音的语音识别结果对所述输入语音按照字符进行切分，获得多个语音片段；

语音选取模块，用于从所述多个语音片段中选取语音识别结果与所述密码字符中对应位置的密码字符相一致的语音片段作为待验证语音片段；

声纹识别模块，用于对所述待验证语音片段进行声纹识别以实现用户验证。

9.一种设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，其特征在于，所述处理器执行所述可执行指令时实现如权利要求1-7中任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如权利要求1-7中任意一项所述的方法。