CN110349585B

CN110349585B - 语音认证方法和信息处理设备

Info

Publication number: CN110349585B
Application number: CN201810301678.1A
Authority: CN
Inventors: 刘柳; 石自强; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2023-05-05
Anticipated expiration: 2038-04-04
Also published as: CN110349585A

Abstract

提供了语音认证方法和信息处理设备。信息处理设备包括处理器，处理器被配置为：从预定元素集中随机选择至少一个元素；得到被测用户对所选元素的语音输入；将被测用户对每个所选元素的语音输入输入到预训练的神经网络模型，并提取该神经网络模型的一个层的输出数据，作为能够表征被测用户身份以及该元素的综合特征；将所获得的被测用户的关于每个所选元素的综合特征与基于特定用户对该元素的语音输入利用预训练的神经网络模型获得的综合特征进行比较，以至少部分地基于综合特征比较的结果判断被测用户是否为特定用户，其中，预训练的神经网络模型是利用训练语音数据通过以识别说话人身份和预定元素集中的元素作为联合任务进行训练而获得的。

Description

语音认证方法和信息处理设备

技术领域

本公开总体上涉及语音处理领域，具体而言，涉及基于文本相关的说话人确认的语音认证方法、能够实现该语音认证方法的信息处理设备和存储介质。

背景技术

说话人确认是一种通过语音来确认该语音的说话人身份是否为指定说话人的技术，也称为声纹确认。基于说话人确认的语音认证技术可以应用在信息安全、身份认证等场景，其在法院、医院、银行和军事机构等有很多重要应用。

目前，实现说话人确认的方式包括文本无关的说话人确认以及文本相关的说话人确认。相较于传统的文本无关的说话人确认，文本相关的说话人确认同时确认语音的说话人身份以及语音的内容是否为指定内容，具有更快的处理速度，因而越来越受到广泛关注。

因此，文本相关的说话人确认具有重要的应用价值。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于对现有的文本相关的说话人确认技术进行改进的需求，本发明的目的之一是提供一种语音认证方法以及能够实现该语音认证方法的信息处理设备和存储介质，其能够进行文本相关的用户身份确认。

根据本公开的一个方面，提供了一种语音认证方法，其包括：从预定元素集中随机选择至少一个元素；得到被测用户对所选元素的语音输入；将被测用户对每个所选元素的语音输入输入到预训练的神经网络模型，并提取该神经网络模型的一个层的输出数据，作为能够表征被测用户身份以及该元素的综合特征；以及将所获得的被测用户的关于每个所选元素的综合特征与基于特定用户对该元素的语音输入利用预训练的神经网络模型获得的综合特征进行比较，以至少部分地基于综合特征比较的结果判断被测用户是否为特定用户，其中，预训练的神经网络模型是利用训练语音数据通过以识别说话人身份和预定元素集中的元素作为联合任务进行训练而获得的。

根据本公开的另一方面，提供了一种语音认证设备，其包括：元素选择单元，用于从预定元素集中随机选择至少一个元素；语音输入单元，用于得到被测用户对所选元素的语音输入；特征提取单元，用于将被测用户对每个所选元素的语音输入输入到预训练的神经网络模型，并提取该神经网络模型的一个层的输出数据，作为能够表征被测用户身份以及该元素的综合特征；特征比较单元，用于将所获得的被测用户的关于每个所选元素的综合特征与基于特定用户对该元素的语音输入利用预训练的神经网络模型获得的综合特征进行比较；以及判断单元，用于至少部分地基于综合特征比较的结果判断被测用户是否为特定用户。在综合特征提取单元中使用的预训练的神经网络模型是利用训练语音数据，通过以识别说话人身份和预定元素集中的元素作为联合任务进行训练而获得的。

依据本公开的再一方面，还提供了一种信息处理设备，其包括处理器，所述处理器被配置为：从预定元素集中随机选择至少一个元素；得到被测用户对所选元素的语音输入；将被测用户对每个所选元素的语音输入输入到预训练的神经网络模型，并提取该神经网络模型的一个层的输出数据，作为能够表征被测用户身份以及该元素的综合特征；以及将所获得的被测用户的关于每个所选元素的综合特征与基于特定用户对该元素的语音输入利用预训练的神经网络模型获得的综合特征进行比较，以至少部分地基于综合特征比较的结果判断被测用户是否为特定用户，其中，预训练的神经网络模型是利用训练语音数据通过以识别说话人身份和预定元素集中的元素作为联合任务进行训练而获得的。

依据本公开的其它方面，还提供了一种使得计算机实现如上所述的语音认证方法的程序。

依据本公开的又一方面，还提供了相应的存储介质，其存储有机器可读取的指令代码，所述指令代码在由机器读取并执行时，能够使得机器执行上述语音认证方法。所述指令代码包括指令代码部分，用于进行下述操作：从预定元素集中随机选择至少一个元素；得到被测用户对所选元素的语音输入；将被测用户对每个所选元素的语音输入输入到预训练的神经网络模型，并提取该神经网络模型的一个层的输出数据，作为能够表征被测用户身份以及该元素的综合特征；以及将所获得的被测用户的关于每个所选元素的综合特征与基于特定用户对该元素的语音输入利用预训练的神经网络模型获得的综合特征进行比较，以至少部分地基于综合特征比较的结果判断被测用户是否为特定用户，其中，预训练的神经网络模型是利用训练语音数据通过以识别说话人身份和预定元素集中的元素作为联合任务进行训练而获得的。

上述根据本公开实施例的各个方面，至少能够获得以下益处：利用本公开所提供的语音认证方法、语音认证设备、信息处理设备以及存储介质，能够进行文本相关的用户身份认证，避免了先前认证时的语音输入被录音用于当前认证而导致用户被恶意冒充的安全隐患。

通过以下结合附图对本公开的最佳实施例的详细说明，本公开的这些以及其他优点将更加明显。

附图说明

本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示意性地示出根据本公开实施例的语音认证方法的一个示例流程的流程图。

图2示出了在图1的语音认证方法的综合特征提取步骤中所采用的神经网络模型的示例结构。

图3是示意性地示出根据本公开实施例的语音认证方法的另一个示例流程的流程图。

图4是示意性地示出根据本公开实施例的语音认证方法的的又一个示例流程的流程图。

图5是示意性地示出根据本公开实施例的语音认证设备的一个示例结构的示意性框图。

图6是示出了可用来实现根据本公开实施例的信息处理方法和设备的一种可能的硬件配置的结构简图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

根据本公开的一个方面，提供了一种语音认证方法。图1是示意性地示出根据本公开实施例的语音认证方法100的示例流程的流程图。

如图1所示，语音认证方法100可以包括：元素选择步骤S101，从预定元素集中随机选择至少一个元素；语音输入步骤S103，得到被测用户对所选元素的语音输入；综合特征提取步骤S105，将被测用户对每个所选元素的语音输入输入到预训练的神经网络模型，并提取该神经网络模型的一个层的输出数据，作为能够表征被测用户身份以及该元素的综合特征；综合特征比较步骤S107，将所获得的被测用户的关于每个所选元素的综合特征与基于特定用户对该元素的语音输入利用预训练的神经网络模型获得的综合特征进行比较；以及判别步骤S109，至少部分地基于综合特征比较的结果判断被测用户是否为特定用户。在步骤S107中使用的预训练的神经网络模型是利用训练语音数据，通过以识别说话人身份和预定元素集中的元素作为联合任务进行训练而获得的。

利用本实施例的语音认证方法，每次认证时用户的语音输入是基于随机选择的元素而进行的，从而杜绝了使用固定内容进行认证可能导致的使用上一次认证的录音冒充的安全隐患，具有更高的安全性。而且，本实施的语音认证方法简单地利用通过一个神经网络模型提取的综合特征来同时表征用户身份及相关文本，从而可以简化进行用户身份认证的处理。

作为示例，预定元素集中的元素可以包括数字、字母、和/或单词。例如，预定元素集可包括0到9的数字、26个字母或其中的若干字母、10到20个预定单词、或者上述各项的组合。替选地，预定元素集中的元素还可以包括多个不同颜色的图片、不同形状的几何图形、其中一个字以空格取代的常用成语等，并且在用户进行语音输入时需要用户以语音方式输入所选图片的颜色、所选几何图形的形状、所选成语中缺少的字等。以下将主要以预定元素集中的元素包括数字、字母、和/或单词的情况为例进行说明，但本领域技术人员可以理解，本申请可以适当地应用上述替选形式或任意其他适当形式的预定元素集，在此不再赘述。

作为示例，例如当预定元素集中的元素包括数字时，在元素选择步骤S101中，可以根据给定概率分布如均匀分布、泊松分布等，基于作为预定元素集的包括0到9的数字等来随机生成数字串，作为多个所选元素。

在一个优选实施例中，在元素选择步骤S101中，从预定元素集中随机选择的元素的数目在预定元素集中的元素的总数目的三分之一与二分之一之间。以预定元素集包括0到9的10个数字为例，所选元素的数目例如可以是5。

在本优选实施例中，仅选择预定元素集中的一部分元素来用于认证，因而相应地用户在语音输入步骤S103中的语音输入较短(例如不到一秒或只有几秒)。相较于传统的文本相关说话人确认技术所需的30秒语音长度，这样的较短语音输入有利于加快后续处理的速度。而且，由于在综合特征提取步骤中通过一个神经网络模型提取了同时表征用户身份及相关文本的综合特征、并且判断步骤中基于这样的综合特征与特定用户的相应综合特征的比较结果，因而尽管使用的语音输入较短，但仍可以安全地确认语音的说话人身份。

在综合特征提取步骤S105中，通过将被测用户对每个所选元素的语音输入输入到预训练的神经网络模型而得到综合特征。此处，如果用户对多个所选元素连续进行了语音输入而得到了待认证的语音序列，则可使用自动语音识别系统(ASR)将待认证语音序列划分为分别与各个所选元素相对应的各个语音输入，即得到用户对每个所选元素的语音输入。替选地，如果用户每次单独对多个所选元素中的每个所选元素进行语音输入，则可以直接得到用户对每个所选元素的语音输入。无论以哪种方式得到语音输入，本领域技术人员可以理解，都可以对语音输入数据进行诸如分帧、加窗、去静音和噪音、转换到频域等语音处理领域中的常规预处理，在此不进行展开描述。另外，注意，“将用户对每个所选元素的语音输入输入到神经网络模型”这一表述也可以涵盖例如将该语音输入进行各种常规预处理之后输入到神经网络模型的情况。

以下将参照图2描述在上述的综合特征提取步骤S105中所采用的神经网络模型的示例结构以及综合特征提取步骤S105的进一步的细节。

图2示出了在图1的语音认证方法的综合特征提取步骤中所采用的神经网络模型的示例结构。如图2所示，该神经网络模型200包括输入层201、多个隐藏层202～204、输出层205等。对于从输入层201输入的语音数据，神经网络模型经由多个隐藏层202～204的处理，在输出层205获得处理结果(例如针对每个说话人身份的概率或针对每个元素的概率)。更具体地，输出层205例如包括第一部分205-1和第二部分205-2，第一部分205-1表示“识别N个说话人Spki之一”的任务的输出结果，第二部分205-2表示“识别预定元素集中的M个元素Elej之一”的任务的输出结果，其中，i＝1…N，j＝1…M,N、M为自然数)。即，输出层第一部分205-1的每个节点可以表示输入语音数据属于说话人i的概率，输出层第二部分205-2中的每个节点可以表示输入语音属于元素j的概率。例如，可以分别取上述两类概率中的最大值作为该模型针对输入语音数据所识别出的说话人和元素。

作为示例，可以通过下述方式进行诸如图2中所示的神经网络模型的训练：利用标记有说话人身份和元素的、不同说话人对预定元素集中的各个元素的训练语音数据，训练神经网络模型，使得神经网络模型针对输入语音数据输出相应的说话人身份和元素。

可以利用各种适于训练具有联合任务的神经网络模型的方式来进行上述训练。例如，可以针对“识别说话人身份”和“识别预定元素集中的元素”这两个任务分别设置表示识别(或分类)结果准确性的基于交叉熵的损失函数L_Spk、L_Ele，并且以两个损失函数之和作为综合损失函数L_overall：

L_overall＝L_Spk+L_Ele…公式(1)

在训练过程中，例如可以以损失函数L_overall取得最小值为目标通过梯度下降法等各种适当方式对神经网络模型进行训练。

作为示例，与“识别说话人身份”任务相关联的损失函数L_Spk可以采用Softmax损失函数的形式：

其中，S_1i是例如连接在神经网络模型的全连接层之后的Softmax层(例如图2中的输出层205)中的第一输出向量S₁(例如图2中的输出层第一部分205-1的输出数据)的第i个值，其表示训练语音数据(或训练样本)属于第i个说话人的概率，y_1i为样本标签，i取值为1到N，N表示所有训练样本所涉及的说话人的个数。

类似地，与“识别预定元素集中的元素”任务相关联的损失函数L_Ele也可以采用Softmax损失函数的形式：

其中，S_2j是例如连接在神经网络模型的全连接层之后的Softmax层(例如图2中的输出层205)的第二输出向量S₂(例如图2中的输出层第二部分205-2的输出数据)的第j个值，其表示训练语音数据(或训练样本)属于预定元素集中的第j个元素的概率，y_2j为样本标签，j取值为1到M，M表示预定元素集中的元素的总个数。注意，Softmax层的第一输出向量S₁和第二输出向量S₂分别对应于与每个任务相关联的输出数据，并且共同构成了Softmax层的输出。

注意，尽管以上以Softmax形式的损失函数为例描述了L_Spk和L_Ele，但在本公开内容的基础上，本领域技术人员可以采用任何适当的方式构建相关的损失函数，并通过利用这样的损失函数进行训练而获得本实施方式的语音认证方法中所使用的神经网络模型。

例如通过上述方式训练得到的神经网络模型经由联合训练而获得了识别说话人身份和预定元素集中的元素这两方面的能力、进而获得了表征这两方面的特征的能力，从而可以利用该神经网络模型作为能够提取综合特征的特征提取器。

在将用户对给定元素的语音输入输入到例如上述的神经网络模型之后，可以将模型的一个层的输出数据作为能够表征识别说话人身份及该元素的综合特征。作为示例，上述一个层可以是神经网络的输入层和输出层以外的层，例如图2中所示的多个隐藏层202～204中的一个层。

在一个优选实施例中，所采用的神经网络模型为深度神经网络(DNN)模型。此时，作为示例，该神经网络模型中被提取输出数据作为综合特征的一个层可以为深度神经网络中实现信息集中和降维的层。

例如，上述实现信息集中和降维的层可以是深度神经网络中的Bottleneck层(瓶颈层)。Bottle neck层是DNN模型结构中一个特殊的隐藏层，该层的特点是比普通的隐藏层节点数少，通常在输出层的前两层或前一层。由于该层的节点较少，具有信息集中、维度较低、便于保存和计算等特点，因此利用该层的输出数据作为所提取的综合特征可以有利地降低处理负荷。在图2的示例中，以实线框示出的隐藏层204即为Bottle neck层。

注意，“将神经网络模型的一个层的输出数据作为综合特征”的表述涵盖了对上述输出数据进行进一步处理而获得综合特征的情况。例如，可以获取谷歌公司(注册商标)提出的D-vector(D矢量)作为上述综合特征：可以提取用户针对给定元素的语音输入中的每一帧语音的滤波器组能量特征作为DNN输入，从最后一个隐藏层提取输出数据、进行L2正则化，然后将其累加起来，得到的向量即为D矢量，可以将其作为用户针对给定元素的语音输入的综合特征。

在例如以上述方式利用训练好的神经网络模型提取了综合特征之后，在综合特征比较步骤S107中，将所获得的被测用户的关于每个所选元素的综合特征与基于特定用户对该元素的语音输入利用预训练的神经网络模型获得的综合特征进行比较。作为示例，在应用本实施例的语音认证方法之前，可以使特定用户针对预定元素集中的每个元素提供语音输入，从而预先利用神经网络模型获得特定用户的关于每个元素的综合特征以进行“注册”处理。可选地，进行上述“注册”时，例如可以使特定用户针对每个元素提供一次以上语音输入(例如三次语音输入)，并对从每次语音输入中提取的综合特征求平均以得到该综合特征的均值，作为特定用户的每个元素的综合特征。

作为示例，对综合特征进行比较可以包括利用余弦距离方法进行比较。即，可以计算两个综合特征之间的余弦距离作为这两个综合特征之间的相似度得分。例如，假设特定用户对所选元素h的语音输入的综合特征为F_Th而特定用户对元素h的语音输入的综合特征为F_Eh(其中，h＝1…K,K为所选元素的个数并且为自然数)，并且每个综合特征为d维矢量(d为自然数)，则可以计算这两个矢量F_Th和F_Eh之间的夹角θ_h的余弦，即两个综合特征F_Th和F_Eh之间的余弦距离如下：

公式(4)中的下标l用于表示两个d维矢量F_Th和F_Eh中的第l个元素，其取值为1到d。可以针对每个所选元素h(h＝1…K,K为所选元素的个数)按照公式(4)计算相应的两个综合特征之间的余弦距离，作为与该元素h相关的两个综合特征之间的相似度得分。接下来，例如可以将与各个所选元素相关的综合特征之间的相似度得分求和，作为整体综合相似度。

在判断步骤S109中，可以至少部分地基于综合特征比较的结果判断被测用户是否为特定用户。例如，可以将上述综合特征比较步骤S107得到的整体综合相似度作为第一相似度Similarity₁，并至少部分地基于第一相似度Similarity₁与预定的第一阈值Threshold₁的比较结果，判断被测用户是否为特定用户。例如，可以在第一相似度Similarity₁大于或等于第一阈值Threshold₁时判断被测用户为特定用户；反之，则给出否定判断。该阈值可以在预先训练神经网络模型时，根据训练语音数据的相似度得分情况而设置，在此不再展开说明。

以上参照图1和图2描述了根据本公开实施例的语音认证方法的一个示例流程及其中一些步骤的优选实现方式或优选示例的细节。以下将参照图3和图4描述在图1的语音认证方法的示例流程的基础上得到的另外的示例流程。在图3和图4的示例流程中，除了利用提取和利用综合特征进行判断之外，还应用了另外的判断标准。

首先参照图3，图3是示意性地示出根据本公开实施例的语音认证方法的另一个示例流程的流程图。在图3的示例流程300中，除了与图1所示的流程100中的对应附图标记所代表的步骤类似的步骤S301～S309之外，还另外地包括了下述步骤：身份特征提取步骤S305A，将被测用户对所选元素的语音输入输入到预训练的身份识别神经网络模型，并提取身份识别神经网络模型的一个层的输出数据，作为能够表征被测用户身份的身份特征；以及身份特征比较步骤S307A，将所获得的被测用户的身份特征与基于特定用户对预定元素集的语音输入利用身份识别神经网络模型获得的身份特征进行比较。此外，在示例流程300的步骤S309中，判断被测用户是否为特定用户时，至少部分地基于步骤S307中的综合特征比较的结果和步骤S307A中的身份特征比较的结果判断被测用户是否为特定用户。除了上述步骤S305A、S307A、S309以外，示例流程300中的各个步骤可以与图1所示的流程100中的对应步骤相同，因此以下将主要针对存在差异的步骤S305A、S307A、S309进行说明。

注意，尽管为了便于说明起见，在图3中将步骤S305A和S307A示出为分别跟随在步骤S305和S307之后，但本示例不限于此。例如，步骤S305A和S307A可以在步骤S305和S307之前执行，或者与之交替或并行地执行，只要在步骤S309之前可以获得步骤S307和步骤S307A中的比较结果即可，在此不再赘述。

在本示例流程300中，身份特征提取步骤S305A中所使用的身份识别神经网络模型可以是利用预先标记了说话人身份的训练语音数据、以识别说话人身份为任务进行训练而获得神经网络模型。作为示例，该神经网络模型例如可以是基于卷积神经网络(CNN)或深度神经网络(DNN)的分类器，其所采用的训练语音数据例如可以是多个不同说话人针对任意语音内容的语音输入(例如可以是约30秒左右的语音输入)，这些语音输入的内容可以与认证时使用的预定元素集中的元素相同、相关或无关。可以利用各种现有技术方案构建和训练这样的神经网络模型，在此不再进一步描述。

在身份特征提取步骤S305A中，通过将被测用户对多个所选元素的语音输入共同输入到预训练的身份识别神经网络模型而得到身份特征。此处，与图1的步骤S105类似地，“将用户对多个所选元素的语音输入输入到身份识别神经网络模型”这一表述也可以涵盖例如将该语音输入进行常规预处理之后输入到神经网络模型的情况。

作为示例，在将用户对多个所选元素的语音输入输入到身份识别神经网络模型之后，可以将该模型的一个层的输出数据作为能够表征识别说话人身份的身份特征。作为示例，上述一个层可以是神经网络的输入层和输出层以外的层，例如多个隐藏层中的一个层。这样获得的身份特征的示例包括I向量(I-vector)，其可被视为通过将语音数据投影到说话人子空间而得到的包含了说话人信息的特征。

在利用例如上述的训练好的身份识别模型提取了身份特征之后，在身份特征比较步骤S307A中，将被测用户的身份特征与基于特定用户对预定元素集中的所有元素的语音输入而利用预训练的身份识别神经网络模型获得的身份特征进行比较。作为示例，在应用本实施例的语音认证方法之前，可以使特定用户针对预定元素集中的所有元素提供语音输入，从而预先利用身份识别神经网络模型获得特定用户的身份特征以进行“注册”处理。

作为示例，对身份特征进行比较可以包括利用欧氏距离进行比较。例如，可以计算被测用户与特定用户的身份特征之间的欧氏距离的倒数，作为与身份特征相关的相似度得分，下文中也可称为身份相似度。

在判断步骤S309中，可以至少部分地基于综合特征比较的结果和身份特征比较的结果来判断被测用户是否为特定用户。例如，作为综合特征比较的结果，例如可以采用表示被测用户和特定用户的各个综合特征之间的相似度之和的整体综合相似度(参见以上关于步骤S107的描述)，而作为身份特征比较的结果，可以采用上述身份相似度。在一个示例中，可以将整体综合相似度与身份相似度进行加权求和，作为第二相似度Similarity₂。相应地，可以至少部分地基于第二相似度Similarity₂与预定的第二阈值Threshold₂的比较结果，判断被测用户是否为特定用户。例如，可以在第二相似度Similarity₂大于或等于第二阈值Threshold₂时判断被测用户为特定用户；反之，则给出否定判断。上述加权系数以及相应的阈值可以在预先训练相应的神经网络模型时，根据训练语音数据的相似度得分情况而适当地设置，在此不再展开说明。

在本示例中，由于附加地使用了表征说话人身份的身份特征而融合了多种判断标准，可以进一步改进语音认证方法的精度。

接下来参照图4，图4是示意性地示出根据本公开实施例的语音认证方法的又一个示例流程的流程图。在图4的示例流程中，除了利用提取和利用综合特征和身份特征进行判断之外，还另外应用了语音识别方法。

在图4的示例流程400中，除了与图3所示的流程300中的对应附图标记所代表的步骤类似的步骤S401～S409、S405A、S407A之外，还另外地包括了下述步骤：语音识别步骤S405B，对被测用户对所选元素的语音输入进行语音识别；以及语音识别结果比较步骤S407B，将语音识别的结果与所选元素进行比较。此外，在示例流程400的步骤S409中，判断被测用户是否为特定用户时，至少部分地基于步骤S407中的综合特征比较的结果、步骤S407A中的身份特征比较的结果和步骤S407B中的语音识别结果比较的结果来判断被测用户是否为特定用户。除了上述步骤S405B、S407B、S409以外，示例流程300中的各个步骤可以与图3所示的流程300中的对应步骤相同，因此以下将主要针对存在差异的步骤S405B、S407B、S409进行说明。

注意，与图3中的步骤S305A和S307A类似地，图4中的步骤S405A、S405B、S407A、S407B的执行顺序不限于如图所示的顺序，而是可以以其他适当顺序执行，只要在步骤S409的判断之前可以获得步骤S407、S407A、S407B中的比较结果即可，在此不再赘述。

在本示例流程400中，语音识别步骤S405B中可以利用各种现有的技术诸如自动语音识别(ASR)系统等识别出被测用户对多个所选元素的语音输入的内容，即，识别出被测用户以语音方式输入的各个元素，作为语音识别的结果。

此后，在语音识别结果比较步骤S407B中，将语音识别的结果与在元素选择步骤S401中获得的所选元素进行比较。作为示例，可以计算语音识别的结果与所选元素的重合率，作为与语音识别相关的相似度得分，下文中也可称为元素相似度。

在判断步骤S409中，可以至少部分地基于综合特征比较的结果、身份特征比较的结果和语音识别结果比较的结果来判断被测用户是否为特定用户。例如，作为综合特征比较的结果，可以采用表示被测用户和特定用户的各个综合特征之间的相似度之和的整体综合相似度(参见以上关于图1中的步骤S107的描述)；作为身份特征比较的结果，可以采用表示被测用户和特定用户的身份特征之间的相似度的身份相似度(参见以上关于图3中的步骤SS07A的描述)；作为语音识别结果比较的结果，可以采用上述步骤S407B中获得的元素相似度。在一个示例中，可以将整体综合相似度、身份相似度、以及元素相似度进行加权求和，作为第三相似度Similarity₃，并至少部分地基于第三相似度Similarity₃与预定的第三阈值Threshold₃的比较结果，判断被测用户是否为特定用户。例如，可以在第三相似度Similarity₃大于或等于第三阈值Threshold₃时判断被测用户为特定用户；反之，则给出否定判断。上述加权系数以及相应的阈值可以在预先训练相应的神经网络模型时，根据训练语音数据的相似度得分情况而适当地设置，在此不再展开说明。

在本示例中，由于附加地使用了表征说话人身份的身份特征连同语音识别的结果而融合了多种判断标准，可以进一步改进语音认证方法的精度。

以上参照图1至图4描述了根据本公开的实施例的语音认证方法。利用该语音认证方法，用户在每次进行认证时输入的语音序列是随机生成的，从而杜绝了使用固定内容进行认证可能导致的使用上一次认证的录音冒充的安全隐患，具有更高的安全性。

根据根本公开的另一方面，提供了一种语音认证设备。图5是示意性地示出根据本公开实施例的语音认证设备的示例结构的示意性框图。

如图5所示，语音认证设备500可以包括：元素选择单元501，用于从预定元素集中随机选择至少一个元素；语音输入单元502，用于得到被测用户对所选元素的语音输入；特征提取单元503，用于将被测用户对每个所选元素的语音输入输入到预训练的神经网络模型，并提取该神经网络模型的一个层的输出数据，作为能够表征被测用户身份以及该元素的综合特征；特征比较单元504，用于将所获得的被测用户的关于每个所选元素的综合特征与基于特定用户对该元素的语音输入利用预训练的神经网络模型获得的综合特征进行比较；以及判断单元505，用于至少部分地基于综合特征比较的结果判断被测用户是否为特定用户。在综合特征提取单元504中使用的预训练的神经网络模型是利用训练语音数据，通过以识别说话人身份和预定元素集中的元素作为联合任务进行训练而获得的。

注意，特征提取单元503不仅可以实现诸如以上参照图1描述的综合特征提取步骤S105的基本功能，还能附加地实现参照图3描述的身份特征提取步骤S305A的功能，并且可以进一步附加地实现以上参照图4描述的语音识别步骤S405B的功能。类似地，特征比较单元504不仅可以实现诸如以上参照图1描述的综合特征比较步骤S107的基本功能，还能附加地实现参照图3描述的身份特征比较步骤S307A的功能，并且可以进一步附加地实现以上参照图4描述的语音识别步骤S407B的功能。相应地，上述语音认证设备及其各个单元例如可以进行以上参照图1至图4描述的语音认证方法及其各个步骤的操作和/或处理并实现类似的效果，在此不再进行重复说明。

根据根本公开的又一方面，提供了一种信息处理设备。该信息处理设备可以实现根据本公开实施例的语音认证方法，其可以包括处理器，该处理器被配置为：从预定元素集中随机选择至少一个元素；得到被测用户对所选元素的语音输入；将被测用户对每个所选元素的语音输入输入到预训练的神经网络模型，并提取该神经网络模型的一个层的输出数据，作为能够表征被测用户身份以及该元素的综合特征；以及将所获得的被测用户的关于每个所选元素的综合特征与基于特定用户对该元素的语音输入利用预训练的神经网络模型获得的综合特征进行比较，以至少部分地基于综合特征比较的结果判断被测用户是否为特定用户。上述预训练的神经网络模型是利用训练语音数据，通过以识别说话人身份和预定元素集中的元素作为联合任务进行训练而获得的。

信息处理设备的处理器例如可以被配置为进行以上参照图1至图4描述的语音认证方法及其各个步骤的操作和/或处理并实现类似的效果，在此不再进行重复说明。

作为示例，预定元素集中的元素可以包括数字、字母、和/或单词。

在一个优选实施例中，从预定元素集中随机选择的元素的数目在预定元素集中的元素的总数目的三分之一与二分之一之间。

作为示例，可以通过下述方式进行神经网络模型的训练：利用标记有说话人身份和元素的、不同说话人对预定元素集中的各个元素的训练语音数据，训练神经网络模型，使得神经网络模型针对输入语音数据输出相应的说话人身份和元素。

作为示例，信息处理设备的处理器可以进一步被配置为利用余弦距离方法对综合特征进行比较。

作为示例，信息处理设备的处理器可以进一步被配置为：将被测用户对所选元素的语音输入输入到预训练的身份识别神经网络模型，并提取身份识别神经网络模型的一个层的输出数据，作为能够表征被测用户身份的身份特征；以及将所获得的被测用户的身份特征与基于特定用户对预定元素集的语音输入利用身份识别神经网络模型获得的身份特征进行比较，以至少部分地基于身份特征比较的结果和综合特征比较的结果判断被测用户是否为特定用户。

作为进一步的示例，信息处理设备的处理器可以还被配置为：对被测用户对所选元素的语音输入进行语音识别；以及将语音识别的结果与所选元素进行比较，以至少部分地基于该比较的结果、身份特征比较的结果以及综合特征比较的结果来判断被测用户是否为特定用户。

图6是示出了可用来实现根据本公开实施例的信息处理设备和语音认证方法的一种可能的硬件配置700的结构简图。

在图6中，中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中，还根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。

下述部件也连接到输入/输出接口605：输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡例如LAN卡、调制解调器等)。通信部分609经由网络例如因特网执行通信处理。根据需要，驱动器610也可连接到输入/输出接口605。可拆卸介质611例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器610上，使得从中读出的计算机程序可根据需要被安装到存储部分608中。

此外，本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时，可执行上述根据本公开实施例的语音认证方法。相应地，用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。

即，本公开还提出了一种存储介质，其存储有机器可读取的指令代码，所述指令代码在由机器读取并执行时，能够使得机器执行上述根据本公开实施例的语音认证方法。所述指令代码包括指令代码部分，用于进行下述操作：从预定元素集中随机选择至少一个元素；得到被测用户对所选元素的语音输入；将被测用户对每个所选元素的语音输入输入到预训练的神经网络模型，并提取该神经网络模型的一个层的输出数据，作为能够表征被测用户身份以及该元素的综合特征；以及将所获得的被测用户的关于每个所选元素的综合特征与基于特定用户对该元素的语音输入利用预训练的神经网络模型获得的综合特征进行比较，以至少部分地基于综合特征比较的结果判断被测用户是否为特定用户，其中，预训练的神经网络模型是利用训练语音数据通过以识别说话人身份和预定元素集中的元素作为联合任务进行训练而获得的。

上述存储介质例如可以包括但不限于磁盘、光盘、磁光盘、半导体存储器等。

在上面对本公开具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

此外，本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。

此外，显然，根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

此时，只要该系统或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，客户信息处理终端通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序，也可以实现本公开的各实施例。

综上，根据本公开实施例，本公开提供了如下方案，但不限于此：

方案1.一种信息处理设备，所述设备包括:

处理器，所述处理器被配置为：

从预定元素集中随机选择至少一个元素；

得到被测用户对所选元素的语音输入；

将被测用户对每个所选元素的语音输入输入到预训练的神经网络模型，并提取该神经网络模型的一个层的输出数据，作为能够表征被测用户身份以及该元素的综合特征；以及

将所获得的被测用户的关于每个所选元素的综合特征与基于特定用户对该元素的语音输入利用预训练的神经网络模型获得的综合特征进行比较，以至少部分地基于综合特征比较的结果判断被测用户是否为特定用户，

其中，预训练的神经网络模型是利用训练语音数据，通过以识别说话人身份和预定元素集中的元素作为联合任务进行训练而获得的。

方案2.如方案1所述的信息处理设备，

其中，通过下述方式进行神经网络模型的训练：利用标记有说话人身份和元素的、不同说话人对预定元素集中的各个元素的训练语音数据，训练神经网络模型，使得神经网络模型针对输入语音数据输出相应的说话人身份和元素。

方案3.如方案1或2所述的信息处理设备，其中，所述处理器进一步被配置为：

将被测用户对所选元素的语音输入输入到预训练的身份识别神经网络模型，并提取身份识别神经网络模型的一个层的输出数据，作为能够表征被测用户身份的身份特征；以及

将所获得的被测用户的身份特征与基于特定用户对预定元素集的语音输入利用身份识别神经网络模型获得的身份特征进行比较，以至少部分地基于身份特征比较的结果和综合特征比较的结果判断被测用户是否为特定用户。

方案4.如方案3所述的信息处理设备，其中，所述处理器进一步被配置为：

对被测用户对所选元素的语音输入进行语音识别；以及

将语音识别的结果与所选元素进行比较，以至少部分地基于该比较的结果、身份特征比较的结果以及综合特征比较的结果来判断被测用户是否为特定用户。

方案5.如方案1或2所述的信息处理设备，其中，神经网络模型为深度神经网络模型。

方案6.如方案5所述的信息处理设备，其中，该神经网络模型的一个层为深度神经网络中实现信息集中和降维的层。

方案7.如方案1或2所述的信息处理设备，其中，所述处理器被配置为利用余弦距离方法对综合特征进行比较。

方案8.如方案1或2所述的信息处理设备，其中，预定元素集中的元素包括数字、字母、和/或单词。

方案9.如方案1或2所述的信息处理设备，其中，从预定元素集中随机选择的元素的数目在预定元素集中的元素的总数目的三分之一与二分之一之间。

方案10.一种语音认证方法，包括：

从预定元素集中随机选择至少一个元素；

得到被测用户对所选元素的语音输入；

方案11.如方案10所述的语音认证方法，

方案12.如方案10或11所述的语音认证方法，其中，所述方法还包括：

将所获得的被测用户的身份特征与基于特定用户对预定元素集的语音输入利用身份识别神经网络模型获得的身份特征进行比较，

其中，在判断被测用户是否为特定用户时，至少部分地基于身份特征比较的结果和综合特征比较的结果判断被测用户是否为特定用户。

方案13.如方案12所述的语音认证方法，其中，所述方法还包括：

对被测用户对所选元素的语音输入进行语音识别；以及

将语音识别的结果与所选元素进行比较，

其中，在判断被测用户是否为特定用户时，至少部分地基于该比较的结果、身份特征比较的结果以及综合特征比较的结果来判断被测用户是否为特定用户。

方案14.如方案10或11所述的语音认证方法，其中，神经网络模型为深度神经网络模型。

方案15.如方案14所述的语音认证方法，其中，该神经网络模型的一个层为深度神经网络中实现信息集中和降维的层。

方案16.如方案10或11所述的语音认证方法，其中，对综合特征进行比较包括利用余弦距离方法进行比较。

方案17.如方案10或11所述的语音认证方法，其中，预定元素集中的元素包括数字、字母、和/或单词。

方案18.如方案10或11所述的语音认证方法，其中，从预定元素集中随机选择的元素的数目在预定元素集中的元素的总数目的三分之一与二分之一之间。

方案19.一种存储介质，其存储有机器可读取的指令代码，所述指令代码在由机器读取并执行时，能够使得机器执行一种语音认证方法，所述指令代码包括：

指令代码部分，用于进行下述操作：

从预定元素集中随机选择至少一个元素；

得到被测用户对所选元素的语音输入；

最后，还需要说明的是，在本公开中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备可能不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露，但是，应该理解，本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

Claims

1.一种信息处理设备，所述设备包括:

处理器，所述处理器被配置为：

从预定元素集中随机选择至少一个元素；

得到被测用户对所选元素的语音输入；

将被测用户对每个所选元素的语音输入输入到预训练的神经网络模型，并提取该神经网络模型的一个层的输出数据，作为能够表征被测用户身份以及该元素的综合特征，其中，该神经网络模型为深度神经网络模型并且该一个层为深度神经网络中实现信息集中和降维的层，并且该综合特征具有D矢量的形式；以及

2.如权利要求1所述的信息处理设备，

3.如权利要求1或2所述的信息处理设备，其中，所述处理器进一步被配置为：

4.如权利要求3所述的信息处理设备，其中，所述处理器进一步被配置为：

对被测用户对所选元素的语音输入进行语音识别；以及

5.如权利要求1或2所述的信息处理设备，其中，所述处理器被配置为利用余弦距离方法对综合特征进行比较。

6.如权利要求1或2所述的信息处理设备，其中，预定元素集中的元素包括数字、字母、和/或单词。

7.如权利要求1或2所述的信息处理设备，其中，从预定元素集中随机选择的元素的数目在预定元素集中的元素的总数目的三分之一与二分之一之间。

8.一种语音认证方法，包括：

从预定元素集中随机选择至少一个元素；

得到被测用户对所选元素的语音输入；