CN110188338B

CN110188338B - 文本相关的说话人确认方法和设备

Info

Publication number: CN110188338B
Application number: CN201810155360.7A
Authority: CN
Inventors: 石自强; 刘柳; 林慧镔; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-02-23
Filing date: 2018-02-23
Publication date: 2023-02-21
Anticipated expiration: 2038-02-23
Also published as: CN110188338A

Abstract

本发明公开了一种文本相关的说话人确认方法和设备。该方法包括：利用识别模型，根据输入音频数据，得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率；当第一概率与第二概率的差异大于预定阈值时，确认说话人身份，否则拒识说话人；其中，识别模型基于至少包括说话人视角和文本视角的多视角向量，所述多视角向量包括如下分量：多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声∈。

Description

文本相关的说话人确认方法和设备

技术领域

本发明一般地涉及信息处理技术领域。具体而言，本发明涉及一种能够充分利用各种信息进行文本相关的说话人确认的方法和设备。

背景技术

近年来，文本相关的说话人确认已经应用于许多领域中，例如，智能用户接口、国土安全、电话银行等。

传统的文本相关的说话人确认分立地利用捕获的信息，因此，效果有待提高。具体地，在包括文本相关的说话人确认在内的各种模式识别技术中，所提取和利用的特征往往是较为直观和可分立的特征。比如一个物体的形状特征和纹理特征就是可以分立的，对于一个物体可以仅考虑其形状而不考虑其纹理(纹理项为0)，或者反过来仅考虑其纹理而不考虑其形状(形状项为0)。对于这样的情形，对于每一个独立的特征可以分别建模，然后简单叠加即可。现有技术往往仅依赖于与所要提取和利用的特征相关联的特征来建模。比如语音识别，只能以识别内容为训练目标提取各种特征来进行大量训练，但总是无法剔除不同人的影响，从而使得语音识别产品在由不同的人使用时，总是需要经过一段不短时间的训练适应。其中的原因在于语音内容和具体的人的发声器官是不可分立的。比如在语音内容识别中，一句话说出来，必然是某个人说某句话，一句话不可能脱离人而存在；而在人的身份识别中，声纹也必然从具体的话语中提取。同样，对于说话人识别，也是以识别人为训练目标提取特征，无法剔除不同文本的影响。传统的文本相关的说话人确认是对内容识别和说话人识别的简单叠加，即对文本和说话人分别提取特征，分别建模，首先判断文本是否正确，然后判断说话人是否正确，最后叠加得出是否是特定说话人在进行特定文本的发言。

与此类似的情形还包括语种、年龄、性别、语音内容以及具体人的身份的交织。换句话说，如果用一个特征向量来表达一个人的语音时，上述各种因素必然同时存在于该特征向量中，本文称之为“多视角向量”，其中，例如语音内容、语种、年龄、性别、种族等，都是一个不可分立的“视角”：每一个视角必然存在某种选项而不可能为零。具体来说，一句话必然是人A或者人B或者……说出，不可能是“无人”说出；要提取声纹，一个人必然要发声说话，他不可能不说话，也就是说语音内容的视角也不可能为0。

因此，本发明旨在能够利用多视角向量中的所有信息进行文本相关的说话人确认。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的目的是提出一种能够利用多视角向量中的所有信息进行文本相关的说话人确认的方法和设备。

为了实现上述目的，根据本发明的一个方面，提供了一种文本相关的说话人确认方法，该方法包括：利用识别模型，根据输入音频数据，得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率；以及当第一概率与第二概率的差异大于预定阈值时，确认说话人身份，否则拒识说话人；其中，识别模型基于至少包括说话人视角和文本视角的多视角向量，所述多视角向量包括如下分量：多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声∈。

根据本发明的另一个方面，提供了一种文本相关的说话人确认设备，该设备包括：识别模型，根据输入音频数据，得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率；以及确认装置，当第一概率与第二概率的差异大于预定阈值时，确认说话人身份，否则拒识说话人；其中，识别模型基于至少包括说话人视角和文本视角的多视角向量，所述多视角向量包括如下分量：多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声∈。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述方法。

附图说明

参照下面结合附图对本发明的实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中：

图1示出了根据本发明的实施例的文本相关的说话人确认方法的流程图；

图2示出了说话人和文本的各种情形示例；

图3示出了根据本发明的实施例的文本相关的说话人确认设备的结构方框图；以及

图4示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。另外，还需要指出的是，在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。

在以下示例中，以文本和说话人为例，对多视角向量及基于多视角向量的识别模型进行描述。即多视角向量包括说话人和文本两个视角。应理解，多视角向量还可包括诸如语种、年龄、性别之类的其它信息(视角)。

多视角向量本身可以用任何传统的方式获取。例如，可以直接将待处理的对象或者信息用任何方式向量化而得到多视角向量。例如，可以采用下述方法对收集的语音数据进行处理，语音数据分割成帧长25毫秒、帧移10毫秒的信号，提取13维的梅尔频率倒谱系数(MFCCs)，以及该系数的一阶差分和二阶差分连接起来共39维作为特征。同时联合上下文共39帧(左25帧，右13帧)作为最终的特征共1521维(39*39)。这样就得到了1521维的向量，可以作为本公开的技术方案的处理对象。当然，本领域技术人员可以理解，对语音数据的处理也可以采用本领域公知的其它方法，在此不做赘述。

利用多视角向量的训练数据，采用最大期望算法EM，可以获得多视角向量的总体均值μ、说话人视角的分量u的协方差矩阵∑_u、文本视角的分量v的协方差矩阵∑_υ、以及噪声∈的协方差矩阵∑_∈。

由于引入了协方差矩阵，不需要人工设定多视角向量的各个视角的空间的维度。从训练数据得到的协方差矩阵更加准确，能够提高文本相关的说话人确认的准确度。

假设训练数据中有I个说话人，J种文本，每种文本每人对应H_ij段语音。记第i个人第j种文本的第k段语音对应的多视角声纹为x_ijk。假设x_ijk满足如下的双重联合贝叶斯模型(即本申请所说的识别模型)：

x_ijk＝μ+u_i+v_j+∈_ijk

其中μ表示所有x_ijk的平均值，u_i和v_j分别表示说话人特征和文本特征，并分别服从以对角矩阵∑_u和∑_υ为协方差的高斯分布，∈_ijk表示噪声信号，假设其为满足以对角矩阵∑_∈为协方差的高斯分布。设θ＝{μ，∑_u，∑_υ，∑_∈}，包含双重联合贝叶斯模型中所有的参数。假设模型中的参数符合下列分布：

p(υ_j)＝(υ_j|0，∑_υ).

其中，

是均值为μ、方差为∑的正态分布。

最大期望算法的基本过程如下：

首先，随机初始化参数θ＝{μ，∑_u，∑_υ，∑_∈}。

然后，对于训练数据中所有的I个说话人，J种文本，每种文本每人对应H_ij段语音提取声纹X＝{x_ijk：i＝1，...，I；j＝1，...，J；k＝1，...，H_ij}。

然后，(1)计算：

其中,B＝[I I]，I为单位阵。diag()表示以括号中内容为对角线元素的对角矩阵。

然后，(2)计算:

重复上述(1)、(2)直至收敛，输出参数θ＝{μ，∑_u，∑_υ，∑_∈}。

下面将参照图1描述根据本发明的实施例的文本相关的说话人确认方法的流程。

图1示出了根据本发明的实施例的文本相关的说话人确认方法的流程图。如图1所示，该方法包括如下步骤：利用识别模型，根据输入音频数据，得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率(步骤S1)；当第一概率与第二概率的差异大于预定阈值时，确认说话人身份，否则拒识说话人(步骤S2)；其中，识别模型基于至少包括说话人视角和文本视角的多视角向量，所述多视角向量包括如下分量：多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声∈。

具体地，在步骤S1中，利用识别模型，根据输入音频数据，得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率；其中，识别模型基于至少包括说话人视角和文本视角的多视角向量，所述多视角向量包括如下分量：多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声∈。

图2示出了说话人和文本的各种情形示例。

u₁、u₂表示说话人视角的特定选择，v₁、v₂表示文本视角的特定选择。x_t表示测试语音样本(即测试声纹)，x_s表示正确的说话人说正确的文本的语音样本(即目标声纹)，ε_t、ε_s为噪声项。左侧的模式M₀表示两段语音的说话人和说话内容均相同的情形，记作H₀，右侧的M₁、M₂、M₃分别表示说话人不同且文本相同的情形、说话人相同且文本不同的情形、说话人不同且文本不同的情形，即说话人和文本至少有一个不同的所有情形，记作H₁。

那么，可以计算两段声纹(目标声纹x_s，测试声纹x_t)属于模式H₀中的情形的似然性(第一概率)，即：

可以计算两段声纹(目标声纹x_s，测试声纹x_t)属于模式H₁中的三种情形的似然性(第二概率)，即：

在步骤S2中，当第一概率与第二概率的差异大于预定阈值时，确认说话人身份，否则拒识说话人。

如果第一概率

第二概率

则两段声纹属于同一个人，同一种文本；如果第一概率

第二概率

则两段声纹不属于同一个人，或者不是同一种文本。

当然，也可计算第一概率与第二概率之差或第一概率与第二概率之商，当差大于预定阈值或商大于预定阈值时，确认说话人身份，否则拒识说话人。

下面，将参照图3描述根据本发明的实施例的文本相关的说话人确认设备。

图3示出了根据本发明的实施例的文本相关的说话人确认设备的结构方框图。如图3所示，根据本发明的文本相关的说话人确认设备300包括：识别模型31，根据输入音频数据，得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率；以及确认装置32，当第一概率与第二概率的差异大于预定阈值时，确认说话人身份，否则拒识说话人；其中，识别模型基于至少包括说话人视角和文本视角的多视角向量，所述多视角向量包括如下分量：多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声∈。

在一个实施例中，文本相关的说话人确认设备300还包括：训练装置，利用多视角向量的训练数据获得所述多视角向量的总体均值μ、说话人视角的分量u的协方差矩阵∑_u、文本视角的分量v的协方差矩阵∑_υ、以及噪声∈的协方差矩阵∑_∈。

在一个实施例中，噪声∈被设定为满足以对角矩阵∑为协方差的高斯分布。

在一个实施例中，设θ＝{μ，∑_u，∑_υ，∑_∈}，则满足以下分布：

其中，

是均值为μ、方差为∑的正态分布，多视角向量x_ijk表示第i个说话人就j种文本的第k个样本的声纹，u_i为第i个说话人的系数，v_j为第j种文本的系数，∑_u、∑_υ、∑_∈分别表示说话人视角的分量u的协方差矩阵、文本视角的分量v的协方差矩阵、以及噪声∈的协方差矩阵。

由于在根据本发明的文本相关的说话人确认设备300中所包括的处理与上面描述的文本相关的说话人确认方法中所包括的各个步骤中的处理类似，因此为了简洁起见，在此省略这些处理的详细描述。

此外，这里尚需指出的是，上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图4所示的通用计算机400)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在图4中，中央处理单元(CPU)401根据只读存储器(ROM)402中存储的程序或从存储部分408加载到随机存取存储器(RAM)403的程序执行各种处理。在RAM 403中，还根据需要存储当CPU 401执行各种处理等等时所需的数据。CPU 401、ROM 402和RAM 403经由总线404彼此连接。输入/输出接口405也连接到总线404。

下述部件连接到输入/输出接口405：输入部分406(包括键盘、鼠标等等)、输出部分407(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分408(包括硬盘等)、通信部分409(包括网络接口卡比如LAN卡、调制解调器等)。通信部分409经由网络比如因特网执行通信处理。根据需要，驱动器410也可连接到输入/输出接口405。可拆卸介质411比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器410上，使得从中读出的计算机程序根据需要被安装到存储部分408中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质411安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图4所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质411。可拆卸介质411的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 402、存储部分408中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明的实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。