CN111199741A

CN111199741A - 声纹识别方法、声纹验证方法、装置、计算设备及介质

Info

Publication number: CN111199741A
Application number: CN201811382285.4A
Authority: CN
Inventors: 卓著; 赵情恩; 雷赟
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2020-05-26

Abstract

本发明公开了一种声纹识别方法、声纹验证方法、装置、计算设备及介质，声纹识别方法包括：对待验证的语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号，分别对第一语音信号和第二语音信号进行声纹识别。

Description

声纹识别方法、声纹验证方法、装置、计算设备及介质

技术领域

本发明涉及语音信号处理领域，特别涉及一种声纹识别方法、声纹验证方法、装置、计算设备及介质。

背景技术

声纹识别(Voiceprint Recognition)，又称说话人识别，该技术是从说话人发出的语音信号中提取语音特征，并据此对说话人进行身份确认的生物识别技术。其中，声纹是指人类语音中携带言语信息的声波频谱，同指纹一样，具备独特的生物学特征，具有身份识别的作用，不仅具有特定性，而且具有相对的稳定性。

但是，由于语音信号容易受噪声、录音设备、传输信道的影响，通过声纹识别来进行身份核实也具有一定的风险。特别是客服场景下的声纹核身系统，当通过电话语音进行用户的身份核实时，用户的语音信号很容易受到噪声环境的影响，而对被噪声污染的语音信号进行声纹识别，会导致识别的准确度下降，由此得出的用户身份认证结果并不够可信。

现有的声纹识别方案，虽然实现了文本无关声纹识别，无需用户针对特定文本发出相应的声音信号，但在噪声抵抗上的性能较差，且不是流式计算框架的声纹系统，难以保证实时性。因此，需要提供一种新的声纹识别方案来优化上述处理过程。

发明内容

为此，本发明提供一种声纹识别及验证方案，以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面，提供一种声纹识别方法，该方法包括如下步骤：首先，对待验证的语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号；分别对第一语音信号和第二语音信号进行声纹识别。

可选地，在根据本发明的声纹识别方法中，对待验证的语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号，包括：将待验证的语音信号分离成多个语音信号分量；对多个语音信号分量进行声源聚类，以获取第一语音信号和第二语音信号。

可选地，在根据本发明的声纹识别方法中，将待验证的语音信号分离成多个语音信号分量包括：对待验证的语音信号进行端点检测，以获取一个或多个非静音语音信号；对各非静音语音信号，提取非静音语音信号的语音特征参数，并基于语音特征参数对非静音语音信号进行分离，以获取对应的多个语音信号分量。

可选地，在根据本发明的声纹识别方法中，语音特征参数包括梅尔频率倒谱系数。

可选地，在根据本发明的声纹识别方法中，提取所述非静音语音信号的语音特征参数包括：对非静音语音信号进行分帧加窗处理，以生成对应的多个语音帧；计算各语音帧的离散功率谱，通过预设的三角带通滤波器组对离散功率谱进行滤波，得到对应的系数集合；利用离散余弦变换对系数集合进行处理，以生成语音帧的梅尔频率倒谱系数。

可选地，在根据本发明的声纹识别方法中，基于语音特征参数对非静音语音信号进行分离，以获取对应的多个语音信号分量包括：对非静音语音信号包括的多个语音帧，根据语音特征参数，计算相邻语音帧之间的特征距离；基于预设的第一距离准则和特征距离，确定相邻语音帧是否来源于同一声源；将来源于同一声源的相邻语音帧进行合并，以形成对应的语音信号分量。

可选地，在根据本发明的声纹识别方法中，对多个语音信号分量进行声源聚类，以获取第一语音信号和第二语音信号包括：根据预设的第二距离准则，连续地合并多个语音信号分量中最相邻的两个语音信号分量，以聚类生成第一语音信号和第二语音信号。

可选地，在根据本发明的声纹识别方法中，分别对第一语音信号和第二语音信号进行声纹识别包括：将第一语音信号进行预处理，以获取第一语音信号对应的多个第一语音帧；计算各第一语音帧的语音特征参数，基于语音特征参数确定第一语音信号的声纹特征；根据第一语音信号的声纹特征，对第一语音信号进行评分，以确定第一语音信号分值。

可选地，在根据本发明的声纹识别方法中，分别对第一语音信号和第二语音信号进行声纹识别包括：将第二语音信号进行预处理，以获取第二语音信号对应的多个第二语音帧；计算各第二语音帧的语音特征参数，基于语音特征参数确定第二语音信号的声纹特征；根据第二语音信号的声纹特征，对第二语音信号进行评分，以确定第二语音信号分值。

可选地，在根据本发明的声纹识别方法中，还包括：根据声纹识别的结果确定该语音信号是否验证成功。

可选地，在根据本发明的声纹识别方法中，声纹识别的结果包括第一语音信号分值和第二语音信号分值，根据声纹识别的结果确定该语音信号是否验证成功包括：将第一语音信号分值和第二语音信号分值中的较大值，作为该语音信号的分值；若分值超过预设的分值阈值，则确定该语音信号验证成功。

可选地，在根据本发明的声纹识别方法中，该语音信号为长语音信号，第一语音信号为说话人语音信号，第二语音信号为噪声信号，或者，第一语音信号为噪声信号，第二语音信号为说话人语音信号。

根据本发明的又一个方面，提供一种声纹验证方法，该方法包括如下步骤：首先，收集当前语音通话中用户的语音信号，对该语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号；分别对第一语音信号和第二语音信号进行声纹识别，根据声纹识别的结果确定该语音信号是否验证成功；若该语音信号验证成功，则判定该用户声纹验证成功。

根据本发明的又一个方面，提供一种声纹识别装置，该装置包括分离模块和识别模块。其中，分离模块适于对待验证的语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号；识别模块适于分别对第一语音信号和第二语音信号进行声纹识别。

根据本发明的又一个方面，提供一种声纹验证装置，该装置包括处理模块、验证模块和判定模块。其中，处理模块，适于收集当前语音通话中用户的语音信号，对该语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号；验证模块适于分别对第一语音信号和第二语音信号进行声纹识别，根据声纹识别的结果确定该语音信号是否验证成功；判定模块适于在该语音信号验证成功时，判定该用户声纹验证成功。

根据本发明的又一个方面，提供一种计算设备，包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据本发明的声纹识别方法和/或声纹验证方法的指令。

根据本发明的又一个方面，还提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行根据本发明的声纹识别方法和/或声纹验证方法。

根据本发明的声纹识别方案，首先通过噪声分离处理，将待验证的语音信号先分离后聚类，得到了第一语音信号和第二语音信号，实质上是完成了说话人语音和噪声的分离，从而解决噪音环境下长语音声纹识别可靠性不好的难题。而后，分别对第一语音信号和第二语音信号进行声纹识别，以得到对应的第一语音信号分值和第二语音信号分值。进而，在基于上述声纹识别方案进行声纹验证时取第一语音信号分值和第二语音信号分值中的较大值，作为用户的语音信号的分值，而不使用算法预先区分并剔除可能代表噪声的第一语音信号或第二语音信号，从而大幅简化了声纹验证流程，避免了错误区分说话人语音和噪声带来的性能下降，提升了结果的可靠性。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的声纹验证系统100的示意图；

图2示出了根据本发明的一个实施例的计算设备200的结构框图；

图3示出了根据本发明的一个实施例的声纹验证过程的示意图；

图4示出了根据本发明的一个实施例的声纹验证方法400的流程图；

图5示出了根据本发明的一个实施例的声纹识别方法500的流程图；

图6示出了根据本发明的一个实施例的噪声分离过程的示意图；

图7示出了根据本发明的一个实施例的声纹识别过程的示意图；

图8示出了根据本发明的一个实施例的声纹识别装置800的示意图；以及

图9示出了根据本发明的一个实施例的声纹验证装置900的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明的一个实施例的声纹验证系统100的示意图。应当指出，图1中的声纹验证系统100仅是示例性的，在具体的实际情况中，声纹验证系统100中可以有不同数量的信号发送端和服务器，信号发送端可以为移动终端，如智能手机、平板电脑等，也可以为计算设备，如PC机等，对此本发明并不限制。

如图1所示，声纹验证系统100包括信号发送端110和服务器120。其中，服务器120中驻留有声纹验证装置(图中未示出)。根据本发明的一个实施例，信号发送端100通过通信网络向服务器120发送待验证的语音信号，服务器120中的上述装置在接收到待验证的语音信号后，先对该语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号，再分别对第一语音信号和第二语音信号进行声纹识别，根据声纹识别的结果确定该语音信号是否验证成功。若验证成功，则服务器120会执行相应的下一步操作，若验证失败，则服务器120会向信号发送端110反馈语音信号验证失败的结果，并终止服务。

下面，以一个具体的应用场景来对上述声纹验证系统100进行说明。在该场景下，信号发送端100配置为智能手机，用户通过智能手机拨打客服电话，希望办理相关业务(如密码更改、账号找回等)，此时，单纯通过客服进行人工资料核实并不能确保用户的真实性，因此，需要通过声纹验证这一技术手段来对用户进行身份认证。

在此基础上，通过服务器120中的声纹验证装置，将用户在语音通话过程中语音作为待验证的语音信号，通过端点检测、语音特征参数提取、说话人分离等处理，将该语音信号分离形成多个语音信号分量，每个语音信号分量表示一段只包含一个声源的语音，不同的语音信号分量可能来源于同一声源，也可能来源于不同声源。这里的声源可大致归为两个，一个是用户作为说话人，在通话时发出的声音，另一个则是通话过程中的背景噪声。

接下来，需要将多个语音信号分量进行聚类处理，以形成第一语音信号和第二语音信号，其中，第一语音信号和第二语音信号代表了说话人语音信号和噪声信号。进而，分别对第一语音信号和第二语音信号进行声纹识别，获取第一语音信号分值和第二语音信号分值，将第一语音信号分值和第二语音信号分值中的较大值作为该语音信号的分值。若该分值超过预设的分值阈值，则确定声纹验证成功，此后服务器120可执行相应的后续操作，如继续对用户进行其他信息验证以核实用户身份，或者是在声纹验证成功即可确定用户身份的情况下，进一步为该用户提供服务。若该分值未超过预设的分值阈值，则确定声纹验证失败，服务器120将拒绝执行用户要求的业务操作，而客服也可据此告知用户其身份异常，根据实际情况来进行下一步处理。

根据本发明的一个实施例，上述声纹验证系统100中的服务器120可以通过如下所述的计算设备200来实现。图2示出了根据本发明一个实施例的计算设备200的结构框图。

如图2所示，在基本的配置202中，计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置，处理器204可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置，系统存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个程序222以及数据224。在一些实施方式中，程序222可以布置为在操作系统上由一个或多个处理器204利用数据224执行指令。

计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备200可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备200还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。

在一些实施例中，计算设备200被实现为服务器120，并被配置为执行根据本发明的声纹验证方法400和/或声纹识别方法500。其中，计算设备200的程序222中包含执行根据本发明的声纹验证方法400和/或声纹识别方法500多条程序指令，而数据224还可以存储声纹验证系统100的配置信息等。

图3示出了根据本发明的一个实施例的声纹验证过程的示意图。如图3所示，待验证的语音信号首先经过噪声分离处理，获得了第一语音信号和第二语音信号。需要注意的是，第一语音信号可能为说话人语音信号(此时第二语音信号为噪声信号)，也可能为噪声信号(此时第二语音信号为说话人语音信号)，这是因为当噪声(如环境噪声、周边其他人说话声)较大时，当前说话人的声音可能被掩盖，导致噪声分离后形成的两个语音信号并不能被准确区分出哪一个语音信号为说话人语音信号，而哪一个语音信号为噪声信号。基于这一考虑，通过声纹识别对第一语音信号和第二语音信号这两个语音信号，分别进行声纹验证，以确定相应的第一语音信号分值和第二语音信号分值，再取第一语音信号分值和第二语音信号分值中的较大值，确定为该语音信号的分值。最终，将该分值与预设的分值阈值进行比较，若该分值大于分值阈值，则判定该语音信号验证成功，若该分值不大于分值阈值，则判定该语音信号验证失败。

图4示出了根据本发明的一个实施例的声纹验证方法400的流程图。如图4所示，方法400始于步骤S410。在步骤S410中，收集当前语音通话中用户的语音信号，对语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号。随后，执行步骤S420，分别对第一语音信号和第二语音信号进行声纹识别，根据声纹识别的结果确定该语音信号是否验证成功。最后，在步骤S430中，若该语音信号验证成功，则判定该用户声纹验证成功。关于声纹验证的具体步骤以及实施例，在以下对声纹识别方法500的描述中进行相应说明，此处暂且不表。

图5示出了根据本发明的一个实施例的声纹识别方法500的流程图。如图5所示，方法500始于步骤S510。在步骤S510中，对待验证的语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号。根据本发明的一个实施例，可通过如下方式实现噪声分离处理而获取第一语音信号和第二语音信号。首先，将待验证的语音信号分离成多个语音信号分量，然后，对多个语音信号分量进行声源聚类，以获取第一语音信号和第二语音信号。

图6示出了根据本发明的一个实施例的噪声分离过程的示意图。如图6所示，待验证的语音信号先通过端点检测，以获取一个或多个非静音语音信号，再对各非静音语音信号，进行语音特征参数提取，并基于语音特征参数对非静音语音信号进行分离，以获取对应的多个语音信号分量，最后对获取到的多个语音信号分量进行聚类，得到了第一语音信号和第二语音信号。以下参照图6对步骤S510的处理过程进行详细说明。

在该实施方式中，待验证的语音信号为长语音信号，长语音信号通常是指时长超过30秒的语音信号。在将待验证的语音信号分离成多个语音信号分量时，先对待验证的语音信号进行端点检测，以获取一个或多个非静音语音信号。端点检测(Voice ActivityDetection，VAD)，是从包含语音的一段信号中确定出语音的起点及终点，进而提取出相应的非静音语音信号。有效的端点检测不仅能使处理时间减到最少，而且能排除无声段(即静音语音信号)的噪声干扰，从而使得处理质量得到保证。然而，由于在无声段或者发音前后人为呼吸等产生的杂音，使得语音的端点比较模糊，当端点处是弱摩擦音或弱爆破音，以及终点处是鼻音时，端点检测发生困难。为尽可能解决上述问题，通常会综合利用短时能量和短时过零率以及其他方法来进行端点检测。

由于人的发声方式的物理原因，未经处理的人声对应的语音信号是时变的，为了能够应用平稳状态下的处理手段，需要对语音信号先进行分帧加窗处理，使得一整段语音信号分成以固定时长(通常为10～30毫秒)为一帧的多个语音帧，在每个语音帧内，可认为语音信号是相对平稳的。

为了保证帧与帧之间具有连续性，分帧时通常会使得帧间有一定的重叠率。窗函数的长度称为帧长，前后两帧的交叠部分称为帧移。以x(n)表示待验证的语音信号，则分帧加窗后的信号为：

x_seq(n)＝w(n)·x(seq·Q+n) (1)

其中，n＝0,1,…,N-1，seq表示帧序号，w(n)表示窗函数，Q表示帧移，N表示帧长。帧移与帧长的比值定义为帧重叠率，通常其取值为1/2或3/4，即取Q＝N/2或Q＝3N/4。

常用的窗函数有矩形窗、汉明(Hamming)窗和汉宁(Hanning)窗，加窗处理一般都会对原始信号产生影响，矩形窗的旁瓣过大导致频域处理的不便，因此，通常采用汉明窗或汉宁窗等各种具有低旁瓣分量的窗函数来达到减少旁瓣影响的目的。在以下说明中若没有特别说明，均选用汉明窗作为预定的窗函数。

将第seq个语音帧的短时能量定义为：

对短时能量进行分析可以发现，浊音、清音、静音的短时能量依次递减，以此为依据，可根据短时能量的值，设置相应的门限对语音信号的静音段和非静音段进行分割，进而检测出一个或多个非静音语音信号。

而短时过零率，是指的每一个语音帧改变符号的次数，根据对语音信号的最大值与最小值之间的变化，对语音信号实施归一化处理，这样，可以将语音信号波峰波谷的变化转换为穿过坐标横轴的次数。将第seq个语音帧的短时过零率定义为：

其中，sgn为符号函数，即：

短时过零率可以通过比较语音信号、噪声信号(包括静音段)之间频率的差别来进行自动分割，当发清音时，频率较高，而频率高就意味着短时过零率高。这与过零率低的噪声信号以及静音段的语音信号形成鲜明对比，这样，在短时能量较难准确判别清音和噪声以及静音段的问题上，短时过零率能够做出有效识别。基于此，结合短时能量和短时过零率而形成的双门限端点检测算法，具有较高的准确性。关于基于短时能量和短时过零率的双门限端点检测方法，为现有的成熟技术，此处不再赘述。

当然，具体采用何种算法来对语音信号进行端点检测，可根据实际应用场景、系统配置和性能要求等进行适当调整，这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

根据本发明的一个实施例，对待验证的语音信号进行端点检测后，获取到3个非静音语音信号，分别记为非静音语音信号A、非静音语音信号B和非静音语音信号C。接下来，对获取到的各非静音语音信号，提取非静音语音信号的语音特征参数，并基于语音特征参数对非静音语音信号进行分离，以获取对应的多个语音信号分量。在该实施方式中，语音特征参数包括梅尔频率倒谱系数，则可通过如下方式来提取非静音语音信号的语音特征参数。

首先，对非静音语音信号进行分帧加窗处理，以生成对应的多个语音帧。分帧加窗的处理方法，可参照如上端点检测中提到的内容，此处不再赘述。例如，对非静音语音信号A来说，分帧加窗处理后得到了200个语音帧。然后，计算各语音帧的离散功率谱，通过预设的三角带通滤波器组对离散功率谱进行滤波，得到对应的系数集合。其中，预设的三角带通滤波器组为梅尔滤波器组，将滤波后滤波器组输出的系数记为X(k)，k＝1,2,…,K，K为滤波器的个数，K个系数形成了对应的系数集合。

最后，利用离散余弦变换对系数集合进行处理，以生成语音帧的梅尔频率倒谱系数。以MFCC_r表示第r个梅尔频率倒谱系数，则有：

其中，结果取前r个梅尔频率倒谱系数，r通常小于或等于K。

在依照式(5)提取到梅尔频率倒谱系数的静态参数后，可对其取差分以得到动态参数ΔMFCC_r作为静态参数MFCC_r的补充，进而增强对噪声的抑制作用。一般用到的梅尔频率倒谱系数有12维、13维、39维(13维的梅尔频率倒谱系数及其一阶导和二阶导)。此外，语音特征参数并不限于梅尔频率倒谱系数，还可包括线性预测倒谱系数、FBank特征参数等，其中，FBank特征参数实际上是上述求取梅尔频率倒谱系数过程中得到的系数集合，换言之，对FBank特征参数进行离散余弦变换后即可得到梅尔频率倒谱系数。当然，具体采用哪种参数或几种参数结合作为语音特征参数，可根据实际情况来选择，对此本发明并不限制。

在基于语音特征参数对非静音语音信号进行分离时，对非静音语音信号包括的多个语音帧，根据语音特征参数，计算相邻语音帧之间的特征距离，再基于预设的第一距离准则和特征距离，确定相邻语音帧是否来源于同一声源，将来源于同一声源的相邻语音帧进行合并，以形成对应的语音信号分量，以此来生成多个语音信号分量。

根据本发明的一个实施例，第一距离准则包括对称Kullback-Leibler距离(KL2)准则、分歧形状距离(Divergence Shape Distance，DSD)准则、广义似然比(GeneralLikelihood Ratio，GLR)准则、贝叶斯信息准则(Bayes Infor mation Criteria，BIC)、交叉似然比(Cross Likelihood Ratio，CLR)准则以及归一化的交叉似然比(NormalizedCross Likelihood Ratio，NCLR)准则。在该实施方式中，采用贝叶斯信息准则来确定相邻语音帧是否来源于同一声源。在该实施方式中，非静音语音信号A分离形成了5个语音信号分量，分别记为语音信号分量A1、A2、A3、A4和A5，非静音语音信号B分离形成了3个语音信号分量，分别记为语音信号分量B1、B2和B3，非静音语音信号C分离形成了4个语音信号分量，分别记为语音信号分量C1、C2、C3和C4。

进而，对语音信号分量A1、A2、A3、A4、A5、B1、B2、B3、C1、C2、C3和C4进行声源聚类。具体的，根据预设的第二距离准则，连续地合并多个语音信号分量中最相邻的两个语音信号分量，以聚类生成第一语音信号和第二语音信号。根据本发明的一个实施例，第二距离准则包括自底向上聚类(Bottom-up clu stering)准则和自顶向下聚类(Top-downclustering)准则，通过先衡量两个语音信号分量之间的相似度，再结合截至条件用于聚类迭代过程何时截止。通常会采用自底向上聚类准则来进行声源聚类，在计算语音信号分量之间相似度所采用的具体准则，以及在何种程度确定聚类完成的截至条件，可参考第一距离准则所包括的各类准则。在该实施方式中，语音信号分量A1、A2、A5、B1、B2、C1、C2和C4聚为一类，记为第一语音信号，语音信号分量A3、A4、B3和C3聚为一类，记为第二语音信号。此时，暂不能确定第一语音信号和第二语音信号中哪一个是说话人语音信号，哪一个是噪声信号，因此存在两种情况，即：第一语音信号为说话人语音信号，第二语音信号为噪声信号，或者，第一语音信号为噪声信号，第二语音信号为说话人语音信号。

此外，还可利用深度神经网络实现说话人分离及聚类，如采用LSTM(Long Short-Term Memory，长短期记忆)网络与D-Vector相结合的方式，对待验证的语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号，这里的D-Vector是基于上述LSTM网络的说话人识别算法中形成的向量。考虑到上述方法为现有成熟技术，此处不再赘述。在将待验证的语音信号分离成第一语音信号和第二语音信号后，执行步骤S520，分别对第一语音信号和第二语音信号进行声纹识别。

图7示出了根据本发明的一个实施例的声纹识别过程的示意图。如图7所示，先对第一语音信号和第二语音信号分别进行预处理，以获取第一语音信号对应的多个第一语音帧，以及第二语音信号对应的多个第二语音帧，再计算各第一语音帧和第二语音帧的语音特征参数，基于语音特征参数分别确定第一语音信号和第二语音信号的声纹特征，最后，根据声纹特征对第一语音信号和第二语音信号进行分值评定，以确定第一语音信号和第二语音信号分值。

以下参照图7对步骤S520中声纹识别的处理过程进行详细说明。根据本发明的一个实施例，可通过如下方式对第一语音信号进行声纹识别。具体的，先将第一语音信号进行预处理，以获取第一语音信号对应的多个第一语音帧。在该实施方式中，预处理通常包括对信号进行端点检测、分帧加窗等，而端点检测和分帧加窗的处理过程，可参考如上步骤S510中的相关内容，此处不予以赘述。

随后，计算各第一语音帧的语音特征参数，基于语音特征参数确定第一语音信号的声纹特征。其中，语音特征参数依然选用梅尔频率倒谱系数，声纹特征包括I-Vector、D-Vector以及X-Vector。需要说明的是，当采用I-Vector作为声纹特征时，用于I-Vector计算的语音特征参数为梅尔频率倒谱系数，而当采用D-Vector或X-Vector作为声纹特征时，用于D-Vector或X-Vector计算的语音特征参数为FBank特征参数。在该实施方式中，计算第一语音帧的梅尔频率倒谱系数、FBank特征参数的方法，同样可参考如上步骤S510中的相关内容，此处不再赘述。

I-Vector是JFA(Joint Factor Analysis，联合因子分析)的改良版，JFA方法的思想是使用GMM(Gaussian Mixed Model，高斯混合模型)超矢量空间的子空间对说话人差异和信道差异分别建模，从而可以方便地分类出信道干扰。在JFA模型中，建模过程主要基于：本征音空间矩阵V定义的说话人空间和本征音信道空间矩阵U定义的信道空间。而在I-Vector模型中，采用全局差异空间(Total Variability Space，T)，即包含了话者之间的差异又包含了信道之间的差异。所以，I-Vector的建模过程在GMM均值超矢量中不严格区分话者的影响和信道的影响。

给定说话人s的一段语音h，这一新的说话人及信道相关的GMM均值超矢量定义为如下公式：

M_s,h＝m_u+Tω_s,h (6)

其中，m_u是说话人与信道独立的均值超矢量，即为UBM(Universal Back groundModel，通用背景模型，可理解为一个大型的GMM)的均值超矢量，T是全局空间矩阵，ω_s,h是全局差异因子，M_s,h服从均值为m_u，协方差矩阵为TT^*的正态分布。

式(6)可以理解为，特定说话人s、特定语音h的M_s,h，由UBM的均值加全局差异空间矩阵和全局差异因子的矩阵乘积来确定。进而，在I-Vector的确认中，首先要进行全局差异空间矩阵T的估计，而后进行I-Vector的估计。

关于全局差异空间矩阵T的估计，认为每一段语音都来自不同的说话人，具体可采用如下方式来估计T矩阵：

1.计算每个说话人所对应的Baum-Welch统计量；

2.随机产生T的初始值，采用下述EM(Expectation Maximization，最大期望)算法，迭代估计T矩阵：

·E步：计算ω_s,h的后验均值和后验相关矩阵的期望形式。

·M步：通过最大似然法重新估计，以更新T矩阵。

通过多次迭代之后，得到全局差异空间矩阵T。

最后，根据已训练好的全局差异空间矩阵T，以及每个目标说话人所对应的Baum-Welch统计量，计算出此时ω_s,h的后验均值，即为I-Vector。这样，每个目标说话人都有一个与之对应的I-Vector。

D-Vector，是基于DNN(Deep Neural Network，深层神经网络)的说话人识别算法中形成的向量。基于DNN的说话人识别算法，用DNN代替GMM去计算后验统计量，在DNN训练好后，提取每一个语音帧的语音特征参数作为DNN输入，从最接近输出端的隐含层中提取激活函数，L2正则化，然后将其累加起来，得到的向量就被称为D-Vector。如果一个人有多条语音，那么所有语音对应的D-Vector求平均值，就是这个人的声纹特征。

此外，因为D-Vector是从最接近输出端的隐含层提取的，通过移除分类器，可以缩减模型尺寸，那么在不改变模型尺寸的情况下，训练过程中也可使用更多的说话人数据，毕竟分类器被移除了，就不用考虑分类器这一层的节点数。

X-Vector用于描述从TDNN(Time Delay Neural Network，时延神经网络)中提取的嵌入层特征。在TDNN的网络结构中，有一个统计池化层(Statistics Pooling Layer)，负责将帧级层(Frame-level Layer)映射到段级层(Segment-Level Layer)，计算帧级层的均值和标准差。TDNN是时延架构，输出端可以学习到长时特征，所以X-Vector可以利用短短的10秒左右的语音，捕捉到用户声纹信息，在短语音上拥有更强的鲁棒性。

在确定了第一语音信号的声纹特征后，根据第一语音信号的声纹特征，对第一语音信号进行评分，以确定第一语音信号分值。在该实施方式中，声纹特征采用I-Vector，并选用PLDA(Probabilistic Linear Discriminant Analysis，概率线性判别分析)算法来对第一语音信号进行评分。

PLDA是生成型模型(Generated Model)，可用于对I-Vector进行建模、分类。PLDA算法是一种信道补偿算法，因为I-Vector中，既包含说话人的信息，也包含信道信息，而由于只关心说话人信息，所以才需要做信道补偿。在声纹识别训练过程中，假设训练语音由I个说话人的语音组成，其中每个说话人有J段不一样的语音，并且定义第i个说话人的第j段语音为Y_ij。那么，定义Y_ij的生成模型为：

Y_ij＝μ+Fh_i+Gw_ij+ε_ij (7)

其中，μ是数据均值，F、G是空间特征矩阵，包含了各自假想变量空间中的基本因子，这些因子可以看作是各自空间的基底。F的每一列，相当于类间特征空间的特征向量，G的每一列，相当于类内特征空间的特征向量。而向量h_i和w_ij可以看作是该语音分别在各自空间的特征表示，ε_ij则是噪声协方差。如果两条语音的h_i特征相同的似然度越大，即分值越高，那么它们来自同一个说话人的可能性就越大。

PLDA的模型参数包括4个，μ、F、G和ε_ij，采用EM算法迭代训练而成。通常，采用简化版的PLDA模型，忽略类内特征空间矩阵G的训练，只训练类间特征空间矩阵F，即：

Y_ij＝μ+Fh_i+ε_ij (8)

根据本发明的一个实施例，基于PLDA算法对第一语音信号的I-Vector进行评分后，得到的第一语音信号分值为score1。

在对第二语音信号进行声纹识别时，将第二语音信号进行预处理，以获取第二语音信号对应的多个第二语音帧，计算各第二语音帧的语音特征参数，基于语音特征参数确定第二语音信号的声纹特征，根据第二语音信号的声纹特征，对第二语音信号进行评分，以确定第二语音信号分值。上述对第二语音信号进行预处理、计算第二语音帧的语音特征参数、确定第二语音信号的声纹特征以及对第二语音信号进行评分的处理过程，可参照如上对第一语音信号进行声纹识别的相关内容，此处不再赘述。在该实施方式中，基于PLDA算法对第二语音信号的I-Vector进行评分后，得到的第二语音信号分值为score2。

应注意的是，声纹特征并不限于上述I-Vector、D-Vector和X-Vector，相应的评分算法也可依据所选定的声纹特征来采用，对此本发明并不限制。此外，关于I-Vector、D-Vector、X-Vector及PLDA算法具体的实现，为现有成熟技术，此处不再赘述。

根据本发明的又一个实施例，在分别对第一语音信号和第二语音信号进行声纹识别后，可根据声纹识别的结果确定该语音信号是否验证成功。在gai实施方式中声纹识别的结果包括第一语音信号分值和第二声语音信号分值，在根据声纹识别的结果确定该语音信号是否验证成功时，将第一语音信号分值和第二语音信号分值中的较大值，作为该语音信号的分值，若分值超过预设的分值阈值，则确定该语音信号验证成功。根据本发明的一个实施例，第一语音信号分值score1大于第二语音信号分值score2，则待验证的语音信号的分值为score1。在该实施方式中，预设的分值阈值为score3，小于score1，可确定该语音信号验证成功。

图8示出了根据本发明的一个实施例的声纹识别装置800的示意图。如图8所示，声纹识别装置800包括分离模块810和识别模块820。

分离模块810适于对待验证的语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号。

根据本发明的一个实施例，分离模块810进一步适于将待验证的语音信号分离成多个语音信号分量，对多个语音信号分量进行声源聚类，以获取第一语音信号和第二语音信号。

分离模块810进一步适于对待验证的语音信号进行端点检测，以获取一个或多个非静音语音信号，对各非静音语音信号，提取非静音语音信号的语音特征参数，并基于语音特征参数对非静音语音信号进行分离，以获取对应的多个语音信号分量。

在该实施方式中，语音特征参数包括梅尔频率倒谱系数，分离模块810进一步适于对非静音语音信号进行分帧加窗处理，以生成对应的多个语音帧，计算各语音帧的离散功率谱，通过预设的三角带通滤波器组对离散功率谱进行滤波，得到对应的系数集合，利用离散余弦变换对系数集合进行处理，以生成语音帧的梅尔频率倒谱系数。

分离模块810进一步适于对非静音语音信号包括的多个语音帧，根据语音特征参数，计算相邻语音帧之间的特征距离，基于预设的第一距离准则和特征距离，确定相邻语音帧是否来源于同一声源，将来源于同一声源的相邻语音帧进行合并，以形成对应的语音信号分量。分离模块810进一步适于根据预设的第二距离准则，连续地合并多个语音信号分量中最相邻的两个语音信号分量，以聚类生成第一语音信号和第二语音信号。

在该实施方式中，语音信号为长语音信号，第一语音信号为说话人语音信号，第二语音信号为噪声信号，或者，第一语音信号为噪声信号，第二语音信号为说话人语音信号。

识别模块820适于分别对第一语音信号和第二语音信号进行声纹识别。

根据本发明的一个实施例，识别模块820进一步适于将第一语音信号进行预处理，以获取第一语音信号对应的多个第一语音帧，计算各第一语音帧的语音特征参数，基于语音特征参数确定第一语音信号的声纹特征，根据第一语音信号的声纹特征，对第一语音信号进行评分，以确定第一语音信号分值。

识别模块820进一步适于将第二语音信号进行预处理，以获取第二语音信号对应的多个第二语音帧，计算各第二语音帧的语音特征参数，基于语音特征参数确定第二语音信号的声纹特征，根据第二语音信号的声纹特征，对第二语音信号进行评分，以确定第二语音信号分值。

根据本发明的一个实施例，识别模块820还适于根据声纹识别的结果确定该语音信号是否验证成功。在该实施方式中，声纹识别的结果包括第一语音信号分值和第二语音信号分值，识别模块820进一步适于将第一语音信号分值和第二语音信号分值中的较大值，作为该语音信号的分值，当分值超过预设的分值阈值时，确定该语音信号验证成功。

关于声纹识别的具体步骤以及实施例，在基于图5～7的描述中已经详细公开，此处不再赘述。

图9示出了根据本发明的一个实施例的声纹验证装置900的示意图。如图9所示，声纹验证装置900包括处理模块910、验证模块920和判定模块930。

处理模块910适于收集当前语音通话中用户的语音信号，对该语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号。

验证模块920适于分别对第一语音信号和第二语音信号进行声纹识别，根据声纹识别的结果确定该语音信号是否验证成功；

判定模块930适于在该语音信号验证成功时，判定该用户声纹验证成功。

关于声纹验证的具体步骤以及实施例，在基于图3～7的描述中已经详细公开，此处不再赘述。

现有的声纹识别方法，虽然实现了文本无关声纹识别，无需用户针对特定文本发出相应的声音信号，但在噪声抵抗上的性能较差，且不是流式计算框架的声纹系统，难以保证实时性。根据本发明实施例的声纹识别方案，首先通过噪声分离处理，将待验证的语音信号先分离后聚类，得到了第一语音信号和第二语音信号，实质上是完成了说话人语音和噪声的分离，从而解决噪音环境下长语音声纹识别可靠性不好的难题。而后，分别对第一语音信号和第二语音信号进行声纹识别，以得到对应的第一语音信号分值和第二语音信号分值。进而，在基于上述声纹识别方案进行声纹验证时取第一语音信号分值和第二语音信号分值中的较大值，作为用户的语音信号的分值，而不使用算法预先区分并剔除可能代表噪声的第一语音信号或第二语音信号，从而大幅简化了声纹验证流程，避免了错误区分说话人语音和噪声带来的性能下降，提升了结果的可靠性。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间，以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的声纹识别方法和/或声纹验证方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种声纹识别方法，包括：

对待验证的语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号；

分别对第一语音信号和第二语音信号进行声纹识别。

2.如权利要求1所述的方法，其中，所述对待验证的语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号，包括：

将待验证的语音信号分离成多个语音信号分量；

对所述多个语音信号分量进行声源聚类，以获取第一语音信号和第二语音信号。

3.如权利要求2所述的方法，其中，所述将待验证的语音信号分离成多个语音信号分量包括：

对待验证的语音信号进行端点检测，以获取一个或多个非静音语音信号；

对各非静音语音信号，提取所述非静音语音信号的语音特征参数，并基于所述语音特征参数对所述非静音语音信号进行分离，以获取对应的多个语音信号分量。

4.如权利要求3所述的方法，其中，所述语音特征参数包括梅尔频率倒谱系数。

5.如权利要求4所述的方法，其中，所述提取所述非静音语音信号的语音特征参数包括：

对所述非静音语音信号进行分帧加窗处理，以生成对应的多个语音帧；

计算各语音帧的离散功率谱，通过预设的三角带通滤波器组对所述离散功率谱进行滤波，得到对应的系数集合；

利用离散余弦变换对所述系数集合进行处理，以生成所述语音帧的梅尔频率倒谱系数。

6.如权利要求3所述的方法，其中，所述基于所述语音特征参数对所述非静音语音信号进行分离，以获取对应的多个语音信号分量包括：

对所述非静音语音信号包括的多个语音帧，根据所述语音特征参数，计算相邻语音帧之间的特征距离；

基于预设的第一距离准则和所述特征距离，确定相邻语音帧是否来源于同一声源；

将来源于同一声源的相邻语音帧进行合并，以形成对应的语音信号分量。

7.如权利要求2所述的方法，其中，所述对所述多个语音信号分量进行声源聚类，以获取第一语音信号和第二语音信号包括：

根据预设的第二距离准则，连续地合并所述多个语音信号分量中最相邻的两个语音信号分量，以聚类生成第一语音信号和第二语音信号。

8.如权利要求1所述的方法，其中，所述分别对第一语音信号和第二语音信号进行声纹识别包括：

将第一语音信号进行预处理，以获取所述第一语音信号对应的多个第一语音帧；

计算各第一语音帧的语音特征参数，基于所述语音特征参数确定所述第一语音信号的声纹特征；

根据所述第一语音信号的声纹特征，对所述第一语音信号进行评分，以确定第一语音信号分值。

9.如权利要求1所述的方法，其中，所述分别对第一语音信号和第二语音信号进行声纹识别包括：

将第二语音信号进行预处理，以获取所述第二语音信号对应的多个第二语音帧；

计算各第二语音帧的语音特征参数，基于所述语音特征参数确定所述第二语音信号的声纹特征；

根据所述第二语音信号的声纹特征，对所述第二语音信号进行评分，以确定第二语音信号分值。

10.如权利要求1所述的方法，其中，还包括：

根据声纹识别的结果确定所述语音信号是否验证成功。

11.如权利要求10所述的方法，其中，所述声纹识别的结果包括第一语音信号分值和第二语音信号分值，所述根据声纹识别的结果确定所述语音信号是否验证成功包括：

将第一语音信号分值和第二语音信号分值中的较大值，作为所述语音信号的分值；

若所述分值超过预设的分值阈值，则确定所述语音信号验证成功。

12.如权利要求1所述的方法，所述语音信号为长语音信号，其中：

所述第一语音信号为说话人语音信号，所述第二语音信号为噪声信号；或者，

所述第一语音信号为噪声信号，所述第二语音信号为说话人语音信号。

13.一种声纹验证方法，包括：

收集当前语音通话中用户的语音信号，对所述语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号；

分别对第一语音信号和第二语音信号进行声纹识别，根据声纹识别的结果确定所述语音信号是否验证成功；

若所述语音信号验证成功，则判定所述用户声纹验证成功。

14.一种声纹识别装置，包括：

分离模块，适于对待验证的语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号；

识别模块，适于分别对第一语音信号和第二语音信号进行声纹识别。

15.一种声纹验证装置，包括：

处理模块，适于收集当前语音通话中用户的语音信号，对所述语音信号进行噪声分离处理，以获取第一语音信号和第二语音信号；

验证模块，适于分别对第一语音信号和第二语音信号进行声纹识别，根据声纹识别的结果确定所述语音信号是否验证成功；

判定模块，适于在所述语音信号验证成功时，判定所述用户声纹验证成功。

16.一种计算设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-13所述的方法中的任一方法的指令。

17.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1-13所述的方法中的任一方法。