CN113593580A

CN113593580A - 一种声纹识别方法及装置

Info

Publication number: CN113593580A
Application number: CN202110849644.8A
Authority: CN
Inventors: 洪烨嵘; 赵尊晨
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-11-02
Anticipated expiration: 2041-07-27
Also published as: CN113593580B

Abstract

本申请公开了一种声纹识别方法及装置，响应于用户的来电呼叫，接通后，获取用户提供的初始语音信息。当确定需要对用户进行身份认证且确定用户已开通声纹识别功能后，将用户的初始语音信息进行信息处理和特征提取，获取用户的声学特征参数。将声学特征参数输入隐马尔可夫模型，获取模型输出的目标对数似然度概率得分。确定目标对数似然度概率得分对应的声纹识别数据集中的目标声学特征参数，进而确定目标声学特征参数对应的身份信息，将身份信息对应的用户确定为目标用户。获取目标声学特征参数和用户对应的声学特征参数的相关性。当相关性满足预设条件时，确定用户的身份识别通过。在用户无感的情况下，对用户进行了身份识别。

Description

一种声纹识别方法及装置

技术领域

本申请涉及音频识别技术领域，尤其涉及一种声纹识别方法及装置。

背景技术

在电话智能客服接通用户来电后，针对用户的特定问题，例如查询账户余额，需要对用户进行身份认证。

目前，可以通过用户针对安全问题进行回答，来进行用户的身份认证。但是，存在用户长期不回答安全问题容易遗忘相应的答案导致身份认证失败从而影响用户体验的情况。另外，还可以通过用户发送的验证码来进行用户的身份认证。但是，由于网络问题可能导致用户接受验证码失败或者用户认为验证码验证方式时间过长，造成用户体验不好。

发明内容

为了解决上述技术问题，本申请提供了一种声纹识别方法及装置，用于通过声纹识别的方式进行用户的身份认证，提高用户体验。

为了实现上述目的，本申请实施例提供的技术方案如下：

本申请实施例提供一种声纹识别方法，包括：

响应于用户的来电呼叫，接通所述来电呼叫之后，获取所述用户的初始语音信息；

根据所述用户的初始语音信息确定需要对所述用户进行身份验证时，根据所述用户的来电信息判断所述用户是否已开通声纹识别功能；

若已开通声纹识别功能，将所述用户的初始语音信息进行信息处理和特征提取，获取所述用户对应的声学特征参数；

将所述声学特征参数输入到隐马尔可夫模型中，获取所述隐马尔可夫模型输出的目标对数似然度概率得分；所述隐马尔可夫模型用于计算所述用户的声学特征参数相对于声纹识别数据集存储的各个原始声纹对应的声学特征参数的对数似然度概率得分，并将最高的所述对数似然度概率得分确定为目标对数似然度概率得分；

获取所述目标对数似然度概率得分对应的所述声纹识别数据集中的目标声学特征参数，确定所述目标声学特征参数对应的身份信息，将所述身份信息对应的用户确定为目标用户；

获取所述目标声学特征参数和所述用户对应的声学特征参数的相关性，若所述相关性满足预设条件，确定所述用户的身份为所述目标用户，身份识别结果为通过。

可选地，所述方法还包括：

根据所述用户的初始语音信息，获取所述初始语音信息对应的梅尔倒普系数、所述梅尔倒普系数的一阶差分和所述梅尔倒普系数的二阶差分，将其作为输入参数；

将所述输入参数输入到深度神经网络模型中，获取深度神经网络模型输出的所述初始语音信息对应的情绪；所述深度神经网络模型为利用训练输入数据和所述训练输入数据对应的情绪标签进行训练得到的；所述训练输入数据为训练语音数据对应的梅尔倒普系数、所述训练语音数据对应的梅尔倒普系数的一阶差分和所述训练语音数据对应的梅尔倒普系数的二阶差分。

可选地，所述方法还包括：

当所述初始语音信息对应的情绪满足情绪条件时，向所述用户进行产品信息推荐。

可选地，所述方法还包括：

获取所述用户的目标语音信息；所述目标语音信息为所述用户提供的所述初始语音信息之后的语音信息；

根据所述用户的目标语音信息，确定所述目标语音信息对应的情绪；

根据所述初始语音信息对应的情绪和所述目标语音信息对应的情绪，确定情绪变化结果；

根据所述情绪变化结果生成所述用户的服务评价。

可选地，所述方法还包括：

预先建立所述声纹识别数据集；

所述预先建立所述声纹识别数据集，包括：

当确定对象用户需要开通声纹识别功能时，采集所述对象用户的原始声纹；

将所述对象用户的原始声纹对应的声学特征参数和所述对象用户的身份信息作为信息组，保存在所述声纹识别数据集中。

可选地，所述若已开通声纹识别功能，将所述用户的初始语音信息进行信息处理和特征提取，获取所用户的声学特征参数，包括：

若已开通声纹识别功能，将所述用户的初始语音信息进行量化处理、噪声抑制处理和语音区间检测校正处理，获取处理后的所述用户的初始语音信息；

对所述处理后的用户的初始语音信息进行特征提取，获取所述用户的谱包络参数语音信息、基音轮廓、共振峰频率带宽及共振峰频率轨迹。

可选地，所述方法还包括：

将所述用户对应的声学特征参数更新所述声纹识别数据集中所述目标用户对应的声学特征参数。

本申请实施例还提供了一种声纹识别装置，所述装置包括：

第一获取单元，用于响应于用户的来电呼叫，接通所述来电呼叫之后，获取所述用户的初始语音信息；

判断单元，用于根据所述用户的初始语音信息确定需要对所述用户进行身份验证时，根据所述用户的来电信息判断所述用户是否已开通声纹识别功能；

第二获取单元，用于若已开通声纹识别功能，将所述用户的初始语音信息进行信息处理和特征提取，获取所述用户对应的声学特征参数；

第三获取单元，用于将所述声学特征参数输入到隐马尔可夫模型中，获取所述隐马尔可夫模型输出的目标对数似然度概率得分；所述隐马尔可夫模型用于计算所述用户的声学特征参数相对于声纹识别数据集存储的各个原始声纹对应的声学特征参数的对数似然度概率得分，并将最高的所述对数似然度概率得分确定为目标对数似然度概率得分；

第一确定单元，用于获取所述目标对数似然度概率得分对应的所述声纹识别数据集中的目标声学特征参数，确定所述目标声学特征参数对应的身份信息，将所述身份信息对应的用户确定为目标用户；

第二确定单元，用于获取所述目标声学特征参数和所述用户对应的声学特征参数的相关性，若所述相关性满足预设条件，确定所述用户的身份为所述目标用户，身份识别结果为通过。

本申请实施例还提供了一种声纹识别设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现所述的声纹识别方法。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行所述的声纹识别方法。

通过上述技术方案可知，本申请具有以下有益效果：

本申请实施例提供了一种声纹识别方法及装置，响应于用户的来电呼叫，接通后，获取用户提供的初始语音信息。根据初始语音信息可判断出是否需要对用户进行身份认证。当确定需要对用户进行身份认证时，确定用户是否开通声纹识别功能。若是，则将用户的初始语音信息进行信息处理和特征提取，以获取用于比对的声学特征参数。将声学特征参数输入到隐马尔可夫模型中，利用隐马尔可夫模型将用户对应的声学特征参数和声纹识别数据集中的各个原始声纹对应的声学特征参数进行对比，获取对数似然度概率得分。将最高的得分确定为目标对数似然度概率得分。确定目标对数似然度概率得分对应的声纹识别数据集中的目标声学特征参数，进而确定目标声学特征参数对应的身份信息，将身份信息对应的用户确定为目标用户。基于此，初步认为用户的身份为声纹识别数据集中的目标用户。为了使识别结果更可信，获取目标声学特征参数和用户对应的声学特征参数的相关性。当相关性满足预设条件时，表明用户和目标用户的匹配程度高，确定用户的身份为目标用户，身份识别结果为通过。利用声纹识别方法，在用户无感的情况下，对用户进行了身份识别。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种声纹识别方法的示例性应用场景的示意图；

图2为本申请实施例提供的一种声纹识别方法的流程图；

图3为本申请实施例提供的另一种声纹识别方法的流程图；

图4为本申请实施例提供的一种声纹识别装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

为了便于理解和解释本申请实施例提供的技术方案，下面先对本申请实施例的技术方案进行说明。

目前，可以通过用户针对安全问题进行回答，来进行用户的身份认证。但是，存在用户长期不回答安全问题容易遗忘相应的答案，从而导致身份认证失败的情况。另外，还可以通过用户发送的验证码来进行用户的身份认证。但是，由于网络问题可能导致用户接受验证码失败或者用户认为验证码验证方式时间过长，造成用户体验不好。

基于此，本申请实施例提供了一种声纹识别方法，响应于用户的来电呼叫，接通后，获取用户提供的初始语音信息。根据初始语音信息可判断出是否需要对用户进行身份认证。当确定需要对用户进行身份认证时，确定用户是否开通声纹识别功能。若是，则将用户的初始语音信息进行信息处理和特征提取，以获取用于比对的声学特征参数。将声学特征参数输入到隐马尔可夫模型中，利用隐马尔可夫模型将用户对应的声学特征参数和声纹识别数据集中的各个原始声纹对应的声学特征参数进行对比，获取对数似然度概率得分。将最高的得分确定为目标对数似然度概率得分。确定目标对数似然度概率得分对应的声纹识别数据集中的目标声学特征参数，进而确定目标声学特征参数对应的身份信息，将身份信息对应的用户确定为目标用户。基于此，初步认为用户的身份为声纹识别数据集中的目标用户。为了使识别结果更可信，获取目标声学特征参数和用户对应的声学特征参数的相关性。当相关性满足预设条件时，表明用户和目标用户的匹配程度高，确定用户的身份为目标用户，身份识别结果为通过。利用声纹识别方法，在用户无感的情况下，对用户进行了身份识别。

为了便于理解本申请实施例提供的一种声纹识别方法，下面将结合图1所示的示例性应用场景进行说明。参见图1，图1为本申请实施例提供的一种声纹识别方法的示例性应用场景的示意图。该方法可以应用于智能客服系统101。

智能客服系统101响应于用户的来电呼叫，接通来电呼叫之后，获取用户的初始语音信息。初始语音信息为用户发出的询问信息。

智能客服系统101根据用户的初始语音信息确定需要对用户进行身份验证时，根据用户的来电信息判断用户是否已开通声纹识别功能。需要说明的是，根据初始语音信息确定用户后续的操作的安全系数高，则需要对用户进行身份验证。例如，初始语音信息为“查询用户余额”。

若用户已开通声纹识别功能，智能客服系统101将用户的初始语音信息进行信息处理和特征提取，获取用户对应的声学特征参数。

智能客服系统101将声学特征参数输入到隐马尔可夫模型中，获取隐马尔可夫模型输出的目标对数似然度概率得分。隐马尔可夫模型用于计算用户的声学特征参数相对于声纹识别数据集中的原始声纹对应的声学特征参数的对数似然度概率得分，并将最高的对数似然度概率得分确定为目标对数似然度概率得分。其中，声纹识别数据集为保存在数据库102中的数据集。

智能客服系统101获取目标对数似然度概率得分对应的声纹识别数据集中的目标声学特征参数，确定目标声学特征参数对应的身份信息，将身份信息对应的用户确定为目标用户。此时，可初步认为用户的身份为目标用户。

为了使得上述中的用户和目标用户的匹配结果更加可信，智能客服系统101获取目标用户对应的目标声学特征参数和用户对应的声学特征参数的相关性，若相关性满足预设条件，确定用户和目标用户的匹配度高，用户的身份为目标用户，身份识别结果为通过。

本领域技术人员可以理解，图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。

基于上述说明，下面将结合附图对本申请实施例提供的声纹识别方法进行详细说明。

参见图2，图2为本申请实施例提供的一种声纹识别方法的流程图。如图2所示，该声纹识别方法包括S201-S206：

S201：响应于用户的来电呼叫，接通来电呼叫之后，获取用户的初始语音信息。

响应于用户的来电呼叫，接通来电呼叫。在用户发出语音后，获取用户的初始语音信息。初始语音信息为包含用户来电呼叫目的的语音信息。例如，初始语音信息为“最近的xx银行网点的位置在哪儿”或者“查询xx账户余额”。

可以理解的是，通过声纹采集模块采集用户的初始语音信息。

S202：根据用户的初始语音信息确定需要对用户进行身份验证时，根据用户的来电信息判断用户是否已开通声纹识别功能。

获取到用户的初始语音信息后，根据初始语音信息判断是否需要对用户进行身份验证。

当用户的初始语音信息中不涉及安全系数高的操作时，不需要对用户进行身份验证。例如，初始语音信息为“最近的xx银行网点的位置在哪儿”，此时，智能客服系统只需告知用户地址即可，不用进行身份验证。又如，初始语音信息为“查询xx账户余额”，由于查询账户余额为安全系数高的操作，则需要对用户进行身份验证。

在确定需要对用户进行身份验证时，根据用户的来电信息判断用户是否已开通声纹识别功能。作为一种示例，用户的来电信息包括用户的来电号码。

根据用户的来电号码判断用户是否已开通声纹识别功能。可以理解的是，在用户开通声纹识别功能时，系统记录了用户的手机号码等信息。

若确定用户已经开通了声纹识别功能，则可利用声纹识别方式对用户进行身份识别。利用声纹识别方式可以在用户的无感的情况下，便完成对用户的身份认证。若确定用户没有开通声纹识别功能，则可利用传统的身份识别方式对用户进行身份识别，如验证码、安全问题等方式。结合声纹识别方式和传统的身份识别方式，增加了识别的灵活度，增强了身份识别的安全性。

S203：若已开通声纹识别功能，将用户的初始语音信息进行信息处理和特征提取，获取用户对应的声学特征参数。

若确定用户已开通声纹识别功能，则可利用声纹识别方式对用户进行身份验证。此时，将用户的初始语音信息进行信息处理和特征提取，获取用户对应的声学特征参数。利用用户对应的声学特征参数对用户的身份进行身份验证。

在一种可能的实现方式中，本申请实施例提供了一种将用户的初始语音信息进行信息处理和特征提取，获取用户的声学特征参数的具体实施方式，包括：

A1：若已开通声纹识别功能，将用户的初始语音信息进行量化处理、噪声抑制处理和语音区间检测校正处理，获取处理后的用户的初始语音信息。

可以理解的是，量化处理、噪声抑制处理和语音区间检测校正处理均是对初始语音信息进行的预处理。预处理用于过滤掉初始语音信息中的次要信息或噪音等，将初始语音信号转化为数字信号，方便进行后续的特征提取。

A2：对处理后的用户的初始语音信息进行特征提取，获取用户的谱包络参数语音信息、基音轮廓、共振峰频率带宽及共振峰频率轨迹。

预处理后的用户的初始语音信息是满足特征提取条件的语音信息，此时，对处理后的用户的初始语音信息进行特征提取，获取用户的谱包络参数语音信息、基音轮廓、共振峰频率带宽及共振峰频率轨迹。

需要说明的是，谱包络参数语音信息、基音轮廓、共振峰频率带宽及共振峰频率轨迹等为常见的声学特征参数。不同用户的声学特征参数不同，通过声学特征参数的识别，可识别对应的用户。其中，谱包络参数语音信息为通过合适的速率对滤波器的输出进行抽样得到的信息。基音轮廓、共振峰频率带宽及其轨迹是基于发声器官如声门、声道和鼻腔的生理结构而提取的声学特征参数。

在另一种可能的实现方式中，本申请实施例提供了另一种将用户的初始语音信息进行信息处理和特征提取，获取用户的声学特征参数的具体实施方式，包括：可通过对用户的初始语音信息进行信息处理和梅尔倒谱系数(Mel-scale Frequency CepstralCoefficients，MFCC)提取，获取用户的MFCC。

具体的，对预处理后的初始语音信息中的连续的音频进行分帧，并转换为能量谱，对每一帧的能量谱用梅尔滤波器进行滤波，进而对每个滤波器结果求和得到长度为n的向量。再对向量中的每个元素取对数，对向量做离散余弦变换得到倒频谱，并取倒频谱中的2-13位系数得到MFCC。其中，n为滤波器个数。

在此实施方式中，用户的声学特征参数为MFCC。

S204：将声学特征参数输入到隐马尔可夫模型中，获取隐马尔可夫模型输出的目标对数似然度概率得分；隐马尔可夫模型用于计算用户的声学特征参数相对于声纹识别数据集存储的各个原始声纹对应的声学特征参数的对数似然度概率得分，并将最高的对数似然度概率得分确定为目标对数似然度概率得分。

将声学特征参数输入到隐马尔可夫模型中，获取隐马尔可夫模型输出的目标对数似然度概率得分。其中，隐马尔可夫模型用于计算用户的声学特征参数相对于声纹识别数据集存储的各个原始声纹对应的声学特征参数的对数似然度概率得分，并将最高的对数似然度概率得分确定为目标对数似然度概率得分。

可以理解的是，对数似然度概率得分用于确定用户的声学特征参数和声纹识别数据集存储的各个原始声纹对应的声学特征参数的匹配程度，最高的对数似然度概率得分对应的声纹识别数据集中的声学特征参数为和用户的声学特征参数最匹配的声学特征参数。

S205：获取目标对数似然度概率得分对应的声纹识别数据集中的目标声学特征参数，确定目标声学特征参数对应的身份信息，将身份信息对应的用户确定为目标用户。

确定目标对数似然度概率得分后，获取目标对数似然度概率得分对应的声纹识别数据集中的目标声学特征参数。进而确定目标声学特征参数对应的身份信息，将身份信息对应的用户确定为目标用户。

其中，身份信息为姓名、身份证号码、手机号码等信息。需要说明的是，对身份信息不进行限定，能够唯一标识用户即可。

S206：获取目标声学特征参数和用户对应的声学特征参数的相关性，若相关性满足预设条件，确定用户的身份为目标用户，身份识别结果为通过。

在确定目标用户之后，可认为用户(也称当前用户)和目标用户的匹配度最高。为了确定当前用户的身份为目标用户，还需对S204的结果进行可信性判定。

具体实施时，获取目标声学特征参数和用户对应的声学特征参数的相关性，若相关性满足预设条件，确定用户的身份为目标用户，身份识别结果为通过。

作为一种示例，计算目标声学特征参数和用户对应的声学特征参数的距离，目标声学特征参数和用户对应的声学特征参数的相关性通过距离体现。当距离越小，表明两者的相关性越强。

在此示例下，预设条件为预设距离阈值，当计算得到的距离小于预设距离阈值时，表明识别用户的身份为目标用户的结果是可信的，确定用户的身份为目标用户，身份识别结果为通过。

若相关性不满足预设条件时，表明识别用户的身份为目标用户的结果是不可信的。此时，采用传统的身份识别方法进行用户的身份验证，例如通过验证码或安全问题的方式。

本申请实施例提供了一种声纹识别方法，响应于用户的来电呼叫，接通后，获取用户提供的初始语音信息。根据初始语音信息可判断出是否需要对用户进行身份认证。当确定需要对用户进行身份认证时，确定用户是否开通声纹识别功能。若是，则将用户的初始语音信息进行信息处理和特征提取，以获取用于比对的声学特征参数。将声学特征参数输入到隐马尔可夫模型中，利用隐马尔可夫模型将用户对应的声学特征参数和声纹识别数据集中的各个原始声纹对应的声学特征参数进行对比，获取对数似然度概率得分。将最高的得分确定为目标对数似然度概率得分。确定目标对数似然度概率得分对应的声纹识别数据集中的目标声学特征参数，进而确定目标声学特征参数对应的身份信息，将身份信息对应的用户确定为目标用户。基于此，初步认为用户的身份为声纹识别数据集中的目标用户。为了使识别结果更可信，获取目标声学特征参数和用户对应的声学特征参数的相关性。当相关性满足预设条件时，表明用户和目标用户的匹配程度高，确定用户的身份为目标用户，身份识别结果为通过。利用声纹识别方法，在用户无感的情况下，对用户进行了身份识别。

需要说明的是，声纹识别数据集为数据库中存储的数据集。当需要利用声纹识别方式对当前用户进行身份识别时，从声纹识别数据集中获取存储的各个声学特征参数，将其和当前用户的声学特征参数进行特征比对。

在一种可能的实施方式中，本申请实施例还提供了另一种声纹识别方法，该方法还包括：预先建立声纹识别数据集。

其中，预先建立声纹识别数据集，包括：

当确定对象用户需要开通声纹识别功能时，采集对象用户的原始声纹；

将对象用户的原始声纹对应的声学特征参数和对象用户的身份信息作为信息组，保存在声纹识别数据集中。

可以理解的是，对象用户为还未开通声纹识别功能的用户。信息组中的对象用户的原始声纹对应的声学特征参数和对象用户的身份信息是一一对应的。另外，对象用户的身份信息，如对象用户的姓名、对象用户的身份证号码和对象用户的手机号码。

在实际应用中，不仅将对象用户的原始声纹对应的声学特征参数保存在声纹识别数据集中，还会将原始声纹一同进行保存。

另外，当对象用户通过移动终端，如手机等，确定需要开通声纹识别功能时，则通过智能客服系统的声纹采集模块直接对对象用户的声纹进行采集。当对象用户在线下的实际网点等场景，且确定需要开通声纹识别功能时，通过线下使用的声纹采集模块对对象用户的声纹进行采集。

另外，在确定对象用户需要开通声纹识别功能时，向对象用户提供一些特定语句，通过让对象用户阅读特定语句来获取对象用户的原始声纹。特定语句为由6-12个汉字组成的语句。为提高原始声纹的稳定性，每条特定语句需要用户重复3次。

在一种可能的实施方式中，本申请实施例还提供了另一种声纹识别方法，该方法还包括：将用户对应的声学特征参数更新声纹识别数据集中目标用户对应的声学特征参数。

在识别当前用户的身份为目标用户后，将声纹识别数据集中目标用户对应的声学特征参数更新为用户对应的声学特征参数，将声纹识别数据集中目标用户对应的原始声纹更新为用户对应的初始语音信息。由于用户在不同时期声音会发生变化，而声音的变化会对身份识别准确率产生影响，因此，需要更新声纹识别数据集中原来存储的声学特征参数和原始声纹，提高通过声纹识别方式进行身份验证的准确率，提升用户体验。

在一种可能的实施方式中，本申请实施例还提供了另一种声纹识别方法，该方法还包括：

B1：根据用户的初始语音信息，获取初始语音信息对应的梅尔倒普系数、梅尔倒普系数的一阶差分和梅尔倒普系数的二阶差分，将其作为输入参数。

MFCC只反映了语音参数的静态特性，语音的动态特性可以用MFCC的一阶差分和二阶差分来描述。把动、静态特征结合起来能够有效提高系统对用户的身份识别性能。

B2：将输入参数输入到深度神经网络模型中，获取深度神经网络模型输出的初始语音信息对应的情绪；深度神经网络模型为利用训练输入数据和训练输入数据对应的情绪标签进行训练得到的；训练输入数据为训练语音数据对应的梅尔倒普系数、训练语音数据对应的梅尔倒普系数的一阶差分和训练语音数据对应的梅尔倒普系数的二阶差分。

利用训练输入数据和训练输入数据对应的情绪标签训练深度神经网络模型。其中，训练输入数据为训练语音数据对应的梅尔倒普系数、训练语音数据对应的梅尔倒普系数的一阶差分和训练语音数据对应的梅尔倒普系数的二阶差分。训练语音数据为收集到的带有情绪的语音信息。

作为一种示例，可采用开源的语言情感数据库，例如柏林情感语料库Emo_DB，来获取训练输入数据对应的情绪标签。在本申请实施例中，标签共采用5种，包括中性、开心、愤怒、害怕和反感。

作为一种示例，深度神经网络模型采用四层神经网络结构，输入层为训练输入数据，两层为中间隐藏层，输出层为5种情绪的概率值。

深度神经网络模型训练完成后，便可将输入参数输入到深度神经网络模型中，获取深度神经网络模型输出的初始语音信息对应的情绪。

进一步，利用获得的初始语音信息对应的情绪，当初始语音信息对应的情绪满足情绪条件时，向用户进行产品信息推荐。作为一种示例，情绪条件分别为情绪为中性、开心的概率值均高于愤怒、害怕和反感的概率值。另外，当初始语音信息对应的情绪不满足情绪条件时，不向用户推荐产品信息，防止用户使用体验不好。

进一步，利用获得的初始语音信息对应的情绪后，还可采集用户在初始语音信息之后的语音信息，由此来分析用户在通话期间的情绪变化，进而根据情绪变化来获取用户对此次系统的服务的满足程度。具体的，包括：

C1：获取用户的目标语音信息；目标语音信息为用户提供的初始语音信息之后的语音信息；

C2：根据用户的目标语音信息，确定目标语音信息对应的情绪；

C3：根据初始语音信息对应的情绪和目标语音信息对应的情绪，确定情绪变化结果；

C4：根据情绪变化结果生成用户的服务评价。

情绪为中性或开心，表示用户对此次的服务为好感。情绪为愤怒、害怕或反感，表示用户对此次的服务为厌烦。利用语音信息来分析用户在通话期间的情绪变化。情绪变化具体为由好感转为厌烦、由厌烦转为好感、一直好感或一直厌烦其中的一种。

通过情绪变化评估用户对此次系统服务的服务评价，进而根据服务评价可以获知用户满意度和系统的服务质量。代替用户手工点击提交评价，可以在用户无感的情况下，获取用户的服务评价，提升用户的体验感。

另外，还可根据情绪分析结果，判断是否需要向客户提供后续的产品推荐服务。

为了便于理解本申请实施例提供的声纹识别方法，下面结合图3对本申请实施例提供的声纹识别方法进行说明。图3为本申请实施例提供的另一种声纹识别方法的流程图。如图3所示，该声纹识别方法包括：

智能客服系统接入用户电话后，可以通过咨询用户的方式，获取用户的回答。咨询的语句可为“请问有什么可以帮助您的吗”。

进一步，采集用户的初始语音信息。若用户的初始语音信息为“查询账户余额”。与此同时，若用户需要人工客服，则在转接等待时，可以利用用户的初始语音信息识别用户的身份。具体的，通过隐马尔可夫模型的方式将用户的初始语音信息对应的声学特征信息和数据库中声纹识别数据集存储的各个原始声纹对应的声学特征参数进行比对，比对成功，则确定用户的身份识别为通过。当用户的身份识别没有通过时，采用如发送验证码等传统的身份识别方式进行用户的身份验证。

在转接等待期间，还可以通过用户的初始语音信息识别用户的情绪。当用户情绪为积极情绪时，例如中性或开心的情绪，向用户进行产品推荐。若不是积极情绪，则不向用户进行产品推荐。

另外，当用户的身份识别通过后，还可用用户的初始语音信息对应的声学特征参数更新数据库的声纹识别数据集中对应的声学特征参数，进行数据强化。

基于上述方法实施例提供的声纹识别方法，本申请实施例还提供了一种声纹识别装置。下面将结合附图对本申请实施例的一种声纹识别装置进行说明。

参见图4，图4为本申请实施例提供的一种声纹识别装置的结构示意图。

如图4所示，该声纹识别装置包括：

第一获取单元401，用于响应于用户的来电呼叫，接通所述来电呼叫之后，获取所述用户的初始语音信息；

判断单元402，用于根据所述用户的初始语音信息确定需要对所述用户进行身份验证时，根据所述用户的来电信息判断所述用户是否已开通声纹识别功能；

第二获取单元403，用于若已开通声纹识别功能，将所述用户的初始语音信息进行信息处理和特征提取，获取所述用户对应的声学特征参数；

第三获取单元404，用于将所述声学特征参数输入到隐马尔可夫模型中，获取所述隐马尔可夫模型输出的目标对数似然度概率得分；所述隐马尔可夫模型用于计算所述用户的声学特征参数相对于声纹识别数据集存储的各个原始声纹对应的声学特征参数的对数似然度概率得分，并将最高的所述对数似然度概率得分确定为目标对数似然度概率得分；

第一确定单元405，用于获取所述目标对数似然度概率得分对应的所述声纹识别数据集中的目标声学特征参数，确定所述目标声学特征参数对应的身份信息，将所述身份信息对应的用户确定为目标用户；

第二确定单元406，用于获取所述目标声学特征参数和所述用户对应的声学特征参数的相关性，若所述相关性满足预设条件，确定所述用户的身份为所述目标用户，身份识别结果为通过。

可选地，在本申请实施例的一些实施方式中，所述装置还包括：

第四获取单元，用于根据所述用户的初始语音信息，获取所述初始语音信息对应的梅尔倒普系数、所述梅尔倒普系数的一阶差分和所述梅尔倒普系数的二阶差分，将其作为输入参数；

输入单元，用于将所述输入参数输入到深度神经网络模型中，确定所述初始语音信息对应的情绪；所述深度神经网络模型为利用训练输入数据和所述训练输入数据对应的情绪标签进行训练得到的；所述训练输入数据为训练语音数据对应的梅尔倒普系数、所述训练语音数据对应的梅尔倒普系数的一阶差分和所述训练语音数据对应的梅尔倒普系数的二阶差分。

推荐单元，用于当所述初始语音信息对应的情绪满足情绪条件时，向所述用户进行产品信息推荐。

第五获取单元，用于获取所述用户的目标语音信息；所述目标语音信息为所述用户提供的所述初始语音信息之后的语音信息；

第三确定单元，用于根据所述用户的目标语音信息，确定所述目标语音信息对应的情绪；

第四确定单元，用于根据所述初始语音信息对应的情绪和所述目标语音信息对应的情绪，确定情绪变化结果；

生成单元，用于根据所述情绪变化结果生成所述用户的服务评价。

建立单元，用于预先建立所述声纹识别数据集；

所述建立单元，包括：

采集子单元，用于当确定用户需要开通声纹识别功能时，采集用户的原始声纹；

保存子单元，用于将所述用户的原始声纹对应的声学特征参数和所述用户的身份信息作为信息组，保存在所述声纹识别数据集中。

可选地，在本申请实施例的一些实施方式中，所述第二获取单元403，包括：

处理子单元，用于若已开通声纹识别功能，将所述用户的初始语音信息进行量化处理、噪声抑制处理和语音区间检测校正处理，获取处理后的所述用户的初始语音信息；

提取子单元，用于对所述处理后的用户的初始语音信息进行特征提取，获取所述用户的谱包络参数语音信息、基音轮廓、共振峰频率带宽及共振峰频率轨迹。

更新单元，用于将所述用户对应的声学特征参数更新所述声纹识别数据集中所述目标用户对应的声学特征参数。

另外，本申请实施例还提供了一种声纹识别设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述任一项实施例所述的声纹识别方法。

另外，本申请实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如上述任一项实施例所述的声纹识别方法。

本申请实施例提供了一种声纹识别装置，响应于用户的来电呼叫，接通后，获取用户提供的初始语音信息。根据初始语音信息可判断出是否需要对用户进行身份认证。当确定需要对用户进行身份认证时，确定用户是否开通声纹识别功能。若是，则将用户的初始语音信息进行信息处理和特征提取，以获取用于比对的声学特征参数。将声学特征参数输入到隐马尔可夫模型中，利用隐马尔可夫模型将用户对应的声学特征参数和声纹识别数据集中的各个原始声纹对应的声学特征参数进行对比，获取对数似然度概率得分。将最高的得分确定为目标对数似然度概率得分。确定目标对数似然度概率得分对应的声纹识别数据集中的目标声学特征参数，进而确定目标声学特征参数对应的身份信息，将身份信息对应的用户确定为目标用户。基于此，初步认为用户的身份为声纹识别数据集中的目标用户。为了使识别结果更可信，获取目标声学特征参数和用户对应的声学特征参数的相关性。当相关性满足预设条件时，表明用户和目标用户的匹配程度高，确定用户的身份为目标用户，身份识别结果为通过。利用声纹识别方法，在用户无感的情况下，对用户进行了身份识别。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法而言，由于其与实施例公开的系统相对应，所以描述的比较简单，相关之处参见系统部分说明即可。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种声纹识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述情绪变化结果生成所述用户的服务评价。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

预先建立所述声纹识别数据集；

所述预先建立所述声纹识别数据集，包括：

6.根据权利要求1所述的方法，其特征在于，所述若已开通声纹识别功能，将所述用户的初始语音信息进行信息处理和特征提取，获取所用户的声学特征参数，包括：

7.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

8.一种声纹识别装置，其特征在于，所述装置包括：

9.一种声纹识别设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7任一项所述的声纹识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如权利要求1-7任一项所述的声纹识别方法。