CN113098850A

CN113098850A - 一种语音验证方法、装置和电子设备

Info

Publication number: CN113098850A
Application number: CN202110314997.8A
Authority: CN
Inventors: 孙建伟; 王飞; 罗讷; 李武波
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-07-09

Abstract

本发明实施例公开了一种语音验证方法、装置和电子设备，通过根据用户端确定的执行模式，获取语音数据，对该语音数据进行语音识别，获取对应的语音识别结果，响应于该语音识别结果满足预定条件，执行对应的操作，其中，语音识别结果至少包括用户声纹识别结果，由此，可以通过语音识别验证提高操作的安全性。

Description

一种语音验证方法、装置和电子设备

技术领域

本发明涉及计算机技术领域，更具体地，涉及一种语音验证方法、装置和电子设备。

背景技术

有效验证用户身份，以避免为用户带来意外损失是极为重要的，例如各种登录验证、移动支付验证等。

目前，验证业务中采用的密码、验证码等验证方式安全性较低。并且，对于部分用户，例如老人等，由于记忆力下降，对周边防范意识不足等进一步造成了一定的验证困难，同时，部分用户不习惯或不方便使用指纹、虹膜等验证方式执行身份验证。由此，如何为用户提供安全且方便的验证方式是亟待解决的。

发明内容

有鉴于此，本发明提供了一种语音验证方法、装置和电子设备，以通过语音识别验证提高操作的安全性。

第一方面，本发明实施例提供了一种语音验证方法，所述方法包括：

根据用户端确定的执行模式，获取语音数据；

对所述语音数据进行语音识别，获取对应的语音识别结果，所述语音识别结果至少包括用户声纹识别结果；

响应于所述语音识别结果满足预定条件，执行对应的操作。

第二方面，本发明实施例提供一种语音验证装置，所述装置包括：

语音获取单元，被配置为根据用户端确定的执行模式，获取语音数据；

语音识别单元，被配置为对所述语音数据进行语音识别，获取对应的语音识别结果，所述语音识别结果至少包括用户声纹识别结果；

执行单元，被配置为响应于所述语音识别结果满足预定条件，执行对应的操作。

第三方面，本发明实施例提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如本发明实施例第一方面所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时以实现如本发明实施例第一方面所述的方法。

第五方面，本发明实施例提供一种计算机程序产品，其上存储计算机程序指令，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如本发明实施例第一方面所述的方法。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的一种语音验证方法的流程图；

图2是本发明实施例的另一种语音验证方法的流程图；

图3是本发明实施例的获取声纹识别结果的方法流程图；

图4是本发明实施例的用户端声纹特征样本的获取过程示意图；

图5是本发明实施例的又一种语音验证方法的流程图；

图6是本发明实施例的又一种语音验证方法的流程图；

图7是本发明实施例的语音验证方法的过程示意图；

图8是本发明实施例的语音验证装置的示意图；

图9是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

应理解，本实施例的语音验证方法可以应用于任一需要身份验证的应用场景中，本实施例主要以移动支付应用场景为例进行说明。同时，在本实施例中应用的所有信息均获得了用户的使用授权。

图1是本发明实施例的一种语音验证方法的流程图。如。图1所示，本发明实施例的语音验证方法包括以下步骤：

步骤S110，根据用户端确定的执行模式，获取语音数据。在本实施例中，可选的，用户可以通过用户终端通过语音、文本、各执行模式对应的拨号键、唤醒词等方式预先设置执行模式，也可以在执行操作前根据服务端的提示，通过语音、文本、各执行模式对应的拨号键、唤醒词等方式实时设置执行模式，本实施例并不对此进行限制。

可选的，在本实施例中，不同的执行模式，执行操作时所需的语音数据不同，也即根据不同的执行模式，获取目标用户设置的执行模式相对应的语音数据。在本实施例中，以执行模式包括三个模式为例进行说明，应理解，本实施例并不对此进行限制。

在一种可选的实现方式中，若目标用户设置的执行模式为第一模式，获取任务执行过程中的语音交互信息和文本密令音频信息，以确定语音数据。若目标用户设置的执行模式为第二模式，获取文本密令音频信息，以确定语音数据。若目标用户设置的执行模式为第三模式，获取任务执行过程中的语音交互信息，以获取语音数据。

在一种可选的实现方式中，在任务执行过程中，用户终端和服务端之间存在语音交互情况，采集所有或部分语音交互情况的语音，以获取语音交互信息。可选的，语音交互信息包括用户语音，或者包括用户语音和服务端语音。应理解，在本实施例中，任务执行过程包括任务建立过程。以网约车应用场景为例，乘客通过乘客终端建立与网约车平台的通话，以使得乘客通过描述起终点建立任务、和/或网约车平台向乘客播报任务状态信息和/或车辆信息，例如车辆到达状态等。

在一种可选的实现方式中，文本密令音频信息可以在任务执行完成后用户说出的包括文本密令的语音数据。例如，在网约车应用场景中，在乘客到达目的地后，建立与网约车服务端的电话连接，采集用户说出的文本密令语音数据，以获取文本密令音频信息。可选的，服务端可以通过短信方式或者应用程序中的即时通信方式向用户端发送对应的文本密令。在其他可选的实现方式中，服务端无需提示目标用户的文本密令，用户可以在建立通话后直接说出预设的文本密令本实施例并不对此进行限制。

步骤S120，对语音数据进行语音识别，获取对应的语音识别结果。其中，所述语音识别结果至少包括用户声纹识别结果。

若目标用户设置的执行模式为第一模式，则对任务执行过程中的语音交互信息和文本密令音频信息分别进行语音识别，获取用户声纹识别结果和密令语音识别结果。

若目标用户设置的执行模式为第二模式，则对文本密令音频信息进行语音识别，获取密令语音识别结果。

若目标用户设置的执行模式为第三模式，则对任务执行过程中的语音交互信息进行语音识别，获取用于声纹识别结果。

在一种可选的实现方式中，对任务执行过程中的语音交互信息进行语音识别，获得第一用户声纹识别结果，并计算第一用户声纹识别结果的声纹可信度。其中，声纹可信度用于表征声纹识别为用户声纹的样本占总样本的比例。

在一种可选的实现方式中，对文本密令音频信息进行语音识别，获取密令语音识别结果。可选的，密令语音识别结果包括所述文本密令音频信息对应的第二用户声纹识别结果、以及文本密令音频信息对应的文本识别结果，并计算第二用户声纹识别结果的声纹可信度以及文本识别结果的错误率。可选的，错误率表征文本识别结果相对于预设的文本密令的差异。

在本实施例中，若执行模式为第一模式，可以先获取任务执行过程中的语音交互信息，并验证语音交互信息对应的第一用户声纹识别结果的声纹可信度是否满足条件，在满足条件后获取并验证文本密令音频信息，或者先验证文本密令音频信息，在文本密令音频信息验证通过后，获取并验证任务执行过程中的语音交互信息，或者通过执行获取验证语音交互信息和文本密令音频信息，本实施例并不对此进行限制。

步骤S130，响应于语音识别结果满足预定条件，执行对应的操作。可选的，执行的操作可以为移动支付操作，登录操作或其他需身份验证的操作，在此不再赘述。

可选的，在本实施例中，若用户端设置的执行模式为第一模式，步骤S130具体可以为：响应于第一用户声纹识别结果的声纹可信度大于第一阈值、文本识别结果相对于预设的文本密令的错误率小于第二阈值、且第二用户声纹识别结果的声纹可信度大于第三阈值，执行对应的操作。

可选的，在本实施例中，若用户端设置的执行模式为第二模式，步骤S130具体可以为：响应于文本识别结果相对于预设的文本密令的错误率小于第二阈值、且第二用户声纹识别结果的声纹可信度大于第三阈值，执行对应的操作。

可选的，在本实施例中，若用户端设置的执行模式为第三模式，步骤S130具体可以为：响应于第一用户声纹识别结果的声纹可信度大于第一阈值，执行对应的操作。

本发明实施例通过根据用户端确定的执行模式，获取语音数据，对该语音数据进行语音识别，获取对应的语音识别结果，响应于该语音识别结果满足预定条件，执行对应的操作，其中，语音识别结果至少包括用户声纹识别结果，由此，可以通过语音识别验证提高操作的安全性。

在本发明实施例中，在任务创建之后，确定目标用户设置的执行模式，假设目标用户设置的执行模式为第一模式，则需要获取并验证任务执行过程中的语音交互信息和用户上传的文本密令音频信息。应理解，在本实施例中，可以先获取并验证任务执行过程中的语音交互信息，在语音交互信息验证通过后，再获取并验证文本密令音频信息，也可以先获取并验证文本密令音频信息，在文本密令音频信息验证通过后，再获取并验证任务执行过程中的语音交互信息，还可以先获取语音交互信息和文本密令音频信息，先验证语音交互信息，在语音交互信息验证通过后再验证文本密令音频信息，或先验证文本密令音频信息，在文本密令音频信息验证通过后再验证语音交互信息，本实施例并不对此进行限制。

图2是本发明实施例的另一种语音验证方法的流程图。本实施例以先获取并验证任务执行过程中的语音交互信息，在语音交互信息验证通过后，再获取并验证文本密令音频信息为例进行描述，如图2所示，执行以下步骤：

步骤S210，获取任务执行过程中的语音交互信息。以电话叫车的支付应用场景为例，在网约车任务的执行过程中，用户通过用户终端拨打网约车服务端的电话建立通信连接，以进行约车。在通信连接过程中，用户还可以询问网约车任务当前的状态，例如是否有司机接单，司机接单后还有多久到达等。可选的，采集任务执行过程中用户与网约车服务端的电话录音，以获取语音交互信息。

步骤S220，对语音交互信息进行语音识别，获得第一用户声纹识别结果。

在一种可选的实现方式中，提取语音交互信息的声纹特征，将语音交互信息的声纹特征输入至第二语音处理模型中进行处理，获取第一用户声纹识别结果。可选的，语音交互信息的声纹特征X和第一用户声纹识别结果Y可以表示为：

Y＝[y₁ y₂ … y_m]

其中，声纹特征X中的每一列为一帧，也即声纹特征的一个样本，语音交互信息的声纹特征X共有m个样本，每个样本具有n个声纹特征，m、n均大于0，y_i为第i个样本的声纹识别结果，1≤i≤m。

可选的，声纹特征可以包括MFCC(Mel-scaleFrequency Cepstral Coefficients，梅尔频率倒谱系数)、和/或FBank等。MFCC是在Mel标度频率域提取出来的倒谱参数。Mel标度描述了人耳频率的非线性特征。MFCC可以通过预加重(也即将语音信号通过一个高通滤波器进行处理)、分帧、加窗、FFT(快速傅里叶变换)、Mel滤波、DCT(离散余弦变换)、取动态特征等处理进行提取。FBank(Filter bank)与MFCC的计算方式基本类似，其相对于MFCC的特征相关度更高，采用Fbank可以更多地降低文字差错率。

在一种可选的实现方式中，若语音交互信息仅包括用户音频数据，例如，采集服务端要求用户上传的一段音频数据等，则第二语音处理模型包括用户端声纹识别模型。也就是说，将语音交互信息的声纹特征输入至用户端声纹识别模型中进行处理，获取第一用户声纹识别结果。

图3是本发明实施例的获取声纹识别结果的方法流程图。在另一种可选的实现方式中，若语音交互信息包括用户音频数据和服务端音频数据，也即包括用户和服务端交流的音频数据，则第二语音处理模型包括服务端声纹识别模型和用户端声纹识别模型。如图3所示，在本实现方式中，声纹识别结果的获取方法包括以下步骤：

步骤S221，将语音交互信息的声纹特征输入至服务端声纹识别模型中进行处理，获取第一声纹识别结果。可选的，由于语音交互信息中包含用户音频数据和服务端音频数据，因此，可通过第一声纹识别结果中的值分离第一声纹识别结果中的用户端声纹特征样本和服务端声纹特征样本。可选的，在第一声纹识别结果中，各声纹样本对应的识别结果的值为1或0，其中，1表征其属于服务端声纹样本，0表征其不属于服务端声纹样本。

在一种可选的实现方式中，服务端声纹识别模型为基于服务端语音数据预先训练获得。服务端语音数据可以为机器人客服或真人客服的语音数据。可选的，预先录取第一语音训练集，包括服务端语音数据和非服务端语音数据，作为正样本和负样本，提取正样本和负样本的声纹特征和/或声学特征，基于正负样本的标签训练服务端声纹识别模型。可选的，正负样本的比例可以为1：1，应理解，本实施例并不对正负样本的比例进行限制。

进一步可选的，采集用户上传的语音数据，例如用户预先上传的文本密令语音数据，对该语音数据进行数据扩展，获得第二语音训练集，将上述训练过的服务端语音数据作为基础模型，基于第二语音训练集对该基础模型做进一步训练，以使得训练完成的服务端声纹识别模型能够更准确地区别服务端语音和用户语音。可选的，第二语音训练集与上述第一训练集的数据量比例可以为1:2。应理解，本实施例并不对第二语音训练集与上述第一训练集的数据量比例进行限制。可选的，对语音数据进行加噪等操作以进行数据扩展，获得第二语音训练集。

可选的，服务端声纹识别模型以高斯混合模型-通用背景模型(GMM-UBM)为框架进行训练获得。应理解，其他模型，例如其他以高斯混合模型GMM为基础的模型均可应用于本实施例中。

步骤S222，过滤第一声纹识别结果中的服务端声纹，获取用户端声纹特征样本。

图4是本发明实施例的用户端声纹特征样本的获取过程示意图。可选的，在本实例中，如图4所示，第一声纹识别结果y包括片段y1、y2、y3、y4。由上可知，语音交互信息仅包括服务端语音数据和用户端语音数据，则声纹识别结果为1的片段y1和y3对应服务端语音数据，声纹识别结果为0的片段y2和y4对应用户端语音数据。在本实施例中，将声纹识别结果为0的声学特征样本进行拼接，获得用户端声纹特征样本。

步骤S223，将用户端声纹特征样本输入至用户端声纹识别模型中进行处理，获取所述第一用户声纹识别结果。

在一种可选的实现方式中，用户端声纹识别模型为基于用户端语音数据预先训练获得。可选的，预先录取第三语音训练集，包括用户端语音数据和非用户端语音数据，作为正样本和负样本，提取正样本和负样本的声纹特征和/或声学特征，基于正负样本的标签训练用户端声纹识别模型。可选的，正负样本的比例可以为1：1，应理解，本实施例并不对正负样本的比例进行限制。

进一步可选的，采集用户上传的语音数据，例如用户预先上传的文本密令语音数据，对该语音数据进行数据扩展，获得第四语音训练集，将上述训练过的用户端语音数据作为基础模型，基于第四语音训练集对该基础模型做进一步训练，以使得训练完成的用户端声纹识别模型能够与该用户语音更加匹配，进而进一步提高语音识别的准确性。可选的，第四语音训练集与上述第三训练集的数据量比例可以为1:2。应理解，本实施例并不对第四语音训练集与上述第三训练集的数据量比例进行限制。可选的，对语音数据进行加噪等操作以进行数据扩展，获得第四语音训练集。

可选的，用户端声纹识别模型以高斯混合模型-通用背景模型(GMM-UBM)为框架进行训练获得。应理解，其他模型，例如其他以高斯混合模型GMM为基础的模型均可应用于本实施例中。

步骤S230，计算第一用户声纹识别结果的声纹可信度。可选的，第一阈值可以为大于0.5的值，例如0.8，本实施例并不对第一阈值的具体值进行限制，其可以根据具体应用场景进行设置。

可选的，在本实施例中，声纹可信度用于表征第一用户声纹识别结果中为用户声纹的样本占总样本的比例。可选的，声纹可信度α可表示为：

其中，α为声纹可信度，len(Y′)为样本总数量，len(Y′(y′_j＝1))为第一用户声纹识别结果中为1的样本数量。

步骤S240，判断第一用户声纹识别结果的声纹可信度是否大于第一阈值。若大于，执行步骤S250，也即获取文本密令，若不大于，执行步骤S2B0，也即提示用户采用其他方式执行对应的操作。

步骤S250，获取文本密令音频信息。在一种可选的实现方式中，在任务执行结束后，服务端向用户终端发送建立通信连接的请求，或者用户终端向服务端发送建立通信连接的请求，在通信连接建立后，用户说出至少一次文本密令，由此，可以采集获取文本密令音频信息。

在一种可选的实现方式中，文本密令可以为在用户开通相关服务后系统随机生成的，其可以是按照预定规则随机生成的，也可以是根据用户的基本信息随机生成的，本实施例并不对此进行限制。在另一种可选的实现方式中，文本密令还可以为用户设置的。

步骤S260，对文本密令音频信息进行语音识别，获得密令语音识别结果。在一种可选的实现方式中，步骤S260包括：提取文本密令音频信息的语音特征，将文本密令音频信息的语音特征输入至第一语音处理模型中进行处理，获得该文本密令音频信息对应的密令语音识别结果。

步骤S270，判断密令语音识别结果是否满足条件。若满足，则执行步骤S280，也即执行对应的操作，若不满足，则执行步骤S290。

在一种可选的实现方式中，第一语音处理模型包括用户端声纹识别模型。可选的，本实现方式的用户端声纹识别模型的训练方法如上所述，在此不再赘述。其中，将文本密令音频信息的语音特征(例如声纹特征等)输入至用户端声纹识别模型中进行处理，获取第二用户声纹识别结果，以确定密令语音识别结果。可选的，响应于第二用户声纹识别结果的声纹可信度大于第三阈值，则确定密令语音识别结果满足条件，执行对应的操作。可选的，第二用户声纹识别结果的声纹可信度与第一用户声纹识别结果类似，在此不再赘述。可选的，第三阈值可以为大于0.5的值，例如0.8，本实施例并不对第三阈值的具体值进行限制，其可以根据具体应用场景进行设置。

在另一种可选的实现方式中，密令语音识别结果包括文本密令音频信息对应的第二声纹识别结果、以及文本密令音频信息对应的文本识别结果。文本密令音频信息的语音特征包括声纹特征和声学特征，第一语音处理模型包括用户端声纹识别模型和语音识别模型。则步骤S260进一步包括：将文本密令音频信息的声纹特征输入至用户端声纹识别模型中进行处理，获取第二用户声纹识别结果，将文本密令音频信息的声学特征输入至语音识别模型中进行处理，获取所述文本密令音频信息对应的文本识别结果。可选的，本实现方式的用户端声纹识别模型的训练方法如上所述，在此不再赘述。

在一种可选的实现方式中，预先获取语料数据集，基于语料数据集的声学特征，训练获取语音识别模型。可选的，语音识别模型以端到端的Transformer模型为框架训练获得。应理解，本实施例并不对语音识别模型的基础框架进行限制，其他自然语言处理(NLP)模型，例如bert模型等均可应用于本实施例中。

可选的，响应于文本识别结果相对于预设的文本密令的错误率小于第二阈值、且第二用户声纹识别结果的声纹可信度大于第三阈值，则确定密令语音识别结果满足条件，执行对应的操作。

可选的，上述错误率用于表征为了使得文本识别结果与预设的文本密令完全相同，需要通过替换、删除、或插入的字占总字数的百分比。可选的，错误率可以设置为小于5％的值，例如0、2％等，应理解，本实施例并不对错误率的值进行限制，其可以根据具体应用场景，或者根据预设的文本密令的总字数进行动态调整。可选的，错误率WER的计算方式如下：

其中，WER为错误率，S为需要替换的字的个数，D为需要删除的字的个数，I为需要插入的字的个数，N为预设的文本密令的总字数。

可选的，第三阈值可以为大于0.5的值，例如0.8，本实施例并不对第三阈值的具体值进行限制，其可以根据具体应用场景进行设置。

由此，通过同时验证文本密令音频信息对应的第二声纹识别结果、以及文本密令音频信息对应的文本识别结果来验证文本密令音频信息，进一步提高了执行相应操作的安全性。

步骤S280，执行对应的操作。可选的，执行的操作可以为移动支付操作，登录操作或其他需身份验证的操作，在此不再赘述。

步骤S290，在密令语音识别结果不满足条件时，判断提示次数是否达到预设值。若提示次数到达预设值，则执行步骤S2B0，也即提示用户采用其他方式执行对应的操作。若提示次数未达到预设值，则执行步骤S2A0。可选的，预设值的设置范围可以为3-10次，应理解，本实施例并不对预设值的具体值进行限制，其可以根据具体应用场景进行设置。

步骤S2A0，提示用户上传文本密令音频信息。也就是说，在用户之前输入的文本密令音频信息验证失败后，提示用户再次上传文本密令音频信息，以避免用户开始口误等情况造成的验证失败的情况，提高了用户体验感。在提示用户上传文本密令音频信息后，执行步骤S250-S270，直至密令语音识别结果满足条件，或者提示次数达到预设值。

步骤S2B0，提示用户采用其他方式执行对应的操作。可选的，可以通过建立通话连接或者以短信方式对用户进行提示，以使得用户采用其他方式执行相应的操作。例如，在移动支付领域，可以提醒用户通过现金、付款码等方式进行支付。可选的，若提示后该用户仍未付款，可以在该用户下次下单时提示该用户先结算上次订单。

本实施例通过获取并验证任务执行过程中的语音交互信息，并在验证通过后，获取并验证用户上传的文本密令音频信息，提高了执行相应操作的安全性。

图5是本发明实施例的又一种语音验证方法的流程图。在本发明实施例中，在在任务创建之后，确定目标用户设置的执行模式，假设目标用户设置的执行模式为第二模式，则需要获取并验证用户上传的文本密令音频信息。如图5所示，执行以下步骤：

步骤S310，获取文本密令音频信息。在一种可选的实现方式中，在任务执行结束后，服务端向用户终端发送建立通信连接的请求，或者用户终端向服务端发送建立通信连接的请求，在通信连接建立后，用户说出至少一次文本密令，由此，可以采集获取文本密令音频信息。

步骤S320，对文本密令音频信息进行语音识别，获得密令语音识别结果。在一种可选的实现方式中，步骤S320包括：提取文本密令音频信息的语音特征，将文本密令音频信息的语音特征输入至第一语音处理模型中进行处理，获得该文本密令音频信息对应的密令语音识别结果。

步骤S330，判断密令语音识别结果是否满足条件。若满足，则执行步骤S340，也即执行对应的操作，若不满足，则执行步骤S350。

在另一种可选的实现方式中，密令语音识别结果包括文本密令音频信息对应的第二声纹识别结果、以及文本密令音频信息对应的文本识别结果。文本密令音频信息的语音特征包括声纹特征和声学特征，第一语音处理模型包括用户端声纹识别模型和语音识别模型。则步骤S320进一步包括：将文本密令音频信息的声纹特征输入至用户端声纹识别模型中进行处理，获取第二用户声纹识别结果，将文本密令音频信息的声学特征输入至语音识别模型中进行处理，获取所述文本密令音频信息对应的文本识别结果。可选的，本实现方式的用户端声纹识别模型和语音识别模型的训练方法如上所述，在此不再赘述。

可选的，上述错误率用于表征为了使得文本识别结果与预设的文本密令完全相同，需要通过替换、删除、或插入的字占总字数的百分比。可选的，错误率可以设置为小于5％的值，例如0、2％等，应理解，本实施例并不对错误率的值进行限制，其可以根据具体应用场景，或者根据预设的文本密令的总字数进行动态调整。可选的，第三阈值可以为大于0.5的值，例如0.8，本实施例并不对第三阈值的具体值进行限制，其可以根据具体应用场景进行设置。

步骤S340，执行对应的操作。可选的，执行的操作可以为移动支付操作，登录操作或其他需身份验证的操作，在此不再赘述。

步骤S350，在密令语音识别结果不满足条件时，判断提示次数是否达到预设值。若提示次数到达预设值，则执行步骤S370，也即提示用户采用其他方式执行对应的操作。若提示次数未达到预设值，则执行步骤S360。可选的，预设值的设置范围可以为3-10次，应理解，本实施例并不对预设值的具体值进行限制，其可以根据具体应用场景进行设置。

步骤S360，提示用户上传文本密令音频信息。也就是说，在用户之前输入的文本密令音频信息验证失败后，提示用户再次上传文本密令音频信息，以避免用户开始口误等情况造成的验证失败的情况，提高了用户体验感。在提示用户上传文本密令音频信息后，执行步骤S310-S330，直至密令语音识别结果满足条件，或者提示次数达到预设值。

步骤S370，提示用户采用其他方式执行对应的操作。可选的，可以通过建立通话连接或者以短信方式对用户进行提示，以使得用户采用其他方式执行相应的操作。例如，在移动支付领域，可以提醒用户通过现金、付款码等方式进行支付。可选的，若提示后该用户仍未付款，可以在该用户下次下单时提示该用户先结算上次订单。

本实施例通过验证用户说出预设的文本密令的文本密令音频信息，来验证该用户的身份信息，以确定是否执行相应的操作，在保证安全性的同时提高了验证效率。

图6是本发明实施例的又一种语音验证方法的流程图。在本发明实施例中，在在任务创建之后，确定目标用户设置的执行模式，假设目标用户设置的执行模式为第三模式，则需要获取并验证任务执行过程中的语音交互信息。如图6所示，执行以下步骤：

步骤S410，获取任务执行过程中的语音交互信息。以电话叫车的支付应用场景为例，在网约车任务的执行过程中，用户通过用户终端拨打网约车服务端的电话建立通信连接，以进行约车。在通信连接过程中，用户还可以询问网约车任务当前的状态，例如是否有司机接单，司机接单后还有多久到达等。可选的，采集任务执行过程中用户与网约车服务端的电话录音，以获取语音交互信息。

步骤S420，对语音交互信息进行语音识别，获得第一用户声纹识别结果。

Y＝[y₁ y₂ … y_m]

在另一种可选的实现方式中，若语音交互信息包括用户音频数据和服务端音频数据，也即包括用户和服务端交流的音频数据，则第二语音处理模型包括服务端声纹识别模型和用户端声纹识别模型。在本实现方式中，将语音交互信息的声纹特征输入至服务端声纹识别模型中进行处理，获取第一声纹识别结果，过滤第一声纹识别结果中的服务端声纹，获取用户端声纹特征样本，将用户端声纹特征样本输入至用户端声纹识别模型中进行处理，获取所述第一用户声纹识别结果。应理解，本实现方式中的第一用户声纹识别结果的具体过程与图3所示的实施例类似，在此不再赘述。服务端声纹识别模型和用户端声纹识别模型的训练方法与上述类似，在此不再赘述。

步骤S430，计算第一用户声纹识别结果的声纹可信度。可选的，第一阈值可以为大于0.5的值，例如0.8，本实施例并不对第一阈值的具体值进行限制，其可以根据具体应用场景进行设置。

步骤S440，判断第一用户声纹识别结果的声纹可信度是否大于第一阈值。若大于，执行步骤S450，也即执行对应的操作，若不大于，执行步骤S460，也即提示用户采用其他方式执行对应的操作。

步骤S450，执行对应的操作。可选的，执行的操作可以为移动支付操作，登录操作或其他需身份验证的操作，在此不再赘述。

步骤S460，提示用户采用其他方式执行对应的操作。可选的，可以通过建立通话连接或者以短信方式对用户进行提示，以使得用户采用其他方式执行相应的操作。例如，在移动支付领域，可以提醒用户通过现金、付款码等方式进行支付。可选的，若提示后该用户仍未付款，可以在该用户下次下单时提示该用户先结算上次订单。

本实施例通过验证任务执行过程中的语音交互信息，来验证该用户的身份信息，以确定是否可以自动执行相应的操作，在保证安全性的同时无需用户进行再次上传语音信息，提高了验证效率。

图7是本发明实施例的语音验证方法的过程示意图。本实施例以网约车应用领域中的自动支付场景为例进行举例说明，其中，用户终端可通过拨打网约车电话来进行约车。如图7所示，在乘客通过乘客终端拨打网约车电话建立通信连接，在通信连接建立成功后，网约车服务端播报提示用户进入打车操作、支付费用操作或设置支付模式操作。可选的，用户可以通过直接说出操作名称、或者通过各操作对应的拨号键或者预设的唤醒词来确定要进入哪个操作。

若用户进入打车操作，则提示用户说出起始地、目的地、出发时间等信息，在创建订单后播报订单状态，例如“预计x分钟后接单”、“车牌号xx的A型白车已接单，还有xx米到达起始地，请您留意车辆”等。

若用户进入设置支付模式操作，则提示用户通过说出执行模式，例如第一模式、第二模式、第三模式等，或者通过各支付模式对应的拨号键、或者通过预设的唤醒词等来确定该用户的支付模式。在用户设置的支付模式为第一模式或第二模式时，随机生成文本密令并发送至用户终端，或者提示用户自主设置文本密令，在确定文本密令后，提示用户对电话说出至少一次文本密令，录取乘客的文本密令语音数据，已进一步训练服务端声纹识别模型和用户端声纹识别模型，进而提高服务端声纹识别模型和用户端声纹识别模型的识别准确性，从而提高自动支付的安全性。

若用户进入支付费用操作，则确定用户设置的支付模式。假设用户设置的支付模式为第一模式，则获取用户约车时或者后续通话过程中的语音交互信息，根据服务端声纹识别模型和用户端声纹识别模型对语音交互信息进行处理，获取第一用户声纹识别结果，计算第一用户声纹识别结果的声纹可信度，若第一用户声纹识别结果的声纹可信度大于第一阈值，则提示用户对电话说出文本密令音频数据，采用用户端声纹识别模型和语音识别模型对获取的文本密令音频数据进行处理，获取密令语音识别结果，若密令语音识别结果满足条件，也即用户端声纹识别模型获取的第二声纹识别结果的声纹可信度大于第三阈值，且语音识别模型获取的文本识别结果对应的错误率小于第二阈值，则执行自动支付操作。

假设用户设置的支付模式为第二模式，则提示用户对电话说出文本密令音频数据，采用用户端声纹识别模型和语音识别模型对获取的文本密令音频数据进行处理，获取密令语音识别结果，若密令语音识别结果满足条件，也即用户端声纹识别模型获取的第二声纹识别结果的声纹可信度大于第三阈值，且语音识别模型获取的文本识别结果对应的错误率小于第二阈值，则执行自动支付操作。

假设用户设置的支付模式为第三模式，则获取用户约车时或者后续通话过程中的语音交互信息，根据服务端声纹识别模型和用户端声纹识别模型对语音交互信息进行处理，获取第一用户声纹识别结果，计算第一用户声纹识别结果的声纹可信度，若第一用户声纹识别结果的声纹可信度大于第一阈值，则执行自动支付操作。

在本发明实施例中，预先设置有不同的支付模式，使得用户可以根据自己的需求设置相应的支付模式，在保证支付安全性的同时，提高了用户体验感。

图8是本发明实施例的语音验证装置的示意图。如图8所示，本发明实施例的语音验证装置8包括语音获取单元81、语音识别单元82和执行单元83。

语音获取单元81被配置为根据用户端确定的执行模式，获取语音数据。语音识别单元82被配置为对所述语音数据进行语音识别，获取对应的语音识别结果所述语音识别结果至少包括用户声纹识别结果。执行单元83被配置为响应于所述语音识别结果满足预定条件，执行对应的操作。

在一种可选的实现方式中，语音获取单元81包括第一获取子单元、第二获取子单元和第三获取子单元。第一获取子单元被配置为响应于所述执行模式为第一模式，获取任务执行过程中的语音交互信息和文本密令音频信息，以确定所述语音数据。第二获取子单元被配置为响应于所述执行模式为第二模式，获取文本密令音频信息，以确定所述语音数据。第三获取子单元被配置为响应于所述执行模式为第三模式，获取任务执行过程中的语音交互信息，以获取所述语音数据。

在一种可选的实现方式中，语音识别单元82包括第一特征提取子单元和第一识别子单元。第一特征提取子单元被配置为提取所述文本密令音频信息的语音特征。第一识别子单元被配置为将所述文本密令音频信息的语音特征输入至第一语音处理模型中进行处理，以获得所述文本密令音频信息对应的密令语音识别结果。

在一种可选的实现方式中，语音识别单元82还包括第二特征提取子单元和第二识别子单元。第二特征提取子单元被配置为提取所述语音交互信息的声纹特征。第二识别子单元被配置为将所述语音交互信息的声纹特征输入至第二语音处理模型中进行处理，获取第一用户声纹识别结果。可选的，所述第二语音处理模型包括服务端声纹识别模型和用户端声纹识别模型。第二识别子单元进一步被配置为将所述语音交互信息的声纹特征输入至所述服务端声纹识别模型中进行处理，获取第一声纹识别结果，过滤所述第一声纹识别结果中的服务端声纹，获取用户端声纹特征样本，将所述用户端声纹特征样本输入至用户端声纹识别模型中进行处理，获取所述第一用户声纹识别结果。

在一种可选的实现方式中，执行单元83包括第一执行子单元，被配置为响应于所述密令语音识别结果和所述第一用户声纹识别结果满足所述预定条件，执行对应的操作。

在一种可选的实现方式中，所述密令语音识别结果包括所述文本密令音频信息对应的第二用户声纹识别结果、以及所述文本密令音频信息对应的文本识别结果。第一执行子单元进一步被配置为响应于所述第一用户声纹识别结果的声纹可信度大于第一阈值、所述文本识别结果相对于预设的文本密令的错误率小于第二阈值、且所述第二用户声纹识别结果的声纹可信度大于第三阈值，执行对应的操作。

在一种可选的实现方式中，所述密令语音识别结果包括所述文本密令音频信息对应的第二用户声纹识别结果、以及所述文本密令音频信息对应的文本识别结果。执行单元83包括第二执行子单元。第二执行子单元被配置为响应于所述文本识别结果相对于预设的文本密令的错误率小于第二阈值、且所述第二用户声纹识别结果的声纹可信度大于第三阈值，执行对应的操作。

在一种可选的实现方式中，所述语音特征包括声纹特征和声学特征，所述第一语音处理模型包括用户端声纹识别模型和语音识别模型。第一识别子单元包括第一识别模块和第二识别模块。第一识别模块被配置为将所述文本密令音频信息的声纹特征输入至所述用户端声纹识别模型中进行处理，获取第二用户声纹识别结果。第二识别模块被配置为将所述文本密令音频信息的声学特征输入至所述语音识别模型中进行处理，获取所述文本密令音频信息对应的文本识别结果。

在一种可选的实现方式中，语音识别单元82包括第三特征提取子单元和第三识别子单元。第三特征提取子单元被配置为提取所述语音交互信息的声纹特征。第三识别子单元被配置为将所述语音交互信息的声纹特征输入至第二语音处理模型中进行处理，获取第一用户声纹识别结果。可选的，所述第二语音处理模型包括服务端声纹识别模型和用户端声纹识别模型。第三识别子单元进一步被配置为将所述语音交互信息的声纹特征输入至所述服务端声纹识别模型中进行处理，获取第一声纹识别结果，过滤所述第一声纹识别结果中的服务端声纹，获取用户端声纹特征样本，将所述用户端声纹特征样本输入至用户端声纹识别模型中进行处理，获取所述第一用户声纹识别结果。

在一种可选的实现方式中，执行单元还包括第三执行子单元。第三执行子单元被配置为响应于所述第一用户声纹识别结果的声纹可信度大于第一阈值，执行对应的操作。

在一种可选的实现方式中，所述用户端声纹识别模型根据目标用户预先上传的语音数据训练获得，所述服务端声纹识别模型根据服务端产生的语音数据训练获得。

在一种可选的实现方式中，所述用户端声纹识别模型和所述服务端声纹识别模型根据所述目标用户上传的文本密令音频信息进一步调整确定。

在一种可选的实现方式中，目标用户的文本密令由服务端随机生成、或由服务端根据目标用户的信息生成、或由用户预先设置。

在一种可选的实现方式中，语音验证装置8还包括次数确定单元和提示单元。次数确定单元被配置为响应于所述语音识别结果不满足预定条件，确定当前提醒次数。

提示单元被配置为响应于当前提醒次数小于次数阈值，提示目标用户再次上传语音数据。

图9是本发明实施例的电子设备的示意图。如图9所示，电子设备9为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器91和存储器92。处理器91和存储器92通过总线93连接。存储器92适于存储处理器91可执行的指令或程序。处理器91可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器91通过执行存储器92所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线93将上述多个组件连接在一起，同时将上述组件连接到显示控制器94和显示装置以及输入/输出(I/O)装置95。输入/输出(I/O)装置95可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置95通过输入/输出(I/O)控制器96与系统相连。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本发明的另一实施例涉及一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述部分或全部的方法实施例。

本发明的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例公开了TS1、一种语音验证方法，所述方法包括：

根据用户端确定的执行模式，获取语音数据；

响应于所述语音识别结果满足预定条件，执行对应的操作。

TS2、根据TS1所述的方法，根据用户端确定的执行模式，获取语音数据包括：

响应于所述执行模式为第一模式，获取任务执行过程中的语音交互信息和文本密令音频信息，以确定所述语音数据；

响应于所述执行模式为第二模式，获取文本密令音频信息，以确定所述语音数据；

响应于所述执行模式为第三模式，获取任务执行过程中的语音交互信息，以获取所述语音数据。

TS3、根据TS2所述的方法，对所述语音数据进行语音识别，获取对应的语音识别结果包括：

提取所述文本密令音频信息的语音特征；

将所述文本密令音频信息的语音特征输入至第一语音处理模型中进行处理，以获得所述文本密令音频信息对应的密令语音识别结果。

TS4、根据TS3所述的方法，对所述语音数据进行语音识别，获取对应的语音识别结果还包括：

提取所述语音交互信息的声纹特征；

将所述语音交互信息的声纹特征输入至第二语音处理模型中进行处理，获取第一用户声纹识别结果。

TS5、根据TS4所述的方法，响应于所述语音识别结果满足预定条件，执行对应的操作包括：

响应于所述密令语音识别结果和所述第一用户声纹识别结果满足所述预定条件，执行对应的操作。

TS6、根据TS5所述的方法，所述密令语音识别结果包括所述文本密令音频信息对应的第二用户声纹识别结果、以及所述文本密令音频信息对应的文本识别结果；

响应于所述密令语音识别结果和所述第一用户声纹识别结果满足所述预定条件，执行对应的操作包括：

响应于所述第一用户声纹识别结果的声纹可信度大于第一阈值、所述文本识别结果相对于预设的文本密令的错误率小于第二阈值、且所述第二用户声纹识别结果的声纹可信度大于第三阈值，执行对应的操作。

TS7、根据TS3所述的方法，所述密令语音识别结果包括所述文本密令音频信息对应的第二用户声纹识别结果、以及所述文本密令音频信息对应的文本识别结果；

响应于所述语音识别结果满足预定条件，执行对应的操作包括：

响应于所述文本识别结果相对于预设的文本密令的错误率小于第二阈值、且所述第二用户声纹识别结果的声纹可信度大于第三阈值，执行对应的操作。

TS8、根据TS3-TS7中任一项所述的方法，所述语音特征包括声纹特征和声学特征，所述第一语音处理模型包括用户端声纹识别模型和语音识别模型；

将所述文本密令音频信息的语音特征输入至第一语音处理模型中进行处理，以获得所述文本密令语音信息对应的密令语音识别结果包括：

将所述文本密令音频信息的声纹特征输入至所述用户端声纹识别模型中进行处理，获取第二用户声纹识别结果；

将所述文本密令音频信息的声学特征输入至所述语音识别模型中进行处理，获取所述文本密令音频信息对应的文本识别结果。

TS9、根据TS2所述的方法，对所述语音数据进行语音识别，获取对应的语音识别结果包括：

提取所述语音交互信息的声纹特征；

TS10、根据TS9所述的方法，响应于所述语音识别结果满足预定条件，执行对应的操作包括：

响应于所述第一用户声纹识别结果的声纹可信度大于第一阈值，执行对应的操作。

TS11、根据TS4或TS9或TS10所述的方法，所述第二语音处理模型包括服务端声纹识别模型和用户端声纹识别模型；

将所述语音交互信息的声纹特征输入至第二语音处理模型中进行处理，获取第一用户声纹识别结果包括：

将所述语音交互信息的声纹特征输入至所述服务端声纹识别模型中进行处理，获取第一声纹识别结果；

过滤所述第一声纹识别结果中的服务端声纹，获取用户端声纹特征样本；

将所述用户端声纹特征样本输入至用户端声纹识别模型中进行处理，获取所述第一用户声纹识别结果。

TS12、根据TS11所述的方法，所述用户端声纹识别模型根据目标用户预先上传的语音数据训练获得，所述服务端声纹识别模型根据服务端产生的语音数据训练获得。

TS13、根据TS12所述的方法，所述用户端声纹识别模型和所述服务端声纹识别模型根据所述目标用户上传的文本密令音频信息进一步调整确定。

TS14、根据TS2-TS13中任一项所述的方法，目标用户的文本密令由服务端随机生成、或由服务端根据目标用户的信息生成、或由用户预先设置。

TS15、根据TS1-TS14中任一项所述的方法，所述方法还包括：

响应于所述语音识别结果不满足预定条件，确定当前提醒次数；

响应于当前提醒次数小于次数阈值，提示目标用户再次上传语音数据。

本发明实施例公开了TS16、一种语音验证装置，所述装置包括：

本发明实施例公开了TS17、一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如TS1-TS15中任一项所述的方法。

本发明实施例公开了TS18、一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如TS1-TS15任一项所述的方法。

本发明实施例公开了TS19、一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如TS1-TS15中任一项所述的方法。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音验证方法，其特征在于，所述方法包括：

根据用户端确定的执行模式，获取语音数据；

响应于所述语音识别结果满足预定条件，执行对应的操作。

2.根据权利要求1所述的方法，其特征在于，根据用户端确定的执行模式，获取语音数据包括：

3.根据权利要求2所述的方法，其特征在于，对所述语音数据进行语音识别，获取对应的语音识别结果包括：

提取所述文本密令音频信息的语音特征；

4.根据权利要求2所述的方法，其特征在于，对所述语音数据进行语音识别，获取对应的语音识别结果包括：

提取所述语音交互信息的声纹特征；

5.根据权利要求4所述的方法，其特征在于，所述第二语音处理模型包括服务端声纹识别模型和用户端声纹识别模型；

6.根据权利要求5所述的方法，其特征在于，所述用户端声纹识别模型根据目标用户预先上传的语音数据训练获得，所述服务端声纹识别模型根据服务端产生的语音数据训练获得。

7.根据权利要求6所述的方法，其特征在于，所述用户端声纹识别模型和所述服务端声纹识别模型根据所述目标用户上传的文本密令音频信息进一步调整确定。

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述方法还包括：

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-8中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的方法。