CN107680602A

CN107680602A - 语音欺诈识别方法、装置、终端设备及存储介质

Info

Publication number: CN107680602A
Application number: CN201710734301.0A
Authority: CN
Inventors: 梁浩; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-08-24
Filing date: 2017-08-24
Publication date: 2018-02-09
Also published as: WO2019037205A1

Abstract

本发明公开一种语音欺诈识别方法、装置、终端设备及存储介质。该语音欺诈识别方法包括：获取待测语音信息；对所述待测语音信息进行特征提取，获取语音特征；采用身份确认模型对所述语音特征进行身份验证，获取身份验证信息；采用谎言监控模型对所述语音特征进行谎言验证，获取谎言验证信息；基于所述身份验证信息和所述谎言验证信息，获取欺诈风险评估结果。该语音欺诈识别方法进行语音欺诈识别时，具有效率高、准确率高且人工成本低的优点。

Description

语音欺诈识别方法、装置、终端设备及存储介质

技术领域

本发明涉及语音处理领域，尤其涉及一种语音欺诈识别方法、装置、终端设备及存储介质。

背景技术

在银行、证券、保险、P2P等金融机构中采用反欺诈服务识别恶意用户的欺诈行为，以解决在支付、借贷、理财、风控等业务环节遇到的欺诈威胁，达到降低损失的目标。其中，反欺诈服务是对包含交易诈骗，网络诈骗，电话诈骗，盗卡盗号等欺诈行为进行识别的一项服务。当前金融机构通过配备质检人员对服务人员与客户之间的通话内容进行监控识别，通过客户是否说谎以确定客户是否正在进行欺诈行为，以起到反欺诈目的。这种人工质检客户的通话内容以识别客户是否在进行欺诈作为的方式，处理过程效率低，且需配备专业的质检人员，人工成本高。

发明内容

本发明实施例提供一种语音欺诈识别方法、装置、终端设备及存储介质，以解决当前采用人工质检方式识别欺诈行为所存在的效率低且人工成本高的问题。

第一方面，本发明实施例提供一种语音欺诈识别方法，包括：

获取待测语音信息；

对所述待测语音信息进行特征提取，获取语音特征；

采用身份确认模型对所述语音特征进行身份验证，获取身份验证信息；

采用谎言监控模型对所述语音特征进行谎言验证，获取谎言验证信息；

基于所述身份验证信息和所述谎言验证信息，获取欺诈风险评估结果。

第二方面，本发明实施例提供一种语音欺诈识别装置，包括：

待测语音获取模块，用于获取待测语音信息；

语音特征获取模块，用于对所述待测语音信息进行特征提取，获取语音特征；

身份验证获取模块，用于采用身份确认模型对所述语音特征进行身份验证，获取身份验证信息；

谎言验证获取模块，用于采用谎言监控模型对所述语音特征进行谎言验证，获取谎言验证信息；

欺诈风险评估模块，用于基于所述身份验证信息和所述谎言验证信息，获取欺诈风险评估结果。

第三方面，本发明实施例提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述语音欺诈识别方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述语音欺诈识别方法的步骤。

本发明实施例提供的语音欺诈识别方法、装置、终端设备及存储介质中，通过对待测语音信息进行特征提取，以获取语音特征；再采用身份验证模型和谎言验证模型分别对语音特征进行验证，然后基于身份验证信息和谎言验证信息得到欺诈风险评估结果。该语音欺诈识别方法、装置、终端设备及存储介质中，可实现待测语音信息进行智能识别，以获取欺诈风险评估结果，其过程处理效率高，且无需人工干涉，有利于节省人工成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1中语音欺诈识别方法的一流程图。

图2是图1中步骤S30的一具体示意图。

图3是图2中步骤S31的一具体示意图。

图4是图2中步骤S34的一具体示意图。

图5是图1中步骤S40的一具体示意图。

图6是图1中步骤S50的一具体示意图。

图7是本发明实施例1中语音欺诈识别方法的另一流程图。

图8是本发明实施例2中语音欺诈识别装置的一示意图。

图9是本发明实施例4中终端设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图1示出本实施例中语音欺诈识别方法的流程图。该语音欺诈识别方法应用在银行、证券、保险、P2P等金融机构或者需要进行语音欺诈识别的其他机构的终端设备中，用于实现对说话人的待测语音信息进行智能识别，以识别说话人是否在进行欺诈行为。如图1所示，该语音欺诈识别方法包括如下步骤：

S10：获取待测语音信息。

其中，待测语音信息是终端设备采集到的说话人的语音信息。该待测语音信息可以是wav、mp3或其他格式的语音信息。可以理解地，每一待测语音信息与一用户ID关联，该用户ID是用于唯一识别待测语音信息的说话人的标识。在机构内的终端设备采集并获取待测语音信息过程中，由坐席人员或其他工作人员按预设问题引导说话人回复与说话人相关的身份信息，以使待测语音信息中包括说话人身份信息。或者，在机构内的终端设备采集并获取待测语音信息过程中，采用机器人录音引导说话人回复与说话人相关的身份信息，以使待测语音信息中包括说话人身份信息。该身份信息包括但不限于本实施例中的姓名、年龄、身份证号、联系电话、地址和工作单位等与用户相关的信息。

S20：对待测语音信息进行特征提取，获取语音特征。

由于步骤S30中的身份确认模型和步骤S40中谎言监控模型均是对语音特征进行处理而不是直接对待测语音信息进行处理，因此，需预先对待测语音信息进行特征提取，以获取可在身份确认模型和谎言监控模型中使用的语音特征。

语音特征包括但不限于韵律特征、音质特征、频谱特征、词汇特征和声纹特征。其中，韵律特征，又叫超音质特征或者超音段特征，是指语音中除音质特征之外的音高、音长和音强方面的变化。该韵律特征包括但不限于本实施例中的基音频率、发音持续时间、发音振幅和发音语速。音质特征包括但不限于本实施例中的共振峰F1-F3、频带能量分布、谐波信噪比和短时能量抖动。频谱特征，又称振动谱特征，是指将复杂振荡分解为振幅不同和频率不同的谐振荡，这些谐振荡的幅值按频率排列形成的图形。频谱特征与韵律特征和音质特征相融合，以提高特征参数的抗噪声效果。本实施例中，频谱特征采用能够反映人耳听觉特性的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，以下简称MFCC)。词汇特征是用于体现待测语音数据中用词的词性特征，包括但不限于本实施例中的积极词和消极词。词性特征与其他语音特征结合，有利于识别待测语音数据对应的说话人的情绪。声纹特征(即i-vector特征)是与说话人相关的特征，其与其他语音特征结合，在语音识别过程中可更有效提高识别的准确率。

具体地，对待测语音信息进行特征提取具体包括对待测语音信息预加重、分帧、加窗、端点检测、快速傅里叶变换、梅尔滤波器组和离散余弦变换获取等特征提取过程，以获取语音特征。

其中，预加重处理其实是将语音信号通过一个高通滤波器：H(Z)＝1-μz^-1，

式中μ值介于0.9-1.0之间，我们通常取0.96。预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，突出高频的共振峰。

分帧是将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20-30ms左右。为避免相邻两帧的变化过大，通过使两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3，此过程称为分帧。

加窗是每一帧乘以汉明窗(即HammingWindow)，由于汉明窗的幅频特性是旁瓣衰减较大，通过加窗处理，可增加帧左端和帧右端的连续性；即通过分帧和加窗处理，可将非平稳语音信号转变为短时平稳信号。设分帧后的信号为S(n),n＝0,1…,N-1,N为帧的大小，乘以汉明窗的信号S'(n)＝S(n)×W(n)，其中，W(n)形式如下：

不同的a值会产生不同的汉明窗，一般情况下a取0.46。

端点检测主要用于区分语音和噪声，并提取有效的语音部分。在端点检测过程中，通过分帧、加窗处理后，计算出其能量值，根据能量值区分语音部分和噪声部分，从中提取有效的语音部分。

快速傅里叶变换用于将时域信号转换为频域能量谱分析。由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧信号还需进行快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧频谱(即能量谱)。

梅尔滤波器组是指将快速傅里叶变换输出的能量谱通过一组Mel(梅尔)尺度的三角滤波器组，定义一个有M个滤波器的滤波器组，采用的滤波器为三角滤波器，中心频率为f(m),m＝1,2,...,M。M通常取22-26。梅尔滤波器组用于对频谱进行平滑化，并起消除滤波作用，可以突出语音的共振峰特征，可降低运算量。然后计算梅尔滤波器组中每个三角滤波器输出的对数能量其中，M是三角滤波器的个数。

对梅尔滤波器组输出的对数能量进行离散余弦变换(DCT)，得到梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,以下简称MFCC)。具体地，离散余弦变换(DCT)的计算公式如下：其中，M是三角滤波器的个数，L是MFCC系数的阶数，通常取12-16，将上述对数能量带入离散余弦变换，即可求出L阶的Mel-scale Cepstrum参数，基于梅尔倒谱系数获取语音特征，具体地，该语音特征可为语音特征序列。

S30：采用身份确认模型对语音特征进行身份验证，获取身份验证信息。

其中，身份确认模型是机构内预先训练好用于进行身份验证的模型。该身份确认模型包括预先设置的用户信息库，用户信息库中存储与用户ID相关联的用户信息。本实施例中，终端设备获取到的待测语音信息包含与用户ID相关联的身份信息，再基于用户ID查询用户信息库获取对应的标准身份信息，将识别身份信息与标准身份信息进行比较，即可实现身份验证，以获取身份验证信息。其中，标准身份信息是用户存储在用户信息库中的身份信息，该标准身份信息与用户ID相关联。

在一具体实施方式中，如图2所示，步骤S30中，采用身份确认模型对语音特征进行身份验证，获取身份验证信息，具体包括如下步骤：

S31：采用语音识别模型对语音特征进行语音识别，获取目标文字信息。

语音识别模型包括预先训练好的声学模型和语言模型。其中，声学模型用于处理语音特征与字之间的对应关系，即用于处理每个音对应哪个字的关系。语言模型用于处理字与字之间的对应关系，即怎样组合形成一合理句子输出。

具体地，如图3所示，步骤S31中，采用语音识别模型对语音特征进行语音识别，获取目标文字信息具体包括如下步骤：

S311：采用单音素训练模型对语音特征进行识别，获取单音素特征序列。

其中，单音素训练模型是用于将语音特征序列转换成音素特征序列的模型。可以理解地，步骤S20中对待测语音信息进行特征提取所获取的语音特征具体为语音特征序列。该单音素训练模型是系统预先训练好并存储在数据库中，以便使用时直接调用的模型。由于单音素训练模型的训练过程是基于音素级别的训练，主要考虑的是语句中每帧的最大后验概率，可有效提高语音欺诈识别的准确率。可以理解地，单音素训练模型是采用声学模型识别的第一个环节，可将基于帧级别的识别转换成基于音素级别的识别，提高识别的准确率。

本实施例中，单音素训练模型具体为单音素混合高斯模型-隐马尔科夫模型(monophone Mixture Gaussian Model-Hidden Markov Model，以下简称单音素GMM-HMM模型)。其中，隐马尔科夫模型(Hidden Markov Model，以下简称HMM模型)是一个双重随机过程，是具有一定状态数的隐马尔可夫链和显示随机函数集，是基于状态级别的训练模型。

单音素GMM-HMM模型的训练过程包括初次迭代和多次迭代过程，通过初始迭代训练和多次迭代训练，使得训练出的单音素GMM-HMM模型可更准确地识别单音素特征序列。在单音素GMM-HMM模型的初次迭代过程中，通过对少量的语音特征序列进行粗略计算，以获取其均值和方差，进而获取初始单音素GMM-HMM模型。然后基于初始单音素GMM-HMM模型对语音特征序列所对应的初始单音素的每一帧进行标注，即将语音特征序列中的每一语音特征对应的词通过发音词典替换为音素表达以获取初始单音素标注。由于只针对每一词发音，因此称为monophone(即单音素)。

在单音素GMM-HMM模型的多次迭代过程中，每次迭代均需将提取到的语音特征序列和上一次迭代中获取到的初始单音素标注进行训练，获取目标单音素GMM-HMM模型。然后，对照文本标注(ground truth)，以识别每个词的正确发音，保存为下一次迭代对应的目标单音素标注，并按照音素的起止时间进行对齐处理，获取目标单音素特征。将对齐后的数据作为声学模型训练的文本数据，有利于保障后续语音识别的准确性。本实施例中，多次迭代一般需要进行20-30次迭代，既可避免迭代次数过多，导致训练时间过长；又可避免迭代次数过短，影响获取单音素特征序列的准确率。最后，基于所有目标单音素特征获取单音素特征序列，以便基于该音素特征序列进行声学模型训练，从而提高语音欺诈识别的准确率。

S312：采用三音素训练模型对单音素特征序列进行识别，获取三音素特征序列。

其中，三音素训练模型是用于将单音素特征序列转换成三音素特征序列的模型。通过采用三音素训练模型，对步骤S311输出的单音素特征序列进行识别，获取三音素特征序列，使获取到的三音素特征序列充分考虑其上下文音素特征，进一步提高语音欺诈识别的准确率，以避免步骤S311中获取的单音素特征序列未考虑其上下文音素特征而导致识别准确率低的问题。可以理解地，三音素训练模型是采用声学模型识别的第二个环节，可在音素识别过程中充分考虑上下文音素，以提高识别的准确率。

本实施例中，三音素特征序列具体为三音素混合高斯模型-隐马尔科夫模型(triphone Mixture Gaussian Model-Hidden Markov Model，以下简称三音素GMM-HMM模型)。即采用三音素GMM-HMM模型对单音素特征序列进行识别，获取三音素特征序列，以使获取到的三音素特征序列结合其上下文音素特征，有利于提高语音欺诈识别的准确率。

三音素GMM-HMM模型的训练过程包括初次迭代和多次迭代过程，通过初始迭代和多次迭代训练，使得训练出的三音素GMM-HMM模型可准确地识别出三音素特征序列。在三音素GMM-HMM模型的初次迭代过程，通过将单音素特征序列的少量目标单音素特征的每个音素加上其上下文，以获取初始三音素标注。再将获取的初始三音素标注输入步骤S311的后续迭代过程中获取到的目标单音素GMM-HMM模型中，以获取初始三音素GMM-HMM模型，以使初始三音素GMM-HMM模型可基于三音素进行训练，提高训练的准确率。然后采用决策树算法将获取到的初始三音素GMM-HMM模型中发音相近的初始三音素标注聚成一类，以获取聚类三音素GMM-HMM模型，以提高语音欺诈识别的效率和准确率。具体地，采用决策树算法将初始三音素GMM-HMM模型获取的发音相近的初始三音素标注聚类，每个聚类结果称为一个Senone。本实施例中，Senone是一个三状态的HMM，每个HMM可以被最少3帧来表达。每个HMM可以采用1帧来表达，只考虑每个音素的第一帧(即第一个状态)，而将其余状态设置为空，可用一个HMM代表a或ab或abb。采用三音素GMM-HMM模型获取到的更新的单音素特征序列进行声学模型训练，增加语音欺诈识别的准确率。

在三音素GMM-HMM模型的多次迭代过程中，每次迭代均需将提取到的语音特征序列和上一次迭代中获取到的初始三音素标注进行训练，获取到目标三音素模型。然后，对照文本标注(ground truth)，以识别每个词的正确发音，保存为下一次迭代对应的目标三音素标注，并按照音素的起止时间进行对齐处理，获取目标三音素特征。将对齐后的数据作为声学模型训练的文本数据，有利于保障后续语音识别的准确性。本实施例中，多次迭代一般需要进行20-30次迭代，既可避免迭代次数过多，导致训练时间过长；又可避免迭代次数过短，影响获取三音素特征序列的准确率。最后，基于所有目标三音素特征获取三音素特征序列，以便基于该音素特征序列进行声学模型训练，从而提高语音欺诈识别的准确率。

S313：采用长短时递归神经网络模型对三音素特征序列进行识别，获取初始文字信息。

长短时递归神经网络模型(long-short term memory，以下简称LSTM)是一种时间递归神经网络模型，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM模型具有时间记忆单元因而用来处理语音信息，LSTM模型结构有三层，每层含1024个神经元，它的输出是一个Softmax(回归模型)，用于分类输出对应的字的发音。Softmax(回归模型)是一种常用于神经网络的分类函数，它将多个神经元的输出，映射到[0，1]区间内，可以理解成概率，计算起来简单方便，从而来进行多分类输出。可以理解地，长短时递归神经网络模型是采用声学模型识别的最后一个环节，识别过程简单方便且准确率高。

具体地，为了将词级别(word-level)的序列训练融入到音素级别(phone-level)的LSTM模型中，需采用cross-entropy训练准则、L2-norm训练准则和Leaky HMM训练准则等约束条件实现两者的融合训练，以获取目标声学模型。通过采用cross-entropy训练准则(即交叉熵训练准则)、L2-norm训练准则(L2范数训练准则)和Leaky HMM训练准则(即漏桶-隐马尔科夫模型训练准则)等准则，将词级别(word-level)的序列训练融入到音素级别(phone-level)的LSTM模型中，实现两者的融合训练，保证其拟合效果。

其中，cross-entropy训练准则是神经网络模型训练中常规的训练准则。该cross-entropy训练准则如下：其中，a是每个神经网络节点的输出，y是标注比对样本，x是每个神经网络节点的输入；当a＝y时cost＝0。

L2-norm训练准则是为了将词级别(word-level)的序列训练融入到音素级别(phone-level)的LSTM模型而额外增加的约束条件，以实现两者的融合训练。该L2-norm训练准则如下：其中，L(·)为神经网络节点的输出与文本标注(ground truth)对比误差，该误差越小越能保证训练后的目标声学模型越拟合训练语音信号。同时，为了防止过拟合现象，使得训练得到的目标声学模型在任意的测试数据也具有良好的表达效果，需加入正则项λΩ(cost)，在L2-norm训练准则中，正则项表达为

Leaky HMM训练准则是为了将词级别(word-level)的序列训练融入到音素级别(phone-level)的LSTM模型而额外增加的约束条件。Leaky HMM训练准则是一种新的神经网络训练准则，用于匹配本实施例中构建的单状态HMM来进行正常三状态的HMM的LSTM声学模型。传统三状态的HMM至少具有三个转移概率，而本实施例中采用的HMM是单状态的，为实现a->b状态的转移，设置其转移概率如下：P＝leakyHMM系数×b状态的转移概率，其中leakyHMM系数可设为0.1，b状态的初始转移概率为0.5，在目标声学模型训练过程，不断更新b状态的转移概率，以实现将词级别(word-level)的序列训练融入到音素级别(phone-level)的LSTM模型。

S314：采用语言模型对初始文字信息进行识别，获取目标文字信息。

本实施例中，步骤S311-S313是采用声学模型对语音特征进行识别，获取初始文字信息的过程，该初始文字信息主要体现为语音特征与字之间的对应关系，没有考虑字与字之间的对应关系。因此，步骤S314中需采用语言模型对初始文字信息进行识别，以使获取的目标文字信息不仅考虑到语音特征与字之间的对应关系，还考虑到字与字之间的对应关系。本实施例中，语言模型具体为语言模型工具Srilm。Srilm用来构建和应用统计语言模型，主要用于语音识别，统计标注和切分，以及机器翻译，可运行在UNIX及Windows平台上。

S32：对目标文字信息进行关键词提取，获取识别身份信息。

其中，识别身份信息是从待测语音信息形成的目标文字信息进行关键词提取，获取的说话人身份信息。由于待测语音信息采集过程中需引导说话人回复与其身份信息相关的信息，从而使其获取的目标文字信息提取关键词获取的识别身份信息包括说话人身份信息。该说话人身份信息包括但不限于在待测语音信息采集过程中获取的姓名、年龄、身份证号、联系电话、地址和工作单位等与用户相关的信息。

在一具体实施方式中，身份确认模型还包括预先设置的关键词库，用于存储引导说话人回复与说话人相关身份信息的预设问题关键词。其中，每一说话人都有一个与其对应的关键词库，每一关键词库与用户ID相关联，该用户ID是用于唯一识别说话人的关键词库的标识。可以理解地，预设问题关键词与说话人的回复一一对应。本实施例中，采用文本预处理算法对目标文字信息进行预处理，文本预处理算法包括繁简体统一、大小写统一、中文分词和停用词去除中的至少一种。中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。停用词(Stop Words)是指在处理自然语言数据时会自动过滤掉的某些字或词，如英文字符、数字、数字字符、标识符号及使用频率特高的单汉字等。最后，基于关键词库中的预设问题关键词对预处理后的目标文字信息进行问题关键词匹配，即在一段文本中找出预设关键词，匹配成功的问题关键词所对应的说话人答复的目标文字信息即为识别身份信息。

关键词匹配所选用的算法是克努特——莫里斯——普拉特算法(Knuth-Morris-Pratt，简称KMP)，KMP算法是一种改进的字符串匹配算法，KMP算法的关键是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。本实施例中，选用KMP算法进行关键词提取，节省时间，提高语音欺诈识别的效率。

在另一具体实施方式中，关键词提取也可选用垃圾-隐马尔科夫模型(Garbage-Hidden Markov Model，简称垃圾-HMM模型)。垃圾-隐马尔科夫模型是一种用于关键词识别的常用模型。本实施例中，关键词提取的过程主要是对关键词进行识别得到目标关键词信息即识别身份信息。其中，隐马尔科夫模型(Hidden Markov Model，以下简称HMM)是用于连续语音识别非特定人关键词识别的常用方法，非特定人语音识别是不用针对指定说话人的识别技术，利用垃圾模型来“吸收”非关键词。可以理解地，关键词识别可将训练看作是关键词和非关键词的组合，即将训练语音分为关键词和非关键词两部分。每个关键词对应一个关键词模型，每一个非关键词对应一个非关键词模型。非关键词由M个垃圾模型(Garbage)来表示，关键词由N个关键词模型来表示。垃圾-隐马尔科夫模型训练过程包括：获取训练语音，对训练语音进行特征提取，获取训练语音特征序列，然后基于获取的训练语音特征序列分别对初始关键词模型和初始垃圾模型进行训练，获取目标关键词模型和目标垃圾模型，基于目标关键词模型和目标垃圾模型，获取全局隐马尔科夫模型即垃圾-隐马尔科夫模型。再对步骤S20获取到的语音特征采用全局隐马尔科夫模型进行训练，以获取隐含状态序列。最后，采用Viterbi(即维特比)算法找出最佳状态路径，如果最佳状态路径中含有一个子序列使得子序列中的每个状态都对应某个关键词模型中的状态，则认为该子序列对应的语音特征序列是要识别的初始关键词信息。采用语言模型对初始关键词信息进行识别得到目标关键词信息即识别身份信息。对于HMM而言，其中一个重要的任务就是要找出最有可能产生其观测序列的隐含状态序列。其中，Viterbi算法是一种动态规划算法，一般用于序列的译码。可以理解地，序列中每一个点有一个状态，Viterbi算法的目的是要找到每一个点的状态，使得这个序列的译码结果全局较优。采用Viterbi算法找出隐含状态序列，效率高，减少计算的复杂度。本实施例中，采用关键词提取算法对步骤S20获取到的语音特征进行识别，无需识别整个语音特征，获取文字信息，再通过垃圾-HMM模型从文字信息中直接提取关键词信息，节省提取时间，使得语音欺诈识别的效率更高。

S33：从用户信息库中获取与用户ID相对应的标准身份信息。

具体地，用户信息库中预先存储与用户ID的标准身份信息。在机构的终端设备获取到与用户ID关联的待测语音信息时，可基于该用户ID查询用户信息库，以获取对应的标准身份信息。本实施例中，用户信息库可以为MySQL数据库，可采用查询语音，以用户ID为查询字段查询获取与用户ID相对应的标准身份信息。

S34：基于识别身份信息与标准身份信息，获取身份验证信息。

具体地，将识别身份信息与标准身份信息进行对比，判断识别身份信息与标准身份信息是否对应同一说话人，以输出相应的身份验证信息。本实施例中，若识别身份信息与标准身份信息对应同一说话人，则获取的身份验证信息为低欺诈风险信息；相应地，若识别身份信息与标准身份信息不对应同一说话人，则获取的身份验证信息为高欺诈风险信息。或者，本实施例中输出的身份验证信息可以输出识别身份信息与标准身份信息对应同一说话人的概率值。

在一具体实施方式中，如图4所示，步骤S34中，基于识别身份信息与标准身份信息，获取身份验证信息具体包括如下步骤：

S341：计算识别身份信息和标准身份信息的身份相似度。

在一具体实施方式中，可将识别身份信息与在用户信息库中获取到的标准身份信息进行身份信息比对，将识别身份信息与标准身份信息相同的数量除以进行识别身份信息和标准身份信息的总数量，将获取到的比值作为身份相似度。

在另一具体实施方式中，可通过计算识别身份信息和标准身份信息的欧氏距离，以获取对应的身份相似度。其中，欧氏距离(euclidean metric，又称欧几里得度量)是指在m维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)。任意两个n维向量a(Xi1,Xi2,...,Xin)与b(Xj1,Xj2,...,Xjn)的欧氏距离其中，识别身份信息可用向量a(Xi1,Xi2,...,Xin)表示，标准身份信息可用向量b(Xj1,Xj2,...,Xjn)来表示。

S342：将身份相似度与预设相似阈值进行比较，获取身份验证信息。

其中，预设相似阈值是预先设置用于评价两个身份信息对应同一说话人需要达到的相似度。身份验证信息是进行身份验证的验证结果。身份验证信息可以包括低欺诈风险信息和高欺诈风险信息，也可以包括其他信息。本实施例中，该预设相似阈值可设置为0.5，即若步骤S341中获取的身份相似度大于0.5，则获取的身份验证信息为低欺诈风险信息；反之，若步骤S341中获取的身份相似度不大于0.5，则获取的身份验证信息为高欺诈风险信息。

S40：采用谎言监控模型对语音特征进行谎言验证，获取谎言验证信息。

其中，谎言监控模型是机构内预先训练好用于谎言验证的模型，该谎言监控模型包括预先设置的谎言信息库，谎言语音库中存储预设的测谎问题以及相关业务的谎言语音特征(即本实施例中的谎言标准特征)。该谎言标准特征包括但不限于语音频率、发音时长、幅度变化和音质特征等标准特征，其中，音质特征包括但不限于共振峰和短时能量抖动。本实施例中，通过计算步骤S20获取的语音特征与谎言信息库中的谎言标准特征的特征相似度，即可实现谎言验证，以获取谎言验证模型。

在一具体实施方式中，如图5所示，步骤S40中，采用谎言监控模型对语音特征进行谎言验证，获取谎言验证信息具体包括如下步骤：

S41：将语音特征与谎言语音库中所有的标准特征进行对比，计算语音特征与每一标准特征的特征相似度。

其中，特征相似度可采用欧氏距离来计算，即将语音特征作为n维向量a(Xi1,Xi2,...,Xin)，并将标准特征作为n维向量b(Xj1,Xj2,...,Xjn)，则两者的欧氏距离

S42：选取最相似的特征相似度对应的标准特征作为目标特征，并将目标特征对应的标准验证信息作为谎言验证信息。

其中，标准验证信息是指谎言语音库中每一标准特征对应的验证信息，该标准验证信息可采用高欺诈风险信息和低欺诈风险信息这种形式输出；也可采用欺诈风险概率这种量化风险的形式输出。具体地，最相似的特征相似度的选取过程是指从步骤S41计算获取到至少两个语音特征与标准特征的特征相似度中，选取至少两个特征相似度中的最大值所对应的标准特征作为目标特征，再将目标特征所对应的谎言验证信息作为谎言验证信息。

可以理解地，步骤S30和步骤S40的执行顺序没有先后之分。

S50：基于身份验证信息和谎言验证信息，获取欺诈风险评估结果。

本实施例中，采用身份验证模型和谎言验证模型的双重验证使得获取到的欺诈风险评估结果更加准确，并能更精准的做出欺诈风险评估判断，降低欺诈风险。

在一具体实施方式中，如图6所示，步骤S50中，基于身份验证信息和谎言验证信息，获取欺诈风险评估结果具体包括如下步骤：

S51：对身份验证信息和谎言验证信息进行标准化处理，获取身份验证标准值和谎言验证标准值。

其中，数据标准化(normalization)是将数据按比例缩放，使之落入一个小的特定区间，用于去除数据的单位限制，将其转化为无量级的纯数值，便于不同单位或量级的指标能够进行比较和加权运算处理。本实施例中，采用min-max标准化(Min-maxnormalization)分别对身份验证信息和谎言验证信息进行标准化处理，以获取身份验证标准值和谎言验证标准值。其中，min-max标准化(Min-max normalization)也称为离差标准化，是指采用转换函数对原始数据进行线性变换，使结果落到预设区间的过程，其中，转换函数min为样本数据的最小值，max为样本数据的最大值，N为预设区间的区间大小。若N为1，则采用min-max标准化处理后的结果落在[0,1]这个区间范围内；若N为10，则采用min-max标准化处理后的结果落在[0,10]这个区间范围内。

S52：将身份验证标准值和谎言验证标准值分别乘以风险权重，获取身份验证风险值和谎言验证风险值。

其中，风险权重的系数是预先设置用于获取身份验证风险值和谎言验证风险值。本实施例中，可将身份验证的风险权重系数设定为0.6，谎言验证的风险权重设定为0.4，再将步骤S51中获取到的身份验证标准值和谎言验证标准值分别乘以风险权重系数，以获取身份验证风险值和谎言验证风险值。

S53：计算身份验证风险值和谎言验证风险值的和，获取欺诈风险评估结果。

将步骤S52中的身份验证风险值和谎言验证风险值做加法运算，得到欺诈风险评估结果，再将欺诈风险评估结果实时发送给呼叫中心，辅助做出风险评估的判断。

即本实施例的步骤S52和S53中，采用加权运算算法对身份验证信息和谎言验证信息进行加权处理，获取欺诈风险评估结果。加权运算算法如下：P_i＝Σv_iw_i，其中，Pi为身份验证风险值或者谎言验证风险值，Vi为身份验证信息或者谎言验证信息中每一标准特征数据的值，Wi是每一种标准特征数据的权重系数。

本实施例中的语音欺诈识别方法中，通过对待测语音信息进行特征提取，以获取语音特征；再采用身份验证模型和谎言验证模型分别对语音特征进行验证，然后基于身份验证信息和谎言验证信息得到欺诈风险评估结果。该语音欺诈识别方法，可实现待测语音信息进行智能识别，以获取欺诈风险评估结果，其过程处理效率高、准确率高且无需人工干涉，有利于节省人工成本。

在一具体实施方式中，如图7所示，该语音欺诈识别方法具体包括如下步骤：

S10’：获取呼叫中心实时采集的待测语音信息。

该呼叫中心可以集成在金融机构或者需要进行语音欺诈识别的其他机构的终端设备上，也可以通过网络与金融机构或者需要进行语音欺诈识别的其他机构的终端设备通信相连，以将呼叫中心实时采集到的待测语音信息发送给终端设备，以便于终端设备对获取到的待测语音信息进行欺诈识别。该呼叫中心与客户终端通话相连，以实现坐席人员与客户进行通话。其中，该呼叫中心是与机构内的坐席人员进行人机交互的终端。客户终端是与客户进行人机交互的终端，本实施例中的客户是待测语音信息的说话人，而终端是电话或手机。具体地，呼叫中心上设有录音模块，该录音模块用于对呼叫中心实时采集到的待测语音信息进行录音，以获取该待测语音信息，并将待测语音信息发送给客户终端。

S20’：对待测语音信息进行特征提取，获取语音特征。

S30’：采用身份确认模型对语音特征进行身份验证，获取身份验证信息。

S40’：采用谎言监控模型对语音特征进行谎言验证，获取谎言验证信息。

S50’：基于身份验证信息和谎言验证信息，获取欺诈风险评估结果。

该具体实施方式中，步骤S20’-S50’与上述具体实施方式中步骤S20-S50的实施过程相同，为避免重复，在此不一一赘述。

S60’：将欺诈风险评估结果实时发送给呼叫中心。

本实施例中，将步骤S50获取到的欺诈风险结果实时反馈给呼叫中心，以辅助机构内呼叫中心的坐席人员对客户做出欺诈风险评估判断，使得坐席人员在与客户进行通话过程中，即可起到反欺诈目的，避免因待测语音信息对应的说话人的欺诈行为造成损失。而且，该语音欺诈识别方法采用人工智能识别方式，处理效率高，且其过程无需配备专业的质检人员进行抽检，可节省人工成本，降低欺诈风险。

该具体实施方式所提供的语音欺诈识别方法中，获取呼叫中心实时采集的待测语音信息，再通过对待测语音信息进行特征提取，以获取语音特征；再采用身份验证模型和谎言验证模型分别对语音特征进行验证，然后基于身份验证信息和谎言验证信息得到欺诈风险评估结果，并将该欺诈风险评估结果实时发送给呼叫中心。该语音欺诈识别方法，可实现对实时采集的语音进行智能识别以获取欺诈风险结果，并能将该欺诈风险结果实时发送给呼叫中心，基于欺诈风险评估结果做出欺诈风险评估判断，其过程处理效率高，实时性强，灵活性高且无需人工干涉，有利于节省人工成本，降低欺诈风险。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例2

图8示出与实施例1中语音欺诈识别方法一一对应的语音欺诈识别装置的原理框图。如图8所示，该语音欺诈识别装置包括待测语音获取模块10、语音特征获取模块20、身份验证获取模块30、谎言验证获取模块40、欺诈风险评估模块50和评估结果发送模块60。其中，待测语音获取模块10、语音特征获取模块20、身份验证获取模块30、谎言验证获取模块40、欺诈风险评估模块50和评估结果发送模块60的实现功能与实施例1中语音欺诈识别方法对应的步骤S10-S60或者步骤S10’-S60’一一对应，为避免赘述，本实施例不一一详述。

待测语音获取模块10，用于获取待测语音信息。

语音特征获取模块20，用于对待测语音信息进行特征提取，获取语音特征。

身份验证获取模块30，用于采用身份确认模型对语音特征进行身份验证，获取身份验证信息。

谎言验证获取模块40，用于采用谎言监控模型对语音特征进行谎言验证，获取谎言验证信息。

欺诈风险评估模块50，用于基于身份验证信息和谎言验证信息，获取欺诈风险评估结果。

优选地，身份验证模块30包括目标文字获取单元31、识别身份获取单元32、标准身份获取单元33和身份验证获取单元34。

目标文字获取单元31，用于采用语音识别模型对语音特征进行语音识别，获取目标文字信息。

识别身份获取单元32，用于对目标文字信息进行关键词提取，获取识别身份信息。

标准身份获取单元33，用于从用户信息库中获取与用户ID相对应的标准身份信息。

身份验证获取单元34，用于基于识别身份信息与标准身份信息，获取身份验证信息。

优选地，目标文字获取子单元31包括单音素特征获取子单元311、三音素特征获取子单元312、初始文字获取子单元313和目标文字获取子单元314。

单音素特征获取子单元311，用于采用单音素训练模型对语音特征进行识别，获取单音素特征序列。

三音素特征获取子单元312，用于采用三音素训练模型对单音素特征序列进行识别，获取三音素特征序列。

初始文字获取子单元313，用于采用长短时递归神经网络模型对三音素特征序列进行识别，获取初始文字信息。

目标文字获取子单元314，用于采用语言模型对初始文字信息进行识别，获取目标文字信息。

优选地，身份验证获取单元34包括身份相似度获取子单元341和身份验证信息获取子单元342。

身份相似度获取子单元341，用于计算识别身份信息和标准身份信息的身份相似度。

身份验证信息获取子单元342，用于将身份相似度与预设相似阈值进行比较，获取身份验证信息。

优选地，谎言验证获取模块40包括特征相似度获取单元41和谎言验证获取单元42。

特征相似度获取单元41，用于将语音特征与谎言语音库中所有的标准特征进行对比，计算语音特征与每一标准特征的特征相似度。

谎言验证获取单元42，用于选取最相似的特征相似度对应的标准特征作为目标特征，并将目标特征对应的标准验证信息作为谎言验证信息。

优选地，欺诈风险评估模块50包括标准值获取单元51、风险值获取单元52和欺诈风险结果获取单元53。

标准值获取单元51，用于对身份验证信息和谎言验证信息进行标准化处理，获取身份验证标准值和谎言验证标准值。

风险值获取单元52，用于将身份验证标准值和谎言验证标准值分别乘以风险权重，获取身份验证风险值和谎言验证风险值。

欺诈风险结果获取单元53，用于计算身份验证风险值和谎言验证风险值的和，获取欺诈风险评估结果。

优选地，待测语音获取模块10，用于获取呼叫中心实时采集的所述待测语音信息。

评估结果发送模块60，用于将欺诈风险评估结果实时发送给呼叫中心。

实施例3

本实施例提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例1中语音欺诈识别方法，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现实施例2中语音欺诈识别中各模块/单元的功能，为避免重复，这里不再赘述。

实施例4

图9是本发明一实施例提供的终端设备的示意图。如图9所示，该实施例的终端设备90包括：处理器91、存储器92以及存储在存储器92中并可在处理器91上运行的计算机程序93。处理器91执行计算机程序93时实现上述实施例1中语音欺诈识别方法的步骤，例如图1所示的步骤S10至S50，或者，如图7所示的步骤S10’至S60’。或者，处理器91执行计算机程序93时实现上述实施例2中语音欺诈识别装置中各模块/单元的功能，例如图8所示的待测语音获取模块10、语音特征获取模块20、身份验证获取模块30、谎言验证获取模块40、欺诈风险评估模块50和评估结果发送模块60等模块的功能。

示例性的，计算机程序93可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器92中，并由处理器91执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序93在终端设备90中的执行过程。例如，计算机程序93可以被分割成实施例2中的待测语音获取模块10、语音特征获取模块20、身份验证获取模块30、谎言验证获取模块40、欺诈风险评估模块50和评估结果发送模块60，各模块具体功能如实施例2所述，在此不一一赘述。

终端设备90可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备可包括，但不仅限于，处理器91、存储器92。本领域技术人员可以理解，图9仅仅是终端设备90的示例，并不构成对终端设备90的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器91可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器92可以是终端设备90的内部存储单元，例如终端设备90的硬盘或内存。存储器92也可以是终端设备90的外部存储设备，例如终端设备90上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器92还可以既包括终端设备90的内部存储单元也包括外部存储设备。存储器92用于存储计算机程序以及终端设备所需的其他程序和数据。存储器92还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音欺诈识别方法，其特征在于，包括：

获取待测语音信息；

对所述待测语音信息进行特征提取，获取语音特征；

2.根据权利要求1所述的语音欺诈识别方法，其特征在于，所述待测语音信息与用户ID关联；

所述采用身份确认模型对所述语音特征进行身份验证，获取身份验证信息，包括：

采用语音识别模型对所述语音特征进行语音识别，获取目标文字信息；

对所述目标文字信息进行关键词提取，获取识别身份信息；

从用户信息库中获取与所述用户ID相对应的标准身份信息；

基于所述识别身份信息与所述标准身份信息，获取所述身份验证信息。

3.根据权利要求2所述的语音欺诈识别方法，其特征在于，所述采用语音识别模型对所述语音特征进行语音识别，获取目标文字信息，包括：

采用单音素训练模型对所述语音特征进行识别，获取单音素特征序列；

采用三音素训练模型对所述单音素特征序列进行识别，获取三音素特征序列；

采用长短时递归神经网络模型对所述三音素特征序列进行识别，获取初始文字信息；

采用语言模型对所述初始文字信息进行识别，获取所述目标文字信息。

4.根据权利要求2所述的语音欺诈识别方法，其特征在于，所述基于所述识别身份信息与所述标准身份信息，获取所述身份验证信息，包括：

计算所述识别身份信息和所述标准身份信息的身份相似度；

将所述身份相似度与预设相似阈值进行比较，获取所述身份验证信息。

5.根据权利要求1所述的语音欺诈识别方法，其特征在于，所述采用谎言监控模型对所述语音特征进行谎言验证，获取谎言验证信息，包括：

将所述语音特征与谎言语音库中所有的标准特征进行对比，计算所述语音特征与每一所述标准特征的特征相似度；

选取最相似的所述特征相似度对应的标准特征作为目标特征，并将所述目标特征对应的标准验证信息作为所述谎言验证信息。

6.根据权利要求1所述的语音欺诈识别方法，其特征在于，所述基于所述身份验证信息和所述谎言验证信息，获取欺诈风险评估结果，包括：

对所述身份验证信息和所述谎言验证信息进行标准化处理，获取身份验证标准值和谎言验证标准值；

将所述身份验证标准值和所述谎言验证标准值分别乘以风险权重，获取身份验证风险值和谎言验证风险值；

计算所述身份验证风险值和所述谎言验证风险值的和，获取所述欺诈风险评估结果。

7.根据权利要求1所述的语音欺诈识别方法，其特征在于，所述获取待测语音信息，包括：获取呼叫中心实时采集的所述待测语音信息；

所述语音欺诈识别方法还包括：

将所述欺诈风险评估结果实时发送给所述呼叫中心。

8.一种语音欺诈识别装置，其特征在于，包括：

待测语音获取模块，用于获取待测语音信息；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音欺诈识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音欺诈识别方法的步骤。