CN109256138A

CN109256138A - 身份验证方法、终端设备及计算机可读存储介质

Info

Publication number: CN109256138A
Application number: CN201810915330.1A
Authority: CN
Inventors: 杨翘楚; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2019-01-22
Anticipated expiration: 2038-08-13
Also published as: CN109256138B

Abstract

本发明适用于数据处理技术领域，提供了一种身份验证方法、终端设备及计算机可读存储介质，包括：通过获取待验证的目标对象的语音数据，根据预设的梅尔频率倒谱系数模型，从语音数据中提取目标对象的声纹特征向量，将声纹特征向量输入预设的高斯混合模型，得到目标对象的高斯声纹向量，最后将高斯声纹向量与标准声纹向量进行对比，生成身份验证结果。通过分离噪声帧和语音帧，并构建梅尔频率倒谱系数模型和高斯混合模型，从目标对象的语音数据中提取出高斯声纹向量，通过高斯声纹向量确定目标对象是否通过身份验证，降低了语音数据中的噪声对目标对象身份验证的影响，提高了身份验证的成功率。

Description

身份验证方法、终端设备及计算机可读存储介质

技术领域

本发明属于数据处理技术领域，尤其涉及身份验证方法、终端设备及计算机可读存储介质。

背景技术

很多大型金融公司的业务范围涉及保险、银行、投资等多个业务范畴，而每个业务范畴通常都需要同客户进行沟通，且都需要进行反欺诈识别，因此，对客户的身份验证及反欺诈识别也就成为保证业务安全的重要组成部分。在客户身份验证环节中，身份验证由于其具有的实时性和易便性而被许多公司采用。

现有技术中通过对获取到的声音信息进行特征提取，得到目标对象的声音特征，再将这些特征与预设的模板进行对比，实现声音信息的验证。但是在说话对象数量较多、声音发生变化、嘈杂环境的情况下，语音数据很容易受到环境的影响，进而降低身份验证的成功率。

发明内容

有鉴于此，本发明实施例提供了身份验证方法、终端设备及计算机可读存储介质，以解决现有技术中语音数据很容易受到环境的影响，进而降低身份验证的成功率的问题。

本发明实施例的第一方面提供了一种身份验证方法，包括：

获取待验证的目标对象的语音数据；

根据预设的梅尔频率倒谱系数模型，从所述语音数据中提取所述目标对象的声纹特征向量；其中，所述梅尔频率倒谱系数模型用于通过预设的频域转换公式将信号从线性频谱域映射到梅尔频谱域；

将所述声纹特征向量输入预设的高斯混合模型，得到所述目标对象的高斯声纹向量；其中，所述高斯混合模型为基于通用背景模型对语音样本集进行训练得到，在训练过程中，所述高斯混合模型的输入为所述语音样本集中的语音数据，所述高斯混合模型的输出为所述目标对象的高斯声纹向量；

将所述高斯声纹向量与预设的标准声纹向量进行对比，生成身份验证结果。

本发明实施例的第二方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待验证的目标对象的语音数据；

将所述高斯声纹向量与预设的标准声纹向量进行对比，生成身份验证结果。本发明实施例的第三方面提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本发明实施例与现有技术相比存在的有益效果是：

本发明实施例通过获取待验证的目标对象的语音数据，根据预设的梅尔频率倒谱系数模型，从语音数据中提取目标对象的声纹特征向量，将声纹特征向量输入预设的高斯混合模型，得到目标对象的高斯声纹向量，最后将高斯声纹向量与标准声纹向量进行对比，生成身份验证结果。通过分离噪声帧和语音帧，并构建梅尔频率倒谱系数模型和高斯混合模型，从目标对象的语音数据中提取出高斯声纹向量，通过高斯声纹向量确定目标对象是否通过身份验证，降低了语音数据中的噪声对目标对象身份验证的影响，提高了身份验证的成功率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的身份验证方法的流程图；

图2是本发明实施例二提供的身份验证方法S102的具体实现流程图；

图3是本发明实施例三提供的终端设备的示意图；

图4是本发明实施例四提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

参见图1，图1是本发明实施例一提供的身份验证方法的流程图。本实施例中身份验证方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。如图所示的身份验证方法可以包括以下步骤：

S101：获取待验证的目标对象的语音数据。

目前，很多大型金融公司的业务范围涉及保险、银行、投资等多个业务范畴，而每个业务范畴通常都需要同客户进行沟通，且都需要进行反欺诈识别，因此，对客户的身份验证及反欺诈识别也就成为保证业务安全的重要组成部分。在身份验证环节中，声纹验证由于其具有的实时性和易便性而被许多公司采用。在实际应用中，受说话人在身份注册或身份验证环节所处的环境因素影响，采集到的语音数据常常带有非来自说话人的背景噪音，这一因素成为影响声纹验证成功率的主要因素之一。因此在本实施例中，在对用户身份进行验证之前，可以先对语音数据进行去噪，以保证语音数据的精确性。

在对声纹进行验证之前，先获取需要进行身份验证的目标对象的语音数据，可以通过语音采集装置采集目标对象的语音数据。其中，语音数据可以是要求目标对象说出固定的一句话，或者要求目标对象根据所指示的文字内容，说出对应的文字，在本实施例中，对语音数据的文字内容不做限定。

进一步的，在步骤S101获取待验证的目标对象的语音数据之后，还可以包括：

S1011：将所述语音数据输入预设的语音活动检测模型进行降噪处理，得到降噪后的语音数据。

由于从麦克风之类的语音输入器得到的语音信号将存在着一些噪声，如高频噪声、背景噪声等，因此，在本实施例中，在语音信号输入到系统时我们要对其进行预滤波处理，预滤波处理的主要有两个作用：采用低通滤波器来抵制高频噪声，即让输入的语音信号中的各个频域分量的频率不超过采样的1/2；采用高通滤波器来抵制电磁干扰和防止混叠干扰。从整体的结构上来看，语音信号的预滤波处理可以等效为将语音信号经过一个带通滤波器进行滤波处理，其主要作用是去除语音信号中的高频噪声等一些无用成分，并且可以保证语音信号的精度和质量，为接下来的语音信号预处理的其他步骤做好相应的准备。

进一步的，步骤S1011可以包括：

对所述语音数据进行分帧处理得到至少两个语音帧；

对每个所述语音帧进行能量提取，得到每个所述语音帧的特征向量；

在预设的已分类样本帧特征向量的样本空间中选择出每个所述特征向量的至少两个近邻向量，根据预设的人声向量阈值，删除所述近邻向量小于所述人声向量阈值时对应的语音帧，得到降噪后的语音数据。

具体地，语音信号处理常常要达到的一个目标，就是弄清楚语音中各个频率成分的分布。做这件事情的数学工具是傅里叶变换。傅里叶变换要求输入信号是平稳的，当然不平稳的信号你想硬做也可以，但得到的结果就没有什么意义了。而语音在宏观上来看是不平稳的，但是从微观上来看，在比较短的时间内，语音信号就可以看成平稳的，就可以截取出来做傅里叶变换了，截取出来的一小段信号则为一帧。

需要说明的是，在本实施例中，对语音数据进行分帧处理所得到的语音帧可以是至少两个以上，此处不做限定。

对输入的语音数据进行分帧处理，将每一帧在每个频段上进行能量提取，作为该帧的特征向量，K最近邻分类器在含有足够数量的已分类样本帧特征向量的样本空间中搜索输入的待处理语音帧的K个近邻。当前帧在样本空间的K 个近邻中，样本空间中的样本帧为标签已知的非人声帧和人声帧，样本空间维度为6维。若非人声样本帧的占比超过预设门限值，则判别当前帧为非人声帧，反之则判该帧为人声帧，将人声帧的数据确定为得到降噪后的语音数据。

S102：根据预设的梅尔频率倒谱系数模型，从所述语音数据中提取所述目标对象的声纹特征向量；其中，所述梅尔频率倒谱系数模型用于通过预设的频域转换公式将信号从线性频谱域映射到梅尔频谱域。

在获取到需要进行身份验证的目标对象的语音数据之后，通过预设的梅尔频率倒谱系数模型，从所述语音数据中提取所述目标对象的声纹特征向量。在本实施例中，梅尔频率倒谱系数模型是通过预设的频域转换公式将信号从线性频谱域映射到梅尔频谱域。

语音识别中通常需要把语音信号转换成含有声学特征的频率谱，这就得需要对语音信号进行压缩，压缩到特征频率谱来实现语音信号的转换，然而特征频率谱的大小取决于语音信号的持续时间。因此，为了对语音信号进行适当的特征提取，就需要在特征提取前对语音信号进行适当的采样和预处理处理。特征提取过程是语音识别的关键步骤。虽然语音波形包含多个特征，但是，最重要的特征是频谱包络。频谱包络包含发音者的主要特征，是语音识别中语音分析的核心。

语音识别系统中最常用的语音特征是梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients，MFCC)，MFCC可以被看作是模拟信号转换成的39维数字特征向量。在本实施例中，这个转换过程需要执行预加重、加窗、快速傅里叶变换、取对数以及离散余弦变换等几个步骤才能获得目标对象的声纹特征向量。在本实施例中，将目标对象的语音数据通过MFCC模型中，以提取到目标对象的声纹特征向量，从而获取到有效表征说话人个性特质的特征参数，提高身份验证的准确程度。

S103：将所述声纹特征向量输入预设的高斯混合模型，得到所述目标对象的高斯声纹向量；其中，所述高斯混合模型为基于通用背景模型对语音样本集进行训练得到，在训练过程中，所述高斯混合模型的输入为所述语音样本集中的语音数据，所述高斯混合模型的输出为所述目标对象的高斯声纹向量。

在身份验证系统中，判断语音是否来自集外依赖于对阈值的选择，阈值高固然可以使误识数减少，但同时也会导致许多集内数据被错误的拒绝，因此改变阈值并不能在减少误识数的同时还维持高的集内语音召回率。对于大量的集外数据，即使误识率很低，也会导致成千上万的语音被误识，因此最大程度的减少误识是这个环境下的身份验证的关键问题之一，必须选择更好的方式来判断测试语音的归属，而不是简单的使用阈值。

在本实施例中，通过训练出一个高斯混合模型(Gaussian Mixture Model， GMM)，将声纹特征向量输入该模型中得到目标对象的高斯声纹向量。具体的，该模型为通用背景模型(Universal Background Model，UBM)，用于提取说话人的声纹鉴别向量，该模型的训练过程包括如下步骤：

B1、获取预设数量的语音数据样本。

这个语音数据样本中的语音数据可以有10万个，此处对其中的样本数据不做限定。其中，每个语音数据样本对应一个声纹鉴别向量，每个语音样本可以采集自不同的人在不同环境中的语音，这样的语音数据样本用来训练能够表征一般语音特性的通用背景模型。

B2、分别对各个语音数据样本进行处理以提取出各个语音数据样本对应的预设类型声纹特征，并基于各个语音数据样本对应的预设类型声纹特征构建各个语音数据样本对应的声纹特征向量。其中，在本实施例中预设有各种类型的声纹特征，每个特征对应有其向量元素，通过将语音数据样本基于各个声纹特征确定其对应的向量元素值，得到语音数据样本对应的声纹特征向量。

B3、将构建出的所有预设类型声纹特征向量分为第一百分比的训练集和第二百分比的验证集，所述第一百分比和第二百分比之后小于或等于100％。

B4、利用训练集中的声纹特征向量进行训练，并在训练完成之后利用验证集对训练的模型的准确率进行验证。

B5、若准确率大于预设准确率，这里的准确率可以是98.5％，此处对准确率的数值不做限定，此时，模型训练结束；否则，增加语音数据样本的数量，并基于增加后的语音数据样本重新执行上述步骤B2～B5。

不同说话人的差异主要表现在其短时语音谱的差异，而这又可以用每个说话人的短时谱特征所具有的概率密度函数来衡量。高斯混合模型将空间分布的概率密度用多个高斯概率密度函数的加权和来拟合，可以平滑地逼近任意形状的概率密度函数，并且是一个易于处理的参数模型。在具体表示上，这个模型实际上就是把高斯混合模型的每个高斯分量的均值向量排列在一起组成一个超向量作为某一个说话人的模型，称为高斯声纹向量。在训练好高斯混合模型之后，将声纹特征向量输入该模型中，得到目标对象的高斯声纹向量i-vector，该向量包含了说话人空间的信息也包含了信道空间信息，相当于用因子分析方法将语音从高位空间投影到低维。

S104：将所述高斯声纹向量与预设的标准声纹向量进行对比，生成身份验证结果。

在生成高斯声纹向量之后，将该向量与预设的标准声纹向量进行对比，若与标准声纹向量的差别较大，则说明该高斯声纹向量对应的目标对象验证失败；若与标准声纹向量的差别较小，则说明该高斯声纹向量对应的目标对象验证成功。

进一步的，为了更加清楚、明确的确定出高斯声纹向量与标准声纹向量之间的差别，将两者之间的差别量化，以根据两者之间的差别大小确定精确的身份验证结果，在本实施例中，步骤S104中可以具体包括步骤S1041-S1042：

S1041：通过以下公式计算所述高斯声纹向量与所述标准声纹向量之间的差异度：

其中，用于表示所述高斯声纹向量；用于表示所述标准声纹向量。

具体的，高斯声纹向量与标准声纹向量在数值量上都是一一对应的，因此，通过和分别表示高斯声纹向量与标准声纹向量，通过计算两个向量之间的差异度，确定两个向量之间的差别大小。

S1042：若所述差异度小于预设的差异度阈值，则所述身份验证结果为身份验证成功。

在本实施例中，预先设置一个差异度阈值，用于衡量步骤S1041中所计算出来的差异度的大小。若差异度大于或者等于该差异度阈值，则说明两个向量之间的差距较大，即当前的目标对象验证失败；若差异度小于该差异度阈值，则说明两个向量之间的差距较小，即当前的目标对象验证成功，该目标对象通过验证。

上述方案，通过获取待验证的目标对象的语音数据，根据预设的梅尔频率倒谱系数模型，从语音数据中提取目标对象的声纹特征向量，将声纹特征向量输入预设的高斯混合模型，得到目标对象的高斯声纹向量，最后将高斯声纹向量与标准声纹向量进行对比，生成身份验证结果。通过分离噪声帧和语音帧，并构建梅尔频率倒谱系数模型和高斯混合模型，从目标对象的语音数据中提取出高斯声纹向量，通过高斯声纹向量确定目标对象是否通过身份验证，降低了语音数据中的噪声对目标对象身份验证的影响，提高了身份验证的成功率。

参见图2，图2是本发明实施例二提供的身份验证方法中步骤S102的具体实现流程图。本实施例中身份验证方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。如图所示的身份验证方法可以包括以下步骤：

S201：将所述语音数据按照预设的采样周期进行采样得到离散语音信号，并根据预设的编码规则将所述离散语音信号转化为数字语音信号。

在获取到待验证的目标对象的语音数据之后，这些数据都是连续的模拟语音信号，将这些连续的模拟语音信号以一定的采样周期采样，转化为离散信号，并根据一定的编码规则将离散信号量化为数字信号。

在实际应用中，数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的，实现这个步骤使用的设备是模/数转换器它以每秒上万次的速率对声波进行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。将一串的样本连接起来，就可以描述一段声波了，把每一秒钟所采样的数目称为采样频率或采率，单位为赫兹。采样频率越高所能描述的声波频率就越高。采样率决定声音频率的范围，相当于音调，可以用数字波形表示。以波形表示的频率范围通常被称为带宽。要正确理解音频采样可以分为采样的位数和采样的频率。在对语音数据按照预设的采样周期进行采样之后，得到离散的语音信号，通过对这些离散的语音信号进行编码，得到数字语音信号。

语音信号经过采样和量化处理可以将模拟语音信号转化成数字语音信号，然后对数字语音信号进行振幅量化编码，使得其从原来连续的语音信号转化成离散的语音序列。语音信号的采样过程就是对模拟语音信号每相隔一定的时间段进行一次幅度取值，这一时间段就是语音信号的采样周期，也就是语音信号的采样频率的倒数。语音信号采样频率的取值要高于语音信号的最大频率的两倍，即两者之间满足频率采样的奈奎斯特定理。语音信号的采样处理就是把语音信号从时域连续的信号转变成时域离散的信号，但它的幅度值还是连续的，所以在对语音信号采样处理后需要进行量化处理，其作用是将语音信号的幅度值也转变为离散的。量化处理过程就是首先把采样处理后的语音信号在幅度值上将其划分为有限多个量化阶距的集合，然后把落在同一阶距内的样本值划分为一类，并且用同一幅度值表示，这个幅度值就是语音信号的量化值。

S202：对所述数字语音信号进行分帧处理和加窗处理得到帧信号。

在得到数字语音信号之后，由于人体的生理特性，话音信号的高频成分往往被压抑，对其进行预加重，预加重的作用是补偿高频成分。

在实际应用中，大约在800Hz以上，语音信号的高频部分就会按6dB/倍频程跌落，这是语音信号平均功率谱受声门激励和口鼻辐射影响的原因。所以，通常在求语音信号的频谱时，其高频部分所对应的成分就会变小。并且，语音信号的高频部分的频谱比其低频部分的频谱要难求许多，因此在语音信号的预处理中需要进行预加重处理。这就意味着我们需要给语音信号添加一个预加重滤波器，也就是高通滤波器。这样，既增加了语音信号的高频振幅，又减少了语音信号的低频分量。同时，还可以消除声带和嘴唇在发声过程中产生的效应，补偿语音信号高频部分所受到发音系统带来的抑制，突出语音信号高频部分的共振峰。

人类自身发音器官的运动使人类的语音成为一种典型的非平稳信号。但是如果使发音器官的运动与声波的振动相比较，那么其运动就会显得缓慢。正因如此，工程技术人员才认为语音信号在10ms～30ms长的时间段中是平稳的。所以，对语音信号进行预加重之后，就要对其再进行分帧的操作，而且帧长一般选择20～30ms。

在本实施例中，通过重叠分帧法进行分帧处理，重叠分帧法不仅能够保持帧之间的平滑过渡，而且能够确保帧的连续性。因此，在MFCC处理过程中，一般每个10ms分一帧，每帧长20-30ms。这个过程一般称为分帧，但是通常情况下是利用加窗实现的。从语音信号时域分析的角度来说，选择什么形状的窗函数尤其重要。矩形窗具有良好的谱平滑性但是会产生泄露的现象，而且波形的细节也很容易丢失；但对于汉明窗来说，它可以有效的克服矩形窗所存在的泄漏现象。因此，在本实施例中，对语音信号的加窗采用可移动的有限长度的汉明窗加权来实现。

S203：对所述帧信号进行离散傅里叶变换，并通过如下公式将离散傅里叶变换之后的帧信号从线性频谱域转换到梅尔频谱域：

其中，f用于表示所述帧信号的频率值。

具体的，在对数字语音信号进行分帧处理和加窗处理之后，得到帧信号，对该帧信号进行离散傅里叶变化，得到梅尔频谱域中的数据。

通常情况下，我们很难看出语音信号在时域上的特性，所以我们一般将语音信号转换为频域上的能量分布来观察。这是因为不同的能量分布，能代表不同语音的特性。因此，在乘上汉明窗之后，语音信号的每帧还必须再经过离散傅里叶变换(Discrete FourierTransform，DFT)以得到在频谱上的能量分布。 MFCC中通常使用快速傅里叶变换(FastFourier Transform，FFT)代替离散傅里叶变换来减少计算量。对分帧加窗后的语音信号进行快速傅里叶变换后，便可得到各帧的频谱。快速傅里叶变换算法的公式如式如下：

其中，x(n)为输入的语音信号，N用于表示傅里叶变换的点数。

梅尔倒谱系数处理依据以下两个听觉机理：第一，人主观感知频域的划定并不是线性的，若将语音信号的频谱变换到感知频域中，我们就能更好地模拟听觉过程。所以MFCC先将线性频谱映射到基于听觉感知的梅尔(Mel)非线性频谱中。其变换公式如式如下：

其中，f用于表示所述帧信号的频率值。

S204：将转换之后的帧信号通过预设的梅尔三角滤波器组，得到每个频段滤波器输出的对数能量序列。

人类听觉感知实验表明，人类的听觉系统就是一个比较特殊的非线性系统，它对不同频率语音信号的响应灵敏度是不同的。人类听觉系统在提取语音特征的方面做得非常好。人类听觉系统既能够把一段语音信号的语音消息提取出来，又能够把说出这段话的人的个人特征提取出来。然而人类听觉系统的这些功能都是现在语音识别系统不可企及的。如果想要提高语音识别系统的识别率，那么语音识别系统就应该更好的模拟人类听觉系统的感知处理特点。在梅尔频域内，人类对音调的感知度为线性关系。举例来说，如果两段语音的梅尔频率相差两倍，则人耳听起来两者的音调也相差两倍。

人耳就像一个滤波器组一样，对频率是有选择性的，它只关注某些特定的频率分量。并且人耳对低频部分的语音信号感受的比较敏锐，越是高频部分的语音信号感受的也就越粗糙。所以说，这个滤波器组中的滤波器并不是统一的分布在频率坐标轴上的，在低频区域分布了较多的三角滤波器，滤波器排列密集，但是在高频区域却分布了少量的三角滤波器，滤波器排列稀疏。梅尔滤波器组采用三角滤波器有两个目的：对频谱进行平滑化，并消除谐波的作用，突显原先语音共振峰，同时降低运算量。

S205：对所述对数能量序列进行离散余弦变换，得到所述语音数据的声纹特征向量。

在离散傅里叶变化的基础上做离散余弦变化(Discrete Cosine Transform，DCT)，其实就是做逆变换，但是相对于离散傅里叶变化的正常逆变换来说，DCT可以减少一半以上的计算量。同时，DCT还有一个很重要的性质，就是能量集中特性。从大量的研究结果发现，像声音这种自然信号的能量大都是集中在离散余弦变换后的低阶部分。在本实施例中，通过对对数能量系数进行离散余弦变换，得到所述语音数据的声纹特征向量，如下公式：

其中，C_i用于表示第i个MFCC，M是倒谱系数的个数，X_k用于表示第K 个梅尔滤波器的对数能量系数。

语音信号中一帧的能量，也是语音的重要特征，并且一帧的能量非常容易的计算。因此，语音识别系统中MFCC系数通常会再加上一帧的对数能量。一帧的对数能量定义为一帧内信号的平方和，再取以10为底的对数值，再乘以 10。使每一帧的基本语音特征就多了一维，也就是一维的对数能量和12维的倒频谱参数，这就是所谓的13维MFCC。值得注意的是，若在语音处理过程中还要加入其它语音特征也可以在此阶段加入，常用的其它语音特征有音高、过零率以及共振峰等。

上述方案，通过将语音数据按照预设的采样周期进行采样得到离散语音信号，并根据预设的编码规则将离散语音信号转化为数字语音信号，其次对数字语音信号进行分帧处理和加窗处理得到帧信号，并对帧信号进行离散傅里叶变换，将帧信号从线性频谱域转换到梅尔频谱域：将转换之后的帧信号通过预设的梅尔三角滤波器组，得到每个频段滤波器输出的对数能量序列，最后对对数能量序列进行离散余弦变换，得到语音数据的声纹特征向量。通过MFCC的方式从目标对象的语音数据中提取出语音特征，在保证原始语音数据特征的前提下，提取出用于进行身份验证的语音特征，以提高身份验证的精确性。

参见图3，图3是本发明实施例四提供的一种终端设备的示意图。终端设备包括的各单元用于执行图1～图2对应的实施例中的各步骤。具体请参阅图1～图2各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。本实施例的终端设备300包括：

获取单元301，用于获取待验证的目标对象的语音数据；

声纹向量单元302，用于根据预设的梅尔频率倒谱系数模型，从所述语音数据中提取所述目标对象的声纹特征向量；其中，所述梅尔频率倒谱系数模型用于通过预设的频域转换公式将信号从线性频谱域映射到梅尔频谱域；

高斯向量单元303，用于将所述声纹特征向量输入预设的高斯混合模型，得到所述目标对象的高斯声纹向量；其中，所述高斯混合模型为基于通用背景模型对语音样本集进行训练得到，在训练过程中，所述高斯混合模型的输入为所述语音样本集中的语音数据，所述高斯混合模型的输出为所述目标对象的高斯声纹向量；

验证单元304，用于将所述高斯声纹向量与预设的标准声纹向量进行对比，生成身份验证结果。

进一步的，所述终端设备还可以包括：

降噪单元，用于将所述语音数据输入预设的语音活动检测模型进行降噪处理，得到降噪后的语音数据。

进一步的，所述降噪单元可以包括：

分帧单元，用于对所述语音数据进行分帧处理得到至少两个语音帧；

能量提取单元，用于对每个所述语音帧进行能量提取，得到每个所述语音帧的特征向量；

筛选单元，用于在预设的已分类样本帧特征向量的样本空间中选择出每个所述特征向量的至少两个近邻向量，根据预设的人声向量阈值，删除所述近邻向量小于所述人声向量阈值时对应的语音帧，得到降噪后的语音数据。

进一步的，所述声纹向量单元302可以包括：

信号转换单元，用于将所述语音数据按照预设的采样周期进行采样得到离散语音信号，并根据预设的编码规则将所述离散语音信号转化为数字语音信号；

加窗单元，用于对所述数字语音信号进行分帧处理和加窗处理得到帧信号；

第一变换单元，用于对所述帧信号进行离散傅里叶变换，并通过如下公式将离散傅里叶变换之后的帧信号从线性频谱域转换到梅尔频谱域：

其中，f用于表示所述帧信号的频率值；

信号滤波单元，用于将转换之后的帧信号通过预设的梅尔三角滤波器组，得到每个频段滤波器输出的对数能量序列；

第二变换单元，用于对所述对数能量序列进行离散余弦变换，得到所述语音数据的声纹特征向量。

进一步的，所述验证单元304可以包括：

差异度计算单元，用于通过以下公式计算所述高斯声纹向量与所述标准声纹向量之间的差异度：

其中，用于表示所述高斯声纹向量；用于表示所述标准声纹向量；

结果生成单元，用于若所述差异度小于预设的差异度阈值，则所述身份验证结果为身份验证成功。

图4是本发明实施例五提供的终端设备的示意图。如图4所示，该实施例的终端设备4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42 时实现上述身份验证方法实施例中的步骤，例如图1所示的步骤101至104。或者，所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能，例如图3所示单元301至304的功能。

示例性的，所述计算机程序42可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器41中，并由所述处理器40执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。

所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是终端设备4的示例，并不构成对终端设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述终端设备4的内部存储单元，例如终端设备4 的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备，例如所述终端设备4上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card，FC)等。进一步地，所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种身份验证方法，其特征在于，包括：

获取待验证的目标对象的语音数据；

2.如权利要求1所述的身份验证方法，其特征在于，所述获取待验证的目标对象的语音数据之后，还可以包括：

将所述语音数据输入预设的语音活动检测模型进行降噪处理，得到降噪后的语音数据。

3.如权利要求2所述的身份验证方法，其特征在于，所述将所述语音数据输入预设的语音活动检测模型进行降噪处理，得到降噪后的语音数据，包括：

对所述语音数据进行分帧处理得到至少两个语音帧；

4.如权利要求1所述的身份验证方法，其特征在于，所述根据预设的梅尔频率倒谱系数模型，从所述语音数据中提取所述目标对象的声纹特征向量，包括：

将所述语音数据按照预设的采样周期进行采样得到离散语音信号，并根据预设的编码规则将所述离散语音信号转化为数字语音信号；

对所述数字语音信号进行分帧处理和加窗处理得到帧信号；

对所述帧信号进行离散傅里叶变换，并通过如下公式将离散傅里叶变换之后的帧信号从线性频谱域转换到梅尔频谱域：

其中，f用于表示所述帧信号的频率值；

将转换之后的帧信号通过预设的梅尔三角滤波器组，得到每个频段滤波器输出的对数能量序列；

对所述对数能量序列进行离散余弦变换，得到所述语音数据的声纹特征向量。

5.如权利要求1-4任一项所述的身份验证方法，其特征在于，所述将所述高斯声纹向量与预设的标准声纹向量进行对比，生成身份验证结果，包括：

通过以下公式计算所述高斯声纹向量与所述标准声纹向量之间的差异度：

若所述差异度小于预设的差异度阈值，则所述身份验证结果为身份验证成功。

6.一种终端设备，其特征在于，包括存储器以及处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如下步骤：

获取待验证的目标对象的语音数据；

7.如权利要求6所述的终端设备，其特征在于，所述

8.如权利要求7所述的终端设备，其特征在于，所述将所述语音数据输入预设的语音活动检测模型进行降噪处理，得到降噪后的语音数据，包括：

对所述语音数据进行分帧处理得到至少两个语音帧；

9.如权利要求6所述的终端设备，其特征在于，所述根据预设的梅尔频率倒谱系数模型，从所述语音数据中提取所述目标对象的声纹特征向量，包括：

对所述数字语音信号进行分帧处理和加窗处理得到帧信号；

其中，f用于表示所述帧信号的频率值；

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。