CN109473105A

CN109473105A - 与文本无关的声纹验证方法、装置和计算机设备

Info

Publication number: CN109473105A
Application number: CN201811261457.2A
Authority: CN
Inventors: 徐凌智; 彭俊清; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2019-03-15

Abstract

本申请揭示了一种与文本无关的声纹验证方法、装置和计算机设备，其中方法包括：截取待验证的语音中低于指定频率的第一语音，并利用梅尔倒谱系数提取所述第一语音的频谱特征；通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征；在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征；若查找到与所述第一声纹特征匹配的第二声纹特征，则判定所述待验证的语音验证通过。本申请利用基于深度神经网络训练的声纹特征提取模型来提取待验证语音的声纹特征，具有更快的提取效率，节约系统的内存和显存等，上述声纹特征提取模型可以不间断的自我学习，其提取声纹特征的准确性会保持一定的准确性。

Description

与文本无关的声纹验证方法、装置和计算机设备

技术领域

本申请涉及到计算机领域，特别是涉及到一种与文本无关的声纹验证方法、装置和计算机设备。

背景技术

文本无关声纹系统主要利用个体之间不同的语音声学特征(发音器官特征和行为特征)来区分说话人。目前广泛使用的文本无关声纹系统核心有两部分：通过高斯混合模型-通用背景模型(GMM-UBM)来提取声学特征i-vector；通过概率线性判别(PLDA)获取声学特征i-vector之间的相似度得分。但是存在以下缺点:(1)GMM-UBM模型性能难以优化；(2)计算步骤较多；(3) GMM-UBM模型参数较多，模型工程化占内存、显存较大。所以提供一种新的与文本无关的声纹验证方法，是目前亟需解决的问题。

发明内容

本申请的主要目的为提供与文本无关的声纹验证方法、装置和计算机设备，旨在解决现有技术中声纹特征提取计算步骤多、GMM-UBM模型性能难以优化、GMM-UBM模型参数较多，模型工程化占内存、显存较大等问题。

为了实现上述发明目的，本申请提出一种与文本无关的声纹验证方法，包括：

截取待验证的语音中低于指定频率的第一语音，并利用梅尔倒谱系数提取所述第一语音的频谱特征；

通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征；

在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征；

若查找到与所述第一声纹特征匹配的第二声纹特征，则判定所述待验证的语音验证通过。

进一步地，所述深度神经网络的目标函数为：

其中，其中，x,y分别表示用户特征的矩阵，k为参数，用于计算x，y之间的相似度，e为自然常数，S 为参数，T为x的矩阵转置。

进一步地，所述利用梅尔倒谱系数提取所述第一语音的频谱特征的步骤，包括：

根据预设规则对所述第一语音进行预处理；

利用所述梅尔倒谱系数提取预处理后的第一语音的频谱特征，以用于输入到声纹特征提取模型。

进一步地，所述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤之前，包括：

对所述频谱特征进行均值方差归一化处理。

进一步地，所述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤，包括：

判断所述第一语音的发音者性别；

根据所述发音者性别，调用根据对应性别的声音样本，基于所述深度神经网络训练而得的声纹特征提取模型；

将所述第一语音输入到所述声纹特征提取模型中提取出所述第一声纹特征。

判断所述第一语音是否为经过变音软件处理过的声音；

如果否，则通过预设的基于深度神经网络训练的声纹特征提取模型提取所述第一语音的第一声纹特征。

进一步地，所述声纹特征提取模型的训练方法，包括：

获取声音样本形成样本集，其中，所述样本集中包括多个人在两个不同的指定时间段的声音样本；

将样本集按照预设比例分为训练集和测试集；

利用训练集训所述深度神经网络，得到所述声纹特征提取模型；

利用所述测试集验证所述声纹特征提取模型。

本申请还提供一种与文本无关的声纹验证装置，包括：

频谱提取单元，用于截取待验证的语音中低于指定频率的第一语音，并利用梅尔倒谱系数提取所述第一语音的频谱特征；

声纹提取单元，用于通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征；

查找匹配单元，用于在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征；

判定单元，用于若查找到与所述第一声纹特征匹配的第二声纹特征，则判定所述待验证的语音验证通过。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的与文本无关的声纹验证方法、装置和计算机设备，利用基于深度神经网络训练的声纹特征提取模型来提取待验证语音的声纹特征，相对于现有技术的通过高斯混合模型-通用背景模型(GMM-UBM)来提取声学特征 i-vector，其具有更快的提取效率，将复杂的计算步骤用神经网络计算取代，参数少，所以更加节约系统的内存和显存等，节省系统资源。而且，上述声纹特征提取模型可以不间断的自我学习，其提取声纹特征的准确性会保持一定的准确性。而且本申请在提取频谱特征的时候，先将待待验证的语音中大于指定频率的声音信号过滤掉，以提高梅尔倒谱系数提取所述第一语音的频谱特征的。准确性和效率，进一步提高声纹验证的准确性和效率。

附图说明

图1为本申请一实施例的与文本无关的声纹验证方法的流程示意图；

图2为本申请一实施例的与文本无关的声纹验证装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种与文本无关的声纹验证方法，包括步骤：

S1、截取待验证的语音中低于指定频率的第一语音，并利用梅尔倒谱系数提取所述第一语音的频谱特征；

S2、通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征；

S3、在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征；

S4、若查找到与所述第一声纹特征匹配的第二声纹特征，则判定所述待验证的语音验证通过。

如上述步骤S1所述，上述待验证的语音包括多种，如即时获取的语音、预先存储的语音等。获取待验证的第一语音的方法包括多种，比如，即时获取的语音的获取方法为：通过麦克风采集说话者的当前输出的语音，该语音即为即时获取的语音；预先存储的语音的获取方法为：根据存储语音的路径到其存储空间中进行复制、导入、剪切等操作即可，以得到需要的待验证语音。上述低于指定频率，是指可以保证梅尔倒谱系数提取准确性的频率。梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征，MFCC已经广泛地应用在语音识别领域。由于梅尔频率与Hz频率之间非线性的对应关系，使得MFCC随着频率的提高，其计算精度随之下降。本实施例中先将验证的语音中高于上述指定频率的语音过滤或删除，以提高梅尔倒谱系数提取频谱特征的准确性，以提高后续声纹验证的准确性。

如上述步骤S2所述，神经网络是一种大致模仿人类大脑构造设计的算法，用于识别模式。神经网络通过机器感知系统解释传感器数据，对原始输入进行标记或聚类。神经网络所能识别的模式是包含在向量中的数值形式，因此图像、声音、文本、时间序列等一切现实世界的数据必须转换为数值。深度神经网络是指神经元层的层数数较多的神经网络，本申请的神经网络包括多个NIN(Network-in-Network)层和一个池化层组成。本申请中，对于声纹的特征提取，是一个较为复杂的过程，所以优选深度神经网络，以提高声纹特征提取模型面对复杂问题的处理能力。上述声纹特征提取模型是通过大量的声音样本通过上述深度神经网络训练而得，在训练过程中，声音样本一般为成对出现，其会将标记为是同一个人的声音样本对应的声纹特征向相似度较高的方向运算，将标记为不同人的声音样本对应的声纹特征向相似度较低的方向运算，以不断优化上述深度神经网络的各层权重参数，最终得到上述声纹特征提取模型。在将上述声纹特征提取模型投入使用之前，还会对其进行测试，具体的测试过程即为通过测试集的声音样本进行测试，如果测试通过，则认为上述声纹特征提取模型可以投入使用。需要注意的是，上述声音样本同样是不高于指定频率的声音样本。在一个实施例中，上述深度神经网络的目标函数为：

如上述步骤S3所述，上述声纹数据库内存储有大量的第二声纹特征，以及与第二声纹特征关联的身份信息；或者，上述声纹数据库内存储有一个或多个等待识别身份的第二声纹特征等。上述匹配的过程即为计算第一声纹特征与第二声纹特征相似度的过程，相似度的计算可以通过PLDA(Probabilistic LDA)模型进行计算，PLDA是一种现有技术，在此不在赘述。在其它实施例中还可以通过欧几里得距离(Eucledian Distance)、曼哈顿距离(Manhattan Distance)、明可夫斯基距离(Minkowski distance)或者余弦相似度中一种算法进行计算相似度等。

如上述步骤S4所述，上述待验证的语音验证包括两种，即话者辨认 (SpeakerIdentification)和话者确认(Speaker Verification)。话者辨认是指判断待验证的语音是若干人中的哪一个所说的，是“多选一”问题；而话者确认是确认待验证的语音是否是指定的某个人所说的，是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要话者辨认技术，而银行交易时则需要话者确认技术等。本申请中，如果在预设的数据中查找到与所述第一声纹特征匹配的第二声纹特征，如果是话者辨认，待验证的语音验证通过是指输出第二声纹特征对应的身份信息，该身份信息即会认为是待验证的语音的话者身份，比如，警察掌握了一段犯罪嫌疑人的录音，先通过上述声纹特征提取模型提取出一个第二声纹特征放入到声纹数据库中，然后将多个可能是犯罪嫌疑人的第一声音输入到上述声纹特征提取模型中提出带有身份标识的第一声纹特征，然后计算多个第一声纹特征与第二声纹特征的相似度大于预设的像似度值，将这些与第二声纹特征的相似度大于预设的像似度值的第一声纹特征对应的人作为犯罪嫌疑人，进而缩小犯罪嫌疑人的范围；如果是话者确认，则待验证的语音验证通过是指待验证的语音对应的身份符合预设要求，可以办理下一步任务等，比如，用户到银行进行取钱，当输入银行密码之后，需要声纹确定是否为本人取钱，则获取用户的待验证的语音，并通过声纹特征提取模型计算出第一声纹特征，然后将第一声纹特征与该用户预先存储在银行的声纹数据库中的第二声纹特征进行相似度比较，如果相速度达到指定的阈值，则判定该用户是本人取钱等，给予相应的取钱权限等。

在一个实施例中，上述利用梅尔倒谱系数提取所述第一语音的频谱特征的步骤，包括：

S11、根据预设规则对所述第一语音进行预处理；

S12、利用所述梅尔倒谱系数提取预处理后的第一语音的频谱特征，以用于输入到声纹特征提取模型。

如上述步骤S11所述，上述预设规则的预处理过程包括，首先判断第一语音的文件的类型，具体可通过读取第一语音的文件的后缀和文件头判定文件格式(比如wav、pcm、mp3等)；将第一语音的文件类型转成预设的文件类型，统一第一语音格式以便于后续的规整处理；将同一格式的第一语音读入内存并规整，规整包括如降采样，将16kHz采样数据重采样为8kHz，比如选取声道，将双声道提取左声道或右声)等。

如上述步骤S12所述，本申请使用梅尔倒谱系数(MFCC)提取上述预处理后的第一语音的频谱特征。人耳能分辨不同人说话是因为人耳对声音频谱的响应是非线性的，MFCC特征提取正是利用了这个原理。其过程主要分为： (1)预处理，包括分帧(不定长音频切分成固定长度小段)、预增强(加强高频)、加窗(消除帧两端造成的信号不连续)；(2)时域信号到频域信号转换，通常采用快速傅里叶变换(FFT)；(3)梅尔滤波(使用一组滤波器，计算不同频率的能量，同时设定频率上下限，屏蔽某些频率范围)；(4)倒谱分析(取对数，放大低能量处的能量差异；离散余弦变换，将信号映射到低维空间)等。

在一个实施例中，上述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤S2之前，包括：

S201、对所述频谱特征进行均值方差归一化处理。

如上述步骤S201所述，在实际环境中，麦克风、信道等差异造成相同音素特征差别较大，通过均值方差归一化(Cepstrum Mean and Variance Normalization)进行特征规整，得到均值为0，方差为1的标准的频谱特征，以提高鲁棒性。

在一个实施例中，上述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤S2，包括：

S21、判断所述第一语音的发音者性别；

S22、根据所述发音者性别，调用根据对应性别的声音样本，基于所述深度神经网络训练而得的声纹特征提取模型；

S23、将所述第一语音输入到所述声纹特征提取模型中提取出所述第一声纹特征。

如上述步骤S21至S23所述，上述声纹特征提取模型包括两种，即针对男性的声纹特征提取模型和针对女性的声纹特征提取模型，各声纹特征提取模型是根据对应性别的声音样本通过上述深度神经网络训练而得，比如，针对男性的声纹特征提取模型，是利用男性的声音样本训练而得。本申请先区分待验证的语音的发音者性别，然后调用与其性别对应的声纹特征提取模型，可以提高第一声纹特征的准确性。本申请中，区别待验证的语音的发音者性别可以通过预设的模型进行区分，其为现有技术在此不在赘述。在其它实施例中，还可以根据年龄段的不同而设置针对不同年龄段的声纹特征提取模型，这样可以提高声纹特征提起的准确性，比如，针对少儿年龄阶段的声纹特征提取模型，由于其使用的样本数据基本为发育中的少儿的声音样本，所以其训练出声纹特征提取模型，与利用针对青年年龄段的声音样本训练处的声纹体特征提取模型的权重参数是存在不同的。

S202、判断所述第一语音是否为经过变音软件处理过的声音；

S203、如果否，则通过预设的基于深度神经网络训练的声纹特征提取模型提取所述第一语音的第一声纹特征。

如上述步骤S202和S203所述，判断第一语音是否为经过变音软件处理过的声音的方法一般为：先建立一个变音识别模型，然后将第一语音输入到变音识别模型中进行判断。因为通过变音软件变音后的声音是机器输出的声音，所以会具有一定的机械特征，利用该机械特征既可以判断出声音是否通过变音软件变音处理过。上述变音识别模型的建模过程包括：获取大量的经过变音软件变音处理后的声音数据，并利用该声音数据基于神经网络进行训练，以得到一个变音识别模型，具体的训练过程为神经网络训练的基本过程，在此不在赘述。

在一个实施例中，上述声纹特征提取模型的训练方法，包括：

将样本集按照预设比例分为训练集和测试集；

利用所述测试集验证所述声纹特征提取模型。

本实施例中，将样本集分为训练集和测试集对深度神经网络进行训练，以及对训练结果进行测试，是本领域的公知手段，再次不在赘述。本申请中的特点是，有多个人的声音样本分别包括两个，而同一人的两个声音样本的采集时间不同，比如，一个人的两个声音样本中的一个是在早晨采集，另一个声音样本在中午采集，由于同一个人的声纹基本不变，但是也会根据其身体状态产生略微的不同，比如人在早晨刚刚起床的时候，其发音器官相对松弛，而在中午的时候其发音器官相对紧绷等，所以在不同的时间，同一个人发出的声音存在细微的差别，本申请利用这个差别训练深度神经网络，使训练出的声纹特征提取模型基本忽略掉上述的细微差别，进而提高声纹识别的准确性。在其它实施例中，还可以在样本数据中参照同一个人的健康时候的声音样本，以及生病时的健康样本等，以提高最终声纹识别的准确性。

本申请实施例的与文本无关的声纹验证方法，利用基于深度神经网络训练的声纹特征提取模型来提取待验证语音的声纹特征，相对于现有技术的通过高斯混合模型-通用背景模型(GMM-UBM)来提取声学特征i-vector，其具有更快的提取效率，将复杂的计算步骤用神经网络计算取代，参数少，所以更加节约系统的内存和显存等，节省系统资源。而且，上述声纹特征提取模型可以不间断的自我学习，其提取声纹特征的准确性会保持一定的准确性。而且本申请在提取频谱特征的时候，先将待待验证的语音中大于指定频率的声音信号过滤掉，以提高梅尔倒谱系数提取所述第一语音的频谱特征的。准确性和效率，进一步提高声纹验证的准确性和效率。

参照图2，本申请实施例还提供一种与文本无关的声纹验证装置，包括：

频谱提取单元10，用于截取待验证的语音中低于指定频率的第一语音，并利用梅尔倒谱系数提取所述第一语音的频谱特征；

声纹提取单元20，用于通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征；

查找匹配单元30，用于在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征；

判定单元40，用于若查找到与所述第一声纹特征匹配的第二声纹特征，则判定所述待验证的语音验证通过。

如上述频谱提取单元10，上述待验证的语音包括多种，如即时获取的语音、预先存储的语音等。获取待验证的第一语音的方法包括多种，比如，即时获取的语音的获取方法为：通过麦克风采集说话者的当前输出的语音，该语音即为即时获取的语音；预先存储的语音的获取方法为：根据存储语音的路径到其存储空间中进行复制、导入、剪切等操作即可，以得到需要的待验证语音。上述低于指定频率，是指可以保证梅尔倒谱系数提取准确性的频率。梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征，MFCC已经广泛地应用在语音识别领域。由于梅尔频率与Hz频率之间非线性的对应关系，使得MFCC随着频率的提高，其计算精度随之下降。本实施例中先将验证的语音中高于上述指定频率的语音过滤或删除，以提高梅尔倒谱系数提取频谱特征的准确性，以提高后续声纹验证的准确性。

如上述声纹提取单元20，神经网络是一种大致模仿人类大脑构造设计的算法，用于识别模式。神经网络通过机器感知系统解释传感器数据，对原始输入进行标记或聚类。神经网络所能识别的模式是包含在向量中的数值形式，因此图像、声音、文本、时间序列等一切现实世界的数据必须转换为数值。深度神经网络是指神经元层的层数数较多的神经网络，本申请的神经网络包括多个NIN(Network-in-Network)层和一个池化层组成。本申请中，对于声纹的特征提取，是一个较为复杂的过程，所以优选深度神经网络，以提高声纹特征提取模型面对复杂问题的处理能力。上述声纹特征提取模型是通过大量的声音样本通过上述深度神经网络训练而得，在训练过程中，声音样本一般为成对出现，其会将标记为是同一个人的声音样本对应的声纹特征向相似度较高的方向运算，将标记为不同人的声音样本对应的声纹特征向相似度较低的方向运算，以不断优化上述深度神经网络的各层权重参数，最终得到上述声纹特征提取模型。在将上述声纹特征提取模型投入使用之前，还会对其进行测试，具体的测试过程即为通过测试集的声音样本进行测试，如果测试通过，则认为上述声纹特征提取模型可以投入使用。需要注意的是，上述声音样本同样是不高于指定频率的声音样本。在一个实施例中，上述深度神经网络的目标函数为：

如上述查找匹配单元30，上述声纹数据库内存储有大量的第二声纹特征，以及与第二声纹特征关联的身份信息；或者，上述声纹数据库内存储有一个或多个等待识别身份的第二声纹特征等。上述匹配的过程即为计算第一声纹特征与第二声纹特征相似度的过程，相似度的计算可以通过PLDA (Probabilistic LDA)模型进行计算，PLDA是一种现有技术，在此不在赘述。在其它实施例中还可以通过欧几里得距离(Eucledian Distance)、曼哈顿距离 (Manhattan Distance)、明可夫斯基距离(Minkowski distance)或者余弦相似度中一种算法进行计算相似度等。

如上述判定单元40，上述待验证的语音验证包括两种，即话者辨认 (SpeakerIdentification)和话者确认(Speaker Verification)。话者辨认是指判断待验证的语音是若干人中的哪一个所说的，是“多选一”问题；而话者确认是确认待验证的语音是否是指定的某个人所说的，是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要话者辨认技术，而银行交易时则需要话者确认技术等。本申请中，如果在预设的数据中查找到与所述第一声纹特征匹配的第二声纹特征，如果是话者辨认，待验证的语音验证通过是指输出第二声纹特征对应的身份信息，该身份信息即会认为是待验证的语音的话者身份，比如，警察掌握了一段犯罪嫌疑人的录音，先通过上述声纹特征提取模型提取出一个第二声纹特征放入到声纹数据库中，然后将多个可能是犯罪嫌疑人的第一声音输入到上述声纹特征提取模型中提出带有身份标识的第一声纹特征，然后计算多个第一声纹特征与第二声纹特征的相似度大于预设的像似度值，将这些与第二声纹特征的相似度大于预设的像似度值的第一声纹特征对应的人作为犯罪嫌疑人，进而缩小犯罪嫌疑人的范围；如果是话者确认，则待验证的语音验证通过是指待验证的语音对应的身份符合预设要求，可以办理下一步任务等，比如，用户到银行进行取钱，当输入银行密码之后，需要声纹确定是否为本人取钱，则获取用户的待验证的语音，并通过声纹特征提取模型计算出第一声纹特征，然后将第一声纹特征与该用户预先存储在银行的声纹数据库中的第二声纹特征进行相似度比较，如果相速度达到指定的阈值，则判定该用户是本人取钱等，给予相应的取钱权限等。

在一个实施例中，上述频谱提取单元10，包括：

预处理模块，用于根据预设规则对所述第一语音进行预处理；

第一提取模块，用于利用所述梅尔倒谱系数提取预处理后的第一语音的频谱特征，以用于输入到声纹特征提取模型。

如上述预处理模块，上述预设规则的预处理过程包括，首先判断第一语音的文件的类型，具体可通过读取第一语音的文件的后缀和文件头判定文件格式(比如wav、pcm、mp3等)；将第一语音的文件类型转成预设的文件类型，统一第一语音格式以便于后续的规整处理；将同一格式的第一语音读入内存并规整，规整包括如降采样，将16kHz采样数据重采样为8kHz，比如选取声道，将双声道提取左声道或右声)等。

如上述提取模块，使用梅尔倒谱系数(MFCC)提取上述预处理后的第一语音的频谱特征。人耳能分辨不同人说话是因为人耳对声音频谱的响应是非线性的，MFCC特征提取正是利用了这个原理。其过程主要分为：(1)预处理，包括分帧(不定长音频切分成固定长度小段)、预增强(加强高频)、加窗(消除帧两端造成的信号不连续)；(2)时域信号到频域信号转换，通常采用快速傅里叶变换(FFT)；(3)梅尔滤波(使用一组滤波器，计算不同频率的能量，同时设定频率上下限，屏蔽某些频率范围)；(4)倒谱分析(取对数，放大低能量处的能量差异；离散余弦变换，将信号映射到低维空间)等。

在一个实施例中，上述与文本无关的声纹验证装置，还包括：

归一化单元，用于对所述频谱特征进行均值方差归一化处理。

在实际环境中，麦克风、信道等差异造成相同音素特征差别较大，通过均值方差归一化(Cepstrum Mean and Variance Normalization)进行特征规整，得到均值为0，方差为1的标准的频谱特征，以提高鲁棒性。

在一个实施例中，上述声纹提取单元，包括：

判断模块，用于判断所述第一语音的发音者性别；

调用模块，用于根据所述发音者性别，调用根据对应性别的声音样本，基于所述深度神经网络训练而得的声纹特征提取模型；

第二提取模块，用于将所述第一语音输入到所述声纹特征提取模型中提取出所述第一声纹特征。

在本实施例中，上述声纹特征提取模型包括两种，即针对男性的声纹特征提取模型和针对女性的声纹特征提取模型，各声纹特征提取模型是根据对应性别的声音样本通过上述深度神经网络训练而得，比如，针对男性的声纹特征提取模型，是利用男性的声音样本训练而得。本申请先区分待验证的语音的发音者性别，然后调用与其性别对应的声纹特征提取模型，可以提高第一声纹特征的准确性。本申请中，区别待验证的语音的发音者性别可以通过预设的模型进行区分，其为现有技术在此不在赘述。在其它实施例中，还可以根据年龄段的不同而设置针对不同年龄段的声纹特征提取模型，这样可以提高声纹特征提起的准确性，比如，针对少儿年龄阶段的声纹特征提取模型，由于其使用的样本数据基本为发育中的少儿的声音样本，所以其训练出声纹特征提取模型，与利用针对青年年龄段的声音样本训练处的声纹体特征提取模型的权重参数是存在不同的。

变音判断单元，用于判断所述第一语音是否为经过变音软件处理过的声音，如果否，则通过预设的基于深度神经网络训练的声纹特征提取模型提取所述第一语音的第一声纹特征。

在本实施例中，判断第一语音是否为经过变音软件处理过的声音的方法一般为：先建立一个变音识别模型，然后将第一语音输入到变音识别模型中进行判断。因为通过变音软件变音后的声音是机器输出的声音，所以会具有一定的机械特征，利用该机械特征既可以判断出声音是否通过变音软件变音处理过。上述变音识别模型的建模过程包括：获取大量的经过变音软件变音处理后的声音数据，并利用该声音数据基于神经网络进行训练，以得到一个变音识别模型，具体的训练过程为神经网络训练的基本过程，在此不在赘述。

获取单元，用于获取声音样本形成样本集，其中，所述样本集中包括多个人在两个不同的指定时间段的声音样本；

分配单元，用于将样本集按照预设比例分为训练集和测试集；

训练单元，用于利用训练集训所述深度神经网络，得到所述声纹特征提取模型；

验证单元，用于利用所述测试集验证所述声纹特征提取模型。

本申请实施例的与文本无关的声纹验证装置，利用基于深度神经网络训练的声纹特征提取模型来提取待验证语音的声纹特征，相对于现有技术的通过高斯混合模型-通用背景模型(GMM-UBM)来提取声学特征i-vector，其具有更快的提取效率，将复杂的计算步骤用神经网络计算取代，参数少，所以更加节约系统的内存和显存等，节省系统资源。而且，上述声纹特征提取模型可以不间断的自我学习，其提取声纹特征的准确性会保持一定的准确性。而且本申请在提取频谱特征的时候，先将待待验证的语音中大于指定频率的声音信号过滤掉，以提高梅尔倒谱系数提取所述第一语音的频谱特征的。准确性和效率，进一步提高声纹验证的准确性和效率。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储声纹特征提取模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种与文本无关的声纹验证方法。

上述处理器执行上述与文本无关的声纹验证方法，包括：截取待验证的语音中低于指定频率的第一语音，并利用梅尔倒谱系数提取所述第一语音的频谱特征；通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征；在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征；若查找到与所述第一声纹特征匹配的第二声纹特征，则判定所述待验证的语音验证通过。

在一个实施例中，上述深度神经网络的目标函数为：

在一个实施例中，上述利用梅尔倒谱系数提取所述第一语音的频谱特征的步骤，包括：根据预设规则对所述第一语音进行预处理；利用所述梅尔倒谱系数提取预处理后的第一语音的频谱特征，以用于输入到声纹特征提取模型。

在一个实施例中，上述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤之前，包括：对所述频谱特征进行均值方差归一化处理。

在一个实施例中，上述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤，包括：判断所述第一语音的发音者性别；根据所述发音者性别，调用根据对应性别的声音样本，基于所述深度神经网络训练而得的声纹特征提取模型；将所述第一语音输入到所述声纹特征提取模型中提取出所述第一声纹特征。

在一个实施例中，上述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤之前，包括：判断所述第一语音是否为经过变音软件处理过的声音；如果否，则通过预设的基于深度神经网络训练的声纹特征提取模型提取所述第一语音的第一声纹特征。

在一个实施例中，上述声纹特征提取模型的训练方法，包括：获取声音样本形成样本集，其中，所述样本集中包括多个人在两个不同的指定时间段的声音样本；将样本集按照预设比例分为训练集和测试集；利用训练集训所述深度神经网络，得到所述声纹特征提取模型；利用所述测试集验证所述声纹特征提取模型。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请实施例的计算机设备，利用基于深度神经网络训练的声纹特征提取模型来提取待验证语音的声纹特征，相对于现有技术的通过高斯混合模型- 通用背景模型(GMM-UBM)来提取声学特征i-vector，其具有更快的提取效率，将复杂的计算步骤用神经网络计算取代，参数少，所以更加节约系统的内存和显存等，节省系统资源。而且，上述声纹特征提取模型可以不间断的自我学习，其提取声纹特征的准确性会保持一定的准确性。而且本申请在提取频谱特征的时候，先将待待验证的语音中大于指定频率的声音信号过滤掉，以提高梅尔倒谱系数提取所述第一语音的频谱特征的。准确性和效率，进一步提高声纹验证的准确性和效率。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种与文本无关的声纹验证方法，包括：截取待验证的语音中低于指定频率的第一语音，并利用梅尔倒谱系数提取所述第一语音的频谱特征；通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征；在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征；若查找到与所述第一声纹特征匹配的第二声纹特征，则判定所述待验证的语音验证通过。

在一个实施例中，上述深度神经网络的目标函数为：

上述与文本无关的声纹验证方法，利用基于深度神经网络训练的声纹特征提取模型来提取待验证语音的声纹特征，相对于现有技术的通过高斯混合模型-通用背景模型(GMM-UBM)来提取声学特征i-vector，其具有更快的提取效率，将复杂的计算步骤用神经网络计算取代，参数少，所以更加节约系统的内存和显存等，节省系统资源。而且，上述声纹特征提取模型可以不间断的自我学习，其提取声纹特征的准确性会保持一定的准确性。而且本申请在提取频谱特征的时候，先将待待验证的语音中大于指定频率的声音信号过滤掉，以提高梅尔倒谱系数提取所述第一语音的频谱特征的。准确性和效率，进一步提高声纹验证的准确性和效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM (DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM (DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种与文本无关的声纹验证方法，其特征在于，包括：

2.根据权利要求1所述的与文本无关的声纹验证方法，其特征在于，所述深度神经网络的目标函数为：

其中，其中，x,y分别表示用户特征的矩阵，k为参数，用于计算x，y之间的相似度，e为自然常数，S为参数，T为x的矩阵转置。

3.根据权利要求2所述的与文本无关的声纹验证方法，其特征在于，所述利用梅尔倒谱系数提取所述第一语音的频谱特征的步骤，包括：

根据预设规则对所述第一语音进行预处理；

4.根据权利要求1所述的与文本无关的声纹验证方法，其特征在于，所述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤之前，包括：

对所述频谱特征进行均值方差归一化处理。

5.根据权利要求1所述的与文本无关的声纹验证方法，其特征在于，所述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤，包括：

判断所述第一语音的发音者性别；

6.根据权利要求1所述的与文本无关的声纹验证方法，其特征在于，所述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤之前，包括：

判断所述第一语音是否为经过变音软件处理过的声音；

7.根据权利要求1-6中任一项所述的与文本无关的声纹验证方法，其特征在于，所述声纹特征提取模型的训练方法，包括：

将样本集按照预设比例分为训练集和测试集；

利用所述测试集验证所述声纹特征提取模型。

8.一种与文本无关的声纹验证装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。