CN109346086A

CN109346086A - 声纹识别方法、装置、计算机设备和计算机可读存储介质

Info

Publication number: CN109346086A
Application number: CN201811261459.1A
Authority: CN
Inventors: 徐凌智; 彭俊清; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2019-02-15

Abstract

本申请揭示了一种声纹识别方法、装置、计算机设备和计算机可读存储介质，其中方法包括：解析待识别声纹特征的语音文件的音频格式；根据解析出的音频格式，调用对应音频格式的解析方法解析语音文件的原始采样数据；对原始采样数据进行重新采样和编码，得到预设音频格式的语音数据；将语音数据输入到预设的声纹模型中进行运算，得到对应语音数据的声纹特征；根据声纹特征判断出语音文件中说话人的身份，或者验证语音文件中的说话人是否为指定的人。本申请在声纹特征提取之前先进行音频格式的统一，然后进行声纹特征提取，可以快速地获取到声纹特征；在对声纹提取过程中，因为音频格式统一，所以声纹模型提取声纹特征时，准确性更高。

Description

声纹识别方法、装置、计算机设备和计算机可读存储介质

技术领域

本申请涉及到计算机领域，特别是涉及到一种声纹识别方法、装置、计算机设备和计算机可读存储介质。

背景技术

声纹系统注册和验证两个阶段都离不开声音采集，由于市场上声音采集软硬件不同(主要是采集过程中采样频率、量化比特率、声道数等参数设置不同，以及存储及传输过程中是否经过压缩)，导致声纹系统获取的语音文件格式不同。常见的语音文件格式主要包括pcm(Pulse Code Modulation----脉码调制录音)、wav(微软公司(Microsoft)开发的一种声音文件格式，波形格式数据)和mp3(Moving Picture Experts Group Audio LayerIII，一种音频压缩技术,由于这种压缩方式的全称叫MPEG Audio Layer3)。其中pcm存储原始的声卡采集数据，使用播放器播放pcm文件需要设置采样频率、量化比特率及声道数；wav包含wav头和数据两部分，wav文件头含有数据编码方式、采样频率、量化比特率、声道数等参数；mp3是最常用的有损音频压缩格式，通常能够压缩75％至95％，播放器播放mp3文件需要先解压或一边解压一边播放。

由上述可知，由于每种音频格式的软硬件参数不同，所以声纹模型不能快速地对各种音频格式的声音进行声纹识别。

发明内容

本申请的主要目的为提供一种声纹识别方法、装置、计算机设备和计算机可读存储介质，旨在可以针对不同音频格式的声音文件，进行快速地声纹识别。

本申请提出一种声纹识别方法，包括：

解析待识别声纹特征的语音文件的音频格式；

根据解析出的音频格式，调用对应所述音频格式的解析方法解析语音文件的原始采样数据；

对所述原始采样数据进行重新采样和编码，得到预设音频格式的语音数据；

将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征；

根据所述声纹特征判断出所述语音文件中说话人的身份，或者验证所述语音文件中的说话人是否为指定的人。

进一步地，所述将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤，包括：

截取所述语音数据中低于指定频率的第一语音数据，并利用梅尔倒谱系数提取所述第一语音数据的频谱特征；

将所述第一语音数据的频谱特征输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征。

进一步地，所述将所述第一语音数据的频谱特征输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤，包括：

通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的声纹特征；其中，所述深度神经网络的目标函数为：

其中，x,y分别表示用户特征的矩阵，k为参数，用于计算x，y之间的相似度，e为自然常数，S为参数，T为x的矩阵转置。

进一步地，上述将所述第一语音数据的频谱特征输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤，包括：

对所述频谱特征进行均值方差归一化处理，并将所述均值方差归一化处理的结果输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征。

进一步地，所述将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤之前，所述方法还包括：

获取声音样本以形成样本集，其中，所述样本集中包括多个人在两个不同的指定时间段的声音样本；

将样本集按照预设比例分为训练集和测试集；

利用训练集训练所述深度神经网络，得到所述声纹特征提取模型；

利用所述测试集验证所述声纹特征提取模型。

进一步地，当验证所述语音文件中的说话人是否为指定的人时，所述将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤，包括：

在所述语音数据中查找是否存在与所述指定的人在录入注册语音时相同的语义语音；

若存在，则将所述语义语音输入到所述声纹模型中进行学习，得到对应的声纹特征。

判断所述语音数据是否为经过变音软件处理过的声音；

如果否，则通过生成通过所述声纹模型提取所述语音数据的声纹特征的指令。

本申请还提供一种声纹识别装置，包括：

解析单元，用于解析待识别声纹特征的语音文件的音频格式；

还原单元，用于根据解析出的音频格式，调用对应所述音频格式的解析方法解析语音文件的原始采样数据；

编辑单元，用于对所述原始采样数据进行重新采样和编码，得到预设音频格式的语音数据；

提取单元，用于将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征；

验证单元，用于根据所述声纹特征判断出所述语音文件中说话人的身份，或者验证所述语音文件中的说话人是否为指定的人。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，其所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的声纹识别方法、装置、计算机设备和计算机可读存储介质，在声纹特征提取之前先进行音频格式的统一，然后进行声纹特征提取，可以快速地获取到声纹特征；在对声纹提取过程中，因为音频格式统一，所以声纹模型提取声纹特征时，准确性更高，也因此，在利用声纹特征进行识别说话人时，准确性更高。

附图说明

图1为本发明一实施例的声纹识别方法的流程示意图；

图2为本发明一实施例的声纹识别装置的结构示意框图；

图3为本发明一实施例的提取单元的结构示意框图；

图4为本发明一实施例的运算模块的结构示意框图；

图5为本发明一实施例的运算模块的结构示意框图；

图6为本发明一实施例的声纹识别装置的结构示意框图；

图7为本发明一实施例的提取单元的结构示意框图；

图8为本发明一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例首先提出一种声纹识别方法，包括步骤：

S1、解析待识别声纹特征的语音文件的音频格式；

S2、根据解析出的音频格式，调用对应所述音频格式的解析方法解析语音文件的原始采样数据；

S3、对所述原始采样数据进行重新采样和编码，得到预设音频格式的语音数据；

S4、将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征；

S5、根据所述声纹特征判断出所述语音文件中说话人的身份，或者验证所述语音文件中的说话人是否为指定的人。

如上述步骤S1所述，上述语音文件可以是多种音频格式中的一种，比如pcm、wav和mp3等中的一种。解析语音文件的音频格式的方法包括：首先判断语音文件是否存在文件头，如果不存在文件头，则判定语音文件为pcm的音频格式文件；如果存在文件头，则通过文件头判断所述语音文件的音频格式。在其它实施例中，还可以通过识别语音文件的后缀判断语音文件的音频格式等。在一个具体实施例中，会预先配置解析文件，如果解析文件无法解析语音文件的音频格式，则说明接口调用错误或该音频格式暂不支持使用等。

如上述步骤S2所述，因为在步骤S1中已经解析出语音文件的音频格式，那么调用对应的解析方法对其解析即可，得到语音文件的原始采样数据。根据音频格式解释语音文件是一种常见技术，在此不在赘述。上述的原始采样数据即为语音文件对应的最原始状态的语音信息。

如上述步骤S3所述，即为得到指定的音频格式的语音数据。将音频格式统一为指定的音频格式，然后输入到后续的声纹模型中，声纹特征的提取准确性更高，也因此，在利用声纹特征进行识别说话人时，准确性更高。

如上述步骤S4所述，上述声纹模型包括两种，一种为GMM-UBM(Gaussian MixtureModel-Universal Background Model高斯混合模型-通用背景模型)模型，另一种为通过神经网络训练而得的神经网络模型，本申请可以任选一种。上述的GMM-UBM模型最初成功地应用于说话人确认系统中，训练用来表示说话人无关的特征分布。而在语言辨识系统中，GMM-BNM模型是一个语言无关的背景模型，利用待识别各种语言的所有训练数据获得一个语言全局背景模型。GMM-UBM模型是一种现有的惯用模型，具体应用在此不在赘述。

如上述步骤S5所述，即为验证声纹的两种使用方式---话者辨认(SpeakerIdentification)和话者确认(Speaker Verification)。话者辨认是指判断待验证的语音是若干人中的哪一个所说的，是“多选一”的问题；而话者确认是确认待验证的语音是否是指定的某个人所说的，是“一对一判别”的问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要话者辨认技术，而银行交易时则需要话者确认技术等。比如，警察掌握了一段犯罪嫌疑人的录音，先通过上述声纹模型提取出一个第二声纹特征放入到声纹数据库中，然后将多个可能是犯罪嫌疑人的第一声音输入到上述声纹模型中提出带有身份标识的第一声纹特征，然后计算多个第一声纹特征与第二声纹特征的相似度是否大于预设的像似度值，将这些与第二声纹特征的相似度大于预设的像似度值的第一声纹特征对应的人作为犯罪嫌疑人，进而缩小犯罪嫌疑人的范围；如果是话者确认，则比如，用户到银行进行取钱，当输入银行密码之后，需要声纹确定是否为本人取钱，则获取用户的待验证的语音，并通过声纹特征提取模型计算出第一声纹特征，然后将第一声纹特征与该用户预先存储在银行的声纹数据库中的第二声纹特征进行相似度比较，如果相速度达到指定的阈值，则判定该用户是本人取钱等，给予相应的取钱权限等。

在一个实施例中，上述将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤S4，包括：

S41、截取所述语音数据中低于指定频率的第一语音数据，并利用梅尔倒谱系数提取所述第一语音数据的频谱特征；

S42、将所述第一语音数据的频谱特征输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征。

如上述步骤S41和S42所述，上述低于指定频率，是指可以保证梅尔倒谱系数提取准确性的频率。梅尔频率是基于人耳听觉特性提出来的，它与频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的频谱特征，MFCC已经广泛地应用在语音识别领域。由于梅尔频率与频率之间非线性的对应关系，使得MFCC随着频率的提高，其计算精度随之下降。本申请中先将验证的语音中高于上述指定频率的语音过滤或删除，以提高梅尔倒谱系数提取频谱特征的准确性，以提高后续声纹验证的准确性。

在一个实施例中，上述将所述第一语音数据的频谱特征输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤S42，包括：

S421、通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的声纹特征；其中，所述深度神经网络的目标函数为：

如上述步骤S421所述，神经网络是一组大致模仿人类大脑构造设计的算法，用于识别模式。神经网络通过机器感知系统解释传感器数据，对原始输入进行标记或聚类。神经网络所能识别的模式是包含在向量中的数值形式，因此图像、声音、文本、时间序列等一切现实世界的数据必须转换为数值。深度神经网络是指神经元层的层数数较多的神经网络，本申请的神经网络包括多个NIN(Network-in-Network)层和一个池化层组成。本申请中，对于声纹的特征提取，是一个较为复杂的过程，所以优选深度神经网络，以提高声纹特征提取模型的面对复杂问题的处理能力。上述声纹特征提取模型是通过大量的声音样本通过上述深度神经网络训练而得，在训练过程中，声音样本一般为成对出现，其会将标记为是同一个人的声音样本对应的声纹特征向相似度较高的方向运算，将标记为不同人的声音样本对应的声纹特征向相似度较低的方向运算，以不断优化上述深度神经网络的各层权重参数，最终得到上述声纹特征提取模型。在将上述声纹特征提取模型投入使用之前，还会对其进行测试，具体的测试过程即为通过测试集的声音样本进行测试，如果测试通过，则认为上述声纹特征提取模型可以投入使用。需要注意的是，上述声音样本同样是不高于上述指定频率的声音样本。

在一个实施例，上述将所述第一语音数据的频谱特征输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤S42，包括：

S422、对所述频谱特征进行均值方差归一化处理，并将所述均值方差归一化处理的结果输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征。

如上述步骤S422所述，在实际环境中，麦克风、信道等差异会造成相同音素特征差别较大，通过均值方差归一化(Cepstrum Mean and Variance Normalization)进行特征规整，得到均值为0，方差为1的标准的频谱特征，以提高鲁棒性，进一步地提供声纹特征提起的准确性。

在一个实施例中，上述将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤S4之前，上述方法还包括：

S401、获取声音样本以形成样本集，其中，所述样本集中包括多个人在两个不同的指定时间段的声音样本；

S402、将样本集按照预设比例分为训练集和测试集；

S403、利用训练集训练所述深度神经网络，得到所述声纹特征提取模型；

S404、利用所述测试集验证所述声纹特征提取模型。

如上述步骤S401至S404所述，将样本集分为训练集和测试集，可以根据具体的要求进行分配，比如，将样本集按照8：2的比例进行分配，也可以按照其他比例进行分配，通常情况下，训练集中的样本数量远大于测试集数量，对深度神经网络进行训练，以及对训练结果进行测试，是本领域的公知手段，再次不在赘述。本申请中的特点是，有多个人的声音样本分别包括两个，而同一人的两个声音样本的采集时间不同，比如，一个人的两个声音样本中的一个是在早晨采集，另一个声音样本在中午采集，由于同一个人的声纹基本不变，但是也会根据其身体状态产生略微的不同，比如人在早晨刚刚起床的时候，其发音器官相对松弛，而在中午的时候其发音器官相对紧绷等，所以在不同的时间，同一个人发出的声音存在细微的差别，本申请利用这个差别训练深度神经网络，使训练出的声纹特征提取模型基本忽略掉上述的细微差别，进而提高声纹识别的准确性。在其它实施例中，还可以在样本数据中参照同一个人的健康时候的声音样本，以及生病时的健康样本等，以提高最终声纹识别的准确性。本申请中，上述声音样本是通过上述步骤S1-S3处理后的语音数据。

在一个实施例中，当验证所述语音文件中的说话人是否为指定的人时，上述将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤S4，包括：

S43、在所述语音数据中查找是否存在与所述指定的人在录入注册语音时相同的语义语音；

S44、若存在，则将所述语义语音输入到所述声纹模型中进行学习，得到对应的声纹特征。

如上述步骤S43和S44中，因为判断说话人是否为指定的人时，一般都是要求指定的人录入指定的语音信息进行注册，通过对同样语义的语义语音进行声纹识别，相对而言，因为其声音频率等基本相同，所以进行声纹判断的时候，判断结果的准确性更高。

在一个实施例中，上述将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤S4之前，所述方法还包括：

S4a、通过预设的变音识别模型判断所述语音数据是否为经过变音软件处理过的声音；

S4b、如果否，则通过生成通过所述声纹模型提取所述语音数据的声纹特征的指令。

如上述步骤S4a和S4b所述，判断语音数据是否为经过变音软件处理过的声音的方法一般为：预先建立一个变音识别模型，然后将语音数据输入到变音识别模型中进行判断。因为通过变音软件变音后的声音是机器输出的声音，所以会具有一定的机械特征，利用该机械特征既可以判断出声音是否通过变音软件变音处理过。上述变音识别模型的建模过程包括：获取大量的经过变音软件变音处理后的声音数据，并利用该声音数据基于神经网络进行训练，以得到一个变音识别模型，具体的训练过程为神经网络训练的基本过程，在此不在赘述。

本申请实施例的声纹识别方法，在声纹特征提取之前先进行音频格式的统一，然后进行声纹特征提取，可以快速地获取到声纹特征；在对声纹提取过程中，因为音频格式统一，所以声纹模型提取声纹特征时，准确性更高，也因此，在利用声纹特征进行识别说话人时，准确性更高。

参照图2，本申请实施例还提出一种声纹识别装置，包括步骤：

解析单元10，用于解析待识别声纹特征的语音文件的音频格式；

还原单元20，用于根据解析出的音频格式，调用对应所述音频格式的解析方法解析语音文件的原始采样数据；

编辑单元30，用于对所述原始采样数据进行重新采样和编码，得到预设音频格式的语音数据；

提取单元40，用于将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征；

验证单元50，用于根据所述声纹特征判断出所述语音文件中说话人的身份，或者验证所述语音文件中的说话人是否为指定的人。

如上述解析单元10，上述语音文件可以是多种音频格式中的一种，比如pcm、wav和mp3等中的一种。解析语音文件的音频格式的方法包括：首先判断语音文件是否存在文件头，如果不存在文件头，则判定语音文件为pcm的音频格式文件；如果存在文件头，则通过文件头判断所述语音文件的音频格式。在其它实施例中，还可以通过识别语音文件的后缀判断语音文件的音频格式等。在一个具体实施例中，会预先配置解析文件，如果解析文件无法解析语音文件的音频格式，则说明接口调用错误或该音频格式暂不支持使用等。

如上述还原单元20，因为在步骤S1中已经解析出语音文件的音频格式，那么调用对应的解析方法对其解析即可，得到语音文件的原始采样数据。根据音频格式解释语音文件是一种常见技术，在此不在赘述。上述的原始采样数据即为语音文件对应的最原始状态的语音信息。

如上述编辑单元30，即为得到指定的音频格式的语音数据。将音频格式统一为指定的音频格式，然后输入到后续的声纹模型中，声纹特征的提取准确性更高，也因此，在利用声纹特征进行识别说话人时，准确性更高。

如上述提取单元40，上述声纹模型包括两种，一种为GMM-UBM(Gaussian MixtureModel-Universal Background Model高斯混合模型-通用背景模型)模型，另一种为通过神经网络训练而得的神经网络模型，本申请可以任选一种。上述的GMM-UBM模型最初成功地应用于说话人确认系统中，训练用来表示说话人无关的特征分布。而在语言辨识系统中，GMM-BNM模型是一个语言无关的背景模型，利用待识别各种语言的所有训练数据获得一个语言全局背景模型。GMM-UBM模型是一种现有的惯用模型，具体应用在此不在赘述。

如上述验证单元50，即为验证声纹的两种使用方式---话者辨认(SpeakerIdentification)和话者确认(Speaker Verification)。话者辨认是指判断待验证的语音是若干人中的哪一个所说的，是“多选一”的问题；而话者确认是确认待验证的语音是否是指定的某个人所说的，是“一对一判别”的问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要话者辨认技术，而银行交易时则需要话者确认技术等。比如，警察掌握了一段犯罪嫌疑人的录音，先通过上述声纹模型提取出一个第二声纹特征放入到声纹数据库中，然后将多个可能是犯罪嫌疑人的第一声音输入到上述声纹模型中提出带有身份标识的第一声纹特征，然后计算多个第一声纹特征与第二声纹特征的相似度是否大于预设的像似度值，将这些与第二声纹特征的相似度大于预设的像似度值的第一声纹特征对应的人作为犯罪嫌疑人，进而缩小犯罪嫌疑人的范围；如果是话者确认，则比如，用户到银行进行取钱，当输入银行密码之后，需要声纹确定是否为本人取钱，则获取用户的待验证的语音，并通过声纹特征提取模型计算出第一声纹特征，然后将第一声纹特征与该用户预先存储在银行的声纹数据库中的第二声纹特征进行相似度比较，如果相速度达到指定的阈值，则判定该用户是本人取钱等，给予相应的取钱权限等。

参照图3，在一个实施例中，上述提取单元40，包括：

提取模块41，用于截取所述语音数据中低于指定频率的第一语音数据，并利用梅尔倒谱系数提取所述第一语音数据的频谱特征；

运算模块42，用于将所述第一语音数据的频谱特征输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征。

如上述提取模块41和运算模块42，上述低于指定频率，是指可以保证梅尔倒谱系数提取准确性的频率。梅尔频率是基于人耳听觉特性提出来的，它与频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的频谱特征，MFCC已经广泛地应用在语音识别领域。由于梅尔频率与频率之间非线性的对应关系，使得MFCC随着频率的提高，其计算精度随之下降。本申请中先将验证的语音中高于上述指定频率的语音过滤或删除，以提高梅尔倒谱系数提取频谱特征的准确性，以提高后续声纹验证的准确性。

参照图4，在一个实施例中，上述运算模块42，包括：

运算子模块421，用于通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的声纹特征；其中，所述深度神经网络的目标函数为：

如上述运算子模块421，神经网络是一组大致模仿人类大脑构造设计的算法，用于识别模式。神经网络通过机器感知系统解释传感器数据，对原始输入进行标记或聚类。神经网络所能识别的模式是包含在向量中的数值形式，因此图像、声音、文本、时间序列等一切现实世界的数据必须转换为数值。深度神经网络是指神经元层的层数数较多的神经网络，本申请的神经网络包括多个NIN(Network-in-Network)层和一个池化层组成。本申请中，对于声纹的特征提取，是一个较为复杂的过程，所以优选深度神经网络，以提高声纹特征提取模型的面对复杂问题的处理能力。上述声纹特征提取模型是通过大量的声音样本通过上述深度神经网络训练而得，在训练过程中，声音样本一般为成对出现，其会将标记为是同一个人的声音样本对应的声纹特征向相似度较高的方向运算，将标记为不同人的声音样本对应的声纹特征向相似度较低的方向运算，以不断优化上述深度神经网络的各层权重参数，最终得到上述声纹特征提取模型。在将上述声纹特征提取模型投入使用之前，还会对其进行测试，具体的测试过程即为通过测试集的声音样本进行测试，如果测试通过，则认为上述声纹特征提取模型可以投入使用。需要注意的是，上述声音样本同样是不高于上述指定频率的声音样本。

参照图5，在一个实施例，上述运算模块42，包括：

归一运算子模块422，用于对所述频谱特征进行均值方差归一化处理，并将所述均值方差归一化处理的结果输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征。

如上述归一运算子模块422，在实际环境中，麦克风、信道等差异会造成相同音素特征差别较大，通过均值方差归一化(Cepstrum Mean and Variance Normalization)进行特征规整，得到均值为0，方差为1的标准的频谱特征，以提高鲁棒性，进一步地提供声纹特征提起的准确性。

参照图6，在一个实施例中，上述声纹识别装置，还包括：

获取单元401，用于获取声音样本以形成样本集，其中，所述样本集中包括多个人在两个不同的指定时间段的声音样本；

分配单元402，用于将样本集按照预设比例分为训练集和测试集；

训练单元403，用于利用训练集训练所述深度神经网络，得到所述声纹特征提取模型；

模型验证单元404，用于利用所述测试集验证所述声纹特征提取模型。

本实施例中，将样本集分为训练集和测试集，可以根据具体的要求进行分配，比如，将样本集按照8：2的比例进行分配，也可以按照其他比例进行分配，通常情况下，训练集中的样本数量远大于测试集数量，对深度神经网络进行训练，以及对训练结果进行测试，是本领域的公知手段，再次不在赘述。本申请中的特点是，有多个人的声音样本分别包括两个，而同一人的两个声音样本的采集时间不同，比如，一个人的两个声音样本中的一个是在早晨采集，另一个声音样本在中午采集，由于同一个人的声纹基本不变，但是也会根据其身体状态产生略微的不同，比如人在早晨刚刚起床的时候，其发音器官相对松弛，而在中午的时候其发音器官相对紧绷等，所以在不同的时间，同一个人发出的声音存在细微的差别，本申请利用这个差别训练深度神经网络，使训练出的声纹特征提取模型基本忽略掉上述的细微差别，进而提高声纹识别的准确性。在其它实施例中，还可以在样本数据中参照同一个人的健康时候的声音样本，以及生病时的健康样本等，以提高最终声纹识别的准确性。本申请中，上述声音样本是通过上述步骤S1-S3处理后的语音数据。

参照图7，在一个实施例中，当验证所述语音文件中的说话人是否为指定的人时，上述提取单元40，包括：

查找模块43，用于在所述语音数据中查找是否存在与所述指定的人在录入注册语音时相同的语义语音；

语义运算模块44，用于若存在与所述指定的人在录入注册语音时相同的语义语音，则将所述语义语音输入到所述声纹模型中进行学习，得到对应的声纹特征。

本实施例中，因为判断说话人是否为指定的人时，一般都是要求指定的人录入指定的语音信息进行注册，通过对同样语义的语义语音进行声纹识别，相对而言，因为其声音频率等基本相同，所以进行声纹判断的时候，判断结果的准确性更高。

在一个实施例中，上述声纹识别装置，还包括：

判断单元，用于通过预设的变音识别模型判断所述语音数据是否为经过变音软件处理过的声音；

生成单元，用于如果所述语音数据不是经过变音软件处理过的声音，则通过生成通过所述声纹模型提取所述语音数据的声纹特征的指令。

本实施例中，判断语音数据是否为经过变音软件处理过的声音的方法一般为：先建立一个变音识别模型，然后将语音数据输入到变音识别模型中进行判断。因为通过变音软件变音后的声音是机器输出的声音，所以会具有一定的机械特征，利用该机械特征既可以判断出声音是否通过变音软件变音处理过。上述变音识别模型的建模过程包括：获取大量的经过变音软件变音处理后的声音数据，并利用该声音数据基于神经网络进行训练，以得到一个变音识别模型，具体的训练过程为神经网络训练的基本过程，在此不在赘述。

本申请实施例的声纹识别装置，在声纹特征提取之前先进行音频格式的统一，然后进行声纹特征提取，可以快速地获取到声纹特征；在对声纹提取过程中，因为音频格式统一，所以声纹模型提取声纹特征时，准确性更高，也因此，在利用声纹特征进行识别说话人时，准确性更高。

参照图8，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储绑定端口型后门检测方法的测试命令等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种声纹识别方法。

上述处理器执行上述声纹识别方法，包括：解析待识别声纹特征的语音文件的音频格式；根据解析出的音频格式，调用对应所述音频格式的解析方法解析语音文件的原始采样数据；对所述原始采样数据进行重新采样和编码，得到预设音频格式的语音数据；将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征；根据所述声纹特征判断出所述语音文件中说话人的身份，或者验证所述语音文件中的说话人是否为指定的人。

在一个实施例中，上述将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤，包括：截取所述语音数据中低于指定频率的第一语音数据，并利用梅尔倒谱系数提取所述第一语音数据的频谱特征；将所述第一语音数据的频谱特征输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征。

在一个实施例中，上述将所述第一语音数据的频谱特征输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤，包括：

在一个实施例中，上述将所述第一语音数据的频谱特征输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤，包括：对所述频谱特征进行均值方差归一化处理，并将所述均值方差归一化处理的结果输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征。

在一个实施例中，上述将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤之前，包括：获取声音样本以形成样本集，其中，所述样本集中包括多个人在两个不同的指定时间段的声音样本；将样本集按照预设比例分为训练集和测试集；利用训练集训练所述深度神经网络，得到所述声纹特征提取模型；利用所述测试集验证所述声纹特征提取模型。

在一个实施例中，当验证所述语音文件中的说话人是否为指定的人时，上述将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤，包括：在所述语音数据中查找是否存在与所述指定的人在录入注册语音时相同的语义语音；若存在，则将所述语义语音输入到所述声纹模型中进行学习，得到对应的声纹特征。

在一个实施例中，上述将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤之前，包括：判断所述语音数据是否为经过变音软件处理过的声音；如果否，则通过生成通过所述声纹模型提取所述语音数据的声纹特征的指令。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请实施例的计算机设备，在声纹特征提取之前先进行音频格式的统一，然后进行声纹特征提取，可以快速地获取到声纹特征；在对声纹提取过程中，因为音频格式统一，所以声纹模型提取声纹特征时，准确性更高，也因此，在利用声纹特征进行识别说话人时，准确性更高。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种声纹识别方法，包括：解析待识别声纹特征的语音文件的音频格式；根据解析出的音频格式，调用对应所述音频格式的解析方法解析语音文件的原始采样数据；对所述原始采样数据进行重新采样和编码，得到预设音频格式的语音数据；将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征；根据所述声纹特征判断出所述语音文件中说话人的身份，或者验证所述语音文件中的说话人是否为指定的人。

上述声纹识别方法，在声纹特征提取之前先进行音频格式的统一，然后进行声纹特征提取，可以快速地获取到声纹特征；在对声纹提取过程中，因为音频格式统一，所以声纹模型提取声纹特征时，准确性更高，也因此，在利用声纹特征进行识别说话人时，准确性更高。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种声纹识别方法，其特征在于，包括：

解析待识别声纹特征的语音文件的音频格式；

2.根据权利要求1所述的声纹识别方法，其特征在于，所述将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤，包括：

3.根据权利要求2所述的声纹识别方法，其特征在于，所述将所述第一语音数据的频谱特征输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤，包括：

4.根据权利要求2所述的声纹识别方法，其特征在于，所述将所述第一语音数据的频谱特征输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤，包括：

5.根据权利要求1所述的声纹识别方法，其特征在于，所述将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤之前，所述方法还包括：

将样本集按照预设比例分为训练集和测试集；

利用所述测试集验证所述声纹特征提取模型。

6.根据权利要求1所述的声纹识别方法，其特征在于，当验证所述语音文件中的说话人是否为指定的人时，所述将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤，包括：

7.根据权利要求1所述的声纹识别方法，其特征在于，所述将所述语音数据输入到预设的声纹模型中进行运算，得到对应所述语音数据的声纹特征的步骤之前，所述方法还包括：

通过预设的变音识别模型判断所述语音数据是否为经过变音软件处理过的声音；

8.一种声纹识别装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。