CN106971724A

CN106971724A - 一种防干扰声纹识别方法和系统

Info

Publication number: CN106971724A
Application number: CN201610025314.6A
Authority: CN
Inventors: 祝铭明
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2017-07-21

Abstract

本发明公开了一种防干扰声纹识别方法和系统，包括，对获取的语音片段中的语音的声音强度进行分析，将声音强度在一预设阈值下的语音进行丢弃；获取每个未识别声纹中的未识别声纹特征，未识别声纹特征中至少包括未识别声纹的小波元素；至少分别根据每个未识别声纹特征与声纹识别模型中的标准声纹特征处理得到对应于每个未识别声纹的辨别度；分别判断每个辨别度是否大于一预设的标准阈值，并保留辨别度大于标准阈值的未识别声纹；于被保留的未识别声纹中，选择辨别度最大的未识别声纹并识别为被锁定声纹；其技术方案的有益效果在于，提高了声纹识别的精度以及识别的稳定性，克服了现有技术中外界噪声容易对声纹识别造成干扰的缺陷。

Description

一种防干扰声纹识别方法和系统

技术领域

本发明涉及声纹识别技术领域，具体而言，涉及一种防干扰声纹识别方法和系统。

背景技术

随着电子智能设备被广泛的使用，较多的智能设备中开始集成语音控制的功能，对于语音控制而言，声纹识别因为具有唯一性并且不易伪造从而被开发者所注意，声纹识别具体其包括两类，分别是：1)说话人辨认(Speaker Identification)和2)说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的；而后者用以确认某段语音是否是指定的某个人所说的。在不同的应用环境中可能会使用到不同的声纹识别技术或者不同技术的结合。然而，不可否认的是声纹识别还不够完善，比如同一个人的环境中，存在的外部干扰源太多，如噪音，或者混合着多个人的语音，这样存在着声纹识别收到干扰，无论在识别的精度或者识别的效率上都给使用者带来了不好的使用体验。

发明内容

根据现有技术中存在的上述问题，现提供一种防干扰声纹识别方法及系统的技术方案，具体包括：

一种防干扰声纹识别方法，其中，包括：

对获取的语音片段中的语音的声音强度进行分析，将所述声音强度在一预设阈值下的语音进行丢弃；

获取每个未识别声纹中的未识别声纹特征，其中，所述未识别声纹特征中至少包括所述未识别声纹的小波元素；

至少分别根据每个所述未识别声纹特征与声纹识别模型中的标准声纹特征处理得到对应于每个所述未识别声纹的辨别度；

分别判断每个所述辨别度是否大于一预设的标准阈值，并保留所述辨别度大于所述标准阈值的所述未识别声纹；

于被保留的所述未识别声纹中，选择所述辨别度最大的所述未识别声纹并识别为被锁定声纹；

所述小波元素包括实小波元素和/或复小波元素，其中，所述获取未识别声纹中的未识别声纹特征包括：

检测所述未识别声纹中的浊音区间；

在每个所述浊音区间中检测基音区间，并在每个所述基音区间中获取所述声纹特征的所述实小波元素和/或所述复小波元素。

优选的，该防干扰声纹识别方法，其中，在所述提取未识别声纹中的未识别声纹特征之前，还包括：

在对声音强度在一预设阈值下的语音丢弃之后，在保留的语音中提取所述未识别声纹；

至少根据所述未识别声纹特征中的未识别声纹特征向量调整预先构建的标准识别模型中与所述未识别声纹特征向量对应的声纹特征向量参数，

优选的，该防干扰声纹识别方法，其中，所述未识别声纹特征中包括多个所述未识别声纹特征向量，所述标准声纹特征中包括多个所述标准声纹特征向量，其中，所述至少根据所述未识别声纹特征与声纹识别模型中的标准声纹特征处理得到所述未识别声纹的辨别度包括：

处理得到所述未识别声纹特征中的每个所述未识别声纹特征向量与所述标准声纹特征中每个与所述未识别声纹特征向量相对应的所述标准声纹特征向量的向量距离；

根据处理得到的多个所述向量距离处理得到所述未识别声纹特征与所述标准声纹特征的目标距离；

至少利用所述未识别声纹特征与所述标准声纹特征的所述目标距离处理得到所述未识别声纹的辨别度。

优选的，该防干扰声纹识别方法，其中，在采集所述未识别声纹之前，还包括：

采集多个声纹并获取所述多个声纹中每个声纹的背景声纹特征，以构建多个与所述声纹相对应的背景识别模型，其中，所述背景声纹特征中包括多个背景声纹特征向量；

根据所述背景识别模型构建所述标准识别模型。

优选的，该防干扰声纹识别方法，其中，所述至少利用所述未识别声纹特征与所述标准声纹特征的距离处理得到所述未识别声纹的辨别度包括：

处理得到所述未识别声纹特征分别与多个所述背景识别模型对应的每个所述声纹的所述背景声纹特征的背景距离；

根据多个所述背景距离处理得到距离平均值及距离标准差；

处理得到所述未识别声纹特征与所述标准声纹特征的所述目标距离与所述距离平均值的差值；

处理得到所述差值与所述距离标准差的比值，将所述比值作为所述未识别声纹的所述辨别度。

优选的，该防干扰声纹识别方法，其中，所述在每个所述基音区间中获取所述声纹特征的所述实小波元素和/或所述复小波元素包括：

在每个所述基音区间中获取预定的特征向量，并根据小波滤波器将多个所述基音区间中的所述特征向量划分为预定长度的样本向量，并将所述预定长度的样本向量归一化；

对归一化后的所述预定长度的样本向量执行以下至少一种小波变换：

对归一化后的所述预定长度的样本向量进行实小波变换，以得到第一预定频带的实部系数，并在所述第一预定频带中选择满足第一预定条件的频带进行采样，以得到所述未识别声纹特征中的所述实小波元素；

对归一化后的所述预定长度的样本向量进行双树复小波变换，以得到第二预定频带的实部系数和虚部系数，并在所述第二预定频带中选择满足第二预定条件的频带进行采样，以得到所述未识别声纹特征中的所述复小波元素。

优选的，该防干扰声纹识别方法，其中，在检测所述未识别声纹中的浊音区间之后，所述获取未识别声纹中的未识别声纹特征还包括：

获取所述未识别声纹中每一帧的梅尔倒谱系数，以得到所述未识别声纹特征中的所述梅尔倒谱系数特征；

根据所述梅尔倒谱系数处理得到所述未识别声纹中每一帧的差分梅尔倒谱系数特征，以得到所述未识别声纹特征中的所述差分梅尔倒谱系数特征。

一种防干扰声纹识别系统，包括：

第一采集单元，用于采集语音片段；

分析单元，于所述第一采集单元连接，用于对所述语音片段中的多个语音的的声音强度进行分析，并对应获取每个语音对应的声音强度；

第一判断单元，与所述分析单元连接将每个语音的声音强度与一预设阈值进行比较，并输出判断结果；

第一处理单元，与所述判断单元连接，用于根据所述判断结果，将声音强度在所述预设阈值下的语音进行丢弃；

第一获取单元，与所述第一处理单元连接，用于获取未识别声纹中的未识别声纹特征，其中，所述未识别声纹特征中至少包括所述未识别声纹的小波元素；

处理单元，连接所述获取单元，用于至少根据所述未识别声纹特征与声纹识别模型中的标准声纹特征处理所述未识别声纹的辨别度；

判断单元，连接所述处理单元，用于判断所述辨别度是否大于一预设的标准阈值，并保留所述辨别度大于所述标准阈值的所述未识别声纹；识别单元，连接所述判断单元，用于在所述被保留的未识别声纹中选择所述辨别度最高的所述未识别声纹，并识别为被锁定声纹；

所述小波元素包括实小波元素和/或复小波元素，所述第一获取单元包括：

检测模块，用于检测所述未识别声纹中的浊音区间；

第一获取模块，连接所述检测模块，用于在每个所述浊音区间中检测基音区间，并在每个所述基音区间中获取所述声纹特征的所述实小波元素和/或所述复小波元素。

优选的，该防干扰声纹识别系统，，还包括：

第二获取单元，用于在获取所述未识别声纹中的未识别声纹特征之前，采集所述未识别声纹；

调整单元，连接所述第二获取单元，用于至少根据所述未识别声纹特征中的未识别声纹特征向量调整预先构建的标准识别模型中与所述未识别声纹特征向量对应的声纹特征向量参数，以构造出与所述未识别声纹相适应的所述声纹识别模型中的所述标准声纹特征中的标准声纹特征向量。

优选的，该防干扰声纹识别系统，，所述未识别声纹特征中包括多个所述未识别声纹特征向量，所述标准声纹特征中包括多个所述标准声纹特征向量，所述处理单元包括：

第一处理模块，用于处理得到所述未识别声纹特征中的每个所述未识别声纹特征向量与所述标准声纹特征中每个与所述未识别声纹特征向量相对应的所述标准声纹特征向量的向量距离；

第二处理模块，连接所述第一处理模块，用于根据处理得到的多个所述向量距离处理得到所述未识别声纹特征与所述标准声纹特征的目标距离；

第三处理模块，连接所述第二处理模块，用于至少利用所述未识别声纹特征与所述标准声纹特征的所述目标距离处理得到所述未识别声纹的辨别度。

优选的，该防干扰声纹识别系统，，还包括：

第二采集单元，用于采集多个声纹并获取所述多个声纹中每个声纹的背景声纹特征，以构建多个与所述声纹相对应的背景识别模型，其中，所述背景声纹特征中包括多个背景声纹特征向量；

构建单元，连接所述第二采集单元，用于根据所述背景识别模型构建所述标准识别模型。

优选的，该防干扰声纹识别系统，，所述第三处理模块包括：

第一处理子模块，用于处理得到所述未识别声纹特征分别与多个所述背景识别模型对应的每个所述声纹的所述背景声纹特征的背景距离；

第二处理子模块，连接所述第一处理子模块，用于根据多个所述背景距离处理得到距离平均值及距离标准差；

第三处理子模块，连接所述第二处理子模块，用于处理得到所述未识别声纹特征与所述标准声纹特征的所述目标距离与所述距离平均值的差值；

第四处理子模块，分别连接所述第二处理子模块和所述第三处理子模块，用于处理得到所述差值与所述距离标准差的比值，将所述比值作为所述未识别声纹的所述辨别度。

优选的，该防干扰声纹识别系统，，所述第一获取模块包括：

第一获取子模块，用于在每个所述基音区间中获取预定的特征向量，并根据小波滤波器将多个所述基音区间中的所述特征向量划分为预定长度的样本向量，并将所述预定长度的样本向量归一化；

变换子模块，连接所述第一获取子模块，用于对归一化后的所述预定长度的样本向量执行以下至少一种小波变换：

优选的，该防干扰声纹识别系统，，所述获取单元还包括：

第二获取模块，用于在检测所述未识别声纹中的浊音区间之后，获取所述未识别声纹中每一帧的梅尔倒谱系数，以得到所述未识别声纹特征中的所述梅尔倒谱系数特征；

第四处理模块，连接所述第二获取模块，用于根据所述梅尔倒谱系数处理得到所述未识别声纹中每一帧的差分梅尔倒谱系数特征，以得到所述未识别声纹特征中的所述差分梅尔倒谱系数特征。

上述技术方案的有益效果是：提高了声纹识别的精度以及识别的稳定性，克服了现有技术中外界噪声容易对声纹识别造成干扰的缺陷。

附图说明

图1是本发明的优选的实施例中，一种防干扰声纹识的总体流程图；

图2是本发明的优选的实施例中，构造标准声纹特征向量的流程图；

图3是本发明的一个优选的实施例中，处理得到辨别度的流程图；

图4是本发明的优选的实施例中，处理得到标准识别模型的流程图；

图5是本发明的一个优选的实施例中，处理得到辨别度的流程图；

图6是本发明的优选的实施例中，提取未识别声纹特征的流程图；

图7是本发明的优选的实施例中，在每个基音区间内提取小波元素的流程图；

图8是本发明的优选的实施例中，获得差分梅尔倒谱系数特征的流程图；

图9是本发明的优选的实施例中，检测浊音区间后获取未识别声纹特征的流程图；

图10为本发明的优选的实施例中，一种防干扰声纹识别系统的结构图；

图11是本发明的优选的实施例中，系统中的第二处理单元的结构图；

图12是本发明的优选的实施例中，第二处理单元中的第三处理模块的结构图

图13是本发明的优选的实施例中，第一获取单元中的第一获取模块的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明的优选的实施例中，提供了一种防干扰声纹识别方法，如图1所示，该方法包括：

步骤S1，对获取的语音片段中的语音的声音强度进行分析；

步骤S2，将所述声音强度在一预设阈值下的语音进行丢弃

步骤S3，获取未识别声纹中的未识别声纹特征，其中，未识别声纹特征中至少包括未识别声纹的小波元素；

步骤S4，至少分别根据每个未识别声纹特征与声纹识别模型中的标准声纹特征处理得到对应于每个未识别声纹的辨别度；

步骤S5，分别判断每个辨别度是否大于一预设的标准阈值，并保留辨别度大于标准阈值的未识别声纹；

步骤S6，于被保留的未识别声纹中，选择辨别度最大的未识别声纹并识别为被锁定声纹。

本发明的优选的实施例中，在声纹识别的过程中，往往识别的环境不是一个绝对的较理想的环境，在不同的环境中皆存在不同的干扰源，如在家中存在的识别干扰源分别有电视机的声音或者在识别声纹时混杂着其他人的声音，进而对识别造成了干扰，影响了识别的精度，因此本发明对获取的语音片段进行分析，将语音片源中声音强度在一预设阈值下的语音进行丢弃，保留声音强度在预设阈值上的语音，进而对声音强度在预设阈值上的语音进行声纹识别，从而有效的控制了外界声音对识别声纹造成干扰，提高了识别精度。

上述防干扰声纹识别方法可以但不限于应用于摆放在私密的个人空间中的智能设备上对有限的几个使用者的声纹进行识别，还可以应用于将该智能设备摆放在相对开放的空间中，同样供有限的几个使用者的声纹进行识别。在上述应用环境中，可能存在多个未识别声纹进行识别，同样地可能存在多个辨别度大于上述标准阈值的未识别声纹(即通常可以作为被锁定声纹进行识别)。然而对于一台智能设备而言，最佳的状况为在同一时间仅根据一位使用者的语音指令进行操作，否则可能会对使用者的使用体验造成不好的影响。本发明的优选的实施例中，上述未识别声纹特征中包括小波元素，也就是说，在原有特征的基础上结合声纹的小波元素，从而提高防干扰声纹识别系统的精确性和稳定性。进而克服了现有的声纹识别方式的识别结果因容易受各种因素干扰而造成识别不准确的问题。进一步，通过直接与声纹识别模型进行比较，减小了模型构建的复杂度和构建周期，从而提高了声纹识别的稳定性和识别效率。关于上述小波元素在下文中详述。

本发明的优选的实施例中，上述未识别声纹中的未识别声纹特征可以包括多个未识别声纹特征向量。相应地，上述标准声纹特征中也可以包括多个标准声纹特征向量。

更进一步地，在本实施例中，上述未识别声纹特征可以包括下文中所述的内容，但其组成并不限于下文中所述的内容：

4个实小波元素、4个双树复小波元素、梅尔倒谱系数特征以及差分梅尔倒谱系数特征。

其中，上述小波元素中包括实小波和复小波中的至少一种。

本发明的优选的实施例中，上述声纹识别模型可以包括下文中所述的内容：

根据未识别声纹中的多个声纹特征向量(未识别声纹特征向量)对标准识别模型进行调整后，得到与未识别声纹相适应的用于识别上述未识别声纹的标准识别模型。

上述标准识别模型可以包括：采集关联于多人的不同的声纹，并从每个人的声纹中获取相应的声纹特征。随后根据不同的声纹特征分别构建与每个人的声纹相对应的背景识别模型，再对上述多个背景识别模型中的背景声纹特征进行聚类，进而构建标准识别模型，例如通用背景模型(Universal Background Mode，UBM)。

本发明的一个优选的实施例中，例如，一个声纹特征中包括10个声纹特征向量(即10类特征)，则采集多人的声纹后，从每个人的声纹中获取上述10类特征，然后对每类特征进行聚类(例如，包括32个中心)。随后，根据聚类得到的结果获得包含32码字的10个码本(即10个声纹特征向量对应的声纹特征参数)的UBM模型。进一步，每个说话人还可根据自身的声纹特征构建相应的背景识别模型。

本发明的优选的实施例中，在获取未识别声纹中的未识别声纹特征之前，还包括如图2所示的下述步骤：

步骤A1，在对声音强度在一预设阈值下的语音丢弃之后，在保留的语音中提取提取未识别声纹；

步骤A2，至少根据未识别声纹特征中的未识别声纹特征向量调整预先构建的标准识别模型中与未识别声纹特征向量对应的声纹特征向量参数，以构造出与未识别声纹相适应的声纹识别模型中的标准声纹特征中的标准声纹特征向量。

本发明的优选的实施例中，上述采集未识别声纹的方式可以包括下述几种方式：采用声音采集装置(例如麦克风)采集具有预设时长的待识别人声(例如采集持续5秒的人声)，其中，采用的音频的格式是采样率16KHz、量化深度16位，且为单声道。

本发明的优选的实施例中，上述未识别声纹特征中可以包括多个未识别声纹特征向量，同样地，上述标准声纹特征中可以包括多个标准声纹特征向量。例如，每个未识别声纹特征中包括10个VQ码本，也就是说，每个未识别声纹特征向量对应一个VQ码本，其中，每个VQ码本对应一组特征集。同样地，每个标准声纹特征中也可以包括10个VQ码本，每个标准声纹特征向量对应一个VQ码本。

则本发明的优选的实施例中，可以根据上述未识别声纹特征中的多个未识别声纹特征向量调整标准识别模型，以得到与未识别声纹相适应的声纹识别模型，从而便于利用上述声纹识别模型实现对之后采集的声纹进行识别。

通过本发明的优选的实施例，在获取未识别声纹中的未识别声纹特征之前，通过调整上述标准识别模型来得到与未识别声纹相适应的声纹识别模型，实现对未识别声纹的预先注册，从而使得在声纹识别时可以根据预先注册的声纹识别模型直接进行准确识别，减小了模型构建的复杂度和构建周期，进而提高了声纹识别的可靠性及效率。

本发明的优选的实施例中，未识别声纹特征中包括多个未识别声纹特征向量，标准声纹特征中包括多个标准声纹特征向量，其中，至少根据未识别声纹特征与声纹识别模型中的标准声纹特征处理得到未识别声纹的辨别度如图3所示，包括：

步骤B1，处理得到未识别声纹特征中的每个未识别声纹特征向量与标准声纹特征中每个与未识别声纹特征向量相对应的标准声纹特征向量的向量相似度；

步骤B2，根据处理得到的多个向量相似度处理得到未识别声纹特征与标准声纹特征的目标距离；

步骤B3，至少利用未识别声纹特征与标准声纹特征的目标距离处理得到未识别声纹的辨别度。

本发明的优选的实施例中，上述处理得到未识别声纹特征中的未识别声纹特征向量与标准声纹特征中的标准声纹特征向量的向量相似度包括：处理得到未识别声纹特征向量与标准声纹特征向量之间的距离。

具体地，例如，未识别声纹的未识别声纹特征中的未识别声纹特征向量与声纹识别模型的标准声纹特征中的标准声纹特征向量之间的向量距离为a，对多个向量距离进行归一化处理，并加权求和得到未识别声纹特征与标准声纹特征的目标距离S。至少根据上述到未识别声纹特征与标准声纹特征的目标距离S处理得到未识别声纹特征的辨别度。本发明的优选的实施例中，上述权重可以根据不同特征向量的重要程度预先设置，本发明的其他实施例中，上述权重可以采用其他适宜的方式设置或者处理得到。

本发明的优选的实施例中，通过处理得到未识别声纹特征与标准声纹特征中多个声纹特征向量的向量距离，对多个向量距离进行加权求和后准确处理得到未识别声纹特征与标准声纹特征的目标距离，进而保证了声纹辨别度的准确性。

本发明的较佳的实施例中，，在采集未识别声纹之前，还包括如图4所示的下述步骤：

步骤C1，采集多个声纹并获取多个声纹中每个声纹的背景声纹特征，以构建多个与声纹相对应的背景识别模型，其中，背景声纹特征中包括多个背景声纹特征向量；

步骤C2，根据背景识别模型构建标准识别模型。

具体地，本发明的优选的实施例中，采集多个使用者说话时的声纹，并以此构建多个背景识别模型，从而实现根据背景识别模型构建包含多人声纹特征的标准识别模型，以便于预先构建用于声纹识别的声纹识别模型，进而达到了缩短模型构建周期，提高声纹识别效率的目的。

本发明的优选的实施例中，可以利用未识别声纹特征与标准声纹特征的距离处理得到未识别声纹的辨别度，其步骤如图5所示，包括：

步骤D1，处理得到未识别声纹特征分别与多个背景识别模型对应的每个声纹的背景声纹特征的背景距离；

步骤D2，根据多个背景距离处理得到距离平均值及距离标准差；

步骤D3，处理得到未识别声纹特征与标准声纹特征的目标距离与距离平均值的差值；

步骤D4，处理得到差值与距离标准差的比值，将比值作为未识别声纹的辨别度。

本发明的优选的实施例中，假设未识别声纹的未识别声纹特征与标准声纹特征的目标距离用S标识，共采集i个声纹构建i个背景识别模型，其中，未识别声纹特征与i个声纹对应的i个背景声纹特征的背景距离分别是D1，D2，D3，…Di，进一步，通过处理得到得到上述多个背景距离的距离平均值为u，距离标准差为σ。则通过以下公式处理得到未识别声纹的辨别度：

s’＝(s-u)/σ (1)

进一步，判断上述识别声纹的辨别度s’与预设的标准阈值的大小关系，若判断出大于标准阈值，则认为未识别声纹为被锁定声纹。

需要说明的是，由于采集未识别声纹与构建声纹识别模型的硬件环境与条件可能发生变化，例如，采用的麦克风设备的型号发生变化，则可能导致未识别声纹的未识别声纹特征与声纹识别模型的标准声纹特征之间产生较大变化，进而影响对未识别声纹的判断，因而，进一步结合背景识别模型中的声纹特征处理得到未识别声纹的辨别度，进一步保证了未识别声纹的辨别度的准确性。

具体如本发明的一个优选的实施例中所述，如果采用与构建背景识别模型相同的声卡、麦克风等设备进行录音采集，此时录音后获取的未识别声纹的声纹特征与声纹识别模型的距离较近，与背景识别模型的距离也较近，而如果采用与构建背景识别模型不同的声卡、麦克风等设备进行录音采集，录音后获取特征的未识别声纹与声纹识别模型的距离则较远，与背景识别模型的距离也较远，然而，虽然距离都较远，但是与声纹识别模型的距离相比较来说未识别声纹与背景识别模型的距离还是更接近。

本发明的优选的实施例中，通过结合预先训练的声纹识别模型与背景识别模型处理得到未识别声纹的辨别度，从而克服了由于采集未识别声纹的环境与条件发生变化所导致的未识别声纹的辨别度计算不准确的问题。

本发明的优选的实施例中，如上文中所述，上述小波元素包括实小波元素和/或复小波元素，则获取未识别声纹中的未识别声纹特征的步骤如图6所示，包括：

步骤E1，检测未识别声纹中的浊音区间；

步骤E2，在每个浊音区间中检测基音区间，并在每个基音区间中获取声纹特征的实小波元素和/或复小波元素。

进一步地，在该实施例中，上述在每个基音区间中获取声纹特征的实小波元素和/或复小波元素的步骤具体如图7所示，包括：

步骤E21，在每个基音区间中获取预定的特征向量，并根据小波滤波器将多个基音区间中的特征向量划分为预定长度的样本向量，并将预定长度的样本向量归一化；

步骤E22，对归一化后的预定长度的样本向量执行小波变换；

具体地，上述步骤E22中，采用下文中所述的方式执行小波变换：

1)对归一化后的预定长度的样本向量进行实小波变换，以得到第一预定频带的实部系数，并在第一预定频带中选择满足第一预定条件的频带进行采样，以得到未识别声纹特征中的实小波元素；

2)对归一化后的预定长度的样本向量进行双树的复小波变换，以得到第二预定频带的实部系数和虚部系数，并在第二预定频带中选择满足第二预定条件的频带进行采样，以得到未识别声纹特征中的复小波元素。

本发明的优选的实施例中，可以根据所采用的小波滤波器的长度确定上述样本向量。

本发明的优选的实施例中，在检测未识别声纹中的浊音区间之后，上述获取未识别声纹中的未识别声纹特征的步骤如图8所示，还包括：

步骤F1，获取未识别声纹中每一帧的梅尔倒谱系数，以得到未识别声纹特征中的梅尔倒谱系数特征；

步骤F2，根据梅尔倒谱系数处理得到未识别声纹中每一帧的差分梅尔倒谱系数特征，以得到未识别声纹特征中的差分梅尔倒谱系数特征。

本发明的一个优选的实施例中，例如上文中所述的，对未识别声纹进行浊音区间检测，然后进行预加重处理。所谓预加重处理，其实是利用一种高通滤波器进行的处理，其具体的公式如下文中所述：

y(n)＝x(n)-0.9375*x(n-1) (2)

则如上文中所述，对预加重处理后的声纹进行特征提取，在进行3阶实小波变换、3阶双数复小波变换、获取梅尔倒谱系数，根据梅尔倒谱系数进行处理等多个处理步骤之后处理得到差分梅尔倒谱系数，进而得到10组20维的声纹特征向量。

本发明的优选的实施例中，通过获取声纹特征中的小波元素，实现在原有特征的基础上结合小波元素构成新特征，由于小波元素能够反映原有特征不能使用的语音特征，因此实现提高了防干扰声纹识别系统的精确性和稳定性。

具体地，以声纹识别模型中的声纹特征中包括10个声纹特征向量为示例进行下文中的描述：

例如，从数十个说话人的语音数据中获取的特征分别构建背景识别模型，其中，背景识别模型中包括10个VQ码本，每个VQ码本中10个特征，如美尔倒谱、差分美尔倒谱和4个实小波元素、4个复小波元素，每个特征为20维向量。进一步根据背景识别模型构建UBM模型。进一步，对未识别声纹进行注册，采集未识别声纹并从中获取特征，通过UBM模型的VQ码本适应每个特征组，进而构造出声纹识别模型中的VQ码本(即标准声纹特征中的标准声纹特征向量)。

进一步，获取每个码本中的梅尔倒谱系数、差分梅尔倒谱系数和8个小波元素(4个实小波和4个复合小波)。

具体而言，在输入信号{s(i):i＝0,...,N-1}中检测浊音区间；使用能量，如低、高频带的能量比，过零率来检测浊音区间。再对输入信号进行预加重处理。

s′(i)＝s(i)-0.9375*s(i-1)，i＝1，...，N-1；

然后对预加重处理后的声纹执行如图9所示的下述操作：

步骤G1，处理得到每帧的美尔倒谱系数，每帧有360个样本，帧间隔为180个样本。

处理得到出来的美尔倒谱向量的维度是20。

{MFCCi，i＝0，...，Nm-1}；

{MFCCi＝{MFCCi(k)}；k＝0，...，19}；

步骤G2，对于每帧，处理得到美尔倒谱向量的差分构成差分美尔倒谱向量。

DMFCCi＝MFCCi+2-MFCCi-2；

步骤G3，在每个浊音区间都要检测基音区间，对获得的每个基音区间，处理得到基音同步的实小波和复小波元素。

其中，在输入语音信号{s(i):i＝0,...,N-1}中检测到的基音区间和最大峰值。其中N是语音区间的长度，Np是基音区间的数量，每个基音区间的起始位置和长度如下：

{Pit_st(i):i＝0，...，Np-1}；

{Pit_ln(i):i＝0，...，Np-1}；

进一步，实小波的处理方式如下：

对每个基音区间获取4个20维的特征向量，对于每个基音区间，裁剪出包含那个区间和其之前和之后的两组一定数量的样本的区间，得到如下向量：

{s(Pit_st(i)-l1)，...，s(Pit_st(i)+(Pit_ln(i)+l1}，i＝0，...，Np-1；

然后，将该向量归一化使其范数为1。

对于上述向量，进行一个三阶段实小波(例如Daubechies小波)包变换得到八个系数序列：

{RWi0},i＝1,...,8；

{RWi0}＝{RWi0(k)},k＝1,...,M；

每个对应一个特定的频带，每个系数序列长度相同，且长度相当于1/8的基音区间长度。

在上述得到的8个序列中，对应于低频带的4个序列进行重采样，产生4个20维的向量：

{RWi}，i＝1，...，4；

RWi＝{RWi(k)}k＝1，...，20；

进一步，复小波的处理得到方式如下：

对每个基音区间获取4个20维特征向量，对于每个基音区间，裁剪除包含那个区间和其之前和之后的两组一定数量的样本的区间，得到的向量归一化使其范数为1。

对于上述区间，做一个三阶段的双树复小波包变换(DT-CWPT)，以得到对应于8个频带的系数，每个频带有实部系数和虚部系数，其中，每个系数序列长度相同，且长度相当于1/8的基音区间长度。对于每个频带，由实部和虚部序列得到一个绝对值序列。

{CWi}，i＝1，...，4；

CWi＝{CW(k)i}k＝1，...，20；

步骤G4，根据上述获取出的10组特征集，采用测试标准方法进行归一化处理，已得到未识别声纹与声纹识别模型的相似度，当判断出相似度大于标准阈值时，则可识别出为同一声纹，即待识别的说话人与所构建的声纹识别模型中的是同一人。

本发明的优选的实施例中，基于上文中所述的防干扰声纹识别方法，还提供一种防干扰声纹识别系统A，其结构具体如图9所示，包括：

第一采集单元1，用于采集语音片段；

分析单元2，于第一采集单元连接，用于对语音片段中的多个语音的的声音强度进行分析，并对应获取每个语音对应的声音强度；

第一判断单元3，与分析单元连接将每个语音的声音强度与一预设阈值进行比较，并输出判断结果；

第一处理单元4，与判断单元连接，用于根据判断结果，将声音强度在预设阈值下的语音进行丢弃；

第一获取单元5，与第一处理单元4连接，用于获取未识别声纹中的未识别声纹特征，其中，未识别声纹特征中至少包括未识别声纹的小波元素；

第二处理单元6，连接第一获取单元5，用于至少根据未识别声纹特征与声纹识别模型中的标准声纹特征处理未识别声纹的辨别度；

第二判断单元7，连接第二处理单元6，用于判断辨别度是否大于一预设的标准阈值，并保留辨别度大于标准阈值的未识别声纹；

识别单元8，连接第二判断单元7，用于在被保留的未识别声纹中选择辨别度最高的未识别声纹，并识别为被锁定声纹；

小波元素包括实小波元素和/或复小波元素，第一获取单元5进一步包括：

检测模块51，用于检测未识别声纹中的浊音区间；

第一获取模块52，连接检测模块51，用于在每个浊音区间中检测基音区间，并在每个基音区间中获取声纹特征的实小波元素和/或复小波元素。

本发明的优选的实施例中，仍然如图9所示，上述系统A还包括：

第二获取单元9，用于在获取未识别声纹中的未识别声纹特征之前，采集未识别声纹；

调整单元10，连接第二获取单元1，用于至少根据未识别声纹特征中的未识别声纹特征向量调整预先构建的标准识别模型中与未识别声纹特征向量对应的声纹特征向量参数，以构造出与未识别声纹相适应的声纹识别模型中的标准声纹特征中的标准声纹特征向量。

本发明的优选的实施例中，未识别声纹特征中包括多个未识别声纹特征向量，标准声纹特征中包括多个标准声纹特征向量。

则上述第二处理单元6如图11所示，具体包括：

第一处理模块61，用于处理得到未识别声纹特征中的每个未识别声纹特征向量与标准声纹特征中每个与未识别声纹特征向量相对应的标准声纹特征向量的向量距离；

第二处理模块62，连接第一处理模块61，用于根据处理得到的多个向量距离处理得到未识别声纹特征与标准声纹特征的目标距离；

第三处理模块63，连接第二处理模块62，用于至少利用未识别声纹特征与标准声纹特征的目标距离处理得到未识别声纹的辨别度。

本发明的优选的实施例中，仍然如图10所示，上述系统中还包括：

第二采集单元11，用于采集多个声纹并获取多个声纹中每个声纹的背景声纹特征，以构建多个与声纹相对应的背景识别模型，其中，背景声纹特征中包括多个背景声纹特征向量；

构建单元12，连接第二采集单元11，用于根据背景识别模型构建标准识别模型。

进一步地，本发明的优选的实施例中，如图12所示，上述第三处理模块63包括：

第一处理子模块631，用于处理得到未识别声纹特征分别与多个背景识别模型对应的每个声纹的背景声纹特征的背景距离；

第二处理子模块632，连接第一处理子模块631，用于根据多个背景距离处理得到距离平均值及距离标准差；

第三处理子模块633，连接第二处理子模块632，用于处理得到未识别声纹特征与标准声纹特征的目标距离与距离平均值的差值；

第四处理子模块634，分别连接第二处理子模块632和第三处理子模块633，用于处理得到差值与距离标准差的比值，将比值作为未识别声纹的辨别度。

本发明的优选的实施例中，如图13所示，上文中的第一获取模块52包括：

第一获取子模块521，用于在每个基音区间中获取预定的特征向量，并根据小波滤波器将多个基音区间中的特征向量划分为预定长度的样本向量，并将预定长度的样本向量归一化；

变换子模块522，连接第一获取子模块521，用于对归一化后的预定长度的样本向量执行以下至少一种小波变换：

对归一化后的预定长度的样本向量进行实小波变换，以得到第一预定频带的实部系数，并在第一预定频带中选择满足第一预定条件的频带进行采样，以得到未识别声纹特征中的实小波元素；

对归一化后的预定长度的样本向量进行双树复小波变换，以得到第二预定频带的实部系数和虚部系数，并在第二预定频带中选择满足第二预定条件的频带进行采样，以得到未识别声纹特征中的复小波元素。

本发明的优选的实施例中，仍然如图10所示，上文中所述的第一获取单元5还包括：

第二获取模块53，用于在检测未识别声纹中的浊音区间之后，获取未识别声纹中每一帧的梅尔倒谱系数，以得到未识别声纹特征中的梅尔倒谱系数特征；

第四处理模块54，连接第二获取模块53，用于根据梅尔倒谱系数处理得到未识别声纹中每一帧的差分梅尔倒谱系数特征，以得到未识别声纹特征中的差分梅尔倒谱系数特征。上述本发明优选的实施例仅仅为了描述，不代表实施例的优劣。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，可通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述技术方案的有益效果是：提高了声纹识别的精度以及识别的稳定性，克服了现有技术中外界噪声容易对声纹识别造成干扰。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种防干扰声纹识别方法，其特征在于，包括：

检测所述未识别声纹中的浊音区间；

2.根据权利要求1所述的防干扰声纹识别方法，其特征在于，在所述提取未识别声纹中的未识别声纹特征之前，还包括：

至少根据所述未识别声纹特征中的未识别声纹特征向量调整预先构建的标准识别模型中与所述未识别声纹特征向量对应的声纹特征向量参数，以构造出与所述未识别声纹相适应的所述声纹识别模型中的所述标准声纹特征中的标准声纹特征向量。

3.根据权利要求2所述的防干扰声纹识别方法，其特征在于，所述未识别声纹特征中包括多个所述未识别声纹特征向量，所述标准声纹特征中包括多个所述标准声纹特征向量，其中，所述至少根据所述未识别声纹特征与声纹识别模型中的标准声纹特征处理得到所述未识别声纹的辨别度包括：

4.根据权利要求3所述的防干扰声纹识别方法，其特征在于，在采集所述未识别声纹之前，还包括：

根据所述背景识别模型构建所述标准识别模型。

5.根据权利要求4所述的防干扰声纹识别方法，其特征在于，所述至少利用所述未识别声纹特征与所述标准声纹特征的距离处理得到所述未识别声纹的辨别度包括：

根据多个所述背景距离处理得到距离平均值及距离标准差；

6.根据权利要求1所述的防干扰声纹识别方法，其特征在于，所述在每个所述基音区间中获取所述声纹特征的所述实小波元素和/或所述复小波元素包括：

7.根据权利要求6所述的防干扰声纹识别方法，其特征在于，在检测所述未识别声纹中的浊音区间之后，所述获取未识别声纹中的未识别声纹特征还包括：

8.一种防干扰声纹识别系统，其特征在于，包括：

第一采集单元，用于采集语音片段；

第二处理单元，连接所述第一获取单元，用于至少根据所述未识别声纹特征与声纹识别模型中的标准声纹特征处理所述未识别声纹的辨别度；

第二判断单元，连接所述处理单元，用于判断所述辨别度是否大于一预设的标准阈值，并保留所述辨别度大于所述标准阈值的所述未识别声纹；识别单元，连接所述判断单元，用于在所述被保留的未识别声纹中选择所述辨别度最高的所述未识别声纹，并识别为被锁定声纹；

检测模块，用于检测所述未识别声纹中的浊音区间；

9.根据权利要求8所述的防干扰声纹识别系统，其特征在于，还包括：

第二获取单元，与所述第一处理单元连接，用于在获取所述未识别声纹中的未识别声纹特征之前，获取所述声音强度在所述阈值上的所述语音中的所述未识别声纹；

10.根据权利要求9所述的防干扰声纹识别系统，其特征在于，所述未识别声纹特征中包括多个所述未识别声纹特征向量，所述标准声纹特征中包括多个所述标准声纹特征向量，所述第二处理单元包括：

11.根据权利要求10所述的防干扰声纹识别系统，其特征在于，还包括：

12.根据权利要求11所述的防干扰声纹识别系统，其特征在于，所述第三处理模块包括：

13.根据权利要求9所述的防干扰声纹识别系统，其特征在于，所述第一获取模块包括：

14.根据权利要求13所述的防干扰声纹识别系统，其特征在于，所述第一获取单元还包括：