CN106887229A

CN106887229A - 一种提升声纹识别准确度的方法和系统

Info

Publication number: CN106887229A
Application number: CN201510943699.XA
Authority: CN
Inventors: 祝铭明
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2015-12-16
Filing date: 2015-12-16
Publication date: 2017-06-23

Abstract

本发明公开了一种提升声纹识别准确度的方法和系统。其中，该方法包括：提取未识别声纹中的未识别声纹特征，其中，未识别声纹特征中至少包括未识别声纹的小波元素；至少根据未识别声纹特征与声纹识别模型中的标准声纹特征处理得到未识别声纹的辨别度；分别判断每个辨别度是否大于一预设的标准阈值，并保留辨别度大于标准阈值的未识别声纹，并于被保留的未识别声纹中，选择辨别度最大的未识别声纹并识别为被锁定声纹。本发明解决了由于采用现有的声纹识别方法所导致的识别不准确的问题，并且能够于多个符合条件的声纹中识别出最适宜的声纹进行后续操作，提升了多人嘈杂环境中的识别准确度。

Description

一种提升声纹识别准确度的方法和系统

技术领域

本发明涉及声纹识别技术领域，具体而言，涉及一种提升声纹识别准确度的方法和系统。

背景技术

如今，越来越多的智能设备进入到人们的私人生活中，较多的智能设备中开始集成语音控制的功能。对于语音控制而言，最重要的就是声纹识别(Voiceprint Recognition，VPR)，其包括两类，分别是：1)说话人辨认(Speaker Identification)和2)说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的；而后者用以确认某段语音是否是指定的某个人所说的。在不同的应用环境中可能会使用到不同的声纹识别技术或者不同技术的结合。

目前常用的声纹识别方式中最广泛使用的特征包括梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)以及其他方式。然而，采用上述特征识别声纹的方式还不够完善，比如同一个人的声音易受身体状况、年龄、情绪等的影响，或者不同的麦克风和信道对声纹识别产生不同的影响，又或者环境噪音对声纹识别产生干扰，又或者多个说话人混合说话时每个人的声纹特征不易获取等等，均会影响声纹识别的准确度。因此，现有的声纹识别方式所得到的识别结果存在因容易受到各种因素干扰而造成识别不准确的问题。同时，由于所采集的声纹多样并不唯一确定，进而导致所要构建的识别模型较复杂，且构建周期较长，从而导致声纹识别的稳定性和识别准确度也较差。并且在私人空间中存在多个说话人的情况下，无法准确识别中最优选依据进行语音控制的说话人的声纹，同样是现有技术中存在的一类缺陷。

发明内容

根据现有技术中存在的上述问题，现提供一种提升声纹识别准确度的方法及系统的技术方案，具体包括：

一种提升声纹识别准确度的方法，其中，包括：

获取每个未识别声纹中的未识别声纹特征，其中，所述未识别声纹特征中至少包括所述未识别声纹的小波元素；

至少分别根据每个所述未识别声纹特征与声纹识别模型中的标准声纹特征处理得到对应于每个所述未识别声纹的辨别度；

分别判断每个所述辨别度是否大于一预设的标准阈值，并保留所述辨别度大于所述标准阈值的所述未识别声纹；

于被保留的所述未识别声纹中，选择所述辨别度最大的所述未识别声纹并识别为被锁定声纹；

所述小波元素包括实小波元素和/或复小波元素，其中，所述获取未识别声纹中的未识别声纹特征包括：

检测所述未识别声纹中的浊音区间；

在每个所述浊音区间中检测基音区间，并在每个所述基音区间中获取所述声纹特征的所述实小波元素和/或所述复小波元素。

优选的，该提升声纹识别准确度的方法，其中，在所述提取未识别声纹中的未识别声纹特征之前，还包括：

采集所述未识别声纹；

至少根据所述未识别声纹特征中的未识别声纹特征向量调整预先构建的标准识别模型中与所述未识别声纹特征向量对应的声纹特征向量参数，以构造出与所述未识别声纹相适应的所述声纹识别模型中的所述标准声纹特征中的标准声纹特征向量。

优选的，该提升声纹识别准确度的方法，其中，所述未识别声纹特征中包括多个所述未识别声纹特征向量，所述标准声纹特征中包括多个所述标准声纹特征向量，其中，所述至少根据所述未识别声纹特征与声纹识别模型中的标准声纹特征处理得到所述未识别声纹的辨别度包括：

处理得到所述未识别声纹特征中的每个所述未识别声纹特征向量与所述标准声纹特征中每个与所述未识别声纹特征向量相对应的所述标准声纹特征向量的向量距离；

根据处理得到的多个所述向量距离处理得到所述未识别声纹特征与所述标准声纹特征的目标距离；

至少利用所述未识别声纹特征与所述标准声纹特征的所述目标距离处理得到所述未识别声纹的辨别度。

优选的，该提升声纹识别准确度的方法，其中，在采集所述未识别声纹之前，还包括：

采集多个声纹并获取所述多个声纹中每个声纹的背景声纹特征，以构建多个与所述声纹相对应的背景识别模型，其中，所述背景声纹特征中包括多个背景声纹特征向量；

根据所述背景识别模型构建所述标准识别模型。

优选的，该提升声纹识别准确度的方法，其中，所述至少利用所述未识别声纹特征与所述标准声纹特征的距离处理得到所述未识别声纹的辨别度包括：

处理得到所述未识别声纹特征分别与多个所述背景识别模型对应的每个所述声纹的所述背景声纹特征的背景距离；

根据多个所述背景距离处理得到距离平均值及距离标准差；

处理得到所述未识别声纹特征与所述标准声纹特征的所述目标距离与所述距离平均值的差值；

处理得到所述差值与所述距离标准差的比值，将所述比值作为所述未识别声纹的所述辨别度。

优选的，该提升声纹识别准确度的方法，其中，所述在每个所述基音区间中获取所述声纹特征的所述实小波元素和/或所述复小波元素包括：

在每个所述基音区间中获取预定的特征向量，并根据小波滤波器将多个所述基音区间中的所述特征向量划分为预定长度的样本向量，并将所述预定长度的样本向量归一化；

对归一化后的所述预定长度的样本向量执行以下至少一种小波变换：

对归一化后的所述预定长度的样本向量进行实小波变换，以得到第一预定频带的实部系数，并在所述第一预定频带中选择满足第一预定条件的频带进行采样，以得到所述未识别声纹特征中的所述实小波元素；

对归一化后的所述预定长度的样本向量进行双树复小波变换，以得到第二预定频带的实部系数和虚部系数，并在所述第二预定频带中选择满足第二预定条件的频带进行采样，以得到所述未识别声纹特征中的所述复小波元素。

优选的，该提升声纹识别准确度的方法，其中，在检测所述未识别声纹中的浊音区间之后，所述获取未识别声纹中的未识别声纹特征还包括：

获取所述未识别声纹中每一帧的梅尔倒谱系数，以得到所述未识别声纹特征中的所述梅尔倒谱系数特征；

根据所述梅尔倒谱系数处理得到所述未识别声纹中每一帧的差分梅尔倒谱系数特征，以得到所述未识别声纹特征中的所述差分梅尔倒谱系数特征。

一种提升声纹识别准确度的系统，，包括：

获取单元，用于获取未识别声纹中的未识别声纹特征，其中，所述未识别声纹特征中至少包括所述未识别声纹的小波元素；

处理单元，连接所述获取单元，用于至少根据所述未识别声纹特征与声纹识别模型中的标准声纹特征处理所述未识别声纹的辨别度；

判断单元，连接所述处理单元，用于判断所述辨别度是否大于一预设的标准阈值，并保留所述辨别度大于所述标准阈值的所述未识别声纹；识别单元，连接所述判断单元，用于在所述被保留的未识别声纹中选择所述辨别度最高的所述未识别声纹，并识别为被锁定声纹；

所述小波元素包括实小波元素和/或复小波元素，所述获取单元包括：

检测模块，用于检测所述未识别声纹中的浊音区间；

第一获取模块，连接所述检测模块，用于在每个所述浊音区间中检测基音区间，并在每个所述基音区间中获取所述声纹特征的所述实小波元素和/或所述复小波元素。

优选的，该提升声纹识别准确度的系统，，还包括：

第一采集单元，用于在获取所述未识别声纹中的未识别声纹特征之前，采集所述未识别声纹；

调整单元，连接所述第一采集单元，用于至少根据所述未识别声纹特征中的未识别声纹特征向量调整预先构建的标准识别模型中与所述未识别声纹特征向量对应的声纹特征向量参数，以构造出与所述未识别声纹相适应的所述声纹识别模型中的所述标准声纹特征中的标准声纹特征向量。

优选的，该提升声纹识别准确度的系统，，所述未识别声纹特征中包括多个所述未识别声纹特征向量，所述标准声纹特征中包括多个所述标准声纹特征向量，所述处理单元包括：

第一处理模块，用于处理得到所述未识别声纹特征中的每个所述未识别声纹特征向量与所述标准声纹特征中每个与所述未识别声纹特征向量相对应的所述标准声纹特征向量的向量距离；

第二处理模块，连接所述第一处理模块，用于根据处理得到的多个所述向量距离处理得到所述未识别声纹特征与所述标准声纹特征的目标距离；

第三处理模块，连接所述第二处理模块，用于至少利用所述未识别声纹特征与所述标准声纹特征的所述目标距离处理得到所述未识别声纹的辨别度。

优选的，该提升声纹识别准确度的系统，，还包括：

第二采集单元，用于采集多个声纹并获取所述多个声纹中每个声纹的背景声纹特征，以构建多个与所述声纹相对应的背景识别模型，其中，所述背景声纹特征中包括多个背景声纹特征向量；

构建单元，连接所述第二采集单元，用于根据所述背景识别模型构建所述标准识别模型。

优选的，该提升声纹识别准确度的系统，，所述第三处理模块包括：

第一处理子模块，用于处理得到所述未识别声纹特征分别与多个所述背景识别模型对应的每个所述声纹的所述背景声纹特征的背景距离；

第二处理子模块，连接所述第一处理子模块，用于根据多个所述背景距离处理得到距离平均值及距离标准差；

第三处理子模块，连接所述第二处理子模块，用于处理得到所述未识别声纹特征与所述标准声纹特征的所述目标距离与所述距离平均值的差值；

第四处理子模块，分别连接所述第二处理子模块和所述第三处理子模块，用于处理得到所述差值与所述距离标准差的比值，将所述比值作为所述未识别声纹的所述辨别度。

优选的，该提升声纹识别准确度的系统，，所述第一获取模块包括：

第一获取子模块，用于在每个所述基音区间中获取预定的特征向量，并根据小波滤波器将多个所述基音区间中的所述特征向量划分为预定长度的样本向量，并将所述预定长度的样本向量归一化；

变换子模块，连接所述第一获取子模块，用于对归一化后的所述预定长度的样本向量执行以下至少一种小波变换：

优选的，该提升声纹识别准确度的系统，，所述获取单元还包括：

第二获取模块，用于在检测所述未识别声纹中的浊音区间之后，获取所述未识别声纹中每一帧的梅尔倒谱系数，以得到所述未识别声纹特征中的所述梅尔倒谱系数特征；

第四处理模块，连接所述第二获取模块，用于根据所述梅尔倒谱系数处理得到所述未识别声纹中每一帧的差分梅尔倒谱系数特征，以得到所述未识别声纹特征中的所述差分梅尔倒谱系数特征。

上述技术方案的有益效果是：结合声纹的小波元素，从而提高提升声纹识别准确度的系统的精确性和稳定性。进而克服了现有的声纹识别方式的识别结果因容易受各种因素干扰而造成识别不准确的问题。进一步，通过直接与声纹识别模型进行比较，减小了模型构建的复杂度和构建周期，从而提高了声纹识别的稳定性和识别效率。并且能够于多个符合条件的声纹中识别出最适宜的声纹进行后续操作，提升了多人嘈杂环境中的识别准确度。

附图说明

图1是本发明的优选的实施例中，一种提升声纹识别准确度的方法的总体流程图；

图2是本发明的优选的实施例中，构造标准声纹特征向量的流程图；

图3是本发明的一个优选的实施例中，处理得到辨别度的流程图；

图4是本发明的优选的实施例中，处理得到标准识别模型的流程图；

图5是本发明的一个优选的实施例中，处理得到辨别度的流程图；

图6是本发明的优选的实施例中，提取未识别声纹特征的流程图；

图7是本发明的优选的实施例中，在每个基音区间内提取小波元素的流程图；

图8是本发明的优选的实施例中，检测浊音区间后获取未识别声纹特征的流程图；

图9为本发明的优选的实施例中，一种提升声纹识别准确度的系统的结构图；

图10是本发明的优选的实施例中，系统中的处理单元的结构图；

图11是本发明的优选的实施例中，处理单元中的第三处理模块的结构图

图12是本发明的优选的实施例中，获取单元中的第一获取模块的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明的优选的实施例中，提供了一种提升声纹识别准确度的方法，如图1所示，该方法包括：

步骤S1，获取未识别声纹中的未识别声纹特征，其中，未识别声纹特征中至少包括未识别声纹的小波元素；

步骤S2，至少分别根据每个未识别声纹特征与声纹识别模型中的标准声纹特征处理得到对应于每个未识别声纹的辨别度；

步骤S3，分别判断每个辨别度是否大于一预设的标准阈值，并保留辨别度大于标准阈值的未识别声纹；

步骤S4，于被保留的未识别声纹中，选择辨别度最大的未识别声纹并识别为被锁定声纹。

本发明的优选的实施例中，上述提升声纹识别准确度的方法可以但不限于应用于摆放在私密的个人空间中的智能设备上对有限的几个使用者的声纹进行识别，还可以应用于将该智能设备摆放在相对开放的空间中，同样供有限的几个使用者的声纹进行识别。在上述应用环境中，可能存在多个未识别声纹进行识别，同样地可能存在多个辨别度大于上述标准阈值的未识别声纹(即通常可以作为被锁定声纹进行识别)。然而对于一台智能设备而言，最佳的状况为在同一时间仅根据一位使用者的语音指令进行操作，否则可能会对使用者的使用体验造成不好的影响。因此在上述存在多个符合规则(辨别度大于标准阈值)的未识别声纹时，保留所有这些未识别声纹，并且选择其中辨别度最高的未识别声纹并将其识别为被锁定声纹，随后根据该被锁定声纹，具有声纹识别功能的智能设备可以进行相应的后续操作。本发明的优选的实施例中，上述未识别声纹特征中包括小波元素，也就是说，在原有特征的基础上结合声纹的小波元素，从而提高提升声纹识别准确度的系统的精确性和稳定性。进而克服了现有的声纹识别方式的识别结果因容易受各种因素干扰而造成识别不准确的问题。进一步，通过直接与声纹识别模型进行比较，减小了模型构建的复杂度和构建周期，从而提高了声纹识别的稳定性和识别效率。关于上述小波元素在下文中详述。

本发明的优选的实施例中，上述未识别声纹中的未识别声纹特征可以包括多个未识别声纹特征向量。相应地，上述标准声纹特征中也可以包括多个标准声纹特征向量。

更进一步地，在本实施例中，上述未识别声纹特征可以包括下文中所述的内容，但其组成并不限于下文中所述的内容：

4个实小波元素、4个双树复小波元素、梅尔倒谱系数特征以及差分梅尔倒谱系数特征。

其中，上述小波元素中包括实小波和复小波中的至少一种。

本发明的优选的实施例中，上述声纹识别模型可以包括下文中所述的内容：

根据未识别声纹中的多个声纹特征向量(未识别声纹特征向量)对标准识别模型进行调整后，得到与未识别声纹相适应的用于识别上述未识别声纹的标准识别模型。

上述标准识别模型可以包括：采集关联于多人的不同的声纹，并从每个人的声纹中获取相应的声纹特征。随后根据不同的声纹特征分别构建与每个人的声纹相对应的背景识别模型，再对上述多个背景识别模型中的背景声纹特征进行聚类，进而构建标准识别模型，例如通用背景模型(Universal Background Mode，UBM)。

本发明的一个优选的实施例中，例如，一个声纹特征中包括10个声纹特征向量(即10类特征)，则采集多人的声纹后，从每个人的声纹中获取上述10类特征，然后对每类特征进行聚类(例如，包括32个中心)。随后，根据聚类得到的结果获得包含32码字的10个码本(即10个声纹特征向量对应的声纹特征参数)的UBM模型。进一步，每个说话人还可根据自身的声纹特征构建相应的背景识别模型。

本发明的优选的实施例中，在获取未识别声纹中的未识别声纹特征之前，还包括如图2所示的下述步骤：

步骤A1，采集未识别声纹；

步骤A2，至少根据未识别声纹特征中的未识别声纹特征向量调整预先构建的标准识别模型中与未识别声纹特征向量对应的声纹特征向量参数，以构造出与未识别声纹相适应的声纹识别模型中的标准声纹特征中的标准声纹特征向量。

本发明的优选的实施例中，上述采集未识别声纹的方式可以包括下述几种方式：采用声音采集装置(例如麦克风)采集具有预设时长的待识别人声(例如采集持续5秒的人声)，其中，采用的音频的格式是采样率16KHz、量化深度16位，且为单声道。

本发明的优选的实施例中，上述未识别声纹特征中可以包括多个未识别声纹特征向量，同样地，上述标准声纹特征中可以包括多个标准声纹特征向量。例如，每个未识别声纹特征中包括10个VQ码本，也就是说，每个未识别声纹特征向量对应一个VQ码本，其中，每个VQ码本对应一组特征集。同样地，每个标准声纹特征中也可以包括10个VQ码本，每个标准声纹特征向量对应一个VQ码本。

则本发明的优选的实施例中，可以根据上述未识别声纹特征中的多个未识别声纹特征向量调整标准识别模型，以得到与未识别声纹相适应的声纹识别模型，从而便于利用上述声纹识别模型实现对之后采集的声纹进行识别。

通过本发明的优选的实施例，在获取未识别声纹中的未识别声纹特征之前，通过调整上述标准识别模型来得到与未识别声纹相适应的声纹识别模型，实现对未识别声纹的预先注册，从而使得在声纹识别时可以根据预先注册的声纹识别模型直接进行准确识别，减小了模型构建的复杂度和构建周期，进而提高了声纹识别的可靠性及效率。

本发明的优选的实施例中，未识别声纹特征中包括多个未识别声纹特征向量，标准声纹特征中包括多个标准声纹特征向量，其中，至少根据未识别声纹特征与声纹识别模型中的标准声纹特征处理得到未识别声纹的辨别度如图3所示，包括：

步骤B1，处理得到未识别声纹特征中的每个未识别声纹特征向量与标准声纹特征中每个与未识别声纹特征向量相对应的标准声纹特征向量的向量相似度；

步骤B2，根据处理得到的多个向量相似度处理得到未识别声纹特征与标准声纹特征的目标距离；

步骤B3，至少利用未识别声纹特征与标准声纹特征的目标距离处理得到未识别声纹的辨别度。

本发明的优选的实施例中，上述处理得到未识别声纹特征中的未识别声纹特征向量与标准声纹特征中的标准声纹特征向量的向量相似度包括：处理得到未识别声纹特征向量与标准声纹特征向量之间的距离。

具体地，例如，未识别声纹的未识别声纹特征中的未识别声纹特征向量与声纹识别模型的标准声纹特征中的标准声纹特征向量之间的向量距离为a，对多个向量距离进行归一化处理，并加权求和得到未识别声纹特征与标准声纹特征的目标距离S。至少根据上述到未识别声纹特征与标准声纹特征的目标距离S处理得到未识别声纹特征的辨别度。本发明的优选的实施例中，上述权重可以根据不同特征向量的重要程度预先设置，本发明的其他实施例中，上述权重可以采用其他适宜的方式设置或者处理得到。

本发明的优选的实施例中，通过处理得到未识别声纹特征与标准声纹特征中多个声纹特征向量的向量距离，对多个向量距离进行加权求和后准确处理得到未识别声纹特征与标准声纹特征的目标距离，进而保证了声纹辨别度的准确性。

本发明的较佳的实施例中，，在采集未识别声纹之前，还包括如图4所示的下述步骤：

步骤C1，采集多个声纹并获取多个声纹中每个声纹的背景声纹特征，以构建多个与声纹相对应的背景识别模型，其中，背景声纹特征中包括多个背景声纹特征向量；

步骤C2，根据背景识别模型构建标准识别模型。

具体地，本发明的优选的实施例中，采集多个使用者说话时的声纹，并以此构建多个背景识别模型，从而实现根据背景识别模型构建包含多人声纹特征的标准识别模型，以便于预先构建用于声纹识别的声纹识别模型，进而达到了缩短模型构建周期，提高声纹识别效率的目的。

本发明的优选的实施例中，可以利用未识别声纹特征与标准声纹特征的距离处理得到未识别声纹的辨别度，其步骤如图5所示，包括：

步骤D1，处理得到未识别声纹特征分别与多个背景识别模型对应的每个声纹的背景声纹特征的背景距离；

步骤D2，根据多个背景距离处理得到距离平均值及距离标准差；

步骤D3，处理得到未识别声纹特征与标准声纹特征的目标距离与距离平均值的差值；

步骤D4，处理得到差值与距离标准差的比值，将比值作为未识别声纹的辨别度。

本发明的优选的实施例中，假设未识别声纹的未识别声纹特征与标准声纹特征的目标距离用S标识，共采集i个声纹构建i个背景识别模型，其中，未识别声纹特征与i个声纹对应的i个背景声纹特征的背景距离分别是D1，D2，D3，…Di，进一步，通过处理得到得到上述多个背景距离的距离平均值为u，距离标准差为σ。则通过以下公式处理得到未识别声纹的辨别度：

s’＝(s-u)/σ (1)

进一步，判断上述识别声纹的辨别度s’与预设的标准阈值的大小关系，若判断出大于标准阈值，则认为未识别声纹为被锁定声纹。

需要说明的是，由于采集未识别声纹与构建声纹识别模型的硬件环境与条件可能发生变化，例如，采用的麦克风设备的型号发生变化，则可能导致未识别声纹的未识别声纹特征与声纹识别模型的标准声纹特征之间产生较大变化，进而影响对未识别声纹的判断，因而，进一步结合背景识别模型中的声纹特征处理得到未识别声纹的辨别度，进一步保证了未识别声纹的辨别度的准确性。

具体如本发明的一个优选的实施例中所述，如果采用与构建背景识别模型相同的声卡、麦克风等设备进行录音采集，此时录音后获取的未识别声纹的声纹特征与声纹识别模型的距离较近，与背景识别模型的距离也较近，而如果采用与构建背景识别模型不同的声卡、麦克风等设备进行录音采集，录音后获取特征的未识别声纹与声纹识别模型的距离则较远，与背景识别模型的距离也较远，然而，虽然距离都较远，但是与声纹识别模型的距离相比较来说未识别声纹与背景识别模型的距离还是更接近。

本发明的优选的实施例中，通过结合预先训练的声纹识别模型与背景识别模型处理得到未识别声纹的辨别度，从而克服了由于采集未识别声纹的环境与条件发生变化所导致的未识别声纹的辨别度计算不准确的问题。

本发明的优选的实施例中，如上文中所述，上述小波元素包括实小波元素和/或复小波元素，则获取未识别声纹中的未识别声纹特征的步骤如图6所示，包括：

步骤E1，检测未识别声纹中的浊音区间；

步骤E2，在每个浊音区间中检测基音区间，并在每个基音区间中获取声纹特征的实小波元素和/或复小波元素。

进一步地，在该实施例中，上述在每个基音区间中获取声纹特征的实小波元素和/或复小波元素的步骤具体如图7所示，包括：

步骤E21，在每个基音区间中获取预定的特征向量，并根据小波滤波器将多个基音区间中的特征向量划分为预定长度的样本向量，并将预定长度的样本向量归一化；

步骤E22，对归一化后的预定长度的样本向量执行小波变换；

具体地，上述步骤E22中，采用下文中所述的方式执行小波变换：

1)对归一化后的预定长度的样本向量进行实小波变换，以得到第一预定频带的实部系数，并在第一预定频带中选择满足第一预定条件的频带进行采样，以得到未识别声纹特征中的实小波元素；

2)对归一化后的预定长度的样本向量进行双树的复小波变换，以得到第二预定频带的实部系数和虚部系数，并在第二预定频带中选择满足第二预定条件的频带进行采样，以得到未识别声纹特征中的复小波元素。

本发明的优选的实施例中，可以根据所采用的小波滤波器的长度确定上述样本向量。

本发明的优选的实施例中，在检测未识别声纹中的浊音区间之后，上述获取未识别声纹中的未识别声纹特征的步骤如图8所示，还包括：

步骤F1，获取未识别声纹中每一帧的梅尔倒谱系数，以得到未识别声纹特征中的梅尔倒谱系数特征；

步骤F2，根据梅尔倒谱系数处理得到未识别声纹中每一帧的差分梅尔倒谱系数特征，以得到未识别声纹特征中的差分梅尔倒谱系数特征。

本发明的一个优选的实施例中，例如上文中所述的，对未识别声纹进行浊音区间检测，然后进行预加重处理。所谓预加重处理，其实是利用一种高通滤波器进行的处理，其具体的公式如下文中所述：

y(n)＝x(n)-0.9375*x(n-1) (2)

则如上文中所述，对预加重处理后的声纹进行特征提取，在进行3阶实小波变换、3阶双数复小波变换、获取梅尔倒谱系数，根据梅尔倒谱系数进行处理等多个处理步骤之后处理得到差分梅尔倒谱系数，进而得到10组20维的声纹特征向量。

本发明的优选的实施例中，通过获取声纹特征中的小波元素，实现在原有特征的基础上结合小波元素构成新特征，由于小波元素能够反映原有特征不能使用的语音特征，因此实现提高了提升声纹识别准确度的系统的精确性和稳定性。

具体地，以声纹识别模型中的声纹特征中包括10个声纹特征向量为示例进行下文中的描述：

例如，从数十个说话人的语音数据中获取的特征分别构建背景识别模型，其中，背景识别模型中包括10个VQ码本，每个VQ码本中10个特征，如美尔倒谱、差分美尔倒谱和4个实小波元素、4个复小波元素，每个特征为20维向量。进一步根据背景识别模型构建UBM模型。进一步，对未识别声纹进行注册，采集未识别声纹并从中获取特征，通过UBM模型的VQ码本适应每个特征组，进而构造出声纹识别模型中的VQ码本(即标准声纹特征中的标准声纹特征向量)。

进一步，获取每个码本中的梅尔倒谱系数、差分梅尔倒谱系数和8个小波元素(4个实小波和4个复合小波)。

具体而言，在输入信号{s(i):i＝0,...,N-1}中检测浊音区间；使用能量，如低、高频带的能量比，过零率来检测浊音区间。再对输入信号进行预加重处理。

s′(i)＝s(i)-0.9375*s(i-1)，i＝1，...，N-1；

然后对预加重处理后的声纹执行如图9所示的下述操作：

步骤G1，处理得到每帧的美尔倒谱系数，每帧有360个样本，帧间隔为180个样本。

处理得到出来的美尔倒谱向量的维度是20。

{MFCCi，i＝0，...，Nm-1}；

{MFCCi＝{MFCCi(k)}；k＝0，...，19}；

步骤G2，对于每帧，处理得到美尔倒谱向量的差分构成差分美尔倒谱向量。

DMFCCi＝MFCCi+2-MFCCi-2；

步骤G3，在每个浊音区间都要检测基音区间，对获得的每个基音区间，处理得到基音同步的实小波和复小波元素。

其中，在输入语音信号{s(i):i＝0,...,N-1}中检测到的基音区间和最大峰值。其中N是语音区间的长度，Np是基音区间的数量，每个基音区间的起始位置和长度如下：

{Pit_st(i):i＝0，...，Np-1}；

{Pit_ln(i):i＝0，...，Np-1}；

进一步，实小波的处理方式如下：

对每个基音区间获取4个20维的特征向量，对于每个基音区间，裁剪出包含那个区间和其之前和之后的两组一定数量的样本的区间，得到如下向量：

{s(Pit_st(i)-l1)，...，s(Pit_st(i)+(Pit_ln(i)+l1}，i＝0，...，Np-1；

然后，将该向量归一化使其范数为1。

对于上述向量，进行一个三阶段实小波(例如Daubechies小波)包变换得到八个系数序列：

{RWi0},i＝1,...,8；

{RWi0}＝{RWi0(k)},k＝1,...,M；

每个对应一个特定的频带，每个系数序列长度相同，且长度相当于1/8的基音区间长度。

在上述得到的8个序列中，对应于低频带的4个序列进行重采样，产生4个20维的向量：

{RWi}，i＝1，...，4；

RWi＝{RWi(k)}k＝1，...，20；

进一步，复小波的处理得到方式如下：

对每个基音区间获取4个20维特征向量，对于每个基音区间，裁剪除包含那个区间和其之前和之后的两组一定数量的样本的区间，得到的向量归一化使其范数为1。

对于上述区间，做一个三阶段的双树复小波包变换(DT-CWPT)，以得到对应于8个频带的系数，每个频带有实部系数和虚部系数，其中，每个系数序列长度相同，且长度相当于1/8的基音区间长度。对于每个频带，由实部和虚部序列得到一个绝对值序列。

{CWi}，i＝1，...，4；

CWi＝{CW(k)i}k＝1，...，20；

步骤G4，根据上述获取出的10组特征集，采用测试标准方法进行归一化处理，已得到未识别声纹与声纹识别模型的相似度，当判断出相似度大于标准阈值时，则可识别出为同一声纹，即待识别的说话人与所构建的声纹识别模型中的是同一人。

本发明的优选的实施例中，基于上文中所述的提升声纹识别准确度的方法，还提供一种提升声纹识别准确度的系统A，其结构具体如图9所示，包括：

获取单元1，用于获取未识别声纹中的未识别声纹特征，其中，未识别声纹特征中至少包括未识别声纹的小波元素；

处理单元2，连接获取单元1，用于至少根据未识别声纹特征与声纹识别模型中的标准声纹特征处理未识别声纹的辨别度；

判断单元3，连接处理单元2，用于判断辨别度是否大于一预设的标准阈值，并保留辨别度大于标准阈值的未识别声纹；识别单元，连接判断单元，用于在被保留的未识别声纹中选择辨别度最高的未识别声纹，并识别为被锁定声纹；

小波元素包括实小波元素和/或复小波元素，获取单元1进一步包括：

检测模块11，用于检测未识别声纹中的浊音区间；

第一获取模块12，连接检测模块11，用于在每个浊音区间中检测基音区间，并在每个基音区间中获取声纹特征的实小波元素和/或复小波元素。

本发明的优选的实施例中，仍然如图9所示，上述系统A还包括：

第一采集单元4，用于在获取未识别声纹中的未识别声纹特征之前，采集未识别声纹；

调整单元5，连接第一采集单元4，用于至少根据未识别声纹特征中的未识别声纹特征向量调整预先构建的标准识别模型中与未识别声纹特征向量对应的声纹特征向量参数，以构造出与未识别声纹相适应的声纹识别模型中的标准声纹特征中的标准声纹特征向量。

本发明的优选的实施例中，未识别声纹特征中包括多个未识别声纹特征向量，标准声纹特征中包括多个标准声纹特征向量。

则上述处理单元2如图10所示，具体包括：

第一处理模块21，用于处理得到未识别声纹特征中的每个未识别声纹特征向量与标准声纹特征中每个与未识别声纹特征向量相对应的标准声纹特征向量的向量距离；

第二处理模块22，连接第一处理模块21，用于根据处理得到的多个向量距离处理得到未识别声纹特征与标准声纹特征的目标距离；

第三处理模块23，连接第二处理模块22，用于至少利用未识别声纹特征与标准声纹特征的目标距离处理得到未识别声纹的辨别度。

本发明的优选的实施例中，仍然如图9所示，上述系统中还包括：

第二采集单元6，用于采集多个声纹并获取多个声纹中每个声纹的背景声纹特征，以构建多个与声纹相对应的背景识别模型，其中，背景声纹特征中包括多个背景声纹特征向量；

构建单元7，连接第二采集单元6，用于根据背景识别模型构建标准识别模型。

进一步地，本发明的优选的实施例中，如图11所示，上述第三处理模块23包括：

第一处理子模块231，用于处理得到未识别声纹特征分别与多个背景识别模型对应的每个声纹的背景声纹特征的背景距离；

第二处理子模块232，连接第一处理子模块231，用于根据多个背景距离处理得到距离平均值及距离标准差；

第三处理子模块233，连接第二处理子模块232，用于处理得到未识别声纹特征与标准声纹特征的目标距离与距离平均值的差值；

第四处理子模块234，分别连接第二处理子模块232和第三处理子模块233，用于处理得到差值与距离标准差的比值，将比值作为未识别声纹的辨别度。

本发明的优选的实施例中，如图12所示，上文中的第一获取模块12包括：

第一获取子模块121，用于在每个基音区间中获取预定的特征向量，并根据小波滤波器将多个基音区间中的特征向量划分为预定长度的样本向量，并将预定长度的样本向量归一化；

变换子模块122，连接第一获取子模块121，用于对归一化后的预定长度的样本向量执行以下至少一种小波变换：

对归一化后的预定长度的样本向量进行实小波变换，以得到第一预定频带的实部系数，并在第一预定频带中选择满足第一预定条件的频带进行采样，以得到未识别声纹特征中的实小波元素；

对归一化后的预定长度的样本向量进行双树复小波变换，以得到第二预定频带的实部系数和虚部系数，并在第二预定频带中选择满足第二预定条件的频带进行采样，以得到未识别声纹特征中的复小波元素。

本发明的优选的实施例中，仍然如图9所示，上文中所述的获取单元1还包括：

第二获取模块13，用于在检测未识别声纹中的浊音区间之后，获取未识别声纹中每一帧的梅尔倒谱系数，以得到未识别声纹特征中的梅尔倒谱系数特征；

第四处理模块14，连接第二获取模块13，用于根据梅尔倒谱系数处理得到未识别声纹中每一帧的差分梅尔倒谱系数特征，以得到未识别声纹特征中的差分梅尔倒谱系数特征。上述本发明优选的实施例仅仅为了描述，不代表实施例的优劣。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，可通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种提升声纹识别准确度的方法，其特征在于，包括：

检测所述未识别声纹中的浊音区间；

2.根据权利要求1所述的提升声纹识别准确度的方法，其特征在于，在所述提取未识别声纹中的未识别声纹特征之前，还包括：

采集所述未识别声纹；

3.根据权利要求2所述的提升声纹识别准确度的方法，其特征在于，所述未识别声纹特征中包括多个所述未识别声纹特征向量，所述标准声纹特征中包括多个所述标准声纹特征向量，其中，所述至少根据所述未识别声纹特征与声纹识别模型中的标准声纹特征处理得到所述未识别声纹的辨别度包括：

4.根据权利要求3所述的提升声纹识别准确度的方法，其特征在于，在采集所述未识别声纹之前，还包括：

根据所述背景识别模型构建所述标准识别模型。

5.根据权利要求4所述的提升声纹识别准确度的方法，其特征在于，所述至少利用所述未识别声纹特征与所述标准声纹特征的距离处理得到所述未识别声纹的辨别度包括：

根据多个所述背景距离处理得到距离平均值及距离标准差；

6.根据权利要求1所述的提升声纹识别准确度的方法，其特征在于，所述在每个所述基音区间中获取所述声纹特征的所述实小波元素和/或所述复小波元素包括：

7.根据权利要求6所述的提升声纹识别准确度的方法，其特征在于，在检测所述未识别声纹中的浊音区间之后，所述获取未识别声纹中的未识别声纹特征还包括：

8.一种提升声纹识别准确度的系统，其特征在于，包括：

检测模块，用于检测所述未识别声纹中的浊音区间；

9.根据权利要求8所述的提升声纹识别准确度的系统，其特征在于，还包括：

10.根据权利要求9所述的提升声纹识别准确度的系统，其特征在于，所述未识别声纹特征中包括多个所述未识别声纹特征向量，所述标准声纹特征中包括多个所述标准声纹特征向量，所述处理单元包括：

11.根据权利要求10所述的提升声纹识别准确度的系统，其特征在于，还包括：

12.根据权利要求11所述的提升声纹识别准确度的系统，其特征在于，所述第三处理模块包括：

13.根据权利要求9所述的提升声纹识别准确度的系统，其特征在于，所述第一获取模块包括：

14.根据权利要求13所述的提升声纹识别准确度的系统，其特征在于，所述获取单元还包括：