CN106971731B

CN106971731B - 一种声纹识别的修正方法

Info

Publication number: CN106971731B
Application number: CN201610025306.1A
Authority: CN
Inventors: 祝铭明
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2020-10-23
Anticipated expiration: 2036-01-14
Also published as: CN106971731A

Abstract

本发明公开了一种声纹识别的修正方法，属于生物识别技术领域；声纹识别的修正方法对根据预设的多个所述频段对所述声源进行语音分离，用以对多个频段的语音进行声纹识别，可根据每个语音的相似度与阈值的比较结果对相应频段的识别区段进行修正，重新对语音进行声纹识别，以保证声纹识别的准确性，声纹识别的计算量减小，节省存储和计算资源，并且克服了基于概率统计的建模方法存在的问题，适合于系统资源有限的智能系统使用。

Description

一种声纹识别的修正方法

技术领域

本发明涉及生物识别技术领域，尤其涉及一种声纹识别的修正方法。

背景技术

声纹识别和指纹，虹膜，人脸识别等一样，属于生物识别的一种，被认为是最自然的生物特征识别身份鉴定方式。依靠声纹识别可以很方便地对说话人的身份进行验证，并且这种验证方式的私密性非常高，因为声纹通常无法被恶意复制和盗取，因此声纹识别在各种领域尤其是智能设备领域具有突出的应用优势。

声纹识别的基本过程为语音采集，特征提取，分类模型。常见的语音特征提取方法是利用语音的短时平稳特性，采用美倒谱变换方法将语音转换为识别特征集，之后经过学习过程对说话人语音进行建模得到说话人的分类模型，随后通过各类识别模型获得声纹识别的结果。但是上述过程存在以下几个问题：(1)上述声纹识别的模型需要学习更多的样本才能应用；(2)依据上述识别模型进行的声纹识别的计算的复杂度较高；(3)依据上述的识别模型计算得到的模型数据量较大；(4)由于语音在传输过程中容易受到外部噪音的干扰，因此声纹识别的识别结果容易出现误差。综上所述，对于资源有限的智能系统而言，上述既存的问题限制了现有技术中的声纹识别算法的应用。

发明内容

根据现有技术中存在的上述问题，现提供一种声纹识别的修正方法的技术方案，具体包括：

一种声纹识别的修正方法，其中：预设多个不同的频段，多个所述频段从高到低依次排列，包括下述步骤：

步骤S1，接收外界输入的声源；

步骤S2，对根据预设的多个所述频段对所述声源进行语音分离，并储存；

步骤S3，将分别处于每个所述频段下的不同背景、不同人声的语音分割为特定长度的识别区段；

步骤S4，对每个所述识别区段做特征变换后得到相应的多个识别特征，并采用关联于所有所述识别区段的所有所述识别特征分别构成相应的所述频段的所述识别特征空间；

步骤S5，将所述识别特征空间划分成复数个子空间，并以描述信息每个被划分的所述子空间，以及分别对每个所述子空间赋予一对应的序号；

步骤S6，分别将处于相应的所述频段的关联于训练模型的每条训练语句做特征变换后得到包括相应的时序特征点的时序特征点集，每个所述时序特征点分别被分配入同频段下的各个所述子空间，根据每个所述时序特征点对应的所述子空间的序号分别形成关联于相应的所述频段的第一序列，并进而形成对应的训练识别特征；

步骤S7，分别将处于相应的所述频段的关联于测试模型的每条测试语句做特征变换后得到所述时序特征点集，每个所述时序特征点分别被分配入各个所述子空间，根据每个所述时序特征点对应的所述子空间的序号分别形成关联于相应的所述频段的第二序列，并进而形成对应的测试识别特征；

步骤S8，分别获取关联于相应的所述频段的所述训练识别特征与所述测试识别特征的相似度，并分别判断每个所述相似度是否大于预设的阈值，若是，执行步骤S9；若否，执行步骤S10；若是，执行步骤S9；

步骤S9，根据所述训练识别特征处理得到声纹识别的确认结果；

步骤S10，根据所述相似度与所述阈值的差值对相应的所述频段的所述识别区段进行修正，将相应的所述频段下的不同背景、不同人声的语音依据修正后的所述识别区段进行分割，返回执行所述步骤S6。

优选的，该声纹识别的修正方法，其中，所述步骤S6中，每个所述时序特征点按照最近邻原则被分配入各个所述子空间内。

优选的，该声纹识别的修正方法，其中，所述步骤S6中，将被分配入所述时序特征点的各个所述子空间按照所述序号组成一空间序列，并将所述空间序列作为所述第一序列，以形成所述训练识别特征。

优选的，该声纹识别的修正方法，其中，所述步骤S7中，将被分配入所述时序特征点的各个所述子空间按照所述序号组成一空间序列，并将所述控件序列作为所述第二序列，以形成所述测试识别特征。

优选的，该声纹识别的修正方法，其中，所述步骤S6中，所述空间序列中包括关联于每个所述子空间的数据组，一个所述数据组对应一个所述序号；

在形成所述空间序列后，还包括分别对处于相应的所述频段的所述空间序列进行的第一数据压缩的过程，具体为：

步骤S61，记录每个所述数据组的所述序号，并记录关联于每个所述序号的重复序号数量；

步骤S62，判断是否存在所述序号的所述重复序号数量为1，并在存在所述重复序号数量为1的所述数据组时转向步骤S63；

步骤S63，删除所述重复序号数量为1的所述序号对应的所述数据组；

步骤S64，判断被删除的所述数据组的前一个数据组的所述序号是否与被删除的所述数据组的后一个数据组的所述序号相同：

若相同，则将所述前一个数据组和所述后一个数据组合并；

若不相同，则保留所述前一个数据组和所述后一个数据组；

对所述空间序列中的所有所述数据组均执行所述第一数据压缩后形成所述第一序列。

优选的，该声纹识别的修正方法，其中，所述步骤S7中，所述空间序列中包括关联于每个所述子空间的数据组，一个所述数据组对应一个所述序号；

在形成所述空间序列后，还包括分别对处于相应的所述频段的所述空间序列进行的第二数据压缩的过程，具体为：

步骤S71，记录每个所述数据组的所述序号，并记录关联于每个所述序号的重复序号数量；

步骤S72，判断是否存在所述序号的所述重复序号数量为1，并在存在所述重复序号数量为1的所述数据组时转向步骤S73；

步骤S73，删除所述重复序号数量为1的所述序号对应的所述数据组；

步骤S74，判断被删除的所述数据组的前一个数据组的所述序号是否与被删除的所述数据组的后一个数据组的所述序号相同：

若相同，则将所述前一个数据组和所述后一个数据组合并；

若不相同，则保留所述前一个数据组和所述后一个数据组；

对所述空间序列中的所有所述数据组均执行所述第二数据压缩后形成所述第二序列。

优选的，该声纹识别的修正方法，其中：所述特征变换为美倒谱变换。

优选的，该声纹识别的修正方法，其中：于执行所述美倒谱变换的过程中，分别将每条所述语句分割为20ms一帧，并将10ms的帧移取出关联于所述语句的语句帧；

随后，以帧为单位去掉静音，对所述语句帧作美倒谱变换后每帧留12个系数，并以12个所述系数构成所述识别特征。

优选的，该声纹识别的修正方法，其中：所述步骤S5中，采用“K-均值”算法将识别特征空间划分成数个子空间，划分后的每个所述子空间分别以“K-均值”的中心点记录为对应所述子空间的所述描述信息。

上述技术方案的有益效果是：提供一种声纹识别的修正方法可对多个频段的语音进行声纹识别，可根据每个语音的相似度与阈值的比较结果对相应频段的识别区段进行修正，重新对语音进行声纹识别，以保证声纹识别的准确性，声纹识别的计算量减小，节省存储和计算资源，并且克服了基于概率统计的建模方法存在的问题，适合于系统资源有限的智能系统使用。

附图说明

图1是本发明的较佳的实施例中，一种声纹识别的修正方法的总体流程图；

图2是本发明的较佳的实施例中，第一数据压缩的流程示意图；

图3是本发明的较佳的实施例中，第二数据压缩的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本发明的较佳的实施例中，基于现有技术中存在的上述问题，现提供一种声纹识别的修正方法。该声纹识别的修正方法可以适用于具有语音控制功能的智能设备中，例如应用于私人空间中的智能机器人等。

在上述声纹识别的修正方法中，首先预设多个频段，多个频段从高到低依次排列。具体地，对于不同的使用者而言，其语音的频率可能不同，对频率粗略进行划分可以分为对应成年的说话人的较低的频段，以及对应儿童的说话人的较高的频段。

更进一步地，对于成年的说话人和儿童的说话人而言，其声纹识别可能并不相同，具体在于其声纹特征的提取以及相应的声纹模型的构建可能会有区别。因此在本发明技术方案中，设置两个语音接收的频段，并根据这两个频段将成年人的语音和儿童的语音区分识别，从而进一步提升识别精度。换言之，上文中较高的频段可以用于表示儿童的说话人的语音频段，较低的频段可以用于表示成年的说话人的语音频段；最低的频段可以用于表示老年人的说话的语音频段。因此，本发明的较佳的实施例中，上述两个频段可以根据实验数据的不断累加进行相应修改，从而达到一个能够较准确地分别代表成表示不同年龄段的说话人的语音频段的目的。

则本发明的较佳的实施例中，如图1所示，上述声纹识别的修正方法具体包括：

步骤S1，接收外界输入的声源；

步骤S2，对根据预设的多个频段对声源进行语音分离，并储存；

步骤S3，将分别处于每个频段下的不同背景、不同人声的语音分割为特定长度的识别区段；

步骤S4，对每个识别区段做特征变换后得到相应的多个识别特征，并采用关联于所有识别区段的所有识别特征分别构成相应的频段的识别特征空间；

步骤S5，将识别特征空间划分成复数个子空间，并以描述信息每个被划分的子空间，以及分别对每个子空间赋予一对应的序号；

步骤S6，分别将处于相应的频段的关联于训练模型的每条训练语句做特征变换后得到包括相应的时序特征点的时序特征点集，每个时序特征点分别被分配入同频段下的各个子空间，根据每个时序特征点对应的子空间的序号分别形成关联于相应的频段的第一序列，并进而形成对应的训练识别特征；

步骤S7，分别将处于相应的频段的关联于测试模型的每条测试语句做特征变换后得到时序特征点集，每个时序特征点分别被分配入各个子空间，根据每个时序特征点对应的子空间的序号分别形成关联于相应的频段的第二序列，并进而形成对应的测试识别特征；

步骤S8，分别获取关联于相应的频段的训练识别特征与测试识别特征的相似度，并分别判断每个相似度是否大于预设的阈值，若是，执行步骤S9；若否，执行步骤S10；若是，执行步骤S9；

步骤S9，根据训练识别特征处理得到声纹识别的确认结果；

步骤S10，根据相似度与阈值的差值对相应的频段的识别区段进行修正，将相应的频段下的不同背景、不同人声的语音依据修正后的识别区段进行分割，返回执行步骤S6。

在本实施例中，声纹识别的修正方法可对多个频段的语音进行声纹识别，可根据每个语音的相似度与阈值的比较结果对相应频段的识别区段进行修正，重新对语音进行声纹识别，以保证声纹识别的准确性，声纹识别的计算量减小，节省存储和计算资源，并且克服了基于概率统计的建模方法存在的问题，适合于系统资源有限的智能系统使用。

本发明的较佳的实施例中，在上述预先设置的基础上，上述步骤S3-S4中，首先获取分别处于不同频段下的基于不同背景、不同人声的语音，并将这些语音分割为特定长度的识别区段。具体地，可以将不同背景、不同人声的语音对应的每条语句分割为以20ms为一帧的多个语句帧，并将10ms的语句帧移取，然后以每帧为单位去掉静音，对语音帧作美倒谱变换，每帧留12个系数，该12个系数即构成识别特征。所有语音段的识别特征构成识别特征集，也就是构成相应的识别特征空间。

本发明的较佳的实施例中，在上述步骤S5中，采用“K-均值”算法将识别特征空间划分为复数个子空间，划分后的数个子空间分别以“K-均值”的中心点记录为该子空间的数据描述，并对各个子空间进行编号，记录每个子空间的描述信息和其对应的序号。上述步骤同样对处于不同频段下的识别特征空间分别执行。

本发明的较佳的实施例中，分别对处于每个频段下的子空间进行如上述步骤S6的操作：将关联于训练模型的每条训练语句做特征变换后得到包括相应的时序特征点的时序特征点集，每个时序特征点分别被分配入同频段下的各个子空间，根据每个时序特征点对应的子空间的序号分别形成关联于相应的频段的第一序列，并进而形成对应的训练识别特征。

具体地，本发明的较佳的实施例中，所谓训练语句，可以为经过反复训练后预设于系统内部供系统比对时进行参照的训练模型的组成部分。

具体地，本发明的较佳的实施例中，上述步骤S6中，将每个时序特征点按照最近邻原则分别分配入处于同一频段下的各个子空间中，并且记录每个时序特征点对应的子空间的序号，最终形成一个第一序列，该第一序列由不同的子空间的序号组成，例如(2、2、4、8、8、8、5、5、5、5、5)，进而根据该第一序列形成对应的训练识别特征。

本发明的较佳的实施例中，类似地，上述步骤S7中，分别对处于上述不同频段下的子空间进行如下操作：对关联于测试模型的测试语句做特征变换后得到时序特征点集，每个时序特征点分别被分配入各个子空间，根据每个时序特征点对应的子空间的序号分别形成关联于相应的频段的第二序列，并进而形成对应的测试识别特征。

本发明的较佳的实施例中，所谓测试语句，其关联于测试模型，也就是需要比对的语句。

具体地，本发明的较佳的实施例中，上述步骤S7中，同样将上述测试语句中的每个时序特征点按照最近邻原则分别分配入处于同一频段下的各个子空间中，并且记录每个时序特征点对应的子空间的序号，最终形成一个第二序列，该第二序列同样由不同的子空间的序号组成，例如(2、3、3、5、5、8、6、6、6、4、4)，进而根据该第二序列形成对应的测试识别特征。本发明的较佳的实施例中，上述步骤S6和步骤S7之间并不存在相互依附的关系(即步骤S7的执行不必须以步骤S6执行完毕为前提)，因此上述步骤S6和步骤S7可以同时进行。图1中仍然示出步骤S6和步骤S7顺序进行的实施例。

本发明的较佳的实施例中，上述步骤S8中，将上述形成的训练识别特征和测试识别特征进行比对，并根据比对结果处理得到声纹识别的最终结果。

具体地，上述步骤S8中，同样分别获取关联于相应的频段的训练识别特征与测试识别特征的相似度，并分别判断每个相似度是否大于预设的阈值，若是，执行步骤S9；若否，执行步骤S10；若是，执行步骤S9。

进一步地，本发明的较佳的实施例中，上述步骤S6中，空间序列中包括关联于每个子空间的数据组，一个数据组对应一个序号；

则在形成空间序列后，还包括分别对处于相应的频段的空间序列进行的第一数据压缩的过程，具体如图2所示，为：

步骤S61，记录每个数据组的序号，并记录关联于每个序号的重复序号数量；

步骤S62，判断是否存在序号的重复序号数量为1，并在存在重复序号数量为1的数据组时转向步骤S63；

步骤S63，删除重复序号数量为1的序号对应的数据组；

步骤S64，判断被删除的数据组的前一个数据组的序号是否与被删除的数据组的后一个数据组的序号相同：

若相同，则将前一个数据组和后一个数据组合并；

若不相同，则保留前一个数据组和后一个数据组；

对空间序列中的所有数据组均执行第一数据压缩后形成第一序列。

具体地，本发明的较佳的实施例中，上述第一数据压缩的过程中，记录子空间的序号以及相同序号的数量，将序号和相同序号的数量作为一组数据进行排列，当相同序号的数量为1时，去掉该组数据。在本发明的一个脚架的实施例中，序号为4的数据只有1个，则在进行第一数据压缩的过程中删掉该组数据。

如果当去掉该组数据后，该数据前方一组数据中的序号和后方一组数据中的序号相同时，则将两组合并。新形成的数据组的序号与被删除的该数据组的前方一组数据的序号相同，相同序号的数量为被删除的该组数据前方一组数据的数量与被删除的该组数据后方一组数据的数量之和。又或者，在删除该组数据后，该数据前方一组数据中的序号和后方一组数据中的序号不同，则同时保留这两组数据。例如，在本发明的一个较佳的实施例中，当序号为4的数据组被去除后，位于该组数据前一组的数据的序号为2，位于该组数据后一组的数据的序号为8，2和8不相同，所以保留原数据组。

本发明的较佳的实施例中，经过第一数据压缩后的第一序列即为上述训练识别特征。

相应地，本发明的较佳的实施例中，上述步骤S7中，空间序列中包括关联于每个子空间的数据组，一个数据组对应一个序号；

则在形成空间序列后，还包括分别对处于相应的频段的空间序列进行的第二数据压缩的过程，具体如图3所示，为：

步骤S71，记录每个数据组的序号，并记录关联于每个序号的重复序号数量；

步骤S72，判断是否存在序号的重复序号数量为1，并在存在重复序号数量为1的数据组时转向步骤S73；

步骤S73，删除重复序号数量为1的序号对应的数据组；

步骤S74，判断被删除的数据组的前一个数据组的序号是否与被删除的数据组的后一个数据组的序号相同：

若相同，则将前一个数据组和后一个数据组合并；

若不相同，则保留前一个数据组和后一个数据组；

对空间序列中的所有数据组均执行第二数据压缩后形成第二序列。

具体地，类似上述步骤S6中的步骤，步骤S7中，同样记录子空间的序号以及相同序号的数量，将序号和相同序号的数量作为一组数据进行排列。当相同序号的数量为1时，去掉该组数据。

同样地，本发明的较佳的实施例中，上述经过第二数据压缩的第二序列即为测试识别特征。

上述步骤S8中，最终获取关联于相应的频段的训练识别特征与测试识别特征的相似度，并分别判断每个相似度是否大于预设的阈值，若是，则根据训练识别特征处理得到声纹识别的确认结果；若否，根据相似度与阈值的差值对相应的频段的识别区段进行修正，将相应的频段下的不同背景、不同人声的语音依据修正后的识别区段进行分割，并返回执行步骤S6。别特征处理得到声纹识别的确认结果。

上述步骤的执行使得声纹识别的计算量更小，识别率更好，并且需要处理的数据量也相对较小。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种声纹识别的修正方法，其特征在于：预设多个不同的频段，多个所述频段从高到低依次排列，包括下述步骤：

步骤S1，接收外界输入的声源；

2.如权利要求1所述的声纹识别的修正方法，其特征在于，所述步骤S6中，每个所述时序特征点按照最近邻原则被分配入各个所述子空间内。

3.如权利要求1所述的声纹识别的修正方法，其特征在于，所述步骤S6中，将被分配入所述时序特征点的各个所述子空间按照所述序号组成一空间序列，并将所述空间序列作为所述第一序列，以形成所述训练识别特征。

4.如权利要求1所述的声纹识别的修正方法，其特征在于，所述步骤S7中，将被分配入所述时序特征点的各个所述子空间按照所述序号组成一空间序列，并将所述空间序列作为所述第二序列，以形成所述测试识别特征。

5.如权利要求3所述的声纹识别的修正方法，其特征在于，所述步骤S6中，所述空间序列中包括关联于每个所述子空间的数据组，一个所述数据组对应一个所述序号；

若相同，则将所述前一个数据组和所述后一个数据组合并；

若不相同，则保留所述前一个数据组和所述后一个数据组；

6.如权利要求4所述的声纹识别的修正方法，其特征在于，所述步骤S7中，所述空间序列中包括关联于每个所述子空间的数据组，一个所述数据组对应一个所述序号；

若相同，则将所述前一个数据组和所述后一个数据组合并；

若不相同，则保留所述前一个数据组和所述后一个数据组；

7.如权利要求1所述的声纹识别的修正方法，其特征在于：所述特征变换为美倒谱变换。

8.如权利要求7所述的声纹识别的修正方法，其特征在于：于执行所述美倒谱变换的过程中，分别将每条所述语句分割为20ms一帧，并将10ms的帧移取出关联于所述语句的语句帧；

9.如权利要求1所述的声纹识别的修正方法，其特征在于：所述步骤S5中，采用“K-均值”算法将识别特征空间划分成数个子空间，划分后的每个所述子空间分别以“K-均值”的中心点记录为对应所述子空间的所述描述信息。