CN106971737A

CN106971737A - 一种基于多人说话的声纹识别方法

Info

Publication number: CN106971737A
Application number: CN201610024134.6A
Authority: CN
Inventors: 祝铭明
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2017-07-21

Abstract

本发明公开了一种基于多人说话的声纹识别方法，属于生物识别技术领域；该声纹识别方法，可在多人同时说话时，可对声源进行分解，获取每个说话人的语音，将每个人的语音与预设的频段进行匹配，根据匹配相似度识别出需要识别的说话人的语音，在对该语音进行声纹识别，计算量较小，能够节省存储和计算资源，识别的准确率高，并且克服了基于概率统计的建模方法存在的问题，适合于系统资源有限的智能系统使用。同时预先设置了表示儿童的说话人的第一频率以及表示成年的说话人的第二频率并分别进行比较，进一步提升了基于多人说话的声纹识别的准确度。

Description

一种基于多人说话的声纹识别方法

技术领域

本发明涉及生物识别技术领域，尤其涉及一种基于多人说话的声纹识别方法。

背景技术

声纹识别和指纹，虹膜，人脸识别等一样，属于生物识别的一种，被认为是最自然的生物特征识别身份鉴定方式。依靠声纹识别可以很方便地对说话人的身份进行验证，并且这种验证方式的私密性非常高，因为声纹通常无法被恶意复制和盗取，因此声纹识别在各种领域尤其是智能设备领域具有突出的应用优势。

声纹识别的基本过程为语音采集，特征提取，分类模型。常见的语音特征提取方法是利用语音的短时平稳特性，采用美倒谱变换方法将语音转换为识别特征集，之后经过学习过程对说话人语音进行建模得到说话人的分类模型，随后通过各类识别模型获得声纹识别的结果。但是上述过程存在以下几个问题：(1)上述声纹识别的模型需要学习更多的样本才能应用；(2)依据上述识别模型进行的声纹识别的计算的复杂度较高；(3)依据上述的识别模型计算得到的模型数据量较大；(4)当多个说话人同时说话时，无法辨别出需要识别的说话人的语音。综上所述，对于资源有限的智能系统而言，上述既存的问题限制了现有技术中的声纹识别算法的应用。

发明内容

根据现有技术中存在的上述问题，现提供一种基于多人说话的声纹识别方法的技术方案，具体包括：

一种基于多人说话的声纹识别方法，其中：预设一第一频段以及一第二频段，所述第一频段高于所述第二频段，包括下述步骤：

步骤S1，接收多个说话人的声源；

步骤S2，对所述声源进行分解，以分别获取每个人的语音；

步骤S3，将每个人的所述语音均与所述第一频段进行匹配，以获取相应的匹配关联度，或者

将每个人的所述语音均与所述第二频段进行匹配，以获取相应的匹配关联度；

步骤S4，提取最大的所述匹配关联度对应的所述语音，将所述语音与所述第一频段或者所述第二频段进行拟合；

步骤S5，将分别处于所述第一频段或者所述第二频段下的不同背景、不同人声的语音分割为特定长度的识别区段；

步骤S6，对每个所述识别区段做特征变换后得到相应的多个识别特征，并采用关联于所有所述识别区段的所有所述识别特征分别构成对应所述第一频段的识别特征空间，或者对应所述第二频段的所述识别特征空间；

步骤S7，将所述识别特征空间划分成复数个子空间，并以描述信息每个被划分的所述子空间，以及分别对每个所述子空间赋予一对应的序号；

步骤S8，分别将处于所述第一频段或者处于所述第二频段的关联于训练模型的每条训练语句做特征变换后得到包括相应的时序特征点的时序特征点集，每个所述时序特征点分别被分配入同频段下的各个所述子空间，根据每个所述时序特征点对应的所述子空间的序号分别形成关联于所述第一频段或者所述第二频段的第一序列，并进而形成对应的训练识别特征；

步骤S9，分别将处于所述第一频段或者处于所述第二频段的关联于测试模型的每条测试语句做特征变换后得到所述时序特征点集，每个所述时序特征点分别被分配入各个所述子空间，根据每个所述时序特征点对应的所述子空间的序号分别形成关联于所述第一频段或者所述第二频段的第二序列，并进而形成对应的测试识别特征；

步骤S10，对比关联于所述第一频段的所述训练识别特征与所述测试识别特征是否相似，并根据对比结果处理得到基于多人说话的声纹识别的确认结果，或者

对于关联于所述第二频段的所述训练识别特征与所述测试识别特征是否相似，并根据对比结果处理得到基于多人说话的声纹识别的确认结果。

优选的，该基于多人说话的声纹识别方法，其中，所述步骤S8中，每个所述时序特征点按照最近邻原则被分配入各个所述子空间内。

优选的，该基于多人说话的声纹识别方法，其中，所述步骤S8中，将被分配入所述时序特征点的各个所述子空间按照所述序号组成一空间序列，并将所述空间序列作为所述第一序列，以形成所述训练识别特征。

优选的，该基于多人说话的声纹识别方法，其中，所述步骤S9中，将被分配入所述时序特征点的各个所述子空间按照所述序号组成一空间序列，并将所述控件序列作为所述第二序列，以形成所述测试识别特征。

优选的，该基于多人说话的声纹识别方法，其中，所述步骤S8中，所述空间序列中包括关联于每个所述子空间的数据组，一个所述数据组对应一个所述序号；

在形成所述空间序列后，还包括分别对处于所述第一频段或者所述第二频段的所述空间序列进行的第一数据压缩的过程，具体为：

步骤S81，记录每个所述数据组的所述序号，并记录关联于每个所述序号的重复序号数量；

步骤S82，判断是否存在所述序号的所述重复序号数量为1，并在存在所述重复序号数量为1的所述数据组时转向步骤S83；

步骤S83，删除所述重复序号数量为1的所述序号对应的所述数据组；

步骤S84，判断被删除的所述数据组的前一个数据组的所述序号是否与被删除的所述数据组的后一个数据组的所述序号相同：

若相同，则将所述前一个数据组和所述后一个数据组合并；

若不相同，则保留所述前一个数据组和所述后一个数据组；

对所述空间序列中的所有所述数据组均执行所述第一数据压缩后形成所述第一序列。

优选的，该基于多人说话的声纹识别方法，其中，所述步骤S9中，所述空间序列中包括关联于每个所述子空间的数据组，一个所述数据组对应一个所述序号；

在形成所述空间序列后，还包括分别对处于所述第一频段或者所述第二频段的所述空间序列进行的第二数据压缩的过程，具体为：

步骤S91，记录每个所述数据组的所述序号，并记录关联于每个所述序号的重复序号数量；

步骤S92，判断是否存在所述序号的所述重复序号数量为1，并在存在所述重复序号数量为1的所述数据组时转向步骤S93；

步骤S93，删除所述重复序号数量为1的所述序号对应的所述数据组；

步骤S94，判断被删除的所述数据组的前一个数据组的所述序号是否与被删除的所述数据组的后一个数据组的所述序号相同：

若相同，则将所述前一个数据组和所述后一个数据组合并；

若不相同，则保留所述前一个数据组和所述后一个数据组；

对所述空间序列中的所有所述数据组均执行所述第二数据压缩后形成所述第二序列。

优选的，该基于多人说话的声纹识别方法，其中：所述特征变换为美倒谱变换。

优选的，该基于多人说话的声纹识别方法，其中：于执行所述美倒谱变换的过程中，分别将每条所述语句分割为20ms一帧，并将10ms的帧移取出关联于所述语句的语句帧；

随后，以帧为单位去掉静音，对所述语句帧作美倒谱变换后每帧留12个系数，并以12个所述系数构成所述识别特征。

优选的，该基于多人说话的声纹识别方法，其中：所述步骤S7中，采用“K-均值”算法将识别特征空间划分成数个子空间，划分后的每个所述子空间分别以“K-均值”的中心点记录为对应所述子空间的所述描述信息。

上述技术方案的有益效果是：提供一种基于多人说话的声纹识别方法，可在多人同时说话时，可对声源进行分解，获取每个说话人的语音，将每个人的语音与预设的频段进行匹配，根据匹配相似度识别出需要识别的说话人的语音，在对该语音进行声纹识别，计算量较小，能够节省存储和计算资源，识别的准确率高，并且克服了基于概率统计的建模方法存在的问题，适合于系统资源有限的智能系统使用。同时预先设置了表示儿童的说话人的第一频率以及表示成年的说话人的第二频率并分别进行比较，进一步提升了基于多人说话的声纹识别的准确度。

附图说明

图1是本发明的较佳的实施例中，一种基于多人说话的声纹识别方法的总体流程图；

图2是本发明的较佳的实施例中，第一数据压缩的流程示意图；

图3是本发明的较佳的实施例中，第二数据压缩的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本发明的较佳的实施例中，基于现有技术中存在的上述问题，现提供一种基于多人说话的声纹识别方法。该基于多人说话的声纹识别方法可以适用于具有语音控制功能的智能设备中，例如应用于私人空间中的智能机器人等。

在上述基于多人说话的声纹识别方法中，首先预设一第一频段以及一第二频段，所述第一频段高于所述第二频段。具体地，对于不同的使用者而言，其语音的频率可能不同，对频率粗略进行划分可以分为对应成年的说话人的较低的频段，以及对应儿童的说话人的较高的频段。

更进一步地，对于成年的说话人和儿童的说话人而言，其基于多人说话的声纹识别可能并不相同，具体在于其声纹特征的提取以及相应的声纹模型的构建可能会有区别。因此在本发明技术方案中，设置两个语音接收的频段，并根据这两个频段将成年人的语音和儿童的语音区分识别，从而进一步提升识别精度。换言之，上文中的第一频段可以用于表示儿童的说话人的语音频段，第二频段可以用于表示成年的说话人的语音频段。因此，本发明的较佳的实施例中，上述两个频段可以根据实验数据的不断累加进行相应修改，从而达到一个能够较准确地分别代表成年说话人和儿童说话人的语音频段的目的。

则本发明的较佳的实施例中，如图1所示，上述基于多人说话的声纹识别方法具体包括下述步骤：

步骤S1，接收多个说话人的声源；

步骤S2，对声源进行分解，以分别获取每个人的语音；

步骤S3，将每个人的语音均与第一频段进行匹配，以获取相应的匹配关联度，或者

将每个人的语音均与第二频段进行匹配，以获取相应的匹配关联度；

步骤S4，提取最大的匹配关联度对应的语音，将语音与第一频段或者第二频段进行拟合；

步骤S5，将分别处于第一频段或者第二频段下的不同背景、不同人声的语音分割为特定长度的识别区段；

步骤S6，对每个识别区段做特征变换后得到相应的多个识别特征，并采用关联于所有识别区段的所有识别特征分别构成对应第一频段的识别特征空间，或者对应第二频段的识别特征空间；

步骤S7，将识别特征空间划分成复数个子空间，并以描述信息每个被划分的子空间，以及分别对每个子空间赋予一对应的序号；

步骤S8，分别将处于第一频段或者处于第二频段的关联于训练模型的每条训练语句做特征变换后得到包括相应的时序特征点的时序特征点集，每个时序特征点分别被分配入同频段下的各个子空间，根据每个时序特征点对应的子空间的序号分别形成关联于第一频段或者第二频段的第一序列，并进而形成对应的训练识别特征；

步骤S9，分别将处于第一频段或者处于第二频段的关联于测试模型的每条测试语句做特征变换后得到时序特征点集，每个时序特征点分别被分配入各个子空间，根据每个时序特征点对应的子空间的序号分别形成关联于第一频段或者第二频段的第二序列，并进而形成对应的测试识别特征；

步骤S10，对比关联于第一频段的训练识别特征与测试识别特征是否相似，并根据对比结果处理得到声纹识别的确认结果，或者

对于关联于第二频段的训练识别特征与测试识别特征是否相似，并根据对比结果处理得到声纹识别的确认结果。

在本实施例中，基于多人说话的声纹识别方法可在多人同时说话时，可对声源进行分解，获取每个说话人的语音，将每个人的语音与预设的频段进行匹配，根据匹配相似度识别出需要识别的说话人的语音，在对该语音进行声纹识别，计算量较小，能够节省存储和计算资源，识别的准确率高，并且克服了基于概率统计的建模方法存在的问题，适合于系统资源有限的智能系统使用。同时预先设置了表示儿童的说话人的第一频率以及表示成年的说话人的第二频率并分别进行比较，进一步提升了声纹识别的准确度。

本发明的较佳的实施例中，在上述预先设置的基础上，上述步骤S5-S6中，首先获取分别处于第一频段或者第二频段下的基于不同背景、不同人声的语音，并将这些语音分割为特定长度的识别区段。具体地，可以将不同背景、不同人声的语音对应的每条语句分割为以20ms为一帧的多个语句帧，并将10ms的语句帧移取，然后以每帧为单位去掉静音，对语音帧作美倒谱变换，每帧留12个系数，该12个系数即构成识别特征。所有语音段的识别特征构成识别特征集，也就是构成相应的识别特征空间。

本发明的较佳的实施例中，在上述步骤S7中，采用“K-均值”算法将识别特征空间划分为复数个子空间，划分后的数个子空间分别以“K-均值”的中心点记录为该子空间的数据描述，并对各个子空间进行编号，记录每个子空间的描述信息和其对应的序号。上述步骤同样对处于第一频段或者第二频段下的识别特征空间分别执行。

本发明的较佳的实施例中，分别对处于第一频段或者第二频段下的子空间进行如上述步骤S8的操作：将关联于训练模型的每条训练语句做特征变换后得到包括相应的时序特征点的时序特征点集，每个时序特征点分别被分配入同频段下的各个子空间，根据每个时序特征点对应的子空间的序号分别形成关联于第一频段或者第二频段的第一序列，并进而形成对应的训练识别特征。

具体地，本发明的较佳的实施例中，所谓训练语句，可以为经过反复训练后预设于系统内部供系统比对时进行参照的训练模型的组成部分。

具体地，本发明的较佳的实施例中，上述步骤S8中，将每个时序特征点按照最近邻原则分别分配入处于同一频段下(第一频段或者第二频段)的各个子空间中，并且记录每个时序特征点对应的子空间的序号，最终形成一个第一序列，该第一序列由不同的子空间的序号组成，例如(2、2、4、8、8、8、5、5、5、5、5)，进而根据该第一序列形成对应的训练识别特征。

本发明的较佳的实施例中，类似地，上述步骤S9中，分别对处于上述第一频段或者第二频段下的子空间进行如下操作：对关联于测试模型的测试语句做特征变换后得到时序特征点集，每个时序特征点分别被分配入各个子空间，根据每个时序特征点对应的子空间的序号分别形成关联于第一频段或者第二频段的第二序列，并进而形成对应的测试识别特征。

本发明的较佳的实施例中，所谓测试语句，其关联于测试模型，也就是需要比对的语句。

具体地，本发明的较佳的实施例中，上述步骤S9中，同样将上述测试语句中的每个时序特征点按照最近邻原则分别分配入处于同一频段下(第一频段或者第二频段)的各个子空间中，并且记录每个时序特征点对应的子空间的序号，最终形成一个第二序列，该第二序列同样由不同的子空间的序号组成，例如(2、3、3、5、5、8、6、6、6、4、4)，进而根据该第二序列形成对应的测试识别特征。本发明的较佳的实施例中，上述步骤S8和步骤S9之间并不存在相互依附的关系(即步骤S9的执行不必须以步骤S8执行完毕为前提)，因此上述步骤S8和步骤S9可以同时进行。图1中仍然示出步骤S8和步骤S9顺序进行的实施例。

本发明的较佳的实施例中，上述步骤S10中，将上述形成的训练识别特征和测试识别特征进行比对，并根据比对结果处理得到声纹识别的最终结果。

具体地，上述步骤S10中，同样分别依照第一频段以及第二频段进行比对，即将第一频段下的测试识别特征与同样处于第一频段下的训练识别特征进行比对，并根据比对结果处理得到声纹识别的结果。同样地，将第二频段下的测试识别特征与同样处于第二频段下的训练识别特征进行比对，并根据比对结果处理得到声纹识别的结果。

进一步地，本发明的较佳的实施例中，上述步骤S8中，空间序列中包括关联于每个子空间的数据组，一个数据组对应一个序号；

则在形成空间序列后，还包括分别对处于第一频段或者第二频段的空间序列进行的第一数据压缩的过程，具体如图2所示，为：

步骤S81，记录每个数据组的序号，并记录关联于每个序号的重复序号数量；

步骤S82，判断是否存在序号的重复序号数量为1，并在存在重复序号数量为1的数据组时转向步骤S83；

步骤S83，删除重复序号数量为1的序号对应的数据组；

步骤S84，判断被删除的数据组的前一个数据组的序号是否与被删除的数据组的后一个数据组的序号相同：

若相同，则将前一个数据组和后一个数据组合并；

若不相同，则保留前一个数据组和后一个数据组；

对空间序列中的所有数据组均执行第一数据压缩后形成第一序列。

具体地，本发明的较佳的实施例中，上述第一数据压缩的过程中，记录子空间的序号以及相同序号的数量，将序号和相同序号的数量作为一组数据进行排列，当相同序号的数量为1时，去掉该组数据。在本发明的一个脚架的实施例中，序号为4的数据只有1个，则在进行第一数据压缩的过程中删掉该组数据。

如果当去掉该组数据后，该数据前方一组数据中的序号和后方一组数据中的序号相同时，则将两组合并。新形成的数据组的序号与被删除的该数据组的前方一组数据的序号相同，相同序号的数量为被删除的该组数据前方一组数据的数量与被删除的该组数据后方一组数据的数量之和。又或者，在删除该组数据后，该数据前方一组数据中的序号和后方一组数据中的序号不同，则同时保留这两组数据。例如，在本发明的一个较佳的实施例中，当序号为4的数据组被去除后，位于该组数据前一组的数据的序号为2，位于该组数据后一组的数据的序号为8，2和8不相同，所以保留原数据组。

本发明的较佳的实施例中，经过第一数据压缩后的第一序列即为上述训练识别特征。

相应地，本发明的较佳的实施例中，上述步骤S9中，空间序列中包括关联于每个子空间的数据组，一个数据组对应一个序号；

则在形成空间序列后，还包括分别对处于第一频段或者第二频段的空间序列进行的第二数据压缩的过程，具体如图3所示，为：

步骤S91，记录每个数据组的序号，并记录关联于每个序号的重复序号数量；

步骤S92，判断是否存在序号的重复序号数量为1，并在存在重复序号数量为1的数据组时转向步骤S93；

步骤S93，删除重复序号数量为1的序号对应的数据组；

步骤S94，判断被删除的数据组的前一个数据组的序号是否与被删除的数据组的后一个数据组的序号相同：

若相同，则将前一个数据组和后一个数据组合并；

若不相同，则保留前一个数据组和后一个数据组；

对空间序列中的所有数据组均执行第二数据压缩后形成第二序列。

具体地，类似上述步骤S8中的步骤，步骤S9中，同样记录子空间的序号以及相同序号的数量，将序号和相同序号的数量作为一组数据进行排列。当相同序号的数量为1时，去掉该组数据。

同样地，本发明的较佳的实施例中，上述经过第二数据压缩的第二序列即为测试识别特征。

上述步骤S10中，最终通过将处于同一频段(第一频段或者第二频段)下的训练识别特征和测试识别特征进行比对，并根据比对结果处理得到最终的声纹识别的结果。

上述步骤的执行使得声纹识别的计算量更小，识别率更好，并且需要处理的数据量也相对较小。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于多人说话的声纹识别方法，其特征在于：预设一第一频段以及一第二频段，所述第一频段高于所述第二频段，包括下述步骤：

步骤S1，接收多个说话人的声源；

步骤S2，对所述声源进行分解，以分别获取每个人的语音；

2.如权利要求1所述的基于多人说话的声纹识别方法，其特征在于，所述步骤S8中，每个所述时序特征点按照最近邻原则被分配入各个所述子空间内。

3.如权利要求1所述的基于多人说话的声纹识别方法，其特征在于，所述步骤S8中，将被分配入所述时序特征点的各个所述子空间按照所述序号组成一空间序列，并将所述空间序列作为所述第一序列，以形成所述训练识别特征。

4.如权利要求1所述的基于多人说话的声纹识别方法，其特征在于，所述步骤S9中，将被分配入所述时序特征点的各个所述子空间按照所述序号组成一空间序列，并将所述控件序列作为所述第二序列，以形成所述测试识别特征。

5.如权利要求3所述的基于多人说话的声纹识别方法，其特征在于，所述步骤S8中，所述空间序列中包括关联于每个所述子空间的数据组，一个所述数据组对应一个所述序号；

若相同，则将所述前一个数据组和所述后一个数据组合并；

若不相同，则保留所述前一个数据组和所述后一个数据组；

6.如权利要求4所述的基于多人说话的声纹识别方法，其特征在于，所述步骤S9中，所述空间序列中包括关联于每个所述子空间的数据组，一个所述数据组对应一个所述序号；

若相同，则将所述前一个数据组和所述后一个数据组合并；

若不相同，则保留所述前一个数据组和所述后一个数据组；

7.如权利要求1所述的基于多人说话的声纹识别方法，其特征在于：所述特征变换为美倒谱变换。

8.如权利要求7所述的基于多人说话的声纹识别方法，其特征在于：于执行所述美倒谱变换的过程中，分别将每条所述语句分割为20ms一帧，并将10ms的帧移取出关联于所述语句的语句帧；

9.如权利要求1所述的基于多人说话的声纹识别方法，其特征在于：所述步骤S7中，采用“K-均值”算法将识别特征空间划分成数个子空间，划分后的每个所述子空间分别以“K-均值”的中心点记录为对应所述子空间的所述描述信息。