CN111243603B

CN111243603B - 声纹识别方法、系统、移动终端及存储介质

Info

Publication number: CN111243603B
Application number: CN202010020758.7A
Authority: CN
Inventors: 洪国强; 肖龙源; 李稀敏; 蔡振华; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2022-12-06
Anticipated expiration: 2040-01-09
Also published as: CN111243603A

Abstract

本发明提供了一种声纹识别方法、系统、移动终端及存储介质，该方法包括：获取样本数据，根据本地预设音素对样本数据进行音素提取，得到样本语音段及样本语音段对应的用户标识；根据样本语音段和用户标识对声纹识别模型进行声纹注册，并获取待识别语音；将待识别语音输入声纹识别模型，并控制声纹识别模型对待识别语音中的待识别音素与样本语音段进行声纹匹配，得到匹配结果；当判断到匹配结果满足输出条件时，根据匹配结果查询目标用户标识，并将目标用户标识进行输出。本发明通过基于音素的提取进行声纹注册，以采用音素匹配的方式进行待识别语音的声纹识别，有效的提高了声纹识别的识别效率和准确性。

Description

声纹识别方法、系统、移动终端及存储介质

技术领域

本发明属于声纹识别技术领域，尤其涉及一种声纹识别方法、系统、移动终端及存储介质。

背景技术

每个人的声音都蕴涵着特有的生物特征，声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性，可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比，声纹识别的优势在于，声纹提取过程简单，成本低，且具有唯一性，不易伪造和假冒。

现有声纹识别方法是提前采集至少一个用户的语音数据，并对语音数据进行音频特征提取，将提取到的音频特征输入声纹模型得到N维声纹向量。当进行声纹识别操作时，先获取任意一个用户的语音数据，然后对语音数据提取音频特征，将音频特征输入声纹模型，得到N维声纹向量，再与声纹库里原有的声纹向量做相似度匹配，以得到声纹识别结果，但现有声纹识别过程中，由于音频特征的提取和处理数据量较大，进而导致基于音频特征的匹配将导致用户声纹识别效率低下。

发明内容

本发明实施例的目的在于提供一种声纹识别方法、系统、移动终端及存储介质，旨在解决现有的声纹识别方法训练效率低下且耗时长的问题。

本发明实施例是这样实现的，一种声纹识别方法，所述方法包括：

获取样本数据，并根据本地预设音素对所述样本数据进行音素提取，得到样本语音段及所述样本语音段对应的用户标识；

根据所述样本语音段和所述用户标识对声纹识别模型进行声纹注册，并获取待识别语音；

将所述待识别语音输入所述声纹识别模型，并控制所述声纹识别模型对所述待识别语音中的待识别音素与所述样本语音段进行声纹匹配，得到匹配结果；

当判断到所述匹配结果满足输出条件时，根据所述匹配结果查询目标用户标识，并将所述目标用户标识进行输出。

更进一步的，所述根据本地预设音素对所述样本数据进行音素提取的步骤包括：

根据所述预设音素对音素分类器进行参数编辑；

将所述样本数据输入所述音素分类器，并控制所述音素分类器对所述样本数据进行音素分类，以得到多个样本音素；

将所述样本音素所形成的语音数据设置为所述样本语音段，并根据所述样本语音段在所述样本数据中进行标识查询，以得到所述用户标识。

更进一步的，所述根据本地预设音素对所述样本数据进行音素提取的步骤还包括：

根据所述样本音素查询所述样本数据中对应语音的前端特征，所述前端特征为MFCC特征或FBANK特征；

将所述前端特征与所述样本音素和所述用户标识对应进行存储。

更进一步的，所述控制所述声纹识别模型对所述待识别语音中的待识别音素与所述样本语音段进行声纹匹配的步骤包括：

当所述待识别音素与所述声纹识别模型中存储的所述样本音素匹配成功时，根据所述待识别音素获取目标语音段；

分别对所述目标语音段和所述样本语音段进行向量转换，得到待识别向量和样本语音向量；

计算所述待识别向量与所述样本语音向量之间的余弦值，得到余弦相似度。

更进一步的，所述计算所述待识别向量与所述样本语音向量之间的余弦值的步骤之后，所述方法还包括：

判断所述余弦相似度是否大于或等于相似度阈值；

当判断到所述余弦相似度大于或等于所述相似度阈值时，则判定所述匹配结果满足所述输出条件。

更进一步的，所述获取待识别语音的步骤之后，所述方法还包括：

将所述待识别语音输入至音频分类器，并控制所述音频分类器对所述待识别语音中的音频帧进行音频分类；

根据所述音频帧的分类结果对所述待识别语音进行语音过滤。

更进一步的，所述根据所述音频帧的分类结果对所述待识别语音进行语音过滤的步骤包括：

采用窗函数对所述分类结果的序列进行平滑处理；

当判断到所述分类结果中所述音频帧被分类为背景音乐类型、静音类型或噪声类型时，将所述音频帧进行删除。

本发明实施例的另一目的在于提供一种声纹识别系统，所述系统包括：

音素提取模块，用于获取样本数据，并根据本地预设音素对所述样本数据进行音素提取，得到样本语音段及所述样本语音段对应的用户标识；

声纹注册模块，用于根据所述样本语音段和所述用户标识对声纹识别模型进行声纹注册，并获取待识别语音；

模型匹配模块，用于将所述待识别语音输入所述声纹识别模型，并控制所述声纹识别模型对所述待识别语音中的待识别音素与所述样本语音段进行声纹匹配，得到匹配结果；

识别输出模块，用于当判断到所述匹配结果满足输出条件时，根据所述匹配结果查询目标用户标识，并将所述目标用户标识进行输出。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的声纹识别方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的声纹识别方法的步骤。

本发明实施例，通过基于音素的提取进行声纹注册，以采用音素匹配的方式进行待识别语音的声纹识别，有效的提高了声纹识别的识别效率和准确性，通过根据所述匹配结果查询目标用户标识的设计，有效的提高了声纹识别结果的准确性。

附图说明

图1是本发明第一实施例提供的声纹识别方法的流程图；

图2是本发明第二实施例提供的声纹识别方法的流程图；

图3是本发明第三实施例提供的声纹识别系统的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的声纹识别方法的流程图，包括步骤：

步骤S10，获取样本数据，并根据本地预设音素对所述样本数据进行音素提取，得到样本语音段及所述样本语音段对应的用户标识；

其中，该样本数据包括语音数据和与该语音数据对应的用户标识，该用户标识可以采用文字、数字、编号、图像或生物特征的方式进行存储，该用户标识用于指向对应用户，例如当采用文字的方式进行该用户标识的存储时，该用户标识可以为用户姓名，例如“张三”、“李四”等；

优选的，该步骤中，该预设音素可以根据需求进行数量和音素参数的设置，以使在该样本数据中将该预设音素对应的语音段进行提取，以得到该样本语音段；

步骤S20，根据所述样本语音段和所述用户标识对声纹识别模型进行声纹注册，并获取待识别语音；

其中，通过将该样本语音段中的预设音素与该用户标识对应存储至该声纹识别模型中，以完成所述样本语音段和所述用户标识的注册操作；

步骤S30，将所述待识别语音输入所述声纹识别模型，并控制所述声纹识别模型对所述待识别语音中的待识别音素与所述样本语音段进行声纹匹配，得到匹配结果；

其中，通过该待识别音素中每帧数据的待识别音素依序与该声纹识别模型中存储的预设音素进行匹配，以完成该待识别音素与该样本语音段之间的声纹匹配；

该步骤中，当判断到该待识别音素与该声纹识别模型中存储的任意预设音素匹配时，则对该待识别音素进行匹配标记，具体的，该步骤中，可以通过记录该待识别音素的位置信息，以得到匹配标记结果；

优选的，该步骤中，还可以通过采用音素区域分割的方式进行该待识别音素的匹配标记，该音素区域分割的分割范围可以根据需求进行设置，例如该分割范围可以为5个音素、9个音素等，即以该待识别音素为中心音素向两端延伸，以得到音素区域，并对该音素区域进行分割，以完成针对待识别音素的区域分割；

具体的，该步骤中，所述控制所述声纹识别模型对所述待识别语音中的待识别音素与所述样本语音段进行声纹匹配的步骤包括：

根据所述待识别音素获取目标语音段，并将所述目标语音段与所述样本语音段进行声纹匹配，以得到匹配结果，该匹配结果为目标语音段与样本语音段匹配成功、匹配不成功或计算得到的相似度值；

步骤S40，当判断到所述匹配结果满足输出条件时，根据所述匹配结果查询目标用户标识，并将所述目标用户标识进行输出；

其中，当判断到步骤S30输出的匹配结果为匹配成功或该相似度值大于预设值时，则判定所述匹配结果满足输出条件，优选的，该输出条件可以根据需求进行判断条件的设置；

具体的，本实施例中，当判断到所述目标语音段与所述样本语音段之间声纹匹配成功时，则根据该样本语音段查询对应用户标识，以得到该目标用户标识，并将该用户目标标识进行输出，以得到当前针对该待识别语音的识别结果；

本实施例，通过基于音素的提取进行声纹注册，以采用音素匹配的方式进行待识别语音的声纹识别，有效的提高了声纹识别的识别效率和准确性，通过根据所述匹配结果查询目标用户标识的设计，有效的提高了声纹识别结果的准确性。

实施例二

请参阅图2，是本发明第二实施例提供的声纹识别方法的流程图，包括步骤：

步骤S11，获取样本数据，并根据预设音素对音素分类器进行参数编辑；

其中，通过根据预设音素对音素分类器进行参数编辑的设计，有效的方便了后续针对输入该音素分类器中音素类型的识别和分类；优选的，该步骤中，该预设音素可以根据需求进行数量和音素参数的设置；

步骤S21，将所述样本数据输入所述音素分类器，并控制所述音素分类器对所述样本数据进行音素分类，以得到多个样本音素；

其中，当该音素分类器接收到该样本数据时，依序对该样本数据中的语音数据进行音素分类，当判断到该语音数据中的音素与预设音素匹配时，则对该语音数据中的当前音素进行提取，以得到样本音素；

步骤S31，将所述样本音素所形成的语音数据设置为所述样本语音段，并根据所述样本语音段在所述样本数据中进行标识查询，以得到所述用户标识；

其中，该样本数据中存储有多个不同样本语音段与对应用户标识之间的对应关系，该用户标识可以采用文字、数字、编号、图像或生物特征的方式进行存储，该用户标识用于指向对应用户，例如当采用数字或编号的方式进行该用户标识的存储时，则该用户标识为用户工号编码或用户账号；当采用图像的方式进行该用户标识的存储时，则该用户标识为用户的面部图像；

当采用生物特征的方式进行该用户标识的存储时，则该用户标识可以为用户的面部特征、指纹特征或瞳孔特征，该用户标识用于完成该声纹识别时识别结果的输出，以使将该识别结果指向对应的用户；

步骤S41，根据所述样本语音段和所述用户标识对声纹识别模型进行声纹注册，并获取待识别语音；

优选的，该步骤中，所述获取待识别语音的步骤之后，所述方法还包括：

步骤S411，将所述待识别语音输入至音频分类器，并控制所述音频分类器对所述待识别语音中的音频帧进行音频分类；

其中，通过控制所述音频分类器对所述音频帧进行音频分类的设计，以判断该音频帧是否为纯音乐、背景音、噪音、纯语音、含噪语音或静音等；

步骤S412，根据所述音频帧的分类结果对所述待识别语音进行语音过滤；

其中，所述根据所述音频帧的分类结果对所述待识别语音进行语音过滤的步骤包括：

采用窗函数对所述分类结果的序列进行平滑处理；

当判断到所述分类结果中所述音频帧被分类为背景音乐类型、静音类型或噪声类型时，将所述音频帧进行删除；

其中，通过对所述分类结果进行平滑处理的设计，有效的提高所述分类结果的鲁棒性，并通过对背景音乐类型、静音类型或噪声类型的音频帧进行删除的设计，有效的对所述待识别语音起到了语音过滤的效果，方便了后续针对该待识别语音的识别，提高了声纹识别效率；

请继续参阅图2，步骤S51，根据所述样本音素查询所述样本数据中对应语音的前端特征，并将所述前端特征与所述样本音素和所述用户标识对应进行存储；

其中，所述前端特征为MFCC特征或FBANK特征，该步骤中，通过将所述前端特征与所述样本音素和所述用户标识对应进行存储，增大了识别参数，有效的提高了后续声纹识别的准确性；

步骤S61，将所述待识别语音输入所述声纹识别模型，并当所述待识别音素与所述声纹识别模型中存储的所述样本音素匹配成功时，根据所述待识别音素获取目标语音段；

其中，可以通过记录该待识别音素的位置信息，以获取该目标语音段，优选的，该步骤中，还可以通过采用音素区域分割的方式进行该目标语音段的获取；

具体的，该音素区域分割的分割范围可以根据需求进行设置，例如该分割范围可以为5个音素、9个音素等，即以该待识别音素为中心音素向两端延伸，以得到目标语音段，并对该目标语音段进行分割；

步骤S71，分别对所述目标语音段和所述样本语音段进行向量转换，得到待识别向量和样本语音向量，并计算所述待识别向量与所述样本语音向量之间的余弦值，得到余弦相似度；

其中，还可以通过采用PLDA((Probabilistic Linear Discriminant Analysis))计算的方式进行待识别向量与样本语音向量之间的主成分相似分析，以得到主成分相似值，当该主成分相似值越大时，则判定该所述目标语音段与所述样本语音段之间越相似；

步骤S81，判断所述余弦相似度是否大于或等于相似度阈值；

其中，该相似度阈值可以根据需求进行设置，例如该相似度阈值可以为0.96、0.95或0.9等参数值；

当步骤S81判断到所述余弦相似度大于或等于所述相似度阈值时，执行步骤S91；

步骤S91，判定所述匹配结果满足所述输出条件，根据所述匹配结果查询目标用户标识，并将所述目标用户标识进行输出；

其中，当判断到待识别向量和样本语音向量之间的余弦相似度大于相似度阈值或主成分相似值大于主成分阈值时，则判定该待识别语音与该样本语音段为同一用户发出的语音，因此，通过将该样本语音段对应的目标用户标识进行输出，以得到声纹识别结果；

本实施例中，通过基于音素的提取进行声纹注册，以采用音素匹配的方式进行待识别语音的声纹识别，有效的提高了声纹识别的识别效率和准确性，通过根据所述匹配结果查询目标用户标识的设计，有效的提高了声纹识别结果的准确性，本实施例将输入的语音进行无甄选处理后，根据预设音素针对指定的语音段进行提取和声纹分析，有效的提高了声纹识别的准确性，且同时可以通过音素的判断将无效语音(音乐、噪声、静音)进行删除，提高了声纹识别的抗噪性。

实施例三

请参阅图3，是本发明第三实施例提供的声纹识别系统100的结构示意图，包括：音素提取模块10、声纹注册模块11、模型匹配模块12和识别输出模块13，其中：

音素提取模块10，用于获取样本数据，并根据本地预设音素对所述样本数据进行音素提取，得到样本语音段及所述样本语音段对应的用户标识。

其中，所述音素提取模块10还用于：

根据所述预设音素对音素分类器进行参数编辑；

优选的，所述音素提取模块10还用于：

声纹注册模块11，用于根据所述样本语音段和所述用户标识对声纹识别模型进行声纹注册，并获取待识别语音。

模型匹配模块12，用于将所述待识别语音输入所述声纹识别模型，并控制所述声纹识别模型对所述待识别语音中的待识别音素与所述样本语音段进行声纹匹配，得到匹配结果。

其中，所述模型匹配模块12还用于：

优选的，所述模型匹配模块12还用于：

判断所述余弦相似度是否大于或等于相似度阈值；

识别输出模块13，用于当判断到所述匹配结果满足输出条件时，根据所述匹配结果查询目标用户标识，并将所述目标用户标识进行输出。

此外，本实施例中，所述声纹识别系统100还包括：

音频分类模块14，用于将所述待识别语音输入至音频分类器，并控制所述音频分类器对所述待识别语音中的音频帧进行音频分类；根据所述音频帧的分类结果对所述待识别语音进行语音过滤。

优选的，所述音频分类模块14还用于：采用窗函数对所述分类结果的序列进行平滑处理；当判断到所述分类结果中所述音频帧被分类为背景音乐类型、静音类型或噪声类型时，将所述音频帧进行删除。

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的声纹识别方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

当判断到所述匹配结果满足输出条件时，根据所述匹配结果查询目标用户标识，并将所述目标用户标识进行输出。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的声纹识别系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的声纹识别方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标声纹识别系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标声纹识别系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声纹识别方法，其特征在于，所述方法包括：

当判断到所述匹配结果满足输出条件时，根据所述匹配结果查询目标用户标识，并将所述目标用户标识进行输出；

所述根据本地预设音素对所述样本数据进行音素提取的步骤包括：

根据所述预设音素对音素分类器进行参数编辑；

2.如权利要求1所述的声纹识别方法，其特征在于，所述根据本地预设音素对所述样本数据进行音素提取的步骤还包括：

3.如权利要求1所述的声纹识别方法，其特征在于，所述控制所述声纹识别模型对所述待识别语音中的待识别音素与所述样本语音段进行声纹匹配的步骤包括：

4.如权利要求3所述的声纹识别方法，其特征在于，所述计算所述待识别向量与所述样本语音向量之间的余弦值的步骤之后，所述方法还包括：

判断所述余弦相似度是否大于或等于相似度阈值；

5.如权利要求1所述的声纹识别方法，其特征在于，所述获取待识别语音的步骤之后，所述方法还包括：

6.如权利要求5所述的声纹识别方法，其特征在于，所述根据所述音频帧的分类结果对所述待识别语音进行语音过滤的步骤包括：

采用窗函数对所述分类结果的序列进行平滑处理；

7.一种声纹识别系统，其特征在于，所述系统包括：

音素提取模块，用于获取样本数据，并根据本地预设音素对所述样本数据进行音素提取，得到样本语音段及所述样本语音段对应的用户标识；所述根据本地预设音素对所述样本数据进行音素提取的步骤包括：根据所述预设音素对音素分类器进行参数编辑；将所述样本数据输入所述音素分类器，并控制所述音素分类器对所述样本数据进行音素分类，以得到多个样本音素；将所述样本音素所形成的语音数据设置为所述样本语音段，并根据所述样本语音段在所述样本数据中进行标识查询，以得到所述用户标识；

8.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至6任一项所述的声纹识别方法。

9.一种存储介质，其特征在于，其存储有权利要求8所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至6任一项所述的声纹识别方法的步骤。