CN110797032A

CN110797032A - 一种声纹数据库建立方法及声纹识别方法

Info

Publication number: CN110797032A
Application number: CN202010007842.5A
Authority: CN
Inventors: 谢志强; 王�琦
Original assignee: Shenzhen Zhongchuanghuaan Technology Co Ltd
Current assignee: Shenzhen Sound Power Technology Co ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2020-02-14
Anticipated expiration: 2040-01-06
Also published as: CN110797032B

Abstract

本发明涉及一种声纹数据库建立方法及声纹识别方法，该方法通过采集已知说话人的多条样本语音，和已知说话人的身份信息，并且在所述已知说话人的身份信息内提取出已知说话人的属性信息；根据算法模型预测样本语音的说话人的属性信息，得到样本预测信息，进而判断多条样本预测信息是否均与所述已知说话人的属性信息相同；若均相同，则提取多条所述样本语音的声纹特征进行训练并生成样本语音模型；最后将所述已知说话人的属性信息和所述已知说话人的身份信息二者与所述样本语音模型相关联并存储至声纹数据库中；因此，本发明能够对非已知说话人的异常语音数据进行排除，提升声纹数据库的质量和识别模型的准备率。

Description

一种声纹数据库建立方法及声纹识别方法

技术领域

本发明涉及声纹识别技术领域，更具体地说，涉及一种声纹数据库建立方法及声纹识别方法。

背景技术

声纹识别（speaker verification），也称做说话人识别，是一种通过采集语音片段识别说话人身份（speaker ID)的技术。声纹识别系统性能好坏，关键就在于算法能否有效学习个体差异信息，以及从声纹库中检索的复杂度。

声纹识别技术对语音质量要求较高，若语音预处理不恰当，会极大影响结果的准确率。在生活中，人们可以在各种各样的场景下使用语音技术，这样就不可避免地产生由说话人或环境引起的噪声。当前的语音预处理噪声方法主要包括预加重、加窗和分帧等，其目的是从复杂的环境中区分出语音部分和非语音部分。但是此种预处理方法无法排除异常语音数据，例如：一台手机发出的微信语音有时候不是同一个人，可能会掺杂其他亲属的语音。这种异常语音数据，会对结果造成重大的影响，并且很难被检测。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种声纹数据库建立方法及声纹识别方法。

本发明解决其技术问题所采用的技术方案是：

本发明提供了一种声纹数据库建立方法，其中，所述声纹数据库建立方法包括如下步骤：

采集已知说话人的多条样本语音，和已知说话人的身份信息；

在所述已知说话人的身份信息内提取出已知说话人的属性信息；

采用预先建立的算法模型预测所述样本语音的说话人的属性信息，得到样本预测信息；

判断多条所述样本预测信息是否均与所述已知说话人的属性信息相同；若均相同，则提取多条所述样本语音的声纹特征进行训练并生成模型，得到样本语音模型；若不均相同，则将与所述已知说话人的属性信息不同的所述样本预测信息对应的所述样本语音删除，然后提取剩余的所述样本语音的声纹特征进行训练并生成模型，得到样本语音模型；

将所述已知说话人的属性信息和所述已知说话人的身份信息二者与所述样本语音模型相关联并存储至声纹数据库中。

本发明所述声纹数据库建立方法，其中，所述属性信息包括年龄段信息和性别信息。

本发明所述声纹数据库建立方法，其中，所述模型具体为高斯混合模型。

本发明所述声纹数据库建立方法，其中，所述预先建立的算法模型是依据预设算法和多个声纹信息进行建立的，其建立过程为：采用预设算法对与多个声纹信息分别对应的声纹特征进行分析训练，得到算法识别模型；所述预设算法包括性别识别算法和年龄段识别算法。

本发明所述声纹数据库建立方法，其中，所述声纹特征包括声强、响度、音高、基音周期和基音频率中的一种或多种。

另一方面，本发明还提供了一种声纹识别方法，基于上述声纹数据库建立方法，其中，所述声纹识别方法包括如下步骤：

采集未知说话人的检材语言，提取所述检材语音的声纹特征；

采用预先建立的所述算法模型预测所述检材语音的说话人的属性信息，得到检材预测信息；

在声纹数据库中筛选出所述已知说话人的属性信息与所述检材预测信息一致的样本语音模型；

将所述检材语音的声纹特征与筛选出的所述样本语音模型进行匹配，将筛选出的所述样本语音模型根据与所述检材语音的相似度进行排序；

根据筛选出的所述样本语音模型的排序从高到低输出与所述样本语音模型相关联的已知说话人的身份信息。

本发明所述声纹识别方法，其中，所述预先建立的算法模型还对所述检材语音进行情绪信息预测，得到所述情绪信息。

本发明所述声纹识别方法，其中，输出所述样本语音模型对应的已知说话人的身份信息时，所述检材语音的所述情绪信息被一同输出。

本发明所述声纹识别方法，其中，将所述检材语音的声纹特征与筛选出的所述样本语音模型进行匹配后，根据所述样本语音模型与所述检材语音的相似程度进行打分。

本发明所述声纹识别方法，其中，输出所述样本语音模型对应的已知说话人的身份信息时，可以设定输出的数量。

本发明的有益效果在于：通过采集已知说话人的多条样本语音，和已知说话人的身份信息，在所述已知说话人的身份信息内提取出已知说话人的属性信息；根据采用预先建立的算法模型预测所述样本语音的说话人的属性信息，得到样本预测信息，进而判断多条所述样本预测信息是否均与所述已知说话人的属性信息相同；若均相同，则提取多条所述样本语音的声纹特征进行训练并生成模型，得到样本语音模型；若多个所述样本预测信息中存在一个或多个与所述已知说话人的属性信息不同的所述样本预测信息，则将与所述属性信息不同的所述样本预测信息对应的所述样本语音删除，然后提取剩余的所述样本语音的声纹特征进行训练并生成模型，得到样本语音模型；将所述已知说话人的属性信息和所述已知说话人的身份信息二者与所述样本语音模型相关联并存储至声纹数据库中；因此，本发明能够对非已知说话人的异常语音数据进行排除，提升声纹数据库的质量和识别模型的准备率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图及实施例对本发明作进一步说明，下面描述中的附图仅仅是本发明的部分实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图：

图1是本发明较佳实施例的声纹数据库建立方法的实现流程图；

图2是本发明另一较佳实施例的声纹识别方法的实现流程图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的部分实施例，而不是全部实施例。基于本发明的实施例，本领域普通技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明较佳实施例的一种声纹数据库建立方法及声纹识别方法，如图1所示，包括如下步骤：

步骤S101：采集已知说话人的多条样本语音，和已知说话人的身份信息；

具体的，利用采集设备采集声音信息和身份信息；其中，采集设备可以为安装有需要进行身份识别的系统的电子设备；采集到的声音信息包括已知说话人朗读随机生成的字符、字符串或者数字的语音，或者已知说话人随意说的一段语音。

步骤S102：在所述已知说话人的身份信息内提取出已知说话人的属性信息；

提取出的属性信息包括年龄段信息和性别信息。

步骤S103：采用预先建立的算法模型预测样本语音的说话人的属性信息，得到样本预测信息；

具体的，预先建立的算法模型是依据预设算法和多个声纹信息进行建立的，其建立过程为：采用预设算法对与多个声纹信息分别对应的声纹特征进行分析训练，得到算法识别模型；所述预设算法包括性别识别算法和年龄段识别算法；性别识别算法和年龄段识别算法均为基于深度神经网络算法。

步骤S104：判断多条样本预测信息是否均与已知说话人的属性信息相同；

具体的，判断多条样本预测信息均与已知说话人的属性信息相同，则执行步骤S106；判断所述多条样本预测信息不均与已知说话人的属性信息相同，则先执行步骤S105，再执行步骤S106。

步骤S105：将与已知说话人的属性信息不同的样本预测信息对应的样本语音删除；

具体的，通过对比预测出的样本预测信息和已知说话人的属性信息，对多个样本语音本中非已知说话人的异常样本语音进行排除，提升声纹数据库的质量和识别模型的准备率。

步骤S106：提取多条样本语音的声纹特征进行训练并生成模型，得到样本语音模型；

具体的，将多条样本语音的声纹特征提取出来，声纹特征包括声强、响度、音高、基音周期和基音频率中的一种或多种；将提取出的声纹特征训练成高斯混合模型，得到样本语音模型。

步骤S107：将已知说话人的属性信息和所述已知说话人的身份信息二者与样本语音模型相关联并存储至声纹数据库中；以便在声纹识别时依据已知说话人的属性信息对样本语音模型进行筛选；

具体的，在已知说话人的属性信息与样本语音模型相关联并存储至声纹数据库中的同时，存储的还有与已知说话人的身份信息，具体的可以将属性信息和身份信息写入同一条记录中，并将该记录存储至声纹数据库中。

本发明实施例中，通过采集已知说话人的多条样本语音，和已知说话人的身份信息，并在所述已知说话人的身份信息内提取出已知说话人的属性信息；根据采用预先建立的算法模型预测所述样本语音的说话人的属性信息，得到样本预测信息；然后判断多条所述样本预测信息是否均与所述已知说话人的属性信息相同；若均相同，则提取多条所述样本语音的声纹特征进行训练并生成模型，得到样本语音模型；若多个所述样本预测信息中存在一个或多个与所述已知说话人的属性信息不同的所述样本预测信息，则将与所述属性信息不同的所述样本预测信息对应的所述样本语音删除，然后提取剩余的所述样本语音的声纹特征进行训练并生成模型，得到样本语音模型；将所述已知说话人的属性信息和所述已知说话人的身份信息二者与所述样本语音模型相关联并存储至声纹数据库中；因此，本发明能够对非已知说话人的异常语音数据进行排除，提升声纹数据库的质量和识别模型的准备率。

本发明另一较佳实施例的声纹识别方法，如图2所示，包括如下步骤：

步骤S201：采集未知说话人的检材语言，提取检材语音的声纹特征；

具体的，声纹特征包括声强、响度、音高、基音周期和基音频率中的一种或多种。

步骤S202：采用预先建立的算法模型预测检材语音的说话人的属性信息，得到检材预测信息；

具体的，预先建立的算法模型不仅预测检材语音的说话人的属性信息，还对所述检材语音进行情绪信息预测，得到所述情绪信息。

步骤S203：在声纹数据库中筛选出所述已知说话人的属性信息与所述检材预测信息一致的样本语音模型；

具体的，在声纹数据库筛选出所述已知说话人的属性信息与所述检材预测信息一致的样本语音模型，可在性别、年龄段预测的基础上提高声纹识别准确率。

步骤204：将检材语音的声纹特征与筛选出的样本语音模型进行匹配，将筛选出的样本语音模型根据与检材语音的相似度进行排序；

具体的，将所述检材语音的声纹特征与筛选出的所述样本语音模型进行匹配后，根据所述样本语音模型与所述检材语音的相似程度进行打分；依据打分的高低对筛选出的所述样本语音模型进行排序。

步骤S205：根据筛选出的所述样本语音模型的排序从高到低输出与所述样本语音模型相关联的已知说话人的身份信息；

具体的，输出所述样本语音模型对应的已知说话人的身份信息时，所述情绪信息被一同输出，同时还可以设定已知说话人的身份信息输出的数量。

本发明实施例中，依据待识别检材语言，通过预先建立的所述算法模型预测所述检材语音的说话人的检材预测信息；在声纹数据库中筛选出所述已知说话人的属性信息与所述检材预测信息一致的样本语音模型；将所述检材语音的声纹特征与筛选出的所述样本语音模型进行匹配，将筛选出的所述样本语音模型根据与所述检材语音的相似度进行排序；根据筛选出的所述样本语音模型与所述检材语音的相似度从高到低输出与所述样本语音模型相关联的已知说话人的身份信息；因此，本发明可在性别、年龄段预测的基础上提高声纹识别准确率，同时通过情绪预测辅助检索与破案进度。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种声纹数据库建立方法，其特征在于，所述声纹数据库建立方法包含如下步骤：

2.根据权利要求1所述的声纹数据库建立方法，其特征在于，所述属性信息包括年龄段信息和性别信息。

3.根据权利要求1所述的声纹数据库建立方法，其特征在于，所述模型具体为高斯混合模型。

4.根据权利要求1所述的声纹数据库建立方法，其特征在于，所述预先建立的算法模型是依据预设算法和多个声纹信息进行建立的，其建立过程为：采用预设算法对与多个声纹信息分别对应的声纹特征进行分析训练，得到算法识别模型；所述预设算法包括性别识别算法和年龄段识别算法。

5.根据权利要求1所述的声纹数据库建立方法，其特征在于，所述声纹特征包括声强、响度、音高、基音周期和基音频率中的一种或多种。

6.一种声纹识别方法，基于权利要求1-5任一所述声纹数据库建立方法，其特征在于，所述声纹识别方法包括如下步骤：

7.根据权利要求6所述的声纹识别方法，其特征在于，所述预先建立的算法模型还对所述检材语音进行情绪信息预测，得到所述情绪信息。

8.根据权利要求7所述的声纹识别方法，其特征在于，输出所述样本语音模型对应的已知说话人的身份信息时，所述检材语音的所述情绪信息被一同输出。

9.根据权利要求6所述的声纹识别方法，其特征在于，将所述检材语音的声纹特征与筛选出的所述样本语音模型进行匹配后，根据所述样本语音模型与所述检材语音的相似程度进行打分。

10.根据权利要求6所述的声纹识别方法，其特征在于，输出所述样本语音模型对应的已知说话人的身份信息时，可以设定输出的数量。