CN112435672A

CN112435672A - 一种声纹识别方法、装置、设备及存储介质

Info

Publication number: CN112435672A
Application number: CN202011105330.9A
Authority: CN
Inventors: 张震; 石瑾; 李鹏; 李沁; 黄远; 沈亮; 李娅强
Original assignee: National Computer Network and Information Security Management Center; Iflytek Information Technology Co Ltd
Current assignee: National Computer Network and Information Security Management Center; Iflytek Information Technology Co Ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-03-02

Abstract

本发明公开了一种声纹识别方法、装置、设备及存储介质，该方法包括：获取用户的包含登录指令待识别的音频数据，输入声纹提取模型，输出声学特征；将所述声学特征输入已训练的声纹识别模型，输出识别文本；根据预先存储的验证音频数据对所述识别文本进行识别，以识别用户身份；响应于所述用户身份识别成功，执行所述登录执行。本发明针对如何解决由于传统声纹识别算法的局限性，通过获取用户的包含登录指令待识别的音频数据，输入声纹提取模型，输出声学特征；将所述声学特征输入已训练的声纹识别模型，输出识别文本；根据预先存储的验证音频数据对所述识别文本进行识别，以识别用户身份，提高音频数据进行登录验证的准确率。

Description

一种声纹识别方法、装置、设备及存储介质

技术领域

本发明涉及一种声纹识别方法、装置、设备及存储介质，属于声音识别技术领域。

背景技术

现有的智能终端的登录验证方式仅仅依靠原有的密码验证不能满足多重验证的需要，因此声音验证方式被引入智能终端的登录验证场景中。

由于传统声纹识别算法的局限性，要取得较理想的声纹识别准确率必须对有效长语音进行识别，而在声纹识别的实际应用中，用户讲话习惯决定用户的录音往往达不到有效长语音的要求，因而实际场景下的声纹识别准确率相对较低，在某些特定场景下甚至无法达到可应用的最低要求。

发明内容

本发明的目的在于，克服现有技术存在的技术缺陷，解决上述技术问题，提出一种声纹识别方法、装置、设备及存储介质。

本发明具体采用如下技术方案：一种声纹识别方法，所述方法包括：

获取用户的包含登录指令待识别的音频数据，输入声纹提取模型，输出声学特征；

将所述声学特征输入已训练的声纹识别模型，输出识别文本；

根据预先存储的验证音频数据对所述识别文本进行识别，以识别用户身份；响应于所述用户身份识别成功，执行所述登录执行。

作为一种较佳的实施例，所述声纹提取模型的训练方法包括：

获取用户在T个设备上的语音数据，并基于所述语音数据，提取声学特征，构建训练数据集合，T为大于等于2的正整数；

将所述训练数据集合输入到所述神经网络模型中，对所述神经网络模型进行训练，并获取所述神经网络模型每次训练的损失函数；

当所述损失函数收敛时，确定所述神经网络模型训练完成；其中，所述损失函数为分类损失函数、重构损失函数、差异损失函数和相似性损失函数的加权和。

作为一种较佳的实施例，所述声纹识别模型的训练方法包括：

获取待识别用户的历史验证音频数据，输入声纹提取模型，输出历史验证音频数据的声学特征；

将所述历史验证音频数据的声学特征输入已训练的声纹识别模型，并基于识别分类误差信息对所述声纹识别模型进行训练。

作为一种较佳的实施例，所述声纹识别模型包括池化层，所述池化层为不同语音帧设置不同的权重；所述池化层包括神经网络；所述基于识别分类误差信息对所述声纹识别模型进行训练包括：基于所述识别分类误差信息与预定误差阈值对所述神经网络的参数进行调整，以为输入所述池化层的不同语音帧设置不同的权重；响应于所述识别分类误差信息小于等于预定误差阈值，所述声纹识别模型训练完成。

本发明还提出一种声纹识别装置，包括：

声纹提取模块，用于执行：获取用户的包含登录指令待识别的音频数据，输入声纹提取模型，输出声学特征；

声纹识别模块，用于执行：将所述声学特征输入已训练的声纹识别模型，输出识别文本；

验证模块，用于执行：根据预先存储的验证音频数据对所述识别文本进行识别，以识别用户身份；响应于所述用户身份识别成功，执行所述登录执行。

本发明还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述一种声纹识别方法的步骤。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述一种声纹识别方法的步骤。

本发明所达到的有益效果：本发明针对如何解决由于传统声纹识别算法的局限性，要取得较理想的声纹识别准确率必须对有效长语音进行识别，而在声纹识别的实际应用中，用户讲话习惯决定用户的录音往往达不到有效长语音的要求，因而实际场景下的声纹识别准确率相对较低，在某些特定场景下甚至无法达到可应用的最低要求的技术需求，通过一种声纹识别方法，包括：获取用户的包含登录指令待识别的音频数据，输入声纹提取模型，输出声学特征；将所述声学特征输入已训练的声纹识别模型，输出识别文本；根据预先存储的验证音频数据对所述识别文本进行识别，以识别用户身份；响应于所述用户身份识别成功，执行所述登录执行，提高音频数据进行登录验证的准确率。

附图说明

图1是本发明的一种声纹识别装置的原理拓扑示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1：本发明提出一种声纹识别方法，所述方法包括：

可选的，所述声纹提取模型的训练方法包括：

可选的，所述声纹识别模型的训练方法包括：

可选的，所述声纹识别模型包括池化层，所述池化层为不同语音帧设置不同的权重；所述池化层包括神经网络；所述基于识别分类误差信息对所述声纹识别模型进行训练包括：基于所述识别分类误差信息与预定误差阈值对所述神经网络的参数进行调整，以为输入所述池化层的不同语音帧设置不同的权重；响应于所述识别分类误差信息小于等于预定误差阈值，所述声纹识别模型训练完成。

实施例2：如图1所示，本发明还提出一种声纹识别装置，包括：

可选的，所述声纹提取模型的训练方法包括：

可选的，所述声纹识别模型的训练方法包括：

实施例3：本发明还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述一种声纹识别方法的步骤。

实施例4：本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述一种声纹识别方法的步骤。

本发明针对如何解决由于传统声纹识别算法的局限性，要取得较理想的声纹识别准确率必须对有效长语音进行识别，而在声纹识别的实际应用中，用户讲话习惯决定用户的录音往往达不到有效长语音的要求，因而实际场景下的声纹识别准确率相对较低，在某些特定场景下甚至无法达到可应用的最低要求的技术需求，通过一种声纹识别方法，包括：获取用户的包含登录指令待识别的音频数据，输入声纹提取模型，输出声学特征；将所述声学特征输入已训练的声纹识别模型，输出识别文本；根据预先存储的验证音频数据对所述识别文本进行识别，以识别用户身份；响应于所述用户身份识别成功，执行所述登录执行，提高音频数据进行登录验证的准确率。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种声纹识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种声纹识别方法，其特征在于，所述声纹提取模型的训练方法包括：

3.根据权利要求1所述的一种声纹识别方法，其特征在于，所述声纹识别模型的训练方法包括：

4.根据权利要求3所述的一种声纹识别方法，其特征在于，所述声纹识别模型包括池化层，所述池化层为不同语音帧设置不同的权重；所述池化层包括神经网络；所述基于识别分类误差信息对所述声纹识别模型进行训练包括：基于所述识别分类误差信息与预定误差阈值对所述神经网络的参数进行调整，以为输入所述池化层的不同语音帧设置不同的权重；响应于所述识别分类误差信息小于等于预定误差阈值，所述声纹识别模型训练完成。

5.一种声纹识别装置，其特征在于，包括：

6.根据权利要求5所述的一种声纹识别装置，其特征在于，所述声纹提取模型的训练方法包括：

7.根据权利要求5所述的一种声纹识别装置，其特征在于，所述声纹识别模型的训练方法包括：

8.根据权利要求7所述的一种声纹识别装置，其特征在于，所述声纹识别模型包括池化层，所述池化层为不同语音帧设置不同的权重；所述池化层包括神经网络；所述基于识别分类误差信息对所述声纹识别模型进行训练包括：基于所述识别分类误差信息与预定误差阈值对所述神经网络的参数进行调整，以为输入所述池化层的不同语音帧设置不同的权重；响应于所述识别分类误差信息小于等于预定误差阈值，所述声纹识别模型训练完成。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至4中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至4中任一项所述方法的步骤。