CN114464190A

CN114464190A - 一种语音识别场景下音量自适应方法及装置

Info

Publication number: CN114464190A
Application number: CN202210113027.6A
Authority: CN
Inventors: 赵东阳; 李霄寒
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2022-01-30
Filing date: 2022-01-30
Publication date: 2022-05-10

Abstract

一种语音识别场景下音量自适应方法和系统，提取用户语音中的声纹特征，根据声纹特征进行用户对象区分；获取麦克风的属性信息，将麦克风的属性信息保存到第一数据库；第一数据库中构建有用户账号‑麦克风信息‑音量最优值表，通过用户账号‑麦克风信息‑音量最优值表记录用户账号、麦克风信息和音量最优值的关系；根据用户的声纹特征、用户账号、麦克风信息和音量最优值对麦克风的录音音量进行适配。同时对给定用户进行麦克风录音音量训练，获取麦克风录音音量最优值。本发明通过声纹技术合麦克风录音音量训练，形成了用户、麦克风、最优值的关系型数据，提升了语音识别的准确率；节约了大量技术人员的重复设置工作；实现麦克风数据更新和积累。

Description

一种语音识别场景下音量自适应方法及装置

技术领域

本发明涉及语音识别技术领域，具体涉及一种语音识别场景下音量自适应方法及装置。

背景技术

麦克风的录音音量决定了语音数据的幅值大小和质量，进而影响语音识别率。当麦克风录音音量设置过小的时候，会造成语音数据的幅值过小，此时麦克风本身的设备噪声和环境噪声与有效语音数据叠加，造成识别率降低。当麦克风录音音量设置过大的时候，存在两个方面的问题：一是会扩大收音的距离，将远处的噪声和杂音一并采集进来，造成识别率降低；二是麦克风录音音量设置过大，会产生混响、爆破音的情况。

由此在用户使用语音识别系统时，会带来如下问题和不便：

第一、用户初次使用语音识别系统时，需要手动调节麦克风录音音量，通常从较低录音音量值开始向上调节，边测试语音识别效果边调节，直到达到一个满意的效果。但是用户通常会忽略这个步骤，造成语音识别率低。

第二、在批量上线语音识别系统时，通常由技术人员来手动逐个完成调整工作，从而带来大量的重复性调整工作。另外，由于技术人员的音量大小、使用麦克风的习惯位置，与实际用户会有差异，造成技术人员预设的录音音量值，并不适用于实际用户。

第三、当设置完毕的一个麦克风有多个用户共同使用时，需要随着用户频繁进行调整。

发明内容

为此，本发明提供一种语音识别场景下音量自适应方法及装置，解决用户忽略麦克风录音音量调节造成识别率低，技术人员初始化录音音量需要大量重复性工作，不同用户和不同麦克风配合需频繁调节等问题。

为了实现上述目的，本发明提供如下技术方案：一种语音识别场景下音量自适应方法，包括以下步骤：

提取用户语音中的声纹特征，根据所述声纹特征进行用户对象区分；

获取麦克风的属性信息，将麦克风的所述属性信息保存到第一数据库；

第一数据库中构建有用户账号-麦克风信息-音量最优值表，通过用户账号-麦克风信息-音量最优值表记录用户账号、麦克风信息和音量最优值的关系；

根据用户的声纹特征、用户账号、麦克风信息和音量最优值对麦克风的录音音量进行适配。

作为语音识别场景下音量自适应方法的优选方案，对区分后的用户对象进行标记，对标记后的用户对象分配用户账户，并将声纹特征和用户账户通过第二数据库保存；

第二数据库中构建有用户账号-声纹信息表，通过用户账号-声纹信息表保存用户账号和对应的声纹特征矩阵。

作为语音识别场景下音量自适应方法的优选方案，所述属性信息包括麦克风名称、型号、设备商，用户账号-麦克风信息-音量最优值表中的麦克风信息为麦克风的属性信息。

作为语音识别场景下音量自适应方法的优选方案，还包括，在第三数据库中构建麦克风信息-音量最优值表，通过麦克风信息-音量最优值表记录麦克风信息和对应的音量最优值。

作为语音识别场景下音量自适应方法的优选方案，当为已知麦克风+已知用户时，通过用户账号-麦克风信息-音量最优值表进行麦克风录音音量最优值适配；

当为已知麦克风+未知用户时，对未知用户进行声纹特征提取和用户账户创建；

当为未知麦克风+已知用户时，将麦克风注册到麦克风信息-音量最优值表中，更新用户账号-麦克风信息-音量最优值表；

当为未知麦克风+未知用户时，对用户账号-声纹信息表、麦克风信息-音量最优值表和用户账号-麦克风信息-音量最优值表进行更新。

作为语音识别场景下音量自适应方法的优选方案，对给定用户进行麦克风录音音量训练，获取麦克风录音音量最优值，麦克风录音音量训练步骤包括：

预置训练文本，训练文本属于语音识别模型训练集中的内容；

使训练用户在预设录音距离口述训练文本得到识别结果，并对比标准文本，获取识别率；

当识别率达到预设值时，将对应的麦克风录音音量作为最优值，完成麦克风录音音量训练。

本发明还提供一种语音识别场景下音量自适应装置，包括：

声纹识别模块，用于提取用户语音中的声纹特征，根据所述声纹特征进行用户对象区分；

麦克风信息获取模块，用于获取麦克风的属性信息，将麦克风的所述属性信息保存到第一数据库；

信息管理模块，用于通过第一数据库中构建用户账号-麦克风信息-音量最优值表，通过用户账号-麦克风信息-音量最优值表记录用户账号、麦克风信息和音量最优值的关系；

音量适配模块，用于根据用户的声纹特征、用户账号、麦克风信息和音量最优值对麦克风的录音音量进行适配。

作为语音识别场景下音量自适应装置的优选方案，还包括账户分配模块，用于对区分后的用户对象进行标记，对标记后的用户对象分配用户账户；

所述信息管理模块将声纹特征和用户账户通过第二数据库保存；第二数据库中构建有用户账号-声纹信息表，通过用户账号-声纹信息表保存用户账号和对应的声纹特征矩阵；

所述麦克风信息获取模块中，所述属性信息包括麦克风名称、型号、设备商，用户账号-麦克风信息-音量最优值表中的麦克风信息为麦克风的属性信息。

作为语音识别场景下音量自适应装置的优选方案，所述信息管理模块还通过第三数据库构建麦克风信息-音量最优值表，通过麦克风信息-音量最优值表记录麦克风信息和对应的音量最优值；

当为已知麦克风+已知用户时，通过用户账号-麦克风信息-音量最优值表进行麦克风录音音量最优值适配；

作为语音识别场景下音量自适应装置的优选方案，还包括录音音量训练模块，用于对给定用户进行麦克风录音音量训练，获取麦克风录音音量最优值，录音音量训练模块包括：

训练文本预置子模块，用于预置训练文本，训练文本属于语音识别模型训练集中的内容；

识别率获取子模块，用于使训练用户在预设录音距离口述训练文本得到识别结果，并对比标准文本，获取识别率；

最优值获取子模块，用户当识别率达到预设值时，将对应的麦克风录音音量作为最优值，完成麦克风录音音量训练。

本发明具有如下优点：提取用户语音中的声纹特征，根据声纹特征进行用户对象区分；获取麦克风的属性信息，将麦克风的属性信息保存到第一数据库；第一数据库中构建有用户账号-麦克风信息-音量最优值表，通过用户账号-麦克风信息-音量最优值表记录用户账号、麦克风信息和音量最优值的关系；根据用户的声纹特征、用户账号、麦克风信息和音量最优值对麦克风的录音音量进行适配。同时对给定用户进行麦克风录音音量训练，获取麦克风录音音量最优值。本发明通过声纹技术合麦克风录音音量训练，形成了用户、麦克风、最优值的关系型数据，让用户无需了解语音识别专业知识的情况下实现麦克风音量最优值设置的自动化，提升了语音识别的准确率；节约了大量技术人员的重复设置工作；同时完成了大量麦克风数据的自动更新和积累。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明实施例中提供的语音识别场景下音量自适应方法流程示意图；

图2为本发明实施例中提供的语音识别场景下音量自适应方法中训练识别率判断示意图；

图3为本发明实施例中提供的语音识别场景下音量自适应装置示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1和图2，本发明实施例1提供一种语音识别场景下音量自适应方法，包括以下步骤：

S1、提取用户语音中的声纹特征，根据所述声纹特征进行用户对象区分；

S2、获取麦克风的属性信息，将麦克风的所述属性信息保存到第一数据库；

S3、第一数据库中构建有用户账号-麦克风信息-音量最优值表，通过用户账号-麦克风信息-音量最优值表记录用户账号、麦克风信息和音量最优值的关系；

S4、根据用户的声纹特征、用户账号、麦克风信息和音量最优值对麦克风的录音音量进行适配。

本实施例中，对区分后的用户对象进行标记，对标记后的用户对象分配用户账户，并将声纹特征和用户账户通过第二数据库保存；

具体的，声纹特征是用电声学仪器显示的携带言语信息的声波频谱，声纹不仅具有特定性，而且有相对稳定性的特点。不同的用户对象的声纹特征是不同的，通过提取用户语音中的声纹特征可以区分不同的说话人。当对不同的说话人进行声纹识别后，对用户对象也就是说话人进行标记，分配唯一的用户账号，如A001、A002，并将声纹特征和用户账号保存到第二数据库。

本实施例中，所述属性信息包括麦克风名称、型号、设备商，用户账号-麦克风信息-音量最优值表中的麦克风信息为麦克风的属性信息。

具体的，麦克风信息获取过程，可以通过操作系统提供的接口，获取麦克风的相应信息，包括麦克风名称、型号、设备商等，并将麦克风信息保存到第一数据库的用户账号-麦克风信息-音量最优值表中。

本实施例中，还包括，在第三数据库中构建麦克风信息-音量最优值表，通过麦克风信息-音量最优值表记录麦克风信息和对应的音量最优值。

具体的，用户账号-声纹信息表、用户账号-麦克风信息-音量最优值表和麦克风信息-音量最优值表需要进行管理和更新。对于用户账号-麦克风信息-音量最优值表，如表1举例所示，用户A001使用华为麦克风(型号i43)，最优音量值是60％，用户A002使用飞利浦麦克风(型号3325)，最优音量值是70％。

用户账号	麦克风信息	音量最优值
			A001	HUAWEI-i43	60％
A002	Philips-3325	70％

表1用户账号-麦克风信息-音量最优值表

对于麦克风信息-音量最优值表，记录麦克风信息和对应的音量最优值，如表2举例所示，“是否预置”用于记录麦克风的经验最优值是否是系统预置的(部署系统的时候写入的)，OPPO麦克风的最优值是系统使用后捕获和统计的。随着该系统的部署和使用，麦克风数据积累越来越多，形成麦克风知识库，在新用户部署，可预置的麦克风就会越来越多。

麦克风信息	音量最优值	是否预置
			HUAWEI-i43	50％	是
OPPO-1220	60％	否

表2麦克风信息-音量最优值表

本实施例中，当为已知麦克风+已知用户时，通过用户账号-麦克风信息-音量最优值表进行麦克风录音音量最优值适配；

具体的，将已经积累的麦克风信息-录音音量最优值，作为系统预置麦克风写入第三数据库。当语音识别系统启动后，获取麦克风信息，用户口述语音内容，获取用户的声纹信息，在第二数据库中检索该用户声纹信息，获取用户账号。此时会有四种组合，已知麦克风+已知用户，已知麦克风+未知用户，未知麦克风+已知用户，未知麦克风+未知用户。

如果为已知麦克风+已知用户，从第一数据库的用户账号-麦克风信息-音量最优值表中检索录音音量最优值，将该值设置到麦克风。

如果为已知麦克风+未知用户，为该用户注册新的用户账号，记录到用户账号-声纹信息表和用户账号-麦克风信息-音量最优值表中，接下来进行录音音量最优值训练。因为是已知麦克风，从麦克风信息-音量最优值表中获取该麦克风对应录音音量的最优值，设置为训练初始值，进行训练，训练得到的值更新到用户账号-麦克风信息-音量最优值表中。

如果为未知麦克风+已知用户，将该麦克风注册到麦克风信息-音量最优值表中，同时更新用户账号-麦克风信息-音量最优值表。设置训练初始值为50％，进行录音音量最优值训练，训练得到的值更新麦克风信息-音量最优值表和用户账号-麦克风信息-音量最优值表中。在麦克风信息-音量最优值表中，因为该麦克风不是系统预置的，其最优值需要统计，采用数学平均的方式进行更新，即新值和旧值数学平均。

如果为未知麦克风+未知用户，同时更新用户账号-声纹信息表、麦克风信息-音量最优值表和用户账号-麦克风信息-音量最优值表三张表，设置训练初始值为50％，进行录音音量最优值训练，训练得到的值更新到麦克风信息-音量最优值表和用户账号-麦克风信息-音量最优值表中。在麦克风信息-音量最优值表中，因为该麦克风不是系统预置的，其最优值需要统计，采用数学平均的方式进行更新，即新值和旧值数学平均。

进而，通过定期维护麦克风信息-音量最优值表，将已经累积大量数据的非系统预置麦克风信息、最优值等整理出来，形成麦克风的知识库。

本实施例中，对给定用户进行麦克风录音音量训练，获取麦克风录音音量最优值，麦克风录音音量训练步骤包括：

参见图2，具体的，麦克风录音音量训练用于配合具体的用户，设置麦克风录音音量为一个合适的值，即最优值。实现方式如下：首先预置一段训练文本，该训练文本属于语音识别模型训练集中的内容，即正常的状态下口述该段训练文本，识别率可达到100％，如“患者术后第一天，一般情况良好，切口疼痛可耐受，无发热症状，无恶心呕吐症状，无腹痛腹胀症状，未排气排便”。要求用户在其习惯的录音距离口述该训练文本，以平常的语速、音量进行口述，得到识别结果，并对比标准文本，获取识别率。通过调整录音音量值，来寻找最优值，如识别率达到100％，则完成训练，记录该最优值。如果识别率一直未达100％，超过5次后不再进行训练，取识别率最高的一次录音音量值作为最优值。针对预置的麦克风和非预置的麦克风，训练用的初始值不同，预置的麦克风设置为经验最优值，非预置的麦克风，设置为50％。

综上所述，本发明通过提取用户语音中的声纹特征，根据声纹特征进行用户对象区分；获取麦克风的属性信息，将麦克风的属性信息保存到第一数据库；第一数据库中构建有用户账号-麦克风信息-音量最优值表，通过用户账号-麦克风信息-音量最优值表记录用户账号、麦克风信息和音量最优值的关系；根据用户的声纹特征、用户账号、麦克风信息和音量最优值对麦克风的录音音量进行适配。同时对给定用户进行麦克风录音音量训练，获取麦克风录音音量最优值。对区分后的用户对象进行标记，对标记后的用户对象分配用户账户，并将声纹特征和用户账户通过第二数据库保存；第二数据库中构建有用户账号-声纹信息表，通过用户账号-声纹信息表保存用户账号和对应的声纹特征矩阵。在第三数据库中构建麦克风信息-音量最优值表，通过麦克风信息-音量最优值表记录麦克风信息和对应的音量最优值。本发明通过声纹技术合麦克风录音音量训练，形成了用户、麦克风、最优值的关系型数据，让用户无需了解语音识别专业知识的情况下实现麦克风音量最优值设置的自动化，提升了语音识别的准确率；节约了大量技术人员的重复设置工作；同时完成了大量麦克风数据的自动更新和积累。

实施例2

参见图3，本发明实施例2还提供一种语音识别场景下音量自适应装置，包括：

声纹识别模块1，用于提取用户语音中的声纹特征，根据所述声纹特征进行用户对象区分；

麦克风信息获取模块2，用于获取麦克风的属性信息，将麦克风的所述属性信息保存到第一数据库；

信息管理模块3，用于通过第一数据库中构建用户账号-麦克风信息-音量最优值表，通过用户账号-麦克风信息-音量最优值表记录用户账号、麦克风信息和音量最优值的关系；

音量适配模块4，用于根据用户的声纹特征、用户账号、麦克风信息和音量最优值对麦克风的录音音量进行适配。

本实施例中，还包括账户分配模块5，用于对区分后的用户对象进行标记，对标记后的用户对象分配用户账户；

所述信息管理模块3将声纹特征和用户账户通过第二数据库保存；第二数据库中构建有用户账号-声纹信息表，通过用户账号-声纹信息表保存用户账号和对应的声纹特征矩阵；

所述麦克风信息获取模块2中，所述属性信息包括麦克风名称、型号、设备商，用户账号-麦克风信息-音量最优值表中的麦克风信息为麦克风的属性信息。

本实施例中，所述信息管理模块3还通过第三数据库构建麦克风信息-音量最优值表，通过麦克风信息-音量最优值表记录麦克风信息和对应的音量最优值；

本实施例中，还包括录音音量训练模块6，用于对给定用户进行麦克风录音音量训练，获取麦克风录音音量最优值，录音音量训练模块6包括：

训练文本预置子模块61，用于预置训练文本，训练文本属于语音识别模型训练集中的内容；

识别率获取子模块62，用于使训练用户在预设录音距离口述训练文本得到识别结果，并对比标准文本，获取识别率；

最优值获取子模块63，用户当识别率达到预设值时，将对应的麦克风录音音量作为最优值，完成麦克风录音音量训练。

需要说明的是，上述系统各模块之间的信息交互、执行过程等内容，由于与本申请实施例1中的方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

实施例3

本发明实施例3提供一种非暂态计算机可读存储介质，所述计算机可读存储介质中存储有语音识别场景下音量自适应方法的程序代码，所述程序代码包括用于执行实施例1或其任意可能实现方式的语音识别场景下音量自适应方法的指令。

计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(SolidState Disk、SSD))等。

实施例4

本发明实施例4提供一种电子设备，包括：存储器和处理器；

所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行实施例1或其任意可能实现方式的语音识别场景下音量自适应方法。

具体的，处理器可以通过硬件来实现也可以通过软件来实现，当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于所述处理器之外，独立存在。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种语音识别场景下音量自适应方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种语音识别场景下音量自适应方法，其特征在于，对区分后的用户对象进行标记，对标记后的用户对象分配用户账户，并将声纹特征和用户账户通过第二数据库保存；

3.根据权利要求2所述的一种语音识别场景下音量自适应方法，其特征在于，所述属性信息包括麦克风名称、型号、设备商，用户账号-麦克风信息-音量最优值表中的麦克风信息为麦克风的属性信息。

4.根据权利要求3所述的一种语音识别场景下音量自适应方法，其特征在于，还包括，在第三数据库中构建麦克风信息-音量最优值表，通过麦克风信息-音量最优值表记录麦克风信息和对应的音量最优值。

5.根据权利要求4所述的一种语音识别场景下音量自适应方法，其特征在于，当为已知麦克风+已知用户时，通过用户账号-麦克风信息-音量最优值表进行麦克风录音音量最优值适配；

6.根据权利要求1所述的一种语音识别场景下音量自适应方法，其特征在于，对给定用户进行麦克风录音音量训练，获取麦克风录音音量最优值，麦克风录音音量训练步骤包括：

7.一种语音识别场景下音量自适应装置，其特征在于，包括：

8.根据权利要求7所述的一种语音识别场景下音量自适应装置，其特征在于，还包括账户分配模块，用于对区分后的用户对象进行标记，对标记后的用户对象分配用户账户；

9.根据权利要求8所述的一种语音识别场景下音量自适应装置，其特征在于，所述信息管理模块还通过第三数据库构建麦克风信息-音量最优值表，通过麦克风信息-音量最优值表记录麦克风信息和对应的音量最优值；

10.根据权利要求9所述的一种语音识别场景下音量自适应装置，其特征在于，还包括录音音量训练模块，用于对给定用户进行麦克风录音音量训练，获取麦克风录音音量最优值，录音音量训练模块包括：