CN113724691A

CN113724691A - 一种具有快速抓取识别用户语音功能的键盘

Info

Publication number: CN113724691A
Application number: CN202111039128.5A
Authority: CN
Inventors: 马冰; 马升; 朱国正
Original assignee: Hefei Madao Information Technology Co ltd
Current assignee: Hefei Madao Information Technology Co ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2021-11-30

Abstract

本发明涉及语音识别，具体涉及一种具有快速抓取识别用户语音功能的键盘，包括设于键盘内部的控制器，以及用于采集用户语音的语音采集模块，控制器通过语音识别模式判断单元基于采集语音判断系统采用的语音识别模式，控制器根据语音识别模式判断单元的判断结果对远场语音识别模式、近场语音识别模式进行切换；本发明提供的技术方案能够有效克服现有技术所存在的无法快速准确识别用户语音的缺陷。

Description

一种具有快速抓取识别用户语音功能的键盘

技术领域

本发明涉及语音识别，具体涉及一种具有快速抓取识别用户语音功能的键盘。

背景技术

键盘是用于操作计算机设备运行和输入数据的交互装置，也指经过系统设置操作一台机器或设备的一组功能键(如打字机、电脑键盘)。电脑键盘是最常用也是最主要的输入设备，通过键盘可以将英文字母、数字、标点符号等输入到计算机中，从而向计算机输入指令、数据等。

随着时间的推移，市场上也出现独立的具有各种快捷功能的键盘，并带有专用驱动和设置软件，在兼容机上也能实现个性化操作。但是，现有键盘在使用时，一般只能手动输入，操作起来非常麻烦，费时费力，不具备快速准确识别用户语音，并有效执行的功能。

发明内容

(一)解决的技术问题

针对现有技术所存在的上述缺点，本发明提供了一种具有快速抓取识别用户语音功能的键盘，能够有效克服现有技术所存在的无法快速准确识别用户语音的缺陷。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种具有快速抓取识别用户语音功能的键盘，包括设于键盘内部的控制器，以及用于采集用户语音的语音采集模块，所述控制器通过语音识别模式判断单元基于采集语音判断系统采用的语音识别模式，所述控制器根据语音识别模式判断单元的判断结果对远场语音识别模式、近场语音识别模式进行切换；

所述控制器通过远场语音识别单元对采集语音进行降噪，并构建远场语音特征提取模型，同时基于远场语音特征提取模型提取的远场语音特征进行远场语音识别；

所述控制器通过近场语音识别单元对采集语音进行近场语音特征提取，并基于提取的近场语音特征选取适合的近语音识别模型，利用近语音识别模型进行近场语音识别。

优选地，所述语音识别模式判断单元包括近场语音数据集生成模块、远场音频生成模块、语音特征混叠模块、远场识别模型训练模块和语音识别模式判断模块；

近场语音数据集生成模块，用于采集近场语音数据并生成近场语音数据集；

远场音频生成模块，基于近场语音数据集通过重录方式生成远场音频；

语音特征混叠模块，从没有生成远场音频的近场语音数据中提取近场语音特征，从远场音频中提取远场语音特征，并对近场语音特征、远场语音特征进行混叠；

远场识别模型训练模块，构建远场识别模型，并基于混叠后的近场语音特征、远场语音特征对远场识别模型进行模型训练；

语音识别模式判断模块，基于训练好的远场识别模型结合采集语音，判断系统采用的语音识别模式。

优选地，所述远场音频生成模块从近场语音数据集中选取预定数量的近场语音数据，并合成一段连续播放的音频数据，通过播放并录制该音频数据生成远场音频。

优选地，所述远场音频生成模块获取远场音频的预设起止点，并根据预设起止点对远场音频进行截取，同时将截取的远场音频与播放的音频数据进行对齐。

优选地，所述远场语音识别单元包括远场语音降噪模块、远场语音特征提取模型构建模块、远场语音特征提取模块和远场语音识别模块；

远场语音降噪模块，用于对采集语音进行降噪预处理；

远场语音特征提取模型构建模块，构建用于从采集语音中提取远场语音特征的远场语音特征提取模型；

远场语音特征提取模块，基于构建好的远场语音特征提取模型对采集语音进行远场语音特征提取；

远场语音识别模块，基于提取的远场语音特征对采集语音进行进行远场语音识别。

优选地，所述远场语音降噪模块对采集语音进行降噪预处理，包括：

通过经验模态分解，将语音信号分解为高频内涵模态分量和低频内涵模态分量，并进行小波变换分解，分解出高频系数和低频系数；

对高频系数采用阈值函数的方式进行阈值处理，获得阈值处理后的估计小波系数；

基于阈值处理后的估计小波系数以及低频系数对小波系数进行重构，获得重构后的小波系数；

基于重构后的小波系数及低频内涵模态分量对语音信号进行重构，获得降噪处理后的语音信号。

优选地，所述远场语音特征提取模型构建模块构建远场语音特征提取模型，包括：

对语音信号进行分帧处理，将每一帧语音信号进行离散小波分解，获得分解后的小波系数；

对小波系数进行快速傅里叶变换，确定所有小波系数对应的频带局部能量；

确定频带局部能量的分布，并结合梅尔滤波器组确定梅尔倒谱系数，基于梅尔倒谱系数确定动态特性的差分参数；

基于差分参数对远场语音特征的提取进行训练，获取远场语音特征。

优选地，所述近场语音识别单元包括近场语音特征提取模块、近场语音识别模型数据库、近场语音识别模型确定模块和近场语音识别模块；

近场语音特征提取模块，用于从采集语音中提取近场声纹特征；

近场语音识别模型数据库，用于存储近场声纹特征与目标人物，以及目标人物与基于该目标人物构建的近场语音识别模型之间的对应关系；

近场语音识别模型确定模块，基于提取的近场声纹特征在近场语音识别模型数据库中匹配近场语音识别模型；

近场语音识别模块，基于匹配的近场语音识别模型对采集语音进行进行近场语音识别。

优选地，所述近场语音识别模块将采集语音输入近场语音识别模型中的声学模型，得到目标声学字符串，将目标声学字符串输入近场语音识别模型中的语言模型，得到近场语音识别后的识别文字序列。

(三)有益效果

与现有技术相比，本发明所提供的一种具有快速抓取识别用户语音功能的键盘，具有以下有益效果：

1)借助语音识别模式判断单元能够基于采集语音判断适合系统当前工作的语音识别模式，基于远场语音、近场语音的特征选用合适的语音识别模式，通过对语音识别模式的选择保证语音识别结果的准确性；

2)远场语音识别单元对采集语音进行降噪，并构建远场语音特征提取模型，同时基于远场语音特征提取模型提取的远场语音特征进行远场语音识别，从而能够对采集语音进行准确地远场语音识别；

3)近场语音识别单元对采集语音进行近场语音特征提取，并基于提取的近场语音特征选取适合的近语音识别模型，利用近语音识别模型进行近场语音识别，从而能够对采集语音进行准确地近场语音识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的系统示意图；

图2为本发明中在远场语音识别模式下进行远场语音识别的流程示意图；

图3为本发明中在近场语音识别模式下进行近场语音识别的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种具有快速抓取识别用户语音功能的键盘，如图1至图3所示，包括设于键盘内部的控制器，以及用于采集用户语音的语音采集模块，控制器通过语音识别模式判断单元基于采集语音判断系统采用的语音识别模式，控制器根据语音识别模式判断单元的判断结果对远场语音识别模式、近场语音识别模式进行切换。

语音识别模式判断单元包括近场语音数据集生成模块、远场音频生成模块、语音特征混叠模块、远场识别模型训练模块和语音识别模式判断模块；

远场音频生成模块从近场语音数据集中选取预定数量的近场语音数据，并合成一段连续播放的音频数据，通过播放并录制该音频数据生成远场音频。

在生成远场音频后，远场音频生成模块获取远场音频的预设起止点，并根据预设起止点对远场音频进行截取，同时将截取的远场音频与播放的音频数据进行对齐。

本申请技术方案中，借助语音识别模式判断单元能够基于采集语音判断适合系统当前工作的语音识别模式，基于远场语音、近场语音的特征选用合适的语音识别模式，通过对语音识别模式的选择保证语音识别结果的准确性。

当判断系统采用的语音识别模式时，如果语音识别模式判断模块基于训练好的远场识别模型，得出当前采集语音不适合远场语音识别模式的结果时，控制器关闭远场语音识别模式，同时开启近场语音识别模式；否则控制器关闭近场语音识别模式，同时开启远场语音识别模式。

如图2所示，控制器通过远场语音识别单元对采集语音进行降噪，并构建远场语音特征提取模型，同时基于远场语音特征提取模型提取的远场语音特征进行远场语音识别。

远场语音识别单元包括远场语音降噪模块、远场语音特征提取模型构建模块、远场语音特征提取模块和远场语音识别模块；

远场语音降噪模块，用于对采集语音进行降噪预处理；

其中，远场语音降噪模块对采集语音进行降噪预处理，包括：

其中，远场语音特征提取模型构建模块构建远场语音特征提取模型，包括：

如图3所示，控制器通过近场语音识别单元对采集语音进行近场语音特征提取，并基于提取的近场语音特征选取适合的近语音识别模型，利用近语音识别模型进行近场语音识别。

近场语音识别单元包括近场语音特征提取模块、近场语音识别模型数据库、近场语音识别模型确定模块和近场语音识别模块；

当近场语音识别模型确定模块基于提取的近场声纹特征，没有在近场语音识别模型数据库中匹配到近场语音识别模型时，近场语音识别模型确定模块选取默认近场语音识别模型，并发送给近场语音识别模块。

近场语音识别模块将采集语音输入近场语音识别模型中的声学模型，得到目标声学字符串，将目标声学字符串输入近场语音识别模型中的语言模型，得到近场语音识别后的识别文字序列。

本申请技术方案中，一方面控制器可以根据远场语音识别模式、近场语音识别模式对用户语音的识别结果，控制键盘向计算机输入基于用户语音下发的指令、数据等内容；另一方面，本申请可以作为通用的语音识别系统，用于各种情形下的语音识别。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种具有快速抓取识别用户语音功能的键盘，其特征在于：包括设于键盘内部的控制器，以及用于采集用户语音的语音采集模块，所述控制器通过语音识别模式判断单元基于采集语音判断系统采用的语音识别模式，所述控制器根据语音识别模式判断单元的判断结果对远场语音识别模式、近场语音识别模式进行切换；

2.根据权利要求1所述的具有快速抓取识别用户语音功能的键盘，其特征在于：所述语音识别模式判断单元包括近场语音数据集生成模块、远场音频生成模块、语音特征混叠模块、远场识别模型训练模块和语音识别模式判断模块；

3.根据权利要求2所述的具有快速抓取识别用户语音功能的键盘，其特征在于：所述远场音频生成模块从近场语音数据集中选取预定数量的近场语音数据，并合成一段连续播放的音频数据，通过播放并录制该音频数据生成远场音频。

4.根据权利要求3所述的具有快速抓取识别用户语音功能的键盘，其特征在于：所述远场音频生成模块获取远场音频的预设起止点，并根据预设起止点对远场音频进行截取，同时将截取的远场音频与播放的音频数据进行对齐。

5.根据权利要求1所述的具有快速抓取识别用户语音功能的键盘，其特征在于：所述远场语音识别单元包括远场语音降噪模块、远场语音特征提取模型构建模块、远场语音特征提取模块和远场语音识别模块；

远场语音降噪模块，用于对采集语音进行降噪预处理；

6.根据权利要求5所述的具有快速抓取识别用户语音功能的键盘，其特征在于：所述远场语音降噪模块对采集语音进行降噪预处理，包括：

7.根据权利要求6所述的具有快速抓取识别用户语音功能的键盘，其特征在于：所述远场语音特征提取模型构建模块构建远场语音特征提取模型，包括：

8.根据权利要求1所述的具有快速抓取识别用户语音功能的键盘，其特征在于：所述近场语音识别单元包括近场语音特征提取模块、近场语音识别模型数据库、近场语音识别模型确定模块和近场语音识别模块；

9.根据权利要求8所述的具有快速抓取识别用户语音功能的键盘，其特征在于：所述近场语音识别模块将采集语音输入近场语音识别模型中的声学模型，得到目标声学字符串，将目标声学字符串输入近场语音识别模型中的语言模型，得到近场语音识别后的识别文字序列。