CN108564948B

CN108564948B - 一种语音识别方法及电子设备

Info

Publication number: CN108564948B
Application number: CN201810287452.0A
Authority: CN
Inventors: 陈实
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2021-01-15
Anticipated expiration: 2038-03-30
Also published as: CN108564948A

Abstract

本发明公开了一种语音识别方法及电子设备，其中，所述方法包括：采集到包含语音信息的音频信息，得到音频信息中的环境音信息；基于环境音的级别，确定与所述环境音相应的语音识别的匹配参数；基于所述语音识别的匹配参数对采集到的语音信息进行语音识别。

Description

一种语音识别方法及电子设备

技术领域

本发明涉及信息处理技术，尤其涉及一种语音识别方法及电子设备。

背景技术

随着技术的进步，在智能设备上使用语音指令(语音控制系统)越来越受欢迎。它们的优点在于，使用语音指令控制设备，而用户不需要与受控智能设备直接接触。语音识别(ASR)以及相关的算法，可以有效地将用户输入的语音命令与环境噪声区分开。目前最先进的语音技术可以使用DSP来进行关键字识别(Keyword Spotting)，在关键字识别被激活以后，DSP就可以唤醒移动设备的AP，并且唤醒语音指令的控制系统。但是，DSP由于受到其CPU计算能力和以及存储空间的限制，无法满足各种复杂的语音环境。

发明内容

有鉴于此，本发明实施例希望提供一种语音识别方法及电子设备，能至少解决现有技术中存在的上述问题。

本发明实施例提供了一种语音识别方法，所述方法包括：

采集到包含语音信息的音频信息，得到音频信息中的环境音信息；

基于环境音的级别，确定与所述环境音相应的语音识别的匹配参数；

基于所述语音识别的匹配参数对采集到的语音信息进行语音识别。

本发明实施例提供了一种电子设备，包括：

采集单元，用于采集到包含语音信息的音频信息，得到音频信息中的环境音信息；

匹配单元，用于基于环境音的级别，确定与所述环境音相应的语音识别的匹配参数；

识别单元，用于基于所述语音识别的匹配参数对采集到的语音信息进行语音识别。

本发明实施例提供了一种电子设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行前述方法的步骤。

采用本发明实施例，根据采集到的语音信息的音频信息，确定对应的环境音，进而基于环境音确定对应的语音识别的匹配参数，从而对语音信息进行识别。如此，能够在识别语音信息的时候考虑其环境音的情况，从而使得识别语音信息得到的结果更准确。

附图说明

图1为本发明实施例语音识别方法流程示意图1；

图2为本发明实施例一种硬件组成结构示意图1；

图3为本发明实施例语音识别方法流程示意图2；

图4为本发明实施例电子设备组成结构示意图；

图5为本发明实施例一种硬件结构示意图2。

具体实施方式

下面结合附图对技术方案的实施作进一步的详细描述。

实施例一、

本发明实施例提供了一种语音识别方法，如图1所示，包括：

步骤101：采集到包含语音信息的音频信息，得到音频信息中的环境音信息；

步骤102：基于环境音的级别，确定与所述环境音相应的语音识别的匹配参数；

步骤103：基于所述语音识别的匹配参数对采集到的语音信息进行语音识别。

本实施例提供的方案可以应用于移动终端，比如智能手机、平板电脑等等。本方案首先采集得到当前智能手机能够采集到的语音信息，然后分析其中的环境音信息，比如，其中的噪音，基于环境音也就是噪音所对应的匹配参数来识别当前采集到的语音信息。

本方案中，基于环境音的级别，确定与所述环境音相应的语音识别的匹配参数，包括：

环境音的噪音是相对较强的噪音，选用匹配条件相对较为严格的语音识别匹配参数；

环境音的噪音是相对较弱的噪音，选用匹配条件相对较为宽松的语音识别匹配参数。

也就是说，不同的噪音可以对应不同的语音识别的匹配参数，比如当前的噪音较大，那么可能会采用针对较大噪音的情况下的语音识别的匹配参数，当前的噪音较小，那么就可以采用针对较小噪音的情况下的语音识别的匹配参数。

需要理解的是，相对较强以及相对较弱的噪音，可以根据预设的噪音功率门限值来比较，比如，可以设置强噪音门限值以及弱噪音门限值，当环境音的噪音高于强噪音门限值的时候，可以认为其实相对较强的噪音，如果低于弱噪音门限值，可以认为是相对较弱的噪音。

相应的，上述方案中还包含的意思有语音识别匹配参数可以与不同的噪音门限值相匹配；比如，可以设置环境音的噪音相对较强的时候，可以匹配第一匹配参数，相对较弱的时候，可以匹配第二匹配参数。

当然，可以设置更多不同的噪音级别的门限值(或者阈值)，当噪音落在对应的阈值内的时候，基于不同的噪音级别的门限值或者阈值选择对应的语音识别匹配参数。

本实施例所述方法还包括：

在将语音信息处理后与预定的语音指令关键词比对的过程中，基于所述语音识别的匹配参数，判断所述语音信息是否命中所述语音指令关键词。

上述判断所述语音信息是否命中所述语音指令关键词，指的可以为语音信息仅仅命中语音指令关键词中的一部分关键词，那么就可以认为该语音信息命中该语音指令关键词；其中，可以设置对应的命中率，比如，当达到50％的命中率就可以认为语音信息命中语音指令关键词，当然，还可以为更高的命中率，比如，当环境非常安静的时候，可以设置命中率为100％，也就是说要达到完全命中才能选中语音指令关键词。

可以理解的是，是否命中语音指令关键词所对应的命中率，可以与语音识别的匹配参数相结合，比如，当语音识别的匹配参数针对了较大噪音的时候，可以设置命中率较低，也就是说，当前如果环境较为嘈杂，那么可以仅命中50％就可以确定对应的语音指令；反之，如果语音识别的匹配参数针对较小噪音的时候，就可以设置命中率较高，比如，当前环境较为安静，那么就需要较为清晰的得到80％以上的命令率才会确定命中语音指令关键词。

通过采用上述方案，根据不同的外部噪音环境(噪音级别)，为比较运算的算法设置不同的语音参数(一组相关的语音参数)，这些参数以firmware文件的形式存在出移动设备的AP系统中。

可见，通过采用上述方案，就能够根据根据采集到的语音信息的音频信息，确定对应的环境音，进而基于环境音确定对应的语音识别的匹配参数，从而对语音信息进行识别。如此，能够在识别语音信息的时候考虑其环境音的情况，从而使得识别语音信息得到的结果更准确。

实施例二、

本发明实施例提供了一种语音识别方法，如图1所示，包括：

本实施例所述方法还包括：

在上述方案的基础之上，本实施例还能够针对环境音的噪音情况进行语音识别的匹配参数的调整，具体的：

当所述环境音信息的噪音分级发生变化时，选择与环境音信息的噪音等级相应的语音识别的匹配参数。

也就是说，进一步提供一种方案，就是当环境音的噪音级别保持不变的时候，可以采用上一次使用的语音识别的匹配参数，如果噪音级别发生改变，那么可以选择新的与当前噪音级别相对应的语音识别的匹配参数。

关于噪音与语音识别的匹配参数之间的对应关系，本实施例前面已经描述过，这里不再进行赘述。

本实施例提供的方案，其硬件的架构可以参见图2，根据不同的外部噪音环境(噪音级别)，为比较运算的算法设置不同的语音识别的匹配参数，这些参数以固件文件的形式存在于移动设备的AP系统中。

关于如何判断噪音是否发送变化，所述方法还包括：

提取历史噪音信息；当所述历史噪音信息的功率与所述环境音信息的噪音的功率之间的差值大于预设门限值时，确定所述环境音信息的噪音发生变化。

其中，历史噪音信息可以为预设的一个噪音信息，或者，可以为上一次进行语音识别的匹配参数的获取的时候所采用的历史噪音信息；或者，还可以为上一次进行语音识别的时候，得到的环境音的一段时长内的噪音的平均值。这里，所述上一次可以理解为上一个周期，还可以理解为上一次进行语音识别的时候，还可以存在更多种情况，这里不进行穷举。

当所述历史噪音信息的功率与所述环境音信息的噪音的功率之间的差值大于预设门限值时，就可以认为当前的环境音的噪音产生改变，此时就需要采用新的语音识别的匹配参数进行后续的语音识别。

参见图2，进行环境噪音的变化的检测，可以利用DSP设备中的麦克风/麦克风阵列实时(按照预置的时间间隔为周期)监控外部噪音环境的变化。

相应的，如果外部噪音环境发生变化，则唤醒AP；通过ADSPD服务把当前噪音级别对应的固件文件下发到DSP设备中。下载新的运算参数后，再运行对比算法，判断当前的语音序列是否为有效语音指令。

针对图2，对其中的硬件具体进行说明：

麦克风/麦克风阵列，用于探测外部的语言(音频)信号；

环境噪音分级检查模块，用于检查外部的噪音环境，并且对噪音分级。

唤醒词语音识别模块，根据设置的参数，将当前输入的语音序列与存储在语音语料库中的语音序列进行对比运算。

语音语料库模块。存储着唤醒词的语音语料信息，这个语音语料信息可以是平均的语音信息(对同一唤醒词汇，多人录制的语音后各个语音属性取平均值)，也可以是用户训练后的语音信息。(移动设备使用者自己录制的语音信息)。

ADSPD，为Audio DSP设备的守护进程。该进程与DSP设备保持通信通道(通道一般由DSP产生中断后，有Linux kernel通知守护进程)，并且该进程控制着DSP设备的状态。

DSP固件文件是运行在DSP上的程序，包括了比较语音序列的算法，以及运行比较算法时所需要的一组预置的参数。移动设备启动后，会将firmware文件烧录(下载)到DSP中运行。

大多数的手机都含有两个处理器。操作系统、用户界面和应用程序都在AP上执行，AP一般采用ARM芯片的CPU。而手机射频通讯控制软件，则运行在另一个分开的CPU上，这个CPU称为Baseband Processor(BP)。

最后，结合图3，对本实施例提供的方案进行具体描述：

步骤31：麦克风阵列检查设备DSP外部音频信号；如果没有信号，则基于检查外部音频信号；如果有信号，则执行步骤32；

步骤32：将所述音频信号进行数字化处理后，输入到环境噪音分级模块；

步骤33：环境噪音分级模块，判断接收到的噪音级别是否有变化，如果有，则执行步骤34，否则，执行步骤35；

步骤34：唤醒AP，通知ADSPD，由ADSPD选择与环境噪音级别相对应的固件文件，也就是包含有语音识别的匹配参数的文件；然后将新的固件文件下载到DSP中；

步骤35：利用固件文件(其对应的语音识别的匹配参数)对信号进行降噪处理，处理后判断信号是否为语音序列，如果是则执行步骤36，否则，返回步骤31；

步骤36：根据当前设置的参数，运行唤醒热词比较例程(也就是当前外部语音序列与阈值的语音语料库中预设的关键词是否命中)；判断其是否命中或者是否匹配，如果匹配则执行步骤37，否则，结束处理；

步骤37：当匹配唤醒热词时，唤醒AP，通知ADSPD，启动移动设备的语音控制系统。也就是当具备匹配指令的时候，基于该匹配指令启动对应的控制系统。

实施例三、

本发明实施例提供了一种电子设备，如图4所示，包括：

采集单元41，用于采集到包含语音信息的音频信息，得到音频信息中的环境音信息；

匹配单元42，用于基于环境音的级别，确定与所述环境音相应的语音识别的匹配参数；

识别单元43，用于基于所述语音识别的匹配参数对采集到的语音信息进行语音识别。

本方案中，匹配单元42，用于环境音的噪音是相对较强的噪音，选用匹配条件相对较为严格的语音识别匹配参数；

匹配单元42，用于在将语音信息处理后与预定的语音指令关键词比对的过程中，基于所述语音识别的匹配参数，判断所述语音信息是否命中所述语音指令关键词。

实施例四、

本发明实施例提供了一种电子设备，如图4所示，包括：

本实施例匹配单元42，用于

本实施例所述匹配单元42，用于在将语音信息处理后与预定的语音指令关键词比对的过程中，基于所述语音识别的匹配参数，判断所述语音信息是否命中所述语音指令关键词。

在上述方案的基础之上，本实施例还能够针对环境音的噪音情况进行语音识别的匹配参数的调整，具体的：匹配单元42，用于当所述环境音信息的噪音分级发生变化时，选择与环境音信息的噪音等级相应的语音识别的匹配参数。

关于如何判断噪音是否发送变化，所述匹配单元42，用于提取历史噪音信息；当所述历史噪音信息的功率与所述环境音信息的噪音的功率之间的差值大于预设门限值时，确定所述环境音信息的噪音发生变化。

针对图2，对其中的硬件具体进行说明：

采集单元可以为麦克风/麦克风阵列，用于探测外部的语言(音频)信号；

匹配单元可以为图中环境噪音分级检查模块，用于检查外部的噪音环境，并且对噪音分级。

识别单元可以包括图中的唤醒词语音识别模块，根据设置的参数，将当前输入的语音序列与存储在语音语料库中的语音序列进行对比运算。

识别单元可以包括图中的语音语料库模块。存储着唤醒词的语音语料信息，这个语音语料信息可以是平均的语音信息(对同一唤醒词汇，多人录制的语音后各个语音属性取平均值)，也可以是用户训练后的语音信息。(移动设备使用者自己录制的语音信息)。

本发明实施例还提供了一种电子设备的硬件组成架构，如图5所示，包括：至少一个处理器51、存储器52、至少一个网络接口53。各个组件通过总线系统54耦合在一起。可理解，总线系统54用于实现这些组件之间的连接通信。总线系统54除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统54。

可以理解，本发明实施例中的存储器52可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器52存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：

操作系统521和应用程序522。

其中，所述处理器51配置为：能够处理前述实施例一或二的方法步骤，这里不再进行赘述。

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行媒体文件的处理方法的程序代码。

可选地，在本实施例中，存储介质被设置为存储用于执行实施例一或二所述的各种步骤。

本发明的实施例还提供了一种终端设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行实施例一或二所述方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别方法，所述方法包括：

基于所述语音识别的匹配参数对采集到的语音信息进行语音识别；

在将语音信息处理后与预定的语音指令关键词比对的过程中，基于所述语音识别的匹配参数设置对应的命中率，并基于所述命中率判断所述语音信息是否命中所述语音指令关键词。

2.根据权利要求1所述的方法，其特征在于，基于环境音的级别，确定与所述环境音相应的语音识别的匹配参数，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

提取历史噪音信息；

当所述历史噪音信息的功率与所述环境音信息的噪音的功率之间的差值大于预设门限值时，确定所述环境音信息的噪音发生变化。

5.一种电子设备，包括：

识别单元，用于基于所述语音识别的匹配参数对采集到的语音信息进行语音识别；

所述匹配单元，用于在将语音信息处理后与预定的语音指令关键词比对的过程中，基于所述语音识别的匹配参数设置对应的命中率，并基于所述命中率判断所述语音信息是否命中所述语音指令关键词。

6.根据权利要求5所述的电子设备，其特征在于，所述匹配单元，用于环境音的噪音是相对较强的噪音，选用匹配条件相对较为严格的语音识别匹配参数；

7.根据权利要求5所述的电子设备，其特征在于，

所述匹配单元，用于当所述环境音信息的噪音分级发生变化时，选择与环境音信息的噪音等级相应的语音识别的匹配参数。

8.一种电子设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行权利要求1-4任一项所述方法的步骤。