CN107274895A

CN107274895A - 一种语音识别设备及方法

Info

Publication number: CN107274895A
Application number: CN201710711864.8A
Authority: CN
Inventors: 杨珣; 杨向东; 赵星星
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2017-08-18
Filing date: 2017-08-18
Publication date: 2017-10-20
Anticipated expiration: 2037-08-18
Also published as: US20190057687A1; US10861447B2; CN107274895B

Abstract

本发明涉及一种语音识别设备及方法，用以解决目前语音识别过程中，对于嘈杂环境中多人讲话时，却无法提升语音识别效果的问题。该设备包括：语音识别模块，采集音频信息并进行语音识别；环境判断模块，当语音识别模块识别出的语义内容无法与语义库中的内容匹配时，判断音频信息是否包括环境嘈杂音频信息与用户音频信息；主控制模块，当音频信息包括环境嘈杂音频信息与用户音频信息时，根据音频信息的输入音量和电压幅值，确定采集音频信息的条件，进而可以优化下一次采集到的音频信息，并在语音识别模块采集音频信息，启动下一次语音识别过程时，提高语音识别的效果。

Description

一种语音识别设备及方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别设备及方法。

背景技术

语音识别技术是指机器把音频输入转换为文字或命令的技术。在语音识别过程中，尤其是麦克风阵列具有远场识别功能时，音频信号采集的灵敏度会比较高。用户周围如果有其他不相干的人说话，麦克风会同时采集到多个人的声音，而且不相关部分的声音幅值也会高于语音识别门限，导致用户与设备的交互以及周围其他人之间的闲聊均被设备采集，使语音识别模块无法判断用户的意图，从而难以做出正确的响应。

传统的音频信号处理方法有麦克风降噪，回声消除，主要是用来去除环境中喇叭或者设备产生的噪声；还有自动增益控制技术，主要用来稳定音频信号。但对于嘈杂环境中多人讲话时，却无法提升语音识别效果。

发明内容

本发明的目的是提供一种语音识别设备及方法，用以解决目前语音识别过程中，对于嘈杂环境中多人讲话时，却无法提升语音识别效果的问题。

本发明实施例提供的一种语音识别设备，所述设备包括：语音识别模块、环境判断模块和主控制模块；

所述语音识别模块，用于采集音频信息并进行语音识别；

所述环境判断模块，用于当所述语音识别模块识别出的语义内容无法与语义库中的内容匹配时，判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息；

所述主控制模块，用于当所述音频信息包括环境嘈杂音频信息与用户音频信息时，根据所述语音识别模块采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值，确定下一次采集音频信息的条件，并控制所述语音识别模块采集音频信息，启动下一次语音识别过程。

较佳的，所述主控制模块具体用于：

当所述音频信息包括环境嘈杂音频信息与用户音频信息时，判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量；

当所述音频信息的输入音量未达到最大可接收音量时，提示用户提高输入用户音频信息的音量，重新输入音频信息；以及，

控制所述语音识别模块降低采集音频信息的电压幅值，并采用降低后的电压幅值采集音频信息，启动下一次语音识别过程。

较佳的，所述主控制模块还用于：

在判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量之后，在所述语音识别模块采集音频信息，启动下一次语音识别过程之前，当所述音频信息包括环境嘈杂音频信息与用户音频信息、且所述音频信息的输入音量达到最大可接收音量时，提示用户降低周围环境中的环境嘈杂音频信息，重新输入音频信息。

较佳的，所述主控制模块还用于：

在所述环境判断模块判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息之后，在所述语音识别模块采集音频信息，启动下一次语音识别过程之前，当所述音频信息不包括环境嘈杂音频信息时，提示用户重新输入音频信息。

较佳的，所述环境判断模块具体用于：

将所述语音识别过程中识别出的语义内容与语义库中的内容进行匹配；以及，判断所述音频信息的输入功率是否大于预设功率；

当所述语义内容与所述语义库中的内容匹配失败时；以及，当所述音频信息的输入功率大于预设功率时；确定所述音频信息包括环境嘈杂音频信息与用户音频信息；

否则，确定所述音频信息不包括环境嘈杂音频信息。

本发明实施例还提供了一种语音识别的方法，所述方法包括：

采集音频信息并进行语音识别；

当所述语音识别过程中识别出的语义内容无法与语义库中的内容匹配时，判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息；

当所述音频信息包括环境嘈杂音频信息与用户音频信息时，根据采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值，确定下一次采集音频信息的条件，并采集音频信息，启动下一次语音识别过程。

较佳的，所述根据采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值，确定下一次采集音频信息的条件，包括：

降低采集音频信息的电压幅值，并采用降低后的电压幅值采集音频信息，启动下一次语音识别过程。

较佳的，在判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量之后，在采集音频信息，启动下一次语音识别过程之前，还包括：

当所述音频信息的输入音量达到最大可接收音量时，提示用户降低周围环境中的环境嘈杂音频信息，重新输入音频信息。

较佳的，在判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息之后，在采集音频信息，启动下一次语音识别过程之前，还包括：

当所述音频信息不包括环境嘈杂音频信息时，提示用户重新输入音频信息。

较佳的，判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息，包括：

判断所述语音识别过程中识别出的语义内容与语义库中的内容进行匹配；以及，判断所述音频信息的输入功率是否大于预设功率；

否则，确定所述音频信息不包括环境嘈杂音频信息。

本发明有益效果如下：

本发明实施例提供的语音识别设备，在语音识别模块识别出的语义内容无法与语义库中的内容匹配时，通过环境判断模块来判断音频信息是否包括环境嘈杂音频信息与用户音频信息，在音频信息包括环境嘈杂音频信息与用户音频信息时，可以通过主控制模块根据所述语音识别模块采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值，确定下一次采集音频信息的条件，进而可以优化下一次采集到的音频信息，并在语音识别模块采集音频信息，启动下一次语音识别过程时，提高语音识别的效果。

附图说明

图1为本发明实施例提供的一种语音识别设备的结构示意图；

图2a为本发明实施例提供的音频信息未能被识别时的电压幅值的示意图；

图2b为本发明实施例提供的音频信息能够被识别时的电压幅值的示意图；

图3为本发明实施例提供的语音识别的方法的流程图；

图4为本发明实施例提供的语音识别方法的整体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中提供的语音识别设备，主要是针对具有远场识别功能的语音交互设备，例如，智能画框、智能家居等。当然，也可以根据需要应用到其它的语音识别场景中，在此不做限定。

如图1所示，为本发明实施例提供的一种语音识别设备的结构示意图，该设备包括：语音识别模块101、环境判断模块102和主控制模块103；

语音识别模块101，用于采集音频信息并进行语音识别；

环境判断模块102，用于当语音识别模块101识别出的语义内容无法与语义库中的内容匹配时，判断音频信息是否包括环境嘈杂音频信息与用户音频信息；

主控制模块103，当音频信息包括环境嘈杂音频信息与用户音频信息，根据语音识别模块101采集音频信息时音频信息的输入音量、以及采集音频信息的电压幅值，确定下一次采集音频信息的条件，并控制语音识别模块101采集音频信息，启动下一次语音识别过程。

在具体实施时，如果语音识别设备处于嘈杂环境中，即有多人同时说话，语音设备对周围所有人说话的声音均进行采集和识别，导致识别出来的语义内容混乱，无法识别出用户的真实意图。即语音识别模块101采集到的音频信息中包括用户发出的用户音频信息、以及周围环境中其他人发出的环境嘈杂音频信息，而用户音频信息的电压幅值和环境嘈杂音频信息的电压幅值均大于语音识别设备能够识别的最低电压幅值。因此，针对该音频信息进行语音识别后，识别出的语义内容很可能与语义库中的内容不匹配，无法被正确响应。

具体的，环境判断模块102在确定针对音频信息的第一次语音识别失败，语音识别模块101识别出的语义内容无法与语义库中的内容匹配时，可以根据语义内容和音频信息的输入功率判断音频信息是否包括环境嘈杂音频信息与用户音频信息。具体的，环境判断模块102具体用于：判断语音识别过程中识别出的语义内容与语义库中的内容进行匹配；以及，判断音频信息的输入功率是否大于预设功率；当语义内容与语义库中的内容匹配失败时；以及，当音频信息的输入功率大于预设功率时；确定音频信息包括环境嘈杂音频信息与用户音频信息；否则，确定音频信息不包括环境嘈杂音频信息。

由于单独使用音频信息的输入功率判断的话，如果在安静的环境下，用户说话声音很大或者播放音乐时，音频输入功率也很大，但是不能判定属于本发明中所说的嘈杂环境。而如果单独使用语音识别模块识别出的语义内容进行判断，有时安静情况下用户发出的用户音频信息也可能无法得到与语义库中的内容匹配的语义内容。为了更准确地判断音频信息是否包括环境嘈杂音频信息与用户音频信息，可以采用两者结合的方式。

具体的，判断音频信息是否包括环境嘈杂音频信息与用户音频信息，可以结合语音识别模块反馈和采集到的音频信息的输入功率大小。当语音识别设备处于嘈杂环境中，语音识别设备可以同时采集并识别多个人谈话内容，会导致语音转文字的结果不合乎正常语法或者内容跟语义库中的内容无法匹配，导致语音识别模块无法推断用户的真实意图。此时再结合音频输入功率大小，如果输入功率比较大，说明当前环境比较嘈杂，音频信息中同时包括环境嘈杂音频信息与用户音频信息；否则，则认为该音频信息中不包括环境嘈杂音频信息。

当语音识别模块识别出的语义内容无法与语义库中的内容匹配时，需要从新采集音频信息，而当判断出音频信息包括环境嘈杂音频信息与用户音频信息，说明周围环境中有其他人说话(即有环境嘈杂音频信息)对语音识别造成了干扰。同时，由于本发明主要针对周围环境中人们说话声音对用户声音产生的干扰，并非指其他音乐或者喇叭鸣笛声等；因而为了减少周围人说话声音的干扰，主控制模块103可以根据语音识别模块101采集音频信息时音频信息的输入音量、以及采集音频信息的电压幅值，确定下一次采集音频信息的条件，进而可以优化下一次采集到的音频信息，并在控制语音识别模块101根据确定的新的采集音频信息的条件采集音频信息，启动下一次语音识别过程时，提高语音识别的效果。

如果下一次语音识别过程识别出的语义内容能够与语义库中的内容匹配，则直接执行相应的操作，而若仍然不能与语义库中的内容匹配，则环境判断模块102继续判断音频信息是否包括环境嘈杂音频信息与用户音频信息，即语音识别设备中的各个模块继续重复上述各个操作。

下面具体介绍主控制模块如何确定下一次采集音频信息的条件。

较佳的，主控制模块103具体用于：当音频信息包括环境嘈杂音频信息与用户音频信息时，判断语音识别模块采集音频信息时音频信息的输入音量是否达到最大可接收音量；当音频信息的输入音量未达到最大可接收音量时，提示用户提高输入用户音频信息的音量，重新输入音频信息；以及，控制语音识别模块降低采集音频信息的电压幅值，并采用降低后的电压幅值采集音频信息，启动下一次语音识别过程。

在具体实施时，在确定音频信息包括环境嘈杂音频信息与用户音频信息之后，还需要进一步判断语音识别模块采集音频信息时音频信息的输入音量，如果音频信息的输入音量没有达到最大可接收音量，则主控制模块103会提示用户提高输入用户音频信息的音量，并重新输入音频信息。

另外，主控制模块103还可以控制语音识别模块101在下一次采集音频信息时，降低采集音频信息的电压幅值(即下一次采集音频信号的条件)，并采用降低后的电压幅值采集音频信息，当用户输入音频信息的电压幅值大于能够进行语音识别的最低电压幅值、而周围环境中其他人发出的环境嘈杂音频信息的电压幅值小于最低电压幅值时，就能够仅使用户输入的音频信息能够被采集到；也就是说，此时采集到的音频信息中仅包括用户输入的音频信息，然后再针对新采集的音频信息启动下一次语音识别过程。

由于嘈杂环境中，周围环境中其他人和用户说话都容易被识别到，如图2a所示，为本发明实施例提供的音频信息未能被识别时的电压幅值的示意图，此时用户发出的用户音频信息和其他人发出的环境嘈杂音频信息的电压幅值均大于语音识别设备能够识别的最低电压幅值(即识别门限值)，所以需要提示用户提高说话的声音，而后，主控制模块103可以控制语音识别模块101采用降低后的电压幅值采集音频信息。

由于采集音频信息时的电压幅值降低后，采集到的所有音频信息(包括用户音频信息和周围环境嘈杂音频信息)的电压幅值都会降低，但并不会改变语音识别的门限值(即语音识别的最低电压幅值)大小。由于已经提示用户提高输入用户音频信息的音量，因此用户输入用户音频信息的电压幅值会大于其他人输入环境嘈杂音频信息的电压幅值，当用户音频信息在识别门限值之上，而其他人输入的环境嘈杂音频信息在识别门限值之下时，即达到如图2b所示的情况时，即可准确识别用户发出的用户音频信息，图2b为本发明实施例提供的音频信息能够被识别时的电压幅值的示意图。

其中，上述语音识别模块101环境判断模块102和主控制模块103，只是为了清楚说明语音识别设备的结构所起的名称，并不用于限定本发明，实际上这些结构均为集成在语音识别设备内部的结构，可以设置为分开的单独结构，也可以设置为集成在一起的一体结构。

为了清楚的说明本发明实施例中提供的语音识别设备的硬件结构，现以一种比较常见的语音识别设备的结构为例进行说明，但本领域技术人员应该知道，在本发明公开的上述语音识别设备的基础上，很容易进行简单的变形，得到其它可行的硬件结构，本发明仅以一种为例进行说明，并不用于限定本发明。

例如，语音识别设备可以由以下硬件结构组成：麦克风阵列、数字电位器和主控制器。麦克风阵列采集到音频信号后，经过数字电位器进行分压，然后传递到主控制器。主控制器会根据语音识别模块识别出的语义内容和输入音频信号的功率对音频信息进行判断，当判断音频信息包括环境嘈杂音频信息与用户音频信息时，主控制器可以向数字电位器发送信号，调整分压电阻的阻值来调节音频信号输入电压，降低采集音频信息的电压幅值，并提示用户提高输入的用户音频信息的音量，当其他人输入的环境嘈杂音频信息降低到识别门限值之下，而用户说话的声音提高到识别门限值之上时，即可准确识别用户说的话。

在具体实施时，上述环境判断模块102在判断音频信息是否包括环境嘈杂音频信息与用户音频信息之后，会有两种结果，如果是同时包括环境嘈杂音频信息与用户音频信息，则按照上述介绍执行采集音频信息的步骤，如果判断出来不包括环境嘈杂音频信息，则直接提示用户重新输入音频信息，并采集该音频信息，启动下一次语音识别过程。

较佳的，主控制模块103还用于：在环境判断模块102判断音频信息是否包括环境嘈杂音频信息与用户音频信息之后，在语音识别模块采集音频信息，启动下一次语音识别过程之前，当音频信息不包括环境嘈杂音频信息时，提示用户重新输入音频信息。

在具体实施时，如果根据语义内容和音频信息的输入功率判断音频信息不包括环境嘈杂音频信息时，则可能由于其他原因(比如用户说话语速过快，或者说话不清楚)导致语音识别失败，此时则需要提示用户再重新输入音频信息。

在上述环境判断模块102判断语音识别模块采集音频信息时音频信息的输入音量是否达到最大可接收音量之后，也相应的会有两种结果，如果是没有达到最大可接收音量，则按照上述介绍执行采集音频信息的步骤。

较佳的，主控制模块还用于：在判断语音识别模块采集音频信息时音频信息的输入音量是否达到最大可接收音量之后，在语音识别模块采集音频信息，启动下一次语音识别过程之前，当音频信息的输入音量达到最大可接收音量时，提示用户降低周围环境中的环境嘈杂音频信息，重新输入音频信息。

具体的，如果环境判断模块判断出音频信息包括环境嘈杂音频信息与用户音频信息，而且主控制模块判断出来识别的音频信息已经达到最大可接收音量，则表示当前环境过于嘈杂，导致语音识别失败，需要提示用户降低周围环境中的环境嘈杂音频信息(即降低其他人说话的声音)并重新输入音频信息，然后再从新采集该音频信息启动下一次语音识别过程。

基于相同的发明构思，本发明实施例还提供了一种语音识别的方法。由于该方法解决技术问题的原理与本发明实施例提供的语音识别设备相似，其实施可参照语音识别设备的实施，重复之处不再赘述。

如图3所示，为本发明实施例提供的语音识别的方法的流程图。具体包括如下步骤：

步骤301，采集音频信息并进行语音识别；

步骤302，当语音识别过程中识别出的语义内容无法与语义库中的内容匹配时，判断音频信息是否包括环境嘈杂音频信息与用户音频信息；

步骤303，当音频信息包括环境嘈杂音频信息与用户音频信息，根据采集音频信息时音频信息的输入音量、以及采集音频信息的电压幅值，确定下一次采集音频信息的条件，并采集音频信息，启动下一次语音识别过程。

较佳的，根据采集音频信息时音频信息的输入音量、以及采集音频信息的电压幅值，确定下一次采集音频信息的条件，包括：

当音频信息包括环境嘈杂音频信息与用户音频信息时，判断语音识别模块采集音频信息时音频信息的输入音量是否达到最大可接收音量；当音频信息的输入音量未达到最大可接收音量时，提示用户提高输入用户音频信息的音量，重新输入音频信息；以及，降低采集音频信息的电压幅值，并采用降低后的电压幅值采集音频信息，启动下一次语音识别过程。

较佳的，在判断语音识别模块采集音频信息时音频信息的输入音量是否达到最大可接收音量之后，在采集音频信息，启动下一次语音识别过程之前，还包括：

当音频信息包括环境嘈杂音频信息与用户音频信息时，提示用户降低周围环境中的环境嘈杂音频信息，重新输入音频信息。

较佳的，在判断音频信息是否包括环境嘈杂音频信息与用户音频信息之后，在采集音频信息，启动下一次语音识别过程之前，还包括：

当音频信息不包括环境嘈杂音频信息时，提示用户重新输入音频信息。

较佳的，判断音频信息是否包括环境嘈杂音频信息与用户音频信息，包括：

判断语音识别过程中识别出的语义内容与语义库中的内容进行匹配；以及，判断音频信息的输入功率是否大于预设功率；

当语义内容与语义库中的内容匹配失败时；以及，当音频信息的输入功率大于预设功率时；确定音频信息包括环境嘈杂音频信息与用户音频信息；

否则，确定音频信息不包括环境嘈杂音频信息。

为了清楚的说明本发明实施例提供的语音识别的方法，如图4所示，给出了本发明实施例提供的语音识别方法的整体流程图，具体包括如下步骤：

步骤401，采集音频信息并进行语音识别；执行步骤402；

步骤402，判断识别出的语义内容是否能够与语义库中的内容匹配；若是，则对语义内容进行响应并结束流程，否则，执行步骤403。

步骤403，判断音频信息是否包括环境嘈杂音频信息与用户音频信息；若是，执行步骤404，否则，执行步骤406；

步骤404，判断语音识别模块采集音频信息时音频信息的输入音量是否达到最大可接收音量；若是，执行步骤405，否则，执行步骤407；

步骤405，提示用户提高输入用户音频信息的音量，重新输入音频信息；降低采集音频信息的电压幅值，并采用降低后的电压幅值采集音频信息；返回继续执行步骤401；

步骤406，提示用户重新输入音频信息；并返回继续执行步骤401；

步骤407，提示用户降低周围环境中的环境嘈杂音频信息并重新输入音频信息；并返回继续执行步骤401。

综上所述，本发明实施例提供的语音识别设备，在语音识别模块识别出的语义内容无法与语义库中的内容匹配时，通过环境判断模块来判断音频信息是否包括环境嘈杂音频信息与用户音频信息，在音频信息包括环境嘈杂音频信息与用户音频信息时，可以通过主控制模块根据所述语音识别模块采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值，确定下一次采集音频信息的条件，进而可以优化下一次采集到的音频信息，并在语音识别模块采集音频信息，启动下一次语音识别过程时，提高语音识别的效果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音识别设备，其特征在于，所述设备包括：语音识别模块、环境判断模块和主控制模块；

所述语音识别模块，用于采集音频信息并进行语音识别；

2.如权利要求1所述的设备，其特征在于，所述主控制模块具体用于：

3.如权利要求2所述的设备，其特征在于，所述主控制模块还用于：

在判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量之后，在所述语音识别模块采集音频信息，启动下一次语音识别过程之前，当所述音频信息的输入音量达到最大可接收音量时，提示用户降低周围环境中的环境嘈杂音频信息，重新输入音频信息。

4.如权利要求1所述的设备，其特征在于，所述主控制模块还用于：

5.如权利要求1-4任一项所述的设备，其特征在于，所述环境判断模块具体用于：

否则，确定所述音频信息不包括环境嘈杂音频信息。

6.一种语音识别的方法，其特征在于，所述方法包括：

采集音频信息并进行语音识别；

7.如权利要求6所述的方法，其特征在于，所述根据采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值，确定下一次采集音频信息的条件，包括：

8.如权利要求7所述的方法，其特征在于，在判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量之后，在采集音频信息，启动下一次语音识别过程之前，还包括：

9.如权利要求6所述的方法，其特征在于，在判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息之后，在采集音频信息，启动下一次语音识别过程之前，还包括：

10.如权利要求6-9任一项所述的方法，其特征在于，判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息，包括：

否则，确定所述音频信息不包括环境嘈杂音频信息。