CN108711430A

CN108711430A - 语音识别方法、智能设备及存储介质

Info

Publication number: CN108711430A
Application number: CN201810409049.0A
Authority: CN
Inventors: 何瑞澄
Original assignee: Midea Group Co Ltd; Guangdong Midea Refrigeration Equipment Co Ltd
Current assignee: Midea Group Co Ltd; GD Midea Air Conditioning Equipment Co Ltd
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2018-10-26
Anticipated expiration: 2038-04-28
Also published as: CN108711430B

Abstract

本发明公开了一种语音识别方法，包括：步骤S1、获取用户输入的语音信号，提取所述语音信号中的唤醒词信息；步骤S2、调整语音识别系统中所述用户的识别阈值；步骤S3、基于调整后的识别阈值确定输入的语音信号对应的语音识别结果。本发明还公开一种智能设备和存储介质。本发明解决了现有固定的识别阈值虽然简单可控，但容易造成识别错误，导致识别准确率低、可靠性差的问题，提高了语音识别系统的准确率和可靠性。

Description

语音识别方法、智能设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、智能设备及存储介质。

背景技术

语音识别技术，就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术，也就是让机器听懂人类的语音。也被称为自动语音识别(Automatic SpeechRecognition，ASR)，其目标是将人类语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或字符序列。语音识别技术近年来已经进入家电、通信、电子产品、家庭服务等领域，以提供家电或电子产品的近场或远场控制。

但本发明发明人发现上述技术至少存在如下技术问题：

在进行语音识别时，语音识别阈值为固定设置的，无法进行调节；固定的识别阈值虽然简单可控，但容易造成识别错误，导致识别准确率低、可靠性差。

发明内容

本发明实施例通过提供一种语音识别方法，解决了固定的识别阈值虽然简单可控，但容易造成识别错误，导致识别准确率低、可靠性差的问题。

本发明实施例提供的语音识别方法，包括以下步骤：

步骤S1、获取用户输入的语音信号，提取所述语音信号中的唤醒词信息；

步骤S2、调整语音识别系统中所述用户的识别阈值；

步骤S3、基于调整后的识别阈值确定输入的语音信号对应的语音识别结果。

可选地，所述步骤S2包括：

步骤S21、检测所述用户的状态信息；

步骤S22、当检测到用户保持第一预设状态且/或作出预设动作时，调低语音识别系统的识别阈值；

步骤S23、当检测到用户保持第二预设状态、未作出预设动作或处于语音识别系统的识别范围之外时，调高语音识别系统的识别阈值。

可选地，所述方法，还包括：

步骤S4、在检测到用户作出预设动作时，获取所述预设动作对应的辅助识别结果。

可选地，在步骤S4之后，还包括：

步骤S5、判断所述语音识别结果与所述辅助识别结果是否一致；

步骤S6、若是，则对所述语音识别结果和所述辅助识别结果进行加权计算，得到最终的识别结果；

步骤S7、若否，则根据预设权重算法将所述语音识别结果或所述辅助识别结果作为最终的识别结果。

可选地，所述步骤S7步骤，包括：

步骤S71、当所述语音识别结果与所述辅助识别结果不一致时，获取所述语音识别结果和所述辅助识别结果的识别匹配度；

步骤S72、根据预设的正相关关系自动配置与所述识别匹配度对应的权重值；

步骤S73、将所述语音识别结果和所述辅助识别结果之中权重值较高者作为最终的识别结果。

可选地，所述步骤S21包括：

步骤S211、获取用于指示用户当前状态信息的图像帧；

步骤S212、提取每帧图像中的面部特征信息、嘴唇特征信息、喉部特征信息、手势特征信息或用户与装载有语音识别系统的智能设备之间的距离信息，并根据提取的特征信息或距离信息判断用户的当前状态信息。

可选地，所述步骤S22步骤，包括：

步骤S221、在根据提取的面部特征信息判定用户的面部朝向与装载有语音识别系统的智能设备之间的夹角在预设角度范围内时，调低语音识别系统的识别阈值；或，

步骤S222、在根据提取的嘴唇特征信息或喉部特征信息判定用户作出发声动作时，调低语音识别系统的识别阈值；或，

步骤S223、在根据提取的手势特征信息判定用户作出手语动作时，调低语音识别系统的识别阈值；或，

步骤S224、在根据提取的特征信息判定用户的面部朝向与装载有语音识别系统的智能设备之间的夹角在预设角度范围内，且作出发声动作或手语动作时，调低语音识别系统的识别阈值。

可选地，所述步骤S23包括：

步骤S231、在根据提取的面部特征信息判定用户的面部朝向与装载有语音识别系统的智能设备之间的夹角在预设角度之外时，调高语音识别系统的识别阈值；或，

步骤S232、在根据提取的嘴唇特征信息、喉部特征信息判定用户未作出发生动作时，调高语音识别系统的识别阈值；或，

步骤S233、在根据提取的手势特征信息判定未作出手语动作时，调高语音识别系统的识别阈值；或，

步骤S234、在根据提取的用户与装载有语音识别系统的智能设备之间的距离信息判定用户处于语音识别系统的识别范围之外时，调高语音识别系统的识别阈值。

可选地，所述步骤S3包括：

步骤S31、在对输入的语音信号进行预处理后，基于预设特征提取模型提取所述语音信号的特征参数；

步骤S32、将提取的语音信号的特征参数与预存的声学模型进行匹配；

步骤S33、对达到调低或调高后的识别阈值的特征参数进行语言模型、语法结构、语义分析中的至少一个处理后，输出与所述语音信号对应的语音识别结果。

可选地，所述步骤S4包括：

步骤S41、在根据提取的嘴唇特征信息或喉部特征信息判定用户作出发声动作时，根据预存的发声动作与用户意思表示之间的映射关系获取与所述发声动作匹配的辅助识别结果；或，

步骤S42、在根据提取的手势特征信息判定用户作出手语动作时，根据预存的手语动作与用户意思表示的映射关系获取与所述手语动作匹配的辅助识别结果。

可选地，在步骤S73之后，还包括：

步骤S74、根据最终的识别结果控制装载有语音识别系统的智能设备执行相应的控制动作或交互动作。

可选地，所述步骤S2包括：

步骤S24、当检测到用户声纹信息与预设声纹信息匹配时，调低语音识别系统的识别阈值；

步骤S25、当检测到用户声纹信息与预设声纹信息不匹配时，调高语音识别系统的识别阈值。

本发明进一步提出一种智能设备，该智能设备装载有语音识别系统，所述智能设备还包括存储器、处理器及存储在所述存储器并可在所述处理器上运行的语音识别程序，所述语音识别程序被所述处理器执行时实现如上所述的语音识别方法的步骤。

本发明还提出一种存储介质，该存储介质存储有语音识别程序，所述语音识别程序被处理器执行时实现如上所述的语音识别方法的步骤。

本发明通过在获取到用户输入的语音信号后，对存储的该用户的语音识别阈值做出调节，而不再是采用固定的语音识别阈值，会在每次进行识别唤醒时，调节识别阈值。解决了现有固定的识别阈值虽然简单可控，但容易造成识别错误，导致识别准确率低、可靠性差的问题，提高了语音识别系统的准确率和可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明的智能设备涉及的硬件运行环境的结构示意图；

图2为本发明的语音识别方法第一实施例的流程示意图；

图3为本发明一实施例中调整识别阈值的流程示意图；

图4为本发明的语音识别方法第二实施例的流程示意图；

图5为本发明一实施例中步骤S70a细化的流程示意图；

图6为本发明一实施例中步骤S20a细化的流程示意图；

图7为本发明一实施例中步骤S30的细化流程示意图。

附图标号说明：

标号	名称	标号	名称
				100	智能设备	101	射频单元
102	WiFi模块	103	音频输出单元
				104	A/V输入单元	1041	图形处理器
1042	麦克风	105	传感器
				106	显示单元	1061	显示界面
107	用户输入单元	1071	操控界面
				1072	其他输入设备	108	接口单元
109	存储器	110	处理器
				111	电源

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

智能设备可以以各种形式来实施。例如，本发明中描述的智能设备可以由诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器、智能音箱等具有显示界面的移动终端实现，也可以由诸如数字TV、台式计算机、空调器、电冰箱、热水器、吸尘器等具有显示界面的固定终端实现。

后续描述中将以智能设备为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的智能设备。

请参阅图1，其为实现本发明各个实施例的一种智能设备的硬件结构示意图，该智能设备100可以包括：RF(Radio Frequency，射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示区域106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图1中示出的智能设备结构并不构成对智能设备的限定，智能设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对智能设备的各个部件进行具体的介绍：

射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将基站的下行信息接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA2000(CodeDivision Multiple Access2000，码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access，宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access，时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution，频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution，分时双工长期演进)等。

WiFi属于短距离无线传输技术，智能设备通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102，但是可以理解的是，其并不属于智能设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。例如本实施例中，智能设备100可以基于WiFi模块102与App终端建立同步关联关系。

音频输出单元103可以在智能设备100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与智能设备100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。如本实施例中，在输出重新输入语音信号的提示时，该提示可以是语音提示、基于蜂鸣器的震动提示等。

A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示区域106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

智能设备100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示界面1061的亮度，接近传感器可在智能设备100移动到耳边时，关闭显示界面1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

显示区域106用于显示由用户输入的信息或提供给用户的信息。显示区域106可包括显示界面1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示界面1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与智能设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107可包括操控界面1071以及其他输入设备1072。操控界面1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在操控界面1071上或在操控界面1071附近的操作)，并根据预先设定的程式驱动相应的连接装置。操控界面1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，并能接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现操控界面1071。除了操控界面1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种，具体此处不做限定。

进一步的，操控界面1071可覆盖显示界面1061，当操控界面1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示界面1061上提供相应的视觉输出。虽然在图1中，操控界面1071与显示界面1061是作为两个独立的部件来实现智能设备的输入和输出功能，但是在某些实施例中，可以将操控界面1071与显示界面1061集成而实现智能设备的输入和输出功能，具体此处不做限定。

接口单元108用作至少一个外部装置与智能设备100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到智能设备100内的一个或多个元件或者可以用于在智能设备100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如语音识别系统等)等；存储数据区可存储根据智能设备的使用所创建的数据(比如声纹数据、唤醒词模型、用户信息等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是智能设备的控制中心，利用各种接口和线路连接整个智能设备的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行智能设备的各种功能和处理数据，从而对智能设备进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

智能设备100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图1未示出，智能设备100还可以包括可与其他终端建立通信连接的蓝牙模块等，在此不再赘述。

基于上述智能设备的硬件结构，本发明实施例的智能设备，装载有语音识别系统，通过在获取到用户输入的语音信号后，对存储的该用户的语音识别阈值做出调节，而不再是采用固定的语音识别阈值，会在每次进行识别唤醒时，调节识别阈值。解决了现有固定的识别阈值虽然简单可控，但容易造成识别错误，导致识别准确率低、可靠性差的问题，提高了语音识别系统的准确率和可靠性。

如图1所示，作为一种计算机存储介质的存储器109中可以包括操作系统及语音识别程序。

在图1所示的智能设备100中，WiFi模块102主要用于连接后台服务器或大数据云端，与后台服务器或大数据云端进行数据通信，并可实现与其他终端设备进行通信连接；处理器110可以用于调用存储器109中存储的语音识别程序，并执行以下操作：

步骤S2、调整语音识别系统中所述用户的识别阈值；

进一步地，处理器110可以用于调用存储器109中存储的语音识别程序，并执行以下操作：

步骤S21、检测所述用户的状态信息；

进一步地，在步骤S4之后，处理器110可以用于调用存储器109中存储的语音识别程序，并执行以下操作：

步骤S211、获取用于指示用户当前状态信息的图像帧；

进一步地，在步骤S73之后，处理器110可以用于调用存储器109中存储的语音识别程序，并执行以下操作：

本发明进一步提出一种语音识别方法，应用于语音识别系统。

参照图2，图2为本发明的语音识别方法第一实施例的流程示意图。

在该实施例中，所述语音识别方法包括以下步骤：

S10：获取用户输入的语音信号，提取所述语音信号中的唤醒词信息；

在本实施例中，当需要通过语音来发出指令，控制一些设备，例如，空调器、风扇或者除湿机等。通过声音捕捉器(麦克风等)采集用户输入的语音信号，再获取通过声音捕捉器采集的语音信号。所述语音信号中设置有唤醒词，提取所述语音信号中的唤醒词信息。提取唤醒词信息为分析语音信号，提取出与指令相关的词语，例如，提取出“开机”、“调整至26度”、“风档提高一档”等，当然也可以是一些预设的唤醒词，例如，“风扇”、“空调器”或“除湿机”等。

步骤S20、调整语音识别系统中所述用户的识别阈值；

在提取到唤醒词信息后，调整语音识别系统中所述用户的识别阈值。提前在语音识别系统中存储有不同用户的语音识别阈值，不同用户的识别阈值可相同或可不同。所述阈值也可以是根据环境不同，而对应有差异，例如，吵闹的环境识别阈值低，安静的环境，识别阈值高；而本实例中在识别时，可以对用户的识别阈值做出调整，不是固定的。在提取到用户的唤醒词信息后，获取该用户的识别阈值。对该识别阈值做出调整，以提高唤醒词识别的准确率和可靠性。

具体的，参考图3，调整识别阈值的方式包括：

步骤S20a、检测所述用户的状态信息；本实施例可以在装载有语音识别系统的智能设备上装设图像传感器，以根据获取的指示用户状态信息的图像帧对语音信号输入时的用户状态进行分析、判断。在其他实施例中，也可以借助其他设备反馈的监测数据获取用户状态信息，如根据超声波或次声波检测用户是否作出响应的转向动作、发声动作或手势动作等。所述第一预设状态和第二预设状态为不同的状态，例如，第一预设状态为面向语音识别设备的状态，第二预设状态为背向语音识别设备的状态；或者，第一预设状态为嘴部张开状态，所述第二预设状态为嘴部关闭状态；所述第一预设状态和第二预设状态还可以是其他用户提前设置的状态。

在检测到语音信号输入时的用户状态相对于语音识别系统被唤醒时的状态发生变化时，如用户作出转向动作、发声动作、转向动作、或手势动作，调整语音识别系统的识别阈值，以降低识别难度，提高识别准确率和可靠性。当然，在检测到语音信号输入时的用户状态未发生变化时，也可以相应调整语音识别系统的识别阈值，如提高识别难度，以提高语音识别系统的安全性，以及对环境噪音噪声的误识别。

步骤S20b、当检测到用户保持第一预设状态且/或作出预设动作时，调低语音识别系统的识别阈值；

步骤S20c、当检测到用户保持第二预设状态、未作出预设动作或处于语音识别系统的识别范围之外时，调高语音识别系统的识别阈值。

根据检测到的用户状态信息调整语音识别系统的识别阈值时，主要有两种调节方式，一种是调低所述识别阈值，另一种是调高所述识别阈值。当检测到用户保持第一预设状态且/或作出预设动作时，符合预置的语音识别系统的识别阈值的调低条件，可以按照一定幅度或系数调低语音识别系统的识别阈值。如当检测到语音信号输入时用户的面部朝向与装载有语音识别系统的智能设备之间的夹角在预设范围内时，可以认定该语音信号是当前用户发生，此时为了提高语音识别系统的识别准确率和可靠性，可以调低语音识别系统的识别阈值，保证响应速度和识别效率。

当检测到用户保持第二预设状态、未作出发声动作、手语动作或用户处于语音识别系统的识别范围之外时，符合预置的语音识别系统的识别阈值的调高条件，可以按照一定幅度或系数调高语音识别系统的识别阈值。如当检测到语音信号输入时用户与装载有语音识别系统的智能设备之间的距离已经超出了语音识别系统的识别范围，此时可以断定接收到的语音信号不可能是用户发出，为了提高语音识别系统的安全性、以及环境噪音噪声的误识别，可以调高语音识别系统的识别阈值，提高识别难度。

而在本发明其他实施例中，调整识别阈值的方式也可以包括：

当检测到用户声纹信息与预设声纹信息匹配时，调低语音识别系统的识别阈值；当检测到用户声纹信息与预设声纹信息不匹配时，调高语音识别系统的识别阈值。调整语音识别系统的识别阈值与用户身份相关联，在确认了用户身份后，例如，用户声纹信息与声纹信息匹配时，说明用户身份是确认的，调低识别阈值，而在不匹配时，无法确认用户身份时，调高识别阈值。

S30：基于调整后的识别阈值确定输入的语音信号对应的语音识别结果。

在语音识别系统的识别阈值被调整时，语音识别系统要求的用户语音内容与训练模型的匹配度升高或降低，在输入的语音信号的特征参数与预存的声学模型的匹配度达到调整后的识别阈值时，基于该声学模型确定用户的意思表示，也即确定输入的语音信号对应的语音识别结果。

本实施例的语音识别方法，通过在获取到用户输入的语音信号后，对存储的该用户的语音识别阈值做出调节，而不再是采用固定的语音识别阈值，会在每次进行识别唤醒时，调节识别阈值。解决了现有固定的识别阈值虽然简单可控，但容易造成识别错误，导致识别准确率低、可靠性差的问题，提高了语音识别系统的准确率和可靠性。

进一步地，参照图6，基于上述实施例的语音识别方法，步骤S20a，包括：

S110：获取用于指示用户当前状态信息的图像帧；

在本实施例中，在装载有语音识别系统的智能设备上装设音频传感器或麦克风阵列，当所述音频传感器或麦克风阵列拾取到语音信号时，利用装设于所述智能设备的图像采集装置，如图像传感器、摄像头等，获取用于指示用户当前状态信息的图像帧。

S120：提取每帧图像中的面部特征信息、嘴唇特征信息、喉部特征信息、手势特征信息或用户与装载有语音识别系统的智能设备之间的距离信息，并根据提取的特征信息或距离信息判断用户的当前状态信息。

由于每一帧图像可能采集的用户部位不同，也有可能时某一部位在不同时段中的连续变化信息，在采集不同部位的图像时可以借助多个图像传感器合成的全景视图，也可以是多个图像传感器分别采集的对应部位的视频图像。因此，可以提取每帧图像中的面部特征信息判断用户是否作出了转向动作以及用户在语音信号输入时的面部朝向。同样地，可以提取每帧图像中的嘴唇特征信息和喉部特征信息信息判断用户是否作出了发声动作，可以提取每帧图像中的手势特征信息判断用户是否做出了手语动作。进一步地，还可以基于每帧图像中的用户与装载有语音识别系统的智能设备之间的距离信息判断用户是否处于语音识别系统的识别范围之外。

进一步地，参照图4，图4为本发明的语音识别方法第二实施例的流程示意图。

在本实施例中，在检测到用户作出预设动作时，该语音识别方法，还包括：

S40a：获取所述预设动作对应的辅助识别结果。

在本实施例中，在检测到用户作出发声动作或手语动作时，可以根据用户作出的发声动作或手语动作获取相应的辅助识别结果。如当用户作出发声动作时，可以基于唇形模式识别算法确定用户的说话内容，为了提高识别的准确性，还可以利用嘴部运动数据对基于唇形模式识别算法确定的说话内容进行修正。当然，基于所述发声动作可以通过唇形、嘴部检测，也可以通过喉部振动进行检测，因此，也可以利用喉部振动数据识别用户的说话内容，然后将识别的说话内容作出辅助识别结果输出。

当用户作出手语动作时，可以基于手语识别算法对用户作出的手势动作进行识别，得到对应的手语识别结果。

进一步地，参照图4，在得到所述语音识别结果和所述辅助识别结果之后，还包括：

S50a：判断所述语音识别结果与所述辅助识别结果是否一致；

在基于语音识别得到用户输入的语音信号的语音识别结果，以及基于用户作出的预设动作得到相应的辅助识别结果之后，为了提高语音识别系统执行控制命令的准确性和可靠性，将所述语音识别结果与所述辅助识别结果进行比对分析，判断二者是否一致或者是否存在冲突，以确定最终的识别结果。

若是，则执行步骤S60a；

S60a：对所述语音识别结果和所述辅助识别结果进行加权计算，得到最终的识别结果；

当所述语音识别结果与所述辅助识别结果一致时，也即二者的匹配度达到最大预设阈值时，为了进一步提高识别的准确性和可靠性，可以对所述语音识别结果和所述辅助识别结果进行加权计算，得到最终的识别结果。如当语音识别结果为“空调开17”，而辅助识别结果为“开至17℃”，则将二者进行加权计算后就可以得到“空调开至17℃”的最终结果。

若否，则执行步骤S70a；

S70a：根据预设权重算法将所述语音识别结果或所述辅助识别结果作为最终的识别结果。

当所述语音识别结果与所述辅助识别结果冲突时，也即二者的匹配度低于最小预设阈值时，为了提高识别准确性和可靠性，需要对所述语音识别结果和所述辅助识别结果的权重值进行计算，然后根据权重值的大小将权重值比较大的语音识别结果或辅助识别结果作为最终的识别结果。通过辅助识别结果来修正识别到的结果，以实现更加准确的语音识别，更准确的控制设备。

进一步地，参照图5，基于上述实施例的语音识别方法，步骤S70a，包括：

S71a：当所述语音识别结果与所述辅助识别结果不一致时，获取所述语音识别结果和所述辅助识别结果的识别匹配度；

在本实施例中，当所述语音识别结果与所述辅助识别结果冲突时，为了提高识别准确性和可靠性，需要进一步获取所述语音识别结果和所述辅助识别结果的识别匹配度，也即语音信号中的特征参数与声学模型的匹配度、以及用户的发声动作或手语动作与预置的指示用户意思表示的文本内容的匹配度。

S72a：根据预设的正相关关系自动配置与所述识别匹配度对应的权重值；

在获取到所述语音识别结果的识别匹配度和所述辅助识别结果的识别匹配度之后，为了便于比较，根据预设的正相关关系为语音识别结果的识别匹配度和辅助识别结果的识别匹配度自动配置相应的权重值。如当所述语音识别结果的识别匹配度为70％，所述辅助识别结果的识别匹配度为40％时，则在配置权重值时，语音识别结果的权重值将大于辅助识别结果的权重值。

S73a：将所述语音识别结果和所述辅助识别结果之中权重值较高者作为最终的识别结果。

在计算出所述语音识别结果和所述辅助识别结果的权重值之后，可以按照权重值较高的所述语音识别结果或所述辅助识别结果作为最终的识别结果。

进一步地，基于上述实施例的语音识别方法，步骤S20b，包括：

在根据提取的面部特征信息判定用户的面部朝向与装载有语音识别系统的智能设备之间的夹角在预设角度范围内时，调低语音识别系统的识别阈值；或，

在根据提取的嘴唇特征信息或喉部特征信息判定用户作出发声动作时，调低语音识别系统的识别阈值；或，

在根据提取的手势特征信息判定用户作出手语动作时，调低语音识别系统的识别阈值；或，

在根据提取的特征信息判定用户的面部朝向与装载有语音识别系统的智能设备之间的夹角在预设角度范围内，且作出发声动作或手语动作时，调低语音识别系统的识别阈值。

在本实施例中，为了提高语音识别系统的识别准确率和可靠性，在判定用户保持第一预设状态，也即在语音信号输入时用户的面部朝向与智能设备之间的水平方向夹角或竖直方向夹角在预设角度范围内时，调低语音识别系统的识别阈值，降低识别难度。同样地，在判定用户在语音信号输入时作出发声动作或手语动作时，调低语音识别系统的识别阈值，降低识别难度，以提高识别准确率和可靠性。进一步地，在判定用户在语音信号输入时的面部朝向与智能设备之间的夹角在预设角度范围内，且作出发生动作或手语动作时，可以按两倍于单一条件时的幅度或系统调低语音识别系统的识别阈值。

进一步地，基于上述实施例的语音识别方法，步骤S20c，包括：

在根据提取的面部特征信息判定用户的面部朝向与装载有语音识别系统的智能设备之间的夹角在预设角度之外时，调高语音识别系统的识别阈值；或，

在根据提取的嘴唇特征信息、喉部特征信息判定用户未作出发生动作时，调高语音识别系统的识别阈值；或，

在根据提取的手势特征信息判定未作出手语动作时，调高语音识别系统的识别阈值；或，

在根据提取的用户与装载有语音识别系统的智能设备之间的距离信息判定用户处于语音识别系统的识别范围之外时，调高语音识别系统的识别阈值。

在本实施例中，为了提高语音识别系统的安全性，防止非法用户侵入，在判定用户保持第二预设状态，也即在语音信号输入时用户的面部朝向与智能设备之间的水平方向夹角或竖直方向夹角在预设角度范围之外时，调高语音识别系统的识别阈值，提高识别难度，防止非法用户侵入。同样地，在判定用户在语音信号输入时未作出发声动作或手语动作时，调高语音识别系统的识别阈值，提高识别难度，以提高识别安全性。进一步地，在判定用户在语音信号输入时与智能设备之间的距离在语音识别系统的识别范围之外时，调高语音识别系统的识别阈值，以避免对环境噪音造成误识别。

进一步地，参照图7，基于上述实施例的语音识别方法，步骤S30，包括：

S31：在对输入的语音信号进行预处理后，基于预设特征提取模型提取所述语音信号的特征参数；

在本实施例中，在确定与用户输入的语音信号对应的语音识别结果时，主要基于预先训练的声学模型对用户输入的语音信号进行识别。如在对用户输入的语音信号进行端点检测、除躁等预处理后，基于预设特征提取模型提取所述语音信号的特征参数，如节奏感、音调、音节、音素等。

S32：将提取的语音信号的特征参数与预存的声学模型进行匹配；

在提取语音信号的节奏感、音调、音节、音素等特征参数之后，基于预存的声学模型对所述特征参数进行匹配，如将语音信号中的关键词的个状态音素与声学模型各状态音素进行匹配。

S33：对达到调低或调高后的识别阈值的特征参数进行语言模型、语法结构、语义分析中的至少一个处理后，输出与所述语音信号对应的语音识别结果。

当语音信号的特征参数与预存的声学模型的匹配度达到调低或调高后的识别阈值时，对所述语音信号的特征参数进行语音模型、语法结构、语义分析中的至少一个处理，最后输出与所述语音信号对应的语音识别结果。

进一步地，基于上述实施例的语音识别方法，步骤S40a，包括：

在根据提取的嘴唇特征信息或喉部特征信息判定用户作出发声动作时，根据预存的发声动作与用户意思表示之间的映射关系获取与所述发声动作匹配的辅助识别结果；或，

在根据提取的手势特征信息判定用户作出手语动作时，根据预存的手语动作与用户意思表示的映射关系获取与所述手语动作匹配的辅助识别结果。

在本实施例中，在利用用户的发声动作或手语动作得到相应的辅助识别结果时，需要先训练用户基于嘴唇或喉部的发声动作与用户意思表示模型或样本，如预先训练用户发出“空调器17℃制冷”时的发声动作，构建发声动作与指示用户意思表示的识别结果之间的映射关系。或者预先训练用户作出“空调17℃制冷”时的手语动作，构建手语动作与指示用户意思表示的识别结果之间的映射关系，当基于提取的嘴唇特征信息或喉部特征信息判定用户发声，或基于提取的手势特征信息判定用户作出手语动作时，得到与所述发声动作或手语动作匹配的辅助识别结果，以提高识别准确性和可靠性。

进一步地，参照图4，基于上述实施例的语音识别方法，在确定最终的识别结果之后，还包括：

S80：根据最终的识别结果控制装载有语音识别系统的智能设备执行相应的控制动作或交互动作。

在本实施例中，语音识别技术的基础目的就是将语音信号识别和理解为相应文本或命令的技术，在具体应用时就是为了解放用户的双手，方便根据识别的用户的语音信号输出的识别结果，也即根据最终的识别结果控制相应的语音信号指向的对象对输入的语音信号作出响应。如控制装载有语音识别系统的空调器执行打开空调或调解运行温度的控制动作，或者控制装载有语音识别系统的智能音箱基于云端执行聊天的交互动作。

此外，本发明实施例还提出一种存储介质，该存储介质存储有语音识别程序，所述语音识别程序被处理器执行时实现如上所述的语音识别方法的步骤。

其中，语音识别程序被执行时所实现的方法可参照本发明语音识别方法的各个实施例，此处不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音识别方法，其特征在于，所述语音识别方法包括以下步骤：

步骤S2、调整语音识别系统中所述用户的识别阈值；

2.根据权利要求1所述的语音识别方法，其特征在于，所述步骤S2包括：

步骤S21、检测所述用户的状态信息；

3.根据权利要求2所述的语音识别方法，其特征在于，所述方法，还包括：

4.根据权利要求3所述的语音识别方法，其特征在于，在步骤S4之后，还包括：

5.根据权利要求4所述的语音识别方法，其特征在于，所述步骤S7步骤，包括：

6.根据权利要求2所述的语音识别方法，其特征在于，所述步骤S21包括：

步骤S211、获取用于指示用户当前状态信息的图像帧；

7.根据权利要求6所述的语音识别方法，其特征在于，所述步骤S22步骤，包括：

8.根据权利要求6所述的语音识别方法，其特征在于，所述步骤S23包括：

9.根据权利要求7或8所述的语音识别方法，其特征在于，所述步骤S3包括：

10.根据权利要求7所述的语音识别方法，其特征在于，所述步骤S4包括：

11.根据权利要求5所述的语音识别方法，其特征在于，在步骤S73之后，还包括：

12.根据权利要求1所述的语音识别方法，其特征在于，所述步骤S2包括：

13.一种智能设备，其特征在于，所述智能设备装载有语音识别系统，所述智能设备还包括存储器、处理器及存储在所述存储器并可在所述处理器上运行的语音识别程序，所述语音识别程序被所述处理器执行时实现如权利要求1至12任一项所述的语音识别方法的步骤。

14.一种存储介质，其特征在于，所述存储介质存储有语音识别程序，所述语音识别程序被处理器执行时实现如权利要求1至12任一项所述的语音识别方法的步骤。