CN111738100A

CN111738100A - 一种基于口型的语音识别方法及终端设备

Info

Publication number: CN111738100A
Application number: CN202010484981.7A
Authority: CN
Inventors: 周林
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-10-02

Abstract

本发明实施例公开了一种基于口型的语音识别方法及终端设备，以及计算机可读存储介质，用于通过摄像头识别用户的口型变化特征，根据唇语识别模型，得到用户的发音信息，可以通过口型得到的发音信息在一定程度上能弥补那些因为音频缺失或者噪音干扰而丢失的音频信息，从而更准确的获取用户的目标音频信息。本发明实施例方法包括：通过摄像头获取用户的多个连续的图像，以及通过麦克风获取所述用户的音频信息；根据所述多个连续的图像，识别出所述用户的口型变化特征；将所述用户的口型变化特征，输入至预置的所述用户的唇语识别模型中，识别得到所述用户的发音信息；根据所述发音信息和所述音频信息，确定目标音频信息。

Description

一种基于口型的语音识别方法及终端设备

技术领域

本发明涉及教育领域，尤其涉及一种基于口型的语音识别方法及终端设备，以及计算机可读存储介质。

背景技术

在现有技术中，语音识别主要是对声音信息进行识别，而通过语音识别，往往会因为音频丢失，或者噪音干扰等问题，导致获取的音频信息不完整。

发明内容

本发明实施例提供了一种基于口型的语音识别方法及终端设备，以及计算机可读存储介质，用于通过摄像头识别用户的口型变化特征，根据唇语识别模型，得到用户的发音信息，可以通过口型得到的发音信息在一定程度上能弥补那些因为音频缺失或者噪音干扰而丢失的音频信息，从而更准确的获取用户的目标音频信息。

有鉴于此，本发明第一方面提供一种基于口型的语音识别方法，可以包括：

通过摄像头获取用户的多个连续的图像，以及通过麦克风获取所述用户的音频信息；

根据所述多个连续的图像，识别出所述用户的口型变化特征；

将所述用户的口型变化特征，输入至预置的所述用户的唇语识别模型中，识别得到所述用户的发音信息；

根据所述发音信息和所述音频信息，确定目标音频信息。

可选的，在本发明的一些实施例中，所述方法还包括：

响应所述用户的操作，生成发送指令；

根据所述发送指令，将所述目标音频信息向其他电子设备发送。

可选的，在本发明的一些实施例中，所述方法还包括：

若所述目标音频信息为求助信息，则将所述目标音频信息向12110发送。可选的，在本发明的一些实施例中，所述方法还包括：

根据所述多个连续的图像，确定所述用户的头像图片；

所述若所述目标音频信息为求助信息，则将所述目标音频信息向12110发送，包括：

若所述目标音频信息为求助信息，则将所述目标音频信息和所述头像图片向12110发送。

可选的，在本发明的一些实施例中，所述根据所述多个连续的图像，识别出所述用户的口型变化特征，包括：

根据唇部特征提取算法和口型轮廓特征提取算法对所述多个连续的图像进行特征提取，识别出所述用户的口型变化特征，所述唇部特征提取算法包括基于模板的特征提取算法或基于图像像素的特征提取算法中的至少一种，所述口型轮廓特征提取算法包括变形模板算法或Snakes算法中的至少一种。

可选的，在本发明的一些实施例中，所述方法还包括：

将所述发音信息与所述音频信息，进行匹配；

若所述发音信息与所述音频信息的匹配率大于第一阈值，则确定所述用户的唇语模型的测评准确率为优秀；

若所述发音信息与所述音频信息的匹配率小于或等于所述第一阈值，则确定所述用户的唇语模型的测评准确率为一般。

可选的，在本发明的一些实施例中，所述方法还包括：

通过所述摄像头获取所述用户的多个连续的历史图像，以及通过所述麦克风获取所述用户的历史音频信息；

根据所述用户的多个连续的历史图像，识别出所述用户的历史口型变化特征；

根据所述历史音频信息和所述历史口型变化特征，进行模型训练，得到所述用户的唇语识别模型。

本发明第二方面提供一种终端设备，可以包括：

获取模块，用于通过摄像头获取用户的多个连续的图像，以及通过麦克风获取所述用户的音频信息；

处理模块，用于根据所述多个连续的图像，识别出所述用户的口型变化特征；将所述用户的口型变化特征，输入至预置的所述用户的唇语识别模型中，识别得到所述用户的发音信息；根据所述发音信息和所述音频信息，确定目标音频信息。

可选的，在本发明的一些实施例中，所述终端设备还包括收发模块，

所述处理模块，还用于响应所述用户的操作，生成发送指令；

所述收发模块，用于根据所述发送指令，将所述目标音频信息向其他电子设备发送。

所述收发模块，用于若所述目标音频信息为求助信息，则将所述目标音频信息向12110发送。

可选的，在本发明的一些实施例中，

所述处理模块，还用于根据所述多个连续的图像，确定所述用户的头像图片；

所述收发模块，具体用于若所述目标音频信息为求助信息，则将所述目标音频信息和所述头像图片向12110发送。

可选的，在本发明的一些实施例中，

所述处理模块，具体用于根据唇部特征提取算法和口型轮廓特征提取算法对所述多个连续的图像进行特征提取，识别出所述用户的口型变化特征，所述唇部特征提取算法包括基于模板的特征提取算法或基于图像像素的特征提取算法中的至少一种，所述口型轮廓特征提取算法包括变形模板算法或Snakes算法中的至少一种。

可选的，在本发明的一些实施例中，

所述处理模块，还用于将所述发音信息与所述音频信息，进行匹配；若所述发音信息与所述音频信息的匹配率大于第一阈值，则确定所述用户的唇语模型的测评准确率为优秀；若所述发音信息与所述音频信息的匹配率小于或等于所述第一阈值，则确定所述用户的唇语模型的测评准确率为一般。

可选的，在本发明的一些实施例中，

所述获取模块，还用于通过所述摄像头获取所述用户的多个连续的历史图像，以及通过所述麦克风获取所述用户的历史音频信息；

所述处理模块，还用于根据所述用户的多个连续的历史图像，识别出所述用户的历史口型变化特征；根据所述历史音频信息和所述历史口型变化特征，进行模型训练，得到所述用户的唇语识别模型。

本发明第三方面提供一种终端设备，可以包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

与所述处理器连接的收发器、显示器；

所述显示器、所述收发器、所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行如本发明第一方面及第一方面任一可选实现方式中所述的方法。

本发明实施例第四方面提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面及第一方面任一可选实现方式中所述的方法。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的任意一种所述的方法。

本发明实施例第九方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的任意一种所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

在本发明实施例中，通过摄像头获取用户的多个连续的图像，以及通过麦克风获取所述用户的音频信息；根据所述多个连续的图像，识别出所述用户的口型变化特征；将所述用户的口型变化特征，输入至预置的所述用户的唇语识别模型中，识别得到所述用户的发音信息；根据所述发音信息和所述音频信息，确定目标音频信息。即通过摄像头识别用户的口型变化特征，根据唇语识别模型，得到用户的发音信息，可以通过口型得到的发音信息在一定程度上能弥补那些因为音频缺失或者噪音干扰而丢失的音频信息，从而更准确的获取用户的目标音频信息。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，还可以根据这些附图获得其它的附图。

图1为本发明实施例中基于口型的语音识别方法的一个实施例示意图；

图2为本发明实施例中基于口型的语音识别方法的另一个实施例示意图；

图3为本发明实施例中基于口型的语音识别方法的另一个实施例示意图；

图4为本发明实施例中终端设备的一个实施例示意图；

图5为本发明实施例中终端设备的另一个实施例示意图；

图6为本发明实施例中终端设备的另一个实施例示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，都应当属于本发明保护的范围。

在本发明实施例中，示例性的，终端设备可以包括一般的手持电子终端，诸如智能电话、便携式终端、终端、个人数字助理(Personal Digital Assistant，PDA)、便携式多媒体播放器(Personal Media Player，PMP)装置、笔记本电脑、笔记本(Note Pad)、无线宽带(Wireless Broadband，Wibro)终端、平板电脑(personal computer，PC)和智能PC。本申请还可应用于非便携式电子装置，诸如提供相机功能的智能电视。

终端设备也可以包括可穿戴设备。可穿戴设备即可以直接穿戴在用户身上，或是整合到用户的衣服或配件的一种便携式电子设备。可穿戴设备不仅仅是一种硬件设备，更可以通过软件支持以及数据交互、云端交互来实现强大的智能功能，比如：计算功能、定位功能、报警功能，同时还可以连接手机及各类终端。可穿戴设备可以包括但不限于以手腕为支撑的watch类(比如手表、手腕等产品)，以脚为支撑的shoes类(比如鞋、袜子或者其他腿上佩戴产品)，以头部为支撑的Glass类(比如眼镜、头盔、头带等)以及智能服装，书包、拐杖、配饰等各类非主流产品形态。

如图1所示，为本发明实施例中基于口型的语音识别方法的一个实施例示意图，可以包括：

101、通过摄像头获取用户的多个连续的图像，以及通过麦克风获取所述用户的音频信息。

终端设备通过摄像头获取用户的多个连续的图像，以及通过麦克风获取所述用户的音频信息。可以理解的是，该摄像头或者该麦克风，可以是集成于终端设备上的。其中，该用户的多个连续的图像包括用户面部的图像。

可选的，通过摄像头获取关于用户的视频，通过所述用户的视频进行分离，得到音频流(即用户的音频信息)和视频流。使用人脸识别算法跟踪所述视频流中的人脸，并提取所述人脸中的嘴部区域，获取帧唇部动作视频；对所述帧唇部动作视频进行处理，获取唇部图像序列；采用序列切分规则对所述唇部图像序列进行切分，获取切分图像序列；将所述唇部图像序列对应的各切分图像序列依次输入到唇部图像识别模型中进行识别，获取用户的口型变化特征。

可选的，将所述唇部图像序列对应的各切分图像序列依次输入到唇部图像识别模型中进行识别，获取用户的口型变化特征，可以包括：通过所述唇部图像识别模型对所述唇部图像序列对应的各切分图像序列进行识别，获取切分图像特征；采用分类函数对所述切分图像特征进行分类，获取切分图像识别结果；按照时间顺序对所述切分图像识别结果进行拼接，获取用户的口型变化特征。

可选的，以终端设备为电视机为例进行说明，在实际应用中电视机接收用户输入的操作指令，具体可以是用户通过遥控器或直接触碰按键又或是点击电视机上设置的触摸显示区域输入操作指令，该操作指令分为非正视状态操作指令和正视状态操作指令，当侦测到用户不再处于所述正视状态时，响应用户输入的非正视状态操作指令；当侦测到用户再次进入所述正视状态时，响应用户输入的正视状态操作指令。例如通过语音指令或其它方式，让电视机进入“录背影”状态，人从正视电视机转为侧视，电视机自动开启录像模式，人旋转一圈，再正视电视机时停止录像，从而获取关于用户的视频。

可选的，当检测到用户终端设备时，才启动预设对应的计算机的视觉识别和语音识别技术功能。检测用户是否正视终端设备可以采用比较用户正视终端设备时的图像数据和当前采集的图像数据的方式进行，当一致时，表明当前用户正视终端设备，启动计算机的视觉识别和语音识别技术功能(例如人脸识别以及语音识别等)；当不一致时，表明当前用户尚未正视终端设备，不启动计算机的视觉识别和语音识别技术功能。在实际应用中，以终端设备为空调为例，通过摄像头实时采集用户当前图像数据，获取用户正视空调时的图像数据；比较用户正视空调时的图像数据和当前采集的图像数据，当两者一致时，表明当前用户正视于空调，启动语音识别技术和人脸识别技术、手势识别技术，语音识别技术用于识别用户语音指令，人脸识别技术用于识别用户身份。

102、根据所述多个连续的图像，识别出所述用户的口型变化特征。

终端设备根据所述多个连续的图像，识别出所述用户的口型变化特征，可以包括：根据唇部特征提取算法和口型轮廓特征提取算法对所述多个连续的图像进行特征提取，识别出所述用户的口型变化特征，所述唇部特征提取算法包括基于模板的特征提取算法或基于图像像素的特征提取算法中的至少一种，所述口型轮廓特征提取算法包括变形模板算法或Snakes算法中的至少一种。

需要说明的是，由于唇部的提取在唇语识别中占有很重要的地位，对于特征向量的选取将直接影响着唇读识别率，特征提取最重要的一个特性是“可重复性”，输入图像一般通过高斯模糊在尺度空间被平滑，此后通过局部导数运算来计算图像的一个或多个特征。

唇部特征提取算法可以用于从包含唇部的图像中提取出唇部图像。示例性的，唇部特征提取算法包括基于模板的特征提取算法或基于图像像素的特征提取算法中的至少一种，其中，基于模板的特征提取算法也称为自顶向下的算法，它主要是对内外唇的轮廓建立一个模型，用一个参数的集合来描述相关的唇部轮廓信息。这些用来描述唇部的参数集合或参数的线性组合作为视觉特征，该类方法通常需要预先假设哪些是重要的视觉特征，具体的，可以分为三种：基于模型点的算法、基于主动轮廓模型的算法和基于可变模型的算法。基于图像像素的特征提取算法也称为自底向上的算法，它是直接利用包含唇部的整个灰度级图像或者利用经过若干预处理的唇部图像来得到特征向量的一种算法。具体的，可以分为三种：直接像素算法、矢量量化算法和PCA。

唇部图像提取完成之后，需要进一步提取口型轮廓特征，口型轮廓特征提取算法可以用于从唇部图像信号中提取出唇语特征。示例性的，口型轮廓特征提取算法包括变形模板算法和Snakes算法中的至少一种，其中，变形模板算法是用由多条带参数曲线去逼近唇部轮廓，并将多条曲线组合成模板，然后通过一定的限制条件，用最优化方法将曲线贴近最合适的唇部的位置，得到反映口型变化的参数，用以描述唇部运动。可变模型算法不受唇部变形、旋转和缩放的影响，可以很好地刻画唇部的形状。为了能够表示口型采用的方法就是利用唇部的外侧以及唇部的宽度以及高度来提取口型模板。Snakes算法可以很好地描绘口型轮廓，是在唇部上添加若干个点，再利用限制条件对这些点进行检测。同样，可以理解的是，具体采用何种算法可以根据实际情况进行设定，在此不作具体限定。

103、将所述用户的口型变化特征，输入至预置的所述用户的唇语识别模型中，识别得到所述用户的发音信息。

终端设备将所述用户的口型变化特征，输入至预置的所述用户的唇语识别模型中，识别得到所述用户的发音信息。在用户无法进行语音输入，也无法打字输入的情况下，还可以通过摄像头获取用户的多个连续的图像，识别出所述用户的口型变化特征，再根据用户的口型变化特征，识别得到用户的发音信息，从而为用户提供帮助。可选的，终端设备还可以播放该用户的发音信息。

其中，所述用户的唇语识别模型，可以是通过如下方式获取的。即终端设备长期采集的信息建立唇语识别模型，如通过所述摄像头获取所述用户的多个连续的历史图像，以及通过所述麦克风获取所述用户的历史音频信息；根据所述用户的多个连续的历史图像，识别出所述用户的历史口型变化特征；根据所述历史音频信息和所述历史口型变化特征，进行模型训练，得到所述用户的唇语识别模型。

可选的，在本发明的一些实施例中，所述方法还包括：终端设备通过麦克风获取所述用户的音频信息；终端设备将所述发音信息与所述音频信息，进行匹配；终端设备若所述发音信息与所述音频信息的匹配率大于第一阈值，则确定所述用户的唇语模型的测评准确率为优秀；终端设备若所述发音信息与所述音频信息的匹配率小于或等于所述第一阈值，则确定所述用户的唇语模型的测评准确率为一般，可以重新构建该用户的唇语模型。

可以理解的是，历史口型变化特征的识别，可以参考步骤102中的说明，此处不再赘述。进一步的，终端设备对历史音频信息进行特征提取。示例性的，可以采用LPCC(LinearPrediction Cepstrum Coefficient，线性预测倒谱系数)、MFCC(Mel Frequency CepstrumCoefficient，梅尔频率倒谱系数)、HMM(Hidden Markov Model，隐马尔可夫模型)和DTW(Dynamic TimeWarping，动态时间规整)等算法对历史音频信息进行特征提取。

104、根据所述发音信息和所述音频信息，确定目标音频信息。

终端设备可以根据该发音信息，对该音频信息进行补正，得到目标音频信息，即可以将音频信息和发音信息进行匹配，可以通过发音信息在一定程度上能弥补那些因为音频缺失或是噪音干扰而丢失的音频信息，得到弥补后的音频信息，这里称为目标音频信息。

例如：用户语音输入的一句话为“我想去逛街，有谁一起？”但是，终端设备获取的音频信息，可能为：“我想去逛街，有谁一？”，而通过唇语识别模型，得到的发音信息为：“想去逛街，有谁一起？”，此时，通过音频信息和发音信息，就可以得到完成的一句话为：“我想去逛街，有谁一起？”。

示例性的，小学生在跑步的过程中，打字不方便，使用语音输入的方式，但是因为跑步喘气声比较大，导致终端设备获取的音频信息有丢失，所以，终端设备可以使用本发明实施例中的方法，获取可靠性更高的目标音频信息。

可选的，本发明实施例可以应用在学生进行普通话比赛，或者准备普通话比赛的场景。或者，进行唱歌、演唱会、演讲、开会(视频通话会议、语音通话会议等)等场景。

例如，歌手在举行演唱会的时候，因为观众较多，而且，又比较吵，但是，歌手又想给观众很好的体验。歌手在唱歌的时候，播放的音频信息有丢失或者由于噪音干扰，所以，对于观众来说，可能体验不是很好。如果采用本发明实施例中的技术方案，歌手在唱歌的时候，终端设备可以采集用户的多个连续的图像，根据多个连续的图像，识别出用户的口型变化特征，再将用户的唇语识别模型中，识别得到用户的发音信息，再根据该发音信息对通过麦克风获取用户的音频信息进行修复，得到比较准确的音频信息，再进行播放，提高观众的体验。

如图2所示，为本发明实施例中基于口型的语音识别方法的另一个实施例示意图，可以包括：

201、在检测到用户心跳大于第一阈值，且并未检测到用户的音频信息或触控输入信息的情况下，通过摄像头获取用户的多个连续的图像。

202、根据所述多个连续的图像，识别出所述用户的口型变化特征。

203、将所述用户的口型变化特征，输入至预置的所述用户的唇语识别模型中，识别得到所述用户的发音信息。

204、根据所述发音信息和所述音频信息，确定目标音频信息。

可以理解的是，图2所示实施例中的步骤201-204与图1所示实施例中的步骤101-104类似，此处不再赘述。

205、响应所述用户的操作，生成发送指令。

206、根据所述发送指令，将所述目标音频信息向其他电子设备发送。

终端设备响应用户的操作，生成发送指令之后，可以根据发送指令，将所述目标音频信息向其他电子设备发送。需要说明的是，该发音信息用于用户在没办法打字的情况下，通过用户的口型变化特征得到发音信息，再通过该发音信息对用户的音频信息进行补全，得到目标音频信息，再将目标音频信息向其他电子设备发送，从而与其他用户进行沟通。

在本发明实施例中，通过摄像头获取用户的多个连续的图像，以及通过麦克风获取所述用户的音频信息；根据所述多个连续的图像，识别出所述用户的口型变化特征；将所述用户的口型变化特征，输入至预置的所述用户的唇语识别模型中，识别得到所述用户的发音信息；根据所述发音信息和所述音频信息，确定目标音频信息。即通过摄像头识别用户的口型变化特征，根据唇语识别模型，得到用户的发音信息，可以通过口型得到的发音信息在一定程度上能弥补那些因为音频缺失或者噪音干扰而丢失的音频信息，从而更准确的获取用户的目标音频信息。进一步的，还可以将该目标音频信息向其他电子设备发送，与其他用户进行沟通。

如图3所示，为本发明实施例中基于口型的语音识别方法的另一个实施例示意图，可以包括：

301、在检测到用户心跳大于第一阈值，且并未检测到用户的音频信息或触控输入信息的情况下，通过摄像头获取用户的多个连续的图像。

302、根据所述多个连续的图像，识别出所述用户的口型变化特征。

303、将所述用户的口型变化特征，输入至预置的所述用户的唇语识别模型中，识别得到所述用户的发音信息。

304、根据所述发音信息和所述音频信息，确定目标音频信息。

可以理解的是，图3所示实施例中的步骤301-304与图1所示实施例中的步骤101-104类似，此处不再赘述。

305、若所述目标音频信息为求助信息，则将所述目标音频信息向12110发送。

需要说明的是，如果终端设备确定的目标音频信息为求助信息，例如“救我”，或者“救命”，或者“打110”等，那么，终端设备可以直接将所述目标音频信息向12110发送。需要说明的是，12110，为中国公安机关统一的公益性短信报警号码，是一个短信报警形式，作为110电话报警的补充，是一种辅助性报警求助方式。

可选的，若所述目标音频信息中，有提及用户名称，例如，“爸爸，妈妈，或老师”等名称，终端设备可以弹出关于“爸爸，妈妈，或老师”等对应的联系方式，供用户选择是否与其联系。

可选的，终端设备根据所述多个连续的图像，确定所述用户的头像图片；若所述目标音频信息为求助信息，则将所述目标音频信息和所述头像图片向12110发送。可以理解的是，因为终端设备之前获取了该用户的多个连续的图像，所以，在向12110发送求助信息的同时，也可以先确定用户的头像图片，并将用户的头像图片向12110发送，便于警察更容易锁定受害者，从而，提高解救效率。

在本发明实施例中，通过摄像头获取用户的多个连续的图像，以及通过麦克风获取所述用户的音频信息；根据所述多个连续的图像，识别出所述用户的口型变化特征；将所述用户的口型变化特征，输入至预置的所述用户的唇语识别模型中，识别得到所述用户的发音信息；根据所述发音信息和所述音频信息，确定目标音频信息。即通过摄像头识别用户的口型变化特征，根据唇语识别模型，得到用户的发音信息，可以通过口型得到的发音信息在一定程度上能弥补那些因为音频缺失或者噪音干扰而丢失的音频信息，从而更准确的获取用户的目标音频信息。进一步的，若所述用户的目标音频信息为求助信息，则将所述用户的发音信息向12110发送，为用户提供帮助。

如图4所示，为本发明实施例中终端设备的一个实施例示意图，可以包括：

获取模块401，用于通过摄像头获取用户的多个连续的图像，以及通过麦克风获取所述用户的音频信息；

处理模块402，用于根据所述多个连续的图像，识别出所述用户的口型变化特征；将所述用户的口型变化特征，输入至预置的所述用户的唇语识别模型中，识别得到所述用户的发音信息；根据所述发音信息和所述音频信息，确定目标音频信息。

可选的，在本发明的一些实施例中，如图5所示，为本发明实施例中终端设备的另一个实施例示意图，所述终端设备还包括收发模块403，

处理模块402，还用于响应所述用户的操作，生成发送指令；

收发模块403，用于根据所述发送指令，将所述目标音频信息向其他电子设备发送。

可选的，在本发明的一些实施例中，如图5所示，所述终端设备还包括收发模块403，

收发模块403，用于若所述目标音频信息为求助信息，则将所述目标音频信息向12110发送。

可选的，在本发明的一些实施例中，

处理模块402，还用于根据所述多个连续的图像，确定所述用户的头像图片；

收发模块403，具体用于若所述目标音频信息为求助信息，则将所述目标音频信息和所述头像图片向12110发送。

可选的，在本发明的一些实施例中，

处理模块402，具体用于根据唇部特征提取算法和口型轮廓特征提取算法对所述多个连续的图像进行特征提取，识别出所述用户的口型变化特征，所述唇部特征提取算法包括基于模板的特征提取算法或基于图像像素的特征提取算法中的至少一种，所述口型轮廓特征提取算法包括变形模板算法或Snakes算法中的至少一种。

可选的，在本发明的一些实施例中，

处理模块402，还用于将所述发音信息与所述音频信息，进行匹配；若所述发音信息与所述音频信息的匹配率大于第一阈值，则确定所述用户的唇语模型的测评准确率为优秀；若所述发音信息与所述音频信息的匹配率小于或等于所述第一阈值，则确定所述用户的唇语模型的测评准确率为一般。

可选的，在本发明的一些实施例中，

获取模块401，还用于通过所述摄像头获取所述用户的多个连续的历史图像，以及通过所述麦克风获取所述用户的历史音频信息；

处理模块402，还用于根据所述用户的多个连续的历史图像，识别出所述用户的历史口型变化特征；根据所述历史音频信息和所述历史口型变化特征，进行模型训练，得到所述用户的唇语识别模型。

如图6所示，为本发明实施例中终端设备的另一个实施例示意图，终端设备以手机为例进行说明，可以包括：射频(radio frequency，RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity，WiFi)模块670、处理器680、以及电源690等部件。其中，射频电路610包括接收器614和发送器612。本领域技术人员可以理解，图6中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图6对手机的各个构成部件进行具体的介绍：

RF电路610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器680处理；另外，将设计上行的数据发送给基站。通常，RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器620的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器680，并能接收处理器680发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641，可选的，可以采用液晶显示器(liquid crystaldisplay，LCD)、有机发光二极管(organic light-Emitting diode，OLED)等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器680以确定触摸事件的类型，随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中，触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器650，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板641的亮度，接近传感器可在手机移动到耳边时，关闭显示面板641和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路660、扬声器661，传声器662可提供用户与手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号，传输到扬声器661，由扬声器661转换为声音信号输出；另一方面，传声器662将收集的声音信号转换为电信号，由音频电路660接收后转换为音频数据，再将音频数据输出处理器680处理后，经RF电路610以发送给比如另一手机，或者将音频数据输出至存储器620以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块670，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器680是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器680可包括一个或多个处理单元；优选的，处理器680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器680中。

手机还包括给各个部件供电的电源690(比如电池)，优选的，电源可以通过电源管理系统与处理器680逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，处理器680，用于通过摄像头获取用户的多个连续的图像，以及通过麦克风获取所述用户的音频信息；根据所述多个连续的图像，识别出所述用户的口型变化特征；将所述用户的口型变化特征，输入至预置的所述用户的唇语识别模型中，识别得到所述用户的发音信息；根据所述发音信息和所述音频信息，确定目标音频信息。

可选的，处理器680，还用于响应所述用户的操作，生成发送指令；

RF电路610，用于根据所述发送指令，将所述目标音频信息向其他电子设备发送。

可选的，RF电路610，用于若所述目标音频信息为求助信息，则将所述目标音频信息向12110发送。

可选的，处理器680，还用于根据所述多个连续的图像，确定所述用户的头像图片；

RF电路610，具体用于若所述目标音频信息为求助信息，则将所述目标音频信息和所述头像图片向12110发送。

可选的，处理器680，具体用于根据唇部特征提取算法和口型轮廓特征提取算法对所述多个连续的图像进行特征提取，识别出所述用户的口型变化特征，所述唇部特征提取算法包括基于模板的特征提取算法或基于图像像素的特征提取算法中的至少一种，所述口型轮廓特征提取算法包括变形模板算法或Snakes算法中的至少一种。

可选的，处理器680，还用于将所述发音信息与所述音频信息，进行匹配；若所述发音信息与所述音频信息的匹配率大于第一阈值，则确定所述用户的唇语模型的测评准确率为优秀；若所述发音信息与所述音频信息的匹配率小于或等于所述第一阈值，则确定所述用户的唇语模型的测评准确率为一般。

可选的，处理器680，还用于通过所述摄像头获取所述用户的多个连续的历史图像，以及通过所述麦克风获取所述用户的历史音频信息；根据所述用户的多个连续的历史图像，识别出所述用户的历史口型变化特征；根据所述历史音频信息和所述历史口型变化特征，进行模型训练，得到所述用户的唇语识别模型。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于口型的语音识别方法，其特征在于，包括：

根据所述发音信息和所述音频信息，确定目标音频信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应所述用户的操作，生成发送指令；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述目标音频信息为求助信息，则将所述目标音频信息向12110发送。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据所述多个连续的图像，确定所述用户的头像图片；

5.根据权利要求1-3中任一项所述的方法，其特征在于，所述根据所述多个连续的图像，识别出所述用户的口型变化特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述发音信息与所述音频信息，进行匹配；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种终端设备，其特征在于，包括：

9.一种终端设备，其特征在于，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

与所述处理器连接的收发器；

所述收发器、所述处理器调用所述存储器中存储的所述可执行程序代码，分别用于执行如权利要求1-7中任意一项所述的方法。

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7中任意一项所述的方法。