CN111724786A

CN111724786A - 唇语识别系统及方法

Info

Publication number: CN111724786A
Application number: CN201910220908.6A
Authority: CN
Inventors: 田发景
Original assignee: Shanghai Pateo Network Technology Service Co Ltd
Current assignee: Shanghai Pateo Network Technology Service Co Ltd
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2020-09-29

Abstract

本发明实施例公开了一种唇语识别系统及方法，属于识别技术领域。其中唇语识别系统包括：唇语训练模型建立模块、实时唇语采集模块、唇语预测模块以及唤醒模块，唇语训练模型建立模块用于根据大量唇语图像和对应的唤醒词进行学习，以预先建立唇语训练模型；实时唇语采集模块用于实时采集用户的唇部视频图像，并将采集的唇部视频图像提供给唇语预测模块；唇语预测模块用于对唇部视频图像进行自动分析，提取唇部图像特征值，根据唇语训练模型和唇部图像特征值得到预测结果，将预测结果提供给唤醒模块；唤醒模块用于根据唇语预测模块提供的预测结果生成控制指令，以控制相应的车载系统。本发明能够提高对用户唇语控制指令的识别效率。

Description

唇语识别系统及方法

技术领域

本发明涉及识别技术领域，特别涉及一种唇语识别系统及方法。

背景技术

随着自动化工业的日益发展，车辆数目越来越多，已经成为人们日常出行不可或缺的重要交通工具。目前的车载系统通常都有语音交互功能，可以通过用户语音直接唤醒相关车载系统进行交互，例如语音控制开启车内空调系统，语音控制打开车内天窗等系统。但是在一些声音噪杂的环境下，例如汽车高速行驶时产生的噪音环境或者乘客在车内谈话的环境，另外在驾驶员说话声音极小的情况下，都会影响车载系统对语音的识别率，导致相应车载系统的唤醒率会比较低，还容易出现误唤醒的现象，这严重影响了用户的交互体验。因此，极其需要车载系统能够在周围环境复杂的情况下仍然能够准确识别驾驶员的语音控制指令，以对车载系统进行有效的控制。

现有技术中，在声音较难识别的环境中，车载系统通常采用的方法就是识别驾驶人员说话时的唇形，以推测出驾驶人员的语音控制指令，但是现有技术的唇语识别效率较低，还不能满足人们的需求。

因此，为了解决上述问题，人们急需探索出一种更好的唇语识别系统及方法，以更优地服务于我们的日常生活，提高对用户唇语控制指令的识别效率。

发明内容

本发明提供一种唇语识别系统及方法，能够提高对用户唇语控制指令的识别效率。

所述技术方案如下：

本发明实施例提供了一种唇语识别系统，其包括：唇语训练模型建立模块、实时唇语采集模块、唇语预测模块以及唤醒模块，其中，所述唇语训练模型建立模块，与所述唇语预测模块相连，用于根据大量唇语图像和对应的唤醒词进行学习，以预先建立唇语训练模型，并将预先建立的唇语训练模型提供给所述唇语预测模块；所述实时唇语采集模块，与所述唇语预测模块相连，用于实时采集用户的唇部视频图像，并将采集的唇部视频图像提供给所述唇语预测模块；所述唇语预测模块，与所述唤醒模块相连，用于对唇部视频图像进行自动分析，提取唇部图像特征值，根据唇语训练模型和唇部图像特征值得到预测结果，将预测结果提供给所述唤醒模块；所述唤醒模块，用于根据所述唇语预测模块提供的预测结果生成控制指令，以控制相应的车载系统。

在本发明较佳的实施例中，所述唇语训练模型建立模块还用于采集不同年龄段、不同性别的人群对相同唤醒词进行语音训练的唇部图像，并根据采集的唇部图像采用循环神经网络算法得到唇语训练模型。

在本发明较佳的实施例中，所述唇语训练模型包括唇部图像特征值和对应的唤醒词，所述唇部图像特征值包括唇部形状。

在本发明较佳的实施例中，所述实时唇语采集模块为设置于车内上方的摄像头。

在本发明较佳的实施例中，所述唇语识别系统还包括语音识别模块，所述实时唇语采集模块还用于将采集的唇部视频图像提供给所述语音识别模块，所述语音识别模块用于对唇部视频图像进行语音识别，以得到语音识别结果后提供给所述唤醒模块，所述唤醒模块还用于根据所述唇语预测模块提供的预测结果和所述语音识别模块提供的语音识别结果生成控制指令，以控制相应的车载系统。

在本发明较佳的实施例中，所述唤醒模块还用于根据预测结果和语音识别结果在不同环境条件下训练出环境权重，并根据所述环境权重、预测结果和语音识别结果生成控制指令，以控制相应的车载系统。

本发明实施例还提供了一种唇语识别方法，其包括：根据大量唇语图像和对应的唤醒词进行学习，以预先建立唇语训练模型；实时采集用户的唇部视频图像；对唇部视频图像进行自动分析，提取唇部图像特征值，根据唇语训练模型和唇部图像特征值得到预测结果；根据预测结果生成控制指令，以控制相应的车载系统。

在本发明较佳的实施例中，根据大量唇语图像和对应的唤醒词进行学习，以预先建立唇语训练模型，包括：采集不同年龄段、不同性别的人群对相同唤醒词进行语音训练的唇部图像，并根据采集的唇部图像采用循环神经网络算法得到唇语训练模型。

在本发明较佳的实施例中，根据预测结果控制相应的车载系统，包括：对唇部视频图像进行语音识别，以得到语音识别结果；根据预测结果和语音识别结果生成控制指令，以控制相应的车载系统。

在本发明较佳的实施例中，还包括：根据预测结果和语音识别结果在不同环境条件下训练出环境权重，并根据所述环境权重、预测结果和语音识别结果生成控制指令，以控制相应的车载系统。

本发明实施例提供的技术方案带来的有益效果是：

通过根据大量唇语图像和对应的唤醒词进行学习，以预先建立唇语训练模型；实时采集用户的唇部视频图像；对唇部视频图像进行自动分析，提取唇部图像特征值，根据唇语训练模型和唇部图像特征值得到预测结果；根据预测结果生成控制指令，以控制相应的车载系统。从而可以对用户唇语进行有效识别以控制相应的车载系统，并且具有很高的控制效率和准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1是本发明第一实施例提供的唇语识别系统的主要架构框图；

图2是本发明第二实施例提供的唇语识别系统的主要架构框图；

图3是本发明第三实施例提供的唇语识别方法的流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的唇语识别系统及方法其具体实施方式、结构、特征及功效，详细说明如后。

有关本发明的前述及其他技术内容、特点及功效，在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明，当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图式仅是提供参考与说明之用，并非用来对本发明加以限制。

第一实施例

图1是本发明第一实施例提供的唇语识别系统的主要架构框图。所述唇语识别系统能够提高对用户唇语控制指令的识别效率。请参阅图1，所述唇语识别系统包括：唇语训练模型建立模块10、实时唇语采集模块11、唇语预测模块12、唤醒模块13。

更具体地，唇语训练模型建立模块10，与唇语预测模块12相连，用于根据大量唇语图像和对应的唤醒词进行学习，以预先建立唇语训练模型，并将预先建立的唇语训练模型提供给唇语预测模块12。

其中，唇语图像可以为静态图片序列或动态视频等。唤醒词例如可以为“打开空调”、“关闭空调”等。

优选地，唇语训练模型建立模块10还用于采集不同年龄段、不同性别的人群对相同唤醒词例如“打开空调”等唤醒词，进行语音训练的唇部视频图像，并根据采集的唇部视频图像采用循环神经网络(CNN)算法不断的优化迭代，进而得到唇语训练模型。其中，唇语训练模型可以包括唇部图像特征值和对应的唤醒词，唇部图像特征值可以包括唇部形状等特征值。唇部图像特征值通常是因人而异的，因此需要适当大量的学习说话者的唇部图像特征数据，达到通过输入的唇语图像就可以识别来自说话者的语音指令的目的，由此提高识别效率。

实时唇语采集模块11，与唇语预测模块12相连，用于实时采集用户的唇部视频图像，并将采集的唇部视频图像提供给唇语预测模块12。

其中，实时唇语采集模块11可以为设置于车内上方的摄像头，其可以实时采集用户的唇部视频图像，唇部视频图像可以为静态图片序列或动态视频等。。例如，实时唇语采集模块11可以实时采集用户的人脸图像，并根据用户的人脸图像将用户的唇部视频图像截取后实时传输给唇语预测模块12。

唇语预测模块12，与唤醒模块13相连，用于对唇部视频图像进行自动分析，提取唇部图像特征值，根据唇语训练模型和唇部图像特征值得到预测结果，将预测结果提供给唤醒模块13。

其中，唇语预测模块12可以将唇部图像特征值输入至唇语训练模型，通过该唇语训练模型对该唇部视频图像进行预测得到预测结果，例如预测结果可以包括相应唤醒词，并将该预测结果提供给唤醒模块13。

唤醒模块13，与唇语预测模块12相连，用于根据唇语预测模块12提供的预测结果生成控制指令，以控制相应的车载系统。

其中，例如若预测结果为“打开空调”，则唤醒模块13生成与“打开空调”对应的控制指令来控制空调系统进行开启。

综上所述，本发明实施例提供的唇语识别系统，通过根据大量唇语图像和对应的唤醒词进行学习，以预先建立唇语训练模型；实时采集用户的唇部视频图像；对唇部视频图像进行自动分析，提取唇部图像特征值，根据唇语训练模型和唇部图像特征值得到预测结果；根据预测结果生成控制指令，以控制相应的车载系统。从而可以对用户唇语进行有效识别以控制相应的车载系统，并且具有很高的控制效率和准确率。

第二实施例

请参考图2，图2是本发明第二实施例提供的唇语识别系统的主要架构框图，图2所示的唇语识别系统与图1所示的唇语识别系统基本相同，其不同之处在于，图2的唇语识别系统还包括：语音识别模块20。

优选地，实时唇语采集模块11还用于将采集的唇部视频图像提供给语音识别模块20。

语音识别模块20，与唤醒模块13相连，用于对唇部视频图像进行语音识别，以得到语音识别结果后提供给唤醒模块13。其中，语音识别结果为唤醒词，例如“打开空调”等唤醒词。

唤醒模块13还用于根据唇语预测模块12提供的预测结果和语音识别模块20提供的语音识别结果生成控制指令，以控制相应的车载系统。

其中，唤醒模块13可以根据唇语预测模块12提供的预测结果和语音识别模块20提供的语音识别结果与预设对照表进行比较而生成相应的控制指令，例如若预测结果为“打开空调”，语音识别结果为“开空”，对照表与语音识别结果(“开空”)或预测结果(“打开空调”)对应的均为“打开空调”，则生成的控制指令为与“打开空调”相对应的控制指令。

优选地，唤醒模块13还用于根据预测结果和语音识别结果在不同环境条件下训练出环境权重，并根据此环境权重、预测结果和语音识别结果生成控制指令，以控制相应车载系统，例如唤醒相应车载系统，从而在一些特殊的环境里可以提高控制效率，例如提高唤醒率及降低误唤醒率。

其中，环境权重可以是与噪音范围相对应的，例如噪音范围在A-B，则预测结果的权重可以为0.8，语音识别结果权重可以为0.2，若噪音范围在C-D，则预测结果的权重可以为0.2，语音识别结果权重可以为0.8等，A、B、C、D均可以为用户设定的噪音值。

其中，唤醒模块13根据环境权重、预测结果和语音识别结果生成控制指令的一种方法可以是：比较权重大小而选择信任权重大的，例如若预测结果权重大于语音识别结果权重，则唤醒模块13可以仅根据预测结果(不考虑语音识别结果)而生成控制指令，以控制相应车载系统。

再者，唤醒模块13根据环境权重、预测结果和语音识别结果生成控制指令的另一种方法可以是：将预测结果和语音识别结果的每个字进行比对，而选择信任预测结果和语音识别结果中的同音字，并将预测结果和语音识别结果中的非同音字根据权重大小而选择信任权重大的，然后将预测结果和语音识别结果中的同音字和预测结果和语音识别结果中权重大的非同音字进行组合而生成控制指令，即若预测结果权重大于语音识别结果权重，则唤醒模块13可以仅考虑预测结果中的非同音字(不考虑语音识别结果中的非同音字)，然后将预测结果中的非同音字和同音字进行组合而生成控制指令，以控制相应车载系统。例如预测结果(“打开空调”)的权重为0.8，语音识别结果(“开空”)的权重为0.2，则选择预测结果中的非同音字“打调”和同音字“开空”进行组合为“打开空调”，从而生成与“打开空调”相对应的控制指令后，以控制空调系统进行开启。

综上所述，本发明实施例提供的唇语识别系统，还通过将唇语的预测结果和语音识别结果结合在一起，可以在特定的环境下非常显著的提高系统的控制效率，在今后的很多系统，例如智能座舱系统中均可以得到很好的应用。

以下为本发明的方法实施例，在方法实施例中未详尽描述的细节，可以参考上述对应的装置实施例。

第三实施例

请参考图3，图3是本发明第三实施例提供的唇语识别方法的流程图。唇语识别方法执行于唇语识别系统中，其中，唇语识别系统包括唇语训练模型建立模块、实时唇语采集模块、唇语预测模块以及唤醒模块。本实施例提供的唇语识别方法，可包括以下步骤301-304：

步骤301，根据大量唇语图像和对应的唤醒词进行学习，以预先建立唇语训练模型。

优选地，步骤301中，根据大量唇语图像和对应的唤醒词进行学习，以预先建立唇语训练模型，还可以具体包括：

采集不同年龄段、不同性别的人群对相同唤醒词进行语音训练的唇部图像，并根据采集的唇部图像采用循环神经网络算法得到唇语训练模型。

步骤302，实时采集用户的唇部视频图像。

步骤303，对唇部视频图像进行自动分析，提取唇部图像特征值，根据唇语训练模型和唇部图像特征值得到预测结果。

步骤304，根据预测结果生成控制指令，以控制相应的车载系统。

优选地，步骤304中，还可以包括：

对唇部视频图像进行语音识别，以得到语音识别结果；

根据预测结果和语音识别结果生成控制指令，以控制相应的车载系统。

优选地，根据预测结果和语音识别结果生成控制指令，以控制相应的车载系统，还可以包括：根据预测结果和语音识别结果在不同环境条件下训练出环境权重，并根据所述环境权重、预测结果和语音识别结果生成控制指令，以控制相应的车载系统。

综上所述，本发明实施例提供的唇语识别方法，通过根据大量唇语图像和对应的唤醒词进行学习，以预先建立唇语训练模型；实时采集用户的唇部视频图像；对唇部视频图像进行自动分析，提取唇部图像特征值，根据唇语训练模型和唇部图像特征值得到预测结果；根据预测结果生成控制指令，以控制相应的车载系统。从而可以对用户唇语进行有效识别以控制相应的车载系统，并且具有很高的控制效率和准确率；

还通过将唇语的预测结果和语音识别结果结合在一起，可以在特定的环境下非常显著的提高系统的控制效率，在今后的很多系统，例如智能座舱系统中均可以得到很好的应用。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种唇语识别系统，其特征在于，其包括：唇语训练模型建立模块、实时唇语采集模块、唇语预测模块以及唤醒模块，其中，

所述唇语训练模型建立模块，与所述唇语预测模块相连，用于根据大量唇语图像和对应的唤醒词进行学习，以预先建立唇语训练模型，并将预先建立的唇语训练模型提供给所述唇语预测模块；

所述实时唇语采集模块，与所述唇语预测模块相连，用于实时采集用户的唇部视频图像，并将采集的唇部视频图像提供给所述唇语预测模块；

所述唇语预测模块，与所述唤醒模块相连，用于对唇部视频图像进行自动分析，提取唇部图像特征值，根据唇语训练模型和唇部图像特征值得到预测结果，将预测结果提供给所述唤醒模块；

所述唤醒模块，用于根据所述唇语预测模块提供的预测结果生成控制指令，以控制相应的车载系统。

2.根据权利要求1所述的唇语识别系统，其特征在于，所述唇语训练模型建立模块还用于采集不同年龄段、不同性别的人群对相同唤醒词进行语音训练的唇部图像，并根据采集的唇部图像采用循环神经网络算法得到唇语训练模型。

3.根据权利要求2所述的唇语识别系统，其特征在于，所述唇语训练模型包括唇部图像特征值和对应的唤醒词，所述唇部图像特征值包括唇部形状。

4.根据权利要求1所述的唇语识别系统，其特征在于，所述实时唇语采集模块为设置于车内上方的摄像头。

5.根据权利要求1所述的唇语识别系统，其特征在于，所述唇语识别系统还包括语音识别模块，所述实时唇语采集模块还用于将采集的唇部视频图像提供给所述语音识别模块，所述语音识别模块用于对唇部视频图像进行语音识别，以得到语音识别结果后提供给所述唤醒模块，所述唤醒模块还用于根据所述唇语预测模块提供的预测结果和所述语音识别模块提供的语音识别结果生成控制指令，以控制相应的车载系统。

6.根据权利要求5所述的唇语识别系统，其特征在于，所述唤醒模块还用于根据预测结果和语音识别结果在不同环境条件下训练出环境权重，并根据所述环境权重、预测结果和语音识别结果生成控制指令，以控制相应的车载系统。

7.一种唇语识别方法，其特征在于，其包括：

根据大量唇语图像和对应的唤醒词进行学习，以预先建立唇语训练模型；

实时采集用户的唇部视频图像；

对唇部视频图像进行自动分析，提取唇部图像特征值，根据唇语训练模型和唇部图像特征值得到预测结果；

根据预测结果生成控制指令，以控制相应的车载系统。

8.根据权利要求7所述的唇语识别方法，其特征在于，根据大量唇语图像和对应的唤醒词进行学习，以预先建立唇语训练模型，包括：

9.根据权利要求7所述的唇语识别方法，其特征在于，根据预测结果生成控制指令，以控制相应的车载系统，包括：

对唇部视频图像进行语音识别，以得到语音识别结果；

10.根据权利要求9所述的唇语识别方法，其特征在于，还包括：

根据预测结果和语音识别结果在不同环境条件下训练出环境权重，并根据所述环境权重、预测结果和语音识别结果生成控制指令，以控制相应的车载系统。