CN109558788B

CN109558788B - 静默语音输入辨识方法、计算装置和计算机可读介质

Info

Publication number: CN109558788B
Application number: CN201811168994.2A
Authority: CN
Inventors: 喻纯; 孙科; 史元春
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2023-10-27
Anticipated expiration: 2038-10-08
Also published as: CN109558788A; WO2020073403A1

Abstract

一种静默语音输入辨识方法、计算装置和计算机可读介质，静默语音输入辨识方法包括获得用户运动嘴部特征序列；利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动；在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下，判断用户是否在进行静音语言输入；在判定用户在进行静音语言输入的情况下，进行静音语言输入内容的识别。首先判断用户是否真的在进行静默语音输入，而不是用户的嘴部在进行其他的自然运动或者发出声音的语音，由此通过过滤掉无关输入，能够提高静默语音输入内容的识别准确率。

Description

静默语音输入辨识方法、计算装置和计算机可读介质

技术领域

本发明总体地涉及唇语输入技术，特别是涉及唇语语音输入辨识方法、装置和计算机可读介质。

背景技术

随着机器学习技术的发展以及计算设备性能的提升，静默语音输入(SilentSpeech Input)成为一种有潜力的用户输入交互方式。

静默语音输入指的是如下与计算设备的输入交互方式，用户可以通过语音与计算设备进行通信，但用户并不真正发出语音，而只做出所说内容对应的嘴型。

静默语音输入非常适合于在开会等不适合出声也不方便长时间利用手指进行输入的场合，具有非常好的隐秘性。

一个支持静默语音输入的设备通过某种或多种特定的传感器(如肌电传感器，摄像头等)捕捉由用户嘴部运动产生的信号(或图像)来识别用户说出的内容。

在本文中，我们针对的设备是通过摄像头(这个专利关心具体的捕获方式，通过任何方式都可以，摄像头是一种重要的方式)捕捉用户运动嘴部图像序列并进行识别的装置和设定。例如，在使用智能手机，电脑，或头戴装置时，用户通过静默语音的形式发出语音指令或内容，设备上的摄像头识别该指令或内容，然后计算设备做出相应的反应和反馈。

其中的一个关键问题是计算设备如何判断用户是否真的在进行静默语音输入，而不是用户的嘴部在进行其他的自然运动或者发出声音的语音。。

发明内容

一个支持静默语音输入的设备通过某种或多种特定的传感器捕捉由用户嘴部运动产生的信号，对该信号进行分析来识别用户说出的内容。

现有技术中，主要关注于如何处理嘴部运动信号来识别用户说出的内容，而尚不存在计算设备判断用户是否真的在进行静默语音输入的技术。

本发明的发明人认为，人类有各种嘴部运动，如咀嚼、打哈欠、无意识的嘴部运动如撇嘴等，如果直接就这些嘴部运动来识别语音输入，会引发非常大的错误，因此将这些嘴部运动与语音输入区分开是准确识别语音输入的前提。

为此，本文提出了一种技术，供计算设备判断用户是否真的在进行静默语音输入，而不是用户的嘴部在进行其他的自然运动或者发出声音的语音。

鉴于上述情况，提出了本发明。

根据本发明的一个方面，提供了一种静默语音输入辨识方法，包括：获得用户运动嘴部特征序列；利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动；在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下，判断用户是否在进行静音语言输入；在判定用户在进行静音语言输入的情况下，进行静音语言输入内容的识别。

可选的，运动嘴部特征序列是从肌电传感器捕获的运动嘴部图像序列提取的。

可选的，运动嘴部特征序列是从通过摄像头捕获的运动嘴部图像序列提取的。

可选的，运动嘴部图像数据为RGB数据、结构光、红外点云数据、深度点云数据中的一种或组合。

可选的，运动嘴部图像序列是如下获得的：基于机器学习识别用户人脸位置并提取用户面部特征点，以及通过特征点获取用户嘴部的实时图像。

可选的，输入嘴部运动判别器的用户运动嘴部特征序列至少包括标识三个状态的三个特征数据片：第一特征数据片为表征嘴部开始运动的特征数据片，第二特征数据片为表征嘴部持续运动的特征数据片，第三特征数据片为表征嘴部停止运动的特征数据片。

可选的，判别器为二分类器，是基于采集的用户数据使用机器学习方法训练得到的。

可选的，在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下，判断用户是否在进行静音语言输入包括：依据预定的在静音语言输入情况下的嘴部特征与声音信号之间的匹配模型，判定嘴部特征序列与声音信号序列之间的匹配程度，并在匹配程度低于预定阈值的情况下，判定用户在进行静音语言输入。

可选的，静默语音输入辨识方法还包括：在进行静音语言输入内容的识别之后，识别出的指令或内容来进行响应。

根据本发明的另一方面，提供了一种计算装置，包括：传感器，能够捕捉用于嘴部运动信号；控制器和存储器，存储器上存储有计算机可执行指令，当所述计算机可执行指令当被控制器执行时，可操作来执行前述静默语音输入辨识方法。

根据本发明的再一方面，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令当被计算机执行时，可操作来执行前述的静默语音输入辨识方法。

利用本发明的静默语音输入辨识方法，计算装置首先判断用户是否真的在进行静默语音输入，而不是用户的嘴部在进行其他的自然运动或者发出声音的语音，由此通过过滤掉无关输入，能够提高静默语音输入内容的识别准确率。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解，其中：

图1示出了根据本发明实施例的、计算机执行的静默语音输入辨识方法1000的总体流程图。

图2示出了根据本发明一个实施例的、硬件和/或软件模块的操作和信号流动示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

在介绍之前，解释一下有关术语在本文中的含义。

静默语音输入，指嘴部做出说话动作，但不发声的输入行为，也有人称之为“唇语”。

在步骤S1100中，获得用户运动嘴部特征序列。

这里的用户运动嘴部特征序列，可以是描绘用户嘴部运动的任何特征序列。例如可以是从通过摄像头捕获的运动嘴部图像序列提取的特征序列，关于运动嘴部图像数据，基于采用的对应光源和/或摄像机(普通摄像头、结构光源、红外摄像设备、立体相机)，获得的图像数据可以是RGB数据、结构光数据、红外点云数据、深度点云数据中的一种或组合。

在利用摄像头获得运动的嘴部的图像的情况下，可以例如如下获得运动嘴部图像序列：基于机器学习识别用户人脸位置并提取用户面部特征点，以及通过特征点获取用户嘴部的实时图像。

在步骤S1200中，利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动。

在一个示例中，输入嘴部运动判别器的用户运动嘴部特征序列至少包括标识三个状态的三个特征数据片：第一特征数据片为表征嘴部开始运动的特征数据片，第二特征数据片为表征嘴部持续运动的特征数据片，第三特征数据片为表征嘴部停止运动的特征数据片。

例如，在运动嘴部特征序列为从用户嘴部图像提取的情况下，嘴部运动判别器从输入的用户嘴部图像序列提取用户嘴部运动序列，具体地，基于嘴部特征点和图像信息判断当前是在以下哪四种状态(1)嘴部开始运动(2)嘴部持续运动(3)嘴部停止运动(4)其他。提取用户嘴部运动序列操作的结果为得到从状态(1)到状态(3)之间的嘴部图像序列。该判别器需要采集用户数据，并使用机器学习的方法训练模型并进行识别。

判别器为二分类器，是基于采集的用户数据使用机器学习方法训练得到的。判断嘴部运动是否是正在说出一段自然语言，而不是其他情况下产生的带有嘴部运动的混淆情况。混淆情况包括但不限于：用户在吃饭，打哈欠，无意识运动等。该判别器需要采集用户数据，并使用机器学习的方法训练模型并进行识别。

在步骤S1300中，在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下，判断用户是否在进行静音语言输入。

在一个示例中，判断用户是否在进行静音语言输入包括：依据预定的在静音语言输入情况下的嘴部特征与声音信号之间的匹配模型，判定嘴部特征序列与声音信号序列之间的匹配程度，并在匹配程度低于预定阈值的情况下，判定用户在进行静音语言输入。

具体地，在一个示例中，输入为嘴部运动图像序列和同区间麦克风收集到的人声音信号，输出为这两段信号的匹配程度p，若p大于某一阈值，则判定这段嘴部运动图像序列为有声序列，即用户在进行有声的语音输入。否则，则判定用户确实在进行静默语音输入。该判定器需要采集用户数据，并使用机器学习的方法训练模型并进行识别。

在步骤S1400中，在判定用户在进行静音语言输入的情况下，进行静音语言输入内容的识别。

这里对识别静音语言输入内容的技术没有限制，任何能够具体识别静音语言输入内容的技术都可以采用，无论是现有的，还有将来开发出来的技术。

关于本发明的静默语音输入技术的应用场景，一个示例未，一个支持静默语音输入的设备(如手机、平板电脑等)通过某种或多种特定的传感器(如肌电传感器，摄像头等)捕捉由用户嘴部运动产生的信号(或图像)来识别用户说出的内容。

一个更具体地例子中，计算设备是通过摄像头捕捉用户运动嘴部图像序列并进行识别。例如，在使用智能手机，电脑，或头戴装置时，用户通过静默语音的形式发出语音指令或内容，设备上的摄像头识别该指令或内容，然后计算设备做出相应的反应和反馈。例如，用户唇语说出，“打开微信”，手机识别出后，即启动微信应用程序。

102,104:摄像头104实时获取用户102的图像序列，图像信息可以包括但不限于RGB数据，结构光或红外点云数据，深度点云数据。

106人脸识别模块：使用机器学习和计算机视觉的方法识别用户人脸位置并提取用户面部特征点，通过特征点获取用户嘴部的实时图像，图像信息依然可以包括但不限于RGB和点云数据。

108提取用户嘴部运动序列模块：实例为一个判别器，基于嘴部特征点和图像信息判断当前是在以下哪四种状态(1)嘴部开始运动(2)嘴部持续运动(3)嘴部停止运动(4)其他。该模块的输出为从状态(1)到状态(3)之间的嘴部图像序列。该判别器需要采集用户数据，并使用机器学习的方法训练模型并进行识别。

110检测嘴部运动是否为语言输入模块：实例为一个二分类器，根据提取用户嘴部运动序列模块108输出的嘴部运动图像序列判断嘴部运动是否是正在说出一段自然语言，而不是其他情况下产生的带有嘴部运动的混淆情况。混淆情况包括但不限于：用户在吃饭，打哈欠，无意识运动等。该判别器需要采集用户数据，并使用机器学习的方法训练模型并进行识别。该分类器需要采集用户数据，并使用机器学习的方法训练模型并进行识别。

112声音信号检测模块：输入为提取用户嘴部运动序列模块108输出的嘴部运动图像序列和同区间麦克风收集到的人声音信号，输出为这两段信号的匹配程度p，若p大于某一阈值，则判定这段嘴部运动图像序列为有声序列，即用户在进行有声的语音输入。否则，则判定用户确实在进行静默语音输入。该模块需要采集用户数据，并使用机器学习的方法训练模型并进行识别。

114最终的识别模型，识别用户发出的指令或内容。

根据本发明的另一方面，提供了一种静默语音输入辨识方法，包括：用户运动嘴部特征序列获得部件，获得用户运动嘴部特征序列；检测嘴部运动是否为语言输入模块,利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动；静音语言输入判断，在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下，判断用户是否在进行静音语言输入；静音语言输入内容识别模块，在判定用户在进行静音语言输入的情况下，进行静音语言输入内容的识别。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种静默语音输入辨识方法，包括：

获得用户运动嘴部特征序列；

利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动；

在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下，判断用户是否在进行静音语言输入，包括：依据预定的在静音语言输入情况下的嘴部特征与声音信号之间的匹配模型，判定嘴部特征序列与声音信号序列之间的匹配程度，并在匹配程度低于预定阈值的情况下，判定用户在进行静音语言输入；

在判定用户在进行静音语言输入的情况下，进行静音语言输入内容的识别。

2.根据权利要求1所述的静默语音输入辨识方法，所述运动嘴部特征序列是从肌电传感器捕获的运动嘴部图像序列提取的。

3.根据权利要求1所述的静默语音输入辨识方法，所述运动嘴部特征序列是从通过摄像头捕获的运动嘴部图像序列提取的。

4.根据权利要求3所述的静默语音输入辨识方法，所述运动嘴部图像数据为RGB数据、结构光、红外点云数据、深度点云数据中的一种或组合。

5.根据权利要求3所述的静默语音输入辨识方法，所述运动嘴部图像序列是如下获得的：

基于机器学习识别用户人脸位置并提取用户面部特征点，以及通过特征点获取用户嘴部的实时图像。

6.根据权利要求1所述的静默语音输入辨识方法，输入嘴部运动判别器的用户运动嘴部特征序列至少包括标识三个状态的三个特征数据片：第一特征数据片为表征嘴部开始运动的特征数据片，第二特征数据片为表征嘴部持续运动的特征数据片，第三特征数据片为表征嘴部停止运动的特征数据片。

7.根据权利要求1所述的静默语音输入辨识方法，所述判别器为二分类器，是基于采集的用户数据使用机器学习方法训练得到的。

8.根据权利要求1所述的静默语音输入辨识方法，还包括：

在进行静音语言输入内容的识别之后，识别出的指令或内容来进行响应。

9.一种计算装置，包括：

传感器，能够捕捉用于嘴部运动信号；

控制器和存储器，存储器上存储有计算机可执行指令，当所述计算机可执行指令当被控制器执行时，可操作来执行权利要求1到8任一项所述的静默语音输入辨识方法。

10.一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令当被计算机执行时，可操作来执行权利要求1到8任一项所述的静默语音输入辨识方法。