CN109558788B - 静默语音输入辨识方法、计算装置和计算机可读介质 - Google Patents
静默语音输入辨识方法、计算装置和计算机可读介质 Download PDFInfo
- Publication number
- CN109558788B CN109558788B CN201811168994.2A CN201811168994A CN109558788B CN 109558788 B CN109558788 B CN 109558788B CN 201811168994 A CN201811168994 A CN 201811168994A CN 109558788 B CN109558788 B CN 109558788B
- Authority
- CN
- China
- Prior art keywords
- mouth
- user
- sequence
- silent
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000033001 locomotion Effects 0.000 claims abstract description 78
- 238000010801 machine learning Methods 0.000 claims description 15
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000001815 facial effect Effects 0.000 claims description 4
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 3
- 230000003183 myoelectrical effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 2
- 208000003443 Unconsciousness Diseases 0.000 description 2
- 206010048232 Yawning Diseases 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001055 chewing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
一种静默语音输入辨识方法、计算装置和计算机可读介质,静默语音输入辨识方法包括获得用户运动嘴部特征序列;利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动;在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下,判断用户是否在进行静音语言输入;在判定用户在进行静音语言输入的情况下,进行静音语言输入内容的识别。首先判断用户是否真的在进行静默语音输入,而不是用户的嘴部在进行其他的自然运动或者发出声音的语音,由此通过过滤掉无关输入,能够提高静默语音输入内容的识别准确率。
Description
技术领域
本发明总体地涉及唇语输入技术,特别是涉及唇语语音输入辨识方法、装置和计算机可读介质。
背景技术
随着机器学习技术的发展以及计算设备性能的提升,静默语音输入(SilentSpeech Input)成为一种有潜力的用户输入交互方式。
静默语音输入指的是如下与计算设备的输入交互方式,用户可以通过语音与计算设备进行通信,但用户并不真正发出语音,而只做出所说内容对应的嘴型。
静默语音输入非常适合于在开会等不适合出声也不方便长时间利用手指进行输入的场合,具有非常好的隐秘性。
一个支持静默语音输入的设备通过某种或多种特定的传感器(如肌电传感器,摄像头等)捕捉由用户嘴部运动产生的信号(或图像)来识别用户说出的内容。
在本文中,我们针对的设备是通过摄像头(这个专利关心具体的捕获方式,通过任何方式都可以,摄像头是一种重要的方式)捕捉用户运动嘴部图像序列并进行识别的装置和设定。例如,在使用智能手机,电脑,或头戴装置时,用户通过静默语音的形式发出语音指令或内容,设备上的摄像头识别该指令或内容,然后计算设备做出相应的反应和反馈。
其中的一个关键问题是计算设备如何判断用户是否真的在进行静默语音输入,而不是用户的嘴部在进行其他的自然运动或者发出声音的语音。。
发明内容
一个支持静默语音输入的设备通过某种或多种特定的传感器捕捉由用户嘴部运动产生的信号,对该信号进行分析来识别用户说出的内容。
现有技术中,主要关注于如何处理嘴部运动信号来识别用户说出的内容,而尚不存在计算设备判断用户是否真的在进行静默语音输入的技术。
本发明的发明人认为,人类有各种嘴部运动,如咀嚼、打哈欠、无意识的嘴部运动如撇嘴等,如果直接就这些嘴部运动来识别语音输入,会引发非常大的错误,因此将这些嘴部运动与语音输入区分开是准确识别语音输入的前提。
为此,本文提出了一种技术,供计算设备判断用户是否真的在进行静默语音输入,而不是用户的嘴部在进行其他的自然运动或者发出声音的语音。
在本文中,我们针对的设备是通过摄像头(这个专利关心具体的捕获方式,通过任何方式都可以,摄像头是一种重要的方式)捕捉用户运动嘴部图像序列并进行识别的装置和设定。例如,在使用智能手机,电脑,或头戴装置时,用户通过静默语音的形式发出语音指令或内容,设备上的摄像头识别该指令或内容,然后计算设备做出相应的反应和反馈。
鉴于上述情况,提出了本发明。
根据本发明的一个方面,提供了一种静默语音输入辨识方法,包括:获得用户运动嘴部特征序列;利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动;在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下,判断用户是否在进行静音语言输入;在判定用户在进行静音语言输入的情况下,进行静音语言输入内容的识别。
可选的,运动嘴部特征序列是从肌电传感器捕获的运动嘴部图像序列提取的。
可选的,运动嘴部特征序列是从通过摄像头捕获的运动嘴部图像序列提取的。
可选的,运动嘴部图像数据为RGB数据、结构光、红外点云数据、深度点云数据中的一种或组合。
可选的,运动嘴部图像序列是如下获得的:基于机器学习识别用户人脸位置并提取用户面部特征点,以及通过特征点获取用户嘴部的实时图像。
可选的,输入嘴部运动判别器的用户运动嘴部特征序列至少包括标识三个状态的三个特征数据片:第一特征数据片为表征嘴部开始运动的特征数据片,第二特征数据片为表征嘴部持续运动的特征数据片,第三特征数据片为表征嘴部停止运动的特征数据片。
可选的,判别器为二分类器,是基于采集的用户数据使用机器学习方法训练得到的。
可选的,在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下,判断用户是否在进行静音语言输入包括:依据预定的在静音语言输入情况下的嘴部特征与声音信号之间的匹配模型,判定嘴部特征序列与声音信号序列之间的匹配程度,并在匹配程度低于预定阈值的情况下,判定用户在进行静音语言输入。
可选的,静默语音输入辨识方法还包括:在进行静音语言输入内容的识别之后,识别出的指令或内容来进行响应。
根据本发明的另一方面,提供了一种计算装置,包括:传感器,能够捕捉用于嘴部运动信号;控制器和存储器,存储器上存储有计算机可执行指令,当所述计算机可执行指令当被控制器执行时,可操作来执行前述静默语音输入辨识方法。
根据本发明的再一方面,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令当被计算机执行时,可操作来执行前述的静默语音输入辨识方法。
利用本发明的静默语音输入辨识方法,计算装置首先判断用户是否真的在进行静默语音输入,而不是用户的嘴部在进行其他的自然运动或者发出声音的语音,由此通过过滤掉无关输入,能够提高静默语音输入内容的识别准确率。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:
图1示出了根据本发明实施例的、计算机执行的静默语音输入辨识方法1000的总体流程图。
图2示出了根据本发明一个实施例的、硬件和/或软件模块的操作和信号流动示意图。
具体实施方式
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明作进一步详细说明。
在介绍之前,解释一下有关术语在本文中的含义。
静默语音输入,指嘴部做出说话动作,但不发声的输入行为,也有人称之为“唇语”。
图1示出了根据本发明实施例的、计算机执行的静默语音输入辨识方法1000的总体流程图。
在步骤S1100中,获得用户运动嘴部特征序列。
这里的用户运动嘴部特征序列,可以是描绘用户嘴部运动的任何特征序列。例如可以是从通过摄像头捕获的运动嘴部图像序列提取的特征序列,关于运动嘴部图像数据,基于采用的对应光源和/或摄像机(普通摄像头、结构光源、红外摄像设备、立体相机),获得的图像数据可以是RGB数据、结构光数据、红外点云数据、深度点云数据中的一种或组合。
在利用摄像头获得运动的嘴部的图像的情况下,可以例如如下获得运动嘴部图像序列:基于机器学习识别用户人脸位置并提取用户面部特征点,以及通过特征点获取用户嘴部的实时图像。
在步骤S1200中,利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动。
在一个示例中,输入嘴部运动判别器的用户运动嘴部特征序列至少包括标识三个状态的三个特征数据片:第一特征数据片为表征嘴部开始运动的特征数据片,第二特征数据片为表征嘴部持续运动的特征数据片,第三特征数据片为表征嘴部停止运动的特征数据片。
例如,在运动嘴部特征序列为从用户嘴部图像提取的情况下,嘴部运动判别器从输入的用户嘴部图像序列提取用户嘴部运动序列,具体地,基于嘴部特征点和图像信息判断当前是在以下哪四种状态(1)嘴部开始运动(2)嘴部持续运动(3)嘴部停止运动(4)其他。提取用户嘴部运动序列操作的结果为得到从状态(1)到状态(3)之间的嘴部图像序列。该判别器需要采集用户数据,并使用机器学习的方法训练模型并进行识别。
判别器为二分类器,是基于采集的用户数据使用机器学习方法训练得到的。判断嘴部运动是否是正在说出一段自然语言,而不是其他情况下产生的带有嘴部运动的混淆情况。混淆情况包括但不限于:用户在吃饭,打哈欠,无意识运动等。该判别器需要采集用户数据,并使用机器学习的方法训练模型并进行识别。
在步骤S1300中,在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下,判断用户是否在进行静音语言输入。
在一个示例中,判断用户是否在进行静音语言输入包括:依据预定的在静音语言输入情况下的嘴部特征与声音信号之间的匹配模型,判定嘴部特征序列与声音信号序列之间的匹配程度,并在匹配程度低于预定阈值的情况下,判定用户在进行静音语言输入。
具体地,在一个示例中,输入为嘴部运动图像序列和同区间麦克风收集到的人声音信号,输出为这两段信号的匹配程度p,若p大于某一阈值,则判定这段嘴部运动图像序列为有声序列,即用户在进行有声的语音输入。否则,则判定用户确实在进行静默语音输入。该判定器需要采集用户数据,并使用机器学习的方法训练模型并进行识别。
在步骤S1400中,在判定用户在进行静音语言输入的情况下,进行静音语言输入内容的识别。
这里对识别静音语言输入内容的技术没有限制,任何能够具体识别静音语言输入内容的技术都可以采用,无论是现有的,还有将来开发出来的技术。
关于本发明的静默语音输入技术的应用场景,一个示例未,一个支持静默语音输入的设备(如手机、平板电脑等)通过某种或多种特定的传感器(如肌电传感器,摄像头等)捕捉由用户嘴部运动产生的信号(或图像)来识别用户说出的内容。
一个更具体地例子中,计算设备是通过摄像头捕捉用户运动嘴部图像序列并进行识别。例如,在使用智能手机,电脑,或头戴装置时,用户通过静默语音的形式发出语音指令或内容,设备上的摄像头识别该指令或内容,然后计算设备做出相应的反应和反馈。例如,用户唇语说出,“打开微信”,手机识别出后,即启动微信应用程序。
图2示出了根据本发明一个实施例的、硬件和/或软件模块的操作和信号流动示意图。
102,104:摄像头104实时获取用户102的图像序列,图像信息可以包括但不限于RGB数据,结构光或红外点云数据,深度点云数据。
106人脸识别模块:使用机器学习和计算机视觉的方法识别用户人脸位置并提取用户面部特征点,通过特征点获取用户嘴部的实时图像,图像信息依然可以包括但不限于RGB和点云数据。
108提取用户嘴部运动序列模块:实例为一个判别器,基于嘴部特征点和图像信息判断当前是在以下哪四种状态(1)嘴部开始运动(2)嘴部持续运动(3)嘴部停止运动(4)其他。该模块的输出为从状态(1)到状态(3)之间的嘴部图像序列。该判别器需要采集用户数据,并使用机器学习的方法训练模型并进行识别。
110检测嘴部运动是否为语言输入模块:实例为一个二分类器,根据提取用户嘴部运动序列模块108输出的嘴部运动图像序列判断嘴部运动是否是正在说出一段自然语言,而不是其他情况下产生的带有嘴部运动的混淆情况。混淆情况包括但不限于:用户在吃饭,打哈欠,无意识运动等。该判别器需要采集用户数据,并使用机器学习的方法训练模型并进行识别。该分类器需要采集用户数据,并使用机器学习的方法训练模型并进行识别。
112声音信号检测模块:输入为提取用户嘴部运动序列模块108输出的嘴部运动图像序列和同区间麦克风收集到的人声音信号,输出为这两段信号的匹配程度p,若p大于某一阈值,则判定这段嘴部运动图像序列为有声序列,即用户在进行有声的语音输入。否则,则判定用户确实在进行静默语音输入。该模块需要采集用户数据,并使用机器学习的方法训练模型并进行识别。
114最终的识别模型,识别用户发出的指令或内容。
根据本发明的另一方面,提供了一种计算装置,包括:传感器,能够捕捉用于嘴部运动信号;控制器和存储器,存储器上存储有计算机可执行指令,当所述计算机可执行指令当被控制器执行时,可操作来执行前述静默语音输入辨识方法。
根据本发明的再一方面,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令当被计算机执行时,可操作来执行前述的静默语音输入辨识方法。
根据本发明的另一方面,提供了一种静默语音输入辨识方法,包括:用户运动嘴部特征序列获得部件,获得用户运动嘴部特征序列;检测嘴部运动是否为语言输入模块,利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动;静音语言输入判断,在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下,判断用户是否在进行静音语言输入;静音语言输入内容识别模块,在判定用户在进行静音语言输入的情况下,进行静音语言输入内容的识别。
利用本发明的静默语音输入辨识方法,计算装置首先判断用户是否真的在进行静默语音输入,而不是用户的嘴部在进行其他的自然运动或者发出声音的语音,由此通过过滤掉无关输入,能够提高静默语音输入内容的识别准确率。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种静默语音输入辨识方法,包括:
获得用户运动嘴部特征序列;
利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动;
在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下,判断用户是否在进行静音语言输入,包括:依据预定的在静音语言输入情况下的嘴部特征与声音信号之间的匹配模型,判定嘴部特征序列与声音信号序列之间的匹配程度,并在匹配程度低于预定阈值的情况下,判定用户在进行静音语言输入;
在判定用户在进行静音语言输入的情况下,进行静音语言输入内容的识别。
2.根据权利要求1所述的静默语音输入辨识方法,所述运动嘴部特征序列是从肌电传感器捕获的运动嘴部图像序列提取的。
3.根据权利要求1所述的静默语音输入辨识方法,所述运动嘴部特征序列是从通过摄像头捕获的运动嘴部图像序列提取的。
4.根据权利要求3所述的静默语音输入辨识方法,所述运动嘴部图像数据为RGB数据、结构光、红外点云数据、深度点云数据中的一种或组合。
5.根据权利要求3所述的静默语音输入辨识方法,所述运动嘴部图像序列是如下获得的:
基于机器学习识别用户人脸位置并提取用户面部特征点,以及通过特征点获取用户嘴部的实时图像。
6.根据权利要求1所述的静默语音输入辨识方法,输入嘴部运动判别器的用户运动嘴部特征序列至少包括标识三个状态的三个特征数据片:第一特征数据片为表征嘴部开始运动的特征数据片,第二特征数据片为表征嘴部持续运动的特征数据片,第三特征数据片为表征嘴部停止运动的特征数据片。
7.根据权利要求1所述的静默语音输入辨识方法,所述判别器为二分类器,是基于采集的用户数据使用机器学习方法训练得到的。
8.根据权利要求1所述的静默语音输入辨识方法,还包括:
在进行静音语言输入内容的识别之后,识别出的指令或内容来进行响应。
9.一种计算装置,包括:
传感器,能够捕捉用于嘴部运动信号;
控制器和存储器,存储器上存储有计算机可执行指令,当所述计算机可执行指令当被控制器执行时,可操作来执行权利要求1到8任一项所述的静默语音输入辨识方法。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令当被计算机执行时,可操作来执行权利要求1到8任一项所述的静默语音输入辨识方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811168994.2A CN109558788B (zh) | 2018-10-08 | 2018-10-08 | 静默语音输入辨识方法、计算装置和计算机可读介质 |
PCT/CN2018/114608 WO2020073403A1 (zh) | 2018-10-08 | 2018-11-08 | 静默语音输入辨识方法、计算装置和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811168994.2A CN109558788B (zh) | 2018-10-08 | 2018-10-08 | 静默语音输入辨识方法、计算装置和计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109558788A CN109558788A (zh) | 2019-04-02 |
CN109558788B true CN109558788B (zh) | 2023-10-27 |
Family
ID=65864802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811168994.2A Active CN109558788B (zh) | 2018-10-08 | 2018-10-08 | 静默语音输入辨识方法、计算装置和计算机可读介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109558788B (zh) |
WO (1) | WO2020073403A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223711B (zh) * | 2019-06-03 | 2021-06-01 | 清华大学 | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 |
CN110865705B (zh) * | 2019-10-24 | 2023-09-19 | 中国人民解放军军事科学院国防科技创新研究院 | 多模态融合的通讯方法、装置、头戴设备及存储介质 |
US11935538B2 (en) * | 2020-08-14 | 2024-03-19 | Lenovo (Singapore) Pte. Ltd. | Headset boom with infrared lamp(s) and/or sensor(s) |
CN113160813B (zh) * | 2021-02-24 | 2022-12-27 | 北京三快在线科技有限公司 | 输出响应信息的方法、装置、电子设备及存储介质 |
CN113810819B (zh) * | 2021-09-23 | 2022-06-28 | 中国科学院软件研究所 | 一种基于耳腔振动的静默语音采集处理方法及设备 |
CN115857706B (zh) * | 2023-03-03 | 2023-06-06 | 浙江强脑科技有限公司 | 基于面部肌肉状态的文字输入方法、装置及终端设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
CN101950249A (zh) * | 2010-07-14 | 2011-01-19 | 北京理工大学 | 默声音符编码字符输入方法和装置 |
CN102023703A (zh) * | 2009-09-22 | 2011-04-20 | 现代自动车株式会社 | 组合唇读与语音识别的多模式界面系统 |
CN104808794A (zh) * | 2015-04-24 | 2015-07-29 | 北京旷视科技有限公司 | 一种唇语输入方法和系统 |
CN105912092A (zh) * | 2016-04-06 | 2016-08-31 | 北京地平线机器人技术研发有限公司 | 人机交互中的语音唤醒方法及语音识别装置 |
CN107004405A (zh) * | 2014-12-18 | 2017-08-01 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
CN108154140A (zh) * | 2018-01-22 | 2018-06-12 | 北京百度网讯科技有限公司 | 基于唇语的语音唤醒方法、装置、设备及计算机可读介质 |
CN108537207A (zh) * | 2018-04-24 | 2018-09-14 | Oppo广东移动通信有限公司 | 唇语识别方法、装置、存储介质及移动终端 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014209262A1 (en) * | 2013-06-24 | 2014-12-31 | Intel Corporation | Speech detection based upon facial movements |
KR102351497B1 (ko) * | 2015-03-19 | 2022-01-14 | 삼성전자주식회사 | 영상 정보를 기반으로 음성 구간을 검출하는 방법 및 장치 |
CN105335755B (zh) * | 2015-10-29 | 2018-08-21 | 武汉大学 | 一种涉及媒体片段的说话检测方法及系统 |
CN106250829A (zh) * | 2016-07-22 | 2016-12-21 | 中国科学院自动化研究所 | 基于唇部纹理结构的数字识别方法 |
CN107358167A (zh) * | 2017-06-19 | 2017-11-17 | 西南科技大学 | 一种基于主动红外视频的打哈欠判别方法 |
-
2018
- 2018-10-08 CN CN201811168994.2A patent/CN109558788B/zh active Active
- 2018-11-08 WO PCT/CN2018/114608 patent/WO2020073403A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
CN102023703A (zh) * | 2009-09-22 | 2011-04-20 | 现代自动车株式会社 | 组合唇读与语音识别的多模式界面系统 |
CN101950249A (zh) * | 2010-07-14 | 2011-01-19 | 北京理工大学 | 默声音符编码字符输入方法和装置 |
CN107004405A (zh) * | 2014-12-18 | 2017-08-01 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
CN104808794A (zh) * | 2015-04-24 | 2015-07-29 | 北京旷视科技有限公司 | 一种唇语输入方法和系统 |
CN105912092A (zh) * | 2016-04-06 | 2016-08-31 | 北京地平线机器人技术研发有限公司 | 人机交互中的语音唤醒方法及语音识别装置 |
CN108154140A (zh) * | 2018-01-22 | 2018-06-12 | 北京百度网讯科技有限公司 | 基于唇语的语音唤醒方法、装置、设备及计算机可读介质 |
CN108537207A (zh) * | 2018-04-24 | 2018-09-14 | Oppo广东移动通信有限公司 | 唇语识别方法、装置、存储介质及移动终端 |
Also Published As
Publication number | Publication date |
---|---|
CN109558788A (zh) | 2019-04-02 |
WO2020073403A1 (zh) | 2020-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558788B (zh) | 静默语音输入辨识方法、计算装置和计算机可读介质 | |
CN104361276B (zh) | 一种多模态生物特征身份认证方法及系统 | |
CN108227903B (zh) | 一种虚拟现实语言交互系统与方法 | |
JP5323770B2 (ja) | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 | |
WO2016150001A1 (zh) | 语音识别的方法、装置及计算机存储介质 | |
WO2019127262A1 (zh) | 基于云端的人脸活体检测方法、电子设备和程序产品 | |
KR100948600B1 (ko) | 제스처/음성 융합 인식 시스템 및 방법 | |
KR102167760B1 (ko) | 수어동작 인식 처리절차 및 움직임 추적 Pre-trained 모델을 이용한 수어동작 분석 알고리즘 시스템 | |
KR101937323B1 (ko) | 위장 얼굴 판별 장치 및 방법 | |
JP5797009B2 (ja) | 音声認識装置、ロボット、及び音声認識方法 | |
TW201937344A (zh) | 智慧型機器人及人機交互方法 | |
EP3890342A1 (en) | Method and apparatus for awakening wearable device | |
WO2017219450A1 (zh) | 一种信息处理方法、装置及移动终端 | |
Ani et al. | Smart Specs: Voice assisted text reading system for visually impaired persons using TTS method | |
KR101187600B1 (ko) | 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법 | |
CN110992783A (zh) | 一种基于机器学习的手语翻译方法及翻译设备 | |
CN111326152A (zh) | 语音控制方法及装置 | |
WO2014173325A1 (zh) | 喉音识别方法及装置 | |
KR20210066774A (ko) | 멀티모달 기반 사용자 구별 방법 및 장치 | |
CN112639964A (zh) | 利用深度信息识别语音的方法、系统及计算机可读介质 | |
KR102037789B1 (ko) | 로봇을 이용한 수화통역시스템 | |
JP7032284B2 (ja) | ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法 | |
CN110653812B (zh) | 一种机器人的交互方法、机器人及具有存储功能的装置 | |
CN112567455A (zh) | 使用深度信息净化声音的方法和系统以及计算机可读介质 | |
KR101171047B1 (ko) | 음성 및 영상 인식 기능을 갖는 로봇 시스템 및 그의 인식 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |