CN105389097A - 一种人机交互装置及方法 - Google Patents

一种人机交互装置及方法 Download PDF

Info

Publication number
CN105389097A
CN105389097A CN201410446967.2A CN201410446967A CN105389097A CN 105389097 A CN105389097 A CN 105389097A CN 201410446967 A CN201410446967 A CN 201410446967A CN 105389097 A CN105389097 A CN 105389097A
Authority
CN
China
Prior art keywords
labiomaney
microphone
camera
image
lip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201410446967.2A
Other languages
English (en)
Inventor
陈军
姚立哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201410446967.2A priority Critical patent/CN105389097A/zh
Priority to PCT/CN2014/089020 priority patent/WO2015154419A1/zh
Publication of CN105389097A publication Critical patent/CN105389097A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种人机交互装置及方法,涉及电子信息领域。本发明公开的一种人机交互方法,包括:人机交互装置中的麦克风获取语音信号的过程中,如果检测到有效的语音输入,则启动所述人机交互装置中的摄像头实时获取唇读图像;所述人机交互装置对所获取的唇读图像形成的序列进行处理,得到唇动特征数据;所述人机交互装置将所述唇动特征数据和从所述语音信号中提取的语音特征数据进行融合,识别输入的语音。本发明还公开了一种人机交互装置,以及另一种人机交互方法及对应的装置。本申请技术方案有效改善了语音识别,提高了机器识别率。

Description

一种人机交互装置及方法
技术领域
本发明涉及电子信息领域,更具体涉及到一种人机交互装置及方法。
背景技术
随着移动终端设备的多样化、智能化发展,人机交互方式也呈现多样化趋势,从传统的按键输入到触摸输入,以及指纹、语音、手势等多形态的生物特征能被智能终端有效识别,人机交互技术也得到广泛研究和应用。
但是,现有人机交互装置对于噪声干扰并没有十分有效的解决方案。
发明内容
本发明所要解决的技术问题是提供一种人机交互装置及方法,以解决噪声干扰的环境中语音识别可靠性低的问题。
为了解决上述技术问题,本发明公开了一种人机交互方法,该方法包括:
人机交互装置中的麦克风获取语音信号的过程中,如果检测到有效的语音输入,则启动所述人机交互装置中的摄像头实时获取唇读图像;
所述人机交互装置对所获取的唇读图像形成的序列进行处理,得到唇动特征数据;
所述人机交互装置将所述唇动特征数据和从所述语音信号中提取的语音特征数据进行融合,识别输入的语音。
可选地,上述方法中,所述检测到有效的语音输入指:
所述麦克风探测声源,将探测到的声源的自然语音转换成电信号,当转换后的电信号超过设定门限值,则判断有有效的语音输入,其中,所述电信号包括电压信号或电流信号。
可选地,上述方法中启动所述人机交互装置中的摄像头实时获取唇读图像后,还包括:
所述麦克风获取到语音信号的同时,如果从所述摄像头获取的唇读图像形成的序列中得到无效的唇动特征数据,则所述人机交互装置控制所述麦克风进入侦听状态,控制所述摄像头停止工作,直到所述麦克风再次检测到有效的语音输入,再启动所述摄像头正常工作。
本发明还公开了一种人机交互方法,包括:
人机交互装置中的麦克风获取语音信号,摄像头实时获取唇读图像;
所述人机交互装置对所获取的唇读图像形成的序列进行处理,得到唇动特征数据,
所述人机交互装置将所述唇动特征数据和从所述语音信号中提取的语音特征数据进行融合识别输入的语音,其中,所述麦克风获取到语音信号,但从所述摄像头获取的唇读图像形成的序列中得到无效的唇动特征数据时,控制所述麦克风进入侦听状态,控制所述摄像头停止工作。
可选地,上述方法中控制所述麦克风进入侦听状态,控制所述摄像头停止工作后,还包括:
所述麦克风进入侦听状态时,如果检测到有效的语音输入,则进入工作状态,并启动所述摄像头实时获取唇读图像。
本发明还公开了一种人机交互装置,包括麦克风、摄像头、唇读图像处理模块和融合识别模块,其中:
所述麦克风,获取语音信号,并在检测到有效的语音输入时,启动所述摄像头;
所述摄像头,按照所述麦克风的控制,实时获取唇读图像;
所述唇读图像处理模块,对所获取的唇读图像形成的序列进行处理,得到唇动特征数据;
所述融合识别模块,对所述唇动特征数据和从所述语音信号中提取的语音特征数据进行融合识别输入的语音。
可选地,上述装置中,所述麦克风检测到有效的语音输入指:
所述麦克风探测声源,将探测到的声源的自然语音转换成电信号,当转换后的电信号超过设定门限值,则判断有有效的语音输入,其中,所述电信号包括电压信号或电流信号。
可选地,上述装置还包括:
控制模块,在所述麦克风获取到语音信号,但所述唇读图像处理模块从获取的唇读图像形成的序列中得到无效的唇动特征数据时,控制所述麦克风进入侦听状态,控制摄像头停止工作,直到所述麦克风再次检测到有效的语音输入,再启动所述摄像头正常工作。
可选地,上述装置装配在如下任一种设备中:
可穿戴设备、便携式设备、智能终端、智能家电设备、安防监控设备。
本发明还公开了一种人机交互装置,包括麦克风、摄像头、唇读图像处理模块、融合识别模块和控制模块,其中:
所述唇读图像处理模块,对所述摄像头获取的唇读图像形成的序列进行处理,得到唇动特征数据;
所述融合识别模块,对所述唇动特征数据和从所述麦克风获取的语音信号中提取的语音特征数据进行融合识别输入的语音;
控制模块,在所述麦克风获取到语音信号,但所述唇读图像处理模块从获取的唇读图像形成的序列中得到无效的唇动特征数据时,控制所述麦克风进入侦听状态,控制摄像头停止工作。
可选地,上述装置中,所述麦克风,按照所述控制模块的控制进入侦听状态后,如果检测到有效的语音输入,则进入工作状态,并启动所述摄像头实时获取唇读图像。
可选地,上述装置装配在如下任一种设备中:
可穿戴设备、便携式设备、智能终端、智能家电设备、安防监控设备。
本申请技术方案,在噪声环境下将唇读和语音进行融合,与传统的采用单一语音特征数据进行识别的技术相比,有效改善了语音识别,提高机器识别率,并且在确认有有效的语音输入时,才启动摄像头工作,也大大降低了设备功耗。还有优选方案提出将此方案应用于可穿戴智能设备中,以增强机器对用户输入的识别能力,便于用户使用,提升了用户体验。
附图说明
图1为本发明实现的交互装置结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文将结合附图对本发明技术方案作进一步详细说明。需要说明的是,在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
实施例1
本实施例提供一种人机交互方法,在噪声环境下将唇读和语音进行融合以进行语音识别。该方法主要包括如下操作:
人机交互装置中的麦克风获取语音信号的过程中,如果检测到有效的语音输入,则启动人机交互装置中的摄像头实时获取唇读图像;
人机交互装置对所获取的唇读图像形成的序列进行处理,得到唇动特征数据,
人机交互装置对上述唇动特征数据和从语音信号中提取的语音特征数据进行融合,识别输入的语音。
其中,麦克风获取语音信号的过程中,检测有效的语音输入的过程如下:
麦克风探测声源,将探测到的声源的自然语音转换成电信号,当转换后的电信号超过设定门限值,则判断有有效的语音输入。本实施例中,所涉及的电信号包括电流信号或电压信号。
另外,一些优选方案中,还提出一种唇读处理的反馈机制,即当麦克风获取到语音信号的同时,从摄像头获取的唇读图像形成的序列中得到无效的唇动特征数据(此时即认为用户的唇部没有任何动作,用户可能没有说话),则人机交互装置控制麦克风进入侦听状态,控制摄像头停止工作,直到麦克风再次检测到有效的语音输入,再启动摄像头正常工作。这种机制,主要针对噪声影响大的情况,结合用户的唇动特征,准确地辩识是用户语音还是噪声,并在辨识出噪声时,停止摄像头工作,以提高设备利用率。
相应地,上述人机交互装置还可以根据用户指令保留麦克风进行语音信号的获取,而通知摄像头取消唇读图像的获取。从而适应特殊场景中,用户对识别方式的选择,提高用户体验感。
下面结合具体应用场景说明上述方法的实现过程。
例如:用户使用一个头戴式耳麦与智能设备进行语音交互,由于机器对人的语音识别在嘈杂环境下或用户语音语调有问题时会明显降低,为提高对语音的识别率,可以利用对唇读图像的识别进一步提高语音识别的准确度,便于机器更好理解用户的语言表达,执行用户的语音指令。具体地,人机交互过程如下:
步骤1:麦克风获取语音信号,并在有有效的语音输入时,启动摄像头工作;
麦克风主要是采用声压传感器来探测声源并把自然语音转换成电信号。为了区别背景音,可设置一个声压传感器电信号的门限值,用以判定是否有有效的语音输入。当转换后的声压传感器电信号大于或者不小于设定门限值,则判定有有效的语音输入时,通知摄像头启动,开始正常工作。
并且当麦克风检测到有有效的语音输入时,才通知摄像头工作,获取唇读图像,这样操作可以降低设备功耗的。
步骤2:摄像头获取唇读图像。
通常的获取唇读图像是在图像序列中先进行人脸识别,确定唇部位置,再获取唇动数据。实际应用中,优选采用具有指向性的麦克风,且摄像头内置在麦克风内(或麦克风内置在摄像头内),例如头戴式耳麦,摄像头位于麦克风处,用户使用时,摄像头直接对准用户唇部,这样方便获取唇部图像。
步骤3:对获取的唇读图像形成的序列进行处理,得到唇动特征数据。
主要是对于唇读图像形成的序列进行唇部定位与跟踪,唇动特征提取,最后将唇动特征数据输出到融合识别模块。
另外通过用户配置,可设置唇读处理的反馈机制。例如在嘈杂环境下,或交叉讲话者情景下,麦克风在用户没有说话时如果获取了其他的声音信号,而导致摄像头启动获取唇部图像,但此时唇读图像进行处理时不会提取到唇动特征。此时,人机交互装置则可通知摄像头、语音处理模块及唇读处理模块、融合识别模块停止工作,仅使麦克风处于侦听状态。
在某些特殊场景,还可设置成取消唇读处理的反馈机制,例如在摄像头不能有效捕获唇读数据时,仅通过语音进行人机交互,以避免唇读识别结果反而对语音识别进行干扰。或者针对特殊场景或特殊人群,还可设置仅通过唇读进行人机交互。
步骤4:对获取的语音进行处理,得到语音特征数据。
要说明的是,由于人机交互装置中,对唇读图像的处理,以及对语音的处理,是由两个相互独立的部分分别进行操作的,故上述步骤3和步骤4的先后顺序可以调整,也可以同时。
步骤5:融合识别模块对语音特征数据和唇动特征数据进行融合识别。
唇读和语音是互补的两个通道,例如在语音信号通道难以区分的/m/和/n/的单元音在视觉上是可以区分的;在视觉上难以区分的/b/、/p/和/m/单元音,在语音信号上是可以区分的。特别在噪音环境和多话者条件下,借助唇读图像的辅助信息能明显提高机器的语音识别率。采用现有唇读和语音的融合识别处理技术,对唇读识别和语音识别结果不一致的进行修正处理。当两个信道信息不一致时,利用训练过的识别库可判别哪个信道信息更可靠,从而提高语音识别率。
而上述方法中所涉及的人机交互装置还可以装配在可穿戴设备(如智能眼镜、智能头盔)、便携式设备以及智能终端、智能家电设备,以及安防监控等设备中。
实施例2
本实施例提供一种人机交互方法,该方法包括如下操作:
人机交互装置中的麦克风获取语音信号,摄像头实时获取唇读图像;
人机交互装置对所获取的唇读图像形成的序列进行处理,得到唇动特征数据;
人机交互装置对上述唇动特征数据和从语音信号中提取的语音特征数据进行融合,识别输入的语音,其中,麦克风获取到语音信号,但从摄像头获取的唇读图像形成的序列中得到无效的唇动特征数据时,控制麦克风进入侦听状态,控制摄像头停止工作。
优选方案中,在控制麦克风进入侦听状态,控制摄像头停止工作后,麦克风还会检测是否有有效的语音输入,如果检测到有效的语音输入,则会进行工作状态,并启动摄像头开始工作。
实施例3
本实施例提供一种人机交互装置,该交互装置如图1所示,包括如下各部分。
麦克风,获取语音信号,并在检测到有效的语音输入时,启动摄像头。
具体地,麦克风探测音源并将自然语音转换成电压或电流信号,当电压或电流信号大于或者不小于设定门限值时,即认为检测到了有效的语音输入。
摄像头,按照所述麦克风的控制,实时获取唇读图像;
具体地,接收麦克风的控制信号,当麦克风探测到有效声源时同步对唇部图像进行摄像;
唇读图像处理模块,对所获取的唇读图像形成的序列进行处理,得到唇动特征数据;
具体地,对唇读图像进行唇部定位、跟踪,提取唇动特征数据;
语音处理模块,对语音信号进行处理,得到语音特征数据。
融合识别模块,对唇动特征数据和语音特征数据进行融合,识别输入的语音。
具体地,利用训练过的模型库对于唇动特征数据和语音特征数据进行融合识别。
另外,上述装置还可以采用唇读的反馈机制,此时需要增加控制模块,该模块在麦克风获取到语音信号,但唇读图像处理模块从获取的唇读图像形成的序列中得到无效的唇动特征数据(也可认为是从唇读图像形成的序列中无法提取到唇动特征数据)时,控制麦克风进入侦听状态,控制摄像头停止工作。同时还控制唇读图像处理模块、语音处理模块及融合识别模块也停止工作,从而降低装置的功耗。
优选地,麦克风进入侦听状态后,可以检测是否有有效的语音输入,如果检测到有效的语音输入,则进入工作状态,并启动摄像头、唇读图像处理模块、语音处理模块及融合识别模块正常工作。此种方案,不仅提高了噪声环境下的语音识别的可靠性,并且降低了设备功耗。
另外,上述控制模块,还可以根据用户指令保留麦克风进行语音信号的获取,并通知摄像头取消唇读图像的获取。也就是说,控制模块可以根据用户指令来选择语音识别方式,例如单独采用麦克风进行语音识别,也可单独采用摄像头进行语音识别,也可以两种方式同时使用。
实际使用中,上述装置可内置于如下任一设备中:
可穿戴设备、便携式设备、智能终端、智能家电设备、安防监控设备。
其中,麦克风和摄像头优选地配置在设备同一侧,例如将摄像头装配在头戴式耳麦的麦克风处,其他各部分可装配在智能机器设备上。
实施例4
本实施例提供一种人机交互装置,包括如下各部分。
麦克风,获取语音信号。
摄像头,实时获取唇读图像;
唇读图像处理模块,对所获取的唇读图像形成的序列进行处理,得到唇动特征数据;
具体地,对唇读图像进行唇部定位、跟踪,提取唇动特征数据;
语音处理模块,对语音信号进行处理,得到语音特征数据。
融合识别模块,对唇动特征数据和语音特征数据进行融合识别输入的语音。
具体地,利用训练过的模型库对于唇动特征数据和语音特征数据进行融合识别。
控制模块,在麦克风获取到语音信号,但唇读图像处理模块从获取的唇读图像中得到无效的唇动特征数据(即无法得到可以辨识的唇动特征数据)时,控制麦克风进入侦听状态,控制摄像头停止工作。
另外,上述控制模块,还可以根据用户指令保留麦克风进行语音信号的获取,并通知摄像头取消唇读图像的获取。也就是说,控制模块可以根据用户指令来选择语音识别方式,例如单独采用麦克风进行语音识别,也可单独采用摄像头进行语音识别,也可以两种方式同时使用。
优先地,上述麦克风可以在有有效的语音输入时,再启动摄像头工作,以降低设备功耗。具体地,麦克风探测音源并将自然语音转换成电信号,当电信号大于或者不小于设定门限值时,即认为检测到了有效的语音输入。
实际使用中,上述装置可内置于如下任一设备中:
可穿戴设备、便携式设备、智能终端、智能家电设备、安防监控设备。
其中,麦克风和摄像头优选地配置在设备同一侧,例如将摄像头装配在头戴式耳麦的麦克风处,其他各部分可装配在智能机器设备上。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。
以上所述,仅为本发明的较佳实例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种人机交互方法,其特征在于,该方法包括:
人机交互装置中的麦克风获取语音信号的过程中,如果检测到有效的语音输入,则启动所述人机交互装置中的摄像头实时获取唇读图像;
所述人机交互装置对所获取的唇读图像形成的序列进行处理,得到唇动特征数据;
所述人机交互装置将所述唇动特征数据和从所述语音信号中提取的语音特征数据进行融合,识别输入的语音。
2.如权利要求1所述的方法,其特征在于,所述检测到有效的语音输入指:
所述麦克风探测声源,将探测到的声源的自然语音转换成电信号,当转换后的电信号超过设定门限值,则判断有有效的语音输入,其中,所述电信号包括电压信号或电流信号。
3.如权利要求1或2所述的方法,其特征在于,启动所述人机交互装置中的摄像头实时获取唇读图像后,该方法还包括:
所述麦克风获取到语音信号的同时,如果从所述摄像头获取的唇读图像形成的序列中得到无效的唇动特征数据,则所述人机交互装置控制所述麦克风进入侦听状态,控制所述摄像头停止工作,直到所述麦克风再次检测到有效的语音输入,再启动所述摄像头正常工作。
4.一种人机交互方法,其特征在于,该方法包括:
人机交互装置中的麦克风获取语音信号,摄像头实时获取唇读图像;
所述人机交互装置对所获取的唇读图像形成的序列进行处理,得到唇动特征数据,
所述人机交互装置将所述唇动特征数据和从所述语音信号中提取的语音特征数据进行融合识别输入的语音,其中,所述麦克风获取到语音信号,但从所述摄像头获取的唇读图像形成的序列中得到无效的唇动特征数据时,控制所述麦克风进入侦听状态,控制所述摄像头停止工作。
5.如权利要求4所述的方法,其特征在于,控制所述麦克风进入侦听状态,控制所述摄像头停止工作后,该方法还包括:
所述麦克风进入侦听状态时,如果检测到有效的语音输入,则进入工作状态,并启动所述摄像头实时获取唇读图像。
6.一种人机交互装置,其特征在于,包括麦克风、摄像头、唇读图像处理模块和融合识别模块,其中:
所述麦克风,获取语音信号,并在检测到有效的语音输入时,启动所述摄像头;
所述摄像头,按照所述麦克风的控制,实时获取唇读图像;
所述唇读图像处理模块,对所获取的唇读图像形成的序列进行处理,得到唇动特征数据;
所述融合识别模块,对所述唇动特征数据和从所述语音信号中提取的语音特征数据进行融合识别输入的语音。
7.如权利要求6所述的装置,其特征在于,所述麦克风检测到有效的语音输入指:
所述麦克风探测声源,将探测到的声源的自然语音转换成电信号,当转换后的电信号超过设定门限值,则判断有有效的语音输入,其中,所述电信号包括电压信号或电流信号。
8.如权利要求6或7所述的装置,其特征在于,还包括:
控制模块,在所述麦克风获取到语音信号,但所述唇读图像处理模块从获取的唇读图像形成的序列中得到无效的唇动特征数据时,控制所述麦克风进入侦听状态,控制摄像头停止工作,直到所述麦克风再次检测到有效的语音输入,再启动所述摄像头正常工作。
9.如权利要求8所述的装置,其特征在于,所述装置装配在如下任一种设备中:
可穿戴设备、便携式设备、智能终端、智能家电设备、安防监控设备。
10.一种人机交互装置,包括麦克风和摄像头,其特征在于,还包括唇读图像处理模块、融合识别模块和控制模块,其中:
所述唇读图像处理模块,对所述摄像头获取的唇读图像形成的序列进行处理,得到唇动特征数据;
所述融合识别模块,对所述唇动特征数据和从所述麦克风获取的语音信号中提取的语音特征数据进行融合识别输入的语音;
控制模块,在所述麦克风获取到语音信号,但所述唇读图像处理模块从获取的唇读图像形成的序列中得到无效的唇动特征数据时,控制所述麦克风进入侦听状态,控制摄像头停止工作。
11.如权利要求10所述的装置,其特征在于,
所述麦克风,按照所述控制模块的控制进入侦听状态后,如果检测到有效的语音输入,则进入工作状态,并启动所述摄像头实时获取唇读图像。
12.如权利要求10或11所述的装置,其特征在于,所述装置装配在如下任一种设备中:
可穿戴设备、便携式设备、智能终端、智能家电设备、安防监控设备。
CN201410446967.2A 2014-09-03 2014-09-03 一种人机交互装置及方法 Withdrawn CN105389097A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410446967.2A CN105389097A (zh) 2014-09-03 2014-09-03 一种人机交互装置及方法
PCT/CN2014/089020 WO2015154419A1 (zh) 2014-09-03 2014-10-21 一种人机交互装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410446967.2A CN105389097A (zh) 2014-09-03 2014-09-03 一种人机交互装置及方法

Publications (1)

Publication Number Publication Date
CN105389097A true CN105389097A (zh) 2016-03-09

Family

ID=54287187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410446967.2A Withdrawn CN105389097A (zh) 2014-09-03 2014-09-03 一种人机交互装置及方法

Country Status (2)

Country Link
CN (1) CN105389097A (zh)
WO (1) WO2015154419A1 (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293300A (zh) * 2017-08-01 2017-10-24 珠海市魅族科技有限公司 语音识别方法及装置、计算机装置及可读存储介质
CN107452381A (zh) * 2016-05-30 2017-12-08 中国移动通信有限公司研究院 一种多媒体语音识别装置及方法
WO2018113650A1 (zh) * 2016-12-21 2018-06-28 深圳市掌网科技股份有限公司 一种虚拟现实语言交互系统与方法
WO2019033568A1 (zh) * 2017-08-17 2019-02-21 平安科技(深圳)有限公司 嘴唇动作捕捉方法、装置及存储介质
JP2019128938A (ja) * 2018-01-22 2019-08-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体
CN110111783A (zh) * 2019-04-10 2019-08-09 天津大学 一种基于深度神经网络的多模态语音识别方法
CN110335600A (zh) * 2019-07-09 2019-10-15 四川长虹电器股份有限公司 家电设备的多模态交互方法及系统
CN110765868A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 唇读模型的生成方法、装置、设备及存储介质
CN111063354A (zh) * 2019-10-30 2020-04-24 云知声智能科技股份有限公司 人机交互方法及装置
CN111190484A (zh) * 2019-12-25 2020-05-22 中国人民解放军军事科学院国防科技创新研究院 一种多模态交互系统和方法
CN111312217A (zh) * 2020-02-28 2020-06-19 科大讯飞股份有限公司 语音识别方法、装置、设备及存储介质
CN111326152A (zh) * 2018-12-17 2020-06-23 南京人工智能高等研究院有限公司 语音控制方法及装置
CN111448533A (zh) * 2017-12-15 2020-07-24 国际商业机器公司 认知系统的通信模型
CN111539270A (zh) * 2020-04-10 2020-08-14 贵州合谷信息科技有限公司 一种用于语音输入法的高识别率微表情识别方法
WO2020172828A1 (zh) * 2019-02-27 2020-09-03 华为技术有限公司 一种声源分离方法、装置及设备
CN112908334A (zh) * 2021-01-31 2021-06-04 云知声智能科技股份有限公司 一种基于定向拾音的助听方法、装置及设备
CN114255556A (zh) * 2021-11-30 2022-03-29 歌尔科技有限公司 智能安防控制方法、智能安防设备及控制器
CN114708642A (zh) * 2022-05-24 2022-07-05 成都锦城学院 商务英语仿真实训装置、系统、方法及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319912A (zh) * 2018-01-30 2018-07-24 歌尔科技有限公司 一种唇语识别方法、装置、系统和智能眼镜
CN112053690B (zh) * 2020-09-22 2023-12-29 湖南大学 一种跨模态多特征融合的音视频语音识别方法及系统
CN112541956A (zh) * 2020-11-05 2021-03-23 北京百度网讯科技有限公司 动画合成方法、装置、移动终端和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070136071A1 (en) * 2005-12-08 2007-06-14 Lee Soo J Apparatus and method for speech segment detection and system for speech recognition
CN102023703A (zh) * 2009-09-22 2011-04-20 现代自动车株式会社 组合唇读与语音识别的多模式界面系统
CN102324035A (zh) * 2011-08-19 2012-01-18 广东好帮手电子科技股份有限公司 口型辅助语音识别术在车载导航中应用的方法及系统
CN103745723A (zh) * 2014-01-13 2014-04-23 苏州思必驰信息科技有限公司 一种音频信号识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8798311B2 (en) * 2009-01-23 2014-08-05 Eldon Technology Limited Scrolling display of electronic program guide utilizing images of user lip movements
US20100332229A1 (en) * 2009-06-30 2010-12-30 Sony Corporation Apparatus control based on visual lip share recognition
CN103456303A (zh) * 2013-08-08 2013-12-18 四川长虹电器股份有限公司 一种语音控制的方法和智能空调系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070136071A1 (en) * 2005-12-08 2007-06-14 Lee Soo J Apparatus and method for speech segment detection and system for speech recognition
CN102023703A (zh) * 2009-09-22 2011-04-20 现代自动车株式会社 组合唇读与语音识别的多模式界面系统
CN102324035A (zh) * 2011-08-19 2012-01-18 广东好帮手电子科技股份有限公司 口型辅助语音识别术在车载导航中应用的方法及系统
CN103745723A (zh) * 2014-01-13 2014-04-23 苏州思必驰信息科技有限公司 一种音频信号识别方法及装置

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107452381A (zh) * 2016-05-30 2017-12-08 中国移动通信有限公司研究院 一种多媒体语音识别装置及方法
CN107452381B (zh) * 2016-05-30 2020-12-29 中国移动通信有限公司研究院 一种多媒体语音识别装置及方法
CN108227903B (zh) * 2016-12-21 2020-01-10 深圳市掌网科技股份有限公司 一种虚拟现实语言交互系统与方法
WO2018113650A1 (zh) * 2016-12-21 2018-06-28 深圳市掌网科技股份有限公司 一种虚拟现实语言交互系统与方法
CN108227903A (zh) * 2016-12-21 2018-06-29 深圳市掌网科技股份有限公司 一种虚拟现实语言交互系统与方法
CN107293300A (zh) * 2017-08-01 2017-10-24 珠海市魅族科技有限公司 语音识别方法及装置、计算机装置及可读存储介质
WO2019033568A1 (zh) * 2017-08-17 2019-02-21 平安科技(深圳)有限公司 嘴唇动作捕捉方法、装置及存储介质
CN111448533A (zh) * 2017-12-15 2020-07-24 国际商业机器公司 认知系统的通信模型
CN111448533B (zh) * 2017-12-15 2024-02-13 国际商业机器公司 认知系统的通信模型
US11836592B2 (en) 2017-12-15 2023-12-05 International Business Machines Corporation Communication model for cognitive systems
JP2019128938A (ja) * 2018-01-22 2019-08-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体
US10810413B2 (en) 2018-01-22 2020-10-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Wakeup method, apparatus and device based on lip reading, and computer readable medium
CN111326152A (zh) * 2018-12-17 2020-06-23 南京人工智能高等研究院有限公司 语音控制方法及装置
WO2020172828A1 (zh) * 2019-02-27 2020-09-03 华为技术有限公司 一种声源分离方法、装置及设备
CN110111783A (zh) * 2019-04-10 2019-08-09 天津大学 一种基于深度神经网络的多模态语音识别方法
CN110335600A (zh) * 2019-07-09 2019-10-15 四川长虹电器股份有限公司 家电设备的多模态交互方法及系统
CN110765868A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 唇读模型的生成方法、装置、设备及存储介质
CN111063354A (zh) * 2019-10-30 2020-04-24 云知声智能科技股份有限公司 人机交互方法及装置
CN111063354B (zh) * 2019-10-30 2022-03-25 云知声智能科技股份有限公司 人机交互方法及装置
CN111190484A (zh) * 2019-12-25 2020-05-22 中国人民解放军军事科学院国防科技创新研究院 一种多模态交互系统和方法
CN111312217A (zh) * 2020-02-28 2020-06-19 科大讯飞股份有限公司 语音识别方法、装置、设备及存储介质
WO2021169023A1 (zh) * 2020-02-28 2021-09-02 科大讯飞股份有限公司 语音识别方法、装置、设备及存储介质
CN111539270A (zh) * 2020-04-10 2020-08-14 贵州合谷信息科技有限公司 一种用于语音输入法的高识别率微表情识别方法
CN112908334A (zh) * 2021-01-31 2021-06-04 云知声智能科技股份有限公司 一种基于定向拾音的助听方法、装置及设备
CN114255556A (zh) * 2021-11-30 2022-03-29 歌尔科技有限公司 智能安防控制方法、智能安防设备及控制器
CN114708642A (zh) * 2022-05-24 2022-07-05 成都锦城学院 商务英语仿真实训装置、系统、方法及存储介质

Also Published As

Publication number Publication date
WO2015154419A1 (zh) 2015-10-15

Similar Documents

Publication Publication Date Title
CN105389097A (zh) 一种人机交互装置及方法
US20190057247A1 (en) Method for awakening intelligent robot, and intelligent robot
CN105957521B (zh) 一种用于机器人的语音和图像复合交互执行方法及系统
US20200209950A1 (en) Device-facing human-computer interaction method and system
CN110164440B (zh) 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质
US9390726B1 (en) Supplementing speech commands with gestures
US20150364140A1 (en) Portable Electronic Equipment and Method of Operating a User Interface
US20150331490A1 (en) Voice recognition device, voice recognition method, and program
WO2016150001A1 (zh) 语音识别的方法、装置及计算机存储介质
Oviatt Advances in robust multimodal interface design
KR101330810B1 (ko) 원거리 제스쳐 인식 기능을 갖는 디바이스 및 그 방법
JP4675840B2 (ja) リモートコントローラ並びに家電機器
US20150077329A1 (en) Eye tracking-based user interface method and apparatus
CN110326300B (zh) 信息处理设备、信息处理方法及计算机可读存储介质
KR20150112337A (ko) 디스플레이 장치 및 그 사용자 인터랙션 방법
JP3844874B2 (ja) マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
KR102203720B1 (ko) 음성 인식 방법 및 장치
CN111432303A (zh) 单耳耳机、智能电子设备、方法和计算机可读介质
CN109240639A (zh) 音频数据的获取方法、装置、存储介质及终端
CN110221693A (zh) 一种基于人机交互的智能零售终端操作系统
CN115206306A (zh) 语音交互方法、装置、设备及系统
KR20210066774A (ko) 멀티모달 기반 사용자 구별 방법 및 장치
CN114239610A (zh) 多国语言语音辨识及翻译方法与相关的系统
WO2020244401A1 (zh) 基于靠近嘴部检测的语音输入唤醒装置、方法和介质
CN110491384B (zh) 一种语音数据处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20160309

WW01 Invention patent application withdrawn after publication