CN105389097A

CN105389097A - 一种人机交互装置及方法

Info

Publication number: CN105389097A
Application number: CN201410446967.2A
Authority: CN
Inventors: 陈军; 姚立哲
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2014-09-03
Filing date: 2014-09-03
Publication date: 2016-03-09
Also published as: WO2015154419A1

Abstract

本发明公开了一种人机交互装置及方法，涉及电子信息领域。本发明公开的一种人机交互方法，包括：人机交互装置中的麦克风获取语音信号的过程中，如果检测到有效的语音输入，则启动所述人机交互装置中的摄像头实时获取唇读图像；所述人机交互装置对所获取的唇读图像形成的序列进行处理，得到唇动特征数据；所述人机交互装置将所述唇动特征数据和从所述语音信号中提取的语音特征数据进行融合，识别输入的语音。本发明还公开了一种人机交互装置，以及另一种人机交互方法及对应的装置。本申请技术方案有效改善了语音识别，提高了机器识别率。

Description

一种人机交互装置及方法

技术领域

本发明涉及电子信息领域，更具体涉及到一种人机交互装置及方法。

背景技术

随着移动终端设备的多样化、智能化发展，人机交互方式也呈现多样化趋势，从传统的按键输入到触摸输入，以及指纹、语音、手势等多形态的生物特征能被智能终端有效识别，人机交互技术也得到广泛研究和应用。

但是，现有人机交互装置对于噪声干扰并没有十分有效的解决方案。

发明内容

本发明所要解决的技术问题是提供一种人机交互装置及方法，以解决噪声干扰的环境中语音识别可靠性低的问题。

为了解决上述技术问题，本发明公开了一种人机交互方法，该方法包括：

人机交互装置中的麦克风获取语音信号的过程中，如果检测到有效的语音输入，则启动所述人机交互装置中的摄像头实时获取唇读图像；

所述人机交互装置对所获取的唇读图像形成的序列进行处理，得到唇动特征数据；

所述人机交互装置将所述唇动特征数据和从所述语音信号中提取的语音特征数据进行融合，识别输入的语音。

可选地，上述方法中，所述检测到有效的语音输入指：

所述麦克风探测声源，将探测到的声源的自然语音转换成电信号，当转换后的电信号超过设定门限值，则判断有有效的语音输入，其中，所述电信号包括电压信号或电流信号。

可选地，上述方法中启动所述人机交互装置中的摄像头实时获取唇读图像后，还包括：

所述麦克风获取到语音信号的同时，如果从所述摄像头获取的唇读图像形成的序列中得到无效的唇动特征数据，则所述人机交互装置控制所述麦克风进入侦听状态，控制所述摄像头停止工作，直到所述麦克风再次检测到有效的语音输入，再启动所述摄像头正常工作。

本发明还公开了一种人机交互方法，包括：

人机交互装置中的麦克风获取语音信号，摄像头实时获取唇读图像；

所述人机交互装置对所获取的唇读图像形成的序列进行处理，得到唇动特征数据，

所述人机交互装置将所述唇动特征数据和从所述语音信号中提取的语音特征数据进行融合识别输入的语音，其中，所述麦克风获取到语音信号，但从所述摄像头获取的唇读图像形成的序列中得到无效的唇动特征数据时，控制所述麦克风进入侦听状态，控制所述摄像头停止工作。

可选地，上述方法中控制所述麦克风进入侦听状态，控制所述摄像头停止工作后，还包括：

所述麦克风进入侦听状态时，如果检测到有效的语音输入，则进入工作状态，并启动所述摄像头实时获取唇读图像。

本发明还公开了一种人机交互装置，包括麦克风、摄像头、唇读图像处理模块和融合识别模块，其中：

所述麦克风，获取语音信号，并在检测到有效的语音输入时，启动所述摄像头；

所述摄像头，按照所述麦克风的控制，实时获取唇读图像；

所述唇读图像处理模块，对所获取的唇读图像形成的序列进行处理，得到唇动特征数据；

所述融合识别模块，对所述唇动特征数据和从所述语音信号中提取的语音特征数据进行融合识别输入的语音。

可选地，上述装置中，所述麦克风检测到有效的语音输入指：

可选地，上述装置还包括：

控制模块，在所述麦克风获取到语音信号，但所述唇读图像处理模块从获取的唇读图像形成的序列中得到无效的唇动特征数据时，控制所述麦克风进入侦听状态，控制摄像头停止工作，直到所述麦克风再次检测到有效的语音输入，再启动所述摄像头正常工作。

可选地，上述装置装配在如下任一种设备中：

可穿戴设备、便携式设备、智能终端、智能家电设备、安防监控设备。

本发明还公开了一种人机交互装置，包括麦克风、摄像头、唇读图像处理模块、融合识别模块和控制模块，其中：

所述唇读图像处理模块，对所述摄像头获取的唇读图像形成的序列进行处理，得到唇动特征数据；

所述融合识别模块，对所述唇动特征数据和从所述麦克风获取的语音信号中提取的语音特征数据进行融合识别输入的语音；

控制模块，在所述麦克风获取到语音信号，但所述唇读图像处理模块从获取的唇读图像形成的序列中得到无效的唇动特征数据时，控制所述麦克风进入侦听状态，控制摄像头停止工作。

可选地，上述装置中，所述麦克风，按照所述控制模块的控制进入侦听状态后，如果检测到有效的语音输入，则进入工作状态，并启动所述摄像头实时获取唇读图像。

可选地，上述装置装配在如下任一种设备中：

本申请技术方案，在噪声环境下将唇读和语音进行融合，与传统的采用单一语音特征数据进行识别的技术相比，有效改善了语音识别，提高机器识别率，并且在确认有有效的语音输入时，才启动摄像头工作，也大大降低了设备功耗。还有优选方案提出将此方案应用于可穿戴智能设备中，以增强机器对用户输入的识别能力，便于用户使用，提升了用户体验。

附图说明

图1为本发明实现的交互装置结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文将结合附图对本发明技术方案作进一步详细说明。需要说明的是，在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

实施例1

本实施例提供一种人机交互方法，在噪声环境下将唇读和语音进行融合以进行语音识别。该方法主要包括如下操作：

人机交互装置中的麦克风获取语音信号的过程中，如果检测到有效的语音输入，则启动人机交互装置中的摄像头实时获取唇读图像；

人机交互装置对所获取的唇读图像形成的序列进行处理，得到唇动特征数据，

人机交互装置对上述唇动特征数据和从语音信号中提取的语音特征数据进行融合，识别输入的语音。

其中，麦克风获取语音信号的过程中，检测有效的语音输入的过程如下：

麦克风探测声源，将探测到的声源的自然语音转换成电信号，当转换后的电信号超过设定门限值，则判断有有效的语音输入。本实施例中，所涉及的电信号包括电流信号或电压信号。

另外，一些优选方案中，还提出一种唇读处理的反馈机制，即当麦克风获取到语音信号的同时，从摄像头获取的唇读图像形成的序列中得到无效的唇动特征数据(此时即认为用户的唇部没有任何动作，用户可能没有说话)，则人机交互装置控制麦克风进入侦听状态，控制摄像头停止工作，直到麦克风再次检测到有效的语音输入，再启动摄像头正常工作。这种机制，主要针对噪声影响大的情况，结合用户的唇动特征，准确地辩识是用户语音还是噪声，并在辨识出噪声时，停止摄像头工作，以提高设备利用率。

相应地，上述人机交互装置还可以根据用户指令保留麦克风进行语音信号的获取，而通知摄像头取消唇读图像的获取。从而适应特殊场景中，用户对识别方式的选择，提高用户体验感。

下面结合具体应用场景说明上述方法的实现过程。

例如：用户使用一个头戴式耳麦与智能设备进行语音交互，由于机器对人的语音识别在嘈杂环境下或用户语音语调有问题时会明显降低，为提高对语音的识别率，可以利用对唇读图像的识别进一步提高语音识别的准确度，便于机器更好理解用户的语言表达，执行用户的语音指令。具体地，人机交互过程如下：

步骤1：麦克风获取语音信号，并在有有效的语音输入时，启动摄像头工作；

麦克风主要是采用声压传感器来探测声源并把自然语音转换成电信号。为了区别背景音，可设置一个声压传感器电信号的门限值，用以判定是否有有效的语音输入。当转换后的声压传感器电信号大于或者不小于设定门限值，则判定有有效的语音输入时，通知摄像头启动，开始正常工作。

并且当麦克风检测到有有效的语音输入时，才通知摄像头工作，获取唇读图像，这样操作可以降低设备功耗的。

步骤2：摄像头获取唇读图像。

通常的获取唇读图像是在图像序列中先进行人脸识别，确定唇部位置，再获取唇动数据。实际应用中，优选采用具有指向性的麦克风，且摄像头内置在麦克风内(或麦克风内置在摄像头内)，例如头戴式耳麦，摄像头位于麦克风处，用户使用时，摄像头直接对准用户唇部，这样方便获取唇部图像。

步骤3：对获取的唇读图像形成的序列进行处理，得到唇动特征数据。

主要是对于唇读图像形成的序列进行唇部定位与跟踪，唇动特征提取，最后将唇动特征数据输出到融合识别模块。

另外通过用户配置，可设置唇读处理的反馈机制。例如在嘈杂环境下，或交叉讲话者情景下，麦克风在用户没有说话时如果获取了其他的声音信号，而导致摄像头启动获取唇部图像，但此时唇读图像进行处理时不会提取到唇动特征。此时，人机交互装置则可通知摄像头、语音处理模块及唇读处理模块、融合识别模块停止工作，仅使麦克风处于侦听状态。

在某些特殊场景，还可设置成取消唇读处理的反馈机制，例如在摄像头不能有效捕获唇读数据时，仅通过语音进行人机交互，以避免唇读识别结果反而对语音识别进行干扰。或者针对特殊场景或特殊人群，还可设置仅通过唇读进行人机交互。

步骤4：对获取的语音进行处理，得到语音特征数据。

要说明的是，由于人机交互装置中，对唇读图像的处理，以及对语音的处理，是由两个相互独立的部分分别进行操作的，故上述步骤3和步骤4的先后顺序可以调整，也可以同时。

步骤5：融合识别模块对语音特征数据和唇动特征数据进行融合识别。

唇读和语音是互补的两个通道，例如在语音信号通道难以区分的/m/和/n/的单元音在视觉上是可以区分的；在视觉上难以区分的/b/、/p/和/m/单元音，在语音信号上是可以区分的。特别在噪音环境和多话者条件下，借助唇读图像的辅助信息能明显提高机器的语音识别率。采用现有唇读和语音的融合识别处理技术，对唇读识别和语音识别结果不一致的进行修正处理。当两个信道信息不一致时，利用训练过的识别库可判别哪个信道信息更可靠，从而提高语音识别率。

而上述方法中所涉及的人机交互装置还可以装配在可穿戴设备(如智能眼镜、智能头盔)、便携式设备以及智能终端、智能家电设备，以及安防监控等设备中。

实施例2

本实施例提供一种人机交互方法，该方法包括如下操作：

人机交互装置对所获取的唇读图像形成的序列进行处理，得到唇动特征数据；

人机交互装置对上述唇动特征数据和从语音信号中提取的语音特征数据进行融合，识别输入的语音，其中，麦克风获取到语音信号，但从摄像头获取的唇读图像形成的序列中得到无效的唇动特征数据时，控制麦克风进入侦听状态，控制摄像头停止工作。

优选方案中，在控制麦克风进入侦听状态，控制摄像头停止工作后，麦克风还会检测是否有有效的语音输入，如果检测到有效的语音输入，则会进行工作状态，并启动摄像头开始工作。

实施例3

本实施例提供一种人机交互装置，该交互装置如图1所示，包括如下各部分。

麦克风，获取语音信号，并在检测到有效的语音输入时，启动摄像头。

具体地，麦克风探测音源并将自然语音转换成电压或电流信号，当电压或电流信号大于或者不小于设定门限值时，即认为检测到了有效的语音输入。

摄像头，按照所述麦克风的控制，实时获取唇读图像；

具体地，接收麦克风的控制信号，当麦克风探测到有效声源时同步对唇部图像进行摄像；

唇读图像处理模块，对所获取的唇读图像形成的序列进行处理，得到唇动特征数据；

具体地，对唇读图像进行唇部定位、跟踪，提取唇动特征数据；

语音处理模块，对语音信号进行处理，得到语音特征数据。

融合识别模块，对唇动特征数据和语音特征数据进行融合，识别输入的语音。

具体地，利用训练过的模型库对于唇动特征数据和语音特征数据进行融合识别。

另外，上述装置还可以采用唇读的反馈机制，此时需要增加控制模块，该模块在麦克风获取到语音信号，但唇读图像处理模块从获取的唇读图像形成的序列中得到无效的唇动特征数据(也可认为是从唇读图像形成的序列中无法提取到唇动特征数据)时，控制麦克风进入侦听状态，控制摄像头停止工作。同时还控制唇读图像处理模块、语音处理模块及融合识别模块也停止工作，从而降低装置的功耗。

优选地，麦克风进入侦听状态后，可以检测是否有有效的语音输入，如果检测到有效的语音输入，则进入工作状态，并启动摄像头、唇读图像处理模块、语音处理模块及融合识别模块正常工作。此种方案，不仅提高了噪声环境下的语音识别的可靠性，并且降低了设备功耗。

另外，上述控制模块，还可以根据用户指令保留麦克风进行语音信号的获取，并通知摄像头取消唇读图像的获取。也就是说，控制模块可以根据用户指令来选择语音识别方式，例如单独采用麦克风进行语音识别，也可单独采用摄像头进行语音识别，也可以两种方式同时使用。

实际使用中，上述装置可内置于如下任一设备中：

其中，麦克风和摄像头优选地配置在设备同一侧，例如将摄像头装配在头戴式耳麦的麦克风处，其他各部分可装配在智能机器设备上。

实施例4

本实施例提供一种人机交互装置，包括如下各部分。

麦克风，获取语音信号。

摄像头，实时获取唇读图像；

语音处理模块，对语音信号进行处理，得到语音特征数据。

融合识别模块，对唇动特征数据和语音特征数据进行融合识别输入的语音。

控制模块，在麦克风获取到语音信号，但唇读图像处理模块从获取的唇读图像中得到无效的唇动特征数据(即无法得到可以辨识的唇动特征数据)时，控制麦克风进入侦听状态，控制摄像头停止工作。

优先地，上述麦克风可以在有有效的语音输入时，再启动摄像头工作，以降低设备功耗。具体地，麦克风探测音源并将自然语音转换成电信号，当电信号大于或者不小于设定门限值时，即认为检测到了有效的语音输入。

实际使用中，上述装置可内置于如下任一设备中：

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。

以上所述，仅为本发明的较佳实例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人机交互方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，所述检测到有效的语音输入指：

3.如权利要求1或2所述的方法，其特征在于，启动所述人机交互装置中的摄像头实时获取唇读图像后，该方法还包括：

4.一种人机交互方法，其特征在于，该方法包括：

5.如权利要求4所述的方法，其特征在于，控制所述麦克风进入侦听状态，控制所述摄像头停止工作后，该方法还包括：

6.一种人机交互装置，其特征在于，包括麦克风、摄像头、唇读图像处理模块和融合识别模块，其中：

所述摄像头，按照所述麦克风的控制，实时获取唇读图像；

7.如权利要求6所述的装置，其特征在于，所述麦克风检测到有效的语音输入指：

8.如权利要求6或7所述的装置，其特征在于，还包括：

9.如权利要求8所述的装置，其特征在于，所述装置装配在如下任一种设备中：

10.一种人机交互装置，包括麦克风和摄像头，其特征在于，还包括唇读图像处理模块、融合识别模块和控制模块，其中：

11.如权利要求10所述的装置，其特征在于，

所述麦克风，按照所述控制模块的控制进入侦听状态后，如果检测到有效的语音输入，则进入工作状态，并启动所述摄像头实时获取唇读图像。

12.如权利要求10或11所述的装置，其特征在于，所述装置装配在如下任一种设备中：