CN109754801A

CN109754801A - 一种基于手势识别的语音交互系统及方法

Info

Publication number: CN109754801A
Application number: CN201910036538.0A
Authority: CN
Inventors: 郑雨洲
Original assignee: Dongguan Songshan Lake Robot Research Institute International Co Ltd
Current assignee: Dongguan Songshan Lake Robot Research Institute International Co Ltd
Priority date: 2019-01-15
Filing date: 2019-01-15
Publication date: 2019-05-14

Abstract

本发明公开了一种基于手势识别的语音交互系统及方法，其包括距离传感器、中央处理器、摄像头、麦克风、存储模块、振动马达及通讯模块，距离传感器用于检测摄像头与目标对象手部之间的距离，摄像头用于对目标对象手部进行感测并采集目标对象的手势动作图像，摄像头将目标对象的手势动作图像发送给中央处理器；麦克风用于采集目标对象的语音指令；中央处理器用于对摄像头采集的目标对象的手势动作图像进行手势识别处理，获取摄像头采集的目标对象的手势动作图像对应的预设手势动作。本发明通过手势触发语音识别，并且用户举起不同手势可替代部分不同的语音指令，从而简化用户的单一性语音指令交互方式，大大提高了用户体验。

Description

一种基于手势识别的语音交互系统及方法

技术领域

本发明涉及电子系统技术领域，尤其是涉及一种基于手势识别的语音交互系统及方法。

背景技术

现有的语音交互系统，如智能手机、智能音箱、智能手表等，它们的使用流程有以下几个步骤：

步骤一，唤醒系统，通过触控屏点击或滑动进入语音助手界面，或是语音说出唤醒语，系统听到后进入语音助手界面；

步骤二，等待反馈，此时带有显示屏的系统会在屏幕上显示语音助手界面，无显示屏的系统会发出声音反馈，告知用户语音助手模式已启动；

步骤三，发语音命令，用户必须在前两个步骤完成后，才可发出实际所需的语音命令。

由于语音唤醒和语音反馈需要一定的耗时，这样的交互方式的后果是，用户每次发语音命令，无论多长多短，都必须经历若干秒的等待过程，且发出的语音命令中间不能有较长的停顿，否则需要再次经历步骤一和步骤二。

这样的语音交互方式在以下场景无法满足人们的要求：在一些紧急场合，用户需要用语音快速向他人传达如求救之类的紧急信息时；用户短时间内需多次通过系统使用语音功能；在一些环境嘈杂场合，语音唤醒系统成功率不高。

所以我们需要一种更快速更直接的语音交互方式。

发明内容

基于此，有必要针对现有技术的不足，提供一种提高用户体验度的基于手势识别的语音交互系统及方法，通过手势触发语音识别，并且用户举起不同手势可替代部分不同的语音指令，从而简化用户的单一性语音指令交互方式。

为解决上述技术问题，本发明所采用的技术方案是：一种基于手势识别的语音交互系统，其包括距离传感器、中央处理器、摄像头、麦克风、存储模块、振动马达及通讯模块，所述距离传感器、摄像头、麦克风、存储模块、振动马达及通讯模块分别与中央处理器电性连接，所述距离传感器用于检测摄像头与目标对象手部之间的距离，所述摄像头用于对目标对象手部进行感测并采集目标对象的手势动作图像，所述摄像头将目标对象的手势动作图像发送给中央处理器；所述麦克风用于采集目标对象的语音指令；所述存储模块设置有手势存储区、语音预指令存储区、临时语音存储区及混合语音存储区，所述手势存储区用于存取预设手势动作，所述临时语音存储区用于存储第一语音指令，所述第一语音指令为麦克风采集目标对象的语音指令，所述语音预指令存储区用于存储第二语音指令，所述第二语音指令为预设手势动作对应的语音指令，所述混合语音存储区用于存储第三语音指令，所述第三语音指令由第一语音指令与第二语音指令拼接组合而成；所述中央处理器用于对摄像头采集的目标对象的手势动作图像进行手势识别处理，获取摄像头采集的目标对象的手势动作图像对应的预设手势动作。

一种基于手势识别的语音交互系统方法，其包括如下步骤：

（1）、检测摄像头与目标对象手部之间的距离并发送触发信号；具体地，距离传感器检测摄像头与目标对象手部之间的距离，并将检测距离与预设距离进行比较，当检测到摄像头与目标对象手部之间的距离处于预设距离范围内时，向中央处理器发送触发信号；

（2）、采集目标对象的手势动作图像，将目标对象的手势动作图像发送给中央处理器；

（3）、对摄像头采集目标对象的手势动作图像进行手势识别处理，获取采集目标对象的手势动作图像对应的预设手势动作；

（4）、获取第二语音指令；

（5）、采集目标对象的语音指令，获取第一语音指令；

（6）、将第一语音指令与第二语音指令拼接形成第三语音指令。

综上所述，本发明基于手势识别的语音交互系统及方法通过手势触发语音识别，并且用户举起不同手势可替代部分不同的语音指令，从而简化用户的单一性语音指令交互方式，大大提高了用户体验。

附图说明

图1为本发明一种基于手势识别的语音交互系统的硬件框架图；

图2为本发明一种基于手势识别的语音交互系统方法中第三语音指令对应的wav格式音频文件的拼接原理图;

图3为本发明一种基于手势识别的语音交互系统中的结构示意图；

图4为本发明一种基于手势识别的语音交互系统中另一实施例的结构示意图。

具体实施方式

为能进一步了解本发明的特征、技术手段以及所达到的具体目的、功能，下面结合附图与具体实施方式对本发明作进一步详细描述。

如图1和图2所示，本发明一种基于手势识别的语音交互系统，包括距离传感器10、中央处理器20、摄像头30、麦克风40、存储模块50、振动马达60及通讯模块70，所述距离传感器10、摄像头30、麦克风40、存储模块50、振动马达60及通讯模块70分别与中央处理器20电性连接，所述基于手势识别的语音交互系统通过通讯模块70与外部电子设备连接，所述中央处理器20将存储模块50内的语音指令通过通讯模块70发送给外部电子设备，所述通讯模块70为蓝牙、wifi或其他无线连接模块，以使得系统通过蓝牙、wifi或其他无线连接方式与外部电子设备相连接。

所述距离传感器10用于检测摄像头30与目标对象手部之间的距离，并将检测距离与预设距离进行比较，当检测到摄像头30与目标对象手部之间的距离处于预设距离范围内时，向中央处理器20发送触发信号；所述中央处理器20响应到距离传感器10发送的触发信号，控制摄像头30开始工作，其中，目标对象优选为用户。

在其中一个实施例中，所述距离传感器10检测到摄像头30与目标对象手部之间的距离处于预设距离范围内的时长超过预设阈值，向中央处理器20发送触发信号。

所述摄像头30用于对目标对象手部进行感测，采集目标对象的手势动作图像，所述摄像头30将目标对象的手势动作图像发送给中央处理器20；所述麦克风40用于采集目标对象的语音指令。

所述存储模块50设置有手势存储区51、语音预指令存储区52、临时语音存储区53及混合语音存储区54，所述手势存储区51用于存取预设手势动作，所述临时语音存储区53用于存储第一语音指令，所述第一语音指令为麦克风40采集目标对象的语音指令，所述语音预指令存储区52用于存储第二语音指令，所述第二语音指令为预设手势动作对应的语音指令，所述混合语音存储区54用于存储第三语音指令，所述第三语音指令由第一语音指令与第二语音指令拼接组合而成，所述中央处理器20将混合语音存储区54内的第三语音指令通过通讯模块70发送给外部电子设备。

具体地，所述语音预指令存储区52中存储有若干个wav格式的第二语音指令，其中，所述语音预指令存储区52设置有多个小分区如预指令一区、预指令二区、预指令三区，各小分区里分别含有一个wav格式的第二语音指令，将每个wav格式的第二语音指令与手势存储区51中的每个预设手势动作一一对应；所述临时语音存储区中存储有wav格式的第一语音指令，所述语音预指令存储区52中存储的wav格式的第二语音指令与临时语音存储区53中存储的wav格式的第一语音指令的采样位数、采样频率和声道数的设置均相同。

所述中央处理器20用于对摄像头30采集的目标对象的手势动作图像进行手势识别处理，获取摄像头30采集的目标对象的手势动作图像对应的预设手势动作；具体地，中央处理器20将摄像头30采集的目标对象的手势动作图像中的手势图分离出来，提取特征并与预设手势动作进行比较，从而确定摄像头30采集的目标对象的手势动作图像对应的预设手势动作；当采集的目标对象的手势动作图像为预设手势动作时，中央处理器20发送控制信号给振动马达60及麦克风40，所述麦克风40开始采集目标对象的语音指令，所述振动马达60开始运作，以提示手势识别处理成功；其中，手势识别处理方法为本领域技术人员常用技术，在此不必赘述。

在其中一个实施例中，当摄像头30采集的目标对象的手势动作图像与预设手势动作持续保持匹配成功时，则判断目标对象为“保持举手动作”，麦克风40持续采集目标对象的语音指令，振动马达60持续保持振动；当摄像头30采集的目标对象的手势动作图像与预设手势动作无法匹配成功时，则判断目标对象为“不再保持举手动作”，麦克风40停止采集目标对象的语音指令，振动马达60停止振动。

当手势识别处理成功后，中央处理器20判断摄像头30采集的目标对象的手势动作图像与手势存储区51中的某一预设手势动作信息相吻合时，中央处理器20将语音预指令存储区52中的对应的第二语音指令读取出来，并将该第二语音指令对应的音频文件与临时语音存储区53中的第一语音指令对应的音频文件进行拼接，组合而成第三语音指令对应的音频文件。

具体地，在wav格式的音频文件中，含有文件头部分与音频信息部分，文件头部分的字节记录着wav格式的音频文件的标识符、音频信息的数据长度、音频信息的采样位数、采样频率和声道数的设置；将第二语音指令对应的音频文件与第一语音指令对应的音频文件进行拼接时，先将两者的wav音频文件的文件头部分删除，然后根据两者的音频数据总长度、采样位数、采样频率和声道数的设置信息，重新生成一个新文件头部分，然后按照新文件头部分的字节的地址递增的方向，依次将新文件头部分、第二语音指令对应的音频文件去除原文件头部分、第一语音指令对应的音频文件去除原文件头部分进行重新组合，形成一个新的wav音频文件，即第三语音指令对应的音频文件，此为本领域技术人员的常用手段，在此不必赘述。

在其中一个实施例中，所述外部电子设备为如手机、平板、计算机之类的装载有语音识别模块80并能运行语音识别模块80的电子设备，其中，语音识别模块80可包含有通讯软件、导航软件、翻译软件等日常使用软件的api接口，语音识别模块80对应的语音识别算法为本领域常用技术，故在此不必赘述。

在其中一个实施例中，手势存储区51中装载有预设手势动作对应的各类手势特征信息，预设的手势手势动作包括但不局限于：五指张开、握拳、伸出一根手指其他手指合拢、伸出两根手指其他手指合拢、伸出三根手指其他手指合拢等。

如图3所示，在其中一个实施例中，所述一种基于手势识别的语音交互系统的具体形式可以为脖挂式设备，该设备的前端两边分别为摄像头30和距离传感器10，摄像头30与距离传感器10的安装朝向对着用户胸前区域。

如图4所示，在其中一个实施例中，所述一种基于手势识别的语音交互系统的的具体形式可以为智能眼镜形式，智能眼镜两边分别安装摄像头30以及距离传感器10，摄像头30与距离传感器10的安装朝向对着用户胸前区域。

为更好地阐述本发明，通过几个具体的实施例来阐述本发明一种基于手势识别的语音交互系统的工作过程。

所述第二语音指令可为清晰的普通话人声，如将预指令一区设置为“在微信上跟联系人A说”的音频文件；将预指令二设置为“帮我翻译”的音频文件；将预指令三设置为“帮我导航到”的音频文件；本发明需要预先将手势存储区51内的预设手势动作与语音预指令存储区52内的各小分区设置为一一对应，即预设手势动作一对应预指令一，预设手势动作二对应预指令二，如此类推。

实施例1

将该交互方式用于快速通话。将手势存储区51中的预设手势动作一设置为伸出一根手指其他手指合拢的手势，同时在语音预指令存储区52中的预指令一区中，预存“在微信上跟联系人A说”的wav格式的音频文件。当用户举起伸出一根手指其他手指合拢的手势时，麦克风40开始录音，用户说出“今晚去哪吃饭”，当用户“不再保持举手动作”后，中央处理器20将合成一个“在微信上跟联系人A说+今晚去哪吃饭”的wav格式音频文件发送给外部电子设备的语音识别模块80。

实施例2

将该交互方式用于快速翻译。将手势存储区51中的预设手势动作二设置为伸出两根手指其他手指合拢的手势，同时在语音预指令存储区52中的预指令二区中，预存“帮我翻译”的wav格式的音频文件。当用户举起伸出两根手指其他手指合拢的手势时，麦克风40开始录音，用户说出“……”，当用户“不再保持举手动作”后，中央处理器20将合成一个“帮我翻译+……”的wav格式的音频文件发送给外部电子设备的语音识别模块80。

实施例3：

将该交互方式用于快速导航。将手势存储区51中的预设手势动作三设置为伸出三根手指其他手指合拢的手势，同时在语音预指令存储区52中的预指令三区中，预存“帮我导航到”的wav格式的音频文件。当用户举起伸出三根手指其他手指合拢的手势时，设备开始录音，用户说出“天安门广场”，当用户“不再保持举手动作”后，中央处理器20将合成一个“帮我导航到+天安门广场”的wav格式的音频文件发送给外部电子设备的语音识别模块80。

本发明基于手势识别的语音交互系统通过不同手势触发不同的第二语音指令，与用户的第一语音指令组成第三语音指令，从而简化用户的语音指令操作；同时，系统在识别用户手势的过程中功耗较高，通过距离传感器10使得系统在用户举手时才触发手势识别，用户不再举手则停止手势识别的功能，相比其他手势触发语音识别设备，达到节省能耗的效果。

根据上述本发明一种基于手势识别的语音交互系统，本发明提供了一种基于手势识别的语音交互方法，应用本发明一种基于手势识别的语音交互方法，通过手势触发语音识别，并且用户举起不同手势可替代部分不同的语音指令，从而简化用户的单一性语音指令交互方式，大大提高了用户体验。

本发明一种基于手势识别的语音交互方法，包括如下步骤：

（1）、检测摄像头30与目标对象手部之间的距离并发送触发信号；具体地，距离传感器10检测摄像头30与目标对象手部之间的距离，并将检测距离与预设距离进行比较，当检测到摄像头30与目标对象手部之间的距离处于预设距离范围内时，向中央处理器20发送触发信号；

（2）、采集目标对象的手势动作图像，将目标对象的手势动作图像发送给中央处理器20；

（3）、对摄像头30采集目标对象的手势动作图像进行手势识别处理，获取采集目标对象的手势动作图像对应的预设手势动作；

（4）、获取第二语音指令；具体地，第二语音指令为wav格式音频文件；

（5）、采集目标对象的语音指令，获取第一语音指令；具体地，第一语音指令为wav格式音频文件；

（6）、将第一语音指令与第二语音指令拼接形成第三语音指令；

（7）、将第三语音指令发送给外部电子设备；具体地，将第三语音指令通过通讯模块70发送给外部电子设备。

在其中一个实施例中，所述步骤（6）中将第一语音指令与第二语音指令拼接组合形成第三语音指令为：将第二语音指令对应的wav格式音频文件与第一语音指令对应的wav格式音频文件进行拼接，形成第三语音指令对应的wav格式音频文件。

在其中一个实施例中，所述将第二语音指令对应的wav格式音频文件与第一语音指令对应的wav格式音频文件进行拼接，形成第三语音指令对应的wav格式音频文件的方法，包括如下步骤：

wav格式音频文件含有文件头部分与音频信息部分，文件头部分的字节记录着wav格式音频文件的标识符、音频信息的数据长度、音频信息的采样位数、采样频率和声道数的设置；

将第二语音指令对应的音频文件与第一语音指令对应的wav格式音频文件的文件头部分删除，然后根据第二语音指令对应的wav格式音频文件与第一语音指令对应的wav格式音频文件的音频信息数据总长度、采样位数、采样频率和声道数的设置信息，重新生成一个新文件头部分；

按照新文件头部分的字节的地址递增的方向，依次将新文件头部分、第二语音指令对应的wav格式音频文件去除文件头部分、第一语音指令对应的wav格式音频文件去除文件头部分进行重新组合，形成第三语音指令对应的wav格式音频文件。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种基于手势识别的语音交互系统，其特征在于：包括距离传感器、中央处理器、摄像头、麦克风、存储模块、振动马达及通讯模块，所述距离传感器、摄像头、麦克风、存储模块、振动马达及通讯模块分别与中央处理器电性连接，所述距离传感器用于检测摄像头与目标对象手部之间的距离，所述摄像头用于对目标对象手部进行感测并采集目标对象的手势动作图像，所述摄像头将目标对象的手势动作图像发送给中央处理器；所述麦克风用于采集目标对象的语音指令；所述存储模块设置有手势存储区、语音预指令存储区、临时语音存储区及混合语音存储区，所述手势存储区用于存取预设手势动作，所述临时语音存储区用于存储第一语音指令，所述第一语音指令为麦克风采集目标对象的语音指令，所述语音预指令存储区用于存储第二语音指令，所述第二语音指令为预设手势动作对应的语音指令，所述混合语音存储区用于存储第三语音指令，所述第三语音指令由第一语音指令与第二语音指令拼接组合而成；所述中央处理器用于对摄像头采集的目标对象的手势动作图像进行手势识别处理，获取摄像头采集的目标对象的手势动作图像对应的预设手势动作。

2.根据权利要求1所述的一种基于手势识别的语音交互系统，其特征在于：所述语音预指令存储区中存储有若干个wav格式的第二语音指令，每个wav格式的第二语音指令与手势存储区中的每个预设手势动作一一对应。

3.根据权利要求2所述的一种基于手势识别的语音交互系统，其特征在于：所述临时语音存储区中存储有wav格式的第一语音指令，所述语音预指令存储区中存储的wav格式的第二语音指令与临时语音存储区中存储的wav格式的第一语音指令的采样位数、采样频率和声道数的设置均相同。

4.根据权利要求2所述的一种基于手势识别的语音交互系统，其特征在于：所述语音预指令存储区设置有多个小分区，每个小分区里分别含有一个wav格式的第二语音指令。

5.根据权利要求1所述的一种基于手势识别的语音交互系统，其特征在于：所述通讯模块为蓝牙或wifi连接模块。

6.一种基于手势识别的语音交互方法，其特征在于，包括如下步骤：

（1）、检测摄像头与目标对象手部之间的距离并发送触发信号；

（4）、获取第二语音指令；

（5）、采集目标对象的语音指令，获取第一语音指令；

7.根据权利要求6所述的一种基于手势识别的语音交互方法，其特征在于：所述第二语音指令为wav格式音频文件，所述第一语音指令为wav格式音频文件。

8.根据权利要求7所述的一种基于手势识别的语音交互系统方法，其特征在于，所述步骤（6）中将第一语音指令与第二语音指令拼接组合形成第三语音指令的方法为：将第二语音指令对应的wav格式音频文件与第一语音指令对应的wav格式音频文件进行拼接，形成第三语音指令对应的wav格式音频文件。

9.根据权利要求8所述的一种基于手势识别的语音交互系统方法，其特征在于，wav格式音频文件含有文件头部分与音频信息部分，文件头部分的字节记录着wav格式音频文件的标识符、音频信息的数据长度、音频信息的采样位数、采样频率和声道数的设置；所述将第二语音指令对应的wav格式音频文件与第一语音指令对应的wav格式音频文件进行拼接，形成第三语音指令对应的wav格式音频文件的方法，包括如下步骤：

10.根据权利要求6所述的一种基于手势识别的语音交互系统方法，其特征在于：还包括步骤（7）、将第三语音指令发送给外部电子设备。