CN113380243A

CN113380243A - 一种辅助语音交互的方法及系统、存储介质

Info

Publication number: CN113380243A
Application number: CN202110587518.XA
Authority: CN
Inventors: 韩小平; 曾庆宁; 胡建良; 熊清海; 李志超
Original assignee: Grg Intelligent Technology Solution Co ltd; GRG Banking Equipment Co Ltd
Current assignee: Grg Intelligent Technology Solution Co ltd; GRG Banking Equipment Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-09-10

Abstract

本发明公开了一种辅助语音交互的方法及系统、存储介质，所述方法包括以下步骤:在用户与设备进行语音交互时，通过人脸检测模块对设定区域进行人脸检测；在设定区域内检测到人脸时，开启语音拾音操作，获取语音数据；对获取到的语音数据进行语音识别；所述在设定区域内检测到人脸时，开启语音拾音操作包括：在检测到多个人脸时，获取距离设备最近的人脸，采集距离设备最近的人脸对应的语音数据；在检测到单个人脸时，采集所述单个人脸对应的语音数据。本发明通过视频辅助语音交互，避免了轨道交通场景中人员多导致的干扰语音多的问题，同时避免了在语音交互时，多个人出现在设备前导致的语音干扰问题。

Description

一种辅助语音交互的方法及系统、存储介质

技术领域

本发明涉及语音交互技术领域，具体涉及一种辅助语音交互的方法及系统、存储介质。

背景技术

随着人工智能技术AI、大数据、云计算等相关领域的不断发展，如大数据分析、知识图谱、机器学习算法、语音识别技术和自然语言处理技术等，这些技术不断推动着当今社会的智能化进程，并将推动轨道交通领域的客户服务由劳动密集型向多媒介、智能化服务新时代转化。在轨道交通应用场景中，越来越多针对客户的服务，采用智能设备与客户进行语音交互服务。

但在轨道交通应用场景中，采用智能设备与客户进行语音交互服务存在着许多待解决的问题，例如在地铁站等场所中，人员多，在语音交互中容易造成干扰；并且在自助设备语音交互中，可能会存在几个人同时站立设备前，需要解决针对性拾音问题，避免其他人员语音的干扰。

发明内容

鉴于以上技术问题，本发明的目的在于提供一种辅助语音交互的方法及系统、存储介质，解决在轨道交通应用场景中，采用智能设备与客户进行语音交互服务存在着人员多导致的干扰多的问题。

本发明采用以下技术方案：

第一方面，本发明实施例提供的一种辅助语音交互的方法，包括以下步骤:

在用户与设备进行语音交互时，通过人脸检测模块对设定区域进行人脸检测；

在设定区域内检测到人脸时，开启语音拾音操作，获取语音数据；

对获取到的语音数据进行语音识别；

所述在设定区域内检测到人脸时，开启语音拾音操作包括：

在检测到多个人脸时，获取距离设备最近的人脸，采集距离设备最近的人脸对应的语音数据；

在检测到单个人脸时，采集所述单个人脸对应的语音数据。

进一步的，所述在设定区域内检测到人脸时，开启语音拾音操作，包括：

在设定区域内检测到人脸时，对检测到的人脸进行唇动检测；在检测到唇动时，开启语音拾音操作。

在设定区域内检测到人脸时，开启实时拾音操作；

对检测到的人脸进行唇动检测，在检测到唇动时，保持实时拾音操作；在未检测到唇动时，关闭拾音操作。

进一步的，所述获取距离设备最近的人脸包括：

在检测到多个人脸时，根据检测到的各人脸大小、各人脸的位置和各人脸相对于设备的相对位置中的一种或多种，确定距离设备最近的人脸。

进一步的，所述获取距离设备最近的人脸包括：

通过3D结构光摄像头检测人脸；并在3D结构光摄像头微动时，获取人脸变化值，计算人脸变化值与3D结构光摄像头微动值的比值；将比值最大对应的人脸作为距离设备最近的人脸。

进一步的，所述开启语音拾音操作，包括：

通过麦克风陈列进行语音拾音。

进一步的，所述开启语音拾音操作的步骤后还包括：

对目标区域内语音数据进行增益，对目标区域外的语音数据进行抑制。

第二方面，本发明实施例提供的一种辅助语音交互的系统，包括：

人脸检测模块，用于在用户与设备进行语音交互时，对设定区域进行人脸检测；

语音采集模块，用于在设定区域内检测到多个人脸时，获取距离设备最近的人脸，采集距离设备最近的人脸对应的语音数据；在设定区域内检测到单个人脸时，采集所述单个人脸对应的语音数据；

语音识别模块，用于对获取到的语音数据进行语音识别。

进一步的，所述人脸检测模块包括3D结构光摄像头；所述语音采集模块包括麦克风陈列。

第三方面，本发明实施例提供的一种计算机存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时，实现上述的辅助语音交互的方法。

相比现有技术，本发明的有益效果在于：

本发明通过对设定区域进行人脸检测，在设定区域内检测到人脸时，开启语音拾音操作，获取语音数据，实现辅助语音交互。同时，通过设定区域的人脸检测，并只对设定区域的人脸对应的语音数据进行采集，避免了轨道交通场景中人员多导致的干扰语音多的问题。同时，在检测到多个人脸时，获取距离设备最近的人脸，采集距离设备最近的人脸对应的语音数据，避免了在语音交互时，多个人出现在设备前导致的语音干扰问题。

进一步的，通过对语音数据进行定向增益或定向抑制，避免了嘈杂场景下的噪声干扰，提升了语音交互体验。

附图说明

图1为本发明一实施例提供的一种辅助语音交互的方法的流程示意图；

图2为本发明一具体实施例提供的一种辅助语音交互的方法的流程示意图；

图3为本发明另一实施例提供的一种辅助语音交互的系统的结构示意图；

图4为本发明另一实施例提供的一种电子设备的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例：

实施例一：

请参照图1所示，示出了本发明实施例提供的一种辅助语音交互的方法，其特征在于，包括以下步骤:

步骤S1:在用户与设备进行语音交互时，通过人脸检测模块对设定区域进行人脸检测；

在具体实施中，可先通过红外传感器检测人的信号，在检测到红外传感器被触发后，判定用户与设备进行语音交互；再通过人脸检测模块对设定区域进行人脸检测。

步骤S2:在设定区域内检测到人脸时，开启语音拾音操作，获取语音数据；

在具体实施中，可根据实际情况设置设定区域，例如根据设备能获取语音数据的范围，根据设备空间大小，等因素确定设定区域的范围。

在上述实现过程中，当人在设备正前面进行交互时，利用摄像头进行特定范围内的人员检测，只有在特定区域内有人脸时才进行拾音操作。通过只对设定区域进行人脸检测，并只对设定区域的人脸对应的语音数据进行采集，可解决在轨道交通场景中，存在着人员多干扰语音多的问题。例如，在嘈杂环境中，可排除广告、广播等声音的干扰。

可选的，所述在设定区域内检测到人脸时，开启语音拾音操作，包括：

在设定区域内检测到人脸时，还对检测到的人脸进行唇动检测；在检测到唇动时，开启语音拾音操作。

在具体实施中，可通过如下方法进行唇动检测：

平均1秒钟获取嘴巴的8-16帧图片，根据上嘴唇和下嘴唇对应的特征点的张合距离，判断用户嘴巴是否张开；若嘴巴张开图片每秒钟超过4-8帧，则判断此时检测到唇动，反之，此时未检测到唇动。

在设定区域内检测到人脸时，开启拾音操作；

并对检测到的人脸进行唇动检测，在检测到唇动时，保持实时语音拾音操作。

其中，在设定区域内检测到人脸时，开启拾音操作，是指在还没有检测到唇动时，开启拾音操作，有利于保证拾音拾取的完整性。

步骤S3:对获取到的语音数据进行语音识别；

其中，步骤S2中的所述在设定区域内检测到人脸时，开启语音拾音操作包括：

步骤S21:在检测到多个人脸时，获取距离设备最近的人脸，采集距离设备最近的人脸对应的语音数据；

步骤S22:在检测到单个人脸时，采集所述单个人脸对应的语音数据。

在上述实现过程中，通过人脸检测模块对设定区域进行人脸检测，在设定区域内检测到人脸时，开启语音拾音操作，获取语音数据；实现辅助语音交互。同时，通过设定区域的人脸检测，并只对设定区域的人脸对应的语音数据进行采集，避免了轨道交通场景中人员多导致的干扰语音多的问题。并在检测到多个人脸时，获取距离设备最近的人脸，采集距离设备最近的人脸对应的语音数据，避免了在语音交互时，多个人出现在设备前导致的语音干扰问题。

作为一实施方式，所述获取距离设备最近的人脸可包括：

在检测到多个人脸时，根据检测到的人脸中各人脸大小、各人脸的位置和各人脸相对于设备的相对位置，确定距离设备最近的人脸。

例如，当有多人进入设定区域后，需要对人脸的位置进行判断，比如对人脸的远程位置、人脸大小进行综合性的判断，从而判断出距离设备最近的人员。

具体的，所述获取距离设备最近的人脸包括：

在具体实施中，请参照图2所示，可按照如下步骤操作：

步骤S10:通过3D结构光摄像头检测人脸，对检测人脸的3D结构光摄像头左右微动，具体的，可以左右偏动5度以内；在3D结构光摄像头左右微动时，检测区域内的人脸也会随着变化；

步骤S20:获取检测区域内的各个人脸的变化值，将各个人脸的变化值处分部除以3D结构光摄像头的微动值，得到各个人脸变化值与微动值的比值。由于人脸的变化程度与人脸到设备的距离具有一定的比值关系，因此，可以使用动态变化的比值来判断人脸到设备的相对距离，而不需要采用绝对距离。

步骤S30:对比值最大的人脸的语音数据进行增益，并且对比值最大的人脸进行唇动检测；在检测到唇动时，开启拾音操作，获取语音数据。

可选的，所述开启语音拾音操作，包括：通过麦克风陈列进行语音拾音。

需要说明的是，麦克风阵列是一个声音采集的系统，该系统使用多个麦克风采集来自于不同空间方向的声音，多个麦克风按照指定要求排列后，加上相应的算法(排列+算法)就可以解决很多声学问题，比如声源定位、去混响、语音增强、盲源分离等。

可选的，本发明所述开启语音拾音操作的步骤后还包括：

步骤S4:确定目标区域，对目标区域内语音数据进行增益，对目标区域外的语音数据进行抑制。

在具体实施中，所述目标区域可以根据实际需要进行设置，对于需要拾音的区域对音频进行增强，而在不需要拾音的区域进行抑制。

例如，所述目标区域可以是步骤S2中的设定区域，对设定区域内的语音数据进行增益，对设定区域外的语音数据进行抑制。

所述目标区域也可以是根据检测到的人脸，重新设置目标区域，例如，将包含距离设备最近的人脸的部分区域作为目标区域。

通过对目标区域内语音数据进行增益，对目标区域外的语音数据进行抑制，在定向拾音的同时，避免了嘈杂场景下的噪声干扰，例如嘈杂场景下的广播或广告等干扰，提升了语音交互体验。

本发明能解决嘈杂场景下的广播、广告干扰问题；能适应自助设备、移动机器人等各个领域，能够比较好的提升语音的交互体验，成为使用人工智能替代人力的一部分业务；而且，系统采用终端精简算法处理，避免出现因网络原因等延时影响交互体验。

实施例二：

请参照图3，示出了本发明一实施例提供的一种辅助语音交互的系统，包括：

人脸检测模块10，用于在用户与设备进行语音交互时，对设定区域进行人脸检测；

语音采集模块20，用于在设定区域内检测到多个人脸时，获取距离设备最近的人脸，采集距离设备最近的人脸对应的语音数据；在设定区域内检测到单个人脸时，采集所述单个人脸对应的语音数据；

语音识别模块30，用于对获取到的语音数据进行语音识别。

具体的，所述人脸检测模块10包括3D结构光摄像头。

具体的，所述语音采集模块20采用麦克风陈列。通过自助交互场景阵列麦克风的使用，可解决定向拾音的问题，对于需要拾音的区域对音频进行增强，而在不需要拾音的区域进行抑制。

可选的，所述语音采集模块20，还包括唇动检测模块，所述唇动检测模块，用于在设定区域内检测到人脸时，对检测到的人脸进行唇动检测。所述语音采集模块20还用于在检测到唇动时，保持实时拾音操作；在未检测到唇动时，关闭拾音操作。

本发明的辅助语音交互的系统，在阵列麦克风拾音的基础上，结合微动3D结构光视觉分析算法，对特定区域(即设定区域)的人脸进行检测，并通过对人员状态，如人脸位置，以及唇动状态等分析，可排除嘈杂环境的干扰以及多人场景下的语音干扰，提升了语音交互的体验。

实施例三：

图4为本申请实施例提供的一种电子设备的结构示意图，在本申请中可以通过图4所示的示意图来描述用于实现本申请实施例的本发明一种辅助语音交互的方法的电子设备100。

如图4所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储装置104，这些组件通过总线系统和/或其它形式的连接机构(未示出)互连。应当注意，图4所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备可以具有图4示出的部分组件，也可以具有图4未示出的其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本申请实施例中(由处理器实现)的功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

本发明还提供一种计算机存储介质，其上存储有计算机程序，本发明的方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在该计算机存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机存储介质不包括电载波信号和电信信号。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种辅助语音交互的方法，其特征在于，包括以下步骤:

对获取到的语音数据进行语音识别；

所述在设定区域内检测到人脸时，开启语音拾音操作包括：

在检测到单个人脸时，采集所述单个人脸对应的语音数据。

2.根据权利要求1所述的辅助语音交互的方法，其特征在于，所述在设定区域内检测到人脸时，开启语音拾音操作，包括：

3.根据权利要求1所述的辅助语音交互的方法，其特征在于，所述在设定区域内检测到人脸时，开启语音拾音操作，包括：

在设定区域内检测到人脸时，开启实时拾音操作；

4.根据权利要求1所述的辅助语音交互的方法，其特征在于，所述获取距离设备最近的人脸包括：

5.根据权利要求1所述的辅助语音交互的方法，其特征在于，所述获取距离设备最近的人脸包括：

6.根据权利要求1所述的辅助语音交互的方法，其特征在于，所述开启语音拾音操作，包括：

通过麦克风陈列进行语音拾音。

7.根据权利要求1所述的辅助语音交互的方法，其特征在于，所述开启语音拾音操作的步骤后还包括：

8.一种辅助语音交互的系统，其特征在于，包括：

语音识别模块，用于对获取到的语音数据进行语音识别。

9.根据权利要求8所述的辅助语音交互的系统，其特征在于，所述人脸检测模块包括3D结构光摄像头；所述语音采集模块包括麦克风陈列。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时，实现如权利要求1至7任一项所述的辅助语音交互的方法。