CN111445910A

CN111445910A - 一种基于非接触式的语音交互方法及系统和设备

Info

Publication number: CN111445910A
Application number: CN202010221110.6A
Authority: CN
Inventors: 李仁芳
Original assignee: Hangzhou Tuya Information Technology Co Ltd
Current assignee: Hangzhou Tuya Information Technology Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-24

Abstract

本发明涉及一种基于非接触式的语音交互方法，包括以下步骤：接收来自非接触式设备采集的非接触式交互数据；根据预设阈值判断所述非接触式交互数据是否发生中断事件；若发生中断事件，根据预设判别算法判断所述中断事件为误触发或非误触发；若为非误触发，根据VAD算法在所述非接触式交互数据中提取语音数据；根据预设解析算法对所述语音数据进行解析，得到控制意图；根据所述控制意图输出相应的控制指令。通过本发明的技术方案，能够简化现有的非接触式交互方法、化繁为简，且成本低。

Description

一种基于非接触式的语音交互方法及系统和设备

技术领域

本发明涉及语音处理技术领域，尤其涉及一种基于非接触式的语音交互方法及其系统、计算机可读存储介质和计算机设备。

背景技术

目前主要的做法包括以下两种：

1)本地VAD配合本地或者云端ASR。通过前端阵列mic，进行降噪空间滤波之后得到较为干净的语音信号，送给后端做识别。

2)push-to-talk模式，就是类似语音遥控器，按住说话，然后结束之后将语音上传云端ASR进行识别和解析。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明的目的在于提供一种基于非接触式的语音交互方法及其系统、计算机可读存储介质和计算机设备，其能够简化现有的非接触式交互方法、化繁为简，且成本低。

为实现上述目的，本发明第一方面的技术方案提供了一种基于非接触式的语音交互方法，包括以下步骤：

接收来自非接触式设备采集的非接触式交互数据；

根据预设阈值判断所述非接触式交互数据是否发生中断事件；

若发生中断事件，根据预设判别算法判断所述中断事件为误触发或非误触发；

若为非误触发，根据VAD算法在所述非接触式交互数据中提取语音数据；

根据预设解析算法对所述语音数据进行解析，得到控制意图；

根据所述控制意图输出相应的控制指令。

在上述技术方案中，优选地，在接收来自非接触式设备采集的非接触式交互数据之前，还包括以下步骤：

初始化所述非接触式设备；

根据所述非接触式设备的采集方式配置触发阈值；

根据所述触发阈值判断所述非接触式设备采集的数据是否为非接触式交互数据。

本发明第二方面的技术方案提供了一种基于非接触式的语音交互系统，包括：

数据接收模块，被设置为用于接收来自非接触式设备采集的非接触式交互数据；

中断事件判断模块，被设置为用于根据预设阈值判断所述非接触式交互数据是否发生中断事件；

误触发判断模块，被设置为用于根据预设判别算法判断所述中断事件为误触发或非误触发；

VAD语音提取模块，被设置为用于根据VAD算法在所述非接触式交互数据中提取语音数据；

意图解析模块，被设置为用于根据预设解析算法对所述语音数据进行解析，得到控制意图；

控制模块，被设置为用于根据所述控制意图输出相应的控制指令。

在上述技术方案中，优选地，还包括：

初始化模块，被设置为用于初始化所述非接触式设备；

阈值配置模块，被设置为用于根据所述非接触式设备的采集方式配置触发阈值；

非接触判断模块，被设置为用于根据所述触发阈值判断所述非接触式设备采集的数据是否为非接触式交互数据。

在上述任一技术方案中，优选地，所述非接触式设备包括红外采集设备、超声波采集设备、3D结构光人脸识别设备、TOF采集设备和唇语识别设备中的至少一种。

本发明第三方面的技术方案提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面的任一技术方案提供的基于非接触式的语音交互方法的步骤。

本发明第四方面的技术方案提供了一种计算机设备，包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述第一方面的任一技术方案提供的基于非接触式的语音交互方法的步骤。

本发明提供的基于非接触式的语音交互方法及其系统、计算机可读存储介质和计算机设备与现有技术相比的优点在于：通过本发明提供的非接触式的交互方式，能够简化现有的非接触式交互方法、化繁为简，且成本低；并通过增加是否误触发的判断步骤，从而，提高了语音识别的准确性和及时性。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了本发明第一个实施例所涉及语音交互方法的流程框图；

图2示出了本发明第二个实施例所涉及语音交互方法的流程框图；

图3示出了本发明第三个实施例所涉及语音交互系统的结构框图；

图4示出了本发明第四个实施例所涉及语音交互系统的结构框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不限于下面公开的具体实施例的限制。

下面参照图1至图4描述根据本发明一些实施例的基于非接触式的语音交互方法及其系统、计算机可读存储介质和计算机设备。

如图1所示，按照本发明第一个实施例的基于非接触式的语音交互方法，包括以下步骤：

S4，接收来自非接触式设备采集的非接触式交互数据；

S5，根据预设阈值判断所述非接触式交互数据是否发生中断事件；

若发生中断事件，S6，根据预设判别算法判断所述中断事件为误触发或非误触发；

需要说明的是，若未发生中断事件，则返回步骤S4；

若为非误触发，S7，根据VAD算法在所述非接触式交互数据中提取语音数据；

需要说明的是，若为误触发，则返回步骤S4；

在该步骤中，VAD算法能够通过过滤无线的干扰或者环境变化引起的噪声，把实际说话人的语音提取出来，从而提供语音数据的清晰度，提高后续识别出语音数据的控制意图的准确性。

S8，根据预设解析算法对所述语音数据进行解析，得到控制意图；

S9，根据所述控制意图输出相应的控制指令。

如图2所示，按照本发明第二个实施例的基于非接触式的语音交互方法，包括以下步骤：

S1，初始化所述非接触式设备；

S2，根据所述非接触式设备的采集方式配置触发阈值；

S3，根据所述触发阈值判断所述非接触式设备采集的数据是否为非接触式交互数据；

若是，S4，接收来自非接触式设备采集的非接触式交互数据；

需要说明的是，若未发生中断事件，则返回步骤S4；

需要说明的是，若为误触发，则返回步骤S4；

S9，根据所述控制意图输出相应的控制指令。

如图3所示，按照本发明第三个实施例的基于非接触式的语音交互系统100，包括：

数据接收模块40，被设置为用于接收来自非接触式设备采集的非接触式交互数据；

中断事件判断模块50，被设置为用于根据预设阈值判断所述非接触式交互数据是否发生中断事件；

误触发判断模块60，被设置为用于根据预设判别算法判断所述中断事件为误触发或非误触发；

VAD语音提取模块70，被设置为用于根据VAD算法在所述非接触式交互数据中提取语音数据；

意图解析模块80，被设置为用于根据预设解析算法对所述语音数据进行解析，得到控制意图；

控制模块90，被设置为用于根据所述控制意图输出相应的控制指令。

如图4所示，按照本发明第四个实施例的基于非接触式的语音交互系统100，包括：

初始化模块10，被设置为用于初始化所述非接触式设备；

阈值配置模块20，被设置为用于根据所述非接触式设备的采集方式配置触发阈值；

非接触判断模块30，被设置为用于根据所述触发阈值判断所述非接触式设备采集的数据是否为非接触式交互数据；

在本发明的一些可能实施例中，所述非接触式设备包括红外采集设备、超声波采集设备、3D结构光人脸识别设备、TOF采集设备和唇语识别设备中的至少一种。

基于上述如图1和图2所示方法，相应的，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例的基于非接触式的语音交互方法的步骤。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1和图2所示的方法，以及图3和图4所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述任一实施例的基于非接触式的语音交互方法的步骤。

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于非接触式的语音交互方法，其特征在于，包括以下步骤：

接收来自非接触式设备采集的非接触式交互数据；

判断所述非接触式交互数据是否发生中断事件；

若发生中断事件，判断所述中断事件为误触发或非误触发；

若为非误触发，在所述非接触式交互数据中提取语音数据；

根据所述控制意图输出相应的控制指令。

2.根据权利要求1所述的基于非接触式的语音交互方法，其特征在于：所述非接触式设备包括红外采集设备、超声波采集设备、3D结构光人脸识别设备、TOF采集设备和唇语识别设备中的至少一种。

3.根据权利要求1或2所述的基于非接触式的语音交互方法，其特征在于，在接收来自非接触式设备采集的非接触式交互数据之前，还包括以下步骤：

初始化所述非接触式设备；

根据所述非接触式设备的采集方式配置触发阈值；

4.一种基于非接触式的语音交互系统，其特征在于，包括：

5.根据权利要求4所述的基于非接触式的语音交互系统，其特征在于：所述非接触式设备包括红外采集设备、超声波采集设备、3D结构光人脸识别设备、TOF采集设备和唇语识别设备中的至少一种。

6.根据权利要求4或5所述的基于非接触式的语音交互系统，其特征在于，还包括：

初始化模块，被设置为用于初始化所述非接触式设备；

7.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1至3中任一项所述的基于非接触式的语音交互方法的步骤。

8.一种计算机设备，其特征在于，包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现如权利要求1至3中任一项所述的基于非接触式的语音交互方法的步骤。