CN111445910A - 一种基于非接触式的语音交互方法及系统和设备 - Google Patents

一种基于非接触式的语音交互方法及系统和设备 Download PDF

Info

Publication number
CN111445910A
CN111445910A CN202010221110.6A CN202010221110A CN111445910A CN 111445910 A CN111445910 A CN 111445910A CN 202010221110 A CN202010221110 A CN 202010221110A CN 111445910 A CN111445910 A CN 111445910A
Authority
CN
China
Prior art keywords
contact
contactless
voice
data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010221110.6A
Other languages
English (en)
Inventor
李仁芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Tuya Information Technology Co Ltd
Original Assignee
Hangzhou Tuya Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Tuya Information Technology Co Ltd filed Critical Hangzhou Tuya Information Technology Co Ltd
Priority to CN202010221110.6A priority Critical patent/CN111445910A/zh
Publication of CN111445910A publication Critical patent/CN111445910A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及一种基于非接触式的语音交互方法,包括以下步骤:接收来自非接触式设备采集的非接触式交互数据;根据预设阈值判断所述非接触式交互数据是否发生中断事件;若发生中断事件,根据预设判别算法判断所述中断事件为误触发或非误触发;若为非误触发,根据VAD算法在所述非接触式交互数据中提取语音数据;根据预设解析算法对所述语音数据进行解析,得到控制意图;根据所述控制意图输出相应的控制指令。通过本发明的技术方案,能够简化现有的非接触式交互方法、化繁为简,且成本低。

Description

一种基于非接触式的语音交互方法及系统和设备
技术领域
本发明涉及语音处理技术领域,尤其涉及一种基于非接触式的语音交互方法及其系统、计算机可读存储介质和计算机设备。
背景技术
目前主要的做法包括以下两种:
1)本地VAD配合本地或者云端ASR。通过前端阵列mic,进行降噪空间滤波之后得到较为干净的语音信号,送给后端做识别。
2)push-to-talk模式,就是类似语音遥控器,按住说话,然后结束之后将语音上传云端ASR进行识别和解析。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的目的在于提供一种基于非接触式的语音交互方法及其系统、计算机可读存储介质和计算机设备,其能够简化现有的非接触式交互方法、化繁为简,且成本低。
为实现上述目的,本发明第一方面的技术方案提供了一种基于非接触式的语音交互方法,包括以下步骤:
接收来自非接触式设备采集的非接触式交互数据;
根据预设阈值判断所述非接触式交互数据是否发生中断事件;
若发生中断事件,根据预设判别算法判断所述中断事件为误触发或非误触发;
若为非误触发,根据VAD算法在所述非接触式交互数据中提取语音数据;
根据预设解析算法对所述语音数据进行解析,得到控制意图;
根据所述控制意图输出相应的控制指令。
在上述技术方案中,优选地,在接收来自非接触式设备采集的非接触式交互数据之前,还包括以下步骤:
初始化所述非接触式设备;
根据所述非接触式设备的采集方式配置触发阈值;
根据所述触发阈值判断所述非接触式设备采集的数据是否为非接触式交互数据。
本发明第二方面的技术方案提供了一种基于非接触式的语音交互系统,包括:
数据接收模块,被设置为用于接收来自非接触式设备采集的非接触式交互数据;
中断事件判断模块,被设置为用于根据预设阈值判断所述非接触式交互数据是否发生中断事件;
误触发判断模块,被设置为用于根据预设判别算法判断所述中断事件为误触发或非误触发;
VAD语音提取模块,被设置为用于根据VAD算法在所述非接触式交互数据中提取语音数据;
意图解析模块,被设置为用于根据预设解析算法对所述语音数据进行解析,得到控制意图;
控制模块,被设置为用于根据所述控制意图输出相应的控制指令。
在上述技术方案中,优选地,还包括:
初始化模块,被设置为用于初始化所述非接触式设备;
阈值配置模块,被设置为用于根据所述非接触式设备的采集方式配置触发阈值;
非接触判断模块,被设置为用于根据所述触发阈值判断所述非接触式设备采集的数据是否为非接触式交互数据。
在上述任一技术方案中,优选地,所述非接触式设备包括红外采集设备、超声波采集设备、3D结构光人脸识别设备、TOF采集设备和唇语识别设备中的至少一种。
本发明第三方面的技术方案提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面的任一技术方案提供的基于非接触式的语音交互方法的步骤。
本发明第四方面的技术方案提供了一种计算机设备,包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述第一方面的任一技术方案提供的基于非接触式的语音交互方法的步骤。
本发明提供的基于非接触式的语音交互方法及其系统、计算机可读存储介质和计算机设备与现有技术相比的优点在于:通过本发明提供的非接触式的交互方式,能够简化现有的非接触式交互方法、化繁为简,且成本低;并通过增加是否误触发的判断步骤,从而,提高了语音识别的准确性和及时性。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明第一个实施例所涉及语音交互方法的流程框图;
图2示出了本发明第二个实施例所涉及语音交互方法的流程框图;
图3示出了本发明第三个实施例所涉及语音交互系统的结构框图;
图4示出了本发明第四个实施例所涉及语音交互系统的结构框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。
下面参照图1至图4描述根据本发明一些实施例的基于非接触式的语音交互方法及其系统、计算机可读存储介质和计算机设备。
如图1所示,按照本发明第一个实施例的基于非接触式的语音交互方法,包括以下步骤:
S4,接收来自非接触式设备采集的非接触式交互数据;
S5,根据预设阈值判断所述非接触式交互数据是否发生中断事件;
若发生中断事件,S6,根据预设判别算法判断所述中断事件为误触发或非误触发;
需要说明的是,若未发生中断事件,则返回步骤S4;
若为非误触发,S7,根据VAD算法在所述非接触式交互数据中提取语音数据;
需要说明的是,若为误触发,则返回步骤S4;
在该步骤中,VAD算法能够通过过滤无线的干扰或者环境变化引起的噪声,把实际说话人的语音提取出来,从而提供语音数据的清晰度,提高后续识别出语音数据的控制意图的准确性。
S8,根据预设解析算法对所述语音数据进行解析,得到控制意图;
S9,根据所述控制意图输出相应的控制指令。
如图2所示,按照本发明第二个实施例的基于非接触式的语音交互方法,包括以下步骤:
S1,初始化所述非接触式设备;
S2,根据所述非接触式设备的采集方式配置触发阈值;
S3,根据所述触发阈值判断所述非接触式设备采集的数据是否为非接触式交互数据;
若是,S4,接收来自非接触式设备采集的非接触式交互数据;
S5,根据预设阈值判断所述非接触式交互数据是否发生中断事件;
若发生中断事件,S6,根据预设判别算法判断所述中断事件为误触发或非误触发;
需要说明的是,若未发生中断事件,则返回步骤S4;
若为非误触发,S7,根据VAD算法在所述非接触式交互数据中提取语音数据;
需要说明的是,若为误触发,则返回步骤S4;
在该步骤中,VAD算法能够通过过滤无线的干扰或者环境变化引起的噪声,把实际说话人的语音提取出来,从而提供语音数据的清晰度,提高后续识别出语音数据的控制意图的准确性。
S8,根据预设解析算法对所述语音数据进行解析,得到控制意图;
S9,根据所述控制意图输出相应的控制指令。
如图3所示,按照本发明第三个实施例的基于非接触式的语音交互系统100,包括:
数据接收模块40,被设置为用于接收来自非接触式设备采集的非接触式交互数据;
中断事件判断模块50,被设置为用于根据预设阈值判断所述非接触式交互数据是否发生中断事件;
误触发判断模块60,被设置为用于根据预设判别算法判断所述中断事件为误触发或非误触发;
VAD语音提取模块70,被设置为用于根据VAD算法在所述非接触式交互数据中提取语音数据;
意图解析模块80,被设置为用于根据预设解析算法对所述语音数据进行解析,得到控制意图;
控制模块90,被设置为用于根据所述控制意图输出相应的控制指令。
如图4所示,按照本发明第四个实施例的基于非接触式的语音交互系统100,包括:
初始化模块10,被设置为用于初始化所述非接触式设备;
阈值配置模块20,被设置为用于根据所述非接触式设备的采集方式配置触发阈值;
非接触判断模块30,被设置为用于根据所述触发阈值判断所述非接触式设备采集的数据是否为非接触式交互数据;
数据接收模块40,被设置为用于接收来自非接触式设备采集的非接触式交互数据;
中断事件判断模块50,被设置为用于根据预设阈值判断所述非接触式交互数据是否发生中断事件;
误触发判断模块60,被设置为用于根据预设判别算法判断所述中断事件为误触发或非误触发;
VAD语音提取模块70,被设置为用于根据VAD算法在所述非接触式交互数据中提取语音数据;
意图解析模块80,被设置为用于根据预设解析算法对所述语音数据进行解析,得到控制意图;
控制模块90,被设置为用于根据所述控制意图输出相应的控制指令。
在本发明的一些可能实施例中,所述非接触式设备包括红外采集设备、超声波采集设备、3D结构光人脸识别设备、TOF采集设备和唇语识别设备中的至少一种。
基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例的基于非接触式的语音交互方法的步骤。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1和图2所示的方法,以及图3和图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述任一实施例的基于非接触式的语音交互方法的步骤。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于非接触式的语音交互方法,其特征在于,包括以下步骤:
接收来自非接触式设备采集的非接触式交互数据;
判断所述非接触式交互数据是否发生中断事件;
若发生中断事件,判断所述中断事件为误触发或非误触发;
若为非误触发,在所述非接触式交互数据中提取语音数据;
根据预设解析算法对所述语音数据进行解析,得到控制意图;
根据所述控制意图输出相应的控制指令。
2.根据权利要求1所述的基于非接触式的语音交互方法,其特征在于:所述非接触式设备包括红外采集设备、超声波采集设备、3D结构光人脸识别设备、TOF采集设备和唇语识别设备中的至少一种。
3.根据权利要求1或2所述的基于非接触式的语音交互方法,其特征在于,在接收来自非接触式设备采集的非接触式交互数据之前,还包括以下步骤:
初始化所述非接触式设备;
根据所述非接触式设备的采集方式配置触发阈值;
根据所述触发阈值判断所述非接触式设备采集的数据是否为非接触式交互数据。
4.一种基于非接触式的语音交互系统,其特征在于,包括:
数据接收模块,被设置为用于接收来自非接触式设备采集的非接触式交互数据;
中断事件判断模块,被设置为用于根据预设阈值判断所述非接触式交互数据是否发生中断事件;
误触发判断模块,被设置为用于根据预设判别算法判断所述中断事件为误触发或非误触发;
VAD语音提取模块,被设置为用于根据VAD算法在所述非接触式交互数据中提取语音数据;
意图解析模块,被设置为用于根据预设解析算法对所述语音数据进行解析,得到控制意图;
控制模块,被设置为用于根据所述控制意图输出相应的控制指令。
5.根据权利要求4所述的基于非接触式的语音交互系统,其特征在于:所述非接触式设备包括红外采集设备、超声波采集设备、3D结构光人脸识别设备、TOF采集设备和唇语识别设备中的至少一种。
6.根据权利要求4或5所述的基于非接触式的语音交互系统,其特征在于,还包括:
初始化模块,被设置为用于初始化所述非接触式设备;
阈值配置模块,被设置为用于根据所述非接触式设备的采集方式配置触发阈值;
非接触判断模块,被设置为用于根据所述触发阈值判断所述非接触式设备采集的数据是否为非接触式交互数据。
7.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1至3中任一项所述的基于非接触式的语音交互方法的步骤。
8.一种计算机设备,其特征在于,包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现如权利要求1至3中任一项所述的基于非接触式的语音交互方法的步骤。
CN202010221110.6A 2020-03-26 2020-03-26 一种基于非接触式的语音交互方法及系统和设备 Pending CN111445910A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010221110.6A CN111445910A (zh) 2020-03-26 2020-03-26 一种基于非接触式的语音交互方法及系统和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010221110.6A CN111445910A (zh) 2020-03-26 2020-03-26 一种基于非接触式的语音交互方法及系统和设备

Publications (1)

Publication Number Publication Date
CN111445910A true CN111445910A (zh) 2020-07-24

Family

ID=71652500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010221110.6A Pending CN111445910A (zh) 2020-03-26 2020-03-26 一种基于非接触式的语音交互方法及系统和设备

Country Status (1)

Country Link
CN (1) CN111445910A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140350924A1 (en) * 2013-05-24 2014-11-27 Motorola Mobility Llc Method and apparatus for using image data to aid voice recognition
CN108538287A (zh) * 2017-03-03 2018-09-14 深圳会当科技有限公司 一种改良声控系统装置
CN110910887A (zh) * 2019-12-30 2020-03-24 苏州思必驰信息科技有限公司 语音唤醒方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140350924A1 (en) * 2013-05-24 2014-11-27 Motorola Mobility Llc Method and apparatus for using image data to aid voice recognition
CN108538287A (zh) * 2017-03-03 2018-09-14 深圳会当科技有限公司 一种改良声控系统装置
CN110910887A (zh) * 2019-12-30 2020-03-24 苏州思必驰信息科技有限公司 语音唤醒方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张茂于: "《产业专利分析报告第55册智能可穿戴设备》", 30 June 2017 *

Similar Documents

Publication Publication Date Title
CN107702706B (zh) 路径确定方法、装置、存储介质及移动终端
CN107919130B (zh) 基于云端的语音处理方法和装置
KR102611751B1 (ko) 키 문구 사용자 인식의 증강
EP3639051B1 (en) Sound source localization confidence estimation using machine learning
JP2019185062A (ja) 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体
CN110666806B (zh) 物品分拣方法、装置、机器人及存储介质
CN112274909A (zh) 应用运行控制方法和装置、电子设备及存储介质
CN109413470B (zh) 一种待检测图像帧的确定方法和终端设备
CN105529025A (zh) 一种语音操作输入方法及电子设备
CN110544287A (zh) 一种配图处理方法及电子设备
US20140056470A1 (en) Target object angle determination using multiple cameras
CN108960213A (zh) 目标跟踪方法、装置、存储介质及终端
CN110827834B (zh) 声纹注册方法、系统及计算机可读存储介质
CN110706691B (zh) 语音验证方法及装置、电子设备和计算机可读存储介质
CN113064118A (zh) 声源定位方法和装置
CN113225624A (zh) 一种语音识别耗时确定方法和装置
CN112711331A (zh) 机器人交互方法、装置、存储设备和电子设备
CN111445910A (zh) 一种基于非接触式的语音交互方法及系统和设备
CN113129904B (zh) 声纹判定方法、装置、系统、设备和存储介质
KR101171047B1 (ko) 음성 및 영상 인식 기능을 갖는 로봇 시스템 및 그의 인식 방법
CN112201256B (zh) 声纹分割方法、装置、设备及可读存储介质
CN112509597A (zh) 录音数据识别方法和装置、录音设备
CN112351304A (zh) 智能大屏控制方法、装置、设备及计算机可读存储介质
CN111013138A (zh) 一种语音控制方法、装置、电子设备及存储介质
CN116168723A (zh) 一种语音端点检测方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200724

RJ01 Rejection of invention patent application after publication