CN110085223A

CN110085223A - 一种云端互动的语音交互方法

Info

Publication number: CN110085223A
Application number: CN201910262068.XA
Authority: CN
Inventors: 李霄寒
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Beijing Yunzhisheng Information Technology Co Ltd
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2019-08-02

Abstract

本发明提供了一种云端互动的语音交互方法，该语音交互方法是基于将机器终端设备与云端设备进行通信连接，以此利用云端设备自身强大的计算能力和完善的算法模型设计，通过该云端设备对该机器终端设备接收到的语音信号执行自动回声消除处理和关于预设唤醒词的检测识别处理，该语音交互方法能够更加全面和高效地消除其中的回声信号、以及更加精确和快速地检测识别语音信号中的预设唤醒词，从而有效地避免机器终端设备由于回声信号消除不彻底而导致误唤醒或者自激唤醒情况的发生。

Description

一种云端互动的语音交互方法

技术领域

本发明涉及语音识别的技术领域，特别涉及一种云端互动的语音交互方法。

背景技术

随着人工智能技术的发展，其广泛应用于人们的生活和工作中，人们通过人工智能技术就能够以较为便捷的方式解决特定领域的问题。人工智能技术之所以能够融入人们的生活和工作主要得益于人机交互技术的不断改进。人机交互技术使得人们能够采用人与人之间普遍存在交流方式就能够简单便捷地实现人与机器之间的交流互动。目前，人机交互技术的主要实现方式包括人机语音交互或者人机动作交互等；其中，该人机语音交互主要是模拟人与人之间的语言交流方式在人与机器之间进行相应的语言交流，该人机动作交互主要是通过机器识别用户的手势动作等，并基于该手势动作提取其中所表示的含义以此作出合适的反馈。由于人机动作交互需要相应的摄像设备来对动作进行拍摄，这要求用户必须在特定视角范围内进行相应的动作，其具有较大的局限性；相反地，人机语音交互对于机器与用户之间的相对位置关系并没有十分严格的要求，只要机器能够接收到关于用户清晰的语音信号即可，这极大地提高人机交互模式的便捷性。

目前，在机器终端设备与用户之间的人机语音交互及过程中，都是基于机器终端设备自身的计算处理单元对接收到的声音信号进行自动回声消除(AEC)和语音唤醒(WuW)等操作，其中，自动回声消除主要是用于消除机器终端设备自身发出的声音信号，从而得到只存在来自用户的声音信号，而语音唤醒主要是对声音信号进行预设唤醒词的检测识别，并在声音信号中检测到预设唤醒词的情况下才实现机器设备终端的唤醒。由于机器终端设备接收到的原始声音信号一般存在大量的回声信号、干扰信号和非唤醒词相关声音信号，为了实现对机器终端设备的准确唤醒操作，这就要求机器终端设备执行较高精度的自动回声消除和唤醒词检测识别计算处理，而这些计算处理对机器终端设备自身的运算能力提出了很高的要求，但是现有的机器终端设备在本地计算能力、算法和模型设计方面都存在不同程度的局限，其计算处理性能并不能达到相应的语音交互识别精度要求。

发明内容

在机器终端设备进行语音交互的过程中，为了节省机器终端设备的电能消耗量或者降低机器终端设备的运作负荷，若机器终端设备在预定时长内接受到相应的语音信号，其就会进入相应的休眠状态，一旦该机器终端设备接收来自用户的具有特定内容的语音信号，该机器终端设备就会从当前的休眠状态切换至工作状态，这一过程通常被称为语音唤醒。由于机器终端设备只能在语音信号中检测识别到预设唤醒词，其才能实现相应的语音唤醒操作，为了避免机器终端设备发生误唤醒或者自激唤醒等异常唤醒情况，该机器终端设备通常需要对接收到的语音信号预先执行自动回声消除处理后才进一步执行后续的预设唤醒词的检测识别处理。但是受限于机器终端设备的本地计算能力，该机器终端设备在自动回声消除处理中并不能完全将其中的回声信号进行有效充分的清除处理，使得部分回声信号依然残留在待识别声音信号中，从而导致在后续的预设唤醒词的检测识别处理过程中存在误唤醒或者自激唤醒等异常唤醒情况，这会严重影响机器终端设备的正常语音交互工作。

针对现有技术存在的缺陷，本发明提供一种云端互动的语音交互方法，该语音交互方法是基于将机器终端设备与云端设备进行通信连接，以此利用云端设备自身强大的计算能力和完善的算法模型设计，通过该云端设备对该机器终端设备接收到的语音信号执行自动回声消除处理和关于预设唤醒词的检测识别处理，由于该云端设备的计算能力远胜于机器终端设备的本地计算能力，这使得该云端设备执行该自动回声消除处理或者关于预设唤醒词的检测识别处理时，能够更加全面和高效地消除其中的回声信号、以及更加精确和快速地检测识别语音信号中的预设唤醒词，从而有效地避免机器终端设备由于回声信号消除不彻底而导致误唤醒或者自激唤醒情况的发生；相对于现有的只依靠机器终端机器设备进行语音信号相关计算处理的操作，本发明的云端互动的语音交互方法实现机器终端设备与云端设备的语音信号和控制信号的交互，并充分利用云端设备自身强大的计算处理能力来提高对语音信号实施自动回声消除处理或者关于预设唤醒词的检测识别处理的可靠性和精确性。

本发明提供一种云端互动的语音交互方法，其特征在于，所述云端互动的语音交互方法包括如下步骤：

步骤(1)，终端设备对接收到的语音信号进行第一回声消除处理和第一语音唤醒识别处理，以此得到第一唤醒识别结果；

步骤(2)，云端设备对所述第一回声消除处理对应的多通道录音数据进行第二回声消除处理和第二语音唤醒识别处理，以此得到第二唤醒识别结果；

步骤(3)，所述终端设备基于所述第一唤醒识别结果和/或所述第二唤醒识别结果，进行适应性的工作模式切换；

进一步，在步骤(1)中，所述终端设备对接收到的语音信号进行所述第一回声消除处理具体包括，所述终端设备获取自身声音播放模块发出的声音信息作为参考录音信息、以及获取自身声音接收模块采集的声音信息作为原始录音信息，并根据所述原始录音信息和所述参考录音信息进行所述第一回声消除处理；

进一步，在步骤(1)中，所述终端设备进行所述第一语音唤醒识别处理具体包括，对经过所述第一回声消除处理后得到的第一回声消除语音信号，执行第一唤醒词识别处理，并根据所述第一唤醒词识别处理的结果生成所述第一唤醒识别结果；

进一步，在步骤(1)中还包括，所述终端设备根据所述第一唤醒识别结果进行视觉免干扰提示操作；其中，所述视觉免干扰提示操作具体为所述终端设备针对自身是否处于被唤醒状态执行关于光线变化形式和/或界面显示形式的提示操作，同时所述终端设备维持自身声音播放模块的工作状态不变；

进一步，在步骤(2)中，所述云端设备进行所述第二回声消除处理具体包括，所述云端设备将从所述终端设备获取所述第一回声消除处理对应的所述多通道录音数据，并对所述多通道录音信息进行所述第二回声消除处理；其中，所述多通道录音数据包括参考录音信息和原始录音信息，所述参考录音信息为所述第一回声消除处理对应处理的所述终端设备自身声音播放模块发出的声音信息，所述原始录音信息为所述第一回声消除处理对应处理的所述终端设备自身声音接收模块采集的声音信息；

进一步，在步骤(2)中，所述云端设备获取所述多通道录音数据还包括获取所述终端设备在被唤醒前对应的预设时间段内和在被唤醒后对应的预设时间段内，其自身声音接收模块对应采集的唤醒前声音采集信息和唤醒后声音采集信息；所述云端设备在获取所述多通道录音数据后，根据所述原始录音信息、所述参考录音信息、所述唤醒前声音采集信息和所述唤醒后声音采集信息执行所述第二回声消除处理；

进一步，在步骤(2)中，所述云端设备进行所述第二语音唤醒识别处理具体包括，所述云端设备基于所述多通道录音数据关于所述第二回声消除处理的处理结果，对所述处理对应的声音数据信息进行所述第二唤醒识别处理，以确定所述声音数据信息中是否存在预设唤醒词，从而得到所述第二唤醒识别结果；

进一步，在步骤(3)中，所述终端设备基于所述第一唤醒识别结果和/或所述第二唤醒识别结果进行所述工作模式切换具体包括，若所述第一唤醒识别结果指示所述终端设备接收到的语音信号存在预设唤醒词、并且所述第二唤醒识别结果指示所述多通道录音数据中不存在预设唤醒词，则所述云端设备向所述终端设备发送第一通知信号，所述终端设备基于所述第一通知信号恢复处于待唤醒工作模式；

进一步，在步骤(3)中，所述终端设备基于所述第一唤醒识别结果和/或所述第二唤醒识别结果进行所述工作模式切换具体包括，若所述第二唤醒识别结果指示所述多通道录音数据存在预设唤醒词，则所述云端设备向所述终端设备发送第二通知信号，所述终端设备基于所述第二通知信号切换至唤醒工作模式，同时所述云端设备还将所述多通道录音数据中对应的录音数据信息传送至其自身的语音识别模块中以进行相应的语音识别处理；

进一步，在步骤(3)中，当所述终端设备接收的所述第二通知信号后，所述终端设备指示其自身声音播放模块中止当前的声音播放模式、并切换至提示声音播放模式；其中，在所述提示声音播放模式中，所述终端设备自身的声音播放模块能够播放所述云端设备进行所述语音识别处理后对应若干不同语音识别结果。

相比于现有技术，本发明的云端互动的语音交互方法是基于将机器终端设备与云端设备进行通信连接，以此利用云端设备自身强大的计算能力和完善的算法模型设计，通过该云端设备对该机器终端设备接收到的语音信号执行自动回声消除处理和关于预设唤醒词的检测识别处理，由于该云端设备的计算能力远胜于机器终端设备的本地计算能力，这使得该云端设备执行该自动回声消除处理或者关于预设唤醒词的检测识别处理时，能够更加全面和高效地消除其中的回声信号、以及更加精确和快速地检测识别语音信号中的预设唤醒词，从而有效地避免机器终端设备由于回声信号消除不彻底而导致误唤醒或者自激唤醒情况的发生；相对于现有的只依靠机器终端机器设备进行语音信号相关计算处理的操作，该云端互动的语音交互方法实现机器终端设备与云端设备的语音信号和控制信号的交互，并充分利用云端设备自身强大的计算处理能力来提高对语音信号实施自动回声消除处理或者关于预设唤醒词的检测识别处理的可靠性和精确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种云端互动的语音交互方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，为本发明实施例提供的一种云端互动的语音交互方法的流程示意图。该云端互动的语音交互方法优选是基于一终端设备和一云端设备来实现的；优选地，该终端设备可为但不限于是移动通信设备、平板电脑或者个人笔记本等具有语音识别与交互功能的智能终端设备，该云端设备可为但不限于是云端服务器等具有数据计算和存储功能的运算服务设备；优选地，该终端设备与该云端设备之间可进行语音信号和控制信号等不同类型信号流的传输交互。优选地，该终端设备可包括但不限一声音播放模块和一声音接收模块；其中，所述声音播放模块可优选在终端设备的处理模块控制下进行不同类型的音频信号的播放，该声音接收模块可优选在终端设备的处理模块控制下进行不同类型的音频信号的采集，该声音接收模块采集的不同类型的音频信号可包括来自外界或者来自终端设备本身的音频信号。

具体地，该云端互动的语音交互方法可包括如下步骤：

步骤(1)，终端设备对接收到的语音信号进行第一回声消除处理和第一语音唤醒识别处理，以此得到第一唤醒识别结果。

优选地，在步骤(1)中，该终端设备对接收到的语音信号进行该第一回声消除处理可具体包括，该终端设备获取自身声音播放模块发出的声音信息作为参考录音信息、以及获取自身声音接收模块采集的声音信息作为原始录音信息，并根据该原始录音信息和该参考录音信息进行该第一回声消除处理。

优选地，在步骤(1)中，该终端设备进行该第一语音唤醒识别处理可具体包括，对经过该第一回声消除处理后得到的第一回声消除语音信号，执行第一唤醒词识别处理，并根据该第一唤醒词识别处理的结果生成该第一唤醒识别结果。

优选地，在步骤(1)中还可包括，该终端设备根据该第一唤醒识别结果进行视觉免干扰提示操作；其中，该视觉免干扰提示操作可具体优选为该终端设备针对自身是否处于被唤醒状态执行关于光线变化形式和/或界面显示形式的提示操作，同时该终端设备维持自身声音播放模块的工作状态不变。

步骤(2)，云端设备对该第一回声消除处理对应的多通道录音数据进行第二回声消除处理和第二语音唤醒识别处理，以此得到第二唤醒识别结果。

优选地，在步骤(2)中，该云端设备进行该第二回声消除处理可具体包括，该云端设备将从该终端设备获取该第一回声消除处理对应的该多通道录音数据，并对该多通道录音信息进行该第二回声消除处理；其中，该多通道录音数据可优选包括参考录音信息和原始录音信息，该参考录音信息可为该第一回声消除处理对应处理的该终端设备自身声音播放模块发出的声音信息，该原始录音信息可为该第一回声消除处理对应处理的该终端设备自身声音接收模块采集的声音信息。

优选地，在步骤(2)中，该云端设备获取该多通道录音数据还可包括获取该终端设备在被唤醒前对应的预设时间段内和在被唤醒后对应的预设时间段内，其自身声音接收模块对应采集的唤醒前声音采集信息和唤醒后声音采集信息；该云端设备在获取该多通道录音数据后，根据该原始录音信息、该参考录音信息、该唤醒前声音采集信息和该唤醒后声音采集信息执行该第二回声消除处理。

优选地，在步骤(2)中，该云端设备进行该第二语音唤醒识别处理可具体包括，该云端设备基于该多通道录音数据关于该第二回声消除处理的处理结果，对该处理对应的声音数据信息进行该第二唤醒识别处理，以确定该声音数据信息中是否存在预设唤醒词，从而得到该第二唤醒识别结果。

步骤(3)，该终端设备基于该第一唤醒识别结果和/或该第二唤醒识别结果，进行适应性的工作模式切换。

优选地，在步骤(3)中，该终端设备基于该第一唤醒识别结果和/或该第二唤醒识别结果进行该工作模式切换可具体包括，若该第一唤醒识别结果指示该终端设备接收到的语音信号存在预设唤醒词、并且该第二唤醒识别结果指示该多通道录音数据中不存在预设唤醒词，则该云端设备向该终端设备发送第一通知信号，该终端设备基于该第一通知信号恢复处于待唤醒工作模式。

优选地，在步骤(3)中，该终端设备基于该第一唤醒识别结果和/或该第二唤醒识别结果进行该工作模式切换可具体包括，若该第二唤醒识别结果指示该多通道录音数据存在预设唤醒词，则该云端设备向该终端设备发送第二通知信号，该终端设备基于该第二通知信号切换至唤醒工作模式，同时该云端设备还将该多通道录音数据中对应的录音数据信息传送至其自身的语音识别模块中以进行相应的语音识别处理。

优选地，在步骤(3)中，当该终端设备接收的该第二通知信号后，该终端设备可指示其自身声音播放模块中止当前的声音播放模式、并切换至提示声音播放模式；其中，在该提示声音播放模式中，该终端设备自身的声音播放模块能够播放该云端设备进行该语音识别处理后对应若干不同语音识别结果。

从上述实施例可以看出，该是基于将机器终端设备与云端设备进行通信连接，以此利用云端设备自身强大的计算能力和完善的算法模型设计，通过该云端设备对该机器终端设备接收到的语音信号执行自动回声消除处理和关于预设唤醒词的检测识别处理，由于该云端设备的计算能力远胜于机器终端设备的本地计算能力，这使得该云端设备执行该自动回声消除处理或者关于预设唤醒词的检测识别处理时，能够更加全面和高效地消除其中的回声信号、以及更加精确和快速地检测识别语音信号中的预设唤醒词，从而有效地避免机器终端设备由于回声信号消除不彻底而导致误唤醒或者自激唤醒情况的发生；相对于现有的只依靠机器终端机器设备进行语音信号相关计算处理的操作，本发明的云端互动的语音交互方法实现机器终端设备与云端设备的语音信号和控制信号的交互，并充分利用云端设备自身强大的计算处理能力来提高对语音信号实施自动回声消除处理或者关于预设唤醒词的检测识别处理的可靠性和精确性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种云端互动的语音交互方法，其特征在于，所述云端互动的语音交互方法包括如下步骤：

步骤(3)，所述终端设备基于所述第一唤醒识别结果和/或所述第二唤醒识别结果，进行适应性的工作模式切换。

2.如权利要求1所述的云端互动的语音交互方法，其特征在于：在步骤(1)中，所述终端设备对接收到的语音信号进行所述第一回声消除处理具体包括，所述终端设备获取自身声音播放模块发出的声音信息作为参考录音信息、以及获取自身声音接收模块采集的声音信息作为原始录音信息，并根据所述原始录音信息和所述参考录音信息进行所述第一回声消除处理。

3.如权利要求1所述的云端互动的语音交互方法，其特征在于：在步骤(1)中，所述终端设备进行所述第一语音唤醒识别处理具体包括，对经过所述第一回声消除处理后得到的第一回声消除语音信号，执行第一唤醒词识别处理，并根据所述第一唤醒词识别处理的结果生成所述第一唤醒识别结果。

4.如权利要求1所述的云端互动的语音交互方法，其特征在于：在步骤(1)中还包括，所述终端设备根据所述第一唤醒识别结果进行视觉免干扰提示操作；其中，所述视觉免干扰提示操作具体为所述终端设备针对自身是否处于被唤醒状态执行关于光线变化形式和/或界面显示形式的提示操作，同时所述终端设备维持自身声音播放模块的工作状态不变。

5.如权利要求1所述的云端互动的语音交互方法，其特征在于：在步骤(2)中，所述云端设备进行所述第二回声消除处理具体包括，所述云端设备将从所述终端设备获取所述第一回声消除处理对应的所述多通道录音数据，并对所述多通道录音信息进行所述第二回声消除处理；其中，所述多通道录音数据包括参考录音信息和原始录音信息，所述参考录音信息为所述第一回声消除处理对应处理的所述终端设备自身声音播放模块发出的声音信息，所述原始录音信息为所述第一回声消除处理对应处理的所述终端设备自身声音接收模块采集的声音信息。

6.如权利要求5所述的云端互动的语音交互方法，其特征在于：在步骤(2)中，所述云端设备获取所述多通道录音数据还包括获取所述终端设备在被唤醒前对应的预设时间段内和在被唤醒后对应的预设时间段内，其自身声音接收模块对应采集的唤醒前声音采集信息和唤醒后声音采集信息；所述云端设备在获取所述多通道录音数据后，根据所述原始录音信息、所述参考录音信息、所述唤醒前声音采集信息和所述唤醒后声音采集信息执行所述第二回声消除处理。

7.如权利要求1和5-6中任一项所述的云端互动的语音交互方法，其特征在于：在步骤(2)中，所述云端设备进行所述第二语音唤醒识别处理具体包括，所述云端设备基于所述多通道录音数据关于所述第二回声消除处理的处理结果，对所述处理对应的声音数据信息进行所述第二唤醒识别处理，以确定所述声音数据信息中是否存在预设唤醒词，从而得到所述第二唤醒识别结果。

8.如权利要求1所述的云端互动的语音交互方法，其特征在于：在步骤(3)中，所述终端设备基于所述第一唤醒识别结果和/或所述第二唤醒识别结果进行所述工作模式切换具体包括，若所述第一唤醒识别结果指示所述终端设备接收到的语音信号存在预设唤醒词、并且所述第二唤醒识别结果指示所述多通道录音数据中不存在预设唤醒词，则所述云端设备向所述终端设备发送第一通知信号，所述终端设备基于所述第一通知信号恢复处于待唤醒工作模式。

9.如权利要求1所述的云端互动的语音交互方法，其特征在于：在步骤(3)中，所述终端设备基于所述第一唤醒识别结果和/或所述第二唤醒识别结果进行所述工作模式切换具体包括，若所述第二唤醒识别结果指示所述多通道录音数据存在预设唤醒词，则所述云端设备向所述终端设备发送第二通知信号，所述终端设备基于所述第二通知信号切换至唤醒工作模式，同时所述云端设备还将所述多通道录音数据中对应的录音数据信息传送至其自身的语音识别模块中以进行相应的语音识别处理。

10.如权利要求9所述的云端互动的语音交互方法，其特征在于：在步骤(3)中，当所述终端设备接收的所述第二通知信号后，所述终端设备指示其自身声音播放模块中止当前的声音播放模式、并切换至提示声音播放模式；其中，在所述提示声音播放模式中，所述终端设备自身的声音播放模块能够播放所述云端设备进行所述语音识别处理后对应若干不同语音识别结果。