CN110265033A

CN110265033A - 扩展设备语音交互功能的系统及方法

Info

Publication number: CN110265033A
Application number: CN201910543651.8A
Authority: CN
Inventors: 梁应龙
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-09-20

Abstract

本发明涉及语音交互控制技术，其公开了一种扩展设备语音交互功能的系统及方法，解决传统技术中由于老旧或低端电子设备的语音硬件配置缺失而造成的无法实现语音交互控制功能的问题，从而提升用户的交互体验。该系统包括主控端设备和被控端设备；主控端设备对用户的语音进行拾取和预处理，并进行语音识别和语义分析处理后提取交互控制指令，根据控制指令中的媒资检索需求在媒资库中进行相应资源检索，结合资源检索结果生成最终交互控制指令，进行编码后发送给被控端设备；被控端设备接收来自主控端设备的最终交互控制指令并进行解析处理，执行解析结果中的相关控制指令。本发明适用于对未配置语音硬件的老旧或低端可联网设备进行语音交互功能的扩展。

Description

扩展设备语音交互功能的系统及方法

技术领域

本发明涉及语音交互控制技术，特别涉及一种扩展设备语音交互功能的系统及方法。

背景技术

近年来，人工智能技术蓬勃发展，热度非凡。而语音识别技术作为人工智能技术的重要技术方向，其技术发展与应用落地也日益成熟。目前，绝大部分智能消费电子设备都支持语音技术进行交互控制。基于语音技术的交互控制方式彻底解放了人们的双手，极大的提升了人机交互的用户体验。

语音交互技术涉及语音拾取、音频编码、语音识别、语义识别、媒资检索、指令转译、指令执行等多个环节。因此，语音交互控制功能对设备的硬件配置和系统的资源配置要求较高，比如：要求配置麦克风或麦克风阵列等拾音设备，在语音编码、语音识别等环节要求占用较大的内存和CPU资源等。由于这些硬件条件的制约，导致很多低端的网络消费电子设备和上一代的网络消费电子设备无法使用语音交互控制功能。

发明内容

本发明所要解决的技术问题是：提出一种扩展设备语音交互功能的系统及方法，解决传统技术中由于老旧或低端电子设备的语音硬件配置缺失而造成的无法实现语音交互控制功能的问题，从而提升用户的交互体验。

本发明解决上述技术问题所采用的技术方案是：

扩展设备语音交互功能的系统，包括可通过网络建立连接的至少一个主控端设备和至少一个被控端设备；

所述主控端设备用于对用户的语音进行拾取和预处理，并进行语音识别和语义分析处理后提取交互控制指令，根据交互控制指令中的媒资检索需求在媒资库中进行相应资源检索，结合资源检索结果生成最终交互控制指令，并对最终交互控制指令进行编码后发送给被控端设备；

所述被控端设备用于接收来自主控端设备的最终交互控制指令并进行解析处理，执行解析结果中的相关控制指令。

作为进一步优化，所述被控端设备还用于向主控端设备发送其指令支持集，所述主控端设备还用于在获取被控端设备的指令支持集后进行保存和维护，所述指令支持集采用纯文本的方式进行规范和定义。

本方案中，被控端设备通过向主控端设备同步纯文本方式规范和定义的指令支持集，使得主控端设备能够知晓被控端设备能够支持的指令，便于在后期依据该指令支持集从识别的语音中提取相关指令和对交互控制指令的编码。

作为进一步优化，所述主控端和被控端设备处于同一局域网内。

通过局域网可以建立主控端设备和被控端设备的快速相互发现和连接，从而满足即时语音控制的需求。

作为进一步优化，所述被控端设备为具备联网功能而未搭载语音收发硬件的设备。

对于具备联网功能未搭载语音收发硬件的设备，采用本方案可以扩展出其语音交互功能，从而提升对这类设备的交互控制体验。

作为进一步优化，所述被控端设备还用于在执行相关控制指令后，通过网络向主控端设备反馈执行结果，主控端设备对执行结果进行显示或者语音播放。

若被控端设备为电视机类的显示设备，则用户可以直观地看到设备对交互控制指令的执行情况，而若被控端为空调、冰箱等设备，则用户无法直观知晓设备对交互控制指令是否执行成功，因此这里需要向主控端设备反馈一个执行结果，让用户知晓指令的执行状态。

作为进一步优化，所述主控端设备包括：

语音拾取模块，用于拾取用户输入的语音并进行去噪和平滑处理；

语音识别模块，用于对语音数据进行识别，获取识别结果；

语义处理模块，用于对识别结果进行语义理解处理，获取语义处理结果；

指令提取模块，用于从语义处理结果中提取控制指令；

媒资检索模块，用于当控制指令中含有媒资检索需求时，在媒资库中进行相应资源检索；

指令编码模块，用于结合提取的控制指令和资源检索结果生成最终的交互控制指令并进行编码；

指令收发模块，用于向被控端设备发送编码后的交互控制指令，以及接收被控端反馈的对交互控制指令的执行结果。

作为进一步优化，所述被控端设备包括：

指令接收模块，用于从主控端设备接收编码后的交互控制指令；

指令解码模块，用于对交互控制指令进行解码处理，获取解码出来的交互控制指令；

指令执行模块，用于执行解码出来的交互控制指令；

执行反馈模块，用于向主控设备反馈对交互控制指令的执行结果。

此外，基于上述系统，本发明还提供了一种扩展设备语音交互功能的方法，包括：

a.主控端设备和被控端设备之间建立交互通道；

b.被控端设备向主控端设备同步指令支持集；

c.主控端设备拾取用户输入的语音，对语音预处理后再进行语音识别；

d.主控端设备对语音识别结果进行语义理解处理，获取语义处理结果；

e.主控端设备依据指令支持集对从语义处理结果中提取控制指令；

f.主控端设备判断提取的控制指令中是否包含媒资检索需求，若是，执行步骤g，否则执行步骤h；

g.主控端设备依据媒资检索需求在云端在线媒资库中进行相应检索，获得检索结果，执行步骤i；

h.主控端设备依据指令支持集对提取的控制指令进行编码，获取编码后的交互控制指令，发送给被控端设备，执行步骤j；

i.主控端设备依据指令支持集对提取的控制指令和检索结果进行编码，获取编码后的交互控制指令，发送给被控端设备，执行步骤j；

j.被控端设备依据指令支持集对获取的交互控制指令进行解码处理；

k.被控端设备执行解码获取的交互控制指令，并将执行结果反馈给主控端设备。

作为进一步优化，步骤a中，主控端设备通过主动搜索和在线侦听的方式获取到被控端设备相关信息，并基于此信息与被控端设备之间建立双向的TCP连接通道。

本方案中，被控端设备可以自动在其局域网内发送上线报文，该报文可以被加入同一局域网的主控端设备侦听，并且，主控端设备也可以发送设备搜索请求报文，该请求报文被处于同一局域网的被控端设备获取；从而建立主控端设备与被控端设备之间的快速相互发现。而主动搜索和在线侦听都可以通过UDP广播报文方式实现。

作为进一步优化，步骤b中，所述被控端设备向主控端设备同步指令支持集是指：

被控端设备主动向主控端设备发送其指令支持集，主控设备接收指令支持集后，首先查找本地是否保存有该被控端设备的指令支持集，若已保存，则对此被控端设备历史存储的指令支持集进行更新，若未保存，则直接保存该指令支持集。

本发明的有益效果是：

由于对被控端设备的硬件配置和系统资源配置要求很低，对于绝大部分网络类消费电子产品都具备实施的条件，因此具有广泛的通用性。

只需要采用第三方的主控端设备通过网络建立与被控端设备之间的连接，即可在不增加任何硬件配置及成本的前提下，通过纯软件的方式，为未搭载语音收发硬件的老旧设备和低端设备增加语音交互控制功能，提升这类设备交互控制的体验，给用户带来交互体验的升级。通过本发明的实施，可以极大提升用户对产品的粘性，形成品牌及产品的口碑效应。

附图说明

图1为扩展设备语音交互功能的系统结构框图；

图2为扩展设备语音交互功能的方法流程图。

具体实施方式

本发明旨在提出一种扩展设备语音交互功能的系统及方法，解决传统技术中由于老旧或低端电子设备的语音硬件配置缺失而造成的无法实现语音交互控制功能的问题，从而提升用户的交互体验。

在具体实现上，如图1所示，本发明中的扩展语音交互功能的系统包括主控端设备和被控端设备两大部分，其中主控端设备是独立于被控端设备的第三方设备，也是本发明系统的核心组成设备，承担着本发明系统的核心功能，其硬件资源配置要求较高，且必须配置语音拾取硬件模块，比如目前的智能手机终端、PAD等都可以满足需求；其用于对用户的语音进行拾取和预处理，并进行语音识别和语义分析处理后提取交互控制指令，根据交互控制指令中的媒资检索需求在媒资库中进行相应资源检索，结合资源检索结果生成最终交互控制指令，对最终交互控制指令进行编码后发送给被控端设备；

被控端设备在本发明系统中是一个轻量级设备，其硬件配置要求相对较低，软件功能也相对简易，在本发明中被控端设备主要为未搭载语音收发硬件的老旧设备和低端设备，但是具备联网功能，本发明致力于在这类设备上扩展出语音交互功能，而又无需增加相关硬件。其用于接收来自主控端设备的最终交互控制指令并进行解析处理，执行解析结果中的相关控制指令，并将执行结果反馈给主控端设备。

下面简介主控端设备和被控端设备的功能模块的组成：

主控端设备包括：语音拾取模块、语音识别模块、语义处理模块、指令提取模块、媒资检索模块和指令收发模块；

语音识别模块，用于对语音数据进行识别，获取识别结果；

指令提取模块，用于从语义处理结果中提取控制指令；

被控端设备包括：指令接收模块、指令解码模块、指令执行模块和执行反馈模块。

指令执行模块，用于执行解码出来的交互控制指令；

为了建立主控端设备和被控端设备之间的快速连接通道，可以采用局域网实现二者的快速相互发现和连接。二者建立连接通道之后，通过纯文本的数据和指令进行交互。

基于上述系统，本发明实现的扩展设备语音交互功能的方法如图2所示，其包括：

1、主被控端设备协同，并建立交互通信通道：

本步骤中，主控端设备可以加入被控端设备所在的局域网，通过主动搜索和在线侦听的方式获取到被控端设备相关信息，并基于此信息建立双向的TCP连接通道。而主动搜索和在线侦听都可以通过UDP广播报文方式实现。被控端设备相关信息包括设备名称、IP地址、端口号等。

2、被控端设备与主控端设备同步控制指令支持集：

本步骤中，被控设备主动向主控设备发送其指令支持集，主控设备接收指令支持集，通过查找本地是否已经保存了该被控设备的指令支持集，若已保存，则利用新接收的指令支持集对历史存储的指令支持集进行更新，若未保存，则直接保存该指令支持集。这里的“指令支持集”是被控端设备所能够支持的控制指令，采用纯文本的方式进行规范和定义。在后期提取控制指令和编码、解码过程都需要应用到该指令支持集。

3、语音拾取及识别处理：

本步骤中，主控端设备拾取用户的语音输入信息，并对语音数据进行前期处理，包括去噪处理、平滑处理等，然后对语音数据进行识别处理，获取到语音识别之后的结果数据。

4、语义识别处理：

本步骤中，主控端设备对语音识别后的结果数据进行语义理解处理，比如：进行分词和断句处理，处理成机器可以理解的控制指令文本。

5、交互控制指令的提取：

本步骤中，基于语义识别处理的结果，主控端设备可以依据保存的被控端的指令支持集来提取其中的交互控制指令。

6、媒体资源检索：

此步骤并非必要步骤，只适用于在步骤5提取得到的控制指令中包含媒资检索需求的情况，则主控端设备通过检索云端在线媒资库来检索相关的媒资信息，并获取到最终的媒资内容结果。而如果步骤5中提取的交互控制指令中并不含有媒资检索需求，比如仅是对音量的调节、快进、快退调节等操作时，则不需要进入此步骤，而是直接进入步骤7对控制指令进行编码。

7、交互控制指令编码生成及发送：

本步骤中，对于提取的控制指令中包含媒资检索需求的情况，主控端设备根据步骤5和步骤6得到的结果，组织生成最终的交互控制指令，并依据保存的被控端设备的指令支持集表进行编码，然后通过建立的通信通道发送给被控端设备。对于提取的控制指令中不包含媒资检索需求的情况，主控端设备直接依据保存的被控端设备的指令支持集对提取的控制指令进行编码，然后通过建立的通信通道发送给被控端设备。

8、交互控制指令接收及解码：

本步骤中，被控端设备接收到主控端发送的交互控制指令文本，基于被控端设备的指令支持集表进行解码，并生成本地机器可以识别的控制指令。

9、交互控制指令执行及响应：

本步骤中，被控端设备执行步骤8生成的控制指令，并将执行完成后的结果通过双向通信通道反馈给主控端设备。

实施例：

以主控端设备为智能手机，被控端设备为不带语音收发硬件的网络电视为例来阐述本发明中的扩展设备语音交互功能的方法，其包括以下步骤：

(1)智能手机联网上线后，搜索获取到网络电视的相关信息，包括设备名称为“客厅电视1”、IP地址为“192.168.1.100”、端口port为“12345”，并基于此信息建立起智能手机与网络电视间的双向TCP连接通道。

(2)TCP连接通道建立完成后，网络电视主动向智能手机发送其指令支持集，该指令集包括一类系统控制指令组合，包括播放控制、片源切换、场景切换等。智能手机接收到此指令支持集后，同步更新此前已经保存的该网络电视的指令支持集。

(3)用户通过智能手机输入“我想看战狼2”，智能手机对该条语音数据进行去噪处理、平滑处理后，对语音数据进行识别处理，获取到“我想看战狼2”的处理结果。

(4)智能手机对“我想看战狼2”进行语义理解和分词处理，得到“我”“想看”“战狼2”等语义分词。

(5)基于步骤(4)的结果，智能手机设备设备提取其中的交互控制指令：跳转到电影“战狼2”进行播放。

(6)智能手机设备通过媒资检索模块检索云端在线媒资库，查询获取到电影“战狼2”的相关媒资信息，包括电影海报、内容简介、播放链接地址等。

(7)智能手机设备汇总步骤(5)和步骤(6)得到的结果，并依据步骤(2)获取到的指令支持集,组织生成最终的交互控制指令文本串“CMD:Play；FilmBill:addr1；FlimLink:addr2”，然后通过TCP通信通道发送给网络电视设备。

(8)网络电视接收到智能手机端发送的交互控制指令文本，基于指令支持集对该控制指令进行解码，并生成网络电视可以识别的点播播放指令。

(9)网络电视执行点播播放指令，调用相关播放器启动电影“战狼2”的播放，成果播放完成后，将执行播放成功的结果通过双向通信通道反馈给智能手机设备。

至此，完成智能手机语音控制网络电视的流程。如此循环，完成智能手机对网络电视的多轮语音交互控制。

由此可以看出，本发明只需要采用第三方的主控端设备通过网络建立与被控端设备之间的连接，即可在不增加任何硬件配置及成本的前提下，通过纯软件的方式，为未搭载语音收发硬件的老旧设备和低端设备增加语音交互控制功能，提升这类设备交互控制的体验，给用户带来交互体验的升级。通过本发明的实施，可以极大提升用户对产品的粘性，形成品牌及产品的口碑效应。

Claims

1.扩展设备语音交互功能的系统，其特征在于，

包括可通过网络建立连接的至少一个主控端设备和至少一个被控端设备；

2.如权利要求1所述的扩展设备语音交互功能的系统，其特征在于，

所述被控端设备还用于向主控端设备发送其指令支持集，所述主控端设备还用于在获取被控端设备的指令支持集后进行保存和维护，所述指令支持集采用纯文本的方式进行规范和定义。

3.如权利要求1所述的扩展设备语音交互功能的系统，其特征在于，

所述主控端和被控端设备处于同一局域网内。

4.如权利要求1所述的扩展设备语音交互功能的系统，其特征在于，

所述被控端设备为具备联网功能而未搭载语音收发硬件的设备。

5.如权利要求1所述的扩展设备语音交互功能的系统，其特征在于，

所述被控端设备还用于在执行相关控制指令后，通过网络向主控端设备反馈执行结果，主控端设备对执行结果进行显示或者语音播放。

6.如权利要求1所述的扩展设备语音交互功能的系统，其特征在于，

所述主控端设备包括：

语音识别模块，用于对语音数据进行识别，获取识别结果；

指令提取模块，用于从语义处理结果中提取控制指令；

7.如权利要求1所述的扩展设备语音交互功能的系统，其特征在于，

所述被控端设备包括：

指令执行模块，用于执行解码出来的交互控制指令；

8.扩展设备语音交互功能的方法，其特征在于，包括：

a.主控端设备和被控端设备之间建立交互通道；

b.被控端设备向主控端设备同步指令支持集；

9.如权利要求8所述的扩展设备语音交互功能的方法，其特征在于，

步骤a中，主控端设备通过主动搜索和在线侦听的方式获取到被控端设备相关信息，并基于此信息与被控端设备之间建立双向的TCP连接通道。

10.如权利要求8所述的扩展设备语音交互功能的方法，其特征在于，

步骤b中，所述被控端设备向主控端设备同步指令支持集是指：