CN108683937A

CN108683937A - 智能电视的语音交互反馈方法、系统及计算机可读介质

Info

Publication number: CN108683937A
Application number: CN201810195553.5A
Authority: CN
Inventors: 罗俊楠; 李静; 陈之曦
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2018-10-19
Anticipated expiration: 2038-03-09
Also published as: US10971145B2; JP6713034B2; US20190279628A1; CN108683937B; JP2019161636A

Abstract

本发明提供一种智能电视的语音交互反馈方法、系统及计算机可读介质。其方法包括：采集用户发出语音指令的音频流和智能电视当前界面的元素信息；向云端服务器发送音频流和当前界面的元素信息，以供云端服务器根据音频流和当前界面的元素信息，生成携带目标元素的信息响应消息；其中目标元素为音频流对应的语音指令的意图命中的当前界面中的元素；接收云端服务器返回的响应消息；根据响应消息中的目标元素的信息，在当前界面上对对应的目标元素执行预设的效果展示，作为语音指令的交互反馈。本发明的技术方案，在智能电视上可以对用户的语音指令进行反馈，这样，当智能电视未执行控制指令时，可以准确定位到未执行的原因是未识别还是执行受到阻塞。

Description

智能电视的语音交互反馈方法、系统及计算机可读介质

【技术领域】

本发明涉及计算机应用技术领域，尤其涉及一种智能电视的语音交互反馈方法、系统及计算机可读介质。

【背景技术】

随着语音技术的发展，电视场景下利用语音提升用户交互体验的场景越来越多。但用户做出的控制类的语音指令从下发到执行会经历唤醒、自动语音识别(AutomaticSpeech Recognition；ASR)、自然语言理解(Natural Language Understanding；NLU)、智能电视(Television；TV)接收指令并执行几个过程。良好的反馈机制可以实时告知用户语音指令的执行状态，达到体验提升的效果。例如，目前唤醒、ASR、NLU几个步骤在执行过程中智能电视均有相应反馈。

例如，现有的智能电视的语音交互反馈过程具体可以包括如下过程：用户下发控制类的语音指令Query，智能电视采集用户的Query的音频流，并发送给云端服务器，由云端服务器进行ASR识别Query，NLU理解Query意图，判断该Query槽位信息，并最后下发对应意图与槽位信息到智能电视，最后由智能电视直接执行对应意图与槽位信息对应的控制指令。

但是，现有技术中，智能电视在接收到语音指令Query对应的意图与槽位信息后，到执行对应的控制指令的过程中，无任何反馈信息，这样，当智能电视未执行控制指令时，无法确定是云端服务器未识别该语音指令Query还是智能电视执行控制指令受到阻塞，即导致未执行控制指令的原因无法进行准确定位。

【发明内容】

本发明提供了一种智能电视的语音交互反馈方法、系统及计算机可读介质，用于为用户的语音指令进行相应的反馈，以在智能电视未执行控制指令时，便于对未执行的原因进行准确定位。

本发明提供一种智能电视的语音交互反馈方法，所述方法包括：

采集用户发出语音指令的音频流和智能电视当前界面的元素信息；

向云端服务器发送所述音频流和所述当前界面的元素信息，以供所述云端服务器根据所述音频流和所述当前界面的元素信息，生成携带目标元素的信息响应消息；所述目标元素为所述音频流对应的所述语音指令的意图命中的所述当前界面中的元素；

接收所述云端服务器返回的所述响应消息；

根据所述响应消息中的所述目标元素的信息，在所述当前界面上对对应的所述目标元素执行预设的效果展示，作为所述语音指令的交互反馈。

进一步可选地，如上所述的方法中，采集用户发出语音指令的音频流和智能电视当前界面的元素信息之后，所述方法还包括：

在缓存中存储所述当前界面的元素信息；

根据所述响应消息中的所述目标元素的信息，在所述当前界面上对对应的所述目标元素执行预设的效果展示，具体包括：

根据所述响应消息中的所述目标元素的信息，从所述缓存中存储的所述当前界面的元素信息中查找对应的所述目标元素；

对所述当前界面上对应的所述目标元素执行预设的效果展示。

进一步可选地，如上所述的方法中，所述当前界面的元素信息包括所述当前界面中的所述元素的位置、显示的文字以及层级结构信息。

接收智能电视发送的用户的语音指令对应的音频流和所述智能电视当前界面的元素信息；

根据所述音频流和所述当前界面的元素信息，生成携带目标元素的信息响应消息；所述目标元素为所述音频流对应的所述语音指令的意图命中的所述当前界面中的元素；

向所述智能电视返回所述响应消息，以供所述智能电视根据所述响应消息中的所述目标元素的信息，在所述当前界面上对对应的所述目标元素执行预设的效果展示，作为所述语音指令的交互反馈。

进一步可选地，如上所述的方法中，根据所述音频流和所述当前界面的元素信息，生成携带目标元素的信息响应消息，具体包括：

根据所述音频流和所述当前界面的元素信息，识别所述音频流对应的所述语音指令的意图命中的所述当前界面中的目标元素；

基于所述目标元素的信息生成响应消息。

进一步可选地，如上所述的方法中，根据所述音频流和所述当前界面的元素信息，识别所述音频流对应的所述语音指令的意图命中的所述当前界面中的目标元素，具体包括：

对所述音频流进行语音识别，得到所述音频流对应的所述语音指令对应的文字指令；

对所述文字指令进行自然语言理解处理，识别所述语音指令的意图；

将所述语音指令的意图和所述当前界面的元素信息进行比对，识别所述语音指令的意图命中的所述当前界面中的目标元素。

本发明提供一种智能电视装置，所述装置包括：

采集模块，用于采集用户发出语音指令的音频流和智能电视当前界面的元素信息；

收发模块，用于向云端服务器发送所述音频流和所述当前界面的元素信息，以供所述云端服务器根据所述音频流和所述当前界面的元素信息，生成携带目标元素的信息响应消息；所述目标元素为所述音频流对应的所述语音指令的意图命中的所述当前界面中的元素；

所述收发模块，还用于接收所述云端服务器返回的所述响应消息；

执行模块，用于根据所述响应消息中的所述目标元素的信息，在所述当前界面上对对应的所述目标元素执行预设的效果展示，作为所述语音指令的交互反馈。

进一步可选地，如上所述的装置中，还包括：

存储模块，用于在缓存中存储所述当前界面的元素信息；

所述执行模块，具体用于：

进一步可选地，如上所述的装置中，所述当前界面的元素信息包括所述当前界面中的所述元素的位置、显示的文字以及层级结构信息。

本发明还提供一种云端服务器，所述服务器包括：

收发模块，用于接收智能电视发送的用户的语音指令对应的音频流和所述智能电视当前界面的元素信息；

生成模块，用于根据所述音频流和所述当前界面的元素信息，生成携带目标元素的信息响应消息；所述目标元素为所述音频流对应的所述语音指令的意图命中的所述当前界面中的元素；

所述收发模块，还用于向所述智能电视返回所述响应消息，以供所述智能电视根据所述响应消息中的所述目标元素的信息，在所述当前界面上对对应的所述目标元素执行预设的效果展示，作为所述语音指令的交互反馈。

进一步可选地，如上所述的服务器中，所述生成模块，包括：

识别单元，用于根据所述音频流和所述当前界面的元素信息，识别所述音频流对应的所述语音指令的意图命中的所述当前界面中的目标元素；

生成单元，用于基于所述目标元素的信息生成响应消息。

进一步可选地，如上所述的服务器中，所述识别单元，具体用于：

进一步可选地，如上所述的服务器中，所述当前界面的元素信息包括所述当前界面中的所述元素的位置、显示的文字以及层级结构信息。

本发明还提供一种智能电视的语音交互系统，所述系统包括智能电视装置和云端服务器，所述智能电视装置和所述云端服务器通信连接，所述智能电视装置采用如上所述的智能电视装置，所述云端服务器采用如上所述的云端服务器。

本发明还提供一种计算机设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的智能电视的语音交互反馈方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的智能电视的语音交互反馈方法。

本发明的智能电视的语音交互反馈方法、系统及计算机可读介质，通过采用上述技术方案，在智能电视上可以对用户的语音指令进行反馈，这样，当智能电视未执行控制指令时，可以准确定位到是云端服务器未识别该语音指令还是智能电视执行控制指令受到阻塞。而且，本发明通过预设的效果对用户的语音指令进行反馈，还能够有效地提高用户的体验度。

【附图说明】

图1为本发明的智能电视的语音交互反馈方法实施例一的流程图。

图2为本发明的智能电视的语音交互反馈方法实施例二的流程图。

图3为本发明的智能电视装置实施例一的结构图。

图4为本发明的智能电视装置实施例二的结构图。

图5为本发明的云端服务器实施例一的结构图。

图6为本发明的云端服务器实施例二的结构图。

图7为本发明的智能电视的语音交互系统实施例的结构图。

图8为本发明的计算机设备实施例的结构图。

图9为本发明提供的一种计算机设备的示例图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明的智能电视的语音交互反馈方法实施例一的流程图。如图1所示，本实施例的智能电视的语音交互反馈方法，具体可以包括如下步骤：

100、采集用户发出语音指令的音频流和智能电视当前界面的元素信息；

本实施例的智能电视的语音交互反馈方法，在智能电视侧描述本发明的技术方案。本实施例的智能电视不仅包括智能电视的客户端，还包括智能电视的实体。例如，具体由智能电视的客户端和智能电视的实体的配合实现智能电视的语音交互的反馈。

例如，本实施例中，智能电视的客户端可以调用智能电视实体自带的或者外接的麦克风设备，采集用户说话声音的音频流。当用户发出语音指令时，智能电视便可以采集到语音指令对应的音频流。另外，由于用户的语音指令都是针对当前界面上显示的内容而做出的，因此，本实施例中，智能电视还需要采集智能电视当前界面的元素信息，例如具体由智能电视的客户端采集当前展示在智能电视实体的显示屏上的当前界面的元素信息。

可选地，本实施例的当前界面的元素信息可以包括当前界面中的元素的位置、显示的文字以及层级结构等信息，当前界面的每一个元素的信息都可以唯一标识当前界面中的该元素。本实施例中，元素的位置可以采用元素在当前界面中的坐标来表示。

101、向云端服务器发送音频流和当前界面的元素信息，以供云端服务器根据音频流和当前界面的元素信息，生成携带目标元素的信息响应消息；其中目标元素为音频流对应的语音指令的意图命中的当前界面中的元素；

具体地，可以由智能电视客户端通过http协议向云端服务器发送音频流和当前界面的元素信息。例如，目前智能电视大多基于Android系统，可以通过Android系统中提供的接口，采集并获取到当前界面上的所有元素的位置、显示的文字以及层级结构。并通过对获取到的信息进行分析，可以最终确定当前界面上能被语音指令所响应的全部元素。当所有元素信息确定后，智能电视客户端通过与后端的云端服务器约定的协议和接口，将所有的元素的信息按照协议格式上报给云端服务器。

智能电视向云端服务器发送音频流和当前界面的元素信息后，云端服务器可以通过ASR、NLU等步骤，理解用户的音频流中的语音指令对应的意图。由于用户在观看电视的过程中，发出的语音指令都是针对于当前界面显示的信息所发出的，例如当前界面中由播放按钮、暂停按钮等，用户可以语音发出播放指令，或者暂停指令。这样，云端服务器通过ASR和NLU理解用户的意图之后，可以确定用户的语音指令对应的控制指令时播放或者暂停。同时，由于云端服务器已经获取到当前界面的元素信息，可以根据音频流中语音指令的意图和当前界面的元素信息，识别音频流对应的语音指令的意图命中的当前界面中的目标元素，进而生成携带目标元素的信息响应消息。例如，目标元素为当前界面中显示文字为暂停或者播放的元素。

102、接收云端服务器返回的响应消息；

103、根据响应消息中的目标元素的信息，在当前界面上对对应的目标元素执行预设的效果展示，作为语音指令的交互反馈。

本实施例中，智能电视接收的云端服务器返回的响应消息中携带目标元素的信息，如目标元素的位置、目标元素显示的文字以及目标元素在当前界面的层级结构。智能电视收到服务端的响应后，智能电视的客户端根据约定的协议对响应消息进行解析，如果解析后发现响应消息中包含了命中当前界面的目标元素的相关内容，则将该目标元素的信息转交到智能电视的客户端中的用户界面(User Interface；UI)模块进行处理。对应地，UI模块接收到目标元素的信息后，获取当前界面的所有元素信息，并根据命中的目标元素的位置、显示的文字以及层级结构等，在当前界面的所有元素信息中获取对应的目标元素，并对对应的目标元素执行预设的效果展示，使得当前界面中的该目标元素在智能电视的实体的显示屏上按照预设的效果展示，作为语音指令的交互反馈。本实施例的预设的效果展示可以为放大、闪烁、获取焦点、或者模拟按钮按下等等动画效果展示。

进一步地，本实施例中，在采集到智能电视当前界面的元素信息之后，还可以在客户端的缓存中存储当前界面的元素信息，以便后续进行快速查找。如在云端服务器侧，UI模块接收到目标元素的信息后，根据命中的目标元素的位置、显示的文字以及层级结构等，在智能电视客户端的缓存中存储的当前界面的所有元素信息中进行查找，找到对应的目标元素，然后对该目标元素执行预设的效果展示，并展现在智能电视实体的显示屏上。相对于上述技术方案，不用再获取当前界面的元素信息，而可以直接根据缓存中存储的当前界面的元素信息快速查找目标元素，缩短查找时间，提高查找效率。

例如，一个典型的场景为：用户在智能电视的电影详情页发出语音指令Query“播放”，智能电视接收到语音指令后，获取语音指令的音频流和当前界面的元素信息发送给云端服务器，云端服务器进行ASR和NLU处理后，理解用户的意图为播放，并查找到用户的意图命中当前界面即电影详情页的播放按钮，并向智能电视反馈携带播放按钮元素信息的响应消息。智能电视便可以根据响应消息中的该播放按钮的元素信息，对当前界面中该播放按钮进行放大、闪烁、获取焦点或者模拟按钮按下等预设的效果展示，以响应用户的语音指令。这样，随后即便播放操作没有执行，用户也可知道语音指令已经理解，只是在执行过程中遇到阻塞。而若智能电视未执行预设的效果展示，则表示未理解语言指令。采用本实施例的技术方案，当智能电视未执行用户的语音指令时，可以对未执行的原因进行准确定位。并且，通过预设的效果对用户的语音指令进行反馈，还能够有效地提高用户的体验度。

本实施例的智能电视的语音交互反馈方法，通过采集用户发出语音指令的音频流和智能电视当前界面的元素信息；向云端服务器发送音频流和当前界面的元素信息，以供云端服务器根据音频流和当前界面的元素信息，生成携带目标元素的信息响应消息；其中目标元素为音频流对应的语音指令的意图命中的当前界面中的元素；接收云端服务器返回的响应消息；根据响应消息中的目标元素的信息，在当前界面上对对应的目标元素执行预设的效果展示，作为语音指令的交互反馈。通过采用本实施例的技术方案，在智能电视上可以对用户的语音指令进行反馈，这样，当智能电视未执行控制指令时，可以准确定位到是云端服务器未识别该语音指令还是智能电视执行控制指令受到阻塞。而且，本实施例，通过预设的效果对用户的语音指令进行反馈，还能够有效地提高用户的体验度。

图2为本发明的智能电视的语音交互反馈方法实施例二的流程图。如图2所示，本实施例的智能电视的语音交互反馈方法，具体可以包括如下步骤：

200、接收智能电视发送的用户的语音指令对应的音频流和智能电视当前界面的元素信息；

201、根据音频流和当前界面的元素信息，生成携带目标元素的信息响应消息；其中目标元素为音频流对应的语音指令的意图命中的当前界面中的元素；

202、向智能电视返回响应消息，以供智能电视根据响应消息中的目标元素的信息，在当前界面上对对应的目标元素执行预设的效果展示，作为语音指令的交互反馈。

例如，本实施例中的当前界面的元素信息包括当前界面中的元素的位置、显示的文字以及层级结构信息等等。

进一步可选地，本实施例中的步骤201“根据音频流和当前界面的元素信息，生成携带目标元素的信息响应消息”，具体可以包括如下步骤：

(a1)根据音频流和当前界面的元素信息，识别音频流对应的语音指令的意图命中的当前界面中的目标元素；

进一步可选地，该步骤(a1)具体还可以包括如下步骤：

(a2)对音频流进行ASR识别，得到音频流对应的语音指令对应的文字指令；

(b2)对文字指令进行NLU处理，识别语音指令的意图；

(c2)将语音指令的意图和当前界面的元素信息进行比对，识别语音指令的意图命中的当前界面中的目标元素。

(b1)基于目标元素的信息生成响应消息。

具体地，本实施例中，云端服务器收到智能电视发来的音频流后，将音频流提交给ASR引擎，ASR把用户说话的声音转换为文字，即将音频流中的语音指令转换为文字。需要说明的是，当ASR引擎识别到用户说话停止时，云端服务器还需要向智能电视下发停止录音指令，让智能电视的客户端停止发送音频流。当云端服务器中的ASR对音频流的语音指令中的所有文字都转换完成后，生成的文字信息被提交到NLU模块进行处理。

NLU模块会分析文字信息，识别用户的语音指令对应的意图，同时与智能电视发送的当前界面的元素信息进行对比。如果用户的语音指令对应的意图完全命中了当前界面中的某个目标元素，则将该目标元素对应的所有信息如位置、显示的文字以及层级结构等，添加到响应消息中。当然，实际应用中，云端服务器也可以再经过一些其他的处理，生成完整的响应消息，并通过http的链路下发到智能电视的客户端，以供智能电视根据响应消息中的目标元素的信息，在当前界面上对对应的目标元素执行预设的效果展示，作为语音指令的交互反馈。

本实施例的智能电视的语音交互反馈方法，与上述图1所示实施例的区别在于：上述图1所示实施例在智能电视侧描述本发明的技术方案，而本实施例在云端服务器侧描述本发明的技术方案，其具体实现过程亦可以参考上述图1所示实施例的记载，在此不再赘述。

本实施例的智能电视的语音交互反馈方法，接收智能电视发送的用户的语音指令对应的音频流和智能电视当前界面的元素信息；根据音频流和当前界面的元素信息，生成携带目标元素的信息响应消息；其中目标元素为音频流对应的语音指令的意图命中的当前界面中的元素；向智能电视返回响应消息，以供智能电视根据响应消息中的目标元素的信息，在当前界面上对对应的目标元素执行预设的效果展示，作为语音指令的交互反馈。通过采用本实施例的技术方案，在智能电视上可以对用户的语音指令进行反馈，这样，当智能电视未执行控制指令时，可以准确定位到是云端服务器未识别该语音指令还是智能电视执行控制指令受到阻塞。而且，本实施例，通过预设的效果对用户的语音指令进行反馈，还能够有效地提高用户的体验度。

图3为本发明的智能电视装置实施例一的结构图。如图3所示，本实施例的智能电视装置，具体可以包括：

采集模块10用于采集用户发出语音指令的音频流和智能电视当前界面的元素信息；

收发模块11用于向云端服务器发送采集模块10采集的音频流和当前界面的元素信息，以供云端服务器根据音频流和当前界面的元素信息，生成携带目标元素的信息响应消息；目标元素为音频流对应的语音指令的意图命中的当前界面中的元素；

收发模块11还用于接收云端服务器返回的响应消息；

执行模块12用于根据收发模块11接收的响应消息中的目标元素的信息，在当前界面上对对应的目标元素执行预设的效果展示，作为语音指令的交互反馈。

本实施例的智能电视装置，通过采用上述模块实现智能电视的语音交互反馈的实现原理以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图4为本发明的智能电视装置实施例二的结构图。如图4所示，本实施例的智能电视装置，在上述图3所示实施例的技术方案的基础上，进一步更加详细地介绍本发明的技术方案。

如图4所示，本实施例的智能电视装置，还可以包括：

存储模块13用于在采集模块10采集到智能电视当前界面的元素信息后，在缓存中存储采集模块10采集的当前界面的元素信息；

此时对应地，执行模块12具体用于：

根据收发模块11接收的响应消息中的目标元素的信息，从存储模块13在缓存中存储的当前界面的元素信息中查找对应的目标元素；

对当前界面上对应的目标元素执行预设的效果展示。

进一步可选地，本实施例的智能电视装置中，当前界面的元素信息包括当前界面中的元素的位置、显示的文字以及层级结构信息。

图5为本发明的云端服务器实施例一的结构图。如图5所示，本实施例的云端服务器，具体可以包括：

收发模块20用于接收智能电视发送的用户的语音指令对应的音频流和智能电视当前界面的元素信息；

生成模块21用于根据收发模块20接收的音频流和当前界面的元素信息，生成携带目标元素的信息响应消息；目标元素为音频流对应的语音指令的意图命中的当前界面中的元素；

收发模块20还用于向智能电视返回生成模块21生成的响应消息，以供智能电视根据响应消息中的目标元素的信息，在当前界面上对对应的目标元素执行预设的效果展示，作为语音指令的交互反馈。

本实施例的云端服务器，通过采用上述模块实现智能电视的语音交互反馈的实现原理以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图6为本发明的云端服务器实施例二的结构图。如图6所示，本实施例的云端服务器，在上述图5所示实施例的技术方案的基础上，进一步更加详细地介绍本发明的技术方案。

如图6所示，本实施例的云端服务器中，生成模块21包括：

识别单元211用于根据收发模块20接收的音频流和当前界面的元素信息，识别音频流对应的语音指令的意图命中的当前界面中的目标元素；

生成单元212用于基于识别单元211识别的目标元素的信息生成响应消息。

进一步可选地，本实施例的云端服务器中，识别单元211具体用于：

对收发模块20接收的音频流进行语音识别，得到音频流对应的语音指令对应的文字指令；

对文字指令进行自然语言理解处理，识别语音指令的意图；

将语音指令的意图和当前界面的元素信息进行比对，识别语音指令的意图命中的当前界面中的目标元素。

进一步可选地，本实施例的云端服务器中，当前界面的元素信息包括当前界面中的元素的位置、显示的文字以及层级结构信息。

图7为本发明的智能电视的语音交互系统实施例的结构图。如图7所示，本实施例的智能电视的语音交互系统，包括智能电视装置30和云端服务器40，智能电视装置30和云端服务器40通信连接，智能电视装置30采用如上图3或者图4所述的智能电视装置，云端服务器40采用如上图5或者图6所述的云端服务器，并且具体可以采用如上图1或者图2所示实施例的智能电视的语音交互反馈方法实现语音交互，详细可以参考上述相关实施例的记载，在此不再赘述。

图8为本发明的计算机设备实施例的结构图。如图8所示，本实施例的计算机设备，包括：一个或多个处理器50，以及存储器60，存储器60用于存储一个或多个程序，当存储器60中存储的一个或多个程序被一个或多个处理器50执行，使得一个或多个处理器50实现如上图1或者图2所示实施例的智能电视的语音交互反馈方法。图8所示实施例中以包括多个处理器50为例。

例如，图9为本发明提供的一种计算机设备的示例图。图9示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图9显示的计算机设备12a仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于：一个或者多个处理器16a，系统存储器28a，连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。

总线18a表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28a可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34a可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明上述图1、图3和图4各实施例的功能，或者被配置以执行本发明上述图2、图5和图6各实施例的功能

具有一组(至少一个)程序模块42a的程序/实用工具40a，可以存储在例如系统存储器28a中，这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1、图3和图4各实施例中的功能和/或方法；或者执行本发明所描述的上述图2、图5和图6各实施例中的功能和/或方法。

计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信，还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信，和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且，计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12a使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16a通过运行存储在系统存储器28a中的程序，从而执行各种功能应用以及数据处理，例如实现上述实施例所示的智能电视的语音交互反馈方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所示的智能电视的语音交互反馈方法。

本实施例的计算机可读介质可以包括上述图9所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。

随着科技的发展，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载，或者采用其他方式获取。因此，本实施例中的计算机可读介质不仅可以包括有形的介质，还可以包括无形的介质。

本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种智能电视的语音交互反馈方法，其特征在于，所述方法包括：

接收所述云端服务器返回的所述响应消息；

2.根据权利要求1所述的方法，其特征在于，采集用户发出语音指令的音频流和智能电视当前界面的元素信息之后，所述方法还包括：

在缓存中存储所述当前界面的元素信息；

3.根据权利要求1或2所述的方法，其特征在于，所述当前界面的元素信息包括所述当前界面中的所述元素的位置、显示的文字以及层级结构信息。

4.一种智能电视的语音交互反馈方法，其特征在于，所述方法包括：

5.根据权利要求4所述的方法，其特征在于，根据所述音频流和所述当前界面的元素信息，生成携带目标元素的信息响应消息，具体包括：

基于所述目标元素的信息生成响应消息。

6.根据权利要求5所述的方法，其特征在于，根据所述音频流和所述当前界面的元素信息，识别所述音频流对应的所述语音指令的意图命中的所述当前界面中的目标元素，具体包括：

7.根据权利要求4-6任一所述的方法，其特征在于，所述当前界面的元素信息包括所述当前界面中的所述元素的位置、显示的文字以及层级结构信息。

8.一种智能电视装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

存储模块，用于在缓存中存储所述当前界面的元素信息；

所述执行模块，具体用于：

10.根据权利要求8或9所述的装置，其特征在于，所述当前界面的元素信息包括所述当前界面中的所述元素的位置、显示的文字以及层级结构信息。

11.一种云端服务器，其特征在于，所述服务器包括：

12.根据权利要求11所述的服务器，其特征在于，所述生成模块，包括：

生成单元，用于基于所述目标元素的信息生成响应消息。

13.根据权利要求12所述的服务器，其特征在于，所述识别单元，具体用于：

14.根据权利要求11-13任一所述的服务器，其特征在于，所述当前界面的元素信息包括所述当前界面中的所述元素的位置、显示的文字以及层级结构信息。

15.一种智能电视的语音交互系统，其特征在于，所述系统包括智能电视装置和云端服务器，所述智能电视装置和所述云端服务器通信连接，所述智能电视装置采用如上权利要求8-10任一所述的智能电视装置，所述云端服务器采用如上权利要求11-14任一所述的云端服务器。

16.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-3中任一所述的方法，或者如权利要求4-7中任一所述的方法。

17.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一所述的方法，或者如权利要求4-7中任一所述的方法。