CN115701105A

CN115701105A - 显示设备、服务器及语音交互方法

Info

Publication number: CN115701105A
Application number: CN202110856860.5A
Authority: CN
Inventors: 雷将; 张爽; 胡帆
Original assignee: Vidaa Netherlands International Holdings BV
Current assignee: Vidaa Netherlands International Holdings BV
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2023-02-07

Abstract

本申请提供了一种显示设备、服务器及语音交互方法，服务器被配置为：响应于语音数据，生成包含语音数据的语音交互请求，向服务器发送语音交互请求；接收语音交互请求的响应数据；若响应数据为第一响应数据，其中，第一响应数据包括表示语音交互失败的提示消息数据，以及设置有语音交互的示例语句的帮助界面数据，统计接收到帮助界面数据的次数，若次数大于预设次数，则从当前界面跳转至帮助界面数据对应的帮助界面，若次数小于或等于预设次数，则在当前界面显示提示消息数据对应的消息；若响应数据为第二响应数据，其中，第二响应数据包括表示语音交互成功的响应数据，根据第二响应数据进行响应。本申请解决了语音交互体验差的技术问题。

Description

显示设备、服务器及语音交互方法

技术领域

本申请涉及语音交互技术领域，尤其涉及一种显示设备、服务器及语音交互方法。

背景技术

现如今，越来越多的智能电视支持语音交互技术。对于支持语音交互技术的智能电视，人们可通过语音对其进行控制，从而可减少在遥控器上的操作，提高了智能电视控制的便捷性。

相关技术中，智能电视仅支持一些固定格式的语音指令，例如，增大音量的语音指令为“将音量增大为20”、“将音量增大一倍”，若用户说“音量大一点”，智能电视将不能识别出用户的意图，也就不能按照用户的意图将音量增大，使得语音交互失败。在一次语音交互失败后，用户可能会重新尝试，例如，用户可能会说“调大音量”，然而，该语音指令的格式仍然不是智能电视支持的格式，导致智能电视仍然不能增大音量，这给用户带来了较差的用户体验。

发明内容

为解决语音交互体验差的技术问题，本申请提供了一种显示设备、服务器及语音交互方法。

第一方面，本申请提供了一种显示设备，该显示设备包括：

显示器；

控制器，与所述显示器连接，所述控制器被配置为：

接收用户输入的语音数据；

响应于所述语音数据，生成包含所述语音数据的语音交互请求，向服务器发送所述语音交互请求；

接收来自服务器的所述语音交互请求的响应数据；

若所述响应数据为第一响应数据，其中，所述第一响应数据包括表示语音交互失败的提示消息数据，以及设置有语音交互的示例语句的帮助界面数据，统计接收到所述帮助界面数据的次数，若所述次数大于预设次数，则从当前界面跳转至所述帮助界面数据对应的帮助界面，若所述次数小于或等于预设次数，则在所述当前界面显示所述提示消息数据对应的消息；

若所述响应数据为第二响应数据，其中，所述第二响应数据包括表示语音交互成功的响应数据，根据所述第二响应数据进行响应。

第二方面，本申请提供了一种服务器，该服务器被配置为：

接收来自显示设备的语音交互请求；

获取所述语音交互请求的意图识别结果；

若所述意图识别结果为表示意图识别失败的结果，根据所述意图识别结果生成第一响应数据，将所述第一响应数据反馈给显示设备，其中，所述第一响应数据包括表示语音交互失败的提示界面数据，以及包括语音交互的示例语句的帮助界面数据；

若所述意图识别结果为表示意图识别成功的结果，根据所述意图识别结果生成第二响应数据，将所述第二响应数据反馈给显示设备，其中，所述第二响应数据包括表示语音交互成功的响应数据，将所述第二响应数据反馈给显示设备。

第三方面，本申请提供了一种语音识别方法，用于显示设备，该方法包括：

接收来自服务器的所述语音交互请求的响应数据；

若所述响应数据为第一响应数据，其中，所述第一响应数据包括表示语音交互失败的提示消息数据，以及设置有语音交互的示例语句的帮助界面数据，统计接收到所述帮助界面数据的次数，若所述次数大于预设次数，则从当前界面跳转至所述帮助界面数据对应的帮助界面，若所述次数小于或等于预设次数，则在所述当前界面显示所述提示消息数据对应的消息若所述响应数据为第二响应数据，其中，所述第二响应数据包括表示语音交互成功的响应数据，根据所述第二响应数据进行响应。

第四方面，本申请提供了一种语音识别方法，用于服务器，该方法包括：

接收来自显示设备的语音交互请求；

获取所述语音交互请求的意图识别结果；

本申请提供的显示设备、服务器及语音交互方法的有益效果包括：

本申请实施例在对用户的语音数据进行意图识别失败时，通过统计失败的次数，在次数大于预设次数时，显示设置有示例语句的帮助界面，提示用户按照示例语句与显示设备进行语音交互，实现了在多次语音交互失败时自动跳转至帮助界面，用户不需要手动打开帮助界面，减少了用户的操作，提升了语音交互体验。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1中示例性示出了根据一些实施例的显示设备与控制装置之间操作场景的示意图；

图2中示例性示出了根据一些实施例的控制装置100的硬件配置框图；

图3中示例性示出了根据一些实施例的显示设备200的硬件配置框图；

图4中示例性示出了根据一些实施例的显示设备200中软件配置示意图；

图5中示例性示出了根据一些实施例的语音识别网络架构示意图；

图6中示例性示出了根据一些实施例的语音助手应用的设置界面的示意图；

图7中示例性示出了根据一些实施例的语音交互方法的流程示意图；

图8中示例性示出了根据一些实施例的语音交互方法的流程示意图；

图9中示例性示出了根据一些实施例的语音交互方法的流程示意图；

图10中示例性示出了根据一些实施例的意图识别的时序示意图；

图11中示例性示出了根据一些实施例的语音交互界面的示意图；

图12中示例性示出了根据一些实施例的语音交互界面的示意图；

图13中示例性示出了根据一些实施例的语音交互界面的示意图；

图14中示例性示出了根据一些实施例的语音交互界面的示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

图1为根据实施例中显示设备与控制装置之间操作场景的示意图。如图1所示，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。

在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

图3示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

在一些实施例中，显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中，用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。

在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random AccessMemory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

CPU处理器。用于执行存储在存储器中操作系统和应用程序指令，以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。CPU处理器，可以包括多个处理器。如，包括一个主处理器以及一个或多个子处理器。

在一些实施例中，图形处理器，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。图形处理器包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象；还包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器，用于将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。其中，解复用模块，用于对输入音视频数据流进行解复用处理。视频解码模块，用于对解复用后的视频信号进行处理，包括解码和缩放处理等。图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。帧率转换模块，用于对转换输入视频帧率。显示格式化模块，用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，音频处理器，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

在一些实施例中，用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

在一些实施例中，显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

如图4所示，将显示设备的系统分为三层，从上至下分别为应用层、中间件层和硬件层。

应用层主要包含电视上的常用应用，以及应用框架(Application Framework)，其中，常用应用主要是基于浏览器Browser开发的应用，例如：HTML5 APPs；以及原生应用(Native APPs)；

应用框架(Application Framework)是一个完整的程序模型，具备标准应用软件所需的一切基本功能，例如：文件存取、资料交换...，以及这些功能的使用接口(工具栏、状态列、菜单、对话框)。

原生应用(Native APPs)可以支持在线或离线，消息推送或本地资源访问。

中间件层包括各种电视协议、多媒体协议以及系统组件等中间件。中间件可以使用系统软件所提供的基础服务(功能)，衔接网络上应用系统的各个部分或不同的应用，能够达到资源共享、功能共享的目的。

硬件层主要包括HAL接口、硬件以及驱动，其中，HAL接口为所有电视芯片对接的统一接口，具体逻辑由各个芯片来实现。驱动主要包含：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

在一些实施例中的硬件或软件架构可以基于上述实施例中的介绍，在一些实施例中可以是基于相近的其他硬件或软件架构，可以实现本申请的技术方案即可。

为清楚说明本申请的实施例，下面结合图5对本申请实施例提供的一种语音识别网络架构进行描述。

参见图5，图5为本申请实施例提供的一种语音识别网络架构示意图。图5中，智能设备用于接收输入的信息以及输出对该信息的处理结果。语音识别服务设备为部署有语音识别服务的电子设备，语义服务设备为部署有语义服务的电子设备，业务服务设备为部署有业务服务的电子设备。这里的电子设备可包括服务器、计算机等，这里的语音识别服务、语义服务(也可称为语义引擎)和业务服务为可部署在电子设备上的web服务，其中，语音识别服务用于将音频识别为文本，语义服务用于对文本进行语义解析，业务服务用于提供具体的服务如墨迹天气的天气查询服务、QQ音乐的音乐查询服务等。在一个实施例中，图5所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。

一些实施例中，下面对基于图5所示架构处理输入智能设备的信息的过程进行举例描述，以输入智能设备的信息为通过语音输入的查询语句为例，上述过程可包括如下三个过程：

[语音识别]

智能设备可在接收到通过语音输入的查询语句后，将该查询语句的音频上传至语音识别服务设备，以由语音识别服务设备通过语音识别服务将该音频识别为文本后返回至智能设备。在一个实施例中，将查询语句的音频上传至语音识别服务设备前，智能设备可对查询语句的音频进行去噪处理，这里的去噪处理可包括去除回声和环境噪声等步骤。

[语义理解]

智能设备将语音识别服务识别出的查询语句的文本上传至语义服务设备，以由语义服务设备通过语义服务对该文本进行语义解析，得到文本的业务领域、意图等。

[语义响应]

语义服务设备根据对查询语句的文本的语义解析结果，向相应的业务服务设备下发查询指令以获取业务服务给出的查询结果。智能设备可从语义服务设备获取该查询结果并输出。作为一个实施例，语义服务设备还可将对查询语句的语义解析结果发送至智能设备，以由智能设备输出该语义解析结果中的反馈语句。

需要说明的是，图5所示架构只是一种示例，并非对本申请保护范围的限定。本申请实施例中，也可采用其他架构来实现类似功能，例如：三个过程全部或部分可以由智能终端来完成，在此不做赘述。

在一些实施例中，图5所示的智能设备可为显示设备，如智能电视，或者其他支持语音交互的设备，如智能音箱、智能手机等等。

在一些实施例中，语音识别服务设备的功能可由显示设备上设置的声音采集器和控制器配合实现，语义服务设备和业务服务设备的功能可由显示设备的控制器实现，或者由显示设备的服务器来实现。图5所示的语音识别服务设备、语义服务设备和业务服务设备可由显示设备的一个服务器或多个服务器来实现。

在一些实施例中，显示设备方的服务器可包括用于与语音助手应用进行交互的语音服务器，语音服务器可设置有语音云平台，语音云平台可将显示设备发送的语音数据发送至语义服务设备，其中，语音数据为用户向设备输入的音频数据。

在一些实施例中，若语义服务设备不能正确理解用户的意图，则显示设备将不能按照用户的意思进行正确响应，为了使显示设备能够正确响应，用户可打开语音助手应用的帮助页面，观看示例语句，按照示例语句的格式向显示设备输入语音指令，则语义服务设备可解析出用户的真实意图，其中，语音助手应用为显示设备上的一个应用程序，用于与用户进行语音交互。

然而，上述通过帮助界面学习示例语句的方式较为繁琐，使得显示设备的语音交互体检较差。

为解决上述技术问题，本申请提供了一种语音交互方法，通过主动显示帮助界面的方式，能提升语音交互体验。

在一些实施例中，显示设备支持多种语音助手，如第一语音助手、第二语音助手、第三语音助手，参加图6，用户可按遥控器上的上键或下键切换选中的语音助手控件，然后按确定键启用当前选中的语音助手。

在一些实施例中，用户在与显示设备进行语音交互之前，可先在显示设备上设置语音助手应用的交互语言。在图6中，用户可在选择一种语音助手应用的交互语言，用户选择一种语言后，可使用这种语言与显示设备进行交互。

在一些实施例中，显示设备的遥控器上可设置有录音按键，用户按住遥控器上的录音按键后，显示设备的控制器可根据录音按键的持续按压信号，启动声音采集器如麦克风进行录音，并显示语音助手应用的录音界面。

在一些实施例中，显示设备可支持语音唤醒功能，显示设备的声音采集器可处于持续采集声音的状态。用户说出唤醒词后，显示设备对用户输入的语音数据进行语音识别，识别出语音数据为唤醒词后，可控制显示设备的显示器显示语音助手应用的录音界面。

在一些实施例中，在显示设备显示语音助手应用的录音界面时，用户可向显示设备输入语音数据，后续过程可参见图7，如图7所示，一种语音交互方法的流程可包括步骤S101-S108，图7中，终端为显示设备，DialogFlow代理服务器用于进行意图分析。

步骤S101：终端收音。

在一些实施例中，用户按遥控器的录音键后，可向显示设备输入语音数据，显示设备在录音键被按下后进行收音，得到用户输入的语音数据。

步骤S102：语音云平台接收语音数据。

在一些实施例中，显示设备在得到用户输入的语音数据后，将语音数据发送到语音服务器，语音服务器上的语音云平台可接收该语音数据。

在一些实施例中，显示设备除了向语音云平台传输语音数据，还向语音云平台传输终端参数。终端参数用于区分不同的显示设备，以及显示设备的前台应用是否为浏览器。示例性的，终端参数包括如下参数：deviceID(设备标识)、languageCode(语言代码)、browserOnfront(浏览器前台显示)等参数。其中，deviceID为显示设备的ID，languageCode表示语音助手应用的当前语言，即用户在图6中选择的语言或默认语言；browserOnfront设置有两个取值，分别为0和1，当browserOnfront的值为0时，表示显示设备的前台应用不是浏览器应用，当browserOnfront的值为1时，表示显示设备的前台应用是浏览器应用，该浏览器应用可为显示设备的默认浏览器应用。

步骤S103：上传至DialogFlow Agent服务器获取意图类型和意图参数。

在一些实施例中，语音云平台在将语音数据发送给DialogFlow Agent(对话流代理)服务器，DialogFlow Agent服务器将语音数据进行文本识别，得到待分析的文本，将待分析的文本进行语义解析，得到意图识别结果。

在一些实施例中，DialogFlow Agent能从用户输入的语音数据中识别出意图类型和意图参数。例如，语音数据为“播放电影A”，此时，意图类型为“video.search(电影查询)”，意图参数为“电影A”，则DialogFlow Agent可将识别出的意图类型和意图参数返回给语音云平台。

在一些实施例中，DialogFlow Agent能从用户输入的语音数据中识别出意图类型，不能识别出意图参数。例如，语音数据为“播放一个电影”，此时，意图类型为“video.search(电影查询)”，意图参数为空，则DialogFlow Agent可将识别出的意图类型，以及意图参数识别失败的结果返回给语音云平台。

在一些实施例中，DialogFlow Agent不能从用户输入的语音数据中识别出意图类型，也不能识别出意图参数。例如，用户按下遥控器的录音键后没有说话，语音数据为一段环境噪音，此时，DialogFlow Agent可将意图类型和意图参数均识别失败的结果返回给语音云平台。

步骤S104：判断意图是否获取成功。

在一些实施例中，若DialogFlow Agent返回的数据中意图类型和意图参数均有对应的取值，则确定意图获取成功，反之，则确定意图获取失败。

步骤S105：若获取失败，生成表示语音识别失败的提示命令。

在一些实施例中，若意图获取失败，则生成表示语音识别失败的提示命令，提示命令为显示设备可执行的操作命令，格式为预先确定好的显示设备可执行的格式，内容为表示语音识别失败的提示语和示例语句。

在一些实施例中，该提示命令可表示在语音交互界面展示消息，通过该消息在语音交互界面展示表示语音识别失败的提示语和示例语句。

在一些实施例中，语音云平台可预先存储有DialogFlow Agent能得出意图类型和意图参数的示例语句。针对每个意图类型，语音云平台至少存储每种语言的各一条示例语句。

在一些实施例中，在意图获取失败时，语音云平台可随机选取多个不同意图类型的示例语句，进而生成包含该示例语句的提示命令。

步骤S106：若获取成功，进行业务处理。

在一些实施例中，在意图获取成功时，语音云平台可通过意图类型对应的微服务，对意图参数进行处理。例如，在意图类型为“video.search”时，通过第一微服务进行处理，第一微服务用于在媒资库中查询意图参数对应电影的媒资播放地址，将查询到的媒资播放地址作为业务处理结果；在意图类型为“tv.control(电视控制)”时，通过第二微服务进行处理，第二微服务用于根据预设的电视控制命令列表，查询该意图参数对应的电视控制命令，将查询到的电视控制命令作为业务处理结果。

在一些实施例中，在得到业务处理结果后，可按照预设的格式，生成包含业务处理结果的操作指令。

步骤S107：操作指令下发终端。

在一些实施例中，语音平台在生成操作指令后，将该操作指令下发到显示设备。

步骤S108：终端执行操作指令。

在一些实施例中，显示设备接收到的操作指令后，可执行操作指令，如进行电视控制或显示语音识别失败的语句和示例语句。

通过上述实施例可见，语音云平台通过在DialogFlow Agent识别不出意图类型或意图参数时，向显示设备发送示例语句，提示用户按照示例语句的格式输入语音数据，能在一次语音交互失败后，就能及时提醒用户，避免用户一直按照错误格式输入语音数据而导致多次语音交互均失败的问题，能够提升语音交互体验。

在一些实施例中，在语音交互过程中，显示设备上执行的语音交互方法可参见图8，包括步骤S201-S205。

步骤S201：接收用户输入的语音数据。

步骤S202：响应于语音数据，生成包含语音数据的语音交互请求，向服务器发送语音交互请求。

步骤S203：接收来自服务器的语音交互请求的响应数据。

步骤S204：若响应数据为第一响应数据，其中，第一响应数据包括表示语音交互失败的提示消息数据，以及设置有语音交互的示例语句的帮助界面数据，统计接收到帮助界面数据的次数，若次数大于预设次数，则显示帮助界面数据对应的帮助界面，若次数小于或等于预设次数，则在当前界面显示所述提示消息数据对应的消息。

在一些实施例中，预设次数的统计可从显示设备开机后开始进行。预设次数可为2次，即显示设备在开机后，第一次、第二次接收到第一响应数据时，展示提示界面

第三次接收到第一响应数据，则跳转至帮助界面。

步骤S205：若响应数据为第二响应数据，其中，第二响应数据包括表示语音交互成功的响应数据，根据第二响应数据进行响应。

在一些实施例中，在语音交互过程中，服务器上的语音云平台执行的语音交互方法可参见图9，包括步骤S301-S304。

步骤S301：接收来自显示设备的语音交互请求。

步骤S302：获取语音交互请求的意图识别结果。

在一些实施例中，语音云平台将语音交互请求中的语音数据发送给DialogFlowAgent进行处理，得到意图识别结果。

步骤S303：若意图识别结果为表示意图识别失败的结果，根据意图识别结果生成第一响应数据，将第一响应数据反馈给显示设备，其中，第一响应数据包括表示语音交互失败的提示界面数据，以及包括语音交互的示例语句的帮助界面数据。

步骤S304：若意图识别结果为表示意图识别成功的结果，根据意图识别结果生成第二响应数据，将第二响应数据反馈给显示设备，其中，第二响应数据包括表示语音交互成功的响应数据，将第二响应数据反馈给显示设备。

为对语音交互过程中的用户、显示设备、服务器之间的交互进行说明，图10示出了一种根据一些实施例的语音交互过程的时序示意图。

参见图10，在一些实施例中，用户向显示设备输入语音数据后，显示设备根据语音数据生成语音识别请求，将语音识别请求发送到语音服务器。其中，语音识别请求包括该语音数据和显示设备的终端参数。

在一些实施例中，语音服务器接收到语音识别请求后，通过DialogFlow SDK将语音数据上传至DialogFlow Agent。

在一些实施例中，DialogFlow Agent将语音数据输入预先训练好的意图识别模型，然后获取意图识别模型输出的意图识别结果。意图识别结果可包括意图代码、意图参数以及语音指令转换成的原始文本。其中，意图代码用于表示意图类型。

在一些实施例中，由于环境噪音干扰、用户误操作等原因，意图识别模型可能得不到语音指令对应的意图代码、意图参数和/或语音指令转换成的原始文本，此时，意图识别模型可输出的结果中，意图代码和意图参数均为空，可能包含原始文本，也可能不包含原始文本。

在一些实施例中，DialogFlow Agent将意图识别结果通过DialogFlow SDK返回至语音服务器。

在一些实施例中，语音服务器在接收到意图识别结果后，对意图识别结果进行处理，得到响应数据。

在一些实施例中，若意图识别结果中，意图参数中的信息为空，或意图类型中的信息为空，或意图参数中的信息和意图类型中的信息均为空，可确定意图识别失败。

在一些实施例中，在意图识别失败后，语音服务器可获取预先存储的表示意图失败的提示语。示例性的，该提示语可为：“嘿，这听起来不像是我能做的，这里是几件你可以尝试的事情”。然后根据意图类型为空，从预先存储的不同意图类型的示例语句中，随机选取两个不同意图类型，每个意图类型随机选取一个示例语句。在得到提示语和示例语句后，按照预设的格式，生成表示语音识别识别的提示命令，该提示命令为提示界面数据，显示设备可根据该提示命令生成提示界面。根据意图类型不为空，则从预先存储的不同意图类型的示例语句中，从该意图类型中随机选取两个示例语句。

在一些实施例中，在从一个意图类型中选取示例语句时，可获取该意图类型下每个示例语句的触发频率，选取预设数量的触发频率靠前的示例语句，例如，一个意图类型下的示例语句包括示例语句1-示例语句5，触发频率依次为30％、20％、30％、10％、10％，预设数量为2，则可选取触发频率最高和触发频率次高的示例语句，即示例语句1和示例语句3。其中，触发频率可根据每次的意图识别成功时用户的语音数据对应的示例语句进行统计得到，例如，用户的语音数据为“搜索电影M”，则对应的示例语句为“搜索电影A”，该语音数据与示例语句的对应关系可由意图识别模型将语音数据对应的文本与示例语句进行匹配得到，匹配方法可包括按照语法、文本内容等条件进行匹配，将匹配度最高的示例语句作为语音数据对应的示例语句。

在一些实施例中，在意图识别失败后，语音服务器还可获取帮助界面数据，将帮助界面数据和提示界面数据作为第一响应数据，反馈给显示设备，其中，帮助界面数据设置有意图类型，以及意图类型对应的示例语句的界面数据，每个意图类型可对应两个示例语句。

在一些实施例中，若意图识别结果中，意图参数中的信息和意图类型中的信息均不为空，可确定意图识别成功。

在一些实施例中，在意图识别成功后，可根据意图识别结果中的意图代码，将意图识别结果和显示设备的终端参数分发至相应的微服务中，通过微服务对意图识别结果进行处理，得到处理结果，将处理结果作为第二响应数据。

例如，根据意图代码为电影查询，将意图识别结果和显示设备的终端参数发送至媒资搜索微服务中。媒资搜索微服务可根据意图参数中的电影名称，在媒资库中搜索包含该电影名称的媒资，将搜索到的媒资的媒资信息作为处理结果返回给语音服务器，媒资信息可包括媒资名称、媒资海报、媒资ID和媒资播放地址。

在一些实施例中，显示设备在接收到响应数据，如第一响应数据或第二响应数据后，可根据响应数据进行执行。

例如，若显示设备接收到的是第一响应数据，且第一响应数据包括第一提示界面数据和帮助界面数据，则显示设备可判断这是在开机后第几次得到帮助界面数据，若小于或等于预设次数，则可显示提示界面数据对应的提示界面，参见图11，提示界面可显示示例语句，例如，“设置音量为5”、“把我的电视静音”。用户可学习示例语句的语法和内容，重新与显示设备进行语音交互，若大于预设次数，则从当前界面跳转至帮助界面数据对应的帮助界面，以按照意图类型显示更多的示例例句，便于用户学习使用不同意图类型的示例语句。

若显示设备接收到的是第一响应数据，且第一响应数据包括第二提示界面数据和帮助界面数据，则示设备可判断这是在开机后第几次得到帮助界面数据，若小于或等于预设次数，则可显示提示界面数据对应的提示界面。参见图12，若识别出用户的意图类型为电影搜索，则提示界面可显示相同意图类型的示例语句，如“搜索电影A”、“搜索电影B”。用户可学习示例语句的语法和内容，重新与显示设备进行语音交互，若大于预设次数，则从当前界面跳转至帮助界面数据对应的帮助界面，以按照意图类型显示更多的示例例句，便于用户学习使用不同意图类型的示例语句。

参见图13，一种示例性的帮助界面显示的意图类型包括电影搜索和电视控制，其中，电影搜索对应的示例语句可包括“搜索电影A”、“播放电影B”，电视控制对应的示例语句可包括“去应用1”、“将音量设置为20”。

若显示设备接收到的是第二响应数据，则可根据第二响应数据进行响应。例如，第二响应数据包括多个媒资的媒资信息，则可如图14所示，展示多个媒资控件。图14中，多个媒资控件对应的媒资依次为：媒资A1、媒资A2、媒资A3、媒资A4、媒资A5、媒资A6、媒资A7、媒资A8和媒资A9。

由上述实施例可见，本申请实施例在对用户的语音数据进行意图识别失败时，通过统计失败的次数，在次数大于预设次数时，显示设置有示例语句的帮助界面，提示用户按照示例语句与显示设备进行语音交互，实现了在多次语音交互失败时自动跳转至帮助界面，用户不需要手动打开帮助界面，减少了用户的操作，提升了语音交互体验。

由于以上实施方式均是在其他方式之上引用结合进行说明，不同实施例之间均具有相同的部分，本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。

需要说明的是，在本说明书中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括一个……”限定的要素，并不排除在包括要素的电路结构、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里发明的公开后，将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求的内容指出。

以上的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种显示设备，其特征在于，包括：

显示器；

控制器，与所述显示器连接，所述控制器被配置为：

接收用户输入的语音数据；

接收来自服务器的所述语音交互请求的响应数据；

2.根据权利要求1所述的显示设备，其特征在于，统计接收到所述帮助界面数据的次数，包括：统计显示设备在开机后接收到所述帮助界面数据的次数。

3.根据权利要求1所述的显示设备，其特征在于，所述提示界面数据为设置有表示语音识别失败的提示语和语音交互的示例语句的界面数据。

4.根据权利要求1所述的显示设备，其特征在于，所述帮助界面数据为设置有意图类型，以及所述意图类型对应的示例语句的界面数据。

5.一种服务器，其特征在于，所述服务器被配置为：

接收来自显示设备的语音交互请求；

获取所述语音交互请求的意图识别结果；

6.根据权利要求5所述的服务器，其特征在于，当所述意图识别结果中的意图类型或意图参数为空时，所述意图识别结果为表示意图识别失败的结果，当所述意图识别结果中的意图类型和意图参数均不为空时，所述意图识别结果为表示意图识别成功的结果。

7.根据权利要求5所述的服务器，其特征在于，所述意图识别结果包括意图类型和意图参数，根据所述意图识别结果生成第一响应数据，包括：

当所述意图识别结果中的意图类型为空时，生成包含表示语音识别失败的提示语和包含多个随机的意图类型的示例语句的第一提示界面数据，生成包含多个随机的意图类型的示例语句的帮助界面数据；

当所述意图识别结果中的意图类型不为空、意图参数为空时，生成包含表示语音识别失败的提示语，以及包含多个所述意图识别结果中的意图类型的示例语句的第二提示界面数据；

所述提示界面数据为所述第一提示界面数据或第二提示界面数据。

8.根据权利要求7所述的服务器，其特征在于，生成包含表示语音识别失败的提示语，以及包含多个所述意图识别结果中的意图类型的示例语句的第二提示界面数据，包括：

获取表示语音识别失败的提示语；

获取所述意图识别结果中的意图类型对应的触发频率排序靠前的预设数量的示例语句；

生成包含所述表示语音识别失败的提示语，以及触发频率排序靠前的预设数量的示例语句的第二响应数据。

9.一种语音交互方法，其特征在于，用于显示设备，包括：

接收用户输入的语音数据；

接收来自服务器的所述语音交互请求的响应数据；

10.一种语音交互方法，其特征在于，用于服务器，包括：

接收来自显示设备的语音交互请求；

获取所述语音交互请求的意图识别结果；