CN112885354B

CN112885354B - 一种显示设备、服务器及基于语音的显示控制方法

Info

Publication number: CN112885354B
Application number: CN202110095891.3A
Authority: CN
Inventors: 王峰
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2022-09-23
Anticipated expiration: 2041-01-25
Also published as: CN112885354A

Abstract

本申请涉及显示设备技术领域，特别地，涉及一种显示设备、服务器及基于语音的显示控制方法。一定程度上可以解决显示设备计算能力低、在用户界面复杂情况下识别多音指令准确率低、不能准确区别界面控制指令与媒体检索指令、导致用户界面显示不准确的问题。所述显示设备包括：麦克风，被配置为用于接收包含关键词的语音指令；第一控制器，被配置为：发送第一语音请求至服务器，其中，第一语音请求包括第一关键词及用户界面信息，第一语音请求用于使服务器根据关键词、用户界面信息执行语义理解意图分析以确定包含控制信令、或推荐媒体文件信息的第二控制指令；接收第二控制指令，并根据其包含的控制信令执行用户界面操作、或显示推荐媒体文件信息。

Description

一种显示设备、服务器及基于语音的显示控制方法

技术领域

本申请涉及显示设备技术领域，特别地，涉及一种显示设备、服务器及基于语音的显示控制方法。

背景技术

显示设备语音控制显示是指用户通过与显示设备的语音交互，可以实现包括用户界面显示内容的操控、以及实现通用内容的搜索。例如电视通过接收语音命令执行菜单的前进、后退、回到首页、以及刷新等简单操作；或无法对运营内容类复杂内容进行准确分析与匹配。

在一些显示设备语音控制显示的实现中，终端通常对界面控制内容采用文本相似度匹配方案，对检索内容只进行简单的意图判断。

然而，在用户界面内容复杂、语音存在同音异义、终端计算能力有限的情况下，会发生无法区分多音指令、指令误判、语音指令识别准确率低、控制显示不准确的问题。

发明内容

为了解决显示设备计算能力低、在用户界面复杂情况下识别多音指令准确率低、不能准确区别界面控制指令与媒体检索指令、导致用户界面显示不准确的问题，本申请提供了一种显示设备、服务器及基于语音的显示控制方法。

本申请的实施例是这样实现的：

本申请实施例的第一方面提供一种显示设备，包括：显示器，用于显示用户界面；麦克风，被配置为用于接收来自用户输入的包含关键词的语音指令；第一控制器，被配置为：发送第一语音请求至服务器，其中，所述第一语音请求至少包括第一关键词及用户界面信息，所述第一语音请求用于使所述服务器根据所述第一关键词、及所述用户界面信息确定包含控制信令、或推荐媒体文件信息的第二控制指令；接收来自于所述服务器发送的所述第二控制指令，并根据其包含的所述控制信令执行用户界面操作、或控制所述用户界面显示所述第二控制指令包含的所述推荐媒体文件信息。

本申请实施例的第二方面提供一种显示设备，包括：显示器，用于显示用户界面；麦克风，被配置为用于接收来自用户输入的包含关键词的语音指令；第二控制器，被配置为：发送至少包括第一关键词的第一语音请求至服务器，所述第一语音请求用于使所述服务器将根据所述第一关键词确定的包含推荐媒体文件信息的第二控制指令下发至所述显示设备；在判定所述第一语音请求为界面控制指令时，控制所述用户界面根据所述关键词对应的预设界面控制指令执行对应的用户界面操作；否则，控制所述用户界面显示接收来自于所述服务器发送的所述第二控制指令包含的所述推荐媒体文件信息。。

本申请实施例的第三方面提供一种服务器，包括：第三控制器，被配置为：接收显示设备发送的至少包括第一关键词及用户界面信息的第一语音请求；根据所述第一关键词、及所述用户界面信息确定包含控制信令、或推荐媒体文件信息的第二控制指令；发送所述第二控制指令至所述显示设备。

本申请实施例的第四方面提供一种服务器，包括：第四控制器，被配置为：接收显示设备发送的至少包括第一关键词的第一语音请求；根据所述第一关键词确定包含推荐媒体文件信息的第二控制指令；将所述第二控制指令下发至所述显示设备。

本申请实施例的第五方面提供一种基于语音的显示控制方法，所述方法包括：发送第一语音请求至服务器，其中，所述第一语音请求至少包括第一关键词及用户界面信息，所述第一语音请求用于使所述服务器根据所述第一关键词、及所述用户界面信息确定包含控制信令、或推荐媒体文件信息的第二控制指令；接收来自于所述服务器发送的所述第二控制指令，并根据其包含的所述控制信令执行用户界面操作、或控制用户界面显示所述第二控制指令包含的所述推荐媒体文件信息。

本申请实施例的第六方面提供一种基于语音的显示控制方法，所述方法包括：发送至少包括第一关键词的第一语音请求至服务器，所述第一语音请求用于使所述服务器将根据所述第一关键词确定包含推荐媒体文件信息的第二控制指令下发至显示设备；在判定所述第一语音请求为界面控制指令时，根据所述关键词对应的预设界面控制指令执行对应的用户界面操作；否则，控制所述用户界面显示接收来自于所述服务器发送的所述第二控制指令包含的所述推荐媒体文件信息。

本申请实施例的第七方面提供一种基于语音的显示控制方法，所述方法包括：接收显示设备发送的至少包括第一关键词及用户界面信息的第一语音请求；根据所述第一关键词、及所述用户界面信息确定包含控制信令、或推荐媒体文件信息的第二控制指令；发送所述第二控制指令至所述显示设备。

本申请实施例的第八方面提供一种基于语音的显示控制方法，所述方法包括：接收显示设备发送的至少包括第一关键词的第一语音请求；根据所述第一关键词确定包含推荐媒体文件信息的第二控制指令；将所述第二控制指令下发至所述显示设备。

本申请的有益效果：通过构建发送包含关键词的语音请求，可以实现服务器识别推荐媒体文件请求；进一步通过在语音请求中携带用户界面信息，可以提高服务器对界面控制指令的识别准确度；进一步通过构建第二控制指令，可以实现显示设备充分利用服务器云端的强大语义理解计算能力；进一步通过本地进行关键词完全匹配预设界面控制指令的判定，可以快速准确的识别界面控制指令，实现融合终端状态、用户界面操作路径、实时判断用户所处的场景，提升语音指令的意图判断、降低误判、或者误操作的概率，提升语音交互的用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据一些实施例的显示设备的使用场景；

图2示出了根据一些实施例的控制装置100的硬件配置框图；

图3示出了根据一些实施例的显示设备200的硬件配置框图；

图4示出了根据一些实施例的显示设备200中软件配置图；

图5示出了根据一些实施例的显示设备200中应用程序的图标控件界面显示图；

图6A示出了本申请一实施例显示设备用户界面的示意图；

图6B示出了本申请另一实施例显示设备用户界面的示意图；

图6C示出了本申请另一实施例显示设备用户界面的示意图；

图7A示出了本申请另一实施例显示设备用户界面的示意图；

图7B示出了本申请另一实施例显示设备用户界面的示意图；

图8示出了本申请一实施例显示设备基于语音的显示控制方法逻辑示意图；

图9示出了本申请另一实施例显示设备基于语音的显示控制方法逻辑示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语″第一″、″第二″、″第三″等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语″包括″和″具有″以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语″模块″是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

图1为根据实施例中显示设备的使用场景的示意图。如图1所示，显示设备200还与服务器400进行数据通信，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式中的至少一种，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等至少一种输入用户指令，来控制显示设备200。

在一些实施例中，智能设备300可以包括移动终端、平板电脑、计算机、笔记本电脑，AR/VR设备等中的任意一种。

在一些实施例中，也可以使用智能设备300以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，也可以使用智能设备300和显示设备进行数据的通信。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制装置来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

在一些实施例中，一个步骤执行主体执行的软件步骤可以随需求迁移到与之进行数据通信的另一步骤执行主体上进行执行。示例性的，服务器执行的软件步骤可以随需求迁移到与之数据通信的显示设备上执行，反之亦然。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

在一些实施例中，通信接口130用于和外部通信，包含WIFI芯片，蓝牙模块，NFC或可替代模块中的至少一种。

在一些实施例中，用户输入/输出接口140包含麦克风，触摸板，传感器，按键或可替代模块中的至少一种。

图3示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括中央处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面等。

在一些实施例中，显示器260可为液晶显示器、OLED显示器、以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。

在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAMRandom AccessMemory，RAM)，ROM(Read-Only Memory，ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

CPU处理器。用于执行存储在存储器中操作系统和应用程序指令，以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。CPU处理器，可以包括多个处理器。如，包括一个主处理器以及一个或多个子处理器。

在一些实施例中，图形处理器，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等中的至少一种。图形处理器包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象；还包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器，用于将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理中的至少一种，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等中的至少一种。其中，解复用模块，用于对输入音视频数据流进行解复用处理。视频解码模块，用于对解复用后的视频信号进行处理，包括解码和缩放处理等。图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。帧率转换模块，用于对转换输入视频帧率。显示格式化模块，用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，音频处理器，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理中的至少一种，得到可以在扬声器中播放的声音信号。

在一些实施例中，用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，″用户界面″，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。

在一些实施例中，用户接口280，为可用于接收控制输入的接口(如：显示设备本体上的实体按键，或其他等)。

在一些实施例中，显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称″应用层″)，应用程序框架(Application Framework)层(简称″框架层″)，安卓运行时(Android runtime)和系统库层(简称″系统运行库层″)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。

框架层为应用程序层的应用程序提供应用编程接口(application programminginterface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

在一些实施例中，显示设备启动后可以直接进入预置的视频点播程序的界面，视频点播程序的界面可以如图5中所示，至少包括导航栏510和位于导航栏510下方的内容显示区，内容显示区中显示的内容会随导航栏中被选中控件的变化而变化。应用程序层中的程序可以被集成在视频点播程序中通过导航栏的一个控件进行展示，也可以在导航栏中的应用控件被选中后进行进一步显示。

在一些实施例中，显示设备启动后可以直接进入上次选择的信号源的显示界面，或者信号源选择界面，其中信号源可以是预置的视频点播程序，还可以是HDMI接口，直播电视接口等中的至少一种，用户选择不同的信号源后，显示器可以显示从不同信号源获得的内容。

本申请实施例可以应用于各种类型的显示设备(包括但不限于：智能电视、移动终端、平板电脑、机顶盒等设备)。下文将以智能电视与服务器的交互过程中实现基于语音的显示控制方案、及用户界面为例，对显示设备、服务器及基于语音的显示控制方法进行阐述。

图6A示出了本申请一实施例显示设备用户界面的示意图。

在一些实施例中，本申请提供一种显示设备包括显示器、麦克风以及第一控制器。所述显示器用于显示用户界面，所述麦克风用于接收来自用户输入的包含关键词的语音指令，其中，语音指令可包括多个关键词，例如第一关键词、第二关键词。

在一些实施例中，显示设备在播放节目的同时，还可以被配置为展示其他交互元素，所述交互元素可包括例如电视主页控件、搜索控件、消息按钮控件、邮箱控件、浏览器控件、收藏夹控件、信号栏控件、语音控件等。

为提高显示设备UI的便利性、形象性，用户通过遥控器等控制器对搜索控件进行点击，可以将搜索UI展示于其它UI的顶部，即控制显示设备的交互元素映射的应用组件的UI能够变大、缩小、或全屏显示。

在一些实施例中，显示设备的交互元素还可通过传感器进行操作，所述传感器可以是但不限于是声学输入传感器，例如本申请显示设备提供的麦克风，所述声音采集器可检测包括所需交互元素指示的语音命令。例如，用户通过操作显示设备遥控器的快捷按钮激活语音控件后，通过说出″打开浏览器″或任意其它合适的标识对显示设备的浏览器控件进行操作。

在电视的程序、或各种UI界面的使用过程中，显示设备都可以通过麦克风、或遥控器接收来自用户的语音请求，所述语音请求包含至少一个关键词，即显示设备接收来自用户包含关键词的语音请求，并向服务器发送上述语音请求，其中，所述语音请求中包可合媒体搜索指令，所述媒体搜索指令用于使所述服务器反馈推荐数据；所述语音请求中还包可含用户界面的控制指令，所述控制指令用于实现用户通过语音请求控制用户界面的操作，例如菜单操作、或视频控制。需要说明的是，服务器可以根据用户的语音请求，反馈视频推荐数据、或电子书推荐数据、APP推荐数据、控制信令等。

在一些实施例中，通过用户对遥控器的按键输入，触发电视开始检测用户的语音指令，第一控制器可识别来自麦克风的语音指令并向UI或其处理部件或引擎提交表征交互的数据。需要说明的是，所述麦克风在一些实施例中可设置于遥控器中；在另一些实施例中，所述麦克风还可以设置于电视的本体结构中。

在一些实施例中，用户操作遥控器触发电视UI显示语音控件，当用户触发语音输入后，第一控制器将所述语音控件显示于当前电视UI的顶层，以提示用户及时进行语音输入。例如，所述语音控件包含提示信息，在UI中显示为″请讲话″，如图6A所示，用户在看到语音控件的提示后，可以及时的对电视发出语音请求。

第一控制器在电视UI界面的顶层配置标准格式的语音指令提示信息，用户可以通过对语音指令格式的模仿，提高电视对用户发送的推荐请求的识别率。例如，电视UI可以提示″您可以试着说：我想看电视剧″，如图6A所示。

图6B示出了本申请另一实施例显示设备用户界面的示意图。

在一些实施例中，第一控制器发送第一语音请求至服务器，其中，所述第一语音请求至少包括第一关键词及用户界面信息，所述第一语音请求用于使服务器根据第一关键词、及用户界面信息确定包含控制信令、或推荐媒体文件信息的第二控制指令。

例如，用户输入第一语音指令″打开图像设置″，用户界面将显示上述语音指令对应的文字内容以实现核对；如果屏幕显示的对应文字内容与用户输入的第一语音指令不相同，用户可重新输入第二语音指令。

其中，第一语音指令的关键词包括第一关键词图像设置、以及第二关键词打开；第一控制器将发送第一语音请求至服务器，所述第一语音请求包含上述关键词以及当前时刻用户界面信息。

在一些实施例中，第一语音请求中包含的用户界面信息具体可实施为显示设备当前用户界面内容列表内容、或显示设备当前用户界面ID信息，所述用户界面ID信息用于使所述服务器识别所述用户界面的当前列表内容。需要说明的是，通过上传用户界面ID信息替代上传详细的用户界面内容，可以降低显示设备与服务器的数据传输量，提升服务器端与显示设备的交互效率；对于显示设备端的个性化运营，每个用户看到界面不同，其传递数据不同，通过将用户当前用户界面编码记录，并在服务器云端将上述用户界面编码记录，即ID信息进行预设缓存，可以提升服务器对于显示设备用户界面数据的获取效率、降低服务器获取数据、处理数据的时延。

在一些实施例中，本申请提供的一种服务器包括第三控制器，所述第三控制器接收显示设备发送的至少包括第一关键词及用户界面信息的第一语音请求，并根据第一关键词、及用户界面信息确定包含控制信令、或推荐媒体文件信息的第二控制指令。

例如，服务器第三控制器接收到上述第一语音请求，解析后获取其关键词″打开、图像设置″，第三控制器基于上述关键词以及用户界面信息调用NLU服务进行语义理解、意图分析，可以识别上述第一语音请求的目的，所述目的包括用户界面控制指令和推荐媒体文件请求。

需要说明的是，上述用户界面信息可包括具体的用户及面内容，所述具体内容在进行语义理解意图分析时可提高服务器对第一语音请求的识别准确率。例如，当用户界面显示全局设置时，其内容包含屏幕亮度设置，如图6B所示，当用户第一语音请求关键词包含″屏幕亮度设置″时，结合用户界面当前的内容信息，服务器可提高识别第一语音请求为用户界面控制指令的准确率，而不会将上述包含″屏幕亮度设置″的第一语音请求识别为推荐媒体文件指令，即搜索指令。

服务器第三控制器根据上述逻辑将生成第二控制指令，所述第二控制信令也可以认为是NLU结果，所述第二控制指令包含控制信令；

第三控制器将上述第二控制指令反馈下发给显示设备，所述第二控制指令包含的控制信令用于控制显示设备当前的用户界面启动全局设置中的图像设置，如图6B所示。

在一些实施例中，显示设备的第一控制器接收来自于服务器发送的所述第二控制指令，并根据其包含的所述控制信令执行用户界面操作、或控制所述用户界面显示所述第二控制指令包含的所述推荐媒体文件信息。

例如，显示设备接收到包含打开图像设置控制信令的第二控制指令，并根据上述控制信令执行用户界面操作，显示设备用户界面将显示如图6C所示。

需要说明的是，在图6C所示的用户界面中，用户继续输入语音指令；在所述语音指令包含的关键词能与所述用户界面中的设置选项完全一致时，可提高服务器、及显示设备对第一控制器接收的第二语音请求的识别准确率。可以理解，本申请提供的显示设备避免单纯通过终端简单的相似度匹配算法进行终端用户界面控制，充分利用服务器云端的NLU能力，结合用户界面信息的上下文、当前场景、以及存储与服务器端的用户行为习惯、历史操作记录等数据，进行语义理解意图分析，可提升对用户输入语音指令是否属于用户界面控制指令判断的准确性。

图7A示出了本申请另一实施例显示设备用户界面的示意图。

在一些实施例中用户看到用户界面的语音控件提示后，对电视的麦克风发出语音指令，例如″我想看一些好看的电影″，显示设备的麦克风将接收所述语音指令其发送至显示设备的第一控制器进行解析。在一些实施例中，所述语音指令可以通过服务器端的ASR语音识别服务进行获取。

在一些实施例中，第一控制器将所述语音指令包含的关键词解析为计算机可读的格式，例如文本格式，并将其显示于电视UI，使得用户可以以文本的方式看到自己发出的语音指令，如图7A所示。

在一些实施例中，服务器第三控制器接收上述第一语音请求，解析后获取其关键词″我想看、电影″，第三控制器基于上述关键词以及用户界面信息调用NLU服务进行语义理解、意图分析，将识别上述第一语音请求的目的为推荐媒体文件请求。

第三控制器将根据上述关键词在服务器中确定可提供给显示设备的推荐媒体文件，并将包含上述内容的第二控制指令下发给显示设备。

显示设备第一控制器将接收来自于服务器发送的第二控制指令，控制其用户界面显示所述第二控制指令包含的所述推荐媒体文件信息，如图7B所示。

在一些实施例中，用户界面显示的推荐媒体文件信息包含推荐位、海报等推荐数据的视频推荐界面，所述海报用于在接收到用户的确认操作后跳转至推荐视频的播放操作界面。

例如，第一控制器根据第二控制指令包含的推荐媒体文件信息界面，包括位于左侧的视频推荐位列表、以及位于右侧显示海报的第一播放窗口。其第一页包括第一视频推荐位《宝贝计划》、第二视频推荐位《十二生肖》、第三视频推荐位《机器之血》、第四视频推荐位《龙牌之谜》。其中，所述用户界面焦点的位置处于所述第一视频推荐位，第一控制器控制第一播放窗口播放所述第一视频推荐位《宝贝计划》的海报。在一些实施例中，第一控制器控制所述视频推荐位和所述第一播放窗口同时显现在界面中。

在一些实施例中，上述视频推荐位和所述显示海报的第一播放窗口并行显现在视频推荐界面中，或所述视频推荐位叠加在所述第一播放窗口上方进行显示。所述视频推荐位与所述第一播放窗口在播放界面中的位置可以根据实际情况进行配置，或者第一控制器将所述视频推荐位显示于所述第一播放窗口的上方进行，从而得到叠加显示的效果。

在一些实施例中，上述视频推荐位叠加在所述第一播放窗口上方进行显示时，响应于预设时长内未接收到指令的输入，隐藏所述视频推荐位。用户接收到视频推荐数据在预设时长内没有进行任何操作，即显示设备没有收到用户的反馈信息，第一控制器将隐藏所述视频推荐位，以突出所述第一播放窗口海报的显示。

在一些实施例中，第一控制器接收来自于服务器发送的第二控制指令之前，第一控制器还被配置为：在第一语音请求包含的全部关键词完全匹配预设的界面控制指令时，控制用户界面根据所述关键词对应的预设界面控制指令执行对应的用户界面操作；在所述执行对应的用户界面操作后，如果第一控制器接收到第一语音请求触发的第二控制指令时，不再执行基于所述第二控制指令的操作。

例如，在第一语音请求为上述附图中的打开图像设置时，第一控制器在将上述第一语音请求发送至服务器的同时，还将在终端本身进行比对，所述比对的对象包括第一语音请求包含关键词、以及预设界面控制指令；在所述关键词与所述预设界面控制指令完全匹配时，显示设备即可判定上述第一语音请求为用户界面控制指令，而非推荐媒体文件请求；处于提高用户使用感知，第一控制器将根据第一语音请求识别的对应的预设界面控制指令执行对应的操作，实现用户界面的语音操作。

同理，在所述关键词与所述预设界面控制指令不能够完全匹配时，控制器将不执行操作，等待所述第一语音请求触发的第二控制指令的反馈，并在接收到所述第二控制指令时执行上文中的相关步骤。

需要说明的是，在显示设备实现上述本地识别、执行对应的用户界面操作后，对于已发送至服务器的第一语音请求触发反馈的第二控制指令，第一控制器将接收所述第二控制指令，但不再执行所述第二控制指令，以避免重复操作，降低用户感受。

可以理解，控制器在接收第二控制指令之前匹配对第一语音请求进行识别，通过保留终端的完全匹配算法、去掉相似度匹配机制，可以实现降低终端算法对资源占用的消耗、充分利用完全匹配的高效率和不易出错特点，并且还可以充分发挥终端匹配、以及服务器云端处理两种方式结合的优点，提升显示设用户界界面显示控制的精准度、以及处理效率。

显示设备可以充分利用服务器云端的计算资源、以及数据存储，减少显示设备终端和服务器云端的数据交换，增加显示设备本地快速完整的匹配模式、提升精准、完整匹配界面控制指令的响应速度。

相关数据通过服务器云端直接与服务器云端的内容运营平台交互获取，可以保证数据获取的完整、丰富、及时可更新，对常见的推荐媒体文件信息、及控制信令采用内存数据库缓存、提升响应速度，同时基于服务器云端的NLU能力，可以提升显示设备终端界面控制指令分析、命中的准确度，其逻辑示意图如图8所示。

在一些实施例中，本申请还提供了一种显示设备，包括第二控制器，在基于语音的显示控制过程中，第二控制器发送至少包括第一关键词的第一语音请求至服务器，所述第一语音请求用于使服务器将根据第一关键词执行语义理解确定的包含推荐媒体文件信息的第二控制指令下发至显示设备。

例如，用户通过显示设备麦克风输入语音指令甄子丹的电影，其中包含的关键词包括第一关键甄子丹、以及第二关键词我要看，第二控制器在获取上述语音指令及其包含的关键词后，将发送第一语音请求至服务器；于此同时，第二控制器将在本地判定上述已发送至服务器第一语音请求是否为界面控制指令。

如果第二控制器将上述第一语音请求判定为界面控制指令时，控制器将基于判定的界面控制指令执行用户界面操作；如果上述第一语音请求没有被判定为界面控制指令，控制器将根据上述第一语音请求触发的由服务器反馈下发的第二控制指令对显示设备进行操作，所述第二控制指令包括推荐媒体文件信息，即通常认为的搜索结果。

在一些实施例中，本申请还提供了一种服务器，包括第四控制器，所述第四控制器接收上述显示设备第二控制器发送的至少包括第一关键词的第一语音请求，例如包括第一关键词″我想看″、第二关键词″甄子丹″的第一语音请求。

第四控制器根据所述多个关键词在服务器端通过NUL语义理解确定包含推荐媒体文件信息的第二控制指令，即根据用户的关键词确定用户需要的搜索结果。

需要说明的是，第四控制器还可以通过显示设备在服务器端的历史播放记录、以及历史操作记录、或当前时段的用户画像等资料，提高上述确定的推荐媒体文件的准确性。

在一些实施例中，第二控制器在本地判定第一语音请求为界面控制指令，可以通过以下方式完成，具体包括所述第二控制器计算第一语音请求包含的所述关键词与预设界面控制指令之间的相似度值，在所述相似度值大于等于预设阈值时，判定所述第一语音请求为界面控制指令；否则，判定所述第一语音请求为媒体推荐请求指令类型。

例如，第二控制器在发送第一语音请求后马上进行界面控制指令内容匹配，考虑到显示设备终端计算资源的有限，第二控制器采用基于发音的编辑距离计算彼此之间的相似度。

首先，第二控制器识别用户输入的语音指令，获得识别结果：甄子丹的电影；所述识别结果对应的发音字符串为：zhenzidandedianying。

其次，第二控制器采用编辑距离算法，通过两个字串之间由其中一个转换成另外一个所需的最少编辑操作次数作为比对依据。许可的编辑操作包括将一个字符替换成另一个字符、或插入一个字符、或删除一个字符等操作。例如将kitten字符串转换为sitting，可包括：sitten(k→s)；sittin(e→i)；sitting(控格→g)；

相似度计算公式可以表示如下：

相似度＝1-×/最长文本长度；

然后，第二控制器根据实际测试可选编辑距离阈值，如经过测算可选阈值定为0.8，则根据上述编辑距离算法计算输入文本和用户界面匹配文本列表相似度，如果存在大于0.8的内容，则按照最大值进行匹配并执行预设界面控制指令对应的操作；否则，第二控制器等待执行服务器云端执行NLU语义理解而反馈第二控制指令结果。

需要说明的是，第二控制器获取用户的语音指令后第一时间发送至云端、或在本地进行识别，将其识别结果即第一语音请求中的关键词在终端本地进行界面控制指令相似度，可以降低界面控制指令的响应时间，其逻辑示意图如图9所示。

本申请实施例的有益效果在于，通过构建发送包含关键词的语音请求，可以实现服务器识别推荐媒体文件请求；进一步通过在语音请求中携带用户界面信息，可以提高服务器对界面控制指令的识别准确度；进一步通过构建第二控制指令，可以实现显示设备充分利用服务器云端的强大语义理解计算能力；进一步通过本地进行关键词完全匹配预设界面控制指令的判定，可以快速准确的识别界面控制指令，实现融合终端状态、用户界面操作路径、实时判断用户所处的场景，提升语音指令的意图判断、降低误判、或者误操作的概率，提升语音交互的用户体验。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为″数据块″、″控制器″、″引擎″、″单元″、″组件″或″系统″。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)、或连接至外部计算机(例如通过因特网)、或在云计算环境中、或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外，对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是，如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方，以本申请的描述、定义和/或术语的使用为准。

Claims

1.一种显示设备，其特征在于，包括：

显示器，用于显示用户界面；

麦克风，被配置为用于接收来自用户输入的包含关键词的语音指令；

第一控制器，被配置为：

发送第一语音请求至服务器，其中，所述第一语音请求至少包括第一关键词及用户界面信息，所述第一语音请求用于使所述服务器根据所述第一关键词、及所述用户界面信息执行语义理解意图分析以确定包含控制信令、或推荐媒体文件信息的第二控制指令；

在所述第一控制器接收来自于所述服务器发送的所述第二控制指令之前，所述第一控制器还被配置为：

比对预设界面控制指令和所述第一语音请求包含的关键词；

当所述第一语音请求包含的全部所述关键词完全匹配预设的界面控制指令时，控制所述用户界面根据所述关键词对应的预设界面控制指令执行对应的用户界面操作；且执行对应的用户界面操作后，如果所述第一控制器接收到所述第一语音请求触发的第二控制指令时，不再执行基于所述第二控制指令的操作；

当所述第一语音请求包含的全部所述关键词不能完全匹配预设的界面控制指令时，接收来自于所述服务器发送的所述第二控制指令，并根据其包含的所述控制信令执行用户界面操作、或控制所述用户界面显示所述第二控制指令包含的所述推荐媒体文件信息。

2.如权利要求1所述显示设备，其特征在于，所述接收来自于所述服务器发送的所述第二控制指令，具体包括：所述第二控制指令通过所述服务器对所述第一关键词以及用户界面信息调用NLU服务进行语义理解、意图分析后获得。

3.如权利要求1所述显示设备，其特征在于，所述第一控制器发送至少包括第一关键词及用户界面信息的第一语音请求至服务器，具体包括所述第一控制器：

发送至少包括第一关键词、及显示设备当前用户界面内容列表内容的第一语音请求至服务器；或

发送至少包括第一关键词、及显示设备当前用户界面ID信息的第一语音请求至服务器，所述用户界面ID信息用于使所述服务器识别所述用户界面的当前列表内容。

4.一种显示设备，其特征在于，包括：

显示器，用于显示用户界面；

第二控制器，被配置为：

发送第一语音请求至服务器，其中，所述第一语音请求至少包括第一关键词及用户界面信息，所述第一语音请求用于使所述服务器根据所述第一关键词、及所述用户界面信息执行语义理解意图分析以确定包含推荐媒体文件信息的第二控制指令；

与此同时，所述第二控制器还被配置为：

在本地判定所述第一语音请求是否为界面控制指令，所述判定所述第一语音请求是否为界面控制指令包括：计算第一语音请求包含的所述关键词与预设界面控制指令之间的相似度值，在所述相似度值大于等于预设阈值时，则判定所述第一语音请求为界面控制指令；所述第二控制器基于判定的界面控制指令执行用户界面操作；

若所述第一语音请求没有被判定为界面控制指令时，根据所述第一语音请求触发的由服务器反馈下发的第二控制指令对显示设备进行操作，所述第二控制指令包括推荐媒体文件信息。

5.一种服务器，其特征在于，包括：

第三控制器，被配置为：

接收显示设备发送的至少包括第一关键词及用户界面信息的第一语音请求；

根据所述第一关键词、及所述用户界面信息执行语义理解意图分析以确定包含控制信令、或推荐媒体文件信息的第二控制指令；

发送所述第二控制指令至所述显示设备；

所述显示设备在接收来自于所述服务器发送的所述第二控制指令之前，所述显示设备还包括：

比对预设界面控制指令和所述第一语音请求包含的关键词；

当所述第一语音请求包含的全部所述关键词完全匹配预设的界面控制指令时，控制所述用户界面根据所述关键词对应的预设界面控制指令执行对应的用户界面操作；且执行对应的用户界面操作后，如果控制器接收到所述第一语音请求触发的第二控制指令时，不再执行基于所述第二控制指令的操作；

6.如权利要求5所述服务器，其特征在于，所述第三控制器根据所述第一关键词、及所述用户界面信息执行语义理解意图分析以确定包含控制信令、或推荐媒体文件信息的第二控制指令，具体包括所述第三控制器：

根据显示设备当前用户界面内容列表内容、以及所述第一关键词执行语义理解意图分析，以判定所述第一语音请求是否为界面控制指令；

如果是，根据所述第一关键词与预设界面控制指令进行匹配，以确定用于执行显示设备用户界面操作的控制信令；否则，根据所述第一关键词确定可提供的推荐媒体文件。

7.如权利要求5所述服务器，其特征在于，所述第三控制器根据所述第一关键词、及所述用户界面信息执行语义理解意图分析以确定包含控制信令、或推荐媒体文件信息的第二控制指令，具体包括所述第三控制器：

根据显示设备当前用户界面ID信息对应的用户界面内容、以及所述第一关键词执行语义理解意图分析，以判定所述第一语音请求是否为界面控制指令；

8.一种基于语音的显示控制方法，其特征在于，所述方法包括：

在第一控制器接收来自于所述服务器发送的所述第二控制指令之前，第一控制器比对预设界面控制指令和所述第一语音请求包含的关键词；

当所述第一语音请求包含的全部所述关键词不能完全匹配预设的界面控制指令时，接收来自于所述服务器发送的所述第二控制指令，并根据其包含的所述控制信令执行用户界面操作、或控制用户界面显示所述第二控制指令包含的所述推荐媒体文件信息。

9.一种基于语音的显示控制方法，其特征在于，所述方法包括：

与此同时，第二控制器在本地判定所述第一语音请求是否为界面控制指令，所述判定所述第一语音请求是否为界面控制指令包括：计算第一语音请求包含的所述关键词与预设界面控制指令之间的相似度值，在所述相似度值大于等于预设阈值时，则判定所述第一语音请求为界面控制指令；所述第二控制器基于判定的界面控制指令执行用户界面操作；

10.一种基于语音的显示控制方法，其特征在于，所述方法包括：

根据所述第一关键词、及所述用户界面信息执行语义理解意图分析确定包含控制信令、或推荐媒体文件信息的第二控制指令；

发送所述第二控制指令至所述显示设备；

所述显示设备在接收来自于服务器发送的所述第二控制指令之前，所述显示设备还包括：

比对预设界面控制指令和所述第一语音请求包含的关键词；

当所述第一语音请求包含的全部所述关键词完全匹配预设的界面控制指令时，控制所述用户界面根据所述关键词对应的预设界面控制指令执行对应的用户界面操作；且执行对应的用户界面操作后，如果所述控制器接收到所述第一语音请求触发的第二控制指令时，不再执行基于所述第二控制指令的操作；