CN113593559B

CN113593559B - 一种内容显示方法、显示设备及服务器

Info

Publication number: CN113593559B
Application number: CN202110865048.9A
Authority: CN
Inventors: 张立泽; 戴磊; 马宏; 张大钊
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2024-05-17
Anticipated expiration: 2041-07-29
Also published as: CN113593559A

Abstract

本实施例提供一种内容显示方法、显示设备及服务器。显示设备的控制器在接收用户输入的用于唤醒语音交互功能的指令，根据该指令驱动声音采集器启动。如果进一步未从声音采集器获取到可用于搜索媒资内容的搜索关键词，则向服务器发送备选媒资请求。从服务器接收根据备选媒资请求查找的备选媒资信息，以及在显示器上显示该备选媒资信息。本申请实施例在未能获取到用户的明确意图时，也可以从服务器获取相应的备选媒资信息，并在显示器上显示该备选媒资信息。避免简单文本回复，或者无回复的情况发生，从而提升用户使用体验。

Description

一种内容显示方法、显示设备及服务器

技术领域

本申请涉及显示设备技术领域，尤其涉及一种内容显示方法、显示设备及服务器。

背景技术

随着人工智能技术的飞速发展，人们可利用智能设备的语音交互功能实现媒资检索。传统的智能设备媒资检索方式为：用户输入语音信息，智能设备将该语音信息发送至服务器，服务器识别语音信息中的检索意图，再根据检索意图向智能设备反馈推荐的媒资信息或者媒资数据。

然而，传统的智能设备媒资检索方式依赖于用户明确的搜索意图。在一些定制场景中，如果无法获得用户明确的搜索意图，智能设备只能给予用户简单的文本回复，甚至无法给予用户回复。因此，传统的智能设备媒资检索方式对于用户来说，使用体验较差。

发明内容

本申请提供了一种内容显示方法、显示设备及服务器，用于解决在一些定制场景中，如果无法获得用户明确的搜索意图，智能设备只能给予用户简单的文本回复，甚至无法给予用户回复，导致用户使用体验较差的问题。

第一方面，本实施例提供一种显示设备，包括，

显示器，用于显示用户界面；

通信器，用于与服务器进行数据通信；

声音采集器，用于采集用户输入的语音信息；

控制器，用于执行：

接收用户输入的用于唤醒语音交互功能的指令，根据所述指令驱动所述声音采集器启动，其中，所述指令以第一语音信息方式或者按键方式输入；

在未从所述声音采集器获取到可用于搜索媒资内容的搜索关键词时，向所述服务器发送备选媒资请求；

从所述服务器接收根据所述备选媒资请求查找的备选媒资信息，以及在所述显示器上显示所述备选媒资信息。

第二方面，本实施例提供一种服务器，所述服务器用于执行：

在显示设备根据用户输入的用于唤醒语音交互功能的指令驱动声音采集器启动，且所述显示设备的控制器未从所述声音采集器获取到可用于搜索媒资内容的搜索关键词时，接收所述显示设备发送的备选媒资请求，其中，所述指令以第一语音信息方式或者按键方式输入；

根据所述备选媒资请求查找备选媒资信息，以及将所述备选媒资信息反馈至所述显示设备，以使在所述显示设备的显示器上显示所述备选媒资信息。

第三方面，本实施例提供一种内容显示方法，应用于显示设备，包括：

接收用户输入的用于唤醒语音交互功能的指令，根据所述指令驱动声音采集器启动，其中，所述指令以第一语音信息方式或者按键方式输入；

本申请实施例提供的一种内容显示方法、显示设备及服务器，本申请的显示设备的控制器接收用户输入的用于唤醒语音交互功能的指令，根据该指令驱动声音采集器启动。如果进一步未从声音采集器获取到可用于搜索媒资内容的搜索关键词，则向服务器发送备选媒资请求。从服务器接收根据备选媒资请求查找的备选媒资信息，以及在显示器上显示该备选媒资信息。本申请实施例在未能获取到用户的明确意图时，也可以从服务器获取相应的备选媒资信息，并在显示器上显示该备选媒资信息。避免简单文本回复，或者无回复的情况发生，从而提升用户使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据一些实施例的显示设备的使用场景；

图2示出了根据一些实施例的控制装置100的硬件配置框图；

图3示出了根据一些实施例的显示设备200的硬件配置框图；

图4示出了根据一些实施例的显示设备200中软件配置图；

图5示例性示出了根据一些实施例的语音交互原理的示意图；

图6示例性示出了根据一些实施例的媒资检索系统的框架图；

图7示出了根据一些实施例中显示设备200中的用户界面示意图；

图8示出了根据一些实施例的内容显示方法信令图；

图9示出了根据一些实施例的又一种内容显示方法信令图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语″第一″、″第二″、″第三″等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语″包括″和″具有″以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语″模块″是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

图1为根据实施例中显示设备的使用场景的示意图。如图1所示，显示设备200还与服务器400进行数据通信，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式中的至少一种，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等至少一种输入用户指令，来控制显示设备200。

在一些实施例中，智能设备300可以包括移动终端300A、平板电脑、计算机、笔记本电脑，AR/VR设备等中的任意一种。

在一些实施例中，也可以使用智能设备300以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，也可以使用智能设备300和显示设备进行数据的通信。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制装置来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

在一些实施例中，一个步骤执行主体执行的软件步骤可以随需求迁移到与之进行数据通信的另一步骤执行主体上进行执行。示例性的，服务器执行的软件步骤可以随需求迁移到与之数据通信的显示设备上执行，反之亦然。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

在一些实施例中，通信接口130用于和外部通信，包含WIFI芯片，蓝牙模块，NFC或可替代模块中的至少一种。

在一些实施例中，用户输入/输出接口140包含麦克风，触摸板，传感器，按键或可替代模块中的至少一种。

图3示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括中央处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面等。

在一些实施例中，显示器260可为液晶显示器、OLED显示器、以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。

在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random AccessMemory，RAM)，ROM(Read-Only Memory，ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

CPU处理器。用于执行存储在存储器中操作系统和应用程序指令，以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。CPU处理器，可以包括多个处理器。如，包括一个主处理器以及一个或多个子处理器。

在一些实施例中，图形处理器，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等中的至少一种。图形处理器包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象；还包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器，用于将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理中的至少一种，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等中的至少一种。其中，解复用模块，用于对输入音视频数据流进行解复用处理。视频解码模块，用于对解复用后的视频信号进行处理，包括解码和缩放处理等。图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。帧率转换模块，用于对转换输入视频帧率。显示格式化模块，用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，音频处理器，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理中的至少一种，得到可以在扬声器中播放的声音信号。

在一些实施例中，用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，″用户界面″，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。

在一些实施例中，用户接口280，为可用于接收控制输入的接口(如：显示设备本体上的实体按键，或其他等)。

在一些实施例中，显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称″应用层″)，应用程序框架(Application Framework)层(简称″框架层″)，安卓运行时(Android runtime)和系统库层(简称″系统运行库层″)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。

框架层为应用程序层的应用程序提供应用编程接口(application programminginterface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

为清楚说明本申请的实施例，下面结合图5对本申请实施例提供的一种语音识别网络架构进行描述。

参见图5，图5为本申请实施例提供的一种语音识别网络架构示意图。图5中，智能设备用于接收输入的信息以及输出对该信息的处理结果。语音识别服务设备为部署有语音识别服务的电子设备，语义服务设备为部署有语义服务的电子设备，业务服务设备为部署有业务服务的电子设备。这里的电子设备可包括服务器、计算机等，这里的语音识别服务、语义服务(也可称为语义引擎)和业务服务为可部署在电子设备上的web服务，其中，语音识别服务用于将音频识别为文本，语义服务用于对文本进行语义解析，业务服务用于提供具体的服务如墨迹天气的天气查询服务、QQ音乐的音乐查询服务等。在一个实施例中，图5所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。

一些实施例中，下面对基于图5所示架构处理输入智能设备的信息的过程进行举例描述，以输入智能设备的信息为通过语音输入的查询语句为例，上述过程可包括如下三个过程：

[语音识别]

智能设备可在接收到通过语音输入的查询语句后，将该查询语句的音频上传至语音识别服务设备，以由语音识别服务设备通过语音识别服务将该音频识别为文本后返回至智能设备。在一个实施例中，将查询语句的音频上传至语音识别服务设备前，智能设备可对查询语句的音频进行去噪处理，这里的去噪处理可包括去除回声和环境噪声等步骤。

[语义理解]

智能设备将语音识别服务识别出的查询语句的文本上传至语义服务设备，以由语义服务设备通过语义服务对该文本进行语义解析，得到文本的业务领域、意图等。

[语义响应]

语义服务设备根据对查询语句的文本的语义解析结果，向相应的业务服务设备下发查询指令以获取业务服务给出的查询结果。智能设备可从语义服务设备获取该查询结果并输出。作为一个实施例，语义服务设备还可将对查询语句的语义解析结果发送至智能设备，以由智能设备输出该语义解析结果中的反馈语句。

需要说明的是，图5所示架构只是一种示例，并非对本申请保护范围的限定。本申请实施例中，也可采用其他架构来实现类似功能，例如：三个过程全部或部分可以由智能终端来完成，在此不做赘述。

在一些实施例中，图5所示的智能设备可为显示设备，如智能电视，语音识别服务设备的功能可由显示设备上设置的声音采集器和控制器配合实现，语义服务设备和业务服务设备的功能可由显示设备的控制器实现，或者由显示设备的服务器来实现。

为清楚说明本申请的实施例，下面对一些专业术语进行释义：

[声纹]

声纹是用电声学仪器显示的携带言语信息的声波频谱，是由波长、频率以及强度等百余中特征维度组成的生物特征，具有未定型、可测量性、唯一性等特点。

目前主流的说话人聚类算法是在说话人分割的基础上，基于贝叶斯信息判据，采用凝聚分层聚类算法，直接对说话人分割后的语音段进行判决，将属于同一个说话人的语音段合并为一类。其基本思想是从每个语片段中提取特征参数，例如梅尔倒谱参数，计算每两个语音段之间特征参数的相似度，并利用BIC判断相似度最高的两个语音段是否合并为同一类。对任意两段语音都进行上述判决，直到所有的语音段不再合并。

本申请基于现有的声纹聚类方法，提取同一个说话人的声纹特征，根据声纹特征生成说话人的声纹ID。当该用户再次输入语音信息，从语音信息中提取声纹特征，将提取的声纹特征与原有存储的声纹特征进行比对，即能够确定说话人的声纹ID。

[用户画像]

通过收集用户社会属性、消费习惯、偏好特征等各个维度数据，进而对用户或者产品特征属性的刻画，并对这些特征分析统计挖掘潜在价值信息，从而抽象出一个用户的全貌。用户画像是定向广告投放或个性化推荐的前提。

本申请在根据用户声纹特征生成用户唯一的声纹ID的同时，还构建用户的用户画像。同时将声纹ID与用户画像相对应，并能根据用户画像向用户反馈符合用户偏好的媒资信息和媒资数据。

为了解决上述问题，本申请提供一种媒资检索系统，如图6所示的媒资检索系统的框架图，该系统包括显示设备200以及服务器400。显示设备200又包括显示器、通信器、声音采集器以及控制器。显示器用于显示用户界面。通信器用于与服务器400进行数据通信。声音采集器用户采集用户输入的语音信息。服务器400用于向显示设备提供各种媒资信息和媒资数据。

在一些实施例中，用户利用本实施例的媒资检索系统进行媒资检索的过程具体为：

首先用户输入用于唤醒显示设备语音交互功能的指令，并根据所述指令驱动声音采集器启动工作。这种唤醒显示设备语义交互功能的工具可以为一个内置或安装的应用程序，如语音助手。

在一些可选的实施例方式中，唤醒语音助手的方式可以是通过用户输入的第一语音信息唤醒，例如，第一语音信息为预设的唤醒词，当用户输入″小度，小度″，或者″海信小聚″等预设的唤醒词，从而唤醒显示设备的语音交互功能。在一些可选的实施例中，唤醒词可以由用户自行设定，如″我爱我家″、″电视电视″等。

在另一些可选的实施方式中，用户也可以直接触控遥控器上的语音键，显示设备根据该按键指令启动语音助手服务。

唤醒显示设备的语音交互功能之后，用户与显示设备进行语音交互，声音采集器采集用户输入的其他语音信息。如果进一步未从声音采集器获取到可用于搜索媒资内容的搜索关键词，即无法获取到明确的用户意图，则直接向服务器发送备选媒资请求。服务器接收根据备选媒资请求查找的备选媒资信息，并向显示设备反馈备选媒资信息。显示设备接收到备选媒资信息之后，在显示器上显示该备选媒资信息。

具体的可以根据声音采集器采集语音信息的情况确定显示设备当前场景。

如果确定显示设备的当前场景为第一场景时，控制器向服务器发送媒资请求。该媒资请求携带有第一场景信息。服务器根据第一场景信息，查找与第一场景对应的第一媒资信息。之后将第一媒资信息反馈至显示设备，以使在显示器上显示该第一媒资信息。

如果显示设备的当前场景为第一场景，可以是声音采集器未采集到用户输入的第二语音信息，或者不可从第二语音信息中识别出搜索关键词。从语音信息中识别用户意图的过程为现有技术，本申请不作详细阐述。

如果确定显示设备的当前场景为第二场景时，控制器向服务器发送媒资请求。该媒资请求携带有第二场景信息。服务器根据第二场景信息，查找与第二场景对应的第二媒资信息。之后将第二媒资信息反馈至显示设备，以使在显示器上显示该第二媒资信息。

如果显示设备的当前场景为第二场景，可以是声音采集器采集到用户输入的第二语音信息，并且可从第二语音信息中识别出搜索关键词，但是识别的搜索关键词不可用于搜索媒资内容。例如，识别出的搜索关键词不是预设关键词，即该搜索关键词不是指示显示设备业务范围的关键词。

经过上述实施例的媒资检索过程，即使不可获取到明确的用户意图，或者识别的用户意图不在显示设备业务范围内，服务器也可根据显示设备处于的不同场景，反馈相应的媒资信息。并在显示器上显示相应的媒资信息，避免无回复的情况发生。

示例性的，第一场景可以是用户远场唤醒语音助手后，一段时间内无内容输入的场景。例如，用户输入唤醒词″你好，小度″之后，再无内容输入，则无法从唤醒词中识别出用于搜索媒资内容的搜索关键词。此时，可以确定显示设备的当前场景为第一场景，显示设备向服务器发送媒资请求，该媒资请求携带有第一场景信息。服务器根据第一场景信息查找对应的第一媒资信息，并反馈第一媒资信息。

在一些实施例中，第一场景还可以是用户近场唤醒语音助手后，一段时间内无内容输入的场景。例如，用户通过长按按键唤醒语音助手后，再无内容输入。此时也无法获得用于搜索内容的搜索关键词。此时也可以确定显示设备的当前场景为第一场景。

第二场景可以是用户远场唤醒语音助手或者近场唤醒语音助手后，进一步输入语音信息，并且可以从输入的语音信息中识别出搜索关键词。但是该搜索关键词并不在显示设备业务范围内。例如，用户唤醒语音助手之后，再输入语音信息″播放XX游戏视频″。虽然可从该语音信息中识别出″XX游戏视频″的搜索关键词，但是″XX游戏视频″不是预设关键词，即XX游戏视频超出了显示设备业务范围。此时，可以确定显示设备的当前场景为第二场景，显示设备向服务器发送媒资请求，该媒资请求携带有第二场景信息。服务器根据第二场景信息查找对应的第二媒资信息，并反馈第二媒资信息。

在一些实施例中，在未从声音采集器获取到可用于搜索媒资内容的搜索关键词时，从服务器接收根据备选媒资请求查找的备选媒资信息的具体过程可以是：

判断是否可从第一语音信息中确定声纹信息，如果可从第一语音信息中确定声音信息，则将声纹信息发送至服务器。服务器根据声纹信息确定用户画像，再根据用户画像查找备选媒资信息。声纹信息可以包括声纹ID和声纹属性。如果既可从第一语音信息中确定声纹ID又可确定声纹属性，由于每个用户拥有唯一的声纹ID，则根据声纹ID确定用户画像。

如果仅可从第一语音信息中确定声纹ID，则将声纹ID发送至服务器。服务器根据声纹ID确定与声纹ID唯一对应的用户画像。服务器再根据确定的用户画像查找备选媒资信息。

需要说明的是，显示设备可以是家庭电视，则此时显示设备根据语音访问历史，保存有家庭成员的声纹ID。例如，服务器存储有爷爷、奶奶、爸爸、妈妈的声纹ID。当爷爷使用显示设备，输入语音信息时，显示设备首先将显示设备的设备ID发送至服务器。服务器根据设备ID查找该设备对应的声纹ID。

由于事先存储有爷爷的声纹ID，根据声纹特征，可以确定输入的语音信息中能够识别出爷爷的声纹ID。进一步根据爷爷的声纹ID确定对应的用户画像。再根据用户画像查找备选媒资信息。这样，通过用户画像确定出的媒资信息与当前用户具有关联性。如果客人使用显示设备，输入语音信息，显示设备首先将显示设备的ID发送至服务器。由于事先没有存储客人的声纹ID。则服务器不能根据语音信息确定声纹ID。

在一些实施例中，如果不可从语音信息中确定声纹ID，但是可从语音信息中确定声纹属性，则将声纹属性发送至服务器。服务器根据声纹属性确定对应的用户画像，以及根据用户画像查找备选媒资信息。这里的声纹属性可以是一类用户的用户特征。用户特征可以包括用户的性别、年龄等生理特征。

例如，如果从语音信息中确定的声纹属性为中年男性，则确定的用户画像则为中年男性相对应。根据用户画像查找的媒资信息，可能是与财经、汽车等相关的媒资信息。如果从语音信息中确定的声纹属性为儿童，则确定的用户画像则与儿童相对应。根据用户画像查找的媒资信息，可能是与动画片相关的媒资信息。

在一些实施例中，如果既不能从语音信息中确定声纹ID，也不能从语音信息中确定声纹属性，则统计显示设备的识别历史记录。即统计显示设备所识别的所有声纹属性，如果某声纹属性识别历史记录占比超过预设阈值，则将该声纹属性发送至服务器。声纹属性识别历史记录占比超过预设阈值，表示使用该显示设备的该类用户次数最多。

例如，声纹属性为儿童的识别历史记录占比超过80％，则表示儿童用户使用该显示设备的次数最多。将声纹属性儿童发送至服务器，以使服务器反馈与儿童用户画像对应的媒资信息。

在一些实施例中，如果既不可从第一语音信息中确定声纹ID，也不可从第一语音信息中确定声纹属性。则根据用户前次输入的语音信息确定声纹ID或者声纹属性。需要说明的是，用户前次输入语音信息的时刻，到当前唤醒语音助手的时刻之间的时长未超过预设时间。例如，当前唤醒语音助手的时刻距离前次输入语音信息的时间不超30秒。

这样，大致可以确定本次唤醒语音助手的用户与前一次唤醒语音助手的用户是同一个人，当根据前次输入的语音信息确定的声纹ID推荐媒资时，结合了用户的习惯、喜好、年龄等因素，因此，给用户推荐的内容更能激发用户进行进一步的交互。

在一些实施例中，用户画像存储结构包括至少两个倾向领域，每个倾向领域又包括至少两项查询维度。倾向领域设置有倾向领域权重，查询维度设置有查询维度权重。不同的用户画像存储结果包括不同的倾向领域和查询维度。例如，用户画像中包括倾向领域″电影″、″音乐″、″菜谱″、″综艺″等。其中，倾向领域″电影″又包括查询维度″战争片″、″动作片″等，倾向领域″音乐″又包括查询维度″流行″、″通俗″等，倾向领域″菜谱″又包括查询维度″粤菜″、″川菜″等，倾向领域″综艺″又包括查询维度″真人秀″、″相亲″等。

上述示例中的倾向领域均具有倾向领域权重，倾向领域权重可以再根据用户画像，例如根据用户观看次数的多少进行设置。查询维度也均具有查询维度权重，同样也可以根据用户画像进行设置。首先根据倾向领域权重，可以利用加权随机算法计算排名前几，例如获取排名前三的倾向领域权重分别为″电影″、″音乐″、″菜谱″。

本申请实施例中的媒资库中设置有至少两张媒资卡片，媒资卡片与倾向领域对应。例如，媒资库中设置有″电影″、″音乐″、″菜谱″等媒资卡片。在媒资库中，媒资卡片也设置有权重。根据倾向领域权重计算得到排名前三的倾向领域后，再根据媒资卡片的权重，选出最终的卡片。同样也可以利用加权随机算法。例如，选出的最终卡片为″音乐″，即最终确定的倾向领域为″音乐″。

确定最终的倾向领域″音乐″后，基于查询维度权重，再利用加权随机算法确定最终的查询维度。例如，确定最终的查询维度为″流行″。最后，通过垂询视频查询服务中的音乐查询服务，基于媒资卡片″音乐″和查询维度″流行″，进行媒资查询。最后可以随机向用户反馈媒资卡片″音乐″和查询维度″流行″的媒资信息。例如，反馈许巍演唱的相关流行歌曲的媒资信息。

在一些实施例中，服务器中针对显示设备的不同场景，存储有不同的媒资库，即卡片池。第一场景为未输入第二语音信息或者不可从第二语音信息中识别出搜索关键词的场景，例如可以是用户唤醒语音助手后，一段时间内再无内容输入的场景。针对该场景，服务器存储有如表1所示的卡片池。

表1针对第一场景的卡片池

针对第一场景，服务器存储的卡片池中更多的是猜测的用户可能喜欢的卡片。

第二场景为可从用户输入的语音信息识别出搜索关键词，但是搜索关键词不可用于搜索媒资内容，即用户意图超出显示设备业务范围内。针对该场景，服务器存储有如表2所示的卡片池。

	卡片名称	卡片类型
			1	应用	app
2	新闻	client_news
			3	音乐	client_music
4	帮助信息	client_helpinfo
			8	电视剧	tvplay

表2针对第二场景的卡片池

针对第二场景，服务器存储的卡片池中更多的是用于引导用户使用语音助手的卡片。

图7所示的实施例为用户唤醒语音助手后，一段时间内再无内容输入的场景。经过上述步骤，显示设备可以从服务器获取三种媒资卡片。这三种卡片均用于引导用户进行语音输入。图7中第一张卡片用户引导用户输入语音信息″来点好听的音乐″、″今天的热点新闻″、″今天的天气″等。

除了上述实施例中的第一场景和第二场景，本申请还可以针对其他场景设置特定的卡片池，其他场景可以是系统端自定义场景。

例如，当用户输入语音信息″早上好″，则可以确定显示设备当前场景为早上问候场景。之后，从语音信息中识别声纹ID或者声纹属性，根据声纹ID或者声纹属性从服务器获取针对早上问候场景的媒资卡片。

当用户输入语音信息″我回家了″，则可以确定显示设备当前场景为回家场景。根据声纹ID或者声纹属性从服务器获取针对回家场景的媒资卡片。

当显示设备的用户界面长时间处于APP操作界面而未接收到用户的操作指令时，检测到该场景后，可从服务器获取用于引导操作APP界面的媒资卡片。

当显示设备调用系统服务出现故障时，检测到该场景后，可从服务器获取用于引导如何消除故障的媒资卡片。

当用户输入的语音信息为抱怨信息，例如输入语音信息″我今天好累″，检测到该场景后，可从服务器获取与舒缓音乐、搞笑电影相关的媒资卡片。

在一些实施例中，从服务器获取媒资卡片并展示的同时，还可以根据具体场景提供不同的提示语。例如，根据时间在用户界面上显示问候语″早上好″、″晚上好″等。或者在回家场景中，在用户界面上显示问候语″欢迎回家″。

本申请实施例提供一种内容显示方法，如图8所示的内容显示方法的信令图，所述方法包括以下步骤：

步骤一、接收用户输入的用于唤醒语音交互功能的指令，以及根据所述指令驱动声音采集器启动，其中，所述指令以第一语音信息方式或者按键方式输入。

步骤二、启动声音采集器之后，但是未从声音采集器获取到可用于搜索媒资内容的搜索关键词时，向服务器发送备选媒资请求。

步骤三、服务器接收到备选媒资请求之后，根据该备选媒资请求查找对应的备选媒资信息，并将查找到的备选媒资信息反馈至显示设备。

步骤四、显示设备接收到服务器反馈的备选媒资信息后，在显示器上显示该备选媒资信息。

基于上述方法实施例，本申请实施例提供又一种内容显示方法，如图9所示的内容显示方法的信令图，方法包括以下步骤：

步骤一、声音采集器启动后，根据声音采集器进一步采集的语音信息的情况判断显示设备的当前场景。

步骤二、如果确定显示设备的当前场景为第一场景，则向服务器发送第一媒资请求，第一媒资请求携带有第一场景信息。服务器根据第一媒资请求向显示设备反馈第一场景对应的第一媒资信息。显示设备接收到反馈的第一媒资信息后，在显示器上显示第一媒资信息。显示设备的当前场景为第一场景时，声音采集器未采集到用户输入的第二语音信息，或者不可从第二语音信息中识别出搜索关键词。

步骤三、如果确定显示设备的当前场景为第二场景，则向服务器发送第二媒资请求，第二媒资请求携带有第二场景信息。服务器根据第二媒资请求向显示设备反馈第二场景对应的第二媒资信息。显示设备接收到反馈的第二媒资信息后，在显示器上显示第二媒资信息。显示设备的当前场景为第二场景是，声音采集器采集到用户输入的第二语音信息，可从第二语音信息中识别出搜索关键词，但是搜索关键词不可用于搜索媒资内容。

基于上述方法实施例，本申请实施例提供又一种内容显示方法，所述方法包括以下步骤：

步骤一、显示设备的声音采集器采集用户输入的第一语音信息，以及根据第一语音信息驱动声音采集器启动。

步骤二、启动声音采集器之后，但是未从声音采集器获取到可用于搜索媒资内容的搜索关键词时，继续判断是否可从第一语音信息中确定声纹信息。

步骤三、如果可从第一语音信息中确定声纹信息，则向服务器发送备选媒资请求，备选媒资请求携带有声纹信息。服务器根据声纹信息确定对应的用户画像。根据用户画像在服务器的媒资库中查找对应的备选媒资信息。服务器将备选媒资信息反馈至显示设备。显示设备接收到反馈的备选媒资信息后，在显示器上显示备选媒资信息。

本申请各个实施例之间相同或相似的内容可相互参照，相关实施例不再赘述。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种显示设备，其特征在于，包括，

显示器，用于显示用户界面；

通信器，用于与服务器进行数据通信；

声音采集器，用于采集用户输入的语音信息；

控制器，用于执行：

接收用户输入的用于唤醒语音交互功能的指令，根据所述指令唤醒语音助手，驱动所述声音采集器启动，其中，所述指令以第一语音信息方式输入；

在未从所述声音采集器获取到可用于搜索媒资内容的搜索关键词时，从所述第一语音信息中获取第一声纹ID和第一声纹属性；

如果从所述第一语音信息中未获取到所述第一声纹ID和第一声纹属性，根据上一语音信息确定第二声纹ID和/或第二声纹属性；所述上一语音信息的输入时刻与所述语音助手的唤醒时刻之间的间隔不超过预设时间；

根据所述第二声纹ID和/或第二声纹属性，生成并向所述服务器发送第一备选媒资请求，所述第一备选媒资请求用于指示服务器根据所述第二声纹ID和/或第二声纹属性确定第一用户画像，根据所述第一用户画像匹配第一备选媒资信息；用户画像的存储结构包括多个倾向领域，所述倾向领域包括多个查询维度和第一权重，所述查询维度包括第二权重；

接收所述服务器发送的所述第一备选媒资信息，以及在所述显示器上显示所述第一备选媒资信息。

2.根据权利要求1所述的显示设备，其特征在于，所述控制器，还用于执行：

如果从所述第一语音信息中能够获取到所述第一声纹ID和所述第一声纹属性，根据所述第一声纹ID和所述第一声纹属性，生成并向所述服务器发送第二备选媒资请求，所述第二备选媒资请求用于指示服务器根据所述第一声纹ID和所述第一声纹属性确定第二用户画像，根据所述第二用户画像匹配第二备选媒资信息；

接收所述服务器发送的所述第二备选媒资信息，以及在所述显示器上显示所述第二备选媒资信息。

3.根据权利要求1所述的显示设备，其特征在于，所述控制器，还用于执行：

如果从所述第一语音信息中获取到所述第一声纹ID，并且未从所述第一语音信息中获取到所述第一声纹属性，则根据所述第一声纹ID，生成并向所述服务器发送第三备选媒资请求；所述第三备选媒资请求用于指示服务器根据所述第一声纹ID确定第三用户画像，根据所述第三用户画像匹配第三备选媒资信息；

接收所述服务器发送的所述第三备选媒资信息，以及在所述显示器上显示所述第三备选媒资信息。

4.根据权利要求1所述的显示设备，其特征在于，所述控制器，还用于执行：

如果从所述第一语音信息中获取到所述第一声纹属性，并且未从所述第一语音信息中获取到所述第一声纹ID，则根据所述第一声纹属性，生成并向所述服务器发送第四备选媒资请求；所述第四备选媒资请求用于指示服务器根据所述第一声纹属性确定第四用户画像，根据所述第四用户画像匹配第四备选媒资信息；

接收所述服务器发送的所述第四备选媒资信息，以及在所述显示器上显示所述第四备选媒资信息。

5.一种服务器，其特征在于，所述服务器用于执行：

接收显示设备发送的第一备选媒资请求；所述第一备选媒资请求是显示设备在根据用户输入的第一语音信息唤醒语音助手以及驱动声音采集器启动，未从所述第一语音信息获取到可用于搜索媒资内容的搜索关键词，并且未获取到第一声纹ID和第一声纹属性后发送的；所述第一备选媒资请求包括根据上一语音信息确定的第二声纹ID和/或第二声纹属性，所述上一语音信息的输入时刻与所述语音助手的唤醒时刻之间的间隔不超过预设时间；

根据所述第二声纹ID和/或第二声纹属性，确定第一用户画像，根据所述第一用户画像匹配第一备选媒资信息；用户画像的存储结构包括多个倾向领域，所述倾向领域包括多个查询维度和第一权重，所述查询维度包括第二权重；

将所述第一备选媒资信息发送给所述显示设备，以使所述显示设备显示所述第一备选媒资信息。

6.根据权利要求5所述的服务器，其特征在于，所述服务器，还用于执行：

接收所述显示设备发送的第二备选媒资请求；所述第二备选媒资请求是所述显示设备从所述第一语音信息中获取到所述第一声纹ID和所述第一声纹属性时发送的；

根据所述第一声纹ID和所述第一声纹属性，确定第二用户画像，根据所述第二用户画像匹配第二备选媒资信息，将所述第二备选媒资信息发送给所述显示设备，以使所述显示设备显示所述第二备选媒资信息。

7.根据权利要求5所述的服务器，其特征在于，所述服务器，还用于执行：

接收所述显示设备发送的第三备选媒资请求；所述第三备选媒资请求是所述显示设备从所述第一语音信息中获取到所述第一声纹ID，并且未从所述第一语音信息中获取到所述第一声纹属性时发送的；

根据所述第一声纹ID，确定第三用户画像，根据所述第三用户画像匹配第三备选媒资信息，将所述第三备选媒资信息发送给所述显示设备，以使所述显示设备显示所述第三备选媒资信息。

8.根据权利要求5所述的服务器，其特征在于，所述服务器，还用于执行：

接收所述显示设备发送的第四备选媒资请求；所述第四备选媒资请求是所述显示设备从所述第一语音信息中获取到所述第一声纹属性，并且未从所述第一语音信息中获取到所述第一声纹ID时发送的；

根据所述第一声纹属性，确定第四用户画像，根据所述第四用户画像匹配第四备选媒资信息，将所述第四备选媒资信息发送给所述显示设备，以使所述显示设备显示所述第四备选媒资信息。

9.一种内容显示方法，其特征在于，所述方法应用于显示设备，包括：

接收用户输入的用于唤醒语音交互功能的指令，根据所述指令唤醒语音助手，驱动声音采集器启动，其中，所述指令以第一语音信息方式输入；

根据所述第二声纹ID和/或第二声纹属性，生成并向服务器发送第一备选媒资请求，所述第一备选媒资请求用于指示服务器根据所述第二声纹ID和/或第二声纹属性确定第一用户画像，根据所述第一用户画像匹配第一备选媒资信息；用户画像的存储结构包括多个倾向领域，所述倾向领域包括多个查询维度和第一权重，所述查询维度包括第二权重；

接收所述服务器发送的所述第一备选媒资信息，以及显示所述第一备选媒资信息。

10.一种内容显示方法，其特征在于，所述方法应用于服务器，包括：