CN111372109A

CN111372109A - 一种智能电视以及信息交互方法

Info

Publication number: CN111372109A
Application number: CN202010175182.1A
Authority: CN
Inventors: 邵星阳; 连欢; 杨善松
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: GUANGDONG HISENSE ELECTRONIC Co.,Ltd.
Priority date: 2019-11-29
Filing date: 2020-03-13
Publication date: 2020-07-03
Anticipated expiration: 2040-03-13
Also published as: CN111372109B; CN113194346A; US20210392403A1; WO2021103398A1

Abstract

本申请公开了一种智能电视以及信息交互方法。本申请中，响应于来自所述用户输入接口的音视频查询请求，发送包含关键词的查询指令给服务器，其中，所述服务器被配置为响应于接收到所述查询指令根据所述关键词确定对应的目标音视频的媒资信息，并根据所述关键词生成回复文本，所述回复文本包含所述目标音视频的评价信息；接收所述服务器发送的所述媒资信息及所述回复文本；控制所述显示器在所述用户交互界面上的第一区域展示所述媒资信息，在所述用户交互界面上的第二区域展示所述回复文本。

Description

一种智能电视以及信息交互方法

本申请要求在2019年11月29日提交中国专利局、申请号为201911207629.2、发明名称为″一种智能电视以及信息交互方法″的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信领域，特别涉及一种智能电视以及信息交互方法。

背景技术

智能设备(比如智能电视、智能音箱、智能手机)等，因其具有与用户的交互能力，能够根据用户的请求为用户提供满足用户需求的体验，因而应用越来越广泛。

以智能电视为例，用户可以通过语音方式发出查询以及播放某个影片的请求(比如″我想看ABC″，其中″ABC″表示影片名称)，智能电视能够识别该语音并进行解析，以解析出的影片名称作为关键词进行查询，在查询到该影片的播放资源后，可以在界面上进行显示，同时还可以以语音方式进行回复(比如″为您找到关于ABC的视频，请选择播放″)。

如何增加回复多样性，以提高用户体验，是目前需要解决的问题。

发明内容

本申请示例性的实施方式中提供一种智能电视以及信息交互方法，在人机交互场景中回复用户对音视频的查询请求时，增加回复文本的多样性，提升用户体验。

根据示例性的实施方式中一方面，提供一种智能电视，包括：

用户输入接口，被配置为接收来自用户的输入；

显示器，被配置为展示用户交互界面；

控制器，所述控制器分别与所述用户输入接口和音频输出耦接，所述控制器被配置为：

响应于来自所述用户输入接口的音视频查询请求，发送包含关键词的查询指令给服务器，其中，所述服务器被配置为响应于接收到所述查询指令根据所述关键词确定对应的目标音视频的媒资信息，并根据所述关键词生成回复文本，所述回复文本包含所述目标音视频的评价信息；

接收所述服务器发送的所述媒资信息及所述回复文本；

控制所述显示器在所述用户交互界面上的第一区域展示所述媒资信息，在所述用户交互界面上的第二区域展示所述回复文本。

用户输入接口，被配置为接收来自用户的输入；

显示器，被配置为展示用户交互界面；

响应于来自所述用户输入接口的音视频查询请求，发送包含关键词的查询指令给服务器，其中，所述服务器被配置为响应于接收到所述查询指令根据所述关键词确定对应的目标音视频的媒资信息，所述服务器还被配置为响应于接收到所述查询指令根据所述关键词获取与所述关键词对应的属性信息，并根据多个预设模板中随机选出的一个预设模板和所述属性信息生成回复文本，所述回复文本在前后相邻两次相同的音视频查询请求时所述回复文本的内容存在随机性；

接收所述服务器发送的所述媒资信息及所述回复文本；

用户输入接口，被配置为接收来自用户的输入；

显示器，被配置为展示用户交互界面；

控制器，所述控制器分别与所述用户输入接口和所述音频输出耦接，所述控制器被配置为：

响应于来自所述用户输入接口的音视频查询请求，发送包含关键词的查询指令给服务器，其中，所述服务器被配置为响应于接收到所述查询指令根据所述关键词确定对应的目标音视频的媒资信息，所述服务器还被配置为响应于接收到所述查询指令根据所述关键词获取与所述关键词对应的属性信息，并根据多个预设模板中随机选出的一个预设模板和所述属性信息生成回复文本，在响应于前后相邻两次相同的音视频查询请求时，所述回复文本的内容不同；

接收服务器发送的所述媒资信息及所述回复文本；

用户输入接口，被配置为接收来自用户的输入；

显示器，被配置为展示用户交互界面；

响应于来自所述用户输入接口的音视频查询请求，发送包含关键词的查询指令给服务器，其中，所述服务器被配置为响应于接收到所述查询指令根据所述关键词确定对应的目标音视频的媒资信息，所述服务器还被配置为响应于接收到所述查询指令根据所述关键词获取与所述关键词对应的属性信息，并在根据所述属性信息生成的多个候选回复文本中筛选出的一个作为回复文本反馈给所述智能电视，所述回复文本被配置为响应于前后相邻两次相同的音视频查询请求时，所述回复文本的内容存在随机性；

接收服务器发送的所述媒资信息及所述回复文本；

根据示例性的实施方式中一方面，提供一种服务器，所述服务器被配置为：

接收智能电视发送包含关键词的查询指令；

响应于接收到所述查询指令，根据所述关键词确定对应的目标音视频的媒资信息，以及，根据所述关键词生成回复文本，所述回复文本中包含所述目标影视片的评价信息；

发送所述媒资信息及所述回复文本给所述智能电视，以使得所述智能电视在用户交互界面上的第一区域展示所述媒资信息，在所述用户交互界面上的第二区域展示所述回复文本。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本申请各较佳实施例。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图；

图2中示例性示出了根据实施例中显示设备200的硬件配置框图；

图3中示例性示出了根据实施例中控制设备100的硬件配置框图；

图4中示例性示出了根据实施例中显示设备200的功能配置示意图；

图5a中示例性示出了根据实施例中显示设备200中软件配置示意图；

图5b中示例性示出了根据实施例中显示设备200中应用程序的配置示意图；

图6中示例性示出了根据示例性实施例中显示设备200中用户界面的示意图；

图7中示例性示出了根据示例性实施例中使用混合注意力机制的神经网络和模板相结合的文本生成模型局部示意图；

图8示例性示出了根据实施例中混合注意力机制的示意图；

图9示例性示出了根据实施例中使用混合注意力机制的神经网络和模板相结合的文本生成模型整体示意图；

图10示例性示出了根据实施例中回复文本生成模型的训练过程的示意图；

图11示例性示出了根据实施例中音视频查询请求的流程；

图12a、图12b示例性示出了智能电视响应用户的音视频查询请求的用户界面。

具体实施方式

目前，智能设备在对用户的查询请求进行回复时，回复内容是基于人工预先设置的模板得到的。这种以人工预先设置的模板进行回复的方式，表述方式单一且不够灵活，从用户体验的角度来看，无法激发用户的视听兴趣。

本申请实施例提供一种信息交互设备以及基于该信息交互设备实现的信息交互方法，能够在人机交互场景中，在回复用户对音视频的查询请求时，为用户提供与查询结果匹配的回复，提升用户体验。

示例性地，本申请实施例中的信息交互设备可以是具有语音交互功能的显示设备，比如智能电视或智能移动终端等，该显示设备可以响应用户对音视频的查询请求，并在显示器上显示查询到的目标音视频的资源信息，并通过语音方式播报回复文本。本申请实施例中的信息交互设备也可以是具有语音交互功能的播放设备，比如智能音箱，该播放设备可以响应用户的音频查询请求，并通过语音方式播报回复文本。

为使本申请示例性实施例的目的、技术方案和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施例中的技术方案进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请中示出的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整技术方案。

应当理解，本申请中说明书和权利要求书及上述附图中的术语″第一″、″第二″、″第三″等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语″包括″和″具有″以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语″模块″，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请中使用的术语″遥控器″，是指电子设备(如本申请中公开的显示设备)的一个组件，通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(RF)信号和/或蓝牙与电子设备连接，也可以包括WiFi、无线USB、蓝牙、动作传感器等功能模块。例如：手持式触摸遥控器，是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。

本申请中使用的术语″手势″，是指用户通过一种手型的变化或手部运动等动作，用于表达预期想法、动作、目的/或结果的用户行为。

图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图。如图1中示出，用户可通过移动终端300和控制装置100操作显示设备200。

其中，控制装置100可以遥控器，包括红外协议通信或蓝牙协议通信，及其他短距离通信方式等，通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制显示设备200。如：用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令，来实现控制显示设备200的功能。

在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上，在直观的用户界面(UI)中为用户提供各种控制。

示例的，移动终端300可与显示设备200安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。如：可以实现用移动终端300与显示设备200建立控制指令协议，将遥控控制键盘同步到移动终端300上通过控制移动终端300上用户界面，实现控制显示设备200的功能。也可以将移动终端300上显示音视频内容传输到显示设备200上，实现同步显示功能。

如图1中还示出，显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的，显示设备200通过发送和接收信息，以及电子节目指南(EPG)互动，接收软件程序更新，或访问远程储存的数字媒体库。服务器400可以一组，也可以多组，可以一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。

显示设备200，可以液晶显示器、OLED显示器、投影显示设备。具体显示设备类型，尺寸大小和分辨率等不作限定，本领技术人员可以理解的是，显示设备200可以根据需要做性能和配置上一些改变。

显示设备200除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能。示例的包括，网络电视、智能电视、互联网协议电视(IPTV)等。

图2中示例性示出了根据示例性实施例中显示设备200的硬件配置框图。如图2中示出，显示设备200中包括控制器210、调谐解调器220、通信接口230、检测器240、输入/输出接口250、视频处理器260-1，音频处理器60-2，显示器280，音频输出270、存储器290，供电电源、红外接收器。

显示器280，用于接收源自视频处理器260-1输入的图像信号，进行显示视频内容和图像以及菜单操控界面的组件。显示器280包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件。显示视频内容，可以来自广播电视内容，也可以是说，可通过有线或无线通信协议接收的各种广播信号。或者，可显示来自网络通信协议接收来自网络服务器端发送的各种图像内容。

同时，显示器280，同时显示显示设备200中产生且用于控制显示设备200的用户操控UI界面。

以及，根据显示器280类型不同，还包括用于驱动显示的驱动组件。或者，倘若显示器280为一种投影显示器，还可以包括一种投影装置和投影屏幕。

通信接口230是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如：通信接口230可以是Wifi芯片231，蓝牙通信协议芯片232，有线以太网通信协议芯片233等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器(图中未示出)。

显示设备200可以通过通信接口230与外部控制设备或内容提供设备之间建立控制信号和数据信号发送和接收。以及，红外接收器，可用于接收控制装置100(如：红外遥控器等)红外控制信号的接口器。

检测器240，是显示设备200用于采集外部环境或与外部交互的信号。检测器240包括光接收器242，用于采集环境光线强度的传感器，可以通过采集环境光可以自适应性显示参数变化等。

以及包括图像采集器241，如相机、摄像头等，可以用于采集外部环境场景，以及用于采集用户的属性或与用户交互手势，可以自适应变化显示参数，也可以识别用户手势，以实现与用户之间互动的功能。

在其他一些示例性实施例中，检测器240，还可温度传感器等，如通过感测环境温度，显示设备200可自适应调整图像的显示色温。如当温度偏高的环境时，可调整显示设备200显示图像色温偏冷色调，或当温度偏低的环境时，可以调整显示设备200显示图像偏暖色调。

在其他一些示例性实施例中，检测器240，还可声音采集器等，如麦克风，可以用于接收用户的声音，包括用户控制显示设备200的控制指令的语音信号，或采集环境声音，用于识别环境场景类型，显示设备200可以自适应适应环境噪声。

输入/输出接口250，在控制器210的控制显示设备200与外部其他设备间数据传输。如接收外部设备的视频信号和音频信号、或命令指令等数据。

其中，输入/输出接口250可以包括，但不限于如下：可以高清多媒体接口HDMI接口251、模拟或数据高清分量输入接口253、复合视频输入接口252、USB输入接口254、RGB端口(图中未示出)等任一个或多个接口。

在其他一些示例性实施例中，输入/输出接口250也可以上述多个接口形成复合性的输入/输出接口。

调谐解调器220，通过有线或无线接收方式接收广播电视信号，可以进行放大、混频和谐振等调制解调处理，从多个无线或有线广播电视信号中解调出用户所选择电视频道频率中所携带的电视音视频信号，以及EPG数据信号。

调谐解调器220，可根据用户选择，以及由控制器210控制，响应用户选择的电视信号频率以及该频率所携带的电视信号。

调谐解调器220，可以接收信号的途径，根据电视信号广播制式不同，有很多种，诸如：地面广播、有线广播、卫星广播或互联网广播信号等；以及根据调制类型不同，可以数字调制，也可以模拟调制方式。根据接收电视信号种类不同，可以模拟信号和数字信号。

在其他一些示例性实施例中，调谐解调器220也可在外置设备中，如外置机顶盒等。这样，机顶盒通过调制解调后输出电视音视频信号，经过输入/输出接口250输入显示设备200中。

视频处理器260-1，用于将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等等视频处理，可得到直接可显示设备200上显示或播放的信号。

示例的，视频处理器260-1，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。

其中，解复用模块，用于对输入音视频数据流进行解复用处理，如输入MPEG-2，则解复用模块进行解复用成视频信号和音频信号等。

视频解码模块，则用于对解复用后的视频信号进行处理，包括解码和缩放处理等。

图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。

帧率转换模块，用于对转换输入视频帧率，如将60Hz帧率转换为120Hz帧率或240Hz帧率，通常的格式采用如插帧方式实现。

显示格式化模块，则用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

音频处理器260-2，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

在其他一些示例性实施例中，视频处理器260-1可以包括一颗或多颗芯片组成。音频处理器260-2，也可以包括一颗或多颗芯片组成。

以及，在其他一些示例性实施例中，视频处理器260-1和音频处理器260-2，可以单独的芯片，也可以于控制器210一起集成在一颗或多颗芯片中。

音频输出272，在控制器210的控制下接收音频处理器260-2输出的声音信号，如：扬声器272，以及除了显示设备200自身携带的扬声器272之外，可以输出至外接设备的发生装置的外接音响输出端子274，如：外接音响接口或耳机接口等。

供电电源，在控制器210控制下，将外部电源输入的电力为显示设备200提供电源供电支持。供电电源可以包括安装显示设备200内部的内置电源电路，也可以是安装在显示设备200外部电源，在显示设备200中提供外接电源的电源接口。

用户输入接口，用于接收用户的输入信号，然后，将接收用户输入信号发送给控制器210。用户输入信号可以是通过红外接收器接收的遥控器信号，可以通过网络通信模块接收各种用户控制信号。

示例的，用户通过遥控器100或移动终端300输入用户命令，用户输入接口则根据用户的输入，显示设备200则通过控制器210响应用户的输入。

在一些实施例中，用户可在显示器280上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

控制器210，通过存储在存储器290上中各种软件控制程序，来控制显示设备200的工作和响应用户的操作。

如图2所示，控制器210包括RAM213和ROM214以及图形处理器216、CPU处理器212、通信接口218，如：第一接口218-1到第n接口218-n，以及通信总线。其中，RAM213和ROM214以及图形处理器216、CPU处理器212、通信接口218通过总线相连接。

ROM213，用于存储各种系统启动的指令。如在收到开机信号时，显示设备200电源开始启动，CPU处理器212运行ROM中系统启动指令，将存储在存储器290的操作系统拷贝至RAM213中，以使开始运行启动操作系统。当操作系统启动完成后，CPU处理器212再将存储器290中各种应用程序拷贝至RAM213中，然后，开始运行启动各种应用程序。

图形处理器216，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象。以及包括渲染器，产生基于运算器得到的各种对象，进行渲染的结果显示在显示器280上。

CPU处理器212，用于执行存储在存储器290中操作系统和应用程序指令。以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。

在一些示例性实施例中，CPU处理器212，可以包括多个处理器。多个处理器可包括一个主处理器以及多个或一个子处理器。主处理器，用于在预加电模式中执行显示设备200一些操作，和/或在正常模式下显示画面的操作。多个或一个子处理器，用于在待机模式等状态下一种操作。

控制器210可以控制显示设备100的整体操作。例如：响应于接收到用于选择在显示器280上显示UI对象的用户命令，控制器210便可以执行与由用户命令选择的对象有关的操作。

其中，所述对象可以是可选对象中的任何一个，例如超链接或图标。与所选择的对象有关操作，例如：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。用于选择UI对象用户命令，可以是通过连接到显示设备200的各种输入装置(例如，鼠标、键盘、触摸板等)输入命令或者与由用户说出语音相对应的语音命令。

存储器290，包括存储用于驱动显示设备200的各种软件模块。如：存储器290中存储的各种软件模块，包括：基础模块、检测模块、通信模块、显示控制模块、浏览器模块、和各种服务模块等。

其中，基础模块用于产后护理显示设备200中各个硬件之间信号通信、并向上层模块发送处理和控制信号的底层软件模块。检测模块用于从各种传感器或用户输入接口中收集各种信息，并进行数模转换以及分析管理的管理模块。

例如：语音识别模块中包括语音解析模块和语音指令数据库模块。显示控制模块用于控制显示器280进行显示图像内容的模块，可以用于播放多媒体图像内容和UI界面等信息。通信模块，用于与外部设备之间进行控制和数据通信的模块。浏览器模块，用于执行浏览服务器之间数据通信的模块。服务模块，用于提供各种服务以及各类应用程序在内的模块。

同时，存储器290还用存储接收外部数据和用户数据、各种用户界面中各个项目的图像以及焦点对象的视觉效果图等。

图3中示例性示出了根据示例性实施例中控制设备100的配置框图。如图3所示，控制设备100包括控制器110、通信接口130、用户输入/输出接口140、存储器190、供电电源180。

控制设备100被配置为控制显示设备200，以及可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。如：用户通过操作控制设备100上频道加减键，显示设备200响应频道加减的操作。

在一些实施例中，控制设备100可是一种智能设备。如：控制设备100可根据用户需求安装控制显示设备200的各种应用。

在一些实施例中，如图1所示，移动终端300或其他智能电子设备，可在安装操控显示设备200的应用之后，可以起到控制设备100类似功能。如：用户可以通过安装应用，在移动终端300或其他智能电子设备上可提供的图形用户界面的各种功能键或虚拟按钮，以实现控制设备100实体按键的功能。

控制器110包括处理器112和RAM113和ROM114、通信接口218以及通信总线。控制器110用于控制控制设备100的运行和操作，以及内部各部件之间通信协作以及外部和内部的数据处理功能。

通信接口130在控制器110的控制下，实现与显示设备200之间控制信号和数据信号的通信。如：将接收到的用户输入信号发送至显示设备200上。通信接口130可包括WiFi芯片、蓝牙模块、NFC模块等其他近场通信模块中至少之一种。

用户输入/输出接口140，其中，输入接口包括麦克风141、触摸板142、传感器143、按键144等其他输入接口中至少一者。如：用户可以通过语音、触摸、手势、按压等动作实现用户指令输入功能，输入接口通过将接收的模拟信号转换为数字信号，以及数字信号转换为相应指令信号，发送至显示设备200。

输出接口包括将接收的用户指令发送至显示设备200的接口。在一些实施例中，可以红外接口，也可以是射频接口。如：红外信号接口时，需要将用户输入指令按照红外控制协议转化为红外控制信号，经红外发送模块进行发送至显示设备200。再如：射频信号接口时，需将用户输入指令转化为数字信号，然后按照射频控制信号调制协议进行调制后，由射频发送端子发送至显示设备200。

在一些实施例中，控制设备100包括通信接口130和输出接口中至少一者。控制设备100中配置通信接口130，如：WiFi、蓝牙、NFC等模块，可将用户输入指令通过WiFi协议、或蓝牙协议、或NFC协议编码，发送至显示设备200。

存储器190，用于在控制器110的控制下存储驱动和控制控制设备200的各种运行程序、数据和应用。存储器190，可以存储用户输入的各类控制信号指令。

供电电源180，用于在控制器110的控制下为控制设备100各元件提供运行电力支持。可以电池及相关控制电路。

图4中示例性示出了根据示例性实施例中显示设备200功能配置示意图。如图4所示，存储器290用于存储操作系统、应用程序、内容和用户数据等，在控制器210控制下执行驱动显示设备200的系统运行以及响应用户的各种操作。存储器290可以包括易失性和/或非易失性存储器。

存储器290，具体用于存储驱动显示设备200中控制器210的运行程序，以及存储显示设备200内置各种应用程序，以及用户从外部设备下载的各种应用程序、以及与应用相关各种图形用户界面，以及与图形用户界面相关的各种对象，用户数据信息，以及各种支持应用的内部数据。存储器290用于存储OS内核、中间件和应用等系统软件，以及存储输入的视频数据和音频数据、及其他用户数据。

存储器290具体用于存储音视频处理器260-1和260-2、显示器280、通信接口230、调谐解调器220、检测器240输入/输出接口等驱动程序和相关数据。

在一些实施例中，存储器290可以存储软件和/或程序，用于表示操作系统(OS)的软件程序包括，例如：内核、中间件、应用编程接口(API)和/或应用程序。示例性的，内核可控制或管理系统资源，或其它程序所实施的功能(如所述中间件、API或应用程序)，以及内核可以提供接口，以允许中间件和API，或应用访问控制器，以实现控制或管理系统资源。

示例的，存储器290，包括广播接收模块2901、频道控制模块2902、音量控制模块2903、图像控制模块2904、显示控制模块2905、音频控制模块2906、外部指令识别模块2907、通信控制模块2908、光接收模块2909、电力控制模块2910、操作系统2911、以及其他应用程序2912、浏览器模块等等。控制器210通过运行存储器290中各种软件程序，来执行诸如：广播电视信号接收解调功能、电视频道选择控制功能、音量选择控制功能、图像控制功能、显示控制功能、音频控制功能、外部指令识别功能、通信控制功能、光信号接收功能、电力控制功能、支持各种功能的软件操控平台、以及浏览器功能等其他应用。

图5a中示例性示出了根据示例性实施例中显示设备200中软件系统的配置框图。

如图5a中所示，操作系统2911，包括用于处理各种基础系统服务和用于实施硬件相关任务的执行操作软件，充当应用程序和硬件组件之间完成的数据处理的媒介。一些实施例中，部分操作系统内核可以包含一系列软件，用以管理显示设备硬件资源，并为其他程序或软件代码提供服务。

其他一些实施例中，部分操作系统内核可包含一个或多个设备驱动器，设备驱动器可以是操作系统中的一组软件代码，帮助操作或控制显示设备关联的设备或硬件。驱动器可以包含操作视频、音频和/或其他多媒体组件的代码。示例的，包括显示屏、摄像头、Flash、WiFi和音频驱动器。

其中，可访问性模块2911-1，用于修改或访问应用程序，以实现应用程序的可访问性和对其显示内容的可操作性。

通信模块2911-2，用于经由相关通信接口和通信网络与其他外设的连接。

用户界面模块2911-3，用于提供显示用户界面的对象，以供各应用程序可访问，可实现用户可操作性。

控制应用程序2911-4，用于可控制进程管理，包括运行时间应用程序等。

事件传输系统2914，可在操作系统2911内或应用程序2912中实现，以一些实施例中，一方面在操作系统2911内实现，同时在应用程序2912中实现，用于监听各种用户输入事件，将根据各种事件指代响应各类事件或子事件的识别结果，而实施一组或多组预定义的操作的处理程序。

其中，事件监听模块2914-1，用于监听用户输入接口输入事件或子事件。

事件识别模块2914-1，用于对各种用户输入接口输入各类事件的定义，识别出各种事件或子事件，且将其传输给处理用以执行其相应一组或多组的处理程序。

其中，事件或子事件，是指显示设备200中一个或多个传感器检测的输入，以及外界控制设备(如控制设备100等)的输入。如：语音输入各种子事件，手势识别的手势输入，以及控制设备的遥控按键指令输入的子事件等。示例的，遥控器中一个或多个子事件包括多种形式，包括但不限于按键按上/下/左右/、确定键、按键按住等中一个或组合。以及非实体按键的操作，如移动、按住、释放等操作。

界面布局管理器2913，直接或间接接收来自于事件传输系统2914监听到各用户输入事件或子事件，用于更新用户界面的布局，包括但不限于界面中各控件或子控件的位置，以及容器的大小或位置、层级等与界面布局相关各种执行操作。

如图5b中所示，应用程序层2912包含也可在显示设备200执行的各种应用程序。应用程序可包含但不限于一个或多个应用程序，如：直播电视应用程序、视频点播应用程序、媒体中心应用程序、应用程序中心、游戏应用等。

直播电视应用程序，可以通过不同的信号源提供直播电视。例如，直播电视应用程可以使用来自有线电视、无线广播、卫星服务或其他类型的直播电视服务的输入提供电视信号。以及，直播电视应用程序可在显示设备200上显示直播电视信号的视频。

视频点播应用程序，可以提供来自不同存储源的视频。不同于直播电视应用程序，视频点播提供来自某些存储源的视频显示。例如，视频点播可以来自云存储的服务器端、来自包含已存视频节目的本地硬盘储存器。

媒体中心应用程序，可以提供各种多媒体内容播放的应用程序。例如，媒体中心，可以为不同于直播电视或视频点播，用户可通过媒体中心应用程序访问各种图像或音频所提供服务。

应用程序中心，可以提供储存各种应用程序。应用程序可以是一种游戏、应用程序，或某些和计算机系统或其他设备相关但可以在智能电视中运行的其他应用程序。应用程序中心可从不同来源获得这些应用程序，将它们储存在本地储存器中，然后在显示设备200上可运行。

图6中示例性示出了根据示例性实施例中显示设备200中用户界面的示意图。如图6所示，用户界面包括多个视图显示区示例的，第一视图显示区201和第二视图显示区202，各个视图显示区中包括布局一个或多个不同项目。以及用户界面中还包括指示任一项目被选择的选择器，可通过用户输入而移动选择器的位置，以改变选择不同的项目。

需要说明的是，多个视图显示区可以是可视的界线，也可以是不可视的界线。如：可通过各视图显示区的背景颜色不同标识不同视图显示区，还可以通过边界线等可视的标识，也可以有不可视的隐形边界。也可以不存在可视的或非可视的边界，而仅在屏幕上显示一定范围区域中相关联项目，具有尺寸和/或排布相同改变属性时，而该一定范围区域则被视同一种视图分区的边界的存在，如：视图显示区201中项目同时缩小或放大，而视图显示区202的变化不同。

其中，一些实施例中，第一视图显示区201为可缩放视图显示。″可缩放″，可以表示第一视图显示区201在屏幕上尺寸或占比是可缩放的，或第一视图显示201中项目在屏幕上尺寸或占比是可缩放的。第一视图显示区201为滚动视图显示区，其可通过用户输入而滚动更新在屏幕中显示项目的数量。

″项目″是指在显示设备200中用户界面的各视图显示区中显示以表示，诸如图标、缩略图、视频剪辑等对应内容的视觉对象。例如：项目可以表示电影、电视剧的图像内容或视频剪辑、音乐的音频内容、应用程序，或其他用户访问内容历史信息。

一些实施例中，″项目″可显示图像缩略图。如：当项目为电影或电视剧时，项目可显示为电影或电视剧的海报。如项目为音乐时，可显示音乐专辑的海报。如项目为应用程序时，可显示为应用程序的图标，或当应用程序被执行最近执行时捕捉到应用程序的内容截图。如项目为用户访问历史时，可显示为最近执行过程中内容截图。″项目″可显示为视频剪辑。如：项目为电视或电视剧的预告片的视频剪辑动态画面。

此外，项目可以表示显示设备200与外接设备连接的接口或接口集合显示，或可表示连接至显示设备的外部设备名称等。如：信号源输入接口集合、或HDMI接口、USB接口、PC端子接口等。

本申请的一些实施例提供的智能电视中，控制器可被配置为：响应于来自用户输入接口的音视频查询请求，发送包含关键词的查询指令给服务器，并接收服务器发送的媒资信息及回复文本，控制显示器在用户交互界面上的第一区域展示媒资信息(媒体资源信息，比如URL)，在用户交互界面上的第二区域展示所述回复文本，比如在图6所示的界面中的视图显示区201中显示回复文本，在视图显示区202中显示媒资信息。其中，所述服务器被配置为响应于接收到所述查询指令根据所述关键词确定对应的目标音视频的媒资信息，并根据所述关键词生成回复文本，所述服务器被配置为响应于至少两次相同的音视频查询请求时，回复文本的内容存在随机性。该智能电视可根据上述配置执行相应的方法。

其中，至少两次相同的音视频查询请求，是指查询相同的目标音视频，该至少两次音视频查询请求的文本内容可完全相同或不完全相同。所述服务器被配置为响应于前后相邻两次相同的音视频查询请求时，回复文本的内容存在随机性，是指：至少两次相同的音视频查询请求对应的回复文本的内容不同，或至少两次相同的音视频查询请求对应的回复文本的内容有一定的概率不相同。

举例来说，当前后相邻两次进行相同的音视频查询时，所得到的回复文本的内容存在随机性，也就是说，该两次得到的回复文本的内容可能不完全相同，该不同可体现在以下几个方面中的至少一个方面上：表述方式(比如陈述句，反问句等)，回复文本中单词的语序，回复文本包含的单词数量(回复文本的长短)，回复文本中包含的语气词、情感词等。

可选地，上述根据关键词生成回复文本，可包括：可响应于接收到所述查询指令根据所述关键词获取与所述关键词对应的属性信息，并根据多个预设模板中随机选出的一个预设模板和所述属性信息生成回复文本；或者，响应于接收到所述查询指令根据所述关键词获取与所述关键词对应的属性信息，并在根据所述属性信息生成的多个候选回复文本中筛选出一个作为发送给所述显示器的回复文本。

本申请的另一些实施例提供的智能电视中，控制器可被配置为：响应于来自用户输入接口的音视频查询请求，发送包含关键词的查询指令给服务器，接收所述服务器发送的所述媒资信息及回复文本；并控制显示器在用户交互界面上的第一区域展示所述媒资信息，在用户交互界面上的第二区域展示所述回复文本，比如在图6所示的界面中的视图显示区201中显示回复文本，在视图显示区202中显示媒资信息。其中，所述服务器被配置为响应于接收到所述查询指令根据所述关键词确定对应的目标音视频的媒资信息，所述服务器还被配置为响应于接收到所述查询指令根据所述关键词获取与所述关键词对应的属性信息，并根据多个预设模板中随机选出的一个预设模板和所述属性信息生成回复文本，所述回复文本被配置为响应于前后相邻两次相同的音视频查询请求时所述回复文本的内容存在随机性。该智能电视可根据上述配置执行相应的方法。

可选地，上述智能电视中的控制器还可在接收服务器发送的所述媒资信息及所述回复文本之后，控制智能电视的扬声器输出和所述回复文本相对应的音频。

本申的另一些实施例提供的智能电视中，控制器可被配置为响应于来自所述用户输入接口的音视频查询请求，发送包含关键词的查询指令给服务器，接收服务器发送的媒资信息及回复文本，控制显示器在用户交互界面上的第一区域展示所述媒资信息，在所述用户交互界面上的第二区域展示所述回复文本，比如在图6所示的界面中的视图显示区201中显示回复文本，在视图显示区202中显示媒资信息。其中，所述服务器被配置为响应于接收到所述查询指令根据所述关键词确定对应的目标音视频的媒资信息，所述服务器还被配置为响应于接收到所述查询指令根据所述关键词获取与所述关键词对应的属性信息，并根据多个预设模板中随机选出的一个预设模板和所述属性信息生成回复文本，所述回复文本被配置为响应于前后相邻两次相同的音视频查询请求时，所述回复文本的内容不同。该智能电视可根据上述配置执行相应的方法。

在本申请的另外一些实施例提供的智能电视中，控制器可被配置为：响应于来自用户输入接口的音视频查询请求，发送包含关键词的查询指令给服务器，接收服务器发送的媒资信息及回复文本，并控制显示器在用户交互界面上的第一区域展示所述媒资信息，在用户交互界面上的第二区域展示所述回复文本，比如在图6所示的界面中的视图显示区201中显示回复文本，在视图显示区202中显示媒资信息。其中，所述服务器被配置为响应于接收到所述查询指令根据所述关键词确定对应的目标音视频的媒资信息，所述服务器还被配置为响应于接收到所述查询指令根据所述关键词获取与所述关键词对应的属性信息，并在根据所述属性信息生成的多个候选回复文本中筛选出的一个作为回复文本反馈给所述智能电视，所述回复文本被配置为响应于前后相邻两次相同的音视频查询请求时，所述回复文本的内容存在随机性。该智能电视可根据上述配置执行相应的方法。

本申请实施例提供的服务器可以与上述智能电视进行交互，以便根据智能电视的查询指令向智能电视提供回复问题。具体地，该服务器可被配置为执行以下操作：接收智能电视发送包含关键词的查询指令，响应于接收到所述查询指令，根据所述关键词确定对应的目标音视频的媒资信息，以及，根据所述关键词获生成回复文本，发送媒资信息及所述回复文本给所述智能电视，以使得所述智能电视在用户交互界面上的第一区域展示所述媒资信息，在所述用户交互界面上的第二区域展示所述回复文本。其中，所述回复文本被配置为响应于前后相邻两次相同的音视频查询请求时，所述回复文本的内容存在随机性。

为了使得响应前后相邻两次相同的音视频查询请求所得到的回复文本的内容存在一定随机性，服务器可执行以下操作中的一种：

操作1：响应于接收到所述查询指令根据所述关键词获取与所述关键词对应的属性信息，并根据多个预设模板中随机选出的一个预设模板和所述属性信息生成回复文本。

具体地，可将所述属性信息输入预设模型(以下称为回复文本生成模型)以生成回复文本，所述预设模型被配置为包含多个预设模板，根据多个预设模板中选出的一个预设模板和输入的所述属性信息生成回复文本。

操作2：响应于接收到所述查询指令根据所述关键词获取与所述关键词对应的属性信息，并在根据所述属性信息生成的多个候选回复文本中筛选出一个作为发送给显示器的回复文本。

具体地，可将所述属性信息输入预设模型(即回复文本生成模型)，所述预设模型被配置为根据输入的所述属性信息和预置的多个模板生成多个候选回复文本，并在生成的多个候选回复文本中筛选出一个所述回复文本。

根据本申请的上述实施例，服务器可基于回复文本生成模型并利用目标音视频的属性信息生成回复文本。其中，回复文本生成模型基于训练得到的回复文本生成模板生成回复文本。下面对此进行详细描述。

本申请的实施例中，服务器可以使用训练好的回复文本生成模型，将所查询到的目标音视频的属性信息作为该模型的输入，该模型的输出即为回复文本。

其中，音视频的属性信息可包括音视频名称，主演名称，导演名称，上映时间，发行地区，影片类型，角色名称，剧情信息，评价信息，经典台词，主题曲名称中的至少一种或组合。

上述音视频的属性信息可划分为固有属性信息和辅助信息。

所述固有属性信息也可称为基本信息，用于描述音视频的基本属性，是客观存在的信息。以电影作品为例，一部电影作品的固有属性信息可包括该电影作品的影片名称、主演姓名、导演姓名、影片类型(比如剧情片、爱情片或灾难片)、发行地区、上映时间等。以音乐作品为例，一部音乐作品的固有属性信息可包括该音乐作品的音乐名、作词者、作曲者、发行时间、音乐风格、主题等。

以影视作品为例，其属性信息(固有属性信息)，还可包括以下内容之一或任意组合：

-剧情关键词，可采用关键词提取算法(比如TF-IDF算法)从剧情简介中提取关键词；

-经典台词；

-主题曲信息，比如主题曲名称；

-角色的名称。

音视频的固有属性信息可从多种途径获得，以影视作品为例，比如可从影视作品信息数据库或者影视作品相关的知识库获得。

仍以影视作品为例，对于即将上映或刚刚上映的影片，影视作品信息数据库或影视作品相关的知识库中可能还没有该影片的相关数据。本申请的一些实施例中，对于此类影视作品，可以从影视作品的预告信息(包括预告片)、宣传信息(包括宣传片、网络媒体宣传中的信息)或发布信息(比如发布会上公开的发布信息)等途径或来源，获得该影视作品的相关信息，以建立该影视作品的结构化数据。其中，从上述途径或来源所获得的影视作品相关的信息，具体可包括影片名称、主演姓名、导演姓名、影片类型、发行地区、上映时间等，还可能包括该影片的以下信息：角色名、剧情关键词、情感词、经典台词、主题曲名等。

音视频的属性信息还可包括辅助信息。可选地，音视频的辅助信息中包括对该音视频的评价信息。可选地，对音视频的评价信息，可包括情感词，进一步地还可包括语气加强词。其中，所述情感词包括用于描述用户对音视频的主观感受、评价等的单词或短语，比如″喜欢″″震撼″″经典″″感动″等。所述语气加强词包括用于描述用户对音视频的主观感受程度的单词或短语，比如″最″″依然″″不能自已″等。

对音视频的评价信息可来自于网络上对音视频作品的介绍、评价、观后感等。比如，可以从网络中获取针对某部影视作品的影视评论，对该影评进行分词，提取其中描述用户感受的形容词、语气加强词等作为该影视作品的辅助信息，并将其添加到该影视作品的属性信息中。

可选地，可以从以下几个方面提取评价信息(比如情感词)：

剧情方面：比如，″刺激″″剧情精彩″″剧情细腻″″真实″等；

情感方面：比如，″笑中带泪″″情感丰富″″细腻情感″″温暖感动″等；

演技方面：比如，″演员演技不错″″演员演技精湛″″表演非常细腻″″演技在线″等；画面方面：比如，″画面精致″″精致大气″″唯美的画面″″画面细腻″等；

节奏方面：比如，″节奏循序渐进″″节奏紧凑″″节奏流畅紧凑″″紧凑丰满″等；

特效方面：比如，″特效惊艳″″特效特别酷″″特效一级棒″″特效很棒″等；

角色方面：比如，″角色刻画极佳″″角色性格鲜明″″角色特别鲜明″″角色很吸粉″等；

配乐方面：比如，″歌曲好听″″配乐动听″″馨的配乐″″好听又衬景″等。

以下以几个例子说明如何从影评中提取评价信息：

示例1：针对影片A的影评包括：″素人式的表演和巧妙的结构，朴实与炫技达成和谐″″挺好看的″″制作相当棒″，可从这些影评中提取″巧妙″″朴实″″和谐″″好看″″棒″作为该影片的情感词，提取″挺″″相当″作为语气加强词；

示例2：针对影片B的影评包括：″重温小刚一家和大猩猩的故事，温馨的破山洞和超级温暖的dadaji″″从动物权利的角度提倡严格素食包括不适用动物制品衣物等，内容真的太惊心动魄了″，可从这些影评中提取″温馨″″温暖″″惊心动魄″作为该影片的情感词，提取″超级″″真的″″太″作为语气加强词。

本申请实施例中的音视频的属性信息，可存储为结构化数据。表1示例性示出了本申请实施例中的一个影视作品的结构化数据。

表1、影视作品的结构化数据(音视频的属性信息)

基于以上音视频的结构化数据(属性信息)，本申请实施例中，在对用于生成回复文本的模型进行训练时，以及在根据查询指令使用该模型生成回复文本时，均使用包含上述内容的音视频结构化数据，从而使得根据该模型训练得到的模板中能够包含更丰富的信息，进而使得基于该模板生成的回复文本内容更加丰富，从而提高对用户的吸引力。

举例来说，将从影视作品的影评中提取的情感词添加到音视频的结构化数据中，可使得生成的回复文本内容更加丰富；将语气加强词添加到音视频的结构化数据中，可使得生成的回复文本内容更有感情；将经典台词添加到音视频的结构化数据中，可使得生成的回复文本能够引起用户共鸣，从而吸引用户观看；将主题曲名添加到音视频的结构化数据中，可使得生成的回复文本能够表现影片的精髓，进而吸引用户观看。

可选地，本申请实施例中，可为每个音视频的结构化数据(属性信息)建立索引，比如ElasticSearch索引(ElasticSearch是一个分布式、高扩展、高实时的搜索与数据分析引擎)，以便在接收到包含还有关键词的查询指令后，根据该关键词，通过该索引快速查询到目标音视频的结构化数据(属性信息)。

本申请实施例中，可通过模型训练的方式获得用于生成回复文本的模板，当服务器接收到包含有关键词的查询指令后，可将用户请求查询的目标音视频的属性信息作为模型的输入，使得该模型根据预先训练得到的回复模板生成回复文本。

本申请实施例中，在设置用于模型训练的样本时，考虑到最终生成的回复文本应该是灵活多变的，对于同一个输入(同一个音视频的结构化数据)，每次生成的回复文本可能需要包含该音视频的结构化数据中的某几个信息域的内容。为了构造训练样本集合，可对于每个音视频的结构化数据，采用人工标注方式获得对应的多个不同的回复文本作为训练样本，作为训练样本的每个回复文本的句式可以尽量丰富多变，比如可以是疑问句，如″想知道为什么要创造大白(大白为超级陆战队中的虚拟人物)吗？邀您观看影片《超级陆战队》″，作为训练样本的每个回复文本中可包含对应的音视频结构化数据中的部分信息域的内容。

可选地，采用人工标注方式获得作为训练样本回复文本的情况下，可针对作为训练样本的回复文本采用去语义预处理。在结构化的音视频属性信息中，如表1所示，可包括多个信息域(或称字段或field)，每个信息域(字段)具有唯一标识或序号，如：″主演_1：莱昂纳多·迪卡普里奥，主演_2：凯特·温丝莱特″。所述去语义处理，是指在回复文本中，将一些分段(比如音视频的名称、人名、角色名等所在的分段)替换为音视频的结构化数据中的相应信息域名称的标识(比如字段号)。去语义的预处理可以减少词汇表的大小，并提高模型的泛化能力，使其能够处理大多数影视名、人名、角色名和日期，而不仅仅是特定的一些影视名、人名、角色名和日期。

比如，人工标注的作为训练样本的回复文本为：″《神话》是由成龙和金喜善领衔主演的爱情电影，于2005年上映。请欣赏吧″。对于该回复文本，可替换为：″《作品名_1》是由主演_1和主演_2领衔主演的爱情电影，于2005年上映。请欣赏吧″。其中，″作品名_1″表示该影片的结构化数据中该影片的片名所在字段的字段号，″主演_1″表示该影片的结构化数据中男演员成龙的姓名所在字段的字段号，″主演_2″表示该影片的结构化数据中女演员金喜善的姓名所在字段的字段号。

再比如，一个给定的音视频的结构化数据为：

[影视名_1：泰坦尼克号，主演_1：莱昂纳多·迪卡普里奥，主演_2：凯特·温丝莱特，导演_1：詹姆斯·卡梅隆，上映时间_1：1997，影片类型_1：爱情]

对应于该结构化数据，人工方式标注的作为回复文本的自然语句为：

《泰坦尼克号》是一部由詹姆斯·卡梅隆导演，莱昂纳多·迪卡普里奥、凯特·温丝莱特主演的爱情片，于1997年上映。

通过去语义预处理，将上述语句中的″泰坦尼克号″，″莱昂纳多·迪卡普里奥″，″凯特·温丝莱特″，″詹姆斯·卡梅隆″和″1997″，替换为该影片的结构化属性信息中的相应信息域名称的标识：″影视名_1″，″主演1″，″主演2″，″导演_1″和″上映时间_1″。

本申请的实施例中，可建立回复文本生成模型，并基于训练样本对该模型进行训练，得到回复文本模板，后续可将用户请求查询的音视频的结构化数据(属性信息)输入该模型，使得该模型根据训练得到的回复文本模板生成对应的回复文本。

本申请实施例中，由于按照回复文本模板生成回复文本的方式，因此可使得生成的回复文本具有可控性和可解释性。其中，回复文本模板可基于链和基于内容相结合的混合注意力机制训练得到，从而可以保证基于该模板生成的回复文本的陈述更有先后逻辑性以及语句更流畅连贯。

本申请实施例中，回复文本生成模型可以使用适合片段建模的隐半马尔可夫模型(Hidden Semi-Markov Model，HSMM)，并且使用神经网络定义发射分布。隐半马尔可夫模型是统计模型，它用来描述一个合有隐含未知参数的马尔可夫过程。

其中，所述隐半马尔可夫模型中的神经网络使用了LSTM(Longshort termmemory，长短期记忆网络)，其中LSTM使用了基于链和内容相结合的混合注意力机制。以电影作品为例，在陈述一部电影作品时，一般会先说影视名再说它的主演是谁，再说它的类型，这些信息域的陈述一般符合一种先后关系，为了使得生成回复文本时陈述内容更有先后逻辑，可在使用一般的基于内容的注意力机制的同时，使用基于链的注意力机制。

具体地，图7示出了本申请实施例中神经网络和模板相结合的文本生成模型局部示意图，具体示出了是神经网络与模板相结合模型的神经网络部分。如图所示：针对候选单词，将LSTM分数(用于分类的softmax层的输入)与基于复制机制计算得到的该候选单词的复制分数相加，并对相加结果进一步进行标准化以获得候选单词的综合概率分布，根据候选单词的概率分布得到输出y(单词)。

下面结合图7进行详细说明。

(1)计算注意力向量。

图8示例性示出了本申请实施例中混合注意力机制的示意图。如图所示，C_i为域值嵌入，f_i为域名嵌入(即C_i为作为输入的音视频结构化数据中的信息域内容，f_i为作为输入的音视频结构化数据中的信息域名称)，LSTM的输入为域名和域值的拼接xi＝[f_i；C_i]。

混合注意力的计算方法为：

(i)根据音视频的结构化数据的结构(信息域)定义链矩阵

来建模一个信息域出现在另一信息域之前的概率。这个链矩阵中的每个元素

是从f_i转移到f_j的概率分数，其中f_i是第i个信息域名，

表示先说第i个信息域f_i再说第j个信息域f_j的概率。

(ii)根据上一次的混合注意力以及定义的链矩阵，计算基于链的注意力。基于链的注意力能够使得生成语句时陈述的更有先后逻辑。

基于链的注意力的计算公式为：

其中，

是模型参数的一部分，它通过反向传播得学习到。

和马尔科夫链的一个步骤中的转移矩阵类似。

(iii)根据音视频的结构化数据中各信息域的值(内容)，计算基于内容的注意力。基于内容的注意力使得同一个信息域的域值生成时更加合理流畅。

基于内容的注意力的计算公式为：

(iv)对基于链的注意力和基于内容的注意力进行加权求和，得到混合注意力。

混合注意力的计算公式为：

α_t ^hybrid＝P_t·α_t ^content+(1-P_t)·α_t ^link...................................[3]

其中，α_t ^hybrid表示混合注意力，α_t ^link为基于链的注意力，α_t ^content为基于内容的注意力，P_t为权值。

(v)混合注意力与隐藏表示h加权求和，得到注意力向量。

注意力向量的计算公式为：

其中，C为结构化数据中的信息域内容的总数。

(2)输出LSTM分数。

根据图7，经过A和B的处理，可得到LSTM分数。

具体地，在A处，根据以下公式计算得到X_t：

X_t＝tanh(W_d[α_t；h′_t]+b_d)..................................[5]

其中，tanh表示神经网络中的激活函数，α_t表示混合注意力向量，h′_t表示LSTM的状态，W_d为参数矩阵。b_d为偏置。

在B处，根据以下公式计算得到LSTM分数：

其中，

表示LSTM分数，W_s为参数矩阵。b_s为偏置。

(3)计算复制分数。

根据结构化数据中的信息域i的内容(即域值c_i)在编码器侧的隐藏表示h_i对该域值c_i进行评分，该评分用于表示在目标回复文本生成期间，域值c_i被直接复制的可能性。

其中，当一个单词出现在结构化数据中时，它具有如下复制分数：

其中，s_t，i是一个实数，i＝1，...，C表示在一个结构化数据中信息域内容的数量，W_c是参数矩阵，h′_t是解码状态，也即LSTM的状态。

如果域值c_i在结构化数据中多次出现，则复制分数通过如下方式计算：

其中，Π{c_i＝w}是一个布尔变量，表示域值c_i是否与正在考虑的候选单词w相同。

(4)根据LSTM分数和复制分数计算概率分布。

根据图7，在C处，按照以下公式计算候选单词的概率分布：

s_t(w)＝s_t ^LSTM(w)+s_t ^copy(w)...................................[9]

其中，P_t(w)为候选单词w的概率分布，s_t ^LSTM(w)为候选单词w的LSTM分数，s_t ^copy(w)为单词w的复制分数。v表示词汇表，C表示特定样本中的单词集合。通过这种方式，复制机制可以从词汇表中生成一个单词，也可以直接从结构化数据的信息域内容中复制一个单词。

这在具体场景中很有用，因为音视频的结构化数据中的某些信息域(例如，姓名)可能包含罕见或未见过的单词，复制机制可以自然地处理它们。

可选地，本申请的一些实施例中，基于模型进行回复文本模板的训练过程中，还可以采用覆盖(coverage)机制，以避免在回复文本中包含重复的内容。

图9示例性示出了使用混合注意力机制的神经网络和模板相结合的文本生成模型整体示意图。如图所示，z₁和z₂是隐状态。假设z₁处于第一状态，在发出三个单词后转移为第二状态。转移模型(显示为T)是两个状态和神经编码源x的函数。定义发射分布时使用了LSTM，LSTM使用了copy机制、混合注意力机制以及覆盖(coverage机制)。图中位于左侧的LSTM生成了单词y1、y2和y3。转移后，下一个单词y4由另一个LSTM(位于图中右侧的LSTM)生成，不依赖上一面生成的词。y1、y2和y3组成一个片段，一个片段可由一个或多个单词组成。

本申请实施例中，基于上述隐半马尔可夫模型，在得到回复文本的每个片段(segment)的概率分布后，每一个片段对应一个标签(latent-state)，形成一个标签序列，可将该标签序列作为一个文本回复模板，比如：

用标签序列表示的回复文本模板为：

z⁽ⁱ⁾＝55，59，12，3，...

其中，55，59，12，3表示对应的片段，如59代表的片段可以是″是一部″、″是部″或″是″等，59代表的片段中每个词都可以与其他片段组合使用。55所在位置是信息域名称″影视名_1″，12所在位置是信息域名称″导演名_1″。3所在位置可以是″导演″、″编导″或″指导″等。

如果″影视名_1″的内容为″《泰坦尼克号》″″导演名_1″的内容为″詹姆斯·卡梅隆″，则上述模板所表示的语句为：

[《泰坦尼克号》]₅₅[是一部]₅₉[詹姆斯·卡梅隆]₁₂[导演]₃...

基于上述模型训练得到的回复文本模板的数量可能较多，服务器在根据查询指令生成回复文本时，若使用训练得到的所有候选回复文本模板，则可能存在较大的处理时延。为解决该问题，本申请实施例中，在基于上述模型训练得到候选回复文本模板后，可从中选择出一定数量的模板，作为在根据查询指令生成回复文本时使用的模板。其中，所选取的模板的数量可以设置，比如选取100个回复文本模板。可以通过操纵这些文本回复模板来控制所生成的回复文本的句式。

基于上述一个或多个实施例的组合，图10示例性示出了本申请实施例中的一种模型训练方法流程。如图所示，按照设定周期执行以下操作：

S1001：收集音视频的相关信息并进行整合，得到音视频的结构化数据(属性信息)，并建立音视频结构化数据的ES索引。

其中，音视频的结构化数据所包含的内容以及内容来源，可参见前述实施例。

S1002：对有限个音视频的结构化数据进行回复文本的人工标注，得到用于训练回复文本生成模型的样本数据。

该步骤中，可以对有限个音视频，比如经典、热门或具有高评分的影视作品，进行回复文本生成标注，每个音视频可给出多个回复文本。

S1003：对人工标注的回复文本进行去语义预处理。

S1004：使用样本数据训练回复文本生成模型。

上述流程中各步骤的具体实现方式，可参见前述实施例，在此不再重复。

图11示例性示出了本申请实施例中的音视频查询流程。该流程可由智能设备(比如智能电视或智能音箱或智能手机等)执行，本实施例中，以智能电视执行该流程为例描述。

如图所示，该流程可包括：

S1100：智能电视接收到用户输入的音视频查询请求后，向服务器发送包含有关键词的查询指令。

该步骤中，用户可通过遥控器操作用户界面输入文本形式的音视频查询请求，也可通过语音方式输入音视频查询请求，该音视频查询请求中携带用于查询目标音视频的关键词，智能电视可提取查询关键词并向服务器发送包含有该关键词的查询指令。

可选地，智能电视可对音视频查询请求进行去燥(包括去除回声和环境噪声)，得到干净的查询请求文本后，再向服务器发送查询指令，其中可携带该查询请求文本。

本申请实施例中，对于用户输入的方式不作限制。比如，用户可通过语音方式输入音视频查询请求，也可通过遥控器在软键盘上进行信息输入。

S1101：服务器根据该查询指令中携带的关键词，查询目标音视频并获取所述目标音视频的属性信息。

该步骤中，服务器根据该查询关键词可以查询到对应的音视频的结构化数据(属性信息)。比如，以用户请求查询影视作品为例，查询指令中包合影视作品的名称，服务器提取该影视作品的名称后，可根据该影视作品的名称查询音视频数据库(该数据库用于存储音视频的属性信息)，得到目标影视作品的结构化数据(属性信息)。

可选地，如果预先对音视频的属性信息建立了ES索引，则可根据预先对目标音视频的属性信息建立的ES索引，获取该目标音视频的属性信息。

S1102：服务器根据查询指令中的关键词，获取目标音视频的资源信息。

其中，目标音视频的资源信息可包括目标音视频的URI(Uniform ResourceIdentifier，通一资源标志符)等信息。

S1103：服务器根据基于回复文本生成模型所训练得到的回复文本模板，利用所述目标音视频的属性信息生成回复文本。

其中，回复文本生成模型的原理，具体可参见前述实施例。

S1104服务器将该回复文本以及查询到的媒体资源信息(媒资信息)发送给智能电视。

S1105：智能电视接收到回复文本以及媒资信息后，在用户交互界面上的第一区域展示所述媒资信息，在用户交互界面上的第二区域展示所述回复文本。进一步地，还可语音播报所述回复文本。

本申请实施例对上述流程各步骤的时序没有严格限定，比如，S1101也可以先于S1102执行，或者S1101和S1102并行执行。

本申请的一些实施例中，生成的回复文本的数量可以是一个，也可能是多个。比如，当选取多个回复文本模板用于生成回复文本的情况下，回复文本模型输出多个候选回复文本。

举例来说，基于回复文本生成模型所训练得到的回复文本模板，利用目标音视频的属性信息生成回复文本的方法，可包括：

选择一个训练得到的回复文本模板，该回复文本模板表示为：z⁽ⁱ⁾＝z₁ ⁽ⁱ⁾，...，z_s ⁽ⁱ⁾，其中，z_s ⁽ⁱ⁾表示在第i个回复文本模板中的第S个离散的分段，比如在图8中，如果y1、y2和y3构成一个分段，那么y4也是一个分段。根据目标音视频的结构化数据(属性信息)，通过下式获得回复文本：

如果有多个回复文本模板，则对于每个回复文本模板均按照上述方法生成对应的回复文本，从而得到多个候选回复文本。

针对模型生成多个候选回复文本的情况，可从该多个候选回复文本中选取其中一个作为需要语音播报给用户的回复文本。

可随机从多个候选回复文本中选取一个回复文本。也可根据预先配置的选择策略来选取，比如预先配置的选择策略为针对同一音视频的查询请求，以轮询方式从多个候选回复文本中选取一个回复文本。还可以根据评分策略对每个候选回复文本进行打分，并根据打分结果选择最优的一个回复文本，比如，所述评分策略可以考虑生成文本的通顺度、与影片主题的相关性，选取候选回复文本时选取分值高的回复文本。

举例来说，针对模型输出的多个候选回复文本，可分别根据候选回复文本中的评价信息所对应的分值，确定每个候选回复文本的分值，并根据每个候选回复文本的分值，从多个候选回复文本中选择一个回复文本。

更具体地，可根据候选回复文本中的情感词，查询评价词对应的分值；对于每个候选回复文本，将候选回复文本中的情感词的分值进行累加，得到候选回复文本对应的分值。

可选地，本申请的一些实施例中，使用回复文本生成模型生成回复文本时，还可采用集束搜索(Beam search)机制，以得到条件概率最大的生成序列。

具体地，采用集束搜索(Beam search)机制，在每一步根据候选单词的概率分布选取候选单词时，选取多个优选的候选单词，所选取的数量等于″集束宽″，并记录之前所有候选单词的累积得分，从而可以搜索到更接近整体最佳的序列。

以图9为例，一个LSTM生成一个片段，一个片段可能包含一个或者多个词，假如一个LSTM生成的片段包括多个词，则在每一词的生成时保留″集束宽″个侯选词，使得这个片段的整体概率分布最大。可用集束搜索对公式(11)中argmax进行近似。在LSTM解码过程中使用集束搜索，集束搜索在一个片段(y1y2y3)上进行。两步后，前一步的就只保留一个最优的。

本申请的一些实施例中，还可以进行去语义处理。去语义处理可包括模型训练前的处理、使用回复文本生成模型生成回复文本之前的处理，以及生成会话文本之后的处理。

(1)模型训练前的去语义处理

在模型训练前，可对作为训练样本的音视频结构化数据(属性信息)以及人工标注的回复文本进行去语义处理，比如，可将结构化数据中的作品名，人名(主演，导演)，角色名等替换为对应的信息域名称的标识(如带标号的字段)。

音视频的结构化数据(属性信息)的个信息域(field)值的下标均带有序号，如：″主演_1：莱昂纳多·迪卡普里奥，主演_2：凯特·温丝莱特″。去语义方法为：将结构化数据中的信息域内容(content)值中、及其人类标注自然语句中的具体作品名，人名(主演，导演)，角色名替换为对应的带标号的field。

例如，对于给定的结构化数据：[影视名_1：泰坦尼克号，主演_1：莱昂纳多·迪卡普里奥，主演_2：凯特·温丝莱特，导演_1：詹姆斯·卡梅隆，上映时间_1：1997，影片类型_1：爱情]，及其相应的人类标注自然语句″《泰坦尼克号》是一部由詹姆斯·卡梅隆导演，莱昂纳多·迪卡普里奥、凯特·温丝莱特主演的爱情片，于1997年上映。″，去语义的预处理模块将在结构化数据和相应的句子中分别将″泰坦尼克号″，″莱昂纳多·迪卡普里奥″，″凯特·温丝莱特″，″詹姆斯·卡梅隆″和″1997″替换为″影视名″，″actor主演1″，″actor主演2″，″director导演″和″time上映时间″。

(2)基于回复文本生成模型生成回复文本之前的去语义处理

在使用模型根据输入的音视频结构化数据(属性信息)输出回复文本之前，可对输入的音视频结构化数据(属性信息)进行去语义处理，比如，可将结构化数据中的作品名，人名(主演，导演)，角色名等替换为对应的信息域名称的标识(如带标号的字段)。

(3)生成回复文本后的处理

根据以上模型，所输出的回复文本中会包含一个或多个信息域名称的标识。针对包含有信息域名称标识的回复文本，可用目标音视频的结构化数据中相应信息域的内容，比如作品名，人名(主演，导演)，角色名等，去替换回复文本中的信息域名称标识。

举例来说，目标音视频的结构化数据为：

作品名_1：神话主演_1：成龙主演_2：金喜善导演_1：唐季礼类型_1：爱情上映时间_1：2005

模型生成的回复文本为：

《作品名_1》是由主演_1和主演_2领衔主演的爱情电影，于2005年上映。请欣赏吧。

根据上述回复文本中的字段号，使用目标音视频的结构化数据中相应信息域的内容进行替换后，得到如下回复文本：

《神话》是由成龙和金喜善领衔主演的爱情电影，于2005年上映。请欣赏吧。

去语义的预处理可以减少词汇表的大小，并提高模型的泛化能力。

可选地，为了进一步使得回复文本的表述更加生动，以吸引用户，本申请实施例中，在生成回复文本之后，可根据回复文本中的姓名与昵称的对应关系，将回复文本中的姓名替换为对应的昵称。其中，姓名与昵称的对应关系可以是预先设置的。比如，如果回复文本中包含有演员，歌手等影视人物的姓名，则可将其映射为他们为人熟知的昵称，从而使得回复文本的表述更加生动。

根据以上一个或多个实施例组合，图12a和图12b示例性示出了一种应用于智能电视时的示意图。

当用户通过语音方式说出″我想看电影群龙夺宝″后，智能电视向服务器发送查询指令，其中携带电影片名″群龙夺宝″。服务器响应于该查询指令，生成回复文本并检索到该电影的媒资信息，并将其返回给智能电视。智能电视收到服务器发送的回复文本以及媒资信息后，在用户界面上进行显示。如图12a所示，在用户界面的区域1001中显示用户输入的语音文本，以及从服务器接收到的回复文本″快和我一同欣赏香港佬动作片《群龙夺宝》，看刘德华非常精彩的打戏″，并在区域1002中显示该影片的媒资信息。

当用户通过语音方式再次说出″我想看电影群龙夺宝″后，智能电视向服务器发送查询指令，其中携带电影片名″群龙夺宝″。服务器响应于该查询指令，生成回复文本并检索到该电影的媒资信息，并将其返回给智能电视。智能电视收到服务器发送的回复文本以及媒资信息后，在用户界面上进行显示。如图12b所示，在用户界面的区域1001中显示用户输入的语音文本，以及从服务器接收到的回复文本″请您欣赏由刘德华主演的动作大片《群龙夺宝》，场面精彩，不容错过″，并在区域1002中显示该影片的媒资信息。

可以看出，服务器在生成回复文本时，对于前后两次相同的音视频查询请求，可生成不同内容的回复文本，从而可以提高用户感受。

综上所述，采用本申请的实施例，在响应用户的音视频查询请求时，可以使得生成的回复文本结果可控，具体地，通过改变回复文本模板，可以针对同一音视频的查询请求，得到不同的回复文本。并且，在响应用户的音视频查询请求时，还可以使得生成的回复文本可解释性好，因为离散状态与特定字段对齐一般很容易自动推断哪个字段和特定的潜在状态对应，这样用户可以选择最符合他们需求的模板。

由于本申请实施例中的通信终端和计算机存储介质可以应用于上述处理方法，因此，其所能获得的技术效果也可参考上述方法实施例，本申请的实施例在此不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

虽然以上描述了本申请的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本申请的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本申请的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本申请的保护范围。

Claims

1.一种智能电视，其特征在于，包括：

用户输入接口，被配置为接收来自用户的输入；

显示器，被配置为展示用户交互界面；

接收所述服务器发送的所述媒资信息及所述回复文本；

2.如权利要求1所述的智能电视，其特征在于，所述服务器还被配置为：

响应于前后两次相同的音视频查询请求时回复文本的内容存在随机性。

3.如权利要求2所述的智能电视，其特征在于，所述根据所述关键词生成回复文本包括：

响应于接收到所述查询指令根据所述关键词获取与所述关键词对应的属性信息，并根据多个预设模板中随机选出的一个预设模板和所述属性信息生成回复文本；或

响应于接收到所述查询指令根据所述关键词获取与所述关键词对应的属性信息，并在根据所述属性信息生成的多个候选回复文本中筛选出一个作为发送给所述智能电视的回复文本。

4.如权利要求1所述的智能电视，所述智能电视还包括扬声器，其特征在于，所述控制器还被配置为：

在接收服务器发送的所述媒资信息及所述回复文本之后，控制所述扬声器输出和所述回复文本相对应的音频。

5.如权利要求1-4中任一项所述的智能电视，其特征在于，所述前后两次相同的音视频查询请求时回复文本的内容存在随机性，包括：

前后两次相同的音视频查询请求时回复文本的内容不同。

6.一种智能电视，其特征在于，包括：

用户输入接口，被配置为接收来自用户的输入；

显示器，被配置为展示用户交互界面；

接收所述服务器发送的所述媒资信息及所述回复文本；

7.一种智能电视，其特征在于，包括：

用户输入接口，被配置为接收来自用户的输入；

显示器，被配置为展示用户交互界面；

接收服务器发送的所述媒资信息及所述回复文本；

8.一种智能电视，其特征在于，包括：

用户输入接口，被配置为接收来自用户的输入；

显示器，被配置为展示用户交互界面；

接收服务器发送的所述媒资信息及所述回复文本；

9.一种服务器，其特征在于：所述服务器被配置为：

接收智能电视发送包含关键词的查询指令；

10.如权利要求9所述的服务器，其特征在于，所述根据所述关键词生成回复文本包括：

响应于接收到所述查询指令根据所述关键词获取与所述关键词对应的属性信息，并根据多个预设模板中随机选出的一个预设模板和所述属性信息生成回复文本，其中，所述预设模板是利用包含有评价信息的音视频属性信息训练得到的模板；或

11.如权利要求10所述的服务器，其特征在于，所述根据所述关键词获取与所述关键词对应的目标音视频的属性信息包括：

根据所述关键词在预设数据库中获取与关键词对应的目标音视频，并获取所述目标音视频的属性信息，或

根据所述关键词确定所述关键词对应的所述目标音视频，并在网络上爬取所述目标音视频对应的属性信息，或

根据所述关键词确定所述关键词在预设数据库中获取和所述关键词对应的属性信息。

12.如权利要求11所述的服务器，其特征在于，所述属性信息包括：音视频名称，主演名称，导演名称，上映时间，发行地区，影片类型，角色名称，剧情信息，评价信息，经典台词，主题曲名称中的至少一种或组合。

13.如权利要求9所述的服务器，其特征在于，所述服务器还被配置为：

14.如权利要求13所述的服务器，其特征在于，所述前后两次相同的音视频查询请求时回复文本的内容存在随机性，包括：

前后两次相同的音视频查询请求对应的所述回复文本的内容不同；或

两次相同的音视频查询请求对应的所述回复文本的内容有一定的概率不相同。

15.如权利要求10所述的服务器，其特征在于，所述根据所述属性信息生成的多个候选回复文本中筛选出一个作为发送给所述智能电视的回复文本包括：

将所述属性信息输入预设模型，所述预设模型被配置为根据输入的所述属性信息和预置的多个模板生成多个候选回复文本，并在生成的多个候选回复文本中筛选出一个所述回复文本。

16.如权利要求15所述的服务器，其特征在于，所述在生成的多个候选回复文本中筛选出一个所述回复文本包括：

在所述多个候选回复文本中随机筛选出一个作为所述回复文本，或

在所述多个候选回复文本中按照预设规则筛选出一个作为所述回复文本，以使得相邻两次相同的查询指令分别对应包含不同内容的回复文本，或

对所述多个候选回复文本进行打分，筛选出得分最高的回复文本作为所述回复文本。

17.如权利要求16所述的服务器，其特征在于，所述对所述多个候选回复文本进行打分，筛选出得分最高的回复文本作为所述回复文本包括：

分别根据所述候选回复文本中的评价信息所对应的分值，确定每个候选回复文本的分值，并根据每个候选回复文本的分值，从所述多个候选回复文本中选择一个作为所述回复文本。

18.如权利要求17所述的服务器，其特征在于，所述评价信息包括用于表示对所述目标音视频主观感受的情感词，所述分别根据所述候选回复文本中的评价信息所对应的分值包括：

根据所述候选回复文本中的情感词，查询所述评价词对应的分值；

对于每个候选回复文本，将候选回复文本中的情感词的分值进行累加，得到候选回复文本对应的分值。

19.如权利要求9所述的服务器，其特征在于，所述目标音视频的评价信息，包括情感词和/或语气程度词。

20.如权利要求9所述的服务器，其特征在于，所述服务器被配置为：

生成回复文本之前，将所述目标音视频的属性信息中的部分信息域内容替换为相应的信息域名称标识，使得生成包含有信息域名称标识的回复文本；

生成包含有信息域名称标识的回复文本之后，将包含有信息域名称标识的回复文本中的信息域名称标识替换为所述目标音视频的属性信息中相应信息域的内容。