CN111625716B

CN111625716B - 媒资推荐方法、服务器及显示设备

Info

Publication number: CN111625716B
Application number: CN202010398721.8A
Authority: CN
Inventors: 赵明; 于松; 杨梅; 杨云龙; 林莉
Original assignee: Juhaokan Technology Co Ltd
Current assignee: Juhaokan Technology Co Ltd
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2023-10-31
Anticipated expiration: 2040-05-12
Also published as: CN111625716A

Abstract

本申请实施例提供了一种媒资推荐方法、服务器及显示设备，媒资推荐方法包括根据搜索请求获取用户输入的搜索标签；根据搜索标签查询标签文档，得到对应搜索标签的多个推荐媒资，其中，标签文档包括与搜索标签匹配的媒资标签，以及媒资标签的全局评分，媒资标签根据推荐媒资的媒资数据得到，全局评分根据多个推荐媒资的媒资数据得到，媒资数据包括视频数据、音频数据和文本描述数据；根据全局评分对多个推荐媒资进行排序，得到多个推荐媒资的推荐顺序。本申请根据媒资的视频数据、音频数据和文本描述数据对媒资进行多个模态地分析，进而设置媒资标签，提高了媒资标签与媒资内容的相关性，从而提高了媒资推荐的准确性。

Description

媒资推荐方法、服务器及显示设备

技术领域

本申请涉及电视的智能测试技术领域，尤其涉及一种媒资推荐方法、服务器及显示设备。

背景技术

随着通信技术和网络技术的发展，互联网上的媒资数量呈高速增长态势。显示设备，如智能电视，是人们获取媒资的重要装置，为获取自己喜爱的媒资，人们会在显示设备上输入标签来搜索媒资，这就需要显示设备的服务器预先在媒资标注上标签。

人工标注标签是一种常用的媒资标注方法，然而，一方面，人工标注标签存在主观性强、准确性差的问题，导致大量标签与媒资实际内容不符，依据此类标签进行搜索难以得到用户认同的结果；另一方面，由于海量媒资如短视频、资讯类视频的涌现，依赖人工标注标签已成为无法完成的任务。

为解决人工标注标签的问题，相关技术中根据媒资的描述信息，如主演、导演、节目类型、放映时间、制片地区和语言等特征设置媒资的标签，实现了为媒资自动添加标签，然而，部分媒资如短视频、资讯类视频，描述信息较少或存在错乱，还是容易导致自动添加的标签与媒资实际内容不符，使得根据标签得到的推荐媒资准确性较差。

发明内容

为解决上述技术问题，本申请提供了一种媒资推荐方法、服务器及显示设备。

第一方面，本申请实施例提供了一种媒资推荐方法，该方法包括：

根据搜索请求获取用户输入的搜索标签；

根据所述搜索标签查询标签文档，得到对应所述搜索标签的多个推荐媒资，其中，所述标签文档包括与所述搜索标签匹配的媒资标签，以及所述媒资标签的全局评分，所述媒资标签根据所述推荐媒资的媒资数据得到，所述全局评分根据多个所述推荐媒资的媒资数据得到，所述媒资数据包括视频数据、音频数据和文本描述数据；

根据所述全局评分对多个所述推荐媒资进行排序，得到多个所述推荐媒资的推荐顺序。

第二方面，本申请实施例提供了另一种媒资推荐方法，该方法包括：

根据搜索请求获取用户输入的搜索标签；

根据所述搜索标签查询标签文档，得到对应所述搜索标签的多个推荐媒资，其中，所述标签文档包括与所述搜索标签匹配的媒资标签，以及所述媒资标签的内部评分，所述媒资标签根据所述推荐媒资的媒资数据得到，所述内部评分根据所述推荐媒资的多个媒资标签加权得到，所述媒资数据包括视频数据、音频数据和文本描述数据；

根据预先训练的排序模型对多个所述推荐媒资进行排序，得到多个所述推荐媒资的推荐顺序，其中，所述内部评分为所述排序模型进行模型训练的相关特征。

第三方面，本申请实施例提供了一种服务器，该服务器被配置为：

根据搜索请求获取用户输入的搜索标签；

第四方面，本申请实施例提供了另一种服务器，该服务器被配置为：

根据搜索请求获取用户输入的搜索标签；

第五方面，本申请实施例提供了一种显示设备，该显示设备包括：

显示器，被配置为显示用户界面；

控制器，与所述显示器通信连接，所述控制器被配置为：

接收用户输入的搜索请求，所述搜索请求包括搜索标签；

将所述搜索请求发送到服务器，其中，所述服务器根据所述搜索标签查询标签文档，得到对应所述搜索标签的多个推荐媒资，根据评分信息对多个所述推荐媒资进行排序，其中，所述标签文档包括与所述搜索标签匹配的媒资标签，以及所述媒资标签的评分信息，所述媒资标签和评分信息根据媒资数据得到，所述媒资数据包括视频数据、音频数据和文本描述数据；

接收来自所述服务器的排序后的推荐媒资，根据所述排序后的推荐媒资生成所述搜索请求的响应界面。

本申请提供的媒资推荐方法、服务器及显示设备的有益效果包括：

本申请实施例根据媒资的视频数据、音频数据和文本描述数据对媒资进行多个模态地分析，进而设置媒资标签，提高了媒资标签与媒资内容的相关性，从而提高了媒资推荐的准确性；进一步的，通过为媒资标签设置全局评分来评价多个包含相同媒资标签的媒资，通过为媒资标签设置内部评分来同一媒资的多个媒资标签，其中，全局评分和内部评分均根据媒资的视频数据、音频数据和文本描述数据对媒资进行多个模态地分析而得到，能够反映媒资与媒资标签的相关性，从而可依据全局评分或内部评分对包含相同媒资标签的媒资进行排序，进而优化媒资的推荐顺序，提高媒资推荐地准确性。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1中示例性示出了显示设备与控制装置之间操作场景的示意图；

图2中示例性示出了图1中控制装置100的配置框图；

图3中示例性示出了图1中显示设备200的配置框图；

图4中示例性示出了显示设备200存储器中操作系统的架构配置框图；

图5为本申请实施例提供的一种媒资推荐方法的流程示意图；

图6为本申请实施例提供的一种标签文档的生成方法的流程示意图；

图7为本申请实施例提供的一种实体标签获取方法的流程示意图；

图8为本申请实施例提供的一种关键词标签获取方法的流程示意图；

图9为本申请实施例提供的一种语义标签获取方法的流程示意图；

图10为本申请实施例提供的一种全局评分的计算方法的流程示意图；

图11为本申请实施例提供的另一种媒资推荐方法的流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为确保用户能够搜寻到自己想要观看的媒资，提升用户体验，本申请实施例提供了媒资推荐方法、服务器及显示设备，显示设备如智能电视。需要说明的是，本实施例提供的方法不仅适用于智能电视，还适用于其它显示设备，如计算机、平板电脑等。

参见图1，为本发明实施例提供的一种显示设备的应用场景图。如图1所示，控制装置100和显示设备200之间可以有线或无线方式进行通信。

其中，控制装置100被配置为控制显示设备200，其可接收用户输入的操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起着用户与显示设备200之间交互的中介作用。如：用户通过操作控制装置100上频道加减键，显示设备200响应频道加减的操作。

控制装置100可以是遥控器100A，包括红外协议通信或蓝牙协议通信，及其他短距离通信方式等，通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。如：用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令，来实现控制显示设备200的功能。

控制装置100也可以是智能设备，如移动终端100B、平板电脑、计算机、笔记本电脑等。例如，使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上，通过直观的用户界面(UI)为用户提供各种控制。

示例性的，移动终端100B可与显示设备200安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。如：可以使移动终端100B与显示设备200建立控制指令协议，通过操作移动终端100B上提供的用户界面的各种功能键或虚拟按钮，来实现如遥控器100A布置的实体按键的功能。也可以将移动终端100B上显示的音视频内容传输到显示设备200上，实现同步显示功能。

显示设备200可提供广播接收功能和计算机支持功能的网络电视功能。显示设备可以实施为，数字电视、网络电视、互联网协议电视(IPTV)等。

显示设备200，可以是液晶显示器、有机发光显示器、投影设备。具体显示设备类型、尺寸大小和分辨率等不作限定。

显示设备200还与服务器300通过多种通信方式进行数据通信。这里可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器300可以向显示设备200提供各种内容和互动。示例的，显示设备200可以发送和接收信息，例如：接收电子节目指南(EPG)数据、接收软件程序更新、或访问远程储存的数字媒体库。服务器300可以一组，也可以多组，可以一类或多类服务器。通过服务器300提供视频点播和广告服务等其他网络服务内容。

图2中示例性示出了控制装置100的配置框图。如图2所示，控制装置100包括控制器110、存储器120、通信器130、用户输入接口140、用户输出接口150、供电电源160。

控制器110包括随机存取存储器(RAM)111、只读存储器(ROM)112、处理器113、通信接口以及通信总线。控制器110用于控制控制装置100的运行和操作，以及内部各部件之间的通信协作、外部和内部的数据处理功能。

示例性的，当检测到用户按压在遥控器100A上布置的按键的交互或触摸在遥控器100A上布置的触摸面板的交互时，控制器110可控制产生与检测到的交互相应的信号，并将该信号发送到显示设备200。

存储器120，用于在控制器110的控制下存储驱动和控制控制装置100的各种运行程序、数据和应用。存储器120，可以存储用户输入的各类控制信号指令。

通信器130在控制器110的控制下，实现与显示设备200之间控制信号和数据信号的通信。如：控制装置100经由通信器130将控制信号(例如触摸信号或按钮信号)发送至显示设备200上，控制装置100可经由通信器130接收由显示设备200发送的信号。通信器130可以包括红外信号接口131和射频信号接口132。例如：红外信号接口时，需要将用户输入指令按照红外控制协议转化为红外控制信号，经红外发送模块进行发送至显示设备200。再如：射频信号接口时，需将用户输入指令转化为数字信号，然后按照射频控制信号调制协议进行调制后，由射频发送端子发送至显示设备200。

用户输入接口140，可包括麦克风141、触摸板142、传感器143、按键144等中至少一者，从而用户可以通过语音、触摸、手势、按压等将关于控制显示设备200的用户指令输入到控制装置100。

用户输出接口150，通过将用户输入接口140接收的用户指令输出至显示设备200，或者，输出由显示设备200接收的图像或语音信号。这里，用户输出接口150可以包括LED接口151、产生振动的振动接口152、输出声音的声音输出接口153和输出图像的显示器154等。例如，遥控器100A可从用户输出接口150接收音频、视频或数据等输出信号，并且将输出信号在显示器154上显示为图像形式、在声音输出接口153输出为音频形式或在振动接口152输出为振动形式。

供电电源160，用于在控制器110的控制下为控制装置100各元件提供运行电力支持。形式可以为电池及相关控制电路。

图3中示例性示出了显示设备200的硬件配置框图。如图3所示，显示设备200中可以包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、存储器260、用户接口265、视频处理器270、显示器275、音频处理器280、音频输出接口285、供电电源290。

调谐解调器210，通过有线或无线方式接收广播电视信号，可以进行放大、混频和谐振等调制解调处理，用于从多个无线或有线广播电视信号中解调出用户所选择的电视频道的频率中所携带的音视频信号，以及附加信息(例如EPG数据)。

调谐解调器210，可根据用户选择，以及由控制器250控制，响应用户选择的电视频道的频率以及该频率所携带的电视信号。

调谐解调器210，根据电视信号的广播制式不同，可以接收信号的途径有很多种，诸如：地面广播、有线广播、卫星广播或互联网广播等；以及根据调制类型不同，可以数字调制方式或模拟调制方式；以及根据接收电视信号的种类不同，可以解调模拟信号和数字信号。

在其他一些示例性实施例中，调谐解调器210也可在外部设备中，如外部机顶盒等。这样，机顶盒通过调制解调后输出电视信号，经过外部装置接口240输入至显示设备200中。

通信器220，是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如显示设备200可将内容数据发送至经由通信器220连接的外部设备，或者，从经由通信器220连接的外部设备浏览和下载内容数据。通信器220可以包括WIFI模块221、蓝牙通信协议模块222、有线以太网通信协议模块223等网络通信协议模块或近场通信协议模块，从而通信器220可根据控制器250的控制接收控制装置100的控制信号，并将控制信号实现为WIFI信号、蓝牙信号、射频信号等。

检测器230，是显示设备200用于采集外部环境或与外部交互的信号的组件。检测器230可以包括声音采集器231，如麦克风，可以用于接收用户的声音，如用户控制显示设备200的控制指令的语音信号；或者，可以采集用于识别环境场景类型的环境声音，实现显示设备200可以自适应环境噪声。

在其他一些示例性实施例中，检测器230，还可以包括图像采集器232，如相机、摄像头等，可以用于采集外部环境场景，以自适应变化显示设备200的显示参数；以及用于采集用户的属性或与用户交互手势，以实现显示设备与用户之间互动的功能。

在其他一些示例性实施例中，检测器230，还可以包括光接收器，用于采集环境光线强度，以自适应显示设备200的显示参数变化等。

在其他一些示例性实施例中，检测器230，还可以包括温度传感器，如通过感测环境温度，显示设备200可自适应调整图像的显示色温。示例性的，当温度偏高的环境时，可调整显示设备200显示图像色温偏冷色调；当温度偏低的环境时，可以调整显示设备200显示图像色温偏暖色调。

外部装置接口240，是提供控制器250控制显示设备200与外部设备间数据传输的组件。外部装置接口240可按照有线/无线方式与诸如机顶盒、游戏装置、笔记本电脑等外部设备连接，可接收外部设备的诸如视频信号(例如运动图像)、音频信号(例如音乐)、附加信息(例如EPG)等数据。

其中，外部装置接口240可以包括：高清多媒体接口(HDMI)端子241、复合视频消隐同步(CVBS)端子242、模拟或数字分量端子243、通用串行总线(USB)端子244、组件(Component)端子(图中未示出)、红绿蓝(RGB)端子(图中未示出)等任一个或多个。

控制器250，通过运行存储在存储器260上的各种软件控制程序(如操作系统和各种应用程序)，来控制显示设备200的工作和响应用户的操作。

如图3所示，控制器250包括随机存取存储器(RAM)251、只读存储器(ROM)252、图形处理器253、CPU处理器254、通信接口255、以及通信总线256。其中，RAM251、ROM252以及图形处理器253、CPU处理器254通信接口255通过通信总线256相连接。

ROM252，用于存储各种系统启动指令。如在接收到开机信号时，显示设备200电源开始启动，CPU处理器254运行ROM252中的系统启动指令，将存储在存储器260的操作系统拷贝至RAM251中，以开始运行启动操作系统。当操作系统启动完成后，CPU处理器254再将存储器260中各种应用程序拷贝至RAM251中，然后，开始运行启动各种应用程序。

图形处理器253，用于产生各种图形对象，如图标、操作菜单、以及用户输入指令显示图形等。图形处理器253可以包括运算器，用于通过接收用户输入各种交互指令进行运算，进而根据显示属性显示各种对象；以及包括渲染器，用于产生基于运算器得到的各种对象，将进行渲染的结果显示在显示器275上。

CPU处理器254，用于执行存储在存储器260中的操作系统和应用程序指令。以及根据接收的用户输入指令，来执行各种应用程序、数据和内容的处理，以便最终显示和播放各种音视频内容。

在一些示例性实施例中，CPU处理器254，可以包括多个处理器。多个处理器可包括一个主处理器以及多个或一个子处理器。主处理器，用于在显示设备预加载模式中执行显示设备200的一些初始化操作，和/或，在正常模式下显示画面的操作。多个或一个子处理器，用于执行在显示设备待机模式等状态下的一种操作。

通信接口255，可包括第一接口到第n接口。这些接口可以是经由网络被连接到外部设备的网络接口。

控制器250可以控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器275上显示的GUI对象的用户输入命令，控制器250便可以执行与由用户输入命令选择的对象有关的操作。

其中，该对象可以是可选对象中的任何一个，例如超链接或图标。该与所选择的对象有关的操作，例如显示连接到超链接页面、文档、图像等操作，或者执行与对象相对应的程序的操作。该用于选择GUI对象的用户输入命令，可以是通过连接到显示设备200的各种输入装置(例如，鼠标、键盘、触摸板等)输入命令或者与由用户说出语音相对应的语音命令。

存储器260，用于存储驱动和控制显示设备200运行的各种类型的数据、软件程序或应用程序。存储器260可以包括易失性和/或非易失性存储器。而术语“存储器”包括存储器260、控制器250的RAM251和ROM252、或显示设备200中的存储卡。

在一些实施例中，存储器260具体用于存储驱动显示设备200中控制器250的运行程序；存储显示设备200内置的和用户从外部设备下载的各种应用程序；存储用于配置由显示器275提供的各种GUI、与GUI相关的各种对象及用于选择GUI对象的选择器的视觉效果图像等数据。

在一些实施例中，存储器260具体用于存储调谐解调器210、通信器220、检测器230、外部装置接口240、视频处理器270、显示器275、音频处理器280等的驱动程序和相关数据，例如从外部装置接口接收的外部数据(例如音视频数据)或用户接口接收的用户数据(例如按键信息、语音信息、触摸信息等)。

在一些实施例中，存储器260具体存储用于表示操作系统(OS)的软件和/或程序，这些软件和/或程序可包括，例如：内核、中间件、应用编程接口(API)和/或应用程序。示例性的，内核可控制或管理系统资源，以及其它程序所实施的功能(如所述中间件、API或应用程序)；同时，内核可以提供接口，以允许中间件、API或应用程序访问控制器，以实现控制或管理系统资源。

图4中示例性示出了显示设备200存储器中操作系统的架构配置框图。该操作系统架构从上到下依次是应用层、中间件层和内核层。

应用层，系统内置的应用程序以及非系统级的应用程序都是属于应用层。负责与用户进行直接交互。应用层可包括多个应用程序，如设置应用程序、电子帖应用程序、媒体中心应用程序等。这些应用程序可被实现为Web应用，其基于WebKit引擎来执行，具体可基于HTML5、层叠样式表(CSS)和JavaScript来开发并执行。

这里，HTML，全称为超文本标记语言(HyperText Markup Language)，是一种用于创建网页的标准标记语言，通过标记标签来描述网页，HTML标签用以说明文字、图形、动画、声音、表格、链接等，浏览器会读取HTML文档，解释文档内标签的内容，并以网页的形式显示出来。

CSS，全称为层叠样式表(Cascading Style Sheets)，是一种用来表现HTML文件样式的计算机语言，可以用来定义样式结构，如字体、颜色、位置等的语言。CSS样式可以直接存储与HTML网页或者单独的样式文件中，实现对网页中样式的控制。

JavaScript，是一种应用于Web网页编程的语言，可以插入HTML页面并由浏览器解释执行。其中Web应用的交互逻辑都是通过JavaScript实现。JavaScript可以通过浏览器，封装JavaScript扩展接口，实现与内核层的通信，

中间件层，可以提供一些标准化的接口，以支持各种环境和系统的操作。例如，中间件层可以实现为与数据广播相关的中间件的多媒体和超媒体信息编码专家组(MHEG)，还可以实现为与外部设备通信相关的中间件的DLNA中间件，还可以实现为提供显示设备内各应用程序所运行的浏览器环境的中间件等。

内核层，提供核心系统服务，例如：文件管理、内存管理、进程管理、网络管理、系统安全权限管理等服务。内核层可以被实现为基于各种操作系统的内核，例如，基于Linux操作系统的内核。

内核层也同时提供系统软件和硬件之间的通信，为各种硬件提供设备驱动服务，例如：为显示器提供显示驱动程序、为摄像头提供摄像头驱动程序、为遥控器提供按键驱动程序、为WIFI模块提供WiFi驱动程序、为音频输出接口提供音频驱动程序、为电源管理(PM)模块提供电源管理驱动等。

用户接口265，接收各种用户交互。具体的，用于将用户的输入信号发送给控制器250，或者，将从控制器250的输出信号传送给用户。示例性的，遥控器100A可将用户输入的诸如电源开关信号、频道选择信号、音量调节信号等输入信号发送至用户接口265，再由用户接口265转送至控制器250；或者，遥控器100A可接收经控制器250处理从用户接口265输出的音频、视频或数据等输出信号，并且显示接收的输出信号或将接收的输出信号输出为音频或振动形式。

在一些实施例中，用户可在显示器275上显示的图形用户界面(GUI)输入用户命令，则用户接口265通过GUI接收用户输入命令。确切的说，用户接口265可接收用于控制选择器在GUI中的位置以选择不同的对象或项目的用户输入命令。

或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户接口265通过传感器识别出声音或手势，来接收用户输入命令。

视频处理器270，用于接收外部的视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频数据处理，可得到直接在显示器275上显示或播放的视频信号。

示例的，视频处理器270，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。

其中，解复用模块，用于对输入音视频数据流进行解复用处理，如输入MPEG-2流(基于数字存储媒体运动图像和语音的压缩标准),则解复用模块将其进行解复用成视频信号和音频信号等。

视频解码模块，用于对解复用后的视频信号进行处理，包括解码和缩放处理等。

图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。

帧率转换模块，用于对输入视频的帧率进行转换，如将输入的60Hz视频的帧率转换为120Hz或240Hz的帧率，通常的格式采用如插帧方式实现。

显示格式化模块，用于将帧率转换模块输出的信号，改变为符合诸如显示器显示格式的信号，如将帧率转换模块输出的信号进行格式转换以输出RGB数据信号。

显示器275，用于接收源自视频处理器270输入的图像信号，进行显示视频内容、图像以及菜单操控界面。显示视频内容，可以来自调谐解调器210接收的广播信号中的视频内容，也可以来自通信器220或外部装置接口240输入的视频内容。显示器275，同时显示显示设备200中产生且用于控制显示设备200的用户操控界面UI。

以及，显示器275可以包括用于呈现画面的显示屏组件以及驱动图像显示的驱动组件。或者，倘若显示器275为一种投影显示器，还可以包括一种投影装置和投影屏幕。

音频处理器280，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等音频数据处理，得到可以在扬声器286中播放的音频信号。

示例性的，音频处理器280可以支持各种音频格式。例如MPEG-2、MPEG-4、高级音频编码(AAC)、高效AAC(HE-AAC)等格式。

音频输出接口285，用于在控制器250的控制下接收音频处理器280输出的音频信号，音频输出接口285可包括扬声器286，或输出至外接设备的发生装置的外接音响输出端子287，如耳机输出端子。

在其他一些示例性实施例中，视频处理器270可以包括一个或多个芯片组成。音频处理器280，也可以包括一个或多个芯片组成。

以及，在其他一些示例性实施例中，视频处理器270和音频处理器280，可以为单独的芯片，也可以与控制器250一起集成在一个或多个芯片中。

供电电源290，用于在控制器250的控制下，将外部电源输入的电力为显示设备200提供电源供电支持。供电电源290可以是安装在显示设备200内部的内置电源电路，也可以是安装在显示设备200外部的电源。

当用户启动显示设备200之后，可在显示设备200的媒资推荐页面翻看推荐的媒资，当媒资推荐页面的媒资不是用户想要观看的媒资时，用户可在媒资推荐页面的搜索框输入搜索标签，如足球、篮球等，生成搜索请求，显示设备200的控制器可将搜索请求发送到服务器，使得服务器可根据搜索请求在媒资库中抓取媒资，作为对应搜索请求的推荐媒资，将推荐媒资发送给显示设备，供显示设备根据推荐媒资生成搜索请求的响应界面。

为对服务器得到推荐媒资的流程做进一步描述，本申请实施例提供了一种媒资推荐方法，参见图5，该媒资推荐方法包括以下步骤：

步骤S110：根据搜索请求获取用户输入的搜索标签。

服务器接收到来自显示设备的搜索请求后，可从搜索请求中提取出搜索标签。

步骤S120：根据所述搜索标签查询标签文档，得到对应所述搜索标签的多个推荐媒资。

显示设备的服务器可从搜索请求中提取出搜索标签，根据搜索标签查询标签文档，其中，标签文档是预先设置并存储在服务器内的文档，可存储媒资标签和媒资标签的评分信息。

在一些实施例中，每个媒资可对应一个标签文档，标签文档的生成方法可参见图6，包括步骤S101-S106。

步骤S101：根据被解析媒资的视频数据提取媒资标签。

服务器在获取到一个媒资后，对该媒资进行解析，从而提取出媒资标签，并生成标签文档，在解析过程中，该媒资可称为被解析媒资，在解析后，该媒资可称为已解析媒资。

视频数据包括该媒资的视频文件，视频文件可存储有该媒资的视频时间序列。通过预先训练的实体识别模型，可识别出视频时间序列中各帧图像中的实体，生成实体标签。在一些实施例中，实体识别模型可基于Mask R-CNN视频物体识别算法进行训练得到，利用该实体识别模型得到媒资标签的流程可参见图7，包括步骤S1011-S1013。

步骤S1011：对被解析媒资的视频数据进行视频内容识别，得到实体标签、所述实体标签的置信度、时长和频度。

将被解析媒资的视频文件通过FTP提交到显示设备的服务器，如视频内容解析服务器；视频内容解析服务器获取到该视频文件后，启动实体识别模型的模型预测程序，从视频时间序列中逐帧进行实体识别；当某一帧图像中识别出某实体，如“体育-足球”时，生成一个实体标签，并记录该实体标签的出现时间，其中，实体标签的名称可与实体的名称相一致，实体标签的出现时间为该帧图像在视频时间序列的视频时间轴上的时间点；最后，对该媒资的视频时间序列全部识别完成后，针对相同的实体标签聚合时间段，计算出每个实体标签的频度、时长和置信度，其中，频度为一个实体标签的出现次数与全部实体标签的出现总次数的比值，时长可根据实体标签的出现时间进行统计，单位可为秒或分，置信度为实体识别模型输出的实体标签分类的概率值。

以被解析媒资为某足球资讯媒资为例，可获得表1所示的实体标签和统计结果：

表1

如表1所示，通过实体识别，得到该足球资讯媒资的实体标签包括：体育-足球、体育-足球场、人物-交通警察、公共设施-大屏幕、数码电子-显示器、交通-汽车、自然-绿地和人物-新闻主播，以实体标签“体育-足球”为例，其在时间轴上出现的时间为第31-36秒、第187-198秒、第259-269秒、第274-275秒、第280-291秒，置信度为0.92，时长共38秒，频度为0.16。

步骤S1012：根据所述置信度、时长和频度计算所述实体标签的权重。

基于步骤S1011的识别结果，可计算实体标签的权重，计算公式如下：

w＝α(置信度)+β(时长占比)+(1-α-β)(频度)，0＜(α+β)＜1 (1)

(1)式中，w为实体标签的权重，α、β为实体标签的权重参数，α、β可根据实体识别模型的实际效果进行调整，需满足和大于0且小于1。

步骤S1013：将所述权重大于第一权重过滤阈值的实体标签设置为所述被解析媒资的媒资标签。

对于一个被解析媒资，识别出的实体标签可能有多个，但是部分实体标签可能为该媒资的噪声标签，如表1中的“自然-绿地”、“人物-交通警察”等噪声标签与该媒资的主要内容相关性较差，通过设置第一权重过滤阈值，可将相关性较差的媒资标签进行过滤。第一权重过滤阈值可根据实际应用时的需求取[0.5-1]之间的值，取值越大，过滤后的实体标签准确度越高，但是过滤后的实体标签数量也越少。过滤后的实体标签可设置为所述被解析媒资的媒资标签。

步骤S102：根据被解析媒资的音频数据提取媒资标签。

在一些实施例中，基于音频特征匹配算法，如GMM-HMM(Hidden Markov Model -Gaussian Mixture Mode，高斯混合模型-隐马尔可夫模型)，可对被解析媒资的音频数据进行音频内容识别，通过音频内容识别得到媒资标签的流程可参见图8，包括步骤S1021-S1023。

步骤S1021：对被解析媒资的音频数据进行音频内容识别，得到关键词标签、所述关键词标签的匹配度和频度。

通过音频特征匹配算法识别音频数据的声音特征信息，从而提取出音频内容的关键词，获得关键词标签，并基于音频匹配的强度计算关键词标签的匹配度和频度等信息，其中，匹配度为音频特征匹配算法预测的概率值，频度为一个关键词标签的出现次数与全部关键词标签的出现总次数的比值，

以某足球资讯媒资为例，对其进行音频内容识别的结果如表2所示：

表2

关键词	匹配度	频度
			球员	96.7	0.12
球迷	89.2	0.06
			球队	81.6	0.32
老将	70.1	0.05
			足球	92.2	0.22
市场	60.0	0.03
			质量	77.3	0.01
中超联赛	89.1	0.16

如表2所示，通过音频内容识别，得到该足球资讯媒资的关键词标签包括：球员、球迷、球队、老将、足球、市场、质量和中超联赛，其中，以关键词标签“球员”为例，其匹配度为96.7，频度为0.12。

步骤S1022：根据所述匹配度和频度计算所述关键词标签的权重。

基于步骤S1021的识别结果，根据匹配度和频度计算音频关键词的权重，计算公式如下。

w＝α(匹配度)+(1-α)(频度)，0＜α＜1 (2)

步骤S1023：将所述权重大于第二权重过滤阈值的关键词标签设置为所述被解析媒资的媒资标签。

对于一个被解析媒资，识别出的关键词标签可能也会存在噪声标签，如表2中的“市场”、“质量”等关键字标签，可通过设置第二权重过滤阈值，将噪声标签进行过滤。第二权重过滤阈值可根据实际应用时的需求取[0.5-1]之间的值，取值越大，过滤后的关键词标签准确度越高，但是过滤后的关键词标签数量也越少。过滤后的关键词标签可设置为所述被解析媒资的媒资标签。

步骤S103：根据被解析媒资的音频数据和文本描述数据提取媒资标签。

为了更充分地利用被解析媒资的音频数据，可基于语音识别算法，如Speech toText(语音到文本)算法进行语音识别，通过语音识别得到媒资标签的流程可参见图9，包括步骤S1031-S1033。

步骤S1031：对被解析媒资的音频数据进行文本转换，得到媒资文本数据。

通过语音识别算法对音频数据进行文本转换，将被解析媒资中的对话、解说等语音等全部转换成STT(Speech-to-text，语音到文本)文本，得到媒资文本数据。

步骤S1032：将所述媒资文本数据和文本描述数据进行分词，得到媒资语义词。

文本描述数据包括被解析媒资的标题、简介等数据。将媒资文本数据扩充到文本描述数据中，可丰富被解析媒资的文本信息。通过现有的词典，可对媒资文本数据和文本描述数据进行分词，得到多个媒资语义词。

进一步的，可结合媒资语料库，计算媒资语义词的TF-IDF(term frequency–inverse document frequency，词频-逆文档频度)，TF-IDF可评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度，计算TF-IDF后，可将TF-IDF转换为Embedding(嵌入)型的特征向量。

更进一步的，媒资语义词还可扩充到媒资语料库中，以丰富媒资语料库。

步骤S1033：通过预先训练的主题模型对所述媒资语义词进行主题聚类，得到语义标签，所述媒资标签包括所述语义标签。

主题模型可为预先基于媒资语料库训练的LDA(Latent Dirichlet Allocation，三层贝叶斯概率模型)主题模型，能够根据特征向量对媒资语义词进行模型聚类，得到语义标签和该语义标签在对应的主题中的概率值，即该语义标签属于某一主题的概率值，该概率值记录为语义标签的语义权重。将语义标签设置为所述被解析媒资的媒资标签。

步骤S104：计算媒资标签的全局评分。

全局评分表明了与包含某媒资标签的全部已解析媒资相比，被解析媒资衡量该媒资标签全局的程度。例如，某足球资讯媒资和某篮球资讯媒资都解析出了媒资标签“足球”，其中，足球资讯媒资中的“足球”的全局评分为0.9分，篮球资讯媒资中的“足球”的全局评分为0.5分，则可得与篮球资讯媒资相比，足球资讯媒资中“足球”更能衡量全局，即更能体现媒资标签的内容。

全局评分的计算方法可参见图10，包括步骤S1041-S1043。

步骤S1041：计算被解析媒资的多个媒资标签之间的相关性。

在一些实施例中，通过CCA(Canonical Correlation Analysis，典型相关分析)，可计算被解析媒资的全部媒资标签，如实体标签、关键词标签、语义标签之间的相关性。

步骤S1042：通过密度聚类算法将被解析媒资的多个媒资标签按照相关性划分成不同的标签簇。

通过密度聚类算法，如DBSCAN(Density-Based Spatial Clustering ofApplications with Noise，密度聚类算法)，进行多模态媒资标签的融合，实现将相关性最接近的媒资标签划分至不同的标签集合，形成多个标签簇。

进一步的，可将标签簇中相关性大于预设相关性阈值的多个媒资标签合并为一个所述媒资标签。例如，将同一簇标签[体育-足球，体育-足球场，足球，中超联赛]合并成[体育-足球]。

步骤S1043：根据包含所述标签簇的已解析媒资，计算所述被解析媒资的标签簇密度的归一化值，得到所述媒资标签的全局评分。

已解析媒资可包括已经提取出媒资标签，并计算出每个标签所在标签簇的标签簇密度的媒资。对于被解析媒资的某媒资标签，可计算该媒资标签所在标签簇的标签簇密度，然后计算该标签簇密度在包含该标签簇的已解析媒资中的归一化值，将该归一化值记录为被解析媒资中，该媒资标签的全局评分，以衡量该媒资标签全局的程度。

步骤S105：计算媒资标签的内部评分。

内部评分表明了与被解析媒资的其他媒资标签相比，某媒资标签衡量该被解析媒资的程度。例如，某篮球资讯媒资解析出了媒资标签“篮球”和“足球”，其中，“篮球”的内部评分为0.6分，“足球”的内部评分为0.2，则可得与“足球”这一媒资标签相比，“篮球”这一媒资标签更能体现该媒资的内容。

内部评分可根据各模态下媒资标签的权重和相关性计算得到，例如，对于一个标签簇中的媒资标签“体育-足球”，可获取该媒资标签在各模态下相关性高的媒资标签及其权重，如，在视频模态下，获得相关性高的实体标签包括“体育-足球”，在音频模态下，获得相关性高的关键词标签包括“足球”，在文本模态下，获得相关性高的语义标签包括“足球”，则根据相关性对各模态下相关性高的媒资标签的权重进行加权计算，得到内部评分。在一些实施例中，对于某足球资讯媒资，得到的内部评分为：[体育-足球(0.6)，人物-新闻主播(0.3)……]，其中，内部评分之和为1。

步骤S106：根据被解析媒资的媒资标签、媒资标签的全局评分和内部评分生成媒资文档。

对于一个被解析媒资，在获得全部媒资标签，并计算出每个媒资标签的全局评分和内部评分后，可生成对应该被解析媒资的媒资文档。

进一步的，媒资文档可用JSON结构存储该媒资的ID、标题、标签簇和标签簇中各媒资标签的评分信息等信息，其中，评分信息包括全局评分和内部评分，在搜索引擎中建立媒资标签的倒排索引，使得根据媒资标签可快速搜索到包含该媒资标签的标签文档。

在步骤S120中，当服务器从搜索请求中得到搜索标签后，可利用搜索引擎进行倒排索引，以查找媒资标签与搜索标签相匹配的标签文档，其中，媒资标签可与搜索标签的名称相一致时，可视为媒资标签与搜索标签相匹配。由于一个标签文档对应一个媒资，因此，如果查找到多个媒资标签与搜索标签相匹配的标签文档，则表明查找到了多个与搜索标签对应的媒资，与搜索标签对应的媒资可称为推荐媒资。

步骤S130：根据全局评分对多个所述推荐媒资进行排序，得到多个所述推荐媒资的推荐顺序。

推荐媒资的数量可能为多个，为提高推荐准确性，可对多个推荐媒资按照全局评分进行排序，使全局评分相对较高的推荐媒资排在前面，全局评分相对较低的推荐媒资排在后面。将排序后的推荐媒资返回至显示设备。

如果推荐媒资的数量为一个，可不用进行排序，直接将推荐媒资返回至显示设备。

可以看出，根据全局评分直接对推荐媒资进行排序，不需要进行大量计算，具有排序效率高的优点。

本申请实施例提供一种服务器，服务器可被配置为执行图5所示的媒资推荐方法。

在一些实施例中，服务器还可根据内部评分向用户推荐媒资。参见图11，为本申请实施例提供的另一种媒资推荐方法，该媒资推荐方法包括以下步骤：

步骤S210：根据搜索请求获取用户输入的搜索标签。

步骤S220：根据所述搜索标签查询标签文档，得到对应所述搜索标签的多个推荐媒资。

步骤S230：根据预先训练的排序模型对多个所述推荐媒资进行排序，得到多个所述推荐媒资的推荐顺序。

为提高推荐准确性，可预先基于用户历史搜索请求和媒资标签的内部评分训练排序模型，以对推荐媒资进行相关性排序。

在对排序模型进行训练时，可将用户历史搜索请求召回的推荐媒资中，用户选中的推荐媒资作为对应该历史搜索请求的训练样本，根据多个训练样本生成训练集，并将用户历史搜索请求召回的推荐媒资中，对应历史搜索请求的历史搜索标签的“内部评分”作为一系列相关特征，训练排序模型。

当根据步骤S220得到多个推荐媒资后，可利用训练好的排序模型，对推荐媒资进行相关性排序，将排序后的推荐媒资返回至显示设备。

可以看出，根据基于内部评分和用户历史搜索请求的排序模型对推荐媒资进行排序，能够进一步衡量媒资的内容与搜索标签的相关性，具有排序准确性高的优点。

本申请实施例提供一种服务器，服务器可被配置为执行图11所示的媒资推荐方法。

在一些实施例中，还可对全局评分与内部评分进行加权计算，得到一个推荐顺序。该方法不需要利用排序模型进行计算，保障了排序效率，同时综合了全局评分与内部评分，排序的准确性也较高。当然，还可基于标签文档，采用其他方式对推荐媒资进行排序，本实施例不再一一列举。

服务器把排序后的推荐媒资发送到显示设备后，显示设备可根据排序后的推荐媒资生成所述搜索请求的响应界面，在该响应界面上按照排序展示推荐媒资。

通过上述实施例可见，本申请实施例根据媒资的视频数据、音频数据和文本描述数据对媒资进行多个模态地分析，进而设置媒资标签，提高了媒资标签与媒资内容的相关性，从而提高了媒资推荐的准确性；进一步的，通过为媒资标签设置全局评分来评价多个包含相同媒资标签的媒资，通过为媒资标签设置内部评分来同一媒资的多个媒资标签，其中，全局评分和内部评分均根据媒资的视频数据、音频数据和文本描述数据对媒资进行多个模态地分析而得到，能够反映媒资与媒资标签的相关性，从而可依据全局评分或内部评分对包含相同媒资标签的媒资进行排序，进而优化媒资的推荐顺序，提高媒资推荐地准确性。

由于以上实施方式均是在其他方式之上引用结合进行说明，不同实施例之间均具有相同的部分，本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。

需要说明的是，在本说明书中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括一个……”限定的要素，并不排除在包括要素的电路结构、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里发明的公开后，将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求的内容指出。以上的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种媒资推荐方法，其特征在于，包括：

获取被解析媒资的视频数据，对被解析媒资的视频数据进行视频内容识别，得到实体标签、所述实体标签的置信度、时长和频度；根据所述置信度、时长和频度，计算所述实体标签的权重；将所述权重大于第一权重过滤阈值的实体标签设置为所述被解析媒资的媒资标签；

根据被解析媒资的音频数据提取媒资标签；

根据媒资文本数据与被解析媒资的文本描述数据提取媒资标签，其中，所述媒资文本数据是通过对被解析媒资的音频数据进行文本转换得到的；

计算媒资标签的全局评分；

根据被解析媒资的媒资标签、媒资标签的全局评分生成标签文档；

根据搜索请求获取用户输入的搜索标签；

根据所述搜索标签查询标签文档，得到对应所述搜索标签的多个推荐媒资，其中，所述推荐媒资的标签文档内包括与所述搜索标签匹配的媒资标签以及所述媒资标签的全局评分；

根据所述全局评分或预先训练的排序模型对多个所述推荐媒资进行排序，得到多个所述推荐媒资的推荐顺序，其中，所述预先训练的排序模型根据用户历史搜索请求和媒资标签的内部评分训练预先得到，所述内部评分根据所述推荐媒资的多个媒资标签加权得到。

2.根据权利要求1所述的媒资推荐方法，其特征在于，所述对被解析媒资的视频数据进行视频内容识别，包括：启动实体识别模型的模型预测程序，从视频时间序列中逐帧进行实体识别；当某一帧图像中识别出某实体时，生成一个实体标签，并记录该实体标签的出现时间，其中，实体标签的名称与实体的名称相一致，实体标签的出现时间为该帧图像在视频时间序列的视频时间轴上的时间点；对该媒资的视频时间序列全部识别完成后，针对相同的实体标签聚合时间段，计算出每个实体标签的频度、时长和置信度，其中，频度为一个实体标签的出现次数与全部实体标签的出现总次数的比值，时长根据实体标签的出现时间进行统计，单位为秒或分，置信度为实体识别模型输出的实体标签分类的概率值。

3.根据权利要求1所述的媒资推荐方法，其特征在于，所述根据被解析媒资的音频数据提取媒资标签包括：

对被解析媒资的音频数据进行音频内容识别，得到关键词标签、所述关键词标签的匹配度和频度；

根据所述匹配度和频度计算所述关键词标签的权重；

将所述权重大于第二权重过滤阈值的关键词标签设置为所述被解析媒资的媒资标签。

4.根据权利要求1所述的媒资推荐方法，其特征在于，所述根据媒资文本数据与被解析媒资的文本描述数据提取媒资标签，其中，所述媒资文本数据是通过对被解析媒资的音频数据进行文本转换得到的，包括：

对被解析媒资的音频数据进行文本转换，得到媒资文本数据；

将所述媒资文本数据和文本描述数据进行分词，得到媒资语义词；

通过预先训练的主题模型对所述媒资语义词进行主题聚类，得到语义标签，所述媒资标签包括所述语义标签。

5.根据权利要求1所述的媒资推荐方法，其特征在于，所述方法还包括：

计算被解析媒资的多个媒资标签之间的相关性；

通过密度聚类算法将被解析媒资的多个媒资标签按照相关性划分成不同的标签簇；

根据包含所述标签簇的已解析媒资，计算所述被解析媒资的标签簇密度的归一化值，得到所述媒资标签的全局评分。

6.根据权利要求1所述的媒资推荐方法，其特征在于，所述实体标签的权重的计算公式如下：

。

7.根据权利要求3所述的媒资推荐方法，其特征在于，所述音频关键词的权重的计算公式如下：

。

8.根据权利要求1所述的媒资推荐方法，其特征在于，所述方法还包括：计算媒资标签的内部评分，

根据被解析媒资的媒资标签、媒资标签的全局评分和内部评分生成媒资文档。

9.根据权利要求4所述的媒资推荐方法，其特征在于，所述通过预先训练的主题模型对所述媒资语义词进行主题聚类，得到语义标签，包括，

主题模型为预先基于媒资语料库训练的LDA主题模型，

根据特征向量对媒资语义词进行模型聚类，得到语义标签和该语义标签在对应的主题中的概率值，即该语义标签属于某一主题的概率值，该概率值记录为语义标签的语义权重；

将语义标签设置为所述被解析媒资的媒资标签。

10.一种服务器，其特征在于，所述服务器被配置为：

获取被解析媒资的视频数据，对被解析媒资的视频数据进行视频内容识别，得到实体标签、所述实体标签的置信度、时长和频度；

根据所述置信度、时长和频度，计算所述实体标签的权重；

将所述权重大于第一权重过滤阈值的实体标签设置为所述被解析媒资的媒资标签；

根据被解析媒资的音频数据提取媒资标签；

计算媒资标签的全局评分；

根据搜索请求获取用户输入的搜索标签；

根据所述搜索标签查询标签文档，得到对应所述搜索标签的多个推荐媒资，其中，所述标签文档包括与所述搜索标签匹配的媒资标签以及所述媒资标签的全局评分；