CN113794915B

CN113794915B - 服务器、显示设备、诗词歌赋生成方法及媒资播放方法

Info

Publication number: CN113794915B
Application number: CN202111069202.8A
Authority: CN
Inventors: 李俊彦
Original assignee: Hisense Electronic Technology Wuhan Co ltd
Current assignee: Hisense Electronic Technology Wuhan Co ltd
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2023-05-05
Anticipated expiration: 2041-09-13
Also published as: CN113794915A

Abstract

本申请实施例提供了一种服务器、显示设备、诗词歌赋生成方法及媒资播放方法，其中，服务器被配置为：接收来自显示设备的诗词歌赋生成请求，所述诗词歌赋生成请求中包含目标图片；生成所述目标图片的描述文本；在预先建立的诗词歌赋数据库中召回所述描述文本对应的诗词歌赋；向所述显示设备发送包括所述诗词歌赋的生成结果。本申请解决了弹幕不贴合媒资的技术问题，提升了用户体验。

Description

服务器、显示设备、诗词歌赋生成方法及媒资播放方法

技术领域

本申请涉及图像处理技术领域，尤其涉及一种服务器、显示设备、诗词歌赋生成方法及媒资播放方法。

背景技术

人们在显示设备上观看媒资时，经常有评价媒资的需求。弹幕功能的出现使得人们在单独观看媒资时有了分享观点的渠道。弹幕功能是指用户可在媒资播放的某一时刻输入自己的观点，其他用户在观看到该时刻时，显示设备可显示该观点，从而实现了不同用户分享观点的效果。相关技术中，弹幕功能展示的弹幕均为观看媒资的用户输入的观点，然而，不同用户输入的观点可能多种多样，杂乱无章，一些用户观点甚至可能还跟当前播放界面不相关，这些质量不佳的弹幕都会影响用户观看媒资的体验。

发明内容

为解决弹幕功能体验不佳的技术问题，本申请提供了一种服务器、显示设备、诗词歌赋生成方法及媒资播放方法。

第一方面，本申请提供了一种服务器，该服务器被配置为：

接收来自显示设备的诗词歌赋生成请求，所述诗词歌赋生成请求中包含目标图片；

生成所述目标图片的描述文本；

在预先建立的诗词歌赋数据库中召回所述描述文本对应的诗词歌赋；

向所述显示设备发送包括所述诗词歌赋的生成结果。

在一些实施例中，生成所述目标图片的描述文本，包括：

通过预训练的特征提取网络提取所述目标图片的图片特征；

通过预训练的描述生成网络对所述图片特征进行分析，得到所述目标图片的描述文本。

在一些实施例中，所述特征提取网络包括：依次连接的快速区域卷积神经网络、区域生成网络、感兴趣区域池化层和全连接层，其中，所述快速区域卷积神经网络还与所述感兴趣区域池化层连接。

在一些实施例中，通过预训练的特征提取网络提取所述目标图片的图片特征，包括：

通过快速区域卷积神经网络提取所述目标图片的原始特征得到原始特征图；

通过区域生成网络生成所述原始特征图对应的建议窗口；

把所述建议窗口映射到所述原始特征图上，通过所述感兴趣区域池化层生成每个建议窗口的固定尺寸的特征图；

通过全连接层处理每一个建议窗口的特征图，得到所述目标图片的图片特征。

在一些实施例中，所述描述生成网络包括：依次连接的第一个短时记忆网络、第二个长短时记忆网络、第一个全连接层、第三个长短时记忆网络、第二全连接层和逻辑回归模型。

在一些实施例中，在预先建立的诗词歌赋数据库中召回所述描述文本对应的诗词歌赋，包括：

将所述描述文本进行分词，得到多个词语；

分别召回每个词语对应的诗词歌赋；

将召回的多首诗词歌赋取交集，得到候选诗词歌赋；

计算所述描述文本与候选诗词歌赋的相似度，选出相似度最高的候选诗词歌赋作为所述描述文本对应的诗词歌赋。

在一些实施例中，在接收来自显示设备的诗词歌赋生成请求之前，所述服务器还被配置为：

采集诗词歌赋的正文及相关赏析；

将所述正文及相关赏析按照预设格式整理成数据集。

第二方面，本申请提供了一种显示设备，所述显示设备包括：

显示器，用于呈现用户界面；

控制器，与所述显示器连接，所述控制器被配置为：

接收用户输入的诗词歌赋控件的触发指令；

响应于所述触发指令，获取媒资播放界面的截图；

生成包含目标图片的诗词歌赋请求，向服务器发送所述诗词歌赋请求，其中，所述目标图片为所述截图或所述截图压缩后的图片；

接收来自所述服务器的包含诗词歌赋的生成结果，将所述生成结果中的诗词歌赋显示在所述媒资播放界面上方。

第三方面，本申请提供了一种诗词歌赋生成方法，该方法包括：

生成所述目标图片的描述文本；

向所述显示设备发送包括所述诗词歌赋的生成结果。

第四方面，本申请提供了一种媒资播放方法，该方法包括：

接收用户输入的诗词歌赋控件的触发指令；

响应于所述触发指令，获取媒资播放界面的截图；

本申请提供的服务器、显示设备、诗词歌赋生成方法及媒资播放方法的有益效果包括：

本申请通过在显示设备上设置诗词歌赋功能，在用户使用该功能时，可将当前界面进行截屏，然后与服务器进行交互，通过服务器可对显示设备发送的图片进行分析，根据分析结果查找该图片对应的诗词歌赋，将诗词歌赋反馈给显示设备，使得显示设备可在当前界面上显示该诗词歌赋，从而增加用户观看媒资时的趣味性，提升用户体验。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1中示例性示出了根据一些实施例的显示设备与控制装置之间操作场景的示意图；

图2中示例性示出了根据一些实施例的控制装置100的硬件配置框图；

图3中示例性示出了根据一些实施例的显示设备200的硬件配置框图；

图4中示例性示出了根据一些实施例的显示设备200中软件配置示意图；

图5中示例性示出了根据一些实施例的媒资播放方法的流程的示意图；

图6中示例性示出了根据一些实施例的诗词歌赋生成方法的流程的示意图；

图7中示例性示出了根据一些实施例的特征提取网络的架构示意图；

图8中示例性示出了根据一些实施例的特征提取方法的流程示意图；

图9中示例性示出了根据一些实施例的描述文本生成网络的架构示意图；

图10中示例性示出了根据一些实施例的LSTM语言模型的架构示意图；

图11中示例性示出了根据一些实施例的强化学习模块的架构示意图；

图12中示例性示出了根据一些实施例的ESIM的架构示意图；

图13中示例性示出了根据一些实施例的媒资播放界面的示意图；

图14中示例性示出了根据一些实施例的诗词歌赋控件的展示界面的示意图；

图15中示例性示出了根据一些实施例的诗词歌赋的显示界面的示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

图1为根据实施例中显示设备与控制装置之间操作场景的示意图。如图1所示，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。

在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

图3示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

在一些实施例中，显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中，用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。

在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random AccessMemory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

CPU处理器。用于执行存储在存储器中操作系统和应用程序指令，以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。CPU处理器，可以包括多个处理器。如，包括一个主处理器以及一个或多个子处理器。

在一些实施例中，图形处理器，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。图形处理器包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象；还包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器，用于将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。其中，解复用模块，用于对输入音视频数据流进行解复用处理。视频解码模块，用于对解复用后的视频信号进行处理，包括解码和缩放处理等。图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。帧率转换模块，用于对转换输入视频帧率。显示格式化模块，用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，音频处理器，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

在一些实施例中，用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

在一些实施例中，显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

pplications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。

框架层为应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

在一些实施例中的硬件或软件架构可以基于上述实施例中的介绍，在一些实施例中可以是基于相近的其他硬件或软件架构，可以实现本申请的技术方案即可。

在一些实施例中，显示设备启动后可以直接进入上次选择的信号源的显示界面，或者信号源选择界面，其中信号源可以是预置的视频点播程序，还可以是HDMI接口，直播电视接口等中的至少一种，用户选择不同的信号源后，显示器可以显示从不同信号源获得的内容。

在一些实施例中，显示设备具有根据当前界面的图像内容生成诗词歌赋的功能，该功能的应用场景可以为媒资播放场景，也可为其他场景，如相册应用展示图片的场景等等。

本申请以媒资播放场景为例对诗词歌赋生成过程进行介绍，其他场景的诗词歌赋生成过程可参靠本申请实施例做适应性调整。

在媒资播放场景下，显示诗词歌赋的过程可参见图5，为根据一些实施例的媒资播放方法的流程示意图，如图5所示，该方法可包括如下步骤：

S110：接收用户输入的诗词歌赋控件的触发指令。

在一些实施例中，显示设备在播放媒资时，若用户按遥控器的预设按键，如方向下键，可向显示设备输入获取菜单指令，显示设备可根据该指令显示当前媒资的菜单界面，该菜单界面可显示诗词歌赋控件，用户触发该诗词歌赋控件后，显示设备可生成诗词歌赋请求。

在一些实施例中，诗词歌赋控件也可被配置在其他界面，如显示设备的设置界面，或者，该诗词歌赋控件也可为显示设备的遥控器上的一个按键。

在一些实施例中，显示设备支持语音控制，也可根据用户的语音指令，如“作诗”，触发诗词歌赋控件。

S120：响应于所述触发指令，获取媒资播放界面的截图。

在一些实施例中，显示设备根据接收到诗词歌赋控件的触发指令，对当前的媒资播放界面进行截屏，其中，若当前的界面上显示有浮层界面，如菜单界面、设置界面等界面，可先将浮层界面设置为隐藏状态，再进行截屏，截屏后得到的截图存储至预设的截图存储路径，通过访问该路径获取该截图。

S130：生成包含目标图片的诗词歌赋请求，向服务器发送所述诗词歌赋请求。

在一些实施例中，显示设备在获得截图后，可将目标图片设置为该截图，生成包含目标图片的诗词歌赋请求。

在一些实施例中，显示设备在在获取到截图后，还可将截图进行压缩，将压缩后的图片设置为目标图片。例如，将分辨率由1024*768压缩至600*800。

在一些实施例中，显示设备在生成诗词歌赋请求后，可将该请求发送给服务器，服务器在接收到该请求后，可根据该请求中的目标图片，返回生成结果，该生成结果可包括一首或多首诗词歌赋。

S140：接收来自所述服务器的包含诗词歌赋的生成结果，将所述生成结果中的诗词歌赋显示在所述媒资播放界面上方。

在一些实施例中，显示设备在接收到服务器发送的生成结果后，可从生成结果中提取出诗词歌赋，将诗词歌赋显示在媒资播放界面的上方。

服务器生成诗词歌赋的方法可参见图6，为一种诗词歌赋生成方法的流程示意图，如图6所示，该方法可包括如下步骤：

S210：接收来自显示设备的诗词歌赋生成请求，所述诗词歌赋生成请求中包含目标图片。

在一些实施例中，服务器在接收到显示设备的诗词歌赋请求后，可从该请求中提取出目标图片。

S220：生成所述目标图片的描述文本。

在一些实施例中，服务器可通过图像文本生成算法生成目标图片的描述文本。该图像文本算法可为一个或多个预训练的网络模型，通过提取目标图片中的特征，再根据提取到的特征进行编码，将编码得到的图像特征通过三层LSTM进行解码，最终生成对目标图像的描述语言。

S230：在预先建立的诗词歌赋数据库中召回所述描述文本对应的诗词歌赋。

在一些实施例中，服务器先将描述文本进行分词，得到多个词语，将每个词语分别在预先建立的诗词歌赋数据库中召回诗词歌赋，在得到多首诗词歌赋后，可通过一些人工设定的规则对召回的多首诗词歌赋进行过滤，若过滤后的诗词歌赋仍然有多首，则可通过相似度模型计算每首诗词歌赋与描述文本的相似度，相似度模型可输出相似度最高的诗词歌赋，若过滤后的诗词歌赋仅有一首，相似度模型可输出该首诗词歌赋。

S240：向所述显示设备发送包括所述诗词歌赋的生成结果。

在一些实施例中，服务器在得到目标图片对应的诗词歌赋后，可生成包含该诗词歌赋的生成结果，将该生成结果返回给显示设备，显示设备在接收到该生成结果后，可提取出诗词歌赋，在当前界面上进行显示。

下面结合图7-图12对服务器生成诗词歌赋的过程做进一步说明。

在一些实施例中，服务器上需要预先设置有诗词歌赋数据集，以便后续为用户选择符合用户的截图的诗词歌赋。

在一些实施中，为构建诗词歌赋数据，可通过网络采集的方式，采集诗词歌赋的正文及相关赏析，然后将所述正文及相关赏析按照预设格式整理成数据集。

在一些实施例中，可通过网络采集的方式，可采集大量诗词歌赋的正文及相关赏析。

在一些实施例中，预设格式可为：{“appreciation”：赏析文本，“poetry”：诗词歌赋正文}。其中，赏析文本即该诗词歌赋的相关赏析，若有多条相关赏析，可逐条列出。

根据上述格式，可将每首诗词歌赋的正文及相关赏析整理成一条数据，形成数据集。

为实现生成诗词歌赋的功能，除了要构建好数据集，还需要构建诗词歌赋生成过程中用到的多个网络模型。

为训练诗词歌赋生成过程中用到的多个网络模型，可构建图片数据集，在该数据集中，每张图片都标注了描述语言，便于通过网络模型学习对图片进行描述的方法。

要学习为图片生成描述语言，需要对图片进行特征提取及分析。参见图7，为一种特征提取网络的架构示意图。如图7所示，特征提取网络包括骨架网络backbone(ResNet)、RPN(Region Proposal Network，区域生成网络)、ROI pooling(region of interestpooling感兴趣区域池化层)以及全连接层。

在一些实施例中，如图7所示，特征提取网络包括：依次连接的FRCNN(FasterRegion-Convolutional Neural Networks，更快的区域卷积神经网络)、区域生成网络、感兴趣区域池化层和全连接层，其中，所述快速区域卷积神经网络还与所述感兴趣区域池化层连接。

基于图7示的特征提取网络，对一个图片A进行特征提取的过程可参见图8，包括如下步骤：

S310：通过快速区域卷积神经网络提取所述目标图片的原始特征得到原始特征图。

在一些实施例中，输入的一张图片A的分辨率为M*N，该图片A压缩前的分辨率为P*Q，其中，M*N小于P*Q，由显示设备在上传至服务器之前将截图由P*Q压缩至M*N，压缩后的图片可称为图片A。

在一些实施例中，骨架网络可为一个ResNet(残差网络)，该残差网络可为FasterRCNN(Faster Region-Convolutional Neural Networks，快速区域卷积神经网络)，具体包括13个conv(convolution，卷积)层、13个relu(Rectified Linear Unit，线性整流函数)层和4个pooling(池化)层。

在一些实施例中，通过骨架网络对图片A进行特征提取后，得到的feature map(特征图)输入至RPN(Region Proposal Network，区域生成网络)进行处理。

S320：通过区域生成网络生成所述原始特征图对应的建议窗口。

在一些实施例中，在RPN中，由骨架网络输入进来的特征图经过3*3的卷积核卷积后，分为两个分支进行处理：在第一个分支，通过1*1的卷积核再进行一次卷积，然后经过reshape(矩阵变换)函数、Softmax(损失)函数、reshape函数进行处理后，生成一些proposal(建议窗口)；在第二个分支，通过1*1的卷积核进行一次卷积，实现回归，以生成精确地proposal(建议窗口)，获得了建议窗口，就实现了对图片中待识别目标的定位功能。

S330：把所述建议窗口映射到所述原始特征图上，通过所述感兴趣区域池化层生成每个建议窗口的固定尺寸的特征图。

在一些实施例中，原始特征图指的是Faster RCNN输出的特征图。在得到建议窗口后，可将建议窗口映射到Faster RCNN输出的特征图上，通过ROI pooling(region ofinterest region of interest，感兴趣区域池化层)生成每个区域的固定尺寸的featuremap(特征图)。

S340：通过全连接层处理每一个建议窗口的特征图，得到所述目标图片的图片特征。

在一些实施例中，通过全连接层处理S330得到的每一个建议窗口的feature map，得到最后的输出特征，然后将输出特征做具体的类别分类和进一步的边框回归，其中，图7中，bbox_pred和cls_prob均为类别数。

通过图7所示的网络架构，可筛选出图片A的显著部分，每一部分表示为相应的卷积特征。目标检测的过程类似于人在看到一张图片时视觉注意力落在图像的显著区域，即实现了自底向上的注意力。将图片A进行处理后，最后输出图片A的图像特征，实现对图片A的编码。

根据图7所示的网络架构得到的图片A的特征生成描述文本的过程可参见图9，为一种描述文本生成网络的网络架构示意图。如图9所示，该描述生成网络可包括词嵌入模块、图像特征提取模块、描述生成模块和强化学习模块，其中，图像特征提取模块指图7所示的的整体网络模型。图像特征提取模块输出的图片A的特征输入到描述生成模块进行处理。

在一些实施例中，描述生成模块的输入还包括词嵌入模块，词嵌入模块可包括大量语料经word embedding(词嵌入)得到的字词编码。

在一些实施例中，词嵌入的方法如下：人工输入两个描述语句，词嵌入模块对该语料使用word embedding(字词嵌入)和BiLSTM(Bi-directional Long Short-Term Memory，双向长短时记忆)模型进行编码，使用BiLSTM可以学习如何表示一句话中的词和它上下文的关系，我们也可以理解成这是在词向量之后，在当前的语境下重新编码，得到新的embedding向量。

在一些实施例中，描述生成模块可包括三个LSTM(Long Short-Term Memory，长短时记忆)单元，LSTM单元的结构如图10，图10中，左侧为右侧的放大示意图，如图10所示，LSTM是一种特殊形式的RNN，可解决梯度消失和梯度爆炸问题。LSTM架构将RNN中的普通神经元替换为其内部拥有少量记忆的LSTM单元。LSTM架构中负责学习的实际上是环绕门(surrounding gates)，这些门都拥有一个非线性的激活函数，通常为sigmoid。在原始的LSTM单元中，有两种门：一种负责学习如何对到来的活性值进行缩放，而另一种负责学习如何对输出的活性值进行缩放。

图7中生成的图像特征和词嵌入模块输出的特征经图9的三个LSTM单元进行解码后，最后输入到softmax，其会输出一个n维的向量，其中，维度n和预设的词表的维度一致，表示此表的数量，然后这个n维中的最大值所在的索引所对应的词表中的词，就是最终生成的词，然后这样依次生成，直到生成的词为终止的标志，得到对图片A的描述语言。

例如，假设n＝5，假设预设的词表为{你，我，他，天空，蓝色}，生成的n个位置为{0.1,0.3,0.1,0.4,0.1},则最大的索引值就是3，生成的词为词表中第3个词，即天空。在一些实施例中，图9中还包括强化学习模块，强化学习模块可优化loss(损失)值，若描述生成模块对应的预测模型效果较好，则给予更小的loss反馈，若描述生成模块对应的预测模型效果较差，则给予更大的loss反馈，从而迭代选择效果最好的模型参数。

参见图11，为一种强化学习模块进行强化学习的流程示意图，如图11所示，在强化学习过程中，agent(智能体)与environment(环境)进行交互。

图11中，强化学习的元素定义如下：

智能体Agent：将算法框架中的负责描述生成的LSTMs作为agent；

环境Environment：将agent以外的输入图像、已生成词、词表等作为环境，与agent进行交互；

状态State：如S_t，S_t+1，包含LSTMs的细胞状态和隐含状态，attention权重等信息；

动作Action：如A_t，生成下一个词；

策略Policy：将所有的网络参数θ看作是策略pθ，策略决定了如何根据状态state去做动作action(生成下一个词)；

奖励Reward：如R_t，S_t+1，当生成了结束词EOS(end of sequence)时，Agent会获得一个奖励值reward，reward采用预设的分值或/和其他指标的组合值，通过计算生成句子和标注ground-truth的相似度算获得。

强化学习模块的强化学习算法可采用策略梯度算法，训练的优化目标是最大化期望奖励，即最小化期望奖励的负值，优化目标的计算公式如下：

其中，

是在第t时刻模型采样生成的词，L表示损失函数，θ表示网络参数，E表示期望函数，W^s表示生成的一个句子序列，p_A表示强化学习策略，r表示奖励函数。实际应用时，通过单样本采用上式可以简化为：

L(θ)＝-r(w^s)，w^s～p_θ

其中，pθ表示强化学习策略，等同于p_A,，可表示不同生成策略下的词表概率分布。

强化学习模块的策略梯度算法可通过计算期望奖励的梯度来进行目标函数优化，优化公式如下：

在根据图9所示的模型得到目标图像对应的文本描述后，可利用ESIM(EnhancedLSTM for Natural Language Inference，基于注意力机制的交互式匹配模型)匹配诗词歌赋。ESIM的结构如图12所示，该模型的介绍如下：

左侧代ESIM模型，右侧代表在树LSTM(Tree-LSTM)中包含语法分析信息的网络模型，ESIM模型具体被配置的处理流程为：

(A)底层为输入编码(Input Encoding)层。即将第二集合中的每个新语句输入到编码层中，由编码层获取每个新语句的核心词编码和问句(原句子)编码。在ESIM模型中，输入两个问句分别接Embedding和BiLSTM(即双向LSTM网络)，设两个问句中一个为前提(Premise)，另一个为假设(Hypothesis)，则使用BiLSTM分别对前提和假设进行编码，得到：

上式中，

为编码后前提问句，

为编码后的假设问句，a表示前提问句，b表示假设问句，i用于标识为前提问句中词的序号，j用于标识为假设问句中词的序号，la为前提问句中词的数量(相当于句长)，lb为假设问句中词的数量(相当于句长)。使用BiLSTM可以学习如何表示一句话中的词和它上下文的关系，也可以理解成这是在词向量之后，在当前语境下重新编码，得到新的Embedding向量。本申请中前提问句是目标问句，假设问句为候选问句。

(B)局部推理层实现局部推理建模(Local Inference Modeling)。在进行局部推理建模前，先将两个问句进行对齐，然后计算两个问句的词之间的相似度。这里实现对齐机制的是注意力机制，它的过程为：前提(假设)的词语序列被当做词袋嵌入向量，问句之间的“对齐”(或attention)则是单独计算的，以使前提的每个词语与假设中的词语保持语义一致。根据编码层获得的核心词编码和问句编码，利用点积的方式计算核心词间相似矩阵matrix_key以及问句间相似矩阵matrix_seqij。以matrix_seqij为例，可通过如下公式计算获得：

对于核心词间相似矩阵matrix_key，可以利用编码后目标问句的核心词向量与编码后候选问句的核心词向量，按照与matrix_seqij相类似的方式进行计算，这里不再赘述。核心词间相似矩阵matrix_key和问句间相似矩阵matrix_seqij为二维向量，比如前提句为“中国很美”，假设句为“我是中国人”，则得到的matrix_seqij如表1所示：

表1

	中国	很	美
				我	0.5	0.2	0.1
是	0.1	0.3	0.1
				中国	1	0.2	0.4
人	0.4	0.2	0.1

然后开始局部推理，利用之前得到的核心词间相似矩阵matrix_key和问句间相似矩阵matrix_seqij，分别计算目标问句和候选问句的组合式。

所述目标问句的组合式Query＝[Query；Query′；Query_keyword′]；

所述所述候选问句的组合式Candidate＝[Candidate；Candidate′；Candidate_keyword′]。

其中，Query表示目标问句的原句，Query′是在ESIM模型中进行交互处理时利用候选问句表示的目标问句，Query_keyword′是在ESIM模型中进行交互处理时利用候选问句的核心词表示的目标问句的核心词；Candidate表示候选问句的原句，Candidate′是在ESIM模型中进行交互处理时利用目标问句表示的候选问句，Candidate_keyword′是在ESIM模型中进行交互处理时利用目标问句的核心词表示的候选问句的核心词。

以Query′和Candidate′的计算为例，相当于结合目标问句和候选问句，互相生成彼此相似性加权后的句子表示，并且维度保持不变，计算公式如下：

由上式可见，

是对

进行加权求和之后的计算结果，也就是说

表示

中每个词与

的相关程度。同理，可以参照Query′和Candidate′的计算原理，去计算Query_keyword′和Candidate_keyword′本实施例不再赘述。

在计算出Query′和Query_keyword′后，再结合Query，即可拼接组合成目标问句的组合式；在计算出Candidate′和Candidate_keyword′后，再结合Candidate，即可拼接组合成候选问句的组合式，从而获得了局部推理信息。

(C)推理组合(Inference Composition)层用于根据目标问句和候选问句的组合式，计算局部推理信息的上下文表示向量，可以通过BiLSTM把局部推理信息进行一次提取，计算上下文表示向量时可采用平均池化(Average Pooling)和最大池化(MaxPooling)方法，并将所有池化处理后的量值连接起来，最终形成一个固定长度的特征向量V，并将特征向量V输入到预测(Prediction)层。

(D)预测层用于根据所述特征向量V，预测并排序各候选问句的概率得分。预测层可以是两层的全连接层，在池化层到全连接层之前还可以加上dropout防止过拟合。全连接层中，第一层可采用relu激活函数，第二层采用softmax作为预测输出。softmax可以自动计算出每个候选问句的概率得分，概率得分用于衡量每个候选问句对应的问答匹配程度，也即相当于每个候选问句被取得的概率。

softmax计算出N个候选问句的概率得分后，根据概率得分的高低进行排序，并将筛选出的最高概率得分对应的候选问句确定为匹配候选问句，并输出候选问句对应的答案信息。在一些实施例中，如果用户是语音输入目标问句，则可以通过扬声器等声音播放设备去语音播放答案信息；如果用户是手动文字输入目标问句，即显示设备的显示器上会显示目标问句的文字信息，那么匹配出的答案信息也通过显示器进行展示。需要说明的是，问答呈现形式不限于本实施例所述。

上述ESIM模型配置在控制器中。本申请在常规ESIM模型处理逻辑的基础上，增加了核心词的注意力交互，核心词注意力交互与问句间交互过程相类似，有关ESIM模型其他更细节的内容可适应性参照相关现有技术的说明，本实施例不再赘述。

上述实施例示出了对一个图片进行提取特征以及进行特征分析进而生成描述文本的过程。在得到描述文本后，需要根据描述文本在诗词歌赋数据集中进行召回。

在一些实施例中，在召回部分，可先将描述文本进行分词，得到多个词语。分词的方法可包括：根据人工预设的规则进行分词；根据统计的分词方法进行分词，根据语义理解进行分词。

在进行分词后，可通过倒排索引技术和语义检索技术召回分词得到的每个词语对应的诗词歌赋。

在一些实施例中，召回到的诗词歌赋可能有多首，可通过计算相似度来筛选出最符合图片情景的诗词歌赋。

在一些实施例中，可通过预训练的相似度模型来计算描述语言与获得的诗词歌赋的相似度，若相似度大于阈值，则可保留该诗词歌赋，若小于或等于，则不保留，最后，若保留的诗词歌赋的数量仍大于1，则可进行排序，选出相似度最高的诗词歌赋作为描述语言对应的诗词歌赋。示例性的，阈值可为0.95。

在一些实施例中，若没有相似度超过阈值的诗词歌赋，可则生成诗词歌赋为空的生成结果。

下面结合用户开启生成诗词歌赋功能的过程对诗词歌赋的生成方法做进一步描述。

参见图13，为根据一些实施例的媒资播放界面的示意图，如图13所示，该媒资播放界面中包含了一个人物，该人物的动作为一只手放在了胸前。

若用户在观看到图13所示的媒资播放界面时，按了遥控器的方向下键，则显示设备可根据方向下键的触发指令，在当前界面显示图14所示的菜单浮层。图14中的菜单浮层包括两个控件，左侧的为控件为播放控件，右侧的控件为诗词歌赋控件。播放控件被配置为在媒资正在播放时，若被点击一次则将当前播放的媒资暂停播放，在媒资暂停播放时，若被点击一次则继续播放当前媒资。诗词歌赋控件被触发时则可与服务器进行交互，以获取当前界面对应的诗词歌赋。

在一些实施例中，服务器在接收在图13所示的截图后，生成的描述文本为：“一个帅哥在房间里面思考人生”，把描述文本使用分词工具(如jieba等)进行分词，然后在预设的关键词(如名词、动词、形容词等)的前后分别添加<s>、<\s>信息，得到的分词结果为：“一个<s>帅哥<\s>在<s>房间<\s>里面tab思考<\s><s>人生<\s>”，表示得到的词语分别为：“一个”、“帅哥”、“在”、“房间”、“里面”、“思考”和“人生”。根据这些词语分别进行召回，最终得到一首与描述文本相似度最高的诗，示例性的，该相似度最高的诗为：“我知道他很帅我知道他的内心在思考未来”。将该首诗反馈给显示设备。

若接收到服务器返回的生成结果中包含诗词歌赋，则可从生成结果中提取出诗词歌赋，生成包含该诗词歌赋的浮层，将浮层显示在当前界面上。

在一些实施例中，生成的浮层中，每一行可分别显示诗词歌赋的一句内容，符合诗词歌赋的阅读方法。

参见图15，为根据一些实施例的诗词歌赋的显示界面示意图。图15中，诗词歌赋的内容为：“我知道他很帅我知道他的内心在思考未来”。该诗词共四句话，分了四行进行显示，便于用户进行阅读。

由上述实施例可见，本申请通过在显示设备上设置诗词歌赋功能，在用户使用该功能时，可将当前界面进行截屏，然后与服务器进行交互，通过服务器可对显示设备发送的图片进行分析，根据分析结果查找该图片对应的诗词歌赋，将诗词歌赋反馈给显示设备，使得显示设备可在当前界面上显示该诗词歌赋，从而增加用户观看媒资时的趣味性，提升用户体验。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种服务器，其特征在于，所述服务器被配置为：

通过预训练的特征提取网络对所述目标图像进行特征提取，获得特征图，根据所述特征图获得建议窗口，对图片中待识别目标的定位，将所述建议窗口映射到所述特征图上，生成每个区域的固定尺寸的特征图，根据所述每个区域的固定尺寸的特征图，提取所述目标图片的图片特征，通过预训练的描述生成网络对所述图片特征进行分析，生成所述目标图片的描述文本，所述描述生成网络包括描述生成模块和强化学习模块，所述描述生成模块用于生成对所述目标图片的描述语言，所述强化学习模块用于优化损失值，以便所述描述生成模块迭代选择效果最好的模型参数；

向所述显示设备发送包括所述诗词歌赋的生成结果。

2.根据权利要求1所述的服务器，其特征在于，所述特征提取网络包括：依次连接的快速区域卷积神经网络、区域生成网络、感兴趣区域池化层和全连接层，其中，所述快速区域卷积神经网络还与所述感兴趣区域池化层连接。

3.根据权利要求2所述的服务器，其特征在于，通过预训练的特征提取网络提取所述目标图片的图片特征，包括：

通过区域生成网络生成所述原始特征图对应的建议窗口；

4.根据权利要求1所述的服务器，其特征在于，所述描述生成网络包括：依次连接的第一个短时记忆网络、第二个长短时记忆网络、第一个全连接层、第三个长短时记忆网络、第二全连接层和逻辑回归模型。

5.根据权利要求1所述的服务器，其特征在于，在预先建立的诗词歌赋数据库中召回所述描述文本对应的诗词歌赋，包括：

将所述描述文本进行分词，得到多个词语；

分别召回每个词语对应的诗词歌赋；

将召回的多首诗词歌赋取交集，得到候选诗词歌赋；

6.根据权利要求1所述的服务器，其特征在于，在接收来自显示设备的诗词歌赋生成请求之前，所述服务器还被配置为：

采集诗词歌赋的正文及相关赏析；

将所述正文及相关赏析按照预设格式整理成数据集。

7.一种显示设备，其特征在于，包括：

显示器，用于呈现用户界面；

控制器，与所述显示器连接，所述控制器被配置为：

接收用户输入的诗词歌赋控件的触发指令；

响应于所述触发指令，获取媒资播放界面的截图；

接收来自所述服务器的包含诗词歌赋的生成结果，将所述生成结果中的诗词歌赋显示在所述媒资播放界面上方，所述包含诗词歌赋的生成结果中所述诗词歌赋为在预先建立的诗词歌赋数据库中召回所述目标图片的描述文本对应的诗词歌赋；

生成所述目标图片的描述文本包括：通过预训练的特征提取网络对所述目标图像进行特征提取，获得特征图，根据所述特征图获得建议窗口，对图片中待识别目标的定位，将所述建议窗口映射到所述特征图上，生成每个区域的固定尺寸的特征图，根据所述每个区域的固定尺寸的特征图，提取所述目标图片的图片特征，通过预训练的描述生成网络对所述图片特征进行分析，生成所述目标图片的描述文本；

所述描述生成网络包括描述生成模块和强化学习模块，所述描述生成模块用于生成对所述目标图片的描述语言，所述强化学习模块用于优化损失值，以便所述描述生成模块迭代选择效果最好的模型参数。

8.一种诗词歌赋生成方法，其特征在于，

向所述显示设备发送包括所述诗词歌赋的生成结果。

9.一种媒资播放方法，其特征在于，包括：

接收用户输入的诗词歌赋控件的触发指令；

响应于所述触发指令，获取媒资播放界面的截图；