CN116962782A

CN116962782A - 媒体信息的显示方法和装置、存储介质及电子设备

Info

Publication number: CN116962782A
Application number: CN202310468291.6A
Authority: CN
Inventors: 刘苏航
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-10-27

Abstract

本申请公开了一种媒体信息的显示方法和装置、存储介质及电子设备。其中，该方法包括：获取待播放的目标视频与目标文本区域，其中，目标文本区域表示目标视频在播放过程中显示的初始文本信息所在的区域，获取待显示的目标媒体信息，其中，目标媒体信息是目标视频播放过程中，响应于目标帐号的交互操作确定的媒体信息，在目标视频的播放画面中，显示目标媒体信息，其中，目标媒体信息与目标文本区域不重叠。本申请解决了相关技术中视频的显示效果不佳，媒体信息会对视频造成遮挡的技术问题。

Description

媒体信息的显示方法和装置、存储介质及电子设备

技术领域

本申请涉及计算机领域，具体而言，涉及一种媒体信息的显示方法和装置、存储介质及电子设备。

背景技术

目前，在视频播放过程中，可以在视频的播放画面中显示一些并不属于视频内容本身的媒体信息，例如，用户发送弹幕，弹幕功能允许用户输入的文字内容在视频中显示，由于弹幕会叠加在视频上方，视频画面的主要内容可能被弹幕遮挡，影响用户的观看体验，造成相关技术中视频的显示效果不佳，媒体信息会对视频造成遮挡的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种媒体信息的显示方法和装置、存储介质及电子设备，以至少解决相关技术中视频的显示效果不佳，媒体信息会对视频造成遮挡的技术问题。

根据本申请实施例的一个方面，提供了一种媒体信息的显示方法，包括：获取待播放的目标视频与目标文本区域，其中，所述目标文本区域表示所述目标视频在播放过程中显示的初始文本信息所在的区域；获取待显示的目标媒体信息，其中，所述目标媒体信息是所述目标视频播放过程中，响应于目标帐号的交互操作确定的媒体信息；在所述目标视频的播放画面中，显示所述目标媒体信息，其中，所述目标媒体信息与所述目标文本区域不重叠。

根据本申请实施例的另一方面，还提供了一种媒体信息的显示装置，包括：第一获取模块，用于获取待播放的目标视频与目标文本区域，其中，所述目标文本区域表示所述目标视频在播放过程中显示的初始文本信息所在的区域；第二获取模块，用于获取待显示的目标媒体信息，其中，所述目标媒体信息是所述目标视频播放过程中，响应于目标帐号的交互操作确定的媒体信息；显示模块，用于在所述目标视频的播放画面中，显示所述目标媒体信息，其中，所述目标媒体信息与所述目标文本区域不重叠。

可选地，所述装置用于通过如下方式获取待播放的目标视频与目标文本区域：获取所述目标视频以及所述初始文本信息；在所述初始文本信息包括外挂文本信息的情况下，根据所述外挂文本信息确定所述目标文本区域；在所述初始文本信息包括内嵌文本信息的情况下，根据所述内嵌文本信息确定所述目标文本区域；在所述初始文本信息包括所述外挂文本信息和所述内嵌文本信息的情况下，根据所述外挂文本信息和所述内嵌文本信息确定所述目标文本区域。

可选地，所述装置用于通过如下方式在所述初始文本信息包括外挂文本信息的情况下，根据所述外挂文本信息确定所述目标文本区域：在所述初始文本信息包括外挂文本信息的情况下，获取所述外挂文本信息的显示时间和显示位置，其中，所述显示时间表示所述外挂文本信息在所述目标视频播放过程中显示时所对应的时间戳，所述显示位置表示所述外挂文本信息在所述目标视频播放过程中显示时位于显示画面中的位置；在所述显示时间包括相对应的开始显示时间戳和结束显示时间戳，所述显示位置包括第一顶点坐标集合的情况下，根据所述第一顶点坐标集合生成所述目标文本区域，其中，所述第一顶点坐标集合用于指示所述外挂文本信息位于所述目标视频的显示画面上的坐标，所述目标文本区域表示在所述目标视频由所述开始显示时间戳播放至所述结束显示时间戳的播放过程中，所述外挂文本信息的显示区域。

可选地，所述装置用于通过如下方式在所述初始文本信息包括内嵌文本信息的情况下，根据所述内嵌文本信息确定所述目标文本区域：确定所述初始文本信息是否包括所述内嵌文本信息；在所述初始文本信息包括所述内嵌文本信息的情况下，将所述目标视频输入预训练的目标检测模型进行检测，确定所述目标视频中的目标帧视频图像，其中，所述目标检测模型用于逐帧检测出所述目标视频中每一帧视频画面是否包括所述内嵌文本信息，所述目标帧视频图像表示包括所述内嵌文本信息的视频图像；根据所述目标帧视频图像确定第二顶点坐标集合，并生成所述目标文本区域，其中，所述第二顶点坐标集合用于指示所述内嵌文本信息位于所述目标帧视频图像上的坐标，所述目标文本区域表示在所述目标帧视频图像中所述内嵌文本信息的显示区域。

可选地，所述装置用于通过如下方式根据所述目标帧视频图像确定第二顶点坐标集合，并生成所述目标文本区域：对所述目标帧视频图像进行所述目标检测，确定所述第二顶点坐标集合，其中，所述第二顶点坐标集合包括至少一组顶点坐标，每组顶点坐标包括多个顶点坐标，所述每组顶点坐标与所述目标帧视频图像中的一个目标文本子区域对应，所述目标文本区域由至少一个所述目标文本子区域组成；将所述每组顶点坐标通过连接的方式构成一个所述目标文本子区域的边界，生成所述目标文本区域。

可选地，所述装置还用于：所述在所述初始文本信息包括所述内嵌文本信息的情况下，将所述目标视频输入预训练的目标检测模型进行检测，确定所述目标视频中的目标帧视频图像之前，在所述初始文本信息包括所述内嵌文本信息的情况下，对所述内嵌文本信息的字体类型进行识别；在所述内嵌文本信息的字体类型为目标字体类型的情况下，从检测模型集合中确定所述目标检测模型，其中，所述检测模型集合包括对至少两种字体类型的文本信息进行检测的检测模型，所述目标检测模型与所述目标字体类型对应。

可选地，所述装置用于通过如下方式获取待播放的目标视频与目标文本区域：在目标客户端上获取目标播放指令，其中，所述目标播放指令用于指示播放所述目标视频；响应于所述目标播放指令，在所述目标客户端上获取所述目标视频和所述目标文本区域，并播放所述目标视频，其中，所述目标视频包括N帧视频图像，所述目标文本区域包括M组文本区域，所述M组文本区域是在目标服务器上对所述N帧视频图像逐帧进行目标检测确定的文本区域，所述M组文本区域的一组所述文本区域与所述N帧视频图像的一帧视频图像对应，N为正整数，M为小于或等于N的正整数。

可选地，所述装置用于通过如下方式在所述目标视频的播放画面中，显示所述目标媒体信息：根据所述目标文本区域生成目标掩膜，其中，所述目标掩膜被设置为禁止显示所述目标媒体信息的透明掩膜；将所述目标掩膜叠加至所述目标视频，播放所述目标视频，其中，所述目标媒体信息显示在所述目标视频的视频画面中除所述目标掩膜之外的其它区域。

可选地，所述装置用于通过如下方式获取待显示的目标媒体信息：响应于所述目标帐号的文本输入操作，获取所述目标帐号输入的弹幕文本信息，其中，所述目标媒体信息包括所述弹幕文本信息，所述弹幕文本信息包括所述目标帐号观看所述目标视频的过程中，所述目标帐号输入的文本信息；响应于所述目标帐号的文本选择操作，获取所述目标帐号选择的礼物文本信息，其中，所述目标媒体信息包括所述礼物文本信息，所述礼物文本信息包括所述目标帐号观看所述目标视频的过程中，允许向所述目标视频的作者帐号赠送的虚拟物品对应的文本信息；响应于所述目标帐号的界面交互操作，获取所述目标帐号选择的交互文本信息，其中，所述目标媒体信息包括所述交互文本信息，所述交互文本信息包括预先为所述目标视频配置的，允许根据所述目标视频的播放进度进行显示，并由所述目标帐号选择的交互文本信息；响应于所述目标帐号的表情交互操作，获取所述目标帐号输入的虚拟表情信息，其中，所述目标媒体信息包括所述虚拟表情信息，所述虚拟表情信息包括所述目标帐号观看所述目标视频的过程中，所述目标帐号输入的虚拟表情。

可选地，所述装置用于通过如下方式在所述目标视频的播放画面中，显示所述目标媒体信息：获取预先为所述目标视频配置的推送媒体信息，其中，所述目标媒体信息包括所述推送媒体信息，所述推送媒体信息包括所述目标帐号观看所述目标视频的过程中，允许向所述目标帐号推送的媒体信息；在所述目标视频的播放画面中，显示所述推送媒体信息，其中，所述推送媒体信息的显示位置在所述目标文本区域外部。

可选地，所述装置还用于：获取目标人像区域，其中，所述目标人像区域表示所述目标视频在播放过程中显示的人像所在的区域；在所述目标视频的播放画面中，显示所述目标媒体信息，其中，所述目标媒体信息显示在所述目标文本区域和所述目标人像区域的外部。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述媒体信息的显示方法。

根据本申请实施例的又一方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上媒体信息的显示方法。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的媒体信息的显示方法。

在本申请实施例中，采用获取待播放的目标视频与目标文本区域，其中，目标文本区域表示目标视频在播放过程中显示的初始文本信息所在的区域，获取待显示的目标媒体信息，目标媒体信息是目标视频播放过程中，响应于目标帐号的交互操作确定的媒体信息，在目标视频的播放画面中，显示目标媒体信息，目标媒体信息与目标文本区域不重叠的方式，通过获取目标视频和目标文本区域，在获取到需要显示的目标媒体信息的情况下，将目标媒体信息显示在该目标文本区域显示位置的外部，以避免造成目标视频播放过程中，对目标文本区域显示的初始文本信息的遮挡，达到了避免处于目标文本区域的文本信息被遮挡的目的，从而实现了提高视频显示效果的技术效果，进而解决了相关技术中视频的显示效果不佳，媒体信息会对视频造成遮挡的技术问题。

此外，当目标文本区域显示的初始文本信息是外挂文本信息时，可以直接通过外挂文本确定出外挂文本信息的显示位置，进而快速确定出上述目标文本区域，当目标文本区域显示的初始文本信息是内嵌文本信息时，可以通过检测模型对视频中的文本进行检测，确定出内嵌文本信息的显示位置，进而快速确定出上述目标文本区域，以显示上述目标媒体信息，达到了提高视频显示效果的技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的媒体信息的显示方法的应用环境的示意图；

图2是根据本申请实施例的一种可选的媒体信息的显示方法的流程示意图；

图3是根据本申请实施例的一种可选的媒体信息的显示方法的示意图；

图4是根据本申请实施例的又一种可选的媒体信息的显示方法的示意图；

图5是根据本申请实施例的又一种可选的媒体信息的显示方法的示意图；

图6是根据本申请实施例的又一种可选的媒体信息的显示方法的示意图；

图7是根据本申请实施例的又一种可选的媒体信息的显示方法的示意图；

图8是根据本申请实施例的又一种可选的媒体信息的显示方法的示意图；

图9是根据本申请实施例的又一种可选的媒体信息的显示方法的示意图；

图10是根据本申请实施例的又一种可选的媒体信息的显示方法的示意图；

图11是根据本申请实施例的又一种可选的媒体信息的显示方法的示意图；

图12是根据本申请实施例的一种可选的媒体信息的显示装置的结构示意图；

图13是根据本申请实施例的一种可选的媒体信息的显示产品的结构示意图；

图14是根据本申请实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

目标检测算法：主流的目标检测算法大致分为one-stage与two-stage两种类型的算法，其中，two-stage算法代表有R-CNN系列，one-stage算法代表有Yolo系列，two-stage算法输入图像先经过候选框生成网络，再经过分类网络，对候选框的内容进行分类；one-stage算法输入图像只经过一个网络，生成的结果中同时包含位置与类别信息。

下面结合实施例对本申请进行说明：

根据本申请实施例的一个方面，提供了一种媒体信息的显示方法，可选地，在本实施例中，上述媒体信息的显示方法可以应用于如图1所示的由服务器101和终端设备103所构成的硬件环境中。如图1所示，服务器101通过网络与终端103进行连接，可用于为终端设备或终端设备上安装的应用程序提供服务，应用程序可以是视频应用程序、即时通信应用程序、浏览器应用程序、教育应用程序、游戏应用程序等。可在服务器上或独立于服务器设置数据库105，用于为服务器101提供数据存储服务，例如，游戏数据存储服务器，上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络，终端设备103可以是配置有应用程序的终端，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视、智能语音交互设备、智能家电、车载终端、飞行器、虚拟现实(VirtualReality，简称VR)终端、增强现实(Augmented Reality，简称AR)终端、混合现实(MixedReality，简称MR)终端等计算机设备，上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。

结合图1所示，上述媒体信息的显示方法可以在终端设备103通过如下步骤实现：

S1，在终端设备103上获取待播放的目标视频与目标文本区域，其中，目标文本区域表示目标视频在播放过程中显示的初始文本信息所在的区域；

S2，在终端设备103上获取待显示的目标媒体信息，其中，目标媒体信息是目标视频播放过程中，响应于目标帐号的交互操作确定的媒体信息；

S3，在目标视频的播放画面中，在终端设备103上显示目标媒体信息，其中，目标媒体信息与目标文本区域不重叠。

可选地，在本实施例中，上述媒体信息的显示方法还可以通过服务器实现，例如，图1所示的服务器101中实现；或由终端设备和服务器共同实现。

上述仅是一种示例，本实施例不做具体的限定。

可选地，作为一种可选的实施方式，如图2所示，上述媒体信息的显示方法包括：

S202，获取待播放的目标视频与目标文本区域，其中，目标文本区域表示目标视频在播放过程中显示的初始文本信息所在的区域；

可选地，在本实施例中，上述目标视频可以包括但不限于为视频播放平台向客户端提供的待播放视频，具体而言，可以包括但不限于长视频、短视频等，也可以包括但不限于由客户端预先从服务器下载的待播放视频，其中，如果该目标视频是由客户端预先从服务器下载的待播放视频，则在下载上述待播放视频的过程中，也会将上述目标文本区域对应的文件进行关联下载，以在客户端对上述目标文本区域对应的文件进行解析，确定上述目标文本区域。

在一个示例性的实施例中，上述初始文本信息可以包括但不限于上述目标视频的视频画面中显示出的文本信息，可以包括但不限于外挂文本信息或内嵌文本信息，其中，外挂文本信息包括但不限于为目标视频添加相关的字幕文本信息、解说词文本信息等，内嵌文本信息包括但不限于内嵌在目标视频内的字幕、目标视频中拍摄到的文字等。

需要说明的是，上述目标文本区域包括但不限于上述初始文本信息的显示位置所在的区域，该区域可以是矩形、椭圆形等可以框选出目标视频在播放过程中显示的初始文本信息。

示例性地，图3是根据本申请实施例的一种可选的媒体信息的显示方法的示意图，如图3所示，包括文本信息302和文本信息304，图3表示目标视频在播放器中播放的应用场景，目标视频的视频画面中显示有视频录制过程中采集到的录制文字信息“第五天”(文本信息302)和后期添加的字幕信息“谁是坏人？”(文本信息304)，则上述录制文字信息和字幕信息即为上述初始文本信息，录制文字信息与字幕信息显示的区域即为上述目标文本区域。

可选地，在本实施例中，上述目标文本区域是根据初始文本信息的显示位置确定的区域，当初始文本信息是外挂文本信息的情况下，直接可以获取外挂文本信息的坐标位置，并基于该坐标位置生成上述目标文本区域，当初始文本信息是内嵌文本信息的情况下，可以对内嵌文本信息进行目标检测，得到内嵌文本信息的坐标位置，并基于该坐标位置生成上述目标文本区域。

S204，获取待显示的目标媒体信息，其中，目标媒体信息是目标视频播放过程中，响应于目标帐号的交互操作确定的媒体信息；

可选地，在本实施例中，上述目标媒体信息可以包括但不限于由服务器或用户添加的媒体信息，可以包括但不限于文字、动画等，具体而言，可以包括但不限于弹幕、表情、通知等文字或动画媒体信息。

在一个示例性的实施例中，以上述目标媒体信息是用户添加的媒体信息为例，当目标视频播放至第i帧时，用户主动输入了弹幕文本“真好看”，此时，该弹幕文本会显示在目标视频的视频画面上，为了避免该弹幕文本对视频画面中的初始文本信息的遮挡，将该弹幕文本设置为显示在视频画面中除上述目标文本区域之外的其它区域显示。

示例性地，图4是根据本申请实施例的另一种可选的媒体信息的显示方法的示意图，如图4所示，包括文本信息402、文本信息404以及媒体信息406，图4表示目标视频在播放器中播放至第i帧的应用场景，目标视频的视频画面中显示有视频录制过程中采集到的录制文字信息“第五天”(文本信息402)、后期添加的字幕信息“谁是坏人？”(文本信息404)，在对目标视频的第i帧进行目标检测后，识别确定了目标文本区域408和目标文本区域410，此时，用户输入了弹幕文本“真好看！”(媒体信息406)显示在目标文本区域408和目标文本区域410的外部，避免媒体信息406对文本信息402和文本信息404的遮挡，以在保证显示用户输入的弹幕文本可以显示的情况下，不影响目标视频中的初始文本信息的显示的技术效果。

可选地，在本实施例中，上述目标媒体信息是目标视频播放过程中生成的媒体信息，当目标视频录制完成时，并不能确定该目标媒体信息需要显示的时间，因此，当播放目标视频时，才能够通过获取目标文本区域，来实现目标媒体信息与视频画面叠加显示时，目标媒体信息不会影响视频画面的正常显示，至少避免了重要的初始文本信息被遮挡后对于用户观看体验的影响。

需要说明的是，上述目标帐号的交互操作可以理解为目标帐号在目标视频播放过程中获取的交互操作，该交互操作可以包括但不限于点击、长按、双击、文本输入操作等。

示例性地，图5是根据本申请实施例的又一种可选的媒体信息的显示方法的示意图，如图5所示，首先，用户点击用于输入弹幕的交互对象，响应于对交互对象的交互操作，显示文本输入框，用户在文本输入框输入文本之后，响应于对“发送”按钮执行的交互操作，在目标视频的视频画面中，将目标媒体信息显示在目标文字区域之外的区域，以在保证显示用户输入的弹幕文本可以显示的情况下，不影响目标视频中初始文本信息的显示的技术效果。

S206，在目标视频的播放画面中，显示目标媒体信息，其中，目标媒体信息与目标文本区域不重叠。

可选地，在本实施例中，上述目标媒体信息与目标文本区域的不重叠可以理解为在目标视频的播放画面中，为目标文本区域添加透明掩膜，并将目标媒体信息显示在除透明掩膜之外的其他区域。

需要说明的是，上述目标媒体信息与目标文本区域不重叠表示在视觉呈现上不重叠，包括但不限于环绕、间隔呈现等。也即，目标媒体信息与目标文本区域不重叠表示的是用户观察上述目标媒体信息与目标文本区域时，目标媒体信息和目标文本区域的显示互相不会干扰即可。

在一个示例性的实施例中，该透明掩膜可以为透明遮罩，以利用透明遮罩进行遮蔽，避免目标媒体信息显示后遮挡了目标视频显示的初始文本信息。

示例性地，图6是根据本申请实施例的又一种可选的媒体信息的显示方法的示意图，如图6所示，响应于对“发送”按钮执行的交互操作，在目标视频的视频画面中，将目标媒体信息显示在目标文字区域之外的区域，也即，当目标媒体信息显示在目标文字区域之内的区域则是错误显示，目标媒体信息显示在目标文字区域之外的区域则是正确显示，以在保证显示用户输入的弹幕文本可以显示的情况下，不影响目标视频中初始文本信息的显示的技术效果。

需要说明的是，图7是根据本申请实施例的又一种可选的媒体信息的显示方法的示意图，如图7所示，上述目标文本区域可以由播放器单独确定或者由服务器确定后发送至播放器或者由播放器确定一部分目标文本区域，由服务器确定另一部分目标文本区域，这是取决于初始文字信息是内嵌文字信息的情况下，需要使用目标检测模型对目标视频进行检测，而目标检测模型的检测速度取决于设备的计算能力，当目标检测模型所占用的计算资源较多时，则由服务器执行确定目标文本区域的相关操作，当目标检测模型所占用的计算资源较少时，则可以由播放器所在终端执行确定目标文本区域的相关操作。上述仅是一种示例，本申请不做任何具体的限定。

通过本实施例，采用获取待播放的目标视频与目标文本区域，其中，目标文本区域表示目标视频在播放过程中显示的初始文本信息所在的区域，获取待显示的目标媒体信息，目标媒体信息是目标视频播放过程中，响应于目标帐号的交互操作确定的媒体信息，在目标视频的播放画面中，显示目标媒体信息，目标媒体信息与目标文本区域不重叠的方式，通过获取目标视频和目标文本区域，在获取到需要显示的目标媒体信息的情况下，将目标媒体信息显示在该目标文本区域显示位置的外部，以避免造成目标视频播放过程中，对目标文本区域显示的初始文本信息的遮挡，达到了避免处于目标文本区域的文本信息被遮挡的目的，从而实现了提高视频显示效果的技术效果，进而解决了相关技术中视频的显示效果不佳，媒体信息会对视频造成遮挡的技术问题。

作为一种可选的方案，获取待播放的目标视频与目标文本区域，包括：获取目标视频以及初始文本信息；在初始文本信息包括外挂文本信息的情况下，根据外挂文本信息确定目标文本区域；在初始文本信息包括内嵌文本信息的情况下，根据内嵌文本信息确定目标文本区域；在初始文本信息包括外挂文本信息和内嵌文本信息的情况下，根据外挂文本信息和内嵌文本信息确定目标文本区域。

可选地，在本实施例中，上述初始文本信息可以包括但不限于外挂文本信息，例如，外挂字幕、外挂广告等，上述外挂文本信息可以作为文件单独进行传输，也可以通过其它方式预先获得，该外挂文本信息关联的文件指示了相关文本需要显示的时间戳和需要显示时所显示的位置，进而，可以根据显示时间和显示位置来确定目标文本区域。

可选地，在本实施例中，上述初始文本信息可以包括但不限于内嵌文本信息，例如，内嵌字幕、录制视频过程中采集到的文本等，上述内嵌文本信息可以由服务器对目标视频进行检测后，将相关文本需要显示的时间戳和需要显示时所显示的位置创建为相关文件，而播放器可以根据该相关文件确定显示时间和显示位置，进而确定目标文本区域。

作为一种可选的方案，在初始文本信息包括外挂文本信息的情况下，根据外挂文本信息确定目标文本区域，包括：在初始文本信息包括外挂文本信息的情况下，获取外挂文本信息的显示时间和显示位置，其中，显示时间表示外挂文本信息在目标视频播放过程中显示时所对应的时间戳，显示位置表示外挂文本信息在目标视频播放过程中显示时位于显示画面中的位置；在显示时间包括相对应的开始显示时间戳和结束显示时间戳，显示位置包括第一顶点坐标集合的情况下，根据第一顶点坐标集合生成目标文本区域，其中，第一顶点坐标集合用于指示外挂文本信息位于目标视频的显示画面上的坐标，目标文本区域表示在目标视频由开始显示时间戳播放至结束显示时间戳的播放过程中，外挂文本信息的显示区域。

可选地，在本实施例中，上述显示时间用于指示该外挂文本信息在目标视频中进行显示所对应的播放进度，上述第一顶点坐标集合包括表示外挂文本信息的多个顶点，多个顶点包括但不限于能够指示出目标视频的一个区域的多个顶点，以目标文本区域是矩形区域为例，则上述多个顶点即为上述矩形区域的四个顶点。

需要说明的是，上述外挂文字区域是随视频内容的变化动态的，因此可以随着目标视频的播放进度逐帧生成，使得每个视频帧都有其对应的文字区域标注，以外挂文本信息是外挂字幕为例，外挂字幕是独立于视频文件的字幕信息文件，记录了对应目标视频的字幕文本，每条字幕的显示顺序和在视频中的显示时间段等。

示例性地，图8是根据本申请实施例的又一种可选的媒体信息的显示方法的示意图，如图8所示，以SRT格式外挂字幕的一个字幕段示例，其中，第一行为字幕段序号；第二行为字幕开始显示和结束显示的时间戳；第三行为字幕内容；第四行为空行表示字幕段的结束。播放器解析上述信息，在对应的时间将字幕文本按照字幕显示顺序合成到视频画面中，其中，字幕的样式、大小、位置等信息由外挂字幕文件提供，播放器参考上述信息，决策并渲染，在渲染过程中，基于该位置信息确定目标文字区域，并将目标媒体信息显示在目标文字区域的外部。

通过本实施例，当目标文本区域显示的初始文本信息是外挂文本信息时，可以直接通过外挂文本确定出外挂文本信息的显示位置，进而快速确定出上述目标文本区域，以显示上述目标媒体信息，达到了提高视频显示效果的技术效果。

作为一种可选的方案，在初始文本信息包括内嵌文本信息的情况下，根据内嵌文本信息确定目标文本区域，包括：确定初始文本信息是否包括内嵌文本信息；在初始文本信息包括内嵌文本信息的情况下，将目标视频输入预训练的目标检测模型进行检测，确定目标视频中的目标帧视频图像，其中，目标检测模型用于逐帧检测出目标视频中每一帧视频画面是否包括内嵌文本信息，目标帧视频图像表示包括内嵌文本信息的视频图像；根据目标帧视频图像确定第二顶点坐标集合，并生成目标文本区域，其中，第二顶点坐标集合用于指示内嵌文本信息位于目标帧视频图像上的坐标，目标文本区域表示在目标帧视频图像中内嵌文本信息的显示区域。

可选地，在本实施例中，上述第二顶点坐标集合包括表示外挂文本信息的多个顶点，多个顶点包括但不限于能够指示出目标视频的一个区域的多个顶点，以目标文本区域是矩形区域为例，则上述多个顶点即为上述矩形区域的四个顶点。

需要说明的是，上述内嵌文字区域是随视频内容的变化动态的，因此可以随着目标视频的播放进度逐帧生成，使得每个视频帧都有其对应的文字区域标注，以内嵌文本信息是内嵌字幕为例，通过目标检测模型可以对目标视频中的文字进行检测，以确定每条字幕的显示时间和显示位置。

在一个示例性的实施例中，上述目标检测模型可以包括但不限于可以生成锚框框选目标对象的检测模型，包括但不限于按one-stage和two-stage、anchor based和anchorfree进行归类，如下所示：

Two-stage模型：Faster RCNN、Cascade RCNN、MaskRCNN；

One-stage模型：Yolo系列、SSD、RetinaNet、FCOS、CornerNet；

Anchor Based模型、Anchor Free模型。

示例性地，图9是根据本申请实施例的又一种可选的媒体信息的显示方法的示意图，如图9所示，将目标视频输入预先训练的目标检测模型，目标检测模型首先确定初始文本信息是否包括内嵌文本信息，在初始文本信息包括内嵌文本信息的情况下，检测该内嵌文本信息在目标视频中所处的位置，得到第二顶点坐标集合，以确定内嵌文本信息位于目标帧视频图像上的坐标，并生成目标文本区域，上述第二顶点坐标集合包括图9所示的顶点902、顶点904、顶点906以及顶点908，由第二顶点坐标集合可以框选出目标文字区域。

通过本实施例，当目标文本区域显示的初始文本信息是内嵌文本信息时，可以通过检测模型对视频中的文本进行检测，确定出内嵌文本信息的显示位置，进而快速确定出上述目标文本区域，以显示上述目标媒体信息，达到了提高视频显示效果的技术效果。

作为一种可选的方案，根据目标帧视频图像确定第二顶点坐标集合，并生成目标文本区域，包括：对目标帧视频图像进行目标检测，确定第二顶点坐标集合，其中，第二顶点坐标集合包括至少一组顶点坐标，每组顶点坐标包括多个顶点坐标，每组顶点坐标与目标帧视频图像中的一个目标文本子区域对应，目标文本区域由至少一个目标文本子区域组成；将每组顶点坐标通过连接的方式构成一个目标文本子区域的边界，生成目标文本区域。

在一个示例性的实施例中，单一视频帧可以被视为静态图像，其可能拥有0到任意个互不接壤的文字区域，以图9为例，该帧文字区域即可被划分为2个独立区域，考虑到文本通常书写在矩形区域中，而文本展现在视频帧中可能伴随旋转、透视等变换，因此可将独立文字区域以四边形，即以视频帧为平面参考系的4个顶点坐标表示，故视频帧的文字区域标注为若干坐标点，例如，对于图9来说，其2个独立文字区域通过8个坐标描述。

作为一种可选的方案，在初始文本信息包括内嵌文本信息的情况下，将目标视频输入预训练的目标检测模型进行检测，确定目标视频中的目标帧视频图像之前，上述方法还包括：在初始文本信息包括内嵌文本信息的情况下，对内嵌文本信息的字体类型进行识别；在内嵌文本信息的字体类型为目标字体类型的情况下，从检测模型集合中确定目标检测模型，其中，检测模型集合包括对至少两种字体类型的文本信息进行检测的检测模型，目标检测模型与目标字体类型对应。

可选地，在本实施例中，可以预先为不同字体类型训练不同的检测模型，当字体类型为目标字体类型的情况下，选择检测模型中的目标检测模型进行检测，也可以在检测模型中添加检测字体的模块，并在检测出对应的目标字体类型后，选择与目标字体类型对应的识别模块进行文字区域的识别。

需要说明的是，上述目标检测模型可以是前述的检测模型，也可以是前述的检测模型中的一个检测模块。

作为一种可选的方案，获取待播放的目标视频与目标文本区域，包括：在目标客户端上获取目标播放指令，其中，目标播放指令用于指示播放目标视频；响应于目标播放指令，在目标客户端上获取目标视频和目标文本区域，并播放目标视频，其中，目标视频包括N帧视频图像，目标文本区域包括M组文本区域，M组文本区域是在目标服务器上对N帧视频图像逐帧进行目标检测确定的文本区域，M组文本区域的一组文本区域与N帧视频图像的一帧视频图像对应，N为正整数，M为小于或等于N的正整数。

可选地，在本实施例中，上述目标播放指令可以理解为用户在视频集合中选中了一个视频后进行播放的指令，当获取到该目标播放指令时，客户端从服务器获取上述目标视频，并同时获取与上述目标视频对应的目标文本区域，并开始播放目标视频。

需要说明的是，上述目标视频可以包括但不限于N帧视频图像，上述N帧视频图像中可以是部分帧视频图像具有对应的文本区域，也可以全部帧视频图像具有对应的文本区域，每帧视频图像对应一组文本区域，不同帧视频图像所对应的不同组文本区域中文本区域的数量允许不同，也即，具体一帧视频图像对应的文本区域数量是根据该帧视频图像中分布的初始文字信息所在区域的数量决定的。

例如，目标视频包括第1帧至第5帧，共5帧图像，第1帧视频图像可以对应3个文本区域，第2帧视频图像可以对应2个文本区域，第3-5帧可以对应1个文本区域，则共计5组文本区域(对应于前述的M组文本区域)，上述5组文本区域共同组成上述目标文本区域。

作为一种可选的方案，在目标视频的播放画面中，显示目标媒体信息，包括：

根据目标文本区域生成目标掩膜，其中，目标掩膜被设置为禁止显示目标媒体信息的透明掩膜；

将目标掩膜叠加至目标视频，播放目标视频，其中，目标媒体信息显示在目标视频的视频画面中除目标掩膜之外的其它区域。

可选地，在本实施例中，上述目标掩膜是一种透明掩膜，可以在需要显示目标媒体信息的时候，禁止该目标媒体信息显示在该透明掩膜上。

作为一种可选的方案，获取待显示的目标媒体信息，包括：响应于目标帐号的文本输入操作，获取目标帐号输入的弹幕文本信息，其中，目标媒体信息包括弹幕文本信息，弹幕文本信息包括目标帐号观看目标视频的过程中，目标帐号输入的文本信息；

响应于目标帐号的文本选择操作，获取目标帐号选择的礼物文本信息，其中，目标媒体信息包括礼物文本信息，礼物文本信息包括目标帐号观看目标视频的过程中，允许向目标视频的作者帐号赠送的虚拟物品对应的文本信息；

响应于目标帐号的界面交互操作，获取目标帐号选择的交互文本信息，其中，目标媒体信息包括交互文本信息，交互文本信息包括预先为目标视频配置的，允许根据目标视频的播放进度进行显示，并由目标帐号选择的交互文本信息；

响应于目标帐号的表情交互操作，获取目标帐号输入的虚拟表情信息，其中，目标媒体信息包括虚拟表情信息，虚拟表情信息包括目标帐号观看目标视频的过程中，目标帐号输入的虚拟表情。

可选地，在本实施例中，上述文本输入操作如图5所示，可以通过播放器上用于输入弹幕文本的交互对象，来实现目标媒体信息的输入，上述目标帐号可以理解为登录播放器的帐号或观看过上述目标视频的帐号。

可选地，在本实施例中，上述礼物文本信息可以包括但不限于用户打赏给视频作者的虚拟礼物所对应的文本信息，例如，一个虚拟金币、一个虚拟游艇，则可以在目标帐号观看目标视频的过程中，在目标文本区域外部显示上述虚拟金币或虚拟游艇对应的文本信息，例如，XX赠送了1个虚拟金币等。

可选地，在本实施例中，上述界面交互操作可以包括但不限于服务器预先设置了标识集合，可以在不同的播放进度设置不同或相同的标识集合进行显示，以提供给用户进行选择，例如，上述目标视频为悬疑视频，则上述标识集合可以是预先设置的嫌疑人集合，以提供给用户进行选择，而该区域可以设置为允许用户交互，以便于用户在该位置实现观看目标视频的交互。

可选地，在本实施例中，上述界面交互操作可以包括但不限于从虚拟表情集合中选中或目标帐号输入的虚拟表情。

作为一种可选的方案，在目标视频的播放画面中，显示目标媒体信息，包括：获取预先为目标视频配置的推送媒体信息，其中，目标媒体信息包括推送媒体信息，推送媒体信息包括目标帐号观看目标视频的过程中，允许向目标帐号推送的媒体信息；在目标视频的播放画面中，显示推送媒体信息，其中，推送媒体信息的显示位置在目标文本区域外部。

可选地，在本实施例中，上述推送媒体信息可以包括但不限于节目预告、商品广告等预先为目标视频配置的媒体信息。

作为一种可选的方案，所述方法还包括：获取目标人像区域，其中，所述目标人像区域表示所述目标视频在播放过程中显示的人像所在的区域；在所述目标视频的播放画面中，显示所述目标媒体信息，其中，所述目标媒体信息显示在所述目标文本区域和所述目标人像区域的外部。

可选地，在本实施例中，上述目标人像区域可以包括但不限于通过人像检测模型识别到的人像区域，换言之，上述目标媒体信息显示过程中，除了需要规避目标文本区域之外，还需要规避目标人像区域，以进一步提高视频内容的显示效果。

下面结合具体的示例，对本申请进行进一步地解释说明：

本申请提出一种防止视频中文字被弹幕遮挡的办法，通过检测视频本身的文字内容区域和外挂字幕显示区域，禁止弹幕在区域中显示以达到防止视频文字被弹幕遮挡的目的，提升视频观看体验，弹幕功能允许用户输入的文字内容在视频特定时刻滚动出现，丰富了用户观影时的互动方式。

由于弹幕以文字形式展现，当弹幕遮挡视频中的文字内容时，会产生互相干扰。例如，底部弹幕可能遮挡视频的字幕，同时影响用户辨识弹幕和字幕内容；弹幕亦可能遮挡作者拍摄到的文本内容等等。本申请生成视频中的文字内容区域，禁止弹幕在文字区域中显示，从而防止弹幕遮挡文字。

本申请可包括但不限于应用在终端视频播放器播放带有弹幕数据的视频资源相关场景中。用户打开弹幕开关的情况下，弹幕内容会在视频的文本区域被实时隐藏。当弹幕滚出文本区域，或文本区域消失，则恢复显示。

本申请可以在播放器侧实现，可适用于Web、移动端、PC等各终端场景。考虑到终端的性能问题，为确保实时性，算法推理部分由后台提前完成，并通过网络将结果和视频源流一起传输给终端播放器。实现方式分为两步：一，生成视频内容的文字区域；二，基于文字区域控制弹幕部分或全部可见性。

显然，上述文字区域应随视频内容的变化动态更新，因此需要逐帧生成，使得每个视频帧都有其对应的文字区域标注，单一视频帧可以被视为静态图像，其可能拥有0到任意个互不接壤的文字区域，考虑到文本通常书写在矩形区域中，而文本展现在视频帧中可能伴随旋转、透视等变换，因此可将独立文字区域以四边形，即以视频帧为平面参考系的4个顶点坐标表示，故视频帧的文字区域标注为若干坐标点。逐帧生成文字区域坐标的方法可分两种情况讨论，外挂字幕的文字区域坐标生成和视频内容中文字的文字区域坐标生成。

外挂字幕是独立于视频文件的字幕信息文件，记录了对应视频的字幕文本，每条字幕的显示顺序和在视频中的显示时间段等。播放器解析这些信息，在合适的时间将字幕顺序合成到视频画面中。字幕的样式、大小、位置等信息可能由外挂字幕文件提供，播放器参考这些信息，决策并渲染。因此，外挂字幕的字幕文字区域可由终端播放器直接生成，图10是根据本申请实施例的又一种可选的媒体信息的显示方法的示意图，如图10所示，播放时，播放器确定当前字幕的位置等信息后，根据这些信息计算出字幕的实际占用区域，其各顶点坐标即可表示当前帧外挂字幕的文字区域。

另一方面，视频本身也会包含文字内容，例如内嵌字幕、后期配文和拍摄到的的文字等，这些内容是视频帧图像的一部分，不像外挂字幕在数据上依然保有文本属性，因此需要使用文字检测算法将该内容从视频帧像素数据中检测出来。相比于内嵌字幕等后期添加的文本，实拍文字处于更复杂的现实环境中，受到拍摄角度、设备质量等影响往往伴有倾斜、扭曲、模糊等不利检测的因素。因此，本申请使用复杂场景下仍能保持优异准确性和鲁棒性的深度学习算法作为目标检测算法。文字检测领域的深度学习算法发展迅猛，已公开并沉淀了一批优秀且稳定的算法，例如CTPN、EAST等，这些算法的设计同时考虑了准确性和推理速度，且公开数年，在各工程中已得到广泛应用。更重要的是这些算法支持倾斜文本的检测和倾斜文本框生成，可很好地处理实拍文本的复杂场景，因此，可将算法适当改进后作为本申请所用深度学习算法，逐帧执行文字检测，提取的检测框即可认为是视频内容中的文字区域。考虑到终端设备，尤其移动设备难以满足深度学习算法的大规模神经网络计算所需算力，并且现有效果较好的深度学习算法的单帧图像处理速度无法跟上视频播放时视频帧更新速度，文字检测由后台服务器统一预处理，生成文字区域后，与视频文件一同传输给终端处理。图11是根据本申请实施例的又一种可选的媒体信息的显示方法的示意图，如图11所示，为上述流程的一种实现示例。

本申请提供了视频中文本的弹幕防遮挡能力，可以减少文字内容和字幕等被弹幕遮挡的情况，结合现有防遮挡能力，可使弹幕防遮挡功能更完备，优化用户观看体验。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述媒体信息的显示方法的媒体信息的显示装置。如图12所示，该装置包括：

第一获取模块1202，用于获取待播放的目标视频与目标文本区域，其中，所述目标文本区域表示所述目标视频在播放过程中显示的初始文本信息所在的区域；

第二获取模块1204，用于获取待显示的目标媒体信息，其中，所述目标媒体信息是所述目标视频播放过程中，响应于目标帐号的交互操作确定的媒体信息；

显示模块1206，用于在所述目标视频的播放画面中，显示所述目标媒体信息，其中，所述目标媒体信息与所述目标文本区域不重叠。

作为一种可选的方案，所述装置用于通过如下方式获取待播放的目标视频与目标文本区域：获取所述目标视频以及所述初始文本信息；在所述初始文本信息包括外挂文本信息的情况下，根据所述外挂文本信息确定所述目标文本区域；在所述初始文本信息包括内嵌文本信息的情况下，根据所述内嵌文本信息确定所述目标文本区域；在所述初始文本信息包括所述外挂文本信息和所述内嵌文本信息的情况下，根据所述外挂文本信息和所述内嵌文本信息确定所述目标文本区域。

作为一种可选的方案，所述装置用于通过如下方式在所述初始文本信息包括外挂文本信息的情况下，根据所述外挂文本信息确定所述目标文本区域：在所述初始文本信息包括外挂文本信息的情况下，获取所述外挂文本信息的显示时间和显示位置，其中，所述显示时间表示所述外挂文本信息在所述目标视频播放过程中显示时所对应的时间戳，所述显示位置表示所述外挂文本信息在所述目标视频播放过程中显示时位于显示画面中的位置；在所述显示时间包括相对应的开始显示时间戳和结束显示时间戳，所述显示位置包括第一顶点坐标集合的情况下，根据所述第一顶点坐标集合生成所述目标文本区域，其中，所述第一顶点坐标集合用于指示所述外挂文本信息位于所述目标视频的显示画面上的坐标，所述目标文本区域表示在所述目标视频由所述开始显示时间戳播放至所述结束显示时间戳的播放过程中，所述外挂文本信息的显示区域。

作为一种可选的方案，所述装置用于通过如下方式在所述初始文本信息包括内嵌文本信息的情况下，根据所述内嵌文本信息确定所述目标文本区域：确定所述初始文本信息是否包括所述内嵌文本信息；在所述初始文本信息包括所述内嵌文本信息的情况下，将所述目标视频输入预训练的目标检测模型进行检测，确定所述目标视频中的目标帧视频图像，其中，所述目标检测模型用于逐帧检测出所述目标视频中每一帧视频画面是否包括所述内嵌文本信息，所述目标帧视频图像表示包括所述内嵌文本信息的视频图像；根据所述目标帧视频图像确定第二顶点坐标集合，并生成所述目标文本区域，其中，所述第二顶点坐标集合用于指示所述内嵌文本信息位于所述目标帧视频图像上的坐标，所述目标文本区域表示在所述目标帧视频图像中所述内嵌文本信息的显示区域。

作为一种可选的方案，所述装置用于通过如下方式根据所述目标帧视频图像确定第二顶点坐标集合，并生成所述目标文本区域：对所述目标帧视频图像进行所述目标检测，确定所述第二顶点坐标集合，其中，所述第二顶点坐标集合包括至少一组顶点坐标，每组顶点坐标包括多个顶点坐标，所述每组顶点坐标与所述目标帧视频图像中的一个目标文本子区域对应，所述目标文本区域由至少一个所述目标文本子区域组成；将所述每组顶点坐标通过连接的方式构成一个所述目标文本子区域的边界，生成所述目标文本区域。

作为一种可选的方案，所述装置还用于：所述在所述初始文本信息包括所述内嵌文本信息的情况下，将所述目标视频输入预训练的目标检测模型进行检测，确定所述目标视频中的目标帧视频图像之前，在所述初始文本信息包括所述内嵌文本信息的情况下，对所述内嵌文本信息的字体类型进行识别；在所述内嵌文本信息的字体类型为目标字体类型的情况下，从检测模型集合中确定所述目标检测模型，其中，所述检测模型集合包括对至少两种字体类型的文本信息进行检测的检测模型，所述目标检测模型与所述目标字体类型对应。

作为一种可选的方案，所述装置用于通过如下方式获取待播放的目标视频与目标文本区域：在目标客户端上获取目标播放指令，其中，所述目标播放指令用于指示播放所述目标视频；响应于所述目标播放指令，在所述目标客户端上获取所述目标视频和所述目标文本区域，并播放所述目标视频，其中，所述目标视频包括N帧视频图像，所述目标文本区域包括M组文本区域，所述M组文本区域是在目标服务器上对所述N帧视频图像逐帧进行目标检测确定的文本区域，所述M组文本区域的一组所述文本区域与所述N帧视频图像的一帧视频图像对应，N为正整数，M为小于或等于N的正整数。

作为一种可选的方案，所述装置用于通过如下方式在所述目标视频的播放画面中，显示所述目标媒体信息：根据所述目标文本区域生成目标掩膜，其中，所述目标掩膜被设置为禁止显示所述目标媒体信息的透明掩膜；将所述目标掩膜叠加至所述目标视频，播放所述目标视频，其中，所述目标媒体信息显示在所述目标视频的视频画面中除所述目标掩膜之外的其它区域。

作为一种可选的方案，所述装置用于通过如下方式获取待显示的目标媒体信息：响应于所述目标帐号的文本输入操作，获取所述目标帐号输入的弹幕文本信息，其中，所述目标媒体信息包括所述弹幕文本信息，所述弹幕文本信息包括所述目标帐号观看所述目标视频的过程中，所述目标帐号输入的文本信息；响应于所述目标帐号的文本选择操作，获取所述目标帐号选择的礼物文本信息，其中，所述目标媒体信息包括所述礼物文本信息，所述礼物文本信息包括所述目标帐号观看所述目标视频的过程中，允许向所述目标视频的作者帐号赠送的虚拟物品对应的文本信息；响应于所述目标帐号的界面交互操作，获取所述目标帐号选择的交互文本信息，其中，所述目标媒体信息包括所述交互文本信息，所述交互文本信息包括预先为所述目标视频配置的，允许根据所述目标视频的播放进度进行显示，并由所述目标帐号选择的交互文本信息；响应于所述目标帐号的表情交互操作，获取所述目标帐号输入的虚拟表情信息，其中，所述目标媒体信息包括所述虚拟表情信息，所述虚拟表情信息包括所述目标帐号观看所述目标视频的过程中，所述目标帐号输入的虚拟表情。

作为一种可选的方案，所述装置用于通过如下方式在所述目标视频的播放画面中，显示所述目标媒体信息：获取预先为所述目标视频配置的推送媒体信息，其中，所述目标媒体信息包括所述推送媒体信息，所述推送媒体信息包括所述目标帐号观看所述目标视频的过程中，允许向所述目标帐号推送的媒体信息；在所述目标视频的播放画面中，显示所述推送媒体信息，其中，所述推送媒体信息的显示位置在所述目标文本区域外部。

作为一种可选的方案，所述装置还用于：获取目标人像区域，其中，所述目标人像区域表示所述目标视频在播放过程中显示的人像所在的区域；在所述目标视频的播放画面中，显示所述目标媒体信息，其中，所述目标媒体信息显示在所述目标文本区域和所述目标人像区域的外部。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理器901执行时，执行本申请实施例提供的各种功能。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

图9示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。

需要说明的是，图9示出的电子设备的计算机系统900仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理器901(Central Processing Unit，CPU)，其可以根据存储在只读存储器902(Read-Only Memory，ROM)中的程序或者从存储部分908加载到随机访问存储器903(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器903中，还存储有系统操作所需的各种程序和数据。中央处理器901、在只读存储器902以及随机访问存储器903通过总线904彼此相连。输入/输出接口905(Input/Output接口，即I/O接口)也连接至总线904。

以下部件连接至输入/输出接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至输入/输出接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理器901执行时，执行本申请的系统中限定的各种功能。

根据本申请实施例的又一个方面，还提供了一种用于实施上述媒体信息的显示方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图13所示，该电子设备包括存储器1302和处理器1304，该存储器1302中存储有计算机程序，该处理器1304被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待播放的目标视频与目标文本区域，其中，目标文本区域表示目标视频在播放过程中显示的初始文本信息所在的区域；

S2，获取待显示的目标媒体信息，其中，目标媒体信息是目标视频播放过程中，响应于目标帐号的交互操作确定的媒体信息；

S3，在目标视频的播放画面中，显示目标媒体信息，其中，目标媒体信息与目标文本区域不重叠。

可选地，本领域普通技术人员可以理解，图13所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图13其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图13中所示更多或者更少的组件(如网络接口等)，或者具有与图13所示不同的配置。

其中，存储器1302可用于存储软件程序以及模块，如本申请实施例中的媒体信息的显示方法和装置对应的程序指令/模块，处理器1304通过运行存储在存储器1302内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的媒体信息的显示方法。存储器1302可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1302可进一步包括相对于处理器1304远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1302具体可以但不限于用于存储文本区域等信息。作为一种示例，如图13所示，上述存储器1302中可以但不限于包括上述媒体信息的显示装置中的第一获取模块1202、第二获取模块1204以及显示模块1206。此外，还可以包括但不限于上述媒体信息的显示装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1306包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1306为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1308，用于显示上述媒体信息和视频；和连接总线1310，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述媒体信息的显示方面的各种可选实现方式中提供的媒体信息的显示方法。

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种媒体信息的显示方法，其特征在于，包括：

获取待播放的目标视频与目标文本区域，其中，所述目标文本区域表示所述目标视频在播放过程中显示的初始文本信息所在的区域；

获取待显示的目标媒体信息，其中，所述目标媒体信息是所述目标视频播放过程中，响应于目标帐号的交互操作确定的媒体信息；

在所述目标视频的播放画面中，显示所述目标媒体信息，其中，所述目标媒体信息与所述目标文本区域不重叠。

2.根据权利要求1所述的方法，其特征在于，所述获取待播放的目标视频与目标文本区域，包括：

获取所述目标视频以及所述初始文本信息；

在所述初始文本信息包括外挂文本信息的情况下，根据所述外挂文本信息确定所述目标文本区域；

在所述初始文本信息包括内嵌文本信息的情况下，根据所述内嵌文本信息确定所述目标文本区域；

在所述初始文本信息包括所述外挂文本信息和所述内嵌文本信息的情况下，根据所述外挂文本信息和所述内嵌文本信息确定所述目标文本区域。

3.根据权利要求2所述的方法，其特征在于，所述在所述初始文本信息包括外挂文本信息的情况下，根据所述外挂文本信息确定所述目标文本区域，包括：

在所述初始文本信息包括外挂文本信息的情况下，获取所述外挂文本信息的显示时间和显示位置，其中，所述显示时间表示所述外挂文本信息在所述目标视频播放过程中显示时所对应的时间戳，所述显示位置表示所述外挂文本信息在所述目标视频播放过程中显示时位于显示画面中的位置；

在所述显示时间包括相对应的开始显示时间戳和结束显示时间戳，所述显示位置包括第一顶点坐标集合的情况下，根据所述第一顶点坐标集合生成所述目标文本区域，其中，所述第一顶点坐标集合用于指示所述外挂文本信息位于所述目标视频的显示画面上的坐标，所述目标文本区域表示在所述目标视频由所述开始显示时间戳播放至所述结束显示时间戳的播放过程中，所述外挂文本信息的显示区域。

4.根据权利要求2所述的方法，其特征在于，所述在所述初始文本信息包括内嵌文本信息的情况下，根据所述内嵌文本信息确定所述目标文本区域，包括：

确定所述初始文本信息是否包括所述内嵌文本信息；

在所述初始文本信息包括所述内嵌文本信息的情况下，将所述目标视频输入预训练的目标检测模型进行检测，确定所述目标视频中的目标帧视频图像，其中，所述目标检测模型用于逐帧检测出所述目标视频中每一帧视频画面是否包括所述内嵌文本信息，所述目标帧视频图像表示包括所述内嵌文本信息的视频图像；

根据所述目标帧视频图像确定第二顶点坐标集合，并生成所述目标文本区域，其中，所述第二顶点坐标集合用于指示所述内嵌文本信息位于所述目标帧视频图像上的坐标，所述目标文本区域表示在所述目标帧视频图像中所述内嵌文本信息的显示区域。

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标帧视频图像确定第二顶点坐标集合，并生成所述目标文本区域，包括：

对所述目标帧视频图像进行所述目标检测，确定所述第二顶点坐标集合，其中，所述第二顶点坐标集合包括至少一组顶点坐标，每组顶点坐标包括多个顶点坐标，所述每组顶点坐标与所述目标帧视频图像中的一个目标文本子区域对应，所述目标文本区域由至少一个所述目标文本子区域组成；

将所述每组顶点坐标通过连接的方式构成一个所述目标文本子区域的边界，生成所述目标文本区域。

6.根据权利要求4所述的方法，其特征在于，所述在所述初始文本信息包括所述内嵌文本信息的情况下，将所述目标视频输入预训练的目标检测模型进行检测，确定所述目标视频中的目标帧视频图像之前，所述方法还包括：

在所述初始文本信息包括所述内嵌文本信息的情况下，对所述内嵌文本信息的字体类型进行识别；

在所述内嵌文本信息的字体类型为目标字体类型的情况下，从检测模型集合中确定所述目标检测模型，其中，所述检测模型集合包括对至少两种字体类型的文本信息进行检测的检测模型，所述目标检测模型与所述目标字体类型对应。

7.根据权利要求1所述的方法，其特征在于，所述获取待播放的目标视频与目标文本区域，包括：

在目标客户端上获取目标播放指令，其中，所述目标播放指令用于指示播放所述目标视频；

响应于所述目标播放指令，在所述目标客户端上获取所述目标视频和所述目标文本区域，并播放所述目标视频，其中，所述目标视频包括N帧视频图像，所述目标文本区域包括M组文本区域，所述M组文本区域是在目标服务器上对所述N帧视频图像逐帧进行目标检测确定的文本区域，所述M组文本区域的一组所述文本区域与所述N帧视频图像的一帧视频图像对应，N为正整数，M为小于或等于N的正整数。

8.根据权利要求1所述的方法，其特征在于，所述在所述目标视频的播放画面中，显示所述目标媒体信息，包括：

根据所述目标文本区域生成目标掩膜，其中，所述目标掩膜被设置为禁止显示所述目标媒体信息的透明掩膜；

将所述目标掩膜叠加至所述目标视频，播放所述目标视频，其中，所述目标媒体信息显示在所述目标视频的视频画面中除所述目标掩膜之外的其它区域。

9.根据权利要求1所述的方法，其特征在于，所述获取待显示的目标媒体信息，包括：

响应于所述目标帐号的文本输入操作，获取所述目标帐号输入的弹幕文本信息，其中，所述目标媒体信息包括所述弹幕文本信息，所述弹幕文本信息包括所述目标帐号观看所述目标视频的过程中，所述目标帐号输入的文本信息；

响应于所述目标帐号的文本选择操作，获取所述目标帐号选择的礼物文本信息，其中，所述目标媒体信息包括所述礼物文本信息，所述礼物文本信息包括所述目标帐号观看所述目标视频的过程中，允许向所述目标视频的作者帐号赠送的虚拟物品对应的文本信息；

响应于所述目标帐号的界面交互操作，获取所述目标帐号选择的交互文本信息，其中，所述目标媒体信息包括所述交互文本信息，所述交互文本信息包括预先为所述目标视频配置的，允许根据所述目标视频的播放进度进行显示，并由所述目标帐号选择的交互文本信息；

响应于所述目标帐号的表情交互操作，获取所述目标帐号输入的虚拟表情信息，其中，所述目标媒体信息包括所述虚拟表情信息，所述虚拟表情信息包括所述目标帐号观看所述目标视频的过程中，所述目标帐号输入的虚拟表情。

10.根据权利要求1所述的方法，其特征在于，所述在所述目标视频的播放画面中，显示所述目标媒体信息，包括：

获取预先为所述目标视频配置的推送媒体信息，其中，所述目标媒体信息包括所述推送媒体信息，所述推送媒体信息包括所述目标帐号观看所述目标视频的过程中，允许向所述目标帐号推送的媒体信息；

在所述目标视频的播放画面中，显示所述推送媒体信息，其中，所述推送媒体信息的显示位置在所述目标文本区域外部。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标人像区域，其中，所述目标人像区域表示所述目标视频在播放过程中显示的人像所在的区域；

在所述目标视频的播放画面中，显示所述目标媒体信息，其中，所述目标媒体信息显示在所述目标文本区域和所述目标人像区域的外部。

12.一种媒体信息的显示装置，其特征在于，包括：

第一获取模块，用于获取待播放的目标视频与目标文本区域，其中，所述目标文本区域表示所述目标视频在播放过程中显示的初始文本信息所在的区域；

第二获取模块，用于获取待显示的目标媒体信息，其中，所述目标媒体信息是所述目标视频播放过程中，响应于目标帐号的交互操作确定的媒体信息；

显示模块，在所述目标视频的播放画面中，显示所述目标媒体信息，其中，所述目标媒体信息与所述目标文本区域不重叠。

13.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序可被终端设备或计算机运行时执行所述权利要求1至11任一项中所述的方法。

14.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至11任一项中所述方法的步骤。

15.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至11任一项中所述的方法。