CN111954052A

CN111954052A - 显示弹幕信息的方法、计算机设备及可读存储介质

Info

Publication number: CN111954052A
Application number: CN201910413120.7A
Authority: CN
Inventors: 高龙文; 时英选; 陈志伟; 张敬强; 李超然; 陈辉; 张抗抗; 刘若衡; 唐君行
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2020-11-17
Anticipated expiration: 2039-05-17
Also published as: US20200366965A1; US11871086B2; CN111954052B

Abstract

本发明公开了显示弹幕信息的方法、计算机设备及可读存储介质，属于互联网技术领域。本发明通过识别视频中至少一帧图像的主体区域生成蒙版帧数据段；进而在播放视频时，可将蒙版帧数据段中蒙版帧对应的区域、弹幕信息及视频的帧图像绘制到屏幕上，使弹幕信息显示于蒙版帧对应的区域以外的区域，达到避免视频中的主体区域在播放时被遮盖的目的，从而提升用户的观看效果。

Description

显示弹幕信息的方法、计算机设备及可读存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及显示弹幕信息的方法、计算机设备及可读存储介质。

背景技术

弹幕(barrage、bullet或danmaku)属于中文流行词语，是在网络上观看视频时弹出的评论性字幕。弹幕顾名思义是指大量吐槽评论从屏幕飘过时效果看上去像是飞行射击游戏里的弹幕，故得名弹幕。用户在观看直播的过程中，会通过发送弹幕的方式来增加用户和用户之间，以及用户和主播之间的互动，当用户发送弹幕后，弹幕文字会以滚动的方式在直播画面上呈现，以便于被其它用户所查看，形成一种基于视频观看，围绕视频内容的新的网络社交形态。

然而，由于在弹幕过多的情况下，遮挡视频内容较多，影响观看效果。为了不影响对直播的观看，大多数用户通常选择屏蔽直播画面上的弹幕文字，但用户选择屏蔽弹幕方式，使得直播画面上无法呈现用于进行互动的弹幕，降低了直播间的互动性。

发明内容

针对目前弹幕过多影响观看效果的问题，现提供一种旨在不影响的用户观看效果的情况显示弹幕信息的方法、计算机设备及可读存储介质。

一种显示弹幕信息的方法，包括下述步骤：

识别视频中至少一帧图像的主体区域生成至少一个蒙版帧数据段；

将所述蒙版帧数据段中蒙版帧对应的区域、弹幕信息及所述视频的帧图像绘制到屏幕上，所述弹幕信息显示于所述蒙版帧对应的区域以外的区域。

优选的，识别视频中至少一帧图像的主体区域生成至少一个蒙版帧数据段的步骤，包括：

将所述视频拆分为至少一个帧图像；

识别所述帧图像内的主体区域；

根据所述帧图像内的主体区域生成与所述帧图像对应的蒙版帧数据；

根据所述蒙版帧数据生成包括至少一个蒙版帧数据的至少一个蒙版帧数据段。

优选的，根据所述帧图像内的主体区域生成与所述帧图像对应的蒙版帧数据的步骤包括：

根据所述帧图像内的主体区域对应的主体区域、所述主体区域的尺寸及所述帧图像对应的视频时间戳，生成与所述帧图像对应的蒙版帧数据。

优选的，将所述蒙版帧数据段中蒙版帧对应的区域、弹幕信息及所述视频的帧图像绘制到屏幕上的步骤，包括：

对所述蒙版帧数据段进行解压；

获取所述蒙版帧的蒙版区域及相应的视频时间戳；

根据所述视频时间戳将所述蒙版区域、与所述视频时间戳对应的弹幕信息及与所述视频时间戳对应的视频的帧图像绘制到屏幕上。

优选的，根据所述视频时间戳将所述蒙版区域、与所述视频时间戳对应的弹幕信息及与所述视频时间戳对应的视频的帧图像绘制到屏幕上之前还包括：

对所述蒙版帧的蒙版区域进行边缘羽化处理。

优选的，所述主体区域包括：人物区域范围，和/或动物区域范围，和/或风景区域范围，和/或建筑区域范围，和/或艺术品区域范围，和/或文字区域范围，和/或区别于人物、动物、建筑或艺术的背景区域范围。

优选的，每一所述蒙版帧数据段均对应一定位所述蒙版帧数据段物理位置的位置帧列表。

本发明还提供了一种显示弹幕信息的方法，所述方法应用于服务器与客户端之间，所述服务器与客户端执行如上述的显示弹幕信息的方法。

本发明还提供了一种计算机设备，所述计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

上述技术方案的有益效果：

本技术方案中，通过识别视频中至少一帧图像的主体区域生成蒙版帧数据段；进而在播放视频时，可将蒙版帧数据段中蒙版帧对应的区域、弹幕信息及视频的帧图像绘制到屏幕上，使弹幕信息显示于蒙版帧对应的区域以外的区域，达到避免视频中的主体区域在播放时被遮盖的目的，从而提升用户的观看效果。

附图说明

图1为本发明所述的显示弹幕信息系统的一种实施例的框架图；

图2为本发明所述的显示弹幕信息的方法的一种实施例的方法流程图；

图3为本发明所述识别视频中帧图像的主体区域生成蒙版帧数据段的一种实施例的方法流程图；

图4为本发明所述的获取蒙版帧数据的方法的一种实施例的方法流程图；

图5为本发明所述采用语义分割模型识别视频中帧图像的主体区域的一种实施例的方法流程图；

图6为本发明所述采用语义分割模型识别视频中帧图像的主体区域的另一种实施例的方法流程图；

图7为本发明所述采用实例分割模型识别视频中帧图像的主体区域的一种实施例的方法流程图；

图8为本发明所述获取蒙版数据的方法的另一种实施例的方法流程图；

图9为本发明所述的蒙版文件结构的一种实施例的结构示意图；

图10为本发明所述蒙版文件的读取方法的一种实施例的方法流程图；

图11为本发明将蒙版帧数据段中蒙版帧对应的区域、弹幕信息及视频的帧图像绘制到屏幕上的一种实施例的方法流程图；

图12为本发明弹幕蒙版的渲染方法的一种实施例的方法流程图；

图13为本发明所述显示弹幕信息系统的一种实施例的模块图；

图14为本发明实施例提供的执行显示弹幕信息的方法的计算机设备的硬件结构示意图。

具体实施方式

以下结合附图与具体实施例进一步阐述本发明的优点。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本发明的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本发明及区别每一步骤，因此不能理解为对本发明的限制。

本申请实施例的视频可以呈现于大型视频播放设备、游戏机、台式计算机、智能手机、平板电脑、MP3(MovingPictureExpertsGroupAudioLayerIII，动态影像专家压縮标准音频层)播放器、MP4(MovingPictureExpertsGroupAudioLayerlV，动态影像专家压縮标准音频层面)播放器、膝上型便携计算机、电子书阅读器以及其它显示终端等客户端。

本申请实施例的视频不仅可以应用于比赛类型的视频播放节目中，而且还可以应用在任何可呈现视频的应用场景，比如说，可以应用在一些求职节目中，应用在一些相亲节目中，应用在多方对抗的娱乐节目中等等。本申请实施例以视频应用于足球类视频播放节目中为例子，但是并不局限于此。

本申请实施例中，服务器W对用户端上传的视频数据及相应的弹幕数据进行处理后生成蒙版帧数据段，可以再由服务器W发送给各个观看端(即拉流端)，各个观看端再播放该视频信息、蒙版帧数据段及弹幕信息。请参考图1，图1是本申请实施例提供的显示弹幕信息的系统架构图。如图1所示，A用户、B用户、C用户通过无线网络观看经服务器W处理后的弹幕在视频的主体区域中不显示的视频数据，D用户和E用户均通过有线网络观看经服务器W处理后的弹幕在视频的主体区域中不显示的视频数据。此处只给出一个服务器W，此处的应用场景还可以包括多台相互通讯的服务器。服务器W可以是云端服务器，还可以是本地服务器。在本申请实施例中，服务器W放置在云端侧。假如服务器W对该某一录制的直播视频数据及弹幕信息进行处理，并将处理后的视频数据转发给A用户、B用户、C用户、D用户、E用户。

本发明为解决现有的现有技术弹幕过多影响观看的缺陷，提出了一种显示弹幕信息的方法。参阅图2，其为一符合本发明一优选实施例的显示弹幕信息的方法流程示意图，从图中可以看出，本实施例中所提供的显示弹幕信息的方法主要包括以下步骤：

S1.识别视频中至少一帧图像的主体区域生成至少一个蒙版帧数据段；

其中，每一所述蒙版帧数据段均对应一定位所述蒙版帧数据段物理位置的位置帧列表。

位置帧列表用于存储每一蒙版帧数据段的物理地址，通过该位置帧列表可以查询与该视频关联的每一蒙版帧数据段。

需要说明的是：所述主体区域可选自以下至少一种：

人物区域范围、动物区域范围、风景区域范围、建筑区域范围、艺术品区域范围、文字区域范围，以及区别于人物、动物、建筑、艺术的背景区域范围。

所述步骤S1识别视频中至少一帧图像的主体区域生成至少一个蒙版帧数据段的步骤可包括(参考图3所示)：

S11.将所述视频拆分为至少一个帧图像；

S12.识别所述帧图像内的主体区域；

S13.根据所述帧图像内的主体区域生成与所述帧图像对应的蒙版帧数据；

在本步骤中，根据所述帧图像内的主体区域对应的主体区域、所述主体区域的尺寸及所述帧图像对应的视频时间戳，生成与所述帧图像对应的蒙版帧数据。

下面，针对在本实方式中获取蒙版帧数据的过程，将参照图4至图7的流程图，对获取蒙版帧数据的过程进行详细描述。与这些流程图对应的处理可以通过处理器读取存储在存储介质中的对应处理程序来实现，例如将程序加载到存储器中并执行。

如图4所示，一种获取蒙版帧数据的方法可包括：

A1.基于图像分割算法识别视频中至少一帧图像的主体区域；

作为一种实施例，可采用语义分割模型识别视频中至少一帧图像的主体区域。

所述语义分割模型依次包括至少两个特征提取模块、至少一特征增强层和一分类层。

参考图5，步骤采用语义分割模型识别视频中至少一帧图像的主体区域的步骤可包括：

A1-1-1.分别通过每一特征提取模块对所述视频的至少一帧图像进行特征图提取；

A1-1-2.对每一所述特征提取模块输出的特征图进行逐级融合，所述至少一特征增强层将所有的特征提取模块最终输出的特征图进行融合生成综合特征图；

A1-1-3.所述分类层根据所述综合特征图对应的像素预测语义分割结果，获取所述主体区域。

语义分割模型可采用FCN、DilatedNet、deeplab等模型。

作为举例而非限定，语义分割模型采用deeplab模型。deeplab模型具有效果好、速度快的优点。Deeplab模型主要包括用于提取特征图的网络骨干(backbone)、用于增强特征减少特征图尺寸影响的特征增强层和用于预测每一像素对应的类别的分类层(0类通常是背景(background)，用的比较多的类别是coco数据集的91类，包含人物、一些动物、一些常见物体等)。

进一步地，在执行步骤A1-1-3所述分类层根据所述综合特征图对应的像素预测语义分割结果，获取所述主体区域的步骤之前，还包括：

采用条件随机场模块对所述综合特征图中每一对象区域的像素点进行约束处理，获取经处理后的综合特征图。

在本步骤中，考虑到提取的对象区域边界粗糙，为了提高边界的连续性、贴合性采用边界检测后处理的方式，利用条件随机场模块根据前一帧图像(或前几面的某一帧)对当前的图像进行光滑处理，提升每一帧对象区域边界的连续性，提高视觉的贴合性。

参考图6所示，在执行步骤采用语义分割模型识别视频中至少一帧图像的主体区域的步骤，之前还可包括：

a1.获取至少一第一样本图像，所述第一样本图像为包括人物和/或动物的对象图像；

a2.获取至少一第二样本图像，所述第二样本图像为不包括人物和动物的背景图像；

a3.提取所述对象图像中的对象区域；

a4.将所述对象区域与所述背景图像合成生成训练样本集合；

a5.采用训练样本集合对初始分割模型进行训练，获取语义分割模型，执行步骤A1-1-1。

在实际应用中，考虑到动画的训练样本不易收集，因此在采用语义分割模型对动画视频中的主体区域进行识别之前，需要对语义分割模型进行训练，且需要提供符合动画的训练样本集。因此，可通过步骤a1-a5，合成具有动画形象及背景的训练样本集。先获取一批透明背景或单一颜色背景(背景简单)的动画人物(如：二次元动画人物)图像，采用抠图的方式(如：聚类算法)获取动画人物部分的图像；再获取一批没有动画人物的动画背景图像；通过调整比例、色调将动画人物图像分别与背景图像叠加合成，从而获得训练样本集合；再采用训练样本集合对初始分割模型进行训练，获取语义分割模型。

进一步地，步骤a5采用训练样本集合对初始分割模型进行训练，获取语义分割模型的步骤，可包括：

将训练样本集合输入初始分割模型获取相应的对象区域识别结果，并更新所述初始分割模型的参数值；

直至完成对所述初始分割模型的训练，获取语义分割模型。

作为另一种实施例，还可采用实例分割模型识别视频中至少一帧图像的主体区域。

其中，所述实例分割模型包括：提取模块、分类模块、回归模块和掩膜模块；

所述提取模块包括：特征提取模块、区域提取模块。

参考图7所示，采用实例分割模型识别视频中至少一帧图像的主体区域的步骤可包括：

A1-2-1.通过特征提取模块对所述视频的至少一帧图像进行特征图提取；

A1-2-2.所述区域提取模块对所述特征图进行非极大值抑制提取候选区域，根据所述特征图和候选区域生成目标区域特征图；

A1-2-3.通过所述分类模块对所述目标区域特征图预测获取所属类别；

A1-2-4.通过所述回归模块对所述目标区域特征图预测边框位置信息；

A1-2-5.通过所述掩膜模块计算所述目标区域特征图的分割掩膜；

A1-2-6.根据所述所属类别、边框位置信息和分割掩膜获取所述主体区域。

作为举例而非限定，实例分割模型可采用maskrcnn模型。考虑到语义分割模型后续加入后处理时控制力很弱，没有办法做到实例级别的控制，因此采用实例分割模型提升稳定性(适用面更广)。maskrcnn模型主要包括用于提取特征图的网络骨干(backbone)、用于提取特征区域的区域提取模块(ROI+RPN+align)、用于进行分类的分类模块、回归模块和掩膜模块。

在实际应用中，由于实例分割模型在训练模型和产生蒙版时效率较低，因此，迭代模型优先选择语义分割模型。对于视频时间长的大任务以及场景简单的视频可优先采用语义分割模型，速度快。对于场景复杂的视频可采用实例分割模型，识别的效果好。

A2.根据所述主体区域生成蒙版帧数据。

步骤A2根据所述主体区域生成蒙版帧数据的步骤，包括：

根据所述主体区域的宽度、高度及所述帧图像在所述视频中对应的时间戳生成蒙版帧数据。

下面，针对在本实方式中获取蒙版帧数据的过程，将参照图8的流程图，对获取蒙版帧数据的过程进行详细描述。与这些流程图对应的处理可以通过处理器读取存储在存储介质中的对应处理程序来实现，例如将程序加载到存储器中并执行。

如图8所示，一种获取蒙版数据的方法，包括下述步骤：

B1.获取视频中至少一帧图像的主体区域；

需要说明的是：所述主体区域可选自以下至少一种：

B2.将所述主体区域转换为轮廓数据；

在步骤B2中将所述主体区域转换为轮廓数据的步骤可包括：

采用色彩值分别对所述主体区域中每一像素点进行表示；

所述主体区域中所有像素点对应的色彩值构成所述轮廓数据。

在实施例中，对主体区域中的每一个像素做标记(标记为人物或者非人物)，；例如：可以把人物部分标记为黑色，非人物部分标记为白色，那最后得到的蒙版数据就是一张类似影的图片(也就是Bitmap(位图文件)格式)。

在执行步骤B2将所述主体区域转换为轮廓数据的步骤之后还可包括b21、b22、b23和b24中的至少一个步骤，具体如下：

b21.压缩所述轮廓数据的像素分辨率，将所述轮廓数据的像素分辨率调整至预设像素分辨率范围内。

对于一帧1080×720的视频画面，Bitmap需要777660个像素来完整描述，因此为了减小Bitmap的体积，可采用减小图片尺寸的方式缩小Bitmap的体积。考虑到蒙版帧数据实际上不需要和原始视频一样高的清晰度，即使蒙版帧数据本身分辨率远低于视频，最终的效果也不会产生明显下降，因此可将把轮廓数据Bitmap的尺寸上限定到一个预设的尺寸如：320×180，从而达到减小Bitmap体积的目的。

b22.压缩所述轮廓数据的色位深度，将所述轮廓数据的色位深度调整至预设二进制位。

通常Bitmap每个像素需要RGBA8888，也就是红绿蓝/透明度，4个属性，每个属性8位来表达这个像素点颜色，而对于蒙版帧数据而言采用二进制位来表示这个像素是否是人物就可以实现，因此可通过缩减每个像素所占的存储空间的方式减小Bitmap体积。

b23.对所述轮廓数据进行压缩。

作为举例而非限定，在本步骤中可采用gzip算法对轮廓数据进行压缩，轮廓数据Bitmap有很鲜明的特点，人物和非人物部分，都是连续大块出现的，因此数据重复率极高，因此采用gzip算法压缩可有效的提高压缩率。

b24.对所述轮廓数据进行边缘羽化处理。

考虑到蒙版帧数据实际上不需要和原始视频一样高的清晰度，可采用模糊边缘的方法对轮廓数据边缘进行羽化处理，提高轮廓数据的光滑度，从而提升视觉效果。

在步骤B2中将所述主体区域转换为轮廓数据的步骤可包括：

将所述主体区域转换为可伸缩矢量图形(Scalable Vector Graphics，SVG)格式的轮廓数据。

SVG是基于可扩展标记语言(标准通用标记语言的子集)描述二维矢量图形的一种图形格式，SVG通过曲线方程，勾勒出人物的边缘。

B3.根据所述轮廓数据及所述帧图像在所述视频中对应的时间戳生成蒙版帧数据。

需要说明的是：当客户端是移动终端时可直接使用Bitmap格式的数据；当客户端通过浏览器(限于浏览器CSS标准的限制)显示时，只能接受SVG格式的数据，因此在浏览器上，需使SVG格式的数据，但最终需要的都是Bitmap(其他矢量格式，如SVG最终也会先转化为Bitmap，再输出到电脑)。

S14.根据所述蒙版帧数据生成包括至少一个蒙版帧数据的至少一个蒙版帧数据段。

在服务器中通过识别视频中每一张帧图像的主体区域生成蒙版帧数据，再由蒙版帧数据构成蒙版帧数据段，最终获取与该视频对应的蒙版文件。蒙版文件包括了蒙版帧数据段。

本技术方案可应用于离线点播视频场景中，在服务器中对视频中的每一帧图像进行主体区域识别，生成包括蒙版帧数据段的蒙版文件结构。该蒙版文件结构(如图9所示)可包括：至少一个蒙版帧数据段、标识单元和索引单元(即位置帧列表)；其中，

所述蒙版帧数据段用于记录至少一帧的蒙版帧数据；

其中，所述蒙版帧数据段由依据预设时间长度，根据蒙版帧的时间戳的时序性排列的至少一个蒙版帧数据组成。

所述蒙版帧数据可包括蒙版帧的宽度、高度、时间戳(即：原始视频的帧图像的时间戳)和帧数据。

每一个蒙版帧数据段都包含了若干连续的蒙版帧数据，这些蒙版帧按照其pts_time_ms从大到小紧密排列，是否压缩取决于标识单元中的编码格式(即codec_id值)。例如：

|mask frames sorted by pts_time_ms,optionally compressed|

|......|

|mask frames sorted by pts_time_ms,optionally compressed|

当采用codec_id＝0x0(bitstream,gzip compressed)蒙版编码时，一系列蒙版帧按照其pts_time_ms从小到大紧密排列,之后使用gzip压缩算法压缩成蒙版帧数据段。蒙版帧数据由：帧宽度+帧高度+帧PTS+帧数据组成，蒙版帧数据的格式如下：

其中，width表示帧的宽度，占用2字节，网络序，无符号整型；height表示帧的高度，占用2字节，网络序，无符号整型；pts_time_ms表示帧的pts时间，占用8字节，网络序，无符号整型，单位ms；data表示帧的二进制数据，占用(width*height)/8字节，每个bit位代表一个像素点，宽度优先存储。

当采用codec_id＝0x1(svg)蒙版编码时，一系列蒙版帧数据按照其pts_time_ms从小到大紧密排列,不压缩。蒙版帧数据由：帧数据长度+帧PTS+帧数据组成，蒙版帧数据的格式如下：

|4bytes|8bytes|data_size bytes|

|data_size|pts_time_ms|data|

其中，data_size表示帧数据的长度，占用4字节，网络序，无符号整型，帧数据长度不包含data_size字段和pts_time_ms字段本身；pts_time_ms表示帧数据的pts时间(本蒙版帧取自于哪个原始的图像帧，即原始视频的帧图像对应的时间戳)，占用8字节,网络序,无符号整型,单位ms；data表示帧的二进制数据，占用data_size字节，svg格式。

当采用codec_id＝0x2(svg,gzip compressed)蒙版编码时，一系列蒙版帧数据按照其pts_time_ms从小到大紧密排列,之后使用gzip压缩算法压缩而成。蒙版帧数据由：帧数据长度+帧PTS+帧数据组成，蒙版帧数据的格式如下：

|4bytes|8bytes|data_size bytes|

|data_size|pts_time_ms|data|

其中，data_size表示帧数据的长度，占用4字节，网络序，帧数据长度不包含data_size字段和pts_time_ms字段本身；pts_time_ms表示帧的pts时间(本蒙版帧取自于哪个原始的图像帧，即原始视频的帧图像对应的时间戳)，占用8字节，网络序，单位ms；data表示帧的二进制数据，占用data_size字节，svg格式。

所述标识单元设置在所述蒙版文件中第一预设位置，用于记录文件标识、所述蒙版帧数据段的编码格式及所述索引单元的大小参数；

所述标识单元还用于记录所述蒙版文件的版本号。

标识单元固定为16字节，位于蒙版文件的前16字节，具体结构如下：

其中，file tag表示文件标识，固定值为"MASK"，占用4字节,可以视作幻数(magicnumber)；version表示蒙版文件版本号，占用4字节，网络序，无符号整型，合法值可以为1，遇到高版本需视为无效文件；reserved表示保留字段，占用3字节，填充可以为0；entry_num表示索引单元的索引项数,占用4字节，网络序，无符号整型，帧索引表项的长度固定为16字节；codec_id表示编码方式，占用1字节，无符号整型，描述了蒙版帧和蒙版帧数据段的编码格式，合法值可以如下形式：

|codec_id|---蒙版帧编码方式，蒙版帧数据段格式。

|0x0|bitstream|---一系列蒙版帧按照pts_time_ms(表示本蒙版帧取自于哪个原始的图像帧，即原始视频的帧图像对应的时间戳)从小到大紧密排列，而后使用gzip压缩。

|0x1|svg|---一系列蒙版帧按照pts_time_ms从小到大紧密排列,不压缩。

|0x2|svg|---一系列蒙版帧按照pts_time_ms从小到大紧密排列,后使用gzip压缩。

所述索引单元设置在所述蒙版文件中第二预设位置，用于记录指示各个所述蒙版帧数据段的物理位置以及所述蒙版帧数据段在所述蒙版文件的长度参数。所述长度参数为所述蒙版帧数据段的起始蒙版帧到末尾蒙版帧的长度。所述物理位置为所述蒙版帧数据段的起始蒙版帧的时间戳。

其中，所述第一预设位置为所述蒙版文件的头部；所述第二预设位置位于所述第一预设位置后面。

索引单元由若干个长度相同的表项(entry)紧密排列组成，每一个表项的长度固定为16字节每个表项的构成，例如：

|8bytes|8bytes|

|pts_time_ms|file_offset|

|......|......|

|pts_time_ms|file_offset|

索引单元由pts_time_ms和file_offset组成。

pts_time_ms：8字节，网络序，无符号整型，表示该蒙版帧数据段所包含的起始蒙版帧的pts_time，单位是ms；

file_offset：8字节，网络序，无符号整型，表示该蒙版帧数据段在蒙版文件中的偏移量。

需要说明的是：索引单元中的表项按照其pts_time_ms大小顺序存放，这有利于快速检索某个已知其pts_time_ms的帧所在的蒙版帧数据段，并且，如果表项B在A前面，那么A所指向的帧数据段的长度为B.file_offset-A.file_offset，对于最后一个表项，则是其file_offset到文件尾的长度。

在实际应用中，客户端通过HTTPS(HyperText Transfer Protocol，超文本传输协议)请求索引单元，获取标识单元和索引单元，根据当前视频观看进度，可在索引单元中查找出对应的蒙版帧数据在蒙版文件中的偏移量(即的蒙版帧数据所在的蒙版帧数据段在蒙版文件中的位置)，通过HTTP请求下载该播放进度时刻对应的蒙版帧数据段，从而确保客户端用户拖拽视频进度条时，客户端可快速定位对应播放时刻的蒙版帧数据的目的，提升了用户的观看效果。

总体而言,标识单元描述了整个文件的简要信息,索引单元表用于按照pts_time(即：原始视频的帧图像对应的时间戳)快速索引蒙版帧数据段,蒙版帧数据段包含了某个时间段内的蒙版帧数据。

蒙版文件的格式为：标识单元+索引单元+若干蒙版帧数据段,这三部分数据紧邻地存放于蒙版(mask)文件中，例如：

|mask file header|---表示标识单元。

|mask frame indexing table|---表示索引单元。

|mask frames data segment|---表示蒙版帧数据段。

|......|

|mask frames data segment|---表示蒙版帧数据段。

针对上述的蒙版文件，蒙版文件的读取方法可包括下述步骤(参考图10所示)：

C1.获取所述蒙版帧数据段的编码格式及指示索引单元的大小参数；

具体地所述步骤C1获取所述蒙版帧数据段的编码格式及指示索引单元的大小参数的步骤，包括：

在所述蒙版文件的标识单元获取所述蒙版帧数据段的编码格式及指示索引单元的大小参数。

C2.根据所述大小参数读取所述索引单元，获取各个所述蒙版帧数据段的物理位置以及所述蒙版帧数据段在所述蒙版文件的长度参数；

C3.根据所述编码格式、所述物理位置和所述长度参数读取所述蒙版帧数据段。

具体地，步骤A3根据所述编码格式、所述物理位置和所述长度参数读取所述蒙版帧数据段的步骤，包括：

依据当前播放时间戳根据所述编码格式及所述长度参数计算所述当前播放时间在所述索引单元中对应的所述蒙版帧数据段的起始蒙版帧的时间戳，根据所述起始蒙版帧的时间戳获取相应的所述蒙版帧数据段的物理位置。

S2.将所述蒙版帧数据段中蒙版帧对应的区域、弹幕信息及所述视频的帧图像绘制到屏幕上，所述弹幕信息显示于所述蒙版帧对应的区域以外的区域。

在实际应用中，当主体区域为人物区域范围时，弹幕信息不在人物区域范围显示，显示于除人物区域范围以外的区域；当主体区域为文字区域范围时，弹幕信息不在文字区域范围显示，显示于除文字区域范围以外的区域；当主体区域为区别于人物、动物、建筑、艺术的背景区域范围时，弹幕信息不在背景区域范围显示，显示于除背景区域范围以外的区域。

步骤S2将所述蒙版帧数据段中蒙版帧对应的区域、弹幕信息及所述视频的帧图像绘制到屏幕上的步骤(如图11所示)可包括：

S21.对所述蒙版帧数据段进行解压；

S22.获取所述蒙版帧的蒙版区域及相应的视频时间戳；

S23.根据所述视频时间戳将所述蒙版区域、与所述视频时间戳对应的弹幕信息及与所述视频时间戳对应的视频的帧图像绘制到屏幕上。从而保证蒙版区域、弹幕信息及视频的帧图像三者之间在时间上的一致性。

在执行S23根据所述视频时间戳将所述蒙版区域、与所述视频时间戳对应的弹幕信息及与所述视频时间戳对应的视频的帧图像绘制到屏幕上之前还包括：

对所述蒙版帧的蒙版区域进行边缘羽化处理，提高蒙版帧边缘的光滑度，从而提升视觉效果。

在本实施例中，通过识别视频中至少一帧图像的主体区域生成蒙版帧数据段；进而在播放视频时，可将蒙版帧数据段中蒙版帧对应的区域、弹幕信息及视频的帧图像绘制到屏幕上，使弹幕信息显示于蒙版帧对应的区域以外的区域，达到避免视频中的主体区域在播放时被遮盖的目的，从而提升用户的观看效果。

下面，针对在本实方式将弹幕信息显示于屏幕上的处理过程，将参照图12的流程图，对弹幕蒙版的渲染方法的过程进行详细描述。与这些流程图对应的处理可以通过处理器读取存储在存储介质中的对应处理程序来实现，例如将程序加载到存储器中并执行。

如图12所示，一种弹幕蒙版的渲染方法可包括下述步骤：

D1.获取弹幕信息、视频数据及相应的蒙版帧数据段；

D2.对所述蒙版帧数据段进行解压；

在步骤D2中对所述蒙版帧数据段进行解压的步骤可包括：

根据预设的解压比例对解压后的每一蒙版帧数据的显示比例进行放大，从而实现蒙版帧数据对应的蒙版区域与原始视频图像的主体区域的大小保持一致性，保证用户的观看效果。

具体地，可采用双线性拉伸的方式对所述蒙版帧数据的显示比例进行放大。

在执行步骤D2对所述蒙版帧数据段进行解压的步骤之前还可包括：

将所述蒙版帧数据段转换为栅格图格式(即：位图文件格式)的蒙版帧数据段。由于对弹幕蒙版最终需在位图文件格式下对数据进行处理，因此在处理之前，需将数据格式统一转换为位图文件格式。

D3.在播放所述视频数据时对解压后的蒙版帧数据进行渲染，将所述蒙版帧数据和弹幕信息绘制到帧图像中，当所述弹幕信息经过所述蒙版帧数据时，显示所述蒙版帧数据。

在执行步骤D3中，在播放所述视频数据时对解压后的蒙版帧数据进行渲染，将所述蒙版帧数据和弹幕信息绘制到帧图像中的步骤可包括：

对所述蒙版帧数据进行边缘羽化处理，在播放所述视频数据时，根据视频时间戳将经处理后的蒙版帧数据和弹幕信息绘制到帧图像中。从而保证蒙版区域、弹幕信息及视频的帧图像三者之间在时间上的一致性。对所述蒙版帧数据进行边缘羽化处理，从而使蒙版帧数据的边缘更加柔和自然。

在执行步骤D3中，当所述弹幕信息经过所述蒙版帧数据时，显示所述蒙版帧数据的步骤，包括：

所述蒙版帧数据为透明通道，当所述弹幕信息经过所述蒙版帧数据时，将所述弹幕信息与所述蒙版帧数据的透明度相乘绘制到所述帧图像中。

显示弹幕信息时，可在蒙版帧数据边缘，弹幕渐变地从完全不透明到完全透明，使蒙版显得更加柔和自然，同时有效规避了算法对画面主体边缘识别精度不高的问题。

此外，在已搭载的基于服务器11和客户端12的显示弹幕信息系统1(如图13所示，)在应用时，可根据服务器11和客户端12的特性执行以下步骤：

服务器11识别视频中至少一帧图像的主体信息主体区域生成至少一个蒙版帧数据段；

每一所述蒙版帧数据段均对应一定位所述蒙版帧数据段物理位置的位置帧列表。

服务器11将至少一个蒙版帧数据段发送至客户端12；

客户端12将所述蒙版帧数据段中蒙版帧对应的区域、弹幕信息及所述视频的帧图像绘制到屏幕上，所述弹幕信息显示于所述蒙版帧对应的区域以外的区域。

需要说明的是：所述主体区域选自以下至少一种：

在优选的实施例中，在显示弹幕信息系统中，服务器11识别视频中至少一帧图像的主体区域生成至少一个蒙版帧数据段的步骤可包括：

将所述视频拆分为至少一个帧图像；

识别所述帧图像内的主体区域；

在优选的实施例中，在显示弹幕信息系统中，根据所述帧图像内的主体区域生成与所述帧图像对应的蒙版帧数据的步骤包括：

在优选的实施例中，在显示弹幕信息系统中，客户端12将所述蒙版帧数据段中蒙版帧对应的区域、弹幕信息及所述视频的帧图像绘制到屏幕上的步骤，包括：

客户端12对所述蒙版帧数据段进行解压；

获取所述蒙版帧的蒙版区域及相应的视频时间戳；

在优选的实施例中，在显示弹幕信息系统中，根据所述视频时间戳将所述蒙版区域、与所述视频时间戳对应的弹幕信息及与所述视频时间戳对应的视频的帧图像绘制到屏幕上之前还包括：

对所述蒙版帧的蒙版区域进行边缘羽化处理。

如图14所示，一种计算机设备2，所述计算机设备2包括：

存储器21，用于存储可执行程序代码；以及

处理器22，用于调用所述存储器21中的所述可执行程序代码，执行步骤包括上述的显示弹幕信息的方法。

图14中以一个处理器22为例。

存储器21作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的显示弹幕信息的方法对应的程序指令/模块。处理器22通过运行存储在存储器21中的非易失性软件程序、指令以及模块，从而执行计算机设备2的各种功能应用以及数据处理，即实现上述方法实施例显示弹幕信息的方法。

存储器21可以包括存储程序区和存储数据区，其中，存储程序区可存储搡作系统、至少一个功能所需要的应用程序；存储数据区可存储用户在计算机设备2的播放信息。此外，存储器21可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器21可选包括相对于处理器22远程设置的存储器21，这些远程存储器21可以通过网络连接至显示弹幕信息系统1。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器21中，当被所述一个或者多个处理器22执行时，执行上述任意方法实施例中的显示弹幕信息的方法，例如，执行以上描述的图2中的方法步骤、图11中的方法步骤，实现图13所示的显示弹幕信息系统1的功能。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的计算机设备2以多种形式存在，包括但不限于:

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

本申请实施例提供了一种非易失性计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如图14中的一个处理器22，可使得上述一个或多个处理器22可执行上述任意方法实施例中的显示弹幕信息的方法，例如，执行以上描述的图2中的方法步骤、图11中的方法步骤，实现图13所示的显示弹幕信息系统1的功能。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到至少两个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

实施例一、

显示弹幕信息的方法可应用于离线点播视频场景中，在服务器中对视频中的每一帧图像进行主体区域识别，生成包括蒙版帧数据段的蒙版文件结构。客户端向服务器请求播放该视频文件时，获取标识单元和索引单元，根据当前视频文件播放的视频时间戳查找索引单元，获取与当前播放时刻对应的蒙版帧数据段的物理地址，向根据该物理地址向服务器请求蒙版帧数据段，服务器根据客户端请求，下发相应的蒙版帧数据段至客户端，客户端对蒙版帧数据进行渲染，将经处理后的蒙版帧数据、弹幕信息绘制到相应的视频帧图像中，从而使弹幕信息显示在蒙版帧对应的区域以外的区域，达到避免视频中的主体区域在播放时被遮盖的目的，从而提升用户的观看效果。

实施例二、

显示弹幕信息的方法可应用于离线点播番剧中，在服务器中对视频中的每一帧图像进行动画人物识别，生成包括蒙版帧数据段的蒙版文件结构。客户端向服务器请求播放该视频文件时，获取标识单元和索引单元，根据当前视频文件播放的视频时间戳查找索引单元，获取与当前播放时刻对应的蒙版帧数据段的物理地址，向根据该物理地址向服务器请求蒙版帧数据段，服务器根据客户端请求，下发相应的蒙版帧数据段至客户端，客户端对蒙版帧数据进行渲染，将经处理后的蒙版帧数据、弹幕信息绘制到相应的视频帧图像中，从而使弹幕信息显示在动画人物以外的区域，达到避免视频中的主体区域在播放时被遮盖的目的，从而提升用户的观看效果。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种显示弹幕信息的方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的显示弹幕信息的方法，其特征在于，识别视频中至少一帧图像的主体区域生成至少一个蒙版帧数据段的步骤，包括：

将所述视频拆分为至少一个帧图像；

识别所述帧图像内的主体区域；

3.根据权利要求2所述的显示弹幕信息的方法，其特征在于，根据所述帧图像内的主体区域生成与所述帧图像对应的蒙版帧数据的步骤包括：

4.根据权利要求1所述的显示弹幕信息的方法，其特征在于，将所述蒙版帧数据段中蒙版帧对应的区域、弹幕信息及所述视频的帧图像绘制到屏幕上的步骤，包括：

对所述蒙版帧数据段进行解压；

获取所述蒙版帧的蒙版区域及相应的视频时间戳；

5.根据权利要求4所述的显示弹幕信息的方法，其特征在于，根据所述视频时间戳将所述蒙版区域、与所述视频时间戳对应的弹幕信息及与所述视频时间戳对应的视频的帧图像绘制到屏幕上之前还包括：

对所述蒙版帧的蒙版区域进行边缘羽化处理。

6.根据权利要求1所述的显示弹幕信息的方法，其特征在于，所述主体区域选自以下至少一种：

7.根据权利要求1所述的显示弹幕信息的方法，其特征在于，每一所述蒙版帧数据段均对应一定位所述蒙版帧数据段物理位置的位置帧列表。

8.一种显示弹幕信息的方法，其特征在于，所述方法应用于服务器与客户端之间，所述服务器与客户端执行如权利要求1-7任一项所述的显示弹幕信息的方法。

9.一种计算机设备，所述计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。