CN107493488A

CN107493488A - 基于Faster R‑CNN模型的视频内容物智能植入的方法

Info

Publication number: CN107493488A
Application number: CN201710666916.4A
Authority: CN
Inventors: 孙锬锋; 蒋兴浩; 许可
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2017-08-07
Filing date: 2017-08-07
Publication date: 2017-12-19
Anticipated expiration: 2037-08-07
Also published as: CN107493488B

Abstract

基于Faster R‑CNN模型的视频内容物智能植入的方法，包括：解帧得到视频声音文件、视频帧图像和植入内容物帧图像；检测识别每个视频帧中包含的内容物，并对视频帧文件进行镜头切分；对每个镜头选择内容物体作为内容物植入区域；精确定位内容物植入区域的顶点并追踪其移动，确定单个镜头中每一帧图像中内容物植入区域的位置；对镜头中内容物植入区域进行遮挡检测，若存在遮挡，则对运动前景自动精确分割；将植入内容物插入视频帧中内容物植入区域的位置，若上一步骤中得到了运动前景，将运动前景也补回视频帧；将上一步骤中得到的视频帧与前述得到的视频声音文件合成，得到植入内容物素材后的视频。本发明能极大提升内容物植入视频的效率。

Description

基于Faster R-CNN模型的视频内容物智能植入的方法

技术领域

本发明涉及一种视频中智能植入“内容物”的实现方法，特别是涉及一种基于Faster R-CNN模型的视频内容物智能植入的方法。

背景技术

随着移动互联网的发展，人们普遍开始从网络上搜索观看视频资源，在多数视频中，除了主要人物和道具影响到视频观看者的观看体验外，还有许多存在与背景的不影响观看的冗余信息，例如电视屏幕，桌子上的摆件，光滑的墙壁等。将特定的内容物植入这些冗余背景中，可以达到不同的效果和目的。例如，增加视频的趣味性，增加视频的商用价值，替换视频内容中重要的穿帮道具等应用。

本发明专利申请以视频广告后期植入为例，阐述“内容物”智能植入的工作原理。视频背景植入广告就是视频内容物植入的一个典型应用。传统的广告插入一般是在片头、片尾以及用户暂停视频时跳出的广告框，这种广告的出现，尤其是片头过长的广告等待时长，极大的影响了用户的观看体验，降低其商业价值。与此同时，也存在着大量的个人用户产生的视频，例如，微视频，微电影，手机视频等。这些视频存在着大量的潜在粉丝用户关注，能够产生大量的点击阅读量，但前期缺乏广告商赞助，是非常庞大的空白商业领域。通过本发明可以后期植入可观的广告信息，产生新的商业价值。本发明还可以用于后期修补影视剧中穿帮镜头等应用。

视频特定背景替换也是视频内容物植入的一个扩展应用。在视频的录制过程中，有时会出现背景包含不被期望出现的物体，此时，智能视频内容物植入技术就可提供一种良好的解决方案。

与传统的逐帧抠图修改方法相比，本发明提出了基于人工智能的高精度图层分割的方案，在效率方面提升显著；并实现图层智能融合，有效保障视频植入特定内容物的同时不影响用户的观看体验。许多学者提出了不同的实现方法，并取得了一些进展。

经过对现有视频内容植入技术的检索发现，中国专利公开号为CN 106303621A的专利记载了“一种视频广告的插入方法和装置”，公开日期为2017年1月4日。该技术通过检测视频帧特征，选择与视频特征相关的广告以小弹窗的方式插入广告的缩略图。由于小弹窗占用屏幕小，因此可减轻对用户的干扰。这种方式虽然也在试图降低广告对用户观看体验的影响，不过也还是做不到让用户完全不受插入广告的影响。与本发明在原理和性能方面不一致。

中国专利公开号为CN 105678724A的专利记载了“图像的背景替换方法及装置”，公开日期为2016年6月15日。该技术基于图像帧的RGB分量，计算出绿色差值，基于绿色差值得到初始背景图像和初始前景图像，再基于环境光因子对背景和前景进行柔化处理，再将待合成的背景图像和经处理的前景图像进行合成。这种方式在分离背景图像和前景图像时有一定的精细度限制，并且，也不能对指定区域的背景进行替换。与本发明在原理和性能方面不一致。

发表在2017年第5期《信息与电脑》期刊上的一篇名为“基于内容的视频动态广告植入研究”的文献，记载了一种基于内容的视频动态广告自动植入算法。该方法从原始视频中选择运动相对缓慢的视频帧，然后结合视频帧光流场、梯度场和视觉显著性模型构建能量方程，以能量最优化结果确定广告植入的位置。该方法的缺陷是，寻找到的广告插入位置仅限于块状空白区域，且只能得到广告位置的局部最优值，可能仍然存在遮挡视频关键内的情况。另，由于并未修正前后帧间广告块位置，对于镜头稍微移动的视频，广告插入位置不能实时更新，导致广告不能随镜头移动而移动的情况。与本发明在原理和性能方面不一致。

发明内容

本发明提供一种基于Faster R-CNN模型的视频内容物智能植入的方法，其填补了利用内容识别结果作为内容物植入位置参考以实现视频内容物智能植入的空白，可应用于包括视频后期广告插入、视频背景替换、道具替换等在内的多种需要植入内容物素材的场合，利用深度学习模型网络可高效提升内容物植入的效率，保障用户观看视频的体验，具有优秀的商业价值和应用前景。

本发明是通过下述技术方案来解决上述技术问题的：

一种基于Faster R-CNN模型的视频内容物智能植入的方法，其步骤主要包括：

步骤1，对视频样本和待植入内容物样本进行解帧，得到视频声音文件、视频帧图像及植入内容物帧图像；

步骤2，检测识别每个视频帧中包含的内容物体，并对视频帧文件进行镜头切分，得到视频包含的若干个镜头，以及每个镜头包含的内容物体；

步骤3，对每个镜头，选取矩形块作为可植入内容物的背景物，将该背景物作为内容物植入区域，得到确定作为内容物植入区域的内容物体；

步骤4，精确定位内容物植入区域的顶点，作为内容物植入区域位置的初始值，再追踪内容物植入区域顶点在下一图像帧中相对于前一帧的移动，得到每一帧图像中内容物植入区域的精确位置；

步骤5，对镜头中内容物植入区域进行遮挡检测，若存在遮挡，则对运动前景进行精确分割，得到精确分割后的运动前景；

步骤6，将植入内容物帧图像植入视频帧中内容物植入区域的位置，若步骤5中得到了运动前景，将运动前景也补回视频帧，得到植入内容物帧图像后的视频帧图像；

步骤7，对每个镜头都进行步骤3～6的操作，将所有植入内容物帧图像后的视频帧与步骤1得到的视频声音文件合成，得到植入内容物样本后的视频。

优选地，所述步骤1包括：

步骤1.1，用ffmpeg工具将视频的声音文件单独提出；

步骤1.2，用ffmpeg工具将视频解成图片帧；

步骤1.3，用ffmpeg工具将待植入内容物样本解成图片帧。

优选地，所述步骤2包括：

步骤2.1，使用Faster R-CNN框架对视频图像帧进行内容物检测，得到每一帧图像所包含的内容物体；

步骤2.2，计算视频前后两帧之间像素的差值；

步骤2.3，根据前后两帧间的像素差值和所包含内容物体的差异判断是否属于不同的镜头。

优选地，所述步骤2.1中Faster R-CNN框架包括PRN(区域建议网络)候选框提取模块和内容物检测模块，其中，PRN是全卷积神经网络，用于提取候选框，内容物检测模块基于PRN提取的proposal检测并识别proposal中的内容物，使用Faster R-CNN框架对图像帧进行内容物检测，只对原图进行一次卷积特征提取，从而节省大量的计算时间。

优选地，所述步骤4包括：

步骤4.1，使用openCV对镜头的第一帧图像做矩形检测，精确定位内容物植入区域的初始位置；

步骤4.2，使用SURF算法对图像帧中内容物植入区域顶点进行特征描述和匹配，通过对比前后两帧图像中匹配点的位置，得到后一帧相对于前一帧图像的移动参数，确定每一帧图像中内容物植入区域的精确位置。

优选地，所述步骤4.1中，openCV中包括检测直线的函数cvHoughLines2，通过先找直线，然后找到直线平行于垂直的四根线，可确定矩形的位置，得到矩形顶点的位置。

优选地，所述步骤5包括：

步骤5.1，使用全卷积网络FCN对图像帧进行区域分割，得到标注为包括人物、背景物的不同内容物体的不同区域；

步骤5.2，遮挡检测的方法是：将运动前景所在的区域与步骤4中得到的内容物植入区域的位置对比，判定是否存在重叠部分；

步骤5.3，若存在重叠部分，则记录区域分割后图像中该运动前景的像素位置。

优选地，所述步骤6包括：

步骤6.1，根据内容物植入区域在图像帧中的形状、大小，利用openCV对植入内容物帧图像进行透视变换，得到跟内容物植入区域形状、大小一致的植入内容物帧；

步骤6.2，将步骤6.1得到的植入内容物帧逐像素替换视频帧中内容物植入区域，得到植入内容物帧的图像帧；

步骤6.3，若步骤5中得到了运动前景，则在运动前景所在区域，将运动前景逐像素替换步骤6.2中得到的图像帧。

优选地，所述步骤6.1中，透视变换是为了解决待植入内容物素材与视频帧中侧放的背景物融合的问题，具体方法是：使用openCV中的getPerspectiveTransform函数计算植入内容物帧的四个顶点与要插入的视频帧中内容物植入区域的四个顶点之间的映射矩阵。

优选地，所述步骤7包括：

步骤7.1，对步骤2得到的每个视频镜头，重复步骤3～6的操作，得到原视频所有植入内容物帧后的图像帧；

步骤7.2，用ffmpeg工具将步骤1得到的视频声音文件与步骤7.1得到的图像帧合成为一段完整视频。

与现有技术相比，本发明具有如下的有益效果：

本发明通过内容识别得到视频帧中的内容物体，“内容物”包括广告LOGO、各类道具模型、背景/场景模型等。基于内容物体的种类精确植入内容物，且对于每一帧的内容物植入区域位置，都对比前一帧进行位置修正，对背景物做遮挡检测，存在运动前景时补回运动前景。应用于视频广告插入时，最后形成的效果是：在视频播放过程中，背景适合插入广告的物体插入了一段指定广告素材，在观众看来，广告素材更像是在视频录制过程中就已经存在的，极大提升了用户观看视频的体验，同时又增加了广告素材的曝光度。且本发明可应用于包括视频广告插入、视频背景替换等在内的多种需要植入内容物素材的场合，能有效提升用户观看视频的体验，具有良好的商业价值和应用前景。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明基于Faster R-CNN模型的视频内容物智能植入的方法实现的系统模型框架图；

图2为Faster R-CNN算法的模型框架图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1所示，本发明公开的基于Faster R-CNN模型的视频内容物智能植入的方法，其步骤主要包括：

所述步骤1包括如下步骤：

步骤1.1，用ffmpeg(开源计算机程序)工具将视频声音文件单独提出；

步骤1.2，用ffmpeg工具将视频解成图片帧；

步骤1.3，用ffmpeg工具将待植入内容物素材解成图片帧。

所述步骤2包括如下步骤：

步骤2.1，使用Faster R-CNN框架对视频图像帧进行内容物检测，得到每一帧图像所包含的内容物体；内容物检测算法主要包括基于Boosting框架、基于SVM等的传统方法和基于CNN(卷积神经网络)的方法。传统方法的优势在于速度快，但效果欠缺，基于CNN的方法在效果上有明显优势，但速度较慢。

如图2所示，Faster R-CNN算法由PRN(Region Proposal Network，区域建议网络)候选框提取模块和内容物检测模块组成，其中，PRN是全卷积神经网络，用于提取候选框，内容物检测模块基于PRN提取的proposal检测并识别proposal中的内容物。使用Faster R-CNN框架对图像帧进行内容物检测，只对原图进行一次卷积特征提取，节省了大量的计算时间。

步骤2.2，计算视频前后两帧之间像素的差值；

所述步骤4包括如下步骤：

步骤4.1，使用openCV(跨平台计算机视觉库)对镜头的第一帧图像做矩形检测，精确定位内容物植入区域的初始位置；openCV中有检测直线的函数cvHoughLines2，通过先找直线，然后找到直线平行于垂直的四根线，可确定矩形的位置，得到矩形顶点的位置。

步骤4.2，使用SURF算法对图像帧中内容物植入区域顶点进行特征描述和匹配，通过对比前后两帧图像中匹配点的位置，得到后一帧相对于前一帧图像的移动参数，确定每一帧图像中内容物植入区域的精确位置；在openCV里，有特征描述和特征匹配的函数，分别为SurfDescriptorExtractor类下的compute函数和BruteForceMatcher类下的match函数。

所述步骤5包括如下步骤：

步骤5.1，使用全卷积网络FCN对图像帧进行区域分割，得到标注为人物、背景物等不同内容物体的不同区域；传统的基于CNN的分割方法，为了对一个像素分类，使用该像素周围的一个图像块作为CNN的输入用于预测和分类，此种方法具有存储开销大、计算效率低下以及感知区域受像素块大小影响等缺陷。使用全卷积网络FCN对图像帧进行区域分割，从抽象特征中恢复出每个像素所属的类别，可接受任意大小的输入图像，也避免了由于使用像素块而带来的重复存储和计算卷积的问题。具体操作为：将传统分类网络最后的全连接层变为卷积层。

步骤5.2，遮挡检测的方法是：将人物等运动前景所在的区域与步骤4中得到的广告块的位置对比，判定是否存在重叠部分；

步骤5.3，若存在重叠部分，则记录区域分割后图像中人物等运动前景的像素位置；

所述步骤6包括如下步骤：

步骤6.1，根据内容物植入区域在图像帧中的形状、大小，利用openCV对植入内容物帧图像进行透视变换，得到跟内容物植入区域形状、大小一致的广告帧；透视变换是为了解决待植入内容物素材与视频帧中侧放的背景物融合的问题，具体做法是：使用openCV中的getPerspectiveTransform函数计算植入内容物帧的四个顶点与要待植入的视频帧中内容物植入区域的四个顶点之间的映射矩阵。

步骤6.2，将步骤6.1得到的植入内容物帧逐像素替换视频帧中内容物植入区域，得到植入内容物帧后的图像帧；

步骤6.3，若步骤5中得到了运动前景，则在运动前景所在区域，将运动前景逐像素替换步骤6.2中得到的图像帧；

所述步骤7包括如下步骤：

步骤7.1，对步骤2得到的每个视频镜头，重复步骤3～6的操作，得到原视频所有植入内容物素材后的图像帧；

步骤7.2，用ffmpeg工具将步骤1得到的视频声音文件与步骤7.1得到的图像帧合成。

本发明填补了利用内容识别结果作为内容物素材植入位置参考以实现视频内容物智能植入的相关空白，可应用于包括视频广告插入、视频背景替换等在内的多种需要植入内容物素材的场合，能有效提升用户观看视频的体验，具有良好的商业价值和应用前景。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于Faster R-CNN模型的视频内容物智能植入的方法，其特征在于，包括步骤如下：

2.根据权利要求1所述的基于Faster R-CNN模型的视频内容物智能植入的方法，其特征在于，所述步骤1包括：

步骤1.1，用ffmpeg工具将视频的声音文件单独提出；

步骤1.2，用ffmpeg工具将视频解成图片帧；

步骤1.3，用ffmpeg工具将待植入内容物样本解成图片帧。

3.根据权利要求1所述的基于Faster R-CNN模型的视频内容物智能植入的方法，其特征在于，所述步骤2包括：

步骤2.2，计算视频前后两帧之间像素的差值；

4.根据权利要求3所述的基于Faster R-CNN模型的视频内容物智能植入的方法，其特征在于，所述步骤2.1中Faster R-CNN框架包括PRN候选框提取模块和内容物检测模块，其中，PRN是全卷积神经网络，用于提取候选框，内容物检测模块基于PRN提取的proposal检测并识别proposal中的内容物，使用Faster R-CNN框架对图像帧进行内容物检测，只对原图进行一次卷积特征提取，从而节省大量的计算时间。

5.根据权利要求1所述的基于Faster R-CNN模型的视频内容物智能植入的方法，其特征在于，所述步骤4包括：

6.根据权利要求5所述的基于Faster R-CNN模型的视频内容物智能植入的方法，其特征在于，所述步骤4.1中，openCV中包括检测直线的函数cvHoughLines2，通过先找直线，然后找到直线平行于垂直的四根线，确定矩形的位置，得到矩形顶点的位置。

7.根据权利要求1所述的基于Faster R-CNN模型的视频内容物智能植入的方法，其特征在于，所述步骤5包括：

8.根据权利要求1所述的基于Faster R-CNN模型的视频内容物智能植入的方法，其特征在于，所述步骤6包括：

9.根据权利要求8所述的基于Faster R-CNN模型的视频内容物智能植入的方法，其特征在于，所述步骤6.1中，透视变换是为了解决待植入内容物素材与视频帧中侧放的背景物融合的问题，具体方法是：使用openCV中的getPerspectiveTransform函数计算植入内容物帧的四个顶点与要插入的视频帧中内容物植入区域的四个顶点之间的映射矩阵。

10.根据权利要求1所述的基于Faster R-CNN模型的视频内容物智能植入的方法，其特征在于，所述步骤7包括：