CN107493488B - 基于Faster R-CNN模型的视频内容物智能植入的方法 - Google Patents
基于Faster R-CNN模型的视频内容物智能植入的方法 Download PDFInfo
- Publication number
- CN107493488B CN107493488B CN201710666916.4A CN201710666916A CN107493488B CN 107493488 B CN107493488 B CN 107493488B CN 201710666916 A CN201710666916 A CN 201710666916A CN 107493488 B CN107493488 B CN 107493488B
- Authority
- CN
- China
- Prior art keywords
- content
- video
- frame
- image
- implanted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000002513 implantation Methods 0.000 claims abstract description 71
- 230000033001 locomotion Effects 0.000 claims abstract description 36
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 239000000463 material Substances 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 7
- 230000001502 supplementing effect Effects 0.000 claims abstract description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 31
- 239000007943 implant Substances 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000003780 insertion Methods 0.000 description 8
- 230000037431 insertion Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012966 insertion method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/2668—Creating a channel for a dedicated end-user group, e.g. insertion of targeted commercials based on end-user profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23424—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/812—Monomedia components thereof involving advertisement data
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
基于Faster R‑CNN模型的视频内容物智能植入的方法,包括:解帧得到视频声音文件、视频帧图像和植入内容物帧图像;检测识别每个视频帧中包含的内容物,并对视频帧文件进行镜头切分;对每个镜头选择内容物体作为内容物植入区域;精确定位内容物植入区域的顶点并追踪其移动,确定单个镜头中每一帧图像中内容物植入区域的位置;对镜头中内容物植入区域进行遮挡检测,若存在遮挡,则对运动前景自动精确分割;将植入内容物插入视频帧中内容物植入区域的位置,若上一步骤中得到了运动前景,将运动前景也补回视频帧;将上一步骤中得到的视频帧与前述得到的视频声音文件合成,得到植入内容物素材后的视频。本发明能极大提升内容物植入视频的效率。
Description
技术领域
本发明涉及一种视频中智能植入“内容物”的实现方法,特别是涉及一种基于Faster R-CNN模型的视频内容物智能植入的方法。
背景技术
随着移动互联网的发展,人们普遍开始从网络上搜索观看视频资源,在多数视频中,除了主要人物和道具影响到视频观看者的观看体验外,还有许多存在与背景的不影响观看的冗余信息,例如电视屏幕,桌子上的摆件,光滑的墙壁等。将特定的内容物植入这些冗余背景中,可以达到不同的效果和目的。例如,增加视频的趣味性,增加视频的商用价值,替换视频内容中重要的穿帮道具等应用。
本发明专利申请以视频广告后期植入为例,阐述“内容物”智能植入的工作原理。视频背景植入广告就是视频内容物植入的一个典型应用。传统的广告插入一般是在片头、片尾以及用户暂停视频时跳出的广告框,这种广告的出现,尤其是片头过长的广告等待时长,极大的影响了用户的观看体验,降低其商业价值。与此同时,也存在着大量的个人用户产生的视频,例如,微视频,微电影,手机视频等。这些视频存在着大量的潜在粉丝用户关注,能够产生大量的点击阅读量,但前期缺乏广告商赞助,是非常庞大的空白商业领域。通过本发明可以后期植入可观的广告信息,产生新的商业价值。本发明还可以用于后期修补影视剧中穿帮镜头等应用。
视频特定背景替换也是视频内容物植入的一个扩展应用。在视频的录制过程中,有时会出现背景包含不被期望出现的物体,此时,智能视频内容物植入技术就可提供一种良好的解决方案。
与传统的逐帧抠图修改方法相比,本发明提出了基于人工智能的高精度图层分割的方案,在效率方面提升显著;并实现图层智能融合,有效保障视频植入特定内容物的同时不影响用户的观看体验。许多学者提出了不同的实现方法,并取得了一些进展。
经过对现有视频内容植入技术的检索发现,中国专利公开号为CN 106303621A的专利记载了“一种视频广告的插入方法和装置”,公开日期为2017年1月4日。该技术通过检测视频帧特征,选择与视频特征相关的广告以小弹窗的方式插入广告的缩略图。由于小弹窗占用屏幕小,因此可减轻对用户的干扰。这种方式虽然也在试图降低广告对用户观看体验的影响,不过也还是做不到让用户完全不受插入广告的影响。与本发明在原理和性能方面不一致。
中国专利公开号为CN 105678724A的专利记载了“图像的背景替换方法及装置”,公开日期为2016年6月15日。该技术基于图像帧的RGB分量,计算出绿色差值,基于绿色差值得到初始背景图像和初始前景图像,再基于环境光因子对背景和前景进行柔化处理,再将待合成的背景图像和经处理的前景图像进行合成。这种方式在分离背景图像和前景图像时有一定的精细度限制,并且,也不能对指定区域的背景进行替换。与本发明在原理和性能方面不一致。
发表在2017年第5期《信息与电脑》期刊上的一篇名为“基于内容的视频动态广告植入研究”的文献,记载了一种基于内容的视频动态广告自动植入算法。该方法从原始视频中选择运动相对缓慢的视频帧,然后结合视频帧光流场、梯度场和视觉显著性模型构建能量方程,以能量最优化结果确定广告植入的位置。该方法的缺陷是,寻找到的广告插入位置仅限于块状空白区域,且只能得到广告位置的局部最优值,可能仍然存在遮挡视频关键内的情况。另,由于并未修正前后帧间广告块位置,对于镜头稍微移动的视频,广告插入位置不能实时更新,导致广告不能随镜头移动而移动的情况。与本发明在原理和性能方面不一致。
发明内容
本发明提供一种基于Faster R-CNN模型的视频内容物智能植入的方法,其填补了利用内容识别结果作为内容物植入位置参考以实现视频内容物智能植入的空白,可应用于包括视频后期广告插入、视频背景替换、道具替换等在内的多种需要植入内容物素材的场合,利用深度学习模型网络可高效提升内容物植入的效率,保障用户观看视频的体验,具有优秀的商业价值和应用前景。
本发明是通过下述技术方案来解决上述技术问题的:
一种基于Faster R-CNN模型的视频内容物智能植入的方法,其步骤主要包括:
步骤1,对视频样本和待植入内容物样本进行解帧,得到视频声音文件、视频帧图像及植入内容物帧图像;
步骤2,检测识别每个视频帧中包含的内容物体,并对视频帧文件进行镜头切分,得到视频包含的若干个镜头,以及每个镜头包含的内容物体;
步骤3,对每个镜头,选取矩形块作为可植入内容物的背景物,将该背景物作为内容物植入区域,得到确定作为内容物植入区域的内容物体;
步骤4,精确定位内容物植入区域的顶点,作为内容物植入区域位置的初始值,再追踪内容物植入区域顶点在下一图像帧中相对于前一帧的移动,得到每一帧图像中内容物植入区域的精确位置;
步骤5,对镜头中内容物植入区域进行遮挡检测,若存在遮挡,则对运动前景进行精确分割,得到精确分割后的运动前景;
步骤6,将植入内容物帧图像植入视频帧中内容物植入区域的位置,若步骤5中得到了运动前景,将运动前景也补回视频帧,得到植入内容物帧图像后的视频帧图像;
步骤7,对每个镜头都进行步骤3~6的操作,将所有植入内容物帧图像后的视频帧与步骤1得到的视频声音文件合成,得到植入内容物样本后的视频。
优选地,所述步骤1包括:
步骤1.1,用ffmpeg工具将视频的声音文件单独提出;
步骤1.2,用ffmpeg工具将视频解成图片帧;
步骤1.3,用ffmpeg工具将待植入内容物样本解成图片帧。
优选地,所述步骤2包括:
步骤2.1,使用Faster R-CNN框架对视频图像帧进行内容物检测,得到每一帧图像所包含的内容物体;
步骤2.2,计算视频前后两帧之间像素的差值;
步骤2.3,根据前后两帧间的像素差值和所包含内容物体的差异判断是否属于不同的镜头。
优选地,所述步骤2.1中Faster R-CNN框架包括PRN(区域建议网络)候选框提取模块和内容物检测模块,其中,PRN是全卷积神经网络,用于提取候选框,内容物检测模块基于PRN提取的proposal检测并识别proposal中的内容物,使用FasterR-CNN框架对图像帧进行内容物检测,只对原图进行一次卷积特征提取,从而节省大量的计算时间。
优选地,所述步骤4包括:
步骤4.1,使用openCV对镜头的第一帧图像做矩形检测,精确定位内容物植入区域的初始位置;
步骤4.2,使用SURF算法对图像帧中内容物植入区域顶点进行特征描述和匹配,通过对比前后两帧图像中匹配点的位置,得到后一帧相对于前一帧图像的移动参数,确定每一帧图像中内容物植入区域的精确位置。
优选地,所述步骤4.1中,openCV中包括检测直线的函数cvHoughLines2,通过先找所述第一帧图像中的直线,然后检测所述直线中能够形成矩形的直线组合,确定矩形的位置,从而得到矩形顶点的位置。
优选地,所述步骤5包括:
步骤5.1,使用全卷积网络FCN对图像帧进行区域分割,得到标注为包括人物、背景物的不同内容物体的不同区域;
步骤5.2,遮挡检测的方法是:将运动前景所在的区域与步骤4中得到的内容物植入区域的位置对比,判定是否存在重叠部分;
步骤5.3,若存在重叠部分,则记录区域分割后图像中该运动前景的像素位置。
优选地,所述步骤6包括:
步骤6.1,根据内容物植入区域在图像帧中的形状、大小,利用openCV对植入内容物帧图像进行透视变换,得到跟内容物植入区域形状、大小一致的植入内容物帧;
步骤6.2,将步骤6.1得到的植入内容物帧逐像素替换视频帧中内容物植入区域,得到植入内容物帧的图像帧;
步骤6.3,若步骤5中得到了运动前景,则在运动前景所在区域,将运动前景逐像素替换步骤6.2中得到的图像帧。
优选地,所述步骤6.1中,透视变换是为了解决待植入内容物素材与视频帧中侧放的背景物融合的问题,具体方法是:使用openCV中的getPerspect iveTransform函数计算植入内容物帧的四个顶点与要插入的视频帧中内容物植入区域的四个顶点之间的映射矩阵。
优选地,所述步骤7包括:
步骤7.1,对步骤2得到的每个视频镜头,重复步骤3~6的操作,得到原视频所有植入内容物帧后的图像帧;
步骤7.2,用ffmpeg工具将步骤1得到的视频声音文件与步骤7.1得到的图像帧合成为一段完整视频。
与现有技术相比,本发明具有如下的有益效果:
本发明通过内容识别得到视频帧中的内容物体,“内容物”包括广告LOGO、各类道具模型、背景/场景模型等。基于内容物体的种类精确植入内容物,且对于每一帧的内容物植入区域位置,都对比前一帧进行位置修正,对背景物做遮挡检测,存在运动前景时补回运动前景。应用于视频广告插入时,最后形成的效果是:在视频播放过程中,背景适合插入广告的物体插入了一段指定广告素材,在观众看来,广告素材更像是在视频录制过程中就已经存在的,极大提升了用户观看视频的体验,同时又增加了广告素材的曝光度。且本发明可应用于包括视频广告插入、视频背景替换等在内的多种需要植入内容物素材的场合,能有效提升用户观看视频的体验,具有良好的商业价值和应用前景。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明基于Faster R-CNN模型的视频内容物智能植入的方法实现的系统模型框架图;
图2为Faster R-CNN算法的模型框架图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
如图1所示,本发明公开的基于Faster R-CNN模型的视频内容物智能植入的方法,其步骤主要包括:
步骤1,对视频样本和待植入内容物样本进行解帧,得到视频声音文件、视频帧图像及植入内容物帧图像;
步骤2,检测识别每个视频帧中包含的内容物体,并对视频帧文件进行镜头切分,得到视频包含的若干个镜头,以及每个镜头包含的内容物体;
步骤3,对每个镜头,选取矩形块作为可植入内容物的背景物,将该背景物作为内容物植入区域,得到确定作为内容物植入区域的内容物体;
步骤4,精确定位内容物植入区域的顶点,作为内容物植入区域位置的初始值,再追踪内容物植入区域顶点在下一图像帧中相对于前一帧的移动,得到每一帧图像中内容物植入区域的精确位置;
步骤5,对镜头中内容物植入区域进行遮挡检测,若存在遮挡,则对运动前景进行精确分割,得到精确分割后的运动前景;
步骤6,将植入内容物帧图像植入视频帧中内容物植入区域的位置,若步骤5中得到了运动前景,将运动前景也补回视频帧,得到植入内容物帧图像后的视频帧图像;
步骤7,对每个镜头都进行步骤3~6的操作,将所有植入内容物帧图像后的视频帧与步骤1得到的视频声音文件合成,得到植入内容物样本后的视频。
所述步骤1包括如下步骤:
步骤1.1,用ffmpeg(开源计算机程序)工具将视频声音文件单独提出;
步骤1.2,用ffmpeg工具将视频解成图片帧;
步骤1.3,用ffmpeg工具将待植入内容物素材解成图片帧。
所述步骤2包括如下步骤:
步骤2.1,使用Faster R-CNN框架对视频图像帧进行内容物检测,得到每一帧图像所包含的内容物体;内容物检测算法主要包括基于Boosting框架、基于SVM等的传统方法和基于CNN(卷积神经网络)的方法。传统方法的优势在于速度快,但效果欠缺,基于CNN的方法在效果上有明显优势,但速度较慢。
如图2所示,Faster R-CNN算法由PRN(Region Proposal Network,区域建议网络)候选框提取模块和内容物检测模块组成,其中,PRN是全卷积神经网络,用于提取候选框,内容物检测模块基于PRN提取的proposal检测并识别proposal中的内容物。使用Faster R-CNN框架对图像帧进行内容物检测,只对原图进行一次卷积特征提取,节省了大量的计算时间。
步骤2.2,计算视频前后两帧之间像素的差值;
步骤2.3,根据前后两帧间的像素差值和所包含内容物体的差异判断是否属于不同的镜头。
所述步骤4包括如下步骤:
步骤4.1,使用openCV(跨平台计算机视觉库)对镜头的第一帧图像做矩形检测,精确定位内容物植入区域的初始位置;openCV中有检测直线的函数cvHoughLines2,通过先找所述第一帧图像中的直线,然后检测所述直线中能够形成矩形的直线组合,确定矩形的位置,从而得到矩形顶点的位置。
步骤4.2,使用SURF算法对图像帧中内容物植入区域顶点进行特征描述和匹配,通过对比前后两帧图像中匹配点的位置,得到后一帧相对于前一帧图像的移动参数,确定每一帧图像中内容物植入区域的精确位置;在openCV里,有特征描述和特征匹配的函数,分别为SurfDescriptorExtractor类下的compute函数和BruteForceMatcher类下的match函数。
所述步骤5包括如下步骤:
步骤5.1,使用全卷积网络FCN对图像帧进行区域分割,得到标注为人物、背景物等不同内容物体的不同区域;传统的基于CNN的分割方法,为了对一个像素分类,使用该像素周围的一个图像块作为CNN的输入用于预测和分类,此种方法具有存储开销大、计算效率低下以及感知区域受像素块大小影响等缺陷。使用全卷积网络FCN对图像帧进行区域分割,从抽象特征中恢复出每个像素所属的类别,可接受任意大小的输入图像,也避免了由于使用像素块而带来的重复存储和计算卷积的问题。具体操作为:将传统分类网络最后的全连接层变为卷积层。
步骤5.2,遮挡检测的方法是:将人物等运动前景所在的区域与步骤4中得到的广告块的位置对比,判定是否存在重叠部分;
步骤5.3,若存在重叠部分,则记录区域分割后图像中人物等运动前景的像素位置;
所述步骤6包括如下步骤:
步骤6.1,根据内容物植入区域在图像帧中的形状、大小,利用openCV对植入内容物帧图像进行透视变换,得到跟内容物植入区域形状、大小一致的广告帧;透视变换是为了解决待植入内容物素材与视频帧中侧放的背景物融合的问题,具体做法是:使用openCV中的getPerspectiveTransform函数计算植入内容物帧的四个顶点与要待植入的视频帧中内容物植入区域的四个顶点之间的映射矩阵。
步骤6.2,将步骤6.1得到的植入内容物帧逐像素替换视频帧中内容物植入区域,得到植入内容物帧后的图像帧;
步骤6.3,若步骤5中得到了运动前景,则在运动前景所在区域,将运动前景逐像素替换步骤6.2中得到的图像帧;
所述步骤7包括如下步骤:
步骤7.1,对步骤2得到的每个视频镜头,重复步骤3~6的操作,得到原视频所有植入内容物素材后的图像帧;
步骤7.2,用ffmpeg工具将步骤1得到的视频声音文件与步骤7.1得到的图像帧合成。
本发明填补了利用内容识别结果作为内容物素材植入位置参考以实现视频内容物智能植入的相关空白,可应用于包括视频广告插入、视频背景替换等在内的多种需要植入内容物素材的场合,能有效提升用户观看视频的体验,具有良好的商业价值和应用前景。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种基于Faster R-CNN模型的视频内容物智能植入的方法,其特征在于,包括步骤如下:
步骤1,对视频样本和待植入内容物样本进行解帧,得到视频声音文件、视频帧图像及植入内容物帧图像;
步骤2,检测识别每个视频帧中包含的内容物体,并对视频帧文件进行镜头切分,得到视频包含的若干个镜头,以及每个镜头包含的内容物体;
步骤3,对每个镜头,选取矩形块作为可植入内容物的背景物,将该背景物作为内容物植入区域,得到确定作为内容物植入区域的内容物体;
步骤4,精确定位内容物植入区域的顶点,作为内容物植入区域位置的初始值,再追踪内容物植入区域顶点在下一图像帧中相对于前一帧的移动,得到每一帧图像中内容物植入区域的精确位置;
步骤5,对镜头中内容物植入区域进行遮挡检测,若存在遮挡,则对运动前景进行精确分割,得到精确分割后的运动前景;
步骤6,将植入内容物帧图像植入视频帧中内容物植入区域的位置,若步骤5中得到了运动前景,将运动前景也补回视频帧,得到植入内容物帧图像后的视频帧图像;
步骤7,对每个镜头都进行步骤3~6的操作,将所有植入内容物帧图像后的视频帧与步骤1得到的视频声音文件合成,得到植入内容物样本后的视频。
2.根据权利要求1所述的基于Faster R-CNN模型的视频内容物智能植入的方法,其特征在于,所述步骤1包括:
步骤1.1,用ffmpeg工具将视频的声音文件单独提出;
步骤1.2,用ffmpeg工具将视频解成图片帧;
步骤1.3,用ffmpeg工具将待植入内容物样本解成图片帧。
3.根据权利要求1所述的基于Faster R-CNN模型的视频内容物智能植入的方法,其特征在于,所述步骤2包括:
步骤2.1,使用Faster R-CNN框架对视频图像帧进行内容物检测,得到每一帧图像所包含的内容物体;
步骤2.2,计算视频前后两帧之间像素的差值;
步骤2.3,根据前后两帧间的像素差值和所包含内容物体的差异判断是否属于不同的镜头。
4.根据权利要求3所述的基于Faster R-CNN模型的视频内容物智能植入的方法,其特征在于,所述步骤2.1中Faster R-CNN框架包括PRN候选框提取模块和内容物检测模块,其中,PRN是全卷积神经网络,用于提取候选框,内容物检测模块基于PRN提取的proposal检测并识别proposal中的内容物,使用Faster R-CNN框架对图像帧进行内容物检测,只对原图进行一次卷积特征提取,从而节省大量的计算时间。
5.根据权利要求1所述的基于Faster R-CNN模型的视频内容物智能植入的方法,其特征在于,所述步骤4包括:
步骤4.1,使用openCV对镜头的第一帧图像做矩形检测,精确定位内容物植入区域的初始位置;
步骤4.2,使用SURF算法对图像帧中内容物植入区域顶点进行特征描述和匹配,通过对比前后两帧图像中匹配点的位置,得到后一帧相对于前一帧图像的移动参数,确定每一帧图像中内容物植入区域的精确位置。
6.根据权利要求5所述的基于Faster R-CNN模型的视频内容物智能植入的方法,其特征在于,所述步骤4.1中,openCV中包括检测直线的函数cvHoughLines2,通过先找所述第一帧图像中的直线,然后检测所述直线中能够形成矩形的直线组合,确定矩形的位置,从而得到矩形顶点的位置。
7.根据权利要求1所述的基于Faster R-CNN模型的视频内容物智能植入的方法,其特征在于,所述步骤5包括:
步骤5.1,使用全卷积网络FCN对图像帧进行区域分割,得到标注为包括人物、背景物的不同内容物体的不同区域;
步骤5.2,遮挡检测的方法是:将运动前景所在的区域与步骤4中得到的内容物植入区域的位置对比,判定是否存在重叠部分;
步骤5.3,若存在重叠部分,则记录区域分割后图像中该运动前景的像素位置。
8.根据权利要求1所述的基于Faster R-CNN模型的视频内容物智能植入的方法,其特征在于,所述步骤6包括:
步骤6.1,根据内容物植入区域在图像帧中的形状、大小,利用openCV对植入内容物帧图像进行透视变换,得到跟内容物植入区域形状、大小一致的植入内容物帧;
步骤6.2,将步骤6.1得到的植入内容物帧逐像素替换视频帧中内容物植入区域,得到植入内容物帧的图像帧;
步骤6.3,若步骤5中得到了运动前景,则在运动前景所在区域,将运动前景逐像素替换步骤6.2中得到的图像帧。
9.根据权利要求8所述的基于Faster R-CNN模型的视频内容物智能植入的方法,其特征在于,所述步骤6.1中,透视变换是为了解决待植入内容物素材与视频帧中侧放的背景物融合的问题,具体方法是:使用openCV中的getPerspectiveTransform函数计算植入内容物帧的四个顶点与要插入的视频帧中内容物植入区域的四个顶点之间的映射矩阵。
10.根据权利要求1所述的基于Faster R-CNN模型的视频内容物智能植入的方法,其特征在于,所述步骤7包括:
步骤7.1,对步骤2得到的每个视频镜头,重复步骤3~6的操作,得到原视频所有植入内容物帧后的图像帧;
步骤7.2,用ffmpeg工具将步骤1得到的视频声音文件与步骤7.1得到的图像帧合成为一段完整视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710666916.4A CN107493488B (zh) | 2017-08-07 | 2017-08-07 | 基于Faster R-CNN模型的视频内容物智能植入的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710666916.4A CN107493488B (zh) | 2017-08-07 | 2017-08-07 | 基于Faster R-CNN模型的视频内容物智能植入的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107493488A CN107493488A (zh) | 2017-12-19 |
CN107493488B true CN107493488B (zh) | 2020-01-07 |
Family
ID=60645027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710666916.4A Active CN107493488B (zh) | 2017-08-07 | 2017-08-07 | 基于Faster R-CNN模型的视频内容物智能植入的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107493488B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109996107A (zh) * | 2017-12-29 | 2019-07-09 | 百度在线网络技术(北京)有限公司 | 视频生成方法、装置和系统 |
CN108280844B (zh) * | 2018-02-05 | 2020-07-24 | 厦门大学 | 一种基于区域候选框跟踪的视频目标定位方法 |
CN110415005A (zh) * | 2018-04-27 | 2019-11-05 | 华为技术有限公司 | 确定广告插入位置的方法、计算机设备和存储介质 |
CN110662111A (zh) * | 2018-06-29 | 2020-01-07 | 南京芝兰人工智能技术研究院有限公司 | 一种视频中批量植入内容信息的方法和系统 |
CN108985229A (zh) * | 2018-07-17 | 2018-12-11 | 北京果盟科技有限公司 | 一种基于深度神经网络的智能广告替换方法及系统 |
CN109377467A (zh) * | 2018-09-28 | 2019-02-22 | 阿里巴巴集团控股有限公司 | 训练样本的生成方法、目标检测方法和装置 |
CN110121034B (zh) * | 2019-05-09 | 2021-09-07 | 腾讯科技(深圳)有限公司 | 一种在视频中植入信息的方法、装置、设备及存储介质 |
CN112101075B (zh) * | 2019-06-18 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 信息植入区域的识别方法、装置、存储介质及电子设备 |
CN110213629B (zh) * | 2019-06-27 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 一种信息植入方法、装置、服务器及存储介质 |
CN110472594B (zh) * | 2019-08-20 | 2022-12-06 | 腾讯科技(深圳)有限公司 | 目标跟踪方法、信息插入方法及设备 |
CN111010605B (zh) * | 2019-11-26 | 2021-08-17 | 杭州东信北邮信息技术有限公司 | 一种视频画中画窗口的显示方法 |
CN113298926A (zh) * | 2020-02-06 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 视频处理方法、视频处理装置及电子设备 |
CN111263203A (zh) * | 2020-02-28 | 2020-06-09 | 宋秀梅 | 视频广告推送优先权分析系统 |
CN111598917B (zh) * | 2020-07-15 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 数据嵌入方法、装置、设备及计算机可读存储介质 |
CN111988657A (zh) * | 2020-08-05 | 2020-11-24 | 网宿科技股份有限公司 | 一种广告插入方法及装置 |
CN112613473B (zh) * | 2020-12-31 | 2024-04-23 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种广告植入方法及系统 |
CN113436097B (zh) * | 2021-06-24 | 2022-08-02 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频抠图方法、装置、存储介质和设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997000582A1 (en) * | 1995-06-16 | 1997-01-03 | Princeton Video Image, Inc. | System and method of real time insertions into video using adaptive occlusion with a synthetic reference image |
CN1728781A (zh) * | 2004-07-30 | 2006-02-01 | 新加坡科技研究局 | 将附加内容插入视频的方法和装置 |
KR20060088441A (ko) * | 2005-02-02 | 2006-08-04 | 주식회사 비즈모델라인 | 멀티미디어 컨텐츠에 실시간 고객관계관리 연동형 동영상광고 삽입 방법 |
WO2011041056A3 (en) * | 2009-09-30 | 2011-06-16 | Microsoft Corporation | Video content-aware advertisement placement |
CN104700354A (zh) * | 2015-03-31 | 2015-06-10 | 北京奇艺世纪科技有限公司 | 一种信息植入方法及装置 |
WO2016155345A1 (zh) * | 2015-03-27 | 2016-10-06 | 哈尔滨工业大学深圳研究生院 | 一种基于视频内容感知的广告推荐方法及系统 |
-
2017
- 2017-08-07 CN CN201710666916.4A patent/CN107493488B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997000582A1 (en) * | 1995-06-16 | 1997-01-03 | Princeton Video Image, Inc. | System and method of real time insertions into video using adaptive occlusion with a synthetic reference image |
CN1728781A (zh) * | 2004-07-30 | 2006-02-01 | 新加坡科技研究局 | 将附加内容插入视频的方法和装置 |
KR20060088441A (ko) * | 2005-02-02 | 2006-08-04 | 주식회사 비즈모델라인 | 멀티미디어 컨텐츠에 실시간 고객관계관리 연동형 동영상광고 삽입 방법 |
WO2011041056A3 (en) * | 2009-09-30 | 2011-06-16 | Microsoft Corporation | Video content-aware advertisement placement |
WO2016155345A1 (zh) * | 2015-03-27 | 2016-10-06 | 哈尔滨工业大学深圳研究生院 | 一种基于视频内容感知的广告推荐方法及系统 |
CN104700354A (zh) * | 2015-03-31 | 2015-06-10 | 北京奇艺世纪科技有限公司 | 一种信息植入方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于内容的视频动态广告植入研究;舒莲卿;《信息与电脑》;20170308(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107493488A (zh) | 2017-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107493488B (zh) | 基于Faster R-CNN模型的视频内容物智能植入的方法 | |
WO2020108083A1 (zh) | 视频处理方法、装置、电子设备及计算机可读介质 | |
Wu et al. | Content‐based colour transfer | |
Lee et al. | Temporally coherent video matting | |
Li et al. | Video object cut and paste | |
Bai et al. | Video snapcut: robust video object cutout using localized classifiers | |
Zhang et al. | Motion layer based object removal in videos | |
CN112950477B (zh) | 一种基于双路径处理的高分辨率显著性目标检测方法 | |
US9633446B2 (en) | Method, apparatus and computer program product for segmentation of objects in media content | |
US11978216B2 (en) | Patch-based image matting using deep learning | |
US20180192160A1 (en) | Context based augmented advertisement | |
Dong et al. | Fast multi-operator image resizing and evaluation | |
US10095932B2 (en) | Video abstract using signed foreground extraction and fusion | |
CN105284122A (zh) | 用于通过使用帧聚类来插入广告的装置和方法 | |
CN111556336B (zh) | 一种多媒体文件处理方法、装置、终端设备及介质 | |
CN104272377A (zh) | 运动图片项目管理系统 | |
CN111462162B (zh) | 一种特定类别图片的前景分割算法 | |
WO2023056835A1 (zh) | 视频封面生成方法、装置、电子设备及可读介质 | |
CN106682652A (zh) | 基于增强现实的结构表面病害巡检和分析方法 | |
CN116308530A (zh) | 一种广告植入方法、装置、设备和可读存储介质 | |
CN111354067A (zh) | 一种基于Unity3D引擎的多模型同屏渲染方法 | |
CN117459661A (zh) | 一种视频处理方法、装置、设备及机器可读存储介质 | |
CN112614149A (zh) | 基于实例分割的语义合成方法 | |
Kawai et al. | From image inpainting to diminished reality | |
Wang et al. | Graph cut video object segmentation using histogram of oriented gradients |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |