CN111597885A

CN111597885A - 一种视频附加内容检测方法和系统

Info

Publication number: CN111597885A
Application number: CN202010265709.XA
Authority: CN
Inventors: 郭玉峰; 赵玉良; 黄鑫; 何林晋; 吴昌猛; 王连杰; 张博伦
Original assignee: Shanghai Tuele Information Technology Service Co ltd
Current assignee: Shanghai Tuele Information Technology Service Co ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-08-28

Abstract

本发明涉及一种视频附加内容检测方法和系统，所述方法包括以下步骤：对合成视频进行切帧处理，得到多个视频帧，其中，所述合成视频中包含附加内容；对所述视频帧进行目标检测，确定附加内容信息；将所述附加内容信息与一个或多个模板进行匹配；以及将与所述附加内容信息相匹配的模板的标本信息作为合成视频帧中的附加内容信息。本发明可以自动从合成视频中检测出其中额外添加的附加信息，并通过设置的模板得到更加精确的附加内容信息，整个过程无需人工操作，提高了检测的准确度和效率。

Description

一种视频附加内容检测方法和系统

技术领域

本发明涉及一种视频处理技术领域，特别地涉及一种视频添加附加内容检测方法和系统。

背景技术

在视频应用领域中，随着视频编辑技术的发展，允许向视频增加一些附加内容而得到合成视频。例如，可以在视频中增加文字、图像等静态信息，也可以在视频中增加动画等动态信息。然而，合成视频中的广告、贴片等无关信息却经常是令人反感的。因此，有时候需要从合成视频中消除这些附加内容。虽然现有技术中有一些工具提供了去除这些附加内容的功能，但是这些工具通常都要借助人工操作，例如，人工选择操作区域、人工识别附加内容等，不但过程繁琐，而且费时费力。

发明内容

针对现有技术中存在的技术问题，本发明提出了一种视频附加内容检测方法和系统，用以自动从合成视频中检测出其中的附加内容信息，无需人工操作。

为解决上述技术问题，根据本发明的一个方面，本发明提供一种视频检测方法，其中包括以下步骤：

对合成视频进行切帧处理，得到多个视频帧，其中，所述合成视频中包含附加内容；

对所述视频帧进行目标检测，确定附加内容信息；

将所述附加内容信息与一个或多个模板进行匹配；以及

将与所述附加内容信息相匹配的模板的标本信息作为合成视频帧中的附加内容信息。

为解决上述技术问题，根据本发明的另一个方面，本发明提供了一种视频检测系统，其包括切帧模块、检测模块和匹配模块，其中，所述切帧模块经配置对合成视频进行切帧处理，得到多个视频帧，所述合成视频中包含附加内容；所述检测模块经配置以对视频帧进行目标检测以确定附加内容信息；所述匹配模块经配置以将附加内容信息与一个或多个模板进行匹配；将与所述附加内容相匹配的模板的标本信息作为合成视频帧中的附加内容信息。

本发明可以自动从合成视频中检测出其中额外添加的附加内容信息并通过设置的模板得到更加精确的附加内容信息，整个过程无需人工操作，提高了检测的准确度和效率，为后续处理流程提供了有效、准确的信息。

附图说明

下面，将结合附图对本发明的优选实施方式进行进一步详细的说明，其中：

图1是根据本发明的一个实施例提供的视频附加内容检测方法的流程图；

图2是根据本发明的一个实施例中模板匹配方法流程；

图3是根据本发明另一个实施例的确定附加内容类别的处理流程图；

图4是根据本发明的一个实施例的视频附加内容检测系统原理框图；

图5是根据本发明的一个实施例的匹配模块原理框图；以及

图6是根据本发明另一个实施例的视频附加内容检测系统原理框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在以下的详细描述中，可以参看作为本申请一部分用来说明本申请的特定实施例的各个说明书附图。在附图中，相似的附图标记在不同图式中描述大体上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述，使得具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当理解，还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性的改变。

视频处理技术允许在原始视频中添加某些附加内容，如在视频中某个人物的头部增加装饰物、在某些场景增加贴片图像广告，或者在视频中增加的一段动画视频等。在本文中，将具有附加内容的视频称为合成视频。在希望获取原始视频时，需要从合成视频中去掉这些附加内容。本发明的一些实施例提供了从合成视频中检测出附加内容的视频检测方法和系统。

具体地，图1是根据本发明一个实施例的视频附加内容检测方法的流程图。如图所示，所述检测方法包括：

步骤S1，获取合成视频，并分离所述合成视频的视频和音频。其中，所述的合成视频是指在原始视频中包括了额外添加的附加内容的视频。这一步骤是可选的。对于仅有视频内容的合成视频，并不需要此步骤。

在一些实施例中，在获取合成视频的同时，获取到合成视频的基本信息，包括分辨率、帧率、时长、总帧数等，并从合成视频中提取出音频内容，将音频内容存储起来，以便在后续处理完视频时再重新合成。在一些实施例中，在该过步骤中，可以通过调用某些公开视觉库的功能函数，如OpenCV(Open Source Computer Vision Library，开源计算机视觉库)或FFmpeg(可自由使用的音视频处理的开源工具)的API可以获取合成视频的基本信息，并将视频和音频分离后以文件的形式保存到磁盘上。

步骤S2，将分离后的合成视频切分为多个视频帧。即将视频的每一帧图像提取出来，以便于后续的处理。在一些实施例中，同样，可以调用OpenCV或FFmpeg的功能函数API实现切帧功能。

步骤S3，对多个视频帧进行目标检测以确定附加内容信息。附加内容可能位于整个合成视频的所有视频帧上，也可能只位于部分时段的视频帧上。为了说明方便，将合成有附加内容的视频帧称为合成视频帧，将没有附加内容的视频帧称为原始视频帧。也就是说，合成视频中经切分后的多个视频帧可能全部是合成视频帧；或者，这些视频帧中部分视频帧为合成视频帧，部分视频帧为原始视频帧。

在一些实施例中，通过深度学习目标检测(Objective Detection)算法来逐帧检测切分后的视频帧，检测视频帧中的附加内容信息。这些算法包括但不限于R-CNN系算法(如R-CNN、Fast R-CNN、Faster R-CNN等)、Yolo(You Only Look Once:Unified,Real-TimeObject Detection)算法或SSD(Single Shot MultiBox Detector)算法中的一种或多种。

在一个实施例中，目标检测算法为两步(Two-Stage)目标检测法，首先产生候选区域(Region Proposals)，然后对候选区域进行分类和位置精修。这类算法的典型代表是基于候选区域的R-CNN系列算法。在一些实施例中，目标检测算法为单步(One-Stage)目标检测法，不需要产生候选区域的步骤，直接产生物体的类别概率和位置坐标值，比较典型的算法如Yolo和SSD。

在一些实施例中，利用前述算法，以不同种类的附加内容作为训练集训练卷积神经网络模型，从而得到目标检测模型；将切分后得到视频帧输入到所述目标检测模型，可以检测出该视频帧是否有附加内容并获得附加内容信息。在一个实施例中，可随时向训练集增加新的附加内容，并以此重新训练、更新所述目标检测模型，从而使得附加内容的检测更加准确、可靠。

对于目标检测算法而言，由于附加内容的种类相对有限，例如：一般为文字、图片/动图、动画等；附加内容的附加方式有明显的规律，例如，附加位置通常在视频帧的边或角落或背景；与原始视频内容在颜色和变化方式上具有明显的差别等。因此，利用基于深度学习的目标检测算法能够获得相当准确的结果。例如，文字和字符等可以被非常准确地检测和识别出来。另一方面，在一些实施例中，仅通过目标检测算法识别出是否存在附件内容以及某些附加内容信息(如轮廓信息、在视频帧的位置信息)即可，而无需识别出具体的图像内容，从而能够大幅度提高目标检测算法的运行速度，减小计算量，更快地获得所需的附加内容信息。

在一些实施例中，利用基于深度学习的目标检测算法可以确定的附加内容信息包括但不限于以下信息中的一种或多种：

1.附加内容的种类，包括但不限于：文字、图片/动图、动画、视频等；其中，所述种类可为多级设置，例如，前述的文字、图片/动图、动画、视频等为一级类别，在各自类别下还包括子类别，例如，文字类别下还包括字幕、弹幕；图片类别下面包括二维码等。

2.附加内容的表观，包括但不限于形状、图案、颜色、大小等；

3.附加内容在视频帧中的位置信息，这些位置信息代表了附加内容位于视频帧中的边、角、背景、图像中的某个感兴趣区域；以及

4.附加内容在视频帧中出现的时间段。

以上的附加内容信息仅仅是举例以说明可能的附加内容信息，其他类型的附加内容信息也同样可以成为目标检测算法的结果。如所了解的，目标检测算法的结果与其训练集有关。另一方面，目标检测算法的结果也与本发明的附加内容模板库中的模板分类相关。

步骤S4，将所述附加内容信息与附加内容模板库中的多个模板匹配。为了能够准确地确定合成视频中的附加内容及其位置，本实施例设置了附加内容模板库。模板库分类存储了大量基于现有视频中已添加的附加内容的多个模板。举例而言，多个模板包括文字、图像、动画、视频、广告等已有的附加内容。这些内容按照附加内容种类、位置、分辨率等附加内容信息以分类方式存储在附加内容模板库中。

步骤S5，将与所述附加内容相匹配的模板的标本信息作为合成视频帧中的附加内容信息。

由于可填加在视频中的附加内容的重复度很高，本实施例中的附加内容模板库中能够涵盖绝大多数的附加内容。因此，在通过目标检测算法获取到附加内容信息后，再利用附加内容模板库中的模板的标本信息对检测到的附加内容信息作进一步精确，从而可以简化目标检测的算法及过程，例如，只检测出附加内容的轮廓信息及其在视频帧的位置信息即可，通过模板匹配可以得到更加精确的附加内容信息，为后续的视频恢复提供基础。本实施例算法简单，运行速度快，资源消耗少，能够带来良好的用户体验。

图2是根据本发明一个具体实施例的模板匹配方法流程。如图所示，在本实施例中，模板匹配方法包括以下步骤：

步骤S401，确定所述附加内容的类别。为了搜索模板库找到匹配的模板，在本步骤中，确定附加内容的类别。经确定的附件内容的类别与模板库中的类别相同。在一些实施例中，模板库中设置的类别为单级分类。在另一些实施例中，模板库采用多级分类。例如，首先是大类，如静态、动态两个大类；在每个大类下面包括多个小类；如在静态下面包括旁白、头饰、标记线、贴片图像等等，在动态下面包括：广告、动画、动图、视频等。

在一些实施例中，合成视频中可能包括多个相同或不同的附加内容，根据附加内容信息可以确定附加内容的类别。例如，可根据附加内容的轮廓信息，能够大致了解合成视频帧中附加内容的形状。根据附加内容所在合成视频帧的时间信息和形状的变化可以确定附加内容是单个静态内容或连续的动态内容。再根据静态附加内容的形状或动态的多个附加内容形状的连续变化可初步确定附加内容的类别。具体的实施例参见图3所示：

步骤S600，取出第一个合成视频帧中的附加内容信息，将其作为第一对比对象I1。

步骤S601，取出其相邻的下一合成视频帧中的附加内容信息作为第二对比对象I2。

步骤S602，对比两个附加内容信息。例如计算二者的轮廓像素差值。

步骤S603，判断二者是否相同，即二者的轮廓像素差值是否小于阈值，如果二者的像素差值小于阈值，则说明二者相同，则在步骤S604，判断是否所有的附加内容都已比较完，如果还有附加内容都没有比较，则返回步骤S601。如果所有的附加内容都已经比较完，则在步骤S605确定所述合成视频中的附加内容为一个静态图像，并在步骤S606根据其轮廓信息获取所述附加内容类别，如文字、头饰或标记线。如果二个附加内容的像素差值大于或等于阈值，说明两个附加内容不同，则在步骤S607获取二者的差别。

步骤S608，判断是否所有的附加内容都已比较完，如果还有附加内容没有比较，则在步骤S609，将第二对比对象I2设为第一对比对象I1。然后返回步骤S601，重新取下一附加内容作为第二对比对象I2。如果所有附加内容都已经比较完，则在步骤S610，对比得到的两个附加内容之间的差别信息。

步骤S611，判断差别信息之间是否具有随时间的过渡关系，例如，相邻附加内容只在个别像素有差异，而且所述差异体现了一种动作或形状的过渡。如果有这种关系，则说明这些附加内容中的图像是连续变化的，则在步骤S612确定该附加内容为动态视频，并在步骤S613根据附加内容轮廓信息，确定附加内容的类别，如动态变化的文字、奔跑的动物等等。如果差别信息之间没有内容的过渡关系，则认为是孤立的不同的图像，则在步骤S614确定其分别为分立的静态图像，并在步骤S615根据其各自的轮廓信息获取所述附加内容类别。

如前所述，附加内容信息中可能已经包含了附加内容的类别。因此，步骤S401在某些实施例中不是必需的。然而，在一些实施例中，附加内容模板库的分类可能更为细致，层次也更多。这时，在步骤S401中可以进一步确定附加内容更为细致的分类，又或者包括复核附加内容信息中的类别。当然，在某些实施例中，附加内容信息中可能并不包含类别信息。这时，就需要在步骤S401中确定附加内容的类别。

步骤S402，根据所述附加内容的类别搜索附加内容模板库，以确定同类别的模板组。在一些实施例中，每个附加内容的分类包括多个模板组。例如，在文字分类下包括：字幕、弹幕、背景文字等；在字幕分类下还包括汉字、英文等多个模板组。再例如，头饰分类下还包括：动物、星星、彩虹等多个模板组。

步骤S403，从选定的模板组中选择一个模板。

步骤S404，判断所述附加内容所在合成视频帧的视频信息是否与模板的视频信息一致。例如，分辨率是否相同。如果一致，则执行步骤S405，如果不一致，说明该模板与附加内容不匹配，则转到步骤S410

步骤S405，比较附加内容轮廓与标本图像的轮廓。其中，所述的轮廓信息可以是像素值，可以是位置信息，即该点像素的(x,y)坐标值，也可以同时是该点的像素值及其坐标值。通过逐点比较，例如，按照从上到下，从左到右的顺序，分别取二者的像素值，计算二者的像素差值，或者是比较二者的x/y坐标值的差值。在一些实施例中，有必要将标本图像放大或者缩小预置比例，然后在与附加内容的图像进行比较，获得像素差值和/或坐标值差值。在一些实施例中，有必要对附加内容图像进行形状裁剪、角度矫正、颜色矫正等处理，然后在与标本图像进行比较，获得像素差值和/或坐标值差值。

步骤S406，判断附加内容轮廓与标本图像的轮廓的差异是否大于或等于阈值，例如，像素差值是否都大于或等于阈值，坐标差值是否都大于或等于阈值。如果所有像素的差值大于或等于阈值，或者像素差值大于或等于阈值的像素数量达到了预置的总占比，如10％、20％，则说明二者的图像不相同，该模板与附加内容不匹配，则转到步骤S410。如果所有像素的差值小于阈值，或者像素差值小于阈值的像素数量达到了预置的总占比，如80％、90％，可确定二者的图像相同，因而执行步骤S407。

步骤S407，计算附加内容与标本对应像素的在各自视频帧中的位置差值。同理，可按照从上到下，从左到右的顺序，分别取二者每一像素的位置坐标，计算二者的差值。在一些实施例中，由于已经在步骤S406中确定了二者图像相同，在此步骤中也可以只计算其中一个对应像素的位置差值，如左上角的第一个像素的位置差值。在一些实施例中，此步骤也可以计算多个对应像素的位置差值，以确定角度上的差异。

步骤S408，判断所述位置差值是否大于或等于阈值，如果二者的所述位置差值大于或等于阈值，说明二者所在视频帧中的位置不同，该模板与附加内容不匹配，则转到步骤S410。如果二者的所述位置差值小于阈值，说明二者所在视频帧中的位置相同，则执行下一步骤S409。

步骤S409，确定所述附加内容与所述模板相匹配。

步骤S410，判断是否还有可用的模板，如果有，重新选择模板继续匹配，直到该模板组中没有可用的模板，在步骤S411确定没有与所述附加内容相匹配的模板。

在一些实施例中，当确定没有与所述附加内容相匹配的模板时，保留步骤S3中检测出来的附加内容信息给后续的处理流程。在一些实施例中，还根据这些没有匹配到模板的附加内容，创建新的模板。例如，将附加内容信息作为新模板的标本信息，并将其所在合成视频帧的视频信息增加到新模板中，再将该新模板存入模板库中的相应类别下。

在一些实施例中，例如对于视频、动画、动图等动态内容，需要将多个连续合成视频帧的附加内容信息与对应的动态模板中的每一帧中的标本信息进行一一匹配。如果涉及到的视频帧较多，可以只匹配其中的几帧。例如，可以从连续合成视频中间隔地选择多个合成视频帧，如每5帧选出一帧，而在模板组的模板中，也类似地每5帧选出一帧；然后再比较各个合成视频帧中的附加内容信息和对应的模板视频帧中的标本信息视频是否匹配，从而确定该模板是否与动态的附加内容信息相匹配。

图4是根据本发明一个实施例的视频附加内容检测系统原理框图。其中，所述系统包括视音频分离模块1、切帧模块2、检测模块3和匹配模块4。其中，所述视音频分离模块1为可选模块，对于仅有视频内容的合成视频时，由于其已经完成了音频的剥离，因而不需要所述视音频分离模块1。对于大部分包括音频部分的视频文件，需要采用视音频分离模块1对合成视频进行视音频分离。所述视音频分离模块1从给定的合成视频中获取视频基本信息，如分辨率、帧率、时长、总帧数等，并分离所述合成视频的视频和音频。例如，通过调用OpenCV的API可获取视频的基本信息；调用FFmpeg相关API可得到音频内容，并以文件的形式保存到磁盘。

所述切帧模块2将分离后的视频切分为多个视频帧。例如，调整OpenCV相关API可完成切帧功能，从而得到多个视频帧。

所述检测模块3用以对视频帧进行目标检测以确定附加内容信息。所述检测模块3逐帧检测切分后获得的多个视频帧，确定视频帧中的附加内容信息及其在视频帧中位置。在检测附加内容信息及其位置时，在一个实施例中，检测模块3采用深度学习目标检测算法，如R-CNN系算法(如R-CNN、Fast R-CNN、Faster R-CNN等)、Yolo(You Only Look Once:Unified,Real-Time Object Detection)算法或SSD(Single Shot MultiBox Detector)算法等，可以快速准确地检测出视频帧中的附加内容及其位置。例如，利用两步(Two-Stage)目标检测法或单步(One-Stage)目标检测法，或者是通过训练好的卷积神经网络模型，将所有的视频帧分为具有附加内容的合成视频帧和没有附加内容的原始视频帧，并获得具体的附加内容，如种类、形态、轮廓信息及在视频帧中的位置数据等。

所述匹配模块4用以匹配附加内容信息和多个模板，在得到与所述附加内容信息相匹配的模板时，将所述模板中的附加内容信息作为合成视频帧中的附加内容信息。其中，所述匹配模块4经进一步配置包括视频信息匹配单元41、附加内容信息匹配单元42和确定单元43。其中，本实施例中的附加内容模板库中存储有多个模板，按照模板中标本信息的种类、在视频帧的位置、模板视频分辨率等分类存储。为了得到与附加内容信息相匹配的模板，所述视频信息匹配单元41比较合成视频帧的视频信息与模板的视频信息，判断二者是否一致，并把比较结果发送给确定单元43。其中，所述的视频信息指视频分辨率。附加内容信息匹配单元42用以比较合成视频帧中的附加内容信息是否与模板中的标本信息一致，并把比较结果发送给确定单元43。确定单元43与视频信息匹配单元41和附加内容匹配单元42相连接，接收二者的比较结果。在合成视频帧的视频信息与模板的视频信息一致，且附加内容信息与标本信息一致时，确定所述模板与所述合成视频帧相匹配。

在另一个实施例中，如图5所示，为根据本发明一个实施例的匹配模块原理框图。在所述实施例中，所述匹配模块4还包括类别识别单元44和搜索单元45。类别识别单元44根据合成视频帧中的附加内容信息，如轮廓信息，确定附加内容的类别，例如参考图3所示的流程可以识别出每一个附加内容的类别，并把所述类别发送给搜索单元45。搜索单元45根据所述附加内容的类别搜索模板库，从而确定同类别的多个可用模板。视频信息匹配单元41和附加内容信息匹配单元42分别对当前附加内容和从可用模板中选择的一个模板进行匹配。在本实施例中，当检测到附加内容的图像像素值，所述加内容信息匹配单元42经进一步配置包括像素计算子单元421和位置计算子单元422。像素计算子单元421用以计算附加内容图像与模板中的标本图像对应像素的差值。如果附加内容图像与模板中的标本图像对应像素的差值都小于阈值，说明二者的图像相同。当检测到的附加内容信息包括轮廓像素的位置数据时，可以只计算附加内容与标本图像的轮廓像素的位置的差值，在其差值小于阈值时，可确定二者轮廓相同，即形状相同。

位置计算子单元422用以计算附加内容图像与标本图像对应像素在视频帧上的位置差值，如果位置差值为0或小于阈值，则说明二者在视频帧上的位置相同。视频信息匹配单元41、像素计算子单元421和位置计算子单元422将其匹配结果及计算结果发送给确定单元43，确定单元43在像素计算子单元421和位置计算子单元422的计算结果都小于各自的阈值时，可以确定附加内容信息与标本信息一致。在合成视频帧基本信息与模板的视频帧基本信息一致，且附加内容信息与标本信息一致时，确定所述模板与所述合成视频帧相匹配。

如图6所示，是根据本发明另一个实施例的视频附加内容系统检测原理框图。与图4所示实施例不同的是，本实施例中的系统包括模板创建模块5，在所述匹配模块4没有为附加内容匹配到模板时，将所述附加内容信息及对应的视频信息发送给所述的模板创建模块5。模板创建模块5根据检测到的所述附加内容信息及其所在的合成视频帧的视频信息，创建新的模板，并存储到模板库中。

本发明在通过目标检测法得到视频中额外添加的附加内容信息，并通过设置的模板得到更加精确的附加内容信息，整个过程无需人工操作，提高了检测的准确度和效率，从而为后续处理流程提供有效、准确的信息。

上述实施例仅供说明本发明之用，而并非是对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明范围的情况下，还可以做出各种变化和变型，因此，所有等同的技术方案也应属于本发明公开的范畴。

Claims

1.一种视频附加内容的检测方法，包括：

对所述视频帧进行目标检测，确定附加内容信息；

将所述附加内容信息与一个或多个模板进行匹配；以及

2.根据权利要求1所述的方法，其中，在对所述视频帧进行目标检测时，采用深度学习目标检测算法检测视频帧以确定所述附加内容信息。

3.根据权利要求1所述的方法，其中将附加内容信息与模板进行匹配的步骤包括：

比较合成视频帧的视频信息是否与模板的视频信息一致；

比较附加内容信息是否与模板中的标本信息一致；以及

在合成视频帧的视频信息与模板视频信息一致，且附加内容信息与标本信息一致时，确定所述附加内容信息与所述模板相匹配。

4.根据权利要求3所述的方法，其中，所述合成视频帧的视频信息至少为分辨率。

5.根据权利要求3所述的方法，其中，合成视频帧中的所述附加内容信息包括以下信息的一种或多种：

附加内容的种类，包括但不限于文字、图片/动图、动画；

附加内容的表观，包括但不限于形状、图案、颜色、大小；

附加内容在视频帧中的位置，和

所述附加内容所在合成视频帧的时间信息。

6.根据权利要求5所述的方法，其中，进一步包括：

根据所述附加内容信息确定所述附加内容的类别；以及

根据所述附加内容的类别搜索模板库，确定可用模板组。

7.根据权利要求1所述的方法，其中，进一步包括：在没有为所述附加内容匹配到模板时，根据检测到的所述附加内容信息及其所在的合成视频帧的视频信息创建新的模板。

8.一种视频附加内容检测系统，其中，包括：

切帧模块，经配置对合成视频进行切帧处理，得到多个视频帧，其中，所述合成视频中包含附加内容；

检测模块，经配置以对视频帧进行目标检测以确定附加内容信息；以及

匹配模块，经配置以将附加内容信息与一个或多个模板进行匹配；将与所述附加内容相匹配的模板的标本信息作为合成视频帧中的附加内容信息。

9.根据权利要求8所述的视频检测系统，其中，所述检测模块经进一步配置，采用深度学习目标检测算法检测视频帧中的附加内容信息。

10.根据权利要求8所述的视频检测系统，其中，所述匹配模块经进一步配置包括：

视频信息匹配单元，经配置以比较合成视频帧的视频信息是否与模板的视频信息一致；以及

附加内容匹配单元，经配置以比较附加内容信息是否与模板中的标本信息一致；以及

确定单元，在合成视频帧的视频信息与模板视频信息一致，且附加内容信息与标本信息一致时，确定所述附加内容信息与所述模板相匹配。

11.根据权利要求10所述的视频检测系统，其中，所述匹配模块经进一步配置包括：

类别识别单元，经配置以根据所述附加内容信息确定所述附加内容的类别；以及

搜索单元，根据所述附加内容的类别搜索模板库，确定可用的模板组。

12.根据权利要求8所述的视频检测系统，其中，进一步包括：

模板创建模块，经配置以在所述匹配模块没有为所述附加内容信息匹配到模板时，根据检测到的所述附加内容信息及其所在的合成视频帧的视频信息，创建新的模板。