CN117156200A

CN117156200A - 海量视频的去重方法、系统、电子设备和介质

Info

Publication number: CN117156200A
Application number: CN202310667411.5A
Authority: CN
Inventors: 汪昭辰; 刘世章; 王全宁
Original assignee: Qingdao Chenyuan Technology Information Co ltd
Current assignee: Qingdao Chenyuan Technology Information Co ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-12-01
Anticipated expiration: 2043-06-06
Also published as: CN117156200B

Abstract

本发明提供一种海量视频的去重方法、系统、电子设备和介质，涉及视频处理领域，该方法包括，遍历视频事件信息网络中的根节点，在当前遍历到的根节点为备选根节点时，根据目标视频事件与备选根节点对应的视频事件的相似率判断目标视频事件是否与备选根节点对应的视频事件相似，若是，则确定目标视频事件为重复视频事件，停止遍历；若否，则遍历下一个根节点；在遍历完所有根节点之后，若目标视频事件与任一个根节点对应的视频事件均不相似，则确定目标视频事件为非重复视频事件。本发明可以快速的在海量视频资源中查找出重复的视频，在进行视频分析时，对非重复视频事件进行分析即可，可避免对重复视频的处理，提高海量视频的分析效率。

Description

海量视频的去重方法、系统、电子设备和介质

技术领域

本发明涉及视频处理领域，特别是涉及一种海量视频的去重方法、系统、电子设备和介质。

背景技术

随着自媒体的发展，视频的传播量也在大大增加，视频在传播过程中会出现编码、码率、分辨率、幅形比和时长改变的视频版本，且网络及电视上存在大量内容完全重复视频，各种视频平台存在大量视频的二次加工。此类视频虽然在格式或版本上不同，但是其视频内容大致相同。

然而面对海量的视频数据，在对视频进行分析处理时，需要对每一个视频进行内容规范性等分析，这就造成了对实质相同的视频内容进行重复的分析，不仅增加数据存储的负担，还降低了处理视频的效率，并且加大视频查找与分析的难度。

因此，提出一种视频去重方法是亟需解决的问题。

发明内容

有鉴于此，本发明的目的在于提出一种海量视频的去重方法、系统、电子设备和介质，本发明能够针对性的解决在视频去重方面存在技术缺口的问题。

基于上述目的，第一方面，本发明提出了一种海量视频的去重方法，所述方法包括：根据去重数据库中保存的视频事件数据，初始化视频事件信息网络，所述视频事件信息网络具有根节点，每一根节点对应一个视频事件；其中，所述视频事件是指一个镜头内所有内容帧的集合，所述内容帧是指表示镜头内容的帧，包括首帧、尾帧和N个中间帧，N为自然数，所述中间帧通过对一个镜头的除首尾两帧之外的所有子帧顺序与其前一个内容帧进行差异率计算，当所述差异率大于预设阈值时得到；所述视频事件信息网络是基于视频事件信息空间以多级树集合为基础构造的森林结构，所述视频事件信息空间是指视频事件特征向量所在的多维向量空间，所述视频事件特征向量为在相同坐标系下对内容帧集合提取特征矩阵后计算得到；获取目标视频，所述目标视频为接收到的实时视频，对所述目标视频进行预处理和粒化处理，得到所述目标视频的视频事件序列，所述视频事件序列包括至少一个目标视频事件；根据所述目标视频事件的内容帧数量和视频事件特征向量，遍历所述视频事件信息网络中的根节点，判断当前遍历到的根节点是否为备选根节点，若是，则计算所述目标视频事件与所述备选根节点对应的视频事件的相似率；根据所述相似率判断所述目标视频事件是否与所述备选根节点对应的视频事件相似，若是，则确定目标视频事件为所述备选根节点对应的视频事件的重复视频事件，停止遍历；若否，则遍历下一个根节点；在遍历完所述视频事件信息网络中的所有根节点之后，若目标视频事件与任一个根节点对应的视频事件均不相似，则确定所述目标视频事件为非重复视频事件；将目标视频事件为重复视频事件或非重复视频事件作为去重结果输出。

可选地，根据所述目标视频事件的内容帧数量和视频事件特征向量，遍历所述视频事件信息网络中的根节点，判断当前遍历到的根节点是否为备选根节点，包括：将当前遍历到的根节点对应的视频事件的内容帧数量与目标视频事件的内容帧数量相等作为第一判断条件；将根节点对应的视频事件与目标视频事件的特征向量差异率小于等于第一预设阈值作为第二判断条件；计算根节点对应的视频事件与目标视频事件的匹配内容帧之间的差异率，将所有匹配内容帧之间的差异率均小于等于第二预设阈值作为第三判断条件，所述匹配内容帧为根节点对应的视频事件与目标视频事件中序号相同的两个内容帧；在当前遍历到的根节点同时满足所述第一判断条件、第二判断条件和第三判断条件时，确定当前遍历到的所述根节点为备选根节点。

可选地，所述遍历所述视频事件信息网络中的根节点，判断当前遍历到的根节点是否为备选根节点，还包括：若所述视频事件信息网络中的任一根节点均不是备选根节点，则确定所述目标视频事件为非重复视频事件，输出所述目标视频事件为非重复视频事件的去重结果。

可选地，根据所述相似率判断所述目标视频事件是否与所述备选根节点对应的视频事件相似，包括：在所述目标视频事件与所述备选根节点对应的视频事件的相似率大于等于第三预设阈值的情况下，确定所述目标视频事件与所述备选根节点对应的视频事件相似。

可选地，在所述目标视频事件为非重复视频事件的情况下，所述方法还包括：将所述目标视频事件作为所述视频事件信息网络的新的根节点，对所述视频事件信息网络进行更新；将所述目标视频事件的视频事件数据保存到所述去重数据库中。

可选地，所述方法还包括：在所述目标视频事件为重复视频事件的情况下，生成重复信息，所述重复信息包括所述目标视频事件的源视频信息和对应的源视频事件信息。

第二方面，提供一种海量视频的去重系统，所述系统包括：初始化模块，用于根据去重数据库中保存的视频事件数据，初始化视频事件信息网络，所述视频事件信息网络具有根节点，每一根节点对应一个视频事件；其中，所述视频事件是指一个镜头内所有内容帧的集合，所述内容帧是指表示镜头内容的帧，包括首帧、尾帧和N个中间帧，N为自然数，所述中间帧通过对一个镜头的除首尾两帧之外的所有子帧顺序与其前一个内容帧进行差异率计算，当所述差异率大于预设阈值时得到；所述视频事件信息网络是基于视频事件信息空间以多级树集合为基础构造的森林结构，所述视频事件信息空间是指视频事件特征向量所在的多维向量空间，所述视频事件特征向量为在相同坐标系下对内容帧集合提取特征矩阵后计算得到；视频处理模块，用于获取目标视频，所述目标视频为接收到的实时视频，对所述目标视频进行预处理和粒化处理，得到所述目标视频的视频事件序列，所述视频事件序列包括至少一个目标视频事件；计算模块，用于根据所述目标视频事件的内容帧数量和视频事件特征向量，遍历所述视频事件信息网络中的根节点，判断当前遍历到的根节点是否为备选根节点，若是，则计算所述目标视频事件与所述备选根节点对应的视频事件的相似率；去重分析模块，用于根据所述相似率判断所述目标视频事件是否与所述备选根节点对应的视频事件相似，若是，则确定目标视频事件为所述备选根节点对应的视频事件的重复视频事件，停止遍历；若否，则遍历下一个根节点；在遍历完所述视频事件信息网络中的所有根节点之后，若目标视频事件与任一个根节点对应的视频事件均不相似，则确定所述目标视频事件为非重复视频事件；输出模块，用于将目标视频事件为重复视频事件或非重复视频事件作为去重结果输出。

可选地，所述系统还包括：更新模块，用于在所述目标视频事件为非重复视频事件的情况下，将所述目标视频事件作为所述视频事件信息网络的新的根节点，对所述视频事件信息网络进行更新；将所述目标视频事件的视频事件数据保存到所述去重数据库中；重复信息生成模块，用于在所述目标视频事件为重复视频事件的情况下，生成重复信息，所述重复信息包括所述目标视频事件的源视频信息和对应的源视频事件信息。

第三方面，还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序以实现第一方面所述的方法。

第四方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行实现第一方面任一项所述的方法。

总的来说，本发明至少存在以下有益效果：

本发明实施例提供的海量视频的去重方法，通过去重数据库中保存的视频事件数据，初始化视频事件信息网络，根据获取到的目标视频，得到至少一个目标视频事件，首先通过内容帧数量和视频事件特征向量遍历视频事件信息网络中的根节点，可快速排除与目标视频事件不相似的视频事件，得到可能相似的备选根节点，具有较高的去重效率，在得到备选根节点之后，再计算目标视频事件与备选根节点对应的视频事件的相似率，来判断目标视频事件是否与备选根节点对应的视频事件相似，具有较高的去重准确率。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出本发明一个实施例提供的海量视频的去重方法的应用环境的示意图；

图2示出本发明另一实施例提供的海量视频的去重方法的应用环境的示意图；

图3示出本发明实施例提供的一种粒化结构的示意图；

图4示出本发明实施例提供的一种内容帧提取的示意图；

图5示出本发明实施例提供的一种视频事件信息空间的结构示意图；

图6示出本发明实施例提供的一种树形结构的创建过程；

图7示出本发明实施例提供的海量视频的去重方法的步骤流程图；

图8示出本发明实施例提供的海量视频的去重系统的结构示意图；

图9示出本发明实施例提供的海量视频的去重系统的另一结构示意图；

图10示出在一个例子中本发明实施例的电子设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明实施例的一个方面，提供了一种海量视频的去重方法，作为一种可选地实施方式，上述海量视频的去重方法可以但不限于应用于如图1所示的应用环境中。该应用环境中包括：与用户进行人机交互的终端设备102、网络104、服务器106。用户108与终端设备102之间可以进行人机交互，终端设备102中运行有基于海量视频的去重应用程序。上述终端设备102中包括人机交互屏幕1022，第一处理器1024及第一存储器1026。人机交互屏幕1022用于显示视频数据；第一处理器1024用于获取目标视频，以及执行海量视频的去重方法。第一存储器1026用于存储视频。

此外，服务器106中包括数据库1062及处理引擎1064，数据库1062中用于存储视频。处理引擎1064用于执行海量视频的去重方法。

在一个或多个实施例中，本发明上述海量视频的去重方法可以应用于图2所示的应用环境中。如图2所示，用户108与用户设备204之间可以进行人机交互。用户设备204中包含有第二存储器206和第二处理器208。本实施例中用户设备204可以但不限于参考执行上述终端设备102所执行的操作，执行海量视频的去重方法。

可选地，上述终端设备102和用户设备204包括但不限于为手机、平板电脑、笔记本电脑、PC机，车载电子设备，可穿戴设备等终端，上述网络104可以包括但不限于无线网络或有线网络。其中，该无线网络包括：WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述服务器106可以包括但不限于任何可以进行计算的硬件设备。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

面对海量的视频数据，在对视频进行分析处理时，需要对每一个视频进行内容规范性等分析，这就造成了对实质相同的视频内容进行重复的分析，不仅增加数据存储的负担，还降低了处理视频的效率，并且加大视频查找与分析的难度。现有技术在对视频去重方面存在技术缺口。

为了解决上述技术问题，作为一种可选地实施方式，本发明实施例提供了一种海量视频的去重方法、装置、系统、电子设备和介质。

本实施例中，视频事件是指一个镜头内所有内容帧的集合，内容帧是指表示镜头内容的帧，包括首帧、尾帧和N个中间帧，N为自然数，中间帧通过对一个镜头的除首尾两帧之外的所有子帧顺序与其前一个内容帧进行差异率计算，当差异率大于预设阈值时得到；视频事件信息网络是基于视频事件信息空间以多级树集合为基础构造的森林结构，视频事件信息空间是指视频事件特征向量所在的多维向量空间，视频事件特征向量为在相同坐标系下对内容帧集合提取特征矩阵后计算得到。

下面对本实施例的内容帧、视频事件信息空间和视频事件信息网络进行说明。

本实施例中，内容帧可根据对视频进行粒化处理得到，图3示出一种粒化结构的示意图，参考图3，一个视频的粒化结构包括视频、帧序列、镜头和内容帧，帧序列为表示视频内容的所有帧，镜头是指摄影机在一次开机到停机之间所拍摄的连续画面片断，是视频构成的基本单位，内容帧是指表示镜头内容的帧。

本实施例中，粒化处理是指对一个视频进行镜头的分割，得到一个视频的粒化结构，得到粒化结构的原理为：视频内容是由连续帧序列组成的，按照视频内容的连续性可将连续帧序列分为多组，根据帧序列进行镜头检测，每组连续帧序列即为一个镜头，镜头序列包括至少一个镜头，通过分析视频镜头中内容的差异，从连续帧序列中选取少量的帧来表示镜头的内容，这些帧即为内容帧，也就是对镜头序列中每一镜头的视频帧序列进行内容帧提取，得到每个镜头的内容帧序列，再根据镜头序列和内容帧序列得到视频事件序列。其中，内容帧至少包括镜头的首尾两帧(镜头帧)，所以一个镜头的内容帧数量≥2。

本实施例中，视频事件序列包括至少一个视频事件，视频事件是指一个镜头内所有内容帧的集合，图4是根据本发明实施例的一种内容帧提取的示意图，如图4所示，首帧是第一个内容帧，然后计算第2、第3帧.....与其差异率，直到大于预设阈值，假如第2、3与首帧的差异率小于预设阈值，而第4帧大于预设阈值，则第4帧就是第二个内容帧。然后计算第5、第6....与第4帧的差异率，直到大于预设阈值，假如第5、6、7帧与首帧的差异率小于预设阈值，而第8帧大于预设阈值，则第8帧就是第三个内容帧。依次类推，计算出所有首帧和尾帧之间的所有子帧中的内容帧。尾帧直接选定为最后一个内容帧，而不必计算与其前一个内容帧之间的差异率。其中，差异率为计算的两帧图像之间的差异率。

例如，一个监控视频，夜晚期间人少车少，视频画面变化很小，那内容帧会很少，例如在10个小时内仅提取个位数个内容帧。而白天人多车多，视频画面里面人和物的变化频繁，按照上面方法计算出来的内容帧会比晚上多很多。由此，内容帧相对于关键帧来说，保证了不丢失镜头视频的所有内容信息，因为关键帧有可能丢失部分镜头内容。而相对于视频每一帧都要计算和考虑的方案，内容帧的选取由于只选取了部分视频图像帧，在不丢失内容的前提下，极大减少了图像计算量。

图5示出一种视频事件信息空间的结构示意图，在视频事件信息空间中，每个视频事件都有它的坐标，通过坐标可以计算视频事件间的距离，相同的视频事件具有相同的坐标，相似视频事件距离小，不同的视频事件距离大。通过计算视频事件的距离我们可以将视频事件信息空间分为多个区域，每个区域中心位置的视频事件内容代表整个区域的主要内容，视频事件信息空间中每一圆形区域的关系包括相离、相切和相交三种关系，相离即区域之间没有共同区域，相切即区域之间有且仅有一个公共点，该点为切点，相交即区域之间有公共区域。

如图5所示，图5中A、B、C、D四个点为各自圆形区域的中心位置，圆的半径代表视频事件信息空间中到圆心的最大距离，A、B、C、D的视频事件内容代表各圆形区域的主要内容。c1、c2为与视频事件C内容相似的视频事件，b1、b2为与视频事件B内容相似的视频事件，d1、d2、d3为与视频事件D内容相似的视频事件，且c1、c2、b1、b2、d1、d2、d3与各自所在区域圆心的距离不大于半径。

基于图5所示的视频事件信息空间，可以通过选择中心点和指定半径来划分区域，从而将整个视频事件信息空间区域化，进而可以根据这种区域化特性建立一种树结构来记录区域间的关系，形成多级树集合。由上述实施例可知视频事件信息空间是指视频事件特征向量所在的多维向量空间，且具有区域化特性，因此可以以多级树集合为基础构造森林结构，形成视频事件信息网络，即视频事件信息网络是基于视频事件信息空间以多级树集合为基础构造的森林结构。

图6示出一种树形结构的创建过程，可根据视频事件信息空间中各区域之间的关系将树结构分为两级，第一级为根节点对应各空间区域的圆心，第二级为子节点对应各空间区域中的非圆心点。若对空间区域再划分多层子区域，树结构也会产生相应的多级子节点。

如图6所示，可根据视频事件信息空间得到多个多级树结构，多级树包括根节点和子节点，以多个多级树结构组成的多级树集合为基础构造的森林结构为视频事件信息网络，视频事件信息网络中的每个子节点至少属于1个根节点，根节点下可以没有子节点。

需要说明的是，树结构的级数与信息空间的空间区域层数相对应，树结构的级数可以是多级，可以是2级，也可以是1级。本实施例采用无子节点只有根节点的视频事件信息网络，即本实施例的视频事件信息网络是根据1级树结构构建的。

基于上述视频事件信息空间以及视频事件信息网络可知，本实施例的视频事件信息网络是基于视频事件而构建的，由视频事件信息网络的树结构之间的关联关系可知，视频事件信息网络中根节点是互不相似的，因此视频事件信息网络中的视频事件具有基于视频事件不相似性的关联关系，如此，可基于该视频事件信息网络执行海量视频的去重方法。因此，本实施例可将目标视频事件依次与视频事件信息网络中的根节点对应的视频事件进行比较，在对海量的视频进行分析之前，可先得到目标视频事件是否为重复视频事件的检测结果，若目标视频事件为重复视频事件，则可以不对重复视频事件进行分析，只分析非重复的视频事件即可，提高视频处理的效率。

图7示出根据本发明实施例的海量视频的去重方法的步骤流程图。如图7所示，该海量视频的去重方法包括如下步骤S701～S705：

S701、根据去重数据库中保存的视频事件数据，初始化视频事件信息网络。

本实施例的去重数据库中存储的任意两个视频事件互不重复，视频事件数据包括但不限于互不重复的视频事件的内容帧序列、内容帧数量、内容帧特征矩阵、视频事件序列、视频事件特征向量、视频事件特征矩阵，以便于在进行视频去重之前，根据视频事件数据以及上述视频事件信息网络的创建方法，初始化视频事件信息网络。

本实施例的视频事件信息网络是根据无子节点只有根节点的1级树结构构建的视频事件信息网络，频事件信息网络具有根节点，每一根节点对应一个视频事件，因此在进行视频去重时，可以通过遍历每一根节点以判断目标视频事件是否与任一根节点对应的视频事件相似，若相似，则确定目标视频事件是重复视频事件。

S702、获取目标视频，目标视频为接收到的实时视频，对目标视频进行预处理和粒化处理，得到目标视频的视频事件序列。

本实施例中，服务器可以接收到来自多个平台或视频资源库的视频数据，视频资源库可以是一个也可以是多个，视频资源库中存储有海量的视频，即源视频，目标视频为接收到的实时视频，可以实现视频的实时在线去重。

可以理解的是源视频的图像分辨率，色彩空间等不一致，因此，本实施例通过对目标视频进行预处理和粒化处理，得到目标视频的视频事件序列，具体的预处理包括对目标视频进行归一化处理，得到归一化视频，对归一化视频进行解帧，得到归一化视频帧流序列，再对归一化视频帧流序列进行粒化处理，粒化处理包括对归一化视频帧流序列进行镜头分割和内容帧提取，得到镜头序列和内容帧序列，根据镜头序列和内容帧序列，得到对应于目标视频的视频事件序列。具体的粒化处理的过程在上文中均有描述，例如图3和图4所述的过程，在此不再赘述。

本实施例中，目标视频可以由一个或多个镜头组成，则根据目标视频的镜头得到的视频事件序列包括至少一个目标视频事件，本实施例以每一目标视频事件为单位，判断每一目标视频事件(每一镜头)是否与视频事件信息网络中的视频事件相似。

S703、根据目标视频事件的内容帧数量和视频事件特征向量，遍历视频事件信息网络中的根节点，判断当前遍历到的根节点是否为备选根节点，若是，则计算目标视频事件与备选根节点对应的视频事件的相似率。

本实施例中，根据目标视频事件的内容帧数量和视频事件特征向量，遍历视频事件信息网络中的根节点，判断当前遍历到的根节点是否为备选根节点，包括：将当前遍历到的根节点对应的视频事件的内容帧数量与目标视频事件的内容帧数量相等作为第一判断条件；将根节点对应的视频事件与目标视频事件的特征向量差异率小于等于第一预设阈值作为第二判断条件；计算根节点对应的视频事件与目标视频事件的匹配内容帧之间的差异率，将所有匹配内容帧之间的差异率均小于等于第二预设阈值作为第三判断条件，在当前遍历到的根节点同时满足所述第一判断条件、第二判断条件和第三判断条件时，确定当前遍历到的根节点为备选根节点。

例如，当前遍历到的根节点对应的视频事件的内容帧数量为5，目标视频事件的内容帧数量也为5，则确定当前遍历到的根节点满足第一判断条件。

本实施例中，根节点对应的视频事件与目标视频事件的特征向量差异率DisEV(p,q)计算公式为：

其中，p表示根节点对应的视频事件，q表示目标视频事件，DiffEV(p,q)表示目标视频事件和根节点对应的视频事件的特征向量差异值，modEV(p)表示根节点对应的视频事件的特征向量的模，modEV(q)表示目标视频事件的特征向量的模，min(modEV(p),modEV(q))表示取modEV(p)和modEV(q)中的最小值，modEV(p),modEV(q)作为分母不为0；在modEV(p),modEV(q)均为0时，DisEV(p,q)＝0。

其中，视频事件特征向量的模modEV计算公式为：

其中，EV＝(v₁,v₂,…v_k,v₃₄₈₁)表示视频事件特征向量，v_k表示向量EV中k维的数值，视频事件特征向量EV可根据视频事件中内容帧的特征向量来得到。

可以理解的是，两个视频事件的特征向量差异率越小，则表征这两个视频事件越相似，若第一预设阈值为DisEV_max，则在DisEV(p,q)≤DisEV_max的情况下，则确定根节点对应的视频事件满足第二判断条件。说明根节点对应的视频事件和目标视频事件可能相似，但是为了进一步确定根节点对应的视频事件和目标视频事件中每一内容帧也相似，通过第三判断条件进行判断。

由第一判断条件可知，对于待作为备选根节点的根节点，其内容帧数量是与目标视频事件的内容帧数量相同的，则可以将根节点对应的视频事件与目标视频事件中序号相同的两个内容帧作为匹配内容帧，通过计算两个匹配内容帧之间的内容帧差异率来判断根节点对应的视频事件是否为备选根节点。

例如，目标视频事件的内容帧数量为5，当前遍历到的根节点的内容帧数量也为5，则将目标视频事件的第一内容帧与当前遍历到的根节点的第一内容帧作为一对匹配内容帧，将目标视频事件的第二内容帧与当前遍历到的根节点的第二内容帧作为一对匹配内容帧，依次类推，得到5对匹配内容帧。分别计算这5对匹配内容帧之间的差异率，将所有匹配内容帧之间的差异率均小于等于第二预设阈值作为第三判断条件。

本实施例中，目标视频事件和当前遍历到的根节点的内容帧差异率Dis(i)计算公式为：

其中，f_pi为当前遍历到的根节点的视频事件p的j内容帧，j∈[1,..,fcnt_p]，f_qi为目标视频事件q的i内容帧，i∈[1,..,fcnt_q]，disf_pj,f_qi)为事件p的j内容帧和事件q的i内容帧之间的原始差异率，θ为固有误差，为计算误差的预设阈值。

若第二预设阈值为dis_max，则在Dis(i)≤dis_max时，确定当前遍历到的根节点的视频事件满足第三判断条件。

本实施例中，dis(f_pj,f_qi)的计算公式为：

其中，diff(f_pj,f_qi)为目标视频事件q的i内容帧和当前遍历到的根节点的视频事件p的j内容帧的内容帧差异值，modULBPM(f_pj)为当前遍历到的根节点的视频事件p的i内容帧的特征矩阵的模，modULBPM(f_qi)为目标视频事件p的j内容帧的特征矩阵的模，modULBPM(f_pj),modULBPM(f_qi)作为分母均不为0，当modULBPM(f_pj)与modULBPM(f_qi)均为0时dis(f_pj,f_qi)＝0。

在当前遍历到的根节点同时满足上述第一判断条件、第二判断条件和第三判断条件时，说明当前遍历到的根节点对应的视频事件与目标视频很相似，可以作为备选根节点，可以理解的是，本实施例的备选根节点对应的视频事件是与目标视频较为相似的视频事件。但是由于视频事件是由多个内容帧组合而成，其具有组合性，因此在得到备选根节点之后还通过计算目标视频事件与备选根节点对应的视频事件的相似率，进而从视频事件的整体方面，判断目标视频事件与备选根节点对应的视频事件是否相似。

本实施例中，目标视频事件和备选视频根节点对应的视频事件的相似率计算公式为：

其中，q表示目标视频事件，fcnt_q为目标视频事件的内容帧数量，p表示备选根节点对应的视频事件，fcnt_p为备选根节点对应的视频事件的内容帧数量，SimEV(p,q)表示目标视频事件q和备选根节点对应的视频事件p的相似率，i为目标视频事件的内容帧序号，Dis(i)为目标视频事件与备选根节点对应的视频事件的第i匹配内容帧之间的差异率。

需要说明的是，遍历所述视频事件信息网络中的根节点，判断当前遍历到的根节点是否为备选根节点，还包括：若视频事件信息网络中的任一根节点均不是备选根节点，说明目标视频事件与视频事件信息网络中的任一根节点对应的视频事件均不相似，目标视频事件与视频事件信息网络中的任一根节点对应的视频事件不重复，则确定目标视频事件为非重复视频事件，输出目标视频事件为非重复视频事件的去重结果。

S704、根据相似率判断目标视频事件是否与备选根节点对应的视频事件相似，若是，则确定目标视频事件为备选根节点对应的视频事件的重复视频事件，停止遍历；若否，则遍历下一个根节点；在遍历完视频事件信息网络中的所有根节点之后，若目标视频事件与任一个根节点对应的视频事件均不相似，则确定目标视频事件为非重复视频事件。

根据上述公式5得到目标视频事件和备选视频根节点对应的视频事件的相似率之后，可根据上述相似率判断目标视频事件是否与备选根节点对应的视频事件相似，具体地，在目标视频事件与备选根节点对应的视频事件的相似率大于等于第三预设阈值SimEV_min的情况下，表明在误差允许的范围内目标视频事件和备选视频事件的相似率较大，确定目标视频事件与备选根节点对应的视频事件相似，则确定目标视频事件为备选根节点对应的视频事件的重复视频事件。

需要说明的是，本实施例的本质是在检测目标视频事件是否为视频事件信息网络中的任一视频事件的重复视频事件，则当确定当前遍历到的根节点为备选根节点，且备选根节点对应的视频事件与目标视频事件相似时，则足以说明目标视频事件为重复视频事件，则无需对后续未遍历到的根节点进行遍历，即停止遍历，此时得到的去重结果为目标视频事件为重复视频事件。

而当目标视频事件与备选根节点对应的视频事件不相似时，继续遍历下一个根节点，例如，第一时刻为第二时刻的前一时刻，第二时刻为第三时刻的前一时刻，当目标视频事件与在第一时刻遍历到的备选根节点不相似时，判断第二时刻遍历到的根节点是否为备选根节点，在第二时刻遍历到的根节点为备选根节点时，则计算目标视频事件与备选根节点对应的视频事件的相似率，再根据相似率判断目标视频事件是否与备选根节点对应的视频事件相似，若不相似，则判断第三时刻遍历到的根节点是否为备选根节点，以此类推，直至遍历完视频事件信息网络中的所有的根节点。

在遍历完视频事件信息网络中的所有根节点之后，若目标视频事件与任一个根节点对应的视频事件均不相似，则说明目标视频视频事件与视频事件信息网络中的任一根节点对应的视频事件不重复，确定目标视频事件为非重复视频事件，输出目标视频事件为非重复视频事件的去重结果。

S705、将目标视频事件为重复视频事件或非重复视频事件作为去重结果输出。

在通过步骤S703或S704得到目标视频事件为重复视频事件或非重复视频事件之后，将目标视频事件为重复视频事件或非重复视频事件作为去重结果输出。

通过上述步骤S701-S705可以判断任一目标视频事件是否为视频事件信息网络中的重复视频事件，在一个应用场景中，若视频处理人员需要对目标视频进行审核，则可仅对非重复视频事件进行处理，可避免对重复的视频事件进行二次处理，提高视频处理的效率。

可以理解的是，在目标视频事件为非重复视频事件时，表示该目标视频事件是不同于视频事件信息网络中的任一视频事件的，则可以通过该非重复视频事件对视频事件信息网络进行更新。

因此，本实施例的方法还包括在目标视频事件为非重复视频事件的情况下，将目标视频事件作为视频事件信息网络的新的根节点，对视频事件信息网络进行更新，具体的更新可根据上述图6所示的方法，将目标视频事件作为视频事件信息网络的新的根节点加入树形结构。并且将目标视频事件的视频事件数据保存到去重数据库中，以便于视频事件数据的保存，以便于根据保存后的去重数据库初始化视频事件信息网络。

在一个例子中，为了便于对重复视频事件的溯源，增加本实施例的应用场景，本实施例的方法还包括：在目标视频事件为重复视频事件的情况下，生成重复信息，重复信息包括目标视频事件的源视频信息和对应的源视频事件信息。例如，重复信息包括目标视频事件的源视频ID和对应的源视频事件ID。

以上为本实施例提供的一种海量视频的去重方法，通过去重数据库中保存的视频事件数据，初始化视频事件信息网络，根据获取到的目标视频，得到至少一个目标视频事件，根据目标视频事件的内容帧数量和视频事件特征向量，遍历视频事件信息网络中的根节点，判断当前遍历到的根节点是否为备选根节点，若是，则计算目标视频事件与所述备选根节点对应的视频事件的相似率，根据相似率判断目标视频事件是否与备选根节点对应的视频事件相似，若是，则确定目标视频事件为备选根节点对应的视频事件的重复视频事件，停止遍历；若否，则遍历下一个根节点；在遍历完视频事件信息网络中的所有根节点之后，若目标视频事件与任一个根节点对应的视频事件均不相似，则确定目标视频事件为非重复视频事件，并将目标视频事件为重复视频事件或非重复视频事件作为去重结果输出。本实施例可以在海量视频事件集合中对指定的目标视频事件进行快速比对，判断目标视频事件是否与视频事件信息网络中的任一视频事件重复，且本实施例首先通过内容帧数量和视频事件特征向量遍历视频事件信息网络中的根节点，可快速排除与目标视频事件不相似的视频事件，得到可能相似的备选根节点，具有较高的去重效率，在得到备选根节点之后，再计算目标视频事件与备选根节点对应的视频事件的相似率，来判断目标视频事件是否与备选根节点对应的视频事件相似，具有较高的去重准确率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

下述为本发明一种海量视频的去重系统，可以用于执行本发明方法实施例。对于本发明海量视频的去重系统实施例中未披露的细节，请参照本发明方法实施例。

图8示出了本发明一个示例性实施例提供的海量视频的去重系统的结构示意图。该海量视频的去重系统可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该海量视频的去重系统800包括：

初始化模块801，用于根据去重数据库中保存的视频事件数据，初始化视频事件信息网络，所述视频事件信息网络具有根节点，每一根节点对应一个视频事件。

视频处理模块802，用于获取目标视频，所述目标视频为接收到的实时视频，对所述目标视频进行预处理和粒化处理，得到所述目标视频的视频事件序列，所述视频事件序列包括至少一个目标视频事件；

计算模块803，用于根据所述目标视频事件的内容帧数量和视频事件特征向量，遍历所述视频事件信息网络中的根节点，判断当前遍历到的根节点是否为备选根节点，若是，则计算所述目标视频事件与所述备选根节点对应的视频事件的相似率；

去重分析模块804，用于根据所述相似率判断所述目标视频事件是否与所述备选根节点对应的视频事件相似，若是，则确定目标视频事件为所述备选根节点对应的视频事件的重复视频事件，停止遍历；若否，则遍历下一个根节点；在遍历完所述视频事件信息网络中的所有根节点之后，若目标视频事件与任一个根节点对应的视频事件均不相似，则确定所述目标视频事件为非重复视频事件；

输出模块805，用于将目标视频事件为重复视频事件或非重复视频事件作为去重结果输出。

其中，视频事件信息网络具有根节点，每一根节点对应一个视频事件；其中，所述视频事件是指一个镜头内所有内容帧的集合，所述内容帧是指表示镜头内容的帧，包括首帧、尾帧和N个中间帧，N为自然数，所述中间帧通过对一个镜头的除首尾两帧之外的所有子帧顺序与其前一个内容帧进行差异率计算，当所述差异率大于预设阈值时得到；所述视频事件信息网络是基于视频事件信息空间以多级树集合为基础构造的森林结构，所述视频事件信息空间是指视频事件特征向量所在的多维向量空间，所述视频事件特征向量为在相同坐标系下对内容帧集合提取特征矩阵后计算得到。

图9示出了本发明一个示例性实施例提供的海量视频的去重系统的另一结构示意图。本实施例的上述系统还包括：

更新模块806，用于在所述目标视频事件为非重复视频事件的情况下，将所述目标视频事件作为所述视频事件信息网络的新的根节点，对所述视频事件信息网络进行更新；将所述目标视频事件的视频事件数据保存到所述去重数据库中。

重复信息生成模块807，用于在所述目标视频事件为重复视频事件的情况下，生成重复信息，所述重复信息包括所述目标视频事件的源视频信息和对应的源视频事件信息。

需要说明的是，上述实施例提供的海量视频的去重系统在执行海量视频的去重方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的海量视频的去重系统与海量视频的去重方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

本发明实施方式还提供一种与前述实施方式所提供的海量视频的去重方法对应的电子设备，以执行上述海量视频的去重方法。

图10示出根据本发明实施例的电子设备的示意图。如图10所示，所述电子设备900包括：存储器901和处理器902，存储器901中存储有可在所述处理器902上运行的计算机程序，处理器902运行所述计算机程序时执行本发明前述任一实施方式所提供的方法。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行上述基于视频事件信息网络的视频内容对比方法的步骤。

可选地，本领域普通技术人员可以理解，图9所示的结构仅为示意，电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图9其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图9中所示更多或者更少的组件(如网络接口等)，或者具有与图9所示不同的配置。

其中，存储器901可用于存储软件程序以及模块，如本发明实施例中的海量视频的去重方法和系统对应的程序指令/模块，处理器902通过运行存储在存储器901内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的海量视频的去重方法。存储器901可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器901可进一步包括相对于处理器902远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器901具体可以但不限于用于存储视频事件信息网络。作为一种示例，上述存储器901中可以但不限于包括上述基于海量视频的去重系统中的各个模块。此外，还可以包括但不限于上述海量视频的去重系统中的其他模块单元，本示例中不再赘述。

可选地，上述电子设备包括传输装置903，传输装置903用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置903包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置903为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器904，用于显示上述海量视频的去重的去重结果；和连接总线905，用于连接上述电子设备中的各个模块部件。

本实施例提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述基于视频事件信息网络的视频内容对比方法，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行基于视频事件信息网络的视频内容对比方法各步骤的计算机程序。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本发明所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种海量视频的去重方法，其特征在于，所述方法包括：

根据去重数据库中保存的视频事件数据，初始化视频事件信息网络，所述视频事件信息网络具有根节点，每一根节点对应一个视频事件；其中，所述视频事件是指一个镜头内所有内容帧的集合，所述内容帧是指表示镜头内容的帧，包括首帧、尾帧和N个中间帧，N为自然数，所述中间帧通过对一个镜头的除首尾两帧之外的所有子帧顺序与其前一个内容帧进行差异率计算，当所述差异率大于预设阈值时得到；所述视频事件信息网络是基于视频事件信息空间以多级树集合为基础构造的森林结构，所述视频事件信息空间是指视频事件特征向量所在的多维向量空间，所述视频事件特征向量为在相同坐标系下对内容帧集合提取特征矩阵后计算得到；

获取目标视频，所述目标视频为接收到的实时视频，对所述目标视频进行预处理和粒化处理，得到所述目标视频的视频事件序列，所述视频事件序列包括至少一个目标视频事件；

根据所述目标视频事件的内容帧数量和视频事件特征向量，遍历所述视频事件信息网络中的根节点，判断当前遍历到的根节点是否为备选根节点，若是，则计算所述目标视频事件与所述备选根节点对应的视频事件的相似率；

根据所述相似率判断所述目标视频事件是否与所述备选根节点对应的视频事件相似，若是，则确定目标视频事件为所述备选根节点对应的视频事件的重复视频事件，停止遍历；若否，则遍历下一个根节点；在遍历完所述视频事件信息网络中的所有根节点之后，若目标视频事件与任一个根节点对应的视频事件均不相似，则确定所述目标视频事件为非重复视频事件；

将目标视频事件为重复视频事件或非重复视频事件作为去重结果输出。

2.根据权利要求1所述的方法，其特征在于，根据所述目标视频事件的内容帧数量和视频事件特征向量，遍历所述视频事件信息网络中的根节点，判断当前遍历到的根节点是否为备选根节点，包括：

将当前遍历到的根节点对应的视频事件的内容帧数量与目标视频事件的内容帧数量相等作为第一判断条件；

将根节点对应的视频事件与目标视频事件的特征向量差异率小于等于第一预设阈值作为第二判断条件；

计算根节点对应的视频事件与目标视频事件的匹配内容帧之间的差异率，将所有匹配内容帧之间的差异率均小于等于第二预设阈值作为第三判断条件，所述匹配内容帧为根节点对应的视频事件与目标视频事件中序号相同的两个内容帧；

在当前遍历到的根节点同时满足所述第一判断条件、第二判断条件和第三判断条件时，确定当前遍历到的所述根节点为备选根节点。

3.根据权利要求2所述的方法，其特征在于，所述遍历所述视频事件信息网络中的根节点，判断当前遍历到的根节点是否为备选根节点，还包括：

若所述视频事件信息网络中的任一根节点均不是备选根节点，则确定所述目标视频事件为非重复视频事件，输出所述目标视频事件为非重复视频事件的去重结果。

4.根据权利要求1所述的方法，其特征在于，根据所述相似率判断所述目标视频事件是否与所述备选根节点对应的视频事件相似，包括：

在所述目标视频事件与所述备选根节点对应的视频事件的相似率大于等于第三预设阈值的情况下，确定所述目标视频事件与所述备选根节点对应的视频事件相似。

5.根据权利要求1或3所述的方法，其特征在于，在所述目标视频事件为非重复视频事件的情况下，所述方法还包括：

将所述目标视频事件作为所述视频事件信息网络的新的根节点，对所述视频事件信息网络进行更新；

将所述目标视频事件的视频事件数据保存到所述去重数据库中。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述目标视频事件为重复视频事件的情况下，生成重复信息，所述重复信息包括所述目标视频事件的源视频信息和对应的源视频事件信息。

7.一种海量视频的去重系统，其特征在于，所述系统包括：

初始化模块，用于根据去重数据库中保存的视频事件数据，初始化视频事件信息网络，所述视频事件信息网络具有根节点，每一根节点对应一个视频事件；其中，所述视频事件是指一个镜头内所有内容帧的集合，所述内容帧是指表示镜头内容的帧，包括首帧、尾帧和N个中间帧，N为自然数，所述中间帧通过对一个镜头的除首尾两帧之外的所有子帧顺序与其前一个内容帧进行差异率计算，当所述差异率大于预设阈值时得到；所述视频事件信息网络是基于视频事件信息空间以多级树集合为基础构造的森林结构，所述视频事件信息空间是指视频事件特征向量所在的多维向量空间，所述视频事件特征向量为在相同坐标系下对内容帧集合提取特征矩阵后计算得到；

视频处理模块，用于获取目标视频，所述目标视频为接收到的实时视频，对所述目标视频进行预处理和粒化处理，得到所述目标视频的视频事件序列，所述视频事件序列包括至少一个目标视频事件；

计算模块，用于根据所述目标视频事件的内容帧数量和视频事件特征向量，遍历所述视频事件信息网络中的根节点，判断当前遍历到的根节点是否为备选根节点，若是，则计算所述目标视频事件与所述备选根节点对应的视频事件的相似率；

去重分析模块，用于根据所述相似率判断所述目标视频事件是否与所述备选根节点对应的视频事件相似，若是，则确定目标视频事件为所述备选根节点对应的视频事件的重复视频事件，停止遍历；若否，则遍历下一个根节点；在遍历完所述视频事件信息网络中的所有根节点之后，若目标视频事件与任一个根节点对应的视频事件均不相似，则确定所述目标视频事件为非重复视频事件；

输出模块，用于将目标视频事件为重复视频事件或非重复视频事件作为去重结果输出。

8.根据权利要求7所述的一种海量视频的去重系统，其特征在于，所述系统还包括：

更新模块，用于在所述目标视频事件为非重复视频事件的情况下，将所述目标视频事件作为所述视频事件信息网络的新的根节点，对所述视频事件信息网络进行更新；将所述目标视频事件的视频事件数据保存到所述去重数据库中；

重复信息生成模块，用于在所述目标视频事件为重复视频事件的情况下，生成重复信息，所述重复信息包括所述目标视频事件的源视频信息和对应的源视频事件信息。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序以实现如权利要求1-6任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行实现如权利要求1-6中任一项所述的方法。