CN112434185A

CN112434185A - 一种查找相似视频片段的方法、系统、服务器及存储介质

Info

Publication number: CN112434185A
Application number: CN202011157679.7A
Authority: CN
Inventors: 余英; 常江; 宫良; 夏泳; 党海飞; 易鹏; 刘骏; 曹志; 韦安明; 李忠炤; 韩凯; 肖辉; 刘文翰; 丁正华; 高杨; 薛静宜
Original assignee: Beijing Zhongguang Hengtong Technology Co ltd; Planning Institute Of Radio And Television Of State Administration Of Radio And Television
Current assignee: Beijing Zhongguang Hengtong Technology Co ltd; Planning Institute Of Radio And Television Of State Administration Of Radio And Television
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-03-02
Anticipated expiration: 2040-10-26
Also published as: CN112434185B

Abstract

本发明涉及一种查找相似视频片段的方法，用于在对比视频中查找与待测视频中相似的视频片段，包括：S1，预先对卷积神经网络系统进行训练，以识别物体；S2，获取待测视频通过抽帧方式形成的第一图片序列；S3，通过训练后的卷积神经网络系统来识别第一图片序列中的物体，以得到用来标识物体的第一特征码；S4，获取对比视频预先通过抽帧形成的第二图片序列并对其进行识别和标识的第二特征码；S5，将第一特征码与第二特征码进行对比，找出相似的连续视频片段；本发明通过对比和存储少量字节的视频关键帧特征值信息，不仅节省算力开销，而且提高视频查重的准确率。

Description

一种查找相似视频片段的方法、系统、服务器及存储介质

技术领域

本发明涉及一种视频处理技术领域，尤其涉及一种查找相似视频片段的方法、系统、服务器及存储介质。

背景技术

在互联网、大数据稳定发展的时代背景下，多媒体信息的需求量呈现爆发式增长，如今视频平台都需要通过视频检索实现对视频资源的有效管理，例如，通过视频检索衡量两个视频片段之间的相似性，从而实现视频推荐、视频去重、盗版检测等视频管理业务。

目前检测和查找相似视频主要有以下几种方法：

第一种，抽取对比视频关键帧，将关键帧进行抽样和压缩，形成缩略图数据。抽取待测视频关键帧，形成缩略图数据后与对比视频的数据进行对比。如果两者相似度较高，则通过人工审核来确定是否为相似视频片段。

第二种，抽取对比视频关键帧，定位字幕信息，通过OCR技术提取字幕。对待测视频做类似处理，将字幕内容的数据与对比视频的数据进行对比，来确认相似度。如果两者相似度较高，则通过人工审核来确定是否为相似视频片段。

第三种，提取对比视频的语音信息，形成台词和旋律数据。对待测视频做类似处理，提取待测视频的语音信息，并将其与台词旋律库中的数据进行对比，以得出相似度。

第四种，抽取对比视频关键帧，通过人脸识别来形成视频特征数据。待测视频同样进行人脸识别，可用于粗略判断是否为同一演员，以及演员数量，出场次序，形成视频的人脸和剧情特征数据。

上述四种方法中，第一种运算量太大，占用过多的服务器算力。第二种和第三种方法依赖字幕信息和语音信息。第三种对于没有演员的纪录片风景片则无能为力。

发明内容

针对目前查找相似视频片段存在的上述问题，本发明提供一种查找相似视频片段的方法、系统、服务器和计算机可读存储介质。

本发明解决技术问题所采用的技术方案为：

一种查找相似视频片段的方法，用于在对比视频中查找与待测视频中相似的连续视频片段，包括：

S1，预先对卷积神经网络系统进行训练，以识别物体；

S2，获取待测视频通过抽帧方式形成的第一图片序列；

S3，通过训练后的卷积神经网络系统来识别所述第一图片序列中的物体，以得到用来标识物体的第一特征码；

S4，获取对比视频预先通过抽帧形成的第二图片序列并对其进行识别和标识的第二特征码；

S5，将所述第一特征码与所述第二特征码进行对比，找出相似的连续视频片段。

本发明优选的实施例，还包括：

S6，对所述待测视频中相似的连续视频片段中的每帧图片进行灰度缩略图计算，以得到多个灰度缩略图数据；从对比视频中获取预先计算出的相似的连续视频片段中任意一帧图片的第一灰度缩略图数据；

S7，根据第一灰度缩略图数据和多个灰度缩略图数据判断该相似的连续视频片段是否属于重复片段。

本发明优选的实施例，所述S7中，将所述第一灰度缩略图数据分别与多个灰度缩略图数据进行结构相似性计算，以得到多个关于两张图片的结构相似度值；当任意一个相似度值超过预设的第一相似度阈值时，则认为该相似的连续视频片段属于重复片段。

本发明优选的实施例，S5中，当第一特征码中任意连续长度的特征码，与第二特征码中对应长度的特征码的相同比例超过预设的第二相似度阈值时，则该待测视频中的连续视频片段与对比视频中对应长度的连续视频片段相似。

本发明优选的实施例，两张图片x和y的结构相似性SSIM(x,y)计算按照如下公式求出：

其中，μ_x是x的平均值，μ_y是y的平均值，

是x的方差，

是y的方差，σ_xy是x和y的协方差；c₁＝(k₁L)²，c₂＝(k₂L)²是用来维持稳定的常数；L是像素值的动态范围；k₁＝0.01，k₂＝0.03。

本发明优选的实施例，S1中，通过预先建立的素材库中的图片及名称对所述卷积神经网络系统进行训练，通过识别图片中面积最大的物体来确定图片中的物体和名称，以识别图片中的物体。

本发明优选的实施例，S5中，通过逐帧滑动的方式，对所述第一特征码和第二特征码进行对比。

本发明优选的实施例，所述待测视频和对比视频的时间长度不同。

一种查找相似视频片段的系统，用于在对比视频中查找与待测视频中相似的视频片段，包括：

构建单元，用于预先对卷积神经网络系统进行训练，以识别物体；

抽取单元，用于获取待测视频通过抽帧方式形成的第一图片序列；

识别单元，用于通过训练后的卷积神经网络系统来识别所述第一图片序列中的物体，以得到用来标识物体的第一特征码；

用于获取对比视频预先通过抽帧形成的第二图片序列并对其进行识别和标识的第二特征码；

第一对比单元，用于将所述第一特征码与所述第二特征码进行对比，找出相似的连续视频片段。

本发明优选的实施例，还包括：

第二对比单元，用于对所述相似的连续视频片段中的每帧图片进行灰度缩略图计算，以得到多个灰度缩略图数据；用于从对比视频中获取预先计算出的相似的连续视频片段中任意一帧图片的第一灰度缩略图数据；用于根据第一灰度缩略图数据和多个灰度缩略图数据判断该相似的连续视频片段是否属于重复片段。

本发明优选的实施例，所述第二对比单元，用于将所述第一灰度缩略图数据分别与多个灰度缩略图数据进行结构相似性计算，以得到多个关于两张图片的结构相似度值；当任意一个相似度值超过预设的第一相似度阈值时，则认为该相似的连续视频片段属于重复片段。

本发明优选的实施例，当第一特征码中任意连续长度的特征码，与第二特征码中对应长度的特征码的相同比例超过预设的第二相似度阈值时，则该待测视频中的连续视频片段与对比视频中对应长度的连续视频片段相似。

一种服务器，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现前述任一所述的查找相似视频片段的方法。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一所述的查找相似视频片段的方法。

本发明的有益效果：本发明的查找相似视频片段的方法，仅对比和存储仅有几个字节的视频关键帧特征值信息，能够大大节省算力开销。而且，将物体库的创建、编码和卷积神经网络系统的训练放在互联网上进行，与视频素材库的建设管理完全独立，保证了较小的建设和接入成本。

附图说明

图1为本发明的第一实施例的查找相似视频片段的方法的流程示意图；

图2为本发明的第二实施例的查找相似视频片段的方法的流程示意图；

图3为本发明的待测视频跟对比视频进行开始逐帧比对示意图；

图4为本发明的待测视频跟对比视频进行逐帧向右滑动比对示意图；

图5为本发明的待测视频跟对比视频结束逐帧比对示意图；

图6为本发明的第三实施例的查找相似视频片段的系统框图；

图7为本发明的第四实施例的查找相似视频片段的系统框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

文中的术语“第一”、“第二”仅用于描述目的，而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了解决相关技术中的技术问题，本申请实施例提供了一种查找相似视频片段的方法、系统、服务器及存储介质。

实施例1

请参照图1，本发明的实施例提供了一种查找相似视频片段的方法，用于一一比较待测视频与视频库中的多个对比视频的相似性，以在视频库中找出与待测视频相似或重复的视频片段。该方法包括：

步骤S1，预先对卷积神经网络系统进行训练，以识别物体。

首先，通过Python开源网络爬虫工具，从互联网上获取百万张各种物体的图片和物体名称，形成一个物体识别素材库。然后，建立一个多层的卷积神经网络系统，通过素材库中的图片和名称对该卷积神经网络系统进行训练，使得训练后的卷积神经网络系统能够识别图片中的数千种物体，并且能够对物体进行标识。

步骤S2，获取待测视频通过抽帧方式形成的第一图片序列。

对待测视频按照固定时间间隔进行抽帧，得到多张图片，然后将这些图片组合成图片序列。这个固定时间间隔可以为1秒，0.2秒，5秒等等。

步骤S3，通过训练后的卷积神经网络系统来识别第一图片序列中的物体，以得到用来标识物体的第一特征码。

训练后的卷积神经网络系统能够识别图片序列中每一张图片中面积最大的物体，并且对该物体进行标识后得到一个特征值。例如，将图片中的石头标识为023，将树标识为156。而对比视频的图片序列是在上传进视频库时就预先进行识别并标识的。

步骤S4，获取对比视频预先通过抽帧形成的第二图片序列并对其进行识别和标识的第二特征码。

该步骤中，所有的对比视频预先通过步骤S3的方法生成特征码，以减少查找相似的视频片段的时间，提高处理速度。

步骤S5，将第一特征码与第二特征码进行对比，找出相似的连续视频片段。

在一个具体的例子中，例如15秒的待测视频，以固定的时间间隔，例如每秒5帧的频率进行抽帧，会生成一个75长度的图片序列。然后利用卷积神经网络对每一帧图像进行标识分类，可以将各个物体分类标识为000、001、002……998、999、……这种格式的特征值，最后将所有特征值进行组合成一个特征码。假设该15秒的待测视频的特征码为：

221221221105105667667667886886886886………775775655。经过训练后的卷积神经网络系统，在查找相似视频片段之前，会预先使用该卷积神经网络系统对视频库中所有的对比视频进行处理，然后得到所有视频的特征码。例如其中一个对比视频的特征码为：355355355667667667886886886886…………775775655334334557。视频库利用分布式系统，将所有对比视频的特征码存储进视频库。最后使用该待测视频的特征码在视频库中所有特征码中进行匹配查找相似的特征码序列，则会很容易找到相似的连续视频片段。比如该15秒的视频中的部分连续的特征码667667667886886886886………775775655可以在对比视频中找到，则认为该15秒待测视频中此部分特征码所对应的连续视频片段是与对比视频中的对应片段相似。

本发明的方法对于待测视频来说，在视频库中跟这个长度下所有图片序列相匹配的视频，其重复率是非常低的。而对于这个特征码的匹配，仅仅只需做一维向量运算就可以，因此计算量非常有限，速度也非常快。其仅对比和存储仅有几个字节的视频关键帧特征值信息，能够大大节省算力开销，提高人工视频查重的效率。而且，将物体库的创建、编码和卷积神经网络系统的训练放在互联网上进行，与视频素材库的建设管理完全独立，保证了较小的建设和接入成本。进一步地，该发明可以为视频网站厘清知识产权，降低法律风险，避免大量的版权纠纷问题。

实施例2

一种查找相似视频片段的方法，见图2，在实施例1的基础上，还包括如下步骤：

步骤S6，对相似的连续视频片段中的每帧图片进行灰度缩略图计算，以得到多个灰度缩略图数据；从对比视频中获取预先计算出的相似的连续视频片段中任意一帧图片的第一灰度缩略图数据；

步骤S7，根据第一灰度缩略图数据和多个灰度缩略图数据判断该相似的连续视频片段是否属于重复片段。

本实施例是在实施例1中找出的具有相似性的连续视频片段的基础上，再进行上述步骤6和7的相似性验证。具体地，是通过图片的灰度缩略图数据来进一步判断查找出的相似连续视频片段是否为重复片段，即内容相同的片段。该方法进一步确认了所找出的相似的连续视频片段的相似性。

本发明可选的实施例，步骤S7中，将第一灰度缩略图数据分别与多个灰度缩略图数据进行结构相似性计算，得到多个关于两张图片的结构相似度值；当任意一个相似度值超过预设的第一相似度阈值时，则认为该相似连续视频片段属于重复片段。

本实施例的具体方法为：在待测视频中找出的具有N帧图片的相似连续视频片段中，对每帧图片进行灰度缩略图计算，则得到N帧图片的灰度缩略图数据y₁,y₂,y₃…y_N。然后从视频库中获取预先计算出的相似的连续视频片段中任意一帧图片的灰度缩略图数据x。最后将灰度缩略图数据x分别与N帧图片的灰度缩略图数据y₁,y₂,y₃…y_N进行结构相似性验证。具体地，两张图片的结构相似性SSIM(x,y)可以按照如下公式求出：

其中，μ_x是x的平均值，μ_y是y的平均值，

是x的方差，

是y的方差，σ_xy是x和y的协方差。c₁＝(k₁L)2，c₂＝(k₂L)²是用来维持稳定的常数。L是像素值的动态范围。k₁＝0.01，k₂＝0.03。上述公式中，结构相似性结果的范围为0到1。当两张图像一模一样时，SSIM的值等于1。本实施例中，当SSIM超过预设的相似度阈值(例如为0.9)时，可认为两幅图像一致。因此，对于本发明的实施例，只要对比视频的相似连续视频片段中任意一个灰度缩略图数据x，与待测视频的相似连续视频片段的灰度缩略图数据y₁,y₂,y₃…y_N中的任意一个计算出的SSIM值超过预设的相似度阈值时，则认为这两个相似的连续视频片段重复。

在该实施例中，对已经通过实施例1查找出来的相似连续视频片段进行相似性验证，使得视频查重的准确率进一步提高，能够将视频查重的命中率提高至90％以上。此外，该技术还可以应用于敏感画面的自动审片，能够迅速找到敏感画面并定位其出现的时间点，从而节省大量的人力审片工作。

本发明可选的实施例，在步骤S5中，当第一特征码中任意连续长度的特征码，与第二特征码中对应长度的特征码的相同比例超过预设的第二相似度阈值时，则该待测视频中的连续视频片段与对比视频中对应长度的连续视频片段相似。在该实施例中，对于待测视频，其特征码中有超过预设相似度，如80％的连续长度的特征值与对比视频的特征码中的特征值相同，则认为该长度的连续视频片段相似。

本发明可选的实施例，S1中，通过预先建立的素材库中的图片及名称对卷积神经网络系统进行训练，通过识别图片中面积最大的物体来确定图片中的物体和名称，以识别图片中的物体。

卷积神经网络系统通过识别图片中面积最大的物体来确定图片中的物体和名称。例如，在一张包括云朵，太阳和山的图片中，面积最大的物体是山，那么卷积神经网络系统通过识别出的面积最大的山来确定该图片的名称。该实施例中，视频库预先识别上传的视频，对每条视频进行图片序列的特征码的提取和存储。这种预先处理的方式能够减小查找相似视频的时间和计算量。

本发明可选的实施例，步骤S5中，通过逐帧滑动的方式，对第一特征码和第二特征码进行对比。

现在举例说明第一特征码和第二特征码进行逐帧滑动对比的过程，见图3～5。假设待测视频的时间长度为1小时，对比视频的时间长度为2小时，将这两段视频分别按照每秒抽5帧的频率进行抽帧，则得到待测视频的长度为18000帧，对比视频的长度为36000帧。从这两个数组相交开始，一直逐帧滑动对比两帧图片的相似度至最后一帧，因此计算次数为36000+18000＝54000次。每次比对计算后，都需要在计算结果中，找出具有相似性的连续视频片段。而每一帧图片的比对其实是对图片序列的特征码(更进一步地，为每帧图片的特征值)的比对。例如，在待测视频Frame50～Frame300的特征码中，有超过设定相似度阈值(例如80％)的特征值都跟对比视频中对应长度的特征值相同，则认为待测视频的Frame50～Frame300所在帧的连续视频片段与对比视频中对应片段相似。

本发明可选的实施例，待测视频和对比视频的时间长度不同。现有技术中，有些技术仅能对比时间长度相同的视频，这种方法对于时间长度不同的视频查重却无能为力。而现实情况中，对比时间长度不同的视频的情况却更为普遍。比如需要在一段视频中查找是否插入了某个广告，那么，通过本发明的技术方案，可以将该广告作为待测视频，以在视频库中进行比对查找。

实施例3

本发明的一种查找相似视频片段的系统，见图6，用于在对比视频中查找与待测视频中相似的视频片段，包括：

构建单元1，用于预先对卷积神经网络系统进行训练，以识别物体；

抽取单元2，用于获取待测视频通过抽帧方式形成的第一图片序列；

识别单元3，用于通过训练后的卷积神经网络系统来识别第一图片序列中的物体，以得到用来标识物体的第一特征码；

用于获取对比视频预先通过抽帧形成的第二图片序列然后对其进行识别和标识的第二特征码；

第一对比单元4，用于将第一特征码与第二特征码进行对比，找出相似的连续视频片段。

实施例4

本发明可选的实施例，见图7，该查找相似视频片段的系统还包括：

第二对比单元5，用于对相似的连续视频片段中的每帧图片进行灰度缩略图计算，以得到多个灰度缩略图数据；用于从对比视频中获取预先计算出的相似的连续视频片段中任意一帧图片的第一灰度缩略图数据；用于根据第一灰度缩略图数据和多个灰度缩略图数据判断该相似的连续视频片段是否属于重复片段。

本发明可选的实施例，第二对比单元，用于将第一灰度缩略图数据分别与多个灰度缩略图数据进行结构相似性计算，得到多个关于两张图片的结构相似度值；当任意一个相似度值超过预设的第一相似度阈值时，则认为该相似连续视频片段属于重复片段。

本发明可选的实施例，在查找相似视频片段的系统中，当第一特征码中任意连续长度的特征码，与第二特征码中对应长度的特征码的相同比例超过预设的第二相似度阈值时，则该待测视频中的连续视频片段与对比视频中对应长度的连续视频片段相似。

本发明的一种服务器，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现前述的查找相似视频片段的方法。

本发明的一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述的查找相似视频片段的方法。

本领域普通技术人员可以理解上述实施例的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存取记忆体、磁盘或光盘等。计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所做出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种查找相似视频片段的方法，用于在对比视频中查找与待测视频中相似的连续视频片段，其特征在于，包括：

S1，预先对卷积神经网络系统进行训练，以识别物体；

S2，获取待测视频通过抽帧方式形成的第一图片序列；

2.根据权利要求1所述的查找相似视频片段的方法，其特征在于，还包括：

3.根据权利要求2所述的查找相似视频片段的方法，其特征在于，所述S7中，将所述第一灰度缩略图数据分别与多个灰度缩略图数据进行结构相似性计算，以得到多个关于两张图片的结构相似度值；当任意一个相似度值超过预设的第一相似度阈值时，则认为该相似的连续视频片段属于重复片段。

4.根据权利要求1所述的查找相似视频片段的方法，其特征在于，S5中，当第一特征码中任意连续长度的特征码，与第二特征码中对应长度的特征码的相同比例超过预设的第二相似度阈值时，则该待测视频中的连续视频片段与对比视频中对应长度的连续视频片段相似。

5.根据权利要求3所述的查找相似视频片段的方法，其特征在于，两张图片x和y的结构相似性SSIM(x,y)计算按照如下公式求出：

其中，μ_x是x的平均值，μ_y是y的平均值，

是x的方差，

6.根据权利要求1所述的查找相似视频片段的方法，其特征在于，S1中，通过预先建立的素材库中的图片及名称对所述卷积神经网络系统进行训练，通过识别图片中面积最大的物体来确定图片中的物体和名称，以识别图片中的物体。

7.根据权利要求1所述的查找相似视频片段的方法，其特征在于，S5中，通过逐帧滑动的方式，对所述第一特征码和第二特征码进行对比。

8.根据权利要求1所述的查找相似视频片段的方法，其特征在于，所述待测视频和对比视频的时间长度不同。

9.一种查找相似视频片段的系统，用于在对比视频中查找与待测视频中相似的视频片段，其特征在于，包括：

10.根据权利要求9所述的查找相似视频片段的系统，其特征在于，还包括：

11.根据权利要求10所述的查找相似视频片段的系统，其特征在于，所述第二对比单元，用于将所述第一灰度缩略图数据分别与多个灰度缩略图数据进行结构相似性计算，以得到多个关于两张图片的结构相似度值；当任意一个相似度值超过预设的第一相似度阈值时，则认为该相似的连续视频片段属于重复片段。

12.根据权利要求9所述的查找相似视频片段的系统，其特征在于，当第一特征码中任意连续长度的特征码，与第二特征码中对应长度的特征码的相同比例超过预设的第二相似度阈值时，则该待测视频中的连续视频片段与对比视频中对应长度的连续视频片段相似。

13.一种服务器，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的查找相似视频片段的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的查找相似视频片段的方法。