CN111182364A

CN111182364A - 一种短视频版权检测方法及系统

Info

Publication number: CN111182364A
Application number: CN201911380117.6A
Authority: CN
Inventors: 范俊; 顾湘余; 刘昱龙; 李文杰; 黄睿智
Original assignee: Hangzhou Quwei Science & Technology Co ltd
Current assignee: Hangzhou Quwei Science & Technology Co ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-19
Anticipated expiration: 2039-12-27
Also published as: CN111182364B

Abstract

本发明公开了一种短视频版权检测方法及系统，检测方法包括：S1、获取具有版权的短视频，生成所述具有版权的短视频所对应的图片帧向量；S2、将所述具有版权的短视频所对应的图片帧向量存储在Faiss中；S3、为待检测短视频生成对应的图片帧向量，利用待检测短视频所对应的图片帧向量对Faiss进行索引；S4、返回与所述待检测短视频所对应的图片帧向量距离小于第一阈值的图片帧向量所对应的候选短视频；S5、计算待检测短视频与各候选短视频连续相似图片帧的数量；S6、基于所述相似图片帧的数量判断待检测短视频是否侵犯对应候选短视频的版权。本发明能够全面获取短视频的时间维度特征和空间维度特征、全局特征和局部特征。

Description

一种短视频版权检测方法及系统

技术领域

本发明涉及短视频处理技术领域，具体涉及一种短视频版权检测方法及系统。

背景技术

短视频正逐步取代文本、图片、音乐，称为当下媒体传播的主流方式。短视频具有产出速度快，影响范围广，参与人数多的特点。为了保护原创用户权益，避免版权争端，短视频版权检测成为每个短视频平台必备能力。视频领域的版权检测通常有两种方式：视频水印和短视频内容，视频领域的版权检测的难点包括：视频格式转换、视频剪切、视频片段拼接、视频大小裁剪、添加特效、添加水印等。

现有的基于内容的版权检测(Content-Based Copyright Detection，CBCD)大多直接对视频进行特征编码，得到一个单一的特征表示。然后利用这个特征表示进行匹配。主要包括：

3D卷积网络(C3D network)：卷积神经网络近年来被广泛的应用于机器视觉中，2D卷积可以对图片做特征提取，但是不能很好的捕获时序上的信息，因此直接视频特征提取并不能取得很好的效果，因此3D卷积网络被提出以解决该问题。3D卷积可以从空间和时间维度对视频进行特征提取和表征，因此可以捕获视频中的运动信息。

颜色直方图：颜色直方图是在许多图片检索系统中被广泛采用的颜色特征，作用是对图片做特征提取。它描述的是不同色彩在整幅图片中所占的比例。颜色直方图特别适用于描述哪些难以进行自动分割的图片，优点是计算简单。

然而，现有的基于内容的版权检测存在如下问题：

3D卷积可以提取视频的空间和时间维度特征，但是他把视频编码为一个单一向量，避免不了会有信息损失，尤其局部特征损失。这对于画面相对静态的视频来说，信息的损失对版权鉴定来说是很致命的。例如脱口秀类短视频，不同短视频之间画面几乎一样，只有主持人的表情和肢体会有微小的变化，3D卷积网络无法捕获这类差异。

颜色直方图描述不同色彩在整幅图片中所占的比例，无法刻画每种色彩所处的空间位置关系，更别说时序信息了。因此颜色直方图无法提取图象中的物体，对象等局部性信息，而这些信息在做版权鉴定时都是非常重要的。例如不同的足球短视频背景主体都是绿色的球场草地，颜色直方图无法准确区分。

因此，如何克服现有基于内容的版权检测的缺点，针对短视频的特征，实现更准确的基于内容的版权检测是本领域亟待解决的问题。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种短视频版权检测方法及系统。对短视频进行截帧，利用Inception网络进行特征提取，能够全面获取短视频的时间维度特征和空间维度特征、全局特征和局部特征。基于已有的Inception网络进行特征提取、Faiss中自带的向量函数进行运算，实现短视频及图片帧的快速召回，系统开销小。

为了实现以上目的，本发明采用以下技术方案：

一种短视频版权检测方法，包括：

S1、获取具有版权的短视频，生成所述具有版权的短视频所对应的图片帧向量；

S2、将所述具有版权的短视频所对应的图片帧向量存储在Faiss中；

S3、为待检测短视频生成对应的图片帧向量，利用待检测短视频所对应的图片帧向量对Faiss进行索引；

S4、返回与所述待检测短视频所对应的图片帧向量距离小于第一阈值的图片帧向量所对应的候选短视频；

S5、计算待检测短视频与各候选短视频连续相似图片帧的数量；

S6、判断所述相似图片帧的数量是否大于第二阈值，若是，则待检测短视频疑似侵犯了对应候选短视频的版权，否则则不侵犯对应候选短视频的版权。

进一步地，生成短视频对应的图片帧向量具体为：

S11、对短视频进行截帧处理，将短视频分解成多个图片帧；

S12、基于Inception网络对所述图片帧进行特征提取，并对得到的特征向量进行降维，生成多个图片帧向量。

进一步地，所述步骤S5具体为：

S51、构建待检测短视频与候选短视频的相似矩阵，矩阵的横坐标表示候选短视频对应的图片帧，矩阵的纵坐标表示待检测短视频对应的图片帧，当两个图片帧相似时，其横纵坐标对应的相似矩阵元素为1，否则为0；

S52、对所述相似矩阵进行图像灰度与二值化处理；

S53、采用霍夫变换检测所述相似矩阵中45°角上连续元素1组成的线段；

S54、基于矩阵间相邻元素的距离计算所述线段的长度；

S55、计算多个线段的长度和，作为待检测短视频与候选短视频连续相似图片帧的数量。

进一步地，所述对短视频进行截帧处理具体为：

截取短视频的第一帧图片，然后按照1秒钟的时间间隔抽取图片帧。

进一步地，为每个图片帧向量分配一个向量ID，格式为：短视频ID_帧时间戳。

本发明还提出一种短视频版权检测系统，包括：

第一处理模块，用于获取具有版权的短视频，生成所述具有版权的短视频所对应的图片帧向量；

存储模块，用于将所述具有版权的短视频所对应的图片帧向量存储在Faiss中；

第二处理模块，用于为待检测短视频生成对应的图片帧向量，利用待检测短视频所对应的图片帧向量对Faiss进行索引；

召回模块，用于返回与所述待检测短视频所对应的图片帧向量距离小于第一阈值的图片帧向量所对应的候选短视频；

计算模块，用于计算待检测短视频与各候选短视频连续相似图片帧的数量；

判断模块，用于判断所述相似图片帧的数量是否大于第二阈值，若是，则待检测短视频疑似侵犯了对应候选短视频的版权，否则则不侵犯对应候选短视频的版权。

进一步地，所述处理模块包括：

截帧模块，用于对短视频进行截帧处理，将短视频分解成多个图片帧；

特征提取模块，用于基于Inception网络对所述图片帧进行特征提取，并对得到的特征向量进行降维，生成多个图片帧向量。

进一步地，所述计算模块包括：

构建模块，用于构建待检测短视频与候选短视频的相似矩阵，矩阵的横坐标表示候选短视频对应的图片帧，矩阵的纵坐标表示待检测短视频对应的图片帧，当两个图片帧相似时，其横纵坐标对应的相似矩阵元素为1，否则为0；

预处理模块，用于对所述相似矩阵进行图像灰度与二值化处理；

线段检测模块，用于采用霍夫变换检测所述相似矩阵中45°角上连续元素1组成的线段；

第一长度计算模块，用于基于矩阵间相邻元素的距离计算所述线段的长度；

第二长度计算模块，用于计算多个线段的长度和，作为待检测短视频与候选短视频连续相似图片帧的数量。

进一步地，所述对短视频进行截帧处理具体为：

与现有技术相比，本发明具有如下优点：

(1)本发明对短视频进行截帧，利用Inception网络进行图片帧进行特征提取，能够全面获取短视频的时间维度特征和空间维度特征、全局特征和局部特征，提高了短视频版权检测的准确率；

(2)本发明将对待检测短视频与各候选短视频连续相似图片帧的数量的计算转换成采用霍夫变换求解线段长度，将相似矩阵作为灰度图进行处理，降低了对矩阵各元素进行处理的数据处理量，处理效率高；

(3)本发明利用图片帧的特征来表征短视频，通过截帧处理，能够大大降低数据的处理量，降低了数据的冗余，同时提高了短视频特征的有效性；

(4)本发明直接下载训练生成的Inception网络，不需要额外增加系统开销，提高了短视频特征提取的效率；

(5)本发明将图片帧向量存储在Faiss中，基于Faiss中自带的向量函数进行运算，实现短视频及图片帧的快速召回。

附图说明

图1是实施例一提供的一种短视频版权检测方法流程图；

图2是为短视频生成图片帧向量示意图；

图3是相同短视频的相似矩阵示例图；

图4是剪辑短视频与剪辑源短视频的相似矩阵示例图；

图5是实施例二提供的一种短视频版权检测系统结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

实施例一

如图1所示，本实施例提出了一种短视频版权检测方法，包括：

本发明将待检测的短视频与具有版权的短视频进行比较，以对待检测短视频进行版权检测。因此，本发明首先构建样本数据。为了实现短视频的版权检测，本发明为短视频生成相应的向量，以基于向量进行短视频的版权检测。现有的短视频向量构建过程中，通常需要对短视频进行分词、计算关键词权重等，对于文本信息少的短视频，难以根据文本信息构建短视频向量，且分词等的处理效率低。由于短视频由多帧图片组成，因此，本发明将为短视频生成向量的问题转换成为多个生成图片向量的问题。具体为：

S11、对短视频进行截帧处理，将短视频分解成多个图片帧；

首先，对短视频进行截帧处理，将短视频分解成多个图片。同时截帧频率过快时，相邻帧之间特征变化不大，由此生成的多个图片向量没有意义，且会带来不必要的计算开销。因此，可以每一秒截一帧，防止相邻帧之间特征变化不大的问题，使每帧图片对短视频的构建都具有其独特性

具体地，通常意义上的30fps、60fps短视频代表着该短视频1秒钟由30或60张图片构成，而如果一个10秒钟的短视频就对应300或者600张图片。如果对短视频中所有图片帧进行处理无疑会影响系统的性能，而且连续图片帧变化甚微，导致系统的冗余计算。因此，本发明按照一定时间间隔对短视频进行截帧处理，将短视频分解成多个图片帧，仅提取特定位置的图片帧进行处理。例如，本发明首先截取短视频的第一帧图片，然后按照1秒钟的间隔抽取图片帧，意味着一段n秒钟的短视频仅处理n+1张图片帧。

本发明将为短视频生成向量的问题转换成为多个生成图片帧向量的问题。因此，本发明对每个截帧生成的图片帧进行特征提取。现有技术中，通常采用卷积神经网络(Convolutional Neural Networks,CNN)进行图片特征向量的提取。获得高质量卷积神经网络最保险的做法就是增加网络的深度(层数)或者是其宽度(层核或者神经元数)，但是这里一般情况下会出现如下的缺陷：(1)参数太多，若训练数据集有限，容易过拟合；(2)网络越大计算复杂度越大，难以应用；(3)网络越深，梯度越往后穿越容易消失，难以优化模型。基于此，Google开发了Inception网络。目前Inception网络共有4个版本，本发明选用V3进行图片特征向量的提取。

Inception网络是由Google开发的一个非常深的卷积网络，它是在ImageNet上预先训练好的。这个模型的默认输入尺寸是299×299，有三个通道。将7x7分解成两个一维的卷积(1x7,7x1)，3x3也是一样(1x3,3x1)。这样的好处，既可以加速计算(多余的计算能力可以用来加深网络)，又可以将1个conv拆成2个conv，使得网络深度进一步增加，增加了网络的非线性，可以处理更多更丰富的空间特征，增加特征多样性。

本发明可以利用已有Inception V3网络对图片进行特征提取。不需要额外构建特征提取模型，处理效率高。inception v3模型是利用自有图片数据集进行表征学习得到的。表征学习是指一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。具体地，可以直接从网上下载训练好的Inception V3网络，对短视频进行截帧处理后，将对每一帧图片输入到下载的Inception V3网络，为每帧图片生成特征向量。

如图2所示，短视频帧数据经过Inception V3网络提取特征后得到一个D维(如4096维)的向量，一个短视频的特征最终由N个图片帧向量组成，其中N为短视频提取的帧数。图片帧向量的各维度数据仍可能是线性相关的，可能也含有噪声，因此，本发明利用主成分分析(Principle Components Analysis，PCA)对图片帧向量进行进一步降维，通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，得到降维后的数据，如4096维向量降维生成2048维向量。为了进一步降低数据处理的维数，本发明采样降采样对向量进行进一步降维，如降2048维向量进一步降维成256维单位向量，由此多个图片帧向量生成。

为了区分短视频的各图片帧向量，本发明为每个图片帧向量分配一个向量ID，格式为：短视频ID_帧时间戳。

短视频版权的检测实际是进行向量的运算，以召回相似的图片帧及对应的短视频。然而，在图片帧及对应的短视频召回过程中，可能需要召回大量的候选集，因此，对于单个短视频的版权检测，都可能需要进行大量的处理。如此大的向量计算量对于常规的索引不能承受。因此，本发明将具有版权的短视频所对应的图片帧向量存储在Faiss中，基于Faiss中自带的向量函数进行运算，实现图片帧及对应的短视频的快速召回。

Faiss为Facebook开源的为稠密向量提供高效相似度搜索和聚类库，是一个用于相似性搜索和密集向量聚类的高性能库，支持十亿级别向量的搜索，是目前最为成熟的近似近邻搜索库。它包含多种搜索任意大小向量集的算法。因此，本发明将具有版权的短视频所对应的图片帧向量存储在Faiss中，利用Faiss自带的向量运算实现对图片帧及对应的短视频的快速召回，推荐效率高。

具体地，本发明将短视频每一帧的图片帧向量加入到向量索引中，假设短视频v_i长度为l秒，首先利用步骤S1对他进行特征处理，得到图片帧向量集合v_i0，v_i1，...，v_il，对应的向量ID分别为v_i_t₀，v_i_t₁，...，v_i_t_l，其中t_i代表当前帧在短视频中的时间戳，单位毫秒，这种向量ID的格式可以保证每个向量在索引中的唯一性。

如上所述，本发明将待检测的短视频与具有版权的短视频进行比较，以对待检测短视频进行版权检测。因此，当用户需要进行短视频检测时，为待检测短视频生成对应的图片帧向量。短视频图片帧向量的生成与具有版权的短视频一致，即如步骤S11-S12所述，在此不再赘述。

具体地，对于一个长度为k的待检测版权的短视频v_j，利用步骤S11-S12所述方法对其进行特征提取得到k+1个图片帧向量v_j_t₀，v_j_t₁，...，v_j_t_k，其中t_i代表当前帧在短视频中的时间戳，单位毫秒。在版权检测过程中，把每个图片帧向量v_j_t_i作为查询向量，送入Faiss中对Faiss进行索引。

本发明进行版权检测，为待检测的短视频返回相似的具有版权的短视频。由于短视频对应多个图片帧向量，因此，本发明把每个图片帧向量v_j_t_i作为查询向量进行查询时，Faiss都会返回相似的图片帧向量。因此，本发明计算待检测短视频各图片帧向量与Faiss中存储的图片帧向量的距离，距离越小，说明与待检测短视频的图片帧越相似，否则，越不相似。本发明不对向量之间的距离计算进行限定，可以为欧几里得距离、皮尔逊相关度等。获取到距离小于第一阈值(例如0.8)的图片帧向量后，将该向量对应的短视频及图片帧返回，得到候选短视频。

本发明将短视频截帧成多个图片帧，两个短视频连续相似图片帧的数量越多，这两个短视频越相似。如果某个候选短视频v_m与待检测短视频v_j有重叠片段，那么待检测短视频v_j的多个帧检索的时候，都可以把v_m的多个帧都检索出来。因此，本发明用一个相似矩阵来描述两个图片帧之间的相似性，相似为1，不相似为0。矩阵的横坐标表示候选短视频对应的图片帧，矩阵的纵坐标表示待检测短视频对应的图片帧。

如果v_m和v_j是完全相同的两个短视频，那么它们对应的每一帧<v_m_t，v_j_t>都是最相似的，记为1。如图3所示，当两个短视频完全相同时，次对角线元素都是1。如果短视频v_j是从v_m前面剪辑出来，那么它们的相似矩阵如图所4所示。因此，本发明将计算待检测短视频与各候选短视频相似图片帧的数量的问题转换为求相似矩阵中45°角线段的长度问题，具体是45°角上连续元素1构成的线段长度。

本发明采用采用霍夫变换求解线段长度。霍夫变换是图像处理中从图像中识别几何形状的基本方法之一，经典霍夫变换可以用来检测图像中的线段。具体地，本发明把上述相似矩阵理解成一个灰度图，即对相似矩阵进行图像灰度与二值化处理。然后利用霍夫变换把寻找平行于次对角线的连续1元素，转化了求灰度图中45°直线长度问题。在检测出矩阵中45°角上连续元素1组成的线段后，根据矩阵间相邻元素的距离计算线段的长度。矩阵中45°角上连续元素1组成的线段可能有多个，计算多个线段长度和作为待检测短视频与候选短视频连续相似图片帧的数量。

如果短视频v_j与v_m的相似矩阵中元素1构成的直线的长度超过第二阈值s_l,那就说明短视频v_j与v_m重叠的世界足够长，我们就认为短视频v_j疑似侵犯了v_m短视频的版权。

实施例2

如图5所示，本实施例提出了一种短视频版权检测系统，包括：

本发明将待检测的短视频与具有版权的短视频进行比较，以对待检测短视频进行版权检测。因此，本发明首先构建样本数据。为了实现短视频的版权检测，本发明为短视频生成相应的向量，以基于向量进行短视频的版权检测。现有的短视频向量构建过程中，通常需要对短视频进行分词、计算关键词权重等，对于文本信息少的短视频，难以根据文本信息构建短视频向量，且分词等的处理效率低。由于短视频由多帧图片组成，因此，本发明将为短视频生成向量的问题转换成为多个生成图片向量的问题，具体包括：

本发明将短视频截帧成多个图片帧，两个短视频连续相似图片帧的数量越多，这两个短视频越相似。如果某个候选短视频v_m与待检测短视频v_j有重叠片段，那么待检测短视频v_j的多个帧检索的时候，都可以把v_m的多个帧都检索出来。因此，本发明用一个相似矩阵来描述两个图片帧之间的相似性，相似为1，不相似为0。矩阵的横坐标表示候选短视频对应的图片帧，矩阵的纵坐标表示待检测短视频对应的图片帧，横坐标从左往右帧数逐渐增大，纵坐标从下往上帧数逐渐增大。

本发明采用霍夫变换求解线段长度。霍夫变换是图像处理中从图像中识别几何形状的基本方法之一，经典霍夫变换可以用来检测图像中的线段。具体地，本发明把上述相似矩阵理解成一个灰度图，即对相似矩阵进行图像灰度与二值化处理。然后利用霍夫变换把寻找平行于次对角线的连续1元素，转化了求灰度图中45°直线长度问题。在检测出矩阵中45°角上连续元素1组成的线段后，根据矩阵间相邻元素的距离计算线段的长度。矩阵中45°角上连续元素1组成的线段可能有多个，计算多个线段长度和作为待检测短视频与候选短视频连续相似图片帧的数量。

由此可知，本发明提出的短视频版权检测方法及系统，对短视频进行截帧，利用Inception网络进行图片帧进行特征提取，能够全面获取短视频的时间维度特征和空间维度特征、全局特征和局部特征；将对待检测短视频与各候选短视频连续相似图片帧的数量的计算转换成采用霍夫变换求解线段长度，将相似矩阵作为灰度图进行处理，降低了对矩阵元素进行处理的数据处理量，处理效率更高效；利用图片帧的特征来表征短视频，通过截帧处理，能够大大降低数据的处理量，降低了数据的冗余，同时提高了短视频特征的有效性；直接下载训练生成的Inception网络，不需要额外增加系统开销，提高了短视频特征提取的效率；将图片帧向量存储在Faiss中，基于Faiss中自带的向量函数进行运算，实现短视频及图片帧的快速召回。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种短视频版权检测方法，其特征在于，包括：

2.根据权利要求1所述的短视频版权检测方法，其特征在于，生成短视频对应的图片帧向量具体为：

S11、对短视频进行截帧处理，将短视频分解成多个图片帧；

3.根据权利要求1所述的短视频版权检测方法，其特征在于，所述步骤S5具体为：

S52、对所述相似矩阵进行图像灰度与二值化处理；

S54、基于矩阵间相邻元素的距离计算所述线段的长度；

4.根据权利要求2所述的短视频版权检测方法，其特征在于，所述对短视频进行截帧处理具体为：

5.根据权利要求4所述的短视频版权检测方法，其特征在于，为每个图片帧向量分配一个向量ID，格式为：短视频ID_帧时间戳。

6.一种短视频版权检测系统，其特征在于，包括：

7.根据权利要求6所述的短视频版权检测系统，其特征在于，所述处理模块包括：

8.根据权利要求6所述的短视频版权检测系统，其特征在于，所述计算模块包括：

9.根据权利要求7所述的短视频版权检测系统，其特征在于，所述对短视频进行截帧处理具体为：

10.根据权利要求9所述的短视频版权检测系统，其特征在于，

为每个图片帧向量分配一个向量ID，格式为：短视频ID_帧时间戳。