CN112035701A

CN112035701A - 一种互联网短视频溯源的方法及系统

Info

Publication number: CN112035701A
Application number: CN202010802791.5A
Authority: CN
Inventors: 穆宁; 陈眺; 曲宝珠; 王康; 林岩
Original assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Current assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-12-04

Abstract

本发明公开了一种互联网短视频溯源的方法及系统。所述方法包括如下步骤：获取视频数据，并对所述视频数据进行预处理，所述预处理包括随机裁剪、像素值归一化，以输出16个相同间隔，像素值范围在[0，1]，帧尺寸为112×112的视频帧；将所述视频帧输入特征提取器，经过所述特征提取器237层操作，最终输出2048维特征，其中，所述特征提取器为3D‑FEATURE‑NET结构。其是基于深度学习技术提取视频特征的技术和系统，并针对相似视频提取的特征进行专项优化，匹配的召回率高，速度快，准确率高。

Description

一种互联网短视频溯源的方法及系统

技术领域

本发明涉及互联网短视频技术领域，尤其涉及一种互联网短视频溯源的方法及系统。

背景技术

现实生活中，通过将某个视频与已有的视频进行对比，验证两个视频是否为同一个或者含有相同片段的视频。现有的相似视频匹配技术包括：

(1)比较视频的MD5码；(2)提取相同间隔的视频帧特征进行撞库比较，选取相似帧数量最多的视频作为相似视频；(3)每秒抽取固定数量的帧，并提取每帧的特征，计算所有帧的特征平均值并计算相似性。

由于目标短视频在传播的过程中经过了不同程度的变化，如裁剪、分辨率发生变化、增加logo，因此视频相应的MD5码也发生了改变，因此通过MD5 码检索目标视频会导致召回率较低的结果；而通过提取相同间隔的视频帧进行撞库，会导致视频数据库的体量过大，检索时间过长；同时，提取帧的特征平均值作为视频的表示，这种方法丢失了视频的时序性信息，准确性较差。

因此，有必要提供一种新的互联网短视频溯源的方法及系统以解决上述技术问题。

发明内容

本发明的主要目的在于提供一种互联网短视频溯源的方法，旨在解决相关技术中，目标视频会导致召回率较低、检索时间过长以及准确性较差的技术问题。

为实现上述目的，本发明提供的互联网短视频溯源的方法包括如下步骤：

获取视频数据，并对所述视频数据进行预处理，所述预处理包括随机裁剪、像素值归一化，以输出16个相同间隔，像素值范围在[0，1]，帧尺寸为112 ×112的视频帧；

将所述视频帧输入特征提取器，经过所述特征提取器237层操作，最终输出2048维特征，其中，所述特征提取器为3D-FEATURE-NET结构。

优选地，237层操作中，其中的核心操作有100层3D卷积操作，卷积核的大小主要为3×3×3和1×1×1；每个3D卷积操作之后跟随着一个BN操作，以使得所述视频帧的分布范围更加集中。

优选地，所述特征提取器还包含两个池化层和尾部的一个全连接层，以实现最终输出2048维的特征。

为解决上述技术问题，本发明还提供一种互联网短视频溯源的系统，包括：

特征提取器，所述特征提取器为3D-FEATURE-NET结构；所述特征提取器包括预处理模块和特征提取模块；所述预处理模块用于，提取短视频16个视频帧：计算短视频的总帧数，提取的16个视频帧之间具有相同的帧间隔；

随机裁剪：3D-FEATURE-NET的核心网络对输入的数据维度有固定的要求，随机裁剪的固定点包含视频帧的四个角和中心点，并根据维度要求确定裁剪尺寸；

像素值归一化：将视频帧的像素值范围归一化至[0,1]之间，以减少数据分布比较分散的情况；

所述特征提取模块，以3D卷积作为核心层；经过预处理后的短视频帧四维数据输入至3D-FEATURE-NET的核心网络中，并输出视频的特征指纹；

3D-FEATURE-NET的主要核心层为3D卷积网络，将时间维度作为第三维，对连续的视频帧进行卷积操作，卷积层中每一个特征map都会与上一层中多个邻近的连续帧相连。

优选地，3D-FEATURE-NET的核心网络结构包含四个模块：3D卷积模块、3D批归一化模块、3D池化模块、激活函数模块，将上述模块进行组合得到特定的网络结构。

优选地，所述系统还包括检索模块，所述检索模块包括离线任务模块，所述离线任务模块用于生成相关视频数据的特征指纹，以作为目标特征库。

优选地，所述检索模块还包括在线任务模块，所述在线任务模块用于实时处理检索请求，并将相似结果返回给调用方。

本发明提供的一种互联网短视频溯源的方法：获取视频数据，并对所述视频数据进行预处理，所述预处理包括随机裁剪、像素值归一化，以输出16 个相同间隔，像素值范围在[0，1]，帧尺寸为112×112的视频帧；将所述视频帧输入特征提取器，经过所述特征提取器237层操作，最终输出2048维特征，其中，所述特征提取器为3D-FEATURE-NET结构。

基于深度学习技术提取视频特征的技术和系统，并针对相似视频提取的特征进行专项优化，匹配的召回率高，速度快，准确率高。

(1)是一种基于深度学习技术提取视频特征的技术和系统，其中的 3D-FEATURE-NET基于大量短视频样本进行分析，并针对相似视频提取的特征进行专项优化。测试表明，3D-FEATURE-NET对于短视频的特征提取效果良好，匹配的召回率高，速度快，准确率高。

(2)3D-FEATURE-NET将3D卷积层作为主要核心层，3D卷积层可以有效的获取视频中的时序信息。在3D卷积操作中，时间维度作为数据的第三维，因此可以对输入的视频帧进行时间维度的卷积操作。

(3)3D-FEATURE-NET具有较深的网络层次，共计237个网络层，其中包含核心的3D卷积操作有100层，深层次的网络有效提升了模型的表达能力，提取出更多抽象的特征，从而保证视频的输出特征更具代表性和唯一性。

(4)3D-FEATURE-NET在训练阶段加入三元损失函数，同时根据视频在互联网传播的过程中所发生的改变来制作相应的变种视频，三元损失函数可以拉近正样本对之间的距离，推开负样本对之间的距离，即使当视频在网络传播的过程中发生变化时，也能够和原始视频进行高度匹配，因此可以达到很好的溯源效果

(5)检索过程包括离线任务和在线任务，离线任务经过在线任务的不断调用后可以获取最新数据，并定期训练更新模型，因此3D-FEATURE-NET可以不断进行更新和优化。

该系统是基于最新深度学习技术所诞生的产物，而目前市场上没有类似视频溯源的产品。3D-FEATURE-NET相较于目前的主流提取视频特征方法，可以提取出更多的抽象信息和时序信息。

3D-FEATURE-NET的训练机制和预处理方式可以使相似视频的输出特征更加接近，即使发生变化的视频也可以和原始视频进行匹配，从而使得检索的过程中准确率更高。

3D-FEATURE-NET提取了视频的唯一整体特征，与逐帧提特征的方法相比，检索速度更快。

FH-VIDEO-RETRIEVAL系统可以进行不断的更新和优化，从而适应不断变化的视频内容。

附图说明

图1为本发明提供的互联网短视频溯源的系统的架构图；

图2为本发明提供的互联网短视频溯源的系统中卷积操作示意图；

图3为本发明提供的互联网短视频溯源的系统中在视频序列上应用3D卷积获取多个视频帧上的信息的示意图；

图4为本发明提供的互联网短视频溯源的系统中3D-FEATURE-NET的网络结构；

图5为本发明提供的互联网短视频溯源的系统中网络优化图；

图6为本发明提供的互联网短视频溯源的系统中离线任务模块的流程图；

图7为本发明提供的互联网短视频溯源的系统中在线任务模块的流程图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为实现上述目的，本发明的一实施例中，提出一种互联网短视频溯源的方法，其特征在于，包括如下步骤：

237层操作中，其中的核心操作有100层3D卷积操作，卷积核的大小主要为3×3×3和1×1×1；每个3D卷积操作之后跟随着一个BN操作，以使得所述视频帧的分布范围更加集中。

所述特征提取器还包含两个池化层和尾部的一个全连接层，以实现最终输出2048维的特征。

本发明还提供一种互联网短视频溯源的系统。

请参阅图1,互联网短视频溯源的系统，包括：

请参阅图2，3D-FEATURE-NET的主要核心层为3D卷积网络，将时间维度作为第三维，对连续的视频帧进行卷积操作，卷积层中每一个特征map 都会与上一层中多个邻近的连续帧相连。

请参阅图3，由于3D卷积在2D卷积的过程中增加了时间维度的信息并进行时间维度上的卷积，因此3D卷积网络可以很好的捕获视频的时序信息。

请参阅图4，3D-FEATURE-NET的核心网络结构包含四个模块：3D卷积模块、3D批归一化模块、3D池化模块、激活函数模块，将上述模块进行组合得到特定的网络结构。

3D-FEATURE-NET的核心网络结构具有比较大的网络深度，共计237层。网络的输入维度为112×112×3×16(裁剪后的视频帧的长宽为112，通道数3，每次输入16帧)，核心网络中的3D卷积的滤波器大小主要包括两种：1×1×1 和3×3×3，步长主要为1×1×1，核心网络中的3D卷积层共计100层，下表中以3D卷积层为统计对象，呈现网络中的参数和维度变化。

kernel_size表示卷积核尺寸，num表示卷积核数量，stride表示步长，每个卷积层后都跟随一个BN层。

3D-FEATURE-NET采用的损失函数

3D-FEATURE-NET在网络训练阶段采用三元损失(TripletLoss)和交叉熵损失(CrossEntropyLoss)作为网络的损失函数，二者之和成为本次前向传播的损失值。在反向传播时，3D-FEATURE-NET根据损失值自动调节网络参数，使网络效果达到最优。

3D-FEATURE-NET的损失函数定义如下：

L_total＝L_triplet+L_crossentropy，

其中：

L_triplet(v_i,v_i ⁺,v_i ^-)＝max{0,D(f_θ(v_i),f_θ(v_i ⁺))-D(f_θ(v_i),f_θ(v_i ^-))+γ}

上述公式中，f_θ()表示视频网络的输出特征，v_i表示一个视频，v_i ⁺表示与视频v_i相似的正样本视频，v_i ^-表示与视频v_i不相似的负样本视频，D()表示两个输出特征之间的欧式距离。三元损失函数可以拉近正样本对之间的距离，推开负样本对之间的距离，从而在网络训练的过程中不断的缩小相似视频的特征距离。

3D-FEATURE-NET在训练集上的设置

为了将三元损失应用到训练当中，制作了相应的三元组视频，并根据视频v_i制作对应的正样本视频v_i ⁺，主要视频的变换方式有：时间切割、旋转、视频尺寸裁切、添加logo、改变帧率、改变比特率、视频尺寸缩放、增加动态图，在制作方式上尽量模拟视频在互联网中传播所发生的改变方式。

请参阅图5，同时在负样本选择上，首先对训练集中的视频使用3D-resnet 的预训练模型提取视频特征，并从中选择来自不同类别的负样本视频，使得D (f_θ(v_i),f_θ(v_i ⁺))>D(f_θ(v_i),f_θ(v_i ^-))，而经过网络的不断训练最终使得D (f_θ(v_i),f_θ(v_i ⁺))<D(f_θ(v_i),f_θ(v_i ^-))，网络因此得到优化。

通过模型的不断优化，输出的原始视频和相应的变种视频具有极其相似的特征，即使当视频在网络传播的过程中发生变化时，也能够和原始视频进行高度匹配，因此可以达到溯源的目的。

请参阅图6，所述系统还包括检索模块，所述检索模块包括离线任务模块，所述离线任务模块用于生成相关视频数据的特征指纹，以作为目标特征库。

短视频数据随着时间也在不断增加，并且内容也在不断丰富，因此需要使用最新数据定期训练并更新模型。在得到新的网络模型之后，需要批量处理历史视频生成新的特征指纹码，并更新到目标特征库中。

请参阅图7，所述检索模块还包括在线任务模块，所述在线任务模块用于实时处理检索请求，并将相似结果返回给调用方。

当一个检索请求过来，查询模块会先去目标特征库中查询当前请求的视频特征指纹是否存在，

如果存在，则使用当前特征指纹，与目标特征库的特征指纹计算距离，返回相似度大于0.85的相似结果；

如果不存在，那么服务会调用预测模型，提取该视频的特征指纹，使用该特征指纹到目标库里检索，同时将预测得到的特征指纹加入目标特征库。

进一步的，整个3D-FEATURE-NET也可以参考VGGNet、AlexNet、 GoogleNet或者ResNext的网络结构进行替换，具体提取速度会根据替代网络的复杂度有所变化。

3D-FEATURE-NET输出的特征维度是2048维，可以尝试降低输出维度并进行哈希编码达到2048维的匹配效果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个计算机可读存储介质(如 ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备进入本发明各个实施例所述的方法。

在本说明书的描述中，参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例～第X实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料、方法步骤或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种互联网短视频溯源的方法，其特征在于，包括如下步骤：

获取视频数据，并对所述视频数据进行预处理，所述预处理包括随机裁剪、像素值归一化，以输出16个相同间隔，像素值范围在[0，1]，帧尺寸为112×112的视频帧；

2.如权利要求1所述的互联网短视频溯源的方法，其特征在于，237层操作中，其中的核心操作有100层3D卷积操作，卷积核的大小主要为3×3×3和1×1×1；每个3D卷积操作之后跟随着一个BN操作，以使得所述视频帧的分布范围更加集中。

3.如权利要求1所述的互联网短视频溯源的方法，其特征在于，所述特征提取器还包含两个池化层和尾部的一个全连接层，以实现最终输出2048维的特征。

4.一种互联网短视频溯源的系统，其特征在于，包括：

5.如权利要求4所述的互联网短视频溯源的系统，其特征在于，3D-FEATURE-NET的核心网络结构包含四个模块：3D卷积模块、3D批归一化模块、3D池化模块、激活函数模块，将上述模块进行组合得到特定的网络结构。

6.如权利要求4所述的互联网短视频溯源的系统，其特征在于，所述系统还包括检索模块，所述检索模块包括离线任务模块，所述离线任务模块用于生成相关视频数据的特征指纹，以作为目标特征库。

7.如权利要求6所述的互联网短视频溯源的系统，其特征在于，所述检索模块还包括在线任务模块，所述在线任务模块用于实时处理检索请求，并将相似结果返回给调用方。