CN110826475B

CN110826475B - 一种检测近重复视频的方法、装置及计算设备

Info

Publication number: CN110826475B
Application number: CN201911061789.0A
Authority: CN
Inventors: 陈松; 王磊; 易勋; 张丽娜; 李洋; 杨雪荣; 解云华
Original assignee: Beijing Cheerbright Technologies Co Ltd
Current assignee: Beijing Cheerbright Technologies Co Ltd
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2022-10-04
Anticipated expiration: 2039-11-01
Also published as: CN110826475A

Abstract

本发明实施例公开了一种特征获取装置，包括：图像提取单元，适于提取视频的图像；光流提取单元，适于提取视频的光流；音频提取单元，适于提取视频的音频；图像处理单元，适于基于得到图像的图像特征；还适于得到光流的光流特征；音频处理单元，适于得到音频的音频特征；特征处理单元，适于基于图像特征得到第一状态向量；还适于基于光流特征得到第二状态向量；还适于基于音频特征得到第三状态向量；向量融合单元，适于基于第一状态向量、第二状态向量和第三状态向量，融合得到第四状态向量；以及输出单元，适于基于第四状态向量得到视频的特征向量。本发明实施例还公开了相应的模型训练方法、检测近重复视频的方法、装置、计算设备及存储介质。

Description

一种检测近重复视频的方法、装置及计算设备

技术领域

本发明涉及数据处理领域，尤其涉及一种检测近重复视频的方法、装置及计算设备。

背景技术

随着互联网的迅速发展，互联网上的与视频(特别是时长较短的短视频)相关的应用和服务爆发式增长。然而在这些海量的视频中存在着大量内容近重复的视频。为提高用户体验，避免向用户重复推荐相同的视频，近重复视频的检测问题十分重要。

目前，传统的近重复视频检测方法通常是使用诸如HOG、LBP之类的特征提取器来抽取视频中图像的特征，通过图像的特征来计算视频的差异，实现近重复视频的检测。这种方法的缺点一方面是检测准确率较差。特别是当视频量大幅度增加时，检测的准确率会快速下降。另一方面，泛化能力也较差，视频的很多特征(例如音频等)无法得到体现，且对视频的时域信息分析也不够充分。

因此，期望提供一种更为先进的近重复视频检测方案。

发明内容

为此，本发明实施例提供一种检测近重复视频的方法、装置及计算设备，以力图解决或至少缓解上面存在的问题。

根据本发明实施例的一个方面，提供了一种特征获取装置，适于获取视频的特征向量，该装置包括：图像提取单元，适于提取视频的图像；光流提取单元，适于提取视频的光流；音频提取单元，适于提取视频的音频；图像处理单元，适于基于视频的图像，利用卷积神经网络模型来得到图像的图像特征；还适于基于视频的光流，利用卷积神经网络模型来得到光流的光流特征；音频处理单元，适于基于视频的音频，得到音频的音频特征；特征处理单元，适于基于图像特征，利用循环神经网络模型来得到第一状态向量；还适于基于光流特征，利用循环神经网络模型来得到第二状态向量；还适于基于音频特征，利用循环神经网络模型来得到第三状态向量；向量融合单元，适于基于第一状态向量、第二状态向量和第三状态向量，融合得到第四状态向量；以及输出单元，适于基于第四状态向量，利用全连接网络模型来得到视频的特征向量。

可选地，在根据本发明实施例的装置中，卷积神经网络模型为VGG-16卷积神经网络模型。

可选地，在根据本发明实施例的装置中，音频处理单元适于采用快速傅立叶变换算法，得到音频的音频特征。

可选地，在根据本发明实施例的装置中，循环神经网络模型为长短期记忆网络模型。

可选地，在根据本发明实施例的装置中，长短期记忆网络模型采用注意力机制。

可选地，在根据本发明实施例的装置中，第一状态向量包括第一隐藏状态向量和第一单元状态向量，第二状态向量包括第二隐藏状态向量和第二单元状态向量，第三状态向量包括第三隐藏状态向量和第三单元状态向量，第四状态向量包括第四隐藏状态向量。

可选地，在根据本发明实施例的装置中，全连接网络模型包括三层全连接层。

可选地，在根据本发明实施例的装置中，图像提取单元适于按照预定时间间隔来提取图像。

可选地，在根据本发明实施例的装置中，光流提取单元适于基于所述图像提取单元提取的图像来计算光流。

根据本发明实施例的另一个方面，提供了一种模型训练方法，适于利用训练视频库中的视频构造多个三元组来对根据本发明实施例的特征获取装置进行训练，训练视频库包括多个视频，视频标注有视频对应的类别，属于相同类别的视频彼此为近重复的，方法包括步骤：从训练视频库中选择属于相同类别的第一视频和第二视频；基于第一视频所包含的图像，利用卷积神经网络模型来得到第一视频的全局特征；基于第二视频所包含的图像，利用卷积神经网络模型来得到第二视频的全局特征；根据第一视频和第二视频的全局特征，计算第一视频与第二视频之间的距离；基于第一视频与第二视频之间的距离，选择属于其他类别的第三视频；以及利用包括第一视频、第二视频和第三视频的三元组来训练特征获取装置。

可选地，在根据本发明实施例的方法中，利用包括第一视频、第二视频和所述第三视频的三元组来训练特征获取装置的步骤包括：对三元组包含的各个视频，将视频输入特征获取装置，得到视频的特征向量；基于第一视频、第二视频和第三视频的特征向量，计算三元组损失；基于三元组损失来更新特征获取装置的参数。

可选地，在根据本发明实施例的方法中，基于第一视频所包含的图像，利用卷积神经网络模型来得到第一视频的全局特征的步骤包括：基于第一视频的图像，利用卷积神经网络模型来得到图像的图像特征；基于图像的图像特征，求和得到第一视频的全局特征。

可选地，在根据本发明实施例的方法中，第三视频与第一视频或者第二视频之间的距离小于第一视频与第二视频之间的距离。

可选地，在根据本发明实施例的方法中，还包括步骤：基于属于其他类别的视频所包含的图像，利用卷积神经网络模型来得到属于其他类别的视频的全局特征；根据第一视频或者第二视频、以及属于其他类别的视频的全局特征，计算第一视频或者第二视频与属于其他类别的视频之间的距离。

可选地，在根据本发明实施例的方法中，卷积神经网络模型为VGG-16卷积神经网络模型。

根据本发明实施例的另一个方面，提供了一种检测近重复视频的方法，包括：利用根据本发明实施例的特征获取装置，获取待检测视频的特征向量；利用根据本发明实施例的特征获取装置，获取视频库内各视频的特征向量；基于待检测视频的特征向量与视频库内视频的特征向量，计算待检测视频与视频库内视频的距离；基于距离，确定视频库内与待检测视频近重复的视频。

可选地，在根据本发明实施例的方法中，基于距离，确定视频库内与待检测视频近重复的视频的步骤包括：判断距离是否小于预定距离阈值；如果小于，则确定视频与待检测视频是近重复的。

根据本发明实施例的另一个方面，提供了一种检测近重复视频的装置，包括：特征获取单元，适于利用根据本发明实施例的特征获取装置，获取待检测视频和视频库内各视频的特征向量；距离计算单元，适于基于待检测视频的特征向量和视频库内视频的特征向量，计算待检测视频与视频库内视频的距离；以及近重复判断单元，适于基于距离，确定视频库内与待检测视频近重复的视频。

根据本发明实施例的另一个方面，提供了一种计算设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，该一个或多个程序包括用于执行根据本发明实施例的上述方法的指令。

根据本发明实施例的还有一个方面，提供了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，该指令当被计算设备执行时，使得计算设备执行根据本发明实施例的上述方法。

根据本发明实施例的近重复视频的检测方案，改进了特征获取装置的基本网络结构，在原有LSTM的基础上使用了注意力机制，增强了网络的学习能力，可以有效提高检测近重复视频的近重复检测精度。同时，输入多种模态(图像、光流、音频)的特征使数据更加丰富，并通过将三种模态的特征进行矩阵融合而非简单的拼接融合，增加了系统检测的先验知识，将近重复检测的准确率从原有93％的基础上提高到98.5％。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明实施例的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的近重复视频检测系统100的示意图；

图2示出了根据本发明一个实施例的计算设备200的示意图；

图3示出了根据本发明一个实施例的检测近重复视频的装置120的示意图；

图4示出了根据本发明一个实施例的特征获取装置400的示意图；

图5示出了根据本发明一个实施例的VGG-16卷积神经网络模型的示意图；

图6示出了根据本发明一个实施例的循环神经网络模型的示意图；

图7示出了根据本发明一个实施例的融合模型的示意图；

图8示出了根据本发明一个实施例的全连接网络模型的示意图；

图9示出了根据本发明一个实施例的模型训练方法900的流程图；以及

图10示出了根据本发明一个实施例的检测近重复视频的方法1000的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的近重复视频检测系统100的示意图。如图1所示，近重复视频检测系统100包括处理前端110、检测近重复视频的装置120和视频库130。在其他实施方式中，对象选择系统100可以包括不同的和/或附加的模块。

本领域技术人员应当理解，近重复视频通常指的是两个视频彼此之间完全重复或者是接近重复，例如可以是指仅在颜色和光照变化、编辑操作(插入镜像、徽标和边框)、文件格式、编码参数、不同长宽或其他类似方面有所不同的视频，如图2所示。

处理前端110和视频库130分别与检测近重复视频的装置120相耦接。在一些实施方式中，可以通过网络140相耦接。网络140可以包括有线和/或无线通信路径，诸如但不仅限于，因特网、局域网、卫星路径、光纤路径、电缆路径，或任何其他合适的有线或无线通信路径或这样的路径的组合。

其中，处理前端110可以是任何需要判断近重复视频的请求方。例如，在一种实施方式中，处理前端110可以是一个视频推荐系统的一部分。视频推荐系统可以将近重复检测请求发送至检测近重复视频的装置120，该近重复检测请求用于请求检测视频库130中与待检测视频近重复的视频。检测近重复视频的装置120可以检测出视频库130中与待检测视频为近重复视频的视频，并将这些视频返回给视频推荐系统。

在另一种实施方式中，处理前端110还可以是一个视频去重系统的一部分。视频去重系统可以将近重复检测请求发送至检测近重复视频的装置120，该近重复检测请求用于请求检测视频库130中是否存在与待检测视频近重复的视频。检测近重复视频的装置120可以检测出视频库130中是否存在与待检测视频为近重复视频的视频，并将检测结果返回给视频去重系统。

本发明不受限于处理前端110的具体形式。检测近重复视频的装置120可以以各种方式接收处理前端110的请求。例如检测近重复视频的装置120可以提供具有预定格式定义的应用程序接口(API)，以方便处理前端110根据定义来组织请求，并发送到检测近重复视频的装置120。

根据本发明的实施方式，上述近重复视频检测系统100中的各部件均可以通过如下所述的计算设备200来实现。

图2示出了根据本发明一个实施例的计算设备200的示意图。如图2所示，在基本的配置202中，计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置，处理器204可以是任何类型的处理器，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置，系统存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。在一些实施方式中，应用222可以布置为在操作系统上由一个或多个处理器204利用程序数据224执行指令。

计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备200可以实现为服务器，例如数据库服务器、应用程序服务器和WEB服务器等，也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。当然，计算设备200也可以实现为小尺寸便携(或者移动)电子设备的至少一部分。

在根据本发明的实施例中，计算设备200可以实现为检测近重复视频的装置120，并被配置为执行根据本发明实施例的检测近重复视频的方法1000。其中，计算设备200的应用222中包含执行根据本发明实施例的检测近重复视频的方法1000的多条指令，而程序数据224还可以存储近重复视频检测系统100的配置数据等内容。

图3示出了根据本发明一个实施例的检测近重复视频的装置120的示意图。如图3所示，检测近重复视频的装置120与视频库130相耦接，并包括特征获取单元121、距离计算单元122和近重复判断单元123。

检测近重复视频的装置120可以接收待检测视频，并将待检测视频发送给特征获取单元121。特征获取单元121可以利用深度学习的算法来获取待检测视频和视频库130内各视频的特征向量。

距离计算单元122与特征获取单元121相耦接，可以对于视频库130内各视频，均基于视频库130内该视频的特征向量和待检测视频的特征向量，计算待检测视频与视频库130内该视频的距离。距离可以是欧氏距离或者是余弦相似度，本发明对此不做限制，任何可以体现两个视频之间相似度的距离算法均在本发明的保护范围之内。

近重复判断单元123与距离计算单元122相耦接，适于基于待检测视频与视频库130内各视频之间的距离，确定视频库130内与待检测视频近重复的视频。具体地，对于待检测视频与视频库130内各视频之间的距离，可以判断该距离是否小于预定距离阈值，如果小于预定距离阈值，则确定视频库130内该视频与待检测视频是近重复的，否则就不是近重复的。其中，预定距离阈值可以为0.2。当然，预定距离阈值还可以是其他取值，本发明对此不做限制。

下面具体介绍获取视频的特征向量的过程。

特征获取单元121可以包括特征获取装置400。特征获取单元121利用特征获取装置400，获取待检测视频和视频库130内各视频的特征向量。

图4示出了根据本发明一个实施例的特征获取装置400的示意图。特征获取装置400适于获取视频的特征向量。如图4所示，特征获取装置400可以包括图像提取单元410、光流提取单元420、音频提取单元430、图像处理单元440、音频处理单元450、特征处理单元460、向量融合单元470和输出单元480。

图像提取单元410适于提取视频的图像。在一些实施例中，按照预定时间间隔来提取至少一帧图像。预定时间间隔通常为1秒，也就是说每隔一秒提取一帧图像。

光流提取单元420与图像提取单元410相耦接，适于提取视频的光流。具体地，可以基于图像提取单元410提取的图像来计算光流，例如计算每相邻两帧图像的光流。在一些实施例中，可以利用opencv库来计算光流。在其他实施例中，也可以利用其他算法来计算光流，本发明对此不做限制。通常地，提取到的光流与图像一样是三通道的，其中，第一个通道是x方向的光流，第二个通道是y方向的光流，第三个通道是x+y方向的光流。此外，光流的尺寸大小也与原图像一致。

音频提取单元430适于提取视频的音频。在一些实施例中，可以利用ffmpeg工具直接从视频中抽取预定采样率、单声道的音频。预定采样率通常为8K。在其他实施例中，也可以利用其他方式来提取音频，本发明对此不做限制。

图像处理单元440分别与图像提取单元410和光流提取单元420相耦接，并适于基于图像提取单元410提取到的视频的图像，利用卷积神经网络模型来得到图像的图像特征。具体地，对视频的每帧图像，均利用卷积神经网络模型来得到该帧图像的图像特征。

在一些实施例中，上述卷积神经网络模型可以为VGG-16卷积神经网络模型。图5示出了根据本发明一个实施例的VGG-16卷积神经网络模型的示意图。如图5所示，VGG-16卷积神经网络模型包括13层卷积层(Conv)、5层池化层(Max pool)、以及1层全连接层(FC)。

其中，3x3 Conv，64表示该卷积层的卷积核大小为3x3，通道数为54。Max pool/2，3x3表示该池化层为最大池化层，池化核大小为3x3，步长为2。其他依次类推。

VGG-16卷积神经网络模型可以接收尺寸为224x224的图像输入，并输出一个长为4096的向量，也就是所输入的图像的图像特征。可以理解地，在输入卷积神经网络模型之前，可以将图像变换为相应尺寸。例如在输入VGG-16卷积神经网络模型之前，将图像尺寸变换为224x224。

图像处理单元440还适于基于光流提取单元420提取到的视频的光流，利用上述卷积神经网络模型来得到光流的光流特征。具体地，对基于每相邻两帧图像得到的光流，均利用上述卷积神经网络模型来得到光流的光流特征。

音频处理单元450与音频提取单元430相耦接，适于基于音频提取单元430提取到的视频的音频，得到音频的音频特征。在一些实施例中，可以每隔上述预定时间间隔(例如1s)，采用快速傅立叶变换算法(FFT)提取一次FFT特征，也就是音频特征。由于提取得到的FFT结果幅值对称，因此可以仅提取得到的特征点的一半。例如，采用2048点的快速傅立叶变换算法，最后得到2048个特征点，仅取前1024个特征点。除了快速傅立叶变换算法(FFT)，本发明实施例也可以采用其他特征提取算法来提取音频特征，本发明对此不做限制。

特征处理单元460分别与图像处理单元440和音频处理单元450相耦接，并适于接收图像处理单元440得到的图像特征和光流特征、以及音频处理单元450得到的音频特征。特征处理单元460可以基于图像特征，利用循环神经网络模型来得到第一状态向量。特征处理单元460还可以基于光流特征，利用上述循环神经网络模型来得到第二状态向量。特征处理单元460还可以基于音频特征，同样利用上述循环神经网络模型来得到第三状态向量。

具体地，第一状态向量包括第一隐藏状态向量和第一单元状态向量，第二状态向量包括第二隐藏状态向量和第二单元状态向量，第三状态向量包括第三隐藏状态向量和第三单元状态向量。

在一些实施例中，该循环神经网络模型可以为长短期记忆网络模型(LSTM)。在一些实施例中，该长短期记忆网络模型还可以采用注意力(Attention)机制。具体地，该循环神经网络模型可以包括第一长短期记忆网络模型和第二长短期记忆网络模型。特征处理单元460将图像特征输入第一长短期记忆网络模型，以便第二长短期记忆网络模型输出第一隐藏状态向量和第一单元状态向量。特征处理单元460将光流特征输入第一长短期记忆网络模型，以便第二长短期记忆网络模型输出第二隐藏状态向量和第二单元状态向量。特征处理单元460将音频特征输入第一长短期记忆网络模型，以便第二长短期记忆网络模型输出第三隐藏状态向量和第三单元状态向量。其中，第二长短期记忆网络模型的输入是基于注意力机制和第一长短期记忆网络模型的输出来得到的。

图6示出了根据本发明一个实施例的循环神经网络模型的示意图。如图6所示，该循环神经网络模型包括第一长短期记忆网络模型LSTM1和第二长短期记忆网络模型LSTM2。

下面以图像特征为例，描述基于图像特征，利用如图6所示的循环神经网络模型得到第一状态向量的过程。

将图像特征v_t(t＝1,2,...,T)输入第一长短期记忆网络模型LSTM1，第一长短期记忆网络模型LSTM1可以输出相应的隐藏状态h1_t(t＝1,2,...,T)。采用注意力机制可以计算得到第i时刻第一长短期记忆网络模型输出的各个隐藏状态h1_j对应的注意力权重a_ij。在一些实施例中，可以采用以下公式计算注意力权重a_ij：

u_j＝tanh(W_s·h1_j+b_s)

其中，W_s、u_s和b_s为注意力机制的变量，均使用正态分布初始化。

而后，基于第i时刻第一长短期记忆网络模型输出的各个隐藏状态h1_j及其对应注意力权重a_ij，得到第i时刻第二长短期记忆网络模型LSTM2的输入v_i′。在一些实施例中，可以采用以下公式计算第二长短期网络模型LSTM2的输入v_i′：

最后，第二长短期记忆网络模型LSTM2可以输出相应的第一隐藏状态向量(hiddenstate)h2_T(即，LSTM2中最后一个单元输出的隐藏状态)和第一单元状态(cell state)向量(即，LSTM2中最后一个单元输出的单元状态)。

得到第二状态向量、得到第三状态向量的过程与得到第一状态向量的过程类似，此处不再赘述。显然，本发明实施例在传统LSTM的基础上，在两个LSTM中间加入了注意力机制，有效提高了LSTM对特定特征的选择性，增强了网络的学习能力。

向量融合单元470与特征处理单元460相耦接，并适于基于特征处理单元460输出的第一状态向量、第二状态向量和第三状态向量，融合得到第四状态向量。具体地，第四状态向量包括第四隐藏状态向量和第四单元状态向量。

向量融合单元470可以利用融合模型来对第一状态向量、第二状态向量和第三状态向量进行融合。该融合模型可以包括多个Sigmoid单元、tanh单元和多个向量的元素级操作单元。

图7示出了根据本发明一个实施例的融合模型的示意图。如图7所示，该融合模型包括5个Sigmoid单元、2个tanh单元、5个元素级相乘操作单元和2个元素级相加操作单元。

在图7中，h₁为第一隐藏状态向量，c₁为第一单元状态向量，h₂为第二隐藏状态向量，c₂为第二单元状态向量，h₃为第三隐藏状态向量，c₃为第三单元状态向量，其分别对应了图像、光流、音频、三种多模态特征。i、f_l、o、g是融合过程中中间单元的输出(i、f_l、o、g分别代表输入门、遗忘门、输出门和新单元状态信息)，可以用以下公式计算：

其中，k表示需要融合的模态总数，k＝3。W_l ⁱ为i对应单元的参数权重，b_i为i对应单元的偏置。W_l ^f为f_l对应单元的参数权重，b_f为f_l对应单元的偏置。W_l ^o为o对应单元的参数权重，b_o为o对应单元的偏置。W_l ^g为g对应单元的参数权重，b_g为g对应单元的偏置。

h和c表示最后输出的融合结果，h为第四隐藏状态向量，c为第四单元状态向量，分别可以用以下公式计算：

h＝o⊙tanh(c)

输出单元480与特征融合单元470相耦接，适于基于第四状态向量，利用全连接网络模型来得到视频的特征向量。具体地，基于第四隐藏状态向量，利用全连接网络模型来得到视频的特征向量。

在一些实施例中，该全连接网络模型包括三层全连接层。图8示出了根据本发明一个实施例的全连接网络模型的示意图。如图8所示，全连接网络模型包括三层全连接层，分别是FC,2000、FC,1000、以及FC,500。FC,2000表示该层全连接层具有2000个节点。依次类推。这样，该全连接网络模型最终可以输出一个长为500的向量，也就是视频的特征向量。

综上所述，根据本发明实施例的特征获取装置400改进了基本网络结构，在原有LSTM的基础上使用了注意力机制，增强了网络的学习能力，可以有效提高检测近重复视频的装置120进行近重复检测的精度。同时，输入多种模态的特征使数据更加丰富，并通过将三种模态的特征进行矩阵融合而非简单的拼接融合，增加了系统检测的先验知识，将近重复检测的准确率从原有93％的基础上提高到98.5％。

本领域技术人员可以理解，在神经网络模型中具有大量的计算参数，这些参数需要通过训练来进行调整以便在实际使用中获得最好的计算结果。因此，在特征获取装置400中的至少部分单元都包括大量的计算参数等待训练。如图1所示，近重复视频检测系统100还包括训练视频库140。训练视频库140与视频库140可以是同一视频库，也可以是不同视频库，本发明对此不做限制。训练视频库140包括多个视频，这些视频均标注有该视频对应的类别。其中，属于相同类别的视频彼此为近重复的。

图9示出了根据本发明一个实施例的模型训练方法900的流程图。模型训练方法900适于利用训练视频库140中的视频构造多个三元组来对特征获取装置400进行训练。如图9所示，该模型训练方法900始于步骤S910。

在步骤S910中，从训练视频库140中选择属于相同类别的第一视频和第二视频。而后在步骤S920中，基于第一视频所包含的图像，利用卷积神经网络模型来得到第一视频的全局特征。在步骤S930中，基于第二视频所包含的图像，同样利用上述卷积神经网络模型来得到第二视频的全局特征。

具体地，可以基于第一视频的图像，利用卷积神经网络模型来得到图像的图像特征。再基于图像的图像特征，求和得到第一视频的全局特征。在一些实施例中，可以利用从视频提取得到的所有图像的图像特征构成一个n×m矩阵，对该矩阵的每一行求和得到一个1×m的向量，即为视频的全局特征。第二视频的全局特征的获取过程与第一视频相同，不再赘述。

其中，卷积神经网络可以为VGG-16卷积神经网络模型，其具体结构已在前文结合图5对图像处理单元440的描述中详细说明，此处不再赘述。

而后，在步骤S940中，根据第一视频和第二视频的全局特征，计算第一视频与第二视频之间的距离。该距离可以是欧式距离或者其他类似距离，本发明对此不做限制。

而后，在步骤S950中，可以基于第一视频与第二视频之间的距离，选择属于其他类别的第三视频。具体地，可以计算第一视频和第二视频分别与属于其他类别的视频之间的距离，根据计算得到的距离选择出第三视频。第三视频与第一视频或者第二视频之间的距离小于第一视频与第二视频之间的距离。

其中，第一视频或者第二视频与属于其他类别的视频之间的距离同样基于全局特征来计算。例如，基于属于其他类别的视频所包含的图像，利用上述卷积神经网络模型来得到该属于其他类别的视频的全局特征。根据第一视频或者第二视频、以及该属于其他类别的视频的全局特征，计算第一视频或者第二视频与该属于其他类别的视频之间的距离。

选择出第三视频之后，第一视频、第二视频和第三视频也就构成了一个三元组。可以在步骤S960中，利用包括第一视频、第二视频和第三视频的这个三元组来训练特征获取装置400。在一些实施例中，可以将三元组包含的各个视频分别输入特征获取装置400，得到各个视频(即第一视频、第二视频和第三视频)的特征向量。基于第一视频、第二视频和第三视频的特征向量，计算三元组损失(Triplet Loss)。最后可以基于三元组损失来更新特征获取装置400的参数。也就是说，利用三元组损失计算梯度，并更新特征获取装置400的参数。

其中，三元组损失可以表示为以下公式：

Triplet Loss＝max(d(a,p)-d(a,n)+margin,0)

其中，a为第一视频，p为第二视频，n为第三视频。

可以理解地，采用模型训练方法900可以构造出多个三元组来训练特征获取装置400，从而可以为提供高准确率和召回率的结果。

图10示出了根据本发明一个实施例的检测近重复视频的方法1000的流程图。该方法1000适于在检测近重复视频的装置120中执行。如图10所示，检测近重复视频的方法1000始于步骤S1100。

在步骤S1100中，可以利用特征获取装置400，获取待检测视频的特征向量。在步骤S1200中，可以利用特征获取装置400，获取视频库内各视频的特征向量。接着，在步骤S1300中，基于待检测视频的特征向量与视频库内各视频的特征向量，计算待检测视频与视频库内各视频的距离。最后，在步骤S1400中，可以基于计算得到的距离，确定视频库内与待检测视频近重复的视频。具体地，可以判断待检测视频与视频库内视频之间的距离是否小于预定距离阈值。如果小于，则确定视频库内该视频与待检测视频是近重复的。否则确定视频库内该视频与待检测视频不是近重复的。

关于检测近重复视频的方法1000中各步骤的详细处理逻辑和实施过程可以参见前文结合图1-图8对近重复视频检测系统100以及检测近重复视频的装置120的相关描述，此处不再赘述。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明实施例的方法和设备，或者本发明实施例的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被机器执行时，该机器变成实践本发明实施例的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的程序代码中的指令，执行本发明实施例的方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明实施例的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明实施例的内容，并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。

本发明还可以包括：A4、如A1所述的装置，其中，所述循环神经网络模型为长短期记忆网络模型。A5、如A1所述的装置，其中，所述长短期记忆网络模型采用注意力机制。A6、如A1所述的装置，其中，所述第一状态向量包括第一隐藏状态向量和第一单元状态向量，所述第二状态向量包括第二隐藏状态向量和第二单元状态向量，所述第三状态向量包括第三隐藏状态向量和第三单元状态向量，所述第四状态向量包括第四隐藏状态向量。A7、如A1所述的装置，其中，所述全连接网络模型包括三层全连接层。A8、如A1所述的装置，其中，所述图像提取单元适于按照预定时间间隔来提取图像。A9、如A2所述的装置，其中，所述光流提取单元适于基于所述图像提取单元提取的图像来计算光流。

B13、如B10所述的方法，其中，所述第三视频与所述第一视频或者所述第二视频之间的距离小于所述第一视频与所述第二视频之间的距离。B14、如B13所述的方法，其中，还包括步骤：基于属于其他类别的视频所包含的图像，利用所述卷积神经网络模型来得到所述属于其他类别的视频的全局特征；根据所述第一视频或者所述第二视频、以及所述属于其他类别的视频的全局特征，计算所述第一视频或者所述第二视频与所述属于其他类别的视频之间的距离。B15、如B10所述的方法，其中，所述卷积神经网络模型为VGG-16卷积神经网络模型。

C17、如C16所述的方法，其中，基于所述距离，确定所述视频库内与所述待检测视频近重复的视频的步骤包括：判断所述距离是否小于预定距离阈值；如果小于，则确定所述视频与所述待检测视频是近重复的。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明实施例的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明实施例的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明实施例的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所描述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明实施例的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，上述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行上述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施上述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所描述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明实施例，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明实施例的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明实施例的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明实施例的范围，对本发明实施例所做的公开是说明性的而非限制性的，本发明实施例的范围由所附权利要求书限定。

Claims

1.一种特征获取装置，适于获取视频的特征向量，所述装置包括：

图像提取单元，适于提取所述视频的图像；

光流提取单元，适于提取所述视频的光流；

音频提取单元，适于提取所述视频的音频；

图像处理单元，适于基于所述视频的图像，利用卷积神经网络模型来得到所述图像的图像特征；还适于基于所述视频的光流，利用所述卷积神经网络模型来得到所述光流的光流特征；

音频处理单元，适于基于所述视频的音频，得到所述音频的音频特征；

特征处理单元，适于基于所述图像特征，利用循环神经网络模型来得到第一状态向量，所述循环神经网络模型为采用注意力机制的长短期记忆网络模型，包括第一长短期记忆网络模型和第二长短期记忆网络模型，注意力机制用于计算各个隐藏状态对应的注意力权重，所述第二长短期记忆网络模型的输入基于注意力机制和所述第一长短期记忆网络模型的输出；所述特征处理单元利用循环神经网络模型得到第一状态向量时，将所述图像特征输入所述第一长短期记忆网络模型，所述第二长短期记忆网络模型输出包括第一隐藏状态向量和第一单元状态向量的第一状态向量；

所述特征处理单元还适于将所述光流特征输入所述第一长短期记忆网络模型，所述第二长短期记忆网络模型输出包括第二隐藏状态向量和第二单元状态向量的第二状态向量；

所述特征处理单元还适于将所述音频特征输入所述第一长短期记忆网络模型，所述第二长短期记忆网络模型输出包括第三隐藏状态向量和第三单元状态向量的第三状态向量；

向量融合单元，适于基于所述第一状态向量、第二状态向量和第三状态向量，利用融合模型进行融合得到第四状态向量，所述第四状态向量包括第四单元状态向量和第四隐藏状态向量，所述第四隐藏状态向量根据所述第四单元状态向量计算得到；以及

输出单元，适于基于所述第四状态向量的第四隐藏状态向量，利用全连接网络模型来得到所述视频的特征向量。

2.如权利要求1所述的装置，其中，所述卷积神经网络模型为VGG-16卷积神经网络模型。

3.如权利要求1所述的装置，其中，所述音频处理单元适于采用快速傅立叶变换算法，得到所述音频的音频特征。

4.如权利要求1所述的装置，其中，所述全连接网络模型包括三层全连接层。

5.如权利要求1所述的装置，其中，所述图像提取单元适于按照预定时间间隔来提取图像。

6.如权利要求2所述的装置，其中，所述光流提取单元适于基于所述图像提取单元提取的图像来计算光流。

7.如权利要求1所述的装置，其中，所述特征获取装置利用训练视频库中的视频构造多个三元组来进行训练，所述训练视频库包括多个视频，所述视频标注有所述视频对应的类别，属于相同类别的视频彼此为近重复的，训练所述特征获取装置包括步骤：

从所述训练视频库中选择属于相同类别的第一视频和第二视频；

基于所述第一视频所包含的图像，利用卷积神经网络模型来得到所述第一视频的全局特征；

基于所述第二视频所包含的图像，利用所述卷积神经网络模型来得到所述第二视频的全局特征；

根据所述第一视频和所述第二视频的全局特征，计算所述第一视频与所述第二视频之间的距离；

基于所述第一视频与所述第二视频之间的距离，选择属于其他类别的第三视频；以及

利用包括所述第一视频、所述第二视频和所述第三视频的三元组来训练所述特征获取装置。

8.如权利要求7所述的装置，其中，所述利用包括所述第一视频、所述第二视频和所述第三视频的三元组来训练所述特征获取装置的步骤包括：

对所述三元组包含的各个视频，将所述视频输入所述特征获取装置，得到所述视频的特征向量；

基于所述第一视频、所述第二视频和所述第三视频的特征向量，计算三元组损失；

基于所述三元组损失来更新所述特征获取装置的参数。

9.如权利要求7所述的装置，其中，基于所述第一视频所包含的图像，利用卷积神经网络模型来得到所述第一视频的全局特征的步骤包括：

基于所述第一视频的图像，利用所述卷积神经网络模型来得到所述图像的图像特征；

基于所述图像的图像特征，求和得到所述第一视频的全局特征。

10.如权利要求7所述的装置，其中，所述第三视频与所述第一视频或者所述第二视频之间的距离小于所述第一视频与所述第二视频之间的距离。

11.如权利要求10所述的装置，其中，还包括步骤：

基于属于其他类别的视频所包含的图像，利用所述卷积神经网络模型来得到所述属于其他类别的视频的全局特征；

根据所述第一视频或者所述第二视频、以及所述属于其他类别的视频的全局特征，计算所述第一视频或者所述第二视频与所述属于其他类别的视频之间的距离。

12.如权利要求7所述的装置，其中，所述卷积神经网络模型为VGG-16卷积神经网络模型。

13.一种检测近重复视频的方法，包括：

利用如权利要求1-12中任一项所述的特征获取装置，获取待检测视频的特征向量；

利用如权利要求1-12中任一项所述的特征获取装置，获取视频库内各视频的特征向量；

基于所述待检测视频的特征向量与所述视频库内视频的特征向量，计算所述待检测视频与所述视频库内视频的距离；

基于所述距离，确定所述视频库内与所述待检测视频近重复的视频；

其中，所述特征获取装置包括图像处理单元、音频处理单元、特征处理单元、向量融合单元和输出单元，利用所述特征获取装置获取待检测视频和视屏库内各视频的特征向量时，通过图像处理单元基于所述视频的图像，利用卷积神经网络模型来得到所述图像的图像特征，基于所述视频的光流，利用所述卷积神经网络模型来得到所述光流的光流特征；

通过音频处理单元基于所述视频的音频，得到所述音频的音频特征；

通过特征处理单元，基于所述图像特征，利用循环神经网络模型来得到第一状态向量，所述循环神经网络模型为采用注意力机制的长短期记忆网络模型，包括第一长短期记忆网络模型和第二长短期记忆网络模型，所述第二长短期记忆网络模型的输入基于注意力机制和所述第一长短期记忆网络模型的输出；通过特征处理单元利用循环神经网络模型得到第一状态向量时，将所述图像特征输入所述第一长短期记忆网络模型，所述第二长短期记忆网络模型输出包括第一隐藏状态向量和第一单元状态向量的第一状态向量；

通过特征处理单元将所述光流特征输入所述第一长短期记忆网络模型，所述第二长短期记忆网络模型输出包括第二隐藏状态向量和第二单元状态向量的第二状态向量；

通过特征处理单元将所述音频特征输入所述第一长短期记忆网络模型，所述第二长短期记忆网络模型输出包括第三隐藏状态向量和第三单元状态向量的第三状态向量；

通过向量融合单元，基于所述第一状态向量、第二状态向量和第三状态向量，利用融合模型进行融合得到第四状态向量，所述第四状态向量包括第四单元状态向量和第四隐藏状态向量，所述第四隐藏状态向量根据所述第四单元状态向量计算得到；以及

通过输出单元，基于所述第四状态向量的第四隐藏状态向量，利用全连接网络模型来得到所述视频的特征向量。

14.如权利要求13所述的方法，其中，基于所述距离，确定所述视频库内与所述待检测视频近重复的视频的步骤包括：

判断所述距离是否小于预定距离阈值；

如果小于，则确定所述视频与所述待检测视频是近重复的。

15.一种检测近重复视频的装置，包括：

特征获取单元，适于利用如权利要求1-12中任一项所述的特征获取装置，获取待检测视频和视频库内各视频的特征向量；

距离计算单元，适于基于所述待检测视频的特征向量和所述视频库内视频的特征向量，计算所述待检测视频与所述视频库内视频的距离；

近重复判断单元，适于基于所述距离，确定所述视频库内与所述待检测视频近重复的视频；

其中，所述特征获取装置包括图像处理单元、音频处理单元、特征处理单元、向量融合单元和输出单元；

所述图像处理单元，适于基于所述视频的图像，利用卷积神经网络模型来得到所述图像的图像特征；还适于基于所述视频的光流，利用所述卷积神经网络模型来得到所述光流的光流特征；

所述音频处理单元，适于基于所述视频的音频，得到所述音频的音频特征

所述特征处理单元，适于基于所述图像特征，利用循环神经网络模型来得到第一状态向量，所述循环神经网络模型为采用注意力机制的长短期记忆网络模型，包括第一长短期记忆网络模型和第二长短期记忆网络模型，注意力机制用于计算各个隐藏状态对应的注意力权重，所述第二长短期记忆网络模型的输入基于注意力机制和所述第一长短期记忆网络模型的输出；所述特征处理单元利用循环神经网络模型得到第一状态向量时，将所述图像特征输入所述第一长短期记忆网络模型，所述第二长短期记忆网络模型输出包括第一隐藏状态向量和第一单元状态向量的第一状态向量；

所述向量融合单元，适于基于所述第一状态向量、第二状态向量和第三状态向量，利用融合模型进行融合得到第四状态向量，所述第四状态向量包括第四单元状态向量和第四隐藏状态向量，所述第四隐藏状态向量根据所述第四单元状态向量计算得到；以及

所述输出单元，适于基于所述第四状态向量的第四隐藏状态向量，利用全连接网络模型来得到所述视频的特征向量。

16.一种计算设备，包括：

一个或多个处理器；和

存储器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求13或14所述的方法的指令。

17.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求13或14所述的方法。