CN110853033A

CN110853033A - 基于帧间相似度的视频检测方法和装置

Info

Publication number: CN110853033A
Application number: CN201911158250.7A
Authority: CN
Inventors: 尚焱; 刘杉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-02-28
Anticipated expiration: 2039-11-22
Also published as: CN110853033B

Abstract

本发明涉及一种视频检测的方法和装置、计算机设备和存储介质。该方法包括：获取待检测视频；基于预定抽帧间隔对待检测视频抽帧，获得抽取出的视频帧序列；基于特征检测算法对视频帧序列进行特征检测，获得视频帧特征描述子的序列；对视频帧特征描述子的序列中的每两个相邻视频帧特征描述子进行视频帧特征匹配，获得视频帧序列的相邻帧之间的相似度度量；在相似度度量满足预定约束条件的情况下，将视频标记为包含不符帧的视频。这实现了计算性能与检测效果的动态调整，并有效减小了计算的冗余度。

Description

基于帧间相似度的视频检测方法和装置

技术领域

本发明涉及人工智能和计算机视觉的技术领域，具体来说涉及一种基于帧间相似度的视频检测方法、装置、计算机设备和存储介质。

背景技术

人工智能（Artificial Intelligence, AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换言之，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉（ComputerVision, CV）技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉是一门研究如何使机器“看”的科学，更进一步地，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

在现有的技术方案中进行视频检测时，通常利用视频指纹技术对整个视频的内容进行分析生成视频指纹，进而通过视频指纹对整个视频进行鉴别。视频指纹通常是对视频的每一帧进行特征提取并将特征聚合起来代表一个视频。在全部视频帧中进行检测，帧与帧之间的距离越远其相关性越低，检测难度越大，并且同时对每一帧进行特征提取耗时严重。

而且，随着互联网以及社交媒体软件的普及，在互联网上存在大量传播的首帧假视频。首帧假视频通常具有将首帧设置为具有诱导性的内容以增加点击量和传播量的特点。比如视频首帧是美女，但视频内容是广告（如图1a所示），通常这种视频在社交软件中传播。如图1b所示，也可以是在视频编解码或传输中造成首帧丢失，导致视频预览无画面（例如，呈现黑色）。

视频特定画面检测技术在产品侧具有广泛的应用。比如视频首帧画面和视频内容不符的视频在互联网上的传播是具有诱导欺骗性的，在即时通讯软件中，这类视频的实际内容通常为广告等内容。此类视频不仅浪费了用户的浏览时间和流量成本，对于产品体验的损耗也十分巨大。

发明内容

有利的是，提供一种可以缓解、减轻或甚至消除上述问题中的一个或多个的机制。

根据本发明的一些实施例，提供了一种视频检测方法。该方法包括：获取待检测视频；基于预定抽帧间隔对待检测视频抽帧，获得抽取出的视频帧序列；基于特征检测算法对视频帧序列进行特征检测，获得视频帧特征描述子的序列；对视频帧特征描述子的序列中的每两个相邻视频帧特征描述子进行视频帧特征匹配，获得视频帧序列的相邻帧之间的相似度度量；在相似度度量满足预定约束条件的情况下，将视频标记为包含不符帧的视频。

在一些实施例中，基于预定抽帧间隔对待检测视频抽帧包括：基于等间距的抽帧间隔对待检测视频抽帧；或者针对视频起始若干帧仅抽取一帧，并且对视频的其余帧等间隔抽帧。

在一些实施例中，预定约束条件为：抽取出的视频帧序列其中一个第一视频帧与其相邻帧之间的第一相似度度量，与除第一视频帧外的多个第二视频帧与其相邻帧之间的多个第二相似度度量其中之一的比值的倒数大于等于预定阈值。

在一些实施例中，预定约束条件还包括：每两个第二相似度度量之间的比值落入预定范围。

在一些实施例中，预定约束条件包括：将所抽取的视频帧序列中的每个视频帧与其相邻帧之间的相似度度量记为n₁,…, n_k, n_k+1, …, n_N-1，第一相似度度量n_j选自其中之一，第二相似度度量是除第一相似度度量之外的相似度度量n₂,…, n_j-1, n_j+1, …, n_N-1中的任意一个，第一相似度度量和第二相似度度量满足下述式子中的至少M个式子：

n₁/n_j>K;

n₂/n_j>K;

……;

n_j-1/n_j>K;

n_j+1/n_j>K;

……;

n_N-1/n_j>K;

其中，K为大于等于10的常量，N为针对视频抽取帧的总数，

且j为正整数，M为正整数。

在一些实施例中，预定约束条件还包括：1/S<n_k/n_k+1<S（k=1, 2,…, j-1，j+1,…, N-1）；其中S为大于1的常量。

在一些实施例中，预定约束条件包括：将所抽取的视频帧序列中的每个视频帧与其相邻帧之间的相似度度量记为n₁,…, n_k, n_k+1, …, n_N-1，第一相似度度量为n₁，第二相似度度量选自n₂~n_N-1其中之一，第一相似度度量和第二相似度度量满足下述式子中的至少M个式子：

n₂/n₁>K;

n₃/n₁>K;

……;

n_N-1/n₁>K;

其中K为大于等于10的常量，N为针对视频抽取帧的总数，

且M为正整数。

在一些实施例中，预定约束条件还包括：1/S<n_k/n_k+1<S（k=2,…, N-1）；其中S为大于1的常量。

在一些实施例中，n₁为视频帧序列中首帧与第二帧之间的相似度度量。

在一些实施例中，方法还包括：待检测视频是通过对原始视频分段得到的原始视频中的一个视频分段。

在一些实施例中，基于特征检测算法对视频帧序列进行特征检测，获得视频帧特征描述子的序列包括：从视频帧序列中的一个视频帧中确定多个特征点P；根据特征点P的特征向量，获得视频帧特征描述子的序列。

在一些实施例中，对视频帧特征描述子的序列中的相邻视频帧特征描述子进行视频帧特征匹配，获得视频帧序列的相邻帧之间的相似度度量，包括：将抽取出的视频帧其中一帧的各个特征点P的特征向量，与相邻视频帧中的各个特征点P的特征向量，分别进行向量匹配；根据向量的匹配结果，获得视频帧序列的相邻帧之间的相似度度量。

在一些实施例中，视频帧特征匹配包括：对视频帧特征描述子的序列中的相邻视频帧特征描述子进行暴力匹配得到暴力匹配结果，暴力匹配为针对相邻视频帧特征描述子中的特征点P进行一一匹配；通过基于区域块的统计方法，对暴力匹配结果进行过滤，区域块是以暴力匹配结果中的当前特征点为中心、半径为d的区域；得到最终的匹配点个数作为视频两帧之间的相似度度量。

在一些实施例中，该方法还包括基于将视频标记为包含不符帧的视频，在终端处对包含不符帧的视频进行提示；或者基于将视频标记为包含不符帧的视频，从服务器向终端发送指示在终端处对包含不符帧的视频进行提示的消息。

根据本发明的一些实施例，提供了一种视频检测装置。该装置包括：获取模块，被配置用于获取待检测视频；抽取模块，被配置用于基于预定抽帧间隔对待检测视频抽帧，获得抽取出的视频帧序列；特征检测模块，被配置用于基于特征检测算法对视频帧序列进行特征检测，获得视频帧特征描述子的序列；特征匹配模块，被配置用于对视频帧特征描述子的序列中的每两个相邻视频帧特征描述子进行视频帧特征匹配，获得视频帧序列的相邻帧之间的相似度度量；以及标记模块，被配置用于在相似度度量满足预定约束条件的情况下，将视频标记为包含不符帧的视频。

根据本发明的一些实施例，提供了一种计算机设备，包括：处理器；以及存储器，其上存储有指令，指令当在处理器上执行时促使处理器执行如上所述的方法中的任一个。

根据本发明的一些实施例，提供了一种计算机可读存储介质，其上存储有指令，指令当在处理器上执行时促使处理器执行如上所述的方法中的任一个。

本发明的实施例提供了各种优点。本发明将特征点的检测和匹配引入到视频帧的相似度计算中，可以灵活地调整特征向量与视频帧约束的大小，实现了计算性能与检测效果的动态调整，同时基于区域统计的方法过滤掉错误匹配点，解决了帧间相似度的度量不准的问题。此外，本发明通过设计判定规则约束了首帧内容不符视频的帧间相似度分布，可以通过调整跳变性约束因子和稳定性约束因子来实现不同分布的约束。通过简单的计算和判定就可以达到较高的判定性能。

综上，本发明通过结合视频的帧间特性，针对视频帧的特征检测和匹配方法进行改进，并通过特征过滤进一步提高特征匹配的准确性。此外，基于包含不符帧的视频帧间相似度具有跳变的特性设计了条件约束进行判定，提升了算法性能。本发明相对于与视频指纹类的算法减少了大量冗余度，具有实际应用价值。

附图说明

在下面结合附图对于示例性实施例的描述中，本发明的更多细节、特征和优点被公开，在附图中：

图1a示出了根据本发明实施例的首帧不符视频的一个示例；

图1b示出了根据本发明实施例的首帧不符视频的另一个示例；

图2示出了根据本发明实施例的一个应用场景示意图；

图3示出了根据本发明实施例进行视频检测的流程图；

图4示出了根据本发明实施例对待检测视频抽帧的流程图；

图5示出了根据本发明实施例对待检测视频帧进行特征描述的流程图；

图6示出了根据本发明实施例对待检测视频进行视频帧特征匹配的流程图；

图7示出了根据本发明的另一实施例进行视频检测的流程图；

图8示出了根据本发明实施例的基于帧间相似度的视频检测方法的流程图；

图9示出了根据本发明实施例的基于帧间相似度的视频检测装置的框图；以及

图10示出了用于进行视频检测的示例计算设备的示意图。

具体实施方式

在介绍本发明的实施例之前，首先对本文中涉及的若干术语进行解释。

1、视频首帧：指的是视频解码为一系列帧数据的第一帧数据。

2、视频特定帧：指的是视频解码为一系列帧数据后，包含不符帧的帧。

3、帧间相似度：在视频的序列中，帧与帧之间具有主观视觉上的连贯性，这种连贯性在客观表现在帧间相似度很高。

4、角点：指的是描述图像局部特征的重要指标之一，通常产生于两条之间相交的区域。关于角点的描述包括：一阶导数（即灰度的梯度）的局部最大所对应的像素点；两条及两条以上边缘的焦点；图像中梯度值和梯度方向变化速率都很高的点。角点是图像中的重要特征，对图像图形的理解和分析有重要的作用。角点在保留图像图形重要特征的同时，可以有效减少信息的数据量，使其信息量很高，有效提高了计算速度。

5、ORB（Oriented FAST and Rotated BRIEF）特征：指的是一种具有局部不变性的特征提取方法。ORB算法分为两部分，分别是oFAST特征点提取和rBRIEF特征点描述。oFAST特征点提取是由FAST（Features from Accelerated Segment Test）算法发展来的；而rBRIEF特征点描述是根据BRIEF（Binary Robust Independent Elementary Features）特征描述算法改进的。ORB算法是将FAST特征点的检测方法与BRIEF特征描述子结合起来，并在它们原来的基础上做了改进与优化。

6、特征检测：对图像的局部特征通过不同的算子在不同尺度、梯度和角点等特征维度进行描述。

7、特征匹配：是计算机视觉的基础问题，主要解决鲁棒性、一致性、平移不变性和旋转不变性等约束条件下，对特征检测到的图像特征点进行匹配。

8、NMS对角点过滤：非极大值抑制（Non-Maximum-Suppression）是一种获取局部最大值的有效方法。

9、暴力匹配：首先在第一幅图像选取一个特征点，然后依次与第二个图像中的特征点进行(描述符)距离测试，最后返回距离最近的特征点。

下面结合附图详细描述本发明的实施例。

图2示出了根据本发明实施例的一个应用场景示意图200。在根据本发明所提供的用于检测视频中特定画面的方法检测到首帧不符视频（首帧假视频）后，可以在即时通信软件中对这类首帧不符视频进行提示或封禁。在如图2中所示的应用场景200中，在即时通信软件中对特定画面视频内容不符的视频进行提示，以避免用户因首帧内容诱导点击该视频，这样提高了用户体验。在一种实施例中，对于检测到的首帧丢失视频，通常在网站或本地处的该视频的缩略图显示为黑色画面时，对这类视频进行处理（例如，删除帧丢失后的黑色画面），然后将经处理的视频重新发送到业务中。在另一实施例中，可以利用本发明的视频检测方法来优化云端视频存储，在利用本发明的视频检测方法检测到首帧不符视频后，对云端存储的视频进行过滤，不再保存首帧不符视频。由此，过滤掉特定画面与内容不符的视频，而仅存储更有价值的视频。

图3示出了根据本发明实施例进行视频检测的流程图300。典型地，视频检测的过程是在服务器中执行的。在一个实施例中，视频检测的过程也可以直接在用户终端处执行。

在步骤301中，首先接收待检测的视频，待检测的视频可以是原始视频，或者可以是通过对原始视频进行分段处理后得到的视频的一个分段。该视频的分段可以是通过对原始视频以预定间隔进行分段得到的。可选地，该预定间隔可以是相等间隔。

在步骤302中，基于预定抽帧间隔对接收到的待检测视频抽帧，获得抽取出的视频帧序列。图3的302中示出了以抽取4个帧为例的抽取出的视频帧序列。这里，基于预定抽帧间隔对待检测视频抽帧包括：基于等间隔的抽帧间隔对待检测的视频抽帧（例如，每隔10帧抽取一帧）。可选地，基于预定抽帧间隔对待检测视频抽帧也可以包括：针对视频起始的若干帧仅抽取一帧，并对待检测视频的其余帧等间隔地抽帧。可选地，针对视频起始的若干帧仅抽取一帧可以是针对视频起始的若干帧仅抽取视频首帧。换言之，基于预定抽帧间隔对待检测视频抽帧也可以包括：针对视频起始的若干帧抽取视频首帧，并对待检测视频的其余帧等间隔地抽帧。应该注意的是，如本领域技术人员所理解的那样，“若干”指的是一个固定的常数，例如视频起始的若干帧指的是视频起始的5或10帧（或其他可选的固定常数）。

在步骤303中，基于特征检测算法对抽取出的视频帧序列进行视频帧特征检测，得到视频帧特征描述子的序列。图3的303中示出了以抽取4个帧为例的包括4个视频帧特征描述子序列。视频帧的特征检测是通过特定的局部特征描述子对视频帧进行描述，特征描述子描述了视频帧的局部共性，最终形成视频帧的特征集合。在一个实施例中，基于预定特征算法对视频序列进行特征检测包括：从视频帧序列的一个视频中选择一点P，以及使用非极大值抑制的方法去除局部密集的特征点。在本发明的实施例中，特征检测算法采用ORB算法。在另一实施例中，获得视频帧特征描述子的序列包括：从视频帧序列中的一个视频帧中确定多个特征点P；根据特征点P的特征向量，获得视频帧特征描述子的序列。

在步骤304中，对视频帧特征描述子序列中的相邻视频帧特征描述子进行视频帧特征匹配，获得视频帧序列的相邻帧之间的相似度度量。视频帧的特征匹配本质上是特征描述子的相似度计算。特征描述子描述的是视频帧的空域特征，在数值上表现为两个特征向量。特征向量之间的距离可以代表特征描述子之间的相似度。在一个实施例中，视频帧特征匹配包括：对视频帧特征描述子的序列中的相邻视频帧特征描述子进行暴力匹配得到暴力匹配结果，暴力匹配为针对相邻视频帧特征描述子中的特征点P进行一一匹配；通过基于区域块的统计方法，对暴力匹配结果进行过滤，区域块是以暴力匹配结果中的当前特征点为中心、半径为d的区域；以及得到最终的匹配点个数作为视频两帧之间的相似度度量。在另一个实施例中，对视频帧特征描述子的序列中的相邻视频帧特征描述子进行视频帧特征匹配，获得视频帧序列的相邻帧之间的相似度度量，包括：将抽取出的视频帧其中一帧的各个特征点P的特征向量，与相邻视频帧中的各个特征点P的特征向量，分别进行向量匹配；根据向量的匹配结果，获得视频帧序列的相邻帧之间的相似度度量。

在步骤305中，在相似度度量满足预定约束条件的情况下，将视频标记为包含不符帧的视频。预定约束条件为：所抽取的视频帧序列中的一帧与其相邻帧之间的相似度度量与所抽取的待检测视频的其余帧与其相邻帧之间的相似度度量之间存在跳变；并且所抽取的待检测视频的其余帧与其相邻帧之间的相似度度量之间的变化平稳。在一个实施例中，预定约束条件为：抽取出的视频帧序列其中一个第一视频帧与其相邻帧之间的第一相似度度量，与除第一视频帧外的多个第二视频帧与其相邻帧之间的多个第二相似度度量其中之一的比值的倒数大于等于预定阈值。在另一个实施例中，预定约束条件还包括：每两个第二相似度度量之间的比值落入预定范围。

在一个实施例中，基于预定约束条件可以检测出在视频中的任意位置包含假视频帧的情况。在这种情况下，预定约束条件包括：将所抽取的视频帧序列中的每个视频帧与其相邻帧之间的相似度度量记为n₁,…, n_k, n_k+1, …, n_N-1，第一相似度度量n_j选自其中之一，第二相似度度量是除第一相似度度量之外的相似度度量n₂,…, n_j-1, n_j+1, …, n_N-1中的任意一个，第一相似度度量和第二相似度度量满足下述式子中的至少M个式子：

n₁/n_j>K;

n₂/n_j>K;

……;

n_j-1/n_j>K;

n_j+1/n_j>K;

……;

n_N-1/n_j>K;

其中，K为大于等于10的常量，N为针对视频抽取帧的总数，

且j为正整数，M为正整数。具体地，M可以满足

且M为正整数。该预定约束条件可以约束所抽取的视频帧序列中的一帧与其相邻帧之间的相似度度量与所抽取的待检测视频的其余帧与其相邻帧之间的相似度度量之间存在跳变。

在一个实施例中，预定约束条件在上述M个式子的基础上，还可以包括：1/S<n_k/n_k+1<S（k=1, 2,…, j-1，j+1, …, N-1）；其中S为大于1的常量。该附加约束条件可以约束所抽取的待检测视频的其余帧与其相邻帧之间的相似度度量之间的变化平稳。

在一个实施例中，基于预定约束条件可以检测出在视频中的起始帧（例如，首帧）位置包含假视频帧的情况。预定约束条件包括：将所抽取的视频帧序列中的每个视频帧与其相邻帧之间的相似度度量记为n₁,…, n_k, n_k+1, …, n_N-1，第一相似度度量为n₁，第二相似度度量选自n₂~n_N-1其中之一，第一相似度度量和第二相似度度量满足下述式子中的至少M个式子：

n₂/n₁>K;

n₃/n₁>K;

……;

n_N-1/n₁>K;

其中K为大于等于10的常量，N为针对视频抽取帧的总数，且M为正整数。

在一个实施例中，预定约束条件在上述M个式子的基础上，还可以包括：1/S<n_k/n_k+1<S（k=2,…, N-1）；其中S为大于1的常量。该附加约束条件可以约束所抽取的待检测视频的其余帧与其相邻帧之间的相似度度量之间的变化平稳。图4示出了根据本发明实施例对待检测视频抽帧的流程图400。在本实施例中，抽帧的过程是通过FFmpeg系统抽帧实现的。可以理解，还可以通过其他途径完成抽帧过程，不以FFmpeg为限。在流程中，首先通过解码器402对视频源401进行解码，得到视频帧数据流403。针对首帧不符视频的检测来说，抽帧策略直接影响相似度计算的复杂度和相似度计算的耗时。在抽帧过程中，因为首帧不符视频中的首帧通常是人工添加到视频中的，因此实际插入的通常是一帧或多帧。如果将上述人工插入的一帧或多帧全部抽出，会导致在相似度计算时不必要地比较了该些人工插入帧之间的相似度，使得相似度计算的复杂度增加并且相似度计算的耗时增加。因此，在本发明的实施例中，通过预先设置抽帧策略，使得针对待检测视频仅抽取该视频起始一帧或多帧中的一帧，而不会增加内容相同的冗余帧。在块404处，基于预定的抽帧策略对视频帧数据流403进行抽帧，得到按规则抽取出的视频帧405。为了进一步降低计算的复杂度，将全部按规则抽取出的视频帧405的原始分辨率按比例缩放到一个相同的尺寸，这样保证了特征检测的稳定性并且使得视频帧内容相似度的计算更为容易。本实施例中，抽帧策略的预先设定是通过预先设置FFmpeg参数来实现的。由此，得到抽取出的待检测的视频帧。针对包含不符帧的帧的检测，可以在抽帧策略的设置上指定特定画面的出现时间（例如，在上述实施例中为视频起始的一帧或多帧），以保证抽取的帧数据中包含不符帧以检测内容的相似性。这里，基于预定抽帧间隔对待检测视频抽帧包括：基于等间隔的抽帧间隔对待检测的视频抽帧（例如，每隔10帧抽取一帧）。可选地，基于预定抽帧间隔对待检测视频抽帧也可以包括：针对视频起始的若干帧仅抽取一帧，并对待检测视频的其余帧等间隔地抽帧。可选地，针对视频起始的若干帧仅抽取一帧可以是针对视频起始的若干帧仅抽取视频首帧。换言之，基于预定抽帧间隔对待检测视频抽帧也可以包括：针对视频起始的若干帧抽取视频首帧，并对待检测视频的其余帧等间隔地抽帧。应该注意的是，如本领域技术人员所理解的那样，若干指的是一个固定的常数，例如视频起始的若干帧指的是视频起始的5或10帧（或其他可选的固定常数）。

图5示出了根据本发明实施例对待检测视频帧进行特征提取的流程图500。视频帧的特征提取是通过特定局部特征描述子对视频进行描述。特征描述子用于描述视频帧的局部共性，最终形成了一个视频帧的特征集合。特征描述子优选地具有尺度不变性和旋转不变性，并且优选地在光照变化、仿射变化和投影变化方面也具有较好的鲁棒性。在本发明的一个实施例中，采用ORB特征描述子。由于ORB特征对帧间相似度的计算对旋转不变性和尺度不变性要求较低，同时ORB特征比SIFT快两个数量级，比SURF快一个数量级，因而适于对视频帧的特征描述。在ORB特征检测的基本流程图500中，首先将待检测视频帧507中的每一帧进行特征金字塔508的构造，然后在空域进行FAST角点检测以提取FAST角点509。在块510处对检测到的角点进行非极大值抑制NMS过滤得到较好的特征点。在块511处，对检测到的角点利用灰度质心法计算角点的旋转角度。在块512处，利用该角点的旋转角度来计算BRIEF描述子的生成，使得对于空域的旋转具有一定的鲁棒性。流程图500中所示的4个帧是以抽取4帧为例的针对待检测视频的特征提取示意。

ORB算法是包括oFAST特征点提取和rBRIEF特征点描述。以下对oFAST特征点提取和rBRIEF特征点描述进行具体说明。

oFAST特征点提取的方法包括：

-粗提取，从视频帧序列中的一个视频帧中选择一个点P，判断P是否为特征点，在以P为圆周的像素中4个位置上有3个位置像素的灰度值全部大于或全部小于P点的灰度值的情况下，判断P是特征点；在不满足以P为圆周的像素中4个位置上有3个位置像素的灰度值全部大于或全部小于P点的灰度值的情况下，判断P不是特征点；

-使用非极大值抑制的方法去除局部密集的特征点；

-建立金字塔以实现特征点的尺度不变，设置比例因子scaleFactor和金字塔层数nlevels；将原图按比例缩小为nlevels幅视频帧，缩小后的视频帧的灰度为：

I为原始视频帧，

为缩小后的视频帧，幅各个比例不同的视频帧提取的特征点的总和为图像的oFAST特征点；

-利用下式定义的矩计算当前特征点以r为半径的圆形范围内的质心，特征点的方向为特征点坐标到质心形成的向量，矩为：

其中，

为视频帧的灰度表达式，矩的质心为：

向量的角度即特征点的方向，向量的角度为：

。

rBRIEF特征点描述的方法包括：

-采用方差为2，高斯窗口为9×9的高斯滤波方式对视频帧进行降噪处理；

-取以特征点为中心，大小通常为S×S的邻域大窗口，其中S=31；在大窗口中随机选择两个大小为5×5的子窗口，对子窗口内的像素记性对比，并通过下式进行二进制赋值：

-在所得到的大窗口中随机选择N对子窗口，并进行二进制赋值，形成下式的二进制编码，二进制编码为特征点描述：

针对位置

处的n个二进制测试的任何特征集合，定义2×n的矩阵：

旋转θ角度后形成矩阵

，计算通过旋转矩阵后的这些匹配点的坐标为：

使用

中的像素点求取特征点的描述子。

图6示出了根据本发明实施例对待检测视频进行视频帧特征匹配的流程图600。视频帧的特征匹配本质上是特征描述子（即图5中的ORB特征描述子）的相似度计算。特征描述子描述的是视频帧空域特征，在数值上表现为两个特征向量，特征向量之间的距离可以代表描述子之间的相似度。为了考虑性能与鲁棒性的平衡，将特征向量的大小限制在N（N为预先设定的正整数）个以内，同时约束视频帧的大小在M（M为预先设定的正整数）以内。在一个实施例中，分辨率为480P的视频可以设置视频帧大小的约束M=1000，特征向量大小的约束N=200。不同的视频质量和分辨率可以根据实际情况调整特征向量的大小约束M和视频帧大小的约束N。对于二进制描述子BRIEF采用汉明距离来计算相似度。在流程图600中，首先对BRIEF描述子进行暴力匹配，得到暴力匹配的结果。由于暴力匹配的结果包含了大量错误的匹配，因此进而通过基于区域块的统计方法对错误的匹配点进行过滤。基于区域块的统计方法为：为判断某个匹配点是否正确，在以该匹配点为中心的预先设定大小的区域块中，统计该区域块中其他匹配点的正确匹配率。如果正确匹配率大于预定阈值（例如正确匹配率大于50%），则判断该匹配点的匹配正确；否则判断该匹配点的匹配错误。通过约束匹配点的位置过滤掉错误的匹配点，得到置信度较高的匹配点个数，并将最终的匹配点个数作为视频两帧之间的相似度度量。

本发明设定了一种内容相似度的判断规则。该判断规则的设计原理在于：首帧不符视频的帧间特征匹配个数在所抽取的起始一帧或多帧中的一帧与抽取的下一帧之间具有跳变的特征，而抽取的后续帧之间的特征匹配个数相对平稳。基于这种特征匹配点的数量分布，以针对待检测视频仅抽取4帧为例，记x, y, z分别为前4帧之间的特征匹配个数。设置跳变性约束因子为K，稳定性约束因子为S，则在同时满足以下条件时，将待检测视频判断为首帧不符视频：

K*x<y （1）

K*x<z （2）

y/z<S （3）

z/y<S （4）

以上约束条件在抽取4个帧的情况下，约束了视频帧间个数是符合首帧跳变并且除首帧之外的视频帧间匹配个个数相差不大的特性。典型地，K大于等于10，S大于1是较为严格的约束。K和S的值可以根据实际情况的要求而具体设定。

在一个实施例中，预定约束条件为：抽取出的视频帧序列其中一个第一视频帧与其相邻帧之间的第一相似度度量，与除第一视频帧外的多个第二视频帧与其相邻帧之间的多个第二相似度度量其中之一的比值的倒数大于等于预定阈值。在另一个实施例中，预定约束条件还包括：每两个第二相似度度量之间的比值落入预定范围。

n₁/n_j>K;

n₂/n_j>K;

……;

n_j-1/n_j>K;

n_j+1/n_j>K;

……;

n_N-1/n_j>K;

其中，K为大于等于10的常量，N为针对视频抽取帧的总数，

且j为正整数，M为正整数。具体地，M可以满足

n₂/n₁>K;

n₃/n₁>K;

……;

n_N-1/n₁>K;

其中K为大于等于10的常量，N为针对视频抽取帧的总数，

且M为正整数。

在一个实施例中，预定约束条件在上述M个式子的基础上，还可以包括：1/S<n_k/n_k+1<S（k=2,…, N-1）；其中S为大于1的常量。该附加约束条件可以约束所抽取的待检测视频的其余帧与其相邻帧之间的相似度度量之间的变化平稳。

图7示出了根据本发明的另一实施例进行视频检测的流程图700。在该实施例中，视频检测的过程是在服务器701中执行的。首先，服务器701从终端702接收到对视频内容进行检测的请求703。服务器701在接收到该请求后，向终端702发送收到对视频内容进行检测的请求的确认消息704。然后，服务器执行上述实施例的针对视频进行检测的方法，具体地包括：基于预定抽帧间隔对待检测视频抽帧，获得抽取出的视频帧序列；基于特征检测算法对视频帧序列进行特征检测，获得视频帧特征描述子的序列；对视频帧特征描述子的序列中的相邻视频帧特征描述子进行视频帧特征匹配，获得视频帧序列的相邻帧之间的相似度度量；在相似度度量满足预定约束条件的情况下，将视频标记为包含不符帧的视频。最后，在705处，基于将视频标记为包含不符帧的视频，服务器701向终端702发送从服务器向终端发送指示在终端处对包含不符帧的视频进行提示的消息。在另一个实施例中，当在服务器中存储视频的情况下，还可以服务器中删除包含不符帧的视频中的不符视频帧；或从服务器中删除包含不符帧的视频。

在另一个实施例中，视频检测的过程也可以在终端中执行。也就是说，终端首先获取待检测的视频；基于预定抽帧间隔对待检测视频抽帧，获得抽取出的视频帧序列；基于特征检测算法对视频帧序列进行特征检测，获得视频帧特征描述子的序列；对视频帧特征描述子的序列中的相邻视频帧特征描述子进行视频帧特征匹配，获得视频帧序列的相邻帧之间的相似度度量；在相似度度量满足预定约束条件的情况下，将视频标记为包含不符帧的视频。然后，基于将视频标记为包含不符帧的视频，在终端处对包含不符帧的视频进行提示。

图8示出了根据本发明实施例的基于帧间相似度的视频检测方法800的流程图。在步骤801中，获取待检测视频。在步骤802中，基于预定抽帧间隔对待检测视频抽帧，获得抽取出的视频帧序列。在一个实施例中，基于等间距的抽帧间隔对待检测视频抽帧。例如，可以抽取出视频中的每一帧，或例如每隔24帧抽取一帧。在另一个实施例中，基于预定抽帧间隔对待检测视频抽帧包括针对视频起始若干帧仅抽取一帧，并且对视频的其余帧等间隔抽帧。在一个实施例中，在基于预定抽帧间隔对待检测视频抽帧后，将抽取出的各帧按比例缩放到相同尺寸。在步骤803中，基于特征检测算法对视频帧序列进行特征检测，获得视频帧特征描述子的序列。特征检测算法包括ORB算法，ORB算法包括FAST特征点检测和BRIEF特征点描述。在步骤804中，对视频帧特征描述子的序列中的相邻视频帧特征描述子进行视频帧特征匹配，获得视频帧序列的相邻帧之间的相似度度量。视频帧特征匹配包括：对视频帧特征描述子进行暴力匹配得到暴力匹配结果，然后通过基于区域块的统计方法对暴力匹配结果进行过滤，得到最终的匹配点个数作为视频两帧之间的相似度度量。在步骤805中，在相似度度量满足预定约束条件的情况下，将视频标记为包含不符帧的视频。预定约束条件为：所抽取的视频帧序列中的一帧与其相邻帧之间的相似度度量与所抽取的待检测视频的其余帧与其相邻帧之间的相似度度量之间存在跳变；并且所抽取的待检测视频的其余帧与其相邻帧之间的相似度度量之间的变化平稳。在一个实施例中，预定约束条件为：抽取出的视频帧序列其中一个第一视频帧与其相邻帧之间的第一相似度度量，与除第一视频帧外的多个第二视频帧与其相邻帧之间的多个第二相似度度量其中之一的比值的倒数大于等于预定阈值。在另一个实施例中，预定约束条件还包括：每两个第二相似度度量之间的比值落入预定范围。

n₁/n_j>K;

n₂/n_j>K;

……;

n_j-1/n_j>K;

n_j+1/n_j>K;

……;

n_N-1/n_j>K;

其中，K为大于等于10的常量，N为针对视频抽取帧的总数，

且j为正整数，M为正整数。具体地，M可以满足

n₂/n₁>K;

n₃/n₁>K;

……;

n_N-1/n₁>K;

在一个实施例中，预定约束条件在上述M个式子的基础上，还可以包括：1/S<n_k/n_k+1<S（k=2,…, N-1）其中S为大于1的常量。该附加约束条件可以约束所抽取的待检测视频的其余帧与其相邻帧之间的相似度度量之间的变化平稳。

图9示出了根据本发明实施例的基于帧间相似度的视频检测装置900的框图。基于帧间相似度的视频检测装置900包括获取模块901、抽取模块902、特征检测模块903、特征匹配模块904和标记模块905。获取模块901被配置用于获取待检测视频。抽取模块902被配置用于基于预定抽帧间隔对待检测视频抽帧，获得抽取出的视频帧序列。在一个实施例中，基于等间距的抽帧间隔对待检测视频抽帧。例如，可以抽取出视频中的每一帧，或例如每隔24帧抽取一帧。在另一个实施例中，基于预定抽帧间隔对待检测视频抽帧包括针对视频起始若干帧仅抽取一帧，并且对视频的其余帧等间隔抽帧。在一个实施例中，在基于预定抽帧间隔对待检测视频抽帧后，将抽取出的各帧按比例缩放到相同尺寸。特征检测模块903被配置用于基于特征检测算法对视频帧序列进行特征检测，获得视频帧特征描述子的序列。特征检测算法包括ORB算法，ORB算法包括FAST特征点检测和BRIEF特征点描述。特征匹配模块904被配置用于对视频帧特征描述子的序列中的相邻视频帧特征描述子进行视频帧特征匹配，获得视频帧序列的相邻帧之间的相似度度量。视频帧特征匹配包括：对视频帧特征描述子进行暴力匹配得到暴力匹配结果，然后通过基于区域块的统计方法对暴力匹配结果进行过滤，得到最终的匹配点个数作为视频两帧之间的相似度度量。标记模块905被配置用于在相似度度量满足预定约束条件的情况下，将视频标记为包含不符帧的视频。预定约束条件为：所抽取的视频帧序列中的一帧与其相邻帧之间的相似度度量与所抽取的待检测视频的其余帧与其相邻帧之间的相似度度量之间存在跳变；并且所抽取的待检测视频的其余帧与其相邻帧之间的相似度度量之间的变化平稳。在一个实施例中，预定约束条件为：抽取出的视频帧序列其中一个第一视频帧与其相邻帧之间的第一相似度度量，与除第一视频帧外的多个第二视频帧与其相邻帧之间的多个第二相似度度量其中之一的比值的倒数大于等于预定阈值。在另一个实施例中，预定约束条件还包括：每两个第二相似度度量之间的比值落入预定范围。

n₁/n_j>K;

n₂/n_j>K;

……;

n_j-1/n_j>K;

n_j+1/n_j>K;

……;

n_N-1/n_j>K;

其中，K为大于等于10的常量，N为针对视频抽取帧的总数，

且j为正整数，M为正整数。具体地，M可以满足且M为正整数。该预定约束条件可以约束所抽取的视频帧序列中的一帧与其相邻帧之间的相似度度量与所抽取的待检测视频的其余帧与其相邻帧之间的相似度度量之间存在跳变。

n₂/n₁>K;

n₃/n₁>K;

……;

n_N-1/n₁>K;

其中K为大于等于10的常量，N为针对视频抽取帧的总数，

且M为正整数。

本发明利用首帧不符假视频的特点，通过设计特定的抽帧方式，优化特征检测与匹配方法和设定判决规则等方式，实现了快速准确地检测首帧不符视频（例如，在百毫秒以内）。

在线上抽取了890个视频进行标注，在这些视频中包括118个首帧内容不符视频和780个正常视频，算法的客观性能指标如表1所示：

评价指标	准确率	召回率	F1值
				算法结果	98.20%	84.75%	0.91

针对首帧不符画面进行检测，本发明针对首帧内容不符的视频特点设计特定抽帧方式，与视频指纹类方法生成视频所有帧的特点不同，具有快速准确的特点。避免了帧间特征的冗余计算，同时对视频帧进行尺度缩放减少了特征检测和匹配的计算量，解决了视频内容检测速度慢的问题。除首帧内容检测之外，该发明可以适用于任何特定画面的检测任务，仅需要调整抽帧策略即可。该发明可以灵活地运用到任意视频类型中，特征相似度计算方法具有通用性。

图10示出了用于进行视频检测的示例计算设备1000的示意图。

计算设备1000可以是各种不同类型的设备，例如服务器计算机、与客户端（例如，客户端设备）相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。

计算设备1000可以包括能够诸如通过系统总线1014或其他适当的连接彼此通信的至少一个处理器1002、存储器1004、（多个）通信接口1006、显示设备1008、其他输入/输出（I/O）设备1010以及一个或多个大容量存储装置1012。

处理器1002可以是单个处理单元或多个处理单元，所有处理单元可以包括单个或多个计算单元或者多个核心。处理器1002可以被实施成一个或多个微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。除了其他能力之外，处理器1002可以被配置成获取并且执行存储在存储器1004、大容量存储装置1012或者其他计算机可读介质中的计算机可读指令，诸如操作系统1016的程序代码、应用程序1018的程序代码、其他程序1020的程序代码等，以实现本发明实施例提供的视频检测方法。

存储器1004和大容量存储设备1012是用于存储指令的计算机存储介质的示例，所述指令由处理器1002执行来实施前面所描述的各种功能。举例来说，存储器1004一般可以包括易失性存储器和非易失性存储器二者（例如RAM、ROM等等）。此外，大容量存储设备1012一般可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘（例如CD、DVD）、存储阵列、网络附属存储、存储区域网等等。存储器1004和大容量存储设备1012在本文中都可以被统称为存储器或计算机存储介质，并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非瞬时性介质，所述计算机程序代码可以由处理器1002作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。

多个程序模块可以存储在大容量存储设备1012上。这些程序包括操作系统1016、一个或多个应用程序1018、其他程序1020和程序数据1022，并且它们可以被加载到存储器1004以供执行。这样的应用程序或程序模块的示例可以包括例如用于实现以下部件/功能的计算机程序逻辑（例如，计算机程序代码或指令）：获取模块901、抽取模块902、特征检测模块903、特征匹配模块904、标记模块905和/或本文描述的另外的实施例。

虽然在图10中被展示成存储在计算设备1000的存储器1004中，但是模块1016、1018、1020和1022或者其部分可以使用可由计算设备1000访问的任何形式的计算机可读介质来实施。如本文所使用的，“计算机可读介质”至少包括两种类型的计算机可读介质，也就是计算机存储介质和通信介质。

计算机存储介质包括通过用于存储信息的任何方法或技术实施的易失性和非易失性、可移除和不可移除介质，所述信息诸如是计算机可读指令、数据结构、程序模块或者其他数据。计算机存储介质包括而不限于RAM、ROM、EEPROM、闪存或其他存储器技术，CD-ROM、数字通用盘（DVD）、或其他光学存储装置，磁盒、磁带、磁盘存储装置或其他磁性存储设备，或者可以被用来存储信息以供计算设备访问的任何其他非传送介质。

与此相对，通信介质可以在诸如载波或其他传送机制之类的已调数据信号中具体实现计算机可读指令、数据结构、程序模块或其他数据。本文所定义的计算机存储介质不包括通信介质。

计算设备1000还可以包括一个或更多通信接口1006，以用于诸如通过网络、直接连接等等与其他设备交换数据，正如前面所讨论的那样。一个或更多通信接口1006可以促进在多种网络和协议类型内的通信，其中包括有线网络（例如LAN、电缆等等）和无线网络（例如WLAN、蜂窝、卫星等等）、因特网等等。通信接口1006还可以提供与诸如存储阵列、网络附属存储、存储区域网等等中的外部存储装置（未示出）的通信。

在一些示例中，可以包括诸如监视器之类的显示设备1008，以用于显示信息和图像。其他I/O设备1010可以是接收来自用户的各种输入并且向用户提供各种输出的设备，并且可以包括触摸输入设备、手势输入设备、摄影机、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。

通过研究附图、公开内容和所附的权利要求书，本领域技术人员在实践所要求保护的主题时，能够理解和实现对于所公开的实施例的变型。在权利要求书中，词语“包括”不排除其他元件或步骤，不定冠词“一”或“一个”不排除多个，并且“多个”意指两个或更多。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获利。

Claims

1.一种视频检测方法，包括：

获取待检测视频；

基于预定抽帧间隔对所述待检测视频抽帧，获得抽取出的视频帧序列；

基于特征检测算法对所述视频帧序列进行特征检测，获得视频帧特征描述子的序列；

对所述视频帧特征描述子的序列中的每两个相邻视频帧特征描述子进行视频帧特征匹配，获得所述视频帧序列的相邻帧之间的相似度度量；

在所述相似度度量满足预定约束条件的情况下，将所述视频标记为包含不符帧的视频。

2.根据权利要求1所述的方法，其特征在于，所述基于预定抽帧间隔对所述待检测视频抽帧，包括：

基于等间距的抽帧间隔对所述待检测视频抽帧；或者

针对视频起始若干帧仅抽取一帧，并且对所述视频的其余帧等间隔抽帧。

3.根据权利要求1所述的方法，其特征在于，所述预定约束条件包括：抽取出的视频帧序列其中一个第一视频帧与其相邻帧之间的第一相似度度量，与除所述第一视频帧外的多个第二视频帧与其相邻帧之间的多个第二相似度度量其中之一的比值的倒数大于等于预定阈值。

4.根据权利要求3所述的方法，其特征在于，所述预定约束条件还包括：

每两个第二相似度度量之间的比值落入预定范围。

5.根据权利要求3所述的方法，其特征在于，所述预定约束条件还包括：将所抽取的视频帧序列中的每个视频帧与其相邻帧之间的相似度度量记为n₁,…, n_k, n_k+1, …, n_N-1，所述第一相似度度量n_j选自其中之一，所述第二相似度度量是除所述第一相似度度量之外的相似度度量n₂,…, n_j-1, n_j+1, …, n_N-1中的任意一个，所述第一相似度度量和第二相似度度量满足下述式子中的至少M个式子：

n₁/n_j>K;

n₂/n_j>K;

……;

n_j-1/n_j>K;

n_j+1/n_j>K;

……;

n_N-1/n_j>K;

其中，K为大于等于10的常量，N为针对所述视频抽取帧的总数，

且j为正整数，M为正整数。

6.根据权利要求3所述的方法，其特征在于，所述预定约束条件包括：将所抽取的视频帧序列中的每个视频帧与其相邻帧之间的相似度度量记为n₁,…, n_k, n_k+1, …, n_N-1，所述第一相似度度量为n₁，所述第二相似度度量选自n₂~n_N-1其中之一，所述第一相似度度量和第二相似度度量满足下述式子中的至少M个式子：

n₂/n₁>K;

n₃/n₁>K;

……;

n_N-1/n₁>K;

其中K为大于等于10的常量，N为针对所述视频抽取帧的总数，

且M为正整数。

7.根据权利要求5或6所述的方法，其特征在于，所述n₁为所述视频帧序列中首帧与第二帧之间的相似度度量。

8.根据权利要求5所述的方法，其特征在于，所述预定约束条件还包括：

1/S<n_k/n_k+1<S（k=1, 2,…, j-1，j+1, …, N-1）；其中S为大于1的常量。

9.根据权利要求6所述的方法，其特征在于，所述预定约束条件还包括：

1/S<n_k/n_k+1<S（k=2,…, N-1）；其中S为大于1的常量。

10.根据前述权利要求1-6中任一项所述的方法，其特征在于，所述待检测视频是通过对原始视频分段得到的原始视频中的一个视频分段。

11.根据前述权利要求1-6中任一项所述的方法，其特征在于，基于特征检测算法对所述视频帧序列进行特征检测，获得视频帧特征描述子的序列包括：

从所述视频帧序列中的一个视频帧中确定多个特征点P；

根据所述特征点P的特征向量，获得视频帧特征描述子的序列。

12.根据前述权利要求1-6中任一项所述的方法，其特征在于，所述对所述视频帧特征描述子的序列中的相邻视频帧特征描述子进行视频帧特征匹配，获得所述视频帧序列的相邻帧之间的相似度度量，包括：

将抽取出的视频帧其中一帧的各个所述特征点P的特征向量，与相邻视频帧中的各个特征点P的特征向量，分别进行向量匹配；

根据所述向量的匹配结果，获得所述视频帧序列的相邻帧之间的相似度度量。

13.根据前述权利要求1-6中任一项所述的方法，其特征在于，所述视频帧特征匹配包括：

对所述视频帧特征描述子的序列中的相邻视频帧特征描述子进行暴力匹配得到暴力匹配结果，所述暴力匹配为针对相邻视频帧特征描述子中的特征点P进行一一匹配；

通过基于区域块的统计方法，对所述暴力匹配结果进行过滤，所述区域块是以所述暴力匹配结果中的当前特征点为中心、半径为d的区域；

得到最终的匹配点个数作为视频两帧之间的相似度度量。

14.根据前述权利要求1-6中任一项所述的方法，还包括：

基于将所述视频标记为包含不符帧的视频，在终端处对所述包含不符帧的视频进行提示；或者

基于将所述视频标记为包含不符帧的视频，从服务器向终端发送指示在终端处对所述包含不符帧的视频进行提示的消息。

15.一种视频检测装置，包括：

获取模块，被配置用于获取待检测视频；

抽取模块，被配置用于基于预定抽帧间隔对所述待检测视频抽帧，获得抽取出的视频帧序列；

特征检测模块，被配置用于基于特征检测算法对所述视频帧序列进行特征检测，获得视频帧特征描述子的序列；

特征匹配模块，被配置用于对所述视频帧特征描述子的序列中的每两个相邻视频帧特征描述子进行视频帧特征匹配，获得所述视频帧序列的相邻帧之间的相似度度量；以及

标记模块，被配置用于在所述相似度度量满足所预定约束条件的情况下，将所述视频标记为包含不符帧的视频。