CN101635843B

CN101635843B - 一种基于帧间变化特征的视纹提取、查找比对方法及系统

Info

Publication number: CN101635843B
Application number: CN 200810117042
Authority: CN
Inventors: 黄铁军; 黄铮; 田永鸿; 高文
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2008-07-23
Filing date: 2008-07-23
Publication date: 2011-05-11
Anticipated expiration: 2028-07-23
Also published as: CN101635843A

Abstract

本发明涉及一种基于帧间变化特征的视纹提取、查找比对方法及系统。基于帧间变化特征的视纹提取方法经过有效的视频预处理，尽量将各种不同质量和分辨率的视频统一到一致的分辨率和视频质量水平上。然后通过相邻若干帧之间相关性的计算，找到相邻若干帧之间特征明显的(例如差异最大)的若干图像块，对这些块的编号进行编码，形成帧指纹。对帧指纹序列进行组合，形成视纹。同时，由于本发明视纹提取方法具有良好的鲁棒性，发明了与该视纹提取方法配套的，基于倒排查询和窗口滑动匹配的视纹比对查找算法。在保证查询准确度的情况下，极大地提高了检索速度。可适用于实时操作。

Description

一种基于帧间变化特征的视纹提取、查找比对方法及系统

技术领域

本发明涉及一种基于帧间变化特征的视纹提取、查找比对方法及系统，主要是基于度量帧间变化特征的视纹提取和片断匹配的方法和系统，属于计算机网络技术领域。

背景技术

随着互联网和数字多媒体技术的迅速发展，我们正步入一个全新的数字时代。数字化的图像、视频、音频等数字媒体正在成为信息爆炸的主要推动力。图像、音频、视频等媒体类资源(行文方便，下称流媒体)与数据、文档、代码等数据类资源(相对于流媒体称为常规数据或数据)共同构成信息资源，都经过信源编解码技术表示成比特序列而进入信息系统进行处理。流媒体区别于常规数据的特点在于作为对模拟信号采样量化(或数字化合成)的结果，数据量庞大，例如无压缩的高清晰度视频每秒钟的数据量超过1G比特，因而必须采用高效编码压缩技术才能广泛应用。经过压缩编码的流媒体是流媒体安全的主要处理对象。

流媒体安全是随着流媒体的广泛应用而兴起的一个媒体与信息安全相互交叉的研究领域。传统信息安全主要采用密码技术对常规数据进行保护，流媒体安全在研究目标上与传统信息安全是类似的，也可以采用密码技术进行保护，这是当前流媒体安全领域的一条主要技术路线，但是由于流媒体不同于的常规数据的特点和应用需求，流媒体安全又提出了新的需求。

过去十多年流媒体安全领域得到较为充分研究的另一重要方向是数字水印(Digital Watermarking)方法，即在流媒体中嵌入特定信息。鲁棒水印能够抵抗多种处理和失真，可用于版权权属证明。脆弱和半脆弱水印则对媒体修改或失真敏感，可用于流媒体的完整性验证(数据意义或内容意义上的完整性)。从数字水印方法派生出的一种方法称为数字指纹(Digtal Fingerprinting)，嵌入的不是内容拥有者的信息而是拷贝使用者的相关信息，可用于盗版追踪和信息泄露者发现。

密码学和数字水印这两大技术路线都是主动式安全机制，或者通过加密授权等对流媒体进行保护，或者通过嵌入水印进行事后管理，这在可控的、受限的范围能进行应用是可行的。但是，流媒体最为典型的应用形式是面向公众的音乐、电视、电影等公共节目，新世纪以来，音乐、电影通过互联网进行非授权的共享愈演愈烈，对内容产业造成了严重冲击，如何保护这种节目的版权成为全球关注的热点问题。过去十年针对这一问题开展了大量研究和实践工作，但绝大多数上还是遵循密码技术和数字水印这两大技术路线，实际收效甚微，例如试图解决MP3盗版问题的安全数字音乐行动SDMI出师不利，所提出的所有音频水印方案在公开挑战阶段就被攻破；苹果公司采用密码技术的数字版权管理系统FairPlay是商业上最成功的DRM系统，但由于其以安全为理由形成垄断，2006年法国议会提出法案要求强制互操作，2007年初苹果公司呼吁放弃DRM，声称“DRM不能也永远不会解决盗版问题”，揭示了在全球网络时代采用密码技术实现流媒体安全的诸多问题。

密码学和数字水印这两大技术路线遇到的困难促使了第三条技术路线的探索。对流媒体的有效管理需要建立在内容鉴别而不是数据简便的基础上。流媒体的比特流发生比特错误通常是可以接受的，事实上，流媒体的传输信道和存储介质通常允许一定的错误率，只要这种错误不明显影响受众对音视频内容的观看或收听，特别地，翻录的盗版音乐或电影之所以仍然有其市场，正是因为节目内容仍然得到保留，虽然原始节目与盗版节目在比特意义上的相似性已经荡然无存。

对系统内容的实体进行唯一性标识是任何管理系统的第一步，互联网版权保护和内容监管之所以至今还处在初级阶段，一个重要原因是对大量的、快速流转的流媒体还未赋予有效标识。正如带有照片的身份证和生物特征识别是现代社会人员管理的基本手段一样，流媒体“指纹”也应该是流媒体管理特别是流媒体安全的基础。

视纹是我们为概括视频内容管理和版权保护的这类新方法而“制造”的一个新概念。类似指纹(Fingerprint)、声纹(Voiceprint)是标识个人身份的独特生物特征一样，媒体指纹是从媒体内容中提取的、能够唯一标识该内容的视觉特征。国际标准化组织下属的运动图像专家组MPEG称之为视觉签名(visualsignature)，工业界也有称为fingerprinting或Video DNA，目前还未有统一名称。相对于主动式保护(即密码技术路线)和主动式认证(即数字水印方法)，视纹是一种被动式认证方法，是视频身份认证和可控性研究领域有望取得突破的一个重要方向。

类似人类指纹相对于人的属性和作用，视纹可以唯一地标示一段视频的身份，无论视频经过转码、压缩、颜色通道的变化和数/模、模/数等变化，所提取视纹应该大致相当，依然可以判定其身份；而不同内容的视频所提取视纹应该截然不同，具有较强的区分性。

目前盛行的数字版权保护(DRM)技术主要是使用数字水印、媒体加密等手段防止对数字媒体产品的非法使用。但是除了通过法律条例的规范和技术手段的支持来防止盗版行为的发生是不够的，对于已经发生的盗版侵权行为也亟需一种侦察、监督和身份鉴定的手段。通过视纹技术，可以判断某个网站或运营商提供的版权不明的视频是否出自一段版权登记的视频作品，进而采取相应措施，维护网络媒体版权的纯净。

图1是使用视纹技术鉴定网络视频提供商是否侵权的一个示例。支持视纹的DRM网站可以用一个网络视频爬虫到因特网上侦察和搜罗版权信息不明确的线上视频，提取这些视频的视纹，再到数据库中去查询匹配，判断这些视频是否出自某个已经注册版权的视频文件，从而鉴别中心可判别该视频的提供商是否侵权，并予以相应的通知和处罚。

网络信息普遍被认为比较难以控制，然而，传统媒体(比如电视广播)所传播的信息亦并没有得到有效的控制。近年来，各类不法分子试图利用电视节目播出来传播不健康内容，意图危害国家安全、破坏社会和谐。而由于技术限制，目前几乎所有电视台都采取人工审片的方法来判断节目是否允许播出。其不可避免的结果就是人为疏忽导致不健康影视仍被播出。电视作为一种传统媒体和传播信息的渠道，与人们的日常生活一直有着紧密的联系，其影响力极其巨大。全国各地“误播”的案例数不胜数，视纹技术可以帮助根本上彻底解决电视节目播出的监管问题。

图2是广播电视内容监控的一个示例。节目在送审的时候，其视纹被提取存储入数据库，广电控制室通过对在播视频等间隔持续不断地自动提取视纹，与数据库中的指纹比较，如果身份不能匹配，就自动停播视频节目。此外，视纹技术还可以提供广告插播监管功能，并提供广告播放统计，包括播出次数、播出时间、收视率、点击率等，可为广告商提供依据，作为其广告投放的参考依据。

除了版权鉴别和内容监控之外，视纹技术还可以作为辅助视频分析的重要工具。网络上流行的大量尺寸不一的微视频因为其分辨率低、画面模糊，不能直接在其基础上适用人脸识别、字幕提取等分析工具，通过视纹技术，可以将微视频同清晰度较高的视频的身份关联起来，然后可将在对应的高清晰视频上进行分析的结果返回给微视频用户。

理想的视纹技术主要需要具有以下几种技术指标：

■单向性：即从映射计算，能够简单迅速的得到视纹值，而在计算上不可能构造一个预映射，使其视纹结果等于某个特定的值，即构造相应的视纹逆运算不可行。这样，视纹值就能在统计上唯一地表征输入值。

■稳定性：视纹应该是一个稳定的标识符——相同视频内容的视纹基本上保持不变，独立于视频分辨率、纵横比、编码比特率、帧率或者画面质量。与信息安全领域中加密算法所用到的hashing算法不同的是，hashing算法输入数据中一个bit的差异就会导致完全不同的两个结果。然而自然特性决定了视频数据中一些位置比特值的改变并不影响人们对视频内容的理解，甚至有时候视频质量的大幅度下降，除了一定程度地影响观看感受，但并不妨碍人们的视觉理解。所以视纹算法要对不同的质量程度有包容力，要求内容一致的视频对象计算得到足够相近的视纹结果，几个足够近似的视纹被认为代表了一致内容的视频原件。

■高度鉴别力：视纹应该是一个有高度鉴别力的标识符——不同视频内容的视纹会显著地不同。即在统计上不会有两个不同内容的视频对象映射计算出相近视纹结果。即给定视频，计算上无法找到另一幅内容不同的视频M′，满足H(M)＝H(M′)。

■时效性：针对视纹的应用场景，很多时候，比如电视广播视频播放监管，要求视纹提取和查找鉴别算法具有实时性；此外，面对海量的视频资料，可实际商用的系统必须考虑算法的现实可能性，要求算法耗用的时间资源和物理资源都尽量高效节约。

按照视纹的处理和表示方法可以把目前的视纹技术主要分为两类：

如图3所示：一类把视频文件当作一个整体的三维数据，通过三维数据变换(如三维DCT变换)提取出一个整体的描述子，这种方法的缺点是不能分段鉴别视频片断。第二类方法把视频看作是时间轴上的连续图像，把图像处理中的方法应用到经过去噪、帧率重采样、关键帧提取后的视频帧序列上。已经被尝试使用到的特征包括：颜色(亮度)直方图、平均亮度及其变种、梯度重心方向、主要颜色、兴趣点、径向投影等。这类方法提取的视频指纹具有以帧为单位，可用作视频片断匹配。

实际中，通常并不需要下载了整个视频再判断其身份，反而需要判断视频片断的版权和归属、在线监督的需求比较普遍，所以本发明延用了第二类方法的思路，把视频看作连续的图像帧。而且注意到，在第二类视纹技术中，主要都是尝试了图形处理中的各种特征，当视频图像帧的质量整体漂移的时候，会极大地影响到提取的特征稳定。本发明创新地提出了使用帧间相对变化特征来表征视频信息，无论是亮度漂移、编码压缩、分辨率变化等等，图像帧的变化可能会比较显著和剧烈，然而帧间的相对变化关系会保持稳定。

通常，视纹被看作一序列的帧指纹的集合，每个帧指纹是对应的帧(或关键帧)所提取的特征。视频之间的相似度就通过计算对应视纹的相似度得到。在已有的方法中，视纹的比对查找方法通常被当作聚类问题来分析，常用最近邻和最中心方法，所花费的比对查找时间与帧指纹的维度和数据库大小有关，因此不适合稍大的数据库和在线的判断。

本发明中，通过类似查字典的方式快速决定样例中的帧指纹符号出现在哪些视频的哪些位置，从而更快地鉴定查询样例的身份。采用倒排查询的原因是所提取的视纹具有较好的稳定性，即使是质量相差很多的视频，提取的帧指纹也能保证大部分码字不差。而其他已有视纹方法中，所提取的视纹很容易因为攻击而变化，所提取的帧指纹会因为视频特征变化而抖动，在这种情况下视纹比对常常被等同为聚类问题，即：只能使用计算复杂度高、耗时长的最近邻查找。虽然仍能找到最相似的子视频，但这些视纹的比对却不能采用基于视纹倒排索引的查询方法。

发明内容

本发明的目的在于提供一种基于帧间变化特征的视纹提取、比对查找方法及系统。

本发明要解决的技术问题是：如何能从视频内容中提取能够唯一标识该内容的视频指纹，更进一步地还有效解决海量视频库中视频间的同源性判定问题。

本发明的主要内容包括：

一种基于帧间变化特征的视纹提取方法，包括以下步骤：

A.视频预处理：对所处理的视频进行预处理，以降低视频噪声和高频能量；

B.帧间相关性计算：对视频帧进行分块，计算相邻帧间的相关性；

C.帧指纹编码：选择相邻若干帧之间差异变化最大的或差异变化最小的或符合确定规则的若干图像块，对这些块的编号进行编码，形成帧指纹；

D.视纹生成：对所述帧指纹的序列进行组合，生成视纹。

所述视频预处理包括帧率重采样、去噪处理、统一分辨率、去掉高频信息和转换到梯度图像。

所述去噪处理采用中值滤波和高斯滤波。

所述转换到梯度图像是将彩色或灰度的图像帧转换成梯度图像。

所述帧间相关性计算采用视频图像帧进行区域分块和标号，并计算相邻若干帧之间对应区域的相关性。

所述相邻若干帧之间对应区域的相关性采用每个相邻帧对的对应位置的宏块之间的互信息进行计算，互信息越小的块表示该块的梯度视觉信息变化得越多，其对应的相关性就越小。

所述帧指纹编码是根据相邻帧对应块的相关性，找到相邻若干帧之间差异变化最大的或差异变化最小的或符合确定规则的若干图像块，并对所述若干图像块的编号进行编码，形成帧指纹。

一种视纹比对查找方法，包括以下步骤：

A.视纹提取：采用所述基于帧间变化特征的视纹提取方法为视频片段提取视纹并以文件方式存储；

B.倒排文件的生成：将为每个原著视频片段提取的视纹存储为视纹文件，并生成倒排文件，存储到视纹数据库；

C.倒排查询：提取给定的查询视频片段所对应的视纹，到视纹数据库的倒排文件中查找，得到候选的匹配位置列表；

D.滑动窗口查询：对候选位置领域内做窗口滑动的精确匹配。

还包括以下步骤：为每个原著视频片段的视纹文件生成一个倒排文件，所述倒排文件中每个记录包括所有连续长度超过预定义长度的码字序列、以及该码字序列出现的位置和持续长度的列表。

所述倒排查询是对所述查询视频片段中连续长度最长的若干个互异的帧指纹进行编码，提取对应的视纹，然后到视纹数据库的倒排文件中去查找，得到候选的匹配位置列表。

所述滑动窗口查询是对每个候选位置的某个领域范围内做窗口滑动匹配，精确定位查询视频片断在原著视频片段中的起止位置。

一种基于帧间变化特征的视纹提取系统，其特征在于包括：

A.视频预处理模块：对所处理的视频进行预处理，以降低视频噪声和高频能量；

B.帧间相关性计算模块；对视频帧进行分块，计算相邻帧间的相关性；

C.帧指纹编码模块：选择相邻若干帧之间差异变化最大的或差异变化最小的或符合确定规则的若干图像块，对所述若干图像块的编号进行编码，形成帧指纹；

D.视纹生成模块：对所述帧指纹的序列进行组合，生成视纹。

模块间的数据流关系如下：

待处理视频顺序经过顺序连接的视频预处理模块、帧间相关性计算模块、帧指纹编码模块和视纹生成模块，得到其对应的视纹编码。

所述视频预处理模块用于帧率重采样、去噪处理、统一分辨率、去掉高频信息和转换到梯度图像。

所述去噪处理采用中值滤波和高斯滤波。

所述帧间相关性计算模块用于采用视频图像帧进行区域分块和标号，并计算相邻若干帧之间对应区域的相关性。

一种视纹比对系统，其特征在于包括：

A.第一视纹提取模块1：为每个视频片段提取视纹；

B.第二视纹提取模块2：为查询视频片段按一定的间隔提取一段时长为30秒的视纹；

C.倒排文件生成模块：为视纹文件生成倒排文件；

D.视纹数据库：存储利用从所述视纹提取模块1提取的视纹和改视纹所生成的倒排文件；

E.视纹快速比对查找模块：提取查询视频片段所对应的视纹，在视纹数据库的倒排文件中进行查找，得到候选的匹配位置列表，对候选位置领域内做窗口滑动的精确匹配。

所述倒排文件是由原著视频片段的视纹文件所生成的一个倒排文件，所述倒排文件中每个记录包括所有连续长度超过预定义长度的码字序列、以及该码字序列出现的位置和持续长度的列表。

所述倒排查询模块是对所述查询视频片段中连续长度最长的若干个互异的帧指纹进行编码，提取对应的视纹，然后到视纹数据库的倒排文件中去查找，得到候选的匹配位置列表。

所述滑动窗口查询模块是对每个候选位置的某个领域范围内做窗口滑动匹配，精确定位查询视频片断在原著视频片段中的起止位置。

模块间的数据流关系如下：

视频数据库中的视频经过第一视纹提取模块生成视纹文件，生成的视纹文件与经过倒排文件生成模块生成的倒排文件一起存储在视纹数据库中；查询视频经过第二视纹提取模块生成视纹文件，通过快速视纹比对查找模块到视纹库中查找到查询视频应该对应的原视频和起止位置。

视纹提取模块包括预处理模块和计算模块，

预处理模块将视频去噪、去除视频高频能量、将彩色帧转换成其它视觉信号帧；

计算模块将经过预处理之后的视频，对相邻若干帧进行计算，估计出相邻帧之间视觉信息变化最丰富的区域(选择相邻若干帧之间差异变化最大的或最小的或符合确定规则的区域)，记录下这些区域的位置，经过排序调整和编码，形成这个相邻帧对的帧指纹，每个相邻帧对形成的帧指纹串连起来就构成了整个视频的视纹或很多帧指纹向量的集合。

一种基于帧间变化特征的视纹提取、查找比对方法及系统，基于帧间变化特征的视纹提取方法经过有效的视频预处理，尽量将各种不同质量和分辨率的视频统一到一致的分辨率和视频质量水平上。然后通过相邻若干帧之间相关性的计算，找到相邻若干帧之间特征明显的若干图像块(例如变化最大)，或选择相邻若干帧之间变化最小的或符合确定规则的若干图像块，所述确定规则为：如相邻帧之间视觉信息变化最丰富，或者自定义的规则，对这些块的编号进行编码，形成帧指纹。对帧指纹序列进行组合，形成视纹。同时，由于本发明视纹提取方法具有良好的鲁棒性，发明了与该视纹提取方法配套的，基于倒排查询和窗口滑动匹配的视纹比对查找算法。在保证查询准确度的情况下，极大地提高了检索速度。可适用于实时操作。

本发明由于采取以上技术方案，其与已有方法相比，主要创新点在于：

1、在检测过程中，可以只需使用网络视频提供商发布的当前的30秒以上的视频片断，从而有效的避免了下载导致的磁盘存储空间的问题。

2、提出了一种鲁棒的帧间变化特征的度量方式，并用于视纹的提取和编码。

3、明确针对片断视频的身份识别和起止定位的需求，可以有效地根据一小段视频判断视频作品是否侵权。

4、结合了倒排查询和窗口滑动遍历查询的匹配方法，在保证准确度的情况下，极大地提高了查询速度。

5、方法的前端的预处理模块的巧妙设计起到了去噪、统一分辨率、去掉高频信息和转换到梯度图像的作用，这是本发明能保持鲁棒特征的关键前提。

6、本发明的适用范围广，使用方式多样。

给定一段网络在线视频流，本发明的视纹提取方法可以在任何含有处理器的电子浏览终端上产生，如个人电脑、智能手机等，然后提交计算出的视纹到制定数据库去查询即可。也可以把视频抓取，视纹提取和数据库查询的工作都交给某个大型服务器去做。本发明同样也适用于通过采集卡、电视卡获取的电视广播。本方法独立于视频解码模块，解码以后的连续图像帧上即可使用本发明中的视纹提取和查询匹配方法。

附图说明

图1使用视纹技术鉴定网络视频提供商是否侵权的示例；

图2电视广播内容监控示例；

图3视纹按处理和表示方法分类；

图4视纹提取方法；

图5视纹编码形成过程；

图6视纹匹配查询过程；

图7视纹比对查找系统示意图；

图8基于帧间变化特征的视纹提取系统示意图。

具体实施方式

下面通过实施例并结合附图4-7对本发明进行详细的描述。

一种基于帧间变化特征的视纹提取、查找比对方法，输入的待查询视频首先要经过一个预处理模块。预处理模块一方面是将质量不一的各种视频(可能是高清视频也可能是很模糊的数/模、模/数转换过的视频)尽量统一到同一种分辨率和同样的细节丰富程度。预处理中主要应包括视频去噪、去除视频高频能量、将彩色帧转换成其它视觉信号帧的功能。

输入的视频经过预处理之后，对相邻若干帧进行计算，估计出相邻帧之间视觉信息变化最丰富的区域，记录下这些区域的位置，经过排序调整和编码，形成这个相邻帧对的帧指纹，每个相邻帧对形成的帧指纹串连起来就构成了整个视频的视纹，也可以把视纹看作很多帧指纹向量的集合。

视频之间的相似度可直接用视纹的相似度来表示。如果进行比较的视频是等长的，那么它们所提取出来的视纹也是等长的，可以将等长的视纹看作是对齐的向量集合进行比较。如果为了判断视频片断出自哪部作品，以及出现的时间位置，可用一个与被测视频长度相当的窗口在原视频作品的视纹上滑动比较。一个直观的现实问题是，这种遍历匹配的方法耗时太长，与视频的平均长度和数据库的大小成正比。

为提高比对查找的速度，采用以下的技术方案：

一个形成视纹倒排文件的方法，使用的基于帧间变化特征的视纹方法，具有很好的鲁棒性，表现出的一个现象就是：一段变化不剧烈的视频会提出连续一样的视纹编码，利用这个性质，将连续出现长度比较长的编码看作视频匹配定位的重要特征。形成视纹倒排文件模块的工作内容是将某个视纹中所有连续长度超过0.75秒的视频码字的起始位置和持续长度提出，形成该视纹的倒排文件。

针对在线的视频身份查询定位，以及视频片断的身份查询定位的需求，采取片断地处理输入查询。每30秒的片断反馈一次查询的对应大视频和其中定位的结果。

在视频倒排文件的辅助下改进了运用窗口滑动遍历文件的查询方法。

加速的查询定位过程主要包括了一下几个步骤：根据输入视频视纹的连续较长的编码的情况判断输入片断位置的粗定位，确定若干个可能出现在大视频中的候选的起止位置，在这若干个粗略定位的邻域内做窗口滑动，采用帧指纹匹配计分的方式找到这个粗定位邻域内分值最高的位置和对应的打分，选出所有粗定位的最高分值。如果这个分值超过了预定域值，认为这个输入查询视频片断的源头就来自于被对比的大视频，判断出且起止位置。

基于此方法，开发了一种视纹比对查找系统，在此系统上，每隔一定的间隔时间，待查询的视频就被提取出30秒时间对应的视纹，这段视纹则被用于与已整理好的视纹数据库的比对，反馈的结果包含了当前的30秒视频应出自数据库中的哪部原著，以及在这部原著中出现的具体位置等信息。

如图4所示，查询视频分别经过预处理，基于帧间变化特征的视纹提取模块，和视纹编码形成的模块，最终提出可进行组织和查询的视纹数据。

预处理模块中，首先包含了一个帧率重采样的功能块，目的在于抵抗变形视频的帧率变化的攻击。采用的重采样帧率是4fps。重采样后的图像帧经过一个简单的中值滤波和高斯滤波去噪。然后调整所有的图像帧到CIF(352×288)分辨率。选取这个分辨率的主要原因在于：如果选用较大的分辨率，很多分辨率微小的视频扩大到大的尺寸上，会模糊混沌，与本身分辨率高的视频相比，缺乏很多细节信息，对应的象素值上差异很大。会相当影响后面的特征计算结果。然而选取更小的分辨率的话，比如QCIF(176×144)，总体性能会因为丢失了过多的信息而下降。想象一个极端情况，倘若设定这个整理后的分辨率之后四个象素，那么无法计算后面的视纹提取。所以这个调整后的分辨率无论太大或者太小都不利于视纹的整体鲁棒性。CIF分辨率是常用的一种分辨率，也是视觉信息能够较好呈现的一个尺寸，实用中也比QCIF更普及。加之通过实验尝试证实了它的良好性能，最终确定采用CIF分辨率。重新调整图像帧的分辨率之后，用JPEG压缩过滤图像的高频信息，JEPG压缩/解压缩过程可以看作一个非线形的低通滤波。目的还是尽量让不同质量的视频的参数精细程度趋于一致水平。经过大小重置和滤波之后的视频帧转化成梯度图像。梯度图像的公式如下：

G_x，y＝(I_x+1，y-I_x，y)²+(I_x，y+1-I_x，y)² (1)

I_x，y是位于(x，y)的象素值。

预处理之后的基于帧间变化特征的视纹提取过程如图5所示：每个图像帧都均匀分成16个宏块。每个宏块标以0～15之间的标号。通过香农互信息公式计算每个相邻帧对的对应位置的宏块之间的互信息，互信息越小的块表示该块的梯度视觉信息变化得越多，反之亦然。

香农互信息运用到本发明的图形宏块上的公式如下：

I (N_{rc}) = \underset{x &Element; N_{rc}}{Σ} P ({(x, y)}_{p}, {(x, y)}_{p - 1}) \log \frac{P ({(x, y)}_{p}, {(x, y)}_{p - 1})}{P ({(x, y)}_{p}) P ({(x, y)}_{p - 1})} - - - (2)

N_rc表示行为r列为c的这个宏块，I(N_rc)表示该宏块计算得到的相邻两帧(第p和p-1帧)互信息。其中的概率P(x，y)_p)和联合概率P((x，y)_p，(x，y)_p+1)是第p个图像帧中位置(x，y)对应的图像梯度的概率和第p个图像帧和第p-1个图像帧中位置(x，y)对应的图像梯度的联合概率，它们均可以通过梯度直方图和联合梯度直方图近似得到。

H_{p} (i) = Count (\frac{G_{p} (x, y)}{(\frac{256}{B})} = = i)

i＝0～B-1 (3)

H_{p, p - 1} (i, j) = Count (\frac{G_{p} (x, y)}{(\frac{256}{B})} = = i, \frac{G_{p - 1} (x, y)}{(\frac{256}{B})} = = j)

i，j＝0～B-1 (4)

P {(x, y)}_{p} = \frac{H_{p} (\frac{G_{p} (x, y)}{256 / B})}{N} - - - (5)

P ({(x, y)}_{p}, {(x, y)}_{p - 1}) = \frac{H_{p, p - 1} (\frac{G_{p} (x, y)}{256 / B}, \frac{G_{p - 1} (x, y)}{256 / B})}{N}

(6)

梯度图像被调整到灰度级上，范围是0～255，H_p(i)是第p帧的梯度直方图的第i个bin的值，B是bin的个数，本发明建议使用B＝16。N是图像的象素数量。公式(3)(4)(5)(6)展示了如何从梯度直方图和前后帧的联合梯度直方图估算各个象素点梯度的概率。

计算之后，每个对应宏块都得到了一个互信息值，选出其中互信息最小的三块，意味着这三块之间的梯度视觉信息变化得最多，提出他们的编号。如图所示，然后把三个编号按编号的大小重新排序。即得到了这个相邻帧对的帧指纹。如果需要，还可以把三个整型数字映射成二进制编码。前文提到过本发明的方法的鲁棒性引发的一个特征是，变化不大的视频片断会在几秒钟内提出连续一样的视纹。为了节约空间，用去重压缩的方法记录不变的帧指纹中的第一个，和这个帧指纹持续的长度。经过去重之后的编码的一个例子如下：

4 1 0 5

8 4 0 1

9 4 0 4

8 4 0 1

4 1 0 2

8 4 1 7

9 4 1 1

8 4 1 2

…

视纹匹配查询过程如图6所示。查询过程的具体流程和涉及到的参数说明如下：

首先为每个视纹文件生成一个倒排文件，所有连续长度超过3的码字都被倒排索引。记录下码字的内容，码字出现的第一个位置和码字持续的长度，格式可以这样安排：<码字>\t<起始位，长度>\t<起始位，长度>\t<起始位，长度>…一个样例如下：

<5，2，1><4434，3><10324，3><15436，3><16892，32><16925，6>

<17148，3><19414，3>

<5，3，0><18122，3>

<5，3，1><9913，3><10494，12><16189，3><16460，6><19411，3>

<5，3，2><193，4>

<5，4，0><1293，4><4860，4><14538，3>

<5，4，1><4873，3><14541，4><15539，3><16073，5><17157，4><18517，6>

<18524，3><18531，5><18539，16><18821，3><18826，5><18880，13>

<18980，13>

<5，4，2><4240，3><4351，4><4376，5><4390，18><9892，3>

<5，4，3><4306，3><4844，5><6503，7><8896，4><16466，3><18300，4>

<6，1，0><3788，3><19331，5><19342，5><19354，3><19369，6>

<6，2，0><13659，6><14706，3>

<6，2，1><859，5><3906，3><12198，3><15443，4><15456，3><15597，3>

<15632，3>

<6，3，0><4737，11><14835，3>

按预定的格式为数据库中每个视频原著生成倒排查询表文件后，可以根据输入的视频片断的视纹文件进行定位查找：首先找到输入视纹文件中连续码字最长的3个互异的码字，按照这三个码字个子的长度，到倒排文件中去查找可能出现的位置，查找时首先在原著倒排表中找到这个码字连接对应的所有的位置和持续的长度，倒排表中持续长度在查询码字持续长度的一个领域范围内的记录有可能是查询视频原来的出处，将其位置记录下来作为候选位置。比如最长的三个码字分别为：

Code1len1

Code2len2

Code3len3

现在查询code1len1，倒排文件中code1对应的列表中，该码字持续长度在len1-Δ～len1+Δ之间的项目对应的位置信息可以考虑为候选位置(当然要减去相对于视频片断头的长度)。

然后得到三个候选位置的列表：

Code1pos11，pos12，pos13，pos14…

Code2pos21，pos22，pos23，pos24…

Code3pos31，pos32，pos33，pos34…

依然用上例的倒排表做示范，假如现在需要查询码字<5，4，3，7>，意思是码字的内容是<5，4，3>，该条码字在查询文件中的持续长度为7，所有在原著中，此条码字持续长度在7-2～7+2范围内的对应位置都可能是这条码字的起止位置。读倒排文件可知这条码字在正在检验的视频原著的倒排文件中的联表信息是：<5，4，3><4306，3><4844，5><6503，7><8896，4><16466，3><18300，4>，找出其中持续长度在5～7之间的记录，为<4844，5><6503，7>，对应位置是4844、6503，这两个位置有可能是查询片断<5，4，3>对应的起始位置。假设查询码字<5，4，3，7>相对于查询视频开始的偏移为50，那么4844-50和6503-50分别有可能是查询视频在原著中对应的起止位置，将此两个位置作为候选位置记录下来：3794、6453。

类似，现对于查询样例偏移为80的码字<6，1，0，6>在上述例子倒排表中检索的候选位置为：19251、19292、19289。

三个最长的互异码字经过查询得到三个候选位置的列表，列表有的会长，有的会短，对三个列表进行一个筛选，找出最有可能的10个候选位置，对候选位置领域范围内做精确匹配。如果三个码字都查到同一个候选位置，这个候选位置是查询视频在原著中的真实起点的概率就很大。设计的选择10个最有可能的候选位置的方法如下：

对一个候选位置pos：

(1)用一个计分器count计分，首先初始化为0；

(2)如果pos在同一行中出现了多次，每出现一次count+1；

(3)如果pos在不同行出现了多次，每出现一次count+3；

按count的高低排序，提取count值最大的前十个候选位置，得到候选的pos列表：pos1，pos2，pos3…pos10。

对候选列表中每个pos的领域做精确匹配的方法如下：

(1)对pos-Δ～pos+Δ中的每个值ppos：

(2)假设查询视纹第一条与数据库中原视频视纹的第ppos条对齐；

(2)用一个计分器count计分，首先初始化为0；

(3)比较码字，三个码字完全一样的情况下count加分2，三个码字中有两个码字一样的情况下加分1；

然后对pos-Δ～pos+Δ中的每个位置ppos得到的分数做一个总的排序，找到最大的分值，以及对应的ppos，整个候选位置列表即可以得到一个精确匹配的位置列表的对应分数：<ppos1，count1>，<ppos2，count2>，<ppos3，count3>…<ppos10，count10>，再次找到其中count的最大值，以及对应的ppos位置，如果count分值大于某个域值，那么ppos就是找对的位置。如果count小于此域值，说明视频片断样例没有出现在被查询的视频原著中。

图7是本发明视纹比对查找系统架构示意图。示意图中各模块的主要功能如下：

第一视纹提取模块1：按专利中描述的方法对数据库中的视频文件提取视纹，提取出的视纹传递到倒排文件生成模块3和视纹数据库。

第二视纹提取模块2：对查询视频按一定的间隔提取出一段时长30秒的视纹，所产生的视纹传递给视纹比对查找模块4。

倒排文件生成模块3：按专利中描述的视纹倒排文件生成方法为每个视纹文件生成一个倒排文件，所生成的倒排文件与原视纹文件一起传递给视纹数据库存储。

快速视纹比对查找模块4：按专利描述的视纹快速查找方法，对第二视纹提取模块2传递过来的视纹片断进行去重，找到最长的若干互异的码字，到数据库中的倒排文件处查找，得到候选位置列表，最后根据候选位置到视纹数据库中的相应视纹文件处做窗口滑动的精确比对，返回结果。

图8是基于帧间变化特征的视纹提取系统示意图。示意图中各模块的主要功能如下：

视频预处理模块：对所处理的视频进行预处理，降低视频噪声和高频能量，帧率重采样，以及将图像帧转化为其它的视觉特征图；

帧间相关性计算模块；对视频帧进行分块，计算相邻帧间的相关性；

帧指纹编码模块：选择相邻若干帧之间特征明显的若干图像块(例如变化最大)，对所述若干图像块的编号进行编码，形成帧指纹；

视纹生成模块：对所述帧指纹的序列进行组合，生成视纹。

Claims

1.一种基于帧间变化特征的视纹提取方法，包括以下步骤：

B.帧间相关性计算：对视频帧进行分块，对图像块进行区域分块和编号，计算相邻帧间的相关性；

C.帧指纹编码：选择相邻若干帧之间符合确定规则的若干图像块，对这些块的编号进行编码，形成帧指纹；所述确定规则为：相邻帧之间视觉信息变化最丰富；

D.视纹生成：对所述帧指纹的序列进行组合，生成视纹。

2.根据权利要求1所述的一种基于帧间变化特征的视纹提取方法，其特征在于所述视频预处理包括帧率重采样、去噪处理、统一分辨率、去掉高频信息和转换到梯度图像。

3.根据权利要求2所述的一种基于帧间变化特征的视纹提取方法，其特征在于所述去噪处理采用中值滤波和高斯滤波。

4.根据权利要求2所述的一种基于帧间变化特征的视纹提取方法，其特征在于所述转换到梯度图像是将彩色或灰度的图像帧转换成梯度图像。

5.根据权利要求1所述的一种基于帧间变化特征的视纹提取方法，其特征在于所述相邻若干帧之间对应区域的相关性采用每个相邻帧对的对应位置的宏块之间的互信息进行计算，互信息越小的块表示该块的梯度视觉信息变化得越多，其对应的相关性就越小。

6.根据权利要求1所述的一种基于帧间变化特征的视纹提取方法，其特征在于所述帧指纹编码是根据相邻帧对应块的相关性，找到符合所述确定规则的若干图像块，并对所述若干图像块的编号进行编码，形成帧指纹。

7.一种视纹比对方法，包括以下步骤：

A.视纹提取：采用如权利要求1所述基于帧间变化特征的视纹提取方法为视频片段提取视纹并以文件方式存储；

8.根据权利要求7所述的视纹比对方法，其特征在于为每个原著视频片段的视纹文件生成一个倒排文件，所述倒排文件中每个记录包括所有连续长度超过预定义长度的码字序列、以及该码字序列出现的位置和持续长度的列表。

9.根据权利要求7所述的视纹比对方法，其特征在于所述倒排查询是对所述查询视频片段中连续长度最长的若干个互异的帧指纹进行编码，提取对应的视纹，然后到视纹数据库的倒排文件中去查找，得到候选的匹配位置列表。

10.根据权利要求9所述的视纹比对方法，其特征在于所述滑动窗口查询是对每个候选位置的某个领域范围内做窗口滑动匹配，精确定位查询视频片断在原著视频片段中的起止位置。

11.一种基于帧间变化特征的视纹提取系统，其特征在于包括：

B.帧间相关性计算模块；对视频帧进行分块，对图像块进行区域分块和编号，计算相邻帧间的相关性；

C.帧指纹编码模块：选择相邻若干帧之间符合确定规则的若干图像块，对所述若干图像块的编号进行编码，形成帧指纹；所述确定规则为：相邻帧之间视觉信息变化最丰富；

D.视纹生成模块：对所述帧指纹的序列进行组合，生成视纹；

模块间的数据流关系如下：

待处理视频顺序经过视频预处理模块、帧间相关性计算模块、帧指纹编码模块和视纹生成模块，得到其对应的视纹编码。

12.根据权利要求11所述的一种基于帧间变化特征的视纹提取系统，其特征在于所述帧间相关性计算模块用于采用视频图像帧进行区域分块和标号，并计算相邻若干帧之间对应区域的相关性。

13.一种视纹比对系统，其特征在于包括：

A.第一视纹提取模块：采用如权利要求1所述基于帧间变化特征的视纹提取方法为每个视频片段提取基于帧间变化特征的视纹；

B.第二视纹提取模块：为查询视频片段按一定的间隔提取一段30s的基于帧间变化特征的视纹；

C.倒排文件生成模块：为视纹文件生成倒排文件；

D.视纹数据库：存储利用所述第一视纹提取模块提取的视纹和所述倒排文件生成模块所生成的倒排文件；

E.视纹快速比对查找模块：提取查询视频片段所对应的视纹，在视纹数据库的倒排文件中进行查找，得到候选的匹配位置列表，对候选位置领域内做窗口滑动的精确匹配；

视频数据库中的视频经过第一视纹提取模块生成视纹文件，生成的视纹文件与经过倒排文件生成模块生成的倒排文件一起存储在视纹数据库中；查询视频经过第二视纹提取模块生成视纹文件，通过视纹快速比对查找模块到视纹数据库中查找到查询视频应该对应的原视频和起止位置。

14.根据权利要求13所述的视纹比对系统，其特征在于所述倒排文件是由原著视频片段的视纹文件所生成的一个倒排文件，所述倒排文件中每个记录包括所有连续长度超过预定义长度的码字序列、以及该码字序列出现的位置和持续长度的列表。

15.根据权利要求13所述的视纹比对系统，其特征在于所述视纹快速比对查找模块是对所述查询视频片段中连续长度最长的若干个互异的帧指纹进行编码，提取对应的视纹，然后到视纹数据库的倒排文件中去查找，得到候选的匹配位置列表。

16.根据权利要求13所述的视纹比对系统，其特征在于所述视纹快速比对查找模块是对每个候选位置的某个领域范围内做窗口滑动匹配，精确定位查询视频片断在原著视频片段中的起止位置。