CN101711392A

CN101711392A - 视频检测系统和方法

Info

Publication number: CN101711392A
Application number: CN200880020244A
Authority: CN
Inventors: R·卡维特
Original assignee: iPharro Media GmbH
Current assignee: iPharro Media GmbH
Priority date: 2007-04-13
Filing date: 2008-04-13
Publication date: 2010-05-19
Also published as: AU2008240091A1; WO2008128143A2; BRPI0810640A2; WO2008128143A3; JP5390506B2; JP2010525634A; EP2147396A4; MX2009011091A; SG194242A1; US8731286B2; EP2147396A2; US20130163864A1; US20100329547A1; US8326043B2

Abstract

一种视频检测系统和方法把所查询的视频分段与一个或更多所存储的视频样本进行比较。每一个所查询的视频分段和所存储的视频样本可以用对应的数字图像集合来表示。第一和第二比较包括对COLOR9空间内的低、高分辨率时间和空间统计矩集合进行比较，并且去除与所查询的数字图像集合不匹配的文件数字图像集合。第三比较通过对COLOR9空间内的小波变换系数集合进行比较生成匹配文件集合。通过把所述查询数字图像集合中的特定帧的一个或更多子帧与相应的匹配的文件子帧集合进行RGB逐比特配准及比较，确定所查询子帧的改变。如果在所查询的子帧中发生了改变，则把改变的子帧添加到所述匹配的文件子帧集合中。

Description

视频检测系统和方法

相关专利申请的交叉引用

本申请要求2007年4月13日提交的美国临时申请No.60/923,412的权益。该申请的全部教导被在此引入以作参考。

发明领域

本发明涉及一种基于内容的检索系统。具体来说，本发明涉及一种用来监控视频内容的视频特征检测、识别及分类系统。

发明背景

到达终端用户设备的宽带通信信道的可用性已经使得图像、音频和视频内容的媒体覆盖无处不在。在全球范围内传送的多媒体内容的日益增多的数量促进了对于智能内容管理的需求。供应商必须对其内容进行组织，并且必须能够检测未经授权的广播、使用以及改变。类似地，广播商和市场研究人员想要知道特定的片段(footage)在何时何地已经被广播。内容监控、市场趋势分析以及版权保护是数字媒体的新领域中的新兴应用

基于内容的检索(CBR)系统通常被用来访问、组织以及分析以数字数据表示的形式存储的信息。可以对所述数字数据表示进行搜索或者按照其他方式对其进行查询，以便确定与现有的数字数据表示的目标集合的匹配。可以通过所查询的数字数据表示与现有的数字数据表示集合之间的相似度来确定匹配。这些数字数据表示通常可以被如下分类：数字文字、数字图形、数字图像、数字音频、数字视频、数字音频和视频及其组合。

每一种数字数据表示分类通常共享特定于其分类的属性或特征。可以使用特征模型来识别及定义特定于某一分类的特征，并且通过某一分类的特征空间中的特征集合来表示该给定分类中的每一项数字数据表示。因此，可以把一项查询限制到将所查询的数字数据表示的特征集合与现有的数字数据表示集合的特征集合相匹配，其中所查询的和现有的数字数据表示特征都处在相同的特征空间内。

对特征进行匹配通常自动要求首先把特征简化成数字值集合。这可以利用特征数据集合和特征量度来实现，其可以被用于根据一条或更多条被称为特征度量的规则来进行匹配。特征度量通常由在所查询的与目标数字数据表示特征空间的特征中的相应的特征数据集合单元之间所测量的距离来决定。K维特征空间中的这种距离度量通常被称作K维最近邻居查询或K-NN查询。

在1970年代中期引入了诸如树结构之类的分级结构来索引K-NN查询。Guttman在1984年提出了一种R树索引结构，其后，Sellis在1987年提出了一种R⁺树变型，Beckman在1990年提出了一种动态R^*树变型。在每一种上面提到的树结构中，特征被定义在叶结构中，即所述特征空间的分区(partitions)。可以找到与跨越所述各分区的非正则凸子空间的距离。在维度K大于近似20并且具有低距离度量方差的特征空间内，所述非正则凸子空间使得在每一种上面提到的树结构中索引的K-NN查询几乎无法处理。

由Faloutsos于1995年以及由Ng和Sedighain于1996年实现的主分量分析方法利用Karhunen-Loeve变换的快速近似减少了特征空间维度。但是随着特征空间维度的显著减少，结果一致表明K-NN查询的精度会有损失。

特征空间内的关系数据库去除了所述树结构拓扑，从而允许定义量度空间，以便在没有所述树结构拓扑本身的固有信息的情况下跨越所述树结构拓扑。在1 999年，Vleugels实现了一种量度空间以及量度空间到d维优势空间(vantage-space)的变换，从而产生用于K-NN查询的特征度量，但是在从关系数据库到树结构数据库的变换过程中损失了查询精确度。

第二组关系数据库方法由Chiueh在1994年和Ciaccia在1997年实现。Chiueh的优势点树和Ciaccia的M树都把特征空间递归地分区成越来越小的特征子空间，其中每一个特征子空间由正则超球面定义。在K-NN查询中搜索各超球面的矩心，从而降低了复杂度。

利用前面提到的树结构、关系数据库结构以及所述树结构与关系数据库结构的组合的K-NN查询没有利用到许多数字数据表示的特征集合中所固有的特征集合正交性。通过根据所定义的特征集合的固有性质对特征进行迭代聚类，可以把特征空间中的各特征聚类递归地分区成越来越小的分离特征子空间(即巢状分离特征子空间)，其中每一个所述子空间由正则超球面定义。

涉及到包括分离超球面的特征子空间的K-NN查询允许进行部分搜索并且对于减少了的搜索时间提高了搜索精度。

发明概要

本发明通过提供一种基于内容的检索系统满足了存在于本领域内的需求，所述系统用于从来自几乎任何来源的数字媒体广播中检索诸如电影、剪辑和广告之类的数字片段的数字数据表示，从而还允许自动高效地监督这种数字内容。根据本发明的系统和处理可以是高度可扩展的，其使用高级的计算机视觉和信号处理技术来实时地分析视频和音频域内的片段。

在一些实施例中，所述基于内容的检索包括在一项或更多项数字数据表示的巢状分离特征空间内实施的一项或更多项K-NN查询。在本发明中，数字数据表示可以被分类为以下各类的其中一类：数字文字、数字图形、数字图像、数字音频、数字视频、数字音频和视频及其组合。

所述递归特征空间是顺序特征数据集合提取的结果。顺序特征数据集合提取至少包括：把已编码的且压缩的数字数据表示转换成已解码的且解压缩的数字数据表示；把所述已解码的且解压缩的数字数据表示映射到数字图像空间上；从所述数字图像空间顺序地产生一组特征数据集合；把来自所述数字图像空间的该组特征数据集合与来自现有的数字数据表示集合中的文件的相应的一组特征集合进行比较；基于特征度量集合和阈值集合把所述数字图像空间与所述文件相匹配；以及对于新的一组特征数据集合和新的数字图像空间当中的一项或更多项重复上述步骤。

产生一组特征数据集合包括以下步骤的至少其中之一：从所述数字图像空间产生一组或更多组空间特征数据集合；从所述数字图像空间产生一组或更多组空间频率特征数据集合；从所述数字图像空间产生一组或更多组时间特征数据集合；从所述数字图像空间产生一组或更多组时间频率特征数据集合；从所述数字图像空间产生一组或更多组位图特征数据集合；以及上述步骤的组合。

此外，所述数字图像空间本身可以是以下各项当中的一项或更多项：空间的一维空间、空间的多维空间、时间的一维空间、时间的多维空间、动量空间、能量空间、RGB颜色空间、YCrCb颜色空间、YIQ颜色空间、YUV颜色空间、9色空间、29色空间、位图图像空间及其组合。

从所述数字图像空间产生所述一组或更多组空间特征数据集合包括产生一个或更多空间矩集合。产生所述一个或更多空间矩集合包括产生以下各项的至少其中之一：均值、方差以及偏斜度。从所述数字图像空间产生所述一组或更多组空间频率特征数据集合包括产生以下各项当中的一项或更多项：一维DFT、多维DFT、一维小波变换以及多维小波变换。

从所述数字图像空间产生所述一组或更多组时间特征数据集合包括产生由时间和事件的其中之一索引的特征数据集合，其中事件包括以下各项的其中之一：图像、图像改变、图像改变率、图像触发、图像消息及其组合。从所述数字图像空间产生所述一组或更多组时间频率特征数据集合包括以下各项的其中之一：一维z变换、多维z变换、LSP、二维LSP、时间小波变换及其组合。

从所述数字图像空间产生所述一组或更多组位图特征数据集合包括从以下各项当中的一项或更多项产生位图特征数据集合：位图图像空间、经过平移的位图图像空间、经过旋转的位图图像空间、经过调整尺寸的位图图像空间以及经过重新量化的位图图像空间。

所述位图图像空间包括在所述数字图像空间内提供分区。在一个或更多实施例中，在所述数字图像空间内提供分区包括在空间的二维图像空间内提供5部分分区。在一些实施例中，所述5部分当中的4个部分包括与所述空间的二维图像的4个边缘当中的每一个毗接的梯形，并且第5部分包括所述空间的二维图像的中心处的矩形。在一些实施例中，所述5部分当中的4个部分包括处于所述空间的二维图像的各边缘处或其附近的圆形，并且第5部分包括处于所述空间的二维图像的中心处或其附近的圆形。

所述位图图像空间包括提供分辨率改变，其中可以改变128x128像素的完全分辨率以便提供以下分辨率的其中之一：64x64像素、32x32像素以及附加的适当分辨率。所述位图图像空间包括通过重新量化与以下各项当中的一项或更多项相关联的幅度集合来提供经过重新量化的位图图像空间：所述数字图像空间的改变、所述分辨率的改变以及所述分区的改变。所述经过重新量化的数字图像空间包括根据一种受约束的扩散算法对所述幅度集合进行重新量化。

把来自所查询的数字图像集合的各特征数据集合与来自文件数字图像集合的相应的特征数据集合进行比较包括生成相应的特征数据集合单元之间的集合距离量度，其中所述距离量度集合由误差函数集合生成。把所述查询数字图像集合与所述文件数字图像集合匹配包括对其相应的距离量度集合小于阈值集合的文件数字图像集合进行分组。

在一些实施例中，一种被适配成产生视频检测的设备包括：用于提取所查询的数字图像集合与第一组文件数字图像集合当中的每一个文件数字图像集合所共有的多个特征集合的装置；以及用于顺序地搜索所述多个特征数据集合以便找到匹配的一组文件数字图像集合的装置。顺序搜索包括把所述查询数字图像集合与所述第一组文件数字图像集合的顺序地更小的一组子集所共有的所述多个特征数据集合相匹配。

所述设备还包括用于把所述查询数字图像集合中的所查询的数字图像的一个或更多子帧与所述匹配的一组文件数字图像集合中的文件数字图像的一个或更多子帧的一个或更多集合进行比较的装置。对RGB颜色空间内的经过排序的像素集合进行比较，其中所述经过排序的像素集合以及所述RGB颜色空间是所述查询数字图像集合中的所查询的数字图像与所述匹配的一组文件数字图像集合中的所述文件数字图像所共有的。

所述设备还包括用于对所查询的数字图像的所述一个或更多子帧进行平移、调整尺寸以及重新量化并且重复上面提到的比较的装置，以便减小所述经过排序的像素集合的一个或更多子集的一个或更多匹配误差函数。

所述设备还包括用于在所述一个或更多匹配误差函数小于一个相应的匹配阈值集合的情况下检测匹配的装置。如果没有检测到，所述设备包括用于向所述匹配的一组文件数字图像集合中的所述文件数字图像的一个或更多子帧的所述一个或更多集合当中添加以下各项的其中之一的装置：(1)一个或更多新的子帧；以及(2)一个或更多子帧的新的集合。

所述设备还包括用于针对所述匹配的一组文件数字图像集合中的每一个文件数字图像重复上面提到的逐比特比较的装置。

在一些优选实施例中，一种视频检测方法包括：提取所查询的数字图像集合与第一组文件数字图像集合当中的每一个文件数字图像集合所共有的第一特征数据集合；测量对于所查询的数字图像集合的第一特征数据集合与对于所述第一组文件数字图像集合当中的每一个文件数字图像集合的第一特征数据集合之间的一个或更多误差函数的第一集合；以及生成第二组文件数字图像集合。所述第二组文件数字图像集合包括所述第一组文件数字图像集合当中的其一个或更多误差函数的相应的第一集合小于相应的第一阈值集合的每一个文件数字图像集合。可以重复前面提到的各步骤，直到提取最终的特征数据集合为止，从而生成匹配的一组文件数字图像集合。

在一些优选实施例中，所述视频检测方法还包括把所述查询数字图像集合中的所查询的数字图像的一个或更多子帧与所述匹配的一组文件数字图像集合中的文件数字图像的一个或更多子帧的一个或更多集合进行比较。所述比较是通过RGB颜色空间内的经过排序的像素集合来进行的，其中所述经过排序的像素集合以及所述RGB颜色空间是所述查询数字图像集合中的所查询的数字图像与所述匹配的一组文件数字图像集合中的所述文件数字图像所共有的。

在一些优选实施例中，对所查询的数字图像的所述一个或更多子帧进行平移、调整尺寸以及重新量化，以便减小所述经过排序的像素集合的一个或更多子集的一个或更多匹配误差函数。

在一些优选实施例中，如果所述一个或更多匹配误差函数小于相应的匹配阈值集合则检测到匹配。如果没有检测到匹配，则所述视频检测方法向所述匹配的一组文件数字图像集合中的所述文件数字图像的一个或更多子帧的所述一个或更多集合当中添加以下各项的其中之一：(1)一个或更多新的子帧；以及(2)一个或更多子帧的新的集合。对于所述匹配的一组文件数字图像集合当中的每一个文件数字图像重复上面提到的用来检测匹配子帧的各步骤。

在一些优选实施例中，通过所述查询数字图像集合的COLOR9空间中的二维统计矩的第一函数提取所述第一特征数据集合。在一些优选实施例中，所述第一函数包括：根据所述查询数字图像集合中的相继的查询数字图像之间的所述二维统计矩集合的距离度量，在时间上把所述查询数字图像集合分段成一组分段查询数字图像子集；并且对于每一个分段查询数字图像子集，对所述二维统计矩集合求平均。

在一些优选实施例中，所述测量包括：对于所述第一组文件数字图像集合当中的每一个文件数字图像集合，得到所述平均与相应的关键帧的差异。在一些优选实施例中，所述二维统计矩集合包括以下各项的至少其中之一：均值、方差以及偏斜度。

在一些优选实施例中，通过所述查询数字图像集合的COLOR9空间中的二维统计矩的第二函数提取第二特征数据集合。在一些优选实施例中，所述第二函数包括：根据所述查询数字图像集合中的相继的查询数字图像之间的所述二维统计矩集合的距离度量，在时间上把所述查询数字图像集合分段成一组分段查询数字图像子集；并且对于每一个分段查询数字图像子集，在时间上索引所述二维统计矩集合。

在一些优选实施例中，所述测量包括：对于所述第一组文件数字图像集合当中的每一个文件数字图像集合，把所述时间索引与相应的分段帧集合进行卷积。在一些优选实施例中，所述二维统计矩集合包括以下各项的至少其中之一：均值、方差以及偏斜度。

在一些优选实施例中，作为COLOR9空间内的二维小波变换系数集合提取第三特征数据集合。所述二维小波变换系数集合可以是Haar变换系数。所述COLOR9空间可以被变换到灰度，以便于进行所述二维小波变换。

在一些优选实施例中，对所述经过排序的像素集合进行比较是由所述匹配的一组文件数字图像集合中的所述文件数字图像定义的，并且所述经过排序的像素集合包括以下各项的一个或更多集合：水平偏移量、垂直偏移量、水平分段长度以及垂直分段长度。

在一些优选实施例中，为了减小所述一个或更多匹配误差函数而进行所述平移、调整尺寸、重新量化以及重复包括一个或更多反馈环路。在一些优选实施例中，为了减小所述一个或更多匹配误差函数而进行所述平移、调整尺寸、重新量化以及重复包括边缘检测和抑制功能。在一些优选实施例中，检测匹配还包括在所述经过排序的像素集合的所述一个或更多子集毗连的情况下检测到匹配。

在一些优选实施例中，如果没有检测到匹配，则所述视频检测方法添加所述查询数字图像的一个或更多子帧的子集。

在一些优选实施例中，使用一种视频归档方法来自动标记及存储视频剪辑。所述视频归档方法包括：对视频进行编码；把所述视频导入到文件数字图像集合中；从所述文件数字图像集合生成视频检测数据集合；从所述文件数字图像集合生成视频分析数据集合；从所述文件数字图像集合生成元数据集合；基于所述文件数字图像集合生成人工注释数据集合；以及从前面生成的数据生成视频索引数据集合，以便对所述视频进行归档。

在文件数字图像上产生比先前测量的文件数字图像明显更大的距离的部分完成的视频方法可以指导所述视频检测设备跳到下一个文件数字图像，从而有效地插入数据树修剪步骤。在文件数字图像上产生比先前测量的文件数字图像明显更小的距离的部分完成的视频方法可以指导所述视频检测设备存储正在测试的文件数字图像，从而允许所查询的数字数据表示替换所述匹配的文件数字图像集合中的先前测量的文件数字图像。

过早地中止搜索以便用正在测试的文件数字图像替换先前测试的文件数字图像包括以下各项当中的一项或更多项：对一个或更多匹配误差的集合进行反卷积；以及重新分配阈值水平。

附图简述

通过下面对附图中所示的本发明的优选实施例进行更为具体的描述，本发明的上述和其他目的、特征和优点将变得显而易见，其中相同的附图标记在各图中指代相同的部件。附图不一定是按比例绘制的，其重点是说明本发明的原理。

图1示出了根据本发明的实施例的示例性多通道视频监控处理的功能方框图。

图2示出了根据本发明的实施例的示例性多通道视频监控系统的方框图。

图3是示出了根据本发明的实施例的数字视频指纹的生成。

图4示出了根据本发明的实施例的与多通道视频监控系统的示例性图形用户界面的截屏。

图5示出了根据本发明的实施例的由与多通道视频监控系统的图形用户界面提供的示例性的详细剪辑比较的截屏。

图6示出了根据本发明的实施例的示例性数字视频图像检测和匹配系统的系统方框图。

图7示出了根据本发明的实施例的示例性音频视频检测和匹配系统的系统方框图。

图8示出了根据本发明的实施例的示例性视频检测处理的流程图。

图9A示出了根据本发明的实施例的各K-NN巢状分离特征子空间的示例性横贯集合。

图9B示出了根据本发明的实施例的在数字图像表示子帧中有改变的各K-NN巢状分离特征子空间的示例性横贯集合。

图10示出了根据本发明的实施例的可检测到的数字图像表示子帧中的改变的实例。

优选实施例的详细描述

应当认识到，这里所示出并描述的具体实现方式是本发明的实例，而绝不是为了限制本发明的范围。此外，所述技术适于应用在远程电信会议、机器人视觉、无人驾驶交通工具或者任何其他类似应用中。

根据本发明的视频检测系统和处理能够对来自几乎任何来源的数字媒体广播与诸如电影、剪辑和广告之类的数字片段进行比较。这就允许自动且高效地监督数字内容。所述视频检测系统是高度可扩展的，其使用高级的计算机视觉和信号处理技术来实时地分析视频和音频域内的片段。

用户可以将其参考内容插入到所述视频检测系统中，并且指定诸如不同的广播电视频道或数字视频流之类的一个或更多媒体源以进行监控。所述系统随后生成关于所述参考内容在所监控的媒体源内的外观的详细统计量。保留所述广播片段的一份拷贝以用于进行确认的目的。所述视频检测被设计成在没有全天候监督的情况下进行操作。通过把所需的人工干预量最小化，这允许按照非常成本高效的方式监控几乎任何来源。

此外，所述视频检测系统的基于内容的自动识别技术是高度精确的。尽管观察人员可能会由于疲劳而出错或者错过所述片段中的难于识别的细节，而视频检测系统则能够以证实超过99％的精度检测内容。这并不需要预先对待监控的片段进行检查或操纵。所述系统从视频流数据本身当中提取相关信息，从而可以在无需人工交互的情况下高效地监控接近无限数目的通道。

所述视频检测系统从所述参考内容计算数字签名(其被称作指纹)。这些数字签名描述了所述内容的特定视听方面，比如颜色分布、形状、图案以及音频流中的频谱。每一段视频都具有唯一的指纹，所述指纹基本上是其特有的视听特性的紧致数字表示。

所述参考内容的指纹与所有相关的元信息一起被存储在参考数据库中。如图1所示，在一种典型情况中，通过视频检测信号采集单元对将要监控的视频源进行缓冲；从这些视频源离线提取指纹；随后将所提取的指纹与所述参考数据库中的指纹进行比较。

视频检测系统和处理使用一种快速多级指纹比较引擎，其能够可靠地识别出所述参考内容在所监控的视频数据流中的任一次出现。作为所述指纹处理的一部分，所述系统对紧邻地出现的相似帧进行聚类，正如图2中所示出的那样。这就导致把所述视频在时间上分段成视觉上连贯的小单位，其被称作分镜(shot)。对于每一个分镜选择出一个代表帧(即关键帧)，其可以被用于显现在故事板上。各单独帧的指纹可以被组合形成用于整个剪辑的视频指纹。所述视频检测系统和处理使用这些视频指纹来识别出参考内容或其各部分是否以及何时出现在其中一个所监控的视频流中。

在所述匹配处理中，所述视频检测系统分析所述片段以便识别出感兴趣区域(ROI)。感兴趣区域例如在参考内容不被全屏显示时出现，其作为尺寸缩小的版本与视频中的其他内容一起被显示。在此类情况中，所述分析引擎能够识别出其中显示出所述参考内容的区域，并且在后续处理步骤中忽略其他内容。

系统总览。图3中所示的根据本发明的示例性视频检测系统40包括至少4个主要子系统：(i)信号或媒体采集子系统42；(ii)内容分析子系统44；(iii)数据存储子系统46；以及(iv)管理子系统48。所述媒体采集子系统42采集一个或更多视频信号50，并且对于每一个信号将其作为数据块存储在多个信号缓冲单元52中。取决于使用情况，所述缓冲单元52也可以执行指纹提取，正如这里更加详细地描述的那样。这在远程捕获情况中可能是有用的，其中通过诸如因特网之类的通信介质从远程捕获站点向集中式内容分析站点传送非常紧致的指纹。所述视频检测系统40和处理也可以与现有的信号采集方案集成在一起，只要可以通过网络连接访问所记录的数据。

用于每一个数据块的指纹可以被存储在所述数据存储子系统46的媒体贮存库58部分中。在一些实施例中，所述数据存储子系统46包括系统贮存库56和参考贮存库60当中的一个或更多个。所述数据存储子系统46的所述贮存库56、58、60当中的一个或更多个可以包括一个或更多本地硬盘驱动器、网络访问的硬盘驱动器、光学存储单元、随机存取存储器(RAM)存储驱动器及其组合。所述贮存库56、58、60当中的一个或更多个可以包括数据库管理系统，以便于存储及访问所存储的内容。在一些实施例中，所述系统40通过其数据库访问层支持不同的基于SQL的关系数据库系统，比如Oracle和Microsoft-SQL Server。这种系统数据库充当用于在操作期间生成的所有元数据的中央贮存库，其中包括处理、配置以及状态信息。

在一些实施例中，所述媒体贮存库58充当所述系统40的主要有效载荷数据存储装置，其用于存储所述指纹及其相应的关键帧。与所存储的指纹相关联的所述经过处理的片段的低质量版本也被存储在所述媒体贮存库58中。可以利用能够作为联网文件系统被访问的一个或更多RAID系统来实施所述媒体贮存库58。

每一个所述数据块可以成为一项分析任务，其被调度来由所述管理子系统48的控制器62进行处理。所述控制器62主要负责负载平衡以及把各项工作分配给所述内容分析子系统44的内容分析聚类54中的各单独节点。在至少一些实施例中，所述管理子系统48还包括操作员/管理员终端，其通常被称作前端64。所述操作员/管理员终端64能够被用来配置所述视频检测系统40的一个或更多元件。所述操作员/管理员终端64还能够被用来上传参考视频内容以供比较，以及用来查看及分析所述比较的结果。

如图3中所示，所述内容分析单元从所述信号缓冲单元直接获得所记录的数据块，并且在进行分析之前提取指纹。所述系统40(图2)接收一个或更多视频(更一般来说是视听)剪辑或分段70，其中的每一个包括对应的一系列图像帧71。所述图像帧是高度冗余的，其中各组帧根据所述视频分段70的不同分镜而彼此不同。在所述示例性视频分段70中，根据分镜对该视频分段的各采样帧进行分组：第一分镜72’、第二分镜72”以及第三分镜72”’。对于每一个所述不同分镜72’、72”、72”’(总体上记为72)选择代表性帧或关键帧74’、74”、74”’(总体上记为74)。所述系统40为每一个所述不同的关键帧74确定对应的数字签名76’、76”、76”’(总体上记为76)。用于所述各关键帧74的该组数字签名76合起来代表所述示例性视频分段70的数字视频指纹。

在处理了几个这样数据块70之后，把用于这些数据块的检测结果存储在所述系统数据库56(图2)中。有利的是，可以对所述信号缓冲单元52(图2)和内容分析节点54(图2)的数目和容量进行灵活地缩放，以便针对任何种类的具体使用情况定制所述系统的容量。所述系统40的实现可以包括多个软件组件，其可以被组合并配置以适应各种需求。取决于具体的使用情况，可以在相同的硬件上运行几个组件。替换地或附加地，可以在单独的硬件上运行各组件以便获得更好的性能并且改进容错性。这种模块化系统体系结构允许进行定制，从而适应几乎每一种可能的使用情况，其范围涵盖了从本地的单PC解决方案到全国范围的监控系统、容错性、记录冗余度及其组合。

系统操作员或数据分析师可以使用所述前端40(图2)来检查检测结果、管理参考内容以及监控所述系统的状态。可以向所述核心系统添加几种辅助工具，比如用来提取新的参考剪辑并且将其插入到数据库中的ClipCutter(剪辑剪切)应用，以及允许把参考剪辑与先前记录的片段进行离线匹配的RetroMatch(回溯匹配)工具。

在一些实施例中，所述视频检测系统和处理可以被安装为Web入口解决方案。Web入口实现方式允许提供灵活的按需监控以作为服务。除了web接入之外不需要其他很多条件，web入口实现方式就允许参考数据容量较小的客户端受益于本发明的视频检测系统和处理的优点。各种解决方案可以提供利用了Microsoft.Net Remoting的几种编程接口当中的一种或更多种，以便与现有的应用进行无缝户内集成。替换地或附加地，可以通过安装次级控制器和次级信号缓冲单元来添加用于所记录的视频数据的长期存储以及操作冗余度。

再次参照图2，所述信号缓冲单元52可以被实施成在无需任何用户交互的情况下全天候操作。在这种实施例中，捕获连续视频数据流、将其划分成可管理的分段或块并且将所述各分段或块存储在内部硬盘中。所述硬盘空间可以被植入充当循环缓冲器。在这种配置中，较早存储的数据块可以被移动到单独的长期存储单元中以进行归档，从而释放所述内部硬盘驱动器上的空间以用于存储新近到来的数据块。这种存储管理在非常长的时间段(例如以小时、天或星期计)内提供可靠的、不会中断的信号可用性。所述控制器62被配置成确保对所有数据块进行及时处理，以便没有数据丢失。如果需要的话(例如在网络中断期间)，所述信号采集单元52被设计成在没有任何网络连接的情况下进行操作，以便提高所述系统的容错性。

在一些实施例中，所述信号缓冲单元52对所记录的数据块本地执行指纹提取和代码转换。与底层的数据块相比，所得到的指纹的存储要求非常低，并且可以与所述数据块一起被本地存储。这就允许通过有限带宽的网络传送包括故事板的非常紧致的指纹，从而避免传送完整的视频内容。

在一些实施例中，所述控制器62管理对由所述信号缓冲单元52记录的数据块的处理。所述控制器62不断地监控所述信号缓冲单元52和内容分析节点54，从而按照需要执行负载平衡，以保持对系统资源的高效使用。举例来说，所述控制器62通过把各项分析工作分配给所选的分析节点54来启动对新数据块的处理。在一些事例中，所述控制器62自动重新启动所述分析节点54或者一个或更多整个分析节点54上的单独的分析处理，从而允许在没有用户交互的情况下进行错误恢复。可以在所述前端64处提供图形用户界面，以用于监控及控制所述系统40的一个或更多子系统42、44、46。举例来说，所述图形用户界面允许用户配置、重新配置以及获得所述内容分析44子系统的状态。

在一些实施例中，所述分析聚类44包括一个或更多分析节点54以作为所述视频检测和监控系统的工作主力。每一个分析节点54独立地处理由所述控制器62分配给它们的分析任务。这主要包括取得所记录的数据块、生成所述视频指纹以及把所述指纹与所述参考内容相匹配。所得到的数据被存储在所述媒体贮存库58和所述数据存储子系统46中。所述分析节点54还可以作为参考剪辑摄取节点、备用节点操作，或者在所述系统执行回顾匹配的情况下作为RetroMatch节点操作。一般来说，所述分析聚类的所有活动受到所述控制器的监控和控制。

在图4中示出了用于操作员、数据分析师以及其他用户的示例性主图形用户界面(GUI)的截屏80。所述视频检测和比较GUI 80使得用户能够检查检测、管理参考内容、编辑剪辑元数据、播放参考片段和检测到的片段以及执行参考内容与检测到的内容之间的详细比较。在一些实施例中，所述系统40包括一个或更多不同的图形用户界面以用于不同的功能和/或子系统，比如记录选择器和控制器前端64。

入口是与所述系统的基于web的终端用户接口，其用于提供按需内容检测以作为服务。所述入口针对的是具有较少量参考内容的顾客，比如小型到中型广告代理、内容所有者或者PR公司。客户可以登录、上传其参考内容以及选择其希望在指定时间跨度内监控的通道。可以在任何时间在线查看详细的检测报告，并且可以在每次播出了参考内容时发送电子邮件通知。此外，所述入口提供高级功能，比如RSS馈送、元数据访问、下载Microsoft-Excel或XML格式的检测报告以及详细的剪辑差异显现(就好像所述GUI前端那样)。

所述视频检测和比较GUI 80包括一个或更多用户可选择的控制82，比如标准窗口控制特征。所述GUI 80还包括检测结果表84。在所述示例性实施例中，所述检测结果表84包括多行60，其中每一行对应于每一检测。所述行60包括所存储的图像的低分辨率版本以及与所述检测本身相关的其他信息。一般来说，可以在所存储的图像旁边提供所述图像的名称或其他文字指示。所述检测信息可以包括以下各项当中的一项或多项：检测的日期和时间；所述通道或其他视频源的记号；关于匹配质量的指示；关于音频匹配的质量的指示；检查日期；检测标识值；以及关于检测源的指示。在一些实施例中，所述GUI 80还包括用于查看所检测到的匹配视频的一帧或更多帧的视频查看窗口88。替换地或附加地，所述GUI 80还包括用于比较音频比较的记号的音频查看窗口89。

所发布的内容常常略微不同于原始的参考内容，但是所发布的该内容仍将被检测到，所述系统将不会报告100％匹配。在这些情况下，用户可以利用示例性的图形用户界面90详细检查参考与检测之间的改变以进行比较分析，正如图5中所示出的那样。在上一行92中逐关键帧96地示出所述参考内容，并且将其与下一行94中的所检测到的内容进行比较。利用有色框突出显示视觉差异。音轨中的差异可以被显示为在所述关键帧96上方示出的可区别颜色的条(例如红色和绿色条)98’、98”，并且可以通过所述用户界面90并排播放参考片段和所检测到的片段来进行评估。在一些实施例中，所述前端64(图2)提供了基于分量的图形用户界面，其可以被定制以满足个别需求。在需要时可以添加诸如用户管理和系统监控之类的功能。

现在参照图6，其中详细示出了根据本发明的实施例的示例性数字视频图像检测和匹配系统的系统方框图100。所述系统方框图100包括用户接口110、系统管理器120、文件管理器130、预处理器140、视频帧处理器150、文件数据库160以及视频数据库170。

所述用户接口110与所述系统管理器120和文件管理器130直接通信。所述系统管理器130包括分析控制器121以及用来提供系统配置126和系统定时功能127的各元件。所述分析控制器121包括输入分析控制器121A和输出分析控制器121B。所述输入分析控制器121A包括用以提供阈值集合1 22的元件。所述输出分析控制器包括检测器123、分类器124以及视频驱动器125。

所述阈值集合122被用作系统输入，以便确定一个或更多特征集合阈值。在一些实施例中，所述阈值集合122基于来自所述用户接口110的输入人工地确定特征阈值。在一些实施例中，所述阈值集合122自动确定特征阈值。在一些实施例中，所述阈值集合122人工地并且自动地确定特征阈值。

视频匹配输出数据集合由所述检测器123和分类器124接收到。所述检测器123寄存所述视频匹配输出数据的结果。所述分类器124对所述视频匹配输出数据的结果进行分类。所述视频驱动器125显示所述视频匹配输出数据的结果和分类。

所述系统管理器120的系统配置126和系统定时127元件与所述预处理器140进行通信。所述系统配置126确定用以捕获MPEG视频输入流的固件配置。所述系统定时127确定用于所述MPEG视频输入流的视频捕获率和视频捕获时段。

所述用户接口110与文件管理器130进行通信以上传至少一个视频文件，从而与所查询的视频输入进行比较。所述文件管理器包括web查询131、上传标签132以及文件上传功能和队列133。所述web查询131、上传标签132以及文件上传功能133由用户通过所述用户接口110来选择。

预处理器140包括用于MPEG视频捕获和缓冲的元件141、用于从MPEG数字图像表示到RGB数字图像表示的视频转换的元件142、用于去除边界、划分屏幕和调整视频尺寸的元件143以及用于从RGB数字图像表示到COLOR9数字图像表示的视频转换的元件144。

所述预处理器140与所述视频帧处理器150进行通信。所述视频帧处理器150包括用于低分辨率时间特征提取的元件151(其中低分辨率时间特征提取包括用以计算低分辨率时间矩的方法)以及用以把所述低分辨率时间矩与现有数据库进行比较的元件152。所述视频帧处理器150在相同的元件中还包括用于高分辨率特征提取的元件151(其中高分辨率特征提取包括用以计算高分辨率时间矩的方法)以及用以把所述高分辨率时间矩与现有数据库进行比较的元件152。所述视频帧处理器150还包括用以计算2D小波变换系数的方法153以及用以把所述2D小波变换系数与现有数据库进行比较的元件154。

所述视频帧处理器150还包括用以把RGB数字图像表示子帧转换成归一化灰度数字图像表示子帧并且把所述归一化灰度数字图像表示子帧与现有数据库进行比较的元件155，其中所述比较包括平移(dx，dy)配准以及把所述归一化灰度数字图像表示子帧缩放到所述现有数据库，所述视频帧处理器150还包括用以逐比特地把所述RGB数字图像表示子帧与现有数据库进行比较的元件156，其中所述比较包括用以消除残留配准误差的边缘检测和抑制算法。所述RGB数字图像表示子帧由所述现有数据库确定。

所述视频帧处理器150还包括设置用于比较元件152、154和156的动态阈值的元件157。

所述文件数据库160包括视频帧关系数据库，其由RGB数字图像表示子帧档案161、2D小波变换系数档案162、低分辨率时间矩和高分辨率时间矩档案163以及MPEG档案164交叉参考。

所述文件数据库160的元件161、162和163分别直接对所述视频帧处理器150的元件156、154和152进行馈送。从所述MPEG档案164对所述文件数据库160的元件161、162和163的计算的方式与从所述预处理器140的用于MPEG视频捕获和缓冲的元件141分别对所述各视频帧处理器元件155、153和151的计算的方式完全相同，其中对于155、153和151的计算被分布在所述预处理器140与所述视频帧处理器150之间。

视频数据库170包括视频帧关系数据库，其由MPEG档案171、RGB数字图像表示子帧档案172和特征档案173交叉参考，其中所述特征档案包括低分辨率特征和高分辨率特征。所述视频数据库170的元件171、172和173分别由预处理器140的元件141、所述视频帧处理器150的元件155和156以及所述视频帧处理器150的元件151-154填充。所述视频数据库170按照由所述系统管理器120的系统配置126所决定的那样被填充，其中所述系统配置由用户通过所述用户接口110选择。

图7示出了根据本发明的第一实施例的音频视频检测和匹配系统的系统方框图200。所述系统方框图100包括用户接口110、系统管理器120、文件管理器130、预处理器140、视频帧处理器150、文件数据库160以及音频数据库270。

所述用户接口110与所述系统管理器120和文件管理器1 30直接通信。所述系统管理器1 30包括分析控制器121以及用来提供系统配置126和系统定时功能127的各元件。所述分析控制器121包括输入分析控制器121A和输出分析控制器121B。所述输入分析控制器121A包括用以提供阈值集合122的元件。所述输出分析控制器包括检测器123、分类器124以及音频驱动器225。

音频匹配输出数据集合由所述检测器123和分类器124接收到。所述检测器123寄存所述音频匹配输出数据的结果。所述分类器124对所述音频匹配输出数据的结果进行分类。所述音频驱动器125显示所述音频匹配输出数据的结果和分类。

所述系统管理器120的系统配置126和系统定时127元件与所述预处理器140进行通信。所述系统配置126确定用以捕获MPEG视频输入流的固件配置。所述系统定时127确定对于所述MPEG视频输入流的视频捕获率和视频捕获时段。

所述用户接口110与文件管理器130进行通信以上传至少一个音频文件，从而与所查询的音频输入进行比较。所述文件管理器包括web查询131、上传标签132以及文件上传功能和队列133。所述web查询131、上传标签132以及文件上传功能1 33由用户通过所述用户接口110来选择。

预处理器140包括用于MPEG视频捕获和缓冲的元件141、用于从MPEG数字图像表示到音频时域表示的转换的元件242以及用于从音频时域表示到音频频域表示的转换的元件243。

所述预处理器140与音频帧处理器250进行通信。所述音频帧处理器250包括用于对所述音频时域表示进行加窗的元件251以及用于把所述音频时域表示与现有数据库互相关的元件252。所述音频帧处理器250还包括用以对所述音频频域表示进行加权的元件253以及用以把经过加权的音频频域表示与现有数据库进行比较的元件254。

所述音频帧处理器250还包括设置用于比较元件252和154的动态阈值的元件157。

所述文件数据库160包括音频帧关系数据库，其由音频时域表示档案261、音频频域表示档案262以及MPEG档案164交叉参考。

所述文件数据库160的元件261和262分别直接映射到所述音频帧处理器250的元件252和254。从所述MPEG档案164对所述文件数据库160的元件261和262的计算的方式与从所述预处理器140的用于MPEG视频捕获和缓冲的元件141分别对所述音频帧处理器元件251和153的计算的方式完全相同，其中对于251和253的计算被分布在所述预处理器140与所述音频帧处理器250之间。

音频数据库270包括音频帧关系数据库，其由MPEG档案171、音频时域表示档案272和音频频域表示档案273交叉参考。所述音频数据库270的元件171、272和273分别由所述预处理器140的元件141以及所述音频帧处理器250的元件251和253填充。所述音频数据库270按照由所述系统管理器120的系统配置126所决定的那样被填充，其中所述系统配置由用户通过所述用户接口110选择。

图8示出了根据本发明的第一实施例的数字视频图像检测系统100的方法流程图300。所述方法流程图300在起始点A处启动，此时用户通过用户接口110配置所述数字视频图像检测系统126，其中配置所述系统包括选择至少一条通道、至少一种解码方法以及通道采样率、通道采样时间以及通道采样时段。配置所述系统126包括以下各项的其中之一：人工地以及半自动地配置所述数字视频图像检测系统。半自动地配置所述系统126包括以下各项当中的一项或更多项：选择通道预设、扫描调度代码以及接收调度馈送。

配置所述数字视频图像检测系统1 26还包括生成定时控制序列127，其中由所述定时控制序列127生成的信号集合提供与MPEG视频接收器的接口。

在一些实施例中，用于所述数字视频图像检测系统100的方法流程图300提供这样一个步骤：可选地向所述web查询文件图像131，以供所述数字视频图像检测系统100进行匹配。在一些实施例中，所述方法流程图300提供这样一个步骤：可选地从所述用户接口100上传图像文件，以供所述数字视频图像检测系统100进行匹配。在一些实施例中，通过对文件数据库进行查询及排队133b，可以提供至少一个文件图像以供所述数字视频图像检测系统100进行匹配。

所述方法流程图300还提供了用于在所述MPEG视频接收器处捕获及缓冲MPEG视频输入以及把所述MPEG视频输入作为数字图像表示存储171在MPEG视频档案中的步骤。

所述方法流程图300还包括以下步骤：把所述MPEG视频图像转换成多个查询数字图像表示；把所述文件图像转换成多个文件数字图像表示，其中转换所述MPEG视频图像和转换所述文件图像是可比较的方法；以及对所查询的数字图像表示与文件数字图像表示进行比较和匹配。把所述文件图像转换成多个文件数字图像表示是通过以下方式的其中之一提供的：在上传所述文件图像时转换所述文件图像；在对所述文件图像进行排队时转换所述文件图像；以及与转换所述MPEG视频图像并行地转换所述文件图像。

所述方法流程图300提供一种用于分别把所述MPEG视频图像和文件图像转换成所查询的RGB数字图像表示和文件RGB数字图像表示的方法142。在一些实施例中，转换方法142还包括从所查询的和文件RGB数字图像表示中去除图像边界143。在一些实施例中，所述转换方法142还包括从所查询的和文件RGB数字图像表示中去除分屏143。在一些实施例中，去除图像边界和去除分屏143当中的一项或更多项包括检测边缘。在一些实施例中，转换方法152还包括把所查询的和文件RGB数字图像表示的尺寸调整到128x128像素的尺寸。

所述方法流程图300还提供一种用于分别把所述MPEG视频图像和文件图像转换成所查询的COLOR9数字图像表示和文件COLOR9数字图像表示的方法144。转换方法144提供从所查询的和文件RGB数字图像表示的直接转换。

转换方法144包括以下步骤：把所查询的和文件RGB数字图像表示投影到中间辉度轴上；利用所述中间辉度对所查询的和文件RGB数字图像表示进行归一化；以及把所述经过归一化的所查询的和文件RGB数字图像表示分别转换成所查询的和文件COLOR9数字图像表示。

所述方法流程图300还提供一种用于分别把所述MPEG视频图像和文件图像转换成所查询的5分段低分辨率时间矩数字图像表示和文件5分段低分辨率时间矩数字图像表示的方法151。转换方法151提供从所查询的和文件COLOR9数字图像表示的直接转换。

转换方法151包括以下步骤：把所查询的和文件COLOR9数字图像表示分区成5个空间重叠部分和不重叠部分；对于所述5个部分当中的每一个生成统计矩集合；对所述统计矩集合进行加权；在时间上对所述统计矩集合进行相关；以及生成代表一个或更多COLOR9数字图像表示序列的各时间分段的关键帧或分镜帧集合。

用于转换方法151的生成所述统计矩集合的步骤包括生成以下各项当中的一项或更多项：对应于所述5个部分当中的每一个部分的均值、方差以及偏斜度(skew)。在一些实施例中，用于转换方法151的在时间上对统计矩集合进行相关的步骤包括对以下各项当中的一项或多项进行相关：顺序地缓冲的RGB数字图像表示集合的均值、方差和偏斜度。

通过对于顺序地缓冲的MPEG视频图像COLOR9数字图像表示集合在时间上对统计矩集合进行相关，允许对于相继的COLOR9数字图像表示的一个或更多分段确定中值统计矩集合。所述时间分段集合中的图像帧的与所述中值统计矩集合最接近地匹配的统计矩集合被识别为所述分镜帧或关键帧。所述关键帧被保留以用于产生更高分辨率匹配的进一步细化的方法。

所述方法流程图300提供一种用于把所查询的和文件5部分低分辨率时间矩数字图像表示相匹配的比较方法152。在一些实施例中，所述第一比较方法151包括找到以下各项当中的一项或多项之间的一个或更多误差：对应于所查询的和文件5部分低分辨率时间矩数字图像表示的5个分段当中的每一个的均值、方差以及偏斜度。在一些实施例中，所述一个或更多误差由一个或更多所查询的关键帧与一个或更多文件关键帧产生，其对应于一个或更多COLOR9查询和文件数字图像表示序列的一个或更多时间分段。在一些实施例中，对所述一个或更多误差进行加权，其中与更靠外的分段和部分的集合相比，所述加权在时间上的中心分段处更强，并且在空间上的中心部分处更强。

比较方法152包括在所述第一比较没有得到匹配的情况下在“E”处结束所述方法流程图300的分支单元。比较方法152包括在所述比较方法152得到匹配的情况下把所述方法流程图300引导到转换方法153的分支单元。

在一些实施例中，所述比较方法152中的匹配包括以下各项当中的一项或多项：分别记录了小于均值阈值、方差阈值和偏斜度阈值的量度的所查询的均值与文件均值之间的距离、所查询的方差与文件方差之间的距离、以及所查询的偏斜度与文件偏斜度之间的距离。对于所述第一比较方法152的所述量度可以是公知的距离生成量度集合当中的任一个。

转换方法153a包括一种从所查询的和文件COLOR9数字图像表示中提取高分辨率时间矩集合的方法，其中所述高分辨率时间矩集合包括以下各项当中的一项或多项：对于代表一个或更多COLOR9数字图像表示序列的各时间分段的图像分段中的图像集合当中的每一个图像的均值、方差以及偏斜度。

转换方法153a的时间矩由转换方法151提供。转换方法153a把所述图像集合和相应的统计矩集合索引到时间序列。比较方法154a通过卷积把对于每一个时间分段的查询和文件图像集合的统计矩进行比较。

比较方法154a中的卷积对所查询的和文件中的以下各项当中的一项或多项进行卷积：第一特征均值、第一特征方差以及第一特征偏斜度。在一些实施例中，对所述卷积进行加权，其中所述加权是色度的函数。在一些实施例中，对所述卷积进行加权，其中所述加权是色调的函数。

所述比较方法154a包括在所述第一特征比较没有得到匹配的情况下结束所述方法流程图300的分支单元。比较方法1 54a包括在所述第一特征比较方法153a得到匹配的情况下把所述方法流程图300引导到转换方法153b的分支单元。

在一些实施例中，所述第一特征比较方法153a中的匹配包括以下各项当中的一项或多项：分别记录了小于第一特征均值阈值、第一特征方差阈值和第一特征偏斜度阈值的量度的所查询的第一特征均值与文件第一特征均值之间的距离、所查询的第一特征方差与文件第一特征方差之间的距离、以及所查询的第一特征偏斜度与文件第一特征偏斜度之间的距离。对于所述第一特征比较方法153a的所述量度可以是公知的距离生成量度集合当中的任一个。

所述转换方法153b包括从所查询的和文件COLOR9数字图像表示中提取9个所查询的和文件小波变换系数的集合。具体来说，所述9个所查询的和文件小波变换系数的该集合是从包含所述COLOR9数字图像表示的9个颜色表示当中的每一个的灰度表示生成的。在一些实施例中，所述灰度表示近似等效于包含所述COLOR9数字图像表示的9个颜色表示当中的每一个的相应的辉度表示。在一些实施例中，所述灰度表示由通常被称作色域球化(sphering)的处理生成，其中色域球化近似地消除或归一化包含所述COLOR9数字图像表示的9个颜色表示当中的亮度和饱和度。

在一些实施例中，所述9个小波变换系数的集合是以下各项的其中之一：9个一维小波变换系数的集合、一组9个一维小波变换系数的一个或更多非线性集合以及9个二维小波变换系数的集合。在一些实施例中，所述9个小波变换系数的集合是以下各项的其中之一：Haar小波变换系数集合以及Haar小波变换系数的二维集合。

所述方法流程图300还提供一种用于把所述9个所查询的和文件小波变换系数的集合相匹配的比较方法154b。在一些实施例中，所述比较方法154b包括用于所述9个所查询的和文件小波变换系数的集合的相关函数。在一些实施例中对所述相关函数进行加权，其中所述加权是色调的函数；也就是说，所述加权是包含所述COLOR9数字图像表示的9个颜色表示当中的每一个的函数。

所述比较方法154b包括在该比较方法154b没有得到匹配的情况下结束所述方法流程图300的分支单元。所述比较方法154b包括在该比较方法154b得到匹配的情况下把所述方法流程图300引导到分析方法155a-156b的分支单元。

在一些实施例中，所述比较方法154b中的比较包括以下各项当中的一项或多项：所述9个所查询的和文件小波系数的集合之间的距离、9个所查询的和文件小波系数的所选集合之间的距离以及9个所查询的和文件小波系数的加权集合之间的距离。

所述分析方法155a-156b分别把所述MPEG视频图像和文件图像转换成一个或更多所查询的RGB数字图像表示子帧和文件RGB数字图像表示子帧、一个或更多灰度数字图像表示子帧和文件灰度数字图像表示子帧以及一个或更多RGB数字图像表示差异子帧。所述分析方法155a-156b提供从所查询的和文件RGB数字图像表示到相关联的子帧的直接转换。

所述分析方法55a-156b提供所述一个或更多所查询的和文件灰度数字图像表示子帧155a，其中包括：把所查询的和文件RGB数字图像表示的一个或更多部分定义为一个或更多所查询的和文件RGB数字图像表示子帧；把所述一个或更多所查询的和文件RGB数字图像表示子帧转换成一个或更多所查询的和文件灰度数字图像表示子帧；以及对所述一个或更多所查询的和文件灰度数字图像表示子帧进行归一化。

所述定义方法包括初始地定义所述一个或更多所查询的和文件RGB数字图像表示当中的每一对的完全相同的像素。所述转换方法包括从每一对所查询的和文件RGB数字图像表示子帧中提取辉度度量，以促进所述转换。所述归一化方法包括从所述一个或更多所查询的和文件灰度数字图像表示子帧当中的每一对中减去均值。

所述分析方法155a-156b还提供比较方法155b-156b。所述比较方法155b-156b包括在所述第二比较没有得到匹配的情况下结束所述方法流程图300的分支单元。所述比较方法155b-156b包括在所述第二比较方法155b-156b得到匹配的情况下把所述方法流程图300引导到检测分析方法320的分支单元。

所述比较方法155b-156b包括：提供所述一个或更多所查询的和文件灰度数字图像表示子帧当中的每一对之间的配准155b；以及渲染一个或更多RGB数字图像表示差异子帧以及相连的所查询的RGB数字图像表示扩大(dilated)改变子帧156a-b。

用于提供所述一个或更多所查询的和文件灰度数字图像表示子帧当中的每一对之间的配准的所述方法155b包括：通过把所述一个或更多所查询的和文件灰度数字图像表示子帧当中的每一对之间的灰度像素差的绝对值相加提供一个绝对差和(SAD)量度；对所述一个或更多所查询的灰度数字图像表示子帧进行平移和缩放；以及重复上述步骤，以便找到对应于所述一个或更多所查询的和文件灰度数字图像表示子帧当中的每一对的最小SAD。对应于方法155b的所述缩放包括独立地把所述一个或更多所查询的灰度数字图像表示子帧缩放到以下尺寸的其中之一：128x128像素子帧、64x64像素子帧以及32x32像素子帧。

对应于方法155b的所述缩放包括独立地把所述一个或更多所查询的灰度数字图像表示子帧缩放到以下尺寸的其中之一：720x480像素(480i/p)子帧、720x576像素(576i/p)子帧、1280x720像素(720p)子帧、1280x1080像素(1080i)子帧以及1920x1080像素(1080p)子帧。其中可以从所述RGB表示图像进行缩放，或者可以直接从所述MPEG图像进行缩放。

用于渲染一个或更多RGB数字图像表示差异子帧以及相连的所查询的RGB数字图像表示扩大改变子帧的所述方法156a-b包括：根据所述用于提供配准的方法155b对准所述一个或更多所查询的和文件灰度数字图像表示子帧；提供一个或更多RGB数字图像表示差异子帧；以及提供相连的所查询的RGB数字图像表示扩大改变子帧。

在方法56a中提供所述一个或更多RGB数字图像表示差异子帧的所述步骤包括：抑制所述一个或更多所查询的和文件RGB数字图像表示子帧中的边缘；通过把所述一个或更多所查询的和文件RGB数字图像表示子帧当中的每一对之间的RGB像素差的绝对值相加提供一个SAD量度；以及把所述一个或更多RGB数字图像表示差异子帧定义为其中相应的SAD低于阈值的集合。

所述抑制包括：提供用于所述一个或更多所查询的和文件RGB数字图像表示子帧的边缘图，以及从所述一个或更多所查询的和文件RGB数字图像表示子帧中减去用于所述一个或更多所查询的和文件RGB数字图像表示子帧的所述边缘图，其中提供边缘图包括提供Sobol滤波器。

在方法56a中提供所述相连的所查询的RGB数字图像表示扩大改变子帧的所述步骤包括：把对应于一个或更多RGB数字图像表示差异子帧的所述集合的一个或更多所查询的RGB数字图像表示子帧的集合相连并扩大。

所述用于渲染一个或更多RGB数字图像表示差异子帧以及相连的所查询的RGB数字图像表示扩大改变子帧的方法156a-b包括对于方法156a-b的缩放，其独立地把所述一个或更多所查询的RGB数字图像表示子帧缩放到以下尺寸的其中之一：128x128像素子帧、64x64像素子帧以及32x32像素子帧。

对于方法156a-b的所述缩放包括独立地把所述一个或更多所查询的RGB数字图像表示子帧缩放到以下尺寸的其中之一：720x480像素(480i/p)子帧、720x576像素(576i/p)子帧、1280x720像素(720p)子帧、1280x1080像素(1080i)子帧以及1920x1080像素(1080p)子帧。其中可以从所述RGB表示图像进行缩放，或者可以直接从所述MPEG图像进行缩放。

所述方法流程图300还提供一种检测分析方法320。所述检测分析方法320和相关联的分类检测方法124为显示匹配和视频驱动器125提供视频检测匹配和分类数据及图像，正如所述用户接口110所控制的。所述检测分析方法320和所述分类检测方法124还向动态阈值方法330提供检测数据，其中所述动态阈值方法330提供以下各项的其中之一：动态阈值的自动重置、动态阈值的人工重置及其组合。

所述方法流程图300还提供第三比较方法340，其提供在所述文件数据库队列不为空的情况下结束该方法流程图300的分支单元。

图9A示出了根据本发明的第一实施例的特征空间400内的各K-NN巢状分离特征子空间的横贯集合。所查询的图像405开始于A处，并且被漏送到D处的目标文件图像431，从而筛除在特征空间410与420之间的边界处不满足匹配标准411和412的文件图像，比如阈值水平413处的文件图像432。

图9B示出了根据本发明的第一实施例的在所查询的图像子帧中有改变的各K-NN巢状分离特征子空间的横贯集合。所查询的图像405的子帧421与目标文件图像431的子帧422在特征空间420与430之间的边界处的子帧阈值处不匹配。找到与文件图像432的匹配，生成新的子帧432并且将其与文件图像431和所查询的图像405相关联，其中目标文件图像431的子帧421和新子帧432包含用于文件目标图像432的新的子空间集合。

图10示出了根据本发明的第一实施例的数字图像表示子帧中的改变的实例。示出了目标文件图像子帧和所查询的图像子帧的其中之一的集合500，其中所述集合500包括子帧集合501、502、503和504。子帧集合501和502在平移和缩放当中的一项或更多项方面与其他集合成员不同。子帧集合502和503在图像内容方面彼此不同并且与子帧集合501和502不同，并且给出与子帧匹配阈值的图像差异。

虽然结合本发明的具体实施例描述了本发明，但是应当理解的是，能够对本发明做出进一步的修改。此外，本申请意图覆盖本发明的任何变型、用途或适配，其中包括与本公开内容不同但是落在本发明所属领域中的已知或惯常实践范围内以及落在所附权利要求书的范围内的变型、用途和适配。

在本说明书中所提到的所有出版物、专利和专利申请都被在此引入以作参考，这如同于具体单独指出将每一项出版物、专利或专利申请都引入在此以作参考。

Claims

1.一种视频检测方法，其包括：

(a)从所查询的数字图像集合以及第一组文件数字图像集合当中的文件数字图像集合中提取特征数据集合；

(b)测量从所述查询数字图像集合以及所述文件数字图像集合中提取的所述特征数据集合之间的一个或更多误差；

(c)对于所述第一组文件数字图像集合中的一个或更多文件数字图像集合重复步骤(a)-(b)；

(d)生成第二组文件数字图像集合，其中，所述第二组文件数字图像集合包括所述第一组当中的其相应的一个或更多误差小于相应的阈值集合的每一个所述文件数字图像集合；

(e)对于一个或更多特征数据集合重复步骤(a)-(d)，从而生成匹配的一组文件数字图像集合；

(f)测量所述查询数字图像集合中的所查询的数字图像的一个或更多子帧与所述匹配的一组文件数字图像集合当中的文件数字图像集合内的文件数字图像的一个或更多子帧的一个或更多集合之间的一个或更多位图匹配误差，其中所述位图包括RGB颜色空间内的经过排序的像素集合；

(g)对所查询的该数字图像的所述一个或更多子帧进行平移、调整尺寸以及重新量化并且重复(f)，以便减小所述一个或更多位图匹配误差；

(h)向所述文件数字图像的一个或更多子帧的所述一个或更多集合当中添加以下各项的其中之一：(1)一个或更多新的子帧；以及(2)一个或更多子帧的新的集合；以及

(i)对于所述匹配的一组文件数字图像集合当中的一个或更多文件数字图像集合中的一个或更多文件数字图像重复(f)-(h)。

2.权利要求1的方法，其中，(a)中的所述提取包括通过COLOR9空间内的一个或更多二维统计矩的第一函数提取所述特征数据集合。

3.权利要求2的方法，其中，所述第一函数包括：

(i)根据所述查询数字图像集合中的相继的查询数字图像之间以及所述文件数字图像集合中的相继的文件数字图像之间的所述一个或更多二维统计矩的距离度量，在时间上把所述查询数字图像集合以及所述文件数字图像集合分段成一组分段查询数字图像子集和一组分段文件数字图像子集；以及

(ii)从所述一个或更多二维统计矩中找到用于一个或更多分段查询数字图像子集的一个或更多查询中值以及相应的查询图像中值帧，以及从所述一个或更多二维统计矩中找到用于一个或更多分段文件数字图像子集的一个或更多文件中值以及相应的文件图像中值帧。

4.权利要求3的方法，其中，(b)中的所述测量包括测量所述一个或更多查询中值与所述一个或更多文件中值之间的一个或更多误差。

5.权利要求2的方法，其中，所述二维统计矩的集合包括以下各项的至少其中之一：均值、方差以及偏斜度。

6.权利要求1的方法，其中，(a)中的所述提取包括通过COLOR9空间内的二维统计矩的第二函数提取所述特征数据集合。

7.权利要求6的方法，其中，所述第二函数包括：

(i)在时间上索引所述查询数字图像集合中的查询数字图像集合以及所述文件数字图像集合中的文件数字图像集合；以及

(ii)把一个或更多二维统计矩的相应集合分配给所述时间索引的查询数字图像集合以及所述时间索引的文件数字图像集合。

8.权利要求7的方法，其中，(b)中的所述测量包括把用于所述查询数字图像集合的一个或更多二维统计矩的时间索引集合与用于所述文件数字图像集合的一个或更多二维统计矩的时间索引集合进行卷积。

9.权利要求6的方法，其中，所述二维统计矩集合包括以下各项的其中之一：均值、方差以及偏斜度。

10.权利要求3的方法，其中，(a)中的所述提取包括：

从用于一个或更多分段查询数字图像子集的所述查询图像中值帧中提取COLOR9空间内的二维小波变换系数集合；以及

从用于一个或更多分段文件数字图像子集的所述文件图像中值帧中提取COLOR9空间内的二维小波变换系数集合。

11.权利要求10的方法，其中，所述二维小波变换系数集合是Haar小波变换系数。

12.权利要求10的方法，其中，所述COLOR9空间被变换到灰度。

13.权利要求3的方法，其中，(f)中的所述查询数字图像和所述文件数字图像分别包括所述查询中值图像帧和所述文件中值图像帧。

14.权利要求1的方法，其中，所述经过排序的像素集合包括以下各项的一个或更多集合：水平偏移量、垂直偏移量、水平分段长度以及垂直分段长度。

15.权利要求14的方法，其中，所述经过排序的像素集合是毗连的。

16.权利要求1的方法，其中，为了在(g)中减小所述一个或更多位图匹配误差而进行的所述平移、调整尺寸、重新量化以及重复(f)包括一个或更多反馈环路。

17.权利要求1的方法，其中，为了在(g)中减小所述一个或更多位图匹配误差而进行的所述平移、调整尺寸、重新量化以及重复(f)包括边缘检测和抑制功能。

18.权利要求1的方法，其中，(h)中的所述添加还包括添加所述查询数字图像的所述一个或更多子帧的子集。

19.一种视频归档方法，其包括：

(a)对视频进行编码；

(b)把所述视频导入到文件数字图像集合中；

(c)从所述文件数字图像集合生成视频检测数据集合；

(d)从所述文件数字图像集合生成视频分析数据集合；

(e)从所述文件数字图像集合生成元数据集合；

(f)基于所述文件数字图像集合生成人工注释数据集合；

(g)从(c)-(f)生成视频索引数据集合；以及

(h)对所述视频和视频索引数据进行归档。

20.权利要求19的方法，其中，所述编码包括把所述视频转换到RGB颜色空间。

21.权利要求19的方法，其中，生成视频检测数据集合包括提取以下各项：第一特征数据集合、第二特征数据集合以及第三特征数据集合。

22.权利要求21的方法，其中，所述第一特征数据集合包括COLOR9空间内的二维统计矩集合的第一函数。

23.权利要求21的方法，其中，所述第二特征数据集合包括COLOR9空间内的二维统计矩集合的第二函数。

24.权利要求21的方法，其中，所述第三特征数据集合包括COLOR9空间内的二维小波变换系数集合。

25.权利要求19的方法，其中，生成所述视频分析数据集合包括生成以下各项：复制场景估计、原始片段估计、视频剪切估计、语音-文字估计以及文字识别估计。

26.权利要求19的方法，其中，生成所述元数据集合包括生成以下各项：日期和时间数据、全球定位系统(GPS)数据以及视频记录器捕获数据。

27.权利要求19的方法，其中，生成所述人工注释数据集合包括生成以下各项的人工条目：标题数据、持续时间数据、评论数据、关键字数据、数字权利数据、版权数据以及参考数据。

28.权利要求19的方法，其中，生成所述视频索引数据集合包括从步骤(c)-(f)生成自动分段和分层索引。

29.权利要求19的方法，其中，对所述视频和视频索引数据进行归档包括生成关系数据库，所述关系数据库包括：所述文件数字图像集合、所述视频检测数据集合、所述视频分析数据集合、所述元数据集合、所述人工注释数据集合、所述视频索引数据集合以及所述分段和分层索引数据。

30.一种被适配成产生视频检测的设备，其包括：

(a)用于提取所查询的数字图像集合与第一组文件数字图像集合当中的每一个文件数字图像集合所共有的多个特征数据集合的装置；

(b)用于顺序地搜索所述多个特征数据集合以便找到匹配的一组文件数字图像集合的装置，其中所述顺序搜索包括把所述查询数字图像集合与所述第一组文件数字图像集合的顺序地更小的一组子集所共有的所述多个特征数据集合相匹配；

(c)用于把所述查询数字图像集合中的所查询的数字图像的一个或更多子帧与所述匹配的一组文件数字图像集合当中的文件数字图像集合内的文件数字图像的一个或更多子帧的一个或更多集合进行比较的装置，其中所述比较包括对RGB颜色空间内的经过排序的像素集合进行比较，其中所述经过排序的像素集合以及所述RGB颜色空间是所查询的数字图像和所述文件数字图像所共有的；

(d)用于对所查询的数字图像的所述一个或更多子帧进行平移、调整尺寸以及重新量化并且重复(d)以便减小所述经过排序的像素集合的一个或更多子集的一个或更多位图匹配误差的装置，其中所述一个或更多位图匹配误差是在查询数字图像集合中的所查询的数字图像与所述匹配的一组文件数字图像集合当中的文件数字图像集合内的所述文件数字图像之间取得的；

(e)用于在所述一个或更多位图匹配误差小于相应的阈值集合的情况下检测到匹配的装置；

(f)用于在没有检测到匹配的情况下向所述文件数字图像的一个或更多子帧的所述一个或更多集合当中添加以下各项的其中之一的装置：(1)一个或更多新的子帧；以及(2)一个或更多子帧的新的集合；以及

(g)用于针对所述匹配的一组文件数字图像集合当中的一个或更多文件数字图像集合内的一个或更多文件数字图像重复(c)-(f)的装置。