CN106575353A - 基于哈希的媒体搜索 - Google Patents
基于哈希的媒体搜索 Download PDFInfo
- Publication number
- CN106575353A CN106575353A CN201580031931.0A CN201580031931A CN106575353A CN 106575353 A CN106575353 A CN 106575353A CN 201580031931 A CN201580031931 A CN 201580031931A CN 106575353 A CN106575353 A CN 106575353A
- Authority
- CN
- China
- Prior art keywords
- search
- cryptographic hash
- value
- image
- difference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5854—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
- H04N21/2353—Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
识别视频内容的项目的方法,涉及提供关于视频集合中的每个图像的空间哈希值和时间哈希值。每个哈希值基于像素值之间的差中的熵的度量。针对时间编码的哈希值的对的表格被创建并且根据哈希值中的一个哈希值进行排序。然后,针对给定的哈希值的对的搜索可以限于表格中的匹配第一值的部分。
Description
发明领域
本发明涉及对顺序数据的搜索,且特别涉及用于检测视觉等价(visualequivalence)的视频序列的匹配。
发明背景
在广播和视听内容产生和分配系统中,通常有必要在系统中确认在某个点处的视频序列的标识。这是确保自动化播放系统的正确运行的监测过程的基本特征。公知的方法是将元数据与视频帧相关联并将与未知的视频序列相关联的元数据与来自已知视频序列的元数据进行比较以便使内容的特定项目能够被识别。然而,这依赖于元数据的存在及元数据的完整性。
英国专利申请1402775.9描述了如何能够从视听序列自动地导出描述视听流的空间和时间特性的元数据的方式,从而确保了来自可获得的视听序列的精确的元数据的可获得性。
国际专利申请WO 2009/104022描述了如何能够从视听数据导出空间和时间“签名”的方式。这些类型的签名,也被称之为“指纹”,使视频场或帧或场或帧的序列能够被特征化。在本说明书中,术语指纹用于标示该特征化的数据以及术语图像有时候出于方便用来表示场或帧。
概述
本发明的一个方面在于一种识别视频内容的项目的方法,所述方法包括以下步骤:提供时间上分离的搜索图像的集合,每个搜索图像通过像素值进行定义并且每个搜索图像在所述集合中具有时间位置;对于每个搜索图像,提供一对搜索哈希值,包括:包含在搜索图像内的像素值之间的差值的函数的空间搜索哈希值和包含在一个搜索图像中的像素值与在时间上分离的搜索图像中的像素值之间的差值的函数的时间搜索哈希值;形成定义在所述集合中的搜索图像的时间位置与相应的空间搜索哈希值和时间搜索哈希值之间的关联的搜索数据;根据哈希值中的第一哈希值的值排序所述搜索数据;对于时间上分离的搜查图像的搜查序列,每个搜查图像通过像素值进行定义并且每个搜查图像在搜查序列中具有时间位置,提供:包含在搜查图像内的像素值之间的差值的函数的空间搜查哈希值和包含在一个搜查图像中的像素值与在时间上分离的搜查图像中的像素值之间的差值的函数的时间搜查哈希值;以及仅搜索对应于所述一对哈希值中的所述第一哈希值的搜查值的排序的数据的部分以定位所述一对哈希值的第二哈希值的搜查值的出现。
像素值之间的差值可以在组中的搜索图像上聚合,该组可以是搜索图像的行进窗口。
哈希值可以包括像素值之间的特定差值的出现频率的函数,以及可选地包括关于图像区域的平均像素值之间的特定差值的出现的频率的函数。很少出现的差值的频率值可以被给予比频繁出现的频率更高的权重。频率值可通过将它们与所述差的大小的和成比例地减少进行归一化以获得比单位量更小的频率值以及该值可以在求和之前通过其对数进行加权。更一般地,每个哈希值可包括像素值之间的所述差值中的熵的度量的函数。熵的度量可以由下式来给出:
-∑pN.log(pN)
其中,pN是像素差值N出现的归一化的频率,以及其中求和是关于所有可能的N值进行的。
用于形成搜索哈希值的像素值之间的差值可以根据搜索图像或搜查图像的一个或多个相应的指纹而形成。
本发明的一个不同的方面在于一种用于识别视频内容的项目的装置,其中匹配是在关于图像的一个或多个序列的相应的哈希值的对之间进行搜查,所述哈希值的对包括:包含在搜索图像内的像素值之间的差值的函数的空间搜索哈希值和包含在一个搜索图像中的像素值与在时间上分离的搜索图像中的像素值之间的差值的函数的时间搜索哈希值;所述装置包括:定义搜索项目的图像的时间位置与根据哈希值的所述对中的第一哈希值的值而排序的相应的哈希值对之间的关联的第一查找表;定义第一查找表中对应于哈希值的对中的所述第一哈希值的任何特定值的排序的数据的部分的第二查找表;以及搜索处理器,所述搜索处理器可与所述查找表协作运行以仅搜索对应于哈希值的对中的所述第一哈希值的搜查值的排序的数据的部分,以定位哈希值的所述对中的第二哈希值的搜查值的出现。
要理解的是,该方法和装置可以以广泛的各种方式实现,包括涉及专门的硬件、可编程硬件的硬件和软件应用;能够在通用计算机上运行的软件及上述组合。
附图简述
图1示出根据本发明的实施方式对关于视频内容的项目的空间和时间的指纹数据的哈希值的处理过程。
图2示出根据本发明的实施方式的用于搜索空间和时间的指纹数据的哈希值以定位描述视频内容的特定项目的数据的过程。
发明的详细描述
本发明提供了一种搜索数据的一个或多个顺序流以找到短的“查询数据序列”的匹配出现的新颖的方式。例如,如以上提及的国际专利申请中所描述的,在分布式网络中的某个点处的视频流可以被处理以获得关于视频帧的短的序列的空间和时间“指纹”数据。然后,大的视频内容的库可以被搜索,以定位其中指纹序列匹配的特定内容项目,并识别在该项目内的匹配的位置(时间编码值)。以这种方式,可以确认分布式网络提供预期的视频内容。如果指纹数据是从视频帧的预先确定的区域内的像素值的空间和时间变化而导出的,则可能的是将已经被转换的内容与不同的形式进行匹配,例如从高清晰度到标准清晰度,或经受压缩处理。
现在将描述本发明的定位视频内容库中的视频帧的查询序列的示例性的实施方式。一秒长的查询序列被处理以获得相应的空间和时间“指纹值”的序列——关于查询序列的每个帧的空间指纹值和时间指纹值。空间指纹是从关于相应的帧内定义的区域的平均像素值导出的;以及时间指纹表示相应的帧与其前面的帧之间的平均像素值差值。合适的指纹包括在国际专利申请WO 2009/104022中详细描述的“签名”。
以类似的方式,视频内容库中的所有的项目被处理以获得每个帧的空间和时间指纹值。当然,这是主要任务。然而,当各个内容项目被“摄入”到库中时该过程可以自动地被方便地执行,并且其在搜索过程之前完成。
显然完全不现实的是搜索整个数千小时的内容的库的指纹值的特定序列。因此,空间和时间指纹序列被处理以形成视频帧的短序列(在本示例中,一秒的持续时间的序列)的特征化的相应的“哈希值”。对于每个内容项目,空间哈希值和时间哈希值的数据集以及以哈希值为特征的帧的项目内的相应时间位置被构造。在本示例中,每个帧的时间编码值与特征化以该帧开始的帧的一秒长的序列的空间哈希值和时间哈希值相关联。下文将详细描述这些哈希值的推导。然而,即使在通过两个哈希值特征化每个帧之后,即使对于中等大小的内容库而言,搜索特定哈希值的任务仍然是不现实的。
因此,对于库中的视频内容的每个项目,哈希值的数据集及其相应的时间位置被处理成以便简化搜索。在图1中示出了该数据重组过程。在附图中,出于解释的目的,数据被表示为表格,且该过程将被描述为操作序列,其中新的表格是根据现有表格而创建的。如技术人员将理解的,这些过程可以以许多方式来实现,例如通过在关系数据库内创建关系,通过在电子存储器中移动和拷贝数据项目,或通过其他已知的数据操作过程。
在图1中由表格(10)示出了由视频内容的特定项目的空间哈希值和时间哈希值的初始创建而产生的数据集。该数据包括内容项目标识字段(11)和通过索引数据字段(12)索引的I最大个数据记录的集。每个索引的记录包括下列数据字段:
●以小时、分钟、秒和帧(13)计的时间编码值,其标识一秒序列的场的第一场,从该一秒序列的场导出时间哈希值和空间哈希值;
●关于一秒序列的时间哈希值τ(14);以及
●关于一秒序列的空间哈希值(15)。
根据时间哈希值τ(14)对表格(10)的记录进行分类,以创建第二表格(20),也包括I最大个数据记录,每个记录包含以下数据字段:
●时间哈希值τ(24);
●空间哈希值(25);
●索引值(22);以及
●行号(29),其顺序地标识每个记录。
分类过程对表格(20)的字段进行排序,使得具有特定值的时间哈希值τ(24)的记录连续地出现。具有最低出现值τ最小的记录是第一记录,行号为一;具有最高出现值τ最大的记录是最后的记录,行号为I最大。
表格(20)的记录然后被处理以创建表格(30),其具有关于时间哈希值τ(24)的每个出现的值的一个记录。表格(30)的每个记录包括:
●时间哈希值τ(34);
●第一行字段(36),其是表格(20)中相应的时间哈希值的第一次出现的行号(29);
●最后的行字段(37),其是表格(20)中相应的时间哈希值的最后出现的行号(29)。
表格(30)是通过时间哈希值(34)进行排序的,且比表格(10)和表格(20)小得多,因为其仅具有时间哈希的每个可能的值的一个记录。从表格(20)创建表格(30)的过程仅需要单次通过表格(20)的数据。具有相同的时间哈希值的每个连续的记录的块中的第一行和最后的行的行号(29)利用相应的时间哈希被记录为表格(30)的行。如果特定的时间哈希值并未出现在特定的内容项目的数据中,那么合适的“空值”被插入在第一行字段(36)和最后的行字段(37)中。
如以下将要解释的,合适的时间哈希的一个示例具有8192个可能的值,然而单个小时的视频内容通常将以表格(10)和(20)中的每一个中的90000个记录为特征。表格(10)、(20)和(30)的数据记录构成视频内容的特定项目的可搜索的索引,并且存储在库中以及与相应的内容项目相关联。数据记录的类似的集被准备并存储以用于库中的所有内容项目。
现在将参考图2描述找到内容项目和在内容项目内的对应于来自查询序列中的指纹数据的时间位置的过程。在该图中示出的表格(210)、(220)和(230)与图1示出的表格(10)、(20)和(30)相同。
一秒的持续时间段的查询序列的帧被处理以导出相应的时间和空间指纹。时间指纹的集被组合成时间哈希值τx且空间指纹的集被组合成空间哈希值这些哈希值的推导与用于形成先前描述的索引表中的哈希值的过程相同。
参考图2,待搜索的第一库项目的表格(230)被检索。该表格对应于图1的表格(30)。如以上解释的,其记录是根据在其被创建时的时间哈希值进行排序的。表格(230)被利用时间哈希值τx进行查询。该查找过程从对应于τx的表格行(231)返回第一行号n和最后的行号m。如果返回的是空值,则因为值τx并未出现在内容项目“M”中,待被搜索的下一个内容项目的等价表格(30)被从内容库中检索并被查询。
行号n和m定义在表格(220)内的搜索范围(221)。在该范围内的空间哈希字段被针对值进行搜索。如果该值并未找到,则搜索进行到库中的下一个内容项目,并且值τx被在其对应的表格(30)中进行查找。然而,在图2中所示的示例中,值被在表格(220)的行(226)中找到。该行中的索引值Ix然后在表格(210)中进行查询。查询识别表格(210)的行(216),该行(216)包括时间编码值,hh:mm:ss:ff,其定义由表格(210)、(220)和(230)索引的并由内容标识字段(211)识别的内容项目中的查询视频序列的可能的时间位置。
该结果已经通过分别在表格(230)和(210)中的两个查找过程和在表格(220)的限制范围上的一个搜索而被获得。当然,该过程必须又应用到库中的内容的项目中的每一个的索引表格,直到τx和的成功匹配被找到为止。
通常,相关的哈希值τx和的对的一个以上的出现将会在表格(220)的搜索范围(221)内被找到。在这种情况下,由匹配的哈希值特征化的一秒的序列的所有场的相应的空间指纹值和时间指纹值必须是针对特征化查询序列的相应的空间指纹和时间指纹的对进行搜索。
发明人已经发现,在本发明的示例中所利用的时间哈希值和空间哈希值是大部分不相关的。因此,时间哈希值τ和空间哈希值的特定的组合应该很少出现。利用以下描述的哈希方法,搜索通常返回不超过六个候选的一秒的序列,且常常仅返回一个或两个。例如,在本发明的实施方式的测试中,关于352小时的视频中的一个帧的搜索返回600个时间哈希匹配,而仅一个匹配关于该帧的哈希值的对。
提供很少出现的值的有用的范围的合适的哈希函数现在将被进行描述。
时间哈希函数的值是时间指纹之间的特定的带符号的差值的出现的归一化的频率的缩放的且被量化加权的和。求和是对以哈希值为特征的帧的序列中的所有的帧进行的。缩放和量化被选择以获得方便的整数值的集:本示例中0到8191。归一化将出现值的每个频率以与差值的大小的和成比例地减小;这导致小于单位量的频率值。在本示例中,该值的对数用于加权频率值,使得对很少出现的带符号的差值给予较高的加权。
如下定义了帧的序列的示例性的时间哈希函数:
使帧i的时间指纹为在范围零到R中的整数Ti
使得:
帧i的指纹-差值δi是(Ti-Ti-1);以及
δi具有在范围-R到+R中的(2R+1)个可能的值。
使在F个帧的序列内的δi值N的出现的频率为fN
使得:
δi值N的出现的归一化的频率由下式给出
pN=fN÷Σ|δi|
其中:求和是针对帧2到F的序列;以及
|x|是x的大小。
δi值N的出现的加权的归一化的频率是:
-pN.log(pN)
F帧的序列的时间哈希值则由下式给出:
τ=Int[-W.∑pN.log(pN)]
其中:Int[x]表示x的整数部分;
求和是针对N在范围-R到+R中的(2R+1)个值;以及
W是设置τ的数值范围的加权因子。
对于以10为底的对数以及τ的数值范围为零到8191,W的合适的值是5000的数量级。然而,其他的权重和加权函数是可以被使用的。
根据以上原理的时间哈希值对于检测在长视频序列(诸如故事片)内的小视频段是非常有效的。然而,包含相同帧的段将返回零时间指纹值,这将给出零时间哈希值。(比单位量大的归一化的频率值被认为给出零哈希值。)
零值时间哈希不适用于匹配,因而必须被视为特殊情况。可选地,相同帧的集的空间哈希值可以使它们能够进行匹配,但是如果这是不可能的,那么不同的时间段必须用于匹配。
现在将描述空间哈希函数。如之前所解释的,帧的空间指纹描述了在该帧内的区域的集合的平均像素值;避开帧的边缘区域的八个水平的相邻的区域是合适的。
空间哈希函数的值是以哈希值为特征的帧的序列中的每个帧内的相邻区域的平均像素值之间的特定的带符号的差值的出现的归一化的频率的缩放的且被量化加权的和。求和是对序列中的所有的帧进行的。如在时间哈希的情况下一样,缩放和量化被选择以获得方便的整数值的集:本示例中0到8191;以及,归一化将出现值的每个频率以与序列中的所有帧的所有差值的大小的和成比例地减小。以及,对数加权用于向很少出现的带符号的差值给出较高的加权。
技术人员将意识到该哈希函数的示例是基于差值中的熵的度量的。这具有的益处是提供了一般来说同样有可能发生的哈希值的范围。再加上针对哈希值中的一个的搜索项目的排序和在空间哈希值与时间哈希值之间观察到的相关性的缺乏,提供了在搜索过程的效率方面的显著的增加。
以下描述了示例性的空间哈希函数:
使帧i的空间指纹为在范围零到R中的Q整数值Si,q的集合
使得:
帧i的(Q-1)指纹差值δi,q是:
δi,1=(Si,2-Si,1)
δi,2=(Si,3-Si,2)
……
δi,(Q-1)=(Si,Q-Si,(Q-1));以及
δi,q具有在范围-R到+R中的(2R+1)个可能的值。
使在F帧的序列内的δi,q值N的出现的频率为fN
使得:
δi值N的出现的归一化的频率由下式给出
pN=fN÷∑|δi,q|
其中:求和是针对所有δi,q,也就是说:
q值是1到(Q-1);
i值是1到F;
以及,
|x|是x的大小。
δi值N的出现的加权的归一化的频率是:
-pN.log(pN)
F帧的序列的空间哈希值则由下式给出:
其中:Int[x]表示x的整数部分;
求和是针对N在范围-R到+R中的(2R+1)个值;以及
W是设置的数值范围的加权因子。
由于该函数具有与时间哈希的形式相同的形式,W的相似值可以被使用。然而,其他的权重和加权函数是可以被使用的。
对于时间哈希,存在并不产生有意义的值的特殊情况。完全均匀的有色帧,例如黑色帧,将在以空间指纹为特征的区域之间仅具有零像素值差。当这些帧还对应于时间差异的缺失时,搜索过程必须选择不同的时间视频段以便识别内容。
虽然空间哈希值和时间哈希值是以类似的方式推导出的,即通过将关于图像区域的特定的像素值差异的信息进行组合而不管有差异的图像区域的位置(分别为空间的或时间的)且向不常见的差值赋予较高的权重,但是空间哈希值和时间哈希值是完全不相关的,因为空间哈希是根据空间差导出的,而时间哈希是根据时间差导出的。
利用这些哈希函数,时间哈希匹配一般将候选的一秒的内容段的数量减小了10000倍,且随后的空间哈希匹配将候选项另外减小了10000倍。因此,必须被搜索的各个帧的指纹的数量是可控范围内的小。
对如上所述的从典型的视频内容导出的5千7百万哈希值对的分析示出,如果零哈希值的特殊情况被排除,则36%的可能的哈希值对仅出现一次;且,90%的可能的哈希值对出现不到10次。
本发明可以以许多不同的方式实现。关于内容项目的数据集可以根据空间哈希值和用于限制针对搜查时间哈希值的搜索范围的特定空间哈希值的第一次出现和最后的出现进行排序。
关于帧的指纹值在使用它们创建哈希值之后可以被保留或不可以被保留;如果必要的话,关于搜索时间处的库内容的候选帧的指纹值可以被创建。
不同的空间指纹和时间指纹可以基于在视频帧内的不同的区域进行使用。
时间指纹可以包括关于在帧内的不同区域的多个时间差值,并且关于不同区域的相应的差值的出现的频率可以被组合以创建时间哈希值。
空间指纹可以包括关于空间差的值,从而无需在哈希值计算的时间形成差。空间指纹可以基于多于八个或少于八个的空间区域。
比一秒的持续时间长的或短的帧序列可以通过哈希值进行特征化。序列的持续时间可以被定义为一定数量的帧或场。
空间指纹和时间指纹可以针对利用隔行扫描光栅采样的内容的场而被导出。根据场的序列的相应的指纹创建的空间哈希值和时间哈希值可以根据本发明的原理进行搜索。
指纹可以是从空间上或时间上子采样的内容导出的。
将认识到的是,本发明仅通过示例的方式进行描述且仅由所附的权利要求来限制范围。
Claims (32)
1.一种识别视频内容的项目的方法,所述方法包括以下步骤:
提供时间上分离的搜索图像的集合,每个搜索图像由像素值定义并且每个搜索图像在所述集合中具有时间位置;
对于每个搜索图像,提供一对搜索哈希值,包括:
空间搜索哈希值,所述空间搜索哈希值包含在搜索图像内的像素值之间的差的值的函数,以及
时间搜索哈希值,所述时间搜索哈希值包含在一个搜索图像中的像素值与在时间上分离的搜索图像中的像素值之间的差的值的函数;
形成定义在所述集合中的所述搜索图像的所述时间位置与相应的空间搜索哈希值和时间搜索哈希值之间的关联的搜索数据;
根据所述哈希值中的第一哈希值的值排序所述搜索数据;
对于时间上分离的搜查图像的搜查序列,每个搜查图像通过像素值定义并且每个搜查图像在所述搜查序列中具有时间位置,提供:
空间搜查哈希值,所述空间搜查哈希值包含在搜查图像内的像素值之间的差的值的函数,以及
时间搜查哈希值,所述时间搜查哈希值包含在一个搜查图像中的像素值与在时间上分离的搜查图像中的像素值之间的差的值的函数;以及
仅搜索排序的数据中的对应于所述一对哈希值中的所述第一哈希值的搜查值的部分以定位所述一对哈希值的第二哈希值的搜查值的出现。
2.根据权利要求1所述的方法,其中,搜索图像的组被形成,并且所述空间搜索哈希值包括在所述组内的搜索图像上聚合的、在搜索图像内的像素值之间的差的值的函数。
3.根据权利要求1或权利要求2所述的方法,其中,搜索图像的组被形成,并且所述时间搜索哈希值包括在所述组内的搜索图像上聚合的、在一个搜索图像中的像素值与在时间上分离的搜索图像中的像素值之间的差的值的函数。
4.根据权利要求2或权利要求3所述的方法,其中,所述搜索图像的组包括关于每个搜索图像的搜索图像的行进窗口。
5.根据前述权利要求中的任一项所述的方法,其中,所述空间搜查哈希值包括在所述搜查序列内的搜查图像上聚合的、在搜查图像内的像素值之间的差的值的函数。
6.根据前述权利要求中的任一项所述的方法,其中,所述时间搜查哈希值包括在所述搜查序列内的搜查图像上聚合的、在一个搜查图像中的像素值与在时间上分离的搜查图像中的像素值之间的差的值的函数。
7.根据前述权利要求中的任一项所述的方法,其中,哈希值包括在像素值之间的差的特定值的出现的频率的函数,且优选包括关于图像区域的平均像素值之间的差的特定值的出现的频率的函数。
8.根据权利要求7所述的方法,其中,相应的空间差-值频率被针对搜索图像的组进行求和以形成空间搜索哈希值,以及被针对所述搜查序列进行求和以形成空间搜查哈希值。
9.根据权利要求7或权利要求8所述的方法,其中,相应的时间差-值频率被针对搜索图像的组进行求和以形成时间搜索哈希值,以及被针对所述搜查序列进行求和以形成时间搜查哈希值。
10.根据权利要求7至权利要求9中的任一项所述的方法,其中,很少出现的差值的频率值相比于频繁出现的频率被给予更高的权重。
11.根据权利要求10所述的方法,其中,频率值被通过将它们与所述差的大小的和成比例地减少从而获得比单位量小的频率值来归一化,且优选的是该值在求和之前通过其对数进行加权。
12.根据权利要求1至权利要求6中的任一项所述的方法,其中,每个哈希值包括在像素值之间的所述差的值中的熵的度量的函数。
13.根据权利要求12所述的方法,其中,所述熵的度量由下式给出:
-∑pN.log(pN)
其中,pN是像素差值N出现的归一化的频率,以及其中所述求和是针对所有可能的N值进行的。
14.根据前述权利要求中的任一项所述的方法,其中,用于形成搜索哈希值的像素值之间的所述差的值是根据搜索图像的一个或多个相应的指纹而形成的。
15.根据前述权利要求中的任一项所述的方法,其中,用于形成搜查哈希值的像素值之间的所述差的值是根据搜查图像的一个或多个相应的指纹而形成的。
16.一种用于识别视频内容的项目的装置,其中,匹配是在关于图像的一个或多个序列的相应的哈希值的对之间进行搜查的,所述哈希值的对包括:
空间搜索哈希值,所述空间搜索哈希值包含在搜索图像内的像素值之间的差的值的函数,以及
时间搜索哈希值,所述时间搜索哈希值包含在一个搜索图像中的像素值与在时间上分离的搜索图像中的像素值之间的差的值的函数;
所述装置包括:
第一查找表,所述第一查找表定义搜索项目的图像的时间位置与根据所述哈希值的对中的第一哈希值的值而排序的相应的哈希值对之间的关联;
第二查找表,所述第二查找表定义在所述第一查找表中的排序的数据的对应于所述哈希值的对中的所述第一哈希值的任何特定值的部分;以及
搜索处理器,所述搜索处理器能够与所述查找表协作运行以仅搜索排序的数据的对应于所述哈希值的对中的所述第一哈希值的搜查值的部分,以定位所述哈希值的对中的第二哈希值的搜查值的出现。
17.根据权利要求16所述的装置,其中,搜索图像的组被形成,并且所述空间搜索哈希值包括在所述组内的搜索图像上聚合的、在搜索图像内的像素值之间的差的值的函数。
18.根据权利要求16或权利要求17所述的装置,其中,搜索图像的组被形成,并且所述时间搜索哈希值包括在所述组内的搜索图像上聚合的、在一个搜索图像中的像素值与在时间上分离的搜索图像中的像素值之间的差的值的函数。
19.根据权利要求17或权利要求18所述的装置,其中,所述搜索图像的组包括关于每个搜索图像的搜索图像的行进窗口。
20.根据权利要求16至权利要求19中的任一项所述的装置,其中,所述空间搜查哈希值包括在搜查序列内的搜查图像上聚合的、在搜查图像内的像素值之间的差的值的函数。
21.根据权利要求16至权利要求20中的任一项所述的装置,其中,所述时间搜查哈希值包括在搜查序列内的搜查图像上聚合的、在一个搜查图像中的像素值与在时间上分离的搜查图像中的像素值之间的差的值的函数。
22.根据权利要求16至权利要求21中的任一项所述的装置,其中,哈希值包括在像素值之间的差的特定值的出现的频率的函数,且优选包括关于图像区域的平均像素值之间的差的特定值的出现的频率的函数。
23.根据权利要求22所述的装置,其中,相应的空间差值频率被针对搜索图像的组进行求和以形成空间搜索哈希值以及针对搜查序列进行求和以形成空间搜查哈希值。
24.根据权利要求22或权利要求23所述的装置,其中,相应的时间差-值频率被针对搜索图像的组进行求和以形成时间搜索哈希值以及针对搜查序列进行求和以形成时间搜查哈希值。
25.根据权利要求22至权利要求24中的任一项所述的装置,其中,很少出现的差值的频率值相比于频繁出现的频率被给予更高的权重。
26.根据权利要求25所述的装置,其中,频率值被通过将它们与所述差的大小的和成比例地减少从而获得比单位量小的频率值来归一化,且优选的是该值在求和之前通过其对数进行加权。
27.根据权利要求16至权利要求21中的任一项所述的装置,其中,每个哈希值包括在像素值之间的所述差的值中的熵的度量的函数。
28.根据权利要求27所述的装置,其中,所述熵的度量由下式给出:
-∑pN.log(pN)
其中,pN是像素差值N出现的归一化的频率,以及其中所述求和是针对所有可能的N值进行的。
29.根据权利要求16至权利要求28中的任一项所述的装置,其中,用于形成搜索哈希值的像素值之间的所述差的值是根据搜索图像的一个或多个相应的指纹而形成的。
30.根据权利要求16至权利要求29中的任一项所述的装置,其中,用于形成搜查哈希值的像素值之间的所述差的值是根据搜查图像的一个或多个相应的指纹而形成的。
31.一种可编程的装置,所述可编程的装置被编程为实现根据权利要求1至15中的任一项所述的方法。
32.一种计算机程序产品,所述计算机程序产品适于引起可编程的装置实现根据权利要求1至15中的任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1411192.6 | 2014-06-24 | ||
GB1411192.6A GB2527528B (en) | 2014-06-24 | 2014-06-24 | Hash-based media search |
PCT/GB2015/051831 WO2015198036A1 (en) | 2014-06-24 | 2015-06-23 | Hash-based media search |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106575353A true CN106575353A (zh) | 2017-04-19 |
CN106575353B CN106575353B (zh) | 2020-08-18 |
Family
ID=51410027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580031931.0A Active CN106575353B (zh) | 2014-06-24 | 2015-06-23 | 基于哈希的媒体搜索 |
Country Status (5)
Country | Link |
---|---|
US (2) | US10719550B2 (zh) |
EP (1) | EP3161722B1 (zh) |
CN (1) | CN106575353B (zh) |
GB (1) | GB2527528B (zh) |
WO (1) | WO2015198036A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2562515A (en) | 2017-05-17 | 2018-11-21 | Snell Advanced Media Ltd | Generation of audio or video hash |
US9870508B1 (en) * | 2017-06-01 | 2018-01-16 | Unveiled Labs, Inc. | Securely authenticating a recording file from initial collection through post-production and distribution |
RU2684513C1 (ru) * | 2017-12-20 | 2019-04-09 | Максим Александрович Бреус | Способ обеспечения достоверности доказательств и устройство для его осуществления, способ работы этого устройства |
US10880092B2 (en) * | 2018-02-05 | 2020-12-29 | Colossio, Inc. | Compression and manipulation-resistant fuzzy hashing |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101162470A (zh) * | 2007-11-16 | 2008-04-16 | 北京交通大学 | 一种基于分层匹配的视频广告识别方法 |
CN101763440A (zh) * | 2010-03-26 | 2010-06-30 | 上海交通大学 | 对搜索图像的过滤方法 |
US20110299721A1 (en) * | 2010-06-02 | 2011-12-08 | Dolby Laboratories Licensing Corporation | Projection based hashing that balances robustness and sensitivity of media fingerprints |
US8108641B2 (en) * | 2006-06-19 | 2012-01-31 | Texas Instruments Incorporated | Methods, apparatus, and systems for secure demand paging and other paging operations for processor devices |
CN103150362A (zh) * | 2013-02-28 | 2013-06-12 | 北京奇虎科技有限公司 | 一种视频搜索方法及系统 |
CN103336957A (zh) * | 2013-07-18 | 2013-10-02 | 中国科学院自动化研究所 | 一种基于时空特征的网络同源视频检测方法 |
US8655878B1 (en) * | 2010-05-06 | 2014-02-18 | Zeitera, Llc | Scalable, adaptable, and manageable system for multimedia identification |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8009861B2 (en) * | 2006-04-28 | 2011-08-30 | Vobile, Inc. | Method and system for fingerprinting digital video object based on multiresolution, multirate spatial and temporal signatures |
US8094872B1 (en) * | 2007-05-09 | 2012-01-10 | Google Inc. | Three-dimensional wavelet based video fingerprinting |
US8488061B2 (en) | 2007-05-17 | 2013-07-16 | Dolby Laboratories Licensing Corporation | Deriving video signatures that are insensitive to picture modification and frame-rate conversion |
US8204314B2 (en) | 2007-12-03 | 2012-06-19 | Vobile, Inc. | Method and system for fingerprinting digital video object based on multiresolution, multirate spatial and temporal signatures |
GB2460844B (en) * | 2008-06-10 | 2012-06-06 | Half Minute Media Ltd | Automatic detection of repeating video sequences |
US8195689B2 (en) * | 2009-06-10 | 2012-06-05 | Zeitera, Llc | Media fingerprinting and identification system |
US9026571B2 (en) * | 2008-10-27 | 2015-05-05 | Microsoft Technology Licensing, Llc | Random number generation failure detection and entropy estimation |
US8947595B1 (en) * | 2010-01-26 | 2015-02-03 | Google Inc. | Fingerprinting to match videos having varying aspect ratios |
CN102609441B (zh) * | 2011-12-27 | 2014-06-25 | 中国科学院计算技术研究所 | 基于分布熵的局部敏感哈希高维索引方法 |
US9684941B2 (en) * | 2012-10-29 | 2017-06-20 | Digimarc Corporation | Determining pose for use with digital watermarking, fingerprinting and augmented reality |
-
2014
- 2014-06-24 GB GB1411192.6A patent/GB2527528B/en active Active
-
2015
- 2015-06-23 EP EP15736013.2A patent/EP3161722B1/en active Active
- 2015-06-23 CN CN201580031931.0A patent/CN106575353B/zh active Active
- 2015-06-23 WO PCT/GB2015/051831 patent/WO2015198036A1/en active Application Filing
- 2015-06-23 US US15/321,570 patent/US10719550B2/en active Active
-
2020
- 2020-07-15 US US16/930,251 patent/US20200342023A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8108641B2 (en) * | 2006-06-19 | 2012-01-31 | Texas Instruments Incorporated | Methods, apparatus, and systems for secure demand paging and other paging operations for processor devices |
CN101162470A (zh) * | 2007-11-16 | 2008-04-16 | 北京交通大学 | 一种基于分层匹配的视频广告识别方法 |
CN101763440A (zh) * | 2010-03-26 | 2010-06-30 | 上海交通大学 | 对搜索图像的过滤方法 |
US8655878B1 (en) * | 2010-05-06 | 2014-02-18 | Zeitera, Llc | Scalable, adaptable, and manageable system for multimedia identification |
US20110299721A1 (en) * | 2010-06-02 | 2011-12-08 | Dolby Laboratories Licensing Corporation | Projection based hashing that balances robustness and sensitivity of media fingerprints |
CN103150362A (zh) * | 2013-02-28 | 2013-06-12 | 北京奇虎科技有限公司 | 一种视频搜索方法及系统 |
CN103336957A (zh) * | 2013-07-18 | 2013-10-02 | 中国科学院自动化研究所 | 一种基于时空特征的网络同源视频检测方法 |
Non-Patent Citations (1)
Title |
---|
S.PASCHALAKIS: "The MPEG-7 video signature tools for content identification", 《IEEE TRNSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 * |
Also Published As
Publication number | Publication date |
---|---|
EP3161722A1 (en) | 2017-05-03 |
GB201411192D0 (en) | 2014-08-06 |
US10719550B2 (en) | 2020-07-21 |
US20200342023A1 (en) | 2020-10-29 |
US20170161304A1 (en) | 2017-06-08 |
GB2527528A (en) | 2015-12-30 |
GB2527528B (en) | 2021-09-29 |
EP3161722B1 (en) | 2024-03-06 |
WO2015198036A1 (en) | 2015-12-30 |
CN106575353B (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7630545B2 (en) | Method and apparatus for representing a group of images | |
CN110070066B (zh) | 一种基于姿态关键帧的视频行人重识别方法及系统 | |
US20200342023A1 (en) | Hash-based media search | |
US8504546B2 (en) | Method and system for searching multimedia content | |
CN106570015B (zh) | 图像搜索方法和装置 | |
Erkut et al. | HSV color histogram based image retrieval with background elimination | |
Bouker et al. | Retrieval of images using mean-shift and gaussian mixtures based on weighted color histograms | |
Zhang et al. | Reidentification of Persons Using Clothing Features in Real‐Life Video | |
Sangeetha et al. | An Enhanced Triadic Color Scheme for Content‐Based Image Retrieval | |
Matthews et al. | Using control charts for on-line video summarisation | |
GB2591695A (en) | Hash-based media search | |
Chaisorn et al. | A bitmap indexing approach for video signature and copy detection | |
CN110955794A (zh) | 关联对象的查找方法及装置、电子设备 | |
Bailer | Efficient Approximate Medoids of Temporal Sequences | |
Rubini et al. | Performance analysis of fingerprinting extraction algorithm in video copy detection system | |
Uher et al. | Automatic image labelling using similarity measures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Hakuhoku County, England Applicant after: Grass Valley Co., Ltd. Address before: Hakuhoku County, England Applicant before: Snel advanced media Ltd |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |