CN106663102A - 用于生成信息信号的指纹的方法和装置 - Google Patents

用于生成信息信号的指纹的方法和装置 Download PDF

Info

Publication number
CN106663102A
CN106663102A CN201580029482.6A CN201580029482A CN106663102A CN 106663102 A CN106663102 A CN 106663102A CN 201580029482 A CN201580029482 A CN 201580029482A CN 106663102 A CN106663102 A CN 106663102A
Authority
CN
China
Prior art keywords
fingerprint
decomposition
frequency
decomposition levels
frequency subband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580029482.6A
Other languages
English (en)
Other versions
CN106663102B (zh
Inventor
J·韩
G·C·兰格拉尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Teletrax
Teletrax Ltd
Original Assignee
Teletrax Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Teletrax Ltd filed Critical Teletrax Ltd
Publication of CN106663102A publication Critical patent/CN106663102A/zh
Application granted granted Critical
Publication of CN106663102B publication Critical patent/CN106663102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7864Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using domain-transform features, e.g. DCT or wavelet transform coefficients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Collating Specific Patterns (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种用于生成表示信息信号的一部分的指纹的方法和系统。所述方法包括以下步骤:按分解等级将所述信息信号的一部分分解成多个频率子带;计算所述信号在所述多个频率子带中的各频率子带中的谱属性;将各谱属性与第一标准进行比较,由此生成比较结果;将各比较结果进行组合以构成所述指纹;将分解、计算、比较和组合重复进行至少一次,其中,针对各次重复,使用与先前分解等级不同的分解等级来进行分解。

Description

用于生成信息信号的指纹的方法和装置
技术领域
本发明涉及用于生成表示信息信号的一部分的指纹的方法,并且涉及相应装置、计算机程序及其各种用途。
背景技术
伴随着电影、电视、音乐以及其它音频和视频在当今社会中几乎无处不在,越来越期望能够自动识别这种内容。自动识别内容开启了各种可能性,诸如获取这种内容的诸如标题、艺术家、流派、歌词、评论和评分等的元数据、或者提供附加内容或活动与该内容共存等。另一有吸引力的应用是广播监视:识别广播并编制列表以例如用来确定向版权所有者的版税支出。
用于获得内容的标识符的一个技术被称为指纹识别(fingerprinting),有时还被称为签名创建、鲁棒指纹识别、鲁棒哈希或特征提取。内容项的(鲁棒)指纹是该项的最相关感知特征的代表。
一般而言,指纹识别算法具有判别力和鲁棒性这两个性能标准。判别指纹识别算法能够将两个信息信号彼此区分开。即,根据两个不相似信号获得两个相似指纹从统计学上应是不太可能的。鲁棒指纹识别算法能够识别具有各种失真的相同信息信号。即,根据相同信号的两个失真版本所计算出的指纹应当相同或者至少彼此非常相似。从音乐的低质量的无线电广播到电影的裁剪或大小调整或者字幕、前层景或水印的添加,失真可以是偶然的或有意的。
提出了用于使用指纹识别来对信息信号进行识别和分类的许多方案。在美国专利US8140331B2、美国专利US8380518B2、美国专利US7516074B2、美国专利US8440900B2和美国专利US8492633B2中公开了一些示例。
美国专利申请US8204314公开了用于针对视频对象的帧生成空间签名或指纹的方法。将该帧分割成多个块。针对各块计算平均亮度,并且将块按亮度的相对排序变换成作为针对空间签名或指纹的多个输入其中之一的向量。通过创建以更精细的粒度分割的块,按多个等级进行该处理:最初为2×2个块,然后为4×4个块,等等。该方法的缺点是将所有的平均亮度彼此比较以创建相对排序这一操作缓慢。另外,块之间存在显著的相关性,这样降低了算法的鲁棒性。
美国专利申请US8340449公开了用于基于视频的空间和时序特性来计算视频的指纹的方法。相邻像素的对形成最低等级值。采用和或差或对作为较高等级值。针对视频片段中的各行、列和时间列重复该处理。结果是表示该片段中的所有帧的空间和时序特性的系数的三维阵列,随后例如通过将各系数的大小与预定阈值进行比较来对该阵列进行量化。这样使该阵列平坦化为一维的位向量。在示例中,将各个位量化为+1、-1或0,并且两位编码方案针对+1使用位10,针对-1使用位01,并且针对0使用位00。位向量形成指纹。
该方法的缺点是所计算出的频率差是相关的,这意味着如此得到的指纹不完全具有判别力。此外,该计算处理由于所涉及的复杂计算因而缓慢。
Haitsma等人的国际专利申请WO 02/065782公开了用于生成鲁棒哈希的方法,其中该鲁棒哈希识别包括诸如电影、电视节目或歌曲等的音频或视听内容的信息信号。该方法将信息信号分割成帧,针对各帧计算哈希字,并且使连续的哈希字连接以构成哈希信号。计算哈希字包括:将信息信号的各帧再分割成多个频率子带,计算信号在各所述频率子带中的谱属性,将频率子带中的属性与各个阈值进行比较,并且利用哈希字的各个位来表示所述比较的结果。
图1示出采用在y轴上具有33个频率子带F且在x轴上具有N个帧的33×N谱图图像的Haitsma算法的实施例。基于滤波技术在各帧处提取32位的指纹。计算时间上的接续帧和频率上的接续频率子带之间的能量差,并且将该能量差与阈值进行比较。“1”位与正差值相对应,而“0”位与非正值相对应。如果将帧n处的频带m的能量表示为E(n,m)、并且利用B(n,m)来表示帧n的指纹的第m位,则可以通过以下公式来表示指纹的位。
F(n,m)=E(n,m)+E(n-1,m)-E(n,m+1)-E(n-1,m)
这样,可以针对各帧,根据33个频率子带来生成32位的指纹。Haitsma的公开内容将256个这样的帧指纹组合成块指纹,并且基于该块指纹来进行搜索。
Haitsma算法的缺点是所计算出的频率差是相关的,因而如此得到的指纹不完全具有判别力。即使在假定所输入的频率子带不相关的情况下,滤波(差分运算)也在滤波后的值之间引入了某种相关性。
此外,在Haitsma算法中,各个频率子带之间的差异对于影响一个或多个频率子带的小变化是敏感的。通常,根据越大的频率范围(例如,跨多个频率子带)所计算出的差对于音频或视频处理所引入的噪声越具鲁棒性。
发明内容
本发明提供一种用于生成表示信息信号的指纹的改进的方法,该方法与Haitsma相比提供更具判别力的指纹。该方法包括以下步骤:分解步骤,用于按分解等级将所述信息信号的一部分分解成多个频率子带;计算步骤,用于计算所述信号在所述多个频率子带中的各频率子带中的谱属性;比较步骤,用于将各谱属性与第一标准进行比较,由此生成比较结果;组合步骤,用于将各比较结果进行组合以构成所述指纹,其中,将所述分解步骤、所述计算步骤、所述比较步骤和所述组合步骤重复进行至少一次,其中,针对各次重复,使用与先前分解等级不同的分解等级来进行所述分解步骤。
标准通常是作为比较对象的例如零或绝对值的阈值。阈值优选是相邻带的谱属性值或者先前部分中的相应带的谱属性值。谱属性可以是频带的能量或频带的调性。对于视频信号,带的平均亮度可以构成所述带的谱属性。频率子带优选是信息信号的各部分的频谱的频率子带。频率子带可以具有随着频率而增加的带宽。组合可以如按顺序连接那样简单,但也可以关注重排序,例如可靠性高的排在前面。该部分可以是信息信号的帧。
在本发明的实施例中,使用比先前分解等级更粗略的分解等级来进行所述分解步骤的各次重复。更粗略意味着按分解等级所进行的频率子带的子分割与先前分解等级相比具有更少数量的子带。
在最低或最精细分解等级的情况下,处理与Haitsma等人所使用的处理相同,从而获得特定指纹位。在更粗略分解等级的情况下,创建新的频率子带并且使这些新的频率子带相关联以创建更高等级的指纹位。
在实施例中,针对各次重复,所述分解步骤包括:通过将先前分解等级的频率子带进行组合来创建多个频率子带。该更高等级的步骤与先前分解等级相比产生更少数量的频率子带。然而,这些频率子带各自表示更大的频带。由于噪声能量在更大的频带内稀释,更粗略分解等级的情况下所使用的更大频率子带固有地更具鲁棒性。因而,如此得到的指纹更具鲁棒性。
在另一优选实施例中,所述组合步骤包括:使用先前分解等级的频率子带的连续对,使得与先前分解等级中的频率子带的数量相比,创建一半数量的频率子带。
为了改善该方法的判别力,代替计算频率子带的重叠对之间的差,可以仅计算频率子带的非重叠对之间的差。这样防止了包括相关差。这样,在一定程度上消除了特征之间的冗余性,这样得到更具判别力的特征表示。
后续重复中的比较步骤可以使用相同标准来进行比较,然而在实施例中,针对各次重复,使用与先前标准不同的标准来进行所述比较步骤。
在另一实施例中,所述计算步骤还包括:计算所述谱属性和所述标准之间的差,其中所述差表示所述比较步骤中的各比较结果的可靠性。在与标准的匹配的质量低、例如接近阈值的情况下,该比较结果不可靠。
优选地,作为该另一实施例的一部分,包括用于对信号在各带中的谱属性进行标准化的步骤作为用于计算所述谱属性的步骤的一部分。本实施例允许依据可靠性对指纹比较结果进行跨等级排名。例如在利用位表示比较结果的情况下,在指纹计算期间,可以识别最不可靠位(例如,32位中的8位)。在搜索处理中,在没有获得匹配的情况下,改变这些低可靠性的比较结果中的一个或多个。由于使用了多个等级的比较结果,因此难以将一个等级的低质量的比较结果与另一等级的低质量的比较结果进行比较。通过在比较之前对谱属性应用标准化,可以比较各等级的比较结果的质量。
此外,优选地,作为该另一实施例的一部分,包括用于对最精细分解等级以外的分解等级的标准化中的属性应用权重因数的步骤。本发明人已发现,较粗略分解等级的比较结果与较精细分解等级的比较结果相比往往更加可靠。如前所述那样应用标准化忽略了该知识,这意味着较粗略分解等级的比较结果可能看上去不如该比较结果实际那样可靠。应用权重因数对该情况进行了补偿。
根据本发明的用于生成指纹的方法可以有利地用在用于将指纹与一个或多个参考指纹进行匹配的方法中。
在实施例中,在没有获得匹配的情况下,改变所生成的具有可靠性相对低的关联指示的指纹的一个或多个比较结果。在替代实施例中,所生成的具有可靠性相对低的关联指示的指纹的一个或多个比较结果被忽略。
上述方法可以由用于生成表示信息信号的指纹的专用装置来进行。所述装置包括:分解部件,用于按分解等级将所述信息信号的一部分分解成多个频率子带;计算部件,用于进行针对所述多个频率子带各自计算所述一部分的谱属性的计算步骤;比较部件,用于将各谱属性与标准进行比较;组合部件,用于将各比较结果进行组合以构成所述指纹。所述装置还具有:重复部件,其被配置为将所述分解部件所进行的分解、所述计算部件所进行的计算、所述比较部件所进行的比较和所述组合部件所进行的组合分别重复进行至少一次,其中,所述分解部件被配置为使用与先前分解等级不同的分解等级来进行分解。
这种装置可以包含在诸如电视、收音机、平板电脑或移动电话等的用于渲染内容的装置内。可选地,该装置可用在例如用于广播监视、音频或视频识别或者其它信息信号处理的其它装置中。
本发明还提供一种计算机可读存储介质,其包括可执行指令,其中所述可执行指令在计算机上执行的情况下,使所述计算机进行根据本发明的上述方法的步骤。这样使计算机用作本发明的装置。
附图说明
现在将参考附图来更详细地说明本发明,其中:
图1示出Haitsma算法的实施例;
图2示意性示出本发明的方法;
图3示意性示出针对本发明的方法的改进;
图4示意性示出更详细的底层算法;
图5示意性示出根据本发明的装置。
在附图中,相同的附图标记表示相同或相似的特征。在示出多个相同的特征、对象或项的情况下,仅针对代表性样本提供附图标记,以便不影响附图的清楚。
具体实施方式
图2示意性示出本发明的方法。接收到需要指纹的信息信号100。该指纹例如可用于以下目的:获得与信息信号100有关的元数据;或者触发诸如记录事件或阻断信息信号100等的动作、或者与信息信号有关的本领域内已知的(或将来所想到的)许多其它选项中的任意选项。
信息信号100是按部分接收到的。部分可以是内容的帧、多个相连接的帧或其它子分割,其中各帧可以表示数秒的音频或视频信号、或者视频块。一些系统可以仅利用表示所述帧的指纹进行工作,其它系统需要在可以进行进一步的动作之前连接多个帧的指纹。例如,在获得与信息信号100有关的元数据的系统中,经常需要针对与数秒的音频或视频相等的帧的指纹。
在步骤110中,将信息信号100的帧分解成具有最精细分解等级的多个频率子带111a、…、111n。
在步骤120中,该方法计算信号100在各所述频率子带中的谱属性。该谱属性可以是频带的能量或频带的调性(tonality),其中可以利用调性系数[1]来表示调性。对于视频信号,带的平均亮度可以构成所述带的谱属性。频率子带优选是信息信号的各帧的频谱的频率子带。频率子带可以具有随着频率而增加的带宽。频率子带可以重叠,但优选不重叠,以防止包括相关差。这样得到更具判别力的特征表示。
在步骤130中,该方法将各谱属性与特定标准进行比较,并且产生代表各个比较结果的输出位作为与最精细分解等级相对应的各个位。该标准通常是作为比较对象的例如零或绝对值的阈值。阈值优选是诸如相邻带的能量水平等的谱属性值或者先前帧中的相应带的谱属性值。在一个优选实施例中,所使用的标准是当前频带的能量是高于还是低于其相邻频带的能量。如果当前频带的能量高于其相邻频带的能量,则结果为1;如果当前频带的能量低于其相邻频带的能量,则结果为0。
在步骤170中,将该方法重复进行预定次数,从而获得各种分解等级的预定数量的频率子带和各种等级的结果位。优选地,预定次数是4次,这意味着将该方法进行5次:一次是按最精细分解等级来进行的,并且四次是按连续的较粗略分解等级来进行的。这样得到(与例如24位或72位的哈希相比)利用计算机硬件的当前设计处理起来高效的32位的哈希。注意,步骤130中所使用的标准在不同等级的情况下可以是不同的。
如果在步骤170中判断为没有达到预定次数(N(“否”)),则首先在步骤180中,通过将较精细分解等级的频率子带的连续对进行组合来创建较粗略分解等级的频率子带。然后,在步骤110中将帧分割成更粗略分解等级的多个频率子带,在步骤120中计算信号在这些更高等级的频率子带各自中的谱属性,在步骤130中与标准进行比较并且再次将结果表示为更粗略分解等级的各个位。
如果在步骤170中判断为达到了重复的预定次数(Y(“是”)),则该方法进入步骤190。
最后,在步骤190中,该方法将所有等级的位进行组合以构成针对该帧的指纹。组合可以如按顺序连接那样简单,但可以关注重排序,例如可靠性高的排在前面。
在上述处理中,重复步骤110~130,直到在步骤170中判断为达到了足够的等级为止。这样允许进行可选的细化,其中通过该细化,可以容易地使用所计算出的最精细分解等级的各带中的属性来计算更高等级的属性。在假定较高等级的频率子带与连续的较低等级的频率子带完全重叠的情况下,如图4那样,可以简单地将较低等级的频率子带的属性相加并且得到较高等级的带的谱属性。可选地,可以针对期望的各分解等级并行地或连续地进行步骤110~130,其中各分解等级的频率子带中的子分割不同,这导致分解等级针对各子分割步骤而有所不同。
图3示意性示出图2所示的方法的进一步改进,其中在该改进中添加了可靠性信息。没有再次论述与图2等同的步骤。
在该改进中,使用按各等级所进行的比较步骤130的输入来生成表示代表比较结果的各个位的可靠性的信息。在与标准的匹配的质量低、即接近阈值的情况下,该位不可靠。对具有不可靠位的指纹进行匹配,这不太可能得到与参考指纹的正匹配。
优选地,首先,在步骤140中,对信号在各带中的谱属性进行标准化。本实施例允许依据可靠性对指纹位进行跨等级排名。由于使用了多个分解等级的位,因此难以将一个等级的低质量位与另一等级的低质量位进行比较。通过在比较之前对谱属性应用标准化,可以比较各个等级的位的质量。
在标准化处理期间,优选对最精细分解等级以外的等级的标准化中的谱属性应用权重因数。本发明人已发现,较粗略分解等级的位与较精细分解等级的位相比往往更加可靠。应用标准化忽略了该知识,这意味着较粗略分解等级的位可能看上去不如该位实际那样可靠。应用权重因数对该情况进行了补偿。
接着,在步骤150中,计算实际可靠性信息。记录给定数量(例如,32个中的8个)的可靠性最低的位,这允许在没有获得匹配的情况下改变这些低可靠性位中的一个或多个。
图4示意性示出以下在使用频率属性的音频指纹提取的上下文中所论述的图2的方法底层的算法。该算法从预处理步骤开始,其中该预处理步骤包括采样率对话、立体声到单声道对话、音频信号成帧等。接着,在针对原始信号的典型FFT变换之后,在时频域中应用带的子分割和能量计算。如此,生成32×N的谱图映射,并且将该谱图映射馈送至指纹位提取模块。将帧n处的频带m的能量表示为E(n,m)。可以通过下式来计算第一分解等级的随时间经过的子带能量差:
在图4所示的层级结构的第一分解等级的情况下,计算频率方向上的能量差。该操作实际是跨相邻频带的能量相减过程,其中可以将该能量相减过程指定为如下:
可以通过查看F1(n,k)的符号来获得最低分解等级的最初16个指纹位,其中这16个指纹位从形式上被定义为如下:
在针对下一更高分解等级计算指纹位之前,首先使用以下公式来对各对相邻频带的能量进行求和:
这里,包括与各分解等级有关的权重因数w。该因数w可用于在不同的分解等级之间进行标准化以及赋予权重。在上述公式中,w2是指本发明的处理中的第二分解等级的权重因数。
尽管在各分解等级针对相同数量的最低分解等级频率子带来计算F(n,m),但在跨分解等级的情况下,针对不同数量的频率子带来计算F(n,m)。这在根据能量差的大小对所有能量差进行排序的情况下造成偏差。特别地,几乎仅从最低分解等级中选择弱位。本发明人通过实验已确定了该分配方式并不体现良好策略。
在实施例中,可以向权重因数w应用标准化因数,从而使较高分解等级的带能量标准化,由此使能量差标准化。优选地,该因数是0.5。这样允许进行能量标准化并且克服了新的提取方法所提出的挑战。
实验表明标准化(尽管与非标准化情况相比给出了更好的精度但)未必带来弱位的最佳分配。在本实施例的细化中,以偏离标准化因数0.5的方式来改变权重。特别地,大于0.5的权重用来反映较高分解等级的稳定性和鲁棒性。换句话说,来自较高分解等级的特征与较低分解等级的特征相比在不太可能发生失真的意义上更加稳定。通过将该情况映射至弱位概念,在较高分解等级中定义较少的弱位、但向不可靠的较低分解等级分配较多的弱位,这是合乎逻辑的。实质上,基于特征在层级结构中的位置来对这些特征赋予不同的权重。已发现该策略得到更好的弱位分配并且提高了搜索的精度和效率。
接着,通过下式来计算指纹位:
以及
重复这些操作,直到生成第五分解等级的最后的位为止。最终,将根据各分解等级所计算出的位汇总到一起以形成32位的子指纹。
以上说明使用了特定操作顺序,即不同分解等级的频率子带的时间差分和递归计算,从而简化说明。本领域内知识丰富的人员将会观察到可以改变频率子带之间和时间帧之间的差分的顺序而不会影响结果,或者可以通过对谱的独立于其它分解等级的相应部分进行求和以及相减来直接计算高分解等级差。
图5示意性示出用于将指纹与数据库550中所存在的一个或多个参考指纹进行匹配的装置500。为了便于说明,将该数据库550示出为存在于装置500的内部,但该数据库550还可以存在于该装置的外部,例如经由诸如因特网等的网络可访问。装置500包含用于进行本发明的方法的装置510。
装置500优选包括接收器501,其中该接收器501用于接收信息信号100,而该信息信号100被馈送至装置510。该装置包括分别与图2的步骤110、120、130、170、180和190相对应的分解模块511、计算模块512、比较模块513、确定模块517、带创建模块518和位组合模块519。可以容易地添加针对图3的额外步骤的模块。模块514具有计数器,其中该计数器使得分解、计算、比较、组合和确定重复所需的重复次数。
在位组合模块519产生了指纹的情况下,将该指纹馈送至匹配模块560,其中在该匹配模块560中,进行数据库550内的搜索。产生结果(例如,信号100的元数据590)作为输出。
如上所述,本发明所产生的位由于其与阈值的接近或相似问题因而可能具有相对低的可靠性。在实施例中,通过在没有获得匹配的情况下使匹配模块560改变具有可靠性相对低的指示的一个或多个位,来解决该可靠性问题。所改变的可靠性低的位越多,搜索时间将越长。此外,错误匹配的几率随着所改变的位数而增加。本发明人已发现改变(“翻转(flipping)”)32个位中的8个位实际提供了针对高可靠性的期望和针对数据库550内的短搜索时间的期望之间的良好折衷。
可选地,可以通过在没有获得匹配的情况下简单地忽略具有可靠性相对低的指示的一个或多个位,来解决可靠性问题。
总结
以上提供了针对用于例示并描述本发明的多个有用实施例的说明。该说明并不意图成为针对可以实现或使用本发明的所有可能方式的穷尽性说明。技术人员将能够想到仍依赖于如权利要求书所呈现的本发明的必要特征的许多修改和变化。另外,没有详细说明众所周知的方法、过程、组件和电路。
文献参考
[1]J.D.Johnston(1988).“Transform coding of audio signals usingperceptual noise criteria”.IEEE Journal on Selected Areas in Communications 6(2):314-332.doi:10.1109/49.608

Claims (14)

1.一种用于生成表示信息信号的指纹的方法,所述方法包括以下步骤:
分解步骤,用于按分解等级将所述信息信号的一部分分解成多个频率子带;
计算步骤,用于针对所述多个频率子带中的各频率子带来计算该部分的谱属性;
比较步骤,用于将各谱属性与标准进行比较,由此生成比较结果;
组合步骤,用于将各比较结果进行组合以构成所述指纹,
其特征在于,
将所述分解步骤、所述计算步骤、所述比较步骤和所述组合步骤重复进行至少一次,以及
针对各次重复,使用与先前分解等级不同的分解等级来进行所述分解步骤。
2.根据权利要求1所述的方法,其中,针对各次重复,使用比先前分解等级更粗略的分解等级来进行所述分解步骤。
3.根据权利要求2所述的方法,其中,针对各次重复,所述分解步骤包括:通过将先前分解等级的频率子带进行组合来创建多个频率子带。
4.根据权利要求3所述的方法,其中,所述组合步骤包括:使用先前分解等级的频率子带的连续对。
5.根据权利要求1所述的方法,其中,针对各次重复,使用与先前标准不同的标准来进行所述比较步骤。
6.根据权利要求1所述的方法,其中,所述计算步骤还包括:计算所述谱属性和所述标准之间的差,其中所述差表示所述比较步骤中的各比较结果的可靠性。
7.根据权利要求6所述的方法,其中,所述计算步骤还包括:对所述谱属性进行标准化。
8.根据权利要求7所述的方法,其中,所述计算步骤还包括:向标准化后的谱属性应用权重因数。
9.一种用于将指纹与一个或多个参考指纹进行匹配的方法,包括以下步骤:
通过根据权利要求1至8中任一项所述的方法来生成指纹;以及
将所生成的指纹的比较结果与所述一个或多个参考指纹的比较结果进行匹配。
10.根据权利要求9所述的方法,其中,在没有获得匹配的情况下,改变所生成的具有可靠性相对低的关联指示的指纹的一个或多个比较结果。
11.根据权利要求9所述的方法,其中,忽略所生成的具有可靠性相对低的关联指示的指纹的一个或多个比较结果。
12.一种用于生成表示信息信号的指纹的装置,包括:
分解部件,用于按分解等级将所述信息信号的一部分分解成多个频率子带;
计算部件,用于针对所述多个频率子带中的各频率子带来计算该部分的谱属性;
比较部件,用于将各谱属性与标准进行比较;
组合部件,用于将各比较结果进行组合以构成所述指纹;以及
重复部件,其被配置为将所述分解部件所进行的分解、所述计算部件所进行的计算、所述比较部件所进行的比较和所述组合部件所进行的组合分别重复进行至少一次,
其中,所述分解部件被配置为根据权利要求1至8中任一项所述的方法,使用与先前分解等级不同的分解等级来进行分解。
13.一种用于渲染内容的装置,其包括根据权利要求12所述的装置。
14.一种计算机可读存储介质,其包括可执行指令,其中,所述可执行指令在计算机上执行的情况下,使所述计算机进行根据权利要求1至8中任一项所述的方法的各步骤。
CN201580029482.6A 2014-04-04 2015-04-02 用于生成信息信号的指纹的方法和装置 Active CN106663102B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
NL2012567 2014-04-04
NL2012567A NL2012567B1 (en) 2014-04-04 2014-04-04 Method and device for generating improved fingerprints.
PCT/NL2015/050211 WO2015152719A1 (en) 2014-04-04 2015-04-02 Method and device for generating fingerprints of information signals

Publications (2)

Publication Number Publication Date
CN106663102A true CN106663102A (zh) 2017-05-10
CN106663102B CN106663102B (zh) 2021-05-07

Family

ID=50896409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580029482.6A Active CN106663102B (zh) 2014-04-04 2015-04-02 用于生成信息信号的指纹的方法和装置

Country Status (6)

Country Link
US (1) US10248723B2 (zh)
EP (1) EP3127014B1 (zh)
JP (1) JP6462111B2 (zh)
CN (1) CN106663102B (zh)
NL (1) NL2012567B1 (zh)
WO (1) WO2015152719A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020525856A (ja) * 2018-03-29 2020-08-27 北京字節跳動網絡技術有限公司Beijing Bytedance Network Technology Co., Ltd. 音声検索・認識方法及び装置
CN113112992A (zh) * 2019-12-24 2021-07-13 中国移动通信集团有限公司 一种语音识别方法、装置、存储介质和服务器

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200142787A (ko) 2019-06-13 2020-12-23 네이버 주식회사 멀티미디어 신호 인식을 위한 전자 장치 및 그의 동작 방법
CN112104892B (zh) * 2020-09-11 2021-12-10 腾讯科技(深圳)有限公司 一种多媒体信息处理方法、装置、电子设备及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1461565A (zh) * 2001-02-12 2003-12-10 皇家菲利浦电子有限公司 生成和匹配多媒体内容的散列
CN1685703A (zh) * 2002-09-30 2005-10-19 皇家飞利浦电子股份有限公司 “指纹”的提取
CN101238477A (zh) * 2005-08-03 2008-08-06 精密生物测定股份公司 用于指纹对准的方法和设备
CN101351986A (zh) * 2006-04-28 2009-01-21 阜博有限公司 基于多分辨率、多帧率空间和时域特征的数字视频对象的指纹生成方法及系统
US20110064244A1 (en) * 2009-09-15 2011-03-17 Native Instruments Gmbh Method and Arrangement for Processing Audio Data, and a Corresponding Computer Program and a Corresponding Computer-Readable Storage Medium
KR101144016B1 (ko) * 2010-07-20 2012-05-09 한국과학기술원 Wi?Fi 신호지문 데이터베이스 확보 방법 및 이를 위한 시스템
US20130124438A1 (en) * 2011-11-11 2013-05-16 Sung-young Lee Method of recognizing patterns based on markov chain hidden conditional random field model
CN103294696A (zh) * 2012-02-27 2013-09-11 盛乐信息技术(上海)有限公司 音视频内容检索方法及系统
CN103324663A (zh) * 2013-04-23 2013-09-25 广东工业大学 基于mdct频谱期望的压缩域音频指纹提取方法
US8577354B2 (en) * 2011-10-07 2013-11-05 Newaer, Inc. Automating actions within a phone network based upon scanned wireless signals
CN103403710A (zh) * 2011-02-10 2013-11-20 雅虎公司 对来自音频信号的特征指纹的提取和匹配
US20130345840A1 (en) * 2012-06-20 2013-12-26 Yahoo! Inc. Method and system for detecting users' emotions when experiencing a media program
CN103548076A (zh) * 2012-05-23 2014-01-29 恩斯沃尔斯有限责任公司 利用音频信号来识别内容的装置和方法
CN103999473A (zh) * 2011-12-20 2014-08-20 雅虎公司 用于内容识别的音频指纹
CN104584571A (zh) * 2012-06-28 2015-04-29 谷歌公司 在机顶盒处产生音频指纹序列

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040086350A (ko) * 2002-02-05 2004-10-08 코닌클리케 필립스 일렉트로닉스 엔.브이. 핑거프린트의 효율적 저장
KR20050061594A (ko) * 2002-11-01 2005-06-22 코닌클리케 필립스 일렉트로닉스 엔.브이. 개선된 오디오 데이터 지문 검색
DE102004036154B3 (de) * 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
US7516074B2 (en) 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
KR100803206B1 (ko) 2005-11-11 2008-02-14 삼성전자주식회사 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법
US8094872B1 (en) 2007-05-09 2012-01-10 Google Inc. Three-dimensional wavelet based video fingerprinting
US8140331B2 (en) 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US8238669B2 (en) * 2007-08-22 2012-08-07 Google Inc. Detection and classification of matches between time-based media
US8204314B2 (en) 2007-12-03 2012-06-19 Vobile, Inc. Method and system for fingerprinting digital video object based on multiresolution, multirate spatial and temporal signatures
US9305563B2 (en) * 2010-01-15 2016-04-05 Lg Electronics Inc. Method and apparatus for processing an audio signal
US8158870B2 (en) 2010-06-29 2012-04-17 Google Inc. Intervalgram representation of audio for melody recognition
WO2012091938A1 (en) * 2010-12-30 2012-07-05 Dolby Laboratories Licensing Corporation Ranking representative segments in media data
US8492633B2 (en) * 2011-12-02 2013-07-23 The Echo Nest Corporation Musical fingerprinting
US20140019390A1 (en) * 2012-07-13 2014-01-16 Umami, Co. Apparatus and method for audio fingerprinting
US9159328B1 (en) * 2014-03-27 2015-10-13 Verizon Patent And Licensing Inc. Audio fingerprinting for advertisement detection

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1461565A (zh) * 2001-02-12 2003-12-10 皇家菲利浦电子有限公司 生成和匹配多媒体内容的散列
CN1685703A (zh) * 2002-09-30 2005-10-19 皇家飞利浦电子股份有限公司 “指纹”的提取
CN101238477A (zh) * 2005-08-03 2008-08-06 精密生物测定股份公司 用于指纹对准的方法和设备
CN101351986A (zh) * 2006-04-28 2009-01-21 阜博有限公司 基于多分辨率、多帧率空间和时域特征的数字视频对象的指纹生成方法及系统
US20110064244A1 (en) * 2009-09-15 2011-03-17 Native Instruments Gmbh Method and Arrangement for Processing Audio Data, and a Corresponding Computer Program and a Corresponding Computer-Readable Storage Medium
KR101144016B1 (ko) * 2010-07-20 2012-05-09 한국과학기술원 Wi?Fi 신호지문 데이터베이스 확보 방법 및 이를 위한 시스템
CN103403710A (zh) * 2011-02-10 2013-11-20 雅虎公司 对来自音频信号的特征指纹的提取和匹配
US8577354B2 (en) * 2011-10-07 2013-11-05 Newaer, Inc. Automating actions within a phone network based upon scanned wireless signals
US20130124438A1 (en) * 2011-11-11 2013-05-16 Sung-young Lee Method of recognizing patterns based on markov chain hidden conditional random field model
CN103999473A (zh) * 2011-12-20 2014-08-20 雅虎公司 用于内容识别的音频指纹
CN103294696A (zh) * 2012-02-27 2013-09-11 盛乐信息技术(上海)有限公司 音视频内容检索方法及系统
CN103548076A (zh) * 2012-05-23 2014-01-29 恩斯沃尔斯有限责任公司 利用音频信号来识别内容的装置和方法
US20130345840A1 (en) * 2012-06-20 2013-12-26 Yahoo! Inc. Method and system for detecting users' emotions when experiencing a media program
CN104584571A (zh) * 2012-06-28 2015-04-29 谷歌公司 在机顶盒处产生音频指纹序列
CN103324663A (zh) * 2013-04-23 2013-09-25 广东工业大学 基于mdct频谱期望的压缩域音频指纹提取方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020525856A (ja) * 2018-03-29 2020-08-27 北京字節跳動網絡技術有限公司Beijing Bytedance Network Technology Co., Ltd. 音声検索・認識方法及び装置
US11182426B2 (en) 2018-03-29 2021-11-23 Beijing Bytedance Network Technology Co., Ltd. Audio retrieval and identification method and device
CN113112992A (zh) * 2019-12-24 2021-07-13 中国移动通信集团有限公司 一种语音识别方法、装置、存储介质和服务器
CN113112992B (zh) * 2019-12-24 2022-09-16 中国移动通信集团有限公司 一种语音识别方法、装置、存储介质和服务器

Also Published As

Publication number Publication date
WO2015152719A1 (en) 2015-10-08
NL2012567B1 (en) 2016-03-08
JP2017518715A (ja) 2017-07-06
NL2012567A (en) 2016-01-13
CN106663102B (zh) 2021-05-07
US10248723B2 (en) 2019-04-02
EP3127014B1 (en) 2018-01-10
US20180018394A1 (en) 2018-01-18
EP3127014A1 (en) 2017-02-08
JP6462111B2 (ja) 2019-01-30

Similar Documents

Publication Publication Date Title
JP4723171B2 (ja) マルチメディア・コンテンツのハッシュの生成および突合せ
US8977067B1 (en) Audio identification using wavelet-based signatures
EP2659480B1 (en) Repetition detection in media data
EP2791935B1 (en) Low complexity repetition detection in media data
US20060013451A1 (en) Audio data fingerprint searching
US20160247512A1 (en) Method and apparatus for generating fingerprint of an audio signal
US20140280304A1 (en) Matching versions of a known song to an unknown song
CN106663102A (zh) 用于生成信息信号的指纹的方法和装置
JP2008191675A (ja) デジタル信号をハッシュする方法
TW200833116A (en) Extracting features of video and audio signal content to provide a reliable identification of the signals
Bryan et al. Clustering and synchronizing multi-camera video via landmark cross-correlation
Dimoulas et al. Syncing shared multimedia through audiovisual bimodal segmentation
Costa et al. Music genre recognition using gabor filters and lpq texture descriptors
US20140219461A1 (en) Method and device for audio recognition
Korycki Authenticity examination of compressed audio recordings using detection of multiple compression and encoders’ identification
Kobayashi et al. Audio feature extraction based on sub-band signal correlations for music genre classification
Ouali et al. A spectrogram-based audio fingerprinting system for content-based copy detection
US9008490B1 (en) Melody recognition systems
Kekre et al. A review of audio fingerprinting and comparison of algorithms
Kotsakis et al. Feature-based language discrimination in radio productions via artificial neural training
Basaran et al. Multiresolution alignment for multiple unsynchronized audio sequences using sequential Monte Carlo samplers
Kim et al. TV advertisement search based on audio peak-pair hashing in real environments
Htun Compact and Robust MFCC-based Space-Saving Audio Fingerprint Extraction for Efficient Music Identification on FM Broadcast Monitoring.
Bagri et al. A scalable framework for joint clustering and synchronizing multi-camera videos
CN117672234A (zh) 音频丢包数据恢复方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant