CN101142591A - 内容采样和标识 - Google Patents

内容采样和标识 Download PDF

Info

Publication number
CN101142591A
CN101142591A CNA2005800118816A CN200580011881A CN101142591A CN 101142591 A CN101142591 A CN 101142591A CN A2005800118816 A CNA2005800118816 A CN A2005800118816A CN 200580011881 A CN200580011881 A CN 200580011881A CN 101142591 A CN101142591 A CN 101142591A
Authority
CN
China
Prior art keywords
time
sample
audio
deduction
start time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005800118816A
Other languages
English (en)
Inventor
A·礼俊·王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Landmark Digital Services LLC
Original Assignee
Landmark Digital Services LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Landmark Digital Services LLC filed Critical Landmark Digital Services LLC
Publication of CN101142591A publication Critical patent/CN101142591A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/37Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/38Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying broadcast time or space
    • H04H60/40Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying broadcast time or space for identifying broadcast time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/68Systems specially adapted for using specific information, e.g. geographical or meteorological information
    • H04H60/73Systems specially adapted for using specific information, e.g. geographical or meteorological information using meta-information
    • H04H60/74Systems specially adapted for using specific information, e.g. geographical or meteorological information using meta-information using programme related information, e.g. title, composer or interpreter

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

提供了一种用于内容采样和标识的方法和系统。记录数据流,并且标识所述数据流的样本。初始时,可以随机地取样本以便标识。一旦在所述数据流内将样本标识和分段,就可以将下一采样时间计算为在所述标识的样本的时间帧之外。因此,可以将采样周期适应性地调整为在所标识的轨道之后的时间。

Description

内容采样和标识
对相关申请的交叉引用
本专利申请在35 U.S.C.§119(e)下要求2004年4月19日提交的美国临时专利申请序列号No.60/563,372的优先权,其通过引用整体结合于此。
技术领域
本发明总地涉及标识广播内的内容,并且更具体地涉及标识数据流内的内容段以便计算何时对来自数据流的数据进行下一采样。
背景技术
随着工业向富有多媒体的工作环境方向发展,所有形式的音频和视频内容表示(无线电广播发射、流动视频、音频画布(audio canvas)、视频汇总等)的使用变得更频繁。不论是用户、内容提供者还是双方,每个人都搜索最佳地利用该内容的方式。例如,一种对于创造性使用具有很大潜力的方法是内容标识。使用户能够标识用户正在听或看的内容为内容提供者提供了新的成功机会。
在广播监视和随后的内容标识的领域中,经常需要在使所花费的努力最小化的同时标识尽可能多的音频内容。在一示范系统中,来自广播流(如无线电广播或电视广播)的音频样本被记录,并且每个音频样本被发送到标识装置,该装置返回该音频样本的内容的标识。还可记下每个音频样本的记录时间并且随后可以构建广播播放列表,该播放列表列出在所监视的每个广播通道上广播的音轨。
现有监视系统可能对广播流周期性地而不是连续地采样,并且因此可能对广播流欠采样。在这样的情形下,短持续时间的内容可能根本不被采样并且可能被整个地遗漏。或者,监视系统可能对广播流过采样,这导致执行冗余的采样和内容标识,浪费了计算努力。因此,期望一种使采样周期最佳的方法。
发明内容
在这里公开的实施例内,提供了一种用于对音频流分段的方法。该方法包括接收音频流的样本和该样本的开始时间,以及随后确定样本的轨道标识和距所标识的轨道的开始的样本的相对时间偏移。该方法还包括使用相对时间偏移和样本的开始时间计算音频流内所标识的轨道的推断开始时间。该推断开始时间指示音频流内轨道之间的边界。
另一方面,该方法包括接收音频流的样本和每个样本的开始时间,并且对于每个样本,确定轨道标识和音频流内所标识的轨道的推断开始时间。该方法还包括标识具有基本类似的推断开始时间的样本,以及对具有基本类似的推断开始时间的样本,验证所述样本也具有匹配的轨道标识。
又另一方面,该方法包括接收音频流和从包括来自该音频流的样本的音频流选择部分音频。该方法还包括确定该样本的轨道标识和计算音频流内所标识的轨道的推断开始时间和推断结束时间。该方法还包括将推断开始时间和推断结束时间之间的音频流的一段标记为识别的音频段,并且基于所识别的音频段的长度计算对音频流采样的下一时间。
通过适当参考附图来阅读下面的详细描述,这些以及其他特征、优点和替选方案将对本领域普通技术人员变得明显。
附图说明
图1示出用于标识音频流内的内容的系统的一个实例。
图2是描绘用于标识广播音频流内的内容的方法的一个实例的流程图。
图3概念性地示出用于标识从音频流捕捉的音频的过程的一个实例。
图4是描绘用于存储所标识的轨道的方法的一个实例的流程图。
图5概念性地示出适应性地调整音频流的采样间隔的一个实例。
图6是描绘适应性地调整音频流的采样间隔的方法的一个实例。
图7概念性地示出标识从音频流捕捉的音频的过程的另一实例。
具体实施方式
在下面公开的实施例内,适应性的采样方法用于将广播流(例如无线电广播或电视广播)分段成识别的和未识别的音频段,分别缩写为“RA”和“NRA”。该方法的适应性在于:在识别或标识音频之后,系统随后可以基于例如NRA内RA的长度计算何时对广播流进行下一采样。
现在参见附图,图1示出用于标识来自广播源的内容的系统的一个实例。该系统包括无线电站如无线电站102,其可以是例如将音频流和其他信息播送到接收器104的无线电或电视内容提供者。样本分析器106将监视所接收的音频流,并且标识关于所述音频流的信息如轨道标识。样本分析器106包括音频搜索引擎108并且可以例如访问包含音频样本和广播信息的数据库110,以标识音频流内的轨道。一旦音频流内的轨道已被标识,轨道标识就可以被报告给库112,其可以例如是消费者跟踪机构或其他统计中心。
数据库110可以包括许多记录,并且每个记录具有唯一的标识符例如sound_ID。该数据库自身不必须为每个记录存储音频文件,因为sound_ID可以用于从其他地方检索音频文件。声音数据库索引预期为很大,包含例如数百万个或甚至数十亿个文件的索引。优选地,新记录被递增地添加到数据库索引。
尽管图1示出了具有给定配置的系统,但该系统内的部件可以以其他方式布置。例如,音频搜索引擎108可以与样本分析器106分离。因此,应该理解这里描述的配置本质上仅是示范性的,并且还可以使用许多可替选的配置。
图1的系统、且特别是样本分析器106可以标识音频流内的内容。图2是描绘用于标识广播音频流内的内容的方法的一个实例的流程图。初始时,记录广播流,如框202所示,并且将其整体标记为未识别的音频(NRA),即每个时间点处的音频内容的标识是未知的,如框204所示。音频流的标识试图通过创建识别的音频(RA)和未识别的音频(NRA)段来对广播流分段,并且初始时,在标识该流内的任何音频之前,所有的音频将被看作NRA。
在接收音频之后,从广播流中选择例如几秒持续时间的音频样本,如框206所示。记下广播流内所选择的音频部分的样本开始时间,如框208所示。例如,如果样本分析器在2:10pm开始记录音频流,则在该流内,可以在2:12pm标记处取音频样本。因此,在此实例中,所选择的音频部分的开始时间被标记为2:12pm。
接着,标识所选择的音频部分中的内容,如框210所示,并且使用音频搜索引擎108确定音频样本的相对时间偏移(距取音频部分的在歌曲中的时间),如框212所示。该音频搜索引擎可以实施任何公知的标识技术。在本领域中,公知用于使用音轨的数据库标识音频样本的各种音频样本标识技术。下面的专利和出版物描述了音频识别技术的可能的实例,并且每个通过引用整体地结合在这里,如同在此说明书中完整阐述一样。
Kenyon等人的美国专利No.4,843,562,标题为“Broadcast InformationClassification System and Method”
Kenyon等人的美国专利No.5,210,820,标题为“Signal Recognition Systemand Method”
Haitsma等人的国际公布号WO 02/065782 A1,标题为“Generating andMatching Hashes of Multimedia Content”
Wang和Smith,国际公布号WO 02/11123 A2,标题为“System and Methodsfor Recognizing Sound and Music Signals in High Noise and Distortion”Wang和Culbert,国际公布号WO 03/091990 A1,标题为“Robust andInvariant Audio Pattern Matching”
简言之,通过接收信号并且在多个采样点对其采样以产生多个信号值而开始标识信号。可以使用任何公知的公式如在美国专利No.5,210,820中提到的公式来计算信号的统计矩。随后将所计算的统计矩与多个所存储的信号标识相比较,并且所接收的信号被识别为类似于所存储的信号标识之一。所计算的统计矩可以用于创建量化的特征向量,并且该量化的特征向量的的加权和被用于访问存储信号标识的存储器。
在另一实例中,通常可以通过标识或计算音频样本的特性或指纹并且将指纹与先前标识的指纹相比较来标识音频内容。计算指纹的样本内的特定位置依赖于样本内的可再现的点。这样的可再现地可计算的位置被称为“陆标(landmark)”。样本内陆标的位置可以由样本自身来确定,即依赖于样本品质,并且该位置是可再现的。即,在每次重复该过程时对相同的信号计算相同的陆标。陆标机制可以在声音记录的每秒标记大约5-10个陆标;当然,陆标密度依赖于声音记录内活动的量。
公知为Power Norm的一种陆标技术在记录中的每个可能的时间点计算瞬时功率并且选择局部极大值。一种执行此技术的方法是通过直接对波形整流和滤波来计算包络线。另一种方法是计算信号的希耳伯特变换(求积分),并且使用原始信号与希耳伯特变换的量值平方的和。还可以使用其他计算陆标的方法。
一旦计算了陆标,就可以在记录中的每个陆标时间点处或其附近计算指纹。特征与陆标的接近度由所使用的指纹方法所限定。在某些情形中,如果一特征清楚地对应于一陆标并且不对应于先前的或随后的陆标,则该特征被看作接近于该陆标。在其他情形中,特征对应于多个相邻的陆标。指纹通常是概括了记录中的处于或接近该时间点的一组特征的一个值或一组值。在一个实施例中,每个指纹是单个数字值,其是多个特征的哈希函数(hashed function)。指纹的其他实例包括谱切片指纹、多切片指纹、LPC系数、倒谱系数以及谱图峰的频率分量。
可以通过任何类型的信号的频率分析或数字信号处理来计算指纹。在一个实例中,为了产生谱切片指纹,在每个陆标时间点附近执行频率分析以提取最高的几个谱峰。指纹值恰好是最强的谱峰的单个频率值。
为了利用许多声音的时间演变,通过将一组时间偏移添加到陆标时间点而确定一组时间片。在每个作为结果的时间片,计算谱切片指纹。然后将作为结果的该组指纹信息相组合以形成一个多音调或多切片指纹。每个多切片指纹比单个谱切片指纹更独特,因为其跟踪时间演变,导致数据库索引搜索中更少的错误匹配。
关于计算音频样本的特性或指纹的更多信息,读者参见授予Wang和Smith的标题为“System and Methods for Recogning Sound and Music Signalsin High Noise and Distortion”的美国专利申请公布号US 2002/0083060,其整个公开通过引用结合在这里,如同在此说明书中完整阐述一样。
因此,音频搜索引擎108将接收音频样本并计算该样本的指纹。音频搜索引擎108可以通过结合附加的识别引擎来计算指纹。音频搜索引擎108可以随后访问数据库110以通过产生等同指纹之间的对应将音频样本的指纹与已知音轨的指纹相匹配,并且具有最大数量的线性相关对应、或其特性指纹的相对位置最紧密地匹配于音频样本的相同指纹的相对位置的数据库110中的文件被认为是匹配的媒体文件。即,标识陆标对中的线性对应,并且根据线性相关的对的数量来给组打分。当在允许的公差内可以用基本相同的线性等式来描述大数量的对应样本位置和文件位置时,出现线性对应。具有最高分数即具有最大数量的线性相关对应的组的文件是获胜的文件。
为了确定音频样本的相对时间偏移,可将音频样本的指纹与待与它们匹配的原始文件的指纹相比较。每个指纹在给定的时间出现,因此在为标识音频样本而使指纹匹配之后,音频样本的第一指纹和所存储的原始文件的第一指纹之间的时间差将是音频样本的时间偏移,例如在歌曲中的时间量。因此,可以确定取样本处的相对时间偏移(例如,在歌曲中67秒)。
具体地,为了确定音频样本的相对时间偏移,可以寻找给定分布列表的陆标点的分布图内具有接近1的斜率的对角线。分布图可以包括水平轴上的已知声音文件陆标和垂直轴上的未知声音样本陆标(例如来自音频样本)。斜率大约等于1的对角线在分布图内被标识,其指示利用未知样本给出此斜率的歌曲与该样本相匹配。水平轴的截距指示样本开始处的在音频文件中的偏移。因此,使用例如如上面讨论的由Wang和Smith公开的标识方法,产生来自数据库的所标识的内容文件的开始与被分析的音频样本的开始之间的精确的相对时间偏移,例如用户可记录在歌曲中为67秒的歌曲的十秒样本。从而,相对时间偏移被记录为标识音频样本的结果(例如水平轴的截距指示相对时间偏移)。其他用于计算相对时间偏移的方法也是可以的。
因此,除了与所标识的音轨相关联的元数据之外,Wang和Smith技术还返回距所标识的音轨的开始的音频样本的相对时间偏移。结果,可以使用标识过程内的另一验证步骤,其中可以使谱图峰对准。因为Wang和Smith技术产生相对时间偏移,所以有可能例如在时间轴上的约10ms内暂时使谱图峰记录对准。然后,可以确定匹配时间和频率峰的数量,即,可用于比较的分数。
关于确定相对时间偏移的更多信息,读者参见授予Wang和Smith的标题为“System and Methods for Recogning Sound and Music Signals in HighNoise and Distortion”的美国专利申请公布号US 2002/0083060,其整个公开通过引用结合于此,如同在此说明书中完全阐述一样。
作为标识音频流内的内容的技术的又另一实例,可以分析音频样本以使用局部化的匹配技术来标识其内容。例如,通常,两个音频样本之间的关系可以通过首先使从相应样本得到的特定指纹对象相匹配来表征。对每个音频样本产生一组指纹对象,其每个出现在特定位置。根据相应音频样本的内容确定每个位置,并且每个指纹对象表征处于或接近相应特定位置的一个或多个局部特征。接下来对于每对匹配的指纹对象确定相对值。随后产生相对值的直方图。如果发现有统计意义的峰,则两个音频样本可以表征为基本匹配。另外,可以确定时间伸长比率,其指示与原始音轨相比音频样本已被加速或减慢了多少。关于此方法的更详细的解释,读者参见授予Wang和Culbert的标题为“Robust and Invariant Audio Pattern Matching”的公布的PCT专利申请WO 03/091990,其整个公开通过引用结合于此,如同在此说明书中完全阐述一样。
回到图2,在成功的内容识别(如由上面讨论的任何方法所执行的)之后,由音频搜索引擎108返回(1)音轨标识、(2)相对时间偏移(例如所标识的轨道的开始与样本的开始之间的时间)、以及可选的(3)时间伸长比率(例如实际回放速度与原始主控速度之比)以及(4)置信等级(例如,系统已正确标识了音频样本的确定程度)。在很多情形中,时间伸长比率(TSR)可以被忽略或可以假定为1.0,因为TSR通常接近于1。置信等级可以用于允许关于NRA和RA的分离的缺省公差。可以为了更大的精确度而考虑TSR和置信等级信息。
随后,将相对时间偏移与样本开始时间一起使用以计算推断样本开始时间,如框214所示。该推断开始时间指示音频流内完整样本的开始时间。如框216所示,随后完整样本的长度可以通过例如访问数据库110、并且基于轨道标识查询该长度来确定。使用轨道长度,也可以计算样本的结束时间,如框218所示。
图3概念性地示出了标识从音频流捕捉的音频的过程,如上面参考图2描述的那样。如所示的那样,所捕捉的音频流初始时被全部标记为“未识别的音频”。取音频样本并且提交到音频标识引擎108,其包括或访问音乐轨道数据库(例如数据库110)。随后确定样本的轨道长度、相对时间偏移和轨道标识。在此实例中,音频被标识为Pink Floyd的一歌曲,标题为“Dark Side of the Moon”。
使用样本的开始时间和相对时间偏移,“识别的音频”区可以延伸到所标识的轨道的开始。例如,假定样本的开始时间是2:12pm,并且相对时间偏移是2分钟。因此,音频样本从在歌曲中2分钟的音轨部分开始,并且因此轨道的开始时间是在2:10pm。如图3中所示,到该开始的偏移将是2分钟(假定TSR大约是1)。因此,如下面等式1所示,计算音轨开始时间。
音轨开始时间=(样本开始时间)-(相对时间偏移)*(时间伸长比率)
等式(1)
另外,与RA的轨道标识相关联的是从数据库110中检索的轨道长度数据。使用轨道长度,RA区可以延伸到所标识的轨道的结束。例如,因为计算了轨道的开始时间,那么轨道的结束时间可以计算为轨道开始时间加上轨道长度,如下面等式2所示。
音轨结束时间=(样本开始时间)-(相对时间偏移)*(时间伸长比率)+(轨道长度)*(时间伸长比率)    等式(2)
随后由这些推断结束点时间值将音轨归类。例如,音轨开始时间和音轨结束时间之间的广播流的整个时间间隔被标记为“识别的”并且此外被标记有如上面所确定的轨道标识,从而将识别的音频段延伸到原始音频样本之外。结果,广播流现在包含RA段。
如果标识尝试不返回结果,那么不可标识的音频样本周围的区可以被标记为“不可标识的”。然后可以在该不可标识的区的边缘处取音频样本以尝试寻找例如新“识别的”区的边界。对来自“未识别的”间隔的新音频样本上的广播流重复该标识和延伸过程,直到没有更多未识别的段保持,即仅“不可标识的”和“识别的”段保持。不可标识的段可对应于例如非节目音频如DJ讲话,或不在标识数据库中的音频节目(如音乐)。
关于所标识的音频内容的信息可以存储在库112中的文件中并且标识元数据(例如以ID3格式)可以附到该文件。另外,所标识的音频内容的出现的时间间隔可以记载到播放列表中,从而可以编辑轨道列表以及对应的轨道被广播的时间。例如,图4是描绘所标识轨道的存储的流程图。在确定轨道标识、广播时间和日期之后,如框402所示,信息可以存储在库112中,如框404所示。包括对应的音轨开始时间和停止时间之间的间隔的每个识别的音频段可以被拷贝到音乐库文件夹中的对应文件中。库112可以由任意数量的用户访问以确定例如在特定天已播放什么歌曲。
库112中的作为结果的文件可以被标记有标识元数据:例如,文件名可以是轨道标题和艺术家的组合。可以将指向这样的元数据的指针提供为标记。另外,可以任选地存储每个音频文件,如以类似MP3或AAC的压缩格式或Real Audio格式。另外,对于每个识别的音频段,ID3标签记录可以被增加有对应于音轨标识并且被附到音频文件的标识元数据。所述文件可以显示在轨道列表中以便于用户选择在后面的时间点回放。
在将信息记载在库112中之后,创建并存储播放列表,如框406和408所示。例如,所标识的(例如识别的)时间段的播放列表与对应的标识信息一起被编辑,并且可以提供给对订阅此信息感兴趣的客户。一个示范播放列表在下面的表1中示出。
  日期   时间   轨道ID
  2004-04-03   13:38pm   Turn to Stone
  2004-04-03   13:47pm   Dark side of the moon
  2004-04-03   13:53pm   Dust in the wind
表格1
播放列表信息可以实时地被提供有最小的等待时间,原因在于下面的事实:当接收新的未识别的音频时,可以对到来的音频样本执行标识,导致已知的未来音轨结束时间,其对应于还没有接收到的音频数据。在一示范实施例中,待分析的下一音频样本被安排为紧接在当前已知的音轨结束时间出现之后开始捕捉。因此标识信息可以实时地被提供有例如仅至多几秒的延迟。
通过直接和适应性标识来分段
使用上面讨论的方法,广播音频流可以分段成识别的和未识别的音频部分。可以从该广播流中选择音频样本,以便基于直接和适应性标识技术来标识。使用直接技术,可以例如以预定的间隔如每30秒或其他周期性的间隔来取音频样本。
但是,为了增大效率,不必要对“识别的”区内的广播流的任何部分执行进一步的采样和标识步骤。在精确标识的情况下,这样的过采样将是冗余的。不同于周期性地采样,一旦样本在音频流内被标识和分段,就可以将下一采样时间计算为在所标识的样本的时间之外。因此,可以适应性地将采样周期调整为在所标识的轨道之后的时间。以此方式,可以使采样密度优化。
图5概念性地示出对音频流适应性地采样。例如,如所示的那样,一旦轨道已被标识为RA(例如为Pink Floyd的歌曲),就不必要对音频流再次采样,直到该歌曲结束之后。因此,如图6中所示,在确定所标识的轨道的长度之后,如框602所示,可以基于轨道的结束时间计算下次采样的时间,如框604和606所示。另外,正好在轨道的结束点处采样可能不是理想的,因为结束点可能包含可能不能被标识的轨道之间的过渡。因此,可以将下一采样时间计算为在所标识的轨道的结束之后几秒,如图5中所示。所以,基于对该流中的音频的结构(例如轨道的开始和结束的位置)的理解,可以适应性地配置采样模式。
为了增大标识过程中的确定性,可以取并标识时间上接近的多个样本,如图7中所示。从同一轨道中取得的多个样本应该产生同一轨道ID。例如,如图7中所示,多个样本都已被标识为Pink Floyd的歌曲。以此方式,可以进行多个密集采样并且当轨道ID改变时,可以假定在边界样本之间已经有节目过渡(即轨道改变)。随后可以使用由匹配样本表示的时间间隔来对所标识的轨道划界。
在使用多个采样方法的又另一增强中,如果在样本内轨道标识不改变,则推断音轨开始时间(或等同地,音轨结束时间)应保持基本不变。从而具有基本类似的音轨开始时间的样本可以组合在一起并且这样的样本也应该具有相同的轨道标识。这提供了验证标识过程的另一手段。这对于其中针对一个识别请求返回多个识别结果的情形可能是有用的,并且这可能有助于确定哪个轨道是实际存在的。当两个或更多轨道包含基于相同源材料例如扩展的或舞蹈混合的元素时,可以返回多个识别结果。在该情形中,对于给定样本,由音频搜索引擎返回多个组的{轨道ID、音轨开始时间和为任选的轨道长度}。为了标识轨道,选择最多样本同时出现的轨道标识和音轨开始时间。
在这里公开的任何实施例内的另一方面中,在试图标识内容时,包括不可识别的段的任何剩余的NRA可以被拷贝到对应音频文件中并且被提交给收听者。收听者可以具有进一步编辑NRA并可能将NRA重新归类为RA的工具。不能由音频搜索引擎108标识的NRA段是还不在数据库110中的新音乐发行物的侯选者。因此,一旦被合适地注释,此分析就表示封装和提供应随后添加到音频搜索引擎的数据库的可能的新音乐发行物的自动方法的一个实例。
已将许多实施例描述为单独地或与其他实施例相结合地执行,然而可以一起使用或以任意组合使用任何上述实施例,以增强标识数据流中的样本的确定性。另外,许多实施例可以使用具有广播流接收装置(如无线电接收器)和下列装置的客户设备来执行:(1)用于与执行标识步骤的中央标识服务器通信的数据传输装置,或(2)用于执行构建到客户设备自身中的标识步骤(例如,音频识别装置数据库可以加载到客户设备上)的装置。另外,客户设备可以包括用于更新数据库以适应新音轨的标识的装置如到服务器的以太网或无线数据连接、以及请求数据库更新的装置。客户设备还可以进一步包括用于存储所识别的被分段和被标记的音轨文件的局部存储装置,并且如在自动唱机中一样,客户设备可以具有播放列表选择和音轨回放装置。
注意尽管已就完整功能的识别系统和方法而言描述了本申请,但本领域技术人员将理解,本申请的机制能够以多种形式的指令的计算机可读介质的形式发布,且本申请同等地适用而与用于实际执行发布的信号承载媒体的具体类型无关。这样的计算机可访问的设备的实例包括计算机存储器(RAM或ROM)、软盘、CD-ROM以及传输型媒体如数字和模拟通信链路。
尽管已经结合本申请的实施例描述了实例,但本领域技术人员将理解,可以不脱离本申请的范围和精神而进行变化。例如,尽管实例中描述的广播数据流通常是音频流,但本发明不局限于此,而是可以应用到许多种广播内容,包括视频、电视或其他多媒体内容。另外,这里描述的设备和方法可以在硬件、软件、或组合如通过易失的或非易失的存储器运行软件应用程序的通用或专用处理器中执行。本申请的实际范围和精神由所附权利要求限定,所附权利要求可以依照前面的内容来解释。

Claims (28)

1.一种用于对广播数据流分段的方法,包括:
接收所述广播数据流的样本;
接收所述样本的开始时间;
确定所述样本的轨道标识;
确定距所述标识轨道的开始的所述样本的相对时间偏移;以及
使用所述样本的所述相对时间偏移和所述开始时间来计算所述广播数据流内所述标识轨道的推断开始时间,其中所述推断开始时间指示所述广播数据流中的轨道之间的边界。
2.如权利要求1的方法,其中计算所述推断开始时间包括:
确定所述标识轨道的相对回放速度比率;以及
由于所述相对回放速度,调节所述推断开始时间和推断结束时间。
3.如权利要求1的方法,进一步包括确定所述样本的推断结束时间,其中所述标识轨道包括在所述推断开始时间和所述推断结束时间之间的所述广播数据流的段。
4.如权利要求3的方法,进一步包括将所述推断开始时间和所述推断结束时间之间的所述广播数据流的时间间隔标记为识别的,从而将所述广播数据流内的识别的段延伸到所述样本之外。
5.如权利要求4的方法,进一步包括基于所述识别的段的长度计算对所述广播数据流采样的下一时间。
6.如权利要求3的方法,进一步包括将所述广播数据流的所述段拷贝到文件中。
7.如权利要求6的方法,进一步包括:
检索与所述轨道标识相关联的元数据;以及
将所述元数据与所述样本相关联。
8.如权利要求7的方法,进一步包括:
根据所述元数据将所述广播数据流的所述段的信息组织为播放列表;
将所述播放列表显示给用户;
允许所述用户从所述播放列表中选择文件;以及
在音频回放装置上播放所述文件。
9.如权利要求3的方法,其中确定所述推断结束时间包括:
获得所述标识轨道的轨道长度;以及
将所述轨道长度添加到所述推断开始时间。
10.如权利要求9的方法,其中获得所述轨道长度包括基于所述轨道标识查询所述轨道长度。
11.如权利要求1的方法,其中计算所述样本的所述推断开始时间包括从所述样本的所述开始时间减去所述相对时间偏移。
12.如权利要求1的方法,其中确定所述轨道标识包括访问包含轨道标识的数据库。
13.如权利要求1的方法,进一步包括将所述推断开始时间和所述轨道标识写入文件中。
14.如权利要求13的方法,进一步包括将所述推断开始时间和所述轨道标识发送给订阅者。
15.如权利要求1的方法,其中所述广播数据流是音频流。
16.一种用于标识音频流内的内容的方法,包括:
接收音频流的样本;
接收每个样本的开始时间;
对于每个样本,确定轨道标识和所述音频流内所述标识轨道的推断开始时间;
标识具有基本类似的推断开始时间的样本;以及
对于具有基本类似的推断开始时间的样本,验证所述样本也具有匹配的轨道标识。
17.如权利要求16的方法,进一步包括:对于每个样本,确定所述标识轨道的推断结束时间,其中所述标识轨道包括所述推断开始时间和所述推断结束时间之间的所述音频流的段。
18.如权利要求17的方法,其中确定所述推断结束时间包括:
获得所述标识轨道的轨道长度;以及
将所述轨道长度添加到所述推断开始时间。
19.如权利要求17的方法,进一步包括将所述推断开始时间和所述推断结束时间之间的所述音频流的时间间隔标记为识别的,从而将所述音频流内的识别的音频段延伸到所述样本之外。
20.如权利要求19的方法,进一步包括基于所识别的音频段的长度计算对所述音频流采样的下一时间。
21.一种用于标识音频流内的内容的方法,包括:
接收音频流;
从所述音频流中选择音频部分,所述音频部分包括来自所述音频流的样本;
确定所述样本的轨道标识;
计算所述音频流内的所述标识轨道的推断开始时间和推断结束时间,其中所述推断开始时间和所述推断结束时间指示所述音频流中的轨道之间的边界;
将所述推断开始时间和所述推断结束时间之间的所述音频流的段标记为识别的音频段;以及
基于所述识别的音频段的长度计算对所述音频流采样的下一时间。
22.如权利要求21的方法,进一步包括确定指示已确定所述样本的正确标识的程度的置信等级。
23.如权利要求22的方法,其中如果标识尝试不返回结果,那么选择与先前选择以标识的音频部分相邻的新的音频部分,以便进行标识。
24.如权利要求21的方法,进一步包括:
从所述音频流中选择时间上接近的多个音频部分;
对于每个部分,确定轨道标识和所述音频流内的所述标识轨道的推断开始时间;
标识具有基本类似的推断开始时间的样本;以及
对于具有基本类似的推断开始时间的样本,验证所述样本也具有匹配的轨道标识。
25.如权利要求21的方法,进一步包括将所述音频流内的不可标识的音频段提交给收听者以标识所述段。
26.如权利要求21的方法,其中基于所述识别的音频段的长度计算对所述音频流采样的下一时间包括将下一采样时间计算为在所述标识样本的时间之后。
27.如权利要求21的方法,其中基于所述识别的音频段的长度计算对所述音频流采样的下一时间包括适应性地调节所述音频流的采样间隔。
28.如权利要求21的方法,其中基于所述识别的音频段的长度计算对所述音频流采样的下一时间包括将采样时间计算为大约紧接在当前音轨结束时间出现之后。
CNA2005800118816A 2004-04-19 2005-04-19 内容采样和标识 Pending CN101142591A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US56337204P 2004-04-19 2004-04-19
US60/563,372 2004-04-19

Publications (1)

Publication Number Publication Date
CN101142591A true CN101142591A (zh) 2008-03-12

Family

ID=35197437

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005800118816A Pending CN101142591A (zh) 2004-04-19 2005-04-19 内容采样和标识

Country Status (6)

Country Link
US (1) US20140214190A1 (zh)
EP (2) EP1766816A4 (zh)
JP (1) JP2007533274A (zh)
CN (1) CN101142591A (zh)
CA (1) CA2563370A1 (zh)
WO (1) WO2005101998A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102959543A (zh) * 2010-05-04 2013-03-06 沙扎姆娱乐有限公司 用于处理媒体流的样本的方法和系统
CN103562909A (zh) * 2011-02-18 2014-02-05 沙扎姆娱乐有限公司 客户端设备识别数据流的内容的方法及系统
CN104396262A (zh) * 2012-06-25 2015-03-04 汤姆森许可贸易公司 同步电影概要

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4961300B2 (ja) * 2006-08-14 2012-06-27 三洋電機株式会社 楽曲一致判定装置、楽曲記録装置、楽曲一致判定方法、楽曲記録方法、楽曲一致判定プログラム、及び楽曲記録プログラム
US7881657B2 (en) 2006-10-03 2011-02-01 Shazam Entertainment, Ltd. Method for high-throughput identification of distributed broadcast content
US8453170B2 (en) * 2007-02-27 2013-05-28 Landmark Digital Services Llc System and method for monitoring and recognizing broadcast data
US10375451B2 (en) 2009-05-29 2019-08-06 Inscape Data, Inc. Detection of common media segments
US10116972B2 (en) 2009-05-29 2018-10-30 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US8769584B2 (en) 2009-05-29 2014-07-01 TVI Interactive Systems, Inc. Methods for displaying contextually targeted content on a connected television
US9094714B2 (en) 2009-05-29 2015-07-28 Cognitive Networks, Inc. Systems and methods for on-screen graphics detection
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
JP2011005042A (ja) * 2009-06-26 2011-01-13 Canon Inc 光音響イメージング装置及び光音響イメージング方法
GB2477940A (en) * 2010-02-18 2011-08-24 Leo Yu-Leung Tong Music usage information gathering
US9838753B2 (en) 2013-12-23 2017-12-05 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US10192138B2 (en) 2010-05-27 2019-01-29 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
US20120173701A1 (en) * 2010-12-30 2012-07-05 Arbitron Inc. Matching techniques for cross-platform monitoring and information
JP2013117688A (ja) * 2011-12-05 2013-06-13 Sony Corp 音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム
US9384734B1 (en) * 2012-02-24 2016-07-05 Google Inc. Real-time audio recognition using multiple recognizers
AU2013308637B2 (en) * 2012-08-30 2018-07-26 Interactive Intelligence, Inc. Method and system for learning call analysis
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US20150193199A1 (en) * 2014-01-07 2015-07-09 Qualcomm Incorporated Tracking music in audio stream
US10206014B2 (en) 2014-06-20 2019-02-12 Google Llc Clarifying audible verbal information in video content
US9805125B2 (en) 2014-06-20 2017-10-31 Google Inc. Displaying a summary of media content items
EP3742364B1 (en) * 2014-06-20 2022-12-07 Google LLC Displaying information related to content playing on a device
CN107534800B (zh) 2014-12-01 2020-07-03 构造数据有限责任公司 用于连续介质片段识别的系统和方法
AU2016211254B2 (en) 2015-01-30 2019-09-19 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
JP6691737B2 (ja) * 2015-02-26 2020-05-13 パイオニア株式会社 歌詞音声出力装置、歌詞音声出力方法、及び、プログラム
EP3284017B1 (en) 2015-04-17 2024-03-27 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
EP3323054A1 (en) 2015-07-16 2018-05-23 Inscape Data, Inc. Prediction of future views of video segments to optimize system resource utilization
CN108293140B (zh) 2015-07-16 2020-10-02 构造数据有限责任公司 公共媒体段的检测
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
CA3229617A1 (en) 2015-07-16 2017-01-19 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
US10349141B2 (en) 2015-11-19 2019-07-09 Google Llc Reminders of media content referenced in other media content
US10922720B2 (en) 2017-01-11 2021-02-16 Adobe Inc. Managing content delivery via audio cues
AU2018250286C1 (en) 2017-04-06 2022-06-02 Inscape Data, Inc. Systems and methods for improving accuracy of device maps using media viewing data
CN108600825B (zh) * 2018-07-12 2019-10-25 北京微播视界科技有限公司 选择背景音乐拍摄视频的方法、装置、终端设备和介质
US11694692B2 (en) 2020-11-11 2023-07-04 Bank Of America Corporation Systems and methods for audio enhancement and conversion

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4843562A (en) 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
US5210820A (en) 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
JP3617201B2 (ja) * 1995-08-04 2005-02-02 ソニー株式会社 データ記録方法及び装置、データ記録媒体、データ再生方法及び装置、情報記録媒体の記録方法及び装置
US5819160A (en) * 1996-09-18 1998-10-06 At&T Corp Programmable radio subscription system for receiving selectively defined information
US6408128B1 (en) * 1998-11-12 2002-06-18 Max Abecassis Replaying with supplementary information a segment of a video
JP2000268541A (ja) * 1999-03-16 2000-09-29 Sony Corp 音楽ソフト自動分類装置
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
CN100461261C (zh) * 2000-10-23 2009-02-11 Ntt通信公司 乐曲认识方法与系统
US7085613B2 (en) * 2000-11-03 2006-08-01 International Business Machines Corporation System for monitoring audio content in a video broadcast
EP1215834A1 (en) * 2000-12-15 2002-06-19 Sony France S.A. Information sequence extraction and building apparatus e.g. for producing personalised music title sequences
US20020091761A1 (en) * 2001-01-10 2002-07-11 Lambert James P. Technique of generating a composite media stream
ATE405101T1 (de) 2001-02-12 2008-08-15 Gracenote Inc Verfahren zum erzeugen einer identifikations hash vom inhalt einer multimedia datei
JP2002281432A (ja) * 2001-03-15 2002-09-27 Kddi Corp 動画像検索閲覧装置および記録媒体
US20030154493A1 (en) * 2002-02-14 2003-08-14 Kagle Jonathan C. Identifying unique broadcasts
CN1315110C (zh) 2002-04-25 2007-05-09 兰德马克数字服务有限责任公司 坚固而且不变的音频图样匹配
CN1998168B (zh) * 2004-02-19 2011-04-06 兰德马克数字服务有限责任公司 用于广播源辨识的方法与装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102959543A (zh) * 2010-05-04 2013-03-06 沙扎姆娱乐有限公司 用于处理媒体流的样本的方法和系统
CN102959543B (zh) * 2010-05-04 2016-05-25 沙扎姆娱乐有限公司 用于处理媒体流的样本的方法和系统
CN103562909A (zh) * 2011-02-18 2014-02-05 沙扎姆娱乐有限公司 客户端设备识别数据流的内容的方法及系统
CN104396262A (zh) * 2012-06-25 2015-03-04 汤姆森许可贸易公司 同步电影概要

Also Published As

Publication number Publication date
EP2464107A1 (en) 2012-06-13
WO2005101998A2 (en) 2005-11-03
US20140214190A1 (en) 2014-07-31
EP1766816A4 (en) 2009-10-28
CA2563370A1 (en) 2005-11-03
WO2005101998A3 (en) 2007-04-12
JP2007533274A (ja) 2007-11-15
EP1766816A2 (en) 2007-03-28

Similar Documents

Publication Publication Date Title
CN101142591A (zh) 内容采样和标识
US8688248B2 (en) Method and system for content sampling and identification
US10497378B2 (en) Systems and methods for recognizing sound and music signals in high noise and distortion
US7739062B2 (en) Method of characterizing the overlap of two media segments
Wang An industrial strength audio search algorithm.
US7174293B2 (en) Audio identification system and method
CN1998168B (zh) 用于广播源辨识的方法与装置
KR101578279B1 (ko) 데이터 스트림 내 콘텐트를 식별하는 방법 및 시스템
CN101189658A (zh) 音频信号中重复素材的自动识别
Senevirathna et al. A highly robust audio monitoring system for radio broadcasting

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080312