CN105144723B - 使曲集的音频轨道与视频内容相关联 - Google Patents
使曲集的音频轨道与视频内容相关联 Download PDFInfo
- Publication number
- CN105144723B CN105144723B CN201480023371.XA CN201480023371A CN105144723B CN 105144723 B CN105144723 B CN 105144723B CN 201480023371 A CN201480023371 A CN 201480023371A CN 105144723 B CN105144723 B CN 105144723B
- Authority
- CN
- China
- Prior art keywords
- video content
- audio
- audio track
- collection
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000003860 storage Methods 0.000 claims description 38
- 230000004044 response Effects 0.000 claims description 13
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims description 2
- 238000013500 data storage Methods 0.000 claims description 2
- 238000007726 management method Methods 0.000 description 76
- XWVFVITVPYKIMH-UHFFFAOYSA-N ethyl n-[4-[benzyl(2-phenylethyl)amino]-2-(2-fluorophenyl)-1h-imidazo[4,5-c]pyridin-6-yl]carbamate Chemical compound N=1C(NC(=O)OCC)=CC=2NC(C=3C(=CC=CC=3)F)=NC=2C=1N(CC=1C=CC=CC=1)CCC1=CC=CC=C1 XWVFVITVPYKIMH-UHFFFAOYSA-N 0.000 description 25
- 238000005516 engineering process Methods 0.000 description 22
- 238000004891 communication Methods 0.000 description 18
- 150000001875 compounds Chemical class 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- YIWGJFPJRAEKMK-UHFFFAOYSA-N 1-(2H-benzotriazol-5-yl)-3-methyl-8-[2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carbonyl]-1,3,8-triazaspiro[4.5]decane-2,4-dione Chemical compound CN1C(=O)N(c2ccc3n[nH]nc3c2)C2(CCN(CC2)C(=O)c2cnc(NCc3cccc(OC(F)(F)F)c3)nc2)C1=O YIWGJFPJRAEKMK-UHFFFAOYSA-N 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- VCUFZILGIRCDQQ-KRWDZBQOSA-N N-[[(5S)-2-oxo-3-(2-oxo-3H-1,3-benzoxazol-6-yl)-1,3-oxazolidin-5-yl]methyl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C1O[C@H](CN1C1=CC2=C(NC(O2)=O)C=C1)CNC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F VCUFZILGIRCDQQ-KRWDZBQOSA-N 0.000 description 1
- 235000009413 Ratibida columnifera Nutrition 0.000 description 1
- 241000510442 Ratibida peduncularis Species 0.000 description 1
- JAWMENYCRQKKJY-UHFFFAOYSA-N [3-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-ylmethyl)-1-oxa-2,8-diazaspiro[4.5]dec-2-en-8-yl]-[2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidin-5-yl]methanone Chemical compound N1N=NC=2CN(CCC=21)CC1=NOC2(C1)CCN(CC2)C(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F JAWMENYCRQKKJY-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000005056 compaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001235 sensitizing effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/433—Query formulation using audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/858—Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Library & Information Science (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
一种示例性方法包括由计算设备确定视频内容的指示,由计算设备至少部分地基于该指示来确定一个或多个候选曲集,由计算设备至少部分地基于包括在视频内容中的音频轨道的音频指纹与包括在特定候选曲集中的音频轨道的音频指纹之间的匹配来选择一个或多个候选曲集中的特定候选曲集,以及由计算设备发送使视频内容与特定候选曲集相关联的消息。
Description
背景技术
内容市场系统可为用户提供购买和/或访问诸如移动应用、音频内容和视频内容的可下载或流送媒体内容的能力。内容市场系统可包括一个或多个计算设备(例如,台式计算机、服务器系统、膝上计算机、移动电话)和/或经由一个或多个网络连接的一个或多个软件应用。内容市场系统可经由一个或多个网络(例如,因特网)从计算设备(例如,移动电话、平板计算机)接收购买和/或访问媒体内容的请求。内容市场系统可为用户提供向他或她的计算设备下载媒体内容和/或从内容市场系统流送媒体内容的能力。例如,内容市场系统可接收在用户的设备上对流送诸如电影的已购买视频的请求并将电影作为流送内容发送到用户的设备。
在某些情况下,视频内容可包括一个或多个音频轨道(例如,歌曲)。包括在视频内容中的音频轨道可以是对应于电影的曲集(album)的一部分(例如,音轨曲集)。当收听音频轨道时(例如,在无线电上、在TV节目中、在音乐会等),用户可能期望关于音频轨道的信息以便购买歌曲,获悉同一歌手的其它歌曲或曲集或者执行其它动作。某些计算设备可以能够执行各功能以便尝试识别当前播放的音频轨道并提供关于当前播放的音频轨道的信息。
例如,计算设备可尝试记录对应于音频轨道的一部分的数据(例如,使用扩音器),将数据精简成音频指纹,并将音频指纹的部分与已知音频轨道的数据库中的一个或多个指纹的部分相比较。然而,使用此类精简数据来确定匹配可能具有某些缺点。例如,当仅使用音频轨道的短部分时,或者当音频轨道失真时,计算设备可能找不到用于音频轨道的匹配。
发明内容
在一个示例中,一种方法包括:由计算设备确定视频内容的指示;由计算设备至少部分地基于该指示来确定一个或多个候选曲集;以及由计算设备至少部分地基于包括在视频内容中的音频轨道的音频指纹与包括在特定候选曲集中的音频轨道的音频指纹之间的匹配来选择一个或多个候选曲集中的特定候选曲集。该方法可进一步包括由计算设备发送使视频内容与特定候选曲集相关联的消息。
在另一示例中,用指令对计算机可读存储介质进行编码,该指令在被执行时促使一个或多个处理器执行操作,包括:确定视频内容的指示;至少部分地基于该指示来确定一个或多个候选曲集;以及至少部分地基于包括在视频内容中的音频轨道的音频指纹与包括在特定候选曲集中的音频轨道的音频指纹之间的匹配来选择一个或多个候选曲集中的特定候选曲集。可用指令进一步对计算机可读存储介质进行编码,该指令在被执行时促使一个或多个处理器执行操作,该操作包括发送使视频内容与特定候选曲集相关联的消息。
在另一示例中,一种计算设备包括一个或多个处理器,其中,所述一个或多个处理器被配置成:确定视频内容的指示;至少部分地基于该指示来确定一个或多个候选曲集;以及至少部分地基于包括在视频内容中的音频轨道的音频指纹与包括在特定候选曲集中的音频轨道的音频指纹之间的匹配来选择一个或多个候选曲集中的特定候选曲集。可将一个或多个处理器进一步配置成发送使视频内容与特定候选曲集相关联的消息。
在附图和以下描述中阐述了一个或多个示例的细节。根据本描述和附图以及根据权利要求,其他特征、目的以及优点将是显而易见的。
附图说明
图1是图示根据本公开的一个或多个方面的其中可将内容市场系统配置成识别包括在视频内容中的音频轨道的示例性计算环境的框图。
图2是图示根据本公开的一个或多个方面的用于确定将与视频内容相关联的曲集的设备的一个示例的框图。
图3是图示根据本公开的一个或多个方面的用于确定与视频内容相关联的曲集的示例性过程的框图。
图4是图示根据本公开的一个或多个方面的用于确定与视频内容相关联的曲集的示例性过程的流程图。
具体实施方式
本公开的技术涉及通过首先执行宽泛的相对廉价的搜索以确定多个候选曲集且然后执行更集中的比较以确定将视频内容相关联的特定曲集和/或已知音频轨道来确定与视频内容(例如,电影或电视节目)相关联的曲集和/或一个或多个已知音频轨道。一般地,诸如电影的视频内容可包括一个或多个歌曲作为用于电影的音频部分的一部分。该音频部分可包括整个的歌曲或者仅歌曲的短片段。在他或她的设备上观看电影的同时,用户可能期望关于当前播放的歌曲的信息,诸如歌手,歌曲名称、曲集等。
内容市场系统可包括多个已知音频轨道的指示(例如,音频指纹)以及关于音频轨道的信息,诸如歌曲名称、歌手、曲集名称等。本公开的技术提供了一种用于找到对应于视频内容的曲集(例如,音轨曲集)和/或已知音频轨道以便提供关于包括在视频内容中的音频轨道的信息的鲁棒方法。具体地,在一些实施例中,本公开的技术使得设备、诸如内容市场系统或其它计算系统的一部分能够首先通过使用包括在视频内容中的第一音频轨道的指示来执行相对宽泛但廉价的搜索来确定一个或多个候选,并且随后使用包括在音频内容中的第二音频轨道的音频指纹或子指纹通过更大量的成对比较来确定特定曲集和/或音频轨道。本公开的技术可使得设备能够为用户提供关于包括在视频内容中的当前播放的音频轨道的信息(例如,歌手和歌曲名称)而不要求用户执行用于信息的手动搜索。此外,本公开的技术可避免执行与许多已知音频轨道的大量成对比较所需的过多存储和处理能力,同时仍提供这样的成对比较能够提供的灵活性和准确度。这样,本公开的技术可增强用户的观看体验和/或增加对包括在视频内容中的那些音频轨道的兴趣。
在本公开的一个方面,内容市场系统的内容管理单元可确定与视频内容相关联的曲集和/或一个或多个已知音频轨道,以便为观看视频内容的用户提供关于包括在视频内容中的音频轨道的信息。例如,内容市场系统可接收并存储新的视频内容。内容市场系统可从内容市场系统的用户或管理者接收新的视频内容,或者可从其它源(例如,制作公司、电视广播、诸如DVD的数字或物理介质或其它源)接收或获得新的视频内容。内容管理单元可处理新的视频内容以便向用户(例如,客户)提供新的视频内容。
作为处理新视频内容的一部分,内容管理单元可使用新视频内容的音频部分来确定包括在视频内容中的第一音频轨道(例如,歌曲)的指示。内容管理单元可使用该指示来确定每个包括第一音频轨道的一个或多个候选曲集。内容管理单元可确定包括在新视频内容中的第二音频轨道的音频指纹,并使用第二音频轨道的音频指纹来确定包括第二音频轨道的特定候选曲集。在确定特定候选曲集之后,内容管理单元可确定包括在视频内容中的一个或多个已知音频轨道。内容管理单元可发送消息(例如,向内容市场系统的其它部件或向另一设备),该消息指示特定候选曲集和/或已知音频轨道与视频内容之间的关联。该消息还可指示对应于相应已知音频轨道(例如,特定候选曲集的轨道)的新视频内容的音频部分的那些区段。
在处理新视频内容之后,内容市场系统可存储视频内容以及关于相关联的曲集和/或相关联的已知音频轨道的信息。然后,响应于从用户接收到用于下载或流送视频内容的请求,内容市场系统可包括来自特定候选曲集和/或已知音频轨道的数据以及视频内容。通过确定特定候选曲集并使曲集与视频内容相关联,该内容管理单元可允许用户获得关于包括在视频内容中的音频轨道或歌曲的信息。
在本公开的另一方面,内容管理单元可使用诸如元数据或其它信息的关于新视频内容的信息来确定一个或多个候选曲集。当例如新视频内容仅包含音频轨道的短和/或失真片段时,使用视频内容的元数据可改善准确度。
本公开的一个或多个技术可改善确定关于包括在视频内容中的音频轨道的信息的准确度。使用本公开的技术,内容市场系统和/或其内容管理单元可确定与视频内容相关联的曲集,并确定与视频内容的音频部分的所述区段相对应的已知音频轨道。以这种方式,本公开可使得内容管理单元或其它计算设备为用户提供对关于包括在视频内容中的歌曲或其它音频轨道的更准确信息的访问。
图1是图示出根据本公开的一个或多个方面的其中可将内容市场系统配置成识别包括在视频内容中的音频轨道的示例性计算环境2的框图。如图1中所示,计算环境2可包括客户端设备4A-4N(共同地,“客户端设备4”)、网络6以及内容市场系统8。客户端设备4每个可以是计算设备。计算设备的示例可包括但不限于便携式、移动设备或其它设备,诸如移动电话(包括智能电话)、膝上型计算机、台式计算机、平板计算机、智能电视平台、个人数字助理(PDA)、服务器计算机、大型机等。例如,在图1的示例中,客户端设备4A可以是平板计算机、客户端设备4B可以是膝上型计算机,并且客户端设备4N可以是智能电话。在各种情况下,客户端设备4可包括用于执行一个或多个功能的各种部件,诸如输出设备、输入设备、网络接口设备等。例如,客户端设备4可包括用于与诸如网络6的一个或多个网络通信的网络接口设备。
网络6可表示任何通信网络,诸如基于分组的数字网络。在某些示例中,网络6可表示任何有线或无线网络,诸如因特网、私人企业内部网或公共交换电话网(PSTN)。网络6可包括有线和无线网络以及公共和私用网络。内容市场系统8可包含用于经由网络6与诸如客户端设备4之类的其它设备通信的一个或多个网络接口设备。例如,客户端设备4A可经由无线卡向可公开访问广域无线网络(其可包括网络6的一个示例)传送观看视频内容的请求。广域网可经由有线连接(在本特定非限制性示例中)将请求路由到内容市场系统8内的内容访问单元10。
内容市场系统8可经由网络6接收由客户端设备4A发送的请求。内容市场系统8在一下示例中可以是一个或多个硬件设备(诸如计算设备)的集合。在其它示例中,内容市场系统可以是可由计算设备或一组计算设备的一个或多个处理器执行的一个或多个软件应用(例如,程序代码)。在另一示例中,内容市场系统8可以是硬件设备和可由硬件设备执行的软件应用两者的组合。虽然在图1中示为单一系统,但内容市场系统8可包括分布在一个或多个网络(例如,网络6)上并经由该网络通信地连接的各种单元。
如图1中所示,内容市场系统8可包括音频数据库14和视频内容库16。在一些示例中,音频数据库14和视频内容库16可以与内容市场系统8的其它部件分开且不同。在其它示例中,可将音频数据库14和/或视频内容库16包括在内容市场系统8的一个或多个其它部件中(例如,作为内容管理单元12的一部分)。
音频数据库14可包括与一个或多个已知音频轨道相关联的音频轨道数据。音频轨道的示例包括但可不限于歌曲、语音记录、播客、铃音、多媒体内容的音频部分(例如,视频内容)或任何其它音频数据。在某些示例中,用于音频轨道的音频轨道数据可包括音频轨道的歌曲名称、音频轨道的歌手、音频轨道的创作者(例如,编曲者或歌手)、音频轨道的持续时间、用于音频轨道的歌词或关于音频轨道的其它类型的信息。音频轨道数据还可包括关于在其上包括音频轨道的一个或多个曲集的信息。也就是说,音频轨道数据可包括诸如曲集播放列表(例如,包括在曲集上的所有音频轨道的列表)、曲集名称、曲集发行日期、曲集歌手、曲集创作者或其它曲集信息的信息。例如,如果在初次发行曲集上发行歌曲,并且稍后在最轰动曲集上重新发行,则用于歌曲的音频轨道数据可指示与初次发行曲集和最轰动曲集的关联。
在某些示例中,音频数据库14可包括已知音频轨道。在其它示例中,音频数据库14可不包括已知音频轨道,而是替代地可仅存储相关联的音频轨道数据。音频数据库14还可包括已知音频轨道的一个或多个音频指纹。可使用各种方法来确定音频指纹。在一些示例中,音频指纹表示音频轨道的短的不同数字签名。音频指纹可由一个或多个子指纹构成。下面参考图3来进一步讨论音频指纹和子指纹以及示例性确定方法。
视频内容库16可存储视频内容。视频内容的示例可包括但可不限于电影、电视节目、播客或其它运动图片材料。在某些示例中,视频内容可以是用户创建的。某个视频内容可包括由视频内容库16存储的视频部分和音频部分两者。如前所述,视频内容的音频部分可包括一个或多个音频轨道。
视频内容库16可存储与视频内容相关联的元数据和/或音轨数据。元数据可以是描述视频内容的信息。元数据可例如包括名称、发行日期或播放日期、持续时间、制作人、导演、制作工作室、视频源(例如,用户名)或其它信息。音轨数据可指示与视频内容相关联的曲集、与视频内容相关联的一个或多个已知音频轨道和/或每个音频轨道被作为视频内容的音频部分的部分播放的时间。例如,与电影相关联的音轨数据可识别电影的音轨曲集、包括在电影中的音频轨道以及在电影中使用每个音频轨道的时间。
在某些示例中,元数据和/或音轨数据被内容市场系统8从一个或多个其它源接收,诸如内容市场8或另一设备的管理者经由网络6。例如,内容市场8的管理者可将电视节目的情节上传或另外存储到内容市场8的视频内容库16。除情节本身之外,管理者还可向视频内容库16上传和/或存储指示情节名称、情节的持续时间、情节播放日期等的元数据。在其它示例中,内容市场系统8的一个或多个部件(例如,内容管理单元12或内容访问单元10)可生成并存储元数据和/或音轨数据。
内容市场系统8可包括内容管理单元12。在图1的示例中,内容管理单元12可以是能够访问、处理、生成和/或存储视频内容和相关联的音轨数据的计算设备(例如,服务器计算机)。在其它示例中,内容管理单元12可以是可由计算设备的一个或多个处理器执行的软件(例如,应用)或固件。根据本公开的一个或多个方面,内容管理单元12可接收视频内容和/或元数据,确定与视频内容相关联的特定候选曲集,并发送关联消息。
例如,内容管理单元12可访问视频内容库16并接收视频内容18。内容管理单元12在一些示例中可从视频内容库16接收与视频内容18相关联的元数据。内容管理单元12可处理视频内容和/或元数据以确定视频内容的至少一个指示。该指示在一个示例中可以是基于视频内容的音频部分生成的一个或多个音频指纹。内容管理单元12可访问音频数据库14并接收音频轨道数据20。音频轨道数据20可包括存储在音频数据库14中的一个或多个音频指纹,其基于一个或多个已知音频轨道(例如,为内容市场系统8“所知”的音频轨道)生成。使用音频轨道数据20,内容管理单元12可使用基于视频内容的音频部分生成的一个或多个音频指纹来搜索包括在音频轨道数据20中的音频指纹。在一些示例中,包括在视频内容中的较长和/或较少失真的音频轨道通常可导致初始搜索中的匹配。然而,通过使用初始搜索的结果作为用于进一步比较的起始点或者种子,内容管理单元12可确定包括在视频内容中的其余音频轨道。也就是说,初始搜索不一定需要花费全面的计算能力来执行,因为其可仅返回可以使用例如对数据库的查询来确定的那些匹配。二次搜索可以更全面,但是在一些示例中可通过使二次搜索限于可能与视频内容相关联的那些曲集来显著地降低计算要求。内容管理单元12可确定从搜索得到的已知音频轨道的曲集并将该曲集添加到候选曲集的集合。下面进一步相对于图3来讨论候选曲集的集合的确定。
在确定候选曲集的集合之后,内容管理单元12可执行包括在视频内容中的音频轨道的其它音频指纹与候选曲集上的已知音频轨道(例如,不产生匹配的那些音频轨道)的音频指纹之间的更彻底比较。由于每个候选曲集包括与包括在视频内容中的音频轨道匹配的至少一个音频轨道,所以更有可能候选曲集与视频内容相关联,诸如音轨曲集与电影相关联。例如,对于每个候选曲集,内容管理单元12可针对子指纹的所有组合确定包括在视频内容中的音频轨道的子指纹与包括在候选曲集中的已知音频轨道的子指纹之间的相似性(例如,通过计算汉明距离)。可用二进制格式来表示子指纹。如在本文中的某些示例中描述的,两个对象(例如,字符串、二进制串或其它序列数据)之间的汉明距离是在该处来自两个序列的相应符号不同的序列中的位置的数目。在一个示例中,诸如对于两个二进制序列,两个序列之间的汉明距离可等于将需要翻转(例如,从0变成1或者从1变成0)以将一个序列变成另一个的位数。在另一示例中,可在字节水平执行比较,并且可比较每个字节的值。当执行更全面的搜索时,更加彻底的比较与初始搜索相比可提供确定匹配所需的降低的相似性阈值。也就是说,通过使用例如子指纹之间的汉明距离来确定匹配,可选择特定候选曲集,即使当两个音频指纹的同一比较可能在初始的更快速搜索中未产生匹配。
基于执行的比较,内容管理单元12可选择与视频内容的音频部分最相似的特定候选曲集和/或与包括在视频内容的音频部分中的音频轨道最相似的一个或多个已知音频轨道。下面进一步相对于图3来讨论从候选曲集的集合对特定候选曲集的选择以及对已知音频轨道的选择。
基于对特定候选曲集和/或一个或多个已知音频轨道的选择,内容管理单元12可发送关联消息22。内容管理单元12可向内容市场系统8的一个或多个部件(例如,内容访问单元10)或不与内容市场系统8相关联的部件发送关联消息22。关联消息22可指示已处理的视频内容和特定候选曲集和/或一个或多个已知音频轨道。关联消息22可包括指示哪些音频轨道在哪些时间出现在视频内容的音频部分中的信息。也就是说,关联消息22可包括视频内容的指示以及用于视频内容的音轨数据。
如图1中所示,内容市场系统8可包括内容访问单元10。在一些示例中,内容访问设备10可以是能够从一个或多个客户端设备接收请求并对接收的请求进行响应的计算设备(例如,服务器计算机)。在其它示例中,内容访问单元10可以是可由计算设备的一个或多个处理器执行以从客户端设备接收请求并对该请求进行响应的软件(例如,应用)或固件。在图1的示例中,内容访问单元10可接收关联消息22。响应于接收到关联消息22,内容访问单元10可识别视频内容18与由内容管理单元12确定的特定候选曲集之间的关联。例如,内容访问单元10可将音轨数据与要存储在视频内容库16中的视频内容18相关联。
内容市场系统8可从客户端设备(例如,客户端设备4中的一个)接收请求并向内容访问单元10提供请求。响应于接收到该请求,内容访问单元10在一些示例中可执行与本公开的技术无关的认证过程或一个或多个其它功能。如果内容访问单元10或内容市场系统8的另一部件确定发送请求的客户端设备被授权访问所请求的视频内容,则内容访问单元10可访问视频内容库16,检索所请求的视频内容,并检索相关联的元数据和/或音轨数据。内容访问单元10然后可将该视频内容连同相关联的数据一起提供给请求客户端设备(例如,经由网络6)。
例如,内容市场系统8可从客户端设备4A接收对视频内容26的请求。视频内容26在一些示例中可与由内容管理单元12处理的视频内容18相同或类似。内容访问单元10可从视频内容库16或另一源(诸如另一内容市场系统)接收并检索视频内容26和相关联的音轨数据28。在一些示例中,内容访问单元10还可检索相关联的元数据。根据本公开的一个或多个方面,检索的音轨数据28可包括由内容管理单元12确定的特定候选曲集的指示。在一些示例中,音轨数据28可包括哪些音频轨道被包括在视频内容18的音频部分中和音频轨道在哪些时间出现的一个或多个指示。内容访问单元10可将视频内容26和相关联的音轨数据28作为被请求的视频24(例如,经由网络6)发送到客户端设备4A。在一些示例中,内容访问单元10可提供被请求的视频24的可下载版本(例如,作为一个或多个文件)。也就是说,在这些示例中,客户端设备4A可下载要在本地存储的被请求视频24的副本。在其它示例中,内容访问单元10可将被请求的视频24流送到客户端设备,使得客户端设备4A可请求到网络6的连接以便访问被请求的视频24。
客户端设备4A可包括能够输出被请求的视频24的操作系统和一个或多个应用。也就是说,客户端设备4A可以能够接收被请求的视频24,为用户播放视频内容26,并显示音轨数据28。通过使用音轨数据28,客户端设备4A可包括在客户端设备4A的用户正在观看视频内容26(例如,在同一显示设备或不同显示设备处显示)的同时在显示设备处显示关于包括在视频内容26中的当前播放音轨的信息的功能。在一个非限制性示例中,客户端设备4A的显示设备可以是存在敏感显示器,诸如触摸屏。在一些示例中,可在显示设备处与视频内容26同时地显示关于包括在视频内容26中的当前播放音频轨道的信息。在其它示例中,可响应于输入设备的用户输入而在显示设备处显示信息,诸如当用户输入要暂停视频内容26的选择时或者当用户提供其它用户输入时)。客户端设备4A的输入设备在一个非限制性示例中可以是存在敏感输入设备,诸如跟踪板或触摸屏。通过确定与视频内容相关联的特定候选曲集,内容市场系统8的一个或多个部件可使得客户端设备4A能够显示关于包括在视频内容26中的当前播放音频轨道的信息,诸如电视节目的情节、电影或任何其它视频内容。
在一些示例中,本公开的技术可提供与视频内容相关联的曲集和/或已知音频轨道的准确确定。本公开的技术可通过执行相对快速且廉价的搜索以确定候选曲集的集合并然后执行更全面的比较以确定与视频内容相关联的特定候选曲集和/或已知音频轨道来增加确定曲集和已知音频轨道的效率和准确度。通常可在第一次相对廉价的搜索中识别较长和/或较少失真的包括在视频内容中的音频轨道。由于所需的较低相似性阈值,可在第二次全面搜索中识别短或失真的包括在视频内容中的音频轨道。这样,本公开的技术可潜在地降低找到与视频内容相关联的曲集和/或已知音频轨道的处理和存储要求,同时增强用于用户的视频内容的观看体验。
图2是图示根据本公开的一个或多个方面的用于确定与视频内容相关联的曲集的内容管理单元的一个示例的框图。在图2的示例中,内容管理单元12可包括设备。然而,图2图示出内容管理单元12的仅一个特定示例,并且在其它情况下可使用内容管理单元12的许多其它示例。
如图2的特定示例中所示,内容管理单元12包括一个或多个处理器30、一个或多个通信单元32以及一个或多个存储设备34。内容管理单元12可进一步包括操作系统38、视频内容处理模块40以及比较模块42。在图2的特定示例中,内容管理单元12还可包括音频数据库14以及视频内容库16,但在其它示例中,可不包括音频数据库14和视频内容库16。可将部件30、32和34中的每一个互连(在物理上、在通信上和/或在操作上)以用于部件间通信。在图2的示例中,可用一个或多个通信信道36将部件30、32和34耦合。在一些示例中,通信信道36可包括系统总线、网络连接、进程间通信数据结构或用于通信数据的任何其它通道。模块40和42以及操作系统38、音频数据库40和视频内容库42还可相互地以及与计算设备2中的其它部件通信信息。
在一个示例中,处理器30被配置成实现用于在内容管理单元12内执行的功能和/或过程指令。例如,处理器30可以能够处理存储在存储设备34中的指令。处理器30的示例可包括微处理器、控制器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或等效分立或集成逻辑电路中的任何一个或多个。
可将一个或多个存储设备34配置成在操作期间在内容管理单元12内存储信息。在一些示例中,将存储设备34描述为计算机可读存储介质。在一些示例中,存储设备34是临时存储器,意指存储设备34的主要目的不是长期存储。在一些示例中,将存储设备34描述为易失性存储器,意味着存储设备34在计算设备被关掉时不保持存储的内容。易失性存储器的示例包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)以及本领域中已知的其他形式的易失性存储器。在一些示例中,使用存储设备34来存储程序指令以便由处理器30执行。在一个示例中,存储设备34被在内容管理单元12上运行的软件或应用(例如,模块40和42)用来在程序执行期间临时地存储信息。
在一些示例中,存储设备34还包括一个或多个计算机可读存储介质。可将存储设备34配置成比易失性存储器存储更大量的信息。可进一步针对信息的长期存储来配置存储设备34。在一些示例中,存储设备34可包括非易失性存储元件。此类非易失性存储元件的示例包括磁性硬盘、光盘、软盘、闪速存储器或电可编程存储器(EPROM)或电可擦可编程只读存储器(EEPROM)的形式。
在一些示例中,内容管理单元12还包括一个或多个通信单元32。在一个示例中,内容管理单元12利用通信单元32经由一个或多个网络、诸如图1的网络6与外部设备通信。通信单元32可包括网络接口卡(例如以太网卡)、光学收发机、射频收发机或可以发送和接收信息的任何其它类型的设备。此类网络接口的其他示例可包括蓝牙、3G和WiFi无线电部件以及通用串行总线(USB)。在一些示例中,内容管理单元12利用通信单元32来与外部设备无线地通信,诸如图1的客户端设备4中的一个或任何其它计算设备。
在一些示例中,内容管理单元12可包含图2中未示出的其它部件。例如,内容管理单元12可包含诸如被配置成通过触觉、音频或视频反馈从用户接收输入的设备之类的一个或多个输入设备和/或诸如被配置成使用触觉、音频或视频刺激来向用户提供输出的设备之类的一个或多个输出设备。
内容管理单元12可包括操作系统38。在一些示例中,操作系统38控制内容管理单元12的部件的操作。例如,在一个示例中,操作系统38促进模块40和42与处理器30、通信单元32以及存储设备34的通信。模块40和42每个可包括可由内容管理单元12执行的程序指令和/或数据。作为一个示例,视频内容处理模块40可包括促使内容管理单元12执行在本文公开中所述的操作和动作中的一个或多个的指令。
如在图2的特定示例中所示,内容管理单元12可包括音频数据库14。可将音频数据库14存储在存储设备34内。音频数据库14可包括以计算机可读格式的与一个或多个已知音频轨道相关联的音频轨道数据。在一些示例中,音频数据库14还可包括音频轨道的音频指纹(例如,由一个或多个子指纹构成)。可将音频轨道数据和/或音频指纹存储在一个或多个数据库中,诸如关系数据库或多维数据库。
在一些示例中,音频数据库14可包括用于已知音频轨道的所存储的音频指纹的倒排索引。倒排索引可以是提供搜索词所位于的一个或多个文件的引用的可搜索数据组织。在一些示例中,倒排索引可包括构成音频指纹的所有子指纹。例如,倒排索引可包括多个密钥,每个为多个字节(例如,一个、两个、五个)。每个密钥可以是子指纹的一部分的值。对于每个密钥,存储值可指示具有包括相关联的密钥的子指纹的一个或多个已知音频轨道。在一些示例中,存储值还可指示产生相关联的密钥的子指纹位于的已知音频轨道的时间。也就是说,搜索具有未知音频轨道的子指纹的一部分(例如,一个字节、两个字节、五字节或更多字节)的倒排索引可导致什么已知音频轨道产生具有相同数据序列的子指纹的指示以及数据序列所位于的已知音频轨道的时间。音频数据库14可为内容管理单元12的其它部件提供对音频轨道数据、音频指纹和/或所存储的倒排索引的访问。
如在图2的特定示例中所示,内容管理单元12可包括视频内容库16。可将视频内容库16存储在存储设备34内。视频内容库16可用计算机可读格式来存储视频内容、相关联的元数据和/或相关联的音轨数据。可将视频内容、元数据和/或音轨数据存储在一个或多个数据库中,诸如关系数据库或多维数据库。在图2的示例中,视频内容库16可为内容管理单元12的其它部件提供对视频内容、元数据和/或音轨数据的访问。
如图2的特定示例中所示,内容管理单元12可包括视频内容处理模块40和比较模块42。视频内容处理模块40可被处理器30操作以从视频内容库16检索视频内容和/或元数据,并且处理视频内容和/或元数据以确定视频内容的一个或多个指示。比较模块42可被处理器30操作以接收视频内容的一个或多个指示,从音频数据库14检索音频轨道数据,并且将视频内容的指示与音频轨道数据相比较以确定与视频内容相关联的特定候选曲集和/或已知音频轨道。
根据本公开的技术,内容管理单元12可接收新的视频内容并将视频内容以及任何相关联的元数据存储在视频内容库16中。内容管理单元12可处理所接收的视频内容以确定与视频内容相关联的音轨数据。在各种示例中,内容管理单元12可响应于接收到视频内容、响应于从客户端设备接收到对视频内容的请求、响应于某个其它输入或者自动地以指定时间间隔(例如,每日)而处理所接收的视频内容。
视频内容处理模块40可访问视频内容库16并检索新的视频内容和/或相关联的元数据。视频内容处理模块40可基于视频内容和/或相关联的元数据来确定视频内容的一个或多个指示。在一个示例中,视频内容的指示可包括被包括在视频内容中的音频轨道的一个或多个音频指纹。也就是说,内容处理模块40可基于包括在视频内容的音频部分中的音频轨道来使用视频内容的音频部分生成一个或多个不同签名。在其它示例中,可根据检索的元数据来确定视频内容的指示,并且其可包括视频内容的名称和/或发行日期。视频内容处理模块40可使用元数据来确定例如视频内容仅包括音频轨道的短片段或失真片段的时间的指示。在其它示例中,视频内容处理模块40可基于视频内容和元数据两者来确定指示。在任何情况下,视频内容处理模块40可将确定的指示发送到比较模块42。
比较模块42可从视频内容处理模块40接收视频内容的指示。比较模块42可访问音频数据库14并使用所接收的指示来确定候选曲集的集合。在一些示例中,比较模块42可从视频内容处理模块40接收音频指纹。比较模块42可使用所接收的指示来执行音频数据库14的搜索(例如,使用倒排索引)以确定产生类似子指纹的音频轨道。比较模块42可基于与产生类似子指纹的已知音频轨道相关联的音频轨道数据来确定曲集信息。如果阈值数目(例如,一个、两个或三个)的匹配每个与同一曲集相关联,则比较模块42可向候选曲集的集合中添加曲集。随着匹配的阈值数目增加,候选曲集的集合可包括较少的曲集,每个候选曲集更有可能是与视频内容相关联的曲集(例如,音轨曲集)。
在其它示例中,诸如在由比较模块42接收的指示包括视频内容的名称和/或发行日期的情况下,比较模块42可使用该指示来确定候选曲集的集合。也就是说,比较模块42可搜索存储在音频数据库14中的音频轨道以确定具有与视频内容相同或类似的名称和/或相同或类似的发行日期的曲集。例如,比较模块42可接收题为“Scraphead Masterminds”的电影的指示。比较模块42可在音频轨道数据中搜索包括词“scraphead”和/或“masterminds”的曲集名称。比较模块42在一些示例中可在搜索中包括更多或更少的词,诸如“音轨”或“电影”。
在任何情况下,在确定候选曲集的集合之后,比较模块42可基于子指纹来执行更全面的比较以选择与视频内容相关联的特定候选曲集。在一个示例中,比较模块42可(例如,通过执行成对比较)来将从视频内容处理模块40接收的音频指纹的子指纹与包括在候选曲集中的音频轨道的音频指纹的子指纹相比较。每个比较可导致许多值(例如,汉明距离),其指示被比较的两个子指纹的字节之间的相似性。比较模块42在一个示例中可将这些值聚合(例如,对于每个音频轨道),并且至少部分地基于该聚合来选择特定候选曲集和/或至少一个已知音频轨道。作为另一示例,比较模块42可选择产生导致最小汉明距离的比较的候选曲集作为特定候选曲集。随后,该特定候选曲集可包括与包括在视频内容中的音频轨道(或音频轨道的片段)最相似的音频轨道。
在一些示例中,比较模块42可不比较从视频内容处理模块40接收的子指纹与包括在候选曲集中的音频轨道的子指纹的所有组合。也就是说,比较模块42可利用候选曲集中的音频轨道的时间排序和包括在视频内容中的音频轨道的时间排序来确定特定候选曲集和/或音频轨道。使用时间排序来约束音频指纹的比较可增加更全面搜索的准确度,因为根据一些示例,典型音轨曲集按照其在视频内容中发生的相同顺序对曲集上的歌曲进行排序。
作为一个非限制性示例,可作为包括在曲集中的第四音频轨道的音频指纹与包括在视频内容中的音频轨道的音频指纹之间的匹配的结果,向候选曲集的集合添加曲集。包括在候选曲集中的第四音频轨道可以是例如包括在候选曲集中的十个音频轨道中的第四个。类似地,包括在视频内容中的音频轨道可在视频内容中的某个时间X处发生。时间X可以近似在视频内容的中间中。在这种情况下,当将包括在候选曲集中的其它音频轨道的音频指纹与包括在视频内容中的其它音频轨道的音频指纹相比较时,比较模块42可仅将包括在候选曲集中的在第四音频轨道之后的那些音频轨道(例如,第五音频轨道、第六音频轨道)的子指纹与包括在视频内容中的在时间X之后的时间发生的音频轨道的子指纹相比较。换言之,可仅将包括在候选曲集中的随后音频轨道的音频指纹与包括在视频内容中的时间X之后的音频轨道的音频指纹相比较。相反地,可仅将包括在候选曲集中的在先音频轨道的音频指纹与视频内容中的在时间X之前发生的音频轨道的音频指纹相比较。这样,比较模块42可响应于确定包括在特定候选曲集中的音频轨道处于在包括在特定候选曲集中的在初始搜索期间产生匹配的音频轨道的时间位置之后的特定候选曲集的时间位置处并且相同音频轨道的发生是在发生在初始搜索中产生匹配的音频轨道的视频内容的时间位置之后的视频内容时间位置处而选择该特定候选曲集。当每个候选曲集包括两个匹配、三个匹配或更多匹配时也可应用类似的时间排序约束。
在比较模块42选择特定候选曲集和/或一个或多个已知音频轨道之后,内容管理单元12可向内容市场系统8的一个或多个部件发送关联消息(例如,经由通信单元32)。比较模块42在一些示例中还可生成将存储在视频内容库16中的音轨数据。关联消息可指示与视频内容相关联的特定候选曲集、与视频内容相关联的一个或多个已知音频轨道和/或视频内容期间的使用已知音频轨道的时间。这样,内容管理单元12可识别与视频内容相关联的曲集和/或已知音频轨道。另外,内容管理单元12可潜在地减少或否定内容市场系统8包括用于所有已知音频轨道的全面存储的需要,而是替代地仅使用音频轨道数据和/或音频指纹,同时保持成对比较技术的灵活性和准确度。此外,通过连同被请求的视频内容一起提供此信息,内容市场系统8可使得视频内容的观看者能够接收关于视频内容中的当前播放音频轨道的信息(例如,暂停视频内容的时间或用于视频内容的子标题)而不必手动地搜索此类信息。
图3是图示根据本公开的一个或多个方面的用于确定与视频内容相关联的曲集的示例性过程的框图。图3图示一个特定示例性过程的操作,并且在其它示例中可使用许多其它可能过程。仅仅出于举例说明的目的,由内容市场系统8的内容管理单元来执行示例性过程并在其背景下描述该示例性过程,如图1和2中所示。内容管理单元12可检索视频内容并确定视频内容的一个或多个指示(例如,音频指纹)。内容管理单元12可使用一个或多个指示来确定候选曲集的集合,并且可将视频内容的音频指纹与已知音频轨道的音频指纹相比较以从候选曲集的集合中选择特定候选曲集。内容管理单元12可发送指示与视频内容相关联的特定候选曲集的关联消息(例如,作为音轨数据)。
内容管理单元12可访问视频内容库16,并检索视频内容(例如,视频内容18)。在图3的示例中,内容管理单元12可使用视频内容18来确定一个或多个音频指纹。根据本公开的技术可使用生成一个或多个音频指纹的各种方法。在一个非限制性示例中,可通过向基于视频内容18的音频部分产生的谱图的许多子集应用小波变换来生成音频指纹。生成音频指纹的另一示例性方法可包括基于音频信号来生成特征矢量(基于振幅、节距、带宽、低音及其它特性)。在Baluja等人的“Content Fingerprinting Using Wavelets”中可以找到关于如图3中描述的用于创建指纹的示例性过程的更多细节。
在图3的示例中,根据一个示例,分组50可表示由内容管理单元12的视频内容处理模块40执行的操作。视频内容处理模块40可接收视频内容18并确定音频谱图60。音频谱图60可以是视频内容18的音频部分的谱图。也就是说,音频谱图60可以是时变谱表示的二维图像,其显示视频内容18的音频部分在视频内容的持续时间内的谱密度。在一些示例中,音频谱图60可不表示视频内容18的音频部分的全部持续时间,而是替代地可仅表示音频部分的短区段。
视频处理模块40可至少部分地基于音频谱图60来确定一个或多个谱图像。在图3的示例中,谱图像62A-62N(共同地“谱图像62”)每个可表示谱图的区段或子集。在某些示例中,谱图像62可在时间长度上是均匀的。也就是说,每个谱图子集可覆盖相同的持续时间(例如,20毫秒、1.5秒或其它持续时间)。在其它示例中,谱图像62可覆盖不同的持续时间。可在谱图的随机时间位置确定谱图像62,或者可以特定间隔确定(例如,每10毫秒、每2秒或者其它间隔)。谱图像62中的一个或多个可基于包括音频轨道的视频内容18的音频部分的区段。例如,谱图像62A可表示包括第一音频轨道的区段,并且谱图像62B可表示包括第二音频轨道的区段。
对于谱图像62中的至少一个,视频内容处理模块40在一些示例中可确定一个或多个小波图像。小波图像可以是二维图像,其表示对另一二维图像应用一般地称为“小波变换”的函数的结果。视频处理模块40可通过对谱图像62应用许多不同类型的小波变换中的一个来确定小波图像。此类子波变换可包括离散小波变换、复小波变换或其它类型的小波变换。该小波变换可采用许多不同小波中的一个,诸如Mathieu小波、墨西哥帽小波或Haar小波,仅举几个非限制示例。
基于所确定的小波图像,视频内容处理模块40可确定小波合成体66A–66N(共同地“小波合成体66”)。小波合成体66每个可以是表示底层谱图像的不同特征的二维图像。在一些示例中,可通过将一个或多个小波图像组合来确定小波合成体66。例如,视频内容处理模块40可通过将包括前几个系数量值的小波图像组合来生成小波合成体66。也就是说,视频内容处理模块40可将包括最大量值的系数的小波图像与包括第二最大量值的系数的小波图像组合等等。在各种示例中,组合小波的数目可在从一个小波图像至多个小波图像范围内(例如,200或更多个小波图像)。
所确定的小波合成体66可组成音频部分的底层区段的二维子指纹,该小波合成体由其形成。例如,小波合成体66A可以是谱图像62A所表示的音频部分的子指纹。因此,例如,小波合成体66A和小波合成体66B每个可以是包括在视频内容18中的第一音频轨道的子指纹。基于小波合成体66,视频内容处理模块40可确定子指纹的二进制表示,诸如子指纹70A、70B、70C和70D(共同地“子指纹70”)。也就是说,视频内容处理模块40可确定基于小波合成体66A的子指纹70A、基于小波合成体66A的子指纹70B等等。子指纹70中的每一个可包括许多字节,诸如50、100或另一数目的字节。
如图3中所示,子指纹70A和70B可一起表示音频指纹68A。类似地,子指纹70C和70D可表示音频指纹68B。仅仅为了便于理解,在图3中将音频指纹68A和68B示为每个仅包含两个子指纹。在各种示例中,音频指纹可包括表示底层音频轨道可能需要的那么多(例如,10、100、1000或其它数目)的子指纹。在某些示例中,诸如在以均匀速率生成子指纹的情况下,用于音频轨道的子指纹的总数目可与音频轨道的长度成比例。音频指纹68A和68B可以分别地是包括在视频内容18中的第一音频轨道和包括在视频内容18中的第二音频轨道的二进制表示。虽然图3仅示出了音频指纹的两个二进制表示,但根据本公开的技术,视频内容处理模块40可生成用于包括在视频内容18中的每个音频轨道的任何数目的音频指纹。
分组52可包括由内容管理单元12的比较模块42执行的操作。视频内容18的一个或多个指示(例如,音频指纹68A和68B)可被比较模块42用来确定候选曲集的集合。比较模块42可至少部分地基于音频指纹68中的一个与包括在特定候选曲集中的已知音频轨道的音频指纹之间的匹配来从候选曲集的集合中选择将与视频内容18相关联的特定候选曲集。在各种示例中,比较模块42可另外基于音频指纹68与包括在该特定候选曲集中的已知音频轨道的音频指纹之间的附加匹配来选择特定候选曲集。
比较模块42可使用从视频内容18确定的一个或多个音频指纹(例如,音频指纹68A、68B)来执行宽泛的相对廉价的搜索。音频指纹68A和68B的子指纹可被比较模块42用来搜索候选曲集(例如,搜索72)。在各种示例中,可使用许多技术来执行搜索72。在图3的示例中,搜索72可利用存储在音频数据库14中的倒排索引来确定候选曲集的集合。例如,搜索72可由将子指纹70中的每一个划分成许多段(例如,每个尺寸为5字节)和使用每个段来搜索倒排索引组成。比较模块42可使用倒排索引来确定已知音频轨道的哪些子指纹也包括对应于所确定的密钥的段。在某些示例中,没有已知音频轨道可以包括对应于所确定的密钥的段。当例如包括在视频内容中的第一音频轨道未被包括在音频数据库14中时、当包括在视频内容18的音频部分中的第一音频轨道过分失真(或太短而不能确定准确的子指纹)或者其它此类情况时,情况可能如此。在其它示例中,已知音频轨道的仅单个子指纹可对应于所确定的密钥,或者各种已知音频轨道的多个子指纹可对应于所确定的密钥。
作为搜索72的一部分,比较模块42可以保持一个或多个密钥所指示的每个已知音频轨道的计数。换言之,对应于从视频内容18确定的子指纹的一段的每个密钥可指示用于已知音频轨道的一个或多个子指纹的“命中”。该命中可被当做搜索72的一部分。在某些示例中,可将接收到阈值数目的命中的已知音频轨道确定为匹配。在其它示例中,可将接收到甚至单次命中的任何已知音频轨道确定为匹配。在执行搜索72时,比较模块42在一些示例中可在使用索引来确定匹配时考虑段的排序。也就是说,如果第一子指纹(例如,子指纹70A)的一段导致在轨道X的时间T处的轨道X上的命中并且在同一音频指纹内的后续子指纹(例如,子指纹70B)的一段导致在时间T之后的轨道X的时间处的轨道X上的命中,则可仅将包括已知轨道、轨道X的曲集添加到候选曲集的集合。
候选曲集74可以是识别包括在该集合中的曲集的曲集名称或其它信息的列表。在其它示例中,候选曲集74可包括用于每个候选曲集74的更多信息,诸如指示包括在曲集中的音频轨道的信息(例如,用于音频轨道的歌曲名称、音频轨道的音频指纹、音频轨道的子指纹或其它信息)
比较模块42可对音频指纹68的子指纹中的一个或多个执行搜索72。在某些示例中,当至少单个音频指纹(例如,音频指纹68A或音频指纹68B)与包括在曲集中的已知音频轨道的指纹匹配时,比较模块42可将从搜索72确定的曲集添加到候选曲集74。也就是说,当搜索72确定曲集包括被包括在视频内容18中的至少一个音频轨道时,比较模块42可将该曲集添加到候选曲集的集合。在其它示例中,比较模块42可仅在至少两个音频指纹(例如,音频指纹68A和68B两者)每个与包括在曲集上的单独音频轨道匹配时添加曲集。因此,在各种示例中,候选曲集74包括识别每个包括被包括在视频内容18中的至少一个音频轨道的曲集、每个包括被包括在视频内容18中的至少两个音频轨道的曲集或者每个包括被包括在视频内容18中的另一数目的音频轨道的曲集的信息。包括更多匹配的曲集可增加曲集与视频内容18(例如,音轨曲集)相关联的可能性。
在图3的示例中,可用从音频指纹68A和68B确定的子指纹来执行搜索72。比较模块42可基于搜索72的结果来确定要包括在候选曲集74中的曲集。候选曲集74还可包括用于包括在候选曲集74中的一个或多个中的已知音频轨道的信息,诸如音频指纹和/或子指纹。包括在候选曲集74中的每个曲集可包括具有充分地类似于音频指纹68A的音频指纹的已知音频轨道。搜索72可以导致没有用于音频指纹68B的匹配。
使用来自候选曲集74的信息(例如,包括在候选曲集74中的已知音频轨道的音频指纹),比较模块42可执行相对彻底的成对比较来选择与视频内容18相关联的特定候选曲集和/或与视频内容18相关联的一个或多个已知音频轨道。在图3的示例中,比较模块42可执行搜索76以将未导致匹配的那些音频指纹与来自候选曲集74的音频指纹相比较。通过执行成对比较和避免例如使用倒排索引,搜索76可以更有可能发现用于包括在视频内容18中的短和/或失真音频轨道的匹配。由于每个候选曲集74更有可能与视频内容18相关联,所以搜索76的成对比较可在确定音频轨道之间的匹配时不将利用高的阈值。在各种示例中,搜索76可以包括许多比较技术。例如,搜索76可包括比较从视频内容18确定的所有视频指纹的所有子指纹,其不导致与包括在候选曲集74中的已知音频轨道的所有音频指纹的子指纹的匹配。在一些示例中,搜索76可包括对于每次比较(例如,逐个字节比较)确定汉明距离。在其它示例中,搜索76可包括确定从视频内容18确定的子指纹与从包括在候选曲集74中的音频轨道确定的子指纹之间的汉明距离。
在图3的示例中,搜索76可包括确定用于包括在视频内容18中的音频轨道的音频指纹的每个字节与用于包括在候选曲集74中的至少一个中的已知音频轨道的音频指纹的每个字节之间的汉明距离。也就是说,搜索76可包括对于包括在候选曲集74中的每个曲集确定(1)在搜索72中不导致匹配的从视频内容18的音频部分确定的音频指纹的字节和(2)在搜索72中不导致匹配的从包括在候选曲集74中的某个曲集上的已知音频轨道确定的音频指纹的字节的每个组合之间的汉明距离。搜索76可包括创建用于每个音频指纹组合的汉明距离的矩阵,基于该矩阵来确定音频轨道匹配,并且选择具有最多音频轨道匹配的曲集作为特定候选曲集。为了确定音频轨道匹配,可要求汉明距离的矩阵包含平均起来在某个值以下的汉明距离序列。也就是说,当矩阵在对角线方向上包括零或接近零数的序列(例如,指示两个被比较字节之间的小汉明距离)时可确定匹配。零或接近零数的位置可指示匹配音频轨道在视频内容18中被使用时的其精确时间和持续时间。
在某些示例中,比较模块42可具有候选曲集必须满足以便被选择为特定候选曲集的阈值数目的音频轨道匹配。在这种情况下,如果没有候选曲集导致足够高数目的匹配,则比较模块42在一些示例中可不确定特定候选曲集,或者执行与本公开无关的其它功能。
如图3中所示,比较模块42可发送关联消息78(例如,到内容管理单元12或内容市场系统8的一个或多个其它部件)。关联消息78可包括从搜索76得到的特定候选曲集的指示。在一些示例中,关联消息78可包括其它信息,诸如视频内容18的指示、与视频内容18相关联的一个或多个音频轨道的指示、音频轨道在视频内容18中被使用的时间的一个或多个指示或其它信息。例如,比较模块42可将关联消息78发送到内容访问单元10。关联消息78可包括用于将与视频内容18相关联的特定候选曲集的曲集信息、用于包括在特定候选曲集上的每个已知音频轨道的音频轨道数据以及每个已知音频轨道在视频内容18中被使用的时间的指示。内容访问单元10在一些示例中可将所接收的信息作为与视频内容18相关联的音轨数据存储到视频内容库16。在其它示例中,内容访问单元10可将所接收的信息连同视频内容一起提供给客户端设备。这样,内容管理单元12可通过提供用于视频内容的曲集识别和/或音频轨道识别的鲁棒方法来使得内容市场系统8能够为用户提供用于包括在电影及其它视频内容中的音频轨道的音频轨道信息。
图4是图示根据本公开的一个或多个方面的用于确定与视频内容相关联的曲集的示例性过程的流程图。仅仅出于举例说明的目的,下面在内容市场系统8的内容管理单元12的上下文中(如图1和2中所示)描述示例性操作。
在图4的示例中,内容管理单元12可确定视频内容的指示(80)。内容管理单元12可至少部分地基于该指示来确定一个或多个候选曲集(82)。内容管理单元12可至少部分地基于与视频内容相关联的音频轨道的音频指纹与包括在特定候选曲集中的音频轨道的音频指纹之间的匹配来选择特定候选曲集(84)。内容管理单元12可发送使视频内容与特定候选曲集相关联的消息(86)。
在一些示例中,包括在视频内容中的音频轨道是第一音频轨道,确定视频内容的指示包括确定包括在视频内容中的第二音频轨道的指示,第二音频轨道不同于第一音频轨道,以及所述一个或多个候选曲集每个包括第二音频轨道。在一些示例中,该操作可包括由计算设备来确定包括在视频内容中的第三音频轨道的指示,其中确定一个或多个候选曲集进一步至少部分地基于第三音频轨道的指示,并且其中所述一个或多个音频曲集每个进一步包括第三音频轨道。在一些示例中,确定第二音频轨道的指示包括确定第二音频轨道的至少一个音频指纹。
在一些示例中,选择一个或多个候选曲集的特定候选曲集包括响应于确定以下而选择该特定候选曲集:包括在该特定候选曲集中的音频轨道被包括在该特定候选曲集的一时间位置处,该时间位置在该特定候选曲集中位于第二音频轨道被包括在该特定候选曲集中的时间位置之后;以及第一音频轨道的发生是在视频内容的一时间位置处,该时间位置在视频内容中位于发生第二音频轨道的时间位置之后。在一些示例中,选择一个或多个候选曲集的特定候选曲集包括响应于确定以下而选择该特定候选曲集:包括在该特定候选曲集中的音频轨道被包括在该特定候选曲集的一时间位置处,该时间位置在该特定候选曲集中位于第二音频轨道被包括在该特定候选曲集中的时间位置之前;以及第一音频轨道的发生是在视频内容的一时间位置处,该时间位置在视频内容中位于发生第二音频轨道的时间位置之前。在某些示例中,选择一个或多个候选曲集中的特定候选曲集包括确定包括在视频内容中的音频轨道的音频指纹的子指纹与包括在该特定候选曲集中的音频轨道的音频指纹的子指纹之间的汉明距离。
在一些示例中,该消息包括识别视频内容、特定候选曲集以及包括在该特定候选曲集中的音频轨道在视频内容中发生的视频内容时间的至少一个指示的信息。在一些示例中,所述操作进一步包括由计算设备接收访问视频内容的请求;以及由计算设备向用户设备发送与该特定候选曲集相关联的数据。在一些示例中,所述操作进一步包括由计算设备在一个或多个数据存储中存储视频内容和该特定候选曲集的至少指示。
在一些示例中,确定一个或多个候选曲集包括至少部分地基于与视频内容相关联的元数据来确定一个或多个候选曲集。在一些示例中,元数据包括视频内容的名称、视频内容的发行日期、视频内容的导演以及视频内容的制作者中的至少一个。
可用以下示例中的一个或多个来进一步描述图4的示例性操作。
示例1.一种方法,包括:由计算设备确定视频内容的指示;由所述计算设备至少部分地基于所述指示来确定一个或多个候选曲集;由所述计算设备至少部分地基于包括在所述视频内容中的音频轨道的音频指纹与包括在所述一个或多个候选曲集中的特定候选曲集中的音频轨道的音频指纹之间的匹配来选择所述特定候选曲集;以及由所述计算设备发送使所述视频内容与所述特定候选曲集相关联的消息。
示例2.根据示例1所述的方法,其中:包括在所述视频内容中的音频轨道是第一音频轨道;确定所述视频内容的指示包括确定包括在所述视频内容中的第二音频轨道的指示,所述第二音频轨道不同于所述第一音频轨道;以及所述一个或多个候选曲集每个包括所述第二音频轨道。
示例3.根据示例2所述的方法,进一步包括由所述计算设备确定包括在所述视频内容中的第三音频轨道的指示,其中,确定所述一个或多个候选曲集进一步至少部分地基于所述第三音频轨道的指示,并且其中,所述一个或多个候选曲集每个进一步包括所述第三音频轨道。
示例4.根据示例2-3中的任一项所述的方法,其中,确定所述第二音频轨道的指示包括确定所述第二音频轨道的至少一个音频指纹。
示例5.根据示例2-4中的任一项所述的方法,其中,选择所述一个或多个候选曲集中的所述特定候选曲集包括响应于确定以下而选择所述特定候选曲集:包括在所述特定候选曲集中的音频轨道被包括在所述特定候选曲集的一时间位置处,该时间位置在所述特定候选曲集中位于所述第二音频轨道被包括在所述特定候选曲集中的时间位置之后;以及所述第一音频轨道的发生是在所述视频内容的一时间位置处,该时间位置在所述视频内容中位于发生所述第二音频轨道的时间位置之后。
示例6.根据示例2-4中的任一项所述的方法,其中,选择所述一个或多个候选曲集中的所述特定候选曲集包括响应于确定以下而选择所述特定候选曲集:包括在所述特定候选曲集中的音频轨道被包括在所述特定候选曲集的一时间位置处,该时间位置在所述特定候选曲集中位于所述第二音频轨道被包括在所述特定候选曲集中的时间位置之前;以及所述第一音频轨道的发生是在所述视频内容的一时间位置处,该时间位置在所述视频内容中位于发生所述第二音频轨道的时间位置之前。
示例7.根据示例1-6中的任一项所述的方法,其中,选择所述一个或多个候选曲集中的所述特定候选曲集包括确定包括在所述视频内容中的音频轨道的音频指纹的子指纹与包括在所述特定候选曲集中的音频轨道的音频指纹的子指纹之间的汉明距离。
示例8.根据示例1-7中的任一项所述的方法,其中,所述消息包括识别所述视频内容、所述特定候选曲集以及所述视频内容的包括在所述特定候选曲集中的音频轨道在所述视频内容中发生的时间的至少一个指示的信息
示例9.根据示例1-8中的任一项所述的方法,进一步包括:由所述计算设备接收访问所述视频内容的请求;以及由所述计算设备向用户设备发送与所述特定候选曲集相关联的数据。
示例10.根据示例1-9中的任一项所述的方法,进一步包括由所述计算设备在一个或多个数据存储中存储所述视频内容和所述特定候选曲集的至少指示。
示例11.根据示例1-10中的任一项所述的方法,其中,确定所述一个或多个候选曲集包括至少部分地基于与所述视频内容相关联的元数据来确定所述一个或多个候选曲集。
示例12.根据示例11所述的方法,其中,所述元数据包括所述视频内容的名称、所述视频内容的发行日期、所述视频内容的导演以及所述视频内容的制作者中的至少一个。
示例13.一种编码有指令的计算机可读存储介质,所述指令在被执行时促使一个或多个处理器执行如示例1-12中的任一项所述的方法。
示例14.一种计算设备,包括:一个或多个处理器,其中,所述一个或多个处理器被配置成:确定视频内容的指示;至少部分地基于所述指示来确定一个或多个候选曲集;至少部分地基于包括在所述视频内容中的音频轨道的音频指纹与包括在所述特定候选曲集中的音频轨道的音频指纹之间的匹配来选择所述一个或多个候选曲集中的特定候选曲集;以及发送使所述视频内容与所述特定候选曲集相关联的消息。
示例15.根据示例14所述的计算设备,进一步包括用于执行如示例1-12中的任一项所述的方法的装置。
可至少部分地用硬件、软件、固件或其任何组合来实现在本公开中所述的技术。例如,可在一个或多个处理器内实现所述技术的各种方面,包括一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或任何其他等效集成或分立逻辑电路以及此类部件的任何组合。术语“处理器”或“处理器电路”一般地可指的是任何的前述逻辑电路、单独地或与其他逻辑电路相组合,或者任何其他等效电路。包括硬件的控制单元也可执行本公开的技术中的一个或多个。
可在同一设备内或在单独设备内实现此类硬件、软件以及固件以支持在本公开中所述的各种技术。另外,可将任何的所述单元、模块或部件一起或单独地实现为分立但可互操作的逻辑设备。将不同特征描述为模块或单元旨在强调不同的功能方面而不一定暗示必须用单独的硬件、固件或软件部件来实现此类模块或单元。相反地,可用单独硬件、固件或软件部件来执行与一个或多个模块或单元相关联的功能,或者集成在公共或单独硬件、固件或软件部件内。
还可在包括编码有指令的计算机可读存储介质的制品中体现或编码在本公开中描述的技术。在包括已编码的计算机可读存储介质的制品中嵌入或编码的指令可促使一个或多个可编程处理器或其他处理器实现本文所述的技术中的一个或多个,诸如当由一个或多个处理器来执行包括在计算机可读存储介质中或在其中编码的指令时。计算机可读存储介质可包括随机存取存储器(RAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦可编程序只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪速存储器、硬盘、紧凑式磁盘ROM(CD-ROM)、软盘、卡带、磁介质、光学介质或其他计算机可读存储介质。在一些示例中,制品可包括一个或多个计算机可读存储介质。
计算机可读存储介质包括非临时介质。术语“非临时”指示不是在载波或传播信号中体现存储介质。在某些示例中,非临时存储介质可存储可以随时间推移而改变的数据(例如,在RAM或高速缓存器中)。
已经描述了各种示例。这些及其他示例在所附的权利要求的范围内。
Claims (14)
1.一种使视频内容与曲集相关联的方法,包括:
由计算设备确定视频内容的指示;
由所述计算设备至少部分地基于所述指示来确定多个候选曲集,其中所述多个候选曲集中的每个候选曲集包括相应的多个音频轨道;
由所述计算设备确定包括在所述视频内容中的第一音频轨道的音频指纹与包括在特定候选曲集的相应的多个音频轨道中的第一音频轨道的音频指纹之间的第一匹配;
由所述计算设备确定包括在所述视频内容中的第二音频轨道的音频指纹与包括在所述特定候选曲集的所述相应的多个音频轨道中的第二音频轨道的音频指纹之间的第二匹配,其中包括在所述视频内容中的所述第一音频轨道和所述第二音频轨道的时间顺序与包括在所述特定候选曲集的所述相应的多个音频轨道中的所述第一音频轨道和所述第二音频轨道的时间顺序相同;
由所述计算设备至少部分地基于所述第一匹配和所述第二匹配来从所述多个候选曲集中选择所述特定候选曲集;以及
由所述计算设备发送使所述视频内容与所述特定候选曲集相关联的消息。
2.根据权利要求1所述的方法,其中:
确定所述视频内容的指示包括确定包括在所述视频内容中的所述第二音频轨道的指示。
3.根据权利要求2所述的方法,进一步包括由所述计算设备确定包括在所述视频内容中的第三音频轨道的指示,其中,确定所述多个候选曲集进一步至少部分地基于所述第三音频轨道的指示,并且其中,所述多个候选曲集中的每个候选曲集的相应的多个音频轨道进一步包括所述第三音频轨道。
4.根据权利要求2-3中的任一项所述的方法,其中所述视频内容包括电影,并且其中所述特定候选曲集包括与所述电影相关联的音轨曲集。
5.根据权利要求2所述的方法,其中,选择所述多个候选曲集中的所述特定候选曲集包括响应于确定以下而选择所述特定候选曲集:
包括在所述特定候选曲集的所述相应的多个音频轨道中的所述第一音频轨道被包括在所述特定候选曲集的一时间位置处,该时间位置在所述特定候选曲集中位于所述第二音频轨道被包括在所述特定候选曲集的所述相应的多个音频轨道中的时间位置之后;以及
包括在所述视频内容中的所述第一音频轨道的发生是在所述视频内容的一时间位置处,该时间位置在所述视频内容中位于发生包括在所述视频内容中的所述第二音频轨道的时间位置之后。
6.根据权利要求2所述的方法,其中,选择所述多个候选曲集中的所述特定候选曲集包括响应于确定以下而选择所述特定候选曲集:
包括在所述特定候选曲集的所述相应的多个音频轨道中的所述第一音频轨道被包括在所述特定候选曲集的一时间位置处,该时间位置在所述特定候选曲集的所述相应的多个音频轨道中位于所述第二音频轨道被包括在所述特定候选曲集中的时间位置之前;以及
包括在所述音频内容中的所述第一音频轨道的发生是在所述视频内容的一时间位置处,该时间位置在所述视频内容中位于发生包括在所述视频内容中的所述第二音频轨道的时间位置之前。
7.根据权利要求1所述的方法,其中,选择所述多个候选曲集中的所述特定候选曲集包括确定包括在所述视频内容中的所述第一音频轨道的音频指纹的子指纹与包括在所述特定候选曲集的所述相应的多个音频轨道中的所述第一音频轨道的音频指纹的子指纹之间的汉明距离。
8.根据权利要求1所述的方法,其中,所述消息包括识别所述视频内容、所述特定候选曲集以及所述视频内容的包括在所述特定候选曲集中的所述第一音频轨道和所述第二音频轨道中的至少一个在所述视频内容中发生的时间的至少一个指示的信息。
9.根据权利要求1所述的方法,进一步包括:
由所述计算设备接收访问所述视频内容的请求;以及
由所述计算设备向用户设备发送与所述特定候选曲集相关联的数据。
10.根据权利要求1所述的方法,进一步包括由所述计算设备在一个或多个数据存储中存储所述视频内容和所述特定候选曲集的指示。
11.根据权利要求1所述的方法,其中,确定所述多个候选曲集包括至少部分地基于与所述视频内容相关联的元数据来确定所述多个候选曲集。
12.根据权利要求11所述的方法,其中,所述元数据包括所述视频内容的名称、所述视频内容的发行日期、所述视频内容的导演以及所述视频内容的制作者中的至少一个。
13.一种编码有指令的非暂时性计算机可读存储介质,所述指令在被执行时促使一个或多个处理器执行如权利要求1-12中的任一项所述的方法。
14.一种计算设备,包括一个或多个处理器以及编码有指令的存储介质,所述指令在被执行时使得所述一个或多个处理器执行如权利要求1-12中的任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/786,132 US9344759B2 (en) | 2013-03-05 | 2013-03-05 | Associating audio tracks of an album with video content |
US13/786,132 | 2013-03-05 | ||
PCT/US2014/018339 WO2014137668A1 (en) | 2013-03-05 | 2014-02-25 | Associating audio tracks of an album with video content |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105144723A CN105144723A (zh) | 2015-12-09 |
CN105144723B true CN105144723B (zh) | 2018-11-16 |
Family
ID=50389484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480023371.XA Active CN105144723B (zh) | 2013-03-05 | 2014-02-25 | 使曲集的音频轨道与视频内容相关联 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9344759B2 (zh) |
EP (1) | EP2965525A1 (zh) |
CN (1) | CN105144723B (zh) |
WO (1) | WO2014137668A1 (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9275427B1 (en) * | 2013-09-05 | 2016-03-01 | Google Inc. | Multi-channel audio video fingerprinting |
GB2523311B (en) * | 2014-02-17 | 2021-07-14 | Grass Valley Ltd | Method and apparatus for managing audio visual, audio or visual content |
US9392324B1 (en) * | 2015-03-30 | 2016-07-12 | Rovi Guides, Inc. | Systems and methods for identifying and storing a portion of a media asset |
US9621935B2 (en) | 2015-04-01 | 2017-04-11 | Tribune Broadcasting Company, Llc | Using bitrate data to output an alert indicating a functional state of back-up media-broadcast system |
US9674475B2 (en) * | 2015-04-01 | 2017-06-06 | Tribune Broadcasting Company, Llc | Using closed-captioning data to output an alert indicating a functional state of a back-up video-broadcast system |
US9264744B1 (en) * | 2015-04-01 | 2016-02-16 | Tribune Broadcasting Company, Llc | Using black-frame/non-black-frame transitions to output an alert indicating a functional state of a back-up video-broadcast system |
US9531488B2 (en) | 2015-04-01 | 2016-12-27 | Tribune Broadcasting Company, Llc | Using single-channel/multi-channel transitions to output an alert indicating a functional state of a back-up audio-broadcast system |
US9582244B2 (en) | 2015-04-01 | 2017-02-28 | Tribune Broadcasting Company, Llc | Using mute/non-mute transitions to output an alert indicating a functional state of a back-up audio-broadcast system |
US9420277B1 (en) | 2015-04-01 | 2016-08-16 | Tribune Broadcasting Company, Llc | Using scene-change transitions to output an alert indicating a functional state of a back-up video-broadcast system |
US9420348B1 (en) | 2015-04-01 | 2016-08-16 | Tribune Broadcasting Company, Llc | Using aspect-ratio transitions to output an alert indicating a functional state of a back up video-broadcast system |
CN104967901B (zh) * | 2015-06-29 | 2018-05-04 | 腾讯科技(北京)有限公司 | 媒体播放中的音轨切换方法和媒体播放设备 |
US20180158488A1 (en) * | 2016-12-07 | 2018-06-07 | Theater Ears, LLC | Continuous automated synchronization of an audio track in a movie theater |
AU2018275145B2 (en) * | 2017-06-01 | 2023-03-30 | Push Through Innovation Corp | Interest-based and bibliographical data-based multimedia content exploration, curation and organization |
CN107272459A (zh) * | 2017-07-18 | 2017-10-20 | 衢州熊妮妮计算机科技有限公司 | 一种基于神经网络的4d电影座椅控制方法及系统 |
US11133005B2 (en) | 2019-04-29 | 2021-09-28 | Rovi Guides, Inc. | Systems and methods for disambiguating a voice search query |
CN111986698B (zh) * | 2019-05-24 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 音频片段的匹配方法、装置、计算机可读介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101361301A (zh) * | 2005-11-29 | 2009-02-04 | 谷歌公司 | 检测广播媒体中的重复内容 |
EP2483889A2 (en) * | 2009-09-30 | 2012-08-08 | United Video Properties, Inc. | Systems and methods for identifying audio content using an interactive media guidance application |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7711564B2 (en) * | 1995-07-27 | 2010-05-04 | Digimarc Corporation | Connected audio and other media objects |
US6990453B2 (en) | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
US6965683B2 (en) * | 2000-12-21 | 2005-11-15 | Digimarc Corporation | Routing networks for use with watermark systems |
AU2002355120A1 (en) | 2001-07-17 | 2003-03-03 | Impulse Radio, Inc. | System and method for transmitting digital multimedia data with analog broadcast data. |
WO2005006758A1 (en) * | 2003-07-11 | 2005-01-20 | Koninklijke Philips Electronics N.V. | Method and device for generating and detecting a fingerprint functioning as a trigger marker in a multimedia signal |
US20060184960A1 (en) * | 2005-02-14 | 2006-08-17 | Universal Music Group, Inc. | Method and system for enabling commerce from broadcast content |
US20070242880A1 (en) | 2005-05-18 | 2007-10-18 | Stebbings David W | System and method for the identification of motional media of widely varying picture content |
US9401080B2 (en) * | 2005-09-07 | 2016-07-26 | Verizon Patent And Licensing Inc. | Method and apparatus for synchronizing video frames |
BRPI0619388A2 (pt) | 2005-11-29 | 2011-10-04 | Google Inc | aplicações sociais e interativas para mìdia de massa |
US20070162761A1 (en) | 2005-12-23 | 2007-07-12 | Davis Bruce L | Methods and Systems to Help Detect Identity Fraud |
US9015172B2 (en) | 2006-09-22 | 2015-04-21 | Limelight Networks, Inc. | Method and subsystem for searching media content within a content-search service system |
US9654737B2 (en) | 2007-03-27 | 2017-05-16 | Sony Corporation | Methods, systems and apparatuses to enhance broadcast entertainment |
US8452586B2 (en) | 2008-12-02 | 2013-05-28 | Soundhound, Inc. | Identifying music from peaks of a reference sound fingerprint |
US9390167B2 (en) | 2010-07-29 | 2016-07-12 | Soundhound, Inc. | System and methods for continuous audio matching |
US8751494B2 (en) * | 2008-12-15 | 2014-06-10 | Rovi Technologies Corporation | Constructing album data using discrete track data from multiple sources |
GB0901263D0 (en) | 2009-01-26 | 2009-03-11 | Mitsubishi Elec R&D Ct Europe | Detection of similar video segments |
US8209313B2 (en) * | 2009-01-28 | 2012-06-26 | Rovi Technologies Corporation | Structuring and searching data in a hierarchical confidence-based configuration |
US20100205222A1 (en) * | 2009-02-10 | 2010-08-12 | Tom Gajdos | Music profiling |
US8489774B2 (en) | 2009-05-27 | 2013-07-16 | Spot411 Technologies, Inc. | Synchronized delivery of interactive content |
US8594392B2 (en) | 2009-11-18 | 2013-11-26 | Yahoo! Inc. | Media identification system for efficient matching of media items having common content |
US8886531B2 (en) * | 2010-01-13 | 2014-11-11 | Rovi Technologies Corporation | Apparatus and method for generating an audio fingerprint and using a two-stage query |
CA2798072C (en) | 2010-05-04 | 2017-02-14 | Shazam Entertainment Ltd. | Methods and systems for synchronizing media |
WO2011140269A1 (en) | 2010-05-04 | 2011-11-10 | Shazam Entertainment Ltd. | Methods and systems for processing a sample of a media stream |
US8239412B2 (en) * | 2010-05-05 | 2012-08-07 | Rovi Technologies Corporation | Recommending a media item by using audio content from a seed media item |
US9047516B2 (en) | 2010-06-18 | 2015-06-02 | Verizon Patent And Licensing Inc. | Content fingerprinting |
US9240021B2 (en) | 2010-11-04 | 2016-01-19 | Digimarc Corporation | Smartphone-based methods and systems |
US20120130805A1 (en) * | 2010-11-18 | 2012-05-24 | Google Inc. | Selecting media advertisements for presentation based on their predicted playtimes |
US8245253B2 (en) | 2010-12-15 | 2012-08-14 | Dish Network L.L.C. | Displaying music information associated with a television program |
US8737817B1 (en) * | 2011-02-08 | 2014-05-27 | Google Inc. | Music soundtrack recommendation engine for videos |
WO2012118976A2 (en) | 2011-03-01 | 2012-09-07 | Ebay Inc | Methods and systems of providing a supplemental experience based on concurrently viewed content |
US9002490B2 (en) * | 2011-04-13 | 2015-04-07 | Longsand Limted | Methods and systems for generating frictionless social experience environment |
US8996557B2 (en) | 2011-05-18 | 2015-03-31 | Microsoft Technology Licensing, Llc | Query and matching for content recognition |
US20130031162A1 (en) | 2011-07-29 | 2013-01-31 | Myxer, Inc. | Systems and methods for media selection based on social metadata |
CA2849069C (en) * | 2011-09-18 | 2017-08-22 | Touchtunes Music Corporation | Digital jukebox device with karaoke and/or photo booth features, and associated methods |
US20130318114A1 (en) * | 2012-05-13 | 2013-11-28 | Harry E. Emerson, III | Discovery of music artist and title by broadcast radio receivers |
US8484017B1 (en) | 2012-09-10 | 2013-07-09 | Google Inc. | Identifying media content |
-
2013
- 2013-03-05 US US13/786,132 patent/US9344759B2/en active Active
-
2014
- 2014-02-25 WO PCT/US2014/018339 patent/WO2014137668A1/en active Application Filing
- 2014-02-25 EP EP14713281.5A patent/EP2965525A1/en not_active Withdrawn
- 2014-02-25 CN CN201480023371.XA patent/CN105144723B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101361301A (zh) * | 2005-11-29 | 2009-02-04 | 谷歌公司 | 检测广播媒体中的重复内容 |
EP2483889A2 (en) * | 2009-09-30 | 2012-08-08 | United Video Properties, Inc. | Systems and methods for identifying audio content using an interactive media guidance application |
Also Published As
Publication number | Publication date |
---|---|
US20140259041A1 (en) | 2014-09-11 |
EP2965525A1 (en) | 2016-01-13 |
CN105144723A (zh) | 2015-12-09 |
US9344759B2 (en) | 2016-05-17 |
WO2014137668A1 (en) | 2014-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105144723B (zh) | 使曲集的音频轨道与视频内容相关联 | |
US9542488B2 (en) | Associating audio tracks with video content | |
US11645301B2 (en) | Cross media recommendation | |
US7996432B2 (en) | Systems, methods and computer program products for the creation of annotations for media content to enable the selective management and playback of media content | |
US20150074090A1 (en) | Historical Media Recommendation Service | |
US11157542B2 (en) | Systems, methods and computer program products for associating media content having different modalities | |
TW201022971A (en) | Apparatus and method for generating a collection profile and for communicating based on the collection profile | |
US20170039468A1 (en) | Systems and methods for learning new trained concepts used to retrieve content relevant to the concepts learned | |
MX2013009915A (es) | Metodos y aparato para compartir, transferir y eliminar medios digitales anteriormente en propiedad. | |
US20190066641A1 (en) | Lyrics analyzer | |
JP4599141B2 (ja) | 情報提供システム,情報提供サーバおよびコンピュータプログラム | |
US20140215544A1 (en) | Music on video site | |
EP3059706B1 (en) | Music on video site | |
Kostek | Listening to live music: life beyond music recommendation systems | |
US20220188062A1 (en) | Skip behavior analyzer | |
US20220012279A1 (en) | Methods, systems, and media for determining and presenting information related to embedded sound recordings | |
US20220414808A1 (en) | Methods, systems, and media for rights management of embedded sound recordings using composition clustering | |
US20240223951A1 (en) | Systems, methods and computer program products for selecting audio filters | |
US20220060791A1 (en) | Systems and methods for providing play context recognition using ultrasound codes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |