CN106663110B - 音频序列对准的概率评分的导出 - Google Patents
音频序列对准的概率评分的导出 Download PDFInfo
- Publication number
- CN106663110B CN106663110B CN201580035264.3A CN201580035264A CN106663110B CN 106663110 B CN106663110 B CN 106663110B CN 201580035264 A CN201580035264 A CN 201580035264A CN 106663110 B CN106663110 B CN 106663110B
- Authority
- CN
- China
- Prior art keywords
- audio
- function
- chroma
- correspondence
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009795 derivation Methods 0.000 title description 13
- 238000002864 sequence alignment Methods 0.000 title description 2
- 230000006870 function Effects 0.000 claims description 122
- 239000013598 vector Substances 0.000 claims description 45
- 238000000034 method Methods 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 11
- 238000005315 distribution function Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000007670 refining Methods 0.000 claims 1
- 238000011002 quantification Methods 0.000 abstract 1
- 230000015654 memory Effects 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/066—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/141—Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Spectroscopy & Molecular Physics (AREA)
Abstract
一种匹配评分提供来自两个对应音频序列的两个色度的听觉相似性的语义上有意义的量化。匹配评分可应用到两个对应音频序列的色度对,并且独立于所述序列的长度,因此允许跨越不同长度的序列进行匹配的比较。因此,用于识别“良好”音频序列匹配的单个截止评分可被确定,并具有良好精确率和良好查全率度量两者。一种用于确定匹配评分的函数通过如下方式来确定:建立指示色度对应评分指示语义对应的概率的函数PM以及指示色度对应评分指示随机对应的概率的函数PR,基于应用到具有已知语义对应的音频序列的PM和匹配函数的现有值而重复地更新PM和匹配函数。
Description
技术领域
本发明总的来说涉及数字音频的领域,并且更具体来说,涉及导出可用于有意义地比较数字音频的部分的评分的方式。
背景技术
能够有意义地比较音乐或其它数字音频的两个序列以例如发现该音乐内的匹配子序列是有价值的。为此,量化构成序列和子序列的个别单元(“色度(chromae)”)的对应度并将子序列的对应度作为整体量化是有用的。
音频单元和子序列的对应度的常规量度通常缺少固有的含义。例如,对于一些量度来说,评分3可指示强匹配,但对于其它量度来说,评分3可指示弱匹配,评分72指示强匹配。类似地,常规量度不固有地传达评分11比评分10强多少,或评分9比评分10弱多少,或具有评分5的两个匹配是否表示与具有评分10的单个匹配一样好的匹配。因此,这些常规量度需要额外经验知识以能够适当地解译或应用所得评分。
发明内容
在一个实施例中,一种用于匹配音频序列的计算机实施的方法包括:导出第一概率密度函数PM,该第一概率密度函数PM输出音频序列的一对色度向量的初始对应评分指示色度向量之间的语义对应的概率;导出第二概率密度函数PR,该第二概率密度函数PR输出音频序列的一对色度向量的初始对应评分指示色度向量具有随机对应的概率;使用PM和PR而导出指示音频序列的给定的一对色度向量是否在语义上对应的匹配函数;获得第一音频序列;使用匹配函数来比较第一音频序列与多个已知音频序列;以及基于比较而从已知音频序列识别第一音频序列的最佳匹配音频序列。
在一个实施例中,一种非暂时性计算机可读存储介质存储处理器可执行指令,所述处理器可执行指令包括:用于导出第一概率密度函数PM的指令,该第一概率密度函数PM输出音频序列的一对色度向量的初始对应评分指示色度向量之间的语义对应的概率;用于导出第二概率密度函数PR的指令,该第二概率密度函数PR输出音频序列的一对色度向量的初始对应评分指示色度向量具有随机对应的概率;用于使用PM和PR而导出指示音频序列的给定的一对色度向量是否在语义上对应的匹配函数的指令;用于获得第一音频序列的指令;用于使用匹配函数来比较第一音频序列与多个已知音频序列的指令;以及用于基于比较而从已知音频序列识别第一音频序列的最佳匹配音频序列的指令。
在一个实施例中,一种用于匹配音频序列的计算机系统包括:计算机处理器;以及存储指令的非暂时性计算机可读存储介质。所述指令在由计算机处理器执行时,执行包括以下各者的动作:导出第一概率密度函数PM,该第一概率密度函数PM输出音频序列的一对色度向量的初始对应评分指示色度向量之间的语义对应的概率;导出第二概率密度函数PR,该第二概率密度函数PR输出音频序列的一对色度向量的初始对应评分指示色度向量具有随机对应的概率;使用PM和PR而导出指示音频序列的给定的一对色度向量是否在语义上对应的匹配函数;获得第一音频序列;使用匹配函数来比较第一音频序列与多个已知音频序列;以及基于比较而从已知音频序列识别第一音频序列的最佳匹配音频序列。
附图说明
图1图示根据一个实施例的发生音频分析的计算环境。
图2A图示根据一个实施例的两个不同音频序列的一个实例。
图2B图示根据一个实施例的实例子序列匹配。
图3是图示根据一个实施例的图1的音频分析模块的详细视图的高阶框图。
图4图示根据一个实施例由图3的对评分模块针对图2A和图2B的两个实例序列而产生的评分的实例集合。
图5A图示根据一个实施例的概率密度函数PM和PR的样本β分布。
图5B图示根据一个实施例的对应于图5A的样本PM和PR的样本match()函数。
图6是图示根据一个实施例的在计算PM和PR(以及取决于PM和PR的match()函数)时的音频分析模块105的操作的数据流程图。
图7是图示根据一个实施例的用作图1的音频服务器或客户端的一部分或全部的计算机700的物理组件的高阶框图。
图8是根据一个实施例的响应于用户提供声音输入而寻找的歌曲音频序列的匹配集合的实例用户界面。
附图仅出于图示的目的而描绘本发明的实施例。本领域的技术人员将容易从下文描述认识到,可在不偏离本文所述的本发明的原理的情况下使用本文所说明的结构和方法的替代实施例。
具体实施方式
图1图示根据一个实施例的其中发生音频分析的计算环境。音频服务器100包含:音频存储库101,其中音频存储库101存储不同数字音频序列(例如,歌曲)的集合;以及音频分析模块105,其中音频分析模块105包含分析并比较音频序列的功能性。用户使用客户端装置110与音频互动,例如,从音频存储库101获得并播放序列,提交对音频序列的查询,将音频序列提交到音频数据库等等。
音频服务器100和客户端110经由网络140而连接。网络140可以是适用于数据传输的任何适当通信网络。网络140使用标准通信技术和/或协议,并且可包含因特网。在另一实施例中,网络140包含定制和/或专用的数据通信技术。
音频存储库101中的音频序列可表示任何类型的音频,例如,音乐或语音,并且包括元数据(例如,标题、标签和/或描述)和音频内容。在一个实施例中,音频内容由离散的按时间排序的单元(下文称为“色度”)构成。每一色度对应于音频序列内的特定时间间隔(例如,特定50毫秒间隔),并具有测量频率的集合中的每一测量频率的值。例如,在一个实施例中,每一色度具有8音度(octave)中的12个半音(semitone)中的每一个的浮点值,其中该浮点值表示对应时间间隔期间的此特定半音的频率的强度。不同测量频率的值的集合(例如,针对测量12个频率的实施例,集合<0.25、1.1、2.5、1.0、0.6、0.79、1.9、2.3、1.11、4.6、1.5、2.0>)被称为色度的“色度向量(chroma vector)”。在替代实施例中,音频内容作为连续信号而存储,并且在由音频分析模块105分析之前动态转换为离散色度。
音频分析模块105分析音频存储库101中的音频序列,以确定音频序列对的“语义对应(semantic correspondence)”,即,音频序列对对于人类收听者来说听起来相同。例如图2A和图2B在视觉上图示的,音频分析模块105所执行的一种类型的分析是在一对音频序列内寻找对应子序列。图2A图示两个不同音频序列(SequenceA 201和SequenceB202)的一个实例。为了实例的简单起见,图2A和图2B中的每一序列由8个色度组成(对于SequenceA 201来说,A0到A7,并且对于SequenceB202来说,B0到B7)。然而,应了解,两个序列可具有任何数量的色度(例如,3,600个,假设是3分钟长的音频序列,并且每一色度对应于50毫秒间隔),并且不需要具有与另一个相同的数量的色度。图2B图示实例子序列匹配,其中已发现色度A1到A3在语义上对应于色度B3到B5,这意味作为整体,色度向量对<A1,B3>、<A2,B4>和<A3,B5>具有极类似值,并且因此将对于人类收听者来说听起来一样。
在两个声音序列内寻找对应子序列的能力实现许多应用。一种应用是确定一首歌曲是否与另一首相同(例如,由于歌曲的大的子序列对应)。另一应用是响应于用户唱出或以其它方式通过音频输入描述歌曲的一部分,通过试图在已知歌曲内寻找在语义上对应于用户所提供的音频输入的子序列而寻找该歌曲。
为了确定个别色度——或多个色度的子序列——在语义上是否相互对应,需要语义对应度的某一量度。作为实例,量化两个色度c1与c2之间的语义对应度的相似函数可被定义为sim(c1,c2)=c1·c2/|c1||c2|。作为3元素色度向量c1=<1,0,1>和c2=<1,1,0>(其中向量值是0或1以简化实例)的简化实例,相似评分是sim(c1,c2)=<1,0,1>·<1,1,0>/|<1,0,1>||<1,1,0>|=(1*1+0*1+1*0)/[(12+02+12)*(12+12+02)]=1/[2*2]=1/4。
然而,可难以解译特定相似函数所产生的对应评分的含义。在上文的实例中,评分1/4不固有地传达该评分是否是“良好”评分,即,与原本通常在随机选择的色度对内发生的色度向量相似所导致的评分相比,该评分是否表示色度之间的有意义的语义对应度(以使得色度将可能对于人类收听者来说听起来一样)。额外经验知识对于知晓例如0.6是在具有真正有意义的语义对应的色度向量与仅具有偶然对应度的色度向量之间最有效地进行区别的适当截止评分值将是必要的。额外经验知识对于确定具有评分0.6的10个连续色度匹配是否表示比具有评分0.5的12个连续色度匹配强也将是必要的。在甚至单个色度对的对应评分也不能传达对应是否确实强的、例如上文所述的实例中,确定由许多色度构成的整个子序列的有意义的对应评分更困难。
图3是图示根据一个实施例的图1的音频分析模块105的详细视图的高阶框图。使用关于子序列之间的确实的语义对应的已知信息并通过比较这些语义对应与随机选择的子序列中所固有的较弱对应,音频分析模块105导出适用于色度对的对应函数(下文称为match()函数)。在直观上,所导出的对应函数match(),针对使用某初始对应函数(例如,上文所述的实例函数sim(c1,c2))而获得的第一色度对应评分,而表示相比色度c1和c2仅在其色度向量中具有偶然相似,该评分更可能指示色度c1和c2在语义上对应的程度。因此,所导出的对应函数match()所产生的语义对应评分传达固有含义,而不求助于关于评分的含义的额外经验知识。
音频分析模块105包括表示音频分析模块导出的函数305的集合的数据。所述函数包含概率密度函数PM,其中概率密度函数PM将色度对的给定初始对应函数(例如,sim(c1,c2))的输出映射到其指示两个色度的有意义的对应的概率。所述函数还包含概率密度函数PR,其中概率密度函数PR将给定初始对应函数的输出映射到其指示随机地选择的/具有随机对应而不是具有确实的语义对应的一对色度的概率。所述函数还包含所导出的对应函数match(),其中所导出的对应函数match()继而是PM的PR的函数。在一个实施例中,match()函数被定义为match(c1,c2)=log(PM/PR)。
音频分析模块105包括输入集合形成模块310,其中输入集合形成模块310建立充当对函数导出模块340的输入的音频序列的集合,其中函数导出模块340导出函数305。具体来说,输入集合形成模块310识别含有已被确定为具有语义对应的音频序列的第一集合SM。如果一对音频序列中的两个序列已被确定为具有类似音频性质(在直观上,听起来一样),那么所述一对音频序列被称为具有语义对应。在一个实施例中,音频序列具有类似音频性质的确定是手动地进行,例如,通过人类专家收听不同音频序列(例如,歌曲)并确定它们听起来一样。
输入集合形成模块310还形成含有输入集合形成模块从音频存储库101随机地选择的音频序列的集合SR。因此,不同于集合SM内的序列,集合SR内的序列尚未被确定为在语义上对应,并且可能不在语义上对应。
音频分析模块105还包括对评分模块320,其中对评分模块320针对任何两个音频序列而产生第一序列与第二序列之间的各种可能色度对的评分。评分由所导出的对应函数match()的当前状态产生,其中所导出的对应函数match()继而是PM的PR的函数。例如,图4图示对评分模块320针对图2A和图2B的两个实例序列(即,SequenceA 201和SequenceB 202)而产生的评分的实例集合,其中图2A和图2B的两个实例序列都具有8色度。因此,对评分模块320产生可如图4的栅格所图示而可视化的8*8=64个评分的集合,其中元素Hi,j表示match(ci,cj)所输出的评分,ci是SequenceA 401中的第i色度向量,并且cj是SequenceB 402中的第j色度向量。
音频分析模块105还包括子序列识别模块330,其中子序列识别模块330将对评分模块320针对一对色度而产生的对评分的集合作为输入。基于对评分,子序列识别模块330基于子序列的构成色度的语义对应度而识别最强地具有语义对应的子序列。例如,给定图4所图示的对评分的样本集合,子序列识别模块330可基于对应match()评分H1,3、H2,4和H3,5的总和相对高于其它子序列的match()评分的总和而将子序列A1到A3和B3到B5识别为具有语义对应。
在一个实施例中,子序列识别模块330使用具有仿射空位罚分(affine gappenalty)的动态编程算法以在全部序列中识别具有最大match()评分总和的连续色度的集合。
音频分析模块105还包括函数导出模块340,其中函数导出模块340从输入集合形成模块310所产生的输入集合导出函数PM、PR和match()。函数导出模块340基于集合SR的值而在单个迭代中导出函数PR。即,初始对应函数(例如,sim())的评分是针对来自SR的不同对的随机选择的音频序列而计算。所述评分接着拟合到概率分布(例如,例如β概率分布),其中该概率分布接着用作函数PR。
函数导出模块340在多个迭代上导出函数PM和match()。在第一迭代中,PM被设定为粗略初始近似,其中粗略初始近似随后在稍后迭代中得到改进。例如,在一个实施例中,PM被初始化为PM(x)=2–2x,其中x是初始色度对应函数(例如,如上所述,sim(c1,c2))所输出的值,但应了解,可同样使用许多其它初始函数。所导出的对应函数(match())的输出可接着依据PM的当前值和PR而得以计算。
在每一迭代中,函数导出模块340使用PR的值与PM的当前值以及match(),以进一步改进PM和match()函数。例如,函数导出模块340通过使用对评分模块320而导出PM的新值,以产生输入集合SM中的已知的语义上对应的子序列对的对评分。函数导出模块340还使用子序列识别模块330以识别具有最大match()评分总和的色度的子序列。函数导出模块340将来自初始对应函数的评分(例如,如上所述,sim()函数)拟合到概率分布,其中所述概率分布充当PM的新值。
在一个实施例中,概率分布是β分布,如图5A所图示,但其它分布也是可能的。具体来说,图5A图示特定相似函数(即,如上文所定义的sim(c1,c2)=c1·c2/|c1||c2|)的样本PM和PR函数,如β分布概率密度函数所建模。实线所表示的PM函数针对约0.93的sim()评分而达到峰值,从而指示具有语义对应的一对色度将最可能产生0.93的sim()评分。PM针对低于0.7(举例来说)的sim()评分而产生的相对低的值指示具有语义对应的一对色度将产生低于0.7的sim()评分是根本不可能的。类似地,PR函数针对约0.79的sim()评分而达到峰值,从而意味典型的随机选择的一对色度将产生约0.79的sim()评分。
在一个实施例中,所导出的对应函数match()被定义为match(c1,c2)=log(PM/PR)。图5B图示对应于图5A的样本PM和PR概率密度函数的样本match()函数的曲线图。
由于对数的性质,log(PM/PR)=log PM-log PR。因此,0的match()评分指示log PM(sim(c1,c2))=log PR(sim(c1,c2)),即PM(sim(c1,c2))=PR(sim(c1,c2)),从而意味着与色度c1和c2仅具有随机选择的色度特有的对应度的情况相比,色度c1和c2不会更具有语义对应。图5B的样本match()函数针对约0.83(PM和PR曲线图在图5A中交叉之处的值)的输入具有值0。
此外,由于logΠPi=Σlog Pi(即,一起发生的事件Pi的概率的对数等于个别发生的事件的概率的对数的总和)的对数性质,来自色度对的连续范围的所导出的对应函数match()的评分的总和等于该范围上的匹配的组合概率的对数。因此,该范围的评分X(即,在该范围的所有对<ci,cj>上评估的评分Σlog(PM(sim(ci,cj))/PR(sim(ci,cj)))在一对语义上对应的序列中发生的可能性是在随机选择的一对序列中的eX倍。因为match()评分甚至不取决于匹配范围中的色度对的数量,所以不同长度的子序列的无偏比较是可能的。例如,与具有弱匹配的长子序列一样同样不可能偶然发生的具有强匹配的短子序列将被指派相同累加match()评分。
因此,因为色度对的连续范围的匹配评分不取决于长度,并且因为因此不同长度的子序列的匹配可被有意义地比较,所以单个范围的匹配评分可被确定且应用到任何长度的范围,从而构成截止评分,其中小于截止评分的评分被视为指示非匹配,并且大于或等于截止评分的评分被视为指示匹配。在无法有意义地比较不同长度的子序列的匹配评分的其它系统中,难以选择产生良好精确率与良好查全率(recall)两者的截止评分。例如,对于实际上长度10的子序列的色度对的平均匹配评分5约等于长度20的子序列上的平均匹配评分3的系统来说,平均评分5的截止或平均评分3的截止都不会良好适用于长度10的子序列与长度20的子序列两者。例如,选择产生良好精确率(即,减少假阳性)的高截止评分(例如,在上述实例中,5)倾向于过度保守,并且导致低劣查全率(即,不能识别许多良好匹配);相反选择产生良好查全率(即,识别多数良好匹配)的低截止评分(即,在上述实例中,3)倾向于过度激进并且产生低劣精确率(即,将许多低劣匹配识别为良好匹配)。相比于这些其它系统,因为上文所述的match()评分值跨越不同长度的子序列保持一致,所以总的来说良好适用于子序列的单个截止可被选择,而不论子序列长度,并且因此可产生良好精确率而不牺牲查全率,反之亦然。因此,截止match()评分可被选择——手动地且根据经验,或基于具有已知良好和低劣匹配的子序列的训练集合而以编程方式——以识别任意长度的子序列的“良好”匹配,并且截止评分将关于精确率与查全率两者而产生有利的结果。
应注意,函数match()所产生的评分在以下意义上独立于所使用的特定初始对应函数(例如,上文的sim()):评分具有上文所论述的性质,而不论所使用的初始对应函数如何。例如,不论所使用的初始对应函数如何,一对色度的match()评分0指示相比该对色度被随机选择的情况,该对不会更具有语义对应。
音频分析模块105视情况包含近似产生模块350,其中近似产生模块350产生近似函数match()并可较有效地计算的函数。例如,在一个实施例中,近似产生模块350计算形式为(anxn+an-1xn-1+…+a1x+a0)/(bmxm+bm-1xm-1+…+b1x+b0)的有理内插函数,其中系数ai和bj是定义有理内插函数的所计算的参数。假设分子和分母由多项式函数定义,那么分子和分母可被有效地计算。
音频分析模块105视情况包含音频对应识别模块360,其中音频对应识别模块360识别音频序列之间的语义对应。具体来说,给定第一音频序列和第二音频序列,对应识别模块360通过使用对评分模块320以使用函数导出模块340所确定的最终match()函数而产生两个音频序列的色度对之间的match()评分,来识别两个音频序列之间的最佳匹配子序列。给定match()函数所使用的评分,对应识别模块360进一步使用子序列识别模块330以识别最佳子匹配。对应识别模块360可接着基于所识别的子序列,例如,所识别的子序列的数量、所识别的子序列的累加match()评分(即,子序列中的色度对的match()评分的总和)或其某一组合,而确定两个音频序列作为整体是否具有语义对应。
整体识别音频序列的语义对应的能力允许进行各种音频匹配操作。作为来自一个实施例的一个实例,用户吹口哨或哼唱一首曲子,或以其它方式提供言语音频输入,并且音频对应识别模块360比较该曲子的音频序列与音频存储库101中的已知音频序列,从而将音频序列的最佳匹配作为整体向用户呈现,如上文所解释。例如,图8是根据一个实施例的图示响应于用户对用户的装置麦克风输入哼唱而发现的歌曲音频序列801到804的匹配集合并允许用户收听这些音频序列的实例用户界面。在变化中,用户例如通过上传含有音乐的片段的文件以与已知歌曲匹配而提供非言语音频输入。作为来自一个实施例的另一实例,系统使用音频对应识别模块360以比较给定音频序列与已知的版权所有的音频序列以识别可能的版权侵犯。例如,音频服务器100自身可针对已存在于音频存储库101中的版权所有的音频序列而检查提交给音频存储库101的新音频序列,从而如果发现具有相对于版权所有的音频序列的语义对应,那么标记新音频序列。作为来自一个实施例的又一实例,系统使用音频对应识别模块360以比较用户语音与已知语言模型以便执行语音识别。
图6是图示根据一个实施例的在计算PM和PR(以及取决于PM和PR的match()函数)时的音频分析模块105的操作的数据流程图。
在步骤610中,音频分析模块105例如如上文关于输入集合形成模块310所论述而建立输入集合SM和SR。音频分析模块105还基于集合SR来计算620函数PR,并且将函数PM初始化为函数2–2x,如上文所论述。
为了计算较佳函数PM,音频分析模块105基于所导出的对应函数match()(其继而基于PM和PR)的当前迭代的值而迭代地重新计算PM。这涉及识别630SM中match()函数指示具有最强语义对应的音频序列的子序列对。这可如上文关于子序列识别模块330所论述来实现。接着,例如如上文关于函数导出模块340所论述通过将所识别的子序列中的色度的初始对应函数(例如,sim())所产生的评分拟合到概率密度函数(例如,β分布函数)而更新PM函数。迭代继续直到PM函数稳定(即,如步骤650所评估的,先前迭代以来的PM函数的改变小于给定阈值)为止。所计算的PM和PR函数存储在分布存储库305中。
视情况,也可计算660相对于函数match()=log(PM/PR)的更具计算效率的近似,如上文关于近似产生模块350所描述。
在一个实施例中,集合SM和SR是针对音频存储库101的音频序列的不同数量的子集中的每一个而形成。例如,输入集合形成模块310可基于音频序列的已知音乐风格(例如,爵士音乐、新世纪音乐、凯尔特音乐、饶舌音乐、R&B音乐等)而识别歌曲音频序列的不同子集,从而形成每一个的集合SM和SR,并且还执行步骤610到660以产生适用于每一个的函数PM和PR(以及match())。适当子集的数据接着用于额外分析。例如,当试图识别语义上对应于给定歌曲的歌曲音频序列时,给定歌曲的风格用于识别对应子集,并且适用于该子集的函数PM和PR(以及match())用于识别匹配的子序列。具有风格特定数据(例如,SM、SR、PM、PR和match())允许例如更准确地确定已知处于给定风格内的项目之间的语义对应。
图7是图示根据一个实施例的用作图1的音频服务器100或客户端110的一部分或全部的计算机700的物理组件的高阶框图。图示耦接到芯片组704的至少一个处理器702。存储器706、存储装置708、键盘710、图形适配器712、指向装置714和网络适配器716也耦接到芯片组704。显示器718耦接到图形适配器712。在一个实施例中,芯片组704的功能性由存储器控制器集线器720和/或I/O控制器集线器722提供。在另一实施例中,存储器706直接耦接到处理器702而不是芯片组704。
存储装置708是任何非暂时性计算机可读存储介质,例如,硬盘、压缩光盘只读存储器(CD-ROM)、DVD或固态存储器装置。存储器706保持处理器702所使用的指令和数据。指向装置714可以是鼠标、轨迹球或其它类型的指向装置,并且结合键盘710而使用以将数据输入到计算机700中。图形适配器712在显示器718上显示图像和其它信息。网络适配器716将计算机700耦接到局域网或广域网。
如此项技术中已知,计算机700可具有除图7所示的组件以外的不同的和/或其它的组件。此外,计算机700可缺少某些所图示的组件。在一个实施例中,充当服务器的计算机700可缺少键盘710、指向装置714、图形适配器712和/或显示器718。此外,存储装置708可处于计算机700本地和/或远离计算机700(例如,体现在存储区域网络(SAN)内)。
如此项技术中已知,计算机700适用于执行用于提供本文所述的功能性的计算机程序模块。如本文所使用,术语“模块”是指用于提供指定功能性的计算机程序逻辑。因此,模块可实施在硬件、固件和/或软件中。在一个实施例中,程序模块存储在存储装置708上,加载到存储器706中并由处理器702执行。
其它事项
已关于一个可能实施例特别详细地描述本发明。本领域的技术人员应了解,本发明可实践在其它实施例中。首先,组件和变量的特定命名、术语的大写、属性、数据结构或任何其它编程或结构方面不是强制性的或重要的,并且实施本发明或其特征的机制可具有不同名称、格式或协议。并且,本文所述的各种系统组件之间的功能性的特定划分仅是出于实例的目的,并且不是强制性的;单个系统组件所执行的功能可改为由多个组件执行,并且多个组件所执行的功能可改为由单个组件执行。
上文描述的一些部分在关于信息的操作的算法和符号表示方面呈现本发明的特征。这些算法描述和表示是数据处理领域的技术人员所使用以最大有效地将其工作的实质传达给本领域的技术人员的方式。这些操作虽然是在功能或逻辑上描述,但被理解为由计算机程序实施。此外,已被证实时常方便的是,将操作的这些布置称为模块或功能名称,而不损失通用性。
除非另外具体陈述为从上文的论述清楚,否则应了解,在本说明书全文中,利用例如“确定”或“显示”等术语进行的论述表示计算机系统或类似电子计算装置的动作或过程,该计算机系统或类似电子计算装置在计算机系统存储器或寄存器或其它此种信息存储、传输或显示装置内的操作和变换被表示为物理(电子)量的数据。
本发明的某些方面包含本文所述的呈算法的形式的过程步骤和指令。应注意,本发明的过程步骤和指令可体现在软件、固件或硬件中,并且当体现在软件中时,可被下载以常驻在实时网络操作系统所使用的不同平台上并从所述不同平台操作。
本发明还涉及用于执行本文中的操作的设备。此设备可针对所需用途来专门构造,或可包括可由计算机存取的计算机可读介质上所存储的计算机程序选择性激活或重新配置的通用计算机。此计算机程序可存储在非暂时性计算机可读存储介质中,例如,但不限于任何类型的盘片(包含软盘、光盘、CD-ROM和磁光盘)、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡、专用集成电路(ASIC)或适用于存储电子指令并各自耦接到计算机系统总线的任何类型的计算机可读存储介质。此外,本说明书中所引用的计算机可包含单个处理器或可以是使用多个处理器设计以提高计算能力的架构。
本文所呈现的算法和操作不是固有地与任何特定计算机或其它设备相关。各种通用系统也可根据本文中的教示与程序一起使用,或可被证实方便的是,构造较专业化的设备以执行所需的方法步骤。各种这些系统的所需结构与等同变化对于本领域的技术人员来说将是清楚的。此外,不参考任何特定编程语言来描述本发明。应了解,各种编程语言可用于实施如本文所述的本发明的教示,并且对特定语言的任何引用被提供以用于发明本发明的实现和最佳模式。
本发明良好适用于许多拓扑的广泛各种计算机网络系统。在此领域内,大型网络的配置和管理包括在例如因特网等网络上通信地耦接到不同计算机和存储装置的存储装置和计算机。
最终,应注意,本说明书中所使用的语言已主要出于可读性和指导的目的来选择,并且可并不是为了描绘或限制本发明主题来选择。因此,本发明的公开内容希望说明而不是限制本发明的范围。
Claims (9)
1.一种用于匹配音频序列的计算机实施的方法,所述方法包括:
导出第一概率密度函数PM,所述第一概率密度函数PM输出音频序列的一对色度向量的初始对应评分指示所述色度向量之间的语义对应的概率;
导出第二概率密度函数PR,所述第二概率密度函数PR输出音频序列的一对色度向量的所述初始对应评分指示所述色度向量具有随机对应的概率;
使用PM和PR导出匹配函数,所述匹配函数指示音频序列的给定的一对色度向量是否在语义上对应,其中导出所述匹配函数包括:将所述匹配函数导出为PM与PR的比的对数;
获得第一音频序列;
使用所述匹配函数来比较所述第一音频序列与多个已知音频序列;以及
基于所述比较而从所述已知音频序列识别所述第一音频序列的最佳匹配音频序列。
2.根据权利要求1所述的计算机实施的方法,其中,所述匹配函数针对所述给定的一对色度向量的初始对应评分,输出相比所述给定的一对色度向量具有随机对应,所述给定的一对色度向量更可能在语义上对应的程度的指示。
3.根据权利要求1所述的计算机实施的方法,其中,导出PR包括:
随机地选择音频序列对的集合;
导出所述音频序列对的集合的初始对应评分;以及
将所述初始对应评分拟合到概率分布。
4.根据权利要求1所述的计算机实施的方法,其中,导出所述匹配函数包括:
从已确定为具有语义对应的音频序列识别音频序列对的集合SM;
从SM识别多对色度向量,从来自SM的一对音频序列中的第一音频序列识别所述多对色度向量中的第一色度向量以及从来自SM的所述一对音频序列中的第二音频序列识别所述多对色度向量中的第二色度向量;以及
通过以下方式来迭代地改进所述匹配函数:
基于所述函数PM和PR来更新所述匹配函数;
使用所述匹配函数来对所识别的多对色度向量评分;
基于所述评分识别色度向量的子序列的最佳匹配对;以及
通过针对所述子序列的最佳匹配对中的色度向量对,将初始对应评分映射到概率分布函数而更新所述函数PM。
5.根据权利要求4所述的计算机实施的方法,其中,识别所述最佳匹配对包括使用动态编程以在SM的音频序列中识别连续色度向量的子序列对,所述子序列对内的色度向量对具有所述匹配函数的最高评分总和。
6.根据权利要求1所述的计算机实施的方法,其中,针对一对色度向量的、来自所述匹配函数的输出0指示相比所述色度向量仅具有随机选择的色度所特有的对应度的情况,所述色度向量不会更具有语义对应。
7.根据权利要求1所述的计算机实施的方法,其中,所述第一音频序列是从用户接收的言语输入,并且所述最佳匹配音频序列是歌曲。
8.一种非暂时性计算机可读存储介质,所述计算机可读介质存储处理器可执行指令,所述处理器可执行指令在被执行时使处理器执行根据权利要求1至7中任一项所述的方法。
9.一种用于匹配音频序列的计算机系统,所述系统包括:
计算机处理器;以及
存储处理器可执行指令的非暂时性计算机可读存储介质,所述处理器可执行指令在被执行时使所述计算机处理器执行根据权利要求1至7中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462018635P | 2014-06-29 | 2014-06-29 | |
US62/018,635 | 2014-06-29 | ||
PCT/US2015/038352 WO2016003920A1 (en) | 2014-06-29 | 2015-06-29 | Derivation of probabilistic score for audio sequence alignment |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106663110A CN106663110A (zh) | 2017-05-10 |
CN106663110B true CN106663110B (zh) | 2020-09-15 |
Family
ID=54931206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580035264.3A Active CN106663110B (zh) | 2014-06-29 | 2015-06-29 | 音频序列对准的概率评分的导出 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9384758B2 (zh) |
EP (1) | EP3161689B1 (zh) |
CN (1) | CN106663110B (zh) |
WO (1) | WO2016003920A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110767201B (zh) * | 2018-07-26 | 2023-09-05 | Tcl科技集团股份有限公司 | 一种配乐生成方法、存储介质及终端设备 |
CN110277106B (zh) * | 2019-06-21 | 2021-10-22 | 北京达佳互联信息技术有限公司 | 音频质量确定方法、装置、设备及存储介质 |
CN111462775B (zh) * | 2020-03-30 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 音频相似度确定方法、装置、服务器及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1553597A (zh) * | 2003-05-26 | 2004-12-08 | 华为技术有限公司 | 一种音频同步对齐测试方法 |
CN103412886A (zh) * | 2013-07-18 | 2013-11-27 | 北京航空航天大学 | 一种基于音高序列的音乐旋律匹配方法 |
WO2014096832A1 (en) * | 2012-12-19 | 2014-06-26 | Michela Magas | Audio analysis system and method using audio segment characterisation |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7010483B2 (en) * | 2000-06-02 | 2006-03-07 | Canon Kabushiki Kaisha | Speech processing system |
US8595010B2 (en) * | 2009-02-05 | 2013-11-26 | Seiko Epson Corporation | Program for creating hidden Markov model, information storage medium, system for creating hidden Markov model, speech recognition system, and method of speech recognition |
US8889976B2 (en) * | 2009-08-14 | 2014-11-18 | Honda Motor Co., Ltd. | Musical score position estimating device, musical score position estimating method, and musical score position estimating robot |
WO2011087648A1 (en) * | 2009-12-22 | 2011-07-21 | Dolby Laboratories Licensing Corporation | Method to dynamically design and configure multimedia fingerprint databases |
US8158870B2 (en) * | 2010-06-29 | 2012-04-17 | Google Inc. | Intervalgram representation of audio for melody recognition |
TWI412019B (zh) * | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | 聲音事件偵測模組及其方法 |
-
2015
- 2015-06-29 EP EP15815381.7A patent/EP3161689B1/en active Active
- 2015-06-29 US US14/754,539 patent/US9384758B2/en active Active
- 2015-06-29 WO PCT/US2015/038352 patent/WO2016003920A1/en active Application Filing
- 2015-06-29 CN CN201580035264.3A patent/CN106663110B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1553597A (zh) * | 2003-05-26 | 2004-12-08 | 华为技术有限公司 | 一种音频同步对齐测试方法 |
WO2014096832A1 (en) * | 2012-12-19 | 2014-06-26 | Michela Magas | Audio analysis system and method using audio segment characterisation |
CN103412886A (zh) * | 2013-07-18 | 2013-11-27 | 北京航空航天大学 | 一种基于音高序列的音乐旋律匹配方法 |
Non-Patent Citations (2)
Title |
---|
"AUDIO MATCHING VIA CHROMA-BASED STATISTICAL FEATURES";Meinard Muller 等;《PROCEEDINGS ANNUAL INTERNATIONAL SYMPOSIUM ON MUSIC INFORMATION RETRIEVAL》;20050915;第288-295页摘要,第3-5节 * |
"Automatic Event-Based Synchronization of Multimodal Data Streams from Wearable and Ambient Sensors";David Bannach 等;《EuroSSC 2009, LNCS 5741》;20090916;第135-148页 * |
Also Published As
Publication number | Publication date |
---|---|
EP3161689A4 (en) | 2018-03-07 |
CN106663110A (zh) | 2017-05-10 |
US9384758B2 (en) | 2016-07-05 |
WO2016003920A1 (en) | 2016-01-07 |
EP3161689A1 (en) | 2017-05-03 |
EP3161689B1 (en) | 2019-12-25 |
US20150380004A1 (en) | 2015-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107767869B (zh) | 用于提供语音服务的方法和装置 | |
US8170702B2 (en) | Method for classifying audio data | |
US9313593B2 (en) | Ranking representative segments in media data | |
EP2791935B1 (en) | Low complexity repetition detection in media data | |
US20230008776A1 (en) | Automated cover song identification | |
US20170054779A1 (en) | Media Feature Determination for Internet-based Media Streaming | |
CN110377782B (zh) | 音频检索方法、装置和存储介质 | |
WO2016102737A1 (en) | Tagging audio data | |
US20090013004A1 (en) | System and Method for the Characterization, Selection and Recommendation of Digital Music and Media Content | |
US11907288B2 (en) | Audio identification based on data structure | |
CN107851442B (zh) | 匹配装置、判定装置、它们的方法、程序及记录介质 | |
CN106663110B (zh) | 音频序列对准的概率评分的导出 | |
US20220238087A1 (en) | Methods and systems for determining compact semantic representations of digital audio signals | |
WO2016102738A1 (en) | Similarity determination and selection of music | |
US20180173400A1 (en) | Media Content Selection | |
Nam et al. | Intelligent query by humming system based on score level fusion of multiple classifiers | |
Yao et al. | An efficient cascaded filtering retrieval method for big audio data | |
Krey et al. | Music and timbre segmentation by recursive constrained K-means clustering | |
CN113223485A (zh) | 节拍检测模型的训练方法、节拍检测方法及装置 | |
CN115329125A (zh) | 一种歌曲串烧拼接方法和装置 | |
Ramoneda et al. | Revisiting harmonic change detection | |
KR101233296B1 (ko) | 가중치 합을 이용한 거리 함수 생성 방법 및 시스템 | |
US20200293630A1 (en) | Ensemble-based data comparison | |
KR20220012749A (ko) | 빅데이터 기반의 악기 소리 측정 방법 및 장치 | |
CN114783456A (zh) | 歌曲主旋律提取方法、歌曲处理方法、计算机设备和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |