CN102956237B - 测量内容一致性的方法和设备 - Google Patents

测量内容一致性的方法和设备 Download PDF

Info

Publication number
CN102956237B
CN102956237B CN201110243107.5A CN201110243107A CN102956237B CN 102956237 B CN102956237 B CN 102956237B CN 201110243107 A CN201110243107 A CN 201110243107A CN 102956237 B CN102956237 B CN 102956237B
Authority
CN
China
Prior art keywords
audio
frequency unit
parsing
content
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110243107.5A
Other languages
English (en)
Other versions
CN102956237A (zh
Inventor
芦烈
胡明清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201110243107.5A priority Critical patent/CN102956237B/zh
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Priority to CN201510836761.5A priority patent/CN105355214A/zh
Priority to JP2014526069A priority patent/JP5770376B2/ja
Priority to US14/237,395 priority patent/US9218821B2/en
Priority to EP12753860.1A priority patent/EP2745294A2/en
Priority to PCT/US2012/049876 priority patent/WO2013028351A2/en
Publication of CN102956237A publication Critical patent/CN102956237A/zh
Priority to JP2015126369A priority patent/JP6113228B2/ja
Priority to US14/952,820 priority patent/US9460736B2/en
Application granted granted Critical
Publication of CN102956237B publication Critical patent/CN102956237B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

描述了测量内容一致性的方法和设备。测量第一音频部分与第二音频部分之间的内容一致性。针对第一音频部分中的每个音频分段,确定第二音频部分中预定数目的音频分段。第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于该音频分段与第二音频部分中的所有其它音频分段之间的内容相似度。计算第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值。将内容一致性计算为,针对第一音频部分中的各音频分段而计算的各平均值的平均值、最大值或最小值。可以基于狄里克雷分布计算内容相似度。

Description

测量内容一致性的方法和设备
技术领域
本发明一般涉及音频信号处理。更具体地,本发明的实施例涉及用于测量音频部分之间的内容一致性的方法和设备,以及用于测量音频分段之间的内容相似度的方法和设备。
背景技术
内容一致性度量用于测量音频信号内或音频信号间的内容一致性。该度量涉及计算两个音频分段之间的内容一致性(content coherence)(内容相似度(contentsimilarity)或内容一致性(content consistence)),并用作判断这些分段是否属于相同的语义聚类或这两个分段之间是否存在真实的边界的基础。
已经提出了测量两个长窗口之间的内容一致性的方法。根据这种方法,将每个长窗口划分为多个短音频分段(音频元素),并且基于交叠相似度链接的整体思路,通过计算从左窗口和右窗口获得的所有分段对之间的语义相似性而获得内容一致性度量。可通过测量音频分段之间的内容相似度或通过其对应的音频元素类来计算语义相似性(例如,参见L.Lu及A.Hanjalic.“Text-Like Segmentation of General Audio for Content-BasedRetrieval,”IEEE Trans.on Multimedia,vol.11,no.4,658-669,2009,其通过引用合并于此以用于全部目的)。
可以基于两个音频分段之间的特征比较来计算内容相似度。已经提出了诸如K-L散度(Kullback-Leibler divergence,KLD)的各种度量,以测量两个音频分段之间的内容相似度。
这一部分描述的方案是可能请求保护的方案,而不一定是先前已构思或已请求保护的方案。因此,除非另行表明,否则不应只是由于这些方案被包括在这一部分中就假定这一部分中描述的任何方案只能作为现有技术。类似地,除非另行表明,否则不应基于这一部分而假定任何现有技术中已经意识到相对于一个或多个方案而确定的问题。
发明内容
根据本发明一个实施例,提供一种测量第一音频部分与第二音频部分之间的内容一致性的方法。针对第一音频部分中的每个音频分段,确定第二音频部分中预定数目的音频分段。第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于第一音频部分中的该音频分段与第二音频部分中的所有其它音频分段之间的内容相似度。计算第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值。将第一内容一致性计算为,针对第一音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值。
根据本发明一个实施例,提供一种用于测量第一音频部分与第二音频部分之间的内容一致性的设备。设备包含相似度计算器和一致性计算器。针对第一音频部分中的每个音频分段,相似度计算器确定第二音频部分中预定数目的音频分段。第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于第一音频部分中的该音频分段与第二音频部分中的所有其它音频分段之间的内容相似度。相似度计算器也计算第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值。一致性计算器将第一内容一致性计算为,针对第一音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值。
根据本发明一个实施例,提供一种测量两个音频分段之间的内容相似度的方法。从所述音频分段中提取第一特征向量。第一特征向量中的每一个中的所有特征值都是非负的并被归一化,使得特征值的和为1。根据特征向量,基于狄里克雷分布生成用于计算内容相似度的统计模型。基于所生成的统计模型计算内容相似度。
根据本发明一个实施例,提供一种用于测量两个音频分段之间的内容相似度的设备。设备包含特征生成器、模型生成器和相似度计算器。特征生成器从音频分段中提取第一特征向量。第一特征向量中的每一个中的所有特征值都是非负的并被归一化,使得特征值的和为1。模型生成器根据特征向量,基于狄里克雷分布生成用于计算内容相似度的统计模型。相似度计算器基于所生成的统计模型计算内容相似度。
下面参考附图描述本发明的进一步特征及优点以及本发明各个实施例的结构及操作。应注意,本发明不限于在此描述的具体实施例。在此呈现这些实施例仅用于说明性目的。基于这里包含的教导,对本领域技术人员而言,另外的实施例将是明显的。
附图说明
在附图的各图中通过示例来图解本发明,但这些示例不对本发明产生限制,附图中类似的附图标记表示类似的元件,其中:
图1是图示根据本发明实施例的用于测量内容一致性的示例设备的框图;
图2是用于图示第一音频部分中的音频分段与第二音频部分中的音频分段的子集之间的内容相似度的示意图;
图3是图示根据本发明实施例的测量内容一致性的示例方法的流程图;
图4是图示根据图3方法的进一步实施例的测量内容一致性的示例方法的流程图;
图5是图示根据本发明实施例的相似度计算器的示例的框图;
图6是用于图示通过采用统计模型来计算内容相似度的示例方法的流程图;
图7是图示用于实施本发明的各实施例的示例性系统的框图。
具体实施方式
下面参考附图描述本发明实施例。应注意,为清楚起见,在附图和描述中省略了关于本领域技术人员已知但是对理解本发明而言并非必需的组件和过程的陈述和描述。
本领域的技术人员可以理解,本发明的各方面可以被实施为系统(例如在线数字媒体商店、云计算服务、流媒体服务、电信网络等)、装置(例如蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒、或数字录像机、或任意其它媒体播放器)、方法或计算机程序产品。因此,本发明的各方面可以采取以下形式:完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合软件部分与硬件部分的实施例,本文可以一般地称之为“电路”、“模块”或“系统”。此外,本发明的各方面可以采取体现为一个或多个计算机可读介质的计算机程序产品的形式,该计算机可读介质上体现有计算机可读程序代码。
可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是(但不限于)电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。
计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的、其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式,包括但不限于电磁的、光的或其任何适当的组合。
计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。
体现在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。
用于执行本发明各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言,诸如“C”程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。
以下参照按照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中,使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。
也可以把计算机程序指令加载到计算机、其它可编程数据处理设备或其它装置上,导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
图1是图示根据本发明实施例的用于测量内容一致性的示例设备100的框图。
如图1所示,设备100包括相似度计算器101和一致性计算器102。
诸如对话或会议中的说话人改变检测及聚类、音乐电台中的歌曲分割、歌曲中的副歌边界细化、复合音频信号中的音频场景检测以及音频检索的各种音频信号处理应用可能涉及测量音频信号之间的内容一致性。例如,在音乐电台中的歌曲分割的应用中,音频信号被分割为多个部分,每个部分包含一致的内容。再例如,在对话或会议中的说话人改变检测及聚类的应用中,与相同说话人相关联的音频部分被分组为一个聚类,每个聚类包含一致的内容。可以测量音频部分中的各分段之间的内容一致性,以判断音频部分是否含有一致的内容。可以测量各音频部分之间的内容一致性,以判断这些音频部分中的内容是否一致。
在本说明书中,术语“分段”和“部分”均指代音频信号的连续部分。在一个较大部分被分为多个较小部分的语境中,术语“部分”指代那个较大部分,而术语“分段”指代那些较小部分中的一个。
可以由两个分段(部分)之间的距离值或相似度值来表示内容一致性。较大的距离值或较小的相似度值表明较低的内容一致性,而较小的距离值或较大的相似度值表明较高的内容一致性。
可以根据设备100测量的内容一致性来对音频信号进行预定处理。该预定处理取决于应用。
音频部分的长度可以取决于要分割或分组的对象内容的语义等级。较高的语义等级可能要求较大长度的音频部分。例如,在关注音频场景(例如歌曲、天气预报和动作场景)的情况下,语义等级高,且测量较长的音频部分之间的内容一致性。较低的语义等级可能要求较小长度的音频部分。例如,在基本音频形态(例如话音、音乐和噪声)之间的边界检测和说话人改变检测的应用中,语义等级低,且测量较短的音频部分之间的内容一致性。在音频部分包括音频分段的示例情况下,音频部分之间的内容一致性涉及较高的语义等级,而音频分段之间的内容一致性涉及较低的语义等级。
针对第一音频部分中的每个音频分段si,l,相似度计算器101确定第二音频部分中数目K,K>0的音频分段sj,r。可以预先确定或动态确定数目K。所确定的音频分段形成第二音频部分中的音频分段sj,r的子集KNN(si,l)。音频分段si,l与KNN(si,l)中的音频分段sj,r之间的内容相似度高于音频分段si,l与第二音频部分中除KNN(si,l)中的音频分段以外的所有其它音频分段之间的内容相似度。换言之,假使第二音频部分中的音频分段以它们与音频分段si,l之间的内容相似度的降序排序,则前K个音频分段形成集合KNN(si,l)。术语“内容相似度”与术语“内容一致性”具有类似含义。在部分包括分段的语境下,术语“内容相似度”指代分段之间的内容一致性,而术语“内容一致性”指代部分之间的内容一致性。
图2是用于图示第一音频部分中的音频分段si,l与第二音频部分中与音频分段si,l相对应的KNN(si,l)中的所确定的音频分段之间的内容相似度的示意图。在图2中,方框代表音频分段。尽管第一音频部分和第二音频部分被图示为彼此邻接,然而,取决于应用,第一音频部分和第二音频部分可以是分开的或位于不同的音频信号中。同样取决于应用,第一音频部分和第二音频部分可以具有相同长度或不同长度。如图2所示,针对第一音频部分中的一个音频分段si,l,可以计算音频分段si,l与第二音频部分中的音频分段sj,r,0<j<M+1之间的内容相似度S(si,l,sj,r),其中M是第二音频部分的以分段为单位的长度。根据计算出的内容相似度S(si,l,sj,r),0<j<M+1,确定前K个最大的内容相似度S(si,l,sj1,r)至S(si,l,sjK,r),0<j1,...,jK<M+1,并且确定音频分段sj1,r至sjK,r以形成集合KNN(si,l)。图2中的弧形箭头示出了音频分段si,l与KNN(si,l)中的所确定的音频分段sj1,r至sjK,r之间的对应。
针对第一音频部分中的每个音频分段si,l,相似度计算器101计算音频分段si,l与KNN(si,l)中的所确定的音频分段sj1,r至sjK,r之间的内容相似度S(si,l,sj1,r)至S(si,l,sjK,r)的平均值A(si,l)。平均值A(si,l)可以是加权平均值或非加权平均值。在加权平均值的情况下,可以将平均值A(si,l)计算为
A ( s i , l ) = Σ s j k , r ∈ K N N ( s i , l ) w j k S ( s i , l , s j k , r ) - - - ( 1 )
其中,wjk为加权系数,可以是1/K,或者可替选地,如果jk与i之间的距离较小,则wjk可以较大,而如果该距离较大,则wjk可以较小。
针对第一音频部分和第二音频部分,一致性计算器102将内容一致性Coh计算为各平均值A(si,l),0<i<N+1的平均值,其中N是第一音频部分的以分段为单位的长度。可以将内容一致性Coh计算为
C o h = Σ i = 1 N w i A ( s i , l ) - - - ( 2 )
其中,N为第一音频部分的以音频分段为单位的长度,wi为加权系数,它可以例如为1/N。也可以将内容一致性Coh计算为各平均值A(si,l)的最小值或最大值。
可以采用诸如海林格距离(Hellinger distance)、平方距离(Square distance)、K-L散度(Kullback-Leibler divergence)和贝叶斯信息准则差(Bayeisan InformationCriteria difference)的各种度量来计算内容相似度s(si,l,sj,r)。此外,可以将L.Lu及A.Hanjalic.“Text-Like Segmentation of General Audio for Content-BasedRetrieval,”IEEE Trans.on Multimedia,vol.11,no.4,658-669,2009中描述的语义相似性计算为内容相似度S(si,l,sj,r)。
可能存在两个音频部分内容相类似的各种情况。例如,在理想的情况下,第一音频部分中的任意音频分段与第二音频部分中的所有音频分段相类似。然而,在很多其它情况下,第一音频部分中的任意音频分段与第二音频部分中的一部分音频分段相类似。通过将内容一致性Coh计算为第一音频部分中的每一音频分段si,l与第二音频部分中的某些音频分段,即KNN(si,l)的音频分段sj,r之间的内容相似度的平均值,可识别所有这些内容相类似的情况。
在设备100的进一步实施例中,可以将第一音频部分中的音频分段si,l与KNN(si,l)的音频分段sj,r之间的每个内容相似度S(si,l,sj,r)计算为第一音频部分中的序列[si,l,...,si+L-1,l]与第二音频部分中的序列[sj,r,...,sj+L-1,r]之间的内容相似度,L>1。可以采用各种计算两个分段序列之间的内容相似度的方法。例如,可以将序列[si,l,...,si+L-1,l]与序列[sj,r,...,sj+L-1,r]之间的内容相似度S(si,l,sj,r)计算为
S ( s i , l , s j , r ) = Σ k = 0 L - 1 w k S ′ ( s i + k , l , s j + k , r ) - - - ( 3 )
其中,wk为加权系数,可以被设置为例如为1/(L-1)。
可以采用诸如海林格距离、平方距离、K-L散度和贝叶斯信息准则差的各种度量来计算内容相似度S’(si,l,sj,r)。此外,可以将L.Lu及A.Hanjalic.“Text-Like Segmentationof General Audio for Content-Based Retrieval,”IEEE Trans.on Multimedia,vol.11,no.4,658-669,2009中描述的语义相似性计算为内容相似度S’(si,l,sj,r)。
以此方式,通过将两个音频分段之间的内容相似度计算为分别始于这两个音频分段的两个音频分段序列之间的内容相似度,可以考虑到时间信息。结果,可以获得更准确的内容一致性。
此外,可以通过应用动态时间规整(dynamic time warping,DTW)方案或动态规划(dynamic programming,DP)方案来计算序列[si,l,...,si+L-1,l]与序列[sj,r,...,sj+L-1,r]之间的内容相似度S(si,l,sj,r)。DTW方案或DP方案是用于测量两个序列之间的内容相似度的算法,该算法可以在时间或速度上变化,其中,搜索最佳匹配路径,并基于最佳匹配路径计算最终的内容相似度。以此方式,可以考虑可能的节奏/速度改变。结果,可以获得更准确的内容一致性。
在一个应用DTW方案的示例中,针对第一音频部分中的给定序列[si,l,...,si+L-1,l],通过检查第二音频部分中所有始于音频分段sj,r的序列,可以在第二音频部分中确定最佳匹配的序列[sj,r,...,sj+L’-1,r]。然后,可以将序列[si,l,...,si+L-1,l]与序列[sj,r,...,sj+L’-1,r]之间的内容相似度S(si,l,sj,r)计算为
S(si,l,sj,r)=DTW([Si,l,...,si+L-1,l],[sj,r,...,sj+L’-1,r]) (4)
其中,DTW([],[])是也考虑到插入损耗和删除损耗的基于DTW的相似度得分。
在设备100的进一步实施例中,可以计算对称内容一致性。在这种情况下,针对第二音频部分中的每个音频分段sj,r,相似度计算器101确定第一音频部分中数目K的音频分段si,l。所确定的音频分段形成集合KNN(sj,r)。音频分段sj,r与KNN(sj,r)中的音频分段si,l之间的内容相似度高于音频分段sj,r与第一音频部分中除KNN(sj,r)中的音频分段以外的所有其它音频分段之间的内容相似度。
针对第二音频部分中的每个音频分段sj,r,相似度计算器101计算音频分段sj,r与KNN(sj,r)中的所确定的音频分段si1,l至siK,l之间的内容相似度S(sj,r,si1,l)至S(sj,r,siK,l)的平均值A(sj,r)。平均值A(sj,r)可以是加权平均值或非加权平均值。
针对第一音频部分和第二音频部分,一致性计算器102将内容一致性Coh’计算为各平均值A(sj,r),0<j<N+1的平均值,其中N是第二音频部分的以分段为单位的长度。可以将内容一致性Coh’计算为各平均值A(sj,r)的最小值或最大值。此外,一致性计算器102基于内容一致性Coh和内容一致性Coh’计算最终的对称内容一致性。
图3是图示根据本发明实施例的测量内容一致性的示例方法300的流程图。
在方法300中,根据测量出的内容一致性来对音频信号进行预定处理。该预定处理取决于应用。音频部分的长度可以取决于要分割或分组的对象内容的语义等级。
如图3所示,方法300始于步骤301。在步骤303,针对第一音频部分中的一个音频分段si,l,确定第二音频部分中数目K,K>0的音频分段sj,r。可以预先确定或动态确定数目K。所确定的音频分段形成集合KNN(si,l)。音频分段si,l与KNN(si,l)中的音频分段sj,r之间的内容相似度高于音频分段si,l与第二音频部分中除KNN(si,l)中的音频分段以外的所有其它音频分段之间的内容相似度。
在步骤305,针对音频分段si,l,计算音频分段si,l与KNN(si,l)中的所确定的音频分段sj1,r至sjK,r之间的内容相似度S(si,l,sj1,r)至S(si,l,sjK,r)的平均值A(si,l)。平均值A(si,l)可以是加权平均值或非加权平均值。
在步骤307,确定第一音频部分中是否还有另一未处理的音频分段sk,l。如果有,则方法300返回至步骤303以计算另一平均值A(sk,l)。如果没有,则方法300前进至步骤309。
在步骤309,针对第一音频部分和第二音频部分,将内容一致性Coh计算为各平均值A(sj,l),0<i<N+1的平均值,其中N是第一音频部分的以分段为单位的长度。也可以将内容一致性Coh计算为各平均值A(si,l)的最小值或最大值。
方法300在步骤311结束。
在方法300的进一步实施例中,可以将第一音频部分中的音频分段si,l与KNN(si,l)的音频分段sj,r之间的每个内容相似度S(si,l,sj,r)计算为第一音频部分中的序列[si,l,...,si+L-1,l]与第二音频部分中的序列[sj,r,...,sj+L-1,r]之间的内容相似度,L>1。
此外,可以通过应用动态时间规整(DTW)方案或动态规划(DP)方案来计算序列[si,l,...,si+L-1,l]与序列[sj,r,...,sj+L-1,r]之间的内容相似度S(si,l,sj,r)。在一个应用DTW方案的示例中,针对第一音频部分中的给定序列[si,l,...,si+L-1,l],通过检查第二音频部分中所有始于音频分段sj,r的序列,可以在第二音频部分中确定最佳匹配的序列[sj,r,...,sj+L’-1,r]。然后,可以通过公式(4)计算序列[si,l,...,si+L-1,l]与序列[sj,r,...,sj+L’-1,r]之间的内容相似度S(si,l,sj,r)。
图4是图示根据方法300的进一步实施例的测量内容一致性的示例方法400的流程图。
在方法400中,步骤401、403、405、409、411分别与步骤301、303、305、309、311具有相同的功能,将不在此对其进行详细描述。
在步骤409之后,方法400前进至步骤423。
在步骤423,针对第二音频部分中的一个音频分段sj,r,确定第一音频部分中数目K的音频分段si,l。所确定的音频分段形成集合KNN(sj,r)。音频分段sj,r与KNN(sj,r)中的音频分段si,l之间的内容相似度高于音频分段sj,r与第一音频部分中除KNN(sj,r)中的音频分段以外的所有其它音频分段之间的内容相似度。
在步骤425,针对音频分段sj,r,计算音频分段sj,r与KNN(sj,r)中的所确定的音频分段si1,l至siK,l之间的内容相似度S(sj,r,si1,l)至S(sj,r,siK,l)的平均值A(sj,r)。平均值A(sj,r)可以是加权平均值或非加权平均值。
在步骤427,确定第二音频部分中是否还有另一未处理的音频分段sk,r。如果有,则方法400返回至步骤423以计算另一平均值A(sk,r)。如果没有,则方法400前进至步骤429。
在步骤429,针对第一音频部分和第二音频部分,将内容一致性Coh’计算为各平均值A(sj,r),0<j<N+1的平均值,其中N是第二音频部分的以分段为单位的长度。可以将内容一致性Coh’计算为各平均值A(sj,r)的最小值或最大值。
在步骤431,基于内容一致性Coh和内容一致性Coh’计算最终的对称内容一致性。然后,方法400在步骤411结束。
图5是图示根据本发明实施例的相似度计算器501的示例的框图。
如图5所示,相似度计算器501包括特征生成器521、模型生成器522以及相似度计算单元523。
针对要计算的相似度,特征生成器521从相关联的音频分段中提取第一特征向量。
模型生成器522根据特征向量生成用于计算内容相似度的统计模型。
相似度计算单元523基于所生成的统计模型计算内容相似度。
在两个音频分段之间的内容相似度的计算中,可以采用各种度量,这些度量包括而不限于KLD、贝叶斯信息准则(Bayeisan Information Criteria,BIC)、海林格距离、平方距离、欧氏距离、余弦距离以及马氏距离(Mahalonobis distance)。度量的计算可涉及根据音频分段生成统计模型并计算这些统计模型之间的内容相似度。统计模型可以基于高斯分布。
也可从音频分段中提取特征向量,其中,相同特征向量中的所有特征值都是非负的并且这些特征值的和为1(称之为“单纯形特征向量”)。这种特征向量更加符合狄里克雷分布(Dirichlet distribution)而不是高斯分布。单纯形特征向量的示例包括而不限于子带特征向量(由所有子带相对于整个帧能量的能量比形成)以及色度特征,色度特征一般定义为12维向量,其中每个维度对应于一个半音类的强度。
在相似度计算器501的进一步实施例中,针对要计算的两个音频分段之间的相似度,特征生成器521从音频分段中提取单纯形特征向量。这些单纯形特征向量被提供给模型生成器522。
作为响应,模型生成器522根据这些单纯形特征向量,基于狄里克雷分布生成用于计算内容相似度的统计模型。这些统计模型被提供给相似度计算单元523。
特征向量x(阶数d≥2)的具有参数α1,...,αd的狄里克雷分布(Dir(α))可以表达为
D i r ( α ) = p ( x | α ) = Γ ( Σ k = 1 d α k ) Π k = 1 d Γ ( α k ) Π k = 1 d x k α k - 1 - - - ( 5 )
其中,Γ()为伽马函数,而特征向量x满足以下单纯形特性
x k ≥ 0 , Σ k = 1 d x k = 1 - - - ( 6 )
单纯形特性可以通过特征归一化(例如L1或L2归一化)来获得。
可以采用各种方法估计统计模型的参数。例如,可以通过最大似然(ML)法估计狄里克雷分布的参数。类似地,也可以将用于处理更复杂的特征分布的、本质为多个狄里克雷模型的混合的狄里克雷混合模型(DMM)估计为
D M M ( α ) = Σ m = 1 M ω m Γ ( Σ k = 1 d α m k ) Π k = 1 d Γ ( α m k ) Π k = 1 d x k α m k - 1 - - - ( 7 )
作为响应,相似度计算单元523基于所生成的统计模型计算内容相似度。
在相似度计算单元523的进一步实施例中,采用海林格距离计算内容相似度。在这种情况下,可以将分别生成于两个音频分段的两个狄里克雷分布Dir(α)与Dir(β)之间的海林格距离D(α,β)计算为
D ( α , β ) = ∫ ( p ( x | α ) - p ( x | β ) ) 2 d x = 2 - 2 ∫ p ( x | α ) p ( x | β ) d x
= 2 - 2 × [ Γ ( Σ k = 1 d α k ) Π k = 1 d Γ ( α k ) × Γ ( Σ k = 1 d β k ) Π k = 1 d Γ ( β k ) ] 1 2 × Π k = 1 d Γ ( α k + β k 2 ) Γ ( Π k = 1 d α k + β k 2 ) - - - ( 8 )
可替选地,采用平方距离计算内容相似度。在这种情况下,将分别生成于两个音频分段的两个狄里克雷分布Dir(α)与Dir(β)之间的平方距离Ds计算为
D s = ∫ ( p ( x | α ) - p ( x | β ) ) 2 d x = ∫ ( Γ ( Σ k = 1 d α k ) Π k = 1 d Γ ( α k ) Π k = 1 d x k α k - 1 - Γ ( Σ k = 1 d β k ) Π k = 1 d Γ ( β k ) Π k = 1 d x k β k - 1 ) 2 d x = T 1 2 Π k = 1 d Γ ( 2 α k - 1 ) Γ ( Π k = 1 d ( 2 α k - 1 ) ) - T 1 T 2 Π k = 1 d ( α k + β k - 1 ) Γ ( Π k = 1 d ( α k + β k - 1 ) ) + T 2 2 Π k = 1 d ( 2 β k - 1 ) Γ ( Π k = 1 d ( 2 β k - 1 ) ) - - - ( 9 )
其中, T 1 = Γ ( Σ k = 1 d α k ) Π k = 1 d Γ ( α k ) T 2 = Γ ( Σ k = 1 d β k ) Π k = 1 d Γ ( β k ) .
例如在采用诸如梅尔频率倒谱系数(Mel-frequency Cepstral Coefficient,MFCC)、谱通量(spectral flux)和亮度的特征的情况下,也可以提取不具有单纯形特性的特征向量。也可将这些非单纯形特征向量转换为单纯形特征向量。
在相似度计算器501的进一步示例中,特征生成器521可以从音频分段中提取非单纯形特征向量。针对各非单纯形特征向量中的每一个,特征生成器521可以计算用于测量非单纯形特征向量与各参考向量中的每一个之间的关系的量。参考向量也是非单纯形特征向量。假定存在M个参考向量zj,j=1,...,M,M等于特征生成器521要生成的单纯形特征向量的维数。用于测量一个非单纯形特征向量与一个参考向量之间的关系的量vj,是指非单纯形特征向量与参考向量之间相关的程度。可以利用通过相对于非单纯形特征向量观察参考向量而获得的各种特性来测量该关系。可以将与各非单纯形特征向量相对应的所有量归一化,形成单纯形特征向量v。
例如,该关系可以是以下之一:
1)非单纯形特征向量与参考向量之间的距离;
2)非单纯形特征向量与参考向量之间的相关或内积;以及
3)参考向量的以非单纯形特征向量作为相关证据的后验概率。
在距离的情况下,可将量vj计算为非单纯形特征向量x与参考向量zj之间的距离,然后将获得的距离归一化为1,即
v j = | | x - z j | | 2 Σ j = 1 M | | x - z j | | 2 - - - ( 10 )
其中|| ||表示欧式距离。
也可以应用统计或概率方法来测量该关系。在后验概率的情况下,假定通过某些种类的分布对每个参考向量建模,则可以将单纯形特征向量计算为
v=[p(z1|x),p(z2|x),...,p(zM|x)] (11)
其中,p(x|zj)代表给定参考向量zj的情况下非单纯形特征向量x的概率。通过假定先验的p(zj)为均匀分布,可以将概率p(zj|x)计算如下
p ( z j | x ) = p ( x | z j ) p ( z j ) p ( x ) = p ( x | z j ) p ( z j ) Σ j = 1 M p ( x | z j ) p ( z j ) = p ( x | z j ) Σ j = 1 M p ( x | z j ) - - - ( 12 )
可以存在生成参考向量的替代方式。
例如,一种方法随机生成若干向量作为参考向量,类似于随机投影的方法。
再例如,一种方法是无监督聚类法(unsupervised clustering),其中,提取自训练样本的训练向量被分组为聚类,并计算参考向量以分别代表这些聚类。以此方式,每个获得的聚类可被看作参考向量,并由其中心或分布(例如通过使用其均值和协方差的高斯分布)来表示。可以采用诸如k均值和谱聚类的各种聚类方法。
再例如,一种方法是监督建模法(supervised modeling),其中,可以根据人工收集的数据集来人工定义和学习每个参考向量。
再例如,一种方法是特征分解法(eigen-decomposition),其中,将参考向量计算为以训练向量作为行的矩阵的特征向量。可以采用诸如主成分分析法(principlecomponent analysis,PCA)、独立成分分析法(independent component analysis,ICA)以及线性判别分析法(linear discriminant analysis,LDA)的一般统计方案。
图6是用于图示通过采用统计模型来计算内容相似度的示例方法600的流程图。
如图6所示,方法600始于步骤601。在步骤603,针对要计算的两个音频分段之间的相似度,从音频分段中提取特征向量。在步骤605,根据这些特征向量,生成用于计算内容相似度的统计模型。在步骤607,基于所生成的统计模型计算内容相似度。方法600在步骤609结束。
在方法600的进一步实施例中,在步骤603,从音频分段中提取单纯形特征向量。
在步骤605,根据这些单纯形特征向量生成基于狄里克雷分布的统计模型。
在方法600的进一步实施例中,采用海林格距离计算内容相似度。可替选地,采用平方距离计算内容相似度。
在方法600的进一步示例中,从音频分段中提取非单纯形特征向量。针对各非单纯形特征向量中的每一个,计算用于测量非单纯形特征向量与各参考向量中的每一个之间的关系的量。可以将与各非单纯形特征向量相对应的所有量归一化,形成单纯形特征向量v。更多关于该关系及参考向量的细节已与图5一起描述,将不在此对其进行详细描述。
可将各种分布应用于测量内容一致性,同时,可将关于各种分布的度量组合到一起。从仅仅使用加权平均值到使用统计模型的各种组合方式都是可能的。
用于计算内容一致性的准则可以不限于与图2一起描述的准则。可以采用其它准则,例如L.Lu及A.Hanjalic.“Text-Like Segmentation of General Audio for Content-Based Retrieval,”IEEE Trans.on Multimedia,vol.11,no.4,658-669,2009中所描述的准则。在这种情况下,可以采用与图5和图6一起描述的计算内容相似度的方法。
图7是图示用于实施本发明的各个方面的示例系统的框图。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机访问存储器(RAM)703的程序执行各种处理。在RAM 703中,也根据需要存储当CPU 701执行各种处理等等时所需的数据。
CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下列部件连接到输入/输出接口705:包括键盘、鼠标等等的输入部分706;包括例如阴极射线管(CRT)、液晶显示器(LCD)等等的显示器和扬声器等等的输出部分707;包括硬盘等等的存储部分708;和包括例如LAN卡、调制解调器等等的网络接口卡的通信部分709。通信部分709经由例如因特网的网络执行通信处理。
根据需要,驱动器710也连接到输入/输出接口705。例如磁盘、光盘、磁光盘、半导体存储器等等的可移除介质711根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708。
在通过软件实现上述步骤和处理的情况下,从例如因特网的网络或例如可移除介质711的存储介质安装构成软件的程序。
本文中所用的术语仅仅是为了描述特定实施例的目的,而非意图限定本发明。本文中所用的单数形式的“一”和“该”旨在也包括复数形式,除非上下文中明确地另行指出。还应理解,“包括”一词当在本说明书中使用时,说明存在所指出的特征、整体、步骤、操作、单元和/或组件,但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件,以及/或者它们的组合。
以下权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。对本发明进行的描述只是出于图解和描述的目的,而非用来对具有公开形式的本发明进行详细定义和限制。对于所属技术领域的普通技术人员而言,在不偏离本发明范围和精神的情况下,显然可以作出许多修改和变型。对实施例的选择和说明,是为了最好地解释本发明的原理和实际应用,使所属技术领域的普通技术人员能够明了,本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。
描述了下面的示例性实施例(均用″EE″表示)。
EE 1.一种测量第一音频部分与第二音频部分之间的内容一致性的方法,包括:
针对所述第一音频部分中的每个音频分段,
确定所述第二音频部分中预定数目的音频分段,其中所述第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于所述第一音频部分中的该音频分段与所述第二音频部分中的所有其它音频分段之间的内容相似度;以及
计算所述第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值;以及
将第一内容一致性计算为,针对所述第一音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值。
EE 2.根据EE 1所述的方法,进一步包括:
针对所述第二音频部分中的每个音频分段,
确定所述第一音频部分中预定数目的音频分段,其中所述第二音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于所述第二音频部分中的该音频分段与所述第一音频部分中的所有其它音频分段之间的内容相似度;以及
计算所述第二音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值;
将第二内容一致性计算为针对所述第二音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值;
基于所述第一内容一致性和所述第二内容一致性计算对称内容一致性。
EE 3.根据EE 1或2所述的方法,其中,将所述第一音频部分中的音频分段si,l与所确定的音频分段sj,r之间的内容相似度S(si,l,sj,r)中的每一个计算为所述第一音频部分中的序列[si,l,...,si+L-1,l]与所述第二音频部分中的序列[sj,r,...,sj+L-1,r]之间的内容相似度,L>1。
EE 4.根据EE 3所述的方法,其中,通过应用动态时间规整方案或动态规划方案来计算所述序列之间的内容相似度。
EE 5.根据EE 1或2所述的方法,其中,通过以下步骤来计算两个音频分段之间的内容相似度:
从所述音频分段中提取第一特征向量;
根据所述特征向量生成用于计算所述内容相似度的统计模型;以及
基于所生成的统计模型计算所述内容相似度。
EE 6.根据EE 5所述的方法,其中,所述第一特征向量中的每一个中的所有特征值都是非负的且所述特征值的和为1,并且所述统计模型基于狄里克雷分布。
EE 7.根据EE 6所述的方法,其中,所述提取包括:
从所述音频分段中提取第二特征向量;以及
针对所述第二特征向量中的每一个,计算用于测量该第二特征向量与参考向量中的每一个之间的关系的量,其中与所述第二特征向量相对应的所有量形成所述第一特征向量中的一个。
EE 8.根据EE 7所述的方法,其中,通过以下方法之一确定所述参考向量:
随机产生法,其中随机生成所述参考向量;
无监督聚类法,其中提取自训练样本的训练向量被分组为聚类,并计算所述参考向量以分别代表所述聚类;
监督建模法,其中根据所述训练向量来人工定义和学习所述参考向量;以及
特征分解法,其中将所述参考向量计算为以所述训练向量作为行的矩阵的特征向量。
EE 9.根据EE 7所述的方法,其中,通过以下各量之一测量所述第二特征向量与所述参考向量中的每一个之间的关系:
所述第二特征向量与该参考向量之间的距离;
所述第二特征向量与该参考向量之间的相关;
所述第二特征向量与该参考向量之间的内积;以及
该参考向量的以所述第二特征向量作为相关证据的后验概率。
EE 10.根据EE 9所述的方法,其中,将第二特征向量x与参考向量zj之间的距离vj计算为
v j = | | x - z j | | 2 Σ j = 1 M | | x - z j | | 2 ,
其中,M为所述参考向量的数目,|| ||表示欧式距离。
EE 11.根据EE 9所述的方法,其中,参考向量zj的以第二特征向量x作为相关证据的后验概率p(zj|x)被计算为
p ( z j | x ) = p ( x | z j ) p ( z j ) p ( x ) = p ( x | z j ) p ( z j ) Σ j = 1 M p ( x | z j ) p ( z j ) = p ( x | z j ) Σ j = 1 M p ( x | z j ) ,
其中,p(x|zj)代表给定参考向量zj的情况下第二特征向量x的概率,M为所述参考向量的数目,p(zj)为先验分布。
EE 12.根据EE 6所述的方法,其中,通过最大似然法估计所述统计模型的参数。
EE 13.根据EE 6所述的方法,其中,所述统计模型基于一个或多个狄里克雷分布。
EE 14.根据EE 6所述的方法,其中,通过以下度量之一测量所述内容相似度:
海林格距离;
平方距离;
K-L散度;以及
贝叶斯信息准则差。
EE 15.根据EE 14所述的方法,其中,将海林格距离D(α,β)计算为
D ( α , β ) = 2 - 2 × [ Γ ( Σ k = 1 d α k ) Π k = 1 d Γ ( α k ) × Γ ( Σ k = 1 d β k ) Π k = 1 d Γ ( β k ) ] 1 2 × Π k = 1 d Γ ( α k + β k 2 ) Γ ( Π k = 1 d α k + β k 2 ) ,
其中,α1,...,αd>0为所述统计模型中的一个的参数且β1,...,βd>0为所述统计模型中的另一个的参数,d≥2为所述第一特征向量的维数,且Γ()为伽马函数。
EE 16.根据EE 14所述的方法,其中,将平方距离Ds计算为
D s = T 1 2 Π k = 1 d Γ ( 2 α k - 1 ) Γ ( Σ k = 1 d ( 2 α k - 1 ) ) - 2 T 1 T 2 Π k = 1 d ( α k + β k - 1 ) Γ ( Σ k = 1 d ( α k + β k - 1 ) ) + T 2 2 Π k = 1 d ( 2 β k - 1 ) Γ ( Σ k = 1 d ( 2 β k - 1 ) ) ,
其中, T 1 = Γ ( Σ k = 1 d α k ) Π k = 1 d Γ ( α k ) , T 2 = Γ ( Σ k = 1 d β k ) Π k = 1 d Γ ( β k ) ,
α1,...,αd>0为所述统计模型中的一个的参数且β1,...,βd>0为所述统计模型中的另一个的参数,d≥2为所述第一特征向量的维数,且Γ()为伽马函数。
EE 17.一种用于测量第一音频部分与第二音频部分之间的内容一致性的设备,包括:
相似度计算器,其针对所述第一音频部分中的每个音频分段,
确定所述第二音频部分中预定数目的音频分段,其中所述第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于所述第一音频部分中的该音频分段与所述第二音频部分中的所有其它音频分段之间的内容相似度;以及
计算所述第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值;以及
一致性计算器,其将第一内容一致性计算为,针对所述第一音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值。
EE 18.根据EE 17所述的设备,其中所述相似度计算器被进一步配置为,针对所述第二音频部分中的每个音频分段,
确定所述第一音频部分中预定数目的音频分段,其中所述第二音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于所述第二音频部分中的该音频分段与所述第一音频部分中的所有其它音频分段之间的内容相似度;以及
计算所述第二音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值,以及
其中所述一致性计算器被进一步配置为,
将第二内容一致性计算为针对所述第二音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值,以及
基于所述第一内容一致性和所述第二内容一致性计算对称内容一致性。
EE 19.根据EE 17或18所述的设备,其中,将所述第一音频部分中的音频分段si,l与所确定的音频分段sj,r之间的内容相似度S(si,l,sj,r)中的每一个计算为所述第一音频部分中的序列[si,l,...,si+L-1,l]与所述第二音频部分中的序列[sj,r,...,sj+L-1,r]之间的内容相似度,L>1。
EE 20.根据EE 19所述的设备,其中,通过应用动态时间规整方案或动态规划方案来计算所述序列之间的内容相似度。
EE 21.根据EE 17所述的设备,其中,所述相似度计算器包括:
特征生成器,其针对所述内容相似度中的每一个,从相关联的音频分段中提取第一特征向量;
模型生成器,其根据所述特征向量生成用于计算所述内容相似度中的每一个的统计模型;以及
相似度计算单元,其基于所生成的统计模型计算所述内容相似度。
EE 22.根据EE 21所述的设备,其中,所述第一特征向量中的每一个中的所有特征值都是非负的且所述特征值的和为1,并且所述统计模型基于狄里克雷分布。
EE 23.根据EE 22所述的设备,其中,所述特征生成器被进一步配置为,
从所述音频分段中提取第二特征向量;以及
针对所述第二特征向量中的每一个,计算用于测量该第二特征向量与参考向量中的每一个之间的关系的量,其中与所述第二特征向量相对应的所有量形成所述第一特征向量中的一个。
EE 24.根据EE 23所述的设备,其中,通过以下方法之一确定所述参考向量:
随机产生法,其中随机生成所述参考向量;
无监督聚类法,其中提取自训练样本的训练向量被分组为聚类,并计算所述参考向量以分别代表所述聚类;
监督建模法,其中根据所述训练向量来人工定义和学习所述参考向量;以及
特征分解法,其中将所述参考向量计算为以所述训练向量作为行的矩阵的特征向量。
EE 25.根据EE 23所述的设备,其中,通过以下各量之一测量所述第二特征向量与所述参考向量中的每一个之间的关系:
所述第二特征向量与该参考向量之间的距离;
所述第二特征向量与该参考向量之间的相关;
所述第二特征向量与该参考向量之间的内积;以及
该参考向量的以所述第二特征向量作为相关证据的后验概率。
EE 26.根据EE 25所述的设备,其中,将第二特征向量x与参考向量zj之间的距离vj计算为
v j = | | x - z j | | 2 Σ j = 1 M | | x - z j | | 2 ,
其中,M为所述参考向量的数目,|| ||表示欧式距离。
EE 27.根据EE 25所述的设备,其中,参考向量zj的以第二特征向量x作为相关证据的后验概率p(zj|x)被计算为
p ( z j | x ) = p ( x | z j ) p ( z j ) p ( x ) = p ( x | z j ) p ( z j ) Σ j = 1 M p ( x | z j ) p ( z j ) = p ( x | z j ) Σ j = 1 M p ( x | z j ) ,
其中,p(x|zj)代表给定参考向量zj的情况下第二特征向量x的概率,M为所述参考向量的数目,p(zj)为先验分布。
EE 28.根据EE 22所述的设备,其中,通过最大似然法估计所述统计模型的参数。
EE 29.根据EE 22所述的设备,其中,所述统计模型基于一个或多个狄里克雷分布。
EE 30.根据EE 22所述的设备,其中,通过以下度量之一测量所述内容相似度:
海林格距离;
平方距离;
K-L散度;以及
贝叶斯信息准则差。
EE 31.根据EE 30所述的设备,其中,将海林格距离D(α,β)计算为
D ( α , β ) = 2 - 2 × [ Γ ( Σ k = 1 d α k ) Π k = 1 d Γ ( α k ) × Γ ( Σ k = 1 d β k ) Π k = 1 d Γ ( β k ) ] 1 2 × Π k = 1 d Γ ( α k + β k 2 ) Γ ( Π k = 1 d α k + β k 2 ) ,
其中,α1,...,αd>0为所述统计模型中的一个的参数且β1,...,βd>0为所述统计模型中的另一个的参数,d≥2为所述第一特征向量的维数,且Γ()为伽马函数。
EE 32.根据EE 30所述的设备,其中,将平方距离Ds计算为
D s = T 1 2 Π k = 1 d Γ ( 2 α k - 1 ) Γ ( Σ k = 1 d ( 2 α k - 1 ) ) - 2 T 1 T 2 Π k = 1 d ( α k + β k - 1 ) Γ ( Σ k = 1 d ( α k + β k - 1 ) ) + T 2 2 Π k = 1 d ( 2 β k - 1 ) Γ ( Σ k = 1 d ( 2 β k - 1 ) ) ,
其中, T 1 = Γ ( Σ k = 1 d α k ) Π k = 1 d Γ ( α k ) , T 2 = Γ ( Σ k = 1 d β k ) Π k = 1 d Γ ( β k ) ,
α1,...,αd>0为所述统计模型中的一个的参数且β1,...,βd>0为所述统计模型中的另一个的参数,d≥2为所述第一特征向量的维数,且Γ()为伽马函数。
EE 33.一种测量两个音频分段之间的内容相似度的方法,包括:
从所述音频分段中提取第一特征向量,其中所述第一特征向量中的每一个中的所有特征值都是非负的并被归一化,使得所述特征值的和为1;
根据所述特征向量,基于狄里克雷分布生成用于计算所述内容相似度的统计模型;以及
基于所生成的统计模型计算所述内容相似度。
EE 34.根据EE 33所述的方法,其中,所述提取包括:
从所述音频分段中提取第二特征向量;以及
针对所述第二特征向量中的每一个,计算用于测量该第二特征向量与参考向量中的每一个之间的关系的量,其中与所述第二特征向量相对应的所有量形成所述第一特征向量中的一个。
EE 35.根据EE 34所述的方法,其中,通过以下方法之一确定所述参考向量:
随机产生法,其中随机生成所述参考向量;
无监督聚类法,其中提取自训练样本的训练向量被分组为聚类,并计算所述参考向量以分别代表所述聚类;
监督建模法,其中根据所述训练向量来人工定义和学习所述参考向量;以及
特征分解法,其中将所述参考向量计算为以所述训练向量作为行的矩阵的特征向量。
EE 36.根据EE 34所述的方法,其中,通过以下各量之一测量所述第二特征向量与所述参考向量中的每一个之间的关系
所述第二特征向量与该参考向量之间的距离;
所述第二特征向量与该参考向量之间的相关;
所述第二特征向量与该参考向量之间的内积;以及
该参考向量的以所述第二特征向量作为相关证据的后验概率。
EE 37.根据EE 36所述的方法,其中,将第二特征向量x与参考向量zj之间的距离vj计算为
v j = | | x - z j | | 2 Σ j = 1 M | | x - z j | | 2 ,
其中,M为所述参考向量的数目,|| ||表示欧式距离。
EE 38.根据EE 36所述的方法,其中,参考向量zj的以第二特征向量x作为相关证据的后验概率p(zj|x)被计算为
p ( z j | x ) = p ( x | z j ) p ( z j ) p ( x ) = p ( x | z j ) p ( z j ) Σ j = 1 M p ( x | z j ) p ( z j ) = p ( x | z j ) Σ j = 1 M p ( x | z j ) ,
其中,p(x|zj)代表给定参考向量zj的情况下第二特征向量x的概率,M为所述参考向量的数目,p(zj)为先验分布。
EE 39.根据EE 33所述的方法,其中,通过最大似然法估计所述统计模型的参数。
EE 40.根据EE 33所述的方法,其中,所述统计模型基于一个或多个狄里克雷分布。
EE 41.根据EE 33所述的方法,其中,通过以下度量之一测量所述内容相似度:
海林格距离;
平方距离;
K-L散度;以及
贝叶斯信息准则差。
EE 42.根据EE 41所述的方法,其中,将海林格距离D(α,β)计算为
D ( α , β ) = 2 - 2 × [ Γ ( Σ k = 1 d α k ) Π k = 1 d Γ ( α k ) × Γ ( Σ k = 1 d β k ) Π k = 1 d Γ ( β k ) ] 1 2 × Π k = 1 d Γ ( α k + β k 2 ) Γ ( Π k = 1 d α k + β k 2 ) ,
其中,α1,...,αd>0为所述统计模型中的一个的参数且β1,...,βd>0为所述统计模型中的另一个的参数,d≥2为所述第一特征向量的维数,且Γ()为伽马函数。
EE 43.根据EE 41所述的方法,其中,将平方距离Ds计算为
D s = T 1 2 Π k = 1 d Γ ( 2 α k - 1 ) Γ ( Σ k = 1 d ( 2 α k - 1 ) ) - 2 T 1 T 2 Π k = 1 d ( α k + β k - 1 ) Γ ( Σ k = 1 d ( α k + β k - 1 ) ) + T 2 2 Π k = 1 d ( 2 β k - 1 ) Γ ( Σ k = 1 d ( 2 β k - 1 ) ) ,
其中, T 1 = Γ ( Σ k = 1 d α k ) Π k = 1 d Γ ( α k ) , T 2 = Γ ( Σ k = 1 d β k ) Π k = 1 d Γ ( β k ) ,
α1,...,αd>0为所述统计模型中的一个的参数且β1,...,βd>0为所述统计模型中的另一个的参数,d≥2为所述第一特征向量的维数,且Γ()为伽马函数。
EE 44.一种用于测量两个音频分段之间的内容相似度的设备,包括:
特征生成器,其从所述音频分段中提取第一特征向量,其中所述第一特征向量中的每一个中的所有特征值都是非负的并被归一化,使得所述特征值的和为1;
模型生成器,其根据所述特征向量,基于狄里克雷分布生成用于计算所述内容相似度的统计模型;以及
相似度计算器,其基于所生成的统计模型计算所述内容相似度。
EE 45.根据EE 44所述的设备,其中,所述特征生成器被进一步配置为,
从所述音频分段中提取第二特征向量;以及
针对所述第二特征向量中的每一个,计算用于测量该第二特征向量与参考向量中的每一个之间的关系的量,其中与所述第二特征向量相对应的所有量形成所述第一特征向量中的一个。
EE 46.根据EE 45所述的设备,其中,通过以下方法之一确定所述参考向量:
随机产生法,其中随机生成所述参考向量;
无监督聚类法,其中提取自训练样本的训练向量被分组为聚类,并计算所述参考向量以分别代表所述聚类;
监督建模法,其中根据所述训练向量来人工定义和学习所述参考向量;以及
特征分解法,其中将所述参考向量计算为以所述训练向量作为行的矩阵的特征向量。
EE 47.根据EE 45所述的设备,其中,通过以下各量之一测量所述第二特征向量与所述参考向量中的每一个之间的关系:
所述第二特征向量与该参考向量之间的距离;
所述第二特征向量与该参考向量之间的相关;
所述第二特征向量与该参考向量之间的内积;以及
该参考向量的以所述第二特征向量作为相关证据的后验概率。
EE 48.根据EE 47所述的设备,其中,将第二特征向量x与参考向量zj之间的距离vj计算为
v j = | | x - z j | | 2 Σ j = 1 M | | x - z j | | 2 ,
其中,M为所述参考向量的数目,|| ||表示欧式距离。
EE 49.根据EE 47所述的设备,其中,参考向量zj的以第二特征向量x作为相关证据的后验概率p(zj|x)被计算为
p ( z j | x ) = p ( x | z j ) p ( z j ) p ( x ) = p ( x | z j ) p ( z j ) Σ j = 1 M p ( x | z j ) p ( z j ) = p ( x | z j ) Σ j = 1 M p ( x | z j ) ,
其中,p(x|zj)代表给定参考向量zj的情况下第二特征向量x的概率,M为所述参考向量的数目,p(zj)为先验分布。
EE 50.根据EE 44所述的设备,其中,通过最大似然法估计所述统计模型的参数。
EE 51.根据EE 44所述的设备,其中,所述统计模型基于一个或多个狄里克雷分布。
EE 52.根据EE 44所述的设备,其中,通过以下度量之一测量所述内容相似度:
海林格距离;
平方距离;
K-L散度;以及
贝叶斯信息准则差。
EE 53.根据EE 52所述的设备,其中,将海林格距离D(α,β)计算为
D ( α , β ) = 2 - 2 × [ Γ ( Σ k = 1 d α k ) Π k = 1 d Γ ( α k ) × Γ ( Σ k = 1 d β k ) Π k = 1 d Γ ( β k ) ] 1 2 × Π k = 1 d Γ ( α k + β k 2 ) Γ ( Π k = 1 d α k + β k 2 ) ,
其中,α1,...,αd>0为所述统计模型中的一个的参数且β1,...,βd>0为所述统计模型中的另一个的参数,d≥2为所述第一特征向量的维数,且Γ()为伽马函数。
EE 54.根据EE 52所述的设备,其中,将平方距离Ds计算为
D s = T 1 2 Π k = 1 d Γ ( 2 α k - 1 ) Γ ( Σ k = 1 d ( 2 α k - 1 ) ) - 2 T 1 T 2 Π k = 1 d ( α k + β k - 1 ) Γ ( Σ k = 1 d ( α k + β k - 1 ) ) + T 2 2 Π k = 1 d ( 2 β k - 1 ) Γ ( Σ k = 1 d ( 2 β k - 1 ) ) ,
其中, T 1 = Γ ( Σ k = 1 d α k ) Π k = 1 d Γ ( α k ) , T 2 = Γ ( Σ k = 1 d β k ) Π k = 1 d Γ ( β k ) ,
α1,...,αd>0为所述统计模型中的一个的参数且β1,...,βd>0为所述统计模型中的另一个的参数,d≥2为所述第一特征向量的维数,且Γ()为伽马函数。
EE 55.一种记录有计算机程序指令的计算机可读介质,所述指令在被处理器执行时使得该处理器能够执行测量第一音频部分与第二音频部分之间的内容一致性的方法,所述方法包括:
针对所述第一音频部分中的每个音频分段,
确定所述第二音频部分中预定数目的音频分段,其中所述第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于所述第一音频部分中的该音频分段与所述第二音频部分中的所有其它音频分段之间的内容相似度;以及
计算所述第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值;以及
将第一内容一致性计算为,针对所述第一音频部分中的各音频分段而计算的各平均值的平均值。
EE 56.一种记录有计算机程序指令的计算机可读介质,所述指令在被处理器执行时使得该处理器能够执行测量两个音频分段之间的内容相似度的方法,所述方法包括:
从所述音频分段中提取第一特征向量,其中所述第一特征向量中的每一个中的所有特征值都是非负的并被归一化,使得所述特征值的和为1;
根据所述特征向量,基于狄里克雷分布生成用于计算所述内容相似度的统计模型;以及
基于所生成的统计模型计算所述内容相似度。

Claims (16)

1.一种测量第一音频部分与第二音频部分之间的内容一致性的方法,包括:
针对所述第一音频部分中的每个音频分段,
确定所述第二音频部分中预定数目的音频分段,其中所述第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于所述第一音频部分中的该音频分段与所述第二音频部分中的所有其它音频分段之间的内容相似度;以及
计算所述第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值;以及
将第一内容一致性计算为,针对所述第一音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值。
2.根据权利要求1所述的方法,进一步包括:
针对所述第二音频部分中的每个音频分段,
确定所述第一音频部分中预定数目的音频分段,其中所述第二音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于所述第二音频部分中的该音频分段与所述第一音频部分中的所有其它音频分段之间的内容相似度;以及
计算所述第二音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值;
将第二内容一致性计算为针对所述第二音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值;
基于所述第一内容一致性和所述第二内容一致性计算对称内容一致性。
3.根据权利要求1或2所述的方法,其中,将所述第一音频部分中的音频分段si,l与所确定的音频分段sj,r之间的内容相似度S(si,l,sj,r)中的每一个计算为所述第一音频部分中的序列[si,l,…,si+L-1,l]与所述第二音频部分中的序列[sj,r,…,sj+L-1,r]之间的内容相似度,L>1。
4.根据权利要求3所述的方法,其中,通过应用动态时间规整方案或动态规划方案来计算所述序列之间的内容相似度。
5.根据权利要求1或2所述的方法,其中,通过以下步骤来计算两个音频分段之间的内容相似度:
从所述音频分段中提取第一特征向量;
根据所述特征向量生成用于计算所述内容相似度的统计模型;以及
基于所生成的统计模型计算所述内容相似度,
其中所述第一特征向量中的每一个中的所有特征值都是非负的且所述特征值的和为1,并且所述统计模型基于狄里克雷分布。
6.根据权利要求5所述的方法,其中,所述提取包括:
从所述音频分段中提取第二特征向量;以及
针对所述第二特征向量中的每一个,计算用于测量该第二特征向量与参考向量中的每一个之间的关系的量,其中与所述第二特征向量相对应的所有量形成所述第一特征向量中的一个。
7.根据权利要求6所述的方法,其中,通过以下方法之一确定所述参考向量:
随机产生法,其中随机生成所述参考向量;
无监督聚类法,其中提取自训练样本的训练向量被分组为聚类,并计算所述参考向量以分别代表所述聚类;
监督建模法,其中根据提取自训练样本的训练向量来人工定义和学习所述参考向量;以及
特征分解法,其中将所述参考向量计算为以提取自训练样本的训练向量作为行的矩阵的特征向量。
8.根据权利要求6所述的方法,其中,通过以下各量之一测量所述第二特征向量与所述参考向量中的每一个之间的关系:
所述第二特征向量与该参考向量之间的距离;
所述第二特征向量与该参考向量之间的相关;
所述第二特征向量与该参考向量之间的内积;以及
该参考向量的以所述第二特征向量作为相关证据的后验概率。
9.一种用于测量第一音频部分与第二音频部分之间的内容一致性的设备,包括:
相似度计算器,其针对所述第一音频部分中的每个音频分段,
确定所述第二音频部分中预定数目的音频分段,其中所述第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于所述第一音频部分中的该音频分段与所述第二音频部分中的所有其它音频分段之间的内容相似度;以及
计算所述第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值;以及
一致性计算器,其将第一内容一致性计算为,针对所述第一音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值。
10.根据权利要求9所述的设备,其中所述相似度计算器被进一步配置为,针对所述第二音频部分中的每个音频分段,
确定所述第一音频部分中预定数目的音频分段,其中所述第二音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于所述第二音频部分中的该音频分段与所述第一音频部分中的所有其它音频分段之间的内容相似度;以及
计算所述第二音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值,以及
其中所述一致性计算器被进一步配置为,
将第二内容一致性计算为针对所述第二音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值,以及
基于所述第一内容一致性和所述第二内容一致性计算对称内容一致性。
11.根据权利要求9或10所述的设备,其中,将所述第一音频部分中的音频分段si,l与所确定的音频分段sj,r之间的内容相似度S(si,l,sj,r)中的每一个计算为所述第一音频部分中的序列[si,l,…,si+L-1,l]与所述第二音频部分中的序列[sj,r,…,sj+L-1,r]之间的内容相似度,L>1。
12.根据权利要求11所述的设备,其中,通过应用动态时间规整方案或动态规划方案来计算所述序列之间的内容相似度。
13.根据权利要求9或10所述的设备,其中,所述相似度计算器包括:
特征生成器,其针对所述内容相似度中的每一个,从相关联的音频分段中提取第一特征向量;
模型生成器,其根据所述特征向量生成用于计算所述内容相似度中的每一个的统计模型;以及
相似度计算单元,其基于所生成的统计模型计算所述内容相似度,
其中所述第一特征向量中的每一个中的所有特征值都是非负的且所述特征值的和为1,并且所述统计模型基于狄里克雷分布。
14.根据权利要求13所述的设备,其中,所述特征生成器被进一步配置为,
从所述音频分段中提取第二特征向量;以及
针对所述第二特征向量中的每一个,计算用于测量该第二特征向量与参考向量中的每一个之间的关系的量,其中与所述第二特征向量相对应的所有量形成所述第一特征向量中的一个。
15.根据权利要求14所述的设备,其中,通过以下方法之一确定所述参考向量:
随机产生法,其中随机生成所述参考向量;
无监督聚类法,其中提取自训练样本的训练向量被分组为聚类,并计算所述参考向量以分别代表所述聚类;
监督建模法,其中根据提取自训练样本的训练向量来人工定义和学习所述参考向量;以及
特征分解法,其中将所述参考向量计算为以提取自训练样本的训练向量作为行的矩阵的特征向量。
16.根据权利要求14所述的设备,其中,通过以下各量之一测量所述第二特征向量与所述参考向量中的每一个之间的关系:
所述第二特征向量与该参考向量之间的距离;
所述第二特征向量与该参考向量之间的相关;
所述第二特征向量与该参考向量之间的内积;以及
该参考向量的以所述第二特征向量作为相关证据的后验概率。
CN201110243107.5A 2011-08-19 2011-08-19 测量内容一致性的方法和设备 Expired - Fee Related CN102956237B (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201510836761.5A CN105355214A (zh) 2011-08-19 2011-08-19 测量相似度的方法和设备
CN201110243107.5A CN102956237B (zh) 2011-08-19 2011-08-19 测量内容一致性的方法和设备
US14/237,395 US9218821B2 (en) 2011-08-19 2012-08-07 Measuring content coherence and measuring similarity
EP12753860.1A EP2745294A2 (en) 2011-08-19 2012-08-07 Measuring content coherence and measuring similarity of audio sections
JP2014526069A JP5770376B2 (ja) 2011-08-19 2012-08-07 コンテンツ・コヒーレンスの測定及び類似度の測定
PCT/US2012/049876 WO2013028351A2 (en) 2011-08-19 2012-08-07 Measuring content coherence and measuring similarity
JP2015126369A JP6113228B2 (ja) 2011-08-19 2015-06-24 コンテンツ・コヒーレンスの測定及び類似度の測定
US14/952,820 US9460736B2 (en) 2011-08-19 2015-11-25 Measuring content coherence and measuring similarity

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110243107.5A CN102956237B (zh) 2011-08-19 2011-08-19 测量内容一致性的方法和设备

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201510836761.5A Division CN105355214A (zh) 2011-08-19 2011-08-19 测量相似度的方法和设备

Publications (2)

Publication Number Publication Date
CN102956237A CN102956237A (zh) 2013-03-06
CN102956237B true CN102956237B (zh) 2016-12-07

Family

ID=47747027

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201110243107.5A Expired - Fee Related CN102956237B (zh) 2011-08-19 2011-08-19 测量内容一致性的方法和设备
CN201510836761.5A Pending CN105355214A (zh) 2011-08-19 2011-08-19 测量相似度的方法和设备

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201510836761.5A Pending CN105355214A (zh) 2011-08-19 2011-08-19 测量相似度的方法和设备

Country Status (5)

Country Link
US (2) US9218821B2 (zh)
EP (1) EP2745294A2 (zh)
JP (2) JP5770376B2 (zh)
CN (2) CN102956237B (zh)
WO (1) WO2013028351A2 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103337248B (zh) * 2013-05-17 2015-07-29 南京航空航天大学 一种基于时间序列核聚类的机场噪声事件识别方法
CN103354092B (zh) * 2013-06-27 2016-01-20 天津大学 一种带检错功能的音频乐谱比对方法
US9424345B1 (en) * 2013-09-25 2016-08-23 Google Inc. Contextual content distribution
TWI527025B (zh) * 2013-11-11 2016-03-21 財團法人資訊工業策進會 電腦系統、音訊比對方法及其電腦可讀取記錄媒體
CN104683933A (zh) 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
CN103824561B (zh) * 2014-02-18 2015-03-11 北京邮电大学 一种语音线性预测编码模型的缺失值非线性估算方法
CN104882145B (zh) 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类
CN105335595A (zh) 2014-06-30 2016-02-17 杜比实验室特许公司 基于感受的多媒体处理
CN104332166B (zh) * 2014-10-21 2017-06-20 福建歌航电子信息科技有限公司 可快速验证录音内容准确性、同步性的方法
CN104464754A (zh) * 2014-12-11 2015-03-25 北京中细软移动互联科技有限公司 声音商标检索方法
CN104900239B (zh) * 2015-05-14 2018-08-21 电子科技大学 一种基于沃尔什-哈达码变换的音频实时比对方法
US10535371B2 (en) * 2016-09-13 2020-01-14 Intel Corporation Speaker segmentation and clustering for video summarization
CN110491413B (zh) * 2019-08-21 2022-01-04 中国传媒大学 一种基于孪生网络的音频内容一致性监测方法及系统
CN111445922B (zh) * 2020-03-20 2023-10-03 腾讯科技(深圳)有限公司 音频匹配方法、装置、计算机设备及存储介质
CN111785296B (zh) * 2020-05-26 2022-06-10 浙江大学 基于重复旋律的音乐分段边界识别方法
CN112185418B (zh) * 2020-11-12 2022-05-17 度小满科技(北京)有限公司 音频处理方法和装置
CN112885377A (zh) * 2021-02-26 2021-06-01 平安普惠企业管理有限公司 语音质量评估方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1073272A1 (en) * 1999-02-15 2001-01-31 Sony Corporation Signal processing method and video/audio processing device
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
CN101079044A (zh) * 2006-05-25 2007-11-28 北大方正集团有限公司 一种音频片断之间相似度度量的方法
CN101593517A (zh) * 2009-06-29 2009-12-02 北京市博汇科技有限公司 一种音频比对系统及其音频能量比对方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6061652A (en) * 1994-06-13 2000-05-09 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
US7447318B2 (en) * 2000-09-08 2008-11-04 Harman International Industries, Incorporated System for using digital signal processing to compensate for power compression of loudspeakers
CN1168031C (zh) * 2001-09-07 2004-09-22 联想(北京)有限公司 基于文本内容特征相似度和主题相关程度比较的内容过滤器
JP4125990B2 (ja) * 2003-05-01 2008-07-30 日本電信電話株式会社 検索結果利用型類似音楽検索装置,検索結果利用型類似音楽検索処理方法,検索結果利用型類似音楽検索プログラムおよびそのプログラムの記録媒体
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks
BRPI0617432A2 (pt) * 2005-10-17 2011-07-26 Koninkl Philips Electronics Nv mÉtodos para calcular uma mÉtrica de similaridade, e um fator de ponderaÇço, software, e, dispositivo eletrânico para calcular uma mÉtrica de similaridade
EP2123108A1 (en) * 2006-12-21 2009-11-25 Koninklijke Philips Electronics N.V. A device for and a method of processing audio data
US20080288255A1 (en) * 2007-05-16 2008-11-20 Lawrence Carin System and method for quantifying, representing, and identifying similarities in data streams
US7979252B2 (en) * 2007-06-21 2011-07-12 Microsoft Corporation Selective sampling of user state based on expected utility
US8842851B2 (en) * 2008-12-12 2014-09-23 Broadcom Corporation Audio source localization system and method
US8190663B2 (en) * 2009-07-06 2012-05-29 Osterreichisches Forschungsinstitut Fur Artificial Intelligence Der Osterreichischen Studiengesellschaft Fur Kybernetik Of Freyung Method and a system for identifying similar audio tracks
JP4937393B2 (ja) * 2010-09-17 2012-05-23 株式会社東芝 音質補正装置及び音声補正方法
US8885842B2 (en) * 2010-12-14 2014-11-11 The Nielsen Company (Us), Llc Methods and apparatus to determine locations of audience members
JP5691804B2 (ja) * 2011-04-28 2015-04-01 富士通株式会社 マイクロホンアレイ装置及び音信号処理プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1073272A1 (en) * 1999-02-15 2001-01-31 Sony Corporation Signal processing method and video/audio processing device
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
CN101079044A (zh) * 2006-05-25 2007-11-28 北大方正集团有限公司 一种音频片断之间相似度度量的方法
CN101593517A (zh) * 2009-06-29 2009-12-02 北京市博汇科技有限公司 一种音频比对系统及其音频能量比对方法

Also Published As

Publication number Publication date
JP2015232710A (ja) 2015-12-24
CN105355214A (zh) 2016-02-24
JP6113228B2 (ja) 2017-04-12
CN102956237A (zh) 2013-03-06
EP2745294A2 (en) 2014-06-25
US20140205103A1 (en) 2014-07-24
US9218821B2 (en) 2015-12-22
US20160078882A1 (en) 2016-03-17
US9460736B2 (en) 2016-10-04
WO2013028351A2 (en) 2013-02-28
JP5770376B2 (ja) 2015-08-26
WO2013028351A3 (en) 2013-05-10
JP2014528093A (ja) 2014-10-23

Similar Documents

Publication Publication Date Title
CN102956237B (zh) 测量内容一致性的方法和设备
Song English speech recognition based on deep learning with multiple features
Lidy et al. CQT-based Convolutional Neural Networks for Audio Scene Classification.
Han et al. Acoustic scene classification using convolutional neural network and multiple-width frequency-delta data augmentation
Shuyang et al. Active learning for sound event classification by clustering unlabeled data
Muthusamy et al. Particle swarm optimization based feature enhancement and feature selection for improved emotion recognition in speech and glottal signals
Massoudi et al. Urban sound classification using CNN
Benetos et al. Characterisation of acoustic scenes using a temporally-constrained shift-invariant model
Ntalampiras A novel holistic modeling approach for generalized sound recognition
Chen et al. Mandarin emotion recognition combining acoustic and emotional point information
Gururani et al. Prosody transfer in neural text to speech using global pitch and loudness features
CN101419799A (zh) 基于混合t模型的说话人识别方法
Hacine-Gharbi et al. On the optimal number estimation of selected features using joint histogram based mutual information for speech emotion recognition
Vrysis et al. Mobile audio intelligence: From real time segmentation to crowd sourced semantics
Dendukuri et al. Emotional speech analysis and classification using variational mode decomposition
Krishnamoorthy et al. Hierarchical audio content classification system using an optimal feature selection algorithm
CN111488486A (zh) 一种基于多音源分离的电子音乐分类方法及系统
Liu et al. Hierarchical component-attention based speaker turn embedding for emotion recognition
CN106663110A (zh) 音频序列对准的概率评分的导出
Chen et al. Long-term scalogram integrated with an iterative data augmentation scheme for acoustic scene classification
Lagrange et al. An evaluation framework for event detection using a morphological model of acoustic scenes
Chen et al. Hierarchical representation based on Bayesian nonparametric tree-structured mixture model for playing technique classification
CN105989370B (zh) 基于属性层次的视音频融合方法
Leng et al. Classification of overlapped audio events based on AT, PLSA, and the combination of them
Qiu Non-linguistic Vocalization Recognition Based on Convolutional, Long Short-Term Memory, Deep Neural Networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161207

Termination date: 20180819