CN101221760A - 一种音频匹配方法及系统 - Google Patents

一种音频匹配方法及系统 Download PDF

Info

Publication number
CN101221760A
CN101221760A CNA2008100571619A CN200810057161A CN101221760A CN 101221760 A CN101221760 A CN 101221760A CN A2008100571619 A CNA2008100571619 A CN A2008100571619A CN 200810057161 A CN200810057161 A CN 200810057161A CN 101221760 A CN101221760 A CN 101221760A
Authority
CN
China
Prior art keywords
audio
matching
measured
match point
audio frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008100571619A
Other languages
English (en)
Other versions
CN101221760B (zh
Inventor
赵丹
王向东
钱跃良
刘群
林守勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN2008100571619A priority Critical patent/CN101221760B/zh
Publication of CN101221760A publication Critical patent/CN101221760A/zh
Priority to PCT/CN2009/000086 priority patent/WO2009097738A1/zh
Application granted granted Critical
Publication of CN101221760B publication Critical patent/CN101221760B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种音频匹配方法,用于从待测音频流片段中检测出与标准音频库中音频样例相匹配的音频片段,包括:在待测音频流片段的能量包络单元图上,选择每个能量包络单元的起始点作为匹配操作的点;将每个音频样例以及待测音频流片段用切分点和概率对组成的数对形式表示;将待测音频流片段的数对依次与每个音频样例的数对进行比较,得到匹配点以及对应的匹配概率;采用相似性度量函数对匹配点以及对应的音频样例进行计算,得到两者的相似值;将相似值与一个预先设定的阈值进行比较,若所述的相似值大于该阈值,则认为与匹配点相对应的音频片段和与匹配点相对应的音频样例匹配。本发明具有计算简便、运算速度快的优点。

Description

一种音频匹配方法及系统
技术领域
本发明涉及音频匹配领域,特别是涉及一种基于单元的快速音频匹配方法。
背景技术
随着视频、音频等多媒体数据的资源数量和需求量的增大,传统的基于文本的搜索已经渐渐无法满足用户的信息查询和获取的需求,多媒体搜索必将成为未来搜索技术的发展趋势之一,而对音频数据的检索将是其中重要的组成部分。在音频检索的研究中,最基本的一个任务是对给定音频片段的匹配,即给定一个音频片段A,在另一个待检测音频片段B中搜索是否存在子片段C与音频片段A的音频内容相同。
由于对给定音频片段的匹配是音频检索中最基本、最早被研究的任务,因此研究者们提出了许多方法。给定音频片段的匹配方法主要包括两部分,一部分是匹配策略,即按什么样的顺序将前述的给定音频片段A与待检测音频片段B中的哪些子片段进行匹配,另一部分是相似性度量,即如何判断给定音频片段A与待检测音频片段B中的一个子片段C的相似程度。
现有技术中的给定音频片段的匹配方法,主要采用基于顺序扫描的匹配策略,即在待检测音频片段B中,从音频的起始时间开始,每隔极短的一段时间偏移(一段为10或几十毫秒)设一个比较点,从该点开始向后截取与给定音频片段A长度相同的片段C,并计算其与A的相似性程度。显然,这种方法的匹配时间较长,无法满足实时检索的需求。近年来,在大规模音频库检索中,如果待检测的音频片段不变,则通过索引等技术提高时间效率,但是,对于每次匹配时待检测音频片段都不同的情况,则只能采用上述的顺序扫描方法。
在相似性度量方法方面,当前方法主要是将音频片段分为帧(每帧为10或几十毫秒的小片段),对每帧提取音频中的频谱、对数倒谱、短时能量、过零率等特征,形成特征向量,并采用欧式距离、马氏距离、余弦夹角距离等计算各帧间的相似性,再采用动态时间规整(DTW:Dynamic TimeWarping)方法由各帧之间的两似性计算出两个片段间的相似性。这些方法需要提取频谱等复杂特征,且使用DTW算法时时间复杂度较高,因此时间效率也较低。
总之,现有的音频匹配方法处理速度慢,难以很好地满足越来越多的海量音频信息处理需求。
发明内容
本发明的目的是克服现有的音频匹配方法处理速度慢,实时性不足的缺陷,从而提供一种快速、高效的音频匹配方法。
为了实现上述目的,本发明提供了一种音频匹配方法,用于从待测音频流片段中检测出与标准音频库中音频样例相匹配的音频片段,包括:
步骤1)、在标准音频库中的各个音频样例的能量包络单元图和待测音频流片段的能量包络单元图上,选择每个能量包络单元的起始点作为匹配操作的点;
步骤2)、将每个音频样例以及待测音频流片段分别用所述能量包络单元图上的切分点和概率对组成的数对形式表示;
步骤3)、将待测音频流片段的数对依次与每个音频样例的数对进行比较,得到匹配点以及对应的匹配概率;
步骤4)、采用相似性度量函数对步骤3)所得到的匹配点以及对应的音频样例进行计算,得到两者的相似值;
步骤5)、将步骤4)所得到的相似值与一个预先设定的阈值进行比较,若所述的相似值大于该阈值,则认为与步骤3)所得到的匹配点相对应的音频片段和与匹配点相对应的音频样例匹配。
在上述技术方案中,所述的将待测音频流片段的数对依次与每个音频样例的数对进行比较包括:
在音频样例的能量包络单元中存在一个切分点ui,而在待测音频流片段中存在一个切分点vj,当满足条件|ui-vj|<T时,认为ui为匹配点;其中,所述T是一个预先定义的第三阈值。
在上述技术方案中,所述匹配点对应的匹配概率为切分点ui的切分点概率和切分点vj的切分点概率中的较小值。
在上述技术方案中,所述的步骤4)包括:
步骤4-1)、对所述的匹配点以及对应音频样例中的相应切分点,计算召回率R与精确率P;
步骤4-2)、根据所得到的召回率R与精确率P计算相似性度量函数的值。
在上述技术方案中,所述的召回率R的计算公式为:
R ( U , V ) = Σ k p k ′ / Σ i = 1 m p m
其中,U表示音频样例;V表示待测音频流片段中的一段;p表示所述音频样例的能量包络单元中的切分点概率,p′表示匹配点的匹配概率。
在上述技术方案中,所述的精确率P的计算公式为:
P ( U , V ) = Σ k p k ′ / Σ i = 1 n q n
其中,U表示音频样例;V表示待测音频流片段中的一段;q表示所述待测音频流片段中的一段的切分点概率,p′表示匹配点的匹配概率。
在上述技术方案中,所述相似性度量函数的计算公式为:
S ( U , V ) = 2 R ( U , V ) P ( U , V ) R ( U , V ) + P ( U , V )
本发明还提供了一种音频匹配系统,包括匹配操作点选择模块,数对表示模块,匹配点计算模块,相似性计算模块,音频匹配模块以及音频标准库;其中,
所述的匹配操作点选择模块的作用是,在待测音频流片段的能量包络单元图上,选择每个能量包络单元的起始点作为匹配操作的点;
所述的数对表示模块的作用是,将每个音频样例以及待测音频流片段分别用所述能量包络单元图上的切分点和概率对组成的数对形式表示;
所述的匹配点计算模块的作用是,将待测音频流片段的数对依次与每个音频样例的数对进行比较,得到匹配点以及对应的匹配概率;
所述的相似性计算模块的作用是,采用相似性度量函数对匹配点计算模块所得到的匹配点以及对应的音频样例进行计算,得到两者的相似值;
所述的音频匹配模块的作用是,将相似性计算模块所得到的相似值与一个预先设定的阈值进行比较,若所述的相似值大于该阈值,则认为与匹配点计算模块所得到的匹配点相对应的音频片段和与匹配点相对应的音频样例匹配;
所述的音频标准库用于存储音频样例的能量包络单元图。
本发明又提供了一种音频检索方法,包括:
从一个包含音频信息的节目中剪切待测音频流片段;
采用所述的音频匹配方法对所述的待测音频流片段与音频标准库中的音频样例进行匹配;
对所得到的匹配结果进行包括校正、验证在内的后续处理。
本发明还提供了一种音频检索系统,包括:
用于剪切待测音频流片段的剪切模块;
上述的音频匹配系统;
用于对匹配结果进行校正、验证的后续处理模块。
本发明的优点在于:本发明的音频匹配方法在匹配过程中采用了跳单元的策略,减小了匹配操作的工作量,使得整个方法具有计算简便、运算速度快的优点,适合在实时需求高的场合使用。
附图说明
以下,结合附图来详细说明本发明的实施例,其中:
图1为在一个实施例中的待测音频流片段的能量包络单元图;
图2为图1所述的待测音频流片段的能量包络单元图在第一次匹配操作过程中的匹配起始点的示意图;
图3为图1所述的待测音频流片段的能量包络单元图在第二次匹配操作过程中的匹配起始点的示意图;
图4为本发明的音频匹配方法的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明的方法进行详细说明。
本发明的音频匹配方法的主要思想是通过跳单元策略确定音频匹配的起始点,采用基于单元的相似性度量方法对音频样例和待测音频流片段进行匹配。本发明的方法在判断音频样例与待检测音频片段是否匹配的过程中,并不是直接对音频样例与待检测音频片段的音频流进行比较,而是将两者的能量包络单元进行比较。其中,所涉及的能量包络单元可以通过现有技术得到。为了方便理解,在对本发明方法的实现步骤进行说明前,首先对能量包络单元的获取过程,以及能量包络单元的自身特性进行简要说明。
在一个实施例中,假设有标准音频库,该音频库中包含有175条不同类型的音频样例,这些样例涵盖了音频的很多种不同组合情况。而所采用的测试片段则是取自湖南卫视的一小时节目,提取其中的音频流形成本实施例中的测试音频流片段,所有音频文件的存储格式都是16KHZ,16-bit,单声道。要采用本发明的方法就应当得到标准音频库中所有音频样例的能量包络单元图以及测试音频流片段的能量包络单元图。要得到能量包络图可以采用现有技术中所有可能的方式,在本实施例中,以其中一种方式为例,对能量包络单元图的求取过程进行说明。
步骤10、对待测试音频流片段以及标准音频库中的各个音频样例都按照一定的时间间隔分为多个帧,然后进行音频短时能量的特征提取,根据每一帧的短时平均能量形成短时能量包络。在本实施例中,音频信号每25ms作为一帧,每帧的帧移为10ms。
步骤20、根据音频的短时能量特征,将上一步骤所得到的短时能量包络切分为不同的能量包络单元,形成能量包络单元图。通过本步骤就可以得到待测试音频流片段以及标准音频库中各个音频样例的能量包络图。
根据短时能量包络图切分得到能量包络单元图的实现方法有多种,为了方便理解以及后续说明的方便,在本实施例中,以其中一种切分方式为例,对能量包络单元图的形成过程进行详细说明,但本领域的普通技术人员应当理解,现有技术中的其它方法也可适用。
本实施例中,采用了一种与音乐处理中的ONSET检测法相类似的方法。在该方法中,包括以下步骤:
步骤21、对短时能量包络图中的能量均值进行平滑;平滑的具体方法是:将每一帧的能量值改为以该帧为中心,包含该帧前若干帧、该帧后若干帧的一些帧内的能量值的均值。一个参考值是当前帧及其前5帧、后5帧,共11帧。
步骤22、采用一个检测函数对平滑后的各个帧的短时能量值进行检测,得到一个检测结果。所述的检测函数如公式(1)所示,
d i = max j = 1 , . . . , 10 ( E i + j / E i ) - - - ( 1 )
从上述公式可以看出,在该检测函数中,将一个帧与其后续的十个帧分别进行比较,取最大的比较结果作为该检测函数的值。其中的di就是第i帧的检测函数的值,Ei就是第i帧的短时能量值。
步骤23、将步骤22所得到的各个帧的检测函数结果与两个预先设定的阈值进行比较,根据比较结果,计算帧被检测为切分点的概率。其中,所述的两个预先设定的阈值分别被称为第一阈值、第二阈值,用T1表示第一阈值,用T2表示第二阈值。所述第一阈值的范围在1.3-1.7之间,在本实施例中可采用1.5,而所述的第二阈值的范围在1.8-2.3之间,在本实施例中可选用2。所要计算的概率用P(i)表示,概率的计算如公式(2)所示:
P ( i ) = 1 , d i ≥ T 2 d i - T 1 T 2 - T 1 , T 1 ≤ d i ≤ T 2 0 , d i ≤ T 1 - - - ( 2 )
步骤24、根据步骤23所得到的切分点概率,确定短时能量包络图中的切分点,其中,P(i)非0值的帧将被记录为能量包络的切分点。根据切分点就可以得到能量包络单元。应当指出的是,由本步骤所得到的各个能量包络单元长度并不一致。
通过上述的各个步骤,可以得到标准音频库中的各个音频样例和待测音频流片段的能量包络单元图。在实际应用中,可以对标准音频库中的各个音频样例在一次短时能量特征提取以及能量包络切分的结果(即各个音频样例的能量包络单元图)进行存储,当下一次进行音频匹配时,标准音频库中的各个音频样例可以直接使用它们的能量包络单元图。
在得到标准音频库中的各个音频样例以及待测音频流片段的能量包络单元图后,可以采用本发明的方法对能量包络单元图进行处理,以实现音频样例和待测音频流片段间的匹配。下面参考图4,对本发明方法的具体实现过程进行详细说明。
步骤31、在待测音频流片段的能量包络单元图上,选择每个能量包络单元的起始点(即切分点)作为匹配操作的点。
本步骤中,选择能量包络单元的起始点作为匹配操作的点的思想就是前述的跳单元策略。由于每个能量包络单元至少包含一个帧,通常包含多个帧。因此,采用跳单元策略可以避免现有技术中常见的固定步长匹配所带来的数量过大、匹配起始点不精确的缺陷,有助于提高音频匹配效率。例如,在图1中表示一个待测音频流片段,该音频流片段中前3个能量包络单元的切分点分别用a、b、c表示,在第一次匹配操作中,如图2所示,从切分点a开始进行匹配操作,假如此次匹配不成功,则在下次匹配过程中,如图3所示,从切分点b开始进行匹配操作,依此类推,每次匹配操作依次以能量包络单元的起始点作为匹配操作的点,这就是所述的跳单元策略。
步骤32、将每个音频样例以及待测音频流片段分别用切分点和概率对的数对形式表示。例如,用U表示一个音频样例,它的表示形式为U=(u1,p1),(u2,p2),...,(um,pm),其中,u1,u2,...,um为切分点的位置,p1,p2,...,pm表示通过前述公式(2)计算得到的切分点概率。同样的,对于待测音频流片段也可以用数对的形式表示,用V表示该数据,则它的表示形式为V=(v1,q1),(v2,q2),...,(vn,qn),其中,vi,qi分别表示切分点位置和每个切分点的概率。这种数对的表示形式实质上是能量包络单元图的另一种表达形式。
步骤33、将待测音频流片段的数对依次与每个音频样例的数对进行比较,得到匹配点以及对应的匹配概率。在比较时,对于音频样例中的一个能量包络单元切分点ui,如果在待测音频流片段中存在一个切分点vj,满足以下条件:|ui-vj|<T,则认为ui为匹配点,并且该点的匹配概率为pi’min(pi,qj),其中T是一个预先定义的阈值,称为第三阈值,在本实施例中,第三阈值的范围在4-6之间,在本实施例中可采用5。由于在一个待测音频流片段中,可能包含有多个与音频样例相似的音频段,因此,待测音频流片段与一个音频样例匹配过程中得到相应的匹配点后,仍然要与其它音频样例进行匹配操作,查询是否还存在其它的匹配点,直到标准音频库中的所有音频样例都进行了相应的匹配操作。
步骤34、采用相似性度量函数对步骤33所得到的匹配点以及对应的音频样例计算,得到两者的相似值。
在前一步骤中,得到匹配点以及相应的匹配概率后,还需要在本步骤中利用相似性度量函数对匹配点所代表的音频片段是否就是对应的音频样例进行判断。仿照常用的召回率函数和精确率函数,本步骤中定义了两个相似性度量函数,其计算公式如下:
R ( U , V ) = Σ k p k ′ / Σ i = 1 m p m - - - ( 3 )
P ( U , V ) = Σ k p k ′ / Σ i = 1 n q n - - - ( 4 )
上述两个公式的含义是:将音频样例U看作一个标准答案,比较音频片段V中的切分点的位置是否与U中相同,并计算总体的符合的比率。召回率R表示两片段中位置一致的正确的切分点的个数占U中切分点总数的比例,而精确率P表示两片段中位置一致的正确的切分点的个数占V中切分点总数的比例。从公式中可以看出,由于没有直接采用正确的个数,而是采用正确的概率来衡量,所以R和P值将很少受到小概率值的影响,从而减少了由于检测函数值贴近阈值的边界切分点而引起的错误匹配。因此,这两个相似性度量函数比召回率和精确率更为可信。
在得到上述的两个相似性度量函数后,仿照现有技术中常见的用于综合召回率和精确率的F值的定义方式引进相似值S,其定义如下:
S ( U , V ) = 2 R ( U , V ) P ( U , V ) R ( U , V ) + P ( U , V ) - - - ( 5 )
从上述相似性度量函数的定义可以看出,时间复杂度取决于R和P的计算量,约为O(m+n)。相对于现在流行的相似性度量函数,例如时间复杂度为O(mn)的基于频谱或者对数倒频谱的DTW距离度量方法,本发明中所采用的短时能量特征更为简单,并且取得了更低的时间复杂度。
步骤35、将步骤34所得到的相似值S与一个预先设定的阈值进行比较,若所述的相似值S大于该阈值,则认为与步骤33所得到的匹配点相对应的音频片段和与匹配点相对应的音频样例匹配。在本步骤中所涉及的阈值被称为第四阈值,该阈值的范围在0.8-1.0之间,在本实施例中可采用0.92。
通过上述的步骤31-35可以实现音频样例与待检测音频片段间的匹配。由于在该匹配过程中采用了跳单元的匹配策略以及基于单元的相似性度量方法,因此在检测效率以及检测准确率上都有提高。以本实施例中所涉及的带有175条音频样例的音频标准库对一个小时的湖南卫视节目进行匹配为例,最终有54条音频样例和音频流中相应的片段匹配上,其中有1条误报,2条漏报。实验的召回率为96.4%,精确率为98.1%,历时452.9秒,达到了0.1258倍时。
本发明在上述音频匹配方法的基础上,还提供了一种音频匹配系统,包括匹配操作点选择模块,数对表示模块,匹配点计算模块,相似性计算模块,以及音频匹配模块;其中,
所述的匹配操作点选择模块的作用是,在标准音频库中的各个音频样例的能量包络单元图和待测音频流片段的能量包络单元图上,选择每个能量包络单元的起始点作为匹配操作的点;
所述的数对表示模块的作用是,将每个音频样例以及待测音频流片段分别用所述能量包络单元图上的切分点和概率对组成的数对形式表示;
所述的匹配点计算模块的作用是,将待测音频流片段的数对依次与每个音频样例的数对进行比较,得到匹配点以及对应的匹配概率;
所述的相似性计算模块的作用是,采用相似性度量函数对匹配点计算模块所得到的匹配点以及对应的音频样例进行计算,得到两者的相似值;
所述的音频匹配模块的作用是,将相似性计算模块所得到的相似值与一个预先设定的阈值进行比较,若所述的相似值小于该阈值,则认为与匹配点计算模块所得到的匹配点相对应的音频片段和与匹配点相对应的音频样例匹配。
本发明的音频匹配方法以及相应的系统可以应用到现有的多种音频检索方法及系统中。例如,在一种音频检索方法中,除了采用本发明的音频匹配方法外,还包括从一个包含音频信息的节目中剪切待测音频流片段的步骤;以及对所得到的匹配结果进行包括校正、验证在内的后续处理步骤。而在一种音频检索系统,除了采用本发明的音频匹配系统外,还包括用于剪切待测音频流片段的剪切模块;以及用于对匹配结果进行校正、验证的后续处理模块。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种音频匹配方法,用于从待测音频流片段中检测出与标准音频库中音频样例相匹配的音频片段,包括:
步骤1)、在待测音频流片段的能量包络单元图上,依次选择每个能量包络单元的起始点作为匹配操作的起始点;
步骤2)、将每个音频样例以及待测音频流片段分别用所述能量包络单元图上的切分点和概率对组成的数对形式表示;
步骤3)、将待测音频流片段的数对依次与每个音频样例的数对进行比较,得到匹配点以及对应的匹配概率;
步骤4)、采用相似性度量函数对步骤3)所得到的匹配点以及对应的音频样例进行计算,得到两者的相似值;
步骤5)、将步骤4)所得到的相似值与一个预先设定的阈值进行比较,若所述的相似值大于该阈值,则认为与步骤3)所得到的匹配点相对应的音频片段和与匹配点相对应的音频样例匹配。
2.根据权利要求1所述的音频匹配方法,其特征在于,所述的将待测音频流片段的数对依次与每个音频样例的数对进行比较包括:
对于音频样例中的一个能量包络单元切分点ui,如果在待测音频流片段中存在一个切分点vj,当满足条件|ui-vj|<T时,认为ui为匹配点;其中,所述T是一个预先定义的第三阈值。
3.根据权利要求2所述的音频匹配方法,其特征在于,所述匹配点对应的匹配概率为切分点ui的切分点概率和切分点vj的切分点概率中的较小值。
4.根据权利要求1所述的音频匹配方法,其特征在于,所述的步骤4)包括:
步骤4-1)、对所述的匹配点以及对应音频样例中的相应切分点,计算召回率R与精确率P;
步骤4-2)、根据所得到的召回率R与精确率P计算相似性度量函数的值。
5.根据权利要求4所述的音频匹配方法,其特征在于,所述的召回率R的计算公式为:
R ( U , V ) = Σ k p k ′ / Σ i = 1 m p m
其中,U表示音频样例;V表示待测音频流片段中的一段;p表示所述音频样例的能量包络单元中的切分点概率,p′表示匹配点的匹配概率。
6.根据权利要求4所述的音频匹配方法,其特征在于,所述的精确率P的计算公式为:
P ( U , V ) = Σ k p k ′ / Σ i = 1 n q n
其中,U表示音频样例;V表示待测音频流片段中的一段;q表示所述待测音频流片段中的一段的切分点概率,p′表示匹配点的匹配概率。
7.根据权利要求4所述的音频匹配方法,其特征在于,所述相似性度量函数的计算公式为:
S ( U , V ) = 2 R ( U , V ) P ( U , V ) R ( U , V ) + P ( U , V )
8.一种音频匹配系统,其特征在于,包括匹配操作点选择模块,数对表示模块,匹配点计算模块,相似性计算模块,音频匹配模块以及音频标准库;其中,
所述的匹配操作点选择模块的作用是,在待测音频流片段的能量包络单元图上,选择每个能量包络单元的起始点作为匹配操作的点;
所述的数对表示模块的作用是,将每个音频样例以及待测音频流片段分别用所述能量包络单元图上的切分点和概率对组成的数对形式表示;
所述的匹配点计算模块的作用是,将待测音频流片段的数对依次与每个音频样例的数对进行比较,得到匹配点以及对应的匹配概率;
所述的相似性计算模块的作用是,采用相似性度量函数对匹配点计算模块所得到的匹配点以及对应的音频样例进行计算,得到两者的相似值;
所述的音频匹配模块的作用是,将相似性计算模块所得到的相似值与一个预先设定的阈值进行比较,若所述的相似值大于该阈值,则认为与匹配点计算模块所得到的匹配点相对应的音频片段和与匹配点相对应的音频样例匹配;
所述的音频标准库用于存储音频样例的能量包络单元图。
9.一种音频检索方法,包括:
从一个包含音频信息的节目中剪切待测音频流片段;
采用权利要求1-7所述的音频匹配方法对所述的待测音频流片段与音频标准库中的音频样例进行匹配;
对所得到的匹配结果进行包括校正、验证在内的后续处理。
10.一种音频检索系统,其特征在于,包括:
用于剪切待测音频流片段的剪切模块;
权利要求8所述的音频匹配系统;
用于对匹配结果进行校正、验证的后续处理模块。
CN2008100571619A 2008-01-30 2008-01-30 一种音频匹配方法及系统 Expired - Fee Related CN101221760B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2008100571619A CN101221760B (zh) 2008-01-30 2008-01-30 一种音频匹配方法及系统
PCT/CN2009/000086 WO2009097738A1 (zh) 2008-01-30 2009-01-20 一种音频匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100571619A CN101221760B (zh) 2008-01-30 2008-01-30 一种音频匹配方法及系统

Publications (2)

Publication Number Publication Date
CN101221760A true CN101221760A (zh) 2008-07-16
CN101221760B CN101221760B (zh) 2010-12-22

Family

ID=39631544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100571619A Expired - Fee Related CN101221760B (zh) 2008-01-30 2008-01-30 一种音频匹配方法及系统

Country Status (2)

Country Link
CN (1) CN101221760B (zh)
WO (1) WO2009097738A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009097738A1 (zh) * 2008-01-30 2009-08-13 Institute Of Computing Technology, Chinese Academy Of Sciences 一种音频匹配方法及系统
CN101594527B (zh) * 2009-06-30 2011-01-05 成都艾索语音技术有限公司 从音频视频流中高精度检测模板的两阶段方法
CN101593517B (zh) * 2009-06-29 2011-08-17 北京市博汇科技有限公司 一种音频比对系统及其音频能量比对方法
CN102419976A (zh) * 2011-12-02 2012-04-18 清华大学 一种基于量子学习优化决策的音频索引方法
CN103440330A (zh) * 2013-09-03 2013-12-11 网易(杭州)网络有限公司 一种音乐节目信息获取方法和设备
CN104133851A (zh) * 2014-07-07 2014-11-05 小米科技有限责任公司 音频相似度的检测方法和检测装置、电子设备
CN104900238A (zh) * 2015-05-14 2015-09-09 电子科技大学 一种基于感知滤波的音频实时比对方法
CN104900239A (zh) * 2015-05-14 2015-09-09 电子科技大学 一种基于沃尔什-哈达码变换的音频实时比对方法
CN104992713A (zh) * 2015-05-14 2015-10-21 电子科技大学 一种快速广播音频比对方法
CN112346696A (zh) * 2019-08-07 2021-02-09 国际商业机器公司 虚拟助理的语音比较
CN112446975A (zh) * 2020-11-18 2021-03-05 平安普惠企业管理有限公司 考勤方法、系统、装置和计算机设备
CN112542169A (zh) * 2020-12-25 2021-03-23 腾讯科技(深圳)有限公司 一种语音识别处理方法与装置
CN112346696B (zh) * 2019-08-07 2024-06-04 国际商业机器公司 虚拟助理的语音比较

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783683B (zh) * 2018-12-06 2022-11-18 华南理工大学 一种用于实时监控的音频聚类方法
CN111179914B (zh) * 2019-12-04 2022-12-16 华南理工大学 一种基于改进动态时间规整算法的语音样本筛选方法
CN111292725B (zh) * 2020-02-28 2022-11-25 北京声智科技有限公司 一种语音解码方法及装置
CN113270118B (zh) * 2021-05-14 2024-02-13 杭州网易智企科技有限公司 语音活动侦测方法及装置、存储介质和电子设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2979999B2 (ja) * 1995-06-21 1999-11-22 日本電気株式会社 音声認識装置
CN1123863C (zh) * 2000-11-10 2003-10-08 清华大学 基于语音识别的信息校核方法
JP2004334024A (ja) * 2003-05-09 2004-11-25 Asahi Kasei Corp 標準パターン作成方法、作成装置及び作成プログラム
GB2422279A (en) * 2004-09-29 2006-07-19 Fluency Voice Technology Ltd Determining Pattern End-Point in an Input Signal
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
CN100411011C (zh) * 2005-11-18 2008-08-13 清华大学 用于语言学习机的发音质量评价方法
JP4527679B2 (ja) * 2006-03-24 2010-08-18 学校法人早稲田大学 音声の類似度の評価を行う方法および装置
CN100585592C (zh) * 2006-05-25 2010-01-27 北大方正集团有限公司 一种音频片断之间相似度度量的方法
CN101221760B (zh) * 2008-01-30 2010-12-22 中国科学院计算技术研究所 一种音频匹配方法及系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009097738A1 (zh) * 2008-01-30 2009-08-13 Institute Of Computing Technology, Chinese Academy Of Sciences 一种音频匹配方法及系统
CN101593517B (zh) * 2009-06-29 2011-08-17 北京市博汇科技有限公司 一种音频比对系统及其音频能量比对方法
CN101594527B (zh) * 2009-06-30 2011-01-05 成都艾索语音技术有限公司 从音频视频流中高精度检测模板的两阶段方法
CN102419976A (zh) * 2011-12-02 2012-04-18 清华大学 一种基于量子学习优化决策的音频索引方法
CN103440330A (zh) * 2013-09-03 2013-12-11 网易(杭州)网络有限公司 一种音乐节目信息获取方法和设备
CN104133851A (zh) * 2014-07-07 2014-11-05 小米科技有限责任公司 音频相似度的检测方法和检测装置、电子设备
CN104133851B (zh) * 2014-07-07 2018-09-04 小米科技有限责任公司 音频相似度的检测方法和检测装置、电子设备
CN104992713A (zh) * 2015-05-14 2015-10-21 电子科技大学 一种快速广播音频比对方法
CN104900239A (zh) * 2015-05-14 2015-09-09 电子科技大学 一种基于沃尔什-哈达码变换的音频实时比对方法
CN104900238B (zh) * 2015-05-14 2018-08-21 电子科技大学 一种基于感知滤波的音频实时比对方法
CN104900238A (zh) * 2015-05-14 2015-09-09 电子科技大学 一种基于感知滤波的音频实时比对方法
CN104992713B (zh) * 2015-05-14 2018-11-13 电子科技大学 一种快速广播音频比对方法
CN112346696A (zh) * 2019-08-07 2021-02-09 国际商业机器公司 虚拟助理的语音比较
CN112346696B (zh) * 2019-08-07 2024-06-04 国际商业机器公司 虚拟助理的语音比较
CN112446975A (zh) * 2020-11-18 2021-03-05 平安普惠企业管理有限公司 考勤方法、系统、装置和计算机设备
CN112542169A (zh) * 2020-12-25 2021-03-23 腾讯科技(深圳)有限公司 一种语音识别处理方法与装置
CN112542169B (zh) * 2020-12-25 2024-05-10 腾讯科技(深圳)有限公司 一种语音识别处理方法与装置

Also Published As

Publication number Publication date
CN101221760B (zh) 2010-12-22
WO2009097738A1 (zh) 2009-08-13

Similar Documents

Publication Publication Date Title
CN101221760B (zh) 一种音频匹配方法及系统
US11670325B2 (en) Voice activity detection using a soft decision mechanism
US9368116B2 (en) Speaker separation in diarization
US8918316B2 (en) Content identification system
US20200005796A1 (en) Diarization using linguistic labeling
US20180158464A1 (en) Blind Diarization of Recorded Calls With Arbitrary Number of Speakers
CN100580693C (zh) 一种广告检测识别方法及系统
EP3255633B1 (en) Audio content recognition method and device
US20100121637A1 (en) Semi-Automatic Speech Transcription
US20180293969A1 (en) Audio information processing method and apparatus
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
US20180158469A1 (en) Audio processing method and apparatus, and terminal
CN106373598A (zh) 音频重播的控制方法和装置
CN102708861A (zh) 基于支持向量机的不良语音识别方法
CN112992191B (zh) 语音端点检测方法、装置、电子设备及可读存储介质
US10147443B2 (en) Matching device, judgment device, and method, program, and recording medium therefor
US10522160B2 (en) Methods and apparatus to identify a source of speech captured at a wearable electronic device
US20220270637A1 (en) Utterance section detection device, utterance section detection method, and program
WO2024093578A1 (zh) 语音识别方法、装置、电子设备、存储介质及计算机程序产品
CN104732984A (zh) 一种快速检测单频提示音的方法及系统
US11521629B1 (en) Method for obtaining digital audio tampering evidence based on phase deviation detection
US20230402030A1 (en) Embedded Dictation Detection
CN106297824B (zh) 一种基于分层可靠度变化趋势的音频分割方法
CN107025902A (zh) 数据处理方法及装置
CN106101573A (zh) 一种视频标注的锚定及匹配方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101222

Termination date: 20220130