CN1270361A - 使用内容和扬声器信息进行音频信息检索的方法和装置 - Google Patents

使用内容和扬声器信息进行音频信息检索的方法和装置 Download PDF

Info

Publication number
CN1270361A
CN1270361A CN00104774A CN00104774A CN1270361A CN 1270361 A CN1270361 A CN 1270361A CN 00104774 A CN00104774 A CN 00104774A CN 00104774 A CN00104774 A CN 00104774A CN 1270361 A CN1270361 A CN 1270361A
Authority
CN
China
Prior art keywords
speechmaker
audio
content
index
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN00104774A
Other languages
English (en)
Inventor
霍梅沃恩·萨德莫哈姆德·贝基
阿兰·查尔斯·路易斯·特里特施勒
玛荷什·维斯万纳坦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1270361A publication Critical patent/CN1270361A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种根据音频内容和演讲人标识检索音频信息的方法和装置。基于内容和基于演讲人的音频信息结果被结合在一起以提供对音频信息的引用。一个检索同包含一个文本串及一个给定的演讲人标识的文本查询相对应的信息的查询搜索系统。一个对音频信息进行转换并建立索引以创建以时间标记的内容索引文件和演讲人索引文件的索引系统。一个使用所产生的内容和演讲人索引,根据音频内容和演讲人标识执行查询-文档匹配的音频检索系统。

Description

使用内容和扬声器信息进行 音频信息检索的方法和装置
本发明涉及信息检索系统,更确切地,涉及从一个多媒体数据库文件中检索满足用户指定要求的多媒体信息,如音频和视频信息的方法和装置。
信息检索系统主要集中在从大的文本集合中检索文本文档。文本检索的基本原理已经充分地提出并整理发布。例如,可参见G.Salton,Automatic Text Processing,Addison-Wesley,1989。索引是一种将文档描述同查询描述进行匹配的机制。索引建立阶段(indexingphase)用一组字或词句对文档进行描述,而检索阶段(retrieval phase)用一组字或词句对查询进行描述。当文档描述同查询描述匹配时一个文档(或其中的一部分)得到检索。
多媒体对象,例如音频和视频文件所需的数据检索模型同文本文档所需的模型有很大的不同。对这些多媒体信息建立索引的标准特征集合有一点共性。对音频数据库建立索引的一种方法是使用某种音频提示,例如鼓掌,音乐或演讲。相似地,对视频信息建立索引的一种方法是使用关键帧,或相片的变化。对于有影响的演讲中的音频和视频信息,例如从广播中摘出的音频和视频信息,对应的文本可以使用语音识别系统得到,而转换文本可以用作建立相关音频(及视频)的索引。
当前的音频信息检索系统包含两个部分,即一个语音识别系统,用于将音频信息转换为用于建立索引的文本,和一个基于文本的信息检索系统。语音识别系统一般由三个部分组成,即词汇表,语言模型和一组针对词汇表中每个词的发音。词汇表是由语音识别器用来将语音翻译为文本的一组词。作为解码处理的一部分,该识别器将来自语音输入的声音同词汇表中的词进行匹配。因此,词汇表定义了可以被转换的词。如果一个词不在词汇表中,则该词将得不到识别,不可识别的词必须首先被加入到词汇表中。
语言模型是同特定领域相关的词汇表中一系列词的数据库。其中还包括这些词以特定次序出现时的一组概率。当使用语音模型时,语音识别器的输出将偏向高概率词序。这样,正确的解码处理是判断用户所说的一系列词是否在语言模型中具有高概率。这样,当用户说了一个不常见的词序时,解码性能将下降。词的识别完全基于它的发音,也就是说,词的语音表示。为了得到最好的准确率,必须使用同特定领域相关的语言模型。建立这样一个语言模型需要明确的文本转换及语音。
基于文本的信息检索系统一般分两步进行工作。第一步是离线(off-line)建索引阶段,这时会收集同文本文档相关的统计信息来建立索引。第二步是在线(on-line)搜索并检索阶段,使用该索引来进行查询-文档匹配,随后将相关的文档(及附加信息)返回给用户。在建立索引阶段,会对语音识别系统的文本输出进行处理以得到在检索阶段用于快速搜索的文档描述。
在建立索引过程中,一般按序执行下列操作:(i)标记化(tokenization),(ii)标记语音段落,(iii)形态(morphological)分析,及(iv)使用标准的结束词(stop-word)列表删除结束词。标记化探测语句边界。形态分析是一种语音信号处理的形式,它将名词分解为其词根,并附加一个指示复数形式的标记。同样,动词被分解为指示人,时态和语气的单元,并附加该动词的词根。关于索引建立过程的一般性讨论可以参见于在此作为参照的S.Dharanipragada et al.,"Audio-Indexing forBroadcast News,"in Proc.SDR97,1997。
当用户使用这样一个基于内容的音频信息检索系统来检索其中包含一或多个在用户定义的查询中定义的关键词的音频文件时,当前的音频信息检索系统不允许用户根据演讲人标识有选择性地检索相关的音频文件。这样,需要一种方法和装置,可以根据演讲人标识和音频内容来检索音频信息。
一般而言,这里所揭示的是一种根据音频内容和演讲人标识用于检索音频信息的方法和装置。所揭示的音频检索系统将基于内容和基于演讲人的音频信息检索的结果结合在一起来提供对音频信息(并间接对视频)的引用。
根据本发明的一个方面,查询搜索系统检索同包含一个文本串(一或多个关键词)的文本查询及给定演讲人的标识相对应的信息。用户定义的查询约束(constraints)同经索引的音频或视频数据库(或两者)进行比较并对包含与给定演讲人所说的指定词相关的音频/视频片段进行检索,展现给用户。
所揭示的音频检索系统由两个主要部分组成。一个检索系统,转换音频信息并对其建立索引以创建用时间标记的内容索引文件和演讲人索引文件;一个音频检索系统使用所生成的内容索引和演讲人索引,根据音频内容和演讲人标识执行查询-文档匹配。将相关的文档(及可能的附加信息)返回给用户。
通过比较内容和演讲人两个领域中文档片段的起止时间,对符合用户指定内容和演讲人约束的文档进行标识。根据本发明的另一个方面,内容和演讲人两个领域之间交迭的部分也已考虑在内。那些交迭较多的文档片段权重越高。通常,对于符合用户定义内容和演讲人约束的文档,使用下面的等式计算出一个组合分值分配给该文档:
组合分值=(分级文档分值+(lambda*演讲人片段分值))*交迭因子
分级文档分值对基于内容的信息检索进行分级,例如,使用Okapi等式。演讲人片段分值是一个距离度量值,用来指示演讲人片段和所登记的演讲人信息之间的接近程度,它可以在索引建立阶段进行计算。Lambda是在对演讲人进行标识的过程中一个用于记录可信度的变量,它是一个介于0和1之间的值。
通常,交迭因子用来补偿完全没有交迭的片段,是一个介于0和1之间的值。根据本发明该组合分值可以用来对返回给用户的所标识的文档进行分级排序,将最匹配的片段放在列表的头部。
通过下面所参照的详细描述和附图,可以更完整地理解本发明以及本发明进一步的特征和优点。
图1是根据本发明的一个音频检索系统的方框图;
图2A是图1内容索引文件中文档数据库的一张表;
图2B是图1内容索引文件中文档存储块(chunk)索引的一张表;
图2C是图1内容索引文件中单字组(unigram)文件(词频)的一张表;
图2D是图1内容索引文件中倒排(inverse)文档索引(IDF)的一张表;
图3是图1中演讲人索引的一张表;
图4根据本发明示出了一个有代表性的演讲人的登记过程;
图5是一张流程图,描述了图1中音频检索系统所执行的一个示例性的索引建立系统过程;及
图6是一张流程图,描述了图1中音频检索系统所执行的一个示例性的内容和演讲人音频检索系统过程。
在图1中示出了根据本发明的一个音频检索系统100。如下面所进一步讨论的,该音频检索系统100结合了两种根据音频内容以及演讲人标识来搜索音频资料以提供对音频信息(及间接对视频)引用的不同方法。特别地,用户指定的基于内容的检索结果,例如Web搜索引擎的结果,根据本发明将同基于演讲人的检索结果结合在一起。
本发明允许一个查询搜索系统检索同包含一个附加约束,也就是给定演讲人的标识的文本查询相对应的信息。这样,一个用户查询包括一个文本串,包含了一或多个关键词,以及给定演讲人的标识。本发明将用户定义查询的约束同一个经索引的音频及/或视频数据库进行比较,并检索相关的包含给定演讲人所说的指定词的音频/视频片段。
如图1所示,本发明的音频检索系统100包含两个主要部分,也就是说,一个转换音频信息并对其建立索引的音频检索系统500,及一个音频检索系统600。如下面所进一步讨论的,该索引建立系统500在索引建立阶段对语音识别系统的文本输出进行处理,建立内容索引和演讲人索引。在检索阶段,内容和演讲人音频检索系统600使用索引建立阶段所生成的内容和演讲人索引,根据音频内容和演讲人标识进行查询-文档匹配,并将相关的文档(以及可能的附加信息)返回给用户。
如下面所讨论的,语音识别系统按每个词的时间顺序产生转换文本。同一般的信息检索场景不同,在转换文本中没有明显的文档,因此必须要人工生成。在所示的实施例中,对于基于内容的索引,同每个音频或视频文件对应的转换文本自动被划分为包含固定数量词,如100个词的交迭片段,并且将每个片段作为一个单独的文档来对待。在另一种实现方法中,使用标题识别模式将这些文件划分为多个标题。同样,对于基于演讲人的索引,音频或视频文件被自动划分为同给定演讲人相关的单独片段。这样,每当出现一个新演讲人讲话,就会产生一个新片段。
本发明通过基于内容的检索和基于演讲人的检索来确定音频,建立了音频的最佳部分。需要注意的是在基于内容的索引中,片段大小大约是讲100个词的时间,约30秒。但在基于演讲人的索引中,片段长度是可变的,它是演讲人变化探测器的一个函数。这样,不能预计片段长度。这样,根据本发明的特征,要同时对两个领域的片段起止时间进行比较。
根据本发明的一个进一步的特征,内容和演讲人领域之间交迭的部分也已考虑在内。那些交迭较多的文档片段权重越高。通常,如下面结合图6进一步讨论的,使用下面的等式计算出一个组合分值:
组合分值=(分级文档分值+(lambda*演讲人片段分值))*交迭因子
分级文档分值对基于内容的信息检索进行分级,例如,使用下面要讨论的Okapi等式。分级文档分值是一个查询项的函数,因此在检索时进行计算。演讲人片段分值是一个距离度量值,用来指示演讲人片段和所登记的演讲人信息之间的接近程度,它可以在索引建立阶段进行计算。Lambda是在对演讲人进行标识的过程中一个用于记录可信度的变量,它是一个介于0和1之间的值。交迭因子用来补偿完全没有交迭的片段,是一个介于0和1之间的值。根据本发明该组合分值可以用来对返回给用户的所标识的文档进行分级排序,将最匹配的片段放在列表的头部。
图1是一张方框图,示出了根据本发明的一个示例音频检索系统100的框架。音频检索系统100可以作为一个通用计算系统来进行实现,例如图1所示的通用计算系统。音频检索系统100包括一个处理器110和相关的存储器,如数据存储设备120,它可以异地分布或放在本地。处理器110可以作为一个单独的处理器来进行实现,或者是几个本地或分布的以并行方式操作的处理器。数据存储设备120及/或一个只读存储器(ROM)用于存储一或多条指令,供处理器110来检索,解释并执行。
数据存储设备120最好包括一个音频资料数据库150,用来存储一或多个根据本发明可以进行索引和检索的音频或视频文件(或两者都有)。另外,数据存储设备120包括一或多个内容索引文件200和一或多个演讲人索引文件300,下面会结合图2和3分别进行讨论。通常,如下面结合图2A到2D所讨论的,内容索引文件200包括一个文档数据库210(图2A),一个文档存储块索引240(图2B),一个单字组文件(词频)260(图2C)以及一个倒排文档索引(IDF)275(图2D)。内容索引文件200及附加的索引信息在索引建立阶段借助语音识别系统生成,它将音频(或视频)文档描述为一组词或句的列表。演讲人索引文件300在索引建立阶段借助演讲人标识系统生成,并为一个音频文件每个片段提供一个演讲人标签。随后,在检索阶段,对内容索引文件200和演讲人索引文件300进行访问,如果内容索引文件200中的文档描述同用说指定查询的描述匹配并且由演讲人索引文件300中演讲人标签所指定的演讲人标识同指定的演讲人标识匹配,则检索一个文档。
另外,数据存储设备120包括程序代码,该程序代码将处理器110作为下面将结合图5进一步讨论的索引建立系统500和下面将结合图6进一步讨论的内容和演讲人音频检索系统600进行配置。如前所示,索引建立系统500对音频资料数据库150中一或多个音频文件进行分析并生成相对应的内容索引文件200和演讲人索引文件300。内容和演讲人音频检索系统600根据用户指定的查询来访问内容索引文件200和演讲人索引文件300,根据音频内容和演讲人标识执行查询-文档匹配,并将相关的文档返回给用户。
索引文件
如前所示,首先对示例音频进行转换,例如,使用一个语音识别系统来产生音频信息的一个文档版本。随后,索引建立系统500对音频文件的文本版本进行分析,产生相对应的内容索引文件200和演讲人索引文件300。
如前所示,内容索引文件200包括一个文档数据库210(图2A),一个文档存储块索引240(图2B),一个单字组文件(词频)260(图2C)以及一个倒排文档索引(IDF)275(图2D)。通常,内容索引文件200及附加的索引信息以一组词或句的列表的方式存储了文档的描述信息。在所示实施例中,内容索引文件200在其他信息中记录了Okapi等式所需的统计信息。
文档数据库210(图2A)维护了多条记录,例如记录211到214,每条记录都同所示实施例中一个不同的包含100个词的文档存储块相关。在一种实现方法中,在文档之间有50个词交迭。对于每个在域220所标识的文档存储块,文档数据库210在域222和224分别指定该存储块的起止时间,并在域226指定文档长度。最后,对于每个文档存储块,文档数据库210提供一个指针,该指针同对文档存储块进行索引的文档存储块索引240相对应。尽管在所示实施例中文档具有100个词的固定长度,但字节长度是不同的。如下面所讨论的,文档长度(以字节表示)用于规范化信息检索的分值。
文档存储块索引240(图2B)维护了多条记录,如记录241到244,每条记录都同所对应的文档存储块中的一个不同的词相关。这样,在所示实现方法中,在每个文档存储块索引240中有100条记录。在域250中对于每个词串(来自文档存储块)进行了标识,文档存储块索引240在域255中指示了该词的开始时间。
单字组文件(词频)260(图2C)同每个文档相关,并指示出了每个词在文档中的出现次数。单字组文件260维护了多条记录,例如记录261到264,每条记录同在文档中出现的一个不同词相关。在域265对每个词串进行了标识,单字组文件260在域270指示出了某词在文档中的出现次数。
倒排文档索引275(图2D)指示出了在文档集合(音频资料库)中每个词的出现次数,在出现某词的所有文档中,用它对当前文档的相关性进行评级。倒排文档索引275维护了多条记录,例如记录276到279,每条记录同词汇表中的一个不同词相关。在域280中用词汇标识符对每个词进行了标识,倒排文档索引275在域285中指示了词串,域290是倒排文档频率(IDF),域295是出现某词的所有文档的列表。域295中的文档列表使得不用进行实际搜索就可以判断出某词是否出现在某个文档中。
如前所示,图3所示的演讲人索引文件300为一个音频文件的每个片段提供了一个演讲人标签。演讲人索引文件300维护了多条记录,例如记录305到312,每条记录同一个音频文件的不同片段相关。每个语音片段同不同的演讲人相关。域325中标识了每个片段,演讲人索引文件300在域330中标识了相应的演讲人,域335是包含某片段的相应的音频或视频文件。另外,演讲人索引文件300还在域340和345中分别指示出了某片段(如从文件开始处的偏移量)的起止时间。演讲人索引文件300在域350中设置了一个分值,用来指示结合图5如下面所讨论的,演讲人片段和所登记的演讲人信息之间的接近程度。
演讲人登记处理
图4示出了一个已知的用于注册或登记演讲人的处理过程。如图4中所示,对每个已注册的演讲人,演讲人的名字将随同一个演讲人训练文件,例如一个脉冲代码调制(pulse-code modulated,PCM)文件提供给演讲人登记处理410。演讲人登记处理410对演讲人训练文件进行分析,在演讲人数据库420中为每个演讲人创建一条记录。将演讲人的声音样本加入演讲人数据库420的处理被称之为登记。登记处理是离线进行的,音频索引系统假设这样一个数据库包含了所有感兴趣的演讲人。对每个演讲人大约需要一分钟的音频,该音频来自包含多种语音条件的多个声道和麦克风。已登记演讲人的训练数据或数据库使用层次结构进行存储,以便为有效的识别和检索而对模型的访问进行优化。
建立索引处理
如前所示,在索引建立阶段,图5中所示的索引系统500对来自语音识别系统的输出文本进行处理,执行内容索引和演讲人索引的建立。如图5所示,内容索引和演讲人索引的建立是沿两条平行处理分支进行实现的,在步骤510到535执行内容索引的建立,在步骤510及550到575执行演讲人索引的建立。但值得注意的是,内容索引的建立和演讲人索引的建立可以顺序执行,这对于在该技术方面具有一般技巧的人而言是很明显的。
作为内容索引建立和演讲人索引建立的初始步骤,对数倒频谱特征(cepstral feature)在步骤510以所知的方式从音频文件中提取出来。通常,步骤510将音频文件的域改为频率域,减小动态范围并进行逆向转换以将信号返回到时间域。
建立内容索引
然后音频信息被提交给一个转换引擎,例如ViaVioce语音识别系统,它可以从纽约Armonk的IBM公司以商业方式得到,在步骤515产生一个经转换的文件,其中的词以时间进行标记。随后,在步骤520,这些以时间标记的词被收集到具有固定长度,例如所示实施例中100个词的文档存储块中。
内容索引文件200所需的统计信息可以在步骤530从音频文件中抽取。如上所讨论的,索引建立操作包括:(i)标记化(tokenization),(ii)标记语音段落,(iii)形态(morphological)分析,及(iv)使用标准的结束词(stop-word)列表删除结束词。标记化探测语句边界。形态分析是一种语音信号处理的形式,它将名词分解为其词根,并附加一个指示复数形式的标记。同样,动词被分解为指示人,时态和语气的单元,并附加该动词的词根。
在步骤530,索引系统500通过Okapi等式得到所需的统计信息。对每个在音频域标识的词,获取下面的信息:词频(在给定文档中某词的出现次数);倒排文档频率(IDF)(标识出现某词的文档数目);文档长度(为了规范化)和一组指向包含某词的每个文档的链接指针(一个倒排索引)。
在步骤530中获得的信息在步骤535被存储在内容索引文件200中,或者如果已存在内容索引文件,则对信息进行更新。
演讲人索引
如下面进一步所讨论的,基于演讲人的信息检索系统包含两个部分:(1)一个语音变化探测系统(通常称为演讲人分割),及(2)一个独立于演讲人,语言及文本的演讲人识别系统。为了实现演讲人标识处理的自动化,在步骤550必须对非同类语音部分的边界(翻转)进行探测。每个同类片段应该对应单个演讲人的语音。一旦描述好后,每个片段可以按特定的演讲人进行分类(假设演讲人识别系统所需的最小片段长度需求)。
在所示实施例的步骤550用于划分语音片段的模型选择标准(model-selection criterion)是众所周知的贝叶斯信息标准(BayesianInformation Criterion,BIC)。输入音频流可以在对数倒频谱空间上通过高斯处理来进行建模。BIC是探测高斯处理的(演讲人)翻转时最可能采用的方法。模型标识存在的问题是从一组候选模型中选择一个来描述给定的数据集。假设从输入音频信号导出的帧(10ms)是独立的并且是一次高斯处理的结果。为了在帧i,1<=i<N,之后在一个N特征向量的窗口中探测是否存在语音变化,可以建立两个模型。第一个模型通过一次高斯处理表示整个窗口,其特征在于它采用的方法和完全协方差(fullccvariance) {μ,∑}。第二个模型用第一次高斯{μ1,∑1}表示窗口的第一部分直到帧i,用另一次高斯{μ2,∑2}表示窗口的第二部分。这样判别式可以表示为:ΔBIC(i)=-R(i)+λP,其中 R ( i ) = N 2 log | Σ | - N 1 2 log | Σ 1 | - N 2 2 log | Σ 2 |
Figure A0010477400161
是对窗口的补偿,N1=i是窗口第一部分的帧的数目,N2=(N-i)是第二部分帧的数目;d是帧的维(dimension)。因此,P反映了模型的复杂程度,
Figure A0010477400162
是用来表示高斯的参数数目。
ΔBIC<0意味着,要考虑补偿,将窗口划分为两个高斯的模型较之仅用一次高斯来表示整个窗口的模型,更加合适。因此BIC象是一个阀值似然(thresholded-likelihood)比率标准,其中的阀值并不是利用经验来进行调节,它是有理论基础的。这一标准是非常强壮的并且不需要任何前继培训。
在所示实现中,为了在不损失精确度的情况下加快速度,这里采用了BIC算法。所使用的特征向量是简单的使用24维的美对数倒频谱(melcepstra)帧。在这些向量上没有进行其他处理。该算法运行在逐个窗口的基础上,并且在每个窗口,对一些帧进行测试以检查它们是否是BIC规定的片段边界。如果没有发现片段边界(ΔBIC<0为正数),则窗口大小增加。否则,记录旧窗口的位置,该位置也对应新窗口的开始位置(使用原来的大小)。
下面描述BIC的详细实现步骤。出于明显的实用原因考虑,BIC并不是为窗口中的每个帧来实施计算的。而是使用帧的分辨率r,它将窗口划分为M=N/r个子片段。在(M-1)次BIC测试的结果中,选择造成ΔBIC<0负数值最大的一个。如果存在这样一个负数值,则将探测窗口重置为其最小尺寸,并以探测到的点用一个更好的分辨率进行精炼。这些精炼步骤提高了整个计算次数并且影响这一算法的速度性能。因此,这些应在特殊的用户环境,实时或离线地剪裁掉。
如果没有发现负数值,窗口大小使用下面的规则Ni=Ni-1+ΔNi,从Ni-1增加到Ni帧,当还没有发现变化时Ni也进行增长:Ni-Ni-1=2(Ni-1-Ni-2)。在语音信号的同类片段中这将加速算法运行。为了不增加错误率,ΔNi有一个上限。当探测窗口太大时,BIC的计算次数可以进一步减小。如果提供的子片段超过Mmax,仅有Mmax-1次BIC计算会被执行--跳过第一次。
在步骤555中,使用步骤550的结果分析在步骤510产生的特征并生成话音片段,它由单个演讲人的多个语音存储块组成。话音片段在步骤560提交给演讲人标识系统。关于演讲人标识系统的讨论,可参见如H.S.M.Beigietal.,“IBM Model-Based and Fram-By-Fram Speaker-Recognition,”in Proc.Of Speaker Recognition and Its Commercialand Forensic Applications,Avignon,France(1998)。通常,演讲人标识系统将话音片段同演讲人数据库420(图4)相比较并发现“最接近的”演讲人。
演讲人标识系统有两种不同的实现方法,基于模型的方法和基于帧的方法,它们都各有优缺点。引擎既不依赖于文本也不依赖于语言,这方便了例如广播新闻的实时语音材料的索引建立。
演讲人标识--基于模型的方法
为了为数据库中的众多演讲人建立一组训练模型,根据一个具有M帧的语音序列,模型Mi为第i个演讲人服务,用d维特征向量 进行计算。这些模型根据它们的统计参数进行存储,例如,当选择了高斯分布的情况下,
Figure A0010477400172
由平均向量(Mean vector),协方差矩阵,和计数(Counts)组成。
通过使用在H.S.M.Beigi et.Al,“"A Distance Measure BetweenCollections of Distributions and Its Application to SpeakerRecognition,”Proc.ICASSP98,Seattle,WA,1998提出的距离度量,为了比较这两种模型,建立一个层次结构来设计一种具有多种不同能力的演讲人识别系统,包括演讲人识别(证实声明),演讲人分类(分配一个演讲人),演讲人校验(通过将标签同多个其特征同那些带标签的演讲人相匹配的演讲人进行比较第二次审查(pass)以确认分类),以及演讲人聚类(clustering)。
为演讲人识别而设计的距离度量可以用不同数目的分布ni计算两个模型之间的可接受距离。根据两个演讲人的模型的参数表示对他们进行单独比较,可以避免带入其他特征,从而使对两个演讲人进行比较的任务的计算强度大大减小。但是,识别阶段这种距离度量方法的一个缺点是在比较计算开始前不得不使用整个语音片段来建立测试人(声明者)的模型。逐帧方法减轻了这一问题。
演讲人标识一逐帧方法
用Mi表示对应第i个登记演讲人的模型。  Mi完全由参数集进行定义,
Figure A0010477400181
包含了平均向量,协方差矩阵,以及每个演讲人i的高斯混合模型(Gaussian Mixture Model,GMM)的ni个部分的混合权重。这些模型使用包含一个M帧的语音序列的训练数据,以及如上一节所描述的d维特征向量,
Figure A0010477400182
来进行创建。如果演讲人的总体大小为Np,则模型空间的集合为 。基本目标是找到i,以便Mi能最好地解释以一个N帧序列,
Figure A0010477400184
表示的测试数据,或者作出判断,没有任何模型可以正确地描述数据。下面基于帧的方法对距离度量的可能性进行加权计算,di,n用于决策:
Figure A0010477400185
这里,使用一个规范表示, P ( f → n | · ) = 1 ( 2 π ) d / 2 | Σ i , j | 1 / 2 e - 1 2 ( f → n - μ → i , j ) ′ Σ i , j - 1 ( f → n - μ → i , j )
来自测试数据的模型Mi的总距离Di是总测试帧数上所有距离的和。
为了进行分类,选择距语音片段距离最小的模型。通过对该最小距离片段和背景模型进行比较,可以提供一种方法指示原来的模型中没有一个匹配得很好。可选择地,可以使用选举技术来计算总距离值。
为了进行校验,一组预先确定的组成带标签演讲人群体的成员得到扩充,加入了多个背景模型.通过使用这一集合作为模型空间,如果声明者的模型具有最小距离则测试数据通过测试进行校验;否则,拒绝测试数据.
由于语音帧必须保留用来计算演讲人之间的距离,在训练中不使用距离度量.因此训练完成后,使用上面所讨论的基于模型的技术方法。
用于基于演讲人的检索方法的索引文件是在步骤565通过在演讲人分类和校验的结果上进行第二次审查而建立起来的。如果在步骤565对演讲人标识进行校验,则演讲人标签在步骤570被分配给片段。
如前所示,每个分类结果都伴随着一个用于指示从原来已登记的演讲人模型到音频测试片段之间距离的分值,相对于所关注的音频片(audio clip)的开始时间的片段起止时间,和一个标签(在登记期间对所提供的演讲人命名)。另外,对于任何给定的音频片,将收集分配给同一(演讲人)标签的所有片段。接着它们按它们的分值进行排序并用具有最好分值的片段进行规范化。对由系统处理并加入索引的每个新音频片,所有带标签的片段再次进行排序并重新规范化。
在步骤575中这一信息被存储在一个演讲人索引文件300中,或者如果演讲人索引文件300已经存在,则更新信息。
检索处理
如前所示,在检索阶段,图6中所示的内容和演讲人音频检索系统600使用在索引建立阶段生成的内容和演讲人索引根据音频内容和演讲人标识来执行查询-文档匹配,并将相关文档(及可能的附加信息)返回给用户。通常,可以使用两个不同的,非交迭的模块完成检索,一个用于基于内容的检索,另一个用于基于演讲人的检索。由于这两个模块是完全独立的,因此可以使用线索或进程来并发运行程序。在所示实现中两个模块顺序执行。
在检索时,内容和演讲人音频检索系统600在步骤610和20装入建立索引所使用的同一词汇表,标记字典,形态表和标记表。适当的内容索引文件200和演讲人索引文件300在步骤620被装入存储器。在步骤625直到接收到一个查询后执行测试。
查询串在步骤630进行接收和处理。为了响应一个所接收到的查询,在步骤635对查询串和内容索引文件200进行比较以使用一个目标分级函数(分级文档分值)计算出最相关的文档。根据本发明(步骤645),在对这些文档进行分级时使用的分级文档分值被记录下来用于随后组合分值的计算。
下面是用于计算文档d和一个查询q之间的分级文档分值的Okapi公式的版本: S ( d , q ) = Σ k = 1 Q c q ( q k ) c d ( q k ) α 1 + α 2 l d l + c d ( q k ) idf ( q k )
这里,qk是查询中的第k项,Q是查询中的项数,cq(qk)和cd(qk)分别是查询和文档中第k项的计数,ld是文档的长度,l是文档集合中文档的平均长度,idf(qk)是项qk的倒排文档频率: idf ( q k ) = log ( N - n ( q k ) + 0.5 n ( q k ) + 0.5 ) ,
其中,N是文档的总数,n(qk)是包含项qk的文档的数目。这样,倒排文档频率项有助那些在文档中出现较少的项。(对于单字组,α1=0.5,α2=0.5)。很清楚,idf及上面评分函数中除同查询相关的项之外的多数元素都可以预先进行计算并进行评分。
每个查询都同集合中的所有文档进行匹配,并且根据上面所示的Okapi公式所计算出的评分对文档分级。经分级的文档分值考虑了每个查询项在文档中的出现次数,并结合文档长度进行了规范化。这一规范化处理消除了偏见,即一般喜爱较长的文档,因为较长的文档有更大的可能性包含较多的给定词。这一函数还有利于那些针对一个文档及很少出现在其他文档中的项。(如果使用第二次审查,可以使用第一次审查中的顶级文档作为训练数据,通过训练另一个文档模型对文档重新分级)
随后,在步骤640对所标识的文档(或其子集)进行分析以确定在演讲人索引文件300中所标识的演讲人是否匹配在查询中由用户指定的演讲人。特别地,满足基于内容查询的分级文档的时间范围将同那些满足基于演讲人查询的文档进行比较以使用交迭的起止时间来标识文档。演讲人检索中的一个单一片段可以同文本检索中的多个片段交迭。
在步骤645对任何交迭文档的组合评分按如下公式计算:
组合分值=(分级文档分值+(lambda*演讲人片段分值))*交迭因子
同上面所描述的方式。所有经评分的文档接着用得到匹配分100的最相关的文档进行分级并规范化。
通常,返回前N个文档给用户。这样,一组N个最匹配片段的起止时间,随同匹配分值,以及用于计算相关分值的被匹配词在步骤650返回给用户。每个组合结果的缺省时间同基于内容的搜索中相应文档的开始时间相同。(另一个选择是使用演讲人片段的开始时间。)结束时间被置为演讲人片段的结束(可以简单地让演讲人结束他的语句)。但是,出于可用性考虑,片段可以用固定时间进行截取,如60秒,也就是说,两倍于平均文档长度。
用户界面
所示用户界面可以显示由检索引擎返回的所有N个选择的相关信息,对于使用媒体处理器部分的进一步选择,通过使用Java媒体过滤器进行实现,以通过类似VCR的界面显示MPEG-1视频。Java应用负责定位视频文件(如果PC连网它可以放在服务器上),然后使用在检索时收集的信息来修饰结果,例如显示所检索出的文档,相关信息,例如媒体文件名,开始时间,结束时间,分级,规范化评分,一个包含所检索出的媒体文件的图形视图,高亮显示查询词(以及其他影响文档评级的因素)-这些仅当采用基于内容的搜索方法时才出现,否则为了回放,高亮显示检索出的文档的显示部分。
前N个被检索出的项以压缩形式呈现给用户。这样用户可以可视地重审检索出的项以进行下一步动作。通常,它包括所有所收集的关于包含文档部分文字的被检索文档的信息。当选中一个被检索项来细听/看音频或视频时,一旦定位媒体文件则调用媒体处理器部分,在指定开始时间之前,解压缩流(如果需要的话),然后用音频或视频的第一帧初始化媒体播放器。类似VCR的界面允许用户从头到尾“播放”所检索出的视频或者在任何结合点停止和前进。
本发明的方法可以对基于内容的音频信息检索进行进一步的改进。从语音识别输出导出的当前文档集可以通过包含识别器对每个词或句进行的次好猜测(next-best guesses)进行扩充。可以用这一信息来对索引项,查询扩充以及检索进行加权计算。另外,在仅使用纯语音建立索引并进行检索时,通过用音乐或主要噪音探测片段可以得到更准确的识别。当前音频索引方法的一个限制是在语音识别器中使用了有限的词汇表。从信息检索的角度认为是非常重要的适当名词及缩写经常在词汇表中找不到,因此在转换文本中也找不到。克服这一限制的一个方法是用一个针对词汇表外词汇的文字监视器来补充语音识别器的功能。但是,为了让方法实用化,该方法必须具有以比实时快许多倍的速度在大量语音中探测所说词的能力。
可以理解,这里所描述的实施例和其变化仅仅是示例本发明的原理,那些熟悉该技术的人们可以在不偏离本发明范围和精神的前提下对本发明的实现做出多种修改。

Claims (33)

1.一种从一或多个音频源检索音频信息的方法,所述方法包括步骤:
接收用户查询,该查询的约束至少要指定一个内容和一个演讲人;并且
将所述用户查询同所述音频源的一个内容索引和一个演讲人索引进行比较以识别满足用户查询要求的音频信息。
2.根据权利要求1的方法,其中所述内容索引和所述演讲人索引是以时间进行标记的,并且所述比较步骤进一步包括在内容和演讲人领域对文档片段的起止时间进行比较的步骤。
3.根据权利要求1的方法,其中所述内容索引包括所述音频源中每个词的出现频率。
4.根据权利要求1的方法,其中所述内容索引包括所述音频源中每个词的倒排文档频率(IDF)。
5.根据权利要求1的方法,其中所述内容索引包括所述音频源的长度。
6.根据权利要求1的方法,其中所述内容索引包括一组链接指针,指向包含一个给定词的每个文档。
7.根据权利要求1的方法,其中所述演讲人索引包括一个分值,指示一个已登记的演讲人模型到音频测试片段的距离。
8.根据权利要求1的方法,其中所述演讲人索引包括每个音频片段的起止时间。
9.根据权利要求1的方法,其中所述演讲人索引包括一个用来标识同片段相关的演讲人的标签。
10.根据权利要求1的方法,其中所述的比较步骤进一步包括将满足基于内容查询的文档同满足基于演讲人查询的文档进行比较以识别相关文档的步骤。
11.根据权利要求1的方法,进一步包括对所述音频源进行转换并建立索引以创建所述内容索引和所述演讲人索引的步骤。
12.根据权利要求11的方法,其中所述创建所述演讲人索引的步骤包括在所述音频源中自动探测翻转并为每个所述翻转分配一个演讲人标签的步骤。
13.根据权利要求1的方法,进一步包括将所述被识别出的音频信息的一部分返回给用户的步骤。
14.根据权利要求1的方法,进一步包括给所述被识别出的音频信息的每个片段分配一个组合分值并将分级列表中所述被识别出的信息的至少一部分返回给用户的步骤。
15.根据权利要求14的方法,其中所述组合分值评估了内容和演讲人两个领域之间的交迭程度。
16.根据权利要求14的方法,其中所述组合分值得出了对基于内容的信息检索进行分级的分级文档分值。
17.根据权利要求14的方法,其中所述组合分值得出了度量演讲人片段和登记演讲人信息之间接近程度的演讲人片段分值。
18.根据权利要求1的方法,其中所述演讲人约束包括演讲人标识。
19.根据权利要求1的方法,其中所述内容约束包括一或多个关键词。
20.一种从一或多个音频源检索音频信息的音频检索系统,包括:
一个存储所述音频源的内容索引和演讲人索引以及计算机可读代码的存储器;及
一个同所述存储器连接工作的处理器,对所述处理器进行配置以实现所述计算机可读代码,所述计算机可读代码被配置用来:
接收指定一或多个词的用户查询并识别演讲人;及
结合基于内容和基于演讲人音频信息检索方法的结果,根据音频内容和演讲人标识提供所述音频源的引用。
21.根据权利要求20的音频检索系统,其中所述内容索引和所述演讲人索引是以时间进行标记的,并且所述处理器进一步被配置用来在内容和演讲人领域对文档片段的起止时间进行比较。
22.根据权利要求20的音频检索系统,其中所述内容索引包括所述音频源中每个词的出现频率。
23.根据权利要求20的音频检索系统,其中所述内容索引包括所述音频源中每个词的倒排文档频率(IDF)。
24.根据权利要求20的音频检索系统,其中所述演讲人索引包括一个分值,指示一个已登记的演讲人模型到音频测试片段的距离。
25.根据权利要求20的音频检索系统,其中所述演讲人索引包括一个用来标识同片段相关的演讲人的标签。
26.根据权利要求20的音频检索系统,其中所述处理器进一步配置用来将满足基于内容查询的文档和满足基于演讲人查询的文档进行比较以识别相关文档。
27.根据权利要求20的音频检索系统,其中所述处理器进一步配置用来对所述音频源进行转换并建立索引以创建所述内容索引和所述演讲人索引。
28.根据权利要求20的音频检索系统,其中所述处理器进一步配置用来给所述被识别出的音频信息的每个片段分配一个组合分值并将分级列表中所述被识别出的信息的至少一部分返回给用户。
29.根据权利要求29的音频检索系统,其中所述组合分值评估了内容和演讲人两个领域之间的交迭程度。
30.根据权利要求29的音频检索系统,其中所述组合分值得出了对基于内容的信息检索进行分级的分级文档分值。
31.根据权利要求29的音频检索系统,其中所述组合分值得出了度量演讲人片段和登记演讲人信息之间接近程度的演讲人片段分值。
32.一种从一或多个音频源检索音频信息的制造产品,包括:
一个其上包含计算机可读代码装置的计算机可读介质,所述计算机可读程序代码装置包括:
一个接收用户查询的步骤,该查询要指定一或多个词和一个演讲人的标识;及
一个结合基于内容和基于演讲人音频信息检索方法的结果,根据音频内容和演讲人标识提供所述音频源的引用的步骤。
33.一种从一或多个音频源检索音频信息的制造产品,包括:
一个其上包含计算机可读代码装置的计算机可读介质,所述计算机可读程序代码装置包括:
一个接收用户查询的步骤,该查询约束至少要指定一个内容和一个演讲人;及
一个将所述用户查询同所述音频源的内容索引和演讲人索引进行比较以识别满足所述用户查询的音频信息的步骤。
CN00104774A 1999-04-09 2000-03-28 使用内容和扬声器信息进行音频信息检索的方法和装置 Pending CN1270361A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/288,724 US6345252B1 (en) 1999-04-09 1999-04-09 Methods and apparatus for retrieving audio information using content and speaker information
US09/288,724 1999-04-09

Publications (1)

Publication Number Publication Date
CN1270361A true CN1270361A (zh) 2000-10-18

Family

ID=23108363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN00104774A Pending CN1270361A (zh) 1999-04-09 2000-03-28 使用内容和扬声器信息进行音频信息检索的方法和装置

Country Status (6)

Country Link
US (1) US6345252B1 (zh)
EP (1) EP1043665A3 (zh)
JP (1) JP3488174B2 (zh)
KR (1) KR100388344B1 (zh)
CN (1) CN1270361A (zh)
TW (1) TW469385B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7149758B2 (en) 2002-09-27 2006-12-12 Matsushita Electric Industrial Co., Ltd. Data processing apparatus, data processing method, and data processing program
CN100421112C (zh) * 2000-12-07 2008-09-24 索尼公司 用于内容检索的通信装置和通信方法
CN100461179C (zh) * 2006-10-11 2009-02-11 北京新岸线网络技术有限公司 基于内容的音频分析系统
CN101547261A (zh) * 2008-03-27 2009-09-30 富士通株式会社 关联赋予装置、关联赋予方法和记录介质
CN101314081B (zh) * 2008-07-11 2010-06-30 华为终端有限公司 一种演讲背景匹配方法和装置
CN101256811B (zh) * 2007-03-01 2010-11-10 富士胶片株式会社 用于产生播放列表的设备和方法
CN101305362B (zh) * 2005-11-09 2012-04-18 微软公司 语音索引删减
CN102799603A (zh) * 2011-04-28 2012-11-28 三星电子株式会社 提供链接列表的方法和应用所述方法的显示设备
CN101189604B (zh) * 2005-05-10 2014-03-26 微软公司 使用自动列表的组合查询
CN105340004A (zh) * 2013-06-28 2016-02-17 谷歌公司 用于发音学习的计算机实现的方法、计算机可读介质和系统
CN106663429A (zh) * 2014-03-10 2017-05-10 韦利通公司 提供音频录音以供内容资源中使用的引擎、系统和方法
CN109473128A (zh) * 2018-09-29 2019-03-15 南昌与德软件技术有限公司 乐曲播放方法、电子设备及计算机可读存储介质
US11934439B1 (en) * 2023-02-27 2024-03-19 Intuit Inc. Similar cases retrieval in real time for call center agents

Families Citing this family (125)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336116B1 (en) * 1998-08-06 2002-01-01 Ryan Brown Search and index hosting system
US7739114B1 (en) * 1999-06-30 2010-06-15 International Business Machines Corporation Methods and apparatus for tracking speakers in an audio stream
US6862713B1 (en) * 1999-08-31 2005-03-01 International Business Machines Corporation Interactive process for recognition and evaluation of a partial search query and display of interactive results
US6651057B1 (en) * 1999-09-03 2003-11-18 Bbnt Solutions Llc Method and apparatus for score normalization for information retrieval applications
JP2001093226A (ja) * 1999-09-21 2001-04-06 Sony Corp 情報通信システムおよび方法、ならびに、情報通信装置および方法
US7016835B2 (en) * 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
US6697796B2 (en) * 2000-01-13 2004-02-24 Agere Systems Inc. Voice clip search
US7010485B1 (en) * 2000-02-03 2006-03-07 International Business Machines Corporation Method and system of audio file searching
US6513003B1 (en) * 2000-02-03 2003-01-28 Fair Disclosure Financial Network, Inc. System and method for integrated delivery of media and synchronized transcription
US7263484B1 (en) 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US6782380B1 (en) * 2000-04-14 2004-08-24 David Victor Thede Method and system for indexing and searching contents of extensible mark-up language (XML) documents
US6748356B1 (en) * 2000-06-07 2004-06-08 International Business Machines Corporation Methods and apparatus for identifying unknown speakers using a hierarchical tree structure
US7318032B1 (en) * 2000-06-13 2008-01-08 International Business Machines Corporation Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique
US7197542B2 (en) * 2000-06-30 2007-03-27 Ponzio Jr Frank J System and method for signaling quality and integrity of data content
US7062485B1 (en) * 2000-09-01 2006-06-13 Huaichuan Hubert Jin Method and apparatus for score normalization for information retrieval applications
US6895378B1 (en) * 2000-09-22 2005-05-17 Meyer Sound Laboratories, Incorporated System and method for producing acoustic response predictions via a communications network
US7277765B1 (en) 2000-10-12 2007-10-02 Bose Corporation Interactive sound reproducing
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7039585B2 (en) 2001-04-10 2006-05-02 International Business Machines Corporation Method and system for searching recorded speech and retrieving relevant segments
US7200565B2 (en) * 2001-04-17 2007-04-03 International Business Machines Corporation System and method for promoting the use of a selected software product having an adaptation module
US6662176B2 (en) * 2001-05-07 2003-12-09 Hewlett-Packard Development Company, L.P. Database indexing and rolling storage method for time-stamped normalized event data
WO2003038665A1 (en) * 2001-10-31 2003-05-08 Net-Release Pty Ltd A system and method of disseminating recorded audio information
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
WO2003060771A1 (en) * 2002-01-14 2003-07-24 Jerzy Lewak Identifier vocabulary data access method and system
JP4017887B2 (ja) * 2002-02-28 2007-12-05 富士通株式会社 音声認識システムおよび音声ファイル記録システム
US7590534B2 (en) 2002-05-09 2009-09-15 Healthsense, Inc. Method and apparatus for processing voice data
US6957226B2 (en) * 2002-06-27 2005-10-18 Microsoft Corporation Searching multi-media databases using multi-media queries
US20040006481A1 (en) * 2002-07-03 2004-01-08 Daniel Kiecza Fast transcription of speech
US20040006628A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for providing real-time alerting
US20040024599A1 (en) * 2002-07-31 2004-02-05 Intel Corporation Audio search conducted through statistical pattern matching
US8509736B2 (en) 2002-08-08 2013-08-13 Global Tel*Link Corp. Telecommunication call management and monitoring system with voiceprint verification
US7333798B2 (en) 2002-08-08 2008-02-19 Value Added Communications, Inc. Telecommunication call management and monitoring system
US7424427B2 (en) * 2002-10-17 2008-09-09 Verizon Corporate Services Group Inc. Systems and methods for classifying audio into broad phoneme classes
US8055503B2 (en) 2002-10-18 2011-11-08 Siemens Enterprise Communications, Inc. Methods and apparatus for audio data analysis and data mining using speech recognition
US20080082581A1 (en) * 2002-12-31 2008-04-03 Momindum Process and system for the production of a multimedia edition on the basis of oral presentations
EP1463258A1 (en) * 2003-03-28 2004-09-29 Mobile Integrated Solutions Limited A system and method for transferring data over a wireless communications network
JP3892410B2 (ja) 2003-04-21 2007-03-14 パイオニア株式会社 音楽データ選曲装置、音楽データ選曲方法、並びに、音楽データの選曲プログラムおよびそれを記録した情報記録媒体
WO2005020209A2 (en) * 2003-08-22 2005-03-03 Ser Solutions, Ic. System for and method of automated quality monitoring
US7499531B2 (en) * 2003-09-05 2009-03-03 Emc Corporation Method and system for information lifecycle management
US8103873B2 (en) * 2003-09-05 2012-01-24 Emc Corporation Method and system for processing auditory communications
US8209185B2 (en) * 2003-09-05 2012-06-26 Emc Corporation Interface for management of auditory communications
US7421391B1 (en) 2003-09-08 2008-09-02 Zamtech Llc System and method for voice-over asset management, search and presentation
EP1531456B1 (en) * 2003-11-12 2008-03-12 Sony Deutschland GmbH Apparatus and method for automatic dissection of segmented audio signals
EP1531458B1 (en) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Apparatus and method for automatic extraction of important events in audio signals
US20050209849A1 (en) * 2004-03-22 2005-09-22 Sony Corporation And Sony Electronics Inc. System and method for automatically cataloguing data by utilizing speech recognition procedures
US20060004579A1 (en) * 2004-07-01 2006-01-05 Claudatos Christopher H Flexible video surveillance
US9268780B2 (en) 2004-07-01 2016-02-23 Emc Corporation Content-driven information lifecycle management
US7707037B2 (en) * 2004-07-01 2010-04-27 Emc Corporation Archiving of surveillance data
US20060004818A1 (en) * 2004-07-01 2006-01-05 Claudatos Christopher H Efficient information management
US8180742B2 (en) * 2004-07-01 2012-05-15 Emc Corporation Policy-based information management
US8244542B2 (en) 2004-07-01 2012-08-14 Emc Corporation Video surveillance
US8229904B2 (en) * 2004-07-01 2012-07-24 Emc Corporation Storage pools for information management
US8180743B2 (en) * 2004-07-01 2012-05-15 Emc Corporation Information management
CN100538695C (zh) * 2004-07-22 2009-09-09 国际商业机器公司 构造、维护个性化分类树的方法及系统
US7487072B2 (en) 2004-08-04 2009-02-03 International Business Machines Corporation Method and system for querying multimedia data where adjusting the conversion of the current portion of the multimedia data signal based on the comparing at least one set of confidence values to the threshold
US8626514B2 (en) * 2004-08-31 2014-01-07 Emc Corporation Interface for management of multiple auditory communications
US7783021B2 (en) 2005-01-28 2010-08-24 Value-Added Communications, Inc. Digital telecommunications call management and monitoring system
US7634407B2 (en) 2005-05-20 2009-12-15 Microsoft Corporation Method and apparatus for indexing speech
US8156114B2 (en) * 2005-08-26 2012-04-10 At&T Intellectual Property Ii, L.P. System and method for searching and analyzing media content
US8005821B2 (en) * 2005-10-06 2011-08-23 Microsoft Corporation Noise in secure function evaluation
KR100819756B1 (ko) * 2005-11-07 2008-04-07 (주)큐박스닷컴 온라인 멀티미디어 콘텐츠 제공 시스템
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7769707B2 (en) * 2005-11-30 2010-08-03 Microsoft Corporation Data diameter privacy policies
US7831425B2 (en) 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
US7818335B2 (en) * 2005-12-22 2010-10-19 Microsoft Corporation Selective privacy guarantees
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
EP2044524A4 (en) * 2006-07-03 2010-10-27 Intel Corp METHOD AND DEVICE FOR QUICK AUDIO SEARCH
US8151746B2 (en) 2006-07-07 2012-04-10 Borgwarner Inc. Control system for a variable compression engine
US7620551B2 (en) * 2006-07-20 2009-11-17 Mspot, Inc. Method and apparatus for providing search capability and targeted advertising for audio, image, and video content over the internet
US8275613B2 (en) * 2006-08-21 2012-09-25 Unifiedvoice Corporation All voice transaction data capture—dictation system
US20080059522A1 (en) * 2006-08-29 2008-03-06 International Business Machines Corporation System and method for automatically creating personal profiles for video characters
JP2008097232A (ja) * 2006-10-10 2008-04-24 Toshibumi Okuhara 音声情報検索プログラムとその記録媒体、音声情報検索システム、並びに音声情報検索方法
US20080147692A1 (en) * 2006-12-14 2008-06-19 General Motors Corporation Method for manipulating the contents of an xml-based message
US20080201158A1 (en) 2007-02-15 2008-08-21 Johnson Mark D System and method for visitation management in a controlled-access environment
US8542802B2 (en) 2007-02-15 2013-09-24 Global Tel*Link Corporation System and method for three-way call detection
US8781996B2 (en) 2007-07-12 2014-07-15 At&T Intellectual Property Ii, L.P. Systems, methods and computer program products for searching within movies (SWiM)
US9405823B2 (en) * 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
US8831946B2 (en) * 2007-07-23 2014-09-09 Nuance Communications, Inc. Method and system of indexing speech data
US9087331B2 (en) * 2007-08-29 2015-07-21 Tveyes Inc. Contextual advertising for video and audio media
WO2009089621A1 (en) * 2008-01-14 2009-07-23 Algo Communication Products Ltd. Methods and systems for searching audio records
US8949122B2 (en) * 2008-02-25 2015-02-03 Nuance Communications, Inc. Stored phrase reutilization when testing speech recognition
US9225838B2 (en) 2009-02-12 2015-12-29 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
JP5296598B2 (ja) * 2009-04-30 2013-09-25 日本放送協会 音声情報抽出装置
US9105300B2 (en) 2009-10-19 2015-08-11 Dolby International Ab Metadata time marking information for indicating a section of an audio object
US8903812B1 (en) 2010-01-07 2014-12-02 Google Inc. Query independent quality signals
JP5610197B2 (ja) 2010-05-25 2014-10-22 ソニー株式会社 検索装置、検索方法、及び、プログラム
US8601076B2 (en) 2010-06-10 2013-12-03 Aol Inc. Systems and methods for identifying and notifying users of electronic content based on biometric recognition
US9311395B2 (en) * 2010-06-10 2016-04-12 Aol Inc. Systems and methods for manipulating electronic content based on speech recognition
JP2012043000A (ja) 2010-08-12 2012-03-01 Sony Corp 検索装置、検索方法、及び、プログラム
US8688631B2 (en) 2011-03-17 2014-04-01 Alexander Savenok System and method for media file synchronization
US8478719B2 (en) 2011-03-17 2013-07-02 Remote Media LLC System and method for media file synchronization
US8589171B2 (en) 2011-03-17 2013-11-19 Remote Media, Llc System and method for custom marking a media file for file matching
CN102253993B (zh) * 2011-07-08 2013-08-21 北京航空航天大学 一种基于词汇树的音频片段检索算法
CN102314875B (zh) * 2011-08-01 2016-04-27 北京音之邦文化科技有限公司 一种音频文件的识别方法和装置
US8819012B2 (en) * 2011-08-30 2014-08-26 International Business Machines Corporation Accessing anchors in voice site content
FR2985047A1 (fr) * 2011-12-22 2013-06-28 France Telecom Procede de navigation dans un contenu vocal
JP5731998B2 (ja) * 2012-03-21 2015-06-10 株式会社東芝 対話支援装置、対話支援方法および対話支援プログラム
US11023520B1 (en) 2012-06-01 2021-06-01 Google Llc Background audio identification for query disambiguation
CN103631802B (zh) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 歌曲信息检索方法、装置及相应的服务器
US8880495B2 (en) * 2012-10-16 2014-11-04 Michael J. Andri Search query expansion and group search
US10438591B1 (en) * 2012-10-30 2019-10-08 Google Llc Hotword-based speaker recognition
CN107274916B (zh) * 2012-12-05 2021-08-20 北京三星通信技术研究有限公司 基于声纹信息对音频/视频文件进行操作的方法及装置
US8918406B2 (en) * 2012-12-14 2014-12-23 Second Wind Consulting Llc Intelligent analysis queue construction
US9542488B2 (en) * 2013-08-02 2017-01-10 Google Inc. Associating audio tracks with video content
EP2887233A1 (en) * 2013-12-20 2015-06-24 Thomson Licensing Method and system of audio retrieval and source separation
US10776419B2 (en) 2014-05-16 2020-09-15 Gracenote Digital Ventures, Llc Audio file quality and accuracy assessment
US9728190B2 (en) 2014-07-25 2017-08-08 International Business Machines Corporation Summarization of audio data
US10019514B2 (en) * 2015-03-19 2018-07-10 Nice Ltd. System and method for phonetic search over speech recordings
US20160335493A1 (en) * 2015-05-15 2016-11-17 Jichuan Zheng Method, apparatus, and non-transitory computer-readable storage medium for matching text to images
US11335080B2 (en) * 2015-09-21 2022-05-17 International Business Machines Corporation System for suggesting search terms
US20170092277A1 (en) * 2015-09-30 2017-03-30 Seagate Technology Llc Search and Access System for Media Content Files
JP6680008B2 (ja) * 2016-03-15 2020-04-15 カシオ計算機株式会社 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム
US10572961B2 (en) 2016-03-15 2020-02-25 Global Tel*Link Corporation Detection and prevention of inmate to inmate message relay
GB2549117B (en) * 2016-04-05 2021-01-06 Intelligent Voice Ltd A searchable media player
US9609121B1 (en) 2016-04-07 2017-03-28 Global Tel*Link Corporation System and method for third party monitoring of voice and video calls
US10116981B2 (en) * 2016-08-01 2018-10-30 Microsoft Technology Licensing, Llc Video management system for generating video segment playlist using enhanced segmented videos
CN108228658B (zh) * 2016-12-22 2022-06-03 阿里巴巴集团控股有限公司 一种自动生成配音文字的方法、装置以及电子设备
US10027797B1 (en) 2017-05-10 2018-07-17 Global Tel*Link Corporation Alarm control for inmate call monitoring
US10225396B2 (en) 2017-05-18 2019-03-05 Global Tel*Link Corporation Third party monitoring of a activity within a monitoring platform
US10860786B2 (en) 2017-06-01 2020-12-08 Global Tel*Link Corporation System and method for analyzing and investigating communication data from a controlled environment
US9930088B1 (en) 2017-06-22 2018-03-27 Global Tel*Link Corporation Utilizing VoIP codec negotiation during a controlled environment call
US10734024B1 (en) * 2018-09-04 2020-08-04 Adobe, Inc. Systems and methods of appending metadata to a media file for playing time-lapsed audio
CN109635151A (zh) * 2018-12-18 2019-04-16 深圳市沃特沃德股份有限公司 建立音频检索索引的方法、装置及计算机设备
EP3906552A4 (en) * 2018-12-31 2022-03-16 4S Medical Research Private Limited METHOD AND APPARATUS FOR PROVIDING A PERFORMANCE INDICATION TO A HEARING AND SPEECH IMPAIRED PERSON LEARNING SPEECH SKILLS

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5550965A (en) * 1993-12-27 1996-08-27 Lucent Technologies Inc. Method and system for operating a data processor to index primary data in real time with iconic table of contents
JP3745403B2 (ja) * 1994-04-12 2006-02-15 ゼロックス コーポレイション オーディオデータセグメントのクラスタリング方法
US5655058A (en) * 1994-04-12 1997-08-05 Xerox Corporation Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
US5606643A (en) * 1994-04-12 1997-02-25 Xerox Corporation Real-time audio recording system for automatic speaker indexing
KR970049417A (ko) * 1995-12-30 1997-07-29 김광호 오디오 파일 데이터 베이스 구축 방법, 검색 방법 및 이에 적합한 장치
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100421112C (zh) * 2000-12-07 2008-09-24 索尼公司 用于内容检索的通信装置和通信方法
US7149758B2 (en) 2002-09-27 2006-12-12 Matsushita Electric Industrial Co., Ltd. Data processing apparatus, data processing method, and data processing program
CN101189604B (zh) * 2005-05-10 2014-03-26 微软公司 使用自动列表的组合查询
CN101305362B (zh) * 2005-11-09 2012-04-18 微软公司 语音索引删减
CN100461179C (zh) * 2006-10-11 2009-02-11 北京新岸线网络技术有限公司 基于内容的音频分析系统
CN101256811B (zh) * 2007-03-01 2010-11-10 富士胶片株式会社 用于产生播放列表的设备和方法
CN101547261A (zh) * 2008-03-27 2009-09-30 富士通株式会社 关联赋予装置、关联赋予方法和记录介质
CN101314081B (zh) * 2008-07-11 2010-06-30 华为终端有限公司 一种演讲背景匹配方法和装置
CN102799603A (zh) * 2011-04-28 2012-11-28 三星电子株式会社 提供链接列表的方法和应用所述方法的显示设备
CN105340004A (zh) * 2013-06-28 2016-02-17 谷歌公司 用于发音学习的计算机实现的方法、计算机可读介质和系统
CN105340004B (zh) * 2013-06-28 2019-09-10 谷歌有限责任公司 用于发音学习的计算机实现的方法、计算机可读介质和系统
CN106663429A (zh) * 2014-03-10 2017-05-10 韦利通公司 提供音频录音以供内容资源中使用的引擎、系统和方法
CN109473128A (zh) * 2018-09-29 2019-03-15 南昌与德软件技术有限公司 乐曲播放方法、电子设备及计算机可读存储介质
US11934439B1 (en) * 2023-02-27 2024-03-19 Intuit Inc. Similar cases retrieval in real time for call center agents

Also Published As

Publication number Publication date
EP1043665A3 (en) 2003-02-12
KR20010006942A (ko) 2001-01-26
JP3488174B2 (ja) 2004-01-19
EP1043665A2 (en) 2000-10-11
US6345252B1 (en) 2002-02-05
TW469385B (en) 2001-12-21
JP2000348064A (ja) 2000-12-15
KR100388344B1 (ko) 2003-06-25

Similar Documents

Publication Publication Date Title
CN1270361A (zh) 使用内容和扬声器信息进行音频信息检索的方法和装置
US7809568B2 (en) Indexing and searching speech with text meta-data
US7725318B2 (en) System and method for improving the accuracy of audio searching
US7634407B2 (en) Method and apparatus for indexing speech
EP1949260B1 (en) Speech index pruning
US7831425B2 (en) Time-anchored posterior indexing of speech
US7983915B2 (en) Audio content search engine
US7272558B1 (en) Speech recognition training method for audio and video file indexing on a search engine
CN101382937B (zh) 基于语音识别的多媒体资源处理方法及其在线教学系统
US8775174B2 (en) Method for indexing multimedia information
US7680853B2 (en) Clickable snippets in audio/video search results
US8793130B2 (en) Confidence measure generation for speech related searching
US9483557B2 (en) Keyword generation for media content
US20080270344A1 (en) Rich media content search engine
US20080270110A1 (en) Automatic speech recognition with textual content input
US20090234854A1 (en) Search system and search method for speech database
CN1701323A (zh) 使用笔迹特征合成的数字笔迹数据库搜索
JP4699954B2 (ja) マルチメディアデータ管理方法とその装置
CN102023995A (zh) 语音检索设备和语音检索方法
Inkpen et al. Semantic similarity for detecting recognition errors in automatic speech transcripts
Witbrock et al. Speech recognition for a digital video library
Wang Mandarin spoken document retrieval based on syllable lattice matching
CN106021249A (zh) 一种基于内容的语音文件检索方法和系统
Feki et al. Automatic environmental sound concepts discovery for video retrieval
Cerisara Automatic discovery of topics and acoustic morphemes from speech

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication