CN1176456C - 数据档案系统中基于语义单元的自动索引和搜索方法及设备 - Google Patents

数据档案系统中基于语义单元的自动索引和搜索方法及设备 Download PDF

Info

Publication number
CN1176456C
CN1176456C CNB001338935A CN00133893A CN1176456C CN 1176456 C CN1176456 C CN 1176456C CN B001338935 A CNB001338935 A CN B001338935A CN 00133893 A CN00133893 A CN 00133893A CN 1176456 C CN1176456 C CN 1176456C
Authority
CN
China
Prior art keywords
data
semantic
audio frequency
syllable
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB001338935A
Other languages
English (en)
Other versions
CN1296257A (zh
Inventor
陈成钧
里・肯奈斯基
迪米特里·肯奈斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1296257A publication Critical patent/CN1296257A/zh
Application granted granted Critical
Publication of CN1176456C publication Critical patent/CN1176456C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

用于处理与某特定语言相关的基于声频的数据的基于声频数据的索引和检索系统,包括:(i)存储器,用于存储基于声频的数据;(ii)基于语义单元的语音识别系统,用于生成基于声频的数据的文本表示;(iii)索引和存储模块,用于对语义单元编索引并存储该一个或多个编索引的语义单元;以及;(iv)搜索引擎,用于搜索与用户查询相关的语义单元相匹配的编过索引的语义单元,并且用于根据编过索引的语义单元检索被存储的基于声频的数据。

Description

数据档案系统中基于语义单元的 自动索引和搜索方法及设备
技术领域
本发明一般地涉及数据档案系统,更具体地涉及这种系统中使用的改进型索引和搜索方法及设备。
背景技术
几份专利和专利申请涉及声频数据的声频索引和搜索,例如,1997年7月15日颁发给Ellozy等的美国专利号5,649,060;1998年8月11日颁发给Orsolini等的美国专利号5,794,249;以及用序列号09/108,544(代理人文档号YO998-120)标记的题目为“用于自动索引和搜索的声频—视频档案及方法”于1998年7月1日提交的美国专利申请,它们的公开供本文参考。这些专利和专利申请中采用的方法都利用词作为索引和搜索的基本单元。在这些方法中,典型地通过词对声频数据转录(通过自动或人工语音识别)、打时间戳记和加索引。
在基于词的系统中,在能够开始搜索之前,必须根据已知的词准备一个词汇表和一个语言模型。这样,通过定义,总是存在着系统不知道的词。遗憾的是,只有利用产生良好语言模型计分的词,即已知的词,搜索机制才会工作。
在试图建立能够利用系统不知道的条目进行搜索的系统中,已经提出基于音素的索引方法。这种方法包括生成词的声转录和通过声的音素对语音段编索引。然而,由于同一词可以存在不同的音素转换并且音素识别精度可能是低的例如低于词识别精度,这些基于音素的索引方法不是很有效的。
在运行于语音和正文中“词”单元可能具有双重含义的语言如中文下或者具有很多词形的语言如斯拉夫语言下的系统中,这些困难甚至更加明显。
对于大多数欧洲语言,在印刷文本中以及在计算机文本文件中存在词的边界。这些边界是按词之间的空格呈现的。但是,对于大多数亚洲语言,包括例如中文、日文、朝鲜文、泰文和越南文,在印刷形式下以及计算机文本文件中都不存在这样的词边界。从而,不能对这些语言施加基于词的索引和搜索方法。用于这些语言的基于音素的索引和搜索方法具有和上面提到的相类似的问题。
发明内容
从而,需要用来索引和搜索声频数据等的方法和设备,其使这些以及其它缺点和限制为最小和/或消除这些以及其它缺点和限制,并且还可用于数量更多的语言。
本发明采用基于最小语义单元的方法和/设备对声频数据等提供改进的索引和搜索。请理解“最小语义单元”定义为语言中所知的其有语义含义的小单元,最好是最小单元。可使用的语义单元的例子是音节或词素。本发明的方法可用于现有方法难以适应的语言例如亚洲语言中。
应理解“词素”是语言中常见的和有含义的最小语义单元。它可能是词的一部分或是一个词,例如在词“friendliness”中有三个单元即“friend-”、“li”和“ness”。在西方语言中,自由词素和约束(bound)词素是不同的。自由词素可以是一个可独立使用的词,例如“friend”。而约束词素本身不能使用,例如“li”和“ness”。词素可以是单个音节,一组音节,或附着在一个音节上的一个辅音,例如“man’s shirt”中的“s”。在大多数东亚语言中,由于在印刷文本中或在计算机文件中不存在词边界,自由词素和约束词素的差别是不明显的。在这些语言中,和词相比词素是语言的更为适当的单元。
另外,应理解,“音节”是一组音素,它由元音或连续音单独或与辅音或数个辅音组合组成,其代表一个完整的发音或一个发音的复合体,并且还构成词组成的单元。它可看成是和胸搏动以及和发声顶点是等同的。若以元音结束音节是开音节,或若以辅音结束则音节是闭音节。在上面的例子,“friend”、“li”和“ness”是三个音节,其中“li是开音节,而“friend”和“ness”是闭音节。
在许多亚洲语言中存在称为词素的语义单元。例如,在许多东亚语言,例如中文、泰文、越南文,中,除一些例外外,几乎所有词素都是单音节的。这样,在这些语言中,词素和音节的概念是可互换的。
此外,在中文中,每个音节是由一个称为汉字的字符表示的。字节的数量和汉字的数量是有限的。在现代标准中文口语即普通话中,不同音节的总数量是1,400。在现代标准书面中文中,在中国大陆经常使用的字符的数量是6700个,在台湾省为13,000个。
从而,在本发明的广义上,提供用于声频数据等的索引和搜索的方法和设备,它们基于最小语义单元,例如音节和/或词素。以这种方式,用于索引和搜索声频数据等的本发明方法最小化和/或消除与现有索引和搜索系统(例如基于词的系统)相关的缺点和限制。此外,本发明的用于索引和搜索声频数据等的发明方法可和更多数量的语言一起使用。
从而,在本发明的用于中文的一种示范实施例中,可设置一个基于字符或汉字的搜索引擎。在大的文本语料库上建立的统计语言模型用来执行语音识别。用一个字符或一串字符构成搜索后信息(要搜索的数据)。该搜索机制用文本和目标进行比较。
在本发明的用于中文的另一个示范实施例中,设置一个基于音素音节的搜索引擎。从大的文本语料库通过字到音素音节的转换建立一个基于音素音节的统计语言模型。该语言模型的大小要小得多。用一个音素音节或一串音素音节构成搜索后的信息。
观察到中文中音节承载着语义信息,我们按如下一般化基于音节的声频索引。本发明采用典型地比词要小并具有唯一声表达的语义单元。语义单元允许建立代表语义信息的语言模型并且改进基于由语义单元组成的词汇表的自动语音识别(ASR)的译码准确性。如所提及,这种用于转录声频数据、索引和搜索的单元的例子是音节(例如中文中)或词素(例如斯拉夫语中)。由于字节单元是清晰的并且一种语言中可能的音节的数量是有限的,这种方法可普遍应用于大多数语言。对于这些语言,把单元音节作为搜索的基本构件是更有效的。该方法还解决上面提到的未知的词的问题,因为采用该方法的系统知道所有的可应用于其所应用的语言中的音节。
例如,支持本发明方法的语言可包括但不限于:
a)中文。在标准方言(基于北京方言的官话或普通话),所允许的声音节的总数量小于1800个。讲话的平均音节率是每秒4-5个音节。
b)朝鲜文。声音上许可的音节数少于2400个。书面系统完全基于声音节。讲话的平均音节速率是每秒4-5个音节。
c)日文。只有105个许可的声音节。讲话的平均音节速率是每秒6-7个音节。
d)越南文。存在3000个不同的音节。书面系统完全基于声音节。讲话的平均音节速率是每秒4-5个音节。
类似地,具有非常大量的词形式的语言(例如斯拉夫语中数百万个词形式)具有数量相对少的词素(例如俄语中50,000词素)。对于这些语言,自动语音识别系统回送声音节串或词素串。利用基于声音节或者词素的语言模型这可得到实现。要搜索的词首先译成音节串。接着对照译码声音节数据库匹配这些音节串。
根据本发明,提供了一种用于处理和某特定语言关联的基于声频的数据,该方法包括步骤:存储该基于声频的数据;生成该基于声频的数据的文本表示,该文本表示以和该基于声频的数据对应的一个或多个语义单元为形式,其中,一个语义单元包括一个具有一个语义含义的最小语言单元;以及对该一个或多个语义单元编索引并存储该一个或多个编索引的语义单元,以在响应用户查询搜索所存储的基于声频的数据时使用。
根据本发明,提供了一种用于处理和某特定语言相关的基于声频的数据的设备,该设备包括:至少一个处理器,并运行成:(i)存储该基于声频的数据;(ii)生成该基于声频的数据的文本表示,该文本表示以和该基于声频的数据对应的一个或多个语义单元为形式,其中,一个语义单元包括一个具有一个语义含义的最小语言单元;以及(iii)对该一个或多个语义单元编索引并存储该一个或多个编索引的语义单元,以在响应用户查询搜索所存储的基于声频的数据时使用。
根据本发明,提供了一种用于处理与某特定语言相关的基于声频的数据的基于声频数据的索引和检索系统,该系统包括:存储器,用于存储基于声频的数据;一个基于语义单元的语音识别系统,用于生成基于声频的数据的文本表示,该文本表示以和该基于声频的数据对应的一个或多个语义单元为形式,其中,一个语义单元包括一个具有一个语义含义的最小语言单元;一个索引和存储模块,其运行上和基于语义单元的语音识别系统及存储器连接,用于对该一个或多个语义单元编索引并存储该一个或多个编索引的语义单元;以及一个搜索引擎,其运行上与索引和存储模块以及存储器连接,用于搜索与用户查询相关的一个或多个语义单元相匹配的一个或多个编过索引的语义单元,并且用于根据该一个或多个编过索引的语义单元检索被存储的基于声频的数据。
应理解本发明的方法比起基于词或基于词标记的方法更直接和更快。由于音节和词素数量有限,数据压缩也更加有效。
附图说明
从与附图一起阅读的下述对本发明的示范实施例的详细说明中本发明的这些以及其它目的、特性和优点将会变得清晰。
图1是依据本发明的一个实施例的用于通过音节索引和搜索声频记录的一种设备的方块图。
图2提供依据本发明的一个实施例的搜索查询和介质的一些例子。
图3是依据本发明的一个实施例的产生音节语言模型的方块图。
图4A是依据本发明的一个实施例的基于音节的声频索引方法的流程图;
图4B是依据本发明的一个实施例的基于音节的声频搜索方法的流程图;以及
图5是依据本发明的一个实施例的声频索引和搜索系统的硬件实现的方块图。
具体实施方式
下面在示范性基于音节的索引和搜索实现下解释本发明。然而,应理解,本发明不受限于这种特定的实现。相反,本发明利用语义单元更广泛地应用于对声频数据的索引和搜索,而音节仅是语义单元的一个例子。例如,本发明在任何如下的实施中发现有益的应用,即其中向用户提供基于声频的数据的索引和搜索能力,从而不必担心在他的查询向系统输入不知道的词。本发明特别上面提到的例如亚洲语言和斯拉夫语言那样的语言。但是,本发明不限定于和任何特定的语言一起使用。
现参照图1,图中示出依据本发明的一个实施例的通过音节对声频记录进行索引和搜索的设备。该设备100按下述方式运行。通过声记录器102记录声数据。在数据存储器104中存储声频数据。声频数据还被音节语音识别器106处理。在C.J.Chen等的“A ContinuousSpeaker-Independent Putonghua Dictation System”,3rd InternationalConference on Signal Processing Proceeding,pp.821-824中说明一种可由本发明采用的语音识别器的一个例子,该论文的公开从而作为本文的参考。标准语音识别系统,例如上面引用的Chen等人的文章中说明的系统,可修改成利用基于音节的语言模型108提供音节语音识别器的功能,该语言模型108的生成在后面解释。在给出依据本发明的基于音节的语言模型下以及在这种模型通常要比标准语音识别系统中的基于词的语言模型简单的事实下,一般的业内人士理解如何修改标准的语音识别系统以按利用基于音节的语言模型108的音节语音识别器106运行。
应理解在本发明的一个实施例中,音节可以是基于音素的。音素音节反映音节的不同发音。在中文中,在该国的不同地区音素音节不同(尽管文字表达不和地理位置相关)。在本发明的另一个实施例中,音素音节由反映音素以及语调信息的“调素”构成,参见上面引用的Chen等的文章。调素是声调语言中的语调音素。
以类似于标准语音识别系统利用基于词的语言模型的方式,音节语音识别器106利用基于音节的语言模型108产生由音节串110构成的译码文本(即,转录)。如后面解释那样在单元112对音节文本加以时间戳记,并把音节文本和音节索引一起存储到音节索引存储单元114中。音节索引存储单元114含有和译码音节数据相关的索引,例如时间戳记。如后面的例子中所解释的那样,利用这些时间戳记来响应搜索查询以在声频数据存储器104中检索对应的声频数据。
例如,在一种优选实施例中,单元114中存储的索引包含可在数据存储器104中找到用于某音节的数据的地址。可以理解在由声记录器102记录声频数据期间某些音节会出现数次。在单元104中存储来自记录器的该数据。单元104中的某索引指向单元104中何处存储特定的音节。一种简单的指示何处存储音节的方法是指示说出该音节的时间。从而,索引可和一组说出该音节的时间相关。这是通过由单元112对音节打上时间戳记实现的。存储地址上的时间转换允许检索单元104中存储和该音节有关的数据的所有单元。
作为一个简单例子,假定音节语音识别器106译码的某句子包含一串与声频(存储在单元104中)句子对齐的音节,这串音节表示成:S1、S2、S3、S4、S1、S4、S1、S2、S7、S8、S7。这些音节打上的时间戳记是:t1-t2、t3-t4、t5-t6、…、tm-tn。假定声频句子用声频段表示:aud1、aud2、aud3、aud4、aud5、aud6、aud7、aud8、aud9、aud10、aud11。从而,单元114中存储的索引数据可以为如下:S1:aud1,aud5,aud6;S2:aud2,aud8;S3:aud3;S4:aud4,aud6;S7:aud9,aud11;S8:aud10。这意味着音节S1存储在数据存储器104中存储的该声频句子的第一、第五和第六个位置(段)上。从而,为了放和S1对应的各段,可转到数据存储器104中由该索引指示的各对应单元上。
应理解,尽管时间戳记是对译码数据编索引的一种方便方法,还可采用任何其它可使用的编索引技术。上面的处理概括地由依据本发明的该特定实施例的数据编索引处理构成。
音节索引存储单元114和基于音节的搜索部件116连接。该搜索部件可采用任何常规的搜索方法。音节搜索部件116通过输入部件122接收来自用户124的输入查询118。输入部件例如可以是下述中的一种:键盘、自动语音识别(ASR)系统、自动手写识别(AHR)系统等。在提交给搜索部件之前,该音节查询可先由查询处理模块120处理,如后面解释那样。搜索部件116利用音节查询118确定数据存储器104中的声频段。这可通过使各声频段和文本数据对齐来实现。例如,通过时间参数化声频数据,再把句中的各音节匹配到声频数据中的各时间区段中。上面对编索引操作给出了一个这样的例子。声频数据和文本数据对准的技术是由识别器106实现的。当该识别器译码语音时,它把各文本部分(例如各音节)和对应的声频数据段相联起来。
这样,通过确定索引存储器114中和查询中的音节对应的索引,可把用户查询中的该音节和声频存储器104中存储的一个或多个声频段相关联或匹配。即,若用户查询包含音节S1,则根据上面解释的索引操作确定声频段aud1、aud5、aud6。一旦确定这些声频数据段,通过回放/输出部件126把它们向用户回放。从而部件126可包括一个回放扬声器。用户查询118可包含帮助定位该搜索的其它信息。
上面的模式是通过音节进行声频索引/搜索的简化例子。即,取次于应用,可实施其它特性,即,还可根据与生成该声频数据的人即说话人的各属性对声频数据编索引。这可在索引器和存储单元128中实现。也就是说,可从声频数据中提取和说话人相关的各属性例如姓名、性别、年龄,并用于索引和存储所提供的声频数据。这些属性可由人说出(例如,“我的姓名是……”)并由语音识别器译码,或者通过常规说话人识别技术确定。备择地,可以用说话人的姓名标记声频数据,以增强该系统的声频搜索部分。在用序列号09/294,214(代理人文档号YO998-398)标识的于1999年4月16日归档的标题为“用于索引和查询声频档案的系统和方法”的美国专利申请中讨论了用说话人姓名标记声频数据,该申请的公开作为本文的参考。
从而,例如,用户可把某特定音节查询限制成检索会议中的某些发言人。如上面所述,还可把所存储的声频数据和提供有关说话人的附加信息的说话人的生物统计(例如,用户的社会状态、年龄、性别等)关联起来,如在用序列号09/371,400(代理人文档号YO999-227)标识的于1999年8月10日归档的标题为“会话数据挖掘”的美国专利中所说明的那样,该申请的公开作为本文的参考。
还可以用提供一些其它信息的标志标记所存储的声频数据。这些信息可包括何时生成该声频数据。生成它的场所等的信息。该声频数据还可以和与该声频数据同时记录的并存储在数据存储单元104中的视频数据关联。这允许用户对他在输入部件122处输入的声频相关查视添加视频相关查询。在这种情况下,搜索部件还可实现视频图象识别检索技术。
可理解,根据图1的设备100可在索引机和存储单元128中实现这些附加索引特性(例如,说话人生物统计、视频数据等)中的一个或多个。在声频数据和视频数据都被编索引和存储的情况下,分层的索引存储和搜索技术上面提及的用序列号09/108,544(代理人文档号YO998-120)标识的、于1998年7月1日提交的标题为“用于自动索引和搜索的声频/视频档案及方法”的美国专利申请中所说明的那样。在该分层的搜索中,音节变为分层金字塔中的一层。如后面解释的那样,图2描述设备100可实现的这些附加的索引和搜索特性中的一些。
可以以与上面的解释不同的各种方式向用户呈现用户查询搜索的结果。例如,根据包括着显示器的回放输入部件126,用户可以首先观看印出的译码(音节)输出数据,在观看整个译码输出后用户可简单地通过点击(利用输入部件122的一部分的鼠标)文本输出的相应部分决定他希望回放哪一部分的声频数据。在另一个实施例中,用户还可观看根据查询请求通过搜索部件114找到的和声频数据相关的视频数据。
在本发明的另一个实施例中,从用户查询所指示的音节开始回放声频数据,直到用户停止声频的回放(通过输入部件)或者直到声频段的特定持续时间(如在用户查询中规定)期满。
而且,用户查询可由一组词而不是一组音素音节组成。在这种情况下,利用文本-音素音节变换把词转换成一串音节。可按任何常规方式生成这种变换。这种文本-音节变换可采用一个和每个音节、一组可能的音素音节关联的表。可由查询处理模块120实现该变换/表。在搜索模式下,若提供其它数据(例如,产生声频数据的地理位置)可以限制与输入的文本音节相关的音素音节的数量。
用户查询还可包括相当长的文本语料库而不是几个词或音节。用户可具有说出的语音正文(例如,若他自己念出某要记录成声频数据的正文)。在这种情况下,该文本语料库可变换成一串(音素)音节,并可使用搜索部件114中实现的专用搜索机制以找到和一长串音节匹配的声频数据。在前面提及的美国专利5,649,060中说明这种机构。它允许甚至在ASR质量相对低时使声频数据和大段基准正文匹配。它利用该大段正文的时间戳记以使基准原本中的少量部分和所存储的译码输出的一些部分匹配。
音素音节编索引使用的方法还可以和其它把词分割成更小的单元,例如斯拉夫语的词素,的技术一起使用。
现参照图2,其中描述依据本发明的搜索查询和介质的例子。用于搜索202的介质可包含声频数据204和视频数据206二者。该介质分割成用于编索引的多个单元208。可理解可在查询处理模块120中完成这种分割。在框210中描述声频单元的例子。这种单元可包括:文本部分(例如:短语、段落、章节、诗、故事)、词、音节、音素音节、词素、字符和其它语义单元(例如,斯拉夫语中的词根)。视频数据可分割成视频部分212。这也可在查询处理模块120中完成,参见上面引用的用序列号09/108,544(代理人文档号YO998-120)标识的标题为“用于自动索引和搜索的声频/视频档案及方法”的美国专利申请。
搜索部件116(和图1中的相同)响应接收到查询单元208可使用框214中描述的一个或多个特性以辅助或产生搜索:(i)分层索引(例如指向音节的音素音节、指向词的音节以及可指向短语的词);(ii)用于限制搜索的标志(例如,位置,说话人姓名,时间阶段等);(iii)帮助索引声频数据并把它和文本数据对齐的时间戳记;以及(iv)从一串单元(例如音节)训练的语言单元模型,以提高把声频数据变换成一串单元(例如,音节)的准确性。
搜索系统116还可使用应用到查询118上的自动边界标记系统。这用于把用户输入分割成词。回想在一些语言中不利用空格把字符分割成词。这允许通过词(不仅仅通过音节)进行搜索。通过单元126向用户回放找到的声频部分(例如,和一串音节或一串词对应的声频),从而用户可决定哪部分声频是需要的。
如所述,音节可指向别的层次中的数据(例如如图2的框214中说明那样)。例如,声频可伴有视频,从而可和声频一起向用户示出该视频数据(例如,通过单元126)。
可以用逆谱(即表达声频的一种有效压缩形式)表达声频数据。可把逆谱转换成可向用户播出的声频数据。从逆谱中得到的声频数据的质量可能是相对低的,但可能适用于某些应用,例如,只是表达所存储短语的内容。由于和完整声频相比逆频要求较少的存储容量,从而搜索和回放可被更快地实现。逆频可指向高质量的声频,若用户需要高质量的输出可使用该高质量的声频。在上面引用的用序列号09/108,544(代理人文档号YO998-120)标识的标题为“用于自动索引和搜索的声频/视频档案及方法”的美国专利申请中更详细地说明这样的接口。
在另一个实施例中,可以用速记版本(即不是译码器输出)表达文本输出。速记术类似于编码器,然而可由速记员生成文本数据并且可比译码器输出更为准确。若可得到速记员输出,可通过单元126向用户124呈现速记员输出。从而,用户可指向该速记员输出中的各个不同的位置,并按声频回放所对准的速记员数据。
参照图3,图中示出依据本发明的一种实施例的生成音节语言模型的方法的方块图。此为可由图1的话音识别器106使用的音节语言模型108。文本语料库300用于生成许多音节串302(例如,通过把字符串变换成音节的表)。音节串产生音节计数304。为了生成音素音节306的语言模型,必须知道音节是如何发音的。由于相同的音节可以具有不同的发音,这种数据不能直接从大段文本中提取。因此,需要转录和文本300对应的声频数据308(框310)。可以手工地或者利用把音素音节对齐到说出的音节串的自动语音识别生成转录310。作为转录310的一部分生成的音素音节312和音节314接着被用来导出给定某音节下某音素音节的概率分布(框316)。利用音节计数304以及音素音节314的条件分布构建音素音节的语言模型。在给出音节计数304以及音素音节的条件分布下,业内人士理解如何构建音素音节的语言模型306。例如,该过程类似于构建用于类的语言模型(例如,Frederick Jelinek,“Statistical Methods for Speech Recognition”,TheMIT Press,Cambbridge,1998,该书的公开作为本文的参考)或用于词素的语言模型(例如,1998年11月10日颁发的标题为“用于屈折型语言的统计语言模型”的美国专利号No.5,835,888,该专利的公开作为本文的参考)。
参照图4A,其示出依据本发明的一种实施例的基于音节的声频编索引方法的流程图。在步骤400,记录要编索引并要存储的声频数据。在步骤420,把该声频数据译码成由音节(或词素串构成的译本。在步骤404,通过对音节(或词素)打上时间戳记对音节编索引。最后,在步骤406,根据时间戳记索引存储各音节(或各词素)。
现参照图4B的依据本发明的一种实施例的基于音节的声频搜索方法的流程图。应理解,图4B的搜索方法最好和根据图4A的编索引方法编索引的数据一起使用。在步骤408,用户输入查询以检索某些部分的已存储声数据。在步骤410处理该查询。如上面所解释,这可能包括利用文本-音素音节变换把用户输入的词转换成音节串。用户也可能直接输入音节而不是词。在步骤412,利用这些音节从存储器中检索所希望的声频数据段。最后,在步骤414,向用户回放各声频段。
现参照图5,其中示出用于实现图1中所示的设备100的一个、多个或所有构件的示范性硬件体系结构。在该实施例中,可通过处理器500、存储器502和I/O部件504实现设备100。请理解本文中使用的术语“处理器”的意图是包括任何处理部件,例如包括CPU(中央处理机)的部件。例如,该处理器可能是技术上周知的数字信号处理器。术语“处理器”还表示一个或多个独立的处理器。本文中使用的术语“存储器”的意图是包括和处理器或CPU关联的存储器,例如,RAM、ROM、固定存储器部件(例如硬盘机)、可拆存储器部件(例如软盘)、快速存储器等。另外,本文中使用的术语“输入/输出部件”或“I/O部件”的意图是一般性地包括用于向处理单元输入数据和其它信号的一个或多个输入部件,例如拾音器、键盘、鼠标等,和/或包括用于提供与处理单元相关的结果的一个或多个输出部件,例如显示器、扬声器等。例如,显示器或扬声器可向用户提供系统检索出的回放信息。相应地,可在一个或多个相关的存储器部件(例如,ROM、固定或可拆存储器)中存储包含着用于实现本文所说明的本发明的方法的计算机软件,并且当准备好供使用时,可把它部分地或全部地装入(例如RAM中)并由CPU执行。在任何情况下,可以以各种形式的硬件、软件或它们的组合实现各图中示出的各构件,例如,一个或多个带有关联存储器的数字信号处理器、专用应用集成电路、功能电路、一个或多个适当的带有关联存储器的编程的通用数字计算机等。在给出本文所提供的本发明的原理下,业内人士能设想本发明的各构件的其它实现方式。
虽然本文参照附图说明了本发明的示范实施例,应理解本发明不受限于这样明确的实施例,在不背离本发明的范围或精神下业内人士可进行各种其它改变和修改。

Claims (20)

1.一种用于处理和某特定语言关联的基于声频的数据的方法,该方法包括步骤:
存储该基于声频的数据;
生成该基于声频的数据的文本表示,该文本表示以和该基于声频的数据对应的一个或多个语义单元为形式,其中,一个语义单元包括一个具有一个语义含义的最小语言单元;以及
对该一个或多个语义单元编索引并存储该一个或多个编索引的语义单元,以在响应用户查询搜索所存储的基于声频的数据时使用。
2.权利要求1的方法,其中语义单元是音节。
3.权利要求2的方法,其中音节是基于音素的音节。
4.权利要求1的方法,其中语义单元是词素。
5.权利要求1的方法,其中生成步骤包括根据语音识别系统译码该基于声频的数据。
6.权利要求5的方法,其中语音识别系统采用基于语义单元的语言模型。
7.权利要求1的方法,其中编索引步骤包括对该一个或多个语义单元打上时间戳记。
8.权利要求1的方法,其中搜索步骤包括:
处理用户请求以生成一个或多个表示该用户试图检索的信息的语义单元;
搜索该一个或多个编过索引的语义单元以找到与用户查询相关联的一个或多个语义单元的实质性的匹配;以及
利用和用户查询关联的一个或多个语义单元匹配的一个或多个编过索引的语义单元,检索一个或多个基于声频的数据段。
9.权利要求8的方法,其中搜索步骤还包括向用户展示检索的数据。
10.权利要求1的方法,其中该特定语言是以亚洲为基的语言。
11.权利要求10的方法,其中该特定语言是中文。
12.权利要求11的方法,其中语义单元是汉字。
13.权利要求1的方法,其中该特定语言是以斯拉夫为基的语言。
14.权利要求1的方法,其中根据说话人的属性对该一个或多个语义单元编索引。
15.权利要求1的方法,其中至少根据何时产生该基于声频的数据和何处产生该基于声频的数据中之一对该一个或多个语义单元编索引。
16.权利要求1的方法,还包括存储和该基于声频的数据相关的基于视频的数据,以在响应用户查询搜索所存储的基于声频的数据和基于视频的数据时使用。
17.权利要求16的方法,其中搜索步骤还包括分层搜索例程。
18.权利要求1的方法,其中生成步骤包括速记式记录基于声频的数据以生成文本表示。
19.一种用于处理和某特定语言相关的基于声频的数据的设备,该设备包括:
至少一个处理器,并运行成:(i)存储该基于声频的数据;(ii)生成该基于声频的数据的文本表示,该文本表示以和该基于声频的数据对应的一个或多个语义单元为形式,其中,一个语义单元包括一个具有一个语义含义的最小语言单元;以及(iii)对该一个或多个语义单元编索引并存储该一个或多个编索引的语义单元,以在响应用户查询搜索所存储的基于声频的数据时使用。
20.一种用于处理与某特定语言相关的基于声频的数据的基于声频数据的索引和检索系统,该系统包括:
存储器,用于存储基于声频的数据;
一个基于语义单元的语音识别系统,用于生成基于声频的数据的文本表示,该文本表示以和该基于声频的数据对应的一个或多个语义单元为形式,其中,一个语义单元包括一个具有一个语义含义的最小语言单元;
一个索引和存储模块,其运行上和基于语义单元的语音识别系统及存储器连接,用于对该一个或多个语义单元编索引并存储该一个或多个编索引的语义单元;以及
一个搜索引擎,其运行上与索引和存储模块以及存储器连接,用于搜索与用户查询相关的一个或多个语义单元相匹配的一个或多个编过索引的语义单元,并且用于根据该一个或多个编过索引的语义单元检索被存储的基于声频的数据。
CNB001338935A 1999-11-10 2000-11-09 数据档案系统中基于语义单元的自动索引和搜索方法及设备 Expired - Lifetime CN1176456C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/437,971 1999-11-10
US09/437,971 US7177795B1 (en) 1999-11-10 1999-11-10 Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems

Publications (2)

Publication Number Publication Date
CN1296257A CN1296257A (zh) 2001-05-23
CN1176456C true CN1176456C (zh) 2004-11-17

Family

ID=23738695

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB001338935A Expired - Lifetime CN1176456C (zh) 1999-11-10 2000-11-09 数据档案系统中基于语义单元的自动索引和搜索方法及设备

Country Status (2)

Country Link
US (1) US7177795B1 (zh)
CN (1) CN1176456C (zh)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7263484B1 (en) * 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
JP3662519B2 (ja) * 2000-07-13 2005-06-22 シャープ株式会社 光ピックアップ
US7225126B2 (en) * 2001-06-12 2007-05-29 At&T Corp. System and method for processing speech files
US7209882B1 (en) * 2002-05-10 2007-04-24 At&T Corp. System and method for triphone-based unit selection for visual speech synthesis
US8055503B2 (en) * 2002-10-18 2011-11-08 Siemens Enterprise Communications, Inc. Methods and apparatus for audio data analysis and data mining using speech recognition
JP4027269B2 (ja) * 2003-06-02 2007-12-26 キヤノン株式会社 情報処理方法及び装置
EP1656662B1 (en) * 2003-08-22 2016-06-01 Unify Inc. System for and method of automated quality monitoring
CN100378725C (zh) * 2003-09-04 2008-04-02 摩托罗拉公司 一种产生用于提供与文本对应的语音的信号的方法
US20050209849A1 (en) * 2004-03-22 2005-09-22 Sony Corporation And Sony Electronics Inc. System and method for automatically cataloguing data by utilizing speech recognition procedures
US7747601B2 (en) 2006-08-14 2010-06-29 Inquira, Inc. Method and apparatus for identifying and classifying query intent
US8612208B2 (en) * 2004-04-07 2013-12-17 Oracle Otc Subsidiary Llc Ontology for use with a system, method, and computer readable medium for retrieving information and response to a query
US8082264B2 (en) 2004-04-07 2011-12-20 Inquira, Inc. Automated scheme for identifying user intent in real-time
US8694317B2 (en) * 2005-02-05 2014-04-08 Aurix Limited Methods and apparatus relating to searching of spoken audio data
US8719244B1 (en) * 2005-03-23 2014-05-06 Google Inc. Methods and systems for retrieval of information items and associated sentence fragments
US20070094034A1 (en) * 2005-10-21 2007-04-26 Berlin Bradley M Incident report transcription system and methodologies
NO325191B1 (no) * 2005-12-30 2008-02-18 Tandberg Telecom As Sokbar multimedia strom
KR101265263B1 (ko) * 2006-01-02 2013-05-16 삼성전자주식회사 발음 기호를 이용한 문자열 매칭 방법 및 시스템과 그방법을 기록한 컴퓨터 판독 가능한 기록매체
US9772981B2 (en) * 2006-03-29 2017-09-26 EMC IP Holding Company LLC Combined content indexing and data reduction
US7921099B2 (en) * 2006-05-10 2011-04-05 Inquira, Inc. Guided navigation system
US8781813B2 (en) * 2006-08-14 2014-07-15 Oracle Otc Subsidiary Llc Intent management tool for identifying concepts associated with a plurality of users' queries
US8095476B2 (en) * 2006-11-27 2012-01-10 Inquira, Inc. Automated support scheme for electronic forms
US20080162129A1 (en) * 2006-12-29 2008-07-03 Motorola, Inc. Method and apparatus pertaining to the processing of sampled audio content using a multi-resolution speech recognition search process
US20080189163A1 (en) * 2007-02-05 2008-08-07 Inquira, Inc. Information management system
US9405823B2 (en) * 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
US8831946B2 (en) * 2007-07-23 2014-09-09 Nuance Communications, Inc. Method and system of indexing speech data
CN101430680B (zh) * 2008-12-31 2011-01-19 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及系统
GB201016385D0 (en) * 2010-09-29 2010-11-10 Touchtype Ltd System and method for inputting text into electronic devices
CN101996195B (zh) * 2009-08-28 2012-07-11 中国移动通信集团公司 音频文件中语音信息的搜索方法、装置及设备
US8903847B2 (en) * 2010-03-05 2014-12-02 International Business Machines Corporation Digital media voice tags in social networks
US8401853B2 (en) * 2010-09-22 2013-03-19 At&T Intellectual Property I, L.P. System and method for enhancing voice-enabled search based on automated demographic identification
GB201200643D0 (en) 2012-01-16 2012-02-29 Touchtype Ltd System and method for inputting text
US20120246238A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Asynchronous messaging tags
US8688090B2 (en) 2011-03-21 2014-04-01 International Business Machines Corporation Data session preferences
US20120244842A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Data Session Synchronization With Phone Numbers
US9405828B2 (en) * 2012-09-06 2016-08-02 Avaya Inc. System and method for phonetic searching of data
CN105378830A (zh) * 2013-05-31 2016-03-02 朗桑有限公司 音频数据的处理
CN103366010A (zh) * 2013-07-25 2013-10-23 北京小米科技有限责任公司 一种录音文件的检索方法和装置
US9088655B2 (en) * 2013-07-29 2015-07-21 International Business Machines Corporation Automated response system
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
JP6677038B2 (ja) * 2016-03-24 2020-04-08 ヤマハ株式会社 データの位置決定方法、データの位置決定装置及びコンピュータプログラム
CN106095799A (zh) * 2016-05-30 2016-11-09 广州多益网络股份有限公司 一种语音的存储、检索方法及装置
CN106682188B (zh) * 2016-12-29 2020-09-22 重庆三峡农业科学院 田间科研数据随身读写方法
US10546062B2 (en) * 2017-11-15 2020-01-28 International Business Machines Corporation Phonetic patterns for fuzzy matching in natural language processing
CN109903758B (zh) * 2017-12-08 2023-06-23 阿里巴巴集团控股有限公司 音频处理方法、装置及终端设备
US10720151B2 (en) 2018-07-27 2020-07-21 Deepgram, Inc. End-to-end neural networks for speech recognition and classification
EP3906538A4 (en) * 2019-01-03 2022-10-19 Lucomm Technologies, Inc. ROBOTIC DEVICES
CN112214635B (zh) * 2020-10-23 2022-09-13 昆明理工大学 一种基于倒频谱分析的快速音频检索方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
JP2986345B2 (ja) 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US5710591A (en) * 1995-06-27 1998-01-20 At&T Method and apparatus for recording and indexing an audio and multimedia conference
US5778361A (en) * 1995-09-29 1998-07-07 Microsoft Corporation Method and system for fast indexing and searching of text in compound-word languages
US5794249A (en) 1995-12-21 1998-08-11 Hewlett-Packard Company Audio/video retrieval system that uses keyword indexing of digital recordings to display a list of the recorded text files, keywords and time stamps associated with the system
JPH11272688A (ja) * 1998-03-19 1999-10-08 Fujitsu Ltd インデックスインジケータ、インデックス表示方法並びにインデックスインジケータプログラムを記録した記録媒体

Also Published As

Publication number Publication date
US7177795B1 (en) 2007-02-13
CN1296257A (zh) 2001-05-23

Similar Documents

Publication Publication Date Title
CN1176456C (zh) 数据档案系统中基于语义单元的自动索引和搜索方法及设备
US7092870B1 (en) System and method for managing a textual archive using semantic units
CN1029170C (zh) 语言翻译系统
US7668718B2 (en) Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
CN101382937B (zh) 基于语音识别的多媒体资源处理方法及其在线教学系统
JP5241840B2 (ja) データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
WO2003010754A1 (fr) Systeme de recherche a entree vocale
CN1889170A (zh) 基于录制的语音模板生成合成语音的方法和系统
JP2007328311A (ja) マルチメディアデータ管理方法とその装置
JP4738847B2 (ja) データ検索装置および方法
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
Jeong et al. Semantic-oriented error correction for spoken query processing
CN1811912A (zh) 小音库语音合成方法
US20050125224A1 (en) Method and apparatus for fusion of recognition results from multiple types of data sources
JP5334716B2 (ja) 文字情報提示制御装置及びプログラム
Punchimudiyanse et al. Unicode sinhala and phonetic english bi-directional conversion for sinhala speech recognizer
Safarik et al. Unified approach to development of ASR systems for East Slavic languages
Evans et al. Developing automatic speech recognition for Scottish Gaelic
Lee et al. Voice-based Information Retrieval—how far are we from the text-based information retrieval?
Thangthai et al. Automatic syllable-pattern induction in statistical Thai text-to-phone transcription.
Schiel et al. The Bavarian archive for speech signals: Resources for the speech community
CN117219116B (zh) 现代汉语语音分析方法、系统及存储介质
GB2480649A (en) Non-native language spelling correction
Adell Mercado et al. Buceador, a multi-language search engine for digital libraries

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20090911

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090911

Address after: Massachusetts, USA

Patentee after: Nuance Communications Inc

Address before: American New York

Patentee before: International Business Machines Corp.

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20041117