CN1176456C

CN1176456C - 数据档案系统中基于语义单元的自动索引和搜索方法及设备

Info

Publication number: CN1176456C
Application number: CNB001338935A
Authority: CN
Inventors: 陈成钧; 里・肯奈斯基; 迪米特里·肯奈斯基
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 1999-11-10
Filing date: 2000-11-09
Publication date: 2004-11-17
Anticipated expiration: 2020-11-09
Also published as: US7177795B1; CN1296257A

Abstract

用于处理与某特定语言相关的基于声频的数据的基于声频数据的索引和检索系统，包括：(i)存储器，用于存储基于声频的数据；(ii)基于语义单元的语音识别系统，用于生成基于声频的数据的文本表示；(iii)索引和存储模块，用于对语义单元编索引并存储该一个或多个编索引的语义单元；以及；(iv)搜索引擎，用于搜索与用户查询相关的语义单元相匹配的编过索引的语义单元，并且用于根据编过索引的语义单元检索被存储的基于声频的数据。

Description

数据档案系统中基于语义单元的自动索引和搜索方法及设备

技术领域

本发明一般地涉及数据档案系统，更具体地涉及这种系统中使用的改进型索引和搜索方法及设备。

背景技术

几份专利和专利申请涉及声频数据的声频索引和搜索，例如，1997年7月15日颁发给Ellozy等的美国专利号5,649,060；1998年8月11日颁发给Orsolini等的美国专利号5,794,249；以及用序列号09/108,544(代理人文档号YO998-120)标记的题目为“用于自动索引和搜索的声频—视频档案及方法”于1998年7月1日提交的美国专利申请，它们的公开供本文参考。这些专利和专利申请中采用的方法都利用词作为索引和搜索的基本单元。在这些方法中，典型地通过词对声频数据转录(通过自动或人工语音识别)、打时间戳记和加索引。

在基于词的系统中，在能够开始搜索之前，必须根据已知的词准备一个词汇表和一个语言模型。这样，通过定义，总是存在着系统不知道的词。遗憾的是，只有利用产生良好语言模型计分的词，即已知的词，搜索机制才会工作。

在试图建立能够利用系统不知道的条目进行搜索的系统中，已经提出基于音素的索引方法。这种方法包括生成词的声转录和通过声的音素对语音段编索引。然而，由于同一词可以存在不同的音素转换并且音素识别精度可能是低的例如低于词识别精度，这些基于音素的索引方法不是很有效的。

在运行于语音和正文中“词”单元可能具有双重含义的语言如中文下或者具有很多词形的语言如斯拉夫语言下的系统中，这些困难甚至更加明显。

对于大多数欧洲语言，在印刷文本中以及在计算机文本文件中存在词的边界。这些边界是按词之间的空格呈现的。但是，对于大多数亚洲语言，包括例如中文、日文、朝鲜文、泰文和越南文，在印刷形式下以及计算机文本文件中都不存在这样的词边界。从而，不能对这些语言施加基于词的索引和搜索方法。用于这些语言的基于音素的索引和搜索方法具有和上面提到的相类似的问题。

发明内容

从而，需要用来索引和搜索声频数据等的方法和设备，其使这些以及其它缺点和限制为最小和/或消除这些以及其它缺点和限制，并且还可用于数量更多的语言。

本发明采用基于最小语义单元的方法和/设备对声频数据等提供改进的索引和搜索。请理解“最小语义单元”定义为语言中所知的其有语义含义的小单元，最好是最小单元。可使用的语义单元的例子是音节或词素。本发明的方法可用于现有方法难以适应的语言例如亚洲语言中。

应理解“词素”是语言中常见的和有含义的最小语义单元。它可能是词的一部分或是一个词，例如在词“friendliness”中有三个单元即“friend-”、“li”和“ness”。在西方语言中，自由词素和约束(bound)词素是不同的。自由词素可以是一个可独立使用的词，例如“friend”。而约束词素本身不能使用，例如“li”和“ness”。词素可以是单个音节，一组音节，或附着在一个音节上的一个辅音，例如“man’s shirt”中的“s”。在大多数东亚语言中，由于在印刷文本中或在计算机文件中不存在词边界，自由词素和约束词素的差别是不明显的。在这些语言中，和词相比词素是语言的更为适当的单元。

另外，应理解，“音节”是一组音素，它由元音或连续音单独或与辅音或数个辅音组合组成，其代表一个完整的发音或一个发音的复合体，并且还构成词组成的单元。它可看成是和胸搏动以及和发声顶点是等同的。若以元音结束音节是开音节，或若以辅音结束则音节是闭音节。在上面的例子，“friend”、“li”和“ness”是三个音节，其中“li是开音节，而“friend”和“ness”是闭音节。

在许多亚洲语言中存在称为词素的语义单元。例如，在许多东亚语言，例如中文、泰文、越南文，中，除一些例外外，几乎所有词素都是单音节的。这样，在这些语言中，词素和音节的概念是可互换的。

此外，在中文中，每个音节是由一个称为汉字的字符表示的。字节的数量和汉字的数量是有限的。在现代标准中文口语即普通话中，不同音节的总数量是1,400。在现代标准书面中文中，在中国大陆经常使用的字符的数量是6700个，在台湾省为13,000个。

从而，在本发明的广义上，提供用于声频数据等的索引和搜索的方法和设备，它们基于最小语义单元，例如音节和/或词素。以这种方式，用于索引和搜索声频数据等的本发明方法最小化和/或消除与现有索引和搜索系统(例如基于词的系统)相关的缺点和限制。此外，本发明的用于索引和搜索声频数据等的发明方法可和更多数量的语言一起使用。

从而，在本发明的用于中文的一种示范实施例中，可设置一个基于字符或汉字的搜索引擎。在大的文本语料库上建立的统计语言模型用来执行语音识别。用一个字符或一串字符构成搜索后信息(要搜索的数据)。该搜索机制用文本和目标进行比较。

在本发明的用于中文的另一个示范实施例中，设置一个基于音素音节的搜索引擎。从大的文本语料库通过字到音素音节的转换建立一个基于音素音节的统计语言模型。该语言模型的大小要小得多。用一个音素音节或一串音素音节构成搜索后的信息。

观察到中文中音节承载着语义信息，我们按如下一般化基于音节的声频索引。本发明采用典型地比词要小并具有唯一声表达的语义单元。语义单元允许建立代表语义信息的语言模型并且改进基于由语义单元组成的词汇表的自动语音识别(ASR)的译码准确性。如所提及，这种用于转录声频数据、索引和搜索的单元的例子是音节(例如中文中)或词素(例如斯拉夫语中)。由于字节单元是清晰的并且一种语言中可能的音节的数量是有限的，这种方法可普遍应用于大多数语言。对于这些语言，把单元音节作为搜索的基本构件是更有效的。该方法还解决上面提到的未知的词的问题，因为采用该方法的系统知道所有的可应用于其所应用的语言中的音节。

例如，支持本发明方法的语言可包括但不限于：

a)中文。在标准方言(基于北京方言的官话或普通话)，所允许的声音节的总数量小于1800个。讲话的平均音节率是每秒4-5个音节。

b)朝鲜文。声音上许可的音节数少于2400个。书面系统完全基于声音节。讲话的平均音节速率是每秒4-5个音节。

c)日文。只有105个许可的声音节。讲话的平均音节速率是每秒6-7个音节。

d)越南文。存在3000个不同的音节。书面系统完全基于声音节。讲话的平均音节速率是每秒4-5个音节。

类似地，具有非常大量的词形式的语言(例如斯拉夫语中数百万个词形式)具有数量相对少的词素(例如俄语中50,000词素)。对于这些语言，自动语音识别系统回送声音节串或词素串。利用基于声音节或者词素的语言模型这可得到实现。要搜索的词首先译成音节串。接着对照译码声音节数据库匹配这些音节串。

根据本发明，提供了一种用于处理和某特定语言关联的基于声频的数据，该方法包括步骤：存储该基于声频的数据；生成该基于声频的数据的文本表示，该文本表示以和该基于声频的数据对应的一个或多个语义单元为形式，其中，一个语义单元包括一个具有一个语义含义的最小语言单元；以及对该一个或多个语义单元编索引并存储该一个或多个编索引的语义单元，以在响应用户查询搜索所存储的基于声频的数据时使用。

根据本发明，提供了一种用于处理和某特定语言相关的基于声频的数据的设备，该设备包括：至少一个处理器，并运行成：(i)存储该基于声频的数据；(ii)生成该基于声频的数据的文本表示，该文本表示以和该基于声频的数据对应的一个或多个语义单元为形式，其中，一个语义单元包括一个具有一个语义含义的最小语言单元；以及(iii)对该一个或多个语义单元编索引并存储该一个或多个编索引的语义单元，以在响应用户查询搜索所存储的基于声频的数据时使用。

根据本发明，提供了一种用于处理与某特定语言相关的基于声频的数据的基于声频数据的索引和检索系统，该系统包括：存储器，用于存储基于声频的数据；一个基于语义单元的语音识别系统，用于生成基于声频的数据的文本表示，该文本表示以和该基于声频的数据对应的一个或多个语义单元为形式，其中，一个语义单元包括一个具有一个语义含义的最小语言单元；一个索引和存储模块，其运行上和基于语义单元的语音识别系统及存储器连接，用于对该一个或多个语义单元编索引并存储该一个或多个编索引的语义单元；以及一个搜索引擎，其运行上与索引和存储模块以及存储器连接，用于搜索与用户查询相关的一个或多个语义单元相匹配的一个或多个编过索引的语义单元，并且用于根据该一个或多个编过索引的语义单元检索被存储的基于声频的数据。

应理解本发明的方法比起基于词或基于词标记的方法更直接和更快。由于音节和词素数量有限，数据压缩也更加有效。

附图说明

从与附图一起阅读的下述对本发明的示范实施例的详细说明中本发明的这些以及其它目的、特性和优点将会变得清晰。

图1是依据本发明的一个实施例的用于通过音节索引和搜索声频记录的一种设备的方块图。

图2提供依据本发明的一个实施例的搜索查询和介质的一些例子。

图3是依据本发明的一个实施例的产生音节语言模型的方块图。

图4A是依据本发明的一个实施例的基于音节的声频索引方法的流程图；

图4B是依据本发明的一个实施例的基于音节的声频搜索方法的流程图；以及

图5是依据本发明的一个实施例的声频索引和搜索系统的硬件实现的方块图。

具体实施方式

下面在示范性基于音节的索引和搜索实现下解释本发明。然而，应理解，本发明不受限于这种特定的实现。相反，本发明利用语义单元更广泛地应用于对声频数据的索引和搜索，而音节仅是语义单元的一个例子。例如，本发明在任何如下的实施中发现有益的应用，即其中向用户提供基于声频的数据的索引和搜索能力，从而不必担心在他的查询向系统输入不知道的词。本发明特别上面提到的例如亚洲语言和斯拉夫语言那样的语言。但是，本发明不限定于和任何特定的语言一起使用。

现参照图1，图中示出依据本发明的一个实施例的通过音节对声频记录进行索引和搜索的设备。该设备100按下述方式运行。通过声记录器102记录声数据。在数据存储器104中存储声频数据。声频数据还被音节语音识别器106处理。在C.J.Chen等的“A ContinuousSpeaker-Independent Putonghua Dictation System”，3^rd InternationalConference on Signal Processing Proceeding，pp.821-824中说明一种可由本发明采用的语音识别器的一个例子，该论文的公开从而作为本文的参考。标准语音识别系统，例如上面引用的Chen等人的文章中说明的系统，可修改成利用基于音节的语言模型108提供音节语音识别器的功能，该语言模型108的生成在后面解释。在给出依据本发明的基于音节的语言模型下以及在这种模型通常要比标准语音识别系统中的基于词的语言模型简单的事实下，一般的业内人士理解如何修改标准的语音识别系统以按利用基于音节的语言模型108的音节语音识别器106运行。

应理解在本发明的一个实施例中，音节可以是基于音素的。音素音节反映音节的不同发音。在中文中，在该国的不同地区音素音节不同(尽管文字表达不和地理位置相关)。在本发明的另一个实施例中，音素音节由反映音素以及语调信息的“调素”构成，参见上面引用的Chen等的文章。调素是声调语言中的语调音素。

以类似于标准语音识别系统利用基于词的语言模型的方式，音节语音识别器106利用基于音节的语言模型108产生由音节串110构成的译码文本(即，转录)。如后面解释那样在单元112对音节文本加以时间戳记，并把音节文本和音节索引一起存储到音节索引存储单元114中。音节索引存储单元114含有和译码音节数据相关的索引，例如时间戳记。如后面的例子中所解释的那样，利用这些时间戳记来响应搜索查询以在声频数据存储器104中检索对应的声频数据。

例如，在一种优选实施例中，单元114中存储的索引包含可在数据存储器104中找到用于某音节的数据的地址。可以理解在由声记录器102记录声频数据期间某些音节会出现数次。在单元104中存储来自记录器的该数据。单元104中的某索引指向单元104中何处存储特定的音节。一种简单的指示何处存储音节的方法是指示说出该音节的时间。从而，索引可和一组说出该音节的时间相关。这是通过由单元112对音节打上时间戳记实现的。存储地址上的时间转换允许检索单元104中存储和该音节有关的数据的所有单元。

作为一个简单例子，假定音节语音识别器106译码的某句子包含一串与声频(存储在单元104中)句子对齐的音节，这串音节表示成：S1、S2、S3、S4、S1、S4、S1、S2、S7、S8、S7。这些音节打上的时间戳记是：t1-t2、t3-t4、t5-t6、…、tm-tn。假定声频句子用声频段表示：aud1、aud2、aud3、aud4、aud5、aud6、aud7、aud8、aud9、aud10、aud11。从而，单元114中存储的索引数据可以为如下：S1：aud1，aud5，aud6；S2：aud2，aud8；S3：aud3；S4：aud4，aud6；S7：aud9，aud11；S8：aud10。这意味着音节S1存储在数据存储器104中存储的该声频句子的第一、第五和第六个位置(段)上。从而，为了放和S1对应的各段，可转到数据存储器104中由该索引指示的各对应单元上。

应理解，尽管时间戳记是对译码数据编索引的一种方便方法，还可采用任何其它可使用的编索引技术。上面的处理概括地由依据本发明的该特定实施例的数据编索引处理构成。

音节索引存储单元114和基于音节的搜索部件116连接。该搜索部件可采用任何常规的搜索方法。音节搜索部件116通过输入部件122接收来自用户124的输入查询118。输入部件例如可以是下述中的一种：键盘、自动语音识别(ASR)系统、自动手写识别(AHR)系统等。在提交给搜索部件之前，该音节查询可先由查询处理模块120处理，如后面解释那样。搜索部件116利用音节查询118确定数据存储器104中的声频段。这可通过使各声频段和文本数据对齐来实现。例如，通过时间参数化声频数据，再把句中的各音节匹配到声频数据中的各时间区段中。上面对编索引操作给出了一个这样的例子。声频数据和文本数据对准的技术是由识别器106实现的。当该识别器译码语音时，它把各文本部分(例如各音节)和对应的声频数据段相联起来。

这样，通过确定索引存储器114中和查询中的音节对应的索引，可把用户查询中的该音节和声频存储器104中存储的一个或多个声频段相关联或匹配。即，若用户查询包含音节S1，则根据上面解释的索引操作确定声频段aud1、aud5、aud6。一旦确定这些声频数据段，通过回放/输出部件126把它们向用户回放。从而部件126可包括一个回放扬声器。用户查询118可包含帮助定位该搜索的其它信息。

上面的模式是通过音节进行声频索引/搜索的简化例子。即，取次于应用，可实施其它特性，即，还可根据与生成该声频数据的人即说话人的各属性对声频数据编索引。这可在索引器和存储单元128中实现。也就是说，可从声频数据中提取和说话人相关的各属性例如姓名、性别、年龄，并用于索引和存储所提供的声频数据。这些属性可由人说出(例如，“我的姓名是……”)并由语音识别器译码，或者通过常规说话人识别技术确定。备择地，可以用说话人的姓名标记声频数据，以增强该系统的声频搜索部分。在用序列号09/294,214(代理人文档号YO998-398)标识的于1999年4月16日归档的标题为“用于索引和查询声频档案的系统和方法”的美国专利申请中讨论了用说话人姓名标记声频数据，该申请的公开作为本文的参考。

从而，例如，用户可把某特定音节查询限制成检索会议中的某些发言人。如上面所述，还可把所存储的声频数据和提供有关说话人的附加信息的说话人的生物统计(例如，用户的社会状态、年龄、性别等)关联起来，如在用序列号09/371,400(代理人文档号YO999-227)标识的于1999年8月10日归档的标题为“会话数据挖掘”的美国专利中所说明的那样，该申请的公开作为本文的参考。

还可以用提供一些其它信息的标志标记所存储的声频数据。这些信息可包括何时生成该声频数据。生成它的场所等的信息。该声频数据还可以和与该声频数据同时记录的并存储在数据存储单元104中的视频数据关联。这允许用户对他在输入部件122处输入的声频相关查视添加视频相关查询。在这种情况下，搜索部件还可实现视频图象识别检索技术。

可理解，根据图1的设备100可在索引机和存储单元128中实现这些附加索引特性(例如，说话人生物统计、视频数据等)中的一个或多个。在声频数据和视频数据都被编索引和存储的情况下，分层的索引存储和搜索技术上面提及的用序列号09/108,544(代理人文档号YO998-120)标识的、于1998年7月1日提交的标题为“用于自动索引和搜索的声频/视频档案及方法”的美国专利申请中所说明的那样。在该分层的搜索中，音节变为分层金字塔中的一层。如后面解释的那样，图2描述设备100可实现的这些附加的索引和搜索特性中的一些。

可以以与上面的解释不同的各种方式向用户呈现用户查询搜索的结果。例如，根据包括着显示器的回放输入部件126，用户可以首先观看印出的译码(音节)输出数据，在观看整个译码输出后用户可简单地通过点击(利用输入部件122的一部分的鼠标)文本输出的相应部分决定他希望回放哪一部分的声频数据。在另一个实施例中，用户还可观看根据查询请求通过搜索部件114找到的和声频数据相关的视频数据。

在本发明的另一个实施例中，从用户查询所指示的音节开始回放声频数据，直到用户停止声频的回放(通过输入部件)或者直到声频段的特定持续时间(如在用户查询中规定)期满。

而且，用户查询可由一组词而不是一组音素音节组成。在这种情况下，利用文本-音素音节变换把词转换成一串音节。可按任何常规方式生成这种变换。这种文本-音节变换可采用一个和每个音节、一组可能的音素音节关联的表。可由查询处理模块120实现该变换/表。在搜索模式下，若提供其它数据(例如，产生声频数据的地理位置)可以限制与输入的文本音节相关的音素音节的数量。

用户查询还可包括相当长的文本语料库而不是几个词或音节。用户可具有说出的语音正文(例如，若他自己念出某要记录成声频数据的正文)。在这种情况下，该文本语料库可变换成一串(音素)音节，并可使用搜索部件114中实现的专用搜索机制以找到和一长串音节匹配的声频数据。在前面提及的美国专利5,649,060中说明这种机构。它允许甚至在ASR质量相对低时使声频数据和大段基准正文匹配。它利用该大段正文的时间戳记以使基准原本中的少量部分和所存储的译码输出的一些部分匹配。

音素音节编索引使用的方法还可以和其它把词分割成更小的单元，例如斯拉夫语的词素，的技术一起使用。

现参照图2，其中描述依据本发明的搜索查询和介质的例子。用于搜索202的介质可包含声频数据204和视频数据206二者。该介质分割成用于编索引的多个单元208。可理解可在查询处理模块120中完成这种分割。在框210中描述声频单元的例子。这种单元可包括：文本部分(例如：短语、段落、章节、诗、故事)、词、音节、音素音节、词素、字符和其它语义单元(例如，斯拉夫语中的词根)。视频数据可分割成视频部分212。这也可在查询处理模块120中完成，参见上面引用的用序列号09/108,544(代理人文档号YO998-120)标识的标题为“用于自动索引和搜索的声频/视频档案及方法”的美国专利申请。

搜索部件116(和图1中的相同)响应接收到查询单元208可使用框214中描述的一个或多个特性以辅助或产生搜索：(i)分层索引(例如指向音节的音素音节、指向词的音节以及可指向短语的词)；(ii)用于限制搜索的标志(例如，位置，说话人姓名，时间阶段等)；(iii)帮助索引声频数据并把它和文本数据对齐的时间戳记；以及(iv)从一串单元(例如音节)训练的语言单元模型，以提高把声频数据变换成一串单元(例如，音节)的准确性。

搜索系统116还可使用应用到查询118上的自动边界标记系统。这用于把用户输入分割成词。回想在一些语言中不利用空格把字符分割成词。这允许通过词(不仅仅通过音节)进行搜索。通过单元126向用户回放找到的声频部分(例如，和一串音节或一串词对应的声频)，从而用户可决定哪部分声频是需要的。

如所述，音节可指向别的层次中的数据(例如如图2的框214中说明那样)。例如，声频可伴有视频，从而可和声频一起向用户示出该视频数据(例如，通过单元126)。

可以用逆谱(即表达声频的一种有效压缩形式)表达声频数据。可把逆谱转换成可向用户播出的声频数据。从逆谱中得到的声频数据的质量可能是相对低的，但可能适用于某些应用，例如，只是表达所存储短语的内容。由于和完整声频相比逆频要求较少的存储容量，从而搜索和回放可被更快地实现。逆频可指向高质量的声频，若用户需要高质量的输出可使用该高质量的声频。在上面引用的用序列号09/108,544(代理人文档号YO998-120)标识的标题为“用于自动索引和搜索的声频/视频档案及方法”的美国专利申请中更详细地说明这样的接口。

在另一个实施例中，可以用速记版本(即不是译码器输出)表达文本输出。速记术类似于编码器，然而可由速记员生成文本数据并且可比译码器输出更为准确。若可得到速记员输出，可通过单元126向用户124呈现速记员输出。从而，用户可指向该速记员输出中的各个不同的位置，并按声频回放所对准的速记员数据。

参照图3，图中示出依据本发明的一种实施例的生成音节语言模型的方法的方块图。此为可由图1的话音识别器106使用的音节语言模型108。文本语料库300用于生成许多音节串302(例如，通过把字符串变换成音节的表)。音节串产生音节计数304。为了生成音素音节306的语言模型，必须知道音节是如何发音的。由于相同的音节可以具有不同的发音，这种数据不能直接从大段文本中提取。因此，需要转录和文本300对应的声频数据308(框310)。可以手工地或者利用把音素音节对齐到说出的音节串的自动语音识别生成转录310。作为转录310的一部分生成的音素音节312和音节314接着被用来导出给定某音节下某音素音节的概率分布(框316)。利用音节计数304以及音素音节314的条件分布构建音素音节的语言模型。在给出音节计数304以及音素音节的条件分布下，业内人士理解如何构建音素音节的语言模型306。例如，该过程类似于构建用于类的语言模型(例如，Frederick Jelinek，“Statistical Methods for Speech Recognition”，TheMIT Press，Cambbridge，1998，该书的公开作为本文的参考)或用于词素的语言模型(例如，1998年11月10日颁发的标题为“用于屈折型语言的统计语言模型”的美国专利号No.5,835,888，该专利的公开作为本文的参考)。

参照图4A，其示出依据本发明的一种实施例的基于音节的声频编索引方法的流程图。在步骤400，记录要编索引并要存储的声频数据。在步骤420，把该声频数据译码成由音节(或词素串构成的译本。在步骤404，通过对音节(或词素)打上时间戳记对音节编索引。最后，在步骤406，根据时间戳记索引存储各音节(或各词素)。

现参照图4B的依据本发明的一种实施例的基于音节的声频搜索方法的流程图。应理解，图4B的搜索方法最好和根据图4A的编索引方法编索引的数据一起使用。在步骤408，用户输入查询以检索某些部分的已存储声数据。在步骤410处理该查询。如上面所解释，这可能包括利用文本-音素音节变换把用户输入的词转换成音节串。用户也可能直接输入音节而不是词。在步骤412，利用这些音节从存储器中检索所希望的声频数据段。最后，在步骤414，向用户回放各声频段。

现参照图5，其中示出用于实现图1中所示的设备100的一个、多个或所有构件的示范性硬件体系结构。在该实施例中，可通过处理器500、存储器502和I/O部件504实现设备100。请理解本文中使用的术语“处理器”的意图是包括任何处理部件，例如包括CPU(中央处理机)的部件。例如，该处理器可能是技术上周知的数字信号处理器。术语“处理器”还表示一个或多个独立的处理器。本文中使用的术语“存储器”的意图是包括和处理器或CPU关联的存储器，例如，RAM、ROM、固定存储器部件(例如硬盘机)、可拆存储器部件(例如软盘)、快速存储器等。另外，本文中使用的术语“输入/输出部件”或“I/O部件”的意图是一般性地包括用于向处理单元输入数据和其它信号的一个或多个输入部件，例如拾音器、键盘、鼠标等，和/或包括用于提供与处理单元相关的结果的一个或多个输出部件，例如显示器、扬声器等。例如，显示器或扬声器可向用户提供系统检索出的回放信息。相应地，可在一个或多个相关的存储器部件(例如，ROM、固定或可拆存储器)中存储包含着用于实现本文所说明的本发明的方法的计算机软件，并且当准备好供使用时，可把它部分地或全部地装入(例如RAM中)并由CPU执行。在任何情况下，可以以各种形式的硬件、软件或它们的组合实现各图中示出的各构件，例如，一个或多个带有关联存储器的数字信号处理器、专用应用集成电路、功能电路、一个或多个适当的带有关联存储器的编程的通用数字计算机等。在给出本文所提供的本发明的原理下，业内人士能设想本发明的各构件的其它实现方式。

虽然本文参照附图说明了本发明的示范实施例，应理解本发明不受限于这样明确的实施例，在不背离本发明的范围或精神下业内人士可进行各种其它改变和修改。

Claims

1.一种用于处理和某特定语言关联的基于声频的数据的方法，该方法包括步骤：

存储该基于声频的数据；

生成该基于声频的数据的文本表示，该文本表示以和该基于声频的数据对应的一个或多个语义单元为形式，其中，一个语义单元包括一个具有一个语义含义的最小语言单元；以及

对该一个或多个语义单元编索引并存储该一个或多个编索引的语义单元，以在响应用户查询搜索所存储的基于声频的数据时使用。

2.权利要求1的方法，其中语义单元是音节。

3.权利要求2的方法，其中音节是基于音素的音节。

4.权利要求1的方法，其中语义单元是词素。

5.权利要求1的方法，其中生成步骤包括根据语音识别系统译码该基于声频的数据。

6.权利要求5的方法，其中语音识别系统采用基于语义单元的语言模型。

7.权利要求1的方法，其中编索引步骤包括对该一个或多个语义单元打上时间戳记。

8.权利要求1的方法，其中搜索步骤包括：

处理用户请求以生成一个或多个表示该用户试图检索的信息的语义单元；

搜索该一个或多个编过索引的语义单元以找到与用户查询相关联的一个或多个语义单元的实质性的匹配；以及

利用和用户查询关联的一个或多个语义单元匹配的一个或多个编过索引的语义单元，检索一个或多个基于声频的数据段。

9.权利要求8的方法，其中搜索步骤还包括向用户展示检索的数据。

10.权利要求1的方法，其中该特定语言是以亚洲为基的语言。

11.权利要求10的方法，其中该特定语言是中文。

12.权利要求11的方法，其中语义单元是汉字。

13.权利要求1的方法，其中该特定语言是以斯拉夫为基的语言。

14.权利要求1的方法，其中根据说话人的属性对该一个或多个语义单元编索引。

15.权利要求1的方法，其中至少根据何时产生该基于声频的数据和何处产生该基于声频的数据中之一对该一个或多个语义单元编索引。

16.权利要求1的方法，还包括存储和该基于声频的数据相关的基于视频的数据，以在响应用户查询搜索所存储的基于声频的数据和基于视频的数据时使用。

17.权利要求16的方法，其中搜索步骤还包括分层搜索例程。

18.权利要求1的方法，其中生成步骤包括速记式记录基于声频的数据以生成文本表示。

19.一种用于处理和某特定语言相关的基于声频的数据的设备，该设备包括：

至少一个处理器，并运行成：(i)存储该基于声频的数据；(ii)生成该基于声频的数据的文本表示，该文本表示以和该基于声频的数据对应的一个或多个语义单元为形式，其中，一个语义单元包括一个具有一个语义含义的最小语言单元；以及(iii)对该一个或多个语义单元编索引并存储该一个或多个编索引的语义单元，以在响应用户查询搜索所存储的基于声频的数据时使用。

20.一种用于处理与某特定语言相关的基于声频的数据的基于声频数据的索引和检索系统，该系统包括：

存储器，用于存储基于声频的数据；

一个基于语义单元的语音识别系统，用于生成基于声频的数据的文本表示，该文本表示以和该基于声频的数据对应的一个或多个语义单元为形式，其中，一个语义单元包括一个具有一个语义含义的最小语言单元；

一个索引和存储模块，其运行上和基于语义单元的语音识别系统及存储器连接，用于对该一个或多个语义单元编索引并存储该一个或多个编索引的语义单元；以及

一个搜索引擎，其运行上与索引和存储模块以及存储器连接，用于搜索与用户查询相关的一个或多个语义单元相匹配的一个或多个编过索引的语义单元，并且用于根据该一个或多个编过索引的语义单元检索被存储的基于声频的数据。