CN101996631B

CN101996631B - 用于对齐文本的方法和装置

Info

Publication number: CN101996631B
Application number: CN200910168621.XA
Authority: CN
Inventors: 张世磊; 施勤; 双志伟; 秦勇; 周杰
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2009-08-28
Filing date: 2009-08-28
Publication date: 2014-12-03
Anticipated expiration: 2029-08-28
Also published as: CN101996631A; US8527272B2; US20110054901A1

Abstract

本发明公开了一种用于对齐文本的方法和装置。该方法包括：获取目标文本和参考文本；以及基于音素相似度，在字的级别对齐目标文本和参考文本。本发明还公开了应用上述方法的用于自动归档多媒体资源的方法，以及用于自动检索多媒体资源的方法。

Description

用于对齐文本的方法和装置

技术领域

本发明涉及语音处理技术领域，具体地，涉及用于对齐文本的方法及其装置，用于自动归档多媒体资源的方法，以及用于自动检索多媒体资源的方法。

背景技术

目前，随着信息技术的发展，多媒体资源日益普遍，相应的用于存储多媒体资源的存储库的规模越来越庞大。例如，在新闻中心和电视台通常存在数量庞大的需要查询和管理的广播新闻资源，这些资源通常包括节目视频和广播稿。过去的节目视频往往没有集成用于查询内容的元数据，不便于查询和管理。而广播稿是文字文本，容易查询其中的内容，提供了查询节目视频的天然接口。如果人工来查询和管理这些广播新闻资源，则费时费力，并且很多时候不可能实现。因此，希望能够自动地对齐节目视频和广播稿。也希望能够自动地将节目视频和广播稿集成为便于检索的多媒体资源。希望检索引擎能够自动根据广播稿检索要查询的字或短语，从与广播稿对齐的音频文件中回放所查询的内容。

又如，目前在开会或演讲时，往往会记录视频或者音频。这些视频/音频形式的会议记录可以存放在服务器上供以后浏览。会议和演讲中使用的文稿，例如PPT(Powerpoint)文稿，提供了用于浏览会议记录的天然接口。在浏览文稿的同时回放会议记录的情况下，需要很好地同步文稿的文字内容和视频/音频形式的会议记录中的语音内容。

现有的方法首先找到对应的视频/音频和参考文本对，然后使用语音识别引擎来解码音频数据，获得语音识别结果。使用动态编程算法进行特征最大匹配，以便实现句子级别的对齐。这些方法受到识别率和参考文本的准确性的影响，在识别率低或者参考文本含错的情况下，对齐效果差，甚至可能不能输出对齐结果。而且，这些方法不能够获得精确的时间信息。

现有技术中还存在一些其他方法，使用基于音素的强制对齐来对齐视频/音频中的语音与参考文本。但是这些方法受到句子级别对齐的精度的影响，可能不能输出对齐结果；另一方面，含错的参考文本也限制了对齐效果。此外，强制对齐基于音素的声学模型，其计算量大。关于强制对齐的详细内容可以参见文献〔Lussier E F.A Tutorial onpronunciation modeling for large vocabulary speech recognition[J].Lecture Notes in Computer Science，2003，2705：38-77.〕。

美国专利申请公开US 5649060A1，“Automatic indexing andaligning of audio and text using speech recognition”，公开了一种方法，通过语音识别器产生语音识别结果，然后通过识别结果与正确文本的对齐，将时间信息传递给正确的文本，从而实现音频的自动编辑和检索。然而，该方法主要通过文字的相同来实现对齐，其对齐效果极大地依赖于语音识别效果，而且该方法不能用于对齐音频和含错的参考文本。

美国专利申请公开US2008294433A1提出了一种文本和语音的对应工具。其中，利用语音活动检测得到候选的句子端点，通过强制对齐的方法得到音频和句子的最优对应，然后再对齐下一个句子，以此类推得到所有的对应关系，最终实现词级的对齐。如前面所述的，强制对齐基于声学模型，所需的计算量大，并且在复杂语境下的对齐效果较差。

Jan Nouza等人的论文“Automatic Align between Speech Recordsand Their Text Transcriptions for Audio Archive Indexing andSearching”，INFOS2008，March 27-29，2008 Cairo-Egypt，公开了一种方法，首先通过文本得到与之相关的语言模型，进而根据该语言模型得到性能相对较好的识别结果，然后通过文本对齐的方法将标准文本分成小的片段，然后对于没有准确对齐的片段采用强制对齐的方式得到最优的对齐结果。其中对齐效果取决于自动语音识别(AutomaticSpeech Recognition，ASR)系统的识别结果，并且强制对齐所需的计算量大。

对于象相声或者脱口秀这类节目，语言非常自由，并且带有很多口音，语言识别效果很差。使用基于文字相同来对齐的现有方法，可能无法对齐节目和参考文本(例如，相声稿或者剧本)，甚至不能输出对齐结果。使用强制对齐的方法，则计算量可能非常大。因为这种情况下很难准确划分句子，而越长的语音段的强制对齐，计算量越大。

因此，需要一种高效的对齐视频/音频和参考文本的方法，其对于低准确性的识别结果和容错的参考文本，都能够快速地实现良好的对齐结果。

发明内容

考虑到语音识别过程中，出现的大量错误是同音异义字，或者发音相近的字，本发明提出以音素作为基元，通过音素相似度来对齐语音数据的识别文本和参考文本。这样，可以减少语音识别错误或者参考文本中的错误对对齐效果的影响。本发明提出的解决方案不使用强制对齐。对于某个语系，音素相似度可以预先计算并且存储，从而在本发明提出的对齐算法中，可以直接利用音素相似度，减少了计算复杂度。

此外，本发明还提出了分层次的对齐方式。首先基于混淆度，将整个文档切分成多个段落。接着，可选地通过连续字串匹配确定锚点，再根据锚点将段落划分成更小的片段。然后，以片段为基础，通过音素相似度来对齐语音数据的识别文本和参考文本。从而可以处理较长的文档，进一步简化对齐算法和加快对齐的速度。

根据本发明的第一方面，提出了一种用于对齐两个文本的方法，包括：获取目标文本和参考文本；以及，基于音素相似度，在字的级别对齐所述目标文本和所述参考文本。

根据本发明的第二方面，提出了一种用于对齐文本的装置，包括：输入模块，用于获取目标文本和参考文本；字对齐模块，用于基于音素相似度，在字的级别对齐所述目标文本和所述参考文本。

根据本发明的第三方面，提出了一种用于自动归档多媒体资源的方法，所述方法包括：a.获取原始多媒体资源和参考文本；b.识别原始多媒体资源中的语音数据，生成目标文本；c.基于音素相似度，在字的级别对齐所述目标文本和所述参考文本；d.基于所述目标文本与所述参考文本的对齐，在所述语音与所述参考文本之间建立时间链接；以及e.将所述时间链接加入所述原始多媒体资源，生成新的多媒体资源存档文件。

根据本发明的第四方面，提出了一种用于自动检索多媒体资源的方法，其中所述多媒体资源包括语音数据和其参考文本，所述方法包括：a.获取检索关键字；b.获取多媒体资源和参考文本；c.识别多媒体资源中的语音数据，生成目标文本；d.基于音素相似度，在字的级别对齐所述目标文本和所述参考文本；e.基于所述目标文本与所述参考文本的对齐，在所述语音与所述参考文本之间建立时间链接；f.在参考文本中检索并且标识关键字；以及g.根据参考文本中检索到的关键字和所述时间链接，在多媒体资源中标识所述关键字的出现位置。

附图说明

通过结合附图参考下面对本发明的实施方式的详细描述，本发明的上述以及其他特征将更加明显。在附图中，

图1示意性地示出了根据本发明一个实施方式的对齐目标文本和参考文本的方法的流程图；

图2示意性地示出了根据本发明的一个实施方式，基于混淆度，在段落级别对齐目标文本和参考文本的过程；

图3示意性地示出了根据本发明的一个实施方式，基于音素相似度，在字的级别对齐目标文本和参考文本的过程；

图4a示出了根据本发明一个实施方式的参考文本与目标文本中的字的发音相似度表；

图4b示出了根据本发明一个实施方式的寻找参考文本与目标文本之间的最佳匹配路径的DTW算法；

图5a示出了两个英语单词的音素的发音相似度表；

图5b示出了两个英语单词的最佳音素匹配路径的DTW算法；

图5c示出了根据本发明另一个实施方式的参考文本与目标文本中的字的发音相似度表；

图5d示出了根据本发明另一个实施方式的寻找参考文本与目标文本之间的最佳匹配路径的DTW算法；

图6示意性地示出了根据本发明一个实施方式的用于对齐文本的装置的框图；

图7示意性地示出了根据本发明一个实施方式的用于自动归档多媒体资源的方法的流程图；以及

图8示意性地示出了根据本发明一个实施方式的用于自动检索多媒体资源的方法的流程图。

在所有的上述附图中，相同的标号表示具有相同、相似或相应的特征或功能。

具体实施方式

在下文中，将参考附图通过实施方式对本发明用于对齐语音数据的方法和装置进行详细的描述。

图1示出了根据本发明的一个示例性实施方式的用于对齐目标文本和参考文本的方法。以下以一个相声为例对本发明的方法进行说明。

在步骤S102，获取语音数据，例如，从服务器中获取一段相声的音频。在本说明书中，语音数据不仅指狭义的语音数据，也可以广义地指包括语音数据的任何音频或者视频数据，诸如其可以是电影、电视节目、新闻广播、以及会议的视频/音频记录等等。语音数据的识别文本可以是用任何现有技术识别语音数据生成的识别文本。此外，本发明的音频或者视频数据不限于任何特定的存储格式。

在步骤S104中，对语音数据进行语音识别，将获得的语音数据的识别文本作为目标文本。例如，通过对获取的相声音频进行自动语音识别(ASR)生成该相声的识别文本。

应当理解，获取语音数据并且对语音数据进行识别的步骤S102和S104对于本发明的方法并不是必须的。当前有多种自动语音识别软件或服务可以提供语音的识别文本。因此，可以直接从自动语音识别软件或服务获得语音的识别文本，也即直接从服务器或者其他设备获得目标文本。

在步骤S106中，从服务器或者其他设备获得与语音数据相对应的参考文本，例如，从服务器中获取所述相声的相声稿。在本说明书中，参考文本指语音数据对应的文字稿，可以是诸如电影的字幕、新闻广播的文字稿、以及会议使用的PPT演示稿等等。此外，本发明的参考文本不限于任何特定的存储格式。

在本发明中，可以允许目标文本存在较多的识别错误。在字误识率(Character Error Rate，CER)较高的情况下也能够得到较好的对齐效果。例如，在本实施方式中，相声因为包括较多的方言或个性化的语言习惯，使用一般的ASR得到的识别结果中字误识率较高。但是针对这种情况，使用本发明的对齐方法仍然能够得到较好的对齐结果。

另一方面，参考文本也可以是不完整的文稿，或者也允许存在一些错误，其不会严重影响最终的对齐效果。

接着，在步骤S108中，基于混淆度的方法，在段落级别对齐目标文本和参考文本。可以通过任何已知的技术，例如语音活动检测(Voice Activity Detection，VAD)，粗略地将目标文本分成各个句子。然后基于混淆度的方法，将各个句子映射到不同的段落，从而将目标文本分成与参考文本中的段落相对应的段落。后面，将参考图2对此进行更详细的说明。

应该理解，段落对齐后，以下描述的基于音素相似度的对齐可以在段落的基础上进行。这将大大简化基于音素相似度的对齐算法，提高对齐的速度。根据本发明的这种分层次的方法便于处理较长的文档。但是，步骤S108并不是必须的。对于较短的文本，可以不进行分段，将整个文本作为一个段落进行处理。

步骤S110中，针对目标文本和参考文本进行连续字串匹配，确定锚点(anchor)。锚点即执行连续字串匹配所获得的目标文本和参考文本中的完全匹配的字串。可以认为这些锚点表示了可靠性很高的准确对齐结果。根据锚点，可以将其前后部分分成不同的片段。从而，可以在步骤106的执行结果的基础上，将段落分成不同的片段。以下描述的基于音素相似度的对齐可以在比段落长度更短的片段的基础上进行。这将进一步简化基于音素相似度的对齐算法，提高对齐的速度。连续字串匹配可以按照从长到短的顺序执行，以便找到完全匹配的字串。例如可以先寻找匹配10个字长的字串，然后依次寻找9个字长的字串，8个字长的字串，以此类推。将找到的完全匹配的字串作为锚点。根据锚点，将目标文本的段落分成片段，从而针对每个片段，执行后续的精确对齐。

应该理解，所示出的步骤的顺序只是示例性的，并且可以以其他的顺序来执行所示出的步骤。例如，步骤S110也可以在步骤S108之前。当步骤S110在步骤S108之前时，可以针对目标文本和参考文本的全文，执行连续字串匹配。此外，在这种情况下，还有可能基于锚点来调整段落的切分。如果目标文本的一个段落结尾处的句子中的字串与参考文本的下一段的开始的句子中的字串完全匹配(即，该文字可以作为锚点)，则可以将目标文本中的所述句子映射到下一段，重新划分段落的边界。当步骤S110在步骤S108之后时，可以针对目标文本和参考文本的全文，执行连续字串匹配，也可以针对每个段落，分别执行连续字串匹配。

而且，应该理解，步骤S110并不是必须的，查找锚点只是为了进一步减小需要对齐的文本的长度，进一步提高对齐的速度和准确性。

在步骤S112中，基于音素相似度，在字的级别对齐目标文本和参考文本。与现有技术中通过文字的相同来实现对齐的方法不同，在本发明中，通过音素的相同或相近来实现目标文本和参考文本在字的级别对齐。应该理解，本发明可以用于各种语言，因此本发明中的术语“字”不局限于汉语中的汉字，而是意指任何语言的基本单元，例如英语中的单词。

应该理解，音素是某一种语言的语音体系中的最小单元。不同的语言或方言具有不同的音素体系。例如，汉语和英语具有不同的音素体系，东北话和上海话也具有不同的音素体系。各语言的音素体系中音素的多寡相差甚多，有十几个的，也有多到一百多的，但都是有限的数目。在各自的语言中，音素与音素之间的相似程度不一样。为了简单起见，可以分为相似和不相似。可以在执行目标文本和参考文本的对齐时，规定尽量可以将相同和相似的音素对齐，而不对齐不相似的音素。

例如，在汉语拼音中，音素“ING”和音素“IN”相似，但是和音素“AO”不相似。在本发明的方法中，提出可以基于音素相似度，将相似的音素或具有相似音素的字对齐。例如，汉字“英”和“印”发音相近，然而是不同的字。在语音识别时，“英”很可能被错误地识别成“印”。在这种情况下，现有技术的通过文字相同实现对齐的方法不能得到对齐结果，因为“英”和“印”是不同的字。然而，使用本发明的方法，则可以将“英”和“印”对齐。以参考文本“英”和目标文本“印”为例，简单描述本发明的一种示例性对齐方法。首先，将每个汉字基于其拼音拆分为两个音素，例如声母部分和韵母部分(对于含双韵母的汉字，可以利用已知的相应技巧将其拆分成两个部分)。例如，汉字“英”的拼音是“YING”，可以分解为两个音素，“Y”和“ING”。汉字“印”的拼音为是“YIN”，可以分解为两个音素，“Y”和“IN”。然后，比较这两个汉字的音素的相似度。如果这两个汉字的两个音素都分别相同或相似，则认为这两个汉字的音素相似，否则，则认为这两个汉字的音素不相似。在该例子中，它们的第一个音素“Y”是相同的。它们的第二个音素“IN”和“ING”不相同，但是相似。因此，可以认为这两个汉字“英”和“印”的音素相似。最后，基于音素相似度，对齐参考文本和识别文本。例如，基于其音素相似，将“英”和“印”对齐。

例如，在英语中，同样可以基于音素相似度，在词(word)的级别对齐目标文本和参考文本。下面通过一个具体的例子来进行说明。

They drive 00 some of the core computer science and software research areas

They trying to sum up the court computer science and software research area

其中，在上的一行是目标文本，在下的一行是参考文本。可以看出目标文本中有多处错误，尤其是“trying to sum up the court”被识别成“drive 00 some of the core”(00表示无声或静音)，其中6个词中有5个词错误。对于这种情况，现有技术的通过文字相同实现对齐的方法不能实现好的对齐效果，甚至无法输出对齐结果。但是使用本发明的方法，基于音素相似度，可以如上文示出的那样，在词级实现对齐。例如，所示例子中的单词“some”和“sum”对应的音素都是[sm]，三个音素都相同，因此基于音素相同可以对齐单词“some”和“sum”。又如，所示例子中的单词“drive”和“trying”对应的音素分别是[dr ai v]和[tr ai]，其中它们的第一音素[dr]和[tr]相似，第二音素[ai]相同。在两个单词对应的大多数音素分别相同或者相似的情况下，可以认为这两个单词的音素相似。例如，可以认为单词“drive”和“trying”的音素相似。因此基于其音素相似，可以对齐单词“drive”和“trying”。

上面以简单的例子示出了本发明提出的基于音素相似度进行对齐的方法。可见，现有技术中基于文本匹配对齐的方法要求目标文本的准确率比较高，否则目标文本与参考文本无法匹配。采用本发明基于音素的方法则对目标文本的准确率的要求大大降低。只要目标文本的音素与参考文本的音素相似，即可实现目标文本与参考文本的对齐，因而提高了对齐的效果。因此，使用本发明的方法对齐语音数据的识别文本和参考文本时，对识别文本的识别率的要求比较低。

应该理解，基于音素相似度的匹配可以采用更复杂的算法，得到更佳的效果。后面，将针对图3描述一个例子，其中使用DTW算法，基于音素相似度执行对齐。

接着，在步骤S114中，执行边界微调。容易理解，在字的级别对齐目标文本和参考文本后，可以进一步进行微调。例如，在字的级别对齐目标文本和参考文本后，可能其中的大部分文字是对齐的，仍而仍然有少量没有对齐的部分。没有对齐的部分可能是目标文本中多余的文字(也即参考文本中缺少的文字，称为插入错误)，也可能是目标文本中缺少的文字(也即参考文本中多余的文字，称为删除错误)。应该理解，插入错误和删除错误都是相对的。可以将参考文本中多余的字(也即目标文本中缺少的字)称为插入错误，而将参考文本中缺少的字(也即参考文本中多余的字)称为删除错误。对齐的文字中也可能是一部分是匹配的(相同的)文字，而一部分是失配的(不同的)文字。在微调时，可以使用可信度高的对齐结果(例如，匹配的文字)来微调可信度低的对齐结果(例如插入错误或者删除错误，甚至是失配的文字)。对于一个插入错误，例如可以将它的持续时间平摊到它的前一个字(或多个字)和后一个字(或多个字)；对于一个删除错误，可以从它前后的一个或多个字的持续时间中，匀出一部分时间用于该删除错误对应的字。

根据本发明，还可以执行其他微调操作。例如，在存在连续的插入错误字的情况下，可以认为是参考文本中原本就不完整的，少了某些片段，或者可以认为是目标文本中多余地识别了媒体中的背景音乐或者噪声，因此可以忽略其对应的时间关系。

通过这些微调操作，可以获得目标文本和参考文本的更佳的对齐结果。

在步骤S116中，在语音数据与参考文本之间建立时间链接。通过对语音数据进行语音识别而得到的目标文本(也即识别文本)通常具有语音数据的时间信息。通过识别文本和参考文本的对齐，参考文本可以获得语音数据的时间信息，也即在语音数据与参考文本之间建立时间链接。例如，在一个实施方式中，语音数据的识别文本中的每个字标记有时间戳。在语音数据与参考文本之间建立时间链接可以是根据对齐结果，将识别文本中的每个字的时间戳复制给参考文本中的每个字。另外，在语音数据与参考文本之间建立时间链接还可以是根据对齐结果，在参考文本中的每一句的开始加入时间以自动生成视频字幕文件。

在语音数据与参考文本之间建立时间链接后，可以通过参考文本中的内容直接找到其在语音数据中发生的时刻。

可选地，可以将参考文本中的重点内容或目标内容作成超链接的方式。通过选择参考文本中的超链接，用户可以不必从头开始回放即可直接回放语音数据中的用户感兴趣的内容。

应该注意，步骤S116是可选的。如果只是需要对齐文本，则不需要执行步骤116。

应该理解，上面示出的方法仅是示例性的，本发明的方法并不局限于上面示出的步骤和顺序。本领域技术人员根据所示实施方式的教导可以进行许多变化和修改。例如，在其他实施方式中，可以省略某些步骤，例如步骤S114等，或者增加一些步骤，例如增加识别步骤，或者以其他顺序执行示出的步骤，例如步骤S110可以在步骤S108之前。容易理解，所示出的步骤可以迭代执行，例如可以在步骤S112中在音素或字的级别对齐文本之后，重新调整段落的边界。然后再次执行步骤S112，得到更好的对齐结果。

图2示意性地示出了根据本发明的一个实施方式，基于混淆度，在段落级别对齐目标文本和参考文本的过程。

在步骤S202中，针对参考文本的每个段，建立语言模型(LanguageModel，LM)。例如，其可以是公知的N元文法LM。

在步骤S204中，基于所建立的LM，针对目标文本中的每个句子到每个段落的可能的映射，计算混淆度分数。首先考虑第一个句子。如果参考文本存在N个段，则存在N中可能的映射。针对每种可能的映射，计算其混淆度分数。对应于某一个段落，该句子的信息熵可以表示如下：

H (W) = \frac{1}{N_{W}} \log_{1} P (W) - - - (1)

其中P(W)是针对给定的LM，分配给句子W的概率，而N_W是以字为单位的句子的长度。该句子的混淆度分数可以表示为PP(X)＝2^H(X)，其描述了语言的混淆程度。关于混淆度的概念的更详细的信息，可以参考X.Huang，A.Acero和H.-W.Hon等人的著作“Spoken LanguageProcessing：A Guide to Theory，Algorithm and System Development.Prentice Hall，2001”，尤其是其中的11.3章。在此，通过引用并入其全部内容。

然后，在步骤S206中，选择N种可能映射中，其混淆度分数为最小的映射结果，将该句子映射到一个段落。

可以重复步骤S204和S206，将第二个句子映射到一个段落。依次类推，将目标文本中的所有句子都映射到段落。从而实现在段落级别对齐目标文本和参考文本。

可选地，在步骤S208中，可以基于逻辑关系来调整句子到段落的映射结果，获得最终的段落对齐结果。某些情况下，在步骤206得到的段落对齐结果中可能存在段落划分错误。例如，句子的前后关系与句子所映射到的段落的前后关系不一致，因此需要进行平滑。这可能是某个段落的结尾处的句子被错误地映射到了下一段。或者可能是某个段落的开始处的句子被错误地映射到上一段。甚至，有可能是某两个段落的结尾和开头的两个句子被错误地看成了一个句子，并且被错误地映射到其中的一个段落。这些情况下，可以通过平滑来重新划分段落边界，得到更准确的段落对齐结果。

在一个实施方式中，可以基于下面的规则来执行平滑：

规则1：如果目标文本中的连续的三个句子中，句子1映射到段落1；句子2映射到段落2并且混淆度分数为小；句子3映射到段落1，则修改句子2的映射结果，将句子2改为映射到段落1；

规则2：如果目标文本中的连续的三个句子中，句子1映射到段落1；句子2映射到段落3并且混淆度值为小；句子3映射到段落2，则修改句子2的映射结果，将句子2改为映射到段落2。

在另外的实施方式中，可以基于如下规则来执行平滑：

如果目标文本中的连续的三个句子中，句子1映射到段落1；句子2映射到段落2并且混淆度值为小；句子3映射到段落2，则同时将句子2映射到段落2和段落1。然后，根据后续的锚点和/或基于音素相似度的字级对齐结果来重新划分段落边界。

应该理解，在该步骤中，还可以使用现有技术中的任何已知的其他段落边界平滑方法。

下面，参考图3详细描述图1中步骤S112的一个实施方式。图3示意性地示出了使用动态时间规整DTW算法，基于音素相似度，在字的级别对齐目标文本和参考文本的过程。应该理解，在执行步骤S112之前，可能已经进行了段落对齐，和/或根据锚点将文本分成了小的片段。因此，在图3中的目标文本和参考文本可以是指整个文本，可以是指一个段落，或者指一个小片段。通常，越小的片段生成的音素序列越短，则执行DTW算法所需的复杂度越小。

在步骤S302中，解析出目标文本对应的音素以及参考文本对应的音素。例如，可以将每个汉字分别拆分为声母部分，即第一音素，和韵母部分，即第二音素(对于含双韵母的汉字，可以利用已知的相应技巧将其拆分成两个部分)。

例如，参考文本和目标文本如下：

参考文本：印钞票还这么印呢这个

目标文本：英超刚才咱们说呢

解析出的音素序列如下：

参考文本：Y IN CH AO PI AO H AI ZH E M E Y IN N E ZH E

目标文本：Y ING CH AO G ANG C AI Z AN M EN SHU O。

在步骤S304中，使用DTW算法，利用音素相似度计算路径惩罚值，寻找匹配目标文本与参考文本的最佳路径。

下面通过图4a和图4b来具体描述使用DTW算法寻找最佳匹配路径的一个实施方式，其中所使用的语言是中文。

图4a以表格的形式示出了所考虑的例子中的参考文本与目标文本中的字的发音相似度。在图4a的表格中，以参考文本为表格的列，以目标文本为表格的行。表格的元素a(i，j)表示目标文本中的第i个字与参考文本中的第j个字的发音相似度。

字的发音相似度可以基于字对应的音素相似度来计算。

不同音素之间的音素相似度可以预先确定。在本例子中，音素相似度由音素的声学模型距离来度量，例如由马氏距离来度量。具体地，每个音素i的特征(例如，采用美尔频标倒谱系数(Mel FrequencyCepstral Coefficients，MFCC))分布为c_i～N(μ_i，∑_i)，n为特征维数。其表示音素i的概率分布C_i服从均值矢量为μ_i、协方差矩阵为∑_i的高斯分布；其中MFCC的特征维数为n。

两个音素i和j之间的马氏距离(即Mahalanobis距离)可以根据下面的公式计算：

d^{2} (c_{i}, c_{j}) = {(μ_{i} - μ_{j})}^{T} {(\frac{Σ_{i} + Σ_{j}}{2})}^{- 1} (μ_{i} - μ_{j}) .

本发明中的音素相似度还可以例如用其他距离来度量，例如欧式距离或者巴特查里亚距离来度量音素相似性。容易理解，在以距离度量音素相似度的情况下，音素相似度的值越大表示相似程度越小。音素相似度还可以如前面曾描述的那样，简单地以相似和不相似的二值判定来度量。

应该理解，所述音素相似度的度量可以预先确定。在本发明的方法中，可以简单地通过查找预先确定的音素相似性表或者数据库来找到音素相似度。

基于音素相似度，对任意两个给定汉字，根据下面的方法来计算字的发音相似度：将两个汉字的第一音素的相似度(距离)加上第二音素的相似度(距离)，其和即为这两个汉字的发音相似度(距离)。当然，也可以将约化后的平均单音素相似度来表示字的相似度。也即，将两个汉字的音素相似度的和除以音素数目2作为这两个汉字的发音相似度。为了简单起见，在本实施方式中，以各音素的相似度之和为两个汉字的发音相似度。

例如，在比较汉字“英(Y-ING)”与“印(Y-IN)”时，第一音素的相似度为0，第二音素的相似度近似为0.16(其可以通过查表获得)，所以两汉字的发音相似度(距离)即为0.16。类似地，钞和超的发音相似度近似是12.19，等等。

任意汉字与空音节(无声，在表格左上角中标记为0)之间的距离为常数，例如在图4a中是8。该常数是一个经验取值，是比所有汉字两两之间距离的平均值略低的一个数值。

为了简单起见，在本例子中未考虑声调对音素相似性带来的影响。在所示实施方式的启发下，本领域技术人员可以方便地将本发明的方法扩展到包含音调的情况，以应对高精度需求。

图4b以积累距离矩阵的形式示出了根据本发明的一个实施方式找到的最佳匹配路径。在图4b的矩阵中，以参考文本为矩阵的列，以目标文本为矩阵的行。矩阵的任意元素b(i，j)表示到达该位置的所有可能路径中的最佳路径的惩罚值。

对任意选定矩阵元b(i，j)的取值，均可由其左侧b(i-1，j)，上方b(i，j-1)，以及左上b(i-1，j-1)三个相邻矩阵元取值决定。具体计算方法为b(i，j)＝max(b(i-1，j)-8，b(i，j-1)-8，b(i-1，j-1)-a(i，j))，其中三个项b(i-1，j)-8，b(i，j-1)-8，b(i-1，j-1)-a(i，j)分别表示三个相应的矩阵元路径，即纵向路径、横向路径和斜向路径，并且其中a(i，j)是图4a的表格中的元素，表示对应的两个字的发音相似度。如图中虚线框内的子矩阵元所示，三个路径的匹配方式如下：

纵向路径对应：刚0

0票

横向路径对应：0刚

票0

斜向路径对应：超刚

钞票

其中，0表示空音节。

斜向路径和纵向路径分别表示插入错误或者删除错误。针对插入错误或者删除错误，惩罚值可以是一个常量，在本例子中设为8。斜向路径的路径惩罚值对应于a(i，j)，即对应的两个字的发音相似度。斜向路径中对应的两个字可能是相同的，则a(i，j)为0。斜向路径中对应的两个字可能是不同的，称为替代错误。

在图4b的矩阵中，仅需给出普适初始条件即b(0，0)＝0，b(0，1)＝-8，b(1，0)＝-8，即可参考上述方式以及图4a中的发音相似度计算出完整矩阵。

在图4b的矩阵计算过程中，在得出每个矩阵元的具体取值的同时，可以保留每个矩阵元是从哪个相邻元素衍生而来，即衍生路径。在图4b的矩阵中，用虚线箭头(点划线箭头和点虚线箭头)标记了衍生路径。

通常，在矩阵中只有少数几条路径(多数情况下是一条)通向矩阵的最后一个元素，即右下角元素。例如，在图4b的矩阵中，仅存在一条这样的路径，并且将该路径用点划线箭头标记。该路径即找到的最佳匹配路径。该路径的行进方向即对应参考文字与识别文字的最佳字段匹配方式。

DTW算法的原理是现有技术中已知的，在所示出的实施方式的教导下，本领域技术人员容易想到还可以使用DTW算法的其他实现方式来找到目标文本与参考文本之间的最佳匹配路径。

然后，在步骤S306中，基于所找到的最佳路径，对齐目标文本和参考文本。在本实施中，对齐的结果如下：

印钞票还这么印呢这个

英超刚才咱们00 00说呢

其中0000表示空音节。

应该理解，图3中示出的步骤仅是示例性的，还可以有所变化。例如，在另一个实施方式子中，还可以在步骤S304之前，判断要对齐的两个音素序列中的音素是否都包括在音素相似性表中，如果不是，则将该音素添加到音素相似性表中，并且计算该音素与表中的其他音素的距离值，作为音素相似度。还应该理解，对于参考文字与识别文字的最佳字段匹配路径，可以得到句子的似然度得分；经过归一化的似然度得分可以作为置信度，来进一步判断句子对齐的效果。

上文示出了本发明应用于中文的一个具体实施方式。但是应该理解，本发明的对齐方法可以应用于任何语言。基本方法都是以字或单词为基本单元，然后依据基本单元之间的发音相似度，在该基本单元级别上实现参考文本与目标文本的对齐。其区别仅在于基本单元的发音相似度计算稍有不同。例如，中文以汉字为基本单元。每个汉字在声韵母音标体系下都包含两个音素(可看成声母部分和韵母部分)。因此汉字间的相似度可以用声母相似度与韵母相似度之和来表示。但是，更一般地，在其他语言中，基本单位包含的音素数目可能不一样。例如，英语中以单词为基本单位。不同的单词含有的音素数目往往不同。在这种情况下，可以先通过DTW算法找出两个单词之间的最佳音素匹配方式，而后计算单词的发音相似度。对于不同的语言，本发明的方法的其余步骤相同。

下面以图5a-5d说明步骤S112的另一个实施方式，其中使用的语言是英语。

下面以to和some两个单词的发音相似度计算为例说明一般情况下单词相似度的计算方法。to包含两个音素，标记为T和AX。some包含三个音素，分别标记为S、AH和M。在图5a的表格中，以to包含的音素为表格的列，以some包含的音素为表格的行。表格的元素a(i，j)表示to的第i个音素与some的第j个音素的发音相似度。应该理解，音素相似度的度量可以预先确定。在本发明的方法中，可以简单地通过查找预先确定的音素相似性表或者数据库来找到所需的音素相似度。在图5a中，音素相似度由音素的声学模型距离来度量。并且，在图5a中，发音音素与空音节的音素相似度设为常数8。当然，其也可以依据经验设为其它常数。同样，为了简单起见，在本例子中未考虑声调对音素相似性带来的影响。在所示实施方式的启发下，本领域技术人员可以方便地将本发明的方法扩展到包含音调的情况，以应对高精度需求。

基于图5a中的音素相似性，可以通过DTW算法找出这两个单词之间的最佳音素匹配方式。所述DTW算法与图4b中示出的相同，在此不再详述。图5b示出了通过DTW算法得到的累积距离矩阵以及最佳匹配路径(以箭头表示)。矩阵的任意元素b(i，j)表示到达该位置的所有可能路径中的最佳路径的惩罚值。与图4b中类似，对任意选定矩阵元b(i，j)的取值，均可由其左侧b(i-1，j)，上方b(i，j-1)，以及左上b(i-1，j-1)三个相邻矩阵元取值决定。具体计算方法为b(i，j)＝max(b(i-1，j)-8，b(i，j-1)-8，b(i-1，j-1)-a(i，j))，其中三个项b(i-1，j)-8，b(i，j-1)-8，b(i-1，j-1)-a(i，j)分别表示三个相应的矩阵元路径，a(i，j)是图5a的表格中的元素，表示对应的两个单词的发音相似度。可以看出，单词to和some的最佳音素匹配方式如下：

即T AX 00

S AH M，

其中00表示空音节。通过增加相应的空音节，可以将原本具有不同数目音素的两个单词看成是具有相同数目的音素。也即，可以认为to和some都具有3个音素。

然后，可以将约化后的平均单音素相似度来表示单词相似度。例如，将单词to与some的单词相似度表示为其音素相似度之和除以其所包含的音素数目，即14.65/3＝4.88。容易理解，图5b中的累积距离矩阵的最后一个元素的值表示了to与some的音素相似度之和14.65。

在得到单词相似度之后，在英语情况下的参考文本与目标文本的对齐操作与中文情况下完全相同。

下面的例子中，参考文本是“they drive some of the core”，目标文本是“they tring to some up the court”。

首先依照上述方法计算出单词间的相似度。图5c以表格的形式示出了所考虑的例子中的参考文本与目标文本中的单词的发音相似度。在图5c的表格中，以参考文本为表格的列，以目标文本为表格的行。表格的元素c(i，j)表示目标文本中的第i个单词与参考文本中的第j个单词的发音相似度。

图5d以积累距离矩阵的形式示出了对于上述例子，根据本发明的方法找到的最佳匹配路径。在图5d的矩阵中，以参考文本为矩阵的列，以目标文本为矩阵的行。矩阵的任意元素d(i，j)表示到达该位置的所有可能路径中的最佳路径的惩罚值。与图4b中类似，对任意选定矩阵元d(i，j)的取值，均可由其左侧d(i-1，j)，上方d(i，j-1)，以及左上d(i-1，j-1)三个相邻矩阵元取值决定。具体计算方法为d(i，j)＝max(d(i-1，j)-8，d(i，j-1)-8，d(i-1，j-1)-c(i，j))，其中三个项d(i-1，j)-8，d(i，j-1)-8，d(i-1，j-1)-c(i，j)分别表示三个相应的矩阵元路径，c(i，j)是图5c的表格中的元素，表示对应的两个单词的发音相似度。在图5d的矩阵中，仅需给出普适初始条件即d(0，0)＝0，d(0，1)＝-8，d(1，0)＝-8，即可参考上述方式以及图5c中的发音相似度计算出完整矩阵。

在图5d的矩阵计算过程中，在得出每个矩阵元的具体取值的同时，可以保留每个矩阵元是从哪个相邻元素衍生而来，即衍生路径。通常，在矩阵中只有少数几条路径(多数情况下是一条)通向矩阵的最后一个元素，即右下角元素。例如，在图5d的矩阵中，仅存在一条这样的路径，并且将该路径用箭头标记。该路径即找到的最佳匹配路径。该路径的行进方向即对应参考文字与识别文字的最佳字段匹配方式。

基于图5d中的最佳匹配路径，对齐的结果如下：

参考文本they drive 00 some of the core

目标文本they trying to sum up the court。

图6示意性地示出了根据本发明一个实施方式的对齐文本的装置600的框图。装置600用于执行前文所述的本发明的用于对齐文本的方法。装置600包括：输入模块602、字对齐模块606、以及链接模块608。

输入模块602用于获取目标文本和参考文本。输入模块602可以直接从服务器或者其他设备直接获得目标文本和参考文本。可选地，在本发明的一个实施方式中，输入模块602进一步包括语音识别模块6021。这种输入模块602可以从服务器或者其他设备获得语音和参考文本，然后通过语音识别模块6021识别语音数据，生成目标文本。如前文所述的，本发明中，语音识别模块6021不要求具有高的识别性能。

字对齐模块606用于基于音素相似度，在字的级别对齐目标文本和参考文本。在所述的实施方式中，字对齐模块606可以包括下述子模块：解析模块6061，用于解析出目标文本对应的音素以及参考文本对应的音素；DTW模块6062，其使用DTW算法，利用音素相似度计算路径惩罚值，找到匹配目标文本与参考文本的最佳路径；对齐子模块6063，其基于最佳路径，对齐目标文本和参考文本。应该理解，字对齐模块606可以有不同的实现方式。当以不同于DTW算法的方式来基于音素相似度，在字的级别对齐目标文本和参考文本时，字对齐模块606可以包括不同的子模块。

链接模块608用于基于目标文本与参考文本的对齐，在语音数据与参考文本之间建立时间链接。通过对语音数据进行语音识别而得到的目标文本(也即，识别文本)通常具有语音数据的时间信息。通过识别文本和参考文本的对齐，参考文本可以获得语音数据的时间信息，也即在语音数据与参考文本之间建立时间链接。在一个实施方式中，链接模块608用于将识别文本中的每个字的时间戳复制给参考文本中的每个字。可选地，链接模块608可以将参考文本中的重点内容或目标内容作成超链接的方式。用户通过选择参考文本中的超链接，可以直接回放语音数据中的对应内容，不需要从头开始回放。应该注意，链接模块608并不是必须的。

可选地，装置600还可以包括段落对齐模块604，用于基于混淆度，在段落级别对齐目标文本与参考文本。段落对齐模块604可以包括：LM模块6041，用于针对参考文本的每个段落，建立语言模型LM；计算混淆度模块6042，用于基于所述段落的语言模型，针对目标文本的每个句子到每个段落的可能的映射，计算混淆度分数；映射模块6043，用于选择混淆度分数为小的映射结果，将目标文本中的每个句子映射到不同的段落。

可选地，段落对齐模块604进一步包括平滑模块6044，用于基于逻辑规则，对映射模块6043输出的映射结果进行平滑，调整可信度低的句子到段落的映射关系。

可选地，装置600还可以包括定锚模块610，用于针对目标文本和参考文本进行连续字串匹配，确定锚点。可以按照从长到短的顺序，顺序地进行字串匹配，找到完全匹配的字串。在一个实施方式中，定锚模块610从输入模块602接收目标文本和参考文本，并且将确定锚点的目标文本和参考文本输出给段落对齐模块604。在另一个实施方式中，定锚模块610接收段落对齐模块604输出的在段落级别对齐的目标文本和参考文本。针对每个段落，进行连续字串匹配，确定锚点。根据锚点，将目标文本的段落分成较小的片段。然后将每个小片段输出给字对齐模块606进行处理。

可选地，装置600还可以包括边界微调模块612。边界微调模块612接收字对齐模块606输出的在字的级别对齐的目标文本和参考文本。在所述文本中确定那些可信度高的对齐结果，例如对齐的相同文字。使用所确定的可信度高的对齐结果来微调可信度低的对齐结果，从而获得更佳的对齐效果。例如，使用所确定的可信度高的对齐结果来微调识别中的插入错误或者删除错误。

应该理解，本发明的对齐方法不局限于对齐语音数据的识别文本与参考文本。本发明的对齐方法可以一般地用于对齐目标文本与参考文本。例如，本发明的对齐方法可以用于对齐学生听写的文本和正确的参考文本。然后，根据对齐结果或者DTW算法中的路径惩罚值详细评价目标文本的正确率。

至此，通过示例的方式，描述了本发明的用于对齐目标文本和参考文本的技术方案，其中通过音素相似度，实现在音素级对齐目标文本和参考文本。本发明的对齐方案比现有的强制对齐技术方案运算速度要快，因为本发明的技术方案中音素相似度可以直接获得(预先确定，或者通过查表获得)，而强制对齐的技术方案需要建立音素的声学模型，其计算量大。

与现有的通过相同文字实现对齐的技术相比，本发明的技术方案对目标文本的准确率要求低，允许目标文本和参考文本中存在较多的错误，同时获得较好的对齐效果。

此外，本发明还提出了分层级的对齐方案：首先基于混淆度，在段落级别对齐目标文本和参考文本；然后再基于音素相似度，在字的级别对齐。本发明的分层级的对齐方案可以用于处理较大的文档，以容错的方式和较少的计算量实现精确的对齐。

本发明的用于对齐目标文本和参考文本的方法，尤其是自动对齐语音数据和参考文本的技术方案，可以有多种应用。以下详细说明对本发明的不同应用。

图7示意性地示出了根据本发明一个实施方式的用于自动归档多媒体资源的方法的流程图。其可以用于自动将电视台存在的大量的新闻节目视频和对应的广播稿转换成集成的多媒体资源进行存档。

在步骤S702中，获取原始多媒体资源和参考文本，其中原始的多媒体资源中不包括可以用于检索的元数据。原始的多媒体资源可以是各种视频或音频资源，诸如其可以是电影、电视节目、新闻广播、以及会议的视频/音频记录等等。

在步骤S704中，识别原始多媒体资源中的语音数据，生成目标文本。该步骤的实现与图1中的段落S102中描述的识别步骤类似。为了简单起见，在此不再详述。

在步骤S706中，基于音素相似度，在字的级别对齐目标文本和参考文本。该步骤的实现与图1中的段落S112类似。为了简单起见，在此不再详述。

在步骤S708中，基于目标文本与参考文本的对齐，在语音与参考文本之间建立时间链接。例如，通过目标文本和参考文本的对齐，参考文本可以获得语音数据的时间信息。该步骤的实现与图1中的段落S116类似。为了简单起见，在此不再详述。

在步骤S710中，将步骤S708中建立的时间链接加入原始多媒体资源，生成新的多媒体资源存档文件。例如，可以将带有时间信息的参考文本中的内容作为多媒体资源的元数据，从而生成新的多媒体资源存档文件。新的多媒体资源存档文件具有可检索的元数据。

利用本发明的自动归档多媒体资源的方法，例如可以将大量的过去的电影、节目视频或者广播等多媒体资源转换成可以具有可检索元数据的多媒体资源，从而有利于对这些媒体资源的使用。

本发明还提供了用于执行上述方法的用于自动归档多媒体资源的装置，所述装置包括：输入模块，用于获取原始多媒体资源和参考文本；识别模块，用于识别原始多媒体资源中的语音数据，生成目标文本；字对齐模块，用于基于音素相似度，在字的级别对齐所述目标文本和所述参考文本；链接模块，用于基于所述目标文本与所述参考文本的对齐，在所述语音数据与所述参考文本之间建立时间链接；以及归档模块，用于将所述时间链接加入所述原始多媒体资源，生成新的多媒体资源存档文件。

该用于自动归档多媒体资源的装置可以通过在图6所示的装置600的基础上增加上述的归档模块来实现。为了简单起见，在此处不再进行详细描述。

应该理解，图6中的装置600的实现可以有许多变化形式。因此，本发明的用于自动归档多媒体资源的装置也可以有许多类似的变化形式。

本发明的用于自动对齐语音数据和参考文本的技术方案还可以用于自动检索多媒体资源。图8示意性地示出了根据本发明一个实施方式的用于自动检索多媒体资源的方法的流程图。在该实施方式中，以VOA慢速英语为例。多媒体资源是VOA广播音频。

在步骤S802中，获取检索关键字。在本实施方式中，输入要检索的英语单词。

在步骤S804中，获取多媒体资源和参考文本。在该实施方式中，多媒体资源是VOA广播音频，参考文本是该音频对应的参考教材。

在步骤S806中，识别多媒体资源中的语音数据，生成目标文本。该步骤的实现与图1中的段落S102中描述的识别步骤类似。为了简单起见，在此不再详述。

在步骤S808中，基于音素相似度，在字的级别对齐目标文本和参考文本。该步骤的实现与图1中的段落S112类似。为了简单起见，在此不再详述。

在步骤S810中，基于目标文本与参考文本的对齐，在语音数据与参考文本之间建立时间链接。在本实施方式中，通过目标文本和VOA参考教材的对齐，参考教材可以获得语音数据的时间信息，也即VOA广播音频的时间信息。该步骤的实现与图1中的段落S116类似。为了简单起见，在此不再详述。

在步骤S812中，在参考文本中检索并且标识关键字。在本实施方式中，在VOA的参考教材中检索并且标识输入的检索关键字。

在步骤S814中，根据参考文本中检索到的关键字和所建立的时间链接，在多媒体资源中标识所述关键字的出现位置。在本实施方式中，根据VOA参考教材中检索到的关键字和步骤S810中建立的时间链接，可以在VOA广播音频中标识所输入的关键字的出现位置。

从而用户(例如学习者)可以直接点击VOA广播音频中的标记回放希望聆听的内容，而不需要从头回放全部音频。

本发明还提供了用于执行上述方法的用于自动检索多媒体资源的装置，其中所述多媒体资源包括语音数据和其参考文本，所述装置包括：输入模块，用于获取检索关键字、多媒体资源和参考文本；识别模块，用于识别多媒体资源中的语音数据，生成目标文本；字对齐模块，用于基于音素相似度，在字的级别对齐所述目标文本和所述参考文本；链接模块，用于基于所述目标文本与所述参考文本的对齐，在所述语音数据与所述参考文本之间建立时间链接；检索模块，用于在所述参考文本中检索关键字；以及标识模块，用于根据所述参考文本中检索到的关键字和所述时间链接，在多媒体资源中标识所述关键字的出现位置。

该用于自动检索多媒体资源的装置例如可以通过在图6所示的装置600的基础上进行如下修改来实现：修改输入模块602，使得其不仅用于多媒体资源和参考文本，还用于获取检索关键字；以及，增加上述的检索模块和标识模块。为此简单起见，在此不再进行详细描述。

应该理解，图6中的装置600的实现可以有许多变化形式。因此，本发明的用于自动检索多媒体资源的装置也可以有许多类似的变化形式。

本发明的用于自动对齐语音数据和参考文本的技术方案还可以用于许多应用，例如有针对性地浏览会议视频/音频记录等。在此不再详述。

通过以上对具体实施例的描述，本领域技术人员可以理解，上述的装置和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的装置及其部件可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合实现。

虽然这里通过具体实施方式描述了本发明，但是本发明的范围不限于这些具体实施方式。本发明的范围由所附权利要求及其任何等同含义限定。

Claims

1.一种用于对齐文本的方法，包括以下步骤：

获取目标文本和参考文本；

基于音素相似度，在字的级别对齐所述目标文本和所述参考文本,

其中所述基于音素相似度在字的级别对齐所述目标文本和所述参考文本的步骤包括：

解析出所述目标文本对应的音素以及所述参考文本对应的音素；

使用动态时间规整DTW算法，利用音素相似度计算路径惩罚值，并利用所述路径惩罚值找到匹配所述目标文本与所述参考文本的最佳路径；以及

基于所述最佳路径，对齐所述目标文本和参考文本。

2.根据权利要求1所述的方法，其中所述目标文本是通过对语音数据进行语音识别而得到的，所述参考文本是语音数据的参考文本。

3.根据权利要求2所述的方法，进一步包括步骤：基于所述目标文本与所述参考文本的对齐，在所述语音数据与所述参考文本之间建立时间链接。

4.根据权利要求1所述的方法，其中，所述路径惩罚值是路径的每一步的惩罚值的和，路径的每一步的惩罚值按以下计算：

针对相同的字，惩罚值为0；

针对替代错误，惩罚值对应于两个字的发音相似度，所述发音相似度基于其对应的音素相似度；和

针对插入错误或者删除错误，惩罚值是一个常量。

5.根据权利要求1-4中任一所述的方法，其中，所述音素相似度是预先确定的。

6.根据权利要求1-4中任意一项所述的方法，其中所述音素相似度由音素的声学模型距离来度量。

7.根据权利要求6所述的方法，其中所述声学模型距离包括：欧式距离、马氏距离或者巴特查里亚距离。

8.根据权利要求1-3任一所述的方法，其中在所述基于音素相似度在字的级别对齐所述目标文本和所述参考文本的步骤之前进一步包括步骤：基于混淆度，在段落级别对齐所述目标文本与所述参考文本。

9.根据权利要求8所述的方法，其中所述基于混淆度在段落级别对齐所述目标文本与所述参考文本的步骤包括：

针对参考文本的每个段落，建立语言模型；

基于所述语言模型，针对目标文本的每个句子到每个段落的可能的映射，计算混淆度分数；

选择混淆度分数为小的映射结果，将目标文本中的每个句子映射到不同的段落。

10.根据权利要求9所述的方法，其中所述基于混淆度在段落级别对齐所述目标文本与所述参考文本的步骤进一步包括：

对所述选择的映射结果进行平滑。

11.根据权利要求1所述的方法，其中在所述基于音素相似度在字的级别对齐所述目标文本和所述参考文本的步骤之前进一步包括步骤：针对所述目标文本和所述参考文本进行连续字串匹配，以确定锚点，从而将所述目标文本和所述参考文本划分成更小的片段。

12.一种用于对齐文本的装置，包括：

输入模块，用于获取目标文本和参考文本；

字对齐模块，用于基于音素相似度，在字的级别对齐所述目标文本和所述参考文本，

其中所述字对齐模块包括：

解析模块，用于解析出所述目标文本对应的音素以及所述参考文本对应的音素；

动态时间规整DTW模块，其使用DTW算法，利用音素相似度计算路径惩罚值，并利用所述路径惩罚值找到匹配所述目标文本与所述参考文本的最佳路径；以及

对齐子模块，其基于所述最佳路径，对齐所述目标文本和参考文本。

13.根据权利要求12所述的装置，其中所述目标文本是通过对语音数据进行语音识别而得到的，所述参考文本是语音数据的参考文本。

14.根据权利要求13所述的装置，进一步包括：链接模块，用于基于所述目标文本与所述参考文本的对齐，在所述语音数据与所述参考文本之间建立时间链接。

15.根据权利要求12所述的装置，其中，所述路径惩罚值是路径的每一步的惩罚值的和，路径的每一步的惩罚值按以下计算：

针对相同的字，惩罚值为0；

针对插入错误或者删除错误，惩罚值是一个常量。

16.根据权利要求12-15中任一所述的装置，其中，所述音素相似度是预先确定的。

17.根据权利要求12-15中任一所述的装置，其中所述音素相似性由音素的声学模型距离来度量。

18.根据权利要求17所述的装置，其中所述距离包括：欧式距离、马氏距离或者巴特查里亚距离。

19.根据权利要求12-15任一所述的装置，进一步包括段落对齐模块，用于：基于混淆度，在段落级别对齐所述目标文本与所述参考文本。

20.根据权利要求19所述的装置，其中所述段落对齐模块包括：

语言模型LM模块，用于针对参考文本的每个段落，建立语言模型LM；

计算混淆度模块，用于基于所述语言模型，针对目标文本的每个句子到每个段落的可能的映射，计算混淆度分数；

映射模块，用于选择混淆度分数为小的映射结果，将目标文本中的每个句子映射到不同的段落。

21.根据权利要求20所述的装置，其中段落对齐模块进一步包括：

平滑模块，用于对所述选择的映射结果进行平滑。

22.根据权利要求12所述的装置，其进一步包括：定锚模块，用于针对所述目标文本和所述参考文本进行连续字串匹配，确定锚点，从而将所述目标文本和所述参考文本划分成更小的片段。

23.一种用于归档多媒体资源的方法，所述方法包括：

获取原始多媒体资源和参考文本；

识别原始多媒体资源中的语音数据，生成目标文本；

基于音素相似度，在字的级别对齐所述目标文本和所述参考文本；

基于所述目标文本与所述参考文本的对齐，在所述语音与所述参考文本之间建立时间链接；以及

将所述时间链接加入所述原始多媒体资源，生成新的多媒体资源存档文件，

基于所述最佳路径，对齐所述目标文本和参考文本。

24.一种用于检索多媒体资源的方法，其中所述多媒体资源包括语音数据和其参考文本，所述方法包括：

获取检索关键字；

获取多媒体资源，所述多媒体资源具有参考文本以及通过识别多媒体资源中的语音数据而得到的目标文本，所述参考文本和所述目标文本基于音素相似度，在字的级别被对齐，并且基于所述对齐，所述参考文本与所述语音数据之间被建立时间链接；

在参考文本中检索并且标识关键字；以及

根据所标识的关键字在所述参考文本中的位置和所述时间链接，在多媒体资源中定位对应于所述关键字的多媒体资源的部分，

其中通过如下方式，所述参考文本和所述目标文本基于音素相似度，在字的级别被对齐：

基于所述最佳路径，对齐所述目标文本和参考文本。