CN102023995B

CN102023995B - 语音检索设备和语音检索方法

Info

Publication number: CN102023995B
Application number: CN2009101768474A
Authority: CN
Inventors: 史达飞; 鲁耀杰; 尹悦燕; 郑继川; 赵利军
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2009-09-22
Filing date: 2009-09-22
Publication date: 2013-01-30
Anticipated expiration: 2029-09-22
Also published as: CN102023995A; EP2306345A2; US20110071833A1; JP2011070192A; US8504367B2; JP5541035B2; EP2306345A3

Abstract

本发明提供一种用于检索与查询词匹配的语音文件的语音检索设备，包括：第一和第二转化装置，用于分别把语音文件和查询词转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；第一和第二分割装置，用于分别对所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；第一和第二语音检索单元形成装置，用于分别把所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第一和第二语音检索单元；匹配装置，用于在第一和第二语音检索单元之间进行匹配，以确定查询词与语音文件的匹配程度，根据该匹配程度来确定匹配结果。还提供一种用于检索与查询词匹配的语音文件的语音检索方法。

Description

语音检索设备和语音检索方法

技术领域

本发明涉及一种语音检索设备和语音检索方法，更具体地说，涉及一种基于综合语音搜索(Holo-Speech Search，HSS)的语音检索设备和语音检索方法，用来在同时获得高准确率和高召回率的情况下从语音库中检索与输入的查询词匹配的语音文件。

背景技术

近年来，随着音频应用的进一步普及，计算机、网络和日常生活中到处都能够接触到音频文件，诸如广播、电视、播客、音频教学和语音信箱等。随着语音信息量的增大，用户找到和定位想要的音频就变得越来越困难。

在现有的文本检索中，对原始数据建立索引(index)以快速定位查询词所在的位置。目前主流的方法是以词为单位构造倒排文档表，每个文档都由一串词组成，而用户输入的查询条件通常是若干关键词，因此如果预先记录这些词出现的位置，那么只要在索引文件中找到这些词，也就找到了包含它们的文档。

在现有的语音检索系统中，利用语音识别结果和相应的格信息进行语音检索，或者仅仅利用格信息进行语音检索，有些现有的语音检索系统结合利用文本检索方法来提高检索速度，然而，这样的系统通常只能处理文本查询词。格(lattice)信息的意义在于，在语音检索领域中，通常情况下语音识别只能得到一个最好的想要的结果，如果运用格信息，就能够在一定的置信范围内得到多个可能的语音识别结果，这样就有更多的选择，当检索时，就可以在更多的选择中检索，在一定程度上也就缓解了识别错误、OOV(Out OfVocabulary)等问题。

其中，OOV表示超出词典范围。在语音识别中会用到声学模型和语言模型，它们都是通过人工标注的真实语料训练得到的数学模型，如果在训练语料中某个发音或者用词根本就没有出现过，那么在语音识别的时候，它是不可能被识别出来的，这样就造成了OOV问题。常见的OOV问题主要集中在地名、人名等词汇。

语音文件的一些特征可以考虑用于语音检索，包括音素码、次文字单元、和语音识别结果。通常，音素码、次文字单元、和语音识别结果在识别过程中都能够得到格信息。

音素码是音素语音中最小的单位，是从音色的角度划分出来的最小的语音单位。在语音学与音韵学中，音素一词所指的是说话时所发出的声音。音素是具体存在的物理现象。国际音标的音标符号与全人类语言的音素具有一一对应关系，是有意义的文本集合。与采用下述的次文字单元进行语音检索的手段相比，采用音素码进行语音检索的手段能够有效地缓解了OOV问题和训练集不充分、及识别错误问题，但是会给检索结果带来一定噪声。

次文字单元是有统计意义的音素码的排列组合，符合人类有规律的发音习惯，是有意义的文本集合。采用次文字单元进行语音检索的手段一定程度上缓解了OOV问题和训练集不充分，在识别错误方面优于采用下述语音识别结果进行语音检索的手段，但是劣于采用音素码进行语音检索的手段。采用此特征可以缓解噪声，准确率比采用音素码高，但不如采用下述的语音识别结果。

语音识别结果是语音文件具有实际语言意义的文字结果，是可读的信息。采用语音识别结果进行语音检索的手段会造成OOV、非母语和训练集不充分、识别错误等问题。单独使用此特征往往对于以上问题无能为力。在没有出现OOV、非母语和训练集不充分、识别错误等常见问题的情况下，检索准确率高。然而，如果出现上述问题，则没有检索结果或者出现检索错误。

下面解释语音检索领域中一些概念。

准确率(Precision)和召回率(Recall)，召回率体现系统找全答案的能力，而准确率考察系统找准答案的能力，两者相辅相成，从两个不同侧面较为全面地反映了系统性能。

排序(Rank)，检索系统可以只按照与查询词之间的逻辑关系返回相应的文件，在需要进一步表达结果与查询之间的深层关系的情况下，为了把最符合用户需求的结果显示在前面，还需要利用各种信息对结果进行排序。目前有两大主流技术用于分析结果和查询的相关性以用于排序：链接分析和基于内容的计算。

语音分割，把语音文件分割成可以索引的片段。

语音资料，无论是语音查询词还是语音库中的语音文件，其底层数据均为文字，查询词的文字片段与语音文件中的文字片段相同则表示它们匹配。匹配以分割为基础，分割后形成的次文字单元就是文字片段。查询词的次文字单元维的文字片段例如“ABCD”和语音文件中的次文字单元维的文字片段“ABCD”完全匹配，即查询词与语音文件在次文字单元这一维度上完全匹配。除完全匹配之外，模糊匹配是指非完全相同但达到预先定义的接受限度，比如文字中有75％相同即认为匹配。例如ABCD和ABDC、ABCD和ABCE等。其它维度(诸如音素码、语音识别结果)上的匹配与此类似，既可以采用完全匹配也可以采用预先定义接受限度的模糊匹配。

美国专利US 7542966号提出了一种语音检索系统，该系统利用了音素码、次文字单元和相应的格信息，但没有利用语音识别结果，且只能处理语音查询词。

现有的语音检索技术均未能综合利用语音的各种特征进行检索，未能克服诸如OOV问题、大量识别错误问题、非母语问题、和模型训练不充分问题，未能同时提高准确率、速度、及容错性，也未能同时处理文字查询词和语音查询词。

发明内容

鉴于现有技术中存在的上述问题而作出本发明，本发明提出一种基于综合语音搜索(HSS)的语音检索设备和语音检索方法，综合利用关于语音的各种相关特征，利用语音检索单元来对语音进行检索。

根据本发明的一个方面，提供一种用于从语音库中检索与输入的查询词匹配的语音文件的语音检索设备，包括：第一转化装置，用于把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；第一分割装置，用于对第一转化装置所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；第一语音检索单元形成装置，用于把第一分割装置所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第一语音检索单元；第二转化装置，用于把输入的查询词转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；第二分割装置，用于对第二转化装置所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；第二语音检索单元形成装置，用于把第二分割装置所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第二语音检索单元；匹配装置，用于在第一语音检索单元和第二语音检索单元之间进行匹配，以确定查询词与语音文件的匹配程度，根据该匹配程度来确定匹配结果。

根据本发明的另一个方面，提供一种用于从语音库中检索与输入的查询词匹配的语音文件的语音检索方法，包括：第一转化步骤，把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；第一分割步骤，对第一转化步骤所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；第一语音检索单元形成步骤，把在第一分割步骤中所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第一语音检索单元；第二转化步骤，把输入的查询词转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；第二分割步骤，对在第二转化步骤中所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；第二语音检索单元形成步骤，把在第二分割步骤中所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第二语音检索单元；匹配步骤，在第一语音检索单元和第二语音检索单元之间进行匹配，以确定查询词与语音文件的匹配程度，根据该匹配程度来确定匹配结果。

根据本发明的实施例，充分利用语音的各个方面的特征，利用语音检索单元进行检索，提高了检索准确率且同时提高了检索速度，并提高了检索的容错性，改善了语音识别的准确性。

通过阅读结合附图考虑的以下本发明的优选实施例的详细描述，将更好地理解本发明的以上和其他目标、特征、优点和技术及工业重要性。

附图说明

图1是示出按照本发明实施例的语音检索设备的整体框图。

图2是示出按照等时间分割的语音检索单元的示意图。

图3是示出按照语音能量分割的语音检索单元的示意图。

图4是示出语音检索单元的匹配的示意图。

具体实施方式

图1是示出按照本发明实施例的语音检索设备的整体框图。

按照本发明实施例的语音检索设备用于从语音文件库中检索与输入的查询词匹配的语音文件。语音文件库或者说语音库诸如计算机硬盘或者数据库、或者也可以是网络，诸如局域网、互联网等。

该语音检索设备包括：第一转化装置110，用于把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；第一分割装置120，用于对第一转化装置所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；第一语音检索单元形成装置130，用于把第一分割装置所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第一语音检索单元；第二转化装置210，用于把输入的查询词转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；第二分割装置220，用于对第二转化装置所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；第二语音检索单元形成装置230，用于把第二分割装置所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第二语音检索单元；匹配装置300，在第一语音检索单元和第二语音检索单元之间进行匹配，以确定查询词与语音文件的匹配程度，根据该匹配程度来确定匹配结果。

其中，第一转化装置110和第二转化装置210分别对于语音库中的语音文件和查询词进行的转化处理可以按照相同转化方式来进行，例如，采用相同的语音识别技术和矢量量化技术。第一转化装置110和第二转化装置210在此可以视为同一转化装置在针对不同对象(语音文件、查询词)进行相同的特征抽取处理时在逻辑上的区分。

类似地，第一分割装置120和第二分割装置220可以分别对于第一转化装置110和第二转化装置210转化的声学模型序列化码、音素码、次文字单元、语音识别结果按照相同的分割方式来进行分割，例如，采用相同的时间分割方式，或采用相同的语音能量分割方式，或者采用相同的元辅音分割方式。第一分割装置120和第二分割装置220在此可以视为同一分割装置在针对不同对象(从语音文件转化的特征元素、从查询词转化的特征元素)进行相同的分割处理时在逻辑上的区分。

第一语音检索单元形成装置130和第二语音检索单元形成装置230按照相同的形成方式来分别形成第一语音检索单元和第二语音检索单元，例如，在各自的语音检索单元中按照相同的特征元素的次序在相应的位置填充相同类型的元素，例如均按照声学模型序列化码、音素码、次文字单元、语音识别结果的顺序，便于后述的匹配过程中二者的匹配操作。第一语音检索单元形成装置130和第二语音检索单元形成装置230在此可以视为同一语音检索单元形成装置在针对不同对象进行相同的语音检索单元形成处理时在逻辑上的区分。

尽管在第一语音检索单元和第二语音检索单元中还可以进一步分别包含语境信息，然而，根据后文所描述，语境信息的分割及在语音检索单元中的填充取决于其它特征元素如声学模型序列化码、音素码、次文字单元、语音识别结果的分割情况，而不影响上述其它特征元素的分割。因此，语境信息不会影响第一语音检索单元和第二语音检索单元的可匹配性。

本发明实施例采用了声学模型序列化码来作为语音检索的手段。声学模型序列化码是把语音文件的Mel频率倒谱系数(Mel Frequency CepstrumCoefficient，MFCC)运用矢量量化技术序列化成可以检索的文本。不会造成OOV、非母语和训练集不充分、识别错误等问题，然而可能会使查询结果出现较多噪声，干扰准确率。在准确率方面劣于采用音素码进行语音检索的手段。

第一转化装置110采用各种已有的语音识别技术和矢量量化技术从语音文件中抽取声学模型序列化码(acoustic features)、音素码(phonetic code)、次文字单元(sub word)、和语音识别结果，来实现语音文件的转化。第二转化装置210对外部输入的查询词进行相同的操作。从而能够获得语音的各个特征。其中声学模型序列化码、音素码、次文字单元是可搜索不可阅读的编码，而语音识别结果是既可阅读又可搜索的文本。

在本发明实施例中，第一语音检索单元、第二语音检索单元均为语音检索单元(Symbol Structure)，语音检索单元是包含语音的各个特征的数据结构，也即存储声学模型序列化码、音素码、次文字单元、语音识别结果的数据存储结构，还可能包含语境信息作为语音的特征。语音检索单元还可以包含与各个语音特征相应的时间刻度信息。语音检索单元用作本实施例的检索过程中的组织单位。其中所述时间刻度信息是指当语音文件播放到什么时间点的时候，相应的声学模型序列化码、音素码、次文字单元、语音识别结果单元会出现。

作为数据结构，语音检索单元的内容显然不是封闭固定的，而是根据情况可以扩充其包含的特征元素的，例如，在语音文件中存在语境信息即上下文信息的情况下，还可以包括语境信息作为特征元素，此外，还可以包括与各个特征相对应的时间刻度信息。

在语音文件包含语境信息的情况下，不需要第一转化装置110进行抽取，而是可以由第一分割装置120直接对语音文件包含的语境信息进行分割。在此情况下，第一语音检索单元形成装置130把分割的语境信息作为第一语音检索单元的元素。

对于语音查询词，没有相应的语境信息，因此用语音识别结果来代替查询词的语境信息。第二语音检索单元形成装置230把第二分割装置220所分割的语音识别结果作为语境信息，来作为第二语音检索单元的元素。

第一转化装置110在把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果的同时，可以获得与声学模型序列化码、音素码、次文字单元、和语音识别结果相应的语音时间刻度信息。在此情况下，第一语音检索单元形成装置130可以把相应的语音时间刻度信息添加到第一语音检索单元中，作为第一语音检索单元中各个元素的关联信息。进而，在输出匹配结果的时候，匹配装置300可以把相应的语音时间刻度信息添加到匹配结果中来输出。

第一分割装置120按照等时间分割方式、语音能量分割方式、或者元辅音分割方式来对所述第一转化装置所转化的声学模型序列化码、音素码、次文字单元、及语音识别结果进行分割。第二分割装置220按照等时间分割方式、语音能量分割方式、或者元辅音分割方式来对所述第二转化装置所转化的声学模型序列化码、音素码、次文字单元、及语音识别结果进行分割。

在选用等时间分割方式的情况下，选择时间常量TL作为分割单位，另一时间常量OTL作为分割重叠时间。TL的长度通常应该大于一个词发音时间长度，例如可以选择5秒为这个单位，显然选择其它时间如3秒、9秒等等也可以实现本实施例。OTL的长度应该比TL/2小，TL为5秒的情况下例如取为1秒，显然选择其它时间如2秒、0.5秒等等也可以实现本实施例。使用TL和OTL对语音进行分割。

假设语音的长度为T。第一个分段从0秒开始到TL和T中最小的那个。如果T和TL的时间被选定，那么这个分割就是一定的。

以后各段的开始时间为Sn＝Tps+TL-OTL，其中Tps是上一段的结束点；结束点是Min(Sn+TL，T)，即Sn+TL和T中小的一方。

语境信息可以是与语音文件相关的Word文档、PPT文档或者人工标注信息。语境信息通常没有细粒度和准确的时间刻度信息。可以用事件时间来分割语境信息，其中所述事件诸如PPT文档的翻页事件、鼠标点击事件等等，或者使用手工标注中的时间信息来分割语境信息，填充到时间刻度上相应的第一语音检索单元。如果不存在或得不到这样的信息，那么可以把整个语境信息与语音文件的各个时间段均进行关联，即该整个语境信息分别填充到该语音文件的所有第一语音检索单元。

也就是第一分割装置120利用语境信息包含的事件时间刻度或标注的时间刻度来确定与语境信息相对应的语音时间刻度信息，如果语境信息中不存在事件时间刻度及标注的时间刻度，则把该语境信息与所有语音时间刻度信息分别对应。根据语境信息所对应的语音时间刻度信息来对语境信息进行分割。

第一语音检索单元形成装置130和第二语音检索单元形成装置230分别形成各自相应的语音检索单元，把分割好的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素填入语音检索单元。如果存在语境信息，则把语境信息也作为一个元素填入语音检索单元。如果需要语音时间刻度信息，则把语音时间刻度信息与相应的元素关联地填入语音检索单元。

图2是示出按照等时间分割的语音检索单元的示意图，图3是示出按照语音能量分割的语音检索单元的示意图。

在图2和图3中，对于例如在最上部示出的语音文件，图2中用时间刻度T0～T5把示例语音文件在时间上均匀分为5等份，从而示例性地分出了5个语音检索单元，而在图3中用语音能量最弱的时间刻度T0～T7把示例语音文件在时间上分为7份，由于T4～T5不存在语音能量，可推出不存在语音，从而示例性地分出了6个语音检索单元。显然每个语音文件根据分割情况可以包括其它数目的多个语音检索单元。

图2和图3假定了存在语境信息且考虑语境信息的情况，抽取了语音文件的语音模型序列化码(AFC)、音素码(PC)、次文字单元(SW)、语音识别结果(W)和语境信息(CD)等5个特征作为元素，即每个语音检索单元的维度均为5。此外，可以发现，每个语音检索单元都包含有时间刻度信息，可以便于对匹配结果进行时间上的定位。

在说明如何进行匹配之前，先介绍对语音库及查询词的可选择的处理。

例如，对于语音库，可以采用模型处理装置100来利用不同的声学模型和语言模型对语音库中的语音文件进行处理，以更加充分地利用语音模型序列化码、音素码、次文字单元、语音识别结果等语音特征，更好地克服运用单一模型带来的缺点，如语言依赖、训练不足和超出词典等问题。

以英文为例，英文声学模型是英文的发音与物理特征的训练模型，英文语言模型是英文文本的语义和语法训练模型。同理，还有中文声学模型、中文语言模型等。

利用声学模型和语言模型来抽取语音文件的音素码、次文字单元、和语音识别结果，本发明实施例使用2类以上的声学模型和语言模型来处理语音库中的语音文件。从而，例如，如果处理英文语音那么选择英文声学模型和英文语言模型，处理中文时选择中文声学模型和中文语言模型。

通常状况下语音文件混合包括了常用的工作语言，例如中文语音和英文语音。因此，本分明实施例能够有效地应对此情况，为了处理这种问题，在构造语音检索单元的时候可以采用如下的构造方法，即“语音检索单元”＝{声学模型序列化码，英文音素码，中文音素码，英文次文字信息，中文次文字信息，英文语音识别结果，中文语音识别结果，语境信息}。

这样就可以同时使用2种模型处理语音了。因为本实施例的检索是可以扩展的，因此语音检索单元从5维变成8维并不影响以后的过程。同理，可以进行其它类似的扩展。

在查询词方面，对于文本查询词，利用现有的文本到语音的转换技术例如TTS(Text To Speech)技术将其转换为语音查询词，对于语音查询词则不进行处理。也就是说，在查询词为文本查询词的情况下，第二转化装置210将该文本查询词转化为语音查询词。然后，就可以利用语音识别技术得到查询词的声学模型序列化码、音素码、次文字单元、语音识别结果等特征。其中，本领域中的TTS技术可以运用语音合成和统计学的方法将文本转化为音频。

下面说明本发明实施例的匹配过程。

本发明实施例的匹配装置300对第一及第二语音检索单元中的特征元素诸如声学模型序列化码、音素码、次文字单元、语音识别结果、以及可能存在的语境信息分别进行索引，索引中还可以包括与语音检索单元的各个元素对应的语音时间刻度。可以采用类似于文本索引的方法来对声学模型序列化码、音素码、次文字单元、语音识别结果、及语境信息分别进行索引，与普通文本索引不同的是，索引中还可以记录相应的时间刻度。

匹配装置300可以包括：匹配元素查找装置310，用于关于第二语音检索单元的各个元素分别查找语音库中的语音文件的第一语音检索单元中匹配的元素；单元匹配确定装置320，用于根据第一语音检索单元和第二语音检索单元中的匹配元素及匹配元素的权重来判断该第一语音检索单元和该第二语音检索单元之间的单元匹配；匹配结果确定装置330，根据查询词的全部第二语音检索单元与语音文件的全部第一语音检索单元分别的单元匹配，来确定该查询词与该语音文件的匹配程度，根据该匹配程度判断该查询词与该语音文件的匹配，把语音库中匹配的语音文件作为匹配结果。

可见，在第一语音检索单元和第二语音检索单元之间进行的是多维的匹配，每个维度上都有匹配或者不匹配的状态，每个维度上的匹配都会给查询词的语音检索单元和语音文件的语音检索单元的匹配作出相应的贡献。

每个维度上的匹配都有对于单元匹配的贡献权重W，例如可以这样定义：

W_语境＞W_{语音识别结果}＞W_{次文字单元}＞W_音素码＞W_{声学模型序列化码}

显然，权重的定义可以根据实际需要，并不限于此。

最终决定查询词是否与某个语音文件匹配，是看该查询词的全部语音检索单元与该语音文件的全部语音检索单元的匹配程度是否达到了某个预先设定的阈值，如果查询词的第二语音检索单元和语音文件的各个第一语音检索单元之间的单元匹配程度加权和达到了阈值，则认为这个查询词和这个语音文件相匹配。

图4是示出语音检索单元的单元匹配的示意图。

AFC、PC、SW、W分别表示使用语音识别技术抽取的查询词的声学模型序列化码、音素码、次文字单元、语音识别结果等特征元素，用语音识别结果来填充到语境信息，图中示出该查询词包含5个第二语音检索单元。匹配元素查找装置310通过索引找到与这些第二语音检索单元的元素匹配的某个语音文件的第一语音检索单元的元素，如图4中符号“√”所指示的位置的元素。例如在此，假设各个维度权重均为1，有2个以上元素匹配则认为语音检索单元相匹配。如图4所示，单元匹配确定装置320确定语音文件与查询词匹配的语音检索单元为与(T1～T2)和(T2～T3)相应的语音检索单元。

匹配结果确定装置330根据第二语音检索单元与第一语音检索单元的单元匹配的情况来确定查询词与语音文件之间的匹配程度，根据该匹配程度来判断查询词与语音文件是否匹配，附带地，可以按照匹配程度对匹配结果进行排序并输出。在语音检索单元中记录语音时间刻度的情况下，还可以方便地在检索到的语音文件中定位到与输入的查询词相匹配的时间段。

可以通过多种手段来确定查询词与语音文件的匹配程度。

首先利用公式(1)计算查询词Q与某个语音文件S在语音检索单元级别上的匹配频度(Symbol Structure Frequency(SSF))，

SSF (S, Q) = \frac{m}{Sn} - - - (1)

其中，m表示该语音文件S的第一语音检索单元与该查询词Q的第二语音检索单元匹配的个数，Sn表示在该语音文件S中分割的第一语音检索单元的总个数。

然后，利用公式(2)计算语音库的全部语音文件关于该查询词Q的倒排语音检索单元频度(Inverse Symbol Structure Frequency(IS SOF))

ISSOF (Q) = \log \frac{N - p (Q) + 0.5}{p (Q) + 0.5} - - - (2)

N是语音库中语音文件的总个数，p(Q)是语音库中与查询词Q匹配的语音文件的总个数。

利用公式(3)通过SSF和ISSOF计算关于查询词Q的某个语音文件S的得分，

SCORE (S, Q) = ISSOF (Q) \cdot \frac{SSF (S, Q) \cdot (k_{1} + 1)}{SSF (S, Q) + k_{1} (1 - b + b \cdot \frac{Sn}{avgSl})} - - - (3)

Sn是该语音文件S的第一语音检索单元个数，而avgSl是语音库中全部语音文件的语音检索单元的平均个数；

k₁和b是经验参数，可以取k₁＝2.0，b＝0.75·ISSOF(Q)，显然k₁和b的取值不限于此，例如k₁＝1.5或2.5，b＝0.50·ISSOF(Q)或1·ISSOF(Q)也是可行的。

按照SCORE(S，Q)来对所有与输入的查询词匹配的语音文件进行排序，得到此次检索的结果列表。

本过程从BM25文本检索方法演化而来，但是进行匹配不仅仅限于该方法，还可以使用布尔检索、向量空间模型和模糊检索等方法。

例如，在采用布尔检索模型的情况下，利用公式(4)计算关于查询词Q的某个语音文件S的得分SCORE(S，Q)，

再例如，在采用向量空间模型的情况下，把语音库的全部语音文件的所有语音检索单元的集合称为语音检索单元词典，该语音检索单元词典表示为公式(5)。

∑＝{SS₁，SS₂，...，SS_n} (5)

把语音检索单元词典看成一个向量空间，这样就能够把输入查询词Q转换为整个空间上的向量

同样，可以把某个语音文件S也表示为这个空间的向量

利用公式(6)计算关于查询词Q的某个语音文件S的得分SCORE(S，Q)，

SCORE (S, Q) = \frac{\overset{&RightArrow;}{Q} \cdot \overset{&RightArrow;}{S}}{| \overset{&RightArrow;}{Q} | \times | \overset{&RightArrow;}{S} |} - - - (6)

其中“●”表示向量内积，“×”表示向量外积，“||”表示向量的模。

下面解释语音检索单元词典∑＝{SS₁，SS₂，...，SS_n}，假设语音库中有3条语音文件分别为S1、S2、S3，S1划分为{SS₁，SS₂，SS₃}3个第一语音检索单元，S2划分为{SS₂，SS₄，SS₅}3个第一语音检索单元，S3划分为{SS₁，SS₄，SS₅，SS₆}4个第一语音检索单元，查询词Q划分为{SS₂，SS₄，SS₆}3个第二语音检索单元，那么∑＝S1 U S2 U S3＝{SS₁，SS₂，SS₃，SS₄，SS₅，SS₆}，即，整个语音库是一个6维空间。

S1的矢量化结果则为{1，1，1，0，0，0}，S2的矢量化结果则为{0，1，0，1，1，0}，S3的矢量化结果则为{1，0，0，1，1，1}，Q的矢量化结果为{0，1，0，1，0，1}。

这样，可以用矢量余弦夹角也就是公式(6)，来计算Q与S1，S2和S3的得分SCORE(S1，Q)、SCORE(S2，Q)、SCORE(S3，Q)，值越小表示匹配程度越高。公式(6)计算的是2个矢量

和的余弦夹角值。该值在0～1之间，0代表夹角为0度，表示非常相似，1表示夹角为90度，表示根本无关。

在输入的查询词为文本查询词的情况下，可以将文本查询词细分为多个子查询词，将子查询分别转换为语音查询词。在此情况下，可以分别对于各个子查询词所转换的语音查询词实施本实施例的操作，然后对各个子查询词所转换的语音查询词的得分求和，来作为某个语音文件关于该原始查询词的得分，该得分可以用于排序。把文本查询词细分为子查询词的操作可以通过多种现有技术来实现。例如，对于诸如英语、法语等语言，可以按照输入的空格来细分，对于诸如中文、日语等语言，可以按照统计规律或者语法规律进行细分。在输入的查询词为语音查询词的情况下，一般无需将其细分为子查询词。

本发明还可以实施为一种用于从语音库中检索与输入的查询词匹配的语音文件的语音检索方法，包括：第一转化步骤，由上述第一转化装置110实施，用于把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；第一分割步骤，由上述第一分割装置120实施，用于对第一转化步骤所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；第一语音检索单元形成步骤，由上述第一语音检索单元形成装置130实施，用于把第一分割步骤所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第一语音检索单元；第二转化步骤，由上述第二转化装置210实施，用于把输入的查询词转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；第二分割步骤，由上述第二分割装置220实施，用于对第二转化步骤所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；第二语音检索单元形成步骤，由上述第二语音检索单元形成装置230实施，用于把第二分割步骤所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第二语音检索单元；匹配步骤，由上述匹配装置300实施，在第一语音检索单元和第二语音检索单元之间进行匹配，以确定查询词与语音文件的匹配程度，根据该匹配程度来确定匹配结果。

在第一分割步骤中，还对所述语音文件包含的语境信息进行分割；在第一语音检索单元形成步骤中，还把分割的语境信息作为第一语音检索单元的元素；在第二语音检索单元形成步骤中，把第二分割步骤所分割的语音识别结果作为语境信息，来作为第二语音检索单元的元素。

在第一转化步骤中，在把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果的同时，获得与声学模型序列化码、音素码、次文字单元、和语音识别结果相应的语音时间刻度信息；在第一语音检索单元形成步骤中，还把相应的语音时间刻度信息添加到第一语音检索单元中，作为第一语音检索单元中各个元素的关联信息；在匹配步骤中，把相应的语音时间刻度信息添加到匹配结果中来输出。

而且，在匹配步骤中，还按照匹配程度对匹配结果进行排序并输出。

还可以采用模型处理步骤，由上述模型处理装置100实施，来利用不同的声学模型和语言模型对语音库中的语音文件进行处理。

在第一分割步骤中，利用语境信息包含的事件时间刻度或标注的时间刻度来确定与语境信息相对应的语音时间刻度信息，如果语境信息中不存在事件时间刻度及标注的时间刻度，则把该语境信息与所有语音时间刻度信息分别对应。

在查询词为文本查询词的情况下，在第二转化步骤中，将该文本查询词转化为语音查询词。

在第一分割步骤中，按照等时间分割方式、语音能量分割方式、或者元辅音分割方式来对所述第一转化步骤所转化的声学模型序列化码、音素码、次文字单元、及语音识别结果进行分割；在第二分割步骤中，按照等时间分割方式、语音能量分割方式、或者元辅音分割方式来对所述第二转化步骤所转化的声学模型序列化码、音素码、次文字单元、及语音识别结果进行分割。

匹配步骤包括：匹配元素查找步骤，由上述匹配元素查找装置310实施，用于关于第二语音检索单元的各个元素分别查找语音库中的语音文件的第一语音检索单元中匹配的元素；单元匹配确定步骤，由上述单元匹配确定装置320实施，用于根据第一语音检索单元和第二语音检索单元中的匹配元素及匹配元素的权重来判断该第一语音检索单元和该第二语音检索单元之间的单元匹配；匹配结果确定步骤，由上述匹配结果确定装置330实施，根据查询词的全部第二语音检索单元与语音文件的全部第一语音检索单元分别的单元匹配，来确定该查询词与该语音文件的匹配程度，根据该匹配程度判断该查询词与该语音文件的匹配，把语音库中匹配的语音文件作为匹配结果。

在说明书中说明的一系列操作能够通过硬件、软件、或者硬件与软件的组合来执行。当由软件执行该一系列操作时，可以把其中的计算机程序安装到内置于专用硬件的计算机中的存储器中，使得计算机执行该计算机程序。或者，可以把计算机程序安装到能够执行各种类型的处理的通用计算机中，使得计算机执行该计算机程序。

例如，可以把计算机程序预先存储到作为记录介质的硬盘或者ROM(只读存储器)中。或者，可以临时或者永久地存储(记录)计算机程序到可移动记录介质中，诸如软盘、CD-ROM(光盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、或半导体存储器。可以把这样的可移动记录介质作为封装软件提供。

本发明已经参考具体实施例进行了详细说明。然而，很明显，在不背离本发明的精神的情况下，本领域技术人员能够对实施例执行更改和替换。换句话说，本发明用说明的形式公开，而不是被限制地解释。要判断本发明的要旨，应该考虑所附的权利要求。

Claims

1.一种用于从语音库中检索与输入的查询词匹配的语音文件的语音检索设备，包括：

第一转化装置，用于把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；

第一分割装置，用于对第一转化装置所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；

第一语音检索单元形成装置，用于把第一分割装置所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第一语音检索单元；

第二转化装置，用于把输入的查询词转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；

第二分割装置，用于对第二转化装置所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；

第二语音检索单元形成装置，用于把第二分割装置所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第二语音检索单元；

匹配装置，用于查找第一语音检索单元和第二语音检索单元中匹配的元素，以及根据第一语音检索单元和第二语音检索单元中的匹配元素判断第一语音检索单元和第二语音检索单元之间的单元匹配，以确定查询词与语音文件的匹配程度，根据该匹配程度来确定匹配结果。

2.按照权利要求1所述的语音检索设备，其中，

所述第一分割装置还对所述语音文件包含的语境信息进行分割；

所述第一语音检索单元形成装置还把分割的语境信息作为第一语音检索单元的元素；

所述第二语音检索单元形成装置把第二分割装置所分割的语音识别结果作为语境信息，来作为第二语音检索单元的元素。

3.按照权利要求1或2所述的语音检索设备，其中，

所述第一转化装置在把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果的同时，获得与声学模型序列化码、音素码、次文字单元、和语音识别结果相应的语音时间刻度信息；

所述第一语音检索单元形成装置还把相应的语音时间刻度信息添加到第一语音检索单元中，作为第一语音检索单元中各个元素的关联信息；

所述匹配装置把相应的语音时间刻度信息添加到匹配结果中来输出。

4.按照权利要求1或2所述的语音检索设备，其中，

所述匹配装置还按照匹配程度对匹配结果进行排序并输出。

5.按照权利要求1或2所述的语音检索设备，还包括模型处理装置，用于利用不同的声学模型和语言模型对语音库中的语音文件进行处理。

6.按照权利要求3所述的语音检索设备，其中，

所述第一分割装置利用语境信息包含的事件时间刻度或标注的时间刻度来确定与语境信息相对应的语音时间刻度信息，如果语境信息中不存在事件时间刻度及标注的时间刻度，则把该语境信息与所有语音时间刻度信息分别对应。

7.按照权利要求1或2所述的语音检索设备，其中，

在所述查询词为文本查询词的情况下，所述第二转化装置将该文本查询词转化为语音查询词。

8.按照权利要求1或2所述的语音检索设备，其中，

所述第一分割装置按照等时间分割方式、语音能量分割方式、或者元辅音分割方式来对所述第一转化装置所转化的声学模型序列化码、音素码、次文字单元、及语音识别结果进行分割；

所述第二分割装置按照等时间分割方式、语音能量分割方式、或者元辅音分割方式来对所述第二转化装置所转化的声学模型序列化码、音素码、次文字单元、及语音识别结果进行分割。

9.按照权利要求1或2所述的语音检索设备，其中，所述匹配装置包括：

匹配元素查找装置，用于关于第二语音检索单元的各个元素分别查找语音库中的语音文件的第一语音检索单元中匹配的元素；

单元匹配确定装置，用于根据第一语音检索单元和第二语音检索单元中的匹配元素及匹配元素的权重来判断该第一语音检索单元和该第二语音检索单元之间的单元匹配；

匹配结果确定装置，根据查询词的全部第二语音检索单元与语音文件的全部第一语音检索单元分别的单元匹配，来确定该查询词与该语音文件的匹配程度，根据该匹配程度判断该查询词与该语音文件的匹配，把语音库中匹配的语音文件作为匹配结果。

10.一种用于从语音库中检索与输入的查询词匹配的语音文件的语音检索方法，包括：

第一转化步骤，把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；

第一分割步骤，对第一转化步骤所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；

第一语音检索单元形成步骤，把在第一分割步骤中所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第一语音检索单元；

第二转化步骤，把输入的查询词转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；

第二分割步骤，对在第二转化步骤中所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；

第二语音检索单元形成步骤，把在第二分割步骤中所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第二语音检索单元；

匹配步骤，查找第一语音检索单元和第二语音检索单元中匹配的元素，以及根据第一语音检索单元和第二语音检索单元中的匹配元素判断第一语音检索单元和第二语音检索单元之间的单元匹配，以确定查询词与语音文件的匹配程度，根据该匹配程度来确定匹配结果。