CN102081634A

CN102081634A - 语音检索装置和语音检索方法

Info

Publication number: CN102081634A
Application number: CN2009102498472A
Authority: CN
Inventors: 尹悦燕; 鲁耀杰; 史达飞; 郑继川; 赵利军
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2009-11-27
Filing date: 2009-11-27
Publication date: 2011-06-01
Anticipated expiration: 2029-11-27
Also published as: JP5561123B2; US20110131236A1; EP2348427B1; CN102081634B; JP2011113570A; EP2348427A1; US8316004B2

Abstract

提供了语音检索装置和方法，用于通过用于查询的文字检索语音文件。语音检索装置包括：相关文档检索部件，用于利用所述用于检索的文字从相关文本数据库中检索出相关文档，其中该相关文本数据库存储与语音文件数据库中的语音文件相关的文档；对应语音文件获得部件，用于从语音文件数据库中找出与检索出的相关文档对应的语音文件；语音到语音检索部件，用于利用所获得的语音文件对语音数据库进行检索。利用本发明的语音检索装置和方法，可以不用翻译而把文本形式的检索条件转换成语音格式的检索条件，避免了翻译所带来的信息丢失和额外损失。

Description

语音检索装置和语音检索方法

技术领域

本发明涉及语音检索，更具体地涉及利用相关文档的语音检索。

背景技术

近来，对于语音检索系统的研究开发日益为人们所重视。

用户想通过文字来检索到感兴趣的语音文件，但是文字格式和语音格式是完全不同的两种格式，所以无法直接进行检索。

现有的语音检索系统大都是把文字和检索目标即语音文件转换成相同的某种格式，例如把检索用文字转换成语音格式，或者把目标语音转换成文本格式，又或者把两种不同格式转换成相同的第三种格式。但是由于语音的变化性，使得转换造成的信息流失非常严重。

更具体地，现在常用的检索方法有如下几种：

第一种方法即最常用的方法是通过自动语音识别把语音转换成文本，然后使用文本检索系统来进行检索。这也是谷歌和SpeechBot的语音检索系统所使用的方法。这种方法有助于通过阅读文本了解语音文件的内容。但是也存在一些不足：首先，识别率低，通过语音识别得到的文本里面错误很多，这使得检索结果正确率低。其次，这样做丢失了很多语音文件本身的信息，例如它的上下文信息，如讲话人的情绪、语速、节奏等。再次，对于某种特殊发音，如中国式英语，如果没有大量的训练数据来训练出适当的声学模型，这种方法根本无法正常工作。

第二种方法是把文本和语音翻译成同一种第三方格式，例如音素码、音节、字等，然后用翻译后的文本去检索翻译后的语音。这个方法的问题在于：首先，翻译的准确率不高。其次，这样做经常引起混淆，例如，对于都转换成音素码的情形，如要检索“information”，则可能会得到结果attention，detection等，因为它们具有共同发音“-tion”；而且该方法也有着与上一个方法的同样不足。

第三种方法只使用了语音的相关文本来进行一般的信息检索。它常用于搜索音乐。因为语音的相关文本通常都比语音本身包含更少的信息，而且语音本身的内容也很难在这种方法中使用，所以这种方法所利用的信息量很少。

发明内容

针对现有技术中的上述问题，做出了本发明。

根据本发明的一个方面，提供了一种语音检索装置，用于通过用于查询的文字检索语音文件，包括：相关文档检索部件，用于利用所述用于检索的文字从相关文本数据库中检索出相关文档，其中该相关文本数据库存储与语音文件数据库中的语音文件相关的文档；对应语音文件获得部件，用于从语音文件数据库中找出与检索出的相关文档对应的语音文件；语音到语音检索部件，用于利用所获得的语音文件对语音数据库进行检索。

根据本发明的另一方面，提供了一种语音检索方法，用于通过用于检索的文字检索语音文件数据库中的语音文件，包括：利用所述用于检索的文字从相关文本数据库中检索出相关文档，其中该相关文本数据库存储与语音文件数据库中的语音文件相关的文档；从语音文件数据库中找出与检索出的相关文档对应的语音文件；利用所获得的语音文件对语音数据库进行检索。

利用本发明各个实施例所描述的语音检索装置和语音检索方法，可以不用翻译而把文本形式的检索条件转换成语音格式的检索条件，这样就避免了翻译所带来的信息丢失和额外损失。由于可以不进行任何语音识别，所以也避免了低识别率所带来的影响。而且，因为我们最后使用语音去检索语音，从而方法中保留了尽可能多的语音特征来加以利用。并且充分利用了以文本检索文本和以语音检索语音的高准确率的优点。而且，利用语音检索语音还可以利用任何已知的语音检索语音系统所具有的高召回率的优点。

附图说明

图1示出了根据本发明一个实施例的语音检索装置的功能配置；

图2示出了根据本发明一个实施例的上述语音检索装置中的语音到语音搜索部件的功能配置；

图3示出了根据本发明一个实施例的语音检索系统的一个示意性工作过程；以及

图4示出了根据本发明一个实施例的语音检索方法的流程图。

具体实施方式

以下，将参照附图详细描述本发明的优选实施例。注意，在本说明书和附图中，使用相同的标号表示具有基本相同功能与结构的结构元素，并且省略了对这些结构元素的重复解释。

将按以下所示的次序进行描述：

[1]语音检索装置的功能配置

[2]语音检索系统的示意性工作流

[3]语音检索方法的流程

[1]语音检索装置的功能配置

图1示出了根据本发明一个示例性实施例的语音检索装置100的功能配置。

如图1所示，该示例性的语音检索装置100可以包括相关文档检索部件110、对应语音文件获得部件120以及语音到语音检索部件130。该语音检索装置100还可以包括相关文档数据库140和语音数据库150。或者该语音检索装置100可以与相关文档数据库140和语音文档数据库150分开配置，该语音检索装置100通过例如有线网络、无线网络等连接到相关文档数据库140和语音文档数据库150。

在语音文档数据库150中存储有如.wav，.mp3，.rm等各种格式的语音文件(下文视便利可能将所存储的语音文件称为目标语音或目标语音文件)。每个语音文件可以包含有一个或多个相关文本信息，这里的相关文本信息可以是任何与语音有关的文本数据，可以是语音文件的标题，相应演讲文稿，相关语音内容等，但不局限于上述列举的这些。这样的相关文本信息存储在上述相关文本数据库140中。目标语音与其相关文本信息的对应关系需要保存，以便可以由相关文本信息参考对应于的目标语音，或者由目标语音参考对应的相关文本信息。上述对应关系，可以为例如指针或者索引方式，并且可以存储在语音文档数据库150、相关文本数据库140、第三方数据库等中的任一个或者它们的组合上。

相关文档检索部件110用于利用用于检索的文字从相关文本数据库140中检索出相关文档。所述用于检索的文字可以是用户通过各种方式输入的，就如同我们常见的利用Google，Baidu等搜索引擎搜索文档中那样，也可以是预定的，或者是从一些给出的选择中选择的，等等。用于检索的文字可以是一个或多个关键字，一个或多个句子，甚至一个或多个文档。可以利用任何现有的文本检索方法来检索出相关文档。相关文档检索部件110进行检索的结果可以是从相关文本数据库中检测出的就与用于检索的文字之间的相关度而言排于前N名的文档。或者，检测结果可以是与用于检索的文字之间的相关度大于预定阈值的文档。其中用于检索的文字和目标文本之间的相关度可以利用任何现有相关度方法进行计算，例如，可以利用BM25、向量模型等方法。

对应语音文件获得部件120用于利用语音文件和相关文档之间的对应关系从语音文件数据库150中找出与检索出的相关文档对应的语音文件。需要注意的是，因为一个语音文件可以存在多个相关文档，因此可能存在检索到的多个相关文档均指向一个语音文件的情况下，在此情况下，可以对于多次被指向的语音文件赋予较高的权重(或分数)，如后面将详细说明的那样。

语音到语音检索部件130用于利用所获得的语音文件对语音数据库进行检索。这里，既可以利用各个语音文件整体来计算与语音数据库中的各个语音文件之间的相关性来进行检索，也可以如后面详细说明的那样，对每个语音文件进行分段得到语音片断集合，然后利用语音片断集合中的语音片断来对语音数据库进行检索。任何语音片断搜索语音文件的方法都可以用于本发明，例如，美国专利US7542996B2中介绍的方法。

图2示出了根据本发明一个优选实施例的图1所示的语音到语音搜索部件130的功能框图。

如图2所示，例示的语音到语音搜索部件130可以包括：语音片断语音片断分割部件210，用于把所获得的语音文件中的每个语音文件分成语音片断，从而得到语音片断的集合；噪音去除部件220，使用用于检索的文字从该语音片断集合中去除噪音的部件，所述噪音是指与用于检索的文字不相关的语音片断；语音片断到语音检索部件230，用于利用去除了噪音的语音片断集合对语音数据库进行检索。

语音片断语音片断分割部件210可以利用任何现有分段方法对语音文件进行分段。例如，可以采用停顿切分法，即一般人在说话时，在句子和句子之间或短语和短语之间一般存在停顿，可以通过识别中间的停顿来对语音进行分段。再例如，还可以采用说话人切分法，如对于存在多人的访谈类节目，不同人的说话具有不同的特征，可以利用说话人所具有的各自不同特征来对语音文件进行分段。另外，还可以把停顿切分法和说话人切分法组合使用，例如先进行说话人切分，在对由说话人切分法得到的结果利用停顿切分法进行分段。而且，如果认为分段进行的过细，还可以对切分后的片断进行合并。上面所述的语音分段方法仅仅用于说明目的，任何可能的语音分段方法都可以用于本发明。

噪音去除部件220使用用于检索的文字从该语音片断集合中去除噪音，所述噪音是指与用于检索的文字不相关的语音片断，例如那些与用于检索的文字之间的相关度小于预定阈值的语音片断。关于用于检索的文字与语音片断之间的相关性计算，可以利用现有的语音检索方法中使用的方法，例如，可以利用任何自动语音识别引擎将语音片断集合中的所有语音片断翻译成文本，然后计算翻译后的文本与用于检索的文字之间的相关性。当然，作为替代，也可以将用于检索的文字翻译成语音，然后计算翻译后的语音和上述语音片断集合中的各个语音片断之间的相关性。或者，作为替代，可以将用于检索的文字和语音片断集合中的所有语音片断都翻译成第三方格式，然后计算两者之间的相关性。作为第三方格式的示例，存在音素码、音节、子字(sub-word)或者字(word)等等。在计算得到用于检索的文字和各语音片断之间的相关性后，可以将该相关性与预定阈值相比较，如果与某个语音片断关联的相关性大于预定阈值，则保留该语音片断，否则将该语音片断判定为噪音，从而予以去除。当然，作为替代，也可以以语音片断与用于检索的文字之间的相关度作为标准来对各个语音片断进行排序，而选取预定数目的排名靠前的语音片断作为最后用于查询的语音片断。

[2]语音检索系统的示意性工作流

为了更充分地说明本发明，下面将参考图3描述根据本发明一个优选实施例的本发明语音检索系统的示例性工作过程。图3以更加直观的方式示出了根据本发明一个优选实施例的语音检索系统的示意性工作过程。

如图3箭头顺序指示的流程，首先，利用诸如用户输入的用于查询的文本来搜索相关文本，由此可以利用文本搜索文本的技术的高准确率的优点。由此获得了排序的文本结果，从排序的文本结果中，取(相关度)排名前N个的文本结果，然后获得对应的语音，在获得对应语音后，可以利用所输入的文本查询对所获得的对应语音进行限缩，例如去除语音中的不相关语音片断，由此可以提高后续语音到语音的搜索效率，消除噪音影响，提高搜索准确率。经过限制后，得到了用于查询的语音。接着，可以利用用于查询的语音直接搜索语音数据库，从而得到搜索到的语音结果来加以输出。

图3中的虚线以及“X”表示利用用于查询的文本不能直接搜索语音数据库，正如背景技术部分所陈述的那样。而利用用于查询的文本搜索相关文本数据库以及利用语音搜索语音数据库都已经具有很多公知的技术，而且具有很高的准确率。作为对比，本发明实施例首先以查询文本检索相关文本数据库获得相当文档，利用所获得的相关文档直接获得对应的语音文件，利用所获得的语音文件对语音数据库进行检索。由此，避开了因为文本和语音之间的互译导致的信息丢失、识别率低的不利影响。

需要特别说明的是，图3仅仅是为了提供对本发明更好的理解而给出的示意性工作流，而并非为了限制本发明。相反，图3中所示的很多具体部分是可以省略或者以别的方式来替代的，例如，图3中虚框310框起来的部分即语音去噪的部分是可以省略的。以及图3中虚框320框起来的部分是可以以其他方式替代的，例如，无需进行排序，而仅仅取与用于检索的文字之间的相关度大于预定阈值如50％的文档作为相关文档。

[3]语音检索方法的流程

下面将首先参考图4说明根据本发明一个实施例的总体语音检索方法。然后将更具体说明根据本发明一个优选实施例的包括语音去噪的语音检索方法。

如图4所示，在步骤S410，利用所述用于检索的文字从相关文本数据库中检索出相关文档，其中该相关文本数据库存储与语音文件数据库中的语音文件相关的文档；在步骤S420，从语音文件数据库中找出与检索出的相关文档对应的语音文件；在步骤S430，利用所获得的语音文件对语音数据库进行检索。

根据本发明一个优选实施例，步骤S430，利用所获得的语音文件对语音数据库进行检索包括：把所获得的语音文件中的每个语音文件分成语音片断，从而得到语音片断的集合；使用用于检索的文字从该语音片断集合中去除噪音，所述噪音是指与用于检索的文字不相关的语音片断；利用去除了噪音的语音片断集合对语音数据库进行检索。

下面，更具体说明根据本发明一个优选实施例的包括语音去噪的语音检索方法。

作为示例，下面以在步骤S410中对搜索目标文本进行排序并进行打分，以及在步骤S420中对对应的语音文件进行打分，并且在优选的S430中对语音文件中的语音片断进行打分并相应地进行去噪来具体说明一个工作示例。

在上述步骤S410中，找到经过排序的相关文档。可以使用任何现存的文本检索方法来得到经过排序的相关文本文档结果。该文本检索方法可以接受文本检索，搜索目标文本得到按相关性排序的前n个文档。计算检索文本与结果文本之间的相关度可以由该文本检索方法提供，作为示例我们选择BM25方法来计算相关度。通过本步骤可以得到按得分排序的文本列表R：

R＝[(Textid1，score1)，(Textid2，score2)…(Textidn，socren)]

其中Textidi是目标文本的唯一标识，scorei是目标文本的计算后得分。

在上述步骤420中，找到该前n个的相关文档的相关语音文件，并对相关语音文件进行打分。注意，因为可能存在多个相关文档对应于一个相关语音文件的情况，所以可能最后得到的相关语音文件的数目小于n，这里假设相关语音文件的数目为m，m＜＝n。可以通过如下子步骤对相关语音文件赋予分数：

1)给所有的相关语音文件Speechidj赋以初始分数：SpeechScorej＝0.0

2)对于上述集合R里的每个文本Textidi：找到它所关联的唯一语音文件Speechidj，给该语音文件Speechi由的分数SpeechScorej加上由此文本赋予的分数v：

即，v＝scorei*relationij

SpeechScorej＝SpeechScorej+V

其中，relationij是个参数，其表征文本Textidi与对应语音文件Speechidj之间关系的紧密程度，两者之间关系越紧密，此参数值越高，此参数值可以按照经验确定，或者经过实验自适应学习获得。

3)根据各个语音文件的分数进行排序

Rs＝[(Speechid1，speechscore1)，(Speechid2，speechscore2)…(Speechidm，speechscorem)

Speechidj是语音文件的唯一识别标识，Speechscorej是该语音文件的分数

在上述步骤S430中，将进行语音片断集除噪的操作，具体地包括：对通过步骤S420得到的语音集Rs中的每个语音文件进行分段，分成语音片断，从而获得语音片断集合。分段方法可以是任何已知方法，例如上文介绍的停顿切分法、说话人切分法等。作为示例，可以采用停顿切分法，即如果停顿的时间超过预定阈值，则在此处对该语音文件进行分段。为每个语音片断SSIdk赋予一个初始分数SSScorek，其值为该语音片断所属的语音文件的分数。由此，我们得到一个列表：

SSL＝[(SSId1，SSScore1)，(SSId2，SSScore2)….(SSIdx，SSScorex)]

其中SSIdk为语音片断的唯一标识，SSScorek为该语音片断的初始分数，用于表征该语音片断与用于搜索的文字之间的相关度。

作为确定相关性得分的示例性方法，用自动语音识别引擎把得到的语音片断SSIdk翻译成文本，可以用任何文本检索方法计算得到用于检索的文本与翻译后的语音片断SSIdk之间的此阶段相关性得分TRScorek：

ASRS＝[(SSId1，TRScore1)，(SSId2，TRScore2)….(SSIdx，TRScorex)]

TRScorek是该文本检索方法赋予给语音片断SSIdk的分数。

然后我们可以用下面这个公式计算得到每个语音片断的最终分数SSSk：

SSSk＝SSScorek*TRScorek

最后，我们设定一个阈值tr，如果某个语音片断的分数大于这个阈值，则此语音片断保留，否则将该语音片断作为噪音从语音片断集合中去除。这里的阈值可以根据经验设定，也可以通过学习训练而获得。

在获得了语音片断集合之后，我们可以用语音片断中的所有语音片断作为检索条件，使用任何现有的语音检索语音的方法对语音数据库进行搜索。

上述更具体地包括语音去噪的语音检索方法既利用了在进行相关文档检索时的用于检索的文字和目标文档之间的相关度，也考虑相关文档和对应语音之间的关系紧密性因素，还进一步考虑各个语音片断本身与用于检索的文字之间的相关度。由此，最后得到的用于查询的语音片断将可以更好地体现用户的检索初衷。而且，甚至在利用所得到的语音片断对语音数据库进行检索时，也可以在评价最终的从语音数据库检索到的作为结果的各个语音文件的相关性时考虑各个语音片断的分数。

需要解释的是，虽然在包括语音去噪的上述示例性语音检索方法中，在评估语音片断和用于检索的文字之间的相关性时，可能涉及到把语音片断转换成文字或者将文字转换成语音的操作，但是因为该转换是很小规模的，因此可以利用现有的技术而做得充分准确，这并不会给本发明带来很大的不利影响。

另外需要说明的是，本发明的实施例可以通过硬件、软件、固件或它们之间结合的方式来实现，包括可以把本发明实施例体现为计算机介质或计算机程序，其实现方式不对本发明的技术范围构成限制。

本发明实施例中的各个元件(单元)相互之间的连接关系不对本发明的技术范围构成限制，其中的一个或多个元件可以包括或连接于其它任意的元件。

虽然上面已经结合附图示出并描述了本发明的一些实施例，但是本领域的技术人员应当理解，在不偏离本发明的原则和精神的情况下，可以对这些实施例做出变化和改变，所做的变化和改变仍然落在本发明及其等价物的保护范围之内。

Claims

1.一种语音检索装置，用于通过用于查询的文字检索语音文件，包括：

相关文档检索部件，用于利用所述用于检索的文字从相关文本数据库中检索出相关文档，其中该相关文本数据库存储与语音文件数据库中的语音文件相关的文档；

对应语音文件获得部件，用于从语音文件数据库中找出与检索出的相关文档对应的语音文件；

语音到语音检索部件，用于利用所获得的语音文件对语音数据库进行检索。

2.如权利要求1所述的语音检索装置，其中，所述相关文档是语音的标题，语音所带的演示文档，或者语音的文字内容中的一种或几种。

3.如权利要求1所述的语音检索装置，所述用于检索的文字是一个或多个关键字、一个或多个句子或一篇或几篇文档。

4.如权利要求1所述的语音检索装置，其中所述语音到语音检索部件包括：

语音片断分割部件，用于把所获得的语音文件中的每个语音文件分成语音片断，从而得到语音片断的集合；

噪音去除部件，使用用于检索的文字从该语音片断集合中去除噪音，所述噪音是指与用于检索的文字不相关的语音片断；以及

语音片断到语音检索部件，用于利用去除了噪音的语音片断集合对语音数据库进行检索。

5.如权利要求1所述的语音检索装置，所述相关文档检索部件从相关文本数据库中检测出就与用于检索的文字之间的相关度而言排于前N名的文档或者与用于检索的文字之间的相关度大于预定阈值的文档作为所述相关文档。

6.一种语音检索方法，用于通过用于检索的文字检索语音文件数据库中的语音文件，包括：

利用所述用于检索的文字从相关文本数据库中检索出相关文档，其中该相关文本数据库存储与语音文件数据库中的语音文件相关的文档；

从语音文件数据库中找出与检索出的相关文档对应的语音文件；

利用所获得的语音文件对语音数据库进行检索。

7.如权利要求6所述的语音检索方法，其中所述相关文档是语音的标题，语音所带的演示文档，或者语音的文字内容中的一种或几种。

8.如权利要求6所述的语音检索方法，所述用于检索的文字是一个或多个关键字、一个或多个句子或一篇或几篇文档。

9.如权利要求6所述的语音检索方法，其中利用所获得的语音文件对语音数据库进行检索包括：

把所获得的语音文件中的每个语音文件分成语音片断，从而得到语音片断的集合；

使用用于检索的文字从该语音片断集合中去除噪音，所述噪音是指与用于检索的文字不相关的语音片断；以及

利用去除了噪音的语音片断集合对语音数据库进行检索。

10.如权利要求6所述的语音检索方法，从相关文本数据库中检测出排序前N名的文档或者与用于检索的文字之间的相关度大于预定阈值的文档作为所述相关文档。