CN103365849B

CN103365849B - 关键词检索方法和设备

Info

Publication number: CN103365849B
Application number: CN201210084525.9A
Authority: CN
Inventors: 赵培; 刘汝杰; 岩见田均
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-03-27
Filing date: 2012-03-27
Publication date: 2016-06-15
Anticipated expiration: 2032-03-27
Also published as: CN103365849A

Abstract

本发明公开了一种关键词检索方法和设备。该方法包括如下步骤：接收检索关键词集合；接收音频数据及其对应的文本描述信息；将音频数据分割为多个音频段，并提取多个音频段的声学特征；在文本描述信息中搜索检索关键词集合中包括的关键词，以得到由搜索到的关键词构成的匹配关键词集合；查找检索关键词集合中的关键词在多个音频段中出现的概率，作为语言模型得分；利用声学模型根据多个音频段的声学特征计算声学模型得分；根据语言模型得分和声学模型得分计算检索关键词集合中的关键词对于多个音频段的总得分；以及根据总得分判断检索关键词集合中的关键词所在的音频段；其中，提高匹配关键词集合中的关键词对应的总得分。

Description

关键词检索方法和设备

技术领域

本发明一般地涉及关键词检索方法和设备。具体而言，本发明涉及一种能够根据文本描述信息提高针对音频的关键词检索的性能的方法和设备。

背景技术

近年来，随着互联网技术的发展，Podcast(播客)等网络应用中出现了越来越多的在线音频。如何对音频文件进行高效地管理、搜索成为了亟须解决的问题。较为常见的手段是诸如搜索引擎的关键词检索设备根据给定的关键词列表找到相应的音频文件。

传统的关键词检索设备通常使用利用大量通用的文本文件训练出的语言模型，并没有考虑每个音频文件的特性。音频文件通常有与其相关的文本描述信息，如内容摘要等。这些文本描述信息往往能够反映音频文件中出现的关键词。而传统的关键词检索设备并没有利用这类重要信息，没有针对每个音频文件的特性，调整关键词检索的策略，检索性能尚有改善的空间。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的目的是针对现有技术的上述问题，提出了一种能够针对音频数据的特点，有效地提高关键词检索性能的关键词检索方法和设备。该方案通过利用与音频数据相关联的文本描述信息，调整部分检索关键词的得分，来改善关键词检索的性能，在不显著影响检索速度的情况下，能够提高关键词的检出率和准确性。

为了实现上述目的，根据本发明的一个方面，提供了一种针对音频的关键词检索方法，包括如下步骤：接收检索关键词集合；接收音频数据及其对应的文本描述信息；将所述音频数据分割为多个音频段，并提取所述多个音频段的声学特征；在所述文本描述信息中搜索所述检索关键词集合中包括的关键词，以得到由搜索到的关键词构成的匹配关键词集合；查找所述检索关键词集合中的关键词在所述多个音频段中出现的概率，作为语言模型得分；提高所述匹配关键词集合中的关键词对应的语言模型得分；利用声学模型根据所述多个音频段的声学特征计算声学模型得分；根据所述语言模型得分和所述声学模型得分计算所述检索关键词集合中的关键词对于所述多个音频段的总得分；以及根据所述总得分判断所述检索关键词集合中的关键词所在的音频段。

根据本发明的一个具体实施例，以相同的比例提高所述匹配关键词集合中的关键词对应的语言模型得分。

根据本发明的一个具体实施例，对于所述匹配关键词集合中的、在所述文本描述信息中以较高词频出现的关键词，以较高的比例提高其对应的语言模型得分。

根据本发明的另一个方面，提供了一种针对音频的关键词检索方法，包括如下步骤：接收检索关键词集合；接收音频数据及其对应的文本描述信息；将所述音频数据分割为多个音频段，并提取所述多个音频段的声学特征；在所述文本描述信息中搜索所述检索关键词集合中包括的关键词，以得到由搜索到的关键词构成的匹配关键词集合；查找所述检索关键词集合中的关键词在所述多个音频段中出现的概率，作为语言模型得分；利用声学模型根据所述多个音频段的声学特征计算声学模型得分；根据所述语言模型得分和所述声学模型得分计算所述检索关键词集合中的关键词对于所述多个音频段的总得分；提高所述匹配关键词集合中的关键词对应的总得分；以及根据所述总得分判断所述检索关键词集合中的关键词所在的音频段。

根据本发明的一个具体实施例，以相同的比例提高所述匹配关键词集合中的关键词对应的总得分。

根据本发明的一个具体实施例，对于所述匹配关键词集合中的、在所述文本描述信息中以较高词频出现的关键词，以较高的比例提高其对应的总得分。

根据本发明的另一个方面，提供了一种针对音频的关键词检索设备，包括：第一接收单元，用于接收检索关键词集合；第二接收单元，用于接收音频数据及其对应的文本描述信息；分割和提取单元，用于将所述音频数据分割为多个音频段，并提取所述多个音频段的声学特征；匹配单元，用于在所述文本描述信息中搜索所述检索关键词集合中包括的关键词，以得到由搜索到的关键词构成的匹配关键词集合；语言模型打分单元，用于查找所述检索关键词集合中的关键词在所述多个音频段中出现的概率，作为语言模型得分；声学模型打分单元，用于利用声学模型根据所述多个音频段的声学特征计算声学模型得分；总得分计算单元，用于根据所述语言模型得分和所述声学模型得分计算所述检索关键词集合中的关键词对于所述多个音频段的总得分；得分调整单元，用于提高所述匹配关键词集合中的关键词对应的总得分；以及判断单元，用于根据所述总得分判断所述检索关键词集合中的关键词所在的音频段。

根据本发明的一个具体实施例，所述得分调整单元通过提高所述匹配关键词集合中的关键词对应的语言模型得分来提高其对应的总得分。

根据本发明的一个具体实施例，所述得分调整单元直接提高所述匹配关键词集合中的关键词对应的总得分。

根据本发明的一个具体实施例，所述得分调整单元以相同的比例提高所述匹配关键词集合中的关键词对应的总得分。

根据本发明的一个具体实施例，所述得分调整单元对于所述匹配关键词集合中的、在所述文本描述信息中以较高词频出现的关键词，以较高的比例提高其对应的总得分。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述方法。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中：

图1根据本发明的第一实施例的关键词检索方法的详细流程图；

图2根据本发明的第二实施例的关键词检索方法的详细流程图；

图3示出了根据本发明的第一实施例的关键词检索设备300的示意图；

图4示出了根据本发明的第二实施例的关键词检索设备400的示意图；

图5示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。另外，还需要指出的是，在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。

下面将参照图1描述根据本发明的第一实施例的关键词检索方法的流程。

图1示出了根据本发明的第一实施例的关键词检索方法的详细流程图。如图1所示，根据本发明的第一实施例的关键词检索方法，包括如下步骤：接收检索关键词集合(步骤S101)；接收音频数据及其对应的文本描述信息(步骤S102)；将所述音频数据分割为多个音频段，并提取所述多个音频段的声学特征(步骤S103)；在所述文本描述信息中搜索所述检索关键词集合中包括的关键词，以得到由搜索到的关键词构成的匹配关键词集合(步骤S104)；查找所述检索关键词集合中的关键词在所述多个音频段中出现的概率，作为语言模型得分(步骤S105)；提高所述匹配关键词集合中的关键词对应的语言模型得分(步骤S106)；利用声学模型根据所述多个音频段的声学特征计算声学模型得分(步骤S107)；根据所述语言模型得分和所述声学模型得分计算所述检索关键词集合中的关键词对于所述多个音频段的总得分(步骤S108)；以及根据所述总得分判断所述检索关键词集合中的关键词所在的音频段(步骤S109)。

在步骤S101中，接收检索关键词集合。检索关键词集合中包括的关键词是要在音频数据中检索的关键词。希望找到检索关键词所在的音频数据的音频段。检索关键词集合中的关键词通常由用户输入，例如，输入到关键词检索系统或搜索引擎中的关键词列表。

在步骤S102中，接收音频数据及其对应的文本描述信息。音频数据例如是播客中的一段音频节目内容。本发明利用与音频数据相关联的文本描述信息，该文本描述信息与音频数据一一对应，例如是与音频数据相关联的文字信息、描述信息、上下文、题目等。以博客为例，可以使用页面分析技术来获得音频链接附近的文本作为与音频数据相关联的文本描述信息。

在步骤S103中，将接收到的音频数据分割为多个音频段，并提取所述多个音频段的声学特征。通常，每个音频段即一个音频帧，长度为25ms，相邻的两个音频帧彼此重叠15ms。对于分割出的音频段，提取声学特征，以用于后续处理。

在步骤S104中，在所接收到的文本描述信息中搜索检索关键词集合中包括的关键词，以得到由搜索到的关键词构成的匹配关键词集合。本发明基于这样的认识：与音频数据相关联的文本描述信息中包含的词反映了音频数据的内容，并且很可能出现在音频数据中。匹配关键词集合中的关键词既是检索关键词集合中的待检索关键词，又是文本描述信息中包括的词，因此，匹配关键词集合中的关键词很可能出现在音频数据中。

在步骤S105中，利用语言模型进行打分。具体地，查找所述检索关键词集合中的关键词在所述多个音频段中出现的概率，作为语言模型得分。

这里简单介绍一下语言模型。本发明可以利用现有技术中任何适当的语言模型。语言模型依托于词网，并包括字典，字典反映了语言学的知识。词网以音素为单位，词网中的每个节点对应一个音素，节点之间的连接关系体现了字典所反映的语言学知识。例如，对于基于中文的字典而言，“w”后有可能出现“o”，形成“wo”(对应于中文词“我”)，然而，“w”后不会出现“y”。因此，基于该字典构建的词网中，节点“w”与节点“o”相连，但节点“w”与节点“y”不会相连。节点“w”还可能和节点“u”相连，节点“w”与节点“o”之间的路径、节点“w”和节点“u”之间的路径都记录有节点组成词的概率(事先在训练时计算得到)。可见，词网中，节点之间的路径记录有基于字典的概率，体现了语言学的知识。因此，可以在词网上查找检索关键词集合中的关键词在所述多个音频段中出现的概率，作为语言模型得分。

在步骤S106中，提高所述匹配关键词集合中的关键词对应的语言模型得分。如上所述，匹配关键词集合中的关键词相对于检索关键词集合中的其它关键词更可能出现在音频数据中。因此，提高其语言模型得分。

这里，提高的方式有两种。其一是以相同的比例提高所述匹配关键词集合中的关键词对应的语言模型得分。另一种是对于所述匹配关键词集合中的、在所述文本描述信息中以较高词频出现的关键词，以较高的比例提高其对应的语言模型得分。由于以较高频率出现在文本描述信息中的关键词相对于以较低频率出现的关键词，更有可能出现在音频数据中，因此，优选地，以不同比例提高语言模型得分。

关键词可包括一元词、N元词等，其中，N＞1。N元词例如是马尔科夫、一元词例如是桃。为描述方便，下文中，将以一元词为例进行描述，本领域技术人员能够理解通过联合概率体现N元词的概率。例如，将一个K元词表示为(w₁，w₂，...，w_k)，字w₁出现的概率是P(w₁)，在w₁出现的情况下，w₂出现的概率是P(w₂|w₁)，以此类推。以相同的比例α提高所述匹配关键词集合中的关键词对应的语言模型得分为例，调整后的语言模型得分为：

P′(w₁)＝α·P(w₁)

P′(w₂|w₁)＝α·P(w₂|w₁)

P′(w_k|w₁，..，w_k-1)＝α·P(w_k|w₁，..，w_k-1)

此时，K元词出现的概率是P′(w₁)*P′(w₂|w₁)*...P′(w_k|w₁，..，w_k-1)。

以一元文法语言模型为例，关键词集为{水，电，桃，梨}，与音频数据相关联的文本描述信息为“在工业生产中，对水和电的耗用量进行合理规划能极大的节约成本......”。因此，匹配关键词集合为{水，电}。原始语言模型中关键词和噪声的打分分别为{0.250，0.200，0.250，0.050，0.250}。若以相同的比例1.2提高匹配关键词集合中的关键词对应的语言模型得分，则语言模型打分变为{0.300，0.240，0.250，0.050，0.250}。归一化后为{0.275，0.220，0.229，0.046，0.229}。这意味着匹配关键词{水，电}的得分被提高，而其它关键词及噪声的得分则相应地被降低。假设“水”为音频中真正出现的关键词，而经过调整后，其语言模型得分可由0.250升至0.275。假设声学模型得分保持不变。此时，正确关键词“水”的总得分会相应提高，从而更有可能被检测出来。

在步骤S107中，利用声学模型根据所述多个音频段的声学特征计算声学模型得分。声学模型能够根据词网中的每个节点的声学特征和所提取的音频段的声学特征来计算声学模型得分，例如，计算声学特征的相似度，并基于相似度计算声学模型得分。本发明可利用现有技术中任何适当的声学模型。声学模型得分例如可以记录于词网的节点上。

在步骤S108中，根据所述语言模型得分和所述声学模型得分计算所述检索关键词集合中的关键词对于所述多个音频段的总得分。由于词网的节点上记录有声学模型得分，并且节点之间的路径上记录有语言模型得分，因此，沿着词网中的路径，可以基于语言模型得分和声学模型得分来计算检索关键词集合中的关键词对于所述多个音频段的总得分。

在步骤S109，根据所述总得分判断所述检索关键词集合中的关键词所在的音频段。例如，如果某个关键词在某个音频段的总得分超过预定阈值，则认为该音频段中存在该关键词。

下面将参照图2描述根据本发明的第二实施例的关键词检索方法的流程。

图2示出了根据本发明的第二实施例的关键词检索方法的详细流程图。如图2所示，根据本发明的第二实施例的关键词检索方法，包括如下步骤：接收检索关键词集合(步骤S201)；接收音频数据及其对应的文本描述信息(步骤S202)；将所述音频数据分割为多个音频段，并提取所述多个音频段的声学特征(步骤S203)；在所述文本描述信息中搜索所述检索关键词集合中包括的关键词，以得到由搜索到的关键词构成的匹配关键词集合(步骤S204)；查找所述检索关键词集合中的关键词在所述多个音频段中出现的概率，作为语言模型得分(步骤S205)；利用声学模型根据所述多个音频段的声学特征计算声学模型得分(步骤S206)；根据所述语言模型得分和所述声学模型得分计算所述检索关键词集合中的关键词对于所述多个音频段的总得分(步骤S207)；提高所述匹配关键词集合中的关键词对应的总得分(步骤S208)；以及根据所述总得分判断所述检索关键词集合中的关键词所在的音频段(步骤S209)。

根据本发明，通过搜索匹配关键词来找到在与音频数据相关联的文本描述信息中出现的检索关键词，相应地提高这部分匹配关键词的得分，以体现匹配关键词更可能出现在音频数据中这一事实。在第一实施例中，提高匹配关键词集合中的关键词对应的语言模型得分。这相当于间接地提高了匹配关键词集合中的关键词对应的总得分。由于基于总得分判断检索关键词集合中的关键词所在的音频段，因此，在第二实施例中，直接提高所述匹配关键词集合中的关键词对应的总得分来实现本发明。

第二实施例中的步骤S201-S205、S206-S207以及S209，与第一实施例中的步骤S101-S105、S107-S109分别相同，故在此不再赘述。

图3示出了根据本发明的第一实施例的关键词检索设备300，包括：第一接收单元301，用于接收检索关键词集合；第二接收单元302，用于接收音频数据及其对应的文本描述信息；分割和提取单元303，用于将所述音频数据分割为多个音频段，并提取所述多个音频段的声学特征；匹配单元304，用于在所述文本描述信息中搜索所述检索关键词集合中包括的关键词，以得到由搜索到的关键词构成的匹配关键词集合；语言模型打分单元305，用于查找所述检索关键词集合中的关键词在所述多个音频段中出现的概率，作为语言模型得分；得分调整单元308，用于提高所述匹配关键词集合中的关键词对应的语言模型得分；声学模型打分单元306，用于利用声学模型根据所述多个音频段的声学特征计算声学模型得分；总得分计算单元307，用于根据被得分调整单元308调整的语言模型得分和所述声学模型得分计算所述检索关键词集合中的关键词对于所述多个音频段的总得分；以及判断单元309，用于根据所述总得分判断所述检索关键词集合中的关键词所在的音频段。

所述得分调整单元308以相同的比例提高所述匹配关键词集合中的关键词对应的语言模型得分，或者，所述得分调整单元308对于所述匹配关键词集合中的、在所述文本描述信息中以较高词频出现的关键词，以较高的比例提高其对应的语言模型得分。

由于在根据本发明的第一实施例的关键词检索设备300所包括的第一接收单元301、第二接收单元302、分割和提取单元303、匹配单元304、语言模型打分单元305、声学模型打分单元306、总得分计算单元307、得分调整单元308、判断单元309中的处理分别与上面描述的关键词检索方法的步骤S101-S109中的处理类似，因此为了简洁起见，在此省略这些装置的详细描述。

图4示出了根据本发明的第二实施例的关键词检索设备400，包括：第一接收单元401，用于接收检索关键词集合；第二接收单元402，用于接收音频数据及其对应的文本描述信息；分割和提取单元403，用于将所述音频数据分割为多个音频段，并提取所述多个音频段的声学特征；匹配单元404，用于在所述文本描述信息中搜索所述检索关键词集合中包括的关键词，以得到由搜索到的关键词构成的匹配关键词集合；语言模型打分单元405，用于查找所述检索关键词集合中的关键词在所述多个音频段中出现的概率，作为语言模型得分；声学模型打分单元406，用于利用声学模型根据所述多个音频段的声学特征计算声学模型得分；总得分计算单元407，用于根据所述语言模型得分和所述声学模型得分计算所述检索关键词集合中的关键词对于所述多个音频段的总得分；得分调整单元408，用于直接提高所述匹配关键词集合中的关键词对应的总得分；以及判断单元409，用于根据所述总得分判断所述检索关键词集合中的关键词所在的音频段。

所述得分调整单元408以相同的比例提高所述匹配关键词集合中的关键词对应的总得分，或者，所述得分调整单元408对于所述匹配关键词集合中的、在所述文本描述信息中以较高词频出现的关键词，以较高的比例提高其对应的总得分。

由于在根据本发明的关键词检索设备400所包括的第一接收单元401、第二接收单元402、分割和提取单元403、匹配单元404、语言模型打分单元405、声学模型打分单元406、总得分计算单元407、得分调整单元408、判断单元409中的处理分别与上面描述的关键词检索方法的步骤S201-S209中的处理类似，因此为了简洁起见，在此省略这些装置的详细描述。

此外，这里尚需指出的是，上述装置中各个组成模块、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

图5示出可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。

在图5中，中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM503中，还根据需要存储当CPU501执行各种处理等等时所需的数据。CPU501、ROM502和RAM503经由总线504彼此连接。输入/输出接口505也连接到总线504。

下述部件连接到输入/输出接口505：输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要，驱动器510也可连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器510上，使得从中读出的计算机程序根据需要被安装到存储部分508中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM502、存储部分508中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

Claims

1.一种针对音频的关键词检索方法，其特征在于，该关键词检索方法包括如下步骤：

接收检索关键词集合；

接收音频数据及其对应的文本描述信息；

将所述音频数据分割为多个音频段，并提取所述多个音频段的声学特征；

在所述文本描述信息中搜索所述检索关键词集合中包括的关键词，以得到由搜索到的关键词构成的匹配关键词集合；

查找所述检索关键词集合中的关键词在所述多个音频段中出现的概率，作为语言模型得分；

提高所述匹配关键词集合中的关键词对应的语言模型得分；

利用声学模型根据所述多个音频段的声学特征计算声学模型得分；

根据所述语言模型得分和所述声学模型得分计算所述检索关键词集合中的关键词对于所述多个音频段的总得分；以及

根据所述总得分判断所述检索关键词集合中的关键词所在的音频段。

2.如权利要求1所述的方法，其特征在于，以相同的比例提高所述匹配关键词集合中的关键词对应的语言模型得分。

3.如权利要求1所述的方法，其特征在于，对于所述匹配关键词集合中的、在所述文本描述信息中以较高词频出现的关键词，以较高的比例提高其对应的语言模型得分。

4.一种针对音频的关键词检索方法，其特征在于，该关键词检索方法包括如下步骤：

接收检索关键词集合；

接收音频数据及其对应的文本描述信息；

根据所述语言模型得分和所述声学模型得分计算所述检索关键词集合中的关键词对于所述多个音频段的总得分；

提高所述匹配关键词集合中的关键词对应的总得分；以及

5.如权利要求4所述的方法，其特征在于，以相同的比例提高所述匹配关键词集合中的关键词对应的总得分。

6.如权利要求4所述的方法，其特征在于，对于所述匹配关键词集合中的、在所述文本描述信息中以较高词频出现的关键词，以较高的比例提高其对应的总得分。

7.一种针对音频的关键词检索设备，其特征在于，该关键词检索设备包括：

第一接收单元，用于接收检索关键词集合；

第二接收单元，用于接收音频数据及其对应的文本描述信息；

分割和提取单元，用于将所述音频数据分割为多个音频段，并提取所述多个音频段的声学特征；

匹配单元，用于在所述文本描述信息中搜索所述检索关键词集合中包括的关键词，以得到由搜索到的关键词构成的匹配关键词集合；

语言模型打分单元，用于查找所述检索关键词集合中的关键词在所述多个音频段中出现的概率，作为语言模型得分；

声学模型打分单元，用于利用声学模型根据所述多个音频段的声学特征计算声学模型得分；

总得分计算单元，用于根据所述语言模型得分和所述声学模型得分计算所述检索关键词集合中的关键词对于所述多个音频段的总得分；

得分调整单元，用于提高所述匹配关键词集合中的关键词对应的总得分；以及

判断单元，用于根据所述总得分判断所述检索关键词集合中的关键词所在的音频段。

8.如权利要求7所述的设备，其特征在于，所述得分调整单元通过提高所述匹配关键词集合中的关键词对应的语言模型得分来提高其对应的总得分。

9.如权利要求7所述的设备，其特征在于，所述得分调整单元直接提高所述匹配关键词集合中的关键词对应的总得分。

10.如权利要求7-9之一所述的设备，其特征在于，所述得分调整单元以相同的比例提高所述匹配关键词集合中的关键词对应的总得分，或者，所述得分调整单元对于所述匹配关键词集合中的、在所述文本描述信息中以较高词频出现的关键词，以较高的比例提高其对应的总得分。