CN103548015A

CN103548015A - 索引用于文件检索的文件的方法、装置及计算机可读媒介

Info

Publication number: CN103548015A
Application number: CN201280024604.9A
Authority: CN
Inventors: 黄建霖; 马斌; 李海州
Original assignee: Agency for Science Technology and Research Singapore
Current assignee: Agency for Science Technology and Research Singapore
Priority date: 2011-03-28
Filing date: 2012-03-28
Publication date: 2014-01-29
Anticipated expiration: 2032-03-28
Also published as: CN103548015B; WO2012134396A1; SG193995A1

Abstract

多个实施方式提供了索引用于文件检索的文件的方法。该文件可包括：产生文件向量，文件向量指示多个术语中的每个是否存在于文件中；使用文件向量和语义关系矩阵计算文件语义推断向量，文件语义推断向量用于文件中存在的多个术语中的每个，语义关系矩阵辨别多个术语中不同术语之间的语义关系；以及使用基于文件语义推断向量计算的文件语义背景推断向量，索引文件。多个实施方式提供了对应的装置和计算机可读媒介。

Description

索引用于文件检索的文件的方法、装置及计算机可读媒介

技术领域

本发明涉及索引用于文件检索的文件的方法、装置以及计算机可读媒介。

背景技术

说话是用于人与人和人与机器的相互作用的最方便的方式。在教育、商业和娱乐中应用语音文件检索（SDR）正在快速增长。成功的示例包括多语言口述历史档案访问。

传统手段聚焦在检索信息并试图满足用户的需求。由于语音的变化，难以直接比较语音查询与数据库中的语音文件。为了构造高效且有效的检索系统，现有技术的语音文件检索（SDR）技术采用从自动语音识别获得的用于索引的转换。向量空间模型和概率模型依赖于一些相似性功能，这些相似性功能假定如果文件包括查询术语的更多次出现，则该文件更有可能与查询相关。

基于文本的信息检索的索引技术已广泛地使用在语音文件检索中。然而，由于不完美的语音识别、未登录词汇、同音字歧义以及词语符号化，传统的基于文本的索引技术的方法并不总是适于语音文件检索。转换错误可致使不期望的语义与语法表达，因此导致不充分的索引。已经提出了多个手段以利用多种索引单元（如词语，子词、音素等）解决这些问题。

发明内容

多个实施方式提供了索引用于文件检索的文件的方法，其包括：产生文件向量，所述文件向量指示多个术语中的每个是否存在于所述文件中；使用所述文件向量和语义关系矩阵计算文件语义推断向量，所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个，所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系；以及使用基于每个文件语义推断向量计算的文件语义背景推断向量，索引所述文件。

在一实施方式中，使用所述文件向量和语义关系矩阵计算文件语义推断向量，以用于所述文件中存在的所述多个术语中的每个。

在一实施方式中，通过将所述文件语义推断向量加起来，计算所述文件语义背景推断向量。

在一实施方式中，产生所述语义关系矩阵还包括以下步骤：使用多个文件产生术语-文件矩阵，所述术语-文件矩阵辨别所述多个术语中的每个是否存在于所述多个文件的每个中；以及通过执行所述术语-文件矩阵的奇异值分解产生术语-术语矩阵，所述术语-术语矩阵为所述语义关系矩阵。

在一实施方式中，对所述术语-文件矩阵应用术语加权方案，以抑制噪音术语。

在一实施方式中，根据以下表达式应用所述术语加权方案：

a_{k}^{d} = \frac{tf (a_{k}, d) + 1}{n_{d}} \times \log (\frac{D}{df (a_{k}) + 1})

n_{d} = \underset{k}{Σ} tf (a_{k}, d)

其中为所述术语-文件矩阵W的被加权术语；D表示所述多个文件中文件的总数；K为所述多个术语中术语的数目；tf(a_k,d)表示术语

在文件d中出现的次数；df(a_k)是所述术语至少出现一次的文件的数目。

在一实施方式中，根据以下表达式执行所述术语-术语矩阵：

\hat{W} = {WW}^{T}

其中

为所述术语-术语矩阵；W为所述术语-文件矩阵；以及T表示矩阵转置。

在一实施方式中，根据以下表达式执行所述术语-术语矩阵的奇异值分解：

\hat{W} = {UΣV}^{T}

其中

为所述术语-术语矩阵；U为左奇异矩阵；V为右奇异矩阵；Σ为R×R对角矩阵，该对角矩阵的非负值为以递减次序排列的R个奇异值，R为分解的阶数；以及T表示矩阵转置。

在一实施方式中，基于以下表达式减少所述术语-文件矩阵的维数：

\frac{1}{\overset{&OverBar;}{σ}} Σ_{r = 1}^{R} σ_{r} &GreaterEqual; θ; \overset{&OverBar;}{σ} = Σ_{k = 1}^{K} σ_{k}

其中θ为经验性地用于基于具有第一R维度的所述本征值

选择所述本征向量

的阈值，R≤K表示原始术语向量在本征空间中的投影维度。

在一实施方式中，根据以下表达式产生所述术语-术语矩阵：

\tilde{W} = \hat{U} \hat{Σ} {\hat{U}}^{T}

其中

为所述术语-术语语义关系矩阵，T表示矩阵置换。

在一实施方式中，所述方法还包括：接收搜索查询；以及基于使用所述文件语义背景推断向量和所述搜索查询的比较，检索所述文件。

在一实施方式中，检索所述文件还包括：产生搜索查询向量，所述搜索查询向量指示所述多个术语中的每个是否存在于所述搜索查询中；使用所述搜索查询向量和所述语义关系矩阵，计算搜索查询语义推断向量，所述搜索查询语义推断向量用于所述搜索查询中存在的所述多个术语中的一个或多个；基于每个搜索查询语义推断向量，计算搜索查询语义背景推断向量。以及基于所述文件语义背景推断向量与所述搜索查询语义背景推断向量之间的比较，检索所述文件。

在一实施方式中，使用所述搜索查询向量和语义关系矩阵计算搜索查询语义推断向量，以用于所述搜索查询中存在的所述多个术语中的每个。

在一实施方式中，通过将所述搜索查询语义推断向量加起来，计算所述搜索查询语义背景推断向量。

在一实施方式中，根据以下表达式执行所述文件语义背景推断向量与所述搜索查询语义背景推断向量之间的所述比较：

sim (\overset{&RightArrow;}{q}, \overset{&RightArrow;}{d}) = \frac{\overset{&RightArrow;}{q} \cdot \overset{&RightArrow;}{d}}{| | \overset{&RightArrow;}{q} | | \cdot | | \overset{&RightArrow;}{d} | |} = \frac{Σ_{i = 1}^{e} q_{i} \times d_{i}}{\sqrt{Σ_{i = 1}^{e} q_{i}^{2}} \times \sqrt{Σ_{i = 1}^{e} d_{i}^{2}}}

其中

和

表示搜索查询q和文件d的语义背景推断向量；e表示所述语义背景推断向量的维度。

在一实施方式中，每个文件为语音文件。

在一实施方式中，术语为词语。

各个实施装置提供了索引用于文件检索的文件的装置，其包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，利用所述至少一个处理器，所述至少一个存储器和所述计算机程序代码配置成致使所述装置至少执行：产生文件向量，所述文件向量指示多个术语中的每个是否存在于所述文件中；使用所述文件向量和语义关系矩阵计算文件语义推断向量，所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个，所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系；以及使用基于每个文件语义推断向量计算的文件语义背景推断向量，索引所述文件。

多个实施方式提供了索引用于文件检索的文件的计算机可读媒介，所述计算机可读媒介上存储有计算机程序码，当通过计算机执行所述计算机程序代码时，其致使所述计算机至少执行：产生文件向量，所述文件向量指示多个术语中的每个是否存在于所述文件中；使用所述文件向量和语义关系矩阵计算文件语义推断向量，所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个，所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系；以及使用基于每个文件语义推断向量计算的文件语义背景推断向量，索引所述文件。

关于上述方法并在这里关于上述方法重述的附加特征和优点等同地适于上述装置和计算机可读媒介。

附图说明

通过参考仅以示例方式给出的以下描述并结合附图，将更好地理解本发明的实施方式，并且本发明的实施方式对本领域普通技术人员将变得显而易见，在附图中：

图1A示出了根据一个实施方式的用于索引语音文件的装置的功能结构，而图1B是根据一个实施方式的对应方法的流程图；

图2A示出了根据一个实施方式的用于检索语音文件的装置的功能结构，而图2B是根据一个实施方式的对应方法的流程图；

图3示出了根据一个实施方式的奇异值分解的方法；

图4A示出了根据一个实施方式的产生语义背景推断向量的方法，而图4B是该方法的流程图；

图5示出了根据一个实施方式的用于文件检索的示例性计算机界面；

图6至图8是来自一个实施方式的模拟的试验结果；以及

图9示出了根据一个实施方式的装置的物理结构。

具体实施方式

以下描述的一些部分以操作的功能或符号表示以及算法的形式明确地或隐含地表现在计算机存储器内的数据上。这些算法描述和功能或符号表示是数据处理领域的技术人员向该领域其他人有效地传达其工作内容的手段。这里，通常算法被认为是步骤的自洽序列，其导致期望结果。这些步骤需要实际操作物理量，如能够进行存储、传输、结合、比较、及其他操作的电学、磁性或光学信号。

除非另外特别地说明，并如从下文显而易见的，应理解在整个说明书中，使用诸如“扫描”、“计算”、“确定”、“替换”、“产生”、“初始化”、“输出”等术语的论述指的是计算机系统或类似电子设备的过程和动作，该计算机系统或类似电子设备操作将表示为计算机系统内的物理量的数据转换成类似地表现为计算机系统或其他信息存储、传输或显示设备内的物理量的其他数据。

本发明还公开了用于执行这些方法的操作的装置。这种装置可具体构造成用于需要的目的，或可包括通过存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机或其他设备。本文中出现的算法和显示并不固然与任何具体计算机或其他装置相关。根据本文中的教导，各种通用机器可与程序一起使用。可替代地，构造更专用于执行需要的方法步骤的装置是适当的。以下描述中将出现传统的通用计算机的结构。

另外，本说明书还隐含地公开了计算机程序，因此对于本领域技术人员显而易见的是本文中描述的方法的各个步骤可由计算机代码实现。计算机程序并不限于任何具体编程语言及其实施。应理解，各种编程语言及其编码可用于实施本文中所包括的本公开的教导。此外，计算机程序不限于任何具体控制流。存在计算机程序的多个其他变型，其可使用不同的控制流，而不背离本发明的范围或精神。

此外，计算机程序的一个或多个步骤可并行而不是顺序地执行。这种计算机程序可存储在任何计算机可读媒介上。计算机可读媒介可包括存储设备，如磁盘或光盘、存储芯片、或适于与通用计算机接口的其他存储设备。计算机可读媒介还可包括硬接线媒介例如因特网系统，或无线媒介例如GSM移动电话系统。当加载在这种通用计算机上并执行时，计算机程序有效地导致了实施优选方法的步骤的装置。

图1A示出了索引用于文件检索的文件的示例性装置2。应理解，图1A示出了该装置的功能结构。图1B提供索引用于文件检索的文件的对应方法S2的流程图。以下描述等同地涉及图1A的装置和图1B的方法。

在一实施方式中，装置2包括用于存储语音文件（S4）的语音文件数据库4；用于执行自动语音识别（S6）的自动语音识别处理器6；用于识别文本中的术语（S8）的识别结果处理器8；用于产生语义关系矩阵（S10）的语义关系矩阵处理器10；用于产生语义背景推断向量（S12）的语义背景推断向量处理器12；以及用于提供语音文件的索引（S14）的索引数据库14。

在一实施方式中，语音文件数据库4存储多个语音文件（S4）。例如，每个文件可作为音频文件存储在数据库上，例如WAV文件，MP3文件等。在一实施方式中，数据库4可包括一个或多个数据库。在一些实施方式中，可提供成其他格式如作为视频文件的语音文件，例如WMV文件或MP4文件。

在一实施方式中，自动语音识别处理器6执行关于存储在数据库4中的语音文件的自动语音识别（S6）。具体地，处理器6可将来自音频语音的语音文件转换成书写文本。

在一实施方式中，识别结果处理器8分析通过处理器6产生的文本，以辨别或识别术语（S8）。在一实施方式中，术语为词语。然而，在另一些实施方式中，术语可比词语更小，例如音节或字母。另外或可替换地，术语可比词语更大，例如短语或句子。

在一实施方式中，语义关系矩阵处理器10使用通过处理器8识别的术语来产生语义关系矩阵（S10）。语义关系矩阵辨别不同识别的术语之间的语义关系。换句话说，语义关系矩阵可辨别一对识别的术语之间的相关意思。例如，处理器8可已识别出一千个术语。因此，处理器10可产生具有一千行和一千列的矩阵，其中每个识别的术语对应于一行和一列。因此，该矩阵可填充有值，以指示多对的识别的术语之间的语义关系。在一实施方式中，值的大小可指示关系的强度。例如，两个术语‘房屋’和‘家’之间的语义关系可能较高，因此可以存在指示该关系的值或者该值相应较高。可替代地，两个术语‘房屋’和‘门’之间的语义关系可能较低，因此可以存在指示该关系的值或者该值相应较低。可替代地，两个术语‘房屋’和‘写’之间的语义关系可能较低，因此可以没有指示该关系的值或者该值相应地较低。

在一实施方式中，指示两个术语之间语义关系的值取决于这两个术语的语义相似度。例如，可从存储在数据库4上的所有语音文件来分析两个术语的语义相似度。换句话说，可分析每个语音文件以识别这两个术语是否都存在。另外或可替换地，如果这两个术语都存在于语音文件中，则可进一步分析该语音文件以辨别这两个术语之间的语义紧密程度，即这两个术语之间存在多少插入术语。在一实施方式中，取决于这些因素中的一个或多个，指示这对术语的语义关系的值可增加至语义关系矩阵。另外或可替换地，可根据这些因素中的一个或多个来设置值的大小。

在一实施方式中，语义背景推断向量处理器12产生语义背景推断向量（S12），其用于通过处理器6转换成文本的语音文件。在一实施方式中，一个语义背景推断向量涉及一个文件。具体地，转换的文件可由对应的文件向量表示。在一实施方式中，文件向量包括一系列所有识别的术语。此外，文件向量可指示哪个识别的术语存在于文件中。例如，考虑上述示例，文件向量可包括具有一千个值的向量，其中每个值对应于通过处理器8识别的一千个术语之一。如果该一千个术语中任一个存在于文件中，则可更新其在文件向量中的对应值以指示其的存在。在一实施方式中，值的大小可与该术语在文件中出现的次数成比例。例如，如果一术语在文件中出现五十次，则在对应于该文件的文件向量中，对应于该术语的向量值可设为五十。因此，文件向量提供了哪个识别的术语存在于对应于该向量的文件中的指示。另外，文件向量提供了哪个识别术语不存在于对应于该向量其中文件中的指示。

在一实施方式中，所有文件向量表示相同的一系列识别的术语。在一实施方式中，所有文件向量表示识别的术语的相同序列。因此，可分析两个文件向量，以辨别哪个术语为对应于这两个文件向量的两个文件所共有。

在一实施方式中，一旦已产生文件向量，其与语义关系矩阵相结合，以产生一个文件语义推断向量，该文件语义推断向量用于对应文件中存在的每个识别的术语。在一实施方式中，然后使用每个产生的语义推断向量产生语义背景推断向量。语义背景推断向量涉及与文件向量相对应的文件。根据该操作，产生了用于存储在数据库4上的每个文件的语义背景推断向量，并且其通过处理器6和处理器8进行处理。

应理解，在一些其他实施方式中，可仅产生用于识别的术语中一个或多个的语义推断向量，该识别的术语存在于对应于文件向量的文件中。例如，在一实施方式中，可仅产生用于存在于文件中的识别的术语中两个、三个、四个或任何预定数目的语义推断向量。此外，可基于任何预定数目的语义推断向量产生语义背景推断向量。

在一实施方式中，索引数据库14根据其各自的语义背景推断向量索引或排列存储在数据库4上的语音文件（S14）。在一实施方式中，数据库14可存储数据对，数据对包括文件标示符与对应的语义背景推断向量。在一实施方式中，索引数据库14可与语音文件数据库4或与其一部分相同。因此，每个文件可存储在结合的数据库中，然后通过其语义背景推断向量被辨别和索引。

根据上述操作方法，可索引多个文件。

图2A示出了用于检索通过装置2索引的文件的示例性装置18。应理解，图2A示出了装置18的功能结构。图2B提供了用于检索索引的文件的对应方法（S18）的流程图。以下描述等同地涉及图2A的装置和图2B的方法。

注意到，装置18可与装置2包括一些或全部相同的部件。因此，单个装置可提供装置2和装置18。具体地，装置18可包括自动语音识别处理器6、识别结果处理器8、语义关系矩阵处理器10、语义背景推断向量处理器12、以及索引数据库14。

在一实施方式中，自动语音识别处理器6配置成接收例如来自个人用户的语音搜索查询（S6）。在一示例中，装置2和装置18可安装在图书馆中并且图书馆读者可提供语音搜索查询。自动语音识别处理器6、识别结果处理器8、语义关系矩阵处理器10、和语义背景推断向量处理器12都以与上述方式类似的方式进行操作（S6，S8，S10以及S12）。因此，产生语义背景推断向量（S12）以用于语音搜索查询。在一实施方式中，用于产生搜索查询语义背景推断向量的语义关系矩阵与用于产生文件语义背景推断向量的语义关系矩阵相同。

另外或可替换地，在一实施方式中，语义背景推断处理器12可配置成直接接收成文本形式的搜索查询（S12），如图2A和图2B所示。在这种情况下，语义背景推断处理器12可将文本查询变换成搜索查询向量，该搜索查询向量指示存在哪个识别的术语。然后，如上所述，可产生搜索查询语义背景推断向量。在一实施方式中，可以类似的样式提供文本文件。

在一实施方式中，一旦已通过语义背景推断处理器12产生了搜索查询语义背景推断向量（S12），则执行搜索以辨别一个或多个适当的文件。在一实施方式中，使用文件语义背景推断向量与搜索查询执行比较，以辨别一个或多个适当的文件。更具体地，搜索查询语义背景推断向量可与文件语义背景推断向量相比较，以辨别一个或多个适当的文件。例如，搜索可寻找最密切地匹配搜索查询语义背景推断向量的一个或多个文件语义背景推断向量。在任何情况下，可通过语义背景推断处理器12从索引数据库14获得文件背景推断向量（S14）。

根据上述操作方法，可使用上述索引方法辨别与搜索查询有关的一个或多个文件。

下面在一个实施方式中更详细地描述语义关系矩阵的形成。

首先，可考虑文件-术语矩阵的形成。

在一实施方式中，语音文件数据库4包括多个语音文件。语音文件可由具有多项的行向量

表示，该行向量利用权重项

从转换的统计得到。D表示用于索引的语音文件的总数。K是索引项向量的维度。可从该信息得到文件-术语矩阵W=[v₁,v₂,...,v_D]。文件-术语矩阵可指示每个语音文件中存在哪些术语。例如，文件-术语矩阵的每行可表示不同的文件，而每列可表示不同的术语。因此，可使用该矩阵来辨别每个文件中存在哪些术语。

具体地，第d语音文件可由术语的行向量

表示，该行向量利用加权术语

从转换的统计得到。在一实施方式中，通过自动语音识别处理器6产生该转换。K是索引术语向量的维度。换句话说，K是文件中识别的术语的总数，而行向量指示这些术语中的哪些术语存在于与该行向量相对应的文件中。例如，不存在的术语由‘0’值表示，而存在的术语由非‘0’值表示。

下面将描述在一实施方式中怎样对文件-术语矩阵应用术语加权方案。

由于不完美的语音识别和转换的冗余，并不是所有识别的术语都是有效的和有意义的。为了除去噪音术语，通过以下术语加权方案可丢弃在文件中出现频率较低并在很少文件中出现的术语：

a_{k}^{d} = \frac{tf (a_{k}, d) + 1}{n_{d}} \times \log (\frac{D}{df (a_{k}) + 1})

n_{d} = \underset{k}{Σ} tf (a_{k}, d)

其中tf(a_k,d)可表示语音文件d中识别的术语a_k出现的次数；df(a_k)可以是语音文件数据库4中术语a_k至少出现一次的文件的数目。

术语加权方案的优点是提供关于术语对于语音文件数据库中的文件多么重要的有用信息。因此，可抑制很少出现在文件中的术语，例如印刷错误。此外，可抑制经常出现在文件中的术语，例如‘和’、‘的’及不可能指示文件的潜在概念的其他术语。因此，可通过应用术语加权方案增强文件-术语矩阵。

在一实施方式中，如下通过加权的文件-术语矩阵产生语义关系矩阵。

语义关系矩阵为术语-术语矩阵，而不是文件-术语矩阵。换句话说，语义关系矩阵限定不同对的术语之间的语义关系。另一方面，文件-术语矩阵限定文件与术语之间的关系，即文件是否包括术语。术语-术语语义关系矩阵可用于描述多个文件中术语之间的相关性。

在一实施方式中，为了构造术语-术语矩阵，可根据下式执行协方差估计：

\hat{W} = {WW}^{T}

其中W为上述的文件-术语矩阵，T表示矩阵转置。在该实施方式中，

为用于描述多个文件中术语之间的相关性的术语-术语矩阵。该矩阵的对角线表示自术语并示出了最高的相关性分数。换句话说，最密切的关系在等同的两个术语之间发现。

在一实施方式中，下一步是执行奇异值分解（SVD），其发现最优投影，以探究术语共现模式。SVD涉及本征向量分解和因子分析。SVD可用于发现最优投影，以探究术语出现模式。图3示出了执行SVD的过程。

SVD涉及本征向量分解和因子分析。如图3所示，在实施方式中，按照如下执行矩阵

的SVD：

\hat{W} = {UΣV}^{T}

其中U为左奇异矩阵，V为右奇异矩阵。U和V均示出了正交特征。Σ为R x R对角矩阵，其非负值为以递减排列的R个奇异值，即σ₁≥σ₂≥...≥σ_R>0。R为分解的阶并且R≤K。

在一实施方式中，V和U的列向量均执行标准正交基，其用于由uΣ和vΣ覆盖的具有维度R的空间。这样导致了文件和术语在低维度的连续向量空间（即，潜在语义索引（LSI）空间）中的表示。为了发现术语之间的共现，可按照如下产生术语-术语（K x K）矩阵。

在一实施方式中，SVD可用于将术语向量的所有维度投影到潜在信息空间上，该潜在信息空间具有显著减少的维数。这样具有通过去除次要因素而减少术语向量的尺寸的优点。在一实施方式中，SVD被应用来基于阈值θ选择主要因素。

\frac{1}{\overset{&OverBar;}{σ}} Σ_{r = 1}^{R} σ_{r} &GreaterEqual; θ; \overset{&OverBar;}{σ} = Σ_{k = 1}^{K} σ_{k}

其中经验性地采用θ以基于具有第一R维度的本征值

选择本征向量

其中R≤K表示本征空间中原始术语向量的投影维度。在一实施方式中，该本征向量

被当做LSI中的变换基。

鉴于以上描述，σ越大，对应于σ的术语就越重要或越显著。例如，用于术语如‘和’、‘的’、‘用于’的σ的值相对较小，而用于术语如‘澳大利亚’、‘钱’、‘房屋’的σ的值相对较大。因此，本征向量可以按照其本征值的次序进行排序。然后，可以不考虑具有低于阈值的本征值的本征向量。以这种方法，可考虑重要的术语，而忽视不重要的术语。通过基于其本征值选择本征向量，可仅考虑相对重要的术语。

因此，可按照如下重构语义关系矩阵

\tilde{W} = \hat{U} \hat{Σ} {\hat{U}}^{T}

不同于矩阵

矩阵

可去除噪音因素并捕获最重要的术语-术语关联或关系。包括所有的术语-术语点积的矩阵

为术语之间语义关系与共现的表示。矩阵

的相互关系分数基于概念之间的相似度被整体地估计。

在一实施方式中，语音文件d中每个识别的术语a_k可通过语义关系矩阵

映射到语义推断向量

上。在一实施方式中，语义推断向量

实际上为术语a_k的关联术语的表示。下面将参照图4A的视图和图4B的流程图描述该过程。

在一实施方式中，在S30，计算文件向量，如上参照图1A、图1B、图2A以及图2B所述。如上所述，文件向量可以是辨别所有识别的术语并且识别对应的文件中存在哪个识别的术语的向量。加权向量50可表示文件向量。此外，如上所述，加权向量50可表示已应用了术语加权方案的文件向量。

加权向量50的单元的涂黑指示与该单元相对应的术语存在于与该加权向量相对应的文件中。在该示例中，仅第一单元52和第四单元54被涂黑，从而指示仅第一识别术语和第四识别术语存在于该文件中。

在一实施方式中，在S32，使用语义关系矩阵产生语义推断向量以用于每个涂黑的单元，即，对于文件中存在的每个识别的术语产生语义推断向量。因此，产生两个语义推断向量56和58。向量56对应于单元52中识别的术语，而向量58对应于单元54中识别的术语。如从涂黑部分可以看出，向量56包括两个值，意味着单元52中的术语与两个识别的术语具有语义关系。此外，向量58包括三个值，意味着单元54中的术语与三个识别的术语具有语义关系。

在一实施方式中，由加权向量50的连续单元表示的术语的序列与由语义关系矩阵的连续列表示的术语的序列相同。例如，加权向量50的顶部单元可表示与语义关系矩阵的最左列相同的术语，而加权向量50的底部单元可表示与语义关系矩阵的最右列相同的术语。因此，语义关系矩阵对角线的单元可总是指示语义关系，或强语义关系，因为对角线的单元涉及一对等同术语之间的语义关系。例如，考虑以上示例，语义关系矩阵的左上方到右下方的对角线的单元可均指示语义关系或强语义关系的存在。这可在图4A中更具体地观察到，其中向量56的对应于向量50的顶部单元的最左单元被涂黑。此外，向量58的与向量50的从顶部起第四个单元相对应的从左侧起第四个单元被涂黑。

在一实施方式中，在S34，如下所示，用于语音文件d的所有语义推断向量被求和，以获得语义背景推断向量60：

{\overset{&OverBar;}{V}}_{d} = \underset{K}{Σ} {\tilde{V}}_{k}^{d}

如可以从图4A看出的，向量60包括作为求和操作的结果的四个值。在一实施方式中，由这四个值表示的四个识别的术语提供用于辨别和索引与加权向量50相对应的文件的方法。此外，由于求和操作，如果识别的术语表示在多个语义推断向量中，则其相关联的值被增加，即，增强。可替代地，如果识别的术语仅表示在单个语义推断向量中，则其不被增强。因此，在一实施方式中，语义背景推断向量不但指示哪个识别的术语与文件相关，而且其还指示对于每个术语的相关性的水平。

在一实施方式中，语义背景推断向量可被认为是重加权索引向量，其基于语义推断向量

中有关的术语扩展索引术语。通常，语音文件中术语的语义推断（即，潜在概念）与相同的主题相关联。利用语义背景推断，存在于多个推断向量中的术语被增强，而较少出现的术语被减弱。因为错误地识别的术语的语义推断是多种多样的，所以由于语音识别错误的效果可被平均从而被除去。此外，用于得到语义背景推断向量的步骤可完全是数据驱动的，而无需任何预先限定的知识，如需要预先限定的概念或知识数据库的WordNet和HowNet。

应理解，在一些其他实施方式中，可执行求和操作的可替代性操作。例如，可使语义推断向量一起相乘或求平均。此外，在一些其他实施方式中，语义推断向量的一些而不是所有语义推断向量可用于产生语义背景推断向量。例如，可仅使用具有超过一定数目的值的语义推断向量。

根据一些上述实施方式，所提出的语义背景推断（SCI）不同于潜在语义索引（LSI）。具体地，不同的基，

可用于LSI，而语义关系矩阵

可用于SCI。LSI目的是将数据维数减小至低维空间，并使用该基

将文件-术语矩阵中的元素投影至正交轴上。可替代地，SCI将示出术语-术语关联的语义关系矩阵

考虑在内。

在一实施方式中，搜索查询和语音文件被表示为用于高效检索的语义背景推断向量。可使用上文提到的潜在语义推断从查询和语音文件中估计语义背景推断向量中的每个组元。然后可使用余弦度量来估计搜索查询q与语音文件d之间的相似性，如下所示：

sim (\overset{&RightArrow;}{q}, \overset{&RightArrow;}{d}) = \frac{\overset{&RightArrow;}{q} \cdot \overset{&RightArrow;}{d}}{| | \overset{&RightArrow;}{q} | | \cdot | | \overset{&RightArrow;}{d} | |} = \frac{Σ_{i = 1}^{e} q_{i} \times d_{i}}{\sqrt{Σ_{i = 1}^{e} q_{i}^{2}} \times \sqrt{Σ_{i = 1}^{e} d_{i}^{2}}}

其中

和表示查询q和语音文件d的语义背景推断向量，而e表示语义背景推断向量的维度。然后可根据检索过程中所获得的相似性将检索结果排序。

根据以上操作，可根据语音或文本搜索查询提供语音文件的次序表。因为搜索是基于推断执行的，所以语音识别错误问题更少。具体地，一些术语可不正确地识别或完全遗漏；然而，搜索查询或文件的推断或潜在概念仍然是可辨别的。换句话说，术语识别错误可被解决。因此，多个实施方式提供了索引用于文件检索的文件的改进技术。

多个实施方式提供了以下优点。表示术语-术语关联的语义关系矩阵使用文件术语数据集产生。为了去除由语音识别错误引起的噪音因素并捕获最重要的术语-术语关联，仅具有较高本征值的本征向量被用来估计语义关系矩阵。利用反映术语间语义关系的扩展的语义关系矩阵，搜索查询或语音文件中的每个术语可映射到语义推断向量上，该语义推断向量表示专用术语与所有其他术语之间的共现和语义关系。

多个实施方式使用潜在语义索引以推断用于语音文件检索的相关概念术语。考虑到识别置信度和TF-IDF分数，术语重要性用来对文件的术语序列进行加权。潜在语义索引用来构造用于推断的术语-术语矩阵。识别的术语串通过推断矩阵自动映射到一组语义向量上。最后，通过文件的被映射语义向量的和来估计语义索引。潜在语义推断具有多个优点。例如，其可学习有关术语并将这些术语用作文件的新表示。此外，潜在语义推断的步骤是完全数据驱动的。

多个实施方式提供了以下优点。基于估计的语义关系矩阵，使用（例如通过加起来）与语音文件或搜索查询中的术语相关的所有语义推断向量来产生用于语音文件或查询的重加权索引向量。因此，通过使很可能是有效的术语升级并使很可能是无效的术语降级，增强了搜索查询或语音文件中的语义概念。

根据一些上述实施方式，语音文件检索是基于用于语音索引的语义背景推断的。语音文件中的每个识别的术语通过语义关系矩阵映射到语义推断向量上，其中该语义推断向量包括多个语义术语。然后通过将所有语义推断向量相加来构造语义背景推断向量。语义术语扩展与重加权使语义背景推断向量成为用于语音索引的合适表示，并实质上提高了语音文件检索的性能。

根据一些上述实施方式，通过使用语义背景推断（SCI）引入了语音文件的背景扩展和映射的概念。首先，确定用于推断的术语关联。然后，通过文件术语数据集，语义关系矩阵被构造成将术语-术语关联考虑在内。然后，每个识别的术语基于语义关系矩阵被映射到多个语义相关术语中。利用语义术语扩展和重加权索引，上述实施方式通过增强正确识别的术语来处理起因于语音识别错误的问题。

传统手段仅将识别的术语或类型索引的多个候选考虑在内，以增强检索信息。但并没有充分考虑语音的语义内容和语义关系，而语音的语义内容和语义关系在人类理解语音转换和测度其相似性中起重要作用。相反，上述实施方式考虑了语音的语义关系和语义内容。

多个实施方式提供了以下优点。语义推断考虑本体论，即，在概念层理解术语。汉语中使用的公共本体论数据库是HowNet而在英语中是WordNet。然而，本体论手段可能需要预先限定的知识数据库。在多个实施方式中，通过存储在数据库4中的多个语音文件提供知识数据库。

根据一些上述实施方式，使用语义关系矩阵，每个识别的术语自动映射到一组语义相关的术语上。因此，一个术语可表示为语义推断向量，即语义相关术语的向量。最后，可通过将一个文件的语义推断向量加起来而估计语义索引。

根据一些上述实施方式，语义背景推断用来探究潜在语义信息并将语义相关的术语延伸至语音索引。语义背景推断向量可认为是重加权的索引向量，其组织文件术语与语义术语之间的关系，其中该语义术语与文件术语相关联。

多个实施方式提供了以下优点。为了减弱识别错误的影响，通过发现术语之间的语义关系以及建议用于语音索引的语义术语扩展，上述实施方式使用语义背景推断表现。这些关联的术语被重加权为用于语音文件检索的文件和查询的新表示。

在以上的讨论中，以前的SDR系统基于具有多种索引转换的语音识别系统。虽然可使语音内容从语音信号识别至文本转换，但大量的术语和转换的术语的语义知识并没有很好地用于语音文件检索。由于来自大词汇量连续语音识别（LVCSR）的识别错误和自然语音的冗余特性，语音文件检索中采用了由冗余/噪音数据影响的转换，降低了检索性能。多个实施方式目的在于通过基于文件的语义内容索引和检索语音文件而解决这些缺点。换句话说，索引和检索基于文件的潜在概念而不仅仅是其术语。

多个实施方式的一优点是，使用潜在语义推断执行语音索引，其中潜在语义推断考虑了术语重要性分数和潜在语义推断分数。多个实施方式利用语音识别置信度和TF-IDF分数估计术语重要性，以获得术语权重。基于术语重要性分数，潜在语义索引用于构建用于语义推断的术语-术语矩阵。使用术语之间的共现是语义推断的示例。

图5示出了用于使用语义推断语音索引执行语音文件检索的计算机界面的实施方式。具体地，可在搜索框100提供搜索查询并搜索按钮被激活。然后搜索结果可出现在结果框102中。如图所示，结果框102可提供考虑搜索查询的一系列语音文件，这一系列语音文件按照相关性次数排序。此外，可提供文件框104，以使得可选择并执行结果框102中任一个语音文件。

下面将描述关于一实施方式的为确定语音文件检索性能而执行的实验。总而言之，实验结果示出了使用语义背景推断（SCI）实施方式的语音索引优于传统的TF-IDF词语向量和LSI索引方案。

为了证实上述手段，标准Mel频率倒谱系数（MFCC）可用于语音识别。语音数据的每帧可由36维特征向量表示，其包括12个MFCC，及其增量和双增量。这些特征可被归一化为零均值和单位方差，以提高判别能力。语音识别系统可基于统计隐马尔可夫模型（HMM）以及具有137个子音节的中文普通话的语音结构，该137个子音节包括作为基本单元的100个背景右相关声母（INITIAL）和37个背景无关韵母（FINAL）。基于决定的状态捆绑背景无关的子音节单元用于声学建模。取决于训练数据的数量，每声学HMM状态的高斯型混合的数目为2到32。每个子音节单元被建模成具有用于INITIAL的三个状态和用于FINAL的四个状态。静音模型为具有利用非语音部分训练的64个高斯型混合的单态HMM。

语音文件语料库是从公开中文普通话广播新闻语料库（“MATBN”）获得的。该语料库包括共198小时的广播新闻及对应的转换。提取了三年中1550个主持人新闻报道用于实验。平均新闻报道长度为16.38秒，平均51.85个词。MATBN中的语音数据通过语音识别系统被识别，并且词语准确度为78.92%。

此外，为了证实，还使用了主题检测与跟踪收集（TDT2）。在实验中使用了来自另一可公开得到的资源的2112个中文普通话音频新闻报道。TDT2的平均文件长度为174.20个词。TDT2的词语准确度为约75.49%。对于TDT2，由LDC提供语音识别转换。

为了测度检索的文件的准确度和相关文件的排序位置，按下式估计平均精确度：

mAP = \frac{1}{N_{q}} Σ_{i = 1}^{N_{q}} \frac{1}{N_{i}} Σ_{j = 1}^{N_{i}} \frac{j}{{rank}_{ij}}

其中N_q表示搜索查询的数目，N_i表示检索文件中所包括的用于查询i的相关文件的数目。rank_ij表示用于第i查询q的第j相关文件的排序。为了评价基于语义背景推断的语音索引的鲁棒性，具有164个关键字查询（二到四个汉字）的相同库被用于MATBN和TDT2。查询的平均长度为3.02个汉字。MATBN和TDT2中分别存在15.71个和21.20个相关的语音文件。

为了去除本征分解中的噪音因素，选择用于保持主要因素的阈值θ。θ的值越高，指示越多的本征向量用于潜在语义分析以及语义关系矩阵的重构。图6所示的实验结果利用MATBN广播新闻语料库得到，对于SCI和LSI的索引使用了不同的阈值（一实施方式），并且流行词语向量检索（TF-IDF）用作基线，其实现了69.56%的mAP。实验示出了完整的LSI空间没有给出与维度减小的LSI空间同样好的性能。表明了当分别对于LSI选择80%的阈值和对于SCI选择70%的阈值时可实现最佳结果。结果证实，通过去除噪音因素，可实现更好的性能。实验结果还示出实施方式SCI优于TF-IDF和LSI索引手段二者。

为了评价语义背景推断的效果，使用自动语音识别结果（ASR脚本）和完美文本（文本脚本），在TDT2和MATBN语料库上应用一实施方式。如7所示的实验结果指示相比于TF-IDF索引，基于SCI索引已在TDT2和MATBN上获得了一致的语音文件检索改进。为了理解语音文件检索的上限，评价了作为参考的通过理想文本脚本进行的索引。由于不完美的语音识别，使用语音脚本的索引与使用文本脚本的索引之间存在差距（约15%～20%mAP）。

在噪声环境、自然语音、以及低录制质量设备的情况下，可预测的语音转换绝不是完美的。图8总结了具有各种语音识别词语准确度的实验。为了研究语音识别精确度方差对语义背景推断的影响，使用了语音识别系统的不同设置。在MATBN广播新闻上进行实验。相比于不完美的语音识别结果，手动地得到正确的转换并且检索被当做文本文件检索。利用基于文本的文件检索，所提出的语义背景推断手段仍很好地执行，并且相比于传统的词语向量检索（TF-IDF）方法具有较小的改进。当语音识别的词语准确度为80%时，SCI索引实施方式示出了从69.56%mAP到74.28%mAP的4.72%的提高。实际上，词语准确度对于构造用于背景推断的语义关系矩阵是重要的。图7示出了当词语准确度降低时提高会减小。总而言之，通过实施方式SCI的语音索引示出了比LSI或TF-IDF更好的检索有效性。

下面描述用于执行多个实施方式的装置的示例性物理结构。

如图9示意性示出，上述方法和示例性实施方式的功能装置可实施在计算机系统800上。其可实施为软件，如在计算机系统800内执行的计算机程序，并指导计算机系统800实施示例性实施方式的方法。

计算机系统800包括计算机模块802、输入模块如键盘804和鼠标806以及多个输出设备如显示器808，以及打印机810。

计算机模块802通过合适的收发器设备814连接至计算机网络812，以允许访问例如因特网或其他网络系统如局域网（LAN）或广域网（WAN）。

示例中的计算机模块802包括处理器818、随机存取存储器（RAM）820以及只读存储器（ROM）822。计算机模块802还包括多个输入/输出（I/O）接口，例如用于显示器808的I/O接口824和用于键盘804的I/O接口826。

计算机模块802的部件通常通过互连总线828并以本领域技术人员公知的方式进行通信。

通常提供给计算机系统800的用户的应用程序编码在数据存储媒介如CD-ROM或闪存载体上，并利用数据存储设备830的对应的数据存储媒介驱动进行读取。应用程序通过处理器818读取并在其执行时进行控制。可使用RAM820实现程序数据的中间存储。

本领域的技术人员应理解，在不背离如概括地描述的本发明的精神或范围的情况下，可对在具体实施方式中示出的本发明做出多种修改和/或变型。因此本发明的实施方式在所有方面都是说明性的而非限制性的。

Claims

1.索引用于文件检索的文件的方法，包括：

产生文件向量，所述文件向量指示多个术语中的每个是否存在于所述文件中；

使用所述文件向量和语义关系矩阵计算文件语义推断向量，所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个，所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系；以及

使用基于每个文件语义推断向量计算的文件语义背景推断向量，索引所述文件。

2.根据权利要求1所述的方法，其中，使用所述文件向量和语义关系矩阵计算文件语义推断向量，以用于所述文件中存在的所述多个术语中的每个。

3.根据权利要求2所述的方法，其中，通过将所述文件语义推断向量加起来，计算所述文件语义背景推断向量。

4.根据权利要求1至3中任一项所述的方法，还包括通过以下步骤产生所述语义关系矩阵：

使用多个文件产生术语-文件矩阵，所述术语-文件矩阵辨别所述多个术语中的每个是否存在于所述多个文件的每个中；以及，

通过执行所述术语-文件矩阵的奇异值分解产生术语-术语矩阵，所述术语-术语矩阵为所述语义关系矩阵。

5.根据权利要求4所述的方法，其中，对所述术语-文件矩阵应用术语加权方案，以抑制噪音术语。

6.根据权利要求5所述的方法，其中，根据以下表达式应用所述术语加权方案：

a_{k}^{d} = \frac{tf (a_{k}, d) + 1}{n_{d}} \times \log (\frac{D}{df (a_{k}) + 1})

n_{d} = \underset{k}{Σ} tf (a_{k}, d)

其中

为所述术语-文件矩阵W的被加权术语；D表示所述多个文件中文件的总数；K为所述多个术语中术语的数目；tf(a_k,d)表示术语

7.根据权利要求4至6中任一项所述的方法，其中，根据以下表达式执行所述术语-术语矩阵：

\hat{W} = {WW}^{T}

其中

8.根据权利要求7所述的方法，其中，根据以下表达式执行所述术语-术语矩阵的奇异值分解：

\hat{W} = {UΣV}^{T}

其中为所述术语-术语矩阵；U为左奇异矩阵；V为右奇异矩阵；Σ为R×R对角矩阵，该对角矩阵的非负值为以递减次序排列的R个奇异值，R为分解的阶数；以及T表示矩阵转置。

9.根据权利要求8所述的方法，其中，基于以下表达式减少所述术语-文件矩阵的维数：

\frac{1}{\overset{&OverBar;}{σ}} Σ_{r = 1}^{R} σ_{r} &GreaterEqual; θ; \overset{&OverBar;}{σ} = Σ_{k = 1}^{K} σ_{k}

其中θ为经验性地用于基于具有第一R维度的所述本征值

选择所述本征向量

的阈值，R≤K表示原始术语向量在本征空间中的投影维度。

10.根据权利要求9所述的方法，其中，根据以下表达式产生所述术语-术语矩阵：

\tilde{W} = \hat{U} \hat{Σ} {\hat{U}}^{T}

其中

为所述术语-术语语义关系矩阵，T表示矩阵置换。

11.根据上述权利要求中任一项所述的方法，还包括：

接收搜索查询；以及，

基于使用所述文件语义背景推断向量和所述搜索查询的比较，检索所述文件。

12.根据权利要求11所述的方法，其中，检索所述文件还包括：

产生搜索查询向量，所述搜索查询向量指示所述多个术语中的每个是否存在于所述搜索查询中；

使用所述搜索查询向量和所述语义关系矩阵，计算搜索查询语义推断向量，所述搜索查询语义推断向量用于所述搜索查询中存在的所述多个术语中的一个或多个；

基于每个搜索查询语义推断向量，计算搜索查询语义背景推断向量；以及

基于所述文件语义背景推断向量与所述搜索查询语义背景推断向量之间的比较，检索所述文件。

13.根据权利要求12所述的方法，其中，使用所述搜索查询向量和语义关系矩阵计算搜索查询语义推断向量，以用于所述搜索查询中存在的所述多个术语中的每个。

14.根据权利要求13所述的方法，其中，通过将所述搜索查询语义推断向量加起来，计算所述搜索查询语义背景推断向量。

15.根据权利要求12至14中任一项所述的方法，其中，根据以下表达式执行所述文件语义背景推断向量与所述搜索查询语义背景推断向量之间的所述比较：

sim (\overset{&RightArrow;}{q}, \overset{&RightArrow;}{d}) = \frac{\overset{&RightArrow;}{q} \cdot \overset{&RightArrow;}{d}}{| | \overset{&RightArrow;}{q} | | \cdot | | \overset{&RightArrow;}{d} | |} = \frac{Σ_{i = 1}^{e} q_{i} \times d_{i}}{\sqrt{Σ_{i = 1}^{e} q_{i}^{2}} \times \sqrt{Σ_{i = 1}^{e} d_{i}^{2}}}

其中

和

16.根据上述权利要求中任一项所述的方法，其中，每个文件为语音文件。

17.根据上述权利要求中任一项所述的方法，其中，术语为词语。

18.索引用于文件检索的文件的装置，包括：

至少一个处理器；

以及包括计算机程序代码的至少一个存储器，

利用所述至少一个处理器，所述至少一个存储器和所述计算机程序代码配置成致使所述装置至少执行：

19.索引用于文件检索的文件的计算机可读媒介，所述计算机可读媒介上存储有计算机程序码，当通过计算机执行所述计算机程序代码时，其致使所述计算机至少执行：