CN102782682A

CN102782682A - 语义对象表征和搜索

Info

Publication number: CN102782682A
Application number: CN2011800117556A
Authority: CN
Inventors: U·R·尤杜帕; S·库马
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-03-01
Filing date: 2011-02-25
Publication date: 2012-11-14
Anticipated expiration: 2031-02-25
Also published as: CN102782682B; WO2011109251A2; EP2542988B1; WO2011109251A3; CA2788670C; CA2788670A1; JP5661813B2; US20110213784A1; EP2542988A4; EP2542988A2; US8543598B2; JP2013521574A; HK1178277A1

Abstract

呈现了语义对象表征及其在索引和搜索数据库目录中的使用。一般而言，生成第一二进制散列码以表示语义对象的第一表示或视图，当将所述第一二进制散列码与所述相同语义对象的第二表示或视图的第二二进制散列码形式的表征版本相比较时，所述第一和第二二进制散列码呈现指示所述对象为相同对象的类似度。在一个实现中，所述语义对象对应于人的名字而所述第一和第二表示或视图对应于两种不同的语言。从而，用户可用另一语言的搜索查询来搜索一种语言的信息数据库。

Description

语义对象表征和搜索

背景技术

最一般而言，搜索引擎是索引一个或多个数据库中所包含的信息的软件程序。该被索引的信息经常被存储在该数据库的目录中。然后搜索引擎允许用户输入搜索查询，该搜索查询的术语被用来经由该目录在该数据库中寻找相关信息。所找到的相关信息被报告给用户。

所索引的信息的类型可以是任何能够想象的类型。它可以是网页、文档、被标记的图像等等。通常，该信息是特定语言的，而搜索查询也是用相同语言呈现的。

此外，通常，可被一般地称为语义对象的所索引的信息项被按照使得通过所列举的对象的搜索快速而高效的方式在该目录中表征。在这种情况下，在将搜索查询与被表征的目录条目进行比较之前，通常用相同方式来表征该搜索查询。

发明内容

提供本发明内容以便以简化的形式介绍将在以下的具体实施方式中进一步描述的一些概念。本概述并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

此处描述的语义对象表征和搜索实施例一般涉及首先输入并行语义对象对。并行语义对象对被定义为以第一和第二表示（representation）或视图（view）表示的相同语义对象。例如，如果所述语义对象对应于人的名字，则并行名字对可以是以两种不同语言呈现（并且可能以两种不同的脚本（script）呈现）的同一个名字。每一并行对象对中的每个语义对象经受特征提取以产生表示该语义对象的特征向量。然后基于表示并行语义对象对的特征向量，利用相关（correlation）和优化（otimization）方法来建立第一表示或视图的规定数量的变换以及第二表示或视图的相同数量的变换。一般而言，为第一或第二表示或视图中的一个所建立的变换，在被应用到表示呈现该表示或视图的语义对象的特征向量时，产生表示该语义对象的第一二进制散列码，该第一二进制散列码基本类似于表示该语义对象的第二二进制散列码，该第二二进制散列码是在该第一或第二表示或视图中的另一个所建立的变换被应用到表示呈现该另一表示或视图的同一语义对象的特征向量时产生的。

为第一表示或视图建立的变换被用来以表示该语义对象的第一二进制散列码的形式表征数据库中所包括的语义对象（其呈现第一表示或视图）。接下来，表征该数据库中所包括的语义对象的第一二进制散列码分别与它在该数据库目录中的相应语义对象相关联。

当输入呈现前面提到的第二表示或视图的搜索查询时，生成表示该搜索查询的特征向量。为第二表示或视图建立的变换中的每一个进而被应用到该搜索查询特征向量，并且结果被二进制化，以产生表示该搜索查询的第二二进制散列码中的一位。由所述变换产生的位随后被以规定次序串接，以产生表示该搜索查询的第二二进制散列码。接下来，寻找该数据库中所包括的其第一二进制散列码呈现出与表示该搜索查询的第二二进制散列码的规定类似度的一个或多个语义对象。随后输出所述一个或多个匹配的语义对象的标识。

附图描述

参考以下描述、所附权利要求书以及附图，将更好地理解本发明的具体特征、方面和优点，附图中：

图1是大体概述用于语义对象表征的过程的一个实施例的流程图。

图2是大体概述图1的过程的一部分的一个实现的流程图，其涉及使用为第一表示或视图建立的变换来将呈现第一表示或视图的语义对象表征为第一二进制散列码。

图3是大体概述用于表征人的名字的过程的一个实施例的流程图。

图4是大体概述图3的过程的一部分的一个实现的流程图，其涉及使用为第一语言建立的变换来将该第一语言的人的名字表征为第一二进制散列码。

图5是大体概述图3的过程的一部分的一个实现的流程图，其涉及使每个并行名字对中的每个名字经受特征提取以分别为每个语言产生表示该名字的二进制特征向量。

图6是大体概述图1的过程的一部分的一个实现的流程图，其涉及基于表示该并行语义对象对的特征向量来建立第一表示或视图的规定数量的变换以及第二表示或视图的同一数量的变换。

图7是大体概述用于索引数据库的目录的过程的一个实施例的流程图。

图8大体概述图7的过程的一部分的一个实现的流程图，其涉及将表征该数据库中所包括的语义对象的第一二进制散列码与其在该数据库中相应的语义对象相关联。

图9是大体概述用于使用被表征的搜索查询来搜索数据库的被表征的目录的过程的一个实施例的流程图。

图10是大体概述用于使用被表征的多部分语义对象搜索查询来搜索数据库的被表征的目录的过程的一个实施例的流程图。

图11是描绘了构成用于实现此处所描述的语义对象表征和搜索实施例的示例性系统的通用计算设备的图示。

具体实施方式

在以下对语义对象表征和其在索引集搜索数据库目录中的使用的描述中，对附图进行了参考，附图构成了描述的一部分且在其中作为说明示出了可在其中实践该表征的具体实施例。可以理解，可以使用其他实施例并且可以做出结构改变而不背离本发明技术的范围。

1.0语义对象表征

一般而言，语义对象表征是一种这样的计算机实现的技术：以第一二进制散列码的形式表征语义对象的第一表示或视图，以便当与以第二二进制散列码的形式表征同一语义对象的第二表示或视图的被表征版本相比较时，第一和第二二进制散列码呈现指示所述对象是同一对象的类似度。

参考图1，该语义对象表征的一个实施例涉及首先输入并行语义对象对（100）。并行语义对象对被定义为以第一和第二表示或视图表示的相同语义对象。例如，如果所述语义对象对应于人的名字，则并行名字对可以是以两种不同语言呈现的相同名字。此外，如果语言利用与该语言相关联的脚本，则该语言的人的名字可以其相关联的脚本来呈现。注意，所采用的并行对的数量将取决于所涉及的语义对象的类型。在人的名字的情况下，已经发现，一万到一万五千对是适当数量的对。

每个并行对象对中的每个语义对象接下来经受特征提取以产生表示该语义对象的特征向量（102）。在本描述的后续章节中将更详细地描述此特征提取。然后基于表示并行语义对象对的特征向量，利用相关和优化方法来建立第一表示或视图的规定数量的变换以及第二表示或视图的相同数量的变换（104）。在接下来的章节中还将更详细地描述此过程。然而，一般而言，为第一或第二表示或视图中的一个所建立的变换，在被应用到表示呈现该表示或视图的语义对象的特征向量时，产生表示该语义对象的第一二进制散列码，该第一二进制散列码基本类似于表示该语义对象的第二二进制散列码，该第二二进制散列码是在该第一或第二表示或视图中的另一个所建立的变换被应用到表示呈现该另一表示或视图的同一语义对象的特征向量时产生的。注意，在一个实现中，采用典型相关分析（Canonical CorrelationAnalysis）作为相关方法。

为第一表示或视图建立的变换接下来被用来将呈现第一表示或视图的语义对象表征为表示该语义对象的第一二进制散列码（106）。参考图2，在一个实现中，这最后一个动作涉及首先使该语义对象经受被应用到每一并行语义对象对中呈现第一表示或视图的语义对象的相同特征提取，以产生表示该语义对象的特征向量（200）。为第一表示或视图建立的变换中的先前未选择的一个变换随后被选择（202）。所选择的变换被应用到表示该语义对象的特征向量，且结果被二进制化，以产生表示该语义对象的第一二进制散列码中的一位（204）。然后确定是否为第一表示或视图所建立的所有变换均已被选择并处理（206）。如果否，则重复动作（202）到（206）。当所有变换均已被选择并处理，则每一变换所产生的位被以规定次序串接，以产生表示该语义对象的第一二进制散列码（208）。

如上面指示的，该语义对象表征可涉及所述语义对象是人的名字，而所述表示或视图是两种不同的语言（并且有可能两种不同的脚本类型）。这种实现具有显著的优点。例如，在使用表征来索引和搜索数据库目录的上下文中，假定该数据库目录是英文的，但是用户想要使用非英文语言（其可能甚至采用不同的脚本）的搜索查询来搜索该数据库。当语义对象表征被应用到这种跨语言搜索时，它允许数据库目录中第一语言的名字被使用该名字的对语言和脚本独立的表示来表征。随后第二语言和可能的不同脚本的搜索查询可被以相同的对语言和脚本独立的方式来表征。如此，该用户可提交第二语言的查询并获得该数据库的该语言的匹配结果。从而，绕过了对数据库语言的任何不熟悉或者两种语言之间的发音的差异。

现在将描述语义对象表征的一个实现，其中语义对象是人的名字而表示或视图是两种不同的语言（而且可能是两种不同的脚本类型）。一般而言，该实现将第一语言的人的名字以表示该名字的第一二进制散列码的形式来表征，以便当将其与第二语言的相同名字的以表示该名字的第二二进制散列码的形式表征的版本相比较时，第一和第二二进制散列码呈现出指示所述名字是相同名字的类似度。

更具体而言，参考图3，该实现涉及首先输入并行名字对（300），其中并行名字对被定义为以第一和第二语言（并且可能以不同脚本）呈现的相同的名字。每一并行名字对中的每个名字接下来经受特征提取以产生表示该名字的特征向量（302）。然后基于表示并行名字对的特征向量，利用前面提到的相关和优化方法来建立第一语言的规定数量的变换以及第二语言的相同数量的变换（304）。为所述语言中的一个所建立的变换在被应用到以该语言表示名字的特征向量时，产生表示该名字的第一二进制散列码，该第一二进制散列码基本类似于表示该名字的第二二进制散列码，该第二二进制散列码是在为另一语言建立的变换被应用到以该另一语言表示相同名字的特征向量时产生的。

为第一语言建立的变换接下来被用于将第一语言的名字表征为表示该名字的第一二进制散列码（306）。现在参考图4，在一个实现中，这最后一个动作涉及首先使该名字经受与应用到第一语言的每一并行名字对中的该名字相同的特征提取，以产生表示该名字的特征向量（400）。为第一表示或视图建立的变换中的先前未选择的一个变换随后被选择（402）。所选择的变换被应用到表示该人的名字的特征向量，且结果被二进制化，以产生表示该名字的第一二进制散列码的位（404）。然后确定是否为第一语言所建立的所有变换均已被选择并处理（406）。如果否，则重复动作（402）到（406）。当所有变换均已被选择并处理，则每一变换所产生的位被以规定次序串接，以产生表示该人的名字的第一二进制散列码（408）。

现在在后面的章节中将更详细地描述前面的语义对象表征和搜索的方面。

1.1特征向量

采用相对于格式、语言、脚本等独立的特征表示，而不是直接使用相同语义对象的两个表示/视图。为了获得这种独立表示，为每个对象的每个视图形成特征向量。可采用适于这些对象的任何特征化方法来生成特征向量。例如，在人的名字的情况下，字符n元可作为特征被提取并被二进制化以形成二进制特征向量。注意，这不是可用的唯一可能的特征化方法。例如，还可能使用从名字提取的音节作为特征，且特征向量可以由实数值数字构成而不是被二进制化。还可能通过对特征向量使用主成分分析或任何其他维度减少技术来找到低维度表示。

作为说明性示例，在所述对象是人的名字且所述两个表示或视图是两种不同语言并且可能两种不同脚本中的所述名字时，为每种语言中的每个名字生成特征向量。例如，考虑一种实现：其中对于每种语言，从人的名字中提取二元（bi-gram）以形成二进制特征向量。更具体而言，考虑以下名字：拉丁脚本中的Rashid和卡纳达（Kannada）脚本中的

（它们是英语和卡纳达语中的同一名字）。可从英语名字Rashid中提取下面的示例性字符二元：{^R;Ra;as;sh;hi;id;d$}；且可从卡纳达语名字

中提取下面的示例性字符二元：

在本示例中，可从其他的并行的英语-卡纳达语名字对中提取类似的字符二元以获得一组英语字符二元和分开的一组卡纳达语字符二元。分别对于每种语言，从该语言提取的二元被以任何期望序列排序——尽管曾经被排序，该序列对于每个特征向量的形成仍保持相同。随后使用英语二元序列为每个英语名字形成字符二元特征向量，并且随后使用卡纳达语二元序列为每个卡纳达语名字形成字符二元特征向量。为此目的，对于被特征化的每个名字，向该序列中的每个二元赋值以生成特征向量。例如，可将第一二进制值（例如，1）赋予该名字中出现的每个二元，并可将另一二进制值（例如，0）赋予该名字中未出现的每个二元。

更具体而言，参考图5，使并行名字对中的每个名字经受特征提取来产生表示该名字的二进制特征向量，包括：分别对于每种语言，首先从该语言的规定数量的名字中提取规定的特征来产生专用于该语言的一组特征（500）。然后为所提取的特征建立规定的次序（502）。接下来，被产生的特征向量的位位置被等同于所建立的次序中的每个被提取的特征（504）。选择所考虑的该语言中的每一并行名字对中的先前未选择的名字（506），以及标识所选名字中存在的、与所考虑的该语言专用的该组特征中的特征相对应的规定的特征中的每一个（508）。随后生成所选择的名字的特征向量，以便与在所选择的名字中找到的特征相对应的位位置被赋予第一二进制值，而与未在所选择的名字中找到的特征相对应的位位置赋予第二二进制值（510）。接下来，确定来自所考虑的该语言中的每一并行名字对中的名字是否已被选择并处理（512）。如果否，则重复动作（506）到（512）。否则所考虑的该语言的过程终止，而处理另一语言中的名字。

1.2学习散列函数

一旦已为一组并行表示或视图形成特征向量后，就为每个语义对象计算散列函数。在其中该组并行视图是两种语言（比如说英语和卡纳达语）中的一组并行名字的示例中的示例中，在一个实施例中，英语的散列函数采用英语的名字作为输入并产生K位二进制码，其中K>0。类似地，卡纳达语的散列函数采用卡纳达语的名字作为输入并产生K位二进制码，其中K>0。期望的是，独立于语言或脚本，上述散列函数使得为类似名字产生的二进制码是类似的。从而，名字“Rashid”和

（它们分别是英语和卡纳达语中的相同的名字）将被这两个散列函数映射到类似的二进制码，而Rashid和

（它们是不类似的名字）将被这两个散列函数映射到不类似的二进制码。

在一个实现中，K位散列函数，例如用于一语义对象的第一表示或视图的g，以及用于该语义对象的第二表示或视图的h，是由K个1位散列函数构成的，如下：

g(·)＝(g₁(·)，...，g_K(·))^T (1)

h(·)＝(h₁(·)，...，h_K(·))^T (2)

如稍后将描述的，每个1位散列函数被设计为采用语义对象作为输入并将它散列为+1或-1（或等同地1或0）。用K个1-位散列函数中的每一个来将该对象散列并将各位串联在一起，产生表示该对象的K位二进制码。将语义对象表示为二进制码具有许多优点，包括能够使用传统的汉明（Hamming）距离计算来确定所述二进制表示中的两个之间的类似度。如稍后将更详细地描述的，这使得搜索更快且更高效，尤其是在涉及大数据库的情况下。

挑战是找到使得训练数据中的并行对象（例如，名字）之间的汉明距离最小化的散列函数g和h。更具体而言，任务是从由并行对象构成的训练数据中学习前面提到的K个一位散列函数。该任务可被陈述为以下优化问题：

最小化：

Σ_{i = 1}^{N} {| | g (x_{i}) - h (y_{i}) | |}^{2} - - - (3)

该问题在计算上简化的最大化公式中为：

最大化：

Σ_{i = 1}^{N} g {(x_{i})}^{T} h (y_{i}) - - - (4)

其中N是指并行对象对的数量，x_i是所考虑的并行对象的第一视图（例如，人的名字的英语版本）的特征向量，而y_i是所考虑的并行对象的另一视图（例如，人的名字的卡纳达语版本）的特征向量。

此外，期望的是散列函数具有被编码为约束的某些有利属性。首先，散列函数可产生中心化的（centered）结果，在于所得到的二进制散列码中所产生的位中的约50%会是+1，而剩余的是-1。如此，

\frac{1}{N} Σ_{i = 1}^{N} g (x_{i}) = \overset{&RightArrow;}{0}

以及(5)

\frac{1}{N} Σ_{i = 1}^{N} h (y_{i}) = \overset{&RightArrow;}{0} . - - - (6)

此外，所得到的二进制散列码中所产生的位不相关是有利的。从而，

\frac{1}{N} Σ_{i = 1}^{N} g (x_{i}) g {(x_{i})}^{T} = I

以及(7)

\frac{1}{N} Σ_{i = 1}^{N} h (y_{i}) h {(y_{i})}^{T} = I - - - (8)

其中g(x_i)∈{±1}^K，而h(y_i)∈{±1}^K。

为了使在计算上更易于获得1位散列函数，采用线性张驰，以使得：

g(x_i)＝A^Tx_i以及(9)

h(y_i)＝B^Ty_i (10)

其中A和B表示变换。

从而，在最终形式中，该优化问题可被公式化为：

最大化：迹(A^TXY^TB),(11)

这仍旧经受前述中心化的约束和不相关位约束，其现在可被公式化为：

A^TXX^TA＝I 以及(12)

B^TYY^TB＝I (13)

变换A和B使得两个不同表示或视图的（例如，两种不同语言的）类似的对象（例如，人的名字）被该K位散列函数映射到类似的二进制散列码。使用前面提到的并行对象训练组和相关方法来学习这种变换是可能的。

在一个实施例中，通过将一组特征向量中的每一并行对象对视为该相同语义对象的两个表示或视图，采用典型相关分析（CCA）来寻找变换A和B是可能的。更具体而言，给定具有两个视图的多变量数据的样本，CCA为每个视图寻找线性变换以使得这两个视图的投影之间的相关被最大化。考虑多变量数据的样本

其中

和

是该对象的两个视图。令

且

假定X和Y是中心化的，即，它们具有平均值0。令a和b是两个方向。那么，X可被投影到方向a上以得到

其中u_i＝a^Tx_i。类似地，Y可被投影到方向b上以得到投影

其中v_i＝b^Ty_i。CCA的目标是找到一对方向（a;b），使得投影U和V是最大相关的。这通过求解以下优化问题来实现。

ρ = \max_{(a, b)} \frac{(X_{a}, Y_{b})}{| | X_{a} | | | | Y_{b} | |} = \max_{(a, b)} \frac{a^{T} {XY}^{T} b}{\sqrt{a^{T} {XX}^{T} a} \sqrt{b^{T} {YY}^{T} b}} - - - (14)

等式11的前述目标函数可通过求解下面的广义特征值问题来最大化：

XY^T(YY^T)^-1YX^Ta＝λ²XX^Ta (15)

(YY^T)^-1YX^Ta＝λb (16)

后续基本向量可通过向该目标函数添加基本约束的正交来寻找。尽管基本向量的数量可以高达min{秩(X)，秩(Y)}，但在实践中，使用较小数量的首先生成的基本向量（被称为“顶层”基本向量），因为对于这些向量来说投影的相关很高而对于剩余的向量来说投影的相关较低。此外，在顶层基本向量中，期望采用顺序地最大化等式(12)并符合前面提到的中心化和非相关位约束的那些基本向量。为此目的，令A和B是由CCA计算的第一K>0（例如，32）基本向量。从而，A和B可被表达为：

A＝(a₁，...，a_K)以及 (17)

B＝(b₁，...，b_K), (18)

其中a_i和b_i，i＝1，...,K是单独的变换（即，基本向量）。

鉴于以上描述，参考图6，在一个实现中，基于表示并行语义对象对的特征向量为第一表示或视图建立规定数量的变换并为第二表示或视图建立相同数量的变换涉及：首先使用CCA为所述第一和第二表示或视图中的每一个计算候选变换（600）。随后从为第一表示或视图计算的候选变换建立第一表示或视图的第一组变换，并从为第二表示或视图计算的候选变换建立第二表示或视图的第二组变换。所建立的变换使得，当对于所述并行语义对象对中的每一对，第一组变换被应用于表示该并行语义对象对的呈现该第一表示或视图的语义对象的特征向量，且第二组变换被应用于表示该并行语义对象对的呈现该第二表示或视图的语义对象的特征向量时，为所有并行语义对象对产生的所得到的第一和第二二进制散列码之间的组合汉明距离被最小化。此外，建立第一组变换以呈现如下约束：所产生的第一二进制散列码的位中的大约一半呈现一第一二进制值而剩余的位呈现另一二进制值。同样，建立第二组变换以呈现如下约束：所产生的第二二进制散列码的位中的大约一半呈现一第一二进制值而剩余的位呈现另一二进制值。此外，建立第一组变换以呈现如下约束：所产生的第一二进制散列码的位是不相关的，并且建立第二组变换以呈现如下约束：所产生的第二二进制散列码的位是不相关的。

1.3生成二进制散列码

从并行对象训练对计算的变换A和B被用作1位散列函数，来从表示与用于产生该变换的表示/视图（例如，语言）相关联的语义对象的特征向量产生二进制散列码。从而，在前述示例中，A可被用来从表示人的英语名字的特征向量产生二进制散列码，而B可被用来从表示人的卡纳达语名字的特征向量产生二进制散列码。

更具体而言，在一个实施例中，所述变换被用来从表示语义对象的特定表示/视图的特征向量，通过应用与该表示/视图相关联的1位散列函数（例如，a_i，其中i=1，...,K）来产生二进制散列码。对于所应用的每个1位散列函数，初始结果将是正数或负数（由于中心化约束）。该初始结果随后通过应用符号函数（sgn）而被二进制化，该符号函数将第一二进制值赋予正数而将另一二进制值赋予负数。从而，例如，+1或1的二进制值可被赋予正数而-1或0的二进制值可被赋予负数。由每个1位散列函数生成的所得到的最终二进制值被与其他二进制值按规定次序串接，以产生表示所考虑的语义对象的最终二进制散列码。注意，前面提到的规定的次序是任意的，只要它一旦建立就不会改变。

在其中对象是人的名字而两个表示/视图是所述名字的英语和卡纳达语版本的示例中，对特定名字（诸如英语的Rashid和卡纳达语的

）的二进制散列码的前述生成可以如下地实现：

g(Rashid)＝(g₁(Rashid)，...，g_K(Rashid))^T (19)

其中

g_{i} (Rashid) = sgn (a_{i}^{T} φ (Rashid))

for i＝1，...,K而(20)

其中

对于i=1，....,K (22)

在等式(19)-(22)中，φ(Rashid)是指为英语名字Rashid生成的特征向量，

是指为卡纳达语名字

生成的特征向量，以及

注意，当j<0时，如果需要，二进制化的sgn函数可替代地产生位值0而不是值-1。

2.0索引和搜索目录

以上面描述的方式产生的每个二进制散列码可被添加到与用于产生所述散列码的变换相关联的表示或视图（例如，语言）的语义对象（例如，人的名字）的数据库目录中。这创建了可搜索的数据库，其中该数据库中的项是呈现第一表示或视图的语义对象，而其中呈现第二表示或视图的语义对象当作为搜索查询被呈现给该可搜索数据库时，导致包括来自该数据库的与该搜索查询的语义对象相对应的任何语义对象的标识的输出。

上述动作可通过首先索引该数据库的目录来实现。一般而言，给定语义对象目录（例如，人的名字的目录），在一个实施例中，可如下地对其进行索引：首先，对于该目录中所列出的每个对象，如先前描述地形成其特征向量。为该目录的两个伴随表示/视图（例如，英语-卡纳达语）中的特定表示/视图（例如，英语）开发的K位散列函数随后被用来计算每个对象的K位二进制码。该散列函数具有被用来计算另一表示/视图（例如，卡纳达语）的二进制码的伴随函数。每个对象列表随后被插入到散列表中，其中与其相关联的其二进制码作为键。

更具体而言，参考图7，为第一表示或视图建立的变换被用来以表示该语义对象的第一二进制散列码的形式表征数据库中所包括的呈现第一表示或视图的语义对象（700）。注意，在图2及其相关描述中概述了该过程的一个实现。接下来，表征该数据库中所包括的语义对象的第一二进制散列码分别与它在该数据库中的相应语义对象相关联（702）。参考图8，在一个实现中，该最后一个动作涉及首先建立散列表，该散列表具有与该数据库中包括的语义对象相对应的数据库目录条目（800）。表征该数据库中所包括的语义对象中的每一个的第一二进制散列码随后被添加到该散列表（802），且每一个与其在该散列表中的相应数据库目录条目相关联（804）。

一旦已如上所述地索引了该目录中的语义对象列表后，可使用查询来搜索该目录。此查询可以是所述表示/视图中的任一个的（例如，英语或卡纳达语）。更具体而言，查询被输入，并首先使用适于该查询的表示/视图的过程来从该查询生成特征向量。随后使用该查询的表示/视图的适当的K位散列函数从该查询的特征向量计算K位二进制码。接下来，计算该查询的K位二进制码与散列表中的键中的每一个的类似度。注意，在其中该查询是处于与用于索引该目录的K位散列函数相关联的相同表示或视图（例如，英语的）的前述示例中，这等于单语搜索并且对拼写纠正用途有用。

鉴于上面的描述，参考图9，在一个实现中，当呈现前面提到的第二表示或视图的搜索查询被输入到数据库中时（900），生成表示该搜索查询的特征向量（902）。为第二表示或视图建立的变换中的先前未选择的一个变换随后被选择（904）。所选择的变换被应用到该搜索查询特征向量，并且结果被二进制化，以产生表示该搜索查询的第二二进制散列码的位（906）。接下来确定是否所有变换均已被选择（908）。如果否，则重复动作（904）到（908）。当所有变换均已被选择并应用时，所述变换所产生的位被以规定次序串接，以产生表示该搜索查询的第二二进制列码（910）。接下来，寻找该数据库中所包括的其第一二进制散列码呈现出与表示该搜索查询的第二二进制散列码的规定类似度的一个或多个语义对象（912）。发现其第一二进制散列码呈现与表示该搜索查询的第二二进制散列码的规定类似度的一个或多个匹配语义对象的标识随后被输出（914）。

注意，尽管可采用任何适当的类似性度量，然而在一个实现中使用汉明距离作为度量。使用汉明距离是适当的，因为查询和索引键两者均是二进制码而汉明距离可被用来快速而容易地比较两个二进制码。将目录中的语义对象和查询表示为二进制码并使用汉明距离作为类似性度量具有明显的优点。即使该目录中列举了数百万个对象，仍可采用蛮力比较，其中分别计算该查询和键中的每一个之间的汉明距离，并且整个过程花费的时间小于1秒。从而，搜索该目录是快速的，并且除非另外需要，不需要采用更复杂的类似性度量和比较方法。在查询和键中的每一个之间计算出的类似度随后被用来标识一个或多个最接近的匹配键。在一个实现中，仅标识该最接近的匹配键（或如果有平手则标识多个最接近的匹配键）。然而，在替代实现中，标识对该查询的类似度超出类似性阈值的所有键。注意，在汉明距离的情况下，距离等于或小于规定距离的所有键均会被标识。阈值值将取决于所涉及的语义对象的类型和搜索所需的精确度。在一个实现中，该类似性阈值将被设置为使得前5-10个结果被标识并被输出。

3.0多部分对象表征和搜索

至此，本文描述的语义对象表征处理单部分（single-part）语义对象的表征。例如，单个词的名字。然而，可将其扩展以处理多部分对象，诸如多个词的名字。常见示例将是人的名和姓。这会构成双词名字。当在目录中搜索人的名字时，使用他们的全名可能是有利的。

在一个实施例中，构成对象的多个部分可通过组合这些部分而被认为是单部分对象。例如，人的名和姓可被简单地组合为单个词并用该形式来表征。为了用多部分查询在多部分对象已被组合并以单部分形式表征的目录中进行搜索，该查询的各部分在被表征和提交之前被组合。

然而，在替代实施例中，多部分语义对象的每个部分被分开地表征并索引。那么，多部分对象查询的各个部分被分开地表征且为每个部分返回的类似性度量被组合以产生总的类似性度量。在一个实现中，这通过从为多部分对象查询的每个部分返回的类似性度量构造加权二分图来实现。

参考图10，在后一个实施例的一个实现中，由多个语义对象构成的搜索查询被输入（1000）。随后对该搜索查询的多个语义对象的每一个执行图9的先前描述的过程。从而，对于该搜索查询中的每个语义对象，输出是一个或多个匹配语义对象的标识（1002）。接下来，构造加权二分图（1004）。在此图中，该搜索查询的语义对象中的每一个形成第一组节点，而为该搜索查询的语义对象中的每一个输出的一个或多个所标识的匹配语义对象是第二组节点。此外，如果基于其二进制散列码，在与第一组节点相关联的每个语义对象和与第二组节点相关联的语义对象之间计算的类似度超出阈值，则在所述语义对象之间分配边。边的权重被设置为等于它连接的节点之间的类似度。一旦该图被构造之后，在该图中找到最大加权二分图匹配（1006），并且计算该匹配的权重（1008）。随后基于第一和第二组节点之间的节点数量的差来对该匹配的权重标准化（1010）。

按照数学术语，使用语义对象为人的名字而两个表示或视图是不同语言的示例，可将上述内容描述如下。令E=e₁,e₂，...,e_I为多词英语名字且为H=h₁,h₂，...,h_I多词卡纳达语名字。加权二分图G＝(S∪T，W)具有用于E中的第i个词e_i的节点s_i和用于H中的第j个词h_j的节点t_j。边(s_i，t_j)的权重被设为w_ij，该权重对应于节点s_i和t_j之间的类似度（例如，基于为所述节点计算的二进制散列码之间的汉明距离）。

令w为图G中的最大加权二分匹配的权重。E和H之间的类似性然后可被定义如下：

\frac{w}{| I - J | + 1} - - - (24)

方程(24)的右手侧的分子偏向在各个级别上具有很多高质量匹配的名字对，而分母惩罚具有不成比例的长度的对。

注意，在实践中，I和J两者均很小，并且因此可以很容易地找到最大加权二分匹配。此外，二分图中的大多数边小到可以忽略不计。因此，在实践中甚至是贪婪匹配算法也足够了。

4.0计算环境

现在将描述其中可实现本文所描述的语义对象表征和搜索实施例的各部分的合适计算环境的简要、一般描述。各技术实施例可用于众多通用或专用计算系统环境或配置。适合的公知计算系统、环境和/或配置的示例包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型计算机、包括以上系统或设备的任一个的分布式计算环境等等。

图11示出合适的计算系统环境的示例。计算系统环境仅为合适的计算环境的一个示例，并非旨在对此处所描述的实施例的使用范围或功能提出任何限制。也不应将该计算环境解释为对示例性操作环境中示出的任一组件或其组合有任何依赖性或要求。参考图11，用于实现此处所描述的各实施例的示例性系统包括计算设备，诸如计算设备10。在其最基本的配置中，计算设备10通常包括至少一个处理单元12和存储器14。取决于计算设备的确切配置和类型，存储器14可以是易失性的（如RAM）、非易失性的（如ROM、闪存等）或是两者的某种组合。该最基本配置在图11中由虚线16来示出。另外，设备10还可具有附加特征/功能。例如，设备10还可包含附加存储（可移动和/或不可移动），包括但不限于磁盘、光盘或磁带。这样的附加存储在图11中由可移动存储18和不可移动存储20例示。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术来实现的易失性和非易失性、可移动和不可移动介质。存储器14、可移动存储18和不可移动存储20都是计算机存储介质的示例。计算机存储介质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘（DVD）或其它光存储、磁带盒、磁带、磁盘存储或其它磁存储设备、或者可用于存储所需信息并且可由设备10访问的任何其它介质。任何这样的计算机存储介质都可以是设备10的一部分。

设备10还可包含允许该设备与其它设备通信的通信连接22。设备10还可以具有诸如键盘、鼠标、笔、语音输入设备、触摸输入设备、照相机等输入设备24。还可以包括诸如显示器、扬声器、打印机等输出设备26。所有这些设备在本领域是众知的并且不必在此详细讨论。

此处所描述的语义对象表征和搜索实施例还可在由计算设备执行的诸如程序模块等计算机可执行指令的一般上下文中描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。此处所描述的各实施例还能在其中任务由通过通信网络链接的远程处理设备完成的分布式计算环境中实现。在分布式计算环境中，程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。

5.0其他实施例

除了前面的描述中所描述的名字-语言示例之外，语义对象和表示或视图的某些其他示例包括其中语义对象是用户所查询的实体而两个表示或视图来自关于该实体的网页的图像特征和文本特征的情形。从而，对于相同的语义对象，存在可用于改善多模态搜索操作的两个视图。另一个示例是该语义对象是文档而所述两个表示或视图是第一语言的该文档和第二语言的该文档。在从一组两种语言的对齐的并行文档学习散列函数后，使用所述散列函数以任一种语言进行文档集合的跨语言搜索是可能的。又一个示例是该语义对象为词而其两个视图是该词的字符序列和音素序列。在从发音词典学习散列函数后，有可能使用它们来为文本中见到的词汇表中没有的词在该词典中搜索最近的音素序列。

应当注意，可以按所需的任何组合来使用本说明书全文中的上述实施例的任一个或全部以形成另外的混合实施例。另外，尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。更确切而言，上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims

1.一种计算机实现的过程，用于以表示语义对象的第一二进制散列码的形式表征所述语义对象的第一表示或视图，以便当与以表示所述语义对象的第二二进制散列码的形式的、相同语义对象的第二表示或视图的被表征版本相比较时，所述第一和第二二进制散列码呈现指示所述对象是相同对象的类似度，所述过程包括：

使用计算机来执行以下过程动作：

输入并行语义对象对，其中一对并行语义对象包括以所述第一和第二表示或视图呈现的相同语义对象；

使每一并行语义对象对中的每个语义对象经受特征提取，以产生表示所述语义对象的特征向量；

基于表示所述并行语义对象对的所述特征向量，来为所述第一表示或视图建立规定数量的变换并为所述第二表示或视图建立相同数量的变换，其中为所述第一或第二表示或视图中的一个所建立的变换在被应用到表示呈现所述表示或视图的语义对象的特征向量时，产生表示所述语义对象的第一二进制散列码，所述第一二进制散列码基本类似于表示所述语义对象的第二二进制散列码，所述第二二进制散列码是在为所述第一或第二表示或视图中的另一个所建立的变换被应用到表示呈现所述另一个表示或视图的相同语义对象的特征向量时产生的；以及

使用为所述第一表示或视图所建立的变换来将呈现所述第一表示或视图的语义对象表征为表示所述语义对象的所述第一二进制散列码。

2.如权利要求1所述的过程，其特征在于，使用为所述第一表示或视图所建立的变换来将呈现所述第一表示或视图的语义对象以表征为表示所述语义对象的第一二进制散列码的形式的过程动作包括以下动作：

使所述语义对象经受与应用到每一并行语义对象对中呈现所述第一表示或视图的语义对象的特征提取相同的特征提取，以产生表示该语义对象的特征向量；

对于为所述第一表示或视图所建立的变换中的每一个，将所述变换应用到表示所述语义对象的特征向量，并二进制化结果，以产生表示所述语义对象的第一二进制散列码的位；以及

按规定次序串接所产生的位以产生表示所述语义对象的第一二进制散列码。

3.如权利要求1所述的过程，其特征在于，使每一并行语义对象对中的每个语义对象经受特征提取以产生表示所述语义对象的特征向量的过程动作包括：产生二进制特征向量或实值特征向量中的一个的动作。

4.如权利要求3所述的过程，其特征在于，使每一并行语义对象对中的每个语义对象经受特征提取以产生表示该语义对象的特征向量的过程动作包括：使用维度减少技术产生较低维度的表示的动作。

5.如权利要求1所述的过程，其特征在于，基于表示所述并行语义对象对的特征向量，为所述第一表示或视图建立规定数量的变换，并为所述第二表示或视图建立相同数量的变换的过程动作包括以下动作：

使用典型相关分析为所述第一和第二表示或视图中的每一个计算候选变换；

从为所述第一表示或视图计算的候选变换建立用于所述第一表示或视图的第一组变换，并从为所述第二表示或视图计算的候选变换建立用于所述第二表示或视图的第二组变换，对于所述并行语义对象对中的每一对，当所述第一组变换被应用到表示所述并行语义对象对中呈现所述第一表示或视图的语义对象的特征向量，而所述第二组变换被应用到表示所述并行语义对象对中呈现所述第二表示或视图的语义对象的特征向量时，为所有并行语义对象对产生的所得到的第一和第二二进制散列码之间的组合汉明距离被最小化。

6.如权利要求5所述的过程，其特征在于，基于表示所述并行语义对象对的特征向量，为所述第一表示或视图建立规定数量的变换并为所述第二表示或视图建立相同数量的变换的过程动作还包括以下动作：

建立所述第一组变换以呈现如下约束：所产生的所述第一二进制散列码的位中的大约一半呈现第一二进制值而剩余的位呈现另一二进制值；以及

建立所述第二组变换以呈现如下约束：所产生的所述第二二进制散列码的位中的大约一半呈现所述第一二进制值而剩余的位呈现所述另一二进制值。

7.如权利要求6所述的过程，其特征在于，基于表示所述并行语义对象对的特征向量，为所述第一表示或视图建立规定数量的变换并为所述第二表示或视图建立相同数量的变换的过程动作还包括以下动作：

建立所述第一组变换以呈现如下约束：所产生的所述第一二进制散列码的位是不相关的；以及

建立所述第二组变换以呈现如下约束：所产生的所述第二二进制散列码的位是不相关的。

8.一种用于创建可搜索数据库的计算机实现的过程，其中所述数据库中的项是呈现第一表示或视图的语义对象，且其中与所述数据库中包括的一语义对象相同但是呈现第二表示或视图的语义对象当作为搜索查询被呈现给所述可搜索数据库时，导致输出包括与所述搜索查询的所述语义对象相对应的、呈现所述第一表示或视图的语义对象的标识，所述过程包括：

使用计算机来执行以下过程动作：

为所述第一表示或视图建立规定数量的变换，并为所述第二表示或视图建立相同数量的变换，其中为所述第一或第二表示或视图中的一个所建立的变换在被应用到表示呈现所述表示或视图的语义对象的特征向量时，产生表示所述语义对象的第一二进制散列码，所述第一二进制散列码基本类似于表示所述语义对象的第二二进制散列码，所述第二二进制散列码是在为所述第一或第二表示或视图中的另一个所建立的变换被应用到表示呈现所述另一个表示或视图的相同语义对象的特征向量时产生的；以及

使用为所述第一表示或视图所建立的变换来将所述数据库中所包括的语义对象中的每一个以表示该语义对象的第一二进制散列码的形式表征，其中表征所述数据库中包括的一语义对象的第一二进制码与表征所述数据库中包括的其他语义对象的第一二进制码明显不同；以及

分别使表征所述数据库中包括的语义对象的每一个的第一二进制散列码与它在所述数据库中的相应的语义对象相关联。

9.如权利要求8所述的过程，其特征在于，还包括以下过程动作：

只要呈现所述第二表示或视图的搜索查询被输入到数据库时，

生成表示所述搜索查询的特征向量；

对于为所述第二表示或视图所建立的变换中的每一个，将所述变换应用到表示所述搜索查询的特征向量，并二进制化该结果，以产生表示所述搜索查询的第二二进制散列码的位；

按规定次序串接所产生的位，以产生表示所述搜索查询的第二二进制散列码；

寻找所述数据库中所包括的、其第一二进制散列码呈现出与表示所述搜索查询的第二二进制散列码的规定类似度的一个或多个语义对象；以及

输出所述数据库中所包括的、其第一二进制散列码被发现呈现出与表示所述搜索查询的第二二进制散列码的规定类似度的一个或多个匹配语义对象的标识。

10.如权利要求9所述的过程，其特征在于，寻找所述数据库中所包括的、其第一二进制散列码呈现出与表示所述搜索查询的第二二进制散列码的规定类似度的一个或多个语义对象的过程动作包括以下动作：

分别计算表示所述搜索查询的第二二进制散列码和与所述数据库中所包括的语义对象中的每一个相关联的第一二进制散列码之间的汉明距离值；

寻找所述数据库中所包括的、其第一二进制散列码呈现出其与表示所述搜索查询的第二二进制散列码之间的汉明距离最小的所述一个或多个语义对象。

11.如权利要求9所述的过程，其特征在于，寻找所述数据库中所包括的、其第一二进制散列码呈现出与表示所述搜索查询的第二二进制散列码的规定类似度的一个或多个语义对象的过程动作包括以下动作：

寻找所述数据库中所包括的、其第一二进制散列码呈现出其与表示所述搜索查询的第二二进制散列码之间的汉明距离落在汉明阈值以下的所述一个或多个语义对象。

12.如权利要求9所述的过程，其特征在于，输入到所述数据库的搜索查询包括已被组合为单个语义对象的多个语义对象，并且其中所述数据库中所包括的语义对象中的至少一些是已被组合成单个语义对象的多个语义对象。

13.如权利要求9所述的过程，其特征在于，输入到所述数据库的所述搜索查询包括多个语义对象，并且其中对所述搜索查询的多个语义对象中的每一个重复所述特征向量生成、变换应用和二进制化、串接、寻找和输出过程动作，并且其中所述过程还包括以下过程动作：

构造加权二分图，其中所述搜索查询的语义对象中的每一个形成所述图的第一组节点，而为所述搜索查询的语义对象中的每一个输出的一个或多个所标识的匹配语义对象是所述图的第二组节点；

分别计算与所述第一组节点相关联的语义对象中的每一个的二进制散列码和与所述第二组节点相关联的语义对象中的每一个的二进制散列码之间的类似度，如果所述类似度不是已知的；

如果基于其二进制散列码的、在与所述第一组节点相关联的每个语义对象和与所述第二组节点相关联的语义对象之间计算的类似度超出阈值，则在所述语义对象之间分配边；

寻找所述图中的最大加权二分图匹配；

计算所述匹配的权重；

基于所述第一和第二组节点之间的节点数量的差来对所述匹配的权重标准化。

14.如权利要求8所述的过程，其特征在于，分别使表征所述数据库中所包括的语义对象中的每一个的第一二进制散列码与其在所述数据库中的相应的语义对象相关联的过程动作包括以下动作：

建立散列表，所述散列表包括与所述数据库中所包括的语义对象相对应的数据库目录条目；

将表征所述数据库中所包括的语义对象中的每一个的第一二进制散列码添加到所述散列表；以及

使表征所述数据库中包括的语义对象的每一个的第一二进制散列码与其在所述散列表中的相应的数据库目录条目相关联。

15.一种计算机实现的过程，用于将第一语言的人的名字以表示所述名字的第一二进制散列码的形式来表征，以便当将其与第二语言的相同名字的、以表示所述名字的第二二进制散列码的形式表征的版本相比较时，所述第一和第二二进制散列码呈现出指示所述名字是相同名字的类似度，所述过程包括：

使用计算机来执行以下过程动作：

输入并行名字对，其中每一并行名字对包括以所述第一和第二语言呈现的人的名字，且其中每一并行名字对对应于不同的名字；

使每一并行名字对中的每个名字经受特征提取来产生表示所述名字的二进制特征向量；

基于表示所述并行名字对的所述特征向量，为所述第一语言建立规定数量的变换并为所述第二语言建立相同数量的变换，其中为所述第一或第二语言中的一个所建立的变换在被应用到表示所述语言的名字的特征向量时，产生表示所述名字的第一二进制散列码，所述第一二进制散列码基本类似于表示所述名字的第二二进制散列码，所述第二二进制散列码是在为所述第一或第二语言中的另一个所建立的变换被应用到表示所述另一个语言的相同名字的特征向量时产生的；以及

使用为所述第一语言所建立的变换来将所述第一语言的人的名字表征为表示所述名字的第一二进制散列码。