CN103649905A

CN103649905A - 用于统一信息表示的方法和系统及其应用

Info

Publication number: CN103649905A
Application number: CN201180070731.8A
Authority: CN
Inventors: 罗伯特·索尔梅; 阮文
Original assignee: TEXTWISE LLC
Current assignee: TEXTWISE LLC
Priority date: 2011-03-10
Filing date: 2011-03-10
Publication date: 2014-03-19
Anticipated expiration: 2031-03-10
Also published as: EP2684117A1; EP2684117A4; US20120233127A1; CN103649905B; WO2012121728A1; US8548951B2; CA2829569C; CA2829569A1

Abstract

一种用于信息搜索和检索的方法、系统和程序。接收并处理查询以生成表征该查询的基于特征的向量。随后根据基于特征的向量创建统一表示，其合并查询的基于语义和特征的表征。根据查询的统一表示随后从信息档案检索与查询相关的信息。根据检索出的与查询相关的信息而生成查询响应，其随后被传送以对查询做出响应。

Description

用于统一信息表示的方法和系统及其应用

背景

1.技术领域

本发明涉及用于数据处理的系统、方法和编程。特别是，本发明目的在于用于数字数据表征的方法、系统和编程和合并其的系统。

2.技术背景的讨论

因特网世界中的进步使产生位于世界上任何地方的用户可访问的大量的信息变得可能。随着信息的激增，出现了新的问题。首先，面对所有可用的信息，如何有效地和高效地识别感兴趣数据提出重要的挑战。在以更加系统化的方式组织大量的信息以促进信息的搜索方面下了很大工夫。循著那个方针，已经开发了不同的技术以将内容分类为有意义的类别，以便于促进随后的搜索或查询。在内容上施加组织和结构使实现更有意义的搜索和推广更有针对性的商业活动成为可能。

除将内容分类之外，还努力寻求数据的有效表示，使得关于搜索和/或查询的处理可以更有效，以便识别用户正在请求什么。例如，在文本数据的上下文中，传统的信息检索（IR）系统依赖于将查询中的特定关键字与文档中的关键字相匹配以找出文档集中的最相关的文档。这在图1（a）（现有技术）中示出，其中输入文档110由关键字提取器120分析，其产生输入文档110的基于关键字的表示。有许多与基于关键字的方法相关联的公知的检索模型，包括向量空间模型、概率模型和语言模型。基于语言模型的IR方法包括使用例如一元文法、二元文法、N元文法或话题。尽管这种基于语言模型的方法在IR领域中引起很多关注，但是它们仍然具有各种限制。实际上，比简单的基于一元文法的模型更复杂的语言模型的使用由于计算复杂性而常常被限制。与传统的基于关键字的方法相关联的另一个缺点与关键字的同义性和多义性有关。

为了结合基于关键字的方法减轻这些缺点，开发出基于输入文档的语义的数据表示和搜索。在基于语义的系统中，焦点从关键字转移至文档的含义。这在图1（b）（现有技术）中示出，其中输入文档160首先由特征提取器170分析以产生特征向量。特征向量然后从特征提取器170转发到分析输入数据并确定输入文档的语义的语义估计器180。语义估计器产生输入文档160的基于语义的表示。这种基于语义的表示可以被存储和在以后的搜索中使用。在实现语义估计器180时，采用自然语言处理技术来理解在查询和文档中的每一个检索词的含义。

这种技术有时使用分类法或本体资源，以便获得更精确的结果。在这种系统中所涉及的大量的努力促进可以学习来自文档集的检索词或文档的含义的自动化方法的开发。例如，开发了用于学习并随后提取给定文档的语义的所谓的自动编码器（在本领域中已知的）。这种自动编码器可以用于实现语义估计器180。在这种情况下，自动编码器采用图1（b）所示的特征向量作为输入，并随后识别表示输入文档160的语义的最相关的特征。

自动编码器使用人工神经网络来学习有效编码。通过学习一组数据的压缩表示，自动编码器提供用于维数减缩和特征提取的手段。自动编码器的概念最初用于成像压缩和解压缩。最近，自动编码器被采用并应用于文本信息以学习在文本集中的语义特征。从自动编码器输出的紧致语义代码既可以用来表示基本的文本信息又可以用来识别类似的文档。由于自动编码器的输入维数必须被限制以使训练易于处理的事实，仅有语料库词汇的小子集可以被使用来促成语义代码。由于此，从自动编码器输出的语义代码可能不能充分地捕获输入文档的语义。另外，由于计算的训练成本，在许多检索应用中的文档集往往比实际上进行的训练更经常地被更新。这些限制引起所得到的简缩的语义代码是否在原始特征空间中提供信息的足够精确的表示的问题。

称为可训练的语义向量（TSV）的另一个现有的自动化技术学习从关于一组预定的类别或话题的文档集提取的每个检索词的含义，并为每个文档创建语义向量。然后可以使用这样生成的语义向量来找出类似的文档。然而，TSV是一种监督学习技术，其需要预先分类的文档以便适当地训练该TSV来获得每个检索词的语义表示模型。

称为隐式语义索引（LSI）的另一个自动化方法使用一种可以基于奇异值分解（SVD）的无监督统计学习技术来识别文本集中的隐式语义结构。循著同一方针的主要的发展包括概率隐式语义索引（pLSI）和隐式狄利克雷分布（LDA）。这些类型的方法创建表示查询和文档的隐式语义空间，并使用隐式语义表示来识别相关的文档。这些方法的计算成本禁止在语义空间中使用更高的维数，并且因此限制了它从数据集有效地学习的能力。

上述的现有技术解决方案在实践中都具有限制。因此，需要发展处理这些限制并提供改进的方法。

概述

本文所公开的教导涉及用于内容处理的方法、系统和编程。更特别地，本教导涉及用于异类数据管理的方法、系统和编程。

在一个实例中，描述了一种在具有至少一个处理器、存储器和连接到网络的通信平台的机器上实现的用于数据存档的方法。数据通过通信平台被接收，并根据至少一个模型由特征提取器分析以形成表征该数据的基于特征的向量。根据基于特征的向量随后生成数据的基于语义的表示，并且根据数据的基于语义的表示创建基于特征的向量的重建。然后，一个或多个残余特征被识别以形成数据的基于残余特征的表示，其中根据基于特征的向量和基于重建特征的向量之间的比较来选择所述一个或多个残余特征。然后，根据基于语义的表示和基于残余特征的表示创建统一数据表示。该数据根据其统一表示被存档。

在另一个实例中，描述了一种在具有至少一个处理器、存储器和连接到网络的通信平台的机器上实现的用于数据存档的方法。通过通信平台接收的数据根据至少一个模型被分析以生成表征该数据的基于特征的向量。根据基于特征的向量随后生成数据的基于语义的表示，并且根据数据的基于语义的表示创建基于特征的向量的重建。通过根据基于重建特征的向量修改基于特征的向量创建基于模糊特征的表示，并且根据基于模糊特征的表示可以创建统一数据表示。数据随后根据统一数据表示被存档。

在不同的实例中，公开了一种在具有至少一个处理器、存储器和连接到网络的通信平台的机器上实现的用于信息搜索和检索的方法。查询通过通信平台被接收，并被处理以提取表征该查询的基于特征的向量。根据基于特征的向量创建查询的统一表示，其中统一查询表示合并查询的基于语义和特征的表征。根据查询的统一表示，与查询相关的信息随后从信息档案被检索，由此，查询响应从与查询相关的信息被识别。这样识别的查询响应被随后传送以对查询做出响应。

在不同的实例中，公开了一种用于生成统一数据表示的系统，该系统包括：通信平台，数据通过该通信平台被接收；特征提取器，其被配置成根据至少一个模型分析所接收到的数据以形成表征该数据的基于特征的向量；语义提取器，其被配置成根据基于特征的向量生成数据的基于语义的表示；重建单元，其被配置成根据数据的基于语义的表示产生基于重建特征的向量；残余特征识别器，其被配置成根据基于特征的向量和基于重建特征的向量之间的比较识别的一个或多个残余特征来形成数据的基于残余特征的表示；以及统一表示构建单元，其被配置成根据基于语义的表示和基于残余特征的表示来生成数据的统一表示。

在另一个实例中，公开了一种用于生成统一数据表示的系统，该系统包括：通信平台，其用于获得查询和传送查询响应；查询处理器，其被配置成处理该查询以生成表征该查询的基于特征的向量；查询表示生成器，其被配置成根据基于特征的向量生成查询的统一表示，其中统一表示合并查询的基于语义和特征的表征；候选搜索单元，其被配置成根据查询的统一表示从信息档案检索与查询相关的信息；以及查询响应生成器，其被配置成根据从信息档案检索的与查询相关的信息生成查询响应，并传送该查询响应以对该查询做出响应。

其它的概念涉及用于实现统一表示创建和应用的软件。根据这个概念，软件产品包括至少一个机器可读非临时介质和由该介质携带的信息。由该介质携带的信息可以是关于与请求或操作参数相关联的参数的可执行程序代码数据，例如与用户、请求或社会团体等相关的信息。

在一个实例中，机器可读和非临时介质具有记录在其上的用于数据存档的信息，当该信息被机器读取时使机器执行以下序列的步骤。当数据被接收时，该数据根据一个或多个模型被分析以提取表征该数据的基于特征的向量。根据基于特征的向量，为数据生成基于语义的表示，其捕获该数据的语义。根据基于语义的数据表示创建基于特征的向量的重建，并且根据基于特征的向量和基于重建特征的向量之间的比较选择的一个或多个残余特征可生成基于残余特征的表示。然后，统一数据表示可以根据基于语义的表示和基于残余的表示生成，并用来将数据存档在信息档案中。

在另一个实例中，机器可读和非临时介质具有记录在其上的用于数据存档的信息，当该信息被机器读取时使机器执行以下序列的步骤。所接收的数据根据至少一个模型被分析以提取表征该数据的基于特征的向量，根据基于特征的向量，为数据创建捕获数据的语义的基于语义的表示。然后，根据基于语义的表示生成基于重建特征的向量，并且通过根据基于重建特征的向量修改基于特征的向量而形成数据的基于模糊特征的表示，其被用来生成统一数据表示。该数据根据统一表示被随后存档在信息档案中。

在又一个不同的实例中，机器可读和非临时介质具有记录在其上的用于信息搜索和检索的信息，当该信息被机器读取时使机器执行以下序列的步骤。查询通过通信平台被接收，并被处理以生成表征该查询的基于特征的向量。根据基于特征的向量创建查询的统一表示，其中统一表示合并查询的基于语义和特征的表征。然后，与查询有关的信息根据统一查询表示从信息档案被搜索和检索。额外的优点和新颖特征将在接下来的描述中被部分地阐述，且对本领域中的技术人员在审查下文和附图时将部分地变得明显，或者可通过实例的产生或操作而被了解。本教导的优点可通过方法的各种方面的实践或使用来认识到和获得。

附图简述

本文描述的方法、系统和/或编程进一步在示例性实施方式的方面被描述。参照附图，这些示例性实施方式被详细地描述。这些实施方式是非限制性的示例性实施方式，其中在附图的几个视图中相似的参考数字始终代表类似结构，且其中：

图1（a）和1（b）（现有技术）描述表征数据集的传统的方法；

图2（a）示出了根据本教导的实施方式的具有一个或多个组件的统一表示；

图2（b）示出了根据本教导的实施方式的在统一表示中的一个或多个组件之间的相互依赖关系；

图3（a）示出了根据本教导的实施方式的用于生成数据的统一表示的示例性系统的高级图；

图3（b）是根据本教导的实施方式的用于生成数据的统一表示的示例性过程的流程图；

图4（a）和4（b）示出了根据本教导的实施方式使用经过训练的自动编码器来产生数据的统一表示；

图5（a）示出了根据本教导的实施方式的用于基于信息的统一表示的搜索和检索的示例性系统的高级图。

图5（b）是根据本教导的实施方式的用于基于信息的统一表示的搜索和检索的示例性过程的流程图；

图6（a）示出了根据本教导的实施方式的用于生成查询的统一表示的示例性系统的高级图；

图6（b）是根据本教导的实施方式的用于生成查询的统一表示的示例性过程的流程图；

图7示出了根据本教导的实施方式的示例性的利用自动编码器的、基于统一表示的搜索系统的高级图；

图8示出了根据本教导的实施方式的能够适应地和动态地自发展的示例性基于统一表示的搜索系统的高级图；以及

图9示出了本教导可以被实现的一般的计算机体系结构。

实施方式的详细描述

在下文的详细描述中，作为例子阐述了大量特定的细节，以便提供相关教导的透彻理解。然而，对本领域中的技术人员应明显，可在没有此类细节的情况下实践本教导。在其它实例中，在相对高水平处而不是详细地描述众所周知的方法、过程、组件和/或电路，以便避免不必要地使本教导的方面难理解。

本公开描述了生成数据的统一表示的方法、系统和编程方面，其在信息处理中的实现和应用。如本文所公开的方法和系统目的在于提供一种以更易处理的方式充分地表征基本的信息并允许适应于不同类型的信息的动态变化的信息表示。图2（a）示出根据本教导的实施方式的具有一个或多个组件或子表示的统一表示210。具体地，统一表示210可以包括一个或多个基于语义的表示220、基于残余特征的表示230和基于模糊特征的表示240。在统一表示210的任何特定的例示中，可以存在一个或多个组件或子表示。从信息的一些方面来说，每个子表示（或组件）都可以形成来表征基本的信息。例如，从语义方面来说，基于语义的表示220可以用来表征基本的信息。基于残余特征的表示230可以用来补充未由基于语义的表示220捕获的内容，并且因此，它不可用作对基于语义的表征的替换。基于模糊特征的表示240也可以用来捕获基于语义的表示220和基于残余特征的表示230都不能够表征的一些内容。

尽管组件220-240可以或可以不全都存在于统一表示的任何特定的例示中，但是在这些组件之间可以有一些依赖关系。这在图2（b）中示出，图2根据本教导的实施方式示出统一表示210的组件之间的相互依赖关系。在该图示中，基于残余特征的表示230依赖于基于语义的表示220。即，只有基于语义的表示220存在时，基于残余特征的表示230才存在。另外，基于模糊特征的表示240也依赖于基于语义的表示220的存在。

组件表示之间的依赖关系可以以不同的方式表现。例如，顾名思义，基于残余特征的表示230可以用来补偿另一个组件表示未捕获的内容，例如，补偿基于语义的表示未捕获的内容。在这种情况下，基于残余特征的表示的计算依赖于基于语义的表示，以便于根据基于语义的表示中缺少的内容来确定要补充的内容。类似地，如果基于语义的表示和基于残余特征的表示中的任何一个或者两者都不充分地表征基本的信息，那么基于模糊特征的表示可以用来补偿或补充。在一些实施方式中，一些组件表示之间的依赖关系可以根本不存在。例如，基于模糊特征的表示可以独立于基于语义的表示和基于残余基于特征的表示而存在。尽管本讨论公开了组件表示之间的示例性相互依赖关系，但是应当理解，这样的实施方式仅用作说明而不是限制。

图3（a）示出了根据本教导的实施方式的用于生成某些信息的统一表示的示例性系统300的高级图。在本文所公开的示例性实施方式中，系统300根据如图2（b）所示的组件表示之间的相互依赖关系来处理输入数据302的统一表示350的生成。如本文所讨论的，在组件表示之间的其他的关系也是可能的，这些关系都在本发明的范围内。如所示，系统300包括特征提取器310、语义提取器315、重建单元330、差异分析器320、残余特征识别器325、特征向量模糊单元340和统一表示构建单元345。在操作中，特征提取器310根据存储在存储器305中的一个或多个模型从输入数据302识别各种特征。这种模型可以包括例如基于语料库建立的一个或多个语言模型，其指定可以从输入数据302提取的多个特征。

存储器305还可以存储可由特征提取器310使用以确定什么特征应被计算和多少这样的特征可被计算的其它模型。例如，从存储器305可获得的信息模型可根据从输入数据302提取的特征（例如，一元文法特征、二元文法特征或话题特征）来指定如何计算信息分配向量或信息表示。这样计算的信息分配向量可以用作语义提取器315的输入特征。在通过引用并入本文的标题为“Method and System For Information Modeling andApplications Thereof”的相同发明人的共同待审的专利申请中，公开了与信息模型和其在构建输入数据的信息表示中的应用有关的细节。

如在共同待审的申请中描述的，例如，信息模型可以被特征提取器310使用来生成输入数据302的信息表示。在该信息表示中，有多个属性，每个属性都与根据例如语言模型识别的特定的特征相关联。在该信息表示中的每个属性的值都表示包含在基本输入数据中的总信息的一部分到对应于属性的特定的特征的分配。该部分越大，基本的特征在表征输入数据方面就越重要。一般，大量属性具有零或接近零的分配，即，大多数特征在表征输入数据方面并不是那么重要。

当信息模型由特征提取器310使用时，特征提取器310的输出是输入数据的信息表示。如在共同待审的申请中详细描述的，输入数据302的这样的信息表示提供了用于有条理地组合不同的特征集的平台，所述特征集中的一些在本质上可以是异类的。另外，这种信息表示提供了识别没有将很多信息归属于特定的输入数据（对应于这种特征的属性具有接近零或零的信息分配）的特征的统一方式。因此，这种信息表示也导致例如由语义提取器315以统一的方式执行的所有特征中的有效维数减缩。

根据输入特征（其可以是传统意义上的特征向量或如上所讨论的信息表示），语义提取器315生成基于语义的表示220，其可以包括从描述输入数据302的语义方面来说被认为是特有的一些特征。基于语义的表示通常具有比输入特征的维数低的维数。当语义提取器315仅识别从描述输入数据的语义方面来说是特有的输入特征的一部分时，可以实现维数的减缩。这种减缩可以以不同的方式实现。在一些实施方式中，如果对语义提取器315的输入已经权衡了包括在语言模型中的特征，那么语义提取器315可以忽略具有低于给定阈值的权重的特征。在一些实施方式中，语义提取器315根据学习到的经验或知识（在这种情况下，语义提取器在实际操作中被使用之前被训练）识别对于输入数据的语义是特有的特征。在一些实施方式中，利用权重和学习到的知识的组合使语义提取器315能够选择相关的特征。

在所示的系统300中，基于语义的表示随后由重建单元330使用以重建输入到语义提取器315的特征向量。重建单元330生成重建的特征335。重建的特征的质量根据基于语义的表示的质量而变化。通常，基于语义的表示越好（即，精确地描述输入数据的语义），重建的特征的质量就越高（即，重建的特征接近于语义提取器315的输入特征）。当在输入特征和重建的特征之间存在着大的差异时，它通常指示在描述中实际上重要的或输入数据的语义特有的一些特征以某种方式未由基于语义的表示捕获。这由差异分析器320确定。该差异可以使用可用于评估两个特征向量类似程度的任何技术来确定。例如，输入特征向量（对于语义提取器315）和重建的特征向量335之间的传统的欧几里德距离可以在两个特征向量存在于的高维数空间中被计算出。作为另一个例子，两个特征向量之间的角度可被计算出以评估该差异。用来确定差异的方法可根据基本应用的性质来确定。

在一些实施方式中，根据在输入特征向量和重建的特征向量之间的评估出的差异，可以生成其它的组件表示。在图3（a）所示的系统300中，根据差异分析器320的结果（例如，当观察到显著的差异时，显著性可以根据基本的应用确定），残余特征识别器325被调用以（例如，从输入特征）识别被认为例如属于显著差异的残余特征。这样识别的残余特征可以随后被发送到统一表示构建单元345以便包括在统一表示中。一般来说，这种残余特征对应于包括在语义提取器的输入特征向量中但不存在于重建的特征向量335中的残余特征。那些残余特征可以反映语义提取器315不能够认识到残余特征的重要性，或可以反映由于例如对基于语义表示的维数的限制而将残余特征包括在基于语义的表示中的不可能性。残余特征可根据输入数据或特征（从特征提取器315提取的）的性质而变化。关于残余特征的细节及其与文档输入数据和基于文本的语言模型相关联的识别将在下文中被讨论。

在一些实施方式中，根据差异分析器320的结果，特征向量模糊单元340可以被调用来计算基于模糊特征的表示240。在一些实施方式中，这种模糊特征向量可以被认为是输入特征向量和重建的特征向量335的平滑形式的特征向量。例如，如果重建的特征向量335不包括在输入特征向量中存在的特定特征，平滑的或模糊的特征向量可以包括这种特定的特征但是具有不同的特征值或权重。在一些实施方式中，是否应生成基于模糊特征的表示，可取决于输入数据的特性。在一些情况下，输入数据的形式使得几乎不可能从数据可靠地提取语义。在这种情况下，系统300（未示出）可以被配置成控制以仅生成基于模糊特征的表示。尽管如本文公开的基于模糊特征的表示根据基于语义的表示生成，但是在这种情况下基于语义的表示可以被视为中间结果，并且可以不在输入数据的结果统一表示中被使用。

一旦一个或多个组件表示被计算出，他们就被发送到统一表示构建单元345，其随后根据图2（a）构建输入数据302的统一表示。

图3（b）是根据本教导的实施方式的用于生成数据的统一表示的示例性过程的流程图。输入数据302首先在355由特征提取器310接收。输入数据根据存储在存储器305中的一个或多个模型（例如，语言模型和/或信息模型）被分析以在360生成输入数据的多个特征，并在365形成被输入到语义提取器315的特征向量。当接收到输入特征向量时，语义提取器315在370生成输入数据的语义表示，其随后被用来在375生成重建的特征向量。重建的特征向量在380由差异分析器320分析以评估在输入特征向量和重建的特征向量之间的差异。根据所评估的差异，残余特征被识别并用来在385生成基于残余特征的表示。在一些实施方式中，也可以在390计算包括在输入数据的统一表示中的基于模糊特征的表示。最后，基于迄今为止计算的一个或多个子表示，输入数据302的统一表示在395被构建。

图4（a）示出根据本教导的实施方式的一种示例性配置，在该配置中，用来实现语义提取器315的自动编码器被训练。一般来说，自动编码器是包括多个层的人工神经网络（ANN）。在一些实施方式中，这种ANN包括输入层，并且在输入层中的每个神经元可以对应于例如在图像处理应用中的图像中的像素或从文本处理应用中的文本文档提取的特征。这种ANN也具有一个或多个隐藏层，其可以具有明显较小数量的神经元并起作用来对输入数据编码以产生压缩代码。该ANN也可以包括输出层，其中在输出层中的每个神经元与在输入层中的每个神经元具有相同的意义。在一些实施方式中，这种ANN可以用来产生输入数据的紧致代码（或语义代码或基于语义的表示）和其对应的重建（或重建的特征向量）。即，自动编码器可以被采用来实现语义提取器315和重建单元330。为了使用自动编码器，不同层中的神经元需要被训练以再现它们的输入。每一层根据前一层的输出被训练，并且整个网络可使用反向传播被微调。自动编码器的其它层也可以用来实现语义提取器315。

为了实现使用自动编码器的本教导，自动编码器的输入空间从自输入数据计算出的输入特征向量识别。输入空间可以是一组在大小上有限的特征，使得它对构建自动编码器是计算上可行的。在文档处理的上下文中，输入空间根据每个特征的残余IDF确定，并使残余IDF乘以在多个输入数据集中的每一个中的与该特征相关联的信息的总和。残余IDF反映特征的文档频率的对数比预期的小的量，给定特征的检索词频率（出现的总次数）。预期的对数文档频率可以对照检索词频率通过线性回归来确定，给定特征集和它们的检索词和文档频率。输入空间也可以通过其它的手段来构建。在一些实施方式中，输入空间简单地是在多个文档中的N个最常见的检索词。

一旦输入空间被限定，一组训练向量就可以通过过滤通过输入空间的多个文档的特征向量来构建。这种训练向量随后被用来训练如上面所概述的自动编码器。一旦自动编码器被训练，它便可以取代语义提取器316用来生成输入数据（例如，文档）的每一片段的基于语义的表示（或紧致语义代码）。

在操作中，当多个文档的特征空间可以比自动编码器的实际输入空间大几个数量级时，维数减缩的第一阶段可以被应用来转换大的维数稀疏向量以生成无损的、密集的和较低的维数向量。

根据本教导的一些实施方式，如图4（a）所示的自动编器码训练框架400创建形成统一表示框架的基础的统计模型和合并统一表示框架的信息检索系统。如所示，框架400包括用于从输入文档识别和检索特征例如检索词的特征提取器402。特征提取器402可以对输入文档的内容执行语言分析，例如将句子分成更小的单元如词、短语等。频繁使用的词例如语法词“the”和“a”可以或可以不被除去。

训练框架400进一步包括关键字索引器406和关键字索引存储器408。该关键字索引器406累积每个关键字在包含该关键字的多个文档的每一个中的出现的数目和包含该关键字的文档的数目，并在关键字索引存储器408中存储这些信息。关键字索引存储器408可以使用现有的数据库管理系统（例如DBMS）或用于大规模数据记录管理的任何市场上可买到的软件包实现。

训练框架400进一步包括语言模型构建器410和信息模型构建器414。在所示的实施方式中，语言模型构建器410采用在关键字索引存储器408中的每一个检索词的频率信息，并建立语言模型412。一旦语言模型412被建立，信息模型构建器414就采用语言模型412并建立信息模型416。关于语言模型和信息模型的细节在共同待审的申请中被详细描述。应当理解，任何其它的语言建模方案和/或信息建模方案可以在语言模型构建器410和信息模型构建器412中实现。

训练框架400进一步包括特征索引器418和特征索引存储器420。特征索引器418采用语言模型412和信息模型416作为输入，并为多个文档中的每一个建立初始输入特征向量。初始输入特征向量可以进一步改良以仅包括被认为代表输入文档中的内容的特征。在一些实施方式中，这种相关的特征可以根据在共同待审查的申请的公式（10）和（11）中描述的数学表述使用例如公知的EM算法来识别。多个文档中的每一个的这种改良的特征向量可以随后存储在特征索引存储器420中用于有效的搜索。

训练框架400可以进一步包括特征选择器422、自动编码器训练器424和自动编码器426。特征选择器422可以为自动编码器426选择输入特征空间。一旦被选择，多个文档中的每一个就被转换成受限的特征向量表示，其被发送到自动编码器训练器424，其产生自动编码器426。在这个所示的实施方式中，可以通过计算每个特征的残余IDF和使残余IDF乘以在多个文档中的每一个中的与该特征相关联的信息的总和来选择输入空间。在一些实施方式中，维数减缩的第一阶段可以被添加到特征选择器422，其使用例如前N个选择的特征作为基本特征，然后将额外的混合的X个特征添加到M个特征中。例如可以使用都来自于原始特征空间的N=2000个特征，并将这2,000个特征馈送到自动编码器，其随后将减少2,000个维数的输入以创建较低维数的语义代码，并根据该代码重建原始的2,000个特征。可选地，可以使用来自原始特征空间的N=1,000个特征加上从例如5,000个特征映射的X=1,000个特征。在这种情况下，对自动编码器的输入仍然包括2,000个特征。然而，这2,000个特征现在表示在原始特征空间中的总共6,000（1,000+5,000）个特征。自动编码器仍然可以将输入的2,000个特征减缩到较低维数的语义代码，并根据语义代码重建2,000个重建的特征。但是1,000个这种重建的特征将随后被映射回到原始的5,000个特征。N+X=M个特征被随后馈送到自动编码器训练器424中（仅示出N个）。自动编码器426被训练以根据基本的特征识别文档中的混合的X个特征的原形。可选地，其它的特征选择算法也可以实现以减少输入特征空间。

训练框架400进一步包括编码器428、稀疏字典训练器430和稀疏字典432。训练稀疏字典的目的在于使由自动编码器产生的密集的代码变得稀疏，自动编码器随后可以用来加速搜索。如果在特定的搜索应用中密集的搜索空间不是问题，那么稀疏字典432可以变成可选的。编码器428采用来自特征选择器422的多个文档中的每一个的变换后的特征向量，并将该特征向量通过自动编码器426的编码部分传递，这为多个文档中的每一个产生紧致语义代码（或基于语义的表示）。稀疏字典训练器430采用多个文档中的每一个的紧致语义代码，并训练稀疏字典432。在所示的实施方式中，稀疏字典训练器430可以实现任何分类方案，例如在代码空间中生成一组群集和质心的球形k-平均算法。在代码空间中的集群的这样生成的质心形成稀疏字典432。应该理解，其它的稀疏化算法也可以被采用来实现自动编码器训练的这部分。

由训练框架400产生的语言模型412、信息模型416、自动编码器426和稀疏字典432可以随后用于编索引和搜索的目的。一旦自动编码器426被训练，它就可以用来通过将输入的特征向量通过该自动编码器的编码部分来生成输入数据的紧致语义代码。为了生成重建的特征向量，紧致语义代码可以被转发到自动编码器的解码部分，该解码部分根据紧致语义代码产生对应的特征向量。这种重建可以被认为是输入特征向量的语义上平缓的变形。

另一个实施方式利用混合法，其中前N个信息特征不是混合的，而其余的信息特征被混合成固定的X个特征。分类器可以被训练以使用作为分类器的输入的未混合的N个特征来识别哪个混合的特征是在原始文档中的。

图4（b）示出了根据本发明的实施方式的在编索引框架450中的训练自动编码器426的使用，该编索引框架产生输入数据的基于统一表示的索引。如图4（b）所示，所示出的编索引框架包括用于从输入数据识别和检索特征的特征提取器452（类似于训练框架中的特征提取器）、采用语言模型412和可选地采用信息模型416并根据由特征提取器452提取的特征使用例如在共同待审的申请中公开的公式（4）、（10）和（11）产生每个输入数据集的特征向量的特征索引器456。每个数据集的这样生成的输入特征向量被随后存储在特征索引存储器458中。

与训练框架400中的特征选择器和编码器类似，编索引框架450进一步包括特征选择器460和编码器464。存储在特征索引存储器458中的每个输入数据集的特征向量由特征选择器460转换，并被传递到自动编码器462的编码器464。自动编码器462的编码器464随后产生对应于输入特征向量的紧致语义代码。这种生成的紧致语义代码被随后馈送到自动编码器462的解码器466，其相应于输入数据集产生自动编码器462的输入特征向量的重建。如果维数减缩被采用，在这种产生的重建中的混合的X个特征可以被进一步恢复为自动编码器462的输入空间中的原始特征。

编索引框架450进一步包括残余特征提取器468，其将重建的特征向量和输入特征向量进行比较，并例如使用如在共同待审的申请的公式（22）和（23）中定义的EM算法识别残余特征。编索引框架450还可以包括稀疏化器470，其采用由编码器464产生的紧致语义代码，并根据稀疏字典475为在特征索引存储器458中的多个文档中的每一个产生一组稀疏语义代码。在所示的实施方式中，在紧致语义代码和稀疏词典115中的每一个质心之间的欧几里德距离可以被计算出。最接近于紧致语义代码的一个或多个质心可以随后被选择为稀疏代码。

编索引框架450进一步包括语义索引器472和语义索引存储器474。语义索引器472采用为在特征索引存储器458中的多个文档中的每一个产生的紧致语义代码、对应的残余特征向量和一个或多个稀疏代码，并组织这些信息和将所组织的信息存储在语义索引存储器474中用于有效的搜索。

如在图4（b）中所示的示例性编索引框架450可以被实现来处理一次一个文档、一批文档或数批文档以提高效率。在编索引框架450中的各种组件可以被复制和/或分布以利用并行处理来加快编索引过程。

在涉及文本输入数据的一些实施方式中，残余特征提取器468操作来选择一个或多个残余关键字作为特征。在这种情况下，给定文档的输入特征向量以及由自动编码器产生的紧致语义代码，残余关键字向量可如下形成。首先，基于语义代码的重建由自动编码器的解码部分计算。残余关键字向量被构建，使得文档的输入特征向量可以被建模为重建特征向量和残余关键字向量的线性组合。具体地，在一些实施方式中，残余关键字向量可以随后如下使用例如EM算法来计算：

E - step : e_{w} = p (w | D) \cdot \frac{\hat{p} (w | D)}{(1 - λ) p (w | D) + λ \hat{p} (w | D)} - - - (1)

这里的

是残余关键字向量，p（w|D）是输入特征向量，以及p（w|R）是重建的特征向量。等式（1）中的符号λ是插值参数并且可以根据经验来设置。

如上所述，统一表示210也可以包括基于模糊特征的表示240。在一些实施方式中，这种基于模糊特征的表示可以通过采用输入特征向量和重建的特征向量的线性插值来计算。该插值可以涉及某些计算参数，例如施加到输入特征向量和重建的特征向量的权重。这种参数可以用来控制模糊的程度，并且可根据应用需要凭经验来确定。实际上，当输入数据的统一表示被用来建立所存储的输入数据的适当索引时，在建立这种索引时可以总是使用基于模糊特征的表示。可以采用这个策略以确保索引可以有效地用于任何查询，包括以提取基于语义的表示的这种形式的查询，且因此基于残余特征的表示也不是可能的。例如，在这种情况下，基于根据所存储的数据的基于模糊特征的表示而建立的索引，可为可有效地用于检索存档的数据的查询产生基于特征的表示。

图5（a）示出了根据本教导的实施方式的用于基于信息的统一表示来进行搜索和检索的示例性搜索/检索系统500的高级图。示例性搜索/检索系统500包括：产生输入数据502的统一表示的统一数据表示生成器505；根据输入数据的统一表示建立输入数据502的索引的编索引系统530；根据统一表示存储输入数据的基于统一表示的信息档案535；处理接收到的查询512以提取相关的特征的查询处理器510；根据来自查询处理器510的处理过的查询产生查询的表示并将该查询的表示发送到候选搜索单元525的查询表示生成器520，该候选搜索单元520根据例如查询表示和所识别的存档数据的统一表示之间的相似性来搜索档案535以识别与查询相关的所存储的数据。最后，示例性搜索/检索系统500包括查询响应生成器515，该查询响应生成器515选择由候选搜索单元525检索的适当的信息，形成查询响应522，并对查询做出响应。

图5（b）是根据本教导的实施方式的搜索/检索系统500的示例性过程的流程图。输入数据首先在552被接收。根据输入数据和相关的模型（例如，语言模型和/或信息模型），输入数据的统一表示在554产生，并且用于有效的数据检索的索引根据这种生成的统一表示在556建立。然后，输入数据根据其统一表示和与统一表示相关联的索引在558存档。当查询在560被接收时，它在562被分析使得查询的表示可被产生。如本文所讨论的，在一些情况下，查询的统一表示可以仅包括基于特征的表示。关于查询的统一表示的形式的决定可以在处理查询时做出，取决于获得查询的基于语义和基于重建特征的表示是否是可行的。

一旦产生查询的统一表示，就根据查询表示在564建立索引。然后，这种建立的索引用来在566检索具有相似的索引值的存档数据。然后，被认为响应于查询的适当的信息在568被选择并在570被使用作为对查询的响应。

图6（a）示出了根据本教导的实施方式的示例性查询表示生成器520的高级图。该示例性查询表示生成器520与输入数据集（见图3（a））的示例性统一表示生成器300类似。差异包括查询表示生成器520包括表示生成控制器620，其例如动态地确定查询以什么形式来表示。如上所述，在一些情况下，由于查询的形式和性质，可能不可能得到可靠的基于语义和基于重建特征的表示。在这种情况下，表示生成控制器620适应地调用不同的功能模块（例如，语义提取器615、残余特征识别器625和特征模糊单元640）以形成适合于查询的统一表示。在适应地确定的子表示生成之后，它们被转发到组合成查询的统一表示的查询表示构建单元645。

图6（b）是根据本教导的实施方式的查询表示生成器520的示例性过程的流程图。当查询在655被接收时，特征在660从查询提取。根据提取的特征，确定基于语义的表示且因此还有基于残余特征的表示是否适合于查询。如果基于语义和基于残余特征的表示适合于查询，那么它们在步骤670-685产生，且基于模糊特征的表示也可以在690产生。如果它不适合于产生查询的基于语义和基于残余特征的表示，查询表示生成器520直接在690产生基于特征向量的表示。例如，这种特征向量可以是根据在步骤660提取的特征产生的特征向量，其可以对应于模糊参数对于基于重建特征的向量是例如0的极端情况。使用这个特征向量，可以构建索引用于搜索目的，并且对照根据他们的基于模糊特征的表示建立的所存储的数据的索引来执行搜索。以这种方法，甚至使用很难产生基于语义和基于残余特征的表示的查询，检索仍然可以以更有效的方式被执行。

在识别被认为例如与查询相关的存档数据时，基于统一表示，在查询和存档文档之间的相似性可以通过计算例如查询的统一表示和文档的统一表示之间的距离来确定。例如，可以通过对相应于相应的基于残余特征的表示的余弦相似性和相应于相应的基于语义的表示的余弦相似性进行求和来计算相似性。

在一些实施方式中，查询和文档之间的相似性可以通过对下式求和来确定：

\exp (- \underset{w}{Σ} q (w) \log \frac{q (w)}{d (w)})

其中q（w）是查询中的残余特征w的值，且d（w）是文档中的残余特征w的值，以及在相应的语义代码之间的余弦相似性。

图7示出了根据本教导的实施方式的示例性的、利用自动编码器的基于统一表示的信息搜索/检索系统700的高级图。如图7所示，信息搜索/检索系统700包括用于从接收到的查询702识别特征的特征提取器704。信息搜索/检索系统700也包括特征向量构建器710，其用于根据所提取的特征来建立查询的特征向量。另外，信息搜索/检索系统700也包括例如根据在共同待审的申请中描述的等式（4）、（10）和（11）建立的语言模型706和信息模型708。

在所示的实施方式中，信息搜索/检索系统700进一步包括选择逻辑709，其根据例如从查询提取的特征（例如，所提取的特征的数目）来控制基于关键字的搜索还是基于语义的搜索是适当的。如果从查询提取的特征的数目低于预定阈值，那么可以选择关键字搜索用于处理查询。否则，可以执行基于语义的搜索。应理解，可以使用任何其它的标准来作出关于将如何处理查询的确定。

在关键字搜索中，根据查询形成的输入特征向量被发送到关键字搜索处理器712，其计算例如在查询的输入特征向量和特征索引存储器714中的多个文档中的每一个的特征向量之间的KL发散度，并识别与最小的KL发散度相关联的一个或多个文档。这种识别的文档可以随后被发送回给发出查询702的用户作为对查询的响应。在一些实施方式中，检索到的文档可以按照基于例如KL发散度的值以分等级的顺序布置。

在语义搜索中，查询的输入特征向量被发送到将输入特征向量转换为受限特征向量的特征选择器720，受限特征向量随后被发送到编码器724，该编码器724对应于自动编码器722的编码部分，以生成紧致语义代码用于查询。紧致语义代码被随后发送到解码器726（对应于自动编码器722的解码器部分）和稀疏化器732，使得重建的特征向量和一组稀疏代码可以分别由解码器716和稀疏化器732产生。

在所示的实施方式中，残余关键字提取器728用于例如根据如在共同待审的申请的等式（22）和（23）中所描述的EM算法来将重建的特征向量与查询的输入特征向量进行比较，以创建残余关键字向量。输入特征向量、受限特征向量、紧致语义代码、残余关键字向量以及查询的稀疏代码被随后发送到语义搜索处理器734。语义搜索处理器734随后将表示在语义代码中使用的信息的受限特征向量与输入特征向量进行比较。如果包括在语义代码中的信息超过预设的百分比阈值，那么稀疏代码可以用来过滤索引中的文档以减小搜索空间。否则，残余关键字可以用来过滤文档。

一旦文档被过滤（按稀疏代码或按残余关键字），就可以计算在查询的语义代码和多个文档的每一个的语义代码之间的余弦相似性。然后，可以计算在查询的残余关键字向量和多个文档的每一个的残余关键字向量之间的KL发散度。用于对所匹配的文档分等级的最终相似性得分可以是余弦相似性和KL发散度距离度量的加权和。该权重可以根据在语义代码中使用的信息的百分比来确定。在一些实施方式中，用户在进行查询时可以做出选择以动态地确定语义代码向量的权重或残余关键字向量的权重，并且这种动态地指定的权重可用于确定在相似性计算中所使用的语义信息的量。在又一个实施方式中，在由自动编码器的输入空间中的特征表示的特征向量中的信息的量用来在查询的统一信息表示内相对于置于残余关键字向量上的权重设定置于语义代码向量上的权重。如本领域的技术人员可认识到的，上面示出的相似性测量仅用于讨论，且并不意味着限制本教导的范围。

在大多数情况下，由自动编码器722产生的语义代码是密集向量，大部分向量条目是非零的。为了减小搜索空间，聚类或稀疏化算法可应用于语义代码，以例如将相似的代码分组在一起。聚类可以被视为稀疏化的特殊情况，其中只有向量的一个非零元素。在一些实施方式中，传统的K-平均聚类算法可以应用于语义代码，其在对应于稀疏字典的代码空间中产生一组集群和相应的质心。根据在文档的代码和每个集群质心之间的某个相似性度量来将文档分配到最接近的一个集群或多个集群。可以将分配给每个文档的集群视为稀疏维数，使得它们可以被编索引、搜索和/或用作过滤器。当稀疏维数被用作过滤器时，对代码的搜索可以限制到该代码所属于的一个或多个稀疏维数。

在一些实施方式中，可以使用球形K-平均以在代码空间中生成一组集群和质心。在其它实施方式中，可以使用一种分层附聚聚类方法以在代码空间中生成一组集群和质心。在一些实施方式中，稀疏表示也可以被直接添加到自动编码器的每一层。可以为文件到文件匹配得分的快速计算保持密集（紧致）表示。

由于自动编码器和其它模型例如根据训练数据建立的语言模型和/或信息模型的使用，一个问题是，随着时间的推移，由于连续进入的数据，经过训练的自动编码器或模型可逐渐变得劣化，特别是当在训练该模型时使用的原始数据变得越来越不同于当前进入的数据时。在这种情况下，使用原始训练数据建立的自动编码器和/或模型可能不再适合于用于处理新的数据。在本教导的一些实施方式中，监控过程可以被置于适当的位置（未示出）来检测任何劣化，并确定何时模型的重新训练和/或重新编索引变得需要。在这个监控过程中，模型的复杂度以及在重建的特征向量和输入特征向量之间的偏差的测量可以被进行，并用来做出确定。

当新的模型（例如，语言模型）被创建时，在系统中存档和编索引的所有文档根据新模型被处理，并随后使用在新模型的方案下确定的其相应的索引被归档。然后，语料库语言模型的复杂度的均值和方差以及在文档的输入特征向量和（例如，由自动编码器）重建的特征向量之间的Kullback-Leibler发散度的均值和方差也相应于目前归档在系统中的所有文档被计算。当新的文档进入系统时，在这种统计上的指数移动平均值可以被保持，初始化为上述均值。当不再可能维持指数移动平均值高于相应于基线均值的阈值（例如，容许水平）时，可以触发重新训练周期。

当触发重新训练周期时，系统从监控状态移动到重新训练状态，并开始使用来自例如起作用特征索引的信息来训练语言模型。然后，所得到的语言模型可以连同起作用特征索引一起被使用，以创建新的语料库信息分布。这种得到的信息分布和语言模型可用来产生更新的特征索引。根据该更新的特征索引，可以确定自动编码器的更新的输入空间。给定该更新的输入空间和更新的特征索引，自动编码器的训练数据可以产生并应用来训练自动编码器。重新训练的自动编码器与更新的特征索引一起使用以创建一组稀疏化器训练数据，基于此，更新的稀疏化器被相应地建立。根据来自作为输入的更新的特征索引的数据，使用更新的自动编码器和稀疏化器随后建立更新的语义索引。

一旦更新了语义索引并且相应于更新的索引对来自起作用索引的所有文档编索引，系统就使用更新的特征索引和语义索引替换该起作用索引，并毁掉旧的起作用索引。这完成重新训练周期。此时，系统退回到监控状态。如果在重新训练和更新期间新的进入的输入数据被接收，那么新的输入数据可被连续处理但基于起作用模型和更新模型。

图8示出了根据本教导的一个实施方式的能够适应地自发展的示例性基于统一表示的搜索系统800的高级图。在这个所示的自发展信息检索系统800中，系统包括经由网络连接816（例如，互联网和/或内联网）向多个客户端设备820提供搜索服务的搜索服务子系统802。客户端设备可以是具有用于发出查询、接收查询结果以及处理查询结果的装置的任何设备。搜索服务802起作用来接收来自客户端设备的查询、通过来自档案（未示出）的各种可访问索引搜索相关信息、产生查询响应并将查询响应发送回到发出查询的客户端设备。搜索服务802可以使用一个或多个计算机（其可以是分布式的）而实现并通过网络连接而连接到多个可访问索引，包括特征或语义代码的索引。图7示出了搜索服务802的一个示例性实现。

示例性系统800也包括编索引服务子系统804，其包括连接到多个编索引存储器的多个服务器（可以是分布式的）。编索引服务804用于根据信息、特征、语义或稀疏代码来建立各种类型的索引。在操作中，编索引服务804用于获取多个文档、识别特征、生成每个文档的语义代码和稀疏代码以及根据它们建立索引。所建立的索引可以通过网络连接以分布方式存储。这种索引包括包含模糊特征的特征的索引、语义代码的索引或稀疏代码的索引。图4（b）提供了编索引服务804的示例性实现。

示例性自发展系统800进一步包括训练服务子系统806，其可以使用又一个计算机来实现。训练服务子系统806可以通过网络连接而连接到具有例如特征如关键字或语义如语义代码或稀疏代码的在其中存档的多个索引的存储器（也可以是分布式的）。训练服务806可用于根据多个文档来训练语言模型、信息模型、自动编码器和/或稀疏字典。执行训练以促进有效的关键字和语义搜索。图4（a）提供了训练服务子系统806的示例性实现。

示例性系统800还包括重新训练控制器808，其监控分布式信息检索系统的状态，控制重新训练何时需要被完成，并执行重新训练。在操作中，当系统800完成初始训练时，系统进入服务状态，其中搜索服务802处理来自客户端设备的查询并且根据起作用索引810（或组A）从存储器检索多个相关文档。然后，重新训练控制器808可以为在系统中编索引的每个文档测量语料库语言模型的复杂度和/或在输入特征向量和重建的特征向量（通过例如自动编码器）之间的KL发散度的均值和方差。

当系统接收到新的文档时，这些统计量的指数移动平均值被计算。当这种统计量中的一个的指数移动平均值在预定的容许水平之上时，重新训练控制器808可以确定到了重新训练和调用相关子系统来实现此的时间。例如，训练服务806可以首先被调用以重新训练语料库语言模型和信息模型，并使用更新的语言模型和信息模型相应地建立特征索引（组B）812。然后，训练服务806可以重新训练自动编码器和稀疏字典，并根据更新的语义模型和稀疏字典相应地建立语义索引（组C）814。在重新训练状态结束时，重新训练控制器808使用更新的特征索引（组B）812和语义索引（组C）814取代起作用索引（组A）810。当重新训练完成时，系统800使系统能够返回到监控状态。

在一些情况下，当语料库语言模型的复杂度的均值和方差保持在预定的容许水平内时，自动编码器重建错误可能高于另一个预定的容许水平。在这种情况下，重新训练控制器808可以发起部分训练服务。在这种部分重新训练状态中，训练服务806可以仅重新训练自动编码器和稀疏字典，并且使用更新的语义模型和稀疏词典相应地建立语义索引（组C）814。在这个部分状态中，重新训练控制器808仅使用更新的语义索引（组C）814取代组A（810）中的语义索引。

本文所公开的统一表示可应用在各种应用中。一些示例性应用包括分类和聚类、加标签和基于语义的加书签。在分类和聚类应用中应用统一信息表示时，统一信息表示的组成子表示（基于语义的表示、基于残余特征的表示和基于模糊特征的表示）可以用作馈送到分类或聚类算法的特征。在一些实施方式中，当应用于分类时，自动编码器在不同级别的标签变得可用时可以扩展为包括另一层（除了典型的三层之外）。在这种情况下，附加层的输入的数目等于代码层的维数，且添加层的输出的数目等于基本类别的数目。添加层的输入权重可以被初始化为小的随机值，并且随后利用例如梯度下降或共轭梯度来被训练一些时段，同时保持神经网络中的其余的权重固定。一旦这个添加的“分类层”被训练一些时段，整个网络就然后采用例如反向传播而被训练。这种训练的ANN可以随后用于将进入的数据分类为不同的类别。

在一些实施方式中，如本文所公开的统一表示的另一可能的应用是加标签。在加标签应用的实施方式中，标签可以为每个稀疏维数产生，并用作例如概念标签，因为与文档相关联的稀疏维数通常表示该文档的主题。在输入特征空间中的伪文档可以通过对仅包括一个有效维数的语义代码解压缩而构造，即，稀疏向量中的一个维数将具有1的权重，而其余维数将是0。以这种方式，由稀疏代码向量的该维数所表示的特征可以被识别。然后，可以计算在这个伪文档和语料库模型之间的KL发散度，且对KL发散度有最大贡献的N个特征，即，具有最大加权对数似然比的N个特征，可以用作该维数的概念标签。

在一些实施方式中，统一信息表示也可以应用在基于语义的加书签中。由web浏览器使用的传统加书签使用表示web位置的URL作为唯一标识符，使得web浏览器可以随后从该位置检索内容。基于语义的加书签方法根据内容的语义表示表征来自信息源的内容。为了随后识别具有相似语义的内容，基于语义的加书签方法存储语义表示，使得其它语义上类似的内容可以根据该语义表示随后被找到。本文公开的统一信息表示可以用来提供完整的信息表示，包括互补的语义、残余特征和/或基本内容的基于平滑特征的表征。随着时间的推移，这种方法允许系统适应于在来自信息源的内容中的改变。

使用统一信息表示的基于语义的加书签允许具有完全相同的内容的文档和/或具有相似语义内容的文档的检索。可以根据例如在原始内容（统一表示基于原始内容而得到）的统一信息表示和每个目标文档之间测量的某个距离来测量相似性。统一信息表示还可以用于表征类别。这实现对由相应的统一表示来表示的落在预定的特定类别内的文档的搜索和/或检索。

使用统一信息表示的基于语义的加书签也可以用于相应于给定的感兴趣话题和个人资料等的内容监控、话题跟踪和警报。根据信息的统一表示建立的语义书签可以经由例如与在本文关于自发展描述的机制相同的机制而变得适应于表示新兴趣的新内容。例如，适应可以通过生成新的感兴趣文档的统一表示而实现。可选地，适应可以通过将表示现有语义书签的文本信息和新的文档组合以产生语义书签的更新的统一信息表示来实现。

应该理解，尽管本文描述了各种示例性实施方式，它们作为例子而不是限制。任何其它适当和合理的装置或方法可以用来执行如本文所公开的不同方面，他们将都在本教导的范围内。

为了实现本教导，计算机硬件平台可以被用作本文所述的一个或多个元件（例如，基于模型的特征提取器310、语义提取器315、重建单元330、差异分析器320和残余特征标识器325以及特征向量模糊单元340）的硬件平台。这种计算机的硬件元件、操作系统和编程语言在本质上是传统的，并且假定本领域的技术人员对其足够熟悉以使那些技术适合于实现基本上如本文所述的DCP处理。具有用户接口元件的计算机可以用来实现个人计算机（PC）或其它类型的工作站或终端设备，尽管如果被适当地编程，计算机也可以充当服务器。可以相信，本领域的技术人员熟悉这种计算机设备的结构、编程和一般操作，且作为结果，附图应该是无需加以说明的。

图9示出了本教导可以被实现的通用计算机体系结构，并且其具有包括用户接口元件的计算机硬件平台的功能框图。计算机可以是通用计算机或专用计算机。如本文所述，计算机900可用于根据如本文所述的统一信息表示来实现信息搜索/检索系统的任何组件。例如，如图3（a）、4（a）-4（b）、5（a）、6、7和8所示的信息搜索/检索系统的不同组件都可在诸如计算机900的计算机上通过其硬件、软件程序、固件或其组合来实现。尽管仅示出一个这样的计算机，为方便起见，与基于统一信息表示的信息搜索/检索相关的计算机功能可以以分布式的方式在多个类似的平台上实现，以分配处理负载。

例如，计算机900包括通信端口950，该通信端口连接到网络和从连接到其的网络连接以便于数据通信。计算机900还包括以一个或多个处理器的形式的用于执行程序指令的中央处理单元（CPU）920。示例性计算机平台包括内部通信总线910、不同形式的程序存储器和数据存储器例如磁盘970、只读存储器（ROM）930或随机存取存储器（RAM）940，用于使各种数据文件由计算机处理和/或传送，以及可能程序指令由CPU执行。计算机900还包括I/O组件960，其支持计算机和其中的其它组件例如用户接口元件980之间的输入/输出流。计算机900还可以通过网络通信接收编程和数据。

因此，如上所概述的，管理异类数据/元数据/过程的方法的方面可在编程中体现。技术的程序方面可以被认为是通常以携带在或体现在一种类型的机器可读介质中的可执行代码和/或相关数据的形式的“产品”或“制造物品”。有形非临时“存储”类型的介质包括计算机、处理器等的任何或所有存储器或其它存储器，或其相关模块例如可以在任何时间提供存储用于软件编程的各种半导体存储器、磁带驱动器、磁盘驱动器等。

软件的全部或部分有时可能通过网络例如互联网或各种其它电信网络被传送。这种通信例如可以使软件能够从一个计算机或处理器装入到另一个计算机或处理器中，例如，从搜索引擎运营商或其它的解释产生服务提供商的管理服务器或主机计算机到计算环境的硬件平台或结合基于用户询问产生解释来实现计算环境或类似功能的其它系统。因此，可带有软件元件的另一种类型的介质包括例如通过有线和光学陆线网络和通过各种空中链路跨越在本地设备之间的物理接口使用的光波、电波和电磁波。携带这种波的物理元件例如有线或无线链路、光学链路等也可被认为是携带软件的介质。如本文所使用的，除非被限制到有形“存储”介质，诸如计算机或机器“可读介质”的术语指的是参与向处理器提供指令用于执行的任何介质。

因此，机器可读介质可以采取许多形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘，例如在任何计算机等中的任何存储设备，这些设备可用来实现如附图所示的系统或其任何组件。易失性存储介质包括动态存储器，例如这种计算机平台的主存储器。有形传输介质包括同轴电缆；铜线和光纤，包括在计算机系统内形成总线的电线。载波传输介质可以采取电信号或电磁信号或声波或光波例如在射频（RF）和红外（IR）数据通信期间生成的声波或光波的形式。计算机可读介质的常见形式因此包括例如：软盘、柔性盘、硬盘、磁带、任何其它磁性介质、CD-ROM、DVD或DVD-ROM，任何其它光介质、穿孔卡片纸带、具有孔的图案的任何其它物理存储介质、RAM、PROM和EPROM、FLASH-EPROM、任何其它存储器芯片或磁带盒、载波传输数据或指令、传输这种载波的电缆或链路或者计算机可以从其读取编程代码和/或数据的任何其它介质。计算机可读介质的这些形式中的很多可涉及将一个或多个指令的一个或多个序列传送到处理器用于执行。

本领域的技术人员将认识到，本教导可容许各种修改和/或增强。例如，尽管上述的各种组件的实现可以在硬件设备中体现，但它还可以作为纯软件解决方案来实现，例如，在现有服务器上的安装。另外，如本文公开的动态关系/事件检测器和其组件可以作为固件、固件/软件组合、固件/硬件组合或硬件/固件/软件组合来实现。

虽然上文描述了被认为是最好的方式的内容和/或其它的例子，应理解，可以在其中进行各种修改，并且这里所公开的主题可以在各种形式和示例中实现，且本教导可以应用在很多应用中，在此仅描述了其中一些。预期通过下面的权利要求来主张落在本教导的真实范围内的任何和所有应用、修改和改变。

Claims

1.一种在具有至少一个处理器、存储器和连接到网络的通信平台的机器上实现的用于存档数据的方法，包括以下步骤：

通过所述通信平台接收数据；

通过特征提取器根据至少一个模型分析所接收到的数据以形成表征所述数据的基于特征的向量；

通过语义提取器根据所述基于特征的向量生成所述数据的基于语义的表示;

通过重建单元基于所述数据的所述基于语义的表示来构建基于重建特征的向量；

通过差异分析器比较所述基于特征的向量和所述基于重建特征的向量;

基于根据所述比较的结果识别的一个或多个特征形成所述数据的基于残余特征的表示；

通过统一表示构建单元基于所述基于语义的表示和所述基于残余特征的表示来生成所述数据的统一表示；以及

根据所述数据的所述统一表示将所述数据存档在信息档案中。

2.根据权利要求1所述的方法，其中所述至少一个模型包括信息模型和语言模型，其中根据所述信息模型的所述基于特征的向量具有多个属性，所述多个属性中的每一个表示包含在所述数据中的分配给相关的特征的信息的一部分。

3.根据权利要求1所述的方法，其中所述语义提取器和所述重建单元基于自动编码器来实现。

4.根据权利要求1所述的方法，其中存档的步骤包括：

由编索引系统根据所述数据的所述统一表示来计算索引值；

在所述索引值和根据所述数据的所述统一表示而存档在所述信息档案中的所述数据之间建立链接。

5.根据权利要求1所述的方法，还包括通过根据所述基于重建特征的向量修改所述基于特征的向量来形成所述数据的基于模糊特征的表示。

6.根据权利要求5所述的方法，其中修改所述基于特征的向量的步骤包括：

从所述基于特征的向量获得第一属性值；

从所述基于重建特征的向量获得对应于所述第一属性值的第二属性值；以及

根据所述第一属性值和所述第二属性值计算第三属性值作为所述数据的所述基于模糊特征的表示的对应的属性值。

7.根据权利要求5所述的方法，其中所述数据的所述统一表示还基于所述数据的所述基于模糊特征的表示而被构建。

8.一种在具有至少一个处理器、存储器和连接到网络的通信平台的机器上实现的用于存档数据的方法，包括以下步骤：

通过所述通信平台接收数据；

通过特征提取器来根据至少一个模型分析所接收到的数据以形成表征所述数据的基于特征的向量；

通过重建单元根据所述数据的所述基于语义的表示来构建基于重建特征的向量；

通过基于所述基于重建特征的向量修改所述基于特征的向量来形成所述数据的基于模糊特征的表示；

通过统一表示构建单元基于所述基于模糊特征的表示来生成所述数据的统一表示；以及

9.根据权利要求8所述的方法，还包括：

基于根据所述基于特征的向量和所述基于重建特征的向量之间的差异识别的一个或多个特征来形成所述数据的基于残余特征的表示；以及

在所述数据的统一表示中合并所述基于语义的表示和所述基于残余特征的表示。

10.根据权利要求8所述的方法，其中所述至少一个模型包括信息模型和语言模型，其中根据所述信息模型的所述基于特征的向量具有多个属性，所述多个属性中的每一个表示包含在所述数据中的分配给相关的特征的信息的一部分。

11.根据权利要求8所述的方法，其中所述语义提取器和所述重建单元根据自动编码器来实现。

12.一种在具有至少一个处理器、存储器和连接到网络的通信平台的机器上实现的用于搜索和检索根据统一表示而存档的数据的方法，包括以下步骤：

通过所述通信平台获得查询；

通过查询处理器处理所述查询以生成表征所述查询的基于特征的向量；

根据所述基于特征的向量通过查询表示生成器生成所述查询的统一表示，其中所述统一表示合并所述查询的基于语义和特征的表征；

根据所述查询的所述统一表示通过候选搜索单元从信息档案检索与所述查询相关的信息；

根据从所述信息档案检索的与所述查询相关的信息通过查询响应生成器生成查询响应；

传送所述查询响应以对所述查询做出响应。

13.根据权利要求12所述的方法，其中生成所述查询的统一表示的步骤包括以下步骤：

根据所述基于特征的向量通过语义提取器生成所述查询的基于语义的表示；

根据所述查询的所述基于语义的表示通过重建单元构建基于重建特征的向量；

通过差异分析器比较所述基于特征的向量和所述基于重建特征的向量；

根据所述比较的结果形成所述查询的基于残余特征的表示；以及

根据所述基于语义的表示和所述基于残余特征的表示通过统一表示构建单元生成所述统一表示。

14.根据权利要求13所述的方法，其中所述查询的所述统一表示还包括通过根据基于所述重建特征的向量修改所述基于特征的向量而生成的基于模糊特征的表示。

15.根据权利要求12所述的方法，其中检索的步骤包括：

根据所述查询的所述统一表示生成第一索引值；

识别存储在所述信息档案的编索引系统中的第二索引值；

获得在所述信息档案中的具有相似索引值的一组信息项；以及

从所获得的这组信息项选择与所述查询相关的信息。

16.一种用于生成数据的统一表示的系统，包括：

通信平台，数据能够通过所述通信平台被接收；

特征提取器，其被配置成根据至少一个模型分析所接收到的数据以形成表征所述数据的基于特征的向量；

语义提取器，其被配置成根据所述基于特征的向量生成所述数据的基于语义的表示；

重建单元，其被配置成根据所述数据的所述基于语义的表示产生基于重建特征的向量；

残余特征识别器，其被配置成基于根据所述基于特征的向量和所述基于重建特征的向量之间的比较而识别出的一个或多个残余特征形成所述数据的基于残余特征的表示；

统一表示构建单元，其被配置成根据所述基于语义的表示和所述基于残余特征的表示生成所述数据的统一表示。

17.根据权利要求16所述的系统，其中所述至少一个模型包括信息模型和语言模型，其中根据所述信息模型建立的所述基于特征的向量具有多个属性，所述多个属性中的每一个表示包含在所述数据中的分配给相关的特征的信息的一部分。

18.根据权利要求16所述的系统，其中所述语义提取器和所述重建单元根据自动编码器来实现。

19.根据权利要求16所述的系统，还包括特征向量模糊单元，所述特征向量模糊单元被配置成通过根据所述基于重建特征的向量修改所述基于特征的向量来形成所述数据的基于模糊特征的表示。

20.一种用于搜索和检索根据统一表示而存档的数据的系统，包括：

通信平台，其用于获得查询和传送查询响应；

查询处理器，其被配置成处理所述查询以生成表征所述查询的基于特征的向量；

查询表示生成器，其被配置成根据所述基于特征的向量生成所述查询的统一表示，其中所述统一表示合并所述查询的基于语义和特征的表征；

候选搜索单元，其被配置成根据所述查询的所述统一表示从信息档案检索与所述查询相关的信息；以及

查询响应生成器，其被配置成根据从所述信息档案检索的与所述查询相关的所述信息生成所述查询响应，并传送所述查询响应以对所述查询做出响应。

21.根据权利要求20所述的系统，还包括特征向量模糊单元，所述特征向量模糊单元被配置成通过根据所述基于重建特征的向量修改所述基于特征的向量生成基于模糊特征的表示。

22.一种机器可读非临时介质，其具有记录在其上的与数据存档有关的信息，当所述信息被机器读取时使所述机器执行以下步骤：

通过所述通信平台接收数据；

根据至少一个模型分析所接收到的数据以形成表征所述数据的基于特征的向量；

根据所述基于特征的向量生成所述数据的基于语义的表示;

根据所述数据的所述基于语义的表示构建基于重建特征的向量；

比较所述基于特征的向量和所述基于重建特征的向量;

基于根据所述比较的结果而识别的一个或多个特征来形成所述数据的基于残余特征的表示；

根据所述基于语义的表示和所述基于残余特征的表示生成所述数据的统一表示；以及

23.根据权利要求22所述的介质，其中所述至少一个模型包括信息模型和语言模型，其中根据所述信息模型的所述基于特征的向量具有多个属性，所述多个属性中的每一个表示包含在所述数据中的分配给相关的特征的信息的一部分。

24.根据权利要求22所述的介质，其中所述语义提取器和所述重建单元根据自动编码器来实现。

25.根据权利要求22所述的介质，其中当所述信息被所述机器读取时还使所述机器执行以下步骤：

通过根据所述基于重建特征的向量修改所述基于特征的向量来形成所述数据的基于模糊特征的表示；以及

合并所述数据的所述基于模糊特征的表示，作为所述数据的所述统一表示的一部分。

26.一种机器可读非临时介质，其具有记录在其上的用于数据存档的信息，当所述信息被机器读取时使所述机器执行以下步骤：

通过所述通信平台接收数据；

根据所述基于特征的向量生成所述数据的基于语义的表示;

通过根据所述基于重建特征的向量修改所述基于特征的向量形成所述数据的基于模糊特征的表示；

根据所述基于模糊特征的表示生成所述数据的统一表示；以及

27.根据权利要求26所述的介质，其中当所述信息被所述机器读取时还使所述机器执行以下步骤：

基于根据所述基于特征的向量和所述基于重建特征的向量之间的差异而识别的一个或多个特征来形成所述数据的基于残余特征的表示；以及

28.根据权利要求26所述的介质，其中所述至少一个模型包括信息模型和语言模型，其中根据所述信息模型的所述基于特征的向量具有多个属性，所述多个属性中的每一个表示包含在所述数据中的分配给相关的特征的信息的一部分。

29.根据权利要求26所述的介质，其中所述语义提取器和所述重建单元根据自动编码器来实现。

30.一种机器可读非临时介质，其具有记录在其上的用于信息搜索和检索的信息，当所述机器可读非临时介质上的所述信息被机器读取时使所述机器执行以下步骤：

通过所述通信平台获得查询；

处理所述查询以生成表征所述查询的基于特征的向量；

根据所述基于特征的向量生成所述查询的统一表示，其中所述统一表示合并所述查询的基于语义和特征的表征；

根据所述查询的所述统一表示从信息档案检索与所述查询相关的信息；

根据从所述信息档案检索的与所述查询相关的信息生成查询响应；以及

传送所述查询响应以对所述查询做出响应。

31.根据权利要求30所述的介质，其中生成所述查询的统一表示的步骤包括以下步骤：

根据所述基于特征的向量生成所述查询的基于语义的表示；

根据所述查询的所述基于语义的表示构建基于重建特征的向量；

比较所述基于特征的向量和所述基于重建特征的向量；

根据所述基于语义的表示和所述基于残余特征的表示生成所述统一表示。

32.根据权利要求30所述的介质，其中所述查询的所述统一表示还包括通过根据所述基于重建特征的向量修改所述基于特征的向量而生成的基于模糊特征的表示。

33.根据权利要求30所述的介质，其中检索的步骤包括：

根据所述查询的所述统一表示生成第一索引值；

识别存储在所述信息档案的编索引系统中的第二索引值；

从所获得的这组信息项选择与所述查询相关的信息。