CN111279335A

CN111279335A - 基于文档结构提取检索多语言文档

Info

Publication number: CN111279335A
Application number: CN201880070140.2A
Authority: CN
Inventors: 唐鑫; 殷昆燕; 李贺; 赵学良; 徐欣
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-11-21
Filing date: 2018-11-20
Publication date: 2020-06-12
Anticipated expiration: 2038-11-20
Also published as: DE112018005272T5; GB202011326D0; JP2021504784A; JP7150842B2; WO2019102346A1; US11222053B2; US10691734B2; CN111279335B; GB2583679A; US20200265074A1; US20190155942A1

Abstract

提供了一种用于搜索多语言文档的方法，从多语言文档中提取结构组件。基于所提取的组件，文档被分组为各类别，包括以各自不同的自然语言表达的各自的文档集合。检测查询中的自然语言。基于文档具有由查询指示的内容以及文档的自然语言与所检测的自然语言匹配选择一个文档。提取所选择的文档的结构组件。基于所选文档的提取的结构组件，识别所述类别中的，包括了所选择的文档的一个类别。识别所述类别中其他文档，以及将其呈现为具有与所选择的文档的内容相匹配的内容。所述其他文档的自然语言的每一个都与所选择的文档的自然语言不同。

Description

基于文档结构提取检索多语言文档

技术领域

本发明涉及信息检索，更具体地涉及检索多语言文档。

背景技术

国际商业和企业全球化要求公司以许多自然语言和方言进行交流。对于事件或对象的许多情况，存在大量相关的从不同的角度和以不同的自然语言的报告、评论或描述。可以生成公司的单个内部文档的多个版本，其中每个版本具有相同的内容，但是以不同的自然语言表达。用户可以使用以用户精通的自然语言表达的搜索查询，以便查找文档的多语言版本。已知的信息检索系统将文档的多语言版本翻译为单一自然语言，然后使用该单一自然语言跨多语言版本应用搜索。文档的翻译通常是不准确的，特别是如果文档包含特定行业领域的术语。为了提高翻译准确性，用户必须努力了解文档的含义，并了解如何将文档从一种语言翻译成不同的语言，包括如何翻译专门针对特定行业领域的术语。

其他已知的信息检索系统需要多个搜索引擎来搜索文档的多语言版本，其中单个搜索查询被翻译成多种自然语言，并且每个搜索引擎在那些自然语言的相应一种中搜索文本。搜索查询的翻译受制于上述提及的相同的不准确和困难。

还有其他已知的信息检索系统基于识别以第一自然语言表达的第一文档中的图像以及然后搜索以包括与第一文档中的图像类似的图像的其他自然语言表达的文档来执行多语言搜索。但是，具有相同文本内容的文档的不同语言版本可能并不总是包含相似的图像，因此可能会产生不准确的搜索结果。

因此，需要一种技术，可以有效地搜索多语言文档，而不需要翻译文档或搜索查询，以及不需要多个特定语言的搜索引擎。因此，在本领域中需要解决上述问题。

发明内容

从第一方面来看，本发明提供了一种用于搜索以多种自然语言表达的文档的计算机实现的方法，该方法包括以下步骤：计算机提取以多种自然语言表达的文档的结构的组件；基于所提取的文档的结构的组件，计算机将文档分类为包括以各自不同的自然语言表达的各自相互排他的文档集合的各类别，每个集合中的文档具有匹配的内容；计算机检测查询用的自然语言；基于查询和所检测的自然语言以及基于搜索引擎的利用，计算机选择包含在文档中的其内容由查询指示并且其自然语言与所检测的自然语言匹配的文档；计算机提取所选择的文档的结构的第一组件；基于所提取的第一组件，计算机识别在各类别中包括的，包括了所选择的文档的类别；计算机识别在所识别的类别中的一个或多个其他文档；以及计算机将一个或多个其他文档呈现为具有与所选择的文档的内容相匹配的内容，一个或多个其他文档以与所选择的文档的自然语言不同的一种或多种相应的自然语言表达。

从另一方面来看，本发明提供了一种计算机系统，包括：中央处理单元(CPU)；耦合到CPU的存储器；以及耦合到CPU的计算机可读存储设备，计算机可读存储设备包含由CPU经由存储器执行的指令，以实现搜索以多种自然语言表达的文档的方法，该方法包括以下步骤：计算机系统提取以多种自然语言表达的文档的结构的组件；基于所提取的文档的结构的组件，计算机系统将文档分类为包括以各自不同的自然语言表达的各自相互排他的文档集合的各类别，每个集合中的文档具有匹配的内容；计算机系统检测查询用的自然语言；基于查询和所检测的自然语言以及基于搜索引擎的利用，计算机系统选择包含在文档中的其内容由查询指示并且其自然语言与所检测的自然语言匹配的文档；计算机系统提取所选择的文档的结构的第一组件；基于所提取的第一组件，计算机系统识别在各类别中包括的，包括了所选择的文档的类别；计算机系统识别在所识别的类别中的一个或多个其他文档；以及计算机系统将一个或多个其他文档呈现为具有与所选择的文档的内容相匹配的内容，一个或多个其他文档以与所选择的文档的自然语言不同的一种或多种相应的自然语言表达。

从另一方面来看，本发明提供了一种用于搜索以多种自然语言表达的文档的计算机程序产品，该计算机程序产品包括计算机可读存储介质，该计算机可读存储介质可由处理电路读取并且存储由处理电路执行以执行用于执行本发明的步骤的方法的指令。

从另一方面来看，本发明提供了一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序，包括软件代码部分，当所述程序在计算机上运行时，用于执行本发明的步骤。

在一个实施例中，本发明提供了一种搜索以多种自然语言表达的文档的方法。所述方法包括计算机提取以多种自然语言表达的文档的结构组件。所述方法包括基于所提取的文档的结构组件，计算机将文档分类为包括以各自不同的自然语言表达的各自相互排他的文档集合的各个类别。每个集合中的文档具有匹配的内容。所述方法进一步包括计算机检测查询用的自然语言。所述方法进一步包括基于所述查询和所检测的自然语言以及基于搜索引擎的利用，计算机选择包含在所述文档中的其内容由查询指示并且其自然语言与所检测的自然语言匹配的文档，所述方法进一步包括计算机提取所选择的文档的结构的第一组件。所述方法进一步包括基于所提取的第一组件，所述计算机识别在所述各类别中包括的，包括了所选择的文档的类别。所述方法进一步包括计算机识别在所识别的类别中的一个或多个其他文档。所述方法还包括计算机将一个或多个其他文档呈现为具有与所选择的文档的内容相匹配的内容。所述一个或多个其他文档以与所选择的文档的自然语言不同的一种或多种相应的自然语言表达。

上述实施例提供了有效且不需要翻译或多个特定语言的搜索引擎的多语言文档搜索。上述实施例有利地允许仅精通一种语言的用户组成搜索查询以检索文档的多语言版本，而不需要用户翻译搜索查询，文档或文档的任何部分，并且不需要用户了解文档的语义含义或了解文档中使用的特定领域的术语。

上面讨论的优点也适用于以下总结的计算机系统和计算机程序产品实施例。

在本发明的一个可选方面中，执行上述方法的步骤而不翻译文档、一个或多个其他文档或查询。本发明的上述方面有利地提供了对多语言文档的搜索，其中用户组成搜索查询以检索文档的多语言版本，而不需要用户在理解文档的多语言版本的任何部分内容的含义的困难且容易出错的实现中付出努力，以及搜索不需要特定语言搜索引擎来翻译搜索查询或其语言和内容与搜索查询匹配的文档。

在本发明的另一可选方面中，提取组件的步骤包括将包括在所述文档中的第一文档的结构建模为所述第一组件的第一流。所述流包括所述文档的单词以及文档结构的其他指示符，而没有文档的语义含义的指示。所述提取组件的步骤还包括用指示单词的第一标签替换流中的单词。所述提取组件的步骤还包括在替换步骤之后，通过利用学习了组件序列的长短期记忆(long short-term memory，LSTM)网络将流编码为数值向量。所述为文档分类的步骤包括确定包括所述文档和所述一个或多个其他文档的类别。通过最小化所述数值向量和一个或多个其他数值向量之间的距离确定所述类别，所述其他数值向量产生于为对所述一个或多个其他文档建模的一个或多个其他流编码。本发明的上述方面有利地提供了一种用于确定具有相同或相似内容的多语言文档的语言无关技术，而不需要对文档内容的语义含义的翻译或知识。相同或相似的多语言文档的确定有利地利用代表文档结构的密集编码向量的有效率的比较，而不是使用极长向量的比较。

在另一个实施例中，本发明提供了一种用于搜索以多种自然语言表达的文档的计算机程序产品。计算机程序产品包括计算机可读存储介质。程序指令存储在计算机可读存储介质上。计算机可读存储介质不是暂时信号本身。程序指令由计算机系统的中央处理单元(CPU)执行，以使计算机系统执行方法。所述方法包括计算机系统提取以多种自然语言表达的文档的结构组件。所述方法进一步包括基于所提取的文档的结构组件，计算机系统将文档分类为包括以各自不同的自然语言表达的各自相互排他的文档集合的各个类别。每个集合中的文档具有匹配内容。所述方法进一步包括计算机系统检测查询中的自然语言。所述方法进一步包括基于所述查询和所检测的自然语言以及基于搜索引擎的利用，计算机系统选择包含在所述文档中的其内容由查询指示并且其自然语言与所检测的自然语言匹配的文档。所述方法进一步包括计算机提取所选择的文档的结构的第一组件。所述方法进一步包括基于所提取的第一组件，所述计算机系统识别在所述各类别中包括的，包括了所选择的文档的类别。所述方法进一步包括计算机系统识别在所识别的类别中的一个或多个其他文档。所述方法还包括将一个或多个其他文档呈现为具有与所选择的文档的内容相匹配的内容。所述一个或多个其他文档以与所选择的文档的自然语言不同的一种或多种各自的自然语言表达。

在另一个实施例中，本发明提供一种包括中央处理单元(CPU)的计算机系统；耦合到CPU的存储器；以及耦合到所述CPU的计算机可读存储装置。所述存储装置包括由CPU通过存储器执行的指令，以实现搜索以多种自然语言表达的文档的方法。所述方法包括计算机系统提取以多种自然语言表达的文档的结构组件。所述方法进一步包括基于所提取的文档的结构组件，计算机系统将文档分类为包括以各自不同的自然语言表达的各自相互排他的文档集合的各个类别。每个集合中的文档具有匹配的内容。所述方法进一步包括计算机系统检测查询用的自然语言。所述方法进一步包括基于所述查询和所检测的自然语言以及基于搜索引擎的利用，计算机选择包含在所述文档中的其内容由查询指示并且其自然语言与所检测的自然语言匹配的文档。所述方法进一步包括计算机系统提取所选择的文档的结构的第一组件。所述方法进一步包括基于所提取的第一组件，所述计算机系统将所述类别中包括的一个类别识别为包括所选择的文档。所述方法进一步包括计算机系统识别在所识别的类别中的一个或多个其他文档。所述方法还包括计算机将一个或多个其他文档呈现为具有与所选择的文档的内容相匹配的内容。所述一个或多个其他文档以与所选择的文档的自然语言不同的一种或多种相应的自然语言表达。

附图说明

图1是根据本发明实施例的用于搜索以多自然语言表达的文档的方法；

图2是根据本发明实施例的搜索以多种自然语言表达的文档的流程的流程图，其中在图1的系统中实现所述流程；

图3是根据本发明实施例的提取文档结构特征以及基于图2流程中的所提取的特征为文档分类的示例；

图4A-4D描述了根据本发明实施例的图2流程中的提取并为文档结构特征编码的示例；

图5是根据本发明实施例的包括在图1的系统中和实施图2的流程的计算机的框图。

具体实施方式

概述

本发明的实施例提供了无需翻译的多语言文档的有效搜索。多语言文档是其内容以不同的相应的自然语言表达的文档。至少一些文档具有匹配内容，但以不同的自然语言表达(例如，至少一些文档是相同文档的多语言版本)。例如，公司的相同的人力资源政策手册可以作为以第一语言表达的第一文件，以第二语言表达的第二文件和以第三语言表达的第三文件而存在，其中，所述第一、第二和第三文档具有匹配内容。如果所述第一文档的结构组件(即特征)与所述第二文档的结构组件匹配，尽管所述第一文档和第二文档的内容可以不同的自然语言表达，这里描述的多语言文档搜索是基于第一文档的第一内容匹配第二文档的第二内容。所述文档的结构组件包括单词，图片，行开始的指示符，以及指示例如空格，标签，超文本标记语言(HTML)标签，标题，字幕，表格等的标签。文档结构的其他组件可指示图像的位置，部分的长度，句子的数量，段落的数量，句子的开始和段落的开始。在一个实施例中，前述被检索的文档是电子结构的文档，其包括为整个文档或部分文档提供结构的含义的嵌入式标记编码。如本文所使用的，文档的版本是具有以彼此不同的相应语言表达的内容的文档的实例，但是内容在每个版本中表达相同的含义。

如本文所使用的，自然语言被定义为在没有有意识的规划或预先策划的情况下通过使用和重复而在人类中自然演化的语言，并且不同于包括计算机编程语言和有意识地设计以学习逻辑的构造的和形式的语言。如本文所使用的，术语“语言”表示自然语言，除非该术语通过引用构建的语言和/或形式语言而被修改。

搜索一个文档和具有相同内容并以不同语言编写的其他文档的已知方法利用将其他文档翻译成所述一个文档的语言，随后搜索所述一个文档和所翻译的文档。例如，一种已知的方法可以选择一种英文人力资源政策文件，并将原来是用中文和韩文写的其他人力资源政策文件翻译成英文，随后使用查询搜索文档，该查询原始地为英文，或者如果该查询最初是另一种语言，该查询被翻译成英文。在已知方法中使用的翻译需要努力，并可能是不准确的翻译，这可能导致搜索结果不准确或不完整。搜索上述提及的以不同语言编写的文档的其他已知方法涉及对于每种语言使用不同的搜索引擎，但是在将搜索查询翻译成不同语言时仍将引入不正确的翻译，这再次可能导致搜索结果不准确或不完整。此外，用户可能需要翻译或理解以不同语言表达的搜索结果的内容的含义，以便验证搜索结果中的文档实际上具有相同的内容，但是用户可能不具有在不同语言中的熟练程度来(i)进行翻译，(ii)了解以不同语言的文档的含义，或(iii)了解文档中专业术语的含义。仍然，搜索多语言文档的其他已知方法利用通过由一种语言搜索第一文档的图像相似性识别，确定包括在第一文档中的图像，以及查找以包括与所述第一文档中的图像类似的图像的其他语言的文档。图像相似性识别方法可能会导致不准确的搜索结果，因为以不同语言版本的文档可能并不总是包含相似的图像。在假定文档的多语言版本通常具有相同的文档结构特征以及具有相同的标签，比如图像、表格、标题、副标题和段落数目的情况下，本发明各实施例通过使用提取的文档结构特征克服了前述提及的搜索多语言文档的已知方法的缺点。通过使用文档结构的提取的特征，本发明实施例搜索并检索文档的多语言版本，而不使用翻译和不需要用户具有多语言熟练度来理解文档的多语言版本中的以不同语言的内容的含义或特定术语的含义，因此有利地避免(i)将文档内容翻译成不同语言的额外的努力，(ii)用户的多语言熟练度的需求，以及(iii)用户熟练在多语言中行业特定术语的需求。

比如，如这里所披露的，用户利用使用所提取的文档结构特征的多语言文档搜索，检索组成公司产品信息手册的文档，其中检索的文档以不同的语言但由相同的内容组成(比如，表达相同含义的内容)。在这个例子中，用户用英文写搜索查询并检索英文的产品信息手册，因为用户具有英语语言熟练度，但用户还将相同的产品信息手册分发到第一和第二客户，分别作为以中文写的第一个检索的文档，和以韩文写的第二个检索的文件，因为第一个和第二个客户分别具有中文和韩文的语言熟练度。在这个例子中，完成了以不同语言的文档的分发，而不需要用户将英文翻译成中文或韩文，并且不要求用户具有足够的中文和韩文语言熟练度来了解第一个和第二个文件的内容的含义，或了解第一和第二个文档中行业特定术语的含义。

用于搜索多语言文档的系统

图1是根据本发明实施例的用于搜索以多种自然语言表达的文档的系统100的框图。系统100包括计算机102，其执行基于软件的多语言搜索系统104，多语言搜索系统104包括以下基于软件的组件：结构提取工具106，分类器引擎108，语言检测工具110，搜索引擎112，提取/收集组件113，以及排列引擎114。

结构提取工具106接收文档116-1，…，文档116-N，其中N是比1大的整数。结构提取工具106提取文档116-1…，116-N的每一个的结构特征。

分类器引擎108将文档116-1…，116-N分类为由分类器引擎108产生的相互排他的各类别，以便具有匹配的所提取的特征的文档被包括在相同的类别中。具有匹配的所提取的文档结构特征指示了所述文档具有相同或相似的内容。所述各类别的至少一个类别包括具有相同内容，但以不同语言表达的文档。

语言检测工具110接收查询118，其是搜索查询，来搜索基于关键词的包括在文档116-1…，116-N中的文档。文档检测工具110检测表达查询118的语言。语言检测工具110向搜索引擎112发送查询118，搜索引擎112是搜索以所述检测的查询118的语言的文档的搜索引擎。搜索引擎112产生包括以所述检测的查询118的语言的一个或多个文档的搜索结果。提取器/收集器组件113提取搜索结果中每个文档的结构特征并识别由分类器引擎108产生的包括前述搜索结果中的每个文档的类别。提取器/收集器组件113检索在所识别的分类中包括的多语言文档。

排列引擎114排列搜索结果和所述检索的多语言文档中的文档，并将排列的文档呈现为响应于查询118的排列的搜索结果120。

在一个实施例中，排列引擎114包括基于软件的调节器122，其提取关于多因素的数据，包括当前查询语言，用户语言以及在查询结果中的文档的流行度。调节器122通过基于所提取的关于多因素的数据排列文档，产生排列的搜索结果120。调节器122也收集关于由搜索引擎112产生的搜索结果的用户反馈并根据所搜集的用户反馈调节排列的搜索结果120。在可选的实施例中，排列引擎114根据一个或多个前述提及的多因素排列文档，但不包括调节器122。

在下面呈现的图2，图3和图4A-4D和图5的讨论中更详细地描述了图1中示出的组件的功能。

用于搜索多语言搜索的流程

图2是根据本发明实施例的搜索以多自然语言表达的文档的流程的流程图，其中所述流程在图1的系统中实施。图2的流程在步骤200开始。在步骤202之前，多语言搜索系统104(见图1)接收文档116-1…，116-N(见图1)。在步骤202，结构提取工具106(见图1)提取文档116-1…，116-N(见图1)的结构组件(即特征)。

在步骤204，基于在步骤202提取的组件，分类器引擎108(见图1)产生文档116-1…，116-N(见图1)的各类别，以便具有匹配所提取的特征的文档被分组到相同的类别。具有相同类别的文档指示文档具有匹配的内容。所述各类别的至少一个类别包括具有匹配的内容并以不同语言表达的文档。

在步骤204产生各类别之后并在步骤206之前，多语言搜索系统104(见图1)接收查询118(见图1)，其为搜索文档116-1…，116-N(见图1)的搜索查询。在步骤206，语言检测工具110(见图1)检测在查询118中使用的语言(见图1)。

在步骤208，基于查询118(见图1)以及在步骤206中检测的语言，搜索引擎112(见图1)选择文档116-1…，116-N(见图1)中包括的文档，以便所选择的文档的内容被查询118(见图1)指示以及表达所选择的文档的语言与步骤206中检测的语言匹配。

在步骤210，提取器/收集器组件113(见图1)提取步骤208中选择的文档的结构的第一组件。

在步骤212，基于步骤210中提取的第一组件，提取器/收集器组件113(见图1)识别在步骤204中产生的各类别中包括的类别，该类别包括的文档的结构组件与步骤210中提取的第一组件匹配。

在步骤214，提取器/收集器组件113(见图1)检索在步骤212中识别的类别中的文档，其中所检索的文档包括(1)在步骤208中选择的文档和(2)其他文档：(i)其内容与步骤208中选择的文档的内容匹配以及(ii)以与步骤206中检测的语言不同的相应语言表达。

在步骤216，当文档具有匹配内容并以不同语言表达时排列引擎114(见图1)将在步骤214检索的文档排列并呈现所排列的文档。在一个实施例中，所检索的文档的排列是基于多因素的向量，其包括查询118(见图1)的当前语言，提供了查询118的用户的语言以及每一个所检索的文档的的普及性。在一个实施例中，调节器122收集关于搜索引擎112提供的搜索结果的用户反馈(见图1)并基于所收集的用户反馈调节所检索的文档的次序。

在一个实施例中，在步骤202和步骤210中，给定文件的结构组件的提取包括：(1)将文档结构建模为组件的流，其中所述流包括文档文本中的单词以及进一步包括文档结构的其他指示符，而没有文档语义含义的指示符；(2)用指示单词的标签替换流中的单词(例如，用“word”、“word”和“word”替换单词“travel”、“reimbursement”和“policy”)；以及(3)替换单词后，利用在深度神经网络架构中的长短期记忆(LSTM)网络434将所述流编码为数值向量。

在一个实施例中，步骤204中的各类别的产生包括通过确定对给定文档建模的结构流编码的数值向量与一个或多个其他数值向量的每一个之间的距离被最小化(即距离小于预定义的阈值距离)，确定包括给定文档以及一个或多个其他文档的类别，所述一个或多个其他数值向量为对一个或多个其他文档建模的一个或多个其他结构流编码。所述在步骤212中识别类别包括(1)通过利用LSTM网络，确定为对另一个文档建模的结构流编码的另一个数值向量；(2)确定其他数值向量和为对包括在类别中的第一文档建模的结构流编码的数值向量之间的距离；(3)确定所述距离小于预定的阈值距离；以及(4)基于所述距离小于所述阈值距离，确定包括在类别中的一个或多个文档具有匹配其他文档的内容的内容。

示例

图3是根据本发明实施例的提取文档结构特征以及基于图2的流程中所提取的特征为文档分类的示例300。示例300包括结构提取工具106(见图1)接收文档302，文档304和文档306，以及提取(1)文档302的结构的组件308，(2)文档304的结构的组件310和文档306的结构的组件312。前述组件的提取包括在步骤202中(见图2)。分类器引擎108接收组件308，310和312并确定组件310与组件312匹配以及进一步确定组件308与组件310或312不匹配。基于组件308与组件310或312不匹配，分类器引擎108产生仅包括文档302的分类314。基于组件310与组件312匹配，分类器引擎108产生包括文档304和文档306的分类316。分类314和分类316包括在步骤204(见图2)。

图4A-4D描述了根据本发明实施例的图2流程中的提取和为文档的结构特征编码的示例。图4A描述了提取文档结构特征并为其编码的示例。图4A描述了提取文档结构特征并为其编码的示例的第一部分400，第一示例部分400包括政策文档402。在步骤202(见图2)，结构提取工具106(见图1)提取政策文档402的结构组件(即特征)并创建组成前述从政策文档402提取的组件的结构流404。所述结构流404包括政策文档402的文本内容中的单词，新行开始的指示符，下划线指示符，表格指示符以及清单标签。

图4B描述了提取文档结构特征并为其编码的示例的第二部分410。第二示例部分410包括结构流404。多语言搜索系统104(见图1)通过用标签“word”替换包括在结构流404中的所有单词，产生简化的结构流412。

图4C描述了前述提取文档结构特征并为其编码的示例的第三部分430。政策文档402是用英文写的称为政策XYZ文档的文档。政策文档432也是政策XYZ文档，但是用中文写的。政策文档402也被编码成简化的结构流412(见图4B)以及政策文档432被编码成相似的简化的结构流(没在图4C中示出)。多语言搜索系统104(见图1)通过采用在深度神经网络架构中的长短期记忆(LSTM)网络434进一步为前述简化的结构流编码，其连续地接受新输入并从先前的输入向本身反馈以记忆整个流的有意义的部分。利用所述长短期记忆(LSTM)网络434将简化的结构流412(见图4B)转换成第一编码的结构向量436并将为政策文档432编码的简化的结构流转换为第二编码的结构向量438。第一编码的结构向量436和第二编码的结构向量438是数值的，固定长度的向量。分类器引擎108(见图1)将S型函数440应用到第一和第二编码结构向量436和438并确定S型函数440是否被最小化。如果S型函数440被最小化，分类器引擎108确定政策文档402和432具有相同或相似的内容，并且将文档分在相同类别中。

图4D描述了前述提取文档结构特征并为其编码的示例的第四部分450。在分类器引擎108(见图1)使用在跨文档的训练模式中的长短期记忆(LSTM)网络434(见图4C)以确定具有相同或相似内容的文档的类别之后，多语言搜索系统104(见图1)中的文档流编码器452将政策文档402编码成简化的结构流454。随后，多语言搜索系统104的文档结构编码器456(即文档结构LSTM编码器)将简化的结构流454转换成编码的结构向量458。在步骤212，通过确定在所识别的类别中的文档由文档结构编码器456编码为与编码的结构向量458匹配的编码的结构向量，多语言搜索系统104(见图1)将类别识别为包括匹配政策文档402的文档。

通过产生编码的结构向量，该向量是数值的、固定长度的向量，多语言搜索系统104(见图1)有利地表示以相对短的向量，而不是相对较长的向量来表示简化的结构流的文档，并且避免了比较极长的向量以基于具有相同结构的文档确定具有相同或相似内容的文档的困难。例如，简化的结构流可以具有大于3000的可变长度，而由文档结构编码器456产生的相应的编码的结构向量可以具有仅100个要素的固定长度。

计算机系统

图5是根据本发明实施例的包括在图1的系统中和实施图2的流程的计算机102的框图。计算机102是通常包括中央处理单元(CPU)502，存储器504，输入/输出(I/O)接口506和总线508的计算机系统。此外，计算机102耦合到I/O设备510和计算机数据存储单元512。CPU502执行计算机102的计算和控制功能，包括在程序代码514中包括的用于多语言搜索系统104(见图1)的执行指令，以执行搜索多语言文档的方法，其中所述指令经由存储器504由CPU 502执行。CPU 502可以包括单个处理单元，或者分布在一个或多个位置(例如，在客户端和服务器)中的一个或多个处理单元。

存储器504包括已知的计算机可读存储介质，其在下面描述。在一个实施例中，存储器504的高速缓冲存储器元件提供至少一些程序代码(例如，程序代码514)的临时存储，以便在执行程序代码的指令的同时减少必须从大容量存储器检索代码的次数。而且，类似于CPU502，存储器504可以驻留在单个物理位置，包括一种或多种数据存储类型，或者以各种形式分布在多个物理系统上。此外，存储器504可以包括分布在例如局域网(LAN)或广域网(WAN)的数据。

I/O接口506包括用于向或从外部源交换信息的任何系统。I/O设备510包括任何已知类型的外部设备，包括显示器，键盘等。总线508提供计算机102中的每个组件之间的通信链路，并且可以包括任何类型的传输链路，包括电，光，无线等。

I/O接口506还允许计算机102将信息(例如，诸如程序代码514的数据或程序指令)存储在计算机数据存储单元512或其他计算机数据存储单元(未示出)上并从中检索信息。计算机数据存储单元512包括已知的计算机可读存储介质，其在下面描述。在一个实施例中，计算机数据存储单元512是非易失性数据存储装置，例如磁盘驱动器(即，硬盘驱动器)或光盘驱动器(例如，CD-ROM驱动器，其接收CD-ROM磁盘)。

存储器504和/或存储单元512可以存储包括经由存储器504由CPU502执行以搜索多语言文档的指令的计算机程序代码514。尽管图5描绘了包括程序代码的存储器504，本发明考虑了在其中的存储器504不同时包括所有代码514的实施例，而是代替地，一次仅包括代码514的一部分。

此外，存储器504可以包括操作系统(未示出)，并且可以包括图5中未示出的其他系统。

耦合到计算机102的存储单元512和/或一个或多个其他计算机数据存储单元(未示出)可以包括文档116-1，...，116-N(参见图1)和简化的结构化流和表示文档116-1，...，116-N的结构的编码的结构向量(参见图1)。

如本领域技术人员将理解的，在第一实施例中，本发明可以是一种方法；在第二实施例中，本发明可以是系统；在第三实施例中，本发明可以是计算机程序产品。

本发明的实施例的任何组件可以由提供部署或集成关于搜索多语言文档的计算基础设施的服务提供商来部署、管理和服务等。因此，本发明的实施例公开了用于支持计算机基础设施的流程，其中所述流程包括提供用于在包括一个或多个处理器(例如，CPU 502)的计算机系统(例如，计算机102)中集成、托管、维护和部署计算机可读代码(例如，程序代码514)的至少一个的至少一个支持服务，其中处理器执行包含在代码中的指令，使计算机系统搜索多语言文档。另一实施例公开了用于支持计算机基础设施的流程，其中该流程包括将计算机可读程序代码集成到包括处理器的计算机系统中。所述集成步骤包括通过使用处理器将程序代码存储在计算机系统的计算机可读存储设备中。程序代码在被处理器执行时实现了一种搜索多语言文档的方法。

虽然可理解，用于搜索多语言文档的程序代码514可以通过经由加载计算机可读存储介质(例如，计算机数据存储单元512)手动地直接在客户机、服务器和代理计算机(未示出)中加载来部署，程序代码514也可以通过将程序代码514发送到中央服务器或一组中央服务器来自动或半自动地部署到计算机102中。程序代码514然后被下载到将执行程序代码514的客户端计算机(例如，计算机102)中。或者，程序代码514通过电子邮件直接发送到客户端计算机。程序代码514然后通过电子邮件上的按钮，或被分离到客户端计算机上的目录或加载到客户端计算机上的目录中，该按钮执行将程序代码514分离到目录的程序。另一个选择是将程序代码514直接发送到客户端计算机硬盘驱动器上的目录。在有代理服务器的情况下，该流程选择代理服务器代码，确定哪些计算机放置代理服务器的代码，传输代理服务器代码，然后在代理计算机上安装代理服务器代码。程序代码514被发送到代理服务器，然后存储在代理服务器上。

本发明的另一个实施例提供一种在订阅、广告和/或费用基础上执行处理步骤的方法。也就是说，诸如解决方案集成商的服务提供商可以提供对于搜索多语言文档的流程的创建、维护和支持等。在这种情况下，服务提供商可以对执行一个或多个客户的流程步骤的计算机基础设施进行创建、维护和支持等。作为回报，服务提供商可以根据订阅和/或费用协议从客户接收付款，和/或服务提供商可以从一个或多个第三方的广告内容的销售中接收付款。

本发明可以是在任何可能的整合的技术细节级别的系统，方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令514的计算机可读存储介质(即存储器504和计算机数据存储单元512)，用于使处理器(例如，CPU 502)执行本发明的各个方面。

计算机可读存储介质可以是可以保留和存储用于由指令执行装置(例如计算机102)使用的指令(例如，程序代码514)的有形装置。计算机可读存储介质可以是例如但不限于电子存储设备，磁存储设备，光学存储设备，电磁存储设备，半导体存储设备或上述的任何合适的组合。计算机可读存储介质的更具体示例的非详尽列表包括以下：便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程读取存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如其上具有记录的指令的穿孔卡或凹槽中的凸起结构的机械编码的装置，以及上述的任何合适的组合。如本文所使用的，计算机可读存储介质不应被解释为暂时信号本身，例如无线电波或其它自由传播的电磁波，通过波导或其它传输介质传播的电磁波(例如，通过光纤电缆的光脉冲)或通过电线传输的电信号。

本文描述的计算机可读程序指令(例如，程序代码514)可以从计算机可读存储介质或外部计算机或外部存储设备(例如计算机数据存储单元512)经由网络(未示出)，例如因特网，局域网，广域网和/或无线网络，下载到相应的计算/处理设备(例如，计算机102))。网络可以包括铜传输电缆，光传输光纤，无线传输，路由器，防火墙，交换机，网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡(未示出)或网络接口(未示出)从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相关计算/处理设备中的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令(例如，程序代码514)可以是汇编指令，指令集架构(ISA)指令，机器指令，依赖机器指令，微代码，固件指令，状态设置数据，用于集成电路的配置数据，或以一种或多种编程语言的任何组合编写的源代码或目标代码，包括面向对象的编程语言，例如Smalltalk，C++等，以及程序化的编程语言，诸如“C“编程语言或类似的编程语言。计算机可读程序指令可以完全在用户的计算机上执行，部分地在用户的计算机上执行，作为独立的软件包，部分地在用户的计算机上和部分地在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种场景，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者连接到外部计算机(例如，通过使用互联网服务提供商的因特网)。在一些实施例中，包括例如可编程逻辑电路，现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来个性化电子电路，执行计算机可读程序指令以执行本发明的各方面。

在此参照根据本发明实施例的方法，装置(系统)和计算机程序产品的流程图(例如图2)和/或框图(例如图1和图5)描述本发明的各方面。应当理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令(例如，程序代码514)来实现。

这些计算机可读程序指令可以被提供给通用计算机，专用计算机或其他可编程数据处理装置(例如，计算机102)的处理器(例如，CPU 502)以产生机器，使得通过计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图框或框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质(例如，计算机数据存储单元512)中，其可引导计算机，可编程数据处理设备和/或其他设备以特定方式工作，使得具有存储在其中的指令的计算机可读存储介质包括制品，其包括执行流程图和/或框图框或框中指定的功能/动作的各方面的指令。

计算机可读程序指令(例如，程序代码514)也可以被加载到计算机(例如，计算机102)，其他可编程数据处理装置或其他设备上，以使得在计算机上，其他可编程装置或其他设备上执行一系列可操作步骤，以产生计算机实现的处理，使得在计算机，其他可编程装置或其他设备上执行的指令实现流程图和/或框图框或框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明各种实施例的系统，方法和计算机程序产品的可能实现的架构，功能和操作。在这方面，流程图或框图中的每个框可以表示包括用于实现指定的逻辑功能的一个或多个可执行指令的模块，段或指令部分。在一些替代实施方案中，框中记录的功能可能不符合附图记录的顺序。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本同时执行，或者有时可以以相反的顺序执行框。还将注意到，框图和/或流程图示例的每个框以及框图和/或流程图示例中的框的组合可以由执行指定的功能或动作的特殊目的的基于硬件的系统来实现，或者执行指定目的的硬件和计算机指令的组合。

虽然为了说明的目的在本文中描述了本发明的各实施例，但是对于本领域技术人员来说，许多修改和变化将变得显而易见。因此，所附权利要求旨在包括落入本发明的范围内的所有这些修改和变化。

Claims

1.一种用于搜索以多种自然语言表达的文档的计算机实现的方法，所述方法包括如下步骤：

计算机提取以所述多种自然语言表达的文档的结构的组件；

基于所提取的文档的结构的组件，计算机将文档分类为包括以各自不同的自然语言表达的各自相互排他的文档集合的各类别，每个集合中的文档具有匹配的内容；

计算机检测查询用的自然语言；

基于所述查询和所检测的自然语言以及基于搜索引擎的利用，计算机选择包含在所述文档中的其内容由查询指示并且其自然语言与所检测的自然语言匹配的文档；

计算机提取所选择的文档的结构的第一组件；

基于所提取的第一组件，所述计算机识别在所述各类别中包括的，包括了所选择的文档的类别；

计算机识别在所识别的类别中的一个或多个其他文档；以及

计算机将所述一个或多个其他文档呈现为具有与所选择的文档的内容相匹配的内容，所述一个或多个其他文档以与所选择的文档的自然语言不同的一种或多种相应的自然语言表达。

2.如权利要求1所述的方法，其中执行提取组件，为文档分类，检测自然语言，选择文档，提取第一组件，识别一个或多个其他文档以及呈现所述一个或多个其他文档的步骤，不需要翻译所述文档、一个或多个其他文档或查询。

3.如前述权利要求中任一项所述的方法，其中提取组件的步骤包括以下步骤：

将包括在所述文档中的第一文档的结构建模为所述第一组件的第一流，所述流包括所述文档的单词和文档结构的其他指示符，而没有文档语义含义的指示符；

用指示单词的第一标签替换流中的单词；以及

接着所述替换步骤，通过利用长短期记忆(LSTM)网络将流编码为数值向量，其中将文档分类的步骤包括确定包括所述文档和所述一个或多个其他文档的类别，所述类别通过最小化所述数值向量和一个或多个其他数值向量之间的距离确定，所述其他数值向量产生于为对所述一个或多个其他文档建模的一个或多个其他流编码。

4.如权利要求3所述的方法，其中识别类别的步骤包括如下步骤：

通过利用LSTM网络，确定为另一个流编码的另一个数值向量，所述另一个流为所选择的文档的结构建模；

确定所述数值向量和其他数值向量之间的第一距离；

确定所述第一距离小于所述阈值距离；以及

基于所述第一距离小于所述阈值距离，确定在类别中的一个或多个其他文档具有匹配所选择的文档的内容的内容。

5.如前述权利要求中任一项所述的方法，进一步包括如下步骤：

计算机提取多个因素作为用于查询的候选结果的向量，所述因素包括查询用的语言、用户语言和普及性；以及

计算机基于提取的多个因素排列候选结果，其中识别所述一个或多个其他文档的步骤是部分基于排列的候选结果。

6.如权利要求5所述的方法，进一步包括如下步骤：

计算机收集关于所述文档的其他查询的结果的用户反馈；以及

基于所收集的用户反馈，计算机调节排列的候选结果的次序。

7.如前述权利要求中任一项所述的方法，其中提取组件的步骤包括提取文档中的单词、标签、图像和行的指示符。

8.如前述权利要求中任一项所述的方法，进一步包括如下步骤：

提供至少一个支持服务，用于在计算机中创建、集成、托管、维护和部署计算机可读代码的至少一个，程序代码由计算机处理器执行以实施提取组件、为文档分类、检测自然语言、选择文档、提取第一组件、识别类别、识别一个或多个其他文档以及呈现一个或多个其他文档的步骤。

9.一种用于搜索以多种自然语言表达的文档的计算机程序产品，所述计算机程序产品包括计算机可读存储介质，其可由处理电路读取并且存储用于由处理电路执行以用于执行根据权利要求1至8中任一项所述的方法的指令。

10.一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序，包括软件代码部分，当所述程序在计算机上运行时，用于执行根据权利要求1至8中任一项所述的方法。

11.一种计算机系统包括：

中央处理单元(CPU)；

耦合到CPU的存储器；以及

耦合到所述CPU的计算机可读存储装置，所述计算机可读存储装置包含经由所述存储器由所述CPU执行的指令，以实现以多种自然语言表示的文档的搜索方法，所述方法包括以下步骤：

计算机系统提取以多种自然语言表达的文档的结构的组件；

基于所提取的文档的结构的组件，计算机系统将文档分类为包括以各自不同的自然语言表达的各自相互排他的文档集合的各类别，每个集合中的文档具有匹配的内容；

计算机系统检测查询用的自然语言；

基于所述查询和所检测的自然语言以及基于搜索引擎的利用，计算机系统选择包含在所述文档中的其内容由查询指示并且其自然语言与所检测的自然语言匹配的文档；

计算机系统提取所选择的文档的结构的第一组件；

基于所提取的第一组件，所述计算机系统识别在所述各类别中包括的，包括了所选择的文档的类别；

计算机系统识别在所识别的类别中的一个或多个其他文档；以及

计算机系统将所述一个或多个其他文档呈现为具有与所选择的文档的内容相匹配的内容，所述一个或多个其他文档以与所选择的文档的自然语言不同的一种或多种相应的自然语言表达。

12.如权利要求11所述的计算机系统，其中执行提取组件、为文档分类、检测自然语言、选择文档、提取第一组件、识别一个或多个其他文档以及呈现所述一个或多个其他文档的步骤，不需要翻译所述文档、一个或多个其他文档或查询。

13.如权利要求11或12任一项所述的计算机系统，其中提取组件的步骤包括如下步骤：

用指示单词的第一标签替换流中的单词；以及

接着所述替换步骤，通过利用长短期记忆(LSTM)网络将流编码为数值向量，其中将文档分类的步骤包括确定包括所述文档和所述一个或多个其他文档的类别，所述类别通过最小化所述数值向量和一个或多个其他数值向量之间的距离确定，其他数值向量产生于为对所述一个或多个其他文档建模的一个或多个其他流编码。

14.如权利要求13所述的计算机系统，其中识别类别的步骤包括如下步骤：

确定所述数值向量和其他数值向量之间的第一距离；

确定所述第一距离小于阈值距离；以及

15.如权利要求11至14任一项所述的计算机系统，其中所述方法进一步包括如下步骤：

计算机系统提取多个因素作为用于查询的候选结果的向量，所述因素包括查询用的语言、用户语言和普及性；以及计算机基于提取的多个因素排列候选结果，其中识别所述一个或多个其他文档的步骤是部分基于排列的候选结果。

16.如权利要求15所述的计算机系统，其中所述方法进一步包括如下步骤：

计算机系统收集关于所述文档的其他查询的结果的用户反馈；以及

基于所收集的用户反馈，计算机系统调节排列的候选结果的次序。

17.如权利要求11至16任一项所述的计算机系统，其中提取组件的步骤包括提取所述文档中的单词、标签、图像和行的指示符。

18.如权利要求11至17中任一项所述的计算机系统，其中所述方法还包括提供用于在计算机中创建、集成、托管、维护和部署计算机可读程序代码中的至少一个的至少一个支持服务，程序代码由计算机的处理器执行以实现提取组件、对文档分类、检测自然语言、选择文档、提取第一组件、识别分类、识别一个或多个其他文档以及呈现一个或多个其他文档的步骤。