CN111625615A

CN111625615A - 文字提取与处理

Info

Publication number: CN111625615A
Application number: CN202010103513.0A
Authority: CN
Inventors: 长谷川徹; 植月洋晶; 石川隼辅; 吉田一星; 岩井麻子; 冨永康之; 渡边健太; 菊地弘晶
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-02-27
Filing date: 2020-02-20
Publication date: 2020-09-04
Anticipated expiration: 2040-02-20
Also published as: US20200272648A1; US10963490B2; CN111625615B

Abstract

本公开涉及文字提取与处理。提供了系统、计算机程序产品和方法以选择性地对文档或文件的一个或多个子集加索引。当从文档或文件提取数据时，提取出的文本被组织成数据部分并经受评价。利用元特性数据来评估提取出的文本。所组织的数据部分的一个或多个子集被选择性地识别并经受充实处理，这创建并返回文档或文件的充实和加索引的子集。

Description

文字提取与处理

技术领域

本实施例涉及文档处理。更具体而言，实施例涉及智能平台，该智能平台通过对文档的各方面进行优先化并响应于该优先化而进行充实活动来增强文本识别和提取。

背景技术

在大型数据池(诸如文档储存库)中有大量数据可用时，搜索和查找相关数据具有挑战性。数据探索被认为是针对数据池的数据分析的初始或初步步骤，并且通常涉及通过揭示初始模式、特性和兴趣点来概括数据特性。通常采用手动方法和自动工具(诸如数据可视化、图表和初始报告)的组合来支持数据探索。在数据探索完成之后，可以进行数据发现形式的进一步的数据评价。

对于支持单词搜索的系统或搜索引擎，摄取文件，从摄取的文件中提取文本，并且对提取的单词进行充实，然后加索引。当对应的文档或文件大时，存在与文本提取相关联的关注或缺点。即，充实和加索引需要大量的处理器或存储器使用，并且使对应文件可搜索所需的时间相当长。例如，当要摄取的文件为几吉字节(例如GB)时，文本提取需要几分钟才能完成，而文本充实和加索引需要几个小时才能完成。从大文件中进行文本提取的另一个缺点是索引的大小。即，与文件对应的索引与文件大小成比例，并且搜索索引的时间随着索引的大小增加而成比例地增加。例如，文档可以出现在搜索结果中，因为文档具有与查询参数匹配的大量单词，但是文档可能包含无意义的信息。

现有技术的数据探索工具可以限制文件大小。例如，在本领域中已知的是，当文件大小超出设定的字符数量(例如，字符量)时，终止文本提取，或者在一个实施例中，不对大于设定的大小(例如，字节数量)的文件进行数据提取。但是，这样的解决方案仅仅是不考虑大文件用于提取，而没有考虑大文件内可能存在的数据的价值。现有技术的数据探索工具可以采用索引修剪，以通过移除被认为是低价值的单词来减小索引的大小并提高搜索性能。修剪可以静态地进行(例如在查询执行之前)或动态地进行(例如在查询执行期间)。但是，索引修剪不能解决对从摄取的文件中提取的文本进行充实和加索引所需的CPU和存储器资源。因而，需要解决在数据探索中存在的对支持文件的高效和有效处理的限制，而不管对应的文件大小如何。

发明内容

实施例包括用于文档处理的系统、计算机程序产品和方法，所述文档处理包括选择性地识别文档的部分并对它们进行充实和加索引。

在一个方面，提供了一种计算机系统，该计算机系统具有可操作地耦合到存储器的处理单元，以及可操作地耦合到处理单元和存储器的知识引擎。知识引擎配置有管理器和指导器形式的工具，这些工具配置有支持文档充实和加索引的功能。管理器被配置为从文档或文件中提取文本数据，识别所提取的文本数据内的数据部分，并为每个识别出的数据部分评估得分。指导器被配置为利用所评估的得分来执行识别出的子集的充实处理。在执行充实处理之后，创建一个或多个数据部分的加索引的子集并从指导器返回该子集。

在另一方面，提供了一种计算机程序产品来处理文本数据。该计算机程序产品设置有具有实施的程序代码的计算机可读存储装置。程序代码可由处理单元执行，该处理单元具有支持文档充实和加索引的功能。提供程序代码以从文档或文件中提取文本数据，识别所提取的文本数据内的数据部分，并为每个识别出的数据部分评估得分。还提供程序代码以利用所评估的得分来执行识别出的子集的充实处理。在执行充实处理之后，创建一个或多个数据部分的加索引的子集并返回该子集。

在另一方面，提供了一种用于处理文本数据的方法，包括文档充实和加索引。从文档或文件中提取文本数据，识别所提取的文本数据内的数据部分，并为每个识别出的数据部分评估得分。利用所评估的得分来执行识别出的子集的充实处理。在执行充实处理之后，创建一个或多个数据部分的加索引的子集并返回该子集。

通过结合附图对当前优选的实施例的以下详细描述，这些以及其它特征和优点将变得明显。

附图说明

本文参考的附图形成说明书的一部分。除非另外明确指出，否则附图中所示的特征仅意在说明一些实施例，而不是所有实施例。

图1描绘了图示用于支持文档处理和加索引的计算机系统和嵌入式工具的示意图的系统图。

图2描绘了图示图1中所示的充实和加索引工具及其相关联的API的框图。

图3A和3B一起描绘了一流程图，该流程图图示了展示文本提取和提取出的文本的处理的流程图。

图4A和4B一起描绘了一流程图，该流程图图示了用于文档的部分的一个或多个选定子集的文档处理的过程。

图5是描绘了用以实现以上关于图1-4描述的系统和处理的基于云的支持系统的计算机系统/服务器的示例的框图。

图6描绘了图示云计算机环境的框图。

图7描绘了图示由云计算环境提供的一组功能抽象模型层的框图。

具体实施方式

将容易理解，如本文的附图中一般性描述和图示的，本实施例的部件可以以各种不同的配置来布置和设计。因此，如图中所示，对本实施例的装置、系统、方法和计算机程序产品的实施例的以下详细描述并非旨在限制所要求保护的实施例的范围，而仅仅代表所选择的实施例。

在整个说明书中，对“选定实施例”，“一个实施例”或“实施例”的引用是指结合该实施例描述的特定特征、结构或特性被包括在至少一个实施例中。因此，贯穿本说明书在各处出现的短语“选定实施例”、“在一个实施例中”或“在实施例中”不一定是指同一个实施例。

通过参考附图将最好地理解所示的实施例，其中相同的部分通篇由相同的数字表示。以下描述仅旨在作为示例，并且简单地图示了与本文所要求保护的实施例一致的设备、系统和处理的某些所选择的实施例。

在信息技术(IT)中，文本是人类可读的字符序列。由文本形成的单词可以被编码为计算机可读格式。文本与非字符编码数据(例如对象，诸如图形图像和单词)区分开来。文档由文本信息形成，在一个实施例中，文本信息可以是电子形式并作为一个或多个文件存储在计算机中。在本领域中认识到，文档可以包括连续文本的一个或多个句子。例如，字处理应用识别以字符开始的文本组成部分的层次结构，其中字符被组织成一个或多个单词，单词可以被组织成一个或多个句子，句子可以被组织成一个或多个段落，段落可以被组织成文档的一个或多个章或节，等等。因而，文档被理解为构成章和/或节，每个章和/或节具有段落的层次结构布置。

参考图1，计算机系统(100)设置有支持文档处理和加索引的工具。如图所示，提供了服务器(110)，其跨网络连接(105)与多个计算设备(180)、(182)、(184)、(186)和(188)通信。服务器(110)配置有处理单元(112)，其跨总线(116)可操作地耦合到存储器(114)。知识引擎(150)形式的工具被示出为在服务器(110)本地，并且可操作地耦合到处理单元(112)和/或存储器(114)。如图所示，知识引擎(150)包含一个或多个工具(152)-(154)，以通过网络(105)从一个或多个计算设备(180)、(182)、(184)、(186)和(188)提供文档处理和加索引。更具体而言，计算设备(180)、(182)、(184)、(186)和(188)经由一条或多条电线和/或无线数据通信链路彼此通信以及与其它设备或部件通信，其中每条通信链路可以包括电线、路由器、交换机、发送器、接收器等中的一个或多个。在这种联网布置中，服务器(110)和网络连接(105)可以使得能够对一个或多个内容用户进行文档处理和加索引。服务器(110)的其它实施例可以与除本文所描绘的那些以外的部件、系统、子系统和/或设备一起使用。

包括知识引擎(150)的工具，或者在一个实施例中嵌入在其中的包括管理器(152)和指导器(154)的工具可以被配置为从各种源接收输入，包括但不限于来自网络(105)和知识库(160)的输入。在一个实施例中，知识库(160)包括在本文被表示为documents_A(162_A)、documents_B(162_B)和documents_N(162_N)的文件的多个文档，以下统称为文档。虽然在知识库(160)中仅示出了三个文档，但是数量可以变化，因此本文示出的数量不应当被认为是限制性的。类似地，在一个实施例中，知识库(160)用作结构化或非结构化数据的语料库。

与网络(105)通信的各种计算设备(180)、(182)、(184)、(186)和(188)展示了内容创建者和内容用户的接入点。一些计算设备可以包括用于存储作为由知识引擎(150)以及在一个实施例中的工具(152)-(154)使用的信息主体的数据语料库的数据库的设备，以创建文档或文件的一个或多个数据部分的加索引的子集。在各种实施例中，网络(105)可以包括本地网络连接和远程连接，使得知识引擎(150)和嵌入式工具(152)-(154)可以在包括本地和全局(例如互联网)的任何大小的环境中操作。因而，服务器(110)和知识引擎(150)用作前端系统，而知识库(160)和文档(162_A)-(162_N)用作后端系统。

如图所示，用作数据存储的知识库(160)可操作地耦合到服务器(110)。内容用户可以经由API管理或编排平台访问系统，如图2中所示和描述的。

如以下详细描述的，服务器(110)和知识引擎(150)处理文档并选择性地使文档的部分(例如子集)经受充实和加索引。在本文中也称为信息处置系统的知识引擎(150)利用管理器(152)和指导器(154)来选择性地使文档的部分经受充实和处理。虽然被示出为在服务器(110)中实施或与服务器(110)集成，但是知识引擎(150)可以在跨网络(105)连接到服务器(110)的单独的计算系统(例如，190)中实现。无论在何处实施，管理器(152)和指导器(154)都被用于管理和处理文档数据，更具体而言，用于选择性地识别并优先化文档的子集，并使该子集经受充实和加索引。如图所示，知识引擎(150)被示出为可操作地耦合到数据存储(160)，在本文被示出为具有一个或多个文档(162_A)-(162_N)。虽然被示出为在服务器(110)本地，但是工具(152)-(154)可以集体或单独地嵌入在存储器(116)中。

在本领域中应该理解，文档包含数据，包括文本数据，并且在一个实施例中包括非文本数据。管理器(152)用于从一个或多个文档(诸如document_A(162_A))中提取文本形式的数据。所提取的文本被识别为数据部分的汇编或分组。管理器(152)使提取出的数据部分经受评价。更具体而言，管理器(152)使每个数据部分经受数学评价(例如计算)，并将数值(例如得分)附加到每个经评价的数据部分。管理器(152)利用元数据特性(也称为元特性)来量化数据部分的各方面，然后将其用于评价。元特性可以包括但不限于文档标题、章标题、节标题、章内的位置、节内的位置以及提要(highlighting)。计算的细节以及如何评估数据部分在图3A和3B中详细示出和描述。因而，管理器(152)负责文本提取和文本评价。

指导器(154)被示出为可操作地耦合到管理器(152)和知识库(160)。指导器(154)负责选择性地识别由管理器(152)提取的数据部分的子集。更具体而言，指导器(154)基于分别附加的得分(例如，数学评价)进行选择性识别。例如，在一个实施例中，指导器(154)基于每个数据部分的附加的得分向每个数据部分指派执行优先级值。指导器(154)负责基于计算出的得分对识别出的子集执行充实处理。为了清楚起见，与整个文档相反，指导器(154)确保在数据部分的子集上有选择地执行充实处理。数据部分的充实处理创建该数据部分的加索引的子集。如本文中所示，documents_A(162_A)被示出为具有多个数据部分，包括部分(164_A,1)、(164_A,2)和(164_A,N)，并且每个数据部分被示出为具有对应的加索引的子集，本文中示出为subset_A,1(166_A,1)、subset_A,2(166_A,2)和subset_A,N(166_A,N)。Documents_B(162_B)和Documents_N(162_N)也可以被处理成数据部分和加索引的子集。在一个实施例中，每个子集与文档的相应数据部分对应。在本文所示的示例中，示出每个数据部分具有加索引的子集，但是在一个实施例中，数据部分的子集可以具有对应的加索引的子集。类似地，在一个实施例中，在对文档的每个数据部分加索引之后，指导器(154)可以选择性地和/或顺序地合并加索引的子集以创建用于文档的单个索引，从而有效地链接或连接(join)选定的加索引的子集。单个索引可以包括所有子集或子集的选择。在一个实施例中，索引合并可能受制于大小约束，其中加索引的子集受其相应大小的限制。因而，当文档的每个数据部分经受充实时，创建数据部分的对应加索引的子集以支持查询处理。

如本文所示和描述的，使大文档经受充实和加索引既昂贵又麻烦。管理器(152)和指导器(154)用于对文档进行分区，有效地创建至少两个分区(例如数据部分)，并选择性地且单独地使数据部分经受充实和加索引。可以基于一个或多个因素对文档(162_A)–(162_N)进行分区。例如，在一个实施例中，可以按主题或子主题、章、节等对文档进行分区，而不考虑停止词的识别和移除。因而，管理器(152)用于管理文档的划分，同时为数据提供结构和值。

文档和文件可以跨网络(105)传送到服务器(110)。例如，在一个实施例中，可以将一个或多个文档或文件从非易失性数据存储(190a)传送到服务器(110)。管理器(152)处理无论是来自知识库(160)还是跨网络(105)的文档。在一个实施例中，管理器(152)基于文档的存储位置向经受处理的文档指派权重，例如数学因子。类似地，应该理解的是，不同的文档或文件可以包括文本和/或非文本数据，并且还应该理解的是，不同文档或文件的文本数据可以具有不同的格式。管理器(152)可以基于文档或文件格式而使得分计算经受变化。例如，具有format_A的documents_A可以将格式化factor_A应用于得分计算，而具有不同于format_A的format_B的documents_B与可以将格式化factor_B应用于得分计算。

本文所示并描述的由知识引擎(150)及其嵌入式管理器(152)和指导器(154)支持的处理针对文本数据，在一个实施例中，文本数据是结构化文本。在一个实施例中，经受处理的文档可以具有一个或多个具有非结构化文本的数据部分。管理器(152)识别具有非结构化文本的文档的数据部分，并将非结构化文本转换成结构化文本。因而，作为从相应数据部分进行的数据提取处理的一部分，管理器(152)识别底层数据的结构，并选择性使底层数据经受转换处理，以将非结构化文本转换成结构化文本。

可以利用服务器(110)的信息处置系统的类型范围从小型手持式设备(诸如手持式计算机/移动电话(180))，到大的大型机系统(诸如大型计算机(182))。手持式计算机(180)的示例包括个人数字助理(PDA)、个人娱乐设备(诸如MP4播放器)、便携式电视和光盘播放器。信息处置系统的其它示例包括笔或平板计算机(184)、膝上型计算机或笔记本计算机(186)、个人计算机系统(188)和服务器(190)。如图所示，可以使用计算机网络(105)将各种信息处置系统联网在一起。可以用于互连各种信息处置系统的计算机网络(105)的类型包括局域网(LAN)、无线局域网(WLAN)、互联网、公共交换电话网(PSTN)、其它无线网络、以及可以用于互连信息处置系统的任何其它网络拓扑。许多信息处置系统包括非易失性数据存储，诸如硬盘驱动器和/或非易失性存储器。一些信息处置系统可以使用单独的非易失性数据存储(例如，服务器(190)使用非易失性数据存储(190a)，并且大型计算机(182)使用非易失性数据存储(182a))。非易失性数据存储(182a)可以是在各种信息处置系统外部或可以在信息处置系统之一内部的部件。

信息处置系统可以采取许多形式，其中一些形式在图1中示出。例如，信息处置系统可以采取台式机、服务器、便携式计算机、膝上型计算机、笔记本计算机或其它形状因子计算机或数据处理系统的形式。此外，信息处置系统可以采取其它形状因子，诸如个人数字助理(PDA)、游戏设备、ATM机、便携式电话设备、通信设备或包括处理器和存储器的其它设备。

应用程序接口(API)在本领域中被理解为两个或更多个应用之间的软件中介。关于图1中示出和描述的文档处理系统，可以利用一个或多个API来支持管理器(152)和指导器(154)中的一个或多个以及它们的相关联的功能。参考图2，提供了图示文档处理工具及其相关联的API的框图(200)。如图所示，多个工具被嵌入在知识引擎(205)内，这些工具包括与API₀(212)相关联的管理器(210)和与API₁(222)相关联的指导器(220)。每个API可以以一种或多种语言和接口规范来实现。API₀(212)提供文本提取和评价；而API₁(222)提供选择性子集识别以及充实和加索引处理。如图所示，API(212)和(222)中的每一个可操作地耦合到API编排器(260)，其也称为编排层，其在本领域中被理解为用作抽象层以透明地将分离的API用线程连接在一起。在一个实施例中，可以接合或组合分离的API的功能。照此，本文所示的API的配置不应被认为是限制性的。因而，如本文所示，工具的功能可以由它们相应的API来实施或支持。

本文描述的实施例针对从文档或文件的文本提取，其中提取被配置为支持文档查询。为了提供附加的细节以更好地理解本公开的选择的实施例，现在参考图3A和3B，它们一起图示了展示文本提取和对提取出的文本的处理的流程图300。变量X_Total被赋值经受提取和处理(302)的文档的数量，并且文档计数变量X被初始化(304)。文档的储存库或库中的每个文档具有与文档元信息一致的相关联的权重。下表(表1)是文档元信息和相关联的文档加权的示例：

元信息	权重
		文档位于服务器部门中	2
文档位于被所有实体共享的服务器中	1
		文档位于互联网中	0.8
文档在超过30天之前被更新	0.5
		文档在超过1年之前被更新	0.3

表1

在这个示例中，权重是文档位置或文档年龄的因子，这仅仅是示例并且不应当被视为限制性的。对于每个要经受处理的文档document_X，从文档元信息中识别文档的权重(306)。在步骤(306)之后，递增文档计数变量(308)，然后确定是否已经处理了每个文档来识别对应的元信息(310)。对步骤(310)处的确定的否定响应之后，返回到步骤(306)，并且肯定响应结束针对文本提取的初始文档处理。在一个实施例中，本文所示的元信息识别可以静态地或动态地进行，例如，与文本提取和处理实时地进行。因而，如本文所示，文本提取处理的至少一部分包括文档元信息提取和/或识别。

在步骤(310)之后，文档计数变量X被重新初始化(312)，并且对应的句子计数变量Y被初始化(314)。从document_X中提取sentence_Y(316)。如本文所示，句子提取从文档的开头开始，但是本文所示的提取次序不应当被视为限制性的。在一个实施例中，提取可以以不同的次序发生。每个提取出的句子具有对应的句子标识符，在一个实施例中，该句子标识符是识别该句子的序号。在步骤(316)之后，创建或获得标识符ID_Y，并将其分配给sentence_Y(318)。此外，得分score_A被分配给提取出的sentence_Y(320)。得分针对提取出的句子的元信息。下表(表2)是文档元信息和相关联的文档加权的示例：

组成部分	score<sub>A</sub>
		标题	100
章的标题	50
		节的标题	30
章的第一个句子	20
		节的第一个句子	10
带有粗体字符的句子	5
		其它	1

表2

表2中所示的示例句子评分针对句子元信息，诸如句子在文档内的位置以及其它句子特性。得分是基于句子元信息而被分配给句子的权重的示例。组成部分和对应的得分是展示句子提取和评价的示例，并且不应当被视为限制性的。因而，当从文档中提取每个句子并经受处理时，确定初始句子特征数据，并将与该特征数据对应的得分与该句子相关联或分配给该句子。

元信息在本文中被称为score₁。使用用于提取出的句子的元信息，将用于提取出的句子的得分(在本文中称为score_Y)计算为score_A和权重的乘积(322)。在步骤(322)处的计算之后，具有标识符ID_Y的句子sentence_Y、score_Y和sentence_Y中的字符数被存储(324)，随后递增句子计数变量(326)。进行确定以评估是否已经为每个句子计算了得分(328)。在步骤(328)处对确定的否定响应之后，返回到步骤(316)，并且肯定响应结束句子得分计算。在一个实施例中，得分计算与文本提取一起进行。类似地，在一个实施例中，score_Y被称为优先级值。在步骤(328)处的肯定响应之后，递增文档计数变量X(330)，并确定是否已经关于句子识别和提取处理了每个文档(332)。在对步骤(332)处的确定的否定响应之后，返回到步骤(314)，并且肯定响应结束句子提取处理。因而，基于两个因子(包括score₁和权重)为文档中的每个句子评估得分。

本文所示和描述的文本提取从指定的文档的每个句子的开头发生。提取出的句子以及它们相应的标识符被存储和/或组织成数据结构。在一个实施例中，获得每个句子中的字符的数量并将其表示在数据结构中。下表(表3)是存储文档元信息和相关联的文档加权的数据结构的示例：

标识符	得分	字符的数量	文本
				1	100*0.5＝50	17	例句1
2	50*0.5＝25	14	例句2
				3	20*0.5＝10	25	例句3
4	1*0.5＝0.5	30	例句4

表3

表3中的得分是表2中的score₁和表1中的权重的乘积。如表3中所示，提取的句子是超过30天之前更新的文档的一部分。因而，从文档中提取句子并进行评估，分配的得分在文本提取时计算并存储在对应的或指派的数据结构中。

参考图4A和4B，提供了图示对文档的部分的一个或多个选定子集的文档处理的流程图(400)。与图3A和3B相似，变量X_Total表示经受评估的文档的数量(402)，并且对应的文档计数变量X被初始化(404)。变量TC_X表示document_X中的字符的总数(406)。在一个实施例中，TC_X被获得为表3的第三列中表示的数量的总和。然后确定字符的总数TC_X是否大于LimitSize(408)，其中LimitSize表示用于使句子经受充实处理的大小限制。目的是选择性地处理文档内的句子。在一个实施例中，LimitSize是或者静态或者动态可配置的可配置值。对步骤(408)处的确定的肯定响应是文档整体上太大以至于无法进行充实处理(例如CPU和存储器的负担过大)的指示。但是，对步骤(408)处的确定的否定响应是充实处理不太繁重的指示，并且文档document_X被传递到充实处理(410)。因而，LimitSize用作与CPU和存储器上用于充实处理的负担对应的阈值。

对步骤(408)处的确定的肯定响应是需要选择性修剪文档document_X的指示。特性数据的不同方面可以被用于修剪。变量T表示数据结构计数变量，其中该数据结构基于句子属性和句子元数据来表示和组织文档句子(412)。变量T被初始化(414)。document_X中的所有句子被表示在对应的数据结构DS_T中，参见表3。基本得分表示DS_T中表示的句子的阈值得分(416)。在一个实施例中，基本得分是或者静态或者动态可配置的值。基本得分被应用于DS_T，并且DS_T中表示的所有句子都关于基本得分经受优先化，例如排序，其中将具有大于基本得分的得分的所有句子选择用于进一步处理(418)并从document_X中移除(420)。递增数据结构计数变量T(422)，创建新数据结构DS_T(424)，并将从DS_T-1移除的句子添加到该新数据结构DS_T(426)。此外，将变量S_Total赋值填充到DS_T的句子的数量(428)。如表3中所示，数据结构包括字符计数。在新数据结构DS_T中，所有句子当中的字符的数量S_Total被赋值给变量TC_DST(430)。

类似于步骤(408)处所示的评估，确定字符的总数TC_DST是否大于LimitSize(432)，其中LimitSize表示用于使DS_T中填充的句子经受充实处理的大小限制。在对步骤(432)处的确定的肯定响应之后，转发填充并组织到DS_T中的句子S_Total，以进行充实处理(434)。在步骤(434)之后，或者在一个实施例中在经过设定的时间量之后，减小数据结构计数变量T(436)，并且保留在DS_T中的句子经受充实处理(438)。但是，对步骤(442)处的确定的否定响应是存在可用于选择性地将一个或多个句子移动到DS_T中以进行充实处理(例如，选择性地将一个或多个较低优先级的句子移动至充实处理)的空间的指示。确定数据结构DS_T-1是否还有任何剩余的句子，例如，数据结构是否为空(440)。在对步骤(440)处的确定的肯定响应之后，返回到步骤(434)。但是，在对步骤(440)处的确定的否定响应之后，选择DS_T-1中剩余的得分最高的句子(442)，从DS_T-1中移除选择的句子(444)，将选择的句子添加到DS_T(446)，然后返回到步骤(430)。

本文所示和描述的充实处理是在文档或文件内的句子的粒度级别上发生的，每个文件被单独处理。在步骤(410)或(438)之后，递增文档计数变量(448)，并且确定文件或文档中的每一个是否已经经受充实处理(450)。在对步骤(450)处的确定的否定响应之后，返回到步骤(406)，并且肯定响应结束充实处理。虽然在文档和句子的粒度上示出，但是这些参数不应当被视为限制性的。在一个实施例中，可以按照单词、短语、字符等来设置粒度。因而，如图所示和描述的，文档和文件以及其中的句子经受表征，以准备进行充实处理。

如图4A和4B中所示和描述的，文档或文档中的数据的选择句子选择性地经受充实处理。充实处理的元素包括但不限于词提取、加索引等。在一个实施例中，词提取是利用自然语言处理(NLP)技术的示例。充实处理的其它示例可以包括但不限于上下文提取、关键词提取等，在一个实施例中可以利用NLP技术。

图1中所示的工具以及图3A和3B、图4A和4B的流程图中所示的相关联的处理和功能说明了计算机实现的智能代理(例如知识引擎)的使用，以进行或促进文档充实和加索引。

参考图5，提供了框图(800)，其图示了计算机系统/服务器(502)(在下文中称为主机(502))的示例，主机502与基于云的支持系统通信以实现以上关于图1-4B描述的系统和处理。主机(502)可与许多其它通用或专用计算系统环境或配置一起操作。可以与主机(502)一起使用的众所周知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、迷你计算机系统、大型计算机系统和包括以上系统、设备及其等同物中的任何一种的文件系统(例如，分布式存储环境和分布式云计算环境)。

主机(502)可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述。一般而言，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。主机(502)可以在分布式云计算环境(510)中实施，在分布式云计算环境(510)中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。

如图5中所示，主机(502)以通用计算设备的形式示出。主机(502)的部件可以包括但不限于一个或多个处理器或处理单元(504)、系统存储器(506)和将包括系统存储器(506)的各种系统部件耦合到处理器(504)的总线(508)。总线(508)表示几种类型的总线结构中的任何一种或多种，包括使用各种总线体系架构中的任何一种的存储器总线或存储器控制器、外围总线、加速图形端口以及处理器或本地总线。作为示例而非限制，这样的体系架构包括行业标准体系架构(ISA)总线、微通道体系架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线和外围部件互连(PCI)总线。主机(502)通常包括各种计算机系统可读介质。这样的介质可以是主机(502)可访问的任何可用介质，并且它包括易失性和非易失性介质、可移动的和不可移动的介质。

存储器(506)可以包括易失性存储器形式的计算机系统可读介质，诸如随机存取存储器(RAM)(530)和/或高速缓冲存储器(532)。仅作为示例，可以提供存储系统(534)用于读取和写入不可移动的、非易失性磁介质(未示出，并且通常称为“硬盘驱动器”)。虽然未示出，但是可以提供用于对可移动非易失性磁盘(例如“软盘”)进行读取和写入的磁盘驱动器，以及用于对可移动非易失性光盘(诸如CD-ROM、DVD-ROM或其它光学介质)进行读取或写入的光盘驱动器。在这些情况下，每种驱动器可以通过一个或多个数据介质接口连接到总线(508)。

具有一组(至少一个)程序模块(542)的程序/实用程序(540)可以存储在存储器(506)中，作为示例而非限制包括操作系统，一个或多个应用程序、其它程序模块和程序数据。操作系统、一个或多个应用程序、其它程序模块以及程序数据中的每一个或其某种组合可以包括联网环境的实现。程序模块(542)通常执行对抗训练和动态分类模型演变的实施例的功能和/或方法。例如，程序模块(542)的集合可以包括被配置为图1中描述的工具(152)-(154)的模块。

主机(502)还可以与一个或多个外部设备(514)(诸如键盘、指向设备、感觉输入设备、感觉输出设备等)；显示器(524)；使用户能够与主机(502)交互的一个或多个设备；和/或使主机(502)能够与一个或多个其它计算设备通信的任何设备(例如，网卡、调制解调器等)通信。这种通信可以经由输入/输出(I/O)接口(522)发生。还有，主机(502)可以经由网络适配器(520)与一个或多个网络(诸如局域网(LAN)、一般广域网(WAN)和/或公共网络(例如，互联网))通信。如图所示，网络适配器(520)经由总线(508)与主机(502)的其它部件通信。在一个实施例中，分布式文件系统(未示出)的多个节点经由I/O接口(522)或经由网络适配器(520)与主机(502)通信。应该理解的是，虽然未示出，但是其它硬件和/或软件部件可以与主机(502)结合使用。示例包括但不限于：微代码、设备驱动程序、冗余处理单元、外部盘驱动器阵列、RAID系统、磁带驱动器和数据档案存储系统等。

在本文档中，术语“计算机程序介质”、“计算机可用介质”和“计算机可读介质”一般用于指诸如主存储器(506)的介质，包括RAM(530)、高速缓存(532)以及存储系统(534)，诸如可移动存储驱动器和安装在硬盘驱动器中的硬盘。

计算机程序(也称为计算机控制逻辑)存储在存储器(506)中。也可以经由通信接口(诸如网络适配器(520))来接收计算机程序。这样的计算机程序在运行时使计算机系统能够执行如本文所讨论的本实施例的特征。特别地，计算机程序在运行时使处理单元(504)能够执行计算机系统的特征。因而，这样的计算机程序表示计算机系统的控制器。

在一个实施例中，主机(502)是云计算环境的节点。如本领域所知，云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。这些特征的示例如下：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户端平台或厚客户端平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户账号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础设施上运行的应用。可以通过诸如网络浏览器的瘦客户端接口(例如基于网络的电子邮件)从各种客户端设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础设施。

平台即服务(PaaS)：向消费者提供的能力是在云基础设施上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础设施，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础设施即服务(IaaS)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其它基础计算资源。消费者既不管理也不控制底层的云基础设施，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络部件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础设施单独为某个组织运行。云基础设施可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础设施被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础设施向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础设施由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特性集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础设施。

现在参考图6，说明性云计算网络(600)。如图所示，云计算网络(600)包括具有一个或多个云计算节点(610)的云计算环境(650)，由云消费者使用的本地计算设备可以与之通信。这些本地计算设备的示例包括但不限于个人数字助理(PDA)或蜂窝电话(654A)、台式计算机(654B)、膝上型计算机(654C)和/或汽车计算机系统(654N)。节点(610)内的各个节点还可以彼此通信。可以在一个或多个网络(诸如如上所述的私有云、社区云、公共云或混合云，或其组合)中对它们进行物理或虚拟分组(未示出)。这允许云计算环境(600)提供基础设施即服务、平台即服务和/或软件即服务，云消费者不需要为其在本地计算设备上维护资源。应该理解的是，图6所示的计算设备(654A-N)的类型仅是说明性的，并且云计算环境(650)可以通过任何类型的网络和/或网络可寻址连接(例如，使用web浏览器)与任何类型的计算机化设备通信。

现在参考图7，示出了由图6的云计算网络提供的一组功能抽象层(700)。应当事先理解的是，图7中所示的组件、层和功能仅是示例性的，并且实施例不限于此。如图所示，提供了以下层和相应功能：硬件和软件层(710)、虚拟化层(720)、管理层(730)和工作负载层(740)。硬件和软件层710包括硬件和软件组件。硬件组件的示例包括大型机，在一个示例中是

系统；基于RISC(精简指令集计算机)体系架构的服务器，在一个示例是IBM

系统；IBM

系统；IBM

系统；存储设备；网络和联网组件。软件组件的示例包括网络应用服务器软件，在一个示例中是IBM

应用服务器软件；以及数据库软件，在一个示例中是IBM

数据库软件。(IBM、zSeries、pSeries、xSeries、BladeCenter、WebSphere以及DB2是国际商业机器公司在全世界各地许多司法管辖区的注册商标)。

虚拟层720提供一个抽象层，该层可以提供下列虚拟实体的示例：虚拟服务器、虚拟存储、虚拟网络(包括虚拟私有网络)、虚拟应用和操作系统，以及虚拟客户端。

在一个示例中，管理层730可以提供下述功能：资源供应、计量和定价、用户门户、服务层管理、以及SLA计划和履行。资源供应功能提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取。计量和定价功能在云计算环境内对资源的使用进行成本跟踪，并为此提供账单和发票。在一个示例中，该资源可以包括应用软件许可。安全功能为云的消费者和任务提供身份认证，为数据和其它资源提供保护。用户门户功能为消费者和系统管理员提供对云计算环境的访问。服务层管理功能提供云计算资源的分配和管理，以满足必需的服务层。服务层协议(SLA)计划和履行功能为根据SLA预测的对云计算资源未来需求提供预先安排和供应。

工作负载层740提供云计算环境可能实现的功能的示例。在该层中，可提供的工作负载或功能的示例包括但不限于：地图绘制与导航；软件开发及生命周期管理；虚拟教室的教学提供；数据分析处理；交易处理；以及内容处理。

本文所示的系统和流程图也可以是与智能计算机平台一起使用的计算机程序设备的形式，以便促进文档充实和加索引。设备具有与其一起实施的程序代码。程序代码可由处理单元执行以支持所描述的功能。

虽然已经示出和描述了特定的实施例，但是对于本领域技术人员而言显而易见的是，基于本文的教导，可以在不脱离其更广泛的方面的情况下进行改变和修改。因此，所附权利要求书将在其范围内包括所有在实施例的真实精神和范围内的改变和修改。此外，应该理解的是，实施例仅由所附权利要求书限定。本领域技术人员将理解，如果意图引入特定数量的权利要求要素，则将在权利要求书中明确地陈述这种意图，并且在没有这种陈述的情况下，不存在这种限制。对于非限制性示例，为了帮助理解，以下所附权利要求包含使用介绍性短语“至少一个”和“一个或多个”以引入权利要求要素。但是，此类短语的使用不应被解释为暗示由不定冠词“一”或“一个”引入权利要求要素将任何包含这种引入的权利要求要素的特定权利要求限制为仅包含一个此类要素的实施例，甚至当同一权利要求包括介绍性短语“一个或多个”或“至少一个”和诸如“一”或“一个”的不定冠词时；在定冠词的权利要求中也是如此。

本实施例可以是系统、方法和/或计算机程序产品。此外，本实施例的所选择的方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合软件和/或硬件方面的实施例的形式，这些方面在本文中通常可以统称为“电路”、“模块”或“系统”。此外，本实施例的各方面可以采取实施在其上具有计算机可读程序指令的计算机可读存储介质中的计算机程序产品的形式，所述计算机可读程序指令用于使处理器执行本实施例的各方面。通过如此实施，所公开的系统、方法和/或计算机程序产品可操作以改善文档充实和加索引的功能和操作。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的示例(非穷举的列表)包括：便携式计算机盘、硬盘、动态或静态随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、磁存储设备、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为暂态信号本身，诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者经由网络(例如互联网、局域网、广域网和/或无线网)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本实施例的操作的计算机程序指令可以是汇编指令、指令集体系架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Java、Smalltalk、C++等，以及常规过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为独立的软件包执行、部分在用户计算机上且部分在远程计算机上执行、或者完全在远程计算机或服务器或服务器的集群上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用互联网服务提供商来通过互联网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本实施例的各个方面。

本文参考方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本实施例的各个方面。应该理解的是，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生实现流程图和/或框图中的一个或多个方框中规定的功能/动作的手段。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其它设备以特定方式工作，使得存储有指令的计算机可读介质包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其它可编程数据处理装置或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本实施例的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

将认识到的是，虽然本文出于说明的目的已经描述了具体实施例，但是在不脱离实施例的精神和范围的情况下可以进行各种修改。特别地，文档充实和加索引可以由不同的计算平台或跨多个设备来执行。此外，数据存储装置和/或语料库可以是本地的、远程的或分布在多个系统上。因而，实施例的保护范围仅由所附权利要求及其等同物限制。

Claims

1.一种计算机系统，包括：

处理单元，可操作地耦合到存储器；

知识引擎，与处理单元和存储器通信，所述知识引擎包括：

管理器，用于从文档中提取文本，提取出的文本包括一个或多个数据部分；

所述管理器评价提取出的文本，包括计算所述一个或多个提取出的数据部分中的每一个数据部分的得分，所述计算基于元特性数据；

指导器，可操作地耦合到所述管理器，所述指导器选择性地识别提取出的文本中所提取的一个或多个数据部分的子集，所述识别基于计算出的得分；以及

所述指导器基于计算出的得分执行充实处理，其中所述充实处理限于识别出的子集；以及

在执行所述充实处理之后，从所述指导器返回所述一个或多个数据部分的加索引的子集。

2.如权利要求1所述的计算机系统，其中对子集的选择性识别还包括所述指导器将执行优先级值分配给识别出的子集的每个部分，并且响应于所分配的优先级来执行充实处理。

3.如权利要求1所述的计算机系统，还包括所述管理器处理来自两个或更多个单独的存储位置的两个或更多个文档，并基于它们的存储位置为所述两个或更多个文档中的每一个文档分配权重。

4.如权利要求1所述的计算机系统，其中经处理的文档包括文本数据，并且得分计算经受基于文档文件格式的变化。

5.如权利要求1所述的计算机系统，其中所述元特性数据选自包括以下各项的组：文档标题、章标题、节标题、章内的位置、节内的位置以及提要。

6.如权利要求1所述的计算机系统，还包括所述管理器识别文档内具有非结构化文本的选定部分，并且还包括所述管理器将所述非结构化文本转换成结构化文本。

7.一种用于处理文本数据的方法，包括：

文档处理，包括从文档中提取文本，提取出的文本包括一个或多个数据部分；

评价提取出的文本，包括计算所提取的一个或多个数据部分中的每一个数据部分的得分，所述计算基于元特性数据；

基于计算出的得分，选择性地识别提取出的文本中所提取的一个或多个数据部分的子集；以及

基于计算出的得分执行充实处理，其中所述充实处理限于识别出的子集，并且从所述充实处理的执行返回所述一个或多个数据部分的加索引的子集。

8.如权利要求7所述的方法，其中选择性地识别子集还包括向识别出的子集的每个部分分配执行优先级值，以及响应于所分配的优先级来执行充实处理。

9.如权利要求7所述的方法，还包括处理来自两个或更多个单独的存储位置的两个或更多个文档，并基于它们的存储位置为所述两个或更多个文档中的每一个文档分配权重。

10.如权利要求7所述的方法，其中经处理的文档包括文本数据，并且得分计算经受基于文档文件格式的变化。

11.如权利要求7所述的方法，其中所述元特性数据选自包括以下各项的组：文档标题、章标题、节标题、章内的位置、节内的位置以及提要。

12.如权利要求7所述的方法，还包括识别文档内具有非结构化文本的选定部分，并且还包括将所述非结构化文本转换成结构化文本。

13.一种计算机系统，包括：

处理器；

耦合到所述处理器的计算机可读存储介质，所述计算机可读存储介质具有指令，当所述指令由所述处理器执行时实施如权利要求7-12中任意一项所述的方法。

14.一种计算机可读存储设备，所述计算机可读存储设备具有指令，所述指令可由处理器执行以使所述处理器实施如权利要求7-12中任意一项所述的方法。

15.一种用于处理文本数据的系统，所述系统包括分别用于执行如权利要求7-12中任意一项所述的方法的各个步骤的模块。