CN107704539A

CN107704539A - 大规模文本信息批量结构化的方法及装置

Info

Publication number: CN107704539A
Application number: CN201710868572.5A
Authority: CN
Inventors: 汪东升; 蔡尚铭; 徐涛
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2018-02-16
Anticipated expiration: 2037-09-22
Also published as: CN107704539B

Abstract

本发明公开一种大规模文本信息批量结构化的方法及装置，能在短时间内批量处理大量文本信息。方法包括：根据不同文本信息的目标信息项建立不同的切分和抽取规则，以配置文件形式提供规则输入接口；根据对应的切分规则和抽取规则，以流水线处理方式，依次对单个文本信息完成自动化信息抽取操作；按照目标信息项的数据类型格式和长度建立数据库关系表，将经过自动化信息抽取后的文本信息转化为结构化记录，保存到数据库关系表中，对于未能成功抽取出关键信息的文本信息，使用统计机器学习的方法从已成功抽取的结构化记录数据中推测出候选信息项，根据候选信息项及对应的文本信息和规则内容对已有规则进行修正。

Description

大规模文本信息批量结构化的方法及装置

技术领域

本发明涉及计算机领域，具体涉及一种大规模文本信息批量结构化的方法及装置。

背景技术

近年来，随着大数据时代的到来，数据的快速增长了成了许多行业共同面临的机遇与挑战。“机遇”的部分在于，通过分析大量数据，数据拥有者能够挖掘出很多频繁模式，获取到很多潜在的信息，并可以根据这些信息预测出相关行业未来的趋势和发展，从而做出相应的决策，获取大量收益；而“挑战”的部分在于，虽然通过网络，任何人都可以很方便地获取大量的数据，甚至某些专业人员也可以通过爬虫的方式更快捷且高效地抓取网络上的数据，但如何能够在拥有如此海量数据的情况下高效地管理和利用这些数据，也成了一个难题。

针对上述问题，目前市面上有很多的解决方案能够去处理结构化的数据，例如通过聚类分析或是频繁模式挖掘等，而结构化的数据格式也是让计算机能实现批量结构化的关键。在管理方面，使用数据库的方式来管理现有数据也成为了主流。目前市面上较为流行的是关系型的数据库，例如MySQL和Oracle等，其能满足数据管理和查询等各类数据相关操作的需求。

但是，对于非结构化的文本信息，目前并没有较好的方法能够去对其进行处理。通常，各行各业都是使用大量人力资源的方式来对已有的非结构化文本信息进行数据清洗和预处理，进而提取出关键信息，即将大规模文本信息转化为结构化的数据库记录后再进行后续操作。然而这种方式不仅效率十分低下，同时也浪费了大量的人力资源成本，增大了开销。此外，这种方式也具有很大的局限性，必须针对每一类不同的文本信息聘请大量的相应人员来进行分析和提取，且不具备可重用性，在数据源源不断地到来的情况之下，并不是一个很好的方法，不能满足当今大数据时代的需求。

发明内容

针对现有技术存在的不足和缺陷，本发明提供一种大规模文本信息批量结构化的方法及装置。

一方面，本发明实施例提出一种大规模文本信息批量结构化的方法，包括：

根据不同文本信息的目标信息项建立不同的切分和抽取规则，以配置文件形式提供规则输入接口；

根据对应的切分规则和抽取规则，以流水线处理方式，依次对单个文本信息完成包括数据加载、片段切分、信息抽取和信息汇聚的自动化信息抽取操作；

按照目标信息项的数据类型格式和长度建立数据库关系表，将经过自动化信息抽取后的文本信息转化为结构化记录，保存到数据库关系表中，对于未能成功抽取出关键信息的文本信息，使用统计机器学习的方法从已成功抽取的结构化记录数据中推测出候选信息项，根据所述候选信息项及对应的文本信息和规则内容对已有规则进行修正。

另一方面，本发明实施例提出一种大规模文本信息批量结构化的装置，包括：

数据加载模块，用于将文本信息加载到内存中；

切分模块，用于读取切分规则库，逐条解析执行，将文本信息按照规则定义切分成片段，组成字符串数组并输出，其中，所述切分规则库，存储着对应文本信息的切分规则，切分模块根据这些规则将文本切分成若干独立的文字片段；

抽取模块，用于读取抽取规则库，在对应的文字片段中逐条执行规则内容，抽取各项关系表字段，其中，所述抽取规则库，存储着对应文本信息的数据库关系表中各字段的抽取规则，抽取模块根据这些规则从文字片段中抽取字段信息；

汇聚模块，用于汇集抽取的字段信息，同时读取关系表元数据，按照字段类型拼装记录并保存至数据库关系表中，其中，所述关系表元数据，包括对应文本信息的数据库关系表的结构和字段类型，用于后台创建数据库关系表；

规则学习/配置模块，用于当抽取模块抽取字段信息发生错误时，将错误信息以及对应的文本信息和规则内容写入log日志，并调用统计机器学习算法推测候选信息项，根据所述错误信息以及对应的文本信息和规则内容、候选信息项对已有规则进行修正。

优选地，该装置基于流水线处理机制，在信息抽取流程中各模块具有严格定义的输入输出接口，相互独立透明。

优选地，所述数据加载模块，用于根据所读入的文件的后缀以及该文件的文件头自动判别文件类型，然后读取出正确的文本内容。

优选地，所述规则学习/配置模块中所使用的统计机器学习方法，会根据目标抽取项与该项抽取规则中的定位关键词之间的位置及词性关系，分析原始文本信息，进而通过数据库中已成功抽取的大量目标项的信息推测出未能成功抽取的目标项的候选信息项。

优选地，所述切分规则库中所保存的切分规则由一系列信息拼接而成，包括：规则号、起点类型、起点位置、终点位置、终点类型以及动作这6项。

优选地，所述抽取规则具有多类抽取方式，包括：正则表达式匹配、多行直接抽取、按每行嵌套抽取以及先切分再嵌套抽取共4种抽取的方式。

本发明至少有如下有益效果：

(1)基于流水线处理机制，能够在短时间内批量处理大量文本信息，只需针对不同类型的文本信息制定出相应的切分规则和抽取规则，进而建立元数据信息，便能够以一种流水线处理的方式不断地将所输入的文本信息文件结构化并存储到数据库关系表中，不仅提高了文本信息的处理速度，提炼了文本信息的核心内容，减少了所需存储空间，还降低了文本信息的管理成本；

(2)能够批量地将文本信息结构化并存储到数据库关系表中，因而其也支持快速查询，批量修改，以及各种统计方面的工作，符合大数据处理的需求；

(3)能够在人为制定的切分规则和抽取规则不够完善的情形下，通过统计机器学习的方法，完善抽取规则，同时也会将没能抽取出关键信息的片段写入日志，用于分析和校正切分规则，使得本发明具有一定的容错性和健壮性；

(4)适用于任意具有较为明确的书写规范的文本信息，只需制定相应的切分规则、抽取规则和元数据信息，便可投入使用，极大地节省了整理文本信息的成本和时间开销；

(5)能够处理多类格式的文件，包括txt、word、excel及pdf等，不需要在处理数据之前做额外的预处理工作，具有一定的便捷性；

(6)能够在多类主流的操作系统之上运行，其中包括Linux、MacOS以及Windows，具有一定的可移植性。

附图说明

图1为本发明大规模文本信息批量结构化的方法一实施例的流程示意图；

图2为本发明大规模文本信息批量结构化的装置一实施例的结构示意图；

图3为本发明大规模文本信息批量结构化的方法另一实施例的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参看图1，本实施例公开一种大规模文本信息批量结构化的方法，包括：

S1、根据不同文本信息的目标信息项建立不同的切分和抽取规则，以配置文件形式提供规则输入接口；

本步骤中，针对不同文本信息所需抽取的信息不同，可以制定完全不同的规则来达到目的。

S2、根据对应的切分规则和抽取规则，以流水线处理方式，依次对单个文本信息完成包括数据加载、片段切分、信息抽取和信息汇聚的自动化信息抽取操作；

本实施例中，所加载的文本信息文件可以为txt、word、excel以及pdf等文件格式。

S3、按照目标信息项的数据类型格式和长度建立数据库关系表，将经过自动化信息抽取后的文本信息转化为结构化记录，保存到数据库关系表中，对于未能成功抽取出关键信息的文本信息，使用统计机器学习的方法从已成功抽取的结构化记录数据中推测出候选信息项，根据所述候选信息项及对应的文本信息和规则内容对已有规则进行修正。

本步骤中，对于每个目标信息项需要给定数据类型和其长度，用以创建数据库关系表；而每个成功被处理的文件，都会化作一条数据库记录，被插入到上述数据库关系表中，最终将大规模文本信息转化为一张数据信息十分精炼的表格；若未能成功抽取出某文件关键信息项，则该文件视为未能成功处理。对于未能成功抽取出关键信息的文本信息，会根据数据库关系表中已有的信息以及系统日志中的内容，并使用统计机器学习的方法，分析抽取出错的信息项与其定位词或抽取规则之间的位置及词性联系，根据已成功抽取的结构化数据记录，尝试给出可能的结果，并推测正确的定位词用以完善抽取规则。

本发明实施例提供的大规模文本信息批量结构化的方法，基于流水线处理机制，能够在短时间内批量处理大量文本信息，只需针对不同类型的文本信息制定出相应的切分规则和抽取规则，进而建立元数据信息，便能够以一种流水线处理的方式不断地将所输入的文本信息文件结构化并存储到数据库关系表中，不仅提高了文本信息的处理速度，提炼了文本信息的核心内容，减少了所需存储空间，还降低了文本信息的管理成本，同时能够在人为制定的切分规则和抽取规则不够完善的情形下，通过统计机器学习的方法，完善已有规则。

参看图2，本实施例公开一种大规模文本信息批量结构化的装置，包括：

数据加载模块1，用于将文本信息(比如txt、word、excel及pdf等文件中的文本信息)加载到内存中；

切分模块2，用于读取切分规则库，逐条解析执行，将文本信息按照规则定义切分成片段，组成字符串数组并输出，其中，所述切分规则库，存储着对应文本信息的切分规则，切分模块根据这些规则将文本切分成若干独立的文字片段；

抽取模块3，用于读取抽取规则库，在对应的文字片段中逐条执行规则内容，抽取各项关系表字段，其中，所述抽取规则库，存储着对应文本信息的数据库关系表中各字段的抽取规则，抽取模块根据这些规则从文字片段中抽取字段信息；

汇聚模块4，用于汇集抽取的字段信息，同时读取关系表元数据，按照字段类型拼装记录并保存至数据库关系表中，其中，所述关系表元数据，包括对应文本信息的数据库关系表的结构和字段类型，用于后台创建数据库关系表；

规则学习/配置模块5，用于当抽取模块抽取字段信息发生错误时，将错误信息以及对应的文本信息和规则内容写入log日志，并调用统计机器学习算法推测候选信息项，根据所述错误信息以及对应的文本信息和规则内容、候选信息项对已有规则进行修正。

本发明实施例提供的大规模文本信息批量结构化的装置，基于流水线处理机制，能够在短时间内批量处理大量文本信息，只需针对不同类型的文本信息制定出相应的切分规则和抽取规则，进而建立元数据信息，便能够以一种流水线处理的方式不断地将所输入的文本信息文件结构化并存储到数据库关系表中，不仅提高了文本信息的处理速度，提炼了文本信息的核心内容，减少了所需存储空间，还降低了文本信息的管理成本，同时能够在人为制定的切分规则和抽取规则不够完善的情形下，通过统计机器学习的方法，完善已有规则。

最后，通过一个更为具体的例子，来说明本发明一个较佳实施例的实现过程，参见图3，该方法的实现步骤如下所示：

步骤301：根据所需处理的大规模文本信息的目标信息项设计切分规则库和抽取规则库。

步骤302：根据所需处理的大规模文本信息的目标信息项的数据类型格式和长度建立数据库关系表。

步骤303：调用数据加载模块将各种格式文件内的文本信息加载到内存中，以流水线的形式依次将数据发送到下一模块处理。

步骤304：调用切分模块，读取切分规则库，逐条解析执行，依次将传入文本信息按照规则定义切分成片段，组成字符串数组并输出。

本步骤中，会根据切分规则中的信息，包括：规则号、起点类型、起点位置、终点位置、终点类型以及动作这6项，载入正确的控制信息用以处理对应的文本信息，该过程具有通用性。

步骤305：调用抽取模块，读取抽取规则库，依次对传入的对应文字片段逐条执行规则内容，抽取各项关系表字段。

本步骤中，具有多类抽取方式，包括：正则表达式匹配、多行直接抽取、按每行嵌套抽取以及先切分再嵌套抽取共4种抽取的方法。

步骤306：判定对单个文件，是否成功抽取了所有目标信息，若是，则转至步骤307，若不是，则转至步骤308。

步骤307：调用汇聚模块，汇集抽取的字段信息，同时读取关系表元数据，按照字段类型拼装记录并保存至数据库关系表中。

步骤308：调用规则学习/配置模块，将错误信息以及对应的文本信息和规则内容写入log日志，并调用机器学习算法推测候选信息项，以供规则设计人员根据以上所有信息对已有规则进行修正。

本步骤中，所使用的统计机器学习方法，会根据目标抽取项与该项抽取规则中的定位关键词之间的位置及词性关系，分析原始文本信息，进而通过数据库中已成功抽取的大量目标项的信息推测出未能成功抽取的目标项的候选值；若未能成功给出候选值，则表明需要修改的是切分规则而非抽取规则。

步骤309：结束。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种大规模文本信息批量结构化的方法，其特征在于，包括：

2.一种大规模文本信息批量结构化的装置，其特征在于，包括：

数据加载模块，用于将文本信息加载到内存中；

3.根据权利要求2所述的装置，其特征在于，该装置基于流水线处理机制，在信息抽取流程中各模块具有严格定义的输入输出接口，相互独立透明。

4.根据权利要求2所述的装置，其特征在于，所述数据加载模块，用于根据所读入的文件的后缀以及该文件的文件头自动判别文件类型，然后读取出正确的文本内容。

5.根据权利要求2所述的装置，其特征在于，所述规则学习/配置模块中所使用的统计机器学习方法，会根据目标抽取项与该项抽取规则中的定位关键词之间的位置及词性关系，分析原始文本信息，进而通过数据库中已成功抽取的大量目标项的信息推测出未能成功抽取的目标项的候选信息项。

6.根据权利要求2所述的装置，其特征在于，所述切分规则库中所保存的切分规则由一系列信息拼接而成，包括：规则号、起点类型、起点位置、终点位置、终点类型以及动作这6项。

7.根据权利要求2所述的装置，其特征在于，所述抽取规则具有多类抽取方式，包括：正则表达式匹配、多行直接抽取、按每行嵌套抽取以及先切分再嵌套抽取共4种抽取的方式。