CN112445784B

CN112445784B - 一种文本结构化的方法、设备及系统

Info

Publication number: CN112445784B
Application number: CN202011488872.9A
Authority: CN
Inventors: 王亚杰; 罗骏
Original assignee: Shanghai Xinyi Intelligent Technology Co ltd
Current assignee: Shanghai Xinyi Intelligent Technology Co ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2023-02-21
Anticipated expiration: 2040-12-16
Also published as: CN112445784A

Abstract

本申请的目的是提供一种文本结构化的方法、设备及系统，本申请通过确定非结构化文本所需的至少一个信息提取器；对所述至少一个信息提取器进行初始化并设定每一信息提取器对应的配置文件名称以及优先级，根据所述配置文件名称及优先级确定运行顺序；按照所述运行顺序逐一运行所述至少一个信息提取器，得到每一信息提取器的提取结果；将所述每一信息提取器的提取结果按照预设格式进行格式化，得到结构化文本。从而可以为深度学习技术在文本结构化过程中的使用提供便利。

Description

一种文本结构化的方法、设备及系统

技术领域

本申请涉及计算机领域，尤其涉及一种文本结构化的方法、设备及系统。

背景技术

高度普及的信息技术已广泛被各行业用来提高效率和生产力，因此积累了海量的文本数据。有效利用这些文本数据中的有用信息已是一个十分迫切的需求。深度学习技术已深入应用到文本数据处理中，Python是实现深度学习模型的主流语言，而目前的文本结构化框架是基于Java等非Python语言实现的，也没有包含深度学习模型训练模块。很明显，这对于使用深度学习技术来进行文本结构化的方法带来了一定的困难。

发明内容

本申请的一个目的是提供一种文本结构化的方法、设备及系统，解决现有技术中目前的文本结构化框架不包含深度学习模型训练模块，没有提供常用的深度学习网络结构及相应的训练接口的问题。

根据本申请的一个方面，提供了一种文本结构化的方法，该方法包括：

确定非结构化文本所需的至少一个信息提取器；

对所述至少一个信息提取器进行初始化并设定每一信息提取器对应的配置文件名称以及优先级，根据所述配置文件名称及优先级确定运行顺序；

按照所述运行顺序逐一运行所述至少一个信息提取器，得到每一信息提取器的提取结果；

将所述每一信息提取器的提取结果按照预设格式进行格式化，得到结构化文本。

进一步地，确定非结构化文本所需的至少一个信息提取器，包括：

判断系统中已有的信息提取器是否满足抽取需求，若否，则编写新的信息提取器补充至所述系统中，并为所述新的信息提取器添加对应的配置文件；

当所述系统中的信息提取器满足所述抽取需求时，从所有信息提取器中选取非结构化文本所需的至少一个信息提取器。

进一步地，所述配置文件包括：实现所述信息提取器的实现类的信息、实现类所需的资源路径信息以及实现类中的参数信息。

进一步地，按照所述运行顺序逐一运行所述至少一个信息提取器，得到每一信息提取器的提取结果，包括：

根据每一次的实际提取任务需求从所述至少一个信息提取器中选取目标信息提取器；

按照所述目标信息提取器的运行顺序逐一运行，得到每一目标信息提取器的提取结果，将每一提取结果存储至结构分析存储中。

进一步地，按照所述目标信息提取器的运行顺序逐一运行，得到每一目标信息提取器的提取结果，将每一提取结果存储至结构分析存储中，包括：

按照所述目标信息提取器的运行顺序逐一运行时，判断当前待运行的目标信息提取器是否依赖上一个运行的目标信息提取器的提取结果；

若是，则从所述结构分析中获取上一个运行的目标信息提取器的提取结果，基于获取到的提取结果运行当前待运行的目标信息提取器，得到提取结果，并将所述提取结果存储至结构分析存储中。

进一步地，对所述至少一个信息提取器进行初始化，包括：

对所述至少一个信息提取器对应的配置文件进行解析，根据解析结果对各个信息提取器进行实例化。

确定非结构化文本所需的分段提取器、分句提取器及分词提取器。

根据本申请另一个方面，还提供了一种文本结构化的系统，该系统包括：信息提取器、配置文件管理模块、提取控制模块及信息格式化模块，其中，

所述信息提取模块用于确定非结构化文本所需的至少一个信息提取器；

所述配置文件管理模块用于对所述至少一个信息提取器进行初始化并设定每一信息提取器对应的配置文件名称以及优先级，根据所述配置文件名称及优先级确定运行顺序；

所述提取控制模块用于按照所述运行顺序逐一运行所述至少一个信息提取器，得到每一信息提取器的提取结果；

所述信息格式化模块用于将所述每一信息提取器的提取结果按照预设格式进行格式化，得到结构化文本。

根据本申请又一个方面，还提供了一种文本结构化的设备，所述设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。

根据本申请再一个方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前述所述的方法。

与现有技术相比，本申请通过确定非结构化文本所需的至少一个信息提取器；对所述至少一个信息提取器进行初始化并设定每一信息提取器对应的配置文件名称以及优先级，根据所述配置文件名称及优先级确定运行顺序；按照所述运行顺序逐一运行所述至少一个信息提取器，得到每一信息提取器的提取结果；将所述每一信息提取器的提取结果按照预设格式进行格式化，得到结构化文本。从而可以为深度学习技术在文本结构化过程中的使用提供便利。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请的一个方面提供的一种文本结构化的方法流程示意图；

图2示出根据本申请的另一个方面提供的一种文本结构化的系统的结构示意图；

图3示出本申请一具体实施例中文本结构化系统框架示意图；

图4示出本申请一实施例中的文本结构化的流程示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit，CPU))、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(Phase-Change RAM，PRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能光盘(Digital Versatile Disk，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

图1示出根据本申请的一个方面提供的一种文本结构化的方法流程示意图，该方法包括：步骤S11～步骤S14，

在步骤S11中，确定非结构化文本所需的至少一个信息提取器；在此，对于非结构化文本，按照指定的顺序调用预先设定的各个信息提取器(extractor)，每个信息提取器负责提取一部分信息，因此首先需要根据非结构化文本的实际需求确定至少一个信息提取器。

在步骤S12中，对所述至少一个信息提取器进行初始化并设定每一信息提取器对应的配置文件名称以及优先级，根据所述配置文件名称及优先级确定运行顺序；在此，得到信息提取器的信息后，需要将各个信息提取器进行排序，排序方式是先将各个信息提取器进行初始化，并通过设定各个信息提取器对应配置文件的名称及其优先级来合理组织各个信息提取器的工作顺序。随后，在步骤S13中，按照所述运行顺序逐一运行所述至少一个信息提取器，得到每一信息提取器的提取结果；在此，各个信息提取器初始化后，按照预先约定的顺序逐个执行，每一个信息提取器运行完后得到该信息提取器对应的提取结果，可将这些提取结果存储在结构分析存储中。

在步骤S14中，将所述每一信息提取器的提取结果按照预设格式进行格式化，得到结构化文本。在此，当所有信息提取器运行完成后，将得到的信息提取器的提取结果按照实际任务中要求的格式进行格式化，即按照预设格式进行格式化，比如转化成json格式，从而得到结构化文本；在本申请一具体实施例中，将每个信息提取器提取到的结果存储至CAS(Common Analysis Structure)中，当所有信息提取器都运行完成后，CAS中包含所有信息提取器的提取结果，对CAS中的这些提取结果统一按照预设的格式进行格式化。

在本申请一实施例中，在步骤S11中，判断系统中已有的信息提取器是否满足抽取需求，若否，则编写新的信息提取器补充至所述系统中，并为所述新的信息提取器添加对应的配置文件；当所述系统中的信息提取器满足所述抽取需求时，从所有信息提取器中选取非结构化文本所需的至少一个信息提取器。在此，判断系统中已有的信息提取器(extractor)是否满足实际结构化需求，即抽取需求，若不满足，则需要编写新的extractor来补充已有extractor不具备的抽取某种实体的功能，然后为该extractor添加相应的配置文件，其中，该配置文件包括：实现所述信息提取器的实现类的信息、实现类所需的资源路径信息以及实现类中的参数信息。即一个extractor的配置文件包括该extractor由哪些类来实现的、该实现类所需的各种资源路径(如字典、规则文件等)以及该实现类中所需的其他参数。若系统中已有的extractor可以满足实际结构化的要求，则直接从各个extractor中选取符合要求的extractor按照顺序进行运行。

在本申请一实施例中，在步骤S13中，根据每一次的实际提取任务需求从所述至少一个信息提取器中选取目标信息提取器；按照所述目标信息提取器的运行顺序逐一运行，得到每一目标信息提取器的提取结果，将每一提取结果存储至结构分析存储中。在此，需要根据非结构化文本的实际提取需求从已有的信息提取器或已有的与新编写的信息提取器中选取目标信息提取器，对选取到的目标信息提取器按照对应的优先级顺序进行依次运行，得到每一目标信息提取器的提取结果，并将所得到的提取结果存储至结构分析存储(CAS，Common Analysis Structure)中；例如，在信息提取的整个流程中实现了A、B、C、D、E五个提取器，而对于一个具体的信息提取任务仅需要其中的三个提取器即可完成，对于一个具体的信息提取任务，需要根据实际情况选择合适的提取器并将其按照先后执行顺序配置到配置文件管理模块中，以进行管理。

具体地，按照所述目标信息提取器的运行顺序逐一运行时，判断当前待运行的目标信息提取器是否依赖上一个运行的目标信息提取器的提取结果；若是，则从所述结构分析中获取上一个运行的目标信息提取器的提取结果，基于获取到的提取结果运行当前待运行的目标信息提取器，得到提取结果，并将所述提取结果存储至结构分析存储中。在此，在各个信息提取器运行时，进行信息提取时可能会依赖其上游的信息提取器提取到的结果，因此需要判断每一个当前待运行的目标信息提取器是否依赖上一个运行的目标信息提取器的提取结果，该上一个运行的目标信息提取器为按照运行顺序在当前待运行的目标信息提取器前一个顺序已完成的信息提取器，若是，则从CAS中获取其依赖的信息，即获取到上一个extractor提取的结果，使用获取到的提取结果完成当前的extractor的信息提取功能，并将提取到的信息写入中CAS中以供其它的extractor使用。

在本申请一实施例中，在步骤S12中，对所述至少一个信息提取器对应的配置文件进行解析，根据解析结果对各个信息提取器进行实例化。在此，对各信息提取器进行配置后会得到一个用来控制信息提取流程的配置文件，根据该配置文件进行初始化，该初始化过程包括对配置文件进行解析，对配置的各个extractor进行实例化，并根据各个extractor的优先级来确定其运行的顺序。

在本申请一实施例中，在步骤S11中，确定非结构化文本所需的分段提取器、分句提取器及分词提取器。在此，对非结构化文本，可能会需要三个信息提取器，分别为分段提取器、分句提取器及分词提取器，分段提取器负责提取段落，将提取到的段落写入CAS中，分句提取器负责提取句子，从CAS中取出分段提取器提取到的段落，对该段落进行提取句子，将提取到的句子写入CAS中，分词提取器负责提取词，从CAS中取出分句提取器提取到的句子，对该句子进行内部分词，提取到的词写入CAS中。

图2示出根据本申请的另一个方面提供的一种文本结构化的系统的结构示意图，该系统包括：信息提取器11、配置文件管理模块12、提取控制模块13及信息格式化模块14，其中，所述信息提取模块11用于确定非结构化文本所需的至少一个信息提取器；所述配置文件管理模块12用于对所述至少一个信息提取器进行初始化并设定每一信息提取器对应的配置文件名称以及优先级，根据所述配置文件名称及优先级确定运行顺序；所述提取控制模块13用于按照所述运行顺序逐一运行所述至少一个信息提取器，得到每一信息提取器的提取结果；所述信息格式化模块14用于将所述每一信息提取器的提取结果按照预设格式进行格式化，得到结构化文本。

需要说明的是，信息提取器11、配置文件管理模块12、提取控制模块13及信息格式化模块14执行的内容分别与上述步骤S11、S12、S13和S14中的内容相同或相应相同，为简明起见，在此不再赘述。

图3示出本申请一具体实施例中文本结构化系统框架示意图，该系统还包括深度学习支持模块，extractor1、extractor2、extractor n为系统中多个信息提取器，每一个信息提取器用于提取特定的一部分信息，extractor可以根据实际情况自定制，其逻辑实现方式灵活，可以使用基于规则的方法和基于统计学习的方法等，提供深度学习支持模块，extractor可以使用基于深度学习模型的方式实现，从而可以方便地将深度学习技术融入到文本数据结构化的任务中，其中，深度学习支持模块可使用pytorch、TensorFlow、mxnet、caffe深度学习框架。配置文件管理模块对配置文件进行合理的组织与解析，每个信息提取器对应一个配置文件，配置文件的格式可以使用xml、yml、json格式等，这些配置文件统一由配置文件管理模块进行组织，包括信息提取器的选择和优先级设定等；提取控制实施模块为提取控制模块，用于按照配置文件管理模块中筛选出的各个信息提取器并结合提取器的优先级进行遍历，应用这些信息提取器来提取非结构化文本的信息，并将各个信息提取器提取到的信息及时存储到CAS中；信息格式化模块用于将CAS中的所有信息按照指定的规则(预设的层级结构)进行格式化，如实际任务要求是转换为层级结构(比如json格式)，则按照层级结构的定义的格式进行格式化；下面以层级结构要求为json格式为例，将CAS中的信息转化为如下格式的json文件：

在此，信息格式化模块的作用为取出CAS中的信息，并将这些信息按照上面的json格式进行摆放。图4示出本申请一实施例中的文本结构化的流程示意图，对于输入的非结构化文本，判断系统中已有的extractor满足抽取需求，若否，则编写所需的extractor并添加配置文件，在配置文件管理模块中配置提取流程，若是，则直接在配置文件管理模块中配置提取流程，提取控制模块初始化后各extractor依次执行，执行时判断是否依赖上游的extractor抽取结果，若是，则在CAS中获取依赖信息从而执行提取任务，若否则直接执行提取任务，每一个extractor执行完将提取到的抽取结果存入CAS中，当所有extractor运行完成后，对CAS中的信息进行格式化，得到符合格式要求的结构化文本。

此外，本申请实施例还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述一种文本结构化的方法。

在本申请一实施例中，还提供了一种文本结构化的设备，所述设备包括：

一个或多个处理器；以及

例如，计算机可读指令在被执行时使所述一个或多个处理器：

确定非结构化文本所需的至少一个信息提取器；

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种文本结构化的方法，其特征在于，所述方法包括：

确定非结构化文本所需的至少一个信息提取器；

将所述每一信息提取器的提取结果按照预设格式进行格式化，得到结构化文本；

其中，按照所述运行顺序逐一运行所述至少一个信息提取器，得到每一信息提取器的提取结果，包括：

2.根据权利要求1所述的方法，其特征在于，确定非结构化文本所需的至少一个信息提取器，包括：

3.根据权利要求2所述的方法，其特征在于，所述配置文件包括：实现所述信息提取器的实现类的信息、实现类所需的资源路径信息以及实现类中的参数信息。

4.根据权利要求1所述的方法，其特征在于，对所述至少一个信息提取器进行初始化，包括：

5.根据权利要求1所述的方法，其特征在于，确定非结构化文本所需的至少一个信息提取器，包括：

6.一种文本结构化的系统，其特征在于，所述系统包括：信息提取器、配置文件管理模块、提取控制模块及信息格式化模块，其中，

所述信息格式化模块用于将所述每一信息提取器的提取结果按照预设格式进行格式化，得到结构化文本；

其中，所述提取控制模块用于：

7.一种文本结构化的设备，其特征在于，所述设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求1至5中任一项所述方法的操作。

8.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至5中任一项所述的方法。