CN115906844A

CN115906844A - 一种基于规则模板的信息抽取方法和系统

Info

Publication number: CN115906844A
Application number: CN202211361916.0A
Authority: CN
Inventors: 彭龙; 杨亮; 杜宏博; 王乐和; 葛天恒; 薛行; 葛晋鹏; 崔琳; 许童; 王强
Original assignee: China North Computer Application Technology Research Institute
Current assignee: China North Computer Application Technology Research Institute
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-04-04
Anticipated expiration: 2042-11-02
Also published as: CN115906844B

Abstract

本发明涉及一种基于规则模板的信息抽取方法和系统，利用规则模板融合行业术语词典与自然语言处理中常见的命名实体识别模型进行信息抽取，具体包括：基于抽取需求训练命名实体识别模型，得到训练好的命名实体识别模型；基于所述抽取需求建立信息抽取规则模板；解析所述信息抽取规则模板，调用行业术语词典和训练好的所述命名实体识别模型，对待抽取文本进行信息抽取得到抽取结果。本发明通过配置规则模板，有效融合行业术语与命名实体识别模型，解决了单以信息抽取模型抽取的信息内容规范固定、不够灵活的问题；以及行业信息抽取常见的长文本抽取中，抽取的信息之间的顺序性、规则性、关联性关系，避免了单一信息抽取模型的信息割裂。

Description

一种基于规则模板的信息抽取方法和系统

技术领域

本发明属于信息抽取领域，尤其涉及一种基于规则模板的信息抽取方法和系统。

背景技术

随着大数据技术的发展，行业中的数据和信息的丰富程度呈指数级爆炸增长，但同时也让我们陷入无法快速找到所需信息的困境中，如何从这些海量数据中快速、准确地分析出真正有用的信息，显得尤为关键和紧迫，为此信息抽取技术应运而生。信息抽取技术广泛用于各个行业，从文本信息中抽取有意义的事实信息，这些文本可以是结构化、半结构化或非结构化的数据，被抽取的事实信息以结构化的形式进行描述，并可以存入结构化数据库中，供人们分析和利用。

现有的信息抽取技术中，通常分为两类：基于固定的行业术语词典进行匹配和基于自然语言处理的模型抽取。以上两种方法各自都有一定局限性。基于行业词典匹配方法里，词典里的元素通常是可枚举的、固定不可变，灵活性天然不足。基于自然语言模型的抽取方式通常需要从零开始手机大量数据进行训练，训练后模型可抽取的元素也是固化的，如果需要进行模型迭代则需要重新标注、重新训练，此过程需耗费大量时间，效率过低、准确率不高并且不够灵活。

面对现有行业中数据的快速增长和业务的快速变化，特定数量的文本信息抽取方法在大数据中应用时可能会出现不适应信息之间存在关联的抽取问题，需要一种新的具有高准确率、能灵活配置、快速迭代的信息抽取技术。

发明内容

鉴于上述的分析，本发明旨在提供一种基于规则模板的信息抽取方法和系统，利用规则模板融合行业术语词典与自然语言处理中常见的命名实体识别模型进行信息抽取。

一方面，本发明提供了一种基于规则模板的信息抽取方法，具体包括如下步骤：

基于抽取需求训练命名实体识别模型，得到训练好的命名实体识别模型；

基于所述抽取需求建立信息抽取规则模板；

解析所述信息抽取规则模板，调用行业术语词典和训练好的所述命名实体识别模型，对待抽取文本进行信息抽取得到抽取结果。

进一步的，所述基于所述抽取需求建立信息抽取规则模板，包括：

基于抽取需求确定多个抽取字段；

基于所述多个抽取字段确定抽取元素，所述抽取元素包括行业术语元素、实体元素和正则表达式元素；

利用用于限定业务格式匹配的元素、多个所述抽取元素以及各元素之间的顺序关系，得到所述信息抽取规则模板。

进一步的，所述用于限定业务格式匹配的元素包括固定文本和任意匹配文本；其中，所述固定文本基于抽取字段获得，用于限定模板的匹配结果；所述任意匹配文本为只限定长度不限定内容的文本。

进一步的，所述训练命名实体识别模型包括：

基于抽取需求确定所属行业；

基于所属行业获取所属行业业务运行过程中的文本数据作为训练数据集；

对所述训练数据集进行实体序列数据标注；

使用标注好的训练数据集对预训练框架ERNIE进行训练，得到训练后的命名实体识别模型；

基于训练数据集获取测试数据集；

使用所述测试数据集对训练后的命名实体识别模型进行测试，得到评估指标；

基于业务目标和评估指标判断模型是否训练完毕：当评估指标低于业务目标时，重新获取训练集进行训练；当评估指标高于业务目标时，训练结束，得到训练好的命名实体识别模型。

进一步的，在解析所述信息抽取规则模板前，还包括配置所述信息抽取规则模板的使用规则，包括是否允许模板匹配多次以及从文本开始处匹配或从文本结尾处匹配；

解析所述信息抽取规则模板，得到解析后的信息抽取规则模板；

基于所述使用规则使用解析后的信息抽取规则模板调用行业术语词典和所述命名实体识别模型，对待抽取文本进行信息抽取。

进一步的，所述解析所述信息抽取规则模板，调用行业术语词典和所述命名实体识别模型，对待抽取文本进行信息抽取得到抽取结果包括：

解析并转换模板中的固定文本和任意匹配文本，解析并转换模板中的所述行业术语元素、所述实体元素和所述正则表达式元素，得到所述规则模板的正则表达式；

使用所述模板的正则表达式对待抽取文本进行匹配得到匹配结果，所述匹配结果为按抽取元素类型分组的包含抽取字段的文本片段集合；

对各抽取元素类型对应的文本片段集合进行抽取；其中，基于所述行业术语词典对对应于行业术语元素的文本片段集合进行抽取，使用所述训练好的命名实体识别模型对对应于实体元素的文本片段集合进行抽取；

将对应行业术语元素和实体元素的抽取结果文本和正则表达式元素的抽取结果组合，得到待抽取文本的抽取结果。

另一方面，本发明还提供了一种基于规则模板的信息抽取系统，包括：

抽取字段管理模块：用于基于抽取需求配置和管理信息抽取字段；

行业术语词典模块：用于基于所述抽取字段配置和管理行业术语词典；

命名实体识别模型模块：用于基于抽取需求，配置和管理命名实体识别模型、配置和管理训练数据集和测试数据集、训练命名实体识别模型以及模型评估；

规则模板管理模块：用于基于抽取需求配置和管理信息抽取规则模板；

信息抽取模块：用于使用信息抽取规则模板调用行业术语词典和训练好的命名实体识别模型对待抽取文本进行信息抽取。

进一步的，所述行业术语词典模块包括：

基于抽取字段管理模块配置好的抽取字段和业务运行过程中的术语，的到行业术语字典的基本行业术语字段；

基于所述基本行业术语字段，对其中同义词进行配置管理，得到枚举行业术语；

基于所述基本行业术语字段，使用正则规则配置行业术语，得到正则行业术语；

基于所述基本行业术语字段、所述枚举行业术语和所述正则行业术语得到行业术语词典。

进一步的，所述命名实体识别模型模块包括基于抽取需求确定是否存在训练好的命名实体识别模型：

如果不存在，则新建命名实体识别模型，并基于抽取需求训练进行训练，得到训练好的命名实体识别模型；

如果存在，则提供给规则模板管理模块配置信息抽取规则模板。

进一步的，所述信息抽取模块用于使用信息抽取规则模板对待抽取文本进行信息抽取包括，

配置所述信息抽取规则模板的使用规则；

解析所述信息抽取规则模板得到模板的正则表达式；

使用所述模板的正则表达式调用行业术语词典和训练和的命名实体识别模型对待抽取文本进行信息抽取。

本发明至少可以实现下述之一的有益效果：

通过配置规则模板，有效融合行业术语与命名实体识别模型，解决了单一信息抽取模型抽取的信息内容规范固定、不够灵活以致不能满足抽取需求的问题。

通过配置规则模板，有效解决了行业信息抽取常见的长文本抽取中，抽取的信息之间的顺序性、规则性、关联性关系，避免了单一信息抽取模型的信息割裂。

通过抽取字段统一表征行业术语和命名实体识别模型抽取信息，解决业务专家对信息抽取范围理解困难和误差的问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书、权利要求书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明信息抽取方法的流程示意图；

图2为本发明信息抽取系统结构示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

方法实施例

实施例一

本发明的一个具体实施例，公开了基于规则模板的信息抽取方法，具体包括如下步骤：

步骤S01：基于抽取需求训练命名实体识别模型，得到训练好的命名实体识别模型。

具体的，步骤S01包含如下步骤：

S011、基于抽取需求确定所属行业。

具体的，抽取需求为从待抽取文本中抽取出结构化信息的任务需求，包括从待抽取文本中抽取描述实体的文本信息以及描述实体间关系的文本信息。

基于待抽取文本的内容，确定所述行业，示例性的，可以为金融行业、交通行业、气象行业。

S012、基于所属行业获取所属行业业务运行过程中的文本数据作为训练数据集。具体的，通过各行业的公开数据信息获取所属行业业务运行过程中的文本数据。

S013、对所述训练数据集进行实体序列数据标注，包括标注实体词所在的位置、实体词的标签类别和进行标注数据格式转换。

可选的，通过现有技术常用的序列标准方法进行实体词标注，其中的实体词指指语言中的专有名词，包括人名、地名和组织机构名。

S014、使用标注好的训练数据集对预训练框架ERNIE3.0进行训练，得到训练后的命名实体识别模型。

优选的，迭代训练次数超过100次。

S015、基于训练数据集获取测试数据集。

可选的，测试数据集是由训练数据集按照30％的比例分割得到的子集。

S016、使用所述测试数据集对训练后的命名实体识别模型进行测试，得到评估指标。

可选的，评估指标包括准确率、精确率、召回率和F1值。

S017、基于业务目标和评估指标判断模型是否训练完毕：当评估指标低于业务目标时，重新获取训练集进行训练；当评估指标高于业务目标时，训练结束，得到训练好的命名实体识别模型.

具体的，所述业务目标指信息抽取希望达到的目标值。

可选的，包括准确率、精确率、召回率和F1值希望达到的目标值。

步骤S02：基于所述抽取需求建立信息抽取规则模板。具体包括如下步骤：

S021、基于抽取需求确定多个抽取字段。

S022、基于所述多个抽取字段确定抽取元素，所述抽取元素包括行业术语元素、实体元素和正则表达式元素；其中，行业术语元素指和行业术语对应的文本片段；实体元素指和命名实体对应的文本片段；正则表达式元素指正则表达式，所述正则表达式可以提取出满足该表达式的文本片段。

S023、利用用于限定业务格式匹配的元素、多个所述抽取元素以及各元素之间的顺序关系，得到所述信息抽取规则模板。

具体的，所述用于限定业务格式匹配的元素包括固定文本和任意匹配文本；其中，所述固定文本基于抽取字段间的关系从待抽取文本中获得，用于限定模板的匹配结果；所述任意匹配文本为只限定长度不限定内容的文本，用于泛化当前规则模板，增加模板的适用范围。

步骤S03：解析所述信息抽取规则模板，调用行业术语词典和训练好的所述命名实体识别模型，对待抽取文本进行信息抽取得到抽取结果。具体包括如下步骤：

S031、配置所述信息抽取规则模板的使用规则，包括是否允许模板匹配多次以及从文本开始处匹配或从文本结尾处匹配。

S032、解析所述信息抽取规则模板，得到解析后的信息抽取规则模板；包括：解析并转换模板中的固定文本和任意匹配文本，解析并转换模板中的所述行业术语元素、所述实体元素和所述正则表达式元素，得到所述规则模板的正则表达式。

S033、使用解析后的信息抽取规则模板调用行业术语词典和所述命名实体识别模型，对待抽取文本进行信息抽取：

具体的，使用所述模板的正则表达式对待抽取文本进行匹配得到匹配结果，所述匹配结果为按抽取元素类型分组的包含抽取字段的文本片段集合；

具体的，基于所述行业术语词典对对应于行业术语元素的文本片段集合进行抽取，包括：使用递归调用，对该集合中的文本片段进行抽取，当只要有一个文本片段抽取后结果为空时，则抽取失败，说明模板匹配不成功，抽取流程终止；反之则继续抽取，直到递归调用结束；

同理的，使用所述训练好的命名实体识别模型对对应于实体元素的文本片段集合进行抽取，包括：使用递归调用，对该集合中对应于实体元素的的文本片段进行抽取，当只要有一个文本片段抽取后结果为空时，则抽取失败，说明模板匹配不成功，抽取流程终止；反正则继续抽取，直到递归调用结束；

本实施例公开的一种基于规则模板的信息抽取方法，通过配置规则模板，有效融合行业术语与命名实体识别模型，解决了单以信息抽取模型抽取的信息内容规范固定、不够灵活的问题；解决了行业信息抽取常见的长文本抽取中，抽取的信息之间的顺序性、规则性、关联性关系，避免了单一信息抽取模型的信息割裂；通过抽取字段统一表征行业术语和命名实体识别模型抽取信息，解决业务专家对信息抽取范围理解困难和误差的问题。

实施例二

本发明的另一个具体实施例，公开了一种基于规则模板的信息抽取方法。本实施例的待抽取文本为：

某公司监事减持股份计划公告：XX公司公告，公司收到监事吴永利先生《股份减持计划告知函》，因个人资金需求，拟自本公告起以集中竞价交易方式减持公司股份不超过105,697股，占公司总股本的0.02％。减持价格将按照减持实施时的市场价格确定。

持有本公司股份1,208,035股(占本公司总股本0.1144％)的高级管理人员敖志强拟自本公告起十五个交易日后的六个月内，以集中竞价或大宗交易方式减持本公司股份不超过250,000股(占公司总股本的 0.0237％)。

持有本公司股份130,162,360股(占本公司总股本12.3220％)的控股股东、实际控制人之一霍卫平拟自本公告起十五个交易日后的六个月内，以集中竞价或大宗交易方式减持本公司股份不超过2,000,000股(占公司总股本的0.1893％)。

在这一份股权变动公告中，抽取需求为以下4个信息：

人名：该公告中对公司增持或者减持的股东/高级管理人员的名字

操作方式：股东是以什么样的操作方式进行股权变动；

增持/减持：股权是增持还是减持；

股数：股东的股权变化数量。

基于抽取需求，本实施例的方法包括如下步骤：

步骤S101：基于抽取需求训练命名实体识别模型，得到训练好的命名实体识别模型。

步骤S102：基于所述抽取需求建立信息抽取规则模板。具体包括如下步骤：

S1021、基于抽取需求确定多个抽取字段。

S1022、基于所述多个抽取字段确定抽取元素，所述抽取元素包括行业术语元素、实体元素和正则表达式元素。

S1023、利用用于限定业务格式匹配的元素、多个所述抽取元素以及各元素之间的顺序关系，得到所述信息抽取规则模板。

具体的，按照步骤S1021-S1023S，确定抽取字段为人名、操作方式、增持/坚持、股数；抽取元素和规则制定过程如下：

规则模板包含以下元素：

1.人名：元素类型是命名实体抽取模型，因为人名是不能枚举的；

2.任意匹配文本：用于泛化当前规则模板，增加模板的适用范围；

3.固定文本：拟自本公告起，用于限定模板的匹配结果，过滤其他干扰信息；

4.任意匹配文本：用于泛化当前规则模板，增加模板的适用范围；

5.固定文本：以，用于限定模板的匹配结果，过滤其他干扰信息；

6.操作方式：元素类型是术语词典，词典里包括了集中竞价或大宗交易、集中竞价等；

7.任意匹配文本：用于泛化当前规则模板，增加模板的适用范围；

8.增持/减持：元素类型是术语词典，词典里包括了增持、减持；

9.固定文本：本公司股份不超过，用于限定模板的匹配结果，过滤其他干扰信息；

10.股数：元素类型是正则表达式，表达式内容是限定大于0的整数；

11.固定文本：股，用于限定模板的匹配结果，过滤其他干扰信息。

组合后的规则模板为：

[人名]<*><拟自本公告起><*><以>[操作方式]<*>[增持/减持]<本公司股份不超过>[股数]<股>

步骤S103：解析所述信息抽取规则模板，调用行业术语词典和训练好的所述命名实体识别模型，对待抽取文本进行信息抽取得到抽取结果。具体包括如下步骤：

S031、配置所述信息抽取规则模板的使用规则，允许模板匹配多次以及从文本开始处匹配。

S032、解析所述信息抽取规则模板，得到解析后的信息抽取规则模板。具体的，解析步骤如下：

原始规则模板为：

1.解析并转换模板中的固定文本和任意文本，任意文本按照经验通常不超过100长度，所以以0到100作为任意文本的长度范围限制，转换后：

[人名].{0,100}(拟自本公告起.{0,100}以)[操作方式].{0,100}[增持/减持](本公司股份不超过)[股数](股)

2.解析并转换模板中正则表达式类型的元素，转换后：

[人名].{0,100}(拟自本公告起.{0,100}以)[操作方式].{0,100}[增持/减持](本公司股份不超过)(#P<股数>[\d][\d,]{0,}[\d])(股)

3.解析并转换模板中术语词典类型的元素，转换后：

[人名].{0,100}(拟自本公告起.{0,100}以)(#P<操作方式>集中竞价或大宗交易|集中竞价).{0,100}(#P<增持/减持>增持|减持)(本公司股份不超过)(#P<股数>[\d][\d,]{0,}[\d])(股)

4.解析并转换模板中命名实体抽取模型类型的元素，转换后得到最终的规则模板表达式：

(#P<人名>.{0,10}).{0,100}(拟自本公告起.{0,100}以)(#P<操作方式>集中竞价或大宗交易|集中竞价).{0,100}(#P<增持/减持>增持|减持)(本公司股份不超过)(#P<股数>[\d][\d,]{0,}[\d])(股)

S1033、使用解析后的信息抽取规则模板调用行业术语词典和所述命名实体识别模型，对待抽取文本进行信息抽取，得到抽取结果如下：

人名	操作方式	增持/减持	股数
				吴永利	集中竞价	减持	105,697
熬志强	集中竞价或大宗交易	减持	250,000
				霍卫平	集中竞价或大宗交易	减持	2,000,000

本实施例提供的一种基于规则模板的信息抽取方法，有益效果实施例一基本相同，在此不一一赘述。

系统实施例

本实施例公开了一种基于规则模板的信息抽取系统，具体包括：

抽取字段管理模块：

用于基于抽取需求配置和管理信息抽取字段。

行业术语词典模块：

用于基于所述抽取字段配置和管理行业术语词典。具体的，基于抽取字段管理模块配置好的抽取字段和业务运行过程中的术语，的到行业术语字典的基本行业术语字段；基于所述基本行业术语字段，对其中同义词进行配置管理，得到枚举行业术语；基于所述基本行业术语字段，使用正则规则配置行业术语，得到正则行业术语；基于所述基本行业术语字段、所述枚举行业术语和所述正则行业术语得到行业术语词典。

命名实体识别模型模块：

用于基于抽取需求，配置和管理命名实体识别模型、配置和管理训练数据集和测试数据集、训练命名实体识别模型以及模型评估。

具体的，基于抽取需求确定是否存在训练好的命名实体识别模型：如果不存在，则新建命名实体识别模型，并基于抽取需求训练进行训练，得到训练好的命名实体识别模型；如果存在，则提供给规则模板管理模块配置信息抽取规则模板。

规则模板管理模块：

用于基于抽取需求配置和管理信息抽取规则模板。

具体的，基于抽取需求确定多个抽取字段；基于所述多个抽取字段确定抽取元素，所述抽取元素包括行业术语元素、实体元素和正则表达式元素；利用用于限定业务格式匹配的元素、多个所述抽取元素以及各元素之间的顺序关系，得到所述信息抽取规则模板。其中，所述用于限定业务格式匹配的元素包括固定文本和任意匹配文本；其中，所述固定文本基于抽取字段获得，用于限定模板的匹配结果；所述任意匹配文本为只限定长度不限定内容的文本。

信息抽取模块：

用于使用信息抽取规则模板调用行业术语词典和训练好的命名实体识别模型对待抽取文本进行信息抽取。

具体的，配置所述信息抽取规则模板的使用规则；解析所述信息抽取规则模板得到模板的正则表达式；使用所述模板的正则表达式调用行业术语词典和训练和的命名实体识别模型对待抽取文本进行信息抽取。

相比于现有技术，本实施例提供有益效果与方法实施例提供的有益效果基本相同，在此不一一赘述。

需要说明的是，上述实施例基于相同的发明构思，未重复描述之处，可相互借鉴。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于规则模板的信息抽取方法，其特征在于，包括如下步骤：

基于所述抽取需求建立信息抽取规则模板；

2.根据权利要求1所述的信息抽取方法，其特征在于，所述基于所述抽取需求建立信息抽取规则模板，包括：

基于抽取需求确定多个抽取字段；

3.根据权利要求2所述的信息抽取方法，其特征在于，所述用于限定业务格式匹配的元素包括固定文本和任意匹配文本；其中，所述固定文本基于抽取字段获得，用于限定模板的匹配结果；所述任意匹配文本为只限定长度不限定内容的文本。

4.根据权利要求1所述的信息抽取方法，其特征在于，所述训练命名实体识别模型包括：

基于抽取需求确定所属行业；

对所述训练数据集进行实体序列数据标注；

使用标注好的训练数据集对预训练框架ERNIE3.0进行训练，得到训练后的命名实体识别模型；

基于训练数据集获取测试数据集；

5.根据权利要求3所述的信息抽取方法，其特征在于，在解析所述信息抽取规则模板前，还包括配置所述信息抽取规则模板的使用规则，包括是否允许模板匹配多次以及从文本开始处匹配或从文本结尾处匹配；

6.根据权利要求5所述的信息抽取方法，其特征在于，所述解析所述信息抽取规则模板，调用行业术语词典和所述命名实体识别模型，对待抽取文本进行信息抽取得到抽取结果包括：

7.一种基于规则模板的信息抽取系统，其特征在于，包括

8.根据权利要求7所述的信息抽取系统，其特征在于，所述行业术语词典模块包括：

9.根据权利要求7所述的信息抽取系统，其特征在于，所述命名实体识别模型模块包括基于抽取需求确定是否存在训练好的命名实体识别模型：

10.根据权利要求7所述的信息抽取系统，其特征在于，所述信息抽取模块用于使用信息抽取规则模板对待抽取文本进行信息抽取包括，

配置所述信息抽取规则模板的使用规则；

解析所述信息抽取规则模板得到模板的正则表达式；