CN115906844A - 一种基于规则模板的信息抽取方法和系统 - Google Patents

一种基于规则模板的信息抽取方法和系统 Download PDF

Info

Publication number
CN115906844A
CN115906844A CN202211361916.0A CN202211361916A CN115906844A CN 115906844 A CN115906844 A CN 115906844A CN 202211361916 A CN202211361916 A CN 202211361916A CN 115906844 A CN115906844 A CN 115906844A
Authority
CN
China
Prior art keywords
extraction
information extraction
text
information
named entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211361916.0A
Other languages
English (en)
Other versions
CN115906844B (zh
Inventor
彭龙
杨亮
杜宏博
王乐和
葛天恒
薛行
葛晋鹏
崔琳
许童
王强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China North Computer Application Technology Research Institute
Original Assignee
China North Computer Application Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China North Computer Application Technology Research Institute filed Critical China North Computer Application Technology Research Institute
Priority to CN202211361916.0A priority Critical patent/CN115906844B/zh
Publication of CN115906844A publication Critical patent/CN115906844A/zh
Application granted granted Critical
Publication of CN115906844B publication Critical patent/CN115906844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种基于规则模板的信息抽取方法和系统,利用规则模板融合行业术语词典与自然语言处理中常见的命名实体识别模型进行信息抽取,具体包括:基于抽取需求训练命名实体识别模型,得到训练好的命名实体识别模型;基于所述抽取需求建立信息抽取规则模板;解析所述信息抽取规则模板,调用行业术语词典和训练好的所述命名实体识别模型,对待抽取文本进行信息抽取得到抽取结果。本发明通过配置规则模板,有效融合行业术语与命名实体识别模型,解决了单以信息抽取模型抽取的信息内容规范固定、不够灵活的问题;以及行业信息抽取常见的长文本抽取中,抽取的信息之间的顺序性、规则性、关联性关系,避免了单一信息抽取模型的信息割裂。

Description

一种基于规则模板的信息抽取方法和系统
技术领域
本发明属于信息抽取领域,尤其涉及一种基于规则模板的信息抽取 方法和系统。
背景技术
随着大数据技术的发展,行业中的数据和信息的丰富程度呈指数级 爆炸增长,但同时也让我们陷入无法快速找到所需信息的困境中,如何 从这些海量数据中快速、准确地分析出真正有用的信息,显得尤为关键 和紧迫,为此信息抽取技术应运而生。信息抽取技术广泛用于各个行业, 从文本信息中抽取有意义的事实信息,这些文本可以是结构化、半结构 化或非结构化的数据,被抽取的事实信息以结构化的形式进行描述,并 可以存入结构化数据库中,供人们分析和利用。
现有的信息抽取技术中,通常分为两类:基于固定的行业术语词典 进行匹配和基于自然语言处理的模型抽取。以上两种方法各自都有一定 局限性。基于行业词典匹配方法里,词典里的元素通常是可枚举的、固 定不可变,灵活性天然不足。基于自然语言模型的抽取方式通常需要从 零开始手机大量数据进行训练,训练后模型可抽取的元素也是固化的,如果需要进行模型迭代则需要重新标注、重新训练,此过程需耗费大量 时间,效率过低、准确率不高并且不够灵活。
面对现有行业中数据的快速增长和业务的快速变化,特定数量的文 本信息抽取方法在大数据中应用时可能会出现不适应信息之间存在关联 的抽取问题,需要一种新的具有高准确率、能灵活配置、快速迭代的信 息抽取技术。
发明内容
鉴于上述的分析,本发明旨在提供一种基于规则模板的信息抽取方 法和系统,利用规则模板融合行业术语词典与自然语言处理中常见的命 名实体识别模型进行信息抽取。
一方面,本发明提供了一种基于规则模板的信息抽取方法,具体包 括如下步骤:
基于抽取需求训练命名实体识别模型,得到训练好的命名实体识别 模型;
基于所述抽取需求建立信息抽取规则模板;
解析所述信息抽取规则模板,调用行业术语词典和训练好的所述命 名实体识别模型,对待抽取文本进行信息抽取得到抽取结果。
进一步的,所述基于所述抽取需求建立信息抽取规则模板,包括:
基于抽取需求确定多个抽取字段;
基于所述多个抽取字段确定抽取元素,所述抽取元素包括行业术语 元素、实体元素和正则表达式元素;
利用用于限定业务格式匹配的元素、多个所述抽取元素以及各元素 之间的顺序关系,得到所述信息抽取规则模板。
进一步的,所述用于限定业务格式匹配的元素包括固定文本和任意 匹配文本;其中,所述固定文本基于抽取字段获得,用于限定模板的匹 配结果;所述任意匹配文本为只限定长度不限定内容的文本。
进一步的,所述训练命名实体识别模型包括:
基于抽取需求确定所属行业;
基于所属行业获取所属行业业务运行过程中的文本数据作为训练数 据集;
对所述训练数据集进行实体序列数据标注;
使用标注好的训练数据集对预训练框架ERNIE进行训练,得到训练 后的命名实体识别模型;
基于训练数据集获取测试数据集;
使用所述测试数据集对训练后的命名实体识别模型进行测试,得到 评估指标;
基于业务目标和评估指标判断模型是否训练完毕:当评估指标低于 业务目标时,重新获取训练集进行训练;当评估指标高于业务目标时, 训练结束,得到训练好的命名实体识别模型。
进一步的,在解析所述信息抽取规则模板前,还包括配置所述信息 抽取规则模板的使用规则,包括是否允许模板匹配多次以及从文本开始 处匹配或从文本结尾处匹配;
解析所述信息抽取规则模板,得到解析后的信息抽取规则模板;
基于所述使用规则使用解析后的信息抽取规则模板调用行业术语词 典和所述命名实体识别模型,对待抽取文本进行信息抽取。
进一步的,所述解析所述信息抽取规则模板,调用行业术语词典和 所述命名实体识别模型,对待抽取文本进行信息抽取得到抽取结果包括:
解析并转换模板中的固定文本和任意匹配文本,解析并转换模板中 的所述行业术语元素、所述实体元素和所述正则表达式元素,得到所述 规则模板的正则表达式;
使用所述模板的正则表达式对待抽取文本进行匹配得到匹配结果, 所述匹配结果为按抽取元素类型分组的包含抽取字段的文本片段集合;
对各抽取元素类型对应的文本片段集合进行抽取;其中,基于所述 行业术语词典对对应于行业术语元素的文本片段集合进行抽取,使用所 述训练好的命名实体识别模型对对应于实体元素的文本片段集合进行抽 取;
将对应行业术语元素和实体元素的抽取结果文本和正则表达式元素 的抽取结果组合,得到待抽取文本的抽取结果。
另一方面,本发明还提供了一种基于规则模板的信息抽取系统,包 括:
抽取字段管理模块:用于基于抽取需求配置和管理信息抽取字段;
行业术语词典模块:用于基于所述抽取字段配置和管理行业术语词 典;
命名实体识别模型模块:用于基于抽取需求,配置和管理命名实体 识别模型、配置和管理训练数据集和测试数据集、训练命名实体识别模 型以及模型评估;
规则模板管理模块:用于基于抽取需求配置和管理信息抽取规则模 板;
信息抽取模块:用于使用信息抽取规则模板调用行业术语词典和训 练好的命名实体识别模型对待抽取文本进行信息抽取。
进一步的,所述行业术语词典模块包括:
基于抽取字段管理模块配置好的抽取字段和业务运行过程中的术语, 的到行业术语字典的基本行业术语字段;
基于所述基本行业术语字段,对其中同义词进行配置管理,得到枚 举行业术语;
基于所述基本行业术语字段,使用正则规则配置行业术语,得到正 则行业术语;
基于所述基本行业术语字段、所述枚举行业术语和所述正则行业术 语得到行业术语词典。
进一步的,所述命名实体识别模型模块包括基于抽取需求确定是否 存在训练好的命名实体识别模型:
如果不存在,则新建命名实体识别模型,并基于抽取需求训练进行 训练,得到训练好的命名实体识别模型;
如果存在,则提供给规则模板管理模块配置信息抽取规则模板。
进一步的,所述信息抽取模块用于使用信息抽取规则模板对待抽取 文本进行信息抽取包括,
配置所述信息抽取规则模板的使用规则;
解析所述信息抽取规则模板得到模板的正则表达式;
使用所述模板的正则表达式调用行业术语词典和训练和的命名实体 识别模型对待抽取文本进行信息抽取。
本发明至少可以实现下述之一的有益效果:
通过配置规则模板,有效融合行业术语与命名实体识别模型,解决 了单一信息抽取模型抽取的信息内容规范固定、不够灵活以致不能满足 抽取需求的问题。
通过配置规则模板,有效解决了行业信息抽取常见的长文本抽取中, 抽取的信息之间的顺序性、规则性、关联性关系,避免了单一信息抽取 模型的信息割裂。
通过抽取字段统一表征行业术语和命名实体识别模型抽取信息,解 决业务专家对信息抽取范围理解困难和误差的问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优 点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的 目的和其他优点可通过说明书、权利要求书以及附图中所特别指出的内 容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制, 在整个附图中,相同的参考符号表示相同的部件。
图1为本发明信息抽取方法的流程示意图;
图2为本发明信息抽取系统结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本 申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用 于限定本发明的范围。
方法实施例
实施例一
本发明的一个具体实施例,公开了基于规则模板的信息抽取方法, 具体包括如下步骤:
步骤S01:基于抽取需求训练命名实体识别模型,得到训练好的命名 实体识别模型。
具体的,步骤S01包含如下步骤:
S011、基于抽取需求确定所属行业。
具体的,抽取需求为从待抽取文本中抽取出结构化信息的任务需求, 包括从待抽取文本中抽取描述实体的文本信息以及描述实体间关系的文 本信息。
基于待抽取文本的内容,确定所述行业,示例性的,可以为金融行 业、交通行业、气象行业。
S012、基于所属行业获取所属行业业务运行过程中的文本数据作为 训练数据集。具体的,通过各行业的公开数据信息获取所属行业业务运 行过程中的文本数据。
S013、对所述训练数据集进行实体序列数据标注,包括标注实体词 所在的位置、实体词的标签类别和进行标注数据格式转换。
可选的,通过现有技术常用的序列标准方法进行实体词标注,其中 的实体词指指语言中的专有名词,包括人名、地名和组织机构名。
S014、使用标注好的训练数据集对预训练框架ERNIE3.0进行训练, 得到训练后的命名实体识别模型。
优选的,迭代训练次数超过100次。
S015、基于训练数据集获取测试数据集。
可选的,测试数据集是由训练数据集按照30%的比例分割得到的子集。
S016、使用所述测试数据集对训练后的命名实体识别模型进行测试, 得到评估指标。
可选的,评估指标包括准确率、精确率、召回率和F1值。
S017、基于业务目标和评估指标判断模型是否训练完毕:当评估指 标低于业务目标时,重新获取训练集进行训练;当评估指标高于业务目 标时,训练结束,得到训练好的命名实体识别模型.
具体的,所述业务目标指信息抽取希望达到的目标值。
可选的,包括准确率、精确率、召回率和F1值希望达到的目标值。
步骤S02:基于所述抽取需求建立信息抽取规则模板。具体包括如下 步骤:
S021、基于抽取需求确定多个抽取字段。
S022、基于所述多个抽取字段确定抽取元素,所述抽取元素包括行 业术语元素、实体元素和正则表达式元素;其中,行业术语元素指和行 业术语对应的文本片段;实体元素指和命名实体对应的文本片段;正则 表达式元素指正则表达式,所述正则表达式可以提取出满足该表达式的 文本片段。
S023、利用用于限定业务格式匹配的元素、多个所述抽取元素以及 各元素之间的顺序关系,得到所述信息抽取规则模板。
具体的,所述用于限定业务格式匹配的元素包括固定文本和任意匹 配文本;其中,所述固定文本基于抽取字段间的关系从待抽取文本中获 得,用于限定模板的匹配结果;所述任意匹配文本为只限定长度不限定 内容的文本,用于泛化当前规则模板,增加模板的适用范围。
步骤S03:解析所述信息抽取规则模板,调用行业术语词典和训练好 的所述命名实体识别模型,对待抽取文本进行信息抽取得到抽取结果。 具体包括如下步骤:
S031、配置所述信息抽取规则模板的使用规则,包括是否允许模板 匹配多次以及从文本开始处匹配或从文本结尾处匹配。
S032、解析所述信息抽取规则模板,得到解析后的信息抽取规则模 板;包括:解析并转换模板中的固定文本和任意匹配文本,解析并转换 模板中的所述行业术语元素、所述实体元素和所述正则表达式元素,得 到所述规则模板的正则表达式。
S033、使用解析后的信息抽取规则模板调用行业术语词典和所述命 名实体识别模型,对待抽取文本进行信息抽取:
具体的,使用所述模板的正则表达式对待抽取文本进行匹配得到匹 配结果,所述匹配结果为按抽取元素类型分组的包含抽取字段的文本片 段集合;
对各抽取元素类型对应的文本片段集合进行抽取;其中,基于所述 行业术语词典对对应于行业术语元素的文本片段集合进行抽取,使用所 述训练好的命名实体识别模型对对应于实体元素的文本片段集合进行抽 取;
具体的,基于所述行业术语词典对对应于行业术语元素的文本片段 集合进行抽取,包括:使用递归调用,对该集合中的文本片段进行抽取, 当只要有一个文本片段抽取后结果为空时,则抽取失败,说明模板匹配 不成功,抽取流程终止;反之则继续抽取,直到递归调用结束;
同理的,使用所述训练好的命名实体识别模型对对应于实体元素的 文本片段集合进行抽取,包括:使用递归调用,对该集合中对应于实体 元素的的文本片段进行抽取,当只要有一个文本片段抽取后结果为空时, 则抽取失败,说明模板匹配不成功,抽取流程终止;反正则继续抽取, 直到递归调用结束;
将对应行业术语元素和实体元素的抽取结果文本和正则表达式元素 的抽取结果组合,得到待抽取文本的抽取结果。
本实施例公开的一种基于规则模板的信息抽取方法,通过配置规则 模板,有效融合行业术语与命名实体识别模型,解决了单以信息抽取模 型抽取的信息内容规范固定、不够灵活的问题;解决了行业信息抽取常 见的长文本抽取中,抽取的信息之间的顺序性、规则性、关联性关系, 避免了单一信息抽取模型的信息割裂;通过抽取字段统一表征行业术语 和命名实体识别模型抽取信息,解决业务专家对信息抽取范围理解困难 和误差的问题。
实施例二
本发明的另一个具体实施例,公开了一种基于规则模板的信息抽取 方法。本实施例的待抽取文本为:
某公司监事减持股份计划公告:XX公司公告,公司收到监事吴永利 先生《股份减持计划告知函》,因个人资金需求,拟自本公告起以集中竞 价交易方式减持公司股份不超过105,697股,占公司总股本的0.02%。减 持价格将按照减持实施时的市场价格确定。
持有本公司股份1,208,035股(占本公司总股本0.1144%)的高级管 理人员敖志强拟自本公告起十五个交易日后的六个月内,以集中竞价或 大宗交易方式减持本公司股份不超过250,000股(占公司总股本的 0.0237%)。
持有本公司股份130,162,360股(占本公司总股本12.3220%)的控 股股东、实际控制人之一霍卫平拟自本公告起十五个交易日后的六个月 内,以集中竞价或大宗交易方式减持本公司股份不超过2,000,000股(占 公司总股本的0.1893%)。
在这一份股权变动公告中,抽取需求为以下4个信息:
Figure BDA0003922924180000101
人名:该公告中对公司增持或者减持的股东/高级管理人员的名 字
Figure BDA0003922924180000102
操作方式:股东是以什么样的操作方式进行股权变动;
Figure BDA0003922924180000103
增持/减持:股权是增持还是减持;
Figure BDA0003922924180000104
股数:股东的股权变化数量。
基于抽取需求,本实施例的方法包括如下步骤:
步骤S101:基于抽取需求训练命名实体识别模型,得到训练好的命 名实体识别模型。
步骤S102:基于所述抽取需求建立信息抽取规则模板。具体包括如 下步骤:
S1021、基于抽取需求确定多个抽取字段。
S1022、基于所述多个抽取字段确定抽取元素,所述抽取元素包括行 业术语元素、实体元素和正则表达式元素。
S1023、利用用于限定业务格式匹配的元素、多个所述抽取元素以及 各元素之间的顺序关系,得到所述信息抽取规则模板。
具体的,按照步骤S1021-S1023S,确定抽取字段为人名、操作方式、 增持/坚持、股数;抽取元素和规则制定过程如下:
规则模板包含以下元素:
1.人名:元素类型是命名实体抽取模型,因为人名是不能枚举的;
2.任意匹配文本:用于泛化当前规则模板,增加模板的适用范围;
3.固定文本:拟自本公告起,用于限定模板的匹配结果,过滤其他 干扰信息;
4.任意匹配文本:用于泛化当前规则模板,增加模板的适用范围;
5.固定文本:以,用于限定模板的匹配结果,过滤其他干扰信息;
6.操作方式:元素类型是术语词典,词典里包括了集中竞价或大宗 交易、集中竞价等;
7.任意匹配文本:用于泛化当前规则模板,增加模板的适用范围;
8.增持/减持:元素类型是术语词典,词典里包括了增持、减持;
9.固定文本:本公司股份不超过,用于限定模板的匹配结果,过滤 其他干扰信息;
10.股数:元素类型是正则表达式,表达式内容是限定大于0的整数;
11.固定文本:股,用于限定模板的匹配结果,过滤其他干扰信息。
组合后的规则模板为:
[人名]<*><拟自本公告起><*><以>[操作方式]<*>[增持/减持]<本 公司股份不超过>[股数]<股>
步骤S103:解析所述信息抽取规则模板,调用行业术语词典和训练 好的所述命名实体识别模型,对待抽取文本进行信息抽取得到抽取结果。 具体包括如下步骤:
S031、配置所述信息抽取规则模板的使用规则,允许模板匹配多次 以及从文本开始处匹配。
S032、解析所述信息抽取规则模板,得到解析后的信息抽取规则模 板。具体的,解析步骤如下:
原始规则模板为:
[人名]<*><拟自本公告起><*><以>[操作方式]<*>[增持/减持]<本 公司股份不超过>[股数]<股>
1.解析并转换模板中的固定文本和任意文本,任意文本按照经验通 常不超过100长度,所以以0到100作为任意文本的长度范围限制,转 换后:
[人名].{0,100}(拟自本公告起.{0,100}以)[操作方 式].{0,100}[增持/减持](本公司股份不超过)[股数](股)
2.解析并转换模板中正则表达式类型的元素,转换后:
[人名].{0,100}(拟自本公告起.{0,100}以)[操作方 式].{0,100}[增持/减持](本公司股份不超过)(#P<股 数>[\d][\d,]{0,}[\d])(股)
3.解析并转换模板中术语词典类型的元素,转换后:
[人名].{0,100}(拟自本公告起.{0,100}以)(#P<操作方式>集中竞 价或大宗交易|集中竞价).{0,100}(#P<增持/减持>增持|减持)(本公司 股份不超过)(#P<股数>[\d][\d,]{0,}[\d])(股)
4.解析并转换模板中命名实体抽取模型类型的元素,转换后得到最 终的规则模板表达式:
(#P<人名>.{0,10}).{0,100}(拟自本公告起.{0,100}以)(#P<操作 方式>集中竞价或大宗交易|集中竞价).{0,100}(#P<增持/减持>增持|减 持)(本公司股份不超过)(#P<股数>[\d][\d,]{0,}[\d])(股)
S1033、使用解析后的信息抽取规则模板调用行业术语词典和所述命 名实体识别模型,对待抽取文本进行信息抽取,得到抽取结果如下:
人名 操作方式 增持/减持 股数
吴永利 集中竞价 减持 105,697
熬志强 集中竞价或大宗交易 减持 250,000
霍卫平 集中竞价或大宗交易 减持 2,000,000 
本实施例提供的一种基于规则模板的信息抽取方法,有益效果实施 例一基本相同,在此不一一赘述。
系统实施例
本实施例公开了一种基于规则模板的信息抽取系统,具体包括:
抽取字段管理模块:
用于基于抽取需求配置和管理信息抽取字段。
行业术语词典模块:
用于基于所述抽取字段配置和管理行业术语词典。具体的,基于抽 取字段管理模块配置好的抽取字段和业务运行过程中的术语,的到行业 术语字典的基本行业术语字段;基于所述基本行业术语字段,对其中同 义词进行配置管理,得到枚举行业术语;基于所述基本行业术语字段, 使用正则规则配置行业术语,得到正则行业术语;基于所述基本行业术 语字段、所述枚举行业术语和所述正则行业术语得到行业术语词典。
命名实体识别模型模块:
用于基于抽取需求,配置和管理命名实体识别模型、配置和管理训 练数据集和测试数据集、训练命名实体识别模型以及模型评估。
具体的,基于抽取需求确定是否存在训练好的命名实体识别模型: 如果不存在,则新建命名实体识别模型,并基于抽取需求训练进行训练, 得到训练好的命名实体识别模型;如果存在,则提供给规则模板管理模 块配置信息抽取规则模板。
规则模板管理模块:
用于基于抽取需求配置和管理信息抽取规则模板。
具体的,基于抽取需求确定多个抽取字段;基于所述多个抽取字段 确定抽取元素,所述抽取元素包括行业术语元素、实体元素和正则表达 式元素;利用用于限定业务格式匹配的元素、多个所述抽取元素以及各 元素之间的顺序关系,得到所述信息抽取规则模板。其中,所述用于限 定业务格式匹配的元素包括固定文本和任意匹配文本;其中,所述固定 文本基于抽取字段获得,用于限定模板的匹配结果;所述任意匹配文本 为只限定长度不限定内容的文本。
信息抽取模块:
用于使用信息抽取规则模板调用行业术语词典和训练好的命名实体 识别模型对待抽取文本进行信息抽取。
具体的,配置所述信息抽取规则模板的使用规则;解析所述信息抽 取规则模板得到模板的正则表达式;使用所述模板的正则表达式调用行 业术语词典和训练和的命名实体识别模型对待抽取文本进行信息抽取。
相比于现有技术,本实施例提供有益效果与方法实施例提供的有益 效果基本相同,在此不一一赘述。
需要说明的是,上述实施例基于相同的发明构思,未重复描述之处, 可相互借鉴。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围 并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范 围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于规则模板的信息抽取方法,其特征在于,包括如下步骤:
基于抽取需求训练命名实体识别模型,得到训练好的命名实体识别模型;
基于所述抽取需求建立信息抽取规则模板;
解析所述信息抽取规则模板,调用行业术语词典和训练好的所述命名实体识别模型,对待抽取文本进行信息抽取得到抽取结果。
2.根据权利要求1所述的信息抽取方法,其特征在于,所述基于所述抽取需求建立信息抽取规则模板,包括:
基于抽取需求确定多个抽取字段;
基于所述多个抽取字段确定抽取元素,所述抽取元素包括行业术语元素、实体元素和正则表达式元素;
利用用于限定业务格式匹配的元素、多个所述抽取元素以及各元素之间的顺序关系,得到所述信息抽取规则模板。
3.根据权利要求2所述的信息抽取方法,其特征在于,所述用于限定业务格式匹配的元素包括固定文本和任意匹配文本;其中,所述固定文本基于抽取字段获得,用于限定模板的匹配结果;所述任意匹配文本为只限定长度不限定内容的文本。
4.根据权利要求1所述的信息抽取方法,其特征在于,所述训练命名实体识别模型包括:
基于抽取需求确定所属行业;
基于所属行业获取所属行业业务运行过程中的文本数据作为训练数据集;
对所述训练数据集进行实体序列数据标注;
使用标注好的训练数据集对预训练框架ERNIE3.0进行训练,得到训练后的命名实体识别模型;
基于训练数据集获取测试数据集;
使用所述测试数据集对训练后的命名实体识别模型进行测试,得到评估指标;
基于业务目标和评估指标判断模型是否训练完毕:当评估指标低于业务目标时,重新获取训练集进行训练;当评估指标高于业务目标时,训练结束,得到训练好的命名实体识别模型。
5.根据权利要求3所述的信息抽取方法,其特征在于,在解析所述信息抽取规则模板前,还包括配置所述信息抽取规则模板的使用规则,包括是否允许模板匹配多次以及从文本开始处匹配或从文本结尾处匹配;
解析所述信息抽取规则模板,得到解析后的信息抽取规则模板;
基于所述使用规则使用解析后的信息抽取规则模板调用行业术语词典和所述命名实体识别模型,对待抽取文本进行信息抽取。
6.根据权利要求5所述的信息抽取方法,其特征在于,所述解析所述信息抽取规则模板,调用行业术语词典和所述命名实体识别模型,对待抽取文本进行信息抽取得到抽取结果包括:
解析并转换模板中的固定文本和任意匹配文本,解析并转换模板中的所述行业术语元素、所述实体元素和所述正则表达式元素,得到所述规则模板的正则表达式;
使用所述模板的正则表达式对待抽取文本进行匹配得到匹配结果,所述匹配结果为按抽取元素类型分组的包含抽取字段的文本片段集合;
对各抽取元素类型对应的文本片段集合进行抽取;其中,基于所述行业术语词典对对应于行业术语元素的文本片段集合进行抽取,使用所述训练好的命名实体识别模型对对应于实体元素的文本片段集合进行抽取;
将对应行业术语元素和实体元素的抽取结果文本和正则表达式元素的抽取结果组合,得到待抽取文本的抽取结果。
7.一种基于规则模板的信息抽取系统,其特征在于,包括
抽取字段管理模块:用于基于抽取需求配置和管理信息抽取字段;
行业术语词典模块:用于基于所述抽取字段配置和管理行业术语词典;
命名实体识别模型模块:用于基于抽取需求,配置和管理命名实体识别模型、配置和管理训练数据集和测试数据集、训练命名实体识别模型以及模型评估;
规则模板管理模块:用于基于抽取需求配置和管理信息抽取规则模板;
信息抽取模块:用于使用信息抽取规则模板调用行业术语词典和训练好的命名实体识别模型对待抽取文本进行信息抽取。
8.根据权利要求7所述的信息抽取系统,其特征在于,所述行业术语词典模块包括:
基于抽取字段管理模块配置好的抽取字段和业务运行过程中的术语,的到行业术语字典的基本行业术语字段;
基于所述基本行业术语字段,对其中同义词进行配置管理,得到枚举行业术语;
基于所述基本行业术语字段,使用正则规则配置行业术语,得到正则行业术语;
基于所述基本行业术语字段、所述枚举行业术语和所述正则行业术语得到行业术语词典。
9.根据权利要求7所述的信息抽取系统,其特征在于,所述命名实体识别模型模块包括基于抽取需求确定是否存在训练好的命名实体识别模型:
如果不存在,则新建命名实体识别模型,并基于抽取需求训练进行训练,得到训练好的命名实体识别模型;
如果存在,则提供给规则模板管理模块配置信息抽取规则模板。
10.根据权利要求7所述的信息抽取系统,其特征在于,所述信息抽取模块用于使用信息抽取规则模板对待抽取文本进行信息抽取包括,
配置所述信息抽取规则模板的使用规则;
解析所述信息抽取规则模板得到模板的正则表达式;
使用所述模板的正则表达式调用行业术语词典和训练和的命名实体识别模型对待抽取文本进行信息抽取。
CN202211361916.0A 2022-11-02 2022-11-02 一种基于规则模板的信息抽取方法和系统 Active CN115906844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211361916.0A CN115906844B (zh) 2022-11-02 2022-11-02 一种基于规则模板的信息抽取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211361916.0A CN115906844B (zh) 2022-11-02 2022-11-02 一种基于规则模板的信息抽取方法和系统

Publications (2)

Publication Number Publication Date
CN115906844A true CN115906844A (zh) 2023-04-04
CN115906844B CN115906844B (zh) 2023-08-29

Family

ID=86482766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211361916.0A Active CN115906844B (zh) 2022-11-02 2022-11-02 一种基于规则模板的信息抽取方法和系统

Country Status (1)

Country Link
CN (1) CN115906844B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598203A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN111476034A (zh) * 2020-04-07 2020-07-31 同方赛威讯信息技术有限公司 基于规则和模型结合的法律文书信息抽取方法及系统
WO2021051867A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 资产信息识别方法、装置、计算机设备及存储介质
CN114118077A (zh) * 2021-11-22 2022-03-01 深圳深度赋智科技有限公司 一种基于自动机器学习平台的智能信息抽取系统构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598203A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
WO2021051867A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 资产信息识别方法、装置、计算机设备及存储介质
CN111476034A (zh) * 2020-04-07 2020-07-31 同方赛威讯信息技术有限公司 基于规则和模型结合的法律文书信息抽取方法及系统
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN114118077A (zh) * 2021-11-22 2022-03-01 深圳深度赋智科技有限公司 一种基于自动机器学习平台的智能信息抽取系统构建方法

Also Published As

Publication number Publication date
CN115906844B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CA3047939C (en) Automated extraction of rules embedded in software application code using machine learning
CN110826320A (zh) 一种基于文本识别的敏感数据发现方法及系统
CN109697201B (zh) 一种查询处理的方法、系统、设备及计算机可读存储介质
WO2003012685A2 (en) A data quality system
CN110162754B (zh) 一种岗位描述文档的生成方法及设备
CN107844558A (zh) 一种分类信息的确定方法以及相关装置
CN110750978A (zh) 情感倾向分析方法、装置、电子设备及存储介质
WO2023093116A1 (zh) 企业的产业链节点确定方法、装置、终端及存储介质
CN117077628B (zh) 舆情应对预案生成方法、装置、服务器及存储介质
CN113064992A (zh) 投诉工单结构化处理方法、装置、设备及存储介质
CN115936624A (zh) 基层数据管理方法及装置
CN114238370A (zh) 一种ner实体识别算法在报表查询中的应用方法及系统
CN110232328A (zh) 一种征信报告解析方法、装置及计算机可读存储介质
CN113239188A (zh) 一种一套金融交易对话信息分析技术方案
CN112115248A (zh) 一种从对话语料中抽取对话策略结构的方法及系统
CN115906844A (zh) 一种基于规则模板的信息抽取方法和系统
CN116306974A (zh) 问答系统的模型训练方法、装置、电子设备及存储介质
CN111062570A (zh) 一种企业的动态分类分析方法及系统
CN115759014A (zh) 一种动态智能化分析方法、系统及电子设备
CN115146653A (zh) 对话剧本构建方法、装置、设备及存储介质
CN111782803B (zh) 一种工单的处理方法、装置、电子设备及存储介质
CN114880453A (zh) 智能问答方法、装置及电子设备
CN114238615A (zh) 一种企业服务成果数据处理方法及系统
CN112819622A (zh) 一种信息的实体关系联合抽取方法、装置及终端设备
CN112380381B (zh) 一种智能管理坐席的方法及装置、机器人及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant