CN111476034A

CN111476034A - 基于规则和模型结合的法律文书信息抽取方法及系统

Info

Publication number: CN111476034A
Application number: CN202010266180.3A
Authority: CN
Inventors: 李丹; 魏明欣; 张兵; 蒋翱; 钟夫
Original assignee: Same Side Seville Information Technology Co ltd
Current assignee: Same Side Seville Information Technology Co ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-07-31
Anticipated expiration: 2040-04-07
Also published as: CN111476034B

Abstract

本发明公开了一种基于规则和模型结合的法律文书信息抽取方法，包括：创建词典和文书实体抽取规则，采用基于规则的抽取方法进行法律文书实体抽取；将抽取结果作为初次标注数据进行数据标注操作、训练模型以及发布模型；采用基于规则和模型相结合的抽取方法进行法律文书实体抽取，选取评估结果高的为输出结果；对结果进行评估，如果满足要求则结束；如果不满足要求继续迭代。还公开了一种法律文书信息抽取系统，包括数据采集模块、信息提取模块、数据标注模块、数据集管理模块和评估模块。本发明将规则与模型的方法有效结合、形成互补，提高法律文书信息提取效果，同时系统可拓展性、移植性更强。

Description

基于规则和模型结合的法律文书信息抽取方法及系统

技术领域

本发明涉及信息提取技术领域，具体的说，是一种基于规则和模型结合的法律文书信息抽取方法及系统。

背景技术

信息提取技术是自然语言处理基础应用技术，随着深度学习技术的发展，近年来，该技术发展迅速，在垂直领域应用广泛，政法行业也不例外。AI技术的应用使得机器可以帮助处理线下活动、辅助司法人员办案。办案所需数据大部分来源于案件相关文书，这就需要采用信息提取技术将文书非结构数据转换为办案所需的结构化数据。当前，信息提取技术在法律文书的信息提取中取得了一定的效果，但也未达到最理想的状态。在业务应用中，采用基于模型的方法需要大量训练数据作为支撑，由于行业保密要求而难以获得大量的数据，因此基于模型的方法难以发挥最大性能，在有数据的情况下也需要投入人工标注成本；而在没有训练数据的情况下存在冷启动的问题。法律文书文本数据可以理解为半结构化数据，可以采用基于规则的方法解决部分问题，可以达到更高的正确率，但规则维护困难、拓展性差、不可能枚举所有的规则。现有技术中尚没有一种有效的方法，解决上述问题。

发明内容

本发明的目的在于提供一种基于规则和模型结合的法律文书信息抽取方法及系统，用于解决现有技术中单独的模型训练无法得到大量训练数据、采用规则提取数据存在规则维护困难、拓展性差、不可能枚举所有的规则的问题。

本发明通过下述技术方案解决上述问题：

一种基于规则和模型结合的法律文书信息抽取方法，包括：

步骤S100：收集法律行业专业术语、业务术语创建领域词典，根据业务需求梳理抽取实体，再根据法律文书行文规则配置文书实体抽取规则，采用基于规则的抽取方法进行法律文书实体抽取；

步骤S200：对抽取结果进行评估，并根据评估结果修改文书实体抽取规则和词典；

步骤S300：将抽取结果作为初次标注数据进行数据标注操作，所述数据标注操作包括WEB页面数据标注确认和修改、使用初次标注数据训练模型以及发布模型；

步骤S400：采用基于规则和模型相结合的抽取方法进行法律文书实体抽取，选取评估结果高的为输出结果；

步骤S500：对结果进行评估，如果满足要求则结束；如果不满足要求，返回步骤200。

本发明首先基于规则进行抽取，对抽取结果评估并且进行修改和完善规则，再将抽取结果作为初始标注数据进行训练模型，然后基于规则和模型的结合进行抽取、评估，如果不符合要求，继续修改词典和规则，直到符合要求为止。将规则与模型的方法有效结合，训练模型的数据直接由初始标注数据得到，克服了单独的模型训练无法得到大量训练数据的问题，根据规则和模型结合抽取结果的评估结果针对性的修改规则和词典，克服了单纯采用规则提取数据不可能枚举所有规则的问题。

所述基于规则的抽取方法包括基于规则的文本段落分类处理、主语识别处理和基于规则的要素抽取处理。

所述基于规则的文本段落分类处理是根据段落起始文本和结束文本进行粗分类，然后加入过滤筛选条件进行筛选，包括段落起始规则、段落结束规则、和段落筛选规则。

所述基于规则的要素抽取处理是指根据待抽取要素的前后文表述规则进行抽取，包括截断规则、具体抽取规则和数据归一化规则。

所述模型为基于BERT的实体识别模型。主动学习的思想是指随着标注数据的积累，模型训练可以实时进行，数据标注结果可以进行模型预测和实时推荐，标注和模型训练是相互推动的过程，既可以保证标注的质量也可提高标注效率。

一种基于规则和模型结合的法律文书信息抽取系统，包括数据采集模块、信息提取模块、数据标注模块、数据集管理模块和评估模块，其中：

数据采集模块，用于采集配置词典所需的专业术语和业务术语以及根据业务需求从业务系统采集业务数据；采集的数据供数据标注模块和信息提取模块使用；

数据集管理模块，用于承担与法律文书相关的训练集、词典、实体、抽取规则等数据的管理，管理的数据供信息提取模块使用；

信息提取模块，采用基于词性标注规则和基于BERT模型相结合的信息抽取方法抽取法律文书实体；为法律文书抽取业务提供支持，抽取结果供上层业务应用和数据标注模块使用；

数据标注模块，对抽取的法律文书实体采用主动学习思想，使用后端主动学习模型动态地推荐标注标签、结合WEB标注页面进行快速标注以及对标注完成的数据进行模型训练和模型发布；

评估模块，对抽取的法律文书实体进行精确度评估和召回率评估，并反馈至数据集管理模块促使数据集管理模块修改和优化词典和抽取规则。

本发明与现有技术相比，具有以下优点及有益效果：

(1)本发明将规则与模型的方法有效结合、形成互补，提高法律文书信息提取效果。

(2)本发明综合了基于规则和基于模型的抽取方法优点，避免了冷启动问题，同时系统可拓展性、移植性更强。

附图说明

图1为本发明的流程图；

图2为本发明的系统框图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例：

结合附图1所示，一种基于规则和模型结合的法律文书信息抽取方法，

首先，收集法律行业专业术语、业务术语等创建领域词典；

其次，根据业务需求梳理抽取实体，再根据法律文书行文规则配置文书实体抽取规则；

然后，采用基于规则的方法进行法律文书实体抽取并采用抽取实体精确度和召回率作为指标对结果进行评估，根据评估结果对规则和词典进行修改调整，同时将抽取结果作为初次标注数据送入数据标注模块进行确认和修改、然后训练模型、发布模型；基于规则的文本段落分类处理、主语识别处理、基于规则的要素抽取处理，基于规则的文本段落分类处理是指根据段落起始文本和结束文本进行粗分类，然后加入过滤筛选条件进行筛选。所述规则包括段落起始规则、段落结束规则、段落筛选规则；基于规则的要素抽取处理是指根据待抽取要素的前后文表述规则进行抽取。所述规则包括截断规则、具体抽取方法、数据归一化规则

发布模型后，采用基于规则和模型相结合的方法进行法律文书实体抽取，同样对结果进行评估，如果结果不达要求则继续修改规则和词典、标注数据、训练模型、发布模型、抽取、对结果评估，直到评估结果达到要求为止。

数据标注操作包括WEB页面数据标注确认、修改，使用标注数据训练模型、发布模型。模型为基于BERT的实体识别模型。数据标注模块采用主动学习的思想是指随着标注数据的积累，模型训练可以实时进行，数据标注结果可以模型预测实时推荐，标注和模型训练是相互推动的过程，既可以保证标注的质量也可提高标注效率。

本实施例的基于规则和模型相结合的信息抽取方法综合了基于规则和基于模型的抽取方法优点，不仅避免了无训练集冷启动问题，还有效利用结果数据，提高训练集标注效率，同时对结果进行评估，促使方法效果提升，提高法律文书信息抽取效果。

实施例2：

结合附图2，一种基于规则和模型结合的法律文书信息抽取系统，包括：

数据采集模块，用于业务应用系统业务数据采集和法律文书数据获取，采集的数据供主动学习文本标注模块和信息提取模块使用，数据采集模块从三个方面收集数据，一是采用爬虫获取互联网公共数据，二是从第三方获取数据，三是从业务系统获取数据。

信息提取模块，主要包括基于词性标注规则的信息提取技术和基于模型的信息提取技术，为法律文书抽取业务提供技术支撑。处理结果数据供上层业务应用和数据标注模块中的主动学习文本标注工具使用。主动学习文本标注工具包括WEB标注页面和智能算法，智能算法包括SVM、CRF等传统算法和基于BERT的深度学习算法。

数据标注模块，采用主动学习思想，使用后端主动学习模型动态地推荐标注标签，结合WEB标注页面可快速实现标注。标注好的数据可实时训练且部署。该模块为NLP(自然语言)处理提供模型及标注数据。

数据集管理模块，主要承担法律文书相关的训练集、词典、实体、抽取规则等数据的管理和配置。管理的数据供信息提取模块使用以及其他业务拓展使用。

评估模块，是数据集管理模块和NLP处理的衔接模块，主要是对NLP任务和数据质量的评估，根据评估的结论促使数据集的修改和管理以及NLP任务效果的把控和提升。

首先通过数据采集模块收集法律文书数据，通过数据集管理模块对抽取规则和词典进行配置，数据提取模块通过基于规则的信息提取方法进行抽取，根据评估模块的评估结果对词典和规则进行修改，同时使用数据标注模块对抽取结果进行标注、训练和发布模型，然后使用规则和模型相结合的方法进行抽取，使用评估方法对抽取结果进行筛选，若结果不达要求则从数据集管理模块开始继续迭代直到结果达到要求为止。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种基于规则和模型结合的法律文书信息抽取方法，其特征在于，包括：

步骤S100：配置文书实体抽取规则和词典，采用基于规则的抽取方法进行法律文书实体抽取，

步骤S500：判断抽取结果是否满足要求，若满足，结束；否则返回步骤200。

2.根据权利要求1所述的基于规则和模型结合的法律文书信息抽取方法，其特征在于，所述基于规则的抽取方法包括基于规则的文本段落分类处理、主语识别处理和基于规则的要素抽取处理。

3.根据权利要求2所述的基于规则和模型结合的法律文书信息抽取方法，其特征在于，所述基于规则的文本段落分类处理是根据段落起始文本和结束文本进行粗分类，然后加入过滤筛选条件进行筛选。

4.根据权利要求2所述的基于规则和模型结合的法律文书信息抽取方法，其特征在于，所述基于规则的要素抽取处理是指根据待抽取要素的前后文表述规则进行抽取。

5.根据权利要求1所述的基于规则和模型结合的法律文书信息抽取方法，其特征在于，所述模型为基于BERT的实体识别模型。

6.一种基于规则和模型结合的法律文书信息抽取系统，其特征在于，包括数据采集模块、信息提取模块、数据标注模块、数据集管理模块和评估模块，其中：

数据采集模块，用于采集配置词典所需的专业术语和业务术语以及根据业务需求从业务系统采集业务数据；

数据集管理模块，用于训练集、词典、实体、抽取规则的管理，管理的数据供信息提取模块使用；

信息提取模块，采用基于规则和BERT模型相结合的信息抽取方法抽取法律文书实体；

数据标注模块，对抽取的法律文书实体采用后端主动学习模型动态地推荐标注标签、结合WEB标注页面进行标注以及对标注完成的数据进行模型训练和模型发布；

评估模块，对抽取的法律文书实体进行精确度评估和召回率评估，并反馈至数据集管理模块。