CN110807328B

CN110807328B - 面向法律文书多策略融合的命名实体识别方法及系统

Info

Publication number: CN110807328B
Application number: CN201911021909.4A
Authority: CN
Inventors: 陈振洲; 高磊
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2023-05-05
Anticipated expiration: 2039-10-25
Also published as: CN110807328A

Abstract

本发明公开了一种面向法律文书多策略融合的命名实体识别方法及系统，包括下述步骤：建立源数据语料库，对源数据语料库进行词性标注和序列标注，进行模型预训练；将标注后的数据通过BiLSTM‑Attention‑CRF模型进行训练，获得训练好的第一模型；改进训练好的第一模型；建立目标数据语料库，针对法律文书的目标数据随机抽取数据，生成多份训练集；对多份训练集进行迁移学习，训练改进后的第一模型，得到多个训练集训练后的模型；采用集成学习中的投票机制对多个训练集训练后的模型进行整合，得到第二模型，第二模型进行法律文书的命名实体识别，得到最终的命名实体识别结果。本发明在标注语料不足的情况下，提高命名实体识别的准确率和召回率。

Description

面向法律文书多策略融合的命名实体识别方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种面向法律文书多策略融合的命名实体识别方法及系统。

背景技术

命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体，它是文本中基本的信息元素，是信息表达的重要载体，是正确理解和处理文本信息的基础。中文命名实体识别是自然语言处理领域中的基本任务之一，其主要任务是识别出文本中出现的名字实体和有意义的短语并加以归类，主要包括人名、地名、组织机构名、时间表达式、日期、数字表达式等，命名实体识别准确率和召回率的高低，直接决定着语法分析、语义分析等语言理解全过程的性能。

随着互联网的飞速发展，大量无规则、无标注的各个领域数据不端增长，对命名实体识别的准确率和召回率都提出了新的要求，目前常用的命名实体识别方法分为两大类：一是基于规则和知识的方法，二是基于统计的方法。基于规则和知识的方法是一种最早使用的方法，这种方法简单、便利，缺点是需要大量的人工观察，可移植性差。基于统计的方法将命名实体识别看作一个序列标注问题，例如采用隐马尔科夫链、最大熵、条件随机场等机器学习得到序列标注模型。随着深度学习的方法，深度学习和统计学习结合的方法也渐渐成为主流方法。但是在面对标注数据集较少的情况下，依然难以满足命名实体识别的要求。

因此，亟待开发一种识别技术，在面对海量无标注数据集的情况下，能够对其命名实体获得较好的准确率和召回率。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种面向法律文书多策略融合的命名实体识别方法及系统，以解决在标注语料不足的情况下，仍然在目标领域中获得较好的准确率和召回率。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种面向法律文书多策略融合的命名实体识别方法，包括下述步骤：

建立源数据语料库，对源数据语料库进行词性标注和序列标注，进行模型预训练；

将标注后的数据通过BiLSTM-Attention-CRF模型进行训练，获得训练好的第一模型；

改进训练好的第一模型；

建立目标数据语料库，针对法律文书的目标数据随机抽取数据，生成多份训练集；

对多份训练集进行迁移学习，训练改进后的第一模型，得到多个训练集训练后的模型；

采用集成学习中的投票机制对所述多个训练集训练后的模型进行整合，得到第二模型，所述第二模型进行法律文书的命名实体识别，得到最终的命名实体识别结果。

作为优选的技术方案，所述将标注后的数据通过BiLSTM-Attention-CRF模型进行训练，采用BiLSTM-Attention-CRF训练方法，具体步骤为：对所述标注后的数据进行向量化处理，转化为矩阵后输入到BiLSTM模型中，对BiLSTM模型的输出结果进行注意力权重计算，将计算结果输入到CRF模型中，获得最终的训练结果。

作为优选的技术方案，所述改进训练好的第一模型，采用替换词嵌入层改进方法或者源数据和目标数据随机混合的改进方法。

作为优选的技术方案，所述替换词嵌入层改进方法采用word2vec工具对法律文书数据的词进行训练，获得所述法律文书数据的词嵌入。

作为优选的技术方案，所述建立目标数据语料库的具体步骤为：

获取法律文书数据，构建命名实体和实体关系的标注体系，通过条件随机场进行实体自动标注，建立目标数据语料库。

作为优选的技术方案，所述建立目标数据语料库的具体步骤还包括手动调整步骤，对目标数据语料库的错误标注进行手工调整。

作为优选的技术方案，所述对多份训练集进行迁移学习，训练改进后的第一模型，具体的训练步骤为：

将源数据语料以及法律文书的目标数据语料混合进行训练；

加载改进后的第一模型的权重参数，并结合到法律文书中，构建面向法律文书的模型；

将改进后的第一模型的权重参数加入到面向法律文书的模型中；

对法律文书进行标注后，作为面向法律文书的模型的训练集进行训练，对面向法律文书的模型进行权重参数微调，得到多个训练集训练后的模型。

作为优选的技术方案，所述采用集成学习中的投票机制对所述多个训练集训练后的模型进行整合，所述多个训练集训练后的模型的个数为奇数，所述投票机制采用少数服从多数的原则。

本发明还提供一种面向法律文书多策略融合的命名实体识别系统，包括：源数据语料库构建模块、模型预训练模块、第一模型构建模块、第一模型改进模块、目标数据语料库构建模块、迁移学习模块和第二模型构建模块；

所述源数据语料库构建模块用于建立源数据语料库，对源数据语料库进行词性标注和序列标注；

所述模型预训练模块用于模型预训练；

所述第一模型构建模块用于将标注后的数据通过BiLSTM-Attention-CRF模型进行训练，构建第一模型；

所述第一模型改进模块用于改进训练好的第一模型；

所述目标数据语料库构建模块用于针对法律文书的目标数据随机抽取数据，生成多份训练集，建立目标数据语料库；

所述迁移学习模块用于将所述多份训练集进行迁移学习，训练改进后的第一模型，得到多个训练集训练后的模型；

所述第二模型构建模块用于采用集成学习中的投票机制对所述多个训练集训练后的模型进行整合，构建第二模型，所述第二模型进行法律文书的命名实体识别，得到最终的命名实体识别结果。

作为优选的技术方案，所述BiLSTM-Attention-CRF模型包括核心算法层，集成学习层和迁移学习层；

所述核心算法层用于将数据进行向量化处理后输入到BiLSTM模型中，对BiLSTM模型的输出结果进行注意力权重计算；

所述集成学习层用于对数据进行随机抽取训练并获得多个模型，对多个模型进行投票式集成；

所述迁移学习层采用迁移学习的方法进行对训练后的模型进行改进。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明采用了循环神经网络和注意力机制的方式实现将深度学习应用到法律领域，实现了自动标注，从而减轻了人工标注的负担。

(2)本发明构建法律文书数据的命名实体和实体关系的标注体系，采用条件随机场进行实体自动标注，建立目标数据语料库，保持了统计机器学习的优势。

(3)本发明通过迁移学习，用其他的数据集先训练出一个模型，然后通过目标数据集对这个模型进行调整让其适合目标领域，解决目标语料中的标注数据集较少的问题，减小了对预标注数据的依赖。

(4)本发明通过集成学习，对数据训练奇数个模型，最后使用这些模型对数据进行预测，其预测的结果通过投票的机制中的少数服从多数原则确定最终的结果，提高了其准确率和召回率。

附图说明

图1为本实施例面向法律文书多策略融合的命名实体识别方法的流程示意图；

图2为本实施例面向法律文书多策略融合的命名实体识别方法的BiLSTM-Attention-CRF模型整体框架示意图；

图3为本实施例面向法律文书多策略融合的命名实体识别方法的BiLSTM-Attention-CRF模型的学习流程示意图；

图4为本实施例面向法律文书多策略融合的命名实体识别方法的CRF++工具处理流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示，本实施例提供一种面向法律文书多策略融合的命名实体识别方法，包括下述步骤：

S1：建立源数据语料库，获取人民日报的新闻数据或者社交数据(具有大规模标注数据的数据，越贴近目标数据类型越好)，对源数据语料库进行词性标注和序列标注，该数据用于模型的预训练，本实施例先采用与正式训练不一样的数据集进行预训练，训练出一个相似的模型；

S2：将大量的人民日报的标注数据集，利用BiLSTM-Attention-CRF模型进行训练，获得训练好的第一模型，本实施例训练方法采用BiLSTM-Attention-CRF方法，其主要的实现方式为：首先对于文本数据进行向量化，即将文本数据转换成矩阵，然后将矩阵输入到BiLSTM模型中，BiLSTM模型的输出结果进行注意力权重计算，将计算的结果输入到CRF中，获得最终的训练结果，当然，本实施例也可以采用BiLSTM-CRF训练方法；

S3：对训练好的第一模型进行改进，可以通过词嵌入层改进，也可以通过源数据和目标数据随机混合的方式，其主要原因在于如果仅仅使用源数据会造成目标数据特征不足，即使之后使用目标数据进行微调，对于最终的结果也会造成影响，因此将目标数据特征提前到数据集里，既可以使得微调过程更快，也可以使得微调前就获得了目标数据特征，从而可以获得更好的最终结果，其中，替换词嵌入层是通过word2vec工具对法律文书的词进行训练，获得该文书数据的词嵌入，本实施例的Word2vec是工具，只需要输入数据，就可以将文字自动转换成矩阵；

S4：建立目标数据语料库，对法律文书的目标数据随机抽取数据以生成多份不同训练集；

S5：通过多份训练集进行迁移学习，训练替换词嵌入层后的模型，如图2、图3所示，得到多个训练集训练的模型，该模型的训练过程如下：

(1)首先通过新闻语料以及加入法律领域语料混合进行训练模型；

(2)然后加载该模型的权重参数，将其应用到法律文书中；

(3)然后将该模型的权重参数融入到面向法律文书的模型中；

(4)然后经过法律文书的标注数据进行新模型的训练，从而对新模型进行权重参数微调；

(5)最后对获得的新模型进行测试。

本实施例中通过词嵌入替换进行迁移学习后的实验结果如下表1所示，

表1迁移学习后的实验结果记录表

模型	准确率	召回率	F1值
				迁移后的BiLSTM-Attention-CRF	0.958	0.884	0.920

在本实施例中，采用源数据语料进行训练模型，源数据语料尽量贴近目标语料，之后，实施迁移学习，用其他的数据集先训练出一个模型，然后通过目标数据集对这个模型进行深度学习自动调整，让它适合目标领域，其主要解决目标语料中的标注数据集较少的问题；

S6：对多个训练集训练的模型，通过集成学习中的投票机制进行整合，形成最终的识别模型如图2所示，从图2中的集成学习层可以看出，实际上是三个，当然也可以多个模型对数据进行预测结果，然后通过Bagging策略，即统计机制，获得票数多的结果为最终结果。

在本实施例中，集成学习后的实验结果如下表2所示：

表2集成学习后的实验结果记录表

模型	准确率	召回率	F1值
				集成学习	0.975	0.980	0.977

在本实施例中，采用集成学习，主要对数据训练奇数个模型，最后使用这些模型对数据进行预测，其预测的结果通过投票的机制，少数服从多数原则确定最终的结果，进一步提高准确率；

步骤S6的输出条件，按照“少数服从多数”的原则，获得更多票数的结果作为最终结果，集成学习可以采用相同模型集成；

BiLSTM-Attention-CRF模型是BiLSTM、注意力机制和条件随机场三种机制形成的模型如图2所示，从图中可以看出该模型的主要架构，该框架主要分为三个部分：核心算法层，集成学习层和迁移学习层。

对于核心算法层(BiLSTM-Attention-CRF)，根据分析，在法律文书的案例描述中，尤其是法律裁决的过程中，每一个罪行都是基于详细的案例描述，因此其长度比较长，如果仅仅采用BiLSTM模型，会出现特征丢失的现象，因此，通过添加注意力机制，对于整个案例描述，通过注意力机制对每个字进行权重自动设置，从而可以获得更精准的特征；

对于集成学习层，根据“少数服从多数”的原则，通常可以获得更好的结果，因此对于同一个模型，对数据进行随机抽取训练，从而获得多个参数不同但是架构相同的模型，对这些模型进行投票式集成，即可获得更好的效果；

对于迁移学习层，采用迁移学习的方式进行改进，通过迁移学习，使用已经训练好的其他领域的模型，从已有的模型出发再训练进行不断的微调，从而使没有太多标注语料的法律文书领域也能顺利的实现该领域的命名实体识别。本实施例在迁移学习中，会将其他领域数据集和法律领域数据集进行随机融合，保证了其他领域数据集训练的模型不至于过渡的偏离，除加快了训练速度外，同时还保证了训练结果不下降。

在本实施例中，建立语料库的步骤为：

(1)首先在法律工作人员的指导下，构建相对完善的命名实体和实体关系的标注体系；

(2)在上述体系的指导下，根据法律特点，通过条件随机场进行实体自动标注；

法律的特点描述如下：

法律文书根据不同的领域以及不同的作用主要分类如下：

按照领域类型分类主要分为:刑事案件、民事案件、行政案件、赔偿案件和执行案件等。

按照审判程序分类主要分为：一审、二审、再审、复核、刑罚变更和再审审查与审判监督等.

按照文书类型分类主要分为：判决书、裁决书、调解书、决定书、通知书和令等。

法律文书和普通文书的主要不同表现在：

a、具有固定的格式，法律文书一般分为三个部分：首部、正文和尾部，其中首部包括制作机关、文书名称、文书编号，被告人基本情况，具体案件说明以及审理经过等；正文包括案情事实、处理理由以及处理意见等；尾部则宝库交代有关事项、签署、日期、用印以及附加说明等；

b、在文本表达上一般在遵循格式的基础上，以叙述为主，在说明案件时，简介清晰，语言精炼；

c、在叙事技巧上，讲究平实有序，基本按照作案时间、地点、作案人和被害人，作案的目的、动机、情节、后果以及作案人的态度和证据来叙述。

法律文书中命名实体的特点如下表3所示，

表3法律文书中命名实体的特征表

实体	人名	地名	法律名	罪行	裁决
						长度	1-4字	不确定	2-50字	2-10字	2-10字
嵌套数	-	多层	多层	-	-
						子实体		地名	地名，机构名	-	-

在本实施例中，提供建立语料库的示例，如下所述：

(1)首先收集法律文书数据，其次，建立实体体系，实体体系如下表4所示：

表4实体体系结构表

(2)如图4所示，基于上述体系，通过CRF++工具对法律文书数据进行处理，从而获得法律领域的语料库，对目标数据语料库的错误标注还可以进行手工调整，以便获得更好的实用效果；

本实施例对人民日报语料和刑事裁决文书的处理后的语料情况如下表5所示，

表5语料处理结果记录表

人民日报最终数据集结果	刑事判决文书最终处理结果
		克B_PER	犯O
马I_PER	故B_CM
		尔I_PER	意I_CM
的O	杀I_CM
		女O	人I_CM
儿O	罪I_CM

本实施例采用的是BIO模式，B是词首，I是词的其他部分，O不是实体，CM见表4代表着罪行；其中，B_PER表示人名，词首；I_PER表示人名，其他位置；B_ORG表示组织名，词首；I_ORG表示组织名，其他位置；O表示非实体。

以“李三在中国”为例，举例说明其含义，“李三”是人名，其词首是“李”，“三”是其他位置，“中国”是组织名，“中”为词首，“是”本身不属于实体，用“O”表示。结果如下表6所示：

表6示例表示结果记录表

原句	李	三	在	中	国
						向量化	<![CDATA[ω<sub>0</sub>]]>	<![CDATA[ω<sub>1</sub>]]>	<![CDATA[ω<sub>2</sub>]]>	<![CDATA[ω<sub>3</sub>]]>	<![CDATA[ω<sub>4</sub>]]>
标签	B_PER	I_PER	O	B_ORG	I_ORG
						标签索引	0	1	4	2	3

本实施例采用了循环神经网络，注意力机制，条件随机场，集成学习，迁移学习等技术方案，如图2所示，具体架构是用相关领域的数据通过迁移学习获得预训练BiLSTM-Attention-CRF模型，然后通过标注好的法律文书数据集进行模型调整，最后基于集成学习实现结果提升，解决了法律文书方面的命名实体识别的问题，达到了如下表7的效果，

表7命名实体识别效果对比表

由上表可知，预测结果1是没集成学习的情况下，预测结果2是采用本实施例的面向法律文书多策略融合的命名实体识别方法的结果，基准是指当前常用工具的结果情况，从表7中的训练结果中可以看出，本实施例的识别效果高于单纯的条件随机场和单纯的深度学习。

本实施例还提供一种面向法律文书多策略融合的命名实体识别系统，包括：源数据语料库构建模块、模型预训练模块、第一模型构建模块、第一模型改进模块、目标数据语料库构建模块、迁移学习模块和第二模型构建模块；

在本实施例中，源数据语料库构建模块用于建立源数据语料库，对源数据语料库进行词性标注和序列标注；模型预训练模块用于模型预训练；第一模型构建模块用于将标注后的数据通过BiLSTM-Attention-CRF模型进行训练，构建第一模型；第一模型改进模块用于改进训练好的第一模型；目标数据语料库构建模块用于针对法律文书的目标数据随机抽取数据，生成多份训练集，建立目标数据语料库；迁移学习模块用于将所述多份训练集进行迁移学习，训练改进后的第一模型，得到多个训练集训练后的模型；第二模型构建模块用于采用集成学习中的投票机制对多个训练集训练后的模型进行整合，构建第二模型，第二模型进行法律文书的命名实体识别，得到最终的命名实体识别结果。

在本实施例中，BiLSTM-Attention-CRF模型包括核心算法层，集成学习层和迁移学习层，核心算法层用于将数据进行向量化处理后输入到BiLSTM模型中，对BiLSTM模型的输出结果进行注意力权重计算；集成学习层用于对数据进行随机抽取训练并获得多个模型，对多个模型进行投票式集成；迁移学习层采用迁移学习的方法进行对训练后的模型进行改进。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种面向法律文书多策略融合的命名实体识别方法，其特征在于，包括下述步骤：

所述将标注后的数据通过BiLSTM-Attention-CRF模型进行训练，采用BiLSTM-Attention-CRF训练方法，具体步骤为：对所述标注后的数据进行向量化处理，转化为矩阵后输入到BiLSTM模型中，对BiLSTM模型的输出结果进行注意力权重计算，将计算结果输入到CRF模型中，获得最终的训练结果；

改进训练好的第一模型；

所述改进训练好的第一模型，采用替换词嵌入层改进方法或者源数据和目标数据随机混合的改进方法；

所述替换词嵌入层改进方法采用word2vec工具对法律文书数据的词进行训练，获得所述法律文书数据的词嵌入；

所述建立目标数据语料库的具体步骤为：

获取法律文书数据，构建命名实体和实体关系的标注体系，通过条件随机场进行实体自动标注，建立目标数据语料库；

所述建立目标数据语料库的具体步骤还包括手动调整步骤，对目标数据语料库的错误标注进行手工调整；

所述对多份训练集进行迁移学习，训练改进后的第一模型，具体的训练步骤为：

将源数据语料以及法律文书的目标数据语料混合进行训练；

对法律文书进行标注后，作为面向法律文书的模型的训练集进行训练，对面向法律文书的模型进行权重参数微调，得到多个训练集训练后的模型；

采用集成学习中的投票机制对所述多个训练集训练后的模型进行整合，得到第二模型，所述第二模型进行法律文书的命名实体识别，得到最终的命名实体识别结果；

所述采用集成学习中的投票机制对所述多个训练集训练后的模型进行整合，所述多个训练集训练后的模型的个数为奇数，所述投票机制采用少数服从多数的原则。

2.一种面向法律文书多策略融合的命名实体识别系统，其特征在于，包括：源数据语料库构建模块、模型预训练模块、第一模型构建模块、第一模型改进模块、目标数据语料库构建模块、迁移学习模块和第二模型构建模块；

所述模型预训练模块用于模型预训练；

所述第一模型改进模块用于改进训练好的第一模型；

所述建立目标数据语料库的具体步骤为：

将源数据语料以及法律文书的目标数据语料混合进行训练；

所述第二模型构建模块用于采用集成学习中的投票机制对所述多个训练集训练后的模型进行整合，构建第二模型，所述第二模型进行法律文书的命名实体识别，得到最终的命名实体识别结果；

3.根据权利要求2所述的面向法律文书多策略融合的命名实体识别系统，其特征在于，所述BiLSTM-Attention-CRF模型包括核心算法层，集成学习层和迁移学习层；