CN111241837B - 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法 - Google Patents

基于对抗迁移学习的盗窃案件法律文书命名实体识别方法 Download PDF

Info

Publication number
CN111241837B
CN111241837B CN202010007207.7A CN202010007207A CN111241837B CN 111241837 B CN111241837 B CN 111241837B CN 202010007207 A CN202010007207 A CN 202010007207A CN 111241837 B CN111241837 B CN 111241837B
Authority
CN
China
Prior art keywords
model
named entity
training
shared
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010007207.7A
Other languages
English (en)
Other versions
CN111241837A (zh
Inventor
孙媛媛
李春楠
许策
王小鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202010007207.7A priority Critical patent/CN111241837B/zh
Publication of CN111241837A publication Critical patent/CN111241837A/zh
Application granted granted Critical
Publication of CN111241837B publication Critical patent/CN111241837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种法律文书命名实体识别方法,一种基于对抗迁移学习的盗窃案件法律文书命名实体识别方法,包括以下步骤:(1)构建法律命名实体数据集,(2)搭建对抗迁移学习神经网络模型,(3)测试模型,(4)结果讨论。本发明方法切实可行且结构清晰,具有参考价值,可以提升法律命名实体识别的精准度,基于法律命名实体识别,可以面向法律知识图谱的构建,可以面向多人多节案件事实分解、证据关联分析和司法知识图谱构建等方面中的应用。

Description

基于对抗迁移学习的盗窃案件法律文书命名实体识别方法
技术领域
本发明涉及一种法律文书命名实体识别方法,更具体地说,涉及一种基于对抗迁移学习的盗窃案件法律文书命名实体识别方法。
背景技术
近年来,随着国家司法改革的持续推进,人工智能技术在司法领域中的应用受到了研究者的广泛关注和各方重视,特别是对海量的法律文书进行智能分析和处理已成为司法人工智能研究的重要内容。而法律文书的命名实体识别,作为司法人工智能领域的的重要性、基础性工作,对多人多节案件事实分解、证据关联分析和司法知识图谱构建等任务都有广泛应用。命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体,在CoNLL-2002、CoNLL-2003会议上将命名实体定义为包含名称的短语。目前中文命名实体识别中常用的数据集有《人民日报》、微软、SIGHAN、ACE2005等中文命名实体数据集,这些语料集中在新闻、微博等通用领域,相关命名实体的定义也主要为人名、地名、机构名、时间、日期、货币和百分比等七种通用实体。通用领域命名实体体现了命名实体本质、规律、自然的属性,而司法领域命名实体更强调其对司法业务的服务作用,如表1所示,在通用领域来说“李某”、“周某”都是人名,而在司法领域来说更看重的是“李某”、“周某”犯罪嫌疑人和受害人的属性,而这对后续的司法业务应用是十分重要的。
表1
Figure BDA0002355675550000011
从表1中可以看出,通用领域命名实体和司法领域命名实体,虽然其领域不同,但其含义和边界却有很多相似或共同的部分,如果有效利用则会对模型的性能有所帮助。目前虽已涌现出许多通用领域的命名实体识别方法,但针对于司法领域的命名实体识别方法的研究仍处在探索阶段,并且对如何利用通用领域命名实体识别结果提升司法领域命名实体的识别性能,目前还没有相关方面的研究。
发明内容
针对现有技术中存在的不足,本发明目的是提供一种基于对抗迁移学习的盗窃案件法律文书命名实体识别方法。该方法基于司法领域的专业知识以及盗窃类案件起诉书文本内容,基于预训练语言模型和对抗学习模型,对盗窃类案件起诉书涉及的司法命名实体进行识别。
为了实现上述发明目的,解决己有技术中存在的问题,本发明采取的技术方案是:一种基于对抗迁移学习的盗窃案件法律文书命名实体识别方法,包括以下步骤:
步骤1、构建法律命名实体数据集,定义所涉及的命名实体含义,构建、标注、调整盗窃类案件命名实体识别数据集并生成训练集、测试集,具体包括以下子步骤:
(a)命名实体的定义,根据司法文书中涉及命名实体所表示的含义和涉及的司法业务,将命名实体区分为自然属性命名实体和司法业务命名实体,自然属性命名实体记做N-NER更侧重于表达实体所代表的的通用、基础的含义,而司法业务命名实体记做L-NER则更多表达司法业务关注的含义;其中自然属性命名实体为时间、地点、人名、物品、货币;司法业务命名实体为时间、地点、犯罪嫌疑人、受害人、其它人、被盗物品、作案工具、其它物品、物品价值、非法获利、实物货币;
(b)根据起诉书文法结构,抽取出部分文书中犯罪事实部分作为数据集,获得有效盗窃类案件犯罪事实数据1900份,按照7:3的比例划分训练集与测试集,训练集与测试集具有相同的数据格式,按照相同的过程完成预处理;
(c)语料的初标注,自然属性标注,对人名、地点、组织利用《人民日报》语料库训练命名实体识别模型进行识别,对时间、货币采用规则的方法进行识别;司法属性标注,在自然属性标注基础上,采用人工标注的方式,将人名区分为犯罪嫌疑人、受害人和其它人,将物品区分为被盗物品、作案工具和其它物品,将货币区分为物品价值,非法获利和实物货币;
(d)语料的标注后处理,由于语料的初标注采用的是人工标注和自动标注结合的策略,造成语料精度难以保证,所以在语料初标注的基础上,由经培训的志愿者进行语料的校准调整,校准后进行一致性检验,以一个志愿者的标注为标准集,另一个志愿者的标注为预测集,采用常规的P/R/F1指数来评估嵌套命名实体语料库标注的一致性,其中P为准确率,R为召回率,F1为两者的调和平均值,经过两个阶段的调整,最后F1达到98.42%说明语料标注的一致性高,最后将语料标注结果保存至xml文件中;
(e)产生批量数据,运用神经网络进行命名实体识别模型训练时,由于所采用的参数优化方法为随机梯度下降,因此需要将批量数据样本送入语料库以训练命名实体识别模型,为了减小局部数据的其他因素影响,编写函数随机选择了相应数量的数据样本作为训练命名实体识别模型的输入;
步骤2、搭建对抗迁移学习神经网络模型,根据司法文本本身的特点并结合自然语言处理领域的先进模型,搭建合适的语料库训练命名实体识别模型结构,具体包括以下子步骤:
(a)BERT字向量层,对于数据集给定的句子输入X={x1,x2,x3,…,xN},通过BERT预训练语言模型获得输入每个字xi的向量表示记作
Figure BDA0002355675550000031
(b)特征提取层,利用双向长短时记忆神经网络BiLSTM,对输入的字向量xi进行编码以提取语义特征,其中LSTM的计算,通过公式(1)、(2)、(3)进行描述,
Figure BDA0002355675550000041
Figure BDA0002355675550000042
hi=oi⊙tanh(ci) (3)
式中,ij、oj和fj分别代表输入门、输出门和遗忘门,WT和b为模型训练参数,h为LSTM单元隐藏层状态,记做LSTM(h),则BiLSTM的隐藏层状态,通过公式(4)、(5)、(6)进行描述,
Figure BDA0002355675550000043
Figure BDA0002355675550000044
Figure BDA0002355675550000045
式中,
Figure BDA0002355675550000046
Figure BDA0002355675550000047
分别代表前向和后向LSTM在位置i的隐藏层状态,
Figure BDA0002355675550000048
代表拼接操作,模型分别为任务k∈{N-NER,L-NER}提供两个私有特征提取BiLSTM层进行编码,用于提取各自任务的特征,而用一个共享特征提取BiLSTM层用于学习共享的单词边界,对于任务k的任意输入句子X,其私有的隐藏层状态
Figure BDA0002355675550000049
和共有的隐藏层状态
Figure BDA00023556755500000410
通过公式(7)、(8)进行描述,
Figure BDA00023556755500000411
Figure BDA00023556755500000412
其中,θS和θk分别为共享BiLSTM层和任务k的私有BiLSTM层的训练参数;
(c)多头自注意力层,利用自注意力机制来学习句子中任意两个字符之间的依赖关系,并获取句子的内部结构信息,用H={h1,h2,…,hN}表示私有BiLSTM层的输出,S={s1,s2,…,sN}表示共享BiLSTM层的输出,注意力机制的计算,通过公式(9)进行描述,
Figure BDA0002355675550000051
自注意力机制可以描述为一个查询Q与一系列键(K)-值(V)对起映射成一个输出,其中,
Figure BDA0002355675550000052
这里,Q=K=V=H,d为BiLSTM的隐藏单元输出,维度为2dh
Figure BDA0002355675550000053
为缩放因子;多头注意力首先使用不同的线性投影,将输入H映射到
Figure BDA0002355675550000054
个不同的线性子空间,然后对这
Figure BDA0002355675550000055
个线性空间并行的计算缩放点积注意力权值,最后,这些注意力的权值计算结果拼接起来,得到输入H新的表示H′,通过公式(10)、(11)进行描述,
headi=Attention(QWi Q,KWi K,VWi V) (10)
Figure BDA0002355675550000056
这里
Figure BDA0002355675550000057
Figure BDA0002355675550000058
是可训练的模型参数,
Figure BDA0002355675550000059
Figure BDA00023556755500000510
同样也是可训练的模型参数;
(c)特定任务的条件随机场层,对于任务k来说,它在这一层的输入,是由经过自注意力机制层计算后的共享空间和私有空间表征拼接而来的,通过公式(12)进行描述,
Figure BDA00023556755500000511
其中,H′k和S′k分别是任务k的私有自注意力机制层和共享自注意力机制层的输出,考虑到标签彼此之间的依赖关系,引入CRF来学习标签路径的概率分布,对于给定的输入X={c1,c2,c3,…,cN}和预测的标签序列y={y1,y2,…,yN},CRF标签预测的过程,通过公式(13)、(14)、(15)进行描述,
oi=Wsh″i+bs (13)
Figure BDA00023556755500000512
Figure BDA00023556755500000513
其中,
Figure BDA0002355675550000062
Figure BDA0002355675550000063
是可训练的参数,|T|是输出标签的数量,
Figure BDA0002355675550000064
表示的对于xi的第yi个标签的打分函数,T则表示的是相邻两个标签的概率转移矩阵,最后,使用维特比算法来获得预测的标签序列
Figure BDA00023556755500000611
训练过程中,引入最大似然方法,把其负的对数似然作为损失函数,其真实标签序列的概率函数服从指数分布,通过公式(16)进行描述,
Figure BDA0002355675550000065
其中
Figure BDA0002355675550000066
表示准确的标签序列,Yx是指对于给定的句子x所有可能的标签序列,对于给定的T个训练样本
Figure BDA0002355675550000067
其损失函数LTask,通过公式(17)进行描述,
Figure BDA0002355675550000068
训练时利用梯度反向传播方法来求最小化损失函数;
(d)任务鉴别层,为了使模型共享空间能够更多的学习到两个任务的共享特征,避免任务k私有特征对共享空间的影响,保证该模块仅仅抽取对两个任务都有用的特征,引入一个对抗网络作为任务鉴别器,最大程度让捕捉到的共享特征保持纯净,通过公式(18)、(19)进行描述,
M′k=Maxpooling(S′k) (18)
D(M′k;θd)=softmax(WdM′k+bd) (19)
其中,θd表示任务鉴别层的参数,
Figure BDA0002355675550000069
Figure BDA00023556755500000610
是可训练参数,k是任务的数目,这里取任务数为2,具体来说,每当一个样本经过BERT字向量层、共享BiLSTM层之后,对其求最大池化,得到一个输入样本新的向量化表示M′k,将M′k输入判别器网络模块Softmax分类器,要求判别器预测该特征向量来源于2个任务中的哪一个,这是判别器的初始目标,但是如果判别器能够准确预测每一个共享特征的来源任务,则说明这些共享特征中混入了太多的私有信息,这与最初保持共享特征纯净的目的不符,所以引入对抗损失LAdv,反过来为共享BiLSTM层设定一个目标,让它跟判别器对抗,想办法让判别器预测不准,假如共享BiLSTM模块成功让判别器分不清特征向量来自哪个任务,意味着已经把私有特征剥离出去了,从而保证了共享特征向量的纯净性,对抗损失LAdv的计算方法,通过公式(20)进行描述,
Figure BDA0002355675550000071
其中,θs表示共享BiLSTM的可训练参数,Es表示共享特征提取器,Tk是训练任务的数量,
Figure BDA0002355675550000072
是任务k的第i个样本,通过LAdv使共享的BiLSTM层生成一个表示来误导任务鉴别器,而鉴别器尽最大努力来正确地确定任务的类型;
(e)模型训练,最终的损失函数,通过公式(21)进行描述,
L=LN-NER·I(x)+LL-NER·(1-I(x))+λLAdv (21)
其中,λ是训练超参,LN-NER和LL-NER能够根据公式(17)计算得出,I(x)是一个二项式的函数,用于判断输入来自于哪个任务,通过公式(22)进行描述,
Figure BDA0002355675550000073
其中,
Figure BDA0002355675550000074
Figure BDA0002355675550000075
分别代表自然属性命名实体识别和法律属性命名实体识别数据集,训练过程中,首先轮流从{N-NER,L-NER}选择任务,然后输入该任务的数据集中的训练样本进入模型以进行迭代参数,采用的优化器为Adam算法进行优化损失,上述两个任务有不同的收敛速度,最后根据L-NER的训练性能来结束模型训练过程;
步骤3、测试模型,利用测试数据进行盗窃类案件法律命名实体的识别,观察模型在测试集数据上的表现,确定模型的泛化能力,具体包括以下子步骤:
(a)以步骤1中生成的测试集作为模型的测试样本,并利用预训练模型BERT将测试样本进行向量化表示作为模型的输入;
(b)将子步骤(a)中的向量化表示输入步骤2中的对抗迁移神经网络模型,经模型计算后,得到测试集的命名实体识别结果;
(c)比较上述输出值与真实值之间的差异,并计算模型的准确率、召回率以及F值,通过这几个评价指标,检验出该模型的性能及泛化能力;
步骤4、结果讨论,得到步骤3中的评价指标之后,进行结果讨论,定位到模型预测发生错误的语料,进行错误分析,并结合分析结果,确定模型的改进方向,具体包括以下子步骤:
(a)编写函数获取模型当前处理的数据样本的实体识别结果,与模型的输出结果进行对比,如果错误率超过预定阈值,则返回步骤2,调节参数或改变模型结构,重新进行训练;
(b)如果错误率在阈值之内,则代表模型在整体的数据集中取得了良好的效果,因此,需要对每一个错误的数据样本进行分析,分析错误语料的特殊性以及规律性,利用大规模语料中的自定义词典或者编写规则进行处理,以完成对这些特殊的命名实体的识别;
(c)完成步骤4子步骤(b)之后,模型便具备了解决盗窃类案件的命名实体的识别能力。
本发明有益效果是:一种基于对抗迁移学习的盗窃案件法律文书命名实体识别方法,包括以下步骤:(1)构建法律命名实体数据集,(2)搭建对抗迁移学习神经网络模型,(3)测试模型,(4)结果讨论。与已有技术相比,本发明方法切实可行且结构清晰,具有参考价值,可以提升法律命名实体识别的精准度,基于法律命名实体识别,可以面向法律知识图谱的构建,可以面向多人多节案件事实分解、证据关联分析和司法知识图谱构建等方面中的应用。
附图说明
图1是本发明方法步骤流程图。
图2是本发明中的对抗迁移学习神经网络模型图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于对抗迁移学习的盗窃案件法律文书命名实体识别方法,包括以下步骤:
步骤1、构建法律命名实体数据集,定义所涉及的命名实体含义,构建、标注、调整盗窃类案件命名实体识别数据集并生成训练集、测试集,具体包括以下子步骤:
(a)命名实体的定义,根据司法文书中涉及命名实体所表示的含义和涉及的司法业务,将命名实体区分为自然属性命名实体和司法业务命名实体,自然属性命名实体记做N-NER更侧重于表达实体所代表的的通用、基础的含义,而司法业务命名实体记做L-NER则更多表达司法业务关注的含义;其中自然属性命名实体为时间、地点、人名、物品、货币;司法业务命名实体为时间、地点、犯罪嫌疑人、受害人、其它人、被盗物品、作案工具、其它物品、物品价值、非法获利、实物货币;
(b)根据起诉书文法结构,抽取出部分文书中犯罪事实部分作为数据集,获得有效盗窃类案件犯罪事实数据1900份,按照7:3的比例划分训练集与测试集,训练集与测试集具有相同的数据格式,按照相同的过程完成预处理;
(c)语料的初标注,自然属性标注,对人名、地点、组织利用《人民日报》语料库训练命名实体识别模型进行识别,对时间、货币采用规则的方法进行识别;司法属性标注,在自然属性标注基础上,采用人工标注的方式,将人名区分为犯罪嫌疑人、受害人和其它人,将物品区分为被盗物品、作案工具和其它物品,将货币区分为物品价值,非法获利和实物货币;
(d)语料的标注后处理,由于语料的初标注采用的是人工标注和自动标注结合的策略,造成语料精度难以保证,所以在语料初标注的基础上,由经培训的志愿者进行语料的校准调整,校准后进行一致性检验,以一个志愿者的标注为标准集,另一个志愿者的标注为预测集,采用常规的P/R/F1指数来评估嵌套命名实体语料库标注的一致性,其中P为准确率,R为召回率,F1为两者的调和平均值,经过两个阶段的调整,最后F1达到98.42%说明语料标注的一致性高,最后将语料标注结果保存至xml文件中;
(e)产生批量数据,运用神经网络进行命名实体识别模型训练时,由于所采用的参数优化方法为随机梯度下降,因此需要将批量数据样本送入语料库以训练命名实体识别模型,为了减小局部数据的其他因素影响,编写函数随机选择了相应数量的数据样本作为训练命名实体识别模型的输入;
步骤2、搭建对抗迁移学习神经网络模型,根据司法文本本身的特点并结合自然语言处理领域的先进模型,搭建合适的语料库训练命名实体识别模型结构,具体包括以下子步骤:
(a)BERT字向量层,对于数据集给定的句子输入X={x1,x2,x3,…,xN},通过BERT预训练语言模型获得输入每个字xi的向量表示记作
Figure BDA0002355675550000101
(b)特征提取层,利用双向长短时记忆神经网络BiLSTM,对输入的字向量xi进行编码以提取语义特征,其中LSTM的计算,通过公式(1)、(2)、(3)进行描述,
Figure BDA0002355675550000102
Figure BDA0002355675550000103
hi=oi⊙tanh(ci) (3)
式中,ij、oj和fj分别代表输入门、输出门和遗忘门,WT和b为模型训练参数,h为LSTM单元隐藏层状态,记做LSTM(h),则BiLSTM的隐藏层状态,通过公式(4)、(5)、(6)进行描述,
Figure BDA0002355675550000104
Figure BDA0002355675550000105
Figure BDA0002355675550000106
式中,
Figure BDA0002355675550000107
Figure BDA0002355675550000108
分别代表前向和后向LSTM在位置i的隐藏层状态,
Figure BDA0002355675550000109
代表拼接操作,模型分别为任务k∈{N-NER,L-NER}提供两个私有特征提取BiLSTM层进行编码,用于提取各自任务的特征,而用一个共享特征提取BiLSTM层用于学习共享的单词边界,对于任务k的任意输入句子X,其私有的隐藏层状态
Figure BDA00023556755500001113
和共有的隐藏层状态
Figure BDA00023556755500001114
通过公式(7)、(8)进行描述,
Figure BDA0002355675550000111
Figure BDA0002355675550000112
其中,θS和θk分别为共享BiLSTM层和任务k的私有BiLSTM层的训练参数;
(c)多头自注意力层,利用自注意力机制来学习句子中任意两个字符之间的依赖关系,并获取句子的内部结构信息,用H={h1,h2,…,hN}表示私有BiLSTM层的输出,S={s1,s2,…,sN}表示共享BiLSTM层的输出,注意力机制的计算,通过公式(9)进行描述,
Figure BDA0002355675550000113
自注意力机制可以描述为一个查询Q与一系列键(K)-值(V)对起映射成一个输出,其中,
Figure BDA0002355675550000114
这里,Q=K=V=H,d为BiLSTM的隐藏单元输出,维度为2dh
Figure BDA0002355675550000115
为缩放因子;多头注意力首先使用不同的线性投影,将输入H映射到
Figure BDA0002355675550000116
个不同的线性子空间,然后对这
Figure BDA0002355675550000117
个线性空间并行的计算缩放点积注意力权值,最后,这些注意力的权值计算结果拼接起来,得到输入H新的表示H′,通过公式(10)、(11)进行描述,
headi=Attention(QWi Q,KWi K,VWi V) (10)
Figure BDA0002355675550000118
这里
Figure BDA0002355675550000119
Figure BDA00023556755500001110
是可训练的模型参数,
Figure BDA00023556755500001111
Figure BDA00023556755500001112
同样也是可训练的模型参数;
(c)特定任务的条件随机场层,对于任务k来说,它在这一层的输入,是由经过自注意力机制层计算后的共享空间和私有空间表征拼接而来的,通过公式(12)进行描述,
Figure BDA0002355675550000121
其中,H′k和S′k分别是任务k的私有自注意力机制层和共享自注意力机制层的输出,考虑到标签彼此之间的依赖关系,引入CRF来学习标签路径的概率分布,对于给定的输入X={c1,c2,c3,…,cN}和预测的标签序列y={y1,y2,…,yN},CRF标签预测的过程,通过公式(13)、(14)、(15)进行描述,
oi=Wsh″i+bs (13)
Figure BDA0002355675550000122
Figure BDA0002355675550000123
其中,
Figure BDA0002355675550000124
Figure BDA0002355675550000125
是可训练的参数,|T|是输出标签的数量,
Figure BDA0002355675550000126
表示的对于xi的第yi个标签的打分函数,T则表示的是相邻两个标签的概率转移矩阵,最后,使用维特比算法来获得预测的标签序列
Figure BDA0002355675550000127
训练过程中,引入最大似然方法,把其负的对数似然作为损失函数,其真实标签序列的概率函数服从指数分布,通过公式(16)进行描述,
Figure BDA0002355675550000128
其中
Figure BDA0002355675550000129
表示准确的标签序列,Yx是指对于给定的句子x所有可能的标签序列,对于给定的T个训练样本
Figure BDA00023556755500001210
其损失函数LTask,通过公式(17)进行描述,
Figure BDA00023556755500001211
训练时利用梯度反向传播方法来求最小化损失函数;
(d)任务鉴别层,为了使模型共享空间能够更多的学习到两个任务的共享特征,避免任务k私有特征对共享空间的影响,保证该模块仅仅抽取对两个任务都有用的特征,引入一个对抗网络作为任务鉴别器,最大程度让捕捉到的共享特征保持纯净,通过公式(18)、(19)进行描述,
M′k=Maxpooling(S′k) (18)
D(M′k;θd)=softmax(WdM′k+bd) (19)
其中,θd表示任务鉴别层的参数,
Figure BDA0002355675550000131
Figure BDA0002355675550000132
是可训练参数,k是任务的数目,这里取任务数为2,具体来说,每当一个样本经过BERT字向量层、共享BiLSTM层之后,对其求最大池化,得到一个输入样本新的向量化表示M′k,将M′k输入判别器网络模块Softmax分类器,要求判别器预测该特征向量来源于2个任务中的哪一个,这是判别器的初始目标,但是如果判别器能够准确预测每一个共享特征的来源任务,则说明这些共享特征中混入了太多的私有信息,这与最初保持共享特征纯净的目的不符,所以引入对抗损失LAdv,反过来为共享BiLSTM层设定一个目标,让它跟判别器对抗,想办法让判别器预测不准,假如共享BiLSTM模块成功让判别器分不清特征向量来自哪个任务,意味着已经把私有特征剥离出去了,从而保证了共享特征向量的纯净性,对抗损失LAdv的计算方法,通过公式(20)进行描述,
Figure BDA0002355675550000133
其中,θs表示共享BiLSTM的可训练参数,Es表示共享特征提取器,Tk是训练任务的数量,
Figure BDA0002355675550000134
是任务k的第i个样本,通过LAdv使共享的BiLSTM层生成一个表示来误导任务鉴别器,而鉴别器尽最大努力来正确地确定任务的类型;
(e)模型训练,最终的损失函数,通过公式(21)进行描述,
L=LN-NER·I(x)+LL-NER·(1-I(x))+λLAdv (21)
其中,λ是训练超参,LN-NER和LL-NER能够根据公式(17)计算得出,I(x)是一个二项式的函数,用于判断输入来自于哪个任务,通过公式(22)进行描述,
Figure BDA0002355675550000141
其中,
Figure BDA0002355675550000142
Figure BDA0002355675550000143
分别代表自然属性命名实体识别和法律属性命名实体识别数据集,训练过程中,首先轮流从{N-NER,L-NER}选择任务,然后输入该任务的数据集中的训练样本进入模型以进行迭代参数,采用的优化器为Adam算法进行优化损失,上述两个任务有不同的收敛速度,最后根据L-NER的训练性能来结束模型训练过程;
步骤3、测试模型,利用测试数据进行盗窃类案件法律命名实体的识别,观察模型在测试集数据上的表现,确定模型的泛化能力,具体包括以下子步骤:
(a)以步骤1中生成的测试集作为模型的测试样本,并利用预训练模型BERT将测试样本进行向量化表示作为模型的输入;
(b)将子步骤(a)中的向量化表示输入步骤2中的对抗迁移神经网络模型,经模型计算后,得到测试集的命名实体识别结果;
(c)比较上述输出值与真实值之间的差异,并计算模型的准确率、召回率以及F值,通过这几个评价指标,检验出该模型的性能及泛化能力;
步骤4、结果讨论,得到步骤3中的评价指标之后,进行结果讨论,定位到模型预测发生错误的语料,进行错误分析,并结合分析结果,确定模型的改进方向,具体包括以下子步骤:
(a)编写函数获取模型当前处理的数据样本的实体识别结果,与模型的输出结果进行对比,如果错误率超过预定阈值,则返回步骤2,调节参数或改变模型结构,重新进行训练;
(b)如果错误率在阈值之内,则代表模型在整体的数据集中取得了良好的效果,因此,需要对每一个错误的数据样本进行分析,分析错误语料的特殊性以及规律性,利用大规模语料中的自定义词典或者编写规则进行处理,以完成对这些特殊的命名实体的识别;
(c)完成步骤4子步骤(b)之后,模型便具备了识别盗窃类案件命名实体的能力。

Claims (1)

1.一种基于对抗迁移学习的盗窃案件法律文书命名实体识别方法,其特征在于包括以下步骤:
步骤1、构建法律命名实体数据集,定义所涉及的命名实体含义,构建、标注、调整盗窃类案件命名实体识别数据集并生成训练集、测试集,具体包括以下子步骤:
(a)命名实体的定义,根据司法文书中涉及命名实体所表示的含义和涉及的司法业务,将命名实体区分为自然属性命名实体和司法业务命名实体,自然属性命名实体记做N-NER更侧重于表达实体所代表的的通用、基础的含义,而司法业务命名实体记做L-NER则更多表达司法业务关注的含义;其中自然属性命名实体为时间、地点、人名、物品、货币;司法业务命名实体为时间、地点、犯罪嫌疑人、受害人、其它人、被盗物品、作案工具、其它物品、物品价值、非法获利、实物货币;
(b)根据起诉书文法结构,抽取出部分文书中犯罪事实部分作为数据集,获得有效盗窃类案件犯罪事实数据1900份,按照7:3的比例划分训练集与测试集,训练集与测试集具有相同的数据格式,按照相同的过程完成预处理;
(c)语料的初标注,自然属性标注,对人名、地点、组织利用《人民日报》语料库训练命名实体识别模型进行识别,对时间、货币采用规则的方法进行识别;司法属性标注,在自然属性标注基础上,采用人工标注的方式,将人名区分为犯罪嫌疑人、受害人和其它人,将物品区分为被盗物品、作案工具和其它物品,将货币区分为物品价值,非法获利和实物货币;
(d)语料的标注后处理,由于语料的初标注采用的是人工标注和自动标注结合的策略,造成语料精度难以保证,所以在语料初标注的基础上,由经培训的志愿者进行语料的校准调整,校准后进行一致性检验,以一个志愿者的标注为标准集,另一个志愿者的标注为预测集,采用常规的P/R/F 1指数来评估嵌套命名实体语料库标注的一致性,其中P为准确率,R为召回率,F1为两者的调和平均值,经过两个阶段的调整,最后F1达到98.42%说明语料标注的一致性高,最后将语料标注结果保存至xml文件中;
(e)产生批量数据,运用神经网络进行命名实体识别模型训练时,由于所采用的参数优化方法为随机梯度下降,因此需要将批量数据样本送入语料库以训练命名实体识别模型,为了减小局部数据的其他因素影响,编写函数随机选择了相应数量的数据样本作为训练命名实体识别模型的输入;
步骤2、搭建对抗迁移学习神经网络模型,根据司法文本本身的特点并结合自然语言处理领域的先进模型,搭建合适的语料库训练命名实体识别模型结构,具体包括以下子步骤:
(a)BERT字向量层,对于数据集给定的句子输入X={x1,x2,x3,…,xN},通过BERT预训练语言模型获得输入每个字xi的向量表示记作
Figure FDA0002443020750000021
(b)特征提取层,利用双向长短时记忆神经网络BiLSTM,对输入的字向量xi进行编码以提取语义特征,其中LSTM的计算,通过公式(1)、(2)、(3)进行描述,
Figure FDA0002443020750000022
Figure FDA0002443020750000023
hi=oi⊙tanh(ci) (3)
式中,ij、oj和fj分别代表输入门、输出门和遗忘门,WT和b为模型训练参数,h为LSTM单元隐藏层状态,记做LSTM(h),则BiLSTM的隐藏层状态,通过公式(4)、(5)、(6)进行描述,
Figure FDA0002443020750000024
Figure FDA0002443020750000031
Figure FDA0002443020750000032
式中,
Figure FDA0002443020750000033
Figure FDA0002443020750000034
分别代表前向和后向LSTM在位置i的隐藏层状态,⊕代表拼接操作,模型分别为任务k∈{N-NER,L-NER}提供两个私有特征提取BiLSTM层进行编码,用于提取各自任务的特征,而用一个共享特征提取BiLSTM层用于学习共享的单词边界,对于任务k的任意输入句子X,其私有的隐藏层状态
Figure FDA0002443020750000035
和共有的隐藏层状态
Figure FDA0002443020750000036
通过公式(7)、(8)进行描述,
Figure FDA0002443020750000037
Figure FDA0002443020750000038
其中,θS和θk分别为共享BiLSTM层和任务k的私有BiLSTM层的训练参数;
(c)多头自注意力层,利用自注意力机制来学习句子中任意两个字符之间的依赖关系,并获取句子的内部结构信息,用H={h1,h2,…,hN}表示私有BiLSTM层的输出,S={s1,s2,…,sN}表示共享BiLSTM层的输出,注意力机制的计算,通过公式(9)进行描述,
Figure FDA0002443020750000039
自注意力机制可以描述为一个查询Q与一系列键(K)-值(V)对起映射成一个输出,其中,
Figure FDA00024430207500000310
这里,Q=K=V=H,d为BiLSTM的隐藏单元输出,维度为2dh
Figure FDA00024430207500000311
为缩放因子;多头注意力首先使用不同的线性投影,将输入H映射到
Figure FDA00024430207500000312
个不同的线性子空间,然后对这
Figure FDA00024430207500000313
个线性空间并行的计算缩放点积注意力权值,最后,这些注意力的权值计算结果拼接起来,得到输入H新的表示H′,通过公式(10)、(11)进行描述,
headi=Attention(QWi Q,KWi K,VWi V) (10)
Figure FDA00024430207500000314
这里
Figure FDA0002443020750000041
Figure FDA0002443020750000042
是可训练的模型参数,
Figure FDA0002443020750000043
Figure FDA0002443020750000044
同样也是可训练的模型参数;
(c)特定任务的条件随机场层,对于任务k来说,它在这一层的输入,是由经过自注意力机制层计算后的共享空间和私有空间表征拼接而来的:
H″k=H′k⊕S′k (12)
其中,H′k和S′k分别是任务k的私有自注意力机制层和共享自注意力机制层的输出,考虑到标签彼此之间的依赖关系,引入CRF来学习标签路径的概率分布,对于给定的输入X={c1,c2,c3,…,cN}和预测的标签序列y={y1,y2,…,yN},CRF标签预测的过程,通过公式(13)、(14)、(15)进行描述,
oi=Wsh″i+bs (13)
Figure FDA0002443020750000045
Figure FDA0002443020750000046
其中,
Figure FDA0002443020750000047
Figure FDA0002443020750000048
是可训练的参数,|T|是输出标签的数量,
Figure FDA0002443020750000049
表示的对于xi的第yi个标签的打分函数,T则表示的是相邻两个标签的概率转移矩阵,最后,使用维特比算法来获得预测的标签序列
Figure FDA00024430207500000410
训练过程中,引入最大似然方法,把其负的对数似然作为损失函数,其真实标签序列的概率函数服从指数分布,通过公式(16)进行描述,
Figure FDA00024430207500000411
其中
Figure FDA00024430207500000412
表示准确的标签序列,Yx是指对于给定的句子x所有可能的标签序列,对于给定的T个训练样本
Figure FDA00024430207500000413
其损失函数LTask,通过公式(17)进行描述,
Figure FDA00024430207500000414
训练时利用梯度反向传播方法来求最小化损失函数;
(d)任务鉴别层,为了使模型共享空间能够更多的学习到两个任务的共享特征,避免任务k私有特征对共享空间的影响,保证该模块仅仅抽取对两个任务都有用的特征,引入一个对抗网络作为任务鉴别器,最大程度让捕捉到的共享特征保持纯净,通过公式(18)、(19)进行描述,
M′k=Maxpooling(S′k) (18)
D(M′k;θd)=softmax(WdS′k+bd) (19)
其中,θd表示任务鉴别层的参数,
Figure FDA0002443020750000051
Figure FDA0002443020750000052
是可训练参数,k是任务的数目,这里取任务数为2,具体来说,每当一个样本经过BERT字向量层、共享BiLSTM层之后,对其求最大池化,得到一个输入样本新的向量化表示M′k,将M′k输入判别器网络模块Softmax分类器,要求判别器预测该特征向量来源于2个任务中的哪一个,这是判别器的初始目标,但是如果判别器能够准确预测每一个共享特征的来源任务,则说明这些共享特征中混入了太多的私有信息,这与最初保持共享特征纯净的目的不符,所以引入对抗损失LAdv,反过来为共享BiLSTM层设定一个目标,让它跟判别器对抗,想办法让判别器预测不准,假如共享BiLSTM模块成功让判别器分不清特征向量来自哪个任务,意味着已经把私有特征剥离出去了,从而保证了共享特征向量的纯净性,对抗损失LAdv的计算方法,通过公式(20)进行描述,
Figure FDA0002443020750000053
其中,θs表示共享BiLSTM的可训练参数,Es表示共享特征提取器,Tk是训练任务的数量,
Figure FDA0002443020750000054
是任务k的第i个样本,通过LAdv使共享的BiLSTM层生成一个表示来误导任务鉴别器,而鉴别器尽最大努力来正确地确定任务的类型;
(e)模型训练,最终的损失函数,通过公式(21)进行描述,
L=LN-NER·I(x)+LL-NER·(1-I(x))+λLAdv (21)
其中,λ是训练超参,LN-NER和LL-NER能够根据公式(17)计算得出,I(x)是一个二项式的函数,用于判断输入来自于哪个任务,通过公式(22)进行描述,
Figure FDA0002443020750000061
其中,
Figure FDA0002443020750000062
Figure FDA0002443020750000063
分别代表自然属性命名实体识别和法律属性命名实体识别数据集,训练过程中,首先轮流从{N-NER,L-NER}选择任务,然后输入该任务的数据集中的训练样本进入模型以进行迭代参数,采用的优化器为Adam算法进行优化损失,上述两个任务有不同的收敛速度,最后根据L-NER的训练性能来结束模型训练过程;
步骤3、测试模型,利用测试数据进行盗窃类案件法律命名实体的识别,观察模型在测试集数据上的表现,确定模型的泛化能力,具体包括以下子步骤:
(a)以步骤1中生成的测试集作为模型的测试样本,并利用预训练模型BERT将测试样本进行向量化表示作为模型的输入;
(b)将子步骤(a)中的向量化表示输入步骤2中的对抗迁移神经网络模型,经模型计算后,得到测试集的命名实体识别结果;
(c)比较上述输出值与真实值之间的差异,并计算模型的准确率、召回率以及F值,通过这几个评价指标,检验出该模型的性能及泛化能力;
步骤4、结果讨论,得到步骤3中的评价指标之后,进行结果讨论,定位到模型预测发生错误的语料,进行错误分析,并结合分析结果,确定模型的改进方向,具体包括以下子步骤:
(a)编写函数获取模型当前处理的数据样本的实体识别结果,与模型的输出结果进行对比,如果错误率超过预定阈值,则返回步骤2,调节参数或改变模型结构,重新进行训练;
(b)如果错误率在阈值之内,则代表模型在整体的数据集中取得了良好的效果,因此,需要对每一个错误的数据样本进行分析,分析错误语料的特殊性以及规律性,利用大规模语料中的自定义词典或者编写规则进行处理,以完成对这些特殊的命名实体的识别;
(c)完成步骤4子步骤(b)之后,模型便具备了解决盗窃类案件的命名实体的识别能力。
CN202010007207.7A 2020-01-04 2020-01-04 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法 Active CN111241837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010007207.7A CN111241837B (zh) 2020-01-04 2020-01-04 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010007207.7A CN111241837B (zh) 2020-01-04 2020-01-04 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法

Publications (2)

Publication Number Publication Date
CN111241837A CN111241837A (zh) 2020-06-05
CN111241837B true CN111241837B (zh) 2022-09-20

Family

ID=70872349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010007207.7A Active CN111241837B (zh) 2020-01-04 2020-01-04 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法

Country Status (1)

Country Link
CN (1) CN111241837B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708885A (zh) * 2020-06-09 2020-09-25 西安交通大学 一种案件智能分流方法及装置
CN111738003B (zh) * 2020-06-15 2023-06-06 中国科学院计算技术研究所 命名实体识别模型训练方法、命名实体识别方法和介质
CN111738007B (zh) * 2020-07-03 2021-04-13 北京邮电大学 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN111767402B (zh) * 2020-07-03 2022-04-05 北京邮电大学 一种基于对抗学习的限定域事件检测方法
CN111858940B (zh) * 2020-07-27 2023-07-25 湘潭大学 一种基于多头注意力的法律案例相似度计算方法及系统
CN112036189A (zh) * 2020-08-10 2020-12-04 中国人民大学 一种金文语义识别方法和系统
CN112528036B (zh) * 2020-11-30 2021-09-07 大连理工大学 一种面向证据关联分析的知识图谱自动构建方法
CN112396129B (zh) * 2020-12-08 2023-09-05 中山大学 一种对抗样本检测方法及通用对抗攻击防御系统
CN112613314A (zh) * 2020-12-29 2021-04-06 国网江苏省电力有限公司信息通信分公司 基于bert模型的电力通信网络知识图谱构建方法
CN112765319B (zh) * 2021-01-20 2021-09-03 中国电子信息产业集团有限公司第六研究所 一种文本的处理方法、装置、电子设备及存储介质
CN112926324B (zh) * 2021-02-05 2022-07-29 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法
CN113033203A (zh) * 2021-02-05 2021-06-25 浙江大学 一种面向医药说明书文本的结构化信息抽取方法
CN112836019B (zh) * 2021-02-19 2023-04-25 中国科学院新疆理化技术研究所 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
CN112765957A (zh) * 2021-02-27 2021-05-07 中电万维信息技术有限责任公司 一种无标点文本分句方法
CN113221564B (zh) * 2021-04-29 2024-03-01 北京百度网讯科技有限公司 训练实体识别模型的方法、装置、电子设备和存储介质
CN113240443B (zh) * 2021-05-28 2024-02-06 国网江苏省电力有限公司营销服务中心 面向电力客服问答的实体属性对抽取方法和系统
CN113377916B (zh) * 2021-06-22 2023-03-24 哈尔滨工业大学 一种面向法律文本的多关系中主要关系的抽取方法
CN113392649B (zh) * 2021-07-08 2023-04-07 上海浦东发展银行股份有限公司 一种识别方法、装置、设备及存储介质
CN113920573B (zh) * 2021-11-22 2022-05-13 河海大学 基于对抗学习的人脸变化解耦的亲属关系验证方法
CN114722159B (zh) * 2022-06-01 2022-08-23 中科航迈数控软件(深圳)有限公司 针对数控机床制造资源的多源异构数据处理方法及系统
CN115545043B (zh) * 2022-11-29 2023-04-07 城云科技(中国)有限公司 一种实体与关系并行抽取模型及其构建方法、装置及应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN107958068A (zh) * 2017-12-05 2018-04-24 华中科技大学 一种基于实体知识库的语言模型平滑方法
CN110032737A (zh) * 2019-04-10 2019-07-19 贵州大学 一种基于神经网络的边界组合命名实体识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10936820B2 (en) * 2018-05-21 2021-03-02 Leverton Holding Llc Post-filtering of named entities with machine learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN107958068A (zh) * 2017-12-05 2018-04-24 华中科技大学 一种基于实体知识库的语言模型平滑方法
CN110032737A (zh) * 2019-04-10 2019-07-19 贵州大学 一种基于神经网络的边界组合命名实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于迁移学习和BiLSTM-CRF的中文命名实体识别;武惠等;《小型微型计算机系统》;20190614(第06期);全文 *

Also Published As

Publication number Publication date
CN111241837A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111241837B (zh) 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110990564B (zh) 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN107861951A (zh) 智能客服中的会话主题识别方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN114330354B (zh) 一种基于词汇增强的事件抽取方法、装置及存储介质
CN111563143A (zh) 一种新词的确定方法及装置
CN115759092A (zh) 一种基于albert的网络威胁情报命名实体识别方法
CN112800239A (zh) 意图识别模型训练方法、意图识别方法及装置
WO2023071120A1 (zh) 数字资产中的绿色资产的占比的识别方法及相关产品
CN116680363A (zh) 一种基于多模态评论数据的情感分析方法
CN112989830B (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN110866087A (zh) 一种基于主题模型的面向实体的文本情感分析方法
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN117094835A (zh) 面向社交媒体内容的多目标群体分类方法
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN116663539A (zh) 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及系统
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN116167379A (zh) 一种基于bert和实体位置信息的实体关系抽取方法
CN114757183A (zh) 一种基于对比对齐网络的跨领域情感分类方法
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
CN110968795B (zh) 一种公司形象提升系统的数据关联匹配系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant