CN112966525A - 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 - Google Patents
一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 Download PDFInfo
- Publication number
- CN112966525A CN112966525A CN202110349911.5A CN202110349911A CN112966525A CN 112966525 A CN112966525 A CN 112966525A CN 202110349911 A CN202110349911 A CN 202110349911A CN 112966525 A CN112966525 A CN 112966525A
- Authority
- CN
- China
- Prior art keywords
- legal
- event
- word
- data
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 title claims abstract description 37
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000002372 labelling Methods 0.000 claims abstract description 19
- 102100038612 Calmodulin-regulated spectrin-associated protein 3 Human genes 0.000 claims abstract description 13
- 101000741294 Homo sapiens Calmodulin-regulated spectrin-associated protein 3 Proteins 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000009193 crawling Effects 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 50
- 230000011218 segmentation Effects 0.000 claims description 30
- 238000001514 detection method Methods 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 15
- 238000003062 neural network model Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 9
- 238000010801 machine learning Methods 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000000366 juvenile effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,使用网络爬虫爬取公开法律文本语料,对原始语料进行文本预处理,获得可用的法律文本语料数据;获取法律领域的高频动词、关键名词,对词语进行聚类;构建原始法律事件知识库IE,在此基础上利用远程监督学习的方式实现法律事件语料数据的大规模自动标注;使用获得的大规模法律事件预料数据,实现基于NEZHA预训练语料模型和DMCNN卷积神经网络模型实现法律事件抽取系统。本发明通过基于远程监督学习的方式实现法律事件语料数据的大规模自动标注,利用预训练语言模型和卷积神经网络算法挖掘法律文本数据的深层语义信息,在法律事件抽取任务上的取得了较好的效果。
Description
技术领域
本发明属于法律智能领域,特别涉及一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法。
背景技术
随着人工智能应用于越来越多的领域和场景,法律智能也成为目前热门的研究方向。一个司法案件中包含了很多要素,如实体、关系以及事件等。通过事件刻画司法案件,不仅能够将一个复杂的案件拆解,对其进行重构和表示,而且更能通过一些关键事件的抽取,从而对案件的量刑进行评估。
目前,事件抽取的方法可以大致分为两类——基于模式匹配的方法和基于机器学习的方法。早期的事件抽取大多都是基于模式匹配的方法,基于语法树或者正则表达式等方法利用人工制定大量的规则或模式。基于模式匹配的方法在特定领域可以达到较高的正确率,但召回率较低。同时可移植性很差,对于新的领域需要耗费大量的人工制定新的规则或模式。基于机器学习的方法大致分为管道抽取和联合抽取两种。管道抽取将事件抽取转化为多阶段的分类问题,顺序执行事件检测任务和事件元素识别任务;联合抽取则考虑到事件触发词与事件元素之间的相互影响,将各个分类模型整体优化,并加入全局特征,对事件类型和事件元素进行联合抽取。
到目前为止,基于机器学习的方法在事件抽取任务上取得了较好的效果。但是这种基于监督学习的事件抽取方法严重依赖于人工标注的训练数据,大多实验结果都是基于ACE2005的数据集。然而,在法律特定领域,由于数据标注成本高,没有大规模的法律事件中文语料数据。
发明内容
为了解决现有技术问题,本发明的目的在于克服已有技术存在的不足,提供一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,能基于远程监督学习的实现法律事件语料数据的大规模自动标注,在此基础上利用预训练语言模型和卷积神经网络算法挖掘了法律文本数据的深层语义信息,在法律事件抽取任务上的取得了较好的效果,能大为减少人工定义事件的时间成本和劳动成本,提升法律事件抽取的效果。
为达到上述发明创造目的,本发明采用如下技术方案:
一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,所述方法包括以下步骤:
A.数据获取、预处理:
使用网络爬虫爬取公开法律文本语料,对原始法律文本语料进行文本预处理,依次进行分句、分词、去噪,获得可用的法律文本语料数据;
B.法律事件模板定义:
获取法律领域的高频动词、关键名词,对这些词语进行基于距离的相近词聚类,人工根据聚类结果参考相关法律条款定义法律事件类型以及模板;
C.基于远程监督学习的大规模法律事件数据标注:
利用规则或模式的方法从半结构化的法律文本数据中获取种子法律事件,构建原始法律事件知识库IE;获取关键事件元素角色,构建动词、名词触发词集;利用开源中文近义词包对触发词集进行拓展;利用远程监督学习的方式自动标注新的语料数据并加入法律事件知识库IE中;
D.基于NEZHA预训练语言模型和DMCNN神经网络模型的法律事件抽取系统,法律事件检测任务以及法律事件论元抽取任务均使用该法律事件抽取系统,且两者的特征输入存在差别。
优选地,在所述步骤A中,获取可用的法律文本语料数据的具体步骤为:
A1.使用爬虫从法律文书网站爬取公开的法律文书数据;
A2.对获取的部分法律文书数据按照判罚的罪名进行人工分类,使用神经网络模型RCNN训练法律文书数据的罪名分类模型,对剩下的数据进行分类,获得按照罪名分类的法律文书数据;
A3.将法律文书数据的标点符号统一为中文格式,按照包括?!的中文标点断句符号对文书数据切分为句子形式,构成句子集合;
A4.使用开源分词工具对句子集合中的每个句子进行分词,得到分词结果;
A5.构建法律领域的专用停用词表,对分词结果进行修正、优化。
优选地,在所述步骤B中,法律事件模板定义方式:
B1.基于步骤A4的分词结果,使用开源词性标注工具对词语进行词性标注,使用TextRank算法获取结果最大的M个动词、N个名词;
B2.基于步骤A4的分词结果,使用Word2Vec算法获取法律文本数据的词向量;
B3.基于步骤B1的结果对名词和动词使用k-means计算语义距离进行聚类,获得语义相近的KV个动词集、KM个名词集;
B4.基于B3的结果集,人工根据经验和法条审核总结法律领域的事件类型以及模板,根据事件抽取任务定义,事件模板包括触发词和事件元素。
优选地,基于B3的结果集,人工根据经验和法条审核总结法律领域的事件类型,从而定义K个事件模板。根据事件抽取任务定义,事件模板包括事件触发词和事件元素。法律事件中包含一类关键法律事件,关键法律事件在最终量刑中具有重要影响。关键法律事件在不同的罪名语境下表现成不同形式。特别地,对于强奸罪,关键法律事件可能包含多人作案事件、未成年人事件、致死事件。
优选地,在所述步骤B4中,后续对于新增法律文本语料数据使用增量聚类的方式对动词集、名词集进行拓展,或者同时可能新增事件类型以及模板。
优选地,在所述步骤C中,基于远程监督学习的大规模法律事件数据标注方法的具体步骤:
C1.法院的判决书为半结构的法律文本数据,基于B4的事件模板,人工制定简单的规则或模式,通过正则表达式或语法树的方式抽取种子法律事件,构建原始法律事件知识库IE;
C2.关键事件元素角色定义:
对于获得的K个事件模板,计算事件类型ETj中每个事件元素Ai的重要性,选取事件类型ETj中RIij值最大的事件元素作为该事件的关键事件元素角色;
优选地,对于获得的K个事件模板,利用公式(1)计算事件类型ETj中每个事件元素Ai的重要性,选取事件类型ETj中RIij值最大的事件元素作为该事件的关键事件元素角色;
amount(Ai,ETj)表示包含事件元素角色Ai的法律事件类型ETj实例数,amount(ETj)表示法律事件ETj实例的总数,amount(ET)表示法律事件类型的总数,amount(ETCAi)表示包含事件元素角色Ai的法律事件类型的数量;
C3.构建动词触发词集:
对于步骤B中的聚类得到的KV个动词集,计算KVk中每个动词Vi对于事件ETj的重要性,选取VIij值最大的X个动词作为事件类型ETj的动词触发词集ETVTj;
优选地,对于步骤B中的聚类得到的KV个动词集,利用公式(2)计算KVk中每个动词Vi对于事件ETj的重要性,选取VIij值最大的X个动词作为事件类型ETj的动词触发词集ETVTj:
amount(Vi,ETSj)表示既陈述法律事件类型ETj又包含动词Vi的句子数,amount(ETSj)表示陈述法律事件类型ETj的句子的总数,amount(ET)表示法律事件类型的总数,amount(ETIi)表示包含动词Vi的法律事件类型的数量;
C4.构建名词触发词集:
对于B3中的KN个名词集,计算KNk中每个名词Ni对于事件ETj的重要性,选取NIij值大于特定阈值的名词集构成事件类型ETj的名词触发词集ETNTj;
优选地,对于步骤B3中的KN个名词集,计算KNk中每个名词Ni对于事件ETj的重要性,选取NIij值大于特定阈值的名词集构成事件类型ETj的名词触发词集ETNTj:
NIij=1-log(Dist(NEi,ENAEj)) (3)
其中NEi为名词Ni的词嵌入向量,ENAEj为法律事件种子数据集中事件类型ETj所有实例中名词的平均词嵌入向量;
C5.利用中文近义词库,对步骤C3和步骤C4构建的动词触发词集以及名词触发词集进行触发词拓展;
优选地,利用开源中文近义词包Synonyms、复旦大学中文同义词库,对C3和C4构建的动词触发词集以及名词触发词集进行触发词拓展。
C6.假使任何句子中包含事件类型ETi的动词触发词集或名词触发词集中的任意一种触发词,则认为该语句可能包含事件类型ETi的实例,进行自动标注;
C7.完成一个阶段的自动数据标注后,人工校验标注结果并进行更正,将校验后的合格法律文书数据加入法律事件知识库IE中。
优选地,在所述步骤C6中,如果该语句包含事件类型ETi的关键事件元素角色,则认为该语句陈述了事件类型ETi的实例,进行自动标注。
优选地,在所述步骤D中,基于NEZHA预训练语言模型和DMCNN神经网络模型的法律事件抽取系统的具体步骤:
D1.CNN的输入:
进行法律事件论元抽取任务时,将词语级语义特征和语句级语义特征输入了CNN中;当进行事件检测任务时,词语级语义特征更重要;而进行法律事件论元抽取任务的时候语句级语义特征更重要;
D2.词语级语义特征由候选触发词的词向量或候选事件论元的词向量、以及其左右相邻的词语的词向量首位逐个拼接得到,使用NEZHA预训练语言模型,提供的词向量获取词级语义特征;NAZHA作为中文预训练语言模型,在很多NLP任务中得到了良好的表现;
D3.语句级语义特征:
法律事件检测任务和法律事件论元抽取任务两个人物的语句级语义特征存在差别,语句特征矩阵经过卷积、动态池化操作获取;
D4.将词语级语义特征与语句级语义特征进行拼接,获取新的特征向量F,经过全连接层和softmax操作完成分类。
优选地,在所述步骤D3中,对于法律事件论元抽取任务,语句中每个词语的特征向量由三个特征向量拼接组成:词语的词向量、词语相较于事件论元的相对位置向量、事件类型编码向量,假设语句中有n个词语,语句特征为每个词语的特征向量拼接而成的矩阵。
优选地,在所述步骤D3中,对语句特征矩阵进行卷积操作,设置3个词大小的窗口,滤波器大小为3*300,步长为1,卷积操作得到3个特征序列.
优选地,在所述步骤D3中,池化操作采用动态池化策略,考虑到一个语句中可能存在多个法律事件,同一事件论元在不同法律事件中可能扮演不同的论元角色,用分段池化的方式保留更多的语句语义特征。使用候选事件论元以及触发词将特征序列分割为3个部分,对每个部分进行最大池化操作,将结果进行拼接获得语句级语义特征.
优选地,在所述步骤D3中,对于法律事件检测任务,语句中每个词语的特征向量由两个特征向量拼接组成:词语的词向量、词语相较于触发词的相对位置向量,同样进行卷积操作,但在动态池化时,候选触发词将特征序列分割为2个部分,对每个部分进行最大池化操作,将结果进行拼接获得语句级语义特征;
优选地,在所述步骤D4中,将词语级语义特征与语句级语义特征进行拼接,获取新的特征向量F,经过全连接层和softmax操作完成分类。对于法律事件检测任务,分类结果包括法律事件类型集ET={ET1,ET2,...,ETn}。对于法律事件论元抽取任务,分类的结果包括对应法律事件类型ETi的事件论元角色集ROLE={ROLE1,ROLE2,...,ROLEn}和none role。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点:
1.本发明使用机器学习结合专家知识的方式,定义法律领域不同罪名条目的法律事件类型以及模板,大大减少了人工定义事件的时间成本和劳动成本;
2.本发明使用远程监督学习的方式,实现法律事件语料数据的大规模自动标注,填补了目前法律事件抽取领域缺少大规模语料数据的空白;
3.本发明构建词汇级语义特征以及语句级词汇特征,让基于NAZHA预训练语言模型和CNN卷积神经网络的法律事件抽取系统学习到更多潜在的语义信息,提升了法律事件抽取的效果。
附图说明
图1是本发明基于预训练模型和卷积神经网络算法的法律领域事件抽取方法流程图。
图2是本发明的DMCNN卷积神经网络的结构图。
具体实施方式
以下结合具体的实施例子对上述方案做进一步说明,本发明的优选实施例详述如下:
实施例一:
在本实施例中,参见图1,一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,所述方法包括以下步骤:
A.数据获取、预处理:
使用网络爬虫爬取公开法律文本语料,对原始法律文本语料进行文本预处理,依次进行分句、分词、去噪,获得可用的法律文本语料数据;
B.法律事件模板定义:
获取法律领域的高频动词、关键名词,对这些词语进行基于距离的相近词聚类,人工根据聚类结果参考相关法律条款定义法律事件类型以及模板;
C.基于远程监督学习的大规模法律事件数据标注:
利用规则或模式的方法从半结构化的法律文本数据中获取种子法律事件,构建原始法律事件知识库IE;获取关键事件元素角色,构建动词、名词触发词集;利用中文近义词库对触发词集进行拓展;利用远程监督学习的方式自动标注新的语料数据并加入法律事件知识库IE中;
D.基于NEZHA预训练语言模型和DMCNN神经网络模型的法律事件抽取系统,法律事件检测任务以及法律事件论元抽取任务均使用该法律事件抽取系统,且两者的特征输入存在差别。
本实施例方法能基于远程监督学习的实现法律事件语料数据的大规模自动标注,在此基础上利用预训练语言模型和卷积神经网络算法挖掘了法律文本数据的深层语义信息,在法律事件抽取任务上的取得了较好的效果,能大为减少人工定义事件的时间成本和劳动成本,提升法律事件抽取的效果。
实施例二:
本实施例与实施例一基本相同,特别之处在于:
在本实施例中,在所述步骤A中,获取可用的法律文本语料数据的具体步骤为:
A1.使用爬虫从法律文书网站爬取公开的法律文书数据;
A2.对获取的部分法律文书数据按照判罚的罪名进行人工分类,使用神经网络模型RCNN训练法律文书数据的罪名分类模型,对剩下的数据进行分类,获得按照罪名分类的法律文书数据;
A3.将法律文书数据的标点符号统一为中文格式,按照包括?!的中文标点断句符号对文书数据切分为句子形式,构成句子集合;
A4.使用开源分词工具对句子集合中的每个句子进行分词,得到分词结果;
A5.构建法律领域的专用停用词表,对分词结果进行修正、优化。
在本实施例中,在所述步骤B中,法律事件模板定义方式:
B1.基于步骤A4的分词结果,使用开源词性标注工具对词语进行词性标注,使用TextRank算法获取结果最大的M个动词、N个名词;
B2.基于步骤A4的分词结果,使用Word2Vec算法获取法律文本数据的词向量;
B3.基于步骤B1的结果对名词和动词使用k-means计算语义距离进行聚类,获得语义相近的KV个动词集、KM个名词集;
B4.基于B3的结果集,人工根据经验和法条审核总结法律领域的事件类型以及模板,根据事件抽取任务定义,事件模板包括触发词和事件元素。
在本实施例中,在所述步骤B4中,后续对于新增法律文本语料数据使用增量聚类的方式对动词集、名词集进行拓展,或者同时可能新增事件类型以及模板。
在本实施例中,在所述步骤C中,基于远程监督学习的大规模法律事件数据标注方法的具体步骤:
C1.法院的判决书为半结构的法律文本数据,基于B4的事件模板,人工制定简单的规则或模式,通过正则表达式或语法树的方式抽取种子法律事件,构建原始法律事件知识库IE;
C2.关键事件元素角色定义:
对于获得的K个事件模板,计算事件类型ETj中每个事件元素Ai的重要性,选取事件类型ETj中RIij值最大的事件元素作为该事件的关键事件元素角色;
C3.构建动词触发词集:
对于B中的聚类得到的KV个动词集,计算KVk中每个动词Vi对于事件ETj的重要性,选取VIij值最大的X个动词作为事件类型ETj的动词触发词集ETVTj;
C4.构建名词触发词集:
对于B3中的KN个名词集,计算KNk中每个名词Ni对于事件ETj的重要性,选取NIij值大于特定阈值的名词集构成事件类型ETj的名词触发词集ETNTj;
C5.利用开源中文近义词,对步骤C3和步骤C4构建的动词触发词集以及名词触发词集进行触发词拓展;
C6.假使任何句子中包含事件类型ETi的动词触发词集或名词触发词集中的任意一种触发词,则认为该语句可能包含事件类型ETi的实例,进行自动标注;
C7.完成一个阶段的自动数据标注后,人工校验标注结果并进行更正,将校验后的合格法律文书数据加入法律事件知识库IE中。
在本实施例中,所述步骤C6中,如果该语句包含事件类型ETi的关键事件元素角色,则认为该语句陈述了事件类型ETi的实例,进行自动标注。
在本实施例中,在所述步骤D中,基于NEZHA预训练语言模型和DMCNN神经网络模型的法律事件抽取系统的具体步骤:
D1.CNN的输入:
进行法律事件论元抽取任务时,将词语级语义特征和语句级语义特征输入了CNN中;
D2.词语级语义特征由候选触发词的词向量或候选事件论元的词向量、以及其左右相邻的词语的词向量首位逐个拼接得到,使用NEZHA预训练语言模型,提供的词向量获取词级语义特征;
D3.语句级语义特征:
法律事件检测任务和法律事件论元抽取任务两个人物的语句级语义特征存在差别,语句特征矩阵经过卷积、动态池化操作获取;
D4.将词语级语义特征与语句级语义特征进行拼接,获取新的特征向量F,经过全连接层和softmax操作完成分类。
本实施例方法使用机器学习结合专家知识的方式,定义法律领域不同罪名条目的法律事件类型以及模板,大大减少了人工定义事件的时间成本和劳动成本;本实施例方法使用远程监督学习的方式,实现法律事件语料数据的大规模自动标注,填补了目前法律事件抽取领域缺少大规模语料数据的空白;本实施例方法构建词汇级语义特征以及语句级词汇特征,让基于NAZHA预训练语言模型和CNN卷积神经网络的法律事件抽取系统学习到更多潜在的语义信息,提升了法律事件抽取的效果。
实施例三:
本实施例与上述实施例基本相同,特别之处在于:
在本实施例中,一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,步骤
A.数据获取、预处理:使用网络爬虫爬取公开法律文本语料,采用法律文书网站的公开资料;对原始法律文本语料进行文本预处理,依次进行分句、分词、去噪,获得可用的法律文本语料数据;
A1.使用爬虫从法律文书网站爬取公开的法律文书数据;
A2.对获取的部分法律文书数据按照判罚的罪名进行人工分类,在此基础上使用神经网络模型RCNN训练法律文书数据的罪名分类模型,对剩下的数据进行分类,获得按照罪名分类的法律文书数据。以下步骤如不特殊说明都是根据某一罪名的法律文书数据进行的;
A3.将法律文书数据的标点符号统一为中文格式,按照包括?!的中文标点断句符号对文书数据切分为句子形式,构成句子集合;
A4.使用Jieba、SnowNLP等开源分词工具对句子集合中的每个句子进行分词,得到分词结果;
A5.构建法律领域的专用停用词表,对分词结果进行修正、优化;
B.法律事件模板定义:获取法律领域的高频动词、关键名词,对这些词语进行聚类,定义法律事件类型以及模板,法律事件中包含关键法律事件;
B1.基于A4的分词结果,使用开源词性标注工具对词语进行词性标注,使用TextRank算法获取值最大的TRV个动词、TRN个名词;
B2.基于A4的分词结果,使用Word2Vec算法获取法律文本数据的词向量;
B3.基于B1的结果对名词和动词使用k-means计算语义距离进行聚类,获得语义相近的个KV个动词集、KN个名词集;
B4.基于B3的结果集,人工根据经验和法条审核总结法律领域的事件类型,从而定义K个事件模板;根据事件抽取任务定义,事件模板包括事件触发词和事件元素;法律事件中包含一类关键法律事件,关键法律事件在最终量刑中具有重要影响;关键法律事件在不同的罪名语境下表现成不同形式,例如强奸罪,关键法律事件可能包含多人作案事件、未成年人事件、致死事件;
B6.特别地,后续对于新增法律文本语料数据使用增量聚类的方式对动词集、名词集进行拓展,同时可能新增事件类型以及模板;
C.基于远程监督的法律事件抽取训练数据标注:利用规则或模式的方法从半结构化的法律文本数据中获取种子法律事件,构建原始法律事件知识库IE;获取关键事件元素角色,构建动词、名词触发词集;利用开源中文近义词包对触发词集进行拓展;利用远程监督的方式自动标注新的语料数据并加入法律事件知识库IE中;
C1.法院的判决书为半结构的法律文本数据,基于B4的事件模板,人工制定简单的规则或模式,通过正则表达式或语法树的方式抽取种子法律事件,构建原始法律事件知识库IE;
C2.关键事件元素角色定义:对于获得的K个事件模板,利用公式(1)计算事件类型ETj中每个事件元素Ai的重要性,选取事件类型ETj中RIij值最大的事件元素作为该事件的关键事件元素角色;
amount(Ai,ETj)表示包含事件元素角色Ai的法律事件类型ETj实例数,amount(ETj)表示法律事件ETj实例的总数,amount(ET)表示法律事件类型的总数,amount(ETCAi)表示包含事件元素角色Ai的法律事件类型的数量;
C3.构建动词触发词集:对于B中的聚类得到的KV个动词集,利用公式(2)计算KVk中每个动词Vi对于事件ETj的重要性,选取VIij值最大的X个动词作为事件类型ETj的动词触发词集ETVTj:
amount(Vi,ETSj)表示既陈述法律事件类型ETj又包含动词Vi的句子数,amount(ETSj)表示陈述法律事件类型ETj的句子的总数,amount(ET)表示法律事件类型的总数,amount(ETIi)表示包含动词Vi的法律事件类型的数量;
C4.构建名词触发词集:对于B3中的KN个名词集,计算KNk中每个名词Ni对于事件ETj的重要性,选取NIij值大于特定阈值的名词集构成事件类型ETj的名词触发词集ETNTj:
NIij=1-log(Dist(NEi,ENAEj)) (3)
其中NEi为名词Ni的词嵌入向量,ENAEj为法律事件种子数据集中事件类型ETj所有实例中名词的平均词嵌入向量;
C5.利用开源中文近义词包Synonyms、复旦大学中文同义词库等对C3和C4构建的动词触发词集以及名词触发词集进行触发词拓展;
C6.假使任何句子中包含事件类型ETi的动词触发词集或名词触发词集中任一触发词,则认为该语句可能包含事件类型ETi的实例;进一步,如果该语句包含事件类型ETi的关键事件元素角色,则认为该语句陈述了事件类型ETi的实例,进行自动标注;
C7.完成一个阶段的自动数据标注后,人工校验标注结果并进行更正,将校验后的合格法律文书数据加入法律事件知识库IE中。
D.基于NEZHA预训练语言模型和DMCNN神经网络模型的法律事件抽取系统,法律事件检测任务以及法律事件论元抽取任务均使用该系统,但是两者的特征输入存在一些差别;
D1.CNN的输入:当进行事件检测任务时,词语级语义特征更重要;而进行法律事件论元抽取任务的时候语句级语义特征更重要。因此,将词语级语义特征和语句级语义特征都输入了CNN中;
D2.词语级语义特征由候选触发词的词向量或候选事件论元的词向量、以及它们左右相邻的词语的词向量首位逐个拼接得到。我们的方法使用NEZHA预训练语言模型提供的词向量获取词级语义特征。NAZHA作为中文预训练语言模型,在很多NLP任务中得到了良好的表现;
D3.语句级语义特征:法律事件检测任务和法律事件论元抽取任务两个人物的语句级语义特征存在差别,下面分别说明;
对于法律事件论元抽取任务,语句中每个词语的特征向量(维度为300)由三个特征向量拼接组成:词语的词向量、词语相较于事件论元的相对位置向量、事件类型编码向量,假设语句中有n个词语,语句特征为每个词语的特征向量拼接而成的矩阵(维度为n*300);
对语句特征矩阵进行卷积操作,设置3个词大小的窗口,滤波器大小为3*300,步长为1,卷积操作得到3个特征序列;
池化操作采用动态池化策略,考虑到一个语句中可能存在多个法律事件,同一事件论元在不同法律事件中可能扮演不同的论元角色,用分段池化的方式保留更多的语句语义特征。使用候选事件论元以及触发词将特征序列分割为3个部分,对每个部分进行最大池化操作,将结果进行拼接获得语句级语义特征;
对于法律事件检测任务,语句中每个词语的特征向量(维度为300)由两个特征向量拼接组成:词语的词向量、词语相较于触发词的相对位置向量,同样进行卷积操作,但在动态池化时,候选触发词将特征序列分割为2个部分,对每个部分进行最大池化操作,将结果进行拼接获得语句级语义特征;
D4.将词语级语义特征与语句级语义特征进行拼接,获取新的特征向量F,经过全连接层和softmax操作完成分类;对于法律事件检测任务,分类结果包括法律事件类型集ET={ET1,ET2,...,ETn}。对于法律事件论元抽取任务,分类的结果包括对应法律事件类型ETi的事件论元角色集ROLE={ROLE1,ROLE2,...,ROLEn}和nonerole。
本实施例基于预训练模型和卷积神经网络算法的法律领域事件抽取方法。本方法包括以下步骤:1.使用网络爬虫爬取公开法律文本语料,对原始语料进行文本预处理,包括分类、降噪、分句、分词等操作,获得可用的法律文本语料数据;2.获取法律领域的高频动词、关键名词,对这些词语进行聚类,人工根据聚类结果参考相关法律依据定义法律事件类型以及模板;3.通过模式或规则的方式构建原始法律事件知识库IE,在此基础上利用远程监督学习的方式实现法律事件语料数据的大规模自动标注;4.使用获得的大规模法律事件预料数据,实现基于NEZHA预训练语料模型和DMCNN卷积神经网络模型实现法律事件抽取系统。本发明提出的一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,通过基于远程监督学习的方式实现法律事件语料数据的大规模自动标注,在此基础上利用预训练语言模型和卷积神经网络算法挖掘了法律文本数据的深层语义信息,在法律事件抽取任务上的取得了较好的效果。
上面对本发明实施例结合附图进行了说明,但本发明不限于上述实施例,还可以根据本发明的发明创造的目的做出多种变化,凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本发明的发明目的,只要不背离本发明的技术原理和发明构思,都属于本发明的保护范围。
Claims (7)
1.一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,其特征在于,所述方法包括以下步骤:
A.数据获取、预处理:
使用网络爬虫爬取公开法律文本语料,对原始法律文本语料进行文本预处理,依次进行分句、分词、去噪,获得可用的法律文本语料数据;
B.法律事件模板定义:
获取法律领域的高频动词、关键名词,对这些词语进行基于距离的相近词聚类,人工根据聚类结果参考相关法律条款定义法律事件类型以及模板;
C.基于远程监督学习的大规模法律事件数据标注:
利用规则或模式的方法从半结构化的法律文本数据中获取种子法律事件,构建原始法律事件知识库IE;获取关键事件元素角色,构建动词、名词触发词集;利用中文近义词表对触发词集进行拓展;利用远程监督学习的方式自动标注新的语料数据并加入法律事件知识库IE中;
D.基于NEZHA预训练语言模型和DMCNN神经网络模型的法律事件抽取系统,法律事件检测任务以及法律事件论元抽取任务均使用该法律事件抽取系统,且两者的特征输入存在差别。
2.根据权利要求1所述的基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,其特征在于:在所述步骤A中,获取可用的法律文本语料数据的具体步骤为:
A1.使用爬虫从法律文书网站爬取公开的法律文书数据;
A2.对获取的部分法律文书数据按照判罚的罪名进行人工分类,使用神经网络模型RCNN训练法律文书数据的罪名分类模型,对剩下的数据进行分类,获得按照罪名分类的法律文书数据;
A3.将法律文书数据的标点符号统一为中文格式,按照包括?!的中文标点断句符号对文书数据切分为句子形式,构成句子集合;
A4.使用开源分词工具对句子集合中的每个句子进行分词,得到分词结果;
A5.构建法律领域的专用停用词表,对分词结果进行修正、优化。
3.根据权利要求1中所述的基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,其特征在于:在所述步骤B中,法律事件模板定义方式:
B1.基于步骤A4的分词结果,使用开源词性标注工具对词语进行词性标注,使用TextRank算法获取结果最大的M个动词、N个名词;
B2.基于步骤A4的分词结果,使用Word2Vec算法获取法律文本数据的词向量;
B3.基于步骤B1的结果对名词和动词使用k-means计算语义距离进行聚类,获得语义相近的KV个动词集、KM个名词集;
B4.基于B3的结果集,人工根据经验和法条审核总结法律领域的事件类型以及模板,根据事件抽取任务定义,事件模板包括触发词和事件元素。
4.根据权利要求1所述的基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,其特征在于:在所述步骤B4中,后续对于新增法律文本语料数据使用增量聚类的方式对动词集、名词集进行拓展,或者同时可能新增事件类型以及模板。
5.根据权利要求1所述的基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,其特征在于:在所述步骤C中,基于远程监督学习的大规模法律事件数据标注方法的具体步骤:
C1.法院的判决书为半结构的法律文本数据,基于B4的事件模板,人工制定简单的规则或模式,通过正则表达式或语法树的方式抽取种子法律事件,构建原始法律事件知识库IE;
C2.关键事件元素角色定义:
对于获得的K个事件模板,计算事件类型ETj中每个事件元素Ai的重要性,选取事件类型ETj中RIij值最大的事件元素作为该事件的关键事件元素角色;
C3.构建动词触发词集:
对于B中的聚类得到的KV个动词集,计算KVk中每个动词Vi对于事件ETj的重要性,选取VIij值最大的X个动词作为事件类型ETj的动词触发词集ETVTj;
C4.构建名词触发词集:
对于B3中的KN个名词集,计算KNk中每个名词Ni对于事件ETj的重要性,选取NIij值大于特定阈值的名词集构成事件类型ETj的名词触发词集ETNTj;
C5.利用中文近义词表,对步骤C3和步骤C4构建的动词触发词集以及名词触发词集进行触发词拓展;
C6.假使任何句子中包含事件类型ETi的动词触发词集或名词触发词集中的任意一种触发词,则认为该语句可能包含事件类型ETi的实例,进行自动标注;
C7.完成一个阶段的自动数据标注后,人工校验标注结果并进行更正,将校验后的合格法律文书数据加入法律事件知识库IE中。
6.根据权利要求5所述的基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,其特征在于:所述步骤C6中,如果该语句包含事件类型ETi的关键事件元素角色,则认为该语句陈述了事件类型ETi的实例,进行自动标注。
7.根据权利要求1所述的基于预训练模型和卷积神经网络算法的法律领域事件抽取方法,其特征在于:在所述步骤D中,基于NEZHA预训练语言模型和DMCNN神经网络模型的法律事件抽取系统的具体步骤:
D1.CNN的输入:
进行法律事件论元抽取任务时,将词语级语义特征和语句级语义特征输入了CNN中;
D2.词语级语义特征获取:
由候选触发词的词向量或候选事件论元的词向量、以及其左右相邻的词语的词向量首位逐个拼接得到,使用NEZHA预训练语言模型,提供的词向量获取词级语义特征;
D3.语句级语义特征获取:
法律事件检测任务和法律事件论元抽取任务两个人物的语句级语义特征存在差别,语句特征矩阵经过卷积、动态池化操作获取;
D4.将词语级语义特征与语句级语义特征进行拼接,获取新的特征向量F,经过全连接层和softmax操作完成分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110349911.5A CN112966525B (zh) | 2021-03-31 | 2021-03-31 | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110349911.5A CN112966525B (zh) | 2021-03-31 | 2021-03-31 | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966525A true CN112966525A (zh) | 2021-06-15 |
CN112966525B CN112966525B (zh) | 2023-02-10 |
Family
ID=76280682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110349911.5A Active CN112966525B (zh) | 2021-03-31 | 2021-03-31 | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966525B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505200A (zh) * | 2021-07-15 | 2021-10-15 | 河海大学 | 一种结合文档关键信息的句子级中文事件检测的方法 |
CN114996414A (zh) * | 2022-08-05 | 2022-09-02 | 中科雨辰科技有限公司 | 一种确定相似事件的数据处理系统 |
CN116719944A (zh) * | 2023-08-02 | 2023-09-08 | 中国电信股份有限公司 | 客服文本分类方法及装置、电子设备和存储介质 |
CN117454987A (zh) * | 2023-12-25 | 2024-01-26 | 临沂大学 | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239445A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络的新闻事件抽取的方法及系统 |
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN111897908A (zh) * | 2020-05-12 | 2020-11-06 | 中国科学院计算技术研究所 | 融合依存信息和预训练语言模型的事件抽取方法及系统 |
-
2021
- 2021-03-31 CN CN202110349911.5A patent/CN112966525B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN107239445A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络的新闻事件抽取的方法及系统 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN111897908A (zh) * | 2020-05-12 | 2020-11-06 | 中国科学院计算技术研究所 | 融合依存信息和预训练语言模型的事件抽取方法及系统 |
Non-Patent Citations (2)
Title |
---|
吴小雪等: "预训练语言模型在中文电子病历命名实体识别上的应用", 《电子质量》 * |
秦彦霞等: "基于混合表示的中文事件检测方法研究", 《中文信息学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505200A (zh) * | 2021-07-15 | 2021-10-15 | 河海大学 | 一种结合文档关键信息的句子级中文事件检测的方法 |
CN113505200B (zh) * | 2021-07-15 | 2023-11-24 | 河海大学 | 一种结合文档关键信息的句子级中文事件检测的方法 |
CN114996414A (zh) * | 2022-08-05 | 2022-09-02 | 中科雨辰科技有限公司 | 一种确定相似事件的数据处理系统 |
CN116719944A (zh) * | 2023-08-02 | 2023-09-08 | 中国电信股份有限公司 | 客服文本分类方法及装置、电子设备和存储介质 |
CN117454987A (zh) * | 2023-12-25 | 2024-01-26 | 临沂大学 | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 |
CN117454987B (zh) * | 2023-12-25 | 2024-03-19 | 临沂大学 | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112966525B (zh) | 2023-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177394B (zh) | 基于句法注意力神经网络的知识图谱关系数据分类方法 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN110209836B (zh) | 远程监督关系抽取方法及装置 | |
CN112101028B (zh) | 一种多特征双向门控领域专家实体抽取方法及系统 | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110532328B (zh) | 一种文本概念图构造方法 | |
CN111027595B (zh) | 双阶段语义词向量生成方法 | |
CN110297913A (zh) | 一种电子公文实体抽取方法 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN111353306B (zh) | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 | |
CN110263325A (zh) | 中文分词系统 | |
CN111274804A (zh) | 基于命名实体识别的案件信息提取方法 | |
CN112101014B (zh) | 一种混合特征融合的中文化工文献分词方法 | |
CN110781290A (zh) | 一种长篇章结构化文本摘要提取方法 | |
CN114239574A (zh) | 一种基于实体和关系联合学习的矿工违规行为知识抽取方法 | |
CN112800764A (zh) | 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法 | |
CN117236338B (zh) | 一种稠密实体文本的命名实体识别模型及其训练方法 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
CN113761893A (zh) | 一种基于模式预训练的关系抽取方法 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN115310448A (zh) | 一种基于bert和字词向量结合的中文命名实体识别方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115017903A (zh) | 文档层次结构联合全局局部信息抽取关键短语方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |