CN112950414B - 一种基于解耦法律要素的法律文本表示方法 - Google Patents

一种基于解耦法律要素的法律文本表示方法 Download PDF

Info

Publication number
CN112950414B
CN112950414B CN202110208467.5A CN202110208467A CN112950414B CN 112950414 B CN112950414 B CN 112950414B CN 202110208467 A CN202110208467 A CN 202110208467A CN 112950414 B CN112950414 B CN 112950414B
Authority
CN
China
Prior art keywords
legal
text
elements
training
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110208467.5A
Other languages
English (en)
Other versions
CN112950414A (zh
Inventor
缪影芝
宗为娴
周昉
金澈清
钱卫宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202110208467.5A priority Critical patent/CN112950414B/zh
Publication of CN112950414A publication Critical patent/CN112950414A/zh
Application granted granted Critical
Publication of CN112950414B publication Critical patent/CN112950414B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于解耦法律要素的法律文本表示方法,包括法律要素定义和标注、数据构建、模型训练和下游任务具体应用等步骤,将法律要素领域知识与深度学习模型相结合。对于包含某法律要素的文本,本发明提出借助于一个包含该法律要素的正样本和一个不包含该法律要素的负样本构建三元组,基于triplet loss学习法律文本关于该法律要素的向量表示。对于多个法律要素,本发明为每个法律要素构建三元组并训练相应的模型,不同法律要素间的模型训练相互独立,互不影响。本发明方法可以较好捕捉到法律要素间的细微差别,同时减少其他无关信息的影响,为法律领域文本表示提供了一个新的解决方案。

Description

一种基于解耦法律要素的法律文本表示方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及基于解耦模型的法律领域文本表示方法。
背景技术
近年来,随着网络上大量裁判文书的公开,为研究者们提供了大量的数据,越来越多的研究开始关注司法领域的任务,比如,类案推荐、罪名预测等。这些任务在司法辅助系统中都有着重要的作用。一方面,司法辅助系统可以为缺乏法律知识以及对复杂的法律流程不了解的人提供低成本但高质量的法律咨询服务,另一方面,它可以为法律工作者(比如律师、法官)提供一系列参考以提高他们的工作效率。上述司法辅助系统中的任务,它们的第一步往往是需要将文本进行向量化表示,即将文本转换为计算机能够处理的数学形式。已有的文本表示方法众多,有基于无监督的方法,如TF-IDF、word2vec等,和基于有监督的方法,比如CNN、LSTM等。相比于普通文本,法律裁定文书具有其特有的特征,如格式固定、独特的语言风格等,同时其涉及很多的领域知识。随着深度学习的发展,一些工作将深度学习网络与法律领域知识结合起来学习文本表示,涉及的领域知识包括法律法条和任务间拓扑结构等。
法律要素是比法律法条更细粒度的法律知识,例如,在借贷案件中,“借款人和贷款人的属性”,“担保类型”和“贷款用途”等都是影响案件最终判定结果的关键法律要素。在一个法律裁定文书的事实描述中,往往涉及多个法律要素,且多个法律要素的信息在文本中紧密耦合,但是对于不同的法律任务,需要考虑的法律要素是不同的。比如,在中国破产案件中,“申请人主体资格”、“破产原因”和“案件管辖权”都是重要的法律要素,但是一个法官在实际中可能只想找关于“破产原因”这一法律要素的相似案例。另一方面,一些法律要素的表达非常的相似,例如“经济补偿金”和“经济赔偿金”,它们除了一个字之外几乎完全相同,但是这一个关键字却决定了它们不同的意义。如何捕捉到法律要素与法律要素之间的这种细微差别对于法律文本的表示是非常重要的。
现有的工作较少考虑到法律文书的关于法律要素的特征,并且大部分模型的训练都与下游任务紧密结合,一个任务训练得到的文本表示往往较难直接应用于其他任务中。
发明内容
本发明的目的是针对现有技术的不足,结合法律领域知识,提出的一种基于解耦法律要素的法律文本表示方法。本发明基于Triplet loss学习法律文本关于每个法律要素的一个向量表示,实现对法律要素信息的解耦。学习到的多个向量间相互独立。本发明提供了一种通用的文本表示方法,不同的下游任务可以根据各自的需求选择不同的向量表示。此外,本发明可以在不重新训练现有模型的情况下将新元素容易地合并到框架中。
本发明将法律要素领域知识与深度学习模型相结合,对于包含某法律要素的文本,本发明提出借助于一个包含该法律要素的正样本和一个不包含该法律要素的负样本构建三元组,基于triplet loss学习法律文本关于该法律要素的向量表示。对于多个法律要素,本发明会为每个法律要素构建三元组并训练相应的模型,不同法律要素间的模型训练相互独立,互不影响。本发明的方法可以较好捕捉到法律要素与法律要素间的细微差别,同时减少其他无关信息的影响。
实现本发明目的的具体技术方案是:一种基于解耦法律要素的法律文本表示方法,包括法律要素定义、法律要素标注、数据构建、模型训练和下游任务具体应用等步骤,该方法包括以下具体步骤:
步骤1:法律要素定义:定义网络爬虫爬取法律裁定文书,根据要处理的法律裁定文书类型以及相关法律法规,定义相关法律要素。法律要素是比法律法规粒度更小的领域知识,例如,在借贷案件中,“借款人和贷款人的属性”,“担保类型”和“贷款用途”等都是会影响案件最终判定结果的关键法律要素;
步骤2:人工标注:对步骤1爬取的法律裁定文书进行人工标注。人工标注需要对法律裁定文书的事实描述部分的每句话进行标注,标注工具可选取任何开源数据标注工具,标注内容为每句话包含的法律要素;假设,在步骤1中定义了5个法律要素,其标签分别表示为{e1,e2,e3,e4,e5},现在有一句话包含前三个法律要素,那么其标注内容为(e1,e2,e3);
步骤3:根据步骤2的人工标注数据,为步骤1中定义的法律要素构建三元组。对步骤1中定义的每个法律要素分别构建三元组,借助于一个包含该法律要素的正样本和一个不包含该法律要素的负样本构建三元组,三元组构建具体步骤如下:
步骤3-1:对某个法律要素e,随机选择一个包含法律要素e的事实描述(事实描述中有一个句子包含该法律要素,则该事实描述包含该法律要素),该文本记作x;随机选择一个只包含法律要素e的句子,记作xp,和另一个不包含法律要素e的句子,记作xn
步骤3-2:将步骤3-1中选择的三个句子(x,xp,xn)作为法律要素e的一个三元组。
步骤3-3:重复步骤3-1、3-2,为法律要素e构建大量三元组,三元组数量应不少于两万组。
步骤4:使用Triplet网络模型对步骤3中构建的三元组数据进行训练,对于每一个法律要素,训练一个法律文本关于该法律要素的文本表示模型G,具体包括以下子步骤:
步骤4-1:对于某个法律要素e,分别将其三元组(x,xp,xn)输入到三个共享权重的编码器中。三个共享权重的编码器具有相同的模型结构,训练时接收相同的优化梯度。每个共享权重的编码器主要包括两个部分。(1)词嵌入层。对于输入的文本x,词嵌入层首先将文本x中的词转化为对应的词向量。所述词嵌入层可以使用多种词向量预训练模型,例如word2vec或者glove。(2)编码神经网络。编码神经网络的输入为文本x的词向量,输出为文本x关于法律要素e的向量表示fe(x)。所述编码神经网络可以选择任何经典的深度学习网络模型,比如CNN,LSTM或者Bi-LSTM。
步骤4-2:对于第i个三元组
Figure BDA0002951625750000031
编码器训练的目标是使得xi
Figure BDA0002951625750000032
向量表示的距离越近越好,而xi
Figure BDA0002951625750000033
向量表示的距离越远越好。故模型的triplet loss目标函数如下:
Figure BDA0002951625750000034
其中,L为损失函数,D表示三元组的基数,fe(xi)表示文本xi的最终向量表示,sim表示计算两个向量的余弦相似度,xi表示第i个三元组中包含法律要素e的事实描述,
Figure BDA0002951625750000035
表示第i个三元组中只包含法律要素e的句子,
Figure BDA0002951625750000036
表示第i个三元组中不包含法律要素e的句子,α是一个常量,表示xi
Figure BDA0002951625750000037
向量表示的余弦相似度与xi
Figure BDA0002951625750000038
向量表示的余弦相似度之间差距的最小值,max表示取两个值中的较大值。训练通过最小化损失函数L来调整共享权重的编码器的网络参数。为了使损失函数L越来越小,编码器会学习xi
Figure BDA0002951625750000039
共有而
Figure BDA00029516257500000310
没有的特征,同时,忽略那些xi
Figure BDA00029516257500000311
Figure BDA00029516257500000312
都有的特征,由于三元组构造的特殊性,法律要素e的相关内容是唯一满足条件的,编码器会倾向于去学习文本关于法律要素e的信息,而忽略其他不相关的信息。训练结束,取三个共享权重编码器中的任意一个作为法律文本关于法律要素e的文本表示模型Ge
步骤4-3:对于每个法律要素,重复步骤4.1~步骤4.2,为每个法律要素训练得到一个文本表示模型。
步骤5:给定一个文本,将其分别输入上述步骤4得到的多个文本表示模型中,得到该文本关于每个要素的一个向量表示,其中每个向量表示包含了该文本关于相应法律要素的语义信息。然后可根据具体下游任务,选择需要的与特定法律要素相关的向量表示,通过堆叠或者级联的方式输入到具体的下游任务模型中。
步骤6:将步骤5得到向量表示应用于下游任务,所述下游任务包括类案推荐、罪名预测、法律要素识别。本发明将所述文本表示模型应用于两个下游任务,所述两个下游任务为破产领域类案推荐任务和法研杯法律要素识别任务,分别得到两个下游任务在不同评测指标下的结果。具体包括以下子步骤:
步骤6-1:将文本表示模型应用于破产领域类案推荐任务中,具体包括以下子步骤:
步骤6-1-1:爬取破产领域法律裁定文书,构造关于破产原因这一法律要素的三元组作为训练集。同时也构建测试集三元组(d,d1,d2),与训练集不同的是测试集中文本全部是事实描述。类案推荐的任务是判断d1与d2关于破产原因这一法律要素哪个与d更相似。测试集的真实标签y=1表示d1与d更相似,y=0表示d2与d更相似。
步骤6-1-2:根据构造的训练集三元组训练文书关于破产原因这一法律要素的文本表示模型G。
步骤6-1-3:将测试集中的三元组分别输入训练好的文本表示模型G,输出每个文本的向量表示,通过余弦相似度比较文本向量两两间的相似度,判断d1与d2哪个与d更相似。若d1与d更相似则
Figure BDA0002951625750000041
若d2与d更相似则
Figure BDA0002951625750000042
然后将
Figure BDA0002951625750000043
与真实标签y进行比较,计算得到准确率、精确率、召回率和F1分数。
步骤6-2:将文本表示模型应用于法研杯法律要素识别任务中。该法律要素识别任务数据集包含三类法律文书,分别是关于借贷、婚姻和劳动的法律裁定文书。对于每类法律裁定文书定义了20个法律要素,并且法律裁定文书中的每句话都进行了相关法律要素标注。对于每类法律裁定文书,本发明选择了10个法律要素进行法律要素识别任务。具体包括以下子步骤:
步骤6-2-1:对于每类法律裁定文书,本发明对选择的10个法律要素,分别构建了训练三元组,测试集为剩下句子的集合,然后根据构建的三元组,使用triplet网络为每个法律要素训练一个文本表示模型,得到一组模型{Gi|i=1,...,10},其中Gi表示文本关于第i个要素的文本表示模型。
步骤6-2-2:对于给定的一个句子,分别将其输入到步骤6-2-1中训练好的10个模型{Gi|i=1,...,10}中,得到该句子的10个向量表示。然后将这10个向量表示堆叠为一个向量矩阵,输入到一个多标签分类模型中进行法律要素识别。多标签分类模型采用的是全连接层加上一个softmax输出层。多标签分类模型输出的是一个10维的向量,其中向量的每个维度分别代表该句子包含第i个法律要素的概率。根据训练集的结果,从给定的阈值范围(0-1)中,为每个法律要素选择一个马修斯相关系数最高的值作为最佳阈值,第i个法律要素的概率超过设定的阈值则认为该句子包含该法律要素。
步骤6-2-3:将测试集输入到步骤6-2-1训练好的10个模型中,得到测试集句子的10个向量表示,再将10个向量表示堆叠输入到步骤6-2-2训练好的多标签分类器中,输出预测结果。
本发明与现有技术相比为法律领域文本表示和应用工作提供了一个新的通用的方法,具有较好的通用性,本发明学习到的文本表示可直接应用于各种下游任务中,方法简便,效率高,具有如下有益的技术效果:
(1)本发明是第一个研究通过解耦模型分离法律文本中不同的法律要素,并将法律要素信息进行向量化表示。
(2)本发明相比于已有的模型具有较强的通用性。本发明提出的模型在学习文本的向量表示时,不依赖于下游任务,在训练时只需要法律要素的标注信息。模型训练完成后,学习到的向量表示可直接应用于不同的下游任务中。
(3)对于某个法律要素的训练学习,本发明通过选择一个包含该法律要素的文本x(可能包含其他法律要素)、一个只包含该法律要素的文本xp和一个不包含该法律要素的文本xn构建一个三元组,通过最小化x与xp向量的相似度同时最大化x与xn来训练模型,使得模型更倾向于学习文本关于该法律要素的表示。
(4)本发明在学习法律要素的特征时,为了最小化损失函数,会倾向于学习法律要素与法律要素之间的不同之处,而忽略那些共有的特征,这一特点使得本发明提出的模型能够更好的学习到法律要素与法律要素间的细微差别。
(5)本发明在学习文本关于不同法律要素的向量的表示时,彼此之间的训练相互独立。针对某一法律要素的训练只会关注该法律要素信息,这使得本发明提出的模型学习到的不同法律要素信息之间相互独立,且不容易受到其他法律要素和无关信息的影响。
(6)相比于现有的用一个向量对法律文本进行表示的方法,本发明提出使用多个向量对法律文本进行法律要素相关表示,可以将法律要素信息进行很好的分离,更有利于下游任务对法律要素的识别和使用。
本发明应用到两个法律领域下游任务,类案推荐和法律要素识别中,两个任务的表现均得到了明显地提高。
附图说明
图1为本发明总体流程图;
图2为本发明提出的模型的结构;
图3为本发明应用在法研杯法律要素识别任务中的框架图;
图4为本发明在破产领域类案推荐任务上的实验效果对比图;
图5为本发明在破产领域类案推荐任务上的可视化效果图;
图6为本发明在法研杯法律要素识别任务上的实验效果对比图。
具体实施方式
结合以下具体实施例和附图,对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
参阅附图1,本发明按下述步骤进行基于解耦法律要素的法律文本表示学习:
步骤1:定义网络爬虫爬取法律裁定文书,根据要处理的法律裁定文书类型以及相关法律法规,定义相关法律要素。法律要素是比法律法规粒度更小的领域知识,例如,在借贷案件中,“借款人和贷款人的属性”,“担保类型”和“贷款用途”等都是会影响案件最终判定结果的关键法律要素。参阅附图1,给出了借贷案件的法律要素与相关语句的例子,如句子“判令解除原告A与被告B之间的借款合同,B偿还借款本金475868.53元及利息”既涉及法律要素“借款金额x万元”也涉及法律要素“有借贷证明”。
步骤2:对步骤1爬取的法律裁定文书进行人工标注。人工标注需要对法律裁定文书的事实描述部分的每句话进行标注,标注内容为每句话包含的法律要素。例如,在步骤1中定义了5个法律要素,其标签分别表示为{e1,e2,e3,e4,e5},现在有一句话包含前三个法律要素,那么其标注内容为(e1,e2,e3)。在本步骤中,标注工具可选取任何开源数据标注工具。
步骤3:根据步骤2的人工标注数据,为步骤1中定义的法律要素构建三元组。对步骤1中定义的每个法律要素要分别构建三元组,三元组构建具体步骤如下:
步骤3-1:对某个法律要素e,随机选择一个包含法律要素e的事实描述(事实描述中有一个句子包含该法律要素,则该事实描述包含该法律要素),记作x;随机选择一个只包含法律要素e的句子,记作xp,和另一个不包含法律要素e的句子,记作xn
步骤3-2:将步骤:3-1中选择的三个句子(x,xp,xn)作为法律要素e的一个三元组。
步骤3-3:重复步骤3-1、3-2,直至为法律要素e构建大量的三元组,三元组数量不少于两万组。
步骤4:参考附图2,使用Triplet网络模型对步骤3中构建的三元组数据进行训练。对于每一个法律要素,训练一个法律文本关于该法律要素的文本表示模型G,具体包括以下子步骤:
步骤4-1:对于某个法律要素e,分别将其三元组(x,xp,xn)输入到三个共享权重的编码器中。三个共享权重的编码器具有相同的模型结构,训练时接收相同的优化梯度。每个共享权重的编码器主要包括两个部分。(1)词嵌入层。对于输入的文本x,词嵌入层首先将文本中的词转化为对应的词向量。这里可以使用多种词向量预训练模型,例如word2vec或者glove。(2)编码神经网络。编码神经网络的输入为文本x的词向量,输出为文本x关于法律要素e的向量表示fe(x)。所述编码神经网络可以选择任何经典的深度学习网络模型,比如CNN,LSTM或者Bi-LSTM。
步骤4-2:对于第i个三元组
Figure BDA0002951625750000061
编码器训练的目标是使得xi
Figure BDA0002951625750000062
向量表示的距离越近越好,xi
Figure BDA0002951625750000071
向量表示的距离越远越好,故模型的triplet loss目标函数如下:
Figure BDA0002951625750000072
其中,L为损失函数,D表示三元组的基数,fe(xi)表示文本xi的最终向量表示,sim表示计算两个向量的余弦相似度,xi表示第i个三元组中包含法律要素e的事实描述,
Figure BDA0002951625750000073
表示第i个三元组中只包含法律要素e的句子,
Figure BDA00029516257500000710
表示第i个三元组中不包含法律要素e的句子,α是一个常量,表示xi
Figure BDA0002951625750000074
向量表示的余弦相似度与xi
Figure BDA0002951625750000075
向量表示的余弦相似度之间差距的最小值,max表示取两个值中的较大值。训练通过最小化目标函数L来调整共享权重的编码器的网络参数。
为了使得损失函数越来越小,编码器会学习那些xi
Figure BDA0002951625750000076
共有而
Figure BDA0002951625750000077
没有的特征,同时,忽略那些xi
Figure BDA0002951625750000078
Figure BDA0002951625750000079
都有的特征,由于三元组构造的特殊性,法律要素e的相关内容是唯一满足条件的,编码器会倾向于去学习文本关于法律要素e的信息,而忽略其他不相关的信息。训练结束,取三个共享权重编码器中的任意一个作为法律文本关于法律要素e的文本表示模型Ge
步骤4-3:对于每个法律要素,重复步骤4-1~步骤4-2,为每个法律要素训练得到一个文本表示模型。假设给定的任务涉及c个法律要素,那么本发明会训练一组文本表示模型{Gi|i=1,...,c},Gi对应第i个法律要素的编码模型。为了训练第i个法律要素的编码模型,其对应的三元组会输入到三个共享权重的编码器中,这三个编码器网络初始化权重相同,并接收相同的梯度进行更新,模型的训练通过最小化损失函数调整网络参数。训练结束,取三个编码器中的一个作为最终Gi即可。共享权重保证了三个编码器对于相同输入的有相同的输出。上述重复步骤可通过多线程同时训练,模型与模型之间训练相互独立、互不影响。
步骤5:给定一个文本,将其分别输入上述步骤4得到的多个文本编码表示模型中,得到该文本关于每个要素的一个向量表示,其中每个向量表示包含了该文本关于相应法律要素的语义信息。然后可根据具体下游任务,选择需要的与特定法律要素相关的向量表示,通过堆叠或者级联的方式输入到具体的下游任务模型中。由于每个编码模型仅学习其对应法律要素的信息,上述多个向量表示可以很好的将法律要素信息进行分离,下游任务可以更好地对不同的法律要素进行识别。
步骤6:将步骤5得到的向量表示应用于下游任务。本发明将所述文本表示模型应用于两个下游任务,破产领域类案推荐任务和法研杯法律要素识别任务,分别得到两个任务在不同评测指标下的结果。具体包括以下子步骤:
步骤6-1:将文本表示模型应用于破产领域类案推荐任务中,具体包括以下子步骤:
步骤6-1-1:爬取破产领域法律裁定文书,构造关于破产原因这一法律要素的三元组作为训练集。同时也构建测试集三元组(d,d1,d2),与训练集不同的是测试集中文本全部是事实描述。类案推荐的任务是判断d1与d2关于破产原因这一法律要素哪个与d更相似。测试集的真实标签y=1表示d1与d更相似,y=0表示d2与d更相似。
步骤6-1-2:根据构造的训练集三元组训练文书关于破产原因这一法律要素的文本表示模型G。
步骤6-1-3:将测试集中的三元组分别输入训练好的文本表示模型G,输出每个文本的向量表示,通过余弦相似度比较文本向量两两间的相似度,判断d1与d2哪个与d更相似。若d1与d更相似则
Figure BDA0002951625750000081
若d2与d更相似则
Figure BDA0002951625750000082
然后将
Figure BDA0002951625750000083
与真实标签y进行比较,就能计算得到准确率、精确率、召回率和F1分数。
步骤6-2:参考附图3,将文本表示模型应用于法研杯法律要素识别任务中。该法律要素识别任务数据集包含三类法律文书,分别是关于借贷、婚姻和劳动的法律裁定文书。对于每类法律裁定文书定义了20个法律要素,并且法律裁定文书中的每句话都进行了相关法律要素标注。对于每类法律裁定文书,本发明选择了10个法律要素进行法律要素识别任务。具体包括以下子步骤:
步骤6-2-1:对于每类法律裁定文书,本发明对选择的10个法律要素,分别构建了训练三元组,测试集为剩下句子的集合,然后根据构建的三元组,使用triplet网络为每个法律要素训练一个文本表示模型,得到一组模型{Gi|i=1,...,10},其中Gi表示文本关于第i个要素的文本表示模型。
步骤6-2-2:对于给定的一个句子,分别将其输入到步骤6-2-1中训练好的10个模型{Gi|i=1,...,10}中,得到该句子的10个向量表示。然后将这10个向量表示堆叠为一个向量矩阵,输入到一个多标签分类模型中进行法律要素识别。多标签分类模型采用的是全连接层加上一个softmax输出层。多标签分类模型输出的是一个10维的向量,其中向量的每个维度分别代表该句子包含第i个法律要素的概率。根据训练集的结果,从给定的阈值范围(0-1)中,为每个法律要素选择了一个马修斯相关系数最高的值作为最佳阈值,第i个法律要素的概率超过设定的阈值则认为该句子包含该法律要素。
步骤6-2-3:将测试集输入到步骤6-2-1训练好的10个模型中,得到测试集句子的10个向量表示,再将10个向量堆叠输入到步骤6-2-2训练好的多标签分类器中,输出预测结果。
参考附图4,从类案推荐结果上来看,各种经典的神经网络模型在使用了本发明的方法之后,在准确率、精确率、召回率和F1分数各项指标上都有明显地提升。
参考附图5,选择类案推荐任务中的网络层为LSTM加注意力权重的模型,对其注意力权重进行可视化,其中颜色的深浅表示了该词对整个文本学习贡献的权重大小,颜色越深表示该词越重要。从可视化结果上来看,本发明提出的方法为破产法律要素相关的词赋予更高的权重,说明模型重点关注于那些与破产法律要素相关的内容。
参考附图6,从法律要素识别在三个数据集上的结果来看,采用本发明的模型,在微F1、宏F1和平均F1上值最高,说明这个模型最好。
上述仅为本发明的最佳实施例,但本发明专利的保护范围并不限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (6)

1.一种基于解耦法律要素的法律文本表示方法,其特征在于,包括如下步骤:
步骤1:定义网络爬虫爬取法律裁定文书,根据要处理的法律裁定文书类型以及相关法律法规,定义相关法律要素;
步骤2:对步骤1爬取的法律裁定文书进行人工标注;
步骤3:根据步骤2的人工标注数据,为步骤1中定义的每一个法律要素分别构建三元组;所述步骤3中为步骤1中定义的每一个法律要素分别构建三元组,所述三元组构建具体步骤如下:
a.对某个法律要素e,随机选择一个包含法律要素e的事实描述,记作x,事实描述中有一个句子包含该法律要素,则该事实描述包含该法律要素;随机选择一个只包含法律要素e的句子,记作xp,和另一个不包含法律要素e的句子,记作xn,借助一个包含该法律要素的正样本和一个不包含该法律要素的负样本构建三元组;
b.将步骤a中选择的三个句子(x,xp,xn)作为法律要素e的一个三元组;
c.重复步骤a、b,为法律要素e构建数量不少于两万组的三元组;
步骤4:使用Triplet网络模型对步骤3中构建的三元组数据进行训练,对于每一个法律要素,训练一个法律文本关于该法律要素的文本表示模型G;所述步骤4中使用Triplet网络模型对步骤3中构建的三元组数据进行训练,其训练具体步骤如下:
a.对于某个法律要素e,分别将其三元组(x,xp,xn)输入到三个共享权重的编码器中,所述三个共享权重的编码器具有相同的模型结构,训练时接收相同的优化梯度;每个所述共享权重的编码器包括两个部分:(1)词嵌入层,对于输入的文本x,词嵌入层首先将文本x中的词转化为对应的词向量,所述词嵌入层使用词向量预训练模型,包括word2vec、glove;(2)编码神经网络,所述编码神经网络的输入为文本x的词向量,输出为文本x关于法律要素e的向量表示fe(x);所述编码神经网络为任何深度学习网络模型,包括CNN,LSTM、Bi-LSTM;
b.对于第i个三元组
Figure FDA0004006262300000011
编码器训练的目标函数如下:
Figure FDA0004006262300000012
其中,L为损失函数,D表示三元组的基数,fe(xi)表示文本xi的最终向量表示,sim表示计算两个向量的余弦相似度,xi表示第i个三元组中包含法律要素e的事实描述,
Figure FDA0004006262300000013
表示第i个三元组中只包含法律要素e的句子,
Figure FDA0004006262300000014
表示第i个三元组中不包含法律要素e的句子,α是一个常量,表示xi
Figure FDA0004006262300000015
向量表示的余弦相似度与xi
Figure FDA0004006262300000016
向量表示的余弦相似度之间差距的最小值,max表示取两个值中的较大值,训练通过最小化损失函数L来调整共享权重的编码器的网络参数,为了使损失函数L更小,编码器会学习xi
Figure FDA0004006262300000021
共有而
Figure FDA0004006262300000022
没有的特征,同时,忽略那些xi
Figure FDA0004006262300000023
Figure FDA0004006262300000024
都有的特征,由于三元组构造的特殊性,法律要素e的相关内容是唯一满足条件的,编码器会去学习文本关于法律要素e的信息,而忽略其他不相关的信息;训练结束,取三个共享权重编码器中的任意一个作为法律文本关于法律要素e的文本表示模型Ge
c.对于每个法律要素,重复步骤a~步骤b,为每个法律要素训练得到一个文本表示模型;
步骤5:给定一个文本,将其分别输入上述步骤4得到的多个文本表示模型中,得到该文本关于每个要素的一个向量表示;
步骤6:步骤5得到向量表示应用于下游任务,所述下游任务包括类案推荐、罪名预测、法律要素识别,分别得到下游任务在不同评测指标下的结果。
2.根据权利要求1所述一种基于解耦法律要素的法律文本表示方法,其特征在于,所述步骤1中的法律要素是指会影响案件最终判定结果、比法律法规粒度更小的领域知识。
3.根据权利要求1所述一种基于解耦法律要素的法律文本表示方法,其特征在于,所述步骤2的人工标注中,对所述法律裁定文书的事实描述部分的每句话进行标注,标注工具为开源数据标注工具,标注内容为每句话包含的法律要素。
4.根据权利要求1所述一种基于解耦法律要素的法律文本表示方法,其特征在于,所述步骤5中,每个向量表示包含了该文本关于相应法律要素的语义信息,然后根据具体下游任务,选择需要的与特定法律要素相关的向量表示,通过堆叠或者级联的方式输入到具体的下游任务模型中进行训练。
5.根据权利要求1所述一种基于解耦法律要素的法律文本表示方法,其特征在于,所述步骤6中,将文本表示模型应用于破产领域类案推荐任务中,其具体步骤如下:
a.爬取破产领域法律裁定文书,构造关于破产原因这一法律要素的三元组作为训练集,同时也构建测试集三元组(d,d1,d2),测试集中文本全部是事实描述;类案推荐的任务是判断d1与d2关于破产原因这一法律要素哪个与d更相似;测试集的真实标签y=1表示d1与d更相似,y=0表示d2与d更相似;
b.根据构造的训练集三元组训练文书关于破产原因这一法律要素的文本表示模型G;
c.将测试集中的三元组分别输入训练好的文本表示模型G,输出每个文本的向量表示,通过余弦相似度比较文本向量两两间的相似度,判断d1与d2哪个与d更相似;若d1与d更相似则
Figure FDA0004006262300000025
若d2与d更相似则
Figure FDA0004006262300000026
然后将
Figure FDA0004006262300000027
与真实标签y进行比较,计算得到准确率、精确率、召回率和F1分数。
6.根据权利要求1所述一种基于解耦法律要素的法律文本表示方法,其特征在于,所述步骤6中,将文本表示模型应用于法研杯法律要素识别任务中,所述法律要素识别任务数据集包含三类法律裁定文书,分别是关于借贷、婚姻和劳动的法律裁定文书;对于每类法律裁定文书定义20个法律要素,并且法律裁定文书中的每句话都进行相关法律要素标注;对于每类法律裁定文书,选择10个法律要素进行法律要素识别任务,具体步骤如下:
a.对于每类法律裁定文书,为选择的10个法律要素分别构建了训练三元组,测试集为剩下句子的集合,然后根据构建的三元组,使用triplet网络为每个法律要素训练一个文本表示模型,得到一组模型{Gi|i=1,…,10},其中Gi表示文本关于第i个要素的文本表示模型;
b.对于给定的一个句子,分别将其输入到步骤a中训练好的10个模型{Gi|i=1,…,10}中,得到该句子的10个向量表示,然后将这10个向量表示堆叠为一个向量矩阵,输入到一个多标签分类模型中进行法律要素识别;所述多标签分类模型采用的是全连接层加上一个softmax输出层,输出的是一个10维的向量,所述向量的每个维度分别代表该句子包含第i个法律要素的概率;根据训练集的结果,从给定的阈值范围(0-1)中,为每个法律要素选择了一个马修斯相关系数最高的值作为最佳阈值,第i个法律要素的概率超过设定的阈值则认为该句子包含该法律要素;
c.将测试集输入到步骤a训练好的10个模型中,得到测试集句子的10个向量表示,再将10个向量表示堆叠输入到步骤b训练好的多标签分类器中,输出预测结果。
CN202110208467.5A 2021-02-25 2021-02-25 一种基于解耦法律要素的法律文本表示方法 Active CN112950414B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110208467.5A CN112950414B (zh) 2021-02-25 2021-02-25 一种基于解耦法律要素的法律文本表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110208467.5A CN112950414B (zh) 2021-02-25 2021-02-25 一种基于解耦法律要素的法律文本表示方法

Publications (2)

Publication Number Publication Date
CN112950414A CN112950414A (zh) 2021-06-11
CN112950414B true CN112950414B (zh) 2023-04-18

Family

ID=76246053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110208467.5A Active CN112950414B (zh) 2021-02-25 2021-02-25 一种基于解耦法律要素的法律文本表示方法

Country Status (1)

Country Link
CN (1) CN112950414B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254651B (zh) * 2021-06-28 2021-11-02 人民法院信息技术服务中心 一种裁判文书的分析方法、装置、计算机设备及存储介质
CN113536780A (zh) * 2021-06-29 2021-10-22 华东师范大学 一种基于自然语言处理的企业破产案件智能辅助判案方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633458A (zh) * 2018-06-25 2019-12-31 阿里巴巴集团控股有限公司 裁判文书的生成方法和生成装置
CN111008262A (zh) * 2019-11-24 2020-04-14 华南理工大学 一种基于知识图谱的律师评估方法和推荐方法
WO2020114373A1 (zh) * 2018-12-07 2020-06-11 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN112163707A (zh) * 2020-09-30 2021-01-01 北京理工大学 一种基于贝叶斯网络的刑期预测方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10331782B2 (en) * 2014-11-19 2019-06-25 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for automatic identification of potential material facts in documents
CN108241621B (zh) * 2016-12-23 2019-12-10 北京国双科技有限公司 法律知识的检索方法及装置
DE102017216821A1 (de) * 2017-09-22 2019-03-28 Siemens Aktiengesellschaft Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts
CN109165385B (zh) * 2018-08-29 2022-08-09 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN110442684B (zh) * 2019-08-14 2020-06-30 山东大学 一种基于文本内容的类案推荐方法
CN111581967B (zh) * 2020-05-06 2023-08-11 西安交通大学 一种联合LW2V与Triplet网络的新闻主题事件检测方法
CN111597307A (zh) * 2020-05-18 2020-08-28 山西大学 一种基于可解释因果模型的司法判决推理方法
CN112100321B (zh) * 2020-07-31 2022-11-15 东南大学 一种基于网络表示学习的相似案例推荐方法
CN111680504B (zh) * 2020-08-11 2020-11-27 四川大学 法律信息抽取模型及方法及系统及装置及辅助系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633458A (zh) * 2018-06-25 2019-12-31 阿里巴巴集团控股有限公司 裁判文书的生成方法和生成装置
WO2020114373A1 (zh) * 2018-12-07 2020-06-11 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN111008262A (zh) * 2019-11-24 2020-04-14 华南理工大学 一种基于知识图谱的律师评估方法和推荐方法
CN112163707A (zh) * 2020-09-30 2021-01-01 北京理工大学 一种基于贝叶斯网络的刑期预测方法

Also Published As

Publication number Publication date
CN112950414A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN107908671B (zh) 基于法律数据的知识图谱构建方法及系统
CN109284506A (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN111753098A (zh) 一种基于跨媒体动态知识图谱的教学方法及系统
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN110826639B (zh) 一种利用全量数据训练零样本图像分类方法
CN112950414B (zh) 一种基于解耦法律要素的法律文本表示方法
CN114564565A (zh) 面向公共安全事件分析的深度语义识别模型及其构建方法
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN112989033B (zh) 基于情绪类别描述的微博情绪分类方法
CN112559781B (zh) 一种图像检索系统和方法
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
CN113094534B (zh) 一种基于深度学习的多模态图文推荐方法及设备
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN110990670B (zh) 一种成长激励型图书推荐方法及推荐系统
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
Li et al. Mining online reviews for ranking products: A novel method based on multiple classifiers and interval-valued intuitionistic fuzzy TOPSIS
CN115221387A (zh) 一种基于深度神经网络的企业信息整合方法
CN113836891A (zh) 基于多元标注策略的结构化信息抽取方法和装置
Kung et al. Intelligent pig‐raising knowledge question‐answering system based on neural network schemes
CN117131933A (zh) 一种多模态知识图谱建立方法及应用
Sa et al. An English flipped classroom teaching model based on big data analysis
CN113435190B (zh) 一种融合多层次信息抽取和降噪的篇章关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant