CN112307726B - 因果去偏差模型指导的法院观点自动生成方法 - Google Patents
因果去偏差模型指导的法院观点自动生成方法 Download PDFInfo
- Publication number
- CN112307726B CN112307726B CN202011238302.4A CN202011238302A CN112307726B CN 112307726 B CN112307726 B CN 112307726B CN 202011238302 A CN202011238302 A CN 202011238302A CN 112307726 B CN112307726 B CN 112307726B
- Authority
- CN
- China
- Prior art keywords
- court
- fact
- word
- complaints
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000001364 causal effect Effects 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 230000008447 perception Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 19
- 230000003319 supportive effect Effects 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000009223 counseling Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 4
- 238000001303 quality assessment method Methods 0.000 description 3
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Technology Law (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种因果去偏差模型指导的法院观点自动生成方法,属于自然语言生成领域。包括如下步骤:1)根据关键字,将裁判文书按照原告诉请、事实描述以及法院观点进行分割,并对法院观点中的判决结果进行支持与否的标注,以得到训练数据集;2)通过一个诉请感知编码器,先对原告诉请和事实描述分别进行信息抽取,再对事实描述进行一次基于原告诉请的注意力计算,以得到感知了诉请的事实的向量化特征表示;3)利用一对反事实解码器来生成不同判决下的法院观点;4)通过连接一个判决预测器来选择最终的“法院观点”。相比一般的文本生成算法,本发明充分考虑了真实场景中判决结果分布不均匀这一客观事实,并有效地消除了潜在的偏向性。
Description
技术领域
本发明涉及自然语言生成领域,尤其涉及一种因果去偏差模型指导的法院观点自动生成技术。
背景技术
随着机器学习,尤其是自然语言处理技术的兴起,人们提出了很多司法协助系统来从不同角度提高法官的工作效率。比如相关案件检索,法律条文推荐,争议焦点归纳和判决预测生成等。判决预测生成是司法协助系统的关键功能之一,但目前大多数工作仅聚焦在预测最终判决(即将其作为一个简单的分类问题),忽视了法院观点的生成。法院文官是法律文书的重要组成部分,包括了判决和理由,为最终宣判作出解释。
最近,有人研究了刑事案件的法院观点生成问题,但他们仅仅聚焦在基于判决和事实的理由生成上。这在现实中是不可行的,因为理由应该在判决之前得到。同时,与刑事案件不同,民事案件的判决不仅基于查明的事实,还要考虑原告的诉请。换句话说,判决可以认为是对诉请以及事实的回应。
本发明将重点放在通过原告诉请和事实描述进行民事案件中法院观点的自动生成上。法院观点包含理由和判决两个部分,其中民事案件中的判决是对原告诉请的回应,而理由则是从事实描述中进行总结得到。因此,法院观点生成任务可以被定义为一个文本到文本的自然语言生成问题,其输入是原告诉请和事实描述,输出是相应的法院观点。尽管传统的文本生成模型(比如序列到序列模型,基于注意力的模型,以及指针生成网络)已经应用在了许多文本生成任务中,这些模型仍不能直接用于法院观点的生成任务,原因有二:(1)输入(诉请以及事实)与输出(法院观点)之间存在因果关系:一个好的法院观点应该是逻辑自洽的,其中判决应该是对诉请的回应。在民事领域中,原告往往有多个诉请。(2)法院观点中判决结果的不平衡:民事案件中的判决结果可能是非常有偏向性的。举例来说,民间借贷中75%的案例拥有支持性的判决结果,而民间借贷是民事案件最常见的类型。这种不平衡性会使得模型聚焦在被支持的案件上,同时忽视了那些不被支持的案件,从而导致生成的法院观点中出现错误的判决。
发明内容
本发明的目的是克服现有技术的不足,提供一种因果去偏差模型指导的法院观点自动生成技术。相比一般的文本生成算法,本发明充分考虑了真实场景中判决结果分布不均匀这一客观事实,并有效地消除了潜在的偏向性。
本发明的构思是:1)根据关键字,将裁判文书按照“原告诉请”、“事实描述”以及“法院观点”进行分割,并对“法院观点”中的判决结果进行支持与否的标注,以得到训练数据集;2)通过一个诉请感知编码器,先对“原告诉请”和“事实描述”分别进行信息抽取,再对“事实描述”进行一次基于“原告诉请”的注意力计算,以得到感知了诉请的事实的向量化特征表示;3)利用一对反事实解码器来生成不同判决下的“法院观点”;4)通过连接一个判决预测器来选择最终的“法院观点”。
为实现上述发明目的,本发明具体采用的技术方案如下:
一种因果去偏差模型指导的法院观点自动生成方法,其包括如下步骤:
S1:根据关键字,将裁判文书按照原告诉请、事实描述以及法院观点进行分割,并对法院观点中的判决结果进行支持与否的标注,以得到训练数据集;
S2:利用一个诉请感知编码器,对原告诉请和事实描述分别进行信息抽取,并对事实描述进行一次基于原告诉请的注意力计算,以得到感知了诉请的事实描述向量化特征表示;
S3:基于感知了诉请的事实描述向量化特征表示,利用一对反事实解码器来生成不同判决下的法院观点,得到支持性判决下的法院观点和不支持性判决下的法院观点;
S4:基于感知了诉请的事实描述向量化特征表示,通过预测器预测其判决结果,并根据判决结果选择S3中得到的该判决结果下对应的法院观点,作为最终生成的本院观点。
作为优选,所述的S1的具体实现步骤为:
S101:利用关键字,从裁判文书中分别提取出原告诉请、事实描述以及法院观点;其中,原告诉请是一段阐明原告的诉请的描述性语句,其表示为其中/>表示原告诉请中的第t个词,m表示原告诉请中总的词数;事实描述是一段包含法院认定查明的事实的描述性语句,其表示为/>其中/>表示事实描述中的第t个词,n表示事实描述中总的词数;法院观点包括理由和判决两个部分,理由是与诉请相关的事实总结,是判决的依据,而判决是对原告诉请的支持与否,其表示为/>其中/>表示法院观点中的第t个词,l表示法院观点中总的词数;
S102:获取每个法院观点v对应的判决u,其中u=1表示支持,u=0表示不支持;
S103:将每个用来训练与测试的样本表示为四元组(c,f,v,u),并构建成训练数据集。
作为优选,所述的S2的具体实现步骤为:
S201:对于输入编码器的原告诉请词序列c和事实描述词序列f,首先将每个词映射成由300维向量表示的词嵌入,然后将这两个词嵌入序列各自通过一个双向LSTM,得到两个分别对应原告诉请与事实描述的隐藏状态序列hc和hf;
S202:利用诉请感知的注意力机制来合并hc和hf,其中对于每个隐藏状态hfi,诉请注意力分布qi通过如下公式计算得到:
qi=softmax(ei)
其中表示原告诉请中的第j个词对于事实描述中第i个词的初始权重;ei为事实描述中第i个词的初始权重分布;v,Wh,Ws,battn均为需要学习的参数;
基于诉请注意力分布计算新的事实描述为:
其中表示原告诉请中的第j个词相对于事实描述中第i个词的最终权重;hcj表示hc的第j个元素;
S203:将新的事实描述通过另一个双向LSTM层后,得到输入的最终表达h,作为感知了诉请的事实描述向量化特征表示。
作为优选,所述的S3的具体实现步骤为:
S301:构建一对由两个解码器组成的反事实解码器,两个解码器的结构相同,分别用于生成支持性判决下的法院观点和不支持性判决下的法院观点;
S302:每个解码器中,首先计算词的概率分布;其中在解码的当前第t步,给定编码器输出的最终表达h和解码器的当前状态st,通过注意力机制计算得到注意力分布at,再根据h和at的加权和获得上下文向量
其中表示注意力分布at中的第i个元素;
将作为输入对于当前步的表达,其与st连接后,再通过一个线性层,得到词的初始概率分布pvocab:
其中V,V′,b,b′都是需要学习的参数;
S303:每个解码器中,利用生成概率方法解决未登录词问题;其中给定上下文向量和解码器状态st,以及解码器的输入xt,所述生成概率Pgen通过如下公式得到:
其中,wh*,ws,wx以及bptr都是需要学习的参数,上标T表示转置,σ是Sigmoid函数;
最终解码器生成法院观点时一个词w的生成概率为:
其中pvocab(w)表示初始概率分布pvocab中词w的概率;Φ表示词w在事实描述中出现的位置的集合。
作为优选,所述的S4的具体实现步骤为:
S401:构建用于预测判决结果的预测器,将感知了诉请的事实描述向量化特征表示h作为预测器的输入,预测器会通过一个全连接层和一个Softmax层来得到支持的可能性Psup,得到预测的判决u;
S402:如果u=1,则选择反事实解码器中生成的支持性判决下的法院观点作为最终生成的本院观点,否则选择不支持性判决下的法院观点作为最终生成的本院观点。
作为优选,所述的裁判文书为民事案件裁判文书,其中原告诉请具有一个或多个。
作为优选,根据S401中得到的可能性Psup,通过设置可能性阈值来得到预测的判决u:
作为优选,所述的S4中,对于预测器,在训练过程中使用交叉熵作为损失函数:
其中是真实的判决。
作为优选,所述的S3中,对于解码器,使用第t-1步正确的输出计算第t步的输出其损失函数是:
随后得到所有步骤的损失函数为:
其中T是真实法院观点的长度;
对于用于生成支持性判决下的法院观点的解码器,其损失函数为:
对于用于生成不支持性判决下的法院观点的解码器,其损失函数为:
因此反事实解码器的总的损失函数:
作为优选,λ取值为0.1。
本发明与背景技术相比,具有的有益的效果是:
本发明从因果的角度研究了民事案件的法院观点生成任务,并指出了数据中要素之间的因果关系以及判决结果中的不平衡性。由此,本发明提出了一种新颖的方法,同时优化了一个诉请感知编码器,一对能分别生成不同判决下法院观点的反事实解码器以及一个判决预测器。实践结果表明了本发明所提出方法的优越性能。本发明也可以被直接用在其他遇到了数据偏向性或类别不平衡问题的自然语言生成任务中。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的因果去偏差模型指导的法院观点自动生成技术流程示意图。
图2是本发明实施例提供的法院观点生成模型逻辑图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了解决现有技术中存在的问题,本发明实施例提供了一种因果去偏差模型指导的法院观点自动生成方法,如图1所示,包括如下步骤:
S1:根据关键字,将裁判文书按照原告诉请、事实描述以及法院观点进行分割,并对法院观点中的判决结果进行支持与否的标注,以得到训练数据集。
在本实施例中,S1的具体实现步骤为:
S101:提取大量裁判文书中原告诉请、事实描述以及法院观点部分常见的关键字,分别构建相应的关键字库。然后利用这些关键字,从裁判文书中分别提取出原告诉请、事实描述以及法院观点;其中,原告诉请是一段阐明原告的诉请的描述性语句,其表示为其中/>表示原告诉请中的第t个词,m表示原告诉请中总的词数;事实描述是一段包含法院认定查明的事实的描述性语句,其表示为/>其中/>表示事实描述中的第t个词,n表示事实描述中总的词数;法院观点包括理由和判决两个部分,理由是与诉请相关的事实总结,是判决的依据,而判决是对原告诉请的支持与否,其表示为其中/>表示法院观点中的第t个词,l表示法院观点中总的词数。
下面表1展示了本发明实施例中的其中一份判决书的案件分割示例,其中上标部分表示不同分割部分的标注。
表1示例中的案件分割结果
S102:获取每个法院观点v对应的判决u,其中u=1表示支持,u=0表示不支持;
S103:将每个用来训练与测试的样本表示为四元组(c,f,v,u),并构建成训练数据集。
S2:利用一个诉请感知编码器,对原告诉请和事实描述分别进行信息抽取,并对事实描述进行一次基于原告诉请的注意力计算,以得到感知了诉请的事实描述向量化特征表示。
在本实施例中,S2的具体实现步骤为:
S201:对于输入编码器的原告诉请词序列c和事实描述词序列f,首先将每个词映射成由300维向量表示的词嵌入,然后将这两个词嵌入序列各自通过一个双向LSTM,得到两个分别对应原告诉请与事实描述的隐藏状态序列hc和hf;
S202:利用诉请感知的注意力机制来合并hc和hf,其中对于每个隐藏状态hfi,诉请注意力分布qi通过如下公式计算得到:
qi=softmax(ei)
其中表示原告诉请中的第j个词对于事实描述中第i个词的初始权重;ei为事实描述中第i个词的初始权重分布;v,Wh,Ws,battn均为需要学习的参数。这个注意力分布是原告诉请中每个词对于事实描述中某个词的重要性分布。
基于诉请注意力分布计算新的事实描述为:
其中表示原告诉请中的第j个词相对于事实描述中第i个词的最终权重;hcj表示hc的第j个元素;
S203:将新的事实描述通过另一个双向LSTM层后,得到输入的最终表达h,作为感知了诉请的事实描述向量化特征表示。
S3:基于感知了诉请的事实描述向量化特征表示,利用一对反事实解码器来生成不同判决下的法院观点,得到支持性判决下的法院观点和不支持性判决下的法院观点。
在本实施例中,S3的具体实现步骤为:
S301:为消除数据偏差性的影响,构建一对由两个解码器组成的反事实解码器,两个解码器的结构相同,分别用于生成支持性判决下的法院观点和不支持性判决下的法院观点。两个解码器的内部流程相同,具体参见S302~S303,但其训练数据不同因此可以给出相反的判决结果下的法院观点。
S302:每个解码器中,首先计算词的概率分布;其中在解码的当前第t步,给定编码器输出的最终表达h和解码器的当前状态st,通过注意力机制计算得到注意力分布at,再根据h和at的加权和获得上下文向量
其中表示注意力分布at中的第i个元素;
将作为输入对于当前步的表达,其与st连接后,再通过一个线性层,得到词的初始概率分布pvocab:
其中V,V′,b,b′都是需要学习的参数;
S303:每个解码器中,利用生成概率方法解决未登录词问题。其具体做法如下:给定上下文向量和解码器状态st,以及解码器的输入(上一步的输出)xt,所述生成概率Pgen通过如下公式得到:
其中,wh*,ws,wx以及bptr都是需要学习的参数,上标T表示转置,σ是Sigmoid函数;
最终解码器生成法院观点时一个词w的生成概率为:
其中pvocab(w)表示初始概率分布pvocab中词w的概率;Φ表示词w在事实描述中出现的位置的集合。
S4:基于感知了诉请的事实描述向量化特征表示,通过预测器预测其判决结果,并根据判决结果选择S3中得到的该判决结果下对应的法院观点,作为最终生成的本院观点。
在本实施例中,S4的具体实现步骤为:
S401:构建用于预测判决结果的预测器,将感知了诉请的事实描述向量化特征表示h作为预测器的输入,预测器会通过一个全连接层和一个Softmax层来得到支持的可能性Psup,得到预测的判决u。在本实施例中可能性Psup,通过设置可能性阈值来得到预测的判决u,此处阈值设置为0.5:
当然,在其他实施例中可能性阈值也可以根据需要进行优化。
S402:如果u=1,则选择反事实解码器中生成的支持性判决下的法院观点作为最终生成的本院观点,否则选择不支持性判决下的法院观点作为最终生成的本院观点。
需要注意的是,若裁判文书为民事案件裁判文书,其中原告诉请具有一个或多个。
另外,上述S1~S4中,整体框架如图2所示,其中的诉请感知编码器、反事实解码器以及预测器均需要进行训练优化。
对于预测器,在训练过程中使用交叉熵作为损失函数:
其中是真实的判决。
对于解码器,使用第t-1步正确的输出计算第t步的输出其损失函数是:
随后得到所有步骤的损失函数为:
其中T是真实法院观点的长度;
对于用于生成支持性判决下的法院观点的解码器,其损失函数为:
对于用于生成不支持性判决下的法院观点的解码器,其损失函数为:
因此,反事实解码器的总的损失函数:
其中,λ为权重系数,此处取值为0.1。
本发明中,反事实解码器由两个解码器组成,一个用于支持性判决的法院观点生成,一个用于不支持性判决的法院观点生成,其背后的本质是建立因果模型,利用后门调整方法,消去数据集与事实的虚假联系,以解决数据中要素之间的因果关系以及判决结果中的不平衡性问题。通过上述过程,本发明可以自动生成法院观点,其中一个示例的生成结果见表2所示。
表2法院观点生成模型效果
由此可见本发明的生成结果与法院的真实观点基本一致,能够符合应用要求。
下面利用上述因果去偏差模型指导的法院观点自动生成技术,通过一个具体的应用实例来展示本发明生成方法的具体效果。具体的步骤如S1~S4所述,不再赘述,主要展示其具体效果。
实施例
本实施例在民间借贷裁判文书数据集上进行训练与测试。
首先通过以下步骤处理裁判文书数据集。
1)根据关键词分割法律文书为三个部分:原告诉请,事实描述以及法院观点。
2)人工标注,对法院观点中的判决进行标注(支持或者不支持)。
3)按照8:1:1的比例,将数据集分为了训练集、验证集和测试集,并保持了每个集合中的支持率为75%。
为了客观评估算法的性能,使用如下方法进行评价:
1)ROUGE。该指标将生成结果与参考结果进行比较。使用官方的ROUGE脚本,并保留ROUGE-1,ROUGE-2和ROUGE-L的结果。
2)BLEU。BLEU是一种自动文本生成质量评估方法,与人工评估高度相似。
3)法院观点中判决生成正确率。为了更好地显示结果,分别计算支持案例和不支持案例的F_1分数。
4)判决预测正确率。与判决生成正确率相似,分别计算支持案例与不支持案例的F_1分数,以衡量预测器的效果。
所得实验结果如表3和表4所示,结果表明,本发明的生成方法具有较高的文本质量和判决正确率。
表3法院观点生成质量评估
表4判决预测器预测质量评估
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (7)
1.一种因果去偏差模型指导的法院观点自动生成方法,其特征在于,包括如下步骤:
S1:根据关键字,将裁判文书按照原告诉请、事实描述以及法院观点进行分割,并对法院观点中的判决结果进行支持与否的标注,以得到训练数据集,其具体实现步骤为:
S101:利用关键字,从裁判文书中分别提取出原告诉请、事实描述以及法院观点;其中,原告诉请是一段阐明原告的诉请的描述性语句,其表示为其中/>表示原告诉请中的第t个词,m表示原告诉请中总的词数;事实描述是一段包含法院认定查明的事实的描述性语句,其表示为/>其中/>表示事实描述中的第t个词,n表示事实描述中总的词数;法院观点包括理由和判决两个部分,理由是与诉请相关的事实总结,是判决的依据,而判决是对原告诉请的支持与否,其表示为/>其中/>表示法院观点中的第t个词,l表示法院观点中总的词数;
S102:获取每个法院观点v对应的判决u,其中u=1表示支持,u=0表示不支持;
S103:将每个用来训练与测试的样本表示为四元组(c,f,v,u),并构建成训练数据集;
S2:利用一个诉请感知编码器,对原告诉请和事实描述分别进行信息抽取,并对事实描述进行一次基于原告诉请的注意力计算,以得到感知了诉请的事实描述向量化特征表示,其具体实现步骤为:
S201:对于输入编码器的原告诉请词序列c和事实描述词序列f,首先将每个词映射成由300维向量表示的词嵌入,然后将这两个词嵌入序列各自通过一个双向LSTM,得到两个分别对应原告诉请与事实描述的隐藏状态序列hc和hf;
S202:利用诉请感知的注意力机制来合并hc和hf,其中对于每个隐藏状态hfi,诉请注意力分布qi通过如下公式计算得到:
qi=softmax(ei)
其中表示原告诉请中的第j个词对于事实描述中第i个词的初始权重;ei为事实描述中第i个词的初始权重分布;v,Wh,Ws,battn均为需要学习的参数;
基于诉请注意力分布计算新的事实描述为:
其中表示原告诉请中的第j个词相对于事实描述中第i个词的最终权重;hcj表示hc的第j个元素;
S203:将新的事实描述通过另一个双向LSTM层后,得到输入的最终表达h,作为感知了诉请的事实描述向量化特征表示;
S3:基于感知了诉请的事实描述向量化特征表示,利用一对反事实解码器来生成不同判决下的法院观点,得到支持性判决下的法院观点和不支持性判决下的法院观点,其具体实现步骤为:
S301:构建一对由两个解码器组成的反事实解码器,两个解码器的结构相同,分别用于生成支持性判决下的法院观点和不支持性判决下的法院观点;
S302:每个解码器中,首先计算词的概率分布;其中在解码的当前第t步,给定编码器输出的最终表达h和解码器的当前状态st,通过注意力机制计算得到注意力分布at,再根据h和at的加权和获得上下文向量
其中表示注意力分布at中的第i个元素;
将作为输入对于当前步的表达,其与st连接后,再通过一个线性层,得到词的初始概率分布pvocab:
其中V,V′,b,b′都是需要学习的参数;
S303:每个解码器中,利用生成概率方法解决未登录词问题;其中给定上下文向量和解码器状态st,以及解码器的输入xt,所述生成概率Pgen通过如下公式得到:
其中,ws,wx以及bptr都是需要学习的参数,上标T表示转置,σ是Sigmoid函数;
最终解码器生成法院观点时一个词w的生成概率为:
其中pvocab(w)表示初始概率分布pvocab中词w的概率;Φ表示词w在事实描述中出现的位置的集合;
S4:基于感知了诉请的事实描述向量化特征表示,通过预测器预测其判决结果,并根据判决结果选择S3中得到的该判决结果下对应的法院观点,作为最终生成的本院观点。
2.如权利要求1所述的因果去偏差模型指导的法院观点自动生成方法,其特征在于,所述的S4的具体实现步骤为:
S401:构建用于预测判决结果的预测器,将感知了诉请的事实描述向量化特征表示h作为预测器的输入,预测器会通过一个全连接层和一个Softmax层来得到支持的可能性Psup,得到预测的判决u;
S402:如果u=1,则选择反事实解码器中生成的支持性判决下的法院观点作为最终生成的本院观点,否则选择不支持性判决下的法院观点作为最终生成的本院观点。
3.如权利要求1所述的因果去偏差模型指导的法院观点自动生成方法,其特征在于,所述的裁判文书为民事案件裁判文书,其中原告诉请具有一个或多个。
4.如权利要求2所述的因果去偏差模型指导的法院观点自动生成方法,其特征在于,根据S401中得到的可能性Psup,通过设置可能性阈值来得到预测的判决u:
5.如权利要求1所述的因果去偏差模型指导的法院观点自动生成方法,其特征在于,所述的S4中,对于预测器,在训练过程中使用交叉熵作为损失函数:
其中是真实的判决。
6.如权利要求1所述的因果去偏差模型指导的法院观点自动生成方法,其特征在于,所述的S3中,对于解码器,使用第t-1步正确的输出计算第t步的输出其损失函数是:
随后得到所有步骤的损失函数为:
其中T是真实法院观点的长度;
对于用于生成支持性判决下的法院观点的解码器,其损失函数为:
对于用于生成不支持性判决下的法院观点的解码器,其损失函数为:
因此反事实解码器的总的损失函数:
7.如权利要求6所述的因果去偏差模型指导的法院观点自动生成方法,其特征在于,λ取值为0.1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011238302.4A CN112307726B (zh) | 2020-11-09 | 2020-11-09 | 因果去偏差模型指导的法院观点自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011238302.4A CN112307726B (zh) | 2020-11-09 | 2020-11-09 | 因果去偏差模型指导的法院观点自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112307726A CN112307726A (zh) | 2021-02-02 |
CN112307726B true CN112307726B (zh) | 2023-08-04 |
Family
ID=74326546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011238302.4A Active CN112307726B (zh) | 2020-11-09 | 2020-11-09 | 因果去偏差模型指导的法院观点自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307726B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255735B (zh) * | 2021-04-29 | 2024-04-09 | 平安科技(深圳)有限公司 | 患者用药方案的确定方法及确定装置 |
CN116450779B (zh) * | 2023-06-16 | 2023-09-12 | 北京搜狐新媒体信息技术有限公司 | 文本生成方法及相关装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017092555A1 (zh) * | 2015-12-01 | 2017-06-08 | 北京国双科技有限公司 | 一种裁判文书中的金额解析方法及装置 |
CN108304386A (zh) * | 2018-03-05 | 2018-07-20 | 上海思贤信息技术股份有限公司 | 一种基于逻辑规则推断法律文书判决结果的方法及装置 |
CN109408630A (zh) * | 2018-10-17 | 2019-03-01 | 杭州世平信息科技有限公司 | 一种根据犯罪事实的描述自动生成法院观点的方法 |
CN110889786A (zh) * | 2019-12-02 | 2020-03-17 | 北明软件有限公司 | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 |
CN111046670A (zh) * | 2019-12-09 | 2020-04-21 | 大连理工大学 | 基于毒品案件法律文书的实体及关系联合抽取方法 |
CN111260114A (zh) * | 2020-01-08 | 2020-06-09 | 昆明理工大学 | 融入案件辅助句的低频和易混淆罪名预测方法 |
CN111597307A (zh) * | 2020-05-18 | 2020-08-28 | 山西大学 | 一种基于可解释因果模型的司法判决推理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10685050B2 (en) * | 2018-04-23 | 2020-06-16 | Adobe Inc. | Generating a topic-based summary of textual content |
-
2020
- 2020-11-09 CN CN202011238302.4A patent/CN112307726B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017092555A1 (zh) * | 2015-12-01 | 2017-06-08 | 北京国双科技有限公司 | 一种裁判文书中的金额解析方法及装置 |
CN108304386A (zh) * | 2018-03-05 | 2018-07-20 | 上海思贤信息技术股份有限公司 | 一种基于逻辑规则推断法律文书判决结果的方法及装置 |
CN109408630A (zh) * | 2018-10-17 | 2019-03-01 | 杭州世平信息科技有限公司 | 一种根据犯罪事实的描述自动生成法院观点的方法 |
CN110889786A (zh) * | 2019-12-02 | 2020-03-17 | 北明软件有限公司 | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 |
CN111046670A (zh) * | 2019-12-09 | 2020-04-21 | 大连理工大学 | 基于毒品案件法律文书的实体及关系联合抽取方法 |
CN111260114A (zh) * | 2020-01-08 | 2020-06-09 | 昆明理工大学 | 融入案件辅助句的低频和易混淆罪名预测方法 |
CN111597307A (zh) * | 2020-05-18 | 2020-08-28 | 山西大学 | 一种基于可解释因果模型的司法判决推理方法 |
Non-Patent Citations (1)
Title |
---|
基于几何特征与LSTM网络结合的动作识别算法;邬倩等;《传感器与微系统》;第111-114页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112307726A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033229B (zh) | 问答处理方法和装置 | |
CN106547871B (zh) | 基于神经网络的搜索结果的召回方法和装置 | |
CN110377740B (zh) | 情感极性分析方法、装置、电子设备及存储介质 | |
CN112347244B (zh) | 基于混合特征分析的涉黄、涉赌网站检测方法 | |
CN102262647B (zh) | 信息处理装置、信息处理方法和程序 | |
CN108334489B (zh) | 文本核心词识别方法和装置 | |
EP4016375A1 (en) | Video classification method, device and system | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN112307726B (zh) | 因果去偏差模型指导的法院观点自动生成方法 | |
CN109496334A (zh) | 用于评估语音质量的设备和方法 | |
CN107436916B (zh) | 智能提示答案的方法及装置 | |
CN110717324A (zh) | 裁判文书答案信息提取方法、装置、提取器、介质和设备 | |
Zhu et al. | Identification and detection of human trafficking using language models | |
US20160170993A1 (en) | System and method for ranking news feeds | |
KR102334236B1 (ko) | 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용 | |
CN109670050A (zh) | 一种实体关系预测方法及装置 | |
CN115048586B (zh) | 一种融合多特征的新闻推荐方法及系统 | |
CN106294797A (zh) | 一种视频基因的生成方法和装置 | |
JPWO2015030112A1 (ja) | データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 | |
Guo et al. | Measuring media bias via masked language modeling | |
KR20150054355A (ko) | 감정 사전 구축 장치 및 감정 사전 구축 방법 | |
Rama et al. | LSTM autoencoders for dialect analysis | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN111291189A (zh) | 一种文本处理方法、设备及计算机可读存储介质 | |
CN115062135B (zh) | 一种专利筛选方法与电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |