CN112347780B - 基于深度神经网络的司法事实查明生成方法、装置、介质 - Google Patents
基于深度神经网络的司法事实查明生成方法、装置、介质 Download PDFInfo
- Publication number
- CN112347780B CN112347780B CN202011357568.0A CN202011357568A CN112347780B CN 112347780 B CN112347780 B CN 112347780B CN 202011357568 A CN202011357568 A CN 202011357568A CN 112347780 B CN112347780 B CN 112347780B
- Authority
- CN
- China
- Prior art keywords
- fact
- vector
- judicial
- court trial
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 238000012512 characterization method Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 90
- 230000006870 function Effects 0.000 claims description 55
- 238000012549 training Methods 0.000 claims description 37
- 230000015654 memory Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012217 deletion Methods 0.000 claims description 7
- 230000037430 deletion Effects 0.000 claims description 7
- 230000010076 replication Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 241000834151 Notesthes Species 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Marketing (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度神经网络的司法事实查明生成方法、装置、介质。本发明针对对话形式的庭审笔录文本数据,利用层次化序列模型提取其特征,获得词级别,句级别和对话级别的向量化表征;然后将事实要素分类任务和缺失事实查明任务作为辅助任务,在多任务学习框架下构建符合司法程序逻辑的事实查明场景;最后将特征提取结果链接组合,在多任务学习框架下利用基于注意力机制的Seq2Seq模型,生成符合庭审记录的司法事实查明结果。本发明将深度序列学习模型应用于司法事实查明自动生成,相比一般文本生成算法,本发明对法律文书中事实性关键信息进行建模,辅助文本生成,有效地保留了原文中事实性要素,保证了生成模型的可控性与可解释性。
Description
技术领域
本发明涉及智能司法辅助处理领域,尤其涉及一种提取保持了庭审笔录对话 结构信息与相关事实要素特征,完成司法事实查明生成的方法。
背景技术
利用自然语言处理技术辅助进行智能司法辅助处理是具有实际应用意义的 一项关键技术,也是自然语言处理技术应用落地的关键领域。相应地,自然语言 处理辅助的文本理解与文本生成已经成为计算机科学与法学学科交叉领域的热 点。
在传统基于深度学习的文本生成算法,一般利用编码器-解码器构成的序列 到序列框架实现。模型通过编码器对源文档的特征进行提取,将之映射到一个高 维空间中的特征向量,再利用解码逐词生成目标文本。但是,这种生成方法忽视 了文本中关键要素和其他文本的区分度,并且在生成目标文本的解码过程中,容 易随着解码序列长度累积更大的误差,得到不尽如人意的生成结果。因此,传统 的方法一般难以取得含有关键信息的生成结果,且无法对结果提供合理解释。
在司法应用领域,法律文件的事实逻辑、可解释性都至关重要,因此本发明 利用了多任务学习方法和层次化特征学习方法有效弥补上述传统文本生成模型 的不足。
发明内容
本发明的目的是克服现有自然语言处理中文本生成技术的不足,提出一种基 于深度神经网络的司法事实查明生成方法,它能够提取保持了关键事实要素信息 的序列化特征,完成裁判文书中事实查明自动生成的方法。本发明具体采用的技 术方案如下:
第一方面,本发明提供了一种基于深度神经网络的司法事实查明生成方法, 其包括如下步骤:
S1:把司法文书中庭审笔录文本与其对应的事实要素标注作为训练数据集, 并利用事实查明中的关键实体信息标注缺失事实;
S2:针对呈对话形式的庭审笔录文本数据,利用层次化序列模型提取其特征, 获得词级别,句级别和对话级别的向量化表征;
S3:将事实要素分类任务和缺失事实查明任务作为辅助任务,在多任务学习 框架下构建符合司法程序逻辑的事实查明场景;
S4:将特征提取结果链接组合,并利用基于注意力机制的Seq2Seq(序列到 序列)模型,生成符合庭审记录的司法事实查明结果;
S5:基于所述训练数据集,通过最小化损失函数对S2~S4构成的网络框架 进行训练,并将训练后的网络框架用于司法文书序列化特征提取与事实查明文本 的自动生成。
在上述方案基础上,各步骤可以采用如下优选的具体方式实现。
作为优选,所述的步骤S1具体包括以下子步骤:
S101:利用正则表达式将事实查明的部分从裁判文书中抽取出来构成训练数 据集,并获取预定义关键事实要素集合F={f0,f1,...,fn-1},其中n为事实要素 数量;
S102:对庭审笔录和预定义的事实要素集合{f0,f1,...,fn-1}进行标注,其中: 对于每个事实要素fi,其都有一个对应的标注值ci∈{-1,0,1}对应了该案件在事 实要素fi上的相关性,ci=-1代表负相关,ci=0代表无关,ci=1代表正相关, i∈{0,…,n-1};对于每个事实要素fi,另存在一个对应的标注值mi∈{0,1}对应 了事实要素是否在庭审笔录中缺失,mi=0代表未缺失,mi=1代表缺失。
进一步的,所述的步骤S2具体包括以下子步骤:
S201:使用词嵌入层对分词后的庭审笔录进行建模,对庭审笔录中任意第j 个单词xij得到一个词向量表征进而对于每次发言/>对应的得到一个向量集合/>其中ni为庭审笔录中 单次发言中的单词总数;对于整篇庭审笔录中由N+1次发言构成的发言集合{U0,U1,...,UN},对应的得到N+1次发言的特征向量集合/>
S202:使用基于深度层级长短时记忆模型对庭审笔录的对话结构进行建模, 其中:在发言级别,由一层双向长短时记忆模型对单个发言的特征向量进行建模, 对单词xij得到词级别的隐状态向量对发言Ui得到发言级别的向量表示/>这一特征向量保留了单次发言内容信息,但不包含上下文信息;
S203:对于每一次发言Ui,都对应一个发言角色ri,候选的发言角色包括审 判长、被告、原告,通过嵌入层对角色信息进行建模后,对每类候选角色得到一 个角色向量表示再通过将发言向量表示/>和其对应的角色向量/>相 加,得到包含角色信息的发言向量表示;
S204:使用基于自注意力机制的Transformer层对于庭审的全局信息建模, 以所述包含角色信息的发言向量表示作为输入,得到表示包含上下文信息与角色 信息的发言向量序列
进一步的,其特征在于,所述的步骤S3具体包括以下子步骤:
S301:将步骤S2中得到的作为整个庭审笔录的特征向量表示,用作 事实要素分类任务的输入向量;
S302:使用基于一层卷积神经网络的编码器对事实要素的标签文本进行建模, 得到一组事实要素的特征向量表示
S303:使用一层全连接神经网络将庭审笔录的特征表示映射到事实要 素相关性标签空间,对每个事实要素得到相关性的预测标签值/>训练数据中单 次发言的相关性损失函数L(c,cp)采用折页损失函数;
S304:将事实要素的特征向量和其对应的相关性预测结果进行加权,得到与 案件相关的事实要素表示使用自注意力层和全连接层对事实要 素的相关性特征向量/>序列建模并进行分类,通过挖掘事实要素的内在关 系和预测结果得到缺失事实的预测/>训练数据中单次发言的缺失事实损失函 数L(m,mp)采用折页损失函数。
进一步的,训练数据中单次发言的相关性损失函数L(c,cp)计算公式为:
其中:max(,)表示取最大值操作。
进一步的,训练数据中单次发言的缺失事实损失函数L(m,mp)计算公式为:
进一步的,所述的步骤S4具体包括以下子步骤:
S401:通过带注意力机制的循环神经网络LSTM作为解码器,对步骤S1~S3 中对庭审笔录的建模结果做解码,使得神经网络在序列到序列框架下能够拟合裁 判文书中的事实认定结果{y0,y1,...,yM};
S402:在解码器的每一个时间步t,计算解码器隐藏单元st在输入庭审笔录 上的注意力attention(,)表示计算注意力操作;并通 过加权的编码器隐藏状态计算上下文向量/>其表示了与时间步t 相关的源文本信息;
S403:在解码器的每一个时间步t,计算解码器隐藏单元st在事实要素上的 注意力并通过加权的事实要素相关向量计算事实要素 相关向量其表示了与时间步t相关的事实要素信息;
S404:结合解码器隐藏单元st、上下文向量ct、事实要素相关向量计算 时间步t的生成词概率分布/>其中Linear(·) 表示线性层运算;利用基于注意力机制的复制方法解决词表之外的词可能产生的 问题,预测标量pgen代表从词表中生成的概率,对应的复制概率为1-pgen,并 结合Pvocab得到最终的生成结果概率:
其中:Φ表示词w在输入文本中出现的位置的集合;表示时间步t中词i 在输入庭审笔录上的注意力;Pvocab(w)表示概率分布Pvocab中生成词w的概率;
S405:使用交叉熵损失函数计算事实查明文本的生成序列和目标序列之间的 误差:其中T表示目标序列的长度;/>表示目标 序列中的第t个单词,/>表示/>在生成序列的第t步生成的概率。
进一步的,所述的步骤S5具体包括以下子步骤:
S501:将文本生成的交叉熵损失函数与辅助任务损失函数联合作为网络框架 训练的总损失函数L,L定义如下:
其中:λ1和λ2均为权重系数,为输入的训练数据中所有发言的损失 函数L(c,cp)的均值,/>为输入的训练数据中所有发言的损失函数 L(m,mp)的均值;
S502:通过最小化总损失函数对网络进行训练,使得网络对事实认定的生成 结果与事实要素的相关性、缺失性预测接近真实结果,训练完毕后得到带事实要 素解释的司法判决事实认定的文本生成模型,用于自动生成司法文书中的事实查 明文本。
第二方面,本发明提供了一种基于深度神经网络的司法事实查明生成装置, 其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如第一方面中任一项方案 所述的基于深度神经网络的司法事实查明生成方法。
第三方面,本发明提供了一种计算机可读存储介质,所述存储介质上存储有 计算机程序,当所述计算机程序被处理器执行时,实现如第一方面中任一项方案 所述的基于深度神经网络的司法事实查明生成方法。
本发明的方法模仿法学专家判案逻辑,重点提取庭审笔录的对话结构化特征 和事实要素相关特征。相比于一般的文本生成算法,本发明强调了事实要素特征 在事实认定生成中的作用,还进一步根据法学专业知识,模仿法官判案逻辑进行 模型构建,使得模型结构更加合理。该模型在一般的文本生成模型基础上进一步 提升了生成文本的质量和可解释性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例 或现有技术描述中所需要的附图做简单地介绍。
图1是基于深度神经网络的司法文书序列化特征提取与事实查明自动生成 流程示意图。
图2是基于深度神经网络的司法文书序列化特征提取与事实查明自动生成 装置示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,一种基于深度神经网络的司法事实查明生成方法,其能够通过 深度神经网络对司法文书进行序列化特征提取,并自动生成事实查明文本。该方 法的具体实现过程包括如下步骤:
S1:把司法文书中庭审笔录文本与其对应的事实要素标注作为训练数据集, 并利用事实查明中的关键实体信息标注缺失事实。
S2:针对呈对话形式的庭审笔录文本数据,利用层次化序列模型提取其特征, 获得词级别,句级别和对话级别的向量化表征。
S3:将事实要素分类任务和缺失事实查明任务作为辅助任务,在多任务学习 框架下构建符合司法程序逻辑的事实查明场景。
S4:将特征提取结果链接组合,并利用基于注意力机制的Seq2Seq(序列到 序列)模型,生成符合庭审记录的司法事实查明结果。
S5:基于所述训练数据集,通过最小化损失函数对S2~S4构成的网络框架 进行训练,并将训练后的网络框架用于司法文书序列化特征提取与事实查明文本 的自动生成。
基于前述构建的训练数据集可以训练该生成网络框架,然后可以将实测输入 训练完成后得到的生成模型中,自动输出相应的司法事实查明文本。实际待查明 的庭审笔录也可以输入该模型中,以输出司法事实查明参考,辅助法官进行裁判 文书撰写。在本实施例中,上述各步骤可以通过以下具体方式实现。
本实施例中,步骤S1具体包括以下子步骤:
S101:利用正则表达式将事实查明的部分从裁判文书中抽取出来构成训练数 据集,并获取由法学专业人士预定义关键事实要素集合F={f0,f1,...,fn-1},其 中n为事实要素数量;
S102:对庭审笔录和预定义的事实要素集合{f0,f1,...,fn-1},交由法学专业 人士进行标注,其中:对于每个事实要素fi,其都有一个对应的标注值 ci∈{-1,0,1}对应了该案件在事实要素fi上的相关性,ci=-1代表负相关,ci=0 代表无关,ci=1代表正相关,i∈{0,…,n-1};对于每个事实要素fi,另存在 一个对应的标注值mi∈{0,1}对应了事实要素是否在庭审笔录中缺失,mi=0代 表未缺失,mi=1代表缺失。
本实施例中,步骤S2具体包括以下子步骤:
S201:使用词嵌入层对分词后的庭审笔录进行建模,对庭审笔录中任意第j 个单词xij得到一个词向量表征进而对于每次发言/>对应的得到一个向量集合/>其中ni为庭审笔录中 单次发言中的单词总数;对于整篇庭审笔录中由N+1次发言构成的发言集合 {U0,U1,...,UN},对应的得到N+1次发言的特征向量集合/>
S202:使用基于深度层级长短时记忆模型(Hierarchical long short-termmemory)对庭审笔录的对话结构进行建模,其中:在发言级别,由一层双向长短 时记忆模型对单个发言的特征向量进行建模,对单词xij得到词级别的隐状态向 量对发言Ui得到发言级别的向量表示/>这一特征向量保留了单次发 言内容信息,但不包含上下文信息;
S203:对于每一次发言Ui,都对应一个发言角色ri,候选的发言角色包括审 判长、被告、原告,通过嵌入层对角色信息进行建模后,对每类候选角色得到一 个角色向量表示再通过将发言向量表示/>和其对应的角色向量/>相 加,得到包含角色信息的发言向量表示;
S204:使用基于自注意力机制的Transformer层对于庭审的全局信息建模, 以所述包含角色信息的发言向量表示作为输入,得到表示包含上下文信息与角色 信息的发言向量序列
本实施例中,步骤S3具体包括以下子步骤:
S301:将步骤S2中得到的作为整个庭审笔录的特征向量表示,用作 事实要素分类任务的输入向量;
S302:使用基于一层卷积神经网络的编码器对事实要素的标签文本进行建模, 得到一组事实要素的特征向量表示
S303:使用一层全连接神经网络将庭审笔录的特征表示映射到事实要 素相关性标签空间,对每个事实要素得到相关性的预测标签值/>为了使得神经 网络预测的相关性标签值和对应标签的真实标签值一致,将多标签下的折页损失 函数(MultilabelHinge Loss)作为训练样本定义的损失函数。因此,训练数据中 单次发言的相关性损失函数L(c,cp)采用折页损失函数,本实施例中相关性损失 函数L(c,cp)计算公式为:
其中:max(,)表示取最大值操作。
S304:将事实要素的特征向量和其对应的相关性预测结果进行加权,得到与 案件相关的事实要素表示使用自注意力层和全连接层对事实 要素的相关性特征向量/>序列建模并进行分类,通过挖掘事实要素的内在 关系和预测结果得到缺失事实的预测/>构建一个目标函数,使得神经网络预 测的缺失标签和对应标签的真实缺失性相一致,对训练样本定义的损失函数为多 标签下的折页损失函数(MultilabelHinge Loss)。因此,训练数据中单次发言的缺失事实损失函数L(m,mp)采用折页损失函数,本实施例中缺失事实损失函数 L(m,mp)计算公式为:
本实施例中,步骤S4具体包括以下子步骤:
S401:通过带注意力机制的循环神经网络LSTM作为解码器,对步骤S1~S3 中对庭审笔录的建模结果做解码,使得神经网络在序列到序列框架下能够拟合裁 判文书中的事实认定结果{y0,y1,...,yM};
S402:在解码器的每一个时间步t,计算解码器隐藏单元st在输入庭审笔录 上的注意力attention(,)表示计算注意力操作;并通 过加权的编码器隐藏状态计算上下文向量/>其 表示了与时间步t相关的源文本信息;
S403:在解码器的每一个时间步t,计算解码器隐藏单元st在事实要素上的 注意力并通过加权的事实要素相关向量计算事实要素 相关向量其表示了与时间步t相关的事实要素信息;
S404:结合解码器隐藏单元st、上下文向量ct、事实要素相关向量计算 时间步t的生成词概率分布/>其中Linear(·) 表示线性层运算;利用基于注意力机制的复制方法(copy mechanism)解决词表之 外的词(Out-of-vocabulary,OOV)可能产生的问题,预测标量pgen代表从词表中生 成的概率,对应的复制概率为1-pgen,并结合Pvocab得到最终的生成结果概率:
其中:Φ表示词w在输入文本中出现的位置的集合;表示时间步t中词i 在输入庭审笔录上的注意力;fnocab(w)表示概率分布Pvocab中生成词w的概率;
S405:使用交叉熵损失函数计算事实查明文本的生成序列和目标序列之间的 误差:其中T表示目标序列的长度;/>表示目标 序列中的第t个单词,/>表示/>在生成序列的第t步生成的概率。
由此,上述S2~S4步骤的算法实际上构成了一个用于生成事实查明的网络 框架,S5中针对该网络框架进行训练,即可形成事实查明的生成模型。
因此,本实施例中,步骤S5具体包括以下子步骤:
S501:将文本生成的交叉熵损失函数与辅助任务损失函数联合作为网络框架 训练的总损失函数L,L定义如下:
其中:λ1和λ2均为权重系数,为输入的训练数据中所有发言的损失 函数L(c,cp)的均值,/>为输入的训练数据中所有发言的损失函数 L(m,mp)的均值;
S502:通过最小化总损失函数L对网络进行训练,使得网络对事实认定的生 成结果与事实要素的相关性、缺失性预测接近真实结果,训练完毕后得到带事实 要素解释的司法判决事实认定的文本生成模型,用于自动生成司法文书中的事实 查明文本。
上述方法的各步骤中的具体参数可以根据实际进行调整。
本发明的方法模仿法学专家判案逻辑,重点提取庭审笔录的对话结构化特征 和事实要素相关特征。相比于一般的文本生成算法,本发明强调了事实要素特征 在事实认定生成中的作用,还进一步根据法学专业知识,模仿法官判案逻辑进行 模型构建,使得模型结构更加合理。该模型在一般的文本生成模型基础上进一步 提升了生成文本的质量和可解释性。
在本发明中,上述基于深度神经网络的司法文书序列化特征提取与事实查明 自动生成方法可以用于法院的辅助司法判决,辅助基层法官对庭审笔录中事实相 关信息做出快速准确的判断并撰写相应的事实查明,提高法官的判案水平。当然, 该方法也可以用于作为法学教育、科研用途,利用该方法的事实要素分类结果与 事实查明生成结果进行辅助教学或者相关研究。
在另一实施例中,本发明还提供了一种基于深度神经网络的司法文书序列化 特征提取与事实查明自动生成装置,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现前述S1~S5中的基于深 度神经网络的司法文书序列化特征提取与事实查明自动生成方法。
同样的,本发明还提供了一种计算机可读存储介质,该存储介质上存储有计 算机程序,当所述计算机程序被处理器执行时,实现前述S1~S5中的基于深度 神经网络的司法文书序列化特征提取与事实查明自动生成方法。
本发明中,存储器可以包括随机存取存储器(Random Access Memory,RAM), 也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit, CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit, ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编 程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。当然,还装置中还应 当具有实现程序运行的必要组件,例如电源、通信总线等等。
需要注意的是,上述计算机程序本质上可以相应的功能模块形式来实现。为 了进一步加深理解,下面给出一实施例中实现上述功能所需的功能模块,但需要 指出的是这仅仅是一种可行的实现形式,并非唯一的实现形式。如图2所示,该 实施例中的功能模块包括:
数据处理模块,用于把庭审笔录、裁判文书等法律文书结合事实要素集合的 标注结果作为训练数据集,并利用中文分词工具、当事人姓名数据库对文本数据 进行分词和归一化处理;
特征提取模块,用于对庭审的对话结构化数据进行层级序列化的特征抽取, 通过利用LSTM、Transformer等模块对特征序列进行处理,得到词、发言、对 话三个级别的向量化特征表示;
分类模块,用于对庭审笔录在事实要素的相关性标注和缺失事实要素标注上 作多标签分类,并利用注意力机制增强要素相关性的认定,从而在模型中融合案 件事实要素的法律专业知识,并增强生成事实查明的可解释性;
生成模块,用于在Seq2Seq模型中作为解码器,结合源文本上下文信息和分 类结果对裁判文书中的事实查明作生成,利用事实要素标注分类与缺失事实查明 作为辅助任务,增强模型学习结果的鲁棒性。
其中,数据处理模块包括:
数据获取子模块:用于将司法原始数据处理为文本、分类标签的数据格式。 通过语音到文字识别系统(ASR)得到庭审的笔录数据U={u0,u1,...,uN},并通过 正则表达式抽取其对应裁判文书中的事实认定数据Y={y0,y1,...,yM}。根据标注 事实要素标签的出现频率,筛选出对于事实认定重要且出现频率较高的事实要素 集合F={f0,f1,...,fn},并抽取每个fi其对应的相关性标签结果ci和事实缺失性标 签结果mi;
数据清洗子模块:用于将原始数据处理为可以用作训练数据集的形式。通过jieba中文分词工具对庭审笔录数据和事实认定数据作中文分词处理,并通过从 当事人姓名数据库中匹配各个案件的原告、被告姓名,将实际的姓名替换为原告、 被告的特殊符号。
其中,特征提取模块包括:
LSTM发言级建模子模块:用于将单个发言中的词向量序列输入循环神经网络LSTM进行建模,网络输出层输出一 个特征向量/>将特征向量/>用于作为发言级别的向量表示,这一特征向 量保留了不包含上下文信息的单次发言内容信息;
Transformer对话级建模子模块:用于将发言特征向量序列输入Transformer 网络进行建模,网络输出层输出一个特征向量序列这一特征向量序列表示包含上下文信息与角色信息的发言向量序列。
其中,分类模块包括:
事实要素相关性分类子模块:用于对庭审特征向量在各个要素上的相关性作 出分类预测。利用一层全连接神经网络将庭审笔录的特征表示映射到事实 要素相关性标签空间,对每个事实要素得到预测标签值/>通过Softmax函数进 行归一化操作,使输出对应每个标签相关性的概率值,并用折页损失函数作为分 类的目标函数;
事实要素缺失性分类子模块:用于对事实要素向量及其相关性预测中的事实 缺失性作出分类预测。使用基于一层卷积神经网络的编码器对事实要素的标签文 本进行建模,得到一组对事实要素的特征向量表示将事 实要素的特征向量和其对应的相关性预测结果进行加权,得到与案件相关的事实 要素表示使用自注意力层和全连接层对事实要素的相关性特 征向量/>序列建模并进行分类,通过挖掘事实要素的内在关系和预测结果 得到缺失事实的预测/>经Softmax函数进行归一化操作后得到每个标签缺失 性的概率值,并用折页损失函数作为分类的目标函数。
其中,生成模块包括:
文本解码器模块:用于序列化生成目标文本。通过带注意力机制的循环神经 网络LSTM作为解码器,让生成文本分布能够拟合裁判文书中的事实认定结果 {y0,y1,...,yM}。在解码器的每一个时间步t,计算解码器隐藏单元st在输入庭审 笔录上的注意力并通过加权的编码器隐藏状态计算 表示了与这一时间步相关的源文本信息的上下文向量/> 此外,计算解码器隐藏单元st在事实要素上的注意/> 并通过加权的事实要素相关向量计算表示了与这一时间步 相关的事实要素信息事实要素相关向量/>
生成分布预测模块:用于计算解码器每个时间步在词表上的生成概率分布, 并考虑复制机制,将生成分布和复制分布融合为最终的概率分布。通过结合解码 器隐藏单元st、上下文向量ct、事实要素相关向量计算生成概率分布结合复制源文本的概率分布得到最终的 概率分布为:
网络训练子模块:用于将文本生成的交叉熵损失函数与分类模块中的辅助任 务损失函数联合作为网络训练的损失函数,定义如下:
通过最小化损失函数对网络进行训练,使得网络对事实认定的生成结果与事 实要素的相关性、缺失性预测接近真实结果,训练完毕后得到带事实要素解释的 司法判决事实认定的文本生成模型。
下面利用前述实施例中的基于深度神经网络的司法文书序列化特征提取与 事实查明自动生成方法,通过一个具体的应用实例来展示本发明分类方法的具体 效果。具体的方法步骤如前所述,不再赘述,下面仅展示其具体效果。
实施例
本实施例在某人民法院提供的法律文书数据集上进行测试。该方法主要对案 件数目最多的民间借贷案由的事实查明进行生成。
算法训练和测试中,对45531份案件的庭审、文书相关数据进行了整理。每 份案件对应数据包括庭审笔录的对话数据、裁判文书中抽取的事实查明片段、当 事人列表、基于事实要素的要素相关性标签与事实要素缺失性标签。此外,在整 理过程中,对于事实查明过于简略而导致影响生成模型表现的部分案件数据由法学团队审查并加以剔除。最终得到了30481份案件数据,每份案件数据均已通过 当事人列表将原告、被告姓名做匿名归一化处理。
为了客观评估本算法的性能,使用ROUGE评价指标对该方法进行评价。
所得实验结果如表1所示,结果表明,本发明的分类方法具有较高的事实查 明生成质量。
表1不同方法的生成结果ROUGE评估分数
使用的生成方法 | ROUGE-1 | ROUGE-2 | ROUGE-L |
Seq2Seq-Attn | 44.74 | 22.02 | 34.52 |
PGN | 46.65 | 23.42 | 35.64 |
本方法 | 49.54 | 27.28 | 40.22 |
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做 出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案, 均落在本发明的保护范围内。
Claims (6)
1.一种基于深度神经网络的司法事实查明生成方法,其特征在于,包括如下步骤:
S1:把司法文书中庭审笔录文本与其对应的事实要素标注作为训练数据集,并利用事实查明中的关键实体信息标注缺失事实,具体包括以下子步骤:
S101:利用正则表达式将事实查明的部分从裁判文书中抽取出来构成训练数据集,并获取预定义关键事实要素集合F={f0,f1,...,fn-1},其中n为事实要素数量;
S102:对庭审笔录和预定义的事实要素集合{f0,f1,...,fn-1}进行标注,其中:对于每个事实要素fi,其都有一个对应的标注值ci∈{-1,0,1}对应了案件在事实要素fi上的相关性,ci=-1代表负相关,ci=0代表无关,ci=1代表正相关,i∈{0,…,n-1};对于每个事实要素fi,另存在一个对应的标注值mi∈{0,1}对应了事实要素是否在庭审笔录中缺失,mi=0代表未缺失,mi=1代表缺失;
S2:针对呈对话形式的庭审笔录文本数据,利用层次化序列模型提取其特征,获得词级别,句级别和对话级别的向量化表征,具体包括以下子步骤:
S201:使用词嵌入层对分词后的庭审笔录进行建模,对庭审笔录中任意第j个单词xij得到一个词向量表征进而对于每次发言/>对应的得到一个向量集合/>其中ni为庭审笔录中单次发言中的单词总数;对于整篇庭审笔录中由N+1次发言构成的发言集合{U0,U1,...,UN},对应的得到N+1次发言的特征向量集合/>
S202:使用基于深度层级长短时记忆模型对庭审笔录的对话结构进行建模,其中:在发言级别,由一层双向长短时记忆模型对单个发言的特征向量进行建模,对单词xij得到词级别的隐状态向量对发言Ui得到发言级别的向量表示/>这一特征向量保留了单次发言内容信息,但不包含上下文信息;
S203:对于每一次发言Ui,都对应一个发言角色ri,候选的发言角色包括审判长、被告、原告,通过嵌入层对角色信息进行建模后,对每类候选角色得到一个角色向量表示再通过将发言向量表示/>和其对应的角色向量/>相加,得到包含角色信息的发言向量表示;
S204:使用基于自注意力机制的Transformer层对于庭审的全局信息建模,以所述包含角色信息的发言向量表示作为输入,得到表示包含上下文信息与角色信息的发言向量序列
S3:将事实要素分类任务和缺失事实查明任务作为辅助任务,在多任务学习框架下构建符合司法程序逻辑的事实查明场景,具体包括以下子步骤:
S301:将步骤S2中得到的作为整个庭审笔录的特征向量表示,用作事实要素分类任务的输入向量;
S302:使用基于一层卷积神经网络的编码器对事实要素的标签文本进行建模,得到一组事实要素的特征向量表示
S303:使用一层全连接神经网络将庭审笔录的特征表示映射到事实要素相关性标签空间,对每个事实要素得到相关性的预测标签值/>训练数据中单次发言的相关性损失函数L(c,cp)采用折页损失函数;
S304:将事实要素的特征向量和其对应的相关性预测结果进行加权,得到与案件相关的事实要素表示使用自注意力层和全连接层对事实要素的相关性特征向量/>序列建模并进行分类,通过挖掘事实要素的内在关系和预测结果得到缺失事实的预测/>训练数据中单次发言的缺失事实损失函数L(m,mp)采用折页损失函数;
S4:将特征提取结果链接组合,并利用基于注意力机制的序列到序列模型,生成符合庭审记录的司法事实查明结果,具体包括以下子步骤:
S401:通过带注意力机制的循环神经网络LSTM作为解码器,对步骤S1~S3中对庭审笔录的建模结果做解码,使得神经网络在序列到序列框架下能够拟合裁判文书中的事实认定结果{y0,y1,...,yM};
S402:在解码器的每一个时间步t,计算解码器隐藏单元st在输入庭审笔录上的注意力attention(,)表示计算注意力操作;并通过加权的编码器隐藏状态计算上下文向量/>其表示了与时间步t相关的源文本信息;
S403:在解码器的每一个时间步t,计算解码器隐藏单元st在事实要素上的注意力并通过加权的事实要素相关向量计算事实要素相关向量其表示了与时间步t相关的事实要素信息;
S404:结合解码器隐藏单元st、上下文向量ct、事实要素相关向量计算时间步t的生成词概率分布/>其中Linear(·)表示线性层运算;利用基于注意力机制的复制方法解决OOV问题,预测标量pgen代表从词表中生成的概率,对应的复制概率为1-pgen,并结合Pvocab得到最终的生成结果概率:
其中:Φ表示词w在输入文本中出现的位置的集合;表示时间步t中词i在输入庭审笔录上的注意力;Pvocab(w)表示概率分布Pvocab中生成词w的概率;
S405:使用交叉熵损失函数计算事实查明文本的生成序列和目标序列之间的误差:其中T表示目标序列的长度;/>表示目标序列中的第t个单词,表示/>在生成序列的第t步生成的概率;
S5:基于所述训练数据集,通过最小化损失函数对S2~S4构成的网络框架进行训练,并将训练后的网络框架用于司法文书序列化特征提取与事实查明文本的自动生成。
2.如权利要求1所述的基于深度神经网络的司法事实查明生成方法,其特征在于,训练数据中单次发言的相关性损失函数L(c,cp)计算公式为:
其中:max(,)表示取最大值操作。
3.如权利要求1所述的基于深度神经网络的司法事实查明生成方法,其特征在于,训练数据中单次发言的缺失事实损失函数L(m,mp)计算公式为:
4.如权利要求1所述的基于深度神经网络的司法事实查明生成方法,其特征在于,所述的步骤S5具体包括以下子步骤:
S501:将文本生成的交叉熵损失函数与辅助任务损失函数联合作为网络框架训练的总损失函数L,L定义如下:
其中:λ1和λ2均为权重系数,为输入的训练数据中所有发言的损失函数L(c,cp)的均值,/>为输入的训练数据中所有发言的损失函数L(m,mp)的均值;
S502:通过最小化总损失函数对网络进行训练,使得网络对事实认定的生成结果与事实要素的相关性、缺失性预测接近真实结果,训练完毕后得到带事实要素解释的司法判决事实认定的文本生成模型,用于自动生成司法文书中的事实查明文本。
5.一种基于深度神经网络的司法事实查明生成装置,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1~4任一项所述的基于深度神经网络的司法事实查明生成方法。
6.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1~4任一项所述的基于深度神经网络的司法事实查明生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011357568.0A CN112347780B (zh) | 2020-11-27 | 2020-11-27 | 基于深度神经网络的司法事实查明生成方法、装置、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011357568.0A CN112347780B (zh) | 2020-11-27 | 2020-11-27 | 基于深度神经网络的司法事实查明生成方法、装置、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112347780A CN112347780A (zh) | 2021-02-09 |
CN112347780B true CN112347780B (zh) | 2023-09-12 |
Family
ID=74365849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011357568.0A Active CN112347780B (zh) | 2020-11-27 | 2020-11-27 | 基于深度神经网络的司法事实查明生成方法、装置、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347780B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886435B (zh) * | 2021-12-08 | 2022-03-18 | 国能大渡河大数据服务有限公司 | 一种基于循环神经网络的信息查询方法及系统 |
CN116108171B (zh) * | 2022-12-19 | 2023-10-31 | 中国邮政速递物流股份有限公司广东省分公司 | 基于ai循环神经网络深度学习技术的司法材料处理系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764194A (zh) * | 2018-06-04 | 2018-11-06 | 科大讯飞股份有限公司 | 一种文本校验方法、装置、设备及可读存储介质 |
CN109472722A (zh) * | 2017-09-08 | 2019-03-15 | 北京国双科技有限公司 | 获得待生成裁判文书经审理查明段相关信息的方法及装置 |
CN109933789A (zh) * | 2019-02-27 | 2019-06-25 | 中国地质大学(武汉) | 一种基于神经网络的司法领域关系抽取方法及系统 |
CN110909547A (zh) * | 2019-11-22 | 2020-03-24 | 四川大学 | 一种基于改进深度学习的司法实体识别方法 |
CN111241807A (zh) * | 2019-12-31 | 2020-06-05 | 浙江大学 | 一种基于知识引导注意力的机器阅读理解方法 |
CN111274786A (zh) * | 2020-01-22 | 2020-06-12 | 中国人民大学 | 一种自动量刑的方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9195656B2 (en) * | 2013-12-30 | 2015-11-24 | Google Inc. | Multilingual prosody generation |
-
2020
- 2020-11-27 CN CN202011357568.0A patent/CN112347780B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472722A (zh) * | 2017-09-08 | 2019-03-15 | 北京国双科技有限公司 | 获得待生成裁判文书经审理查明段相关信息的方法及装置 |
CN108764194A (zh) * | 2018-06-04 | 2018-11-06 | 科大讯飞股份有限公司 | 一种文本校验方法、装置、设备及可读存储介质 |
CN109933789A (zh) * | 2019-02-27 | 2019-06-25 | 中国地质大学(武汉) | 一种基于神经网络的司法领域关系抽取方法及系统 |
CN110909547A (zh) * | 2019-11-22 | 2020-03-24 | 四川大学 | 一种基于改进深度学习的司法实体识别方法 |
CN111241807A (zh) * | 2019-12-31 | 2020-06-05 | 浙江大学 | 一种基于知识引导注意力的机器阅读理解方法 |
CN111274786A (zh) * | 2020-01-22 | 2020-06-12 | 中国人民大学 | 一种自动量刑的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112347780A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684440B (zh) | 基于层级标注的地址相似度度量方法 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN109992664B (zh) | 争议焦点的标注分类方法、装置、计算机设备和存储介质 | |
CN110866401A (zh) | 基于注意力机制的中文电子病历命名实体识别方法及系统 | |
CN110263325B (zh) | 中文分词系统 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN112347780B (zh) | 基于深度神经网络的司法事实查明生成方法、装置、介质 | |
CN113204967B (zh) | 简历命名实体识别方法及系统 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111180025A (zh) | 表示病历文本向量的方法、装置及问诊系统 | |
CN114781375A (zh) | 一种基于bert与注意力机制的军事装备关系抽取方法 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
CN112417132A (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN113486178A (zh) | 文本识别模型训练方法、文本识别方法、装置以及介质 | |
CN116432655A (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
CN116189671B (zh) | 一种用于语言教学的数据挖掘方法及系统 | |
CN113377844A (zh) | 面向大型关系型数据库的对话式数据模糊检索方法及装置 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |