CN111582576B - 一种基于多尺度特征融合和门控单元的预测系统及方法 - Google Patents
一种基于多尺度特征融合和门控单元的预测系统及方法 Download PDFInfo
- Publication number
- CN111582576B CN111582576B CN202010373496.2A CN202010373496A CN111582576B CN 111582576 B CN111582576 B CN 111582576B CN 202010373496 A CN202010373496 A CN 202010373496A CN 111582576 B CN111582576 B CN 111582576B
- Authority
- CN
- China
- Prior art keywords
- prediction
- criminal
- representing
- result
- law
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000004927 fusion Effects 0.000 title claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 56
- 239000013598 vector Substances 0.000 claims description 30
- 230000002457 bidirectional effect Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 210000004027 cell Anatomy 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000010304 firing Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000003960 organic solvent Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000013107 unsupervised machine learning method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Technology Law (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Burglar Alarm Systems (AREA)
Abstract
本发明公开了一种基于多尺度特征融合和门控单元的预测系统及方法,通过案情描述、法律条文信息、法条名称信息进行有组织的多尺度嵌入和特殊的门控单元,克服了现有技术在法律判决预测中针对案情描述信息分析的缺点与不足。本发明可以有效的将多项预测内容进行巧妙的结合,只需要明确预测内容的拓扑顺序,同时取出每一步的预测结果与预测依据信息,增强了司法领域的可解释性;本发明使用的属性提取功能在排除噪声的同时,有效的提升犯罪特征预测性能和泛用性,使其可以更好地标注出案情描述中的关键点。
Description
【技术领域】
本发明属于辅助判决预测技术领域,涉及一种基于多尺度特征融合和门控单 元的预测系统及方法。
【背景技术】
目前,司法工作者的工作量巨大。事实上,一名司法工作者审结一起案件要 查阅大量的相关材料,需要在长期的工作经验积累下,经过深思熟虑之后,并在 短时间内要完成书写最终的判决书等文本任务。这对于司法工作者来说,无论是 职业能力,还是身体素质,都受到极大的挑战。如果应用基于深度学习的人工智 能方法来处理、解决这些案件,则可以节省大部分人力和物力,极大地提高了其 工作效率并减轻了压力。相关研究表明,智能应用可以减少30%以上的办公桌工 作。在实际调研中发现司法工作者使用的统一判案平台对于法律文书和案卷仅有 人工填写和批注功能,缺乏对于案件内容的智能化关键信息提取和智能化分析。 这表示人工智能在司法领域中的应用还远远不足。
目前的法律判决预测方法主要有以下三种:一是端到端模型,直接将案情描 述输入,通过深度学习模型可以直接预测出罪名、法条等。但是,这种方法没有 对原始的文本内容进行分类输入,导致输入信息间产生混淆;同时忽略了不同罪 名的固有特征,也容易造成混淆罪名。二是全自动化的判决预测模型,直接利用 无监督的机器学习方法从案情描述抽取额外信息。这种方法无法判断抽取信息是 否对判决预测有用,并且实际情况下利用无监督方法抽取的信息无法提取出共同 特征,而且不具有规律性。其中,本文描述中包含的一些无关的形容词,会造成 噪声问题;三是多模型融合方法,例如将深度学习与传统的隐马尔可夫模型进行 融合的,或者将多个深度学习模型进行融合。这种方法可以有效的解决原始案情 信息表达不充分的问题。但是,所提取的特征由于完全来自于原始的案情描述,无法进行额外的信息补充或者人工纠正,导致其初始的信息质量对最终的预测结 果影响较大。综上,现有模型没有兼顾到司法领域中所需要的审判过程的可解释 性以及自然语言处理领域对性能要求的准确性的结合。但是对于司法领域来说, 尽管每一个案例都存在显著的差异,但其中却存在着一些共性的特征。
【发明内容】
本发明的目的在于解决现有技术中的问题,提供一种基于多尺度特征融合和 门控单元的预测系统及方法,通过利用多维特征、多任务关联网络以及特殊的门 控单元联合,实现了法条、罪名、刑期等法律判决的联合预测方法。
为达到上述目的,本发明采用以下技术方案予以实现:
一种基于多尺度特征融合和门控单元的预测系统,包括:
案情描述与特征编码模块,用于采用双重注意力网络对案情描述进行编码, 通过句编码到文章编码递进处理长文本,并使用BERT-Text-CNN属性预测器对 属性信息进行属性预测;
多标签法条预测模块,用于对所有标签进行得分计算,再通过设定阈值表示 对最后留下的法条内容进行法条预测;
多标签罪名预测模块,用于将案情描述和法条内容的信息进行建模对应,最 终将法条标签、含有注意力信息的案情描述和属性同时融入模型,进行多标签罪 名的预测;
刑期预测模块,用于通过设定的门控机制对法条进行过滤,再结合犯罪事实 内容进行最终刑期的决定。
本发明还公开了一种基于多尺度特征融合和门控单元的预测方法,包括以下 步骤:
阶段0:数据预处理与标记
步骤0:将案情描述数据利用分词工具将句子分解为单词序列,并给出每条 案情描述所对应的法条、罪名、刑期标签;
步骤1:对于民法中的多任务判决预测任务定义如下:假设一个案情描述L 是由一个单词序列所构成,即L={x,x1,...,xn},其中每个单词xi来自一个固定词汇 W,且n表示x的长度;对于每个案情描述L,得到其属性集为A={a1,a2,...,a10}, 其中ai表示第i个属性的值,且ai∈{0,1};
阶段1:案情描述与犯罪特征嵌入
步骤2:对于包含n个词语的案情描述L={x1,x2,…,xn},每个词语均被表示为 向量Wi;
xi=WwrdVi (1)
步骤3:使用双向GRU网络对每个句子顺向和逆向都输入一遍,得到两个不 同的隐藏层表示,然后将顺向、逆向的在每一个t时刻的隐藏层表示向量进行拼 接表示;
步骤4:将双向GRU的前向隐藏层和后向隐藏层乘以注意权矩阵,并利用 softmax得到最有效的特征输出表示,且词级输出Sw由下式计算:
uij=tanh(Wwhij+bw) (2)
Sw=∑jαijhij (4)
其中uij表示目标矩阵,i,j表示向量维度,tanh表示激活函数,hij表示词级 隐藏层分量,αij表示词级注意力分量,表示目标矩阵转置,T为转置标记, Ww和bw表示权重矩阵和偏差,cw表示随机初始化矩阵;
步骤6:使用句子层注意力机制从句子集中提取特征,句子集的输出Ss由以 下列公式进行计算:
ui=tanh(Wshi+bs) (6)
Ss=∑iαihi (8)
步骤7:将句子的矩阵表示输入到BERT预训练模型中,进行参数微调,得 到BERT的token-level输出作为编码输入,使用BERT的句子表示矩阵输出;之 后、进行卷积操作,并利用多尺度卷积核提取出相邻词的联合信息和语义;对于 句子矩阵A∈Rs×d,使用A[i:j]表示第i行到第j行的子矩阵;在卷积子矩阵上反复 应用卷积核得到卷积的输出序列o∈Rs -h+1;
o(i)=w*A[i:i+h-1] (9)
其中,i=1...s-h+1,*表示乘法运算;w表示权重矩阵;对于每个卷积结果 表示为:
C(i)=f(o(i)) (10)
选取大小为3、4、5的卷积核,得到不同感受野的数据;将处理后的结果连 接起来后,加入全连接层,使两层网络间所有神经元之间都有权重连接,用于预 测最终的类别;最后得到输出层结果,使用Softmax生成最终的分类结果;将属 性进行维度为dw的嵌入处理,形成属性嵌入矩阵SAttr,并将案情描述嵌入更新为:
其中,β为调节参数,dw为向量维度;并将SFcat作为最终的输入层表示;
阶段2:法条预测
步骤8:应用Softmax函数计算每一篇案件描述文本的分数,首先对SFcat接 入全连接层之后,采用Max-pooling操作,计算方法如下:
其中,Wa和ba代表权重矩阵和偏置;同时,;
步骤9:对于法条预测,根据Sigmoid结果,得到最终的预测结果集 Pa=[Pa1,Pa2,...,PaK];其中PaK∈[0,1];K表示法律条文总数;对于给定阈值τa,取得 分高于阈值的法条信息进行保留,得到最终的预测结果集其中 k≤K;利用交叉熵计算损失,表示为:
其中rak和Pak分别是法条K的事实标签和预测标签,用0、1表示;
阶段3:罪名预测
步骤10:对于案情描述对应的预测法条进行搜索,保留所有预测法条,并找 到预测法条的对应内容,首先对被选择的法条信息进行多核卷积神经网络结构编 码,得到结果为;
其中,SArt表示多个法条对应的嵌入集合,表示第i个法条的嵌入;利用 事实表示序列SFact和法条信息表示序列SArt,使用联合信息辅助实现对最终罪名的 预测任务;因此,本发明采用了一种法条注意力机制来关注输入案情描述中的差 异部分,然后通过加权和案情事实表示进行罪名预测;
步骤11:法条注意力可以描述为将查询和一组键值对映射到输出;因此,使 用SFact和SArt计算键向量和查询向量,如下所示:
将对每个法律条文的注意力分量取最大值,再对所有法律条文的注意力矩阵 取均值,如下所示:
步骤12:将法条名称按照one-hot的形式编码,得到结果为:
之后进行联合预测最终的罪名:
其中,γ为可选参数,为了保持分步均匀;最终将SFL接入全连接层,进行 softmax计算,并且每一项的得分仍用Sigmoid来表示:
其中,Wc和bc表示权重矩阵和偏置量;设定阈值来选择相应的罪名是否加入 结果集;
步骤13:对于罪名预测,根据Sigmoid结果,得到最终的预测结果集 Pc=[Pc1,Pc2,...,PcK];其中,PcK∈[0,1];K表示罪名总数;对于给定阈值τc,将得分 高于阈值的罪名信息进行保留,得到最终的预测结果集其中 k≤K;利用交叉熵计算损失,表示为:
其中,rck和Pck分别是罪名K的事实标签和预测标签,用0、1表示;
阶段4:刑期预测
步骤14:刑期的分类总体可以分为三类:有期徒刑、无期徒刑和死刑;根据 刑期的分布特征,将刑期划分为不同区间;
步骤15:对于法律条文内容进行双向LSTM编码,之后将法条名称也进行编 码,对于每个门控环节利用Sigmoid函数计算出需要进入的信息量,如下式:
其中,SLaw表示法条名称嵌入,表示LSTM中的细胞状态,表示通过门 控单元进入的信息量;W(l)和b(l)表示参数矩阵和偏置;之后利用CNN对输出结 果进行卷积,接入max-pooling层;得到最后的结果集合为其 中,表示预测的第i条法律内容经过上述结构得到的结果;
步骤16:将此结果与之前得到的特征集合再次进行连接,得到结过如下:
其中,δ代表可调节参数,用来使数据分布统一;对所得到的结果进行全连 接后利用softmax函数直接进行分类;
步骤17:对于刑期预测,则根据softmax结果,得到最终的预测结果集 Pt=[Pt1,Pt2,...,PtK];其中,PtK∈[0,1];K表示刑期总数;保留最大项作为最终刑期, 损失采用交叉熵:
其中,rat和Pat分别是法条K的事实标签和预测标签,用0、1表示。
本发明进一步的改进在于:
所述步骤3中,对每个句子顺向为从句子中第一个词向最后一个词递归;对 每个句子逆向为从句子中最后一个词向第一个词递归。
所述步骤8中在预测过程中,只选择得分高于阈值的文本作为真正相关的描 述文本。
与现有技术相比,本发明具有以下有益效果:
本发明提出了一种基于多尺度特征融合和门控单元的法律判决预测方法,通 过案情描述、法律条文信息、法条名称信息进行有组织的多尺度嵌入和特殊的门 控单元,克服了现有技术在法律判决预测中针对案情描述信息分析的缺点与不足。
进一步的,本发明可以有效的将多项预测内容进行巧妙的结合,只需要明确 预测内容的拓扑顺序,同时取出每一步的预测结果与预测依据信息,增强了司法 领域的可解释性;
进一步的,本发明对于结构中多尺度信息的融入时机进行和很好的阐释,例 如法条对于预测罪名预测而言,更需要的是符合法条名称的信息,而对于刑期预 测而言,更需要法条中的具体内容,尤其是关于量刑区间或其他判决内容的规定 信息;
进一步的,本发明具有可拆解性,可将各个部件用于不同的任务中,针对不 同的一项或多项任务进行不同的形态组合。使其具有极强的泛化能力和拓展能力;
进一步的,本发明使用的属性提取功能在排除噪声的同时,有效的提升犯罪 特征预测性能和泛用性,使其可以更好地标注出案情描述中的关键点。
【附图说明】
图1为本发明的架构图;
图2为本发明中使用的BERT单句输入格式;
图3为本发明中使用的BERT-Text-CNN属性预测器;
图4为本发明中罪名区间示意图;
【具体实施方式】
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述 的实施例仅仅是本发明一部分的实施例,不是全部的实施例,而并非要限制本发 明公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免 不必要的混淆本发明公开的概念。基于本发明中的实施例,本领域普通技术人员 在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护 的范围。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按 比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些 细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是 示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人 员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明公开的上下文中,当将一层/元件称作位于另一层/元件“上”时,该 层/元件可以直接位于该另一层/元件上,或者它们之间可以存在居中层/元件。 另外,如果在一种朝向中一层/元件位于另一层/元件“上”,那么当调转朝向时, 该层/元件可以位于该另一层/元件“下”。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、 “第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应 该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例 能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和 “具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系 列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤 或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有 的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
本发明基于多尺度特征融合和门控单元的法律判决预测方法,通过利用多维 特征、多任务关联网络以及特殊的门控单元联合,实现了法条、罪名、刑期等法 律判决的联合预测方法。本发明包括四主要个模块,具体如下:
模块1.案情描述与特征编码模块:由于完整的案情描述是典型的长文本, 长度普遍达到上千字。普通的LSTM或GRU会导致长文本语义丢失,故采用双 重注意力网络对案情描述进行编码,通过句编码到文章编码递进处理长文本问题, 属性信息使用BERT-Text-CNN属性预测器进行属性预测。
模块2.多标签法条预测模块:要针对多标签问题,对所有标签进行得分计 算,再通过设定阈值表示对最后留下的法条内容进行法条预测。
模块3.多标签罪名预测模块:为了成功识别出案情描述中存在的多项罪名, 利用注意力机制,将案情描述和法条内容的信息进行建模对应,最终将法条标签、 含有注意力信息的案情描述和属性同时融入模型,进行多标签罪名的预测。
模块4.刑期预测模块:需要设定特殊的门控机制,刑期的判定必须要遵循 相关法条的规定,通过设定的门控机制对法条进行过滤,再结合犯罪事实内容进 行最终刑期的决定,刑期是单标签分类。
如图1所示,本发明基于多尺度特征融合和门控单元的法律判决预测方法, 包括以下步骤:
阶段0:数据预处理与标记
步骤0:将案情描述数据利用分词工具将句子分解为单词序列,并给出每条 案情描述所对应的法条、罪名、刑期标签;
步骤1:对于民法中的多任务判决预测任务定义如下:假设一个案情描述L 是由一个单词序列所构成,即L={x,x1,...,xn},其中每个单词xi来自一个固定词汇 W,且n表示x的长度。对于每个案情描述L,可以得到其属性集为A={a1,a2,...,a10}, 其中ai表示第i个属性的值,且ai∈{0,1}。基于事实描述L,多任务判决预测T的 任务旨在:预测适用法律条款、罪名、刑期判决结果。形式上,假设T包含T个 子任务,即T={t1,t2,...,t|T|},且第i个子任务ti∈T,而每个子任务ti都是一个分类 任务,则预测结果为:yi∈Y,其中yi是子任务特定的标签集。以罪名预测子任务 为例,对应的标签集包括:盗窃、故意伤害罪、故意杀人罪等不同的罪名。
阶段1:案情描述与犯罪特征嵌入
步骤2:为了捕捉案情描述的句法和语义信息,需要将输入句子中的词语映 射为词向量。对于包含n个词语的案情描述L={x1,x2,…,xn},其中每个词语均被 表示为向量Wi。
xi=WwrdVi (1)
步骤3:使用双向GRU网络对每个句子顺向(从句子中第一个词向最后一个 词递归)和逆向(从句子中最后一个词向第一个词递归)都输入一遍,得到两个 不同的隐藏层表示,然后将顺向、逆向的在每一个t时刻的隐藏层表示向量进行 拼接表示。
步骤4:词级注意力层。将双向GRU的前向隐藏层和后向隐藏层乘以注意权 矩阵,并利用softmax得到最有效的特征输出表示,且输出Sw由下式计算:
uij=tanh(Wwhij+bw) (2)
Sw=∑jαijhij (4)
步骤5:对于双向GRU而言,假设前向得到的隐藏层表示为Hf,后向得到 的隐藏层表示为Hb。需要将前向和后向结果进行拼接操作。之后再次输入到双向 GRU中,得到隐藏层输出。
步骤6:句子级注意力层。使用句子层注意力机制从句子集中提取特征。与 前一层字级别注意力相似,句子集的输出Ss可由以下列公式进行计算:
ui=tanh(Wshi+bs) (6)
Ss=∑iαihi (8)
其中,(m是集合中句子的数量)由来自上一层的输出 {h1,h2,[h1,h2,...,hn],...,hm}形成,Ws和bs是训练参数,并且bs表示偏差,cs为随机初 始化矩阵,αs表示注意力权重矩阵,Ss即表示案情描述L最后的嵌入矩阵。
步骤7:将句子的矩阵表示输入到BERT预训练模型中,进行参数微调。输 入方式如图2所示。得到BERT的token-level输出作为编码输入,使用BERT的 句子表示矩阵输出。之后通过卷积核进行卷积,并利用多尺度卷积核提取出相邻 词的联合信息和语义,具体结构如图3所示。假设有一个参数化卷积核权矩阵w, 其大小为g,w需要训练h×d个参数。而对于句子矩阵A∈Rs×d,使用A[i:j]表示第 i行到第j行的子矩阵。在卷积子矩阵上反复应用卷积核得到卷积的输出序列 o∈Rs-h+1。
o(i)=w*A[i:i+h-1] (9)
其中,i=1...s-h+1,*表示乘法运算。w表示权重矩阵。对于每个卷积结果 可表示为:
C(i)=f(o(i)) (10)
对同一区域使用多个卷积核来提取互补特征,加入最大池化提取最关键部分, 并减少计算量。选取大小为3、4、5的卷积核,得到不同感受野的数据。将处理 后的结果连接起来后,加入全连接层,使两层网络间所有神经元之间都有权重连 接,用于预测最终的类别。最后得到输出层结果,使用Softmax生成最终的分类 结果。将属性进行维度为dw的简单嵌入处理,形成属性嵌入矩阵SAttr,并将案情 描述嵌入更新为:
SFact=Ss⊕βSAttr (11)
其中,β为调节参数,dw为向量维度。并将SFcat作为最终的输入层表示。
阶段2:法条预测
步骤8:为每一篇案件描述文本训练一个分类器是非常耗时的,而且由于文 本数量庞大,很难进行全面概括。因此,应用Softmax函数来计算每一篇案件描 述文本的分数。首先对SFcat接入全连接层之后,进一步采用Max-pooling操作, 计算方法如下:
其中,Wa和ba代表权重矩阵和偏置。为了防止无关文本引入不必要的噪声, 在训练环节提供了真实的相关文本标签。同时,在预测过程中,只选择得分高于 阈值的文本作为真正相关的描述文本。
步骤9:对于法条预测,根据Sigmoid结果,得到最终的预测结果集 Pa=[Pa1,Pa2,...,PaK]。其中PaK∈[0,1]。K表示法律条文总数。对于给定阈值τa,取得 分高于阈值的法条信息进行保留,得到最终的预测结果集其中 k≤K。利用交叉熵计算损失,表示为:
其中rak和Pak分别是法条K的事实标签和预测标签,用0、1表示。
阶段3:罪名预测
步骤10:对于案情描述对应的预测法条进行搜索,保留所有预测法条,并找 到预测法条的对应内容,首先对被选择的法条信息进行多核卷积神经网络结构编 码,得到结果为。
其中,SArt表示多个法条对应的嵌入集合,表示第i个法条的嵌入。利用 事实表示序列SFact和法条信息表示序列SArt,使用联合信息辅助实现对最终罪名的 预测任务。因此,本发明采用了一种法条注意力机制来关注输入案情描述中的差 异部分,然后通过加权和案情事实表示进行罪名预测。
步骤11:法条注意力可以描述为将查询和一组键值对映射到输出。因此,使 用SFact和SArt计算键向量和查询向量,如下所示:
由于需要计算对于多个法律条文的注意力矩阵,将对每个法律条文的注意力 分量取最大值,再对所有法律条文的注意力矩阵取均值,如下所示:
其中,括号外侧的average仅计算一次,计算最大值与预测出法条数量有关, 括号内的max需要计算注意力每个案情描述包含的注意力分量数目,且average 和max的计算与最大值和以及分量最大维度有关。
步骤12:考虑到案情描述和法条名称的双重影响,本发明将法条名称按照 one-hot的形式编码,得到结果为:
之后进行联合预测最终的罪名:
其中γ为可选参数,为了保持分步均匀。最终将SFL接入全连接层,进行softmax 计算,并且每一项的得分仍用Sigmoid来表示:
其中,Wc和bc表示权重矩阵和偏置量。同样,设定阈值来选择相应的罪名是 否加入结果集。
步骤13:对于罪名预测,根据Sigmoid结果,得到最终的预测结果集 Pc=[Pc1,Pc2,...,PcK]。其中,PcK∈[0,1]。K表示罪名总数。对于给定阈值τc,将得分 高于阈值的罪名信息进行保留,得到最终的预测结果集其中 k≤K。利用交叉熵计算损失,表示为:
其中,rck和Pck分别是罪名K的事实标签和预测标签,用0、1表示。
阶段4:刑期预测
步骤14:刑期的分类总体可以分为三类:有期徒刑、无期徒刑和死刑。根据 刑期的分布特征,将刑期划分为不同区间进行考虑。具体划分如图3所示。
步骤15:首先对于法律条文内容进行双向LSTM编码,之后将法条名称也进 行编码,对于每个门控环节首先利用Sigmoid函数计算出需要进入的信息量,如 下式:
其中,SLaw表示法条名称嵌入,表示LSTM中的细胞状态,表示通过门 控单元进入的信息量。W(l)和b(l)表示参数矩阵和偏置。之后利用CNN对输出结 果进行卷积,接入max-pooling层。得到最后的结果集合为其 中,表示预测的第i条法律内容经过上述结构得到的结果。
步骤16:将此结果与之前得到的特征集合再次进行连接,得到结过如下:
其中,δ代表可调节参数,用来使数据分布统一。对所得到的结果进行全连 接后利用softmax函数直接进行分类。
步骤17:对于刑期预测,则根据softmax结果,得到最终的预测结果集 Pt=[Pt1,Pt2,...,PtK]。其中,PtK∈[0,1]。K表示刑期总数。保留最大项作为最终刑期, 损失采用交叉熵:
其中,rat和Pat分别是法条K的事实标签和预测标签,用0、1表示。
本发明适用于司法领域,尤其是将人工智能融入法律判决预测工作中,能够 准确、分步式的根据给定的案情描述给出具有较强可解释性的法条、罪名、刑期 的预测结果。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡 是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发 明权利要求书的保护范围之内。
Claims (3)
1.一种基于多尺度特征融合和门控单元的预测方法,所述方法基于一种基于多尺度特征融合和门控单元的预测系统,所述系统包括:
案情描述与特征编码模块,用于采用双重注意力网络对案情描述进行编码,通过句编码到文章编码递进处理长文本,并使用BERT-Text-CNN属性预测器对属性信息进行属性预测;
多标签法条预测模块,用于对所有标签进行得分计算,再通过设定阈值表示对最后留下的法条内容进行法条预测;
多标签罪名预测模块,用于将案情描述和法条内容的信息进行建模对应,最终将法条标签、含有注意力信息的案情描述和属性同时融入模型,进行多标签罪名的预测;
刑期预测模块,用于通过设定的门控机制对法条进行过滤,再结合犯罪事实内容进行最终刑期的决定;
其特征在于,所述方法包括以下步骤:
阶段0:数据预处理与标记
步骤0:将案情描述数据利用分词工具将句子分解为单词序列,并给出每条案情描述所对应的法条、罪名、刑期标签;
步骤1:对于民法中的多任务判决预测任务定义如下:假设一个案情描述L是由一个单词序列所构成,即L={x,x1,...,xn},其中每个单词xi来自一个固定词汇W,且n表示x的长度;对于每个案情描述L,得到其属性集为A={a1,a2,...,a10},其中ai表示第i个属性的值,且ai∈{0,1};
阶段1:案情描述与犯罪特征嵌入
步骤2:对于包含n个词语的案情描述L={x1,x2,...,xn},每个词语均被表示为向量Wi;
xi=WwrdVi (1)
步骤3:使用双向GRU网络对每个句子顺向和逆向都输入一遍,得到两个不同的隐藏层表示,然后将顺向、逆向的在每一个t时刻的隐藏层表示向量进行拼接表示;
步骤4:将双向GRU的前向隐藏层和后向隐藏层乘以注意权矩阵,并利用softmax得到最有效的特征输出表示,且词级输出Sw由下式计算:
uij=tanh(Wwhij+bw) (2)
Sw=∑jαijhij (4)
其中uij表示目标矩阵,i,j表示向量维度,tan h表示激活函数,hij表示词级隐藏层分量,αij表示词级注意力分量,表示目标矩阵转置,T为转置标记,Ww和bw表示权重矩阵和偏差,cw表示随机初始化矩阵;
步骤6:使用句子层注意力机制从句子集中提取特征,句子集的输出Ss由以下列公式进行计算:
ui=tanh(Wshi+bs) (6)
Ss=∑iαihi (8)
步骤7:将句子的矩阵表示输入到BERT预训练模型中,进行参数微调,得到BERT的token-level输出作为编码输入,使用BERT的句子表示矩阵输出;之后、进行卷积操作,并利用多尺度卷积核提取出相邻词的联合信息和语义;对于句子矩阵A∈Rs×d,使用A[i:j]表示第i行到第j行的子矩阵;在卷积子矩阵上反复应用卷积核得到卷积的输出序列o∈Rs-h+1;
o(i)=w*A[i:i+h-1] (9)
其中,i=1...s-h+1,*表示乘法运算;w表示权重矩阵;对于每个卷积结果表示为:
C(i)=f(o(i)) (10)
选取大小为3、4、5的卷积核,得到不同感受野的数据;将处理后的结果连接起来后,加入全连接层,使两层网络间所有神经元之间都有权重连接,用于预测最终的类别;最后得到输出层结果,使用Softmax生成最终的分类结果;将属性进行维度为dw的嵌入处理,形成属性嵌入矩阵SAttr,并将案情描述嵌入更新为:
其中,β为调节参数,dw为向量维度;并将SFcat作为最终的输入层表示;
阶段2:法条预测
步骤8:应用Softmax函数计算每一篇案件描述文本的分数,首先对SFcat接入全连接层之后,采用Max-pooling操作,计算方法如下:
其中,Wa和ba代表权重矩阵和偏置;
步骤9:对于法条预测,根据sigmoid结果,得到最终的预测结果集Pa=[Pa1,Pa2,...,PaK];其中PaK∈[0,1];K表示法律条文总数;对于给定阈值τa,取得分高于阈值的法条信息进行保留,得到最终的预测结果集其中k≤K;利用交叉熵计算损失,表示为:
其中rak和Pak分别是法条K的事实标签和预测标签,用0、1表示;
阶段3:罪名预测
步骤10:对于案情描述对应的预测法条进行搜索,保留所有预测法条,并找到预测法条的对应内容,首先对被选择的法条信息进行多核卷积神经网络结构编码,得到结果为;
步骤11:法条注意力描述为将查询和一组键值对映射到输出;因此,使用SFact和SArt计算键向量和查询向量,如下所示:
将对每个法律条文的注意力分量取最大值,再对所有法律条文的注意力矩阵取均值,如下所示:
步骤12:将法条名称按照one-hot的形式编码,得到结果为:
之后进行联合预测最终的罪名:
其中,γ为可选参数,为了保持分步均匀;最终将SFL接入全连接层,进行softmax计算,并且每一项的得分仍用Sigmoid来表示:
其中,Wc和bc表示权重矩阵和偏置量;设定阈值来选择相应的罪名是否加入结果集;
步骤13:对于罪名预测,根据Sigmoid结果,得到最终的预测结果集Pc=[Pc1,Pc2,...,PcC];其中,PcC∈[0,1];C表示罪名总数;对于给定阈值τc,将得分高于阈值的罪名信息进行保留,得到最终的预测结果集其中k≤C;利用交叉熵计算损失,表示为:
其中,rck和Pck分别是罪名C的事实标签和预测标签,用0、1表示;
阶段4:刑期预测
步骤14:刑期的分类总体分为三类:有期徒刑、无期徒刑和死刑;根据刑期的分布特征,将刑期划分为不同区间;
步骤15:对于法律条文内容进行双向LSTM编码,之后将法条名称也进行编码,对于每个门控环节利用Sigmoid函数计算出需要进入的信息量,如下式:
其中,SLaw表示法条名称嵌入,表示LSTM中的细胞状态,表示通过门控单元进入的信息量;W(l)和b(l)表示参数矩阵和偏置;之后利用CNN对输出结果进行卷积,接入max-pooling层;得到最后的结果集合为其中,表示预测的第i条法律内容经过上述结构得到的结果;
步骤16:将此结果与之前得到的特征集合再次进行连接,得到结过如下:
其中,δ代表可调节参数,用来使数据分布统一;对所得到的结果进行全连接后利用softmax函数直接进行分类;
步骤17:对于刑期预测,则根据softmax结果,得到最终的预测结果集Pt=[Pt1,Pt2,...,PtT];其中,PtT∈[0,1];T表示刑期总数;保留最大项作为最终刑期,损失采用交叉熵:
其中,rat和Pat分别是法条T的事实标签和预测标签,用0、1表示。
2.根据权利要求1所述的基于多尺度特征融合和门控单元的预测方法,其特征在于,所述步骤3中,对每个句子顺向为从句子中第一个词向最后一个词递归;对每个句子逆向为从句子中最后一个词向第一个词递归。
3.根据权利要求1所述的基于多尺度特征融合和门控单元的预测方法,其特征在于,所述步骤8中在预测过程中,只选择得分高于阈值的文本作为真正相关的描述文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010373496.2A CN111582576B (zh) | 2020-05-06 | 2020-05-06 | 一种基于多尺度特征融合和门控单元的预测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010373496.2A CN111582576B (zh) | 2020-05-06 | 2020-05-06 | 一种基于多尺度特征融合和门控单元的预测系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111582576A CN111582576A (zh) | 2020-08-25 |
CN111582576B true CN111582576B (zh) | 2022-08-16 |
Family
ID=72120844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010373496.2A Active CN111582576B (zh) | 2020-05-06 | 2020-05-06 | 一种基于多尺度特征融合和门控单元的预测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111582576B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033321A (zh) * | 2021-03-02 | 2021-06-25 | 深圳市安软科技股份有限公司 | 目标行人属性识别模型的训练方法及行人属性识别方法 |
CN113450568B (zh) * | 2021-06-30 | 2022-07-19 | 兰州理工大学 | 一种基于时空注意力机制的卷积网络交通流预测模型 |
CN113505937B (zh) * | 2021-07-26 | 2022-03-29 | 江西理工大学 | 一种基于多视角编码器的法律判决预测系统及方法 |
CN114781389B (zh) * | 2022-03-04 | 2024-04-05 | 重庆大学 | 一种基于标签增强表示的罪名预测方法及系统 |
CN117171610B (zh) * | 2023-08-03 | 2024-05-03 | 江南大学 | 一种基于知识增强的方面情感三元组提取方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046177A (zh) * | 2019-11-26 | 2020-04-21 | 方正璞华软件(武汉)股份有限公司 | 一种仲裁案件自动预判方法及装置 |
CN111079985A (zh) * | 2019-11-26 | 2020-04-28 | 昆明理工大学 | 一种基于bert并融合可区分属性特征的刑事案件刑期预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11275900B2 (en) * | 2018-05-09 | 2022-03-15 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for automatically assigning one or more labels to discussion topics shown in online forums on the dark web |
-
2020
- 2020-05-06 CN CN202010373496.2A patent/CN111582576B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046177A (zh) * | 2019-11-26 | 2020-04-21 | 方正璞华软件(武汉)股份有限公司 | 一种仲裁案件自动预判方法及装置 |
CN111079985A (zh) * | 2019-11-26 | 2020-04-28 | 昆明理工大学 | 一种基于bert并融合可区分属性特征的刑事案件刑期预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111582576A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111582576B (zh) | 一种基于多尺度特征融合和门控单元的预测系统及方法 | |
CN111985245B (zh) | 基于注意力循环门控图卷积网络的关系提取方法及系统 | |
CN111897908B (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN109299262B (zh) | 一种融合多粒度信息的文本蕴含关系识别方法 | |
CN110059262B (zh) | 一种基于混合神经网络的项目推荐模型的构建方法及装置、项目推荐方法 | |
CN111581401B (zh) | 一种基于深度相关性匹配的局部引文推荐系统及方法 | |
CN111368993B (zh) | 一种数据处理方法及相关设备 | |
WO2023024412A1 (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN109885671B (zh) | 基于多任务学习的问答方法 | |
CN110232122A (zh) | 一种基于文本纠错与神经网络的中文问句分类方法 | |
CN111078833B (zh) | 一种基于神经网络的文本分类方法 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
Zhang et al. | Relation classification via BiLSTM-CNN | |
Pang et al. | Complex sequential understanding through the awareness of spatial and temporal concepts | |
CN113987187A (zh) | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 | |
CN113313173A (zh) | 基于图表示和改进Transformer的人体解析方法 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN113255360A (zh) | 基于层次化自注意力网络的文档评级方法和装置 | |
CN115687610A (zh) | 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质 | |
CN114881172A (zh) | 一种基于加权词向量和神经网络的软件漏洞自动分类方法 | |
CN117725458A (zh) | 一种获取威胁情报样本数据生成模型的方法及装置 | |
CN113779244B (zh) | 文档情感分类方法、装置、存储介质以及电子设备 | |
CN113505937B (zh) | 一种基于多视角编码器的法律判决预测系统及方法 | |
Wang et al. | Multimodal object classification using bidirectional gated recurrent unit networks | |
CN114510569A (zh) | 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |