CN112308743B - 一种基于三元组相似任务的审判风险预警方法 - Google Patents
一种基于三元组相似任务的审判风险预警方法 Download PDFInfo
- Publication number
- CN112308743B CN112308743B CN202011133492.3A CN202011133492A CN112308743B CN 112308743 B CN112308743 B CN 112308743B CN 202011133492 A CN202011133492 A CN 202011133492A CN 112308743 B CN112308743 B CN 112308743B
- Authority
- CN
- China
- Prior art keywords
- case
- judgment
- sentence
- data
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 89
- 238000012512 characterization method Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 19
- 238000001914 filtration Methods 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Technology Law (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于三元组相似任务的审判风险预警方法,包括以下步骤:从法律文书数据库采集数据,进行关键词匹配,提取案件描述和判决结果;进行文本预处理,包括分词和数据增强等操作,生成多个三元组;利用LSTM网络生成案件向量,进行三元组相似任务判断得到案件的表征模型;将当前和历史案件分别预处理输入表征模型得到各自的案件表征;计算相似度最高的topM案件,并得到其判决结果表示,最后计算此结果与当前案件判决结果的相似度,得出偏离风险值。本发明可以通过三元组相似度计算的方式,对当前法律文书进行分析,从历史电子案宗中找出相似度较高的案件。根据过往案件的判决结果,给出推荐性的判决范围,从而达到审判偏离预警的目的。
Description
技术领域
本发明涉及深度学习及自然语言处理领域,尤其涉及一种基于三元组相似任务的审判风险预警方法。
背景技术
在大数据时代,人工智能在各个行业都有着广泛的应用。在智慧法院建设方面,通过赋予机器理解法律文本的能力,将人工智能技术应用在司法领域,可以为司法工作人员提供案情理解、量刑辅助、风险预警等智能辅助系统可以切实提升法院审判工作的效率,并提升判决质量,以信息化手段推进审判、执行、服务智能化。通过充分利用人工智能的前沿技术,对法律文书中的案情描述和判决结果等电子案宗标注信息进行分析、处理、归类,并找出与当前案件相似的案件。当法官判决结果与系统与过往相似案例的评估结果差异较大时自动进行风险预警。通过这些智能辅助类系统可以有效减少“同案不同判”的现象的发生。
目前的现有技术之一是人工进行简单的文本匹配搜索方法,这种方法基于已有的各种法律文本数据平台的大数据库,缺点在于无法检索出同种语义而不同陈述方式的案件,同时人工查阅、筛选参考资料的方式效率较低,需要花费大量时间进行类比讨论。
目前的现有技术之二是陈建峡等人的《一种基于词向量和词频的法院相似案件推荐模型》所提出的法院文本相似度计算,该技术先计算单词的相似度,并选取表征案件的少量关键词,从而计算不同案件的向量距离,找出相似的案件。该技术的缺点是word2vec词向量的训练方式不能很好的将单词之间的顺序关系编码进向量中,因此向量的表达性不足;其次在得到词向量后,往往只能对案件选取少量关键词(2-3个)计算案件向量,从而得到案件向量往往并不准确。
因此,本领域的技术人员致力于开发一种基于三元组相似任务的审判风险预警方法,以便能够对当前法律文书中的事实描述进行分析,从过去的历史电子案宗中找出相似度较高的案件,并根据过往案件的判决结果,给出推荐性的判决范围,从而达到审判偏离预警的目的。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题在于:(1)如何基于预训练好的通用语言模型进行法律文本领域的迁移,使获得的法律文本包含对应的案件事实和判决结果并已过滤无关信息;(2)如何从词向量的基础上拓展生成案件的表征,并计算并检索出与当前审判案件相近的历史案宗;(3)如何根据历史案件计算出当前案件判决结果是否偏移。
为实现上述目的,本发明提供了一种基于三元组相似任务的审判风险预警方法,其特征在于,包括以下步骤:
步骤S1:从法律判决书数据库中获取近3年的法院判决书,并提取对应案件的事实描述和判决结果,并对其进行文本预处理,得到案件文本的过滤语料;
步骤S2:对所述过滤语料进行处理,得到语句序列,并进行数据增强,生成数据增强语料,包含屏蔽语言语料、相邻句子判断语料;
步骤S3:使用所述数据增强语料对预训练好的BERT模型进行屏蔽语言任务和相邻句子判断任务的微调训练,得到训练后的BERT模型;
步骤S4:所述语句序列作为所述训练后的BERT模型的输入,获得句子向量,使用LSTM网络从所述句子向量生成案件向量,对所述过滤语料进行数据增强,生成三元组,并使用三元组相似度任务对所述训练后的BERT模型进一步微调训练,得到案件表征模型;
步骤S5:对当前案件文书和拟定的判决结果以及历史案件文书和判决结果进行相同的所述文本预处理操作,均输入所述案件表征模型获得当前案件和历史案件的向量表示;
步骤S6:对当前案件的所述向量表示与历史案件的所述向量表示点乘计算余弦相似度,并进行排序选取相似度较高的M个案件集合,获取其判决结果集合;
步骤S7:将当前案件文书拟定的判决结果和所述判决结果集合分别输入所述案件表征模型,获得与两个输入对应的全文向量,计算二者的判决结果余弦相似度;
步骤S8:对所述判决结果余弦相似度进行归约计算,作为该判决结果的风险值,当此值低于阈值时,系统启动风险预警。
进一步地,所述步骤S1中提取对应案件的事实描述和判决结果,并对其进行文本预处理,具体为:
获取共N封法院判决书,并提取出案件的事实描述和判决结果,格式为(P,R),其中,P表示案件综述,R表示案件判决结果;
对案件数据(P,R)进行自然语言处理技术的预处理,对其进行jieba分词,过滤停留词、词语等,得到初步的语料;
使用关键词匹配的方式定位人名、地名、时间,并将其过滤等,对判决结果进行关键词的抽取,获得罪名、刑期和判决依据,获得过滤语料(P′,R′)。
进一步地,所述步骤S2中对所述过滤语料进行处理,得到语句序列,并进行数据增强,生成数据增强语料,具体为:
对所述过滤语料处理,得到语句序列Dataseq,其具有多个词语和一个开头标记[CLS];
对Dataseq进行屏蔽语言任务,对每一个句子选取15%的单词将其从原文中抹去,遮蔽的单词在80%的情况下使用特殊符号[MASK]替换,10%的情况下用任意一个单词替换,剩余10%的情况保持不变,每个句子进行多次上述操作,进行数据增强,获得的第一序列用Datamask表示;
对Dataseq进行相邻句子判断任务,对每一个语句序列选取与其连续的两个句子生成两个句子对作为正样本,并从数据中随机选取两个句子生成两个句子对作为负样本,获得的第二序列表示为Datapair。
进一步地,所述步骤S4中所述语句序列作为所述训练后的BERT模型的输入,获得句子向量,使用LSTM网络从所述句子向量生成案件向量,对所述过滤语料进行数据增强,生成三元组,并使用三元组相似度任务对所述训练后的BERT模型进一步微调训练,具体为:
将所述语句序列Dataseq作为所述训练后的BERT模型的输入,输出开头标记[CLS]的向量为该句子的表征;
对(P′,R′)进行处理,将所述句子的[CLS]向量输入到一个LSTM网络中,得到每一个案件的向量;
对(P′,R′)数据增强,生成多个三元组<a,p,n>;
用神经网络模块对所述三元组进行分类,输入的最大长度为三个文章向量的长度,输出表示案件p是否比n更与a相似;
使用所述训练后的BERT模型外接三元组相似任务进行微调训练,微调训练后的BERT模型和后续的LSTM模型共同形成案件表征模型modelcase。
进一步地,所述步骤S5中对当前案件文书和拟定的判决结果以及历史案件文书和判决结果进行相同的所述的文本预处理操作,均输入所述案件表征模型获得当前案件和历史案件的向量表示,具体为:
对当前案件文书和拟定的判决结果(Pcur,Rcur),数据预处理得(P′cur,R′cur);
输入到所述案件表征模型modelcase,得到案件cur的向量表示f(Pcur);
对历史案件文书和对应的判决结果(Pi,Ri),数据预处理得(P′i,R′i);
输入到所述案件表征模型modelcase,对每一个案件i,都得到一个d维的向量表示Pi。
进一步地,所述步骤S6中对当前案件的向量表示与历史案件的向量表示点乘计算余弦相似度,并进行排序选取相似度较高的M个案件集合,获取其判决结果的集合,具体为:
当前案件描述的向量f(Pcur)分别与历史案件描述的向量f(Pi′)进行点乘,得到相似度向量,其公式为:
相似度最高的M个案件,用集合topM={t1,t2,...,tM}来表示;
进一步地,所述步骤S7中对当前案件文书拟定的判决结果和所述判决结果集合分别输入所述案件表征模型,获得两者对应的全文向量,计算两者的判决结果余弦相似度,具体为:
其公式为:
其中,全文向量f(R′cur)是当前案件的拟定判决结果R′cur输入到所述案件表征模型modelcase中所得;
进一步地,所述步骤S8中对判决结果余弦相似度进行归约计算的计算公式为:
其中,对相似度Rsim计算平均值,并求倒数得到风险值。
与现有技术相比,本发明的有益技术效果在于:
1)本发明所提技术方案是一种基于自然语言理解的类案检索和风险预警技术,充分表示了案情陈述的语义信息,以检索出尽可能相关的案件陈述和对应的判决结果供法官参考。
2)使用了自然语言处理领域的预训练和微调方案,相比传统的向量表征方法,预训练的过程具有更广的适应性,微调方案则充分与领域相关,可以提取出既通用又具有特定场景含义的向量表示。
3)在进行BERT模型的微调时,采用三元组相似度的方式进行优化微调,拓展了数据利用的方式,使得在训练时,相似的案件表征尽可能靠近,同时尽可能远离不相似的案件。
4)在风险预警方面,基于BERT模型对判决结果进行语义相似度的分析,并给出风险值,大大减轻了因统计而产生的人力负担,充分挖掘了历史电子案宗和判决结果之间的联系信息,使得法官判决时具有更便捷的参考。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的总体流程图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
首先对实施例中涉及的术语和缩略词予以说明解释。
三元组相似任务:三元组相似任务是指对一个三元组<a,p,n>进行相似度的计算,其中a表示锚样本,而p表示正样本,n表示负样本。在法律文书相似度匹配的场景下,锚样本即需要进行查询的法律文书,而正样本表示与锚样本较为相似的法律文书,负样本表示与锚样本不相似的法律文书。三元组相似任务即判断样本p是否比样本n与样本a更相似。通过三元组相似任务,可以更有效地利用数据。针对多篇法律文书进行相似度的计算和判断,既使得关联度高的法律文书在表征上的相似性高,且使得关联度低的法律文本在表征上具有较远的距离。
停留词:停留词是自然语言处理领域的概念,主要是指自然语言中无明显含义的词语,如连接词、冠词、量词等,如中文语境下的“的”“呢”“之”。通过过滤停留词,可以减小语料库,有利于提取语义丰富的特征。
分词:分词是指对一句话进行分割,将其解析为具体的多项词语。在中文语言中,jieba分词是一个优秀的中文分词工具,它通过运用动态规划从而找出词频最大的切分组合。
BERT模型:BERT模型是Google在2018年提出的一个自然语言领域的新模型,用于对自然语言中的词语进行表征学习,并用于后续任务。它在11项自然语言理解任务上刷新了最好指标。
词/句/位置向量:在BERT模型中对词语的多个层次的描述,一般来说每一个词语都具有一个向量,每一个句子都有一个单独的向量。为了区分同一个句子中出现的多个单词的顺序,为每个句子中出现的单词按照顺序赋予不同的位置向量。
屏蔽语言模型:屏蔽语言模型是BERT中使用的一个训练任务,即将每一句话的某些单词遮蔽作为输入,BERT模型的目的在于使用这句话的其他单词进行上下文推断,还原出该单词。类似于英语考试中的完形填空。
相邻句子判断:在BERT模型中对语料进行训练时,我们期望模型可以判断两个句子是否是连续出现的句子。通过这个任务可以很好地捕捉句子的语义。
微调:微调(Fine-tuning)在自然语言处理领域中是指通过预先的学习得到一个通用的词向量,并使用同样的网络结构和训练过程在特定的场景进行再训练。即我们首先使用海量的网络语料库得到一个通用的词语表示,并使用法律文本的语料将法律场景下的语义赋予到通用的词向量中。
LSTM模型:长短期记忆网络LSTM是一种特殊的循环神经网络,可以更好地对长序列进行建模,包含时间序列、语言序列等。在本发明所提技术方案中使用LSTM模型对句子序列进行建模,从而得到案情的全文向量。
图1是本发明实施例的一种基于三元组相似任务的审判风险预警方法总体流程图,如图1所示,该方法包括:
步骤S1,从法律判决书数据库中获取近3年的法院判决书,提取对应案件的事实描述和判决结果,并对其进行文本预处理,得到案件文本的过滤语料;
步骤S2,对所述过滤语料进行处理,得到语句序列,并进行数据增强,生成数据增强语料,包含屏蔽语言语料、相邻句子判断语料;
步骤S3,使用所述数据增强语料对预训练好的BERT模型进行屏蔽语言任务和相邻句子判断任务的微调训练,得到训练后的BERT模型;
步骤S4,所述语句序列作为所述训练后的BERT模型的输入,获得句子向量,使用LSTM网络从句子向量生成案件向量,对所述的过滤语料进行数据增强,生成三元组,并使用三元组相似度任务对所述训练后的BERT模型进一步微调训练,得到案件表征模型;
步骤S5,对当前案件文书和拟定的判决结果以及历史案件文书和判决结果进行相同的所述的文本预处理操作,均输入所述案件表征模型获得当前案件和历史案件的向量表示;
步骤S6,对所述的当前案件的向量表示与所述的历史案件的向量表示点乘计算余弦相似度,并进行排序选取相似度较高的M个案件集合,获取其判决结果的集合;
步骤S7,将所述的当前案件文书拟定的判决结果和所述判决结果集合分别输入所述案件表征模型,获得两者对应的全文向量,计算两者的余弦相似度;
步骤S8,对所述的余弦相似度进行归约计算,作为该判决结果的风险值,当此值低于阈值时,系统启动风险预警。
步骤S1,具体如下:
S1-1,从法律判决书数据库获取共N封法院判决书,并提取出对应案件的事实描述和判决结果,格式为(P,R),其中P表示案件综述,R表示案件判决结果;
S1-2,对S1-1提取的案件数据(P,R)进行自然语言处理技术的预处理,包括进行jieba分词,过滤停留词、词语等操作,得到初步的语料;
S1-3,对S1-2得到的初步语料进行更深层次预处理,包括使用关键词匹配的方式定位人名、地名、时间,并将其过滤等,对判决结果进行关键词的抽取,获得罪名、刑期和判决依据,这一步得到过滤语料为(P′,R′)。
步骤S2,具体如下:
S2-1,将S1-3得到的过滤语料进行处理,得到语句序列Dataseq。此时每一个语句序列都具有多个词语,且具有一个开头标记[CLS];
S2-2,对S2-1得到的语句序列Dataseq进行屏蔽操作,即对每一个句子,选取15%的单词将其从原文中抹去,为了使得模型在多轮训练中不会互相泄露信息,遮蔽的单词在80%的情况下使用特殊符号[MASK]替换,10%的情况下用任意一个单词替换,剩余10%的情况保持不变,每个句子进行多次上述操作,即进行数据增强,此时得到的序列用Datamask表示;
S2-3,对S2-1得到的语句序列Dataseq进行成对操作,即对每一个语句序列,选取与其连续的两个句子生成两个句子对作为正样本,并从数据中随机选取两个句子生成两个句子对作为负样本。此时得到的序列对用Datapair表示,注意Datapair中每一个句子的最大长度是Datamask的两倍。
步骤S3,具体如下:
S3-1,使用S2-2得到的遮蔽语料Datamask对预训练好的BERT模型进行屏蔽语言任务的微调训练;
S3-2,使用S2-3得到的句子对S3-1得到的BERT模型进行相邻句子判断任务的微调训练。
步骤S4,具体如下:
S4-1,以S2-1中的语句序列Dataseq作为S3-1得到的BERT模型的输入,以开头标记[CLS]的向量输出作为该句子的表征。一般来说[CLS]标记可以均匀的反映句子中词语的含义;
S4-2,将S4-1得到的法律文书中每条句子的[CLS]向量输入到一个LSTM网络中,得到每一个案件的向量;
S4-3,对S1-3得到的(P′,R′)进行数据增强,生成多个三元组<a,p,n>。使用神经网络模块对三元组进行分类,此时神经网络的输入的最大长度为三个文章向量的长度。此时神经网络的输出表示案件p是否比n更与a相似。使用三元组优化是因为可以充分利用数据进行多种形式的数据增强,如Net(a,a,n)恒等于1,而Net(a,p,a)恒等于0等;
S4-4,使用S3-2得到的BERT模型外接S4-3的三元组相似任务进行微调训练,此时得到了法律场景下的案件表征模型modelcase,用来表示微调训练后BERT模型和后续的LSTM模型。
步骤S5,具体如下:
S5-1,对当前案件文书和拟定的判决结果(Pcur,Rcur)进行S1-2到S1-3的数据预处理,得到(P′cur,R′cur),输入到S4-4获得的案件表征模型modelcase中,得到案件cur的向量表示f(Pcur);
S5-2,对数据库中的历史案件文书和对应的判决结果(Pi,Ri)进行S1-2到S1-3的数据预处理,得到(P′i,R′i),输入到S4-4获得的modelcase中,此时对每一个案件i,都得到一个d维的向量表示,如
此时该向量表示Pi这个案件的向量表示,其具体数值表示不同的含义。
步骤S6,具体如下:
S6-1,使用S5-1得到的当前案件描述的向量分别与S5-2得到的历史案件描述的向量进行点乘,得到当前案件与历史所有案件的相似度向量。其公式为:
S6-2,找出S6-1得到的相似度向量中,相似度最高的M个案件,用集合topM={t1,t2,...,tM}来表示;
步骤S7,具体如下:
S7-1,将S5-1得到的当前案件的拟定判决结果R′cur输入到S4-4获得的案件表征模型modelcase中,得到全文向量f(R′cur);
步骤S8,具体如下:
S8-1,将S7-3得到的判决结果的相似度Rsim计算平均值,并求倒数得到风险值:
S8-2,对S8-1得到的风险值进行评估,当其大于阈值时,即该案的判决结果与相似历史案件的判决结果偏离较大,对法官进行判决结果偏离风险预警。
本发明实施例提出的一种基于三元组相似任务的审判风险预警方法,能够对当前法律文书中的事实描述进行分析,从过去的历史电子案宗中找出相似度较高的案件。根据过往案件的判决结果,给出推荐性的判决范围,从而达到审判偏离预警的目的。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的一种基于三元组相似任务的审判风险预警方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (6)
1.一种基于三元组相似任务的审判风险预警方法,其特征在于,包括以下步骤:
步骤S1:从法律判决书数据库中获取近3年的法院判决书,并提取对应案件的事实描述和判决结果,并对其进行文本预处理,得到案件文本的过滤语料(P′,R′);
步骤S2:对所述过滤语料进行处理,得到语句序列,并进行数据增强,生成数据增强语料,包含屏蔽语言语料、相邻句子判断语料;
步骤S3:使用所述数据增强语料对预训练好的BERT模型进行屏蔽语言任务和相邻句子判断任务的微调训练,得到训练后的BERT模型;
步骤S4:所述语句序列作为所述训练后的BERT模型的输入,获得句子向量,使用LSTM网络从所述句子向量生成案件向量,对所述过滤语料进行数据增强,生成三元组,并使用三元组相似度任务对所述训练后的BERT模型进一步微调训练,得到案件表征模型;
步骤S5:对当前案件文书和拟定的判决结果以及历史案件文书和判决结果进行相同的所述文本预处理操作,均输入所述案件表征模型获得当前案件和历史案件的向量表示;
步骤S6:对当前案件的所述向量表示与历史案件的所述向量表示点乘计算余弦相似度,并进行排序选取相似度较高的M个案件集合,获取其判决结果集合;
步骤S7:将当前案件文书拟定的判决结果和所述判决结果集合分别输入所述案件表征模型,获得与两个输入对应的全文向量,计算二者的判决结果余弦相似度;
步骤S8:对所述判决结果余弦相似度进行归约计算,作为该判决结果的风险值,当此值低于阈值时,系统启动风险预警;
所述步骤S2包括:
对所述过滤语料处理,得到语句序列Dataseq,其具有多个词语和一个开头标记[CLS];
对Dataseq进行屏蔽语言任务,对每一个句子选取15%的单词将其从原文中抹去,遮蔽的单词在80%的情况下使用特殊符号[MASK]替换,10%的情况下用任意一个单词替换,剩余10%的情况保持不变,每个句子进行多次上述操作,进行数据增强,获得的第一序列用Datamask表示;
对Dataseq进行相邻句子判断任务,对每一个语句序列选取与其连续的两个句子生成两个句子对作为正样本,并从数据中随机选取两个句子生成两个句子对作为负样本,获得的第二序列表示为Datapair;
所述步骤S4包括:
将所述语句序列Dataseq作为所述训练后的BERT模型的输入,输出开头标记[CLS]的向量为该句子的表征;
对(P′,R′)进行处理,将所述句子的[CLS]向量输入到一个LSTM网络中,得到每一个案件的向量;
对(P′,R′)数据增强,生成多个三元组<a,p,n>;
用神经网络模块对所述三元组进行分类,输入的最大长度为三个文章向量的长度,输出表示案件p是否比n更与a相似;
使用所述训练后的BERT模型外接三元组相似任务进行微调训练,微调训练后的BERT模型和后续的LSTM模型共同形成案件表征模型modelcase。
2.如权利要求1所述的基于三元组相似任务的审判风险预警方法,其特征在于,所述步骤S1中提取对应案件的事实描述和判决结果,并对其进行文本预处理,具体为:
获取共N封法院判决书,并提取出案件的事实描述和判决结果,格式为(P,R),其中,P表示案件综述,R表示案件判决结果;
对案件数据(P,R)进行自然语言处理技术的预处理,对其进行jieba分词,过滤停留词、词语,得到初步的语料;
使用关键词匹配的方式定位人名、地名、时间,并将其过滤,对判决结果进行关键词的抽取,获得罪名、刑期和判决依据,获得过滤语料(P′,R′)。
3.如权利要求2所述的基于三元组相似任务的审判风险预警方法,其特征在于,所述步骤S5中对当前案件文书和拟定的判决结果以及历史案件文书和判决结果进行相同的所述的文本预处理操作,均输入所述案件表征模型获得当前案件和历史案件的向量表示,具体为:
对当前案件文书和拟定的判决结果(Pcur,Rcur),数据预处理得(P′cur,R′cur);
输入到所述案件表征模型modelcase,得到案件cur的向量表示f(Pcur);
对历史案件文书和对应的判决结果(Pi,Ri),数据预处理得(P′i,R′i);
输入到所述案件表征模型modelcase,对每一个案件i,都得到一个d维的向量表示f(Pi)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011133492.3A CN112308743B (zh) | 2020-10-21 | 2020-10-21 | 一种基于三元组相似任务的审判风险预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011133492.3A CN112308743B (zh) | 2020-10-21 | 2020-10-21 | 一种基于三元组相似任务的审判风险预警方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112308743A CN112308743A (zh) | 2021-02-02 |
CN112308743B true CN112308743B (zh) | 2022-11-11 |
Family
ID=74326892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011133492.3A Active CN112308743B (zh) | 2020-10-21 | 2020-10-21 | 一种基于三元组相似任务的审判风险预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308743B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221530B (zh) * | 2021-04-19 | 2024-02-13 | 杭州火石数智科技有限公司 | 一种文本相似度匹配方法、装置、计算机设备和储存介质 |
CN113065347B (zh) * | 2021-04-26 | 2022-06-28 | 上海交通大学 | 基于多任务学习的刑事案件判决预测方法、系统及介质 |
CN113283760B (zh) * | 2021-05-31 | 2023-04-18 | 浙江环玛信息科技有限公司 | 案件流程分析报告生成方法及系统 |
CN113536780A (zh) * | 2021-06-29 | 2021-10-22 | 华东师范大学 | 一种基于自然语言处理的企业破产案件智能辅助判案方法 |
CN116402630B (zh) * | 2023-06-09 | 2023-09-22 | 深圳市迪博企业风险管理技术有限公司 | 一种基于表征学习的财务风险预测方法及系统 |
CN117035406B (zh) * | 2023-07-31 | 2024-06-18 | 北京华夏电通科技股份有限公司 | 审判流程智能管控方法、装置和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN111581332A (zh) * | 2020-04-29 | 2020-08-25 | 山东大学 | 基于三元组深度哈希学习的相似司法案例匹配方法及系统 |
CN111611809A (zh) * | 2020-05-26 | 2020-09-01 | 西藏大学 | 一种基于神经网络的汉语语句相似度计算方法 |
CN111709236A (zh) * | 2020-05-29 | 2020-09-25 | 中山大学 | 一种基于案件相似度匹配的审判风险预警方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3542259A4 (en) * | 2016-11-28 | 2020-08-19 | Thomson Reuters Enterprise Centre GmbH | SYSTEM AND METHOD FOR FINDING SIMILAR DOCUMENTS ON THE BASIS OF SEMANTIC FACTICAL SIMILARITY |
-
2020
- 2020-10-21 CN CN202011133492.3A patent/CN112308743B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN111581332A (zh) * | 2020-04-29 | 2020-08-25 | 山东大学 | 基于三元组深度哈希学习的相似司法案例匹配方法及系统 |
CN111611809A (zh) * | 2020-05-26 | 2020-09-01 | 西藏大学 | 一种基于神经网络的汉语语句相似度计算方法 |
CN111709236A (zh) * | 2020-05-29 | 2020-09-25 | 中山大学 | 一种基于案件相似度匹配的审判风险预警方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112308743A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308743B (zh) | 一种基于三元组相似任务的审判风险预警方法 | |
CN112417863B (zh) | 基于预训练词向量模型与随机森林算法的中文文本分类方法 | |
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN110750635B (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN109460459B (zh) | 一种基于日志学习的对话系统自动优化方法 | |
CN107220237A (zh) | 一种基于卷积神经网络的企业实体关系抽取的方法 | |
CN112256939A (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN111709236B (zh) | 一种基于案件相似度匹配的审判风险预警方法 | |
CN110909542B (zh) | 智能语义串并分析方法及系统 | |
CN111581368A (zh) | 一种基于卷积神经网络的面向智能专家推荐的用户画像方法 | |
CN109460477B (zh) | 信息收集分类系统和方法及其检索和集成方法 | |
CN114970523B (zh) | 一种基于文本语义增强的主题提示式关键词提取方法 | |
CN112434164A (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN114461890A (zh) | 分层多模态的知识产权搜索引擎方法与系统 | |
CN116842194A (zh) | 一种电力语义知识图谱系统及方法 | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统 | |
CN113157913A (zh) | 一种基于社会新闻数据集的伦理行为判别方法 | |
CN113988054B (zh) | 一种面向煤矿安全领域的实体识别方法 | |
CN117474010A (zh) | 面向电网语言模型的输变电设备缺陷语料库构建方法 | |
CN114881173A (zh) | 基于自注意力机制的简历分类方法和装置 | |
CN114564579A (zh) | 一种基于海量知识图谱及图嵌入的实体分类方法与系统 | |
CN116680590A (zh) | 基于工作说明书解析的岗位画像标签提取方法及装置 | |
CN111460817A (zh) | 一种刑事法律文书相关法条的推荐方法和系统 | |
CN111723208B (zh) | 基于条件分类树的法律判决文书多分类方法、装置和终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |