CN114881043A - 基于深度学习模型的法律文书语义相似度评估方法及系统 - Google Patents
基于深度学习模型的法律文书语义相似度评估方法及系统 Download PDFInfo
- Publication number
- CN114881043A CN114881043A CN202210809525.4A CN202210809525A CN114881043A CN 114881043 A CN114881043 A CN 114881043A CN 202210809525 A CN202210809525 A CN 202210809525A CN 114881043 A CN114881043 A CN 114881043A
- Authority
- CN
- China
- Prior art keywords
- semantic similarity
- legal
- legal document
- document
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于深度学习模型的法律文书语义相似度评估方法及系统,包括:步骤一、获取目标法律文书和候选法律文书,并获取目标法律文书和候选法律文书各自的样本、句向量及词向量;步骤二、在语义相似度计算模型中对目标法律文书和候选法律文书两者的样本、句向量及词向量进行数据增广;步骤三、基于语义相似度计算模型和增广后的数据,对目标法律文书与候选法律文书语义相似度进行计算;步骤四、获得目标法律文书与候选法律文书语义相似度计算结果。本发明应用时对目标法律文书和候选法律文书语义相似度计算时操作便捷,且能提升评判的准确性。
Description
技术领域
本发明涉及自然语言处理技术,具体是基于深度学习模型的法律文书语义相似度评估方法及系统。
背景技术
随着计算机的普及和互联网的快速发展,现在已经进入信息化时代。计算机对大数据的处理与分析能力日益强大起来,人工智能也被各个国家越来越重视。人类在互联网中会产生大量的文本信息,面对海量的文本数据,如果使用人工的方法对文本数据进行处理、分析会存在效率低下的问题,不能满足高速信息化时代的需求。因此,自然语言处理(Natural Language Processing, NLP)成为了研究的热点,NLP将语言学、计算机科学与数学融为一体,能够让计算机理解文本内容并作出相应的处理,主要用于机器翻译、文本分类、文本聚类、舆情监控等与文本有关的任务。
文本语义相似度是NLP领域中基础性的研究内容,对文本进行语义相似度分析时首先会对文本进行向量化表示,这个向量包含了文本的上下文语义信息,然后提取文本的语义特征,计算不同文本特征之间的语义差异来量化文本之间的相似度。语义相似度的研究对于自动问答系统、信息检索、自动文本摘要等任务中都有一定的辅助作用。
随着互联网的发展,NLP技术也运用在法律领域中。法律智能研究旨在赋予机器理解法律文本的能力。近年来,随着以裁判文书为代表的司法大数据不断公开,以及自然语言处理技术的不断突破,如何将人工智能技术应用在司法领域,辅助司法工作者提升案件处理的效率和公正性,逐渐成为法律智能研究的热点。
语义相似度的研究可以运用在法律文书的相关案例查找中,因为在法律领域中经常要检索出与目标案例相关的案例,但海量的文书数据依靠人工筛查是非常费时的。相似案例匹配(Similar Case Matching, SCM)皆在自动找到在所有案件中最为相似的案件。
文本语义相似度任务在实际应用时存在有训练样本和没有训练样本的情况,针对有训练样本和没有训练样本的情况,国内外研究人员开展了大量研究,形成了两种技术路线,一种是利用监督学习完成有训练样本情况下的文本语义相似度任务,另一种是利用半监督学习完成没有训练样本情况下的文本语义相似度任务。从相似案例匹配的数据集来看,中国人工智能与法律挑战赛(CAIL2019)提供了一个具有标签的数据集,其为了简化问题在每个样本中分为3个文档,一个目标文书A,两个候选文书B和C,任务是确定哪个候选文书与目标文书更相似。这个任务可以看作是一个有监督的对比学习问题,但是对于这样数据集的标签注解需要经验丰富的法学领域专家,耗时且昂贵,评判时易受人为因素影响,评判准确性不能得到保证。
综上所述,在相关应用的推动下,如何更好的提取法律文书语义特征对相似案例进行准确的分类匹配在法律领域中具有十分重要的研究意义。
发明内容
本发明的目的在于解决现有技术中法律文书相似度评断耗时且昂贵,评判时易受人为因素影响,评判准确性不能得到保证的不足,提供了一种基于深度学习模型的法律文书语义相似度评估方法,其应用时对目标法律文书和候选法律文书语义相似度计算时操作便捷,且能提升评判的准确性。本发明还公开了实现上述基于深度学习模型的法律文书语义相似度评估方法的系统。
本发明的目的主要通过以下技术方案实现:
基于深度学习模型的法律文书语义相似度评估方法,包括:
步骤一、获取目标法律文书和候选法律文书,并获取目标法律文书和候选法律文书各自的样本、句向量及词向量;
步骤二、在语义相似度计算模型中对目标法律文书和候选法律文书两者的样本、句向量及词向量进行数据增广;
步骤三、基于语义相似度计算模型和增广后的数据,对目标法律文书与候选法律文书语义相似度进行计算;
步骤四、获得目标法律文书与候选法律文书语义相似度计算结果。
进一步的,所述步骤二中数据增广采用的方法包括截断、双重丢弃及提示学习;
所述截断采用的方式为:针对法律文书截取不同的摘要形成多个样本,其中,摘要为设定数量的完整句子;
所述双重丢弃采用的方式为:将每一个句子输入同一个编码器,使用不同的dropout获得两个语义相同的句向量;
所述提示学习采用的方式为:通过创建含[MASK]的语句的方式创建Promot模板,将原始法律文书结合prompt模板得到新的句子,将其输入至BERT_UER模型,经处理得到词向量和句向量;其中,prompt模板在[MASK]位置后面预测单词。本发明引入截断(Truncation)、双重丢弃(Double-dropout)、提示学习(Prompt Learning)思想,利用双重丢弃(Double-dropout)来实现对比学习从而完成一个新颖的数据增强方案,并根据数据集自身的特点使用提示学习(Prompt Learning)对数据集进行prompt模板设计。本发明对数据集进行截断、dropout再次对数据进行扩充,通过数据增广对数据进行预处理,分割数据,以达到对数据集进行数据增强的效果,进而满足标注数据少的低资源场景的需求。
进一步的,所述语义相似度计算模型基于融合GCN特征的BERT_UER模型实现,其将TextGCN 扩展为特征提取器。本发明考虑到轻量化的设计,舍弃了BERT,用了更轻量化的BERT_UER来加快训练和推理过程,重新构造了主干模型结构。在模型层面,本发明融入了GCN的特征,利用预处理后的数据集,通过GCN思想促使卷积神经网络尽可能挖掘出潜在的有用的文本语义特征。
进一步的,所述融合GCN特征包括编码模块和GCN模块两个模块,GCN模块构建在编码模块之上;训练与使用融入GCN特征的语义相似度计算模型包括以下三个步骤:
构建异质图,异质图包含标注数据与未标注数据,词节点与文档节点,采用编码模块初始化文档节点;
联合训练编码模块与GCN模块;
使用训练后的融入GCN特征的语义相似度计算模型进行推理。
进一步的,基于深度学习模型的法律文书语义相似度评估方法,还包括采用CAIL2019数据集对语义相似度计算模型进行训练,所述训练步骤包括:
使用CAIL2019数据集语料库中的所有法律文书和法律文书中的词对节点进行建模,并使用词到词和词到法律文书的边连接节点,然后使特征信息在语料库通过 GCN 学习进行交互,从而利用语料库级别的整体结构信息。
进一步的,基于深度学习模型的法律文书语义相似度评估方法,还包括将句向量和词向量转化为数字,其转化步骤为:
(a)分词,将输入的成段文本分解为模型词典最小建模单位,其中,中文以字或词为最小单位,英文以词为最小单位;
(b)标记化,将上一步处理的最小单位变为其在词典中的索引;
(c)向量化,为字典中每一个字生成一个词向量,每一个词向量为一个一维向量,使用索引在所有的词向量中查找,找到对应的词向量,每段话包含多个字,将多个字的词向量拼接起来得到句向量。
进一步的,所述候选法律文书有两份以上时,所述步骤四还包括比对所有候选法律文书与目标法律文书的相似度大小,并获得相似度最大的候选法律文书。
实现上述基于深度学习模型的法律文书语义相似度评估方法的系统,包括:
文书获取模块,用于获取目标法律文书和候选法律文书,并获取目标法律文书和候选法律文书各自的样本、句向量及词向量;
数据处理模块,用于对目标法律文书和候选法律文书两者的样本、句向量及词向量进行数据增广;
相似度计算模块,用于接收增广后的数据,对目标法律文书与候选法律文书语义相似度进行计算,并输出语义相似度计算结果。本发明的基于深度学习模型的法律文书语义相似度评估系统在具体应用时,可作为法院的文书管理系统的一个子系统应用到真实法院中。
综上所述,本发明与现有技术相比具有以下有益效果:(1)本发明是一种深度学习解决方案,同时考虑了少样本、无样本场景下的性能问题。为了解决昂贵的标注问题,本发明的少样本、无样本下的分类能力能够在较低成本的情况下对大量的数据进行初步的处理,由此一来,高昂的人工注解工作转换为核对工作,通过核对增加数据,不断迭代模型,可以获取更好的性能,如此循环往复,便可以极大的降低成本,提高效率。
(2)本发明应用时,不需要人为对法律文书进行标签注解,对目标法律文书和候选法律文书语义相似度计算时通过提取样本、句向量及词向量,再基于语义相似度计算模型进行计算,操作便捷,且能提升评判的准确性。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一个具体实施例的流程图;
图2为本发明一个具体实施例中采用截断进行数据增广的示意图;
图3为本发明一个具体实施例中采用双重丢弃进行数据增广的示意图;
图4为本发明一个具体实施例中采用提示学习进行数据增广的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例:
如图1所示,基于深度学习模型的法律文书语义相似度评估方法,包括:步骤一、获取目标法律文书和候选法律文书,并获取目标法律文书和候选法律文书各自的样本、句向量及词向量;步骤二、在语义相似度计算模型中对目标法律文书和候选法律文书两者的样本、句向量及词向量进行数据增广;步骤三、基于语义相似度计算模型和增广后的数据,对目标法律文书与候选法律文书语义相似度进行计算;步骤四、获得目标法律文书与候选法律文书语义相似度计算结果。其中,法律文书段落结构基本分为:首部、当事人、事实、判决理由、尾部,提取法律文书首部,则会获得标题、案号、当事人与代理人的基本信息。事实部分则可以提取出原告诉求、观点、被告辨称、被告的诉求、法院查明的事实。在裁判的过程中通常会出现“本院经审查认为……”,再列出由相关的事实部分所总结的观点。
本实施例步骤二中数据增广采用的方法包括截断、双重丢弃及提示学习。其中,截断采用的方式为:针对法律文书截取不同的摘要形成多个样本,其中,摘要为设定数量的完整句子。本实施例通过截断能针对文书正文长度不同的问题,同时同一文书截取不同的摘要能提升样本的数量。本实施例中设定数量的完整句子的数量为两个或三个,以两个或三个完整的句子来截取,主要是为了防止整段截取或者单一段截取引起的理解歧义。本实施例中双重丢弃采用的方式为:将每一个句子输入同一个编码器,使用不同的dropout获得两个语义相同的句向量,从而达到数据增广的效果。本实施例的编码器采用Transformerencoder编码器,其是一个较为流行的包含了多层多头自注意力的网络架构,该编码器作为语义相似度计算模型的一部分。Dropout的功能是随机抛弃网络中部分节点,重点在随机,本实施例中使用随机的抛弃目的在于让相同输入的情况下,语义相似度计算模型能够活的尽可能一致的结果,因此各种类型的Dropout均可用,可以实现本实施例所需功能。其中,不同的dropout获得的向量特性不同,如果采用一个dropout容易造成两个向量过于相似,无法获得足够的语义知识。本实施例提示学习采用的方式为:通过创建含[MASK]的语句的方式创建Promot模板,将原始法律文书结合prompt模板得到新的句子,将其输入至BERT_UER模型,经处理得到词向量和句向量;其中,prompt模板在[MASK]位置后面预测单词。
本实施例的文书截断流程如图2所示,其将一份法律文书截取为两个句子,提升样本数量。图2中,Texts为需截断的文本,L为人为定义的一个长度,将Texts以L为中点截断为两个子句,Texts main 为前L个词的句子,Texts cut 为后L个词的句子,通过两个句子来提升样本的数量。本实施例的双重丢弃流程如图3所示,图3中E A1 、E A2 、E B1 、E B2 为不同的句向量,一个句向量和其他每个句向量进行对比来获得相似度。Text A 和Text B 为需进行双重丢弃操作的两个文本,将这个两个文本送入模型并进行丢弃操作,单个文本通过丢弃操作会得到两个语义相似的句向量,所以E A1 和E A2 为Text A 丢弃后得到的两个句向量,E B1 和E B2 为Text B 丢弃后得到的句向量。本实施例将每个句向量和其他每个句向量进行对比来获得相似度从而来帮助模型训练。本实施例提示学习的流程如图4所示,原始文书经过prompt模板得到新的句子,将其输入至BERT_UER模型,然后输出得到词向量和句向量。图4中Text original 为原本的样本文本,将其套入定义好的提示学习模板中,会得到一个新的句子Text prompted ,其中,[MASK]是一个词,[SEP] 与[MASK]类似,是模型能够处理的一个特殊字符。之后将新的句子输入至BERT_UER模型,会得到词向量和句向量,hCLS代表一个句子的开头,之后“h 这 ”代表的是词向量,h mask 为所需预测的词向量。
本实施例的语义相似度计算模型基于融合GCN特征的BERT_UER模型实现,其将TextGCN 扩展为特征提取器。其中,融合GCN特征包括编码(encoder)模块和GCN模块两个模块,GCN模块构建在编码模块之上;训练与使用融入GCN特征的语义相似度计算模型包括以下三个步骤:构建异质图,异质图包含标注数据与未标注数据,词节点与文档节点,采用编码模块初始化文档节点;联合训练编码模块与GCN模块;使用训练后的融入GCN特征的语义相似度计算模型进行推理。其中,GCN即图卷积神经网络,是一个对图形数据进行操作的神经网络架构。通常,卷积神经网络的使用场景是图像或者向量化后词向量,用随机的共享的卷积核得到像素点的加权和从而提取到某种特定的特征,然后用反向传播来优化卷积核参数就可以自动的提取特征,是CNN特征提取的基石。然而,现实中更多重要的数据集都是用图的形式存储的,例如社交网络信息、知识图谱、蛋白质网络、万维网等等。这些图网络的形式并不像图像,是排列整齐的矩阵形式,而是非结构化的信息,图卷积神经网络就是一个通用的范式来进行图特征的抽取。本实施例将该任务建模为文本分类的模型,一般说“文本分类”都指的是 Inductive (归纳式) 式的文本分类,简单来说,就是在模型训练过程中仅使用标注数据进行训练,而测试的数据在训练的时候没有见过。本实施例采用Transductive(传导式) 文本分类,其与Inductive不同,在训练的时候也提供未标注的数据,测试时的数据就是这些未标注的数据。所以,Transductive文本分类的目的在于让模型能够从观测到的标注数据推演到观测到的未标注数据,这就通过训练阶段的信息传导实现。过去解决Transductive文本分类的主流方法是使用图网络,如GNN、GCN和GAT,将所有的标注数据与未标注数据都构建在一个图里,图中的结点代表文档或者词,而通过结点之间的信息传递,模型就能在该异质网络中凭借已标注结点的信息推理未标注结点的特征,从而实现Transductive分类。本实施例应用时,大规模预训练也是在学习无标注数据背后的语义信息,将大规模预训练“从纯无标注文本中学习”的能力与图网络“从标注数据泛化到未标注数据”的能力结合,模型在Transductive文本分类上取得的效果能得到显著提升。
基于深度学习模型的法律文书语义相似度评估方法,还包括采用CAIL2019数据集对语义相似度计算模型进行训练,训练步骤包括:使用CAIL2019数据集语料库中的所有法律文书和法律文书中的词对节点进行建模,并使用词到词和词到法律文书的边连接节点,然后使特征信息在语料库通过 GCN 学习进行交互,从而利用语料库级别的整体结构信息。本实施例在对语义相似度计算模型进行训练时,也采用截断、双重丢弃及提示学习的方式对数据集进行划分整合以匹配真实的应用场景。本实施例在模型训练过程中,使用公开数据集CAIL2019比赛中的语义相似度数据集,观察数据集的特点(包括文本长度、文本所属领域、文本所包含的非中文字符数量),将其分为3个子数据集分别单独进行实验来模拟真实低资源场景下的学习从而突出数据增广的特点,并使用CAIL2021比赛中的类案检索数据集来加强验证模型的效果。本实施例训练过程中的数据来源于CAIL2019(司法人工智能挑战赛)的相似案例匹配数据集,此数据集是来自“中国裁判文书网”公开的法律文书,其中每份数据由三篇法律文书组成,对于每份数据,用(D1,D2, D3)来代表改组数据,其中(D1,D2,D3)均对应某一篇文书。在训练数据中,文书数据D1与D2的相似度是大于D1与D3的相似度,即sim(D1, D2)>sim(D1, D3)。法律文书的数据集特点为:1)法律文本有较强的领域属性,法律文本通常会包含较为专业的描述,如罪名、审判等。2)法律文本本身在一定程度上具有结构相似性,且事实描述部分存在很多通用词语,如何对法律文本进行预处理是非常重要。3)法律文本长度很长,使得任务变得更难处理,机器很难解析一篇很长的事实描述,语义表征也是很复杂。本实施例将法律文本与prompt模板拼接,并进行标记化操作,考虑到神经网络能处理的文字长度有限,且批次处理要求同批输入数据长度一致,需要对过长文本进行截断,对较短文本进行填充。
本实施例使用的数据集将相似文本存储在三元组中,三元组用(D1,D2, D3)来代表改组数据,其中(D1,D2, D3)均对应某一篇文书。此处,(D1,D2)即为正样本,需要被模型所学习,(D1, D3)则为负样本,同样要被模型学习。计算机理解人类语言的方式是将语言通过某种方式转化为数字,在本实施例中,这个方式的流程是:(a)分词,将输入的成段文本分解为模型词典最小建模单位,其中,中文以字或词为最小单位,英文以词为最小单位。(b)标记化(Tokenize),将上一步处理的最小单位变为其在词典中的索引。(c)向量化(embedding),为字典中每一个字生成一个词向量,每一个词向量为一个一维向量,使用索引在所有的词向量中查找,找到对应的词向量,每段话包含多个字,将多个字的词向量拼接起来得到句向量。
本实施例以双重丢弃(Double-dropout)来实现对比学习,本实施例的消融实验数据如表1所示。
表1中,D1、D2、D3是将训练数据划分成三个较小的子集,从而创造一个“少样本”的训练测试场景。Valid为全量数据训练验证结果,test为为全量数据训练测试结果,由上述数据可知,本实施例结合截断、双重丢弃及提示学习后性能最优。
本实施例通过prompt得到句子的词向量和句向量,在设计上考虑应用到法律场景,所以设计了prompt模板在[MASK]位置后面预测单词。本实施例就不同的prompt模板对本实施例性能产生的影响进行了比对实验,各prompt模板数据如表2所示。
表2中,D1、D2、D3、Valid及Test含义与表1一致,本实施例采用效果最佳的prompt模板作为最终选用的模板,基于表2的对比实验,其中“这份判决书:{TEXT}[SEP]总结是[MASK]”在D1、D2及Test对应的数据最优,此模板为最优模板,本实施例采用“这份判决书:{TEXT}[SEP]总结是[MASK]”的构造。本实施例通过Prompt得到句子的句向量,在处理数据时,先进行“tokenize”标记化操作,即对输入文本按照设定策略进行分词,将分词结果替换为这些词在“词典”中的索引。本实施例设定策略下,[MASK]是一个词,[SEP] 与[MASK]类似,是模型能够处理的一个特殊字符,其意义在于提醒模型上面一句话和下面一句话有分隔关系。本实施例设定[MASK]的索引为100,[SEP] 的索引为200,“:”的索引为201。举例:Prompt模板中“这份判决书:{TEXT}[SEP]总结是[MASK]”分词结果为:“这份判决书:[SEP]总结是[MASK]”,这句话将最终将变为[1, 2, 3, 4, 5, 201,200,6, 7, 8, 100],即“这(1)份(2)判(3)决(4)书(5):(201) [SEP] (200)总(6)结(7)是(8) [MASK](100)”。
本实施例的候选法律文书有两份以上时,所述步骤四还包括比对所有候选法律文书与目标法律文书的相似度大小,并获得相似度最大的候选法律文书。在有两份候选法律文书时,对于每份数据,本实施例的每份数据(D1,D2, D3)中,D1具体表示为目标法律文书,D2具体表示为第一份候选法律文书,D3具体表示为第二份候选法律文书。本实施例通过计算目标法律文书与第一份候选法律文书的相似度sim(D1, D2) 、目标法律文书与第二份候选法律文书的相似度 sim(D1, D3),并比较两者之间的大小关系,从而判断与目标文书最相似的候选文书。
实现上述基于深度学习模型的法律文书语义相似度评估方法的系统,包括:文书获取模块,用于获取目标法律文书和候选法律文书,并获取目标法律文书和候选法律文书各自的样本、句向量及词向量;数据处理模块,用于对目标法律文书和候选法律文书两者的样本、句向量及词向量进行数据增广;相似度计算模块,用于接收增广后的数据,对目标法律文书与候选法律文书语义相似度进行计算,并输出语义相似度计算结果。其中,数据处理模块和相似度计算模块作为语义相似度计算模型的组成部分。
本实施例应用时,利用对比学习的思想,使用截断、dropout来进行数据增强,利用提示学习(Prompt Learning)的思想首次将提示应用于模型以进行数据增强,构建了专门的Prompt模板,本实施例将Bert和GCN融合成为特征提取模型,能重新组织数据集以满足小样本低资源环境的需求。本实施例基于深度学习模型实现,并基于CAIL2019进行测试以验证方案有效性,在实际应用时,依赖于实际场景实施。
本实施的语义相似度计算模型与现有文本分类模型文本神经网络TextCNN、文本长短期记忆网络TextLSTM、文本图卷积神经网络TextGCN、双向编码器BERTbase及双向编码器预训练BERTuer对比结果如表3所示。
表3中,D1、D2、D3、Valid及Test含义与表1一致,由表3的数据可知,本实施例的模型应用时,较现有文本分类模型的性能有显著提升。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.基于深度学习模型的法律文书语义相似度评估方法,其特征在于,包括:
步骤一、获取目标法律文书和候选法律文书,并获取目标法律文书和候选法律文书各自的样本、句向量及词向量;
步骤二、在语义相似度计算模型中对目标法律文书和候选法律文书两者的样本、句向量及词向量进行数据增广;
步骤三、基于语义相似度计算模型和增广后的数据,对目标法律文书与候选法律文书语义相似度进行计算;
步骤四、获得目标法律文书与候选法律文书语义相似度计算结果。
2.根据权利要求1所述的基于深度学习模型的法律文书语义相似度评估方法,其特征在于,所述步骤二中数据增广采用的方法包括截断、双重丢弃及提示学习;
所述截断采用的方式为:针对法律文书截取不同的摘要形成多个样本,其中,摘要为设定数量的完整句子;
所述双重丢弃采用的方式为:将每一个句子输入同一个编码器,使用不同的dropout获得两个语义相同的句向量;
所述提示学习采用的方式为:通过创建含[MASK]的语句的方式创建Promot模板,将原始法律文书结合prompt模板得到新的句子,将其输入至BERT_UER模型,经处理得到词向量和句向量;其中,prompt模板在[MASK]位置后面预测单词。
3.根据权利要求1所述的基于深度学习模型的法律文书语义相似度评估方法,其特征在于,所述语义相似度计算模型基于融合GCN特征的BERT_UER模型实现,其将 TextGCN 扩展为特征提取器。
4.根据权利要求3所述的基于深度学习模型的法律文书语义相似度评估方法,其特征在于,所述融合GCN特征包括编码模块和GCN模块两个模块,GCN模块构建在编码模块之上;训练与使用融入GCN特征的语义相似度计算模型包括以下三个步骤:
构建异质图,异质图包含标注数据与未标注数据,词节点与文档节点,采用编码模块初始化文档节点;
联合训练编码模块与GCN模块;
使用训练后的融入GCN特征的语义相似度计算模型进行推理。
5.根据权利要求3所述的基于深度学习模型的法律文书语义相似度评估方法,其特征在于,还包括采用CAIL2019数据集对语义相似度计算模型进行训练,所述训练步骤包括:
使用CAIL2019数据集语料库中的所有法律文书和法律文书中的词对节点进行建模,并使用词到词和词到法律文书的边连接节点,然后使特征信息在语料库通过 GCN 学习进行交互,从而利用语料库级别的整体结构信息。
6.根据权利要求1所述的基于深度学习模型的法律文书语义相似度评估方法,其特征在于,还包括将句向量和词向量转化为数字,其转化步骤为:
(a)分词,将输入的成段文本分解为模型词典最小建模单位,其中,中文以字或词为最小单位,英文以词为最小单位;
(b)标记化,将上一步处理的最小单位变为其在词典中的索引;
(c)向量化,为字典中每一个字生成一个词向量,每一个词向量为一个一维向量,使用索引在所有的词向量中查找,找到对应的词向量,每段话包含多个字,将多个字的词向量拼接起来得到句向量。
7.根据权利要求1~6中任意一项所述的基于深度学习模型的法律文书语义相似度评估方法,其特征在于,所述候选法律文书有两份以上时,所述步骤四还包括比对所有候选法律文书与目标法律文书的相似度大小,并获得相似度最大的候选法律文书。
8.实现权利要求1~7中任意一项所述的基于深度学习模型的法律文书语义相似度评估方法的系统,其特征在于,包括:
文书获取模块,用于获取目标法律文书和候选法律文书,并获取目标法律文书和候选法律文书各自的样本、句向量及词向量;
数据处理模块,用于对目标法律文书和候选法律文书两者的样本、句向量及词向量进行数据增广;
相似度计算模块,用于接收增广后的数据,对目标法律文书与候选法律文书语义相似度进行计算,并输出语义相似度计算结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210809525.4A CN114881043B (zh) | 2022-07-11 | 2022-07-11 | 基于深度学习模型的法律文书语义相似度评估方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210809525.4A CN114881043B (zh) | 2022-07-11 | 2022-07-11 | 基于深度学习模型的法律文书语义相似度评估方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114881043A true CN114881043A (zh) | 2022-08-09 |
CN114881043B CN114881043B (zh) | 2022-11-18 |
Family
ID=82682610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210809525.4A Active CN114881043B (zh) | 2022-07-11 | 2022-07-11 | 基于深度学习模型的法律文书语义相似度评估方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114881043B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115204143A (zh) * | 2022-09-19 | 2022-10-18 | 江苏移动信息系统集成有限公司 | 一种基于prompt的文本相似度计算方法及系统 |
CN116069903A (zh) * | 2023-03-02 | 2023-05-05 | 特斯联科技集团有限公司 | 一种类案检索方法、系统、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107807962A (zh) * | 2017-10-11 | 2018-03-16 | 中国软件与技术服务股份有限公司 | 一种使用lda主题模型对法律判决文书进行相似度匹配的方法 |
CN110046241A (zh) * | 2019-04-18 | 2019-07-23 | 武汉大学 | 基于自动对比文章相似度辅助法律文书检错方法及系统 |
CN111737420A (zh) * | 2020-08-07 | 2020-10-02 | 四川大学 | 一种基于争议焦点的类案检索方法及系统及装置及介质 |
CN113051903A (zh) * | 2021-04-21 | 2021-06-29 | 哈尔滨工业大学 | 语句、案件经过、量刑情节和司法文书一致性比对方法 |
CN113312474A (zh) * | 2020-02-27 | 2021-08-27 | 北京睿客邦科技有限公司 | 一种基于深度学习的法律文书的相似案件智能检索系统 |
CN113869005A (zh) * | 2021-09-22 | 2021-12-31 | 的卢技术有限公司 | 一种基于语句相似度的预训练模型方法和系统 |
CN114036933A (zh) * | 2022-01-10 | 2022-02-11 | 湖南工商大学 | 基于法律文书的信息抽取方法 |
CN114048305A (zh) * | 2021-11-05 | 2022-02-15 | 山东大学 | 一种基于图卷积神经网络的行政处罚文书的类案推荐方法 |
CN114239539A (zh) * | 2021-12-21 | 2022-03-25 | 武汉天喻信息产业股份有限公司 | 一种英语作文离题检测方法及装置 |
US20220164655A1 (en) * | 2020-11-20 | 2022-05-26 | Cohere Inc. | Training Transformers Using Sliceout |
-
2022
- 2022-07-11 CN CN202210809525.4A patent/CN114881043B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107807962A (zh) * | 2017-10-11 | 2018-03-16 | 中国软件与技术服务股份有限公司 | 一种使用lda主题模型对法律判决文书进行相似度匹配的方法 |
CN110046241A (zh) * | 2019-04-18 | 2019-07-23 | 武汉大学 | 基于自动对比文章相似度辅助法律文书检错方法及系统 |
CN113312474A (zh) * | 2020-02-27 | 2021-08-27 | 北京睿客邦科技有限公司 | 一种基于深度学习的法律文书的相似案件智能检索系统 |
CN111737420A (zh) * | 2020-08-07 | 2020-10-02 | 四川大学 | 一种基于争议焦点的类案检索方法及系统及装置及介质 |
US20220164655A1 (en) * | 2020-11-20 | 2022-05-26 | Cohere Inc. | Training Transformers Using Sliceout |
CN113051903A (zh) * | 2021-04-21 | 2021-06-29 | 哈尔滨工业大学 | 语句、案件经过、量刑情节和司法文书一致性比对方法 |
CN113869005A (zh) * | 2021-09-22 | 2021-12-31 | 的卢技术有限公司 | 一种基于语句相似度的预训练模型方法和系统 |
CN114048305A (zh) * | 2021-11-05 | 2022-02-15 | 山东大学 | 一种基于图卷积神经网络的行政处罚文书的类案推荐方法 |
CN114239539A (zh) * | 2021-12-21 | 2022-03-25 | 武汉天喻信息产业股份有限公司 | 一种英语作文离题检测方法及装置 |
CN114036933A (zh) * | 2022-01-10 | 2022-02-11 | 湖南工商大学 | 基于法律文书的信息抽取方法 |
Non-Patent Citations (2)
Title |
---|
以沐、: "Prompt Learning-1:继Fine-Tuning之后的最新范式不再神秘", 《BLOG.CSDN.NET/SINAT_32332805/ARTICLE/DETAILS/1224299599》 * |
孙留倩: "基于本体的多源数据融合方法研究与应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115204143A (zh) * | 2022-09-19 | 2022-10-18 | 江苏移动信息系统集成有限公司 | 一种基于prompt的文本相似度计算方法及系统 |
CN115204143B (zh) * | 2022-09-19 | 2022-12-20 | 江苏移动信息系统集成有限公司 | 一种基于prompt的文本相似度计算方法及系统 |
CN116069903A (zh) * | 2023-03-02 | 2023-05-05 | 特斯联科技集团有限公司 | 一种类案检索方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114881043B (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110119786B (zh) | 文本话题分类方法及装置 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN112231447B (zh) | 一种中文文档事件抽取的方法和系统 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN109871955B (zh) | 一种航空安全事故因果关系抽取方法 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN114881043B (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
CN112541337B (zh) | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 | |
CN112883193A (zh) | 一种文本分类模型的训练方法、装置、设备以及可读介质 | |
CN109062904B (zh) | 逻辑谓词提取方法和装置 | |
CN111259153B (zh) | 一种完全注意力机制的属性级情感分析方法 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
CN116127090B (zh) | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN112733547A (zh) | 一种利用语义依存分析的中文问句语义理解方法 | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Celikyilmaz et al. | A graph-based semi-supervised learning for question-answering | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN113378024B (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |