CN114065760A - 基于预训练语言模型的法律文本类案检索方法及系统 - Google Patents

基于预训练语言模型的法律文本类案检索方法及系统 Download PDF

Info

Publication number
CN114065760A
CN114065760A CN202210040271.4A CN202210040271A CN114065760A CN 114065760 A CN114065760 A CN 114065760A CN 202210040271 A CN202210040271 A CN 202210040271A CN 114065760 A CN114065760 A CN 114065760A
Authority
CN
China
Prior art keywords
data
model
training
sentence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210040271.4A
Other languages
English (en)
Other versions
CN114065760B (zh
Inventor
李芳芳
苏朴真
邓晓衡
张健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202210040271.4A priority Critical patent/CN114065760B/zh
Publication of CN114065760A publication Critical patent/CN114065760A/zh
Application granted granted Critical
Publication of CN114065760B publication Critical patent/CN114065760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于预训练语言模型的法律文本类案检索方法及系统,包括:根据原始法律主句文本数据和检索池文本数据,将待检索的法律文本类案信息整理成包括有主句和被检索句的数据信息作为模型训练的输入数据;将所述输入数据中的主句和被检索句进行分词处理和无效词性筛选,基于人工构建的罪名表定位函数得到最终具有关键信息的数据;对所述具有关键信息的数据进行位置向量的计算,确定数据之间的位置关系;利用训练好的预训练语言模型,检索出与查询主句案例相关的法律文本类案。最大限度的保留了有效文本特征,又减少了文本的长度,同时也保证了文本语义信息不被破坏、强化了重点特征的占比。在数据上、本质上提高了模型的精度和性能。

Description

基于预训练语言模型的法律文本类案检索方法及系统
技术领域
本发明涉及类案检索技术领域,特别涉及一种基于预训练语言模型的法律文本类案检索方法及系统。
背景技术
类案检索,是落实司法责任制要求、推行司法制约监督、促进法律适用统一的一项重要制度。相似案件,通常指要件事实、案情事实相同或相似的案件或者对于案件中事实情节、犯罪主体、犯罪手段、犯罪目的、犯罪结果都相似的案件。类案检索是为了利用已经解决了的案例,当遇到相似的案例时可以提供给法官一些可供参考的方法。目前虽然形成了若干类案检索平台,但是其在类案智慧判断、类案检索方式、类案对象归纳与排列、类案检索服务等方面存在一定的不足。当法官进行类案检索时采用的方法绝大部分都是利用案件中的关键字对卷宗集进行检索,但这样并不精准,检索的结果往往是数量巨大的案件,下一步则需要法官人工阅读案例,逐个比对判断相似与否这就耗费了很多时间。而随着互联网时代的到来,人工智能时代的到来,通过计算机辅助法官形成智慧法院已经成为现实。
目前对于法律文本类案检索的方法主要有基于Bm25、Jaccard相似度等经典算法和基于Word2Vec、RCNN、LSTM等传统深度神经网络两个大类。但这两类方法都存在着一定的问题和不足,基于Bm25、Jaccard相似度等经典算法对于文本长度没有限制,但其检索性能相比于深度神经网络来说要逊色很多。而对基于深度神经网络的方法来说,往往需要十分充足的数据量来对模型进行训练以支撑后续的检索效果,同时模型性能也十分受限于文本长度。
发明内容
本发明提供了一种基于预训练语言模型的法律文本类案检索方法及系统,其目的是为了提高模型的精度和推理能力,提升模型的检索性能。
为了达到上述目的,本发明提供了一种基于预训练语言模型的法律文本类案检索方法,包括:
步骤1,根据原始法律主句文本数据和检索池文本数据,将待检索的法律文本类案信息整理成包括有主句和被检索句的数据信息作为模型训练的输入数据;
步骤2,将所述输入数据中的主句和被检索句进行分词处理和无效词性筛选,基于人工构建的罪名表定位函数得到最终具有关键信息的数据;
步骤3,对所述具有关键信息的数据进行位置向量的计算,确定数据之间的位置关系;
步骤4,通过对数据进行传递闭包,扩充训练数据中的正样本,并对所述正样本进行对抗训练,采用R-drop的方法提高模型的性能,使模型更好地学习到相似案例之间的关系;
步骤5,采用Roberta预训练模型结合模型进行预测,将对抗训练和R-drop的引入作为输入样本,通过Dropout来生成两次稍有不同的样本,计算出整体模型的损失,增强模型的全局特征提取能力;
步骤6,获取多个查询主句案例,对每一个查询主句案例对应的检索案例池进行筛选,利用训练好的预训练语言模型,检索出与查询主句案例相关的法律文本类案。
其中,所述步骤2包括:
步骤21,将所述输入数据中的主句和被检索句采用根据特殊标点符号作为分句函数判断依据的标准对输入数据进行初步切分;
步骤22,采用jieba词性对初步切分的法律文本句子进行进一步的分词处理,并对分词处理结果进行词性标注,再根据预设的无效词性表对分词后的文本进行词性筛选,过滤掉无效词性的文本,将有效词重组成为有效句后得到初步清洗后的法律文本数据;
步骤23,构建罪名表定位函数,根据句中是否包含罪名表内的罪名条目对初步清洗后的法律文本数据进行句子级的筛选,若当前句中包含罪名表内的罪名条目则保留当前句以及与其相邻的前后距离为2的句子作为相关句子,记录相匹配的罪名条目作为相关罪名,将相关句子重组为处理后的文本,将相关罪名拼接于文本首部得到最终具有关键信息的数据。
其中,所述步骤3具体包括:
对于位置向量的计算我们采用sin和cos函数进行计算,计算过程公式如下所示:
Figure 420300DEST_PATH_IMAGE001
Figure 134178DEST_PATH_IMAGE002
其中,
Figure 445073DEST_PATH_IMAGE003
为位置向量的长度,
Figure 384823DEST_PATH_IMAGE004
为词语的位置,
Figure 730354DEST_PATH_IMAGE005
则代表词语的维度。
其中,所述步骤4包括:
所述对抗训练的公式如下所示:
Figure 83975DEST_PATH_IMAGE006
(3)
其中,D为训练集,x为输入数据,y为标签,
Figure 632899DEST_PATH_IMAGE007
为模型参数,
Figure 362957DEST_PATH_IMAGE008
为单个数据样本的Loss,
Figure 562995DEST_PATH_IMAGE009
为对抗扰动,
Figure 821938DEST_PATH_IMAGE010
为对抗扰动
Figure 107426DEST_PATH_IMAGE009
的扰动空间。
其中,所述步骤4中所述对抗训练的步骤具体包括:
Figure 126328DEST_PATH_IMAGE009
注入训练数据x,其中
Figure 243189DEST_PATH_IMAGE009
的目的在于使得
Figure 954924DEST_PATH_IMAGE008
取到最大值;
Figure 258866DEST_PATH_IMAGE009
加以约束使得其绝对值要小于一个常数,形式如公式:
Figure 799569DEST_PATH_IMAGE011
其中,
Figure 722001DEST_PATH_IMAGE012
为常数;
对于生成的对抗样本
Figure 588326DEST_PATH_IMAGE013
后,以生成的(
Figure 582827DEST_PATH_IMAGE014
作为训练数据来最小化Loss以更新参数
Figure 192800DEST_PATH_IMAGE007
反复执行上述步骤。
其中,所述
Figure 221936DEST_PATH_IMAGE009
的取值以及计算过程包括:
在NLP任务中为了最小化Loss采用的是梯度下降,那么反过来说为了增大单个数据样本的Loss,则需要使梯度上升,故对于
Figure 9894DEST_PATH_IMAGE009
的取值为:
Figure 491691DEST_PATH_IMAGE015
为了防止
Figure 170934DEST_PATH_IMAGE016
过大同时满足
Figure 70888DEST_PATH_IMAGE017
,将
Figure 544595DEST_PATH_IMAGE018
进行标准化处理,标准化方式如以下公式所示:
Figure 248109DEST_PATH_IMAGE019
其中,所述步骤5具体包括:
对Roberta模型加载预训练参数,使模型具有经过大量预训练后获得的语义知识,将输入序列转换为具有丰富语义信息的特征序列;
将预处理后的输入数据进行Embedding表示;
将Embedding表示的输入数据作为Roberta预训练模型的输入,经过数层的Encoder中的Attention计算后,得到了输入数据的特征序列并作为Roberta的输出;
将所述Roberta的输出中一特定特征表达作为一个简单的具有Sigmoid激活函数的全连接网络的输入,并进行相似度判断结果。
本发明还提供了一种基于预训练语言模型的法律文本类案检索系统,包括:
数据预处理模块,用于根据原始法律主句文本数据和检索池文本数据,将待检索的法律文本类案信息整理成包括有主句和被检索句的数据信息作为模型训练的输入数据;
筛选模块,用于将所述输入数据中的主句和被检索句进行分词处理和无效词性筛选,基于人工构建的罪名表定位函数得到最终具有关键信息的数据;
位置向量计算模块,用于对所述具有关键信息的数据进行位置向量的计算,确定数据之间的位置关系;
模型训练模块,用于通过对数据进行传递闭包,扩充训练数据中的正样本,并对所述正样本进行对抗训练,采用R-drop的方法提高模型的性能,使模型更好地学习到相似案例之间的关系;
模型增强模块,用于采用Roberta预训练模型结合模型进行预测,将对抗训练和R-drop的引入作为输入样本,通过Dropout来生成两次稍有不同的样本,计算出整体模型的损失,增强模型的全局特征提取能力;
数据检索模块,用于获取多个查询主句案例,对每一个查询主句案例对应的检索案例池进行筛选,利用训练好的预训练语言模型,检索出与查询主句案例相关的法律文本类案。
本发明的上述方案有如下的有益效果:
本发明的上述实施例所述的基于预训练语言模型的法律文本类案检索方法及系统引入了人工构建的罪名表,使用了特定标点符号进行分句的分句函数,同时采用jieba分词、词性标注的方法对分句结果进行处理,再经过分析构建了无效词性表以筛选、清除词性标注后的无效词,再将处理后的有效词按照句为单位进行拼接,接着根据罪名表进行相关句筛选,最后将相关罪名拼接至文本头,生成特征分布均匀且关键特征突出,长度适合的训练数据,在缩短文本长度的基础上最大程度的保留了特征信息;同时在Embedding时采用了Token、Segment、Position Embedding结合的方法融入了输入文本的词级、段落级、位置级信息,从而提高模型的精度和推理能力。其次采用了传递闭包、对抗训练、R-drop的数据增强方式,通过从数据本身扩充、Embedding层注入扰动、Dropout生成相似文本的三种方法,对训练数据进行增强,使得模型能够在小样本的情况下具有鲁棒性,充分学习相似文本的语义信息;采用了大规模预训练模型Roberta作为模型的主要结构,这样使得使得模型可以通过加载预训练参数来获得充足的语义知识,能够生成特征充分、语义信息丰富的特征表示。从而极大程度上提升了模型的检索性能。
本发明的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
图1为本发明的基于预训练语言模型的法律文本类案检索方法的流程图;
图2为本发明的R-drop结构图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是锁定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
如图1所示,本发明的实施例提供了一种基于预训练语言模型的法律文本类案检索方法,包括:
步骤1,根据原始法律主句文本数据和检索池文本数据,将待检索的法律文本类案信息整理成包括有主句和被检索句的数据信息作为模型训练的输入数据;
步骤2,将所述输入数据中的主句和被检索句进行分词处理和无效词性筛选,基于人工构建的罪名表定位函数得到最终具有关键信息的数据;
步骤3,对所述具有关键信息的数据进行位置向量的计算,确定数据之间的位置关系;
步骤4,通过对数据进行传递闭包,扩充训练数据中的正样本,并对所述正样本进行对抗训练,采用R-drop的方法提高模型的性能,使模型更好地学习到相似案例之间的关系;
步骤5,采用Roberta预训练模型结合模型进行预测,将对抗训练和R-drop的引入作为输入样本,通过Dropout来生成两次稍有不同的样本,计算出整体模型的损失,增强模型的全局特征提取能力;
步骤6,获取多个查询主句案例,对每一个查询主句案例对应的检索案例池进行筛选,利用训练好的预训练语言模型,检索出与查询主句案例相关的法律文本类案。
由于本发明是针对法律文本数据进行类案检索,而几乎所有的法律文本数据长度都超过了NLP任务中能处理的文本长度,同时在法律文本的描述有很多与罪名相关度不高的事实描述,在进行类案检索时无法给模型提供任何有用信息,甚至会干扰模型进行判断,如果不加处理就进行模型的训练,会使模型的性能大打折扣。本发明中首先分别针对输入数据<主句,被检索句>(均为法律文书文本)中的主句和被检索句采用根据特殊标点符号
Figure 199884DEST_PATH_IMAGE021
作为分句函数判断依据的标准对长文本进行初步切分。
根据第一步中的分句函数将超长法律文本进行初步的切分从而减少由于单句长度过长而对jieba分词效果造成的影响,Jieba分词是一个Python库,专门应用于自然语言处理领域中,对中文文本进行分词的工具。在分句完成的基础之上,本方法采用jieba分词对经过分句之后的法律文本句子进行进一步的分词,同时对于每一个句子中分词后的结果进行词性标注,再根据人工分析后构建的无效词性表对分词后的文本进行词性筛选,将词性属于['nr','nr1','nr2','nrj','nrf','ns','nsf','nt','t','m','mq','q','nrfg','nz','r']的词过滤,剩下的词即为有效词,将有效词重组成为有效句后则得到了初步清洗后的法律文本数据。
由于法律判决文书通常长度都大于3000,所以如果仅仅是通过分句分词以及无效词性筛选操作,文本的长度问题仍然不能得到有效的解决,所以为了进一步解决文本长度问题,本发明根据步骤二中得到的初步清洗后的文本,进行基于人工构建的罪名表定位函数,根据句中是否包含罪名表内的罪名条目进行句子级的筛选,若当前句中包含罪名表内的罪名条目则保留当前句以及与其相邻的前后距离为2的句子作为相关句子,同时记录相匹配的罪名条目作为相关罪名。最后将相关句子重组为处理后的文本,并将相关罪名拼接于文本首部得到最终具有关键信息的数据。
相对于NLP任务中传统的文本预处理方式,本发明可以在避免过多冗余信息仍然保留在处理后的文本中的问题,又可以避免误将有助于模型进行相似匹配进而类案检索的关键信息截断,从而有效提升模型性能。
本发明的对所述具有关键信息的数据进行位置向量的计算,确定数据之间的位置关系的步骤是在Embedding方式上,采用了Token Embedding、Segment Embedding、Position Embedding相结合的Embedding方式,具体方式如表1所示。
表1
Figure 219924DEST_PATH_IMAGE023
其中Token Embedding代表输入中以词为单位的Embedding映射,TokenEmbedding中每一个位的值都在词表中有与之唯一对应的词,[CLS]代表ClassificationToken作为最终进行判断是否相似的Token,[SEP]代表Separation Token作为输入文本之间的分隔符。Segment Embedding代表输入中文本的段落信息,如上图所示,“北京欢迎你”属于<A属于,Prediction >中的A部分,所以其Segment Embedding均为0,而“北京欢迎您”则属于<A属于,Prediction >中的B部分,所以其Segment Embedding均为1。PositionEmbedding代表输入序列的位置向量。
对于位置向量的计算我们采用sin和cos函数进行计算。计算过程如公式(1)、(2)所示:
Figure 864532DEST_PATH_IMAGE001
Figure 662199DEST_PATH_IMAGE002
其中
Figure 824190DEST_PATH_IMAGE003
为位置向量的长度,
Figure 167578DEST_PATH_IMAGE004
为词语的位置,
Figure 717508DEST_PATH_IMAGE005
则代表词语的维度。其本质是将一个句子中位置为pos的词语转换成一个
Figure 661193DEST_PATH_IMAGE003
维的位置向量,这个向量中第i个值为PE。使用Token、Segment、Position三种Embedding方式结合的Embedding方式使得数据的信息更为灵活同时也充分融入了词与词之间的位置关系这一重要特征。
类案检索在本质上其实是一个查询主句X以及其对应的检索案例池P中的所有数据Y_i的组合<X,Y_i,Prediction >(i=0,…N)进行相似度判断,并筛选出Prediction超过阈值的组合。而传递闭包则是根据<X,Y_i,Prediction=True>、<X,Y_k,Prediction=True>新生成一个组合<Y_i,Y_k,Prediction=True>,可以有效的对训练数据中的正样本进行扩充。在训练数据有限的情况下,通过对数据进行传递闭包的方式能够有效的扩充训练数据中的正样本,从而使得模型能够更加充分的理解相似文本中的关系,提升对于相似文本的判断性能。
为了在少量训练样本的情况下提升模型鲁棒性,本方法采用了对抗训练对模型的鲁棒性进行提升。对抗训练中的要点在于对于对抗样本的构建,而所谓对抗样本,简单来说即是在原训练样本中注入一些极其微小的扰动,这些微小的扰动是“人所察觉不到”而对模型来说其预测的结果会完全不同。对抗训练则是通过构建对抗样本并将其加入训练数据来增加模型的鲁棒性同时也能提高模型的性能。对抗训练的形式如公式(3)所示:
Figure 954771DEST_PATH_IMAGE024
其中,D为训练集,x为输入数据,y为标签,
Figure 667512DEST_PATH_IMAGE007
为模型参数,
Figure 139076DEST_PATH_IMAGE008
为单个数据样本的Loss,
Figure 304478DEST_PATH_IMAGE009
为对抗扰动,
Figure 401747DEST_PATH_IMAGE010
为对抗扰动
Figure 234574DEST_PATH_IMAGE009
的扰动空间。对抗训练的过程可以描述为以下步骤:
步骤一:将
Figure 126307DEST_PATH_IMAGE009
注入训练数据x,其中
Figure 57966DEST_PATH_IMAGE009
的目的在于使得
Figure 37555DEST_PATH_IMAGE008
取到最大值。同时为了满足“人所察觉不到”而对模型的预测结果造成影响,就要对
Figure 459309DEST_PATH_IMAGE009
加以约束使得其绝对值要小于一个常数,形式如公式(4)所示:
Figure 787522DEST_PATH_IMAGE025
其中
Figure 661937DEST_PATH_IMAGE012
为常数。
步骤二:对于生成的对抗样本
Figure 710795DEST_PATH_IMAGE013
后,以生成的(
Figure 268947DEST_PATH_IMAGE014
作为训练数据来最小化Loss以更新参数
Figure 33641DEST_PATH_IMAGE007
步骤三:反复执行步骤一、二。
而对于
Figure 939892DEST_PATH_IMAGE009
的取值以及计算过程可以描述为以下步骤:
步骤一:在NLP任务中为了最小化Loss采用的是梯度下降,那么反过来说为了增大单个数据样本的Loss,则需要使梯度上升,故对于
Figure 713813DEST_PATH_IMAGE009
的取值可以为公式(5)所示:
Figure 110159DEST_PATH_IMAGE026
步骤二:同时为了防止
Figure 514596DEST_PATH_IMAGE016
过大同时满足
Figure 379915DEST_PATH_IMAGE017
,我们需要将
Figure 160789DEST_PATH_IMAGE018
进行标准化处理,标准化方式如公式(6)所示:
Figure 411642DEST_PATH_IMAGE027
以上即是对抗训练的引入方式,而这些对抗扰动都是加在Embedding层中的。训练数据有限的情况下,通过对训练数据注入扰动,对模型训练加以干扰,这样能够有效的提升模型的鲁棒性即在小扰动下的稳健性,同时经过实验表明,引入对抗训练在模型性能上也能起到使模型性能有效提升的作用。
在法律文书文本类案检索任务的数据相对缺乏,在少样本的情况下,为了提高模型的性能,本方法在模型训练时采用了R-drop的方法来使模型能更好地学习到相似案例之间的关系。R-drop的结构如图2所示。
整个R-drop的流程可以简单描述为,将输入数据A完整的复制一份进入带有Dropout的模型中进行预测,同时由于Dropout是随机选取神经元使其暂时不参与预测,所以对于相同的输入数据A其两次进入模型的输出是不同的,我们可以认为输入数据A以及通过了两个稍有不同的模型,可以分别记为
Figure 331187DEST_PATH_IMAGE028
Figure 198649DEST_PATH_IMAGE029
。同时对于R-drop的Loss函数可以总结为两个部分,如公式(7)、(8)所示:
Figure 533947DEST_PATH_IMAGE030
Figure 904885DEST_PATH_IMAGE031
其中KL为对称KL散度,整体模型的Loss即为
Figure 182283DEST_PATH_IMAGE032
Figure 740303DEST_PATH_IMAGE033
的加权和,如公式(9)所示:
Figure DEST_PATH_IMAGE034
本发明在对抗训练在Embedding层注入扰动来增强模型鲁棒性和性能的基础上添加了R-drop的数据增强方式,利用Dropout层随机使部分神经元不参与预测的方式能够预测出与实际预测十分接近的语义表达,相比于人工添加的在人所看来“有关联”的信息来说通过R-drop的数据增强方式是在模型眼中看起来“有关联”、更加契合模型去理解相似数据之间的关系的方式,通过实验证实添加R-drop后模型的性能有显著提升。
本发明整体采用Roberta预训练模型结合进行预测时的步骤为:
步骤一:对Roberta模型加载预训练参数,使得模型具有经过大量预训练后获得的语义知识,能够将输入序列转换为具有丰富语义信息的特征序列。
步骤二:将预处理后的输入数据<查询主句A,检索池句B>,进行Embedding,对于Token Embedding部分的表示为[CLS][查询主句A][SEP][检索池句B][SEP],其中[CLS]为融入了全局信息以后专门用于判断是否相似的Token,[SEP]为不同段之间的分割Token,[查询主句A]和[检索池句B]均为分词后每个词对应的Token Embedding,对于SegmentEmbedding部分的表示,[CLS][查询主句A][SEP]均为0,[检索池句B][SEP]均为1,而对于Position Embedding则是分别针对句A、句B来进行Position Embedding的计算。由此得到输入数据<查询主句A,检索池句B>的Embedding表示。
步骤三:将步骤二的Embedding表示作为Roberta预训练模型的输入,经过数层的Encoder中的Attention计算后,得到了输入数据的特征序列并作为Roberta的输出。
步骤四:将步骤三中Roberta输出中对应[CLS]Token的特征表达作为一个简单的具有Sigmoid激活函数的FCN(Fully Connected Network,全连接网络)的输入,进行相似度判断,并得到输出0或1,其中0代表不相似,1代表相似。
对抗训练以及R-drop均是在模型训练时采用的数据增强方式,在模型进行预测时,对抗训练与R-drop均不使用,同时对抗训练的引入是在Embedding层,而R-drop的引入是针对输入样本,将其两次输入模型,通过Dropout来生成两次稍有不同的样本,再由公式(7) 、(8)、(9)计算整体模型的Loss。
本发明从特征提取上来说,拥有自注意力机制的Roberta能够很好的获得上下文相关的双向特征表示。从下游任务上来说,经过大规模数据预训练后的Roberta能够更方便的融入到下游任务上,只需要通过简单的FCN进行少量数据的Fine-Tuning即可。从模型性能上来说,采用Roberta的方法在各项指标上都远高于传统深度学习模型以及机器学习方法。
待上述的模型训练好之后,使用基于预训练语言模型进行法律文本类案检索,具体流程为:给定多个查询主句案例,每一个查询主句案例都有一个检索案例池,对检索案例池进行筛选,检索出每个与查询主句案例相关的类案。
本发明的上述实施例所述的基于预训练语言模型的法律文本类案检索方法及系统引入了人工构建的罪名表,使用了特定标点符号进行分句的分句函数,同时采用jieba分词、词性标注的方法对分句结果进行处理,再经过分析构建了无效词性表以筛选、清除词性标注后的无效词,再将处理后的有效词按照句为单位进行拼接,接着根据罪名表进行相关句筛选,最后将相关罪名拼接至文本头,生成特征分布均匀且关键特征突出,长度适合的训练数据,在缩短文本长度的基础上最大程度的保留了特征信息;同时在Embedding时采用了Token、Segment、Position Embedding结合的方法融入了输入文本的词级、段落级、位置级信息,从而提高模型的精度和推理能力。其次采用了传递闭包、对抗训练、R-drop的数据增强方式,通过从数据本身扩充、Embedding层注入扰动、Dropout生成相似文本的三种方法,对训练数据进行增强,使得模型能够在小样本的情况下具有鲁棒性,充分学习相似文本的语义信息;采用了大规模预训练模型Roberta作为模型的主要结构,这样使得使得模型可以通过加载预训练参数来获得充足的语义知识,能够生成特征充分、语义信息丰富的特征表示。从而极大程度上提升了模型的检索性能。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于预训练语言模型的法律文本类案检索方法,其特征在于,包括:
步骤1,根据原始法律主句文本数据和检索池文本数据,将待检索的法律文本类案信息整理成包括有主句和被检索句的数据信息作为模型训练的输入数据;
步骤2,将所述输入数据中的主句和被检索句进行分词处理和无效词性筛选,基于人工构建的罪名表定位函数得到最终具有关键信息的数据;
步骤3,对所述具有关键信息的数据进行位置向量的计算,确定数据之间的位置关系;
步骤4,通过对数据进行传递闭包,扩充训练数据中的正样本,并对所述正样本进行对抗训练,采用R-drop的方法提高模型的性能,使模型更好地学习到相似案例之间的关系;
步骤5,采用Roberta预训练模型结合模型进行预测,将对抗训练和R-drop的引入作为输入样本,通过Dropout来生成两次稍有不同的样本,计算出整体模型的损失,增强模型的全局特征提取能力;
步骤6,获取多个查询主句案例,对每一个查询主句案例对应的检索案例池进行筛选,利用训练好的预训练语言模型,检索出与查询主句案例相关的法律文本类案。
2.根据权利要求1所述的基于预训练语言模型的法律文本类案检索方法,其特征在于,所述步骤2包括:
步骤21,将所述输入数据中的主句和被检索句采用根据特殊标点符号作为分句函数判断依据的标准对输入数据进行初步切分;
步骤22,采用jieba词性对初步切分的法律文本句子进行进一步的分词处理,并对分词处理结果进行词性标注,再根据预设的无效词性表对分词后的文本进行词性筛选,过滤掉无效词性的文本,将有效词重组成为有效句后得到初步清洗后的法律文本数据;
步骤23,构建罪名表定位函数,根据句中是否包含罪名表内的罪名条目对初步清洗后的法律文本数据进行句子级的筛选,若当前句中包含罪名表内的罪名条目则保留当前句以及与其相邻的前后距离为2的句子作为相关句子,记录相匹配的罪名条目作为相关罪名,将相关句子重组为处理后的文本,将相关罪名拼接于文本首部得到最终具有关键信息的数据。
3.根据权利要求1所述的基于预训练语言模型的法律文本类案检索方法,其特征在于,所述步骤3具体包括:
对于位置向量的计算我们采用sin和cos函数进行计算,计算过程公式如下所示:
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
为位置向量的长度,
Figure DEST_PATH_IMAGE004
为词语的位置,
Figure DEST_PATH_IMAGE005
代表词语的维度。
4.根据权利要求1所述的基于预训练语言模型的法律文本类案检索方法,其特征在于,所述步骤4包括:
所述对抗训练的公式如下所示:
Figure DEST_PATH_954771DEST_PATH_IMAGE024
其中,D为训练集,x为输入数据,y为标签,
Figure DEST_PATH_IMAGE008
为模型参数,
Figure DEST_PATH_IMAGE009
为单个数据样本的Loss,
Figure DEST_PATH_IMAGE010
为对抗扰动,
Figure DEST_PATH_IMAGE011
为对抗扰动
Figure 335271DEST_PATH_IMAGE010
的扰动空间。
5.根据权利要求4所述的基于预训练语言模型的法律文本类案检索方法,其特征在于,所述步骤4中所述对抗训练的步骤具体包括:
Figure DEST_PATH_IMAGE012
注入训练数据x,其中
Figure 614942DEST_PATH_IMAGE012
的目的在于使得
Figure DEST_PATH_IMAGE013
取到最大值;
Figure 149829DEST_PATH_IMAGE010
加以约束使得其绝对值要小于一个常数,形式如公式:
Figure DEST_PATH_IMAGE015
其中,
Figure DEST_PATH_IMAGE016
为常数;
对于生成的对抗样本
Figure DEST_PATH_IMAGE017
后,以生成的(
Figure DEST_PATH_IMAGE018
作为训练数据来最小化Loss以更新参数
Figure 390842DEST_PATH_IMAGE008
反复执行上述步骤。
6.根据权利要求5所述的基于预训练语言模型的法律文本类案检索方法,其特征在于,所述
Figure 847231DEST_PATH_IMAGE012
的取值以及计算过程包括:
在NLP任务中为了最小化Loss采用的是梯度下降,那么反过来说为了增大单个数据样本的Loss,则需要使梯度上升,故对于
Figure 602697DEST_PATH_IMAGE010
的取值为:
Figure DEST_PATH_IMAGE020
为了防止
Figure 788828DEST_PATH_IMAGE010
过大同时满足
Figure DEST_PATH_IMAGE021
,将
Figure DEST_PATH_IMAGE022
进行标准化处理,标准化方式如以下公式所示:
Figure DEST_PATH_IMAGE024
7.根据权利要求6所述的基于预训练语言模型的法律文本类案检索方法,其特征在于,所述步骤5具体包括:
对Roberta模型加载预训练参数,使模型具有经过大量预训练后获得的语义知识,将输入序列转换为具有丰富语义信息的特征序列;
将预处理后的输入数据进行Embedding表示;
将Embedding表示的输入数据作为Roberta预训练模型的输入,经过数层的Encoder中的Attention计算后,得到了输入数据的特征序列并作为Roberta的输出;
将所述Roberta的输出中一特定特征表达作为一个简单的具有Sigmoid激活函数的全连接网络的输入,并进行相似度判断结果。
8.一种基于预训练语言模型的法律文本类案检索系统,其特征在于,包括:
数据预处理模块,用于根据原始法律主句文本数据和检索池文本数据,将待检索的法律文本类案信息整理成包括有主句和被检索句的数据信息作为模型训练的输入数据;
筛选模块,用于将所述输入数据中的主句和被检索句进行分词处理和无效词性筛选,基于人工构建的罪名表定位函数得到最终具有关键信息的数据;
位置向量计算模块,用于对所述具有关键信息的数据进行位置向量的计算,确定数据之间的位置关系;
模型训练模块,用于通过对数据进行传递闭包,扩充训练数据中的正样本,并对所述正样本进行对抗训练,采用R-drop的方法提高模型的性能,使模型更好地学习到相似案例之间的关系;
模型增强模块,用于采用Roberta预训练模型结合模型进行预测,将对抗训练和R-drop的引入作为输入样本,通过Dropout来生成两次稍有不同的样本,计算出整体模型的损失,增强模型的全局特征提取能力;
数据检索模块,用于获取多个查询主句案例,对每一个查询主句案例对应的检索案例池进行筛选,利用训练好的预训练语言模型,检索出与查询主句案例相关的法律文本类案。
CN202210040271.4A 2022-01-14 2022-01-14 基于预训练语言模型的法律文本类案检索方法及系统 Active CN114065760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210040271.4A CN114065760B (zh) 2022-01-14 2022-01-14 基于预训练语言模型的法律文本类案检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210040271.4A CN114065760B (zh) 2022-01-14 2022-01-14 基于预训练语言模型的法律文本类案检索方法及系统

Publications (2)

Publication Number Publication Date
CN114065760A true CN114065760A (zh) 2022-02-18
CN114065760B CN114065760B (zh) 2022-06-10

Family

ID=80230883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210040271.4A Active CN114065760B (zh) 2022-01-14 2022-01-14 基于预训练语言模型的法律文本类案检索方法及系统

Country Status (1)

Country Link
CN (1) CN114065760B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547245A (zh) * 2022-02-21 2022-05-27 山东大学 一种基于法律要素的类案检索方法及系统
CN114970525A (zh) * 2022-06-14 2022-08-30 城云科技(中国)有限公司 一种文本同事件识别方法、装置及应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442684A (zh) * 2019-08-14 2019-11-12 山东大学 一种基于文本内容的类案推荐方法
CN113011185A (zh) * 2020-07-17 2021-06-22 上海浦东华宇信息技术有限公司 法律领域文本分析识别方法、系统、存储介质及终端
CN113312914A (zh) * 2021-04-30 2021-08-27 西安理工大学 一种基于预训练模型的安全事件实体识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442684A (zh) * 2019-08-14 2019-11-12 山东大学 一种基于文本内容的类案推荐方法
CN113011185A (zh) * 2020-07-17 2021-06-22 上海浦东华宇信息技术有限公司 法律领域文本分析识别方法、系统、存储介质及终端
CN113312914A (zh) * 2021-04-30 2021-08-27 西安理工大学 一种基于预训练模型的安全事件实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAOJUN XIAO ET.AL: "Lawformer: A pre-trained language model for chinese legal long documents", 《AI OPEN》 *
刘涛: "基于预训练语言模型的自然语言理解方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547245A (zh) * 2022-02-21 2022-05-27 山东大学 一种基于法律要素的类案检索方法及系统
CN114970525A (zh) * 2022-06-14 2022-08-30 城云科技(中国)有限公司 一种文本同事件识别方法、装置及应用

Also Published As

Publication number Publication date
CN114065760B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
US7734556B2 (en) Method and system for discovering knowledge from text documents using associating between concepts and sub-concepts
Daumé III et al. A large-scale exploration of effective global features for a joint entity detection and tracking model
CN110569508A (zh) 融合词性和自注意力机制的情感倾向性分类方法及系统
CN114065760B (zh) 基于预训练语言模型的法律文本类案检索方法及系统
JP7139626B2 (ja) フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム
CN111814477B (zh) 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN114661872B (zh) 一种面向初学者的api自适应推荐方法与系统
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
Song et al. Importance estimation from multiple perspectives for keyphrase extraction
CN116304745B (zh) 基于深层次语义信息的文本话题匹配方法及系统
CN115392252A (zh) 一种融合自注意力与层级残差记忆网络的实体识别方法
US5796926A (en) Method and apparatus for learning information extraction patterns from examples
Barbella et al. Analogical word sense disambiguation
CN116244446A (zh) 社交媒体认知威胁检测方法及系统
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN111091009A (zh) 一种基于语义分析的文档关联审核方法
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
KR102113773B1 (ko) 대화 인지를 위한 규칙 생성 방법, 규칙 기반의 추론 방법 및 그 방법이 적용된 장치
Cohen et al. Understanding the representational power of neural retrieval models using NLP tasks
CN115017356A (zh) 图像文本对的判断方法和装置
KR102106250B1 (ko) 대화 인지를 위한 규칙기반의 사용자 의도 추론 장치
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
Zhang et al. Named Entity Recognition for Terahertz Domain Knowledge Graph based on Albert-BiLSTM-CRF
Nai et al. A densely connected encoder stack approach for multi-type legal machine reading comprehension

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant