CN114610891B - 面向不平衡司法裁判文书数据的法条推荐方法及系统 - Google Patents

面向不平衡司法裁判文书数据的法条推荐方法及系统 Download PDF

Info

Publication number
CN114610891B
CN114610891B CN202210511295.3A CN202210511295A CN114610891B CN 114610891 B CN114610891 B CN 114610891B CN 202210511295 A CN202210511295 A CN 202210511295A CN 114610891 B CN114610891 B CN 114610891B
Authority
CN
China
Prior art keywords
word
neural network
collocation
data
judicial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210511295.3A
Other languages
English (en)
Other versions
CN114610891A (zh
Inventor
陈晓红
郑旭哲
梁伟
吴嘉懿
胡东滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202210511295.3A priority Critical patent/CN114610891B/zh
Publication of CN114610891A publication Critical patent/CN114610891A/zh
Application granted granted Critical
Publication of CN114610891B publication Critical patent/CN114610891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Technology Law (AREA)
  • Primary Health Care (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种面向不平衡司法裁判文书数据的法条推荐方法及系统,将获取的司法裁判文书数据输入模型并预处理,进行序列化得到模型的训练集;将训练集通过基于预训练模型的嵌入层,得到文本的向量表示;将文本向量通过CNN(卷积神经网络)获取文本特征;将训练集通过基于语法依赖信息的词语搭配算法,得到文本的词语搭配特征;将文本特征和词语搭配特征通过神经网络进行融合,得到混合语义向量;将混合语义向量输入到深层神经网络中,输出法条预测结果;基于法条预测结果和真实司法裁判文书的法条标签进行模型训练,并将训练完成的模型用于司法案件的辅助判决,能有效在极度不平衡数据下推荐适用的法条辅助法官进行司法裁判。

Description

面向不平衡司法裁判文书数据的法条推荐方法及系统
技术领域
本发明涉及司法庭审辅助技术领域,特别涉及一种面向不平衡司法裁判文书数据的法条推荐方法及系统。
背景技术
随着法治进程的加快,公民的诉权和可诉范围随之扩大,各级法院每年都在审理越来越多的司法案件,法院中“案多人少”的问题变得更加严重。同时,由于法官判案过程中存在一定的主观倾向性因素,出现“同案不同判”的问题,长时间以来影响着司法公正性。基于人工智能技术的法律条文(简称:法条)推荐方法能够通过从司法裁判文书中提取关键信息并进行分析,提供预测出的法律条文作为法官判案的参考,以提升法官判案的效率和效果。目前,基于深层神经网络的司法法条推荐命中率在测试数据中已取得较好效果。此类方法通常由两阶段操作实现:首先,从裁判文书中提取事实向量文本特征;其次,将提取的特征输入到训练好的深层神经网络中,输出预测的司法法条。然而,由于实际司法判决存在法条类别数量繁多(超过1000以上法条类别)、实际案件类型及所依据的法条极度不平衡(不平衡比超过1:2500,常见研究主要关注不平衡比例在1:100以内的学习问题)等挑战,上述方法实际应用效果往往难以达到司法判决的要求,这将严重影响模型在辅助法官判案过程中的可用性。
现有的不平衡学习方法一般只能有效解决不平衡比在1:100以内的不平衡数据集,在实际使用过程中,超过1:100的不平衡数据会对个别样本产生归纳偏差;并且当少数类数量足够少时,会难以观察其样本结构,导致少数类识别性能急速下降。同时,现实法律中存在相似案件的情况,将导致模型的性能进一步降低。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
本发明的目的是:针对上述背景技术中存在的不足,提供一种能适应极度不平衡司法裁判文书数据集的法条推荐方法,以进一步提升深层神经网络法条预测的准确性,尤其是对于不常见案件、相似案件预测的准确性,而有效地在极度不平衡数据下推荐适用的法条辅助法官进行司法裁判。
为了达到上述目的,本发明提供了一种面向不平衡司法裁判文书数据的法条推荐方法,包括如下步骤:
S1,将获取的司法裁判文书数据输入模型,对原始的裁判文书进行数据预处理,并且将预处理后的文本数据进行序列化得到模型的训练集;
S2,将训练集通过基于预训练模型的嵌入层,得到文本的向量表示;
S3,将文本向量通过CNN(卷积神经网络)获取文本特征;
S4,将训练集通过基于语法依赖信息的词语搭配算法,得到文本的词语搭配特征;
S5,将文本特征和词语搭配特征通过神经网络进行融合,得到混合语义向量;
S6,将混合语义向量输入到深层神经网络中,输出法条预测结果;
S7,基于法条预测结果和真实司法裁判文书的法条标签,计算损失函数,应用反向传播算法学习模型中的参数,完成模型训练并用于司法案件的辅助判决。
进一步地,S1中将司法裁判文书数据进行分词、过滤无意义词、词语序列化方式进行数据处理,得到词语序列
Figure 194887DEST_PATH_IMAGE001
Figure 138572DEST_PATH_IMAGE002
Figure 573096DEST_PATH_IMAGE003
表示词语序列中
Figure 20257DEST_PATH_IMAGE001
的每个单词。
进一步地,S2中对于词语序列
Figure 882034DEST_PATH_IMAGE001
中的每个单词
Figure 47436DEST_PATH_IMAGE003
,通过基于预训练模型的嵌入层将其转换成词嵌入向量
Figure 879126DEST_PATH_IMAGE004
,并且得到词语序列的嵌入矩阵
Figure 587319DEST_PATH_IMAGE005
Figure 479052DEST_PATH_IMAGE006
进一步地,S4中通过句中词语语法依赖信息获取词语的搭配信息,并通过结合注意力机制的双向LSTM(长短期记忆神经网络)将搭配的单词向量合并,得到词语搭配特征。
进一步地,S4具体包括如下子步骤:
S41,通过词语的依赖关系提取词语序列
Figure 505651DEST_PATH_IMAGE001
的词语搭配序列
Figure 406611DEST_PATH_IMAGE007
Figure 969311DEST_PATH_IMAGE008
,其中
Figure 297524DEST_PATH_IMAGE009
Figure 578464DEST_PATH_IMAGE010
代表了
Figure 17535DEST_PATH_IMAGE001
中的两个词;
S42,将每个词转换成其对应的语义向量,得到搭配嵌入
Figure 434741DEST_PATH_IMAGE011
和句向量
Figure 933856DEST_PATH_IMAGE012
,其中
Figure 203556DEST_PATH_IMAGE013
是搭配词语
Figure 321685DEST_PATH_IMAGE014
的嵌入向量;
S43,将每个单词组中的单词嵌入向量
Figure 655714DEST_PATH_IMAGE015
Figure 466676DEST_PATH_IMAGE016
通过一层结合注意力机制的双向LSTM(长短期记忆神经网络)进行合并,得到搭配语义向量
Figure 50104DEST_PATH_IMAGE017
,具体计算公式如下所示:
Figure 96557DEST_PATH_IMAGE018
其中,
Figure 721311DEST_PATH_IMAGE019
是第j时间下LSTM(长短期记忆神经网络)的正向隐藏状态,
Figure 562228DEST_PATH_IMAGE020
是第j时间下LSTM(长短期记忆神经网络)的反向隐藏状态,计算公式如下:
Figure 773898DEST_PATH_IMAGE021
Figure 358463DEST_PATH_IMAGE022
Figure 463822DEST_PATH_IMAGE023
Figure 351007DEST_PATH_IMAGE024
对于每一个搭配语义向量
Figure 440186DEST_PATH_IMAGE017
,将注意力机制应用到词语搭配特征的计算过程中,并且得到词语搭配特征
Figure 438229DEST_PATH_IMAGE025
,其具体的计算方式如下:
Figure 663674DEST_PATH_IMAGE026
其中
Figure 234943DEST_PATH_IMAGE027
是搭配语义向量
Figure 545839DEST_PATH_IMAGE017
的注意力权重值,其计算公式如下:
Figure 206627DEST_PATH_IMAGE028
其中
Figure 427524DEST_PATH_IMAGE029
是权重矩阵,
Figure 781145DEST_PATH_IMAGE030
是激活函数。
进一步地,S5得到混合语义向量
Figure 454703DEST_PATH_IMAGE031
,其计算公式如下:
Figure 184762DEST_PATH_IMAGE032
其中
Figure 994586DEST_PATH_IMAGE033
是神经网络的权重矩阵,
Figure 519108DEST_PATH_IMAGE034
是偏置向量,
Figure 178497DEST_PATH_IMAGE035
是矩阵加法。
进一步地,S6中将混合语义向量输入到使用
Figure 446667DEST_PATH_IMAGE036
作为激活函数的双层神经网络中进行法条的预测:
Figure 501211DEST_PATH_IMAGE037
其中
Figure 72001DEST_PATH_IMAGE038
为双层神经网络函数,
Figure 844785DEST_PATH_IMAGE039
为双层神经网络的参数,
Figure 792012DEST_PATH_IMAGE040
为预测结果。
进一步地,S7中使用损失函数
Figure 435483DEST_PATH_IMAGE041
来进行反向传播以训练神经网络的参数,总体损失函数其计算公式如下:
Figure 442753DEST_PATH_IMAGE042
其中,
Figure 437254DEST_PATH_IMAGE043
是用来表示类别不平衡程度的一个参数,其具体公式为:
Figure 689637DEST_PATH_IMAGE044
给定不同的单个类数据样本大小,
Figure 453194DEST_PATH_IMAGE045
是每个类别所需要的数据样本的最小百分比数,以在训练数据中形成平衡的类分布,
Figure 490420DEST_PATH_IMAGE046
是一个独立超参数;
交叉熵损失函数
Figure 847583DEST_PATH_IMAGE047
的计算公式为:
Figure 261247DEST_PATH_IMAGE048
其中,
Figure 754677DEST_PATH_IMAGE049
是类别数,
Figure 228383DEST_PATH_IMAGE050
是预测向量
Figure 72842DEST_PATH_IMAGE051
Figure 290197DEST_PATH_IMAGE052
个类的预测值,
Figure 762767DEST_PATH_IMAGE053
是标签
Figure 781276DEST_PATH_IMAGE054
的第
Figure 237665DEST_PATH_IMAGE052
个类的真实值;
Figure 868498DEST_PATH_IMAGE055
是类间、类内相对比较函数,将每个少数类样本
Figure 726732DEST_PATH_IMAGE056
定义为三元组
Figure 417608DEST_PATH_IMAGE057
,即
Figure 236659DEST_PATH_IMAGE058
Figure 795817DEST_PATH_IMAGE059
为难分正样本,
Figure 885389DEST_PATH_IMAGE060
为难分负样本,其中
Figure 871799DEST_PATH_IMAGE061
为取前
Figure 912568DEST_PATH_IMAGE061
个难分正负样本,
Figure 9837DEST_PATH_IMAGE062
为超参数,根据三元组来计算损失函数
Figure 577084DEST_PATH_IMAGE063
,具体计算公式如下:
Figure 609762DEST_PATH_IMAGE064
其中,
Figure 262461DEST_PATH_IMAGE065
表示属性的类边界,通常使用固定的间隔值,
Figure 569945DEST_PATH_IMAGE066
Figure 631180DEST_PATH_IMAGE067
是两个样本之间的距离计算公式,
Figure 693814DEST_PATH_IMAGE068
中样本与难分正样本的计算方式和样本与难分负样本两者的计算公式不同,由以下公式给出:
Figure 709174DEST_PATH_IMAGE069
其中,
Figure 148246DEST_PATH_IMAGE070
是模型对于
Figure 565452DEST_PATH_IMAGE071
在目标类别
Figure 798987DEST_PATH_IMAGE052
上得到的预测结果。
本发明还提供了一种面向不平衡司法裁判文书数据的法条推荐系统,包括数据处理模块、文本特征提取及关键特征增强模块、深层神经网络预测模块;
所述数据处理模块用于对原始的裁判文书进行数据预处理,并且将预处理后的文本数据进行序列化得到模型的训练集;
所述文本特征提取和关键特征增强模块用于对训练集文本特征的提取和词语搭配特征的提取;
所述深层神经网络预测模块计算融合文本特征和词语搭配特征的混合语义向量,输出法条推荐的结果,辅助法官进行判案。
本发明的上述方案有如下的有益效果:
本发明提供的面向不平衡司法裁判文书数据的法条推荐方法及系统,通过CNN(卷积神经网络)和词语搭配算法对司法裁判文本进行特征挖掘,并且通过设计少数类纠正损失函数在不平衡学习过程中增大类间距离,从而提升对极度不平衡少数法条类别、及相似类别的预测效果,能有效在极度不平衡数据下推荐适用的法条辅助法官进行司法裁判;
本发明中,通过结合注意力机制的双向LSTM(长短期记忆神经网络)语法依赖词语搭配算法捕获裁判文书数据的语法依赖信息,将其融合至CNN(卷积神经网络)获取的文本特征中得到混合语义向量,降低关键司法语义特征被忽略的可能性,在此基础上针对性设计了极度不平衡少数类纠正训练损失函数,计算少数类与正样本、负样本之间的距离,并设置最小类间距离,从而发现少数类的稀疏采样边界来最小化多数类的主导效应;
本发明的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
图1为本发明的系统示意图;
图2为本发明的双向LSTM(长短期记忆神经网络)示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1:
本发明的实施例1提供了一种面向不平衡司法裁判文书数据的法条推荐方法,针对基于深度神经网络的司法裁判方法的相关缺陷,旨在通过CNN(卷积神经网络)和词语搭配算法对司法裁判文本进行特征挖掘,并且通过设计少数类纠正损失函数在不平衡学习过程中增大类间距离,从而提升对极度不平衡少数法条类别、及相似类别的预测效果。该方法通过结合注意力机制的双向LSTM(长短期记忆神经网络)语法依赖词语搭配算法捕获裁判文书数据的语法依赖信息,将其融合至CNN(卷积神经网络)获取的文本特征中得到混合语义向量,降低关键司法语义特征被忽略的可能性;在此基础上,针对性设计了极度不平衡少数类纠正训练损失函数,计算少数类与正样本、负样本之间的距离,并设置最小类间距离,从而发现少数类的稀疏采样边界来最小化多数类的主导效应。
该方法具体包括如下步骤:
S1,将获取的司法裁判文书数据输入到整个模型中,通过分词、过滤无意义词、提取关键信息等方式对原始的裁判文书进行数据预处理,并且将预处理后的文本数据进行序列化得到模型的训练集;
其中,将司法裁判文书数据进行分词、过滤无意义词、词语序列化等方式进行数据处理,得到词语序列
Figure 426277DEST_PATH_IMAGE001
Figure 544406DEST_PATH_IMAGE002
S2,将训练集通过基于预训练模型的嵌入层,得到文本的向量表示;
其中,对于词语序列
Figure 940752DEST_PATH_IMAGE001
中的每个单词
Figure 722020DEST_PATH_IMAGE003
,通过基于预训练模型的嵌入层将其转换成词嵌入向量
Figure 836607DEST_PATH_IMAGE004
,并且得到词语序列的嵌入矩阵
Figure 758426DEST_PATH_IMAGE005
Figure 9279DEST_PATH_IMAGE006
S3,将文本向量通过CNN(卷积神经网络)获取文本特征;
其中,将
Figure 725562DEST_PATH_IMAGE005
输入CNN卷积层和最大池化层进行计算,生成事实信息的文本特征
Figure 327445DEST_PATH_IMAGE072
,其中
Figure 787376DEST_PATH_IMAGE073
Figure 158315DEST_PATH_IMAGE074
是由
Figure 544034DEST_PATH_IMAGE075
Figure 633213DEST_PATH_IMAGE076
组成的嵌入矩阵经过卷积和最大池化得到的向量。
S4,将训练集通过基于语法依赖信息的词语搭配算法,得到文本的词语搭配特征;
其中,词语搭配特征提取主要通过句中词语语法依赖信息获取词语的搭配信息,并通过结合注意力机制的双向LSTM(长短期记忆神经网络)将搭配的单词向量合并,得到词语搭配特征。其具体过程如下:
S41,通过词语的依赖关系提取词语序列
Figure 427994DEST_PATH_IMAGE001
的词语搭配序列
Figure 528805DEST_PATH_IMAGE007
Figure 977104DEST_PATH_IMAGE008
,其中
Figure 897786DEST_PATH_IMAGE009
Figure 595791DEST_PATH_IMAGE010
代表了
Figure 941322DEST_PATH_IMAGE001
中的两个词。
S42,将每个词转换成其对应的语义向量,得到搭配嵌入
Figure 170309DEST_PATH_IMAGE011
和句向量
Figure 968501DEST_PATH_IMAGE012
,其中
Figure 432980DEST_PATH_IMAGE013
是搭配词语
Figure 6919DEST_PATH_IMAGE014
的嵌入向量。
S43,将每个单词组中的单词嵌入向量
Figure 531441DEST_PATH_IMAGE015
Figure 426716DEST_PATH_IMAGE016
通过一层结合注意力机制的双向LSTM(长短期记忆神经网络)进行合并,得到搭配语义向量
Figure 694886DEST_PATH_IMAGE017
,具体计算方式如下公式所示:
Figure 624796DEST_PATH_IMAGE077
其中,
Figure 585799DEST_PATH_IMAGE019
是第j时间下LSTM(长短期记忆神经网络)的正向隐藏状态,
Figure 93003DEST_PATH_IMAGE020
是第j时间下LSTM(长短期记忆神经网络)的反向隐藏状态,如图2所示,其计算公式如下:
Figure 774652DEST_PATH_IMAGE078
Figure 949281DEST_PATH_IMAGE079
Figure 926858DEST_PATH_IMAGE080
Figure 452517DEST_PATH_IMAGE081
由于不同的词语搭配有不同的重要性,会对结果有不同的影响,因此对于每一个搭配语义向量
Figure 937856DEST_PATH_IMAGE017
,将注意力机制应用到词语搭配特征的计算过程中,并且得到词语搭配特征
Figure 701413DEST_PATH_IMAGE025
,其具体的计算方式如下:
Figure 879584DEST_PATH_IMAGE082
其中
Figure 361381DEST_PATH_IMAGE003
是搭配语义向量
Figure 650411DEST_PATH_IMAGE017
的注意力权重值,其计算公式如下:
Figure 268474DEST_PATH_IMAGE083
其中
Figure 742181DEST_PATH_IMAGE029
是权重矩阵,
Figure 85175DEST_PATH_IMAGE030
是激活函数。
S5,将文本特征和词语搭配特征通过神经网络进行融合,得到混合语义向量;
具体地,得到混合语义向量
Figure 771372DEST_PATH_IMAGE031
,其计算公式如下:
Figure 650466DEST_PATH_IMAGE084
其中
Figure 295074DEST_PATH_IMAGE033
是神经网络的权重矩阵,
Figure 626829DEST_PATH_IMAGE034
是偏置向量,
Figure 116716DEST_PATH_IMAGE035
是矩阵加法。混合语义向量是融合了文本特征和词语搭配特征的新特征矩阵。
S6,将混合语义向量输入到深层神经网络中,输出法条预测结果;
具体地,将混合语义向量输入到使用
Figure 709372DEST_PATH_IMAGE036
作为激活函数的双层神经网络中进行法条的预测:
Figure 400247DEST_PATH_IMAGE085
其中
Figure 78353DEST_PATH_IMAGE038
为双层神经网络函数,
Figure 279921DEST_PATH_IMAGE039
为双层神经网络的参数,
Figure 727083DEST_PATH_IMAGE040
为预测结果。
S7,基于法条预测结果和真实司法裁判文书的法条标签,计算损失函数,应用反向传播算法学习所提出模型中的参数,训练完的模型可应用于司法案件的辅助判决。
具体地,使用损失函数
Figure 323280DEST_PATH_IMAGE041
来进行反向传播以训练神经网络的参数。在训练过程中,由于数据不平衡导致的模型产生归纳偏差,从而不平衡数据中的少数类样本学习效果差。因此通过将少数类纠正损失函数
Figure 488682DEST_PATH_IMAGE086
和标准交叉熵损失函数(Cross-Entropy)
Figure 585951DEST_PATH_IMAGE087
结合,使模型能够更加关注少数类,总体损失函数其计算公式如下:
Figure 294144DEST_PATH_IMAGE088
其中,
Figure 185877DEST_PATH_IMAGE043
是用来表示类别不平衡程度的一个参数,其具体公式为:
Figure 713941DEST_PATH_IMAGE089
给定不同的单个类数据样本大小,
Figure 614901DEST_PATH_IMAGE045
是每个类别所需要的数据样本的最小百分比数,以便在训练数据中形成平衡的类分布,
Figure 410557DEST_PATH_IMAGE046
是一个独立超参数。
交叉熵损失函数
Figure 738770DEST_PATH_IMAGE047
的计算公式为:
Figure 754130DEST_PATH_IMAGE090
其中,
Figure 724360DEST_PATH_IMAGE049
是类别数,
Figure 875987DEST_PATH_IMAGE050
是预测向量
Figure 375102DEST_PATH_IMAGE051
Figure 877758DEST_PATH_IMAGE052
个类的预测值,
Figure 386100DEST_PATH_IMAGE053
是标签
Figure 159277DEST_PATH_IMAGE054
的第
Figure 829293DEST_PATH_IMAGE052
个类的真实值。
Figure 84825DEST_PATH_IMAGE086
是类间、类内相对比较函数。为了充分利用少数类别样本,将每个少数类样本
Figure 741066DEST_PATH_IMAGE056
定义为三元组
Figure 257497DEST_PATH_IMAGE057
,即
Figure 973781DEST_PATH_IMAGE058
Figure 575663DEST_PATH_IMAGE059
为难分正样本,
Figure 534130DEST_PATH_IMAGE060
为难分负样本,其中
Figure 905068DEST_PATH_IMAGE061
为取前
Figure 792253DEST_PATH_IMAGE061
个难分正负样本,
Figure 615852DEST_PATH_IMAGE061
为超参数。根据三元组来计算损失函数
Figure 410633DEST_PATH_IMAGE086
,具体计算公式如下:
Figure 370499DEST_PATH_IMAGE091
其中,
Figure 428585DEST_PATH_IMAGE065
表示属性的类边界,通常使用固定的间隔值,
Figure 5060DEST_PATH_IMAGE066
Figure 398056DEST_PATH_IMAGE067
是两个样本之间的距离计算公式,
Figure 212429DEST_PATH_IMAGE067
中样本与难分正样本的计算方式和样本与难分负样本两者的计算公式不同,由公式14给出:
Figure 706995DEST_PATH_IMAGE092
其中,
Figure 505187DEST_PATH_IMAGE070
是模型对于
Figure 845032DEST_PATH_IMAGE071
在目标类别
Figure 779490DEST_PATH_IMAGE052
上得到的预测结果。因此,训练过程中难分正样本与样本的预测分数会越来越相近,而难分负样本与样本的距离会渐渐的接近于边界
Figure 710537DEST_PATH_IMAGE065
在训练过程中,交叉熵损失函数
Figure 901085DEST_PATH_IMAGE047
用来度量标签向量
Figure 575780DEST_PATH_IMAGE053
和预测向量
Figure 102095DEST_PATH_IMAGE050
分布之间的差异性,确保大部分样本能分到正确类。类纠偏损失函数
Figure 204043DEST_PATH_IMAGE086
通过深入挖掘少数类样本,逐步加强少数类决策边界,使少数类能够最大化与多数类之间的差别;同时,在损失函数引入不平衡数据自适应权重
Figure 822499DEST_PATH_IMAGE043
,为更不平衡类别分配更多权重,为更少不平衡类别分配更少的权重,确保了对于少数类样本的正确分类。
采用本实施例提供的方法训练模型,取最优模型后,将得到的裁判文书进行数据处理:提取其事实信息、事实信息分词、词语序列化等,将处理后的数据通过文本特征提取和关键特征增强模块,提取其文本特征向量和词语搭配特征向量,并通过神经网络将其融合成混合语义特征向量,将获取的语义特征向量输入到两层神经网络中,输出法条推荐的结果,辅助法官进行判案。
以下将用具体实施例进行详细说明。
本实施例利用法研杯上CAIL-SMALL的数据集进行测试。该数据集中包含了154,592个法律案例,其中15%作为测试集,85%作为训练集。数据集中的每个案例包括了事实描述和法条标签。同时,该数据集是一个不平衡数据集,不平衡比至少达到了(10:5000),数据的具体统计结果如表1所示。
表1:CAIL-SMALL法律案例数据集统计细信息
Figure 300885DEST_PATH_IMAGE093
为了评估和验证该模型的性能,我们使用目前流行的CNN(卷积神经网络)、BERT(预训练的语言表征模型)、FLA(基于事实描述和适用法条的神经网络)、HARNN(基于注意力的循环神经网络)作为基准测试模型(对比),并采用Acc(准确率)、MP(精确率)、MR(召回率)、F1(精确率与准确率的加权调和平均)作为模型的主要评价指标。模型的结果如表2所示,根据结果可以得出,本实施例提供的方法显著地提升了MP指标,且在其他评价指标中都取得了较高的性能表现,并超过基准测试模型。
表2:CAIL-Small测试集中模型性能表现
Figure 350881DEST_PATH_IMAGE094
实施例2:
如图1所示,本发明的实施例2提供了一种面向极度不平衡司法裁判文书数据的法律条文推荐系统,包括数据处理模块、文本特征提取及关键特征增强模块、深层神经网络预测模块(结果预测模块)。其中,数据处理模块用于对原始的裁判文书进行数据预处理,并且将预处理后的文本数据进行序列化得到模型的训练集。文本特征提取和关键特征增强模块用于对训练集文本特征的提取和词语搭配特征的提取。深层神经网络预测模块将融合文本特征和词语搭配特征的混合语义向量计算,输出法条推荐的结果,辅助法官进行判案。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种面向不平衡司法裁判文书数据的法条推荐方法,其特征在于,包括如下步骤:
S1,将获取的司法裁判文书数据输入模型,对原始的裁判文书进行数据预处理,并且将预处理后的文本数据进行序列化得到模型的训练集;
S2,将训练集通过基于预训练模型的嵌入层,得到文本的向量表示;
S3,将文本向量通过卷积神经网络获取文本特征;
S4,将训练集通过基于语法依赖信息的词语搭配算法,得到文本的词语搭配特征;通过句中词语语法依赖信息获取词语的搭配信息,并通过结合注意力机制的双向长短期记忆神经网络将搭配的单词向量合并,得到词语搭配特征;
具体包括如下子步骤:
S41,通过词语的依赖关系提取词语序列
Figure DEST_PATH_IMAGE001
的词语搭配序列
Figure 445217DEST_PATH_IMAGE003
Figure 753838DEST_PATH_IMAGE004
,其中
Figure 703340DEST_PATH_IMAGE005
Figure 448311DEST_PATH_IMAGE006
代表了
Figure 774250DEST_PATH_IMAGE001
中的两个词;
S42,将每个词转换成其对应的语义向量,得到搭配嵌入
Figure 734116DEST_PATH_IMAGE007
和句向量
Figure 854519DEST_PATH_IMAGE008
,其中
Figure 103097DEST_PATH_IMAGE009
是搭配词语
Figure 216416DEST_PATH_IMAGE010
的嵌入向量;
S43,将每个单词组中的单词嵌入向量
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE013
通过一层结合注意力机制的双向长短期记忆神经网络进行合并,得到搭配语义向量
Figure DEST_PATH_IMAGE015
,具体计算公式如下所示:
Figure 171733DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE017
是第j时间下长短期记忆神经网络的正向隐藏状态,
Figure 446726DEST_PATH_IMAGE018
是第j时间下LSTM的反向隐藏状态,计算公式如下:
Figure DEST_PATH_IMAGE019
Figure 448180DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
Figure 568451DEST_PATH_IMAGE022
对于每一个搭配语义向量
Figure 237330DEST_PATH_IMAGE024
,将注意力机制应用到词语搭配特征的计算过程中,并且得到词语搭配特征
Figure 965115DEST_PATH_IMAGE026
,其具体的计算方式如下:
Figure DEST_PATH_IMAGE027
其中
Figure 391548DEST_PATH_IMAGE028
是搭配语义向量
Figure DEST_PATH_IMAGE023
的注意力权重值,其计算公式如下:
Figure DEST_PATH_IMAGE029
其中
Figure 604527DEST_PATH_IMAGE030
是权重矩阵,
Figure DEST_PATH_IMAGE031
是激活函数;
S5,将文本特征和词语搭配特征通过神经网络进行融合,得到混合语义向量
Figure DEST_PATH_IMAGE033
,其计算公式如下:
Figure 65596DEST_PATH_IMAGE034
其中
Figure DEST_PATH_IMAGE035
是神经网络的权重矩阵,
Figure 682391DEST_PATH_IMAGE036
是偏置向量,
Figure DEST_PATH_IMAGE037
是矩阵加法;
S6,将混合语义向量输入到使用
Figure 330541DEST_PATH_IMAGE039
作为激活函数的双层神经网络中进行法条的预测,输出法条预测结果:
Figure DEST_PATH_IMAGE040
其中
Figure 854932DEST_PATH_IMAGE041
为双层神经网络函数,
Figure DEST_PATH_IMAGE042
为双层神经网络的参数,
Figure DEST_PATH_IMAGE044
为预测结果;
S7,基于法条预测结果和真实司法裁判文书的法条标签,计算损失函数,应用反向传播算法学习模型中的参数,完成模型训练并用于司法案件的辅助判决;使用损失函数
Figure 639348DEST_PATH_IMAGE045
来进行反向传播以训练神经网络的参数,总体损失函数其计算公式如下:
Figure 692624DEST_PATH_IMAGE046
其中,
Figure 687125DEST_PATH_IMAGE047
是用来表示类别不平衡程度的一个参数,其具体公式为:
Figure 234781DEST_PATH_IMAGE048
给定不同的单个类数据样本大小,
Figure 201600DEST_PATH_IMAGE050
是每个类别所需要的数据样本的最小百分比数,以在训练数据中形成平衡的类分布,
Figure 176509DEST_PATH_IMAGE051
是一个独立超参数;
交叉熵损失函数
Figure 845256DEST_PATH_IMAGE052
的计算公式为:
Figure 196603DEST_PATH_IMAGE053
其中,
Figure 814666DEST_PATH_IMAGE055
是类别数,
Figure 226056DEST_PATH_IMAGE057
是预测向量
Figure 319783DEST_PATH_IMAGE058
Figure 209242DEST_PATH_IMAGE059
个类的预测值,
Figure 150653DEST_PATH_IMAGE060
是标签
Figure 716632DEST_PATH_IMAGE062
的第
Figure 110704DEST_PATH_IMAGE063
个类的真实值;
Figure 538275DEST_PATH_IMAGE064
是类间、类内相对比较函数,将每个少数类样本
Figure 334192DEST_PATH_IMAGE065
定义为三元组
Figure 884122DEST_PATH_IMAGE066
,即
Figure 14758DEST_PATH_IMAGE067
Figure 246020DEST_PATH_IMAGE068
为难分正样本,
Figure 630865DEST_PATH_IMAGE069
为难分负样本,其中
Figure 554958DEST_PATH_IMAGE070
为取前
Figure 172890DEST_PATH_IMAGE070
个难分正负样本,
Figure 207842DEST_PATH_IMAGE070
为超参数,根据三元组
Figure 509511DEST_PATH_IMAGE066
来计算损失函数
Figure 604506DEST_PATH_IMAGE064
,具体计算公式如下:
Figure 460466DEST_PATH_IMAGE071
其中,
Figure 282798DEST_PATH_IMAGE072
表示属性的类边界,
Figure 111076DEST_PATH_IMAGE073
Figure 376973DEST_PATH_IMAGE074
是两个样本之间的距离计算公式,
Figure 703918DEST_PATH_IMAGE074
中样本与难分正样本的计算方式和样本与难分负样本两者的计算公式不同,由以下公式给出:
Figure 346251DEST_PATH_IMAGE075
其中,
Figure 622512DEST_PATH_IMAGE076
是模型对于
Figure 59310DEST_PATH_IMAGE077
在目标类别
Figure 545655DEST_PATH_IMAGE063
上得到的预测结果。
2.根据权利要求1所述的面向不平衡司法裁判文书数据的法条推荐方法,其特征在于,S1中将司法裁判文书数据进行分词、过滤无意义词、词语序列化方式进行数据处理,得到词语序列
Figure 257259DEST_PATH_IMAGE001
Figure 856867DEST_PATH_IMAGE078
Figure 198987DEST_PATH_IMAGE079
表示词语序列
Figure 500524DEST_PATH_IMAGE001
中的每个单词。
3.根据权利要求2所述的面向不平衡司法裁判文书数据的法条推荐方法,其特征在于,S2中对于词语序列
Figure 219081DEST_PATH_IMAGE001
中的每个单词
Figure 673196DEST_PATH_IMAGE079
,通过基于预训练模型的嵌入层将其转换成词嵌入向量
Figure 451797DEST_PATH_IMAGE080
,并且得到词语序列的嵌入矩阵
Figure 240630DEST_PATH_IMAGE081
Figure 559616DEST_PATH_IMAGE083
4.一种面向不平衡司法裁判文书数据的法条推荐系统,采用如权利要求1-3任意一项所述的方法,其特征在于,包括数据处理模块、文本特征提取及关键特征增强模块、深层神经网络预测模块;
所述数据处理模块用于对原始的裁判文书进行数据预处理,并且将预处理后的文本数据进行序列化得到模型的训练集;
所述文本特征提取和关键特征增强模块用于对训练集文本特征的提取和词语搭配特征的提取;
所述深层神经网络预测模块计算融合文本特征和词语搭配特征的混合语义向量,输出法条推荐的结果,辅助法官进行判案。
CN202210511295.3A 2022-05-12 2022-05-12 面向不平衡司法裁判文书数据的法条推荐方法及系统 Active CN114610891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210511295.3A CN114610891B (zh) 2022-05-12 2022-05-12 面向不平衡司法裁判文书数据的法条推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210511295.3A CN114610891B (zh) 2022-05-12 2022-05-12 面向不平衡司法裁判文书数据的法条推荐方法及系统

Publications (2)

Publication Number Publication Date
CN114610891A CN114610891A (zh) 2022-06-10
CN114610891B true CN114610891B (zh) 2022-07-22

Family

ID=81870569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210511295.3A Active CN114610891B (zh) 2022-05-12 2022-05-12 面向不平衡司法裁判文书数据的法条推荐方法及系统

Country Status (1)

Country Link
CN (1) CN114610891B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108171B (zh) * 2022-12-19 2023-10-31 中国邮政速递物流股份有限公司广东省分公司 基于ai循环神经网络深度学习技术的司法材料处理系统
CN116070624A (zh) * 2023-04-06 2023-05-05 中南大学 一种基于环保案件要素的类案推送方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717843A (zh) * 2019-10-21 2020-01-21 南京大学 一种可复用的法条推荐框架
CN110750635A (zh) * 2019-10-21 2020-02-04 南京大学 一种基于联合深度学习模型的法条推荐方法
WO2020253052A1 (zh) * 2019-06-18 2020-12-24 平安普惠企业管理有限公司 一种基于自然语义理解的行为识别方法及相关设备
CN112183094A (zh) * 2020-11-03 2021-01-05 北京信息科技大学 一种基于多元文本特征的中文语法查错方法及系统
CN113536780A (zh) * 2021-06-29 2021-10-22 华东师范大学 一种基于自然语言处理的企业破产案件智能辅助判案方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020253052A1 (zh) * 2019-06-18 2020-12-24 平安普惠企业管理有限公司 一种基于自然语义理解的行为识别方法及相关设备
CN110717843A (zh) * 2019-10-21 2020-01-21 南京大学 一种可复用的法条推荐框架
CN110750635A (zh) * 2019-10-21 2020-02-04 南京大学 一种基于联合深度学习模型的法条推荐方法
CN112183094A (zh) * 2020-11-03 2021-01-05 北京信息科技大学 一种基于多元文本特征的中文语法查错方法及系统
CN113536780A (zh) * 2021-06-29 2021-10-22 华东师范大学 一种基于自然语言处理的企业破产案件智能辅助判案方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Deep contextualized word representations;Matthew E.Peters等;《Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics》;20180630;第2227-2237页 *
一种结合LSTM和集成算法的文本校对模型;陶永才等;《小型微型计算机系统》;20200515(第05期);第73-77页 *
基于法律裁判文书的法条推荐研究与应用;王旭;《万方数据库》;20211229;正文第1-57页 *
文本摘要生成技术研究与应用;肖莉才;《万方数据库》;20211201;正文第11-12页 *
面向法律裁判文书的法条推荐方法;张虎等;《计算机科学》;20190915;第46卷(第9期);第211-215页 *

Also Published As

Publication number Publication date
CN114610891A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN114610891B (zh) 面向不平衡司法裁判文书数据的法条推荐方法及系统
CN108363753B (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN107193959B (zh) 一种面向纯文本的企业实体分类方法
CN109165284B (zh) 一种基于大数据的金融领域人机对话意图识别方法
CN107391486B (zh) 一种基于统计信息和序列标注的领域新词识别方法
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN108763484A (zh) 一种基于lda主题模型的法条推荐方法
CN111145052A (zh) 司法文书的结构化分析方法及系统
CN107608999A (zh) 一种适用于自动问答系统的问句分类方法
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN110688836A (zh) 基于监督学习的领域词典自动化构建方法
CN108763402A (zh) 基于依存关系、词性和语义词典的类中心向量文本分类法
CN110717843A (zh) 一种可复用的法条推荐框架
CN116992005B (zh) 基于大模型及本地知识库的智能对话方法、系统及设备
CN110765266B (zh) 一种裁判文书相似争议焦点合并方法及系统
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN112632982A (zh) 一种能用于供应商评价的对话文本情感分析方法
CN116756303A (zh) 一种多主题文本摘要自动生成方法及系统
Zhi et al. Financial fake news detection with multi fact CNN-LSTM model
CN115309872A (zh) 一种基于Kmeans召回的多模型熵加权检索方法及系统
CN105740225B (zh) 一种融合句子局部上下文与文档领域信息的词义消歧方法
CN112989830B (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN111047092A (zh) 纠纷案件胜率预测方法、装置、计算机设备及存储介质
CN115600602B (zh) 一种长文本的关键要素抽取方法、系统及终端设备
CN115344695A (zh) 一种基于领域bert模型的服务文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant