CN111651594A - 基于键值记忆网络的案件案由分类方法及介质 - Google Patents
基于键值记忆网络的案件案由分类方法及介质 Download PDFInfo
- Publication number
- CN111651594A CN111651594A CN202010413889.1A CN202010413889A CN111651594A CN 111651594 A CN111651594 A CN 111651594A CN 202010413889 A CN202010413889 A CN 202010413889A CN 111651594 A CN111651594 A CN 111651594A
- Authority
- CN
- China
- Prior art keywords
- case
- model
- vector
- key
- value memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 79
- 238000013528 artificial neural network Methods 0.000 claims abstract description 34
- 238000013145 classification model Methods 0.000 claims abstract description 27
- 230000006883 memory enhancing effect Effects 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 114
- 239000013604 expression vector Substances 0.000 claims description 51
- 230000014509 gene expression Effects 0.000 claims description 17
- 238000012795 verification Methods 0.000 claims description 14
- 238000011478 gradient descent method Methods 0.000 claims description 12
- 230000001965 increasing effect Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000006993 memory improvement Effects 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 10
- 230000008030 elimination Effects 0.000 claims description 9
- 238000003379 elimination reaction Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004260 weight control Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Technology Law (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于键值记忆网络的案件案由分类方法及介质,包括:1)数据预处理:从司法文书中提取案情描述文本信息和文书引用的法律条文信息;2)模型构建:建立基于键值记忆网络的案件案由分类模型,包括对引用法条的建模、案件案情描述文本的建模和对键值记忆增强神经网络的建模;3)模型训练:通过训练数据对建立的案由分类模型进行优化,得到最优参数;4)模型预测:输入测试数据集的案件案情描述文本,模型预测案件对应的案由类别。本发明使用键值记忆增强神经网络进行案由分类,能够借助法律条文的引用信息有效提取案情关键信息,提高样本数量较少的案由的分类准确率,进而提升案由分类的总体准确度。
Description
技术领域
本发明涉及数据处理技术领域,具体地,涉及基于键值记忆网络的案件案由分类方法及介质。尤其地,涉及一种基于键值记忆增强神经网络的案件案由分类方法。
背景技术
案由分类对构建智能法律文书案件评查系统具有重要意义,给专业人员(例如法官和律师)提供方便的参考,提高他们的工作效率。案由分类同时也是立案、审判实务中不可回避的问题,案由确定的准确与否有利于对受理案件进行分类管理,有利于人民法院在审判务实中准确确定案件诉讼争点和正确使用法律,提高案件司法统计的准确性、科学性。
专利文献CN110502634A(申请号:201910742625.8)公开了一种案由的判定和抓取方法及其系统,判定方法包括以下步骤:获取待判定的案件描述文本数据;对文本数据进行分词处理和去噪处理;从经过分词处理和去噪处理的文本数据中进行关键字提取,所述关键字用以表征主要事实说明;将提取到的关键字数据带入案由分类器,生成对案情的判定结果,所述案由分类器通过训练案例网络库学习语料获得;所述抓取方法包括以下步骤:利用网络爬虫在案例网络库网站进行搜索爬取,抓取其中的案例信息数据;对获取到的案例信息数据通过正则表达式进行结构化数据清洗。但该方法案由的判定和抓取准确度偏低。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于键值记忆网络的案件案由分类方法及介质。
根据本发明提供的一种基于键值记忆网络的案件案由分类方法,包括如下步骤:
数据预处理步骤:从司法文书中提取案情描述文本信息和文书引用的法律条文信息;
模型构建步骤:建立基于键值记忆网络的案件案由分类模型,包括对引用法条的建模、案件案情描述文本的建模和对键值记忆增强神经网络的建模;
模型训练步骤:通过训练数据对建立的案由分类模型进行优化,得到最优参数。
模型预测步骤:输入测试数据集的案件案情描述文本,模型预测案件对应的案由类别。
优选地,所述从司法文书中提取案情描述文本信息和文书引用的法律条文信息包括:
司法文书中包含对案件案情的描述和法院机构判定案件引用的法条;
所述法条与案由具有数据相关性,相同案由的案件引用相同或相关的法条,法条是判定案件性质的依据,也是案由分类的依据。将文书中引用的法条使用正则表达式从文书中提取出来得到引用的所有法条的编号,以及从文书文本中按照规则提取案情描述文本段落得到案情描述文本信息,对文本进行分词,用词向量表示。
优选地,所述模型构建步骤具体包括:
对引用法条表示向量的建模;
对案情描述文本表示向量的建模;
对键值记忆增强神经网络的建模。
优选地,对引用法条表示向量的建模,具体包括:
将文书引用的所有法条编号使用独热编码进行编码,法条编码乘以随机初始化的参数矩阵,得到引用法条表示向量。
优选地,所述对案情描述文本表示向量建模,具体包括:
使用特定神经网络模型作为编码器获得案情描述文本表示向量,作为键值记忆增强神经网络输入;
键记忆模块随机初始化,训练得出不同案由的案件案情对应的法条表达,即法条在案由层面上的表示向量,法条相关的案情描述的键;
对应不同法条的案件案情描述文本表示向量通过写操作写入案情描述记忆模块。
优选地,所述对键值记忆增强神经网络的建模,具体包括:
每个案件的引用法条表示向量用来控制对案情描述记忆模块的读写操作,训练数据集中每个案件的引用法条表示向量与键记忆模块计算相似度,得到这个案件的引用法条表示向量与每个案由相关的法条表示向量的相关性权重,法条上越相关,案件的案情描述就越相关,这个相关性权重去指导该案件案情描述文本的写入和读出,所述相关性权重既是读权重也是写权重;
键值记忆增强神经网络同时输入案件案情描述文本表示向量,根据写权重将这个案情描述文本表示向量写入具体的案情描述记忆模块的卡槽中,更新案情描述记忆模块;
根据读权重读出案情描述记忆模块中的向量表示,得到一个基于法条表示记忆增强的案情描述文本的表示向量;
获得的基于法条表示记忆增强的案情描述文本的表示向量和原本编码器得到的文本表示向量进行串联,输入进一个案件案由分类器;
原本编码器得到的文本表示向量指:使用特定神经网络模型作为编码器获得的案情描述文本表示向量;
案件案由分类器由一个softmax全连接网络构成,最后得到特定案件在不同案由上的概率分布。
优选地,所述根据写权重将这个案情描述文本表示向量写入案情描述记忆模块中,更新案情描述记忆模块,具体包括:
写入操作时根据特定案件的引用法条表示向量计算写入时的清除向量和增加向量,清除向量和增加向量是由该案件的案情描述文本表示向量通过两个不同的全连接网络得到;
最后更新案情描述记忆模块需要同时考虑获得的相关性权重,清除向量与相关性权重相乘得到最终这个案件在每个案情描述记忆模块卡槽上的清除程度,增加向量和相关性权重相乘是清除后的每个卡槽应该增加的表示向量。
优选地,所述模型训练步骤:通过训练数据使用基于梯度下降法的优化器对建立的案由分类模型进行优化,得到最优参数,具体包括:
对编码器做预训练,根据训练数据,输入案情描述文本到编码器预测案由,做监督训练;
其次将训练数据输入所构建的案由分类模型,使用基于梯度下降法的优化器训练模型得到最优参数,包括以下三个步骤:
初始化模型参数步骤:模型使用交叉熵作为目标函数进行训练,训练前对除编码器以外的各神经网络参数使用正态分布进行随机初始化,网络中bias通常设置为0;
使用训练数据集训练模型步骤:将训练集按batch输入网络每次迭代后保存一次模型,迭代至模型收敛,获得收敛后的模型;
使用验证数据集验证模型步骤:使用获得的收敛后的模型来对验证数据集进行测试,选出验证误差最小的模型作为最终模型。
优选地,所述案由分类模型由编码器、键值记忆增强神经网络以及案件案由分类器组成;
所述基于梯度下降法的优化器包括:Adam优化器;
所述特定神经网络模型为以下任一种:CNN、RNN、BERT。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现上述中任一项所述的基于键值记忆网络的案件案由分类方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
本发明通过案件引用的法条辅助筛选与案由更加相关的案情描述文本表示,并可以存储在值记忆模块中以增强表示,提高样本数量较小的案由的案例的案由分类准确率,达到总体更高的案由分类准确度。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明提出的基于键值记忆增强神经网络的案件案由分类模型架构图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
根据本发明提供的一种基于键值记忆网络的案件案由分类方法,包括如下步骤:
数据预处理步骤:从司法文书中提取案情描述文本信息和文书引用的法律条文信息;
模型构建步骤:建立基于键值记忆网络的案件案由分类模型,包括对引用法条的建模、案件案情描述文本的建模和对键值记忆增强神经网络的建模;
模型训练步骤:通过训练数据对建立的案由分类模型进行优化,得到最优参数。
模型预测步骤:输入测试数据集的案件案情描述文本,模型预测案件对应的案由类别。
具体地,所述从司法文书中提取案情描述文本信息和文书引用的法律条文信息包括:
司法文书中包含对案件案情的描述和法院机构判定案件引用的法条;
所述法条与案由具有数据相关性,相同案由的案件引用相同或相关的法条,法条是判定案件性质的依据,也是案由分类的依据。将文书中引用的法条使用正则表达从文书中提取出来得到引用的所有法条的编号,以及从文书文本中按照规则提取案情描述文本段落得到案情描述文本信息,对文本进行分词,用词向量表示。
具体地,所述模型构建步骤具体包括:
对引用法条表示向量的建模;
对案情描述文本表示向量的建模;
对键值记忆增强神经网络的建模。
具体地,对引用法条表示向量的建模,具体包括:
将文书引用的所有法条编号使用独热编码进行编码,法条编码乘以随机初始化的参数矩阵,得到引用法条表示向量。
具体地,所述对案情描述文本表示向量建模,具体包括:
使用特定神经网络模型作为编码器获得案情描述文本表示向量,作为键值记忆增强神经网络输入;
键记忆模块随机初始化,训练得出不同案由的案件案情对应的法条表达,即法条在案由层面上的表示向量,法条相关的案情描述的键;
对应不同法条的案件案情描述文本表示向量通过写操作写入案情描述记忆模块。
具体地,所述对键值记忆增强神经网络的建模,具体包括:
每个案件的引用法条表示向量用来控制对案情描述记忆模块的读写操作,训练数据集中每个案件的引用法条表示向量与键记忆模块计算相似度,得到这个案件的引用法条表示向量与每个案由相关的法条表示向量的相关性权重,法条上越相关,案件的案情描述就越相关,这个相关性权重去指导该案件案情描述文本的写入和读出,所述相关性权重既是读权重也是写权重;
键值记忆增强神经网络同时输入案件案情描述文本表示向量,根据写权重将这个案情描述文本表示向量写入具体的案情描述记忆模块的卡槽中,更新案情描述记忆模块;
根据读权重读出案情描述记忆模块中的向量表示,得到一个基于法条表示记忆增强的案情描述文本的表示向量;
获得的基于法条表示记忆增强的案情描述文本的表示向量和原本编码器得到的文本表示向量进行串联,输入进一个案件案由分类器;
原本编码器得到的文本表示向量指:使用特定神经网络模型作为编码器获得的案情描述文本表示向量;
案件案由分类器由一个softmax全连接网络构成,最后得到特定案件在不同案由上的概率分布。
具体地,所述根据写权重将这个案情描述文本表示向量写入案情描述记忆模块中,更新案情描述记忆模块,具体包括:
写入操作时根据特定案件的引用法条表示向量计算写入时的清除向量和增加向量,清除向量和增加向量是由该案件的案情描述文本表示向量通过两个不同的全连接网络得到;
最后更新案情描述记忆模块需要同时考虑获得的相关性权重,清除向量与相关性权重相乘得到最终这个案件在每个案情描述记忆模块卡槽上的清除程度,增加向量和相关性权重相乘是清除后的每个卡槽应该增加的表示向量。
具体地,所述模型训练步骤:通过训练数据使用基于梯度下降法的优化器对建立的案由分类模型进行优化,得到最优参数,具体包括:
对编码器做预训练,根据训练数据,输入案情描述文本到编码器预测案由,做监督训练;
其次将训练数据输入所构建的案由分类模型,使用基于梯度下降法的优化器训练模型得到最优参数,包括以下三个步骤:
初始化模型参数步骤:模型使用交叉熵作为目标函数进行训练,训练前对除编码器以外的各神经网络参数使用正态分布进行随机初始化,网络中bias通常设置为0;
使用训练数据集训练模型步骤:将训练集按batch输入网络每次迭代后保存一次模型,迭代至模型收敛,获得收敛后的模型;
使用验证数据集验证模型步骤:使用获得的收敛后的模型来对验证数据集进行测试,选出验证误差最小的模型作为最终模型。
具体地,所述案由分类模型由编码器、键值记忆增强神经网络以及案件案由分类器组成;
所述基于梯度下降法的优化器包括:Adam优化器;
所述特定神经网络模型为以下任一种:CNN、RNN、BERT。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现上述中任一项所述的基于键值记忆网络的案件案由分类方法的步骤。
下面通过优选例,对本发明进行更为具体地说明。
优选例1:
本发明的目的在于提供一个基于键值记忆增强神经网络的案由分类方法,能够自动获得并增强案件文书的案情描述文本表示,提高小样本案例的分类准确率,进而提高所有样本的案由分类准确率。
根据本发明提出了一种基于键值记忆增强神经网络的案由分类方法,包括如下步骤:
S1,数据预处理:从司法文书中提取案情描述文本信息和文书引用的法律条文信息;
S2,模型构建:建立基于键值记忆网络的案件案由分类模型,包括对引用法条的建模、案件案情描述文本的建模和对键值记忆增强神经网络的建模;
S3,模型训练:通过训练数据对建立的案由分类模型进行优化,得到最优参数;
S4,模型预测:输入测试数据集的案件案情描述文本,模型预测案件对应的案由类别。
一些实例中,所述步骤S1中所述从司法文书中提取案情描述文本信息和文书引用的法律条文信息是将文书中引用的法条使用正则表达式从文书中提取出来得到引用的所有法条编号信息,以及从文书文本中按照规则提取案情描述文本段落得到案情描述文本信息,对文本进行分词,用词向量表示。提取案情描述使用的方法是基于人工定义的规则(触发词)提取字符串中案情描述文本信息,比如法律文书中包含“本院认为”,“本院查明”的段落作为案情描述文本。
一些实例中,所述步骤S2建立基于键值记忆增强神经网络的案件文书案由分类模型,具体包括:对引用法条表示向量的建模;对案情描述文本表示向量的建模;对键值记忆增强神经网络的建模。
一些实例中,所述对引用法条表示向量的建模具体使用独热编码获得引用法条编码,再乘以随机初始化的参数矩阵,得到引用法条表示向量。
一些实例中,所述对案情描述文本表示向量建模具体包括使用编码器获得案情描述文本的词向量表示,作为模型输入;对应不同法条的案件案情描述文本表示向量通过写操作写入案情描述记忆模块,作为值记忆模块。案情描述记忆模块是存放案情描述文本表示向量的模块(是一个矩阵,图1中的案情描述隐向量存放的地方)。
一些实例中,所述对键值记忆增强神经网络的建模,具体包括:每个案件的引用法条表示向量用来控制对案情描述记忆模块的读写操作,训练数据集中每个案件的引用法条表示向量与键记忆模块计算相似度,得到这个案件的案情描述在每个案由相关的法条表示记忆模块上的相关性权重(新来的案件文书引用的法条表示向量和键记忆模块存放的每个法条的表示向量做点乘来计算相似度。键记忆模块原本是随机初始化的一个矩阵,训练之后可以理解为每个法条与案由相关的表示向量,对应图1中法条隐向量),这个相关性权重既是读权重也是写权重;模型同时输入案件案情描述文本表示向量,根据写权重将这个案情描述文本表示向量写入具体的案情描述记忆模块的卡槽中,更新案情描述记忆模块;根据读权重读出案情描述记忆模块中的向量表示(写入操作会对原来的文本表示向量进行先清除后增加的操作。所以这里指的是当时存在值记忆模块中的案情描述文本表示向量),得到一个基于法条表示记忆增强(训练过程中,新来的案件的案情描述文本表示向量不断根据该案件引用的法条表示向量与键记忆模块的相似度写入值记忆模块,迭代更新值记忆模块后,读出的是一个在这个过程中聚合了其他相似案件的文本表示的文本表示向量。因为案情描述文本表示向量的写入是根据其引用法条表示向量与键记忆模块中训练出的每个法条的表示向量的相似程度。所以叫做基于法条表示记忆增强的表达)的案情描述文本的表示向量;上一步的文本表示向量和原本编码器得到的文本表示向量进行串联,输入进一个案件案由分类器;案件案由分类器由一个softmax全连接网络构成,最后得到特定案件在不同案由上的概率分布。
一些实例中,所述输入的案件案情描述向量根据写权重将这个案情描述文本表示向量写入值记忆模块中,更新案情描述记忆模块是指最后更新案情描述记忆模块需要同时考虑之前步骤中得到的相关性权重(写权重),清除向量与相关性权重(写权重)相乘得到最终这个案件在每个案情描述记忆模块卡槽上的清除程度,增加向量和相关性权重相乘(写权重)是清除后的每个卡槽应该增加的表示向量;
一些实例中,所述写入操作时根据特定案件的案情描述向量计算写入时的清除向量和增加向量是由该案件的案情描述向量通过两个不同的全连接网络得到的清除向量和增加向量;
一些实例中,所述步骤S3,通过训练数据使用基于梯度下降法的优化器对建立的案由分类模型进行优化,得到最优参数,具体包括:首先对编码器做预训练:根据训练数据,输入案情描述文本到编码器预测案由,做监督训练。其次将训练数据输入所构建的模型,使用基于梯度下降法的优化器如Adam优化器训练模型得到最优参数。包括以下三个步骤:初始化模型参数:模型是使用交叉熵作为目标函数进行训练,训练前对除编码器以外的各神经网络参数使用正态分布进行随机初始化,网络中bias通常设置为0。使用训练数据集训练模型:将训练集按batch输入网络每次迭代后保存一次模型,迭代足够多的次数至模型基本收敛。使用验证数据集验证模型:使用上一步保存的模型来对验证数据集进行测试,选出验证误差最小的模型作为最终模型。
优选例2:
下面结合具体实施例对本发明进行详细说明,以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明,应当指出的是,对本领域的普通技术人员来说,在不脱离本发明和构思的前提辖,还可以做出若干变化和改进。这些都是属于本发明的保护范围。
本发明提出了一种基于键值记忆增强网络的案由分类方法,包括如下步骤:
数据收集及预处理步骤:
从把手案例网站上爬取公开的法律文书,本实施案列使用把手案例网上2014-2019年5年期间公开的文书数据集,2014年到2017年的公开案件文书作为训练集,2018年到2019年的公开案件文书作为验证集。从案件文书中将案件引用的法条编号使用正则表达提取出来,以及从文书文本中提取案情描述文本段落得到案情描述文本。
键值记忆增强神经网络模型建模步骤:
对文本进行分词,分词后用词向量表示;词向量表示输入进特定的神经网络作为的编码器,通过编码器分别得到特定案件案情描述的文本表示向量。使用独热编码编码文书引用的所有法条编号,法条编码乘以随机初始化的参数矩阵,得到引用法条表示向量。每个法条表示向量存放在键记忆模块中,最后通过训练得到,按照不同法条分成不同的记忆卡槽。键记忆模块是存放法条表示向量的模块(是一个矩阵,图1中的法条隐向量存放的地方)。
键记忆模块用符号Mf表示。总的记忆卡槽数量个数与训练数据集中所有文书中引用的法条的个数相同,用符号N表示。
案情描述文本表示向量存放在值记忆模块,和键记忆模块对应,相同地按照不同的与案由相关的法条划分不同记忆卡槽,每个记忆卡槽存放对应键记忆卡槽中相关法条的案情描述文本表示,值记忆模块用符号MS表示。
模型通过使用从输入案情描述文本表示向量和键记忆模块矩阵计算出相关性权重来对值记忆模块矩阵进行读写,以达到用法条内容和记忆模块设计来增强案件案情描述文本向量表示的目的。
假设输入的法律文书k,得到其案情描述的文本表示向量为sk以及这个案件引用法条表示向量为fk,将sk,fk输入模型,首先案件的引用法条编码表示向量fk与随机初始化的键记忆模块相互计算相似度,得到这个案件与每个法条的相关性权重:
上述相关性权重既是读权重也是写权重。当一个案件案情描述文本表示sk输入,读出的的内容用读权重对值记忆模块中的每个记忆卡槽做加权和来检索:
计算出的读取内容可以看作用引用相同法条的多个案件案情向量增强后的案情描述文本表示。鉴于每个案件案情描述的表示可能具有其特殊性,我们将读取的内容和输入的案情文本表示向量sk连接起来,然后传递通过具有Tanh函数激活的全连接层来得到一个摘要向量,其中包含案件的使用法条特征聚合后的案情表示和案件的个案案情表示:
qk=tanh(W1[rs(k),sk]+b1)
最后qk传递到另一个用softmax函数激活的全连接层输出案由分类分布,案由分类分布生成一个向量pk,其中的每个分量表示不同案由的分类概率:
pk=softmax(W2qk+b2)
当sk要写入值记忆模块时,模型训练计算一个清除向量ek和增加向量ak来控制:
ek=sigmoid(Wesk+be)
得到每个分量取值范围在(0,1)之间的向量ek。值记忆模块中每个卡槽中的向量按下面公式更新:
其中1是一个全1的行向量。当相关性权重和清除向量均为单位向量时,相应位置i的记忆存储单元才会被重置清空为零,为更相关的案情描述表示向量提供空间写入,一般情况下按照相关性权重和清除向量的乘积的分量大小清除记忆模块不同卡槽中的向量。
按权重清除记忆模块后需要按权重将sk写入,这个过程由增加向量ak和相关性权重控制:
ak=tanh(Wask+ba)
最终这个案件案情文本输入后,值记忆模块中每个法条对应的案情描述表示向量卡槽都相应更新:
模型训练步骤:
通过上述,在模型构建完成后,将对所构建的模型进行训练,以获取最优参数,提高模型的精确度,具体操作阐述如下:
首先对编码器做预训练:根据训练数据,输入案情描述文本到编码器预测案由,做监督训练。
其次将训练数据输入所构建的模型,使用基于梯度下降法的优化器如Adam优化器训练模型得到最优参数。包括以下三个步骤:
初始化模型参数:模型是使用交叉熵作为目标函数进行训练,训练前对除编码器以外的各神经网络参数使用正态分布进行随机初始化,网络中bias通常设置为0。
使用训练数据集训练模型:将训练集按batch输入网络每次迭代后保存一次模型,迭代足够多的次数至模型基本收敛。
使用验证数据集验证模型:使用上一步保存的模型来对验证数据集进行测试,选出验证误差最小的模型作为最终模型。
案由分类步骤:
输入案件文书,提取出案件文书中案情描述文本和引用法条信息,模型输出该案件案由概率分布。测试时,键记忆模块不再更新,值记忆模块按模型所述写入更新,键记忆模块的值在测试时固定不变。
在本申请的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种基于键值记忆网络的案件案由分类方法,其特征在于,包括如下步骤:
数据预处理步骤:从司法文书中提取案情描述文本信息和文书引用的法律条文信息;
模型构建步骤:建立基于键值记忆网络的案件案由分类模型,包括对引用法条的建模、案件案情描述文本的建模和对键值记忆增强神经网络的建模;
模型训练步骤:通过训练数据对建立的案由分类模型进行优化,得到最优参数。
模型预测步骤:输入测试数据集的案件案情描述文本,模型预测案件对应的案由类别。
2.如权利要求1所述的基于键值记忆网络的案件案由分类方法,其特征在于,所述从司法文书中提取案情描述文本信息和文书引用的法律条文信息包括:
司法文书中包含对案件案情的描述和法院机构判定案件引用的法条;
所述法条与案由具有数据相关性,相同案由的案件引用相同或相关的法条,法条是判定案件性质的依据,也是案由分类的依据。将文书中引用的法条使用正则表达式从文书中提取出来得到引用的所有法条的编号,以及从文书文本中按照规则提取案情描述文本段落得到案情描述文本信息,对文本进行分词,用词向量表示。
3.如权利要求1所述的基于键值记忆网络的案件案由分类方法,其特征在于,所述模型构建步骤具体包括:
对引用法条表示向量的建模;
对案情描述文本表示向量的建模;
对键值记忆增强神经网络的建模。
4.如权利要求3所述的基于键值记忆网络的案件案由分类方法,其特征在于,对引用法条表示向量的建模,具体包括:
将文书引用的所有法条编号使用独热编码进行编码,法条编码乘以随机初始化的参数矩阵,得到引用法条表示向量。
5.如权利要求3所述的基于键值记忆网络的案件案由分类方法,其特征在于,所述对案情描述文本表示向量建模,具体包括:
使用特定神经网络模型作为编码器获得案情描述文本表示向量,作为键值记忆增强神经网络输入;
键记忆模块随机初始化,训练得出不同案由的案件案情对应的法条表达,即法条在案由层面上的表示向量,法条相关的案情描述的键;
对应不同法条的案件案情描述文本表示向量通过写操作写入案情描述记忆模块。
6.如权利要求3所述的基于键值记忆网络的案件案由分类方法,其特征在于,所述对键值记忆增强神经网络的建模,具体包括:
每个案件的引用法条表示向量用来控制对案情描述记忆模块的读写操作,训练数据集中每个案件的引用法条表示向量与键记忆模块计算相似度,得到这个案件的引用法条表示向量与每个案由相关的法条表示向量的相关性权重,法条上越相关,案件的案情描述就越相关,这个相关性权重去指导该案件案情描述文本的写入和读出,所述相关性权重既是读权重也是写权重;
键值记忆增强神经网络同时输入案件案情描述文本表示向量,根据写权重将这个案情描述文本表示向量写入具体的案情描述记忆模块的卡槽中,更新案情描述记忆模块;
根据读权重读出案情描述记忆模块中的向量表示,得到一个基于法条表示记忆增强的案情描述文本的表示向量;
获得的基于法条表示记忆增强的案情描述文本的表示向量和原本编码器得到的文本表示向量进行串联,输入进一个案件案由分类器;
原本编码器得到的文本表示向量指:使用特定神经网络模型作为编码器获得的案情描述文本表示向量;
案件案由分类器由一个softmax全连接网络构成,最后得到特定案件在不同案由上的概率分布。
7.如权利要求6所述基于键值记忆网络的案件案由分类方法,其特征在于,所述根据写权重将这个案情描述文本表示向量写入案情描述记忆模块中,更新案情描述记忆模块,具体包括:
写入操作时根据特定案件的引用法条表示向量计算写入时的清除向量和增加向量,清除向量和增加向量是由该案件的案情描述文本表示向量通过两个不同的全连接网络得到;
最后更新案情描述记忆模块需要同时考虑获得的相关性权重,清除向量与相关性权重相乘得到最终这个案件在每个案情描述记忆模块卡槽上的清除程度,增加向量和相关性权重相乘是清除后的每个卡槽应该增加的表示向量。
8.如权利要求1所述基于键值记忆网络的案件案由分类方法,其特征在于,所述模型训练步骤:通过训练数据使用基于梯度下降法的优化器对建立的案由分类模型进行优化,得到最优参数,具体包括:
对编码器做预训练,根据训练数据,输入案情描述文本到编码器预测案由,做监督训练;
其次将训练数据输入所构建的案由分类模型,使用基于梯度下降法的优化器训练模型得到最优参数,包括以下三个步骤:
初始化模型参数步骤:模型使用交叉熵作为目标函数进行训练,训练前对除编码器以外的各神经网络参数使用正态分布进行随机初始化,网络中bias通常设置为0;
使用训练数据集训练模型步骤:将训练集按batch输入网络每次迭代后保存一次模型,迭代至模型收敛,获得收敛后的模型;
使用验证数据集验证模型步骤:使用获得的收敛后的模型来对验证数据集进行测试,选出验证误差最小的模型作为最终模型。
9.如权利要求8所述基于键值记忆网络的案件案由分类方法,其特征在于,所述案由分类模型由编码器、键值记忆增强神经网络以及案件案由分类器组成;
所述基于梯度下降法的优化器包括:Adam优化器;
所述特定神经网络模型为以下任一种:CNN、RNN、BERT。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的基于键值记忆网络的案件案由分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010413889.1A CN111651594B (zh) | 2020-05-15 | 2020-05-15 | 基于键值记忆网络的案件案由分类方法及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010413889.1A CN111651594B (zh) | 2020-05-15 | 2020-05-15 | 基于键值记忆网络的案件案由分类方法及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651594A true CN111651594A (zh) | 2020-09-11 |
CN111651594B CN111651594B (zh) | 2023-06-09 |
Family
ID=72349678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010413889.1A Active CN111651594B (zh) | 2020-05-15 | 2020-05-15 | 基于键值记忆网络的案件案由分类方法及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651594B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287689A (zh) * | 2020-10-27 | 2021-01-29 | 山东省计算中心(国家超级计算济南中心) | 一种司法二审案情辅助分析方法及系统 |
CN112699243A (zh) * | 2021-01-15 | 2021-04-23 | 上海交通大学 | 基于法条图卷积网络文本的案件文书案由分类方法及介质 |
CN112966072A (zh) * | 2021-03-11 | 2021-06-15 | 暨南大学 | 案件的预判方法、装置、电子装置和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190318249A1 (en) * | 2018-04-13 | 2019-10-17 | International Business Machines Corporation | Interpretable general reasoning system using key value memory networks |
CN110502634A (zh) * | 2019-08-13 | 2019-11-26 | 宫辉 | 一种案由的判定和抓取方法及其系统 |
CN110717324A (zh) * | 2019-09-06 | 2020-01-21 | 暨南大学 | 裁判文书答案信息提取方法、装置、提取器、介质和设备 |
CN111047482A (zh) * | 2019-11-14 | 2020-04-21 | 华中师范大学 | 基于层次记忆网络的知识追踪系统及方法 |
-
2020
- 2020-05-15 CN CN202010413889.1A patent/CN111651594B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190318249A1 (en) * | 2018-04-13 | 2019-10-17 | International Business Machines Corporation | Interpretable general reasoning system using key value memory networks |
CN110502634A (zh) * | 2019-08-13 | 2019-11-26 | 宫辉 | 一种案由的判定和抓取方法及其系统 |
CN110717324A (zh) * | 2019-09-06 | 2020-01-21 | 暨南大学 | 裁判文书答案信息提取方法、装置、提取器、介质和设备 |
CN111047482A (zh) * | 2019-11-14 | 2020-04-21 | 华中师范大学 | 基于层次记忆网络的知识追踪系统及方法 |
Non-Patent Citations (1)
Title |
---|
YI ZHAO 等: "Recurrent Neural Network for Text Classification with Hierarchical Multiscale Dense Connections" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287689A (zh) * | 2020-10-27 | 2021-01-29 | 山东省计算中心(国家超级计算济南中心) | 一种司法二审案情辅助分析方法及系统 |
CN112287689B (zh) * | 2020-10-27 | 2022-06-24 | 山东省计算中心(国家超级计算济南中心) | 一种司法二审案情辅助分析方法及系统 |
CN112699243A (zh) * | 2021-01-15 | 2021-04-23 | 上海交通大学 | 基于法条图卷积网络文本的案件文书案由分类方法及介质 |
CN112966072A (zh) * | 2021-03-11 | 2021-06-15 | 暨南大学 | 案件的预判方法、装置、电子装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111651594B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111143550B (zh) | 一种基于层次注意力神经网络模型的争议焦点自动识别方法 | |
Dangeti | Statistics for machine learning | |
CN110209806B (zh) | 文本分类方法、文本分类装置及计算机可读存储介质 | |
CN109933780B (zh) | 使用深度学习技术确定文档中的上下文阅读顺序 | |
CN111651594B (zh) | 基于键值记忆网络的案件案由分类方法及介质 | |
US20070094216A1 (en) | Uncertainty management in a decision-making system | |
CN112884551B (zh) | 一种基于近邻用户和评论信息的商品推荐方法 | |
CN111125358A (zh) | 一种基于超图的文本分类方法 | |
Zhao et al. | The study on the text classification for financial news based on partial information | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
Ciaburro et al. | Python Machine Learning Cookbook: Over 100 recipes to progress from smart data analytics to deep learning using real-world datasets | |
CN112699243B (zh) | 基于法条图卷积网络文本的案件文书案由分类方法及介质 | |
CN115098789A (zh) | 基于神经网络的多维兴趣融合推荐方法、装置及相关设备 | |
US8170967B2 (en) | Knowledge base comprising executable stories | |
Alshahrani et al. | Hunter Prey Optimization with Hybrid Deep Learning for Fake News Detection on Arabic Corpus. | |
CN114519508A (zh) | 基于时序深度学习和法律文书信息的信用风险评估方法 | |
CN112990443A (zh) | 神经网络评价方法及装置、电子设备、存储介质 | |
Bhavatarini et al. | Deep learning: Practical approach | |
CN112508177A (zh) | 一种网络结构搜索方法、装置、电子设备及存储介质 | |
CN117271701A (zh) | 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
CN111985680A (zh) | 基于胶囊网络与时序的刑事多罪名预测方法 | |
CN115796635A (zh) | 基于大数据和机器学习的银行数字化转型成熟度评价系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |