CN112699243B - 基于法条图卷积网络文本的案件文书案由分类方法及介质 - Google Patents
基于法条图卷积网络文本的案件文书案由分类方法及介质 Download PDFInfo
- Publication number
- CN112699243B CN112699243B CN202110055384.7A CN202110055384A CN112699243B CN 112699243 B CN112699243 B CN 112699243B CN 202110055384 A CN202110055384 A CN 202110055384A CN 112699243 B CN112699243 B CN 112699243B
- Authority
- CN
- China
- Prior art keywords
- case
- text
- legal
- training
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明提供了一种基于法条图卷积网络文本增强的案件文书案由分类方法,包括如下步骤:步骤1:数据预处理,对于数据进行案情提取、文本分词和降噪以及法条共现关系图构建;步骤2:法律词嵌入预训练,在法律领域语料集上进行预训练任务,得到法律领域词嵌入;步骤3:模型构建,建立基于法条图卷积文本增强的案件文书案由分类模型;步骤4:模型训练,训练集数据对步骤3中构建的模型进行梯度下降更新训练,获得模型参数;步骤5:案由预测,所述步骤4中训练完成的分类模型对待分类的案件案情描述文本进行案由分类。本发明提供的一种基于法条图卷积网络文本的案件文书案由分类方法及介质使得增强后法条文本表征之间有更强的案由相关性。
Description
技术领域
本发明涉及数据处理的技术领域,具体地,涉及基于法条图卷积网络文本的案件文书案由分类方法及介质。
背景技术
案件案由明确了案件的性质,影响着审判过程中的诉讼争议点的确定和适用法律的确定,而案由分类评查也是案件评查的重要组成部分,对构建自动化案件评查系统具有重要意义。因而,案件案由分类能够提高案件评查效率,且还能够为其他法律从业人员提供参考。
在案由分类问题方面,相关方法大都只考虑案件文书的案情描述文本,基于案情描述文本的TF-IDF向量、词向量等构建文本分类模型,没有有效利用法律条文的文本信息和法律条文之间的联系。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于法条图卷积网络文本的案件文书案由分类方法及介质。
根据本发明提供的一种基于法条图卷积网络文本增强的案件文书案由分类方法,包括如下步骤:
步骤1:数据预处理,对于数据进行案情提取、文本分词和降噪以及法条共现关系图构建;
步骤2:法律词嵌入预训练,在法律领域语料集上进行预训练任务,得到法律领域词嵌入;
步骤3:模型构建,建立基于法条图卷积文本增强的案件文书案由分类模型;
步骤4:模型训练,训练集数据对步骤3中构建的模型进行梯度下降更新训练,获得模型参数;
步骤5:案由预测,所述步骤4中训练完成的分类模型对待分类的案件案情描述文本进行案由分类。
优选地,所述步骤1中所述的案情提取为利用规则匹配案件文书中案情描述段落,所述分词和降噪为基于通用词典和法律词典将文本划分为词语序列,通过停用词列表将文本中的停用词进行删除,所述法条共现关系图构建为统计不同法律条文在同一案件中出现频次,构造对应的共现矩阵来表征法条共现关系图。
优选地,所述步骤2的法律词嵌入预训练为在收集的法律领域语料集上通过预训练方法得到词语映射到词向量的词嵌入矩阵,词嵌入矩阵初始是现有通用领域语料集训练完成的词嵌入矩阵,在此基础上在法律领域进一步训练。
优选地,所述步骤3的模型构造的具体步骤包括案情文本表征向量的建模、基于图卷积网络法条文本表征建模和法条-案情文本增强网络的建模。
优选地,所述案情文本表征向量的建模包括:使用词嵌入矩阵将案情文本词语序列转化为词向量序列,使用特定神经网络文本自编码器进行特征提取和降维降噪,从编码器得到案情文本表征向量,为后续模型提供有效的输入。
优选地,所述基于图卷积网络法条文本表征建模包括:使用词嵌入矩阵将法律条文词语序列转化为词向量序列,使用神经网络文本自编码器进行特征提取和降维降噪,从编码器得到法条文本表征向量,对全部法条文本表征向量基于法条共现关系图使用图卷积神经网络进行文本增强得到增强后的全部法条文本表征向量,为后续模型提供有效的输入。
优选地,所述法条-案情文本增强网络的建模包括:基于注意力机制对案情文本表征和相关法条文本表征进行匹配和计算,得到法条对应权重,案情与法条文本相关性越强则权重越大,根据权重将法条文本表征对原案情描述文本表征进行增强,最后通过一个全连接网络作为分类器得到案件在不同案由上的概率分布。
优选地,所述的步骤4包括如下步骤:
步骤4.1:模型参数初始化:;
步骤4.2:使用训练集对模型进行基于梯度下降的无监督预训练和有监督训练:;
步骤4.3:验证集选模型。
优选地,所述的法律条文和案由包括了训练集中案件涉及的全部法律条文和案由。
本发明还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述中的方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
1.本发明对法律条文在案件当中的共现关系进行建模,通过图卷积神经网络达到利用法律条文共现关系增强法律条文自身文本表征,而共现关系提现了不同法律条文在同一案由下的相关程度,从而使得增强后法条文本表征之间有更强的案由相关性。
2.本发明提出的引入法条文本表征进行文本增强的方法,能够利用法律条文与案由之间的强相关性,从而给原文本表征引入更强的案由分类特征从而提高模型的分类准确度。
3.本发明中的使用了基于注意力机制的法条文本表征权重计算,即有效利用了法律条文自身的文本信息,也避免了原案件引用法条错误可能带来巨大噪音,使得模型在使用时仅需要案情描述作为输入,扩宽了模型的使用场景和鲁棒性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的方法流程图;
图2为本发明的模型架构图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明提供了一种基于法条图卷积网络文本的案件文书案由分类方法及介质,文本增强为基于法条共现关系的法条文本表征增强和基于注意力机制的案情-法条文本表征增强,包括如下步骤:
步骤1:数据预处理,包括案情提取、文本分词和降噪、法条共现关系图构建。
案情提取:根据案情匹配规则从案件文书中提取案情描述段落对应的案情描述文本,相关提取规则可以是基于包含特定触发词的“本院认为”、“本院认定”、“本院查明”等相关段落提取。
文本分词和降噪:对案情描述文本和法条文本,基于中文通用词典和法律词典进行分词处理得到文本的词语序列,并对根据停用词表删除词语序列中的停用词从而进行降噪。分词后的词语使用one-hot编码。
法条共现关系图构建:基于案件引用的法律条文,统计法律条文的共同出现的频次得到共现矩阵A定义如下:
其中A∈RK*K是一个对称矩阵,K为总法条个数。
步骤2:在法律领域语料集上进行预训练任务得到法律领域词嵌入,对应的词嵌入能将词语的one-hot编码转变为语义更加丰富的词向量。
步骤3:模型构建步骤,首先是问题定义。给定一个案件文书的案情描述文本词语序列D={d1,d2…dm}和全部可能适用的法律条文文本L,每条法条文本词语序列为Lk={lk,1,lk,2…lk,n},k∈[1,K]其中di,lk,j∈RV为构成对应词语序列的one-hot编码的词语,V为词语集的大小,也是词语one-hot编码的长度,m和n为文本对应的词语序列长度,K为总法条个数,预测案件文书对应的案由分类y。
整个模型可以分为3个部分,案情描述表征建模、基于图卷积网络法律条文表征建模、法条-案情文本增强网络。
案情描述表征建模,该部分为对输入的案情描述文本词语序列进行表征建模。具体来说,给定一个案情描述文本词语序列D,首先通过步骤2中预训练好的词嵌入矩阵将词语序列中的one-hot编码的词语转化成词向量,最后得到词向量序列De,具体公式为:
然后将案情文本词向量序列输入由特定神经网络如TextCNN构成的自编码器p当中,通过自编码器的编码器得到案情文本表征Dp。自编码器由编码器和解码器gp(·)两部分构成,编码器负责将输入文本的词向量序列进行特征提取、降维降噪得到文本表征,解码器负责将编码器得到的文本表征重构回原来的文本词向量序列,自编码器以重构误差最小化为目标进行无监督预训练,具体公式可以表示为如下:
dp=fp(De)
基于图卷积网络法律条文表征建模,该部分对全部可能适用的法律条文文本表征进行建模,并基于法条共现关系的图卷积网络,对法律条文文本表征进行增强。具体来说,给定法律条文集L={Lk|k∈[1,K]},对每条法律条文的词语序列Lk通过词嵌入矩阵得到其对应的词向量序列该步骤与案情描述表征建模共用同一个词嵌入矩阵E,具体公式为:
对自编码器编码得到的全部法律条文的文本表征其中每一条法律法律条文都与其在相同案件案由共同出现过的法律条文有着紧密的联系,为了引入这种联系,我们使用基于法条共现关系图的图卷积神经网络为每条法律条文整合与其有共现关系的法律条文的文本表征信息用以增强其自身的文本表征。通过步骤1的数据预处理,我们得到在训练集上的法条共现关系图对应共现矩阵A。根据共现矩阵A得到法条共现关系图对应的度矩阵B∈RK*K,其中Bii=∑jAij,其余非对角元素为0。通过度矩阵B我们能够对共现矩阵A进行归一化处理,从而得到归一化后的共现矩阵具体公式为:
法条-案情文本增强网络,该模块基于注意力机制匹配与案情文本表征相关的法律条文文本表征,从而增强原有的案情文本表征。通过案情描述表征建模和基于图卷积网络法律条文表征建模,得到了案情文本表征向量dp和全部法律条文的文本表征 通过如下力机制计算每条法条文本表征的权重:
然后将计算法条文本表征的加权和,即得到了用于增强案情文本表征的法条表征向量,并将其引入案情文本表征中得到增强后的案情文本表征向量:
最后将增强后的案情文本表征向量d^a输入到一个输出层为softmax层的全连接神经网络中,即可得到对应案件文书在不同案由上的概率分布。
步骤4:模型训练:,通过训练集数据对S3中构建模型进行梯度下降更新训练,获得模型最优参数,包括三个步骤。
模型参数初始化:使用随机初始化器如Xavier正态分布初始化对各神经网络参数进行初始化,其中的bias设为0;
使用训练集对模型进行无监督预训练和有监督训练:无监督预训练中,以重构误差如MAE最小化为目标,根据训练数据使用基于梯度下降的优化器如Adam优化器对案情文本表征和法条文本表征两个模块的自编码器进行参数更新至模型收敛;然后再对模型进行监督训练,以分类误差最小为目标,使用交叉熵作为目标函数,基于梯度下降的优化器如Adam优化器,将训练集以32的batch大小输入模型每次迭代后保存一次模型,迭代足够的次数至模型基本收敛
使用验证集选择模型:使用上一步保存的模型来对验证集数据进行测试,选择验证误差最小的超参数和对应模型作为最终模型。
步骤5:案由预测,经过步骤4中训练后,基于法条共现关系的图卷积的文本增强后的全部法条表征Lc已经确定并固定,直接保存即可使用,测试使用时不再需要额外的法条文本输入。实际模型使用时仅需要将案件文书的案情描述文本经过分词降噪后的词语序列输入模型即可预测案件文书在每个案由上的概率分布情况,概率最大项的即为模型预测的案由分类结果。
本发明还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被处理器执行时实现上述中的方法的步骤。
本发明提供的一种基于法条图卷积网络文本的案件文书案由分类方法及介质对法律条文在案件当中的共现关系进行建模,通过图卷积神经网络达到利用法律条文共现关系增强法律条文自身文本表征,而共现关系提现了不同法律条文在同一案由下的相关程度,从而使得增强后法条文本表征之间有更强的案由相关性;且提出的引入法条文本表征进行文本增强的方法,能够利用法律条文与案由之间的强相关性,从而给原文本表征引入更强的案由分类特征从而提高模型的分类准确度;且使用了基于注意力机制的法条文本表征权重计算,即有效利用了法律条文自身的文本信息,也避免了原案件引用法条错误可能带来巨大噪音,使得模型在使用时仅需要案情描述作为输入,扩宽了模型的使用场景和鲁棒性。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (5)
1.一种基于法条图卷积网络文本增强的案件文书案由分类方法,其特征在于,包括如下步骤:
步骤1:数据预处理,对于数据进行案情提取、文本分词和降噪以及法条共现关系图构建;
步骤2:法律词嵌入预训练,在法律领域语料集上进行预训练任务,得到法律领域词嵌入;
步骤3:模型构建,建立基于法条图卷积文本增强的案件文书案由分类模型;
步骤4:模型训练,训练集数据对步骤3中构建的模型进行梯度下降更新训练,获得模型参数;
步骤5:案由预测,所述步骤4中训练完成的分类模型对待分类的案件案情描述文本进行案由分类;
所述步骤2的法律词嵌入预训练为在收集的法律领域语料集上通过预训练方法得到词语映射到词向量的词嵌入矩阵,词嵌入矩阵初始是现有通用领域语料集训练完成的词嵌入矩阵,在此基础上在法律领域进一步训练;
所述步骤3的模型构造的具体步骤包括案情文本表征向量的建模、基于图卷积网络法条文本表征建模和法条-案情文本增强网络的建模;
所述案情文本表征向量的建模包括:使用词嵌入矩阵将案情文本词语序列转化为词向量序列,使用神经网络文本自编码器进行特征提取和降维降噪,从编码器得到案情文本表征向量,为后续模型提供有效的输入;
所述基于图卷积网络法条文本表征建模包括:使用词嵌入矩阵将法律条文词语序列转化为词向量序列,使用神经网络文本自编码器进行特征提取和降维降噪,从编码器得到法条文本表征向量,对全部法条文本表征向量基于法条共现关系图使用图卷积神经网络进行文本增强得到增强后的全部法条文本表征向量,为后续模型提供有效的输入;
所述法条-案情文本增强网络的建模包括:基于注意力机制对案情文本表征和相关法条文本表征进行匹配和计算,得到法条对应权重,案情与法条文本相关性越强则权重越大,根据权重将法条文本表征对原案情描述文本表征进行增强,最后通过一个全连接网络作为分类器得到案件在不同案由上的概率分布。
2.根据权利要求1所述的一种基于法条图卷积网络文本增强的案件文书案由分类方法,其特征在于,所述步骤1中所述的案情提取为利用规则匹配案件文书中案情描述段落,所述分词和降噪为基于通用词典和法律词典将文本划分为词语序列,通过停用词列表将文本中的停用词进行删除,所述法条共现关系图构建为统计不同法律条文在同一案件中出现频次,构造对应的共现矩阵来表征法条共现关系图。
3.根据权利要求1所述的一种基于法条图卷积网络文本增强的案件文书案由分类方法,其特征在于,所述的步骤4包括如下步骤:
步骤4.1:模型参数初始化:;
步骤4.2:使用训练集对模型进行基于梯度下降的无监督预训练和有监督训练:;
步骤4.3:验证集选模型。
4.根据权利要求1所述的一种基于法条图卷积网络文本增强的案件文书案由分类方法,其特征在于,所述的法律条文和案由包括了训练集中案件涉及的全部法律条文和案由。
5.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110055384.7A CN112699243B (zh) | 2021-01-15 | 2021-01-15 | 基于法条图卷积网络文本的案件文书案由分类方法及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110055384.7A CN112699243B (zh) | 2021-01-15 | 2021-01-15 | 基于法条图卷积网络文本的案件文书案由分类方法及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112699243A CN112699243A (zh) | 2021-04-23 |
CN112699243B true CN112699243B (zh) | 2022-10-18 |
Family
ID=75515311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110055384.7A Active CN112699243B (zh) | 2021-01-15 | 2021-01-15 | 基于法条图卷积网络文本的案件文书案由分类方法及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699243B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344060B (zh) * | 2021-05-31 | 2022-07-08 | 哈尔滨工业大学 | 文本分类模型训练方法、诉讼状分类方法及装置 |
CN114461760A (zh) * | 2022-02-10 | 2022-05-10 | 北京华宇元典信息服务有限公司 | 案件事实与法条匹配的方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763484A (zh) * | 2018-05-25 | 2018-11-06 | 南京大学 | 一种基于lda主题模型的法条推荐方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109960726B (zh) * | 2019-02-13 | 2024-01-23 | 平安科技(深圳)有限公司 | 文本分类模型构建方法、装置、终端及存储介质 |
CN110750635B (zh) * | 2019-10-21 | 2023-12-15 | 南京大学 | 一种基于联合深度学习模型的法条推荐方法 |
CN111274405B (zh) * | 2020-02-26 | 2021-11-05 | 北京工业大学 | 一种基于gcn的文本分类方法 |
CN111651594B (zh) * | 2020-05-15 | 2023-06-09 | 上海交通大学 | 基于键值记忆网络的案件案由分类方法及介质 |
CN112148868A (zh) * | 2020-09-27 | 2020-12-29 | 南京大学 | 一种基于法条共现的法条推荐方法 |
-
2021
- 2021-01-15 CN CN202110055384.7A patent/CN112699243B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763484A (zh) * | 2018-05-25 | 2018-11-06 | 南京大学 | 一种基于lda主题模型的法条推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112699243A (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119765B (zh) | 一种基于Seq2seq框架的关键词提取方法 | |
CN109472031B (zh) | 一种基于双记忆注意力的方面级别情感分类模型及方法 | |
CN107526785B (zh) | 文本分类方法及装置 | |
CN112015863B (zh) | 一种基于图神经网络的多元特征融合中文文本分类方法 | |
JP2020520492A (ja) | 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体 | |
CN114169330A (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN112699243B (zh) | 基于法条图卷积网络文本的案件文书案由分类方法及介质 | |
CN109933792B (zh) | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN113220886A (zh) | 文本分类方法、文本分类模型训练方法及相关设备 | |
CN111126396A (zh) | 图像识别方法、装置、计算机设备以及存储介质 | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN113220876A (zh) | 一种用于英文文本的多标签分类方法及系统 | |
CN111651594B (zh) | 基于键值记忆网络的案件案由分类方法及介质 | |
CN113627151A (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN113704396A (zh) | 短文本分类方法、装置、设备及存储介质 | |
CN114372475A (zh) | 一种基于RoBERTa模型的网络舆情情感分析方法及系统 | |
CN111046233B (zh) | 一种基于视频评论文本的视频标签确定方法 | |
CN109947936A (zh) | 一种基于机器学习动态检测垃圾邮件的方法 | |
Safdari et al. | A hierarchical feature learning for isolated Farsi handwritten digit recognition using sparse autoencoder | |
CN117408650A (zh) | 基于人工智能的数字化招标文件制作和评估系统 | |
CN107533672A (zh) | 模式识别装置、模式识别方法以及程序 | |
CN111738226A (zh) | 一种基于cnn和rcnn模型的文本识别方法及装置 | |
CN111460817A (zh) | 一种刑事法律文书相关法条的推荐方法和系统 | |
Sun et al. | Chinese microblog sentiment classification based on convolution neural network with content extension method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |