CN111597331B - 一种基于贝叶斯网络的裁判文书分类方法 - Google Patents

一种基于贝叶斯网络的裁判文书分类方法 Download PDF

Info

Publication number
CN111597331B
CN111597331B CN201911385776.9A CN201911385776A CN111597331B CN 111597331 B CN111597331 B CN 111597331B CN 201911385776 A CN201911385776 A CN 201911385776A CN 111597331 B CN111597331 B CN 111597331B
Authority
CN
China
Prior art keywords
network
legal
node
nodes
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911385776.9A
Other languages
English (en)
Other versions
CN111597331A (zh
Inventor
吕建华
应镕嵘
张柏礼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201911385776.9A priority Critical patent/CN111597331B/zh
Publication of CN111597331A publication Critical patent/CN111597331A/zh
Application granted granted Critical
Publication of CN111597331B publication Critical patent/CN111597331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Marketing (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于贝叶斯网络的裁判文书分类方法,包括以下步骤:提取基本法律要素;构建法律要素关系网络;提取关联特征;构建裁判文书贝叶斯网络;构建联合树推理模型,进行推理分类。本发明通过基于平均信息熵的权重指标体系对法律要素的主题表现力进行评估,有效过滤了干扰信息,提高了法律要素提取的准确率;基于异构信息网络的法律要素关系模型,有效地表示了文本数据;基于Network Embedding的关联特征提取算法有效解决了传统文本向量化算法受上下文窗口大小限制的问题,能够有效地捕捉法律要素之间的关联关系;基于关联特征的贝叶斯网络结构学习算法能够保证图的连通性,学习到对于裁判文书来说最优的网络结构。

Description

一种基于贝叶斯网络的裁判文书分类方法
技术领域
本发明涉及一种基于贝叶斯网络的裁判文书分类方法,属于自然语言处理、机器学习技术领域。
背景技术
近年来,我国民事纠纷案件数量呈上升趋势。而纠纷案件的增加,对于案件解决的效率和案件处理结果的合理性都有着更高的要求。历史民事纠纷裁判文书作为宝贵的材料对于纠纷的解决有着重要参考作用,通过对历史民事纠纷裁判文书的分析,向相关法务人员推荐相似的裁判文书,可以帮助案件分析理清争议焦点,协助纠纷双方客观分析现状,拉近双方的期望值,提高解决纠纷的质量和效率。作为类案推荐的基础,快速而精准地从裁判文书中提取特征信息,并以此为基础高效地对文书进行分类成为了相关法务工作人员的迫切需求。
裁判文书的分类相较其他中文文本具有诸多特点。首先,领域知识在法律文本分类问题中占据重要地位,法律文本的分类问题研究应该在评估特征信息对法律文书主题反映能力时将司法领域知识融入其中。其次,法律文本案由众多而且相互具有很大的差异性,不同的案由通常涉及到不同的领域知识,建立一个能够适用各种案由甚至建立一个做到领域无关的通用模型都是不现实的,将无法客观准确地提取能够反映文本主题的特征信息。最后,法律文本属于长文本,且各个段落在内容上存在大量冗余,使得文本的特征不突出,特征信息提取困难。
现有基于词频的特征提取算法未考虑裁判文书存在大量冗余信息及法律要素之间存在紧密逻辑关系的特殊性,导致提取的法律要素准确率较低。传统文本向量化算法word2vec受上下文窗口大小所限,容易陷入局部最优,无法准确捕捉法律要素之间的逻辑关系。现有贝叶斯网络结构学习方法易陷入局部最优,且存在一些难以定向的边,无法习得最优的裁判文书贝叶斯网络结构。
发明内容
本发明的目的是为了解决上述问题,提出基于贝叶斯网络的裁判文书分类方法(Classification of Judgment Documents Based on Bayesian Network,CBBN)。
为了达到上述目的,本发明采用的方法是:一种基于贝叶斯网络的裁判文书分类方法,包括以下步骤:
(1)提取基本法律要素,先对裁判文书进行分段操作,之后经过分词,停用词去除操作得到候选法律要素;接着对候选法律要素进行权重的计算,以衡量其对裁判文书主题的表现能力,并根据权重大小提取法律要素;
(2)构建法律要素关系网络;
(3)提取关联特征;
(4)构建裁判文书贝叶斯网络;
(5)构建联合树推理模型,进行推理分类。
作为本发明的一种改进,裁判文书是一种具有鲜明主题特征的文本,经观察,可按照“原告陈诉”、“被告辩诉”、“审理查明”、“本院认为”、“判决结果”等五个关键词将裁判文书分为五个内容模块,这样分割之后,对于不同的法律要素可以有针对性的从五个模块中进行提取,避免了大量冗余信息的干扰。
作为本发明的一种改进,所述的法律要素权重计算采用基于平均信息熵的法律要素主题表现力评估方法,综合考虑平均信息熵、位置特征和词频特征三大标准进行计算。
作为本发明的一种改进,所述步骤(2)中,法律要素关系网络的构建过程是先将预处理过后的裁判文书按照句子划分,对于每个句子,设置固定的滑动窗口,同时出现在同一个窗口的法律要素之间存在一条边,法律要素在原文中出现的顺序即为边的方向。
作为本发明的一种改进,所述步骤(3)中,关联特征的提取是在法律要素关系网络的基础上,使用Network Embedding方法得到,其过程为:在网络中选取中心节点,从中心节点出发进行游走,得到固定长度的游走序列,将节点类比成词项,节点序列类比成句子,之后放到Word Embedding的Skip-gram模型中训练,得到节点的向量表示。
作为本发明的一种改进,所述步骤(4)中,裁判文书贝叶斯网络的构建分为结构学习和参数学习两个部分;结构学习的过程分为四步:首先基于前面构建的法律要素关系图进行贝叶斯网络的初始化,得到一个单连通的无向图,此时图中结点之间关系仅有在原文中的共现关系;第二阶段根据由Network Embedding得到的关联特征对第一阶段的单连通图进行增厚,丰富节点之间的关系,得到无向图S;第三阶段在保证无向图S连通的前提下,基于贪婪搜索的思想对冗余边进行去除;最后,将边权重作为网络的结构评分标准,进行边定向操作,确定最优结构。
作为本发明的一种改进,参数学习需要在结构学习得到的网络结构基础上进行,参数学习的过程主要是通过统计法律要素在文档集中出现的频率,学习各个节点的概率分布表。
作为本发明的一种改进,所述步骤(5)中联合树推理模型的构造主要包括道义化,三角化,联合树构造三个步骤;道义化的过程为先连接入度大于1的节点的父节点,之后将所有有向边转化为无向边,得到道义图;三角化的过程为遍历网络中的所有节点,检验节点与其所连接的节点是否构成长度为3的环,如果不构成,检验其是否存在边,如果不存在,则添加边将其连接,得到有弦图;联合树构造的过程为将有弦图中的每个“三角”为联合树的节点,三角之间重合的点和边即为联合树的边,得到联合树。
作为本发明的一种改进,所述步骤(5)中联合树推理的过程为给定的某些节点的信息,在联合树模型上根据贝叶斯理论对裁判文书所涉案由进行推理,得到分类结果。
具体的算法描述如下:
Figure GDA0004128527370000031
(1)第1-2行是对历史裁判文书和待分类裁判文书两个集合的裁判文书进行预处理。具体地,先将裁判文书按照“原告陈诉”、“被告辩诉”、“审理查明”、“本院认为”、“判决结果”等五个关键词分为五个内容模块,这样分割之后,对于不同的法律要素可以有针对性的从五个模块中进行提取,避免了大量冗余信息的干扰。而对于民事判决书存在的大量冗余叙述和固定的结构,本文通过对法律要素的定义及分类将其过滤掉,之后基于平均信息熵、位置特征、词频特征等指标对法律要素进行权重的计算来评估其对案件纠纷性质的表现能力,根据计算得到的权重提取法律要素。
(2)第3行是对上一步得到的法律要素,根据其在原文本中的共现关系,进行法律要素关系网络的构建,具体地,选用异构信息网络来存储文本信息,对于民事判决书来说,一方面,异构信息网络可以表示不同层次的法律要素,及不同法律要素之间的复杂关联关系;另一方面,异构信息网络也是计算机可以直接读取和处理的数据类型,相较于中文文本数据,拥有更低的处理难度和更高的处理效率。
(3)第4行是通过Network Embedding算法将法律要素关系网络映射到向量空间,得到法律要素的向量表示。第5行是根据得到的法律要素向量表示和法律要素关系网络中法律要素的信息,进行关联特征的提取。关联特征是指两个或多个彼此之间存在共现、语义、组合等关系的特征信息组合。通过提取关联特征项,不但可以帮助补充提取文本的特征信息,丰富分类的数据源,还能够帮助贝叶斯网络模型学习最优的网络结构,提高分类的效果。
(4)第6行是根据法律要素关系网络及提取出的关联特征进行贝叶斯网络的结构学习,得到完整的判决书贝叶斯网络结构,主要包括初始化、网络增厚、冗余边去除、边定向等步骤。之后在该网络结构基础上进行参数学习,参数学习的过程主要是通过统计法律要素在文档集中出现的频率,学习各个节点的概率分布表。
(5)第7行是对得到的贝叶斯网络结构进行道义化,先将入度大于1的节点的父节点相连,再将所有有向边转化为无向边,得到道义图。
(6)第8行是对得到的道义图进行三角化,遍历节点,检验节点与其所连接的节点是否构成长度为3的环,如果不构成,检验其是否存在边,如果不存在,则添加边将其连接,得到有弦图。
(7)第9行是对得到的有弦图进行联合树构造,将有弦图中的每个“三角”作为联合树的节点,三角之间重合的点和边作为联合树的边,得到联合树。
(8)第10行是根据给定的某些节点的信息,在联合树模型上进行推理,得到分类结果。
进一步的,步骤(1)所述法律要素权重的计算公式如公式1所示:
W(w)=α*W1+β*W2+γ*W3(公式1)
其中W1,W2,W3分别为词w的平均信息熵、位置重要性及频度重要性。为了获得3个特征参数对于本文研究问题的最优取值,我们采用BP神经网络算法对参数进行训练优化,首先选取部分已得到的裁判文书并进行人工标注,标注能够反映判决书主题的法律要素,之后计算所有法律要素的平均信息熵,位置重要性和频度重要性并将其作为BP神经网络的输入,不断调整参数,对得到的结果取前50%,计算其对人工标注法律要素的命中率。选取命中率最高时候的α、β、γ取值。
进一步的,步骤(2)所述基于词共现关系的法律要素网络构建算法(NetworkConstructionBased on Word Co-occurrence,NCBWC)如下:
Figure GDA0004128527370000041
Figure GDA0004128527370000051
(21)第1-2行,是表示将法律要素添加到法律要素关系图的节点集合中。
(22)3-7行是将之前得到的法律特征集合以句子为单位,设置固定的时间窗口并按窗口进行滑动,窗口内共现的词项之间建立一条边并添加到法律要素关系图的边集合中,词项在原文中出现的顺序即为边的方向。
(23)第8行是将所有句子的有向图合并,即得到最终的法律要素关系图模型。
(24)第9行是对法律要素关系图的每条边进行边权重计算,其主要借助了PageRank的思想,将图中节点看做一个网页,将边的权重看做边所连接节点及其能到达节点共同作用的结果,利用节点的投票机制对边权重进行迭代计算,其计算公式如公式2所示:
Figure GDA0004128527370000052
其中reach(v)和reach(u)代表节点v、u可以到达的节点集合,di,v代表节点i和节点v之间距离。
进一步的,步骤(3)所述Network Embedding方法中的游走策略,基于节点和边权重的游走算法(Walk Based on WV and WE)如下:
Figure GDA0004128527370000053
Figure GDA0004128527370000061
(31)第1行是将初始节点加入游走序列walk中。
(32)第2行是指定初始节点为当前节点,
(33)其中第4行是将所有与当前节点直接相连的节点加入到节点集合V中,
(34)5-6行是对节点集合V中的每个节点计算转移概率。
(35)第7行是将节点概率最高的节点设置为当前节点,
(36)8-11行是检验当前节点的权重是否大于阈值threshold,如果大于等于阈值,则将当前节点加入到游走序列walk中,否则继续对当前节点执行5-11行的步骤。
对于转移概率的计算,引入法律要素关系图节点权重WV,边权重WE,在游走节点的选择上,综合考虑当前节点可达节点的权重和两节点之间边的权重进行选择,具体的转移概率PT计算公式如5.2
PT=(αWV+βWE)*αpq(5.2)
其中WV和WE分别代表节点和边的权重,αpq是node2vec中的转移概率。α、β为WV和WE系数。而对于游走策略,我们在序列生成的过程中,引入阈值threshold,目的是针对节点权重较低,但是其与当前节点相连的边权重较高,导致最终的转移概率高于其他节点的情况,此时,我们选择这条边,但是并不将该节点加入到游走序列中。因为边的权重是综合边直接相连节点和间接相连节点计算得到,因此边的权重较高,说明沿着这条边游走,可以找到权重较高的节点。这样既避免了权重较低节点的加入,又有效地增加了游走的范围。
进一步的,步骤(4)所述基于关联特征的贝叶斯网络结构学习算法(StructureLearningBased on Correlation Features,SLBCF)如下:
Figure GDA0004128527370000062
(41)由于法律要素关系图是根据共现关系构建,在时间窗口为k时,每k个节点之间存在
Figure GDA0004128527370000071
条边,冗余边较多,因此我们以窗口k为单位,对每k个节点根据边的权重大小选取k-1条边进行单连通图的初始化。基于边权重的初始化算法(Initialization BasedonEdge Weight,IBEW)如下:
Figure GDA0004128527370000072
第1行指根据时间窗口k,将原法律要素关系图分为num-k个子图。第2-3行是将子图内的边按照权重降序排列,并挑选前k-1条边加入到序列L中。4-7行是对由这k个节点和k-1条边组成的子图进行连通检测,如果该子图是单连通图,将其加入到最终的单连通图中。其中第4-5行是将这k个节点和选出的k-1条边加入到子图Gi中,第6行是对子图Gi进行单连通检测,第7行是将子图Gi加入到最终结果的单连通图G中。第8-10行是对子图非连通情况下的处理,按照边权重的排序,再挑选边加入序列L中组成新的子图,进行单连通检测,如此重复,直到子图Gi连通,将子图Gi加入到最终结果的单连通图G中。循环num-k次得到最终的单连通图G。
(42)经过初始化得到的单连通图,只包含法律要素在原文中的共现关系。网络增厚的主要工作是将由Network Embedding提取出的关联关系添加到初始连通图中。对于任意关联特征{Vi,Vj}节点对<Vi,Vj>,若其在初始图中不相连,则向连通图中添加边<Vi,Vj>,基于关联特征的网络增厚算法(Thicken Based on Correlation Features,TBCF)如下:
Figure GDA0004128527370000073
Figure GDA0004128527370000081
第2行对图G上的两个节点vi、vj,通过checkEdge函数检测其在初始图中是否存在边。若不存在边,则执行第6行,在这两个节点之间添加一条边。
(43)为得到高准确率的贝叶斯网络结构,需要对增厚阶段引入的冗余边予以去除。在此需要引入评分机制,利用之前计算出来的点和边的权重进行贝叶斯网络的结构评估。
这一步的主要任务是对连通图中的环进行破除,从长度为3的环开始检测,直到整个网络。如果检测到环,在保证图连通性的前提下,从权重最小的边开始删除,直到环被破除。基于边权重的冗余边去除算法(Delete Based on Edge Weight,DBEW)如下:
Figure GDA0004128527370000082
Figure GDA0004128527370000091
第1行代表从长度为3的环开始检测,直到长度达到网络中节点数。第2-10行利用环检测函数loopDetect对当前子网络是否存在环进行检测,如果存在环,则对当前子网络所包含的边按权重降序排列,删除权重最小的边,检测子图是否还连通,若连通则继续进行直到子网络没有环,若不连通则将第5行操作进行回滚,转而删除权重次小的边。其中第2行是进行是否有环的检测,第4-10行是进行破环操作,6-9行是删除边后的连通检测。
(44)经过上述步骤,我们得到了一个无向图S,接下来要进行贝叶斯网络的边定向操作,由于节点和边的权重只能衡量要素之间的关系,即节点之间是否有边,却无法确定边的具体方向,因此,本节采用BDe评分来评价边的方向对网络结构的影响。本节所述基于评分-搜索的边定向方法(Edge Orientation Based on Score-Search,EOBSS)如下
Figure GDA0004128527370000092
Figure GDA0004128527370000101
第1行是对所有的边添加操作和转向操作迭代执行num次,直到BDe评分不再变化,2-8行是执行添加边操作,保留能使BDe评分增加的边,其中第3行是求得与节点u邻接的节点集,第4行是添加边v→u,5-8行是检测BDe评分是否增加,若评分增加,则保留操作,否则执行回退操作。9-14是执行边转向操作,如果评分增加则保留操作,否则回退。
有益效果:
通过基于平均信息熵的权重指标体系对法律要素的主题表现力进行评估,有效过滤了干扰信息,提高了法律要素提取的准确率;基于异构信息网络的法律要素关系模型,有效地表示了文本数据;基于Network Embedding的关联特征提取算法有效解决了传统文本向量化算法受上下文窗口大小限制的问题,能够有效地捕捉法律要素之间的关联关系;基于关联特征的贝叶斯网络结构学习算法能够保证图的连通性,学习到对于裁判文书来说最优的网络结构。
附图说明
图1为本发明中裁判文书分类方法的流程图;
图2为裁判文书示例;
图3为进行分段处理后的“五段”式文本示例;
图4为滑动窗口为3时对例句1进行关系图构建的结果;
图5为滑动窗口为3时对例句2进行关系图构建的结果;
图6为将图3和图4根据原文关系连接的结果;
图7为贝叶斯网络初始化示例;
图8为贝叶斯网络网络增厚示例;
图9为贝叶斯网络冗余边去除示例;
图10为贝叶斯网络边定向示例;
图11为贝叶斯网络示例;
图12为节点“住房”概率分布表;
图13为节点“抚养费”概率分布表;
图14为联合概率分布表;
图15为道义图示例;
图16为有弦图示例;
图17为联合树示例。
具体实施方式
本发明中的裁判文书分类方法的流程图如图1所示。在训练环节,首先从历史案例判决书中提取法律要素,构建关系图并获得关联特征后输入贝叶斯网络进行训练,然后根据训练后的初始贝叶斯网络构造得到联合树,并将其作为法律裁判文书的分类器。对于待分类的裁判文书,同样需要进行法律要素提取、构建关系图以及关联特征等步骤,其次根据给定的某些节点的信息,在联合树模型上进行推理,得到分类结果。下面结合附图和具体实施例对本案作进一步地说明。
步骤一:对得到的裁判文书进行分段处理,例如将图2所示的裁判文书按照“原告陈诉”、“被告辩诉”、“审理查明”、“本院认为”、“判决结果”分段得到图3所示的“五段”式文本。
步骤二:对图3所示的文本进行分词,停用词去除,删除标点等操作。例如对例句1“本案所涉住房应被视为夫妻婚后共同财产,依法进行分割”进行预处理的结果为“住房应被视为夫妻婚后共同财产依法分割”,对例句2“原告在被告公司持有的股份和债务由被告所有和承担”的预处理结果为“原告、被告、公司、股份、债务、被告、所有、承担”。
步骤三:对得到的法律要素集合进行法律要素关系图的构建,以句子为单位,按固定窗口进行滑动,窗口内共现的词项之间建立一条边,词项在原文中出现的顺序即为边的方向;最后将上述句子的有向图进行合并,得到最终的法律要素关系网络。例如对上一步得到的法律要素在滑动窗口大小为3时构建的图分别如图4和图5所示,之后根据两句在原文中出现的先后顺序进行连接,得到最终的图建模结果如图6所示。
步骤四:对得到的法律要素关系图,使用Network Embedding方法,得到每一个节点的向量表示,向量数值上的大小代表节点之间的联系程度,因此,根据向量数值,寻找与中心节点数值相近的节点,构成关联特征。
步骤五:在法律要素关系图的基础上,基于边的权重,进行贝叶斯网络的初始化,例如图4所示的关系图是以时间窗口为3构建得到的法律要素关系图,选取{原告、公司、股份}构成的子图为例,图中存在<原告、公司>、<原告、股份>和<公司、股份>三条边,按照边的权重降序排序的顺序为<公司、股份>、<原告、公司>、<原告、股份>,因此选取<公司、股份>、<原告、公司>两条边加入到子图中,此时子图连通,继续选取下一个子图,重复以上步骤得到图7所示的最终结果。
步骤六:对图7所示的初始图进行网络增厚,在游走序列walks中,存在节点对<债务,被告>、<债务、承担>、<债务、股份>,但是“债务”和“承担”在初始图中本来就存在边,因此添加边<债务,被告>、<债务、股份>,得到图8所示的结果。
步骤七:在图8所示的网络中,长度为3的环有<公司,股份,债务>、<股份,债务,被告>、<被告,承担,债务>,长度为4的环有<公司,股份,被告,债务>、<股份,被告,承担、债务>,长度为5的环有<公司,股份,被告,承担,债务>等。以环<公司,股份,债务>为例,边<股份、债务>的权重在图中3条边中最小,因此删除边<股份、债务>,以此类推,最终得到如图9所示的网络。
步骤八:在图9所示的无向图中,以节点“公司”为例,其候选父节点集为{原告,股份,债务},依次添加有向边<原告,公司>、<股份,公司>、<债务,公司>,并计算添加之后的BDe评分,发现BDe评分均有增加,因此添加有向边<原告,公司>、<股份,公司>、<债务,公司>。但是在对节点“股份”和“债务”进行研究时,发现添加边<公司,股份>和<公司,债务>时,整个图的BDe评分又有所增加,所以对原来的有向边<股份,公司>、<债务,公司>进行转向操作,以此类推,得到最终的有向图结果如图10所示。
步骤九:在结构学习得到的网络结构基础上进行参数学习,统计每个法律要素在原文档集中出现的频率。例如在图11所示的贝叶斯网络结构上进行参数学习,图12、13、14为学习得到的节点概率分布表示例。
步骤十:对图11所示的贝叶斯网络,进行道义化,先将入度大于1的节点的父节点相连,图11中存在婚后→离婚,婚姻法→离婚两条边,因此添加边婚后-婚姻法。之后将所有有向边转化为无向边,得到图15所示的道义图。
步骤十一:对图15所示道义图进行三角化操作,遍历节点,检验节点与其所连接的节点是否构成长度为3的环,如果不构成,检验其是否存在边,如果不存在,则添加边将其连接,图15中与“孙某”相连的“抚养权”、“抚养费”并不构成环,且不相连,因此添加边抚养权-抚养费,同理,添加边抚养费-鉴定费,生育-离婚,住房-私有财产。得到图16所示的有弦图。
步骤十二:对图16所示的有弦图进行联合树构造,图中的每个“三角”为联合树的节点,三角之间重合的点和边即为联合树的边。得到图17所示的联合树。
步骤十三:根据给定的某些节点的信息,在联合树模型上进行推理,得到分类结果。例如,给定待分类裁判文书存在“住房”一词,即P(住房)=1,根据P(住房|婚姻法),P(住房|离婚后财产纠纷)的值,即可求得该文本所涉案件可依据婚姻法判决的概率,以及该案件属于离婚后财产纠纷案件的概率。而对于文本集同样可以,例如给定文本集,我们对其进行预处理操作,得到文本集合中“婚姻法”、“民事诉讼法”同时出现的概率为0.7,即P(婚姻法,民事诉讼法)=0.7,则根据P(婚姻法,民事诉讼法|离婚后财产纠纷)的值可以计算该类文本属于离婚后财产纠纷类的概率。

Claims (5)

1.基于贝叶斯网络的裁判文书分类方法,其特征在于,包括以下步骤:
(1)提取基本法律要素,先对裁判文书进行分段操作,之后经过分词,停用词去除操作得到候选法律要素;接着对候选法律要素进行权重的计算,以衡量其对裁判文书主题的表现能力,并根据权重大小提取法律要素;
(2)构建法律要素关系网络;
(3)提取关联特征;
(4)构建裁判文书贝叶斯网络;
(5)构建联合树推理模型,进行推理分类;
所述步骤(2)中,法律要素关系网络的构建过程是先将预处理过后的裁判文书按照句子划分,对于每个句子,设置固定的滑动窗口,同时出现在同一个窗口的法律要素之间存在一条边,法律要素在原文中出现的顺序即为边的方向;
所述步骤(3)中,关联特征的提取是在法律要素关系网络的基础上,使用NetworkEmbedding方法得到,其过程为:在网络中选取中心节点,从中心节点出发进行游走,得到固定长度的游走序列,将节点类比成词项,节点序列类比成句子,之后放到Word Embedding的Skip-gram模型中训练,得到节点的向量表示;
所述步骤(4)中,裁判文书贝叶斯网络的构建分为结构学习和参数学习两个部分;结构学习的过程分为四步:首先基于构建的法律要素关系网络进行贝叶斯网络的初始化,得到一个单连通的无向图,此时图中结点之间关系仅有在原文中的共现关系;第二阶段根据由Network Embedding得到的关联特征对第一阶段的单连通图进行增厚,丰富节点之间的关系,得到无向图S;第三阶段在保证无向图S连通的前提下,基于贪婪搜索的思想对冗余边进行去除;最后,将边权重作为网络的结构评分标准,进行边定向操作,确定最优结构;
所述步骤(5)中联合树推理模型的构造包括道义化,三角化,联合树构造三个步骤;道义化的过程为先连接入度大于1的节点的父节点,之后将所有有向边转化为无向边,得到道义图;三角化的过程为遍历网络中的所有节点,检验节点与其所连接的节点是否构成长度为3的环,如果不构成,检验其是否存在边,如果不存在,则添加边将其连接,得到有弦图;联合树构造的过程为将有弦图中的每个“三角”作为联合树的节点,三角之间重合的点和边即为联合树的边,得到联合树。
2.根据权利要求1所述的基于贝叶斯网络的裁判文书分类方法,其特征在于:所述的裁判文书分段操作,按照“原告陈诉”、“被告辩诉”、“审理查明”、“本院认为”、“判决结果”五个关键词将裁判文书分为五个内容模块。
3.根据权利要求2所述的基于贝叶斯网络的裁判文书分类方法,其特征在于:所述的法律要素权重计算采用基于平均信息熵的法律要素主题表现力评估方法,综合考虑平均信息熵、位置特征和词频特征三大标准进行计算。
4.根据权利要求1所述的贝叶斯网络的裁判文书分类方法,其特征在于:参数学习需要在结构学习得到的网络结构基础上进行,参数学习的过程是通过统计法律要素在文档集中出现的频率,学习各个节点的概率分布表。
5.根据权利要求1所述的贝叶斯网络的裁判文书分类方法,其特征在于,所述步骤(5)中联合树推理的过程为给定的节点信息,在联合树模型上根据贝叶斯理论对裁判文书所涉案由进行推理,得到分类结果。
CN201911385776.9A 2019-12-29 2019-12-29 一种基于贝叶斯网络的裁判文书分类方法 Active CN111597331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911385776.9A CN111597331B (zh) 2019-12-29 2019-12-29 一种基于贝叶斯网络的裁判文书分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911385776.9A CN111597331B (zh) 2019-12-29 2019-12-29 一种基于贝叶斯网络的裁判文书分类方法

Publications (2)

Publication Number Publication Date
CN111597331A CN111597331A (zh) 2020-08-28
CN111597331B true CN111597331B (zh) 2023-05-02

Family

ID=72191969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911385776.9A Active CN111597331B (zh) 2019-12-29 2019-12-29 一种基于贝叶斯网络的裁判文书分类方法

Country Status (1)

Country Link
CN (1) CN111597331B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163707B (zh) * 2020-09-30 2024-07-02 北京理工大学 一种基于贝叶斯网络的刑期预测方法
CN112365372B (zh) * 2020-10-09 2024-01-12 银江技术股份有限公司 一种面向裁判文书的质量检测及评估方法及系统
CN112417152A (zh) * 2020-11-19 2021-02-26 首都师范大学 涉案舆情的话题检测方法和装置
CN113626685B (zh) * 2021-07-08 2024-05-03 中国科学院信息工程研究所 一种面向传播不确定性的谣言检测方法及装置
CN115908061B (zh) * 2022-11-16 2024-04-12 广州明动软件股份有限公司 一种基于行政执法办案平台的结构化电子文书系统
CN117114102A (zh) * 2023-10-13 2023-11-24 江苏前景瑞信科技发展有限公司 一种基于贝叶斯网络和故障树的变压器故障诊断方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729553A (zh) * 2013-12-19 2014-04-16 浙江工商大学 一种基于贝叶斯网络学习的城市安全复杂事件分类控制方法
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN108763483A (zh) * 2018-05-25 2018-11-06 南京大学 一种面向裁判文书的文本信息抽取方法
CN109299255A (zh) * 2018-09-12 2019-02-01 东莞数汇大数据有限公司 基于朴素贝叶斯的案件文本分类方法、系统和存储介质
CN109697512A (zh) * 2018-12-26 2019-04-30 东南大学 基于贝叶斯网络的个人数据分析方法及计算机存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729553A (zh) * 2013-12-19 2014-04-16 浙江工商大学 一种基于贝叶斯网络学习的城市安全复杂事件分类控制方法
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN108763483A (zh) * 2018-05-25 2018-11-06 南京大学 一种面向裁判文书的文本信息抽取方法
CN109299255A (zh) * 2018-09-12 2019-02-01 东莞数汇大数据有限公司 基于朴素贝叶斯的案件文本分类方法、系统和存储介质
CN109697512A (zh) * 2018-12-26 2019-04-30 东南大学 基于贝叶斯网络的个人数据分析方法及计算机存储介质

Also Published As

Publication number Publication date
CN111597331A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN111597331B (zh) 一种基于贝叶斯网络的裁判文书分类方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN108415953A (zh) 一种基于自然语言处理技术的不良资产经营知识管理方法
CN106156286A (zh) 面向专业文献知识实体的类型抽取系统及方法
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
DE112013004082T5 (de) Suchsystem der Emotionsentität für das Microblog
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN110781679B (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN113806531B (zh) 药物关系分类模型构建方法、药物关系分类方法及系统
CN106294324A (zh) 一种基于自然语言句法分析树的机器学习情感分析器
CN109840324B (zh) 一种语义强化主题模型构建方法及主题演化分析方法
CN110852437A (zh) 一种针对异质信息网络的表示学习方法
CN109800349A (zh) 基于用户发布内容量化新闻价值的数据处理方法和装置
CN105224520A (zh) 一种中文专利文献术语自动识别方法
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN109726402B (zh) 一种文档主题词自动提取方法
CN109299248A (zh) 一种基于自然语言处理的商业情报收集方法
CN114936277A (zh) 相似问题匹配方法和户相似问题匹配系统
Kundana Data Driven Analysis of Borobudur Ticket Sentiment Using Naïve Bayes.
CN115438274A (zh) 基于异质图卷积网络的虚假新闻识别方法
Waldherr et al. Mining big data with computational methods
CN105468780A (zh) 一种微博文本中产品名实体的规范化方法及装置
Salmony et al. An enhanced twitter sentiment analysis model using negation scope identification methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant