CN110609821A - 一种用于刑罚推断的主题模型ptm - Google Patents
一种用于刑罚推断的主题模型ptm Download PDFInfo
- Publication number
- CN110609821A CN110609821A CN201810561189.XA CN201810561189A CN110609821A CN 110609821 A CN110609821 A CN 110609821A CN 201810561189 A CN201810561189 A CN 201810561189A CN 110609821 A CN110609821 A CN 110609821A
- Authority
- CN
- China
- Prior art keywords
- legal case
- ptm
- legal
- model
- penalty
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims abstract description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 1
- 238000009826 distribution Methods 0.000 description 28
- 238000005070 sampling Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000009795 derivation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000004481 post-translational protein modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明旨在从原始法律案件中提取五种不同的司法特征,包括时间戳、地点、诉讼原因以及案件事实的文本描述,并将上述特征输入到PTM模型中。其中,文本是必需元素。本发明学习测试中的法律案件的主题,并结合在训练过程中学习到的主题并通过一种投票机制来推断该法律案件的判罚。
Description
技术领域
本发明属于计算机技术中的机器学习领域,尤其是机器学习中数据分析领域,使用Penalty Topic Model(PTM)用于司法研究中的刑罚推断,该技术可以为法官决定最终判罚或罚款金额提供有效帮助,进而有利于司法事业的发展和社会效率的提高。
背景技术
目前,传统的主题建模技术包括LDA和PLSA等,也有一些技术致力于研究位置信息或时间信息与主题之间的关系。而司法研究大多停留在宏观层面,人工智能和机器学习鲜少被用于法律案件的知识发现或刑罚推断问题,从而导致大量的法律案件及其成因仍然处于未被探索的阶段。
法律案件的最终判决是一项复杂的工作,它往往涉及很多谈判、适用的法规或情形以及历史上类似的案例。这个过程的每一步都需要集中的人力和专业知识。为了模仿法庭判决的过程,我们的发明旨在从计算机科学的角度对某些步骤进行定量分析,通过数据本身揭示法律案件中的统计特征。对司法大数据运用机器学习方法来进行刑法推断,并采用推荐系统的方法论。根据案件影响因素的复杂性及案件可能适用于多种法规或情形可知,刑罚推断可能是多标签多类问题。
刑罚主题模型的相关概念主要包括:
1.法律案件:一个法律案件是一个四元组(Wm,c,t,l),表示法律案件m由词汇集Wm,诉讼原因c,时间信息t和位置l组成。
2.主题:在给定一个法律案件集的情况下,由主题模型生成的主题z是词汇多项分布φk,诉讼原因β分布时间戳β分布和地理坐标上的高斯分布的结合。
3.刑罚推断:给定具有时空信息的法律案件数据集D以及诉讼原因的信息和目标法案v,我们的目标是针对法律案件v推荐可能的判罚或罚款金额。目标法案v的判罚或罚款金额是采用投票策略从其所属的主题推断出来的。
并且,还可以获得如下这些直观的信息:
1.法律案件的主题。对法律案件事实的描述呈现出强烈的语义规律性,即除了官方所标注的诉讼原因外,文本描述揭示了该法律案件的本质语义主题。
2.时间信息。在某种诉讼原因下,罚款金额往往保持在一定范围内。给定一个法律案件,其时间戳提供了关于其本质主题的关键线索。
3.位置信息。在某一年,罚款金额往往与地理位置具有高度相关性。同一省份同一诉讼原因的法律案件趋向于有相近的判决,附近省份之间的相关性也远高于相距较远的省份。
发明内容
本发明要解决的问题是:提出一种用于刑罚推断的主题模型PTM。本发明的技术方案为:
1)从原始法律案件中提取五种不同的司法特征,包括时间戳、地点、诉讼原因以及案件事实的文本描述。
2)将上述特征输入到PTM模型中。其中,只有文本是必需的。
3)然后,学习测试中的法律案件的主题,并结合在训练过程中学习到的主题。
4)通过一种投票机制来推断该法律案件的判罚。
在真实的大规模法律案件数据集上进行的大量的实验也体现了PTM模型的优越性。
本发明的有益效果是:PTM模型可以推断法律案件的主题,以及案件判断中包含的主题的时间和空间模式,再利用学到的这些知识将所有案件以统一的方式自动聚类。进而帮助法律人员决定最终判罚或罚款金额,促进司法事业的发展和社会效率的提高。
附图说明
图1刑罚推断的框架图
图2 PTM图模型
图3 PTM模型与其他方法的比较
具体实施方式
相关定义如下表所示:
我们将法律案件m中的主题建模为所有主题的多项分布,记为θm。在形式上,我们假设有K个主题,每个主题由一个词分布表示。令φk表示主题k的词分布。为了模拟法律案件的生成过程,首先根据主题分布选择一个主题。然后根据所选主题逐一选择词袋。正如上述,与法律案件有关的处罚表现出不同的时间和空间格局,这也面临着诉讼原因分类的限制。因此,PTM中的主题k不仅负责生成单词Wm,还包括时间信息和法律案件m的地理坐标lm,以及诉讼原因信息。也就是说,我们的PTM模型中的每个主题k不仅与单词分布φk相关联,还与时间分布诉讼原因分布以及地理坐标上的高斯分布有关。这种设计能够通过潜在变量主题k将单词、时间信息、诉讼原因分类信息和法律案件的地理位置关联在一起。
注意,为了避免过度拟合,我们将Dirichlet先验置于多项分布θm上,参数为α。
其中Γ(·)是gamma函数。类似地,φk上的先验是参数β施加的。如下所示,我们正式描述了法律案件数据集的PTM的概率生成过程,其中Dir()和Multi()分别表示Dirichlet和多项分布。
1.对于每个主题k=1,...,K,提取φk~Dir(β),表示主题k的特定词分布。
2.对于每个法律案件m=1,...,M
(a)提取θm~Dir(α),表示法律案件m中的主体分布。
(b)对于主题k中的第n个法律案件,n=1,...,N
i 提取诉讼原因主题k上的贝塔分布。
ii 提取时间戳主题k上的贝塔分布。
iii 提取位置主题k上的高斯分布。
iv 对每个单词w∈Wm,提取
最后,我们得到观测值和隐藏变量的联合分布,如公式2所示。
The joint probability of the observed and hidden variables in the PTMmodel
模型推导过程如下:
我们的目标是学习使观察到的随机变量m,lm,c,Wm和t的边缘对数似然最大化的参数。边缘化是针对潜在随机变量z执行的,并且很难在PTM模型中进行精确的推断。因此,我们采用吉布斯抽样来进行近似推理。请注意,我们采用了共轭先验(Dirichlet)进行多项分布,因此我们可以很容易地将θ和φ积分,从而分析捕获与它们相关的不确定性。由于空间的限制,我们省略了求导细节。这样我们便于采样,也就是说,我们根本不需要采样θ和φ。因为我们使用连续的Beta和Gaussian分布而不是将时间和空间离散化,因此在拟合此模型的时间和空间部分时,稀疏度并不是一个大问题。为了简化和快速推理,我们通过吉布斯采样每次迭代后的矩量法来估算Beta分布参数和Gaussian分布参数至于超参数α和β,为了简单起见,根据研究[13,14],我们采用固定值,即α=50/K和β=0.01。
在吉布斯抽样过程中,我们需要获得每个法律案件m(lm,c,t,Wm)潜在主题k的后验概率。首先,我们需要计算条件概率其中代表给除当前法律案件外所有法律案件的主题k赋值。首先,是等式2所示的潜在变量和观测变量的联合概率分布,再使用贝叶斯链规则,我们可以很容易地得到条件概率:
其中nk是法律案件中对主题k抽样的次数;nk,w是由类别——主题k生成单词w的次数;而带有上标的数字表示排除当前实例的数量。
在每次迭代之后,我们使用矩量法来根据指定的潜在变量k来简单和快速地更新Beta和高斯分布参数(即,和)。具体而言,参数和如等式(4)和(5)所示进行更新。
其中Sk表示分配有潜在主题k的法律案件。
Beta分布参数进行如下更新:
其中和分别表示主题k的诉讼原因的样本平均值和偏差样本方差。
Beta分布参数进行如下更新:
其中和分别表示主题k的时间戳的样本平均值和偏差样本方差。
在进行了充分次数的采样迭代之后,近似的后验可用于通过检查法律案件的k的数目来估计参数。具体而言,其他模型参数根据以下等式进行估计。
将学习的PTM模型(即Θ={θ,φ,ψc,ψt,μl,∑l)应用于刑罚推断问题,即学习一个给定的法律案件的主题,从而将其聚类为学习集群。
给定一组法律案例对于法律案件m,我们利用学习的PTM模型来预测m的单词。给定一组法律案例,为m选择单词w的概率计算如下:
在得到该法律案件的主题之后,我们采用了多数投票策略来决定判罚和罚款金额。多数投票策略被应用于模型推论的训练结果,即最终判决主题个数K及其自身的法律案件。并将投票结果推荐作为给定法律案件的处罚。
此外,我们通过实验将PTM与现有的SVM,fastText,textCNN方法进行比较,实验结果证明了PTM模型的优越性。
Claims (3)
1.一种用于刑罚推断的主题模型PTM,其特征是:(1)从原始法律案件中提取五种不同的司法特征,包括时间戳、地点、诉讼原因以及案件事实的文本描述。(2)将上述特征输入到PTM模型中。其中,只有文本是必需的。(3)学习测试中的法律案件的主题,并结合在训练过程中学习到的主题。(4)通过一种投票机制来推断该法律案件的判罚。
2.据权利要求1所述的刑罚推断的主题模型PTM特征,需注意,PTM是一种潜类别概率生成模型;输入的数据,即原始法律案件,被模拟为观察到的随机变量;潜在变量主题k将单词、时间信息、诉讼原因分类信息和法律案件的地理位置都关联在一起。
3.据权利要求1,2所述的刑罚推断的主题模型PTM特征,
1)每个法律案件最初都是一个文本描述,这表示它不能直接被用作模型的输入。要通过NLP方法从原始文本中提取一些标签信息,提取法律案件的诉讼原因、时间信息和空间信息等作为PTM模型的输入。
2)过滤出含有模糊时间信息、不可识别空间信息的法律案件,利用若干特征词的阈值去除没有足够主题词的法律案件,得到一个适用于我们提出的PTM模型的法律案件数据集。
3)利用学到的这些知识将所有案件以统一的方式自动聚类。
4)在得到该法律案件的主题之后,采用多数投票策略来决定判罚和罚款金额,并将投票结果推荐作为给定法律案件的处罚。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810561189.XA CN110609821A (zh) | 2018-05-29 | 2018-05-29 | 一种用于刑罚推断的主题模型ptm |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810561189.XA CN110609821A (zh) | 2018-05-29 | 2018-05-29 | 一种用于刑罚推断的主题模型ptm |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110609821A true CN110609821A (zh) | 2019-12-24 |
Family
ID=68887495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810561189.XA Pending CN110609821A (zh) | 2018-05-29 | 2018-05-29 | 一种用于刑罚推断的主题模型ptm |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110609821A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116172A (zh) * | 2020-09-30 | 2020-12-22 | 四川大学 | 一种基于概率图模型的刑期预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365978A (zh) * | 2013-07-01 | 2013-10-23 | 浙江大学 | 基于lda主题模型的中医药数据挖掘方法 |
CN107153689A (zh) * | 2017-04-29 | 2017-09-12 | 安徽富驰信息技术有限公司 | 一种基于主题相似度的案件检索方法 |
CN107291688A (zh) * | 2017-05-22 | 2017-10-24 | 南京大学 | 基于主题模型的裁判文书相似度分析方法 |
-
2018
- 2018-05-29 CN CN201810561189.XA patent/CN110609821A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365978A (zh) * | 2013-07-01 | 2013-10-23 | 浙江大学 | 基于lda主题模型的中医药数据挖掘方法 |
CN107153689A (zh) * | 2017-04-29 | 2017-09-12 | 安徽富驰信息技术有限公司 | 一种基于主题相似度的案件检索方法 |
CN107291688A (zh) * | 2017-05-22 | 2017-10-24 | 南京大学 | 基于主题模型的裁判文书相似度分析方法 |
Non-Patent Citations (3)
Title |
---|
FEESS E, SCHRAMM M, WOHLSCHLEGEL A: "The impact of fine size and uncertainty on punishment and deterrence: Theory and evidence from the laboratory", 《JOURNAL OF ECONOMIC BEHAVIOR & ORGANIZATION》 * |
KUGATSU SADAMITSU,TAKUYA MISHINA,MIKIO YAMAMOTO: "Topic-Based Language Models Using Dirichlet Mixtures", 《SYSTEMS AND COMPUTERS IN JAPAN,》 * |
黄发良,于戈,张继连,李超雄等: "基于社交关系的微博主题情感挖掘", 《软件学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116172A (zh) * | 2020-09-30 | 2020-12-22 | 四川大学 | 一种基于概率图模型的刑期预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Algan et al. | Image classification with deep learning in the presence of noisy labels: A survey | |
Murdoch et al. | Beyond word importance: Contextual decomposition to extract interactions from lstms | |
US10719780B2 (en) | Efficient machine learning method | |
CN104217225B (zh) | 一种视觉目标检测与标注方法 | |
Tang et al. | Multi-label patent categorization with non-local attention-based graph convolutional network | |
CN101561805A (zh) | 文档分类器生成方法和系统 | |
CN105389354A (zh) | 面向社交媒体文本的无监督的事件抽取和分类方法 | |
Vainshtein et al. | A hybrid approach for automatic model recommendation | |
Liu et al. | Learning to predict population-level label distributions | |
Gautam et al. | Performance analysis of supervised machine learning techniques for cyberstalking detection in social media | |
CN110765285A (zh) | 基于视觉特征的多媒体信息内容管控方法及系统 | |
Manik et al. | Aspect-based sentiment analysis on candidate character traits in indonesian presidential election | |
Bhattacharya et al. | Application of machine learning techniques in detecting fake profiles on social media | |
Kovalchuk et al. | Text mining for the analysis of legal texts | |
CN103268346A (zh) | 半监督分类方法及系统 | |
Cahyaningtyas et al. | Emotion detection of tweets in Indonesian language using LDA and expression symbol conversion | |
Ravichandran et al. | Intelligent topical sentiment analysis for the classification of e-learners and their topics of interest | |
Parvathi et al. | Identifying relevant text from text document using deep learning | |
Gondaliya et al. | Learning to categorize bug reports with LSTM networks | |
CN110609821A (zh) | 一种用于刑罚推断的主题模型ptm | |
Mehendale et al. | Cyber bullying detection for Hindi-English language using machine learning | |
Yujiao et al. | Dropout Prediction Model for College Students in MOOCs Based on Weighted Multi-feature and SVM | |
Saranya Shree et al. | Prediction of fake Instagram profiles using machine learning | |
WO2022148108A1 (en) | Systems, devices and methods for distributed hierarchical video analysis | |
Brust et al. | Making every label count: Handling semantic imprecision by integrating domain knowledge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191224 |
|
WD01 | Invention patent application deemed withdrawn after publication |