CN110046259A - 一种基于判决书文本的涉毒案件深度分析方法 - Google Patents
一种基于判决书文本的涉毒案件深度分析方法 Download PDFInfo
- Publication number
- CN110046259A CN110046259A CN201910196636.0A CN201910196636A CN110046259A CN 110046259 A CN110046259 A CN 110046259A CN 201910196636 A CN201910196636 A CN 201910196636A CN 110046259 A CN110046259 A CN 110046259A
- Authority
- CN
- China
- Prior art keywords
- drug
- case
- information
- main information
- involved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 62
- 229940079593 drug Drugs 0.000 title claims abstract description 62
- 238000004458 analytical method Methods 0.000 title claims abstract description 19
- 239000000284 extract Substances 0.000 claims abstract description 10
- 238000007619 statistical method Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 17
- 238000005259 measurement Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 2
- 239000002574 poison Substances 0.000 claims description 2
- 231100000614 poison Toxicity 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000008896 Opium Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 229960001027 opium Drugs 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Technology Law (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于判决书文本的涉毒案件深度分析方法,包括如下步骤:S1)提取毒品犯罪案件的主要信息;S2)统计分析提取的信息;S3)根据主要信息建立预测模型;S4)使用模型预测判刑结果。本发明的优点为:从毒品犯罪案件的刑事判决书中提取主要信息并进行统计,帮助整理案卷,分析毒品犯罪的趋势和因素,针对毒品犯罪的相关行为进行判决结果预测,便于禁毒教育宣传。
Description
技术领域
本发明涉及文本提取和机器学习技术领域,具体涉及一种基于判决书文本的涉毒案件深度分析方法。
背景技术
毒品犯罪是涉及毒品的犯罪。尽管我国针对毒品犯罪的打击力度一直很强,但由于毒品贩卖具有高额利润的特点,绝大多数人并不了解我国法律针对毒品犯罪的判决条例,很多人还是会铤而走险,走上毒品犯罪的道路。因此须要加强毒品犯罪的教育宣传工作,对于有贩毒意向的潜在罪犯,告知他们怎样的行为会产生怎样的判决结果能够起到有力的警醒作用。
我国刑法对于毒品犯罪的量刑标准有一个具体的阐述,但是大多数人并没有耐心阅读法律法规,因此,一个直观的量刑结果预测显得尤为重要。利用法律知识进行逻辑判断,给定量刑的基准范围,并从实际案件中提取与量刑相关的特征参数进行机器学习从而获得辅助参数,就可以根据毒品犯罪相关行为作出预判结果。
发明内容
本发明的目的是提供一种可根据毒品犯罪相关行为作出预判结果的基于判决书文本的涉毒案件深度分析方法。
为了达到上述目的,本发明通过以下技术方案来实现:
一种基于判决书文本的涉毒案件深度分析方法,包括如下步骤:
S1)提取毒品犯罪案件的主要信息
系统导入毒品犯罪刑事判决书,采用句式分析、关键字抓取和正则表达式匹配的方法提取毒品犯罪刑事判决书中的主要信息,包括案件基本信息、毒品交易相关信息和涉案人员基本信息,导出上述信息;
S2)统计分析提取的信息
对涉案人员根据性别、年龄、地域等因素进行统计分析,作出人员关系的知识图谱;
S3)根据主要信息建立预测模型
首先采用主成分分析方法保留99%的主要信息,将保留的主要信息用二进制向量表示作为训练数据,涉案人数实际判刑年数作为标签数据;
根据法律量刑将所有数据分为四个类别,分别在各个类别上建立监督学习的回归预测模型xgboost模型,建立100棵CART树进行加法训练,优化目标函数,选取的误差函数为MSE;
S4)使用模型预测判刑结果
在模型中输入相关毒品犯罪信息,预测判刑结果。
进一步地,案件基本信息包括案件号、法院、审判长、人民陪审员、书记员、日期、毒品交易联系方式、毒品交易支付方式、毒品交易运输方式、涉案车牌号、毒品交易详情;毒品交易相关信息包括交易时间、地点、毒品种类、数量、金额、单价;涉案人员基本信息包括姓名、性别、身份证号码、生日、出生地、民族、户籍、家庭住址、文化程度、就业情况、犯罪过往、现羁押于、辩护人、辩护人律师事务所、刑罚种类、刑期、财产刑种类、财产刑金额。
本发明与现有技术相比,具有以下优点:
本发明一种基于判决书文本的涉毒案件深度分析方法,从毒品犯罪案件的刑事判决书中提取主要信息并进行统计,帮助整理案卷,分析毒品犯罪的趋势和因素,针对毒品犯罪的相关行为进行判决结果预测,便于禁毒教育宣传。
附图说明
图1是本发明一种基于判决书文本的涉毒案件深度分析方法的流程示意图。
图2是本发明一种基于判决书文本的涉毒案件深度分析方法的系统信息展示界面图。
图3是本发明一种基于判决书文本的涉毒案件深度分析方法的预测判刑结果界面图。
具体实施方式
下面结合附图,对本发明的实施例作进一步详细的描述。
如图1所示,一种基于判决书文本的涉毒案件深度分析方法,包括如下步骤:
S1)提取毒品犯罪案件的主要信息
系统导入毒品犯罪刑事判决书,采用句式分析、关键字抓取和正则表达式匹配的方法提取毒品犯罪刑事判决书中的主要信息,包括案件基本信息、毒品交易相关信息和涉案人员基本信息,导出上述信息。
其中,案件基本信息包括案件号、法院、审判长、人民陪审员、书记员、日期、毒品交易联系方式、毒品交易支付方式、毒品交易运输方式、涉案车牌号、毒品交易详情;毒品交易相关信息包括交易时间、地点、毒品种类、数量、金额、单价;涉案人员基本信息包括姓名、性别、身份证号码、生日、出生地、民族、户籍、家庭住址、文化程度、就业情况、犯罪过往、现羁押于、辩护人、辩护人律师事务所、刑罚种类、刑期、财产刑种类、财产刑金额。
S2)统计分析提取的信息
如图2所示,对涉案人员根据性别、年龄、地域等因素进行统计分析,作出人员关系的知识图谱。
S3)根据主要信息建立预测模型
首先采用主成分分析方法保留99%的主要信息,将保留的主要信息用二进制向量表示作为训练数据,涉案人数实际判刑年数作为标签数据。根据法律量刑将所有数据分为四个类别,分别在各个类别上建立监督学习的回归预测模型xgboost模型,建立100棵CART树进行加法训练,优化目标函数,选取的误差函数为MSE。
具体操作如下:
首先对提出重要信息使用独热编码转化为二进制向量,对于缺失值采用别的记录的中位数来填充,对提出的重要信息进行主成分分析,具体算法如下:
将所有样本进行均值归一化,即
计算协方差矩阵:
对协方差进行奇异值分解;
选取最大的k个特征值对应的特征向量;
选取不同的k值,然后用下面的式子不断计算,选取能满足下列式子条件的最小k:
输出降维后的数据集。
然后将所有数据根据法律量刑分为四个类别:三年以下、三年到七年、七年到十五年、十五年以上及无期和死刑。在各个类别上分别建立监督学习的预测模型。
建立100棵CART树,对其进行加法训练,分步骤优化目标函数,首先优化第一棵树,完了之后优化第二颗树,直至优化完第100棵。在现有的t-1棵树的基础上,使得目标函数最小的那棵CART树即为第t棵。目标函数定义为:
目标函数由两部分构成,第一部分用来衡量预测分数和真实分数的差距,另一部分则是正则化项。正则化项同样包含两部分,T表示叶子结点的个数,w表示叶子节点的分数,γ可以控制叶子结点的个数,λ可以控制叶子节点的分数不会过大,防止过拟合。当生成t棵树后,
预测分数可以写成:
目标函数改写为:
利用ft=0处的泰勒二阶展开近似它。
由于前t-1棵树的预测分数与y的残差对目标函数优化不影响,可以直接去掉,简化的目标函数为:
将所有同一个叶子节点的样本重组起来,将目标函数改写成关于叶子节点分数w的一个一元二次函数,用顶点公式求解最优的w和目标函数值分别为:
遍历所有特征的所有特征划分点,是分裂后的目标函数值比单个叶子节点的目标函数值有增益,同时增加一个阈值来防止树生长过深导致的过拟合。至此,模型建立完毕。
S4)使用模型预测判刑结果
如图3所示,在模型中输入相关毒品犯罪信息,点击提交后系统会自动分析,给出预测的判刑结果以及相关的法律条例。
本发明根据现有的法律条例,对用户输入的被告人的行为进行分析,推算出一个大致的量纲范围,然后利用实际案件中部分对量刑有影响的信息进行机器学习之后的训练结果,作为参数,对量纲范围进行一个精确化的修正,得到最终的预测结果,并呈现给用户。
以上所述仅是本发明优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。
Claims (2)
1.一种基于判决书文本的涉毒案件深度分析方法,其特征在于包括如下步骤:
S1)提取毒品犯罪案件的主要信息
系统导入毒品犯罪刑事判决书,采用句式分析、关键字抓取和正则表达式匹配的方法提取毒品犯罪刑事判决书中的主要信息,包括案件基本信息、毒品交易相关信息和涉案人员基本信息,导出上述信息;
S2)统计分析提取的信息
对涉案人员根据性别、年龄、地域等因素进行统计分析,作出人员关系的知识图谱;
S3)根据主要信息建立预测模型
首先采用主成分分析方法保留99%的主要信息,将保留的主要信息用二进制向量表示作为训练数据,涉案人数实际判刑年数作为标签数据;
根据法律量刑将所有数据分为四个类别,分别在各个类别上建立监督学习的回归预测模型xgboost模型,建立100棵CART树进行加法训练,优化目标函数,选取的误差函数为MSE;
S4)使用模型预测判刑结果
在模型中输入相关毒品犯罪信息,预测判刑结果。
2.根据权利要求1所述的一种基于判决书文本的涉毒案件深度分析方法,其特征在于:案件基本信息包括案件号、法院、审判长、人民陪审员、书记员、日期、毒品交易联系方式、毒品交易支付方式、毒品交易运输方式、涉案车牌号、毒品交易详情;毒品交易相关信息包括交易时间、地点、毒品种类、数量、金额、单价;涉案人员基本信息包括姓名、性别、身份证号码、生日、出生地、民族、户籍、家庭住址、文化程度、就业情况、犯罪过往、现羁押于、辩护人、辩护人律师事务所、刑罚种类、刑期、财产刑种类、财产刑金额。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910196636.0A CN110046259A (zh) | 2019-03-15 | 2019-03-15 | 一种基于判决书文本的涉毒案件深度分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910196636.0A CN110046259A (zh) | 2019-03-15 | 2019-03-15 | 一种基于判决书文本的涉毒案件深度分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110046259A true CN110046259A (zh) | 2019-07-23 |
Family
ID=67273736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910196636.0A Pending CN110046259A (zh) | 2019-03-15 | 2019-03-15 | 一种基于判决书文本的涉毒案件深度分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046259A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457443A (zh) * | 2019-08-12 | 2019-11-15 | 贵州大学 | 一种基于刑事案件的犯罪行为链构建方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096623A (zh) * | 2016-05-25 | 2016-11-09 | 中山大学 | 一种犯罪识别与预测方法 |
CN106548210A (zh) * | 2016-10-31 | 2017-03-29 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法及装置 |
US20180060728A1 (en) * | 2016-08-31 | 2018-03-01 | Microsoft Technology Licensing, Llc | Deep Embedding Forest: Forest-based Serving with Deep Embedding Features |
CN107818138A (zh) * | 2017-09-28 | 2018-03-20 | 银江股份有限公司 | 一种案件法律条例推荐方法及系统 |
CN109117991A (zh) * | 2018-07-26 | 2019-01-01 | 北京京东金融科技控股有限公司 | 一种股票订单交易方法和装置 |
CN109215740A (zh) * | 2018-11-06 | 2019-01-15 | 中山大学 | 基于Xgboost的全基因组RNA二级结构预测方法 |
-
2019
- 2019-03-15 CN CN201910196636.0A patent/CN110046259A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096623A (zh) * | 2016-05-25 | 2016-11-09 | 中山大学 | 一种犯罪识别与预测方法 |
US20180060728A1 (en) * | 2016-08-31 | 2018-03-01 | Microsoft Technology Licensing, Llc | Deep Embedding Forest: Forest-based Serving with Deep Embedding Features |
CN106548210A (zh) * | 2016-10-31 | 2017-03-29 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法及装置 |
CN107818138A (zh) * | 2017-09-28 | 2018-03-20 | 银江股份有限公司 | 一种案件法律条例推荐方法及系统 |
CN109117991A (zh) * | 2018-07-26 | 2019-01-01 | 北京京东金融科技控股有限公司 | 一种股票订单交易方法和装置 |
CN109215740A (zh) * | 2018-11-06 | 2019-01-15 | 中山大学 | 基于Xgboost的全基因组RNA二级结构预测方法 |
Non-Patent Citations (1)
Title |
---|
蒋晋文 等: "XGBoost 算法在制造业质量预测中的应用", 《智能计算机与应用》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457443A (zh) * | 2019-08-12 | 2019-11-15 | 贵州大学 | 一种基于刑事案件的犯罪行为链构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008311B (zh) | 一种基于语义分析的产品信息安全风险监测方法 | |
Kim et al. | Analyzing the discriminative attributes of products using text mining focused on cosmetic reviews | |
Revathy et al. | Sentiment analysis using machine learning: Progress in the machine intelligence for data science | |
Tufféry | Data mining and statistics for decision making | |
CN107861951A (zh) | 智能客服中的会话主题识别方法 | |
Liu et al. | Combining enterprise knowledge graph and news sentiment analysis for stock price prediction | |
Chen et al. | A hybrid approach of stepwise regression, logistic regression, support vector machine, and decision tree for forecasting fraudulent financial statements | |
CN107209750A (zh) | 用于自动地标识文档中的潜在重要事实的系统及方法 | |
CN109670542A (zh) | 一种基于评论外部信息的虚假评论检测方法 | |
Gupta et al. | Financial statement fraud detection using text mining | |
CN110377730A (zh) | 案由分类方法、装置、计算机设备和存储介质 | |
CN107315738A (zh) | 一种文本信息的创新度评估方法 | |
Darko et al. | Modeling customer satisfaction through online reviews: A FlowSort group decision model under probabilistic linguistic settings | |
Kirkos et al. | Identifying qualified auditors' opinions: a data mining approach | |
Yan et al. | Research on prediction of multi-class theft crimes by an optimized decomposition and fusion method based on XGBoost | |
CN112700325A (zh) | 一种基于Stacking集成学习的网贷回头客预测的方法 | |
CN114880486A (zh) | 基于nlp和知识图谱的产业链识别方法及系统 | |
CN110083836A (zh) | 一种文本预测结果的关键证据抽取方法 | |
CN110222180B (zh) | 一种文本数据分类与信息挖掘方法 | |
Rokaha et al. | Enhancement of supermarket business and market plan by using hierarchical clustering and association mining technique | |
CN110046259A (zh) | 一种基于判决书文本的涉毒案件深度分析方法 | |
Zeng et al. | Semantic multi-grain mixture topic model for text analysis | |
CN115358878A (zh) | 理财用户风险偏好等级分析方法及装置 | |
Vink et al. | Mapping crime descriptions to law articles using deep learning | |
Sabo et al. | Unsupervised factor extraction from pretrial detention decisions by Italian and Brazilian supreme courts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190723 |