CN111985680A - 基于胶囊网络与时序的刑事多罪名预测方法 - Google Patents
基于胶囊网络与时序的刑事多罪名预测方法 Download PDFInfo
- Publication number
- CN111985680A CN111985680A CN202010660749.4A CN202010660749A CN111985680A CN 111985680 A CN111985680 A CN 111985680A CN 202010660749 A CN202010660749 A CN 202010660749A CN 111985680 A CN111985680 A CN 111985680A
- Authority
- CN
- China
- Prior art keywords
- capsule
- criminal
- name
- description text
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000002775 capsule Substances 0.000 title claims abstract description 153
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 92
- 230000006870 function Effects 0.000 claims abstract description 37
- 230000006835 compression Effects 0.000 claims abstract description 10
- 238000007906 compression Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000004140 cleaning Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 230000008878 coupling Effects 0.000 claims description 6
- 238000010168 coupling process Methods 0.000 claims description 6
- 238000005859 coupling reaction Methods 0.000 claims description 6
- 238000012905 input function Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims 1
- 238000010276 construction Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 102100032202 Cornulin Human genes 0.000 description 4
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013277 forecasting method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Tourism & Hospitality (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Technology Law (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于胶囊网络与时序的刑事多罪名预测方法,属于自然语言处理技术领域。本发明包括步骤:数据的收集;数据的预处理;提取时序特征;对事实描述文本进行特征表示:事实描述文本编码时将词向量按句输入,采用长短记忆力网络将词级文本提取特征得到句子级的事实描述文本特征向量表示;从得到的特征向量经过压缩函数进行压缩生成初级胶囊,将初级胶囊作为胶囊预测层的输入,通过动态路由的方式迭代生成不同罪名的类别胶囊与罪名类别概率;使用生成的罪名类别胶囊、罪名类别概率以及时序特征值对多罪名进行预判,最终得到罪名预测的结果。本发明有效的解决了多罪名的低频与多标签分类问题,为智能法院的建设提供了有力支撑。
Description
技术领域
本发明涉及基于胶囊网络与时序的刑事多罪名预测方法,属于自然语言处理技术领域。
背景技术
在人工智能在法律领域的应用中,罪名的判决决定着后续任务的质量,如刑期预判、罚金预判等任务对罪名的需求很高,而高准确率的罪名预判对后续的法律智能化建设具有重要意义。罪名预测是法律智能化进程中的重点也是难点,其直接影响了刑期预判、罚金预判、要素识别等任务的准确率,同时很好的推动了各类智能化进程的发展;为了解决后续工作的质量与性能,需要较高的罪名预测准确性,而其中多罪名的数占整个数据的十分之一,多罪名预测的准确率提高,能够解决10%的数据判决问题。因此,性能优秀的多罪名预判模型不仅很好的解决了罪名预判中的被忽略的多罪名预测,同时也为后续工作打好了基础。
国家发明专利申请“一种基于序列增强胶囊网络的刑事案件罪名预测方法”(公开日2019.08.13)获取案件事实描述以及案件判罚结果为训练数据集,通过序列增强胶囊网络对数据集进行训练,将词向量视为胶囊网络的初始胶囊,构建两个序列到胶囊网络提取得到主特征向量以及注意力机制提取得到的辅助向量,通过两者向量的拼接作为事实描述文本的特征向量,最后采用softmax进行罪名预测。该方法在解决罪名预测的低频预测取得了良好的效果,但是影响罪名预测的性能不仅有低频问题,而且多罪名的数据对预测性能的影响也很严重,如果不将多罪名数据考虑进去,预测性能很难再有提高。
发明内容
本发明提供了基于胶囊网络与时序的刑事多罪名预测方法,以用于对刑事案件中多罪名的预判,有效的解决了多罪名的低频与多标签分类问题。
本发明的技术方案是:基于胶囊网络与时序的刑事多罪名预测方法,包括如下步骤:
Step1、数据的收集:获取罪名与事实描述文本相对应的数据集;
Step2、数据的预处理:将得到的数据集对其中每一个罪名标签进行清理,且区分出单罪名与多罪名数据,然后按照one-hot的方式对罪名进行编码,同时删除空文档数据,构建出单罪名数据集与多罪名数据集,建立训练集、测试集与验证集,并对整个数据语料进行词向量训练,将词向量进行映射;数据处理:在数据预处理阶段考虑到多罪名数据对罪名预测的影响,在构建单罪名的训练数据集的同时构建了多罪名训练数据集,分析胶囊网络中单罪名对多罪名预测的影响。
Step3、提取时序特征:利用模式匹配的方式从Step1中数据集中的事实描述文本中提取时序特征,按照提取的时序特征数量对事实描述文本进行时序特征标签赋值;所述步骤Step3中:依据文本中的时序特点构建时序特征提取规则,如xxxx年xx月xx日为一个时序特征抽取规则,xx月xx日、xx月、xx日等为时间节点,如果时间节点与标准时间节点的差值小于7天的视为同一节点,每出现一个时间节点视为一个时序特征,时序特征值加1,时序特征值用T表示。
Step4、对事实描述文本进行特征表示:事实描述文本编码时将词向量按句输入,采用长短记忆力网络将词级文本提取特征得到句子级的事实描述文本特征向量表示;
Step5、胶囊预测层:从Step4中得到的特征向量经过压缩函数进行压缩生成初级胶囊,将初级胶囊作为胶囊预测层的输入,通过动态路由的方式迭代生成不同罪名的类别胶囊与罪名类别概率;
Step6、使用生成的罪名类别胶囊、罪名类别概率以及时序特征值对多罪名进行预判,最终得到罪名预测的结果。
进一步地,所述步骤Step1的具体步骤为:
Step1.1、通过分析裁判文书网的网页结构,通过Scrapy框架构建爬虫文件,自动从页面中抽取网站中的法律判决文书,并通过页面中的结构对数据进行第一步清理;
Step1.2、然后进行人工校正罪名与犯罪事实描述,构建罪名与事实描述文本相对应的数据集。
进一步地,所述步骤Step2的具体步骤:
Step2.1、对得到的数据集中每一个罪名标签进行清理,除去杂余信息;然后利用单罪名和多罪名区分格式区分出单罪名与多罪名数据,同时将罪名按照one-hot的方式进行编码,同时删除空文档数据;
Step2.2、对处理好的数据集进行切分,构建单罪名的训练集、测试集、验证集以及多罪名的训练集、测试集、验证集;
Step2.3、使用skip-gram的方法对整个语料进行词向量训练,得到一个300维的词向量集,同时将法律文书中的事实描述进行数字转换。
进一步地,所述步骤Step4的具体步骤为:
Step4.1、获取事实描述文本输入:输入包含m个句子的刑事案件事实描述文本{s1,s2,...,sm},其中sm表示事实描述文本中第m个句子的词集,事实描述文本的输入能表示为矩阵S=s1+s2+...+sm,S∈Rm*n,其中n表示事实描述文本句子长度即事实描述文本句子中包含的词的数量;
Step4.2、获取LSTM网络的隐含向量:通过在词编码时使用skip-gram模型将每一个词嵌入到一个低维的词空间,然后每个词映射为对应的词向量得到句子向量集为其中sj表示事实描述文本中的第j个句子的词向量集,表示第j个句子中第i个词向量,d表示词向量维度;将sj输入进LSTM层,通过计算得到隐藏层状态向量集其中表示第j个句子中的第i个词的隐藏层向量表示;其具体的计算公式如下:
其中是门控函数通过当前输入和上层单元输出计算得到,表示输入函数,fi j表示遗忘函数,表示输出函数,σ表示激活函数sigmoid函数,表示第j个句子中第i-1个词向量的隐藏层状态向量,即上层单元的输出,表示第j个句子中第i个词向量也是当前的单元输入,是当前单元的待更新状态,tanh表示激活函数用来生成待更新状态W,Wc均表示权重矩阵,b,bc均表示偏置值;表示当前单元状态,通过上层单元的状态输入函数遗忘函数fi j以及待更新状态计算得到;表示第j个句子中的第i个词的隐藏层状态向量,通过输出函数和当前单元状态计算得到;
Step4.3、获取句子级的事实描述文本特征向量表示:通过将Step4.3获取的隐藏层状态向量集进行平均池化处理mean-pooling得到事实描述文本第j个句子的特征向量表示分别对事实描述文本中的每个句子进行特征提取,最终得到句子级的事实描述文本特征向量表示为:
进一步地,所述步骤Step5的具体步骤为:
Step5.1、获取初级胶囊:初级胶囊能看作与句子数量m相同的m个特征叠加的特征图,每个初级胶囊元素代表的均是底层特征的一部分,假设cj∈Rt是一个初级胶囊的实例参数,t是胶囊的维数,K是初级胶囊层的胶囊数量,设Wb∈Rm*t是滑动窗口的共享权重,对每一个矩阵都有一个与之对应并生成相应的胶囊,每个胶囊的生成公式为:
C={c1,c2,…cj…cK} (7)
Step5.2、获取预测胶囊:假设初级胶囊层的p*k的区域连接到预测层,p*k为设定的每次传入的数据规模,权重矩阵为Wp∈Rp*k*d*t,其中,d表示词向量维度,假定表示从初级胶囊得到的预测胶囊,其预测胶囊生成公式为:
Step5.3、动态路由的基本思想是以迭代的方式构造一个非线性映射,确保将每个预测胶囊的输出发送给后续的类别胶囊:
对于每一个潜在的类别胶囊,胶囊网络能通过动态路由来增加或降低连接强度,从本质上检测一个特征是否存在于事实描述文本中;
迭代r次后,得到最终的罪名类别胶囊vp和其概率值αp;
为了方便表示,将预测层胶囊到类别胶囊及其存在的类别概率的计算定义为:
进一步地,所述步骤Step6的具体步骤为:
Step6.1、获取类别胶囊及其概率,通过Step5获取最终生成的类别胶囊v={v1,v2,...,vN},vp∈Rd以及每个罪名的类别概率值的集合α={α1,α2,...,αN},αp∈R,其中N是实验数据中罪名数量加上一个孤立的罪名;
Step6.2、依据时序特征值对罪名预测进行判断,时序特征值T=1时,按照阈值γ对罪名进行预测,当T≠1时,首先对概率值进行排序,取前T个概率为待选罪名αT,然后计算类别概率平均值如果前T个罪名概率值大于则为正,否则判断为负,计算公式如下:
其中α是代表每个罪名的类别概率值的集合,ε表示的是阶跃函数。
本发明的有益效果是:
1、本发明实现了利用胶囊网络对刑事案件进行罪名预测,可同时进行多罪名与单罪名的预测问题,解决了多罪名的低频数据的预测问题以及通过时序特征对多罪名进行预测;
2、针对罪名预测任务问题上,本发明在单罪名预测上的性能相对于一般的神经网络的在F值上提升了0.5%,在多罪名预测上的性能相对于一般的神经网络提升了8.5%。
附图说明
图1为本发明中的总的流程图;
图2为本发明中的多罪名预测的建模流程图。
具体实施方式
实施例1:如图1-2所示,基于胶囊网络与时序的刑事多罪名预测方法,包括如下步骤:
Step1、数据的收集:获取罪名与事实描述文本相对应的数据集;具体的,可以通过Scrapy框架构建爬虫程序,自动爬取裁判文书网等网站中的法律文书,进行人工校正构建罪名与事实描述文本相对应的数据集;
Step2、数据的预处理:将得到的数据集对其中每一个罪名标签进行清理,且区分出单罪名与多罪名数据,然后按照one-hot的方式对罪名进行编码,同时删除空文档数据,构建出单罪名数据集与多罪名数据集,建立训练集、测试集与验证集,并对整个数据语料进行词向量训练,将词向量进行映射;数据处理:在数据预处理阶段考虑到多罪名数据对罪名预测的影响,在构建单罪名的训练数据集的同时构建了多罪名训练数据集,分析胶囊网络中单罪名对多罪名预测的影响;
Step3、提取时序特征:利用模式匹配的方式从Step1中数据集中的事实描述文本中提取时序特征,按照提取的时序特征数量对事实描述文本进行时序特征标签赋值;所述步骤Step3中:依据文本中的时序特点构建时序特征提取规则,如xxxx年xx月xx日为一个时序特征抽取规则,xx月xx日、xx月、xx日等为时间节点,如果时间节点与标准时间节点的差值小于7天的视为同一节点,每出现一个时间节点视为一个时序特征,时序特征值加1,时序特征值用T表示;
Step4、对事实描述文本进行特征表示:事实描述文本编码时将词向量按句输入,采用长短记忆力网络将词级文本提取特征得到句子级的事实描述文本特征向量表示;
Step5、胶囊预测层:从Step4中得到的特征向量经过压缩函数进行压缩生成初级胶囊,将初级胶囊作为胶囊预测层的输入,通过动态路由的方式迭代生成不同罪名的类别胶囊与罪名类别概率;
Step6、使用生成的罪名类别胶囊、罪名类别概率以及时序特征值对多罪名进行预判,最终得到罪名预测的结果。
进一步地,所述步骤Step1的具体步骤为:
Step1.1、通过分析裁判文书网的网页结构,通过Scrapy框架构建爬虫文件,自动从页面中抽取网站中的法律判决文书,并通过页面中的结构对数据进行第一步清理;
Step1.2、然后进行人工校正罪名与犯罪事实描述,构建罪名与事实描述文本相对应的数据集。
进一步地,所述步骤Step2的具体步骤:
Step2.1、对得到的数据集中每一个罪名标签进行清理,除去杂余信息如被告人名、犯案地点等;然后利用单罪名和多罪名区分格式区分出单罪名与多罪名数据,同时将罪名按照one-hot的方式进行编码,例如盗窃罪-1、危险驾驶6,盗窃、危险驾驶罪-[0,1,0,0,0,0,1...],同时删除空文档数据;
Step2.2、对处理好的数据集进行切分,构建单罪名的训练集、测试集、验证集以及多罪名的训练集、测试集、验证集;数据规模如表1所示:
表1数据集的分布
Step2.3、使用skip-gram的方法对整个语料进行词向量训练,得到一个300维的词向量集,同时将法律文书中的事实描述进行数字转换。
进一步地,所述步骤Step4的具体步骤为:
Step4.1、获取事实描述文本输入:输入包含m个句子的刑事案件事实描述文本{s1,s2,...,sm},其中sm表示事实描述文本中第m个句子的词集,事实描述文本的输入能表示为矩阵S=s1+s2+...+sm,S∈Rm*n,其中n表示事实描述文本句子长度即事实描述文本句子中包含的词的数量;
Step4.2、获取LSTM网络的隐含向量:通过在词编码时使用skip-gram模型将每一个词嵌入到一个低维的词空间,然后每个词映射为对应的词向量得到句子向量集为其中sj表示事实描述文本中的第j个句子的词向量集,表示第j个句子中第i个词向量,d表示词向量维度;将sj输入进LSTM层,通过计算得到隐藏层状态向量集其中表示第j个句子中的第i个词的隐藏层向量表示;其具体的计算公式如下:
其中是门控函数通过当前输入和上层单元输出计算得到,表示输入函数,fi j表示遗忘函数,表示输出函数,σ表示激活函数sigmoid函数,表示第j个句子中第i-1个词向量的隐藏层状态向量,即上层单元的输出,表示第j个句子中第i个词向量也是当前的单元输入,是当前单元的待更新状态,tanh表示激活函数用来生成待更新状态W,Wc均表示权重矩阵,b,bc均表示偏置值;表示当前单元状态,通过上层单元的状态输入函数遗忘函数fi j以及待更新状态计算得到;表示第j个句子中的第i个词的隐藏层状态向量,通过输出函数和当前单元状态计算得到;
Step4.3、获取句子级的事实描述文本特征向量表示:通过将Step4.3获取的隐藏层状态向量集进行平均池化处理mean-pooling得到事实描述文本第j个句子的特征向量表示分别对事实描述文本中的每个句子进行特征提取,最终得到句子级的事实描述文本特征向量表示为:
进一步地,所述步骤Step5的具体步骤为:
Step5.1、获取初级胶囊:初级胶囊能看作与句子数量m相同的m个特征叠加的特征图,每个初级胶囊元素代表的均是底层特征的一部分,假设cj∈Rt是一个初级胶囊的实例参数,t是胶囊的维数,K是初级胶囊层的胶囊数量,设Wb∈Rm*t是滑动窗口的共享权重,对每一个矩阵都有一个与之对应并生成相应的胶囊,每个胶囊的生成公式为:
C={c1,c2,…cj…cK} (7)
Step5.2、获取预测胶囊:假设初级胶囊层的p*k的区域连接到预测层,p*k为设定的每次传入的数据规模,权重矩阵为Wp∈Rp*k*d*t,其中,d表示词向量维度,假定表示从初级胶囊得到的预测胶囊,其预测胶囊生成公式为:
Step5.3、动态路由的基本思想是以迭代的方式构造一个非线性映射,确保将每个预测胶囊的输出发送给后续的类别胶囊:
对于每一个潜在的类别胶囊,胶囊网络能通过动态路由来增加或降低连接强度,从本质上检测一个特征是否存在于事实描述文本中;
迭代r次后,得到最终的罪名类别胶囊vp和其概率值αp;
为了方便表示,将预测层胶囊到类别胶囊及其存在的类别概率的计算定义为:
进一步地,所述步骤Step6的具体步骤为:
Step6.1、获取类别胶囊及其概率,通过Step5获取最终生成的类别胶囊v={v1,v2,...,vN},vp∈Rd以及每个罪名的类别概率值的集合α={α1,α2,...,αN},αp∈R,其中N是实验数据中罪名数量加上一个孤立的罪名;
Step6.2、依据时序特征值对罪名预测进行判断,时序特征值T=1时,按照阈值γ对罪名进行预测,当T≠1时,首先对概率值进行排序,取前T个概率为待选罪名αT,然后计算类别概率平均值如果前T个罪名概率值大于则为正,否则判断为负,计算公式如下:
其中α是代表每个罪名的类别概率值的集合,ε表示的是阶跃函数。
为了验证本文中的方法是有效的,本发明设置了两组对比实验,一组是单罪名数据集,一组是多罪名数据集;在模型对比实验中分别设置了传统的统计机器学习和经典深度学习的模型进行对比:其中传统的统计机器学习方法使用词频-逆文档频率算法(TF-IDF)构建特征词典,将支持向量机SVM作为分类器。经典的深度学习基线模型有CNN、CRNN、Bi-GRU和Capsule,其中CNN使用word2vec训练词向量,并将CNN作为分类器进行分类;CRNN模型,首先利用CNN进行文本的特征提取,然后将特征向量作为RNN分类器的输入进行分类。利用Bi-GRU对文本进行编码,得到特征向量后用softmax进行预测。评估标准使用precision,recall,F1值来衡量模型的准确性。
表2 Criminal-S上的实验结果
Metrics | P | R | F |
SVM | 85.2 | 40.8 | 52.3 |
Bi-GRU | 90.6 | 41.7 | 54.4 |
CNN | 91.3 | 43.3 | 58.7 |
CRNN | 93.1 | 44.2 | 59.9 |
Capsule | 93.6 | 45.2 | 60.0 |
Our model | 94.1 | 49.2 | 60.5 |
表2的数据说明,与一般的罪名预测模型相比,本模型在单罪名的数据上仍然保持着良好的性能,1)与一般的神经网络模型相比,如CRNN模型,F值提升了0.6%,该现象说明了本发明的模型相对于一般模型的准确性更高,2)与Capsule模型相比,F值提升了0.5%,可以看出单罪名预测任务中,句级特征提取与时序特征对模型的影响并不突出。
表3 Mutil-Criminal上的实验结果
表3的实验数据表明,1)在低频的多罪名实验数据当中,一般的神经网络模型表现出来的性能很差,本发明的胶囊模型在一定程度上解决了多罪名的低频问题;2)在与Capsule的F值相比较,本发明的模型提升了8.5%,说明了句子特征的提取与时序特征的应用在性能上有很大的提升。
通过以上的实验数据和分析,该方法更新了特征的提取方式,融入到胶囊网络中,并使用时序特征指导罪名预测。实验结果表明,针对刑事案件多罪名预测任务,胶囊网络有效的提升了低频数据的预测性能,同时时序特征对预测准确率有重要的指导作用。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:包括如下步骤:
Step1、数据的收集:获取罪名与事实描述文本相对应的数据集;
Step2、数据的预处理:将得到的数据集对其中每一个罪名标签进行清理,且区分出单罪名与多罪名数据,然后按照one-hot的方式对罪名进行编码,同时删除空文档数据,构建出单罪名数据集与多罪名数据集,建立训练集、测试集与验证集,并对整个数据语料进行词向量训练,将词向量进行映射;
Step3、提取时序特征:利用模式匹配的方式从Step1中数据集中的事实描述文本中提取时序特征,按照提取的时序特征数量对事实描述文本进行时序特征标签赋值;
Step4、对事实描述文本进行特征表示:事实描述文本编码时将词向量按句输入,采用长短记忆力网络将词级文本提取特征得到句子级的事实描述文本特征向量表示;
Step5、胶囊预测层:从Step4中得到的特征向量经过压缩函数进行压缩生成初级胶囊,将初级胶囊作为胶囊预测层的输入,通过动态路由的方式迭代生成不同罪名的类别胶囊与罪名类别概率;
Step6、使用生成的罪名类别胶囊、罪名类别概率以及时序特征值对多罪名进行预判,最终得到罪名预测的结果。
2.根据权利要求1所述的基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、通过分析裁判文书网的网页结构,通过Scrapy框架构建爬虫文件,自动从页面中抽取网站中的法律判决文书,并通过页面中的结构对数据进行第一步清理;
Step1.2、然后进行人工校正罪名与犯罪事实描述,构建罪名与事实描述文本相对应的数据集。
3.根据权利要求1所述的基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、对得到的数据集中每一个罪名标签进行清理,除去杂余信息;然后利用单罪名和多罪名区分格式区分出单罪名与多罪名数据,同时将罪名按照one-hot的方式进行编码,同时删除空文档数据;
Step2.2、对处理好的数据集进行切分,构建单罪名的训练集、测试集、验证集以及多罪名的训练集、测试集、验证集;
Step2.3、使用skip-gram的方法对整个语料进行词向量训练,得到一个300维的词向量集,同时将法律文书中的事实描述进行数字转换。
4.根据权利要求1所述的基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:所述步骤Step4的具体步骤为:
Step4.1、获取事实描述文本输入:输入包含m个句子的刑事案件事实描述文本{s1,s2,...,sm},其中sm表示事实描述文本中第m个句子的词集,事实描述文本的输入能表示为矩阵S=s1+s2+...+sm,S∈Rm*n,其中n表示事实描述文本句子长度即事实描述文本句子中包含的词的数量;
Step4.2、获取LSTM网络的隐含向量:通过在词编码时使用skip-gram模型将每一个词嵌入到一个低维的词空间,然后每个词映射为对应的词向量得到句子向量集为其中sj表示事实描述文本中的第j个句子的词向量集,表示第j个句子中第i个词向量,d表示词向量维度;将sj输入进LSTM层,通过计算得到隐藏层状态向量集其中表示第j个句子中的第i个词的隐藏层向量表示;其具体的计算公式如下:
其中是门控函数通过当前输入和上层单元输出计算得到,表示输入函数,fi j表示遗忘函数,表示输出函数,σ表示激活函数sigmoid函数,表示第j个句子中第i-1个词向量的隐藏层状态向量,即上层单元的输出,表示第j个句子中第i个词向量也是当前的单元输入,是当前单元的待更新状态,tanh表示激活函数用来生成待更新状态W,Wc均表示权重矩阵,b,bc均表示偏置值;表示当前单元状态,通过上层单元的状态输入函数遗忘函数fi j以及待更新状态计算得到;表示第j个句子中的第i个词的隐藏层状态向量,通过输出函数和当前单元状态计算得到;
Step4.3、获取句子级的事实描述文本特征向量表示:通过将Step4.3获取的隐藏层状态向量集进行平均池化处理mean-pooling得到事实描述文本第j个句子的特征向量表示分别对事实描述文本中的每个句子进行特征提取,最终得到句子级的事实描述文本特征向量表示为:
5.根据权利要求1所述的基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:所述步骤Step5的具体步骤为:
Step5.1、获取初级胶囊:初级胶囊能看作与句子数量m相同的m个特征叠加的特征图,每个初级胶囊元素代表的均是底层特征的一部分,假设cj∈Rt是一个初级胶囊的实例参数,t是胶囊的维数,K是初级胶囊层的胶囊数量,设Wb∈Rm*t是滑动窗口的共享权重,对每一个矩阵都有一个与之对应并生成相应的胶囊,每个胶囊的生成公式为:
C={c1,c2,…cj…cK} (7)
Step5.2、获取预测胶囊:假设初级胶囊层的p*k的区域连接到预测层,p*k为设定的每次传入的数据规模,权重矩阵为Wp∈Rp*k*d*t,其中,d表示词向量维度,假定表示从初级胶囊得到的预测胶囊,其预测胶囊生成公式为:
Step5.3、动态路由的基本思想是以迭代的方式构造一个非线性映射,确保将每个预测胶囊的输出发送给后续的类别胶囊:
对于每一个潜在的类别胶囊,胶囊网络能通过动态路由来增加或降低连接强度,从本质上检测一个特征是否存在于事实描述文本中;
迭代r次后,得到最终的罪名类别胶囊vp和其概率值αp;
为了方便表示,将预测层胶囊到类别胶囊及其存在的类别概率的计算定义为:
6.根据权利要求1或5所述的基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:所述步骤Step6的具体步骤为:
Step6.1、获取类别胶囊及其概率,通过Step5获取最终生成的类别胶囊v={v1,v2,...,vN},vp∈Rd以及每个罪名的类别概率值的集合α={α1,α2,...,αN},αp∈R,其中N是实验数据中罪名数量加上一个孤立的罪名;
Step6.2、依据时序特征值对罪名预测进行判断,时序特征值T=1时,按照阈值γ对罪名进行预测,当T≠1时,首先对概率值进行排序,取前T个概率为待选罪名αT,然后计算类别概率平均值如果前T个罪名概率值大于则为正,否则判断为负,计算公式如下:
其中α是代表每个罪名的类别概率值的集合,ε表示的是阶跃函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010660749.4A CN111985680B (zh) | 2020-07-10 | 2020-07-10 | 基于胶囊网络与时序的刑事多罪名预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010660749.4A CN111985680B (zh) | 2020-07-10 | 2020-07-10 | 基于胶囊网络与时序的刑事多罪名预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111985680A true CN111985680A (zh) | 2020-11-24 |
CN111985680B CN111985680B (zh) | 2022-06-14 |
Family
ID=73438631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010660749.4A Active CN111985680B (zh) | 2020-07-10 | 2020-07-10 | 基于胶囊网络与时序的刑事多罪名预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111985680B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515631A (zh) * | 2021-06-18 | 2021-10-19 | 深圳大学 | 用于预测罪名的方法、装置、终端设备及存储介质 |
CN114841212A (zh) * | 2022-05-18 | 2022-08-02 | 中南大学 | 基于胶囊网络的智能电网时间序列异常检测方法及系统 |
CN115048510A (zh) * | 2022-02-17 | 2022-09-13 | 东南大学 | 基于层级式法律知识与双图联合表示学习的罪名预测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241283A (zh) * | 2018-08-08 | 2019-01-18 | 广东工业大学 | 一种基于多角度胶囊网络的文本分类方法 |
CN110119449A (zh) * | 2019-05-14 | 2019-08-13 | 湖南大学 | 一种基于序列增强胶囊网络的刑事案件罪名预测方法 |
CN110457710A (zh) * | 2019-08-19 | 2019-11-15 | 电子科技大学 | 一种基于动态路由机制的机器阅读理解网络模型、方法、存储介质及终端 |
CN110825849A (zh) * | 2019-11-05 | 2020-02-21 | 泰康保险集团股份有限公司 | 文本信息情感分析方法、装置、介质及电子设备 |
CN110969549A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 一种司法数据处理方法及系统 |
CN111026869A (zh) * | 2019-12-10 | 2020-04-17 | 山东大学 | 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法 |
CN111260114A (zh) * | 2020-01-08 | 2020-06-09 | 昆明理工大学 | 融入案件辅助句的低频和易混淆罪名预测方法 |
-
2020
- 2020-07-10 CN CN202010660749.4A patent/CN111985680B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241283A (zh) * | 2018-08-08 | 2019-01-18 | 广东工业大学 | 一种基于多角度胶囊网络的文本分类方法 |
CN110969549A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 一种司法数据处理方法及系统 |
CN110119449A (zh) * | 2019-05-14 | 2019-08-13 | 湖南大学 | 一种基于序列增强胶囊网络的刑事案件罪名预测方法 |
CN110457710A (zh) * | 2019-08-19 | 2019-11-15 | 电子科技大学 | 一种基于动态路由机制的机器阅读理解网络模型、方法、存储介质及终端 |
CN110825849A (zh) * | 2019-11-05 | 2020-02-21 | 泰康保险集团股份有限公司 | 文本信息情感分析方法、装置、介质及电子设备 |
CN111026869A (zh) * | 2019-12-10 | 2020-04-17 | 山东大学 | 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法 |
CN111260114A (zh) * | 2020-01-08 | 2020-06-09 | 昆明理工大学 | 融入案件辅助句的低频和易混淆罪名预测方法 |
Non-Patent Citations (3)
Title |
---|
WEI ZHAO 等: "Investigating Capsule Networks with Dynamic Routing for Text Classification", 《HTTPS://ARXIV.ORG/PDF/1804.00538.PDF》 * |
何从庆: "基于胶囊网络的法律罪名预测方法研究", 《万方数据》 * |
修玉环: "手写中文文本视觉信息与语言信息特征层融合的深度网络模型研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515631A (zh) * | 2021-06-18 | 2021-10-19 | 深圳大学 | 用于预测罪名的方法、装置、终端设备及存储介质 |
CN113515631B (zh) * | 2021-06-18 | 2024-05-17 | 深圳大学 | 用于预测罪名的方法、装置、终端设备及存储介质 |
CN115048510A (zh) * | 2022-02-17 | 2022-09-13 | 东南大学 | 基于层级式法律知识与双图联合表示学习的罪名预测方法 |
CN114841212A (zh) * | 2022-05-18 | 2022-08-02 | 中南大学 | 基于胶囊网络的智能电网时间序列异常检测方法及系统 |
CN114841212B (zh) * | 2022-05-18 | 2023-04-28 | 中南大学 | 基于胶囊网络的智能电网时间序列异常检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111985680B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717047B (zh) | 一种基于图卷积神经网络的Web服务分类方法 | |
CN112015863B (zh) | 一种基于图神经网络的多元特征融合中文文本分类方法 | |
CN111382272B (zh) | 一种基于知识图谱的电子病历icd自动编码方法 | |
CN111985680B (zh) | 基于胶囊网络与时序的刑事多罪名预测方法 | |
CN112579778B (zh) | 基于多层次的特征注意力的方面级情感分类方法 | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN110472042B (zh) | 一种细粒度情感分类方法 | |
CN110674850A (zh) | 一种基于注意力机制的图像描述生成方法 | |
CN112884551B (zh) | 一种基于近邻用户和评论信息的商品推荐方法 | |
CN110516074B (zh) | 一种基于深度学习的网站主题分类方法及装置 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN113704546A (zh) | 基于空间时序特征的视频自然语言文本检索方法 | |
CN108764280B (zh) | 一种基于症状向量的医学数据处理方法和系统 | |
CN109903099B (zh) | 用于评分预测的模型构建方法和系统 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN110472245B (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN109902168B (zh) | 一种专利评价方法和系统 | |
CN110990718A (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
CN111400494A (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
CN113051399A (zh) | 一种基于关系型图卷积网络的小样本细粒度实体分类方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN114357170A (zh) | 模型训练方法、分析方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |