CN111985680A - 基于胶囊网络与时序的刑事多罪名预测方法 - Google Patents

基于胶囊网络与时序的刑事多罪名预测方法 Download PDF

Info

Publication number
CN111985680A
CN111985680A CN202010660749.4A CN202010660749A CN111985680A CN 111985680 A CN111985680 A CN 111985680A CN 202010660749 A CN202010660749 A CN 202010660749A CN 111985680 A CN111985680 A CN 111985680A
Authority
CN
China
Prior art keywords
capsule
criminal
name
description text
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010660749.4A
Other languages
English (en)
Other versions
CN111985680B (zh
Inventor
余正涛
王红涛
高盛祥
郭军军
黄于欣
朱恩昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010660749.4A priority Critical patent/CN111985680B/zh
Publication of CN111985680A publication Critical patent/CN111985680A/zh
Application granted granted Critical
Publication of CN111985680B publication Critical patent/CN111985680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Technology Law (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于胶囊网络与时序的刑事多罪名预测方法,属于自然语言处理技术领域。本发明包括步骤:数据的收集;数据的预处理;提取时序特征;对事实描述文本进行特征表示:事实描述文本编码时将词向量按句输入,采用长短记忆力网络将词级文本提取特征得到句子级的事实描述文本特征向量表示;从得到的特征向量经过压缩函数进行压缩生成初级胶囊,将初级胶囊作为胶囊预测层的输入,通过动态路由的方式迭代生成不同罪名的类别胶囊与罪名类别概率;使用生成的罪名类别胶囊、罪名类别概率以及时序特征值对多罪名进行预判,最终得到罪名预测的结果。本发明有效的解决了多罪名的低频与多标签分类问题,为智能法院的建设提供了有力支撑。

Description

基于胶囊网络与时序的刑事多罪名预测方法
技术领域
本发明涉及基于胶囊网络与时序的刑事多罪名预测方法,属于自然语言处理技术领域。
背景技术
在人工智能在法律领域的应用中,罪名的判决决定着后续任务的质量,如刑期预判、罚金预判等任务对罪名的需求很高,而高准确率的罪名预判对后续的法律智能化建设具有重要意义。罪名预测是法律智能化进程中的重点也是难点,其直接影响了刑期预判、罚金预判、要素识别等任务的准确率,同时很好的推动了各类智能化进程的发展;为了解决后续工作的质量与性能,需要较高的罪名预测准确性,而其中多罪名的数占整个数据的十分之一,多罪名预测的准确率提高,能够解决10%的数据判决问题。因此,性能优秀的多罪名预判模型不仅很好的解决了罪名预判中的被忽略的多罪名预测,同时也为后续工作打好了基础。
国家发明专利申请“一种基于序列增强胶囊网络的刑事案件罪名预测方法”(公开日2019.08.13)获取案件事实描述以及案件判罚结果为训练数据集,通过序列增强胶囊网络对数据集进行训练,将词向量视为胶囊网络的初始胶囊,构建两个序列到胶囊网络提取得到主特征向量以及注意力机制提取得到的辅助向量,通过两者向量的拼接作为事实描述文本的特征向量,最后采用softmax进行罪名预测。该方法在解决罪名预测的低频预测取得了良好的效果,但是影响罪名预测的性能不仅有低频问题,而且多罪名的数据对预测性能的影响也很严重,如果不将多罪名数据考虑进去,预测性能很难再有提高。
发明内容
本发明提供了基于胶囊网络与时序的刑事多罪名预测方法,以用于对刑事案件中多罪名的预判,有效的解决了多罪名的低频与多标签分类问题。
本发明的技术方案是:基于胶囊网络与时序的刑事多罪名预测方法,包括如下步骤:
Step1、数据的收集:获取罪名与事实描述文本相对应的数据集;
Step2、数据的预处理:将得到的数据集对其中每一个罪名标签进行清理,且区分出单罪名与多罪名数据,然后按照one-hot的方式对罪名进行编码,同时删除空文档数据,构建出单罪名数据集与多罪名数据集,建立训练集、测试集与验证集,并对整个数据语料进行词向量训练,将词向量进行映射;数据处理:在数据预处理阶段考虑到多罪名数据对罪名预测的影响,在构建单罪名的训练数据集的同时构建了多罪名训练数据集,分析胶囊网络中单罪名对多罪名预测的影响。
Step3、提取时序特征:利用模式匹配的方式从Step1中数据集中的事实描述文本中提取时序特征,按照提取的时序特征数量对事实描述文本进行时序特征标签赋值;所述步骤Step3中:依据文本中的时序特点构建时序特征提取规则,如xxxx年xx月xx日为一个时序特征抽取规则,xx月xx日、xx月、xx日等为时间节点,如果时间节点与标准时间节点的差值小于7天的视为同一节点,每出现一个时间节点视为一个时序特征,时序特征值加1,时序特征值用T表示。
Step4、对事实描述文本进行特征表示:事实描述文本编码时将词向量按句输入,采用长短记忆力网络将词级文本提取特征得到句子级的事实描述文本特征向量表示;
Step5、胶囊预测层:从Step4中得到的特征向量经过压缩函数进行压缩生成初级胶囊,将初级胶囊作为胶囊预测层的输入,通过动态路由的方式迭代生成不同罪名的类别胶囊与罪名类别概率;
Step6、使用生成的罪名类别胶囊、罪名类别概率以及时序特征值对多罪名进行预判,最终得到罪名预测的结果。
进一步地,所述步骤Step1的具体步骤为:
Step1.1、通过分析裁判文书网的网页结构,通过Scrapy框架构建爬虫文件,自动从页面中抽取网站中的法律判决文书,并通过页面中的结构对数据进行第一步清理;
Step1.2、然后进行人工校正罪名与犯罪事实描述,构建罪名与事实描述文本相对应的数据集。
进一步地,所述步骤Step2的具体步骤:
Step2.1、对得到的数据集中每一个罪名标签进行清理,除去杂余信息;然后利用单罪名和多罪名区分格式区分出单罪名与多罪名数据,同时将罪名按照one-hot的方式进行编码,同时删除空文档数据;
Step2.2、对处理好的数据集进行切分,构建单罪名的训练集、测试集、验证集以及多罪名的训练集、测试集、验证集;
Step2.3、使用skip-gram的方法对整个语料进行词向量训练,得到一个300维的词向量集,同时将法律文书中的事实描述进行数字转换。
进一步地,所述步骤Step4的具体步骤为:
Step4.1、获取事实描述文本输入:输入包含m个句子的刑事案件事实描述文本{s1,s2,...,sm},其中sm表示事实描述文本中第m个句子的词集,事实描述文本的输入能表示为矩阵S=s1+s2+...+sm,S∈Rm*n,其中n表示事实描述文本句子长度即事实描述文本句子中包含的词的数量;
Step4.2、获取LSTM网络的隐含向量:通过在词编码时使用skip-gram模型将每一个词嵌入到一个低维的词空间,然后每个词映射为对应的词向量得到句子向量集为
Figure BDA0002578430550000031
其中sj表示事实描述文本中的第j个句子的词向量集,
Figure BDA0002578430550000032
表示第j个句子中第i个词向量,d表示词向量维度;将sj输入进LSTM层,通过计算得到隐藏层状态向量集
Figure BDA0002578430550000033
其中
Figure BDA0002578430550000034
表示第j个句子中的第i个词的隐藏层向量表示;其具体的计算公式如下:
Figure BDA0002578430550000035
Figure BDA0002578430550000036
Figure BDA0002578430550000037
Figure BDA0002578430550000038
其中
Figure BDA0002578430550000039
是门控函数通过当前输入
Figure BDA00025784305500000310
和上层单元输出
Figure BDA00025784305500000311
计算得到,
Figure BDA00025784305500000312
表示输入函数,fi j表示遗忘函数,
Figure BDA00025784305500000313
表示输出函数,σ表示激活函数sigmoid函数,
Figure BDA00025784305500000314
表示第j个句子中第i-1个词向量的隐藏层状态向量,即上层单元的输出,
Figure BDA00025784305500000315
表示第j个句子中第i个词向量也是当前的单元输入,
Figure BDA00025784305500000316
是当前单元的待更新状态,tanh表示激活函数用来生成待更新状态
Figure BDA00025784305500000317
W,Wc均表示权重矩阵,b,bc均表示偏置值;
Figure BDA00025784305500000318
表示当前单元状态,通过上层单元的状态
Figure BDA00025784305500000319
输入函数
Figure BDA00025784305500000320
遗忘函数fi j以及待更新状态
Figure BDA0002578430550000041
计算得到;
Figure BDA0002578430550000042
表示第j个句子中的第i个词的隐藏层状态向量,通过输出函数
Figure BDA0002578430550000043
和当前单元状态
Figure BDA0002578430550000044
计算得到;
Step4.3、获取句子级的事实描述文本特征向量表示:通过将Step4.3获取的隐藏层状态向量集
Figure BDA0002578430550000045
进行平均池化处理mean-pooling得到事实描述文本第j个句子的特征向量表示
Figure BDA0002578430550000046
分别对事实描述文本中的每个句子进行特征提取,最终得到句子级的事实描述文本特征向量表示为:
Figure BDA0002578430550000047
进一步地,所述步骤Step5的具体步骤为:
Step5.1、获取初级胶囊:初级胶囊能看作与句子数量m相同的m个特征叠加的特征图,每个初级胶囊元素代表的均是底层特征的一部分,假设cj∈Rt是一个初级胶囊的实例参数,t是胶囊的维数,K是初级胶囊层的胶囊数量,设Wb∈Rm*t是滑动窗口的共享权重,对每一个矩阵都有一个
Figure BDA0002578430550000048
与之对应并生成相应的胶囊,每个胶囊的生成公式为:
Figure BDA0002578430550000049
其中g是非线性压缩函数,Wb是共享权重矩阵,bj表示的是偏置值,
Figure BDA00025784305500000410
是事实描述文本第j个句子的特征向量表示,并且K既是初级胶囊层的数量也是过滤器的数量,则初级胶囊层得到的初级胶囊为:
C={c1,c2,…cj…cK} (7)
Step5.2、获取预测胶囊:假设初级胶囊层的p*k的区域连接到预测层,p*k为设定的每次传入的数据规模,权重矩阵为Wp∈Rp*k*d*t,其中,d表示词向量维度,假定
Figure BDA00025784305500000411
表示从初级胶囊得到的预测胶囊,其预测胶囊生成公式为:
Figure BDA00025784305500000412
其中,uj表示初级胶囊层传递的p*k的初级胶囊,
Figure BDA00025784305500000413
表示偏置矩阵,通过计算最后得到预测胶囊;
Step5.3、动态路由的基本思想是以迭代的方式构造一个非线性映射,确保将每个预测胶囊的输出发送给后续的类别胶囊:
Figure BDA0002578430550000051
对于每一个潜在的类别胶囊,胶囊网络能通过动态路由来增加或降低连接强度,从本质上检测一个特征是否存在于事实描述文本中;
假定迭代次数r,给出每个预测向量
Figure BDA0002578430550000052
和其存在的概率
Figure BDA0002578430550000053
初始值
Figure BDA0002578430550000054
对连接强度
Figure BDA0002578430550000055
的迭代耦合系数进行更新的公式为:
Figure BDA00025784305500000517
其中
Figure BDA0002578430550000056
为耦合系数的对数,每个类别胶囊
Figure BDA0002578430550000057
都是所有预测向量
Figure BDA0002578430550000058
的加权求和:
Figure BDA0002578430550000059
其中
Figure BDA00025784305500000510
是类别胶囊的存在概率,g是非线性压缩函数,一旦所有的类别胶囊产生,将对
Figure BDA00025784305500000511
进行更新:
Figure BDA00025784305500000512
迭代r次后,得到最终的罪名类别胶囊vp和其概率值αp
为了方便表示,将预测层胶囊到类别胶囊及其存在的类别概率的计算定义为:
Figure BDA00025784305500000513
其中
Figure BDA00025784305500000514
表示所有预测胶囊的集合,v,a分别表示类别胶囊的向量集合与其存在概率。
进一步地,所述步骤Step6的具体步骤为:
Step6.1、获取类别胶囊及其概率,通过Step5获取最终生成的类别胶囊v={v1,v2,...,vN},vp∈Rd以及每个罪名的类别概率值的集合α={α12,...,αN},αp∈R,其中N是实验数据中罪名数量加上一个孤立的罪名;
Step6.2、依据时序特征值对罪名预测进行判断,时序特征值T=1时,按照阈值γ对罪名进行预测,当T≠1时,首先对概率值进行排序,取前T个概率为待选罪名αT,然后计算类别概率平均值
Figure BDA00025784305500000515
如果前T个罪名概率值大于
Figure BDA00025784305500000516
则为正,否则判断为负,计算公式如下:
Figure BDA0002578430550000061
Figure BDA0002578430550000062
其中α是代表每个罪名的类别概率值的集合,ε表示的是阶跃函数。
本发明的有益效果是:
1、本发明实现了利用胶囊网络对刑事案件进行罪名预测,可同时进行多罪名与单罪名的预测问题,解决了多罪名的低频数据的预测问题以及通过时序特征对多罪名进行预测;
2、针对罪名预测任务问题上,本发明在单罪名预测上的性能相对于一般的神经网络的在F值上提升了0.5%,在多罪名预测上的性能相对于一般的神经网络提升了8.5%。
附图说明
图1为本发明中的总的流程图;
图2为本发明中的多罪名预测的建模流程图。
具体实施方式
实施例1:如图1-2所示,基于胶囊网络与时序的刑事多罪名预测方法,包括如下步骤:
Step1、数据的收集:获取罪名与事实描述文本相对应的数据集;具体的,可以通过Scrapy框架构建爬虫程序,自动爬取裁判文书网等网站中的法律文书,进行人工校正构建罪名与事实描述文本相对应的数据集;
Step2、数据的预处理:将得到的数据集对其中每一个罪名标签进行清理,且区分出单罪名与多罪名数据,然后按照one-hot的方式对罪名进行编码,同时删除空文档数据,构建出单罪名数据集与多罪名数据集,建立训练集、测试集与验证集,并对整个数据语料进行词向量训练,将词向量进行映射;数据处理:在数据预处理阶段考虑到多罪名数据对罪名预测的影响,在构建单罪名的训练数据集的同时构建了多罪名训练数据集,分析胶囊网络中单罪名对多罪名预测的影响;
Step3、提取时序特征:利用模式匹配的方式从Step1中数据集中的事实描述文本中提取时序特征,按照提取的时序特征数量对事实描述文本进行时序特征标签赋值;所述步骤Step3中:依据文本中的时序特点构建时序特征提取规则,如xxxx年xx月xx日为一个时序特征抽取规则,xx月xx日、xx月、xx日等为时间节点,如果时间节点与标准时间节点的差值小于7天的视为同一节点,每出现一个时间节点视为一个时序特征,时序特征值加1,时序特征值用T表示;
Step4、对事实描述文本进行特征表示:事实描述文本编码时将词向量按句输入,采用长短记忆力网络将词级文本提取特征得到句子级的事实描述文本特征向量表示;
Step5、胶囊预测层:从Step4中得到的特征向量经过压缩函数进行压缩生成初级胶囊,将初级胶囊作为胶囊预测层的输入,通过动态路由的方式迭代生成不同罪名的类别胶囊与罪名类别概率;
Step6、使用生成的罪名类别胶囊、罪名类别概率以及时序特征值对多罪名进行预判,最终得到罪名预测的结果。
进一步地,所述步骤Step1的具体步骤为:
Step1.1、通过分析裁判文书网的网页结构,通过Scrapy框架构建爬虫文件,自动从页面中抽取网站中的法律判决文书,并通过页面中的结构对数据进行第一步清理;
Step1.2、然后进行人工校正罪名与犯罪事实描述,构建罪名与事实描述文本相对应的数据集。
进一步地,所述步骤Step2的具体步骤:
Step2.1、对得到的数据集中每一个罪名标签进行清理,除去杂余信息如被告人名、犯案地点等;然后利用单罪名和多罪名区分格式区分出单罪名与多罪名数据,同时将罪名按照one-hot的方式进行编码,例如盗窃罪-1、危险驾驶6,盗窃、危险驾驶罪-[0,1,0,0,0,0,1...],同时删除空文档数据;
Step2.2、对处理好的数据集进行切分,构建单罪名的训练集、测试集、验证集以及多罪名的训练集、测试集、验证集;数据规模如表1所示:
表1数据集的分布
Figure BDA0002578430550000071
Step2.3、使用skip-gram的方法对整个语料进行词向量训练,得到一个300维的词向量集,同时将法律文书中的事实描述进行数字转换。
进一步地,所述步骤Step4的具体步骤为:
Step4.1、获取事实描述文本输入:输入包含m个句子的刑事案件事实描述文本{s1,s2,...,sm},其中sm表示事实描述文本中第m个句子的词集,事实描述文本的输入能表示为矩阵S=s1+s2+...+sm,S∈Rm*n,其中n表示事实描述文本句子长度即事实描述文本句子中包含的词的数量;
Step4.2、获取LSTM网络的隐含向量:通过在词编码时使用skip-gram模型将每一个词嵌入到一个低维的词空间,然后每个词映射为对应的词向量得到句子向量集为
Figure BDA0002578430550000081
其中sj表示事实描述文本中的第j个句子的词向量集,
Figure BDA0002578430550000082
表示第j个句子中第i个词向量,d表示词向量维度;将sj输入进LSTM层,通过计算得到隐藏层状态向量集
Figure BDA0002578430550000083
其中
Figure BDA0002578430550000084
表示第j个句子中的第i个词的隐藏层向量表示;其具体的计算公式如下:
Figure BDA0002578430550000085
Figure BDA0002578430550000086
Figure BDA0002578430550000087
Figure BDA0002578430550000088
其中
Figure BDA0002578430550000089
是门控函数通过当前输入
Figure BDA00025784305500000810
和上层单元输出
Figure BDA00025784305500000811
计算得到,
Figure BDA00025784305500000812
表示输入函数,fi j表示遗忘函数,
Figure BDA00025784305500000813
表示输出函数,σ表示激活函数sigmoid函数,
Figure BDA00025784305500000814
表示第j个句子中第i-1个词向量的隐藏层状态向量,即上层单元的输出,
Figure BDA00025784305500000815
表示第j个句子中第i个词向量也是当前的单元输入,
Figure BDA00025784305500000816
是当前单元的待更新状态,tanh表示激活函数用来生成待更新状态
Figure BDA00025784305500000817
W,Wc均表示权重矩阵,b,bc均表示偏置值;
Figure BDA00025784305500000818
表示当前单元状态,通过上层单元的状态
Figure BDA00025784305500000819
输入函数
Figure BDA00025784305500000820
遗忘函数fi j以及待更新状态
Figure BDA00025784305500000821
计算得到;
Figure BDA00025784305500000822
表示第j个句子中的第i个词的隐藏层状态向量,通过输出函数
Figure BDA00025784305500000823
和当前单元状态
Figure BDA00025784305500000824
计算得到;
Step4.3、获取句子级的事实描述文本特征向量表示:通过将Step4.3获取的隐藏层状态向量集
Figure BDA0002578430550000091
进行平均池化处理mean-pooling得到事实描述文本第j个句子的特征向量表示
Figure BDA0002578430550000092
分别对事实描述文本中的每个句子进行特征提取,最终得到句子级的事实描述文本特征向量表示为:
Figure BDA0002578430550000093
进一步地,所述步骤Step5的具体步骤为:
Step5.1、获取初级胶囊:初级胶囊能看作与句子数量m相同的m个特征叠加的特征图,每个初级胶囊元素代表的均是底层特征的一部分,假设cj∈Rt是一个初级胶囊的实例参数,t是胶囊的维数,K是初级胶囊层的胶囊数量,设Wb∈Rm*t是滑动窗口的共享权重,对每一个矩阵都有一个
Figure BDA0002578430550000094
与之对应并生成相应的胶囊,每个胶囊的生成公式为:
Figure BDA0002578430550000095
其中g是非线性压缩函数,Wb是共享权重矩阵,bj表示的是偏置值,
Figure BDA0002578430550000096
是事实描述文本第j个句子的特征向量表示,并且K既是初级胶囊层的数量也是过滤器的数量,则初级胶囊层得到的初级胶囊为:
C={c1,c2,…cj…cK} (7)
Step5.2、获取预测胶囊:假设初级胶囊层的p*k的区域连接到预测层,p*k为设定的每次传入的数据规模,权重矩阵为Wp∈Rp*k*d*t,其中,d表示词向量维度,假定
Figure BDA0002578430550000097
表示从初级胶囊得到的预测胶囊,其预测胶囊生成公式为:
Figure BDA0002578430550000098
其中,uj表示初级胶囊层传递的p*k的初级胶囊,
Figure BDA0002578430550000099
表示偏置矩阵,通过计算最后得到预测胶囊;
Step5.3、动态路由的基本思想是以迭代的方式构造一个非线性映射,确保将每个预测胶囊的输出发送给后续的类别胶囊:
Figure BDA00025784305500000910
对于每一个潜在的类别胶囊,胶囊网络能通过动态路由来增加或降低连接强度,从本质上检测一个特征是否存在于事实描述文本中;
假定迭代次数r,给出每个预测向量
Figure BDA0002578430550000101
和其存在的概率
Figure BDA0002578430550000102
初始值
Figure BDA0002578430550000103
对连接强度
Figure BDA0002578430550000104
的迭代耦合系数进行更新的公式为:
Figure BDA0002578430550000105
其中
Figure BDA0002578430550000106
为耦合系数的对数,每个类别胶囊
Figure BDA0002578430550000107
都是所有预测向量
Figure BDA0002578430550000108
的加权求和:
Figure BDA0002578430550000109
其中
Figure BDA00025784305500001010
是类别胶囊的存在概率,g是非线性压缩函数,一旦所有的类别胶囊产生,将对
Figure BDA00025784305500001011
进行更新:
Figure BDA00025784305500001012
迭代r次后,得到最终的罪名类别胶囊vp和其概率值αp
为了方便表示,将预测层胶囊到类别胶囊及其存在的类别概率的计算定义为:
Figure BDA00025784305500001013
其中
Figure BDA00025784305500001014
表示所有预测胶囊的集合,v,a分别表示类别胶囊的向量集合与其存在概率。
进一步地,所述步骤Step6的具体步骤为:
Step6.1、获取类别胶囊及其概率,通过Step5获取最终生成的类别胶囊v={v1,v2,...,vN},vp∈Rd以及每个罪名的类别概率值的集合α={α12,...,αN},αp∈R,其中N是实验数据中罪名数量加上一个孤立的罪名;
Step6.2、依据时序特征值对罪名预测进行判断,时序特征值T=1时,按照阈值γ对罪名进行预测,当T≠1时,首先对概率值进行排序,取前T个概率为待选罪名αT,然后计算类别概率平均值
Figure BDA00025784305500001015
如果前T个罪名概率值大于
Figure BDA00025784305500001016
则为正,否则判断为负,计算公式如下:
Figure BDA00025784305500001017
Figure BDA00025784305500001018
其中α是代表每个罪名的类别概率值的集合,ε表示的是阶跃函数。
为了验证本文中的方法是有效的,本发明设置了两组对比实验,一组是单罪名数据集,一组是多罪名数据集;在模型对比实验中分别设置了传统的统计机器学习和经典深度学习的模型进行对比:其中传统的统计机器学习方法使用词频-逆文档频率算法(TF-IDF)构建特征词典,将支持向量机SVM作为分类器。经典的深度学习基线模型有CNN、CRNN、Bi-GRU和Capsule,其中CNN使用word2vec训练词向量,并将CNN作为分类器进行分类;CRNN模型,首先利用CNN进行文本的特征提取,然后将特征向量作为RNN分类器的输入进行分类。利用Bi-GRU对文本进行编码,得到特征向量后用softmax进行预测。评估标准使用precision,recall,F1值来衡量模型的准确性。
表2 Criminal-S上的实验结果
Metrics P R F
SVM 85.2 40.8 52.3
Bi-GRU 90.6 41.7 54.4
CNN 91.3 43.3 58.7
CRNN 93.1 44.2 59.9
Capsule 93.6 45.2 60.0
Our model 94.1 49.2 60.5
表2的数据说明,与一般的罪名预测模型相比,本模型在单罪名的数据上仍然保持着良好的性能,1)与一般的神经网络模型相比,如CRNN模型,F值提升了0.6%,该现象说明了本发明的模型相对于一般模型的准确性更高,2)与Capsule模型相比,F值提升了0.5%,可以看出单罪名预测任务中,句级特征提取与时序特征对模型的影响并不突出。
表3 Mutil-Criminal上的实验结果
Figure BDA0002578430550000111
表3的实验数据表明,1)在低频的多罪名实验数据当中,一般的神经网络模型表现出来的性能很差,本发明的胶囊模型在一定程度上解决了多罪名的低频问题;2)在与Capsule的F值相比较,本发明的模型提升了8.5%,说明了句子特征的提取与时序特征的应用在性能上有很大的提升。
通过以上的实验数据和分析,该方法更新了特征的提取方式,融入到胶囊网络中,并使用时序特征指导罪名预测。实验结果表明,针对刑事案件多罪名预测任务,胶囊网络有效的提升了低频数据的预测性能,同时时序特征对预测准确率有重要的指导作用。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:包括如下步骤:
Step1、数据的收集:获取罪名与事实描述文本相对应的数据集;
Step2、数据的预处理:将得到的数据集对其中每一个罪名标签进行清理,且区分出单罪名与多罪名数据,然后按照one-hot的方式对罪名进行编码,同时删除空文档数据,构建出单罪名数据集与多罪名数据集,建立训练集、测试集与验证集,并对整个数据语料进行词向量训练,将词向量进行映射;
Step3、提取时序特征:利用模式匹配的方式从Step1中数据集中的事实描述文本中提取时序特征,按照提取的时序特征数量对事实描述文本进行时序特征标签赋值;
Step4、对事实描述文本进行特征表示:事实描述文本编码时将词向量按句输入,采用长短记忆力网络将词级文本提取特征得到句子级的事实描述文本特征向量表示;
Step5、胶囊预测层:从Step4中得到的特征向量经过压缩函数进行压缩生成初级胶囊,将初级胶囊作为胶囊预测层的输入,通过动态路由的方式迭代生成不同罪名的类别胶囊与罪名类别概率;
Step6、使用生成的罪名类别胶囊、罪名类别概率以及时序特征值对多罪名进行预判,最终得到罪名预测的结果。
2.根据权利要求1所述的基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、通过分析裁判文书网的网页结构,通过Scrapy框架构建爬虫文件,自动从页面中抽取网站中的法律判决文书,并通过页面中的结构对数据进行第一步清理;
Step1.2、然后进行人工校正罪名与犯罪事实描述,构建罪名与事实描述文本相对应的数据集。
3.根据权利要求1所述的基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、对得到的数据集中每一个罪名标签进行清理,除去杂余信息;然后利用单罪名和多罪名区分格式区分出单罪名与多罪名数据,同时将罪名按照one-hot的方式进行编码,同时删除空文档数据;
Step2.2、对处理好的数据集进行切分,构建单罪名的训练集、测试集、验证集以及多罪名的训练集、测试集、验证集;
Step2.3、使用skip-gram的方法对整个语料进行词向量训练,得到一个300维的词向量集,同时将法律文书中的事实描述进行数字转换。
4.根据权利要求1所述的基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:所述步骤Step4的具体步骤为:
Step4.1、获取事实描述文本输入:输入包含m个句子的刑事案件事实描述文本{s1,s2,...,sm},其中sm表示事实描述文本中第m个句子的词集,事实描述文本的输入能表示为矩阵S=s1+s2+...+sm,S∈Rm*n,其中n表示事实描述文本句子长度即事实描述文本句子中包含的词的数量;
Step4.2、获取LSTM网络的隐含向量:通过在词编码时使用skip-gram模型将每一个词嵌入到一个低维的词空间,然后每个词映射为对应的词向量得到句子向量集为
Figure FDA0002578430540000021
其中sj表示事实描述文本中的第j个句子的词向量集,
Figure FDA0002578430540000022
表示第j个句子中第i个词向量,d表示词向量维度;将sj输入进LSTM层,通过计算得到隐藏层状态向量集
Figure FDA0002578430540000023
其中
Figure FDA0002578430540000024
表示第j个句子中的第i个词的隐藏层向量表示;其具体的计算公式如下:
Figure FDA0002578430540000025
Figure FDA0002578430540000026
Figure FDA0002578430540000027
Figure FDA0002578430540000028
其中
Figure FDA0002578430540000029
是门控函数通过当前输入
Figure FDA00025784305400000210
和上层单元输出
Figure FDA00025784305400000211
计算得到,
Figure FDA00025784305400000212
表示输入函数,fi j表示遗忘函数,
Figure FDA00025784305400000213
表示输出函数,σ表示激活函数sigmoid函数,
Figure FDA00025784305400000214
表示第j个句子中第i-1个词向量的隐藏层状态向量,即上层单元的输出,
Figure FDA00025784305400000215
表示第j个句子中第i个词向量也是当前的单元输入,
Figure FDA00025784305400000216
是当前单元的待更新状态,tanh表示激活函数用来生成待更新状态
Figure FDA00025784305400000217
W,Wc均表示权重矩阵,b,bc均表示偏置值;
Figure FDA00025784305400000218
表示当前单元状态,通过上层单元的状态
Figure FDA0002578430540000031
输入函数
Figure FDA0002578430540000032
遗忘函数fi j以及待更新状态
Figure FDA0002578430540000033
计算得到;
Figure FDA0002578430540000034
表示第j个句子中的第i个词的隐藏层状态向量,通过输出函数
Figure FDA0002578430540000035
和当前单元状态
Figure FDA0002578430540000036
计算得到;
Step4.3、获取句子级的事实描述文本特征向量表示:通过将Step4.3获取的隐藏层状态向量集
Figure FDA0002578430540000037
进行平均池化处理mean-pooling得到事实描述文本第j个句子的特征向量表示
Figure FDA0002578430540000038
分别对事实描述文本中的每个句子进行特征提取,最终得到句子级的事实描述文本特征向量表示为:
Figure FDA0002578430540000039
5.根据权利要求1所述的基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:所述步骤Step5的具体步骤为:
Step5.1、获取初级胶囊:初级胶囊能看作与句子数量m相同的m个特征叠加的特征图,每个初级胶囊元素代表的均是底层特征的一部分,假设cj∈Rt是一个初级胶囊的实例参数,t是胶囊的维数,K是初级胶囊层的胶囊数量,设Wb∈Rm*t是滑动窗口的共享权重,对每一个矩阵都有一个
Figure FDA00025784305400000310
与之对应并生成相应的胶囊,每个胶囊的生成公式为:
Figure FDA00025784305400000311
其中g是非线性压缩函数,Wb是共享权重矩阵,bj表示的是偏置值,
Figure FDA00025784305400000312
是事实描述文本第j个句子的特征向量表示,并且K既是初级胶囊层的数量也是过滤器的数量,则初级胶囊层得到的初级胶囊为:
C={c1,c2,…cj…cK} (7)
Step5.2、获取预测胶囊:假设初级胶囊层的p*k的区域连接到预测层,p*k为设定的每次传入的数据规模,权重矩阵为Wp∈Rp*k*d*t,其中,d表示词向量维度,假定
Figure FDA00025784305400000313
表示从初级胶囊得到的预测胶囊,其预测胶囊生成公式为:
Figure FDA00025784305400000314
其中,uj表示初级胶囊层传递的p*k的初级胶囊,
Figure FDA0002578430540000041
表示偏置矩阵,通过计算最后得到预测胶囊;
Step5.3、动态路由的基本思想是以迭代的方式构造一个非线性映射,确保将每个预测胶囊的输出发送给后续的类别胶囊:
Figure FDA0002578430540000042
对于每一个潜在的类别胶囊,胶囊网络能通过动态路由来增加或降低连接强度,从本质上检测一个特征是否存在于事实描述文本中;
假定迭代次数r,给出每个预测向量
Figure FDA0002578430540000043
和其存在的概率
Figure FDA0002578430540000044
初始值
Figure FDA0002578430540000045
对连接强度
Figure FDA0002578430540000046
的迭代耦合系数进行更新的公式为:
Figure FDA0002578430540000047
其中
Figure FDA0002578430540000048
为耦合系数的对数,每个类别胶囊
Figure FDA0002578430540000049
都是所有预测向量
Figure FDA00025784305400000410
的加权求和:
Figure FDA00025784305400000411
其中
Figure FDA00025784305400000412
是类别胶囊的存在概率,g是非线性压缩函数,一旦所有的类别胶囊产生,将对
Figure FDA00025784305400000413
进行更新:
Figure FDA00025784305400000414
迭代r次后,得到最终的罪名类别胶囊vp和其概率值αp
为了方便表示,将预测层胶囊到类别胶囊及其存在的类别概率的计算定义为:
Figure FDA00025784305400000415
其中
Figure FDA00025784305400000416
表示所有预测胶囊的集合,v,a分别表示类别胶囊的向量集合与其存在概率。
6.根据权利要求1或5所述的基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:所述步骤Step6的具体步骤为:
Step6.1、获取类别胶囊及其概率,通过Step5获取最终生成的类别胶囊v={v1,v2,...,vN},vp∈Rd以及每个罪名的类别概率值的集合α={α12,...,αN},αp∈R,其中N是实验数据中罪名数量加上一个孤立的罪名;
Step6.2、依据时序特征值对罪名预测进行判断,时序特征值T=1时,按照阈值γ对罪名进行预测,当T≠1时,首先对概率值进行排序,取前T个概率为待选罪名αT,然后计算类别概率平均值
Figure FDA0002578430540000051
如果前T个罪名概率值大于
Figure FDA0002578430540000052
则为正,否则判断为负,计算公式如下:
Figure FDA0002578430540000053
Figure FDA0002578430540000054
其中α是代表每个罪名的类别概率值的集合,ε表示的是阶跃函数。
CN202010660749.4A 2020-07-10 2020-07-10 基于胶囊网络与时序的刑事多罪名预测方法 Active CN111985680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010660749.4A CN111985680B (zh) 2020-07-10 2020-07-10 基于胶囊网络与时序的刑事多罪名预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010660749.4A CN111985680B (zh) 2020-07-10 2020-07-10 基于胶囊网络与时序的刑事多罪名预测方法

Publications (2)

Publication Number Publication Date
CN111985680A true CN111985680A (zh) 2020-11-24
CN111985680B CN111985680B (zh) 2022-06-14

Family

ID=73438631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010660749.4A Active CN111985680B (zh) 2020-07-10 2020-07-10 基于胶囊网络与时序的刑事多罪名预测方法

Country Status (1)

Country Link
CN (1) CN111985680B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515631A (zh) * 2021-06-18 2021-10-19 深圳大学 用于预测罪名的方法、装置、终端设备及存储介质
CN114841212A (zh) * 2022-05-18 2022-08-02 中南大学 基于胶囊网络的智能电网时间序列异常检测方法及系统
CN115048510A (zh) * 2022-02-17 2022-09-13 东南大学 基于层级式法律知识与双图联合表示学习的罪名预测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241283A (zh) * 2018-08-08 2019-01-18 广东工业大学 一种基于多角度胶囊网络的文本分类方法
CN110119449A (zh) * 2019-05-14 2019-08-13 湖南大学 一种基于序列增强胶囊网络的刑事案件罪名预测方法
CN110457710A (zh) * 2019-08-19 2019-11-15 电子科技大学 一种基于动态路由机制的机器阅读理解网络模型、方法、存储介质及终端
CN110825849A (zh) * 2019-11-05 2020-02-21 泰康保险集团股份有限公司 文本信息情感分析方法、装置、介质及电子设备
CN110969549A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 一种司法数据处理方法及系统
CN111026869A (zh) * 2019-12-10 2020-04-17 山东大学 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN111260114A (zh) * 2020-01-08 2020-06-09 昆明理工大学 融入案件辅助句的低频和易混淆罪名预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241283A (zh) * 2018-08-08 2019-01-18 广东工业大学 一种基于多角度胶囊网络的文本分类方法
CN110969549A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 一种司法数据处理方法及系统
CN110119449A (zh) * 2019-05-14 2019-08-13 湖南大学 一种基于序列增强胶囊网络的刑事案件罪名预测方法
CN110457710A (zh) * 2019-08-19 2019-11-15 电子科技大学 一种基于动态路由机制的机器阅读理解网络模型、方法、存储介质及终端
CN110825849A (zh) * 2019-11-05 2020-02-21 泰康保险集团股份有限公司 文本信息情感分析方法、装置、介质及电子设备
CN111026869A (zh) * 2019-12-10 2020-04-17 山东大学 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN111260114A (zh) * 2020-01-08 2020-06-09 昆明理工大学 融入案件辅助句的低频和易混淆罪名预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEI ZHAO 等: "Investigating Capsule Networks with Dynamic Routing for Text Classification", 《HTTPS://ARXIV.ORG/PDF/1804.00538.PDF》 *
何从庆: "基于胶囊网络的法律罪名预测方法研究", 《万方数据》 *
修玉环: "手写中文文本视觉信息与语言信息特征层融合的深度网络模型研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515631A (zh) * 2021-06-18 2021-10-19 深圳大学 用于预测罪名的方法、装置、终端设备及存储介质
CN113515631B (zh) * 2021-06-18 2024-05-17 深圳大学 用于预测罪名的方法、装置、终端设备及存储介质
CN115048510A (zh) * 2022-02-17 2022-09-13 东南大学 基于层级式法律知识与双图联合表示学习的罪名预测方法
CN114841212A (zh) * 2022-05-18 2022-08-02 中南大学 基于胶囊网络的智能电网时间序列异常检测方法及系统
CN114841212B (zh) * 2022-05-18 2023-04-28 中南大学 基于胶囊网络的智能电网时间序列异常检测方法及系统

Also Published As

Publication number Publication date
CN111985680B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
CN112015863B (zh) 一种基于图神经网络的多元特征融合中文文本分类方法
CN111382272B (zh) 一种基于知识图谱的电子病历icd自动编码方法
CN111985680B (zh) 基于胶囊网络与时序的刑事多罪名预测方法
CN112579778B (zh) 基于多层次的特征注意力的方面级情感分类方法
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN110472042B (zh) 一种细粒度情感分类方法
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
CN112884551B (zh) 一种基于近邻用户和评论信息的商品推荐方法
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN113704546A (zh) 基于空间时序特征的视频自然语言文本检索方法
CN108764280B (zh) 一种基于症状向量的医学数据处理方法和系统
CN109903099B (zh) 用于评分预测的模型构建方法和系统
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN110472245B (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN109902168B (zh) 一种专利评价方法和系统
CN110990718A (zh) 一种公司形象提升系统的社会网络模型构建模块
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN113051399A (zh) 一种基于关系型图卷积网络的小样本细粒度实体分类方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN114357170A (zh) 模型训练方法、分析方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant