CN110688856B - 一种裁判文书信息提取方法 - Google Patents
一种裁判文书信息提取方法 Download PDFInfo
- Publication number
- CN110688856B CN110688856B CN201910949579.9A CN201910949579A CN110688856B CN 110688856 B CN110688856 B CN 110688856B CN 201910949579 A CN201910949579 A CN 201910949579A CN 110688856 B CN110688856 B CN 110688856B
- Authority
- CN
- China
- Prior art keywords
- event
- event type
- type
- model
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 6
- 235000014347 soups Nutrition 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 239000000284 extract Substances 0.000 description 4
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种裁判文书信息提取方法,首先提取裁判文书的整个HTML的无格式文本text并进行标注,定义裁判文书中的事件结构为:事件类型‑实体类型‑…‑实体类型;将无格式的文本text按字切分,得到一个数组x,从而得到一个完整的样本(x,y);对样本(x,y)进行处理,得到事件类型提取模型的样本(x1,y1),采用BERT模型作为事件类型提取模型并进行训练;对标签y1中的事件进行处理;得到实体类型提取模型的样本([x1,x2],y2);将自注意力网络作为实体类型提取模型并进行训练;根据y1和y2得到每个事件类型及其实体类型对应的文字。本发明对样本需求小,有利于提高模型效果。
Description
技术领域
本发明涉及文本信息提取领域,尤其涉及一种裁判文书信息提取方法。
背景技术
裁判文书是法官在案件审理终结后,依据案件事实和法律条款,对案件实体和程序问题所做出的具有法律约束力的书面结论。裁判文书忠实地记录了案件的裁判过程,因此包含了大量的有价值信息。裁判文书虽然有一定的格式,但仍以大段文本的形式进行内容组织,对于裁判文书中的原告、被告、判决法院、判决时间等主要信息字段,是以自然行文的方式包含了在裁判文书中。如果需要更进一步挖掘和利用这些公开的裁判文书信息,就需要对案件的各个核心字段进行结构化处理,这通常由人工操作完成,常见的人工加工处理明显在成本和效率两方面都存在不足。
CN201910263217以神经网络模型对法律文书进行命名实体识别,提取法律文书中的关键信息,提出了对法律文书的命名实体识别方法,但是不能识别实体之间的语义关系,比如,裁判文书中有多个被告人和多个被告判决罪名,该方法不能确定某个被告人具体的判决罪名;CN201910145396先对非结构的文本进行TF-IDF词频统计,得到不同罪名及案由的特征集,再对实体之间的语义关系进行抽取,虽然涉及了提取实体之间语义关系的问题,但其生成候选实体的方法很依赖于语料,且两两实体之间需要配对生成样本,这在裁判文书比较长,包括较多实体的时候,会产生很多样本,效率较低。
发明内容
本发明目的在于针对现有技术的不足,提出一种裁判文书信息提取方法,不仅可以将裁判文书中的实体提取出,且以事件的形式提取实体之间的语义关系,可以避免两两实体便于判断其语义关系,减少样本量,提高效率。
本发明的目的是通过以下技术方案来实现的:一种裁判文书信息提取方法,该方法包括以下步骤:
(1)获取裁判文书的整个HTML并解析,从HTML中提取无格式的文本text;
(2)对提取的无格式文本text进行标注,在每个事件的标注任务中,一个标签定义为事件类型或实体类型,若一个标签和其他标签都存在关系,则把该标签定义为事件类型,而其他标签定义为实体类型,定义裁判文书中的事件结构为:事件类型-实体类型-…-实体类型,从无格式的文本text标注出每个事件下的事件类型及其实体类型对应的文字,得到标注数据;
(3)将无格式的文本text按字切分,得到一个数组,记为x,xi为数组x中的第i个字;若x中的xi,xi+1,…,xi+j被标注为一个事件类型(实体类型),则其对应标签为yi,yi+1,…,yi+j,记为事件类型(实体类型)-B,事件类型(实体类型)-I,…,事件类型(实体类型)-I,事件类型(实体类型)-I的个数为j个;若xi在无格式的文本text中既没有被标记为事件类型也没有被标记为实体类型,则其对应标签yi记为O;从而得到一个完整的样本(x,y);
(4)对完整的样本(x,y)进行处理,具体包括以下步骤:针对数组x,对x进行向量化,得到x1;针对标签y,若y中元素yi不是事件类型-B或事件类型-I,则改为O,得到新的标签,记为y1;从而得到事件类型提取模型的样本(x1,y1);
(5)采用谷歌开源的BERT模型作为事件类型提取模型,并将步骤(4)中得到的样本(x1,y1)输入BERT模型中进行训练,得到训练好的事件类型提取模型,记为model_1;
(6)对标签y1中的事件进行处理;具体为:针对数组x,初始化一个事件类型矩阵Event_Embedding,该事件类型矩阵Event_Embedding每一行对应一种事件类型的向量,若数组y1的元素yi 1是事件类型-B或事件类型-I,从事件类型矩阵Event_Embedding中找到该事件类型的向量,把该向量赋值给xi 2,由此得到数组x2;针对标签y,若y中元素yi是事件类型-B或事件类型-I,则改为O,得到的新数组,记为y2;从而得到实体类型提取模型的样本([x1,x2],y2);
(7)将自注意力网络self-attention作为实体类型提取模型,将步骤(6)中得到的样本([x1,x2],y2)输入到实体类型提取模型进行训练,事件类型矩阵Event_Embedding为实体类型提取模型所需要拟合的参数,在训练过程中迭代更新,得到训练好的实体类型提取模型,记为model_2;
(8)获取未经人工标注过的待预测裁判文书的HTML并解析,然后将无格式的文本text按字切分得到数组x,使用BERT模型对数组x进行向量化,得到x1,将x1输入到model_1得到y1,根据步骤(6)对y1中的事件进行处理,得到待预测裁判文书的[x1,x2],输入到model_2中得到y2;根据y1和y2得到每个事件类型及其实体类型对应的文字。
进一步地,步骤(1)中,通过Python模块BeautifulSoup解析裁判文书的HTML,提取无格式的文本text。
进一步地,步骤(4)中,使用Google开源的BERT模型提供的Word Embedding和Position Embedding对x进行向量化。
本发明的有益效果:本发明以事件类型及其实体类型为事件结构,可以将实体及其之间的语义关系同时提取出,并且在实体类型提取模型中会利用到事件类型的语义信息,本发明以事件类型提取模型提取事件类型对应的文字,再据此生成实体类型提取模型的输入样本,为实体类型提取模型尽可能保留了整个事件的语义信息,有利于提高模型效果;相比于传统的两两实体之间预测其语义关系,本发明需要更少的样本,具有更高的效率。
附图说明
图1为模型训练流程图;
图2为模型预测流程图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1-2所示,本发明提供一种基于事件的裁判文书信息提取方法,该方法包括以下步骤:
(1)获取裁判文书的整个HTML并通过Python模块BeautifulSoup解析裁判文书的HTML,从HTML中提取无格式的文本text;
(2)对提取的无格式文本text进行标注,在每个事件的标注任务中,一个标签定义为事件类型或实体类型,若一个标签和其他标签都存在关系,则把该标签定义为事件类型,而其他标签定义为实体类型,定义裁判文书中的事件结构为:事件类型-实体类型-…-实体类型,从无格式的文本text标注出每个事件下的事件类型及其实体类型对应的文字,得到标注数据;如:
a)被告人-判决罪名-管制时间-拘役时间-有期徒刑时间-无期徒刑-死刑;其中被告人为事件类型,其他为实体类型;
b)被害人-伤害发生时间-治疗方式-死亡时间-死因;其中被害人为事件类型,其他为实体类型。
(3)将无格式的文本text按字切分,得到一个数组,记为x,xi为数组x中的第i个字;若x中的xi,xi+1,…,xi+j被标注为一个事件类型(实体类型),则其对应标签为yi,yi+1,…,yi+j,记为事件类型(实体类型)-B,事件类型(实体类型)-I,…,事件类型(实体类型)-I,事件类型(实体类型)-I的个数为j个;例如,数组中第xi,xi+1,xi+2个字被标注为“被告人”,则其对应标签yi,yi+1,…,yi+2为被告人-B,被告人-I,被告人-I;若xi在无格式的文本text中既没有被标记为事件类型也没有被标记为实体类型,则其对应标签yi记为O;从而得到一个完整的样本(x,y);
(4)对完整的样本(x,y)进行处理,具体包括以下步骤:针对数组x,使用Google开源的BERT模型提供的Word Embedding和Position Embedding对x进行向量化,得到x1;针对标签y,若y中元素yi不是事件类型-B或事件类型-I,则改为O,得到新的标签,记为y1;从而得到事件类型提取模型的样本(x1,y1);
(5)采用谷歌开源的BERT模型作为事件类型提取模型,并将步骤(4)中得到的样本(x1,y1)输入BERT模型中进行训练,得到训练好的事件类型提取模型,记为model_1;
(6)对标签y1中的事件进行处理;具体为:针对数组x,初始化一个事件类型矩阵Event_Embedding,该事件类型矩阵Event_Embedding每一行对应一种事件类型的向量,若数组y1的元素yi 1是事件类型-B或事件类型-I,从事件类型矩阵Event_Embedding中找到该事件类型的向量,把该向量赋值给xi 2,由此得到数组x2;针对标签y,若y中元素yi是事件类型-B或事件类型-I,则改为O,得到的新数组,记为y2;从而得到实体类型提取模型的样本([x1,x2],y2);若y1中有3个事件,那最终由y1生成3个实体类型提取模型的样本。
(7)将10层自注意力网络self-attention作为实体类型提取模型,将步骤(6)中得到的样本([x1,x2],y2)输入到实体类型提取模型进行训练,事件类型矩阵Event_Embedding为实体类型提取模型所需要拟合的参数,在训练过程中迭代更新,得到训练好的实体类型提取模型,记为model_2;
(8)获取未经人工标注过的待预测裁判文书的HTML并解析,然后将无格式的文本text按字切分得到数组x,使用BERT模型对数组x进行向量化,得到x1,将x1输入到model_1得到y1,根据步骤(6)对y1中的事件进行处理,得到待预测裁判文书的[x1,x2],输入到model_2中得到y2;根据y1和y2得到每个事件类型及其实体类型对应的文字。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (3)
1.一种裁判文书信息提取方法,其特征在于,该方法包括以下步骤:
(1)获取裁判文书的整个HTML并解析,从HTML中提取无格式的文本text;
(2)对提取的无格式文本text进行标注,在每个事件的标注任务中,一个标签定义为事件类型或实体类型,若一个标签和其他标签都存在关系,则把该标签定义为事件类型,而其他标签定义为实体类型,定义裁判文书中的事件结构为:事件类型-实体类型-…-实体类型,从无格式的文本text标注出每个事件下的事件类型及实体类型对应的文字,得到标注数据;
(3)将无格式的文本text按字切分,得到一个数组,记为x,xi为数组x中的第i个字;若x中的xi,xi+1,…,xi+j被标注为一个事件类型或实体类型,则其对应标签为yi,yi+1,…,yi+j,记为事件类型或实体类型-B,事件类型或实体类型-I,…,事件类型或实体类型-I,事件类型或实体类型-I的个数为j个;若xi在无格式的文本text中既没有被标记为事件类型也没有被标记为实体类型,则其对应标签yi记为O;从而得到一个完整的样本(x,y);
(4)对完整的样本(x,y)进行处理,具体包括以下步骤:针对数组x,对x进行向量化,得到x1;针对标签y,若y中元素yi不是事件类型-B也不是事件类型-I,则改为O,得到新的标签,记为y1;从而得到事件类型提取模型的样本(x1,y1);
(5)采用谷歌开源的BERT模型作为事件类型提取模型,并将步骤(4)中得到的样本(x1,y1)输入BERT模型中进行训练,得到训练好的事件类型提取模型,记为model_1;
(6)对标签y1中的事件进行处理;具体为:针对数组x,初始化一个事件类型矩阵Event_Embedding,该事件类型矩阵Event_Embedding每一行对应一种事件类型的向量,若数组y1的元素yi 1是事件类型-B或事件类型-I,从事件类型矩阵Event_Embedding中找到该事件类型的向量,把该向量赋值给xi 2,由此得到数组x2;针对标签y,若y中元素yi是事件类型-B或事件类型-I,则改为O,得到的新数组,记为y2;从而得到实体类型提取模型的样本([x1,x2],y2);
(7)将自注意力网络self-attention作为实体类型提取模型,将步骤(6)中得到的样本([x1,x2],y2)输入到实体类型提取模型进行训练,事件类型矩阵Event_Embedding为实体类型提取模型所需要拟合的参数,在训练过程中迭代更新,得到训练好的实体类型提取模型,记为model_2;
(8)获取未经人工标注过的待预测裁判文书的HTML并解析,然后将无格式的文本text按字切分得到数组x,使用BERT模型对数组x进行向量化,得到x1,将x1输入到model_1得到y1,根据步骤(6)对y1中的事件进行处理,得到待预测裁判文书的[x1,x2],输入到model_2中得到y2;根据y1和y2得到每个事件类型及实体类型对应的文字。
2.根据权利要求1所述的一种裁判文书信息提取方法,其特征在于,通过Python模块BeautifulSoup解析裁判文书的HTML,提取无格式的文本text。
3.根据权利要求1所述的一种裁判文书信息提取方法,其特征在于,步骤(4)中,使用Google开源的BERT模型提供的Word Embedding和Position Embedding对x进行向量化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910949579.9A CN110688856B (zh) | 2019-10-08 | 2019-10-08 | 一种裁判文书信息提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910949579.9A CN110688856B (zh) | 2019-10-08 | 2019-10-08 | 一种裁判文书信息提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110688856A CN110688856A (zh) | 2020-01-14 |
CN110688856B true CN110688856B (zh) | 2020-09-18 |
Family
ID=69111739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910949579.9A Active CN110688856B (zh) | 2019-10-08 | 2019-10-08 | 一种裁判文书信息提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688856B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476034B (zh) * | 2020-04-07 | 2023-05-12 | 同方赛威讯信息技术有限公司 | 基于规则和模型结合的法律文书信息抽取方法及系统 |
CN111666771B (zh) * | 2020-06-05 | 2024-03-08 | 北京百度网讯科技有限公司 | 文书的语义标签抽取、装置、电子设备及可读存储介质 |
CN116304035B (zh) * | 2023-02-28 | 2023-11-03 | 中国司法大数据研究院有限公司 | 一种复杂案件中的多被告多罪名关系抽取方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11562243B2 (en) * | 2017-11-17 | 2023-01-24 | Meta Platforms, Inc. | Machine-learning models based on non-local neural networks |
CN108764194A (zh) * | 2018-06-04 | 2018-11-06 | 科大讯飞股份有限公司 | 一种文本校验方法、装置、设备及可读存储介质 |
CN109145097A (zh) * | 2018-06-11 | 2019-01-04 | 人民法院信息技术服务中心 | 一种基于信息提取的裁判文书分类方法 |
CN110147551B (zh) * | 2019-05-14 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 多类别实体识别模型训练、实体识别方法、服务器及终端 |
-
2019
- 2019-10-08 CN CN201910949579.9A patent/CN110688856B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110688856A (zh) | 2020-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110688856B (zh) | 一种裁判文书信息提取方法 | |
CN109886270B (zh) | 一种面向电子卷宗笔录文本的案件要素识别方法 | |
AU2019219746A1 (en) | Artificial intelligence based corpus enrichment for knowledge population and query response | |
CN111191275A (zh) | 敏感数据识别方法、系统及其装置 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN110991163B (zh) | 一种文档比对分析方法、装置、电子设备及存储介质 | |
AU2018411565B2 (en) | System and methods for generating an enhanced output of relevant content to facilitate content analysis | |
CN112287197B (zh) | 动态记忆案件描述的涉案微博评论讽刺句检测方法 | |
CN114462556B (zh) | 企业关联产业链分类方法、训练方法、装置、设备和介质 | |
CN110321549B (zh) | 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法 | |
CN115186015B (zh) | 一种网络安全知识图谱构建方法及系统 | |
CN110704615A (zh) | 互联网金融非显性广告识别方法及装置 | |
CN110008473A (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN114580424A (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN112749283A (zh) | 一种面向法律领域的实体关系联合抽取方法 | |
CN109446523A (zh) | 基于BiLSTM和条件随机场的实体属性抽取模型 | |
CN114548072A (zh) | 用于合同类文件的自动内容解析与信息评测方法及系统 | |
CN114298048A (zh) | 命名实体识别方法及装置 | |
CN114356924A (zh) | 用于从结构化文档提取数据的方法和设备 | |
CN117454987A (zh) | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 | |
CN110096574B (zh) | 电商评论分类任务中数据集的建立和后续优化及扩充方案 | |
CN117131935A (zh) | 一种面向期货领域的知识图谱构建方法 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN116069946A (zh) | 一种基于深度学习的生物医学知识图谱构建方法 | |
CN115878777A (zh) | 基于少样本对比学习的司法文书指标提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 7 / F, building B, 482 Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province 310000 Patentee after: Huoshi Creation Technology Co.,Ltd. Address before: 7 / F, building B, 482 Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province 310000 Patentee before: HANGZHOU FIRESTONE TECHNOLOGY Co.,Ltd. |