CN110688856B - 一种裁判文书信息提取方法 - Google Patents

一种裁判文书信息提取方法 Download PDF

Info

Publication number
CN110688856B
CN110688856B CN201910949579.9A CN201910949579A CN110688856B CN 110688856 B CN110688856 B CN 110688856B CN 201910949579 A CN201910949579 A CN 201910949579A CN 110688856 B CN110688856 B CN 110688856B
Authority
CN
China
Prior art keywords
event
event type
type
model
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910949579.9A
Other languages
English (en)
Other versions
CN110688856A (zh
Inventor
金霞
杨红飞
程东
张庭正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huoshi Creation Technology Co ltd
Original Assignee
Hangzhou Firestone Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Firestone Technology Co ltd filed Critical Hangzhou Firestone Technology Co ltd
Priority to CN201910949579.9A priority Critical patent/CN110688856B/zh
Publication of CN110688856A publication Critical patent/CN110688856A/zh
Application granted granted Critical
Publication of CN110688856B publication Critical patent/CN110688856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种裁判文书信息提取方法,首先提取裁判文书的整个HTML的无格式文本text并进行标注,定义裁判文书中的事件结构为:事件类型‑实体类型‑…‑实体类型;将无格式的文本text按字切分,得到一个数组x,从而得到一个完整的样本(x,y);对样本(x,y)进行处理,得到事件类型提取模型的样本(x1,y1),采用BERT模型作为事件类型提取模型并进行训练;对标签y1中的事件进行处理;得到实体类型提取模型的样本([x1,x2],y2);将自注意力网络作为实体类型提取模型并进行训练;根据y1和y2得到每个事件类型及其实体类型对应的文字。本发明对样本需求小,有利于提高模型效果。

Description

一种裁判文书信息提取方法
技术领域
本发明涉及文本信息提取领域,尤其涉及一种裁判文书信息提取方法。
背景技术
裁判文书是法官在案件审理终结后,依据案件事实和法律条款,对案件实体和程序问题所做出的具有法律约束力的书面结论。裁判文书忠实地记录了案件的裁判过程,因此包含了大量的有价值信息。裁判文书虽然有一定的格式,但仍以大段文本的形式进行内容组织,对于裁判文书中的原告、被告、判决法院、判决时间等主要信息字段,是以自然行文的方式包含了在裁判文书中。如果需要更进一步挖掘和利用这些公开的裁判文书信息,就需要对案件的各个核心字段进行结构化处理,这通常由人工操作完成,常见的人工加工处理明显在成本和效率两方面都存在不足。
CN201910263217以神经网络模型对法律文书进行命名实体识别,提取法律文书中的关键信息,提出了对法律文书的命名实体识别方法,但是不能识别实体之间的语义关系,比如,裁判文书中有多个被告人和多个被告判决罪名,该方法不能确定某个被告人具体的判决罪名;CN201910145396先对非结构的文本进行TF-IDF词频统计,得到不同罪名及案由的特征集,再对实体之间的语义关系进行抽取,虽然涉及了提取实体之间语义关系的问题,但其生成候选实体的方法很依赖于语料,且两两实体之间需要配对生成样本,这在裁判文书比较长,包括较多实体的时候,会产生很多样本,效率较低。
发明内容
本发明目的在于针对现有技术的不足,提出一种裁判文书信息提取方法,不仅可以将裁判文书中的实体提取出,且以事件的形式提取实体之间的语义关系,可以避免两两实体便于判断其语义关系,减少样本量,提高效率。
本发明的目的是通过以下技术方案来实现的:一种裁判文书信息提取方法,该方法包括以下步骤:
(1)获取裁判文书的整个HTML并解析,从HTML中提取无格式的文本text;
(2)对提取的无格式文本text进行标注,在每个事件的标注任务中,一个标签定义为事件类型或实体类型,若一个标签和其他标签都存在关系,则把该标签定义为事件类型,而其他标签定义为实体类型,定义裁判文书中的事件结构为:事件类型-实体类型-…-实体类型,从无格式的文本text标注出每个事件下的事件类型及其实体类型对应的文字,得到标注数据;
(3)将无格式的文本text按字切分,得到一个数组,记为x,xi为数组x中的第i个字;若x中的xi,xi+1,…,xi+j被标注为一个事件类型(实体类型),则其对应标签为yi,yi+1,…,yi+j,记为事件类型(实体类型)-B,事件类型(实体类型)-I,…,事件类型(实体类型)-I,事件类型(实体类型)-I的个数为j个;若xi在无格式的文本text中既没有被标记为事件类型也没有被标记为实体类型,则其对应标签yi记为O;从而得到一个完整的样本(x,y);
(4)对完整的样本(x,y)进行处理,具体包括以下步骤:针对数组x,对x进行向量化,得到x1;针对标签y,若y中元素yi不是事件类型-B或事件类型-I,则改为O,得到新的标签,记为y1;从而得到事件类型提取模型的样本(x1,y1);
(5)采用谷歌开源的BERT模型作为事件类型提取模型,并将步骤(4)中得到的样本(x1,y1)输入BERT模型中进行训练,得到训练好的事件类型提取模型,记为model_1;
(6)对标签y1中的事件进行处理;具体为:针对数组x,初始化一个事件类型矩阵Event_Embedding,该事件类型矩阵Event_Embedding每一行对应一种事件类型的向量,若数组y1的元素yi 1是事件类型-B或事件类型-I,从事件类型矩阵Event_Embedding中找到该事件类型的向量,把该向量赋值给xi 2,由此得到数组x2;针对标签y,若y中元素yi是事件类型-B或事件类型-I,则改为O,得到的新数组,记为y2;从而得到实体类型提取模型的样本([x1,x2],y2);
(7)将自注意力网络self-attention作为实体类型提取模型,将步骤(6)中得到的样本([x1,x2],y2)输入到实体类型提取模型进行训练,事件类型矩阵Event_Embedding为实体类型提取模型所需要拟合的参数,在训练过程中迭代更新,得到训练好的实体类型提取模型,记为model_2;
(8)获取未经人工标注过的待预测裁判文书的HTML并解析,然后将无格式的文本text按字切分得到数组x,使用BERT模型对数组x进行向量化,得到x1,将x1输入到model_1得到y1,根据步骤(6)对y1中的事件进行处理,得到待预测裁判文书的[x1,x2],输入到model_2中得到y2;根据y1和y2得到每个事件类型及其实体类型对应的文字。
进一步地,步骤(1)中,通过Python模块BeautifulSoup解析裁判文书的HTML,提取无格式的文本text。
进一步地,步骤(4)中,使用Google开源的BERT模型提供的Word Embedding和Position Embedding对x进行向量化。
本发明的有益效果:本发明以事件类型及其实体类型为事件结构,可以将实体及其之间的语义关系同时提取出,并且在实体类型提取模型中会利用到事件类型的语义信息,本发明以事件类型提取模型提取事件类型对应的文字,再据此生成实体类型提取模型的输入样本,为实体类型提取模型尽可能保留了整个事件的语义信息,有利于提高模型效果;相比于传统的两两实体之间预测其语义关系,本发明需要更少的样本,具有更高的效率。
附图说明
图1为模型训练流程图;
图2为模型预测流程图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1-2所示,本发明提供一种基于事件的裁判文书信息提取方法,该方法包括以下步骤:
(1)获取裁判文书的整个HTML并通过Python模块BeautifulSoup解析裁判文书的HTML,从HTML中提取无格式的文本text;
(2)对提取的无格式文本text进行标注,在每个事件的标注任务中,一个标签定义为事件类型或实体类型,若一个标签和其他标签都存在关系,则把该标签定义为事件类型,而其他标签定义为实体类型,定义裁判文书中的事件结构为:事件类型-实体类型-…-实体类型,从无格式的文本text标注出每个事件下的事件类型及其实体类型对应的文字,得到标注数据;如:
a)被告人-判决罪名-管制时间-拘役时间-有期徒刑时间-无期徒刑-死刑;其中被告人为事件类型,其他为实体类型;
b)被害人-伤害发生时间-治疗方式-死亡时间-死因;其中被害人为事件类型,其他为实体类型。
(3)将无格式的文本text按字切分,得到一个数组,记为x,xi为数组x中的第i个字;若x中的xi,xi+1,…,xi+j被标注为一个事件类型(实体类型),则其对应标签为yi,yi+1,…,yi+j,记为事件类型(实体类型)-B,事件类型(实体类型)-I,…,事件类型(实体类型)-I,事件类型(实体类型)-I的个数为j个;例如,数组中第xi,xi+1,xi+2个字被标注为“被告人”,则其对应标签yi,yi+1,…,yi+2为被告人-B,被告人-I,被告人-I;若xi在无格式的文本text中既没有被标记为事件类型也没有被标记为实体类型,则其对应标签yi记为O;从而得到一个完整的样本(x,y);
(4)对完整的样本(x,y)进行处理,具体包括以下步骤:针对数组x,使用Google开源的BERT模型提供的Word Embedding和Position Embedding对x进行向量化,得到x1;针对标签y,若y中元素yi不是事件类型-B或事件类型-I,则改为O,得到新的标签,记为y1;从而得到事件类型提取模型的样本(x1,y1);
(5)采用谷歌开源的BERT模型作为事件类型提取模型,并将步骤(4)中得到的样本(x1,y1)输入BERT模型中进行训练,得到训练好的事件类型提取模型,记为model_1;
(6)对标签y1中的事件进行处理;具体为:针对数组x,初始化一个事件类型矩阵Event_Embedding,该事件类型矩阵Event_Embedding每一行对应一种事件类型的向量,若数组y1的元素yi 1是事件类型-B或事件类型-I,从事件类型矩阵Event_Embedding中找到该事件类型的向量,把该向量赋值给xi 2,由此得到数组x2;针对标签y,若y中元素yi是事件类型-B或事件类型-I,则改为O,得到的新数组,记为y2;从而得到实体类型提取模型的样本([x1,x2],y2);若y1中有3个事件,那最终由y1生成3个实体类型提取模型的样本。
(7)将10层自注意力网络self-attention作为实体类型提取模型,将步骤(6)中得到的样本([x1,x2],y2)输入到实体类型提取模型进行训练,事件类型矩阵Event_Embedding为实体类型提取模型所需要拟合的参数,在训练过程中迭代更新,得到训练好的实体类型提取模型,记为model_2;
(8)获取未经人工标注过的待预测裁判文书的HTML并解析,然后将无格式的文本text按字切分得到数组x,使用BERT模型对数组x进行向量化,得到x1,将x1输入到model_1得到y1,根据步骤(6)对y1中的事件进行处理,得到待预测裁判文书的[x1,x2],输入到model_2中得到y2;根据y1和y2得到每个事件类型及其实体类型对应的文字。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (3)

1.一种裁判文书信息提取方法,其特征在于,该方法包括以下步骤:
(1)获取裁判文书的整个HTML并解析,从HTML中提取无格式的文本text;
(2)对提取的无格式文本text进行标注,在每个事件的标注任务中,一个标签定义为事件类型或实体类型,若一个标签和其他标签都存在关系,则把该标签定义为事件类型,而其他标签定义为实体类型,定义裁判文书中的事件结构为:事件类型-实体类型-…-实体类型,从无格式的文本text标注出每个事件下的事件类型及实体类型对应的文字,得到标注数据;
(3)将无格式的文本text按字切分,得到一个数组,记为x,xi为数组x中的第i个字;若x中的xi,xi+1,…,xi+j被标注为一个事件类型或实体类型,则其对应标签为yi,yi+1,…,yi+j,记为事件类型或实体类型-B,事件类型或实体类型-I,…,事件类型或实体类型-I,事件类型或实体类型-I的个数为j个;若xi在无格式的文本text中既没有被标记为事件类型也没有被标记为实体类型,则其对应标签yi记为O;从而得到一个完整的样本(x,y);
(4)对完整的样本(x,y)进行处理,具体包括以下步骤:针对数组x,对x进行向量化,得到x1;针对标签y,若y中元素yi不是事件类型-B也不是事件类型-I,则改为O,得到新的标签,记为y1;从而得到事件类型提取模型的样本(x1,y1);
(5)采用谷歌开源的BERT模型作为事件类型提取模型,并将步骤(4)中得到的样本(x1,y1)输入BERT模型中进行训练,得到训练好的事件类型提取模型,记为model_1;
(6)对标签y1中的事件进行处理;具体为:针对数组x,初始化一个事件类型矩阵Event_Embedding,该事件类型矩阵Event_Embedding每一行对应一种事件类型的向量,若数组y1的元素yi 1是事件类型-B或事件类型-I,从事件类型矩阵Event_Embedding中找到该事件类型的向量,把该向量赋值给xi 2,由此得到数组x2;针对标签y,若y中元素yi是事件类型-B或事件类型-I,则改为O,得到的新数组,记为y2;从而得到实体类型提取模型的样本([x1,x2],y2);
(7)将自注意力网络self-attention作为实体类型提取模型,将步骤(6)中得到的样本([x1,x2],y2)输入到实体类型提取模型进行训练,事件类型矩阵Event_Embedding为实体类型提取模型所需要拟合的参数,在训练过程中迭代更新,得到训练好的实体类型提取模型,记为model_2;
(8)获取未经人工标注过的待预测裁判文书的HTML并解析,然后将无格式的文本text按字切分得到数组x,使用BERT模型对数组x进行向量化,得到x1,将x1输入到model_1得到y1,根据步骤(6)对y1中的事件进行处理,得到待预测裁判文书的[x1,x2],输入到model_2中得到y2;根据y1和y2得到每个事件类型及实体类型对应的文字。
2.根据权利要求1所述的一种裁判文书信息提取方法,其特征在于,通过Python模块BeautifulSoup解析裁判文书的HTML,提取无格式的文本text。
3.根据权利要求1所述的一种裁判文书信息提取方法,其特征在于,步骤(4)中,使用Google开源的BERT模型提供的Word Embedding和Position Embedding对x进行向量化。
CN201910949579.9A 2019-10-08 2019-10-08 一种裁判文书信息提取方法 Active CN110688856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910949579.9A CN110688856B (zh) 2019-10-08 2019-10-08 一种裁判文书信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910949579.9A CN110688856B (zh) 2019-10-08 2019-10-08 一种裁判文书信息提取方法

Publications (2)

Publication Number Publication Date
CN110688856A CN110688856A (zh) 2020-01-14
CN110688856B true CN110688856B (zh) 2020-09-18

Family

ID=69111739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910949579.9A Active CN110688856B (zh) 2019-10-08 2019-10-08 一种裁判文书信息提取方法

Country Status (1)

Country Link
CN (1) CN110688856B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476034B (zh) * 2020-04-07 2023-05-12 同方赛威讯信息技术有限公司 基于规则和模型结合的法律文书信息抽取方法及系统
CN111666771B (zh) * 2020-06-05 2024-03-08 北京百度网讯科技有限公司 文书的语义标签抽取、装置、电子设备及可读存储介质
CN116304035B (zh) * 2023-02-28 2023-11-03 中国司法大数据研究院有限公司 一种复杂案件中的多被告多罪名关系抽取方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562243B2 (en) * 2017-11-17 2023-01-24 Meta Platforms, Inc. Machine-learning models based on non-local neural networks
CN108764194A (zh) * 2018-06-04 2018-11-06 科大讯飞股份有限公司 一种文本校验方法、装置、设备及可读存储介质
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN110147551B (zh) * 2019-05-14 2023-07-11 腾讯科技(深圳)有限公司 多类别实体识别模型训练、实体识别方法、服务器及终端

Also Published As

Publication number Publication date
CN110688856A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN110688856B (zh) 一种裁判文书信息提取方法
CN109886270B (zh) 一种面向电子卷宗笔录文本的案件要素识别方法
AU2019219746A1 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
CN111191275A (zh) 敏感数据识别方法、系统及其装置
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN110991163B (zh) 一种文档比对分析方法、装置、电子设备及存储介质
AU2018411565B2 (en) System and methods for generating an enhanced output of relevant content to facilitate content analysis
CN112287197B (zh) 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN114462556B (zh) 企业关联产业链分类方法、训练方法、装置、设备和介质
CN110321549B (zh) 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法
CN115186015B (zh) 一种网络安全知识图谱构建方法及系统
CN110704615A (zh) 互联网金融非显性广告识别方法及装置
CN110008473A (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN114580424A (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN112749283A (zh) 一种面向法律领域的实体关系联合抽取方法
CN109446523A (zh) 基于BiLSTM和条件随机场的实体属性抽取模型
CN114548072A (zh) 用于合同类文件的自动内容解析与信息评测方法及系统
CN114298048A (zh) 命名实体识别方法及装置
CN114356924A (zh) 用于从结构化文档提取数据的方法和设备
CN117454987A (zh) 基于事件自动抽取的矿山事件知识图谱构建方法及装置
CN110096574B (zh) 电商评论分类任务中数据集的建立和后续优化及扩充方案
CN117131935A (zh) 一种面向期货领域的知识图谱构建方法
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN116069946A (zh) 一种基于深度学习的生物医学知识图谱构建方法
CN115878777A (zh) 基于少样本对比学习的司法文书指标提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 7 / F, building B, 482 Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province 310000

Patentee after: Huoshi Creation Technology Co.,Ltd.

Address before: 7 / F, building B, 482 Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province 310000

Patentee before: HANGZHOU FIRESTONE TECHNOLOGY Co.,Ltd.