CN110147553A - 一种基于案件要素的法律文书分析方法 - Google Patents

一种基于案件要素的法律文书分析方法 Download PDF

Info

Publication number
CN110147553A
CN110147553A CN201910433562.8A CN201910433562A CN110147553A CN 110147553 A CN110147553 A CN 110147553A CN 201910433562 A CN201910433562 A CN 201910433562A CN 110147553 A CN110147553 A CN 110147553A
Authority
CN
China
Prior art keywords
case element
legal documents
mark
case
analysis method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910433562.8A
Other languages
English (en)
Inventor
陈艳平
冯丽
秦永彬
黄瑞章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUIZHOU CLOUD PIONEER TECH Co.,Ltd.
Guizhou University
Original Assignee
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University filed Critical Guizhou University
Priority to CN201910433562.8A priority Critical patent/CN110147553A/zh
Publication of CN110147553A publication Critical patent/CN110147553A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于案件要素的法律文书分析方法,它包括如下步骤:一、利用机器学习算法从法律文书中抽取案情描述信息,并按照案件要素标注的优先级对案情描述进行标注;二、数据预处理:将步骤一中所标注的案件要素进行识别;三、基于深度神经网络的案件要素识别:将标注的文档数据作为标注模型的原始输入,实现端到端的案件要素识别。通过对法律文书进行扁平化关联案件要素的标注,将标注的文档数据以句子为单位处理为经典的“BIO”序列标注格式,采用相关的序列标注模型识别文档中的案件要素。案件要素识别有利于法律文本的结构化表示,支撑法律文书的融合分析等应用研究,为法律文书的信息检索、自动审阅等实践应用白来巨大便利。

Description

一种基于案件要素的法律文书分析方法
技术领域
本发明涉及一种法律文书,尤其涉及一种基于案件要素的法律文书分析方法,属于自然语言处理技术领域。
背景技术
2018年,智慧法院3.0版进入全面建设、深化完善阶段,各级法院都在积极推动互联网、物联网、大数据、人工智能与法院工作的深度融合。人工智能快速地改造着司法领域,推动司法领域的智能化实践。法院在长期的司法实践过程中,积累了大量的法律文书,这些法律文书中蕴含着巨大的价值,而有效利用具有典型特点的法律文书单靠传统的人工手段是极其困难的。利用人工智能可对法律文书进行处理,如庭审语音转文字,判决书或起诉书的自动生成等,在很大程度上为司法实践应用带来了巨大便利。由于“智慧法院”建设所涉及到数据来源广泛、结构复杂、动态实时,法院数据具有鲜明的领域性和专业性,数据特征隐藏较深,导致数据挖掘分析性能较差。调研发现法律文书中的案情描述对法条推荐、审判结果有着显著影响,因此本发明的研究点面向法律文书中案情描述内容。传统方法采用树形结构(语法树或者依赖树)表示句子结构,树形结构虽然能够很好地表示句子中语义角色之间的关系,但是树形结构中的嵌套标注增加了对语料库进行注释的负担,并造成了句子解析的歧义。识别句子中的关键要素,传统使用的方法是句法解析,但是句法解析需要分析整个句子的结构,依赖分词、词性标注等自然语言处理技术,因此,识别难度大,性能相对较低。
发明内容
本发明要解决的技术问题是:提供一种基于案件要素的法律文书分析方法,通过对半结构化法律文书进行扁平化关联案件要素的标注,然后,将标注的文档数据以句子为单位处理为经典的“BIO”序列标注格式,采用相关的序列标注模型识别文档中的案件要素。案件要素的识别有利于法律文本的结构化表示,支撑法律文书的融合分析等应用研究,为法律文书的信息检索、自动审阅等实践应用白来巨大便利,有效的解决了上述存在的问题。
本发明的技术方案为:一种基于案件要素的法律文书分析方法,所述方法包括如下步骤:一、利用机器学习法从法律文书中抽取案情描述信息,并按照案件要素标注的优先级对案情描述进行标注;二、数据预处理:将步骤一中所标注的案件要素进行识别;三、基于深度神经网络的案件要素识别:将标注的文档数据作为标注模型的原始输入,实现端到端的案件要素识别。
所述步骤一中,案件要素包括:行为要素、行为主体、行为客体、时间、地点、方式、行为结果。行为要素用字母ACT表示,在中文句子的表达中,一个句子不止一个动词,但是只有一个行为词推动案件的发展。行为主体要素用字母SUB表示,是行为动作的执行者。行为客体要素用OBJ表示,是行为动作的作用对象或受体。时间要素用字母TEM表示,是行为动作发生的时间,在这里可以指时间点或者时间段。地点要素用字母LOC表示,是行为动作发生的地点。方式要素用字母MAN表示,是行为动作的实施途径、方法或者使用工具。行为结果要素用字母RAI表示,是行为动作的发展趋势、状态、目的等补充成分。
所述步骤一中,数据标注的优先级为:行为要素>行为主体/行为客体>时间/地点>方式/结果。分号中的案件要素表示平级的。行为要素是法律文书中最重要的要素,根据犯罪行为词的读取,可看出案件的发展趋势,所以它在优先级里是最高的。
所述步骤二中,数据预处理时采用经典的序列标注方式“BIO”与案件要素类型相结合的原则。
所述步骤三中,采用深度神经网络模型对半结构化法律文书中的事实描述部分进行案件要素识别。
本发明的有益效果是:与现有技术相比,采用本发明的技术方案,从句子顶层结构角度出发,采用扁平化标注策略对法律文书中的谓语及其关联的案件要素进行相关参数的标注工作。扁平化标注策略不考虑嵌套标注,因此,可避免传统语法树因嵌套标注在句法解析过程中分解粒度歧义,有利于提高案件要素识别性能。本发明基于神经网络结合序列标注模型CRF对案件要素进行识别,在深度神经网络中可自动抽取句子的结构信息和语义信息,实现端到端的案件要素识别,避免传统序列识别任务中的人工选取特征问题,取得了很好的使用效果。
附图说明
图1为本发明的案件要素识别模型。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将参照本说明书附图对本发明作进一步的详细描述。
实施例1:如附图1所示,一种基于案件要素的法律文书分析方法,所述方法包括如下步骤:一、利用深度学习算法从法律文书中抽取案情描述信息,并按照案件要素标注的优先级对案情描述进行标注;二、数据预处理:将步骤一中所标注的案件要素进行识别;三、基于深度神经网络的案件要素识别:将标注的文档数据作为标注模型的原始输入,实现端到端的案件要素识别。
在步骤一中,案件要素包括:行为要素、行为主体、行为客体、时间、地点、方式、行为结果。行为要素用字母ACT表示,在中文句子的表达中,一个句子不止一个动词,但是只有一个行为词推动案件的发展。行为主体要素用字母SUB表示,是行为动作的执行者。行为客体要素用OBJ表示,是行为动作的作用对象或受体。时间要素用字母TEM表示,是行为动作发生的时间,在这里可以指时间点或者时间段。地点要素用字母LOC表示,是行为动作发生的地点。方式要素用字母MAN表示,是行为动作的实施途径、方法或者使用工具。行为结果要素用字母RAI表示,是行为动作的发展趋势、状态、目的等补充成分。
在步骤一中,数据标注的优先级为:行为要素>行为主体/行为客体>时间/地点>方式/结果。分号中的案件要素表示平级的。行为要素是法律文书中最重要的要素,根据犯罪行为词的读取,可看出案件的发展趋势,所以它在优先级里是最高的。
在步骤二中,数据预处理时采用经典的序列标注方式“BIO”与案件要素类型相结合的原则。
在步骤三中,深度神经网络模型采用Bi-LSTM-attention-CRF网络模型对半结构化法律文书中的事实描述部分进行案件要素识别。
下面将结合附图和示例对本发明做进一步描述。
第一步,利用Python代码从法律文书中抽取案情描述信息,并按照案件要素标注的优先级对案情描述进行标注。
第二步,数据预处理。案件要素识别是一个序列标注任务,所以数据预处理时采用经典的序列标注方式“BIO”与本发明中的案件要素类型形结合。例如:“SUB_B”表示犯罪主体的开始,“SUB_I”表示犯罪主体的连续部分,“O”表示不在这7个要数之中,也就是未标注数据。
第三步,基于深度神经网络的案件要素识别。在本实施示例中采用Bi-LSTM-attention-CRF网络模型对半结构化法律文书中的事实描述部分进行案件要素识别,支撑法律文书的融合分析等应用研究。以句子为单位作为模型的原始输入。在图1中,数据从定向上传输,文本数据在embedding层经过预训练的查找表映射成向量表示。然后进入Bi-LSTM层,Bi-LSTM层可获取每个字长距离的上下文特征。然后引入attention机制对Bi-LSTM输出中的抽象语义特征进行选取。最后,利用CRF层对输出标签的路径进行约束,计算出全局最优的标注序列,实现案件要素的识别。
Bi-LSTM是双向LSTM结合而成,其优势在于可以同时捕捉两个方向的长距离信息,因此在序列标注模型中有较好的表现。Bi-LSTM层的输出:
本发明在Bi-LSTM层之后加入了attention机制。attention的优点在于对输入句子的每个字都会与整个句子的其他字进行一次相似度计算,这样的目的是学习句子内部的字依赖关系,捕获句子的内部结构信息,突出特定字词对整个句子的重要程度。如图1所示,表示第t个目标字与第j个输入字的相似度,的数值越大,表示在生成第t个目标字时受到第j输入字的影响越大。定义一个全局变量ut为第t个目标字与Bi-LSTM层输出向量ht的编码权重之和,ut的计算方式为:
将ut与Bi-LSTM的输出ht合并为一个新向量[ut,ht]经过一个tanh函数作为attention层的输出,即:
zt=tanh(wu[ut;ht])
在CRF层中,对于一个给定的输入序列x=(x1,x2,…,xt),求出条件最大的输出序列y=(y1,y2,…,yt),该输出序列的评分函数定义出下:
其中表示标签yi转移到yi+1的概率,P是Bi-LSTM的计算得分矩阵,表示字wi标注yi的权重。最后得到标注路径的概率:
其中yx表示输入序列x所有可能的标注路径。从公式上可以看出,CRF实质上是从输入序列到输出序列的概率映射关系。在预测过程中,使用动态规划的Viterbi算法来获得最大分数的输出序列:
本发明采用扁平化标注策略,从句子顶层结构角度标注法律文书中的谓语及其关联的案件要素,扁平化标注策略不考虑嵌套标注,可避免嵌套引起的在分解粒度上导致的歧义。
本发明未详述之处,均为本技术领域技术人员的公知技术。最后说明的是,以上实施例所采用的Bi-LSTM-attention-CRF模型仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种基于案件要素的法律文书分析方法,其特征在于:所述方法包括如下步骤:一、利用机器学习算法从法律文书中抽取案情描述信息,并按照案件要素标注的优先级对案情描述进行标注;二、数据预处理:将步骤一中所标注的案件要素进行识别;三、基于深度神经网络的案件要素识别:将标注的文档数据作为标注模型的原始输入,实现端到端的案件要素识别。
2.根据权利要求1所述的基于案件要素的法律文书分析方法,其特征在于:所述步骤一中,案件要素包括:行为要素、行为主体、行为客体、时间、地点、方式、行为结果。
3.根据权利要求1所述的基于案件要素的法律文书分析方法,其特征在于:所述步骤一中,数据标注的优先级为:行为要素>行为主体/行为客体>时间/地点>方式/结果。
4.根据权利要求1所述的基于案件要素的法律文书分析方法,其特征在于:所述步骤二中,数据预处理时采用经典的序列标注方式“BIO”与案件要素类型相结合的原则。
5.根据权利要求1所述的基于案件要素的法律文书分析方法,其特征在于:所述步骤三中,采用深度神经网络模型对半结构化法律文书中的事实描述部分进行案件要素识别。
CN201910433562.8A 2019-05-23 2019-05-23 一种基于案件要素的法律文书分析方法 Pending CN110147553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910433562.8A CN110147553A (zh) 2019-05-23 2019-05-23 一种基于案件要素的法律文书分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910433562.8A CN110147553A (zh) 2019-05-23 2019-05-23 一种基于案件要素的法律文书分析方法

Publications (1)

Publication Number Publication Date
CN110147553A true CN110147553A (zh) 2019-08-20

Family

ID=67592863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910433562.8A Pending CN110147553A (zh) 2019-05-23 2019-05-23 一种基于案件要素的法律文书分析方法

Country Status (1)

Country Link
CN (1) CN110147553A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826316A (zh) * 2019-11-06 2020-02-21 北京交通大学 一种应用于裁判文书中敏感信息的识别方法
CN110889786A (zh) * 2019-12-02 2020-03-17 北明软件有限公司 一种基于lstm技术的法律诉讼被告人保全用审判服务方法
CN111382333A (zh) * 2020-03-11 2020-07-07 昆明理工大学 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
CN112307176A (zh) * 2020-03-09 2021-02-02 北京字节跳动网络技术有限公司 一种引导用户写作的方法和装置
CN112925877A (zh) * 2019-12-06 2021-06-08 中国科学院软件研究所 一种基于深度度量学习的一人多案关联识别方法及系统
CN113177124A (zh) * 2021-05-11 2021-07-27 北京邮电大学 一种垂直领域知识图谱构建方法及系统
CN113553385A (zh) * 2021-07-08 2021-10-26 北京计算机技术及应用研究所 一种司法文书中法律要素的关系抽取方法
CN114662828A (zh) * 2021-08-09 2022-06-24 太极计算机股份有限公司 一种电子卷宗跨组织协同流程要素解析的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782897A (zh) * 2010-03-17 2010-07-21 上海大学 基于事件的中文语料标注方法
CN107894981A (zh) * 2017-12-13 2018-04-10 武汉烽火普天信息技术有限公司 一种案件语义要素的自动抽取方法
WO2018185455A1 (en) * 2017-04-03 2018-10-11 Edinburgh Napier University Method for reducing false-positives for identification of digital content
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN109344187A (zh) * 2018-08-28 2019-02-15 合肥工业大学 一种司法判决书案情信息结构化处理系统
CN109684628A (zh) * 2018-11-23 2019-04-26 武汉烽火众智数字技术有限责任公司 基于案情语义分析的案件智能推送方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782897A (zh) * 2010-03-17 2010-07-21 上海大学 基于事件的中文语料标注方法
WO2018185455A1 (en) * 2017-04-03 2018-10-11 Edinburgh Napier University Method for reducing false-positives for identification of digital content
CN107894981A (zh) * 2017-12-13 2018-04-10 武汉烽火普天信息技术有限公司 一种案件语义要素的自动抽取方法
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN109344187A (zh) * 2018-08-28 2019-02-15 合肥工业大学 一种司法判决书案情信息结构化处理系统
CN109684628A (zh) * 2018-11-23 2019-04-26 武汉烽火众智数字技术有限责任公司 基于案情语义分析的案件智能推送方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘晨玥等: "基于罪名相关成分标注的刑事裁判文书概要信息提取", 《山东科技大学学报(自然科学版)》 *
张亚军等: "《第四届汉语中介语语料库建设与应用国际学术讨论会论文选集》", 30 November 2018, 北京:世界图书出版有限公司北京分公司 *
朱淑琴等: "基于句本位图解树库的汉语句式实例获取", 《中文信息学报》 *
殷复莲等: "殷复莲等", 《电视技术》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826316A (zh) * 2019-11-06 2020-02-21 北京交通大学 一种应用于裁判文书中敏感信息的识别方法
CN110826316B (zh) * 2019-11-06 2021-08-10 北京交通大学 一种应用于裁判文书中敏感信息的识别方法
CN110889786A (zh) * 2019-12-02 2020-03-17 北明软件有限公司 一种基于lstm技术的法律诉讼被告人保全用审判服务方法
CN112925877A (zh) * 2019-12-06 2021-06-08 中国科学院软件研究所 一种基于深度度量学习的一人多案关联识别方法及系统
CN112925877B (zh) * 2019-12-06 2023-07-07 中国科学院软件研究所 一种基于深度度量学习的一人多案关联识别方法及系统
CN112307176A (zh) * 2020-03-09 2021-02-02 北京字节跳动网络技术有限公司 一种引导用户写作的方法和装置
CN111382333A (zh) * 2020-03-11 2020-07-07 昆明理工大学 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
CN111382333B (zh) * 2020-03-11 2022-06-21 昆明理工大学 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
CN113177124A (zh) * 2021-05-11 2021-07-27 北京邮电大学 一种垂直领域知识图谱构建方法及系统
CN113553385A (zh) * 2021-07-08 2021-10-26 北京计算机技术及应用研究所 一种司法文书中法律要素的关系抽取方法
CN113553385B (zh) * 2021-07-08 2023-08-25 北京计算机技术及应用研究所 一种司法文书中法律要素的关系抽取方法
CN114662828A (zh) * 2021-08-09 2022-06-24 太极计算机股份有限公司 一种电子卷宗跨组织协同流程要素解析的方法

Similar Documents

Publication Publication Date Title
CN110147553A (zh) 一种基于案件要素的法律文书分析方法
CN112989005B (zh) 一种基于分阶段查询的知识图谱常识问答方法及系统
CN103440287B (zh) 一种基于产品信息结构化的Web问答检索系统
CN110737763A (zh) 一种融合知识图谱和深度学习的中文智能问答系统及方法
CN108829719A (zh) 一种非事实类问答答案选择方法及系统
CN112487812B (zh) 一种基于边界识别的嵌套实体识别方法及系统
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN110147451B (zh) 一种基于知识图谱的对话命令理解方法
CN109992669B (zh) 一种基于语言模型和强化学习的关键词问答方法
CN111402092B (zh) 一种基于多层次语义解析的法律法规检索系统
CN100405362C (zh) 一种汉语口语解析方法及装置
CN110879834B (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及系统
CN112328773A (zh) 基于知识图谱的问答实现方法和系统
CN117010387A (zh) 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统
CN113590779B (zh) 一种空管领域知识图谱的智能问答系统构建方法
CN114969269A (zh) 基于实体识别和关系抽取的虚假新闻检测方法及系统
CN113901228B (zh) 融合领域知识图谱的跨境民族文本分类方法及装置
CN117236338B (zh) 一种稠密实体文本的命名实体识别模型及其训练方法
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN108595413A (zh) 一种基于语义依存树的答案抽取方法
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
CN116340507A (zh) 一种基于混合权重和双通道图卷积的方面级情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200923

Address after: 550025 Huaxi North Campus science and Technology Department of Huaxi District, Huaxi District, Guiyang, Guizhou

Applicant after: Guizhou University

Applicant after: Higher people's Court of Guizhou Province

Applicant after: GUIZHOU CLOUD PIONEER TECH Co.,Ltd.

Address before: 550025 Huaxi North Campus science and Technology Department of Huaxi District, Huaxi District, Guiyang, Guizhou

Applicant before: Guizhou University

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20190820

RJ01 Rejection of invention patent application after publication