CN113553385B - 一种司法文书中法律要素的关系抽取方法 - Google Patents
一种司法文书中法律要素的关系抽取方法 Download PDFInfo
- Publication number
- CN113553385B CN113553385B CN202110770848.2A CN202110770848A CN113553385B CN 113553385 B CN113553385 B CN 113553385B CN 202110770848 A CN202110770848 A CN 202110770848A CN 113553385 B CN113553385 B CN 113553385B
- Authority
- CN
- China
- Prior art keywords
- entity
- judicial
- legal
- neural network
- legal elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 26
- 230000007246 mechanism Effects 0.000 claims abstract description 43
- 238000003062 neural network model Methods 0.000 claims abstract description 29
- 238000003058 natural language processing Methods 0.000 claims abstract description 8
- 238000002372 labelling Methods 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 25
- 230000002457 bidirectional effect Effects 0.000 claims description 19
- 238000007477 logistic regression Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000007670 refining Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种司法文书中法律要素的关系抽取方法,属于自然语言处理领域。本发明对司法文书进行数据清洗;将清洗过的司法文书根据各类型文书的规则机制进行段落划分;利用“三位标注”的标注方式对法律要素的实体及实体主客体的关系进行标注;使用标注的数据作为深度神经网络模型的原始输入,完成法律要素的实体及实体间关系的识别及抽取。本发明有效避免因传统句法树导致的结构嵌套以及实体关系重叠,有利于提高案件要素实体的识别性能。本发明实现了案件要素的实体识别及关系抽取,取得了良好的使用效果。
Description
技术领域
本发明属于自然语言处理及自然语言理解技术领域,具体涉及一种司法文书中法律要素的关系抽取方法。
背景技术
自2016年“智慧法院”的提出到2018年“智慧法院”的全面建设,最高检察院及各级检察院方面都在依靠互联网、大数据、人工智能等技术积极推动“智慧”司法的进程,务求通过以高度信息化的方式支持审判、司法管理等,同时以一种智慧化的方式全方位的服务各级检察院组织。
各级检察院在长期的司法实践以及应用过程中累积了体量非常庞大的司法文书,比如判决书、逮捕书等;不同的司法文书中蕴含着非常有价值的信息,这些信息对于我国司法建设有着极其重要的作用。有效的利用这些司法文书单靠传统的人工方式是远远不够的,不仅效率低下,收益低而且还会耗费大量的人力。因此在不断信息化的今天,可以利用人工智能、大数据等技术对这些司法文书进行结构化的处理,例如智能量刑、智慧语音法庭(语音转文字)、司法文书自动生成、法律知识智慧问答等。面对庞大的司法文书集,要想从每篇文书当中获得各个法律要素的实体以及实体之间的关系是一件困难的事情,传统的方式是利用规则的方式摘取主要信息段落或者句子,然后利用机器学习的方式进行实体标注,同时结合句法分析的方式,但是句法分析需要分析整个句子的结构,同时还需要依赖分词以及词性标注等自然语言处理技术,因此识别难度大、效率低下、准确率低等。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种司法文书中法律要素的关系抽取方法,以解决现有的司法文书识别方法识别难度大、效率低下、准确率低等问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种司法文书中法律要素的关系抽取方法,该方法包括如下步骤:
S1、利用自然语言处理技术对司法文书进行数据清洗;
S2、将清洗过的司法文书根据各类型文书的规则机制进行段落划分;
S3、利用“三位标注”的标注方式对法律要素的实体及实体主客体的关系进行标注;
S4、使用“三位标注”标注的数据作为深度神经网络模型的原始输入,完成法律要素的实体及实体间关系的识别及抽取。
进一步地,所述步骤S1中数据清洗是指司法文书的噪声去除,包括空格、空行、编码、全半角和停用词。
进一步地,所述步骤S2中段落划分后,司法文书被分解为案件基础信息、诉讼信息、基本案情、审判认定信息、判决信息和结尾阶段。
进一步地,所述步骤S3包括将划分后的六大部分通过相关规则细化切分成语句或者短段落;抽取相关段落或者关键句子进行数据标注处理。
进一步地,“三位标注”的标注方式包括:实体主体开头“B-SUB”、实体主体内部“I-SUB”、实体客体开头“B-OBJ”、实体客体内部“I-OBJ”和非实体类型“O”。
进一步地,所述步骤S4中的深度神经网络模型是双向注意力机制编码深度神经网络模型。
进一步地,所述步骤6具体包括:法律要素的实体识别任务在双向注意力机制编码深度神经网络模型的输出端叠加条件随机场层,法律要素实体关系的识别任务是在双向注意力机制编码深度神经网络模型的输出端进行多分类逻辑回归,并对其进行联合学习。
进一步地,所述双向注意力机制编码深度神经网络模型将输入序列转换成输出序列,该输出序列的每一个位置的输出可对应输入序列的每一个位置的输入。
进一步地,条件随机场层对输出标签的路径进行约束,排除不符合序列标注顺序的结果,实现案件要素的识别。
进一步地,法律要素实体关系的识别任务进一步包括在双向注意力机制编码深度神经网络模型的输出端叠加全连接层后进行多分类逻辑回归,求得每个关系类别的最大概率。
(三)有益效果
本发明提出一种司法文书中法律要素的关系抽取方法,不论是之前的句法分析、词性分析等机器学习技术还是现有循环神经网络都无法从深层次的语义方面出发完成实体间关系的理解并识别标示。本发明从句子或者段落的整体语义及句子整体顶层结构出发,采用扁平化的“三位标注”策略,对句子的主客体实体以及实体对之间的关系进行标注,该方法可以有效的避免因传统句法树导致的结构嵌套以及实体关系重叠,有利于提高案件要素实体的识别性能。本发明基于双向注意力机制的神经网络词向量训练方式,深层次的强化句子语义,并结合条件随机场的序列标注方式对案件要素进行实体识别,通过深层次的语义挖掘及序列标注结合,实现案件要素的实体识别及关系抽取,取得了良好的使用效果。
附图说明
图1为本发明司法文书中法律要素的关系抽取方法的流程图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明涉及一种司法文书中法律要素的关系抽取方法,它包括以下步骤:一、利用自然语言处理的技术手段完成对司法文书的清洗;二、依据不同的司法文书类型选择不同的规则处理机制,基于规则(司法文书自身固有格式)的方法完成文书的段落划分;三、通过对司法文书段落(包含单独句子)进行扁平化法律要素(包含实体、关系等)的标注,标注采用“三位标注”方式完成句子级别的法律要素标注;四、基于双向注意力机制编码深度神经网络的案件要素识别及关系抽取,将标注的实体及实体对应的主客体标注数据作为模型的原始输入,实现法律文书中法律要素的实体识别及关系抽取模型训练并完成预测抽取。司法文书中法律要素的识别及各法律要素之间的关系识别有利于法律文书的结构化存储,为后期智能化法律办公提供依据,同时为法律文书的智能化检索、审查等应用提供便捷,提高办公效率。
本发明的司法文书中法律要素的关系抽取方法,该方法所包括步骤如下:一、司法文书中可能夹杂一些噪声项,首先利用自然语言处理机制完成司法文书的清洗去噪;二、根据不同的司法文书类型,选择各类型文书的规则处理机制,完成司法文书的段落划分;三、扁平化处理实体及实体间的关系标注,对数据(句子或段落)采用“三位标注”的方式完成主客体及关系的标注;四、将标注数据作为输入,采用双向注意力机制编码深度神经网络的方式实现实体及实体关系的训练和识别。
进一步地,所述步骤一中噪声去除包括空格、空行、编码、全半角、停用词等处理手段。
进一步地,所述步骤二中主要根据各类型文书的规则处理机制对司法文书进行切分,分解为案件基础信息、诉讼信息、基本案情、审判认定信息、判决信息等阶段。
进一步地,所述步骤三中采用“三位标注”的方式完成对法律要素的实体及实体主客体的关系标注,包括:“B-SUB”(实体主体开头)、“I-SUB”(实体主体内部)、“B-OBJ”(实体客体开头)、“I-OBJ”(实体客体内部)、“O”(非实体类型)。
进一步地,所述步骤四中使用“三位标注”的数据作为关系抽取方法的输入,完成法律要素的实体及实体间关系的识别及抽取。
本发明要解决的技术问题是:提供一种司法文书中法律要素的关系抽取方法,主要将非结构化的司法文书通过规则的方式进行段落、句子划分,扁平化式的采用“三位标注”方式完成实体及关系的标注,通过双向注意力机制编码深度神经网络的手段完成法律要素的实体识别和关系识别,整个过程目的在于司法文书的结构化及标准化存储,为后期智能化法律办公提供依据,同时为法律文书的智能化检索、审查等应用提供便捷,提高办公效率。
本发明的技术方案为:一种基于案件要素的法律要素关系抽取方法,所述方法包括如下步骤:
S1、利用自然语言处理技术对司法文书进行数据清洗;
S2、将清洗过的司法文书根据各类型文书的规则机制进行段落(句子)划分;
S3、利用“三位标注”的标注方式对段落(句子)完成标注,包括实体、实体关系等;
S4、将标注后的实体及实体关系数据作为双向注意力机制编码深度神经网络模型的原始输入,实现管道式的实体识别及关系识别抽取。
所述步骤S1:数据的清洗是指司法文书的噪声去除,主要包括空格、空行、编码、全半角、停用词等。
所述步骤S2:根据各类型文书的规则机制对司法文书进行切分,分解为案件基础信息、诉讼信息、基本案情、审判认定信息、判决信息等阶段。
所述步骤S3:采用“三位标注”的方式对法律要素的实体及实体主客体的关系标注。
所述步骤S4:使用步骤S3中采用“三位标注”标注的数据作为深度神经网络模型的原始输入,完成法律要素的实体及实体间关系的识别及抽取。
图1所示为一种司法文书中法律要素的关系抽取方法,该方法主要实施包含以下步骤:
步骤S1:司法文书内容清洗(去噪)
司法文书中包含着许多的空格、空行等,同时还夹杂着许多类似噪声、全半角等词等对司法文书产生影响的信息,对其加以清洗。
步骤S2:根据各类型文书的规则机制完成对司法文书的段落划分
对待不同类型的司法文书选用不同的规则机制去处理,司法文书(判决文书)包含基础信息(包括原被告姓名、身份证号、地址、原被告委托代理人等)、诉讼信息(案件发生的过程、结果、诉讼缘由等)、基本案情(包括原告诉称、被告辨称、提供证据等)、审判认定信息(包括审理查明、本院认为等)、判决信息、结尾(包括审判人员、时间等)。划分阶段采用基于规则的方式完成文书段落划分。
步骤S3:采用“三位标注”的方式对法律要素的实体及实体主客体的关系标注
深度神经网络的学习方式首先需要对数据进行标注,本发明对法律要素的实体以及实体间的关系采用经典“三位标注”模式,使用类似“B-SUB”、“I-SUB”、“B-OBJ”、“I-OBJ”、“O”的方式完成标注。
步骤S4:使用“三位标注”标注的数据作为深度神经网络模型的原始输入,完成法律要素的实体及实体间关系的识别及抽取
本发明一种基于深度神经网络的法律要素及关系抽取方法,采用结合条件随机场的双向注意力机制编码深度神经网络模型对司法文书中的法律要素实体及实体间关系进行预测识别。
下面结合具体示例及附图对本发明流程作进一步说明:
第一步:判断文书及罪名类型,并通过相关程序对文书进行去噪及切分。
第二步:将划分后的六大部分通过相关规则细化切分成语句或者短段落;抽取相关段落或者关键句子进行数据标注处理。案件要素识别是一个序列标注问题,采用经典的“三位标注”模式,案件要素实体关系识别系分类问题。如:B-SUB表示案件犯罪主体的开始,I-SUB表示案件犯罪主体的内部;B-OBJ表示案件犯罪客体的开始,I-OBJ表示案件犯罪客体的内部,O表示非案件犯罪实体,同时在每一个句子或者段落标注对应关系。
第三步:基于双向注意力机制编码深度神经网络的法律要素实体识别及关系抽取。本发明法律要素的实体识别任务在双向注意力机制编码深度神经网络模型的输出端叠加条件随机场层,法律要素实体关系的识别任务是在双向注意力机制编码深度神经网络模型的输出端进行多分类逻辑回归,并对其进行联合学习。
从图中可以看到结合条件随机场的双向注意力机制编码深度神经网络模型的输入是以单字为细粒度的形式。主要使用了双向注意力机制编码作为算法的主要框架,同时使用了独有的掩码机制以及“后句”预测的多任务训练,可以有效的捕获语句的语义。
双向注意力机制编码深度神经网络模型可将输入序列转换成输出序列,该输出序列的每一个位置的输出可对应输入序列的每一个位置的输入。如:输入是司法文书中的某一个关键句子所对应各单字的序列,则输出便是每个单字是否是实体。
该深度神经网络包括编码器神经网络和解码器神经网络。编码器和解码器均为基于注意力机制的,并且输入是利用已学习的词嵌入将单字转化为多维向量。解码器是通过线性变换、多分类逻辑回归模型或其他网络将解码的输出转化为一个预测下一个单字的概率。
此外,为使用序列中单字的前后次序信息,需将单字的相对位置及绝对位置以编码的形式添加到双向注意力机制编码深度神经网络模型中去,即“位置编码”,使用时将“位置编码”和词嵌入编码直接相加(“位置编码”和词嵌入维度相同),本发明中位置编码使用正弦和余弦函数加以编码,具体如下:
其中pos为位置,i表示位置编码的维度信息,dmod代表词嵌入维度。
最后,注意力机制函数可以看作一个查询向量和一系列键值、价值向量映射为一个输出向量的过程,且输出是由带权重的值向量叠加的,而该权重是通过查询向量和相应键值、价值向量通过一个函数计算而来,并形成矩阵,计算函数如下:Q、K、V分别表示双向注意力机制编码深度神经网络的查询矩阵、键值矩阵、价值矩阵,KT表示键值矩阵的转置矩阵,dk表示键值向量k的向量维度。
法律要素的实体识别任务在双向注意力机制编码深度神经网络模型的输出端叠加条件随机场层,使用条件随机场是因为双向注意力机制编码深度神经网络模型输出对于实体序列起不到约束的作用,利用条件随机场层对输出标签的路径进行约束,可以排除不符合序列标注顺序的结果(例如将I-SUB、B-SUB这样的标注结果剔除,因为案件犯罪主体的内部不会出现在案件犯罪主体的开始之前),实现案件要素的识别。条件随机场层中,对于一个给定的输入序列x=(x1,x2,x3…,xn),(即双向注意力机制编码深度神经网络模型的输出序列)需最大化输出序列,该输出序列y=(y1,y2,y3…,yn)的评价函数如下所示:
其中表示转移概率,即序列中标签间状态的转移概率,P表示标注权重,即当前模型输出标注的最大概率。
法律要素实体关系的识别任务是在双向注意力机制编码深度神经网络模型的输出端叠加全连接层后进行多分类逻辑回归,求得每个关系类别的最大概率。
假设我们有一个序列数组X,Xi标示第i个元素,那么该元素的概率值为:
本发明是一种基于双向注意力机制编码深度神经网络模型的法律要素实体及实体关系抽取,旨在将非结构化的司法文书通过实体及关系抽取进行识别和法律要素关系的识别,并结构化存储,为后期智能化的司法提供可靠的依据。同时为法律文书的智能化检索、审查等应用提供便捷,提高办公效率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (8)
1.一种司法文书中法律要素的关系抽取方法,其特征在于,该方法包括如下步骤:
S1、利用自然语言处理技术对司法文书进行数据清洗;
S2、将清洗过的司法文书根据各类型文书的规则机制进行段落划分;
S3、利用“三位标注”的标注方式对法律要素的实体及实体主客体的关系进行标注;
S4、使用“三位标注”标注的数据作为深度神经网络模型的原始输入,完成法律要素的实体及实体间关系的识别及抽取;
其中,
所述步骤S4中的深度神经网络模型是双向注意力机制编码深度神经网络模型;
所述步骤S4具体包括:法律要素的实体识别任务在双向注意力机制编码深度神经网络模型的输出端叠加条件随机场层,法律要素实体关系的识别任务是在双向注意力机制编码深度神经网络模型的输出端进行多分类逻辑回归,并对其进行联合学习。
2.如权利要求1所述的司法文书中法律要素的关系抽取方法,其特征在于,所述步骤S1中数据清洗是指司法文书的噪声去除,包括空格、空行、编码、全半角和停用词。
3.如权利要求1所述的司法文书中法律要素的关系抽取方法,其特征在于,所述步骤S2中段落划分后,司法文书被分解为案件基础信息、诉讼信息、基本案情、审判认定信息、判决信息和结尾阶段。
4.如权利要求3所述的司法文书中法律要素的关系抽取方法,其特征在于,所述步骤S3包括将划分后的六大部分通过相关规则细化切分成语句或者短段落;抽取相关段落或者关键句子进行数据标注处理。
5.如权利要求4所述的司法文书中法律要素的关系抽取方法,其特征在于,“三位标注”的标注方式包括:实体主体开头“B-SUB”、实体主体内部“I-SUB”、实体客体开头“B-OBJ”、实体客体内部“I-OBJ”和非实体类型“O”。
6.如权利要求1所述的司法文书中法律要素的关系抽取方法,其特征在于,所述双向注意力机制编码深度神经网络模型将输入序列转换成输出序列,该输出序列的每一个位置的输出可对应输入序列的每一个位置的输入。
7.如权利要求6所述的司法文书中法律要素的关系抽取方法,其特征在于,条件随机场层对输出标签的路径进行约束,排除不符合序列标注顺序的结果,实现案件要素的识别。
8.如权利要求6所述的司法文书中法律要素的关系抽取方法,其特征在于,法律要素实体关系的识别任务进一步包括在双向注意力机制编码深度神经网络模型的输出端叠加全连接层后进行多分类逻辑回归,求得每个关系类别的最大概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110770848.2A CN113553385B (zh) | 2021-07-08 | 2021-07-08 | 一种司法文书中法律要素的关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110770848.2A CN113553385B (zh) | 2021-07-08 | 2021-07-08 | 一种司法文书中法律要素的关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113553385A CN113553385A (zh) | 2021-10-26 |
CN113553385B true CN113553385B (zh) | 2023-08-25 |
Family
ID=78131428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110770848.2A Active CN113553385B (zh) | 2021-07-08 | 2021-07-08 | 一种司法文书中法律要素的关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553385B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115391496B (zh) * | 2022-10-28 | 2023-03-31 | 北京澜舟科技有限公司 | 一种法律文书案例抽取方法、系统和存储介质 |
CN118350462B (zh) * | 2024-06-14 | 2024-08-16 | 人民法院信息技术服务中心 | 基于标签向量正交约束的司法关系要素抽取方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165385A (zh) * | 2018-08-29 | 2019-01-08 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN109800411A (zh) * | 2018-12-03 | 2019-05-24 | 哈尔滨工业大学(深圳) | 临床医疗实体及其属性抽取方法 |
CN110147553A (zh) * | 2019-05-23 | 2019-08-20 | 贵州大学 | 一种基于案件要素的法律文书分析方法 |
CN110781683A (zh) * | 2019-11-04 | 2020-02-11 | 河海大学 | 一种实体关系联合抽取方法 |
CN111767409A (zh) * | 2020-06-14 | 2020-10-13 | 南开大学 | 一种基于多头自注意力机制的实体关系抽取方法 |
CN111783399A (zh) * | 2020-06-24 | 2020-10-16 | 北京计算机技术及应用研究所 | 一种法律裁判文书信息抽取方法 |
CN112364654A (zh) * | 2020-11-11 | 2021-02-12 | 安徽工业大学 | 一种面向教育领域的实体和关系联合抽取方法 |
CN112733547A (zh) * | 2020-12-28 | 2021-04-30 | 北京计算机技术及应用研究所 | 一种利用语义依存分析的中文问句语义理解方法 |
CN112749283A (zh) * | 2020-12-31 | 2021-05-04 | 江苏网进科技股份有限公司 | 一种面向法律领域的实体关系联合抽取方法 |
CN112989834A (zh) * | 2021-04-15 | 2021-06-18 | 杭州一知智能科技有限公司 | 一种基于平格增强线性转换器的命名实体识别方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10303999B2 (en) * | 2011-02-22 | 2019-05-28 | Refinitiv Us Organization Llc | Machine learning-based relationship association and related discovery and search engines |
-
2021
- 2021-07-08 CN CN202110770848.2A patent/CN113553385B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165385A (zh) * | 2018-08-29 | 2019-01-08 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN109800411A (zh) * | 2018-12-03 | 2019-05-24 | 哈尔滨工业大学(深圳) | 临床医疗实体及其属性抽取方法 |
CN110147553A (zh) * | 2019-05-23 | 2019-08-20 | 贵州大学 | 一种基于案件要素的法律文书分析方法 |
CN110781683A (zh) * | 2019-11-04 | 2020-02-11 | 河海大学 | 一种实体关系联合抽取方法 |
CN111767409A (zh) * | 2020-06-14 | 2020-10-13 | 南开大学 | 一种基于多头自注意力机制的实体关系抽取方法 |
CN111783399A (zh) * | 2020-06-24 | 2020-10-16 | 北京计算机技术及应用研究所 | 一种法律裁判文书信息抽取方法 |
CN112364654A (zh) * | 2020-11-11 | 2021-02-12 | 安徽工业大学 | 一种面向教育领域的实体和关系联合抽取方法 |
CN112733547A (zh) * | 2020-12-28 | 2021-04-30 | 北京计算机技术及应用研究所 | 一种利用语义依存分析的中文问句语义理解方法 |
CN112749283A (zh) * | 2020-12-31 | 2021-05-04 | 江苏网进科技股份有限公司 | 一种面向法律领域的实体关系联合抽取方法 |
CN112989834A (zh) * | 2021-04-15 | 2021-06-18 | 杭州一知智能科技有限公司 | 一种基于平格增强线性转换器的命名实体识别方法和系统 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的关系抽取研究综述;庄传志;靳小龙;朱伟建;刘静伟;白龙;程学旗;;中文信息学报(第12期);5-22 * |
Also Published As
Publication number | Publication date |
---|---|
CN113553385A (zh) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109471895A (zh) | 电子病历表型抽取、表型名称规范化方法及系统 | |
CN113553385B (zh) | 一种司法文书中法律要素的关系抽取方法 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN107832400A (zh) | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 | |
CN110569353A (zh) | 一种基于注意力机制的Bi-LSTM的标签推荐方法 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN111783399A (zh) | 一种法律裁判文书信息抽取方法 | |
CN111782768A (zh) | 基于双曲空间表示和标签文本互动的细粒度实体识别方法 | |
CN113722490B (zh) | 一种基于键值匹配关系的视觉富文档信息抽取方法 | |
CN114926150A (zh) | 一种变压器技术符合性评估数字化智能审核方法与装置 | |
CN109918647A (zh) | 一种安全领域命名实体识别方法及神经网络模型 | |
CN112328859B (zh) | 一种基于知识感知注意力网络的虚假新闻检测方法 | |
CN113505583B (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
CN110046356A (zh) | 标签嵌入在微博文本情绪多标签分类中的应用研究 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
CN107392229B (zh) | 一种基于最面向社会关系抽取的网络表示方法 | |
CN115424059A (zh) | 一种基于像素级对比学习的遥感土地利用分类方法 | |
CN114444484A (zh) | 一种基于双层图的文档级事件抽取方法及系统 | |
CN112270189B (zh) | 一种提问式的分析节点生成方法、系统及存储介质 | |
CN116822513A (zh) | 一种融合实体类型与关键词特征的命名实体识别方法 | |
CN113886602B (zh) | 一种基于多粒度认知的领域知识库实体识别方法 | |
CN114691895B (zh) | 一种基于指针网络的刑事案情实体关系联合抽取方法 | |
CN114648005B (zh) | 一种多任务联合学习的多片段机器阅读理解方法及装置 | |
CN113705241B (zh) | 面向高考咨询基于多视角注意力的智能语义匹配方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |