CN113553385A - 一种司法文书中法律要素的关系抽取方法 - Google Patents

一种司法文书中法律要素的关系抽取方法 Download PDF

Info

Publication number
CN113553385A
CN113553385A CN202110770848.2A CN202110770848A CN113553385A CN 113553385 A CN113553385 A CN 113553385A CN 202110770848 A CN202110770848 A CN 202110770848A CN 113553385 A CN113553385 A CN 113553385A
Authority
CN
China
Prior art keywords
entity
legal
judicial
relationship
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110770848.2A
Other languages
English (en)
Other versions
CN113553385B (zh
Inventor
白雄文
陈飞
王红艳
惠欣恒
安娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202110770848.2A priority Critical patent/CN113553385B/zh
Publication of CN113553385A publication Critical patent/CN113553385A/zh
Application granted granted Critical
Publication of CN113553385B publication Critical patent/CN113553385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Technology Law (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种司法文书中法律要素的关系抽取方法,属于自然语言处理领域。本发明对司法文书进行数据清洗;将清洗过的司法文书根据各类型文书的规则机制进行段落划分;利用“三位标注”的标注方式对法律要素的实体及实体主客体的关系进行标注;使用标注的数据作为深度神经网络模型的原始输入,完成法律要素的实体及实体间关系的识别及抽取。本发明有效避免因传统句法树导致的结构嵌套以及实体关系重叠,有利于提高案件要素实体的识别性能。本发明实现了案件要素的实体识别及关系抽取,取得了良好的使用效果。

Description

一种司法文书中法律要素的关系抽取方法
技术领域
本发明属于自然语言处理及自然语言理解技术领域,具体涉及一种司法文书中法律要素的关系抽取方法。
背景技术
自2016年“智慧法院”的提出到2018年“智慧法院”的全面建设,最高检察院及各级检察院方面都在依靠互联网、大数据、人工智能等技术积极推动“智慧”司法的进程,务求通过以高度信息化的方式支持审判、司法管理等,同时以一种智慧化的方式全方位的服务各级检察院组织。
各级检察院在长期的司法实践以及应用过程中累积了体量非常庞大的司法文书,比如判决书、逮捕书等;不同的司法文书中蕴含着非常有价值的信息,这些信息对于我国司法建设有着极其重要的作用。有效的利用这些司法文书单靠传统的人工方式是远远不够的,不仅效率低下,收益低而且还会耗费大量的人力。因此在不断信息化的今天,可以利用人工智能、大数据等技术对这些司法文书进行结构化的处理,例如智能量刑、智慧语音法庭(语音转文字)、司法文书自动生成、法律知识智慧问答等。面对庞大的司法文书集,要想从每篇文书当中获得各个法律要素的实体以及实体之间的关系是一件困难的事情,传统的方式是利用规则的方式摘取主要信息段落或者句子,然后利用机器学习的方式进行实体标注,同时结合句法分析的方式,但是句法分析需要分析整个句子的结构,同时还需要依赖分词以及词性标注等自然语言处理技术,因此识别难度大、效率低下、准确率低等。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种司法文书中法律要素的关系抽取方法,以解决现有的司法文书识别方法识别难度大、效率低下、准确率低等问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种司法文书中法律要素的关系抽取方法,该方法包括如下步骤:
S1、利用自然语言处理技术对司法文书进行数据清洗;
S2、将清洗过的司法文书根据各类型文书的规则机制进行段落划分;
S3、利用“三位标注”的标注方式对法律要素的实体及实体主客体的关系进行标注;
S4、使用“三位标注”标注的数据作为深度神经网络模型的原始输入,完成法律要素的实体及实体间关系的识别及抽取。
进一步地,所述步骤S1中数据清洗是指司法文书的噪声去除,包括空格、空行、编码、全半角和停用词。
进一步地,所述步骤S2中段落划分后,司法文书被分解为案件基础信息、诉讼信息、基本案情、审判认定信息、判决信息和结尾阶段。
进一步地,所述步骤S3包括将划分后的六大部分通过相关规则细化切分成语句或者短段落;抽取相关段落或者关键句子进行数据标注处理。
进一步地,“三位标注”的标注方式包括:实体主体开头“B-SUB”、实体主体内部“I-SUB”、实体客体开头“B-OBJ”、实体客体内部“I-OBJ”和非实体类型“O”。
进一步地,所述步骤S4中的深度神经网络模型是双向注意力机制编码深度神经网络模型。
进一步地,所述步骤6具体包括:法律要素的实体识别任务在双向注意力机制编码深度神经网络模型的输出端叠加条件随机场层,法律要素实体关系的识别任务是在双向注意力机制编码深度神经网络模型的输出端进行多分类逻辑回归,并对其进行联合学习。
进一步地,所述双向注意力机制编码深度神经网络模型将输入序列转换成输出序列,该输出序列的每一个位置的输出可对应输入序列的每一个位置的输入。
进一步地,条件随机场层对输出标签的路径进行约束,排除不符合序列标注顺序的结果,实现案件要素的识别。
进一步地,法律要素实体关系的识别任务进一步包括在双向注意力机制编码深度神经网络模型的输出端叠加全连接层后进行多分类逻辑回归,求得每个关系类别的最大概率。
(三)有益效果
本发明提出一种司法文书中法律要素的关系抽取方法,不论是之前的句法分析、词性分析等机器学习技术还是现有循环神经网络都无法从深层次的语义方面出发完成实体间关系的理解并识别标示。本发明从句子或者段落的整体语义及句子整体顶层结构出发,采用扁平化的“三位标注”策略,对句子的主客体实体以及实体对之间的关系进行标注,该方法可以有效的避免因传统句法树导致的结构嵌套以及实体关系重叠,有利于提高案件要素实体的识别性能。本发明基于双向注意力机制的神经网络词向量训练方式,深层次的强化句子语义,并结合条件随机场的序列标注方式对案件要素进行实体识别,通过深层次的语义挖掘及序列标注结合,实现案件要素的实体识别及关系抽取,取得了良好的使用效果。
附图说明
图1为本发明司法文书中法律要素的关系抽取方法的流程图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明涉及一种司法文书中法律要素的关系抽取方法,它包括以下步骤:一、利用自然语言处理的技术手段完成对司法文书的清洗;二、依据不同的司法文书类型选择不同的规则处理机制,基于规则(司法文书自身固有格式)的方法完成文书的段落划分;三、通过对司法文书段落(包含单独句子)进行扁平化法律要素(包含实体、关系等)的标注,标注采用“三位标注”方式完成句子级别的法律要素标注;四、基于双向注意力机制编码深度神经网络的案件要素识别及关系抽取,将标注的实体及实体对应的主客体标注数据作为模型的原始输入,实现法律文书中法律要素的实体识别及关系抽取模型训练并完成预测抽取。司法文书中法律要素的识别及各法律要素之间的关系识别有利于法律文书的结构化存储,为后期智能化法律办公提供依据,同时为法律文书的智能化检索、审查等应用提供便捷,提高办公效率。
本发明的司法文书中法律要素的关系抽取方法,该方法所包括步骤如下:一、司法文书中可能夹杂一些噪声项,首先利用自然语言处理机制完成司法文书的清洗去噪;二、根据不同的司法文书类型,选择各类型文书的规则处理机制,完成司法文书的段落划分;三、扁平化处理实体及实体间的关系标注,对数据(句子或段落)采用“三位标注”的方式完成主客体及关系的标注;四、将标注数据作为输入,采用双向注意力机制编码深度神经网络的方式实现实体及实体关系的训练和识别。
进一步地,所述步骤一中噪声去除包括空格、空行、编码、全半角、停用词等处理手段。
进一步地,所述步骤二中主要根据各类型文书的规则处理机制对司法文书进行切分,分解为案件基础信息、诉讼信息、基本案情、审判认定信息、判决信息等阶段。
进一步地,所述步骤三中采用“三位标注”的方式完成对法律要素的实体及实体主客体的关系标注,包括:“B-SUB”(实体主体开头)、“I-SUB”(实体主体内部)、“B-OBJ”(实体客体开头)、“I-OBJ”(实体客体内部)、“O”(非实体类型)。
进一步地,所述步骤四中使用“三位标注”的数据作为关系抽取方法的输入,完成法律要素的实体及实体间关系的识别及抽取。
本发明要解决的技术问题是:提供一种司法文书中法律要素的关系抽取方法,主要将非结构化的司法文书通过规则的方式进行段落、句子划分,扁平化式的采用“三位标注”方式完成实体及关系的标注,通过双向注意力机制编码深度神经网络的手段完成法律要素的实体识别和关系识别,整个过程目的在于司法文书的结构化及标准化存储,为后期智能化法律办公提供依据,同时为法律文书的智能化检索、审查等应用提供便捷,提高办公效率。
本发明的技术方案为:一种基于案件要素的法律要素关系抽取方法,所述方法包括如下步骤:
S1、利用自然语言处理技术对司法文书进行数据清洗;
S2、将清洗过的司法文书根据各类型文书的规则机制进行段落(句子)划分;
S3、利用“三位标注”的标注方式对段落(句子)完成标注,包括实体、实体关系等;
S4、将标注后的实体及实体关系数据作为双向注意力机制编码深度神经网络模型的原始输入,实现管道式的实体识别及关系识别抽取。
所述步骤S1:数据的清洗是指司法文书的噪声去除,主要包括空格、空行、编码、全半角、停用词等。
所述步骤S2:根据各类型文书的规则机制对司法文书进行切分,分解为案件基础信息、诉讼信息、基本案情、审判认定信息、判决信息等阶段。
所述步骤S3:采用“三位标注”的方式对法律要素的实体及实体主客体的关系标注。
所述步骤S4:使用步骤S3中采用“三位标注”标注的数据作为深度神经网络模型的原始输入,完成法律要素的实体及实体间关系的识别及抽取。
图1所示为一种司法文书中法律要素的关系抽取方法,该方法主要实施包含以下步骤:
步骤S1:司法文书内容清洗(去噪)
司法文书中包含着许多的空格、空行等,同时还夹杂着许多类似噪声、全半角等词等对司法文书产生影响的信息,对其加以清洗。
步骤S2:根据各类型文书的规则机制完成对司法文书的段落划分
对待不同类型的司法文书选用不同的规则机制去处理,司法文书(判决文书)包含基础信息(包括原被告姓名、身份证号、地址、原被告委托代理人等)、诉讼信息(案件发生的过程、结果、诉讼缘由等)、基本案情(包括原告诉称、被告辨称、提供证据等)、审判认定信息(包括审理查明、本院认为等)、判决信息、结尾(包括审判人员、时间等)。划分阶段采用基于规则的方式完成文书段落划分。
步骤S3:采用“三位标注”的方式对法律要素的实体及实体主客体的关系标注
深度神经网络的学习方式首先需要对数据进行标注,本发明对法律要素的实体以及实体间的关系采用经典“三位标注”模式,使用类似“B-SUB”、“I-SUB”、“B-OBJ”、“I-OBJ”、“O”的方式完成标注。
步骤S4:使用“三位标注”标注的数据作为深度神经网络模型的原始输入,完成法律要素的实体及实体间关系的识别及抽取
本发明一种基于深度神经网络的法律要素及关系抽取方法,采用结合条件随机场的双向注意力机制编码深度神经网络模型对司法文书中的法律要素实体及实体间关系进行预测识别。
下面结合具体示例及附图对本发明流程作进一步说明:
第一步:判断文书及罪名类型,并通过相关程序对文书进行去噪及切分。
第二步:将划分后的六大部分通过相关规则细化切分成语句或者短段落;抽取相关段落或者关键句子进行数据标注处理。案件要素识别是一个序列标注问题,采用经典的“三位标注”模式,案件要素实体关系识别系分类问题。如:B-SUB表示案件犯罪主体的开始,I-SUB表示案件犯罪主体的内部;B-OBJ表示案件犯罪客体的开始,I-OBJ表示案件犯罪客体的内部,O表示非案件犯罪实体,同时在每一个句子或者段落标注对应关系。
第三步:基于双向注意力机制编码深度神经网络的法律要素实体识别及关系抽取。本发明法律要素的实体识别任务在双向注意力机制编码深度神经网络模型的输出端叠加条件随机场层,法律要素实体关系的识别任务是在双向注意力机制编码深度神经网络模型的输出端进行多分类逻辑回归,并对其进行联合学习。
从图中可以看到结合条件随机场的双向注意力机制编码深度神经网络模型的输入是以单字为细粒度的形式。主要使用了双向注意力机制编码作为算法的主要框架,同时使用了独有的掩码机制以及“后句”预测的多任务训练,可以有效的捕获语句的语义。
双向注意力机制编码深度神经网络模型可将输入序列转换成输出序列,该输出序列的每一个位置的输出可对应输入序列的每一个位置的输入。如:输入是司法文书中的某一个关键句子所对应各单字的序列,则输出便是每个单字是否是实体。
该深度神经网络包括编码器神经网络和解码器神经网络。编码器和解码器均为基于注意力机制的,并且输入是利用已学习的词嵌入将单字转化为多维向量。解码器是通过线性变换、多分类逻辑回归模型或其他网络将解码的输出转化为一个预测下一个单字的概率。
此外,为使用序列中单字的前后次序信息,需将单字的相对位置及绝对位置以编码的形式添加到双向注意力机制编码深度神经网络模型中去,即“位置编码”,使用时将“位置编码”和词嵌入编码直接相加(“位置编码”和词嵌入维度相同),本发明中位置编码使用正弦和余弦函数加以编码,具体如下:
Figure BDA0003153287220000071
Figure BDA0003153287220000072
其中pos为位置,i表示位置编码的维度信息,dmod代表词嵌入维度。
最后,注意力机制函数可以看作一个查询向量和一系列键值、价值向量映射为一个输出向量的过程,且输出是由带权重的值向量叠加的,而该权重是通过查询向量和相应键值、价值向量通过一个函数计算而来,并形成矩阵,计算函数如下:Q、K、V分别表示双向注意力机制编码深度神经网络的查询矩阵、键值矩阵、价值矩阵,KT表示键值矩阵的转置矩阵,dk表示键值向量k的向量维度。
Figure BDA0003153287220000073
法律要素的实体识别任务在双向注意力机制编码深度神经网络模型的输出端叠加条件随机场层,使用条件随机场是因为双向注意力机制编码深度神经网络模型输出对于实体序列起不到约束的作用,利用条件随机场层对输出标签的路径进行约束,可以排除不符合序列标注顺序的结果(例如将I-SUB、B-SUB这样的标注结果剔除,因为案件犯罪主体的内部不会出现在案件犯罪主体的开始之前),实现案件要素的识别。条件随机场层中,对于一个给定的输入序列x=(x1,x2,x3…,xn),(即双向注意力机制编码深度神经网络模型的输出序列)需最大化输出序列,该输出序列y=(y1,y2,y3…,yn)的评价函数如下所示:
Figure BDA0003153287220000074
其中
Figure BDA0003153287220000075
表示转移概率,即序列中标签间状态的转移概率,P表示标注权重,即当前模型输出标注的最大概率。
法律要素实体关系的识别任务是在双向注意力机制编码深度神经网络模型的输出端叠加全连接层后进行多分类逻辑回归,求得每个关系类别的最大概率。
假设我们有一个序列数组X,Xi标示第i个元素,那么该元素的概率值为:
Figure BDA0003153287220000081
本发明是一种基于双向注意力机制编码深度神经网络模型的法律要素实体及实体关系抽取,旨在将非结构化的司法文书通过实体及关系抽取进行识别和法律要素关系的识别,并结构化存储,为后期智能化的司法提供可靠的依据。同时为法律文书的智能化检索、审查等应用提供便捷,提高办公效率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种司法文书中法律要素的关系抽取方法,其特征在于,该方法包括如下步骤:
S1、利用自然语言处理技术对司法文书进行数据清洗;
S2、将清洗过的司法文书根据各类型文书的规则机制进行段落划分;
S3、利用“三位标注”的标注方式对法律要素的实体及实体主客体的关系进行标注;
S4、使用“三位标注”标注的数据作为深度神经网络模型的原始输入,完成法律要素的实体及实体间关系的识别及抽取。
2.如权利要求1所述的司法文书中法律要素的关系抽取方法,其特征在于,所述步骤S1中数据清洗是指司法文书的噪声去除,包括空格、空行、编码、全半角和停用词。
3.如权利要求1所述的司法文书中法律要素的关系抽取方法,其特征在于,所述步骤S2中段落划分后,司法文书被分解为案件基础信息、诉讼信息、基本案情、审判认定信息、判决信息和结尾阶段。
4.如权利要求3所述的司法文书中法律要素的关系抽取方法,其特征在于,所述步骤S3包括将划分后的六大部分通过相关规则细化切分成语句或者短段落;抽取相关段落或者关键句子进行数据标注处理。
5.如权利要求4所述的司法文书中法律要素的关系抽取方法,其特征在于,“三位标注”的标注方式包括:实体主体开头“B-SUB”、实体主体内部“I-SUB”、实体客体开头“B-OBJ”、实体客体内部“I-OBJ”和非实体类型“O”。
6.如权利要求1所述的司法文书中法律要素的关系抽取方法,其特征在于,所述步骤S4中的深度神经网络模型是双向注意力机制编码深度神经网络模型。
7.如权利要求1-6任一项所述的司法文书中法律要素的关系抽取方法,其特征在于,所述步骤6具体包括:法律要素的实体识别任务在双向注意力机制编码深度神经网络模型的输出端叠加条件随机场层,法律要素实体关系的识别任务是在双向注意力机制编码深度神经网络模型的输出端进行多分类逻辑回归,并对其进行联合学习。
8.如权利要求7所述的司法文书中法律要素的关系抽取方法,其特征在于,所述双向注意力机制编码深度神经网络模型将输入序列转换成输出序列,该输出序列的每一个位置的输出可对应输入序列的每一个位置的输入。
9.如权利要求8所述的司法文书中法律要素的关系抽取方法,其特征在于,条件随机场层对输出标签的路径进行约束,排除不符合序列标注顺序的结果,实现案件要素的识别。
10.如权利要求8所述的司法文书中法律要素的关系抽取方法,其特征在于,法律要素实体关系的识别任务进一步包括在双向注意力机制编码深度神经网络模型的输出端叠加全连接层后进行多分类逻辑回归,求得每个关系类别的最大概率。
CN202110770848.2A 2021-07-08 2021-07-08 一种司法文书中法律要素的关系抽取方法 Active CN113553385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110770848.2A CN113553385B (zh) 2021-07-08 2021-07-08 一种司法文书中法律要素的关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110770848.2A CN113553385B (zh) 2021-07-08 2021-07-08 一种司法文书中法律要素的关系抽取方法

Publications (2)

Publication Number Publication Date
CN113553385A true CN113553385A (zh) 2021-10-26
CN113553385B CN113553385B (zh) 2023-08-25

Family

ID=78131428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110770848.2A Active CN113553385B (zh) 2021-07-08 2021-07-08 一种司法文书中法律要素的关系抽取方法

Country Status (1)

Country Link
CN (1) CN113553385B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391496A (zh) * 2022-10-28 2022-11-25 北京澜舟科技有限公司 一种法律文书案例抽取方法、系统和存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082183A1 (en) * 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN110147553A (zh) * 2019-05-23 2019-08-20 贵州大学 一种基于案件要素的法律文书分析方法
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN111767409A (zh) * 2020-06-14 2020-10-13 南开大学 一种基于多头自注意力机制的实体关系抽取方法
CN111783399A (zh) * 2020-06-24 2020-10-16 北京计算机技术及应用研究所 一种法律裁判文书信息抽取方法
CN112364654A (zh) * 2020-11-11 2021-02-12 安徽工业大学 一种面向教育领域的实体和关系联合抽取方法
CN112733547A (zh) * 2020-12-28 2021-04-30 北京计算机技术及应用研究所 一种利用语义依存分析的中文问句语义理解方法
CN112749283A (zh) * 2020-12-31 2021-05-04 江苏网进科技股份有限公司 一种面向法律领域的实体关系联合抽取方法
CN112989834A (zh) * 2021-04-15 2021-06-18 杭州一知智能科技有限公司 一种基于平格增强线性转换器的命名实体识别方法和系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082183A1 (en) * 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN110147553A (zh) * 2019-05-23 2019-08-20 贵州大学 一种基于案件要素的法律文书分析方法
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN111767409A (zh) * 2020-06-14 2020-10-13 南开大学 一种基于多头自注意力机制的实体关系抽取方法
CN111783399A (zh) * 2020-06-24 2020-10-16 北京计算机技术及应用研究所 一种法律裁判文书信息抽取方法
CN112364654A (zh) * 2020-11-11 2021-02-12 安徽工业大学 一种面向教育领域的实体和关系联合抽取方法
CN112733547A (zh) * 2020-12-28 2021-04-30 北京计算机技术及应用研究所 一种利用语义依存分析的中文问句语义理解方法
CN112749283A (zh) * 2020-12-31 2021-05-04 江苏网进科技股份有限公司 一种面向法律领域的实体关系联合抽取方法
CN112989834A (zh) * 2021-04-15 2021-06-18 杭州一知智能科技有限公司 一种基于平格增强线性转换器的命名实体识别方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
庄传志;靳小龙;朱伟建;刘静伟;白龙;程学旗;: "基于深度学习的关系抽取研究综述", 中文信息学报, no. 12, pages 5 - 22 *
张琴;郭红梅;张智雄;: "融合词嵌入表示特征的实体关系抽取方法研究", 数据分析与知识发现, no. 09, pages 13 - 20 *
程树东;胡鹰;: "基于BI-LSTM-CRF模型的限定领域知识库问答系统", 计算机与现代化, no. 07, pages 57 - 61 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391496A (zh) * 2022-10-28 2022-11-25 北京澜舟科技有限公司 一种法律文书案例抽取方法、系统和存储介质

Also Published As

Publication number Publication date
CN113553385B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及系统
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN112487812B (zh) 一种基于边界识别的嵌套实体识别方法及系统
CN111783399A (zh) 一种法律裁判文书信息抽取方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN112256939A (zh) 一种针对化工领域的文本实体关系抽取方法
CN111639183A (zh) 一种基于深度学习算法的金融同业舆情分析方法及系统
CN110580281A (zh) 一种基于语义相似度的相似案件匹配方法
CN113516379B (zh) 一种智能质检的工单评分方法
CN113505583B (zh) 基于语义决策图神经网络的情感原因子句对提取方法
CN112182248A (zh) 一种电价的关键政策的统计方法
CN114925157A (zh) 一种基于预训练模型的核电站维修经验文本匹配方法
CN111339440B (zh) 面向新闻文本基于层级状态神经网络的社会情绪排序方法
CN114048354A (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN115292568B (zh) 一种基于联合模型的民生新闻事件抽取方法
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN113553385A (zh) 一种司法文书中法律要素的关系抽取方法
CN117251685B (zh) 一种基于知识图谱的标准化政务数据构建方法和装置
CN113343640B (zh) 一种海关报关商品hs编码分类方法及装置
CN117993499A (zh) 一种流域防洪四预平台的多模态知识图谱构建方法
CN116524521B (zh) 一种基于深度学习的英文字符识别方法和系统
CN116843162B (zh) 一种矛盾调解方案推荐与评分系统及方法
CN116578734B (zh) 一种基于clip的概率嵌入组合检索方法
CN112732942A (zh) 一种面向用户的多轮问答法律文书实体关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant