CN113377916B - 一种面向法律文本的多关系中主要关系的抽取方法 - Google Patents
一种面向法律文本的多关系中主要关系的抽取方法 Download PDFInfo
- Publication number
- CN113377916B CN113377916B CN202110693377.XA CN202110693377A CN113377916B CN 113377916 B CN113377916 B CN 113377916B CN 202110693377 A CN202110693377 A CN 202110693377A CN 113377916 B CN113377916 B CN 113377916B
- Authority
- CN
- China
- Prior art keywords
- legal
- relation
- text
- entity
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向法律文本的多关系中主要关系的抽取方法。步骤1:根据选定的法律条文文本进行实体及实体间关系的定义;步骤2:根据步骤1的法律实体定义和关系定义,确定对法律原文的序列标注方式;步骤3:根据步骤2对法律原文的序列标注方式,构建特定语料库;步骤4:利用步骤3的特定语料库,训练特定领域任务的识别模型,处理模型预测后的标注结果,将标注结果转换为关系输出,并结合已有特定关系输出输入法律文本的关系并确认主要关系。本发明用以解决领域内知识体系复杂,实体间关系重叠性较高,上下文依赖性较强,提及关系抽取困难的问题。
Description
技术领域
本发明属于自然语言处理领域;具体涉及一种面向法律文本的多关系中主要关系的抽取方法。
背景技术
关系抽取是属于自然语言处理中信息抽取的一部分,是自然语言处理中一个很重要的工作,相关研究对特定领域知识图谱构建以及自然语言处理中的命名实体识别、关系抽取、知识挖掘等方向有着重要作用。关系抽取可分为全局关系抽取与提及关系抽取,全局关系抽取是基于一个很大的语料库,抽取其中所有的关系对,而提及关系抽取是判断一句话中,一个实体对是否存在关系以及存在哪种关系的工作。
现有的特定领域的提及关系抽取系统存在如下问题,由于各领域知识体系内容不一致,实体定义和关系定义需要该领域专业人士或熟悉领域知识的人定义;根据不同任务,对领域内知识的实体定义和关系定义的不相同,现存的语料库不能实现特定领域任务的完成;领域内知识体系复杂,实体间关系重叠性较高,上下文依赖性较强,提及关系抽取困难。
发明内容
本发明提供了一种面向法律文本的多关系中主要关系的抽取方法。用以解决上述问题。
本发明通过以下技术方案实现:
一种面向法律文本的多关系中主要关系的抽取方法,所述抽取方法包括以下步骤:
步骤1:根据选定的法律条文本进行实体及实体间关系的定义;
步骤2:根据步骤1的法律实体定义和关系定义,对法律原文的序列标注方式;
步骤3:根据步骤2对法律原文的序列标注方式,构建特定语料库;
步骤4:利用步骤3的特定语料库,训练特定领域任务的识别模型,处理识别模型预测后的标注结果,将标注结果转换为关系输出,并结合已有特定关系输出待识别法律文本的关系并确认主要关系。
进一步的,所述步骤1具体为,在对中国民法法律原文整体筛选,对法律进行通读,得到法律原文中存在的法律术语,通过对法律原文词典的构造,其中法律行为、权利和责任出现频率较高,为法律术语类别的定义和分类提供依据;
构建一个法律关系需要三要素:法律关系主体、法律关系客体,以及法律关系内容;在不同法律关系中,主体和客体的称谓也不一样,在法律关系内容中的核心部分就包含了法律关系中主体和客体的权利和义务,在有了义务这一概念的提出后,就会有责任,民事义务是民事责任的前提,同时上述法律术语在选择的法律中都有相对应的法律术语出现且出现次数多。
进一步的,所述步骤2具体为,将从法律原文中筛选得到的词典中的法律术语定义为以下12个类别,分别为:角色RUL、合同COT、道德原则PRI、资料文书证明MAT、法律关系CON、权利RIG、责任DUT、义务OBL、法律行为BEH、金钱MON、定义DEF和违法犯罪行为ILL。
进一步的,所述步骤2具体为,根据定义好的术语实体类型和对应的实体间关系类型,要完成关系抽取任务,完成命名实体识别任务;
在法律原文上先对每条法律条文进行实体类型标注,将实体识别任务作为序列标注问题解决,故采用BIO方式对原法律文本进行标注,得到每部法律对应的实体标注ann文件,策略定义包括标记B的英文全程为Begin、标记B的中文含义为表示该字符位于实体首位置;标记I的英文全程为Inside、标记I的中文含义为表示该字符位于实体内部中间位置;标记O的英文全程为Outside、标记O的中文含义为表示该字符位于实体外;标注方式为汉字“公”表示为B-RUL,汉字“司”表示为I-RUL,汉字“是”表示为O,汉字“企”表示为O,汉字“业”表示为O,汉字“法”表示为B-RUL,汉字“人”表示为I-RUL,符号“,”表示为O,汉字“享”表示为O,汉字“有”表示为O,汉字“法”表示为B-RIG,汉字“人”表示为I-RIG,汉字“财”表示为I-RIG,汉字“产”表示为I-RIG,汉字“权”表示为I-RIG,符号“。”表示为O。
进一步的,构建特定语料库具体为,在标注法律术语类别的数据集中,为每个法律术语分给一个有助于提取关系结果的标签,与实体标注标签一样,用“O”表示“其他”标签,意味着对应的字符与关系抽取的结果无关,在对法律条文的分析和对关系的定义中能得到,所有定义的关系都是围绕角色这一类别展开,故在选择主实体的时候,主实体类型均为角色类型,除去上下义关系、同义关系和反义关系,在对关系的标注过程中,该标注方法在定义的关系集合基础上,只关注两个实体之间的关系类型,而不关注实体所属的实体类型,通过对关系的分析,再确认与主实体存在关系的实体类型。
进一步的,所述步骤4具体为,在法律原文中进行法律术语识别,法律术语类型包括:角色、合同、道德原则、资料文书证明、法律关系、权利、责任、义务、法律行为、金钱、定义、违法犯罪行为命名实体识别任务,在处理司法领域进行实体识别任务时,要采用字符级别的序列标注来完成;
将关系抽取任务等同于序列标注问题,采用相关序列标注算法,对标注好的数据进行训练学习,并对输入文本的每个字符标签进行预测,从而得到识别的关系以及对应的实体类型并输出。
进一步的,所述相关序列标注算法包括BERT、BiLSTM和CRF,具体为在得到需要进行分析的法律文本后,对法律文本先进行分句操作,以“。”、“;”、“:”作为分句标识,对输入的法律文本进行切分。再针对切分后的每句话进行字符级别的处理,在每个字之间插入一个空格,将句子级别细化为字符级别;
通过BERT预训练语言模型进行字编码,提取文本特征,生成字向量;将生成的向量作为双向长短期记忆网络层的输入,进行双向编码,从而实现对标签序列的有效预测;再利用条件随机场对BiLSTM层的输出结果进行解码,通过训练学习得到的标签转移概率和约束条件,获得每个字符所属标签类别。
进一步的,通过Bert对数据的处理后获得的词向量,输入到BiLSTM网络中,通过捕获上下文特征,以获取更加全面的语义信息。通过LSTM的记忆单元和门控机制,对上下文历史信息进行有选择性的遗忘、更新和传递,从而学习到长距离的语义依赖,同时能减少网络深度和有效缓解梯度消失和梯度爆炸问题。
在通过BiLSTM捕获上下文信息后,最后利用CRF网络训练,考虑字符标签间的依赖性,学习得到标签转移概率,为预测的标签添加约束条件,以此提高识别的准确性,获得最佳的三元组标注结果;
最终形成关系知识图谱能识别一段法律文本,对文本进行分析后形成关系图谱。
本发明的有益效果是:
本发明对法律知识领域实体及实体间关系进行特定定义。
本发明在对法律知识领域中实体和关系的定义基础上,提出了更适合法律知识领域的训练集标注方式。
本发明通过对关系抽取模型识别后的结果进行特定规则的处理,识别出法律文本中多关系并存情况下的主要关系,更好的对法律领域知识进行深入挖掘。
附图说明
附图1是民事法律领域知识图。
附图2是本发明的术语关系图。
附图3是本发明的关系标注示例图。
附图4是本发明的整体模型示例图。
附图5是Bert的embedding图。
附图6是本发明的实体关系联合抽示例图。
附图7是本发明的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种面向法律文本的多关系中主要关系的抽取方法,所述抽取方法包括以下步骤:
步骤1:根据选定的法律条文本进行实体及实体间关系的定义;
步骤2:根据步骤1的法律实体定义和关系定义,对法律原文的序列标注方式;
步骤3:根据步骤2对法律原文的序列标注方式,构建特定语料库;
步骤4:利用步骤3的特定语料库,训练特定领域任务的识别模型,处理识别模型预测后的标注结果,将标注结果转换为关系输出,并结合已有特定关系输出待识别法律文本的关系并确认主要关系。
进一步的,所述步骤1具体为,在对中国民法法律原文整体筛选,选定中国领域法律文本为:《中华人民共和国专利法》、《中华人民共和国公司法》和《中华人民共和国民法典》合同部分,即第三编;
三部法律中,专利法条文共82条,公司法条文共218条,民法典中合同部分共525条,共计825条;对三部法律进行通读,得到三部法律原文中存在的法律术语,通过对法律原文词典的构造,发现合同法、专利法和公司法中,专利法数据虽然较少,但在合同法和公司法中也都有涉及到,公司法数据相比于合同法会更相对独立,合同法中会有部分内容涉及到公司法数据,但公司法中很少对合同法有所涉及;但不管是专利法、合同法还是公司法,其中法律行为、权利和责任出现频率较高,为法律术语类别的定义和分类提供依据;
在选定的法律中,虽然其中公司法不属于民法,但借用民法相关知识体系对另外两部法律进行分析,公司法以进行类比分析;在实际法律条文中,一切法律条文的设定都是围绕建立一个法律关系开始,一个法律关系的建立,首先需要遵循一定的原则,比如一个涉及到财产利益关系的建立,需要遵循公平原则;构建一个法律关系需要三要素:法律关系主体、法律关系客体,以及法律关系内容;在不同法律关系中,主体和客体的称谓也不一样,比如在合同法中的买卖合同关系中,法律关系主体和客体的称谓为出卖人和买受人;在法律关系内容中的核心部分就包含了法律关系中主体和客体的权利和义务,比如在一个公司中,股东有缴纳出资的义务,也有参与股东会讨论项目决议的表决权;在有了义务这一概念的提出后,就会有责任,民事义务是民事责任的前提,比如由于某股东的一些行为损害了其他股东的利益时,该股东就要承担相应的赔偿责任,对其他股东和公司进行金钱或其他方面的一些赔偿,具体如图1所示;同时上述说明的这些类型的法律术语在选择的三部法律:合同法、公司法、专利法中都有相对应的法律术语出现且出现次数多。
进一步的,所述步骤2具体为,将从三部法律原文中筛选得到的词典中的法律术语定义为以下12个类别,分别为:角色RUL、合同COT、道德原则PRI、资料文书证明MAT、法律关系CON、权利RIG、责任DUT、义务OBL、法律行为BEH、金钱MON、定义DEF和违法犯罪行为ILL。
进一步的,所述步骤2具体为,根据定义好的术语实体类型和对应的实体间关系类型,要完成关系抽取任务,完成命名实体识别任务;
在法律原文上先对每条法律条文进行实体类型标注,将实体识别任务作为序列标注问题解决,故采用BIO方式对原法律文本进行标注,采用的标注工具为精灵标注助手,以“。”、“;”、“:”对三部法律中的每条法律条文分句,以保证每次进入算法训练的样本大小,在公司法中共352条数据,专利法中共177条数据,合同法中共805条数据,共计1334条语句。得到每部法律对应的实体标注ann文件,策略定义包括标记B的英文全程为Begin、标记B的中文含义为表示该字符位于实体首位置;标记I的英文全程为Inside、标记I的中文含义为表示该字符位于实体内部中间位置;标记O的英文全程为Outside、标记O的中文含义为表示该字符位于实体外;标注方式为汉字“公”表示为B-RUL,汉字“司”表示为B-RUL,汉字“是”表示为O,汉字“企”表示为O,汉字“业”表示为O,汉字“法”表示为B-RUL,汉字“人”表示为B-RUL,符号“,”表示为O,汉字“享”表示为O,汉字“有”表示为O,汉字“法”表示为B-RIG,汉字“人”表示为I-RIG,汉字“财”表示为I-RIG,汉字“产”表示为I-RIG,汉字“权”表示为I-RIG,符号“。”表示为O。
策略定义如表3所示,标注方式示例如表4所示。
进一步的,在标注法律术语类别的数据集中,为每个法律术语分给一个有助于提取关系结果的标签,与实体标注标签一样,用“O”表示“其他”标签,意味着对应的字符与关系抽取的结果无关,关系类型信息从表2中获得,关系标注示例如图3所示;在对法律条文的分析和对关系的定义中能得到,所有定义的关系都是围绕角色这一类别展开,故在选择主实体的时候,主实体类型均为角色类型,除去上下义关系、同义关系和反义关系,在对关系的标注过程中,该标注方法在定义的关系集合基础上,只关注两个实体之间的关系类型,而不关注实体所属的实体类型,通过对关系的分析,再确认与主实体存在关系的实体类型。如标注示例中,“公司”为主实体,标注为“ME”,在后续文本中,“法人”与“公司”之间存在关系“同义”,则将“法人”标注为“同义”的关系代表标签“SYN”;“法人财产权”与“公司”存在关系,则将“法人财产权”标注为对应关系标签“RUR”。当匹配到标签“ME”和“SYN”的组合,即抽取到(ME,SYN,法人),通过标签映射,获得关系三元组(公司,同义,法人)。当匹配到下一个标签“ME”时,认为前一个主实体的关系全部抽取完成。
进一步的,所述步骤4具体为,包括公司法、民法典第三编和专利法,需要在这些法律原文中进行法律术语识别,法律术语类型包括:角色、合同、道德原则、资料文书证明、法律关系、权利、责任、义务、法律行为、金钱、定义、违法犯罪行为命名实体识别任务,专有名词识别任务类似于命名实体识别任务,而对于命名实体识别任务,目前主流的做法是将其视为序列标注问题,常用的深度学习模型是BiLSTM+CRF。前期进行了一系列考察,该模型在命名实体识别任务中能够取得很好的结果。对于司法领域而言,如果采用词级别的序列标注,会引入分词错误带来的误差,这是因为司法领域文本中存在大量的专有名词,对于现有的分词工具而言,这些专有名词都是未登录词,不在其词典中,因此很难正确分词。所以,在处理司法领域进行实体识别任务时,要采用字符级别的序列标注来完成;
将关系抽取任务等同于序列标注问题,采用相关序列标注算法,对标注好的数据进行训练学习,并对输入文本的每个字符标签进行预测,从而得到识别的关系以及对应的实体类型并输出。
关系抽取问题主要采用了基于BERT+BiLSTM+CRF的端到端方法进行综合预测,图4为模型整体框架。利用之前对关系的标注方法,将关系分类问题转换为了序列标注问题,同时该模型也可以完成命名实体识别任务,提高了标注效率,相比传统的关系抽取流程,先对输入文本进行命名实体识别再进行关系分类管道式的做法,减少了实体冗余和错误传播。
进一步的,所述相关序列标注算法包括BERT、BiLSTM和CRF,具体为在得到需要进行分析的法律文本后,对法律文本先进行分句操作,以“。”、“;”、“:”作为分句标识,对输入的法律文本进行切分。再针对切分后的每句话进行字符级别的处理,在每个字之间插入一个空格,将句子级别细化为字符级别,为后续对每个字符的标签进行预测做准备;
通过BERT预训练语言模型进行字编码,提取文本特征,生成字向量;将生成的向量作为双向长短期记忆网络层的输入,进行双向编码,从而实现对标签序列的有效预测;再利用条件随机场对BiLSTM层的输出结果进行解码,通过训练学习得到的标签转移概率和约束条件,获得每个字符所属标签类别。
进一步的,通过Bert对数据的处理后获得的词向量,输入到BiLSTM网络中,通过捕获上下文特征,以获取更加全面的语义信息。通过LSTM的记忆单元和门控机制,对上下文历史信息进行有选择性的遗忘、更新和传递,从而学习到长距离的语义依赖,同时能减少网络深度和有效缓解梯度消失和梯度爆炸问题。
在通过BiLSTM捕获上下文信息后,最后利用CRF网络训练,考虑字符标签间的依赖性,学习得到标签转移概率,为预测的标签添加约束条件,以此提高识别的准确性,获得最佳的三元组标注结果;
在获得从CRF层输出的字符标注标签结果后,通过遍历每个字符的标签,通过识别主实体ME来构建关系三元组。在定义的语义关系中,即上下义关系、同义关系、反义关系大多是从领域知识中得到,即已有的法律术语词典中,根据相关法律材料得到的术语解释中获得,在后续处理中需要先将这些已有的关系预先存入关系数据库中。故即使当一个文本中没有出现主实体时,我们通过相同网络训练得到的专有名词识别模型,即命名实体识别模型,识别输入文本中存在的专有名词,通过对关系数据库的搜索,我们也能够得到相关专有名词的语义关系并进行输出。当文本识别输出结果中有ME且ME不止一个且ME指代内容不同时,若该ME为第一个ME,默认将该ME出现前和到下一个ME出现前,中间文本字符所出现的所有关系字符标注认为是第一个ME的关系,构建三元组输出;
最终形成关系知识图谱能识别一段法律文本,对文本进行分析后形成关系图谱。
比如法律文本:公司可以设立子公司,子公司具有法人资格,依法独立承担民事责任。得到实体和关系抽取结果如图6所示,其中法律术语:股份有限公司、有限责任公司、母公司、孙公司四条术语是分别根据公司和子公司两个法律术语的术语解释属性得到,预先存储在关系数据库中获得,关系图谱最多延伸一层关系显示,即术语公司一词在关系数据库中搜索到股份有限公司和有限责任公司这一层即停止,不会再扩展股份有限公司和有限责任公司术语,子公司和民事责任同样。
表1法律术语类别定义
表2术语间关系三元组类型示例
表3实体标注策略定义
表4标注示例
Claims (6)
1.一种面向法律文本的多关系中主要关系的抽取方法,其特征在于,所述抽取方法包括以下步骤:
步骤1:根据选定的法律条文文本进行实体及实体间关系的定义;
步骤2:根据步骤1的法律实体定义和关系定义,确定对法律原文的序列标注方式;
步骤3:根据步骤2对法律原文的序列标注方式,构建特定语料库;
步骤4:利用步骤3的特定语料库,训练特定领域任务的识别模型,处理识别模型预测后的标注结果,将标注结果转换为关系输出,并结合已有特定关系输出待识别法律文本的关系并确认主要关系;
在法律原文中进行法律术语识别,法律术语类型包括:角色、合同、道德原则、资料文书证明、法律关系、权利、责任、义务、法律行为、金钱、定义、违法犯罪行为命名实体识别任务,在处理司法领域进行实体识别任务时,要采用字符级别的序列标注来完成;
将关系抽取任务等同于序列标注问题,采用相关序列标注算法,对标注好的数据进行训练学习,并对输入文本的每个字符标签进行预测,从而得到识别的关系以及对应的实体类型并输出;
所述相关序列标注算法包括BERT、BiLSTM和CRF,具体为在得到需要进行分析的法律文本后,对法律文本先进行分句操作,以“。”、“;”、“:”作为分句标识,对输入的法律文本进行切分; 再针对切分后的每句话进行字符级别的处理,在每个字之间插入一个空格,将句子级别细化为字符级别;
通过BERT预训练语言模型进行字编码,提取文本特征,生成字向量;将生成的向量作为双向长短期记忆网络层的输入,进行双向编码,从而实现对标签序列的有效预测;再利用条件随机场对BiLSTM层的输出结果进行解码,通过训练学习得到的标签转移概率和约束条件,获得每个字符所属标签类别。
2.根据权利要求1所述一种面向法律文本的多关系中主要关系的抽取方法,其特征在于,所述步骤1具体为,在对中国民法法律原文整体筛选,对法律进行通读,得到法律原文中存在的法律术语,通过对法律原文词典的构造,其中法律行为、权利和责任出现频率较高,为法律术语类别的定义和分类提供依据;
构建一个法律关系需要三要素:法律关系主体、法律关系客体,以及法律关系内容;在不同法律关系中,主体和客体的称谓也不一样,在法律关系内容中的核心部分就包含了法律关系中主体和客体的权利和义务,在有了义务这一概念的提出后,就会有责任,民事义务是民事责任的前提,同时上述法律术语在选择的法律:中都有相对应的法律术语出现且出现次数多。
3.根据权利要求1所述一种面向法律文本的多关系中主要关系的抽取方法,其特征在于,所述步骤2具体为,将从三部法律原文中筛选得到的词典中的法律术语定义为以下12个类别,分别为:角色RUL、合同COT、道德原则PRI、资料文书证明MAT、法律关系CON、权利RIG、责任DUT、义务OBL、法律行为BEH、金钱MON、定义DEF和违法犯罪行为ILL。
4.根据权利要求1所述一种面向法律文本的多关系中主要关系的抽取方法,其特征在于,所述步骤2具体为,根据定义好的术语实体类型和对应的实体间关系类型,要完成关系抽取任务,完成命名实体识别任务;
在法律原文上先对每条法律条文进行实体类型标注,将实体识别任务作为序列标注问题解决,故采用BIO方式对原法律文本进行标注,得到每部法律对应的实体标注ann文件,策略定义包括标记B的英文全程为Begin、标记B的中文含义为表示该字符位于实体首位置;标记I的英文全程为Inside、标记I的中文含义为表示该字符位于实体内部中间位置;标记O的英文全程为Outside、标记O的中文含义为表示该字符位于实体外;标注方式为汉字“公”表示为B-RUL,汉字“司”表示为I-RUL,汉字“是”表示为O,汉字“企”表示为O,汉字“业”表示为O,汉字“法”表示为B-RUL,汉字“人”表示为I-RUL,符号“,”表示为O,汉字“享”表示为O,汉字“有”表示为O,汉字“法”表示为B-RIG,汉字“人”表示为I-RIG,汉字“财”表示为I-RIG,汉字“产”表示为I-RIG,汉字“权”表示为I-RIG,符号“。”表示为O。
5.根据权利要求4所述一种面向法律文本的多关系中主要关系的抽取方法,其特征在于,构建特定语料库具体为,在标注法律术语类别的数据集中,为每个法律术语分给一个有助于提取关系结果的标签,与实体标注标签一样,用“O”表示“其他”标签,意味着对应的字符与关系抽取的结果无关,在对法律条文的分析和对关系的定义中能得到,所有定义的关系都是围绕角色这一类别展开,故在选择主实体的时候,主实体类型均为角色类型,除去上下义关系、同义关系和反义关系,在对关系的标注过程中,该标注方法在定义的关系集合基础上,只关注两个实体之间的关系类型,而不关注实体所属的实体类型,通过对关系的分析,再确认与主实体存在关系的实体类型。
6.根据权利要求1所述一种面向法律文本的多关系中主要关系的抽取方法,其特征在于,通过Bert对数据的处理后获得的词向量,输入到BiLSTM网络中,通过捕获上下文特征,以获取更加全面的语义信息; 通过LSTM的记忆单元和门控机制,对上下文历史信息进行有选择性的遗忘、更新和传递,从而学习到长距离的语义依赖,同时能减少网络深度和有效缓解梯度消失和梯度爆炸问题;
在通过BiLSTM捕获上下文信息后,最后利用CRF网络训练,考虑字符标签间的依赖性,学习得到标签转移概率,为预测的标签添加约束条件,以此提高识别的准确性,获得最佳的三元组标注结果;
最终形成关系知识图谱能识别一段法律文本,对文本进行分析后形成关系图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110693377.XA CN113377916B (zh) | 2021-06-22 | 2021-06-22 | 一种面向法律文本的多关系中主要关系的抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110693377.XA CN113377916B (zh) | 2021-06-22 | 2021-06-22 | 一种面向法律文本的多关系中主要关系的抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113377916A CN113377916A (zh) | 2021-09-10 |
CN113377916B true CN113377916B (zh) | 2023-03-24 |
Family
ID=77578418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110693377.XA Active CN113377916B (zh) | 2021-06-22 | 2021-06-22 | 一种面向法律文本的多关系中主要关系的抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113377916B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036933B (zh) * | 2022-01-10 | 2022-04-22 | 湖南工商大学 | 基于法律文书的信息抽取方法 |
CN115934967B (zh) * | 2023-01-05 | 2024-02-27 | 瓴创(北京)科技有限公司 | 一种基于孪生Transformer模型和知识图谱结合的商品推荐方法、系统 |
CN116304035B (zh) * | 2023-02-28 | 2023-11-03 | 中国司法大数据研究院有限公司 | 一种复杂案件中的多被告多罪名关系抽取方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417880A (zh) * | 2020-11-30 | 2021-02-26 | 太极计算机股份有限公司 | 一种面向法院电子卷宗的案情信息自动抽取方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875051B (zh) * | 2018-06-28 | 2020-04-28 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN110807328B (zh) * | 2019-10-25 | 2023-05-05 | 华南师范大学 | 面向法律文书多策略融合的命名实体识别方法及系统 |
CN111241837B (zh) * | 2020-01-04 | 2022-09-20 | 大连理工大学 | 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法 |
CN111324742B (zh) * | 2020-02-10 | 2024-01-23 | 同方知网数字出版技术股份有限公司 | 一种数字人文知识图谱的构建方法 |
CN112749283A (zh) * | 2020-12-31 | 2021-05-04 | 江苏网进科技股份有限公司 | 一种面向法律领域的实体关系联合抽取方法 |
CN112800764B (zh) * | 2020-12-31 | 2023-07-04 | 江苏网进科技股份有限公司 | 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法 |
CN112836501A (zh) * | 2021-01-18 | 2021-05-25 | 同方知网(北京)技术有限公司 | 一种基于Bert+BiLSTM+CRF的知识元自动抽取方法 |
-
2021
- 2021-06-22 CN CN202110693377.XA patent/CN113377916B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417880A (zh) * | 2020-11-30 | 2021-02-26 | 太极计算机股份有限公司 | 一种面向法院电子卷宗的案情信息自动抽取方法 |
Non-Patent Citations (2)
Title |
---|
Exploiting BERT with Global-Local Context and Label Dependency for Aspect Term Extraction;Qingxuan Zhang et al.;《2020 IEEE 7th International Conference on Data Science and Advanced Analytics (DSAA)》;20201120;1-5 * |
面向法律文本的知识要素间关系抽取技术研究与实现;商少帅;《中国优秀硕士学位论文全文数据库 (社会科学Ⅰ辑)》;20210215(第2期);G120-333 * |
Also Published As
Publication number | Publication date |
---|---|
CN113377916A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jung | Semantic vector learning for natural language understanding | |
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
CN113377916B (zh) | 一种面向法律文本的多关系中主要关系的抽取方法 | |
CN110609983A (zh) | 一种政策文件结构化分解方法 | |
CN113743097A (zh) | 基于跨度共享和语法依存关系增强的情感三元组抽取方法 | |
CN113312922B (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN113569050A (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN113157859A (zh) | 一种基于上位概念信息的事件检测方法 | |
CN112015907A (zh) | 一种学科知识图谱快速构建方法、装置及存储介质 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN117473971A (zh) | 一种基于采购文本库的招标文件自动生成方法及系统 | |
CN112257442A (zh) | 一种基于扩充语料库神经网络的政策文件信息提取方法 | |
Bloodgood et al. | Data cleaning for xml electronic dictionaries via statistical anomaly detection | |
Ezhilarasi et al. | Designing the neural model for POS tag classification and prediction of words from ancient stone inscription script | |
Pillai et al. | NLP applications in the oil and natural gas industry | |
CN114491209A (zh) | 基于互联网信息抓取的企业业务标签挖掘的方法和系统 | |
CN115908027A (zh) | 一种金融长文本复核系统的金融数据一致性审核模块 | |
Kuropiatnyk et al. | Automation of template formation to identify the structure of natural language documents | |
Medveď et al. | English-french document alignment based on keywords and statistical translation | |
Mansouri et al. | A new fuzzy support vector machine method for named entity recognition | |
Orellana et al. | Evaluating named entities recognition (NER) tools vs algorithms adapted to the extraction of locations | |
German et al. | Information extraction method from a resume (CV) | |
Melero et al. | Selection of correction candidates for the normalization of Spanish user-generated content | |
Nazir et al. | Machine learning based framework for fine-grained word segmentation and enhanced text normalization for low resourced language | |
Kozyreva et al. | Analysis of the text of the FQP for automated standard control of documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |