CN113377916B

CN113377916B - 一种面向法律文本的多关系中主要关系的抽取方法

Info

Publication number: CN113377916B
Application number: CN202110693377.XA
Authority: CN
Inventors: 赵铁军; 杨沐昀; 徐冰; 徐家豫; 朱聪慧; 曹海龙
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2023-03-24
Anticipated expiration: 2041-06-22
Also published as: CN113377916A

Abstract

本发明公开了一种面向法律文本的多关系中主要关系的抽取方法。步骤1：根据选定的法律条文文本进行实体及实体间关系的定义；步骤2：根据步骤1的法律实体定义和关系定义，确定对法律原文的序列标注方式；步骤3：根据步骤2对法律原文的序列标注方式，构建特定语料库；步骤4：利用步骤3的特定语料库，训练特定领域任务的识别模型，处理模型预测后的标注结果，将标注结果转换为关系输出，并结合已有特定关系输出输入法律文本的关系并确认主要关系。本发明用以解决领域内知识体系复杂，实体间关系重叠性较高，上下文依赖性较强，提及关系抽取困难的问题。

Description

一种面向法律文本的多关系中主要关系的抽取方法

技术领域

本发明属于自然语言处理领域；具体涉及一种面向法律文本的多关系中主要关系的抽取方法。

背景技术

关系抽取是属于自然语言处理中信息抽取的一部分，是自然语言处理中一个很重要的工作，相关研究对特定领域知识图谱构建以及自然语言处理中的命名实体识别、关系抽取、知识挖掘等方向有着重要作用。关系抽取可分为全局关系抽取与提及关系抽取，全局关系抽取是基于一个很大的语料库，抽取其中所有的关系对，而提及关系抽取是判断一句话中，一个实体对是否存在关系以及存在哪种关系的工作。

现有的特定领域的提及关系抽取系统存在如下问题，由于各领域知识体系内容不一致，实体定义和关系定义需要该领域专业人士或熟悉领域知识的人定义；根据不同任务，对领域内知识的实体定义和关系定义的不相同，现存的语料库不能实现特定领域任务的完成；领域内知识体系复杂，实体间关系重叠性较高，上下文依赖性较强，提及关系抽取困难。

发明内容

本发明提供了一种面向法律文本的多关系中主要关系的抽取方法。用以解决上述问题。

本发明通过以下技术方案实现：

一种面向法律文本的多关系中主要关系的抽取方法，所述抽取方法包括以下步骤：

步骤1：根据选定的法律条文本进行实体及实体间关系的定义；

步骤2：根据步骤1的法律实体定义和关系定义，对法律原文的序列标注方式；

步骤3：根据步骤2对法律原文的序列标注方式，构建特定语料库；

步骤4：利用步骤3的特定语料库，训练特定领域任务的识别模型，处理识别模型预测后的标注结果，将标注结果转换为关系输出，并结合已有特定关系输出待识别法律文本的关系并确认主要关系。

进一步的，所述步骤1具体为，在对中国民法法律原文整体筛选，对法律进行通读，得到法律原文中存在的法律术语，通过对法律原文词典的构造，其中法律行为、权利和责任出现频率较高，为法律术语类别的定义和分类提供依据；

构建一个法律关系需要三要素：法律关系主体、法律关系客体，以及法律关系内容；在不同法律关系中，主体和客体的称谓也不一样，在法律关系内容中的核心部分就包含了法律关系中主体和客体的权利和义务，在有了义务这一概念的提出后，就会有责任，民事义务是民事责任的前提，同时上述法律术语在选择的法律中都有相对应的法律术语出现且出现次数多。

进一步的，所述步骤2具体为，将从法律原文中筛选得到的词典中的法律术语定义为以下12个类别，分别为：角色RUL、合同COT、道德原则PRI、资料文书证明MAT、法律关系CON、权利RIG、责任DUT、义务OBL、法律行为BEH、金钱MON、定义DEF和违法犯罪行为ILL。

进一步的，所述步骤2具体为，根据定义好的术语实体类型和对应的实体间关系类型，要完成关系抽取任务，完成命名实体识别任务；

在法律原文上先对每条法律条文进行实体类型标注，将实体识别任务作为序列标注问题解决，故采用BIO方式对原法律文本进行标注，得到每部法律对应的实体标注ann文件，策略定义包括标记B的英文全程为Begin、标记B的中文含义为表示该字符位于实体首位置；标记I的英文全程为Inside、标记I的中文含义为表示该字符位于实体内部中间位置；标记O的英文全程为Outside、标记O的中文含义为表示该字符位于实体外；标注方式为汉字“公”表示为B-RUL，汉字“司”表示为I-RUL，汉字“是”表示为O，汉字“企”表示为O，汉字“业”表示为O，汉字“法”表示为B-RUL，汉字“人”表示为I-RUL，符号“，”表示为O，汉字“享”表示为O，汉字“有”表示为O，汉字“法”表示为B-RIG，汉字“人”表示为I-RIG，汉字“财”表示为I-RIG，汉字“产”表示为I-RIG，汉字“权”表示为I-RIG，符号“。”表示为O。

进一步的，构建特定语料库具体为，在标注法律术语类别的数据集中，为每个法律术语分给一个有助于提取关系结果的标签，与实体标注标签一样，用“O”表示“其他”标签，意味着对应的字符与关系抽取的结果无关，在对法律条文的分析和对关系的定义中能得到，所有定义的关系都是围绕角色这一类别展开，故在选择主实体的时候，主实体类型均为角色类型，除去上下义关系、同义关系和反义关系，在对关系的标注过程中，该标注方法在定义的关系集合基础上，只关注两个实体之间的关系类型，而不关注实体所属的实体类型，通过对关系的分析，再确认与主实体存在关系的实体类型。

进一步的，所述步骤4具体为，在法律原文中进行法律术语识别，法律术语类型包括：角色、合同、道德原则、资料文书证明、法律关系、权利、责任、义务、法律行为、金钱、定义、违法犯罪行为命名实体识别任务，在处理司法领域进行实体识别任务时，要采用字符级别的序列标注来完成；

将关系抽取任务等同于序列标注问题，采用相关序列标注算法，对标注好的数据进行训练学习，并对输入文本的每个字符标签进行预测，从而得到识别的关系以及对应的实体类型并输出。

进一步的，所述相关序列标注算法包括BERT、BiLSTM和CRF，具体为在得到需要进行分析的法律文本后，对法律文本先进行分句操作，以“。”、“；”、“：”作为分句标识，对输入的法律文本进行切分。再针对切分后的每句话进行字符级别的处理，在每个字之间插入一个空格，将句子级别细化为字符级别；

通过BERT预训练语言模型进行字编码，提取文本特征，生成字向量；将生成的向量作为双向长短期记忆网络层的输入，进行双向编码，从而实现对标签序列的有效预测；再利用条件随机场对BiLSTM层的输出结果进行解码，通过训练学习得到的标签转移概率和约束条件，获得每个字符所属标签类别。

进一步的，通过Bert对数据的处理后获得的词向量，输入到BiLSTM网络中，通过捕获上下文特征，以获取更加全面的语义信息。通过LSTM的记忆单元和门控机制，对上下文历史信息进行有选择性的遗忘、更新和传递，从而学习到长距离的语义依赖，同时能减少网络深度和有效缓解梯度消失和梯度爆炸问题。

在通过BiLSTM捕获上下文信息后，最后利用CRF网络训练，考虑字符标签间的依赖性，学习得到标签转移概率，为预测的标签添加约束条件，以此提高识别的准确性，获得最佳的三元组标注结果；

最终形成关系知识图谱能识别一段法律文本，对文本进行分析后形成关系图谱。

本发明的有益效果是：

本发明对法律知识领域实体及实体间关系进行特定定义。

本发明在对法律知识领域中实体和关系的定义基础上，提出了更适合法律知识领域的训练集标注方式。

本发明通过对关系抽取模型识别后的结果进行特定规则的处理，识别出法律文本中多关系并存情况下的主要关系，更好的对法律领域知识进行深入挖掘。

附图说明

附图1是民事法律领域知识图。

附图2是本发明的术语关系图。

附图3是本发明的关系标注示例图。

附图4是本发明的整体模型示例图。

附图5是Bert的embedding图。

附图6是本发明的实体关系联合抽示例图。

附图7是本发明的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

进一步的，所述步骤1具体为，在对中国民法法律原文整体筛选，选定中国领域法律文本为：《中华人民共和国专利法》、《中华人民共和国公司法》和《中华人民共和国民法典》合同部分，即第三编；

三部法律中，专利法条文共82条，公司法条文共218条，民法典中合同部分共525条，共计825条；对三部法律进行通读，得到三部法律原文中存在的法律术语，通过对法律原文词典的构造，发现合同法、专利法和公司法中，专利法数据虽然较少，但在合同法和公司法中也都有涉及到，公司法数据相比于合同法会更相对独立，合同法中会有部分内容涉及到公司法数据，但公司法中很少对合同法有所涉及；但不管是专利法、合同法还是公司法，其中法律行为、权利和责任出现频率较高，为法律术语类别的定义和分类提供依据；

在选定的法律中，虽然其中公司法不属于民法，但借用民法相关知识体系对另外两部法律进行分析，公司法以进行类比分析；在实际法律条文中，一切法律条文的设定都是围绕建立一个法律关系开始，一个法律关系的建立，首先需要遵循一定的原则，比如一个涉及到财产利益关系的建立，需要遵循公平原则；构建一个法律关系需要三要素：法律关系主体、法律关系客体，以及法律关系内容；在不同法律关系中，主体和客体的称谓也不一样，比如在合同法中的买卖合同关系中，法律关系主体和客体的称谓为出卖人和买受人；在法律关系内容中的核心部分就包含了法律关系中主体和客体的权利和义务，比如在一个公司中，股东有缴纳出资的义务，也有参与股东会讨论项目决议的表决权；在有了义务这一概念的提出后，就会有责任，民事义务是民事责任的前提，比如由于某股东的一些行为损害了其他股东的利益时，该股东就要承担相应的赔偿责任，对其他股东和公司进行金钱或其他方面的一些赔偿，具体如图1所示；同时上述说明的这些类型的法律术语在选择的三部法律：合同法、公司法、专利法中都有相对应的法律术语出现且出现次数多。

进一步的，所述步骤2具体为，将从三部法律原文中筛选得到的词典中的法律术语定义为以下12个类别，分别为：角色RUL、合同COT、道德原则PRI、资料文书证明MAT、法律关系CON、权利RIG、责任DUT、义务OBL、法律行为BEH、金钱MON、定义DEF和违法犯罪行为ILL。

在法律原文上先对每条法律条文进行实体类型标注，将实体识别任务作为序列标注问题解决，故采用BIO方式对原法律文本进行标注，采用的标注工具为精灵标注助手，以“。”、“；”、“：”对三部法律中的每条法律条文分句，以保证每次进入算法训练的样本大小，在公司法中共352条数据，专利法中共177条数据，合同法中共805条数据，共计1334条语句。得到每部法律对应的实体标注ann文件，策略定义包括标记B的英文全程为Begin、标记B的中文含义为表示该字符位于实体首位置；标记I的英文全程为Inside、标记I的中文含义为表示该字符位于实体内部中间位置；标记O的英文全程为Outside、标记O的中文含义为表示该字符位于实体外；标注方式为汉字“公”表示为B-RUL，汉字“司”表示为B-RUL，汉字“是”表示为O，汉字“企”表示为O，汉字“业”表示为O，汉字“法”表示为B-RUL，汉字“人”表示为B-RUL，符号“，”表示为O，汉字“享”表示为O，汉字“有”表示为O，汉字“法”表示为B-RIG，汉字“人”表示为I-RIG，汉字“财”表示为I-RIG，汉字“产”表示为I-RIG，汉字“权”表示为I-RIG，符号“。”表示为O。

策略定义如表3所示，标注方式示例如表4所示。

进一步的，在标注法律术语类别的数据集中，为每个法律术语分给一个有助于提取关系结果的标签，与实体标注标签一样，用“O”表示“其他”标签，意味着对应的字符与关系抽取的结果无关，关系类型信息从表2中获得，关系标注示例如图3所示；在对法律条文的分析和对关系的定义中能得到，所有定义的关系都是围绕角色这一类别展开，故在选择主实体的时候，主实体类型均为角色类型，除去上下义关系、同义关系和反义关系，在对关系的标注过程中，该标注方法在定义的关系集合基础上，只关注两个实体之间的关系类型，而不关注实体所属的实体类型，通过对关系的分析，再确认与主实体存在关系的实体类型。如标注示例中，“公司”为主实体，标注为“ME”，在后续文本中，“法人”与“公司”之间存在关系“同义”，则将“法人”标注为“同义”的关系代表标签“SYN”；“法人财产权”与“公司”存在关系，则将“法人财产权”标注为对应关系标签“RUR”。当匹配到标签“ME”和“SYN”的组合，即抽取到(ME，SYN，法人)，通过标签映射，获得关系三元组(公司，同义，法人)。当匹配到下一个标签“ME”时，认为前一个主实体的关系全部抽取完成。

进一步的，所述步骤4具体为，包括公司法、民法典第三编和专利法，需要在这些法律原文中进行法律术语识别，法律术语类型包括：角色、合同、道德原则、资料文书证明、法律关系、权利、责任、义务、法律行为、金钱、定义、违法犯罪行为命名实体识别任务，专有名词识别任务类似于命名实体识别任务，而对于命名实体识别任务，目前主流的做法是将其视为序列标注问题，常用的深度学习模型是BiLSTM+CRF。前期进行了一系列考察，该模型在命名实体识别任务中能够取得很好的结果。对于司法领域而言，如果采用词级别的序列标注，会引入分词错误带来的误差，这是因为司法领域文本中存在大量的专有名词，对于现有的分词工具而言，这些专有名词都是未登录词，不在其词典中，因此很难正确分词。所以，在处理司法领域进行实体识别任务时，要采用字符级别的序列标注来完成；

关系抽取问题主要采用了基于BERT+BiLSTM+CRF的端到端方法进行综合预测，图4为模型整体框架。利用之前对关系的标注方法，将关系分类问题转换为了序列标注问题，同时该模型也可以完成命名实体识别任务，提高了标注效率，相比传统的关系抽取流程，先对输入文本进行命名实体识别再进行关系分类管道式的做法，减少了实体冗余和错误传播。

进一步的，所述相关序列标注算法包括BERT、BiLSTM和CRF，具体为在得到需要进行分析的法律文本后，对法律文本先进行分句操作，以“。”、“；”、“：”作为分句标识，对输入的法律文本进行切分。再针对切分后的每句话进行字符级别的处理，在每个字之间插入一个空格，将句子级别细化为字符级别，为后续对每个字符的标签进行预测做准备；

在获得从CRF层输出的字符标注标签结果后，通过遍历每个字符的标签，通过识别主实体ME来构建关系三元组。在定义的语义关系中，即上下义关系、同义关系、反义关系大多是从领域知识中得到，即已有的法律术语词典中，根据相关法律材料得到的术语解释中获得，在后续处理中需要先将这些已有的关系预先存入关系数据库中。故即使当一个文本中没有出现主实体时，我们通过相同网络训练得到的专有名词识别模型，即命名实体识别模型，识别输入文本中存在的专有名词，通过对关系数据库的搜索，我们也能够得到相关专有名词的语义关系并进行输出。当文本识别输出结果中有ME且ME不止一个且ME指代内容不同时，若该ME为第一个ME，默认将该ME出现前和到下一个ME出现前，中间文本字符所出现的所有关系字符标注认为是第一个ME的关系，构建三元组输出；

比如法律文本：公司可以设立子公司，子公司具有法人资格，依法独立承担民事责任。得到实体和关系抽取结果如图6所示，其中法律术语：股份有限公司、有限责任公司、母公司、孙公司四条术语是分别根据公司和子公司两个法律术语的术语解释属性得到，预先存储在关系数据库中获得，关系图谱最多延伸一层关系显示，即术语公司一词在关系数据库中搜索到股份有限公司和有限责任公司这一层即停止，不会再扩展股份有限公司和有限责任公司术语，子公司和民事责任同样。

表1法律术语类别定义

表2术语间关系三元组类型示例

表3实体标注策略定义

表4标注示例

/>

Claims

1.一种面向法律文本的多关系中主要关系的抽取方法，其特征在于，所述抽取方法包括以下步骤：

步骤1：根据选定的法律条文文本进行实体及实体间关系的定义；

步骤2：根据步骤1的法律实体定义和关系定义，确定对法律原文的序列标注方式；

步骤4：利用步骤3的特定语料库，训练特定领域任务的识别模型，处理识别模型预测后的标注结果，将标注结果转换为关系输出，并结合已有特定关系输出待识别法律文本的关系并确认主要关系；

在法律原文中进行法律术语识别，法律术语类型包括：角色、合同、道德原则、资料文书证明、法律关系、权利、责任、义务、法律行为、金钱、定义、违法犯罪行为命名实体识别任务，在处理司法领域进行实体识别任务时，要采用字符级别的序列标注来完成；

将关系抽取任务等同于序列标注问题，采用相关序列标注算法，对标注好的数据进行训练学习，并对输入文本的每个字符标签进行预测，从而得到识别的关系以及对应的实体类型并输出；

所述相关序列标注算法包括BERT、BiLSTM和CRF，具体为在得到需要进行分析的法律文本后，对法律文本先进行分句操作，以“。”、“；”、“：”作为分句标识，对输入的法律文本进行切分；再针对切分后的每句话进行字符级别的处理，在每个字之间插入一个空格，将句子级别细化为字符级别；

2.根据权利要求1所述一种面向法律文本的多关系中主要关系的抽取方法，其特征在于，所述步骤1具体为，在对中国民法法律原文整体筛选，对法律进行通读，得到法律原文中存在的法律术语，通过对法律原文词典的构造，其中法律行为、权利和责任出现频率较高，为法律术语类别的定义和分类提供依据；

构建一个法律关系需要三要素：法律关系主体、法律关系客体，以及法律关系内容；在不同法律关系中，主体和客体的称谓也不一样，在法律关系内容中的核心部分就包含了法律关系中主体和客体的权利和义务，在有了义务这一概念的提出后，就会有责任，民事义务是民事责任的前提，同时上述法律术语在选择的法律：中都有相对应的法律术语出现且出现次数多。

3.根据权利要求1所述一种面向法律文本的多关系中主要关系的抽取方法，其特征在于，所述步骤2具体为，将从三部法律原文中筛选得到的词典中的法律术语定义为以下12个类别，分别为：角色RUL、合同COT、道德原则PRI、资料文书证明MAT、法律关系CON、权利RIG、责任DUT、义务OBL、法律行为BEH、金钱MON、定义DEF和违法犯罪行为ILL。

4.根据权利要求1所述一种面向法律文本的多关系中主要关系的抽取方法，其特征在于，所述步骤2具体为，根据定义好的术语实体类型和对应的实体间关系类型，要完成关系抽取任务，完成命名实体识别任务；

5.根据权利要求4所述一种面向法律文本的多关系中主要关系的抽取方法，其特征在于，构建特定语料库具体为，在标注法律术语类别的数据集中，为每个法律术语分给一个有助于提取关系结果的标签，与实体标注标签一样，用“O”表示“其他”标签，意味着对应的字符与关系抽取的结果无关，在对法律条文的分析和对关系的定义中能得到，所有定义的关系都是围绕角色这一类别展开，故在选择主实体的时候，主实体类型均为角色类型，除去上下义关系、同义关系和反义关系，在对关系的标注过程中，该标注方法在定义的关系集合基础上，只关注两个实体之间的关系类型，而不关注实体所属的实体类型，通过对关系的分析，再确认与主实体存在关系的实体类型。

6.根据权利要求1所述一种面向法律文本的多关系中主要关系的抽取方法，其特征在于，通过Bert对数据的处理后获得的词向量，输入到BiLSTM网络中，通过捕获上下文特征，以获取更加全面的语义信息；通过LSTM的记忆单元和门控机制，对上下文历史信息进行有选择性的遗忘、更新和传递，从而学习到长距离的语义依赖，同时能减少网络深度和有效缓解梯度消失和梯度爆炸问题；