CN113743118A

CN113743118A - 基于融合关系信息编码的法律文书中的实体关系抽取方法

Info

Publication number: CN113743118A
Application number: CN202110828204.4A
Authority: CN
Inventors: 李晓林; 陈卓豪; 潘治霖; 黄磊
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-12-03

Abstract

本发明公开了一种基于融合关系信息编码的法律文书中的实体关系抽取方法，包括以下步骤：S1、根据预先建立的法律文书中的目标关系表使用联合标记法对训练文本中的主体、客体和非实体进行标注；S2、使用与预训练模型BERT对经过标注的训练文本进行编码，得到原始文本编码；S3、将原始文本编码输入多通道卷积神经网络，获得目标关系表中各个关系类别所对应的关系信息编码；S4、使用权值法对原始文本编码和关系信息编码进行融合，得到融合信息编码；S5、通过神经网络模型LSTM对融合信息编码进行解码，得到最后的实体关系识别结果。

Description

基于融合关系信息编码的法律文书中的实体关系抽取方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于融合关系信息编码的法律文书中的实体关系抽取方法。

背景技术

在法律行业，检察机关、律师、法官等从事司法相关行业工作人员在工作时往往需要翻阅大量相关的案件文书。自然语言处理领域中的实体关系抽取技术可以帮助司法人员快速获取文书原告、被告以及执法机关等实体之间的关系。对于法律文书而言，关系抽取的主要任务就是提取出被告人、警方、被害人等法律实体和它们之间的关联(这里的关联是事先定义的关系)，并以此构建类似于(subject，relation，object)的三元组(其中，subject代表主实体， relation代表关系，object代表客实体)。以往的实体关系抽取主要使用流水现方法，分为两步：①命名实体识别(Named Entity Recognition,NER)；②关系分类(Relation Classification,RC)。即根据命名实体识别结果对其进行关系分类。命名实体识别的目标是识别出文本中的人名、机构名、地名等命名实体。关系分类是一个多分类问题，首先需要预先对关系类型进行定义；然后再对已识别的实体进行两两配对；最后判断实体对的所属关系。流水线方法存在以下缺点：一是错误的传递问题，识别错误的实体会对之后的关系分类器的性能造成极大的干扰；二是忽略了命名实体识别和关系分类之间的内在联系，只是机械地对命名实体识别的结果进行分类，没有考虑到实体在句子中的语义。这样的抽取方法抽取效率低下，且难以识别如图1所示重叠实体关系。

发明内容

本发明的目的是提供一种可以识别出重叠的实体关系的基于融合关系信息编码的法律文书中的实体关系抽取方法。

本发明所采用的技术方案是：

提供一种基于融合关系信息编码的法律文书中的实体关系抽取方法，其特征在于，包括以下步骤：

S1、根据预先建立的法律文书中的目标关系表使用联合标记法对训练文本中的主体、客体和非实体进行标注；

S2、使用与预训练模型BERT对经过标注的训练文本进行编码，得到原始文本编码；

S3、将原始文本编码输入多通道卷积神经网络，获得目标关系表中各个关系类别所对应的关系信息编码；

S4、使用权值法对原始文本编码和关系信息编码进行融合，得到融合信息编码；

S5、通过神经网络模型LSTM对融合信息编码进行解码，得到最后的实体关系识别结果。

接上述技术方案，联合标注法具体对每个关系都进行标注，其中1、2分别对应关系中的主体标签和客体标签，0对应关系中的非实体标签。

接上述技术方案，权值法具体先使用向量点积、余弦相似度或者映射矩阵作为相关度函数计算文本的关系信息编码与原始文本编码的相关度；然后将计算后得到的相关度向量输入softmax函数，计算得到原始文本编码中各个词的权值；最后将各词的原始编码与对应的权值相乘，得到最终的融合信息编码。

接上述技术方案，神经网络模型LSTM中仅包含一个LSTM解码器。

接上述技术方案，多通道卷积神经网络的通道数为目标关系表中关系类别的个数。

本发明还提供了一种基于融合关系信息编码的法律文书中的实体关系抽取系统，包括：

标注模块，用于根据预先建立的法律文书中的目标关系表使用联合标记法对训练文本中的主体、客体和非实体进行标注；

原始文本编码模块，用于使用与预训练模型BERT对经过标注的训练文本进行编码，得到原始文本编码；

关系信息编码模块，用于将原始文本编码输入多通道卷积神经网络，获得目标关系表中各个关系类别所对应的关系信息编码；

融合信息编码模块，用于使用权值法对原始文本编码和关系信息编码进行融合，得到融合信息编码；

识别模块，用于通过神经网络模型LSTM对融合信息编码进行解码，得到最后的实体关系识别结果。

接上述技术方案，标注模块具体采用联合标注法对每个关系都进行标注，其中1、2分别对应关系中的主体标签和客体标签，0对应关系中的非实体标签。

接上述技术方案，融合信息编码模块具体采用权值法，先使用向量点积、余弦相似度或者映射矩阵作为相关度函数计算文本的关系信息编码与原始文本编码的相关度；然后将计算后得到的相关度向量输入softmax函数，计算得到原始文本编码中各个词的权值；最后将各词的原始编码与对应的权值相乘，得到最终的融合信息编码。

本发明还提供了一种计算机存储介质，其内存储可被处理器执行的计算机程序，该计算机程序具体执行上述技术方案所述的基于融合关系信息编码的法律文书中的实体关系抽取方法。

本发明产生的有益效果是：本发明通过引入联合标记的方法，对训练数据进行处理，优化了模型识别重叠实体的能力。通过引入融合关系信息的向量编码信息，在原有的文本特征上，增加了关系的信息，有利于模型准确率的提高。通过对编码方式的改进，在解码之前先获得了文本原有的信息，使得输入解码器的编码根据不同的关系进行改变，就可以让各关系所对应的不同编码共享同一个解码器，以此大大缩短了模型训练所需要的时间。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是实体关系重叠事例；

图2是本发明基于融合关系信息编码的法律文书中的实体关系抽取方法的流程示意图一；

图3是本发明实施例涉毒类的法律文书中预先定义的目标关系表；

图4是本发明实施例联合标注法过程示意图；

图5是本发明实施例基于融合关系信息编码的法律文书中的实体关系抽取流程示意图二；

图6是本发明实施例拼接融合的示意图；

图7是本发明实施例获取关系信息的模块具体结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图2所示，本发明实施例基于融合关系信息编码的法律文书中的实体关系抽取方法主要包括以下步骤：

传统的实体关系抽取方法把实体关系抽取问题视作实体对之间的多分类问题，将离散的关系标签分配给实体对。若s表示主体，o表示客体，r表示关系，分类器需要根据和计算出两者对应的关系标签，计算方法如式(1)所示：

f(s，o)→r (1)

由于大多数的实体对之间不存在关系，所以各类别分布极不平衡，且存在同一实体参与多个关系的重叠现象，分类器的训练难以进行。

本发明提出的联合标注方法在每个关系上都对文本进行了标注，将有利于解决实体关系重叠问题。在解码前先获得文本的关系信息，将其与文本的原始编码融合，使得输入解码器的编码根据不同的关系进行改变，就可以让各关系所对应的不同编码共享同一个解码器。由于编码中带有关系信息，解码器可以识别出目标编码从属于哪个关系，从而对该关系进行针对性解码。

若设g为文本获取关系信息的结构，则分类器可表示为式(2)：

f(g(word))→t (2)

其中word代表某个词语的编码，t为该词语所对应的标签。

根据式(2)所述的关系抽取模式，用户可以根据自身需求，建立自身所需要的关系类型表。

以涉毒类的法律文书为例，可简要分为如图3中的11种关系。根据定义的关系，使用联合标注法对每个关系都进行标注。联合标注法中各词语的标签只有0、1和2这三种选择。其中，1、2分别对应关系中的主体标签和客体标签，0对应关系中的非实体标签。

如图3所示，实体“王海洋”和“毒品海洛因”包含于关系三元组(王海洋，藏匿，毒品海洛因)，实体“毒品海洛因”和“10克”包含于关系三元组 (毒品海洛因，质量，10克)，在关系“藏匿”中，“王海洋”的标签为1，“毒品海洛因”的标签为2，在关系“质量”中，“毒品海洛因”的标签为1，“10 克”的标签为2。除此之外的其他词语，均不存在于任何关系中，因此它们的标签全为0。

关系信息的融合让原本不变的文本编码在各关系上具有差异性，使得解码器可以分辨出同一文本在不同关系下的区别。关系信息是针对每个关系进行构建，它的数量应与关系数量相等，为使网络规模不会随着关系数量的增加而过分扩大，使用多通道的卷积神经网络计算文本的关系信息，每一个通道对应一种关系。

步骤3中获取关系信息的模块具体结构如图7所示，由于词向量只带有词语本身的信息，为使文本的编码带有上下文信息，模型采用BERT作为原始编码。将其接入之后的卷积神经网络，可以使得输出的关系信息同时考虑到文本的全局信息和局部信息。经过池化后(经过卷积神经网络CNN处理后，每个关系都对应一个二维的特征向量，这样的特征向量虽然带有较多的关系信息，但是计算也会更加复杂，会加大训练时间。使用池化层可以在保证不丢失关系特征信息的前提下，对上游的特征向量进行降维处理。将每个关系的特征向量从二维变成一维后，当所有关系的向量复合在一起时便形成了一个二维向量，可以直接使用LSTM进行解码。同时，因为降维处理，模型参数也会变少，对后续步骤的计算速度提升也有很大帮助。)，各通道输出的向量即为对应的关系信息，将其称作关系信息向量。

得到关系信息后，需要将其与文本的原始编码进行融合，使得进入解码器的输入具有关系信息。在不同的关系中，文本中每个词的重要性都具有差异性。计算每一个词与对应关系向量的相关度，根据相关度大小来计算各词所占的权重，以此来获取关系信息，其中，词与关系向量的相关度可以使用相关度函数来计算。设文本的关系信息向量为rel，文本中第i个词的原始编码为v_i，相关度函数可以采用向量点积，如式(3)所以说

f(rel，v_i)＝rel^Tv_i (3)

对于输入的句子S＝{v₁，v₂，...，v_n}，其获取融合编码的具体流程如下：

1)、利用相关度函数计算文本的关系信息编码与原文本的相关度；

e＝(f(rel，v₁)，…，f(rel，v_n))

2)、将计算后得到的相关度向量输入softmax函数，计算得到文本中各个词的权值；

α＝softmax(e)

3)、将各词的原始编码与对应的权值相乘，得到最终的融合结果。

x＝(α₁v_i，α₂v_i，…，α_nv_i)

步骤S5中的解码层可利用LSTM作为解码器，构建一个联合模型。与多解码器联合抽取模型相比，该模型的解码器只使用了一个LSTM解码器，关系信息通过多通道的卷积神经网络获取，通道数为关系类别的个数。经过linear 线性回归处理后，输出的编码为0、1、2的标签序列，其中1代表关系中的主实体，2代表关系中的客实体，0代表该词是非关系实体。对于最终输出的标签序列，在所有关系上各自将对应的实体合并成三元组；如果文本中某关系存在多个实体对，则采用邻近匹配的原则对主客体进行配对。

实施示例：

一、场景描述

输入：被告人王海洋在住所卧室藏匿毒品海洛因5克。

输出：目标文本的标签序列可以组合成关系(王海洋，藏匿，毒品海洛因) 和关系(毒品海洛因，质量，10克)。

二、具体步骤

本发明可以对法律文书中的关系进行快速识别，必要时可以构建相关的法律文书数据库，快速获取具有类似实体关系和案件情节的法律文书，便于司法从业人员查阅。

步骤1：根据自身需要，定义如图3所示的关系列表。图3列举了法律文书毒品领域的常见关系，根据用户的需求可以继续对此关系表进行扩充。

步骤2：根据步骤1生成的关系表，对法律文书进行联合标注工作。如图4所示，联合标注法中各词语的标签只有0、1和2这三种选择。其中，1、2 分别对应关系中的主体标签和客体标签，0对应关系中的非实体标签。对于已标注的序列，在所有关系上各自将对应的实体合并成三元组。如果文本中某关系存在多个实体对，则采用邻近匹配的原则对主客体进行配对。如图3所示，实体“王海洋”和“毒品海洛因”包含于关系三元组(王海洋，藏匿，毒品海洛因)，实体“毒品海洛因”和“10克”包含于关系三元组(毒品海洛因，质量，10克)，在关系“藏匿”中，“王海洋”的标签为1，“毒品海洛因”的标签为2，在关系“质量”中，“毒品海洛因”的标签为1，“10克”的标签为2。除此之外的其他词语，均不存在于任何关系中，因此它们的标签全为0。

步骤3：使用BERT预训练模型对步骤2中经过标注的训练文本进行编码工作，获得其对应的原始文本编码。

步骤4：将步骤3中获得的原始文本编码输入多通道卷积神经网络，获得各个关系所对应的关系信息编码；

步骤5：使用权值法对步骤3中获得的原始文本编码和步骤4中获得的关系信息编码进行融合，得到对应的融合信息编码；

步骤6：将步骤5中的融合信息编码输入解码层经由LSTM单解码器进行解码，与多解码器联合抽取模型相比，该模型的解码器只使用了一个LSTM解码器，关系信息通过多通道的卷积神经网络获取，通道数为关系类别的个数。步骤7：将步骤6中得到的解码序列经过linear线性回归处理后，输出的编码为0、1、2的标签序列，其中1代表关系中的主实体，2代表关系中的客实体， 0代表该词是非关系实体。对于最终输出的标签序列，在所有关系上各自将对应的实体合并成三元组；如果文本中某关系存在多个实体对，则采用邻近匹配的原则对主客体进行配对(临近匹配原则会按照主实体的顺序，优先匹配主实体附近的客实体。按照此原则匹配的实体对准确率要更高。)。由此得到最后的关系抽取结果。

本发明实施例基于融合关系信息编码的法律文书中的实体关系抽取系统，包括：

上述实施例的系统主要用于实现基于级联模型和数据增强的法律命名实体识别方法实施例，各个模块的功能参见上文方法实施例，在此不一一赘述。

本申请还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于基于融合关系信息编码的法律文书中的实体关系抽取系统，被处理器执行时实现方法实施例的基于融合关系信息编码的法律文书中的实体关系抽取方法。

综上，本发明的创新之处在于：

1、传统的实体关系抽取方法把实体关系抽取问题视作实体对之间的多分类问题，将离散的关系标签分配给实体对。本发明通过引入联合标记的方法，对训练数据进行处理，优化了模型识别重叠实体的能力。由于大多数的实体对之间不存在关系，所以各类别分布极不平衡，且存在同一实体参与多个关系的重叠现象，分类器的训练难以进行。本文提出的联合抽取的方法在每个关系上进行对应的实体识别工作，能够提高重叠实体关系的识别效率。

2、传统的编码方式往往通过BERT等预训练模型直接进行编码工作，本发明在此基础上引入融合关系信息的向量编码信息。使得我们的编码序列在拥有BERT生成的带有上下文语义的文本特征的基础上上，融入了预先定义的关系信息，有利于模型关系抽取准确率的提高。

3、通过对编码方式的改进，使得其在解码之前预先获得了文本原有的信息。相比传统方法使用多个解码器进行解码，本发明输入解码器的编码根据不同的关系进行解码，就可以让各关系所对应的不同编码共享同一个解码器，大大缩短了模型训练所需要的时间。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于融合关系信息编码的法律文书中的实体关系抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于融合关系信息编码的法律文书中的实体关系抽取方法，其特征在于，联合标注法具体对每个关系都进行标注，其中1、2分别对应关系中的主体标签和客体标签，0对应关系中的非实体标签。

3.根据权利要求1所述的基于融合关系信息编码的法律文书中的实体关系抽取方法，其特征在于，权值法具体先使用向量点积、余弦相似度或者映射矩阵作为相关度函数计算文本的关系信息编码与原始文本编码的相关度；然后将计算后得到的相关度向量输入softmax函数，计算得到原始文本编码中各个词的权值；最后将各词的原始编码与对应的权值相乘，得到最终的融合信息编码。

4.根据权利要求1所述的基于融合关系信息编码的法律文书中的实体关系抽取方法，其特征在于，神经网络模型LSTM中仅包含一个LSTM解码器。

5.根据权利要求1所述的基于融合关系信息编码的法律文书中的实体关系抽取方法，其特征在于，多通道卷积神经网络的通道数为目标关系表中关系类别的个数。

6.一种基于融合关系信息编码的法律文书中的实体关系抽取系统，其特征在于，包括：

7.根据权利要求6所述的基于融合关系信息编码的法律文书中的实体关系抽取系统，其特征在于，标注模块具体采用联合标注法对每个关系都进行标注，其中1、2分别对应关系中的主体标签和客体标签，0对应关系中的非实体标签。

8.根据权利要求6所述的基于融合关系信息编码的法律文书中的实体关系抽取系统，其特征在于，融合信息编码模块具体采用权值法，先使用向量点积、余弦相似度或者映射矩阵作为相关度函数计算文本的关系信息编码与原始文本编码的相关度；然后将计算后得到的相关度向量输入softmax函数，计算得到原始文本编码中各个词的权值；最后将各词的原始编码与对应的权值相乘，得到最终的融合信息编码。

9.根据权利要求6所述的基于融合关系信息编码的法律文书中的实体关系抽取系统，其特征在于，神经网络模型LSTM中仅包含一个LSTM解码器。

10.一种计算机存储介质，其特征在于,其内存储可被处理器执行的计算机程序，该计算机程序具体执行权利要求1-5中任一项所述的基于融合关系信息编码的法律文书中的实体关系抽取方法。