CN110825890A

CN110825890A - 一种预训练模型知识图谱实体关系抽取方法及装置

Info

Publication number: CN110825890A
Application number: CN202010029435.4A
Authority: CN
Inventors: 查文宇; 张艳清; 蓝科; 王竞奇; 王琳; 殷腾蛟
Original assignee: Chengdu Sefon Software Co Ltd
Current assignee: Chengdu Sefon Software Co Ltd
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2020-02-21

Abstract

本发明公开了一种预训练模型知识图谱实体关系抽取方法及装置，基于蚁群算法，蚁群算法的基本原理可以概括为以下步骤：1、蚂蚁在觅食的路径上会分泌一种信息素，能被后面的蚂蚁识别；2、在碰到还未走过的路时会随机选择路走，同时在新的路径也释放信息素；3、路径越长信息素的浓度就会越低，后面的蚂蚁在分叉路口时会选择信息素浓度最高的一条路；4、因此如此循环下去，最优路径上的信息素浓度会越来越高；5、最终蚁群找到最优的觅食途径。本方案基于上述思路通过建立指针路径模型来进行实体关系抽取。解决了现有的实体关系抽取算法采用的机制较为复杂，在进行训练时，计算量较大，计算周期较长，且无法进行并行训练的问题。

Description

一种预训练模型知识图谱实体关系抽取方法及装置

技术领域

本发明涉及机器学习领域，特别涉及一种预训练模型知识图谱实体关系抽取方法及装置。

背景技术

预训练可以较好的解决深度学习的一些缺点，例如深度学习的网络越深，需要学习的参数因此也越多，也因此需要更多的训练样本，不然小规模的样本容易造成网络的过拟合。同时深层神经网络有梯度扩散的问题，这会导致前面网络参数贡献将会很小，导致更新速度很慢。常用的预训练方法有逐层贪婪训练和无监督预训练（unsupervised pre-training）即训练网络的第一个隐藏层，再训练第二个…最后用这些训练好的网络参数值作为整体网络参数的初始值。经过预训练最终能得到比较好的局部最优解。

知识图谱主要目标是用来描述真实世界中存在的各种实体和概念，以及他们之间的强关系，我们用关系去描述两个实体之间的关联，例如姚明和火箭队之间的关系，他们的属性，我们就用“属性--值对”来刻画它的内在特性，比如说我们的人物，他有年龄、身高、体重属性。同时知识图谱可以通过人为构建与定义，去描述各种概念之间的弱关系，例如：“忘了订单号”和“找回订单号”之间的关系

实体是指具有可描述意义的单词或短语，通常可以是人名、地名、组织机构名、产品名称，或者在某个领域内具有一定含义的内容。实体是构建知识图谱的主要成员。

关系是指不同实体之间的相互的联系。实体与实体之间并不是相互独立的，往往存在一定的关联。例如“乔布斯”和“苹果”分别属于实体中的人名和产品名称，而它们是具有一定关系的。

在命名实体识别和关系抽取之后，需要对所产生的数据进行整合，三元组是能够描述整合后的最好方式。三元组是指（实体1，关系，实体2）组成的元组，在关系抽取任务中，对任意两个实体1和实体2进行关系抽取时，若两者具有关系，则它们可以构建成三元组。例如一句话“爱迪生发明了电灯泡”，可以构建的三元组为“爱迪生”，“发明”，“电灯泡”。

现有的实体关系抽取算法采用的机制较为复杂，在进行训练时，计算量较大，计算周期较长，且无法进行并行训练。

发明内容

本发明的目的在于：提供了一种预训练模型知识图谱实体关系抽取方法及装置，解决了现有的实体关系抽取算法采用的机制较为复杂，在进行训练时，计算量较大，计算周期较长，且无法进行并行训练的问题。

本发明采用的技术方案如下：

一种预训练模型知识图谱实体关系抽取方法，包括以下步骤：

S2、对语料数据进行实体识别；

S3、建立指针路径模型，

表示t时刻指针k从实体i移动到实体j的概率；

；

S4、建立指针信息素释放模型，初始化指针参数后构建解空间；

S5、对语料数据进行迭代训练输出最优解。

蚁群算法的基本原理可以概括为以下步骤：

1、蚂蚁在觅食的路径上会分泌一种信息素，能被后面的蚂蚁识别；

2、在碰到还未走过的路时会随机选择路走，同时在新的路径也释放信息素；

3、路径越长信息素的浓度就会越低，后面的蚂蚁在分叉路口时会选择信息素浓度最高的一条路；

4、因此如此循环下去，最优路径上的信息素浓度会越来越高；

5、最终蚁群找到最优的觅食途径。

综上所述，我们需要找到一种方法来发现实体间应该存在的最合适的关系，因此我们借鉴蚁群算法来实现这种关系的发现。本方案基于上述思路通过建立指针路径模型来进行实体关系抽取，我们假设指针个数，即蚂蚁群体中的蚂蚁数量，为m个，样本中有n个实体，不同的实体i和实体j之间的距离d_ij=(i,j=1,2,...n), t时刻实体i与实体j之间的信息浓度为

。初始时刻，各个实体之间路径上的信息浓度为

=

。

指针k（k=1,2...m）根据各个实体间连接路径上的信息浓度决定其下一个访问的实体，设

表示t时刻指针k从实体i移动到实体j的概率，其计算公式如下：

；

其中，

为启发函数，

，表示指针从实体i转移到实体j的期望程度。allow为指针待访问实体的集合。开始时allow中有（n-1）个元素，即包括了除指针k出发实体的其他所有实体。随着时间的推移，allow中的实体数量不断减少，直到为空，即表示所有的实体都已访问完毕。其中

为信息启发式因子，

值越大，指针选择之前走过的路线可能性就越大，搜索路径的随机性会减弱，

值越小，指针搜索的范围就会减少，容易陷入局部最优解。

为期望启发式因子，

值越大，指针就越容易选择局部较短路径，这时算法的收敛速度虽然会加快，但是随机性不高，容易得到局部相对最优。

进一步的，步骤S3中指针信息素释放模型为：

；

。

进一步的，所述

采用以下三种模型中的一种：

蚁周模型：

；

蚁量模型：

；

蚁密模型：

。

为了避免残留信息过多而淹没启发信息，在每个指针走完一步或者完成对所有n个实体的遍历，即一个循环结束后，要对残留信息进行更新处理。由此，t+1时刻在路径(i,j)上的信息量可按如下规则进行调整：

；

。

其中参数，表示信息的衰减程度，表示第k个指针在实体i与实体j连接路径上释放的信息浓度，

表示所有的蚂蚁在实体i与实体j连接路径上释放的信息浓度之和。

进一步的，为释放信息素的特点定义三种模型：

蚁周模型：

；

其中Q为常数，表示指针循环一次所释放的信息总量，L_k为第k个指针经过的路径长度，该模型假设信息素总量一定，信息素浓度和经过路径的长度成反比。

蚁量模型：

；

该模型中不使用经过的总路径，而仅仅使用相邻实体的路径长度，

为实体i和实体j之间的距离，该模型假设信息素总量一定，信息素浓度和实体间的距离成反比。。

蚁密模型：

。

进一步的，还包括步骤：

S1、对语料数据进行预处理。

进一步的，所述语料数据预处理的方法包括以下步骤：

S101、对输入语料数据进行分词处理；

S102、对输入语料数据进行去停用词处理；

S103、将输入的语料数据转化为向量化的形式。

进一步的，步骤S2对语料数据进行实体识别的识别方法包括以下方法中的至少一种：

S204、基于规则对语料数据进行实体识别；

S205、基于统计对语料数据进行实体识别；

S206、基于XLNet训练方法对语料数据进行实体识别。

进行实体识别，根据不同的场景可以进行不同的实体抽取，主要的实体抽取方法主要包括：

基于规则，使用已定义的规则，抽取出文本中的人名、地名、组织机构名、特定时间等实体。然而，基于规则模板的方法不仅需要依靠大量的专家来编写规则或模板，覆盖的领域范围有限，而且很难适应数据变化的新需求，如NTU系统、FACILE系统、OKI系统；

基于统计，将机器学习中的监督学习算法用于命名实体的抽取问题上，单纯的监督学习算法在性能上不仅受到训练集合的限制，并且算法的准确率与召回率都不够理想，如n元模型、隐马尔科夫模型（HMM）、最大熵模型（ME）、决策树等；

混合方法，如借助规则知识及早剪枝，再用统计模型；

预训练XLNet网络，XLNet 是一个类似 BERT 的模型，而不是完全不同的模型。总之，XLNet是一种通用的自回归预训练方法。XLNet 则是基于 BERT 的优缺点，提出的一种泛化自回归预训练方法。它通过最大化因子分解顺序所有排列的期望似然来实现双向上下文的学习；通过自回归公式克服了 BERT 的局限性，并将来自 Transformer-XL(最先进的自回归模型) 的思想集成到预训练中，在长文本表示的语言任务中表现出了优异的性能。

进一步的，步骤S4中的指针参数包括指针规模、信息重要程度因子、启发函数重要程度因子、信息衰减因子、信息释放总量Q和最大迭代次数MaxIter。构建解空间的方法为将各个指针放在不同的出发点，遍历每一个指针，计算其下一个待访问的实体，直到所有的指针访问完所有的实体。

进一步的，步骤S5中对语料数据进行迭代训练输出最优解的方法包括以下步骤：

S501、判断迭代次数Iter是否大于最大迭代次数MaxIter，若Iter < MaxIter则进入步骤S502，否则终止计算，输出最优解；

S502、清空指针经过的路径记录，进行一次迭代计算，计算各个指针经过的路径长度Lk，记录当前迭代次数中的最优解；

S503、将迭代次数Iter加1后转入步骤S501。

一种预训练模型知识图谱实体关系抽取装置，包括处理器和存储器；

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令，实现如上述的一种预训练模型知识图谱实体关系抽取方法。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明一种预训练模型知识图谱实体关系抽取方法及装置，本算法采用正反馈机制，使得搜索过程不断收敛，最终逼近最优解；

2.本发明一种预训练模型知识图谱实体关系抽取方法及装置，采用分布式计算，多个指针同时进行并行计算，大大提高了算法的计算能力以及运行效率；

3.本发明一种预训练模型知识图谱实体关系抽取方法及装置，启发式的概率不容易陷入局部最优，易于寻找到全局最优解。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本发明的方法流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合图1对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

实施例1

S2、对语料数据进行实体识别；

S3、建立指针路径模型，

表示t时刻指针k从实体i移动到实体j的概率；

；

S5、对语料数据进行迭代训练输出最优解。

蚁群算法的基本原理可以概括为以下步骤：

5、最终蚁群找到最优的觅食途径。

综上所述，我们需要找到一种方法来发现实体间应该存在的最合适的关系，因此我们借鉴蚁群算法来实现这种关系的发现。本方案基于上述思路通过建立指针路径模型来进行实体关系抽取，不失一般性，我们假设指针个数，即蚂蚁群体中的蚂蚁数量，为m个，样本中有n个实体，不同的实体i和实体j之间的距离d_ij=(i,j=1,2,...n), t时刻实体i与实体j之间的信息浓度为

。初始时刻，各个实体之间路径上的信息浓度为

=

。

；

其中，

为启发函数，

为信息启发式因子，

值越大，指针选择之前走过的路线可能性就越大，搜索路径的随机性会减弱，值越小，指针搜索的范围就会减少，容易陷入局部最优解。

为期望启发式因子，

实施例2

本实施例在实施例1的基础上进一步的，步骤S3中指针信息素释放模型为：

；

。

进一步的，所述

采用以下三种模型中的一种：

蚁周模型：

；

蚁量模型：

；

蚁密模型：

。

；

。

其中参数

，表示信息的衰减程度，

表示第k个指针在实体i与实体j连接路径上释放的信息浓度，

进一步的，为释放信息素的特点定义三种模型：

蚁周模型：

；

蚁量模型：

；

蚁密模型：

。

实施例3

本实施例在实施例1的基础上进一步的，还包括步骤：

S1、对语料数据进行预处理。

进一步的，所述语料数据预处理的方法包括以下步骤：

S101、对输入语料数据进行分词处理；

S102、对输入语料数据进行去停用词处理；

S103、将输入的语料数据转化为向量化的形式。

S204、基于规则对语料数据进行实体识别；

S205、基于统计对语料数据进行实体识别；

S206、基于XLNet训练方法对语料数据进行实体识别。

混合方法，如借助规则知识及早剪枝，再用统计模型；

实施例4

本实施例在实施例1的基础上进一步的，步骤S4中的指针参数包括指针规模、信息重要程度因子、启发函数重要程度因子、信息衰减因子、信息释放总量Q和最大迭代次数MaxIter。构建解空间的方法为将各个指针放在不同的出发点，遍历每一个指针，计算其下一个待访问的实体，直到所有的指针访问完所有的实体。

S503、将迭代次数Iter加1后转入步骤S501。

实施例5

存储器，用于存储可执行指令；

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。