CN117540035A

CN117540035A - 一种基于实体类型信息融合的rpa知识图谱构建方法

Info

Publication number: CN117540035A
Application number: CN202410027166.6A
Authority: CN
Inventors: 裴学良; 陈伟雄; 刘雨欣; 于星晨; 卜晨阳; 吴信东
Original assignee: Anhui Sigao Intelligent Technology Co ltd
Current assignee: Anhui Sigao Intelligent Technology Co ltd
Priority date: 2024-01-09
Filing date: 2024-01-09
Publication date: 2024-02-09
Anticipated expiration: 2044-01-09
Also published as: CN117540035B

Abstract

本发明涉及一种基于实体类型信息融合的RPA知识图谱构建方法包括步骤：基于翻译规则的知识表示模型对实体类型进行训练；将实体类型的表示和关系实例输入至实体对编码模块，得到融合实体类型信息的实体对表示；使用伪标签生成模块将融合实体类型信息的实体对表示映射到用于表达语义关系的空间，并且为未标记数据生成伪标签；利用标记数据的关系标签和生成的伪标签训练关系分类器，得到训练好的关系分类器；利用训练好的关系分类器进行关系抽取。本发明有益效果是：减少了实体类型不匹配的噪音产生，从而建立更高质量RPA知识图谱。

Description

一种基于实体类型信息融合的RPA知识图谱构建方法

技术领域

本发明涉及知识图谱构建领域，尤其涉及一种基于实体类型信息融合的RPA知识图谱构建方法。

背景技术

机器人流程自动化RPA（Robotic Process Automation, RPA）广义上是指以软件机器人为基础的业务流程自动化技术。RPA技术中，机器人可以在制定的业务规则执行特定的脚本，实现业务人员的操作并与系统交互。RPA机器人不仅能代替大量人工重复操作，而且还能实现全天24小时不间断的在线处理业务工作。近几年RPA技术被广泛用于多个科学领域，例如财务、医疗和法律等。

RPA技术中集成了屏幕抓取、鼠标点击模拟技术、键盘输入模拟技术等多种技术，从而将一段具有规则、需要重复的执行的业务流程变成一段逻辑完整且可自动化执行的流程文件。目前，已经出现了一批优秀的RPA企业及其研发的RPA平台，例如国内的讯飞RPA、国际上的Automation AnyWhere和Blue Prisim；但几乎所有的RPA技术都是面向企业级客户，而不面向个人开发者。其次，RPA技术的基础工作需要人工描述业务流程以提炼业务规则，由于现有的描述方法众多且不统一，导致同一个业务流程，甲公司的RPA模型无法为乙公司所复用，增加了二次开发成本。

知识图谱技术通过复杂的知识领域通过数据挖掘等技术帮助企业自动构建行业图谱，摆脱原始的人工输入。

通过对RPA的流程描述进行如关系抽取等知识图谱构建技术，建立其RPA的知识图谱，以便达到对信息和知识的有效组织，从而减少重复的人工输入流程。

一般知识图谱中，三元组的关系潜在地限制了头尾实体的类型。目前基于聚类的开放域关系抽取方法存在如下问题：无法捕捉到关系类型对头尾实体类型的约束。如果不能捕捉到这种约束，会导致以下两种情况。

情况一是将表达不同关系的句子聚类到一起，产生实体类型不匹配的噪音，而这两个句子本可以通过实体类型进行区分。

情况二是虽然将表达相同关系的句子聚类到一起，但是由于句子中的实体众多，下游任务无法准确抽取出对应的三元组。而当使用基于聚类的关系抽取技术来对RPA流程描述文字进行RPA知识图谱构建时，常常会遇到以上两个情况，因为RPA的流程描述通常会出现高密度的实体和关系，例如“数据查询步骤打开浏览器并根据配置文件的网址信息查询并访问网址”中，就包含了“数据查询步骤”“浏览器”、“配置文件”、“网址信息”四个类型的实体和“打开”、“查询”和“访问”三种关系。再例如句子“数据处理步骤中调用python程序根据配置文件类型信息对结果Excel文件信息进行筛选处理”，由于句中的实体众多，聚类结束后得到的三元组是（python程序，筛选处理，配置文件），这显然是不符合原句的逻辑的。

但是如果能充分考虑实体类型信息，例如“配置文件”属于“可读写文件”，而不能与关系“筛选处理”匹配，从而避免尝试如上的错误的三元组。

发明内容

为了解决未能充分考虑实体类型信息而无法准确抽取任务三元组信息，本发明提出了一种基于实体类型信息融合的RPA知识图谱构建方法，包括以下步骤：

S1、基于翻译规则的知识表示模型对实体类型进行训练；

S2、将实体类型的表示和关系实例输入至实体对编码模块，得到融合实体类型信息的实体对表示；

S3、使用伪标签生成模块将融合实体类型信息的实体对表示映射到用于表达语义关系的空间，并且为未标记数据生成伪标签；

S4、利用标记数据的关系标签和生成的伪标签训练关系分类器，得到训练好的关系分类器；

S5、利用训练好的关系分类器进行关系抽取。

本发明提供的有益效果是：与现有技术相比，本发明提出的技术方案中将知识图谱的关系抽取技术引入RPA领域并且充分利用了实体类型信息。通过将实体类型的表示和关系实例输入到实体对编码模块，获得融合实体类型信息的实体对表示，进而将实体类型信息融合到表示中以捕捉关系对头尾实体类型的约束信息，减少实体类型不匹配的噪音产生，从而建立更高质量RPA知识图谱。

附图说明

图1是本发明方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，图1是本发明系统结构的示意图；本发明提供的一种基于实体类型信息融合的RPA知识图谱构建方法，具体包括以下步骤：

S1、基于翻译规则的知识表示模型对实体类型进行训练；

步骤S1具体如下：

S11、对每个实体类型，随机生成一个固定维度的实体类型向量，并将实体类型向量拼接到实体对表示的后面；

S12、使用基于翻译规则的知识表示模型对所述实体类型向量进行优化训练，获得知识增强后的实体类型向量。

需要说明的是，对于实体类型这一信息的使用，本发明提出两种策略。

一种是使用随机生成策略，对每个实体类型随机生成一个固定维度的实体类型向量，将向量拼接到实体对表示的后面。

然而基于随机生成策略得到的向量仅能起到类型区分的作用。受 word2vec和基于翻译规则的知识表示模型的启发，本方法进一步提出第二种优化学习策略，使用知识表示模型对实体类型向量进行优化训练，获得知识增强后的实体类型向量。经过知识增强后的实体类型向量，不仅可以标识实体类别，还可以进行复杂运算，包含更加丰富的信息。

本发明中使用基于翻译规则的知识表示模型进行训练，将实体类型统一映射到实体类型空间，可以让具有相同特点的实体类型聚簇，从而获得包含更丰富语义的实体类型表示。

知识表示模型的训练数据为实体类型三元组；

对于标记数据，实体类型对通过将标记数据中三元组(h,r,t)的头尾实体h,t替换为对应实体类型type _h、type _t获得。

对于未标记数据，初次训练时都看作是新的关系类型，实体类型对相同的记为一种关系。经过一次迭代后，关系分类器会为每个未标记数据输出一个预测关系类型标签，此时即可将预测标签作为未标记数据的关系标签来辅助知识表示模型进行实体类型训练。

由于关系分类器预测的准确性并不能保证，所以将设定一个置信度阈值，只有高于这个阈值的关系类型标签才会被采纳形成实体类型三元组。

经过处理后，将有很多重复的实体类型三元组，只保留一部分进行训练。

出现频次最高的三元组保留一百条数据，其他的三元组按照对应比例进行保留，保证参与预训练的实体类型三元组数据分布与之前一致。

所述基于翻译规则的知识表示模型采用TransH模型。

使用实体类型替换为原有的三元组实体，得分函数公式如下：

其中，实体类型表示为；type _h为头实体，type _t为尾实体,为实体关系。

经过训练后，实体类型训练模块可以获得知识增强后的实体类型向量计算公式如下：

其中，表示头实体的实体类型向量；/>表示尾实体的实体类型向量；Z(·,·)表示由实体类型训练模块Z获得的向量对；/>表示头实体的实体类型；/>表示尾实体的实体类型。

步骤S2具体如下：

S21、获取关系实例s _i，所述关系实例包括1个句子x _i，两个标记实体对位置的实体跨度e ^h和e ^t，以及对应的实体类型type _h和type _t；

S22、所述实体对编码模块对实体跨度内的序列表示进行最大池化操作：

其中，h _start、h _end分别表示实体跨度起始处和结束处的嵌入表示，h _ent表示单个实体的嵌入表示；

需要说明的是，实体对编码模块采用编码器，其旨在映射关系实例/>到低维向量稠密空间，获得一个固定长度的实体对表示/>，编码关系实例的上下文信息和实体类型信息。

为了使得每个实例表达的关系类型可以通过它们的上下文来反映，可以采用 CNN或者 BERT 模型作为编码器的实现。

本模块采用BERT作为编码器的实现，因为它相较于CNN能提取到更丰富的上下文信息，且能够解决长时间依赖问题并提高计算效率。

S23、将头、尾实体表示进行拼接，得到最终融合实体类型信息的实体对表示，如下式：

其中/>和/>表示头、尾实体的类型嵌入，/>表示连接操作符。

基于上述设置，实体对编码模块不仅可以编码上下文信息，还将实体类型信息融入，使得模型可以捕获关系对实体类型的约束信息。

所述伪标签生成模块包括一个非线性编码器g和一个非线性解码器d；

对于标记数据，所述非线性编码器在关系标签的监督下，使中心损失函数将聚集到它的关系质心，其中/>=g(h _i)；

对于未标记数据，将实体对表示用非线性编码器g映射后得到新语义空间下的表示向量，并在此基础上使用Kmeans聚类算法进行聚类，聚类后的每个簇的类就是未标记实例获得的伪标签。

具体来说，伪标签生成模块主要包括一个非线性编码器和一个非线性解码器/>，它们都由前馈神经网络构成的，具体包括一个全连接层、两个隐藏层和一个输出层。

编码器的作用为将融合实体类型信息的实体对表示映射到用于表达语义关系的空间，并在此空间中将表达相同关系的实体对表示聚集在一起，表达不同关系的实体对表示远离，公式如下：

=g(h _i)

对于标记数据，在关系标签的监督下，使用中心损失函数将/>聚集到它的关系质心。损失函数如下：

其中，是解码器模块，此解码器的作用是将/>映射回原来的空间。/>表示度量重构误差的最小二乘损失。/>是用来平衡重构误差和中心损失的超参数。

对于未标记数据，将实体对表示用非线性编码器映射后得到新语义空间下的表示向量，再在此基础上使用 Kmeans聚类算法进行聚类，聚类后每个簇的类别就是未标记实例获得的伪标签/>。

所述关系分类器包括两个，分别为第一关系分类器和第二关系分类器/>；

所述生成的伪标签用于训练第一关系分类器；

所述标记数据的关系标签用于训练第二关系分类器。

具体的说，两个分类器各由一个输入层、一个输出层和一个softmax层构成。它们将原始关系实例转换成一个实值向量，以得到输入关系实例属于一个关系/>的概率。

基于聚类生成的伪标签用于训练关系第一关系分类器/>，通过细化实体对表ℎ来编码更丰富的上下文信息。

第一关系分类器的学习基于如下假设：如果一对关系实例来自同一个聚类，那么第一关系分类器/>将输出相似的分布，反之亦然。

为了描述输出的分布信息，首先定义用表示两个实例/>和/>是否属于同一聚簇。来自同一聚簇的实例对，定义损失/>：

使用 KL 散度来度量两个分布间的“距离”，其中表示假设P是个常数，此时是一个一元函数。对于来自不同簇的实例/>和/>，那么它们的输出分布预计也是不同的，此处使用 hinge 损失函数，具体计算公式如下：

其中，为超参数。因此，整体损失函数如下：

由于使用标记数据来引导实体对表示向其关系质心进行聚集会对预定义的关系产生聚类偏差，因此很难直接为新的关系生成高质量的伪标签/>。

为了减少伪标签错误所带来的负面影响，使用第二关系分类器对预定义关系的关系实例进行分类。

第二关系分类器的损失函数/>定义如下:

最终使用联合损失函数来优化实体对表示/>，/>的定义如下：

。

S5、利用训练好的关系分类器进行关系抽取。

最后，本发明的关键点如下：

实体的类型信息隐藏了关系类型对头实体和尾实体的类型约束，如果不能捕捉到这种约束，会导致以下两种情况。

情况二是虽然将表达相同关系的句子聚类到一起，但是由于句子中的实体众多，下游任务无法准确抽取出对应的三元组。

本发明通过将实体类型的表示和关系实例输入到实体对编码模块，获得融合实体类型信息的实体对表示，进而将实体类型信息融合到表示中。

每个给定的关系实例，包括一个句子/>，两个标记实体对位置的实体跨度/>和，以及头尾实体的对应实体类型/>和/>。

实体对编码器旨在映射关系实例/>到低维向量稠密空间，获得一个固定长度的实体对表示/>，编码关系实例的上下文信息和实体类型信息。

本发明采用 BERT 作为实体对编码器的实现，因为它相较于CNN能提取到更丰富的上下文信息，且能够解决长时间依赖问题并提高计算效率。

使用如下公式对实体跨度内的序列表示进行最大池化操作：

其中，、/>分别表示实体跨度起始处和结束处的嵌入表示，/>表示单个实体的嵌入表示。

最后将头尾实体表示与实体类型表示进行拼接获得最终代表关系实例的实体对表示，拼接公式如下：

其中和/>表示头尾实体的类型嵌入，⊕表示连接操作符。基于上述设置，实体对编码模块不仅可以编码上下文信息，还将实体类型信息融入，使得模型可以捕获关系对实体类型的约束信息。

综合来看，本发明的有益效果是：与现有技术相比，本发明提出的技术方案中将知识图谱的关系抽取技术引入RPA领域并且充分利用了实体类型信息。通过将实体类型的表示和关系实例输入到实体对编码模块，获得融合实体类型信息的实体对表示，进而将实体类型信息融合到表示中以捕捉关系对头尾实体类型的约束信息，减少实体类型不匹配的噪音产生，从而建立更高质量RPA知识图谱。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于实体类型信息融合的RPA知识图谱构建方法，其特征在于：包括以下步骤：

S1、基于翻译规则的知识表示模型对实体类型进行训练；

S5、利用训练好的关系分类器进行关系抽取。

2.如权利要求1所述的一种基于实体类型信息融合的RPA知识图谱构建方法，其特征在于：步骤S1具体如下：

3.如权利要求1所述的一种基于实体类型信息融合的RPA知识图谱构建方法，其特征在于：所述基于翻译规则的知识表示模型采用TransH模型。

4.如权利要求3所述的一种基于实体类型信息融合的RPA知识图谱构建方法，其特征在于：所述TransH模型的得分函数如下：

其中，实体类型表示为；type _h为头实体，type _t为尾实体，/>为实体关系。

5.如权利要求4所述的一种基于实体类型信息融合的RPA知识图谱构建方法，其特征在于：所述TransH模型的损失函数如下：

其中，/>表示实体类型三元组集合，/>表示通过负采样获得的实体类型三元组的负样本集合，/>中的每个三元组都不在/>中，/>是一个超参数，用于修正正负样本的间隔。

6.如权利要求4所述的一种基于实体类型信息融合的RPA知识图谱构建方法，其特征在于：增强后的实体类型向量如下：

7.如权利要求4所述的一种基于实体类型信息融合的RPA知识图谱构建方法，其特征在于：步骤S2具体如下：

其中和/>表示头、尾实体的类型嵌入，/>表示连接操作符。

8.如权利要求7所述的一种基于实体类型信息融合的RPA知识图谱构建方法，其特征在于：所述伪标签生成模块包括一个非线性编码器g和一个非线性解码器d；

9.如权利要求8所述的一种基于实体类型信息融合的RPA知识图谱构建方法，其特征在于：所述中心损失函数如下式：

其中，d为解码器，是用来平衡重构误差和中心损失的超参数。

10.如权利要求9所述一种基于实体类型信息融合的RPA知识图谱构建方法，其特征在于：所述关系分类器包括两个，分别为第一关系分类器和第二关系分类器/>；

所述生成的伪标签用于训练第一关系分类器；

所述标记数据的关系标签用于训练第二关系分类器。