CN116128056B

CN116128056B - 一种面向rpa的多模态交互实体对齐方法

Info

Publication number: CN116128056B
Application number: CN202310413233.3A
Authority: CN
Inventors: 储成浩; 曹志勇; 吴萌; 龚栎鑫; 李扬
Original assignee: Anhui Sigao Intelligent Technology Co ltd
Current assignee: Anhui Sigao Intelligent Technology Co ltd
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-07-07
Anticipated expiration: 2043-04-18
Also published as: CN116128056A

Abstract

本发明公开了一种面向RPA的多模态交互实体对齐方法，包括获取RPA操作信息；基于RPA操作信息生成多模态知识图谱；根据多模态知识图谱，构建多模态交互实体对齐模型，获得各实体之间的相似度向量；利用相似度向量对RPA不同流程下的知识图谱间的实体进行对齐。本发明利用RPA流程中得到的操作信息构建多模态知识图谱，使用多模态交互实体对齐模型融合RPA操作信息，得到更加精准的实体之间的相似度关系。最后利用实体之间的相似度向量消除实体之间的间隙，实现RPA实体之间的对齐工作。

Description

一种面向RPA的多模态交互实体对齐方法

技术领域

本发明属于RPA产品、实体对齐技术领域，具体涉及一种面向RPA的多模态交互实体对齐方法。

背景技术

知识图谱是一种由节点和边组成的数据结构，用于存储知识数据。随着相关研究的发展，出现了越来越多的多模态知识图谱。理论上，多模态知识图谱不仅存储了文本模式的信息，还包含了图片、视频的信息。随着多模态知识图谱的发展，基于多模态知识图谱的实体对齐模型也相应出现。

机器人流程自动化(RoboticProcess Automation, RPA)是一种通过计算机自动执行固定流程的技术。它通过模仿最终用户在电脑的手动操作方式，提供了另一种方式使最终用户手动操作流程自动化。相比于传统软件，RPA具有开发周期更短、设计更加简单等明显优势。在RPA的实施流程中会产生大量的信息，包括操作文字信息、操作界面图像信息和操作之间的行为意图信息等。如何充分利用这些数据成为了RPA领域的热门研究方向。

专利：“RPA知识图谱建立方法、装置、服务器和存储介质”，提出了一种对RPA知识图谱的建立方法。该专利中提出利用RPA需求收集器获取用户的操作信息和页面图像信息，对所属页面图像进行文字识别，获取文本信息，基于所述操作信息与文本信息的关联关系生成知识图谱。该专利利用RPA自动执行需求收集功能的软件，对各网页和软件的操作路径和结果进行配对标签，建立操作与结果的知识图谱，新用户在接触到新的网页时，能够根据知识图谱获知什么操作会打开什么页面，快速上手新网页，方便了新用户使用。专利：“结合RPA和AI的票务信息处理方法、装置、电子设备及存储介质”，提出了一种结合RPA和知识图谱的搜索方法。它通过NLP技术对接收到的问题信息进行语义分析，得到第一实体和条件；接着根据第一实体和条件，从知识图谱中查找符合条件的第二实体；将第二实体作为答案反馈给用户端。专利：“结合RPA及AI的知识图谱构建方法、装置、终端及存储介质”，提出了一种结合RPA的知识图谱构建方法。它包括获取针对知识图谱构建功能所输入的数据集合；通过RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合，采用深度学习模型在三元组中获取第一实体对应的三元组信息子集；对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱。然而，现有的大部分工作都是基于单模态知识图谱进行的，缺少构建RPA多模态知识图谱。在少有的RPA多模态知识图谱工作中，目前还没有结合RPA多模态知识图谱的实体对齐工作。

发明内容

有鉴于此，本发明提出一种面向RPA的多模态交互实体对齐方法，包括以下步骤：

S1、获取RPA操作信息，所述RPA操作信息包括：操作文字信息、操作界面图像信息、操作的属性信息，各个操作之间的关系；

S2、基于RPA操作信息生成多模态知识图谱；

S3、根据多模态知识图谱，构建多模态交互实体对齐模型，获得各实体之间的相似度向量；

S4、利用各实体之间的相似度向量对RPA不同流程下的知识图谱间的实体进行对齐。

本发明提供的技术方案带来的有益效果是：

本发明将多模态交互实体对齐模型应用在RPA多模态知识图谱上。利用RPA流程中得到的操作信息构建多模态知识图谱，使用多模态交互实体对齐模型对操作文本信息、操作界面图像信息、操作属性信息和操作之间的关系等信息融合，得到更加精准的实体之间的相似度关系。最后利用实体之间的相似度向量消除实体之间的间隙，实现RPA实体之间的对齐工作。

附图说明

图1是本发明一种面向RPA的多模态交互实体对齐方法的流程图；

图2是本发明实施例面向RPA的多模态交互实体对齐方法图像交互视图的全过程。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

本实施例的实现基于现有技术的一种基于BERT的交互模型BERT-INT，它将BERT模型作为基础的表示单元对实体的名称、描述、属性和属性值进行嵌入，交互模型建立在由Bert产生的embedding之上。交互模型更进一步分为名称/描述交互视图、邻居交互视图和属性交互视图。之后采用统一的二元整合函数从邻居交互视图和属性交互视图抽取特征进一步评估实体匹配的得分。通过捕获邻居之间的细粒度精准匹配，可以消除来自不同邻居带来的负面影响。其中，BERT-INT与其他变体GCN模型不同，它忽略了知识图谱的结构特征，只利用了额外的邻居信息就可以对知识图谱进行实体对齐。应用统一的双重聚合函数从邻居和属性视角中提取特征，以评估实体间的匹配分数。

基础BERT单元：将实体对齐视为下游目标，以微调预训练的BERT模型。首先构造训练数据

，其中每个三元组/>

包括一个用来查询的实体/>

，正确对齐的对应实体/>

和从/>

随机采样的负对应实体/>

。对于数据集中的每个实体e，应用一个预训练的多语言BERT来接受其名称/描述作为输入，通过多层感知机MLP层过滤BERT的CLS嵌入得到实体的向量表示/>

：

并使用成对的边际损失来微调BERT：

其中m是正对和负对之间的边距，

表示实体/>

和正确对齐的实体/>

之间的曼哈顿距离，/>

被实例化为曼哈顿距离以测量/>

和/>

之间的相似性。其中，负对根据两个实体的余弦相似度进行采样。

名称/描述视图交互：将基本的BERT单元应用于e和

的名称/描述以获得/>

和

，然后计算它们的余弦相似度作为名称/描述-视图交互。

邻居视图交互：将实体e的邻域N(e)和实体

的邻域进行比较和计算。该方法是一种交互式的方法，它不是通过聚合邻居的名称/描述来学习e和/>

。具体操作如下：

1. 对于每个实体e和邻居实体

，应用带有名称或描述的BERT单元来获得实体e和邻居实体/>

向量的表示集合。

2. 基于向量表示的集合，计算相邻实体相似度矩阵S。

3. 对于每个邻居关系，应用具有关系名称的BERT单元获得邻居关系向量的表示集合。

4. 根据步骤3，计算领域关系掩码矩阵M。

将相邻关系和相邻实体理解为一对键值。如果e和

非常相似，并且r也类似于/>

，则两个实体更可能对齐。如果键和值非常相似，则可以大大增加两对键值对的相似性。

5. 将M乘以S，即

，其中/>

表示元素的乘积。

6. 最大池化和核聚合来提取关于相似性累积的特征，逐行逐列得到相似性向量。

7. 融合行和列的相似度向量。获得相似度向量

，以度量实体的匹配程度。

属性视图交互：属性是一组属性-值对。属性的名称是键，属性的内容是值。其余的则类似于邻居视图。其中，实体的属性通常有多个对，所以只需要考虑当前实体的几个属性来进行交互，而不需要任何邻居信息。

本发明实施例提供的一种面向RPA的多模态交互实体对齐方法的流程图如图1所示，包括以下步骤：

S1、获取RPA操作信息，该RPA操作信息包括：操作文字信息、操作界面图像信息、操作的属性信息，各个操作之间的关系；本实施例中具体可为：用于基于流程工具获取用户的操作信息、用户与计算机的交互的操作页面截图信息、操作页面的图像元素特征信息（鼠标点击的软件、操作框等）和流程录像信息。该模块还会获得RPA操作设计说明书和RPA需求说明书等文本信息或半结构化的信息以及基于RPA自动操作的计算机执行代码程序。

S2、基于RPA操作信息自动生成多模态知识图谱。

S21、构建RPA文本模态信息，抽取RPA文本模态实体E、关系R和属性A。本实施例中，文本模态获取的实体包括以下方面：RPA操作、RPA操作所属的项目、RPA操作的软件、RPA操作应用的行业部门、项目所属的公司等。该步骤还会获取实体的属性信息。利用一种已有的基于跨度的联合实体识别和关系抽取的注意力模型来抽取实体、关系和属性信息。

S211、利用基于跨度的联合实体识别和关系抽取的注意力模型抽取RPA操作设计说明书和RPA需求说明书中的实体和关系信息，将实体和关系信息以头实体、关系和尾实体的方式生成三元组。

S212、操作描述信息向量化，利用Bert模型将RPA操作描述信息序列化为向量表示，例如embedding，并将其作为操作实体的属性信息；该属性可以用于后续实体对齐工作。

S213、将S211和S212中得到的实体信息、关系信息和属性信息生成文本模态实体集合E，关系集合R和属性集合A。

S22、构建RPA图像模态信息P，RPA图像模态信息P包括图像模态和图像模态三元组关系。

S221、利用基于流程萃取工具获取用户的RPA操作信息、用户与计算机的交互操作页面图像信息、操作页面图像的元素特征信息以及操作页面图像在计算机中的存储地址，构建图像模态。

S222、利用流程工具得到RPA操作与操作页面图像之间的对应关系，将RPA操作作为头实体，图像作为关系，图像存储路径URL作为尾实体，构建图像模态三元组关系。

S23、构建RPA视频模态信息M，RPA视频模态信息M包括视频模态和视频模态三元组关系。

S231、利用基于流程工具获取用户与计算机交互的操作流程录像以及流程操作录像在计算机中的存储地址，构建视频模态。

S232、利用流程工具得到操作流程录像、RPA操作的对应关系，将RPA操作作为头实体，视频作为关系，视频存储路径URL作为尾实体，构建视频模态三元组关系。

S24、构建RPA代码模态信息C，RPA程序代码是指自动执行RPA操作的计算机程序代码，RPA代码模态信息C包括代码模态和代码模态三元组关系。

S241、利用自动执行RPA操作的计算机程序代码和代码在计算机中的存储地址，构建代码模态。

S242、将RPA操作作为头实体，代码作为关系，代码存储路径URL作为尾实体，构建代码模态三元组关系。

S25、建立一种RPA多模态知识图谱。基于上述步骤得到PRA各个模态信息，生成多模态知识图谱。其中，定义G={E,R,A,V,P,M,C}为一个基于RPA的多模态知识图谱，其中，

，/>

，/>

，/>

，/>

，/>

，/>

分别表示实体，关系，属性，属性对应的属性值，图像信息，视频信息以及代码信息。

S3、利用本发明提出的一种多模态交互实体对齐模型（Multi-modalInteractionEntity Alignment Model，MMIEA）获得实体之间的相似度。MMIEA是在已有的技术BERT-INT的基础上新增加了图像交互视图模块。BERT-INT模型对单模态的知识图谱进行实体对齐，它主要包括：名称/描述交互视图，邻居交互视图和属性交互视图三部分。本发明实施例提出的MMIEA在三个视图的基础上新增加了一个图像交互视图模块。此时，MMIEA可以充分利用图像的信息，将BERT-INT扩展到了多模态知识图谱上。

S31、由RPA构建的操作实体E和实体的文本信息属性作为输入，计算实体的向量表示

和/>

，然后计算它们的余弦相似度作为名称/描述-视图交互。

S32、根据RPA构建的实体集合E和关系集合R，计算邻居交互视图的邻居相似度向量。

S33、根据RPA构建的实体集合E、关系集合R、属性集合A以及属性对应的属性值集合V，计算属性视图的属性相似度向量。

S34、利用VGG16模型学习每个实体图像的嵌入向量，卷积层中的滤波器具有3

3的感受野。并且由13个卷积层，在各种架构中具有不同的深度。接着是三个全连接层。然后获得所有实体图像的4096维嵌入向量。得到实体的向量表示，并得到视觉图像相似度矩阵和相邻关系掩模矩阵，将两个矩阵组合起来，计算相似度向量以度量图像视图下的实体匹配程度。参考图2，图2展示了图像交互视图的全过程。

S341、给定一对(e_p,a_p)∈Y，其中Y是知识图谱中的图像知识，使用评价函数来衡量图像特征：

其中，f_pic(e_p,a_p)表示视觉特征评价函数，vec(p)表示图像p的投影，tanh()为激活函数，e_p表示图像p对应的实体，a_p为实体e_p所对应的图像属性，根据上式，将损失函数最小化得到如下公式：

其中，L_pic为图像模态信息的损失函数。

S342、图像视图下，对于每个实体e和

，获得其邻居图像/>

或/>

的embedding向量

和/>

，其中下标i分别从1到/>

和/>

；|J(e)|为实体e的邻居图像的个数，/>

为实体/>

的邻居图像的个数。

S343、基于嵌入向量的集合，计算视觉图像相似度矩阵

，/>

是由/>

组成，其中

。

S344、对于每个相邻的关系，应用具有关系名称的BERT单元获得

和

，并计算相邻关系掩模矩阵M，其中M是由组成/>

，/>

；

分别表示每个邻居关系/>

和/>

的embedding向量的集合，/>

为实体e的相邻关系数量，/>

为实体/>

的相邻关系数量，其中，e和/>

的三元组表示分别为

和/>

。

S345、使

，其中，/>

表示元素乘积，最大池化和核聚合来提取关于相似性累积的特征，逐行逐列得到相似度向量/>

和/>

，融合行和列的相似度向量，获得相似度向量/>

，以度量实体的匹配程度：

其中，

表示对每一行/>

应用最大池化操作得到的最大相似度，/>

表示将最大值/>

转换为基于行的特征向量，/>

表示将最大值/>

转换为基于列的特征向量，/>

表示最大值/>

是由第l个径向基函数核转换为均值为/>

和方差为

的特征向量，K₁为第l个径向基函数核，/>

表示将所有行的/>

平均为基于行的相似度向量，/>

表示将所有列的/>

平均为基于列的相似度向量。

S4、利用相似度对RPA不同流程下的知识图谱间的实体进行对齐。

S41、给定两个实体的描述/名称之间的余弦相似度

,邻居相似度向量/>

，属性相似度向量/>

和图像相似度向量/>

：

S42、根据相似度向量

，利用多层感知机(MLP)得到最终相似度得分/>

：

S43、利用最终相似度得分，对相似度最高的实体进行实体对齐。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种面向RPA的多模态交互实体对齐方法，其特征在于，包括以下步骤：

S2、基于RPA操作信息生成多模态知识图谱；

具体为：

S21、构建RPA文本模态信息，抽取RPA文本模态实体E、关系R和属性A；

S22、构建RPA图像模态信息P，RPA图像模态信息P包括图像模态和图像模态三元组关系；

S23、构建RPA视频模态信息M，RPA视频模态信息M包括视频模态和视频模态三元组关系；

S24、构建RPA代码模态信息C，RPA代码模态信息C包括代码模态和代码模态三元组关系；

S25、建立RPA多模态知识图谱，定义G={E,R,A,V,P,M,C}为一个基于RPA的多模态知识图谱，其中，

，/>

，/>

，/>

，/>

，/>

，/>

分别表示实体，关系，属性，属性对应的属性值，图像模态信息，视频模态信息以及代码模态信息；

具体为：

S31、由RPA构建的实体E和实体的文本信息属性作为输入，计算实体的向量表示C(e)和

，并计算它们的余弦相似度作为名称/描述-视图交互；

S32、根据RPA构建的实体E和关系R，计算邻居交互视图的邻居相似度向量；

S33、根据RPA构建的实体E、关系R、属性A以及属性对应的属性值V，计算属性视图的属性相似度向量；

S34、利用VGG16模型学习每个实体图像的嵌入向量，得到实体的向量表示，并得到视觉图像相似度矩阵和相邻关系掩模矩阵，将两个矩阵组合起来，计算相似度向量；

2.根据权利要求1所述的一种面向RPA的多模态交互实体对齐方法，其特征在于，步骤S21具体为：

S211、利用基于跨度的联合实体识别和关系抽取的注意力模型从RPA说明书中抽取实体和关系信息；

S212、利用Bert模型将RPA操作的描述信息序列化为向量表示，并将其作为实体的属性信息；

S213、将S211和S212中得到的实体信息、关系信息和属性信息生成文本模态实体E、关系R和属性A。

3.根据权利要求1所述的一种面向RPA的多模态交互实体对齐方法，其特征在于，步骤S22具体为：

S221、利用基于流程萃取工具获取用户的RPA操作信息、用户与计算机的交互操作页面图像信息、操作页面图像的元素特征信息以及操作页面图像在计算机中的存储地址，构建图像模态；

S222、利用流程工具得到RPA操作与操作页面图像之间的对应关系，将RPA操作作为头实体，图像作为关系，图像存储路径URL作为尾实体，构建三元组关系。

4.根据权利要求1所述的一种面向RPA的多模态交互实体对齐方法，其特征在于，步骤S23具体为：

S231、利用基于流程工具获取用户与计算机交互的RPA操作流程操作录像以及流程操作录像在计算机中的存储地址，构建视频模态；

S232、利用流程工具得到RPA操作流程录像、RPA操作的对应关系，将RPA操作作为头实体，视频作为关系，视频存储路径URL作为尾实体，构建三元组关系。

5.根据权利要求1所述的一种面向RPA的多模态交互实体对齐方法，其特征在于，步骤S24具体为：

S241、利用自动执行RPA操作的计算机程序代码和代码在计算机中的存储地址，构建代码模态；

S242、将RPA操作作为头实体，代码作为关系，代码存储路径URL作为尾实体，构建三元组关系。

6.根据权利要求1所述的一种面向RPA的多模态交互实体对齐方法，其特征在于，步骤S34具体为：

S341、给定一对(e_p,a_p)∈Y，其中Y是知识图谱中的视觉知识，使用评价函数来衡量视觉特征：

其中，L_pic为图像模态信息的损失函数；

S342、图像视图下，对于每个实体e和

，获得其邻居图像/>

和/>

的embedding向量

和/>

，其中下标i分别从1到/>

、1到/>

；|J(e)|为实体e的邻居图像的个数，/>

为实体/>

的邻居图像的个数；

S343、基于嵌入向量的集合，计算视觉图像相似度矩阵

，/>

由/>

组成，其中

；

和

，并计算相邻关系掩模矩阵M，其中M是由m_ij组成，/>

；

分别表示每个邻居关系/>

和/>

的embedding向量的集合，|N(r)|为实体e的相邻关系数量，/>

为实体/>

的相邻关系数量；

S345、使

，其中/>

表示元素乘积，最大池化和核聚合来提取关于相似性累积的特征，逐行逐列得到行和列的相似度向量/>

和/>

，融合行和列的相似度向量，获得相似度向量/>

：

其中，

表示对每一行/>

应用最大池化操作得到的最大相似度，

表示将最大值/>

转换为基于行的特征向量，/>

表示将最大值/>

转换为基于列的特征向量，/>

表示最大值/>

是由第l个径向基函数核转换为均值为/>

、方差为/>

的特征向量，K₁为第l个径向基函数核，/>

表示将所有行的特征向量/>

平均为基于行的相似度向量，/>

表示将所有列的特征向量/>

平均为基于列的相似度向量。

7.根据权利要求6所述的一种面向RPA的多模态交互实体对齐方法，其特征在于，步骤S4具体为：

S41、给定两个实体的描述/名称之间的余弦相似度

,邻居相似度向量

，属性相似度向量/>

和图像相似度向量/>

：

S42、利用相似度向量

得到最终相似度得分/>

：