CN114328980A

CN114328980A - 结合rpa及ai的知识图谱构建方法、装置、终端及存储介质

Info

Publication number: CN114328980A
Application number: CN202210244305.1A
Authority: CN
Inventors: 门波; 张海雷
Original assignee: Laiye Technology Beijing Co Ltd
Current assignee: Laiye Technology Beijing Co Ltd
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-04-12

Abstract

本申请涉及计算机技术领域，尤其涉及一种结合RPA及AI的知识图谱构建方法、装置、终端及存储介质。一种结合RPA及AI的知识图谱构建方法，包括：获取针对知识图谱构建功能所输入的数据集合；通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合；采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集，第一实体对应至少一个称呼信息；对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱。采用本申请，可以提高知识图谱构建的准确性，可以提高用户的使用体验。

Description

结合RPA及AI的知识图谱构建方法、装置、终端及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种结合RPA及AI的知识图谱构建方法、装置、终端及存储介质。

背景技术

机器人流程自动化（Robotic Process Automation）简称RPA，是通过特定的“机器人软件”，模拟人在计算机上的操作，按规则自动执行流程任务。

人工智能（Artificial Intelligence，AI）是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

随着大数据时代的到来，我们面临的数据量越来越多，用户可以从大量的、不同来源的、有噪声的，模糊的数据中提取出有效的知识与信息，并对这些信息进行信息融合构建知识图谱，可以最大化利用这些知识，使得这些数据越来越有价值。在相关技术中，如何提高知识图谱构建的准确性已经成为用户关注的重心。

发明内容

本申请实施例提供一种结合RPA及AI的知识图谱构建方法、装置、终端及存储介质，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种结合RPA及AI的知识图谱构建方法，包括：

获取针对知识图谱构建功能所输入的数据集合；

通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合；

采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集，其中，同一实体对应至少一个称呼信息或同一称呼信息对应至少一个实体；

对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱。

在一些实施例中，采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集，包括：

获取三元组信息集合中至少一个三元组信息之间的关系信息；

采用第一深度学习模型和关系信息中的别称属性信息，对至少一个三元组信息进行实体对齐处理，获取第一实体对应的三元组信息子集。

在一些实施例中，采用第一深度学习模型和关系信息中的别称属性信息，对至少一个三元组信息进行实体对齐处理，获取第一实体对应的三元组信息子集，包括：

基于关系信息中的别称属性信息，获取第一实体对应的至少一个称呼信息中的第一称呼信息和第二称呼信息，第一称呼信息为至少一个称呼信息中任一称呼信息，第二称呼信息为至少一个称呼信息中除第一称呼信息之外的任一称呼信息；

获取第一称呼信息对应的第一三元组信息子集，获取第二称呼信息对应的第二三元组信息子集；

基于第一深度学习模型、第一三元组信息子集和第二三元组信息子集，获取第一实体对应的三元组信息子集。

获取三元组信息集合中同一称呼信息对应的至少一个三元组信息，同一称呼信息对应至少一个实体；

获取至少一个三元组信息之间的关系信息；

采用第一深度学习模型和关系信息中的别称属性信息，对至少一个三元组信息进行实体对齐处理，获取至少一个实体中各实体对应的三元组信息子集。

在一些实施例中，方法还包括：

获取训练样本数据和验证样本数据；

采用训练样本数据对第二深度学习模型进行训练，得到第三深度学习模型；

采用验证样本数据对第三深度学习模型进行验证，得到第一深度学习模型。

在一些实施例中，第二深度学习模型为预训练的语言表征Bert模型，第三深度学习模型为实体对齐Base模型，采用训练样本数据对第二深度学习模型进行训练，得到第三深度学习模型，包括：

采用训练样本数据对预训练的语言表征Bert模型进行训练，得到实体对齐Base模型。

在一些实施例中，在采用验证样本数据对第三深度学习模型进行验证，得到第一深度学习模型之后，还包括：

获取第一深度学习模型对应的公共语言规范CLS编码信息；

将CLS编码信息替换成令牌token编码信息。

采用第一深度学习模型在第二数据集合中获取第二实体对应的第一正样本数据子集和第一负样本数据子集；

获取第一正样本数据子集对应的第一数据数量，获取第一负样本数据子集对应的第二数据数量；

若第一数据数量和第二数据数量的比值不满足第一比值条件，则对第一深度学习模型中的损失函数进行修改，得到修改后的第一深度学习模型。

在一些实施例中，在获取正样本数据子集对应的第一数据数量之后，还包括：

若第一数据数量小于数量阈值，则对第一正样本数据子集中的各数据进行数据增强处理。

在一些实施例中，对第一深度学习模型中的损失函数进行修改，得到修改后的第一深度学习模型，包括：

对第一深度学习模型中的损失函数FocalLoss进行权重参数的修改，得到修改后的第一深度学习模型；

采用修改后的第一深度学习模型在第二数据集合中重新获取第二实体对应的第二正样本数据子集和第二负样本数据子集；

获取第二正样本数据子集对应的第三数据数量，获取第二负样本数据子集对应的第四数据数量；

若第三数据数量和第四数据数量的比值满足第二比值条件，则停止对修改后的第一深度学习模型的修改，并存储修改后的第一深度学习模型。

第二方面，本申请实施例提供了一种结合RPA及AI的知识图谱构建装置，包括：

集合获取单元，用于获取针对知识图谱构建功能所输入的数据集合；

集合获取单元，还用于通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合；

信息获取单元，用于采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集，其中，同一实体对应至少一个称呼信息或同一称呼信息对应至少一个实体；

图谱构建单元，用于对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱。

在一些实施例中，信息获取单元，用于采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集时，具体用于：

在一些实施例中，信息获取单元包括称呼信息获取子单元、三元组信息获取子单元和信息获取子单元，信息获取单元，用于采用第一深度学习模型和关系信息中的别称属性信息，对至少一个三元组信息进行实体对齐处理，获取第一实体对应的三元组信息子集时：

称呼信息获取子单元，用于基于关系信息中的别称属性信息，获取第一实体对应的至少一个称呼信息中的第一称呼信息和第二称呼信息，第一称呼信息为至少一个称呼信息中任一称呼信息，第二称呼信息为至少一个称呼信息中除第一称呼信息之外的任一称呼信息；

三元组信息获取子单元，用于获取第一称呼信息对应的第一三元组信息子集，获取第二称呼信息对应的第二三元组信息子集；

信息获取子单元，用于基于第一深度学习模型、第一三元组信息子集和第二三元组信息子集，获取第一实体对应的三元组信息子集。

在一些实施例中，信息获取单元包括三元组信息获取子单元、关系信息获取子单元和信息获取子单元，信息获取单元，用于采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集，包括：

三元组信息获取子单元，用于获取三元组信息集合中同一称呼信息对应的至少一个三元组信息，同一称呼信息对应至少一个实体；

关系信息获取子单元，用于获取至少一个三元组信息之间的关系信息；

信息获取子单元，用于采用第一深度学习模型和关系信息中的别称属性信息，对至少一个三元组信息进行实体对齐处理，获取至少一个实体中各实体对应的三元组信息子集。

在一些实施例中，装置还包括模型获取单元，用于获取训练样本数据和验证样本数据；

在一些实施例中，第二深度学习模型为预训练的语言表征Bert模型，第三深度学习模型为实体对齐Base模型，模型获取单元，用于采用训练样本数据对第二深度学习模型进行训练，得到第三深度学习模型时，具体用于：

在一些实施例中，装置还包括信息替换单元，用于在采用验证样本数据对第三深度学习模型进行验证，得到第一深度学习模型之后，获取第一深度学习模型对应的公共语言规范CLS编码信息；

将CLS编码信息替换成令牌token编码信息。

在一些实施例中，装置还包括函数修改单元，用于在采用验证样本数据对第三深度学习模型进行验证，得到第一深度学习模型之后，采用第一深度学习模型在第二数据集合中获取第二实体对应的第一正样本数据子集和第一负样本数据子集；

在一些实施例中，装置还包括数据增强处理单元，用于在获取正样本数据子集对应的第一数据数量之后，若第一数据数量小于数量阈值，则对第一正样本数据子集中的各数据进行数据增强处理。

在一些实施例中，函数修改单元，用于对第一深度学习模型中的损失函数进行修改，得到修改后的第一深度学习模型时，具体用于：

第三方面，本申请实施例提供了一种结合RPA及AI的终端，该终端包括：存储器和处理器。其中，该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，使得该处理器执行上述各方面任一种实施方式中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机程序，当计算机程序在计算机上运行时，上述各方面任一种实施方式中的方法被执行。

上述技术方案中的优点或有益效果至少包括：

在一个或者相关的实施例中，通过获取针对知识图谱构建功能所输入的数据集合，可以通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合，采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集，对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱。由于同一实体对应至少一个称呼信息或同一称呼信息对应至少一个实体，可以对第一实体对应的至少一个三元组信息进行合并，减少同一实体在知识图谱中的重复展示，导致知识图谱构建不准确的情况，因此可以提高知识图谱构建的准确性，可以提高用户的使用体验。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例构建的。应该理解，这些附图仅描绘了根据本申请申请的一些实施方式，而不应将其视为是对本申请范围的限制。

图1示出本申请一个实施例的一种结合RPA及AI的知识图谱构建方法的背景示意图；

图2示出本申请一个实施例的一种结合RPA及AI的知识图谱构建方法的背景架构示意图；

图3示出本申请一个实施例的一种结合RPA及AI的知识图谱构建方法的流程图；

图4示出本申请一个实施例的一种结合RPA及AI的知识图谱构建方法的流程图；

图5示出本申请一个实施例的一种可视化界面的展示示意图；

图6示出本申请一个实施例的一种可视化界面的展示示意图；

图7示出本申请一个实施例的一种结合RPA及AI的知识图谱构建方法的流程图；

图8示出本申请一个实施例的一种结合RPA及AI的知识图谱构建方法的流程图；

图9示出本申请一个实施例的一种结合RPA及AI的知识图谱构建装置的结构示意图；

图10示出本申请一个实施例的一种结合RPA及AI的知识图谱构建装置的结构示意图；

图11示出本申请一个实施例的一种结合RPA及AI的知识图谱构建装置的结构示意图；

图12示出本申请一个实施例的一种结合RPA及AI的知识图谱构建装置的结构示意图；

图13示出本申请一个实施例的一种结合RPA及AI的知识图谱构建装置的结构示意图；

图14示出本申请一个实施例的一种结合RPA及AI的知识图谱构建装置的结构示意图；

图15示出本申请一个实施例的一种结合RPA及AI的知识图谱构建装置的结构示意图；

图16示出根据本申请一实施例的一种终端的结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。

在本申请的描述中，术语“多个”指两个或两个以上。

在本申请的描述中，术语“RPA”是指通过特定的“机器人软件”，模拟人在计算机上的操作，按规则自动执行流程任务。

在本申请的描述中，术语“知识图谱（knowledge graph）”是指以实体、概念作为节点，以语义关系作为边的语义网络。知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建和显示知识及它们之间的相互联系。

在本申请的描述中，术语“深度学习模型”指的是通过设计建立适量的神经元计算节点和多层运算层次结构，选择合适的输入层和输出层，通过网络的学习和调优，建立起从输入到输出的函数关系，虽然不能100%找到输入与输出的函数关系，但是可以尽可能的逼近现实的关联关系。使用训练成功的深度学习模型，就可以实现对复杂事务处理的自动化要求。

在本申请的描述中，术语“三元组信息”是用于标识实体和实体间关系的信息。该三元组信息并不特指某一固定信息。例如当至少一个数据对应的三元组信息发生变化时，该三元组信息也可以相应变化。

在本申请的描述中，术语“实体”是指一般是指能够独立存在的、作为一切属性的基础和万物本原的东西。实体是知识图谱中最基本的元素。

在本申请的描述中，术语“实体对齐（Entity Alignment）”也被称作实体匹配（Entity Matching），是指对于异构数据源知识库中的各个实体，找出属于现实世界中的同一实体。本申请实施例的实体对齐是指利用实体的别称属性信息判断多个别称信息是否对应同一实体，或者将同一实体对应的多个别称属性信息对应的描述信息进行融合。

随着科学技术的发展，终端技术的日益成熟，提高了用户生产生活的便利性。终端应用场景中，用户可以通过知识图谱构建应用程序对用户所输入的数据进行知识图谱构建。

根据一些实施例，图1示出本申请一个实施例的一种结合RPA及AI的知识图谱构建方法的背景示意图。如图1所示，用户可以点击终端的知识图谱构建应用程序，当终端检测到用户点击知识图谱构建应用程序时，终端可以展示知识图谱构建界面。用户可以基于知识图谱构建界面，输入数据。当终端检查到用户点击知识图谱构建按键时，终端可以对用户所输入的数据进行知识图谱构建。

根据一些实施例，图2示出本申请一个实施例的一种结合RPA及AI的知识图谱构建方法的背景架构示意图。如图2所示，终端11可以包括RPA系统12、处理器13和显示界面14。终端可以获取用户通过显示界面14所输入的数据，终端可以通过RPA系统12和处理器13对该数据进行知识图谱构建。终端11可以通过显示界面14展示该知识图谱。

在一些实施例中，由于数据来源不同，数据中实体可以对应多个不同的称呼，因此终端建立的知识图谱的准确性较差，使得用户的使用体验较差。

易于理解的是，该终端包括但不限于：可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端设备可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理（personal digital assistant，PDA）、第五代移动通信技术（5th generation mobile networks，5G）网络或未来演进网络中的终端设备等。该终端上可以安装操作系统，该操作系统是指可以运行在终端中的操作系统，是管理和控制终端硬件和终端应用的程序，是终端中不可或缺的系统应用。该操作系统包括但不限于安卓Android系统、IOS系统、Windows phone（WP）系统和Ubuntu移动版操作系统等。

参照下面的描述和附图，将清楚本申请的实施例的这些和其他方面。在这些描述和附图中，具体申请了本申请的实施例中的一些特定实施方式，来表示实施本申请的实施例的原理的一些方式，但是应当理解，本申请的实施例的范围不受此限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

以下结合附图描述根据本申请实施例的结合RPA及AI的知识图谱构建方法。

图3示出本申请一个实施例的一种结合RPA及AI的知识图谱构建方法的流程图，如图3所示，该方法可包括以下步骤：

步骤S101：获取针对知识图谱构建功能所输入的数据集合；

在一些实施例中，知识图谱，是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。

根据一些实施例，本申请实施例的知识图谱例如可以是基于用户的输入数据所建立的知识图谱。该知识图谱并不特指某一固定知识图谱。例如当终端获取到的数据集合发生变化时，该知识图谱也会相应变化。例如当终端获取到知识图谱的构建指令的时间发生变化时，该知识图谱也可以相应变化。

易于理解的是，知识图谱构建功能是指终端中存在的用于根据数据集合所建立知识图谱的功能。该知识图谱构建功能并不特指某一固定功能，例如当知识图谱对应的构建领域不同时，该知识图谱构建功能也可以相应变化。例如知识推荐领域对应的知识图谱构建功能不同于风险预测对应的知识图谱构建功能。

根据一些实施例，数据集合是指终端获取到的针对知识图谱构架功能所输入的数据汇聚而成的集体。该数据集合并不特指某一固定数据集合。例如，当数据集合对应的应用领域发生变化时，该数据集合也可以相应变化。当数据集合中包括的数据数量发生变化时，该数据集合也可以相应变化。

根据一些实施例，当终端执行知识图谱构建方法时，终端可以获取针对知识图谱构建功能所输入的数据集合。

步骤S102：通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合；

在一些实施例中，机器人流程自动化RPA系统是指使用软件机器人，自动执行通常由知识工作者执行的高度重复性的日常任务。RPA其主要着眼于利用人机交互界面完成自动化处理，使用软件机器人代替人工操作。RPA系统不同于传统的处理流程管理平台(BPMS)，RPA不需要侵略性的集成、不需要改变用户的底层IT系统/应用系统架构、不需要大规模的用户培训，不需要使用用户具有编码知识，能够给与业务人员充分自由度在不涉及IT团队的情况下，将变更需求体现到对应的自动化流程配置中。

根据一些实施例，RPA系统中包括三个组件：设计器，机器人，控制器。其中，设计器用以对自动化流程执行规则进行建模，控制器管控整个平台。此外，还需要一个数据库，用以保存自动化脚本、账号权限、系统配置及运行日志等数据。

易于理解的是，RPA系统是为企业和个人提供专业全面的流程自动化解决方案。RPA系统可以通过用户使用界面，智能理解政企已有应用，将基于规则的常规操作自动化，如自动重复读取邮件、读取Office组件、操作数据库及网页和客户端软件等，采集数据，进行繁琐的计算，大批量生成文件和报告，完成枯燥的文件检查等工作。能够大幅降低人力成本的投入，有效提高现有办公效率，准确、稳定、快捷地完成工作。

根据一些实施例，三元组是指形如（（x，y），z）的集合（这就是说，三元组是这样的偶，其第一个射影亦是一个偶），常简记为（x，y，z）。三元组是计算机专业的一门公共基础课程——数据结构里的概念，主要是用来存储稀疏矩阵的一种压缩方式。三元组信息是用于标识实体和实体间关系的信息。该三元组信息并不特指某一固定信息。例如当至少一个数据对应的三元组信息发生变化时，该三元组信息也可以相应变化。

可选的，三元组抽取技术是指用于抽取数据对应的三元组信息的技术。该三元组抽取技术并不特指某一固定技术。例如当抽取规则发生变化时，该三元组抽取技术也可以相应变化。例如当数据集合对应的数据类型发生变化时，该三元组抽取技术也可以相应变化。

可选的，三元组信息集合是指由至少一个三元组信息汇聚而成的集体。该三元组信息集合并不特指某一个固定信息集合。例如当三元组信息集合中包括的信息数量发生变化时，该三元组信息集合也可以相应变化。例如当三元组信息集合中包括的信息发生变化时，该三元组信息集合也可以相应变化。

根据一些实施例，当终端执行知识图谱构建方法时，终端可以获取针对知识图谱构建功能所输入的数据集合。当终端获取到数据集合时，终端可以通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合。

步骤S103：采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集；

根据一些实施例，第一深度学习模型是指用户获取第一实体对应的三元组信息子集的的模型。该第一仅仅用于对深度学习模型进行标识，并不特指某一固定深度学习模型。例如当深度学习模型的类型发生变化时，该第一深度学习模型也可以相应变化。例如当深度学习模型的模型名称发生变化时，该第一深度学习模型也可以相应变化。

易于理解的是，实体是指客观存在并可相互区别的事物。第一实体是指对应至少一个称呼信息的实体。该第一实体并不特指某一固定实体。例如当三元组信息集合发生变化时，第一实体也可以相应变化。当终端获取到的数据集合发生变化时，该第一实体也可以相应变化。其中，同一实体对应至少一个称呼信息或同一称呼信息对应至少一个实体。

可选的，三元组信息子集是指三元组信息集合中与第一实体对应的至少一个三元组信息所汇聚而成的集体。该三元组信息子集并不特指某一固定信息子集。例如当三元组信息集合发生变化时，三元组信息子集也可以相应变化。当终端获取到的数据集合发生变化时，该三元组信息子集也可以相应变化。

根据一些实施例，当终端执行知识图谱构建方法时，终端可以获取针对知识图谱构建功能所输入的数据集合。当终端获取到数据集合时，终端可以通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合。终端可以采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集。

步骤S104：对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱。

根据一些实施例，当终端获取到第一实体对应的三元组信息子集时，终端可以对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱。

在一个或者相关的实施例中，通过获取针对知识图谱构建功能所输入的数据集合，可以通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合，采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集，对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱。由于同一实体对应至少一个称呼信息或同一称呼信息对应至少一个实体，可以对该第一实体对应的至少一个三元组信息进行合并，减少同一实体在知识图谱中的重复展示，导致知识图谱构建不准确的情况，因此可以提高知识图谱构建的准确性，可以提高用户的使用体验。

图4示出本申请一个实施例的一种结合RPA及AI的知识图谱构建方法的流程图，如图4所示，该方法可包括以下步骤：

步骤S201：获取针对知识图谱构建功能所输入的数据集合；

具体过程如上所述，此处不再赘述。

在一些实施例中，本申请的技术方案可以应用于同一实体对应至少一个称呼信息或同一称呼信息对应至少一个实体的领域。该领域包括但不限于农业技术领域、电学领域以及军事技术领域等等。终端获取到针对知识图谱功能构建所输入的数据集合例如可以是电学领域的元器件介绍。此时终端界面的举例示意图例如可以如图5所示。

步骤S202：通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合；

具体过程如上所述，此处不再赘述。

在一些实施例中，终端获取到的数据例如可以包括同一元器件的多个数据。该元器件例如可以是三极管。终端获取到的采用三元组抽取技术获取数据集合中其中一组数据对应的三元组信息集合例如可以如表1所示。

表1

称呼信息1	称呼信息2	描述信息1	描述信息2
				三极管	半导体三极管	三极管，是一种控制电流的半导体器件。其作用是把微弱信号放大成幅度值较大的电信号，也用作无触点开关。	三极管，具有电流放大作用，是电子电路的核心元件。三极管是在一块半导体基片上制作两个相距很近的PN结，两个PN结把整块半导体分成三部分，中间部分是基区，两侧部分是发射区和集电区，排列方式有PNP和NPN两种。
BipolarJunctionTransistor	晶体三极管	Bipolar Junction Transistor，具有电流放大作用，是电子电路的核心元件。三极管是在一块半导体基片上制作两个相距很近的PN结，两个PN结把整块半导体分成三部分，中间部分是基区，两侧部分是发射区和集电区，排列方式有PNP和NPN两种。	半导体三极管按材料分有两种：锗管和硅管。而每一种又有NPN和PNP两种结构形式。
				半导体三极管	BipolarJunctionTransistor	半导体三极管按材料分有两种：锗管和硅管。而每一种又有NPN和PNP两种结构形式。	半导体三极管，是一种控制电流的半导体器件。其作用是把微弱信号放大成幅度值较大的电信号，也用作无触点开关。

步骤S203：获取三元组信息集合中至少一个三元组信息之间的关系信息；

根据一些实施例，关系信息用于表示三元组信息之间的关系的信息。该关系信息包括但不限于标识信息、产地信息、职务信息、别称属性信息、装载信息和研发单位信息等等。

在一些实施例中，通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合时，终端可以获取三元组信息集合中至少一个三元组信息之间的关系信息。例如，终端可以获取三极管数据对应的别称属性信息。

步骤S204：采用第一深度学习模型和关系信息中的别称属性信息，对至少一个三元组信息进行实体对齐处理，获取第一实体对应的三元组信息子集；

具体过程如上所述，此处不再赘述。

根据一些实施例，实体对齐也被称作实体匹配（Entity Matching），是指对于异构数据源知识库中的各个实体，找出属于现实世界中的同一实体。实体对齐常用的方法是利用实体的属性信息判定不同源实体是否可进行对齐。本申请实施例的实体对齐是指利用实体的别称属性信息判断多个别称信息是否对应同一实体，或者将同一实体对应的多个别称属性信息对应的描述信息进行融合。

在一些实施例中，终端可以获取到三元组信息集合中至少一个三元组信息之间的关系信息时，可以采用第一深度学习模型和关系信息中的别称属性信息，对至少一个三元组信息进行实体对齐处理，获取第一实体对应的三元组信息子集。

根据一些实施例，第一实体例如可以是三极管。当终端获取到的数据集合包括多个数据集合时，终端可以获取该数据集合对应的三元组信息集合。终端例如可以采用第一深度学习模型和关系信息中的别称属性信息，对至少一个三元组信息进行实体对齐处理，获取第一实体三极管对应的三元组信息子集。

根据一些实施例，同一实体可以对应至少一个称呼信息。终端采用第一深度学习模型和关系信息中的别称属性信息，对至少一个三元组信息进行实体对齐处理，获取第一实体对应的三元组信息子集时，可以基于关系信息中的别称属性信息，获取第一实体对应的至少一个称呼信息中的第一称呼信息和第二称呼信息，第一称呼信息为至少一个称呼信息中任一称呼信息，第二称呼信息为至少一个称呼信息中除第一称呼信息之外的任一称呼信息，获取第一称呼信息对应的第一三元组信息子集，获取第二称呼信息对应的第二三元组信息子集，基于第一深度学习模型、第一三元组信息子集和第二三元组信息子集，获取第一实体对应的三元组信息子集，终端可以获取至少一个称呼信息中任一两个称呼之间的三元组信息，进而可以确定同一实体对应的三元组信息，可以提高第一实体对应的三元组信息子集获取的准确性，可以提高知识图谱构建的准确性。

根据一些实施例，第一实体例如可以是三极管，该第一实体对应的至少一个称呼信息包括三极管、半导体三极管和Bipolar Junction Transistor。终端例如可以获取三极管对应的第一三元组信息子集和半导体三极管对应的第二三元组信息子集。三元组信息子集例如可以包括别称信息、描述信息1和描述信息2。终端基于第一深度学习模型、第一三元组信息子集和第二三元组信息子集，可以获取第一实体三极管对应的三元组信息子集。终端例如可以获取到与三极管、半导体三极管和Bipolar Junction Transistor对应的三元组信息子集。

步骤S205：对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱。

具体过程如上所述，此处不再赘述。

根据一些实施例，终端例如可以获取到与三极管、半导体三极管和BipolarJunction Transistor对应的三元组信息子集。终端可以对三极管、半导体三极管和Bipolar Junction Transistor对应的三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱，例如终端可以对三极管对应的三元组信息、半导体三极管对应的三元组信息和Bipolar Junction Transistor对应的三元组信息进行合并，构建数据集合对应的知识图谱。终端构建完成数据集合对应的知识图谱时，终端可以展示该知识图谱。此时，终端界面的举例示意图可以如图6所示。

根据一些实施例，当终端对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱时，终端可以对三元组信息子集中各三元组信息进行拼接，得到拼接后的三元组信息，构建数据集合对应的知识图谱。终端例如可以采用第一深度学习模型对三元组信息进行拼接，得到拼接后的三元组信息，可以提高深度学习模型的识别准确性。

在一个或者相关的实施例中，通过获取针对知识图谱构建功能所输入的数据集合，可以通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合，获取三元组信息集合中至少一个三元组信息之间的关系信息，采用第一深度学习模型和关系信息中的别称属性信息，对至少一个三元组信息进行实体对齐处理，获取第一实体对应的三元组信息子集，对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱。由于同一实体对应至少一个称呼信息或同一称呼信息对应至少一个实体，可以对该第一实体对应的至少一个三元组信息进行合并，减少同一实体在知识图谱中的重复展示，导致知识图谱构建不准确的情况，因此可以提高知识图谱构建的准确性，可以提高用户的使用体验。其次，终端可以获取至少一个称呼信息中任一两个称呼之间的三元组信息，进而可以确定同一实体对应的三元组信息，可以提高第一实体对应的三元组信息子集获取的准确性，可以提高知识图谱构建的准确性。

图7示出本申请一个实施例的一种结合RPA及AI的知识图谱构建方法的流程图，如图7所示，该方法可包括以下步骤：

步骤S301：获取针对知识图谱构建功能所输入的数据集合；

具体过程如上所述，此处不再赘述。

步骤S302：通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合；

具体过程如上所述，此处不再赘述。

步骤S303：获取三元组信息集合中同一称呼信息对应的至少一个三元组信息；

具体过程如上所述，此处不再赘述。

根据一些实施例，同一称呼信息可以对应至少一个实体。当终端获取到三元组信息集合时，终端可以获取获取三元组信息集合中同一称呼信息对应的至少一个三元组信息。

在一些实施例中，例如称呼信息CLS对应的实体可以包括军事机构、四门轿跑车、创意闪光系统。终端可以在三元组信息集合中获取称呼信息CLS对应的至少一个三元组信息。

步骤S304：获取至少一个三元组信息之间的关系信息；

具体过程如上所述，此处不再赘述。

步骤S305：采用第一深度学习模型和关系信息中的别称属性信息，对至少一个三元组信息进行实体对齐处理，获取至少一个实体中各实体对应的三元组信息子集；

具体过程如上所述，此处不再赘述。

根据一些实施例，当终端获取到至少一个三元组信息之间的关系信息时，终端可以采用第一深度学习模型和关系信息中的别称属性信息，对至少一个三元组信息进行实体对齐处理，获取至少一个实体中各实体对应的三元组信息子集。

在一些实施例中，终端可以在三元组信息集合中获取称呼信息CLS对应的至少一个三元组信息。终端例如可以称呼信息CLS对应的至少一个三元组信息进行实体对齐处理，终端可以获取到军事机构对应的三元组信息子集、四门轿跑车对应的三元组信息子集和创意闪光系统对应的三元组信息子集。

步骤S306：对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱。

具体过程如上所述，此处不再赘述。

在一些实施例中，终端可以在三元组信息集合中获取称呼信息CLS对应的至少一个三元组信息。终端例如可以称呼信息CLS对应的至少一个三元组信息进行实体对齐处理，终端可以获取到军事机构对应的三元组信息子集、四门轿跑车对应的三元组信息子集和创意闪光系统对应的三元组信息子集。终端可以对军事机构对应的三元组信息子集进行合并、对四门轿跑车对应的三元组信息子集进行合并和对创意闪光系统对应的三元组信息子集进行合并，构建数据集合对应的知识图谱。

在一个或者相关的实施例中，通过获取针对知识图谱构建功能所输入的数据集合，可以通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合，获取三元组信息集合中同一称呼信息对应的至少一个三元组信息，获取至少一个三元组信息之间的关系信息，采用第一深度学习模型和关系信息中的别称属性信息，对至少一个三元组信息进行实体对齐处理，获取至少一个实体中各实体对应的三元组信息子集，对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱，由于同一实体对应至少一个称呼信息或同一称呼信息对应至少一个实体，可以对该第一实体对应的至少一个三元组信息进行合并，减少同一实体在知识图谱中的重复展示，导致知识图谱构建不准确的情况，因此可以提高知识图谱构建的准确性，可以提高用户的使用体验。其次，终端可以获取至少一个称呼信息中任一两个称呼之间的三元组信息，进而可以确定同一实体对应的三元组信息，可以提高第一实体对应的三元组信息子集获取的准确性，可以提高知识图谱构建的准确性。

图8示出本申请一个实施例的一种结合RPA及AI的知识图谱构建方法的流程图，如图8所示，该方法可包括以下步骤：

步骤S401：获取针对知识图谱构建功能所输入的数据集合；

具体过程如上所述，此处不再赘述。

步骤S402：通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合；

具体过程如上所述，此处不再赘述。

步骤S403：获取训练样本数据和验证样本数据；

根据一些实施例，终端在使用第一深度学习模型之前，终端可以针对第一深度学习模型所输入的训练样本数据和验证样本数据。其中，训练样本数据是指用于训练第一深度学习模型的数据。该训练样本数据并不特指某一固定数据。例如当训练样本数据对应的数据类型发生变化时，该训练样本数据也可以相应变化。例如当训练样本数据所包括的数据发生变化时，该训练样本数据也可以相应变化。

在一些实施例中，验证样本数据是指用于验证第一深度学习模型是否满足模型要求的数据。该验证样本数据并不特指某一固定数据。例如当验证样本数据对应的数据类型发生变化时，该验证样本数据也可以相应变化。例如当验证样本数据所包括的数据发生变化时，该验证样本数据也可以相应变化。

步骤S404：采用训练样本数据对第二深度学习模型进行训练，得到第三深度学习模型；

根据一些实施例，终端获取到训练样本数据和验证样本数据时，终端可以采用训练样本数据对第二深度学习模型进行训练，得到第三深度学习模型。其中第二深度学习模型是指未进行训练之前的深度学习模型。第三深度学习模型是指终端采用训练样本对第二深度学习模型进行训练之后的深度学习模型。

根据一些实施例，第二深度学习模型例如可以为预训练的语言表征Bert模型，第三深度学习模型例如可以为实体对齐Base模型，终端采用训练样本数据对第二深度学习模型进行训练，得到第三深度学习模型时，例如可以是终端采用训练样本数据对预训练的语言表征Bert模型进行训练，得到实体对齐Base模型。

在一些实施例中，Bert模型的全称为Bidirectional Encoder Representationfrom Transformers模型，是一个预训练的语言表征模型，该Bert模型例如可以是基于变形器的双向编码器的模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model（MLM），以致能生成深度的双向语言表征。

根据一些实施例，Base模型是指终端采用训练样本对Bert模型进行训练之后的深度学习模型。例如，终端采用训练样本对Bert模型进行微调之后，得到的Base模型。终端例如还可以采用Base模型获取CLS编码信息，然后接线性层和Dropout层，Base模型中的损失函数例如可以采用交叉墒损失函数。

步骤S405：采用验证样本数据对第三深度学习模型进行验证，得到第一深度学习模型；

根据一些实施例，终端获取到训练样本数据和验证样本数据时，终端可以采用训练样本数据对第二深度学习模型进行训练，得到第三深度学习模型。其中第二深度学习模型是指未进行训练之前的深度学习模型。第三深度学习模型是指终端采用训练样本对第二深度学习模型进行训练之后的深度学习模型。终端可以采用验证样本数据对第三深度学习模型进行验证，得到第一深度学习模型。

在一些实施例中，终端例如可以采用验证样本数据对Base模型进行验证，得到第一深度学习模型。

根据一些实施例，终端在采用验证样本数据对第三深度学习模型进行验证，得到第一深度学习模型之后，终端还可以获取第一深度学习模型对应的公共语言规范CLS编码信息，终端可以将CLS编码信息替换成令牌token编码信息，即终端可以采用令牌token编码信息替换CLS编码信息，可以提高第一深度学习模型的识别的准确性，提高用户的使用体验。

在一些实施例中，CLS编码信息是指公共语言规范（CommonLanguageSpecification，CLS）编码信息。该CLS编码信息并不特指某一固定编码信息。例如当第一深度学习模型使用的具体模型信息发生变化时，该CLS编码信息也会相应变化。

根据一些实施例，Token表示模块与元素编码模块、事件预测层相连。Token信息表示模块从元素编码模块接收和进行嵌入、线性变换、多头自注意力(multi-head self-attention)、池化操作，分别得到相应的两种token动态交互的向量表示，即事件序列的向量表示和动作序列对应的向量表示。令牌token编码信息表示模块从三元组信息序列的向量表示中提取出三元组信息对应的CLS编码信息的向量表示从动作序列对应的向量表示中提取出动作CLS编码信息的向量表示将连接成包含候选事件ck特征的CLS合并向量表示经过K次循环，得到发送给事件预测层。

根据一些实施例，终端在采用验证样本数据对第三深度学习模型进行验证，得到第一深度学习模型之后，还可以采用第一深度学习模型在第二数据集合中获取第二实体对应的第一正样本数据子集和第一负样本数据子集。终端可以获取第一正样本数据子集对应的第一数据数量，获取第一负样本数据子集对应的第二数据数量；若第一数据数量和第二数据数量的比值不满足第一比值条件，则对第一深度学习模型中的损失函数进行修改，得到修改后的第一深度学习模型。终端基于第一数据数量和第二数据数量的比值可以对第一深度学习模型进行修正，可以提高第一深度学习模型获取的准确性，可以提高三元组信息子集获取的准确性，可以提高用户的使用体验。

在一些实施例中，第二实体是指终端对第一深度学习模型进行测试时所使用的实体。该第二实体并不特指某一固定实体。例如，终端获取到针对第二实体的选择指令时，该第二实体也可以相应变化。

易于理解的是，第一正样本数据子集是指与第二实体对应的数据汇聚而成的子集。第一负样本数据子集是指未与第二实体对应的数据汇聚而成的子集。该第一正样本数据子集并不特指某一固定数据集合。例如，当第一深度学习模型的识别性能发生变化时，该第一正样本数据子集也可以相应变化。例如，当第一正样本数据子集包括的数据发生变化时，该第一正样本数据子集也可以相应变化。该第一负样本数据子集并不特指某一固定数据集合。例如，当第一深度学习模型的识别性能发生变化时，该第一负样本数据子集也可以相应变化。例如，当第一负样本数据子集包括的数据发生变化时，该第一负样本数据子集也可以相应变化。

在一些实施例中，第一数据数量是指第一正样本数据子集中包括的数据对应的数量。该第一数据数量并不特指某一固定数据数量。例如，当第一深度学习模型的识别性能发生变化时，该第一数据数量也可以相应变化。例如，当第一正样本数据子集包括的数据发生变化时，该第一数据数量也可以相应变化。

在一些实施例中，第二数据数量是指第一负样本数据子集中包括的数据对应的数量。该第二数据数量并不特指某一固定数据数量。例如，当第一深度学习模型的识别性能发生变化时，该第二数据数量也可以相应变化。例如，当第一负样本数据子集包括的数据发生变化时，该第二数据数量也可以相应变化。

根据一些实施例，第一比值条件是指终端获取到的用于确定是否对第一深度学习模型中的损失函数进行修改的条件。该第一比值条件并不特指某一固定第一比值条件。例如，当终端获取到针对该第一比值条件的修改指令时，终端可以修改该第一比值条件。该修改指令包括但不限于语音修改指令、点击修改指令和文字修改指令等等。

在一些实施例中，损失函数例如可以是于PyTorch的交叉熵损失函数CrossEntropyLoss。终端对第一深度学习模型中的损失函数进行修改，例如可以是将交叉熵损失函数CrossEntropyLoss替换为FocalLoss，得到修改后的第一深度学习模型。其中，FocalLoss的最终形式例如可以如公式（一）所述。

公式（一）

其中，FL：交叉熵；

：类别间（0-1二分类）的权重参数；

p：置信度；

：简单/困难样本调节因子（modulating factor）；

：初始交叉熵损失函数；

：聚焦参数（focusing parameter)；

：指定的标注类别。

可选的，第一比值条件例如可以是第一数据数量和第二数据数量的比值为1:3。终端可以获取第一正样本数据子集对应的第一数据数量例如可以是2000条，获取第一负样本数据子集对应的第二数据数量例如可以是8000条。若第一数据数量和第二数据数量的比值1:4不满足第一比值条件第一数据数量和第二数据数量的比值为1:3，则对第一深度学习模型中的损失函数进行修改，得到修改后的第一深度学习模型。

根据一些实施例，终端在获取正样本数据子集对应的第一数据数量之后，若第一数据数量小于数量阈值，则对第一正样本数据子集中的各数据进行数据增强处理，可以提高第一深度学习模型的识别准确性，数据召回的准确性，可以提高用户的使用体验。

在一些实施例中，数量阈值是指用于对第一数据数量进行判断，是否对第一正样本数据子集中的各数据进行数据增强处理的阈值。该数量阈值并不特指某一固定数量阈值。例如，当终端获取到针对数量阈值的修改指令时，终端可以基于该修改指令对该数量阈值进行修改。

根据一些实施例，终端对第一正样本数据子集中的各数据进行数据增强处理，例如可以是通过机器翻译将中文描述信息转换为英文描述信息，再将英文描述信息转换为中文描述信息。

在一些实施例中，终端获取到第一深度学习模型时，终端可以对该第一深度学习模型进行对抗训练，可以提高第一深度学习模型的识别准确性。对抗训练的基本思路为计算前向loss，然后反向传播计算梯度grad，但梯度grad并不进行更新，拿到编码层的原embedding信息后，对embedding信息进行normlization，然后计算扰动r，将扰动r加在原embedding信息上。对抗训练的具体方案为基于快速梯度上升（FastGradientMethod，FGM）和投影梯度下降（Projected Gradient Descent，PGD）两种方式。其中，FGM对应的是一步对抗到位，PGD采用小步多走的策略进行对抗训练。

根据一些实施例，终端对第一深度学习模型中的损失函数进行修改，得到修改后的第一深度学习模型时，可以对第一深度学习模型中的损失函数FocalLoss进行权重参数的修改，得到修改后的第一深度学习模型。终端可以采用修改后的第一深度学习模型在第二数据集合中重新获取第二实体对应的第二正样本数据子集和第二负样本数据子集。终端可以获取第二正样本数据子集对应的第三数据数量，获取第二负样本数据子集对应的第四数据数量。若第三数据数量和第四数据数量的比值满足第二比值条件，则终端可以停止对修改后的第一深度学习模型的修改，并存储修改后的第一深度学习模型。

易于理解的是，第二正样本数据子集是指修改后的第一深度学习模型在第二数据集合中重新获取的与第二实体对应的数据汇聚而成的子集。第二负样本数据子集是指修改后的第一深度学习模型在第二数据集合中重新获取的未与第二实体对应的数据汇聚而成的子集。该第二正样本数据子集并不特指某一固定数据集合。例如，当修改后的第一深度学习模型的识别性能发生变化时，该第二正样本数据子集也可以相应变化。例如，当第二正样本数据子集包括的数据发生变化时，该第二正样本数据子集也可以相应变化。该第二负样本数据子集并不特指某一固定数据集合。例如，当修改后的第二深度学习模型的识别性能发生变化时，该第二负样本数据子集也可以相应变化。例如，当第二负样本数据子集包括的数据发生变化时，该第二负样本数据子集也可以相应变化。

在一些实施例中，第三数据数量是指第二正样本数据子集中包括的数据对应的数量。该第三数据数量并不特指某一固定数据数量。例如，当修改后的第一深度学习模型的识别性能发生变化时，该第三数据数量也可以相应变化。例如，当第二正样本数据子集包括的数据发生变化时，该第二数据数量也可以相应变化。

在一些实施例中，第四数据数量是指第二负样本数据子集中包括的数据对应的数量。该第四数据数量并不特指某一固定数据数量。例如，当修改后的第一深度学习模型的识别性能发生变化时，该第四数据数量也可以相应变化。例如，当第二负样本数据子集包括的数据发生变化时，该第四数据数量也可以相应变化。

可选的，第二比值条件例如可以是第三数据数量和第四数据数量的比值为1:3。终端可以获取第二正样本数据子集对应的第三数据数量例如可以是2000条，获取第二负样本数据子集对应的第四数据数量例如可以是6000条。若第三数据数量和第四数据数量的比值1:3满足第二比值条件第三数据数量和第四数据数量的比值为1:3，则可以停止对修改后的第一深度学习模型的修改，并存储修改后的第一深度学习模型。

步骤S406：采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集；

具体过程如上所述，此处不再赘述。

根据一些实施例，终端可以采用存储的修改后的第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集。

步骤S407：对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱。

具体过程如上所述，此处不再赘述。

在一个或者相关的实施例中，通过获取针对知识图谱构建功能所输入的数据集合，可以通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合，采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集，对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱。由于同一实体对应至少一个称呼信息或同一称呼信息对应至少一个实体，可以对该第一实体对应的至少一个三元组信息进行合并，减少同一实体在知识图谱中的重复展示，导致知识图谱构建不准确的情况，因此可以提高知识图谱构建的准确性，可以提高用户的使用体验。其次，终端可以获取训练样本数据和验证样本数据，采用训练样本数据对第二深度学习模型进行训练，得到第三深度学习模型，采用验证样本数据对第三深度学习模型进行验证，得到第一深度学习模型，可以提高第一深度学习模型的识别准确率，可以提高知识图谱构建的准确性，可以提高用户的使用体验。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图9，其是本申请一个实施例的一种结合RPA及AI的知识图谱构建装置的结构示意图。该结合RPA及AI的知识图谱构建装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该结合RPA及AI的知识图谱构建装置900包括集合获取单元901、信息获取单元902和图谱构建单元903，其中：

集合获取单元901，用于获取针对知识图谱构建功能所输入的数据集合；

集合获取单元901，还用于通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合；

信息获取单元902，用于采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集，其中，同一实体对应至少一个称呼信息或同一称呼信息对应至少一个实体；

图谱构建单元903，用于对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱。

在一些实施例中，信息获取单元902，用于采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集时，具体用于：

在一些实施例中，图10示出本申请一个实施例的一种结合RPA及AI的知识图谱构建装置的结构示意图。如图10所示，同一实体对应至少一个称呼信息，信息获取单元902包括称呼信息获取子单元912、三元组信息获取子单元922和信息获取子单元932，信息获取单元902，用于采用第一深度学习模型和关系信息中的别称属性信息，对至少一个三元组信息进行实体对齐处理，获取第一实体对应的三元组信息子集时：

称呼信息获取子单元912，用于基于关系信息中的别称属性信息，获取第一实体对应的至少一个称呼信息中的第一称呼信息和第二称呼信息，第一称呼信息为至少一个称呼信息中任一称呼信息，第二称呼信息为至少一个称呼信息中除第一称呼信息之外的任一称呼信息；

三元组信息获取子单元922，用于获取第一称呼信息对应的第一三元组信息子集，获取第二称呼信息对应的第二三元组信息子集；

信息获取子单元932，用于基于第一深度学习模型、第一三元组信息子集和第二三元组信息子集，获取第一实体对应的三元组信息子集。

在一些实施例中，图11示出本申请一个实施例的一种结合RPA及AI的知识图谱构建装置的结构示意图。如图11所示，同一称呼信息对应至少一个实体，信息获取单元902包括三元组信息获取子单元922、关系信息获取子单元942和信息获取子单元932，信息获取单元902，用于采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集，包括：

三元组信息获取子单元922，用于获取三元组信息集合中同一称呼信息对应的至少一个三元组信息，同一称呼信息对应至少一个实体；

关系信息获取子单元942，用于获取至少一个三元组信息之间的关系信息；

信息获取子单元932，用于采用第一深度学习模型和关系信息中的别称属性信息，对至少一个三元组信息进行实体对齐处理，获取至少一个实体中各实体对应的三元组信息子集。

在一些实施例中，图12示出本申请一个实施例的一种结合RPA及AI的知识图谱构建装置的结构示意图。如图12所示，装置900还包括模型获取单元904，用于获取训练样本数据和验证样本数据；

在一些实施例中，图13示出本申请一个实施例的一种结合RPA及AI的知识图谱构建装置的结构示意图。如图13所示，装置900还包括信息替换单元905，用于在采用验证样本数据对第三深度学习模型进行验证，得到第一深度学习模型之后，获取第一深度学习模型对应的公共语言规范CLS编码信息；

将CLS编码信息替换成令牌token编码信息。

在一些实施例中，图14示出本申请一个实施例的一种结合RPA及AI的知识图谱构建装置的结构示意图。如图14所示，装置900还包括函数修改单元906，用于在采用验证样本数据对第三深度学习模型进行验证，得到第一深度学习模型之后，采用第一深度学习模型在第二数据集合中获取第二实体对应的第一正样本数据子集和第一负样本数据子集；

在一些实施例中，图15示出本申请一个实施例的一种结合RPA及AI的知识图谱构建装置的结构示意图。如图15所示，装置900还包括数据增强处理单元907，用于在获取正样本数据子集对应的第一数据数量之后，若第一数据数量小于数量阈值，则对第一正样本数据子集中的各数据进行数据增强处理。

在一个或者相关的实施例中，通过集合获取单元可以获取针对知识图谱构建功能所输入的数据集合，集合获取单元还可以通过机器人流程自动化RPA系统，采用三元组抽取技术获取数据集合中至少一个数据对应的三元组信息集合，信息获取单元可以采用第一深度学习模型在三元组信息集合中获取第一实体对应的三元组信息子集，第一实体对应至少一个称呼信息，图谱构建单元可以对三元组信息子集中各三元组信息进行合并，构建数据集合对应的知识图谱。由于同一实体对应至少一个称呼信息或同一称呼信息对应至少一个实体，可以对该第一实体对应的至少一个三元组信息进行合并，减少同一实体在知识图谱中的重复展示，导致知识图谱构建不准确的情况，因此可以提高知识图谱构建的准确性，可以提高用户的使用体验。

图16示出根据本申请一实施例的一种终端的结构框图。如图16所示，该终端包括：存储器1610和处理器1620，存储器1610内存储有可在处理器1620上运行的计算机程序。处理器1620执行该计算机程序时实现上述实施例中的知识图谱构建方法。存储器1610和处理器1620的数量可以为一个或多个。

该终端还包括：

通信接口1630，用于与外界设备进行通信，进行数据交互传输。

如果存储器1610、处理器1620和通信接口1630独立实现，则存储器1610、处理器1620和通信接口1630可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（PeripheralComponent Interconnect ，PCI）总线或扩展工业标准体系结构（Extended IndustryStandard Architecture ，EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图16中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1610、处理器1620及通信接口1630集成在一块芯片上，则存储器1610、处理器1620及通信接口1630可以通过内部接口完成相互间的通信。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，该芯片包括，包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(fieldprogrammablegate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced RISC machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic random access memory ，DRAM) 、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种结合RPA及AI的知识图谱构建方法，其特征在于，包括：

获取针对知识图谱构建功能所输入的数据集合；

通过机器人流程自动化RPA系统，采用三元组抽取技术获取所述数据集合中至少一个数据对应的三元组信息集合；

采用第一深度学习模型在所述三元组信息集合中获取第一实体对应的三元组信息子集，其中，同一实体对应至少一个称呼信息或同一称呼信息对应至少一个实体；

对所述三元组信息子集中各三元组信息进行合并，构建所述数据集合对应的知识图谱。

2.根据权利要求1所述的方法，其特征在于，所述采用第一深度学习模型在所述三元组信息集合中获取第一实体对应的三元组信息子集，包括：

获取所述三元组信息集合中至少一个三元组信息之间的关系信息；

采用第一深度学习模型和所述关系信息中的别称属性信息，对所述至少一个三元组信息进行实体对齐处理，获取第一实体对应的三元组信息子集。

3.根据权利要求2所述的方法，其特征在于，所述同一实体对应至少一个称呼信息，所述采用第一深度学习模型和所述关系信息中的别称属性信息，对所述至少一个三元组信息进行实体对齐处理，获取第一实体对应的三元组信息子集，包括：

基于所述关系信息中的别称属性信息，获取第一实体对应的至少一个称呼信息中的第一称呼信息和第二称呼信息，所述第一称呼信息为所述至少一个称呼信息中任一称呼信息，所述第二称呼信息为至少一个称呼信息中除所述第一称呼信息之外的任一称呼信息；

获取所述第一称呼信息对应的第一三元组信息子集，获取所述第二称呼信息对应的第二三元组信息子集；

基于第一深度学习模型、所述第一三元组信息子集和所述第二三元组信息子集，获取所述第一实体对应的三元组信息子集。

4.根据权利要求1所述的方法，其特征在于，所述同一称呼信息对应至少一个实体，所述采用第一深度学习模型在所述三元组信息集合中获取第一实体对应的三元组信息子集，包括：

获取所述三元组信息集合中所述同一称呼信息对应的至少一个三元组信息，所述同一称呼信息对应至少一个实体；

获取所述至少一个三元组信息之间的关系信息；

采用第一深度学习模型和所述关系信息中的别称属性信息，对所述至少一个三元组信息进行实体对齐处理，获取所述至少一个实体中各实体对应的三元组信息子集。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

获取训练样本数据和验证样本数据；

采用所述训练样本数据对第二深度学习模型进行训练，得到第三深度学习模型；

采用所述验证样本数据对所述第三深度学习模型进行验证，得到第一深度学习模型。

6.根据权利要求5所述的方法，其特征在于，所述第二深度学习模型为预训练的语言表征Bert模型，所述第三深度学习模型为实体对齐Base模型，所述采用所述训练样本数据对第二深度学习模型进行训练，得到第三深度学习模型，包括：

采用所述训练样本数据对所述预训练的语言表征Bert模型进行训练，得到所述实体对齐Base模型。

7.根据权利要求5所述的方法，其特征在于，在所述采用所述验证样本数据对所述第三深度学习模型进行验证，得到第一深度学习模型之后，还包括：

获取所述第一深度学习模型对应的公共语言规范CLS编码信息；

将所述CLS编码信息替换成令牌token编码信息。

8.根据权利要求5所述的方法，其特征在于，在所述采用所述验证样本数据对所述第三深度学习模型进行验证，得到第一深度学习模型之后，还包括：

采用所述第一深度学习模型在第二数据集合中获取第二实体对应的第一正样本数据子集和第一负样本数据子集；

获取所述第一正样本数据子集对应的第一数据数量，获取所述第一负样本数据子集对应的第二数据数量；

若所述第一数据数量和所述第二数据数量的比值不满足第一比值条件，则对所述第一深度学习模型中的损失函数进行修改，得到修改后的第一深度学习模型。

9.根据权利要求8所述的方法，其特征在于，在所述获取所述正样本数据子集对应的第一数据数量之后，还包括：

若所述第一数据数量小于数量阈值，则对所述第一正样本数据子集中的各数据进行数据增强处理。

10.根据权利要求8所述的方法，其特征在于，所述对所述第一深度学习模型中的损失函数进行修改，得到修改后的第一深度学习模型，包括：

对所述第一深度学习模型中的损失函数FocalLoss进行权重参数的修改，得到修改后的第一深度学习模型；

采用所述修改后的第一深度学习模型在所述第二数据集合中重新获取所述第二实体对应的第二正样本数据子集和第二负样本数据子集；

获取所述第二正样本数据子集对应的第三数据数量，获取所述第二负样本数据子集对应的第四数据数量；

若所述第三数据数量和所述第四数据数量的比值满足第二比值条件，则停止对所述修改后的第一深度学习模型的修改，并存储所述修改后的第一深度学习模型。

11.一种结合RPA及AI的知识图谱构建装置，其特征在于，包括：

所述集合获取单元，还用于通过机器人流程自动化RPA系统，采用三元组抽取技术获取所述数据集合中至少一个数据对应的三元组信息集合；

信息获取单元，用于采用第一深度学习模型在所述三元组信息集合中获取第一实体对应的三元组信息子集，其中，同一实体对应至少一个称呼信息或同一称呼信息对应至少一个实体；

图谱构建单元，用于对所述三元组信息子集中各三元组信息进行合并，构建所述数据集合对应的知识图谱。

12.根据权利要求11所述的装置，其特征在于，所述信息获取单元，用于采用第一深度学习模型在所述三元组信息集合中获取第一实体对应的三元组信息子集时，具体用于：

13.根据权利要求12所述的装置，其特征在于，所述同一实体对应至少一个称呼信息，所述信息获取单元包括称呼信息获取子单元、三元组信息获取子单元和信息获取子单元，所述信息获取单元，用于采用第一深度学习模型和所述关系信息中的别称属性信息，对所述至少一个三元组信息进行实体对齐处理，获取第一实体对应的三元组信息子集时：

所述称呼信息获取子单元，用于基于所述关系信息中的别称属性信息，获取第一实体对应的至少一个称呼信息中的第一称呼信息和第二称呼信息，所述第一称呼信息为所述至少一个称呼信息中任一称呼信息，所述第二称呼信息为至少一个称呼信息中除所述第一称呼信息之外的任一称呼信息；

所述三元组信息获取子单元，用于获取所述第一称呼信息对应的第一三元组信息子集，获取所述第二称呼信息对应的第二三元组信息子集；

所述信息获取子单元，用于基于第一深度学习模型、所述第一三元组信息子集和所述第二三元组信息子集，获取所述第一实体对应的三元组信息子集。

14.根据权利要求11所述的装置，其特征在于，所述信息获取单元包括三元组信息获取子单元、关系信息获取子单元和信息获取子单元，同一称呼信息对应至少一个实体，所述信息获取单元，用于所述采用第一深度学习模型在所述三元组信息集合中获取第一实体对应的三元组信息子集，包括：

所述三元组信息获取子单元，用于获取所述三元组信息集合中同一称呼信息对应的至少一个三元组信息，所述同一称呼信息对应至少一个实体；

所述关系信息获取子单元，用于获取所述至少一个三元组信息之间的关系信息；

所述信息获取子单元，用于采用第一深度学习模型和所述关系信息中的别称属性信息，对所述至少一个三元组信息进行实体对齐处理，获取所述至少一个实体中各实体对应的三元组信息子集。

15.一种结合RPA及AI的终端，其特征在于，包括：处理器和存储器，所述存储器中存储指令，所述指令由处理器加载并执行，以实现如权利要求1至10任一项所述的方法。

16.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的方法。