CN117556016A

CN117556016A - 一种基于语义与结构采样策略的实体对齐方法和装置

Info

Publication number: CN117556016A
Application number: CN202311596284.0A
Authority: CN
Inventors: 何可嘉; 徐会芳; 邓桃; 张英强; 梁攀飞; 马超
Original assignee: China Electric Power Research Institute Co Ltd CEPRI
Current assignee: China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-02-13

Abstract

本申请涉及一种基于语义与结构采样策略的实体对齐方法，包括将选择的未标注实体的上一次迭代得到的边界不确定性数值和未标记实体链接的其他实体的上一次迭代的边界不确定性数值迭代计算，得到未标记实体的边界不确定性的数值，根据未标记实体的边界不确定性的数值，选择标注实体标注并更新标记数据集，利用更新后标记数据集实体对齐模型训练，重复上述步骤，直到实体对齐模型满足预设训练结果。本申请优先标注对知识图谱融合更有价值的数据，更新语义表征模型和实体对齐模型，提升采样策略的效果，不断迭代上述过程，在有限的预算下，可以实现更好的实体对齐效果。本申请还涉及一种基于语义与结构采样策略的实体对齐装置、设备和存储介质。

Description

一种基于语义与结构采样策略的实体对齐方法和装置

技术领域

本申请涉及文本处理技术领域，尤其涉及一种基于语义与结构采样策略的实体对齐方法和装置。

背景技术

当前，从不同的知识图谱中识别出等效实体进行图谱融合实体对齐是知识图谱融合的关键技术。现有方式一是采用端到端实体匹配的神经网络模型实现实体对齐的模型，但是需要依赖大量种子对齐数据作为训练数据，而这些种子对齐数据的标注成本非常高；现有方式二是专注于具有文字属性的表格数据，其提出相似性度量或深度学习模型来比较文字属性，并生成主动学习的特征向量。然而，知识图谱中的实体与数据库中的实体差别很大，不同的知识图谱通常由异构模式表示。因此，如何能以更少的标注成本且更高效率的生成实体对齐模型是目前亟需解决的技术问题。

发明内容

为了能以更少的标注成本且更高效率的生成实体对齐模型，本申请提供了一种基于语义与结构采样策略的实体对齐方法和装置。

第一方面，本申请提供了一种基于语义与结构采样策略的实体对齐方法，方法包括：

提取未标记数据池中的所有未标记实体；

将所述未标记实体的上一次迭代得到的边界不确定性数值、所述未标记实体链接的其他实体的上一次迭代的边界不确定性数值，以及控制所述未标记实体的不确定性和所链接的其他实体不确定性的比重值，输入迭代算法进行计算直到满足预设迭代结果，得到所述未标记实体的边界不确定性的数值；

依据所有所述未标记实体的边界不确定性的数值，选取预设数量的所述未标记实体作为待标注实体进行标注，将已标注数据更新到标记数据集；

利用更新后的所述标记数据集对待训练的实体对齐模型进行训练后，更新所述未标记数据池，重复上述步骤，直到所述实体对齐模型满足预设训练结果。

第二方面，本申请还提供了一种基于语义与结构采样策略的实体对齐装置，装置包括：

选择模块，用于提取未标记数据池中的所有未标记实体；

迭代模块，用于将所述未标记实体的上一次迭代得到的边界不确定性数值、所述未标记实体链接的其他实体的上一次迭代的边界不确定性数值，以及控制所述未标记实体的不确定性和所链接的其他实体不确定性的比重值，输入迭代算法进行计算直到满足预设迭代结果，得到所述未标记实体的边界不确定性的数值；

标注模块，用于依据所有所述未标记实体的边界不确定性的数值，选取预设数量的所述未标记实体作为待标注实体进行标注，将已标注数据更新到标记数据集；

训练模块，用于利用更新后的所述标记数据集对待训练的实体对齐模型进行训练后，更新所述未标记数据池，重复上述步骤，直到所述实体对齐模型满足预设训练结果。

第三方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面中任一项所述的基于语义与结构采样策略的实体对齐方法。

第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述的基于语义与结构采样策略的实体对齐方法。

本申请提供的基于语义与结构采样策略的实体对齐方法，包括提取未标记数据池中的所有未标记实体，将未标记实体的上一次迭代得到的边界不确定性数值、未标记实体链接的其他实体的上一次迭代的边界不确定性数值，以及控制未标记实体的不确定性和所链接的其他实体不确定性的比重值，进行迭代计算得到未标记实体的边界不确定性的数值，选取预设数量的未标记实体进行标注更新标记数据集，利用更新后的标记数据集实体对齐模型进行训练，重复上述步骤，直到实体对齐模型满足预设训练结果。本申请利用语义表征模型以及实体对齐模型，对标注数据进行采样，优先标注对知识图谱融合更有价值的数据。在标注完一个批次数据后，更新语义表征模型和实体对齐模型，提升采样策略的效果，再进行下一次采样。不断迭代上述过程，在有限的预算下，可以实现更好的实体对齐效果。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本申请实施例提供的基于语义与结构采样策略的实体对齐方法的流程示意图；

图2是本申请另一实施例提供的基于语义与结构采样策略的实体对齐方法中的待融合图谱架构示意图；

图3是本申请另一实施例提供的基于语义与结构采样策略的实体对齐方法的训练框架示意图；

图4是本申请另一实施例提供的基于语义与结构采样策略的实体对齐方法的流程示意图；

图5是本申请另一实施例提供的基于语义与结构采样策略的实体对齐装置的模块示意图。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明，旨在对本发明提供进一步的详细说明。除非另有指明，本发明所采用的所有技术术语与本发明所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式，而并非意图限制根据本发明的示例性实施方式。

实施例一：

下面将结合附图1，对本申请实施例提供的基于语义与结构采样策略的实体对齐方法进行详细介绍，包括以下步骤：

S1、提取未标记数据池中的所有未标记实体。S2、将未标记实体的上一次迭代得到的边界不确定性数值、未标记实体链接的其他实体的上一次迭代的边界不确定性数值，以及控制未标记实体的不确定性和所链接的其他实体不确定性的比重值，输入迭代算法进行计算直到满足预设迭代结果，得到未标记实体的边界不确定性的数值。

S3、依据所有未标记实体的边界不确定性的数值，选取预设数量的未标记实体作为待标注实体进行标注，将已标注数据更新到标记数据集。

S4、利用更新后的标记数据集对待训练的实体对齐模型进行训练后，更新未标记数据池，返回步骤S1，直到待训练的实体对齐模型满足预设训练结果。

基于上述实施例，具体地，步骤S2具体包括：

S21、判断所述未标记实体e_i的第t次迭代得到的边界不确定性数值f_t(e_i)和第t-1次迭代得到的边界不确定性数值f_t-1(e_i)的差值是否满足所述预设迭代结果；

若是，执行步骤S22；

否则，执行步骤S23，返回步骤S21；

S22、将所述第i个未标记实体e_i的第t次迭代得到的边界不确定性的数值f_t(e_i)设置为所述未标记实体的边界不确定性的数值；

S23、将第i个未标记实体e_i的第t次迭代得到的边界不确定性数值f_t(e_i)、所述未标记实体e_i链接的其他实体e_j的第t次迭代得到的边界不确定性数值f_t(e_j)，以及控制所述未标记实体e_i的不确定性和所链接的其他实体不确定性的比重值α，输入公式中，得到所述第i个未标记实体e_i的第t+1次迭代得到的边界不确定性的数值f_t+1(e_i)；

其中，是所述未标记实体e_i所链接的其他实体集，t≥1，i≥1，j≥1。

S24、判断所有未标记实体是否均已迭代完成得到边界不确定性的数值；

若否，则将下一个未得到边界不确定性的数值的未标记实体作为未标记实体e_i，返回步骤S21。基于上述实施例，具体地，步骤S2中还包括：

计算未标记实体e_i和待融合图谱中的各实体e_m的相似度F(e_i,e_m)。

对所有相似度F(e_i,e_m)进行排序后，选取从高到低的预设数量的相似度作为选定相似度计算相似度均值。

将相似度均值和相似度F(e_i,e_m)输入方差公式，得到未标记实体e_i的初始边界不确定性数值f₀(e_i)。

基于上述实施例，具体地，计算未标记实体e_i和待融合图谱中的各实体e_m的相似度F(e_i,e_m)，具体包括：

将未标记实体e_i和实体e_m输入实体对齐模型得到匹配分数F_EA(e_i,e_m)。

将未标记实体e_i和实体e_m输入语义表征模型得到的语义相似度F_S(e_i,e_m)。

根据匹配分数F_EA(e_i,e_m)、语义相似度F_S(e_i,e_m)和预设权重值，得到未标记实体e_i和待融合图谱中的各实体e_m的相似度F(e_i,e_m)。

基于上述实施例，具体地，将未标记实体e_i和实体e_m输入语义表征模型得到的语义相似度F_S(e_i,e_m)，具体包括：

将未标记实体e_i输入语义表征模型Sbert模型，得到未标记实体e_i的表征向量。

将实体e_m输入语义表征模型Sbert模型，得到实体e_m的表征向量。

计算未标记实体e_i的表征向量和实体e_m的表征向量，得到未标记实体e_i和待融合图谱中的各实体e_m的相似度F(e_i,e_m)。

基于上述实施例，具体地，步骤S3中具体包括将所有未标记实体的边界不确定性的数值进行排序，将排序在前的预设数量的未标记实体作为待标注实体进行标注。

本申请实施例一提供的基于语义与结构采样策略的实体对齐方法，包括

提取未标记数据池中的所有未标记实体，将未标记实体的上一次迭代得到的边界不确定性数值、未标记实体链接的其他实体的上一次迭代的边界不确定性数值，以及控制未标记实体的不确定性和所链接的其他实体不确定性的比重值，进行迭代计算得到未标记实体的边界不确定性的数值，选取预设数量的未标记实体进行标注更新标记数据集，利用更新后的标记数据集实体对齐模型进行训练，重复上述步骤，直到实体对齐模型满足预设训练结果。本申请利用语义表征模型以及实体对齐模型，对标注数据进行采样，优先标注对知识图谱融合更有价值的数据。在标注完一个批次数据后，更新语义表征模型和实体对齐模型，提升采样策略的效果，再进行下一次采样。不断迭代上述过程，在有限的预算下，可以实现更好的实体对齐效果。

实施例二：

下面将结合附图2至图4，对本申请实施例提供的基于语义与结构采样策略的实体对齐方法在实际环境中使用进行详细介绍，具体包括以下步骤：

110、初始化图数据库环境且准备所需标准数据。

具体地，数据库环境可以Neo 4j或其他的数据库环境，本实施例不做赘述。其中，标准数据可以是如图2所示的标准知识图谱架构。

120、选定实体对齐模型。

具体地，本实施中选择BootEA，并定义实体e_i和实体e_j通过实体对齐模型返回的匹配得分F_EA(e_i,e_j)。

130、查询系统从未标记数据池中提取所有未标记实体，分别对未标记实体进行迭代计算，得到未标记实体的边界不确定性的数值。

基于上述实施例，步骤130中具体包括：

131、判断未标记实体e_i的第t次迭代得到的边界不确定性数值f_t(e_i)和第t-1次迭代得到的边界不确定性数值f_t-1(e_i)的差值是否满足预设迭代结果；

若是，执行步骤132；

否则，执行步骤133，返回步骤131；

132、将第i个未标记实体e_i的第t次迭代得到的边界不确定性的数值f_t(e_i)设置为未标记实体的边界不确定性的数值；

133、将第i个未标记实体e_i的第t次迭代得到的边界不确定性数值f_t(e_i)、未标记实体e_i链接的其他实体e_j的第t次迭代得到的边界不确定性数值f_t(e_j)，以及控制未标记实体e_i的不确定性和所链接的其他实体不确定性的比重值α，输入公式中，得到第i个未标记实体e_i的第t+1次迭代得到的边界不确定性的数值f_t+1(e_i)；

其中，是未标记实体e_i所链接的其他实体集，t≥1，i≥1，j≥1。

134、判断所有未标记实体是否均已迭代完成得到边界不确定性的数值；

若否，则将下一个未得到边界不确定性的数值的未标记实体作为未标记实体e_i，返回步骤131。应理解，将一个实体对其上下文的影响定义为它可以帮助其邻居消除不确定性的程度，公式中，函数f是实体e_i基于边界的不确定性，/>是实体e_i所链接的其他实体集，α是用来控制自身的不确定性和邻居不确定性的比重，通过迭代的方式得到实体e_i的第t次迭代得到的边界不确定性数值f_t(e_i)，不断迭代，直到实体e_i的第t次迭代得到的边界不确定性数值f_t(e_i)和第t-1次迭代得到的边界不确定性数值f_t-1(e_i)的差值f_t(e_i)-f_t-1(e_i)<0.1。

基于上述实施例，具体地，未标记实体e_i的初始边界不确定性数值f₀(e_i)的通过以下方法得到：

计算未标记实体e_i和待融合图谱中的各标准实体e_m的相似度F(e_i,e_m)。

如，相似度排序后计算top k＝100个相似度的方差，方差越大代表信息量越大，方差的计算公式如下：

基于上述实施例，具体地，计算未标记实体e_i和待融合图谱中的各标准实体e_m的相似度F(e_i,e_m)，具体包括：

将未标记实体e_i和标准实体e_m输入实体对齐模型得到匹配分数F_EA(e_i,e_m)。

将未标记实体e_i和标准实体e_m输入语义表征模型得到的语义相似度F_S(e_i,e_m)。

根据匹配分数F_EA(e_i,e_m)、语义相似度F_S(e_i,e_m)和预设权重值，得到未标记实体e_i和待融合图谱中的各标准实体e_m的相似度F(e_i,e_m)。

应理解，计算两个实体的相似度F时，引入了大规模预训练语言模型来对实体的名称以及描述进行向量化表征，计算实体之间语义的匹配得分。基于这两种不确定性F_EA(e_i,e_j)的加权可以得到该实体最终的不确定性，公式如下：

F(e_i,e_m)＝(1-β)F_EA(e_i,e_m)+βF_S(e_i,e_m)

其中，F_EA(e_i,e_m)是由实体对齐模型返回的匹配得分，F_S(e_i,e_j)是由语义表征模型返回的语义相似度得分，β是一个0-1的权重值，通过实验取0.2。

基于上述实施例，具体地，将未标记实体e_i和标准实体e_m输入语义表征模型得到的语义相似度F_S(e_i,e_m)，具体包括：

将标准实体e_m输入语义表征模型Sbert模型，得到标准实体e_m的表征向量。

计算未标记实体e_i的表征向量和标准实体e_m的表征向量，得到未标记实体e_i和待融合图谱中的各标准实体e_m的相似度F(e_i,e_m)。

应理解，采用sentence-bert模型来把实体的文本描述信息表征成向量，通过计算向量之间的距离来衡量两个实体的相似度。sentence-bert借鉴孪生网络模型的框架，将不同的句子输入到两个bert模型中，获取到每个句子的句子表征向量，最终训练所获得的句子表征向量，可以用于语义相似度计算。

140、从步骤130选出的100个价值最大的待标注实体发送到标注系统，进行真实对应实体的标注，新标注数据被添加到标记数据集。

150、用更新后的标记数据集对实体对齐模型F_EA(e_i,e_j)进行训练，更新查询系统。

160、重复以上步骤130至150，直到实体对齐模型达到预设训练结果。

本申请实施例二提供的基于语义与结构采样策略的实体对齐方法，利用语义表征模型以及实体对齐模型，对标注数据进行采样，优先标注对知识图谱融合更有价值的数据。在标注完一个批次数据后，更新语义表征模型和实体对齐模型，提升采样策略的效果，再进行下一次采样。不断迭代上述过程，在有限的预算下，可以实现更好的实体对齐效果。

实施例三：

下面将结合附图5，对本申请实施例提供的基于语义与结构采样策略的实体对齐装置进行详细介绍，具体包括：

选择模块，用于提取未标记数据池中的所有未标记实体；

迭代模块，用于将未标记实体的上一次迭代得到的边界不确定性数值、未标记实体链接的其他实体的上一次迭代的边界不确定性数值，以及控制未标记实体的不确定性和所链接的其他实体不确定性的比重值，输入迭代算法进行计算直到满足预设迭代结果，得到未标记实体的边界不确定性的数值。

标注模块，用于依据所有未标记实体的边界不确定性的数值，选取预设数量的未标记实体作为待标注实体进行标注后，将已标注数据更新到标记数据集。

训练模块，用于利用更新后的标记数据集对待训练的实体对齐模型进行训练后，更新未标记数据池，重复执行所述迭代模块至所述标注模块，直到待训练的实体对齐模型满足预设训练结果。

基于上述实施例，进一步地，所述迭代模块包括第一迭代模块、第二迭代模块、第三迭代模块和第四迭代模块；

所述第一迭代模块，具体用于判断所述未标记实体e_i的第t次迭代得到的边界不确定性数值f_t(e_i)和第t-1次迭代得到的边界不确定性数值f_t-1(e_i)的差值是否满足所述预设迭代结果；

若是，执行第二迭代模块；

否则，执行所述第三迭代模块，返回所述第一迭代模块；

所述第二迭代模块，具体用于将所述第i个未标记实体e_i的第t次迭代得到的边界不确定性的数值f_t(e_i)设置为所述未标记实体的边界不确定性的数值；

所述第三迭代模块，具体用于将第i个未标记实体e_i的第t次迭代得到的边界不确定性数值f_t(e_i)、所述未标记实体e_i链接的其他实体e_j的第t次迭代得到的边界不确定性数值f_t(e_j)，以及控制所述未标记实体e_i的不确定性和所链接的其他实体不确定性的比重值α，输入公式中，得到所述第i个未标记实体e_i的第t+1次迭代得到的边界不确定性的数值f_t+1(e_i)；

所述第四迭代模块，用于判断所有所述未标记实体是否均已迭代完成得到边界不确定性的数值；

若否，则将下一个未得到边界不确定性的数值的未标记实体作为所述未标记实体e_i，返回所述第一迭代模块。

基于上述实施例，进一地，迭代模块，还用于计算未标记实体e_i和待融合图谱中的各实体e_m的相似度F(e_i,e_m)；

对所有相似度F(e_i,e_m)进行排序后，选取从高到低的预设数量的相似度作为选定相似度计算相似度均值；

基于上述实施例，进一步地，迭代模块，还用于将未标记实体e_i和实体e_m输入实体对齐模型得到匹配分数F_EA(e_i,e_m)；

将未标记实体e_i和实体e_m输入语义表征模型得到的语义相似度F_S(e_i,e_m)；

根据匹配分数F_EA(e_i,e_m)，语义相似度F_S(e_i,e_m)和预设权重值，得到未标记实体e_i和待融合图谱中的各实体e_m的相似度F(e_i,e_m)。

基于上述实施例，进一步地，迭代模块，还用于将未标记实体e_i输入语义表征模型Sbert模型，得到未标记实体e_i的表征向量；

将实体e_m输入语义表征模型Sbert模型，得到实体e_m的表征向量；

基于上述实施例，进一步地，标注模块，具体用于将所有未标记实体的边界不确定性的数值进行排序，将排序在前的预设数量的未标记实体作为待标注实体进行标注。

本申请实施例三提供的基于语义与结构采样策略的实体对齐装置，包括选择模块提取未标记数据池中的所有未标记实体，迭代模块将未标记实体的上一次迭代得到的边界不确定性数值、未标记实体链接的其他实体的上一次迭代的边界不确定性数值，以及控制未标记实体的不确定性和所链接的其他实体不确定性的比重值，进行迭代计算得到未标记实体的边界不确定性的数值，标记模块选取预设数量的未标记实体进行标注更新标记数据集，训练模块利用更新后的标记数据集实体对齐模型进行训练，重复上述步骤，直到实体对齐模型满足预设训练结果。本申请利用语义表征模型以及实体对齐模型，对标注数据进行采样，优先标注对知识图谱融合更有价值的数据。在标注完一个批次数据后，更新语义表征模型和实体对齐模型，提升采样策略的效果，再进行下一次采样。不断迭代上述过程，在有限的预算下，可以实现更好的实体对齐效果。

此外，本申请实施例包括一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述技术方案中任一项所述的基于语义与结构采样策略的实体对齐方法。

本申请实施例还包括一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述技术方案中任一项所述的基于语义与结构采样策略的实体对齐方法。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于语义与结构采样策略的实体对齐方法，其特征在于，所述方法包括：

提取未标记数据池中的所有未标记实体；

2.根据权利要求1所述的方法，其特征在于，所述将所述未标记实体的上一次迭代得到的边界不确定性数值、所述未标记实体链接的其他实体的上一次迭代的边界不确定性数值，以及控制所述未标记实体的不确定性和所链接的其他实体不确定性的比重值，输入迭代算法进行计算直到满足预设迭代结果，得到所述未标记实体的边界不确定性的数值，具体包括：

S1、判断所述未标记实体e_i的第t次迭代得到的边界不确定性数值f_t(e_i)和第t-1次迭代得到的边界不确定性数值f_t-1(e_i)的差值是否满足所述预设迭代结果；

若是，执行步骤S2；

否则，执行步骤S3，返回步骤S1；

S2、将所述第i个未标记实体e_i的第t次迭代得到的边界不确定性的数值f_t(e_i)设置为所述未标记实体的边界不确定性的数值；

S3、将第i个未标记实体e_i的第t次迭代得到的边界不确定性数值f_t(e_i)、所述未标记实体e_i链接的其他实体e_j的第t次迭代得到的边界不确定性数值f_t(e_j)，以及控制所述未标记实体e_i的不确定性和所链接的其他实体不确定性的比重值α，输入公式中，得到所述第i个未标记实体e_i的第t+1次迭代得到的边界不确定性的数值f_t+1(e_i)；

其中，是所述未标记实体e_i所链接的其他实体集，t≥1，i≥1，j≥1；

S4、判断所有所述未标记实体是否均已迭代完成得到边界不确定性的数值；

若否，则将下一个未得到边界不确定性的数值的未标记实体作为所述未标记实体e_i，返回步骤S1。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

计算所述未标记实体e_i和待融合图谱中的各实体e_m的相似度F(e_i，e_m)；

对所有所述相似度F(e_i，e_m)进行排序后，选取从高到低的预设数量的相似度作为选定相似度计算相似度均值；

将所述相似度均值和所述相似度F(e_i，e_m)输入方差公式，得到所述未标记实体e_i的初始边界不确定性数值f₀(e_i)。

4.根据权利要求3所述的方法，其特征在于，所述计算所述未标记实体e_i和待融合图谱中的各实体e_m的相似度F(e_i，e_m)，具体包括：

将所述未标记实体e_i和所述实体e_m输入所述实体对齐模型得到匹配分数F_EA(e_i，e_m)；

将所述未标记实体e_i和所述实体e_m输入语义表征模型得到语义相似度F_S(e_i，e_m)；

根据所述匹配分数F_EA(e_i，e_m)、所述语义相似度F_S(e_i，e_m)和预设权重值，得到所述未标记实体e_i和待融合图谱中各实体e_m的相似度F(e_i，e_m)。

5.根据权利要求4所述的方法，其特征在于，所述将所述未标记实体e_i和所述实体e_m输入语义表征模型得到的语义相似度F_S(e_i，e_m)，具体包括：

将所述未标记实体e_i输入第一语义表征模型Sbert模型，得到所述未标记实体e_i的表征向量；

将所述实体e_m输入第二语义表征模型Sbert模型，得到所述实体e_m的表征向量；

计算所述未标记实体e_i的表征向量和所述实体e_m的表征向量，得到所述未标记实体e_i和待融合图谱中的各实体e_m的相似度F(e_i，e_m)。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述依据所有所述未标记实体的边界不确定性的数值，选取预设数量的所述未标记实体作为待标注实体进行标注，具体包括：

将所有所述未标记实体的边界不确定性的数值从大到小进行排序，将排序在前的预设数量的所述未标记实体作为待标注实体进行标注。

7.一种基于语义与结构采样策略的实体对齐装置，其特征在于，所述装置包括：

选择模块，用于提取未标记数据池中的所有未标记实体；

训练模块，用于利用更新后的所述标记数据集对待训练的实体对齐模型进行训练后，更新所述未标记数据池，重复执行所述迭代模块至所述标注模块，直到所述实体对齐模型满足预设训练结果。

8.根据权利要求7所述的装置，其特征在于，

所述迭代模块包括第一迭代模块、第二迭代模块、第三迭代模块和第四迭代模块；

若是，执行第二迭代模块；

否则，执行所述第三迭代模块，返回所述第一迭代模块；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的基于语义与结构采样策略的实体对齐方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的基于语义与结构采样策略的实体对齐方法。