CN117556016A - 一种基于语义与结构采样策略的实体对齐方法和装置 - Google Patents
一种基于语义与结构采样策略的实体对齐方法和装置 Download PDFInfo
- Publication number
- CN117556016A CN117556016A CN202311596284.0A CN202311596284A CN117556016A CN 117556016 A CN117556016 A CN 117556016A CN 202311596284 A CN202311596284 A CN 202311596284A CN 117556016 A CN117556016 A CN 117556016A
- Authority
- CN
- China
- Prior art keywords
- entity
- unlabeled
- value
- iteration
- uncertainty
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000005070 sampling Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000004590 computer program Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 17
- 230000005484 gravity Effects 0.000 claims description 16
- 238000012512 characterization method Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000002372 labelling Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 10
- 230000004927 fusion Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种基于语义与结构采样策略的实体对齐方法,包括将选择的未标注实体的上一次迭代得到的边界不确定性数值和未标记实体链接的其他实体的上一次迭代的边界不确定性数值迭代计算,得到未标记实体的边界不确定性的数值,根据未标记实体的边界不确定性的数值,选择标注实体标注并更新标记数据集,利用更新后标记数据集实体对齐模型训练,重复上述步骤,直到实体对齐模型满足预设训练结果。本申请优先标注对知识图谱融合更有价值的数据,更新语义表征模型和实体对齐模型,提升采样策略的效果,不断迭代上述过程,在有限的预算下,可以实现更好的实体对齐效果。本申请还涉及一种基于语义与结构采样策略的实体对齐装置、设备和存储介质。
Description
技术领域
本申请涉及文本处理技术领域,尤其涉及一种基于语义与结构采样策略的实体对齐方法和装置。
背景技术
当前,从不同的知识图谱中识别出等效实体进行图谱融合实体对齐是知识图谱融合的关键技术。现有方式一是采用端到端实体匹配的神经网络模型实现实体对齐的模型,但是需要依赖大量种子对齐数据作为训练数据,而这些种子对齐数据的标注成本非常高;现有方式二是专注于具有文字属性的表格数据,其提出相似性度量或深度学习模型来比较文字属性,并生成主动学习的特征向量。然而,知识图谱中的实体与数据库中的实体差别很大,不同的知识图谱通常由异构模式表示。因此,如何能以更少的标注成本且更高效率的生成实体对齐模型是目前亟需解决的技术问题。
发明内容
为了能以更少的标注成本且更高效率的生成实体对齐模型,本申请提供了一种基于语义与结构采样策略的实体对齐方法和装置。
第一方面,本申请提供了一种基于语义与结构采样策略的实体对齐方法,方法包括:
提取未标记数据池中的所有未标记实体;
将所述未标记实体的上一次迭代得到的边界不确定性数值、所述未标记实体链接的其他实体的上一次迭代的边界不确定性数值,以及控制所述未标记实体的不确定性和所链接的其他实体不确定性的比重值,输入迭代算法进行计算直到满足预设迭代结果,得到所述未标记实体的边界不确定性的数值;
依据所有所述未标记实体的边界不确定性的数值,选取预设数量的所述未标记实体作为待标注实体进行标注,将已标注数据更新到标记数据集;
利用更新后的所述标记数据集对待训练的实体对齐模型进行训练后,更新所述未标记数据池,重复上述步骤,直到所述实体对齐模型满足预设训练结果。
第二方面,本申请还提供了一种基于语义与结构采样策略的实体对齐装置,装置包括:
选择模块,用于提取未标记数据池中的所有未标记实体;
迭代模块,用于将所述未标记实体的上一次迭代得到的边界不确定性数值、所述未标记实体链接的其他实体的上一次迭代的边界不确定性数值,以及控制所述未标记实体的不确定性和所链接的其他实体不确定性的比重值,输入迭代算法进行计算直到满足预设迭代结果,得到所述未标记实体的边界不确定性的数值;
标注模块,用于依据所有所述未标记实体的边界不确定性的数值,选取预设数量的所述未标记实体作为待标注实体进行标注,将已标注数据更新到标记数据集;
训练模块,用于利用更新后的所述标记数据集对待训练的实体对齐模型进行训练后,更新所述未标记数据池,重复上述步骤,直到所述实体对齐模型满足预设训练结果。
第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面中任一项所述的基于语义与结构采样策略的实体对齐方法。
第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的基于语义与结构采样策略的实体对齐方法。
本申请提供的基于语义与结构采样策略的实体对齐方法,包括提取未标记数据池中的所有未标记实体,将未标记实体的上一次迭代得到的边界不确定性数值、未标记实体链接的其他实体的上一次迭代的边界不确定性数值,以及控制未标记实体的不确定性和所链接的其他实体不确定性的比重值,进行迭代计算得到未标记实体的边界不确定性的数值,选取预设数量的未标记实体进行标注更新标记数据集,利用更新后的标记数据集实体对齐模型进行训练,重复上述步骤,直到实体对齐模型满足预设训练结果。本申请利用语义表征模型以及实体对齐模型,对标注数据进行采样,优先标注对知识图谱融合更有价值的数据。在标注完一个批次数据后,更新语义表征模型和实体对齐模型,提升采样策略的效果,再进行下一次采样。不断迭代上述过程,在有限的预算下,可以实现更好的实体对齐效果。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本申请实施例提供的基于语义与结构采样策略的实体对齐方法的流程示意图;
图2是本申请另一实施例提供的基于语义与结构采样策略的实体对齐方法中的待融合图谱架构示意图;
图3是本申请另一实施例提供的基于语义与结构采样策略的实体对齐方法的训练框架示意图;
图4是本申请另一实施例提供的基于语义与结构采样策略的实体对齐方法的流程示意图;
图5是本申请另一实施例提供的基于语义与结构采样策略的实体对齐装置的模块示意图。
具体实施方式
下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本发明所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
实施例一:
下面将结合附图1,对本申请实施例提供的基于语义与结构采样策略的实体对齐方法进行详细介绍,包括以下步骤:
S1、提取未标记数据池中的所有未标记实体。S2、将未标记实体的上一次迭代得到的边界不确定性数值、未标记实体链接的其他实体的上一次迭代的边界不确定性数值,以及控制未标记实体的不确定性和所链接的其他实体不确定性的比重值,输入迭代算法进行计算直到满足预设迭代结果,得到未标记实体的边界不确定性的数值。
S3、依据所有未标记实体的边界不确定性的数值,选取预设数量的未标记实体作为待标注实体进行标注,将已标注数据更新到标记数据集。
S4、利用更新后的标记数据集对待训练的实体对齐模型进行训练后,更新未标记数据池,返回步骤S1,直到待训练的实体对齐模型满足预设训练结果。
基于上述实施例,具体地,步骤S2具体包括:
S21、判断所述未标记实体ei的第t次迭代得到的边界不确定性数值ft(ei)和第t-1次迭代得到的边界不确定性数值ft-1(ei)的差值是否满足所述预设迭代结果;
若是,执行步骤S22;
否则,执行步骤S23,返回步骤S21;
S22、将所述第i个未标记实体ei的第t次迭代得到的边界不确定性的数值ft(ei)设置为所述未标记实体的边界不确定性的数值;
S23、将第i个未标记实体ei的第t次迭代得到的边界不确定性数值ft(ei)、所述未标记实体ei链接的其他实体ej的第t次迭代得到的边界不确定性数值ft(ej),以及控制所述未标记实体ei的不确定性和所链接的其他实体不确定性的比重值α,输入公式中,得到所述第i个未标记实体ei的第t+1次迭代得到的边界不确定性的数值ft+1(ei);
其中,是所述未标记实体ei所链接的其他实体集,t≥1,i≥1,j≥1。
S24、判断所有未标记实体是否均已迭代完成得到边界不确定性的数值;
若否,则将下一个未得到边界不确定性的数值的未标记实体作为未标记实体ei,返回步骤S21。基于上述实施例,具体地,步骤S2中还包括:
计算未标记实体ei和待融合图谱中的各实体em的相似度F(ei,em)。
对所有相似度F(ei,em)进行排序后,选取从高到低的预设数量的相似度作为选定相似度计算相似度均值。
将相似度均值和相似度F(ei,em)输入方差公式,得到未标记实体ei的初始边界不确定性数值f0(ei)。
基于上述实施例,具体地,计算未标记实体ei和待融合图谱中的各实体em的相似度F(ei,em),具体包括:
将未标记实体ei和实体em输入实体对齐模型得到匹配分数FEA(ei,em)。
将未标记实体ei和实体em输入语义表征模型得到的语义相似度FS(ei,em)。
根据匹配分数FEA(ei,em)、语义相似度FS(ei,em)和预设权重值,得到未标记实体ei和待融合图谱中的各实体em的相似度F(ei,em)。
基于上述实施例,具体地,将未标记实体ei和实体em输入语义表征模型得到的语义相似度FS(ei,em),具体包括:
将未标记实体ei输入语义表征模型Sbert模型,得到未标记实体ei的表征向量。
将实体em输入语义表征模型Sbert模型,得到实体em的表征向量。
计算未标记实体ei的表征向量和实体em的表征向量,得到未标记实体ei和待融合图谱中的各实体em的相似度F(ei,em)。
基于上述实施例,具体地,步骤S3中具体包括将所有未标记实体的边界不确定性的数值进行排序,将排序在前的预设数量的未标记实体作为待标注实体进行标注。
本申请实施例一提供的基于语义与结构采样策略的实体对齐方法,包括
提取未标记数据池中的所有未标记实体,将未标记实体的上一次迭代得到的边界不确定性数值、未标记实体链接的其他实体的上一次迭代的边界不确定性数值,以及控制未标记实体的不确定性和所链接的其他实体不确定性的比重值,进行迭代计算得到未标记实体的边界不确定性的数值,选取预设数量的未标记实体进行标注更新标记数据集,利用更新后的标记数据集实体对齐模型进行训练,重复上述步骤,直到实体对齐模型满足预设训练结果。本申请利用语义表征模型以及实体对齐模型,对标注数据进行采样,优先标注对知识图谱融合更有价值的数据。在标注完一个批次数据后,更新语义表征模型和实体对齐模型,提升采样策略的效果,再进行下一次采样。不断迭代上述过程,在有限的预算下,可以实现更好的实体对齐效果。
实施例二:
下面将结合附图2至图4,对本申请实施例提供的基于语义与结构采样策略的实体对齐方法在实际环境中使用进行详细介绍,具体包括以下步骤:
110、初始化图数据库环境且准备所需标准数据。
具体地,数据库环境可以Neo 4j或其他的数据库环境,本实施例不做赘述。其中,标准数据可以是如图2所示的标准知识图谱架构。
120、选定实体对齐模型。
具体地,本实施中选择BootEA,并定义实体ei和实体ej通过实体对齐模型返回的匹配得分FEA(ei,ej)。
130、查询系统从未标记数据池中提取所有未标记实体,分别对未标记实体进行迭代计算,得到未标记实体的边界不确定性的数值。
基于上述实施例,步骤130中具体包括:
131、判断未标记实体ei的第t次迭代得到的边界不确定性数值ft(ei)和第t-1次迭代得到的边界不确定性数值ft-1(ei)的差值是否满足预设迭代结果;
若是,执行步骤132;
否则,执行步骤133,返回步骤131;
132、将第i个未标记实体ei的第t次迭代得到的边界不确定性的数值ft(ei)设置为未标记实体的边界不确定性的数值;
133、将第i个未标记实体ei的第t次迭代得到的边界不确定性数值ft(ei)、未标记实体ei链接的其他实体ej的第t次迭代得到的边界不确定性数值ft(ej),以及控制未标记实体ei的不确定性和所链接的其他实体不确定性的比重值α,输入公式中,得到第i个未标记实体ei的第t+1次迭代得到的边界不确定性的数值ft+1(ei);
其中,是未标记实体ei所链接的其他实体集,t≥1,i≥1,j≥1。
134、判断所有未标记实体是否均已迭代完成得到边界不确定性的数值;
若否,则将下一个未得到边界不确定性的数值的未标记实体作为未标记实体ei,返回步骤131。应理解,将一个实体对其上下文的影响定义为它可以帮助其邻居消除不确定性的程度,公式中,函数f是实体ei基于边界的不确定性,/>是实体ei所链接的其他实体集,α是用来控制自身的不确定性和邻居不确定性的比重,通过迭代的方式得到实体ei的第t次迭代得到的边界不确定性数值ft(ei),不断迭代,直到实体ei的第t次迭代得到的边界不确定性数值ft(ei)和第t-1次迭代得到的边界不确定性数值ft-1(ei)的差值ft(ei)-ft-1(ei)<0.1。
基于上述实施例,具体地,未标记实体ei的初始边界不确定性数值f0(ei)的通过以下方法得到:
计算未标记实体ei和待融合图谱中的各标准实体em的相似度F(ei,em)。
对所有相似度F(ei,em)进行排序后,选取从高到低的预设数量的相似度作为选定相似度计算相似度均值。
将相似度均值和相似度F(ei,em)输入方差公式,得到未标记实体ei的初始边界不确定性数值f0(ei)。
如,相似度排序后计算top k=100个相似度的方差,方差越大代表信息量越大,方差的计算公式如下:
基于上述实施例,具体地,计算未标记实体ei和待融合图谱中的各标准实体em的相似度F(ei,em),具体包括:
将未标记实体ei和标准实体em输入实体对齐模型得到匹配分数FEA(ei,em)。
将未标记实体ei和标准实体em输入语义表征模型得到的语义相似度FS(ei,em)。
根据匹配分数FEA(ei,em)、语义相似度FS(ei,em)和预设权重值,得到未标记实体ei和待融合图谱中的各标准实体em的相似度F(ei,em)。
应理解,计算两个实体的相似度F时,引入了大规模预训练语言模型来对实体的名称以及描述进行向量化表征,计算实体之间语义的匹配得分。基于这两种不确定性FEA(ei,ej)的加权可以得到该实体最终的不确定性,公式如下:
F(ei,em)=(1-β)FEA(ei,em)+βFS(ei,em)
其中,FEA(ei,em)是由实体对齐模型返回的匹配得分,FS(ei,ej)是由语义表征模型返回的语义相似度得分,β是一个0-1的权重值,通过实验取0.2。
基于上述实施例,具体地,将未标记实体ei和标准实体em输入语义表征模型得到的语义相似度FS(ei,em),具体包括:
将未标记实体ei输入语义表征模型Sbert模型,得到未标记实体ei的表征向量。
将标准实体em输入语义表征模型Sbert模型,得到标准实体em的表征向量。
计算未标记实体ei的表征向量和标准实体em的表征向量,得到未标记实体ei和待融合图谱中的各标准实体em的相似度F(ei,em)。
应理解,采用sentence-bert模型来把实体的文本描述信息表征成向量,通过计算向量之间的距离来衡量两个实体的相似度。sentence-bert借鉴孪生网络模型的框架,将不同的句子输入到两个bert模型中,获取到每个句子的句子表征向量,最终训练所获得的句子表征向量,可以用于语义相似度计算。
140、从步骤130选出的100个价值最大的待标注实体发送到标注系统,进行真实对应实体的标注,新标注数据被添加到标记数据集。
150、用更新后的标记数据集对实体对齐模型FEA(ei,ej)进行训练,更新查询系统。
160、重复以上步骤130至150,直到实体对齐模型达到预设训练结果。
本申请实施例二提供的基于语义与结构采样策略的实体对齐方法,利用语义表征模型以及实体对齐模型,对标注数据进行采样,优先标注对知识图谱融合更有价值的数据。在标注完一个批次数据后,更新语义表征模型和实体对齐模型,提升采样策略的效果,再进行下一次采样。不断迭代上述过程,在有限的预算下,可以实现更好的实体对齐效果。
实施例三:
下面将结合附图5,对本申请实施例提供的基于语义与结构采样策略的实体对齐装置进行详细介绍,具体包括:
选择模块,用于提取未标记数据池中的所有未标记实体;
迭代模块,用于将未标记实体的上一次迭代得到的边界不确定性数值、未标记实体链接的其他实体的上一次迭代的边界不确定性数值,以及控制未标记实体的不确定性和所链接的其他实体不确定性的比重值,输入迭代算法进行计算直到满足预设迭代结果,得到未标记实体的边界不确定性的数值。
标注模块,用于依据所有未标记实体的边界不确定性的数值,选取预设数量的未标记实体作为待标注实体进行标注后,将已标注数据更新到标记数据集。
训练模块,用于利用更新后的标记数据集对待训练的实体对齐模型进行训练后,更新未标记数据池,重复执行所述迭代模块至所述标注模块,直到待训练的实体对齐模型满足预设训练结果。
基于上述实施例,进一步地,所述迭代模块包括第一迭代模块、第二迭代模块、第三迭代模块和第四迭代模块;
所述第一迭代模块,具体用于判断所述未标记实体ei的第t次迭代得到的边界不确定性数值ft(ei)和第t-1次迭代得到的边界不确定性数值ft-1(ei)的差值是否满足所述预设迭代结果;
若是,执行第二迭代模块;
否则,执行所述第三迭代模块,返回所述第一迭代模块;
所述第二迭代模块,具体用于将所述第i个未标记实体ei的第t次迭代得到的边界不确定性的数值ft(ei)设置为所述未标记实体的边界不确定性的数值;
所述第三迭代模块,具体用于将第i个未标记实体ei的第t次迭代得到的边界不确定性数值ft(ei)、所述未标记实体ei链接的其他实体ej的第t次迭代得到的边界不确定性数值ft(ej),以及控制所述未标记实体ei的不确定性和所链接的其他实体不确定性的比重值α,输入公式中,得到所述第i个未标记实体ei的第t+1次迭代得到的边界不确定性的数值ft+1(ei);
其中,是所述未标记实体ei所链接的其他实体集,t≥1,i≥1,j≥1。
所述第四迭代模块,用于判断所有所述未标记实体是否均已迭代完成得到边界不确定性的数值;
若否,则将下一个未得到边界不确定性的数值的未标记实体作为所述未标记实体ei,返回所述第一迭代模块。
基于上述实施例,进一地,迭代模块,还用于计算未标记实体ei和待融合图谱中的各实体em的相似度F(ei,em);
对所有相似度F(ei,em)进行排序后,选取从高到低的预设数量的相似度作为选定相似度计算相似度均值;
将相似度均值和相似度F(ei,em)输入方差公式,得到未标记实体ei的初始边界不确定性数值f0(ei)。
基于上述实施例,进一步地,迭代模块,还用于将未标记实体ei和实体em输入实体对齐模型得到匹配分数FEA(ei,em);
将未标记实体ei和实体em输入语义表征模型得到的语义相似度FS(ei,em);
根据匹配分数FEA(ei,em),语义相似度FS(ei,em)和预设权重值,得到未标记实体ei和待融合图谱中的各实体em的相似度F(ei,em)。
基于上述实施例,进一步地,迭代模块,还用于将未标记实体ei输入语义表征模型Sbert模型,得到未标记实体ei的表征向量;
将实体em输入语义表征模型Sbert模型,得到实体em的表征向量;
计算未标记实体ei的表征向量和实体em的表征向量,得到未标记实体ei和待融合图谱中的各实体em的相似度F(ei,em)。
基于上述实施例,进一步地,标注模块,具体用于将所有未标记实体的边界不确定性的数值进行排序,将排序在前的预设数量的未标记实体作为待标注实体进行标注。
本申请实施例三提供的基于语义与结构采样策略的实体对齐装置,包括选择模块提取未标记数据池中的所有未标记实体,迭代模块将未标记实体的上一次迭代得到的边界不确定性数值、未标记实体链接的其他实体的上一次迭代的边界不确定性数值,以及控制未标记实体的不确定性和所链接的其他实体不确定性的比重值,进行迭代计算得到未标记实体的边界不确定性的数值,标记模块选取预设数量的未标记实体进行标注更新标记数据集,训练模块利用更新后的标记数据集实体对齐模型进行训练,重复上述步骤,直到实体对齐模型满足预设训练结果。本申请利用语义表征模型以及实体对齐模型,对标注数据进行采样,优先标注对知识图谱融合更有价值的数据。在标注完一个批次数据后,更新语义表征模型和实体对齐模型,提升采样策略的效果,再进行下一次采样。不断迭代上述过程,在有限的预算下,可以实现更好的实体对齐效果。
此外,本申请实施例包括一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述技术方案中任一项所述的基于语义与结构采样策略的实体对齐方法。
本申请实施例还包括一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述技术方案中任一项所述的基于语义与结构采样策略的实体对齐方法。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种基于语义与结构采样策略的实体对齐方法,其特征在于,所述方法包括:
提取未标记数据池中的所有未标记实体;
将所述未标记实体的上一次迭代得到的边界不确定性数值、所述未标记实体链接的其他实体的上一次迭代的边界不确定性数值,以及控制所述未标记实体的不确定性和所链接的其他实体不确定性的比重值,输入迭代算法进行计算直到满足预设迭代结果,得到所述未标记实体的边界不确定性的数值;
依据所有所述未标记实体的边界不确定性的数值,选取预设数量的所述未标记实体作为待标注实体进行标注,将已标注数据更新到标记数据集;
利用更新后的所述标记数据集对待训练的实体对齐模型进行训练后,更新所述未标记数据池,重复上述步骤,直到所述实体对齐模型满足预设训练结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述未标记实体的上一次迭代得到的边界不确定性数值、所述未标记实体链接的其他实体的上一次迭代的边界不确定性数值,以及控制所述未标记实体的不确定性和所链接的其他实体不确定性的比重值,输入迭代算法进行计算直到满足预设迭代结果,得到所述未标记实体的边界不确定性的数值,具体包括:
S1、判断所述未标记实体ei的第t次迭代得到的边界不确定性数值ft(ei)和第t-1次迭代得到的边界不确定性数值ft-1(ei)的差值是否满足所述预设迭代结果;
若是,执行步骤S2;
否则,执行步骤S3,返回步骤S1;
S2、将所述第i个未标记实体ei的第t次迭代得到的边界不确定性的数值ft(ei)设置为所述未标记实体的边界不确定性的数值;
S3、将第i个未标记实体ei的第t次迭代得到的边界不确定性数值ft(ei)、所述未标记实体ei链接的其他实体ej的第t次迭代得到的边界不确定性数值ft(ej),以及控制所述未标记实体ei的不确定性和所链接的其他实体不确定性的比重值α,输入公式中,得到所述第i个未标记实体ei的第t+1次迭代得到的边界不确定性的数值ft+1(ei);
其中,是所述未标记实体ei所链接的其他实体集,t≥1,i≥1,j≥1;
S4、判断所有所述未标记实体是否均已迭代完成得到边界不确定性的数值;
若否,则将下一个未得到边界不确定性的数值的未标记实体作为所述未标记实体ei,返回步骤S1。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
计算所述未标记实体ei和待融合图谱中的各实体em的相似度F(ei,em);
对所有所述相似度F(ei,em)进行排序后,选取从高到低的预设数量的相似度作为选定相似度计算相似度均值;
将所述相似度均值和所述相似度F(ei,em)输入方差公式,得到所述未标记实体ei的初始边界不确定性数值f0(ei)。
4.根据权利要求3所述的方法,其特征在于,所述计算所述未标记实体ei和待融合图谱中的各实体em的相似度F(ei,em),具体包括:
将所述未标记实体ei和所述实体em输入所述实体对齐模型得到匹配分数FEA(ei,em);
将所述未标记实体ei和所述实体em输入语义表征模型得到语义相似度FS(ei,em);
根据所述匹配分数FEA(ei,em)、所述语义相似度FS(ei,em)和预设权重值,得到所述未标记实体ei和待融合图谱中各实体em的相似度F(ei,em)。
5.根据权利要求4所述的方法,其特征在于,所述将所述未标记实体ei和所述实体em输入语义表征模型得到的语义相似度FS(ei,em),具体包括:
将所述未标记实体ei输入第一语义表征模型Sbert模型,得到所述未标记实体ei的表征向量;
将所述实体em输入第二语义表征模型Sbert模型,得到所述实体em的表征向量;
计算所述未标记实体ei的表征向量和所述实体em的表征向量,得到所述未标记实体ei和待融合图谱中的各实体em的相似度F(ei,em)。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述依据所有所述未标记实体的边界不确定性的数值,选取预设数量的所述未标记实体作为待标注实体进行标注,具体包括:
将所有所述未标记实体的边界不确定性的数值从大到小进行排序,将排序在前的预设数量的所述未标记实体作为待标注实体进行标注。
7.一种基于语义与结构采样策略的实体对齐装置,其特征在于,所述装置包括:
选择模块,用于提取未标记数据池中的所有未标记实体;
迭代模块,用于将所述未标记实体的上一次迭代得到的边界不确定性数值、所述未标记实体链接的其他实体的上一次迭代的边界不确定性数值,以及控制所述未标记实体的不确定性和所链接的其他实体不确定性的比重值,输入迭代算法进行计算直到满足预设迭代结果,得到所述未标记实体的边界不确定性的数值;
标注模块,用于依据所有所述未标记实体的边界不确定性的数值,选取预设数量的所述未标记实体作为待标注实体进行标注,将已标注数据更新到标记数据集;
训练模块,用于利用更新后的所述标记数据集对待训练的实体对齐模型进行训练后,更新所述未标记数据池,重复执行所述迭代模块至所述标注模块,直到所述实体对齐模型满足预设训练结果。
8.根据权利要求7所述的装置,其特征在于,
所述迭代模块包括第一迭代模块、第二迭代模块、第三迭代模块和第四迭代模块;
所述第一迭代模块,具体用于判断所述未标记实体ei的第t次迭代得到的边界不确定性数值ft(ei)和第t-1次迭代得到的边界不确定性数值ft-1(ei)的差值是否满足所述预设迭代结果;
若是,执行第二迭代模块;
否则,执行所述第三迭代模块,返回所述第一迭代模块;
所述第二迭代模块,具体用于将所述第i个未标记实体ei的第t次迭代得到的边界不确定性的数值ft(ei)设置为所述未标记实体的边界不确定性的数值;
所述第三迭代模块,具体用于将第i个未标记实体ei的第t次迭代得到的边界不确定性数值ft(ei)、所述未标记实体ei链接的其他实体ej的第t次迭代得到的边界不确定性数值ft(ej),以及控制所述未标记实体ei的不确定性和所链接的其他实体不确定性的比重值α,输入公式中,得到所述第i个未标记实体ei的第t+1次迭代得到的边界不确定性的数值ft+1(ei);
其中,是所述未标记实体ei所链接的其他实体集,t≥1,i≥1,j≥1;
所述第四迭代模块,用于判断所有所述未标记实体是否均已迭代完成得到边界不确定性的数值;
若否,则将下一个未得到边界不确定性的数值的未标记实体作为所述未标记实体ei,返回所述第一迭代模块。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的基于语义与结构采样策略的实体对齐方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的基于语义与结构采样策略的实体对齐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311596284.0A CN117556016A (zh) | 2023-11-27 | 2023-11-27 | 一种基于语义与结构采样策略的实体对齐方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311596284.0A CN117556016A (zh) | 2023-11-27 | 2023-11-27 | 一种基于语义与结构采样策略的实体对齐方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117556016A true CN117556016A (zh) | 2024-02-13 |
Family
ID=89816566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311596284.0A Pending CN117556016A (zh) | 2023-11-27 | 2023-11-27 | 一种基于语义与结构采样策略的实体对齐方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117556016A (zh) |
-
2023
- 2023-11-27 CN CN202311596284.0A patent/CN117556016A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103838836B (zh) | 基于判别式多模态深度置信网多模态数据融合方法和系统 | |
CN112364174A (zh) | 基于知识图谱的病人病历相似度评估方法及系统 | |
CN112905801B (zh) | 基于事件图谱的行程预测方法、系统、设备及存储介质 | |
CN108845988B (zh) | 一种实体识别方法、装置、设备及计算机可读存储介质 | |
CN114386694A (zh) | 基于对比学习的药物分子性质预测方法、装置及设备 | |
CN112015868A (zh) | 基于知识图谱补全的问答方法 | |
CN110674323A (zh) | 基于虚拟标签回归的无监督跨模态哈希检索方法及系统 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
CN113946685B (zh) | 一种融合规则和深度学习的渔业标准知识图谱构建方法 | |
CN114186084B (zh) | 在线多模态哈希检索方法、系统、存储介质及设备 | |
CN111460824A (zh) | 一种基于对抗迁移学习的无标注命名实体识别方法 | |
CN113128233B (zh) | 一种心理疾病知识图谱的构建方法及系统 | |
CN114943017B (zh) | 一种基于相似性零样本哈希的跨模态检索方法 | |
CN113297369A (zh) | 基于知识图谱子图检索的智能问答系统 | |
CN112115264B (zh) | 面向数据分布变化的文本分类模型调整方法 | |
CN114627980A (zh) | 一种化学逆合成分析方法及系统 | |
CN112183580B (zh) | 一种基于动态知识路径学习的小样本分类方法 | |
CN103559510B (zh) | 一种利用相关主题模型识别社会群体行为的方法 | |
CN112905750A (zh) | 一种优化模型的生成方法和设备 | |
CN111737402A (zh) | 题库智能知识点标注系统 | |
CN117556016A (zh) | 一种基于语义与结构采样策略的实体对齐方法和装置 | |
CN115757464A (zh) | 一种基于深度强化学习的智能物化视图查询方法 | |
CN115983269A (zh) | 一种智慧社区数据命名实体识别方法、终端及计算机介质 | |
CN114372148A (zh) | 一种基于知识图谱技术的数据处理方法及终端设备 | |
CN113591731A (zh) | 一种基于知识蒸馏的弱监督视频时序行为定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |