CN114580390A - 一种横跨图数据与关系数据的实体对识别方法及装置 - Google Patents
一种横跨图数据与关系数据的实体对识别方法及装置 Download PDFInfo
- Publication number
- CN114580390A CN114580390A CN202210227078.1A CN202210227078A CN114580390A CN 114580390 A CN114580390 A CN 114580390A CN 202210227078 A CN202210227078 A CN 202210227078A CN 114580390 A CN114580390 A CN 114580390A
- Authority
- CN
- China
- Prior art keywords
- node
- graph data
- target
- data
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000015654 memory Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 abstract description 4
- 230000001186 cumulative effect Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 230000003287 optical effect Effects 0.000 description 6
- 101100356682 Caenorhabditis elegans rho-1 gene Proteins 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- JXASPPWQHFOWPL-UHFFFAOYSA-N Tamarixin Natural products C1=C(O)C(OC)=CC=C1C1=C(OC2C(C(O)C(O)C(CO)O2)O)C(=O)C2=C(O)C=C(O)C=C2O1 JXASPPWQHFOWPL-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005201 scrubbing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种横跨图数据与关系数据的实体对识别方法及装置,通过获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点;依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括至少一个第二节点;所述第一元组与所述第二节点相对应;依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对。通过横跨关系数据和图数据研究实体识别,而不仅仅是在关系数据上开展实体识别;参数模拟找到的匹配是可解释的,说明为什么两个顶点匹配基于匹配顶点对和累积分数。
Description
技术领域
本发明涉及图数据管理技术领域,具体涉及一种横跨图数据与关系数据 的实体对识别方法及装置。
背景技术
传统实体识别主要针对模式指定的关系数据进行研究。关系数据库,是 建立在关系数据库模型基础上的数据库,借助于集合代数等概念和方法来处 理数据库中的数据,同时也是一个被组织成一组拥有正式描述性的表格,该 形式的表格作用的实质是装载着数据项的特殊收集体,这些表格中的数据能 以许多不同的方式被存取或重新召集而不需要重新组织数据库表格。关系数 据库的定义造成元数据的一张表格或造成表格、列、范围和约束的正式描述。 每个表格(有时被称为一个关系)包含用列表示的一个或更多的数据种类。 每行包含一个唯一的数据实体,这些数据是被列定义的种类。当创造一个关 系数据库的时候,你能定义数据列的可能值的范围和可能应用于那个数据值 的进一步约束。
现有的关系数据实体识别系统采用机器学习模型为实体识别训练图嵌 入,和直接基于机器学习模型的实体识别架构;迁移和主动学习,学习可迁 移到新任务的实体识别模型。通过主动学习来学习实体识别规则,采用主动 学习来自适应地处理实体识别工作负载。
但现有的方法都不适用于在关系数据和图数据中开展实体识别。关系数 据实体识别方法依赖于模式信息,不适用于与模式无关的图。
发明内容
鉴于所述问题,提出了本申请以便提供克服所述问题或者至少部分地解 决所述问题的一种横跨图数据与关系数据的实体对识别方法及装置,包括:
一种横跨图数据与关系数据的实体对识别方法,所述方法用于识别出目 标第一图数据中的目标节点和目标关系数据中的目标元组相匹配的实体对, 包括:
获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数 据包括至少一个元组,所述目标第一图数据包括至少一个第一节点;
依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数 据包括至少一个第二节点;所述第一元组与所述第二节点相对应;
依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和 所述目标关系数据中匹配的实体对。
优选地,所述依据所述第一节点和所述第二节点确定对应于所述目标第 一图数据和所述目标关系数据中匹配的实体对的步骤,包括:
依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节 点生成单个节点实体对匹配;或;依据所述目标第一图数据中的第一节点和 所述第二图数据中的第二节点生成多个节点实体对匹配;或;依据所述目标 第一图数据中的第一节点和所述第二图数据中的第二节点生成所有节点实 体对匹配;
依据单个节点实体对匹配或多个节点实体对匹配或设所有节点实体对 匹配输出所述目标第一图数据和关系数据中匹配的实体对。
优选地,所述依据所述目标第一图数据中的第一节点和所述第二图数据 中的第二节点生成单个节点实体对匹配的步骤,包括:
将所述第二图数据中的第二节点按照顺序进行排序;
依次分别将所述第二图数据中的第二节点和所述目标第一图数据中的 第一节点的关联性进行求和;
若求和的数值达到预设数值,则为匹配实体对;
将匹配成功的所述第二图数据的第二节点和所述目标第一图数据中的 第一节点集合生成所述单个节点实体对匹配。
优选地,所述依据所述目标第一图数据中的第一节点和所述第二图数据 中的第二节点生成多个节点实体对匹配的步骤,包括:
将所述第二图数据中的每个第二节点和所述目标第一图数据中的所有 第一节点分别进行匹配;
将匹配成功的第二图数据的第二节点和所述目标第一图数据中的第一 节点集合生成所述多个节点实体对匹配。
优选地,所述依据所述目标第一图数据中的第一节点和所述第二图数据 中的第二节点生成所有节点实体对匹配的步骤,包括:
将所述第二图数据中的所有第二节点和所述目标第一图数据中的所有 第一节点进行匹配;
将匹配成功的第二图数据的第二节点和所述目标第一图数据中的第一 节点集合生成所述所有节点实体对匹配。
优选地,所述依据单个节点实体对匹配或多个节点实体对匹配或设所有 节点实体对匹配输出所述目标第一图数据和关系数据中匹配的实体对的步 骤,包括:
依据单个节点实体对匹配将与所述目标第一图数据中的第一节点匹配 的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一 图数据和关系数据中匹配的实体对;
或;
依据多个节点实体对匹配将与所述目标第一图数据中的第一节点匹配 的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一 图数据和关系数据中匹配的实体对;
或;
依据全部节点实体对匹配将与所述目标第一图数据中的第一节点匹配 的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一 图数据中和关系数据中匹配的实体对。
优选地,所述依次分别将所述第二图数据中的第二节点和所述目标第一 图数据中的第一节点的关联性进行求和的步骤,包括:
若求和的数值没有达到预设数值,则为不匹配实体对。
为实现本申请还包括一种横跨图数据与关系数据的实体对识别装置,所 述装置用于识别出目标第一图数据中的目标节点和目标关系数据中的目标 元组相匹配的实体对,包括:
数据获取模块:用于获取待提取的目标关系数据和目标第一图数据;其 中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一 个第一节点;
第二图数据生成模块:用于依据所述目标关系数据生成相对应的第二图 数据;其中,所述第二图数据包括至少一个第二节点;
实体对匹配模块:用于依据所述第一节点和所述第二节点确定对应于所 述目标第一图数据和所述目标关系数据中匹配的实体对。
为实现本申请还包括一种电子设备,包括处理器、存储器及存储在所述 存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述 处理器执行时实现如所述的横跨图数据与关系数据的实体对识别方法的步 骤。
为实现本申请还包括一种计算机可读存储介质,所述计算机可读存储介 质上存储计算机程序,所述计算机程序被处理器执行时实现如所述的横跨图 数据与关系数据的实体对识别方法的步骤。
本申请具有以下优点:
在本申请的实施例中,通过获取待提取的目标关系数据和目标第一图数 据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括 至少一个第一节点;依据所述目标关系数据生成相对应的第二图数据;其中, 所述第二图数据包括至少一个第二节点;所述第一元组与所述第二节点相对 应;依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所 述目标关系数据中匹配的实体对。通过横跨关系数据和图数据研究实体识别, 而不仅仅是在关系数据上开展实体识别;且通过递归检查属性来“全局”评 估实体之间的语义接近度,而之前的工作仅考虑单个实体的局部属性或特征。 参数模拟找到的匹配是可解释的,说明为什么两个顶点匹配基于匹配顶点对 和累积分数。
附图说明
为了更清楚地说明本申请的技术方案,下面将对本申请的描述中所需要 使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的 一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提 下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种横跨图数据与关系数据的实体对识别 方法的步骤流程图;
图2是本申请一实施例提供的一种横跨图数据与关系数据的实体对识别 方法的具体实施例的步骤流程图;
图3是本申请一实施例提供的一种横跨图数据与关系数据的实体对识别 方法的SPair工作模式算法示意图;
图4是本申请一实施例提供的一种横跨图数据与关系数据的实体对识别 方法的VPair工作模式算法示意图;
图5是本申请一实施例提供的一种横跨图数据与关系数据的实体对识别 装置的结构框图;
图6是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的所述目的、特征和优点能够更加明显易懂,下面结合附图 和具体实施方式对本申请作进一步详细的说明。显然,所描述的实施例是本 申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域 普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属 于本申请保护的范围。
参照图1,示出了本申请一实施例提供的一种横跨图数据与关系数据的 实体对识别方法的步骤流程图,具体包括如下步骤:
S110、获取待提取的目标关系数据和目标第一图数据;其中,所述目标 关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点;
S120、依据所述目标关系数据生成相对应的第二图数据;其中,所述第 二图数据包括至少一个第二节点;所述第一元组与所述第二节点相对应;
S130、依据所述第一节点和所述第二节点确定对应于所述目标第一图数 据和所述目标关系数据中匹配的实体对。
在本申请的实施例中,通过获取待提取的目标关系数据和目标第一图数 据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括 至少一个第一节点;依据所述目标关系数据生成相对应的第二图数据;其中, 所述第二图数据包括至少一个第二节点;所述第一元组与所述第二节点相对 应;依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所 述目标关系数据中匹配的实体对。通过横跨关系数据和图数据研究实体识别, 而不仅仅是在关系数据上开展实体识别;且通过递归检查属性来“全局”评 估实体之间的语义接近度,而之前的工作仅考虑单个实体的局部属性或特征。 参数模拟找到的匹配是可解释的,说明为什么两个顶点匹配基于匹配顶点对 和累积分数。
下面,将对本示例性实施例中的横跨图数据与关系数据的实体对识别方 法作进一步地说明。
如上述步骤S110所述,获取待提取的目标关系数据和目标第一图数据; 其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少 一个第一节点。
在本发明一实施例中,可以结合下列描述进一步说明步骤S110所述“获 取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括 至少一个元组,所述目标第一图数据包括至少一个第一节点”的具体过程。
需要说明的是,假设三个无限字母集合Υ、θ和Φ,分别用于关系属性、 图顶点标签和边标签。在本申请中的关系数据为关系数据库,是考虑一个数 据库模式R=(R_1,..,R_n),其中R_i是一个关系模式(A_1,..,A_k),而 A_i∈Υ是一个属性。模式R的关系是一组具有R的属性A_i(i∈[1, k])的元组。R的数据库D是(D_1,..,D_n),其中D_i是i∈[1,n]时R_i的关系。
需要说明的是,图数据(Graph):本申请考虑有向标记图G=(V,E,L), 其中(a)V是顶点的有限集合,(b)是边的集合,并且(c)对于 每个顶点v∈V,L(v)是θ中的标签。对于每个边e∈E,L(e)是Φ中的标 签。图数据将属性编码为边,就像在RDF(ResourceDescription Framework, 资源描述框架)数据中一样。直观上,Φ的边标签代表谓词,而θ的顶点标 签代表值。
如上述步骤S120所述,依据所述目标关系数据生成相对应的第二图数 据;其中,所述第二图数据包括至少一个第二节点;所述第一元组与所述第 二节点相对应。
在本发明一实施例中,可以结合下列描述进一步说明步骤S120所述“依 据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括 至少一个第二节点;所述第一元组与所述第二节点相对应;”的具体过程。
需要说明的是,RDB2RDF是一种将RDB(Relational Database,关系 数据库)转为RDF图数据的方法。为简单起见,这里我们采用W3C(World Wide Web Consortium,万维网联盟)标准的RDB2RDF方法:对于数据库 模式R,我们定义了规范映射f_D。给定R的数据库D,它返回一个规 范图G_D=f_D(D),其中(1)关系模式R的每个元组t映射到G_D中 标记为R的唯一顶点u_t;(2)t中的每个属性A都映射到一个唯一的顶点 u_t.A,使得L(u_t.A)是t.A的值,并且GD中存在标签为A的边(u_t,u_t.A); (3)对于引用另一个元组t'的元组t中的外键的每个属性A,存在带有一 对(A,γ)标签的边(u_t,u_t'),其中不同的γ表示外键。
在一具体实施例中,本申请首先利用RDB2RDF方法将目标关系数据转 化为图数据(G_D),即第二图数据。
如上述步骤S130所述,依据所述第一节点和所述第二节点确定对应于 所述目标第一图数据和所述目标关系数据中匹配的实体对。
在本发明一实施例中,可以结合下列描述进一步说明步骤S130所述“依据 所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标 关系数据中匹配的实体对”的具体过程。
如下列步骤所述,依据所述目标第一图数据中的第一节点和所述第二图 数据中的第二节点生成单个节点实体对匹配;或;依据所述目标第一图数据 中的第一节点和所述第二图数据中的第二节点生成多个节点实体对匹配;或; 依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生 成所有节点实体对匹配;依据单个节点实体对匹配或多个节点实体对匹配或 设所有节点实体对匹配输出所述目标第一图数据和关系数据中匹配的实体 对。依据单个节点实体对匹配将与所述目标第一图数据中的第一节点匹配的 第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图 数据和关系数据中匹配的实体对;或;依据多个节点实体对匹配将与所述目 标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关 系数据的元组,输出所述目标第一图数据和关系数据中匹配的实体对;或: 依据全部节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第 二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数 据中和关系数据中匹配的实体对。
在本申请一具体实施例中,如图2所示,系统根据用户选择其中的一种 模式,进行实体识别。其中,依据所述目标第一图数据中的第一节点和所述 第二图数据中的第二节点生成单个节点实体对匹配,依据单个节点实体对匹 配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点 转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配的 实体对的步骤,相当于SPair(SinglePair,单节点匹配),SPair工作模式判 别图中的某一节点v和关系数据中的某一元组t是否为同一实体;
在本申请一具体实施例中,依据所述目标第一图数据中的第一节点和所 述第二图数据中的第二节点生成多个节点实体对匹配;依据多个节点实体对 匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节 点转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配 的实体对;相当于VPair(VertexPair,顶点匹配),VPair工作模式找出关 系数据中的某一元组t在图中所有匹配的实体节点。
在本申请一具体实施例中,依据所述目标第一图数据中的第一节点和所 述第二图数据中的第二节点生成所有节点实体对匹配;依据全部节点实体对 匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节 点转换为所述关系数据的元组,输出所述目标第一图数据中和关系数据中匹 配的实体对;相当于APair(All Pair,所有节点匹配),APair工作模式找 出关系数据中所有元组在图中的所有匹配的实体节点。
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所 述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成单个 节点实体对匹配,依据单个节点实体对匹配将与所述目标第一图数据中的第 一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所 述目标第一图数据和关系数据中匹配的实体对”的具体过程。
如下列步骤所述,将所述第二图数据中的第二节点按照顺序进行排序; 依次分别将所述第二图数据中的第二节点和所述目标第一图数据中的第一 节点的关联性进行求和;若求和的数值达到预设数值,则为匹配实体对;将 匹配成功的所述第二图数据的第二节点和所述目标第一图数据中的第一节 点集合生成所述单个节点实体对匹配。若求和的数值没有达到预设数值,则 为不匹配实体对,或返回重新进行匹配。
在本申请一具体实施例中,如图3所示,SPair(SinglePair,单个节点 实体对)工作模式调用算法ParaMatch(准匹配),递归地判定第一图数据 和第二图数据中的第一节点和第二节点是否表示同一实体:给定一对(u,v) 顶点,它找到u和v的top-k个后代的谱系集S(u,v),并递归检查后代对。 对于匹配的(u′,v′)∈S(u,v),它对(u,v)和(u′,v′)之间的关联进行求和, 并检查总分是否达到δ。如果是,则返回“真”,两个点表示同一实体。 否则,它会回溯并检查其他谱系集。如果没有谱系可以证实(u,v)节点对 为匹配,则返回“假”,即点u和v不表示同一实体。算法ParaMatch以函 数(h_v,h_ρ,h_r)和边界(σ,δ,k)作为参数。给定元组t∈D和G 中的顶点v_g,它检查(u_t,v_g)是否匹配(表示同一实体),其中G_D是 D的规范图,u_t是在G_D中的顶点,其通过映射f_D表示t。该算法支 持SPair工作模式的运行。
在本申请一具体实施例中,ParaMatch是递归的。给定一对(u,v)顶点, 它找到u和v的top-k个后代的谱系集S(u,v),并递归检查后代对。对 于匹配的(u′,v′)∈S(u,v),它对(u,v)和(u′,v′)之间的关联进行求和, 并检查总分是否达到δ。如果是,则返回“真”。否则,它会回溯并检查 其他谱系集。如果没有谱系可以证实(u,v)节点对为匹配,则返回“假”。
其中,本申请采用了以下策略进行算法优化:
(1)ecache(一个变量名,与算法对应),记录V^k_u,为每个顶点 u选择的前k个后代,并避免重复后代选择。
(2)cache(缓存),记录候选匹配的当前状态和候选之间的依赖关系。 对于每个候选匹配(u,v),cache[u,v]是一对[φ,W],它是或 [true,W],其中W是一组候选匹配,而φ是一个布尔值,指示在W中的 所有候选都有效的情况下,(u,v)是无效(false)还是有效(true)。请注意: (a)如果(u,v)和(u',v')相互依赖,则(u,v)和(u',v')在缓存中分别标记为[true, W_1]和[true,W_2],如果(u',v')∈W_1且(u,v)∈W_2,那么(u,v) 和(u',v')都符合参数模拟的定义。(b)我们只需要在cache[u,v]中存储 V^k_u顶点的匹配,即|W|≤k;此外,相互依赖可以从这样的W推导 出来。
(3)对于u的每个top-k后代u',我们按照(u',v')和(u,v)之间关联的降 序对V^k_v中的顶点v'进行排序。当我们为u'搜索候选匹配v'时,我们 遵循V^k_v中的顺序。直观地说,这有助于我们更早地决定我们是否可能 无法获得总分达到δ的谱系集并安全地返回false,因为按降序回溯总是会 产生较小的分数。
(4)当候选匹配(u,v)无效时,我们首先确定直接依赖于(u,v)的候选(u′, v′),即(u,v)∈cache[u′,v′].W.(这里表示cache数组[u′,v′]位置 下属的W变量)然后我们调用ParaMatch重新检查(u′,v′)是否仍然有 效。请注意,这足以处理相互依赖的候选匹配;实际上,如果(u',v')也无 效,则在递归ParaMatch回溯时重新检查间接依赖于(u',v')的候选对象。
在本申请一具体实施例中,算法流程说明:在图3中展示了算法 ParaMatch。如果u_t匹配v_g,它返回true(真),其中顶点u_t∈G_D 且v_g∈G,否则返回false(假)。它的工作流程分为以下三步。
(1)初始阶段,如图3中的第1-11行。ParaMatch从两个步骤开始。(a) 它首先通过检查(u,v)的标签(如图3中的第1-2行)以及u是否是叶子 节点(第3-4行)来检查(u,v)是否可以匹配。(b)然后算法为u的每个 后代构造一组候选匹配项(第6-11行)。如果u或v的前k个后代存 储在ecache中,它只需分别用ecache[u]和ecache[v]初始化V^k_u和 V^k_v。否则它会调用函数h_r来挑选u和v的前k个后代(如图3中 的第6-10行)。在此之后,它为u的每个后代u'构建候选匹配集l_u'(即, 如果v'∈V^k_v且h_v(u',v')≥σ,则v'∈l_u'),并按关联的降序排 列对l_u'进行排序(如图3中的第11行)。
(2)匹配阶段(如图3中的第12-27行)。在这个阶段,ParaMatch归纳 地检查u的前k个后代。首先,它采用提前终止策略,检查(u,v)的所有可 能谱系集合S(u,v)中的最大分数是否可以达到δ;如果不是,则确认(u,v)无 效并返回false(如图3中的第12-14行);这里v′_{j,1}是在u′_j的 所有匹配项中具有最大h_ρ分数的顶点。否则,对于每个选定的后代u', 它通过按照l_u'的降序检查V^k_v来找到u'的候选者(如图3中的第16 行)。对于l_u'中的顶点v',它首先检查(u',v')是否已验证。如果是,则 直接使用之前的结果。否则,它通过递归调用ParaMatch(如图3中的第 17-19行)来检查(u',v')。如果(u',v')有效,它会在变量sum中累积与(u, v)的关联,并将(u',v')添加到集合W(如图3中的第21行)。然后检 查sum的值是否达到δ。如果是,算法将(u,v)标记为[true,W]并返回true (如图3中的第22-23行)。否则,它会检查我们是否可以在l_u'的剩余 顶点中找到u'的匹配项,使得最大分数可以达到δ(如图3中的第25-27 行)。
(3)清理阶段(如图3中的第28-32行)。ParaMatch在(u,v)确认无 效后对缓存中的条目执行必要的清理。它首先将cache[u,v]设置为 (如图3中的第28行),然后重新运行ParaMatch以更新直接依赖于(u, v)的陈旧缓存条目(如图3中的第29-31行)。最后,它返回false(如 图3中的第32行)。
在本申请一具体实施例中,关于函数h_v,h_ρ,h_r的说明:其中,h_v 为点相似度函数,h_ρ为图路径相似度函数。即给定图中两点u和v,h_v(u,v) 返回两节点的语义相似度(0到1的实数);给定图中的两条路径ρ_1和ρ _2,h_ρ(ρ_1,ρ_2)返回两条路径的语义相似度(0到1的实数)。相似度 函数可以由规则指定,或由机器学习模型学习得到。
在本申请一具体实施例中,给定顶点v和边界k,函数h_r返回v的 前k个后代以及每个此类后代的路径,以此表示v的重要属性。它分两步 进行:先使用语言模型M_r从v中选择包含m条路径的集合,其中m是 v的后继节点的数量;后使用路径资源分配(PRA)算法对m条路径进行排序, 并返回top-k条。以下详细解释这两个步骤:
(1)对于v的每条出边e_i,函数h_r在语言模型M_r的引导下从v中选 择一条路径ρ_i,并将ρ_i加到集合P中。例如,从v到v_1的边e_1处, h_r初始化ρ_1=(v,v1),将e_1呈现给M_r,而后从M_r获得v_1邻接 的所有边的列表E_p1,以及它们跟随边e_1的可能性。然后从v_1的所 有出边中,h_r选择一条在E_p1中可能性最高的边e_2,将v_1到v_2 相连,并将v_2附加到路径ρ_1中。而后将e2输入到M_r以获得预测 列表E_p2。依此迭代继续进行,直到满足下列三个条件之一:(a)M_r返 回“停止信号”,即句尾标签“<eos>”;(b)没有出边可供选择;或(c)路 径形成一个闭环(cycle)(该情况将被舍弃)。这里我们使用LSTM(LongShort-Term Memory,长短期记忆网络)网络作为M_r,因为它可以对知识 图中路径上标签的语义进行建模:给定一个边标签作为输入,LSTM可以生 成一条跟随此边标签的具有合理语义意义的路径。
(2)函数h_r对P中的路径进行如下排序。给定路径ρ=(v_0,v_1,.., v_l),我们扩展资源分配并提出PRA来衡量ρ是否是有意义的连接,公 式如下所示:
其中,ch(v_i)表示v_i的孩子节点的集合。直观地说,PRA假设资源 从路径的起始顶点“流出”,并在中间的每个顶点处均分。传播后,PRA根 据从v_0经由ρ到达v_l的资源量来量化ρ的语义关联强弱。函数h_r 会选出语义关联强的路径ρ。
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所 述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成多个 节点实体对匹配,依据多个节点实体对匹配将与所述目标第一图数据中的第 一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所 述目标第一图数据和关系数据中匹配的实体对”的具体过程。
如下列步骤所述,将所述第二图数据中的每个第二节点和所述目标第一 图数据中的所有第一节点分别进行匹配;将匹配成功的第二图数据的第二节 点和所述目标第一图数据中的第一节点集合生成所述多个节点实体对匹配; 依据多个节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第 二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数 据和关系数据中匹配的实体对。
在本申请一具体实施例中,多个节点实体匹配对采用VPair工作模式实 体匹配算法,系统的VPair工作模式利用算法VParaMatch来计算数据库D 中给定元组t的所有匹配(u_t,v_g),其中u_t是D的规范图G_D中 表示t的顶点,v_g是图中的顶点G。VParaMatch算法以函数(h_v,h_ρ, h_r)和边界(σ,δ,k)作为参数,并以元组t∈D作为输入。与 ParaMatch不同,顶点v_g不作为VParaMatch的输入。VParaMatch基于G 中vg的参数模拟计算(u_t,v_g)的集合Π(u_t),定义为:
II(ut)={(ut,vg)|vg∈G,II(ut,vg)≠θ}
算法VParaMatch的具体步骤:如图4所示,VParaMatch首先选择G中 h_v(u_t,v_g)≥σ的所有顶点v_g,并用这些候选(u_t,v_g)初始化一个集合 C(u_t)(如图4中第2-3行)。然后按照C(u_t)中顶点度数的递增顺序对 C(u_t)中的对进行排序(如图4中第4行)。直观地,从度数较小的顶点 开始,VParaMatch可以更早地判定更多的候选匹配有效或无效,并减少运 行时间。之后VParaMatch按照其在C(u_t)中的顺序迭代检查每个(u,v) (如图4中第6-11行)。更具体地说,它首先检查(u,v)是否已被确认 有效(第7-8行);如果是,则将其添加到Π(u_t)。否则,它会在(u,v) 上调用ParaMatch以验证其有效性(如图4中第9-11行)。VParaMatch在 关键信息上构建倒排索引作为实体识别的分组策略:例如,同年的论文在同 一个分组中,而后再在同一分组中判定实体是否匹配。
作为一种示例,VPair工作模式和APair工作模式将单个节点对的实体 判定过程进行封装,并行地查找某一元组t在图中所有匹配的实体节点,以 及所有元组在图中的所有匹配的实体节点。
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所 述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成多个 节点实体对匹配,依据全部节点实体对匹配将与所述目标第一图数据中的第 一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所 述目标第一图数据中和关系数据中匹配的实体对”的具体过程。
如下列步骤所述,依据所述目标第一图数据中的第一节点和所述第二图 数据中的第二节点生成所有节点实体对匹配;依据全部节点实体对匹配将与 所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为 所述关系数据的元组,输出所述目标第一图数据中和关系数据中匹配的实体 对。
在本申请一具体实施例中,所有节点实体对匹配APair工作模式实体匹 配算法。
在APair工作模式下的AllParaMatch算法计算数据库D和图G中所 有匹配的元组与顶点的集合Π:
其中,u_t是G_D中的一个顶点,v_g是G中的一个顶点。与 ParaMatch和VParaMatch不同,AParaMatch均不接收u_t和v_g作为输 入。
算法AParaMatch扩展VParaMatch,AParaMatch首先初始化一组C的 候选匹配(u_t,v_g),对于所有u_t∈V_D和v_g∈V,使得hv(ut,vg)≥σ。 在此之后,它的剩余步骤与算法VParaMatch完全一致。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较 简单,相关之处参见方法实施例的部分说明即可。
参照图5,示出了本申请一实施例提供的一种横跨图数据与关系数据的 实体对识别装置,具体包括如下模块,
数据获取模块510:用于获取待提取的目标关系数据和目标第一图数据; 其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少 一个第一节点;
第二图数据生成模块520:用于依据所述目标关系数据生成相对应的第 二图数据;其中,所述第二图数据包括至少一个第二节点;
实体对匹配模块530:用于依据所述第一节点和所述第二节点确定对应 于所述目标第一图数据和所述目标关系数据中匹配的实体对。
在本发明一实施例中,所述实体对匹配模块530还包括:
实体对匹配子模块:用于依据所述目标第一图数据中的第一节点和所述 第二图数据中的第二节点生成单个节点实体对匹配;或;依据所述目标第一 图数据中的第一节点和所述第二图数据中的第二节点生成多个节点实体对 匹配;或;依据所述目标第一图数据中的第一节点和所述第二图数据中的第 二节点生成所有节点实体对匹配;
匹配的实体对子模块:用于依据单个节点实体对匹配或多个节点实体对 匹配或设所有节点实体对匹配输出所述目标第一图数据和关系数据中匹配 的实体对。
在本发明一实施例中,所述实体对匹配子模块,包括:
排序子模块:用于将所述第二图数据中的第二节点按照顺序进行排序;
求和子模块:用于依次分别将所述第二图数据中的第二节点和所述目标 第一图数据中的第一节点的关联性进行求和;
预设数值子模块:用于若求和的数值达到预设数值,则为匹配实体对;
单个节点实体对子模块:用于将匹配成功的所述第二图数据的第二节点 和所述目标第一图数据中的第一节点集合生成所述单个节点实体对匹配。
不匹配子模块:用于若求和的数值没有达到预设数值,则为不匹配实体 对。
多个节点匹配子模块:用于将所述第二图数据中的每个第二节点和所述 目标第一图数据中的所有第一节点分别进行匹配;
多个节点实体对子模块:用于将匹配成功的第二图数据的第二节点和所 述目标第一图数据中的第一节点集合生成所述多个节点实体对匹配。
所有匹配子模块:用于将所述第二图数据中的所有第二节点和所述目标 第一图数据中的所有第一节点进行匹配;
所有节点实体对子模块:用于将匹配成功的第二图数据的第二节点和所 述目标第一图数据中的第一节点集合生成所述所有节点实体对匹配。
在本发明一实施例中,所述匹配的实体对子模块,包括:
单节点子模块:用于依据单个节点实体对匹配将与所述目标第一图数据 中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组, 输出所述目标第一图数据和关系数据中匹配的实体对;
或;
多节点子模块:用于依据多个节点实体对匹配将与所述目标第一图数据 中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组, 输出所述目标第一图数据和关系数据中匹配的实体对;
或:
所有节点子模块:用于依据全部节点实体对匹配将与所述目标第一图数 据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元 组,输出所述目标第一图数据中和关系数据中匹配的实体对。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系 列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述 的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或 者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例 均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
在本具体实施例与上述具体实施例中有重复的操作步骤,本具体实施例 仅做简单描述,其余方案参考上述具体实施例描述即可。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较 简单,相关之处参见方法实施例的部分说明即可。
参照图6,示出了本申请的一种横跨图数据与关系数据的实体对识别方 法的计算机设备,具体可以包括如下:
上述计算机设备12以通用计算设备的形式表现,计算机设备12的组件 可以包括但不限于:一个或者多个处理器或者处理单元16,内存28,连接 不同系统组件(包括内存28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储 器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任 意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体 系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、音 视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是 任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质, 可移动的和不可移动的介质。
内存28可以包括易失性存储器形式的计算机系统可读介质,例如随机 存取存储器30和/或高速缓存存储器32。计算机设备12可以进一步包括其 他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例, 存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱 动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(如“软 盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM, DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动 器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至 少一个程序产品,该程序产品具有一组(例如至少一个)程序模块42,这些 程序模块42被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例 如存储器中,这样的程序模块42包括——但不限于——操作系统、一个或 者多个应用程序、其他程序模块42以及程序数据,这些示例中的每一个或 某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述 的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、 显示器24、摄像头等)通信,还可与一个或者多个使得操作人员能与该计算 机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其 他计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种 通信可以通过I/O接口22进行。并且,计算机设备12还可以通过网络适配 器20与一个或者多个网络(例如局域网(LAN)),广域网(WAN)和/ 或公共网络(例如因特网)通信。如图6所示,网络适配器20通过总线18 与计算机设备12的其他模块通信。应当明白,尽管图6中未示出,可以结 合计算机设备12使用其他硬件和/或软件模块,包括但不限于:微代码、设 备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器 以及数据备份存储系统34等。
处理单元16通过运行存储在内存28中的程序,从而执行各种功能应用 以及数据处理,例如实现本申请实施例所提供的一种横跨图数据与关系数据 的实体对识别方法。
也即,上述处理单元16执行上述程序时实现:获取待提取的目标关系 数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述 目标第一图数据包括至少一个第一节点;依据所述目标关系数据生成相对应 的第二图数据;其中,所述第二图数据包括至少一个第二节点;所述第一元 组与所述第二节点相对应;依据所述第一节点和所述第二节点确定对应于所 述目标第一图数据和所述目标关系数据中匹配的实体对。
在本申请实施例中,本申请还提供一种计算机可读存储介质,其上存储 有计算机程序,该程序被处理器执行时实现如本申请所有实施例提供的一种 横跨图数据与关系数据的实体对识别方法。
也即,给程序被处理器执行时实现:获取待提取的目标关系数据和目标 第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图 数据包括至少一个第一节点;依据所述目标关系数据生成相对应的第二图数 据;其中,所述第二图数据包括至少一个第二节点;所述第一元组与所述第 二节点相对应;依据所述第一节点和所述第二节点确定对应于所述目标第一 图数据和所述目标关系数据中匹配的实体对。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可 以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例 如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装 置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非 穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬 盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、 光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中,计算机 可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执 行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的 数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采 用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的 组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算 机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系 统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作 的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸 如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C” 语言或类似的程序设计语言。程序代码可以完全地在操作人员计算机上执行、 部分地在操作人员计算机上执行、作为一个独立的软件包执行、部分在操作 人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器 上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到操作人员计算机, 或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连 接)。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说 明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参 见即可。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦 得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以, 所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所 有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而 使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素, 而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物 品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终 端设备中还存在另外的相同要素。
以上对本申请所提供的一种横跨图数据与关系数据的实体对识别方法 及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方 式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心 思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施 方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对 本申请的限制。
Claims (10)
1.一种横跨图数据与关系数据的实体对识别方法,所述方法用于识别出目标第一图数据中的目标节点和目标关系数据中的目标元组相匹配的实体对,其特征在于,包括:
获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点;
依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括至少一个第二节点;所述第一元组与所述第二节点相对应;
依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对。
2.根据权利要求1所述的横跨图数据与关系数据的实体对识别方法,其特征在于,所述依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对的步骤,包括:
依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成单个节点实体对匹配;或;依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成多个节点实体对匹配;或;依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成所有节点实体对匹配;
依据单个节点实体对匹配或多个节点实体对匹配或设所有节点实体对匹配输出所述目标第一图数据和关系数据中匹配的实体对。
3.根据权利要求2所述的横跨图数据与关系数据的实体对识别方法,其特征在于,所述依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成单个节点实体对匹配的步骤,包括:
将所述第二图数据中的第二节点按照顺序进行排序;
依次分别将所述第二图数据中的第二节点和所述目标第一图数据中的第一节点的关联性进行求和;
若求和的数值达到预设数值,则为匹配实体对;
将匹配成功的所述第二图数据的第二节点和所述目标第一图数据中的第一节点集合生成所述单个节点实体对匹配。
4.根据权利要求3所述的横跨图数据与关系数据的实体对识别方法,其特征在于,所述依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成多个节点实体对匹配的步骤,包括:
将所述第二图数据中的每个第二节点和所述目标第一图数据中的所有第一节点分别进行匹配;
将匹配成功的第二图数据的第二节点和所述目标第一图数据中的第一节点集合生成所述多个节点实体对匹配。
5.根据权利要求2所述的横跨图数据与关系数据的实体对识别方法,其特征在于,所述依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成所有节点实体对匹配的步骤,包括:
将所述第二图数据中的所有第二节点和所述目标第一图数据中的所有第一节点进行匹配;
将匹配成功的第二图数据的第二节点和所述目标第一图数据中的第一节点集合生成所述所有节点实体对匹配。
6.根据权利要求2所述的横跨图数据与关系数据的实体对识别方法,其特征在于,所述依据单个节点实体对匹配或多个节点实体对匹配或设所有节点实体对匹配输出所述目标第一图数据和关系数据中匹配的实体对的步骤,包括:
依据单个节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配的实体对;
或;
依据多个节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配的实体对;
或;
依据全部节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据中和关系数据中匹配的实体对。
7.根据权利要求4所述的横跨图数据与关系数据的实体对识别方法,其特征在于,所述依次分别将所述第二图数据中的第二节点和所述目标第一图数据中的第一节点的关联性进行求和的步骤,包括:
若求和的数值没有达到预设数值,则为不匹配实体对。
8.一种横跨图数据与关系数据的实体对识别装置,所述装置用于识别出目标第一图数据中的目标节点和目标关系数据中的目标元组相匹配的实体对,其特征在于,包括:
数据获取模块:用于获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点;
第二图数据生成模块:用于依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括至少一个第二节点;
实体对匹配模块:用于依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的横跨图数据与关系数据的实体对识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的横跨图数据与关系数据的实体对识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210227078.1A CN114580390A (zh) | 2022-03-08 | 2022-03-08 | 一种横跨图数据与关系数据的实体对识别方法及装置 |
PCT/CN2022/080180 WO2023168659A1 (zh) | 2022-03-08 | 2022-03-10 | 一种横跨图数据与关系数据的实体对识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210227078.1A CN114580390A (zh) | 2022-03-08 | 2022-03-08 | 一种横跨图数据与关系数据的实体对识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114580390A true CN114580390A (zh) | 2022-06-03 |
Family
ID=81773601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210227078.1A Pending CN114580390A (zh) | 2022-03-08 | 2022-03-08 | 一种横跨图数据与关系数据的实体对识别方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114580390A (zh) |
WO (1) | WO2023168659A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10268735B1 (en) * | 2015-12-29 | 2019-04-23 | Palantir Technologies Inc. | Graph based resolution of matching items in data sources |
CN111209409B (zh) * | 2019-12-27 | 2023-09-29 | 医渡云(北京)技术有限公司 | 数据匹配方法及装置、存储介质及电子终端 |
CN112632226B (zh) * | 2020-12-29 | 2021-10-26 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的语义搜索方法、装置和电子设备 |
CN112988877A (zh) * | 2021-03-30 | 2021-06-18 | 北京明略昭辉科技有限公司 | 一种数据检索与可视化方法、装置、设备和存储介质 |
CN114048329A (zh) * | 2021-11-25 | 2022-02-15 | 工银科技有限公司 | 知识图谱的构建与展示方法、装置、电子设备和介质 |
-
2022
- 2022-03-08 CN CN202210227078.1A patent/CN114580390A/zh active Pending
- 2022-03-10 WO PCT/CN2022/080180 patent/WO2023168659A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023168659A1 (zh) | 2023-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111353310B (zh) | 基于人工智能的命名实体识别方法、装置及电子设备 | |
US20190354878A1 (en) | Concept Analysis Operations Utilizing Accelerators | |
US8001128B2 (en) | Selection of a set of optimal n-grams for indexing string data in a DBMS system under space constraints introduced by the system | |
US7636713B2 (en) | Using activation paths to cluster proximity query results | |
Perkowitz et al. | Category Translation: Learning to Understand Information on the Internet. | |
US20180232443A1 (en) | Intelligent matching system with ontology-aided relation extraction | |
US6738759B1 (en) | System and method for performing similarity searching using pointer optimization | |
JP2022535792A (ja) | データフィールドのプロファイルデータからのデータフィールドの意味論的意味の発見 | |
US20160259826A1 (en) | Parallelized Hybrid Sparse Matrix Representations for Performing Personalized Content Ranking | |
US20060047617A1 (en) | Method and apparatus for analysis and decomposition of classifier data anomalies | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
US6718325B1 (en) | Approximate string matcher for delimited strings | |
CN110633366A (zh) | 一种短文本分类方法、装置和存储介质 | |
TW201421395A (zh) | 用以遞迴檢閱網際網路及其他來源以識別、收集、管理、判定及鑑定商業身分與相關資料之系統及方法 | |
CN112434024B (zh) | 面向关系型数据库的数据字典生成方法、装置、设备及介质 | |
Fan et al. | Querying big data: bridging theory and practice | |
CN113239071B (zh) | 面向科技资源学科及研究主题信息的检索查询方法及系统 | |
US8650180B2 (en) | Efficient optimization over uncertain data | |
Revindasari et al. | Traceability between business process and software component using Probabilistic Latent Semantic Analysis | |
CN112749325A (zh) | 搜索排序模型的训练方法、装置、电子设备及计算机介质 | |
CN114580390A (zh) | 一种横跨图数据与关系数据的实体对识别方法及装置 | |
Horiuchi et al. | JupySim: Jupyter Notebook Similarity Search System. | |
Huan et al. | Query interface schema extraction for hidden web resources searching | |
Chen et al. | Robust and Efficient Annotation based on Ontology Evolution for Deep Web Data. | |
CN117763080B (zh) | 一种技术属性多重相关度计算方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |