CN113297213A - 一种实体对象的动态多属性匹配方法 - Google Patents
一种实体对象的动态多属性匹配方法 Download PDFInfo
- Publication number
- CN113297213A CN113297213A CN202110475662.4A CN202110475662A CN113297213A CN 113297213 A CN113297213 A CN 113297213A CN 202110475662 A CN202110475662 A CN 202110475662A CN 113297213 A CN113297213 A CN 113297213A
- Authority
- CN
- China
- Prior art keywords
- entity
- attribute
- entity attribute
- data set
- alternative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000005192 partition Methods 0.000 claims abstract description 47
- 238000004364 calculation method Methods 0.000 claims abstract description 42
- 230000008569 process Effects 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 17
- 238000000638 solvent extraction Methods 0.000 claims description 11
- 238000007667 floating Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 5
- 230000004069 differentiation Effects 0.000 abstract description 2
- 238000005259 measurement Methods 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机领域,特别是一种实体对象的动态多属性匹配方法。本发明在预处理阶段即实现字段类型的标记,利用字段标记进行相似性计算函数的选择,差异化、针对性的相似性计算函数能够大幅提升相似性计算过程的精度。本发明使用动态熵权法进行权重调整,实现复杂实体在属性缺失、属性增加变化的场景下的权重衡量的统一,不会因为实体属性的缺失、增加变化导致相似性计算函数出现较大范围的波动和偏差,并保留主要的属性特征。本发明采用三角形不等式进行二级分区索引。双索引结构能够在原有的分区索引结构上优化实体匹配的搜索空间,减少不必要的匹配过程,从而大幅度提高大规模数据场景下的实体对齐过程。
Description
技术领域
本发明属于计算机领域,特别是一种实体对象的动态多属性匹配方法、平台和计算机可读存储介质,可应用于从大数据中进行实体对象的挖掘与提取过程,以及实现知识融合过程,实现知识图谱领域中的实体对象匹配对齐。
背景技术
传统的实体对齐需把来源不同的数据中相同实体实现一一映射,其中映射的依据主要依靠实体的多种不同的属性。实体对齐主要有两种技术路线,基于分库索引与相似度计算的传统路线,以及采用表示学习模型的图嵌入方法。
其中,采用传统的实体对齐方法关键在于分区索引技术与相似度计算函数,高效的分区索引技术是大规模知识库进行实体对齐的必要条件,而相似性计算函数则是对齐精度的保证。在属性对齐过程,不同的特征属性通常采用不同的相似性计算函数,这与自然语言处理领域相似性的判断截然不同,如物资规格的相似性计算通常需要涉及更为精确的业务规则。
采用表示学习模型的图嵌入实体对齐,在计算效率上通常具有更好的表现。知识表示学习通过将实体和关系映射到向量空间,简化了计算过程,同时相似性也可以通过损失函数等形式进行表示。但表示学习模型的实体对齐计算在大规模数据集以及高精度的实体对齐场景仍然面临巨大的挑战,如年龄、性别、喜好等具有特定领域特征的属性时,表示学习模型仍难以有效表达。
发明内容
本发明的目的在于从传统的实体对齐方法出发实现动态多属性匹配,以及在分区索引的基础上利用三角不等式关系减少实体对齐过程中的搜索空间,从相似性计算精度和分区索引效率两方面改进了现有的实体对齐方法,通过动态多属性匹配过程,使得实体对齐方法可以适应属性缺失、属性动态变化等复杂的应用场景。
为实现上述目的,本发明提供了一种实体对象的动态多属性匹配方法,包括步骤:
S1,对第一实体对象数据集进行归一化处理;
该步骤中,针对第一实体对象数据集,根据实体属性的类型进行归一化处理,所述实体属性的类型包括整型、浮点数型、布尔型、字符串型、日期型以及枚举型,所述归一化处理的规则具体是:
(1)如果实体属性的类型是枚举类型的数据,那么对第一实体对象数据集中包含该实体属性的实体对象进行一致性检查和校正处理;
(2)如果实体属性的类型是整型、浮点数型、布尔型、字符串型或日期型的数据,那么对第一实体对象数据集中包含该实体属性的实体对象进行剔除无效值和缺失值补全处理;
(3)对实体对象数据集中的实体属性打上标记,根据该标记查询就能找到该实体属性对应的预先设定的相似度计算函数S(a,b),k,其中,S(a,b),k表示实体对象a与实体对象b在第k个实体属性上的相似度;
S2,计算第一实体对象数据集中每个实体属性的信息熵,包括:
S2.1,估计第一实体对象数据集中实体属性指标的发生概率,其中,所述实体属性指标是实体属性的取值或取值区间,若在第一实体对象数据集中,实体属性指标为离散型变量时,第j个实体属性的第i个指标的发生概率pij是相应取值的发生概率;若在第一实体对象数据集中,实体属性为连续型变量时,将连续性变量离散化为多个取值区间,用相应的概率密度函数计算该取值区间的发生概率,第j个实体属性的第i个指标的发生概率pij是相应取值区间的发生概率;
S2.2计算第一实体对象数据集每个实体属性的信息熵,第一实体对象数据集中第j个实体属性的信息熵Hj计算公式为
其中,n为第一实体对象数据集第j个实体属性的实体属性指标个数;
S3,选择第一实体对象数据集进行实体对象匹配所需的实体属性和实体属性组合;
S3.1,若某个实体属性中的每个指标能够作为键值区分各个实体,即每条记录都不重复,Hj=1,则可使用该实体属性直接进行匹配,那么将该实体属性作为只有一个实体属性的备选实体属性组合方案加入备选实体属性方案库;
S3.2,若实体属性的相对信息熵Hj<1,则选取多个实体属性进行组合,将实体属性组合的每条实体信息作为离散信息,即将实体属性组合的指标作为离散信息,第j个实体属性组合的第i个指标的发生概率p组ij是相应地在第一实体对象数据集中实体属性组合取值和/或取值范围的发生概率,第一实体对象数据集中第j个实体属性组合的信息熵H组j计算公式为
其中,n组为第一实体对象数据集第j个实体属性组合的实体属性指标个数;
遍历第一实体对象数据集中的实体属性组合进行计算和删选,当实体属性组合中的每条记录都是唯一记录,即H组j=1时,将该实体属性组合作为备选实体属性组合方案加入备选实体属性方案库;
S3.3,按照实体属性数量的多少对备选实体属性方案库中备选实体属性组合方案进行排序,备选实体属性组合方案按照实体属性从少到多的顺序优先级逐渐降低;
S4,针对第一实体对象数据集每个备选实体属性组合方案,计算其中的每个属性的权重值,权重值其中,Hk和Hj分别为备选实体属性组合方案中第k个和第j个实体属性的信息熵,m表示备选实体属性组合中实体属性的数量,当m=1时,Wk=1;
S5,为提高数据遍历效率,对第一实体对象数据集进行分区索引,分区索引方法依据备选实体属性组合方案进行选择,设置阈值τ,只针对备选实体组合方案中的实体属性数量最少的前τ种实体属性组合方案进行分区索引;分区索引的步骤如下:
S5.1若被索引的备选实体属性组合方案的实体属性数量等于1,直接采用Hash索引方法进行分区索引;
S5.2若被索引的备选实体属性组合方案中的实体属性数量大于1,则
(a)当被索引的备选实体属性组合方案中的实体属性全是整型或浮点型时,采用K-Mean聚类索引方法进行分区索引;
(b)当被索引的备选实体属性组合方案中的实体属性全部为字符串类型时,采用分区倒排索引方法进行分区索引;
(c)当被索引的备选实体属性组合方案中的实体属性中有枚举型、日期型或者布尔型时,采用列表分区索引法,利用实体属性自身的离散信息进行分区索引;
(d)除a、b、c列举的情况外,对备选实体数据组合方案采用Hash索引方法进行分区索引;
每个备选实体属性组合方案进行分区索引后,实体对象数据集将被分成对多个子集,每个子集的规模基本相等,记采用某个备案属性组合方案时实体对象数据集Y分区索引后的子集为Y1,Y2,……,YN,共N个;
S6,遍历第一实体对象数据集的实体属性数量大于1的备选实体属性组合方案,采用基于三角不等式加速方法分别对与备选实体属性组合方案对应的分区索引结果进行优化;每个实体属性组合方案对应的分区索引优化的步骤包括:
S6.1,对依据备选实体属性组合方案分区索引后得到的实体对象数据集子集Yi,i=1,2,…,N,采用该备选实体属性组合方案中的实体属性,计算中每个实体对象与其最相似的实体对象距离,用表示待匹配实体对象数据集子集Yi中实体对象的最相似的实体对象为之间的最短距离,那么
S7,遍历第二实体对象数据集X中的每个实体对象Xc,与第一实体对象数据集进行相似度匹配,若Xc匹配到第一实体对象数据集某个子集Yi中实体对象则Xc匹配成功,否则为Xc匹配失败,实体对象Xc的匹配过程如下:
S7.1,选取第二实体对象数据集X中的实体对象Xc;
S7.2,选择匹配用实体属性组合方案的步骤,在该步骤中,从所述备选实体属性方案库的前τ种备选实体属性组合方案中,先选择与实体对象Xc的实体属性类型一致且优先级最高的实体属性组合方案;然后判断,采用该实体属性组合方案,实体对象Xc的实体属性的取值是否出现无效值或者空值,如果为否,则选定该实体属性组合方案进行步骤S7.2,如是,则从备选实体属性方案库的前τ种备选实体属性组合方案中,按优先级顺序选择与实体对象Xc的实体属性类型一致的、下一级备选实体属性组合方案,再次判断Xc的实体属性的取值是否出现无效值或者空值,如是,则选定实体属性组合方案后进行步骤S7.2,如否,进行下一轮备选实体属性组合方案的选择;若从备选实体属性方案库的前τ种备选实体属性组合方案中没有选定的实体属性组合方案,停止该实体对象Xc的匹配;
S7.3,选定实体属性组合方案后,若实体属性组合中实体属性数量等于1,则直接通过该实体属性作为实体对象Xc的键值完成匹配;否则进入步骤S7.4;
S7.4,遍历与选定实体属性组合方案对应的实体对象数据集的每个子集Yi,计算实体对象Xc与分区索引后的实体对象数据集子集Yi中实体对象的距离并进行比较,距离采用步骤S6.1中相同计算公式,如果则将相应的作为实体对象Xc的匹配实体对象,Xc∈X,停止匹配;否则继续遍历进行匹配;
进一步的,还包括步骤:
S8,当匹配结果出现冲突时,进行冲突消解处理;所述冲突的类型包括实体冲突与属性冲突,实体冲突是指出现多个匹配实体对象,属性冲突,表现为匹配成功的实体对象,同一实体属性出现不同取值;
S8.1,出现实体冲突时,匹配成功的多个实体对象按照匹配过程中得到的距离进行降序排列,并选取距离最小的匹配对象作为匹配结果;
S8.2,出现属性冲突时,先统计该实体属性取值的出现频率,选择出现频率最高的取值作为匹配结果,若频率相同,则从频率相同的属性值中选择一个属性值作为匹配结果。
进一步的,步骤S2.1中,实体属性为连续型变量时,利用等宽法将连续型变量离散化为宽度相等的多个取值区间,取每个取值区间的中值作为该实体属性的指标,并利用连续性变量的概率密度函数计算该取值区间内的发生概率,作为该取值区间实体属性指标的发生概率,第j个实体属性的第i个指标的发生概率pij是相应取值区间的发生概率。
进一步的,步骤S1中,打标记的方式是给实体属性的名称加上前缀或者后缀。
进一步的,步骤S1中,如果实体属性类型为姓名、年龄、籍贯、学校、专业或距离时,那么相应的打上“-name”、“-age”、“-native”、“-school”、“-major”、“-distance”的标记,根据这些标记通过查询下表就能找到相应的相似度计算函数,
实体属性类型 | 标记 | 相似性计算函数S<sub>(a,b),k</sub> |
姓名 | -name | 余弦相似度 |
年龄 | -age | 欧几里得距离 |
籍贯 | -native | 曼哈顿距离 |
学校 | -school | 海明距离 |
专业 | -major | 海明距离 |
进一步的,第一实体对象数据集为两个或两个以上,第二实体对象数据集与两个或两个以上第一实体对象数据集进行匹配。
本发明还提供了一种实体对象的动态多属性匹配平台,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的实体对象的动态多属性匹配方法。
本发明还提供了一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述的实体对象的动态多属性匹配方法。
有益效果
本发明在预处理阶段即实现字段类型的标记,利用字段标记进行相似性计算函数的选择,差异化、针对性的相似性计算函数能够大幅提升相似性计算过程的精度。
本发明使用动态熵权法进行权重调整,实现复杂实体在属性缺失、属性增加变化的场景下的权重衡量的统一,不会因为实体属性的缺失、增加变化导致相似性计算函数出现较大范围的波动和偏差,并保留主要的属性特征。
本发明采用三角形不等式进行二级分区索引。双索引结构能够在原有的分区索引结构上优化实体匹配的搜索空间,减少不必要的匹配过程,从而大幅度提高大规模数据场景下的实体对齐过程。
附图说明
图1为本发明实体对象的动态多属性匹配方法的原理示意图。
图2为本发明对第一实体对象数据集进行归一化处理的原理示意图。
图3为本发明实体对象的动态多属性匹配方法中匹配过程的流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行详细的说明。
图1给出了本发明实体对象的动态多属性匹配方法的原理示意图。如图1所示,本发明第一具体实施方式中的实体对象的动态多属性匹配方法,包括:
S1,对第一实体对象数据集进行归一化处理,
该步骤中,针对第一实体对象数据集,根据实体属性的类型进行归一化处理,所述实体属性的类型包括整型、浮点数型、布尔型、字符串型、日期型以及枚举型,参照图2,所述归一化处理的规则具体是:
(1)如果实体属性的类型是枚举类型的数据,那么对第一实体对象数据集中包含该实体属性的实体对象进行一致性检查和校正处理,例如实体对象的性别属性,取值记录有男、女、男性、女性,检查发现不一致后校正处理后统一为男或女;
(2)如果实体属性的类型是整型、浮点数型、布尔型、字符串型或日期型的数据,那么对第一实体对象数据集中包含该实体属性的实体对象进行剔除无效值、缺失值补全及标准化处理,例如年龄的数据为null,剔除并补充0,若年龄的数据为空,补充为0,若年龄的数据记录为汉字的十八,标准化为阿拉伯数字的18;
(3)对实体对象数据集中的实体属性打上标记,根据该标记查询就能找到该实体属性对应的预先设定的相似度计算函数S(a,b),k,其中,S(a,b),k表示实体对象a与实体对象b在第k个实体属性上的相似度;如图2所示,本发明第一具体实施方式中打标记的方法是在相应的属性名称后面加上全局唯一的后缀,后缀与相似性计算函数相对应,根据后缀就能查询到相应的相似性计算函数,如下表所示,
实体属性类型 | 后缀 | 相似性计算函数S<sub>(a,b),k</sub> |
姓名 | -name | 余弦相似度 |
年龄 | -age | 欧几里得距离 |
籍贯 | -native | 曼哈顿距离 |
学校 | -school | 海明距离 |
专业 | -major | 海明距离 |
距离 | -distance | 曼哈顿距离 |
在本发明的另一具体实施方式中,打标记方法可以采用在相应的属性名称前面加上全局唯一的前缀,前缀与相似性计算函数相对应,根据后缀查询相应的相似性计算函数,如下表所示,
实体属性名称 | 前缀 | 相似性计算函数S<sub>(a,b),k</sub> |
姓名 | Name- | 余弦相似度 |
年龄 | Age- | 欧几里得距离 |
籍贯 | Native- | 曼哈顿距离 |
学校 | School- | 海明距离 |
专业 | Major- | 海明距离 |
距离 | Distance- | 曼哈顿距离 |
在上述两种方式中,是以实体属性名称的英文作为标记,在本发明的其他实施方式中,还可以用相似性计算函数的英文名称作为前缀或后缀作为标记,只要是对实体属性打上标记,根据该标记查询就能找到该实体属性对应的预先设定的相似度计算函数的打标记方式均可用于本发明。
S2,计算第一实体对象数据集中每个实体属性的信息熵,包括:
S2.1,估计第一实体对象数据集中实体属性指标的发生概率,其中,所述实体属性指标是实体属性的取值或取值区间,若在第一实体对象数据集中,实体属性指标为离散型变量时,第j个实体属性的第i个指标的发生概率pij是相应取值的发生概率;若在第一实体对象数据集中,实体属性为连续型变量时,将连续性变量离散化为多个取值区间,用相应的概率密度函数计算该取值区间的发生概率,第j个实体属性的第i个指标的发生概率pij是相应取值区间的发生概率;
本发明第一具体实施方式中,取值区间的划分可以利用等宽法,将连续型变量离散化为宽度相等的多个取值区间,取每个取值区间的中值作为该实体属性的指标,并利用函数的概率密度函数计算该取值区间内的发生概率。
本发明其他具体实施方式中,取值区间的划分也可以是任意的宽度,只要能够离散化并利用连续性变量的概率密度函数计算该取值区间内的发生概率即可。
S2.2计算第一实体对象数据集每个实体属性的信息熵,第一实体对象数据集中第j个实体属性的信息熵Hj计算公式为
其中,n为第一实体对象数据集第j个实体属性的实体属性指标个数;
S3,选择第一实体对象数据集进行实体对象匹配所需的实体属性和实体属性组合;
S3.1,若某个实体属性中的每个指标能够作为键值区分各个实体,即每条记录都不重复,Hj=1,则可使用该实体属性直接进行匹配,那么将该实体属性作为只有一个实体属性的备选实体属性组合方案加入备选实体属性方案库;
S3.2,若实体属性的相对信息熵Hj<1,则选取多个实体属性进行组合,将实体属性组合的每条实体信息作为离散信息,即将实体属性组合的指标作为离散信息,第j个实体属性组合的第i个指标的发生概率p组ij是相应地在第一实体对象数据集中实体属性组合取值和/或取值范围的发生概率,第一实体对象数据集中第j个实体属性组合的信息熵H组j计算公式为
其中,n组为第一实体对象数据集第j个实体属性组合的实体属性指标个数;
遍历第一实体对象数据集中的实体属性组合进行计算和删选,当实体属性组合中的每条记录都是唯一记录,即H组j=1时,将该实体属性组合作为备选实体属性组合方案加入备选实体属性方案库;
S3.3,按照实体属性数量的多少对备选实体属性方案库中备选实体属性组合方案进行排序,备选实体属性组合方案按照实体属性从少到多的顺序优先级逐渐降低;
S4,针对第一实体对象数据集每个备选实体属性组合方案,计算其中的每个属性的权重值,权重值其中,Hk和Hj分别为备选实体属性组合方案中第k个和第j个实体属性的信息熵,m表示备选实体属性组合中实体属性的数量,当m=1时,Wk=1;
S5,为提高数据遍历效率,对第一实体对象数据集进行分区索引,分区索引方法依据备选实体属性组合方案进行选择,设置阈值τ,只针对备选实体组合方案中的实体属性数量最少的前τ种实体属性组合方案进行分区索引;分区索引的步骤如下:
S5.1若被索引的备选实体属性组合方案的实体属性数量等于1,直接采用Hash索引方法进行分区索引;
S5.2若被索引的备选实体属性组合方案中的实体属性数量大于1,则
(a)当被索引的备选实体属性组合方案中的实体属性全是整型或浮点型时,采用K-Mean聚类索引方法进行分区索引;
(b)当被索引的备选实体属性组合方案中的实体属性全部为字符串类型时,采用分区倒排索引方法进行分区索引;
(c)当被索引的备选实体属性组合方案中的实体属性中有枚举型、日期型或者布尔型时,采用列表分区索引法,利用实体属性自身的离散信息进行分区索引;
(d)除a、b、c列举的情况外,对备选实体数据组合方案采用Hash索引方法进行分区索引;
每个备选实体属性组合方案进行分区索引后,实体对象数据集将被分成对多个子集,每个子集的规模基本相等,记采用某个备案属性组合方案时实体对象数据集Y分区索引后的子集为Y1,Y2,……,YN,共N个;进行S5分区后,每个子分区的规模仍然较大,这会影响相似度计算的精度和效率;可以通过三角不等式加速进行索引优化。如图3所示,
S6,遍历第一实体对象数据集的实体属性数量大于1的备选实体属性组合方案,采用基于三角不等式加速方法分别对与备选实体属性组合方案对应的分区索引结果进行优化;每个实体属性组合方案对应的分区索引优化的步骤包括:
S6.1,对依据备选实体属性组合方案分区索引后得到的实体对象数据集子集Yi,i=1,2,…,N,采用该备选实体属性组合方案中的实体属性,计算中每个实体对象与其最相似的实体对象距离,用表示待匹配实体对象数据集子集Yi中实体对象的最相似的实体对象为之间的最短距离,那么
S6.2保存第一实体对象数据集每个实体对象的距离 表示了第一实体对象数据集的子集Yi中实体对象的最相似的实体对象为本发明第一具体实施方式采用Hash表保存第一实体对象数据集每个实体对象的距离在本发明的其他具体实施方式中,还可以在实体对象增加一个最短距离属性保存,无论那种保存方式,只要能被后续匹配时调用即可。
S7.1,选取第二实体对象数据集X中的实体对象Xc;
S7.2,选择匹配用实体属性组合方案的步骤,在该步骤中,从所述备选实体属性方案库的前τ种备选实体属性组合方案中,先选择与实体对象Xc的实体属性类型一致且优先级最高的实体属性组合方案;然后判断,采用该实体属性组合方案,实体对象Xc的实体属性的取值是否出现无效值或者空值,如果为否,则选定该实体属性组合方案进行步骤S7.2,如是,则从备选实体属性方案库的前τ种备选实体属性组合方案中,按优先级顺序选择与实体对象Xc的实体属性类型一致的、下一级备选实体属性组合方案,再次判断Xc的实体属性的取值是否出现无效值或者空值,如是,则选定实体属性组合方案后进行步骤S7.2,如否,进行下一轮备选实体属性组合方案的选择;若从备选实体属性方案库的前τ种备选实体属性组合方案中没有选定的实体属性组合方案,停止该实体对象Xc的匹配;
S7.3,选定实体属性组合方案后,若实体属性组合中实体属性数量等于1,则直接通过该实体属性作为实体对象Xc的键值完成匹配;否则进入步骤S7.4;
S7.4,遍历与选定实体属性组合方案对应的实体对象数据集的每个子集Yi,计算实体对象Xc与分区索引后的实体对象数据集子集Yi中实体对象的距离并进行比较,距离采用步骤S6.1中相同计算公式,如果则将相应的作为实体对象Xc的匹配实体对象,Xc∈X,停止匹配;否则继续遍历进行匹配;
本发明第二具体实施方式针对第一实体对象数据集为多个或者第一实体对象数据集中同一实体对象的有多条重复记录,在执行步骤S1-S7之后出现冲突的情况,冲突类型可以分为两种类型,实体冲突与属性冲突,实体冲突是指出现多个匹配实体对象,属性冲突,表现为匹配成功的实体对象,同一实体属性出现不同取值。在第二具体实施方式中,本发明的实体对象的动态多属性匹配方法,还包括冲突消解的步骤:
S8,当匹配结果出现冲突时,进行冲突消解处理;;
S8.1,出现实体冲突时,匹配成功的多个实体对象按照匹配过程中得到的距离进行降序排列,并选取距离最小的匹配对象作为匹配结果,即每次匹配成功后都得到一个实体对象Xc与匹配实体对象之间的距离用距离的大小来衡量相似性,距离最小的最相似;
S8.2,出现属性冲突时,先统计该实体属性取值的出现频率,选择出现频率最高的取值作为匹配结果,若频率相同,则从频率相同的属性值中选择一个属性值作为匹配结果。
本发明第三实施方式涉及一种实体对象的动态多属性匹配平台,包括:
至少一个处理器;以及,
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实体对象的动态多属性匹配方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明第四实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为发明的优选实施例而已,并不用以限制本发明,凡在本发明的思想原则内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种实体对象的动态多属性匹配方法,其特征在于包括步骤:
S1,对第一实体对象数据集进行归一化处理;
该步骤中,针对第一实体对象数据集,根据实体属性的类型进行归一化处理,所述实体属性的类型包括整型、浮点数型、布尔型、字符串型、日期型以及枚举型,所述归一化处理的规则具体是:
(1)如果实体属性的类型是枚举类型的数据,那么对第一实体对象数据集中包含该实体属性的实体对象进行一致性检查和校正处理;
(2)如果实体属性的类型是整型、浮点数型、布尔型、字符串型或日期型的数据,那么对第一实体对象数据集中包含该实体属性的实体对象进行剔除无效值和缺失值补全处理;
(3)对实体对象数据集中的实体属性打上标记,根据该标记查询就能找到该实体属性对应的预先设定的相似度计算函数S(a,b),k,其中,S(a,b),k表示实体对象a与实体对象b在第k个实体属性上的相似度;
S2,计算第一实体对象数据集中每个实体属性的信息熵,包括:
S2.1,估计第一实体对象数据集中实体属性指标的发生概率,其中,所述实体属性指标是实体属性的取值或取值区间,若在第一实体对象数据集中,实体属性指标为离散型变量时,第j个实体属性的第i个指标的发生概率pij是相应取值的发生概率;若在第一实体对象数据集中,实体属性为连续型变量时,将连续性变量离散化为多个取值区间,用相应的概率密度函数计算该取值区间的发生概率,第j个实体属性的第i个指标的发生概率pij是相应取值区间的发生概率;
S2.2计算第一实体对象数据集每个实体属性的信息熵,第一实体对象数据集中第j个实体属性的信息熵Hj计算公式为
其中,n为第一实体对象数据集第j个实体属性的实体属性指标个数;
S3,选择第一实体对象数据集进行实体对象匹配所需的实体属性和实体属性组合;
S3.1,若某个实体属性中的每个指标能够作为键值区分各个实体,即每条记录都不重复,Hj=1,则可使用该实体属性直接进行匹配,那么将该实体属性作为只有一个实体属性的备选实体属性组合方案加入备选实体属性方案库;
S3.2,若实体属性的相对信息熵Hj<1,则选取多个实体属性进行组合,将实体属性组合的每条实体信息作为离散信息,即将实体属性组合的指标作为离散信息,第j个实体属性组合的第i个指标的发生概率p组ij是相应地在第一实体对象数据集中实体属性组合取值和/或取值范围的发生概率,第一实体对象数据集中第j个实体属性组合的信息熵H组j计算公式为
其中,n组为第一实体对象数据集第j个实体属性组合的实体属性指标个数;
遍历第一实体对象数据集中的实体属性组合进行计算和删选,当实体属性组合中的每条记录都是唯一记录,即H组j=1时,将该实体属性组合作为备选实体属性组合方案加入备选实体属性方案库;
S3.3,按照实体属性数量的多少对备选实体属性方案库中备选实体属性组合方案进行排序,备选实体属性组合方案按照实体属性从少到多的顺序优先级逐渐降低;
S4,针对第一实体对象数据集每个备选实体属性组合方案,计算其中的每个属性的权重值,权重值其中,Hk和Hj分别为备选实体属性组合方案中第k个和第j个实体属性的信息熵,m表示备选实体属性组合中实体属性的数量,当m=1时,Wk=1;
S5,为提高数据遍历效率,对第一实体对象数据集进行分区索引,分区索引方法依据备选实体属性组合方案进行选择,设置阈值τ,只针对备选实体组合方案中的实体属性数量最少的前τ种实体属性组合方案进行分区索引;分区索引的步骤如下:
S5.1若被索引的备选实体属性组合方案的实体属性数量等于1,直接采用Hash索引方法进行分区索引;
S5.2若被索引的备选实体属性组合方案中的实体属性数量大于1,则
(a)当被索引的备选实体属性组合方案中的实体属性全是整型或浮点型时,采用K-Mean聚类索引方法进行分区索引;
(b)当被索引的备选实体属性组合方案中的实体属性全部为字符串类型时,采用分区倒排索引方法进行分区索引;
(c)当被索引的备选实体属性组合方案中的实体属性中有枚举型、日期型或者布尔型时,采用列表分区索引法,利用实体属性自身的离散信息进行分区索引;
(d)除a、b、c列举的情况外,对备选实体数据组合方案采用Hash索引方法进行分区索引;
每个备选实体属性组合方案进行分区索引后,实体对象数据集将被分成对多个子集,每个子集的规模基本相等,记采用某个备案属性组合方案时实体对象数据集Y分区索引后的子集为Y1,Y2,……,YN,共N个;
S6,遍历第一实体对象数据集的实体属性数量大于1的备选实体属性组合方案,采用基于三角不等式加速方法分别对与备选实体属性组合方案对应的分区索引结果进行优化;每个实体属性组合方案对应的分区索引优化的步骤包括:
S6.1,对依据备选实体属性组合方案分区索引后得到的实体对象数据集子集Yi,i=1,2,…,N,采用该备选实体属性组合方案中的实体属性,计算中每个实体对象与其最相似的实体对象距离,用表示待匹配实体对象数据集子集Yi中实体对象的最相似的实体对象为之间的最短距离,那么
S7,遍历第二实体对象数据集X中的每个实体对象Xc,与第一实体对象数据集进行相似度匹配,若Xc匹配到第一实体对象数据集某个子集Yi中实体对象则Xc匹配成功,否则为Xc匹配失败,实体对象Xc的匹配过程如下:
S7.1,选取第二实体对象数据集X中的实体对象Xc;
S7.2,选择匹配用实体属性组合方案的步骤,在该步骤中,从所述备选实体属性方案库的前τ种备选实体属性组合方案中,先选择与实体对象Xc的实体属性类型一致且优先级最高的实体属性组合方案;然后判断,采用该实体属性组合方案,实体对象Xc的实体属性的取值是否出现无效值或者空值,如果为否,则选定该实体属性组合方案进行步骤S7.2,如是,则从备选实体属性方案库的前τ种备选实体属性组合方案中,按优先级顺序选择与实体对象Xc的实体属性类型一致的、下一级备选实体属性组合方案,再次判断Xc的实体属性的取值是否出现无效值或者空值,如是,则选定实体属性组合方案后进行步骤S7.2,如否,进行下一轮备选实体属性组合方案的选择;若从备选实体属性方案库的前τ种备选实体属性组合方案中没有选定的实体属性组合方案,停止该实体对象Xc的匹配;
S7.3,选定实体属性组合方案后,若实体属性组合中实体属性数量等于1,则直接通过该实体属性作为实体对象Xc的键值完成匹配;否则进入步骤S7.4;
S7.4,遍历与选定实体属性组合方案对应的实体对象数据集的每个子集Yi,计算实体对象Xc与分区索引后的实体对象数据集子集Yi中实体对象的距离并进行比较,距离采用步骤S6.1中相同计算公式,如果则将相应的作为实体对象Xc的匹配实体对象,Xc∈X,停止匹配;否则继续遍历进行匹配;
2.如权利要求1所述的实体对象的动态多属性匹配方法,其特征在于还包括步骤:
S8,当匹配结果出现冲突时,进行冲突消解处理;所述冲突的类型包括实体冲突与属性冲突,实体冲突是指出现多个匹配实体对象,属性冲突,表现为匹配成功的实体对象,同一实体属性出现不同取值;
S8.1,出现实体冲突时,匹配成功的多个实体对象按照匹配过程中得到的距离进行降序排列,并选取距离最小的匹配对象作为匹配结果;
S8.2,出现属性冲突时,先统计该实体属性取值的出现频率,选择出现频率最高的取值作为匹配结果,若频率相同,则从频率相同的属性值中选择一个属性值作为匹配结果。
3.如权利要求1所述的实体对象的动态多属性匹配方法,其特征在于步骤S2.1中,实体属性为连续型变量时,利用等宽法将连续型变量离散化为宽度相等的多个取值区间,取每个取值区间的中值作为该实体属性的指标,并利用连续性变量的概率密度函数计算该取值区间内的发生概率,作为该取值区间实体属性指标的发生概率,第j个实体属性的第i个指标的发生概率pij是相应取值区间的发生概率。
4.如权利要求1所述的实体对象的动态多属性匹配方法,其特征在于步骤S1中,打标记的方式是给实体属性的名称加上前缀或者后缀。
7.如权利要求1所述的实体对象的动态多属性匹配方法,其特征在于第一实体对象数据集为两个或两个以上,第二实体对象数据集与两个或两个以上第一实体对象数据集进行匹配。
8.一种实体对象的动态多属性匹配平台,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的实体对象的动态多属性匹配方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的实体对象的动态多属性匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110475662.4A CN113297213B (zh) | 2021-04-29 | 2021-04-29 | 一种实体对象的动态多属性匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110475662.4A CN113297213B (zh) | 2021-04-29 | 2021-04-29 | 一种实体对象的动态多属性匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113297213A true CN113297213A (zh) | 2021-08-24 |
CN113297213B CN113297213B (zh) | 2023-09-12 |
Family
ID=77320528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110475662.4A Active CN113297213B (zh) | 2021-04-29 | 2021-04-29 | 一种实体对象的动态多属性匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113297213B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050055363A1 (en) * | 2000-10-06 | 2005-03-10 | Mather Andrew Harvey | System for storing and retrieving data |
CN104537029A (zh) * | 2014-12-19 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 查询处理方法及装置 |
CN105426434A (zh) * | 2015-11-04 | 2016-03-23 | 北京航天金盾科技有限公司 | 基于多维度的人口信息统计分析系统 |
CN109359172A (zh) * | 2018-08-02 | 2019-02-19 | 浙江大学 | 一种基于图划分的实体对齐优化方法 |
CN109739939A (zh) * | 2018-12-29 | 2019-05-10 | 颖投信息科技(上海)有限公司 | 知识图谱的数据融合方法和装置 |
US20190156212A1 (en) * | 2017-11-21 | 2019-05-23 | Microsoft Technology Licensing, Llc | Entity linking via disambiguation using machine learning techniques |
CN110162591A (zh) * | 2019-05-22 | 2019-08-23 | 南京邮电大学 | 一种面向数字教育资源的实体对齐方法及系统 |
CN110457486A (zh) * | 2019-07-05 | 2019-11-15 | 中国人民解放军战略支援部队信息工程大学 | 基于知识图谱的人物实体对齐方法及装置 |
CN110569504A (zh) * | 2019-09-04 | 2019-12-13 | 北京明略软件系统有限公司 | 一种关系词确定方法及装置 |
CN110909116A (zh) * | 2019-11-28 | 2020-03-24 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种面向社交媒体的实体集合扩展方法及系统 |
US10959090B1 (en) * | 2004-08-25 | 2021-03-23 | Richard Paiz | Personal search results |
-
2021
- 2021-04-29 CN CN202110475662.4A patent/CN113297213B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050055363A1 (en) * | 2000-10-06 | 2005-03-10 | Mather Andrew Harvey | System for storing and retrieving data |
US10959090B1 (en) * | 2004-08-25 | 2021-03-23 | Richard Paiz | Personal search results |
CN104537029A (zh) * | 2014-12-19 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 查询处理方法及装置 |
CN105426434A (zh) * | 2015-11-04 | 2016-03-23 | 北京航天金盾科技有限公司 | 基于多维度的人口信息统计分析系统 |
US20190156212A1 (en) * | 2017-11-21 | 2019-05-23 | Microsoft Technology Licensing, Llc | Entity linking via disambiguation using machine learning techniques |
CN109359172A (zh) * | 2018-08-02 | 2019-02-19 | 浙江大学 | 一种基于图划分的实体对齐优化方法 |
CN109739939A (zh) * | 2018-12-29 | 2019-05-10 | 颖投信息科技(上海)有限公司 | 知识图谱的数据融合方法和装置 |
CN110162591A (zh) * | 2019-05-22 | 2019-08-23 | 南京邮电大学 | 一种面向数字教育资源的实体对齐方法及系统 |
CN110457486A (zh) * | 2019-07-05 | 2019-11-15 | 中国人民解放军战略支援部队信息工程大学 | 基于知识图谱的人物实体对齐方法及装置 |
CN110569504A (zh) * | 2019-09-04 | 2019-12-13 | 北京明略软件系统有限公司 | 一种关系词确定方法及装置 |
CN110909116A (zh) * | 2019-11-28 | 2020-03-24 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种面向社交媒体的实体集合扩展方法及系统 |
Non-Patent Citations (2)
Title |
---|
BAO-HUA QIANG等: "Identifying Corresponding Entities Based on Attribute Entropy in Heterogeneous Databases", 《2008 4TH INTERNATIONAL CONFERENCE ON WIRELESS COMMUNICATIONS, NETWORKING AND MOBILE COMPUTING》, pages 1 - 4 * |
邹银凤: "知识图谱构建中的多数据源实体匹配研究", 《中国优秀硕士学位论文全文数据库经济与管理科学辑》, no. 1, pages 157 - 946 * |
Also Published As
Publication number | Publication date |
---|---|
CN113297213B (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
Zhang et al. | Multi-view knowledge graph embedding for entity alignment | |
Qin et al. | Hello neighbor: Accurate object retrieval with k-reciprocal nearest neighbors | |
US20150142829A1 (en) | System, apparatus, program and method for data aggregatione | |
WO2021139262A1 (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
CN109271486B (zh) | 一种相似性保留跨模态哈希检索方法 | |
US20100257440A1 (en) | High precision web extraction using site knowledge | |
CN111159359B (zh) | 文档检索方法、装置及计算机可读存储介质 | |
CN111897975A (zh) | 一种面向知识图谱表示学习训练的局部训练方法 | |
KR100903961B1 (ko) | 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템 | |
CN110019474B (zh) | 异构数据库中的同义数据自动关联方法、装置及电子设备 | |
WO2021189920A1 (zh) | 医疗文献簇的主题确定方法、装置、电子设备及存储介质 | |
CN102063489B (zh) | 基于隐含分类信息的模式匹配方法 | |
Song et al. | Brepartition: Optimized high-dimensional knn search with bregman distances | |
CN117520485B (zh) | 基于知识图谱集成的大语言模型向量检索方法 | |
CN113297213B (zh) | 一种实体对象的动态多属性匹配方法 | |
CN110362813B (zh) | 基于bm25的搜索相关性度量方法、存储介质、设备及系统 | |
CN114511027B (zh) | 通过大数据网络进行英语远程数据提取方法 | |
CN110019829B (zh) | 数据属性确定方法、装置 | |
CN111046662A (zh) | 分词模型的训练方法、装置、系统和存储介质 | |
CN111241275B (zh) | 一种短文本相似度评估方法和装置以及设备 | |
CN112733939A (zh) | 相似度特征向量的构建方法、装置、电子设备及存储介质 | |
CN111984812A (zh) | 一种特征提取模型生成方法、图像检索方法、装置及设备 | |
Luo et al. | Deep unsupervised hashing by distilled smooth guidance | |
Ajeissh et al. | An adaptive distributed approach of a self organizing map model for document clustering using ring topology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |