CN113297213A - 一种实体对象的动态多属性匹配方法 - Google Patents

一种实体对象的动态多属性匹配方法 Download PDF

Info

Publication number
CN113297213A
CN113297213A CN202110475662.4A CN202110475662A CN113297213A CN 113297213 A CN113297213 A CN 113297213A CN 202110475662 A CN202110475662 A CN 202110475662A CN 113297213 A CN113297213 A CN 113297213A
Authority
CN
China
Prior art keywords
entity
attribute
entity attribute
data set
alternative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110475662.4A
Other languages
English (en)
Other versions
CN113297213B (zh
Inventor
杨雄军
田群
宁希
吴元立
崔子腾
戴永恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Diankeyun Beijing Technology Co ltd
Institute of Network Engineering Institute of Systems Engineering Academy of Military Sciences
Original Assignee
Diankeyun Beijing Technology Co ltd
Institute of Network Engineering Institute of Systems Engineering Academy of Military Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Diankeyun Beijing Technology Co ltd, Institute of Network Engineering Institute of Systems Engineering Academy of Military Sciences filed Critical Diankeyun Beijing Technology Co ltd
Priority to CN202110475662.4A priority Critical patent/CN113297213B/zh
Publication of CN113297213A publication Critical patent/CN113297213A/zh
Application granted granted Critical
Publication of CN113297213B publication Critical patent/CN113297213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机领域,特别是一种实体对象的动态多属性匹配方法。本发明在预处理阶段即实现字段类型的标记,利用字段标记进行相似性计算函数的选择,差异化、针对性的相似性计算函数能够大幅提升相似性计算过程的精度。本发明使用动态熵权法进行权重调整,实现复杂实体在属性缺失、属性增加变化的场景下的权重衡量的统一,不会因为实体属性的缺失、增加变化导致相似性计算函数出现较大范围的波动和偏差,并保留主要的属性特征。本发明采用三角形不等式进行二级分区索引。双索引结构能够在原有的分区索引结构上优化实体匹配的搜索空间,减少不必要的匹配过程,从而大幅度提高大规模数据场景下的实体对齐过程。

Description

一种实体对象的动态多属性匹配方法
技术领域
本发明属于计算机领域,特别是一种实体对象的动态多属性匹配方法、平台和计算机可读存储介质,可应用于从大数据中进行实体对象的挖掘与提取过程,以及实现知识融合过程,实现知识图谱领域中的实体对象匹配对齐。
背景技术
传统的实体对齐需把来源不同的数据中相同实体实现一一映射,其中映射的依据主要依靠实体的多种不同的属性。实体对齐主要有两种技术路线,基于分库索引与相似度计算的传统路线,以及采用表示学习模型的图嵌入方法。
其中,采用传统的实体对齐方法关键在于分区索引技术与相似度计算函数,高效的分区索引技术是大规模知识库进行实体对齐的必要条件,而相似性计算函数则是对齐精度的保证。在属性对齐过程,不同的特征属性通常采用不同的相似性计算函数,这与自然语言处理领域相似性的判断截然不同,如物资规格的相似性计算通常需要涉及更为精确的业务规则。
采用表示学习模型的图嵌入实体对齐,在计算效率上通常具有更好的表现。知识表示学习通过将实体和关系映射到向量空间,简化了计算过程,同时相似性也可以通过损失函数等形式进行表示。但表示学习模型的实体对齐计算在大规模数据集以及高精度的实体对齐场景仍然面临巨大的挑战,如年龄、性别、喜好等具有特定领域特征的属性时,表示学习模型仍难以有效表达。
发明内容
本发明的目的在于从传统的实体对齐方法出发实现动态多属性匹配,以及在分区索引的基础上利用三角不等式关系减少实体对齐过程中的搜索空间,从相似性计算精度和分区索引效率两方面改进了现有的实体对齐方法,通过动态多属性匹配过程,使得实体对齐方法可以适应属性缺失、属性动态变化等复杂的应用场景。
为实现上述目的,本发明提供了一种实体对象的动态多属性匹配方法,包括步骤:
S1,对第一实体对象数据集进行归一化处理;
该步骤中,针对第一实体对象数据集,根据实体属性的类型进行归一化处理,所述实体属性的类型包括整型、浮点数型、布尔型、字符串型、日期型以及枚举型,所述归一化处理的规则具体是:
(1)如果实体属性的类型是枚举类型的数据,那么对第一实体对象数据集中包含该实体属性的实体对象进行一致性检查和校正处理;
(2)如果实体属性的类型是整型、浮点数型、布尔型、字符串型或日期型的数据,那么对第一实体对象数据集中包含该实体属性的实体对象进行剔除无效值和缺失值补全处理;
(3)对实体对象数据集中的实体属性打上标记,根据该标记查询就能找到该实体属性对应的预先设定的相似度计算函数S(a,b),k,其中,S(a,b),k表示实体对象a与实体对象b在第k个实体属性上的相似度;
S2,计算第一实体对象数据集中每个实体属性的信息熵,包括:
S2.1,估计第一实体对象数据集中实体属性指标的发生概率,其中,所述实体属性指标是实体属性的取值或取值区间,若在第一实体对象数据集中,实体属性指标为离散型变量时,第j个实体属性的第i个指标的发生概率pij是相应取值的发生概率;若在第一实体对象数据集中,实体属性为连续型变量时,将连续性变量离散化为多个取值区间,用相应的概率密度函数计算该取值区间的发生概率,第j个实体属性的第i个指标的发生概率pij是相应取值区间的发生概率;
S2.2计算第一实体对象数据集每个实体属性的信息熵,第一实体对象数据集中第j个实体属性的信息熵Hj计算公式为
Figure BDA0003047311020000021
其中,n为第一实体对象数据集第j个实体属性的实体属性指标个数;
S3,选择第一实体对象数据集进行实体对象匹配所需的实体属性和实体属性组合;
S3.1,若某个实体属性中的每个指标能够作为键值区分各个实体,即每条记录都不重复,Hj=1,则可使用该实体属性直接进行匹配,那么将该实体属性作为只有一个实体属性的备选实体属性组合方案加入备选实体属性方案库;
S3.2,若实体属性的相对信息熵Hj<1,则选取多个实体属性进行组合,将实体属性组合的每条实体信息作为离散信息,即将实体属性组合的指标作为离散信息,第j个实体属性组合的第i个指标的发生概率p组ij是相应地在第一实体对象数据集中实体属性组合取值和/或取值范围的发生概率,第一实体对象数据集中第j个实体属性组合的信息熵H组j计算公式为
Figure BDA0003047311020000022
其中,n为第一实体对象数据集第j个实体属性组合的实体属性指标个数;
遍历第一实体对象数据集中的实体属性组合进行计算和删选,当实体属性组合中的每条记录都是唯一记录,即H组j=1时,将该实体属性组合作为备选实体属性组合方案加入备选实体属性方案库;
S3.3,按照实体属性数量的多少对备选实体属性方案库中备选实体属性组合方案进行排序,备选实体属性组合方案按照实体属性从少到多的顺序优先级逐渐降低;
S4,针对第一实体对象数据集每个备选实体属性组合方案,计算其中的每个属性的权重值,权重值
Figure BDA0003047311020000031
其中,Hk和Hj分别为备选实体属性组合方案中第k个和第j个实体属性的信息熵,m表示备选实体属性组合中实体属性的数量,当m=1时,Wk=1;
S5,为提高数据遍历效率,对第一实体对象数据集进行分区索引,分区索引方法依据备选实体属性组合方案进行选择,设置阈值τ,只针对备选实体组合方案中的实体属性数量最少的前τ种实体属性组合方案进行分区索引;分区索引的步骤如下:
S5.1若被索引的备选实体属性组合方案的实体属性数量等于1,直接采用Hash索引方法进行分区索引;
S5.2若被索引的备选实体属性组合方案中的实体属性数量大于1,则
(a)当被索引的备选实体属性组合方案中的实体属性全是整型或浮点型时,采用K-Mean聚类索引方法进行分区索引;
(b)当被索引的备选实体属性组合方案中的实体属性全部为字符串类型时,采用分区倒排索引方法进行分区索引;
(c)当被索引的备选实体属性组合方案中的实体属性中有枚举型、日期型或者布尔型时,采用列表分区索引法,利用实体属性自身的离散信息进行分区索引;
(d)除a、b、c列举的情况外,对备选实体数据组合方案采用Hash索引方法进行分区索引;
每个备选实体属性组合方案进行分区索引后,实体对象数据集将被分成对多个子集,每个子集的规模基本相等,记采用某个备案属性组合方案时实体对象数据集Y分区索引后的子集为Y1,Y2,……,YN,共N个;
S6,遍历第一实体对象数据集的实体属性数量大于1的备选实体属性组合方案,采用基于三角不等式加速方法分别对与备选实体属性组合方案对应的分区索引结果进行优化;每个实体属性组合方案对应的分区索引优化的步骤包括:
S6.1,对依据备选实体属性组合方案分区索引后得到的实体对象数据集子集Yi,i=1,2,…,N,采用该备选实体属性组合方案中的实体属性,计算中每个实体对象与其最相似的实体对象距离,用
Figure BDA0003047311020000041
表示待匹配实体对象数据集子集Yi中实体对象
Figure BDA0003047311020000042
的最相似的实体对象为
Figure BDA0003047311020000043
之间的最短距离,那么
Figure BDA0003047311020000044
其中,
Figure BDA0003047311020000045
实体属性的相似性计算函数S(a,b),k由所述步骤S1对实体属性打的标记查询得到,权重Wk由步骤S4确定;
S6.2保存第一实体对象数据集每个实体对象的距离
Figure BDA0003047311020000046
Figure BDA0003047311020000047
表示了第一实体对象数据集的子集Yi中实体对象
Figure BDA0003047311020000048
的最相似的实体对象为
Figure BDA0003047311020000049
S7,遍历第二实体对象数据集X中的每个实体对象Xc,与第一实体对象数据集进行相似度匹配,若Xc匹配到第一实体对象数据集某个子集Yi中实体对象
Figure BDA00030473110200000410
则Xc匹配成功,否则为Xc匹配失败,实体对象Xc的匹配过程如下:
S7.1,选取第二实体对象数据集X中的实体对象Xc
S7.2,选择匹配用实体属性组合方案的步骤,在该步骤中,从所述备选实体属性方案库的前τ种备选实体属性组合方案中,先选择与实体对象Xc的实体属性类型一致且优先级最高的实体属性组合方案;然后判断,采用该实体属性组合方案,实体对象Xc的实体属性的取值是否出现无效值或者空值,如果为否,则选定该实体属性组合方案进行步骤S7.2,如是,则从备选实体属性方案库的前τ种备选实体属性组合方案中,按优先级顺序选择与实体对象Xc的实体属性类型一致的、下一级备选实体属性组合方案,再次判断Xc的实体属性的取值是否出现无效值或者空值,如是,则选定实体属性组合方案后进行步骤S7.2,如否,进行下一轮备选实体属性组合方案的选择;若从备选实体属性方案库的前τ种备选实体属性组合方案中没有选定的实体属性组合方案,停止该实体对象Xc的匹配;
S7.3,选定实体属性组合方案后,若实体属性组合中实体属性数量等于1,则直接通过该实体属性作为实体对象Xc的键值完成匹配;否则进入步骤S7.4;
S7.4,遍历与选定实体属性组合方案对应的实体对象数据集的每个子集Yi,计算实体对象Xc与分区索引后的实体对象数据集子集Yi中实体对象
Figure BDA00030473110200000411
的距离
Figure BDA00030473110200000412
并进行比较,距离
Figure BDA00030473110200000413
采用步骤S6.1中相同计算公式,如果
Figure BDA00030473110200000414
则将相应的
Figure BDA00030473110200000415
作为实体对象Xc的匹配实体对象,Xc∈X,停止匹配;否则继续遍历进行匹配;
S7.6,如果遍历后无匹配选项,选择与
Figure BDA00030473110200000416
最小值对应的
Figure BDA00030473110200000417
作为实体对象Xc的匹配实体对象。
进一步的,还包括步骤:
S8,当匹配结果出现冲突时,进行冲突消解处理;所述冲突的类型包括实体冲突与属性冲突,实体冲突是指出现多个匹配实体对象,属性冲突,表现为匹配成功的实体对象,同一实体属性出现不同取值;
S8.1,出现实体冲突时,匹配成功的多个实体对象按照匹配过程中得到的距离进行降序排列,并选取距离最小的匹配对象作为匹配结果;
S8.2,出现属性冲突时,先统计该实体属性取值的出现频率,选择出现频率最高的取值作为匹配结果,若频率相同,则从频率相同的属性值中选择一个属性值作为匹配结果。
进一步的,步骤S2.1中,实体属性为连续型变量时,利用等宽法将连续型变量离散化为宽度相等的多个取值区间,取每个取值区间的中值作为该实体属性的指标,并利用连续性变量的概率密度函数计算该取值区间内的发生概率,作为该取值区间实体属性指标的发生概率,第j个实体属性的第i个指标的发生概率pij是相应取值区间的发生概率。
进一步的,步骤S1中,打标记的方式是给实体属性的名称加上前缀或者后缀。
进一步的,步骤S1中,如果实体属性类型为姓名、年龄、籍贯、学校、专业或距离时,那么相应的打上“-name”、“-age”、“-native”、“-school”、“-major”、“-distance”的标记,根据这些标记通过查询下表就能找到相应的相似度计算函数,
实体属性类型 标记 相似性计算函数S<sub>(a,b),k</sub>
姓名 -name 余弦相似度
年龄 -age 欧几里得距离
籍贯 -native 曼哈顿距离
学校 -school 海明距离
专业 -major 海明距离
进一步的,步骤S6.2中用Hash表保存第一实体对象数据集每个实体对象的距离
Figure BDA0003047311020000051
进一步的,第一实体对象数据集为两个或两个以上,第二实体对象数据集与两个或两个以上第一实体对象数据集进行匹配。
本发明还提供了一种实体对象的动态多属性匹配平台,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的实体对象的动态多属性匹配方法。
本发明还提供了一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述的实体对象的动态多属性匹配方法。
有益效果
本发明在预处理阶段即实现字段类型的标记,利用字段标记进行相似性计算函数的选择,差异化、针对性的相似性计算函数能够大幅提升相似性计算过程的精度。
本发明使用动态熵权法进行权重调整,实现复杂实体在属性缺失、属性增加变化的场景下的权重衡量的统一,不会因为实体属性的缺失、增加变化导致相似性计算函数出现较大范围的波动和偏差,并保留主要的属性特征。
本发明采用三角形不等式进行二级分区索引。双索引结构能够在原有的分区索引结构上优化实体匹配的搜索空间,减少不必要的匹配过程,从而大幅度提高大规模数据场景下的实体对齐过程。
附图说明
图1为本发明实体对象的动态多属性匹配方法的原理示意图。
图2为本发明对第一实体对象数据集进行归一化处理的原理示意图。
图3为本发明实体对象的动态多属性匹配方法中匹配过程的流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行详细的说明。
图1给出了本发明实体对象的动态多属性匹配方法的原理示意图。如图1所示,本发明第一具体实施方式中的实体对象的动态多属性匹配方法,包括:
S1,对第一实体对象数据集进行归一化处理,
该步骤中,针对第一实体对象数据集,根据实体属性的类型进行归一化处理,所述实体属性的类型包括整型、浮点数型、布尔型、字符串型、日期型以及枚举型,参照图2,所述归一化处理的规则具体是:
(1)如果实体属性的类型是枚举类型的数据,那么对第一实体对象数据集中包含该实体属性的实体对象进行一致性检查和校正处理,例如实体对象的性别属性,取值记录有男、女、男性、女性,检查发现不一致后校正处理后统一为男或女;
(2)如果实体属性的类型是整型、浮点数型、布尔型、字符串型或日期型的数据,那么对第一实体对象数据集中包含该实体属性的实体对象进行剔除无效值、缺失值补全及标准化处理,例如年龄的数据为null,剔除并补充0,若年龄的数据为空,补充为0,若年龄的数据记录为汉字的十八,标准化为阿拉伯数字的18;
(3)对实体对象数据集中的实体属性打上标记,根据该标记查询就能找到该实体属性对应的预先设定的相似度计算函数S(a,b),k,其中,S(a,b),k表示实体对象a与实体对象b在第k个实体属性上的相似度;如图2所示,本发明第一具体实施方式中打标记的方法是在相应的属性名称后面加上全局唯一的后缀,后缀与相似性计算函数相对应,根据后缀就能查询到相应的相似性计算函数,如下表所示,
实体属性类型 后缀 相似性计算函数S<sub>(a,b),k</sub>
姓名 -name 余弦相似度
年龄 -age 欧几里得距离
籍贯 -native 曼哈顿距离
学校 -school 海明距离
专业 -major 海明距离
距离 -distance 曼哈顿距离
在本发明的另一具体实施方式中,打标记方法可以采用在相应的属性名称前面加上全局唯一的前缀,前缀与相似性计算函数相对应,根据后缀查询相应的相似性计算函数,如下表所示,
实体属性名称 前缀 相似性计算函数S<sub>(a,b),k</sub>
姓名 Name- 余弦相似度
年龄 Age- 欧几里得距离
籍贯 Native- 曼哈顿距离
学校 School- 海明距离
专业 Major- 海明距离
距离 Distance- 曼哈顿距离
在上述两种方式中,是以实体属性名称的英文作为标记,在本发明的其他实施方式中,还可以用相似性计算函数的英文名称作为前缀或后缀作为标记,只要是对实体属性打上标记,根据该标记查询就能找到该实体属性对应的预先设定的相似度计算函数的打标记方式均可用于本发明。
S2,计算第一实体对象数据集中每个实体属性的信息熵,包括:
S2.1,估计第一实体对象数据集中实体属性指标的发生概率,其中,所述实体属性指标是实体属性的取值或取值区间,若在第一实体对象数据集中,实体属性指标为离散型变量时,第j个实体属性的第i个指标的发生概率pij是相应取值的发生概率;若在第一实体对象数据集中,实体属性为连续型变量时,将连续性变量离散化为多个取值区间,用相应的概率密度函数计算该取值区间的发生概率,第j个实体属性的第i个指标的发生概率pij是相应取值区间的发生概率;
本发明第一具体实施方式中,取值区间的划分可以利用等宽法,将连续型变量离散化为宽度相等的多个取值区间,取每个取值区间的中值作为该实体属性的指标,并利用函数的概率密度函数计算该取值区间内的发生概率。
本发明其他具体实施方式中,取值区间的划分也可以是任意的宽度,只要能够离散化并利用连续性变量的概率密度函数计算该取值区间内的发生概率即可。
S2.2计算第一实体对象数据集每个实体属性的信息熵,第一实体对象数据集中第j个实体属性的信息熵Hj计算公式为
Figure BDA0003047311020000081
其中,n为第一实体对象数据集第j个实体属性的实体属性指标个数;
S3,选择第一实体对象数据集进行实体对象匹配所需的实体属性和实体属性组合;
S3.1,若某个实体属性中的每个指标能够作为键值区分各个实体,即每条记录都不重复,Hj=1,则可使用该实体属性直接进行匹配,那么将该实体属性作为只有一个实体属性的备选实体属性组合方案加入备选实体属性方案库;
S3.2,若实体属性的相对信息熵Hj<1,则选取多个实体属性进行组合,将实体属性组合的每条实体信息作为离散信息,即将实体属性组合的指标作为离散信息,第j个实体属性组合的第i个指标的发生概率p组ij是相应地在第一实体对象数据集中实体属性组合取值和/或取值范围的发生概率,第一实体对象数据集中第j个实体属性组合的信息熵H组j计算公式为
Figure BDA0003047311020000082
其中,n为第一实体对象数据集第j个实体属性组合的实体属性指标个数;
遍历第一实体对象数据集中的实体属性组合进行计算和删选,当实体属性组合中的每条记录都是唯一记录,即H组j=1时,将该实体属性组合作为备选实体属性组合方案加入备选实体属性方案库;
S3.3,按照实体属性数量的多少对备选实体属性方案库中备选实体属性组合方案进行排序,备选实体属性组合方案按照实体属性从少到多的顺序优先级逐渐降低;
S4,针对第一实体对象数据集每个备选实体属性组合方案,计算其中的每个属性的权重值,权重值
Figure BDA0003047311020000083
其中,Hk和Hj分别为备选实体属性组合方案中第k个和第j个实体属性的信息熵,m表示备选实体属性组合中实体属性的数量,当m=1时,Wk=1;
S5,为提高数据遍历效率,对第一实体对象数据集进行分区索引,分区索引方法依据备选实体属性组合方案进行选择,设置阈值τ,只针对备选实体组合方案中的实体属性数量最少的前τ种实体属性组合方案进行分区索引;分区索引的步骤如下:
S5.1若被索引的备选实体属性组合方案的实体属性数量等于1,直接采用Hash索引方法进行分区索引;
S5.2若被索引的备选实体属性组合方案中的实体属性数量大于1,则
(a)当被索引的备选实体属性组合方案中的实体属性全是整型或浮点型时,采用K-Mean聚类索引方法进行分区索引;
(b)当被索引的备选实体属性组合方案中的实体属性全部为字符串类型时,采用分区倒排索引方法进行分区索引;
(c)当被索引的备选实体属性组合方案中的实体属性中有枚举型、日期型或者布尔型时,采用列表分区索引法,利用实体属性自身的离散信息进行分区索引;
(d)除a、b、c列举的情况外,对备选实体数据组合方案采用Hash索引方法进行分区索引;
每个备选实体属性组合方案进行分区索引后,实体对象数据集将被分成对多个子集,每个子集的规模基本相等,记采用某个备案属性组合方案时实体对象数据集Y分区索引后的子集为Y1,Y2,……,YN,共N个;进行S5分区后,每个子分区的规模仍然较大,这会影响相似度计算的精度和效率;可以通过三角不等式加速进行索引优化。如图3所示,
S6,遍历第一实体对象数据集的实体属性数量大于1的备选实体属性组合方案,采用基于三角不等式加速方法分别对与备选实体属性组合方案对应的分区索引结果进行优化;每个实体属性组合方案对应的分区索引优化的步骤包括:
S6.1,对依据备选实体属性组合方案分区索引后得到的实体对象数据集子集Yi,i=1,2,…,N,采用该备选实体属性组合方案中的实体属性,计算中每个实体对象与其最相似的实体对象距离,用
Figure BDA0003047311020000091
表示待匹配实体对象数据集子集Yi中实体对象
Figure BDA0003047311020000092
的最相似的实体对象为
Figure BDA0003047311020000093
之间的最短距离,那么
Figure BDA0003047311020000094
其中,
Figure BDA0003047311020000095
实体属性的相似性计算函数S(a,b),k由所述步骤S1对实体属性打的标记查询得到,权重Wk由步骤S4确定;
S6.2保存第一实体对象数据集每个实体对象的距离
Figure BDA0003047311020000096
Figure BDA0003047311020000097
表示了第一实体对象数据集的子集Yi中实体对象
Figure BDA0003047311020000098
的最相似的实体对象为
Figure BDA0003047311020000099
本发明第一具体实施方式采用Hash表保存第一实体对象数据集每个实体对象的距离
Figure BDA0003047311020000101
在本发明的其他具体实施方式中,还可以在实体对象增加一个最短距离属性保存,无论那种保存方式,只要能被后续匹配时调用即可。
S7,遍历第二实体对象数据集X中的每个实体对象Xc,与第一实体对象数据集进行匹配,若Xc匹配到第一实体对象数据集某个子集Yi中实体对象
Figure BDA0003047311020000102
则Xc匹配成功,否则为Xc匹配失败,实体对象Xc的匹配过程如下:
S7.1,选取第二实体对象数据集X中的实体对象Xc
S7.2,选择匹配用实体属性组合方案的步骤,在该步骤中,从所述备选实体属性方案库的前τ种备选实体属性组合方案中,先选择与实体对象Xc的实体属性类型一致且优先级最高的实体属性组合方案;然后判断,采用该实体属性组合方案,实体对象Xc的实体属性的取值是否出现无效值或者空值,如果为否,则选定该实体属性组合方案进行步骤S7.2,如是,则从备选实体属性方案库的前τ种备选实体属性组合方案中,按优先级顺序选择与实体对象Xc的实体属性类型一致的、下一级备选实体属性组合方案,再次判断Xc的实体属性的取值是否出现无效值或者空值,如是,则选定实体属性组合方案后进行步骤S7.2,如否,进行下一轮备选实体属性组合方案的选择;若从备选实体属性方案库的前τ种备选实体属性组合方案中没有选定的实体属性组合方案,停止该实体对象Xc的匹配;
S7.3,选定实体属性组合方案后,若实体属性组合中实体属性数量等于1,则直接通过该实体属性作为实体对象Xc的键值完成匹配;否则进入步骤S7.4;
S7.4,遍历与选定实体属性组合方案对应的实体对象数据集的每个子集Yi,计算实体对象Xc与分区索引后的实体对象数据集子集Yi中实体对象
Figure BDA0003047311020000103
的距离
Figure BDA0003047311020000104
并进行比较,距离
Figure BDA0003047311020000105
采用步骤S6.1中相同计算公式,如果
Figure BDA0003047311020000106
则将相应的
Figure BDA0003047311020000107
作为实体对象Xc的匹配实体对象,Xc∈X,停止匹配;否则继续遍历进行匹配;
S7.6,如果遍历后无匹配选项,选择与
Figure BDA0003047311020000108
最小值对应的
Figure BDA0003047311020000109
作为实体对象Xc的匹配实体对象。
本发明第二具体实施方式针对第一实体对象数据集为多个或者第一实体对象数据集中同一实体对象的有多条重复记录,在执行步骤S1-S7之后出现冲突的情况,冲突类型可以分为两种类型,实体冲突与属性冲突,实体冲突是指出现多个匹配实体对象,属性冲突,表现为匹配成功的实体对象,同一实体属性出现不同取值。在第二具体实施方式中,本发明的实体对象的动态多属性匹配方法,还包括冲突消解的步骤:
S8,当匹配结果出现冲突时,进行冲突消解处理;;
S8.1,出现实体冲突时,匹配成功的多个实体对象按照匹配过程中得到的距离进行降序排列,并选取距离最小的匹配对象作为匹配结果,即每次匹配成功后都得到一个实体对象Xc与匹配实体对象
Figure BDA00030473110200001010
之间的距离
Figure BDA00030473110200001011
用距离
Figure BDA0003047311020000111
的大小来衡量相似性,距离最小的最相似;
S8.2,出现属性冲突时,先统计该实体属性取值的出现频率,选择出现频率最高的取值作为匹配结果,若频率相同,则从频率相同的属性值中选择一个属性值作为匹配结果。
本发明第三实施方式涉及一种实体对象的动态多属性匹配平台,包括:
至少一个处理器;以及,
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实体对象的动态多属性匹配方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明第四实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为发明的优选实施例而已,并不用以限制本发明,凡在本发明的思想原则内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种实体对象的动态多属性匹配方法,其特征在于包括步骤:
S1,对第一实体对象数据集进行归一化处理;
该步骤中,针对第一实体对象数据集,根据实体属性的类型进行归一化处理,所述实体属性的类型包括整型、浮点数型、布尔型、字符串型、日期型以及枚举型,所述归一化处理的规则具体是:
(1)如果实体属性的类型是枚举类型的数据,那么对第一实体对象数据集中包含该实体属性的实体对象进行一致性检查和校正处理;
(2)如果实体属性的类型是整型、浮点数型、布尔型、字符串型或日期型的数据,那么对第一实体对象数据集中包含该实体属性的实体对象进行剔除无效值和缺失值补全处理;
(3)对实体对象数据集中的实体属性打上标记,根据该标记查询就能找到该实体属性对应的预先设定的相似度计算函数S(a,b),k,其中,S(a,b),k表示实体对象a与实体对象b在第k个实体属性上的相似度;
S2,计算第一实体对象数据集中每个实体属性的信息熵,包括:
S2.1,估计第一实体对象数据集中实体属性指标的发生概率,其中,所述实体属性指标是实体属性的取值或取值区间,若在第一实体对象数据集中,实体属性指标为离散型变量时,第j个实体属性的第i个指标的发生概率pij是相应取值的发生概率;若在第一实体对象数据集中,实体属性为连续型变量时,将连续性变量离散化为多个取值区间,用相应的概率密度函数计算该取值区间的发生概率,第j个实体属性的第i个指标的发生概率pij是相应取值区间的发生概率;
S2.2计算第一实体对象数据集每个实体属性的信息熵,第一实体对象数据集中第j个实体属性的信息熵Hj计算公式为
Figure FDA0003047311010000011
其中,n为第一实体对象数据集第j个实体属性的实体属性指标个数;
S3,选择第一实体对象数据集进行实体对象匹配所需的实体属性和实体属性组合;
S3.1,若某个实体属性中的每个指标能够作为键值区分各个实体,即每条记录都不重复,Hj=1,则可使用该实体属性直接进行匹配,那么将该实体属性作为只有一个实体属性的备选实体属性组合方案加入备选实体属性方案库;
S3.2,若实体属性的相对信息熵Hj<1,则选取多个实体属性进行组合,将实体属性组合的每条实体信息作为离散信息,即将实体属性组合的指标作为离散信息,第j个实体属性组合的第i个指标的发生概率p组ij是相应地在第一实体对象数据集中实体属性组合取值和/或取值范围的发生概率,第一实体对象数据集中第j个实体属性组合的信息熵H组j计算公式为
Figure FDA0003047311010000021
其中,n为第一实体对象数据集第j个实体属性组合的实体属性指标个数;
遍历第一实体对象数据集中的实体属性组合进行计算和删选,当实体属性组合中的每条记录都是唯一记录,即H组j=1时,将该实体属性组合作为备选实体属性组合方案加入备选实体属性方案库;
S3.3,按照实体属性数量的多少对备选实体属性方案库中备选实体属性组合方案进行排序,备选实体属性组合方案按照实体属性从少到多的顺序优先级逐渐降低;
S4,针对第一实体对象数据集每个备选实体属性组合方案,计算其中的每个属性的权重值,权重值
Figure FDA0003047311010000022
其中,Hk和Hj分别为备选实体属性组合方案中第k个和第j个实体属性的信息熵,m表示备选实体属性组合中实体属性的数量,当m=1时,Wk=1;
S5,为提高数据遍历效率,对第一实体对象数据集进行分区索引,分区索引方法依据备选实体属性组合方案进行选择,设置阈值τ,只针对备选实体组合方案中的实体属性数量最少的前τ种实体属性组合方案进行分区索引;分区索引的步骤如下:
S5.1若被索引的备选实体属性组合方案的实体属性数量等于1,直接采用Hash索引方法进行分区索引;
S5.2若被索引的备选实体属性组合方案中的实体属性数量大于1,则
(a)当被索引的备选实体属性组合方案中的实体属性全是整型或浮点型时,采用K-Mean聚类索引方法进行分区索引;
(b)当被索引的备选实体属性组合方案中的实体属性全部为字符串类型时,采用分区倒排索引方法进行分区索引;
(c)当被索引的备选实体属性组合方案中的实体属性中有枚举型、日期型或者布尔型时,采用列表分区索引法,利用实体属性自身的离散信息进行分区索引;
(d)除a、b、c列举的情况外,对备选实体数据组合方案采用Hash索引方法进行分区索引;
每个备选实体属性组合方案进行分区索引后,实体对象数据集将被分成对多个子集,每个子集的规模基本相等,记采用某个备案属性组合方案时实体对象数据集Y分区索引后的子集为Y1,Y2,……,YN,共N个;
S6,遍历第一实体对象数据集的实体属性数量大于1的备选实体属性组合方案,采用基于三角不等式加速方法分别对与备选实体属性组合方案对应的分区索引结果进行优化;每个实体属性组合方案对应的分区索引优化的步骤包括:
S6.1,对依据备选实体属性组合方案分区索引后得到的实体对象数据集子集Yi,i=1,2,…,N,采用该备选实体属性组合方案中的实体属性,计算中每个实体对象与其最相似的实体对象距离,用
Figure FDA0003047311010000031
表示待匹配实体对象数据集子集Yi中实体对象
Figure FDA0003047311010000032
的最相似的实体对象为
Figure FDA0003047311010000033
之间的最短距离,那么
Figure FDA0003047311010000034
其中,
Figure FDA0003047311010000035
实体属性的相似性计算函数S(a,b),k由所述步骤S1对实体属性打的标记查询得到,权重Wk由步骤S4确定;
S6.2保存第一实体对象数据集每个实体对象的距离
Figure FDA0003047311010000036
表示了第一实体对象数据集的子集Yi中实体对象
Figure FDA0003047311010000037
的最相似的实体对象为
Figure FDA0003047311010000038
S7,遍历第二实体对象数据集X中的每个实体对象Xc,与第一实体对象数据集进行相似度匹配,若Xc匹配到第一实体对象数据集某个子集Yi中实体对象
Figure FDA00030473110100000312
则Xc匹配成功,否则为Xc匹配失败,实体对象Xc的匹配过程如下:
S7.1,选取第二实体对象数据集X中的实体对象Xc
S7.2,选择匹配用实体属性组合方案的步骤,在该步骤中,从所述备选实体属性方案库的前τ种备选实体属性组合方案中,先选择与实体对象Xc的实体属性类型一致且优先级最高的实体属性组合方案;然后判断,采用该实体属性组合方案,实体对象Xc的实体属性的取值是否出现无效值或者空值,如果为否,则选定该实体属性组合方案进行步骤S7.2,如是,则从备选实体属性方案库的前τ种备选实体属性组合方案中,按优先级顺序选择与实体对象Xc的实体属性类型一致的、下一级备选实体属性组合方案,再次判断Xc的实体属性的取值是否出现无效值或者空值,如是,则选定实体属性组合方案后进行步骤S7.2,如否,进行下一轮备选实体属性组合方案的选择;若从备选实体属性方案库的前τ种备选实体属性组合方案中没有选定的实体属性组合方案,停止该实体对象Xc的匹配;
S7.3,选定实体属性组合方案后,若实体属性组合中实体属性数量等于1,则直接通过该实体属性作为实体对象Xc的键值完成匹配;否则进入步骤S7.4;
S7.4,遍历与选定实体属性组合方案对应的实体对象数据集的每个子集Yi,计算实体对象Xc与分区索引后的实体对象数据集子集Yi中实体对象
Figure FDA0003047311010000039
的距离
Figure FDA00030473110100000310
并进行比较,距离
Figure FDA00030473110100000311
采用步骤S6.1中相同计算公式,如果
Figure FDA0003047311010000041
则将相应的
Figure FDA0003047311010000042
作为实体对象Xc的匹配实体对象,Xc∈X,停止匹配;否则继续遍历进行匹配;
S7.6,如果遍历后无匹配选项,选择与
Figure FDA0003047311010000043
最小值对应的
Figure FDA0003047311010000044
作为实体对象Xc的匹配实体对象。
2.如权利要求1所述的实体对象的动态多属性匹配方法,其特征在于还包括步骤:
S8,当匹配结果出现冲突时,进行冲突消解处理;所述冲突的类型包括实体冲突与属性冲突,实体冲突是指出现多个匹配实体对象,属性冲突,表现为匹配成功的实体对象,同一实体属性出现不同取值;
S8.1,出现实体冲突时,匹配成功的多个实体对象按照匹配过程中得到的距离进行降序排列,并选取距离最小的匹配对象作为匹配结果;
S8.2,出现属性冲突时,先统计该实体属性取值的出现频率,选择出现频率最高的取值作为匹配结果,若频率相同,则从频率相同的属性值中选择一个属性值作为匹配结果。
3.如权利要求1所述的实体对象的动态多属性匹配方法,其特征在于步骤S2.1中,实体属性为连续型变量时,利用等宽法将连续型变量离散化为宽度相等的多个取值区间,取每个取值区间的中值作为该实体属性的指标,并利用连续性变量的概率密度函数计算该取值区间内的发生概率,作为该取值区间实体属性指标的发生概率,第j个实体属性的第i个指标的发生概率pij是相应取值区间的发生概率。
4.如权利要求1所述的实体对象的动态多属性匹配方法,其特征在于步骤S1中,打标记的方式是给实体属性的名称加上前缀或者后缀。
5.如权利要求4所述的实体对象的动态多属性匹配方法,其特征在于,步骤S1中,如果实体属性类型为姓名、年龄、籍贯、学校、专业或距离时,前缀或后缀分别加上“name”、“age”、“native”、“school”、“major”、“distance”的标记,根据这些标记通过查询下表就能找到相应的相似度计算函数,
Figure FDA0003047311010000045
Figure FDA0003047311010000051
6.如权利要求1所述的实体对象的动态多属性匹配方法,其特征在于步骤S6.2中用Hash表保存第一实体对象数据集每个实体对象的距离
Figure FDA0003047311010000052
7.如权利要求1所述的实体对象的动态多属性匹配方法,其特征在于第一实体对象数据集为两个或两个以上,第二实体对象数据集与两个或两个以上第一实体对象数据集进行匹配。
8.一种实体对象的动态多属性匹配平台,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的实体对象的动态多属性匹配方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的实体对象的动态多属性匹配方法。
CN202110475662.4A 2021-04-29 2021-04-29 一种实体对象的动态多属性匹配方法 Active CN113297213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110475662.4A CN113297213B (zh) 2021-04-29 2021-04-29 一种实体对象的动态多属性匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110475662.4A CN113297213B (zh) 2021-04-29 2021-04-29 一种实体对象的动态多属性匹配方法

Publications (2)

Publication Number Publication Date
CN113297213A true CN113297213A (zh) 2021-08-24
CN113297213B CN113297213B (zh) 2023-09-12

Family

ID=77320528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110475662.4A Active CN113297213B (zh) 2021-04-29 2021-04-29 一种实体对象的动态多属性匹配方法

Country Status (1)

Country Link
CN (1) CN113297213B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050055363A1 (en) * 2000-10-06 2005-03-10 Mather Andrew Harvey System for storing and retrieving data
CN104537029A (zh) * 2014-12-19 2015-04-22 百度在线网络技术(北京)有限公司 查询处理方法及装置
CN105426434A (zh) * 2015-11-04 2016-03-23 北京航天金盾科技有限公司 基于多维度的人口信息统计分析系统
CN109359172A (zh) * 2018-08-02 2019-02-19 浙江大学 一种基于图划分的实体对齐优化方法
CN109739939A (zh) * 2018-12-29 2019-05-10 颖投信息科技(上海)有限公司 知识图谱的数据融合方法和装置
US20190156212A1 (en) * 2017-11-21 2019-05-23 Microsoft Technology Licensing, Llc Entity linking via disambiguation using machine learning techniques
CN110162591A (zh) * 2019-05-22 2019-08-23 南京邮电大学 一种面向数字教育资源的实体对齐方法及系统
CN110457486A (zh) * 2019-07-05 2019-11-15 中国人民解放军战略支援部队信息工程大学 基于知识图谱的人物实体对齐方法及装置
CN110569504A (zh) * 2019-09-04 2019-12-13 北京明略软件系统有限公司 一种关系词确定方法及装置
CN110909116A (zh) * 2019-11-28 2020-03-24 中国人民解放军军事科学院军事科学信息研究中心 一种面向社交媒体的实体集合扩展方法及系统
US10959090B1 (en) * 2004-08-25 2021-03-23 Richard Paiz Personal search results

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050055363A1 (en) * 2000-10-06 2005-03-10 Mather Andrew Harvey System for storing and retrieving data
US10959090B1 (en) * 2004-08-25 2021-03-23 Richard Paiz Personal search results
CN104537029A (zh) * 2014-12-19 2015-04-22 百度在线网络技术(北京)有限公司 查询处理方法及装置
CN105426434A (zh) * 2015-11-04 2016-03-23 北京航天金盾科技有限公司 基于多维度的人口信息统计分析系统
US20190156212A1 (en) * 2017-11-21 2019-05-23 Microsoft Technology Licensing, Llc Entity linking via disambiguation using machine learning techniques
CN109359172A (zh) * 2018-08-02 2019-02-19 浙江大学 一种基于图划分的实体对齐优化方法
CN109739939A (zh) * 2018-12-29 2019-05-10 颖投信息科技(上海)有限公司 知识图谱的数据融合方法和装置
CN110162591A (zh) * 2019-05-22 2019-08-23 南京邮电大学 一种面向数字教育资源的实体对齐方法及系统
CN110457486A (zh) * 2019-07-05 2019-11-15 中国人民解放军战略支援部队信息工程大学 基于知识图谱的人物实体对齐方法及装置
CN110569504A (zh) * 2019-09-04 2019-12-13 北京明略软件系统有限公司 一种关系词确定方法及装置
CN110909116A (zh) * 2019-11-28 2020-03-24 中国人民解放军军事科学院军事科学信息研究中心 一种面向社交媒体的实体集合扩展方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BAO-HUA QIANG等: "Identifying Corresponding Entities Based on Attribute Entropy in Heterogeneous Databases", 《2008 4TH INTERNATIONAL CONFERENCE ON WIRELESS COMMUNICATIONS, NETWORKING AND MOBILE COMPUTING》, pages 1 - 4 *
邹银凤: "知识图谱构建中的多数据源实体匹配研究", 《中国优秀硕士学位论文全文数据库经济与管理科学辑》, no. 1, pages 157 - 946 *

Also Published As

Publication number Publication date
CN113297213B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
Zhang et al. Multi-view knowledge graph embedding for entity alignment
Qin et al. Hello neighbor: Accurate object retrieval with k-reciprocal nearest neighbors
US20150142829A1 (en) System, apparatus, program and method for data aggregatione
WO2021139262A1 (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN109271486B (zh) 一种相似性保留跨模态哈希检索方法
US20100257440A1 (en) High precision web extraction using site knowledge
CN111159359B (zh) 文档检索方法、装置及计算机可读存储介质
CN111897975A (zh) 一种面向知识图谱表示学习训练的局部训练方法
KR100903961B1 (ko) 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
CN110019474B (zh) 异构数据库中的同义数据自动关联方法、装置及电子设备
WO2021189920A1 (zh) 医疗文献簇的主题确定方法、装置、电子设备及存储介质
CN102063489B (zh) 基于隐含分类信息的模式匹配方法
Song et al. Brepartition: Optimized high-dimensional knn search with bregman distances
CN117520485B (zh) 基于知识图谱集成的大语言模型向量检索方法
CN113297213B (zh) 一种实体对象的动态多属性匹配方法
CN110362813B (zh) 基于bm25的搜索相关性度量方法、存储介质、设备及系统
CN114511027B (zh) 通过大数据网络进行英语远程数据提取方法
CN110019829B (zh) 数据属性确定方法、装置
CN111046662A (zh) 分词模型的训练方法、装置、系统和存储介质
CN111241275B (zh) 一种短文本相似度评估方法和装置以及设备
CN112733939A (zh) 相似度特征向量的构建方法、装置、电子设备及存储介质
CN111984812A (zh) 一种特征提取模型生成方法、图像检索方法、装置及设备
Luo et al. Deep unsupervised hashing by distilled smooth guidance
Ajeissh et al. An adaptive distributed approach of a self organizing map model for document clustering using ring topology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant