CN107480130B - 基于web信息的关系数据的属性值同一性判定方法 - Google Patents

基于web信息的关系数据的属性值同一性判定方法 Download PDF

Info

Publication number
CN107480130B
CN107480130B CN201710608887.6A CN201710608887A CN107480130B CN 107480130 B CN107480130 B CN 107480130B CN 201710608887 A CN201710608887 A CN 201710608887A CN 107480130 B CN107480130 B CN 107480130B
Authority
CN
China
Prior art keywords
query
entities
entity
extracting
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710608887.6A
Other languages
English (en)
Other versions
CN107480130A (zh
Inventor
刘海龙
成阿茹
李战怀
张陶然
张国荣
刘文洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201710608887.6A priority Critical patent/CN107480130B/zh
Publication of CN107480130A publication Critical patent/CN107480130A/zh
Application granted granted Critical
Publication of CN107480130B publication Critical patent/CN107480130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于WEB信息的关系数据的属性值同一性判定方法,用于解决现有属性值同一性判定方法准确率差的技术问题。技术方案是采用查询算法产生查询关键字,利用WEB对数据库中的信息进行扩展,利用自然语言处理方法和命名实体识别方法提取相关的实体;使用FPTree算法在检索的片段中提取出频繁项目集,并把其当做图的节点;通过共现和语义关系两种方法提取实体键间的关系并构建边;使用Durand‑Pasari算法从构建的实体关系图中提取包含待判定属性的最大公共子图;使用Durand‑Pasari提取最大公共子图的公共模式;根据关系模式匹配的结果判定属性值的相似度,提高了属性值同一性判定方法的准确率。

Description

基于WEB信息的关系数据的属性值同一性判定方法
技术领域
本发明涉及一种属性值同一性判定方法,特别涉及一种基于WEB信息的关系数据的属性值同一性判定方法。
背景技术
实体同一性判定又称重复实体检测或记录匹配,是改善数据质量的一种重要技术。属性值的同一性判定是关系数据实体同一性判定的重要基础。
文献“《计算机学报》2015年第38卷第10期:2028-2040页”中使用了一种仅依靠属性特征进行同一性判定的方法,首先对属性同一性判定问题进行形式化描述,属性特征分为直观特征和对比特征两类,对属性特征的概率分布进行量化分析,以判定属性同一性。但在实际属性同一性判定中仅根据单一属性的特征不能准确的判定属性的同一性。
发明内容
为了克服现有属性值同一性判定方法准确率差的不足,本发明提供一种基于WEB信息的关系数据的属性值同一性判定方法。该方法采用基于规则的查询算法和基于遗传的查询算法产生查询关键字,利用WEB对数据库中的信息进行扩展,利用现有的 NLP自然语言处理方法和命名实体识别方法提取相关的实体;使用FPTree算法在检索的片段中提取出频繁项目集,并把其当做图的节点;通过共现和语义关系两种方法提取实体键间的关系并构建边;使用Durand-Pasari算法从构建的实体关系图中提取包含待判定属性的最大公共子图,要求节点类型相同和节点值相同;使用Durand-Pasari提取最大公共子图的公共模式只要求节点类型相同;根据关系模式匹配的结果判定属性值的相似度,可以提高属性值同一性判定方法的准确率。
本发明解决其技术问题所采用的技术方案:一种基于WEB信息的关系数据的属性值同一性判定方法,其特点是包括以下步骤:
步骤一、利用WEB搜索引擎获取WEB信息对实体进行扩展,采用两种算法生成有效的查询关键字。一种是基于规则的查询算法,函数依赖规则fd:X→Y,即属性集合 X唯一决定属性集合Y。使用属性集合X中的属性值作为查询关键字,通过搜索引擎检索相关的信息。在一张关系表中,存在多条函数依赖规则,同时也将得到多组查询关键字。选择出FITNESS值最高的查询关键字作为最终的查询关键字。另一种是基于遗传的查询算法,首先设定阈值FT,在所选择元组中随机的将每一个属性值设置为0或1,产生固定数量的随机组合P,其中1表示被选择为查询关键字,0表示不被选择为查询关键字。通过这种方法得到多组查询关键字,并且计算每一组查询关键字的FITNESS值,从中挑选出FITNESS值最大的查询关键字。如果最大的FITNESS没有超过FT,执行选择操作产生一个新的Pnew,在选择操作过程中使用轮盘赌策略,FITNESS值越大被选择的可能性越大。选择查询关键字I的可能性表示为
Figure GDA0002527836150000021
在交叉阶段,使用统一交叉策略并且在Pnew中随机交叉两个随机组合。在突变阶段随机逆转随机组合中的一位。当FITNESS的最大值超过阈值,则算法结束。FITNESS值最高的查询关键字作为最终的查询关键字。使用FITNESS定义查询关键字的有效性:
FITNESS(QP(Am))=α×SUPPORT+(1-α)×CONFIDENCE (1)
式中,QP(Am)表示查询关键字,α和(1-α)表示SUPPORT和CONFIDENCE的系数,SUPPORT表示支持查询模型的元组的比率,n表示通过查询模式检索出目标值的元组数量,N表示总的查询元组的数量。
Figure GDA0002527836150000022
CONFIDENCE指检索的结果片段中包含目标值的平均比率,ni表示检索结果中包含元组i的目标值的片段数量,Ns表示检索结果中片段返回的数量。
Figure GDA0002527836150000023
步骤二、利用现有的自然语言处理方法和命名实体识别方法收集相关的实体,收集的实体分为三类:
Context Entities(CE):和查询关键字相关的实体。
TargetEntities(TE):和目标属性同一类的实体。
Intermediate Entities(iE):既不是查询关键字也不同于目标实体。
步骤三、构建实体关系图,利用实体关系图描述实体之间的关系。节点的构建:使用FPTree算法检索的片段中挑选出频繁项目集,并当做图的节点。实体关系的提取:考虑两种实体关系。共现,两个实体多次共同出现在同一检索片段中,这两个实体相关;语义关系,两个实体的上下文中存在“is the member of”“belongs to”语义关系,两个实体之间彼此相关。边的构建:通过提取实体间关系构建边,两个实体多次共现或在两个实体之间存在语义关系,构建边连接两个实体。
步骤四、人工选取n组元组作为训练样例,要求每一组元组待判定属性值含义相同但是表示形式不同,然后根据训练样例提取决定待判定目标属性值的公共的子图。按照步骤一、二、三为n组元组的每一个元组构建实体关系图,n组构建的实体关系图表示为:G11,G12,...,G1j;G21,G22,...,G2m;...;Gn1,Gn2,...,Gnl。其中,j表示第一组中有j个元组, m表示第二组元组中有m个元组,l表示第n组中有l个元组。使用Durand-Pasari算法从构建的实体关系图提取包含待判定属性的最大公共子图。提取公共子图时,要求节点类型相同、节点值相同。提取的最大公共子图表示为:G1,G2,...,Gn
步骤五、从步骤四中提取的n最大公共子图G1,G2,...,Gn提取公共模式,实体关系模式提取的目的是提取决定目标属性值的实体及其关系。使用Durand-Pasari算法提取最大公共子图的最大公共子图模式G,只要求节点类型相同。
步骤六、属性值同一性的判定:根据关系模式匹配的结果判定属性值的相似度。假设需判定t1,t2的某一个属性的值是否同一。按照步骤一、二、三为待判定的两个元组构建实体关系图P1、P2。根据步骤四提取实体关系图P1、P2的最大公共子图P,要求节点类型相同、节点值相同。计算P与步骤五得到的最大公共子图模式G的相似度,根据相似度的值判定t1,t2的某一个属性的值是否同一。
本发明的有益效果是:该方法采用基于规则的查询算法和基于遗传的查询算法产生查询关键字,利用WEB对数据库中的信息进行扩展,利用现有的NLP自然语言处理方法和命名实体识别方法提取相关的实体;使用FPTree算法在检索的片段中提取出频繁项目集,并把其当做图的节点;通过共现和语义关系两种方法提取实体键间的关系并构建边;使用Durand-Pasari算法从构建的实体关系图中提取包含待判定属性的最大公共子图,要求节点类型相同和节点值相同;使用Durand-Pasari提取最大公共子图的公共模式只要求节点类型相同;根据关系模式匹配的结果判定属性值的相似度,提高了属性值同一性判定方法的准确率。
下面结合附图和具体实施方式对本发明作详细说明。
附图说明
图1是本发明方法中的标识说明图。
图2是本发明方法实施例表1中元组1构建的实体关系图。
图3是本发明方法实施例表1中元组2构建的实体关系图。
图4是本发明方法实施例表1中元组3构建的实体关系图。
图5是本发明方法实施例表1中元组4构建的实体关系图。
图6是图2和图3的最大公共子图。
图7是图4和图5的最大公共子图。
图8是本发明方法的实体关系图的公共模式。
图9是本发明方法实施例表1中元组5构建的实体关系图。
图10是本发明方法实施例表1中元组6构建的实体关系图。
图11是图9和图10的最大公共子图。
具体实施方式
参照图1-11。本发明基于WEB信息的关系数据的属性值同一性判定方法具体步骤如下:
步骤一、提取查询关键字。
以关系表1为例,元组1、元组2、元组3和元组4根据基于规则的算法和基于遗传的算法分别得到FITNESS最高的查询关键字:论文标题和会议时间。通过查询关键字在 WEB中检索,得到扩展后的查询片段。
关系表1
Figure GDA0002527836150000051
利用WEB搜索引擎获取WEB信息对实体进行扩展,采用两种算法生成有效的查询关键字。基于规则的查询算法,函数依赖规则fd:X→Y意思是属性集合X唯一决定属性集合Y。使用属性集合X中的属性值作为查询关键字通过搜索引擎检索相关的信息。在一张关系表中,存在多条函数依赖规则,同时也将得到多组查询关键字。选择出 FITNESS值最高的查询关键字作为最终的查询关键字。基于遗传的查询算法,遗传算法主要包括四步:遗传、突变、选择、交叉。首先设定阈值FT,在所选择元组中随机的将每一个属性值设置为0或1,产生固定数量的随机组合P,其中1表示被选择为查询关键字,0表示不被选择为查询关键字。通过这种方法得到多组查询关键字,并且计算每一组查询关键字的FITNESS值,从中挑选出FITNESS值最大的查询关键字。如果最大的FITNESS没有超过FT,执行选择操作产生一个新的Pnew,在选择操作过程中使用轮盘赌策略,FITNESS值越大被选择的可能性越大。选择查询关键字I的可能性表示为
Figure GDA0002527836150000052
在交叉阶段,使用统一交叉策略并且在Pnew中随机交叉两个随机组合。在突变阶段随机逆转随机组合中的一位。当FITNESS的最大值超过阈值,则算法结束。FITNESS值最高的查询关键字作为最终的查询关键字。使用FITNESS定义查询关键字的有效性:
FITNESS(QP(Am))=α×SUPPORT+(1-α)×CONFIDENCE (1)
式中,QP(Am)表示查询关键字,α和(1-α)表示SUPPORT和CONFIDENCE的系数,SUPPORT表示支持查询模型的元组的比率,n表示通过查询模式检索出目标值的元组数量,N表示总的查询元组的数量。
Figure GDA0002527836150000061
CONFIDENCE指检索的结果片段中包含目标值的平均比率,ni表示检索结果中包含元组i的目标值的片段数量,Ns表示检索结果中片段返回的数量。
Figure GDA0002527836150000062
步骤二、从检索结果中抽取实体。
对扩展后的查询片段进行实体抽取,利用现有的NLP等自然语言处理技术和命名实体识别技术收集相关的实体。对元组1进行扩展后,抽取到的实体有:论文标题、作者、会议所在城市、会议所在学校、会议主席、会议时间、论文第二作者、会议名称等。对元组2进行扩展后,抽取到的实体有:论文标题、作者、会议所在城市、会议所在学校、会议主席、会议时间、论文第二作者、论文第三作者、会议名称等。对元组3 进行扩展后,抽取到的实体有:论文标题、作者、会议所在城市、会议所在学校、会议主席、程序主席、会议时间、论文第二作者、会议名称等。对元组4进行扩展后,抽取到的实体有:论文标题、作者、会议所在城市、会议所在学校、会议主席、会议时间、论文第二作者、会议名称、赞助商等。
利用现有的NLP等自然语言处理技术和命名实体识别技术收集相关的实体。这些技术可以帮助提取154种实体,收集的实体分为三类:
Context Entities(CE):和查询关键字相关的实体。
TargetEntities(TE):和目标属性同一类的实体。
Intermediate Entities(iE):既不是查询关键字也不同于目标实体。
步骤三、构建实体关系图。
分别对抽取出的每一组实体构建实体关系图,节点的构建:使用FPTree算法检索的片段中挑选出频繁项目集,并当做图的节点。实体关系的提取:主要考虑两种实体关系。共现,两个实体多次共同出现在同一检索片段中,这两个实体相关;语义关系,两个实体的上下文中存在“is the member of”“belongs to”等语义关系,两个实体之间彼此相关。边的构建:通过提取实体间关系构建边,两个实体多次共现或在两个实体之间存在语义关系,构建边连接两个实体。构建得到的实体关系图如图2、图3、图4、图 5所示。
利用实体关系图描述实体之间的关系。节点的构建:使用FPTree算法检索的片段中挑选出频繁项目集,并当做图的节点。实体关系的提取:主要考虑两种实体关系。共现,两个实体多次共同出现在同一检索片段中,这两个实体相关;语义关系,两个实体的上下文中存在“is the member of”“belongs to”等语义关系,两个实体之间彼此相关。边的构建:通过提取实体间关系构建边,两个实体多次共现或在两个实体之间存在语义关系,构建边连接两个实体。
步骤四、提取实体关系图的最大公共子图。
选取元组1-4 作为训练样例,使用Durand-Pasari算法从构建的实体关系图:图2、图3、图4、图5中提取包含待判定属性的最大公共子图。提取公共子图时,要求节点类型相同、节点值相同。提取得到的最大公共子图如图6、图7所示。
人工选取n组元组作为训练样例,要求每一组元组待判定属性值含义相同但是表示形式不同,然后根据训练样例提取决定待判定目标属性值的公共的子图。按照步骤一、二、三为n组元组的每一个元组构建实体关系图,n组构建的实体关系图表示为: G11,G12,...,G1j;G21,G22,...,G2m;...;Gn1,Gn2,...,Gnl其中j表示第一组中有j个元组,m表示第二组元组中有m个元组,l表示第n组中有l个元组。使用Durand-Pasari算法从构建的实体关系图提取包含待判定属性的最大公共子图。提取公共子图时,要求节点类型相同、节点值相同。提取的最大公共子图表示为:G1,G2,...,Gn
步骤五、提取最大公共子图模式。
从步骤四中提取的最大公共子图(图6、图7)这提取公共模式,使用Durand-Pasari算法提取最大公共子图的最大公共子图模式,只要求节点类型相同,如图8所示。
具体的,从步骤四中提取的n最大公共子图G1,G2,...,Gn提取公共模式,实体关系模式提取的目的是提取决定目标属性值的实体及其关系。使用Durand-Pasari算法提取最大公共子图的最大公共子图模式G,只要求节点类型相同。
步骤六、属性值同一性的判定。
根据关系模式匹配的结果判定属性值的相似度。假设需判定元组5、元组6的会议名称属性的值是否同一。按照步骤一、二、三为待判定的元组5、元组6构建实体关系图(图9、图10)。根据步骤四提取实体关系图(图9、图10)的最大公共子图(图11),要求节点类型相同、节点值相同。计算最大公共子图(图11)与步骤5中得到的最大公共子图模式(图8 )的相似度,判定元组5、元组6的会议名称属性的值同一性。
具体的,根据关系模式匹配的结果判定属性值的相似度。假设需判定t1,t2的某一个属性的值是否同一。按照步骤一、二、三为待判定的两个元组构建实体关系图P1、P2。根据步骤四提取实体关系图P1、P2的最大公共子图P,要求节点类型相同、节点值相同。计算P与步骤五得到的最大公共子图模式G的相似度,根据SIM(G,P)的值来判定t1,t2的某一个属性的值是否同一。
Figure GDA0002527836150000081
Figure GDA0002527836150000082
式中NDis用于计算节点相似性。
Figure GDA0002527836150000083
EDis用于计算边的相似性。

Claims (1)

1.一种基于WEB信息的关系数据的属性值同一性判定方法,其特征在于包括以下步骤:
步骤一、利用WEB搜索引擎获取WEB信息对实体进行扩展,采用两种算法生成有效的查询关键字;一种是基于规则的查询算法,函数依赖规则fd:X→Y,即属性集合X唯一决定属性集合Y;使用属性集合X中的属性值作为查询关键字,通过搜索引擎检索相关的信息;在一张关系表中,存在多条函数依赖规则,同时也将得到多组查询关键字;选择出FITNESS值最高的查询关键字作为最终的查询关键字;另一种是基于遗传的查询算法,首先设定阈值FT,在所选择元组中随机的将每一个属性值设置为0或1,产生固定数量的随机组合P,其中1表示被选择为查询关键字,0表示不被选择为查询关键字;通过这种方法得到多组查询关键字,并且计算每一组查询关键字的FITNESS值,从中挑选出FITNESS值最大的查询关键字;如果最大的FITNESS没有超过FT,执行选择操作产生一个新的Pnew,在选择操作过程中使用轮盘赌策略,FITNESS值越大被选择的可能性越大;选择查询关键字I的可能性表示为
Figure FDA0002527836140000011
在交叉阶段,使用统一交叉策略并且在Pnew中随机交叉两个随机组合;在突变阶段随机逆转随机组合中的一位;当FITNESS的最大值超过阈值,则算法结束;FITNESS值最高的查询关键字作为最终的查询关键字;使用FITNESS定义查询关键字的有效性:
FITNESS(QP(Am))=α×SUPPORT+(1-α)×CONFIDENCE (1)
式中,QP(Am)表示查询关键字,α和(1-α)表示SUPPORT和CONFIDENCE的系数,SUPPORT表示支持查询模式的元组的比率,n表示通过查询模式检索出目标值的元组数量,N表示总的查询元组的数量;
Figure FDA0002527836140000012
CONFIDENCE指检索的结果片段中包含目标值的平均比率,ni表示检索结果中包含元组i的目标值的片段数量,Ns表示检索结果中片段返回的数量;
Figure FDA0002527836140000013
步骤二、利用现有的自然语言处理方法和命名实体识别方法收集相关的实体,收集的实体分为三类:
Context Entities(CE):和查询关键字相关的实体;
TargetEntities(TE):和目标属性同一类的实体;
Intermediate Entities(iE):既不是查询关键字也不同于目标实体;
步骤三、构建实体关系图,利用实体关系图描述实体之间的关系;节点的构建:使用FPTree算法检索的片段中挑选出频繁项目集,并当做图的节点;实体关系的提取:考虑两种实体关系;共现,两个实体多次共同出现在同一检索片段中,这两个实体相关;语义关系,两个实体的上下文中存在“is the member of”“belongs to”语义关系,两个实体之间彼此相关;边的构建:通过提取实体间关系构建边,两个实体多次共现或在两个实体之间存在语义关系,构建边连接两个实体;
步骤四、人工选取n组元组作为训练样例,要求每一组元组待判定属性值含义相同但是表示形式不同,然后根据训练样例提取决定待判定目标属性值的公共的子图;按照步骤一、二、三为n组元组的每一个元组构建实体关系图,n组构建的实体关系图表示为:G11,G12,...,G1j;G21,G22,...,G2m;...;Gn1,Gn2,...,Gnl;其中,j表示第一组中有j个元组,m表示第二组元组中有m个元组,l表示第n组中有l个元组;使用Durand-Pasari算法从构建的实体关系图提取包含待判定属性的最大公共子图;提取公共子图时,要求节点类型相同、节点值相同;提取的最大公共子图表示为:G1,G2,...,Gn
步骤五、从步骤四中提取的n最大公共子图G1,G2,...,Gn提取公共模式,实体关系模式提取的目的是提取决定目标属性值的实体及其关系;使用Durand-Pasari算法提取最大公共子图的最大公共子图模式G,只要求节点类型相同;
步骤六、属性值同一性的判定:根据关系模式匹配的结果判定属性值的相似度;假设需判定t1,t2的某一个属性的值是否同一;按照步骤一、二、三为待判定的两个元组构建实体关系图P1、P2;根据步骤四提取实体关系图P1、P2的最大公共子图P,要求节点类型相同、节点值相同;计算P与步骤五得到的最大公共子图模式G的相似度,根据相似度的值判定t1,t2的某一个属性的值是否同一。
CN201710608887.6A 2017-07-25 2017-07-25 基于web信息的关系数据的属性值同一性判定方法 Active CN107480130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710608887.6A CN107480130B (zh) 2017-07-25 2017-07-25 基于web信息的关系数据的属性值同一性判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710608887.6A CN107480130B (zh) 2017-07-25 2017-07-25 基于web信息的关系数据的属性值同一性判定方法

Publications (2)

Publication Number Publication Date
CN107480130A CN107480130A (zh) 2017-12-15
CN107480130B true CN107480130B (zh) 2020-09-08

Family

ID=60596593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710608887.6A Active CN107480130B (zh) 2017-07-25 2017-07-25 基于web信息的关系数据的属性值同一性判定方法

Country Status (1)

Country Link
CN (1) CN107480130B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415900A (zh) * 2018-02-05 2018-08-17 中国科学院信息工程研究所 一种基于多级共现关系词图的可视化文本信息发现方法及系统
US11921789B2 (en) 2019-09-19 2024-03-05 Mcmaster-Carr Supply Company Search engine training apparatus and method and search engine trained using the apparatus and method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335378A (zh) * 2014-06-25 2016-02-17 富士通株式会社 多数据源的信息处理装置、服务器及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335378A (zh) * 2014-06-25 2016-02-17 富士通株式会社 多数据源的信息处理装置、服务器及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Improving Author Coreference by Resource-bounded Information Gathering from the Web;Pallika Kanani 等;《Proceedings of the 20th International Joint Conference on Artificial Intelligence》;20070131;第429-434页 *
基于Web的重复属性自动识别方法;胡嘉琪 等;《计算机工程与应用》;20151231;第51卷(第9期);第125-128页 *
基于可能世界模型的关系数据不一致性的修复;徐耀丽 等;《软件学报》;20160731;第27卷(第7期);第1685-1699页 *
基于用户名特征的用户身份同一性判定方法;刘东 等;《计算机学报》;20151031;第38卷(第10期);第2028-2040页 *

Also Published As

Publication number Publication date
CN107480130A (zh) 2017-12-15

Similar Documents

Publication Publication Date Title
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN104239513B (zh) 一种面向领域数据的语义检索方法
CN105045875B (zh) 个性化信息检索方法及装置
Satuluri et al. Local graph sparsification for scalable clustering
CN106407208B (zh) 一种城市管理本体知识库的构建方法及系统
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN106202211A (zh) 一种基于微博类型的集成微博谣言识别方法
CN103313248B (zh) 一种识别垃圾信息的方法和装置
CN107590128B (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
Papadopoulos et al. Image clustering through community detection on hybrid image similarity graphs
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
Wagh et al. Application of citation network analysis for improved similarity index estimation of legal case documents: A study
CN112836029A (zh) 一种基于图的文档检索方法、系统及其相关组件
CN107480130B (zh) 基于web信息的关系数据的属性值同一性判定方法
CN107133274B (zh) 一种基于图知识库的分布式信息检索集合选择方法
CN115438274A (zh) 基于异质图卷积网络的虚假新闻识别方法
An et al. A heuristic approach on metadata recommendation for search engine optimization
Reuther Personal name matching: New test collections and a social network based approach
Holub et al. Detecting identical entities in the semantic web data
Nguyen et al. Learning approach for domain-independent linked data instance matching
CN105550226B (zh) 一种基于知识库的查询分面生成方法
Asadi et al. Pattern-based extraction of addresses from web page content
CN112749246B (zh) 搜索短语的评估方法、装置、服务器及存储介质
CN114722304A (zh) 异质信息网络上基于主题的社区搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant