CN107766567A - 网络表的实体扩展方法 - Google Patents

网络表的实体扩展方法 Download PDF

Info

Publication number
CN107766567A
CN107766567A CN201711090347.XA CN201711090347A CN107766567A CN 107766567 A CN107766567 A CN 107766567A CN 201711090347 A CN201711090347 A CN 201711090347A CN 107766567 A CN107766567 A CN 107766567A
Authority
CN
China
Prior art keywords
seed
entity
tables
consistency
mrow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711090347.XA
Other languages
English (en)
Other versions
CN107766567B (zh
Inventor
王宁
孙伟娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201711090347.XA priority Critical patent/CN107766567B/zh
Publication of CN107766567A publication Critical patent/CN107766567A/zh
Application granted granted Critical
Publication of CN107766567B publication Critical patent/CN107766567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种网络表的实体扩展方法,该方法通过计算网络表与查询表之间的语义匹配值选取种子表组成种子团;选取具有最高表潜能的团表加入种子团,所述团表与种子团的各表之间满足一致性匹配关系,并且用于提高所述种子团的覆盖率,当所述覆盖率达到设定阈值时,所述种子团则视为满足给定覆盖率的一致性团;将所述一致性团的结点视为实体扩展所需的答案表,利用所述答案表构建实体一致性扩展的最终结果表。本发明所述的实体扩展方法在查找答案表时引入了一致性匹配关系的概念,提高了答案表的一致性,能够适应多元查询表的扩展,使得在保证结果一致性的同时,也保证了结果的高精确度与可信度。

Description

网络表的实体扩展方法
技术领域
本发明涉及网页上结构化数据集成的技术领域,尤其涉及一种网络表的实体扩展方法。
背景技术
用户通常想要获取他们感兴趣的信息,可以利用网络上大量的表格作为信息源,通过实体扩展来实现。现有的技术假设网络表格是实体-属性二元关系。对于具有多列待扩展属性的表格,现有的技术先将这些表格拆分为若干个实体-属性二元关系,再将单独扩展的结果聚合成一个完整的答案。这样做的结果是,表格的语义在拆分过程中被分割,由拆分后的二元关系组成的结果表难免存在实体不一致和准确性低的缺点。
Mohamed Yakout等人所提出的InfoGather系统假设网络表格为实体-属性二元关系,认为表格只有一个待扩展的属性列。对于多元的表格,他们将其分裂为若干个实体-属性二元关系,也就是将实体列与任一其他的属性列组成若干个实体-属性的2元关系。采用这种策略的前提是,网络表格中的属性是互不相关的,这种假设显然忽略了属性列之间的联系,从而造成表格语义的分裂,导致实体扩展的准确度低与实体不一致的问题。
网络表格大多为n元表格,利用现有的技术对其进行拆分会破坏表格的语义,导致拼接后的实体与属性之间出现不一致问题。网络表格并不规范,存在列标签缺失等问题,无法根据列标签判断表格间的匹配关系。实体具有二义性,相同名称的实体可能存在不同的语义,仅依靠实体判断表格间的匹配关系会导致匹配表格之间出现语义冲突。
发明内容
针对现有技术的缺点,本发明提供了一种网络表的实体扩展方法,该方法能适用于多元查询表的实体扩展,且保证扩展结果的高一致性和高准确度。
为了实现上述目的,本发明采取了如下技术方案:
本发明提供了一种网络表的实体扩展方法,该方法处理的对象包括查询表和结果表,所述查询表用于实体扩展的输入;所述结果表为实体扩展的输出结果,所述结果表对应一组答案表,所述答案表为所述结果表提供所述查询表所需的属性值;该方法还包括:
通过计算网络表与查询表之间的语义匹配值选取种子表组成种子团;
选取具有最高表潜能的团表加入种子团,所述团表与所述种子团的各表之间满足一致性匹配关系,并且用于提高所述种子团的覆盖率,当所述覆盖率达到设定阈值时,所述种子团则视为满足给定覆盖率的一致性团;
将所述满足给定覆盖率的一致性团的结点视为实体扩展的答案表,利用所述答案表构建实体一致性扩展的最终结果表。
优选的,所述的通过计算网络表与查询表之间的语义匹配值包括:计算网络表与查询表之间的语义相关度SRD(Q,tj)和计算网络表与查询表之间的数值匹配度TMD(Q,tj)。
优选的,所述的计算网络表之间的语义相关度SRD(ti,tj),计算公式为:
其中,ti和tj表示两个网络表,Ei,Ej分别是ti和tj的实体集;C(e)是实体e的概念集。
优选的,所述的计算网络表之间的数值匹配度TMD(ti,tj),计算公式为:
其中,ti和tj表示两个网络表,t.E表示表t的实体集,t.A表示表t的一系列属性名,Ci和Cj分别代表ti和tj的属性列,Ci≈Cj表示Ci和Cj是满足列映射阈值的映射列。
优选的,所述语义匹配值的计算公式为:
SMS(Q,t)=φ(SRD(Q,t),θ)*φ(TMD(Q,t),0)
其中,当SRD(Q,t)>θ时,φ(SRD(Q,t),θ)=SRD(Q,t),否则φ(SRD(Q,t),θ)=-∞,同时,Q表示查询表,t表示网络表,SRD(Q,t)表示查询表Q与网络表t之间的语义相关度,TMD(Q,t)表示查询表Q与网络表t之间的数值匹配度,当SRD(Q,t)<θ时,则查询表与网络表是语义无关的。
优选的,所述具有最高表潜能的团表在与查询表具有一致性匹配关系的同时,又与所述种子团中的每个表均有一致性匹配关系。
优选的,所述的选取具有最高表潜能的团表加入种子团,获取步骤包括:
(1)计算候选网络表对所述种子团的覆盖补足率SC(t,U,Q),计算公式为:
SC(t,U,Q)=cov(U{t},Q)-cov(U,Q)
其中,U表示种子团,t表示候选网络表,Q表示查询表,RT是团U中所有结点组成的答案表所对应的结果表,#augCells(RT)和#Cells(Q)分别代表结果表RT所扩展的单元格的数目和查询表Q中所需扩展的单元格的数目;
(2)计算候选网络表的结点潜能计算公式为:
其中,U表示种子团,SC(t,U,Q)为候选网络表对U的覆盖补足率,t表示候选网络表,Q表示查询表;
(3)计算候选网络表与所述种子团中各表的边潜能计算公式为:
其中,TMD(ti,tj)表示候选网络表ti与种子团中各表之间的数值匹配度,SRD(ti,tj)表示候选网络表ti与种子团中各表之间的语义相关度;
(4)计算所述候选网络表的结点潜能以及所述候选网络表和种子团中各表的边潜能,将所有所述的结点潜能和所述的边潜能之和视为候选网络表的表潜能计算公式为:
其中,表示候选网络表的结点潜能,表示候选网络表与所述种子团中各表的边潜能;
(5)计算所有候选网络表的表潜能,选取表潜能最大的候选网络表作为团表,计算公式为:
其中,为候选网络表ti的表潜能。
优选的,所述的将所述满足给定覆盖率的一致性团的结点视为实体扩展的答案表,包括,
在满足给定覆盖率的一致性团的集合中通过计算选取一个一致性团来获取构建实体一致性扩展的最终结果表,计算公式为:
其中,是所有满足给定覆盖率的一致性团的集合,并且tseed∈U.V,tseed是团U中的种子表,SMS(Q,tseed)是查询表Q与种子表tseed的语义匹配值,是网络表ti的表格潜能,V是团U的所有节点集。
由上述本发明提供的技术方案可以看出,本发明为了确保结果表中实体的一致性,提出两个网络表之间的一致性匹配关系是由语义相关性和数值匹配度两部分组成的,最终结果的答案表之间也应该具有一致性匹配关系,同时答案表与查询表之间也应具有一致性匹配关系。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的网络表的实体扩展方法的处理流程图;
图2为本发明实施例提供的所述实体扩展方法中获取团表的流程图;
图3为本发明实施例提供的所述实体扩展方法中构建一致性团的流程图;
图4为本发明实施例提供的所述实体扩展方法中构建结果表的流程图;
图5为本发明实施例提供的所述实体扩展方法与现有方法的答案表获取方法对比图;
其中,图5包括:图5(a)覆盖率对比图、图5(b)精确度对比图、图5(c)一致性对比图、图5(d)可信度对比图;
图6为本发明实施例提供的所述实体扩展方法与现有方法的实体扩展结果的对比图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明提供了一种网络表的实体扩展方法,该方法处理的对象包括查询表和结果表,所述查询表用于实体扩展的输入;所述结果表为实体扩展的输出结果,所述结果表对应一组答案表,所述答案表为所述结果表提供所述查询表所需的属性值;该方法还包括:
通过计算网络表与查询表之间的语义匹配值选取种子表组成种子团;
选取具有最高表潜能的团表加入种子团,所述团表与所述种子团的各表之间满足一致性匹配关系,并且用于提高所述种子团的覆盖率,当所述覆盖率达到设定阈值时,所述种子团则视为满足给定覆盖率的一致性团;
将所述满足给定覆盖率的一致性团的结点视为实体扩展的答案表,利用所述答案表构建实体一致性扩展的最终结果表。
在一个具体的实施例中,所述的通过计算网络表与查询表之间的语义匹配值包括:计算网络表与查询表之间的语义相关度SRD(Q,tj)和计算网络表与查询表之间的数值匹配度TMD(Q,tj)。
在一个具体的实施例中,所述的计算网络表之间的语义相关度SRD(ti,tj),计算公式为:
其中,ti和tj表示两个网络表,Ei,Ej分别是ti和tj的实体集;C(e)是实体e的概念集。
在一个具体的实施例中,所述的计算网络表之间的数值匹配度TMD(ti,tj),计算公式为:
其中,ti和tj表示两个网络表,t.E表示表t的实体集,t.A表示表t的一系列属性名,Ci和Cj分别代表ti和tj的属性列,Ci≈Cj表示Ci和Cj是满足列映射阈值的映射列。
在一个具体的实施例中,所述语义匹配值的计算公式为:
SMS(Q,t)=φ(SRD(Q,t),θ)*φ(TMD(Q,t),0)
其中,当SRD(Q,t)>θ时,φ(SRD(Q,t),θ)=SRD(Q,t),否则φ(SRD(Q,t),θ)=-∞,同时,Q表示查询表,t表示网络表,SRD(Q,t)表示查询表Q与网络表t之间的语义相关度,TMD(Q,t)表示查询表Q与网络表t之间的数值匹配度,当SRD(Q,t)<θ时,则查询表与网络表是语义无关的。
在一个具体的实施例中,所述具有最高表潜能的团表在与查询表具有一致性匹配关系的同时,又与所述种子团中的每个表均有一致性匹配关系。
在一个具体的实施例中,所述的选取具有最高表潜能的团表加入种子团,获取步骤包括:
(1)计算候选网络表对所述种子团的覆盖补足率SC(t,U,Q),计算公式为:
SC(t,U,Q)=cov(U{t},Q)-cov(U,Q)
其中,U表示种子团,t表示候选网络表,Q表示查询表,RT是团U中所有结点组成的答案表所对应的结果表,#augCells(RT)和#Cells(Q)分别代表结果表RT所扩展的单元格的数目和查询表Q中所需扩展的单元格的数目;
(2)计算候选网络表的结点潜能计算公式为:
其中,U表示种子团,SC(t,U,Q)为候选网络表对U的覆盖补足率,t表示候选网络表,Q表示查询表;
(3)计算候选网络表与所述种子团中各表的边潜能计算公式为:
其中,TMD(ti,tj)表示候选网络表ti与种子团中各表之间的数值匹配度,SRD(ti,tj)表示候选网络表ti与种子团中各表之间的语义相关度;
(4)计算所述候选网络表的结点潜能以及所述候选网络表和种子团中各表的边潜能,将所有所述的结点潜能和所述的边潜能之和视为候选网络表的表潜能计算公式为:
其中,表示候选网络表的结点潜能,表示候选网络表与所述种子团中各表的边潜能;
(5)计算所有候选网络表的表潜能,选取表潜能最大的候选网络表作为团表,计算公式为:
其中,为候选网络表ti的表潜能。
在一个具体的实施例中,所述的将所述满足给定覆盖率的一致性团的结点视为实体扩展的答案表,包括,
在满足给定覆盖率的一致性团的集合中通过计算选取一个高覆盖率,高一致性支持度,低多样性的一致性团来获取构建实体一致性扩展的最终结果表,计算公式为:
其中,是所有满足给定覆盖率的一致性团的集合,并且tseed∈U.V,tseed是团U中的种子表,SMS(Q,tseed)是查询表Q与种子表tseed的语义匹配值,是网络表ti的表格潜能,V是团U的所有节点集。
实施例
本发明实施例通过分析定义问题得到解决问题的定理,详细如下:
1问题定义
近年来,实体扩展问题引起越来越多研究学者的关注。Mohamed Yakout等人提出的Infogather系统利用间接匹配的方法去扩展实体,Oliver Lehmberg等人提出SearchJoin搜索引擎去扩展查询表。在实体扩展的过程中,上述方法均将网络表格看成实体-属性的2元表,每张表只有一个待扩展的属性列。
实际情况是,网络表格大多为n元表格。将一个网络表格分成多个2元表来处理时,表格的语义会被分割开,从而导致结果表中的实体不一致。为了确保结果表中实体的一致性,本实施例提出组成最终结果的答案表之间应该具有一致性匹配关系,同时答案表与查询表之间也应具有一致性匹配关系。为了使一致性匹配关系更加通俗易懂,本实施例分别定义了语义相关和表格匹配度。两个表格间的一致性匹配关系是由语义和值两部分组成的,语义相关度给出两个表格语义相关的程度,表格匹配度反映了两个表格在值上一致性匹配的可能性。
1.1一致性匹配关系
由于实体列的概念可以代表整个表的概念,当两张表格的实体集语义相关时,就认为它们是语义相关的。下面,本实施例首先介绍怎样通过计算实体集的相关度来获得两个表格的语义相关度。
本实施例利用Probase库决定两个实体集是否语义相关。对于一个表格中的每一个实体,计算它与另一个表格中每一个实体的相关度,主要是通过Probase返回的两个实体概念集的Jaccard相似度来计算的。然后,聚集每一个实体对的相关度来得到两个表格(ti,tj)的语义相关度,定义为SRD(ti,tj),计算公式如下:
其中:Ei,Ej分别是ti和tj的实体集;C(e)是实体e的概念集。
定义1(语义相关性)
给定两个表格ti和tj,如果SRD(ti,tj)≥θ,则称ti与tj是语义相关的,记为
一般来说,如果两个表格中的相同实体,在同一属性名上具有相同的属性值,就认为这两个表格在值上相互匹配。例如,两个表格都有实体“中国”,我们希望他们在首都列上的属性值都是“北京”,如果在首都这一属性列上的相同实体的相同属性值所占的比例达到某个阈值,就认为这两列属性为匹配列。为了决定两个表格是否在值上是一致性匹配的,首先找到两个表中具有相同属性名的映射列,如果所有的映射列都为匹配列,两个表格在值上就是相互匹配的。在查询表缺失属性值的情况下,如果它与一个网络表格具有相同的实体和属性名,就认为它们在值上是相互匹配的,为此,我们提出表格匹配度的概念以判断两个表格是否在值上是相互匹配的。
定义2(表格匹配度)
给定两个表格ti和tj,Ci和Cj分别是ti和tj的映射列。ti和tj的表格匹配度,记为TMD(ti,tj),可以利用以下的公式来计算:
其中,t.E是表格t的实体集,t.A是表格t的一系列属性名;Ci≈Cj指Ci和Cj是满足列映射阈值的映射列。
在定义2中,当两个表格没有映射列时,它们的表格匹配度为-1。在这种情况下,两个表格是否具有一致性匹配关系只能通过两个表格间的语义相关性来判断。当两个表格具有映射列时,需要通过考虑两个表格间的语义相关性与表格匹配度来衡量两表格是否具有一致性匹配关系。
定义3(一致性匹配关系)
给定两个表格ti和tj,ti和tj具有一致性匹配关系,记为当且仅当
定理1一致性匹配关系具有对称性
给定两个表格ti和tj,如果存在,那么
证明:当时,
ti和tj显然满足
根据公式(1)和定义1,
同时,根据公式(2),TMD(tj,ti)=TMD(ti,tj),
所以
根据一致性匹配关系的定义,我们可以得到
综上所述,一致性匹配关系具有对称性。
2问题定义
为了得到一致的实体扩展结果,答案表之间必须存在一致性匹配关系,同时每个答案表与查询表之间也应该具有一致性匹配关系。由满足以上条件的答案表构成的结果表就是实体一致的结果表。
定义4(实体一致的结果表)
给定查询表Q和一系列的网络表格T,RT是对于查询表Q的结果表,AT是给RT提供属性值的答案表集合。RT是对于查询表Q的实体一致的结果表,当且仅当:
AT中每一个答案表都与查询表Q具有一致性匹配关系。
AT中任意两个答案表之间都有一致性匹配关系。
问题描述:给定查询表Q(E,A)和网络表格集合T,其中Q.E是查询表的实体,Q.A是一系列待扩展的属性名。实体一致性扩展是寻找一组答案表AT以构建一个实体一致的结果表RT,并且使得结果表的覆盖率大于等于特定的阈值γ。
如果将与查询表之间具有一致性匹配关系的网络表格作为结点,将一致性匹配关系作为边,就可以得到一个图。而团就是该图的完全子图,在团中任意两个结点(网络表格)之间都具有一致性匹配关系。当该团的覆盖率达到特定的覆盖率阈值时,团中的结点就是我们所要查找的答案表。所以,实体扩展问题可以被转换为构建覆盖率为γ的一致性团的问题。
定义5(结果覆盖率)
给定查询表Q,与Q相关的答案表组成的团U和与之对应的结果表RT,结果表RT的覆盖率和团U的覆盖率,分别记为cov(RT,Q)和cov(U,Q),可以通过以下的公式进行计算:
其中#augCells(RT)和#Cells(Q)分别代表结果表RT所扩展的单元格的数目和查询表Q中所需扩展的单元格的数目。
定义6(一致性团)
给定查询表Q和候选表集合CT,团U(V,S)是对于查询表Q的一致性团,当且仅当以下条件满足:
V是CT的子集,同时在V中的每一个表格都与查询表具有一致性匹配关系。
S是V中具有一致性匹配关系的表格对的集合,必然存在。
其中CT是网络表格T的子集,CT中的每一个表都至少与查询表有一个相同的实体。
定义7(覆盖率为γ的一致性团)
给定查询表Q和对于Q的一致性团U(V,S),当cov(U,Q)≥γ时,U被称作查询表Q的覆盖率为γ的一致性团。
定理2给定查询表Q和网络表格集合T,Q的覆盖率为γ的实体一致的结果表可以被构建,当且仅当存在一个Q的为γ的一致性团U(V,S),并且以V作为答案表。
证明:首先,证明必要性。当Q的实体一致的结果表存在并且它的覆盖率为γ时,将与之对应的答案表作为结点集V,表格间的一致性匹配关系作为边集S,就可以得到一个完全图U(V,S)。根据定义4,可以得知,当RT为实体一致的结果表时,与之对应的任意两个答案表之间必然存在一致性匹配关系,同时,每一个答案表也都与查询表具有一致性匹配关系。所以完全图U(V,S)是一个一致性团。另外,由于结果表RT的覆盖率大于等于γ,显然可得U(V,S)是一个覆盖率为γ的一致性团。
接下来证明充分性。如果存在覆盖率为γ的一致性团U(V,S),根据定义7,可以得知V中的任意表格都与查询表具有一致性匹配关系。对于团中的任意两个表格ti,tj,必然存在将V作为答案表,将会获得Q的实体一致的结果表RT。当cov(U,Q)≥γ时,cov(RT,Q)≥γ。
定理2证明了可以通过构建覆盖率为γ的一致性团去得到Q的实体一致的结果表。基于定理2,实体扩展问题可以被转化为构建覆盖率为γ的一致性团问题。
覆盖率为γ的一致性团问题:给定查询表Q和网络表格集合T,覆盖率为γ的一致性团问题就是去构建一组覆盖率大于等于γ的一致性团。
通过构建覆盖率为γ的一致性团来进行实体扩展
总体框架
给定缺失属性值的查询表,实体扩展作为结构化数据集成的一种应用,它的目的是得到结果表,这个结果表包含了查询表缺失的属性值。现存的技术假设网络表格是实体-属性二元关系。当一个n元表具有多个待扩展列时,目前的技术将多个二元关系合并为结果表。这样得到的结果表往往存在实体不一致的问题。此发明的目的是对于多元的实体扩展查询返回一个一致性的结果。
图1为本发明实施例提供的网络表的实体扩展方法的处理流程图;如图1所示:
首先,我们利用索引EI(Q)从网络表格集合中找到候选表。给定查询表Q和网络表格集合T,索引EI(Q)将会返回一系列的网络表格,这些网络表格与查询表至少具有一个相同的实体。为了使得结果表具有实体一致性,我们提出答案表之间应该具有一致性匹配关系,这样就可以确保结果表的高一致性与高准确性。基于图的理论,一致性实体扩展问题可以被转换为覆盖率为γ的一致性团问题。在定理2中,证明了覆盖率为γ的一致性团中的表格即为一致性实体扩展查询中的答案表。
为了构建覆盖率为γ的团,首先利用语义匹配分数去查找种子团作为初始团。对于每一个种子团,在本实施例中试图去寻找其他的结点(表格)来提高它对于查询表的覆盖率,直到可以得到覆盖率为γ的一致性团。对于每一个不满足覆盖率要求的种子团,需要查找其他的表格来提高团的覆盖率,这种表格被称为团表。为了得到团表,计算每一个候选表的表格潜能,表格潜能是由该表与查询表的一致性匹配度和该表与团内每一个表的一致性匹配度组成的。显然,当一个表与查询表具有一致性匹配关系的同时,又与团内每一个表都有一致性匹配关系,它就可以被选取为团表。换言之,一个表格具有的表格潜能越高,它成为团表的概率越大。基于这种观点,选取具有最大表格潜能的表作为团表,然后将该表与团中的各个节点之间添加边,将会获得一个新的团。然后,我们继续去查找具有高潜能的表格来提高团的覆盖率,直到覆盖率达到γ。对于每一个种子表,将会得到一个覆盖率为γ的一致性团和与之对应的结果表。为了得到最终的实体一致的结果表,需要权衡一致性支持度,源的多样性和覆盖率来得到最优团。最后,最优团中的表格为答案表,这些答案表为最终的实体一致的结果表提供所需的属性值。
查找种子表:
在本实施所述的实体扩展方法中,第一步就是查找种子团,种子团是创建覆盖率为γ的一致性团的基础。大多情况下,查询表只包含了较少的信息,种子团的引入可以尽可能多地为实体扩展提供可用信息。
首先,将会得到一个由孤立表格组成,且没有任何边的图。此时,任意一个图中的结点都可以被认为是一个初始团,它们可以独立地由其他表格去扩展,最终得到覆盖率为γ的一致性团。为了提高精确度,减少运行时间,选取与查询表具有高一致性匹配度的表作为种子团。因为每一个种子团只包含一个结点,所以查找种子团的问题可以通过查找种子表来解决。
现有的技术经常利用模式匹配去查找种子表,模式匹配主要包括模式级信息(例如:属性名)和实例级信息(例如:属性值)的匹配。先前的工作在查找种子表时仅考虑模式级特征,当网络表格与查询表具有相同的实体与属性名时,这些表格就会被认为是种子表。在实体扩展中,这种错误将会被放大。
上述问题是因为仅考虑模式级信息导致的。事实上,基于模式级的特征,还可以考虑候选表与查询表的语义相关度。为获得实体一致的结果表,每一个答案表都应与查询表具有一致性匹配关系,种子表也是如此。对于种子表的选取,希望种子表与查询表的一致性匹配度能够高于其他表。为了衡量查询表与网络表间的一致性匹配度,需要计算语义匹配分数。
定义8(语义匹配分数)
给定查询表Q(E,A)和网络表格t(K,B),Q和t的语义匹配分数,记为SMS(Q,t),可以通过以下的公式进行计算:
SMS(Q,t)=φ(SRD(Q,t),θ)*φ(TMD(Q,t),0) (4)
其中:当p>θ时,φ(p,θ)=p,否则φ(p,θ)=-∞;SRD(Q,t)表示查询表与网络表之间的语义相关度。当SRD(Q,t)<θ,我们认为查询表与网络表是语义无关的。
给定查询表Q和候选表集CT,对于CT中的每一个表,都可以计算它与查询表的语义匹配分数。根据语义匹配分数,可以得到top-k个种子表,作为初始团。
构建覆盖率为γ的一致性团
对于每一个种子团,当它的覆盖率小于γ时,需要查找网络表格(团表)去提高它的覆盖率。在种子团的基础上,通过查找团表来构建覆盖率为γ的一致性团。根据定义6,成为一致性团必须满足两点:团中任意结点都与查询表具有一致性匹配关系和团的边是表格间的一致性匹配关系。通过定义8,可以知道种子团必然为一致性团。去查找团表,主要考虑每个表与查询表的一致性匹配度以及与团中各个表之间的一致性匹配度。结点潜能反映了表格与查询表之间的一致性匹配度,与此同时,边潜能反映了表格与团中的表格之间的一致性匹配度。候选表的潜能是它自身的结点潜能以及它自身与团中所有结点的边潜能的和。
结点潜能
结点潜能是用来衡量一个候选表成为团表的可能性。每个候选表的结点潜能主要考虑将自身加入团后,团覆盖率的提高程度。为了衡量网络表格对团覆盖率提高的贡献值,我们提出了覆盖率补足率这一概念。
定义9(覆盖率补足率)
给定查询表Q(E,A),候选表集CT和覆盖率小于γ的一致性团U(V,S)。网络表格t(t∈CT-V)对于团U的覆盖率补足率,记为SC(t,U,Q),是当团U中加入表t后,U的覆盖率增长值。
SC(t,U,Q)=cov(U{t},Q)-cov(U,Q) (5)
结点潜能:给定查询表Q(E,A),候选表集CT和覆盖率小于γ的一致性团U(V,S)。表t的结点潜能可以通过以下的公式计算:
其中:t∈CT-V。
边潜能:对于缺失列标签的网络表格,公式(6)并不能给出正确的结点潜能。
当两列的列匹配度大于特定阈值时,这两列被称为匹配列。Ci和Cj分别为表格ti和tj的两列,它们的列匹配度记为CM(Ci,Cj)。列匹配度反映了两列的相似程度,对于列匹配的计算主要考虑两列中相同的实体是否具有相同的属性值。为了计算两列的列匹配度,主要考虑以下三个方面:(1)两列的元素都是字符型数据;(2)两列的元素都是年份;(3)两列的元素都是数值型数据。对于字符型数据,如果两个字符串的EditDistance大于相似度阈值,则认为它们表示的是同一个对象。对于年份数据,当且仅当两个年份相等时,才认为它们是同一年份。对于数值型数据,当两个数据的比值满足特定的单位转换时,认为它们是相等的。
定义10(匹配列)
给定两个表格ti和tj,Ci和Cj分别是ti和tj的两列,当两列满足CM(Ci,Cj)>σ时,则认为它们是匹配列,记为Ci≈Cj
为了正确计算缺失列标签的网络表格的结点潜能,首先查找团中查询表的映射列,然后将该映射列的标签传递给它的匹配列。
列标签传递后,可以得到具有一致性匹配关系的两个表格对的边潜能。边潜能反映了两个表格间的一致性匹配度,一致性匹配度反应在语义和值两方面。
边潜能:给定候选表集CT和查询表Q的一致性团U(V,S),其中团的覆盖率小于γ。对于CT-V中的表ti与V中的表tj,它们之间的边潜能记为可以通过以下公式计算:
获取团表
图2为本发明实施例提供的所述实体扩展方法中获取团表的流程图;团表的获取过程如图2所示:这个阶段的目的是不断地从候选表集CT中获取团表,使得团的覆盖率达到γ。所以,为了寻找团U(V,S)的团表,将任一候选表的结点潜能与它和团中各表的边潜能之和作为该表的表格潜能,记为
其中:ti∈CT-V。
可以利用以下公式获取团U(V,S)的团表tU
为了构建覆盖率为γ的一致性团,首先根据语义匹配分数获取到种子表。然后,对于每个覆盖率小于γ的种子表,计算每一个候选表的表格潜能,选取表格潜能最大的表作为团表。每当团表被加入到团中,该团就会被扩大并且覆盖率也会随之提高。重复上述操作,直到团的覆盖率大于等于γ。
图3为本发明实施例提供的所述实体扩展方法中构建一致性团的流程图;获取团表后,按照图3所示的构建过程对一致性团进行构建。给定查询表与候选表集,首先根据语义匹配分数获取top-k个种子团。对于每一个种子团,当它的覆盖率不满足覆盖率要求时,我们去查找它的团表,将其加入到团中,直至团的覆盖率大于等于γ。事实上,由于数据集的限制,结果表往往并不能满足覆盖率要求。此时,返回覆盖率最接近的γ团。当所选取的团表的覆盖率补足率小于等于ε时,则就将其返回。
图4为本发明实施例提供的所述实体扩展方法中构建结果表的流程图。当得到一系列一致性团,我们将团中的结点作为答案表,根据图4所示的流程图构建结果表。
基于最优团获取实体一致的结果表:
得到一系列覆盖率为γ的一致性团后,可以得到与之对应的答案表。此阶段,应该选取一个最优团,此最优团中的结点是构建最终实体一致的结果表的答案表。根据以下的指标来选取最优团:
(1)一致性支持度:通过计算团U(V,S)的各个结点的平均表格潜能来衡量一致性支持度,一个高的一致性支持度表明结果表具有与查询表的高一致性。
(2)源的多样性:这个指标反映了答案表的多样性。通过答案表的个数来衡量源的多样性。一般来说,数据源越多样,结果表的一致性越低。事实上,答案表的数目越少,结果表的一致性越高。
(3)覆盖率:即使给定了覆盖率阈值,通过不同的团返回的结果表的阈值也是不同的。显然,更倾向于能够提供高覆盖率的团。
通过最优团获取最终结果表,最优团的计算公式如下:
其中:并且tseed∈U.V,是之前所获得的一系列覆盖率为γ的一致性团。
本发明实施例在四组真实的数据集上运行了本发明所述的方法EACC与基于InfoGather的方法EATSP,从覆盖率、精确度、一致性、可信度四个方面进行比较,目的是比较根据不同方法取得答案表的质量,实验结果如下图5(a)、图5(b)、图5(c)、图5(d)所示:
(1)随着覆盖率阈值γ的增大,两种方法的覆盖率也在增大。大多数情况下,两种方法在覆盖率上的差距不大。当覆盖率阈值达到最大时,EACC的覆盖率要低于EATSP的覆盖率,在Company和Song两个数据集上尤为明显。通过EACC获取的答案表之间必须要满足一致性匹配关系,这一要求导致EACC方法获得的答案表少于EATSP方法。
(2)EATSP是通过主题敏感的pagerank算法来获取答案表的,这种方法主要考虑表格之间的模式级特征以及网页上的文本特征。实体本身存在的二义性以及网页信息的冗余,导致EATSP算法的精确度较低。而本发明所提出的EACC算法是根据一致性匹配度来获取答案表的,答案的精确度明显优于EATSP算法。
(3)评估一致性主要考虑了答案表的平均相似度,当只有一个答案表时,一致性最高。随着覆盖率阈值的增大,在四组数据集上,两种算法的一致性均随着答案表的增多而下降。但是,EACC的一致性始终高于EATSP,因为EACC算法要求答案表之间具有一致性匹配关系,这本身就保证了答案表的高一致性。
(4)随着覆盖率阈值的增大,两种算法的可信度也呈现出增长的趋势。事实上,在不同的覆盖率阈值下,EACC的可信度都是要高于EATSP的。随着覆盖率阈值的增加,EACC与EATSP算法的可信度都达到最大(EACC为0.81,而EATSP为0.76)。EACC在四个数据集下的平均可信度为0.63,而EATSP的平均可信度为0.59。所以,EACC能够更好地确保结果表的可信度。
实验结果表明,虽然EACC方法在覆盖率方面略低于EATSP,但它却具有更高的一致性,精确度和可信度。因此,本发明所提出的答案表获取方法与现有的技术相比,能返回更有效、一致的结果表。
区别于现有方法InfoGather将多元表格进行分裂的方法,本发明实施例所述的EACC方法通过构建覆盖率为γ的一致性团来扩展实体。
EACC方法与InfoGather在四个数据集上的对比实验结果如图6所示:
(1)在四组数据集上InfoGather的覆盖率均高于EACC。这是因为,EACC不仅要求答案表与查询表之间具有一致性匹配关系,同时也要求答案表之间具有一致性匹配关系,使得答案表的个数明显减少。
(2)在四组数据集上,EACC的平均精确度为0.86,而InfoGather的平均精确度为0.71,EACC在精确度上明显优于InfoGather。同时,EACC的一致性也要高于InfoGather。InfoGather通过将表格拆分为若干个2元关系来扩展实体,并且以实体为单位,从网络表格中获取数据得到结果表,最终导致了结果的不一致性。
(3)最后,可信度作为精确度,覆盖率和一致性的调和平均数,EACC在可信度上也是优于InfoGather的。
实验结果表明,EACC在精确度和一致性上都要优于InfoGather。本发明实施例所述的实体扩展框架在保持实体一致的同时,也保证了结果的高精确度与可信度。
综上所述,本发明实施例提出一致性匹配关系以解决实体扩展中出现的实体不一致问题。如果每一个答案表都与查询表之间存在一致性匹配关系,且任意两个答案表之间都存在一致性匹配关系,将会获得一个实体一致的结果表。
通过构建覆盖率为γ的一致性团来解决一致性实体扩展问题。通过将与查询表具有一致性匹配关系的网络表格作为结点,表格间的一致性匹配关系作为边,可以得到一个一致性团。将一致性团中的结点作为答案表,可以得到实体一致的结果表。
实体扩展作为结构化数据集成的一个重要方面,可以为用户提供更多感兴趣的信息。与现有的技术相比,本发明技术方案的优点是,能够适应多元查询表的扩展,使得在保证结果一致性的同时,也保证了结果的高精确度与可信度。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.网络表的实体扩展方法,该方法处理的对象包括查询表和结果表,所述查询表用于实体扩展的输入;所述结果表为实体扩展的输出结果,所述结果表对应一组答案表,所述答案表为所述结果表提供所述查询表所需的属性值;其特征在于,该方法还包括:
通过计算网络表与查询表之间的语义匹配值选取种子表组成种子团;
选取具有最高表潜能的团表加入种子团,所述团表与所述种子团的各表之间满足一致性匹配关系,并且用于提高所述种子团的覆盖率,当所述覆盖率达到设定阈值时,所述种子团则视为满足给定覆盖率的一致性团;
将所述满足给定覆盖率的一致性团的结点视为实体扩展的答案表,利用所述答案表构建实体一致性扩展的最终结果表。
2.根据权利要求1所述的实体扩展方法,其特征在于,
所述的通过计算网络表与查询表之间的语义匹配值包括:计算网络表与查询表之间的语义相关度SRD(Q,tj)和计算网络表与查询表之间的数值匹配度TMD(Q,tj)。
3.根据权利要求2所述的实体扩展方法,其特征在于,
所述的计算网络表之间的语义相关度SRD(ti,tj),计算公式为:
<mrow> <mi>S</mi> <mi>R</mi> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munder> <mo>&amp;Sigma;</mo> <mrow> <mo>&amp;ForAll;</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>&amp;Element;</mo> <msub> <mi>E</mi> <mi>i</mi> </msub> <mo>,</mo> <mo>&amp;ForAll;</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <msub> <mi>E</mi> <mi>j</mi> </msub> </mrow> </munder> <mi>J</mi> <mi>a</mi> <mi>c</mi> <mi>c</mi> <mi>a</mi> <mi>r</mi> <mi>d</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>,</mo> <mi>C</mi> <mo>(</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <msub> <mi>E</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>E</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> </mfrac> </mrow>
其中,ti和tj表示两个网络表,Ei,Ej分别是ti和tj的实体集;C(e)是实体e的概念集。
4.根据权利要求3所述的实体扩展方法,其特征在于,
所述的计算网络表之间的数值匹配度TMD(ti,tj),计算公式为:
其中,ti和tj表示两个网络表,t.E表示表t的实体集,t.A表示表t的一系列属性名,Ci和Cj分别代表ti和tj的属性列,Ci≈Cj表示Ci和Cj是满足列映射阈值的映射列。
5.根据权利要求4所述的实体扩展方法,其特征在于,所述语义匹配值的计算公式为:
SMS(Q,t)=φ(SRD(Q,t),θ)*φ(TMD(Q,t),0)
其中,当SRD(Q,t)>θ时,φ(SRD(Q,t),θ)=SRD(Q,t),否则φ(SRD(Q,t),θ)=-∞,同时,Q表示查询表,t表示网络表,SRD(Q,t)表示查询表Q与网络表t之间的语义相关度,TMD(Q,t)表示查询表Q与网络表t之间的数值匹配度,当SRD(Q,t)<θ时,则查询表与网络表是语义无关的。
6.根据权利要求5所述的实体扩展方法,其特征在于,
所述具有最高表潜能的团表在与查询表具有一致性匹配关系的同时,又与所述种子团中的每个表均有一致性匹配关系。
7.根据权利要求6所述的实体扩展方法,其特征在于,所述的选取具有最高表潜能的团表加入种子团,获取步骤包括:
(1)计算候选网络表对所述种子团的覆盖补足率SC(t,U,Q),计算公式为:
<mrow> <mi>cov</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>,</mo> <mi>Q</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>#</mo> <mi>a</mi> <mi>u</mi> <mi>g</mi> <mi>C</mi> <mi>e</mi> <mi>l</mi> <mi>l</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>R</mi> <mi>T</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>#</mo> <mi>C</mi> <mi>e</mi> <mi>l</mi> <mi>l</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>Q</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
SC(t,U,Q)=cov(U∪{t},Q)-cov(U,Q)
其中,U表示种子团,t表示候选网络表,Q表示查询表,RT是团U中所有结点组成的答案表所对应的结果表,#augCells(RT)和#Cells(Q)分别代表结果表RT所扩展的单元格的数目和查询表Q中所需扩展的单元格的数目;
(2)计算候选网络表的结点潜能计算公式为:
其中,U表示种子团,SC(t,U,Q)为候选网络表对U的覆盖补足率,t表示候选网络表,Q表示查询表;
(3)计算候选网络表与所述种子团中各表的边潜能计算公式为:
其中,TMD(ti,tj)表示候选网络表ti与种子团中各表之间的数值匹配度,SRD(ti,tj)表示候选网络表ti与种子团中各表之间的语义相关度;
(4)计算所述候选网络表的结点潜能以及所述候选网络表和种子团中各表的边潜能,将所有所述的结点潜能和所述的边潜能之和视为候选网络表的表潜能计算公式为:
其中,表示候选网络表的结点潜能,表示候选网络表与所述种子团中各表的边潜能;
(5)计算所有候选网络表的表潜能,选取表潜能最大的候选网络表作为团表,计算公式为:
其中,为候选网络表ti的表潜能。
8.根据权利要求7所述的实体扩展方法,其特征在于,所述的将所述满足给定覆盖率的一致性团的结点视为实体扩展的答案表,包括,
在满足给定覆盖率的一致性团的集合中通过计算选取一个一致性团来获取构建实体一致性扩展的最终结果表,计算公式为:
其中,是所有满足给定覆盖率的一致性团的集合,并且tseed∈U.V,tseed是团U中的种子表,SMS(Q,tseed)是查询表Q与种子表tseed的语义匹配值,是网络表ti的表格潜能,V是团U的所有节点集。
CN201711090347.XA 2017-11-08 2017-11-08 网络表的实体扩展方法 Active CN107766567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711090347.XA CN107766567B (zh) 2017-11-08 2017-11-08 网络表的实体扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711090347.XA CN107766567B (zh) 2017-11-08 2017-11-08 网络表的实体扩展方法

Publications (2)

Publication Number Publication Date
CN107766567A true CN107766567A (zh) 2018-03-06
CN107766567B CN107766567B (zh) 2020-04-21

Family

ID=61273298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711090347.XA Active CN107766567B (zh) 2017-11-08 2017-11-08 网络表的实体扩展方法

Country Status (1)

Country Link
CN (1) CN107766567B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022018538A1 (en) * 2020-07-21 2022-01-27 International Business Machines Corporation Identifying source datasets that fit transfer learning process for target domain

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794222A (zh) * 2015-04-29 2015-07-22 北京交通大学 网络表格语义恢复方法
CN104951456A (zh) * 2014-03-26 2015-09-30 上海智臻网络科技有限公司 一种用于获得答案信息的方法、装置和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951456A (zh) * 2014-03-26 2015-09-30 上海智臻网络科技有限公司 一种用于获得答案信息的方法、装置和设备
CN104794222A (zh) * 2015-04-29 2015-07-22 北京交通大学 网络表格语义恢复方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JULIAN EBERIUS等: "Top-k Entity Augmentation Using Consistent Set Covering", 《SSDBM’15》 *
齐飞等: "基于列重合度的网络表格一致性扩展", 《计算机科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022018538A1 (en) * 2020-07-21 2022-01-27 International Business Machines Corporation Identifying source datasets that fit transfer learning process for target domain
US11308077B2 (en) 2020-07-21 2022-04-19 International Business Machines Corporation Identifying source datasets that fit a transfer learning process for a target domain
GB2611995A (en) * 2020-07-21 2023-04-19 Ibm Identifying source datasets that fit transfer learning process for target domain

Also Published As

Publication number Publication date
CN107766567B (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
Bergamaschi et al. Keyword search over relational databases: a metadata approach
Shekarpour et al. Sina: Semantic interpretation of user queries for question answering on interlinked data
Sun et al. Ranking-based clustering of heterogeneous information networks with star network schema
CN109783628B (zh) 结合时间窗口和关联规则挖掘的关键词搜索ksaarm方法
CN105045875A (zh) 个性化信息检索方法及装置
CN105117488A (zh) 一种基于混合层次聚类的rdf数据平衡分割算法
Fu et al. The academic social network
CN102063489B (zh) 基于隐含分类信息的模式匹配方法
CN108733745A (zh) 一种基于医学知识的查询扩展方法
Xu et al. Scalable continual top-k keyword search in relational databases
Wang et al. Top-k star queries on knowledge graphs through semantic-aware bounding match scores
CN110717043A (zh) 基于网络表示学习训练的学术团队构建方法
CN107766567B (zh) 网络表的实体扩展方法
Takeuchi et al. Spatio‐temporal pseudo relevance feedback for scientific data retrieval
Kim et al. RG-index: An RDF graph index for efficient SPARQL query processing
Assi et al. BIGMAT: A distributed affinity-preserving random walk strategy for instance matching on knowledge graphs
Yu et al. Improving the effectiveness of keyword search in databases using query logs
Benyahia et al. Centrality for graphs with numerical attributes
Xia et al. Graph-based web query classification
Ahmed et al. Computing source-to-target shortest paths for complex networks in RDBMS
Zheng et al. A novel method of keyword query for RDF data based on bipartite graph
Zhao et al. Overlapping Community Detection Algorithm Based on High‐Quality Subgraph Extension in Local Core Regions of Network
Song et al. Discussions on subgraph ranking for keyworded search
Yu et al. Link prediction based on network embedding and similarity transferring methods
Wang et al. A concept hierarchy based ontology mapping approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant