CN104794222A - 网络表格语义恢复方法 - Google Patents

网络表格语义恢复方法 Download PDF

Info

Publication number
CN104794222A
CN104794222A CN201510211926.XA CN201510211926A CN104794222A CN 104794222 A CN104794222 A CN 104794222A CN 201510211926 A CN201510211926 A CN 201510211926A CN 104794222 A CN104794222 A CN 104794222A
Authority
CN
China
Prior art keywords
network form
tuple
task
answer
task processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510211926.XA
Other languages
English (en)
Other versions
CN104794222B (zh
Inventor
王宁
刘华西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201510211926.XA priority Critical patent/CN104794222B/zh
Publication of CN104794222A publication Critical patent/CN104794222A/zh
Application granted granted Critical
Publication of CN104794222B publication Critical patent/CN104794222B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种网络表格语义恢复方法。该方法包括:基于Probase语义库对待恢复的网络表格进行初步的语义恢复,得到网络表格中每列的候选概念集合;根据网络表格中不同元组之间的组合距离确定聚类算法中的各个初始聚类中心,将网络表格中各个元组归纳于各个初始聚类中心所在的簇中,调整各个簇的聚类中心,根据各个簇的最终聚类中心获取缩减后的网络表格;根据网络表格中每列的候选概念集合和缩减后的网络表格,恢复出网络表格中每列的列标签和实体列。本发明通过从初始聚类中心的选择和基于组合距离的相似度计算两个方面来改善K-means聚类算法,有效缩减了网络表格的规模,降低了完成任务的复杂度,提高了恢复出的网络表格的表头和实体列的准确率。

Description

网络表格语义恢复方法
技术领域
本发明涉及语义恢复技术领域,尤其涉及一种网络表格语义恢复方法。
背景技术
表格中的结构信息具有很重要的价值,可以利用表的模式和实体列来寻找相关数据表,并把它们融合到一起。还可以利用表的模式信息来探索表中不同列之间的二元关系。在互联网中包含了数量众多的表格数据,但是这些网络表格大多数都缺少表头、实体列等结构信息,导致在网页数据检索和数据融合中无法利用这些高质量的结构化数据。为解决这个问题,人们纷纷推出了不同类型的语义库,用于辅助恢复表格的结构信息。
在语义数据库Freebase中,以节点和节点间关系的图状结构来组织数据,在包含现实中各个实体的基础上,还融合了各个实体之间的关系。在Wordnet词典中将不同词语按照词性组织成一个同义词网络,该同义词网络包含数量巨大的概念和关系;微软利用数十亿的网页数据和搜索日志构建了Probase语义库,其中包含的概念达到了270万个,而且还用概率量化表示了不同概念间的关联程度。
现有技术中的一种对网络表格进行语义恢复的方法为:基于Freebase、Probase语义库,采用并行计算等方式,为网络表格恢复表头和实体列。
上述现有技术中的对网络表格进行语义恢复的方法的缺点为:由于待恢复的网络表格的规模比较大,网络表格中的元组数量庞大,该方法中的并行计算等处理的计算量很大,得到的恢复结果的准确率不高,针对某列数据往往无法得到唯一确定的列标签,实体列检测时得到的也是多个可能的结果,准确率不高。该方法的鲁棒性较差,在处理数值型的数据时准确率很低。
发明内容
本发明的实施例提供了一种网络表格语义恢复方法,以实现对网络表格进行有效的语义恢复。
为了实现上述目的,本发明采取了如下技术方案。
根据本发明的一个方面,提供了一种网络表格语义恢复方法,其特征在于,包括:
基于Probase语义库对待恢复的网络表格进行初步的语义恢复,得到所述网络表格中每列的候选概念集合;
根据所述网络表格中不同元组之间的组合距离确定聚类算法中的各个初始聚类中心,将所述网络表格中各个元组归纳于所述各个初始聚类中心所在的簇中,调整所述各个簇的聚类中心,根据所述各个簇的最终聚类中心获取缩减后的网络表格;
根据所述网络表格中每列的候选概念集合和所述缩减后的网络表格,恢复出所述网络表格中每列的列标签和实体列。
优选地,所述的基于Probase语义库对网络表格进行初步的语义恢复,得到所述网络表格中每列的候选概念集合,还包括:
基于Probase语义库对网络表格进行初步的语义恢复,得到所述网络表格的候选概念集合,基于粗糙集合理论从所述网络表格中每个列的候选概念集合和网络表格的候选概念集合中得到网络表格的核心概念;
对于所述网络表格的第i列数据,设基于Probase语义库得到的候选概念集合为CH={ch1,...,chk},对应的概率集合为P={p1,...,pk},所述网络表格的候选概念集合为RC={rc1,...,rck};
则第i列的候选概念的代表性概率rpi的计算公式如下:
r p i = Σ c j ∈ CH ∩ RC p j
pj∈P,表示概念cj与第i列的相关性程度;
将代表性概率rpi大于设定的阈值的所有概念作为所述网络表格的代表概念;
将所述网络表格的核心概念和代表概念的并集作为所述网络表格的典型概念。
优选地,所述的根据所述网络表格中不同元组之间的组合距离确定聚类算法中的各个初始聚类中心,包括:
用Cen={cen1,...,cenk}代表所述网络表格中k个初始聚类中心,第一个初始聚类中心元组cen1在网络表格的元组中通过随机的方式选取,计算剩余的各个元组与cen1之间的组合距离,选取与cen1之间的组合距离最大的元组作为第二个初始聚类中心元组cen2
计算剩余的各个元组与cen1、cen2之间的组合距离,将与cen1、cen2之间的组合距离的和值最大的元组作为第三个初始聚类中心元组cen3,依次类推,将与已经选中的各个初始聚类中心之间的组合距离的和值最大的元组作为下一个初始聚类中心元组,直到选取全部的K个初始聚类中心。
优选地,所述网络表格中不同元组之间的组合距离的计算方法包括:
对于网络表格T,设其候选概念集合为A={a1,...,an},典型概念集合SA={s1a,...,sla,}网络表格T中任意两个元组ti和tj之间的组合距离集合为其中代表元组ti和tj在对应概念ak(k=1,...,n)上的组合距离;
对于数据类型为数值型的概念,所述两个元组ti和tj之间的距离的计算公式为:
d ij = ( x i - x j ) 2
其中,xi和xj分别代表元组ti和tj在对应数值型的概念上的数值;
对于数据类型为文本型的概念,所述两个元组ti和tj之间的距离的计算公式为:
d ij = | s i ∩ s j | | s i ∪ s j |
其中,si和sj分别代表元组ti和tj在对应文本型概念上的文本集合;为不同概念上的各个距离分配的权重集合为:
所述元组ti和tj之间的组合距离Dij使用以下公式计算:
D ij = Σ k = 1 n w ij k d ij k
优选地,所述将所述网络表格中各个元组归纳于所述各个初始聚类中心所在的簇中,调整所述各个簇的聚类中心,根据所述各个簇的最终聚类中心获取缩减后的网络表格,包括:
得到k个初始聚类中心后,以每个初始聚类中心为一簇,依次选取所述网络表格中各个待聚类元组,计算出待聚类元组与各初始聚类中心之间的组合距离,将待聚类元组归纳于最小的组合距离对应的初始聚类中心所在的簇,依次类推,依次将所有待聚类元组分别归纳于对应的簇中,完成第一轮元组聚类;
用各簇的均值元组代替当前簇的聚类中心,按照所述第一轮元组聚类的过程,进行第二轮的元组聚类,依次类推,每轮元组聚类结束后,用各簇的均值元组代替当前簇的聚类中心,并进行下一轮的元组聚类,直至最终所有待分类元组所属的簇不再发生改变,则聚类结束;
将各个簇的聚类中心提取出来,组合成缩减后的网络表格。
优选地,根据所述网络表格中每列的候选概念集合和所述缩减后的网络表格,恢复出所述网络表格中每列的列标签和实体列,包括:
将所述网络表格中每列的候选概念集合和所述缩减后的网络表格构成一个任务,将所述任务分配给多个任务处理者,接收各个任务处理者返回的所述任务的答案,所述答案中包括所述网络表格中每列的列标签和实体列;
计算出各个任务处理者对所述任务涉及的领域集合的领域可信度,根据各个任务处理者对所述任务涉及的领域集合的领域可信度,获取各个任务处理者返回的答案的答案可信度;
根据各个任务处理者返回的答案的答案可信度计算出各个答案的评估得分,将具有最高的评估得分的答案作为所述任务的最终答案。
优选地,所述的计算出各个任务处理者对所述任务涉及的领域集合的领域可信度,包括:
设F={f1,...,fm}为所有领域的集合,E={e1,...,ev|ei∈F,1≤i≤v}代表任务处理者设置的专业领域,则任务处理者对应的基本分数集合为
针对某个任务T,FT={f1,...,ft}表示任务发布者发布该任务时设定的领域集合,IAns={Ians1,...,Iansn,Iansn+1}表示某个任务处理者提交的所述任务T的包括表头和实体列的答案,FAns={Fans1,...,Fansn,Fansn+1}表示从若干个任务处理者提交的备选答案中得到的最终答案,则该任务处理者完成任务T的实际得分为:
设某位任务处理者完成了M项领域评测任务,FM={f1,...,fM}表示这些任务隶属的领域集合,对应的评测任务的得分集合为SM={s1,...,sM},则最终的领域评测得分为:
设分配给各个任务处理者的所述任务涉及的领域集合为fi,某位任务处理者针对所述领域集合fi的基本分数、完成任务的实际分数和领域评测得分分别为esi、psi和bsi,则所述某位任务处理者对所述任务涉及的领域集合fi的领域可信度使用以下公式计算得到:
fci=sw1*esi+sw2*psi+sw3*bsi
其中,sw1代表基本分数esi对应的权重,sw2代表完成任务的实际分数psi对应的权重,sw3代表领域评测得分bsi对应的权重。
优选地,所述的根据各个任务处理者对所述任务涉及的领域集合的领域可信度,获取各个任务处理者返回的答案的答案可信度,包括:
设所述任务涉及的领域集合FT={f1,...,ft},任务处理者对所述任务涉及的领域集合FT={f1,...,ft}的领域可信度集合FC={fc1,...,fct},则所述任务处理者针对所述任务的答案可信度AC的计算公式为:
AC = Σ i = 1 t f c i .
优选地,所述的根据各个任务处理者返回的答案的答案可信度计算出各个答案的评估得分,将具有最高的评估得分的答案作为所述任务的最终答案,包括:
当有k个任务处理者为所述任务提交答案时,所述k个任务处理者的答案可信度分别为针对网络表格中第i列,分别提取出所述k个任务处理者的k个答案中针对所述第i列的恢复结果;
将所有答案中针对所述第i列的相同的恢复结果组成一个或者多个集合Qv,v=1,...,s,s<k,所述Qv对应的任务处理者的集合为wv,wv=1,...,z,z<k;
集合Qv的评估得分为
将具有最高的评估得分的集合Qv作为所述第i列的最终恢复结果,将所述网络表格中每个列的最终恢复结果进行合并,得到所述任务的最终答案。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例通过从初始聚类中心的选择和基于组合距离的相似度计算两个方面来改善K-means聚类算法,有效地将网络表格中相似的元组聚集到一起,挑选少量的代表性元组呈现给任务处理者,取得了比较好的聚类效果,有效缩减了网络表格的规模,降低了完成任务的复杂度。本发明还提出答案可信度的概念,并基于答案可信度实现一套任务推荐机制和答案决策机制,为工人推荐相关度最高的任务,并从众多候选答案中为每项任务挑选可信度最高的作为最终答案
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种基于众包的网络表格语义恢复方法的实现原理示意图;
图2为本发明实施例提供了一种基于众包的网络表格语义恢复方法的具体处理流程图;
图3为本发明实施例提供的一种初始聚类中心的选择流程图;
图4为本发明实施例一提供的一种改进k-means聚类算法的流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例实现基于K-means改进的聚类算法,将表格数据用少量代表性元组表示,降低表格语义恢复任务的复杂度。通过将任务分配给多个任务处理者,加入人的智慧为网络表格恢复准确的结构信息。
该实施例提供了一种基于众包的网络表格语义恢复方法的实现原理示意图如图1所示,具体处理流程如图2所示,包括如下的处理步骤:
步骤S210、基于Probase语义库对网络表格进行初步的语义恢复,得到网络表格中每个列的候选概念集合和整张网络表格的候选概念集合。
任务发布者发布一个任务请求,该任务请求中包含一个待恢复的网络表格的信息,任务构建器构建一个上述待恢复的网络表格对应的任务。
Probase语义库中包含了大量从网页中抽取出来的概念、实体、概念以及概念之间的关系,为了实现为网络表格标注表头和实体列,本发明实施例使用Probase语义库来获取候选表头和实体列。
表格中每个单元格的值代表一个实体,表格中某列的表头则代表某个概念,表格中的每一行代表一个元组。在Probase语义库中,一个概念可能对应多个实体,在每一个(实体,概念)的映射关系中,都会存在一个概率值P来描述该实体与概念之间的关联程度。
本发明实施例使用下述公式1、公式2所示的朴素贝叶斯模型来评估上述待恢复的网络表格中某列的实体集E与Probase语义库中的某个概念ck之间的关联。
P ( c k | E ) = P ( E | c k ) P ( c k ) P ( E ) ∝ P ( c k ) Π j = 1 N P ( e j | c k ) - - - ( 1 )
P ( e i | c k ) = n ( e i , c k ) n ( c k ) - - - ( 2 )
其中,ei表示某列的实体集E中的第i行的实体,n(ei,ck)代表实体概念对(ei,ck)的出现频率,n(ck)代表概念ck的出现频率,与P相关的都表示对应的概率,P(ck)表示在Probase语义库中,ck作为概念的概率,即先验概率,P(E|ck)表示实体集E中的实体都作为概念ck实体的概率,P(ej|ck)表示第j行实体ej作为概念ck实体的概率,P(ck|E)表示在实体集E已知的情况下,概念ck作为某列实体集E的列标签的概率,即最终所需要求的后验概率,
P(E)=P(e1,...,en)=P(e1)P(e2)…P(en),表示实体集在Probase语义库中同时出现的概率。
最后,将待恢复的网络表格中某列的实体集E和各个概念之间的关联概率值进行排序,选取关联概率值最大的前k个概念作为上述某列的实体集E的候选列标签。根据上述Probase语义库,可以得到待恢复的网络表格中每个列的候选概念集合,还可以得到整张网络表格的候选概念集合。
网络表格的实体列应该包含两个方面的特征:(1)实体列中的不同实体对应相同的概念;(2)实体列对应的概念更具备代表性。本发明实施例将上述两种基本特征和Probase语义库相结合,为网络表格寻找候选实体列。
步骤S220、获取网络表格的核心概念和代表性概率,根据所述核心概念和代表性概率得到网络表格的典型概念。
网络表格常常包含多个概念,不同概念对衡量元组相似度的影响不同。本发明实施例基于粗糙集合理论和Probase语义库,从上述网络表格中每个列的候选概念集合和整张网络表格的候选概念集合中得到网络表格的核心概念,并把核心概念应用于数据分类问题,使得距离评估和数据分类更加准确。
粗糙集合提取核心属性的说明:设T={U,C,D}代表某张网络表格,已知U={u1,u2,...,un}代表T的所有概念集合,C代表T的非决策概念集合,D代表T的决策概念集合,定义一个n×n的矩阵M(T)为T的区分矩阵,该区分矩阵中的元素为:
m ij = { c ∈ C : c ( u i ) ≠ c ( u j ) } if ∃ d ∈ D [ d ( u i ) ≠ d ( u j ) ] λ if ∀ d ∈ D [ d ( u i ) = d ( u j ) ]
根据区分矩阵可以计算得到T的约简属性集为Reduct1,...,Reductm,最后得到表格T的核心属性为Core=Reduct1∩Reduct2∩...∩Reductm
针对数据表描述的某个物体,与其相关的不同概念的代表性各不相同。例如,在描述学生信息的某张表中,包括了姓名、性别、学号、科目、成绩等概念,与姓名、性别相比,学号、科目和成绩对描述“学生”这个物体显然更具备代表性,因此,学号、科目和成绩这三个概念可以称为核心概念。
基于Probase语义库提供的概念和实体的关联程度信息,本发明实施例还提出了代表概念的概念。
对于网络表格T的第i列数据,假设我们基于Probase语义库得到的候选概念集合为CH={ch1,...,chk},对应的概率集合为P={p1,...,pk},整张表格T的候选概念集合为RC={rc1,...,rck}。
则第i列的候选概念的代表性概率rpi的计算公式如下:
r p i = Σ c j ∈ CH ∩ RC p j - - - ( 3 )
pj∈P表示概念cj与第i列的相关性程度,这个相关性程度是Probase语义库在返回某个概念的时候一起返回的。
表格T的代表概念由所有代表性概率大于阈值tr的所有概念构成。然后,将核心概念和代表概念的并集构成典型概念,用于提高聚类结果的准确性。
步骤S230、基于不同元组之间的组合距离,通过基于K-means的改进聚类算法对网络表格的所有元组进行聚类,得到缩减后的网络表格。
在本发明实施例中,使用基于K-means改进的聚类算法将表格中的相似元组聚集到一起,并挑选与聚类中心距离最近的k个元组作为典型性元组呈现。考虑到众包环境中对算法实时性的要求,由于K-means的算法执行速度优于K-medoids算法,本发明实施例选择基于K-means的改进算法。
组合距离:对于网络表格T,设其候选概念集合为A={a1,...,an},典型概念集合SA={s1a,...,sla},网络表格T中任意两个元组ti和tj之间的组合距离集合为其中代表元组ti和tj在对应概念ak(k=1,...,n)上的组合距离。
组合距离用于将表格中不同概念上得到的欧式距离和Jaccard文本相似度结合起来,欧式距离用于计算数据类型为数值型的概念之间的距离,其计算公式为:
d ij = ( x i - x j ) 2 - - - ( 4 )
其中,xi和xj分别代表元组ti和tj在对应概念上的数值。
Jaccard相似度用于计算数据类型为文本型的概念之间的距离,其计算公式为:
d ij = | s i ∩ s j | | s i ∪ s j | - - - ( 5 )
其中,si和sj分别代表元组ti和tj在对应概念上的文本集合。
最后,考虑到文本的语义,在使用Jaccard相似度计算文本之间的距离时,我们采用Apache提供的开源项目Lucene中的语言解析器和著名的PorterStemming Algorithm来去除文本中类似于介词、冠词等无关语义的词语。
本发明实施例对基于传统K-means聚类算法做了两个方面的改进:(1)初始聚类中心的选择;(2)使用基于代表概念的综合距离来评估元组之间的相似度。
首先,基于元组之间距离越大,归入不同簇的可能性就越大的原则来选择初始聚类中心,本发明实施例提供的一种初始聚类中心的选择流程图如图3所示,包括如下的处理过程:
假设用Cen={cen1,...,cenk}代表初始的k个中心,根据图3所示的流程,第一个初始聚类中心元组cen1在网络表格的元组中通过随机的方式选取,计算剩余的各个元组与cen1之间的组合距离,选取与cen1之间的组合距离最大的元组作为第二个初始聚类中心元组cen2。然后,计算剩余的各个元组与cen1、cen2之间的距离,将与cen1、cen2之间的组合距离的和值最大的元组作为第三个初始聚类中心元组cen3。依次类推,将与已经选中的各个初始聚类中心之间的组合距离的和值最大的元组作为下一个初始聚类中心元组,直到选取全部的K个初始聚类中心。
本发明实施例为不同概念上的各个组合距离分配对应的权重,当表格中存在典型概念时,在距离评估函数中为其分配较高的权重,从而提高元组之间相似度计算的准确性。为不同概念上的各个组合距离分配的权重集合为元组ti和tj之间的组合距离使用以下公式计算:
D ij = Σ k = 1 n w ij k d ij k                 公式6
得到k个初始聚类中心,以每个初始聚类中心为一簇,按照图4所示的改进k-means聚类算法流程图完成元组聚类,具体处理过程包括:计算当前待聚类元组与各初始聚类中心之间的组合距离,将待聚类元组归纳于最小的组合距离对应的初始聚类中心所在的簇,依次类推,依次将所有待聚类元组分别归纳于对应的簇中,完成第一轮元组聚类。
针对每一个簇,分别计算其中每一个元组与其他元组之间的平均距离,选取平均距离最小的元组作为均值元组。用各簇的均值元组代替当前簇的聚类中心,按照所述第一轮元组聚类的过程,进行第二轮的元组聚类。
每轮元组聚类结束后,用各簇的均值元组代替当前簇的聚类中心,并进行下一轮的元组聚类,直至最终所有待分类元组所属的簇不再发生改变,则聚类结束。
然后,将各个簇的聚类中心(数量为K个)提取出来,组合成缩减后的网络表格。
步骤S240、将上述缩减后的网络表格,网络表格中每个列的候选概念集合和整张网络表格的候选概念集合提供给任务处理者,基于答案可信度的评估机制,从多个任务处理者提交的答案中挑选出最佳答案。
众包模式以自由自愿的形式将任务外包给非特定的人群,扩大了一个组织的边界,充分利用外部资源,为解决问题降低成本、提高效率。在应用于解决语义恢复问题之前,人的智慧已经被引入到开放式检索、模式匹配等问题研究上。
网络表格语义恢复平台中的用户分为任务发布者和任务处理者,前者负责发布任务,后者则负责接受和完成任务。网络表格语义恢复平台将上述通过基于K-means的改进聚类算法得到的缩减后的网络表格,以及根据上述Probase语义库得到的待恢复的网络表格中每个列的候选概念集合,整张网络表格的候选概念集合提供给任务处理者。然后,任务处理者基于他对任务所属领域的熟悉度利用人的智慧,得出待恢复的网络表格的包括表头和实体列的答案。
使用F={f1,...,fm}表示所有领域的集合,任务发布者在发布每项任务时都为该任务设定可能隶属的领域。对于每位任务处理者,他针对每项任务的答案可信度都是基于他对任务所属领域的熟悉度得到的。因此,本发明实施例提出域可信度的概念来描述任务处理者对F中某个领域的熟悉度,域可信度通过以下几个方面计算得到:
1)专业领域的设置:每位任务处理者在注册成为系统任务处理者时,都被要求从F中选择若干领域作为自己擅长的专业领域。假设E={e1,...,ev|ei∈F,1≤i≤v}代表任务处理者设置的专业领域,则任务处理者对应的基本分数集合为
2)完成任务的实际表现:针对某个任务T,FT={f1,...,ft}表示任务发布者发布该任务时设定的领域集合,IAns={Ians1,...,Iansn,Iansn+1}表示某个任务处理者提交的包括表头和实体列的答案,FAns={Fans1,...,Fansn,Fansn+1}表示从若干个任务处理者提交的备选答案中得到的最终答案,则该任务处理者完成任务T的实际得分为:
3)领域评测得分:设某位任务处理者完成了M项领域评测任务,表示这些任务隶属的领域集合,对应的评测任务的得分集合为SM={s1,...,sM},则最终的领域评测得分为
对于某位任务处理者,假设他针对F中的某个领域fi的基本分数、完成任务的实际分数和领域评测得分分别为esi、psi和bsi i,则其对应的领域可信度使用以下公式计算得到:
fci=sw1*esi+sw2*psi+sw3*bsi             (6)
其中,sw1代表基本分数esi对应的权重,sw2代表完成任务的实际分数psi对应的权重,sw3代表领域评测得分bsi对应的权重。
定义2.答案可信度:设U代表接受任务T的任务处理者,给定任务T上设定的领域集合FT={f1,...,ft},U的领域可信度集合FC={fc1,...,fct},以及U提交的备选答案集合IAns={Ians1,...,Iansn,Iansn+1},则U针对任务T的答案可信度为:
AC = Σ i = 1 t f c i - - - ( 7 )
在本发明实施例中,答案可信度用于评估任务处理者提交的候选答案成为最终答案的可能性,此外也用于为任务处理者推荐自己最擅长的相关任务。
当有k个任务处理者为所述任务提交答案时,所述k个任务处理者的答案可信度分别为针对网络表格中第i列,分别提取出所述k个任务处理者的k个答案中针对所述第i列的恢复结果IAnsi,该恢复结果中包括第i列的列标签,还可以包括第i列为实体列的信息。
将所有答案中针对第i列的相同的恢复结果组成一个或者多个集合Qv,v=1,...,s,s<k,所述Qv对应的任务处理者的集合为wv,wv=1,...,z,z<k;
集合Qv的评估得分为
将具有最高的评估得分的集合Qv作为所述第i列的最终恢复结果,将所述网络表格中每个列的最终恢复结果进行合并,得到恢复出的网络表格的所有列的列标签和实体列,即得到所述任务的最终答案。
综上所述,本发明实施例通过从初始聚类中心的选择和基于组合距离的相似度计算两个方面来改善K-means聚类算法,有效地将网络表格中相似的元组聚集到一起,挑选少量的代表性元组呈现给任务处理者,取得了比较好的聚类效果,有效缩减了网络表格的规模,降低了完成任务的复杂度。
本发明实施例通过将任务分配给多个任务处理者,可以利用人的智慧为网络表格寻找尽可能准确的表头和实体列。为了给任务处理者推荐自己擅长的任务和帮助系统,为每项任务挑选可信度高的最终答案,本发明实施例提出了答案可信度的概念,并基于这个概念实现了一套任务推荐机制和答案决策机制,有效地提高了任务的最终答案的准确度,提高了恢复出的网络表格的表头和实体列的准确率。
本发明实施例通过将表格中不同概念上得到的欧式距离和Jaccard文本相似度结合起来,并给不同概念分别分配对应的权重,可以更加准确地计算出不同元组之间的组合距离,不论针对处理数值型的数据,还是针对文本型的数据,组合距离的计算准确率都很高。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (9)

1.一种网络表格语义恢复方法,其特征在于,包括:
基于Probase语义库对待恢复的网络表格进行初步的语义恢复,得到所述网络表格中每列的候选概念集合;
根据所述网络表格中不同元组之间的组合距离确定聚类算法中的各个初始聚类中心,将所述网络表格中各个元组归纳于所述各个初始聚类中心所在的簇中,调整所述各个簇的聚类中心,根据所述各个簇的最终聚类中心获取缩减后的网络表格;
根据所述网络表格中每列的候选概念集合和所述缩减后的网络表格,恢复出所述网络表格中每列的列标签和实体列。
2.根据权利要求1所述的网络表格语义恢复方法,其特征在于,所述的基于Probase语义库对网络表格进行初步的语义恢复,得到所述网络表格中每列的候选概念集合,还包括:
基于Probase语义库对网络表格进行初步的语义恢复,得到所述网络表格的候选概念集合,基于粗糙集合理论从所述网络表格中每个列的候选概念集合和网络表格的候选概念集合中得到网络表格的核心概念;
对于所述网络表格的第i列数据,设基于Probase语义库得到的候选概念集合为CH={ch1,...,chk},对应的概率集合为P={p1,...,pk},所述网络表格的候选概念集合为RC={rc1,...,rck};
则第i列的候选概念的代表性概率rpi的计算公式如下:
rp i = Σ c j ∈ CH ∩ RC p j
pj∈P,表示概念cj与第i列的相关性程度;
将代表性概率rpi大于设定的阈值的所有概念作为所述网络表格的代表概念;
将所述网络表格的核心概念和代表概念的并集作为所述网络表格的典型概念。
3.根据权利要求2所述的网络表格语义恢复方法,其特征在于,所述的根据所述网络表格中不同元组之间的组合距离确定聚类算法中的各个初始聚类中心,包括:
用Cen={cen1,...,cenk}代表所述网络表格中k个初始聚类中心,第一个初始聚类中心元组cen1在网络表格的元组中通过随机的方式选取,计算剩余的各个元组与cen1之间的组合距离,选取与cen1之间的组合距离最大的元组作为第二个初始聚类中心元组cen2
计算剩余的各个元组与cen1、cen2之间的组合距离,将与cen1、cen2之间的组合距离的和值最大的元组作为第三个初始聚类中心元组cen3,依次类推,将与已经选中的各个初始聚类中心之间的组合距离的和值最大的元组作为下一个初始聚类中心元组,直到选取全部的K个初始聚类中心。
4.根据权利要求3所述的网络表格语义恢复方法,其特征在于,所述网络表格中不同元组之间的组合距离的计算方法包括:
对于网络表格T,设其候选概念集合为A={a1,...,an},典型概念集合网络表格T中任意两个元组ti和tj之间的组合距离集合为其中代表元组ti和tj在对应概念ak(k=1,...,n)上的组合距离;
对于数据类型为数值型的概念,所述两个元组ti和tj之间的距离的计算公式为:
d ij = ( x i - x j ) 2
其中,xi和xj分别代表元组ti和tj在对应数值型的概念上的数值;
对于数据类型为文本型的概念,所述两个元组ti和tj之间的距离的计算公式为:
d ij = | S i ∩ S j | | S i ∪ s j |
其中,si和sj分别代表元组ti和tj在对应文本型概念上的文本集合;
为不同概念上的各个距离分配的权重集合为:
所述元组ti和tj之间的组合距离Dij使用以下公式计算:
D ij = Σ k = 1 n w ij k d ij k
5.根据权利要求4所述的网络表格语义恢复方法,其特征在于,所述将所述网络表格中各个元组归纳于所述各个初始聚类中心所在的簇中,调整所述各个簇的聚类中心,根据所述各个簇的最终聚类中心获取缩减后的网络表格,包括:
得到k个初始聚类中心后,以每个初始聚类中心为一簇,依次选取所述网络表格中各个待聚类元组,计算出待聚类元组与各初始聚类中心之间的组合距离,将待聚类元组归纳于最小的组合距离对应的初始聚类中心所在的簇,依次类推,依次将所有待聚类元组分别归纳于对应的簇中,完成第一轮元组聚类;
用各簇的均值元组代替当前簇的聚类中心,按照所述第一轮元组聚类的过程,进行第二轮的元组聚类,依次类推,每轮元组聚类结束后,用各簇的均值元组代替当前簇的聚类中心,并进行下一轮的元组聚类,直至最终所有待分类元组所属的簇不再发生改变,则聚类结束;
将各个簇的聚类中心提取出来,组合成缩减后的网络表格。
6.根据权利要求1至5任一项所述的网络表格语义恢复方法,其特征在于,根据所述网络表格中每列的候选概念集合和所述缩减后的网络表格,恢复出所述网络表格中每列的列标签和实体列,包括:
将所述网络表格中每列的候选概念集合和所述缩减后的网络表格构成一个任务,将所述任务分配给多个任务处理者,接收各个任务处理者返回的所述任务的答案,所述答案中包括所述网络表格中每列的列标签和实体列;
计算出各个任务处理者对所述任务涉及的领域集合的领域可信度,根据各个任务处理者对所述任务涉及的领域集合的领域可信度,获取各个任务处理者返回的答案的答案可信度;
根据各个任务处理者返回的答案的答案可信度计算出各个答案的评估得分,将具有最高的评估得分的答案作为所述任务的最终答案。
7.根据权利要求6所述的网络表格语义恢复方法,其特征在于,所述的计算出各个任务处理者对所述任务涉及的领域集合的领域可信度,包括:
设F={f1,...,fm}为所有领域的集合,E={e1,...,ev|ei∈F,1≤i≤v}代表任务处理者设置的专业领域,则任务处理者对应的基本分数集合为
针对某个任务T,FT={f1,...,ft}表示任务发布者发布该任务时设定的领域集合,IAns={Ians1,...,Iansn,Iansn+1}表示某个任务处理者提交的所述任务T的包括表头和实体列的答案,FAns={Fans1,...,Fansn,Fansn+1}表示从若干个任务处理者提交的备选答案中得到的最终答案,则该任务处理者完成任务T的实际得分为:
设某位任务处理者完成了M项领域评测任务,FM={f1,...,fM}表示这些任务隶属的领域集合,对应的评测任务的得分集合为SM={s1,...,sM},则最终的领域评测得分为:
设分配给各个任务处理者的所述任务涉及的领域集合为fi,某位任务处理者针对所述领域集合fi的基本分数、完成任务的实际分数和领域评测得分分别为esi、psi和bsi,则所述某位任务处理者对所述任务涉及的领域集合fi的领域可信度使用以下公式计算得到:
fci=sw1*esi+sw2*psi+sw3*bsi
其中,sw1代表基本分数esi对应的权重,sw2代表完成任务的实际分数psi对应的权重,sw3代表领域评测得分bsi对应的权重。
8.根据权利要求7所述的网络表格语义恢复方法,其特征在于,所述的根据各个任务处理者对所述任务涉及的领域集合的领域可信度,获取各个任务处理者返回的答案的答案可信度,包括:
设所述任务涉及的领域集合FT={f1,...,ft},任务处理者对所述任务涉及的领域集合FT={f1,...,ft}的领域可信度集合FC={fc1,...,fct},则所述任务处理者针对所述任务的答案可信度AC的计算公式为:
AC = Σ i = 1 t fc i .
9.根据权利要求8所述的网络表格语义恢复方法,其特征在于,所述的根据各个任务处理者返回的答案的答案可信度计算出各个答案的评估得分,将具有最高的评估得分的答案作为所述任务的最终答案,包括:
当有k个任务处理者为所述任务提交答案时,所述k个任务处理者的答案可信度分别为针对网络表格中第i列,分别提取出所述k个任务处理者的k个答案中针对所述第i列的恢复结果;
将所有答案中针对所述第i列的相同的恢复结果组成一个或者多个集合Qv,v=1,...,s,s<k,所述Qv对应的任务处理者的集合为wv,wv=1,...,z,z<k;
集合Qv的评估得分为 Σ q ∈ w v AC T q | Q v |
将具有最高的评估得分的集合Qv作为所述第i列的最终恢复结果,将所述网络表格中每个列的最终恢复结果进行合并,得到所述任务的最终答案。
CN201510211926.XA 2015-04-29 2015-04-29 网络表格语义恢复方法 Expired - Fee Related CN104794222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510211926.XA CN104794222B (zh) 2015-04-29 2015-04-29 网络表格语义恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510211926.XA CN104794222B (zh) 2015-04-29 2015-04-29 网络表格语义恢复方法

Publications (2)

Publication Number Publication Date
CN104794222A true CN104794222A (zh) 2015-07-22
CN104794222B CN104794222B (zh) 2017-12-12

Family

ID=53559014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510211926.XA Expired - Fee Related CN104794222B (zh) 2015-04-29 2015-04-29 网络表格语义恢复方法

Country Status (1)

Country Link
CN (1) CN104794222B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708901A (zh) * 2015-11-17 2017-05-24 北京国双科技有限公司 网站内搜索词的聚类方法及装置
CN106844338A (zh) * 2017-01-03 2017-06-13 北京交通大学 基于属性间依赖关系的网络表格的实体列的检测方法
CN107766567A (zh) * 2017-11-08 2018-03-06 北京交通大学 网络表的实体扩展方法
CN108596800A (zh) * 2018-04-13 2018-09-28 北京交通大学 一种基于贝叶斯的开放性答案决策方法
CN110019829A (zh) * 2017-09-19 2019-07-16 小草数语(北京)科技有限公司 数据属性确定方法、装置
CN111199154A (zh) * 2019-12-20 2020-05-26 重庆邮电大学 基于容错粗糙集的多义词词表示方法、系统及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392472B1 (en) * 2009-11-05 2013-03-05 Adobe Systems Incorporated Auto-classification of PDF forms by dynamically defining a taxonomy and vocabulary from PDF form fields
CN104199924A (zh) * 2014-09-01 2014-12-10 北京交通大学长三角研究院 选择具有快照关系的网络表格的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392472B1 (en) * 2009-11-05 2013-03-05 Adobe Systems Incorporated Auto-classification of PDF forms by dynamically defining a taxonomy and vocabulary from PDF form fields
CN104199924A (zh) * 2014-09-01 2014-12-10 北京交通大学长三角研究院 选择具有快照关系的网络表格的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DONG DENG等: "Scalable Column Concept Determination for Web Tables Using Large Knowledge Based", 《PROCEEDINGS OF THE VLDB ENDOWMENT》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708901A (zh) * 2015-11-17 2017-05-24 北京国双科技有限公司 网站内搜索词的聚类方法及装置
CN106844338A (zh) * 2017-01-03 2017-06-13 北京交通大学 基于属性间依赖关系的网络表格的实体列的检测方法
CN106844338B (zh) * 2017-01-03 2019-12-10 北京交通大学 基于属性间依赖关系的网络表格的实体列的检测方法
CN110019829A (zh) * 2017-09-19 2019-07-16 小草数语(北京)科技有限公司 数据属性确定方法、装置
CN107766567A (zh) * 2017-11-08 2018-03-06 北京交通大学 网络表的实体扩展方法
CN107766567B (zh) * 2017-11-08 2020-04-21 北京交通大学 网络表的实体扩展方法
CN108596800A (zh) * 2018-04-13 2018-09-28 北京交通大学 一种基于贝叶斯的开放性答案决策方法
CN108596800B (zh) * 2018-04-13 2022-05-13 北京交通大学 一种基于贝叶斯的开放性答案决策方法
CN111199154A (zh) * 2019-12-20 2020-05-26 重庆邮电大学 基于容错粗糙集的多义词词表示方法、系统及介质
CN111199154B (zh) * 2019-12-20 2022-12-27 重庆邮电大学 基于容错粗糙集的多义词词表示方法、系统及介质

Also Published As

Publication number Publication date
CN104794222B (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN101408886B (zh) 通过分析文档的段落来选择该文档的标签
CN104794222A (zh) 网络表格语义恢复方法
CN112163077B (zh) 一种面向领域问答的知识图谱构建方法
US7917490B2 (en) Interpreting local search queries
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
CN101216853B (zh) 一种智能Web查询接口系统及其方法
CN105719191B (zh) 多尺度空间下不确定行为语义的社交群体发现方法
CN105893523A (zh) 利用答案相关性排序的评估度量来计算问题相似度的方法
CN109508385B (zh) 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法
CN101408887A (zh) 推荐词条以指定本体空间
CN102663129A (zh) 医疗领域深度问答方法及医学检索系统
CN101963971A (zh) 使用相关性反馈进行数据库搜索的方法及相应的储存介质
CN108920521B (zh) 基于伪本体的用户画像-项目推荐系统及方法
CN113239071B (zh) 面向科技资源学科及研究主题信息的检索查询方法及系统
Cacheda et al. Click through rate prediction for local search results
CN106294654A (zh) 一种本体排序方法及系统
TWI501183B (zh) 個人化教科書推薦系統及其方法
CN113420139B (zh) 一种文本匹配方法、装置、电子设备及存储介质
Meng et al. A personalized and approximated spatial keyword query approach
Xu Web mining techniques for recommendation and personalization
CN114708064A (zh) 一种基于元学习和知识图谱的商品推荐方法
CN112765311A (zh) 一种裁判文书的搜索方法
CN114281942A (zh) 问答处理方法、相关设备及可读存储介质
CN107230158A (zh) 社交网络用户相对影响力度量方法
Zeng et al. Model-Stacking-based network user portrait from multi-source campus data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171212

Termination date: 20210429