CN105573971A - 表格重构装置和方法 - Google Patents

表格重构装置和方法 Download PDF

Info

Publication number
CN105573971A
CN105573971A CN201410532186.5A CN201410532186A CN105573971A CN 105573971 A CN105573971 A CN 105573971A CN 201410532186 A CN201410532186 A CN 201410532186A CN 105573971 A CN105573971 A CN 105573971A
Authority
CN
China
Prior art keywords
attribute
description object
row
description
determining unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410532186.5A
Other languages
English (en)
Other versions
CN105573971B (zh
Inventor
缪庆亮
孟遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201410532186.5A priority Critical patent/CN105573971B/zh
Priority to JP2015199484A priority patent/JP6586850B2/ja
Publication of CN105573971A publication Critical patent/CN105573971A/zh
Application granted granted Critical
Publication of CN105573971B publication Critical patent/CN105573971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种表格重构装置和方法。该装置包括:列属性确定单元,被配置成确定表格中每一列的属性;描述对象确定单元,被配置成通过将所确定的每一列的属性与语义知识库链接来确定表格中的描述对象;描述对象相关属性确定单元,被配置成在语义知识库中确定每个描述对象的属性集合,计算表格中每一列的属性与属性集合中的每个属性的第一相似度来确定表格中与描述对象相关的属性;以及表格重构单元,被配置成使用描述对象和与描述对象相关的属性对表格进行重构。根据本发明的表格重构装置和方法,能够将结构复杂、字段重叠、包括多个描述对象和属性的表格重构成结构简单、描述对象单一的单一描述对象表格。

Description

表格重构装置和方法
技术领域
本发明涉及信息处理领域,更具体地涉及一种表格重构装置和方法。
背景技术
随着互联网的飞速发展,互联网中出现了大量的表格数据,表格数据中含有丰富的结构化信息。挖掘表格数据可以获取大量的人类知识。但是表格数据往往结构复杂,字段重叠,一张表格中包括多个描述对象及其属性。有些属性可以描述多个描述对象,因此要从表格中抽取知识,首先应该将表格重构成结构简单,描述对象单一的形式,然后才能进行有效的知识获取。例如,图1A中的表格包括两个描述对象“人”和“公司”,其中描述人的属性有“姓名、国籍、学位、毕业院校、创办企业、联系方式、e-mail”,描述公司的属性有“成立日期、地址、服务、领域、联系方式”,其中“联系方式”列既可以是描述人的属性,又可以是描述公司的属性。
因此,需要一种将表格重构成结构简单、描述对象单一的形式的单一描述对象表格的装置和方法。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于,提供一种表格重构装置,包括:列属性确定单元,被配置成确定表格中每一列的属性;描述对象确定单元,被配置成通过将所确定的每一列的属性与语义知识库链接来确定表格中的描述对象;描述对象相关属性确定单元,被配置成在语义知识库中确定每个描述对象的属性集合,计算表格中每一列的属性与属性集合中的每个属性的第一相似度来确定表格中与描述对象相关的属性;以及表格重构单元,被配置成使用描述对象和与描述对象相关的属性对表格进行重构。
根据本发明的一个方面,提供了一种表格重构方法,包括:确定表格中每一列的属性;通过将所确定的每一列的属性与语义知识库链接来确定表格的描述对象;在语义知识库中确定每个描述对象的属性集合,计算表格中每一列的属性与属性集合中的每个属性的第一相似度来确定表格中与描述对象相关的属性;以及使用描述对象和与描述对象相关的属性重构表格。
另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1A示出了包含多个描述对象的示例性表格;
图1B和图1C是由图1A中的表格重构的两个单一描述对象的表格的图;
图2示出了根据本发明的一个实施例的对表格进行重构的装置200的示例性配置的框图;
图3是示出图2中的描述对象确定单元204的一种示例性配置的框图;
图4示出了根据本发明的一个实施例的对表格进行重构的方法400的流程图;
图5是示出图4中的步骤S404的一种示例性过程的流程图;
图6是示出可以用于实施本发明的表格重构装置和方法的计算设备的示例性结构图。
具体实施方式
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
本发明提出一种表格重构装置和方法,可以将包含多个描述对象的表格(如图1A所示)拆分成多个单一描述对象表格(例如图1B和图1C)。从图1A-1C可以看到,图1A中的表格包括两个描述对象“人”和“公司”,其中描述人的属性有“姓名、国籍、学位、毕业院校、创办企业、联系方式、e-mail”,描述公司的属性有“成立日期、地址、服务、领域、联系方式”,其中“联系方式”列既可以是描述人的属性,又可以是描述公司的属性。如图1B和1C所示,分别是根据图1A中的两个描述对象“人”和“公司”及其对应的属性重构的两个单一描述对象表格。
根据本发明的装置和方法,首先根据表格列标题和/或表格列中的实例信息确定该列对应的属性,然后根据每列的对应的属性确定描述对象及其属性列,最后根据描述对象和属性列的对应关系将原始表格重构成单一描述对象表格。
下面结合附图详细说明根据本发明的一个实施例的对表格进行重构的装置。
图2示出了根据本发明的一个实施例的对表格进行重构的装置200的示例性配置的框图。
如图2所示,表格重构装置200包括列属性确定单元202、描述对象确定单元204、描述对象相关属性确定单元206和表格重构单元208。
列属性确定单元202可以确定表格中每一列的属性。
描述对象确定单元204可以通过将所确定的每一列的属性与语义知识库链接来确定表格中的描述对象。
描述对象相关属性确定单元206可以在语义知识库中确定每个描述对象的属性集合,计算表格中每一列的属性与属性集合中的每个属性的第一相似度来确定表格中与描述对象相关的属性。
表格重构单元208可以使用描述对象和与描述对象相关的属性对表格进行重构。
下面分别详细说明表格重构装置200所包括的各个单元。
表格的每一列都表示描述对象的某个属性。确定表格的列对应的属性可以是确认表格的列与语义知识库中哪个属性对应。在一个示例中,语义知识库可以是LOD(linkedopendata,一种全球知识库)知识库,下文中就以LOD知识库作为语义知识库的示例进行说明。
在本发明的一个示例性实施例中,确定表格的列对应的属性可以考虑以下两方面的信息:列标题和列实例信息。当表格存在列标题时,表格的列标题通常是表格的第一行,将表格列标题与LOD知识库中的属性进行链接,可以得到LOD知识库中的对应的属性。如果没有找到对应的LOD属性,再通过基于列实例的识别方法进行识别。如果表格没有列标题,那么直接使用基于列实例的识别方法进行识别。
下面介绍基于列实例信息来确定表格中每一列的属性的一个示例性方法。
首先,对于有特定模式的列实例使用正则表达式识别。例如,邮政编码、电话号码(手机号码,座机号码)、网址URL、IP地址、E-mail、时间、日期等。可以确定图1A中的表格的第6、7、8列的属性为成立日期、联系方式和e-mail。
其次,识别人名,地址等内容。人名识别可以利用姓氏词典识别;地址使用具有层级关系的地址知识库匹配,地址知识库层级关系由上到下为国家,省市/自治区,区县,乡镇,街道等,地址也可以使用搜索引擎判断,即使用地图搜索引擎检索该列实例,如果地图搜索引擎返回检索结果,那么该列实例对应的属性为地址。可以确定图1A中,第1列和第9列对应的属性分别为姓名和地址。
最后,将未知属性的列对应的列实例与LOD知识库中的实体进行链接,使用LOD知识库中的知识判断表格列对应的属性。例如将图1A中的第4列与LOD知识库进行链接,根据LOD知识库,可以知道“清华大学”和“斯坦福大学”的对应属性都是“大学”。通过这种方式,可以确定第2、3、4、5、10、11的对应属性分别是国籍、学位、毕业院校、创办企业、服务、领域。
在一个示例中,对表格列的对应属性的识别采用全局协同识别,即识别结果不依赖于某个列实例,而是该列中多个列实例协同识别的结果。例如,某列有n个实例,其中有m个对应属性pa,n-m个对应属性pb,那么最终该列的类别可以由预设条件决定,如果m>(n-m)且m/n大于预设值,则该列对应的属性为pa。如果不满足预设条件则无法识别,可以忽略该列。
通过上述过程,列属性确定单元202可以确定表格中每一列的属性。
接着,描述对象确定单元204可以通过将所确定的每一列的属性与语义知识库链接来确定表格中的描述对象。
图3是示出图2中的描述对象确定单元204的一种示例性配置的框图。
如图3所示,描述对象确定单元204包括实体列数确定子单元2042、描述对象集合确定子单元2044、描述对象条件概率确定子单元2046和描述对象确定子单元2048。
大多数情况下,描述对象都是实体,实体列数确定子单元2042可以根据在列属性确定单元202中得到的与LOD知识库的链接结果找到包含实体的列,来得到包含实体的列数,记为N。
已知属性pj,可以从LOD中统计概率P(si|pj),其中si为描述对象变量,pj为属性变量,P(si|pj)的含义为给定某个属性pj,pj可以描述si的概率。
假设一个表格T有c列,对于表格中的每一个列的属性pj(j=1,2,…c),都可以在LOD中得到一个描述对象集合Sj,总共可以得到c个描述对象集合。描述对象集合确定子单元2044可以用于获得与每一列的属性对应的描述对象集合。
每个描述对象集合中的各个描述对象si都有一个条件概率P(si|pj),集合S可以表示为二元组<si,P(si|pj)>的集合。描述对象条件概率确定子单元2046可以基于LOD知识库确定与每一列的属性对应的描述对象集合中的每个描述对象能够由该属性描述的条件概率。
由于一个描述对象si可能由多个属性描述,因而si可能出现在多个描述对象集合中,可以得到si由不同属性描述的多个条件概率P(si|p1)、P(si|p2)…。
描述对象确定子单元2048可以根据各个描述对象在所有描述对象集合中的条件概率来确定表格T的描述对象。
在一个示例中,描述对象确定子单元2048可以计算各个描述对象si在c个描述对象集合中的条件概率的平均概率P(si),将P(si)由大到小排序,取前N个描述对象作为表格T的描述对象。
在另一个示例中,描述对象确定子单元2048可以计算各个描述对象si在c个描述对象集合中的全部条件概率的总和P(si)sum,将P(si)sum由大到小排序,取前N个描述对象作为表格T的描述对象。
针对描述对象确定单元204所确定的每个描述对象si,描述对象相关属性确定单元206可以从LOD中得到每个描述对象si的属性集合Psi,计算属性集合Psi中的每个属性ps与表格中每一列的属性pt的相似度sim(ps,pt),根据相似度sim(ps,pt)来确定表格中与描述对象相关的列。例如,如果相似度sim(ps,pt)大于预定阈值,则认为属性pt与描述对象si相关。
计算属性ps与pt的相似度可使用的具体手段或方式为本领域技术人员所熟知,在此不再详细说明。
在一个示例性实施例中,描述对象相关属性确定单元206还进一步计算每个属性ps的值vs与表格中每一列的实例vt的相似度sim(vs,vt)。再计算相似度sim(ps,pt)与相似度sim(vs,vt)的加权和:
sim=α*sim(ps,pt)+(1-α)sim(vs,vt),其中α为预定系数
可以根据加权相似度sim来确定表格中与描述对象相关的列。如果sim大于预定阈值,那么属性pt与描述对象si相关。
在一个示例性实施例中,描述对象相关属性确定单元206还可以进行判断,如果某个描述对象si在表格列中找不到相关属性,即该描述对象的属性集合中的属性与表格中的属性都不相关,那么忽略该描述对象si.
通过属性确定单元202、描述对象确定单元204、描述对象相关属性确定单元206已经确定了表格的描述对象和与描述对象相关的属性,表格重构单元208可以使用所确定的描述对象和与描述对象相关的属性对表格进行重构。
通过根据本发明的一个实施例的对表格进行重构的装置200,可以将图1A所示的表格重构为图1B和图1C所示的结构简单、描述对象单一的形式的两个单一描述对象的表格。
在上文描述根据本发明的实施例的用于对表格进行重构的装置的过程中,显然还公开了一些处理或方法。下文中,在不重复上文中已经讨论过的某些细节的情况下给出这些方法的概述,但是,应当注意,虽然是在描述用于对表格进行重构的装置的过程中公开了这些方法,然而,这些方法并不一定采用上述这些部件,或者并不一定由这些部件来执行。例如,可以部分地或者完全地用硬件和/或固件来实现对表格进行重构的装置的实施方式,而以下讨论的对表格进行重构的方法也可以完全用计算机可执行的程序来实现,虽然这些方法也可以采用对表格进行重构的装置的硬件和/或固件。
在此需要说明的是,图2-3所示的对表格进行重构的装置200及其组成单元的结构仅仅是示例性的,本领域技术人员可以根据需要对图2-3所示的结构框图进行修改。
图4示出了根据本发明的一个实施例的对表格进行重构的方法400的流程图。
首先,在步骤S402中,确定表格中每一列的属性。
具体地,如果表格具有列标题,则将表格的列标题与语义知识库中的属性进行链接,得到对应的每一列的属性;如果表格没有列标题,则通过以下识别方法中的一项或多项来确定表格中每一列的属性:正则表达式识别、姓氏词典识别、地址知识库识别、地图搜索引擎识别、以及与语义知识库中的实体链接进行识别。
接着在步骤S404中,通过将所确定的每一列的属性与语义知识库链接来确定表格中的描述对象。
图5是示出图4中的步骤S404(通过将所确定的每一列的属性与语义知识库链接来确定表格中的描述对象)的一种示例性过程的流程图。
如图4所示,在步骤S4042中,根据在步骤S302中所确定的每一列的属性来得到包含实体的列的列数N。
在步骤S4044中,获得与每一列的属性对应的描述对象集合。
接着,在步骤S4046中,基于语义知识库确定与每一列的属性对应的描述对象集合中的每个描述对象能够由该属性描述的条件概率。
最后,在步骤S4048中,可以根据各个描述对象的条件概率来确定表格的描述对象。
在一个示例中,根据各个描述对象的条件概率来确定表格的描述对象可以包括:计算各个描述对象si在c个描述对象集合中的条件概率的平均概率P(si),将P(si)由大到小排序,取前N个描述对象即为表格T的描述对象。
在另一个示例中,根据各个描述对象的条件概率来确定表格的描述对象可以包括:计算各个描述对象si在c个描述对象集合中的全部条件概率的总和P(si)sum,将P(si)sum由大到小排序,取前N个描述对象即为表格T的描述对象。
针对在步骤S404中所确定的每个描述对象si,可以在步骤S406中,从LOD中得到描述对象si的属性集合Psi,计算属性集合Psi中的每个属性ps与表格中每一列的属性pt的相似度sim(ps,pt),可以根据相似度sim(ps,pt)来确定表格中与描述对象相关的列。例如,如果相似度sim(ps,pt)大于预定阈值,则认为属性pt与描述对象si相关。
在一个实施例中,还进一步计算每个属性ps的值vs与表格中每一列的实例vt的相似度sim(vs,vt)。再计算相似度sim(ps,pt)与相似度sim(vs,vt)的加权和:
sim=α*sim(ps,pt)+(1-α)sim(vs,vt),其中α为预定系数
可以根据加权相似度sim来确定表格中与描述对象相关的列。如果sim大于预定阈值,那么pt与描述对象si相关。
在一个示例性实施例中,还可以进一步判断,如果某个描述对象si在表格列中找不到相关属性,即该描述对象的属性集合中的属性与表格中的属性都不相关,那么忽略该描述对象si.
最后,在步骤S408中,可以根据通过以上步骤S402-S406所确定的表格的描述对象和与描述对象相关的属性,对表格进行重构。
通过根据本发明的一个实施例的对表格进行重构的方法400,可以将图1A所示的表格重构为图1B和图1C所示的结构简单、描述对象单一的形式的两个单一描述对象的表格。
关于对表格进行重构的方法400的各个步骤的细节可以参照结合图2-3描述的本发明的对表格进行重构的装置的实施例,这里不再详细描述。
本发明提出一种表格重构装置和方法,其能够将结构复杂、字段重叠、包括多个描述对象和属性的表格重构成结构简单、描述对象单一的形式的单一描述对象表格,从而进行有效的知识获取。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图6所示的通用计算机600安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM603中,也根据需要存储当CPU601执行各种处理等等时所需的数据。CPU601、ROM602和RAM603经由总线604彼此链路。输入/输出接口605也链路到总线604。
下述部件链路到输入/输出接口605:输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡比如LAN卡、调制解调器等)。通信部分609经由网络比如因特网执行通信处理。根据需要,驱动器610也可链路到输入/输出接口605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上,使得从中读出的计算机程序根据需要被安装到存储部分608中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。
在本说明书中,“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。
作为一个示例,上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
作为一个示例,在通过软件或固件实现的情况下,可以从存储介质或网络向具有专用硬件结构的计算机(例如图6所示的通用计算机600)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用,与其他实施方式中的特征相组合,或替代其他实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
本发明及其优点,但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此,所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。
基于以上的说明,可知公开至少公开了以下技术方案:
附记1、一种表格重构装置,包括:
列属性确定单元,被配置成确定表格中每一列的属性;
描述对象确定单元,被配置成通过将所确定的每一列的属性与语义知识库链接来确定所述表格中的描述对象;
描述对象相关属性确定单元,被配置成在所述语义知识库中确定每个描述对象的属性集合,计算所述表格中每一列的属性与所述属性集合中的每个属性的第一相似度来确定所述表格中与所述描述对象相关的属性;以及
表格重构单元,被配置成使用所述描述对象和与所述描述对象相关的属性对表格进行重构。
2、根据附记1所述的装置,其中,所述列属性确定单元进一步被配置成:
如果所述表格具有列标题,则将所述表格的列标题与所述语义知识库中的属性进行链接,得到对应的每一列的属性;
如果所述表格没有列标题,则通过以下识别方法中的一项或多项来确定所述表格中每一列的属性:正则表达式识别、姓氏词典识别、地址知识库识别、地图搜索引擎识别、以及与所述语义知识库中的实体链接进行识别。
3、根据附记1所述的装置,其中,所述描述对象确定单元包括:
实体列数确定子单元,被配置成根据所确定的每一列的属性来得到包含实体的列的列数N;
描述对象集合确定子单元,被配置成获得与所述每一列的属性对应的描述对象集合;
描述对象条件概率确定子单元,被配置成基于所述语义知识库确定与所述每一列的属性对应的描述对象集合中的每个描述对象能够由该属性描述的条件概率;以及
描述对象确定子单元,被配置成根据每个描述对象的条件概率来确定所述表格的描述对象。
4、根据附记3所述的装置,其中,所述描述对象确定子单元进一步被配置成:
计算各个描述对象在所有描述对象集合中的条件概率之和或者平均条件概率;以及
将各个描述对象的条件概率之和或者平均条件概率按照从大到小的顺序进行排序,取前N个描述对象作为所述表格的描述对象。
5、根据附记1所述的装置,其中,所述描述对象相关属性确定单元进一步被配置成:
计算所述表格中每一列的实例与所述属性集合中的每个属性的值的第二相似度;
将所述第一相似度和所述第二相似度加权求和获得加权相似度;以及
将所述加权相似度大于预定阈值的列的属性确定为所述表格中与所述描述对象相关的属性。
6、根据附记1所述的装置,其中,所述描述对象相关属性确定单元进一步被配置成:
如果所述描述对象的属性集合中的属性与所述表格中的属性都不相关,则舍弃该描述对象。
7、根据附记1所述的装置,其中,所述列属性确定单元进一步被配置成:
如果某一列中的实例对应多个属性,则根据预定条件确定该列的属性;
如果不满足预定条件,则忽略该列。
8、根据附记7所述的装置,其中,所述预定条件为:如果与多个属性中的某个属性对应的实例的数目大于与其他属性对应的实例的数目,则将该属性确定为该列的属性。
9、根据附记1所述的装置,其中,重构的表格为单一描述对象表格。
10、一种表格重构方法,包括:
确定表格中每一列的属性;
通过将所确定的每一列的属性与语义知识库链接来确定所述表格的描述对象;
在所述语义知识库中确定每个描述对象的属性集合,计算所述表格中每一列的属性与所述属性集合中的每个属性的第一相似度来确定所述表格中与所述描述对象相关的属性;以及
使用所述描述对象和与所述描述对象相关的属性重构表格。
11、根据附记10所述的方法,其中,确定表格中每一列的属性包括:
如果所述表格具有列标题,则将所述表格的列标题与所述语义知识库中的属性进行链接,得到对应的每一列的属性;
如果所述表格没有列标题,则通过以下识别方法中的一项或多项来确定所述表格中每一列的属性:正则表达式识别、姓氏词典识别、地址知识库识别、地图搜索引擎识别、以及与所述语义知识库中的实体链接进行识别。
12、根据附记10所述的方法,其中,通过将所确定的每一列的属性与语义知识库链接确定所述表格的描述对象包括:
根据所确定的每一列的属性来得到包含实体的列的列数N;
获得与所述每一列的属性对应的描述对象集合;
基于所述语义知识库确定与所述每一列的属性对应的描述对象集合中的每个描述对象能够由该属性描述的条件概率;以及
根据各个描述对象的条件概率来确定所述表格的描述对象。
13、根据附记求12所述的方法,其中,根据各个描述对象的条件概率来确定所述表格的描述对象包括:
计算各个描述对象在所有描述对象集合中的条件概率之和或者平均条件概率;以及
将各个描述对象的条件概率之和或者平均条件概率按照从大到小的顺序进行排序,取前N个描述对象作为所述表格的描述对象。
14、根据附记10所述的方法,其中,确定所述表格中与所述描述对象相关的属性还包括:
计算所述表格中每一列的实例与所述属性集合中的每个属性的值的第二相似度;
将所述第一相似度和所述第二相似度加权求和获得加权相似度;以及
将所述加权相似度大于预定阈值的列的属性确定为所述表格中与所述描述对象相关的属性。
15、根据附记10所述的方法,其中,在所述语义知识库中确定每个描述对象的属性集合,计算所述表格中每一列的属性与所述属性集合中的每个属性的第一相似度还包括:
如果所述描述对象的属性集合中的属性与所述表格中的属性都不相关,则舍弃该描述对象。
16、根据附记10所述的方法,其中,确定表格中每一列的属性包括:
如果某一列中的实例对应多个属性,则根据预定条件确定该列的属性;
如果不满足预定条件,则忽略该列。
17、根据附记16所述的方法,其中,所述预定条件为:如果与多个属性中的某个属性对应的实例的数目大于与其他属性对应的实例的数目,则将该属性确定为该列的属性。
18、根据附记10所述的方法,其中,重构的表格为单一描述对象表格。

Claims (10)

1.一种表格重构装置,包括:
列属性确定单元,被配置成确定表格中每一列的属性;
描述对象确定单元,被配置成通过将所确定的每一列的属性与语义知识库链接来确定所述表格中的描述对象;
描述对象相关属性确定单元,被配置成在所述语义知识库中确定每个描述对象的属性集合,计算所述表格中每一列的属性与所述属性集合中的每个属性的第一相似度来确定所述表格中与所述描述对象相关的属性;以及
表格重构单元,被配置成使用所述描述对象和与所述描述对象相关的属性对表格进行重构。
2.根据权利要求1所述的装置,其中,所述列属性确定单元进一步被配置成:
如果所述表格具有列标题,则将所述表格的列标题与所述语义知识库中的属性进行链接,得到对应的每一列的属性;
如果所述表格没有列标题,则通过以下识别方法中的一项或多项来确定所述表格中每一列的属性:正则表达式识别、姓氏词典识别、地址知识库识别、地图搜索引擎识别、以及与所述语义知识库中的实体链接进行识别。
3.根据权利要求1所述的装置,其中,所述描述对象确定单元包括:
实体列数确定子单元,被配置成根据所确定的每一列的属性来得到包含实体的列的列数N;
描述对象集合确定子单元,被配置成获得与所述每一列的属性对应的描述对象集合;
描述对象条件概率确定子单元,被配置成基于所述语义知识库确定与所述每一列的属性对应的描述对象集合中的每个描述对象能够由该属性描述的条件概率;以及
描述对象确定子单元,被配置成根据每个描述对象的条件概率来确定所述表格的描述对象。
4.根据权利要求3所述的装置,其中,所述描述对象确定子单元进一步被配置成:
计算各个描述对象在所有描述对象集合中的条件概率之和或者平均条件概率;以及
将各个描述对象的条件概率之和或者平均条件概率按照从大到小的顺序进行排序,取前N个描述对象作为所述表格的描述对象。
5.根据权利要求1所述的装置,其中,所述描述对象相关属性确定单元进一步被配置成:
计算所述表格中每一列的实例与所述属性集合中的每个属性的值的第二相似度;
将所述第一相似度和所述第二相似度加权求和获得加权相似度;以及
将所述加权相似度大于预定阈值的列的属性确定为所述表格中与所述描述对象相关的属性。
6.根据权利要求1所述的装置,其中,所述描述对象相关属性确定单元进一步被配置成:
如果所述描述对象的属性集合中的属性与所述表格中的属性都不相关,则舍弃该描述对象。
7.根据权利要求1所述的装置,其中,所述列属性确定单元进一步被配置成:
如果某一列中的实例对应多个属性,则根据预定条件确定该列的属性;
如果不满足预定条件,则忽略该列。
8.根据权利要求7所述的装置,其中,所述预定条件为:如果与多个属性中的某个属性对应的实例的数目大于与其他属性对应的实例的数目,则将该属性确定为该列的属性。
9.根据权利要求1所述的装置,其中,重构的表格为单一描述对象表格。
10.一种表格重构方法,包括:
确定表格中每一列的属性;
通过将所确定的每一列的属性与语义知识库链接来确定所述表格的描述对象;
在所述语义知识库中确定每个描述对象的属性集合,计算所述表格中每一列的属性与所述属性集合中的每个属性的第一相似度来确定所述表格中与所述描述对象相关的属性;以及
使用所述描述对象和与所述描述对象相关的属性重构表格。
CN201410532186.5A 2014-10-10 2014-10-10 表格重构装置和方法 Active CN105573971B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410532186.5A CN105573971B (zh) 2014-10-10 2014-10-10 表格重构装置和方法
JP2015199484A JP6586850B2 (ja) 2014-10-10 2015-10-07 テーブル再構成装置と方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410532186.5A CN105573971B (zh) 2014-10-10 2014-10-10 表格重构装置和方法

Publications (2)

Publication Number Publication Date
CN105573971A true CN105573971A (zh) 2016-05-11
CN105573971B CN105573971B (zh) 2018-09-25

Family

ID=55884123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410532186.5A Active CN105573971B (zh) 2014-10-10 2014-10-10 表格重构装置和方法

Country Status (2)

Country Link
JP (1) JP6586850B2 (zh)
CN (1) CN105573971B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656909A (zh) * 2017-10-30 2018-02-02 北京明朝万达科技股份有限公司 一种基于文档混合特征的文档相似度判定方法和装置
CN108932268A (zh) * 2017-05-26 2018-12-04 华为软件技术有限公司 数据处理方法及装置
CN110019829A (zh) * 2017-09-19 2019-07-16 小草数语(北京)科技有限公司 数据属性确定方法、装置
CN110609928A (zh) * 2019-08-28 2019-12-24 宁波市智慧城市规划标准发展研究院 基于政务数据的姓名特征识别系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11860910B2 (en) 2019-01-23 2024-01-02 Nec Corporation Information provision system, method, and program

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1126383A1 (en) * 1999-08-31 2001-08-22 Obun Insatsu CO., Ltd. Database system
EP1361758A1 (en) * 2002-05-06 2003-11-12 Motorola, Inc. Image content reconfiguration for different device capabilities and methods therefor
CN1862527A (zh) * 2006-06-09 2006-11-15 无锡永中科技有限公司 电子表格中行头与列头表示信息的方法
US20090097769A1 (en) * 2007-10-16 2009-04-16 Sytech Solutions, Inc. Systems and methods for securely processing form data
CN102103576A (zh) * 2009-12-17 2011-06-22 珠海金山软件有限公司 一种利用计算机分拆表格的方法与系统
CN102467378A (zh) * 2010-11-11 2012-05-23 深圳市金蝶友商电子商务服务有限公司 基于二维矩阵的html表格处理方法及计算机
CN102542071A (zh) * 2012-01-17 2012-07-04 深圳市同洲视讯传媒有限公司 一种分布式处理数据的系统及方法
US20120185480A1 (en) * 2010-09-29 2012-07-19 International Business Machines Corporation Method to improve the named entity classification
CN103020283A (zh) * 2012-12-27 2013-04-03 华北电力大学 一种基于背景知识的动态重构的语义检索方法
CN103198069A (zh) * 2012-01-06 2013-07-10 株式会社理光 抽取关系型表格的方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0527960A (ja) * 1991-07-24 1993-02-05 Toshiba Corp データベース構築方法
US5963642A (en) * 1996-12-30 1999-10-05 Goldstein; Benjamin D. Method and apparatus for secure storage of data
JP2003216619A (ja) * 2002-01-18 2003-07-31 Kanazawa Inst Of Technology コンピュータ処理装置
JP2003271656A (ja) * 2002-03-19 2003-09-26 Fujitsu Ltd 関係付候補生成装置,関係付候補生成方法,関係付システム,関係付候補生成プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体
US20060167947A1 (en) * 2003-03-01 2006-07-27 Dunkle Mark V Communications interface database for electronic diagnostic apparatus
US8150850B2 (en) * 2008-01-07 2012-04-03 Akiban Technologies, Inc. Multiple dimensioned database architecture
JP5108660B2 (ja) * 2008-06-30 2012-12-26 ヤフー株式会社 情報収集方法、装置及びプログラム
US9305075B2 (en) * 2009-05-29 2016-04-05 Oracle International Corporation Extending dynamic matrices for improved setup capability and runtime search performance of complex business rules
US8666998B2 (en) * 2010-09-14 2014-03-04 International Business Machines Corporation Handling data sets

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1126383A1 (en) * 1999-08-31 2001-08-22 Obun Insatsu CO., Ltd. Database system
EP1361758A1 (en) * 2002-05-06 2003-11-12 Motorola, Inc. Image content reconfiguration for different device capabilities and methods therefor
CN1862527A (zh) * 2006-06-09 2006-11-15 无锡永中科技有限公司 电子表格中行头与列头表示信息的方法
US20090097769A1 (en) * 2007-10-16 2009-04-16 Sytech Solutions, Inc. Systems and methods for securely processing form data
CN102103576A (zh) * 2009-12-17 2011-06-22 珠海金山软件有限公司 一种利用计算机分拆表格的方法与系统
US20120185480A1 (en) * 2010-09-29 2012-07-19 International Business Machines Corporation Method to improve the named entity classification
CN102467378A (zh) * 2010-11-11 2012-05-23 深圳市金蝶友商电子商务服务有限公司 基于二维矩阵的html表格处理方法及计算机
CN103198069A (zh) * 2012-01-06 2013-07-10 株式会社理光 抽取关系型表格的方法和装置
CN102542071A (zh) * 2012-01-17 2012-07-04 深圳市同洲视讯传媒有限公司 一种分布式处理数据的系统及方法
CN103020283A (zh) * 2012-12-27 2013-04-03 华北电力大学 一种基于背景知识的动态重构的语义检索方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
SONGJIE GONG 等: "A Collaborative Recommender Combining Item Rating Similarity and Item Attribute Similarity", 《2008 INTERNATIONAL SEMINAR ON BUSINESS AND INFORMATION MANAGEMENT》 *
WILLIAM J TASTLE 等: "Decomposition and Reconstruction of Complex Spreadsheet Functions", 《2014 PROCEEDINGS OF THE INFORMATION SYSTEMS EDUCATORS CONFERENCE》 *
王宇: "RTF文件格式在文档版面重构中的应用", 《计算机应用》 *
田红: "表格信息抽取引擎的设计与实现", 《中国优秀博硕士学位论文全文数据库 (硕士)信息科技辑(季刊)》 *
赵洪 等: "Web表格信息抽取研究综述", 《现代图书情报技术》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932268A (zh) * 2017-05-26 2018-12-04 华为软件技术有限公司 数据处理方法及装置
CN108932268B (zh) * 2017-05-26 2020-09-04 华为技术有限公司 数据处理方法及装置
CN110019829A (zh) * 2017-09-19 2019-07-16 小草数语(北京)科技有限公司 数据属性确定方法、装置
CN107656909A (zh) * 2017-10-30 2018-02-02 北京明朝万达科技股份有限公司 一种基于文档混合特征的文档相似度判定方法和装置
CN110609928A (zh) * 2019-08-28 2019-12-24 宁波市智慧城市规划标准发展研究院 基于政务数据的姓名特征识别系统

Also Published As

Publication number Publication date
JP6586850B2 (ja) 2019-10-09
JP2016081526A (ja) 2016-05-16
CN105573971B (zh) 2018-09-25

Similar Documents

Publication Publication Date Title
US11720610B2 (en) Relation extraction across sentence boundaries
CN110321482B (zh) 一种信息的推荐方法、装置及设备
Ballatore et al. Geographic knowledge extraction and semantic similarity in OpenStreetMap
Tong et al. A linear road object matching method for conflation based on optimization and logistic regression
US8234264B2 (en) System and method for preferred services in nomadic environments
CN110019616B (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
US20160371275A1 (en) Automated database schema annotation
CN105573971A (zh) 表格重构装置和方法
CN104063383A (zh) 信息推荐方法及装置
CN105183733A (zh) 一种文本信息的匹配、业务对象的推送方法和装置
CN110765773A (zh) 地址数据获取方法以及装置
US10642897B2 (en) Distance in contextual network graph
CN104881397B (zh) 缩写词扩展方法和装置
CN110597804A (zh) 促进分布式键值存储库上的空间索引
CN110717019A (zh) 问答处理方法、问答系统、电子设备及介质
Fournier-Viger et al. Mining minimal high-utility itemsets
WO2011088521A2 (en) Improved searching using semantic keys
CN102968669B (zh) 对负荷进行预测的方法和装置
CN110737779A (zh) 知识图谱的构建方法、装置、存储介质和电子设备
Cheng et al. Quickly locating POIs in large datasets from descriptions based on improved address matching and compact qualitative representations
Sheeren et al. A data‐mining approach for assessing consistency between multiple representations in spatial databases
US8577814B1 (en) System and method for genetic creation of a rule set for duplicate detection
CN116628228B (zh) 一种rpa流程推荐方法以及计算机可读存储介质
Naik et al. Deep learning-based code refactoring: A review of current knowledge
US20220230053A1 (en) Graph neural network for signal processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant