CN105718433A - 表格语义化装置和方法 - Google Patents

表格语义化装置和方法 Download PDF

Info

Publication number
CN105718433A
CN105718433A CN201410737646.8A CN201410737646A CN105718433A CN 105718433 A CN105718433 A CN 105718433A CN 201410737646 A CN201410737646 A CN 201410737646A CN 105718433 A CN105718433 A CN 105718433A
Authority
CN
China
Prior art keywords
entity
attribute
knowledge base
string
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410737646.8A
Other languages
English (en)
Other versions
CN105718433B (zh
Inventor
缪庆亮
孟遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201410737646.8A priority Critical patent/CN105718433B/zh
Priority to JP2015232018A priority patent/JP6662000B2/ja
Publication of CN105718433A publication Critical patent/CN105718433A/zh
Application granted granted Critical
Publication of CN105718433B publication Critical patent/CN105718433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种表格语义化装置和方法。该装置包括:实体确定单元,被配置为将所述表格的实体列中的每一行的实体名与互联网知识库中的实体进行连接来确定各实体名在所述互联网知识库中对应的实体;属性确定单元,被配置为对于所述表格的每一行,将每一列的值与该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性;以及表格语义化单元,被配置为基于所确定的实体和每一列对应的属性将所述表格语义化。根据本发明的表格语义化装置和方法,能够将表格信息转换为语义表示,从而将表格中隐式的语义信息显式化,并且还可以对互联网知识库进行补充和完善。

Description

表格语义化装置和方法
技术领域
本发明涉及信息处理领域,更具体地涉及一种对表格进行语义化的装置和方法。
背景技术
随着互联网的飞速发展,互联网中出现了大量的表格数据,表格数据中含有丰富的结构化信息。挖掘表格数据可以获取大量的人类知识。由于表格中的语义信息是隐式的,而互联网知识库的语义信息是显式的,因此如何将表格语义化,将表格中隐式的语义信息显式化是非常重要的。
因此,需要一种能够将表格语义化,从而将表格中隐式的语义信息显式化的装置和方法。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于,提供一种表格语义化装置,包括:实体确定单元,被配置为将所述表格的实体列中的每一行的实体名与互联网知识库中的实体进行连接来确定各实体名在所述互联网知识库中对应的实体;属性确定单元,被配置为对于所述表格的每一行,将每一列的值与该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性;以及表格语义化单元,被配置为基于所确定的实体和每一列对应的属性将所述表格语义化。
根据本发明的一个方面,提供了一种表格语义化方法,包括:将所述表格的实体列中的每一行的实体名与互联网知识库中的实体进行连接来确定各实体名在所述互联网知识库中对应的实体;对于所述表格的每一行,将每一列的值与该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性;以及基于所确定的实体和每一列对应的属性将所述表格语义化。
另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1示出了表格信息的一个示例;
图2A-2B示出了互联网知识库中的实体信息的示例;
图3示出了根据本发明的一个实施例的对表格进行语义化的装置300的示例性配置的框图;
图4是示出图3中的实体确定单元302的一种示例性配置的框图;
图5是示出图3中的属性确定单元304的一种示例性配置的框图;
图6A-6C示出了以图1中的表格和图2A-2B中的实体信息为例所构建的映射关系表;
图7是示出图3中的属性确定单元的另一种示例性配置304’的框图;
图8示出了根据本发明的一个实施例的对表格进行语义化的方法800的流程图;
图9是示出图8中的步骤S802的一种示例性过程的流程图;
图10是示出图8中的步骤S804的一种示例性过程的流程图;
图11是示出图8中的步骤S804的另一种示例性过程的流程图;以及
图12是示出可以用于实施本发明的对表格进行语义化的装置和方法的计算设备的示例性结构图。
具体实施方式
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
本发明提出一种基于表格与互联网知识库的连接对表格进行语义化的方法,该方法首先将表格中的实体和互联网知识库进行连接,然后确定表格每一列与互联网知识库中对应的属性,最后将表格信息转换为语义表示。本发明使用资源描述框架(RDF,ResourceDescriptionFramework)格式,合并到互联网知识库中,实现表格语义化。同时将表格中存在、但互联网知识库中不存在的实体语义信息加入到互联网知识库中。
下面结合附图详细说明根据本发明的一个实施例的对表格进行语义化的装置。
图1示出了表格信息的一个示例,图2A-2B示出了互联网知识库中的实体信息的一个示例,下面将以图1中示出的表格信息为例来说明根据本发明的一个实施例的对表格进行语义化的装置。
图3示出了根据本发明的一个实施例的对表格进行语义化的装置300的示例性配置的框图。
如图3所示,表格语义化装置300包括实体确定单元302、属性确定单元304和表格语义化单元306。
实体确定单元302可以将所述表格的实体列中的每一行的实体名ET与互联网知识库中的实体EK进行连接来确定各实体名在所述互联网知识库中对应的实体。
对于表格的每一行,属性确定单元304可以将每一列的值与该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性。
表格语义化单元306可以基于所确定的实体名和每一列对应的属性将所述表格语义化。
下面分别详细说明表格语义化装置300所包括的各个单元。
在本发明中,假设表格中只包含一个实体列,且实体列已知,例如图1中表格的第一列为实体列。如果表格中不只包括一个实体列,可以先将表格重构为描述单一对象的表格,即将包括多个实体列的表格重构为多个仅包含一个实体列的表格。
图4是示出图3中的实体确定单元302的一种示例性配置的框图。
如图4所示,实体确定单元302包括第一相似度计算子单元3022、第二相似度计算子单元3024、加权相似度计算子单元3026和实体确定子单元3028。
第一相似度计算子单元3022可以计算实体列的每个实体名ET与互联网知识库中的实体EK的字符串相似度,记为sim1。在一个示例中,字符串相似度可以使用编辑距离或Jaccard相似度来计算。
第二相似度计算子单元3024可以计算表格中每一列的值与对应的实体EK在互联网知识库中的属性值的匹配度,记为sim2。在一个示例中,可以通过公式来计算sim2,其中c为表格的列数,s(i)为实体ET所对应的表格第i列的值与EK的属性值的字符串相似度。
加权相似度计算子单元3026可以计算sim1和sim2的加权和,在一个示例中,用公式sim=α·sim1+(1-α)·sim2来计算sim1和sim2的加权和,其中α是预定系数。
当sim大于阈值δ时,实体确定子单元3028确定ET的连接实体为EK。如果sim小于阈值δ,则认为该ET在互联网知识库中找不到对应的实体,这些实体会在后面进行处理。
要注意的是,连接时要求实体类型一致。例如,图1中的表格的第一列为实体列,且实体类型为电影,那么在进行实体连接时,通常只与互联网知识库中的电影实体做连接。
通过实体确定单元302的处理,可以确定实体列中实体ET所对应的互联网知识库中的实体EK
图5是示出图3中的属性确定单元304的一种示例性配置的框图。
如图5所示,属性确定单元304包括映射关系表构建子单元3042、属性支持度计算子单元3044和属性确定子单元3046。
映射关系表构建子单元3042可以对于表格的每一行,基于ET对应的每一列的值与对应的EK在互联网知识库中的属性值的匹配关系来构建映射关系表。以图1中的表格和图2A-2B中的互联网知识库中的实体信息为例,可以得到图6A-6C所示的映射关系表。
由于T(1,2)有两个可能属性,分别为“example:directedBy”和“example:starring”,因此图1中的表格的第一行构建为图3A和图3B中的两个映射表。注:T(i,j)表示表格的i行,j列。
接下来,属性支持度计算子单元3044可以基于构建得到的映射关系表来计算属性支持度。
属性支持度是一个属性在所有映射关系表的同一列中出现的次数与映射关系表的个数的比值。比如在图6A-6C的三个映射关系表中,在第1列中,属性example:name出现三次,那么该属性的支持度为3/3,在第2列中,属性example:directedBy出现两次,那么该属性的支持度为2/3,属性example:starring出现一次,那么该属性的支持度为1/3。
在一列中,一个属性的支持度越高,则该列的属性为该属性的可能性越大。属性确定子单元3046可以基于各个列的属性支持度来确定每一列所对应的属性。
图7是示出图3中的属性确定单元的另一种示例性配置304’的框图。
如图7所示,属性确定单元304’包括映射关系表构建子单元3042、属性支持度计算子单元3044、属性置信度计算子单元3048、属性总得分计算子单元3049和属性确定子单元3046。换句话说,图7所示的属性确定单元304’除了包括图5所示的属性确定单元304的各个部件之外,还包括属性置信度计算子单元3048和属性总得分计算子单元3049。
图7中的映射关系表构建子单元3042和属性支持度计算子单元3044的功能配置与参照图5说明的功能配置相同,在此不再赘述。
图7中的属性确定单元304’还基于映射关系表来计算属性置信度,利用属性支持度和属性置信度来计算一个属性总得分,然后根据属性总得分来确定每一列所对应的属性。
具体地,属性置信度计算子单元3048可以基于所述映射关系表来计算属性置信度。要计算属性置信度,首先定义行置信度为表格的一行所连接的互联网知识库中的属性的个数。例如,图1中的表格的第一行T(1,*)的连接属性数为5,那么行置信度为5。如果表格的一行中的每一列的值都可以在互联网知识库中找到连接属性,那么行置信度与列数相同。如果一行中有一列的值在互联网知识库没有找到连接属性,则该行的连接属性就为列数减去1,依次类推。
在一个实施例中,定义属性置信度等于行置信度除以表格的列数。例如,在图1的示例中,第一行的属性置信度为5/5=1。如果一行中有一列的值在互联网知识库没有找到连接属性,则该行的属性置信度小于1。
属性总得分计算子单元3049可以根据得到的属性置信度和属性支持度来计算属性总得分。
在一个实施例中,可以通过以下公式来计算属性总得分:
属性总得分=属性支持度*log(属性置信度+1)。
属性确定子单元3046可以将属性总得分高的属性确定为每一列对应的属性。
通过计算属性总得分,在图1的表格中,可以确定每一列所对应的属性分别为:example:name、example:directedBy、example:country、example:releaseDate、example:runtime。
这样,通过实体确定单元302和属性确定单元304分别确定了实体列的实体和每一列对应的属性。
接下来,表格语义化单元306可以基于所确定的实体和每一列对应的属性将表格语义化。
在一个实施例中,表格语义化单元306通过将所确定的实体和每一列对应的属性转换为资源描述框架(RDF)格式来将表格语义化,即,将表格信息转换为RDF格式的信息。RDF格式是主谓宾三元组格式,本领域普通技术人员可以理解RDF格式的语义信息,在此不再进行赘述。
可以看到,图1中的表格的第三行中的“无人区”,在互联网知识库中没有找到对应的实体,则使用与其他行相同的属性将第三行各列的属性值转换为RDF格式,然后添加到互联网知识库中。
在此需要说明的是,图3-7所示的表格语义化装置300及其组成单元的结构仅仅是示例性的,本领域技术人员可以根据需要对图3-7所示的结构框图进行修改。
图8示出了根据本发明的一个实施例的对表格进行语义化的方法800的流程图。
首先,在步骤S802中,将所述表格的实体列中的每一行的实体名与互联网知识库中的实体进行连接来确定各实体名在所述互联网知识库中对应的实体。
图9是示出图8中的步骤S802的一种示例性过程的流程图。
如图9所示,在步骤S8022中,计算实体列的每个实体名ET与互联网知识库中的实体EK的字符串相似度,记为sim1。在一个示例中,字符串相似度可以使用编辑距离或Jaccard相似度来计算。
接着,在步骤S8024中,计算表格中的每一列的值与对应的实体EK在互联网知识库中的属性值的匹配度,记为sim2。在一个示例中,可以通过公式来计算sim2,其中c为表格的列数,s(i)为实体ET所对应的表格第i列的值与EK的属性值的字符串相似度。
在步骤S8026中,计算sim1和sim2的加权和。在一个示例中,用公式sim=α·sim1+(1-α)·sim2来计算sim1和sim2的加权和,其中α是预定系数。
在步骤S8028中,当sim大于阈值δ时,可以确定ET的连接实体为EK。如果sim不大于阈值δ,则认为该ET在互联网知识库中找不到对应的实体,这些实体会在后面进行处理。
通过步骤S802的处理,可以确定实体列中实体ET所对应的互联网知识库中的实体EK
接着,在步骤S804中,对于所述表格的每一行,将每一列的值与该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性。
图10是示出图8中的步骤S804的一种示例性过程的流程图。
如图10所示,在步骤S8042中,对于表格的每一行,基于ET对应的每一列的值与对应的EK在互联网知识库中的属性值的匹配关系来构建映射关系表。
接下来,在步骤S8044中,可以基于构建得到的映射关系表来计算属性支持度。
在步骤S8046中,可以基于各个列的属性支持度来确定每一列所对应的属性。
图11是示出图8中的步骤S804的另一种示例性过程的流程图。
在步骤S804中,步骤S8042’和S8044’与图10中的步骤S8042和S8044类似,在此不再赘述。
在步骤S8048中,可以基于所述映射关系表来计算属性置信度,属性置信度为表格的一行所连接的互联网知识库中的属性的个数与表格的列数的比值。
在步骤S8049中,根据所述属性置信度和所述属性支持度来计算属性总得分。
在步骤S8046’中,根据属性总得分来确定每一列所对应的属性。
在对表格进行语义化的方法800的最后,在步骤S806中,基于所确定的实体和每一列对应的属性将所述表格语义化。
关于对表格进行重构的方法800的各个步骤的细节可以参照结合图3-7描述的本发明的对表格进行语义化的装置的实施例,这里不再详细描述。
本发明提出一种基于表格与互联网知识库连接的表格语义化装置和方法,其中,将表格中的属性列与互联网知识库进行关联,根据本发明的表格语义化装置和方法能够将表格信息转换为语义表示,从而将表格中隐式的语义信息显式化,并且还可以对互联网知识库进行补充和完善。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图12所示的通用计算机1200安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图12中,中央处理单元(CPU)1201根据只读存储器(ROM)1202中存储的程序或从存储部分1208加载到随机存取存储器(RAM)1203的程序执行各种处理。在RAM1203中,也根据需要存储当CPU1201执行各种处理等等时所需的数据。CPU1201、ROM1202和RAM1203经由总线1204彼此链路。输入/输出接口1205也链路到总线1204。
下述部件链路到输入/输出接口1205:输入部分1206(包括键盘、鼠标等等)、输出部分1207(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1208(包括硬盘等)、通信部分1209(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1209经由网络比如因特网执行通信处理。根据需要,驱动器1210也可链路到输入/输出接口1205。可拆卸介质1211比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1210上,使得从中读出的计算机程序根据需要被安装到存储部分1208中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1211安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图12所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1211。可拆卸介质1211的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM1202、存储部分1208中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。
在本说明书中,“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。
作为一个示例,上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
作为一个示例,在通过软件或固件实现的情况下,可以从存储介质或网络向具有专用硬件结构的计算机(例如图12所示的通用计算机1200)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用,与其他实施方式中的特征相组合,或替代其他实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
本发明及其优点,但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此,所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。
基于以上的说明,可知公开至少公开了以下技术方案:
附记1、一种表格语义化装置,包括:
实体确定单元,被配置为将所述表格的实体列中的每一行的实体名与互联网知识库中的实体进行连接来确定各实体名在所述互联网知识库中对应的实体;
属性确定单元,被配置为对于所述表格的每一行,将每一列的值与该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性;以及
表格语义化单元,被配置为基于所确定的实体和每一列对应的属性将所述表格语义化。
附记2、根据附记1所述的装置,所述实体确定单元包括:
第一相似度计算子单元,被配置为计算所述实体名与所述互联网知识库中对应的所述实体的第一相似度;
第二相似度计算子单元,被配置为计算所述表格的每一列的值与对应的所述实体在所述互联网知识库中的属性值的第二相似度;
加权相似度计算子单元,被配置为根据所述第一相似度和所述第二相似度计算加权相似度;以及
实体确定子单元,被配置为当所述加权相似度大于预定阈值时,确定该实体是所述实体名在所述互联网知识库中对应的实体。
附记3、根据附记1所述的装置,其中,所述属性确定单元包括:
映射关系表构建子单元,被配置为对于所述表格的每一行,基于所述每一列的值与该行对应的实体在互联网知识库中的属性值的匹配关系来构建映射关系表;
属性支持度计算子单元,被配置为基于所述映射关系表计算列的属性支持度,所述列的属性支持度是一个属性在所有映射关系表的同一列中出现的次数与所述映射关系表的个数的比值;以及
属性确定子单元,被配置为至少基于所述列的属性支持度来确定所述每一列对应的属性。
附记4、根据附记3所述的装置,其中,所述属性确定单元进一步包括:
属性置信度计算子单元,被配置为基于所述映射关系表来计算属性置信度,属性置信度为所述表格的一行所连接的所述互联网知识库中的属性的个数与所述表格的列数的比值;以及
属性总得分计算子单元,被配置为根据所述属性置信度和所述属性支持度来计算属性总得分,其中
所述属性确定子单元被配置为根据所述属性总得分来确定所述每一列对应的属性。
附记5、根据附记4所述的装置,其中,
所述属性总得分是通过对属性置信度加1取对数再乘以属性支持度来计算的。
附记6、根据附记2所述的装置,其中,
所述第一相似度是使用编辑距离或Jaccard相似度计算的;
所述第二相似度是对所述表格的每一列的值与对应的所述实体的所述属性值的相似度求和再取对数来计算的;以及
所述加权相似度是利用公式:加权相似度=α·第一相似度+(1-α)·第二相似度来计算的,其中α为预定系数。
附记7、根据附记1所述的装置,其中,所述表格语义化单元进一步被配置为通过将所述实体列的实体名和所述每一列对应的属性转换为资源描述框架格式来将所述表格语义化。
附记8、根据附记1所述的装置,还包括:
实体信息添加单元,被配置为如果所述实体确定单元对于所述表格的某一行的实体名在所述互联网知识库中未找到对应的实体,将该实体名和其对应的属性值使用与所确定的每一列对应的属性相同的属性进行语义化,并将得到的语义化信息添加到所述互联网知识库中。
附记9、根据附记1所述的装置,其中,所述实体确定单元进一步被配置为:将所述实体名与互联网知识库中与所述实体名的实体类型相同的实体进行连接。
附记10、一种表格语义化方法,包括:
将所述表格的实体列中的每一行的实体名与互联网知识库中的实体进行连接来确定各实体名在所述互联网知识库中对应的实体;
对于所述表格的每一行,将每一列的值与该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性;以及
基于所确定的实体名和每一列对应的属性将所述表格语义化。
11、根据附记10所述的方法,将所述表格的实体列中的每一行的实体名与互联网知识库中的实体进行连接来确定各实体名在所述互联网知识库中对应的实体包括:
计算所述实体名与所述互联网知识库中对应的所述实体的第一相似度;
计算所述表格的每一列的值与对应的所述实体在所述互联网知识库中的属性值的第二相似度;
加权相似度计算子单元,被配置为根据所述第一相似度和所述第二相似度计算加权相似度;以及
当所述加权相似度大于预定阈值时,确定该实体是所述实体名在所述互联网知识库中对应的实体。
附记12、根据附记10所述的方法,其中,对于所述表格的每一行,将每一列的值与该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性包括:
对于所述表格的每一行,基于所述每一列的值与该行对应的实体在互联网知识库中的属性值的匹配关系来构建映射关系表;
基于所述映射关系表计算列的属性支持度,所述列的属性支持度是一个属性在所有映射关系表的同一列中出现的次数与所述映射关系表的个数的比值;以及
至少基于所述列的属性支持度来确定所述每一列对应的属性。
附记13、根据附记12所述的方法,其中,对于所述表格的每一行,将每一列的值与该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性进一步包括:
基于所述映射关系表来计算属性置信度,属性置信度为所述表格的一行所连接的所述互联网知识库中的属性的个数与所述表格的列数的比值;以及
根据所述属性置信度和所述属性支持度来计算属性总得分,其中
根据所述属性总得分来确定所述每一列对应的属性。
附记14、根据附记13所述的方法,其中,
所述属性总得分是通过对属性置信度加1取对数再乘以属性支持度来计算的。
附记15、根据附记11所述的方法,其中,
所述第一相似度是使用编辑距离或Jaccard相似度计算的;
所述第二相似度是对所述表格的每一列的值与对应的所述实体的所述属性值的相似度求和再取对数来计算的;以及
所述加权相似度是利用公式:加权相似度=α·第一相似度+(1-α)·第二相似度来计算的,其中α为预定系数。
附记16、根据附记10所述的方法,其中,基于所确定的实体名和每一列对应的属性将所述表格语义化进一步包括:通过将所述实体列的实体名和所述每一列对应的属性转换为资源描述框架格式来将所述表格语义化。
附记17、根据附记10所述的方法,还包括:
如果所述实体确定单元对于所述表格的某一行的实体名在所述互联网知识库中未找到对应的实体,将该实体名和其对应的属性值使用与所确定的每一列对应的属性相同的属性进行语义化,并将得到的语义化信息添加到所述互联网知识库中。
附记18、根据附记10所述的方法,其中,将所述表格的实体列中的每一行的实体名与互联网知识库中的实体进行连接来确定各实体名在所述互联网知识库中对应的实体进一步包括:将所述实体名与互联网知识库中与所述实体名的实体类型相同的实体进行连接。

Claims (10)

1.一种表格语义化装置,包括:
实体确定单元,被配置为将所述表格的实体列中的每一行的实体名与互联网知识库中的实体进行连接来确定各实体名在所述互联网知识库中对应的实体;
属性确定单元,被配置为对于所述表格的每一行,将每一列的值与该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性;以及
表格语义化单元,被配置为基于所确定的实体和每一列对应的属性将所述表格语义化。
2.根据权利要求1所述的装置,所述实体确定单元包括:
第一相似度计算子单元,被配置为计算所述实体名与所述互联网知识库中对应的所述实体的第一相似度;
第二相似度计算子单元,被配置为计算所述表格的每一列的值与对应的所述实体在所述互联网知识库中的属性值的第二相似度;
加权相似度计算子单元,被配置为根据所述第一相似度和所述第二相似度计算加权相似度;以及
实体确定子单元,被配置为当所述加权相似度大于预定阈值时,确定该实体是所述实体名在所述互联网知识库中对应的实体。
3.根据权利要求1所述的装置,其中,所述属性确定单元包括:
映射关系表构建子单元,被配置为对于所述表格的每一行,基于所述每一列的值与该行对应的实体在互联网知识库中的属性值的匹配关系来构建映射关系表;
属性支持度计算子单元,被配置为基于所述映射关系表计算列的属性支持度,所述列的属性支持度是一个属性在所有映射关系表的同一列中出现的次数与所述映射关系表的个数的比值;以及
属性确定子单元,被配置为至少基于所述列的属性支持度来确定所述每一列对应的属性。
4.根据权利要求3所述的装置,其中,所述属性确定单元进一步包括:
属性置信度计算子单元,被配置为基于所述映射关系表来计算属性置信度,属性置信度为所述表格的一行所连接的所述互联网知识库中的属性的个数与所述表格的列数的比值;以及
属性总得分计算子单元,被配置为根据所述属性置信度和所述属性支持度来计算属性总得分,其中
所述属性确定子单元被配置为根据所述属性总得分来确定所述每一列对应的属性。
5.根据权利要求4所述的装置,其中,
所述属性总得分是通过对属性置信度加1取对数再乘以属性支持度来计算的。
6.根据权利要求2所述的装置,其中,
所述第一相似度是使用编辑距离或Jaccard相似度计算的;
所述第二相似度是对所述表格的每一列的值与对应的所述实体的所述属性值的相似度求和再取对数来计算的;以及
所述加权相似度是利用公式:加权相似度=α·第一相似度+(1-α)·第二相似度来计算的,其中α为预定系数。
7.根据权利要求1所述的装置,其中,所述表格语义化单元进一步被配置为通过将所述实体列的实体名和所述每一列对应的属性转换为资源描述框架格式来将所述表格语义化。
8.根据权利要求1所述的装置,还包括:
实体信息添加单元,被配置为如果所述实体确定单元对于所述表格的某一行的实体名在所述互联网知识库中未找到对应的实体,将该实体名和其对应的属性值使用与所确定的每一列对应的属性相同的属性进行语义化,并将得到的语义化信息添加到所述互联网知识库中。
9.根据权利要求1所述的装置,其中,所述实体确定单元进一步被配置为:将所述实体名与互联网知识库中与所述实体名的实体类型相同的实体进行连接。
10.一种表格语义化方法,包括:
将所述表格的实体列中的每一行的实体名与互联网知识库中的实体进行连接来确定各实体名在所述互联网知识库中对应的实体;
对于所述表格的每一行,将每一列的值与该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性;以及
基于所确定的实体名和每一列对应的属性将所述表格语义化。
CN201410737646.8A 2014-12-05 2014-12-05 表格语义化装置和方法 Active CN105718433B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410737646.8A CN105718433B (zh) 2014-12-05 2014-12-05 表格语义化装置和方法
JP2015232018A JP6662000B2 (ja) 2014-12-05 2015-11-27 テーブル語義化装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410737646.8A CN105718433B (zh) 2014-12-05 2014-12-05 表格语义化装置和方法

Publications (2)

Publication Number Publication Date
CN105718433A true CN105718433A (zh) 2016-06-29
CN105718433B CN105718433B (zh) 2019-01-22

Family

ID=56124451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410737646.8A Active CN105718433B (zh) 2014-12-05 2014-12-05 表格语义化装置和方法

Country Status (2)

Country Link
JP (1) JP6662000B2 (zh)
CN (1) CN105718433B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022116866A (ja) * 2021-01-29 2022-08-10 国立研究開発法人医薬基盤・健康・栄養研究所 複数の項目を関係付けるための方法、システム、およびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100138216A1 (en) * 2007-04-16 2010-06-03 The European Comminuty, Represented By The European Commission method for the extraction of relation patterns from articles
CN102043819A (zh) * 2009-10-20 2011-05-04 华中科技大学 Html表格语义脉络分析方法
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
US20120284224A1 (en) * 2011-05-04 2012-11-08 Microsoft Corporation Build of website knowledge tables
CN102779161A (zh) * 2012-06-14 2012-11-14 杜小勇 基于rdf知识库的语义标注方法
CN104182420A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于本体的中文人名消歧方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086782A (ja) * 2002-08-29 2004-03-18 Hitachi Ltd 異種データベース統合支援装置
JP2013120534A (ja) * 2011-12-08 2013-06-17 Mitsubishi Electric Corp 関連語分類装置及びコンピュータプログラム及び関連語分類方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100138216A1 (en) * 2007-04-16 2010-06-03 The European Comminuty, Represented By The European Commission method for the extraction of relation patterns from articles
CN102043819A (zh) * 2009-10-20 2011-05-04 华中科技大学 Html表格语义脉络分析方法
US20120284224A1 (en) * 2011-05-04 2012-11-08 Microsoft Corporation Build of website knowledge tables
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
CN102779161A (zh) * 2012-06-14 2012-11-14 杜小勇 基于rdf知识库的语义标注方法
CN104182420A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于本体的中文人名消歧方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DONG DENG等: "Scalable Column Concept Determination for Web Tables Using Large Knowledge Bases", 《PROCEEDINGS OF THE VLDB ENDOWMENT》 *

Also Published As

Publication number Publication date
JP2016110646A (ja) 2016-06-20
CN105718433B (zh) 2019-01-22
JP6662000B2 (ja) 2020-03-11

Similar Documents

Publication Publication Date Title
US20210182721A1 (en) Method and apparatus for constructing quantum machine learning framework, quantum computer and computer storage medium
US10248537B2 (en) Translation bug prediction classifier
TW200903324A (en) Systems and methods for modeling partitioned tables as logical indexes
US20170039271A1 (en) Scoring Automatically Generated Language Patterns for Questions using Synthetic Events
CN104881397B (zh) 缩写词扩展方法和装置
US20150170054A1 (en) Expanding an answer key to verify a question and answer system
JP5677319B2 (ja) ウェブに基づくダイアグラム視覚性の拡張性
Olofsen et al. Using Akaike's information theoretic criterion in mixed-effects modeling of pharmacokinetic data: a simulation study
US11948099B2 (en) Knowledge graph weighting during chatbot sessions
US10255046B2 (en) Source code analysis and adjustment system
CN111488742A (zh) 用于翻译的方法和装置
CN111159220A (zh) 用于输出结构化查询语句的方法和装置
CN103678371B (zh) 词库更新装置、数据整合装置和方法以及电子设备
US20130132070A1 (en) Computer-Based Construction of Arbitrarily Complex Formal Grammar Expressions
US8635233B2 (en) Techniques to automatically build a language dependency graph for localizable resources
US9672249B2 (en) Comparing join values in database systems
US11531814B2 (en) Method and device for generating modified statement
CN105718433A (zh) 表格语义化装置和方法
CN104111917A (zh) 数据处理装置、数据处理方法以及电子设备
CN109472023B (zh) 一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质
Jan et al. Optimal sample size determinations for the heteroscedastic two one-sided tests of mean equivalence: Design schemes and software implementations
CN111026371B (zh) 一种游戏开发方法、装置、电子设备及存储介质
CN113468207A (zh) 一种查询方法、装置、设备及存储介质
CN106227713A (zh) 文档的处理方法及装置
US10521436B2 (en) Systems and methods for data and information source reliability estimation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant