CN106855851A - 知识抽取方法及装置 - Google Patents

知识抽取方法及装置 Download PDF

Info

Publication number
CN106855851A
CN106855851A CN201510895126.4A CN201510895126A CN106855851A CN 106855851 A CN106855851 A CN 106855851A CN 201510895126 A CN201510895126 A CN 201510895126A CN 106855851 A CN106855851 A CN 106855851A
Authority
CN
China
Prior art keywords
gauge outfit
semantic similarity
property name
table content
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510895126.4A
Other languages
English (en)
Inventor
杨文漪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201510895126.4A priority Critical patent/CN106855851A/zh
Publication of CN106855851A publication Critical patent/CN106855851A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种知识抽取方法,包括:获取表格数据的语义相似度,根据所述语义相似度确定表格结构;根据所述表格结构确定表头属性名称;抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。本发明实施例还公开了一种知识抽取装置。

Description

知识抽取方法及装置
技术领域
本发明涉及信息处理领域,尤其涉及一种知识抽取方法及装置。
背景技术
计算机科学相关技术的发展在给人们的工作和生活带来便利的同时,也提出了更加智能化的需求,学术界及工业界都投入大量人力物力研究智能化技术,本体知识系统作为人工智能学科最重要的工业化和商业化产物,辅助计算机科学领域向更加智能化方向发展,为了构建本体知识,人们探索了很多方法来帮助从非结构化的文本数据中提取知识,由于互联网页面包含的数据和知识丰富,为本体知识构建提供了宝贵资源,而互联网页面中的表格数据由于结构化的组织形式,有利于实现知识与数据之间的映射,通过抽取网页表格数据用于本体知识构建,将有效帮助完成本体知识构建过程;目前,本体知识的自动化抽取已经成为行业和产业向前推进的关键部分。
现有本体知识抽取技术,主要集中在本体知识构建过程的整体实现上,较多注重系统或设备本身,只是提供了人机交互接口,辅助完成本体知识构建的各个流程,较少涉及知识自动化抽取技术的创新,知识抽取大多需要依赖专家进行抽取规则或训练数据的整理,现有技术实质上是辅助进行人工整理工作的半自动化抽取系统,并非真正意义上的自动化抽取,且存在由于专家和数据的知识偏差导致后续错误的风险,抽取成本很高;如此,会降低抽取效率。
发明内容
有鉴于此,本发明实施例期望提供一种知识抽取方法及装置,能实现表格数据的自动化抽取,降低了抽取成本,提高了抽取效率。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供一种知识抽取方法,包括:
获取表格数据的语义相似度,根据所述语义相似度确定表格结构;
根据所述表格结构确定表头属性名称;
抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。
在上述方案中,所述获取表格数据的语义相似度,根据所述语义相似度确定表格结构包括:
将表格数据按照横表结构拆分为第一表头和多个第一表格内容时,获取所述第一表头与各所述第一表格内容间的语义相似度、及各所述第一表格内容之间的语义相似度;
将所述表格数据按照竖表结构拆分为第二表头和多个第二表格内容时,获取所述第二表头与各所述第二表格内容间的语义相似度、及各所述第二表格内容之间的语义相似度;
根据所述第一表头与各所述第一表格内容间的语义相似度、各所述第一表格内容之间的语义相似度、所述第二表头与各所述第二表格内容间的语义相似度、各所述第二表格内容之间的语义相似度,及预设的表头与表格内容间的语义相似度阈值和表格内容之间的语义相似度阈值,确定表格结构。
在上述方案中,所述根据所述表格结构确定表头属性名称包括:
根据所述表格结构确定所述表格数据的初始表头;
在确定所述初始表头存在属性名称的总分结构时,对所述初始表头进行属性合并,确定表头属性名称。
在上述方案中,所述抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值之前,所述方法还包括:根据所述表头属性名称,对所述表头属性名称对应的表格内容进行合并。
本发明实施例还提供一种知识抽取装置,包括:
获取模块,用于获取表格数据的语义相似度;
确定模块,用于根据所述获取模块获取的所述语义相似度确定表格结构;还用于根据所述表格结构确定表头属性名称;
抽取模块,用于抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。
在上述方案中,所述获取模块,具体用于将表格数据按照横表结构拆分为第一表头和多个第一表格内容时,获取所述第一表头与各所述第一表格内容间的语义相似度、及各所述第一表格内容之间的语义相似度;将所述表格数据按照竖表结构拆分为第二表头和多个第二表格内容时,获取所述第二表头与各所述第二表格内容间的语义相似度、及各所述第二表格内容之间的语义相似度;
所述确定模块,具体用于根据所述第一表头与各所述第一表格内容间的语义相似度、各所述第一表格内容之间的语义相似度、所述第二表头与各所述第二表格内容间的语义相似度、各所述第二表格内容之间的语义相似度,及预设的表头与表格内容间的语义相似度阈值和表格内容之间的语义相似度阈值,确定表格结构。
在上述方案中,所述确定模块,具体用于根据所述表格结构确定所述表格数据的初始表头;在确定所述初始表头存在属性名称的总分结构时,对所述表格数据的初始表头进行合并,确定表头属性名称。
在上述方案中,所述装置还包括:
对齐模块,用于根据所述表头属性名称,对所述表头属性名称对应的表格内容进行合并。
本发明实施例提供的知识抽取方法及装置,通过获取表格数据的语义相似度,利用表格数据自身的语义特征来识别表格结构,通过抽取表头属性名称及表头属性名称对应的表格内容分别作为知识属性名称和属性值,得到可直接用于本体知识构建的知识数据,整个表格数据抽取过程并不受限于任何先验知识,不需要人工介入;如此,能实现表格结构识别和表格数据抽取的自动化,降低了知识抽取的人力成本,进而可提高本体知识的抽取效率。
附图说明
图1为本发明实施例提供的知识抽取方法的流程图;
图2为本发明实施例提供的一份网页表格示例图;
图3为本发明实施例提供的另一份网页表格示例图;
图4为本发明实施例提供的再一份网页表格示例图;
图5为本发明实施例提供的知识抽取装置的结构示意图;
图6为本发明实施例提供的知识抽取装置的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图1为本发明实施例提供的知识抽取方法的流程图,如图1所示,该方法包括:
步骤101、获取表格数据的语义相似度,根据所述语义相似度确定表格结构。
本发明实施例提供的知识抽取方法,可以应用于人工智能、计算语言、数据原理、知识工程、知识表示、语言工程、数据设计、信息模型、信息集成、信息检索、信息摘要、知识管理、法律信息系统、生物信息系统等领域;本发明实施例的执行主体可以为知识抽取装置。
在本发明实施例中,所述表格数据可以为超文本标记语言(HTML,HyperText Mark-up Language)网页中的表格数据;HTML网页中使用<表格(table)></table>标签表示表格,其中又使用<tr></tr>和<td></td>划分行列数据;然而并非所有<table>标签内的数据都表达结构化知识体系,也可能是伪装表格,例如,用于页面排版的表格数据,为了页面排版的美观整洁,重在样式及内容的编辑,一般不太严格遵循表格结构化组织形式。
在本发明实施例中,至少可以通过以下任一方法筛选掉这类伪装表格:1、利用表格中的两个参数:跨列数(colspan)和跨行数(rowspan),初步统计表格布局情况,排除不符合表格结构化组织形式的伪装表格;2、根据表格数据的语义分析排除部分伪装表格。对于筛选方法1,符合结构化组织形式的表格数据会通过colspan和rowspan参数布局为m*n的结构化形式,便于体现系统知识结构,达到使用表格形式表现数据的意义。
在本发明实施例中,在获取到HTML网页中的表格数据后,初步统计整理该表格的组织结构,若该表格不满足m*n形式,则将其淘汰;具体步骤如下:
1)逐行读取表格数据,记录每行包含列数,每行包含列数为该行每项数据的colspan的总和;如果某项数据的rowspan大于1,说明此项数据跨越了多行,在相应行计算列数时应补全此项数据的占位。
2)比较每行列数是否一致:如果不同,则判断此表格数据为伪装表格,不对齐进行后续的数据抽取;反之,则得到该表格数据的总列数N。
3)读取过程中记录表格行数,读取完毕后得到该表格数据的总行数M。
图2为本发明实施例提供的一份网页表格示例图,如图2所示,该网页表格的第1行第8列数据“超出后”的colspan为2,因此,在计算第1行数据的列数时应加1,第1行的总列数为11;第1行第1列数据“资费标识”的rowspan为2,此数据横跨了两行表格,则在第1行和第2行计算列数据时都需要加1;最终得到该网页表格每行都为11列,共8行,符合表格组织结构化组织形式。
由于表格数据内容组织的特殊形式,通常同一属性数值表现为同一语义内容,但不一定是同一内容数值,所以一些特殊数据仅需要在同一语义范围内即可认为结构一致。为了在语义比较中更好地体现数据相关性,归一化部分特殊的数据,包括时间、地点、人名等命名实体,唯一化替换为{时间}、{地点}、{人名}等,另外识别数字型数据替换为{数值}。例如图2中第3行数据内容,经命名实体归一化后为:BCAZ{数字}|全省|全球通统一套餐({时间}版)_商旅套餐{数字}档|{数字}元|免费|{数字}分钟|{数字}M|{数字}元/分|{数字}元/M|来电显示|金卡VIP服务、电话客户经理专属服务。本发明实施例利用表格数据自身的语义特征来识别表格结构。实际中,表格结构可以分为横表和竖表两种。
步骤102、根据所述表格结构确定表头属性名称。
步骤103、抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。
区别于现有技术依赖于人工整理知识抽取规则的方法,本发明实施例提供的知识抽取方法,利用表格数据自身的语义特征来识别表格结构,及通过抽取表头属性名称及表头属性名称对应的表格内容分别作为知识属性名称和属性值,得到可直接用于本体知识构建的知识数据,整个表格数据抽取过程并不受限于任何先验知识,不需要人工介入;如此,能实现表格结构识别和表格数据抽取的自动化,降低了知识抽取的人力成本,进而可提高本体知识的抽取效率,同时也可以提升本体知识的抽取性能。
在上述实施例的基础上,所述获取表格数据的语义相似度,根据所述语义相似度确定表格结构的一种可选实施方式包括:
步骤a)将表格数据按照横表结构拆分为第一表头和多个第一表格内容时,获取所述第一表头与各所述第一表格内容间的语义相似度、及各所述第一表格内容之间的语义相似度。
在步骤a)中假设所述表格数据为横表结构,将所述表格数据拆分为第一表头和第一表格内容;例如,读取首行数据为第一表头,其余表格数据为第一表格内容,且所述其余表格数据的每一行即对应为一条知识,由于每一列对应同一属性,所以数据间在语义上应具有相似性。需要注意的是,所述第一表头并非是简单的使用表格数据的首行数据,由于表头属性存在细分,可能使用多行表示,表头的首行数据包括了第一行数据中rowspan最大值包括的所有行数据,所述第一表头的行数记为M′。在本发明实施例中,所述第一表头与所述第一表格内容间的语义相似度scorehead-M可以根据公式(1)获得,所述第一表格内容之间的语义相似度scoretable-M可以根据公式(2)获得:
其中,所述M为所述表格数据的行数,所述N为所述表格数据的列数,所述M′为所述第一表头的行数,所述i表示行数、所述j表示列数,所述sim(CM′,j,Ci,j)为所述表格数据的第M′行第j列表格内容与第i行第j列表格内容的语义相似度,sim(Ci,j,Ci+1,j)为所述表格数据的第i行第j列表格内容与第i+1行第j列表格内容的语义相似度。
在计算行数据之间的相似度时,如果遇到跨行或跨列的数据,先不必纠结于表格数据的正确拆分整合,只有根据表格结构属性抽取出的数据才对知识构建有意义;使用多维向量表示行数据,列数据为对应的向量值,跨行或跨列的数据使用同一表格数值补齐对应向量数据,而表头中需要整合的列数据则直接合并。这样,表头和每行表格数据都统一为多维向量。表格数据的语义相似度计算,包括计算第一表头与第一表格内容间的语义相似度,及计算第一表格内容之间的语义相似度,总的来说,就是计算多维向量间的语义相似度;在本发明实施例中,使用任意归一化的相似度计算公式,计算第i行第j列表格内容与第i+1行第j列表格内容的语义相似度sim(Ci,j,Ci+1,j),通过加权平均得到行数据wi与wi+1之间的语义似度值sim(wi,wj),进而得到所述第一表头与所述第一表格内容间的语义相似度、及所述第一表格内容之间的语义相似度。
b)将所述表格数据按照竖表结构拆分为第二表头和多个第二表格内容时,获取所述第二表头与各所述第二表格内容间的语义相似度、及各所述第二表格内容之间的语义相似度。
在步骤b)中假设所述表格数据为竖表结构,将所述表格数据按照竖表结构拆分为第二表头和第二表格内容;在本发明实施例中,所述第二表头与所述第二表格内容间的语义相似度scorehead-N可以根据公式(3)获得,所述第二表格内容之间的语义相似度scoretable-N可以根据公式(4)获得:
其中,所述M为所述表格数据的行数,所述N为所述表格数据的列数,所述N′为所述第二表头的列数,所述i表示行数、所述j表示列数,所述sim(Ci,N′,Ci,j)为所述表格数据的第i行第N′列表格内容与第i行第j列表格内容的语义相似度,sim(Ci,j,Ci,j+1)为所述表格数据的第i行第j列表格内容与第i行第j+1列表格内容的语义相似度。
c)根据所述第一表头与各所述第一表格内容间的语义相似度scorehead-M、各所述第一表格内容之间的语义相似度scoretable-M、所述第二表头与各所述第二表格内容间的语义相似度scorehead-N、各所述第二表格内容之间的语义相似度scoretable-N,及预设的表头与表格内容间的语义相似度阈值和表格内容之间的语义相似度阈值,确定表格结构。
在本发明实施例中,判断表格数据的表格结构既要考虑表格数据之间的相似性,也要考虑表头和表格数据的不同,只有同时满足这两个条件才能准确给出表格结构:具体判断过程描述如下:首先,对步骤a)中假设表格数据为横表结构的情况进行初步判断:根据scorehead-M、scoretable-M,及预设的表头与表格内容间的语义相似度阈值α、及表格内容之间的语义相似度阈值θ,若判定scorehead-M大于阈值α,则初步判断此表格不是横表;如判定scorehead-M不大于阈值α,则继续比较scoretable-M与θ的大小关系,若scoretable-M大于θ,则说明第一表格内容之间的语义相似度很高,具有一定的结构化组织形式,初步判断此表为横表,假设成立;其次,对步骤b)中假设表格数据为竖表结构的情况进行初步判断:根据scorehead-N、scoretable-N,及预设的表头与表格内容间的语义相似度阈值α、及表格内容之间的语义相似度阈值θ,若判定scorehead-N大于阈值α,则初步判断此表格不是竖表;若判定scorehead-N不大于阈值α,则继续比较scoretable-N与θ的大小关系,若scoretable-N大于θ,则说明第二表格内容之间的语义相似度很高,具有一定的结构化组织形式,初步判断此表为竖表,假设成立;否则,假设不成立;最后,判断表格结构需要计算横表结构、竖表结构两种情况,在上述初步判断表格结构的基础上,综合比较两个初步判断结果才能得出最终结论,如果上述两个初步判断中:
若只有一种表格结构为真,则得到确定的表格结构;
若两种表格结构的初步判断结果都为否,则表示该表格数据不具备表格结构的结构化组织形式,筛除该表格数据;
若两种表格结构的初步判断结果都为是,即同时满足两种表格结构,则比较语义相似度大小,即分别比较scorehead-M与scorehead-N、scoretable-M与scoretable-N的大小关系,若大小相近无法区分表格结构,则淘汰此表格数据,若大小差异明显则判为该结构。
表格数据广泛应用在百度百科词条的知识整理中,整齐规范展示电影、明星、书籍等相关信息。电信、金融、医疗等行业也常使用表格描述复杂的业务内容,如运营商资费、银行理财产品等数据。图3为本发明实施例提供的另一份网页表格示例图,下面以图3为例,举例说明表格结构的判断过程,将图3的表格数据转换为表格结构计算向量:假设为横表,则表头数据向量为{“资费标识”,“产品名称”,“月租(元)”,“国内被叫”,“包含本地主叫国内分钟”,“超出后本地(元/分)主叫市话”,“超出后本地(元/分)国内长途”,“国内漫游(元/分)”,“包含新业务”},表格内容按行表示得到行数据向量,如第二行为{“BCAZ2021”,“全球通58元本地套餐(全球通专属数据包)”,“58”,“免费”,“260”,“0.25”,“主叫0.29”,“30M流量、来电显示、139邮箱5元版”};计算表头与表格内容的相似度,可得出两者并不相似;继续计算表格内容间的相似度,得分较高,可能为横表结构;假设为竖表,则表头数据向量为{“资费标识”,“BCAZ2021”,“BCAZ2037”,“BCAZ2014”},表格内容按列表示得到列数据向量,如第二列为{“产品名称”,“全球通58元本地套餐(全球通专属数据包)”,“全球通88元本地套餐(全球通专属数据包)”,“全球通128元本地套餐(全球通专属数据包)”};计算表头与表格内容的相似度,可得出两者并不相似;继续计算表格内容间的相似度,表格内容间也不存在相似性,竖表结构不成立;综合以上两种假设结构的计算结果,最终判定表格结构为横表,表头包括前两行数据。
在上述实施例的基础上,所述根据所述表格结构确定表头属性名称的一种可选实施方式为:根据所述表格结构确定所述表格数据的初始表头;在确定所述初始表头存在属性名称的总分结构时,对所述初始表头进行属性合并。
在本发明实施例中,通过表格结构的识别,确定了表格结构是横表还是竖表,并划分出相应的表头(即初始表头)和表格数据;划分时,根据表格结构,读取横表逻辑上的第一行、或竖表逻辑上的第一列作为表头,如果横表的初始表头的最大rowspan大于1,或者竖表初始表头的最大colspan大于1,则说明初始表头数据存在属性名称的总分结构,需要做进一步的属性合并,统一表示为最终的细分属性,使得表头属性可以通过一个一维向量表示出来,其中,每个向量值对应一个表头属性名称;以横表为例,读取横表第一行rowspan的最大值为R,判断每个表格数据rowspan是否为R,若是,则直接使用该表格数据为对应的属性向量值;如果小于R,则将该表格数据添加到其colspan包括的下一行所有表格数据中,最终将x*y的数据组织形式,拉平为包含y个值的一维向量;举个例子来说,图3中横表的表头数据,最大rowspan为2,需要整合表头属性结构,“主叫市话”和“国内长途”是“超出后本地(元/分)”的细分,则将“超出后本地(元/分)”数据分别添加到其colspan包括下一行的2个表格数据中,拉平为最终属性名称“超出后本地(元/分)主叫市话”和“超出后本地(元/分)国内长途”,得到表头属性名称向量后,记录每个表头属性名称所包含的列数即colspan值,这里可以注意到,在本发明实施例中,横表表头的属性结构,包括表头属性名称及每个表头属性对应的表格列数;竖表的处理方法类似,在此不再赘述。
在上述实施例的基础上,在抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值之前,还可以根据所述表头属性名称,对所述表头属性名称对应的表格内容进行合并。
以横表为例,设表格内容的rowspan为r,将r大于1的表格内容拆分为r行,使用此表格内容补齐所有行里相应的数据,确保每行该属性都有相应的属性值,从而每条知识都不缺失属性数据;逐行读取表格内容,每行表格内容对应一条知识,对比参照表头属性对应的表格列数,对表头属性名称对应的表格内容进行合并,整合每行表格内容为表头属性名称对应属性值;如果表格内容colspan小于对应属性列数,准备将下一表格内容合并到此表格内容中;如果表格内容colspan大于对应属性列数,则复制该表格内容,继续参与下一表格内容的整合,最终得到整齐的知识表格内容,即一一对应的属性和属性值对。图4为本发明实施例提供的再一份网页表格示例图,如图4所示,表格结构为横表,表头包含4个属性,向量表示为{“资费特点”,“资费标识”,“产品名称”,“资费描述”}。相应的表头属性colspan值为{2,1,1,1},说明前两列数据需整合为一个值来描述“资费特点”这一属性,而其他属性对应一个表格数据;表头确定包含4个属性,则需要将表格内容对齐规整为4个属性值,与表头中的表头属性名称相对应;“自选套餐”和“本地”两个表格数据都位于“资费特点”属性包含的colspan下,需要合并两项数据描述一个属性;其中,“自选套餐”rowspan为8,纵向跨越了8行数据,表示8行数据的“资费特点”属性对应的值都是“自选套餐”;最终为每行数据补全规整后,前4条知识的“资费特点”属性值都为“自选套餐本地”;
在对表头属性名称对应的表格内容进行规整对齐后,能将表格内容对齐整合到相应表头属性名称下,抽取表头属性名称及表头属性名称对应的表格内容分别作为知识属性名称和属性值,例如图4中知识属性和属性值的对象关系为:
[{“资费特点”:“自选套餐本地”,“资费标识”:“BCAF7913”,“产品名称”:“神州行9元本地套餐”,“资费描述”:“无月租费,每月合约消费9元...”},...,
{“资费特点”:“自选套餐长途”,“资费标识”:“BCAF7917”,“产品名称”:“神州行18元长途套餐”,“资费描述”:“每月收取18元,在本地接听电话免费...”},...,
{“资费特点”:“无月租”,“资费标识”:“BCAZ2118”,“产品名称”:“38元畅聊卡(+5元综合包)”,“资费描述”:“(月合约消费43元),向用户宣传...”}]。
如此,可得到知识属性和属性值一一对应的知识描述数据,每行数据形成一条知识,存储到关键字/值(K/V)库中,K/V对能够准确表达知识内涵,便可用于后续的本体知识构建。竖表的处理方法类似,在此不再赘述。
图5为本发明实施例提供的知识抽取装置的结构示意图,如图5所示,所述装置包括:
获取模块501,用于获取表格数据的语义相似度;
确定模块502,用于根据所述获取模块501获取的所述语义相似度确定表格结构;
所述确定模块502,还用于根据所述表格结构确定表头属性名称;
抽取模块503,用于抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。
本发明实施例提供的知识抽取装置,通过获取模块501获取表格数据的语义相似度;确定模块502根据所述获取模块501获取的所述语义相似度确定表格结构,根据所述表格结构确定表头属性名称;抽取模块503抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值,得到可直接用于本体知识构建的知识数据,整个表格数据抽取过程并不受限于任何先验知识,不需要人工介入;如此,能实现表格结构识别和表格数据抽取的自动化,降低了知识抽取的人力成本,进而可提高本体知识的抽取效率。
在上述实施例的基础上,所述获取模块501,具体用于将表格数据按照横表结构拆分为第一表头和多个第一表格内容时,获取所述第一表头与各所述第一表格内容间的语义相似度、及各所述第一表格内容之间的语义相似度;将所述表格数据按照竖表结构拆分为第二表头和多个第二表格内容时,获取所述第二表头与各所述第二表格内容间的语义相似度、及各所述第二表格内容之间的语义相似度;
所述确定模块502,具体用于根据所述获取模块501获取的所述第一表头与各所述第一表格内容间的语义相似度、各所述第一表格内容之间的语义相似度、所述第二表头与各所述第二表格内容间的语义相似度、各所述第二表格内容之间的语义相似度,及预设的表头与表格内容间的语义相似度阈值和表格内容之间的语义相似度阈值,确定表格结构。
在上述实施例的基础上,所述确定模块502,具体用于根据所述表格结构确定所述表格数据的初始表头;在确定所述初始表头存在属性名称的总分结构时,对所述表格数据的初始表头进行合并,确定表头属性名称。
图6为本发明实施例提供的知识抽取装置的另一结构示意图,本发明实施例提供的装置以图5示出的装置为基础,如图6所示,本发明实施例提供的装置也包括:获取模块501、确定模块502、抽取模块503,并且各功能模块也分别具有图5中的功能和作用;进一步,本发明实施例提供的装置,还包括对齐模块601,用于根据所述表头属性名称,对所述表头属性名称对应的表格内容进行合并。
在实际应用中,所述获取模块501、确定模块502、抽取模块503及所述对齐模块601,均可由位于业务平台的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (8)

1.一种知识抽取方法,其特征在于,所述方法包括:
获取表格数据的语义相似度,根据所述语义相似度确定表格结构;
根据所述表格结构确定表头属性名称;
抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。
2.根据权利要求1所述的方法,其特征在于,所述获取表格数据的语义相似度,根据所述语义相似度确定表格结构包括:
将表格数据按照横表结构拆分为第一表头和多个第一表格内容时,获取所述第一表头与各所述第一表格内容间的语义相似度、及各所述第一表格内容之间的语义相似度;
将所述表格数据按照竖表结构拆分为第二表头和多个第二表格内容时,获取所述第二表头与各所述第二表格内容间的语义相似度、及各所述第二表格内容之间的语义相似度;
根据所述第一表头与各所述第一表格内容间的语义相似度、各所述第一表格内容之间的语义相似度、所述第二表头与各所述第二表格内容间的语义相似度、各所述第二表格内容之间的语义相似度,及预设的表头与表格内容间的语义相似度阈值和表格内容之间的语义相似度阈值,确定表格结构。
3.根据权利要求1所述的方法,其特征在于,所述根据所述表格结构确定表头属性名称包括:
根据所述表格结构确定所述表格数据的初始表头;
在确定所述初始表头存在属性名称的总分结构时,对所述初始表头进行属性合并,确定表头属性名称。
4.根据权利要求1所述的方法,其特征在于,所述抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值之前,所述方法还包括:根据所述表头属性名称,对所述表头属性名称对应的表格内容进行合并。
5.一种知识抽取装置,其特征在于,所述装置包括:
获取模块,用于获取表格数据的语义相似度;
确定模块,用于根据所述获取模块获取的所述语义相似度确定表格结构;还用于根据所述表格结构确定表头属性名称;
抽取模块,用于抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。
6.根据权利要求5所述的装置,其特征在于,所述获取模块,具体用于将表格数据按照横表结构拆分为第一表头和多个第一表格内容时,获取所述第一表头与各所述第一表格内容间的语义相似度、及各所述第一表格内容之间的语义相似度;将所述表格数据按照竖表结构拆分为第二表头和多个第二表格内容时,获取所述第二表头与各所述第二表格内容间的语义相似度、及各所述第二表格内容之间的语义相似度;
所述确定模块,具体用于根据所述第一表头与各所述第一表格内容间的语义相似度、各所述第一表格内容之间的语义相似度、所述第二表头与各所述第二表格内容间的语义相似度、各所述第二表格内容之间的语义相似度,及预设的表头与表格内容间的语义相似度阈值和表格内容之间的语义相似度阈值,确定表格结构。
7.根据权利要求5所述的装置,其特征在于,所述确定模块,具体用于根据所述表格结构确定所述表格数据的初始表头;在确定所述初始表头存在属性名称的总分结构时,对所述表格数据的初始表头进行合并,确定表头属性名称。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:
对齐模块,用于根据所述表头属性名称,对所述表头属性名称对应的表格内容进行合并。
CN201510895126.4A 2015-12-08 2015-12-08 知识抽取方法及装置 Pending CN106855851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510895126.4A CN106855851A (zh) 2015-12-08 2015-12-08 知识抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510895126.4A CN106855851A (zh) 2015-12-08 2015-12-08 知识抽取方法及装置

Publications (1)

Publication Number Publication Date
CN106855851A true CN106855851A (zh) 2017-06-16

Family

ID=59131545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510895126.4A Pending CN106855851A (zh) 2015-12-08 2015-12-08 知识抽取方法及装置

Country Status (1)

Country Link
CN (1) CN106855851A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109491703A (zh) * 2018-11-07 2019-03-19 网易(杭州)网络有限公司 表格合并的方法、装置、存储介质及电子装置
CN109558578A (zh) * 2018-11-26 2019-04-02 成都四方伟业软件股份有限公司 报表转换方法及装置
CN109828814A (zh) * 2019-01-09 2019-05-31 北京数衍科技有限公司 获取屏幕表单数据的方法
CN110020267A (zh) * 2017-07-27 2019-07-16 杭州海康威视数字技术股份有限公司 列表显示方法及装置
CN110275966A (zh) * 2019-07-01 2019-09-24 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN110321530A (zh) * 2019-06-28 2019-10-11 南京智录信息科技有限公司 表格语义化解析系统技术
CN110472209A (zh) * 2019-07-04 2019-11-19 重庆金融资产交易所有限责任公司 基于深度学习的表格生成方法、装置和计算机设备
CN111046632A (zh) * 2019-11-29 2020-04-21 智器云南京信息科技有限公司 一种数据提取转换方法、系统、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101556606A (zh) * 2009-05-20 2009-10-14 同方知网(北京)技术有限公司 一种基于Web数值表格抽取的数据挖掘方法
CN103198069A (zh) * 2012-01-06 2013-07-10 株式会社理光 抽取关系型表格的方法和装置
CN105045769A (zh) * 2015-06-01 2015-11-11 中国人民解放军装备学院 一种基于结构识别的Web表格信息抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101556606A (zh) * 2009-05-20 2009-10-14 同方知网(北京)技术有限公司 一种基于Web数值表格抽取的数据挖掘方法
CN103198069A (zh) * 2012-01-06 2013-07-10 株式会社理光 抽取关系型表格的方法和装置
CN105045769A (zh) * 2015-06-01 2015-11-11 中国人民解放军装备学院 一种基于结构识别的Web表格信息抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵洪 等: "Web 表格信息抽取研究综述", 《知识组织与知识管理》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020267A (zh) * 2017-07-27 2019-07-16 杭州海康威视数字技术股份有限公司 列表显示方法及装置
CN110020267B (zh) * 2017-07-27 2021-03-26 杭州海康威视数字技术股份有限公司 列表显示方法及装置
CN109491703A (zh) * 2018-11-07 2019-03-19 网易(杭州)网络有限公司 表格合并的方法、装置、存储介质及电子装置
CN109558578A (zh) * 2018-11-26 2019-04-02 成都四方伟业软件股份有限公司 报表转换方法及装置
CN109828814A (zh) * 2019-01-09 2019-05-31 北京数衍科技有限公司 获取屏幕表单数据的方法
CN109828814B (zh) * 2019-01-09 2021-10-19 北京数衍科技有限公司 获取屏幕表单数据的方法
CN110321530A (zh) * 2019-06-28 2019-10-11 南京智录信息科技有限公司 表格语义化解析系统技术
CN110275966A (zh) * 2019-07-01 2019-09-24 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN110472209A (zh) * 2019-07-04 2019-11-19 重庆金融资产交易所有限责任公司 基于深度学习的表格生成方法、装置和计算机设备
CN110472209B (zh) * 2019-07-04 2024-02-06 深圳同奈信息科技有限公司 基于深度学习的表格生成方法、装置和计算机设备
CN111046632A (zh) * 2019-11-29 2020-04-21 智器云南京信息科技有限公司 一种数据提取转换方法、系统、存储介质及电子设备
CN111046632B (zh) * 2019-11-29 2023-11-10 智器云南京信息科技有限公司 一种数据提取转换方法、系统、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN106855851A (zh) 知识抽取方法及装置
CN105843897B (zh) 一种面向垂直领域的智能问答系统
CN107992543A (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
CN106372648A (zh) 基于多特征融合卷积神经网络的浮游生物图像分类方法
CN106991386A (zh) 一种基于深度残差网络的手势识别方法
CN109614409A (zh) 业务数据处理方法、装置和服务器
CN103605970A (zh) 一种基于机器学习的图纸建筑元素识别方法及系统
CN109241297B (zh) 一种内容分类聚合方法、电子设备、存储介质及引擎
CN102509001B (zh) 一种自动去除时序数据野值点的方法
CN104346698B (zh) 基于云计算和数据挖掘的餐饮会员大数据分析和考核系统
CN103631874B (zh) 社交平台的ugc标签类别确定方法和装置
CN106557457A (zh) 一种基于qt的自动生成跨平台复杂流程图的系统
CN109684446A (zh) 文本语义相似度计算方法及装置
CN110516221A (zh) 提取pdf文档中图表数据的方法、设备和存储介质
CN107368820A (zh) 一种精细化手势识别方法、装置及设备
CN109902157A (zh) 一种训练样本有效性检测方法及装置
CN110046648A (zh) 基于至少一个业务分类模型进行业务分类的方法及装置
CN107506362A (zh) 基于用户群优化的图像分类仿脑存储方法
CN111783543A (zh) 一种基于多任务学习的面部活动单元检测方法
CN101482897A (zh) 一种智能裙装款式与纸样设计系统
CN109947948A (zh) 一种基于张量的知识图谱表示学习方法及系统
CN109740947A (zh) 基于专利数据的专家挖掘方法、系统、存储介质及电子终端
CN110489242A (zh) 分布式数据计算方法、装置、终端设备及存储介质
CN110263817A (zh) 一种基于用户账号的风险等级划分方法及装置
CN101893960B (zh) 一种基于方向向量的文字识别方法和识别装置

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170616