CN109710771A - 表格信息提取方法、装置和存储介质 - Google Patents

表格信息提取方法、装置和存储介质 Download PDF

Info

Publication number
CN109710771A
CN109710771A CN201811280729.3A CN201811280729A CN109710771A CN 109710771 A CN109710771 A CN 109710771A CN 201811280729 A CN201811280729 A CN 201811280729A CN 109710771 A CN109710771 A CN 109710771A
Authority
CN
China
Prior art keywords
extracted
information
column
row
related information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811280729.3A
Other languages
English (en)
Other versions
CN109710771B (zh
Inventor
李双婕
黄昉
梁海金
张扬
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811280729.3A priority Critical patent/CN109710771B/zh
Publication of CN109710771A publication Critical patent/CN109710771A/zh
Application granted granted Critical
Publication of CN109710771B publication Critical patent/CN109710771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种表格信息提取方法、装置和存储介质。该方法包括:确定待提取表格的表格类型,表格类型包括单实体类型和/或多实体类型;根据待提取表格的表格类型,提取待提取表格中的主体信息、客体信息以及主体和客体之间的关联信息。本实施例提供的表格信息提取方法、装置和存储介质,首先识别待提取信息的表格的类型,然后根据表格类型在表格中提取信息,可准确提取网页表格中的内容,避免了需为不同结构的网页配置不同提取模板,降低了网页表格信息提取的成本,提高了表格信息提取效率,具有广泛的适用范围。

Description

表格信息提取方法、装置和存储介质
技术领域
本发明涉及网络信息处理技术领域,尤其涉及一种表格信息提取方法、装置和存储介质。
背景技术
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是SPO(主体-关联关系-客体)三元组,构成网状的知识结构。SPO三元组中,S指示Subject(主体)、O指示Object(客体)、P指示Predicate(S与O之间的关联关系)。例如,“张三身高为226cm”中,张三为S,226cm为O,身高为P。知识图谱可以用来更好的查询复杂的关联信息,从语义层面理解用户意图,提升搜索质量。
随着信息技术的发展,互联网上的资源越来越丰富。除了非结构化数据外,还有大量的网络表格存在,这些网络表格较文本而言,具有更好的结构化特性和更多的内容信息。在知识图谱构建中,从网页的表格中进行表格信息提取,是一种不可或缺的信息提取手段。如何让机器更好地理解网络表格的语义成为提高表格搜索覆盖率和准确率的重大挑战。
目前的网页表格信息提取通常依靠人工基于网页内容配置特定的提取模板,来进行表格信息提取,因此存在信息提取成本高、效率低的问题,而且需为不同结构的网页配置不同提取模板,也存在适用范围较小的问题。
发明内容
本发明提供一种表格信息提取方法、装置和存储介质,可解决现有的表格信息提取方法存在信息提取成本高、效率低、适用范围较小的问题。
本发明的第一方面提供一种表格信息提取方法,包括:
确定待提取表格的表格类型,所述表格类型包括单实体类型和/或多实体类型;
根据所述待提取表格的表格类型,提取所述待提取表格中的主体信息、客体信息以及所述主体和所述客体之间的关联信息。
可选的,当所述待提取表格的表格类型为单实体类型,所述提取所述待提取表格中的主体信息、客体信息以及所述主体和所述客体之间的关联信息,包括:
在所述待提取表格的表格简介区域、所述待提取表格所在网页的文字描述区域或者所述待提取表格所在网页的文档标题中确定所述待提取表格中的主体信息,所述表格简介区域包含所述待提取表格的主体信息;
在所述待提取表格中确定关联信息所在的列/行,在所述关联信息所在的列/行中,确定所述待提取表格的至少一个关联信息以及所述关联信息对应的客体信息。
可选的,当所述待提取表格的表格类型为多实体类型,所述提取所述待提取表格中的主体信息、客体信息以及所述主体和所述客体之间的关联信息,包括:
在所述待提取表格中确定关联信息所在的列/行,在所述关联信息所在的列/行中,确定所述待提取表格的至少一个关联信息;
在所述待提取表格中确定主体信息所在的行/列,在所述主体信息所在的行/列中,确定所述待提取表格的至少一个主体信息;
在所述待提取表格中确定每一对关联信息和主体信息对应的客体信息。
可选的,所述确定待提取表格的表格类型之前,所述表格信息提取方法还包括:
确定所述待提取表格中的表格简介区域,所述表格简介区域包含所述待提取表格的主体信息;
确定所述待提取表格中的表头区域,所述表头区域为所述待提取表格中的主体信息/客体信息所在的行/列;
所述确定待提取表格的表格类型,包括:
根据所述待提取表格中的表头区域,确定所述待提取表格的表格类型。
可选的,所述确定所述待提取表格中的表格简介区域,确定所述待提取表格中的表格简介区域包括:
当所述待提取表格中的一行/一列中的所有单元格属于同一个合并单元格,则确定所述行/列为所述待提取表格的表格简介区域。
可选的,所述确定所述待提取表格中的表头区域,包括:
对于所述待提取表格中的一行/一列中的所有单元格,当所述一行/一列中的所有单元格符合以下中至少一项预设条件时,确定所述行/列为所述待提取表格的表头区域;所述预设条件包括:
一行/一列中单元格格式为预设表头格式的单元格比例大于第一预设比例;或者,
一行/一列中在表头类超文本标记语言(Hyper Text Markup Language,HTML)标签下的单元格比例大于第二预设比例;或者,
一行/一列中单元格内容属于预定义关联关系的单元格比例大于第三预设比例。
可选的,所述根据所述待提取表格中的表头区域,确定所述待提取表格的表格类型,包括:
在所述待提取表格的行和列中均存在表头区域时,确定所述待提取表格的表格类型为多实体类型。
可选的,所述确定待提取表格的表格类型之前,所述方表格信息提取方法还包括:
确定所述待提取表格的行数目和列数目均大于2。
可选的,所述表格信息提取方法还包括:
若所述待提取表格的行数目或列数目为2,则确定所述待提取表格的表格类型为单实体类型。
可选的,所述确定待提取表格的表格类型之前,所述表格信息提取方法还包括:
在所述待提取表格中存在合并单元格时,拆分所述合并单元格。
本发明的第二方面提供一种表格信息提取装置,用于执行上述第一方面中的表格信息提取方法,具有相同或相似的技术特征和技术效果。
本发明提供的表格信息提取装置,包括:
表格类型获取模块,用于确定待提取表格的表格类型,表格类型包括单实体类型和/或多实体类型;
表格信息提取模块,用于根据待提取表格的表格类型,提取待提取表格中的主体信息、客体信息以及主体和客体之间的关联信息。
可选的,当待提取表格的表格类型为单实体类型,表格信息提取模块具体用于,在待提取表格的表格简介区域、待提取表格所在网页的文字描述区域或者待提取表格所在网页的文档标题中确定待提取表格中的主体信息,表格简介区域包含待提取表格的主体信息;
在待提取表格中确定关联信息所在的列/行,在关联信息所在的列/行中,确定待提取表格的至少一个关联信息以及关联信息对应的客体信息。
可选的,当待提取表格的表格类型为多实体类型,表格信息提取模块具体用于,在待提取表格中确定关联信息所在的列/行,在关联信息所在的列/行中,确定待提取表格的至少一个关联信息;
在待提取表格中确定主体信息所在的行/列,在主体信息所在的行/列中,确定待提取表格的至少一个主体信息;
在待提取表格中确定每一对关联信息和主体信息对应的客体信息。
可选的,表格信息提取装置还包括:
表格简介区域获取模块,用于确定待提取表格中的表格简介区域,表格简介区域包含待提取表格的主体信息;
表头区域获取模块,用于确定待提取表格中的表头区域,表头区域为待提取表格中的主体信息/客体信息所在的行/列;
对应的,表格类型获取模块具体用于,根据待提取表格中的表头区域,确定待提取表格的表格类型。
可选的,表格简介区域获取模块具体用于,当待提取表格中的一行/一列中的所有单元格属于同一个合并单元格,则确定行/列为待提取表格的表格简介区域。
可选的,表头区域获取模块具体用于,对于待提取表格中的一行/一列中的所有单元格,当一行/一列中的所有单元格符合以下中至少一项预设条件时,确定行/列为待提取表格的表头区域;预设条件包括:
一行/一列中单元格格式为预设表头格式的单元格比例大于第一预设比例;或者,
一行/一列中在表头类HTML标签下的单元格比例大于第二预设比例;或者,
一行/一列中单元格内容属于预定义关联关系的单元格比例大于第三预设比例。
可选的,表格类型获取模块具体用于,在待提取表格的行和列中均存在表头区域时,确定待提取表格的表格类型为多实体类型。
可选的,表格信息提取装置还包括:
行列数目获取模块,用于确定待提取表格的行数目和列数目均大于2。
可选的,表格类型获取模块还用于,若待提取表格的行数目或列数目为2,则确定待提取表格的表格类型为单实体类型。
可选的,表格信息提取装置还包括:
拆分模块,用于在待提取表格中存在合并单元格时,拆分合并单元格。
本发明的第三方面提供一种表格信息提取装置,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述表格信息提取装置执行上述表格信息提取方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机执行指令,当所述计算机执行指令被处理器执行时,实现上述表格信息提取方法。
本发明提供一种表格信息提取方法、装置和存储介质。表格信息提取方法包括:确定待提取表格的表格类型,表格类型包括单实体类型和/或多实体类型;根据待提取表格的表格类型,提取待提取表格中的主体信息、客体信息以及主体和客体之间的关联信息。本实施例提供的表格信息提取方法、装置和存储介质,首先识别待提取信息的表格的类型,然后根据表格类型在表格中提取信息,可准确提取网页表格中的内容,避免了需为不同结构的网页配置不同提取模板,降低了网页表格信息提取的成本,提高了表格信息提取效率,具有广泛的适用范围。
附图说明
图1为本发明涉及的知识图谱的一种示意图;
图2为本发明提供的表格信息提取方法的流程示意图一;
图3为本发明提供的表格信息提取方法的流程示意图二;
图4为本发明提供的表格信息提取方法的流程示意图三;
图5为本发明提供的表格信息提取方法的流程示意图四;
图6为本发明提供的表格信息提取装置的结构示意图一;
图7为本发明提供的表格信息提取装置的结构示意图二。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明涉及的知识图谱的一种示意图。知识图谱中包含大量的SPO三元组数据,构成了复杂的网状知识结构。如图1所示,“李四-身高-174cm”、“李四-妻子-王五”即为两例SPO。知识图谱可以直观的表达实体(主体)与实体(客体)之间的关系,能够显著提升搜索质量。
为构建知识图谱,通常从丰富的网络资源中提取信息。其中,而网络资源中的有效信息通常为网页表格形式。但是,目前的网页表格依赖人工配置提取模板,存在信息提取成本高、效率低、需为不同结构的网页配置不同提取模板,适用范围较小的问题。
为解决上述问题,本发明提供一种表格信息提取方法、装置和存储介质。下面结合具体实施例对本发明提供的表格信息提取方法、装置和存储介质进行说明。
图2为本发明提供的表格信息提取方法的流程示意图一,图2所示方法流程的执行主体可以为终端,或,终端中的应用/软件。该终端可以为计算机、服务器等智能设备。该执行主体可由任意的软件和/或硬件实现。如图2所示,本实施例提供的表格信息提取方法可以包括:
S101、确定待提取表格的表格类型。
其中,表格类型包括单实体类型和/或多实体类型。
示例性的,网页中的表格根据可划分为单实体类型和多实体类型。其中,单实体型表格指的是,表格通过多行/多列表达了一个实体的多个属性,如下表1所示。多实体型表格指的是,表格通过多行和多列表达了多个实体的多个属性,通常来说一行或者一列对应了一个主体的全部信息,如图下表2a和表2b所示。可选的,根据一个主体的信息表达在同一行或者同一列中,多实体型表格可以分为行多实体(表2a)和列多实体(表2b)两种。可以理解的是,单实体型表格也可以分为行单实体和列多实体,本发明不再赘述。
表1
中文名 民族 出生日期 身高 体重 血型 生肖
李四 汉族 1961年9月27日 174cm 63KG AB型
表2a
表2b
示例性的,如上任一表所示,表格包括多个单元格,单元格中可能存储有主体、客体和关联关系。可选的,当关联关系为主体的某一属性时,客体可以为主体的该属性的属性取值。例如,血型为主体李四/杨六的属性,AB型为主体的属性的具体取值。
S102、根据待提取表格的表格类型,提取待提取表格中的主体信息、客体信息以及主体和客体之间的关联信息。
示例性的,根据表格类型的不同,采用表格类型对应的表格信息提取方法从表格中提取主体、客体以及关联信息。可选的,不同表格类型对应的表格信息提取方法可以为S、P、O的提取顺序不同、提取顺序相同但提取方式不同。
可选的,不同表格类型对应的表格信息提取方法还可以为提取位置不同。例如,单实体表格中可能不包括主体信息,主体信息无法从单实体表格中提取,可以选择从单实体表格所属网页中提取。而多实体类型表格则可以从表格中提取主体信息。
本实施例提供的表格信息提取方法包括:确定待提取表格的表格类型,表格类型包括单实体类型和/或多实体类型;根据待提取表格的表格类型,提取待提取表格中的主体信息、客体信息以及主体和客体之间的关联信息。本实施例提供的表格信息提取方法,首先识别待提取信息的表格的类型,然后根据表格类型在表格中提取信息,可准确提取网页表格中的内容,避免了需为不同结构的网页配置不同提取模板,降低了网页表格信息提取的成本,提高了表格信息提取效率,具有广泛的适用范围。
在上述图2所示实施例的基础上,本发明实施例还提供一种表格信息提取方法。图3为本发明提供的表格信息提取方法的流程示意图二,本实施例中对确定待提取表格的表格类型的方法进行详细说明。如图3所示,本实施例提供的表格信息提取方法可以包括:
S201、确定待提取表格中的表格简介区域,表格简介区域包含待提取表格的主体信息。
示例性的,表格简介区域用于描述整个表格的内容、功能、辅助信息等。表格简介区域通常位于表格的边缘行/列,也可能在表格的上方/下方。表格简介区域通常描述了主体名称、主体简介等信息。
示例性的,一种表格简介区域查找方式为:
当待提取表格中的一行/一列中的所有单元格属于同一个合并单元格,则确定行/列为待提取表格的表格简介区域。
示例性的,如下表3中的第一行所示,该合并单元格即为表3的表格简介区域。
表3
可选的,如图3所示,在S201之前,还包括:
S200、在待提取表格中存在合并单元格时,拆分合并单元格。
示例性的,如表2a和表2b所示,在提取表格信息前,当检测到表格中存在合并单元格时,拆分合并单元格。拆分合并单元格后的表格,为二维矩阵形式,二维矩阵中的每一个元素对应表格中的一个拆分后的单元格,拆分合并单元格后得到的单元格中的内容均为原合并单元格中的内容。
可选的,检测合并单元格的方式可以为检测网页表格中是否存在合并单元格的HTML标签。
S202、确定待提取表格中的表头区域,表头区域为待提取表格中的主体信息/客体信息所在的行/列。
示例性的,表头区域为表格中用于展示S、P等特殊信息的区域,而非普通属性值的区域。
可选的,对于待提取表格中的一行/一列中的所有单元格,当一行/一列中的所有单元格符合以下中至少一项预设条件时,确定行/列为待提取表格的表头区域;预设条件包括:
一行/一列中单元格格式为预设表头格式的单元格比例大于第一预设比例;或者,
一行/一列中在表头HTML标签下的单元格比例大于第二预设比例;或者,
一行/一列中单元格内容属于预定义关联关系的单元格比例大于第三预设比例。
示例性的,预设表头格式可以为加粗、斜体、预设颜色高亮等,当检测待提取表格中的某一行的所有单元格均采用预设表头格式、或采用预设表头格式的单元格占改行所有单元格比例达到预设比例,如80%,则确认该行为表头区域。对于待提取表格中的任一列也可采用上述检测方式。
示例性的,还可预定义常见的关联关系(属性),如姓名、性别、收入、级别等。当检测到表格中的某一行,属于预定义的关联关系的单元格超过预设比例时,可确定该行为表头区域。示例性的,可能存在将主体也检测为
示例性的,上述第一预设比例、第二预设比例和第三预设比例,可以相同也可以不同。
可选的,可在待提取表格中的表格简介区域外,确定表格的表头区域。
可以理解的是,S201和S202可以并列执行,也可以先执行S202,后执行S201,本发明对此不做限定。
S203、根据待提取表格中的表头区域,确定待提取表格的表格类型。
示例性的,在确定待提取表格的表头区域后,可根据待提取表格中的表头区域,确定待提取表格的表格类型。
示例性的,当待提取表格的行和列中均存在表头区域时,确定待提取表格的表格类型为多实体类型。
示例性的,可能存在将主体S和关联关系P所在行/列均被识别为表头区域的情况,因此,当存在某一行和某一列同时被识别为表头区域时,可确定待提取表格的表格类型为多实体类型。
可选的,若待提取表格的行数目或列数目为2,则确定待提取表格的表格类型为单实体类型。
可选的,在S201之前,还包括:
确定待提取表格的行数目和列数目均大于2。
示例性的,当待提取表格为两行时,可确定待提取表格中一行为P,另一行为O。同理,当待提取表格为两列时,可确定待提取表格中一列为P,另一列为O。因此,当检测到待提取表格的行数目或列数目为2,则可确定确定待提取表格的表格类型为单实体类型。当待提取表格的行数目和列数目均大于2,则需进一步根据表头区域,确定待提取表格的表格类型。
S204、根据待提取表格的表格类型,提取待提取表格中的主体信息、客体信息以及主体和客体之间的关联信息。
示例性的,本实施例中的S204与图2所示实施例中的S102相同,本发明不再赘述。
本实施例提供的表格信息提取方法包括:确定待提取表格中的表格简介区域,表格简介区域包含待提取表格的主体信息,在待提取表格中的表格简介区域外,确定待提取表格中的表头区域,表头区域为待提取表格中的实体信息/客体信息所在的行/列,根据待提取表格中的表头区域,确定待提取表格的表格类型,根据待提取表格的表格类型,提取待提取表格中的主体信息、客体信息以及主体和客体之间的关联信息。本实施例首先确定待提取表格中的表格简介区域和表头区域,然后根据表头区域确定表格类型,实现了表格类型的自动识别,提高了表格信息提取效率。
在上述任一实施例的基础上,本发明实施例还提供一种表格信息提取方法。图4为本发明提供的表格信息提取方法的流程示意图三,本实施例中对待提取表格的表格类型为单实体类型时,表格信息提取方法进行详细说明。如图4所示,本实施例提供的表格信息提取方法可以包括:
S301、确定待提取表格的表格类型为单实体类型。
示例性的,本实施例中的表格类型检测方式可采用上述实施例中任一实现方式,本实施例不再赘述。
S302、在待提取表格的表格简介区域、待提取表格所在网页的文字描述区域或者待提取表格所在网页的文档标题中确定待提取表格中的主体信息,表格简介区域包含待提取表格的主体信息。
示例性的,考虑到单实体通常通过多行/多列表达了一个实体的多个属性,实体名称通常不会出现在表格中,而是在表格简介区域、表格上方的文字描述或者文档标题中,因此,可在待提取表格的表格简介区域、待提取表格所在网页的文字描述区域或者待提取表格所在网页的文档标题中确定待提取表格中的主体信息。
S303、在待提取表格中确定关联信息所在的列/行,在关联信息所在的列/行中,确定待提取表格的至少一个关联信息以及关联信息对应的客体信息。
示例性的,可在待提取表格中确定关联信息所在的列/行,关联信息所在的列/行中的单元格指示的是主体S对应的各关联信息P,待提取表格中剩余的一列/行中的单元格指示的是各关联信息P对应的O。
可选的,可在待提取表格中的表头区域确定关联信息所在的列/行。
本实施例提供的表格信息提取方法包括:在待提取表格的表格类型为单实体类型时,在待提取表格的表格简介区域、待提取表格所在网页的文字描述区域或者待提取表格所在网页的文档标题中确定待提取表格中的主体信息,表格简介区域包含待提取表格的主体信息,在待提取表格中确定关联信息所在的列/行,在关联信息所在的列/行中,确定待提取表格的至少一个关联信息以及关联信息对应的客体信息。本实施例首先提取主体信息,然后在待提取表格中提取关联信息,最后确定主体的各关联信息对应的客体信息,实现了表格信息的自动提取,提高了表格信息提取效率。
在上述任一实施例的基础上,本发明实施例还提供一种表格信息提取方法。图5为本发明提供的表格信息提取方法的流程示意图四,本实施例中对待提取表格的表格类型为多实体类型时,表格信息提取方法进行详细说明。如图5所示,本实施例提供的表格信息提取方法可以包括:
S401、确定待提取表格的表格类型为多实体类型。
示例性的,本实施例中的表格类型检测方式可采用上述实施例中任一实现方式,本实施例不再赘述。
可选的,为提高表格信息提取效率,还在进行表格信息提取前,将列多实体表格转换为行多实体表格。
S402、在待提取表格中确定关联信息所在的列/行,在关联信息所在的列/行中,确定待提取表格的至少一个关联信息。
示例性的,本实施例中,考虑到多实体类型表格中单元格较多,主体类型较多、交杂存在不好辨认的情况,可首先在待提取表格中确定关联信息P所在的列/行,从而确定出待提取表格中的至少一个P。
可选的,可在待提取表格中的表头区域确定关联信息所在的列/行。
S403、在待提取表格中确定主体信息所在的行/列,在主体信息所在的行/列中,确定待提取表格的至少一个主体信息。
示例性的,当在待提取表格中确定出关联信息所在的列后,对应的,在待提取表格中的各行中,确定出主体信息所在的行。当在待提取表格中确定出关联信息所在的行后,对应的,在待提取表格中的各列中,确定出主体信息所在的列,从而确定出待提取表格中的至少一个S。
S404、在待提取表格中确定每一对关联信息和主体信息对应的客体信息。
本实施例中的S203和S204的实施方式具体可参照上述实施例中的S101和S102的相关描述,在此不做赘述。
示例性的,根据一对P和S,可在待提取表格中确定出该对P和S对应的O。
本实施例提供的表格信息提取方法包括:在待提取表格的表格类型为多实体类型时,在待提取表格中确定关联信息所在的列/行,在关联信息所在的列/行中,确定待提取表格的至少一个关联信息,在待提取表格中确定主体信息所在的行/列,在主体信息所在的行/列中,确定待提取表格的至少一个主体信息,在待提取表格中确定每一对关联信息和主体信息对应的客体信息。本实施例首先在待提取表格中提取关联信息,然后在待提取表格中提取主体信息,最后确定各主体的各关联信息对应的客体信息,实现了表格信息的自动提取,提高了表格信息提取效率。
示例性的,在上述任一实施例的基础上,在获取到待提取表格中的主体S、客体O和关联信息P后,还可以对主体、客体和关联信息进行清洗,删除单元格中S、P、O中的空格、括号、标点符号等信息。
本发明还提供一种表格信息提取装置,用于执行上述任一实施例中的表格信息提取方法,具有相同或相似的技术特征和技术效果。
图6为本发明提供的表格信息提取装置的结构示意图一,如图6所示,该表格信息提取装置包括:
表格类型获取模块501,用于确定待提取表格的表格类型,表格类型包括单实体类型和/或多实体类型;
表格信息提取模块502,用于根据待提取表格的表格类型,提取待提取表格中的主体信息、客体信息以及主体和客体之间的关联信息。
可选的,当待提取表格的表格类型为单实体类型,表格信息提取模块502具体用于,在待提取表格的表格简介区域、待提取表格所在网页的文字描述区域或者待提取表格所在网页的文档标题中确定待提取表格中的主体信息,表格简介区域包含待提取表格的主体信息;
在待提取表格中确定关联信息所在的列/行,在关联信息所在的列/行中,确定待提取表格的至少一个关联信息以及关联信息对应的客体信息。
可选的,当待提取表格的表格类型为多实体类型,表格信息提取模块502具体用于,在待提取表格中确定关联信息所在的列/行,在关联信息所在的列/行中,确定待提取表格的至少一个关联信息;
在待提取表格中确定主体信息所在的行/列,在主体信息所在的行/列中,确定待提取表格的至少一个主体信息;
在待提取表格中确定每一对关联信息和主体信息对应的客体信息。
可选的,如图6所示,表格信息提取装置还包括:
表格简介区域获取模块503,用于确定待提取表格中的表格简介区域,表格简介区域包含待提取表格的主体信息;
表头区域获取模块504,用于确定待提取表格中的表头区域,表头区域为待提取表格中的主体信息/客体信息所在的行/列;
对应的,表格类型获取模块501具体用于,根据待提取表格中的表头区域,确定待提取表格的表格类型。
可选的,表格简介区域获取模块503具体用于,当待提取表格中的一行/一列中的所有单元格属于同一个合并单元格,则确定行/列为待提取表格的表格简介区域。
可选的,表头区域获取模块504具体用于,对于待提取表格中的一行/一列中的所有单元格,当一行/一列中的所有单元格符合以下中至少一项预设条件时,确定行/列为待提取表格的表头区域;预设条件包括:
一行/一列中单元格格式为预设表头格式的单元格比例大于第一预设比例;或者,
一行/一列中在表头类HTML标签下的单元格比例大于第二预设比例;或者,
一行/一列中单元格内容属于预定义关联关系的单元格比例大于第三预设比例。
可选的,表格类型获取模块501具体用于,在待提取表格的行和列中均存在表头区域时,确定待提取表格的表格类型为多实体类型。
可选的,如图6所示,表格信息提取装置还包括:
行列数目获取模块505,用于确定待提取表格的行数目和列数目均大于2。
可选的,表格类型获取模块501还用于,若待提取表格的行数目或列数目为2,则确定待提取表格的表格类型为单实体类型。
可选的,如图6所示,表格信息提取装置还包括:
拆分模块506,用于在待提取表格中存在合并单元格时,拆分合并单元格。
图7为本发明提供的表格信息提取装置的结构示意图二。如图7所示,该表格信息提取装置包括:存储器601和至少一个处理器602。
存储器601,用于存储程序指令。
处理器602,用于在程序指令被执行时实现本实施例中的表格信息提取方法,具体实现原理可参见上述实施例,本实施例此处不再赘述。
该表格信息提取装置还可以包括及输入/输出接口603。
输入/输出接口603可以包括独立的输出接口和输入接口,也可以为集成输入和输出的集成接口。其中,输出接口用于输出数据,输入接口用于获取输入的数据,上述输出的数据为上述方法实施例中输出的统称,输入的数据为上述方法实施例中输入的统称。
本发明还提供一种可读存储介质,可读存储介质中存储有执行指令,当表格信息提取装置的至少一个处理器执行该执行指令时,当计算机执行指令被处理器执行时,实现上述实施例中的表格信息提取方法。
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。表格信息提取装置的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得表格信息提取装置实施上述的各种实施方式提供的表格信息提取方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在上述网络设备或者终端设备的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:ApplicationSpecific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种表格信息提取方法,其特征在于,包括:
确定待提取表格的表格类型,所述表格类型包括单实体类型和/或多实体类型;
根据所述待提取表格的表格类型,提取所述待提取表格中的主体信息、客体信息以及所述主体和所述客体之间的关联信息。
2.根据权利要求1所述的方法,其特征在于,当所述待提取表格的表格类型为单实体类型,所述提取所述待提取表格中的主体信息、客体信息以及所述主体和所述客体之间的关联信息,包括:
在所述待提取表格的表格简介区域、所述待提取表格所在网页的文字描述区域或者所述待提取表格所在网页的文档标题中确定所述待提取表格中的主体信息,所述表格简介区域包含所述待提取表格的主体信息;
在所述待提取表格中确定关联信息所在的列/行,在所述关联信息所在的列/行中,确定所述待提取表格的至少一个关联信息以及所述关联信息对应的客体信息。
3.根据权利要求1所述的方法,其特征在于,当所述待提取表格的表格类型为多实体类型,所述提取所述待提取表格中的主体信息、客体信息以及所述主体和所述客体之间的关联信息,包括:
在所述待提取表格中确定关联信息所在的列/行,在所述关联信息所在的列/行中,确定所述待提取表格的至少一个关联信息;
在所述待提取表格中确定主体信息所在的行/列,在所述主体信息所在的行/列中,确定所述待提取表格的至少一个主体信息;
在所述待提取表格中确定每一对关联信息和主体信息对应的客体信息。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述确定待提取表格的表格类型之前,所述方法还包括:
确定所述待提取表格中的表格简介区域,所述表格简介区域包含所述待提取表格的主体信息;
确定所述待提取表格中的表头区域,所述表头区域为所述待提取表格中的主体信息/客体信息所在的行/列;
所述确定待提取表格的表格类型,包括:
根据所述待提取表格中的表头区域,确定所述待提取表格的表格类型。
5.根据权利要求4所述的方法,其特征在于,所述确定所述待提取表格中的表格简介区域,确定所述待提取表格中的表格简介区域包括:
当所述待提取表格中的一行/一列中的所有单元格属于同一个合并单元格,则确定所述行/列为所述待提取表格的表格简介区域。
6.根据权利要求4或5所述的方法,其特征在于,所述确定所述待提取表格中的表头区域,包括:
对于所述待提取表格中的一行/一列中的所有单元格,当所述一行/一列中的所有单元格符合以下中至少一项预设条件时,确定所述行/列为所述待提取表格的表头区域;所述预设条件包括:
一行/一列中单元格格式为预设表头格式的单元格比例大于第一预设比例;或者,
一行/一列中在表头类超文本标记语言(Hyper Text Markup Language,HTML)标签下的单元格比例大于第二预设比例;或者,
一行/一列中单元格内容属于预定义关联关系的单元格比例大于第三预设比例。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述确定待提取表格的表格类型之前,所述方法还包括:
在所述待提取表格中存在合并单元格时,拆分所述合并单元格。
8.一种表格信息提取装置,其特征在于,包括:
表格类型获取模块,用于确定待提取表格的表格类型,所述表格类型包括单实体类型和/或多实体类型;
表格信息提取模块,用于根据所述待提取表格的表格类型,提取所述待提取表格中的主体信息、客体信息以及所述主体和所述客体之间的关联信息。
9.一种表格信息提取装置,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述表格信息提取装置执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机执行指令,当所述计算机执行指令被处理器执行时,实现权利要求1-7任一项所述的方法。
CN201811280729.3A 2018-10-30 2018-10-30 表格信息提取方法、装置和存储介质 Active CN109710771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811280729.3A CN109710771B (zh) 2018-10-30 2018-10-30 表格信息提取方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811280729.3A CN109710771B (zh) 2018-10-30 2018-10-30 表格信息提取方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN109710771A true CN109710771A (zh) 2019-05-03
CN109710771B CN109710771B (zh) 2020-10-09

Family

ID=66254756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811280729.3A Active CN109710771B (zh) 2018-10-30 2018-10-30 表格信息提取方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN109710771B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188107A (zh) * 2019-06-05 2019-08-30 北京神州泰岳软件股份有限公司 一种从表格中抽取信息的方法及装置
CN111241796A (zh) * 2020-01-19 2020-06-05 北京字节跳动网络技术有限公司 表格信息的展示方法、装置、设备和存储介质
CN111259873A (zh) * 2020-04-26 2020-06-09 江苏联著实业股份有限公司 一种表格数据提取方法及装置
CN111274327A (zh) * 2020-01-09 2020-06-12 浙江工业大学 一种面向非结构化表格文档的实体与关系抽取方法
WO2021027162A1 (zh) * 2019-08-09 2021-02-18 平安科技(深圳)有限公司 一种非满格表格内容提取方法、装置及终端设备
CN113326797A (zh) * 2021-06-17 2021-08-31 上海电气集团股份有限公司 一种pdf文档提取的表格信息转换为结构化知识的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101556606A (zh) * 2009-05-20 2009-10-14 同方知网(北京)技术有限公司 一种基于Web数值表格抽取的数据挖掘方法
CN106777259A (zh) * 2016-12-28 2017-05-31 深圳市华傲数据技术有限公司 自适应抽取HTML Table标签中结构化信息的方法及装置
CN107145591A (zh) * 2017-05-17 2017-09-08 广州瞬速信息科技有限公司 一种基于标题的网页有效元数据内容提取方法
CN107992625A (zh) * 2017-12-25 2018-05-04 湖南星汉数智科技有限公司 一种网页表格数据自动抽取方法及装置
CN108304383A (zh) * 2018-01-29 2018-07-20 北京神州泰岳软件股份有限公司 业务文档的公式信息提取方法及装置
CN108694208A (zh) * 2017-04-11 2018-10-23 富士通株式会社 用于构造数据库的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101556606A (zh) * 2009-05-20 2009-10-14 同方知网(北京)技术有限公司 一种基于Web数值表格抽取的数据挖掘方法
CN106777259A (zh) * 2016-12-28 2017-05-31 深圳市华傲数据技术有限公司 自适应抽取HTML Table标签中结构化信息的方法及装置
CN108694208A (zh) * 2017-04-11 2018-10-23 富士通株式会社 用于构造数据库的方法和装置
CN107145591A (zh) * 2017-05-17 2017-09-08 广州瞬速信息科技有限公司 一种基于标题的网页有效元数据内容提取方法
CN107992625A (zh) * 2017-12-25 2018-05-04 湖南星汉数智科技有限公司 一种网页表格数据自动抽取方法及装置
CN108304383A (zh) * 2018-01-29 2018-07-20 北京神州泰岳软件股份有限公司 业务文档的公式信息提取方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188107A (zh) * 2019-06-05 2019-08-30 北京神州泰岳软件股份有限公司 一种从表格中抽取信息的方法及装置
CN110188107B (zh) * 2019-06-05 2020-05-01 中科鼎富(北京)科技发展有限公司 一种从表格中抽取信息的方法及装置
WO2021027162A1 (zh) * 2019-08-09 2021-02-18 平安科技(深圳)有限公司 一种非满格表格内容提取方法、装置及终端设备
CN111274327A (zh) * 2020-01-09 2020-06-12 浙江工业大学 一种面向非结构化表格文档的实体与关系抽取方法
CN111274327B (zh) * 2020-01-09 2021-08-03 浙江工业大学 一种面向非结构化表格文档的实体与关系抽取方法
CN111241796A (zh) * 2020-01-19 2020-06-05 北京字节跳动网络技术有限公司 表格信息的展示方法、装置、设备和存储介质
CN111241796B (zh) * 2020-01-19 2021-03-26 北京字节跳动网络技术有限公司 表格信息的展示方法、装置、设备和存储介质
WO2021143323A1 (zh) * 2020-01-19 2021-07-22 北京字节跳动网络技术有限公司 表格信息的展示方法、装置、设备和存储介质
US11392761B2 (en) 2020-01-19 2022-07-19 Beijing Bytedance Network Technology Co., Ltd. Method and apparatus for displaying table information, and electronic device and non-transitory computer-readable storage medium
CN111259873A (zh) * 2020-04-26 2020-06-09 江苏联著实业股份有限公司 一种表格数据提取方法及装置
CN113326797A (zh) * 2021-06-17 2021-08-31 上海电气集团股份有限公司 一种pdf文档提取的表格信息转换为结构化知识的方法

Also Published As

Publication number Publication date
CN109710771B (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
CN109710771A (zh) 表格信息提取方法、装置和存储介质
US9075873B2 (en) Generation of context-informative co-citation graphs
US20150295942A1 (en) Method and server for performing cloud detection for malicious information
CN108595583A (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
US20130145255A1 (en) Systems and methods for filtering web page contents
US20150067476A1 (en) Title and body extraction from web page
US9934206B2 (en) Method and apparatus for extracting web page content
US9563611B2 (en) Merging web page style addresses
CN111512315A (zh) 文档元数据的按块提取
US20170243234A1 (en) Methods and systems for tag expansion by handling website object variations and automatic tag suggestions in dynamic tag management
CN110516221A (zh) 提取pdf文档中图表数据的方法、设备和存储介质
US20130124684A1 (en) Visual separator detection in web pages using code analysis
US9946813B2 (en) Computer-readable recording medium, search support method, search support apparatus, and responding method
Xu et al. Identifying semantic blocks in Web pages using Gestalt laws of grouping
US20160335249A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
CN102768663A (zh) 一种网页标题的提取方法、装置及信息处理系统
US20140025661A1 (en) Method of displaying search result data, search server and mobile device
CN104572874B (zh) 一种网页信息的抽取方法及装置
US20150331886A1 (en) Determining images of article for extraction
US10963690B2 (en) Method for identifying main picture in web page
CN108694192B (zh) 网页类型的判断方法及装置
CN108073589B (zh) 网页页面元素的获取方法及装置
KR20130099327A (ko) 오픈 도메인 정보 추출 장치 및 방법
CN111882224A (zh) 对消费场景进行分类的方法和装置
KR20210098813A (ko) 텍스트 데이터 수집과 분석 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant