CN110287379A - 一种基于逻辑树的表格拆分与数据提取方法 - Google Patents

一种基于逻辑树的表格拆分与数据提取方法 Download PDF

Info

Publication number
CN110287379A
CN110287379A CN201910523223.9A CN201910523223A CN110287379A CN 110287379 A CN110287379 A CN 110287379A CN 201910523223 A CN201910523223 A CN 201910523223A CN 110287379 A CN110287379 A CN 110287379A
Authority
CN
China
Prior art keywords
data
logic
logical
logic tree
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910523223.9A
Other languages
English (en)
Other versions
CN110287379B (zh
Inventor
曾伟
李响
谭畅
李科君
陈小刚
王汝平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Division Big Data Research Institute Co Ltd
Original Assignee
Division Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Division Big Data Research Institute Co Ltd filed Critical Division Big Data Research Institute Co Ltd
Priority to CN201910523223.9A priority Critical patent/CN110287379B/zh
Publication of CN110287379A publication Critical patent/CN110287379A/zh
Application granted granted Critical
Publication of CN110287379B publication Critical patent/CN110287379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于逻辑树的表格拆分与数据提取方法,通构建表格逻辑树方式对表格进行按逻辑行和逻辑列的拆分,并通过对应到逻辑树的位置进行编码。通过逻辑树的表格拆分方式,实现了灵活地对表格进行搜索查询、拆分和数据提取,便于在政务数据表格处理的过程中,将不同部门的表格汇总到上级部门,同时也可以快速为下级部门提取所需的数据信息,实现了表格的智能关联。

Description

一种基于逻辑树的表格拆分与数据提取方法
技术领域
本发明涉及表格数据管理领域,特别涉及一种基于逻辑树的表格拆分与数据提取方法。
背景技术
表格是一种可视化交流模式,又是一种组织整理数据的手段,普遍存在于政务、财务等信息数据处理过程中。逻辑清晰、灵活性强的表格十分有利于数据的收集整理和提炼,是支撑数据分析的基础。目前表格的结构和语义复杂多变,缺乏有效的组织管理,录入和读取基本依赖于人工处理。尤其是涉及大量来自不同机构的表格进行管理的过程中,需要重新定义表格的格式后进行汇总和查询,随着数据量的加大,效率极差。
本发明提出一种表格的拆分方法,基于本发明的表格模板,电子表格可以根据清晰的逻辑,灵活地对表格进行搜索查询、拆分和数据提取。本发明提出的表格拆分与数据提取方法可应用于政务数据表格的处理,可以将不同部门的数据表格信息汇总到上级部门,同时也能为下级部门提取所需要的数据信息,实现智能表格关联,智能数据管理,支撑智能业务审批。
发明内容
为了解决现有技术中的问题,本发明提供一种基于逻辑树的表格拆分与数据提取方法,具体包括:
一种基于逻辑树的表格拆分与数据提取方法,其特征在于,包括以下步骤:表格读取、逻辑划分、表格拆分、逻辑树建立、数据提取,更进一步的包括:
表格读取:支持多种格式的表格数据文件的读取,并将表格文件中的数据转化成当前处理操作所需的统一格式;
逻辑划分:通过对表格的格式读取后进行逻辑结构的划分,包括逻辑行和逻辑列的划分;
表格拆分:对于任意表格T,对于表格T内的任意矩形区域TS,且TS≠T,当TS=T时,则表TS为表格T的水平拆分子表,当TS=T时,则表TS为表格T的垂直拆分子表,对于任意的逻辑行或逻辑列C,当C与表TS的交集为空或为C本身时,则成TS为表格T的逻辑拆分子表;
逻辑树建立:逻辑树分为水平逻辑树和垂直逻辑树,根据逻辑划分和表格拆分中形成的表格逻辑关系,针对表格T建立的逻辑树,其中逻辑树的叶子节点为表格T的逻辑行或逻辑列,通过按行或按列的方式进行拆分,其中按行进行拆分时,叶子节点高度相等,左右相邻,按列进行拆分时,叶子节点宽度相等、上下相邻;
数据提取:数据提取建立在对逻辑树格式的数据查询的基础上完成,其中先根据水平和垂直逻辑树进行搜索查询,根据关键词匹配,建立行和列的标题集,然后根据标题集定位数据的位置。
所述表格读取步骤中,统一格式为记录表格的行列数据以及相互数据之间的排列顺序的格式,其不依赖于原有文件格式。
所述逻辑行是指除表格自身外,高度相等且上下边界相连的最大的矩形列;逻辑列是指除表格自身外,宽度相等且左右边界相连的最大矩形行。
还包括数据融合,具体为根据不同表格的数据结构所建立的逻辑树,通过树结构之间的匹配,完成相同类型数据结构的逻辑树合并,从而形成新的逻辑树,其中包括原始两个表格中的全部数据。
新建立的逻辑树适用于数据搜索和提取。
本发明的有益效果是:
1.本发明提出的表格的拆分和数据提取,可以将不同表的数据自动拆分,自动提取数据。
2.本发明提出的表格拆分可以根据拆分逻辑组织提取数据,可以实现表格与数据库的关联,非常适用于表格数据管理。
3.本发明提出的表格拆分与数据提取基于逻辑树的组织方式,实现了表格数据的高效率搜索。
4.本发明的表格拆分与数据提取根据整体和局部的关系,逐级拆分,使用整体树和多级的局部树的关系,具有清晰的逻辑关系。
5.本发明的表格数据提取和嵌入过程是全自动的,适合大批量的数据表格处理。
6.本发明的表格处理方法适用于符合定义逻辑的所有表格,不受表格格式的限制。
附图说明
图1为方法流程图;
图2为表格T;
图3为表格T水平拆分示意图;
图4为表格T的水平逻辑树;
图5为表格T的垂直逻辑树;
具体实施方式
以下结合具体实施方式对本发明作进一步详细的描述,但本发明的实施方式并不限于此。
实施例:
如图1所示,一种基于逻辑树的表格拆分与数据提取方法,其特征在于,包括以下步骤:表格读取、逻辑划分、表格拆分、逻辑树建立、数据提取,更进一步的包括:
表格读取:支持多种格式的表格数据文件的读取,并将表格文件中的数据转化成当前处理操作所需的统一格式;
逻辑划分:通过对表格的格式读取后进行逻辑结构的划分,包括逻辑行和逻辑列的划分;
进一步的根据附图2中所示,在表格T中根据表格逻辑,在水平方向,我们很容易得到单元格8、9、10属于一个层级的逻辑单元,即{8,9,10}∈G,同理,{11,12,13}∈G;同理,往上扩展一级,{7,{8,9,10},{11,12,13}}∈F,{14,15,16}∈F,{17,18,19}∈F;垂直的方向与此类似。
表格拆分:对于任意表格T,对于表格T内的任意矩形区域TS,且TS≠T,当TS=T时,则表TS为表格T的水平拆分子表,当TS=T时,则表TS为表格T的垂直拆分子表,对于任意的逻辑行或逻辑列C,当C与表TS的交集为空或为C本身时,则成TS为表格T的逻辑拆分子表;
更进一步的,如附图3中所示,通过单元格之间的这种逻辑关系,逐层拆分整个表格为子表。根据单元格之间的逻辑强弱关系,将每个层级的节点对应到一棵逻辑树上,树的每一个节点都对应一个完整的逻辑单元,节点之间对应并列和包含关系。其中TS2,TS3,TS4是TS1的原子水平拆分子表。表格X没有逻辑水平拆分子表,因为TS1、TS2、TS4都部分包含了逻辑列问{4,9,12,15,18}和{5,10,13,16,19},TS3部分包含了{1,3}。
逻辑树建立:逻辑树分为水平逻辑树和垂直逻辑树,根据逻辑划分和表格拆分中形成的表格逻辑关系,针对表格T建立的逻辑树,其中逻辑树的叶子节点为表格T的逻辑行或逻辑列,通过按行或按列的方式进行拆分,其中按行进行拆分时,叶子节点高度相等,左右相邻,按列进行拆分时,叶子节点宽度相等、上下相邻;
如附图4、5中所示,逻辑树的构建规则为:
a.如果T有原子水平(垂直)拆分子表,建立一个V(H)节点作为根节点,否则建立一个H(V)节点作为根节点。
b.V(H)节点的直接子节点为其对应表格或者子表的原子水平(垂直)拆分子表。只包含一个逻辑行(列)的原子水平(垂直)拆分子表用一个叶子节点表示,否则用一个H(V)节点表示。
c.H(V)节点的直接子节点为其对应表格或者子表的逻辑垂直(水平)拆分子表。只包含一个逻辑行(列)的逻辑垂直(水平)拆分子表用一个叶子节点表示,否则用一个V(H)节点表示。
数据提取:数据提取建立在对逻辑树格式的数据查询的基础上完成,其中先根据水平和垂直逻辑树进行搜索查询,根据关键词匹配,建立行和列的标题集,然后根据标题集定位数据的位置。
进一步的,数据提取过程中,关键词匹配是独立的标题匹配,即在树中是独立模块。定位到的水平标题集定义为:HD,垂直标题集定义为:VD。如需查询“B”和“F”下的“G”的数据,根据树的关键词匹配可以得到HD={6,7},VD={2}。
先搜索Htree树,根据HD={6,7},可以搜索到HD包含的行子集为HDs1={8,9,10}和HDs2{11,12,13}。
搜索Vtree树,根据VD={2},可以搜索到VD包含的行子集为VDs1={4,9,12,15,18},VDs2={5,10,13,16,19}
取两棵树搜索到子集的交集。即得D=(HDs1∪HDs2)∩(VDs1∪VDs2)={9,10,12,13},则D为提取的目标数据集。
所述表格读取步骤中,统一格式为记录表格的行列数据以及相互数据之间的排列顺序的格式,其不依赖于原有文件格式。
所述逻辑行是指除表格自身外,高度相等且上下边界相连的最大的矩形列;逻辑列是指除表格自身外,宽度相等且左右边界相连的最大矩形行。
还包括数据融合,具体为根据不同表格的数据结构所建立的逻辑树,通过树结构之间的匹配,完成相同类型数据结构的逻辑树合并,从而形成新的逻辑树,其中包括原始两个表格中的全部数据。
新建立的逻辑树适用于数据搜索和提取。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于逻辑树的表格拆分与数据提取方法,其特征在于,包括以下步骤:表格读取、逻辑划分、表格拆分、逻辑树建立、数据提取,更进一步的包括:
表格读取:支持多种格式的表格数据文件的读取,并将表格文件中的数据转化成当前处理操作所需的统一格式;
逻辑划分:通过对表格的格式读取后进行逻辑结构的划分,包括逻辑行和逻辑列的划分;
表格拆分:对于任意表格T,对于表格T内的任意矩形区域TS,且TS≠T,当TS=T时,则表TS为表格T的水平拆分子表,当TS=T时,则表TS为表格T的垂直拆分子表,对于任意的逻辑行或逻辑列C,当C与表TS的交集为空或为C本身时,则成TS为表格T的逻辑拆分子表;
逻辑树建立:逻辑树分为水平逻辑树和垂直逻辑树,根据逻辑划分和表格拆分中形成的表格逻辑关系,针对表格T建立的逻辑树,其中逻辑树的叶子节点为表格T的逻辑行或逻辑列,通过按行或按列的方式进行拆分,其中按行进行拆分时,叶子节点高度相等,左右相邻,按列进行拆分时,叶子节点宽度相等、上下相邻;
数据提取:数据提取建立在对逻辑树格式的数据查询的基础上完成,其中先根据水平和垂直逻辑树进行搜索查询,根据关键词匹配,建立行和列的标题集,然后根据标题集定位数据的位置。
2.如权利要求1所述方法,其特征在于,所述表格读取步骤中,统一格式为记录表格的行列数据以及相互数据之间的排列顺序的格式,其不依赖于原有文件格式。
3.如权利要求1所述方法,其特征在于,所述逻辑行是指除表格自身外,高度相等且上下边界相连的最大的矩形列;逻辑列是指除表格自身外,宽度相等且左右边界相连的最大矩形行。
4.如权利要求1所述的方法,其特征在于,还包括数据融合,具体为根据不同表格的数据结构所建立的逻辑树,通过树结构之间的匹配,完成相同类型数据结构的逻辑树合并,从而形成新的逻辑树,其中包括原始两个表格中的全部数据。
5.如权利要求4所述的方法,其特征在于,新建立的逻辑树适用于数据搜索和提取。
CN201910523223.9A 2019-06-17 2019-06-17 一种基于逻辑树的表格拆分与数据提取方法 Active CN110287379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910523223.9A CN110287379B (zh) 2019-06-17 2019-06-17 一种基于逻辑树的表格拆分与数据提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910523223.9A CN110287379B (zh) 2019-06-17 2019-06-17 一种基于逻辑树的表格拆分与数据提取方法

Publications (2)

Publication Number Publication Date
CN110287379A true CN110287379A (zh) 2019-09-27
CN110287379B CN110287379B (zh) 2022-12-06

Family

ID=68004146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910523223.9A Active CN110287379B (zh) 2019-06-17 2019-06-17 一种基于逻辑树的表格拆分与数据提取方法

Country Status (1)

Country Link
CN (1) CN110287379B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668288A (zh) * 2020-12-24 2021-04-16 江苏省送变电有限公司 一种继电保护装置定值校核仪智能提取定值单项的方法
CN113673213A (zh) * 2021-08-25 2021-11-19 北京智通云联科技有限公司 基于模板的表格信息抽取方法及系统
CN114281823A (zh) * 2021-12-17 2022-04-05 北京百度网讯科技有限公司 表格处理方法、装置、设备、存储介质及产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286861A (ja) * 2006-04-17 2007-11-01 Hitachi Ltd 文書構造抽出方法および文書検索方法
CN102103587A (zh) * 2009-12-17 2011-06-22 北大方正集团有限公司 一种表格转换的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286861A (ja) * 2006-04-17 2007-11-01 Hitachi Ltd 文書構造抽出方法および文書検索方法
CN102103587A (zh) * 2009-12-17 2011-06-22 北大方正集团有限公司 一种表格转换的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
苏慧丽: "面向主题的半结构数据集成方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
郭偲: "Deep Web信息抽取技术研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668288A (zh) * 2020-12-24 2021-04-16 江苏省送变电有限公司 一种继电保护装置定值校核仪智能提取定值单项的方法
CN113673213A (zh) * 2021-08-25 2021-11-19 北京智通云联科技有限公司 基于模板的表格信息抽取方法及系统
CN113673213B (zh) * 2021-08-25 2023-11-07 北京智通云联科技有限公司 基于模板的表格信息抽取方法及系统
CN114281823A (zh) * 2021-12-17 2022-04-05 北京百度网讯科技有限公司 表格处理方法、装置、设备、存储介质及产品
CN114281823B (zh) * 2021-12-17 2023-08-29 北京百度网讯科技有限公司 表格处理方法、装置、设备、存储介质及产品
US11954084B2 (en) 2021-12-17 2024-04-09 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for processing table, device, and storage medium

Also Published As

Publication number Publication date
CN110287379B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN110287379A (zh) 一种基于逻辑树的表格拆分与数据提取方法
CN102193918B (zh) 视频检索方法和装置
CN104537336A (zh) 一种具备自学习功能的人脸识别方法和系统
CN105160038A (zh) 一种基于审计知识库的数据分析方法及系统
CN102542061B (zh) 一种产品的智能分类方法
CN102073706B (zh) 分布式文件存储系统和关系数据库的结合应用方法
CN106779581A (zh) 一种人力资源管理系统
CN105975597B (zh) 一种东巴经典古籍传承体系数字化国际共享平台
CN109800416A (zh) 一种电力设备名称识别方法
CN109657063A (zh) 一种海量环保人工上报事件数据的处理方法及存储介质
KR101500294B1 (ko) 특허 분석 시스템 및 방법과 이를 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
CN104408067A (zh) 一种多树结构的数据库设计方法及装置
CN101482897B (zh) 一种智能裙装款式与纸样设计系统
CN105095436A (zh) 数据源数据自动建模方法
CN106682061A (zh) 一种分布式起源数据收集与存储系统
CN108959356A (zh) 一种智能配用电大数据应用系统数据集市建立方法
CN104573002A (zh) 基于人、事、物分类建档的数据组织模型
CN103186772A (zh) 集群构架下的人脸识别系统及方法
CN103995826A (zh) 一种安全生产监督管理政务信息的自动编目方法
CN103365960A (zh) 电力多级调度管理结构化数据的离线搜索方法
CN103488819B (zh) 一种实现对知识地图进行多维展现的多维模型设计器
CN107220146A (zh) 一种文件扫描恢复方法及装置
CN104331426B (zh) 一种基于浏览器的电力系统检索器的快速检索方法
CN108268876A (zh) 一种基于聚类的近似重复记录的检测方法及装置
CN110222057A (zh) 一种气溶胶文献格式化数据库的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant