CN101887413B - 版式表格的结构处理方法和系统 - Google Patents

版式表格的结构处理方法和系统 Download PDF

Info

Publication number
CN101887413B
CN101887413B CN 200910084438 CN200910084438A CN101887413B CN 101887413 B CN101887413 B CN 101887413B CN 200910084438 CN200910084438 CN 200910084438 CN 200910084438 A CN200910084438 A CN 200910084438A CN 101887413 B CN101887413 B CN 101887413B
Authority
CN
China
Prior art keywords
information
plate type
type table
list
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200910084438
Other languages
English (en)
Other versions
CN101887413A (zh
Inventor
张磊
仇睿恒
王毅
汤帜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Founder Apabi Technology Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University
Priority to CN 200910084438 priority Critical patent/CN101887413B/zh
Publication of CN101887413A publication Critical patent/CN101887413A/zh
Application granted granted Critical
Publication of CN101887413B publication Critical patent/CN101887413B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种版式表格的结构处理方法,该方法包括:获取版式表格的图元内容以及表格逻辑结构信息;根据表格逻辑结构信息,将图元内容划分为多个表格单元和多个表格线单元;根据表格单元,将版式表格的表格底版划分为多个表格底版单元块;建立表格单元、表格线单元、表格底版单元块之间的映射关系,形成表格流式信息;根据形成的表格流式信息对版式表格的结构进行处理。本发明还提供了一种版式表格的结构处理系统。本发明达到了能够根据流式信息对表格进行处理,最终方便用户查看的技术效果。

Description

版式表格的结构处理方法和系统
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种版式表格的结构处理方法和系统。
背景技术
版式文档在自定义的坐标系中,明确的记录了每个文档数据显示的位置和尺寸等,从而使文档打印出的结果和在计算机上浏览的结果一致,而且在任何计算机环境下具有显示一致性,从而可以确保真实的重现文档的原貌。
作为版式文档的一种,版式表格具有版式文档的“稳定”性,非常适合作为电子文档的最终发布和传播的形式,广泛用于电子公文、电子书、电子期刊、电子报纸等领域。版式表格的表示方式与线条和文字等图元的表示方式相同,每个表格数据都具有固定的尺寸大小,同时会被限定在固定的位置上,即版式表格采用绝对的描述方式。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:由于版式表格采用绝对描述方式,无法对表格进行处理,因此在例如显示设备屏幕尺寸受限的情况下,对于较大的表格,可能无法显示完整的表格,不便于用户查看。
发明内容
本发明旨在提供一种版式表格的结构处理方法和系统,能够解决现有的版式表格由于采用绝对描述方式,无法对表格进行处理,从而导致的不便于用户查看的技术问题。
根据本发明的一个方面,提供了一种基于版式表格的处理方法,该处理方法包括:获取版式表格的图元内容以及表格逻辑结构信息;根据表格逻辑结构信息,将图元内容划分为多个表格单元和多个表格线单元;根据表格单元,将版式表格的表格底版划分为多个表格底版单元块;建立表格单元、表格线单元、表格底版单元块之间的映射关系,形成表格流式信息;根据形成的表格流式信息对版式表格的结构进行处理。
根据本发明的另一方面,还提供了一种版式表格的结构处理系统,该处理系统包括:获取模块,用于获取版式表格的图元内容以及表格逻辑结构信息;图元内容划分模块,用于根据表格逻辑结构信息,将图元内容划分为多个表格单元和多个表格线单元;表格底版处理模块,用于根据表格单元,将版式表格的表格底版划分为多个表格底版单元块;映射模块,用于建立表格单元、表格线单元、表格底版单元块之间的映射关系,形成表格流式信息;处理模块,根据形成的表格流式信息对版式表格的结构进行处理。
根据本发明的基于版式表格的处理方法和系统基于表格逻辑结构信息,将图元内容划分为了多个表格单元和多个表格线单元,进而根据表格单元,又将表格底版划分为多个表格底版单元块,之后建立了表格单元、表格线单元、表格底版单元块之间的映射关系,形成了表格流式信息,然后根据该流式信息对表格进行处理,所以克服了由于版式表格采用绝对描述方式,无法对表格进行处理的问题,进而达到了能够对形成表格的流式信息以便于对版式表格进行处理,最终方便用户查看的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明第一实施例的基于版式表格的处理方法的流程图;
图2示出了根据本发明第一实施例的版式表格的示意图;
图3示出了根据本发明第一实施例的对图2所示的版式表格的图元内容进行描述的示意图;
图4A、图4B和图4C示出了根据本发明第一实施例的对图3描述的图元内容进行分组的各步骤进行描述的示意图;
图5示出了根据本发明第一实施例的对版式表格划分的示意图;
图6示出了根据本发明第一实施例的对图5所示的版式表格的表格底版信息进行描述的示意图;
图7示出了根据本发明第一实施例的对图5所示的版式表格的表格单元、表格线单元、表格底版单元块之间的映射关系进行描述的示意图;
图8示出了根据本发明第一实施例的版式表格流式信息的示意图;
图9示出了根据本发明第二实施例的基于版式表格的处理系统的示意图;
图10示出了根据本发明第二实施例的图9所示的基于版式表格的处理系统的表格流式信息形成系统的结构示意图;以及
图11示出了根据本发明第二实施例的的图9所示的基于版式表格的处理系统的表格流式信息解析系统的结构示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
本发明中,表格单元是指表格中的每个单元格内的所有内容(文字、图形、图像等);表格线单元是指对应的表格单元四周的四段表格线;表格中所有的表格单元和表格线单元构成图元内容;表格逻辑结构信息包括表格中所有表格单元之间的位置关系以及表格单元与之附属的表格线单元之间的位置关系;表格底版是指整个表格所占的矩形区域;表格底版单元块是指将表格底版划分为N行M列个小的矩形区域,使得每个表格单元包括的小的矩形区域互不相交,这些小的矩形区域称为表格底版单元块;表格底版单元块及其划分信息称为表格底版信息。
在整个说明书中,均采用XML语言描述信息。当然,还可以采用诸如SGML语言的其它语言进行描述。
实施例1
图1示出了根据本发明第一实施例的基于版式表格的处理方法的流程图。如图1所示,基于版式表格的处理方法包括:步骤S102,获取版式表格的图元内容以及表格逻辑结构信息;步骤S104,根据表格逻辑结构信息,将图元内容划分为多个表格单元和多个表格线单元;步骤S106,根据表格单元,将版式表格的表格底版划分为多个表格底版单元块;步骤S108,建立表格单元、表格线单元、表格底版单元块之间的映射关系,形成表格流式信息;步骤S110,根据形成的表格流式信息对版式表格的结构进行处理。
根据本发明实施例的基于版式表格的处理方法基于表格逻辑结构信息,将图元内容划分为了多个表格单元和多个表格线单元,进而根据表格单元,又将表格底版划分为多个表格底版单元块,之后建立了表格单元、表格线单元、表格底版单元块之间的映射关系,形成了表格流式信息,然后根据该流式信息对表格进行处理,因此达到了根据流式信息处理表格的目的,最终达到方便用户查看的技术效果。
另外,当当前表格为流式表格时,可以采用排版算法对流式表格进行处理以形成版式表格,然后再按照上述S102至S110的步骤对形成的版式表格进行处理以对流式表格进行处理,进而使得本发明也能应用于流式表格。
优选地,通过以下至少一种方式来获取图元内容和表格逻辑结构信息:对版式表格的源数据内容来源进行解析,直接获取已存在的图元内容和表格逻辑结构信息,例如,对于Microsoft Word文档,可以利用Office自动化对象来直接提取逻辑结构信息;在版式表格的基础上,利用识别算法、智能理解算法来获取图元内容和表格逻辑结构信息,例如,可以通过基于表格内容分析处理系统和表格内容理解处理系统来提取逻辑结构信息;以及在版式表格的基础上,通过接收外部添加的信息来获取图元内容和表格逻辑结构信息,例如,可以通过一个带有图形界面的计算机应用程序,对版式表格内容进行人工标注。通过以上三种方式,可以实现对于不同的版式表格采用不同的方式来获取表格逻辑结构信息。
获取如图2所示的表格的图元内容的方法如图3所示。
优选地,根据表格逻辑结构信息,将图元内容划分为多个表格单元和多个表格线单元具体包括:根据表格逻辑结构信息,将图元内容划分为多个图元内容组,其中,每个图元内容组均包括一个表格单元和多个表格线单元。可以采用诸如编号的方式将图元内容划分为多个图元内容组。图元内容组的划分能够确定表格单元及其附属的表格线单元。
如图4A所示,可以首先分别对所述每个图元内容进行编号,然后如图4B和图4C所示,利用编号将图元内容划分为表格单元和表格线单元。
如图2至图4C所示,确定表格展现信息包括三个部分的内容:表格单元格内容;表格线内容,包括表格线版式显示内容和表格线样式描述信息,分别提供了表格线在版式中显示内容的描述和表格线的线型、线宽、颜色等样式信息,用以在流式显示时使用;表格背景内容,包括表格背景版式显示内容和样式描述信息。其中,表格单元格内容和表格线内容均属于表格图元内容。在本发明的实施例中,根据表格逻辑结构信息(表格逻辑结构信息包括表格中所有表格单元之间的位置关系信息以及表格单元与之附属的表格线单元之间的位置关系信息),将图元内容划分为多个表格单元和多个表格线单元包括:对图元内容进行编号,形成表格图元内容组,如图4A所示,分别将文字图元内容“表格”、“星期”、“上午”、“天气”标识为1、2、3、4,将图像图元内容标识为15,将图形图元内容标识为26、27,等等;将图元内容组划分为多个表格单元和多个表格线单元;分别对表格单元、表格线单元进行编号,形成表格单元组、表格线单元组。如图4B所示,将图2中标识为1的文字“表格”划为标识为51的表格单元,将标识为2的文字“星期”划为标识为52的表格单元,将标识为3的文字“上午”划为标识为53的表格单元,将标识为4的文字“天气”和标识为15的图像划为标识为54的表格单元,等等。如图4C所示,将图2中标识为26的图形划为标识为61的表格线单元,将标识为27的图形划为标识为62的表格线单元,等等。通过对表格图元内容进行划分,可以将相应的图元内容划分到相应的表格单元和表格线单元。
优选地,如图5所示,根据所述表格单元,将版式表格的表格底版划分为多个表格底版单元块包括:根据表格单元,将所版式表格的表格底版划分为N行M列的矩形的表格底版单元块,N和M为自然数,其中,每个表格单元均包括整数个表格底版单元块,并且每个表格单元包括的表格底版单元块的集合互不相交。
应当注意,表格底版信息中的各个表格底版单元块并不是显示单元,而是逻辑组织单元,记录了各个单元之间的相对比例关系;然后对每个表格底版单元块进行编号;其中,每个表格单元所占的表格底版单元块的集合是互不相交的。
在本发明的实施例中,表格单元与表格线单元之间的映射关系是一对多的,表格单元与表格底版单元块之间的映射关系可以是一对一或一对多的。如图2和图5所示,表格单元与表格线单元之间的对应关系均为一对多。对于如图2所示的规则表格,表格单元与表格底版单元块之间的对应关系可以是一对一的,即可以是一个表格单元对应一个表格底版单元块;而对于如图5所示的不规则的表格,表格单元与表格底版单元块之间的对应关系是一对多的,即一个表格单元对应于一个表格底版单元块集合(包含多个表格底版单元块)。通过以上优选实施例可以看出,可以根据表格的具体形式来对其进行划分。
优选地,N行表格底版单元块之间的行高不相等,M列表格底版单元块之间的列宽不相等。但不同行之间的表格底版单元块的行高也可以相等,不同列之间的表格底版单元块的列宽也可以相等。即,表格底版单元块的大小不必须完全相等。通过这种不完全相等的划分,可以使得表格底版单元块的大小适于整个表格底版。
例如,在如图2所示的版式表格中,可以将表格底版划分为2×2的表格底版单元块。也可以如图5所示,将表格底版划分为16×21个表格底版单元块。对于如图2所示的表格,其第一行和第二行的矩形的表格底版单元块的行高相等,而其第一列和第二列的矩形的表格底版单元块之间的列宽不相等。对于如图5所示的表格,其表格底版单元块的行高和列宽均相等。总的来说,表格底版单元块划分的原则是为使每个表格单元所占的小矩形区域集(表格底版单元块集合)互不相交。
优选地,建立表格单元、表格线单元、表格底版单元块之间的映射关系,形成表格流式信息具体包括:根据表格逻辑结构信息,对表格单元、表格线单元、表格底版单元块分别编号;利用编号来建立表格单元、表格线单元、表格底版单元块之间的映射关系;将编号、及编号的分组确定为表格流式信息。编号是为便于在对版式表格进行处理时对各个单元进行引用。
图6和图7示出了根据本发明第一实施例的对图5所示的版式表格的表格单元、表格线单元、表格底版单元块之间的映射关系进行描述的示意图。如图6和图7所示,可以得到每个表格单元在底版中的位置信息以及其相关表格线单元的信息。
优选地,根据形成的表格流式信息对版式表格的结构进行处理包括以下一种或多种:重排、信息提取、和格式转换。以达到根据流式信息对版式表格进行处理以方便用户查看的技术效果。
例如,可以根据以下步骤来实现根据形成的表格流式信息对版式表格的结构进行重排:首先,检测显示设备屏幕尺寸;然后根据表格流式信息和显示设备的屏幕尺寸得到表格底版单元块的缩放比例,并根据缩放比例缩放表格底版单元块;根据表格单元、表格线单元、表格底版单元块之间的映射关系将表格单元、表格线单元填充到相应位置以重排版式表格。
在本发明实施例中,还包括:采用结构化语言,描述表格图元内容组、表格单元组、表格线单元组、表格底版信息、以及映射关系。图8示出了根据本发明第一实施例的表格流式信息描述的示意图。其中包括版式表格文件,表格单元描述信息,表格单元底版信息(即表格单元在表格底版中的位置信息,其中,根据表格底版信息得到表格底版单元块及其划分信息,每个表格单元所占的最小的底版单元块集合就称为表格单元的底版位置信息),表格单元展现信息,表格单元语义信息。在该实施例中,版式文件与流式信息描述分开存放。
优选地,在本发明的实施例中,还包括:获取版式表格的语义信息;将语义信息赋予表格单元。其中,语义信息包括但不限于表格单元在版式表格中的表头信息或表尾信息。通过获取版式表格的语义信息,可以得到表格单元的相关属性。
优选地,通过以下至少一种方式来获取语义信息:对版式表格的源数据内容来源进行解析,直接获取已存在的语义信息;在版式表格的基础上,利用识别算法、智能理解算法来获取语义信息;根据表格单元在表格底版中的位置信息来获取语义信息。通过以上三种方式,可以实现对于不同的版式表格采用不同的方式来获取语义信息。
根据本发明实施例的基于版式表格的处理方法能够根据版式表格的逻辑结构形成流式信息,再根据该流式信息对表格进行处理,最终达到便于用户查看的技术效果。
实施例2
图9示出了根据本发明第二实施例的版式表格的结构处理系统的示意图。如图9所示,根据本发明第二实施例的基于版式表格的处理系统包括:获取模块902,用于获取版式表格的图元内容以及表格逻辑结构信息;图元内容划分模块904,用于根据表格逻辑结构信息,将图元内容划分为多个表格单元和多个表格线单元;表格底版处理模块906,用于根据表格单元,将版式表格的表格底版划分为多个表格底版单元块;映射模块908,用于建立表格单元、表格线单元、表格底版单元块之间的映射关系,形成表格流式信息;处理模块910,根据形成的表格流式信息对版式表格的结构进行处理。
根据本发明实施例的基于版式表格的处理系统基于表格逻辑结构信息,将图元内容划分为了多个表格单元和多个表格线单元,进而根据表格单元,又将表格底版划分为多个表格底版单元块,之后建立了表格单元、表格线单元、表格底版单元块之间的映射关系,形成了表格流式信息,然后根据该流式信息对表格进行处理以达到方便用户查看的技术效果。
如图10所示,根据本发明第二实施例的表格流式信息形成系统可以包括:表格版式内容读取模块(版式表格解析系统),用于直接获取表格版式内容信息;表格逻辑结构信息获取模块,用于根据实际应用需要,获取所需的逻辑结构信息,其中该表格逻辑结构信息获取模块又包含三个子模块:表格信息处理子模块,从数据源进行解析,直接获取已存在的、所需的表格逻辑结构信息;表格理解子模块,在已生成的版式表格的基础上,使用各种识别算法、智能理解算法得到所需的逻辑结构信息;人工标引子模块,在版式表格的基础上,人工直接或者通过软件进行手工的添加;表格图元内容组处理模块,用于将表格版式内容中的文本、图形、图像等所有图元赋予一个唯一编号,获得表格图元内容组描述;表格单元组及表格线单元组处理模块,用于根据获得的表格逻辑结构信息将获得的表格图元内容组划分为一个个表格单元及表格线单元,并对表格单元和表格线单元编号,获得表格单元组描述和表格线单元组描述;表格底版信息计算模块,用于根据获得的表格单元组划分表格底版,计算表格底版信息,并对表格底版单元块编号,获得表格底版信息描述;流式信息描述生成模块,用于使用结构化语言描述表格内容序列、表格单元序列、表格线单元序列、表格底版信息,通过唯一的编号建立表格单元、表格线单元(多个)、底版单元块(多个)映射关系,我们称之为表格单元底版映射信息,并使用结构化语言进行描述,在本实施例中,结构化语言包括但不限于SGML、XML。
另外,根据本发明第二实施例的表格流式信息形成系统还可以包括:流式表格处理模块,用于在获取版式表格的图元内容以及表格逻辑结构信息之前,采用排版算法对流式表格进行处理,形成版式表格。以将流式表格处理为版式表格之后再对形成的版式表格进行处理以对达到流式表格进行处理的目的。进而使得本发明也能应用于流式表格。
可选地,处理模块可以包括如图11所示的表格流式信息解析系统以对由图10中所示的表格流式信息形成系统中形成的流式信息进行解析,该解析系统包括:版式内容解析模块,用于从版式表格信息中读取版式内容;流式信息描述解析模块,用于解析流式信息描述;表格结构信息验证模块,用于验证获得的流式信息之间的匹配性和有效性。而流式信息描述解析模块又包括以下子模块:表格图元内容组解析子模块,用于读取表格图元内容组描述;表格单元组解析子模块,用于读取表格单元组描述;表格线单元组解析子模块,用于读取表格线单元组描述;表格底版信息解析子模块,用于读取表格底版信息描述;表格单元底版映射信息解析子模块,用于读取表格单元底版映射信息描述。以便于后续处理。
优选地,映射模块包括:编号单元,用于根据表格逻辑结构信息,对表格单元、表格线单元、表格底版单元块分别编号;映射关系建立单元,用于利用编号来建立表格单元、表格线单元、表格底版单元块之间的映射关系;确定单元,用于将编号、及编号的分组确定为表格流式信息。以便于后续处理。
优选地,处理模块包括以下一个或多个:重排单元、信息提取单元、和格式转换单元。以达到根据流式信息对表格进行相应的重排处理、信息提取处理、和格式转换处理的目的。
在本发明的实施例中,还包括:描述模块,用于采用结构化语言,描述表格图元内容组、表格单元组、表格线单元组、表格底版信息、以及映射关系。
优选地,获取模块通过以下至少一种子模块来获取图元内容和表格逻辑结构信息:表格信息处理子模块,用于对版式表格的源数据内容来源进行解析,直接获取已存在的图元内容和表格逻辑结构信息,例如,对于Microsoft Word文档,可以利用Office自动化对象来直接提取逻辑结构信息;表格理解子模块,用于在版式表格的基础上,利用识别算法、智能理解算法来获取图元内容和表格逻辑结构信息,例如,可以通过基于表格内容分析处理系统和表格内容理解处理系统来提取逻辑结构信息;以及人工标引子模块,用于在版式表格的基础上,通过接收外部添加的信息来获取图元内容和表格逻辑结构信息,例如,可以通过一个带有图形界面的计算机应用程序,对版式表格内容进行人工标注。通过以上三种子模块,可以实现对于不同的版式表格采用不同的方式来获取表格逻辑结构信息。
优选地,在本发明的实施例中,还包括:语义信息获取模块,用于获取版式表格的语义信息;语义信息赋予模块,用于将语义信息赋予表格单元。其中,语义信息包括但不限于表格单元在版式表格中的表头信息或表尾信息。通过获取版式表格的语义信息,可以得到表格单元的相关属性。
优选地,语义信息获取模块通过以下至少一种方式来获取语义信息:对版式表格的源数据内容来源进行解析,直接获取已存在的语义信息;在版式表格的基础上,利用识别算法、智能理解算法来获取语义信息;根据表格单元在表格底版中的位置信息来获取语义信息。通过以上三种方式,可以实现对于不同的版式表格采用不同的方式来获取语义信息。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:因为基于表格逻辑结构信息,将图元内容划分为了多个表格单元和多个表格线单元,进而根据表格单元,又将版式表格的表格底版划分为多个表格底版单元块,之后建立了表格单元、表格线单元、表格底版单元块之间的映射关系,形成表格流式信息,,然后根据该流式信息对表格进行处理,所以克服了由于版式表格采用绝对描述方式,无法对表格进行处理的问题,进而达到方便用户查看的技术效果。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种版式表格的结构处理方法,其特征在于,包括:
获取所述版式表格的图元内容以及表格逻辑结构信息;
根据所述表格逻辑结构信息,将所述图元内容划分为多个表格单元和多个表格线单元;
根据所述表格单元,将所述版式表格的表格底版划分为多个表格底版单元块;
建立所述表格单元、所述表格线单元、所述表格底版单元块之间的映射关系,形成表格流式信息,具体包括:根据所述表格逻辑结构信息,对所述表格单元、所述表格线单元、所述表格底版单元块分别编号,利用所述编号来建立所述表格单元、所述表格线单元、所述表格底版单元块之间的映射关系,将所述编号、及所述编号的分组确定为所述表格流式信息;
根据形成的所述表格流式信息对所述版式表格的结构进行处理。
2.根据权利要求1所述的处理方法,其特征在于,通过以下至少一种方式来获取所述图元内容和所述表格逻辑结构信息:
对所述版式表格的源数据内容来源进行解析,直接获取已存在的所述图元内容和所述表格逻辑结构信息;
在所述版式表格的基础上,利用识别算法、智能理解算法来获取所述图元内容和所述表格逻辑结构信息;
在所述版式表格的基础上,通过接收外部添加的信息来获取所述图元内容和所述表格逻辑结构信息。
3.根据权利要求1所述的处理方法,其特征在于,根据所述表格逻辑结构信息,将所述图元内容划分为多个表格单元和多个表格线单元具体包括:
根据所述表格逻辑结构信息,将所述图元内容划分为多个图元内容组,
其中,每个所述图元内容组均包括一个表格单元和多个表格线单元。
4.根据权利要求1所述的处理方法,其特征在于,根据所述表格单元,将所述版式表格的表格底版划分为多个表格底版单元块包括:
根据所述表格单元,将所述版式表格的表格底版划分为N行M列的矩形的表格底版单元块,所述N和M为自然数,其中,每个所述表格单元均包括整数个所述表格底版单元块,并且每个所述表格单元包括的表格底版单元块的集合互不相交。
5.根据权利要求4所述的处理方法,其特征在于,N行的表格底版单元块的行高不相等,所述M列的表格底版单元块的列宽不相等。
6.根据权利要求1所述的处理方法,其特征在于,根据形成的所述表格流式信息对所述版式表格的结构进行处理包括以下一种或多种:重排、信息提取、和格式转换。
7.根据权利要求1所述的处理方法,其特征在于,还包括:采用结构化语言,描述表格图元内容组、表格单元组、表格线单元组、表格底版信息、以及所述映射关系。
8.根据权利要求1所述的处理方法,其特征在于,还包括:获取所述版式表格的语义信息;
将所述语义信息赋予所述表格单元。
9.根据权利要求8所述的处理方法,其特征在于,通过以下至少一种方式来获取所述语义信息:
对所述版式表格的源数据内容来源进行解析,直接获取已存在的所述语义信息;
在所述版式表格的基础上,利用识别算法、智能理解算法来获取所述语义信息;
根据所述表格单元在所述表格底版中的位置信息来获取所述语义信息。
10.一种版式表格的结构处理系统,其特征在于,包括:
获取模块,用于获取所述版式表格的图元内容以及表格逻辑结构信息;
图元内容划分模块,用于根据所述表格逻辑结构信息,将所述图元内容划分为多个表格单元和多个表格线单元;
表格底版处理模块,用于根据所述表格单元,将所述版式表格的表格底版划分为多个表格底版单元块;
映射模块,用于建立所述表格单元、所述表格线单元、所述表格底版单元块之间的映射关系,形成表格流式信息;所述映射模块包括:编号单元,用于根据所述表格逻辑结构信息,对所述表格单元、所述表格线单元、所述表格底版单元块分别编号,映射关系建立单元,用于利用所述编号来建立所述表格单元、所述表格线单元、所述表格底版单元块之间的映射关系,
确定单元,用于将所述编号、及所述编号的分组确定为所述表格流式信息;
处理模块,根据形成的所述表格流式信息对所述版式表格的结构进行处理。
11.根据权利要求10所述的处理系统,其特征在于,所述处理模块包括以下一个或多个:重排单元、信息提取单元、和格式转换单元。
12.根据权利要求10所述的处理系统,其特征在于,还包括:描述模块,用于采用结构化语言,描述表格图元内容组、表格单元组、表格线单元组、表格底版信息、以及所述映射关系。
13.根据权利要求10所述的处理系统,其特征在于,还包括:
语义信息获取模块,用于获取所述版式表格的语义信息;
语义信息赋予模块,用于将所述语义信息赋予所述表格单元。
CN 200910084438 2009-05-14 2009-05-14 版式表格的结构处理方法和系统 Expired - Fee Related CN101887413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910084438 CN101887413B (zh) 2009-05-14 2009-05-14 版式表格的结构处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910084438 CN101887413B (zh) 2009-05-14 2009-05-14 版式表格的结构处理方法和系统

Publications (2)

Publication Number Publication Date
CN101887413A CN101887413A (zh) 2010-11-17
CN101887413B true CN101887413B (zh) 2012-07-04

Family

ID=43073340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910084438 Expired - Fee Related CN101887413B (zh) 2009-05-14 2009-05-14 版式表格的结构处理方法和系统

Country Status (1)

Country Link
CN (1) CN101887413B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8914419B2 (en) * 2012-10-30 2014-12-16 International Business Machines Corporation Extracting semantic relationships from table structures in electronic documents
US9600461B2 (en) * 2013-07-01 2017-03-21 International Business Machines Corporation Discovering relationships in tabular data
CN104517112B (zh) * 2013-09-29 2017-11-28 北大方正集团有限公司 一种表格识别方法与系统
CN105446946B (zh) * 2014-07-17 2019-08-02 阿里巴巴集团控股有限公司 版式文档的重排方法、系统及电子阅读终端
CN104281562B (zh) * 2014-09-28 2017-12-12 百度在线网络技术(北京)有限公司 一种电子文档的处理方法及装置
CN104536947A (zh) * 2014-12-10 2015-04-22 百度在线网络技术(北京)有限公司 版式文档的处理方法及装置
CN105302788B (zh) * 2015-11-10 2018-07-13 百度在线网络技术(北京)有限公司 用于编辑表格的方法及装置
CN106844447A (zh) * 2016-12-16 2017-06-13 中广核核电运营有限公司 核电站报警卡的处理方法及处理装置
CN107741924B (zh) * 2017-10-26 2020-02-21 南京大学 一种计算机处理复杂表单的方法
CN107992456B (zh) * 2017-11-27 2018-12-28 江苏中威科技软件系统有限公司 版式数据流文件多终端本地化闪存系统、方法及电子设备
CN107909064B (zh) * 2017-12-27 2018-11-16 掌阅科技股份有限公司 三线表识别方法、电子设备及存储介质
CN109255300B (zh) * 2018-08-14 2023-12-01 中国平安财产保险股份有限公司 票据信息提取方法、装置、计算机设备及存储介质
CN109542554B (zh) * 2018-10-26 2022-06-10 金蝶软件(中国)有限公司 文档布局转换的方法、装置、计算机设备和存储介质
CN113505566B (zh) * 2021-05-25 2024-06-18 北京北大方正电子有限公司 一种版式文档的处理方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271463A (zh) * 2007-06-22 2008-09-24 北大方正集团有限公司 版式文件逻辑结构信息的表示方法和系统
CN101308488A (zh) * 2008-06-05 2008-11-19 北大方正集团有限公司 基于版式文件的文档流式信息处理方法及装置
CN101344879A (zh) * 2008-08-28 2009-01-14 北大方正集团有限公司 联动调整版面对象的方法及装置
US7526719B1 (en) * 2005-03-21 2009-04-28 Autodesk, Inc. File format for table styles

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7526719B1 (en) * 2005-03-21 2009-04-28 Autodesk, Inc. File format for table styles
CN101271463A (zh) * 2007-06-22 2008-09-24 北大方正集团有限公司 版式文件逻辑结构信息的表示方法和系统
CN101308488A (zh) * 2008-06-05 2008-11-19 北大方正集团有限公司 基于版式文件的文档流式信息处理方法及装置
CN101344879A (zh) * 2008-08-28 2009-01-14 北大方正集团有限公司 联动调整版面对象的方法及装置

Also Published As

Publication number Publication date
CN101887413A (zh) 2010-11-17

Similar Documents

Publication Publication Date Title
CN101887413B (zh) 版式表格的结构处理方法和系统
CN101976232B (zh) 一种识别文档中数据表格的方法及装置
CN101377855B (zh) 文档图像处理装置和信息处理方法
CN108595402A (zh) 一种提取pdf表格信息的系统
CN101901338A (zh) 一种试卷分数统计方法及系统
US9298685B2 (en) Automatic creation of multiple rows in a table
US20100287187A1 (en) Method for query based on layout information
US20210279516A1 (en) Ground truth generation for image segmentation
CN102741864A (zh) 多层快速响应码图像编码、解码方法和编码、解码装置
CN101916162B (zh) 一种基于有向图的动态界面生成方法、服务器及系统
CN105139334A (zh) 多行文字水印的制作方法
CN103247033A (zh) 一种基于影像选取控制点的矢量数据纠正方法
CN110688825A (zh) 一种版式文档中的含线表格信息提取方法
CN102866986A (zh) 一种文档格式转换系统
CN110210455B (zh) 一种打印内容格式化提取方法
CN105608714A (zh) 一种基于cad和gis协同的分幅影像生成方法及系统
CN102541481A (zh) 打印机及图片打印方法
CN105302775A (zh) 一种文件格式转换方法及装置
CN102110108B (zh) 一种对小样文件的处理方法及装置
CN102063415B (zh) 向pdf文件内嵌单字节字体的方法及其系统
WO2024087566A1 (zh) 文档转换方法及装置、计算机可读存储介质、计算机设备
CN112347742A (zh) 基于深度学习生成文档图像集的方法
CN102442047B (zh) 用于拼版的标记处理方法和装置
CN107390978B (zh) 公式的显示方法、装置、终端及计算机可读存储介质
CN114943065A (zh) 一种自定义多水印组合生成方法、系统和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220620

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Patentee after: Peking University

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 5 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

Patentee before: Peking University

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120704

CF01 Termination of patent right due to non-payment of annual fee