附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明第一实施例的基于版式表格的处理方法的流程图;
图2示出了根据本发明第一实施例的版式表格的示意图;
图3示出了根据本发明第一实施例的对图2所示的版式表格的图元内容进行描述的示意图;
图4A、图4B和图4C示出了根据本发明第一实施例的对图3描述的图元内容进行分组的各步骤进行描述的示意图;
图5示出了根据本发明第一实施例的对版式表格划分的示意图;
图6示出了根据本发明第一实施例的对图5所示的版式表格的表格底版信息进行描述的示意图;
图7示出了根据本发明第一实施例的对图5所示的版式表格的表格单元、表格线单元、表格底版单元块之间的映射关系进行描述的示意图;
图8示出了根据本发明第一实施例的版式表格流式信息的示意图;
图9示出了根据本发明第二实施例的基于版式表格的处理系统的示意图;
图10示出了根据本发明第二实施例的图9所示的基于版式表格的处理系统的表格流式信息形成系统的结构示意图;以及
图11示出了根据本发明第二实施例的的图9所示的基于版式表格的处理系统的表格流式信息解析系统的结构示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
本发明中,表格单元是指表格中的每个单元格内的所有内容(文字、图形、图像等);表格线单元是指对应的表格单元四周的四段表格线;表格中所有的表格单元和表格线单元构成图元内容;表格逻辑结构信息包括表格中所有表格单元之间的位置关系以及表格单元与之附属的表格线单元之间的位置关系;表格底版是指整个表格所占的矩形区域;表格底版单元块是指将表格底版划分为N行M列个小的矩形区域,使得每个表格单元包括的小的矩形区域互不相交,这些小的矩形区域称为表格底版单元块;表格底版单元块及其划分信息称为表格底版信息。
在整个说明书中,均采用XML语言描述信息。当然,还可以采用诸如SGML语言的其它语言进行描述。
实施例1
图1示出了根据本发明第一实施例的基于版式表格的处理方法的流程图。如图1所示,基于版式表格的处理方法包括:步骤S102,获取版式表格的图元内容以及表格逻辑结构信息;步骤S104,根据表格逻辑结构信息,将图元内容划分为多个表格单元和多个表格线单元;步骤S106,根据表格单元,将版式表格的表格底版划分为多个表格底版单元块;步骤S108,建立表格单元、表格线单元、表格底版单元块之间的映射关系,形成表格流式信息;步骤S110,根据形成的表格流式信息对版式表格的结构进行处理。
根据本发明实施例的基于版式表格的处理方法基于表格逻辑结构信息,将图元内容划分为了多个表格单元和多个表格线单元,进而根据表格单元,又将表格底版划分为多个表格底版单元块,之后建立了表格单元、表格线单元、表格底版单元块之间的映射关系,形成了表格流式信息,然后根据该流式信息对表格进行处理,因此达到了根据流式信息处理表格的目的,最终达到方便用户查看的技术效果。
另外,当当前表格为流式表格时,可以采用排版算法对流式表格进行处理以形成版式表格,然后再按照上述S102至S110的步骤对形成的版式表格进行处理以对流式表格进行处理,进而使得本发明也能应用于流式表格。
优选地,通过以下至少一种方式来获取图元内容和表格逻辑结构信息:对版式表格的源数据内容来源进行解析,直接获取已存在的图元内容和表格逻辑结构信息,例如,对于Microsoft Word文档,可以利用Office自动化对象来直接提取逻辑结构信息;在版式表格的基础上,利用识别算法、智能理解算法来获取图元内容和表格逻辑结构信息,例如,可以通过基于表格内容分析处理系统和表格内容理解处理系统来提取逻辑结构信息;以及在版式表格的基础上,通过接收外部添加的信息来获取图元内容和表格逻辑结构信息,例如,可以通过一个带有图形界面的计算机应用程序,对版式表格内容进行人工标注。通过以上三种方式,可以实现对于不同的版式表格采用不同的方式来获取表格逻辑结构信息。
获取如图2所示的表格的图元内容的方法如图3所示。
优选地,根据表格逻辑结构信息,将图元内容划分为多个表格单元和多个表格线单元具体包括:根据表格逻辑结构信息,将图元内容划分为多个图元内容组,其中,每个图元内容组均包括一个表格单元和多个表格线单元。可以采用诸如编号的方式将图元内容划分为多个图元内容组。图元内容组的划分能够确定表格单元及其附属的表格线单元。
如图4A所示,可以首先分别对所述每个图元内容进行编号,然后如图4B和图4C所示,利用编号将图元内容划分为表格单元和表格线单元。
如图2至图4C所示,确定表格展现信息包括三个部分的内容:表格单元格内容;表格线内容,包括表格线版式显示内容和表格线样式描述信息,分别提供了表格线在版式中显示内容的描述和表格线的线型、线宽、颜色等样式信息,用以在流式显示时使用;表格背景内容,包括表格背景版式显示内容和样式描述信息。其中,表格单元格内容和表格线内容均属于表格图元内容。在本发明的实施例中,根据表格逻辑结构信息(表格逻辑结构信息包括表格中所有表格单元之间的位置关系信息以及表格单元与之附属的表格线单元之间的位置关系信息),将图元内容划分为多个表格单元和多个表格线单元包括:对图元内容进行编号,形成表格图元内容组,如图4A所示,分别将文字图元内容“表格”、“星期”、“上午”、“天气”标识为1、2、3、4,将图像图元内容标识为15,将图形图元内容标识为26、27,等等;将图元内容组划分为多个表格单元和多个表格线单元;分别对表格单元、表格线单元进行编号,形成表格单元组、表格线单元组。如图4B所示,将图2中标识为1的文字“表格”划为标识为51的表格单元,将标识为2的文字“星期”划为标识为52的表格单元,将标识为3的文字“上午”划为标识为53的表格单元,将标识为4的文字“天气”和标识为15的图像划为标识为54的表格单元,等等。如图4C所示,将图2中标识为26的图形划为标识为61的表格线单元,将标识为27的图形划为标识为62的表格线单元,等等。通过对表格图元内容进行划分,可以将相应的图元内容划分到相应的表格单元和表格线单元。
优选地,如图5所示,根据所述表格单元,将版式表格的表格底版划分为多个表格底版单元块包括:根据表格单元,将所版式表格的表格底版划分为N行M列的矩形的表格底版单元块,N和M为自然数,其中,每个表格单元均包括整数个表格底版单元块,并且每个表格单元包括的表格底版单元块的集合互不相交。
应当注意,表格底版信息中的各个表格底版单元块并不是显示单元,而是逻辑组织单元,记录了各个单元之间的相对比例关系;然后对每个表格底版单元块进行编号;其中,每个表格单元所占的表格底版单元块的集合是互不相交的。
在本发明的实施例中,表格单元与表格线单元之间的映射关系是一对多的,表格单元与表格底版单元块之间的映射关系可以是一对一或一对多的。如图2和图5所示,表格单元与表格线单元之间的对应关系均为一对多。对于如图2所示的规则表格,表格单元与表格底版单元块之间的对应关系可以是一对一的,即可以是一个表格单元对应一个表格底版单元块;而对于如图5所示的不规则的表格,表格单元与表格底版单元块之间的对应关系是一对多的,即一个表格单元对应于一个表格底版单元块集合(包含多个表格底版单元块)。通过以上优选实施例可以看出,可以根据表格的具体形式来对其进行划分。
优选地,N行表格底版单元块之间的行高不相等,M列表格底版单元块之间的列宽不相等。但不同行之间的表格底版单元块的行高也可以相等,不同列之间的表格底版单元块的列宽也可以相等。即,表格底版单元块的大小不必须完全相等。通过这种不完全相等的划分,可以使得表格底版单元块的大小适于整个表格底版。
例如,在如图2所示的版式表格中,可以将表格底版划分为2×2的表格底版单元块。也可以如图5所示,将表格底版划分为16×21个表格底版单元块。对于如图2所示的表格,其第一行和第二行的矩形的表格底版单元块的行高相等,而其第一列和第二列的矩形的表格底版单元块之间的列宽不相等。对于如图5所示的表格,其表格底版单元块的行高和列宽均相等。总的来说,表格底版单元块划分的原则是为使每个表格单元所占的小矩形区域集(表格底版单元块集合)互不相交。
优选地,建立表格单元、表格线单元、表格底版单元块之间的映射关系,形成表格流式信息具体包括:根据表格逻辑结构信息,对表格单元、表格线单元、表格底版单元块分别编号;利用编号来建立表格单元、表格线单元、表格底版单元块之间的映射关系;将编号、及编号的分组确定为表格流式信息。编号是为便于在对版式表格进行处理时对各个单元进行引用。
图6和图7示出了根据本发明第一实施例的对图5所示的版式表格的表格单元、表格线单元、表格底版单元块之间的映射关系进行描述的示意图。如图6和图7所示,可以得到每个表格单元在底版中的位置信息以及其相关表格线单元的信息。
优选地,根据形成的表格流式信息对版式表格的结构进行处理包括以下一种或多种:重排、信息提取、和格式转换。以达到根据流式信息对版式表格进行处理以方便用户查看的技术效果。
例如,可以根据以下步骤来实现根据形成的表格流式信息对版式表格的结构进行重排:首先,检测显示设备屏幕尺寸;然后根据表格流式信息和显示设备的屏幕尺寸得到表格底版单元块的缩放比例,并根据缩放比例缩放表格底版单元块;根据表格单元、表格线单元、表格底版单元块之间的映射关系将表格单元、表格线单元填充到相应位置以重排版式表格。
在本发明实施例中,还包括:采用结构化语言,描述表格图元内容组、表格单元组、表格线单元组、表格底版信息、以及映射关系。图8示出了根据本发明第一实施例的表格流式信息描述的示意图。其中包括版式表格文件,表格单元描述信息,表格单元底版信息(即表格单元在表格底版中的位置信息,其中,根据表格底版信息得到表格底版单元块及其划分信息,每个表格单元所占的最小的底版单元块集合就称为表格单元的底版位置信息),表格单元展现信息,表格单元语义信息。在该实施例中,版式文件与流式信息描述分开存放。
优选地,在本发明的实施例中,还包括:获取版式表格的语义信息;将语义信息赋予表格单元。其中,语义信息包括但不限于表格单元在版式表格中的表头信息或表尾信息。通过获取版式表格的语义信息,可以得到表格单元的相关属性。
优选地,通过以下至少一种方式来获取语义信息:对版式表格的源数据内容来源进行解析,直接获取已存在的语义信息;在版式表格的基础上,利用识别算法、智能理解算法来获取语义信息;根据表格单元在表格底版中的位置信息来获取语义信息。通过以上三种方式,可以实现对于不同的版式表格采用不同的方式来获取语义信息。
根据本发明实施例的基于版式表格的处理方法能够根据版式表格的逻辑结构形成流式信息,再根据该流式信息对表格进行处理,最终达到便于用户查看的技术效果。
实施例2
图9示出了根据本发明第二实施例的版式表格的结构处理系统的示意图。如图9所示,根据本发明第二实施例的基于版式表格的处理系统包括:获取模块902,用于获取版式表格的图元内容以及表格逻辑结构信息;图元内容划分模块904,用于根据表格逻辑结构信息,将图元内容划分为多个表格单元和多个表格线单元;表格底版处理模块906,用于根据表格单元,将版式表格的表格底版划分为多个表格底版单元块;映射模块908,用于建立表格单元、表格线单元、表格底版单元块之间的映射关系,形成表格流式信息;处理模块910,根据形成的表格流式信息对版式表格的结构进行处理。
根据本发明实施例的基于版式表格的处理系统基于表格逻辑结构信息,将图元内容划分为了多个表格单元和多个表格线单元,进而根据表格单元,又将表格底版划分为多个表格底版单元块,之后建立了表格单元、表格线单元、表格底版单元块之间的映射关系,形成了表格流式信息,然后根据该流式信息对表格进行处理以达到方便用户查看的技术效果。
如图10所示,根据本发明第二实施例的表格流式信息形成系统可以包括:表格版式内容读取模块(版式表格解析系统),用于直接获取表格版式内容信息;表格逻辑结构信息获取模块,用于根据实际应用需要,获取所需的逻辑结构信息,其中该表格逻辑结构信息获取模块又包含三个子模块:表格信息处理子模块,从数据源进行解析,直接获取已存在的、所需的表格逻辑结构信息;表格理解子模块,在已生成的版式表格的基础上,使用各种识别算法、智能理解算法得到所需的逻辑结构信息;人工标引子模块,在版式表格的基础上,人工直接或者通过软件进行手工的添加;表格图元内容组处理模块,用于将表格版式内容中的文本、图形、图像等所有图元赋予一个唯一编号,获得表格图元内容组描述;表格单元组及表格线单元组处理模块,用于根据获得的表格逻辑结构信息将获得的表格图元内容组划分为一个个表格单元及表格线单元,并对表格单元和表格线单元编号,获得表格单元组描述和表格线单元组描述;表格底版信息计算模块,用于根据获得的表格单元组划分表格底版,计算表格底版信息,并对表格底版单元块编号,获得表格底版信息描述;流式信息描述生成模块,用于使用结构化语言描述表格内容序列、表格单元序列、表格线单元序列、表格底版信息,通过唯一的编号建立表格单元、表格线单元(多个)、底版单元块(多个)映射关系,我们称之为表格单元底版映射信息,并使用结构化语言进行描述,在本实施例中,结构化语言包括但不限于SGML、XML。
另外,根据本发明第二实施例的表格流式信息形成系统还可以包括:流式表格处理模块,用于在获取版式表格的图元内容以及表格逻辑结构信息之前,采用排版算法对流式表格进行处理,形成版式表格。以将流式表格处理为版式表格之后再对形成的版式表格进行处理以对达到流式表格进行处理的目的。进而使得本发明也能应用于流式表格。
可选地,处理模块可以包括如图11所示的表格流式信息解析系统以对由图10中所示的表格流式信息形成系统中形成的流式信息进行解析,该解析系统包括:版式内容解析模块,用于从版式表格信息中读取版式内容;流式信息描述解析模块,用于解析流式信息描述;表格结构信息验证模块,用于验证获得的流式信息之间的匹配性和有效性。而流式信息描述解析模块又包括以下子模块:表格图元内容组解析子模块,用于读取表格图元内容组描述;表格单元组解析子模块,用于读取表格单元组描述;表格线单元组解析子模块,用于读取表格线单元组描述;表格底版信息解析子模块,用于读取表格底版信息描述;表格单元底版映射信息解析子模块,用于读取表格单元底版映射信息描述。以便于后续处理。
优选地,映射模块包括:编号单元,用于根据表格逻辑结构信息,对表格单元、表格线单元、表格底版单元块分别编号;映射关系建立单元,用于利用编号来建立表格单元、表格线单元、表格底版单元块之间的映射关系;确定单元,用于将编号、及编号的分组确定为表格流式信息。以便于后续处理。
优选地,处理模块包括以下一个或多个:重排单元、信息提取单元、和格式转换单元。以达到根据流式信息对表格进行相应的重排处理、信息提取处理、和格式转换处理的目的。
在本发明的实施例中,还包括:描述模块,用于采用结构化语言,描述表格图元内容组、表格单元组、表格线单元组、表格底版信息、以及映射关系。
优选地,获取模块通过以下至少一种子模块来获取图元内容和表格逻辑结构信息:表格信息处理子模块,用于对版式表格的源数据内容来源进行解析,直接获取已存在的图元内容和表格逻辑结构信息,例如,对于Microsoft Word文档,可以利用Office自动化对象来直接提取逻辑结构信息;表格理解子模块,用于在版式表格的基础上,利用识别算法、智能理解算法来获取图元内容和表格逻辑结构信息,例如,可以通过基于表格内容分析处理系统和表格内容理解处理系统来提取逻辑结构信息;以及人工标引子模块,用于在版式表格的基础上,通过接收外部添加的信息来获取图元内容和表格逻辑结构信息,例如,可以通过一个带有图形界面的计算机应用程序,对版式表格内容进行人工标注。通过以上三种子模块,可以实现对于不同的版式表格采用不同的方式来获取表格逻辑结构信息。
优选地,在本发明的实施例中,还包括:语义信息获取模块,用于获取版式表格的语义信息;语义信息赋予模块,用于将语义信息赋予表格单元。其中,语义信息包括但不限于表格单元在版式表格中的表头信息或表尾信息。通过获取版式表格的语义信息,可以得到表格单元的相关属性。
优选地,语义信息获取模块通过以下至少一种方式来获取语义信息:对版式表格的源数据内容来源进行解析,直接获取已存在的语义信息;在版式表格的基础上,利用识别算法、智能理解算法来获取语义信息;根据表格单元在表格底版中的位置信息来获取语义信息。通过以上三种方式,可以实现对于不同的版式表格采用不同的方式来获取语义信息。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:因为基于表格逻辑结构信息,将图元内容划分为了多个表格单元和多个表格线单元,进而根据表格单元,又将版式表格的表格底版划分为多个表格底版单元块,之后建立了表格单元、表格线单元、表格底版单元块之间的映射关系,形成表格流式信息,,然后根据该流式信息对表格进行处理,所以克服了由于版式表格采用绝对描述方式,无法对表格进行处理的问题,进而达到方便用户查看的技术效果。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。