CN103268340A - 基于层次式索引的版式可回流文件建立和绘制方法 - Google Patents

基于层次式索引的版式可回流文件建立和绘制方法 Download PDF

Info

Publication number
CN103268340A
CN103268340A CN2013101884927A CN201310188492A CN103268340A CN 103268340 A CN103268340 A CN 103268340A CN 2013101884927 A CN2013101884927 A CN 2013101884927A CN 201310188492 A CN201310188492 A CN 201310188492A CN 103268340 A CN103268340 A CN 103268340A
Authority
CN
China
Prior art keywords
zone
row
index
file
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101884927A
Other languages
English (en)
Other versions
CN103268340B (zh
Inventor
龚如宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201310188492.7A priority Critical patent/CN103268340B/zh
Publication of CN103268340A publication Critical patent/CN103268340A/zh
Application granted granted Critical
Publication of CN103268340B publication Critical patent/CN103268340B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种基于层次式索引的版式可回流文件建立和绘制方法,提出的统一注释技术,通过记录可回流文字的包围框,文本行或文本列参数,区域包围框等来描述版式文件的几何结构,同时赋予每个描述的几何结构一个索引号;为了描述句﹑段落﹑节和章等版式文件中包含的逻辑结构,给每个逻辑结构也赋予一个索引号。这样通过使用几何结构的索引号或逻辑结构的索引号来描述版式文件的逻辑结构和各结构间的阅读优先顺序。实现使用XML语言、SGML语言等标记语言来表示层次式索引结构。各种版式文件都可通过本发明方法来对版式数字书籍进行注释,减少记录容量。通过解析版式数字书籍逻辑结构,将能够使用相同的阅读程序来阅读不同格式的版式数字书籍。

Description

基于层次式索引的版式可回流文件建立和绘制方法
技术领域
本发明涉及一种计算机文件信息结构技术,特别涉及一种基于层次式索引的版式可回流文件建立和绘制方法。
背景技术
目前很多数字书籍以版式文件格式或图像文件格式存在,比如PDF,TIFF,PNG和CEB等。这类电子书籍主要适合于大屏幕阅读和打印/印刷阅读应用。然而版式数字书籍却不适合在不同屏幕或窗口尺寸的终端或媒体上阅读和使用。比如为了在小屏幕终端上阅读A4版面的版式数字书籍,由于缺乏文字行/列的可回流功能,需要把页面缩小到屏幕尺寸才能表示一完整行/列。但是当大版面书籍缩小到屏幕尺寸时,文字却小得看不清楚。或者需要根据阅读位置来不停地滚动数字书籍页面,以完成各行/列的完整阅读。目前的通用做法是把版式文件(如PDF,TIFF,CEB,DJVU等)转换成流式文件(EPUB,HTML,TXT)等,以便在不同大小的阅读器上阅读。但是版式文件的版面往往经过精心设计,能增强美感和提高阅读效果,当在大屏幕设备上阅读时,人们还是倾向于按照原来当初设计的版式来阅读版式数字书籍。
为了迎合人们的需要,因此目前市场上出现了既支持版式阅读,又能支持流式阅读的技术和相关的文件格式.比如Adobe公司提出了Reflowable PDF技术,并在PDF版本1.4中使用Tagged PDF注释来提供流式阅读功能。
此外方正公司也提出了支持版式阅读和流式阅读的文件格式CEBX。CEBX中既包含了版面描述信息,也包含了流式描述信息。用户能够选择使用合适的阅读方式来进行阅读。
目前的流式阅读技术,主要适用于以文字为主体的数字书籍。比如上述Adobe公司的Tagged PDF格式和北大方正的CEBX格式,主要通过对在媒体上输出的文字进行注释,以提供文字的可回流阅读功能。但是对于DjVU,TIFF,XPS和扫描的PDF等图像格式的版式格式,此技术却束手无策,因为在这些文件格式中文字是以图像像素的方式式来表示的,虽然从肉眼上文字格式的版式数字书籍和图像格式的版式数字书籍看不出差别,但是在计算机里的表示却截然不同。类似DJVU,TIFF等图像格式的数字书籍使用PDF Tagged 语言和CEBX中的以文字为对象的注释方法并不可行。目前市场上还没有出现可回流地阅读图像格式版式数字书籍的软件。
另外由于各种格式使用不同的注释标记来表达数字书籍页面逻辑信息,比如PDF使用Tagged PDF来注释PDF文件,CEBX使用XML语言来对数字书籍逻辑结构进行注释,因此无法使用统一的解析器来解析得到数字书籍逻辑结构。此外针对不同的格式,数字书籍页面逻辑结构表达方式也不同。在实际应用中往往需要使用逻辑格式转换软件,用来把一种数字书籍逻辑结构转换成另外一种数字书籍逻辑结构。
相关的技术文献:
一、非专利文件1: Paper to PDA. In International Conference On Pattern Recognition(ICPR) 2002, T.M.Breuel, W.C.Janssen, K.Popat, and H.S.Baird;在非专利文件1中对于版式数字书籍图,特别是扫描的版式数字书籍等,需要通过进行版面逻辑结构分析,把文本区域、写真和线画区域区分开来。并把文本区域按照字或词为单位进行切割,生成字和词的子图像。最终使用HTML、XHTML和XML语言来进行数字书籍的版面逻辑表示,以便在浏览器上阅读起来具有类似文字格式TXT、HTML和WORD文件的可回流阅读效果。这种方法的缺点在于由于直接在HTML、XHTML等文件中直接嵌入了很多字或单词的图像,不仅需要花大量的存储空间来保存很多子图像,而且在网络上进行阅读的时候会受到影响。
二、专利文件2: 中国专利,申请号:201210299088.2 基于索引的版式可回流文件建立和绘制方法,主要针对单页版式文件,提出了使用索引的方法来进行注释文字包围框或线画包围框等,但是对于多页的版式文件,比如专利文献或小说书等往往包含多页版式文件,专利文献2没有针对多页版式书籍给出解决方案。另外如果采用专利文献2的方法,由于多页版式书籍中有很多文字,给每个文字一个索引号将会极大地增加记录索引号的空间,本发明提出了基于层次式索引的方法来减少表示索引号所需的字节长度。从而减少标注文件的字节数,提高存储效率和提高在线阅读流畅性。另外使用层次式索引的注释方法,由于可以同时记录几何版面信息和逻辑版面信息,可以支持选择来按页和几何区域来进行阅读,检索或变换,其中文本段落几何区域可以选择按照可回流的方法来进行版面变换,也可以对单个几何区域选择放大或缩小或保持原来的版式来进行阅读或绘制;也能提供按照以章﹑节或段为逻辑单位进行阅读,检索或变换操作。 
三、非专利文件3: Mapping and Displaying Structural Transformations between XML and PDF;DocEng’02, November 8, 2002, McLean, Virginia, USA; Matthew R. B. Hardy and David F. Brailsford;主要在PDF中逻辑文字区域中插入标志,并使用MCID号来索引这段逻辑文字区域。本发明是通过记录页面中文字区域的几何包围框,并赋予索引号,以提供给上层来索引这部分文字区域。和PDF标准中记录文字区域的方式不同。我们的方法不仅对PDF文件,对CEB,DJVU,TIFF都可以使用同一种方法来记录页面中文字区域,应此本发明提出的方法具有更广泛的通用性。 
发明内容
本发明是针对现在各种各样版式文件格式或图像文件格式需要用不同的软件转换阅读,互相不支持的问题,提出了一种基于层次式索引的版式可回流文件建立和绘制方法,对版式数字书籍提出统一注释技术,使得不论是以文字格式的版式文件(比如CEB和内嵌文字的PDF等),还是以图像来表达内容的版式文件(如DJVU,TIFF,扫描PDF等),都可以通过本发明提出的注释技术来对版式数字书籍进行注释和标记。这样阅读软件通过解析版式数字书籍逻辑结构,将能够使用相同的程序来阅读不同格式的版式数字书籍。
本发明的技术方案为:一种基于层次式索引的版式可回流文件的建立和绘制方法,具体包括如下步骤:
基于层次式索引的版式可回流文件建立:
1)通过扫描、成像设备或者软件工具得到版式数字书籍页面数据;
2)对每张数字书籍页面进行几何版面分析,得到文字段落区域和非文字区域,为每个区域分配一个索引号;对于非文字区域,计算其包围框,包围框形状可为长方形、圆、曲线、椭圆、三角形或者多边形形状,并记录对象包围框坐标或其所包围区域;
3)对每个文本段落区域,确定其所包含的行或列,记录行对准线和列对准线,并为每一行或每一列分配一个索引号,此处索引号码的分配按照事先约定的规则来分配;
4)对于其中每行,计算行内可回流对象的包围框,对每列,计算列内可回流对象的包围框,并为文字短路区域中的每个可回流对象计算出一个包围框,并记录可回流对象包围框坐标,并为每个可回流对象包围框分配一个索引号,确保行内或列内每个可回流几何区域有一个索引号码;
5)利用版面相关的领域知识,对单张或多张数字书籍页面进行版面识别和理解,得到章,节,标题,子标题,摘要,作者版面逻辑区域信息;
6)为每个逻辑区域分配索引号;其中每个逻辑区域包含一个或多个区域,通过记录其所包含区域的索引号来表达区域间的包含关系和从属关系,根据各区域的索引号或索引号码的组合来计算区域间的阅读顺序;
对层次式索引的版式可回流文件进行绘制:
7)通过网络或者本地存储介质得到版式文件和其层次式索引描述,解析此层次式索引描述;
8)根据输出媒体尺寸和需要绘制的样式读入当前绘制需要的版面数据和对应的层次式索引描述数据,包括逻辑区域和几何区域数据;
9)如果绘制对象区域是非文本区域类型,则根据输出媒体尺寸通过放大或缩小来进行绘制;
10)如果绘制对象区域属于文字类型,则根据需要绘制的样式,能够绘制的行宽和列高,字包围区域大小或单词包围区域大小来计算每个区域在行内的横向偏移或列内的纵向偏移; 
11)计算每个包围区域相对于每条行对准线或列对准线的旋转;
12)根据计算好的包围区域的位置和旋转来绘制对应的包围区域。
所述步骤1)中软件工具得到版式数字书籍页面数据包括XML、SGML、CEB、XPS、TIFF或PDF格式的数字文件,还包括自定义格式的版式数字书籍页面数据。
所述步骤2)文字段落区域包括单行区域和多行区域或单列和多列区域,非文字段落区域包括写真区域﹑列表区域﹑线画区域和数学公式区域。
所述步骤2),步骤3),步骤4)和步骤6)中索引号码的分配用层次式结构特征,使用索引号码的组合来唯一确定对应几何区域或逻辑区域并确定区域间的阅读顺序;或者根据阅读顺序来为每个区域分配不同索引号码;如果描述文件中缺少索引号码来确定阅读顺序时,按层次式索引版式文件建立方法和绘制方法间对区域访问的顺序的事先约定,来确定区域间的阅读顺序。
所述步骤4)中可回流对象可以是中文中的汉字,或者拉丁文中的单词或字符,包围框形状可为长方形、圆、曲线、椭圆、三角形或者多边形形状。
所述步骤8)中输出媒体尺寸对于移动终端来说,尺寸是指绘制窗口的尺寸;对打印媒体来说,不仅指绘制区域的尺寸还包括绘制区域形状。
所述步骤8)中需要绘制的样式可选择使用XSLT可扩展样式表转换语言或XSL(Extensible stylesheet language)或CSS层叠样式表来指定绘制样式,在样式表文件中通过指定索引号码来筛选出绘制区域。
所述步骤10)中绘制对象区域若属于文字类型,但描述文件里没有行对准线或列对准线的记录时,步骤11)和步骤12)中可按照阅读顺序和显示样式在各行上排列该行对应包围框或在各列上排列该列对应包围框;在同一行上绘制的包围框保持底部,顶部或中间部对齐;在同一列上绘制的包围框保持左端,右端或中间部对齐;所述步骤10)中绘制对象区域内包含的是文字字符串类型,如PDF或XPS等格式中对应的几何区域内包含的是字符串形式的文字,则步骤11)和步骤12)中可按照阅读顺序和显示样式在各行上排列和绘制该行对应字符串或在各列上排列和绘制该列对应字符串。
所述建立和绘制后的基于层次式索引的版式可回流文件与步骤1)中原版式数字书籍页面数据可记录在同一个文件里,或通过压缩或打包方法存放在一个文件里,还可以分放在不同文件里。
本发明的有益效果在于:本发明基于层次式索引的版式可回流文件建立和绘制方法,提出的统一注释技术,使用者能够既可以选择按照原来版式页面的方式来进行绘制,也可以选择按回流的方式来自适应地绘制数字书籍。其中注释文件可以和原来的版式文件分离;也可以合并在一个文件中;或者将注释文件和原来的版式文件打包或压缩在一个文件里面。提出的层次式索引方法,不直接重复记录子元素的信息,而使用索引号码等来索引子元素的信息,因此能够减少记录容量,提高检索效率。为了表达区域间阅读顺序的信息,可以通过指定索引号码的顺序来表达元素间的先后次序,减少了记录容量。本发明使用XML语言来进行说明层次式索引结构,但是实际上也可以使用SGML语言等其他标记语言或数据结构来表示层次式索引结构。
附图说明
图1为本发明典型实施实例图;
图2为本发明版式文件层次式索引数据生成服务器结构示意图;
图3为本发明阅读终端结构图;
图4为本发明带有层次式索引的版式文件生成程序流程图;
图5为本发明带有层次式索引的版式文件注释数据示意图;
图6为本发明层次式索引结构图;
图7为本发明使用XML语言表达版式文件层次式结构示例图;
图8为本发明带有层次式索引数据的版式文件的自适应绘制流程图;
图9为本发明PDF版式文件几何区域中字符串解析示例图;
图10为本发明层次式索引的版式文件中无行对准线或列对准线的绘制示例;
图 11为本发明带有输出媒体设备的装置结构示意图。
具体实施方式
本发明基于层次式索引的版式可回流文件建立和绘制方法,提供了一种基于层次式索引的版式文件描述方法和以及基于此描述的自适应版面绘制方法和系统。该方法和系统通过使用层次式索引来描述版式数字文件的几何结构和逻辑结构描述,减少了索引文字﹑文本行和区域等所需要的字节长度,降低了注释数据的容量。该方法和系统通过记录可回流文字的包围框,文本行或文本列参数,区域包围框等来描述版式文件的几何结构,同时赋予每个描述的几何结构一个索引号;为了描述句﹑段落﹑节和章等版式文件的逻辑结构,给每个逻辑结构也赋予一个索引号。这样可以通过使用几何结构的索引号来描述版式文件的逻辑结构和各组成几何结构间的阅读优先顺序,还可以通过使用低层几何结构索引号来描述高层几何结构和其所属低层几何结构间的阅读优先顺序,或通过使用低层逻辑结构索引号来描述高层逻辑结构和其所属低层逻辑结构间的阅读优先顺序。
本发明提供的基于层次式索引的版式文件描述数据可以通过版面分析和版面理解的方法来计算得到;其存放形式和原有的版式文件相对独立,不需要对原来的版式文件格式部分有改动。可以使用不同的文件来存放该描述数据,或者和版式文件合二为一来存放,或者以不同文件的形式和版式文件打包或压缩在一个档案文件里。
绘制程序将根据版面逻辑结构,版面几何结构和当前阅读位置等来索引对应图像区域,根据图像区域类型,选择不同的版面自适应变换方法,以达到屏幕自适应阅读的效果。此处根据图像区域类型,选择不同的版面自适应变换方法是指:1)对写真/线画区域按照屏幕大小对这些区域进行缩放以实现屏幕自适应阅读效果。2)而文字区域将转换成可回流的阅读形式,以实现自适应绘制和阅读效果。
如图1所示本发明典型实施实例图。图1中的环境包括版式文件层次式索引数据生成服务器100和客户端系统102,它们通过网络106进行相互通信。此处的网络包括比如局域网和广域网在内的可交换数据的网络。版式文件层次式数据索引生成服务器100同时可以和基于层次式索引的版式可回流文件库109相互传送数据。在本实现形态中,客户端102可以通过网络106从可回流文件转换服务器100中接受一个或多个版式文件和其对应的层次式索引数据,并在输出媒体上进行绘制。比如在典型的实施例中,通过运行在客户端系统中的阅读程序(比如WEB浏览器)会在显示设备上或在印刷媒体上根据绘制媒体的尺寸进行自适应变换绘制。
如图2所示本发明版式文件层次式索引数据生成服务器结构示意图。图2中的版式文件层次式索引数据生成服务器100通过网络接口200和网络106相连,可通过网络接口200传输数据,控制信号,数据请求等。比如可回流文件转换服务器100可通过网络接口200向网络106传送基于图像的可回流文件数据。可回流文件转换服务器100另外还包括处理器201,内存202,媒体驱动器205(读写盘)和输入输出接口206,它们都通过总线208相互连接在一起。输入设备207包括摄影机,扫描仪,相机,复印机,扫描笔等。输入设备207和输入/输出接口206相连,后者同时与显示设备适配器203相连,可以通过显示设备204来显示版式文件层次式索引数据生成服务器中的相关数据。另外输入输出接口206还可以和打印适配器相连,用来在打印媒体上绘制带有层次式索引的版式文件。此处的输入输出接口还可以和外部设备,比如键盘,鼠标,笔,触摸屏或其他设备相连,用来接收用户的输入。处理器201用来处理内存202中的程序。程序的执行也可以由FPGA,ASIC,DSP等硬件来完成。内存202中还可以包括版式数字书籍文件和生成的层次式索引注释数据。
内存202一般包含RAM和ROM和永久存储器。内存22存储了操作系统209来控制可回流文件转换服务器的操作。操作系统209可以使UNIX,LINUX,或者WINDOWS等系统。内存202中还包含了几何版面分析,版面理解和识别等OCR相关软件211。此处的OCR相关软件既可以包括商用的也可以包括非商用的。210中的版式文件层次式索引数据生成程序包含了程序和数据来处理从网络接口200或输入设备207中接受到的数字书籍版式文件,通过调用211中的库或程序来生成层次式索引数据并送到109中的带有层次式索引的版式文件库中去,210的具体实现参见图4的说明。
如图3所示阅读终端结构图。客户端系统包括处理器302,内存303,显示适配器304和显示设备305相连。计算机可读媒体驱动器306,输入输出接口307,输入设备308和网络接口309。
其中在内存303中存储了操作系统311和阅读程序312,此处的阅读程序可以使自己开发的屏幕自适应阅读程序或者通过安装WEB浏览器插件进行阅读的程序等。此处的处理器302和阅读程序312和显示适配器304相连,根据显示设备305的尺寸自适应地在显示器或显示窗口上绘制带有层次式索引的版式文件,具体实施参见图8的说明。
如图4所示带有层次式索引的版式文件生成程序流程图,提供了带有层次式索引的版式文件生成程序210的一个典型的实施方法,用以生成版式数字书籍文件的层次式索引。本方法首先在401步骤读入版式数字书籍文档。此步骤中的版式数字书籍文档的格式没有特别的限制,比如可以包括JPEG、TIFF、GIF、BMP、PDF、XPS和CEB等格式。版式数字书籍文档可以通过扫描仪等成像设备来生成,也可以通过程序来转换和生成。或者通过调用第三方的模块或库来生成。
在步骤402中,版式文件层次式索引数据生成程序210通过几何版面分析211,将数字书籍页面中的文字段落区域(包括单行区域和多行区域或多列区域等)和非文字段落区域(包括写真区域﹑列表区域﹑线画区域和数学公式区域等)分离出来,并为每个区域分配一个可以唯一标识该区域的索引号码;
对每个文本段落区域,确定其所包含的行或列,记录行对准线和列对准线等,并为每一行或每一列分配一个可以唯一标识该行或该列的索引号码,此处索引号码的分配根据阅读顺序按照某种事先约定的规则来分配,比如可按照阅读顺序来从小到大来分配索引号码;
对于其中每行,计算行内可回流对象的包围框,对每列,计算列内可回流对象的包围框,并记录可回流对象包围框坐标,并为文字短路区域中的每个可回流对象计算出一个包围框。此处的可回流对象可以是中文中的汉字,或者拉丁文中的单词或字符等等。此处的包围框形状也没有限制,比如长方形、圆、曲线、椭圆、三角形或者更复杂的多边形形状等;为了确定行内或列内字或词间的阅读顺序,此处为了确定行内或列内的阅读顺序,也需要为每个可回流对象包围框分配一个可以唯一标识该包围框的索引号码;如果没有索引号码,需要约定按照何种顺序来确定各可回流对象的顺序,比如在英语文章中缺省阅读顺序可按照从左到右的偏移来确定顺序等。
也可以按照层次结构来分配索引号码,比如给节点A的儿子节点分配不同的索引号码,对任意一个儿子节点B,给B的儿子节点再分配不同的索引号码。而A的另外一个儿子节点C,由于C的索引号码和B的不同,可以给C的儿子节点分配和B的儿子节点重复的索引号码。依此按照层次式关系进行索引号码的分配。具体分配方法参见图7的说明。
对于原来数字书籍文档中同行或同列的文字类型的可回流对象,此处层次式索引数据生成程序210,还要计算这些同行或同列文字可回流对象的对准线,并在对应行或列区域中记入对准线的参数,以方便阅读程序使用对准线参数绘制各可回流对象。具体绘制方法可见专利文件2。
如果对绘制效果要求不严格,也可以不记录行对准线或列对准线。具体原因见图8中807步骤的说明。   
在步骤403中,利用版面相关的领域知识,通过调用211中的版面理解库或程序来对单张或多张数字书籍页面进行版面识别和理解,得到章,节,句子,标题,子标题,摘要,作者等版面逻辑区域信息;并得到各个逻辑区域包含的几何区域或者逻辑区域包含的逻辑区域。比如章逻辑区域包含了节逻辑区域,节逻辑区域包含了段落等逻辑区域。但是章逻辑区域同时又包含和引用了页,文本Zone等几何区域。
在步骤404中,为每个逻辑区域分配一个索引号;其中每个逻辑区域可能包含一个或多个几何区域或逻辑区域,通过记录其所包含区域的索引号来表达区域间的包含关系和从属关系等。为了表示阅读顺序,可以通过引用索引号来表达来各区域间的阅读优先次序关系。此处索引号码的分配也可以按照上述的层次式关系来分配索引号码。具体分配方法参见图7的说明。
基于层次式索引的版式文件的描述可以使用XML,SGML或PDF中的描述语言或自定义的语言或自定义的数据结构等来描述。此处不限制记录的语法和描述语言或使用的数据结构,只要在实施中使用了基于层次式索引的方法来描述版式文件,都应该属于本发明的保护范围。使用本发明方法所生成的基于层次式索引的版式文件描述,可以按照阅读的先后次序来遍历此层次式索引数据,以达到根据输出媒体尺寸来进行版面自适应变换的目的。
带有层次式索引版式文件的具体示例参见图5和图6。图5描述了带有层次式索引的版式文件几何结构示意图。501是原有的版式文件,502指向层次式索引文件。503表示版式文件中某文字段落,其对应的区域描述为504节点,此节点描述了该区域包含的文本行信息。比如文本行区域505从属于段落区域504中,而506指向文本行505中的某个单词或单字等可回流基本单位。此处504,505和506节点描述了几何区域。而507,508,509和510节点则描述了数字文件的逻辑区域。507节点对应了标题区域,标题区域507描述信息主要包括构成该标题的行和字。节点508对应了章区域,章区域508描述信息主要包括了构成该章的节509,节标题等区域。节点509对应了节区域,节区域509主要包括了构成该节的段落等等。节点510对应了段落区域,段落区域主要将使用虚线索引511指向构成该段落包含的几何区域,包括Zone区域和行区域或者Word区域等等。在实际实现中,逻辑区域节点510中记述了几何区域节点504的索引号码,以使用实现对节点504的索引功能,如图中的虚线511所示。
此处的层次式索引描述可以使用树状结构来表示,也可以使用XML,SGML,Tagged Pdf等语言来进行描述,本发明对描述语言和描述方法不做任何限制。
图5中的层次式索引注释数据502和版式文件501可以以不同文件的形式存放;层次式注释数据502也可以附加在版式文件501上以一个文件的形式保存;当然也可以以类似EPUB,DOCX等格式,将层次式索引注释数据和版式文件打包或压缩在同一个文件里存放。
图6描述了层次式索引结构示意图。 图中用实线来表示区域间的包含关系,如实线601表示Document节点包含Page几何区域节点;实线602表示Document节点包含逻辑区域节点Chapter,实线606表示Zone几何区域节点包含TextLine几何区域节点。
图中的虚线表示区域间的包含关系或从属关系,如虚线603表示几何区域Zone从属于逻辑区域Paragraph,虚线604表示某几何区域TextLine包含于某几何区域Zone。而虚线605表示几何区域Zone从属于逻辑区域Paragraph,但是此几何区域又在几何意义上包含于某区域Page,此处使用索引来表示从属关系是为了避免重复描述此几何区域,节省了存储空间并降低了文件的容量。再比如对于线604中指向的TextLine几何区域,如果此TextLine几何区域需要被高层的几何区域或逻辑区域多次使用,则可以在高层几何区域或逻辑区域中设置此TextLine的索引号码,以表示包含或从属关系,这样可以避免此TextLine区域在多处的重复描述。
此处的层次的高低关系取决于包含关系和从属关系。如果A类区域包含B类区域,或B类区域从属于A类区域,则说A层次高于B的层次。比如章区域包含了节区域,而节区域可以使用索引来索引段落等子区域,Paragraph段落区域可以索引Zone几何区域,Zone几何区域包含了TextLine文本行区域,TextLine文本行区域包含了属于本行的WORD区域等等。因此这些区域间的层次级别关系和图6中所示层次级别一致。
通过为每个区域分配一个索引号码,可以在需要使用该区域时,直接使用该区域的索引号码来表达对应的包含关系,从属关系或阅读优先次序关系等等。
而在不同尺寸的输出媒体上绘制带有层次式索引的版式文件时,可以通过使用XSLT可扩展样式表转换语言,XSL(Extensible style sheet language)或CSS层叠样式表等来指定显示样式;指定显示样式时,可以通过使用索引号码来为对应的区域指定显示样式。比如可以为对应的区域指定缩进,按行水平显示或按列垂直显示等显示样式。使用层次式索引记录行区域的时候,可通过记录该行的行基线,并记录该行中包含的每个可回流单位相对于该行基线的偏移和旋转,以实现该行在不同尺寸媒体上的绘制。  
图7中给出了使用XML文件来表示层次式索引的例子。在此示例中使用Document来表示根节点。此Document从几何版面上来讲是由页Page组成。而Page又是由区域Zone组成,每个Zone可由多个行Line组成。而每行由多个Word组成。每个几何版面结构被赋予一个索引号码,如本例中PageID,ZoneID,LineID,WordID等分别代表对应几何区域的索引号码。高层的几何结构可以使用低层几何结构的索引号码来表达几何结构间的包含关系。每个几何结构的包围框在本例中使用多个点组成的多边形来表示,如本例中点的表示使用Vertex元素中的x,y来进行表示。每个几何结构中可以表示该区域的属性,里面文字的朝向CharOrient和阅读方向ReadingDir等。另外适应PageNext,ZoneNext,WordNext等分别表达页面间的优先次序,几何区域间的优先次序,单词间的阅读优先次序关系。确保阅读程序能改按照阅读循序来便利该层次式结构。 在几何结构表示完成的基础上,可以使用几何结构的索引号码来表达逻辑结构。如本示例中逻辑结构主要由Title,Chapter,Section,Paragraph等来组成。而且逻辑结构也可以赋予一个索引号码,供高层的逻辑结构索引使用低层的逻辑结构或几何结构。如本例中ParaID=2的Paragraph利用索引号P001Zone003来索引第一页第三个区域。其中子标题也适用索引的方法来使用。如ChapterID=2的章的子标题为P002Zone001。指向对应的第二页第一个区域。使用逻辑结构表示,易于将版式文件的内容和流式文件的内容对应起来,以保证版式文件能转化成有逻辑结构的流式文件。便于在不同尺寸媒体上绘制和使用。
高层的逻辑结构使用低层的逻辑结构或几何结构时,直接使用低层的逻辑结构或几何结构的索引号码来表达包含关系或从属关系,而不需要重复记录所包含或所使用的子区域的详细信息,使用该层次式索引表达方法能大幅减少注释文件的容量,提高压缩率和网络传送率。
另外在几何结构和逻辑结构表达过程中,没有必要为每个不同的结构分配一个不同的索引号码。比如一本书有6万个单词形成,使用本方法没有必要为每个WordID分配一个从0到60000的号码。由于该发明的表达存在层次式关系,在如上的例子中,对于不同PageID,不同的ZoneID和不同的LineID,WordID的值可以重复。只需要保证从根开始到不同节点的路径上,经过的节点的索引号码的组合具有唯一性,那么就可以使用该组合号码标识该层次式索引描述中的任意一个节点。
比如PageId=1和PageId=2中分别包含一个Zone区域,这两个Zone区域的ZoneID可以相同,因为从根节点到这两个Zone所路过的路径的索引号码的组合的组合不同,这两条路径中索引号码的组合分别是P001Zone002和P002Zone002,因此使用索引号码的组合能够唯一索引其中任意一个节点。在该例中根据索引号码的组合除了可以判断几何区域间的阅读优先顺序外,还可以判断几何区域间的包含关系。比如P001Zone002索引号码的组合中,P001包含Zone002区域。此处的索引号码的组合可按照字母顺序,或按照数字从小到大等顺序,按照字典排序(Lexicographical order)等方法来形成索引号码组合序列,并根据阅读顺序来分配索引号码。通过使用这种办法,可以减少表达索引号码所需要的比特数。因此可以进一部降低存储容量,提高数据数据查询和传输效率。
在实际应用中也可按照层次式索引版式文件建立和绘制程序间的默认约定来确定几何区域间的阅读顺序。比如使用树状数据结构表达层次式索引版式文件时,各叶子节点间的阅读顺序可以按照先根遍历的顺序来表示。在绘制程序方,可采用先根遍历的次序来确定各叶子节点区域间的阅读顺序。而不必使用显示的ID索引号码或者ID索引号码的组合来表示各叶子节点区域间的阅读顺序。
图8为带有层次式索引数据的版式文件的自适应绘制器或阅读器的一个典型的实施方法,能够根据输出媒体的尺寸和形状自适应地绘制版式文件。
在步骤801中,读取版式文件数据和层次式索引数据;在步骤802中,获取绘制区域的尺寸,绘制区域形状。比如对于移动终端来说,绘制区域的尺寸是绘制窗口的尺寸;而对打印媒体来说,绘制区域的尺寸和打印媒体,如打印纸张的尺寸相关。此处的绘制区域形状,不仅仅指移动终端窗口的形状,而且对打印媒体来说,和打印媒体的形状相关;比如可以打印到椭圆的纸张上或其他不规则的打印纸或打印媒体上(如把带有层次式索引的版式书籍按照输出媒体的尺寸和形状打印到CD,DVD等盘片上)。
在步骤803中,用户可以选择需要的绘制式样,比如通过选择使用XSLT可扩展样式表转换语言或XSL(Extensible stylesheet language)或CSS层叠样式表等来指定绘制样式,在样式表文件中通过指定索引号码筛选绘制区域。此处还可以选择缩放比例,按照比例放大缩小进行绘制。
在步骤804中,按照阅读顺序来访问层次式数据节点,由于该节点中包含所对应区域的包围框坐标和子区域的索引号码等数据,可以通过这些数据访问版式文件的对应区域;此外还可以获取当前区域的类型,并在步骤805中根据区域类型是否是文本Zone区域来分别绘制。此处的文本Zone区域的意思是指含有可回流的文本数据,比如文本段落,标题,单独文本行等等;而写真区域,线画区域,表格等区域被视为非文本Zone区域。对于非文本Zone区域,将通过放大和缩小在输出媒体上绘制。
对于文本Zone区域,步骤807中对绘制方法作了说明:首先将确定输出媒体上的行距和列距等;其次确定每行或每列拟绘制包围区域的数目;如果是以行为单位在输出媒体上绘制的情况,需要确定行内每个包围区域的水平偏移,对于每个包围区域确定其相对于行基线的垂直偏移和旋转角度,在输出媒体上逐个绘制属于该文本Zone区域的包围区域;如果是以列为单位在输出媒体上绘制的情况,需要确定列内每个包围区域的竖直偏移,对于每个包围区域确定其相对于列基线的水平偏移和旋转角度,在输出媒体上逐个绘制属于该文本Zone区域的包围区域。关于文本Zone的绘制,详细绘制方法可以参考专利文献2的说明。
若该区域内包含的是文字字符串类型,也可以按照文字字符串方式在输出媒体上按照可回流方法绘制文字字符串。对于文字格式的PDF文件,如图11所示,通过取得文本Zone区域的包围框,分析PDF中的OBJ对象,对位置重合的绘制语句,分析其中绘制的字符流,进而解析得到文字。比如图9中从第12行开始的对象2中从16行的Stream开始进行文字流的绘制。行20中定义了使用字体,行21中定义了绘制起始坐标,行22中绘制了字符串“Hello World”。通过版面理解和版面分析得到该文本Zone区域的包围矩形,寻找PDF中对应的字符流绘制语句,此处通过比较在PDF画布中绘制的几何位置进行搜索和匹配,把几何区域中包含的绘制语句找出来,进而解析出其中所绘制的字符流,从而完成该文本Zone区域中文字的提取工作。提取出文字字符串后,就可以按照现在常见的TXT,EPUB等文件的方式对文字字符串进行可回流绘制。上面是以PDF为例进行说明,实际可以应用在XPS,CEB,CEBX等版式文件上。
对于层次式索引描述数据中没有行对准线或列对准线的情况,只需要按照阅读顺序从左到右排列各包围框或从上到小排列各包围框即可。如图10所示实施例,在按行排列包围框时,可按同行上各包围框底部对齐(参见图10(a))或顶部对齐(参见图10(b))或横中间线对齐(参见图10(c))等方法来排列;此处所指横中间线参见图10(c)所示,在包围框是长方形的情况下,该中间线时左边和右边中点的连线,将包围框上下等面积切开。在按列来排列包围框时,可按同列上各包围框左端对齐(参见图10(d))或右端对齐(参见图10(e))或各包围框的中间部分对齐(参见图10(f))等方法来排列。此处所指竖中间线参见图10(f)所示,在包围框是长方形的情况下,该竖中间线是上边和下边中点的连线,将包围框左右等面积切开。当按照从左到右排列包围框时,每个包围框相对于新的行对准线的垂直偏移和旋转可能会和原来版式文件中相对于行对准线的垂直偏移和旋转有偏差,对于绘制效果要求不严格的应用,也可以满足要求了。对于从上到下的排列包围框的情况,也可以使用类似的方法来绘制,参见图10(d),10(e),10(f)。
注意版式文件如果是文字格式的PDF或XPS格式等,如果该文本Zone区域中包含的文字可以从PDF文件中获得,而且字体,文字大小,绘制位置等等信息也可以获得,则可以使用普通文字可回流输出的办法来绘制本文本Zone区域。
对于非文本Zone区域的绘制,步骤806中通过放大或缩小该区域以在输出媒体上绘制非文本Zone段落区域。在非文本Zone区域和文本Zone区域绘制结束后,判断是否绘制结束,如果还有需要绘制的节点,将返回步骤804继续执行;否则退出绘制。
为了在不同尺寸输出媒体上自适应地绘制数字书籍,需要将带有层次式索引的版式文件转换成易于阅读的版面。如果使用XML等语言来描述版式文件结构,则可使用XSLT,CSS等样式描述来将XML逻辑结构描述转换成合适的新的版面形式。比如可以通过XSLT将XML转换为HTML,EPUB,DOCX等格式,以便阅读和使用。
图8中给出的说明既可以用于在移动终端上进行屏幕自适应绘制,也可以在不同尺寸的打印媒体上进行媒体自适应绘制。比如将带有层次式索引数据的版式文件打印到A4尺寸的纸张上,或打印到A8等不同尺寸的纸张上,由于带有层次式索引的版式文件的文字类型Zone区域具有可回流绘制的功能,因此在A8纸张上进行绘制时,不需要缩小文字来进行绘制,而可以在保证文字能够清晰阅读的前提下,以可回流的方式来绘制或打印,能够绘制输出媒体的阅读质量。
上面讲述的屏幕自适应绘制或媒体自适应绘制是按照数字版式文件的逻辑结构来进行自适应阅读,可以解决多页数字版式文件按照逻辑结构来进行阅读的问题。而在实际应用中也可以选择按页阅读的屏幕自适应绘制模式,但是在页内的阅读方式可以按照图8种所示的方式进行屏幕自适应阅读,所不同的是在步骤804中将按照页内的阅读顺序来访问层次式数据节点,实现页内文本Zone区域和非文本Zone区域按照输出媒体尺寸自适应进行版面变换。
带有层次式索引的版式文件除了可以用来进行屏幕自适应阅读等应用外,还可以用在版式文件转换成流式文件应用中。比如将PDF,XPS,DJVU,TIFF等转换成EPub,HTML等流式文件。在实际应用中还可以在转换过程中,将版式数字书籍的逻辑结构和文字等通过TTS(text to speech)技术转换成有声读物读出来,由于是按照阅读循序遍历,因此也按照阅读顺序有声读出来。
版式文件转换成流式文件可按照数字版式文件的逻辑结构来进行转换。在实际应用中也可以以页为单位来进行版式文件转换成流式文件,实现页内文本Zone区域和非文本Zone区域的流式转换。
图10提供了另外一种本发明的具体实施方式。内存1102存储了操作系统1109,用来控制层次式索引数据生成程序1110。操作系统1109可以是LINUX,IOS,或者Android等嵌入式操作系统或Windows,UNIX等非嵌入式操作系统。内存1102中还包含了版面分析,版面理解等OCR相关软件1111。此处的OCR相关软件既可以包括商用的也可以包括非商用的。1110中的层次式数据生成程序包含了程序和数据来处理版式文件。
此处的版式文件可以从网络接口200等接受到的数字书籍版式文件;从计算机可读媒体驱动器1105中读入版式文件;或从输入设备1107中读取得版式文件,并通过总线1108传到内存1102中去。这些版式文件通过1110中的层次式数据生成程序来调用版面分析和版面理解和OCR相关软件1111,并将生成的层次式索引数据并送到1120中的基于层次式索引的版式文件库中去。在内存1102中还存储了绘制程序1112,用来把层次式数据和版式文件在输出设备上绘制,比如通过WEB浏览器插件,专用阅读程序在窗口里绘制,或通过印刷程序在打印媒体上绘制等等。此处的处理器1101和绘制程序1112和输出适配器1103相连,根据输出设备1104中绘制媒体的尺寸,比如阅读窗口的尺寸或打印纸张的尺寸,实现屏幕自适应绘制功能或打印媒体自适应绘制输出功能。
本实施方式适用于在相机、扫描仪、一体机或移动终端等带有显示终端和计算功能的设备上进行实施。比如通过相机等成像设备得到数字书籍页面,利用移动终端或设备的处理器和内存设备以及内藏的版面分析和版面理解相关软件生成层次式数据,并用绘制程序在移动终端的屏幕或扫描描仪的屏幕或一体机的屏幕等显示设备上实现屏幕自适应绘制等应用。
本实施方式还可适用于在具有打印和印刷功能或虚拟印刷功能的设备或媒体上实施。比如通过相机,扫描仪或一体机等成像设备,首先扫描下数字书籍文件;或者直接通过读入设备1105或网络接口200读入版式文件,然后通过版面分析和理解程序生成层次式版面描述数据,通过打印绘制程序将版式文件按照输出媒体的尺寸和输出版面式样的要求在输出或打印媒体上绘制出来,实现带有版式自动变换的复印或打印等功能。
本实施方式还可适用于在具有声音播放功能的设备上实施。比如通过相机,扫描仪或一体机等成像设备,首先扫描下数字书籍文件;或者直接通过读入设备1105或网络接口200读入版式文件,然后通过版面分析和理解等OCR相关程序生成层次式版面描述数据,声音播放程序将带有层次式描述的版式文件按照阅读顺序在播放设备上播放出来,以实现有声阅读等功能。
此处生成的层次式数据还可通过网络接口200将数据传送到外界数据库,来支持通过网络实现版式文件的层次式数据生成服务;或传送到外部移动设备上,以支持远程阅读;或传送到印刷设备上,以实现远程打印等需要;或传送到远程有声听读和播放设备上,实现远程有声听读等应用。

Claims (9)

1.一种基于层次式索引的版式可回流文件的建立和绘制方法,其特征在于,具体包括如下步骤:
基于层次式索引的版式可回流文件建立:
1)通过扫描、成像设备或者软件工具得到版式数字书籍页面数据;
2)对每张数字书籍页面进行几何版面分析,得到文字段落区域和非文字区域,为每个区域分配一个索引号;对于非文字区域,计算其包围框,包围框形状可为长方形、圆、曲线、椭圆、三角形或者多边形形状,并记录对象包围框坐标或其所包围区域;
3)对每个文本段落区域,确定其所包含的行或列,记录行对准线和列对准线,并为每一行或每一列分配一个索引号,此处索引号码的分配按照事先约定的规则来分配;
4)对于其中每行,计算行内可回流对象的包围框,对每列,计算列内可回流对象的包围框,并为文字短路区域中的每个可回流对象计算出一个包围框,并记录可回流对象包围框坐标,并为每个可回流对象包围框分配一个索引号,确保行内或列内每个可回流几何区域有一个索引号码;
5)利用版面相关的领域知识,对单张或多张数字书籍页面进行版面识别和理解,得到章,节,标题,子标题,摘要,作者版面逻辑区域信息;
6)为每个逻辑区域分配索引号;其中每个逻辑区域包含一个或多个区域,通过记录其所包含区域的索引号来表达区域间的包含关系和从属关系,根据各区域的索引号或索引号码的组合来计算区域间的阅读顺序;
对层次式索引的版式可回流文件进行绘制:
7)通过网络或者本地存储介质得到版式文件和其层次式索引描述,解析此层次式索引描述;
8)根据输出媒体尺寸和需要绘制的样式读入当前绘制需要的版面数据和对应的层次式索引描述数据,包括逻辑区域和几何区域数据;
9)如果绘制对象区域是非文字区域类型,则根据输出媒体尺寸通过放大或缩小来进行绘制;
10)如果绘制对象区域属于文字类型,则根据需要绘制的样式,能够绘制的行宽和列高,字包围区域大小或单词包围区域大小来计算每个区域在行内的横向偏移或列内的纵向偏移; 
11)计算每个包围区域相对于每条行对准线或列对准线的旋转;
12)根据计算好的包围区域的位置和旋转来绘制对应的包围区域。
2.根据权利要求1所述基于层次式索引的版式可回流文件建立和绘制方法,其特征在于,所述步骤1)中软件工具得到版式数字书籍页面数据包括XML、SGML、CEB、XPS、TIFF或PDF格式的数字文件,还包括自定义格式的版式数字书籍页面数据。
3.根据权利要求1所述基于层次式索引的版式可回流文件建立和绘制方法,其特征在于,所述步骤2)文字段落区域包括单行区域和多行区域或单列和多列区域,非文字段落区域包括写真区域﹑列表区域﹑线画区域和数学公式区域。
4.根据权利要求1所述基于层次式索引的版式可回流文件建立和绘制方法,其特征在于,所述步骤2),步骤3),步骤4)和步骤6)中索引号码的分配用层次式结构特征,使用索引号码的组合来唯一确定对应几何区域或逻辑区域并确定区域间的阅读顺序;或者根据阅读顺序来为每个区域分配不同索引号码;如果描述文件中缺少索引号码来确定阅读顺序时,按层次式索引版式文件建立方法和绘制方法间对区域访问的顺序的事先约定,来确定区域间的阅读顺序。
5.根据权利要求1所述基于层次式索引的版式可回流文件建立和绘制方法,其特征在于,所述步骤4)中可回流对象可以是中文中的汉字,或者拉丁文中的单词或字符,包围框形状可为长方形、圆、曲线、椭圆、三角形或者多边形形状。
6.根据权利要求1所述基于层次式索引的版式可回流文件建立和绘制方法,其特征在于,所述步骤8)中输出媒体尺寸对于移动终端来说,尺寸是指绘制窗口的尺寸;对打印媒体来说,不仅指绘制区域的尺寸还包括绘制区域形状。
7.根据权利要求1所述基于层次式索引的版式可回流文件建立和绘制方法,其特征在于,所述步骤8)中需要绘制的样式可选择使用XSLT可扩展样式表转换语言或XSL(Extensible stylesheet language)或CSS层叠样式表来指定绘制样式,在样式表文件中通过指定索引号码来筛选出绘制区域。
8.根据权利要求1所述基于层次式索引的版式可回流文件建立和绘制方法,其特征在于,所述步骤10)中绘制对象区域若属于文字类型,但描述文件里没有行对准线或列对准线的记录时,步骤11)和步骤12)中可按照阅读顺序和显示样式在各行上排列该行对应包围框或在各列上排列该列对应包围框;在同一行上绘制的包围框保持底部,顶部或中间部对齐;在同一列上绘制的包围框保持左端,右端或中间部对齐;若所述步骤10)中绘制对象区域内包含的是文字字符串类型,步骤11)和步骤12)中可按照阅读顺序和显示样式在各行上排列和绘制该行对应字符串或在各列上排列和绘制该列对应字符串。
9.根据权利要求1所述基于层次式索引的版式可回流文件建立和绘制方法,其特征在于,所述建立和绘制后的基于层次式索引的版式可回流文件与步骤1)中原版式数字书籍页面数据可记录在同一个文件里,或通过压缩或打包方法存放在一个文件里,还可以分放在不同文件里。
CN201310188492.7A 2013-05-21 2013-05-21 基于层次式索引的版式可回流文件建立和绘制方法 Expired - Fee Related CN103268340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310188492.7A CN103268340B (zh) 2013-05-21 2013-05-21 基于层次式索引的版式可回流文件建立和绘制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310188492.7A CN103268340B (zh) 2013-05-21 2013-05-21 基于层次式索引的版式可回流文件建立和绘制方法

Publications (2)

Publication Number Publication Date
CN103268340A true CN103268340A (zh) 2013-08-28
CN103268340B CN103268340B (zh) 2016-08-10

Family

ID=49011969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310188492.7A Expired - Fee Related CN103268340B (zh) 2013-05-21 2013-05-21 基于层次式索引的版式可回流文件建立和绘制方法

Country Status (1)

Country Link
CN (1) CN103268340B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268127A (zh) * 2014-09-22 2015-01-07 同方知网(北京)技术有限公司 一种电子档版式文件阅读顺序分析的方法
CN104731822A (zh) * 2013-12-24 2015-06-24 明博教育科技有限公司 一种网络电子资源的存储及获取方法和系统
CN105302626A (zh) * 2015-11-09 2016-02-03 深圳市依伴数字科技有限公司 Xps结构化数据的解析方法
CN103853849B (zh) * 2014-03-28 2017-01-11 龚如宾 高压缩可回流文件的建立和绘制方法
CN106776552A (zh) * 2016-12-06 2017-05-31 掌阅科技股份有限公司 文件识别方法、装置、服务器和计算机存储介质
CN107977455A (zh) * 2017-12-15 2018-05-01 广州市齐明软件科技有限公司 ceb文件全文搜索方法、装置以及计算机可读存储介质
CN108897730A (zh) * 2018-06-29 2018-11-27 国信优易数据有限公司 一种pdf文本的处理方法以及装置
CN109559322A (zh) * 2018-11-30 2019-04-02 迈普通信技术股份有限公司 图像处理方法、装置、存储介质及电子设备
CN110674249A (zh) * 2019-09-29 2020-01-10 北京幻想纵横网络技术有限公司 一种信息处理方法及装置
CN111767373A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 一种文献检索方法、文献检索装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020057281A1 (en) * 2000-11-10 2002-05-16 Jun Moroo Image display control unit, image display control method, image displaying apparatus, and image display control program recorded computer-readable recording medium
CN101536075A (zh) * 2006-03-29 2009-09-16 亚马逊科技公司 产生用于在各种大小的显示器上显现的基于图像的可回流文件
US20100238474A1 (en) * 2009-03-17 2010-09-23 Konica Minolta Business Technologies, Inc. Document image processing apparatus, document image processing method, and computer-readable recording medium having recorded document image processing program
CN102222059A (zh) * 2011-06-14 2011-10-19 汉王科技股份有限公司 实现电子阅读器多格式信息显示方法、设备及系统
CN102841941A (zh) * 2012-08-22 2012-12-26 龚如宾 基于索引的版式可回流文件建立和绘制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020057281A1 (en) * 2000-11-10 2002-05-16 Jun Moroo Image display control unit, image display control method, image displaying apparatus, and image display control program recorded computer-readable recording medium
CN101536075A (zh) * 2006-03-29 2009-09-16 亚马逊科技公司 产生用于在各种大小的显示器上显现的基于图像的可回流文件
US20100238474A1 (en) * 2009-03-17 2010-09-23 Konica Minolta Business Technologies, Inc. Document image processing apparatus, document image processing method, and computer-readable recording medium having recorded document image processing program
CN102222059A (zh) * 2011-06-14 2011-10-19 汉王科技股份有限公司 实现电子阅读器多格式信息显示方法、设备及系统
CN102841941A (zh) * 2012-08-22 2012-12-26 龚如宾 基于索引的版式可回流文件建立和绘制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
田海月: "PDF文件格式研究", 《中国高新技术企业》, no. 6, 15 March 2009 (2009-03-15) *
黄立华等: "电子图书文件格式及其制作阅读工具的分析研究", 《图书情报工作》, no. 9, 18 September 2002 (2002-09-18) *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731822A (zh) * 2013-12-24 2015-06-24 明博教育科技有限公司 一种网络电子资源的存储及获取方法和系统
CN103853849B (zh) * 2014-03-28 2017-01-11 龚如宾 高压缩可回流文件的建立和绘制方法
CN104268127A (zh) * 2014-09-22 2015-01-07 同方知网(北京)技术有限公司 一种电子档版式文件阅读顺序分析的方法
CN104268127B (zh) * 2014-09-22 2018-02-09 同方知网(北京)技术有限公司 一种电子档版式文件阅读顺序分析的方法
CN105302626A (zh) * 2015-11-09 2016-02-03 深圳市依伴数字科技有限公司 Xps结构化数据的解析方法
CN106776552A (zh) * 2016-12-06 2017-05-31 掌阅科技股份有限公司 文件识别方法、装置、服务器和计算机存储介质
CN107977455A (zh) * 2017-12-15 2018-05-01 广州市齐明软件科技有限公司 ceb文件全文搜索方法、装置以及计算机可读存储介质
CN108897730A (zh) * 2018-06-29 2018-11-27 国信优易数据有限公司 一种pdf文本的处理方法以及装置
CN108897730B (zh) * 2018-06-29 2022-07-29 国信优易数据股份有限公司 一种pdf文本的处理方法以及装置
CN109559322A (zh) * 2018-11-30 2019-04-02 迈普通信技术股份有限公司 图像处理方法、装置、存储介质及电子设备
CN110674249A (zh) * 2019-09-29 2020-01-10 北京幻想纵横网络技术有限公司 一种信息处理方法及装置
CN111767373A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 一种文献检索方法、文献检索装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN103268340B (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
CN103268340A (zh) 基于层次式索引的版式可回流文件建立和绘制方法
US11514234B2 (en) Method and system for annotation and connection of electronic documents
CN103500118B (zh) 一种级联样式表优化方法和装置
US20030210428A1 (en) Non-OCR method for capture of computer filled-in forms
JP2006350867A (ja) 文書処理装置、文書処理方法、プログラム及び情報記録媒体
CN101872340A (zh) 一种基于版面格式模板的排版方法及装置
JP2007095102A (ja) 文書処理装置および文書処理方法
US20120153020A1 (en) Information input/output apparatus, information processing apparatus, information input/output system, printing medium, and information input/output method
CN102841941B (zh) 基于索引的版式可回流文件建立和绘制方法
CN107562450A (zh) 一种地方志资源跨平台可视化方法
CN105302775A (zh) 一种文件格式转换方法及装置
CN102110108B (zh) 一种对小样文件的处理方法及装置
TW201416884A (zh) 字型發布系統及字型發布方法
CN106815181A (zh) 一种InDesign排版的indd文件到Office文件的转换方法及装置
JPH10222510A (ja) 文書変換方法
CN103853849A (zh) 高压缩可回流文件的建立和绘制方法
JP2011118818A (ja) 画像処理装置
US11030387B1 (en) Device dependent rendering of PDF content including multiple articles and a table of contents
CN114625996A (zh) 网页内容的分页方法、装置、电子设备及可读存储介质
CN111126007B (zh) 一种基于html病历文书分页算法
JP4934181B2 (ja) 付加画像処理システム、画像形成装置及び付加画像追加方法
JP5384315B2 (ja) 検索装置及び方法及びプログラム
Thomas et al. A framework for corpus-based analysis of the graphic signalling of discourse structure
Petrolito et al. Minoan linguistic resources: the Linear A digital corpus
Gribomont OCR with Google Vision API and Tesseract

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160810

Termination date: 20200521