CN104111922A - 一种流式文档的处理方法及装置 - Google Patents

一种流式文档的处理方法及装置 Download PDF

Info

Publication number
CN104111922A
CN104111922A CN201310131932.5A CN201310131932A CN104111922A CN 104111922 A CN104111922 A CN 104111922A CN 201310131932 A CN201310131932 A CN 201310131932A CN 104111922 A CN104111922 A CN 104111922A
Authority
CN
China
Prior art keywords
directory entry
streaming
information
tab
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310131932.5A
Other languages
English (en)
Other versions
CN104111922B (zh
Inventor
王长胜
邢国峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Founder Apabi Technology Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201310131932.5A priority Critical patent/CN104111922B/zh
Publication of CN104111922A publication Critical patent/CN104111922A/zh
Application granted granted Critical
Publication of CN104111922B publication Critical patent/CN104111922B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification

Abstract

本发明实施例提供了一种流式文档的处理方法及装置,用于将流式文档转化为版式文档,正确呈现目录;增强文档在不同设备上显示时的自适应性,提高用户体验。该方法包括:确定流式文档中的目录,并从流式文档中获取目录的内容信息;其中包括每一目录项中描述信息的内容信息;通过排版确定每一目录项中描述信息的位置信息,每一目录项中引用页码的位置信息和排版后每一目录项所在的页码;根据所述每一目录项中描述信息的位置信息和引用页码的位置信息,以及每一目录项中描述信息的内容信息,确定每一目录项中制表符的属性信息;将目录映射至版式文档。

Description

一种流式文档的处理方法及装置
技术领域
本发明涉及文档转换领域,尤其涉及一种流式文档的处理方法及装置。
背景技术
首先对本发明涉及的术语名词进行介绍:
版式文档:是一种独立于软件、硬件、操作系统、呈现/打印设备的文档,例如pdf,cebx等格式的版式文档。一个版式文档可以包含多个页面,每个页面由与设备和分辨率无关的若干的图元(即版面对象,页面上呈现内容的最基本单元,如文本、图形、图像、表格、多媒体等类型图元,也包括基于这些基本图元组合而成的复合图元)组成。
版式文档的常见基本特性:原版原式呈现(文本图像等内容及其位置大小、色彩等版式信息在不同平台软硬件上呈现/打印显示效果一致);文档内容等数据的结构化描述(无论采用XML还是二进制描述方式,其文档格式都具有结构化特征);交互性(动画,多媒体,执行动作动等);安全性(数字签名等)等。近年来也增添了许多新特性:多样化互联网应用(线性化边下载边阅读、“一次出版,多平台应用,多途径传播”等);移动阅读灯设备自适应性(要求原版原式的版式文档能在手机等各种大小不一的设备中自动调整文档内容的呈现,如同办公软件等流式文档天然具备自适应特点)等。
流式文档:如Office文档,它描述的不是排版后生成的具有版面呈现所需要的所有数据的文档(即版式文档),其相关(流式)数据通常不具有固定位置大小等版面信息,每次加载文档时需要类似流水线式的对这些数据从头到尾进行重新排版计算得到相关位置信息,然后才能呈现出来。
结构化信息:关于文档(流式、版式等类型)的逻辑结构的信息,包括文章、节、段落等逻辑结构,以及显示样式信息。结构化信息可用于实现版面内容的重排(Reflow),以适应不同屏幕尺寸的设备特别是移动设备的需求。常见粗粒度的逻辑结构单元有:区域、排版框、段落、表格等。细粒度的基本逻辑结构单元有:文本句、图形、图像、公式、图表、多媒体对象、复合对象等。这些富有语义的逻辑数字内容对象在流式文档、版式文档等中的数据逻辑结构描述通常都是有差异的。
文本句:Run or Span,段落内最小的逻辑文字单元,连续的文本以是否具有相同文字属性为依据来划分为若干个句。段落内被其它单元对象如图形图像等锚点对象分割开的、即便有相同文字属性也会划分有不同的句。
复合图元:多个基本图元组合后形成的一个图元,类似办公文档中多个基本图形等对象组合Group后形成的一个整体性对象,该对象还可进一步复原(拆分)为组合前的对象。
在文档转换领域,通常利用虚拟打印技术将流式文档(例如办公软件MicroSoft Office文档)转换为版式文档(例如Apabi CEBX文档[(此格式可包含流式信息和版式信息]),但该技术只能得到纯版式信息。而其中的流式信息(如文档中的目录)利用MicroSoft Word等应用程序提供的二次开发应用接口就可以获取。最后若要得到一份在移动设备上可阅读的兼版流式信息一体的版式文档,则需要将上述二者相关的纯版式信息和待提取的流式信息结合起来以生成最终的版式文档。
制作带流式目录结构化信息的版式文档,现有公开的技术为采用虚拟打印技术,以流式目录结构化信息以及文字段落组成的目录项为基础,生成对应的版式文档文本图元,同样,版式文档中该目录对应的结构化信息也是以各段落来表达的。其缺陷是:在各种移动设备阅读器中重排呈现目录信息时,常因为目录项描述信息(如章节号与标题)与对应的引用页码(即对应章节的起始页码)之间的制表符个数不确定而导致不能在一行上整体呈现。参见图1,为目录阅读效果正确和错误比对示意图。
造成此缺陷的根本原因在于:现有的版式文档的逻辑结构化信息(用于在不同大小的设备中自动重排以获得好的呈现效果)的约束是:类型为Tab的控制符即制表符的值记录了宽度信息(由一个键值对表示,记录制表符个数以及制表符的字符宽度);而类似Office等流式文档其目录信息中的制表符(即Tab)没有记录宽度信息,通常记录了“.”等制表符使用的符号,字符宽度是依据文档页面宽度等信息由Office排版后自动绘制出来的。
因此,现有技术将流式文档转化为版式文档后,目录不能正确显示。
发明内容
本发明实施例提供了一种流式文档的处理方法及装置,用于将流式文档转化为版式文档,正确呈现目录;增强文档在不同设备上显示时的自适应性,提高用户体验。
本发明实施例提供的一种流式文档的处理方法包括:
确定流式文档中的目录,并从流式文档中获取目录的内容信息;其中包括每一目录项中描述信息的内容信息;
通过排版确定每一目录项中描述信息的位置信息,每一目录项中引用页码的位置信息和排版后每一目录项所在的页码;
根据所述每一目录项中描述信息的位置信息和引用页码的位置信息,以及每一目录项中描述信息的内容信息,确定每一目录项中制表符的属性信息;
根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档。
本发明实施例提供的一种流式文档的处理装置包括:
识别模块,用于确定流式文档中的目录,并从流式文档中获取目录的内容信息;其中包括每一目录项中描述信息的内容信息;
位置确定模块,用于通过排版确定每一目录项中描述信息的位置信息,每一目录项中引用页码的位置信息和排版后每一目录项所在的页码;
制表符确定模块,用于根据所述每一目录项中描述信息的位置信息和引用页码的位置信息,以及每一目录项中描述信息的内容信息,确定每一目录项中制表符的属性信息;
映射模块,用于根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档。
通过以上技术方案可知,本发明中确定流式文档中的目录,并从流式文档中获取目录的内容信息;其中包括每一目录项中描述信息的内容信息;通过排版确定每一目录项中描述信息的位置信息,每一目录项中引用页码的位置信息和排版后每一目录项所在的页码;根据所述每一目录项中描述信息的位置信息和引用页码的位置信息,以及每一目录项中描述信息的内容信息,确定每一目录项中制表符的属性信息;根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档。通过确定各目录项的具体信息,再映射至版式文档,使版式文档能够正确呈现目录,提高了用户体验。
附图说明
图1为现有技术中流式文档转化为版式文档后的显示效果示意图;
图2为本发明实施例提供的一种流式文档的处理方法的流程示意图;
图3为本发明具体实施例提供的一种流式文档的处理方法的流程示意图;
图4为本发明具体实施例提供的另一流程示意图;
图5为本发明具体实施例提供的另一流程示意图;
图6为本发明具体实施例提供的另一流程示意图;
图7为本发明实施例提供的一种流式文档的处理装置的结构示意图;
图8为本发明实施例提供的一种流式文档的处理装置的另一结构示意图。
具体实施方式
本发明实施例提供了一种流式文档的处理方法及装置,用于将流式文档转化为版式文档,正确呈现目录;增强文档在不同设备上显示时的自适应性,提高用户体验。
参见图2,本发明实施例提供的一种流式文档的处理方法包括:
S201、确定流式文档中的目录,并从流式文档中获取目录的内容信息;其中包括每一目录项中描述信息的内容信息;
S202、通过排版确定每一目录项中描述信息的位置信息,每一目录项中引用页码的位置信息和排版后每一目录项所在的页码;
S203、根据所述每一目录项中描述信息的位置信息和引用页码的位置信息,以及每一目录项中描述信息的内容信息,确定每一目录项中制表符的属性信息;
S204、根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档。
较佳的,所述确定流式文档中的目录,包括:获取流式文档中的全部文字段落的内容信息;根据所述全部文字段落的内容信息和目录的特征,确定目录的开始区域和结束区域。由于流式文档中的目录具有开始和结束标记,因此能够直接分析找出流式文档中的目录。
较佳的,所述制表符的属性信息,包括:制表符的位置信息。根据引用页码的位置、描述信息的位置和描述信息的内容等信息,即可计算得到制表符开始位置和结束位置。确定制表符的位置信息用于后续映射为版式文档的图元对象。
较佳的,根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档,包括:根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,分别将每一目录项中的描述信息、制表符和引用页码映射为版式文档中不同的文本句;根据每一目录项中的不同的文本句,将该目录项关联上版式文档的页面对象的图元对象;根据所关联的图元对象生成该目录项对应的版流式目录信息。所述版流式目录信息,即是说,例如将Office流式文档的各项目录映射到版式文档的图元之后,还需要将版式文档的图元关联到版式文档中的流式段落对象,以流式结构化信息进行表达,即采取类似于流式文档的描述方式对图元进行结构化描述;版式文档的流式结构化信息也称作版流式信息,包含流式结构化信息的版式文档也叫做版流结合的版式文档,版流结合的版式文档对不同设备的适应性强于原始的版式文档。
较佳的,根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,分别将每一目录项中的描述信息、制表符和引用页码映射为版式文档中不同的文本句,包括:根据所述目录的内容信息和所述每一目录项中描述信息的位置信息,将每一目录项中的描述信息映射为版式文档中的描述信息文本句;以及,根据所述目录的内容信息和所述每一目录项中制表符的属性信息,将每一目录项中的制表符映射为版式文档中的制表符文本句;以及,根据所述目录的内容信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,将每一目录项中的引用页码映射为版式文档中的引用页码文本句。
本发明一实施例通过分别映射目录项各个部分来输出版流结合的版式文档,也就是说,将目录项的3部分(描述信息、制表符、引用页码)分别映射到不同的独立的版式图元,之后再分别将这三部分版式图元映射到版式结构化信息中。较佳的,所述根据每一目录项中的不同的文本句,将该目录项关联上版式文档的页面对象的图元对象,包括:将每一目录项中的不同的文本句分别关联上版式文档的不同的图元对象;将所述不同的图元对象关联到版式文档的页面对象。较佳的,根据所关联的图元对象生成该目录项对应的版流式目录信息,包括:将该目录项关联到版式文档中的流式段落对象;将该目录项的所述不同的图元对象关联在所述流式段落对象的一个片段的一个块中;其中,关联在所述流式段落对象的制表符的个数计为用于表示需要进行自动计算的值。表示需要进行自动计算的值通常为“auto”,即表示不确定到底是几个制表符,需要自动计算制表符,具体实现时由移动设备根据宽度等信息排版后计算处理。
另外,由于版式文档的逻辑结构化信息中记录有制表符的个数,因此也可以将版式文档中制表符的个数保持为原先的个数。较佳的,所述制表符的属性信息,还包括:每一目录项的制表符的个数。其中,根据制表符开始位置和结束位置,即可以确定制表符占用的总宽度,再根据制表符总宽度除以单个制表符宽度计算制表符的个数。较佳的,所述根据所关联的图元对象生成该目录项对应的版流式目录信息,包括:将该目录项关联到版式文档中的流式段落对象;将该目录项的所述不同的图元对象关联在所述流式段落对象的一个片段的一个块中;其中,关联在所述流式段落对象的制表符的个数为计算出的该目录项的制表符的个数。
本发明另一实施例则采取整体性识别流式目录结构信息的方法,将目录项整体性映射为版式文档中的复合图元,然后该复合图元再关联上版式文档中的流式结构化信息。较佳的,所述根据每一目录项中的不同的文本句,将该目录项关联上版式文档的页面对象的图元对象,包括:将每一目录项中的不同的文本句分别关联上版式文档的不同的图元对象;将所述不同的图元对象组合为一个复合图元;将该复合图元关联到版式文档的页面对象。较佳的,所述根据所关联的图元对象生成该目录项对应的版流式目录信息,包括:将该复合图元关联到版式文档中的具体页面的流式段落对象。因为目录项是整体性被映射到一个复合图元的,故无需再给出Tab个数,即Tab个数是固定的。
下面给出本发明的具体实施例。
参见图3,本发明具体实施例包括以下步骤:
A10、整体识别出流式等原始文档中的目录结构信息;
A20、按页将目录划分为若干条目块;
A30、将目录项块信息输出为版流目录结构。
图4为该目录的版流式逻辑结构化处理方法中A10步骤操作,包括以下步骤:
B10步骤为初始化识别环境:依据原始文档类型(*.docx,或书版软件的xml(Extensible Markup Language,可扩展标记语言)流式文档)初始化对应的应用程序二次开发接口环境或自开发的分析工具环境或相关的内核引擎,并加载该文档。通过现有开发环境或技术可以正确获取原始文档的全局性默认文字段落属性组(或段落式样)信息defaultParaMap,采用标准C++std::map<strAttributeName,strAttributeValue>defaultParaMap;即可承载这些信息,其中strAttributeName表示文字和段落的各属性名称,strAttributeValue表示文字和段落的各属性名称对应的值。如(fontSize,10.5)表示字体大小为10.5,(alignment,left)表示左对齐等。
B20步骤为目录对象的纯流式分析:在上述B10环境下获取文档版芯段落对象,分析出目录所在开始和结束区域:通常office等软件的目录信息是作为一个TOC(Table Of Contents,目录域)对象的形式挂载在或锚在段落下的,即Toc域的开始和结束标记通常分别位于第一个空段落和最后一个空段落,并有相关开始和结束标记。
每个目录项由若干文本句组成的目录项描述信息、中间的制表位Tab信息、页码引用域PAGEREF(引用页码)三大部分组成,另外目录项所在段落以及其三大部分的文本句都关联了属性和式样信息,这些信息通过现有开发环境或技术都可正确识别出来。
B30步骤为保存目录识别结果;例如可构造如下几个数据结构表:
1、所有目录项文字段落属性组信息结构,记为tocParaMap:采用标准C++std::map<pid,std::map<strAttributeName,strAttributeValue>>tocParaMap;即可承载这些信息,其中嵌套的std::map<strAttributeName,strAttributeValue>代表每个目录项文字段落的属性组信息;pidid用来标识该目录项引用的段落属性组。
2、目录项制表符,记为TabChar:用于记录并保存制表符的字符值,因为制表符都是一样的,只需要保存一个即可。
3、目录项描述信息结构,记为Array[struct Run]:{文本句,文本句属性组,x,y}数组。其中文本句记录目录项制表符之前的描述信息的文字,这些文字通常由若干小的文本句组成(如章节数字文本串和章节标题文本串)。每个小的文本句可能有用户特别设置的句属性,如字号,粗体等信息,若无则它们的句属性取值为该目录项所在段落对应的句属性,若无则向上引用至全局默认文本段落句属性。x,y表示该文本句排版后在该页面的坐标值,此时初始化为0,0。
4、目录项引用页码信息结构,记为struct pageNumber:{{引用页码的文本句,引用页码句属性组,x,y},该目录项排版后所在页码}。其中x、y、该目录项排版后所在页码此时全部初始化为0。而引用页码的文本句,引用页码句属性组类似于3中的文本句,文本句属性组。
5、最终整个目录识别结果,记为tocParaMap、TabChar和Array[{pid,Array[struct Run],struct pageNumber}]:即上述所有目录项文字段落属性组信息、制表符和由每个目录项中的{pid,目录项描述信息结构,目录项引用页码信息结构}构成的数组表达。其中pid用来标识该目录项引用的段落属性组(或段落式样),通常用段落式样名称表达,通过该pid就能够得到tocParaMap中对应pid的目录项文字段落的首行缩进等段落属性信息。
通过现有开发环境或技术可正确得到上述defaultParaMap、tocParaMap、TabChar和Array[{pid,Array[struct Run],struct pageNumber}]4个数据结构对应的纯流式信息。
图5为该目录的版流式逻辑结构化处理方法中A20步骤操作,包括以下步骤:
C10步骤为开始目录跨页分析:若上述A10识别出目录结构信息(即文档中存在目录),则开始对该目录进行是否跨页分析,对于跨页的目录进行以下操作,否则直接获取相关的位置信息。
C20步骤为连续多页目录识别:通过现有Office APIs中Selection选择和Range区域对象识别出每个目录项的段落所在的排版后的页码、目录项描述信息和引用页码的开始位置,即B30所述的数据结构中的(x,y)值;或者通过内核排版引擎自动获取该目录排版结果;也可以通过自己撰写的分析工具根据文档中的软分页符soft PageBreak直接获取页码值、描述信息和引用页码的起始位置(x,y);此外也可以通过自定义排版排版引擎分页计算得到每个目录项段落所在的排版后的页码、描述信息和引用页码的起始位置(x,y)。
C30步骤为保存跨页目录识别结果:将上述C20中的每个目录项段落所在的排版后的页码,以及描述信息和引用页码的起始位置记录到B30所述的该目录项排版后所在页码字段、描述信息的起始位置(x,y)字段和引用页码的起始位置(x,y)字段。
图6是该目录的版流式逻辑结构化处理方法中A30步骤操作,本发明具体实施例提供两种方案。
方案一包括以下步骤:
D10步骤为开始版式文档目录信息生成:依据上述操作得到的数组Array[{pid,Array[struct Run],struct pageNumber}],从该结构中按照各目录项排版后所在页码进行版式文档目录信息生成。具体生成映射操作是:
Step1、目录项描述信息映射:依次取Array[struct Run]目录项文本句信息(文本句、x,y坐标值)以及其中的文本句属性结合defaultParaMap、tocParaMap中的信息映射为版式文档中文本句(通常位于资源文件中,由对应的文本,绘制参数、字体信息等构成);
Step2、目录项制表符映射:首先根据Array[struct Run]计算最后一个文本句宽度加上该文本句的x坐标值得到制表位的起始位置x0,y值默认取该文本句y值,取struct pageNumber中的x值减去x0值得到整个制表位的宽度,依据该制表符(例如为”.”)及其defaultParaMap、tocParaMap中对应的文本句属性(如字体和字号大小等),将它们映射到一个完整的版式文档文本句;
Step3、目录项页码映射:取struct pageNumber中的排版后所在页码值、x,y坐标值以及其中的文本句属性结合defaultParaMap、tocParaMap中的信息映射为版式文档中文本句(通常位于资源文件中,由对应的文本,绘制参数、字体信息等构成)。
Step4、最后版式文档各页面级页面块对象(pageBlock)映射:将该页面内的所有上述每个目录项的描述信息、制表符信息、页码信息的版式文本句分别关联上一个版式文本图元对象(pageObject),最后将所有的这些目录项对应的文本图元关联到一个页面对象(pageBlock)。
D20步骤为生成版流式目录信息:具体生成映射操作是,首先为每个目录项关联一个版式文档中的流式段落对象并关联到具体页码,再将将上述目录项文字描述信息对应的文本图元对象+Tab控制符+上述目录项页码对应的文本图元对象关联在一个片段的一个块中。其中Tab控制符由上述TabChar制表符和“auto”自动计算并绘制流式制表符表达。TabChar表达的是具体的某个制表符的字符形式,如常见的“.”。这里的auto代表制表符的个数,即TabChar的个数,这个”自动”所不确定的个数是由应用程序具体呈现时依据各移动设备屏幕的不同宽度动态计算出来的。
方案二包括以下步骤:
D10步骤为开始版式文档目录信息生成:依据上述操作得到的数组Array[{pid,Array[struct Run],struct pageNumber}],从该结构中按照各目录项排版后所在页码进行版式文档目录信息生成。具体生成映射操作是:
Step1、目录项描述信息映射:依次取Array[struct Run]目录项文本句信息(文本句、x,y坐标值)以及其中的文本句属性结合defaultParaMap、tocParaMap中的信息映射为版式文档中文本句(通常位于资源文件中,由对应的文本,绘制参数、字体信息等构成);
Step2、目录项制表符映射:首先由Array[struct Run]中计算最后一个文本句宽度加上该文本句的x坐标值得到制表位的起始位置x0,y值默认取该文本句y值,取struct pageNumber中的x值减去x0值得到整个制表位的宽度,依据该制表符(例如为”.”)及其defaultParaMap、tocParaMap中对应的文本句属性(如字体和字号大小等)计算制表符的个数,最后将它们映射到一个完整的版式文档文本句;
Step3、目录项页码映射:取struct pageNumber中的排版后所在页码值、x,y坐标值以及其中的文本句属性结合defaultParaMap、tocParaMap中的信息映射为版式文档中文本句(通常位于资源文件中,由对应的文本,绘制参数、字体信息等构成)。
Step4、将该页面内的所有上述每个目录项的文字描述、制表符、页码信息的版式文本句分别关联上一个版式文本图元对象(pageObject),再将这些pageObject组合为一个整体性复合图元对象,最后将该复合图元对象关联到一个页面对象(pageBlock)。
D20步骤:将该复合图元对象关联到一个版式文档中的具体页面的流式段落对象。
上述目录的版流式逻辑结构化处理方法的具体实施例,解决了版式文档中目录存在的错误显示的问题;并且,由于采用了整体性识别流式目录结构信息,或基于自动计算制表符的基于段落的目录项来输出对应的版流结合的版式文档,在移动设备上具有很好的自适应性,提高了用户的阅读体验。
参见图7,本发明实施例提供的一种流式文档的处理装置包括:
识别模块71,用于确定流式文档中的目录,并从流式文档中获取目录的内容信息;其中包括每一目录项中描述信息的内容信息;
位置确定模块72,用于通过排版确定每一目录项中描述信息的位置信息,每一目录项中引用页码的位置信息和排版后每一目录项所在的页码;
制表符确定模块73,用于根据所述每一目录项中描述信息的位置信息和引用页码的位置信息,以及每一目录项中描述信息的内容信息,确定每一目录项中制表符的属性信息;
映射模块74,用于根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档。
较佳的,所述识别模块用于确定流式文档中的目录时,具体用于:获取流式文档中的全部文字段落的内容信息;根据所述全部文字段落的内容信息和目录的特征,确定目录的开始区域和结束区域。
较佳的,所述制表符的属性信息,包括:制表符的位置信息。
参见图8,较佳的,所述映射模块,包括:
文本句映射模块81,用于根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,分别将每一目录项中的描述信息、制表符和引用页码映射为版式文档中不同的文本句;
图元映射模块82,用于根据每一目录项中的不同的文本句,将该目录项关联上版式文档的页面对象的图元对象;
流式信息映射模块83,用于根据所关联的图元对象生成该目录项对应的版流式目录信息。
较佳的,所述文本句映射模块,具体用于:
根据所述目录的内容信息和所述每一目录项中描述信息的位置信息,将每一目录项中的描述信息映射为版式文档中的描述信息文本句;以及,根据所述目录的内容信息和所述每一目录项中制表符的属性信息,将每一目录项中的制表符映射为版式文档中的制表符文本句;以及,根据所述目录的内容信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,将每一目录项中的引用页码映射为版式文档中的引用页码文本句。
较佳的,所述图元映射模块,具体用于:将每一目录项中的不同的文本句分别关联上版式文档的不同的图元对象;将所述不同的图元对象关联到版式文档的页面对象。
较佳的,所述流式信息映射模块,具体用于:将该目录项关联到版式文档中的流式段落对象;将该目录项的所述不同的图元对象关联在所述流式段落对象的一个片段的一个块中;其中,关联在所述流式段落对象的制表符的个数计为用于表示需要进行自动计算的值。
较佳的,所述制表符的属性信息,还包括:每一目录项的制表符的个数。
较佳的。所述流式信息映射模块,具体用于:将该目录项关联到版式文档中的流式段落对象;将该目录项的所述不同的图元对象关联在所述流式段落对象的一个片段的一个块中;其中,关联在所述流式段落对象的制表符的个数为该目录项的制表符的个数。
较佳的,所述图元映射模块,具体用于:将每一目录项中的不同的文本句分别关联上版式文档的不同的图元对象;将所述不同的图元对象组合为一个复合图元;将该复合图元关联到版式文档的页面对象。
较佳的,所述流式信息映射模块,具体用于:将该复合图元关联到版式文档中的具体页面的流式段落对象。
综上所述,本发明实施例提供了一种流式文档的处理方法及装置,用于将流式文档转化为版式文档,正确呈现目录;并且通过将流式文档映射版流式文档以增强了文档在不同设备上显示时的自适应性,提高了用户体验。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (20)

1.一种流式文档的处理方法,其特征在于,该方法包括:
确定流式文档中的目录,并从流式文档中获取目录的内容信息;其中包括每一目录项中描述信息的内容信息;
通过排版确定每一目录项中描述信息的位置信息,每一目录项中引用页码的位置信息和排版后每一目录项所在的页码;
根据所述每一目录项中描述信息的位置信息和引用页码的位置信息,以及每一目录项中描述信息的内容信息,确定每一目录项中制表符的属性信息;
根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档。
2.如权利要求1所述的方法,其特征在于,所述确定流式文档中的目录,包括:
获取流式文档中的全部文字段落的内容信息;
根据所述全部文字段落的内容信息和目录的特征,确定目录的开始区域和结束区域。
3.如权利要求1所述的方法,其特征在于,所述制表符的属性信息,包括:
制表符的位置信息。
4.如权利要求1-3任一权项所述的方法,其特征在于,根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档,包括:
根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,分别将每一目录项中的描述信息、制表符和引用页码映射为版式文档中不同的文本句;
根据每一目录项中的不同的文本句,将该目录项关联上版式文档的页面对象的图元对象;
根据所关联的图元对象生成该目录项对应的版流式目录信息。
5.如权利要求4所述的方法,其特征在于,所述根据每一目录项中的不同的文本句,将该目录项关联上版式文档的页面对象的图元对象,包括:
将每一目录项中的不同的文本句分别关联上版式文档的不同的图元对象;
将所述不同的图元对象关联到版式文档的页面对象。
6.如权利要求5所述的方法,其特征在于,根据所关联的图元对象生成该目录项对应的版流式目录信息,包括:
将该目录项关联到版式文档中的流式段落对象;
将该目录项的所述不同的图元对象关联在所述流式段落对象的一个片段的一个块中;其中,关联在所述流式段落对象的制表符的个数计为用于表示需要进行自动计算的值。
7.如权利要求5所述的方法,其特征在于,所述制表符的属性信息,还包括:
每一目录项的制表符的个数。
8.如权利要求7所述的方法,其特征在于,所述根据所关联的图元对象生成该目录项对应的版流式目录信息,包括:
将该目录项关联到版式文档中的流式段落对象;
将该目录项的所述不同的图元对象关联在所述流式段落对象的一个片段的一个块中;其中,关联在所述流式段落对象的制表符的个数为该目录项的制表符的个数。
9.如权利要求4所述的方法,其特征在于,所述根据每一目录项中的不同的文本句,将该目录项关联上版式文档的页面对象的图元对象,包括:
将每一目录项中的不同的文本句分别关联上版式文档的不同的图元对象;
将所述不同的图元对象组合为一个复合图元;
将该复合图元关联到版式文档的页面对象。
10.如权利要求9所述的方法,其特征在于,所述根据所关联的图元对象生成该目录项对应的版流式目录信息,包括:
将该复合图元关联到版式文档中的具体页面的流式段落对象。
11.一种流式文档的处理装置,其特征在于,该装置包括:
识别模块,用于确定流式文档中的目录,并从流式文档中获取目录的内容信息;其中包括每一目录项中描述信息的内容信息;
位置确定模块,用于通过排版确定每一目录项中描述信息的位置信息,每一目录项中引用页码的位置信息和排版后每一目录项所在的页码;
制表符确定模块,用于根据所述每一目录项中描述信息的位置信息和引用页码的位置信息,以及每一目录项中描述信息的内容信息,确定每一目录项中制表符的属性信息;
映射模块,用于根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档。
12.如权利要求11所述的装置,其特征在于,所述识别模块用于确定流式文档中的目录时,具体用于:
获取流式文档中的全部文字段落的内容信息;
根据所述全部文字段落的内容信息和目录的特征,确定目录的开始区域和结束区域。
13.如权利要求11所述的装置,其特征在于,所述制表符的属性信息,包括:
制表符的位置信息。
14.如权利要求11-13任一权项所述的装置,其特征在于,所述映射模块,包括:
文本句映射模块,用于根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,分别将每一目录项中的描述信息、制表符和引用页码映射为版式文档中不同的文本句;
图元映射模块,用于根据每一目录项中的不同的文本句,将该目录项关联上版式文档的页面对象的图元对象;
流式信息映射模块,用于根据所关联的图元对象生成该目录项对应的版流式目录信息。
15.如权利要求14所述的装置,其特征在于,所述图元映射模块,具体用于:
将每一目录项中的不同的文本句分别关联上版式文档的不同的图元对象;
将所述不同的图元对象关联到版式文档的页面对象。
16.如权利要求15所述的装置,其特征在于,所述流式信息映射模块,具体用于:
将该目录项关联到版式文档中的流式段落对象;
将该目录项的所述不同的图元对象关联在所述流式段落对象的一个片段的一个块中;其中,关联在所述流式段落对象的制表符的个数计为用于表示需要进行自动计算的值。
17.如权利要求15所述的装置,其特征在于,所述制表符的属性信息,还包括:
每一目录项的制表符的个数。
18.如权利要求17所述的装置,其特征在于,所述流式信息映射模块,具体用于:
将该目录项关联到版式文档中的流式段落对象;
将该目录项的所述不同的图元对象关联在所述流式段落对象的一个片段的一个块中;其中,关联在所述流式段落对象的制表符的个数为该目录项的制表符的个数。
19.如权利要求14所述的装置,其特征在于,所述图元映射模块,具体用于:
将每一目录项中的不同的文本句分别关联上版式文档的不同的图元对象;
将所述不同的图元对象组合为一个复合图元;
将该复合图元关联到版式文档的页面对象。
20.如权利要求19所述的装置,其特征在于,所述流式信息映射模块,具体用于:
将该复合图元关联到版式文档中的具体页面的流式段落对象。
CN201310131932.5A 2013-04-16 2013-04-16 一种流式文档的处理方法及装置 Expired - Fee Related CN104111922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310131932.5A CN104111922B (zh) 2013-04-16 2013-04-16 一种流式文档的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310131932.5A CN104111922B (zh) 2013-04-16 2013-04-16 一种流式文档的处理方法及装置

Publications (2)

Publication Number Publication Date
CN104111922A true CN104111922A (zh) 2014-10-22
CN104111922B CN104111922B (zh) 2017-04-19

Family

ID=51708717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310131932.5A Expired - Fee Related CN104111922B (zh) 2013-04-16 2013-04-16 一种流式文档的处理方法及装置

Country Status (1)

Country Link
CN (1) CN104111922B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705503A (zh) * 2019-10-14 2020-01-17 北京信息科技大学 生成目录结构化信息的方法和装置
CN111046096A (zh) * 2019-12-16 2020-04-21 北京信息科技大学 用于生成图文结构化信息的方法和装置
CN111090980A (zh) * 2019-12-18 2020-05-01 北大方正集团有限公司 Pdf文件的生成方法、计算机设备与可读存储介质
CN112001150A (zh) * 2019-05-27 2020-11-27 珠海金山办公软件有限公司 一种文档格式转换的方法、装置、计算机存储介质及终端
CN112069126A (zh) * 2019-06-11 2020-12-11 珠海金山办公软件有限公司 一种目录生成方法及装置
CN112686000A (zh) * 2020-12-24 2021-04-20 掌阅科技股份有限公司 电子书文档的格式转换方法、电子设备及存储介质
CN112784546A (zh) * 2020-05-09 2021-05-11 珠海金山办公软件有限公司 一种公文页码设置方法、装置、设备及存储介质
CN112965646A (zh) * 2021-03-05 2021-06-15 广州文石信息科技有限公司 一种流式文档子目录页码计算方法及装置
CN113095058A (zh) * 2021-05-08 2021-07-09 广州文石信息科技有限公司 一种流式文档翻页处理方法、装置、电子设备及存储介质
CN113239661A (zh) * 2021-04-30 2021-08-10 北京方正阿帕比技术有限公司 一种基于版流结合的多终端电子文档的编辑方法和装置
CN113515928A (zh) * 2021-07-13 2021-10-19 北京字节跳动网络技术有限公司 电子文本生成方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201817A (zh) * 2006-12-15 2008-06-18 北京北大方正电子有限公司 一种公式的排版方法
US20110119573A1 (en) * 2009-11-16 2011-05-19 Apple Inc. Supporting platform-independent typesetting for documents
CN102110108A (zh) * 2009-12-28 2011-06-29 北大方正集团有限公司 一种对小样文件的处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201817A (zh) * 2006-12-15 2008-06-18 北京北大方正电子有限公司 一种公式的排版方法
US20110119573A1 (en) * 2009-11-16 2011-05-19 Apple Inc. Supporting platform-independent typesetting for documents
CN102612690A (zh) * 2009-11-16 2012-07-25 苹果公司 支持文档的与平台无关的排版
CN102110108A (zh) * 2009-12-28 2011-06-29 北大方正集团有限公司 一种对小样文件的处理方法及装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001150A (zh) * 2019-05-27 2020-11-27 珠海金山办公软件有限公司 一种文档格式转换的方法、装置、计算机存储介质及终端
CN112069126A (zh) * 2019-06-11 2020-12-11 珠海金山办公软件有限公司 一种目录生成方法及装置
CN110705503B (zh) * 2019-10-14 2022-02-25 北京信息科技大学 生成目录结构化信息的方法和装置
CN110705503A (zh) * 2019-10-14 2020-01-17 北京信息科技大学 生成目录结构化信息的方法和装置
CN111046096A (zh) * 2019-12-16 2020-04-21 北京信息科技大学 用于生成图文结构化信息的方法和装置
CN111046096B (zh) * 2019-12-16 2023-11-24 北京信息科技大学 用于生成图文结构化信息的方法和装置
CN111090980A (zh) * 2019-12-18 2020-05-01 北大方正集团有限公司 Pdf文件的生成方法、计算机设备与可读存储介质
CN112784546A (zh) * 2020-05-09 2021-05-11 珠海金山办公软件有限公司 一种公文页码设置方法、装置、设备及存储介质
CN112784546B (zh) * 2020-05-09 2023-06-20 珠海金山办公软件有限公司 一种公文页码设置方法、装置、设备及存储介质
CN112686000A (zh) * 2020-12-24 2021-04-20 掌阅科技股份有限公司 电子书文档的格式转换方法、电子设备及存储介质
CN112965646B (zh) * 2021-03-05 2021-09-14 广州文石信息科技有限公司 一种流式文档子目录页码计算方法及装置
CN112965646A (zh) * 2021-03-05 2021-06-15 广州文石信息科技有限公司 一种流式文档子目录页码计算方法及装置
CN113239661A (zh) * 2021-04-30 2021-08-10 北京方正阿帕比技术有限公司 一种基于版流结合的多终端电子文档的编辑方法和装置
CN113095058A (zh) * 2021-05-08 2021-07-09 广州文石信息科技有限公司 一种流式文档翻页处理方法、装置、电子设备及存储介质
CN113515928A (zh) * 2021-07-13 2021-10-19 北京字节跳动网络技术有限公司 电子文本生成方法、装置、设备及介质
CN113515928B (zh) * 2021-07-13 2023-03-28 抖音视界有限公司 电子文本生成方法、装置、设备及介质

Also Published As

Publication number Publication date
CN104111922B (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
CN104111922A (zh) 一种流式文档的处理方法及装置
US8959431B2 (en) Low resolution placeholder content for document navigation
US8996981B2 (en) Managing forms in electronic documents
US7555711B2 (en) Generating a text layout boundary from a text block in an electronic document
CN101308488B (zh) 基于版式文件的文档流式信息处理方法及装置
CN110083805A (zh) 一种将Word文件转换为EPUB文件的方法及系统
US8838657B1 (en) Document fingerprints using block encoding of text
US7844898B2 (en) Exporting a document in multiple formats
KR20150091132A (ko) 페이지 렌더링 방법 및 장치
CN101271463A (zh) 版式文件逻辑结构信息的表示方法和系统
CN108399172B (zh) 一种矢量图的生成方法和装置
CN104111913B (zh) 一种流式文档的处理方法及装置
KR20150095663A (ko) E-리더에서의 플랫북에서 리치북으로의 변환 기법
CN111881651A (zh) 一种uot流式文档转换成ofd版式文档的方法
CN114330245A (zh) 一种ofd文档的处理方法及装置
US7730388B2 (en) Converting an enhanced metafile into a chronologically independent object property list for conversion into a PDF document
CN107621951B (zh) 一种视图层级优化的方法及装置
US20180330156A1 (en) Detection of caption elements in documents
CN112433995A (zh) 文件格式转换方法、系统、计算机设备及存储介质
US20120192046A1 (en) Generation of a source complex document to facilitate content access in complex document creation
US9412187B2 (en) Delayed rendering of content
KR101078477B1 (ko) Pdf 문서 생성 시 hwp 문서의 책갈피 정보를 pdf 문서에 자동으로 삽입하는 방법 및 시스템
US8578268B2 (en) Rendering electronic documents having linked textboxes
CN110362790B (zh) 字体文件的处理方法、装置、电子设备及可读存储介质
CN114048174A (zh) Ofd文档处理方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220621

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170419