CN113505566A - 一种版式文档的处理方法和装置 - Google Patents
一种版式文档的处理方法和装置 Download PDFInfo
- Publication number
- CN113505566A CN113505566A CN202110573654.3A CN202110573654A CN113505566A CN 113505566 A CN113505566 A CN 113505566A CN 202110573654 A CN202110573654 A CN 202110573654A CN 113505566 A CN113505566 A CN 113505566A
- Authority
- CN
- China
- Prior art keywords
- document
- processing
- linearization
- layout
- post
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000012545 processing Methods 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 60
- 238000007667 floating Methods 0.000 claims abstract description 53
- 238000012805 post-processing Methods 0.000 claims abstract description 24
- 238000001914 filtration Methods 0.000 claims abstract description 9
- 238000004590 computer program Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000007717 exclusion Effects 0.000 claims description 6
- 239000003550 marker Substances 0.000 claims 1
- 238000003908 quality control method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 19
- 238000013507 mapping Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 16
- 230000000694 effects Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 3
- 238000004873 anchoring Methods 0.000 description 2
- 238000013506 data mapping Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000012372 quality testing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007711 solidification Methods 0.000 description 1
- 230000008023 solidification Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
Abstract
本申请实施例提供了一种版式文档的处理方法和装置,该方法包括:对版式文档进行线性化处理,得到线性化文档;对该线性化文档进行线性化后处理,以输出待精调的流式文档;该线性化后处理包括如下一项或多项:取消文字属性、取消分栏、浮动块进主文字流、取消浮动对象属性、规范化特殊字符、规范化标点符号、规范化文字样式、处理元数据、过滤装饰性内容、展示续排内容和标记可疑信息。其中,浮动块包括处于该版式文档的章首和/或章尾的浮动块。通过对版式文档进行智能线性化处理,并进行线性化后处理,从而,在一定程度上改善数据质量,进而,减小质检人员的工作量,降低人工干预的成本。
Description
技术领域
本申请涉及数据加工领域,更为具体地,涉及一种版式文档的处理方法和装置。
背景技术
线性化是出版制作类产品的核心能力,版式文档和流式文档的相互转换必须经过线性化的处理过程。事实证明,若无人工干预,想要以版式文档为数据来源,通过线性化处理输出完美的流式文档,是很困难的。版式文档经线性化处理后还需通过人工干预来对不符合预期的内容进行手动修改或调整,因此,数据加工的效率较低。
发明内容
本申请实施例提供了一种版式文档的处理方法和装置,以期对版式文档进行智能化的处理,提高数据加工的效率。
第一方面,本申请提供了一种版式文档的处理方法,该方法可以由版式文档的处理装置来执行,该版式文档的处理装置例如可以是计算设备,或者配置于计算设备中的芯片、芯片系统等部件,本申请实施例对此不作限定。
示例性地,该方法包括:对版式文档进行线性化处理,得到线性化文档;对所述线性化文档进行线性化后处理,以输出待精调的流式文档;所述线性化后处理包括如下一项或多项:取消文字属性、取消分栏、浮动块进主文字流、取消浮动对象属性、规范化特殊字符、规范化标点符号、规范化文字样式、处理元数据、过滤装饰性内容、展示续排内容和标记可疑信息;其中,所述浮动块包括处于所述版式文档的章首和/或章尾的浮动块。
基于上述方案,通过对线性化处理后的线性化文档进行线性化后处理,对错误效果进行修正,可以在一定程度上改善数据质量,将版式文档转换为便于人工检查、调整的流式文档,为人工精细化调整提供一个入口,进而质检人员可以通过人工干预的方式对不符合预期的内容进行再次修改调整,从而,减小人工干预度,有利于提高数据加工效率。
可选地,所述线性化后处理包括标记可疑信息,所述待精调的流式文档包括用于标识所述可疑信息的标记。
可选地,所述可疑信息包括:公式中的空格,和/或,经过所述线性化处理后的浮动对象。
可选地,所述浮动对象属性包括:后移属性和/或互斥属性。
可选地,所述线性化后处理包括所述浮动块进主文字流,所述待精调的流式文档中,所述浮动块位于所述主文字流的起始位置或末尾位置。
可选地,在所述对版式文档进行线性化处理之前,该方法还包括:对所述版式文档进行预处理,以识别出线性化处理对象和线性化后处理对象;其中,所述线性化处理对象包括如下一项或多项:由零散的文字块与图组合的多个独立的浮动对象,和,未处于所述版式文档的章首和章尾的浮动块;所述线性化后处理对象包括以下一项或多项:装饰性内容,以及处于所述版式文档的章首和/或章尾的浮动块。
第二方面,提供了一种版式文档的处理装置,包括用于实现第一方面和第一方面任一项中所述的版式文档的处理方法的模块或单元。应理解,各个模块或单元可通过执行计算机程序来实现相应的功能。
第三方面,提供了一种版式文档的处理装置,包括处理器,所述处理器用于执行第一方面和第一方面任一项中所述的版式文档的处理方法。
所述装置还可以包括存储器,用于存储计算机程序和数据。所述存储器与所述处理器耦合,所述处理器执行所述存储器中存储的计算机程序时,可以实现上述第一方面描述的方法。所述装置还可以包括通信接口,所述通信接口用于该装置与其它设备进行通信,示例性的,通信接口可以是收发器、电路、总线、模块或其它类型的通信接口。
第四方面,提供了一种计算机可读存储介质,包括计算机程序,当其在计算机上运行时,使得计算机实现第一方面和第一方面任一项中所述的方法。
第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序(也可以称为代码,或指令),当所述计算机程序被运行时,使得计算机执行第一方面以及第一方面任一项中所述的方法。
应当理解的是,本申请的第二方面至第五方面与本申请的第一方面的技术方案相对应,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
附图说明
图1是本申请实施例提供的版式文档的处理方法的流程示意图;
图2是本申请实施例提供的伪成组对象线性化处理前后的示意图;
图3是本申请实施例提供的浮动对象入主文字流前后的示意图;
图4是本申请实施例提供的取消分栏和浮动块进主文字流前后的示意图;
图5是本申请实施例提供的可疑信息标记的示意图;
图6和图7是本申请实施例提供的版式文档的处理装置的示意性框图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
需要说明的是,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本申请中字符“/”,一般表示前后关联对象是“或”的关系。
在排版领域,线性化是出版制作类产品的核心能力,版式文档和流式文档的相互转换必须经过线性化的处理过程。
但现有的版式文档线性化处理技术中,版式文档经过线性化处理,再到输出流式文档,整个过程完全无人工干预,就得到一个流式文档,在这种工作模式下,数据加工环节若发现数据存在问题,只能通过手动修改后台数据,耗费人力且工作量较大,技术难度大,容易出现手误,造成不必要的重复工作。因此,数据加工的效率较低。
基于此,本申请提出一种版式文档的处理方法和装置,以期通过对版式文档进行智能线性化处理,并进行线性化后处理,对错误效果进行修正,在一定程度上改善数据质量,从而,减小人工干预度,提高数据加工的效率。
为了便于理解本申请实施例,对下文中所涉及到的术语做简单说明。
版式文档:版式文档一般包含文件描述对象、组对象、页面集合、页面对象、活动对象、图片对象及字体对象、流对象、数字对象以及引用机制等。版式文档采用一种绝对描述方式,在自定义的坐标系中,明确记录了每个文档显示的位置和尺寸等,将页面里显示的图元对象(文字、图形、图像等多种数字内容)按照一定规则进行版面固化呈现,从而使文档打印出来的结果和在计算机上浏览的结果一致,而且在任何计算机环境下具有显示一致性的特点,以保证真实地重现文档的原貌,是一种独立于软件、硬件、操作系统、呈现/打印设备的电子文档格式。版式文档的特点是版式固定、不跑版,所见即所得。版式文档主要应用于成文后文档发布、传播和存档。典型的版式文档格式有便携式文档格式(portabledocument format,PDF)以及我国自主制定的标准版式文档格式(open fixed-layoutdocument format,OFD)。版式文档用于输出的格式例如可以包括但不限于,印刷PDF、交互PDF、版式电子出版(electronic publication,ePub)和PostScript。
流式文档:流式文档一般包括元数据、式样、书签、超链接、对象、节(最大的排版单元,不同页面式样的文档内容形成不同的分节)、段落、句及其他元素和属性。这些内容按照一定的层次结构进行描述,形成流式文档格式。流式文档主要存储的是逻辑数据,流式文档存储结构化的数据有文本、文本属性、段落、段落属性、章节、章节属性、样式、表格、修订、批注等。文字内容主要借助于流式分布局进行从上到下自然排版,受不同环境影响,呈现不同排版效果。流式文档的特点是可排版,能适应当前的显示环境,在编辑、用户交流等方面优势突出。流式文档用于输出的格式例如可以包括但也不限于,Word、流式ePub、可扩展标记语言(extensible markup language,XML)和网刊。
图元:也可以称为图元块。页面元素的基本单元是图元,页面上任何对象均属于某种图元,图元可以包括文字、超链接、图形、图像、渐变、底纹。每个图元都应拥有一个绘制参数,绘制参数中可指定该图元的变换,通过变换矩阵将图元的对象空间中每个点变换到图元所在的坐标空间的点。变换矩阵可完成拉伸、旋转、平移、歪斜等效果。
元数据:也可以称为域数据。页面描述是版式文档格式的核心部分,用于描述图元块的数据可以称为元数据。版式文档的元数据可以包括但不限于版式文档中每个页面元素(即,图元或图元块)的位置、尺寸、颜色和样式等数据。应理解,元数据也可以认为是图元块的绘制参数。
元数据例如可以包括但不限于,刊号、卷号、期号、日期(例如包括接受日期、修改日期、发布日期等)、题名、主题、描述(例如包括目次、摘要、资助等)、主要责任者、其他责任者、资源类型、格式、标识符、语种、相关资源、权限、论文类型等。其中,格式具体可以是指资源的物理形态或数字表现形式,例如包括资源的媒体类型和尺寸等。浮动块:浮动块可以指在页面上没有固定位置的图元块,比如零散的文字块和图。浮动块可以包括处于章首页或章尾页的浮动块,比如页眉、页脚等;浮动块还可以包括处于文档首尾的浮动块,处于文档首尾的浮动块主要指学术期刊稿件中的首页注释区和作者传记盒子等浮动块。浮动块也可以称为浮动对象。下文中,浮动块和浮动对象交替使用,其所表达的含义可以是相同的。
下面将结合附图对本申请实施例提供的版式文档的处理方法做详细说明。
图1是适用于本申请实施例提供的版式文档的处理方法的流程示意图。应理解,图1所示的方法可以由版式文档的处理装置来执行。
为了便于理解,以下结合图1对本申请实施例提供的版式文档的处理方法进行详细说明。如图1所示,该方法100可以包括步骤110至步骤130。下面对方法100中的各个步骤做详细说明。
在步骤110中,对版式文档进行线性化处理,得到线性化文档。
应理解,在该步骤110中,对版式文档进行线性化处理后,所得到的线性文档是未经精调的流式文档。下文中为了便于区分和描述,将未经精调的文档记为线性化文档,经过精调后的文档记为流式文档。应理解,如上区分仅为便于描述而命名,不应对本申请构成任何限定。经过线性化处理后的文档均可以称为线性化文档,也可以称为流式文档。
在一种可实现的方式中,可以对版式文档和流式文档中的段落、列表、多媒体数据建立相应的映射关系。下文中分别对建立段落、列表、多媒体数据的映射关系做示例性地说明。
建立段落的映射关系:
应理解,虽然版式文档中没有“段落”的概念,但是版式文档中有“块”的概念,可以将版式文档中的块与流式文档中的段落建立相应的映射关系,再将版式文档中的块内的图元块与流式文档中的段落中的句建立映射关系,便可以确定流式文档中的段落来源于版式文档的哪部分图元块,将版式文档转化成流式文档时,可以以文档中的块内的图元块为单位,依次转化为流式文档中的段落中的句。
建立列表的映射关系:
应理解,流式文档中的列表可以理解为章节等标题,这些列表是用自动编号集表示的,每个列表项的编号由“段落属性”中的“自动编号信息”以及相关属性控制。另外,流式文档的大纲也是通过列表实现的,流式文档中对段落进行不同层次的编号,决定每个段落所在的章节层次。但在版式文档中,列表的编号和列表项的内容并没有区别,因此,在将版式文档转化为流式文档时,只能根据列表的特征(例如,“第2章列表的映射”这样的章标题,或“1版式文档线性化处理”这样的节标题,又或“2.2建立列表映射关系”这样的小节标题),识别疑似列表的图元块,计算并记录每个图元块所在页面的页码以及在页面坐标,来建立列表映射关系。还应理解,这种建立列表映射的方法可能在识别疑似列表的图元块时产生错误,导致最终建立的列表映射关系存在错误。
建立多媒体数据映射关系:
为了便于理解,以下首先对版式文档和流式文档中的多媒体数据的表示方式进行简单描述。
在版式文档和流式文档中,多媒体数据的表示方式比较接近,都是通过引用外挂多媒体文件来实现的。示例性地,在某些类型的版式文档中,每个页面可以有一个资源目录,该资源目录中可以存放该页所使用的多媒体文件,每个多媒体文件都具有文件名,在页面资源描述文件中,存在一个元素标识符指向相应的多媒体文件,在页面内容中,块中的图元块通过相应的资源的元素标识符引用具体的多媒体数据。又示例性地,在某些类型的流式文档中,所有的多媒体文件都可以保存在数据目录中,并具有相应的路径,在流式文档的对象数据集中,有唯一的标识符指向相应的多媒体文件,在流式文档内容中通过对象数据集中的标识符来引用具体的多媒体数据。
应理解,在版式文档的页面资源描述文件中资源的标识符是根据内容的出现顺序自动生成的,相应地,所引用多媒体资源的文件名也是根据上述标识符自动生成的。在流式文档中,可以根据多媒体资源来生成多媒体标识符,多媒体数据文件名和标识符都可以任意指定。因此,在对版式文档进行线性化处理时,可以先将版式文档中的资源目录下的多媒体文件拷贝到流式文档结构中的数据目录下,然后创建流式文档的数据对象文件,在对象集中按顺序定义所有的数据对象并设置标识符引用,最后,按照从前向后的顺序遍历流式文档结构中所有的段落锚点中的多媒体数据引用、综合标识符引用、数据对象等,至此版式文档和流式文档的多媒体数据映射关系建立完成。
需要说明的是,某些类型流式文档中的其他对象,例如表格、表注、页眉、页脚、图注、超链接等,与某些类型版式文档中的版块的类型有较好的对应关系,因此这些内容的映射关系较好建立,为了简洁,此处不再一一赘述。
还应理解,以上建立段落映射关系、建立列表的映射关系和建立多媒体数据映射关系的过程只是示例性的,可以以其他方式建立段落、列表和多媒体数据等的映射关系,还可以以其他的实现方式建立版式文档的图元块与流式文档的段落之间的映射关系,或者,还可以以其他的方式实现对版式文档的线性化处理,得到线性化文档,本申请对此不作任何限定。
在另一种可能的实现方式中,还可以按照就近原则,对版式文档进行线性化处理。也即,按照就近原则,将版式文档中的浮动块锚定到主文字流的适当位置,使版式文档转化成流式文档。
例如,在版式文档中若存在图片、或表格等浮动块位于某一段落之后,在进行线性化处理时,可以按照就近原则,将该浮动块锚定到此段主文字流的后面。转化而成的流式文档中,上述图片或表格等仍然位于此段落之后。
应理解,对版式文档进行线性化处理的具体过程可以参看现有技术。对于不同格式的版式文档进行线性化处理的过程也不完全相同,还应结合实际的版式文档的具体格式,比如,对PDF格式的版式文档进行线性化处理的过程与对版式ePub格式的版式文档进行线性化处理的过程不完全相同。为了简洁,这里不一一举例说明。
可选地,在步骤110之前,该方法还包括:步骤120,对版式文档进行预处理。
对版式文档进行预处理,是为了将用于后续处理的对象识别出来,例如识别出线性化处理对象,以及线性化后处理对象。
示例性地,对版式文档进行预处理,可以包括:识别出各部分图元块,或者说是,识别版式文档中的线性化处理对象;以及,识别出版式文档中的线性化后处理对象,并予以标记。
作为示例而非限定,线性化处理对象可以包括如下一项或多项:由零散的文字块与图组和的多个独立的浮动对象,和,未处于所述版式文档的章首页和章尾页的浮动块。
上述零散的文字块与图原本为独立的浮动对象,它们之间可能交叉,也可能不交叉,这些零散的浮动对象拼凑在一起,看似多个浮动对象组合在一起的图元块,可以称为伪成组对象。
此外,与文档中某部分图元块具有随后紧邻的相对关系的图元块,也可以称之为智能后移组件,和其他浮动块重叠在一起,也可以称为伪成组对象。
在本申请实施例中,通过线性化处理,可以将伪成组对象组合成一个整体,即,将伪成组对象变成真成组对象(也可以说是复合图元),作为一个整体的图元块,并将该整体的图元块嵌入到主文字流中。
应理解,真成组对象可以是指由上述零散的文字块、图等多个独立的浮动对象组合而成的独立的整体。
图2示出了伪成组对象和真成组对象。图2的a)为由多个零散的文字与图拼凑在一起的伪成组对象,为便于区分,图中通过虚线框将每一个独立的文字块和图圈出,可以看到,这些文字块和图虽然有的交叉,有的不交叉,但看起来是一个整体,故为伪成组对象。图2的b)为上述多个零散的文字与图经过线性化处理后,得到的真成组对象,为便于区分,图中通过虚线框将真成组对象圈出。
作为示例而非限定,线性化后处理对象包括以下一项或多项:装饰性内容,以及处于版式文档的章首和/或章尾的浮动块。
其中,装饰性内容可以指版式文档中未达到某种版面效果,也或者是可能是手误,增加的浮动图元块,例如空白页等。在流式文档中,不需要这些装饰内容。在对版式文档进行线性化后处理时,可以先将这些装饰性内容识别并标记出来,以便在后续精调处理环节将这些装饰性内容进行删除处理。
处于版式文档的章首和/或章尾的浮动块是需要强制锚定到主文字流首尾的浮动块。通常情况下,处于版式文档的章首和/或章尾的浮动块,主要包括学术期刊稿件中的首页注释区和作者传记盒子等浮动块,这类浮动块在对版式文档进行线性化预处理时,进行识别并标记出来,在对版式文档进行线性化处理时,不将这些浮动块锚定到主流文字中,而是在后续的线性化后处理中,将这些浮动块锚定到主流文字的起始位置或者末尾位置。
图3示出了浮动对象入主文字流的前后对比效果图。如图3所示,浮动对象在图中以虚线框圈出。其中,图3的a)为浮动对象在线线性化处理前在版式文档中的位置示意图;图3的b)为浮动对象在线性化处理后在流式文档中的位置示意图。
在步骤130中,对线性化文档进行线性化后处理,以输出待精调的流式文档。
示例性地,对上述步骤中得到的线性化文档进行线性化后处理可以包括如下一项或多项:取消文字属性、取消分栏、浮动块进主文字流、取消浮动对象属性、规范化特殊字符、规范化标点符号、规范化文字样式、处理元数据、过滤装饰性内容、展示续排内容和标记可疑信息。应理解,上述“浮动块进主文字流”中的浮动块包括处于所述版式文档的章首页和/或章尾页的浮动块。该浮动块在步骤120中被识别和标识出来,且未经过线性化处理。
其中,取消文字属性可以指取消禁止背题和段落中各行的同栏属性。其中,禁止背题属性是指标题的禁止背题属性,标题禁止背题是指,必须避免标题排在页末,而造成的标题与正文分排在两个页面上的情况。
取消分栏可以指将版式文档中设置的流式分栏效果取消掉,变成通栏效果。
浮动块进主文字流可以指将章首浮动块锚定到主文字流起始位置或末尾位置,和/或将章尾浮动块锚定到主文字流的起始位置或末尾位置。应理解,这些浮动块是指位于主文字流的起始位置或末尾位置的浮动块。也即在预处理过程中识别和标记出的精调处理对象的一例。
图4是取消分栏和浮动块进主文字流的前后效果图。其中,左图所示为取消分栏前和首页注释区(即,上述位于主文字流的末尾位置的浮动块的一例)进主文字流之前的页面。其中,主文字流在文档中被分为左右两栏,注释区位于章尾,以虚线框内圈出。右图所示为取消分栏后和首页注释区进主文字流后该页面的示意图。可以看到,主文字流已取消分栏,页面中的文字由图4中的左图中的两栏变为了图4中右图中的一栏,或者说是通栏;首页注释区所在位置在精调处理后发生了改变。
其中,取消浮动对象的智能后移属性,可以使浮动对象回到锚定点所在的段落的后面,并插入换段符使该浮动对象独立成段,从而让线性结果更加直观,易于判断和修正。
取消移动对象的互斥属性,可以避免多个浮动对象互斥,从而可以将多个浮动对象组合成一个独立的浮动块,如上文所示的真成组对象。
例如,在上文结合图2和图3描述的线性化处理后,可以取消浮动对象的智能后移属性和互斥属性。
规范化特殊字符可以指空格字符规范化处理,例如调整成Word中能够识别的空格字符。
规范化标点符号可以指中英文标点符号统一化调整,在中文文字风格的内容范围内,将英文标点符号统一转换为中文风格;在英文风格的内容范围内,将中文标点符号统一转换为英文风格。
规范化文字样式可以指统一文档中的文字的字体、字号、颜色等文字样式属性。
处理元数据主要是针对于处理学术期刊的特有功能,主要可以包括过滤标题中的换行符和换段符、补充元数据的前缀、过滤元数据中的空格、调整元数据的顺序、部分需要独立成段的元数据信息独立成段、取消元数据伴随阵列信息等。
过滤装饰性内容可以指将线性化预处理时标记出来的装饰性内容进行删除处理。
展示续排内容可以指由于版式文档转化成流式文档的过程中一些排版样式和属性的取消,流式文档对文档内容的呈现页数可能会多于版式文档原有的页数,因此超过版式文档原有页面数的那部分内容会通过自动加页的方式展示出来。
示例性地,标记可疑信息可以包括标记可疑浮动块和/或标记可疑字符。应理解,可疑浮动块具体可以是指,经过线性化处理后的浮动块回到主文字流中的位置可能不正确的浮动块,将这些可疑浮动块用带颜色的标记框或者标记符号标记出来,以供用户进行后续的手工精调作为参考。可疑字符主要针对公式里的空格,公式里的这些空格在版式文档的布局排版效果中是有用的,但流式文档中的公式里的空格是多余的,可疑用带颜色的标记框或者标记符号将这些空格标记出来,以供用户进行后续的手工精调判断是否删除这些空格。
图5是可疑信息标记的示意图。其中,图5的a)为经过线性化后处理后标记出的可疑浮动块的示意图;图5的b)为经过线性化后处理后标记出的可疑字符的效果示意图。
应理解,对线性化文档进行线性化后处理,可以输出待精调的流式文档,对该流式文档进行精调,可以得到完美的流式文档。可以理解,线性化后处理是为后续的精调做准备,因此线性化后处理也可以称为精调预处理。
基于上述方案,通过对线性化处理后的线性化文档进行线性化后处理,对错误效果进行修正,可以在一定程度上改善数据质量,将版式文档转换为便于人工检查、调整的流式文档,为人工精细化调整提供一个入口,进而质检人员可以通过人工干预的方式对不符合预期的内容进行再次修改调整,从而,减小人工干预度,有利于提高数据加工效率。同时,也可以减小质检人员的工作量,降低人工干预的成本。
需要说明的是,上文结合图2至图5所示的多个效果对比图为执行本申请提供的版式文档的处理方法前后的效果对比图,因此,在图3、图4中也可以看到取消分栏的效果,但这不应对本申请构成任何限定。
图6是本申请实施例提供的版式文档的处理装置的示意性框图。如图6所示,该装置600可以包括:处理单元610和输出单元620。其中,该处理单元610可用于对版式文档进行线性化处理,得到线性化文档;对所述线性化文档进行线性化后处理,以输出待精调的流式文档;所述线性化后处理包括如下一项或多项:取消文字属性、取消分栏、浮动块进主文字流、取消浮动对象属性、规范化特殊字符、规范化标点符号、规范化文字样式、处理元数据、过滤装饰性内容、展示续排内容和标记可疑信息;其中,所述浮动块包括处于所述版式文档的章首和/或章尾的浮动块。该输出单元620可用于输出待精调的流式文档。
可选地,该处理单元610具体可用于标记可疑信息,所述待精调的流式文档包括用于标识所述可疑信息的标记。
可选地,所述可疑信息包括:公式中的空格,和/或,经过所述线性化处理后的浮动对象。
可选地,所述浮动对象属性包括:后移属性和/或互斥属性。
可选地,该处理单元610具体可用于浮动块进主文字流,所述待精调的流式文档中,所述浮动块位于所述主文字流的起始位置或末尾位置。
可选地,该处理单元610具体可用于对所述版式文档进行预处理,以识别出线性化处理对象和线性化后处理对象;其中,所述线性化处理对象包括如下一项或多项:由零散的文字块与图组合的多个独立的浮动对象,和,未处于所述版式文档的章首和章尾的浮动块;所述线性化后处理对象包括以下一项或多项:装饰性内容,以及处于所述版式文档的章首和/或章尾的浮动块。
应理解,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
图7是本申请实施例提供的版式文档的处理装置的另一示意性框图。该装置可用于实现上述方法中处理单元610和输出单元620的功能。其中,该装置可以为芯片系统。本申请实施例中,芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。
如图7所示,该装置700可以包括至少一个处理器710,用于实现本申请实施例提供的方法中版式文档的处理的功能。示例性地,处理器710可用于对版式文档进行线性化处理,得到线性化文档;对所述线性化文档进行线性化后处理,以输出待精调的流式文档;所述线性化后处理包括如下一项或多项:取消文字属性、取消分栏、浮动块进主文字流、取消浮动对象属性、规范化特殊字符、规范化标点符号、规范化文字样式、处理元数据、过滤装饰性内容、展示续排内容和标记可疑信息;其中,所述浮动块包括处于所述版式文档的章首和/或章尾的浮动块。具体参见方法示例中的详细描述,此处不做赘述。
该装置700还可以包括至少一个存储器720,用于存储程序指令和/或数据。存储器720和处理器710耦合。本申请实施例中的耦合是装置、单元或模块之间的间接耦合或通信连接,可以是电性,机械或其它的形式,用于装置、单元或模块之间的信息交互。处理器710可能和存储器720协同操作。处理器710可能执行存储器720中存储的程序指令。所述至少一个存储器中的至少一个可以包括于处理器中。
该装置700还可以包括通信接口730,用于通过传输介质和其它设备进行通信,从而用于装置700中的装置可以和其它设备进行通信。所述通信接口730例如可以是收发器、接口、总线、电路或者能够实现收发功能的装置。处理器710可利用通信接口730收发数据和/或信息,并用于实现图1对应的实施例的方法。
本申请实施例中不限定上述处理器710、存储器720以及通信接口730之间的具体连接介质。本申请实施例在图7中以处理器710、存储器720以及通信接口730之间通过总线740连接。总线740在图7中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本申请还提供一种计算机程序产品,所述计算机程序产品包括:计算机程序(也可以称为代码,或指令),当所述计算机程序被运行时,使得计算机执行图1所示实施例的方法。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序(也可以称为代码,或指令)。当所述计算机程序被运行时,使得计算机执行图1所示实施例的方法。
应理解,本申请实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(directrambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本说明书中使用的术语“单元”、“模块”等,可用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block)和步骤(step),能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。在本申请所提供的几个实施例中,应该理解到,所揭露的装置、设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,各功能单元的功能可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令(程序)。在计算机上加载和执行所述计算机程序指令(程序)时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种版式文档的处理方法,其特征在于,包括:
对版式文档进行线性化处理,得到线性化文档;
对所述线性化文档进行线性化后处理,以输出待精调的流式文档;所述线性化后处理包括如下一项或多项:取消文字属性、取消分栏、浮动块进主文字流、取消浮动对象属性、规范化特殊字符、规范化标点符号、规范化文字样式、处理元数据、过滤装饰性内容、展示续排内容和标记可疑信息;其中,所述浮动块包括处于所述版式文档的章首和/或章尾的浮动块。
2.如权利要求1所述的方法,其特征在于,所述线性化后处理包括标记可疑信息,所述待精调的流式文档包括用于标识所述可疑信息的标记。
3.如权利要求2所述的方法,其特征在于,所述可疑信息包括:公式中的空格,和/或,经过所述线性化处理后的浮动对象。
4.如权利要求1所述的方法,其特征在于,所述浮动对象属性包括:后移属性和/或互斥属性。
5.如权利要求1或2所述的方法,其特征在于,所述线性化后处理包括所述浮动块进主文字流,所述待精调的流式文档中,所述浮动块位于所述主文字流的起始位置或末尾位置。
6.如权利要求1或2所述的方法,其特征在于,在所述对版式文档进行线性化处理之前,所述方法还包括:
对所述版式文档进行预处理,以识别出线性化处理对象和线性化后处理对象;其中,所述线性化处理对象包括如下一项或多项:由零散的文字块与图组合的多个独立的浮动对象,和,未处于所述版式文档的章首和章尾的浮动块;所述线性化后处理对象包括以下一项或多项:装饰性内容,以及处于所述版式文档的章首和/或章尾的浮动块。
7.一种版式文档的处理装置,其特征在于,包括用于实现如权利要求1至6中任一项所述的方法的单元。
8.一种版式文档的处理装置,其特征在于,包括处理器,所述处理器用于执行权利要求1至6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,包括计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行权利要求1至6中任一项所述的方法。
10.一种计算机程序产品,其特征在于,包括计算机程序,当所述计算机程序被运行时,使得计算机执行如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110573654.3A CN113505566A (zh) | 2021-05-25 | 2021-05-25 | 一种版式文档的处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110573654.3A CN113505566A (zh) | 2021-05-25 | 2021-05-25 | 一种版式文档的处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113505566A true CN113505566A (zh) | 2021-10-15 |
Family
ID=78008574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110573654.3A Pending CN113505566A (zh) | 2021-05-25 | 2021-05-25 | 一种版式文档的处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505566A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984491A (zh) * | 2018-07-18 | 2018-12-11 | 沈文策 | 一种文档格式转换的方法和装置 |
CN109308346A (zh) * | 2018-08-10 | 2019-02-05 | 四川译讯信息科技有限公司 | 一种在线图文转换平台 |
CN112632915A (zh) * | 2020-12-25 | 2021-04-09 | 万兴科技(湖南)有限公司 | 文档转换方法、装置、计算机设备及存储介质 |
-
2021
- 2021-05-25 CN CN202110573654.3A patent/CN113505566A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984491A (zh) * | 2018-07-18 | 2018-12-11 | 沈文策 | 一种文档格式转换的方法和装置 |
CN109308346A (zh) * | 2018-08-10 | 2019-02-05 | 四川译讯信息科技有限公司 | 一种在线图文转换平台 |
CN112632915A (zh) * | 2020-12-25 | 2021-04-09 | 万兴科技(湖南)有限公司 | 文档转换方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2691873B1 (en) | Techniques to create structured document templates using enhanced content controls | |
EP1672524B1 (en) | Systems and methods for converting a formatted document to a web page | |
US7716574B2 (en) | Methods and systems for providing direct style sheet editing | |
AU2012207560B2 (en) | Storage of a document using multiple representations | |
US8155444B2 (en) | Image text to character information conversion | |
CN101937427B (zh) | 一种基于浏览器的内容编辑及发布的系统及方法 | |
US7337393B2 (en) | Methods and systems for providing an editable visual formatting model | |
US20120079374A1 (en) | Rendering web page text in a non-native font | |
US20060224952A1 (en) | Adaptive layout templates for generating electronic documents with variable content | |
CN102779118B (zh) | 一种论文的排版方法及系统 | |
US10049095B2 (en) | In-context editing of output presentations via automatic pattern detection | |
WO2011069171A2 (en) | Remote batch editing of formatted text via an html editor | |
JP2009522626A (ja) | コンピュータの組版ファイルを作成及び開く方法 | |
US20150199422A1 (en) | Universal text representation with import/export support for various document formats | |
CN104111922A (zh) | 一种流式文档的处理方法及装置 | |
US20150347353A1 (en) | Document layering platform | |
US7287219B1 (en) | Method of constructing a document type definition from a set of structured electronic documents | |
CN105512096B (zh) | 一种基于文档中内嵌字体的优化方法及装置 | |
US8185820B1 (en) | System and/or method for document generation | |
CN113505566A (zh) | 一种版式文档的处理方法和装置 | |
KR20140096225A (ko) | 인터랙티브 멀티미디어 전자책 저작 장치 및 방법 | |
KR20230069374A (ko) | 어도비 인디자인 전자편집(dtp) 프로그램을 이용한 이미지 자동배치 및 실행방법 | |
Krause et al. | CSS: Cascading Style Sheets | |
US20130031460A1 (en) | Using a common input/output format to generate a page of an electronic document | |
Thomas et al. | Enhancing composite digital documents using xml-based standoff markup |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |