CN102103574A - 一种格式化输出书版小样文件内容的方法及系统 - Google Patents

一种格式化输出书版小样文件内容的方法及系统 Download PDF

Info

Publication number
CN102103574A
CN102103574A CN2009102428342A CN200910242834A CN102103574A CN 102103574 A CN102103574 A CN 102103574A CN 2009102428342 A CN2009102428342 A CN 2009102428342A CN 200910242834 A CN200910242834 A CN 200910242834A CN 102103574 A CN102103574 A CN 102103574A
Authority
CN
China
Prior art keywords
format
output
tree structure
content
book version
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009102428342A
Other languages
English (en)
Other versions
CN102103574B (zh
Inventor
严昌华
缪萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN2009102428342A priority Critical patent/CN102103574B/zh
Publication of CN102103574A publication Critical patent/CN102103574A/zh
Application granted granted Critical
Publication of CN102103574B publication Critical patent/CN102103574B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明属于内容输出技术领域,具体公开了一种格式化输出书版小样文件内容的方法,包括下述步骤:1)读取书版小样文件内容,并基于所读取的书版小样文件内容而构建逻辑树结构;2)基于逻辑树结构而构建标签树结构;3)基于标签树结构和逻辑树结构而形成后端输出所需要的格式化文档,并根据需要输出所述格式化文档。此外,本发明还提供一种格式化输出书版小样文件内容的系统。本发明提供的系统和方法能够对书版小样文件进行良好解析、合理组织,使得欲输出的书版小样文件内容中的特殊格式内容能够在后端输出过程中保留原始意义,从而使对书版小样内容进行结构组织后将其转化为其他类型的文档并输出成为可能。

Description

一种格式化输出书版小样文件内容的方法及系统
技术领域
本发明涉及内容输出技术领域,具体而言,涉及一种格式化输出书版小样文件内容的方法及系统。
背景技术
现有技术中,书版小样文件通常是借助于书版程序的排版引擎,并按照书版小样中定义的规范而输出到诸如显示器、打印机或印刷机等输出设备。其中,书版小样文件中包含各类特殊的格式内容,目前能够将这样的书版小样文件内的格式化内容按照原始意义正确呈现的方式,只有通过书版的排版引擎。
然而,随着技术的进步,对于书版小样文件内容的其他形式的输出要求越来越强烈,例如,目前就迫切需要以书籍方式输出或者以数据库的形式输出书版小样内容。但是,现有技术中还没有一种行之有效的方法能够完好地解析书版小样文件(特别是其所包含的诸如公式、分数式、上/下标、多行图说内容等的特殊格式信息),因而使得即便得到了书版内容,也因没有一种合理的处理流程来将得到的内容进行有效组织,而使得不能在后端正确呈现该书版小样内容。换言之,目前还没有能够对书版小样文件进行良好解析、合理组织并便于在后端正确呈现的方法。
发明内容
为解决上述技术问题,本发明提供了一种格式化输出书版小样文件内容的方法及系统,其能够对书版小样文件进行良好解析、合理组织,从而可在后端输出中提供一种结构化的输出方式,进而完成书版小样文件内容的格式化输出效果。
为此,本发明提供了一种格式化输出书版小样文件内容的方法,包括下述步骤:1)读取书版小样文件内容,并基于所读取的书版小样文件内容而构建逻辑树结构;2)基于逻辑树结构而构建标签树结构;3)基于标签树结构和逻辑树结构而形成后端输出所需要的格式化文档,并根据需要输出所述格式化文档。
其中,在所述步骤1)中,提取书版小样文件内容,并按照段落组织构建逻辑树结构,所述逻辑树结构包括段落正文内容和与正文内容有关的格式信息。
其中,在所述逻辑树结构中,每一段落可划分为若干格式片断,其中的每一格式片断包含相应的具体格式信息。
其中,在所述步骤2)中,根据需要输出的内容,按照匹配规则自动或者手动提取相关信息,以便对逻辑树结构中的相关信息进行处理而生成有关所述输出内容的标签树结构。
其中,在所述标签树结构中,普通文字内容可以直接从逻辑树结构中获得,而对于无法按普通文字组织的特殊格式信息,则在提取的文字内容上下文关系中用特殊格式助记符表示,并且每一个特殊助记符对应逻辑树结构上相应段落内的特殊格式片断记录。
其中,在所述步骤3)中,若遇到普通文字内容,则直接输出该普通文字内容以构成后端输出所需要的格式化文档。若遇到由特殊格式助记符标示的内容,则根据该助记符在相应段落的位置到逻辑树结构中查找相应的特殊格式片断,并且对后端输出引擎可以处理的特殊格式片断,提取和组织具体格式信息,以在后端输出引擎中按照结构化的内容进行格式化输出;对后端输出引擎无法处理的特殊格式片断,根据特殊格式片断记录中所提取的信息构建合法的书版小样片断,利用书版的发排引擎将其输出为图片文件,以在后端输出引擎中的相应部位插入该图片文件。
其中,所述步骤3)具体包括下述步骤:31)在标签树结构中读取格式分块。32)判断所读取的格式分块是否为普通文字,若是,则直接输出该文字内容;若否,则转到步骤33)。33)检索逻辑树结构,以找到该格式分块所对应的位置。34)判断相应位置的格式片断是否可以解析,若是,则转到步骤35;若否,则转到步骤36)。35)判断所述格式片断中的格式信息是否为特定格式信息,若是,则以该特定格式输出相应内容;若否,则输出占位符。36)将所述格式片断作为书版小样片断提取出来,并将所提取的书版小样片断生成图片。37)输出步骤36)中所生成的图片。重复上述步骤31)至步骤37),直至标签树结构中的全部内容输出完毕。
其中,所述特殊格式信息包括但不限于数学公式和/或分数式和/或上下标和/或补字处理格式信息和/或多行图说内容格式信息。
此外,本发明提供一种格式化输出书版小样文件内容的系统,包括下述单元:书版小样读取单元,用于读取书版小样文件内容;逻辑树结构构建单元,用于基于所读取的书版小样文件内容而构建逻辑树结构;标签树结构构建单元,用于基于逻辑树结构而构建标签树结构;以及格式化及输出单元,用于基于标签树结构和逻辑树结构而形成后端输出所需要的格式化文档,并根据需要输出所述格式化文档。
其中,在所述逻辑树结构中,每一段落可划分为若干格式片断,其中的每一格式片断包含相应的具体格式信息。
其中,所述标签树结构构建单元按照匹配规则自动或者手动提取相关信息,以便对逻辑树结构中的相关信息进行处理而生成有关所述输出内容的标签树结构。
其中,在所述标签树结构中,普通文字内容可以直接从逻辑树结构中获得,而对于无法按普通文字组织的特殊格式信息,则在提取的文字内容上下文关系中用特殊格式助记符表示,并且每一个特殊助记符对应逻辑树结构上相应段落内的特殊格式片断记录。
其中,格式化及输出单元在进行格式化和输出时,若遇到普通文字内容,则直接输出该普通文字内容以构成后端输出所需要的格式化文档。若遇到由特殊格式助记符标示的内容,则根据该助记符在相应段落的位置到逻辑树结构中查找相应的特殊格式片断,并且对后端输出引擎可以处理的特殊格式片断,提取和组织具体格式信息,以在后端输出引擎中按照结构化的内容而格式化输出;对后端输出引擎无法处理的特殊格式片断,根据特殊格式片断记录中所提取的信息构建合法的书版小样片断,利用书版的发排引擎将其输出为图片文件,以在后端输出引擎中的相应部位插入该图片文件。
其中,所述特殊格式信息包括但不限于数学公式和/或分数式和/或上下标和/或补字处理格式信息和/或多行图说内容格式信息。
相对于现有技术,本发明具有下述有益效果:
本发明提供的格式化输出书版小样文件内容的方法及系统,由于可根据书版小样文件内容而构建逻辑树结构,并可基于预定规则和逻辑树结构而构建标签树结构,因而使得欲输出的书版小样文件内容(特别是其中的特殊格式内容)能够在后端输出过程中保留原始意义(例如,原有的内容和格式),从而使对书版小样内容进行结构组织后将其转化为其他类型的文档并进行输出成为可能。
附图说明
图1是本发明所涉及的书版小样文件的逻辑树结构示意图;
图2是本发明所涉及的标签树结构示意图;
图3是本发明一个具体实施例提供的格式化输出书版小样文件内容的方法流程示意图;以及
图4是本发明一个具体实施例所涉及的书版特殊结构内容的输出流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的技术方案,下面结合实施例和附图对本发明提供的格式化输出书版小样文件内容的方法及系统进行详细描述。
首先需要说明的是,在本发明提供的格式化输出书版小样文件内容的方法及系统中,需要构建逻辑树结构和标签树结构。下面结合图1和图2详细说明逻辑树结构和标签树结构。
请参阅图1,其中示出了根据书版小样内容而构建的逻辑树结构。所谓书版,指的是一种通过在正文中插入格式信息(注解命令)的可编辑文本文件。通常,逻辑树结构是按照段落(亦称为Para)来对书版小样文件的内容进行组织的,其中,每个段落又可划分为一个个格式片断(亦称为Range),每个格式片断中包含有具体的格式信息(亦称为Style)。例如,在图1所示的逻辑树结构中,包含有段落1至段落n的正文内容,并且对于段落1又划分为格式片断1、格式片断2和格式片断3,其中包含有与正文内容有关的字体、字号、行距等格式信息。
事实上,对于书版小样内容的格式化输出必须先将书版小样文件中的内容按照段落组织,并按照注解命令进行拆分,以形成图1所示的顺序排列的逻辑树结构。在所述逻辑树结构中,每个段落内记录有特殊格式片断信息的位置和相关内容。
请参阅图2,其中示出了基于逻辑树结构而构建形成的标签树结构。该标签树结构由层次化组织的一个个标签构成,每个标签的内容从逻辑树结构中提取,表示为包含助记符的一个文本串。其中,普通文字内容可以直接从逻辑树结构中获得(图2中以“□”表示);对于无法按普通文字组织的诸如上/下标、分数式、数学公式、补字处理格式信息、多行图说内容格式信息等的特殊格式信息,则在提取的文字内容上下文关系中用特殊格式助记符表示(例如,图2中以“*”表示,当然在实际应用中并不限于该符号),并且每一个特殊助记符对应于逻辑树结构上相应段落内的特殊格式片断。
需要指出的是,上述补字处理指的是当需要输出现有标准字库中不存在的文字/字符时,可以根据预先设定规则和预留位置向现有字库中补充添加该文字/字符。例如,在书版这个软件开始应用的早期,因汉字的数量非常庞大,而国内计算机还不十分普及,汉字编码的规范和汉字字符集都很少,很多汉字都没有对应的编码字符,当时书版就提供了这种补字工具,即,利用设定的一段编码范围、采用方正的字库中的区间而给用户预留了编辑字体的能力。这些由客户创制的,针对客户排版书籍的内容就是补字。补字编码在书版小样中,仅是针对客户的小样文件以及客户补字的编码和补字文件。因而在实际应用中,有关上述补字内容的结构化处理的提取/利用就可以采用前述特殊格式信息的方式来处理。
进一步需要指出的是,上述多行图说内容指的是在书版文件中对图片进行说明时包含有多行说明内容,例如,图说内容包含有一些介绍性的文字(如“a.xxxx b.xxxxx”,在此,a、b对应于图片所示器件的某些部位的说明),这部分图说内容在书版中可能使用一个子排版区间来排版,这样,该图说内容中没有换行、换段符,但是通过排版引擎却能够实现自动换行,并且每一行内容表达的是具体信息,此时,若要表示这类多行图说的不同行之间的分别,则可以采用这样一种方法,即,通过排版引擎得到换行位置,并在换行位置插入特殊格式信息,后端输出时根据这些特殊格式信息来得到多行图说内容的本义。由此可见,在实际应用中,有关多行图说内容的格式信息也可以采用前述特殊格式信息的方式来处理。
请参阅图3,其中示出了本发明提供的格式化输出书版小样文件内容的方法的一个具体实施例。
在本实施例的步骤310中,解析书版小样文件,以提取书版小样文件内容。在此,所谓书版指的是一种通过在正文中插入格式信息(例如,注解命令)的可编辑文本文件。在实际应用中,通过书版程序解析这些正文和注解命令,并借助于后端发排引擎将解析后的内容形成排版结果,即可用于成品印刷。
步骤320,基于步骤310中所提取的书版小样内容,按照段落组织形成类似于图1所示的顺序排列的包含有结构内容信息的逻辑树结构。
具体地,在由书版小样构建逻辑树结构的过程中,基于书版小样中各个原始段落分割注解划分段落。对于段落中的普通文字内容,按照字体、字号等格式命令划分各个格式片断,每个格式片断中包含具体的格式信息。
步骤330,遍历上述逻辑树结构,根据需要输出的内容,按照匹配规则自动或者手动提取相关信息,以便对逻辑树结构中的相关信息进行处理而生成有关输出内容的标签树结构。
事实上,尽管步骤320所构建的逻辑树结构能够体现文章段落层次和与文本内容有关的字体、字号、行距等格式信息,但是其并不能表达书籍原文的章节、知识点等文章结构信息,所以需要进一步采用手动标引的方式,或者通过对逻辑树结构中具有同一格式信息、段落中具有类似正则表达式关系的内容进行检索和匹配等方式,从已形成的逻辑树结构中提取出需要输出的内容,形成如图2所示的标签树结构。
具体地,通过遍历逻辑树结构,在逻辑树结构中确定符合上述预定规则的正文内容,并提取出符合预定规则的正文内容;而后,基于该正文内容在逻辑树结构中的位置同规则中确定的标签类型之间的逻辑关系,形成标签树结构。该标签树结构体现了后面格式化输出所需要的结构内容信息,其目的在于实现对于书籍内容的后端应用。
步骤340,根据需要输出的标签类型和输出的形式,设定具体的模板,按照模板中的设定有选择的输出标签树结构内容,形成中间文档,而后将上述中间文档内容进行格式转化,保存成各类后端需求的文件格式,例如PPT文件格式、PDF文件格式或DOC文件格式等。在此,中间文档的作用是为了满足多渠道输出的需要。
在对已形成的标签树结构进行输出的过程中,若遇到普通文字内容,则以正常文字文本输出;若遇到由特殊格式助记符标示的内容时,则按照该助记符在段落的位置到逻辑树中找到相应记录。通过对于该特殊格式片断记录内容的解析,形成后端输出所需要的格式化结果。
步骤350,根据输出要求输出已保存为所需文件格式的文档。
下面以图4所示流程为例,详细说明如何基于标签树结构输出文档。首先进入步骤410,基于标签树结构并根据助记符将标签内容拆分成一系列片断数组。
步骤420,读取格式分块。事实上,输出标签内容的流程就是遍历这一系列片断数组的过程。
步骤430,判断所读取的格式分块是否为普通文字,若是,则转到步骤440;若否,则转到步骤450。
步骤440,以正常文本输出模式来输出该文字内容。
步骤450,检索逻辑树结构,以查找到该格式分块在其中的相应位置。
步骤460,判断相应位置的格式片断是否可以解析,若是,则转到步骤470;若否,则转到步骤500。
步骤470,继续判断其中的格式信息是否为特定格式信息,若是,则转到步骤480;若否,则转到步骤490。其中,特定格式信息为预先确定的非普通文字格式的信息,例如可以包括上/下标、数学公式、分数式(如,1/3)、正/斜体等。
步骤480,输出相应的格式内容,即,当确定该格式片断中的格式信息为上/下标时,则根据将该部分内容以上/下标这样的形式输出;当确定该格式片断中的格式信息为正/斜体时,则根据将该部分内容以正/斜体这样的形式输出。
步骤490,仅输出占位符。
步骤500,在确定相应位置的格式片断不可以解析时,将该格式片断相应内容以书版小样片断的形式提取出来。
步骤510,对所提取的书版小样片断进行处理以生成图片。
步骤520,输出步骤510中所生成的图片,即,将该格式片断相应内容以图片的形式输出。
重复上述步骤410至步骤520,直至遍历了标签树结构中的全部内容,这样即对标签树结构中的全部内容都进行了输出。
在实际应用中,对于结构化内容的后端输出可以采用流式,也可以采用块式。输出的结果也是结构化的,可以转化为其他的文档格式。
下面以书版原始文本中所包含的一段内容“方程式E=mC2中的C2”为例,对本发明提供的格式化输出书版小样文件内容的方法进行详细说明。
首先,读取书版小样文件。上述原始文本中的内容在书版小样文件中表示为“方程式◎E=mC↑2◎中的C↑2”,对于该内容可以采用下述方式解析:其一,对于普通文字“方程式”和“中的”,直接解析为原文字内容;其二,对于两个◎符号之间所包含的内容“E=mC↑2”,由于其属于复杂格式,无法解析成格式内容,除了书版采用排版引擎,后端无法正常输出,在实际输出过程中需要转换成图片;其三,对于“C↑2”,可以将其解析为上标格式,以在后续程序中由后端引擎输出。
然后,根据解析的内容构建逻辑树结构。在该逻辑树结构中,上述处于同一段落中的文字内容被划分为“方程式”、“◎E=mC↑2◎”、“中的”和“C↑2”4个格式片断文本。
再后,遍历逻辑树结构,形成相应标签树结构,即,“方程式#中的#”,其中的“#”表示特殊助记符。
最后,根据输出要求并基于上述标签树结构而输出相应文档。具体地,根据图4所示输出流程而输出相应文档,即,当遇到诸如“方程式”和“中的”等普通文字时,就直接输出该文字内容;当遇到助记符“#”时,就根据助记符的位置,到逻辑树结构中查找对应的格式片断信息,并且在根据逻辑树结构中的格式片断信息判断格式片断是否可解析。一方面,当判断出格式片断可解析时,继续判断格式片断信息中是否包含特殊格式的类型,若是,则根据相应类型,提取有关内容,并采取预先定义好的不同的输出模式来输出有关内容,例如,对于“C↑2”,可以解析为底字符“C”和上标字符“2”,于是根据预先定义的输出模式而在后端以C2这样的形式输出该有关内容。另一方面,当判断出格式片断(例如“◎E=mC↑2◎”)不可解析时,则基于逻辑树结构来构建有关该无法解析的格式片断的信息的合法书版小样片断,并由书版的发排引擎输出片断图片,再将生成的片断图片输出,换言之,以图片的形式输出不可解析的内容“E=mC↑2”。
此外,本发明还提供一种格式化输出书版小样文件内容的系统,包括下述单元:书版小样读取单元,用于读取书版小样文件内容;逻辑树结构构建单元,用于基于所读取的书版小样文件内容而构建逻辑树结构;标签树结构构建单元,用于基于逻辑树结构而构建标签树结构;以及格式化及输出单元,用于基于标签树结构和逻辑树结构而形成后端输出所需要的格式化文档,并根据需要输出所述格式化文档。
在实际应用中,逻辑树结构中的每一段落可划分为若干格式片断,其中的每一格式片断包含相应的具体格式信息。
标签树结构构建单元按照匹配规则自动或者手动提取相关信息,以便对逻辑树结构中的相关信息进行处理而生成有关所述输出内容的标签树结构。并且在所述标签树结构中,普通文字内容可以直接从逻辑树结构中获得,而对于无法按普通文字组织的特殊格式信息,则在提取的文字内容上下文关系中用特殊格式助记符表示,并且每一个特殊助记符对应逻辑树结构上相应段落内的特殊格式片断记录。
格式化及输出单元在进行格式化和输出时,若遇到普通文字内容,则直接输出该普通文字内容以构成后端输出所需要的格式化文档。若遇到由特殊格式助记符标示的内容,则根据该助记符在相应段落的位置到逻辑树结构中查找相应的特殊格式片断,并且对后端输出引擎可以处理的特殊格式片断,提取和组织具体格式信息,以在后端输出引擎中按照结构化的内容而格式化输出;对后端输出引擎无法处理的特殊格式片断,根据特殊格式片断记录中所提取的信息构建合法的书版小样片断,利用书版的发排引擎将其输出为图片文件,以在后端输出引擎中的相应部位插入该图片文件。
需要指出的是,本发明中所涉及的特殊格式信息指的是书版小样文件中所包含的无法像普通文字内容那样可以用文本来简单表达的内容,例如,公式、上下标、分数式、补字、多行图说等信息。至于上述各个单元的工作原理和过程,类似于前面结合格式化输出书版小样文件内容的方法所作的说明,在此不再赘述。
还需要指出的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (14)

1.一种格式化输出书版小样文件内容的方法,其特征在于,包括下述步骤:
1)读取书版小样文件内容,并基于所读取的书版小样文件内容而构建逻辑树结构;
2)基于逻辑树结构而构建标签树结构;
3)基于标签树结构和逻辑树结构而形成后端输出所需要的格式化文档,并根据需要输出所述格式化文档。
2.根据权利要求1所述的格式化输出书版小样文件内容的方法,其特征在于,在所述步骤1)中,提取书版小样文件内容,并按照段落组织构建逻辑树结构,所述逻辑树结构包括段落正文内容和与正文内容有关的格式信息。
3.根据权利要求2所述的格式化输出书版小样文件内容的方法,其特征在于,在所述逻辑树结构中,每一段落可划分为若干格式片断,其中的每一格式片断包含相应的具体格式信息。
4.根据权利要求1所述的格式化输出书版小样文件内容的方法,其特征在于,在所述步骤2)中,根据需要输出的内容,按照匹配规则自动或者手动提取相关信息,以便对逻辑树结构中的相关信息进行处理而生成有关所述输出内容的标签树结构。
5.根据权利要求1所述的格式化输出书版小样文件内容的方法,其特征在于,在所述标签树结构中,普通文字内容可以直接从逻辑树结构中获得,而对于无法按普通文字组织的特殊格式信息,则在提取的文字内容上下文关系中用特殊格式助记符表示,并且每一个特殊助记符对应逻辑树结构上相应段落内的特殊格式片断记录。
6.根据权利要求1所述的格式化输出书版小样文件内容的方法,其特征在于,在所述步骤3)中,若遇到普通文字内容,则直接输出该普通文字内容以构成后端输出所需要的格式化文档;
若遇到由特殊格式助记符标示的内容,则根据该助记符在相应段落的位置到逻辑树结构中查找相应的特殊格式片断,并且
对后端输出引擎可以处理的特殊格式片断,提取和组织具体格式信息,以在后端输出引擎中按照结构化的内容进行格式化输出;
对后端输出引擎无法处理的特殊格式片断,根据特殊格式片断记录中所提取的信息构建合法的书版小样片断,利用书版的发排引擎将其输出为图片文件,以在后端输出引擎中的相应部位插入该图片文件。
7.根据权利要求6所述的格式化输出书版小样文件内容的方法,其特征在于,所述步骤3)具体包括下述步骤:
31)在标签树结构中读取格式分块;
32)判断所读取的格式分块是否为普通文字,若是,则直接输出该文字内容;若否,则转到步骤33);
33)检索逻辑树结构,以找到该格式分块所对应的位置;
34)判断相应位置的格式片断是否可以解析,若是,则转到步骤35;若否,则转到步骤36);
35)判断所述格式片断中的格式信息是否为特定格式信息,若是,则以该特定格式输出相应内容;若否,则输出占位符;
36)将所述格式片断作为书版小样片断提取出来,并将所提取的书版小样片断生成图片;
37)输出步骤36)中所生成的图片;
重复上述步骤31)至步骤37),直至标签树结构中的全部内容输出完毕。
8.根据权利要求1所述的格式化输出书版小样文件内容的方法,其特征在于,所述特殊格式信息包括数学公式和/或分数式和/或上下标和/或补字处理格式信息和/或多行图说内容格式信息。
9.一种格式化输出书版小样文件内容的系统,其特征在于,包括下述单元:
书版小样读取单元,用于读取书版小样文件内容;
逻辑树结构构建单元,用于基于所读取的书版小样文件内容而构建逻辑树结构;
标签树结构构建单元,用于基于逻辑树结构而构建标签树结构;以及
格式化及输出单元,用于基于标签树结构和逻辑树结构而形成后端输出所需要的格式化文档,并根据需要输出所述格式化文档。
10.根据权利要求9所述的格式化输出书版小样文件内容的系统,其特征在于,在所述逻辑树结构中,每一段落可划分为若干格式片断,其中的每一格式片断包含相应的具体格式信息。
11.根据权利要求9所述的格式化输出书版小样文件内容的系统,其特征在于,所述标签树结构构建单元按照匹配规则自动或者手动提取相关信息,以便对逻辑树结构中的相关信息进行处理而生成有关所述输出内容的标签树结构。
12.根据权利要求9所述的格式化输出书版小样文件内容的系统,其特征在于,在所述标签树结构中,普通文字内容可以直接从逻辑树结构中获得,而对于无法按普通文字组织的特殊格式信息,则在提取的文字内容上下文关系中用特殊格式助记符表示,并且每一个特殊助记符对应逻辑树结构上相应段落内的特殊格式片断记录。
13.根据权利要求9所述的格式化输出书版小样文件内容的系统,其特征在于,格式化及输出单元在进行格式化和输出时,若遇到普通文字内容,则直接输出该普通文字内容以构成后端输出所需要的格式化文档;
若遇到由特殊格式助记符标示的内容,则根据该助记符在相应段落的位置到逻辑树结构中查找相应的特殊格式片断,并且
对后端输出引擎可以处理的特殊格式片断,提取和组织具体格式信息,以在后端输出引擎中按照结构化的内容而格式化输出;
对后端输出引擎无法处理的特殊格式片断,根据特殊格式片断记录中所提取的信息构建合法的书版小样片断,利用书版的发排引擎将其输出为图片文件,以在后端输出引擎中的相应部位插入该图片文件。
14.根据权利要求12所述的格式化输出书版小样文件内容的系统,其特征在于,所述特殊格式信息包括数学公式和/或分数式和/或上下标和/或补字处理格式信息和/或多行图说内容格式信息。
CN2009102428342A 2009-12-17 2009-12-17 一种格式化输出书版小样文件内容的方法及系统 Expired - Fee Related CN102103574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102428342A CN102103574B (zh) 2009-12-17 2009-12-17 一种格式化输出书版小样文件内容的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102428342A CN102103574B (zh) 2009-12-17 2009-12-17 一种格式化输出书版小样文件内容的方法及系统

Publications (2)

Publication Number Publication Date
CN102103574A true CN102103574A (zh) 2011-06-22
CN102103574B CN102103574B (zh) 2013-04-24

Family

ID=44156353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102428342A Expired - Fee Related CN102103574B (zh) 2009-12-17 2009-12-17 一种格式化输出书版小样文件内容的方法及系统

Country Status (1)

Country Link
CN (1) CN102103574B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136185A (zh) * 2011-12-05 2013-06-05 北大方正集团有限公司 块式排版的方法和装置
CN104850316A (zh) * 2015-04-29 2015-08-19 小米科技有限责任公司 电子图书字体调整方法及装置
CN106776495A (zh) * 2016-11-23 2017-05-31 北京信息科技大学 一种文档逻辑结构重建方法
CN108009137A (zh) * 2017-12-22 2018-05-08 中科鼎富(北京)科技发展有限公司 一种基于配置文件的规范文书处理方法、装置及系统
CN108170656A (zh) * 2017-12-28 2018-06-15 阿里巴巴集团控股有限公司 模板创建方法、文档创建方法、渲染方法和装置
CN112699633A (zh) * 2020-12-31 2021-04-23 南京硕材信息科技有限公司 通用中小学教材格式标签及对应的解析方法
CN114238343A (zh) * 2021-12-23 2022-03-25 南京华飞数据技术有限公司 基于大数据的多维度可变性自动化造数据模型的实现方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520770B (zh) * 2008-02-29 2011-05-04 国际商业机器公司 分析、转换和拆分结构化数据的方法和装置
CN101281544A (zh) * 2008-05-13 2008-10-08 北大方正集团有限公司 一种将小样文件转换为扩展标记语言文件的方法和系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136185A (zh) * 2011-12-05 2013-06-05 北大方正集团有限公司 块式排版的方法和装置
CN103136185B (zh) * 2011-12-05 2016-03-16 北大方正集团有限公司 块式排版的方法和装置
CN104850316A (zh) * 2015-04-29 2015-08-19 小米科技有限责任公司 电子图书字体调整方法及装置
CN106776495A (zh) * 2016-11-23 2017-05-31 北京信息科技大学 一种文档逻辑结构重建方法
CN108009137A (zh) * 2017-12-22 2018-05-08 中科鼎富(北京)科技发展有限公司 一种基于配置文件的规范文书处理方法、装置及系统
CN108009137B (zh) * 2017-12-22 2021-01-29 鼎富智能科技有限公司 一种基于配置文件的规范文书处理方法、装置及系统
CN108170656A (zh) * 2017-12-28 2018-06-15 阿里巴巴集团控股有限公司 模板创建方法、文档创建方法、渲染方法和装置
CN112699633A (zh) * 2020-12-31 2021-04-23 南京硕材信息科技有限公司 通用中小学教材格式标签及对应的解析方法
CN114238343A (zh) * 2021-12-23 2022-03-25 南京华飞数据技术有限公司 基于大数据的多维度可变性自动化造数据模型的实现方法
CN114238343B (zh) * 2021-12-23 2022-10-28 南京华飞数据技术有限公司 基于大数据的多维度可变性自动化造数据模型的实现方法

Also Published As

Publication number Publication date
CN102103574B (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
CN102103574B (zh) 一种格式化输出书版小样文件内容的方法及系统
CN109062874B (zh) 财政数据的获取方法、终端设备及介质
CN103329122B (zh) 使用多个表示的文档存储
CN103914443B (zh) 一种多语种文字的混排方法及装置
US8977606B2 (en) Method and apparatus for generating extended page snippet of search result
CN101271463B (zh) 版式文件的结构处理方法和系统
US10042880B1 (en) Automated identification of start-of-reading location for ebooks
US9251123B2 (en) Systems and methods for converting a PDF file
CN102855244B (zh) 文档目录处理方法和装置
CN104199871A (zh) 一种用于智慧教学的高速化试题导入方法
AU2012207560A1 (en) Storage of a document using multiple representations
CN111797630B (zh) 一种面向pdf格式论文的生物医学实体识别方法
CN104699714A (zh) 将书版格式文件转换为epub格式文件的方法及装置
CN102081594A (zh) 从可移植电子文档中提取字符外接矩形的设备和方法
CN104317786A (zh) 一种文本段落切片方法及系统
CN103268340A (zh) 基于层次式索引的版式可回流文件建立和绘制方法
Clausner et al. Efficient ocr training data generation with aletheia
CN111753536A (zh) 一种专利申请文本的自动撰写方法和装置
Bloechle et al. XCDF: a canonical and structured document format
CN104331399A (zh) 字典树翻译方法
Bagley et al. Creating reusable well-structured PDF as a sequence of component object graphic (COG) elements
Tiedemann Improved text extraction from PDF documents for large-scale natural language processing
CN111079385A (zh) 一种科学公式格式转换的方法和装置
CN107562704B (zh) 一种基于word快速生成Fastreport模板的方法
CN114637505A (zh) 一种页面内容提取方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130424

Termination date: 20191217