CN102799569A - 一种epub文档的校对方法及装置 - Google Patents

一种epub文档的校对方法及装置 Download PDF

Info

Publication number
CN102799569A
CN102799569A CN2011101413775A CN201110141377A CN102799569A CN 102799569 A CN102799569 A CN 102799569A CN 2011101413775 A CN2011101413775 A CN 2011101413775A CN 201110141377 A CN201110141377 A CN 201110141377A CN 102799569 A CN102799569 A CN 102799569A
Authority
CN
China
Prior art keywords
document
node
plain text
text content
file structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101413775A
Other languages
English (en)
Inventor
吴文元
陈峻峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanwang Technology Co Ltd
Original Assignee
Hanwang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanwang Technology Co Ltd filed Critical Hanwang Technology Co Ltd
Priority to CN2011101413775A priority Critical patent/CN102799569A/zh
Publication of CN102799569A publication Critical patent/CN102799569A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明实施例公开了一种EPUB文档的校对方法及装置,涉及文档校对技术,为提高对EPUB文档校对的准确性和校对效率而发明。一种EPUB文档的校对方法,包括:获取待校对EPUB文档中符合XML规范的目标文档;利用所述目标文档的标签构造所述目标文档的文档结构树,其中所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容;根据所述文档结构树对所述各节点对应的纯文本内容进行校对,以实现对所述待校对EPUB文档的校对。本发明实施例主要用于EPUB文档的校对技术中。

Description

一种EPUB文档的校对方法及装置
技术领域
本发明涉及文档校对技术,尤其涉及一种EPUB文档的校对方法及装置。
背景技术
随着传统纸质媒介数字化的快速发展,电子书产业前景诱人。在电子书数量不断提升的同时,电子书的质量问题也日渐凸显。传统书刊质量主要依赖作者、编辑及校对人员的努力,而计算机校对技术则可以很大程度上提升校对人员的校对效率。
现有的校对技术主要可分为两类:一是附带型校对,如Microsoft Word,WPS等软件自带的拼写和语法检查功能。二是专业型校对,如WhiteSmoke、黑马校对软件等。这些校对软件目前可适用于word、pdf、ps等格式的文件。
EPUB(electronic publication,电子出版物)作为一种自由的电子书开放标准,已逐步成为数字图书的主流格式。但是,由于EPUB文档的特殊结构等原因,使得现有技术中的校对技术不适用于EPUB文档的校对,从而使得对EPUB文档的校对错误率很高,校对效率低下。因此,急需开发一种适用于EPUB文档的校对方案。
发明内容
本发明实施例提供一种EPUB文档的校对方法及装置,以提高对EPUB文档校对的准确性和校对效率。
本发明实施例采用如下技术方案:
一种EPUB文档的校对方法,包括:
获取待校对EPUB文档中符合XML规范的目标文档;
利用所述目标文档的标签构造所述目标文档的文档结构树,其中所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容;
根据所述文档结构树对所述各节点对应的纯文本内容进行校对,以实现对所述待校对EPUB文档的校对。
一种EPUB文档的校对装置,包括:
文档获取单元,用于获取待校对EPUB文档中符合XML规范的目标文档;
文档处理单元,用于利用所述目标文档的标签构造所述目标文档的文档结构树,其中所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容;
文档校对单元,用于根据所述文档结构树对所述各节点对应的纯文本内容进行校对,以实现对所述待校对EPUB文档的校对。
本发明实施例提供的EPUB文档的校对方法及装置,对获取的待校对EPUB文档中符合XML(Extensible Markup Language,可扩展标记语言)规范的目标文档的结构进行分析,根据其标签构造所述目标文档的文档结构树,在所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容,而后根据所述文档结构树对所述各节点对应的纯文本内容进行校对,以实现对所述待校对EPUB文档的校对。由于EPUB文档是严格符合XML规范的文件,其中包含了较多的结构信息,而本发明实施例正是基于EPUB文档的文档结构进行校对的,也即在对EPUB文档进行校对的过程中充分考虑到了它的文档结构因素,因此,利用本发明实施例的方法提高了对EPUB文档校对的准确性和校对效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例EPUB文档的校对方法的流程图;
图2为按照本发明实施例中方法建立文档结构树后,各节点的节点结构信息示意图;
图3为本发明实施例中某文档校对前的部分内容的示意图;
图4为本发明实施例中,将图3所示文档内容进行校对并写入校对结果信息后的示意图;
图5为本发明实施例中写入有校对信息后的文档结构树的示意图;
图6为本发明实施例的EPUB文档的校对装置的示意图;
图7为本发明实施例的EPUB文档的校对装置的又一示意图;
图8为本发明实施例的EPUB文档的校对装置的又一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高对EPUB文档校对的准确性,本发明实施例的EPUB文档的校对方法包括:
获取待校对EPUB文档中符合可扩展标记语言XML规范的目标文档,利用所述目标文档的标签构造所述目标文档的文档结构树,其中所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容。然后,根据所述文档结构树对所述各节点对应的纯文本内容进行校对,以实现对所述待校对EPUB文档的校对。
由于EPUB文档是严格符合XML规范的文件,其中包含了较多的结构信息,而本发明实施例中正是基于EPUB文档的文档结构进行校对的,也即在对EPUB文档进行校对的过程中充分考虑到了它的文档结构因素,因此,利用本发明实施例的方法提高了对EPUB文档校对的准确性和校对效率。
以下结合实施例一详细描述一下本发明实施例的EPUB文档的校对方法的具体过程。
如图1所示,本发明实施例EPUB文档的校对方法包括:
步骤11、打开待校对的EPUB文档,读取EPUB文档中的各个符合XML规范的文档。
步骤12、对所述文档进行XML规范性校正,以进一步确保所述文档符合XML规范。
如果经过校正确定所述文档符合XML规范,在此实施例中将其作为符合XML规范的目标文档。如果经过校正确定所述文档不符合XML规范,通过对其进行XML规范性校正,使其符合XML规范,也可将其作为符合XML规范的目标文档。也就是说,对于该目标文档而言,它需要是符合XML规范的文档,例如其可以为符合XML规范的.html文档或者符合XML规范的.xml文档。
步骤13、利用所述目标文档的标签构造所述目标文档的文档结构树,其中所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容。
以.html文档为例,根据现有技术的内容,.html文档中包含有标签以及该标签对应的纯文本内容。因此,在此实施例中,就可以.html文档的标签和其对应的纯文本内容为基础构造文档结构树。
首先,分别获取所述目标文档中各标签对应的节点,并判断该节点是否对应有纯文本内容,并在所述节点对应有纯文本内容时获取所述节点对应的纯文本内容。然后,确定该节点对应的标签是否包含有下一级标签。如果所述节点对应的标签包括有下一级标签,将所述节点作为父节点,将所述下一级标签对应的节点作为所述节点的子节点,并在所述子节点对应有纯文本内容时获取所述子节点对应的纯文本内容。最后,根据确定的父节点和子节点以及所述父节点和所述子节点对应的纯文本内容构造所述文档结构树。
而在此实施例中,对于没有对应的纯文本内容的标签,只需将其作为文档结构树中的父节点或者子节点,校对时也无需对这种类型的父节点或者子节点进行校对。
按照上述方法,将.html文档中所有的标签以及其对应的纯文本内容都表示在文档结构树中。例如,图2所示为按照上述方法建立文档结构树后,各节点的结构信息示意图。在该文档结构树中,记录有节点ID,节点名,节点属性对,节点文本,父节点的ID,子节点的ID等节点结构信息。
步骤14、根据所述文档结构树对所述各节点对应的纯文本内容进行校对,以实现对所述待校对EPUB文档的校对。
根据文档结构树中的各父节点和各子节点,对其对应的纯文本内容进行校对。
步骤15、将所述各节点对应的纯文本内容的校对结果信息按照预定规范写入到所述文档结构树中所述各节点对应的纯文本内容中。
如图3所示为某个节点的文本内容在校对前的示意图。通过分析图3所示的文本内容可以发现,该节点对应的纯文本内容中包含有“姓名错误”(如图3中的111所示)、“职务错误”(如图3中的112所示)、“排序错误”(如图3中的113所示)等错误。通过对该文本内容进行校对,得出的校对结果信息应该与上述分析的相同。因此,在此步骤中,将包含有上述校对结果信息的纯文本内容按照预定规范写入到文档结构树中该节点对应的纯文本内容中,其中所述预定规范可包括错误类型、错误样式、建议词条规范等。写入后,该节点对应的纯文本内容如图4所示。例如,对于图3中111所示的错误,在图4中指出了其错误样式(图4中111a所示)和建议词条规范(图4中112a所示)。那么,此时文档结构树如图5所示。由图5可以看出,在节点n13对应的信息中,其对应的纯文本内容出现错误,同时还记录有针对该错误的修改建议。
步骤16、利用包含有所述校对结果信息的文档结构树进行校对统计处理。
在此步骤中,将所述包含有所述校对结果信息的文档结构树转换为符合XML规范的待处理文档,并根据所述校对结果信息对所述待处理文档进行校对统计处理。其中,所述待处理文档与所述目标文档一样都符合XML规范,它可以理解为是包含有校对结果信息的符合XML规范的目标文档。
根据校对结果信息,可以对待处理文档中的错误进行统计,例如统计错误的数量,错误的类型等,并可查看、清除、修正相应的错误。同时,还可根据获得的信息生成错误报告,以便于用户进行下一步的操作。
步骤17、保存校对后的待校对EPUB文档。
由于EPUB文档是严格符合XML规范的文件,其中包含了较多的结构信息,而本发明实施例中正是基于EPUB文档的文档结构进行校对的,也即在对EPUB文档进行校对的过程中充分考虑到了它的文档结构因素,因此,利用本发明实施例的方法提高了对EPUB文档校对的准确性和校对效率。
如图6所示,本发明实施例的EPUB文档的校对装置包括:
文档获取单元21,用于获取待校对EPUB文档中符合XML规范的目标文档;文档处理单元22,用于利用所述目标文档的标签构造所述目标文档的文档结构树,其中所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容;文档校对单元23,用于根据所述文档结构树对所述各节点对应的纯文本内容进行校对,以实现对所述待校对EPUB文档的校对。
此外,为了进一步提高校对的准确性,如图7所示,所述装置还可包括:文档校正单元24,用于对所述目标文档进行XML规范性校正,以确保所述目标文档符合XML规范。
其中,所述文档处理单元22可包括:第一信息获取模块,用于分别获取所述目标文档中各标签对应的节点,并在所述节点对应有纯文本内容时获取所述节点对应的纯文本内容;第二信息获取模块,用于如果所述节点对应的标签包括有下一级标签,将所述节点作为父节点,将所述下一级标签对应的节点作为所述节点的子节点,并在所述子节点对应有纯文本内容时获取所述子节点对应的纯文本内容;文档处理模块,用于根据确定的父节点和子节点以及所述父节点和所述子节点对应的纯文本内容构造所述文档结构树。
为了方便用户统计文档中的错误,如图8所示,所述装置还包括:
文本写入单元25,用于将所述各节点对应的纯文本内容的校对结果信息按照预定规范写入到所述文档结构树中所述各节点对应的纯文本内容中;校对结果处理单元26,用于利用包含有所述校对结果信息的文档结构树进行校对统计处理。
具体的,所述校对结果处理单元26包括:格式转换模块,用于将所述包含有所述校对结果信息的文档结构树转换为符合XML规范的待处理文档;校对统计模块,用于根据所述校对结果信息对所述待处理文档进行校对统计处理。
此外,在图6,图7或者图8所示的基础上,所述装置还可包括:保存单元27,用于保存校对后的待校对EPUB文档。
其中,所述装置的工作原理可参照前述方法实施例的描述。
由于EPUB文档是严格符合XML规范的文件,其中包含了较多的结构信息,而本发明实施例中正是基于EPUB文档的文档结构进行校对的,也即在对EPUB文档进行校对的过程中充分考虑到了它的文档结构因素,因此,利用本发明实施例的装置提高了对EPUB文档校对的准确性和校对效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种EPUB文档的校对方法,其特征在于,包括:
获取待校对EPUB文档中符合可扩展标记语言XML规范的目标文档;
利用所述目标文档的标签构造所述目标文档的文档结构树,其中所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容;
根据所述文档结构树对所述各节点对应的纯文本内容进行校对,以实现对所述待校对EPUB文档的校对。
2.根据权利要求1所述的方法,其特征在于,所述获取待校对EPUB文档中符合XML规范的目标文档后,所述方法还包括:
对所述目标文档进行XML规范性校正,以进一步确保所述目标文档符合XML规范。
3.根据权利要求1所述的方法,其特征在于,所述利用所述目标文档的标签构造所述目标文档的文档结构树,其中所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容,包括:
分别获取所述目标文档中各标签对应的节点,并在所述节点对应有纯文本内容时获取所述节点对应的纯文本内容;
如果所述节点对应的标签包括有下一级标签,将所述节点作为父节点,将所述下一级标签对应的节点作为所述节点的子节点,并在所述子节点对应有纯文本内容时获取所述子节点对应的纯文本内容;
根据确定的父节点和子节点以及所述父节点和所述子节点对应的纯文本内容构造所述文档结构树。
4.根据权利要求1-3任一所述的方法,其特征在于,在根据所述文档结构树对所述各节点对应的纯文本内容进行校对后,所述方法还包括:
将所述各节点对应的纯文本内容的校对结果信息按照预定规范写入到所述文档结构树中所述各节点对应的纯文本内容中;
利用包含有所述校对结果信息的文档结构树进行校对统计处理。
5.根据权利要求4所述的方法,其特征在于,所述利用包含有所述校对结果信息的目标文档进行校对统计处理包括:
将所述包含有所述校对结果信息的文档结构树转换为符合XML规范的待处理文档;
根据所述校对结果信息对所述待处理文档进行校对统计处理。
6.根据权利要求1-3任一所述的方法,其特征在于,所述方法还包括:
保存校对后的待校对EPUB文档。
7.一种EPUB文档的校对装置,其特征在于,包括:
文档获取单元,用于获取待校对EPUB文档中符合XML规范的目标文档;
文档处理单元,用于利用所述目标文档的标签构造所述目标文档的文档结构树,其中所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容;
文档校对单元,用于根据所述文档结构树对所述各节点对应的纯文本内容进行校对,以实现对所述待校对EPUB文档的校对。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
文档校正单元,用于对所述目标文档进行XML规范性校正,以进一步确保所述目标文档符合XML规范。
9.根据权利要求7所述的装置,其特征在于,所述文档处理单元包括:
第一信息获取模块,用于分别获取所述目标文档中各标签对应的节点,并在所述节点对应有纯文本内容时获取所述节点对应的纯文本内容;
第二信息获取模块,用于如果所述节点对应的标签包括有下一级标签,将所述节点作为父节点,将所述下一级标签对应的节点作为所述节点的子节点,并在所述子节点对应有纯文本内容时获取所述子节点对应的纯文本内容;
文档处理模块,用于根据确定的父节点和子节点以及所述父节点和所述子节点对应的纯文本内容构造所述文档结构树。
10.根据权利要求7-9任一所述的装置,其特征在于,所述装置还包括:
文本写入单元,用于将所述各节点对应的纯文本内容的校对结果信息按照预定规范写入到所述文档结构树中所述各节点对应的纯文本内容中;
校对结果处理单元,用于利用包含有所述校对结果信息的文档结构树进行校对统计处理。
11.根据权利要求10所述的装置,其特征在于,所述校对结果处理单元包括:
格式转换模块,用于将所述包含有所述校对结果信息的文档结构树转换为符合XML规范的待处理文档;
校对统计模块,用于根据所述校对结果信息对所述待处理文档进行校对统计处理。
12.根据权利要求7-9任一所述的装置,其特征在于,所述装置还包括:
保存单元,用于保存校对后的待校对EPUB文档。
CN2011101413775A 2011-05-27 2011-05-27 一种epub文档的校对方法及装置 Pending CN102799569A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101413775A CN102799569A (zh) 2011-05-27 2011-05-27 一种epub文档的校对方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101413775A CN102799569A (zh) 2011-05-27 2011-05-27 一种epub文档的校对方法及装置

Publications (1)

Publication Number Publication Date
CN102799569A true CN102799569A (zh) 2012-11-28

Family

ID=47198682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101413775A Pending CN102799569A (zh) 2011-05-27 2011-05-27 一种epub文档的校对方法及装置

Country Status (1)

Country Link
CN (1) CN102799569A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605639A (zh) * 2013-11-28 2014-02-26 厦门市乐创信息科技有限公司 一种基于epub格式电子书籍制作的方法
CN109670092A (zh) * 2019-01-07 2019-04-23 北京仁和汇智信息技术有限公司 Xml文档校对方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1773506A (zh) * 2004-11-12 2006-05-17 国际商业机器公司 管理文件修订的方法与系统
CN101025760A (zh) * 2007-01-31 2007-08-29 王宏源 一种关于家谱数字化的方法
CN101430676A (zh) * 2007-11-05 2009-05-13 北大方正集团有限公司 一种电子校对方法、系统及电子校对终端
CN101739391A (zh) * 2009-12-16 2010-06-16 彭扬 生成二进制文件格式电子书的方法及其生成的电子书
CN101833730A (zh) * 2010-04-30 2010-09-15 浙江大学 个性化数字出版系统及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1773506A (zh) * 2004-11-12 2006-05-17 国际商业机器公司 管理文件修订的方法与系统
CN101025760A (zh) * 2007-01-31 2007-08-29 王宏源 一种关于家谱数字化的方法
CN101430676A (zh) * 2007-11-05 2009-05-13 北大方正集团有限公司 一种电子校对方法、系统及电子校对终端
CN101739391A (zh) * 2009-12-16 2010-06-16 彭扬 生成二进制文件格式电子书的方法及其生成的电子书
CN101833730A (zh) * 2010-04-30 2010-09-15 浙江大学 个性化数字出版系统及其方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605639A (zh) * 2013-11-28 2014-02-26 厦门市乐创信息科技有限公司 一种基于epub格式电子书籍制作的方法
CN109670092A (zh) * 2019-01-07 2019-04-23 北京仁和汇智信息技术有限公司 Xml文档校对方法及装置

Similar Documents

Publication Publication Date Title
CN101361059B (zh) 支持在便携设备上显示内容的系统和方法
CN104699714B (zh) 将书版格式文件转换为epub格式文件的方法及装置
US9081412B2 (en) System and method for using paper as an interface to computer applications
CN103123631B (zh) 文案的生成、网页文案的展示方法、装置及网站服务器
CN102982010A (zh) 提取文档结构的方法和装置
CN108280056A (zh) 一种Excel文件解析方法
CN103488482A (zh) 一种生成测试用例的方法和装置
CN102937949B (zh) 一种在富文本编辑器内实现英文拼写检查的方法及系统
CN102855244A (zh) 文档目录处理方法和装置
US20150248382A1 (en) Apparatus and method for converting an electronic form
CN101008940A (zh) 自动处理字体缺失的方法与装置
CN101770388A (zh) 获取芯片代码信息的方法和装置
CN106815181B (zh) 一种InDesign排版的indd文件到Office文件的转换方法及装置
CN102411602A (zh) 一种基于 fpga 实现的xml 并行投机解析方法
CN103092973A (zh) 信息抽取方法和装置
CN106777404A (zh) 从LaTeX格式到XML格式的转换系统及转换方法
CN102799569A (zh) 一种epub文档的校对方法及装置
CN103186540A (zh) 一种电子文档的处理方法、服务器、阅读终端及系统
CN113221506A (zh) 一种讲义排版的方法、装置、电子设备及存储介质
CN105653669A (zh) 超文本标记语言生成方法及装置
CN114973798A (zh) 一种单词学习卡生成方法及装置
CN103678424A (zh) 一种文档校对的方法和装置
CN111401005B (zh) 文本转换方法、装置及可读存储介质
CN104778282B (zh) 一种iptv机顶盒浏览器的网页容错方法及系统
CN112667722A (zh) 核电站程序文件转换方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20121128