CN111274768B - 期刊论文转换为xml数据的方法、装置、设备及存储介质 - Google Patents

期刊论文转换为xml数据的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111274768B
CN111274768B CN201811471166.6A CN201811471166A CN111274768B CN 111274768 B CN111274768 B CN 111274768B CN 201811471166 A CN201811471166 A CN 201811471166A CN 111274768 B CN111274768 B CN 111274768B
Authority
CN
China
Prior art keywords
paper
file
information
data
layout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811471166.6A
Other languages
English (en)
Other versions
CN111274768A (zh
Inventor
王婷
谭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201811471166.6A priority Critical patent/CN111274768B/zh
Publication of CN111274768A publication Critical patent/CN111274768A/zh
Application granted granted Critical
Publication of CN111274768B publication Critical patent/CN111274768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种期刊论文转换为XML数据的方法、装置、设备及存储介质,通过获取期刊论文的排版文件,将所述排版文件转换为Word文件,通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件,提取所述Word文件中的论文版式文件,将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件,从而将期刊论文转换为了XML数据,可以实现基于XML数据的内容存储和交换,满足用户对期刊论文的数字化需求。

Description

期刊论文转换为XML数据的方法、装置、设备及存储介质
技术领域
本发明涉及期刊论文数字化领域,尤其涉及一种期刊论文转换为XML数据的方法、装置、设备及存储介质。
背景技术
基于XML、以内容为中心、多格式发布的复合出版正成为期刊出版行业的发展趋势。成品结果需要既可满足纸质印刷要求,亦可以满足Web发布及移动终端等不同阅读设备的需要,同时,内容资源数字化也是期刊出版业的必然趋势。以上需求的关键,是实现基于XML数据的内容存储和交换。目前,将期刊的排版文件转换为XML数据是非常困难的。
发明内容
有鉴于此,本发明提供了一种期刊论文转换为XML数据的方法、装置、设备及存储介质,用以将期刊论文转换为XML数据,实现基于XML数据的内容存储和交换,满足用户对期刊论文的数字化需求。
第一方面,本发明实施例提供了一种期刊论文转换为XML数据的方法,包括:
获取期刊论文的排版文件;
将所述排版文件转换为Word文件;
通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件;
提取所述Word文件中的论文版式文件;
将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述论文版式文件包括:论文版式元数据信息、论文拼装元数据的拼装规则、图片对象版式信息、表格对象版式信息、公式对象版式信息;其中,
所述论文版式元数据信息包括论文起始页、论文终止页和论文总页数;所述拼装元数据包括论文引用格式、论文编号、DOI;所述图片对象版式信息包括图片大小数据、裁切信息、图片替代图数据;表格对象版式信息包括表格替代图数据;公式对象版式信息包括公式替代图数据。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述排版文件包括:非文章信息,所述非文章信息包括论文的页眉区和边眉区的数据以及内容静态装饰数据;
所述将所述排版文件转换为Word文件之前,还包括:
对所述非文章信息进行过滤处理。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述排版文件包括:论文内容排版数据、论文首页注释区排版数据;
所述将所述排版文件转换为Word文件之前,还包括:
将所述论文首页注释区排版数据的输出位置调整到所述论文内容排版数据之前。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述Word文件中的论文内容,包括:至少一个图片对象、表格对象和公式对象;其中,
每一个图片对象有唯一对应的图片对象版式信息,每一表格对象有唯一对应的表格对象版式信息,每一公式对象有唯一对应的公式对象版式信息;
所述将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件,包括:
建立所述至少一个图片对象、表格对象和公式对象与对应的版式信息的匹配关系;根据所述匹配关系,将所述版式信息增补到所述第一XML文件中;
读取所述论文拼装元数据的拼装规则,根据所述拼装规则,生成论文引用格式、论文编号和DOI,将所述论文引用格式、论文编号和DOI增补到第一XML文件中;
生成第二XML文件。
第二方面,本发明实施例提供了一种期刊论文转换为XML数据的装置,包括:
获取模块,用于获取期刊论文的排版文件;
第一转换模块,用于将所述排版文件转换为Word文件;
第二转换模块,用于通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件;
提取模块,用于提取所述Word文件中的论文版式文件;
增补生成模块,用于将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述论文版式文件包括:论文版式元数据信息、论文拼装元数据的拼装规则、图片对象版式信息、表格对象版式信息、公式对象版式信息;其中,
所述论文版式元数据信息包括论文起始页、论文终止页和论文总页数;所述拼装元数据包括论文引用格式、论文编号、DOI;所述图片对象版式信息包括图片大小数据、裁切信息、图片替代图数据;表格对象版式信息包括表格替代图数据;公式对象版式信息包括公式替代图数据。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述排版文件包括:非文章信息,所述非文章信息包括论文的页眉区和边眉区的数据以及内容静态装饰数据;
过滤模块,用于所述第一转换模块将所述排版文件转换为Word文件之前,对所述非文章信息进行过滤处理。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述排版文件包括:论文内容排版数据、论文首页注释区排版数据;
调整模块,用于所述第一转换模块将所述排版文件转换为Word文件之前,将所述论文首页注释区排版数据的输出位置调整到所述论文内容排版数据之前。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述Word文件中的论文内容,包括:至少一个图片对象、表格对象和公式对象;其中,
每一个图片对象有唯一对应的图片对象版式信息,每一表格对象有唯一对应的表格对象版式信息,每一公式对象有唯一对应的公式对象版式信息;
所述增补生成模块,包括:
第一增补单元,用于建立所述至少一个图片对象、表格对象和公式对象与对应的版式信息的匹配关系;根据所述匹配关系,将所述版式信息增补到所述第一XML文件中;
第二增补单元,用于读取所述论文拼装元数据的拼装规则,根据所述拼装规则,生成论文引用格式、论文编号和DOI,将所述论文引用格式、论文编号和DOI增补到第一XML文件中;
生成单元,用于生成第二XML文件。
第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器;
所述存储器,用于存储计算机程序;
其中,所述处理器执行所述存储器中的计算机程序,以实现如上述第一方面至第一方面的第四种可能的实现方式中的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序被处理器执行时用于实现如上述第一方面至第一方面的第四种可能的实现方式中的方法。
本发明提供的期刊论文转换为XML数据的方法、装置、设备及存储介质,通过获取期刊论文的排版文件,将所述排版文件转换为Word文件,通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件,提取所述Word文件中的论文版式文件,将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件,从而将期刊论文转换为了XML数据,可以实现基于XML数据的内容存储和交换,满足用户对期刊论文的数字化需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的期刊论文转换为XML数据的方法的流程示意图;
图2为本发明实施例二提供的期刊论文转换为XML数据的装置的结构示意图;
图3为本发明实施例三提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
实施例一
图1为本发明实施例一提供的期刊论文转换为XML数据的方法的流程示意图,如图1所示,该方法包括:
S101、获取期刊论文的排版文件。
实际应用中,本实施例的执行主体可以为期刊论文转换为XML数据的装置。在实际应用中,该期刊论文转换为XML数据的装置可以通过虚拟装置,例如软件代码实现,也可以通过写入有相关执行代码的实体装置,例如,U盘实现,再或者,也可以通过集成有相关执行代码的实体装置实现,例如,芯片、智能终端、各式电脑等。
根据本发明的一个实施方式,可以从排版设备的存储器中获取期刊论文的排版文件,该存储器可以是各类终端本地存储、移动存储装置或云端服务器,本发明在此不做限定。例如,排版人员根据期刊论文的原稿按照选定的排版方式排出排版文件,并将排版文件存储到上述存储器中,然后期刊论文转换为XML数据的装置从所述存储器中获取期刊论文的排版文件。该排版文件可以包括文字、图片、表格、公式等论文相关内容。
S102、将所述排版文件转换为Word文件。
具体地,可以采用相关技术将排版文件转换为Word文件,该Word可以文件包括可以显示的论文内容和在后台运行的论文版式文件,该论文版式文件可以是Word文件中的layout.xml文件。
根据本发明的一个实施方式,layout.xml文件可以包括:论文版式元数据信息、论文拼装元数据的拼装规则、图片对象版式信息、表格对象版式信息、公式对象版式信息。其中,所述论文版式元数据信息包括论文起始页、论文终止页和论文总页数。所述拼装元数据包括论文引用格式、论文编号、DOI。所述图片对象版式信息包括图片大小数据、裁切信息、图片替代图数据。表格对象版式信息包括表格替代图数据。公式对象版式信息包括公式替代图数据。
S103、通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件。
具体地,可以通过Word结构化引擎,将Word文件中的论文内容部分转换为符合JATS标准(Journal Article Tag Suite,期刊文章标签集)的第一XML文件。该第一XML文件中含有论文的文章信息,但是文章的部分元数据信息不存在,需要对第一XML文件进行内容增补,将信息丰富。
S104、提取所述Word文件中的论文版式文件。
根据本发明的一个实施方式,所述Word文件中的论文内容,可以包括:至少一个图片对象、表格对象和公式对象。其中,每一个图片对象有唯一对应的图片对象版式信息,每一表格对象有唯一对应的表格对象版式信息,每一公式对象有唯一对应的公式对象版式信息。
具体地,提取Word文件中的layout.xml文件。
S105、将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件。
具体地,将提取的Word文件中的layout.xml文件增补到所述第一XML文件中,生成第二XML文件。例如,将layout.xml文件输出到Word文件的customXml文件夹中。
根据本发明的一个实施方式,上述步骤S105具体可以包括:建立所述至少一个图片对象、表格对象和公式对象与对应的版式信息的匹配关系。例如,给每个图片对象、表格对象、公式对象标注唯一ID,在相应的对象的版式信息上增加对这个ID的引用。
根据所述匹配关系,将所述版式信息增补到所述第一XML文件中,读取所述论文拼装元数据的拼装规则,根据所述拼装规则,生成论文引用格式、论文编号和DOI(数位物件识别号,Digital Object Identifier,简称DOI),将所述论文引用格式、论文编号和DOI增补到第一XML文件中,生成第二XML文件。
在本发明的另一个实施例中,所述排版文件可以包括:非文章信息,所述非文章信息包括论文的页眉区和边眉区的数据以及内容静态装饰数据。为了避免非文章信息对Word结构化造成干扰,上述步骤S102将所述排版文件转换为Word文件之前,可以对所述非文章信息进行过滤处理,
在本发明的另一个实施例中,所述排版文件包括:论文内容排版数据、论文首页注释区排版数据。为了保证文章内容的连续性,上述步骤S102将所述排版文件转换为Word文件之前,可以将所述论文首页注释区排版数据的输出位置调整到所述论文内容排版数据之前,以使论文首页注释区在文章内容之前输出。
本实施例提供的期刊论文转换为XML数据的方法,通过获取期刊论文的排版文件,将所述排版文件转换为Word文件,通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件,提取所述Word文件中的论文版式文件,将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件,从而将期刊论文转换为了XML数据,可以实现基于XML数据的内容存储和交换,满足用户对期刊论文的数字化需求。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
实施例二
图2为本发明实施例二提供的期刊论文转换为XML数据的装置的结构示意图,如图2所示,该装置可以包括:
获取模块210,用于获取期刊论文的排版文件。
第一转换模块220,用于将所述排版文件转换为Word文件。
第二转换模块230,用于通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件。
提取模块240,用于提取所述Word文件中的论文版式文件。
增补生成模块250,用于将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件。
根据本发明的一个实施方式,所述论文版式文件包括:论文版式元数据信息、论文拼装元数据的拼装规则、图片对象版式信息、表格对象版式信息、公式对象版式信息。其中,
所述论文版式元数据信息包括论文起始页、论文终止页和论文总页数。所述拼装元数据包括论文引用格式、论文编号、DOI。所述图片对象版式信息包括图片大小数据、裁切信息、图片替代图数据。表格对象版式信息包括表格替代图数据。公式对象版式信息包括公式替代图数据。
根据本发明的一个实施方式,所述排版文件包括:非文章信息,所述非文章信息包括论文的页眉区和边眉区的数据以及内容静态装饰数据。
上述装置还可以包括过滤模块,用于所述第一转换模块将所述排版文件转换为Word文件之前,对所述非文章信息进行过滤处理。
根据本发明的一个实施方式,所述排版文件包括:论文内容排版数据、论文首页注释区排版数据。
上述装置还可以包括调整模块,用于所述第一转换模块将所述排版文件转换为Word文件之前,将所述论文首页注释区排版数据的输出位置调整到所述论文内容排版数据之前。
根据本发明的一个实施方式,所述Word文件中的论文内容,包括:至少一个图片对象、表格对象和公式对象。其中,每一个图片对象有唯一对应的图片对象版式信息,每一表格对象有唯一对应的表格对象版式信息,每一公式对象有唯一对应的公式对象版式信息。
所述增补生成模块250,可以包括:第一增补单元,用于建立所述至少一个图片对象、表格对象和公式对象与对应的版式信息的匹配关系。根据所述匹配关系,将所述版式信息增补到所述第一XML文件中。
第二增补单元,用于读取所述论文拼装元数据的拼装规则,根据所述拼装规则,生成论文引用格式、论文编号和DOI,将所述论文引用格式、论文编号和DOI增补到第一XML文件中。生成单元,用于生成第二XML文件。
本实施例提供的期刊论文转换为XML数据的装置,通过获取期刊论文的排版文件,将所述排版文件转换为Word文件,通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件,提取所述Word文件中的论文版式文件,将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件,从而将期刊论文转换为了XML数据,可以实现基于XML数据的内容存储和交换,满足用户对期刊论文的数字化需求。
实施例三
图3为本发明实施例三提供的电子设备的结构示意图。如图3所示,该电子设备可以包括:存储器310和处理器320。
所述存储器310,用于存储计算机程序。
其中,所述处理器320执行所述存储器310中的计算机程序,以实现上述实施例一中的方法。
具体地,处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行程序指令。
实施例四
本发明实施例四提供了一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序被处理器执行时用于实现实现上述实施例一中的方法。
实际应用中,本实施例中的计算机程序可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
实际应用中,计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种期刊论文转换为XML数据的方法,其特征在于,包括:
获取期刊论文的排版文件;
将所述排版文件转换为Word文件;
通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件;
提取所述Word文件中的论文版式文件;所述论文版式文件包括:论文版式元数据信息、论文拼装元数据的拼装规则、图片对象版式信息、表格对象版式信息、公式对象版式信息;
将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件;
所述Word文件中的论文内容,包括:至少一个图片对象、表格对象和公式对象;其中,
每一个图片对象有唯一对应的图片对象版式信息,每一表格对象有唯一对应的表格对象版式信息,每一公式对象有唯一对应的公式对象版式信息;所述将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件,包括:
建立所述至少一个图片对象、表格对象和公式对象与对应的版式信息的匹配关系;根据所述匹配关系,将所述版式信息增补到所述第一XML文件中;读取所述论文拼装元数据的拼装规则,根据所述拼装规则,生成论文引用格式、论文编号和DOI,将所述论文引用格式、论文编号和DOI增补到第一XML文件中;生成第二XML文件。
2.根据权利要求1所述的方法,其特征在于,其中,
所述论文版式元数据信息包括论文起始页、论文终止页和论文总页数;所述拼装元数据包括论文引用格式、论文编号、DOI;所述图片对象版式信息包括图片大小数据、裁切信息、图片替代图数据;表格对象版式信息包括表格替代图数据;公式对象版式信息包括公式替代图数据。
3.根据权利要求1所述的方法,其特征在于,所述排版文件包括:非文章信息,所述非文章信息包括论文的页眉区和边眉区的数据以及内容静态装饰数据;
所述将所述排版文件转换为Word文件之前,还包括:
对所述非文章信息进行过滤处理。
4.根据权利要求1所述的方法,其特征在于,所述排版文件包括:论文内容排版数据、论文首页注释区排版数据;
所述将所述排版文件转换为Word文件之前,还包括:
将所述论文首页注释区排版数据的输出位置调整到所述论文内容排版数据之前。
5.一种期刊论文转换为XML数据的装置,其特征在于,包括:
获取模块,用于获取期刊论文的排版文件;
第一转换模块,用于将所述排版文件转换为Word文件;
第二转换模块,用于通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件;
提取模块,用于提取所述Word文件中的论文版式文件;所述论文版式文件包括:论文版式元数据信息、论文拼装元数据的拼装规则、图片对象版式信息、表格对象版式信息、公式对象版式信息;
增补生成模块,用于将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件;
所述Word文件中的论文内容,包括:至少一个图片对象、表格对象和公式对象;其中,
每一个图片对象有唯一对应的图片对象版式信息,每一表格对象有唯一对应的表格对象版式信息,每一公式对象有唯一对应的公式对象版式信息;
所述增补生成模块,包括:
第一增补单元,用于建立所述至少一个图片对象、表格对象和公式对象与对应的版式信息的匹配关系;根据所述匹配关系,将所述版式信息增补到所述第一XML文件中;
第二增补单元,用于读取所述论文拼装元数据的拼装规则,根据所述拼装规则,生成论文引用格式、论文编号和DOI,将所述论文引用格式、论文编号和DOI增补到第一XML文件中;
生成单元,用于生成第二XML文件。
6.根据权利要求5所述的装置,其特征在于,所述论文版式元数据信息包括论文起始页、论文终止页和论文总页数;所述拼装元数据包括论文引用格式、论文编号、DOI;所述图片对象版式信息包括图片大小数据、裁切信息、图片替代图数据;表格对象版式信息包括表格替代图数据;公式对象版式信息包括公式替代图数据。
7.根据权利要求5所述的装置,其特征在于,所述排版文件包括:非文章信息,所述非文章信息包括论文的页眉区和边眉区的数据以及内容静态装饰数据;
过滤模块,用于所述第一转换模块将所述排版文件转换为Word文件之前,对所述非文章信息进行过滤处理。
8.根据权利要求5所述的装置,其特征在于,所述排版文件包括:论文内容排版数据、论文首页注释区排版数据;
调整模块,用于所述第一转换模块将所述排版文件转换为Word文件之前,将所述论文首页注释区排版数据的输出位置调整到所述论文内容排版数据之前。
9.一种电子设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储计算机程序;
其中,所述处理器执行所述存储器中的计算机程序,以实现如权利要求1-4中任一项所述的方法。
10.一种计算机可读存储介质,其中存储有计算机程序,其特征在于,所述计算机程序被处理器执行时用于实现如权利要求1-4中任一项所述的方法。
CN201811471166.6A 2018-12-04 2018-12-04 期刊论文转换为xml数据的方法、装置、设备及存储介质 Active CN111274768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811471166.6A CN111274768B (zh) 2018-12-04 2018-12-04 期刊论文转换为xml数据的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811471166.6A CN111274768B (zh) 2018-12-04 2018-12-04 期刊论文转换为xml数据的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111274768A CN111274768A (zh) 2020-06-12
CN111274768B true CN111274768B (zh) 2022-02-22

Family

ID=70998502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811471166.6A Active CN111274768B (zh) 2018-12-04 2018-12-04 期刊论文转换为xml数据的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111274768B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505572B (zh) * 2021-05-25 2024-02-13 北京北大方正电子有限公司 排版文件转换为xml数据的方法、装置、设备及介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288334A (ja) * 2002-03-28 2003-10-10 Toshiba Corp 文書処理装置及び文書処理方法
JP2005267477A (ja) * 2004-03-22 2005-09-29 Cross Culture Ltd 刊行物制作システム及び刊行物制作サーバ
CN101980183A (zh) * 2010-09-17 2011-02-23 深圳市万兴软件有限公司 一种解析Word文件信息的方法及其系统
CN102298575A (zh) * 2010-06-28 2011-12-28 北大方正集团有限公司 一种带格式的Word文件内容拷贝和粘贴的方法及系统
US8281235B1 (en) * 2008-04-16 2012-10-02 Adobe Systems Incorporated Transformation of structured files
CN102982010A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档结构的方法和装置
CN104679726A (zh) * 2013-12-03 2015-06-03 北大方正集团有限公司 Word文件的排版方法和装置
CN106776495A (zh) * 2016-11-23 2017-05-31 北京信息科技大学 一种文档逻辑结构重建方法
CN106844313A (zh) * 2017-02-20 2017-06-13 济南浪潮高新科技投资发展有限公司 一种将Word文件转换成HTML文件的方法和装置
CN107203627A (zh) * 2017-05-27 2017-09-26 山东浪潮通软信息科技有限公司 一种结构化数据与Word文档之间互相转换的方法
CN108052490A (zh) * 2017-12-29 2018-05-18 北京仁和汇智信息技术有限公司 一种xml论文在线撰写方法和装置
CN108153717A (zh) * 2017-12-29 2018-06-12 北京仁和汇智信息技术有限公司 一种科技期刊论文word文档的结构化处理方法及装置
CN108197085A (zh) * 2017-12-29 2018-06-22 北京仁和汇智信息技术有限公司 一种投稿审稿方法和装置
CN108346035A (zh) * 2018-02-13 2018-07-31 北京仁和汇智信息技术有限公司 一种用于科技期刊论文的数字出版系统
CN108614808A (zh) * 2016-12-12 2018-10-02 北大方正集团有限公司 Xml文档的排版方法及排版装置
CN108733638A (zh) * 2017-04-17 2018-11-02 北大方正集团有限公司 Word稿件的结构化方法及word稿件的结构化装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288334A (ja) * 2002-03-28 2003-10-10 Toshiba Corp 文書処理装置及び文書処理方法
JP2005267477A (ja) * 2004-03-22 2005-09-29 Cross Culture Ltd 刊行物制作システム及び刊行物制作サーバ
US8281235B1 (en) * 2008-04-16 2012-10-02 Adobe Systems Incorporated Transformation of structured files
CN102298575A (zh) * 2010-06-28 2011-12-28 北大方正集团有限公司 一种带格式的Word文件内容拷贝和粘贴的方法及系统
CN101980183A (zh) * 2010-09-17 2011-02-23 深圳市万兴软件有限公司 一种解析Word文件信息的方法及其系统
CN102982010A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档结构的方法和装置
CN104679726A (zh) * 2013-12-03 2015-06-03 北大方正集团有限公司 Word文件的排版方法和装置
CN106776495A (zh) * 2016-11-23 2017-05-31 北京信息科技大学 一种文档逻辑结构重建方法
CN108614808A (zh) * 2016-12-12 2018-10-02 北大方正集团有限公司 Xml文档的排版方法及排版装置
CN106844313A (zh) * 2017-02-20 2017-06-13 济南浪潮高新科技投资发展有限公司 一种将Word文件转换成HTML文件的方法和装置
CN108733638A (zh) * 2017-04-17 2018-11-02 北大方正集团有限公司 Word稿件的结构化方法及word稿件的结构化装置
CN107203627A (zh) * 2017-05-27 2017-09-26 山东浪潮通软信息科技有限公司 一种结构化数据与Word文档之间互相转换的方法
CN108052490A (zh) * 2017-12-29 2018-05-18 北京仁和汇智信息技术有限公司 一种xml论文在线撰写方法和装置
CN108153717A (zh) * 2017-12-29 2018-06-12 北京仁和汇智信息技术有限公司 一种科技期刊论文word文档的结构化处理方法及装置
CN108197085A (zh) * 2017-12-29 2018-06-22 北京仁和汇智信息技术有限公司 一种投稿审稿方法和装置
CN108346035A (zh) * 2018-02-13 2018-07-31 北京仁和汇智信息技术有限公司 一种用于科技期刊论文的数字出版系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于VBA的Word文档XML结构化标记方法;科学人生◆品味科学;《http://blog.sciencenet.cn/blog-306503-1082049.html》;20171023;1 *
基于XML的社科期刊自适应排版技术研究;方婷云;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215(第2期);I142-28 *
非结构化到结构化数据转换的研究与实现;万里鹏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131110(第11期);I138-570 *

Also Published As

Publication number Publication date
CN111274768A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
EP1126380A1 (en) Converting a formatted document into an XML-document
US8838657B1 (en) Document fingerprints using block encoding of text
US20130174024A1 (en) Method and device for converting document format
CN104699714B (zh) 将书版格式文件转换为epub格式文件的方法及装置
US20210019366A1 (en) Text Extraction Heuristics
CN104111922A (zh) 一种流式文档的处理方法及装置
JP5249387B2 (ja) 画像処理装置、画像処理方法、及びプログラム
CN111797595A (zh) 一种基于xml模板生成ofd版式页面的方法和装置
JP7290391B2 (ja) 情報処理装置及びプログラム
CN116402020A (zh) 基于ofd文档的签名图像化处理方法、系统和存储介质
CN111274768B (zh) 期刊论文转换为xml数据的方法、装置、设备及存储介质
CN114359533B (zh) 一种基于页面文本的页码识别方法和计算机设备
CN111881651A (zh) 一种uot流式文档转换成ofd版式文档的方法
CN109582934B (zh) 版式文档的转换方法及装置
US20150277825A1 (en) Information processing apparatus and method
JP2006260570A (ja) 画像形成装置
CN102446206B (zh) 一种三维数据的跨平台交换装置和方法
WO2024001308A1 (zh) 基于模板的红外热像分析报告的批量生成方法及装置
JP2002073598A (ja) 文書処理装置および方法
JP2013152564A (ja) 文書処理装置及び文書処理方法
JP6780380B2 (ja) 画像処理装置及びプログラム
JP4934181B2 (ja) 付加画像処理システム、画像形成装置及び付加画像追加方法
CN113378526A (zh) Pdf段落处理方法、装置、存储介质及设备
CN113742284A (zh) 一种基于Java将OFD文件转换为图片的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230614

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right