发明内容
有鉴于此,本发明提供了一种期刊论文转换为XML数据的方法、装置、设备及存储介质,用以将期刊论文转换为XML数据,实现基于XML数据的内容存储和交换,满足用户对期刊论文的数字化需求。
第一方面,本发明实施例提供了一种期刊论文转换为XML数据的方法,包括:
获取期刊论文的排版文件;
将所述排版文件转换为Word文件;
通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件;
提取所述Word文件中的论文版式文件;
将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述论文版式文件包括:论文版式元数据信息、论文拼装元数据的拼装规则、图片对象版式信息、表格对象版式信息、公式对象版式信息;其中,
所述论文版式元数据信息包括论文起始页、论文终止页和论文总页数;所述拼装元数据包括论文引用格式、论文编号、DOI;所述图片对象版式信息包括图片大小数据、裁切信息、图片替代图数据;表格对象版式信息包括表格替代图数据;公式对象版式信息包括公式替代图数据。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述排版文件包括:非文章信息,所述非文章信息包括论文的页眉区和边眉区的数据以及内容静态装饰数据;
所述将所述排版文件转换为Word文件之前,还包括:
对所述非文章信息进行过滤处理。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述排版文件包括:论文内容排版数据、论文首页注释区排版数据;
所述将所述排版文件转换为Word文件之前,还包括:
将所述论文首页注释区排版数据的输出位置调整到所述论文内容排版数据之前。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述Word文件中的论文内容,包括:至少一个图片对象、表格对象和公式对象;其中,
每一个图片对象有唯一对应的图片对象版式信息,每一表格对象有唯一对应的表格对象版式信息,每一公式对象有唯一对应的公式对象版式信息;
所述将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件,包括:
建立所述至少一个图片对象、表格对象和公式对象与对应的版式信息的匹配关系;根据所述匹配关系,将所述版式信息增补到所述第一XML文件中;
读取所述论文拼装元数据的拼装规则,根据所述拼装规则,生成论文引用格式、论文编号和DOI,将所述论文引用格式、论文编号和DOI增补到第一XML文件中;
生成第二XML文件。
第二方面,本发明实施例提供了一种期刊论文转换为XML数据的装置,包括:
获取模块,用于获取期刊论文的排版文件;
第一转换模块,用于将所述排版文件转换为Word文件;
第二转换模块,用于通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件;
提取模块,用于提取所述Word文件中的论文版式文件;
增补生成模块,用于将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述论文版式文件包括:论文版式元数据信息、论文拼装元数据的拼装规则、图片对象版式信息、表格对象版式信息、公式对象版式信息;其中,
所述论文版式元数据信息包括论文起始页、论文终止页和论文总页数;所述拼装元数据包括论文引用格式、论文编号、DOI;所述图片对象版式信息包括图片大小数据、裁切信息、图片替代图数据;表格对象版式信息包括表格替代图数据;公式对象版式信息包括公式替代图数据。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述排版文件包括:非文章信息,所述非文章信息包括论文的页眉区和边眉区的数据以及内容静态装饰数据;
过滤模块,用于所述第一转换模块将所述排版文件转换为Word文件之前,对所述非文章信息进行过滤处理。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述排版文件包括:论文内容排版数据、论文首页注释区排版数据;
调整模块,用于所述第一转换模块将所述排版文件转换为Word文件之前,将所述论文首页注释区排版数据的输出位置调整到所述论文内容排版数据之前。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述Word文件中的论文内容,包括:至少一个图片对象、表格对象和公式对象;其中,
每一个图片对象有唯一对应的图片对象版式信息,每一表格对象有唯一对应的表格对象版式信息,每一公式对象有唯一对应的公式对象版式信息;
所述增补生成模块,包括:
第一增补单元,用于建立所述至少一个图片对象、表格对象和公式对象与对应的版式信息的匹配关系;根据所述匹配关系,将所述版式信息增补到所述第一XML文件中;
第二增补单元,用于读取所述论文拼装元数据的拼装规则,根据所述拼装规则,生成论文引用格式、论文编号和DOI,将所述论文引用格式、论文编号和DOI增补到第一XML文件中;
生成单元,用于生成第二XML文件。
第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器;
所述存储器,用于存储计算机程序;
其中,所述处理器执行所述存储器中的计算机程序,以实现如上述第一方面至第一方面的第四种可能的实现方式中的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序被处理器执行时用于实现如上述第一方面至第一方面的第四种可能的实现方式中的方法。
本发明提供的期刊论文转换为XML数据的方法、装置、设备及存储介质,通过获取期刊论文的排版文件,将所述排版文件转换为Word文件,通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件,提取所述Word文件中的论文版式文件,将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件,从而将期刊论文转换为了XML数据,可以实现基于XML数据的内容存储和交换,满足用户对期刊论文的数字化需求。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
实施例一
图1为本发明实施例一提供的期刊论文转换为XML数据的方法的流程示意图,如图1所示,该方法包括:
S101、获取期刊论文的排版文件。
实际应用中,本实施例的执行主体可以为期刊论文转换为XML数据的装置。在实际应用中,该期刊论文转换为XML数据的装置可以通过虚拟装置,例如软件代码实现,也可以通过写入有相关执行代码的实体装置,例如,U盘实现,再或者,也可以通过集成有相关执行代码的实体装置实现,例如,芯片、智能终端、各式电脑等。
根据本发明的一个实施方式,可以从排版设备的存储器中获取期刊论文的排版文件,该存储器可以是各类终端本地存储、移动存储装置或云端服务器,本发明在此不做限定。例如,排版人员根据期刊论文的原稿按照选定的排版方式排出排版文件,并将排版文件存储到上述存储器中,然后期刊论文转换为XML数据的装置从所述存储器中获取期刊论文的排版文件。该排版文件可以包括文字、图片、表格、公式等论文相关内容。
S102、将所述排版文件转换为Word文件。
具体地,可以采用相关技术将排版文件转换为Word文件,该Word可以文件包括可以显示的论文内容和在后台运行的论文版式文件,该论文版式文件可以是Word文件中的layout.xml文件。
根据本发明的一个实施方式,layout.xml文件可以包括:论文版式元数据信息、论文拼装元数据的拼装规则、图片对象版式信息、表格对象版式信息、公式对象版式信息。其中,所述论文版式元数据信息包括论文起始页、论文终止页和论文总页数。所述拼装元数据包括论文引用格式、论文编号、DOI。所述图片对象版式信息包括图片大小数据、裁切信息、图片替代图数据。表格对象版式信息包括表格替代图数据。公式对象版式信息包括公式替代图数据。
S103、通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件。
具体地,可以通过Word结构化引擎,将Word文件中的论文内容部分转换为符合JATS标准(Journal Article Tag Suite,期刊文章标签集)的第一XML文件。该第一XML文件中含有论文的文章信息,但是文章的部分元数据信息不存在,需要对第一XML文件进行内容增补,将信息丰富。
S104、提取所述Word文件中的论文版式文件。
根据本发明的一个实施方式,所述Word文件中的论文内容,可以包括:至少一个图片对象、表格对象和公式对象。其中,每一个图片对象有唯一对应的图片对象版式信息,每一表格对象有唯一对应的表格对象版式信息,每一公式对象有唯一对应的公式对象版式信息。
具体地,提取Word文件中的layout.xml文件。
S105、将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件。
具体地,将提取的Word文件中的layout.xml文件增补到所述第一XML文件中,生成第二XML文件。例如,将layout.xml文件输出到Word文件的customXml文件夹中。
根据本发明的一个实施方式,上述步骤S105具体可以包括:建立所述至少一个图片对象、表格对象和公式对象与对应的版式信息的匹配关系。例如,给每个图片对象、表格对象、公式对象标注唯一ID,在相应的对象的版式信息上增加对这个ID的引用。
根据所述匹配关系,将所述版式信息增补到所述第一XML文件中,读取所述论文拼装元数据的拼装规则,根据所述拼装规则,生成论文引用格式、论文编号和DOI(数位物件识别号,Digital Object Identifier,简称DOI),将所述论文引用格式、论文编号和DOI增补到第一XML文件中,生成第二XML文件。
在本发明的另一个实施例中,所述排版文件可以包括:非文章信息,所述非文章信息包括论文的页眉区和边眉区的数据以及内容静态装饰数据。为了避免非文章信息对Word结构化造成干扰,上述步骤S102将所述排版文件转换为Word文件之前,可以对所述非文章信息进行过滤处理,
在本发明的另一个实施例中,所述排版文件包括:论文内容排版数据、论文首页注释区排版数据。为了保证文章内容的连续性,上述步骤S102将所述排版文件转换为Word文件之前,可以将所述论文首页注释区排版数据的输出位置调整到所述论文内容排版数据之前,以使论文首页注释区在文章内容之前输出。
本实施例提供的期刊论文转换为XML数据的方法,通过获取期刊论文的排版文件,将所述排版文件转换为Word文件,通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件,提取所述Word文件中的论文版式文件,将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件,从而将期刊论文转换为了XML数据,可以实现基于XML数据的内容存储和交换,满足用户对期刊论文的数字化需求。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
实施例二
图2为本发明实施例二提供的期刊论文转换为XML数据的装置的结构示意图,如图2所示,该装置可以包括:
获取模块210,用于获取期刊论文的排版文件。
第一转换模块220,用于将所述排版文件转换为Word文件。
第二转换模块230,用于通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件。
提取模块240,用于提取所述Word文件中的论文版式文件。
增补生成模块250,用于将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件。
根据本发明的一个实施方式,所述论文版式文件包括:论文版式元数据信息、论文拼装元数据的拼装规则、图片对象版式信息、表格对象版式信息、公式对象版式信息。其中,
所述论文版式元数据信息包括论文起始页、论文终止页和论文总页数。所述拼装元数据包括论文引用格式、论文编号、DOI。所述图片对象版式信息包括图片大小数据、裁切信息、图片替代图数据。表格对象版式信息包括表格替代图数据。公式对象版式信息包括公式替代图数据。
根据本发明的一个实施方式,所述排版文件包括:非文章信息,所述非文章信息包括论文的页眉区和边眉区的数据以及内容静态装饰数据。
上述装置还可以包括过滤模块,用于所述第一转换模块将所述排版文件转换为Word文件之前,对所述非文章信息进行过滤处理。
根据本发明的一个实施方式,所述排版文件包括:论文内容排版数据、论文首页注释区排版数据。
上述装置还可以包括调整模块,用于所述第一转换模块将所述排版文件转换为Word文件之前,将所述论文首页注释区排版数据的输出位置调整到所述论文内容排版数据之前。
根据本发明的一个实施方式,所述Word文件中的论文内容,包括:至少一个图片对象、表格对象和公式对象。其中,每一个图片对象有唯一对应的图片对象版式信息,每一表格对象有唯一对应的表格对象版式信息,每一公式对象有唯一对应的公式对象版式信息。
所述增补生成模块250,可以包括:第一增补单元,用于建立所述至少一个图片对象、表格对象和公式对象与对应的版式信息的匹配关系。根据所述匹配关系,将所述版式信息增补到所述第一XML文件中。
第二增补单元,用于读取所述论文拼装元数据的拼装规则,根据所述拼装规则,生成论文引用格式、论文编号和DOI,将所述论文引用格式、论文编号和DOI增补到第一XML文件中。生成单元,用于生成第二XML文件。
本实施例提供的期刊论文转换为XML数据的装置,通过获取期刊论文的排版文件,将所述排版文件转换为Word文件,通过Word结构化引擎,将所述Word文件中的论文内容部分转换为预设标准的第一XML文件,提取所述Word文件中的论文版式文件,将所述论文版式文件增补到所述第一XML文件中,生成第二XML文件,从而将期刊论文转换为了XML数据,可以实现基于XML数据的内容存储和交换,满足用户对期刊论文的数字化需求。
实施例三
图3为本发明实施例三提供的电子设备的结构示意图。如图3所示,该电子设备可以包括:存储器310和处理器320。
所述存储器310,用于存储计算机程序。
其中,所述处理器320执行所述存储器310中的计算机程序,以实现上述实施例一中的方法。
具体地,处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行程序指令。
实施例四
本发明实施例四提供了一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序被处理器执行时用于实现实现上述实施例一中的方法。
实际应用中,本实施例中的计算机程序可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
实际应用中,计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。