CN109871518B - 一种科技论文网络版pdf文档生成方法及装置 - Google Patents

一种科技论文网络版pdf文档生成方法及装置 Download PDF

Info

Publication number
CN109871518B
CN109871518B CN201910108137.1A CN201910108137A CN109871518B CN 109871518 B CN109871518 B CN 109871518B CN 201910108137 A CN201910108137 A CN 201910108137A CN 109871518 B CN109871518 B CN 109871518B
Authority
CN
China
Prior art keywords
document
content
paraphrase
link
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910108137.1A
Other languages
English (en)
Other versions
CN109871518A (zh
Inventor
王盛华
李艳红
徐柱芝
王德刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Renhe Huizhi Information Technology Co Ltd
Original Assignee
Beijing Renhe Huizhi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Renhe Huizhi Information Technology Co Ltd filed Critical Beijing Renhe Huizhi Information Technology Co Ltd
Priority to CN201910108137.1A priority Critical patent/CN109871518B/zh
Publication of CN109871518A publication Critical patent/CN109871518A/zh
Application granted granted Critical
Publication of CN109871518B publication Critical patent/CN109871518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本申请实施例提供了一种科技论文网络版PDF文档生成方法及装置,通过文档内容中的编码标识确定文档中不同内容之间关联引用的内部关联链接,以及确定文档中参考文献的第一外部链接和关联文档的第二外部链接,并将内部关联链接、第一外部链接、引文基本信息、第二外部链接与文档内容结合来生成网络版PDF文件,实现文档的关联阅读与延伸阅读,方便用户在阅读时对文档中内容的查找和对相关内容的拓展阅读,无需用户进行过多额外的操作,简单便捷,省时省力,有利于提高用户的交互阅读体验和使用感。

Description

一种科技论文网络版PDF文档生成方法及装置
技术领域
本申请涉及文档处理技术领域,尤其是涉及一种科技论文网络版PDF文档生成方法及装置。
背景技术
随着互联网的发展,科技论文与数字出版的理念相结合已成为发展趋势,网络中存在很多文件都是以便携式文档格式(Portable Document Format,PDF)显示在网络中。目前,在科技期刊和科技论文的出版及发布过程中,通常是以PDF文件的形式来进行印刷出版的,或者发布到网站上,方便下载后进行交流阅读。
但是,在采用PDF文件形式的科技期刊以及科技论文中,只能静止阅读,不能与互联网资源相关联以及交互阅读,不适合于数字出版互联网时代的发展要求,用户体验差。
发明内容
有鉴于此,本申请提供了一种科技论文网络版PDF文档生成方法及装置,以方便实现文档交互阅读,提高用户的使用感。
本申请实施例提供了一种科技论文网络版PDF文档生成方法,所述方法包括:
从文档的正文内容中识别目标内容项的编码标识,其中,所述文档包括所述正文内容以及所述正文内容的释义内容;
基于所述编码标识,设置所述释义内容中与所述目标内容项对应的释义项与所述目标内容项之间的内部关联链接;
确定所述释义内容中参考文献的数字对象唯一标识符DOI信息;
基于所述DOI信息,确定所述参考文献的引用源与所述参考文献之间第一外部链接;
确定关联文档的引文基本信息以及第二外部链接,其中,所述关联文档与所述文档之间的关联匹配度大于预设阈值;
基于所述内部关联链接、所述第一外部链接、所述引文基本信息、所述第二外部链接、所述正文内容和所述释义内容,生成与所述文档相对应的网络版便携式文档格式PDF文件。
进一步的,在所述从文档的正文内容中识别目标内容项的编码标识之前,所述方法包括:
对文档正文内容中的目标内容项进行标注处理;
基于标注处理后,确定所述目标内容项的编码标识,其中,每一目标内容项具有唯一编码标识。
进一步的,所述基于所述编码标识,设置所述释义内容中与所述目标内容项对应的释义项与所述目标内容项之间的内部关联链接,包括:
确定所述释义内容中与所述目标内容项对应的释义项的引用位置信息;
将所述引用位置信息与所述编码标识进行结构化关联引用;
基于所述结构化关联引用,设置所述释义项与所述释义项对应的目标内容项之间的内部关联链接。
进一步的,确定所述释义内容中参考文献的数字对象唯一标识符DOI信息,包括:
确定所述释义内容中参考文献的文献元信息;
基于所述文献元信息和DOI信息注册服务商接口,反解析获得所述参考文献相应的DOI信息。
进一步的,确定关联文档的第二外部链接,包括:
基于所述文档的元数据信息及加权设置,确定与所述文档关联匹配的关联文档;
在所述释义内容中显示所述关联文档的引文基本信息;
确定所述文档与所述关联文档的第二外部链接。
进一步的,基于所述内部关联链接、所述第一外部链接、所述引文基本信息、所述第二外部链接、所述正文内容和所述释义内容,生成与所述文档相对应的网络版便携式文档格式PDF文件,包括:
对所述释义内容中的图片内容进行每英寸点数DPI分辨率压缩处理;
将所述内部关联链接添加至所述正文内容中,并将所述第一外部链接添加至所述释义内容中,将所述引文基本信息及所述第二外部链接添加至所述正文内容中;
基于添加有所述内部关联链接的所述正文内容,添加有所述第一外部链接的所述释义内容,以及添加有所述引文基本信息与所述第二外部链接的所述关联文档内容,生成网络版PDF版式的科技论文文件。
本申请实施例还提供了一种科技论文网络版PDF文档生成装置,所述科技论文网络版PDF文档生成装置包括:
识别模块,用于从文档的正文内容中识别目标内容项的编码标识,其中,所述文档包括所述正文内容以及所述正文内容的释义内容;
设置模块,用于基于所述编码标识,设置所述释义内容中与所述目标内容项对应的释义项与所述目标内容项之间的内部关联链接;
第一确定模块,用于确定所述释义内容中参考文献的数字对象唯一标识符DOI信息;
第二确定模块,用于基于所述DOI信息,确定所述参考文献的引用源与所述参考文献之间第一外部链接;
第三确定模块,用于确定关联文档的引文基本信息以及第二外部链接,其中,所述关联文档与所述文档之间的关联匹配度大于预设阈值;
生成模块,用于基于所述内部关联链接、所述第一外部链接、所述引文基本信息、所述第二外部链接、所述正文内容和所述释义内容,生成与所述文档相对应的网络版便携式文档格式PDF文件。
进一步的,所述装置还包括:
标注模块,用于对文档正文内容中的目标内容项进行标注处理;
第四确定模块,用于基于所述标注处理,确定所述目标内容项的编码标识,其中,每一目标内容项具有唯一编码标识。
进一步的,所述设置模块包括:
第一确定单元,用于确定所述释义内容中与所述目标内容项对应的释义项的引用位置信息;
关联单元,用于将所述引用位置信息与所述编码标识进行结构化关联引用;
设置单元,用于基于结构化关联引用,设置所述释义项与所述释义项对应的目标内容项之间的内部关联链接。
进一步的,所述第一确定模块包括:
第二确定单元,用于确定所述释义内容中参考文献的文献元信息;
解析单元,用于基于所述文献元信息和DOI信息注册服务商接口,反解析获得所述参考文献相应的DOI信息。
进一步的,所述第三确定模块包括:
第三确定单元,用于基于所述文档的元数据信息及加权设置,确定与所述文档关联匹配的关联文档;
显示单元,用于在所述释义内容中显示所述关联文档的引文基本信息;
第四确定单元,用于确定所述文档与所述关联文档的第二外部链接。
进一步的,所述生成模块包括:
压缩单元,用于对所述释义内容中的图片内容进行每英寸点数DPI分辨率压缩处理;
添加单元,用于将所述内部关联链接添加至所述正文内容中,并将所述第一外部链接添加至压缩后所述释义内容中,将所述引文基本信息及所述第二外部链接添加至所述正文内容中;
生成单元,用于基于添加有所述内部关联链接的所述正文内容,添加有所述第一外部链接的所述释义内容,以及添加有所述引文基本信息与所述第二外部链接的所述关联文档内容,生成网络版PDF版式的科技论文文件。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的科技论文网络版PDF文档生成方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的科技论文网络版PDF文档生成方法的步骤。
本申请实施例提供的科技论文网络版PDF文档生成方法及装置,从文档的正文内容中识别目标内容项的编码标识,其中,所述文档包括所述正文内容以及所述正文内容的释义内容;基于所述编码标识,设置所述释义内容中与所述目标内容项对应的释义项与所述目标内容项之间的内部关联链接;确定所述释义内容中参考文献的数字对象唯一标识符DOI信息;基于所述DOI信息,确定所述参考文献的引用源与所述参考文献之间第一外部链接;确定关联文档的第二外部链接,其中,所述关联文档与所述文档之间的关联匹配度大于预设阈值;基于所述内部关联链接、所述第一外部链接、所述第二外部链接、所述正文内容和所述释义内容,生成与所述文档相对应的网络版便携式文档格式PDF文件。
这样,本申请通过文档内容中的编码标识确定文档的内部关联链接,以及确定文档中参考文献的第一外部链接和关联文档的第二外部链接,并将内部关联链接、第一外部链接、第二外部链接与文档内容结合来生成网络版PDF文件,将科技论文与数字出版的理念相结合,以实现文档的关联阅读与延伸阅读,方便用户在阅读时对文档中内容的查找和对相关内容的拓展阅读,无需用户进行过多额外的操作,简单便捷,省时省力,有利于提高用户的交互阅读体验和使用感。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为一种可能的应用场景下的系统架构图;
图2为本申请一实施例提供的一种科技论文网络版PDF文档生成方法的流程图;
图3为本申请另一实施例提供的一种科技论文网络版PDF文档生成方法的流程图;
图4为本申请一实施例提供的一种科技论文网络版PDF文档生成装置的结构图之一;
图5为本申请一实施例提供的一种科技论文网络版PDF文档生成装置的结构图之二;
图6为图4中所示的设置模块的结构图;
图7为图4中所示的第一确定模块的结构图;
图8为图4中所示的第三确定模块的结构图;
图9为图4中所示的生成模块的结构图;
图10为本申请一实施例提供的电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可以应用文档处理领域,通过向文档中添加内部关联链接以及外部链接实现交互阅读,形成网络版PDF文件,实现关联阅读与延伸阅读,提高用户使用感。请参阅图1,图1为一种可能的应用场景下的系统架构图。如图1中所示,所述系统包括用户装置和PDF文档生成装置,用户可以通过所述用户装置将需要出版、印刷或者发布的文档发送给PDF文档生成装置,PDF文档生成装置可以接收用户通过所述用户装置发送的文档,然后通过对文档中内容的识别,可以确定文档的内部关联链接和外部链接,再将文档的内容结合内部关联链接和外部链接生成网络版的PDF文件,以实现关联阅读与延伸阅读。
经研究发现,通常PDF文件普遍是用来印刷出版的,或者发布到网站上,方便下载后进行交流阅读。采用PDF文件形式的科技期刊以及科技论文中,只能静止阅读,不能与互联网资源相关联以及交互阅读,不适合于数字出版互联网时代的发展要求,用户体验差。
基于此,本申请实施例提供的科技论文网络版PDF文档生成方法,通过向文档中添加内部关联链接以及外部链接实现交互阅读,形成网络版PDF文件,实现关联阅读与延伸阅读,提高用户使用感。
请参阅图2,图2为本申请一实施例提供的一种科技论文网络版PDF文档生成方法的流程图。如图2中所示,本申请实施例提供的科技论文网络版PDF文档生成方法,包括:
步骤201、从文档的正文内容中识别目标内容项的编码标识,其中,所述文档包括所述正文内容以及所述正文内容的释义内容。
该步骤中,PDF文档生成装置在接收到待处理的文档后,可以自动对接收到的文档中的正文内容进行检测,从而从所述正文内容中识别出目标内容项的编码标识。
其中,所述文档包括所述正文内容,以及与所述正文内容相对应的所述正文内容的释义内容。
其中,所述目标内容项为所述文档中的正文内容对于图、表、公式以及参考文献的引用项和/或内容解释项,如在正文内容中出现的“如图1所示”,或者是在某项专业性术语或者文献名称等内容的附加项“1-5”等方式的引用项和/或内容解释项。所述的释义内容为所述文档中除了所述正文内容之外的,用于对所述正文内容进行解释说明或者补充说明的图、表、公式以及参考文献等内容。
步骤202、基于所述编码标识,设置所述释义内容中与所述目标内容项对应的释义项与所述目标内容项之间的内部关联链接。
该步骤中,在识别出所述编码标识后,所述PDF文档生成装置可以将将识别出的所述编码标识与所述释义内容中与所述目标内容项对应的释义项进行关联,以在所述编码标识与所述释义项之间设置出内部关联链接,通过所述编码标识表示的目标内容项可以跳转至相应的释义项处,实现文档中文本与图像的关联、文本与引用项之间的关联等,以便用户进行查看。
其中,所述释义项包括所述文档中的图、表、公式以及参考文献中的至少一种。不同的目标内容项与不同的释义项相对应,如若目标内容项为“如图1所示”,则与之对应的释义项为文档中的标有“图1”的图片;若目标内容项为“[1-5]”则与之对应的释义项为文档后第一到第五个参考文献。
这样,将释义项与目标内容项之间设置内部关联链接,在后续阅读文档的时候,可以通过该内部关联链接从目标内容项的位置处跳转至释义项的位置处,实现了文档内容的关联阅读,便于用户的查阅,无需手动翻页等操作进行查找,简单便捷。
步骤203、确定所述释义内容中参考文献的数字对象唯一标识符DOI信息。
该步骤中,所述PDF文档生成装置在接收到待处理的文档后,可以自动对接收到的文档中的释义内容进行检测,以检测出所述释义内容中的参考文献的信息,然后可以根据所述参考文献的信息,如所述参考文献的名称、作者和日期等信息,来确定出所述参考文献的数字对象唯一标识符(Digital Object Unique Identifier,DOI)信息。
步骤204、基于所述DOI信息,确定所述参考文献的引用源与所述参考文献之间第一外部链接。
该步骤中,所述PDF文档生成装置在确定了参考文献的DOI信息后,可以进一步的根据所述DOI信息来确定所述参考文献的引用源,即可以提供所述参考文献的具体文献内容以及可以查找到该参考文献的具体出处的源头,然后可以根据所述参考文献的引用源的位置信息等引文基本信息,在所述参考文献与所述引用源之间设置第一外部链接,以便可以通过所述第一外部链接跳转至所述参考文献的引用源,以供用户查阅所述参考文献的文献内容和其他信息等。
具体的,设置所述引用源与所述参考文献之间第一外部链接,可以是通过在所述释义内容中所述参考文献的位置处,在所述参考文献的相关显示信息前添加所述参考文献的前缀“http://dx.doi.org/”等方式,以此将所述参考文献的第一外部链接设置在所述释义内容中。
这样,在参考文献的引用源与参考文献之间设置第一外部链接,在后续阅读文档的时候,可以通过该第一外部链接从文档中的参考文献的位置处跳转至参考文献的引用源位置处,即跳转至该参考文献的具体出处的源头,如某个文库或者某个数据库中该参考文献处,实现了文档的关联阅读,可以供用户查阅该参考文献的文献内容。
步骤205、确定关联文档的引文基本信息以及第二外部链接,其中,所述关联文档与所述文档之间的关联匹配度大于预设阈值;
该步骤中,所述PDF文档生成装置可以通过对所述文档的内容进行匹配,如通过与所述文档中的正文内容进行匹配,来确定出与所述文档之间的关联匹配度大于预设阈值关联文档,获取所述关联文档的引文基本信息,并可以根据所述关联文档的引文基本信息,来确定出所述关联文档与所述文档之间的第二外部链接。
其中,在进行匹配所述文档的关联文档时,可以将匹配出的文档与所述文档之间的相似度值进行排序,然后对相似度进行评估,来评估匹配出的文档与所述文档的关联匹配度是否大于预设阈值,如果匹配出的文档与所述文档的关联匹配度大于预设阈值,则认定此文档是与所述文档关联度较高的文档,就可以将与所述文档之间的关联匹配度大于预设阈值的文档作为所述关联文档,否则将不被认作为关联文档。
其中,所述引文基本信息包括作者、标题、刊名、年、卷、期、起始页、结束页、DOI、统一资源定位符(Uniform Resource Locator,URL)链接等信息中的至少一者。
此时,上述的释义内容中除用于对所述正文内容进行解释说明或者补充说明的图、表、公式以及参考文献等内容之外,还包括所述关联文档的引文基本信息。
这样,可以通过确定文档与关联文档之间的第二外部链接,可以供用户查看关联文档,实现了文档的延伸阅读。
步骤206、基于所述内部关联链接、所述第一外部链接、所述引文基本信息、所述第二外部链接、所述正文内容和所述释义内容,生成与所述文档相对应的网络版便携式文档格式PDF文件。
该步骤中,所述PDF文档生成装置在确定了所述内部关联链接、所述第一外部链接和所述第二外部链接后,可以将所述内部关联链接、所述第一外部链接、所述引文基本信息和所述第二外部链接与所述正文内容和所述释义内容进行融合,生成与所述文档相对应的网络版PDF文件。
本申请实施例提供的科技论文网络版PDF文档生成方法,从文档的正文内容中识别目标内容项的编码标识,其中,所述文档包括所述正文内容以及所述正文内容的释义内容;基于所述编码标识,设置所述释义内容中与所述目标内容项对应的释义项与所述目标内容项之间的内部关联链接;确定所述释义内容中参考文献的数字对象唯一标识符DOI信息;基于所述DOI信息,确定所述参考文献的引用源与所述参考文献之间第一外部链接;确定关联文档的引文基本信息以及第二外部链接,其中,所述关联文档与所述文档之间的关联匹配度大于预设阈值;基于所述内部关联链接、所述第一外部链接、所述引文基本信息、所述第二外部链接、所述正文内容和所述释义内容,生成与所述文档相对应的网络版便携式文档格式PDF文件。
这样,本申请通过文档内容中的编码标识确定文档的内部关联链接,以及确定文档中参考文献的第一外部链接和关联文档的第二外部链接,并将内部关联链接、第一外部链接、所述引文基本信息、第二外部链接与文档内容结合来生成网络版PDF文件,将科技论文与数字出版的理念相结合,以实现文档的关联阅读与延伸阅读,方便用户在阅读时对文档中内容的查找和对相关内容的拓展阅读,无需用户进行过多额外的操作,简单便捷,省时省力,有利于提高用户的交互阅读体验和使用感。
请参阅图3,图3为本申请另一实施例提供的科技论文网络版PDF文档生成方法的流程图。如图3中所示,本申请实施例提供的科技论文网络版PDF文档生成方法,包括:
步骤301、从文档的正文内容中识别目标内容项的编码标识,其中,所述文档包括所述正文内容以及所述正文内容的释义内容。
步骤302、基于所述编码标识,设置所述释义内容中与所述目标内容项对应的释义项与所述目标内容项之间的内部关联链接。
步骤303、确定所述释义内容中参考文献的数字对象唯一标识符DOI信息。
步骤304、基于所述DOI信息,确定所述参考文献的引用源与所述参考文献之间第一外部链接。
步骤305、确定关联文档的引文基本信息以及第二外部链接,其中,所述关联文档与所述文档之间的关联匹配度大于预设阈值。
步骤306、对所述释义内容中的图片内容进行每英寸点数DPI分辨率压缩处理。
该步骤中,所述PDF文档生成装置可以根据PC端和移动端的阅读要求,适当的对所述文档中的图片进行DPI分辨率压缩,如将所述文档中释义内容中的图片进行分辨率转换,或者是将所述文档中释义内容中的图片进行格式转换,以转换为低分辨率的图片,例如可以将原来用于印刷使用的高分辨率图片自动压缩为72dpi分辨率,在很大程度上减小了图片的大小,从而降低了文档的大小。
步骤307、将所述内部关联链接添加至所述正文内容中,并将所述第一外部链接添加至所述释义内容中,将所述引文基本信息及所述第二外部链接添加至所述正文内容中。
该步骤中,所述PDF文档生成装置在确定了所述内部关联链接、所述第一外部链接和所述第二外部链接之后,可以将确定了的所述内部关联链接添加至所述正文内容中,并且将确定了的所述第一外部链接和所述第二外部链接添加至对应的压缩后图片中,以将所述内部关联链接、所述第一外部链接以及所述第二外部链接,与所述文档的正文内容和释义内容进行融合。
步骤308、基于添加有所述内部关联链接的所述正文内容,添加有所述第一外部链接的所述释义内容,以及添加有所述引文基本信息与所述第二外部链接的所述关联文档内容,生成网络版PDF版式的科技论文文件。
该步骤中,所述PDF文档生成装置可以使用添加有所述内部关联链接的所述正文内容,添加有所述第一外部链接、引文基本信息以及第二外部链接的所述正文内容和所述释义内容进行文档的生成,从而来得到生成的网络版PDF版式的科技论文文件。
其中,步骤301至步骤305的描述可以参照步骤201至步骤205的描述,在此不做赘述。
进一步的,步骤301之前还包括:对文档正文内容中的目标内容项进行标注处理;基于所述标注处理,确定所述目标内容项的编码标识,其中,每一目标内容项具有唯一编码标识。
该步骤中,所述PDF文档生成装置在接收到所述文档后,可以对所述文档的正文内容进行解析等处理,来识别出所述正文内容中需要进行可以标注的目标内容项,然后就可以对所述目标内容进行标注处理,如使用XML工具等方式对文档中的目标内容项进行完整的XML结构化标注,从而使得所述目标内容项都具有唯一的编码标识,接着,就可以确定标注后的所述目标内容项的编码标识。
其中,所述结构化标注可以是对所述文档的内容进行结构化处理和碎片化处理,并通过编码等方式对目标内容项进行编码标识的标注。具体的,可以根据待处理的科技期刊论文文档的文档格式,提取所述文档中文档元素;其中,不同文档元素的元素属性不同;根据提取的所述文档元素的元素属性,将所述文档划分为至少一个级别的数据块;其中,每一个级别对应至少一个数据块,且同一级别的所述数据块之间的元素属性不同;根据每一个数据块的内容信息以及预设的元素属性规则,将划分的至少一个级别的数据块转化为XML数据,从而将文档转化为XML格式。
进一步的,步骤302包括:确定所述释义内容中与所述目标内容项对应的释义项的引用位置信息;将所述引用位置信息与所述编码标识进行结构化关联引用;基于所述结构化关联引用,设置所述释义项与该释义项对应的目标内容项之间的内部关联链接。
该步骤中,所述PDF文档生成装置可以通过查询或者检测等方式,来确定所述释义内容中与所述目标内容项对应的释义项的位置信息,并可以通过所述位置信息,来确定所述释义项的引用位置,如在跳转至所述释义项所述表示的内容时,需要跳转至哪个位置,然后可以将所述引用位置信息与所述目标内容项的编码标识进行结构化关联引用,即将所述引用位置与所述编码标识进行结构化关联引用,在将所述引用位置信息和所述编码标识进行关联,即设置结构化关联引用的关系后,可以在所述释义项与该释义项对应的目标内容项之间设置内部关联链接,如设置内部锚点超链接的形式,以实现从所述目标内容项处可以跳转至所述释义项所在的位置,供用户进行翻阅。
其中,所述的结构化关联引用具体是指在结构化和碎片化过程中,建立起元素对象与其被引用内容之间的关联关系。
进一步的,步骤303包括:确定所述释义内容中参考文献的文献元信息;基于所述文献元信息和DOI信息注册服务商接口,反解析所述参考文献相应的DOI信息。
该步骤中,所述PDF文档生成装置可以对所述释义内容进行XML结构化处理,来识别出所述释义内容中的参考文献,并可以反解析出所述参考文献的文献元信息,接着可以将得到的文献元信息进行组合,将组合后的文献元信息作为唯一标识,并调用DOI注册服务商接口,从DOI注册服务商接口进入DOI注册服务商对应的数据库中,查找出所述参考文献,从而实现根据所述文档中参考文献的文献元信息对所述参考文献的反解析,最后,可以从DOI注册服务商对应的数据库中显示的所述参考文献的信息反解析得到该参考文献的DOI信息。
其中,所述结构化处理可以是对所述文档的内容进行结构化处理和碎片化处理。
其中,所述参考文献的文献元信息可以包括该参考文献的作者、标题、刊名、年、卷、期、起始页、结束页等信息中的至少一者。
其中,所述DOI注册服务商可以是国际DOI官方注册商Crossref、万方ChinaDOI以及中国知网等。
进一步的,步骤305包括:基于所述文档的元数据信息及加权设置,确定与所述文档关联匹配的关联文档;在所述释义内容中显示所述关联文档的引文基本信息;确定所述文档与所述关联文档的第二外部链接。
该步骤中,所述PDF文档生成装置可以从所述文档中提取出所述文档的一些预设的关键词等文档信息,并可以根据文档信息确定所述文档的元数据信息,然后使用所述元数据信息在文档库中进行查找和匹配,来确定与所述文档关联匹配的初选文档,并且可以得到匹配出的每个初选文档与所述文档之间的关联匹配度,可以将关联匹配度高的几篇关联文档,如将关联匹配度大于预设阈值的初选文档确定为所述文档的关联文档,为了便于用户直观的了解所述关联文档,可以获取所述关联文档的引文基本信息,并可以将所述引文基本信息中不同信息项按照固定的格式进行组合,并将组合后的引文基本信息显示在所述释义内容中,如在所述文档的正文内容前面的部分释义内容处显示所述关联文档的引文基本信息,此外,还可以确定所述关联文档的第二外部链接,所述第二外部链接为所述关联文档的引文基本信息与外部数据库之间的链接。
其中,所述元数据信息包括关键词、标题、正文、栏目、摘要等信息中的至少一者。
本申请实施例提供的科技论文网络版PDF文档生成方法,从文档的正文内容中识别目标内容项的编码标识,其中,所述文档包括所述正文内容以及所述正文内容的释义内容;基于所述编码标识,设置所述释义内容中与所述目标内容项对应的释义项与所述目标内容项之间的内部关联链接;确定所述释义内容中参考文献的数字对象唯一标识符DOI信息;基于所述DOI信息,确定所述参考文献的引用源与所述参考文献之间第一外部链接;确定关联文档的引文基本信息以及第二外部链接,其中,所述关联文档与所述文档之间的关联匹配度大于预设阈值;对所述释义内容中的图片内容进行每英寸点数DPI分辨率压缩处理;将所述内部关联链接添加至所述正文内容中,并将所述第一外部链接添加至所述释义内容中,将所述引文基本信息及所述第二外部链接添加至所述正文内容中;基于添加有所述内部关联链接的所述正文内容,添加有所述第一外部链接的所述释义内容,以及添加有所述引文基本信息与所述第二外部链接的所述关联文档内容,生成网络版PDF版式的科技论文文件。
这样,本申请通过文档内容中的编码标识确定文档的内部关联链接,以及确定文档中参考文献的第一外部链接和关联文档的第二外部链接,并将内部关联链接、第一外部链接、引文基本信息、第二外部链接与文档内容结合来生成网络版PDF文件,同时通过压缩文档中图片的大小,降低了文档的大小,将科技论文与数字出版的理念相结合,以实现文档的关联阅读与延伸阅读,方便用户在阅读时对文档中内容的查找和对相关内容的拓展阅读,无需用户进行过多额外的操作,简单便捷,省时省力,有利于提高用户的交互阅读体验和使用感。
请参阅图4,图4为本申请一实施例提供的科技论文网络版PDF文档生成装置的结构图之一,图5为本申请一实施例提供的科技论文网络版PDF文档生成装置的结构图之二,图6为图4中所示的设置模块的结构图,图7为图4中所示的第一确定模块的结构图,图8为图4中所示的第三确定模块的结构图,图9为图4中所示的生成模块的结构图。如图4中所示,所述科技论文网络版PDF文档生成装置400包括:
识别模块410,用于从文档的正文内容中识别目标内容项的编码标识,其中,所述文档包括所述正文内容以及所述正文内容的释义内容;
设置模块420,用于基于所述编码标识,设置所述释义内容中与所述目标内容项对应的释义项与所述目标内容项之间的内部关联链接;
第一确定模块430,用于确定所述释义内容中参考文献的数字对象唯一标识符DOI信息;
第二确定模块440,用于基于所述DOI信息,确定所述参考文献的引用源与所述参考文献之间第一外部链接;
第三确定模块450,用于确定关联文档的引文基本信息以及第二外部链接,其中,所述关联文档与所述文档之间的关联匹配度大于预设阈值;
生成模块460,用于基于所述内部关联链接、所述第一外部链接、所述引文基本信息、所述第二外部链接、所述正文内容和所述释义内容,生成与所述文档相对应的网络版便携式文档格式PDF文件。
进一步的,如图5中所示,所述科技论文网络版PDF文档生成装置400还包括:
标注模块470,用于对文档正文内容中的目标内容项进行标注处理;
第四确定模块480,用于基于标注处理后,确定所述目标内容项的编码标识,其中,每一目标内容项具有唯一编码标识。
进一步的,如图6中所示,所述设置模块420包括:
第一确定单元421,用于确定所述释义内容中与所述目标内容项对应的释义项的引用位置信息;
关联单元422,用于将所述引用位置信息与所述编码标识进行结构化关联引用;
设置单元423,用于基于结构化关联引用,设置所述释义项与该释义项对应的目标内容项之间的内部关联链接。
进一步的,如图7中所示,所述第一确定模块430包括:
第二确定单元431,用于确定所述释义内容中参考文献的文献元信息;
解析单元432,用于基于所述文献元信息和DOI信息注册服务商接口,反解析所述参考文献相应的DOI信息。
进一步的,如图8中所示,所述第三确定模块450包括:
第三确定单元451,用于基于所述文档的元数据信息及加权设置,确定与所述文档关联匹配的关联文档;
显示单元452,用于在所述释义内容中显示所述关联文档的引文基本信息;
第四确定单元453,用于确定所述文档与所述关联文档的第二外部链接。
进一步的,如图9中所示,所述生成模块460包括:
压缩单元461,用于对所述释义内容中的图片内容进行每英寸点数DPI分辨率压缩处理;
添加单元462,用于将所述内部关联链接添加至所述正文内容中,并将所述第一外部链接添加至压缩后所述释义内容中,将所述引文基本信息及所述第二外部链接添加至所述正文内容中;
生成单元463,用于基于添加有所述内部关联链接的所述正文内容,添加有所述第一外部链接的所述释义内容,以及添加有所述引文基本信息与所述第二外部链接的所述关联文档内容,生成网络版PDF版式的科技论文文件。
本实施例中的科技论文网络版PDF文档生成装置400,可以实现如图2和图3所示实施例中的科技论文网络版PDF文档生成方法的全部方法步骤,并可以达到相同的效果,在此不做赘述。
本申请实施例提供的科技论文网络版PDF文档生成装置,通过从文档的正文内容中识别目标内容项的编码标识,其中,所述文档包括所述正文内容以及所述正文内容的释义内容;基于所述编码标识,设置所述释义内容中与所述目标内容项对应的释义项与所述目标内容项之间的内部关联链接;确定所述释义内容中参考文献的数字对象唯一标识符DOI信息;基于所述DOI信息,确定所述参考文献的引用源与所述参考文献之间第一外部链接;确定关联文档的引文基本信息以及第二外部链接,其中,所述关联文档与所述文档之间的关联匹配度大于预设阈值;基于所述内部关联链接、所述第一外部链接、所述引文基本信息、所述第二外部链接、所述正文内容和所述释义内容,生成与所述文档相对应的网络版便携式文档格式PDF文件。
这样,本申请通过文档内容中的编码标识确定文档的内部关联链接,以及确定文档中参考文献的第一外部链接和关联文档的第二外部链接,并将内部关联链接、第一外部链接、第二外部链接与文档内容结合来生成网络版PDF文件,将科技论文与数字出版的理念相结合,以实现文档的关联阅读与延伸阅读,方便用户在阅读时对文档中内容的查找和对相关内容的拓展阅读,无需用户进行过多额外的操作,简单便捷,省时省力,有利于提高用户的交互阅读体验和使用感。
请参阅图10,图10为本申请一实施例提供的电子设备的结构图。如图10中所示,所述电子设备1000包括处理器1010、存储器1020和总线1030。
所述存储器1020存储有所述处理器1010可执行的机器可读指令,当电子设备1000运行时,所述处理器1010与所述存储器1020之间通过总线1030通信,所述机器可读指令被所述处理器1010执行时,可以执行如上述图2以及图3所示方法实施例中的科技论文网络版PDF文档生成方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图2以及图3所示方法实施例中的科技论文网络版PDF文档生成方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (6)

1.一种科技论文网络版PDF文档生成方法,其特征在于,所述方法包括:
对文档正文内容中的目标内容项进行标注处理;
基于所述标注处理,确定所述目标内容项的编码标识,其中,每一目标内容项具有唯一编码标识;
其中,所述标注处理为XML结构化标注,并基于所述XML结构化标注将所述文档转化为XML格式;
从文档的正文内容中识别目标内容项的编码标识,其中,所述文档包括所述正文内容以及所述正文内容的释义内容;
基于所述编码标识,设置所述释义内容中与所述目标内容项对应的释义项与所述目标内容项之间的内部关联链接;
确定所述释义内容中参考文献的数字对象唯一标识符DOI信息;
基于所述DOI信息,确定所述参考文献的引用源与所述参考文献之间第一外部链接;
确定关联文档的引文基本信息以及第二外部链接,其中,所述关联文档与所述文档之间的关联匹配度大于预设阈值;
基于所述内部关联链接、所述第一外部链接、所述引文基本信息、所述第二外部链接、所述正文内容和所述释义内容,生成与所述文档相对应的网络版便携式文档格式PDF文件;
其中,确定关联文档的引文基本信息以及第二外部链接,包括:
基于所述文档的元数据信息及加权设置,确定与所述文档关联匹配的关联文档;
在所述释义内容中显示所述关联文档的引文基本信息;
确定所述文档与所述关联文档的第二外部链接;
其中,基于所述内部关联链接、所述第一外部链接、所述引文基本信息、所述第二外部链接、所述正文内容和所述释义内容,生成与所述文档相对应的网络版便携式文档格式PDF文件,包括:
对所述释义内容中的图片内容进行每英寸点数DPI分辨率压缩处理;
将所述内部关联链接添加至所述正文内容中,并将所述第一外部链接添加至所述释义内容中,将所述引文基本信息及所述第二外部链接添加至所述正文内容中;
基于添加有所述内部关联链接的所述正文内容,添加有所述第一外部链接的所述释义内容,以及添加有所述引文基本信息与所述第二外部链接的所述关联文档内容,生成网络版PDF版式的科技论文文件。
2.根据权利要求1所述的方法,其特征在于,基于所述编码标识,设置所述释义内容中与所述目标内容项对应的释义项与所述目标内容项之间的内部关联链接,包括:
确定所述释义内容中与所述目标内容项对应的释义项的引用位置信息;
将所述引用位置信息与所述编码标识进行结构化关联引用;
基于所述结构化关联引用,设置所述释义项与所述释义项对应的目标内容项之间的内部关联链接。
3.根据权利要求1所述的方法,其特征在于,确定所述释义内容中参考文献的数字对象唯一标识符DOI信息,包括:
确定所述释义内容中参考文献的文献元信息;
基于所述文献元信息和DOI信息注册服务商接口,反解析获得所述参考文献相应的DOI信息。
4.一种科技论文网络版PDF文档生成装置,其特征在于,所述装置包括:
标注模块,用于对文档正文内容中的目标内容项进行标注处理;
第四确定模块,用于基于所述标注处理,确定所述目标内容项的编码标识,其中,每一目标内容项具有唯一编码标识;
其中,所述标注处理为XML结构化标注,并基于所述XML结构化标注将所述文档转化为XML格式;
识别模块,用于从文档的正文内容中识别目标内容项的编码标识,其中,所述文档包括所述正文内容以及所述正文内容的释义内容;
设置模块,用于基于所述编码标识,设置所述释义内容中与所述目标内容项对应的释义项与所述目标内容项之间的内部关联链接;
第一确定模块,用于确定所述释义内容中参考文献的数字对象唯一标识符DOI信息;
第二确定模块,用于基于所述DOI信息,确定所述参考文献的引用源与所述参考文献之间第一外部链接;
第三确定模块,用于确定关联文档的引文基本信息以及第二外部链接,其中,所述关联文档与所述文档之间的关联匹配度大于预设阈值;
生成模块,用于基于所述内部关联链接、所述第一外部链接、所述引文基本信息、所述第二外部链接、所述正文内容和所述释义内容,生成与所述文档相对应的网络版便携式文档格式PDF文件;
其中,所述第三确定模块包括:
第三确定单元,用于基于所述文档的元数据信息及加权设置,确定与所述文档关联匹配的关联文档;
显示单元,用于在所述释义内容中显示所述关联文档的引文基本信息;
第四确定单元,用于确定所述文档与所述关联文档的第二外部链接;
所述生成模块包括:
压缩单元,用于对所述释义内容中的图片内容进行每英寸点数DPI分辨率压缩处理;
添加单元,用于将所述内部关联链接添加至所述正文内容中,并将所述第一外部链接添加至压缩后所述释义内容中,将所述引文基本信息及所述第二外部链接添加至所述正文内容中;
生成单元,用于基于添加有所述内部关联链接的所述正文内容,添加有所述第一外部链接的所述释义内容,以及添加有所述引文基本信息与所述第二外部链接的所述关联文档内容,生成网络版PDF版式的科技论文文件。
5.根据权利要求4所述的装置,其特征在于,所述设置模块包括:
第一确定单元,用于确定所述释义内容中与所述目标内容项对应的释义项的引用位置信息;
关联单元,用于将所述引用位置信息与所述编码标识进行结构化关联引用;
设置单元,用于基于所述结构化关联引用,设置所述释义项与所述释义项对应的目标内容项之间的内部关联链接。
6.根据权利要求4所述的装置,其特征在于,所述第一确定模块包括:
第二确定单元,用于确定所述释义内容中参考文献的文献元信息;
解析单元,用于基于所述文献元信息和DOI信息注册服务商接口,反解析获得所述参考文献相应的DOI信息。
CN201910108137.1A 2019-02-02 2019-02-02 一种科技论文网络版pdf文档生成方法及装置 Active CN109871518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910108137.1A CN109871518B (zh) 2019-02-02 2019-02-02 一种科技论文网络版pdf文档生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910108137.1A CN109871518B (zh) 2019-02-02 2019-02-02 一种科技论文网络版pdf文档生成方法及装置

Publications (2)

Publication Number Publication Date
CN109871518A CN109871518A (zh) 2019-06-11
CN109871518B true CN109871518B (zh) 2020-01-10

Family

ID=66918606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910108137.1A Active CN109871518B (zh) 2019-02-02 2019-02-02 一种科技论文网络版pdf文档生成方法及装置

Country Status (1)

Country Link
CN (1) CN109871518B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417782A (zh) * 2021-12-28 2022-04-29 北京有竹居网络技术有限公司 展示方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326306A (zh) * 2015-07-03 2017-01-11 湖南科兴达信息科技有限公司 Pdf文件自动识别生成数字报刊技术
CN106777043A (zh) * 2016-12-09 2017-05-31 宁波大学 一种基于lda的学术资源获取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8527863B2 (en) * 2011-06-08 2013-09-03 International Business Machines Corporation Navigating through cross-referenced documents
CN107644019A (zh) * 2016-07-20 2018-01-30 江苏云媒数字科技有限公司 一种超媒体电子书内容制作系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326306A (zh) * 2015-07-03 2017-01-11 湖南科兴达信息科技有限公司 Pdf文件自动识别生成数字报刊技术
CN106777043A (zh) * 2016-12-09 2017-05-31 宁波大学 一种基于lda的学术资源获取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
国内外部分文献数据库检索系统相关文献功能浅析;王军辉 等;《中华医学图书情报杂志》;20100515;第19卷(第5期);第68-71页 *
数字出版时代科技期刊PDF文件的深度优化;王影 等;《出版发行研究》;20141215;第2014年卷(第12期);第64-66页 *

Also Published As

Publication number Publication date
CN109871518A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
US9239884B2 (en) Electronic document processing with automatic generation of links to cited references
US8707167B2 (en) High precision data extraction
JP4150452B2 (ja) フォントの取得方法、登録方法および印刷方法
US20160283606A1 (en) Method for performing webpage loading, device and browser thereof
US20240019989A1 (en) Information presentation method and apparatus, and computer storage medium
US10417267B2 (en) Information processing terminal and method, and information management apparatus and method
CN107704615B (zh) 基于中文字体子集化的网页字体显示方法及系统
US10057449B2 (en) Document analysis system, image forming apparatus, and analysis server
US8411956B2 (en) Associating optical character recognition text data with source images
CN107391535B (zh) 在文档应用中搜索文档的方法及装置
CN106951270B (zh) 一种代码处理方法、系统及服务器
CN111460835B (zh) 辅助翻译方法、装置及电子设备
CN109871518B (zh) 一种科技论文网络版pdf文档生成方法及装置
CN117957561A (zh) 字体服务系统的网络字体服务方法
CN111881183A (zh) 企业名称匹配方法和装置、以及存储介质和电子设备
CN114817726A (zh) 一种话题推荐方法、装置、计算机设备及存储介质
JP2019040260A (ja) 情報処理装置及びプログラム
CN112733056B (zh) 一种文档处理方法、装置、设备及存储介质
US8447748B2 (en) Processing digitally hosted volumes
WO2008130501A1 (en) Unstructured and semistructured document processing and searching and generation of value-based information
CN113127776A (zh) 面包屑路径生成方法、装置及终端设备
CN114997137A (zh) 一种文档信息抽取方法、装置、设备及可读存储介质
CN110727887B (zh) 一种基于二维码的图书链接处理方法
CN111783482A (zh) 一种文本翻译方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant