CN108132920A - 一种xml文件与pdf文件同步关联的方法及装置 - Google Patents

一种xml文件与pdf文件同步关联的方法及装置 Download PDF

Info

Publication number
CN108132920A
CN108132920A CN201810023142.8A CN201810023142A CN108132920A CN 108132920 A CN108132920 A CN 108132920A CN 201810023142 A CN201810023142 A CN 201810023142A CN 108132920 A CN108132920 A CN 108132920A
Authority
CN
China
Prior art keywords
label
pdf document
position information
row
layout position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810023142.8A
Other languages
English (en)
Other versions
CN108132920B (zh
Inventor
王盛华
周祖胜
李艳红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Renhe Huizhi Information Technology Co Ltd
Original Assignee
Beijing Renhe Huizhi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Renhe Huizhi Information Technology Co Ltd filed Critical Beijing Renhe Huizhi Information Technology Co Ltd
Priority to CN201810023142.8A priority Critical patent/CN108132920B/zh
Publication of CN108132920A publication Critical patent/CN108132920A/zh
Application granted granted Critical
Publication of CN108132920B publication Critical patent/CN108132920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请提供一种XML文件与PDF文件同步关联的方法及装置,其中,该方法包括:为可扩展标记语言XML文件中的文本段标签设置对应的标签标识符;在所述XML文件转换为PDF文件的排版过程中,获取所述标签标识符;获取所述标签在所述PDF文件中的排版位置信息;构建所述标签标识符与所述排版位置信息的同步关联映射关系。通过该方法,使用户可以了解XML文件中的标签对应在PDF文件中的具体位置,实现XML文件与PDF文件的同步关联,增强使用方便性,提高工作效率。

Description

一种XML文件与PDF文件同步关联的方法及装置
技术领域
本申请涉及XML技术领域,尤其涉及一种XML文件与PDF文件同步关联的方法及装置。
背景技术
现有技术中,各排版系统采用自身的编辑器进行内容编辑,并通过排版引擎生成PDF文件,这项工作主要应用场景是用户通过PDF进行阅读,通过XML(Extensible MarkupLanguage,可扩展标记语言)编辑器进行内容编辑,这一方式的局限性是我们不能直接通过PDF来定位到需要编辑修改的内容,而是通过打开编辑器,在编辑器里定位修改后再生成PDF,也就是说PDF只起到了阅读的作用,没有提供辅助修改上的快速定位功能。
也就是说,原来的普遍方式是,通过排版系统从XML文件生成PDF文件,用户在阅读PDF文件的过程中若发现需要更改的文本,则需打开XML文件,通过逐行浏览XML文件的源码对需要更改的文本进行查找,在查找到对应的文本后进行修改,并重新生成PDF文件。
但是,由于排版系统只能进行文件格式转换,用户在查看PDF文件时不能直接跳转到XML文件中对应的源码进行修改,即不能了解XML文件的源码与PDF文件中的文本的对应关系,导致修改时操作步骤复杂,效率低的问题。
发明内容
有鉴于此,本申请实施例提供一种XML文件与PDF文件同步关联的方法,以解决现有技术中不能了解XML文件中的源码与PDF文件中的文本的对应关系而导致的修改时操作步骤复杂,效率低的问题。
第一方面,本申请实施例提供一种XML文件与PDF文件同步关联的方法,包括:
为可扩展标记语言XML文件中的文本段标签设置对应的标签标识符;
在所述XML文件转换为PDF文件的排版过程中,获取所述标签标识符;
获取所述标签在所述PDF文件中的排版位置信息;
构建所述标签标识符与所述排版位置信息的同步关联映射关系。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述排版位置信息包括:所述标签在所述PDF文件中的页码以及所在范围的边界坐标。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,获取所述标签在所述PDF文件中的排版位置信息包括:
记录所述标签在所述PDF文件中的页码;
获取所述标签在所述PDF文件中的起始行以及终止行;
基于所述起始行以及终止行确定所述所在范围;
依据确定的所在范围提取所述边界坐标。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,基于所述起始行以及终止行确定所述所在范围包括:
确定所述标签的最后一个字符在所述终止行中的位置;
依据所述起始行、所述起始行至所述终止行之间的中间行以及所述最后一个字符在所述终止行中的位置,确定所述标签标识符在所述PDF文件中的外形轮廓作为所述所在范围。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,基于所述起始行以及终止行确定所述所在范围包括:
确定所述起始行的行边界左上角坐标,以及,确定所述终止行的行边界右下角坐标;
将所述行边界左上角坐标以及所述行边界右下角坐标覆盖的矩形区域作为所述所在范围。
结合第一方面的第一~四种可能的实施方式中任意一种可能的实施方式,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述方法还包括:
接收来自XML源码编辑器的正向搜索请求;其中,所述正向搜索请求中携带有标签标识符;
查询所述同步关联映射关系,获取携带的标签标识符映射的排版位置信息;
将页面定位到所述排版位置信息中包含的页码对应的PDF文件页面及对应栏位,依据所述排版位置信息中包含的所在范围的边界坐标显示所述所在范围。
结合第一方面的第一~四种可能的实施方式中任意一种可能的实施方式,本申请实施例提供了第一方面的第六种可能的实施方式,所述方法还包括:
接收来自用户终端在PDF文件中点击触发的反向搜索请求;其中,所述反向搜索请求中携带有点击的屏幕坐标;
将所述屏幕坐标转换为所述PDF文件的点坐标,获取包含所述点坐标的排版位置信息;
分别计算获取的每一排版位置信息对应的所在范围的中心坐标与所述点坐标的距离,得到最短距离对应的中心坐标对应的排版位置信息;
查询同步关联映射关系,获取得到的排版位置信息映射的标签标识符,将携带有获取的标签标识符的反向搜索请求响应发送至XML源码编辑器;以使所述XML源码编辑器定位到所述获取的标签标识符对应的文本段标签。
结合第一方面的第一~四种可能的实施方式中任意一种可能的实施方式,本申请实施例提供了第一方面的第七种可能的实施方式,所述方法还包括:
接收来自用户终端在PDF文件中点击触发的反向搜索请求;其中,所述反向搜索请求中携带有文本参数以及所述文本参数轮廓对应的屏幕坐标;
将所述屏幕坐标转换为所述PDF文件的多个点坐标,获取包含多个点坐标的排版位置信息;
分别计算获取的每一排版位置信息对应的所在范围的中心坐标与多个点坐标的中心坐标的距离,得到最短距离对应的中心坐标对应的排版位置信息;
查询同步关联映射关系,获取得到的排版位置信息映射的标签标识符,将携带有获取的标签标识符以及所述文本参数的反向搜索请求响应发送至XML源码编辑器;以使所述XML源码编辑器定位到所述获取的标签标识符对应的文本段。
结合第一方面的第六种可能的实施方式,本申请实施例提供了第一方面的第八种可能的实施方式,其中,所述方法还包括:
在所述所在范围内设置每行的中间点坐标,依据所述中间点坐标以及所述边界坐标构建包含各点坐标的节点列表,以对所述所在范围进行划分;
所述分别计算获取的每一排版位置信息对应的所在范围的中心坐标与所述点坐标的距离包括:
依次提取排版位置信息中包含的节点列表,确定提取的节点列表对应的节点中心坐标;
计算所述点坐标分别与节点中心坐标的距离。
第二方面,本申请实施例提供一种XML文件与PDF文件同步关联的装置,包括:
设置模块,用于为XML文件中的文本段标签设置对应的标签标识符;
第一获取模块,用于在所述XML文件转换为PDF文件的排版过程中,获取所述标签标识符;
第二获取模块,用于获取所述标签在所述PDF文件中的排版位置信息;
构建模块,用于构建所述标签标识符与所述排版位置信息的同步关联映射关系。
本申请实施例提供一种XML文件与PDF文件同步关联的方法及装置,其中,该方法为XML文件中的文本段标签设置对应的标签标识符,获取标签的标签标识符以及对应在PDF文件中的排版位置信息后,构建标签标识符与排版位置信息的同步关联映射关系,使用户可以了解XML文件中的标签对应在PDF文件中的具体位置,实现了XML文件与PDF文件的同步关联,增强使用方便性,提高工作效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例一提供的一种XML文件与PDF文件同步关联的方法的流程图;
图2示出了本申请实施例一提供的一种XML文件与PDF文件同步关系的效果示意图;
图3示出了本申请实施例二提供的一种XML文件与PDF文件同步关联的装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有技术中排版系统只能进行文件格式转换,用户在查看PDF文件时不能直接跳转到XML文件中对应的源码进行修改,即不能了解XML文件的源码与PDF文件中的文本的对应关系,导致修改时操作步骤复杂,效率低的问题。基于此,本申请实施例提供一种XML文件与PDF文件同步关联的方法及装置,下面通过实施例进行描述。
实施例一
本申请实施例提供一种XML文件与PDF文件同步关联的方法,如图1所示为该方法的流程图,包括:
S101、为可扩展标记语言XML文件中的文本段标签设置对应的标签标识符。
本申请实施例中,在XML文件转换为PDF文件的过程中,检测XML文件中的文本段标签是否有标签标识符,若有,则获取该标签标识符;若没有,则为该段标签设置对应的标签标识符。
其中包括为每一文本段标签设置一标签标识符;或判断该文本段是否为关联文本段段首,如果是,则为该文本段以及与该文本段相邻的关联文本段设置一标签标识符。例如,当一标题为“2.1.1”的文本段下对应只有一段文本段A时,则可以为“2.1.1”以及文本段A分别设置一个标签标识符,或者为“2.1.1”与文本段A共同设置一个标签标识符;当一标题为“2.1.2”的文本段下对应有两段相邻文本段B、C时,则可以为“2.1.2”以及文本段B、C分别设置一个标签标识符,或者为“2.1.2”与文本段B共同设置一个标签标识符,考虑到文本段B和文本段C可能分布在不同的页码,因此本申请实施例中,为文本段段首以及相邻的关联文本段共同设置一标签标识符。
S102、在所述XML文件转换为PDF文件的排版过程中,获取所述标签标识符。
S103、获取所述标签在所述PDF文件中的排版位置信息。
将获取到的上述标签在PDF文件中的排版位置信息以及标签标识符记录到与PDF同名的同步文件中,以使PDF阅读器打开PDF文件的同时打开同步文件时,获取同步文件中的标签的排版位置信息和标签标识符。
上述排版位置信息包括:上述标签在上述PDF文件中的页码以及所在范围的边界坐标。其中所在范围的边界坐标为边界左上角、左下角、右上角、右下角的四个点坐标,通过标签在PDF文件中的页码以及所在范围的边界坐标,可以确定标签在PDF文件中的位置。
上述步骤S103中,获取上述标签在上述PDF文件中的排版位置信息包括:记录上述标签在上述PDF文件中的页码;获取上述标签在上述PDF文件中的起始行以及终止行;基于上述起始行以及终止行确定上述所在范围;依据确定的所在范围提取上述边界坐标。
在本申请实施例中,基于上述起始行以及终止行确定上述所在范围包括两种方法:
(1)确定上述标签的最后一个字符在上述终止行中的位置;依据上述起始行、上述起始行至上述终止行之间的中间行以及上述最后一个字符在上述终止行中的位置,确定上述标签标识符在上述PDF文件中的外形轮廓作为上述所在范围。
具体的,依据起始行、中间行以及最后一个字符在终止行中的位置的外形轮廓作为所在范围时,若检测到最后一个字符到了行末尾,则该标签在PDF文件中的外形轮廓为初始行的行边界左上角坐标以及终止行行边界右下角坐标覆盖的矩形区域;若检测到最后一个字符不在行末尾,则该标签在PDF文件中的外形轮廓为初始行的行边界的左上角坐标以及终止行最后一个字符所在位置的右下角坐标覆盖的非矩形区域。此外,当XML文件中的标签对应在PDF文件中只有一行时,记录上述标签在PDF文件中的页码,获取该页码中的标签所在行,确定该行中最后一个字符的位置,将位于该行边界的左上角、左下角以及最后一个字符的右上角、右下角的点围成的外形轮廓作为所在范围。
上述依据确定的所在范围提取上述边界坐标包括:提取上述外形轮廓的轮廓点坐标,得到上述边界坐标;或者提取上述外形轮廓中包含的每一行的行边界坐标,得到上述边界坐标。通过提取外形轮廓中每一行的行边界坐标,使排版位置信息更加精确,基于标签标识符与排版位置信息构建的同步关联映射关系更加精确。
(2)确定上述起始行的行边界左上角坐标,以及,确定上述终止行的行边界右下角坐标;将上述行边界左上角坐标以及上述行边界右下角坐标覆盖的矩形区域作为上述所在范围。
确定上述行边界左上角坐标以及上述行边界右下角坐标覆盖的矩形区域作为上述所在范围,提取矩形区域中包含的每一行的行边界坐标,得到边界坐标;或者提取上述矩形区域中包含的每一行的行边界坐标,得到上述边界坐标。通过提取矩形区域中每一行的行边界坐标,使排版位置信息更加精确,基于标签标识符与排版位置信息构建的同步关联映射关系更加精确。
其中,上述边界坐标为普通坐标系的边界坐标,该普通坐标系的原点在整个文档边界的左下角。
S104、构建所述标签标识符与所述排版位置信息的同步关联映射关系。
本申请实施例中,在构建标签标识符与排版位置信息的同步关联映射关系之后,还包括:接收来自XML源码编辑器的正向搜索请求;其中,上述正向搜索请求中携带有标签标识符;查询上述同步关联映射关系,获取携带的标签标识符映射的排版位置信息;将页面定位到上述排版位置信息中包含的页码对应的PDF文件页面,依据上述排版位置信息中包含的所在范围的边界坐标显示上述所在范围。
具体的,当用户点击XML文件中的某段标签时,若该标签有标签标识符,则提取出标签标识符,生成正向搜索请求发送至PDF阅读器,PDF阅读器接收来自XML文件的正向搜索请求后,通过查询构建的同步关联映射关系,获取与标签标识符对应的排版位置信息,其中,排版位置信息包括页码以及所在范围的边界坐标,将该边界坐标进行反转生成PDF坐标系的边界坐标,该PDF坐标系的原点在整个文档边界的左上角,将页面定位到该页码以及PDF坐标系的边界坐标对应的文本处,并高亮显示所在范围的轮廓,能够提示用户搜索到的文本内容,更加清晰直观。
本申请实施例中,在构建标签标识符与排版位置信息的同步关联映射关系之后,还包括:接收来自用户终端在PDF文件中点击触发的反向搜索请求;其中,上述反向搜索请求中携带有点击的屏幕坐标;将上述屏幕坐标转换为上述PDF文件的点坐标,获取包含上述点坐标的排版位置信息;分别计算获取的每一排版位置信息对应的所在范围的中心坐标与上述点坐标的距离,得到最短距离对应的中心坐标对应的排版位置信息;查询同步关联映射关系,获取得到的排版位置信息映射的标签标识符,将携带有获取的标签标识符的反向搜索请求响应发送至XML源码编辑器;以使上述XML源码编辑器定位到上述获取的标签标识符对应的文本段标签。
具体的,PDF阅读器接收到用户终端在PDF文件中点击触发的反向搜索请求后,将反向搜索请求中携带的屏幕坐标转换为PDF坐标系的点坐标,将该点坐标进行反转生成普通坐标系的点坐标,在同步关联映射关系中的排版位置信息中进行查找,获取包含普通坐标系的点坐标的排版位置信息,其中,
若有一条排版位置信息包含该普通坐标系的点坐标,则查询同步关联映射关系,获取与上述排版位置信息对应的标签标识符;
若有多条排版位置信息包含该普通坐标系的点坐标,则分别计算每一排版位置信息对应的所在范围的中心坐标与普通坐标系的点坐标的距离,确定最短距离对应的中心坐标对应的排版位置信息,从而保证定位到XML文件中的文本段标签更加准确,在确定普通坐标系的点坐标对应的排版位置信息后,在同步关联映射关系中进行查询,获取与上述排版位置信息对应的标签标识符,将携带有标签标识符的反向搜索请求响应发送至XML源码编辑器,以使XML源码编辑器根据反向搜索请求响应定位到上述标签标识符对应的文本段标签,并将该文本段标签高亮显示,使用户可以清晰且直观的看到所要查找的文本段标签。
本申请实施例中,在构建标签标识符与排版位置信息的同步关联映射关系之后,还包括:
接收来自用户终端在PDF文件中点击触发的反向搜索请求;其中,所述反向搜索请求中携带有文本参数以及所述文本参数轮廓对应的屏幕坐标;将所述屏幕坐标转换为所述PDF文件的多个点坐标,获取包含多个点坐标的排版位置信息;分别计算获取的每一排版位置信息对应的所在范围的中心坐标与多个点坐标的中心坐标的距离,得到最短距离对应的中心坐标对应的排版位置信息;查询同步关联映射关系,获取得到的排版位置信息映射的标签标识符,将携带有获取的标签标识符以及所述文本参数的反向搜索请求响应发送至XML源码编辑器;以使所述XML源码编辑器定位到所述获取的标签标识符对应的文本段。
如图2所示为本申请实施例提供的XML文件与PDF文件同步关联的效果示意图,用户在PDF文件中选择一段文本时,也能够定位到XML文件中对应的文本段标签处,并显示该文本内容,此外,显示该文本内容之外,在该标签的范围内再对同样的文本内容进行搜索,例如一段话中包含多个“的”字,则将该段话中的“的”字全部高亮显示。
优选的,上述步骤S103中,获取标签在PDF文件中的排版位置信息,还包括:在上述所在范围内设置每行的中间点坐标,依据上述中间点坐标以及上述边界坐标构建包含各点坐标的节点列表,以对上述所在范围进行划分;上述分别计算获取的每一排版位置信息对应的所在范围的中心坐标与上述点坐标的距离包括:依次提取排版位置信息中包含的节点列表,确定提取的节点列表对应的节点中心坐标;计算上述点坐标分别与节点中心坐标的距离。其中,在所在范围内获取边界坐标后,在每行中与各边界坐标等距选择一批点,获取这批点的点坐标,依据中间点和边界坐标构建节点列表,将所在范围划分为多个节点列表,其中,选择的点越多,形成的节点列表越多,在同步关联在响应反向搜索请求时确定包含点击的点坐标的节点列表越准确,即在XML文件中的定位越精确。
通过本申请实施例提供的一种XML文件与PDF文件同步关联的方法,为XML文件中的文本段标签设置对应的标签标识符,在排版过程中,获取标签标识符和标签在PDF文件中的排版位置信息,构建同步关联映射关系,并通过正向搜索协议及反向搜索协议接口,实现XML文件与PDF文件的同步关联,当用户在XML文件或PDF文件中进行点击触发时,能够定位到对应的PDF文件中的文本或是XML文件中的标签;此外,在获取排版位置信息时,通过获取所在范围内每行的边界坐标以及中间点坐标,使定位更加精确;尤其是对于科技期刊的论文编辑或校对,在阅读PDF的同时能实现与内容编辑的同步关联和快速定位非常重要,通过上述方法实现PDF阅读与内容编辑的同步关联,增强使用方便性,提升工作效率;并且将定位到的文本或者标签高亮显示,使用户可以清晰且直观的了解XML文件中的标签与PDF文件中的文本对应的位置,提高了用户的体验度。
实施例二
本申请实施例提供一种XML文件与PDF文件同步关联的装置,如图3所示为该装置的结构示意图,包括:
设置模块201,用于为XML文件中的文本段标签设置对应的标签标识符;
第一获取模块202,用于在所述XML文件转换为PDF文件的排版过程中,获取所述标签标识符;
第二获取模块203,用于获取所述标签在所述PDF文件中的排版位置信息;
构建模块204,用于构建所述标签标识符与所述排版位置信息的同步关联映射关系。
可选的,所述第二获取模块203用于:
记录所述标签在所述PDF文件中的页码;获取所述标签在所述PDF文件中的起始行以及终止行;基于所述起始行以及终止行确定所述所在范围;依据确定的所在范围提取所述边界坐标。
可选的,所述第二获取模块203具体用于:
确定所述标签的最后一个字符在所述终止行中的位置;依据所述起始行、所述起始行至所述终止行之间的中间行以及所述最后一个字符在所述终止行中的位置,确定所述标签标识符在所述PDF文件中的外形轮廓作为所述所在范围。
可选的,所述第二获取模块203具体用于:
确定所述起始行的行边界左上角坐标,以及,确定所述终止行的行边界右下角坐标;将所述行边界左上角坐标以及所述行边界右下角坐标覆盖的矩形区域作为所述所在范围。
可选的,所述装置还包括:
第一接收模块,用于接收来自XML源码编辑器的正向搜索请求;其中,所述正向搜索请求中携带有标签标识符;
查询模块,用于查询所述同步关联映射关系,获取携带的标签标识符映射的排版位置信息;
定位模块,用于将页面定位到所述排版位置信息中包含的页码对应的PDF文件页面,依据所述排版位置信息中包含的所在范围的边界坐标显示所述所在范围。
可选的,所述装置还包括:
第二接收模块,用于接收来自用户终端在PDF文件中点击触发的反向搜索请求;其中,所述反向搜索请求中携带有点击的屏幕坐标;
转换模块,用于将所述屏幕坐标转换为所述PDF文件的点坐标,获取包含所述点坐标的排版位置信息;
计算模块,用于分别计算获取的每一排版位置信息对应的所在范围的中心坐标与所述点坐标的距离,得到最短距离对应的中心坐标对应的排版位置信息;
查询模块,用于查询同步关联映射关系,获取得到的排版位置信息映射的标签标识符,将携带有获取的标签标识符的反向搜索请求响应发送至XML源码编辑器;以使所述XML源码编辑器定位到所述获取的标签标识符对应的文本段标签。
可选的,第二接收模块203还用于接收来自用户终端在PDF文件中点击触发的反向搜索请求;其中,所述反向搜索请求中携带有文本参数以及所述文本参数轮廓对应的屏幕坐标;
转换模块还用于将所述屏幕坐标转换为所述PDF文件的多个点坐标,获取包含多个点坐标的排版位置信息;
计算模块还用于分别计算获取的每一排版位置信息对应的所在范围的中心坐标与多个点坐标的中心坐标的距离,得到最短距离对应的中心坐标对应的排版位置信息;
查询模块还用于查询同步关联映射关系,获取得到的排版位置信息映射的标签标识符,将携带有获取的标签标识符以及所述文本参数的反向搜索请求响应发送至XML源码编辑器;以使所述XML源码编辑器定位到所述获取的标签标识符对应的文本段。
可选的,所述第二获取模块203还用于:
在所述所在范围内设置每行的中间点坐标,依据所述中间点坐标以及所述边界坐标构建包含各点坐标的节点列表,以对所述所在范围进行划分;所述分别计算获取的每一排版位置信息对应的所在范围的中心坐标与所述点坐标的距离包括:依次提取排版位置信息中包含的节点列表,确定提取的节点列表对应的节点中心坐标;计算所述点坐标分别与节点中心坐标的距离。
本申请实施例提供的一种XML文件与PDF文件同步关联的方法及装置,其中,该方法为XML文件中的文本段标签设置对应的标签标识符,在排版过程中,获取标签标识符和标签在PDF文件中的排版位置信息,构建同步关联映射关系,并通过正向搜索协议及反向搜索协议接口,实现XML文件与PDF文件的同步关联,当用户在XML文件或PDF文件中进行点击触发时,能够定位到对应的PDF文件中的文本或是XML文件中的标签;此外,在获取排版位置信息时,通过获取所在范围内每行的边界坐标以及中间点坐标,使定位更加精确;尤其是对于科技期刊的论文编辑或校对,在阅读PDF的同时能实现与内容编辑的同步关联和快速定位非常重要,通过上述方法实现PDF阅读与内容编辑的同步关联,增强使用方便性,提升工作效率;并且将定位到的文本或者标签高亮显示,使用户可以清晰且直观的了解XML文件中的标签与PDF文件中的文本对应的位置,提高了用户的体验度。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种XML文件与PDF文件同步关联的方法,其特征在于,包括:
为可扩展标记语言XML文件中的文本段标签设置对应的标签标识符;
在所述XML文件转换为PDF文件的排版过程中,获取所述标签标识符;
获取所述标签在所述PDF文件中的排版位置信息;
构建所述标签标识符与所述排版位置信息的同步关联映射关系。
2.根据权利要求1所述的方法,其特征在于,所述排版位置信息包括:所述标签在所述PDF文件中的页码以及所在范围的边界坐标。
3.根据权利要求2所述的方法,其特征在于,获取所述标签在所述PDF文件中的排版位置信息包括:
记录所述标签在所述PDF文件中的页码;
获取所述标签在所述PDF文件中的起始行以及终止行;
基于所述起始行以及终止行确定所述所在范围;
依据确定的所在范围提取所述边界坐标。
4.根据权利要求3所述的方法,其特征在于,基于所述起始行以及终止行确定所述所在范围包括:
确定所述标签的最后一个字符在所述终止行中的位置;
依据所述起始行、所述起始行至所述终止行之间的中间行以及所述最后一个字符在所述终止行中的位置,确定所述标签标识符在所述PDF文件中的外形轮廓作为所述所在范围。
5.根据权利要求3所述的方法,其特征在于,基于所述起始行以及终止行确定所述所在范围包括:
确定所述起始行的行边界左上角坐标,以及,确定所述终止行的行边界右下角坐标;
将所述行边界左上角坐标以及所述行边界右下角坐标覆盖的矩形区域作为所述所在范围。
6.根据权利要求2至5任一项所述的方法,其特征在于,所述方法还包括:
接收来自XML源码编辑器的正向搜索请求;其中,所述正向搜索请求中携带有标签标识符;
查询所述同步关联映射关系,获取携带的标签标识符映射的排版位置信息;
将页面定位到所述排版位置信息中包含的页码对应的PDF文件页面,依据所述排版位置信息中包含的所在范围的边界坐标显示所述所在范围。
7.根据权利要求2至5任一项所述的方法,其特征在于,所述方法还包括:
接收来自用户终端在PDF文件中点击触发的反向搜索请求;其中,所述反向搜索请求中携带有点击的屏幕坐标;
将所述屏幕坐标转换为所述PDF文件的点坐标,获取包含所述点坐标的排版位置信息;
分别计算获取的每一排版位置信息对应的所在范围的中心坐标与所述点坐标的距离,得到最短距离对应的中心坐标对应的排版位置信息;
查询同步关联映射关系,获取得到的排版位置信息映射的标签标识符,将携带有获取的标签标识符的反向搜索请求响应发送至XML源码编辑器;以使所述XML源码编辑器定位到所述获取的标签标识符对应的文本段标签。
8.根据权利要求2至5任一项所述的方法,其特征在于,所述方法还包括:
接收来自用户终端在PDF文件中点击触发的反向搜索请求;其中,所述反向搜索请求中携带有文本参数以及所述文本参数轮廓对应的屏幕坐标;
将所述屏幕坐标转换为所述PDF文件的多个点坐标,获取包含多个点坐标的排版位置信息;
分别计算获取的每一排版位置信息对应的所在范围的中心坐标与多个点坐标的中心坐标的距离,得到最短距离对应的中心坐标对应的排版位置信息;
查询同步关联映射关系,获取得到的排版位置信息映射的标签标识符,将携带有获取的标签标识符以及所述文本参数的反向搜索请求响应发送至XML源码编辑器;以使所述XML源码编辑器定位到所述获取的标签标识符对应的文本段。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
在所述所在范围内设置每行的中间点坐标,依据所述中间点坐标以及所述边界坐标构建包含各点坐标的节点列表,以对所述所在范围进行划分;
所述分别计算获取的每一排版位置信息对应的所在范围的中心坐标与所述点坐标的距离包括:
依次提取排版位置信息中包含的节点列表,确定提取的节点列表对应的节点中心坐标;
计算所述点坐标分别与节点中心坐标的距离。
10.一种XML文件与PDF文件同步关联的装置,其特征在于,包括:
设置模块,用于为XML文件中的文本段标签设置对应的标签标识符;
第一获取模块,用于在所述XML文件转换为PDF文件的排版过程中,获取所述标签标识符;
第二获取模块,用于获取所述标签在所述PDF文件中的排版位置信息;
构建模块,用于构建所述标签标识符与所述排版位置信息的同步关联映射关系。
CN201810023142.8A 2018-01-10 2018-01-10 一种xml文件与pdf文件同步关联的方法及装置 Active CN108132920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810023142.8A CN108132920B (zh) 2018-01-10 2018-01-10 一种xml文件与pdf文件同步关联的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810023142.8A CN108132920B (zh) 2018-01-10 2018-01-10 一种xml文件与pdf文件同步关联的方法及装置

Publications (2)

Publication Number Publication Date
CN108132920A true CN108132920A (zh) 2018-06-08
CN108132920B CN108132920B (zh) 2018-12-18

Family

ID=62399675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810023142.8A Active CN108132920B (zh) 2018-01-10 2018-01-10 一种xml文件与pdf文件同步关联的方法及装置

Country Status (1)

Country Link
CN (1) CN108132920B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897730A (zh) * 2018-06-29 2018-11-27 国信优易数据有限公司 一种pdf文本的处理方法以及装置
CN110308769A (zh) * 2019-06-28 2019-10-08 维沃移动通信有限公司 一种信息显示方法及终端
WO2019242125A1 (zh) * 2018-06-19 2019-12-26 平安科技(深圳)有限公司 企业上下游关系的获取方法、装置、终端设备及介质
CN112307718A (zh) * 2020-11-25 2021-02-02 北京邮电大学 一种基于文本特征和语法规则的pdf全自动标引系统及方法
CN112541331A (zh) * 2020-07-21 2021-03-23 源杉数据科技(上海)有限公司 一种基于编写搜索查看同步同屏的电子文档填充方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140055803A1 (en) * 2005-10-14 2014-02-27 Uhlig Llc Dynamic Variable-Content Publishing
CN103678421A (zh) * 2012-09-25 2014-03-26 北京大学 一种修改电子公文的方法和装置
CN103970799A (zh) * 2013-02-04 2014-08-06 百度在线网络技术(北京)有限公司 一种电子文档的生成方法、装置和客户端
CN104111915A (zh) * 2013-04-17 2014-10-22 北大方正集团有限公司 一种大版成书预览方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140055803A1 (en) * 2005-10-14 2014-02-27 Uhlig Llc Dynamic Variable-Content Publishing
CN103678421A (zh) * 2012-09-25 2014-03-26 北京大学 一种修改电子公文的方法和装置
CN103970799A (zh) * 2013-02-04 2014-08-06 百度在线网络技术(北京)有限公司 一种电子文档的生成方法、装置和客户端
CN104111915A (zh) * 2013-04-17 2014-10-22 北大方正集团有限公司 一种大版成书预览方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李园园: "XML-TeX-PDF文档转换方法与实现", 《指挥信息系统与技术》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019242125A1 (zh) * 2018-06-19 2019-12-26 平安科技(深圳)有限公司 企业上下游关系的获取方法、装置、终端设备及介质
CN108897730A (zh) * 2018-06-29 2018-11-27 国信优易数据有限公司 一种pdf文本的处理方法以及装置
CN108897730B (zh) * 2018-06-29 2022-07-29 国信优易数据股份有限公司 一种pdf文本的处理方法以及装置
CN110308769A (zh) * 2019-06-28 2019-10-08 维沃移动通信有限公司 一种信息显示方法及终端
CN110308769B (zh) * 2019-06-28 2021-08-24 维沃移动通信有限公司 一种信息显示方法及终端
CN112541331A (zh) * 2020-07-21 2021-03-23 源杉数据科技(上海)有限公司 一种基于编写搜索查看同步同屏的电子文档填充方法
CN112307718A (zh) * 2020-11-25 2021-02-02 北京邮电大学 一种基于文本特征和语法规则的pdf全自动标引系统及方法
CN112307718B (zh) * 2020-11-25 2021-05-11 北京邮电大学 一种基于文本特征和语法规则的pdf全自动标引系统及方法

Also Published As

Publication number Publication date
CN108132920B (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN108132920B (zh) 一种xml文件与pdf文件同步关联的方法及装置
KR101325757B1 (ko) 가상 마커 생성을 이용한 증강 현실 제공 장치 및 방법
US8718364B2 (en) Apparatus and method for digitizing documents with extracted region data
US9569541B2 (en) Evaluating preferences of content on a webpage
CN102800052B (zh) 非标准地图的半自动数字化方法
CN102339275B (zh) 电子书籍批注处理方法及装置
US20120042288A1 (en) Systems and methods for interactions with documents across paper and computers
JP2003308480A (ja) オンライン手書き文字パターン認識編集装置及び方法並びに当該方法を実現するコンピュータ実行可能なプログラム
AU2013287381A1 (en) Method and apparatus for controlling application by handwriting image recognition
TW201447731A (zh) 墨文本表示轉換
CN101901338A (zh) 一种试卷分数统计方法及系统
CN104966311A (zh) 一种用于手写签批系统的矢量图型存储方法
US20140145974A1 (en) Image processing apparatus, image processing method and storage medium
KR20140039517A (ko) 필기 기반으로 특정 기능을 실행하는 방법 및 그에 따른 디바이스
CN105404612A (zh) 一种数字资源的显示方法及系统
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JP2001092967A (ja) 図面認識装置および図面認識方法
CN116245052A (zh) 一种图纸迁移方法、装置、设备和存储介质
CN104978171A (zh) 可识别标识的输出方法及装置
US11663398B2 (en) Mapping annotations to ranges of text across documents
US7124371B1 (en) GUI screen generating apparatus, GUI screen generating method and storage medium recording GUI screen generating program
KR20150097250A (ko) 태그 정보를 이용한 스케치 검색 시스템, 사용자 장치, 서비스 제공 장치, 그 서비스 방법 및 컴퓨터 프로그램이 기록된 기록매체
CN110909726B (zh) 一种基于图像识别的书面文档互动系统和方法
CN102722490A (zh) 一种电子阅读器的取词方法、取词装置及电子阅读器
KR20140043961A (ko) 필기 기반으로 특정 기능을 실행하는 방법 및 그에 따른 디바이스

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant