CN118228696A

CN118228696A - 编辑pdf文档的方法、装置、计算器设备及存储介质

Info

Publication number: CN118228696A
Application number: CN202211649226.5A
Authority: CN
Inventors: 卢胜军; 贾国林; 王超; 陶源; 林文玮
Original assignee: Kaidian Action Technology Co ltd
Current assignee: Kaidian Action Technology Co ltd
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2024-06-21
Also published as: US20240202429A1

Abstract

一种提供可编辑PDF文档的装置，包含显示器、非易失性存储介质、内存以及处理器。所述非易失性存储介质用于记录计算机程序。所述内存用于为所述非易失性存储介质的计算机程序提供运行环境。所述处理器用于执行所述计算机程序解析PDF文档以获取文字块信息，根据文字块的特征产生字块集合，根据所述字块集合的高度及水平位置产生行集合，根据所述行集合每行的高度及水平位置产生段落集合，根据所述段落集合每段落的高度及水平位置产生文本区域集合，及控制所述显示器在所述PDF文档中显示所述文本区域集合以作为可编辑文字区域。

Description

编辑PDF文档的方法、装置、计算器设备及存储介质

技术领域

本发明涉及一种文档处理，更特别涉及一种将便携式文档格式转换为包含多个文本区域和/或图片区域的可编辑PDF文档的方法、装置、计算器设备及存储介质。

背景技术

PDF(便携式文档格式)文档为常用的电子文档。虽然PDF文档可以在任何操作系统上进行阅读，但PDF文档并无法直接编辑。进行编辑时，现有技术需要将PDF文件转换成其它格式的文件，例如办公室软件(Office)。因此，如果仅需要进行微幅编辑，仍然需要将整个PDF文档转换成可编辑的其它格式的文件，于完成编辑后再转回PDF文档，非常不便且浪费时间。

发明内容

有鉴于此，本发明提供一种可将便携式文档格式转换为包含多个文本区域和/或图片区域的可编辑PDF文档的方法、装置、计算器设备及存储介质。进行编辑时，用户只要选择该可编辑PDF文档中的其中一个文本区域或图片区域，即可直接进行微幅编辑。结束编辑后，再回存为PDF文档。

本发明提供一种可编辑PDF文档，以直接在该可编辑PDF文档上选择编辑区域进行编辑，由于无须进行文件格式转换，可有效提高用户经验。

本发明还提供一种将PDF文档转换为可编辑PDF文档的方法、装置、计算器设备及存储介质。

本发明提供一种识别PDF文档方法，该方法包含：解析PDF文档的文本元素以获取文字块信息；解析PDF文档的文本元素以获取文字块信息；在水平方向上判断相邻文字块的特征，合并所述特征相同的文字块以获得字块集合；根据相邻字块集合的第一高度差和第一水平距离决定行集合；根据所述行集合相邻行的第二高度差和第二水平距离决定段落集合；以及根据所述段落集合相邻段落的第三高度差和第三水平距离决定文本区域集合。

本发明还提供一种可编辑PDF文档中的装置，该装置包含显示器、非易失性存储介质、内存以及处理器。所述显示器用于显示PDF文档。所述非易失性存储介质用于记录计算机程序。所述内存用于为所述非易失性存储介质的所述计算机程序的运行提供环境。所述处理器用于执行所述计算机程序解析所述PDF文档以获取文字块信息，根据文字块的特征产生字块集合，根据所述字块集合的高度及水平位置产生行集合，根据所述行集合每行的高度及水平位置产生段落集合，根据所述段落集合每段落的高度及水平位置产生文本区域集合，及控制所述显示器在所述PDF文档中显示所述文本区域集合以作为可编辑文字区域。

本发明还提供一种计算机设备，该计算机设备包含存储器及处理器，所述存储器用于记录计算机程序，所述处理器用于运行所述存储器中的所述计算机程序，以执行本发明实施例的产生可编辑PDF文档的方法。

本发明还提供一种可读存储介质，该可读存储介质记录有计算机程序，该计算机程序被处理器执行时，用于实现本发明实施例的产生可编辑PDF文档的方法。

为了让本发明的上述和其他目的、特征和优点能更明显，下文将配合所附图示，详细说明如下。此外，于本发明的说明中，相同的构件以相同的符号表示，于此合先述明。

附图说明

图1是本发明实施例的计算机设备的方框示意图；

图2是本发明实施例的识别PDF文档以产生文本区域的方法的流程图；

图3A是显示图2的步骤S22产生的字块集合的示意图；

图3B是显示图2的步骤S25产生的行集合的示意图；

图3C是显示图2的步骤S27产生的段落集合的示意图；

图3D是显示图2的步骤S29产生的文本区域集合的示意图；

图4是显示本发明实施例的内存中的自定义数据集合的示意图；及

图5是本发明实施例的编辑PDF文档的方法的流程图。

附图标记说明

100 计算器设备

11 处理器

12 非易失性存储介质

121 操作系统

122 计算机程序

13 内存

14 总线

15 显示器

16 用户接口

具体实施方式

本发明的目的在于提供一种产生可编辑PDF文档的方法、使用该方法识别PDF文档以进行编辑的装置、使用该方法的计算机设备以及可读存储介质。本发明产生的可编辑PDF文档经存储的编辑后PDF文档，可以使用本发明的装置再次开启为可编辑PDF文档，或由其他PDF阅读器开启为一般的(无法直接编辑)PDF文档。

请参照图1所示，其为本发明实施例的计算机设备100的方框图。计算机设备100例如是台式计算机、平板电脑、笔记本电脑等可用于阅读和/或编辑PDF文档的设备，并无特定限制。

计算机设备100包含通过总线14相互连接的处理器11、显示器15、用户接口16以及存储器。该存储器包含非易失性存储介质12和内存13。非易失性存储介质12记录有操作系统(OS)121及计算机程序122。计算机程序122包含用于运行本发明实施例的识别PDF文档及编辑PDF文档的方法的程序，举例说明于下。用户接口16是提供用户操作计算机设备100的装置。

显示器15可为液晶显示器、量子点发光二极管显示器、电浆显示器、有机发光二极管显示器等，并无特定限制。显示器15用于显示PDF文档及可编辑PDF文档。例如，当使用一般PDF阅读器(APP)开启PDF文档时，则显示PDF文档；当使用本发明实施例的装置开启PDF文档并经过本发明实施例的方法识别后，则可产生可编辑PDF文档。

处理器11例如包括中央处理单元(CPU)和/或微处理单元(MCU)，用于提供计算和控制能力，以支撑计算机设备100的运行。处理器11通过总线14运行操作系统121及计算机程序122并存取内存13以及控制显示器15显示相关内容的方式为已知且并非本发明的主要目的，故于此不予赘述。

内存13用于提供非易失性存储介质12中的计算机程序122的运行所需的环境，例如记录解析PDF文档所获得的文本元素(例如包含文字的字体、坐标、颜色、字号等，但不限于此)及图像元素(例如包含图片本身和图片的样式等，但不限于此)等的内容，并供处理器11根据计算机程序122进行存取及计算并存储计算结果。

请参照图2所示，其为本发明实施例的计算机设备100识别PDF文档的方法的流程图，包含下列步骤：解析PDF文档以获取文字块信息(步骤S20)；在水平方向上判断相邻文字块的特征(步骤S21)；合并相同特征的文字块以获得字块集合(步骤S22)；排序字块集合(步骤S23)；判断字块集合的第一高度差和第一水平距离(步骤S24)；产生行集合(步骤S25)；判断行集合的第二高度差、第二水平距离(步骤S261)及行对齐方式(步骤S262)；产生段落集合(步骤S27)；判断段落集合的第三高度差和第三水平距离(步骤S28)以及产生文本区域集合(步骤S29)。

本实施例的识别PDF文档的方法例如可由用户在已开启的PDF文档(未经过本发明的识别方法处理的文档)的工具栏(例如内建于APP)选择编辑/识别PDF文档的选项来开始，但并不限于此。例如，还可在选取开启PDF文档直接进行编辑/识别PDF文档，并无特定限制。

以下举例说明本实施例的编辑/识别PDF文档的方法。

步骤S20：处理器11运行计算机程序122以解析PDF文档获取所有文字块信息(例如包含文字块的字体、坐标、颜色、字号等)并将其以自定义数据结构存放于内存13。本实施例中，所谓文字块例如是英文等的声音文字系统的单一字母，也可以是中文、日文、韩文等的图像文字系统的一个字。

存储方式例如是依照每个文字块的坐标依序存放于内存13中。

步骤S21～S22：接着，处理器11在水平方向上判断相邻文字块的特征是否相同。请同时参照图3A所示，当相邻文字块的特征相同时，则合并相同特征的文字块以得到字块集合，例如显示为字块集合C11、字块集合C21、字块集合C22……。例如，文字块“1”和文字块“.”具有相同的特征，当遇到空格则表示特征变化而形成一个字块集合C21，依此类推。

步骤S23：一种实施方式中，在进行字块集合的排序之前，处理器11可计算每个字块集合C11、C21、C22……中所有文字块的边界的并集，以获得每个字块集合的边界，例如图3A显示围绕在字块集合C11、C21、C22……周围的虚线框。每个字块集合的边界的坐标以自定义数据结构相对每个字块集合存放于内存13中，例如此时每个字块集合的信息包含上述文字特征加上边界坐标/位置。

所述PDF文档的每个字块集合的边界决定后，处理器11按照每个字块集合各自的边界(本说明中称为第一集合边界)依照上到下和左到右的方式在内存13中依序排列，例如使用字块集合的下边界、左边界或下边界与左边界的交点(即边界的左下角，图3A显示为CC21、CC22等)，但不限于此，为参考来进行排序。

步骤S24～S25：接着，处理器11根据相邻字块集合的第一高度差和第一水平距离决定行集合，如图3B所示的L1、L2、L3……。一种实施方式中，处理器11计算相邻字块集合(例如图3A的C21、C22)的两第一集合边界的两相对应点，例如下边界或左下角(例如图3A的CC21、CC22)，的高度差及水平距离以分别作为所述第一高度差及所述第一水平距离。处理器11比较所述第一高度差与预定高度差(例如事前经过统计多个PDF文档所决定)。若第一高度差(例如字块集合C28、C31的高度差)大于预定高度差，则判断不是同一行文字。若第一高度差小于或等于预定高度差，接着比较所述第一水平距离与预定距离(例如事前经过统计多个PDF文档所决定)以决定相邻字块集合是否为同一行文字。若第一水平距离(例如字块集合C28、C31的水平距离)大于预定距离，则判断不是同一行文字。若第一水平距离(例如字块集合C21、C22的水平距离)小于或等于预定距离，则判断属于同一行文字。此步骤亦可先判断水平距离再判断高度差，并无限制。

处理器11判断完字块集合C21、C22后，接着判断字块集合C22、C23，依此类推，直到判断完当前PDF文档的全部字块集合(例如图3A的全部虚线框)，则可形成如图3B显示的行集合L1、L2、L3……。

在形成行集合L1、L2、L3……后，处理器11可计算所述行集合中每行所有字块集合(例如行L2的C21至C28)的边界的并集以获得该行的边界(本说明中称为第二集合边界)。同理，行集合的行边界坐标以自定义数据结构相对每行存放于内存13中。此时，每行(例如L2)的信息包含其所涵盖的所有字块集合(例如C21至C28)的信息加上行边界坐标/位置。

所述PDF文档的行集合的每行边界决定后，处理器11按照每行各自的第二集合边界依照上到下和左到右的方式在内存13中依序排列，例如使用每行的下边界、左边界或下边界与左边界的交点(即边界的左下角，图3B显示为LC2、LC3等)，但不限于此，为参考来进行排序。

步骤S261～S262：接着，处理器11根据相邻行(此时为竖方向上相邻)的第二高度差、第二水平距离及行对齐方式决定段落集合，如图3C所示的P1、P2、P3……。一种实施方式中，处理器11计算相邻行(例如图3B的L2、L3)的两第二集合边界的两相对应点，例如下边界或左下角(例如图3B的LC2、LC3)，的高度差及水平距离以分别作为所述第二高度差及所述第二水平距离。处理器11比较所述第二高度差与预定高度差(例如1.5倍行高，但不限于)。若第二高度差(例如行L3、L4的高度差)大于预定高度差，则判断不是同一段落。若第二高度差小于或等于预定高度差，接着比较所述第二水平距离与预定距离(例如事前经过统计多个PDF文档所决定)以决定相邻行是否属于同一段落。若第二水平距离(例如左下角之间的水平距离)大于预定距离，则不是同一段落。若第二水平距离小于或等于预定距离，则判断属于同一段落。

处理器11还可根据相邻行的首尾边界的距离判断是否具有相同的对齐方式。若对齐方式不同则不是同一段落；若对齐方式相同则属于同一段落。

一种实施方式中，处理器11仅根据相邻行的第二高度差及第二水平距离(相对应行对齐方式)来判断是否属于相同段落。另一种实施方式中，处理器11仅根据相邻行的第二高度差及行对齐方式来判断是否属于相同段落。

处理器11判断完行L1、L2后，接着判断行L2、L3，依此类推，直到计算判断完当前PDF文档行集合的全部行(例如图3B的全部虚线框)，则形成如图3C所示的段落集合P1、P2、P3……。

在形成段落集合P1、P2、P3……后，处理器11可计算所述段落集合每段落中所有行(例如段落P2包含行L2及L3)的边界的并集以获得所述段落集合每段落的边界(本说明中称为第三集合边界)。同理，每段落的边界坐标以自定义数据结构相对每个段落存放于内存13中。此时，每个段落的信息包含其所涵盖的所有行的信息加上段落边界坐标/位置。

所述PDF文档的每个段落的边界决定后，处理器11按照每个段落各自的第三集合边界依照上到下和左到右的方式在内存13中依序排列，例如使用每个段落的下边界、左边界或下边界与左边界的交点(即边界的左下角，图3C显示为PC2、PC3等)，但不限于此，为参考来进行排序。

步骤S28～S29：接着，处理器11根据相邻段落的第三高度差和第三水平距离决定文本区域集合，如图3D所示的TR1、TR2、TR3……。一种实施方式中，处理器11计算相邻段落(例如图3D的TR2、TR3)的两第三集合边界的两相对应点，例如下边界或左下角，的高度差及水平距离以分别作为所述第三高度差及所述第三水平距离。处理器11比较所述第三高度差与预定高度差(例如1.5倍行间距，但不限于)。若第三高度差大于预定高度差，则判断不是同一文本区域。若第三高度差小于或等于预定高度差，接着比较所述第三水平距离与预定距离(例如1.5倍行高，但不限于)以决定相邻段落是否为同一文本区域。若第三水平距离大于预定距离，则判断不是同一文本区域。若第三水平距离小于或等于预定距离，则判断属于同一文本区域。同理，此步骤亦可先判断水平距离再判断高度差，并无限制。

处理器11判断完段落P1、P2后，接着判断段落P2、P3，依此类推，直到判断完当前PDF文档段落集合的全部(例如图3C的全部虚线框)，则形成如图3D所示的文本区域集合TR1、TR2、TR3……。

本发明中，当图2的识别PDF文档的方法完成后，可产生至少一个文本区域。内存13中，则相对每个文本区域(例如图3D的TR2)，存放其所涵盖的段落(例如图3C的P2及P3)；相对每个段落(例如图3C的P2)，存放其所涵盖的行(例如图3B的L2及L3)；相对每行(例如图3B的L2)，存放其所涵盖的字块集合(例如图3A的C21至C28)，以如图4所示的自定义数据结构存储于内存13。如此，当使用图5的编辑方法选取一个文本区域进行编辑时，则可同时选取相关的全部文字块信息。

必须说明的是，由于步骤S20～S28是处理器11在内存13中计算，因此无需显示于显示器15上。处理器11仅需控制显示器15显示步骤S29完成后的文本区域集合的虚线框以表示可编辑文字区域，例如图3D所示。

此外，本发明的识别PDF文档的方法还可包含：解析PDF文档的图片元素并将每张图片视作为图片区域。处理器11还控制显示器15显示所述图片区域外的虚线框(例如图3D所示的PR1)以表示可编辑图片区域。

可以了解的是，可编辑区域并不限于以虚线框表示，还可以其他使用户可分辨的方式，例如反白、实线框、上色等，并无特定限制。

请参照图5所示，其为本发明实施例编辑PDF文档的方法的流程图。

步骤S51：在开启目标PDF文档且执行编辑/识别选项被点选后，处理器11开始执行计算机程序122以执行图2所示的识别PDF文档的方法。例如，处理器11执行计算机程序122解析PDF文档以获取文字块信息，根据文字块的特征产生字块集合(例如参照图3A的C11、C21、C23……)，根据所述字块集合的高度及水平位置产生行集合(例如参照图3B的L1、L4……)，根据所述行集合每行的高度及水平位置产生段落集合(例如参照图3C的P1、P3……)，根据所述段落集合每段落的高度及水平位置产生文本区域集合(例如参照图3D的TR1至TR3)，以及控制显示器15在所述PDF文档中显示所述文本区域集合以作为可编辑文字区域(例如产生额外标示特征，例如虚线框，但不限于)。此外，处理器11还解析PDF文档的图片元素并将每张图片视作为一个图片区域，及控制显示器15在所述PDF文档中显示所述一个图片区域以作为可编辑图片区域(例如参照图3A至图3D的PR1)。

步骤S52：接着，处理器11判断来自用户接口16(例如鼠标、键盘、触控屏幕、手势控制等)的选取信号，以确定选取区域。该选取区域为步骤S51分析版面产生的文本区域集合及图片区域其中一者。当选取区域确定后，处理器11还可控制显示器15显示不同特征以表示被选取，例如虚线框变化成实线框，但不限于此。

步骤S53：接着，处理器11判断所述选取区域是文字区域或图片区域。

步骤S5311～S5312：当判断所述选取区域是文字区域时，则创建文字编辑器，以进行插入、添加、删除、替换及修改文字信息。例如，处理器11用于(I)根据点击(根据用户接口16的控制信号)的位置坐标，在内存13查找其在文本区域的段落中的顺序；(II)接收用户接口16的输入字符；(III)查找当前字符的字体相对应字型，如果存在相对应字型，则输入成功，如果不存在相对应字型，则进入字体库搜索符合字型添加至PDF文档中，然后插入字符；(III)对插入当前字符的段落重新排版；(IV)计算当前段落的边界以确认段落高度是否发生变化，例如以当前段落(即完成编辑的段落)的下边界减去原段落(即编辑前的段落)的下边界，但不限于此；(V)当发生段落高度变化时，将当前段落后面的段落加上所述高度变化，以完成所选择的文本区域中文字的重新排版。处理器11可根据用户接口16的输入对文本区域进行各种编辑，上述实施方式仅用以说明，并非用以限定本发明。

完成一次编辑操作后，将文字编辑器中文字的存储数据结构转换为用于PDF页面渲染的数据结构。

步骤S5321～S5322：当判断所述选取区域是图片区域时，则创建图片编辑器，以进行图片的缩放、移动、裁切、旋转、镜像等操作。图片编辑器例如可使用业界已知的编辑器或自定义编辑器均可，并无特定限制。本发明的特征在于经过步骤S51的版面分析后，可在PDF页面直接选取欲编辑的图片区域进行编辑。

步骤S54：将操作过的文字或图片区域重新生成图像，并刷新显示器15。

步骤S52：将修改后的内容写入PDF文档中以刷新PDF页面，以完成对PDF文档的修改。

如前所述，修改完成的PDF文档经存储后，若使用其他PDF阅读器开启则为一般无法编辑的PDF页面；如果使用本发明的PDF编辑器开启，则可直接开启为可编辑PDF页面或经过选取编辑/识别选项后再次产生可编辑PDF页面。

本发明还提供一种包含存储器及处理器11的计算机设备。所述存储器用于记录计算机程序122，处理器11用于运行所述存储器中的计算机程序122，以执行如图2所示的识别PDF文档及图5的编辑PDF文档的方法。

本发明还提供一种可读存储介质12，该可读存储介质12记录有计算机程序122，该计算机程序122被处理器11执行时用于实现如图2所示的识别PDF文档及图5的编辑PDF文档的方法。

必须说明的是，本发明说明中的所有数值，例如预定高度差及预定距离等仅用于说明，并非用以限定本发明。

综上所述，由于PDF文档通常无法直接编辑，进行编辑时，现有技术需要将PDF文件转换成其它格式的文件，非常不便且浪费时间且有可能在转换过程出现错误。因此，本发明另提供一种用于识别PDF文档以产生可编辑的文本区域及图片区域的方法(参照图2)、可编辑PDF文档的装置(参照图5)、计算器设备及存储介质(参照图1)。藉此，当需要对PDF文档进行微幅编辑时，无需将整份PDF文档转换为其他可编辑文件，而可在本发明所产生的可编辑PDF文档中选取欲编辑的区域直接进行编辑。编辑完成后，可以再回存为编辑后PDF文档，以有效提升用户经验。

虽然本发明已通过前述实例披露，但是其并非用以限定本发明，任何本发明所属技术领域中具有通常知识技术人员，在不脱离本发明的精神和范围内，当可作各种的更动与修改。因此本发明的保护范围当视后附的权利要求所界定的范围为准。

Claims

1.一种识别PDF文档的方法，该方法包含：

解析PDF文档的文本元素以获取文字块信息；

在水平方向上判断相邻文字块的特征，合并所述特征相同的文字块以获得字块集合；

根据相邻字块集合的第一高度差和第一水平距离决定行集合；

根据所述行集合相邻行的第二高度差和第二水平距离决定段落集合；及

根据所述段落集合相邻段落的第三高度差和第三水平距离决定文本区域集合。

2.根据权利要求1所述的方法，还包含：

解析PDF文档的图片元素并将每张图片视作为图片区域。

3.根据权利要求1所述的方法，还包含：

计算所述字块集合中所有文字块的边界的并集以获得所述字块集合的第一集合边界；

计算所述行集合中每行所有字块集合的边界的并集以获得所述每行的第二集合边界；及

计算所述段落集合中每段落所有行的边界的并集以获得所述每段落的第三集合边界。

4.根据权利要求3所述的方法，其中，

所述第一高度差和第一水平距离是根据所述相邻字块集合的两第一集合边界的两相对应点来计算；

所述第二高度差和第二水平距离是根据所述行集合的相邻行的两第二集合边界的两相对应点来计算；及

所述第三高度差和第三水平距离是根据所述段落集合的相邻段落的两第三集合边界的两相对应点来计算。

5.根据权利要求3所述的方法，还包含：

将所述PDF文档的所有字块集合按照各自的所述第一集合边界的下边界依照上到下和左到右的方式依序排列；

将所述PDF文档的所有行按照各自的所述第二集合边界的下边界依照上到下和左到右的方式依序排列；及

将所述PDF文档的所有段落按照各自的所述第三集合边界的下边界依照上到下和左到右的方式依序排列。

6.根据权利要求1所述的方法，其中，所述特征包含文字块的字体、字号及颜色。

7.一种提供可编辑PDF文档的装置，该装置包含：

显示器，用于显示PDF文档；

非易失性存储介质，该非易失性存储介质用于记录计算机程序；

内存，该内存用于为所述非易失性存储介质的所述计算机程序的运行提供环境；以及

处理器，该处理器用于

执行所述计算机程序解析所述PDF文档以获取文字块信息，

根据文字块的特征产生字块集合，

根据所述字块集合的高度及水平位置产生行集合，

根据所述行集合每行的高度及水平位置产生段落集合，

根据所述段落集合每段落的高度及水平位置产生文本区域集合，及

控制所述显示器在所述PDF文档中显示所述文本区域集合以作为可编辑文字区域。

8.根据权利要求7所述的装置，其中，所述处理器还用于

解析所述PDF文档的图片元素并将每张图片视作为一个图片区域，及

控制所述显示器在所述PDF文档中显示所述一个图片区域以作为可编辑图片区域。

9.一种计算机设备，该计算机设备包含存储器及处理器，所述存储器用于记录计算机程序，所述处理器用于运行所述存储器中的所述计算机程序，以执行如权利要求1-6任一项所述的方法。

10.一种可读存储介质，该可读存储介质记录有计算机程序，该计算机程序被处理器执行时，用于实现如权利要求1-6任一项所述的方法。