CN114118011A - 文档处理方法、电子设备及存储介质 - Google Patents

文档处理方法、电子设备及存储介质 Download PDF

Info

Publication number
CN114118011A
CN114118011A CN202111394749.5A CN202111394749A CN114118011A CN 114118011 A CN114118011 A CN 114118011A CN 202111394749 A CN202111394749 A CN 202111394749A CN 114118011 A CN114118011 A CN 114118011A
Authority
CN
China
Prior art keywords
document
text
target page
unit
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111394749.5A
Other languages
English (en)
Inventor
程超
魏戡
张恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangyue Technology Co Ltd
Original Assignee
Zhangyue Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangyue Technology Co Ltd filed Critical Zhangyue Technology Co Ltd
Priority to CN202111394749.5A priority Critical patent/CN114118011A/zh
Publication of CN114118011A publication Critical patent/CN114118011A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种文档处理方法、电子设备及存储介质。其中,文档处理方法包括:获取版式文档,版式文档包括至少一个目标页面;对版式文档进行解析,确定目标页面的单位元素信息,单位元素信息包括单位元素在目标页面上的元素信息,单位元素包括文本元素和/或图片;根据单位元素信息对目标页面进行区域划分,得到多个单位区域,其中,单位区域中包括一种单位元素;对目标页面中的各单位区域进行元素合并,得到文本段落和/或图片;根据文本段落和/或图片在目标页面上的元素信息,对版式文档进行格式转换,得到流式文档。本发明能够将版式文档从固定版面的版式文件转换为支持调整的流式文件,给注释笔记的转换提供了可能性,提升了文档处理的效率。

Description

文档处理方法、电子设备及存储介质
技术领域
本公开涉及电子书技术领域,尤其涉及一种文档处理方法、电子设备及存储介质。
背景技术
随着互联网技术的快速发展,电子版的文档得到越来越多地使用和关注。
版式文档,例如PDF文档,因其不依赖操作系统的语言、字体及显示设备等特性,成为电子文档中常用的一种。目前,在阅读器中显示版式文档时存在因版式固定不可调造成显示效果不好的缺陷,相关技术中可以根据电子设备的屏幕类型进行简单重排,但是这种方式处理效率较低,不能满足用户的调整需求。
发明内容
为了解决相关技术中文档处理效率较低的技术问题,本公开提供了一种文档处理方法、电子设备及存储介质,以提升文档处理的效率。
第一方面,本公开实施例提供了一种文档处理方法,包括:
获取版式文档,所述版式文档包括至少一个目标页面;
对所述版式文档进行解析,确定所述目标页面的单位元素信息,所述单位元素信息包括单位元素在所述目标页面上的元素信息,所述单位元素包括文本元素和/或图片;
根据所述单位元素信息对所述目标页面进行区域划分,得到多个单位区域,其中,所述单位区域中包括一种单位元素;
对所述目标页面中的各所述单位区域进行元素合并,得到文本段落和/或图片;
根据所述文本段落和/或所述图片在所述目标页面上的元素信息,对所述版式文档进行格式转换,得到流式文档。
第二方面,本公开实施例提供了一种电子设备,包括:
处理器;
存储器,用于存储可执行指令;
其中,处理器用于从存储器中读取可执行指令,并执行可执行指令以执行以下操作:
获取版式文档,所述版式文档包括至少一个目标页面;
对所述版式文档进行解析,确定所述目标页面的单位元素信息,所述单位元素信息包括单位元素在所述目标页面上的元素信息,所述单位元素包括文本元素和/或图片;
根据所述单位元素信息对所述目标页面进行区域划分,得到多个单位区域,其中,所述单位区域中包括一种单位元素;
对所述目标页面中的各所述单位区域进行元素合并,得到文本段落和/或图片;
根据所述文本段落和/或所述图片在所述目标页面上的元素信息,对所述版式文档进行格式转换,得到流式文档。
第三方面,本公开实施例提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现第一方面的文档处理方法。
上述技术方案中的一个技术方案具有如下优点或有益效果:
依据本公开实施例的文档处理方法、电子设备及存储介质,能够获取版式文档,版式文档包括至少一个目标页面,对版式文档进行解析,确定目标页面的单位元素信息,单位元素信息包括单位元素在目标页面上的元素信息,单位元素包括文本元素和/或图片;根据单位元素信息对目标页面进行区域划分,得到多个单位区域,其中,单位区域中包括一种单位元素,之后对目标页面中的各单位区域进行元素合并,得到文本段落和/或图片,然后根据文本段落和/或图片在目标页面上的元素信息,对版式文档进行格式转换,得到流式文档。本公开实施例通过对版式文档的解析、区域划分、元素合并以及格式转换操作,能够将版式文档从固定版面的版式文件转换为支持调整的流式文件,进而能够满足后续展示时的用户的多种调整需求,同时也给注释笔记的转换提供了可能性,并且由于转换过程不依赖于阅读器,提升了文档处理的效率。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本公开实施例提供的一种文档处理方法的流程示意图;
图2为本公开实施例提供的一种版式文档的示意图;
图3为本公开实施例提供的一种文档解析的示意图;
图4为本公开实施例提供的一种元素合并的示意图;
图5为本公开实施例提供的一种流式文档的示意图;
图6为本公开实施例提供的另一种文档处理方法的流程示意图;
图7为本公开实施例提供的一种阅读器展示流式文档的示意图;
图8为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
为了解决相关技术中版式文档处理效率较低的技术问题,本公开实施例提供了一种文档处理方法,下面结合具体的实施例对该方法进行介绍。
图1为本公开实施例提供的一种文档处理方法的流程示意图,该方法可以由在线学习装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在电子设备中。如图1所示,该方法包括:
步骤101、获取版式文档,版式文档包括至少一个目标页面。
本公开实施例的文档处理方法可以应用于阅读器,阅读器可以是任意一种能够展示电子文档给用户,使用户实现文档阅读的电子设备,包括墨水屏阅读器等。
其中,版式文档可以为固定版面的文档,也即版面呈现效果固定的电子文档,版式文档的呈现效果与设备无关,在各种设备上阅读、打印或印刷时,其版面的呈现结果都是一致的。在本公开实施例中,版式文档可以包括PDF文档、OFD文档、XPS文档、CEB文档等中的至少一种,也即上述版式文档的格式仅为示例,还可以有其他的格式。目标页面可以是版式文档包括的页面,一个版式文档中可以包括一个或多个目标页面。
在本公开实施例中,在阅读器中可以展示版式文档,之后检测用户的触发操作,当接收到用户对版式文档的重排触发操作之后,可以获取该版式文档,以备后续操作。其中,重排触发操作可以包括用户对手势控制操作(如点击、长按、双击等)、语音控制操作或者表情控制操作等,本公开实施例对此不作限制。
示例性的,图2为本公开实施例提供的一种版式文档的示意图,如图2所示,图中展示了版式文档中的一个页面200,阅读器中正在展示该页面200,该页面200中示例性的展示了一个论文的首页,包括题目、摘要、关键词、中国分类号、文献识别码、页眉、页脚、分栏的正文内容和图片等,并且该页面上还展示了包括几个功能按键的区域201,例如图中的返回按键和三个重排按键,重排按键用于触发对版式文档的重排,并且三个重排按键分别用于实现本页、本章和本书的重排,用户可以通过触发任意一个重排按键来实现对版式文档的重排。可以理解的是,图中的三个重排按键仅为示例,还可以仅展示一个重排按键,具体可以根据实际情况设置。
步骤102、对版式文档进行解析,确定目标页面的单位元素信息,单位元素信息包括单位元素在目标页面上的元素信息,单位元素包括文本元素和/或图片。
其中,单位元素信息可以理解为版式文档中的各单位元素在其所在目标页面上的元素信息,单位元素可以是文档中包括最小单位的统称,可以包括文本元素、图片、附图标记等中的至少一种,元素信息可以是单位元素的具体属性信息,可以包括尺寸信息和位置信息等,例如文本元素的元素信息除了字体样式、字体大小、位置之外,还可以包括颜色。在本公开实施例中,文本元素可以为文本行,也即以文本行为一种单位元素。
在本公开实施例中,文档处理装置获取到版式文档之后,可以采用预设解析程序或算法对版式文档进行解析以及检测识别,能够确定每个目标页面中包括的单位元素的尺寸信息和位置信息。
示例性的,图3为本公开实施例提供的一种文档解析的示意图,如图3所示,图中展示了对版式文档解析过程中的一个页面300,与图2中的页面200相比较,在对页面200进行解析之后可以呈现页面300,该页面300中每个单位元素均被虚线框选出来,也即每个文本行和图片均被框选出来,表示检测其尺寸信息、位置信息。
步骤103、根据单位元素信息对目标页面进行区域划分,得到多个单位区域,其中,单位区域中包括一种单位元素。
其中,单位区域可以是对目标页面划分之后的各个小区域的统称,每个单位区域中仅包括一种单位元素,也即单位区域中仅包括文本元素或图片。
在本公开实施例中,文本元素的位置信息可以包括文本行的行间距和/或列间距;根据单位元素信息对目标页面进行区域划分,得到多个单位区域,可以包括:将目标页面确定为待处理区域,根据文本行的行间距和/或列间距,确定待处理区域中的最大行间距和/或最大列间距;根据最大行间距和/或最大列间距对待处理区域进行区域划分,得到至少两个子区域;将每个子区域重新确定为待处理区域,进行二次区域划分,直到划分得到的每个子区域均满足预设条件为止,将每个子区域确定为单位区域。
上述文本行的行间距可以是纵向相邻的文本行之间的上下距离,也即上边文本行的底边界与下边文本行的顶边界之间的纵向距离,文本行的列间距可以是横向相邻的两个文本行之间的左右距离,也即左边文本行的右边界与右边文本行左边界之间的横向距离。待处理区域可以是即将进行区域划分的区域。
具体的,文档处理装置在对目标页面进行区域划分时,可以先将目标页面的整体区域作为待处理区域,之后可以比较文本行的各个行间距和/或各个列间距,确定其中最大行间距和/或最大列间距;之后可以按照最大行间距将待处理区域划分为上下两个子区域,和/或按照最大行间距将待处理区域划分为左右两个子区域,之后得到至少两个子区域;然后将每个子区域重新确定为待处理区域,返回继续进行区域划分,直到每个子区域均满足预设条件为止,将最终得到的子区域确定为单位区域。
示例性的,在目标页面上可以确定最大行间距,将其划分为上下两个子区域,因为下面的分栏部分跟上面的部分有重合,所以一开始并不存在最大列间距,然后在上下两个子区域中再继续找最大行间距和/或最大列间距再进行区域划分,逐渐找到了存在最大列间距的子区域,这时可以按照最大列间距将该子区域划分为左右两个子区域,然后再在左右两个子区域中继续基于最大行间距和/或最大列间距进行区域划分,直到每个子区域均满足预设条件为止,将最终得到的子区域确定为单位区域。
可选的,子区域满足预设条件,可以包括:当子区域中仅包括单个文本行、单个图片或者多个预设元素信息相同并且设置有首行缩进的连续的文本行时,则确定子区域满足预设条件,预设元素信息包括字体样式、字体大小、文本行的高度、文本行的宽度、文本行的行间距中的至少一个。
上述预设条件可以是子区域按照最大行间距或最大列间距不能再进行划分。预设元素信息可以包括但不限于字体样式、字体大小、文本行的高度、文本行的宽度、文本行的行间距,具体可以根据实际情况设置。
具体的,当确定子区域中仅包括单个文本行,或者,单个图片或者多个设置有首行缩进且具有相同预设元素信息的连续的文本行时,则可以确定该子区域满足预设条件,进而能够确定每个子区域是否均满足预设条件。例如,当预设元素信息为字体样式和字体大小,如果一个子区域中包括多个连续的文本行,并且该连续的文本行设置有首行缩进,以及该子区域中每个文字的字体样式均为宋体、字体大小均为四号,则该子区域满足预设条件。
步骤104、对目标页面中的各单位区域进行元素合并,得到文本段落和/或图片。
其中,文本段落可以包括一个文本元素,或者可以由多个文本元素组合得到。
在本公开实施例中,文档处理装置在根据单位元素信息对目标页面进行区域划分,得到多个单位区域之后,可以对各单位区域进行元素合并,也即将各单位区域中的单位元素框选到一起作为一个整体,得到文本段落和/或图片。由于在区域划分得到单位区域时充分考虑到段落的首行缩进、字体样式和字体大小等信息,因此对单位区域元素合并之后更符合用户的文档展示习惯,进而提升后续的展示效果。
在一种实施方式中,在对目标页面中的各单位区域进行元素合并,得到文本段落和/或图片之后,文档处理方法还可以包括:对文本段落和/或图片返回再次执行解析、区域划分和元素合并。
具体的,由于元素合并之后可能会导致段落的上下间距、左右间距发生变化,因此本公开实施例文档处理装置在获得文本段落和/或图片之后,针对文本段落和/或图片返回执行步骤102-步骤103,再次进行一次解析、区域划分和元素合并,得到最终的文本段落和/或图片,由于提升了处理准确性,进而确保了排版的准确性。
示例性的,图4为本公开实施例提供的一种元素合并的示意图,如图4所示,图中展示了对版式文档区域划分和元素合并之后的一个页面400,与图3中的页面300相比较,在对页面300进行区域划分和元素合并之后可以呈现页面400,页面400中每个单位区域中的单位元素已经合并在一起,例如图中摘要的两个文本行作为一个单位区域被合并在一起,图中通过一个整体的虚线框表征合并,并且各个具有首行缩进的连续的多个文本行也被合并在一起。
步骤105、根据文本段落和/或图片在目标页面上的元素信息,对版式文档进行格式转换,得到流式文档。
其中,流式文档可以为非固定结构的文档,也即流式文档支持自由调整,其内容是按照流式灌排的方式进行版面计算和绘制显示的,内容按一定的层次结构进行描述,就形成了流式文档的格式;并且流式文档在不同的软硬件环境中,显示效果是会发生变化的。在本公开实施例中,流式文档可以包括HTML文档,当然仅为示例,还可以为其他格式的文档。
具体的,文档处理装置在对目标页面中的各单位区域进行元素合并,得到文本段落和/或图片之后,文本段落和/或图片在其所在目标页面上的元素信息可以得到,元素信息可以包括尺寸信息和位置信息,根据该文本段落和/或图片在目标页面上的元素信息,采用格式转换程序或算法对版式文档进行格式转换,将排版好的文本段落和/或图生成流式文档。
可选的,针对版式文档中属于按行排版的文本段落和/或图片,其在流式文档对应的格式为行格式或段落格式;针对版式文档中属于按列排版的文本段落和/或图片,其在流式文档的格式为表格格式。
当版式文档中全部或其中一些文本段落和/或图片属于按行排版,则在流式文档中对应的格式为行格式或段落格式;当版式文档中全部或其中一些文本段落和/或图片属于按列排版,则在流式文档中的对应的格式为表格格式。
当流式文档为HTML文档时,单独的行格式可以表示为div,div可以是一个标准的块元素,独占一行,意味着它的内容自动地开始一个新行,可以把文档分割为独立的、不同的部分,可以定义文档中的分区或节;段落格式可以表示为p,p标签用于定义段落,可以自动在其前后创建一些空白;表格格式可以表示为table,table用于定义表格。
上述方案中,根据版式文档中的排版方式不同,流式文档中内容可以输出为不同格式的结构,上述仅为示例。
示例性的,图5为本公开实施例提供的一种流式文档的示意图,如图5所示,图中展示了流式文档的一个页面500,该页面500为一个HTML文档并显示在网页浏览器中,相较于图2中的页面200,页面500中的部分文本和/或图片的位置和尺寸发生了变化,例如题目、摘要、关键词从居中显示调整为左对齐显示。
依据本公开实施例的文档处理方法,能够获取版式文档,版式文档包括至少一个目标页面,对版式文档进行解析,确定目标页面的单位元素信息,单位元素信息包括单位元素在目标页面上的元素信息,单位元素包括文本元素和/或图片;根据单位元素信息对目标页面进行区域划分,得到多个单位区域,其中,单位区域中包括一种单位元素,之后对目标页面中的各单位区域进行元素合并,得到文本段落和/或图片,然后根据文本段落和/或图片在目标页面上的元素信息,对版式文档进行格式转换,得到流式文档。本公开实施例通过对版式文档的解析、区域划分、元素合并以及格式转换操作,能够将版式文档从固定版面的版式文件转换为支持调整的流式文件,进而能够满足后续展示时的用户的多种调整需求,同时也给注释笔记的转换提供了可能性,并且由于转换过程不依赖于阅读器,提升了文档处理的效率。
示例性的,图6为本公开实施例提供的另一种文档处理方法的流程示意图,如图6所示,在一种可行的实施方式中,在根据文本段落和/或图片在目标页面上的元素信息,对版式文档进行格式转换,得到流式文档之后,文档处理方法还可以包括如下步骤:
步骤601、在阅读器中展示流式文档。
其中,阅读器可以是任意一种能够展示电子文档给用户,使用户实现文档阅读的电子设备,本公开实施例对具体的阅读器不限。
具体的,文档处理装置在根据文本段落和/或图片在目标页面上的元素信息,对版式文档进行格式转换,得到流式文档之后,可以在阅读器的显示屏幕上展示该流式文档,具体展示时可以根据阅读器的显示屏幕的尺寸以及分辨率等参数调整流式文档中各元素的结构布局,以使流式文档中能够在阅读器中达到较优的展示效果。例如,针对按列排版的左右两部分内容,如果因字体大小变小,左边部分内容没有占满区域,则右边部分内容可以将文本行向上拼接,使得屏幕上没有空白区域,达到更好的展示效果。
示例性,图7为本公开实施例提供的一种阅读器展示流式文档的示意图,如图7所示,图中展示了流式文档的一个页面700,该页面700显示在阅读器中,相较于图5中的页面500,页面500中的部分文本和/或图片的位置和尺寸基于硬件环境和/或软件环境的不同进行了调整,例如整个页面的字体样式调整为相同的字体样式,以在阅读器中达到更好的展示效果。
在一些实施例中,图片的位置信息包括图片在目标页面中的位置,图片的尺寸信息包括图片占目标页面的百分比以及图片的宽高比;在阅读器中展示流式文档,可以包括:针对流式文档中的图片,根据阅读器的屏幕尺寸以及图片的尺寸信息,确定图片在阅读器中的高度和宽度;根据图片在阅读器中的高度和宽度,对图片进行缩放处理之后基于图片在目标页面中的位置在阅读器中进行展示。
上述图片占目标页面的百分比可以包括图片的宽度占目标页面的宽度的第一百分比和/或图片的高度占目标页面的高度的第二百分比。或者,图片占目标页面的百分比还可以包括图片的宽度占目标文本段落的宽度的第三百分比,目标文本段落为与图片上下相邻的一个文本段落,可以为在图片上方相邻的文本段落或在图片下方相邻的文本段落。宽高比为宽度与高度的比值,由于图片的宽高比固定,可以根据宽度和高度中的一个值确定另一个值。
由于流式文档中的图片直接在阅读器中显示时可能会超过显示屏幕的分辨率,本公开实施例中,针对流式文档中的图片,可以根据阅读器的屏幕尺寸、图片在目标页面中的高度、宽度,图片占目标页面的百分比以及图片的宽高比,确定图片在阅读器中的高度和宽度。
例如,阅读器的屏幕尺寸为600*600,宽度和高度均为600,假设上述第一百分比为50%,第二百分比为30%,则图片在阅读器中的宽度为600*50%=300,图片在阅读器中的高度为600*30%=180;或者假设上述第三百分比为20%,图片的宽高比为2:1,则图片在阅读器中的宽度为600*20%=120,图片在阅读器中的高度为120/2=60。
在确定图片在阅读器中的高度和宽度之后,文档处理装置可以将图片从原始尺寸缩放处理到上述在阅读器中的高度和宽度,并根据图片在目标页面的位置将图片展示在阅读器中。
上述方案中,在阅读器中展示流式文档中的图片时,根据图片在版式文档中的百分比可以进行缩放处理之后再展示,避免出现图片展示不完整或展示不清楚等缺陷,同时尽量保持和原文间的样式展示关系,提升了流式文档的展示效果。
可选的,图片的位置信息还包括图片在目标页面中的旋转角度。
其中,旋转角度可以是图片以目标页面作为基准发生旋转的角度,例如当图片为矩形图片时,矩形图片的中心轴与目标页面的中心轴之间的角度即为旋转角度。
在本公开实施例中,对版式文档解析的过程中,还可以解析图片在目标页面的旋转角度,以使后续转换得到流式文档之后,展示流式文档中的该图片时按照该旋转角度在阅读器中进行展示。确保图片在版式文档和流式文档中的展示效果相同,避免因重新排版造成图片倒转的问题,进一步提升了流式文档的展示效果。
步骤602、接收用户对流式文档的缩小操作和/或放大操作。
其中,缩小操作和放大操作均为用户对流式文档的触发操作,可以是两种功能相反的触发操作,具体的操作不限,例如缩小操作可以是双指向内滑动操作,放大操作可以是双指向外滑动操作,仅为示例。
在阅读器中展示流式文档之后,文档处理装置可以检测用户的触发操作,进而接收对流式文档的缩小操作和/或放大操作。
步骤603、当流式文档中包括按列排版的文本段落和/或图片,则根据缩小操作的缩小倍数和/或放大操作的放大倍数,动态调整按列排版的文本段落和/或图片的显示效果。
其中,按列排版可以理解为一个区域被文本行的最大列间距划分为左右两个部分,该区域的大小不限,并且该区域内可以包括文本段落和/或图片。上述缩小倍数以及放大倍数可以通过缩小操作、放大操作的操作幅度确定。在显示效果调整之后按列排版的文本段落和/或图片中的部分文字和/或图片的所在位置或所在页面发生变化。
具体的,文档处理装置在接收到用户对流式文档的缩小操作和/或放大操作之后,可以先确定缩小操作对应的缩小倍数和/或放大操作对应的放大倍数,之后根据上述缩小倍数和/或放大倍数,通过调整部分文字和/或图片展示时的所在位置或所在页面,达到动态调整流式文档中按列排版的文本段落和/或图片的显示效果,也即。例如,假设接收到用户的放大操作,放大倍数大于预设值,预设值可以是能够按列排版展示的最大倍数,也即当放大倍数大于该预设值,流式文档中按列排版的内容不能再进行分栏展示,此时可以按照顺序将流式文档的文字和/图片逐一进行展示。
上述方案中,将版式文档从固定版面的版式文件转换为支持调整的流式文件之后,不仅能够在阅读器中灵活展示,而且可以根据阅读器的屏幕参数以及用户的调整操作调整流式文档中内容的展示布局,进而达到更好的展示效果,在满足用户的自由调整的需求的基础上,进一步提升了用户的阅读体验效果。
在一些实施例中,文档处理方法还可以包括:在对版式文档进行格式转换的过程中,记录版式文档中每个文字在流式文档的源文件中的偏移量。
其中,文字在流式文档的源文件的偏移量可以用于定位文字,该偏移量是相对于所在文本行的首个字符的偏移量,字符即为文字,可以是中文字符和/或英文字符。
由于版式文档转换为流式文档之后,文档内容在显示时的位置可能会根据需要进行变化,此时坐标体系就失效了,但是字符在流式文档的源文件中的偏移量相对而言是不变的,本公开实施例可以通过该偏移量进行文字定位。本公开实施例中,在对版式文档进行格式转换的过程中,可以记录版式文档中每个文字在流式文档的源文件中的偏移量。可选的,文档处理装置可以将文字与其在流式文档的源文件中的偏移量的映射关系存储为一个映射表,以备后续使用。
在一些实施例中,单位元素还包括第一注释标记,第一注释标记的元素信息包括第一注释标记对应的起始文字以及结束文字;文档处理方法还可以包括:根据版式文档中每个文字在流式文档的源文件中的偏移量、以及第一注释标记对应的起始文字以及结束文字,在流式文档中绘制第一注释标记。
其中,第一注释标记可以是用户针对版式文档添加的注释标记,第一注释标记可以是在对版式文档解析时的单位元素的一种,解析之后可以得到第一注释标记的起始位置的文字的坐标和结束位置的文字的坐标,进而记录其起始文字和结束文字。本公开实施例对具体的注释标记不限,例如注释标记包括下划线、多边形框、高亮等中的至少一个。
具体的,如果版式文档中存在第一注释标记,在阅读器中展示流式文档时,文档处理装置可以根据上述提前记录的每个文字在流式文档的源文件中的偏移量,确定第一注释标记对应的起始文字以及结束文字分别对应的偏移量,之后可以根据起始文字的偏移量和结束文字的偏移量在流式文档中将第一注释标记重新绘制出来并展示给用户。
在一些实施例中,文档处理方法还可以包括:接收在流式文档添加的第二注释标记;获取第二注释标记对应的起始偏移量以及结束偏移量;接收对流式文档的重排返回触发操作,在阅读器中展示版式文档;根据版式文档中每个文字在流式文档的源文件中的偏移量、以及第二注释标记对应的起始偏移量以及结束偏移量,在版式文档中绘制第二注释标记。
其中,第二注释标记可以是用户针对流式文档添加的注释标记,第二注释标记可以与上述第一注释标记相同,也可以不同,具体不限。重排返回触发操作可以是在展示流式文档之后用于返回展示版式文档的触发操作,可以包括手势触发操作、声音触发操作等,具体不限。
具体的,在阅读器中展示流式文档之后,可以接收用户在流式文档中添加的第二注释标记,并确定第二注释标记对应的起始偏移量以及结束偏移量;当接收到用户对流式文档的重排返回触发操作之后,可以获取之前的版式文档并在阅读器中展示版式文档,具体展示的页面与流式文档的当前页面相对应;之后根据上述提前记录的每个文字在流式文档的源文件中的偏移量,确定第二注释标记的起始偏移量对应的起始文字以及结束偏移量对应的结束文字,之后可以根据第二注释标记的起始文字和结束文字在版式文档中将第二注释标记重新绘制出来并展示给用户。
示例性的,当版式文档为PDF文档,流式文档为HTML文档,在PDF文档的文字下面做了划线标记,如何映射到HTML文档中进行显示,具体过程可以包括:在PDF文档中用户可以通过长按的方式选中若干连续的文字,然后点选划线按钮下划线就会固定下来并显示在页面上,此时会记录下划线的起始位置和结束位置对应的文字的坐标位置索引,在对PDF文档重排执行时,也即将文档从PDF格式转换到网页即HTML格式的过程中,可以记录了PDF文档中每个字在网页源文件中的偏移量,可以生成一个映射表。
如果在PDF文档中下划线对应的字符为“w1w2w3w4w5w6”,一共六个字符,当然字符可以是英文字符也可以是中文字符,在转换到网页即HTML文档后,对应的这一部分的源代码可以是“<p>w1w2w3w4w5w6...</p>”,在UTF-8编码下,因为<p>每个占用一个字节,w1如果是英文字符则占用一个字节,如果是中文字符占三个字节,假设w1为中文字符,第一个字符<p>的偏移量为0,w1的偏移量为3字节,w2的偏移量则为6字节,以此类推。通过之前生成的映射表,一种情况在HTML文档中可以根据偏移量将下划线重新绘制出来;另一种情况是从HTML文档返回展示PDF文档之后,并将下划线在PDF文档对应位置呈现出来。
示例性的,参见图2和图7,图2中的版式文档的页面200中展示了一个第一注释标记202,为在文字“ABCD”下方的下划线,而图7中的流式文档的页面700中可以绘制对应的注释标记701,也即在相同文字“ABCD”下方的下划线。
上述方案中,通过在版式文档转换为流式文档的过程中记录每个文字在流式文档的源文件中的偏移量,可以将版式文档中的注释标记适应性展示在流式文档中并且将流式文档中的注释标记也可以展示在版式文档中,实现了版式重排前后的注释标记的相互映射,进一步提供了文档展示的可交互性和准确性,进而提升了用户的阅读体验效果。
本公开实施例还提供了一种电子设备,该电子设备可以包括处理器和存储器,存储器可以用于存储可执行指令。其中,处理器可以用于从存储器中读取可执行指令,并执行可执行指令以执行以下操作:获取版式文档,所述版式文档包括至少一个目标页面;对所述版式文档进行解析,确定所述目标页面的单位元素信息,所述单位元素信息包括单位元素在所述目标页面上的元素信息,所述单位元素包括文本元素和/或图片;根据所述单位元素信息对所述目标页面进行区域划分,得到多个单位区域,其中,所述单位区域中包括一种单位元素;对所述目标页面中的各所述单位区域进行元素合并,得到文本段落和/或图片;根据所述文本段落和/或所述图片在所述目标页面上的元素信息,对所述版式文档进行格式转换,得到流式文档。
图8为本公开实施例提供的一种电子设备的结构示意图。本发明实施例中的电子设备800可以为上述所说明的电子设备。还需说明的是,图8示出的电子设备800仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
该电子设备800传统上包括处理器810和以存储器820形式的计算机程序产品或者计算机可读介质。存储器820可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器820具有用于执行上述文档处理方法中的任何方法步骤的可执行指令(或程序代码)8211的存储空间821。例如,用于可执行指令的存储空间821可以包括分别用于实现上面的文档处理方法中的各种步骤的各个可执行指令8211。这些可执行指令可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,光盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为便携式或者固定存储单元。该存储单元可以具有与图8的电子设备中的存储器820类似布置的存储段或者存储空间等。可执行指令可以例如以适当形式进行压缩。通常,存储单元包括用于执行根据本发明的文档处理方法步骤的可执行指令,即可以由例如诸如处理器810之类的处理器读取的代码,这些代码当由电子设备运行时,导致该电子设备执行上面所描述的文档处理方法中的各个步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本发明各实施例所提供的文档处理方法。
该计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
在本发明实施例中,可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本发明的各个部件实施例可以全部或部分步骤以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的在线学习装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
a1、根据本公开的一个或多个实施例,本公开提供了一种文档处理方法,包括:
获取版式文档,所述版式文档包括至少一个目标页面;
对所述版式文档进行解析,确定所述目标页面的单位元素信息,所述单位元素信息包括单位元素在所述目标页面上的元素信息,所述单位元素包括文本元素和/或图片;
根据所述单位元素信息对所述目标页面进行区域划分,得到多个单位区域,其中,所述单位区域中包括一种单位元素;
对所述目标页面中的各所述单位区域进行元素合并,得到文本段落和/或图片;
根据所述文本段落和/或所述图片在所述目标页面上的元素信息,对所述版式文档进行格式转换,得到流式文档。
a2、根据a1所述的方法,其中,所述元素信息包括尺寸信息和位置信息,所述文本元素为文本行,所述文本元素的位置信息包括所述文本行的行间距和/或列间距。
a3、根据a2所述的方法,其中,根据所述单位元素信息对所述目标页面进行区域划分,得到多个单位区域,包括:
将所述目标页面确定为待处理区域,根据所述文本行的行间距和/或列间距,确定所述待处理区域中的最大行间距和/或最大列间距;
根据所述最大行间距和/或所述最大列间距对所述待处理区域进行区域划分,得到至少两个子区域;
将每个所述子区域重新确定为所述待处理区域,进行二次区域划分,直到划分得到的每个所述子区域均满足预设条件为止,将每个所述子区域确定为单位区域。
a4、根据a3所述的方法,其中,所述子区域满足预设条件,包括:
当所述子区域中仅包括单个文本行、单个图片或者多个预设元素信息相同并且设置有首行缩进的连续的文本行时,则确定所述子区域满足预设条件,所述预设元素信息包括字体样式、字体大小、文本行的高度、文本行的宽度、文本行的行间距中的至少一个。
a5、根据a1所述的方法,其中,在对所述目标页面中的各所述单位区域进行元素合并,得到文本段落和/或图片之后,所述方法还包括:
对所述文本段落和/或图片返回再次执行解析、区域划分和元素合并。
a6、根据a1所述的方法,其中,
针对所述版式文档中属于按行排版的文本段落和/或图片,其在所述流式文档对应的格式为行格式或段落格式;
针对所述版式文档中属于按列排版的文本段落和/或图片,其在所述流式文档的格式为表格格式。
a7、根据a1所述的方法,其中,根据所述文本段落和/或所述图片在所述目标页面上的元素信息,对所述版式文档进行格式转换,得到流式文档之后,所述方法还包括:
在阅读器中展示所述流式文档。
a8、根据a7所述的方法,其中,所述图片的位置信息包括所述图片在所述目标页面中的位置,所述图片的尺寸信息包括所述图片占所述目标页面的百分比以及所述图片的宽高比;
所述在阅读器中展示所述流式文档,包括:
针对所述流式文档中的图片,根据所述阅读器的屏幕尺寸以及所述图片的尺寸信息,确定所述图片在所述阅读器中的高度和宽度;
根据所述图片在所述阅读器中的高度和宽度,对所述图片进行缩放处理之后基于所述图片在所述目标页面中的位置在所述阅读器中进行展示。
a9、根据a7所述的方法,其中,所述图片的位置信息还包括所述图片在所述目标页面中的旋转角度。
a10、根据a7所述的方法,其中,在阅读器中展示所述流式文档之后,所述方法还包括:
接收用户对所述流式文档的缩小操作和/或放大操作;
当所述流式文档中包括按列排版的文本段落和/或图片,则根据所述缩小操作的缩小倍数和/或所述放大操作的放大倍数,动态调整所述按列排版的文本段落和/或图片的显示效果。
a11、根据a10所述的方法,其中,在显示效果调整之后所述按列排版的文本段落和/或图片中的部分文字和/或图片的所在位置或所在页面发生变化。
a12、根据a1所述的方法,其中,所述方法还包括:
在对所述版式文档进行格式转换的过程中,记录所述版式文档中每个文字在所述流式文档的源文件中的偏移量。
a13、根据a12所述的方法,其中,所述单位元素还包括第一注释标记,所述第一注释标记的元素信息包括所述第一注释标记对应的起始文字以及结束文字;
所述方法还包括:
根据所述版式文档中每个文字在所述流式文档的源文件中的偏移量、以及所述第一注释标记对应的起始文字以及结束文字,在所述流式文档中绘制所述第一注释标记。
a14、根据a12所述的方法,其中,所述方法还包括:
接收在所述流式文档添加的第二注释标记;
获取所述第二注释标记对应的起始偏移量以及结束偏移量;
接收对所述流式文档的重排返回触发操作,在所述阅读器中展示所述版式文档;
根据所述版式文档中每个文字在所述流式文档的源文件中的偏移量、以及所述第二注释标记对应的起始偏移量以及结束偏移量,在所述版式文档中绘制所述第二注释标记。
a15、根据a13或14所述的方法,其中,所述注释标记包括下划线、多边形框、高亮中的至少一个。
a16、根据a1所述的方法,其中,所述版式文档为固定版面的文档,所述流式文档为非固定结构的文档。
a17、根据a1所述的方法,其中,所述版式文档包括PDF文档、OFD文档、XPS文档、CEB文档中的至少一种,所述流式文档包括HTML文档。
a18、根据本公开的一个或多个实施例,本公开一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
处理器,用于从存储器中读取可执行指令,并执行指令以执行以下操作:
获取版式文档,所述版式文档包括至少一个目标页面;
对所述版式文档进行解析,确定所述目标页面的单位元素信息,所述单位元素信息包括单位元素在所述目标页面上的元素信息,所述单位元素包括文本元素和/或图片;
根据所述单位元素信息对所述目标页面进行区域划分,得到多个单位区域,其中,所述单位区域中包括一种单位元素;
对所述目标页面中的各所述单位区域进行元素合并,得到文本段落和/或图片;
根据所述文本段落和/或所述图片在所述目标页面上的元素信息,对所述版式文档进行格式转换,得到流式文档。
a19、根据a18所述的电子设备,其中,所述元素信息包括尺寸信息和位置信息,所述文本元素为文本行,所述文本元素的位置信息包括所述文本行的行间距和/或列间距。
a20、根据a19所述的电子设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
其中,根据所述单位元素信息对所述目标页面进行区域划分,得到多个单位区域,包括:
将所述目标页面确定为待处理区域,根据所述文本行的行间距和/或列间距,确定所述待处理区域中的最大行间距和/或最大列间距;
根据所述最大行间距和/或所述最大列间距对所述待处理区域进行区域划分,得到至少两个子区域;
将每个所述子区域重新确定为所述待处理区域,进行二次区域划分,直到划分得到的每个所述子区域均满足预设条件为止,将每个所述子区域确定为单位区域。
a21、根据a20所述的电子设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
其中,所述子区域满足预设条件,包括:
当所述子区域中仅包括单个文本行、单个图片或者多个预设元素信息相同并且设置有首行缩进的连续的文本行时,则确定所述子区域满足预设条件,所述预设元素信息包括字体样式、字体大小、文本行的高度、文本行的宽度、文本行的行间距中的至少一个。
a22、根据a18所述的电子设备,其中,在对所述目标页面中的各所述单位区域进行元素合并,得到文本段落和/或图片之后,所述可执行指令进一步使所述处理器执行以下操作:
对所述文本段落和/或图片返回再次执行解析、区域划分和元素合并。
a23、根据a18所述的电子设备,其中,
针对所述版式文档中属于按行排版的文本段落和/或图片,其在所述流式文档对应的格式为行格式或段落格式;
针对所述版式文档中属于按列排版的文本段落和/或图片,其在所述流式文档的格式为表格格式。
a24、根据a18所述的电子设备,其中,根据所述文本段落和/或所述图片在所述目标页面上的元素信息,对所述版式文档进行格式转换,得到流式文档之后,所述可执行指令进一步使所述处理器执行以下操作:
在阅读器中展示所述流式文档。
a25、根据a24所述的电子设备,其中,所述图片的位置信息包括所述图片在所述目标页面中的位置,所述图片的尺寸信息包括所述图片占所述目标页面的百分比以及所述图片的宽高比;
所述可执行指令进一步使所述处理器执行以下操作:
其中,所述在阅读器中展示所述流式文档,包括:
针对所述流式文档中的图片,根据所述阅读器的屏幕尺寸以及所述图片的尺寸信息,确定所述图片在所述阅读器中的高度和宽度;
根据所述图片在所述阅读器中的高度和宽度,对所述图片进行缩放处理之后基于所述图片在所述目标页面中的位置在所述阅读器中进行展示。
a26、根据a24所述的电子设备,其中,所述图片的位置信息还包括所述图片在所述目标页面中的旋转角度。
a27、根据a24所述的电子设备,其中,在阅读器中展示所述流式文档之后,所述可执行指令进一步使所述处理器执行以下操作:
接收用户对所述流式文档的缩小操作和/或放大操作;
当所述流式文档中包括按列排版的文本段落和/或图片,则根据所述缩小操作的缩小倍数和/或所述放大操作的放大倍数,动态调整所述按列排版的文本段落和/或图片的显示效果。
a28、根据a27所述的电子设备,其中,在显示效果调整之后所述按列排版的文本段落和/或图片中的部分文字和/或图片的所在位置或所在页面发生变化。
a29、根据a18所述的电子设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
在对所述版式文档进行格式转换的过程中,记录所述版式文档中每个文字在所述流式文档的源文件中的偏移量。
a30、根据a29所述的电子设备,其中,所述单位元素还包括第一注释标记,所述第一注释标记的元素信息包括所述第一注释标记对应的起始文字以及结束文字;
所述可执行指令进一步使所述处理器执行以下操作:
根据所述版式文档中每个文字在所述流式文档的源文件中的偏移量、以及所述第一注释标记对应的起始文字以及结束文字,在所述流式文档中绘制所述第一注释标记。
a31、根据a29所述的电子设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
接收在所述流式文档添加的第二注释标记;
获取所述第二注释标记对应的起始偏移量以及结束偏移量;
接收对所述流式文档的重排返回触发操作,在所述阅读器中展示所述版式文档;
根据所述版式文档中每个文字在所述流式文档的源文件中的偏移量、以及所述第二注释标记对应的起始偏移量以及结束偏移量,在所述版式文档中绘制所述第二注释标记。
a32、根据a30或31所述的电子设备,其中,所述注释标记包括下划线、多边形框、高亮中的至少一个。
a33、根据a18所述的电子设备,其中,所述版式文档为固定版面的文档,所述流式文档为非固定结构的文档。
a33、根据a18所述的电子设备,其中,所述版式文档包括PDF文档、OFD文档、XPS文档、CEB文档中的至少一种,所述流式文档包括HTML文档。
根据本公开的一个或多个实施例,本公开提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序用于执行如本公开提供的任一的文档处理方法。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (10)

1.一种文档处理方法,其特征在于,包括:
获取版式文档,所述版式文档包括至少一个目标页面;
对所述版式文档进行解析,确定所述目标页面的单位元素信息,所述单位元素信息包括单位元素在所述目标页面上的元素信息,所述单位元素包括文本元素和/或图片;
根据所述单位元素信息对所述目标页面进行区域划分,得到多个单位区域,其中,所述单位区域中包括一种单位元素;
对所述目标页面中的各所述单位区域进行元素合并,得到文本段落和/或图片;
根据所述文本段落和/或所述图片在所述目标页面上的元素信息,对所述版式文档进行格式转换,得到流式文档。
2.根据权利要求1所述的方法,其特征在于,所述元素信息包括尺寸信息和位置信息,所述文本元素为文本行,所述文本元素的位置信息包括所述文本行的行间距和/或列间距。
3.根据权利要求2所述的方法,其特征在于,根据所述单位元素信息对所述目标页面进行区域划分,得到多个单位区域,包括:
将所述目标页面确定为待处理区域,根据所述文本行的行间距和/或列间距,确定所述待处理区域中的最大行间距和/或最大列间距;
根据所述最大行间距和/或所述最大列间距对所述待处理区域进行区域划分,得到至少两个子区域;
将每个所述子区域重新确定为所述待处理区域,进行二次区域划分,直到划分得到的每个所述子区域均满足预设条件为止,将每个所述子区域确定为单位区域。
4.根据权利要求3所述的方法,其特征在于,所述子区域满足预设条件,包括:
当所述子区域中仅包括单个文本行、单个图片或者多个预设元素信息相同并且设置有首行缩进的连续的文本行时,则确定所述子区域满足预设条件,所述预设元素信息包括字体样式、字体大小、文本行的高度、文本行的宽度、文本行的行间距中的至少一个。
5.根据权利要求1所述的方法,其特征在于,在对所述目标页面中的各所述单位区域进行元素合并,得到文本段落和/或图片之后,所述方法还包括:
对所述文本段落和/或图片返回再次执行解析、区域划分和元素合并。
6.根据权利要求1所述的方法,其特征在于,
针对所述版式文档中属于按行排版的文本段落和/或图片,其在所述流式文档对应的格式为行格式或段落格式;
针对所述版式文档中属于按列排版的文本段落和/或图片,其在所述流式文档的格式为表格格式。
7.根据权利要求1所述的方法,其特征在于,根据所述文本段落和/或所述图片在所述目标页面上的元素信息,对所述版式文档进行格式转换,得到流式文档之后,所述方法还包括:
在阅读器中展示所述流式文档。
8.根据权利要求7所述的方法,其特征在于,所述图片的位置信息包括所述图片在所述目标页面中的位置,所述图片的尺寸信息包括所述图片占所述目标页面的百分比以及所述图片的宽高比;
所述在阅读器中展示所述流式文档,包括:
针对所述流式文档中的图片,根据所述阅读器的屏幕尺寸以及所述图片的尺寸信息,确定所述图片在所述阅读器中的高度和宽度;
根据所述图片在所述阅读器中的高度和宽度,对所述图片进行缩放处理之后基于所述图片在所述目标页面中的位置在所述阅读器中进行展示。
9.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储可执行指令;
其中,所述处理器用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以执行以下操作:
获取版式文档,所述版式文档包括至少一个目标页面;
对所述版式文档进行解析,确定所述目标页面的单位元素信息,所述单位元素信息包括单位元素在所述目标页面上的元素信息,所述单位元素包括文本元素和/或图片;
根据所述单位元素信息对所述目标页面进行区域划分,得到多个单位区域,其中,所述单位区域中包括一种单位元素;
对所述目标页面中的各所述单位区域进行元素合并,得到文本段落和/或图片;
根据所述文本段落和/或所述图片在所述目标页面上的元素信息,对所述版式文档进行格式转换,得到流式文档。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得处理器实现用上述权利要求1-8中任一项所述的文档处理方法。
CN202111394749.5A 2021-11-23 2021-11-23 文档处理方法、电子设备及存储介质 Pending CN114118011A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111394749.5A CN114118011A (zh) 2021-11-23 2021-11-23 文档处理方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111394749.5A CN114118011A (zh) 2021-11-23 2021-11-23 文档处理方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114118011A true CN114118011A (zh) 2022-03-01

Family

ID=80439848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111394749.5A Pending CN114118011A (zh) 2021-11-23 2021-11-23 文档处理方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114118011A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359313A (zh) * 2022-03-18 2022-04-15 北京点聚信息技术有限公司 一种基于版式文件处理大文件的方法
CN115828883A (zh) * 2022-12-07 2023-03-21 广州文石信息科技有限公司 文档内容重排版的方法、装置、电子显示设备以及介质
CN116070603A (zh) * 2023-03-10 2023-05-05 福昕鲲鹏(北京)信息科技有限公司 版式文档中表单控件的显示方法、系统及计算机设备
CN116090417A (zh) * 2023-04-11 2023-05-09 福昕鲲鹏(北京)信息科技有限公司 版式文档文本选择渲染方法、装置、电子设备及存储介质
CN117744605A (zh) * 2023-12-25 2024-03-22 广州文石信息科技有限公司 文档编辑方法、装置、电子设备和存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359313A (zh) * 2022-03-18 2022-04-15 北京点聚信息技术有限公司 一种基于版式文件处理大文件的方法
CN114359313B (zh) * 2022-03-18 2022-05-27 北京点聚信息技术有限公司 一种基于版式文件处理大文件的方法
CN115828883A (zh) * 2022-12-07 2023-03-21 广州文石信息科技有限公司 文档内容重排版的方法、装置、电子显示设备以及介质
CN115828883B (zh) * 2022-12-07 2024-05-28 广州文石信息科技有限公司 文档内容重排版的方法、装置、电子显示设备以及介质
CN116070603A (zh) * 2023-03-10 2023-05-05 福昕鲲鹏(北京)信息科技有限公司 版式文档中表单控件的显示方法、系统及计算机设备
CN116070603B (zh) * 2023-03-10 2023-06-27 福昕鲲鹏(北京)信息科技有限公司 版式文档中表单控件的显示方法、系统及计算机设备
CN116090417A (zh) * 2023-04-11 2023-05-09 福昕鲲鹏(北京)信息科技有限公司 版式文档文本选择渲染方法、装置、电子设备及存储介质
CN117744605A (zh) * 2023-12-25 2024-03-22 广州文石信息科技有限公司 文档编辑方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN114118011A (zh) 文档处理方法、电子设备及存储介质
JP4290011B2 (ja) ビューワ装置及びその制御方法、プログラム
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
CN100454293C (zh) 文档编辑方法和文档编辑设备
CN101361059B (zh) 支持在便携设备上显示内容的系统和方法
US7853869B2 (en) Creation of semantic objects for providing logical structure to markup language representations of documents
US9529438B2 (en) Printing structured documents
CN107223241B (zh) 上下文缩放
Golovchinsky et al. Moving markup: repositioning freeform annotations
US8515176B1 (en) Identification of text-block frames
US20130174024A1 (en) Method and device for converting document format
JP5144736B2 (ja) 文書生成装置、文書生成方法、コンピュータプログラムおよび記録媒体
US20130262968A1 (en) Apparatus and method for efficiently reviewing patent documents
US20130014007A1 (en) Method for creating an enrichment file associated with a page of an electronic document
US9734132B1 (en) Alignment and reflow of displayed character images
CN114625996A (zh) 网页内容的分页方法、装置、电子设备及可读存储介质
US20240104290A1 (en) Device dependent rendering of pdf content including multiple articles and a table of contents
CN113821146A (zh) 一种全局批注方法、装置、终端设备及存储介质
CN112433995A (zh) 文件格式转换方法、系统、计算机设备及存储介质
CN114564915A (zh) 文本排版方法、电子设备及存储介质
JPH07121539A (ja) 機械翻訳装置
CN113378526A (zh) Pdf段落处理方法、装置、存储介质及设备
US11416671B2 (en) Device dependent rendering of PDF content
KR100998076B1 (ko) 정보 단말기의 영상 크기 조절 장치 및 방법
Fredell et al. TEI P5 and Special Characters Outside Unicode

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination