CN112100978B - 基于电子书的排版处理方法、电子设备及存储介质 - Google Patents

基于电子书的排版处理方法、电子设备及存储介质 Download PDF

Info

Publication number
CN112100978B
CN112100978B CN202010972636.8A CN202010972636A CN112100978B CN 112100978 B CN112100978 B CN 112100978B CN 202010972636 A CN202010972636 A CN 202010972636A CN 112100978 B CN112100978 B CN 112100978B
Authority
CN
China
Prior art keywords
picture
page
elements
area
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010972636.8A
Other languages
English (en)
Other versions
CN112100978A (zh
Inventor
张恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangyue Technology Co Ltd
Original Assignee
Zhangyue Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangyue Technology Co Ltd filed Critical Zhangyue Technology Co Ltd
Priority to CN202010972636.8A priority Critical patent/CN112100978B/zh
Publication of CN112100978A publication Critical patent/CN112100978A/zh
Application granted granted Critical
Publication of CN112100978B publication Critical patent/CN112100978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于电子书的排版处理方法、电子设备及存储介质,该方法包括:获取针对电子书的原始页面内容进行解析后得到的页面元素,识别所述页面元素中包含的多个路径类元素;根据所述多个路径类元素在所述原始页面内容中的位置信息,对所述多个路径类元素进行分组处理,得到元素分组集合;根据所述元素分组集合确定所述原始页面内容中包含的图片区域,针对所述图片区域执行截图处理,得到与所述图片区域相对应的截图图片;根据所述截图图片生成与所述原始页面内容相对应的页面排版内容。该方式能够识别由路径线构成的图片,并保留图片本身的构图方式,使最终得到的排版内容与电子书原始内容一致,进而提升了排版的效率和准确性。

Description

基于电子书的排版处理方法、电子设备及存储介质
技术领域
本发明涉及计算机领域,具体涉及一种基于电子书的排版处理方法、电子设备及存储介质。
背景技术
在电子书排版过程中,需要针对版式排版的电子书原稿进行识别,并根据识别结果通过流式排版方式实现自定义效果的排版。其中,电子书原稿通常为PDF等不可编辑的格式。在针对电子书原稿进行识别的过程中,能够自动识别出原稿中的各种页面元素,具体包括文字类元素、图片类元素等多种类型。然后,根据识别结果自动转换至流式文档中实现自定义排版。
但是,在实现本发明的过程中,发明人发现现有技术中的上述方案至少存在下述缺陷:为了丰富图片的展示效果,电子书中的部分图片并非由单一的图片元素构成,而是通过一些其他类型的页面元素组合而成。相应地,若直接根据解析得到的各个页面元素进行排版,则会破坏图片本身的构图方式,从而使最终得到的排版内容与电子书原始内容不一致。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于电子书的排版处理方法、电子设备及存储介质。
根据本发明的一个方面,提供了一种基于电子书的排版处理方法,包括:
获取针对电子书的原始页面内容进行解析后得到的页面元素,识别所述页面元素中包含的多个路径类元素;
根据所述多个路径类元素在所述原始页面内容中的位置信息,对所述多个路径类元素进行分组处理,得到元素分组集合;
根据所述元素分组集合确定所述原始页面内容中包含的图片区域,针对所述图片区域执行截图处理,得到与所述图片区域相对应的截图图片;
根据所述截图图片生成与所述原始页面内容相对应的页面排版内容。
根据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行方法中的各项操作。
根据本发明的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行上述方法中的各项操作。
在本发明提供的基于电子书的排版处理方法、电子设备及存储介质中,能够识别页面元素中包含的多个路径类元素,并根据多个路径类元素在原始页面内容中的位置信息进行分组处理,得到元素分组集合;进而根据元素分组集合确定原始页面内容中包含的图片区域,通过截图处理得到与图片区域相对应的截图图片。由于截图图片已经转换为一个完整的图片元素,因此,不会破坏原有图片中的构图方式。由此可见,该方式能够识别由路径线构成的图片,并保留图片本身的构图方式,使最终得到的排版内容与电子书原始内容一致,进而提升了排版的效率和准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明一个实施例提供的基于电子书的排版处理方法的流程图;
图2示出了本发明另一个实施例提供的基于电子书的排版处理方法的流程图;
图3示出了根据本发明另一个实施例的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了本发明一个实施例提供的基于电子书的排版处理方法的流程图。如图1所示,该方法包括以下步骤:
步骤S110:获取针对电子书的原始页面内容进行解析后得到的页面元素,识别所述页面元素中包含的多个路径类元素。
其中,电子书的原始页面内容是指:待排版的电子书中的原始内容,通常为PDF等版式内容。通常情况下,电子书以页面为单位进行排版,因此,原始页面内容为待排版的电子书中的单个页面中的内容。通过对原始页面内容进行解析,能够得到其中包含的多个页面元素。
其中,页面元素是指构成页面内容的最小单位,具体包括:文本类元素、图片类元素以及路径类元素。其中,文本类元素是指:由英文字符、汉字字符等各类文本构成的元素。图片类元素是指:由jpg等各类图片格式的内容构成的元素。路径类元素是指:通过路径线构成的元素,其中,路径线用于通过直线或曲线形式连接任意两个端点。
发明人在实现本发明的过程中发现,部分图片通过路径线构成,因此,需要识别页面元素中包含的多个路径类元素。具体实施时,根据页面元素的属性信息即可确定哪些页面元素为路径类元素。
步骤S120:根据多个路径类元素在原始页面内容中的位置信息,对多个路径类元素进行分组处理,得到元素分组集合。
其中,由于原始页面内容通常为版式内容,因此,各个页面元素在原始页面内容中的相对位置关系是固定的。具体地,各个页面元素具有对应的位置坐标等信息。因此,根据多个路径类元素在原始页面内容中的位置信息,能够对多个路径类元素进行分组处理,得到元素分组集合。
其中,分组的目的在于:将隶属于同一张图片的多个路径类元素划分到同一个元素分组集合中,以避免丢失图片内容。由于同一张图片内的多个路径类元素通常相距较近,因此,具体分组时,可以按照邻近原则将位置相邻的多个路径类元素划分为一个元素分组集合。当然,也可以进一步结合其他的分组规则进行分组处理,本发明对具体的分组方式不做限定。
步骤S130:根据元素分组集合确定原始页面内容中包含的图片区域,针对图片区域执行截图处理,得到与图片区域相对应的截图图片。
其中,图片区域是指一张完整图片所对应的页面区域。具体地,可以直接将元素分组集合所对应的页面区域确定为原始页面内容中包含的图片区域,也可以进一步结合辅助校验方式来调整元素分组集合所对应的页面区域的区域范围,以使图片区域的区域范围更加精准。其中,辅助校验方式用于判断元素分组集合的划分方式以及页面区域的区域范围是否合理。例如,可以根据各个页面元素在原始页面内容中的编辑次序等信息进行辅助校验,从而剔除编辑次序相差较远的页面元素。
步骤S140:根据截图图片生成与原始页面内容相对应的页面排版内容。
具体地,将截图图片作为一个完整的图片元素,从而根据该完整的图片元素以及原始页面内容中包含的其他页面元素进行排版处理,以得到与原始页面内容相对应的页面排版内容。由于截图图片以图片形式完整保留了用于构成图片的各个路径线等页面元素,从而避免了构图方式被打乱的问题。
在本发明提供的基于电子书的排版处理方法中,能够识别页面元素中包含的多个路径类元素,并根据多个路径类元素在原始页面内容中的位置信息进行分组处理,得到元素分组集合;进而根据元素分组集合确定原始页面内容中包含的图片区域,通过截图处理得到与图片区域相对应的截图图片。由于截图图片已经转换为一个完整的图片元素,因此,不会破坏原有图片中的构图方式。由此可见,该方式能够识别由路径线构成的图片,并保留图片本身的构图方式,使最终得到的排版内容与电子书原始内容一致,进而提升了排版的效率和准确性。
实施例二
图2示出了本发明另一个实施例提供的基于电子书的排版处理方法的流程图。如图2所示,该方法包括以下步骤:
步骤S210:获取针对电子书的原始页面内容进行解析后得到的页面元素,识别页面元素中包含的多个路径类元素。
在本实施例中,电子书的原始页面内容是指:待排版的电子书中包含的指定页面的内容。具体实施时,可通过页面解析器对原始页面内容进行解析,从而得到其中包含的各种类型的页面元素。本实施例中的页面元素包括:文本类元素、图片类元素以及路径类元素等多种类型。具体实施时,根据各个页面元素的属性信息识别路径类元素。
其中,在识别页面元素中包含的多个路径类元素时,可以进一步确定页面有效区域,并获取页面有效区域内包含的页面元素,进而仅针对页面有效区域内包含的页面元素进行识别,以获取页面有效区域内包含的多个路径类元素。其中,页面有效区域可以为版心区域,由于页面的边缘可能存在页边线等内容,该页边线也是由路径类元素构成的,但是,并不属于电子书页面中的有效内容,因此,仅识别版心区域的元素能够提升准确性。
步骤S220:根据多个路径类元素在原始页面内容中的位置信息,对多个路径类元素进行分组处理,得到元素分组集合。
其中,由于原始页面内容通常为版式内容,因此,各个页面元素在原始页面内容中的相对位置关系是固定的。相应地,根据多个路径类元素在原始页面内容中的位置信息,能够对多个路径类元素进行分组处理,以使同一张图片所包含的多个路径线元素分入同一个元素分组集合。具体实施时,可通过以下方式进行分组处理:
在第一种方式中,根据位置信息,判断是否存在相互交叠的至少两个路径类元素;若是,将存在相互交叠的至少两个路径类元素划分为一个元素分组集合;其中,相互交叠包括:直接交叠和/或间接交叠。由此可见,第一种分组划分方式的核心在于:由于相互交叠的多个路径类元素之间具有强关联性,因此,将至少两个相互交叠的路径类元素划分为一个元素分组集合。该方式主要根据元素之间的强关联性进行分组划分。其中,相互交叠主要是指:两个路径类元素在位置上存在相交区域或重叠区域。由于各个路径类元素均具有对应于原始页面内容的位置信息,因此,根据该位置信息能够判断出两个路径类元素之间是否存在相交或重叠现象。由此可见,本实施例中的交叠主要包括相交和重叠两种方式。另外,交叠可以是直接交叠,也可以是间接交叠。例如,第一路径类元素与第二路径类元素之间存在交叉点,因此,第一路径类元素与第二路径类元素直接交叠;第二路径类元素与第三路径类元素之间存在交叉点,此时,虽然第一路径类元素与第三路径类元素之间不存在交叉点,但是,第一路径类元素与第三路径类元素之间因第二路径类元素而间接交叠。因此,在划分元素分组集合时,应将第一路径类元素、第三路径类元素之间与第二路径类元素同时划分到同一个元素分组集合中。
在第二种方式中,根据位置信息,将位置间隔小于预设间隔阈值的至少两个路径类元素划分为一个元素分组集合。由此可见,第二种分组划分方式的核心在于:由于间隔较近的多个路径类元素之间具有弱相关性,因此,将位置间隔小于预设间隔阈值的至少两个路径类元素划分为一个元素分组集合。该方式主要根据元素之间的弱相关性进行分组划分。实际情况中,同一个图片中的多条路径线之间可能并未出现交叉或重合现象,但是,彼此距离较近的多个路径线属于同一张图片的概率往往较大。
具体实施时,上述两种分组方式既可以单独使用,也可以结合使用。优选的,可以先通过第一种分组方式,将具备强关联性的多个路径类元素划分至同一个元素分组集合,然后,再针对该元素分组集合周围的多个路径类元素,按照弱相关性方式进行分组,以便将距离较近的路径类元素补充到上述的元素分组集合中。
另外,考虑到通过弱相关性进行分组的多个路径类元素之间可能存在误分组的现象。例如,有些距离较近的路径类元素可能为页面边框线或其他标注线等内容,并不属于图片内容,此时,还需要针对分组结果进行校验,以使分组结果更加准确。具体实施时,可以根据多个路径类元素之间的编辑次序进行校验,若同一个元素分组集合中的两个路径类元素之间的编辑次序间隔大于预设值,则从该元素分组集合中剔除编辑次序异常的路径类元素,以防止将不属于图片内容的其他元素误分入元素分组集合的问题。例如,可以将已划分的元素分组集合中的各个路径类元素按照编辑次序进行排序,若相邻的两个路径类元素之间的编辑次序的次序间隔大于预设值,则将编辑次序相差较大的路径类元素从元素分组集合中剔除。其中,编辑次序是指各个页面元素在原始页面内容中的获取顺序,通常同一个图片中的各个元素的编辑次序应连续或相差不大,因此,编辑次序相差较大的路径类元素则可能不属于该张图片。例如,若一个图片所对应的元素分组集合中的多个路径类元素的编辑次序大多分布于第一区间内,该第一区间位于1-100之间。此时,若某一路径类元素的编辑次序位于第二区间内,该第二区间位于1000-1100之间,则确定位于第二区间的路径类元素不属于该元素分组集合,应予以剔除。
另外,除了根据编辑次序进行校验之外,还可以进一步结合其他信息进行校验。例如,元素分组集合所对应的区域内应不包含正文文本,因此,应将与正文文本的位置相冲突的路径类元素从元素分组集合中剔除。
由此可见,通过本步骤得到的元素分组集合中的各个路径类元素属于构成同一图片的多个元素。
步骤S230:将与元素分组集合中的各个路径类元素的位置相匹配的区域确定为候选区域;识别候选区域中不属于图片主体的页面元素,根据识别结果确定原始页面内容中包含的图片区域。
其中,与元素分组集合中的各个路径类元素的位置相匹配的区域直接根据各个路径类元素的位置即可确定。考虑到候选区域中可能存在部分不属于图片主体的干扰元素,需要将候选区域中不属于图片主体的干扰类页面元素剔除,根据剔除后得到的各个路径类元素确定原始页面内容中包含的图片区域。该图片区域是指与一张完整的图片相对应的区域。
具体地,在识别候选区域中不属于图片主体的页面元素时,可通过多种方式实现:
在第一种方式中,根据候选区域中包含的各个页面元素在原始页面内容中的编辑次序,识别候选区域中不属于图片主体的页面元素;根据不属于图片主体的页面元素,调整候选区域的区域范围,根据调整后的候选区域的区域范围确定上述图片区域。具体实施时,针对候选区域中包含的各个页面元素的编辑次序进行排序,判断次序相邻的两个页面元素之间的次序间隔是否大于预设次序阈值;若是,将该次序相邻的两个页面元素中的至少一个页面元素识别为不属于图片主体的页面元素。
其中,图片主体是指:电子书中的一张图片所对应的主体区域,具体包括图片中的各种页面元素,如包括路径类元素、文本类元素等多种类型。相应地,候选区域虽然是由与元素分组集合中的各个路径类元素确定的,但是,候选区域中包含的页面元素不局限于路径类元素,还可能包含图片类元素或文本类元素等各种类型,凡是位于该区域范围内的元素均属于候选区域中的页面元素。因此,针对候选区域中包含的各种类型的页面元素,分别确定各个页面元素在原始页面内容中的编辑次序,按照编辑次序对各个页面元素进行排序,并比较每相邻的两个页面元素之间的编辑次序的差值,若该差值大于预设次序阈值,则确定该相邻的两个页面元素中的至少一个页面元素不属于图片主体。其中,编辑次序是指版式页面中的各个页面元素的获取顺序,通常情况下,同一个图片主体所对应的各个页面元素的编辑次序通常相差不大,因此,通过编辑次序能够剔除不属于图片主体的页面元素。
在第二种方式中,识别候选区域中不属于图片主体的页面元素,根据识别结果确定图片区域包括:判断候选区域内是否包含正文文本;若是,将与正文文本相对应的页面元素识别为不属于图片主体的页面元素;根据不属于图片主体的页面元素,调整候选区域的区域范围,根据调整后的候选区域的区域范围确定上述图片区域。通常情况下,图片区域与正文区域不会出现重合,因此,若候选区域内包含正文文本则说明该候选区域内框入了不属于图片内容的其他元素。因此,需要针对候选区域的区域范围进行调整,以使调整后的候选区域的区域范围内不包含正文文本,进而根据调整后的候选区域的区域范围确定图片区域。例如,可以缩小候选区域的区域范围,以使缩小后的候选区域内不包含上述的正文文本。通过上述方式,能够辅助校验候选区域的选取是否正确,从而防止图片区域内误包含正文文字。
另外,在确定上述图片区域时,还可以进一步通过以下方式实现:判断候选区域的邻近区域内是否包含与图片主体相关联的文本类元素;若是,扩充候选区域的区域范围,以使扩充后的候选区域包含与图片主体相关联的文本类元素;根据扩充后的候选区域确定图片区域。具体地,发明人在实现本发明的过程中发现,部分图片的边缘具有辅助性文字说明,该辅助性文字说明属于图片内容的一部分,因此,在框选图片区域时,应将该图片的辅助性文字说明框选进去。为此,在本实施例中,进一步判断候选区域的邻近区域内是否包含与图片主体相关联的文本类元素。其中,候选区域的邻近区域包括候选区域的上、下、左、右等多个区域,邻近区域的区域范围可由本领域技术人员灵活设置。其中,与图片主体相关联的文本类元素主要是指:用于对图片进行辅助说明、且属于图片内容的一部分的文本类型的元素。由此可见,与图片主体相关联的文本类元素属于图片内容本身。
具体实施时,在判断候选区域的邻近区域内是否包含与图片主体相关联的文本类元素时,获取候选区域的邻近区域内包含的文本类元素;根据文本类元素的元素属性是否为正文类元素,和/或,根据所述文本类元素与候选区域内相邻的页面元素之间的间隔,判断候选区域的邻近区域内包含的文本类元素是否为与图片主体相关联的文本类元素。其中,考虑到部分图片的边缘位置可能存在一些不属于图片内容的文字类信息。例如,有些正文内容距离图片较近,容易被误识别为与图片主体相关联的文本类元素。因此,为了解决误识别的问题,在本实施例中,进一步获取候选区域的邻近区域内包含的文本类元素的元素属性,根据其元素属性判断是否属于正文类元素,若是,则确定该文本类元素不属于与图片主体相关联的文本类元素。另外,还可以根据文本类元素与候选区域之间的距离进行判断,若间隔的距离较远,则说明该文本类元素不属于与图片主体相关联的文本类元素。
另外,部分图片还具有图片标注类内容,如图题图注等内容,该部分内容并不属于图片内容本身,即:不属于与图片主体相关联的文本类元素,因此,不应将其划分到候选区域内。为此,通过以下方式进行处理:获取与电子书相对应的图片标注类内容的样式信息;根据邻近区域内包含的文本类元素的元素样式是否与图片标注类内容的样式信息匹配,判断文本类元素是否属于图片标注类内容;若是,确定文本类元素不属于与图片主体相关联的文本类元素。其中,电子书的排版用户可能已经通过人工标注等方式标注了部分图片标注类内容,因此,根据已标注的图片标注类内容即可确定图片标注类内容的样式信息,该样式信息包括字体、字号、颜色等内容。由于同一电子书中的图题图注等内容的样式统一,因此,通过该方式能够防止将图题图注等内容误添加到图片区域内,从而提升图片识别的准确性。
步骤S240:针对图片区域执行截图处理,得到与图片区域相对应的截图图片;根据截图图片生成与原始页面内容相对应的页面排版内容。
具体地,针对整个图片区域执行截图处理,从而将整个图片区域所对应的内容截图为一张截图图片,该截图图片作为一个完整的图片元素,从而根据该完整的图片元素以及原始页面内容中包含的其他页面元素进行排版处理,以得到与原始页面内容相对应的页面排版内容。由于截图图片以图片形式完整保留了用于构成图片的各个路径线等页面元素,从而避免了构图方式被打乱的问题。
综上可知,该方式能够识别由路径线构成的图片,并保留图片本身的构图方式,使最终得到的排版内容与电子书原始内容一致,进而提升了排版的效率和准确性。并且,该方式能够准确识别图片区域的范围,对不属于图片的页面元素进行剔除,从而确保最终截图得到的图片的准确性。
实施例三
本申请实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于电子书的排版处理方法。
可执行指令具体可以用于使得处理器执行以下操作:
获取针对电子书的原始页面内容进行解析后得到的页面元素,识别所述页面元素中包含的多个路径类元素;
根据所述多个路径类元素在所述原始页面内容中的位置信息,对所述多个路径类元素进行分组处理,得到元素分组集合;
根据所述元素分组集合确定所述原始页面内容中包含的图片区域,针对所述图片区域执行截图处理,得到与所述图片区域相对应的截图图片;
根据所述截图图片生成与所述原始页面内容相对应的页面排版内容。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:
根据所述位置信息,判断是否存在相互交叠的至少两个路径类元素;
若是,将所述存在相互交叠的至少两个路径类元素划分为一个元素分组集合;其中,所述相互交叠包括:直接交叠和/或间接交叠。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:
根据所述位置信息,将位置间隔小于预设间隔阈值的至少两个路径类元素划分为一个元素分组集合。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:
将与所述元素分组集合中的各个路径类元素的位置相匹配的区域确定为候选区域;
识别所述候选区域中不属于图片主体的页面元素,根据识别结果确定所述图片区域。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:
根据所述候选区域中包含的各个页面元素在所述原始页面内容中的编辑次序,识别所述候选区域中不属于图片主体的页面元素;
根据不属于图片主体的页面元素,调整所述候选区域的区域范围,根据调整后的候选区域的区域范围确定所述图片区域。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:针对所述候选区域中包含的各个页面元素的编辑次序进行排序,判断次序相邻的两个页面元素之间的次序间隔是否大于预设次序阈值;
若是,将该次序相邻的两个页面元素中的至少一个页面元素识别为不属于图片主体的页面元素。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:
判断所述候选区域内是否包含正文文本;若是,将与所述正文文本相对应的页面元素识别为不属于图片主体的页面元素;
根据不属于图片主体的页面元素,调整所述候选区域的区域范围,根据调整后的候选区域的区域范围确定所述图片区域。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:
判断所述候选区域的邻近区域内是否包含与图片主体相关联的文本类元素;
若是,扩充所述候选区域的区域范围,以使扩充后的候选区域包含所述与图片主体相关联的文本类元素;
根据扩充后的候选区域确定所述图片区域。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:
获取所述候选区域的邻近区域内包含的文本类元素;
根据所述文本类元素的元素属性是否为正文类元素,和/或,根据所述文本类元素与所述候选区域内相邻的页面元素之间的间隔,判断所述候选区域的邻近区域内包含的文本类元素是否为与图片主体相关联的文本类元素。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:
获取与所述电子书相对应的图片标注类内容的样式信息;
根据所述邻近区域内包含的文本类元素的元素样式是否与所述图片标注类内容的样式信息匹配,判断所述文本类元素是否属于图片标注类内容;
若是,确定所述文本类元素不属于与图片主体相关联的文本类元素。
实施例四
图3示出了根据本发明另一个实施例的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图3所示,该电子设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。处理器302,用于执行程序310,具体可以执行上述基于电子书的排版处理方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:
获取针对电子书的原始页面内容进行解析后得到的页面元素,识别所述页面元素中包含的多个路径类元素;
根据所述多个路径类元素在所述原始页面内容中的位置信息,对所述多个路径类元素进行分组处理,得到元素分组集合;
根据所述元素分组集合确定所述原始页面内容中包含的图片区域,针对所述图片区域执行截图处理,得到与所述图片区域相对应的截图图片;
根据所述截图图片生成与所述原始页面内容相对应的页面排版内容。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:
根据所述位置信息,判断是否存在相互交叠的至少两个路径类元素;
若是,将所述存在相互交叠的至少两个路径类元素划分为一个元素分组集合;其中,所述相互交叠包括:直接交叠和/或间接交叠。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:
根据所述位置信息,将位置间隔小于预设间隔阈值的至少两个路径类元素划分为一个元素分组集合。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:
将与所述元素分组集合中的各个路径类元素的位置相匹配的区域确定为候选区域;
识别所述候选区域中不属于图片主体的页面元素,根据识别结果确定所述图片区域。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:
根据所述候选区域中包含的各个页面元素在所述原始页面内容中的编辑次序,识别所述候选区域中不属于图片主体的页面元素;
根据不属于图片主体的页面元素,调整所述候选区域的区域范围,根据调整后的候选区域的区域范围确定所述图片区域。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:针对所述候选区域中包含的各个页面元素的编辑次序进行排序,判断次序相邻的两个页面元素之间的次序间隔是否大于预设次序阈值;
若是,将该次序相邻的两个页面元素中的至少一个页面元素识别为不属于图片主体的页面元素。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:
判断所述候选区域内是否包含正文文本;若是,将与所述正文文本相对应的页面元素识别为不属于图片主体的页面元素;
根据不属于图片主体的页面元素,调整所述候选区域的区域范围,根据调整后的候选区域的区域范围确定所述图片区域。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:
判断所述候选区域的邻近区域内是否包含与图片主体相关联的文本类元素;
若是,扩充所述候选区域的区域范围,以使扩充后的候选区域包含所述与图片主体相关联的文本类元素;
根据扩充后的候选区域确定所述图片区域。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:
获取所述候选区域的邻近区域内包含的文本类元素;
根据所述文本类元素的元素属性是否为正文类元素,和/或,根据所述文本类元素与所述候选区域内相邻的页面元素之间的间隔,判断所述候选区域的邻近区域内包含的文本类元素是否为与图片主体相关联的文本类元素。
在一种可选的实现方式中,可执行指令用于使得处理器执行以下操作:
获取与所述电子书相对应的图片标注类内容的样式信息;
根据所述邻近区域内包含的文本类元素的元素样式是否与所述图片标注类内容的样式信息匹配,判断所述文本类元素是否属于图片标注类内容;
若是,确定所述文本类元素不属于与图片主体相关联的文本类元素。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种基于电子书的排版处理方法,包括:
获取针对电子书的原始页面内容进行解析后得到的页面元素,识别所述页面元素中包含的多个路径类元素;
根据所述多个路径类元素在所述原始页面内容中的位置信息,对所述多个路径类元素进行分组处理,得到元素分组集合;
根据多个路径类元素之间的编辑次序对分组结果进行校验,若同一个元素分组集合中的两个路径类元素之间的编辑次序间隔大于预设值,从元素分组集合中剔除编辑次序异常的路径类元素;
将与所述元素分组集合中的各个路径类元素的位置相匹配的区域确定为候选区域;识别所述候选区域中不属于图片主体的页面元素,根据识别结果确定图片区域;
其中,识别所述候选区域中不属于图片主体的页面元素,根据识别结果确定所述图片区域的步骤包括:
根据所述候选区域中包含的各个页面元素在所述原始页面内容中的编辑次序,识别所述候选区域中不属于图片主体的页面元素;其中,所述编辑次序是指各个页面元素在原始页面内容中的获取顺序;
根据不属于图片主体的页面元素,调整所述候选区域的区域范围,根据调整后的候选区域的区域范围确定所述图片区域;
针对所述图片区域执行截图处理,得到与所述图片区域相对应的截图图片;
根据所述截图图片生成与所述原始页面内容相对应的页面排版内容。
2.根据权利要求1所述的方法,其中,所述根据所述多个路径类元素在所述原始页面内容中的位置信息,对所述多个路径类元素进行分组处理,得到元素分组集合包括:
根据所述位置信息,判断是否存在相互交叠的至少两个路径类元素;
若是,将所述存在相互交叠的至少两个路径类元素划分为一个元素分组集合;其中,所述相互交叠包括:直接交叠和/或间接交叠。
3.根据权利要求1所述的方法,其中,所述根据所述多个路径类元素在所述原始页面内容中的位置信息,对所述多个路径类元素进行分组处理,得到元素分组集合包括:
根据所述位置信息,将位置间隔小于预设间隔阈值的至少两个路径类元素划分为一个元素分组集合。
4.根据权利要求1所述的方法,其中,所述根据所述候选区域中包含的各个页面元素在所述原始页面内容中的编辑次序,识别所述候选区域中不属于图片主体的页面元素包括:
针对所述候选区域中包含的各个页面元素的编辑次序进行排序,判断次序相邻的两个页面元素之间的次序间隔是否大于预设次序阈值;
若是,将该次序相邻的两个页面元素中的至少一个页面元素识别为不属于图片主体的页面元素。
5.根据权利要求1-4任一所述的方法,其中,所述识别所述候选区域中不属于图片主体的页面元素,根据识别结果确定所述图片区域还包括:
判断所述候选区域内是否包含正文文本;若是,将与所述正文文本相对应的页面元素识别为不属于图片主体的页面元素;
根据不属于图片主体的页面元素,调整所述候选区域的区域范围,根据调整后的候选区域的区域范围确定所述图片区域。
6.根据权利要求1-4任一所述的方法,其中,所述识别所述候选区域中不属于图片主体的页面元素,根据识别结果确定所述图片区域还包括:
判断所述候选区域的邻近区域内是否包含与图片主体相关联的文本类元素;
若是,扩充所述候选区域的区域范围,以使扩充后的候选区域包含所述与图片主体相关联的文本类元素;
根据扩充后的候选区域确定所述图片区域。
7.根据权利要求6所述的方法,其中,所述判断所述候选区域的邻近区域内是否包含与图片主体相关联的文本类元素包括:
获取所述候选区域的邻近区域内包含的文本类元素;
根据所述文本类元素的元素属性是否为正文类元素,和/或,根据所述文本类元素与所述候选区域内相邻的页面元素之间的间隔,判断所述候选区域的邻近区域内包含的文本类元素是否为与图片主体相关联的文本类元素。
8.根据权利要求7所述的方法,其中,所述根据所述文本类元素的元素属性是否为正文类元素,和/或,根据所述文本类元素与所述候选区域内相邻的页面元素之间的间隔,判断所述候选区域的邻近区域内包含的文本类元素是否为与图片主体相关联的文本类元素包括:
获取与所述电子书相对应的图片标注类内容的样式信息;
根据所述邻近区域内包含的文本类元素的元素样式是否与所述图片标注类内容的样式信息匹配,判断所述文本类元素是否属于图片标注类内容;
若是,确定所述文本类元素不属于与图片主体相关联的文本类元素。
9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-8任一所述的方法。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-8任一所述的方法。
CN202010972636.8A 2020-09-16 2020-09-16 基于电子书的排版处理方法、电子设备及存储介质 Active CN112100978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010972636.8A CN112100978B (zh) 2020-09-16 2020-09-16 基于电子书的排版处理方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010972636.8A CN112100978B (zh) 2020-09-16 2020-09-16 基于电子书的排版处理方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112100978A CN112100978A (zh) 2020-12-18
CN112100978B true CN112100978B (zh) 2022-07-08

Family

ID=73759673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010972636.8A Active CN112100978B (zh) 2020-09-16 2020-09-16 基于电子书的排版处理方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112100978B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011131B (zh) * 2021-03-22 2022-02-22 掌阅科技股份有限公司 基于图片类电子书的排版方法、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063364A (zh) * 2013-03-19 2014-09-24 福建福昕软件开发股份有限公司北京分公司 一种pdf文档识别方法
CN109522539A (zh) * 2018-11-26 2019-03-26 常诚 基于移动设备的pdf学术论文重排版系统及方法
CN110069767A (zh) * 2019-04-23 2019-07-30 掌阅科技股份有限公司 基于电子书的排版方法、电子设备及计算机存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306294A (zh) * 2011-08-23 2012-01-04 深圳市万兴软件有限公司 一种从pdf格式文件页面中提取图像的方法及系统
CN105095161B (zh) * 2014-05-07 2021-03-26 腾讯科技(北京)有限公司 一种显示富文本信息的方法及装置
CN106557458A (zh) * 2015-09-25 2017-04-05 北大方正集团有限公司 电子排版方法与装置
CN108415887B (zh) * 2018-02-09 2021-04-16 武汉大学 一种pdf文件向ofd文件转化的方法
CN109710362B (zh) * 2018-12-26 2020-02-07 掌阅科技股份有限公司 截图处理方法、计算设备及计算机存储介质
CN110096691B (zh) * 2019-04-16 2022-12-23 掌阅科技股份有限公司 基于电子书的排版方法、电子设备及计算机存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063364A (zh) * 2013-03-19 2014-09-24 福建福昕软件开发股份有限公司北京分公司 一种pdf文档识别方法
CN109522539A (zh) * 2018-11-26 2019-03-26 常诚 基于移动设备的pdf学术论文重排版系统及方法
CN110069767A (zh) * 2019-04-23 2019-07-30 掌阅科技股份有限公司 基于电子书的排版方法、电子设备及计算机存储介质

Also Published As

Publication number Publication date
CN112100978A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
US6694053B1 (en) Method and apparatus for performing document structure analysis
CN110069767B (zh) 基于电子书的排版方法、电子设备及计算机存储介质
CN112100979A (zh) 基于电子书的排版处理方法、电子设备及存储介质
US8452132B2 (en) Automatic file name generation in OCR systems
US20120324341A1 (en) Detection and extraction of elements constituting images in unstructured document files
US20160314104A1 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
US20150095769A1 (en) Layout Analysis Method And System
JP2004046315A (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
CN112380824B (zh) 自动识别分栏的pdf文档处理方法、装置、设备及存储介质
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN112380812A (zh) Pdf不完整框线表格提取方法、装置、设备及存储介质
CN113610068B (zh) 基于试卷图像的试题拆解方法、系统、存储介质及设备
CN112100978B (zh) 基于电子书的排版处理方法、电子设备及存储介质
CN112686000A (zh) 电子书文档的格式转换方法、电子设备及存储介质
JP2008108114A (ja) 文書処理装置および文書処理方法
CN109101973B (zh) 文字识别方法、电子设备、存储介质
CN113011131B (zh) 基于图片类电子书的排版方法、电子设备及存储介质
CN112699634B (zh) 电子书的排版处理方法、电子设备及存储介质
Kamola et al. Image-based logical document structure recognition
CN115983198A (zh) 从pdf文档中提取页眉或者页脚的方法、装置和存储介质
CN112364640A (zh) 实体名词链接方法、装置、计算机设备和存储介质
CN116324910A (zh) 用于执行设备上图像到文本转换的方法和系统
JPH11328306A (ja) 文書画像の論理要素抽出方法、装置および記録媒体
CN108897730B (zh) 一种pdf文本的处理方法以及装置
CN112906347B (zh) 文字排版方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20201218

Assignee: Shaanxi Digital Information Technology Co.,Ltd.

Assignor: ZHANGYUE TECHNOLOGY Co.,Ltd.

Contract record no.: X2023990000904

Denomination of invention: Layout processing methods, electronic devices, and storage media based on e-books

Granted publication date: 20220708

License type: Common License

Record date: 20231107

EE01 Entry into force of recordation of patent licensing contract