CN112699634B - 电子书的排版处理方法、电子设备及存储介质 - Google Patents

电子书的排版处理方法、电子设备及存储介质 Download PDF

Info

Publication number
CN112699634B
CN112699634B CN202011579816.6A CN202011579816A CN112699634B CN 112699634 B CN112699634 B CN 112699634B CN 202011579816 A CN202011579816 A CN 202011579816A CN 112699634 B CN112699634 B CN 112699634B
Authority
CN
China
Prior art keywords
interval
style
character
original
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011579816.6A
Other languages
English (en)
Other versions
CN112699634A (zh
Inventor
张恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangyue Technology Co Ltd
Original Assignee
Zhangyue Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangyue Technology Co Ltd filed Critical Zhangyue Technology Co Ltd
Priority to CN202011579816.6A priority Critical patent/CN112699634B/zh
Publication of CN112699634A publication Critical patent/CN112699634A/zh
Application granted granted Critical
Publication of CN112699634B publication Critical patent/CN112699634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种电子书的排版处理方法、电子设备及存储介质,该方法包括:针对电子书的原始文档中包含的原始文字行进行解析,在转换文档中生成对应于原始文字行的转换文字行;获取转换文档的转换文字行中包含的各个文字在原始文档中的位置偏移量,计算转换文档的转换文字行中相邻的两个文字在原始文档中的间隔;获取与原始文字行的样式信息相对应的样式空格阈值;根据转换文字行中相邻的两个文字在原始文档中的间隔与样式空格阈值的比较结果,确定是否在转换文字行中相邻的两个文字之间添加空格。该方式能够根据样式相同的多个原始文字行中的文字间隔的统计分布数据确定与该样式信息相对应的样式空格阈值并判断是否需要添加空格。

Description

电子书的排版处理方法、电子设备及存储介质
技术领域
本发明涉及计算机领域,具体涉及一种电子书的排版处理方法、电子设备及存储介质。
背景技术
在电子书排版过程中,通常需要将版式文档转换为流式文档,以便于灵活编辑。在现有技术中,大多通过文本解析的方式实现版式文档至流式文档的转换。具体的,针对版式文档中包含的各个文字进行解析,根据解析结果得到流式文档中的对应文字。
但是,发明人在实现本发明的过程中发现,解析过程通常仅涉及文字字符的识别,对于文字之间的间隔则不易准确识别。因此,转换后得到的流式文档中常常出现空格缺失的问题,而空格缺失显然会对用户的阅读过程造成不便。由此可见,现有技术中亟需一种能够准确校验转换文档中是否需要插入空格的方案。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的电子书的排版处理方法、电子设备及存储介质。
根据本发明的一个方面,提供了一种电子书的排版处理方法,该方法包括:
针对电子书的原始文档中包含的原始文字行进行解析,根据解析结果在转换文档中生成对应于所述原始文字行的转换文字行;
获取所述转换文档的转换文字行中包含的各个文字在所述原始文档中的位置偏移量,根据所述位置偏移量计算所述转换文档的转换文字行中相邻的两个文字在所述原始文档中的间隔;
获取与所述原始文字行的样式信息相对应的样式空格阈值;其中,所述样式空格阈值根据样式相同的多个原始文字行中的文字间隔的统计分布数据确定;
根据所述转换文字行中相邻的两个文字在所述原始文档中的间隔与所述样式空格阈值的比较结果,确定是否在所述转换文字行中相邻的两个文字之间添加空格。
根据本发明的另一方面,提供了一种电子设备,该电子设备包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
针对电子书的原始文档中包含的原始文字行进行解析,根据解析结果在转换文档中生成对应于所述原始文字行的转换文字行;
获取所述转换文档的转换文字行中包含的各个文字在所述原始文档中的位置偏移量,根据所述位置偏移量计算所述转换文档的转换文字行中相邻的两个文字在所述原始文档中的间隔;
获取与所述原始文字行的样式信息相对应的样式空格阈值;其中,所述样式空格阈值根据样式相同的多个原始文字行中的文字间隔的统计分布数据确定;
根据所述转换文字行中相邻的两个文字在所述原始文档中的间隔与所述样式空格阈值的比较结果,确定是否在所述转换文字行中相邻的两个文字之间添加空格。
根据本发明的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
针对电子书的原始文档中包含的原始文字行进行解析,根据解析结果在转换文档中生成对应于所述原始文字行的转换文字行;
获取所述转换文档的转换文字行中包含的各个文字在所述原始文档中的位置偏移量,根据所述位置偏移量计算所述转换文档的转换文字行中相邻的两个文字在所述原始文档中的间隔;
获取与所述原始文字行的样式信息相对应的样式空格阈值;其中,所述样式空格阈值根据样式相同的多个原始文字行中的文字间隔的统计分布数据确定;
根据所述转换文字行中相邻的两个文字在所述原始文档中的间隔与所述样式空格阈值的比较结果,确定是否在所述转换文字行中相邻的两个文字之间添加空格。
在本发明提供的电子书的排版处理方法、电子设备及存储介质中,首先,根据电子书的原始文档中包含的原始文字行的解析结果,在转换文档中生成对应于原始文字行的转换文字行;然后,计算转换文档的转换文字行中相邻的两个文字在原始文档中的间隔,并获取与原始文字行的样式信息相对应的样式空格阈值;最后,根据转换文字行中相邻的两个文字在原始文档中的间隔与样式空格阈值的比较结果,确定是否在转换文字行中相邻的两个文字之间添加空格。由此可见,该方式能够根据样式相同的多个原始文字行中的文字间隔的统计分布数据确定与该样式信息相对应的样式空格阈值,从而根据样式空格阈值判断是否需要添加空格。通过按照样式信息分别设置样式空格阈值,能够使设置的样式空格阈值更加合理,从而使校验结果增加准确。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明一个实施例提供的电子书的排版处理方法的流程图;
图2示出了本发明另一个实施例提供的电子书的排版处理方法的流程图;
图3示出了根据本发明另一个实施例的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了本发明一个实施例提供的电子书的排版处理方法的流程图。
如图1所示,该方法包括以下步骤:
步骤S110:针对电子书的原始文档中包含的原始文字行进行解析,根据解析结果在转换文档中生成对应于原始文字行的转换文字行。
具体的,电子书的原始文档是指:执行格式转换处理之前的电子书原文件。其中,电子书的原始文档可以为PDF格式、图片格式等各种格式。相应的,转换文档是指:针对原始文档执行转换之后得到的文档,转换文档可以为epub格式、word格式等各种格式。
具体实施时,通过对原始文档中的各个原始文字行进行解析,以得到原始文字行中包含的各个文字字符,将解析得到的各个文字字符按照解析顺序依次排列在转换文档中,以得到对应于原始文字行的转换文字行。由此可见,在解析结果正确的前提下,转换文字行中包含的文字字符的数量与原始文字行中包含的文字字符的数量是一一对应的。
步骤S120:获取转换文档的转换文字行中包含的各个文字在原始文档中的位置偏移量,根据位置偏移量计算转换文档的转换文字行中相邻的两个文字在原始文档中的间隔。
其中,当原始文档为PDF等版式文档,或图片格式的文档时,原始文档中的各个文字在页面中的位置偏移量是固定的,通过各个文字的位置偏移量能够计算相邻的两个文字在原始文档中的间隔。
具体转换时,转换文档中可能会丢失空格,因此,需要根据各个文字在原始文档中的位置偏移量确定文字之间是否存在空格。其中,位置偏移量可通过文字在原始文档的页面中的页面坐标进行表示,本发明对位置偏移量的具体表示形式不作限定。
步骤S130:获取与原始文字行的样式信息相对应的样式空格阈值;其中,样式空格阈值根据样式相同的多个原始文字行中的文字间隔的统计分布数据确定。
具体的,根据原始文字行的样式信息确定与该样式信息相对应的样式空格阈值。其中,在本实施例中,需要针对不同的样式信息分别设置不同的样式空格阈值。具体实施时,针对样式相同的各个原始文字行,计算其中包含的相邻文字之间的文字间隔,统计各个文字间隔的分布情况,根据文字间隔的分布情况设置对应样式的样式空格阈值。
步骤S140:根据转换文字行中相邻的两个文字在原始文档中的间隔与样式空格阈值的比较结果,确定是否在转换文字行中相邻的两个文字之间添加空格。
具体的,将转换文字行中相邻的两个文字在原始文档中的间隔与样式空格阈值进行比较,根据比较结果判断是否在转换文字行中相邻的两个文字之间添加空格。例如,若转换文字行中相邻的两个文字在原始文档中的间隔大于样式空格阈值,则确定需要在该相邻的两个文字之间添加空格;若转换文字行中相邻的两个文字在原始文档中的间隔不大于样式空格阈值,则确定不需要在该相邻的两个文字之间添加空格。
由此可见,该方式能够根据样式相同的多个原始文字行中的文字间隔的统计分布数据确定与该样式信息相对应的样式空格阈值,从而根据样式空格阈值判断是否需要添加空格。通过按照样式信息分别设置样式空格阈值,能够使设置的样式空格阈值更加合理,从而使校验结果增加准确。
实施例二
图2示出了本发明另一个实施例提供的电子书的排版处理方法的流程图。如图2所示,该方法包括以下步骤:
步骤S200:预先将电子书的原始文档中包含的原始文字行按照样式信息进行聚类,根据聚类结果设置与各种样式信息相对应的样式空格阈值。
其中,样式信息用于描述文字的样式,具体包括:字体、字号、字形和/或颜色等。由于一本电子书的标题、正文以及附录等不同部分所对应的字体样式各不相同,因此,在本实施例中,分别针对不同的样式信息设置不同的样式空格阈值。其中,样式空格阈值用于判断对应样式信息的文档中的相邻文字之间是否需要插入空格。
在传统实现方式中,大多针对电子书设置一个固定阈值,该固定阈值通用于整本电子书中的全部章节,甚至通用于不同的电子书。但是,固定阈值的方式无法适配不同的章节段落,容易导致空格校验错误。为了解决固定阈值所存在的校验不准确的问题,发明人尝试根据相邻文字的字型特征设置不同的字型空格阈值。其中,字型特征可以包括:文字的高度、和/或宽度等。例如,根据相邻文字的文字高度设置对应的字型空格阈值。由此可见,字型特征属于样式信息的一种,相应的,字型空格阈值属于样式空格阈值的一种形式。
发明人在实现本发明的过程中发现,由于电子书中通常包含多种样式信息,而各种样式信息中的文字的字型特征各不相同,因此,针对不同的样式信息分别设置不同的空格阈值,能够提升空格校验的准确性。
具体实施时,通过以下方式设置样式空格阈值:预先将电子书的原始文档中包含的原始文字行按照样式信息进行聚类,得到分别对应于各个样式信息的文字行集合;针对与各个样式信息相对应的文字行集合,根据该文字行集合中的各个文字在原始文档中的位置偏移量计算该文字行集合中的各个相邻文字之间的间隔,根据该文字行集合中的各个相邻文字之间的间隔的统计分布数据设置与该样式信息相对应的样式空格阈值。
其中,样式信息包括字体、字号、字形等信息,按照样式信息进行聚类,能够得到多个分别对应于不同的样式信息的文字行集合。由此可见,同一个文字行集合中包含的各个原始文字行具有相同的样式信息。其中,同一个文字行集合中的各个原始文字行可能连续,也可能不连续,具体取决于电子书的原始排版样式。另外,文字行集合中包含的原始文字行既可以是一整行,也可以是半行,具体取决于样式信息。具体实施时,可以按照各个原始文字行的行号,将同一样式的多个原始文字行添加到同一个文字行集合中。对于一个文字行集合而言,分别获取该文字行集合中的各个文字在原始文档中的位置偏移量,根据位置偏移量能够确定各个文字在原始文档中对应的位置,相应的,根据位置偏移量计算该文字行集合中的每相邻的两个文字之间的间隔,具体通过间隔数值表示。由于不同文字之间的间隔往往不尽相同,因此,通过上述计算方式能够确定多个间隔数值。在本实施例中,根据该文字行集合中的各个相邻文字之间的间隔(即间隔数值)的统计分布数据设置与该样式信息相对应的样式空格阈值。
具体实施时,在根据该文字行集合中的各个相邻文字之间的间隔的统计分布数据设置与该样式信息相对应的样式空格阈值时,通过以下方式实现:计算该文字行集合中的各个相邻文字之间的间隔以及各个间隔(即间隔的具体数值)的出现频次;根据各个间隔的出现频次,设置与该样式信息相对应的样式空格阈值。
例如,在一种具体的实现方式中,在预设坐标系中绘制与各个间隔的出现频次相对应的统计分布数据;其中,预设坐标系的第一坐标轴用于表示相邻文字之间的间隔的数值,预设坐标系的第二坐标轴用于表示相邻文字之间的间隔的数值的出现频次;根据统计分布数据,确定第一间隔密集区间以及第二间隔密集区间;根据第一间隔密集区间以及第二间隔密集区间设置与该样式信息相对应的样式空格阈值。比如,第一坐标轴为横坐标,第二坐标轴为纵坐标。通过横坐标绘制每相邻的两个文字之间的间隔的具体数值(如0.5、0.6、0.8等);通过纵坐标绘制每个间隔的具体数值的出现频次。例如,假设在同一个文字行集合中,0.5这一间隔数值总共出现了15次,即:该文字行集合中有15组相邻文字之间的间隔为0.5(单位可以为磅或毫米等),相应的,在横坐标值为0.5,纵坐标值为15的位置绘制一个统计分布数据的数据点。由此可见,通过多个统计分布数据的数据点,能够反映出该文字行集合中的文字间隔(即相邻的两个文字之间的间隔距离)的分布情况。通常情况下,文字行集合中的文字包括两种情况:一种为未插入空格的情况,另一种为插入空格的情况,因此,对于未插入空格的两个相邻文字而言,其间隔通常较小;而对于插入空格的两个相邻文字而言,其间隔通常较大。因此,通过各个间隔数值的分布情况,能够在第一坐标轴上确定第一间隔密集区间以及第二间隔密集区间。其中,第一间隔密集区间是指:未插入空格的两个相邻文字所对应的间隔的大致区间;第二间隔密集区间是指:插入空格的两个相邻文字所对应的间隔的大致区间。因此,第一间隔密集区间的数值小于第二间隔密集区间。例如,当未插入空格的两个相邻文字所对应的间隔大多集中为0.5、0.6、以及0.7时,可以将第一间隔密集区间设置为[0.5,0.7];当插入空格的两个相邻文字所对应的间隔大多集中为1.5、1.6、以及1.7时,可以将第二间隔密集区间设置为[1.5,1.7]。由此可见,第一间隔密集区间通过以下方式确定:确定未插入空格的两个相邻文字之间的间隔的统计分布情况,提取间隔数值分布密集(即出现频次高)的区间作为第一间隔密集区间;同理,第二间隔密集区间通过以下方式确定:确定插入空格的两个相邻文字之间的间隔的统计分布情况,提取间隔数值分布密集(即出现频次高)的区间作为第二间隔密集区间。总之,经统计分布后发现,多数间隔数值可以自动聚类为两个区间,分别为上述的第一间隔密集区间以及第二间隔密集区间。相应的,在根据第一间隔密集区间以及第二间隔密集区间设置与该样式信息相对应的样式空格阈值时,可以根据位于第一间隔密集区间以及第二间隔密集区间之间的中间值确定该样式空格阈值,该中间值具体可以为第一间隔密集区间的第一区间中心点与第二间隔密集区间的第二区间中心点之间的中点的数值。本发明不限定样式空格阈值的具体计算方式,总之,通过第一间隔密集区间以及第二间隔密集区间能够分别确定插入空格后的平均间隔以及未插空格时的平均间隔,从而根据统计分布情况合理设置样式空格阈值。
具体实施时,考虑到同一本电子书中通常包含多种样式信息,因此,可以设置样式阈值表,用于根据统计分布结果存储对应于各种样式信息的样式空格阈值,以便于在后续过程中进行校验。
步骤S210:针对电子书的原始文档中包含的原始文字行进行解析,根据解析结果在转换文档中生成对应于原始文字行的转换文字行。
在本实施例中,原始文档为PDF格式的文档,转换文档为epub格式的文档。具体实施时,通过对原始文档中的各个原始文字行进行解析,以得到原始文字行中包含的各个文字字符,将解析得到的各个文字字符按照解析顺序依次排列在转换文档中,以得到对应于原始文字行的转换文字行。由此可见,在解析结果正确的前提下,转换文字行中包含的文字字符的数量与原始文字行中包含的文字字符的数量是一一对应的。
步骤S220:获取转换文档的转换文字行中包含的各个文字在原始文档中的位置偏移量,根据位置偏移量计算转换文档的转换文字行中相邻的两个文字在原始文档中的间隔。
其中,当原始文档为PDF等版式文档,或图片格式的文档时,原始文档中的各个文字在页面中的位置偏移量是固定的,通过各个文字的位置偏移量能够计算相邻的两个文字在原始文档中的间隔。
具体转换时,转换文档中可能会丢失空格,因此,需要根据各个文字在原始文档中的位置偏移量确定文字之间是否存在空格。其中,位置偏移量可通过文字在原始文档的页面中的页面坐标进行表示,本发明对位置偏移量的具体表示形式不作限定。
步骤S230:获取与原始文字行的样式信息相对应的样式空格阈值;其中,样式空格阈值根据样式相同的多个原始文字行中的文字间隔的统计分布数据确定。
具体的,根据原始文字行的样式信息确定与该样式信息相对应的样式空格阈值。其中,在本实施例中,需要针对不同的样式信息分别设置不同的样式空格阈值。具体实施时,针对样式相同的各个原始文字行,计算其中包含的相邻文字之间的文字间隔,统计各个文字间隔的分布情况,根据文字间隔的分布情况设置对应样式的样式空格阈值。
具体的,确定原始文字行的样式信息,根据样式阈值表中存储的对应于各种样式信息的样式空格阈值,确定与原始文字行的样式信息相对应的样式空格阈值。由此可见,在校验过程中,需要根据当前获取到的原始文字行的样式信息,动态确定与该样式信息相匹配的样式空格阈值。每当获取到的原始文字行的样式信息发生改变时,其对应的样式空格阈值也随之改变。因此,对于正文、注释、附录等不同内容部分,由于其样式信息各不相同,因此,各部分所对应的样式空格阈值也各不相同,由此能够提升空格校验的准确性。
步骤S240:根据转换文字行中相邻的两个文字在原始文档中的间隔与样式空格阈值的比较结果,确定是否在转换文字行中相邻的两个文字之间添加空格。
具体的,将转换文字行中相邻的两个文字在原始文档中的间隔与样式空格阈值进行比较,根据比较结果判断是否在转换文字行中相邻的两个文字之间添加空格。
例如,若转换文字行中相邻的两个文字在原始文档中的间隔大于样式空格阈值,则确定转换文字行中相邻的两个文字之间具有空格;相应的,进一步判断转换文字行中该相邻的两个文字之间是否已添加空格;若否,在转换文字行中相邻的两个文字之间添加空格。通过上述方式,能够在文字转换过程中丢失空格的情况下自动补充空格,以防止空格丢失的问题。
又如,若转换文字行中相邻的两个文字在原始文档中的间隔不大于样式空格阈值,则确定转换文字行中相邻的两个文字之间不具有空格;相应的,进一步判断转换文字行中该相邻的两个文字之间是否已添加空格;若是,在转换文字行中相邻的两个文字之间删除空格。通过上述方式,能够在文字转换过程中误添加空格的情况下自动去除空格,以防止空格多余的问题。
本实施例中的原始文字行包括:英文文字行、拼音文字行、和/或汉字文字行等多种形式,本发明不限定文字的具体内涵。其中,本实施例尤其适用于英文文字行的处理,由于英文中的单词与单词之间完全依靠空格分隔,若英文中的空格丢失将导致文档无法阅读,因此,该方式尤其适用于对英文字符进行空格校验操作。
综上可知,该方式能够根据样式相同的多个原始文字行中的文字间隔的统计分布数据确定与该样式信息相对应的样式空格阈值,从而根据样式空格阈值判断是否需要添加空格。通过按照样式信息分别设置样式空格阈值,能够使设置的样式空格阈值更加合理,从而使校验结果增加准确。并且,该方式能够通过统计分布的方式统计各种样式下的空格平均间距,从而使空格校验结果更加准确。
实施例三
本申请实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的电子书的排版处理方法。
可执行指令具体可以用于使得处理器执行以下操作:
针对电子书的原始文档中包含的原始文字行进行解析,根据解析结果在转换文档中生成对应于所述原始文字行的转换文字行;
获取所述转换文档的转换文字行中包含的各个文字在所述原始文档中的位置偏移量,根据所述位置偏移量计算所述转换文档的转换文字行中相邻的两个文字在所述原始文档中的间隔;
获取与所述原始文字行的样式信息相对应的样式空格阈值;其中,所述样式空格阈值根据样式相同的多个原始文字行中的文字间隔的统计分布数据确定;
根据所述转换文字行中相邻的两个文字在所述原始文档中的间隔与所述样式空格阈值的比较结果,确定是否在所述转换文字行中相邻的两个文字之间添加空格。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
预先将电子书的原始文档中包含的原始文字行按照样式信息进行聚类,得到分别对应于各个样式信息的文字行集合;
针对与各个样式信息相对应的文字行集合,根据该文字行集合中的各个文字在所述原始文档中的位置偏移量计算该文字行集合中的各个相邻文字之间的间隔,根据该文字行集合中的各个相邻文字之间的间隔的统计分布数据设置与该样式信息相对应的样式空格阈值。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
计算该文字行集合中的各个相邻文字之间的间隔以及各个间隔的出现频次;
根据各个间隔的出现频次,设置与该样式信息相对应的样式空格阈值。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
在预设坐标系中绘制与各个间隔的出现频次相对应的统计分布数据;其中,所述预设坐标系的第一坐标轴用于表示相邻文字之间的间隔的数值,所述预设坐标系的第二坐标轴用于表示相邻文字之间的间隔的数值的出现频次;
根据所述统计分布数据,确定第一间隔密集区间以及第二间隔密集区间;
根据所述第一间隔密集区间以及第二间隔密集区间设置与该样式信息相对应的样式空格阈值。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
确定所述原始文字行的样式信息,根据样式阈值表中存储的对应于各种样式信息的样式空格阈值,确定与所述原始文字行的样式信息相对应的样式空格阈值;
其中,所述样式信息包括:字体、字号、字形和/或颜色。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
若所述转换文字行中相邻的两个文字在所述原始文档中的间隔大于所述样式空格阈值,则确定所述转换文字行中相邻的两个文字之间具有空格;
判断所述转换文字行中相邻的两个文字之间是否已添加空格;若否,在所述转换文字行中相邻的两个文字之间添加空格。
在一种可选的实现方式中,所述原始文档为版式文档,所述转换文档为流式文档。
在一种可选的实现方式中,所述原始文字行包括:英文文字行、拼音文字行、和/或汉字文字行。
实施例四
图3示出了根据本发明另一个实施例的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图3所示,该电子设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。处理器302,用于执行程序310,具体可以执行上述电子书的排版处理方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:
针对电子书的原始文档中包含的原始文字行进行解析,根据解析结果在转换文档中生成对应于所述原始文字行的转换文字行;
获取所述转换文档的转换文字行中包含的各个文字在所述原始文档中的位置偏移量,根据所述位置偏移量计算所述转换文档的转换文字行中相邻的两个文字在所述原始文档中的间隔;
获取与所述原始文字行的样式信息相对应的样式空格阈值;其中,所述样式空格阈值根据样式相同的多个原始文字行中的文字间隔的统计分布数据确定;
根据所述转换文字行中相邻的两个文字在所述原始文档中的间隔与所述样式空格阈值的比较结果,确定是否在所述转换文字行中相邻的两个文字之间添加空格。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
预先将电子书的原始文档中包含的原始文字行按照样式信息进行聚类,得到分别对应于各个样式信息的文字行集合;
针对与各个样式信息相对应的文字行集合,根据该文字行集合中的各个文字在所述原始文档中的位置偏移量计算该文字行集合中的各个相邻文字之间的间隔,根据该文字行集合中的各个相邻文字之间的间隔的统计分布数据设置与该样式信息相对应的样式空格阈值。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
计算该文字行集合中的各个相邻文字之间的间隔以及各个间隔的出现频次;
根据各个间隔的出现频次,设置与该样式信息相对应的样式空格阈值。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
在预设坐标系中绘制与各个间隔的出现频次相对应的统计分布数据;其中,所述预设坐标系的第一坐标轴用于表示相邻文字之间的间隔的数值,所述预设坐标系的第二坐标轴用于表示相邻文字之间的间隔的数值的出现频次;
根据所述统计分布数据,确定第一间隔密集区间以及第二间隔密集区间;
根据所述第一间隔密集区间以及第二间隔密集区间设置与该样式信息相对应的样式空格阈值。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
确定所述原始文字行的样式信息,根据样式阈值表中存储的对应于各种样式信息的样式空格阈值,确定与所述原始文字行的样式信息相对应的样式空格阈值;
其中,所述样式信息包括:字体、字号、字形和/或颜色。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
若所述转换文字行中相邻的两个文字在所述原始文档中的间隔大于所述样式空格阈值,则确定所述转换文字行中相邻的两个文字之间具有空格;
判断所述转换文字行中相邻的两个文字之间是否已添加空格;若否,在所述转换文字行中相邻的两个文字之间添加空格。
在一种可选的实现方式中,所述原始文档为版式文档,所述转换文档为流式文档。
在一种可选的实现方式中,所述原始文字行包括:英文文字行、拼音文字行、和/或汉字文字行。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (15)

1.一种电子书的排版处理方法,其中,所述方法包括:
预先将电子书的原始文档中包含的原始文字行按照样式信息进行聚类,得到分别对应于各个样式信息的文字行集合;其中,同一个文字行集合中包含的各个原始文字行具有相同的样式信息;针对与各个样式信息相对应的文字行集合,根据该文字行集合中的各个文字在原始文档中的位置偏移量计算该文字行集合中的各个相邻文字之间的间隔,根据该文字行集合中的各个相邻文字之间的间隔的统计分布数据设置与该样式信息相对应的样式空格阈值;其中,根据所述统计分布数据,确定第一间隔密集区间以及第二间隔密集区间;根据所述第一间隔密集区间以及第二间隔密集区间设置与该样式信息相对应的样式空格阈值;设置样式阈值表,用于根据统计分布结果存储对应于各种样式信息的样式空格阈值;
针对电子书的原始文档中包含的原始文字行进行解析,根据解析结果在转换文档中生成对应于所述原始文字行的转换文字行;
获取所述转换文档的转换文字行中包含的各个文字在所述原始文档中的位置偏移量,根据所述位置偏移量计算所述转换文档的转换文字行中相邻的两个文字在所述原始文档中的间隔;
获取与所述原始文字行的样式信息相对应的样式空格阈值;其中,所述样式空格阈值根据样式相同的多个原始文字行中的文字间隔的统计分布数据确定;其中,根据样式阈值表中存储的对应于各种样式信息的样式空格阈值,确定与原始文字行的样式信息相对应的样式空格阈值;
根据所述转换文字行中相邻的两个文字在所述原始文档中的间隔与所述样式空格阈值的比较结果,确定是否在所述转换文字行中相邻的两个文字之间添加空格。
2.根据权利要求1所述的方法,其中,所述根据该文字行集合中的各个相邻文字之间的间隔的统计分布数据设置与该样式信息相对应的样式空格阈值包括:
计算该文字行集合中的各个相邻文字之间的间隔以及各个间隔的出现频次;
根据各个间隔的出现频次,设置与该样式信息相对应的样式空格阈值。
3.根据权利要求2所述的方法,其中,所述根据各个间隔的出现频次,设置与该样式信息相对应的样式空格阈值包括:
在预设坐标系中绘制与各个间隔的出现频次相对应的统计分布数据;其中,所述预设坐标系的第一坐标轴用于表示相邻文字之间的间隔的数值,所述预设坐标系的第二坐标轴用于表示相邻文字之间的间隔的数值的出现频次;
根据所述统计分布数据,确定第一间隔密集区间以及第二间隔密集区间;
根据所述第一间隔密集区间以及第二间隔密集区间设置与该样式信息相对应的样式空格阈值。
4.根据权利要求1-3任一所述的方法,其中,所述获取与所述原始文字行的样式信息相对应的样式空格阈值包括:
确定所述原始文字行的样式信息,根据样式阈值表中存储的对应于各种样式信息的样式空格阈值,确定与所述原始文字行的样式信息相对应的样式空格阈值;
其中,所述样式信息包括:字体、字号、字形和/或颜色。
5.根据权利要求1-3任一所述的方法,其中,所述根据所述转换文字行中相邻的两个文字在所述原始文档中的间隔与所述样式空格阈值的比较结果,确定是否在所述转换文字行中相邻的两个文字之间添加空格包括:
若所述转换文字行中相邻的两个文字在所述原始文档中的间隔大于所述样式空格阈值,则确定所述转换文字行中相邻的两个文字之间具有空格;
判断所述转换文字行中相邻的两个文字之间是否已添加空格;若否,在所述转换文字行中相邻的两个文字之间添加空格。
6.根据权利要求1-3任一所述的方法,其中,所述原始文档为版式文档,所述转换文档为流式文档。
7.根据权利要求1-3任一所述的方法,其中,所述原始文字行包括:英文文字行、拼音文字行、和/或汉字文字行。
8.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
预先将电子书的原始文档中包含的原始文字行按照样式信息进行聚类,得到分别对应于各个样式信息的文字行集合;其中,同一个文字行集合中包含的各个原始文字行具有相同的样式信息;针对与各个样式信息相对应的文字行集合,根据该文字行集合中的各个文字在原始文档中的位置偏移量计算该文字行集合中的各个相邻文字之间的间隔,根据该文字行集合中的各个相邻文字之间的间隔的统计分布数据设置与该样式信息相对应的样式空格阈值;其中,根据所述统计分布数据,确定第一间隔密集区间以及第二间隔密集区间;根据所述第一间隔密集区间以及第二间隔密集区间设置与该样式信息相对应的样式空格阈值;设置样式阈值表,用于根据统计分布结果存储对应于各种样式信息的样式空格阈值;
针对电子书的原始文档中包含的原始文字行进行解析,根据解析结果在转换文档中生成对应于所述原始文字行的转换文字行;按照样式信息进行聚类,得到多个分别对应于不同的样式信息的文字行集合,其中,同一个文字行集合中包含的各个原始文字行具有相同的样式信息;
获取所述转换文档的转换文字行中包含的各个文字在所述原始文档中的位置偏移量,根据所述位置偏移量计算所述转换文档的转换文字行中相邻的两个文字在所述原始文档中的间隔;
获取与所述原始文字行的样式信息相对应的样式空格阈值;其中,所述样式空格阈值根据样式相同的多个原始文字行中的文字间隔的统计分布数据确定;其中,根据样式阈值表中存储的对应于各种样式信息的样式空格阈值,确定与原始文字行的样式信息相对应的样式空格阈值;
根据所述转换文字行中相邻的两个文字在所述原始文档中的间隔与所述样式空格阈值的比较结果,确定是否在所述转换文字行中相邻的两个文字之间添加空格。
9.根据权利要求8所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
计算该文字行集合中的各个相邻文字之间的间隔以及各个间隔的出现频次;
根据各个间隔的出现频次,设置与该样式信息相对应的样式空格阈值。
10.根据权利要求9所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
在预设坐标系中绘制与各个间隔的出现频次相对应的统计分布数据;其中,所述预设坐标系的第一坐标轴用于表示相邻文字之间的间隔的数值,所述预设坐标系的第二坐标轴用于表示相邻文字之间的间隔的数值的出现频次;
根据所述统计分布数据,确定第一间隔密集区间以及第二间隔密集区间;
根据所述第一间隔密集区间以及第二间隔密集区间设置与该样式信息相对应的样式空格阈值。
11.根据权利要求8-10任一所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
确定所述原始文字行的样式信息,根据样式阈值表中存储的对应于各种样式信息的样式空格阈值,确定与所述原始文字行的样式信息相对应的样式空格阈值;
其中,所述样式信息包括:字体、字号、字形和/或颜色。
12.根据权利要求8-10任一所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
若所述转换文字行中相邻的两个文字在所述原始文档中的间隔大于所述样式空格阈值,则确定所述转换文字行中相邻的两个文字之间具有空格;
判断所述转换文字行中相邻的两个文字之间是否已添加空格;若否,在所述转换文字行中相邻的两个文字之间添加空格。
13.根据权利要求8-10任一所述的电子设备,其中,所述原始文档为版式文档,所述转换文档为流式文档。
14.根据权利要求8-10任一所述的电子设备,其中,所述原始文字行包括:英文文字行、拼音文字行、和/或汉字文字行。
15.一种用于显示对象展示页面的计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7任一所述的方法。
CN202011579816.6A 2020-12-28 2020-12-28 电子书的排版处理方法、电子设备及存储介质 Active CN112699634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011579816.6A CN112699634B (zh) 2020-12-28 2020-12-28 电子书的排版处理方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011579816.6A CN112699634B (zh) 2020-12-28 2020-12-28 电子书的排版处理方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112699634A CN112699634A (zh) 2021-04-23
CN112699634B true CN112699634B (zh) 2022-05-24

Family

ID=75512749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011579816.6A Active CN112699634B (zh) 2020-12-28 2020-12-28 电子书的排版处理方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112699634B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723048A (zh) * 2021-09-06 2021-11-30 北京字跳网络技术有限公司 设置富文本间距的方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516868A (zh) * 2013-09-30 2015-04-15 北大方正集团有限公司 一种版面空格的流式还原方法与系统
CN106649213A (zh) * 2016-09-22 2017-05-10 深圳万兴信息科技股份有限公司 一种文档中空格识别方法及系统
CN111582151A (zh) * 2020-05-07 2020-08-25 北京百度网讯科技有限公司 文档图像朝向检测方法和装置
CN111695414A (zh) * 2020-04-28 2020-09-22 北京奇艺世纪科技有限公司 文档处理方法及装置、电子设备、计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885715B (zh) * 2017-11-23 2018-10-09 掌阅科技股份有限公司 代码信息的排版方法、电子设备及计算机存储介质
CN110069767B (zh) * 2019-04-23 2020-02-28 掌阅科技股份有限公司 基于电子书的排版方法、电子设备及计算机存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516868A (zh) * 2013-09-30 2015-04-15 北大方正集团有限公司 一种版面空格的流式还原方法与系统
CN106649213A (zh) * 2016-09-22 2017-05-10 深圳万兴信息科技股份有限公司 一种文档中空格识别方法及系统
CN111695414A (zh) * 2020-04-28 2020-09-22 北京奇艺世纪科技有限公司 文档处理方法及装置、电子设备、计算机可读存储介质
CN111582151A (zh) * 2020-05-07 2020-08-25 北京百度网讯科技有限公司 文档图像朝向检测方法和装置

Also Published As

Publication number Publication date
CN112699634A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
US8225200B2 (en) Extracting a character string from a document and partitioning the character string into words by inserting space characters where appropriate
CN112100979A (zh) 基于电子书的排版处理方法、电子设备及存储介质
CN105302626B (zh) Xps结构化数据的解析方法
CN112380824B (zh) 自动识别分栏的pdf文档处理方法、装置、设备及存储介质
EP2191396B1 (en) An apparatus for preparing a display document for analysis
US8787702B1 (en) Methods and apparatus for determining and/or modifying image orientation
CN110990010A (zh) 一种软件界面代码的生成方法及装置
CN112699634B (zh) 电子书的排版处理方法、电子设备及存储介质
CN111695414B (zh) 文档处理方法及装置、电子设备、计算机可读存储介质
CN109101973B (zh) 文字识别方法、电子设备、存储介质
CN112100978B (zh) 基于电子书的排版处理方法、电子设备及存储介质
EP4191433A1 (en) Method, device, and system for analyzing unstructured document
CN113011131B (zh) 基于图片类电子书的排版方法、电子设备及存储介质
US7133556B1 (en) Character recognition device and method for detecting erroneously read characters, and computer readable medium to implement character recognition
CN113283233A (zh) 文本纠错方法、装置、电子设备和存储介质
CN113408536A (zh) 票据的金额识别方法、装置、计算机设备及存储介质
CN112906347B (zh) 文字排版方法、电子设备及存储介质
CN110163203B (zh) 字符识别方法、装置、存储介质及计算机设备
CN117391045B (zh) 可复制蒙文的可携带文件格式文件输出方法
JP2019105957A (ja) 文書構成解析システム、文書構成解析方法、プログラム
US20050213819A1 (en) Form recognition system, method, program, and storage medium
US10878271B2 (en) Systems and methods for separating ligature characters in digitized document images
JP2009223391A (ja) 画像処理装置及び画像処理プログラム
CN116721431A (zh) 还原图像中字符排版的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210423

Assignee: Shaanxi Digital Information Technology Co.,Ltd.

Assignor: ZHANGYUE TECHNOLOGY Co.,Ltd.

Contract record no.: X2023990000904

Denomination of invention: Layout processing methods, electronic devices, and storage media for e-books

Granted publication date: 20220524

License type: Common License

Record date: 20231107

EE01 Entry into force of recordation of patent licensing contract