CN110069767B - 基于电子书的排版方法、电子设备及计算机存储介质 - Google Patents
基于电子书的排版方法、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN110069767B CN110069767B CN201910330927.4A CN201910330927A CN110069767B CN 110069767 B CN110069767 B CN 110069767B CN 201910330927 A CN201910330927 A CN 201910330927A CN 110069767 B CN110069767 B CN 110069767B
- Authority
- CN
- China
- Prior art keywords
- character
- line
- target
- picture
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/189—Automatic justification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于电子书的排版方法、电子设备及计算机存储介质,该方法包括:将待排版的版式文档中包含的待排版区域划分为多个文字行,分别针对每个文字行,获取该文字行中包含的各个字符之间的空间位置关系;根据所述各个字符之间的空间位置关系,识别该文字行中包含的目标字符组;将与所述目标字符组相对应的区域确定为目标区域,获取与所述目标区域相对应的行内图片元素;将所述行内图片元素排版至流式文档中与所述文字行中包含的目标字符组相对应的排版位置。该方式能够保留目标字符组的全部内容,避免识别错误或内容缺失的现象发生,提升了排版结果的准确性。
Description
技术领域
本发明涉及计算机领域,具体涉及一种基于电子书的排版方法、电子设备及计算机存储介质。
背景技术
在电子书排版过程中,需要针对版式排版的电子书原稿进行识别,并根据识别结果通过流式排版方式实现自定义效果的排版。其中,电子书原稿通常为PDF等不可编辑的格式。在针对电子书原稿进行识别的过程中,通常通过文字识别方式,自动识别出原稿中的各个文字及字符,然后,根据识别结果进行排版。
但是,在实现本发明的过程中,发明人发现现有技术中的上述方案至少存在下述缺陷:由于不同的文档格式之间具备差异性,常规的文字识别方式容易导致部分数学公式、特殊符号、或生僻字等内容无法正确识别,从而使最终排版的文字中包含错误内容,甚至有时会缺失部分内容。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于电子书的排版方法、电子设备及计算机存储介质。
根据本发明的一个方面,提供了一种基于电子书的排版方法,包括:
将待排版的版式文档中包含的待排版区域划分为多个文字行,分别针对每个文字行,获取该文字行中包含的各个字符之间的空间位置关系;
根据所述各个字符之间的空间位置关系,识别该文字行中包含的目标字符组;
将与所述目标字符组相对应的区域确定为目标区域,获取与所述目标区域相对应的行内图片元素;
将所述行内图片元素排版至流式文档中与所述文字行中包含的目标字符组相对应的排版位置。
根据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
将待排版的版式文档中包含的待排版区域划分为多个文字行,分别针对每个文字行,获取该文字行中包含的各个字符之间的空间位置关系;
根据所述各个字符之间的空间位置关系,识别该文字行中包含的目标字符组;
将与所述目标字符组相对应的区域确定为目标区域,获取与所述目标区域相对应的行内图片元素;
将所述行内图片元素排版至流式文档中与所述文字行中包含的目标字符组相对应的排版位置。
根据本发明的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
将待排版的版式文档中包含的待排版区域划分为多个文字行,分别针对每个文字行,获取该文字行中包含的各个字符之间的空间位置关系;
根据所述各个字符之间的空间位置关系,识别该文字行中包含的目标字符组;
将与所述目标字符组相对应的区域确定为目标区域,获取与所述目标区域相对应的行内图片元素;
将所述行内图片元素排版至流式文档中与所述文字行中包含的目标字符组相对应的排版位置。
在本发明提供的基于电子书的排版方法、电子设备及计算机存储介质中,首先,获取待排版区域的各个文字行中包含的各个字符之间的空间位置关系;然后,根据各个字符之间的空间位置关系,识别文字行中包含的目标字符组,进而获取与目标字符组相对应的行内图片元素,最后,将行内图片元素排版至与文字行中包含的目标字符组相对应的排版位置。由此可见,该方式能够根据同一行文字中的各个字符之间的空间位置关系识别文字行中包含的目标字符组,该目标字符组通过常规识别方式进行识别时容易出现错误或缺失现象,因此,通过将目标字符组转化为行内图片元素的方式,能够保留目标字符组的全部内容,避免识别错误或内容缺失的现象发生,提升了排版结果的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明一个实施例提供的基于电子书的排版方法的流程图;
图2示出了本发明另一个实施例提供的基于电子书的排版方法的流程图;
图3示出了根据本发明另一个实施例的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了本发明一个实施例提供的基于电子书的排版方法的流程图。如图1所示,该方法包括以下步骤:
步骤S110:将待排版的版式文档中包含的待排版区域划分为多个文字行,分别针对每个文字行,获取该文字行中包含的各个字符之间的空间位置关系。
其中,待排版的版式文档即为待排版的电子书,具体可以为PDF格式或其他各种格式。待排版区域可以默认为当前页面的全部显示内容,也可以由用户自定义设置,本发明对此不做限定。
将待排版区域划分为多个文字行时,可以通过水平投影方式等各类方式进行划分。分别针对每个文字行,获取该文字行中包含的各个字符之间的空间位置关系。其中,文字行中的文字包括:中文汉字、外文、和/或拼音等。相应地,文字行中包含的字符包括:中文字符、外文字符、拼音字符、标点符号、数学符号等各种形式的字符。例如,一个汉字由一个或多个中文字符构成,一个数学分式由如下三个字符构成:构成分子的字符、构成分母的字符、以及位于分子和分子中间的路径线字符。由此可见,字符是指最小的符号单元,是文字和符号的统称,是信息化技术载体的基本单位,如字母、汉字、标点符号,运算符号、特殊符号等。其中,中文、外文、拼音、公式等均由一个或多个字符构成。各个字符之间的空间位置关系是指:各个字符相对于待排版区域所在的平面空间的具体位置信息。例如,位置关系包括:左右相邻、上下相邻等各种关系。
步骤S120:根据各个字符之间的空间位置关系,识别该文字行中包含的目标字符组。
具体地,根据各个字符之间的空间位置关系,判断是否存在由至少两个上下结构的字符构成的字符组,从而将至少两个上下结构的字符构成的字符组识别为目标字符组。例如,分式、向量等内容通常由至少两个上下结构的字符构成,通过该方式能够将数学公式、特殊符号等容易识别出错的内容识别出来,以执行后续的处理。或者,还可以根据各个字符之间的空间位置关系,判断是否存在至少两个间距大于预设值的字符,从而将间距大于预设值的字符中间的区域以截图方式处理,以避免生僻字等内容因无法有效识别而导致内容缺失。当然,本领域技术人员还可以灵活根据各种方式识别该文字行中包含的目标字符组,本发明对此不做限定。
步骤S130:将与目标字符组相对应的区域确定为目标区域,获取与目标区域相对应的行内图片元素。
其中,可以根据目标字符组的字符宽度、高度等信息,将目标字符组所在的区域确定为目标区域。在获取与目标区域相对应的行内图片元素时,可以通过截图方式获取与目标区域相对应的截图图片,根据获取到的截图图片得到对应的行内图片元素。由此可见,行内图片元素能够准确全面地反映对应区域的全部像素信息,从而准确还原对应区域的内容。
步骤S140:将行内图片元素排版至流式文档中与文字行中包含的目标字符组相对应的排版位置。
其中,流式文档是指:针对版式文档进行重新排版后得到的文档,流式文档中的文字处于可编辑状态,流式文档的具体格式可以为epub等各类格式,本发明对此不做限定。具体地,可以根据目标字符组对应的相邻字符的排版位置确定行内图片元素在流式文档中的排版位置。例如,假设一个文字行的中部识别出一个目标字符组,且该目标字符组位于该行的第10个汉字之后,则相应地,将该目标字符组对应的行内图片元素排版至流式文档中第10个汉字的排版位置之后即可。
由此可见,该方式能够根据同一行文字中的各个字符之间的空间位置关系识别文字行中包含的目标字符组,该目标字符组通过常规识别方式进行识别时容易出现错误或缺失现象,因此,通过将目标字符组转化为行内图片元素的方式,能够保留目标字符组的全部内容,避免识别错误或内容缺失的现象发生,提升了版式转流式过程中的排版结果的准确性。
实施例二
图2示出了本发明另一个实施例提供的基于电子书的排版方法的流程图。在本实施例中,该方法可应用于电子书编辑软件等各类应用中。如图2所示,该方法包括以下步骤:
步骤S200:根据接收到的行内图识别指令,确定待排版的版式文档中包含的待排版区域。
其中,行内图识别指令可通过预设的触发动作或触发按钮进行触发,并且,在触发行内图识别指令之前,可以预先通过框选文本范围的方式框选出待排版区域,以使后续步骤均针对用户框选的待排版区域实现。
另外,本步骤为一个可选的步骤。通过本步骤能够由使用电子书编辑软件的用户自行确定待排版区域,例如,将包含数学公式的区域确定为待排版区域,从而在后续步骤中,针对用户选定的待排版区域进行有针对性地处理,从而缩减处理范围、提升处理速度。当然,在本发明其他的实施例中,也可以省略本步骤,从而直接将待排版的版式文档的当前页面中的全部内容确定为待排版区域。其中,待排版的版式文档是指电子书原稿,通常为PDF格式,采用版式排版方式排版,其中的各个文字位置固定,且不可编辑。
步骤S210:将待排版的版式文档中包含的待排版区域划分为多个文字行。
具体实施时,可以通过水平投影方式划分文字行。具体地,分别确定待排版区域中的各个字符在预设坐标系中对应的竖直坐标参数,根据各个字符的竖直坐标参数划分各个文字行。
其中,假设待排版区域为标准的矩形区域,各个文字行平行于矩形区域的第一边,且垂直于矩形区域的第二边,并且,上述第一边与第二边相互垂直。相应地,预设坐标系的水平坐标轴平行于上述矩形区域的第一边,且竖直坐标轴平行于上述矩形区域的第二边。相应地,在进行水平投影时,相当于将各个字符均沿水平方向投影至竖直坐标轴上,以获取各个字符在竖直坐标轴上对应的竖直坐标参数。其中,一个字符对应于一个竖直坐标参数,该竖直坐标参数用于表示对应字符在竖直坐标轴上占据的区域范围。例如,竖直坐标参数包括:用于表示对应的字符的顶部区域的竖直坐标的第一竖直坐标值,以及用于表示对应的字符的底部区域的竖直坐标的第二竖直坐标值,则对应字符在竖直坐标轴上占据的区域范围由第一竖直坐标值以及第二竖直坐标值界定。相应地,将竖直坐标参数的参数范围存在重叠的各个字符确定为一个文字行,从而将待排版区域划分为各个文字行。其中,同一个文字行中的各个字符的竖直坐标参数均存在重叠区间,不同的文字行中的字符的竖直坐标参数则不存在重叠区间。
另外,还要强调的是,本实施例中的文字行实质上并不限定于水平排列的行,还可以是竖直排列的列,本发明对此不做限定。
步骤S220:分别针对每个文字行,获取该文字行中包含的各个字符之间的空间位置关系。
具体地,根据该文字行中包含的各个字符在待排版区域所在的平面空间中的相对位置来确定该空间位置关系,具体通过如下方式确定:分别确定该文字行中包含的各个字符在预设坐标系中对应的第一水平坐标值以及第二水平坐标值;根据各个字符的第一水平坐标值以及第二水平坐标值,确定各个字符的水平坐标范围;根据各个字符的水平坐标范围确定该文字行中包含的各个字符之间的空间位置关系。其中,预设坐标系可以为上文提到的坐标系。具体实施时,可以通过竖直投影方式实现:将该文字行中的各个字符均沿竖直方向投影至水平坐标轴上,以获取各个字符在水平坐标轴上对应的水平坐标参数。其中,一个字符对应于一个水平坐标参数,该水平坐标参数用于表示对应字符在水平坐标轴上占据的区域范围,即水平坐标范围。例如,水平坐标参数包括:用于表示对应的字符的左侧位置的第一水平坐标值,以及用于表示对应的字符的右侧位置的第二水平坐标值,则对应字符在水平坐标轴上占据的水平坐标范围由第一水平坐标值以及第二水平坐标值界定。相应地,根据各个字符的水平坐标范围即可确定该文字行中包含的各个字符之间的空间位置关系。
步骤S230:根据该文字行中包含的各个字符之间的空间位置关系,识别该文字行中包含的目标字符组。
本步骤用于识别出在常规的文字识别过程中容易导致识别错误的汉字、字符等构成的字符组。具体地,可以通过如下两种实现方式中的至少一种实现:
第一种实现方式为:根据各个字符之间是否上下交叠来识别目标字符组的方式。具体地,判断该文字行中是否包含至少两个水平坐标范围相互重叠的字符;若是,将至少两个水平坐标范围相互重叠的字符识别为该文字行中包含的目标字符组。其中,由于本步骤是针对于同一个文字行内的各个字符执行,因此,通常情况下,同一行内的各个字符依次按照从左至右的方式排列,各个相邻字符之间在水平坐标范围上互不重叠。但是,发明人在实现本发明的过程中发现:在识别过程中容易出错的数学公式、特殊符号等内容通常由上下结构的字符组构成,因此,通过判断该文字行中是否包含至少两个水平坐标范围相互重叠的字符,能够有效识别出上述上下结构的特殊字符组。例如,分式由:分子字符、分割线字符以及分母字符构成,这三个字符共同构成一个上中下结构的字符组,因此,该字符组中的各个字符的水平坐标范围必然存在相互重叠的区域。又如,矢量由矢量符号以及位于矢量符号上方的箭头线符号表示,其中,该矢量符号与箭头线符号的水平坐标范围必然存在相互重叠的区域。由此可见,通过第一种方式能够准确识别出各类由上下结构构成的特殊字符组。该类特殊字符组若直接通过常规的文字识别方式进行识别,往往会导致识别错误,例如,对于分式而言,若直接识别则会丢失分割线,进而将其识别为由分子和分母依次构成的两个数字。
第二种实现方式为:根据各个字符之间的间距是否大于预设的间距阈值进行识别的方式。具体地,根据该文字行中相邻的两个字符的水平坐标范围,确定该相邻的两个字符之间的水平字符间距;判断相邻的两个字符之间的水平字符间距是否大于预设的间距阈值;若是,根据相邻的两个字符之间的间隔区域,识别该文字行中包含的目标字符组。其中,水平坐标范围的确定方式与第一种方式相同,此处不再赘述。根据水平坐标范围能够确定每个字符的左侧位置以及右侧位置,相应地,能够确定每两个相邻的字符之间的水平字符间距。发明人在实现本发明的过程中发现:由于不同格式的文件所对应的字体库存在差别,因此,有些特殊字体在文件识别过程中无法有效识别,从而会导致识别结果为空白,进而丢失内容,因此,通过检测相邻字符间距的方式能够有效检测出存在于两个常规字体汉字中间的特殊字体汉字。另外,在PDF格式的文件中,部分特殊格式的文字为了避免在其他设备上显示错乱的情况,需要针对该格式的文字实施转曲操作,所谓转曲是指:将文字图形化,从而将文字转变为不可编辑的路径。经转曲后,即使其他设备上的软件不支持该字体也能够正常显示。但是,经过转曲后的文字往往无法通过常规的文字识别方式进行有效识别,从而也容易出现识别为空白的情况。并且,部分生僻字无法由输入法正常输入,则需要通过路径线的方式构成该生僻字,对于该类由路径线构成的生僻字往往也无法通过常规的文字识别方式进行有效识别,从而也容易出现识别为空白的情况。由此可见,无论是由何种原因导致的误识别为空白的文字内容,都可以通过判断相邻字符间距的方式筛选出对应的目标字符组。其中,本方式中的目标字符组完全由能够正常识别的两个相邻字符之间的间距确定,既可以是一个生僻字构成的目标字符组,也可以由两个甚至更多个连续的生僻字构成的目标字符组,本发明对此不做限定。
其中,上述预设的间距阈值可由本领域技术人员灵活设定,例如,可以设置为一倍字宽所对应的数值,其中,一倍字宽是指:一个汉字所占据的平均宽度,可根据当前页面的字体格式、字体大小进行确定。当然,该间距阈值也可以为其他数值。具体地,该间距阈值设置得越小,检测精度越高、漏检率越低;该间距阈值设置得越大,误检率越低。
另外,发明人在实现本发明的过程中发现,由于部分标点符号的末尾可能会存在大片空白区域,而且,由于排版原因,有时页面中的两个字之间会出现空格,此时,虽然两个相邻的字符之间的间距大于间距阈值,但是,两个相邻的字符之间的部分却为空白,因此,若直接针对该类空白区域生成行内图片元素并插入相邻的字符之间,则会影响排版美观,甚至影响阅读效果。为了解决上述问题,在本发明中,进一步判断相邻的两个字符之间的间隔区域内是否包含有效内容。相应地,在根据相邻的两个字符之间的间隔区域,识别该文字行中包含的目标字符组时,进一步通过如下方式实现:获取与相邻的两个字符之间的间隔区域相对应的区域图片;获取与区域图片相对应的像素分布数据,根据像素分布数据确定区域图片的图片内容是否为空;若否,根据区域图片的图片内容识别该文字行中包含的目标字符组。
具体地,获取与相邻的两个字符之间的间隔区域相对应的区域图片时,可通过截图方式处理,具体处理时,可结合文字行的高度、间隔区域的宽度截取对应尺寸的矩形区域图片。然后,获取与区域图片相对应的像素分布数据时,主要是指获取区域图片内的各个像素点的像素值,从而得到各个像素点的像素值分布情况。接下来,针对像素分布数据进行方差运算,或者,生成与像素分布数据相对应的直方图,从而根据各个像素的像素值的变化情况确定该图片的图片内容是否为空。对于空白图片而言,各个像素点的像素值都相同,而对于有内容的图片而言,各个像素点的像素值之间必然存在波动,因此,通过分析像素值的方式能够剔除空白图片,仅针对有效图片执行后续处理。
上述两种实现方式既可以单独使用,也可以结合使用,通过上述方式,能够有效识别由数学分式、路径线、向量、和/或生僻字构成的目标字符组。
步骤S240:将与目标字符组相对应的区域确定为目标区域,获取与目标区域相对应的行内图片元素。
其中,可以根据目标字符组的字符宽度、高度等信息,将目标字符组所在的区域确定为目标区域,并通过截图方式获取与目标区域相对应的截图图片,从而根据获取到的截图图片得到对应的行内图片元素。另外,当步骤S230采用第二种方式实现,并且,为了确定相邻的两个字符之间是否包含有效内容,已经获取了与相邻的两个字符之间的间隔区域相对应的区域图片时,可以直接将区域图片所对应的区域确定为目标区域,并且直接根据区域图片得到与目标区域相对应的行内图片元素。
另外,发明人在实现本发明的过程中发现:在一些情况下,数学符号或生僻字等特殊内容往往由于不便于排版的原因而占据较大的空间,从而在有效内容的两侧产生较大的空白区域,此时,若直接针对目标区域进行截图后得到行内图片元素,则会导致空白区域较大,从而影响排版效果。为了解决上述问题,进一步通过像素识别的方式识别截图图片中的有效范围,从而剔除截图图片中的无效范围,使排版后的内容更加紧凑美观。具体地,在获取与目标区域相对应的行内图片元素时,通过如下方式实现:
首先,针对目标区域执行截图处理,得到与目标区域相对应的截图图片。其中,当步骤S230采用第二种方式实现,并且,为了确定相邻的两个字符之间是否包含有效内容,已经获取了与相邻的两个字符之间的间隔区域相对应的区域图片时,该截图图片也可以为上文提到的区域图片。
然后,获取截图图片中的各个像素点的像素值,根据各个像素点的像素值确定截图图片中包含的各个有效像素。其中,有效像素是指:与目标字符组中包含的有效字符相对应的像素点。具体地,截图图片中既包含用于构成目标字符组的各个字符,也包含空白区域,其中,空白区域的各个像素点的像素值均与页面背景色相同,因此,根据各个像素点的像素值能够准确筛选出截图图片中包含的各个对应于有效字符的有效像素。
最后,根据截图图片中包含的各个有效像素在预设坐标系中对应的水平坐标值,确定截图图片的水平有效范围,根据该水平有效范围获取与目标区域相对应的行内图片元素。具体地,由于本实施例中的截图图片的高度通常与文字行的高度一致,因此,无需针对截图图片的高度进行调整,只需调整截图图片的宽度即可。相应地,在上文提到的预设坐标系中确定截图图片中包含的各个有效像素的水平坐标值,从而根据各个有效像素的水平坐标值的取值范围确定截图图片的水平有效范围,进而剔除截图图片的左右两侧的空白区域,从而缩减截图图片的宽度,使最终插入的行内图片元素更加美观。当然,在本发明其他的实施例中,除了缩减截图图片的宽度之外,也可以参照上述方式缩减截图图片的高度,例如,根据截图图片中包含的各个有效像素在预设坐标系中对应的竖直坐标值,确定截图图片的竖直有效范围,进而结合该竖直有效范围获取与目标区域相对应的行内图片元素。
步骤S250:生成包含行内图片元素的提示消息。
其中,由于本实施例应用于电子书编辑软件中,因此,为了便于用户确认通过上述方式生成的行内图片元素是否正确而设置本步骤,以针对用户提供人工编辑功能。当然,本步骤为一个可选的步骤,在本发明其他的实施例中,也可以省略本步骤。
具体地,该提示消息用于将行内图片元素以框选、高亮显示等方式展示给用户,以供用户确认该行内图片元素的范围是否需要调整。
步骤S260:当接收到针对提示消息触发的确认消息时,将行内图片元素排版至流式文档中与文字行中包含的目标字符组相对应的排版位置。
具体地,当接收到针对提示消息触发的确认消息时,说明用户已确认该行内图片元素的范围正确无误,相应地,可以根据目标字符组对应的相邻字符的排版位置确定流式文档中行内图片元素的排版位置。例如,假设一个文字行的中部识别出一个目标字符组,且该目标字符组位于该行的第10个汉字之后,则相应地,将该目标字符组对应的行内图片元素排版至流式文档中第10个汉字的排版位置之后即可。
另外,本实施例中的方法还可以进一步执行以下操作:
当接收到针对提示消息触发的区域调整消息时,根据区域调整消息调整目标区域的范围,并根据调整后的目标区域重新获取与调整后的目标区域相对应的行内图片元素,以便将与调整后的目标区域相对应的行内图片元素排版至流式文档中与文字行中包含的目标字符组相对应的排版位置。其中,该区域调整消息在用户认为行内图片元素的范围区域不合理时触发,用于调整上文提到的目标区域的范围,从而根据调整后的目标区域重新生成行内图片元素。具体地,调整后的目标区域可由用户通过拖拽勾选框等方式设定。总之,通过该方式,能够由用户调整行内图片元素的区域范围,从而防止因误识别导致的错误,进而提升排版的准确性。
综上可知,本实施例中的方式能够根据同一行文字中的各个字符之间的空间位置关系识别文字行中包含的目标字符组,该目标字符组通过常规识别方式进行识别时容易出现错误或缺失现象,因此,通过将目标字符组转化为行内图片元素的方式,能够保留目标字符组的全部内容,避免识别错误或内容缺失的现象发生,提升了排版结果的准确性。其中,目标字符组可以为上下结构的字符组、由路径线等无法识别的内容或内嵌字构成的字符组等各种形式,并且,目标字符组还可以为图片式字符组等。另外,在上述方式中,还能够根据像素值剔除无效区域,从而确保行内图片元素的紧凑性。
实施例三
本申请实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于电子书的排版方法。
所述可执行指令具体可以用于使得处理器执行以下操作:
将待排版的版式文档中包含的待排版区域划分为多个文字行,分别针对每个文字行,获取该文字行中包含的各个字符之间的空间位置关系;
根据所述各个字符之间的空间位置关系,识别该文字行中包含的目标字符组;
将与所述目标字符组相对应的区域确定为目标区域,获取与所述目标区域相对应的行内图片元素;
将所述行内图片元素排版至流式文档中与所述文字行中包含的目标字符组相对应的排版位置。
在一种可选的方式中,所述可执行指令使处理器执行以下操作:
分别确定该文字行中包含的各个字符在预设坐标系中对应的第一水平坐标值以及第二水平坐标值;
根据各个字符的第一水平坐标值以及第二水平坐标值,确定各个字符的水平坐标范围;
根据各个字符的水平坐标范围确定该文字行中包含的各个字符之间的空间位置关系。
在一种可选的方式中,所述可执行指令使处理器执行以下操作:
判断该文字行中是否包含至少两个水平坐标范围相互重叠的字符;
若是,将所述至少两个水平坐标范围相互重叠的字符识别为该文字行中包含的目标字符组。
在一种可选的方式中,所述可执行指令使处理器执行以下操作:
根据该文字行中相邻的两个字符的水平坐标范围,确定该相邻的两个字符之间的水平字符间距;
判断所述相邻的两个字符之间的水平字符间距是否大于预设的间距阈值;
若是,根据所述相邻的两个字符之间的间隔区域,识别该文字行中包含的目标字符组。
在一种可选的方式中,所述可执行指令使处理器执行以下操作:
获取与所述相邻的两个字符之间的间隔区域相对应的区域图片;
获取与所述区域图片相对应的像素分布数据,根据所述像素分布数据确定所述区域图片的图片内容是否为空;
若否,根据所述区域图片的图片内容识别该文字行中包含的目标字符组。
在一种可选的方式中,所述可执行指令使处理器执行以下操作:
针对所述目标区域执行截图处理,得到与所述目标区域相对应的截图图片;
获取所述截图图片中的各个像素点的像素值,根据所述各个像素点的像素值确定所述截图图片中包含的各个有效像素;
根据所述截图图片中包含的各个有效像素在预设坐标系中对应的水平坐标值,确定所述截图图片的水平有效范围;
根据所述水平有效范围获取与所述目标区域相对应的行内图片元素。
在一种可选的方式中,所述可执行指令使处理器执行以下操作:
根据接收到的行内图识别指令,确定所述待排版的版式文档中包含的待排版区域。
在一种可选的方式中,所述可执行指令使处理器执行以下操作:
生成包含所述行内图片元素的提示消息;
当接收到针对所述提示消息触发的确认消息时,将所述行内图片元素排版至流式文档中与所述文字行中包含的目标字符组相对应的排版位置。
在一种可选的方式中,所述可执行指令使处理器执行以下操作:
当接收到针对所述提示消息触发的区域调整消息时,根据所述区域调整消息调整所述目标区域的范围,并根据调整后的目标区域重新获取与调整后的目标区域相对应的行内图片元素,以便将所述与调整后的目标区域相对应的行内图片元素排版至与所述文字行中包含的目标字符组相对应的排版位置。
在一种可选的方式中,所述待排版的版式文档为PDF格式的电子书;所述目标字符组包括:由数学分式、路径线、向量、和/或生僻字构成的字符组。
实施例四
图3示出了根据本发明另一个实施例的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图3所示,该电子设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。处理器302,用于执行程序310,具体可以执行上述基于电子书的排版方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:
将待排版的版式文档中包含的待排版区域划分为多个文字行,分别针对每个文字行,获取该文字行中包含的各个字符之间的空间位置关系;
根据所述各个字符之间的空间位置关系,识别该文字行中包含的目标字符组;
将与所述目标字符组相对应的区域确定为目标区域,获取与所述目标区域相对应的行内图片元素;
将所述行内图片元素排版至流式文档中与所述文字行中包含的目标字符组相对应的排版位置。
在一种可选的方式中,所述可执行指令使处理器执行以下操作:
分别确定该文字行中包含的各个字符在预设坐标系中对应的第一水平坐标值以及第二水平坐标值;
根据各个字符的第一水平坐标值以及第二水平坐标值,确定各个字符的水平坐标范围;
根据各个字符的水平坐标范围确定该文字行中包含的各个字符之间的空间位置关系。
在一种可选的方式中,所述可执行指令使处理器执行以下操作:
判断该文字行中是否包含至少两个水平坐标范围相互重叠的字符;
若是,将所述至少两个水平坐标范围相互重叠的字符识别为该文字行中包含的目标字符组。
在一种可选的方式中,所述可执行指令使处理器执行以下操作:
根据该文字行中相邻的两个字符的水平坐标范围,确定该相邻的两个字符之间的水平字符间距;
判断所述相邻的两个字符之间的水平字符间距是否大于预设的间距阈值;
若是,根据所述相邻的两个字符之间的间隔区域,识别该文字行中包含的目标字符组。
在一种可选的方式中,所述可执行指令使处理器执行以下操作:
获取与所述相邻的两个字符之间的间隔区域相对应的区域图片;
获取与所述区域图片相对应的像素分布数据,根据所述像素分布数据确定所述区域图片的图片内容是否为空;
若否,根据所述区域图片的图片内容识别该文字行中包含的目标字符组。
在一种可选的方式中,所述可执行指令使处理器执行以下操作:
针对所述目标区域执行截图处理,得到与所述目标区域相对应的截图图片;
获取所述截图图片中的各个像素点的像素值,根据所述各个像素点的像素值确定所述截图图片中包含的各个有效像素;
根据所述截图图片中包含的各个有效像素在预设坐标系中对应的水平坐标值,确定所述截图图片的水平有效范围;
根据所述水平有效范围获取与所述目标区域相对应的行内图片元素。
在一种可选的方式中,所述可执行指令使处理器执行以下操作:
根据接收到的行内图识别指令,确定所述待排版的版式文档中包含的待排版区域。
在一种可选的方式中,所述可执行指令使处理器执行以下操作:
生成包含所述行内图片元素的提示消息;
当接收到针对所述提示消息触发的确认消息时,将所述行内图片元素排版至流式文档中与所述文字行中包含的目标字符组相对应的排版位置。
在一种可选的方式中,所述可执行指令使处理器执行以下操作:
当接收到针对所述提示消息触发的区域调整消息时,根据所述区域调整消息调整所述目标区域的范围,并根据调整后的目标区域重新获取与调整后的目标区域相对应的行内图片元素,以便将所述与调整后的目标区域相对应的行内图片元素排版至与所述文字行中包含的目标字符组相对应的排版位置。
在一种可选的方式中,所述待排版的版式文档为PDF格式的电子书;所述目标字符组包括:由数学分式、路径线、向量、和/或生僻字构成的字符组。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (24)
1.一种基于电子书的排版方法,包括:
将待排版的版式文档中包含的待排版区域划分为多个文字行,分别针对每个文字行,获取该文字行中包含的各个字符之间的空间位置关系;
根据所述各个字符之间的空间位置关系,识别该文字行中包含的目标字符组;
将与所述目标字符组相对应的区域确定为目标区域,获取与所述目标区域相对应的行内图片元素;
将所述行内图片元素排版至流式文档中与所述文字行中包含的目标字符组相对应的排版位置;其中,所述获取该文字行中包含的各个字符之间的空间位置关系包括:分别确定该文字行中包含的各个字符在预设坐标系中对应的第一水平坐标值以及第二水平坐标值;根据各个字符的第一水平坐标值以及第二水平坐标值,确定各个字符的水平坐标范围;根据各个字符的水平坐标范围确定该文字行中包含的各个字符之间的空间位置关系;其中,所述根据所述各个字符之间的空间位置关系,识别该文字行中包含的目标字符组包括:判断该文字行中是否包含至少两个水平坐标范围相互重叠的字符;若是,将所述至少两个水平坐标范围相互重叠的字符识别为该文字行中包含的目标字符组。
2.根据权利要求1所述的方法,其中,所述根据所述各个字符之间的空间位置关系,识别该文字行中包含的目标字符组包括:
根据该文字行中相邻的两个字符的水平坐标范围,确定该相邻的两个字符之间的水平字符间距;
判断所述相邻的两个字符之间的水平字符间距是否大于预设的间距阈值;
若是,根据所述相邻的两个字符之间的间隔区域,识别该文字行中包含的目标字符组。
3.根据权利要求2所述的方法,其中,所述根据所述相邻的两个字符之间的间隔区域,识别该文字行中包含的目标字符组包括:
获取与所述相邻的两个字符之间的间隔区域相对应的区域图片;
获取与所述区域图片相对应的像素分布数据,根据所述像素分布数据确定所述区域图片的图片内容是否为空;
若否,根据所述区域图片的图片内容识别该文字行中包含的目标字符组。
4.根据权利要求1-3任一所述的方法,其中,所述获取与所述目标区域相对应的行内图片元素包括:
针对所述目标区域执行截图处理,得到与所述目标区域相对应的截图图片;
获取所述截图图片中的各个像素点的像素值,根据所述各个像素点的像素值确定所述截图图片中包含的各个有效像素;
根据所述截图图片中包含的各个有效像素在预设坐标系中对应的水平坐标值,确定所述截图图片的水平有效范围;
根据所述水平有效范围获取与所述目标区域相对应的行内图片元素。
5.根据权利要求1-3任一所述的方法,其中,所述方法执行之前,进一步包括:
根据接收到的行内图识别指令,确定所述待排版的版式文档中包含的待排版区域。
6.根据权利要求5所述的方法,其中,所述获取与所述目标区域相对应的行内图片元素之后,进一步包括:生成包含所述行内图片元素的提示消息;
则所述将所述行内图片元素排版至流式文档中与所述文字行中包含的目标字符组相对应的排版位置包括:
当接收到针对所述提示消息触发的确认消息时,将所述行内图片元素排版至流式文档中与所述文字行中包含的目标字符组相对应的排版位置。
7.根据权利要求6所述的方法,其中,所述将所述行内图片元素排版至流式文档中与所述文字行中包含的目标字符组相对应的排版位置包括:
当接收到针对所述提示消息触发的区域调整消息时,根据所述区域调整消息调整所述目标区域的范围,并根据调整后的目标区域重新获取与调整后的目标区域相对应的行内图片元素,以便将所述与调整后的目标区域相对应的行内图片元素排版至与所述文字行中包含的目标字符组相对应的排版位置。
8.根据权利要求1-3任一所述的方法,其中,所述待排版的版式文档为PDF格式的电子书;所述目标字符组包括:由数学分式、路径线、向量、和/或生僻字构成的字符组。
9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
将待排版的版式文档中包含的待排版区域划分为多个文字行,分别针对每个文字行,获取该文字行中包含的各个字符之间的空间位置关系;
根据所述各个字符之间的空间位置关系,识别该文字行中包含的目标字符组;
将与所述目标字符组相对应的区域确定为目标区域,获取与所述目标区域相对应的行内图片元素;
将所述行内图片元素排版至流式文档中与所述文字行中包含的目标字符组相对应的排版位置;其中,所述可执行指令使处理器执行以下操作:分别确定该文字行中包含的各个字符在预设坐标系中对应的第一水平坐标值以及第二水平坐标值;
根据各个字符的第一水平坐标值以及第二水平坐标值,确定各个字符的水平坐标范围;
根据各个字符的水平坐标范围确定该文字行中包含的各个字符之间的空间位置关系;其中,所述可执行指令使处理器执行以下操作:
判断该文字行中是否包含至少两个水平坐标范围相互重叠的字符;
若是,将所述至少两个水平坐标范围相互重叠的字符识别为该文字行中包含的目标字符组。
10.根据权利要求9所述的电子设备,其中,所述可执行指令使处理器执行以下操作:
根据该文字行中相邻的两个字符的水平坐标范围,确定该相邻的两个字符之间的水平字符间距;
判断所述相邻的两个字符之间的水平字符间距是否大于预设的间距阈值;
若是,根据所述相邻的两个字符之间的间隔区域,识别该文字行中包含的目标字符组。
11.根据权利要求10所述的电子设备,其中,所述可执行指令使处理器执行以下操作:
获取与所述相邻的两个字符之间的间隔区域相对应的区域图片;
获取与所述区域图片相对应的像素分布数据,根据所述像素分布数据确定所述区域图片的图片内容是否为空;
若否,根据所述区域图片的图片内容识别该文字行中包含的目标字符组。
12.根据权利要求9-11任一所述的电子设备,其中,所述可执行指令使处理器执行以下操作:
针对所述目标区域执行截图处理,得到与所述目标区域相对应的截图图片;
获取所述截图图片中的各个像素点的像素值,根据所述各个像素点的像素值确定所述截图图片中包含的各个有效像素;
根据所述截图图片中包含的各个有效像素在预设坐标系中对应的水平坐标值,确定所述截图图片的水平有效范围;
根据所述水平有效范围获取与所述目标区域相对应的行内图片元素。
13.根据权利要求9-11任一所述的电子设备,其中,所述可执行指令使处理器执行以下操作:
根据接收到的行内图识别指令,确定所述待排版的版式文档中包含的待排版区域。
14.根据权利要求13所述的电子设备,其中,所述可执行指令使处理器执行以下操作:
生成包含所述行内图片元素的提示消息;
当接收到针对所述提示消息触发的确认消息时,将所述行内图片元素排版至流式文档中与所述文字行中包含的目标字符组相对应的排版位置。
15.根据权利要求14所述的电子设备,其中,所述可执行指令使处理器执行以下操作:
当接收到针对所述提示消息触发的区域调整消息时,根据所述区域调整消息调整所述目标区域的范围,并根据调整后的目标区域重新获取与调整后的目标区域相对应的行内图片元素,以便将所述与调整后的目标区域相对应的行内图片元素排版至与所述文字行中包含的目标字符组相对应的排版位置。
16.根据权利要求9-11任一所述的电子设备,其中,所述待排版的版式文档为PDF格式的电子书;所述目标字符组包括:由数学分式、路径线、向量、和/或生僻字构成的字符组。
17.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
将待排版的版式文档中包含的待排版区域划分为多个文字行,分别针对每个文字行,获取该文字行中包含的各个字符之间的空间位置关系;
根据所述各个字符之间的空间位置关系,识别该文字行中包含的目标字符组;
将与所述目标字符组相对应的区域确定为目标区域,获取与所述目标区域相对应的行内图片元素;
将所述行内图片元素排版至流式文档中与所述文字行中包含的目标字符组相对应的排版位置;其中,所述可执行指令使处理器执行以下操作:
分别确定该文字行中包含的各个字符在预设坐标系中对应的第一水平坐标值以及第二水平坐标值;
根据各个字符的第一水平坐标值以及第二水平坐标值,确定各个字符的水平坐标范围;
根据各个字符的水平坐标范围确定该文字行中包含的各个字符之间的空间位置关系;其中,所述可执行指令使处理器执行以下操作:
判断该文字行中是否包含至少两个水平坐标范围相互重叠的字符;
若是,将所述至少两个水平坐标范围相互重叠的字符识别为该文字行中包含的目标字符组。
18.根据权利要求17所述的计算机存储介质,其中,所述可执行指令使处理器执行以下操作:
根据该文字行中相邻的两个字符的水平坐标范围,确定该相邻的两个字符之间的水平字符间距;
判断所述相邻的两个字符之间的水平字符间距是否大于预设的间距阈值;
若是,根据所述相邻的两个字符之间的间隔区域,识别该文字行中包含的目标字符组。
19.根据权利要求18所述的计算机存储介质,其中,所述可执行指令使处理器执行以下操作:
获取与所述相邻的两个字符之间的间隔区域相对应的区域图片;
获取与所述区域图片相对应的像素分布数据,根据所述像素分布数据确定所述区域图片的图片内容是否为空;
若否,根据所述区域图片的图片内容识别该文字行中包含的目标字符组。
20.根据权利要求17-19任一所述的计算机存储介质,其中,所述可执行指令使处理器执行以下操作:
针对所述目标区域执行截图处理,得到与所述目标区域相对应的截图图片;
获取所述截图图片中的各个像素点的像素值,根据所述各个像素点的像素值确定所述截图图片中包含的各个有效像素;
根据所述截图图片中包含的各个有效像素在预设坐标系中对应的水平坐标值,确定所述截图图片的水平有效范围;
根据所述水平有效范围获取与所述目标区域相对应的行内图片元素。
21.根据权利要求17-19任一所述的计算机存储介质,其中,所述可执行指令使处理器执行以下操作:
根据接收到的行内图识别指令,确定所述待排版的版式文档中包含的待排版区域。
22.根据权利要求21所述的计算机存储介质,其中,所述可执行指令使处理器执行以下操作:
生成包含所述行内图片元素的提示消息;
当接收到针对所述提示消息触发的确认消息时,将所述行内图片元素排版至流式文档中与所述文字行中包含的目标字符组相对应的排版位置。
23.根据权利要求22所述的计算机存储介质,其中,所述可执行指令使处理器执行以下操作:
当接收到针对所述提示消息触发的区域调整消息时,根据所述区域调整消息调整所述目标区域的范围,并根据调整后的目标区域重新获取与调整后的目标区域相对应的行内图片元素,以便将所述与调整后的目标区域相对应的行内图片元素排版至与所述文字行中包含的目标字符组相对应的排版位置。
24.根据权利要求17-19任一所述的计算机存储介质,其中,所述待排版的版式文档为PDF格式的电子书;所述目标字符组包括:由数学分式、路径线、向量、和/或生僻字构成的字符组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910330927.4A CN110069767B (zh) | 2019-04-23 | 2019-04-23 | 基于电子书的排版方法、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910330927.4A CN110069767B (zh) | 2019-04-23 | 2019-04-23 | 基于电子书的排版方法、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110069767A CN110069767A (zh) | 2019-07-30 |
CN110069767B true CN110069767B (zh) | 2020-02-28 |
Family
ID=67368669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910330927.4A Active CN110069767B (zh) | 2019-04-23 | 2019-04-23 | 基于电子书的排版方法、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110069767B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728129B (zh) * | 2019-09-03 | 2023-06-23 | 北京字节跳动网络技术有限公司 | 对图片中的文本内容进行排版的方法、装置、介质和设备 |
CN113362423B (zh) * | 2020-03-04 | 2023-02-17 | 英业达科技有限公司 | 排版方法及排版系统 |
CN111596988B (zh) * | 2020-04-27 | 2022-01-25 | 五八有限公司 | 一种终端页面的图文展示方法及装置 |
CN111753850A (zh) * | 2020-06-29 | 2020-10-09 | 珠海奔图电子有限公司 | 文档处理方法、装置、计算机设备及计算机可读存储介质 |
CN112100978B (zh) * | 2020-09-16 | 2022-07-08 | 掌阅科技股份有限公司 | 基于电子书的排版处理方法、电子设备及存储介质 |
CN112380824B (zh) * | 2020-10-09 | 2022-02-22 | 北京中科凡语科技有限公司 | 自动识别分栏的pdf文档处理方法、装置、设备及存储介质 |
CN112215284A (zh) * | 2020-10-12 | 2021-01-12 | 北京乐学帮网络技术有限公司 | 排版查错方法及装置、电子设备、存储介质 |
CN112241738B (zh) * | 2020-12-18 | 2021-03-23 | 北京一起教育科技有限责任公司 | 一种数学公式字符识别方法、装置和电子设备 |
CN112699634B (zh) * | 2020-12-28 | 2022-05-24 | 掌阅科技股份有限公司 | 电子书的排版处理方法、电子设备及存储介质 |
CN112906347B (zh) * | 2021-03-22 | 2021-10-15 | 掌阅科技股份有限公司 | 文字排版方法、电子设备及存储介质 |
CN113221507B (zh) * | 2021-05-28 | 2022-02-11 | 掌阅科技股份有限公司 | 文档编辑操作同步方法、计算设备及存储介质 |
CN113536734B (zh) * | 2021-07-06 | 2023-03-24 | 上海浩霖汇信息科技有限公司 | 一种生僻字标准化的处理方法、系统及相关产品 |
CN114564915A (zh) * | 2022-02-28 | 2022-05-31 | 掌阅科技股份有限公司 | 文本排版方法、电子设备及存储介质 |
CN117151041B (zh) * | 2023-10-27 | 2024-02-27 | 成方金融科技有限公司 | 兼容生僻字的pdf生成方法、装置、设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153731A (zh) * | 2017-12-25 | 2018-06-12 | 掌阅科技股份有限公司 | 生僻字处理方法、计算设备及计算机存储介质 |
CN108846367A (zh) * | 2018-06-25 | 2018-11-20 | 掌阅科技股份有限公司 | 生僻字处理方法、计算设备及计算机存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186510B (zh) * | 2011-12-30 | 2016-08-03 | 北大方正集团有限公司 | 一种转换文档格式的方法和装置 |
-
2019
- 2019-04-23 CN CN201910330927.4A patent/CN110069767B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153731A (zh) * | 2017-12-25 | 2018-06-12 | 掌阅科技股份有限公司 | 生僻字处理方法、计算设备及计算机存储介质 |
CN108846367A (zh) * | 2018-06-25 | 2018-11-20 | 掌阅科技股份有限公司 | 生僻字处理方法、计算设备及计算机存储介质 |
Non-Patent Citations (2)
Title |
---|
An Improved Algorithm for Identifying Mathematical Formulas in the Images of PDF Documents;Chen Liu et al.;《2015 IEEE International Conference on Progress in Informatics and Computing》;20151218;第252-256页 * |
基于方正飞腾4.1的科技期刊编辑排版注意事项;石鑫;《传播与版权》;20160430(第4期);第59-60页,第63页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110069767A (zh) | 2019-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110069767B (zh) | 基于电子书的排版方法、电子设备及计算机存储介质 | |
US11783610B2 (en) | Document structure identification using post-processing error correction | |
US7796817B2 (en) | Character recognition method, character recognition device, and computer product | |
CN112100979A (zh) | 基于电子书的排版处理方法、电子设备及存储介质 | |
CN109598185B (zh) | 图像识别翻译方法、装置、设备及可读存储介质 | |
CN111859865A (zh) | 用于转换pdf文档的方法、装置、终端及介质 | |
US11443504B2 (en) | Image box filtering for optical character recognition | |
US10643097B2 (en) | Image processing apparatuses and non-transitory computer readable medium | |
JP5906788B2 (ja) | 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム | |
JP2017161969A (ja) | 文字認識装置、方法およびプログラム | |
US10984277B2 (en) | Image analysis apparatus, image analysis method, and non-transitory computer readable medium | |
US11190684B2 (en) | Image processing apparatus, image processing method, and storage medium | |
CN112183019B (zh) | 电子书手写笔记的显示方法、计算设备及计算机存储介质 | |
CN113011131B (zh) | 基于图片类电子书的排版方法、电子设备及存储介质 | |
CN106598934B (zh) | 电子书数据的显示方法、装置及终端设备 | |
CN112100978B (zh) | 基于电子书的排版处理方法、电子设备及存储介质 | |
CN112699634B (zh) | 电子书的排版处理方法、电子设备及存储介质 | |
US10911636B2 (en) | Image inclination angle detection apparatus that detects inclination angle of image with respect to document, image forming apparatus, and computer-readable non-transitory recording medium storing image inclination angle detection program | |
CN112906347B (zh) | 文字排版方法、电子设备及存储介质 | |
JP2012022413A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JP6030915B2 (ja) | 画像再配置方法、画像再配置システム、および画像再配置プログラム | |
JP6863753B2 (ja) | テキストの回転角を決定する装置、方法及びコンピュータ可読記憶媒体 | |
US11710331B2 (en) | Systems and methods for separating ligature characters in digitized document images | |
US20240112437A1 (en) | Estimation apparatus, model generation apparatus, and estimation method | |
JP6743401B2 (ja) | 帳票設計・読取設定支援装置、帳票設計・読取設定支援方法、及び、光学文字認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |