CN116916047B - 一种版式文件识别数据智能存储方法 - Google Patents

一种版式文件识别数据智能存储方法 Download PDF

Info

Publication number
CN116916047B
CN116916047B CN202311167031.1A CN202311167031A CN116916047B CN 116916047 B CN116916047 B CN 116916047B CN 202311167031 A CN202311167031 A CN 202311167031A CN 116916047 B CN116916047 B CN 116916047B
Authority
CN
China
Prior art keywords
area
background
text box
pixel
foreground
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311167031.1A
Other languages
English (en)
Other versions
CN116916047A (zh
Inventor
陆猛
范红达
朱静宇
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dianju Information Technology Co ltd
Original Assignee
Beijing Dianju Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dianju Information Technology Co ltd filed Critical Beijing Dianju Information Technology Co ltd
Priority to CN202311167031.1A priority Critical patent/CN116916047B/zh
Publication of CN116916047A publication Critical patent/CN116916047A/zh
Application granted granted Critical
Publication of CN116916047B publication Critical patent/CN116916047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)

Abstract

本发明涉及版式文件存储技术领域,具体涉及一种版式文件识别数据智能存储方法,包括:确定版式文件图像中的前景信息区域和背景空白区域,并进行尺寸缩小处理;判断文本框内是否存在内部闭合背景区域,若存在,则确定文本框的笔画简单程度;对于每个文本框对应的外部边缘背景区域,计算各个窗口区域的灰度差异程度;根据笔画简单程度和灰度差异程度,判断是否需要对文本框进行优化,从而获得优化后的各个文本框;对各个区域进行游程编码压缩,从而获得压缩后的版式文件图像。本发明在提高版式文件识别数据的压缩程度的同时,一定程度上保证了存储的压缩版式文件的信息完整性,主要应用于版式文件压缩领域。

Description

一种版式文件识别数据智能存储方法
技术领域
本发明涉及版式文件存储技术领域,具体涉及一种版式文件识别数据智能存储方法。
背景技术
在文件的传输和存储的过程中,若不对文件进行压缩,过量的文件将占用大量的内存和宽带,造成不必要的空间浪费。版式文件作为一种文档格式,定义了文档的外观和排列方式,其便于在打印或电子媒体上呈现出一致性的效果。版式文件是指可编辑的,也就是固定版式的文件。版式文件中通常以大量的同类文件的形式出现,占用了大量的内存,需要对其进行压缩存储。传统的版式文件压缩采用特征金字塔的方式,特征金字塔为有损压缩,往往会产生信息丢失,也就是无法在提升压缩效果的同时避免版式文件信息的丢失。
发明内容
为了解决上述现有方法在对版式文件识别数据进行压缩存储,无法在提升压缩效果的同时避免版式文件信息丢失的技术问题,本发明的目的在于提供一种版式文件识别数据智能存储方法,所采用的技术方案具体如下:
本发明一个实施例提供了一种版式文件识别数据智能存储方法,该方法包括以下步骤:
获取灰度化处理后的待存储的版式文件图像;将版式文件图像划分为各个前景信息区域和各个背景空白区域;
根据预设压缩尺寸,对各个前景信息区域和各个背景空白区域进行尺寸缩小处理,获得尺寸缩小后的各个前景信息区域和各个背景空白区域;
对于尺寸缩小前的各个前景信息区域中的任意一个文本框,判断文本框内是否存在内部闭合背景区域;若存在,则将内部闭合背景区域和文本框的面积的比值确定为文本框的笔画简单程度;
识别出每个文本框对应的外部边缘背景区域;预设尺寸的滑窗按照预设步长在外部边缘背景区域内滑动,获得各个窗口区域;根据各个窗口区域内每个像素点的灰度值,计算各个窗口区域的灰度差异程度;
根据存在内部闭合背景区域的文本框的笔画简单程度和每个文本框内各个窗口区域的灰度差异程度,判断是否需要对文本框进行优化,从而获得优化后的各个文本框;
对尺寸缩小后的各个背景空白区域、优化后的各个文本框以及除优化后的各个文本框以外的尺寸缩小后的前景信息区域进行游程编码压缩,根据各个区域在待存储的版式文件图像中的相对位置进行区域合并,获得压缩后的待存储的版式文件图像。
进一步地,所述将版式文件图像划分为各个前景信息区域和各个背景空白区域,包括:
根据版式文件图像中每个像素点的灰度值,确定版式文件图像中每个前景像素点和每个背景像素点的位置;
筛选出版式文件图像中存在前景像素点、且上下行相邻的初始行像素区域,对所述初始行像素区域中首个前景像素点和末尾前景像素点的位置进行标记,获得位置序列;其中,所述初始行像素区域为版式文件图像中多个连续的行像素点构成的区域;
确定位置序列中的最大横坐标、最大纵坐标、最小横坐标和最小纵坐标,将四个坐标组合成四个不同的坐标位置点,四个不同的坐标位置点围成矩形区域为前景信息区域;
将版式文件图像中除前景信息区域以外的区域确定为背景空白区域,所述背景空白区域为形状规则的分割区域。
进一步地,所述根据预设压缩尺寸,对各个前景信息区域和各个背景空白区域进行尺寸缩小处理,获得尺寸缩小后的各个前景信息区域和各个背景空白区域,包括:
对于任意一个前景信息区域,将预设压缩尺寸确定为最大池化窗口的尺寸,利用该尺寸的最大池化窗口对前景信息区域进行尺寸缩小和特征提取处理,获得尺寸缩小后的前景信息区域;对于任意一个背景空白区域,按照预设压缩尺寸,将背景空白区域中上下左右的顶点沿着对角线向中心缩小,获得尺寸缩小后的背景空白区域。
进一步地,所述判断文本框内是否存在内部闭合背景区域,包括:
将文本框中的行像素区域确定为第一行像素区域,将第一行像素区域中前一个像素点为前景像素点的背景像素点确定为标记背景像素点;标记背景像素点不断向后一个背景像素点扩张,直至再次出现前景像素点时停止扩张,并将扩张区域确定为扩张行像素区域;其中,所述第一行像素区域为文本框内多个连续的行像素点构成的区域;
将上下相邻的扩张行像素区域合并为候选闭合背景区域,判断候选闭合背景区域是否被前景像素点包围,将前景像素点包围的候选闭合背景区域确定为内部闭合背景区域。
进一步地,所述判断候选闭合背景区域是否被前景像素点包围,包括:
确定候选闭合背景区域的上一行像素点和下一行像素点,从上一行像素点中选取与候选闭合背景区域内第一行像素点纵坐标相同的像素点确定为第一像素点,从下一行像素点中选取与候选闭合背景区域内最后一行像素点纵坐标相同的像素点确定为第二像素点;当各个第一像素点和各个第二像素点均为前景像素点时,判定候选闭合背景区域被前景像素点包围,否则,判定候选闭合背景区域没有被前景像素点包围。
进一步地,所述文本框的获取步骤包括:从尺寸缩小前的各个前景信息区域中选取出行文本区域,做行文本区域中每个文本的最小外接矩形,将所述最小外接矩形确定为包围文本的文本框。
进一步地,所述识别出每个文本框对应的外部边缘背景区域,包括:
对于任意一个文本框,判断文本框内是否存在内部闭合背景区域,若存在,则将文本框内除内部闭合背景区域以外的背景像素点组成的区域确定为外部边缘背景区域;若不存在,则将文本框内的背景像素点组成的区域确定为外部边缘背景区域。
进一步地,所述根据各个窗口区域内每个像素点的灰度值,计算各个窗口区域的灰度差异程度,包括:
根据各个窗口区域内每个像素点的灰度值,确定各个窗口区域对应的最大灰度值和灰度平均值;将最大灰度值和灰度平均值的差值确定为对应的窗口区域的灰度差异程度。
进一步地,所述根据存在内部闭合背景区域的文本框的笔画简单程度和每个文本框内各个窗口区域的灰度差异程度,判断是否需要对文本框进行优化,包括:
计算每个文本框内所有窗口区域的灰度差异程度的均值,将所有窗口区域的灰度差异程度的均值确定为对应的文本框的灰度差异阈值;对于任意一个文本框,当该文本框内存在内部闭合背景区域且笔画简单程度小于简单程度阈值或者该文本框内存在窗口区域的灰度差异程度小于灰度差异阈值时,判定需要对该文本框进行优化;否则,判定不需要对该文本框进行优化。
进一步地,所述文本框进行优化的步骤包括:对于需要进行优化的文本框,在进行尺寸缩小时,利用最小池化处理后的文本框替换最大池化处理后的文本框。
本发明具有如下有益效果:
本发明提供了一种版式文件识别数据智能存储方法,该存储方法对采集的版式文件识别数据进行分析,获得不同信息特征的各个区域,对不同的区域采用不同的尺寸缩小方法,其在保证文件信息特征的前提下,缩小版式文件,在提升压缩效果的同时,避免了压缩后的版式文件识别数据发生信息丢失的情况,主要应用于版式文件压缩领域。首先,将版式文件图像划分为各个前景信息区域和各个背景空白区域,基于预设压缩尺寸,对各个前景信息区域和各个背景空白区域进行尺寸缩小处理,获得尺寸缩小的各个前景信息区域和各个背景空白区域;将版式文件图像划分为不同性质的局部区域,对不同性质的局部区域分别进行尺寸缩小处理,极大地增加了版式文件的压缩程度。然后,对于前景信息区域中的各个文字框进行文字简单程度和边缘灰度差异程度的分析,其主要目的是避免尺寸缩小后的文字区域出现文字本身笔画的错误连接和相邻文字之间出现笔画相连的情况;通过确定存在内部闭合背景区域的文本框的笔画简单程度和每个文本框内各个窗口区域的灰度差异程度,判断是否需要对文本框进行优化,从而获得优化后的各个文本框,有助于避免文字信息丢失,保证压缩后的版式文件识别数据的完整性和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一种版式文件识别数据智能存储方法的流程图;
图2为本发明实施例中的版式文件图像的示意图;
图3为本发明实施例中的最大池化后可能连在一起的文字笔画示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一个实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
本发明所针对的具体场景为:版式文件在进行压缩存储时,图像信息存在大量的间隔,故需要缩小版式文件图像的尺寸,对尺寸缩小后的版式文件图像进行压缩。但是实际的文本等信息在进行尺寸缩小时可能存在内部边缘丢失以及外部边缘连接的情况,本发明通过对版式文件图像进行分区处理,对区域进行池化,并对池化结果进行优化,可以获得丢失信息较少的压缩图像。具体,本实施例提供了一种版式文件识别数据智能存储方法,如图1所示,包括以下步骤:
S1,获取灰度化处理后的待存储的版式文件图像;将版式文件图像划分为各个前景信息区域和各个背景空白区域。
第一步,获取灰度化处理后的待存储的版式文件图像。
在本实施例中,版式文件通常是指用于创建图书、报纸、杂志、传单、海报等印刷品或电子出版物的文件格式,版式文件包含页面和页面元素的布局信息,包括:文本、图片、图表、背景等。利用版式文件图像数据采集设备,采集待存储的版式文件图像的数据,版式文件图像的示意图如图2所示。为了便于后续对版式文件图像的前景信息特征进行分析,对待存储的版式文件图像进行灰度化处理,获得灰度化处理后的待存储的版式文件图像。灰度化处理的实现方法包括但不限于:加权平均值法、平均值法、最大值法以及最小值法等,灰度化处理的实现过程为现有技术,此处不再进行详细阐述。
第二步,将版式文件图像划分为各个前景信息区域和各个背景空白区域。
需要说明的是,游程编码是一种基于数据连续重复的数据压缩技术,通过将连续出现的相同数据值序列转换为一个计数和值的组合,从而减少数据的存储空间,提高压缩效果。但是,版式文件的尺寸较大或文本分布不均匀,游程编码对版式文件进行压缩处理时的压缩效果较差。为了提高版式文件识别数据的压缩存储效果,需要对版式文件图像进行分区操作。
第一子步骤,根据版式文件图像中每个像素点的灰度值,确定版式文件图像中每个前景像素点和每个背景像素点的位置。
在本实施例中,基于版式文件图像中每个像素点的灰度值,利用图像分割技术,可以确定版式文件图像中的每个前景像素点和背景像素点。对版式文件图像建立坐标系,可以确定每个前景像素点和每个背景像素点的坐标位置。其中,图像分割技术,如大津阈值分割。前景像素点可以是文本区域的像素点、图片区域的像素点或图表区域的像素点;背景像素点可以是行文本区域与行文本区域之间的间隔空白区域的像素点。
需要说明的是,版式文件图像为段落格式固定的文件,即正文部分之间的行间距、标题和正文之间的行间距都是固定值。因此,基于该图像特征,后续可以进行背景区域和前景区域的划分。
第二子步骤,筛选出版式文件图像中存在前景像素点、且上下行相邻的初始行像素区域,对初始行像素区域中首个前景像素点和末尾前景像素点的位置进行标记,获得位置序列。
在本实施例中,对版式文件图像进行数据读取,从左至右、上至下进行像素遍历。以行文本区域为例,确定位置序列。标记初始行像素区域中首个前景像素点和末尾前景像素点的位置的原因在于:受文本笔画不同的影响,单行文本中每行像素点的前景像素点个数不同,即文本长度不同,需对每个初始行像素区域的首尾前景像素点进行标记;每一行文本的高度由文本大小确定,需要遍历完每一行文本对应的各个初始行像素区域的首尾前景像素点的位置,获得行文本区域对应的位置序列。初始行像素区域为版式文件图像中多个连续的行像素点构成的区域,版式文件图像中存在多个初始行像素区域。
作为示例,行文本区域的第一个初始行像素区域,获得首个前景像素点和末尾前景像素点的位置,记为和/>,对该行文本区域的像素点进行拾取,可以获得位置序列/>,n为该行文本区域为首尾前景像素点的个数。
第三子步骤,确定位置序列中的最大横坐标、最大纵坐标、最小横坐标和最小纵坐标,将四个坐标组合成四个不同的坐标位置点,四个不同的坐标位置点围成矩形区域为前景信息区域。
在本实施例中,对行文本区域的位置序列进行大小遍历,例如,获得最大横坐标为/>、最大纵坐标/>、最小横坐标/>和最小纵坐标/>,四个不同的坐标位置点可以为/>、/>、/>以及/>,将该四个不同的坐标位置点围成矩形区域确定为行文本区域的前景信息区域。
需要说明的是,将上述行文本区域的前景信息区域的确定过程扩展至待存储的版式文件图像的全部区域,此处不再一一赘述。
第四子步骤,将版式文件图像中除前景信息区域以外的区域确定为背景空白区域,背景空白区域为形状规则的分割区域。
在本实施例中,为了便于后续对背景空白区域进行尺寸缩小处理,需要将连续分布背景空白区域分割成形状规则的局部区域,多数背景空白区域的形状为矩形。
至此,本实施例获得了待存储的版式文件图像中的各个前景信息区域和各个背景空白区域。前景信息区域是由前景像素点和背景像素点共同构成的,但是背景空白区域中仅包含背景像素点。
S2,根据预设压缩尺寸,对各个前景信息区域和各个背景空白区域进行尺寸缩小处理,获得尺寸缩小后的各个前景信息区域和各个背景空白区域。
需要说明的是,针对不同的区域进行尺寸缩小,不同的区域即为各个前景信息区域和各个背景空白区域,后续再利用游程编码同时对不同区域进行数据压缩,在大大提高编码效率的同时增大了压缩程度。
第一步,对于任意一个前景信息区域,将预设压缩尺寸确定为最大池化窗口的尺寸,利用该尺寸的最大池化窗口对前景信息区域进行尺寸缩小和特征提取处理,获得尺寸缩小后的前景信息区域。
需要说明的是,前景信息区域可以为文本信息区域、图表信息区域和图片信息区域等,其均属于目前区域。对目标区域进行压缩时,需要提取主要特征进行压缩,故利用最大池化方式对每个目标区域进行尺寸缩小和特征提取处理。
在本实施例中,预设压缩尺寸可以设定为2,那么最大池化窗口的尺寸为,步长为2,利用该尺寸的最大池化窗口对前景信息区域进行尺寸缩小和特征提取处理,可以获得尺寸缩小后的前景信息区域,即最大池化结果。在特征提取处理的过程,记录下最大池化窗口在滑动过程中的每个最大池化值的位置,以便于后续解码时反池化恢复原图像。最大池化处理的实现过程为现有技术,不在本发明保护范围内,此处不再进行详细阐述。
对于前景信息区域可能存在横向或纵向的奇数个像素点的特殊情况,在利用尺寸为的池化窗口进行特征提取后,存在剩余的未进行特征提取的像素行或像素列。例如,/>的图像,在进行池化窗口提取后,存在最右侧和最低层的一行像素点未进行特征提取。为了克服上述特征情况造成的影响,具体实现步骤可以包括:
采用特征金字塔的方式,对多余的像素行或像素列进行特征提取,即考虑损失一些边缘细节,池化窗口的尺寸为,故某一行的像素个数不变,列方向上的像素个数缩小为原来的1/2,其原因在于,池化窗口的尺寸为偶数,而前景信息区域的尺寸为奇数,存在未池化的行或列,仅针对这一行或这一列进行处理,单行像素无法缩小。前景信息区域中多余行或多余列上的背景像素点从左至右或从上至下的每两个相邻像素变为原来的1/2,前景像素点同样变为原来的1/2。在像素行或像素列遇到奇数像素个数时,若剩余像素点为前景像素点,则选择保留前景像素点;若剩余像素点为背景像素点,则舍弃背景像素点。相比原前景信息区域,池化后的前景信息区域多了极个别的像素点,但其位于边缘位置,不对后续的图像分析产生影响。特征金字塔的实现过程为现有技术,不在本发明保护范围内,此处不再进行详细阐述。
第二步,对于任意一个背景空白区域,按照预设压缩尺寸,将背景空白区域中上下左右的顶点沿着对角线向中心缩小,获得尺寸缩小后的背景空白区域。
需要说明的是,在对版式文件图像进行压缩的过程中,背景空白区域存在的主要目的是分隔不同的前景信息区域,可以根据背景空白区域的尺寸和相对位置关系进行最大程度的尺寸缩小。
在本实施例中,按照前景信息区域进行特征提取时最大池化窗口的尺寸,对背景空白区域进行尺寸缩小。例如,最大池化窗口的尺寸为,相对于原有的背景空白区域,尺寸缩小后的背景空白区域的面积缩小为原有区域的1/4,边长缩小为原有区域的1/2。同时,为了减少运算,保持背景空白区域的相对位置不变,在对背景空白区域进行尺寸缩小时,将背景空白区域中上下左右的顶点沿着对角线向中心收拢。
至此,本实施例获得了尺寸缩小前的各个前景信息区域和各个背景空白区域。
S3,对于尺寸缩小前的各个前景信息区域中的任意一个文本框,判断文本框内是否存在内部闭合背景区域;若存在,则将内部闭合背景区域和文本框的面积的比值确定为文本框的笔画简单程度。
需要说明的是,在像素层面,同一个文本内两个相近笔画之间的空白部位显示较小,空白部位即为局部背景区域,特别是针对笔画较多的文本,文本内局部背景部位的像素个数更少。在对行文本区域进行最大池化处理后,文本内部的部分背景像素点消失,造成文本文字等辨识困难,因此,需要量化行文本区域中每个文本框内文字笔画的笔画简单程度,以便于后续对笔画复杂的文本框进行优化处理。
第一步,确定尺寸缩小前的各个前景信息区域中的各个文本框。
从尺寸缩小前的各个前景信息区域中选取出行文本区域,做行文本区域中每个文本的最小外接矩形,将最小外接矩形确定为包围文本的文本框。
在本实施例中,前景信息区域存在多个类型的信息区域,为了尽量避免发生关键信息丢失,需要对各个前景信息区域中选取出的行文本区域进行图像特征分析。在分析行文本区域时,分析对象是各个包含文字的文本框,文字字号相同的文本框的尺寸一致,文字字号相同的文本框的面积相同。最小外接矩形的确定过程为现有技术,此处不再进行详细阐述。
第二步,判断文本框内是否存在内部闭合背景区域。
需要说明的是,由于文字字号相同的文本框的大小相同,在文字笔画较少的情况下,不存在文字的某两个笔画的像素相连的情况,此时最大池化的结果可以清楚辨识文字,不需要对笔画简单的文本框进行优化,例如文字“工”的文本框;在文字笔画较多的情况下,前景像素点占据文本框的主要部分,可能存在文字的某两个笔画的像素相连的情况,需要量化包含文字的文本框的笔画简单程度,以便于后续基于文本框的笔画简单程度判断是否需要对文本框进行优化。
第一子步骤,将文本框中的行像素区域确定为第一行像素区域,将第一行像素区域中前一个像素点为前景像素点的背景像素点确定为标记背景像素点;标记背景像素点不断向后一个背景像素点扩张,直至再次出现前景像素点时停止扩张,并将扩张区域确定为扩张行像素区域。
首先,将文本框中的行像素区域确定为第一行像素区域,将第一行像素区域中前一个像素点为前景像素点的背景像素点确定为标记背景像素点。
在本实施例中,文本框中的每一行像素点构成的区域为行像素区域,为了区分上述初始行像素区域,将文本框内多个连续的行像素点构成的区域确定为第一行像素区域,文本框中存在多个第一行像素区域。对于每个文本框内的每个第一行像素区域,像素遍历可以按照顺序从左至右、上至下依次进行,标记出第一行像素区域中前一个像素点为前景像素点的背景像素点的位置,将该背景像素点确定为标记背景像素点,第一行像素区域可以存在单个或多个标记背景像素点。
需要说明的是,文字内部的局部背景区域的相邻边缘上的每个像素点均为前景像素点,故将第一行像素区域中前一个像素点为前景像素点的背景像素点确定为标记背景像素点。确定文本框中的标记背景像素点,有助于减少计算量,避免依次逐个分析像素点的分布特征。
然后,标记背景像素点不断向后一个背景像素点扩张,直至再次出现前景像素点时停止扩张,并将扩张区域确定为扩张行像素区域。
在本实施例中,标记背景像素点在所属第一行像素区域内向后扩张延伸,直至再次遇到前景像素点时停止,可以将该标记背景像素点对应的扩张区域确定为扩张行像素区域。扩张行像素区域位于为文本框笔画的内部,且扩张行像素区域的前后两侧的像素点均为前景像素点。
第二子步骤,将上下相邻的扩张行像素区域合并为候选闭合背景区域,判断候选闭合背景区域是否被前景像素点包围,将前景像素点包围的候选闭合背景区域确定为内部闭合背景区域。
本实施例在将上下相邻的扩张行像素区域合并为一个候选闭合背景区域后,需要判断候选闭合背景区域的相邻边缘上的像素点是否均为前景像素点,此时的前景像素点为文字上的像素点,再将符合条件的候选闭合背景区域确定为内部闭合背景区域,具体实现步骤可以包括:
确定候选闭合背景区域的上一行像素点和下一行像素点,从上一行像素点中选取与候选闭合背景区域内第一行像素点纵坐标相同的像素点确定为第一像素点,从下一行像素点中选取与候选闭合背景区域内最后一行像素点纵坐标相同的像素点确定为第二像素点;当各个第一像素点和各个第二像素点均为前景像素点时,判定候选闭合背景区域被前景像素点包围,否则,判定候选闭合背景区域没有被前景像素点包围。
需要说明的是,候选闭合背景区域的上一行像素点是指位于候选闭合背景区域上面且相邻的一行像素点,下一行像素点是指位于候选闭合背景区域下面且相邻的一行像素点;第一像素点为候选闭合背景区域的上一行像素点中与候选闭合背景区域内第一行像素点纵坐标相同的像素点,第二像素点为候选闭合背景区域的下一行像素点中与候选闭合背景区域内最后一行像素点纵坐标相同的像素点。当各个第一像素点和各个第二像素点均为前景像素点时,说明候选闭合背景区域的上下两侧的像素点均为前景像素点,可以判定候选闭合背景区域被前景像素点包围。每个候选闭合背景区域的判定过程相同,此时不再进行重复阐述。
第三步,若存在,则将内部闭合背景区域和文本框的面积的比值确定为文本框的笔画简单程度。
在本实施例中,文本框的笔画简单程度可以衡量内部闭合背景区域在文本框中占比情况,笔画简单程度越大,说明内部闭合背景区域在文本框中的占比越大,文本框内的文字笔画越简单,例如,文字“扣”、“合”等,越不可能发生文本框内文字存在笔画相连的情况,后续对其进行优化处理的可能性越小;笔画简单程度越小,说明内部闭合背景区域在文本框中的占比越小,文本框内的文字笔画越复杂,例如,文字“域”、“额”等,越有可能发生文本框内文字存在笔画相连的情况,后续对其进行优化处理的可能性越大。
至此,本实施例确定了存在内部闭合背景区域的文本框的笔画简单程度。
S4,识别出每个文本框对应的外部边缘背景区域;预设尺寸的滑窗按照预设步长在外部边缘背景区域内滑动,获得各个窗口区域;根据各个窗口区域内每个像素点的灰度值,计算各个窗口区域的灰度差异程度。
需要说明的是,两个文字之间的距离相近的笔画,若边缘灰度差异较小,即两者之间存在灰度较小的部分,在进行最大池化后的两个距离相近的笔画可能会连在一起,最大池化后可能连在一起的文字笔画示意图如图3所示。在图3中,左侧的“额”字的捺与右侧的“度”字的撇在未经最大池化时,距离相近的笔画的边缘像素灰度值就较为接近,在最大池化后可能造成文字笔画粘连的情况,导致尺寸缩小后的图像信息存在偏差,无法获得信息丢失较少的压缩后的版式文件。由于每个文字的边缘上像素点的灰度小于两个文字之间或文字笔画之间的像素的灰度,可以考虑分析灰度变化率的方式进行优化。
第一步,识别出每个文本框对应的外部边缘背景区域。
对于任意一个文本框,判断文本框内是否存在内部闭合背景区域,若存在,则将文本框内除内部闭合背景区域以外的背景像素点组成的区域确定为外部边缘背景区域;若不存在,则将文本框内的背景像素点组成的区域确定为外部边缘背景区域。
在本实施例中,文本框内的背景区域可以分为内部闭合背景区域和外部边缘背景区域,当文本框内不存在内部闭合背景区域时,全部背景像素点均为外部边缘背景区域内的像素点,故需要先判断文本框内是否存在内部闭合背景区域。其中,外部边缘背景区域实质上是靠近文本框的笔画边缘;此时的文本框也为尺寸缩小前的各个前景信息区域中的文本框。
第二步,预设尺寸的滑窗按照预设步长在外部边缘背景区域内滑动,获得各个窗口区域。
在本实施例中,滑窗的预设尺寸可以为,预设步长为4,/>的滑窗以4为滑动步长,在文本框对应的外部边缘背景区域内滑动,滑动方向为从左至右,直至遍历完文本框的外部边缘背景区域,可以获得文本框对应的各个窗口区域。在滑动过程中,对于存在前景像素点的窗口区域,为了提高文字笔画边缘的灰度差异程度的计算精准性,对该类窗口区域进行保留处理。滑窗的预设尺寸可以由实施者根据文本框内文字的实际大小情况进行设置,滑窗的预设尺寸越大,可以遍历的文字笔画边缘像素点个数越多,后续计算的灰度差异程度越准确。
需要说明的是,文字笔画中心区域的灰度值小于笔画边缘区域的灰度值,为了避免笔画中心区域对笔画边缘区域的影响,需要对以单个窗口区域为分析对象,分析窗口区域的灰度差异程度,以避免最大池化时将灰度差异较小的笔画边缘像素点进行删除处理,导致边缘像素缺陷,造成相邻文字边缘的笔画出现相连的情况。
第三步,根据各个窗口区域内每个像素点的灰度值,计算各个窗口区域的灰度差异程度。
根据各个窗口区域内每个像素点的灰度值,确定各个窗口区域对应的最大灰度值和灰度平均值;将最大灰度值和灰度平均值的差值确定为对应的窗口区域的灰度差异程度。
在本实施例中,对于任意一个窗口区域,根据窗口区域内每个像素点的灰度值,计算窗口区域的灰度平均值;根据窗口区域内每个像素点的灰度值,选取出最大灰度值的像素点;对最大灰度值和灰度平均值作差,可以获得窗口区域的灰度差异程度。灰度差异程度可以表征窗口区域的灰度变化率,灰度差异程度越大,则说明窗口区域内像素点的灰度值相差越大,出现两个文字之间笔画相连的可能性越小,否则,说明窗口区域内像素点的灰度值相差越小,出现两个文字之间笔画相连的可能性越大。
需要说明是,对于灰度差异程度为0的窗口区域,即最大灰度值和灰度平均值相等的窗口区域,后续不与灰度差异阈值进行比较,即存在窗口区域的灰度差异程度为0时,不参与窗口区域的灰度差异程度小于灰度差异阈值的分析过程。
至此,本实施例获得了每个文字框对应的各个窗口区域的灰度差异程度。
S5,根据存在内部闭合背景区域的文本框的笔画简单程度和每个文本框内各个窗口区域的灰度差异程度,判断是否需要对文本框进行优化,从而获得优化后的各个文本框。
第一步,确定每个文本框的灰度差异阈值。
在本实施例中,计算每个文本框内所有窗口区域的灰度差异程度的均值,将所有窗口区域的灰度差异程度的均值确定为对应的文本框的灰度差异阈值。灰度差异阈值的设置过程可以由实施者根据具体实际情况确定,此处不作具体限定。
第二步,判断是否需要对文本框进行优化。
对于任意一个文本框,当该文本框内存在内部闭合背景区域且笔画简单程度小于简单程度阈值或者该文本框内存在窗口区域的灰度差异程度小于灰度差异阈值时,判定需要对该文本框进行优化;否则,判定不需要对该文本框进行优化。
在本实施例中,对于任意一个文本框,若该文本框内存在内部闭合背景区域,且该文本框的笔画简单程度小于简单程度阈值,说明该文本框内文字的笔画复杂,存在文字笔画相连的可能性,需要对该文本框进行优化;若该文本框被不存在内部闭合背景区域,但该文本框内存在窗口区域的灰度差异程度小于灰度差异阈值,说明该文本框内文字的笔画较为简单,但文字边缘灰度分布相近,存在相邻文字之间的笔画相连的情况,需要对该文本框进行优化;若该文本框内存在内部闭合背景区域,且该文本框的笔画简单程度小于简单程度阈值,同时该文本框内存在窗口区域的灰度差异程度小于灰度差异阈值,说明该文本框不仅存在文字笔画相连的可能性,还存在相邻文字之间的笔画相连的情况,更需要对该文本框进行优化。
其中,简单程度阈值的数值大小可以为像素点及其像素点的八邻域像素点的总个数与对应的文本框内像素点个数的比值,将文本框内像素点个数记为k,那么该文本框的简单程度阈值可以为9/k,实施者可以根据具体实际情况设置简单程度阈值,不做具体限定。
第三步,对需要优化的文本框进行优化处理。
在本实施例中,对于需要进行优化的文本框,在进行尺寸缩小时,利用最小池化处理后的文本框替换最大池化处理后的文本框,即将对应的文本框的池化结果用最小池化结果替换,不进行统一的最大池化处理。相对于最大池化,最小池化可以尽量保留灰度值较小的像素点,文字特征提取更加详细;避免在灰度差异较小的情况下,较小灰度会被较大灰度用最大池化替换,造成文字笔画辨识不清;但是,最小池化可能使文本框的灰度变化较为剧烈。
值得说明的是,为了确保各个文本框的缩小尺寸一致,最小池化窗口的尺寸需要与最大池化窗口的尺寸保持一致。
至此,本实施例获得了优化后的各个文本框。
S6,对尺寸缩小后的各个背景空白区域、优化后的各个文本框以及除优化后的各个文本框以外的尺寸缩小后的前景信息区域进行游程编码压缩,根据各个区域在待存储的版式文件图像中的相对位置进行区域合并,获得压缩后的待存储的版式文件图像。
在本实施例中,相比待存储的版式文件图像,尺寸缩小后的各个背景空白区域、优化后的各个文本框以及除优化后的各个文本框以外的尺寸缩小后的前景信息区域的图像像素信息大大减少,不同区域的灰度变化率较低,编码长度较长,且可以同时对各个区域进行编码,有助于节省存储时间,提高存储效率和压缩程度,保证在提升压缩效果的同时避免版式文件信息的丢失。在获得游程编码压缩的各个区域后,根据各个区域在原始图像中的相对位置,进行区域合并,待存储的版式文件图像即为原始图像。游程编码压缩的实现过程为现有技术,此处不再进行详细阐述。在获得压缩后的待存储的版式文件图像后,可以对压缩后的待存储的版式文件图像进行存储。
至此,本发明结束。
本发明提供了一种版式文件识别数据智能存储方法,该存储方法利用版式文件各个信息区域之间的连接特征以及间隔关系,对文字区域进行自适应池化,其在保留原始信息的同时实现了图像尺寸的压缩,有助于提升版式文件识别数据存储的压缩效果和存储完整性。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种版式文件识别数据智能存储方法,其特征在于,包括以下步骤:
获取灰度化处理后的待存储的版式文件图像;将版式文件图像划分为各个前景信息区域和各个背景空白区域;
根据预设压缩尺寸,对各个前景信息区域和各个背景空白区域进行尺寸缩小处理,获得尺寸缩小后的各个前景信息区域和各个背景空白区域;
对于尺寸缩小前的各个前景信息区域中的任意一个文本框,判断文本框内是否存在内部闭合背景区域;若存在,则将内部闭合背景区域和文本框的面积的比值确定为文本框的笔画简单程度;
识别出每个文本框对应的外部边缘背景区域;预设尺寸的滑窗按照预设步长在外部边缘背景区域内滑动,获得各个窗口区域;根据各个窗口区域内每个像素点的灰度值,计算各个窗口区域的灰度差异程度;
根据存在内部闭合背景区域的文本框的笔画简单程度和每个文本框内各个窗口区域的灰度差异程度,判断是否需要对文本框进行优化,从而获得优化后的各个文本框;
对尺寸缩小后的各个背景空白区域、优化后的各个文本框以及除优化后的各个文本框以外的尺寸缩小后的前景信息区域进行游程编码压缩,根据各个区域在待存储的版式文件图像中的相对位置进行区域合并,获得压缩后的待存储的版式文件图像。
2.根据权利要求1所述的一种版式文件识别数据智能存储方法,其特征在于,所述将版式文件图像划分为各个前景信息区域和各个背景空白区域,包括:
根据版式文件图像中每个像素点的灰度值,确定版式文件图像中每个前景像素点和每个背景像素点的位置;
筛选出版式文件图像中存在前景像素点、且上下行相邻的初始行像素区域,对所述初始行像素区域中首个前景像素点和末尾前景像素点的位置进行标记,获得位置序列;其中,所述初始行像素区域为版式文件图像中多个连续的行像素点构成的区域;
确定位置序列中的最大横坐标、最大纵坐标、最小横坐标和最小纵坐标,将四个坐标组合成四个不同的坐标位置点,四个不同的坐标位置点围成矩形区域为前景信息区域;
将版式文件图像中除前景信息区域以外的区域确定为背景空白区域,所述背景空白区域为形状规则的分割区域。
3.根据权利要求2所述的一种版式文件识别数据智能存储方法,其特征在于,所述根据预设压缩尺寸,对各个前景信息区域和各个背景空白区域进行尺寸缩小处理,获得尺寸缩小后的各个前景信息区域和各个背景空白区域,包括:
对于任意一个前景信息区域,将预设压缩尺寸确定为最大池化窗口的尺寸,利用该尺寸的最大池化窗口对前景信息区域进行尺寸缩小和特征提取处理,获得尺寸缩小后的前景信息区域;对于任意一个背景空白区域,按照预设压缩尺寸,将背景空白区域中上下左右的顶点沿着对角线向中心缩小,获得尺寸缩小后的背景空白区域。
4.根据权利要求2所述的一种版式文件识别数据智能存储方法,其特征在于,所述判断文本框内是否存在内部闭合背景区域,包括:
将文本框中的行像素区域确定为第一行像素区域,将第一行像素区域中前一个像素点为前景像素点的背景像素点确定为标记背景像素点;标记背景像素点不断向后一个背景像素点扩张,直至再次出现前景像素点时停止扩张,并将扩张区域确定为扩张行像素区域;其中,所述第一行像素区域为文本框内多个连续的行像素点构成的区域;
将上下相邻的扩张行像素区域合并为候选闭合背景区域,判断候选闭合背景区域是否被前景像素点包围,将前景像素点包围的候选闭合背景区域确定为内部闭合背景区域。
5.根据权利要求4所述的一种版式文件识别数据智能存储方法,其特征在于,所述判断候选闭合背景区域是否被前景像素点包围,包括:
确定候选闭合背景区域的上一行像素点和下一行像素点,从上一行像素点中选取与候选闭合背景区域内第一行像素点纵坐标相同的像素点确定为第一像素点,从下一行像素点中选取与候选闭合背景区域内最后一行像素点纵坐标相同的像素点确定为第二像素点;当各个第一像素点和各个第二像素点均为前景像素点时,判定候选闭合背景区域被前景像素点包围,否则,判定候选闭合背景区域没有被前景像素点包围。
6.根据权利要求4所述的一种版式文件识别数据智能存储方法,其特征在于,所述文本框的获取步骤包括:从尺寸缩小前的各个前景信息区域中选取出行文本区域,做行文本区域中每个文本的最小外接矩形,将所述最小外接矩形确定为包围文本的文本框。
7.根据权利要求1所述的一种版式文件识别数据智能存储方法,其特征在于,所述识别出每个文本框对应的外部边缘背景区域,包括:
对于任意一个文本框,判断文本框内是否存在内部闭合背景区域,若存在,则将文本框内除内部闭合背景区域以外的背景像素点组成的区域确定为外部边缘背景区域;若不存在,则将文本框内的背景像素点组成的区域确定为外部边缘背景区域。
8.根据权利要求1所述的一种版式文件识别数据智能存储方法,其特征在于,所述根据各个窗口区域内每个像素点的灰度值,计算各个窗口区域的灰度差异程度,包括:
根据各个窗口区域内每个像素点的灰度值,确定各个窗口区域对应的最大灰度值和灰度平均值;将最大灰度值和灰度平均值的差值确定为对应的窗口区域的灰度差异程度。
9.根据权利要求1所述的一种版式文件识别数据智能存储方法,其特征在于,所述根据存在内部闭合背景区域的文本框的笔画简单程度和每个文本框内各个窗口区域的灰度差异程度,判断是否需要对文本框进行优化,包括:
计算每个文本框内所有窗口区域的灰度差异程度的均值,将所有窗口区域的灰度差异程度的均值确定为对应的文本框的灰度差异阈值;对于任意一个文本框,当该文本框内存在内部闭合背景区域且笔画简单程度小于简单程度阈值或者该文本框内存在窗口区域的灰度差异程度小于灰度差异阈值时,判定需要对该文本框进行优化;否则,判定不需要对该文本框进行优化。
10.根据权利要求9所述的一种版式文件识别数据智能存储方法,其特征在于,所述文本框进行优化的步骤包括:对于需要进行优化的文本框,在进行尺寸缩小时,利用最小池化处理后的文本框替换最大池化处理后的文本框。
CN202311167031.1A 2023-09-12 2023-09-12 一种版式文件识别数据智能存储方法 Active CN116916047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311167031.1A CN116916047B (zh) 2023-09-12 2023-09-12 一种版式文件识别数据智能存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311167031.1A CN116916047B (zh) 2023-09-12 2023-09-12 一种版式文件识别数据智能存储方法

Publications (2)

Publication Number Publication Date
CN116916047A CN116916047A (zh) 2023-10-20
CN116916047B true CN116916047B (zh) 2023-11-10

Family

ID=88358692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311167031.1A Active CN116916047B (zh) 2023-09-12 2023-09-12 一种版式文件识别数据智能存储方法

Country Status (1)

Country Link
CN (1) CN116916047B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117615088B (zh) * 2024-01-22 2024-04-05 沈阳市锦拓电子工程有限公司 一种安全监控的视频数据高效存储方法
CN117828683B (zh) * 2024-03-06 2024-04-30 北京点聚信息技术有限公司 一种版式文件数字签名方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271463A (zh) * 2007-06-22 2008-09-24 北大方正集团有限公司 版式文件逻辑结构信息的表示方法和系统
CN102810155A (zh) * 2011-05-31 2012-12-05 富士通株式会社 用于从图像中提取文本笔划图像的方法和装置
WO2017069741A1 (en) * 2015-10-20 2017-04-27 Hewlett-Packard Development Company, L.P. Digitized document classification
WO2021146951A1 (zh) * 2020-01-21 2021-07-29 京东方科技集团股份有限公司 文本检测方法及装置、存储介质
CN113269049A (zh) * 2021-04-30 2021-08-17 天津科技大学 一种用于检测手写汉字区域的方法
CN113780229A (zh) * 2021-09-18 2021-12-10 北京金山数字娱乐科技有限公司 文本识别方法及装置
CN115147858A (zh) * 2022-07-14 2022-10-04 深圳市华云中盛科技股份有限公司 手写体表单图像数据生成方法、装置、设备及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271463A (zh) * 2007-06-22 2008-09-24 北大方正集团有限公司 版式文件逻辑结构信息的表示方法和系统
WO2009000141A1 (fr) * 2007-06-22 2008-12-31 Peking University Founder Group Co., Ltd. Procédé, système et dispositif de représentation d'informations de structure logique de fichier de mise en page
CN102810155A (zh) * 2011-05-31 2012-12-05 富士通株式会社 用于从图像中提取文本笔划图像的方法和装置
WO2017069741A1 (en) * 2015-10-20 2017-04-27 Hewlett-Packard Development Company, L.P. Digitized document classification
WO2021146951A1 (zh) * 2020-01-21 2021-07-29 京东方科技集团股份有限公司 文本检测方法及装置、存储介质
CN113269049A (zh) * 2021-04-30 2021-08-17 天津科技大学 一种用于检测手写汉字区域的方法
CN113780229A (zh) * 2021-09-18 2021-12-10 北京金山数字娱乐科技有限公司 文本识别方法及装置
CN115147858A (zh) * 2022-07-14 2022-10-04 深圳市华云中盛科技股份有限公司 手写体表单图像数据生成方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
浅谈InDesign中可变数据的排版;冯文娟;;电脑知识与技术(第15期);全文 *

Also Published As

Publication number Publication date
CN116916047A (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN116916047B (zh) 一种版式文件识别数据智能存储方法
CN109933756B (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
US10817741B2 (en) Word segmentation system, method and device
EP1831823B1 (en) Segmenting digital image and producing compact representation
CN101453575B (zh) 一种视频字幕信息提取方法
CN110647795B (zh) 一种表格识别方法
CN112528813B (zh) 表格识别方法、装置以及计算机可读存储介质
JPH03119486A (ja) 記入済書式に含まれている情報を記憶または伝送のために圧縮する方法
JP2007172132A (ja) レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法
CN116684631B (zh) 一种针对公文的图像压缩方法
US20030012438A1 (en) Multiple size reductions for image segmentation
CN110060260B (zh) 一种图像处理方法及系统
CN111881659B (zh) 表格图片的处理方法、系统、可读存储介质及计算机设备
US20010024520A1 (en) Method and apparatus for table recognition, apparatus for character recognition, and computer product
CN115953797A (zh) 表格识别、文档获取方法和存储介质
CN112926582B (zh) 一种基于自适应特征选择和尺度损失函数的文本检测方法
JP2003067738A (ja) 網点除去方法及びシステム
CN102129697B (zh) 一种文本图像压缩方法
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム
CN116311301B (zh) 无线表格识别方法及系统
CN117095423B (zh) 一种银行单据字符的识别方法及装置
Yang et al. A robust Document processing system combining image segmentation with content-based document compression
CN115731479A (zh) 一种基于航拍全要素地理图像构建数据集的方法
JP2003030585A (ja) 画像処理装置、方法、プログラム及び記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant