CN110414505A - 图像的处理方法、处理系统及计算机可读存储介质 - Google Patents
图像的处理方法、处理系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110414505A CN110414505A CN201910565971.3A CN201910565971A CN110414505A CN 110414505 A CN110414505 A CN 110414505A CN 201910565971 A CN201910565971 A CN 201910565971A CN 110414505 A CN110414505 A CN 110414505A
- Authority
- CN
- China
- Prior art keywords
- rectangle frame
- row
- image
- height
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 39
- 238000012545 processing Methods 0.000 title claims abstract description 17
- 239000000284 extract Substances 0.000 claims abstract description 3
- 238000004590 computer program Methods 0.000 claims description 11
- 230000006399 behavior Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 24
- 238000001514 detection method Methods 0.000 abstract description 18
- 230000008569 process Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005452 bending Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/245—Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种图像的处理方法、处理系统及计算机可读存储介质,其中,方法包括:对图像进行预处理,得到二值图像;获取二值图像中的矩形框;根据矩形框的高度确定文本高度;根据文本高度合并矩形框,得到矩形框行;根据文本高度组合矩形框行,得到富文本行;提取富文本行的图像;匹配富文本行的图像和类别识别模型,识别富文本行的图像中矩形框行的类别;根据矩形框行的类别更新富文本行。通过上述方法,能够一次性检测出图像中信息的不同类型,同时确定不同类型的信息所在的位置并进行分离,便于后续对图像信息进行识别,把复杂的图像处理问题转换为简单的数值计算问题,有效提升检测效率,实用性高。
Description
技术领域
本发明涉及图像处理技术领域,具体而言,涉及一种图像的处理方法、一种图像的处理系统及一种计算机可读存储介质。
背景技术
书籍、试卷等纸质图片可以以电子形式存储于各种介质,网络中,在人们的日常生活中得到了广泛的应用。文本、公式、图表等的检测对于理解图片中内容起着非常重要的作用。然而,图片中总是包含不同种类的语言、不同颜色和不同关系,使得文本、公式、图表等的检测变得更困难。目前,在提取文字区域方法中,最常用的是最大极值稳定区域(MSER)算子,MSER是一种经典的连通区域检测算子,MSER算子具有非常强的鲁棒性,可以检测到低质量的文字,例如低对比度、低分辨率和模糊退化。
随着人工智能相关技术的迅速发展,机器学习、深度学习方法也越来越多的应用于文本检测算法中,对图片进行文本检测的算法主要分为两类:基于滑动窗口的方法和基于连通区域的方法;基于滑动窗口的方法是通过一个大小可变的滑动子窗口扫描一张图片所有可能的位置,来检测文本信息,其利用一个训练好的分类器来判别窗口内是否有文本信息;基于连通区域的方法首先通过一个底层的滤波器快速分割文本和非文本像素,然后把具有相似属性的文本像素连通起来构成文本成分,笔画宽度转化(SWT)算法和最稳定极值区域(MSREs)算法是此类方法的代表。但以上机器学习方法、深度学习方法都只能针对文本进行检测,效率较低,且无法同时检测图像中的公式、图表,适用范围有限。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明第一方面在于提出了一种图像的处理方法。
本发明的第二方面在于提出了一种图像的处理系统。
本发明的第三方面在于提出了一种计算机可读存储介质。
有鉴于此,根据本发明的第一方面,提出了一种图像的处理方法,包括:对图像进行预处理,得到二值图像;获取二值图像中的矩形框;根据矩形框的高度确定文本高度;根据文本高度合并矩形框,得到矩形框行;根据文本高度组合矩形框行,得到富文本行;提取富文本行的图像;匹配富文本行的图像和类别识别模型,识别富文本行的图像中矩形框行的类别;根据矩形框行的类别更新富文本行。
本发明提供的图像的处理方法,通过对图像进行预处理,得到二值图像,获取二值图像中的表示图像信息所在位置的矩形框,根据矩形框的高度确定文本高度,根据文本高度合并矩形框的同时粗略检测合并得到的矩形框行的类别,区分出无法识别类型的矩形框行,再将不同类别的矩形框行进行组合,得到富文本行,根据富文本行的最大外接矩形提取富文本行的图像,通过匹配富文本行的图像和类别识别模型,识别出粗略检测时无法识别的矩形框行的类别,从而确定富文本行所包含的信息类型。通过上述处理方法,能够一次性检测出图像中信息的不同类型,同时准确确定不同类型的信息所在的位置并进行分离,便于后续对图像信息进行识别,而且与传统方法相比,整个处理过程中,把复杂的图像处理问题转换为简单的数值计算问题,便于实现,有效提升检测效率,还能够适用于弯曲、倾斜等富文本行的检测,实用性高。其中,矩形框行的类别分为文本行和非文本行,非文本行的类别包括公式、插图、表格等。
另外,根据本发明提供的上述技术方案中图像的处理方法,还可以具有如下附加技术特征:
在上述技术方案中,优选地,获取二值图像中的矩形框的步骤,具体包括:识别二值图像中的文本轮廓;根据文本轮廓确定矩形框。
在该些技术方案中,应用计算机视觉库(opencv)的轮廓识别(findContours)函数得到二值图像上的所有轮廓集合,取每个轮廓的最大外接矩形,即得到所有矩形框,从而识别出图像中含有效信息的部分。其中,矩形框为识别出图像中有效信息的最大外接矩形,表示为[x,y,width,height],其中(x,y)为从矩形框左上角开始的坐标,width表示矩形框宽度,height表示矩形框高度。
在上述任一技术方案中,优选地,根据矩形框的高度确定文本高度的步骤,具体包括:根据预设高度范围筛选矩形框的高度,得到目标高度;统计目标高度中每个高度值对应的矩形框个数;选取最大的矩形框个数对应的高度值作为文本高度。
在该些技术方案中,获取检测到的全部矩形框的高度,根据预设高度范围对矩形框的高度进行筛选,得到目标高度,统计目标高度中每个高度值对应的矩形框个数,选取最大的矩形框个数对应的高度值作为文本高度,从而根据文本高度对矩形框进行合并,并对得到的矩形框行的类别进行粗略检测,确定包含有文本信息的文本行和包含有公式、图表的非文本行。
在上述任一技术方案中,优选地,根据文本高度合并矩形框,得到矩形框行的步骤,具体包括:获取矩形框的坐标信息;根据坐标信息排序矩形框;若当前矩形框与前一个矩形框的高度均小于高度阈值,且当前矩形框与前一个矩形框的水平距离小于文本高度,且当前矩形框与前一个矩形框的垂直距离小于第一距离阈值,合并当前矩形框与前一个矩形框,得到矩形框行,并设置矩形框行为文本行;若当前矩形框与前一个矩形框的高度均大于高度阈值,且当前矩形框与前一个矩形框的水平距离和垂直距离均小于文本高度,合并当前矩形框与前一个矩形框,得到矩形框行,并设置矩形框行为非文本行;其中,高度阈值为文本高度的倍数。
在该些技术方案中,根据坐标信息排序所有矩形框,遍历所有矩形框,若当前矩形框与前一个矩形框的高度均小于高度阈值,且当前矩形框与前一个矩形框的水平距离小于文本高度,且当前矩形框与前一个矩形框的垂直距离小于第一距离阈值,说明两个矩形框的高度均符合文本高度的可误差值,同时两个矩形框几乎在一条直线上且相邻,此时合并当前矩形框与前一个矩形框,得到矩形框行,并确定该矩形框行为仅包含文本信息的文本行;若当前矩形框与前一个矩形框的高度均大于高度阈值,且当前矩形框与前一个矩形框的水平距离和垂直距离均小于文本高度,说明两个矩形框的高度均不符合文本高度的可误差值,同时两个矩形框几乎在一条直线上且相邻,合并当前矩形框与前一个矩形框,得到矩形框行,并确定该矩形框行为包含公式、图表等信息的非文本行。通过上述技术方案,在合并矩形框的同时粗略检测合并得到的矩形框行的类别,准确确认文本行和非文本行的位置,即使图像中的信息出现弯曲、倾斜等情况,也能够进行准确的定位。
在上述任一技术方案中,优选地,根据文本高度组合矩形框行,得到富文本行的步骤,具体包括:获取矩形框行的坐标信息;根据坐标信息确定矩形框行的中心基线;若当前矩形框行与图像中除当前矩形框行以外的任一矩形框行的水平距离小于文本高度,或当前矩形框行的中心基线与图像中除当前矩形框行以外的任一矩形框行的中心基线的差值小于第二距离阈值,组合当前矩形框行和图像中除当前矩形框行以外的任一矩形框行,得到富文本行。
在该些技术方案中,获取矩形框行的坐标信息,遍历所有矩形框行,若当前矩形框行与图像中除当前矩形框行以外的任一矩形框行的水平距离小于文本高度,或当前矩形框行的中心基线与图像中除当前矩形框行以外的任一矩形框行的中心基线的差值小于第二距离阈值,说明两个矩形框行几乎在一条直线上且相邻,此时组合这两个矩形框行,形成富文本行,其中,富文本行中可能仅包含文本行或非文本行,也可以既包含文本行又包含非文本行。通过上述技术方案,能够将相邻的文本行和非文本行组合,以便于后续通过富文本行进一步检测矩形框行的类型,从而实现一次性检测出图像中信息的不同类型,同时准确确定不同类型的信息所在的位置并进行分离。
在上述任一技术方案中,优选地,提取富文本行的图像的步骤,具体包括:提取包含有非文本行的富文本行的图像。
在该些技术方案中,仅对包含有非文本行的富文本行的图像进行进一步的类别识别,而针对仅包含文本行的富文本行,已确认其类别为文本,无需再次进行检测,从而减少计算量,有效提升检测效率。
在上述任一技术方案中,优选地,匹配富文本行的图像和类别识别模型的步骤之前,还包括:获取分类图像;根据预设尺寸扩充或缩放分类图像;根据分类图像构建类别识别模型。
在该些技术方案中,获取大量的分类图像,根据预设尺寸扩充或缩放分类图像,是所有分类图像均同一尺寸,再根据分类图像构建类别识别模型,从而便于对符文本行所包含信息的类型进行识别,准确率更高、速度更快,提高实用性。
具体地,分类类别可以是除公式、图表以外的其他类别,如对公式进行细分,例如根式、分式、方程组、不等式组、求和、极限、微分、积分等,对图表进行细分,例如插图、表格等。使用DenseNet(密集卷积网络模型)+CTC(时序类数据分类)网络搭建类别识别模型,同样的可以使用下列卷积神经网络搭建模型:LeNet(卷积神经网络模型)、AlexNet(Alex深度卷积神经网络模型)、VGG(VGG网络结构模型)、GoogLeNet(谷歌网络结构模型)、ResNet(深度残差网络模型)、DenseNet。
在上述任一技术方案中,优选地,预处理包括:灰度处理,去噪处理,二值化处理;二值化处理的步骤包括:确定去噪处理后图像的像素点的灰度值;若灰度值小于或等于二值化阈值,灰度值设置为0;若灰度值大于二值化阈值,灰度值设置为255。
在该些技术方案中,通过灰度、去噪、二值化处理,去除图像当中的干扰信息,以便于后续准确提取出有效信息,增强有效信息的可检测行并最大限度简化数据,提升后续匹配、识别的可靠性。
根据本发明的第二方面,提出了一种图像的处理系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一技术方案中图像的处理方法。因此具有上述任一技术方案中图像的处理方法的全部有益效果,在此不再赘述。
根据本发明的第三方面,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一技术方案中图像的处理的步骤。因此具有上述任一技术方案中图像的处理方法的全部有益效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明的一个实施例的图像的处理方法流程示意图;
图2示出了本发明又一个实施例的图像的处理方法流程示意图;
图3示出了本发明又一个实施例的图像的处理方法流程示意图;
图4示出了本发明又一个实施例的图像的处理方法流程示意图;
图5示出了本发明一个具体实施例的图像的处理方法流程示意图;
图6示出了本发明的一个具体实施例的扫描图像;
图7示出了本发明的一个具体实施例的二值图像;
图8示出了图7检测矩形框的结果图像;
图9示出了图8合并矩形框的结果图像;
图10示出了图9合并矩形框行的结果图像;
图11示出了本发明的一个具体实施例的构建类别识别模型的示意图;
图12示出了本发明的一个实施例的图像的处理系统示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。
本发明第一方面的实施例,提出图像的处理方法,图1示出了本发明的一个实施例的图像的处理方法流程示意图。其中,该方法包括:
步骤102,对图像进行预处理,得到二值图像;
步骤104,获取二值图像中的矩形框;
步骤106,根据矩形框的高度确定文本高度;
步骤108,根据文本高度合并矩形框,得到矩形框行;
步骤110,根据文本高度组合矩形框行,得到富文本行;
步骤112,提取富文本行的图像;
步骤114,匹配富文本行的图像和类别识别模型,识别富文本行的图像中矩形框行的类别;
步骤116,根据矩形框行的类别更新富文本行。
本实施例提供的图像的处理方法,通过对图像进行预处理,得到二值图像,获取二值图像中的矩形框,根据矩形框的高度确定文本高度,根据文本高度合并矩形框的同时粗略检测合并得到的矩形框行的类别,区分出无法识别类型的矩形框行,再将不同类别的矩形框行进行组合,得到富文本行,根据富文本行的最大外接矩形提取富文本行的图像,通过匹配富文本行的图像和类别识别模型,识别出粗略检测时无法识别的矩形框行的类别,从而确定富文本行所包含的信息类型。通过上述处理方法,能够一次性检测出图像中信息的不同类型,同时准确确定不同类型的信息所在的位置并进行分离,便于后续对图像信息进行识别,而且与传统方法相比,整个处理过程中,把复杂的图像处理问题转换为简单的数值计算问题,便于实现,有效提升检测效率,还能够适用于弯曲、倾斜等富文本行的检测,实用性高。其中,矩形框行的类别分为文本行和非文本行,非文本行的类别包括公式、插图、表格等。
优选地,预处理包括:灰度处理,去噪处理,二值化处理;二值化处理的步骤包括:确定去噪处理后图像的像素点的灰度值;若灰度值小于或等于二值化阈值,灰度值设置为0;若灰度值大于二值化阈值,灰度值设置为255。
图2示出了本发明又一个实施例的图像的处理方法流程示意图。其中,该方法包括:
步骤202,对图像进行预处理,得到二值图像;
步骤204,识别二值图像中的文本轮廓;
步骤206,根据文本轮廓确定矩形框;
步骤208,根据预设高度范围筛选矩形框的高度,得到目标高度;
步骤210,统计目标高度中每个高度值对应的矩形框个数;
步骤212,选取最大的矩形框个数对应的高度值作为文本高度;
步骤214,根据文本高度合并矩形框,得到矩形框行;
步骤216,根据文本高度组合矩形框行,得到富文本行;
步骤218,提取富文本行的图像;
步骤220,匹配富文本行的图像和类别识别模型,识别富文本行的图像中矩形框行的类别;
步骤222,根据矩形框行的类别更新富文本行。
在该实施例中,应用计算机视觉库(opencv)的轮廓识别(findContours)函数得到二值图像上的所有轮廓集合,取每个轮廓的最大外接矩形,即得到所有矩形框,从而识别出图像中含有效信息的部分。其中,矩形框为识别出图像中有效信息的最大外接矩形,表示为[x,y,width,height],其中(x,y)为从矩形框左上角开始的坐标,width表示矩形框宽度,height表示矩形框高度。通过获取检测到的全部矩形框的高度,根据预设高度范围对矩形框的高度进行筛选,得到目标高度,统计目标高度中每个高度值对应的矩形框个数,选取最大的矩形框个数对应的高度值作为文本高度,从而根据文本高度对矩形框进行合并,并对得到的矩形框行的类别进行粗略检测,确定包含有文本信息的文本行和包含有公式、图表的非文本行。
图3示出了本发明又一个实施例的图像的处理方法流程示意图。其中,该方法包括:
步骤302,对图像进行预处理,得到二值图像;
步骤304,获取二值图像中的矩形框;
步骤306,根据矩形框的高度确定文本高度;
步骤308,获取矩形框的坐标信息;
步骤310,根据坐标信息排序矩形框;
步骤312,根据第一预设条件合并当前矩形框与前一个矩形框,得到矩形框行,并设置矩形框行为文本行;
步骤314,根据第二预设条件合并当前矩形框与前一个矩形框,得到矩形框行,并设置矩形框行为非文本行;
步骤316,根据文本高度组合矩形框行,得到富文本行;
步骤318,提取包含有非文本行的富文本行的图像;
步骤320,匹配富文本行的图像和类别识别模型,识别富文本行的图像中矩形框行的类别;
步骤322,根据矩形框行的类别更新富文本行。
其中,第一预设条件为当前矩形框与前一个矩形框的高度均小于高度阈值,且当前矩形框与前一个矩形框的水平距离小于文本高度,且当前矩形框与前一个矩形框的垂直距离小于第一距离阈值;第二预设条件为当前矩形框与前一个矩形框的高度均大于高度阈值,且当前矩形框与前一个矩形框的水平距离和垂直距离均小于文本高度。
在该实施例中,根据坐标信息排序所有矩形框,遍历所有矩形框,若当前矩形框与前一个矩形框的高度均小于高度阈值,且当前矩形框与前一个矩形框的水平距离小于文本高度,且当前矩形框与前一个矩形框的垂直距离小于第一距离阈值,说明两个矩形框的高度均符合文本高度的可误差值,同时两个矩形框几乎在一条直线上且相邻,此时合并当前矩形框与前一个矩形框,得到矩形框行,并确定该矩形框行为仅包含文本信息的文本行;若当前矩形框与前一个矩形框的高度均大于高度阈值,且当前矩形框与前一个矩形框的水平距离和垂直距离均小于文本高度,说明两个矩形框的高度均不符合文本高度的可误差值,同时两个矩形框几乎在一条直线上且相邻,合并当前矩形框与前一个矩形框,得到矩形框行,并确定该矩形框行为包含公式、图表等信息的非文本行。通过上述技术方案,在合并矩形框的同时粗略检测合并得到的矩形框行的类别,准确确认文本行和非文本行的位置,即使图像中的信息出现弯曲、倾斜等情况,也能够进行准确的定位。
在本发明的一个实施例中,优选地,根据文本高度组合矩形框行,得到富文本行的步骤,具体包括:获取矩形框行的坐标信息;根据坐标信息确定矩形框行的中心基线;若当前矩形框行与图像中除当前矩形框行以外的任一矩形框行的水平距离小于文本高度,或当前矩形框行的中心基线与图像中除当前矩形框行以外的任一矩形框行的中心基线的差值小于第二距离阈值,组合当前矩形框行和图像中除当前矩形框行以外的任一矩形框行,得到富文本行。
在该实施例中,获取矩形框行的坐标信息,遍历所有矩形框行,若当前矩形框行与图像中除当前矩形框行以外的任一矩形框行的水平距离小于文本高度,或当前矩形框行的中心基线与图像中除当前矩形框行以外的任一矩形框行的中心基线的差值小于第二距离阈值,说明两个矩形框行几乎在一条直线上且相邻,此时组合这两个矩形框行,形成富文本行,其中,富文本行中可能仅包含文本行或非文本行,也可以既包含文本行又包含非文本行。通过上述技术方案,能够将相邻的文本行和非文本行组合,以便于后续通过富文本行进一步检测矩形框行的类型,从而实现一次性检测出图像中内容的不同类型,同时准确确定不同类型的内容所在的位置并进行分离。
图4示出了本发明又一个实施例的图像的处理方法流程示意图。其中,该方法包括:
步骤402,对图像进行预处理,得到二值图像;
步骤404,获取二值图像中的矩形框;
步骤406,根据矩形框的高度确定文本高度;
步骤408,根据文本高度合并矩形框,得到矩形框行;
步骤410,根据文本高度组合矩形框行,得到富文本行;
步骤412,提取富文本行的图像;
步骤414,获取分类图像;
步骤416,根据预设尺寸扩充或缩放分类图像;
步骤418,根据分类图像构建类别识别模型;
步骤420,匹配富文本行的图像和类别识别模型,识别富文本行的图像中矩形框行的类别;
步骤422,根据矩形框行的类别更新富文本行。
在该些技术方案中,获取大量的分类图像,根据预设尺寸扩充或缩放分类图像,是所有分类图像均同一尺寸,再根据分类图像构建类别识别模型,从而便于对符文本行所包含内容的类型进行识别,准确率更高、速度更快,提高实用性。
具体实施例中,分类类别可以是除公式、图表以外的其他类别,如对公式进行细分,例如根式、分式、方程组、不等式组、求和、极限、微分、积分等,对图表进行细分,例如插图、表格等。使用DenseNet+CTC网络搭建OCR模型,同样的可以使用下列卷积神经网络搭建模型:LeNet、AlexNet、VGG、GoogLeNet、ResNet、DenseNet。
图5示出了本发明又一个实施例的图像的处理方法流程示意图。其中,该方法包括:
步骤502,图像预处理;
步骤504,获取候选矩形框;
步骤506,计算文本高度;
步骤508,合并矩形框;
步骤510,矩形框分行;
步骤512,预训练的深度学习模型识别公式、图表;
步骤514,输出富文本行。
以试卷的扫描图像为例,图像的处理方法详细步骤如下:
1.输入原始图像img,如图6所示,图像预处理得到二值图像binary_img,如图7所示,图像预处理具体方法如下:
1.1对原始图像img灰度化得到灰度图像gray_img;
1.2对灰度图像gray_img进行高斯模糊去噪得到平滑图像gray_img2;
1.3对平滑图像gray_img2进行二值化处理得到二值图像binary_img,如图7所示,二值化处理具体方法如下:
1.3.1计算平滑图像gray_img2的所有像素点的灰度平均值mean;
1.3.2设置二值化阈值threshold=mean*F1(F1<1),灰度值大于threshold的像素点设为255,否则为0,其中,基于灰度平均值mean的阶梯阈值设置F1,例如mean>250,F1=0.75;mean>200,F1=0.65。
2.由二值图像binary_img得到候选矩形框rects;
矩形框rect定义:[x,y,width,height],其中(x,y)为从矩形框左上角开始的坐标,width表示矩形框宽度,height表示矩形框高度;
对二值图像binary_img应用opencv的findContours函数得到图像上的所有轮廓集合C,取每个轮廓Ci的最大外接矩形rect-i,即得到所有候选矩形框rects,如图8所示。
3.计算文本高度font_height;
3.1取所有的矩形框的高度height得到高度列表heights;
3.2去掉高度列表heights中异常的最大值、最小值;
3.3计数高度列表heights中每个高度值v的[v,v+C](C为经验值,常数)中出现的矩形框的个数,矩形框个数最大的高度值v即为文本高度font_height。
4.合并矩形框rects,如图9所示;
矩形框行line_rect定义:包含四部分,第一部分是由若干个矩形框rect构成的列表;第二部分是第一部分的最大外接矩形框;第三部分是外接矩形的中心基线middle_line(即中心点的y轴坐标);第四部分是矩形框行的类型,包括text(文本)、formula(公式)、chart(表格)、unk(未知)。
4.1对rects按x进行升序排序;
4.2遍历rects,若矩形框rect-i与矩形框rect-j满足下列关系之一,则合并矩形框rect-i与矩形框rect-j,其中矩形框rect-i与矩形框rect-j为图像中的任意两个矩形框:
关系1:
1)rect-i与rect-j的高度都小于font_height*F2(F2为经验值,常数);
2)rect-i与rect-j的水平距离小于font_height;
3)rect-i与rect-j的垂直距离小于8;
关系2:
1)rect-i与rect-j的高度都大于font_height*F2;
2)rect-i与rect-j的水平距离小于font_height;
3)rect-i与rect-j的垂直距离小于font_height;
4.3 rect-i与rect-j作为矩形框行rect_line的第一部分,计算第一部分的最大外接矩形作为第二部分,计算第二部分的中心点取y值作为第三部分,第四部分计算方法如下:
4.3.1若rect-i与rect-j的高度都小于font_height*F2,第四部分的值为text;
4.3.2若rect-i与rect-j的高度都大于font_height*F2,则第四部分为unk。
5.矩形框分行得到富文本行line_rect_classes,如图10所示;
富文本行line_rect_class定义:一行中包含多个矩形框行line_rect的集合,可以由多个文本、公式、图表组成;
把矩形框行line_rects合并为富文本行line_rect_classes,遍历矩形框行line_rects,若line_rect-i与line_rect-j满足下列条件则合并:
1)line_rect-i与line_rect-j的水平距离小于font_height;
2)line_rect-i与line_rect-j的第三部分之差小于字高的1/3。
6.应用深度学习模型识别公式、图表;
6.1预训练深度学习模型;
6.1.1模型数据;
6.1.1.1使用真实标注的图片数据100000张,其中50000张公式的图片,50000张图表的图片,公式不限于根式、分式、方程组、不等式组、求和、极限、微分、积分等;图表包含插图、表格。
6.1.1.2图片统一处理为预设的尺寸宽度(D)*高度(H);
6.1.2模型网络;
6.1.2.1构建DenseNet网络;
DenseNet(深度卷积网络)由5层由多个BN(批处理规范算法)+ReLU(激活函数)+Conv(卷积层)组成的DenseBlock(网络块),和3层由BN-Conv-Pool(BN-Conv融合层)组成的Transition Layer(过渡层),及growth rate(增长率)k=4,DenseNet示意图如图11所示;
6.1.3模型训练;
模型迭代训练20000次,训练准确率0.992,验证集准确率0.983,从而训练得到公式、图表分类模型;
6.2应用上述模型识别公式、图表;
6.2.1遍历富文本行line_rect_classes,再遍历line_rect_classes-i,若富文本行line_rect_classes-i-m的第四部分为unk,用其第二部分在二值图像gray_img2上扣出子图像part_img;
6.2.2使用子图像part_img作为输入,输入到DenseNet模型中,输出分类结果classify_result,用classify_result更新line_rect_classes-i-m的第四部分的值。
7.输出富文本行line_rect_classes。
在该实施例中,通过轮廓得到矩形框,计算出文本高度之后,以文本高度为核心,合并矩形框,通过文本高度检测文本行,再应用深度学习的神经网络模型处理剩余的非文本的矩形框行,得到公式、图片。整个过程中,把复杂的图像处理问题转换为简单的数值计算问题,方法简单,效率非常高,且可以一次性检测出文本、公式、图片。
根据本发明的第二方面的实施例,如图12所示,提出了一种图像的处理系统600,包括存储器602、处理器604及存储在存储器602上并可在处理器604上运行的计算机程序,处理器604执行计算机程序时实现上述任一实施例中图像的处理方法。因此具有上述任一实施例中图像的处理方法的全部有益效果,在此不再赘述。
根据本发明的第三方面的实施例,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一实施例中图像的处理的步骤。因此具有上述任一实施例中图像的处理方法的全部有益效果,在此不再赘述。
在本说明书的描述中,术语“第一”、“第二”仅用于描述的目的,而不能理解为指示或暗示相对重要性,除非另有明确的规定和限定;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种图像的处理方法,其特征在于,包括:
对所述图像进行预处理,得到二值图像;
获取所述二值图像中的矩形框;
根据所述矩形框的高度确定文本高度;
根据所述文本高度合并所述矩形框,得到矩形框行;
根据所述文本高度组合所述矩形框行,得到富文本行;
提取所述富文本行的图像;
匹配所述富文本行的图像和类别识别模型,识别所述富文本行的图像中所述矩形框行的类别;
根据所述矩形框行的类别更新所述富文本行。
2.根据权利要求1所述的图像的处理方法,其特征在于,所述获取所述二值图像中的矩形框的步骤,具体包括:
识别所述二值图像中的文本轮廓;
根据所述文本轮廓确定所述矩形框。
3.根据权利要求1所述的图像的处理方法,其特征在于,所述根据所述矩形框的高度确定文本高度的步骤,具体包括:
根据预设高度范围筛选所述矩形框的高度,得到目标高度;
统计所述目标高度中每个高度值对应的矩形框个数;
选取最大的所述矩形框个数对应的高度值作为文本高度。
4.根据权利要求1所述的图像的处理方法,其特征在于,所述根据所述文本高度合并所述矩形框,得到矩形框行的步骤,具体包括:
获取所述矩形框的坐标信息;
根据所述坐标信息排序所述矩形框;
若当前矩形框与前一个矩形框的高度均小于高度阈值,且所述当前矩形框与所述前一个矩形框的水平距离小于所述文本高度,且所述当前矩形框与所述前一个矩形框的垂直距离小于第一距离阈值,合并所述当前矩形框与所述前一个矩形框,得到所述矩形框行,并设置所述矩形框行为文本行;
若当前矩形框与前一个矩形框的高度均大于高度阈值,且所述当前矩形框与所述前一个矩形框的水平距离和垂直距离均小于所述文本高度,合并所述当前矩形框与所述前一个矩形框,得到所述矩形框行,并设置所述矩形框行为非文本行;
其中,所述高度阈值为所述文本高度的倍数。
5.根据权利要求1所述的图像的处理方法,其特征在于,所述根据所述文本高度组合所述矩形框行,得到富文本行的步骤,具体包括:
获取所述矩形框行的坐标信息;
根据所述坐标信息确定所述矩形框行的中心基线;
若当前矩形框行与所述图像中除所述当前矩形框行以外的任一矩形框行的水平距离小于文本高度,或
所述当前矩形框行的中心基线与所述图像中除所述当前矩形框行以外的任一矩形框行的中心基线的差值小于第二距离阈值,组合所述当前矩形框行和所述图像中除所述当前矩形框行以外的任一矩形框行,得到所述富文本行。
6.根据权利要求4所述的图像的处理方法,其特征在于,所述提取所述富文本行的图像的步骤,具体包括:
提取包含有非文本行的所述富文本行的图像。
7.根据权利要求1所述的图像的处理方法,其特征在于,所述匹配所述富文本行的图像和类别识别模型的步骤之前,还包括:
获取分类图像;
根据预设尺寸扩充或缩放所述分类图像;
根据所述分类图像构建所述类别识别模型。
8.根据权利要求1所述的图像的处理方法,其特征在于,
所述预处理包括:灰度处理,去噪处理,二值化处理;
所述二值化处理的步骤包括:
确定所述去噪处理后所述图像的像素点的灰度值;
若所述灰度值小于或等于二值化阈值,所述灰度值设置为0;
若所述灰度值大于二值化阈值,所述灰度值设置为255。
9.一种图像的处理系统,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的图像的处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的图像的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910565971.3A CN110414505A (zh) | 2019-06-27 | 2019-06-27 | 图像的处理方法、处理系统及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910565971.3A CN110414505A (zh) | 2019-06-27 | 2019-06-27 | 图像的处理方法、处理系统及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110414505A true CN110414505A (zh) | 2019-11-05 |
Family
ID=68358378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910565971.3A Pending CN110414505A (zh) | 2019-06-27 | 2019-06-27 | 图像的处理方法、处理系统及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110414505A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325195A (zh) * | 2020-02-17 | 2020-06-23 | 支付宝(杭州)信息技术有限公司 | 文本识别方法、装置及电子设备 |
CN112686258A (zh) * | 2020-12-10 | 2021-04-20 | 广州广电运通金融电子股份有限公司 | 体检报告信息结构化方法、装置、可读存储介质和终端 |
CN117409428A (zh) * | 2023-12-13 | 2024-01-16 | 南昌理工学院 | 一种试卷信息处理方法、系统、计算机及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503732A (zh) * | 2016-10-13 | 2017-03-15 | 北京云江科技有限公司 | 文本图像与非文本图像的分类方法和分类系统 |
CN107748888A (zh) * | 2017-10-13 | 2018-03-02 | 众安信息技术服务有限公司 | 一种图像文本行检测方法及装置 |
-
2019
- 2019-06-27 CN CN201910565971.3A patent/CN110414505A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503732A (zh) * | 2016-10-13 | 2017-03-15 | 北京云江科技有限公司 | 文本图像与非文本图像的分类方法和分类系统 |
CN107748888A (zh) * | 2017-10-13 | 2018-03-02 | 众安信息技术服务有限公司 | 一种图像文本行检测方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325195A (zh) * | 2020-02-17 | 2020-06-23 | 支付宝(杭州)信息技术有限公司 | 文本识别方法、装置及电子设备 |
CN111325195B (zh) * | 2020-02-17 | 2024-01-26 | 支付宝(杭州)信息技术有限公司 | 文本识别方法、装置及电子设备 |
CN112686258A (zh) * | 2020-12-10 | 2021-04-20 | 广州广电运通金融电子股份有限公司 | 体检报告信息结构化方法、装置、可读存储介质和终端 |
CN117409428A (zh) * | 2023-12-13 | 2024-01-16 | 南昌理工学院 | 一种试卷信息处理方法、系统、计算机及存储介质 |
CN117409428B (zh) * | 2023-12-13 | 2024-03-01 | 南昌理工学院 | 一种试卷信息处理方法、系统、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104298982B (zh) | 一种文字识别方法及装置 | |
Lee et al. | Binary segmentation algorithm for English cursive handwriting recognition | |
CN115082683A (zh) | 一种基于图像处理的注塑缺陷检测方法 | |
CN104778470B (zh) | 基于组件树和霍夫森林的文字检测和识别方法 | |
CN105205488B (zh) | 基于Harris角点和笔画宽度的文字区域检测方法 | |
CN104408449B (zh) | 智能移动终端场景文字处理方法 | |
CN106934386B (zh) | 一种基于自启发式策略的自然场景文字检测方法及系统 | |
CN111401353B (zh) | 一种数学公式的识别方法、装置及设备 | |
CN104077577A (zh) | 一种基于卷积神经网络的商标检测方法 | |
CN110414505A (zh) | 图像的处理方法、处理系统及计算机可读存储介质 | |
CN106845513B (zh) | 基于条件随机森林的人手检测器及方法 | |
CN113128442A (zh) | 基于卷积神经网络的汉字书法风格识别方法和评分方法 | |
CN114972356B (zh) | 塑料制品表面缺陷检测识别方法及系统 | |
CN111091124B (zh) | 一种书脊文字识别方法 | |
CN113723330B (zh) | 一种图表文档信息理解的方法及系统 | |
CN106372624A (zh) | 人脸识别方法及系统 | |
CN113221956A (zh) | 基于改进的多尺度深度模型的目标识别方法及装置 | |
CN115082776A (zh) | 一种基于图像识别的电能表自动检测系统及方法 | |
CN114359917A (zh) | 一种手写汉字检测识别及字形评估方法 | |
CN114581928A (zh) | 一种表格识别方法及系统 | |
CN109741351A (zh) | 一种基于深度学习的类别敏感型边缘检测方法 | |
CN112200789A (zh) | 一种图像识别的方法及装置、电子设备和存储介质 | |
CN116912865A (zh) | 表格图像识别方法、装置、设备及介质 | |
Seuret et al. | Pixel level handwritten and printed content discrimination in scanned documents | |
Velu et al. | Automatic letter sorting for Indian postal address recognition system based on pin codes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191105 |
|
WD01 | Invention patent application deemed withdrawn after publication |