CN116524508A - 表格类图像的矫正方法及装置、存储介质、计算机设备 - Google Patents
表格类图像的矫正方法及装置、存储介质、计算机设备 Download PDFInfo
- Publication number
- CN116524508A CN116524508A CN202310466161.9A CN202310466161A CN116524508A CN 116524508 A CN116524508 A CN 116524508A CN 202310466161 A CN202310466161 A CN 202310466161A CN 116524508 A CN116524508 A CN 116524508A
- Authority
- CN
- China
- Prior art keywords
- image
- inclination angle
- intermediate image
- straight line
- orientation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000013145 classification model Methods 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 13
- 238000003702 image correction Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 206010061274 Malocclusion Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1463—Orientation detection or correction, e.g. rotation of multiples of 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/1607—Correcting image deformation, e.g. trapezoidal deformation caused by perspective
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及数字医疗及图像处理技术领域,公开了一种表格类图像的矫正方法及装置、存储介质、计算机设备,该方法包括:获取待矫正的初始表格图像;检测所述初始表格图像中包含的至少一条第一直线,依据所述第一直线的直线倾斜角度确定所述初始表格图像的图像倾斜角度,并基于所述初始表格图像的图像倾斜角度对所述初始表格图像进行角度矫正获得第一中间图像;通过朝向分类模型对所述第一中间图像进行分类,并依据所述第一中间图像的朝向对所述第一中间图像进行朝向矫正,获得矫正后的目标图像。本申请通过对初始表格图像进行角度矫正和朝向矫正,使得矫正后的图像中的表格和文字均能保持正向,有助于提升后续对图像进行文字识别的准确性。
Description
技术领域
本申请涉及数字医疗和图像处理技术领域,尤其是涉及到一种表格类图像的矫正方法及装置、存储介质、计算机设备。
背景技术
在医疗场景下,如果能够准确的对体检报告、检查单和检验单等自动提取相关信息譬如OCR文档识别,可极大的降低人力成本。
其中,文档图像作为一种非结构化的数据,其分析识别等面临着一些技术难点,其中包括,一是低质量的文档表格类图像识别困难:一些图文混合、区域形状不规则、文档图像模糊不清等问题给图像识别带来极大的困难。二是场景文本的文字检测困难:由于光照强度不一、拍摄角度不同、拍摄工具差异,拍摄视角不同等所导致的用户上传的待解析的图像有不同程度的遮挡、倾斜、褶皱等问题。这些问题也会严重影响后续OCR识别的效果。
发明内容
有鉴于此,本申请提供了一种表格类图像的矫正方法及装置、存储介质、计算机设备,使得矫正后的图像中的表格和文字均能保持正向,有助于提升后续对图像进行文字识别的准确性。
根据本申请的一个方面,提供了一种表格类图像的矫正方法,所述方法包括:
获取待矫正的初始表格图像;
检测所述初始表格图像中包含的至少一条第一直线,依据所述第一直线的直线倾斜角度确定所述初始表格图像的图像倾斜角度,并基于所述初始表格图像的图像倾斜角度对所述初始表格图像进行角度矫正获得第一中间图像;
通过朝向分类模型对所述第一中间图像进行分类,并依据所述第一中间图像的朝向对所述第一中间图像进行朝向矫正,获得矫正后的目标图像。
可选地,所述依据所述第一直线的直线倾斜角度确定所述初始表格图像的图像倾斜角度,包括:
获取每条第一直线的直线倾斜角度;
统计落入不同倾斜角度区间的第一直线,并依据落入每个倾斜角度区间的第一直线,计算每个倾斜角度区间对应的直线倾斜角度方差;
获取直线倾斜角度方差最小的倾斜角度区间对应的目标区间落入直线,并依据每条所述目标区间落入直线的直线倾斜角度,确定所述初始表格图像的图像倾斜角度。
可选地,所述确定所述初始表格图像的图像倾斜角度之后,所述方法还包括:
若所述初始表格图像的图像倾斜角度在预设扭曲角度范围内,则通过扭曲图像矫正模型对所述初始表格图像进行扭曲矫正获得第二中间图像;
检测所述第二中间图像中包含的至少一条第二直线,依据所述第二直线的直线倾斜角度确定所述第二中间图像的图像倾斜角度,并基于所述第二中间图像的图像倾斜角度对所述第二中间图像进行角度矫正获得第三中间图像;
通过朝向分类模型对所述第三中间图像进行分类,并依据所述第三中间图像的朝向对所述第三中间图像进行朝向矫正,获得矫正后的目标图像。
可选地,所述确定所述初始表格图像的图像倾斜角度之后,所述方法还包括:
若所述初始表格图像的图像倾斜角度不在预设扭曲角度范围内,则继续执行所述基于所述初始表格图像的图像倾斜角度对所述初始表格图像进行角度矫正获得第一中间图像;
相应地,所述通过朝向分类模型对所述第一中间图像进行分类之后,所述方法还包括:
若所述第一中间图像不是向上朝向,则通过扭曲图像矫正模型对所述初始表格图像进行扭曲矫正获得第四中间图像;
检测所述第四中间图像中包含的至少一条第三直线,依据所述第三直线的直线倾斜角度确定所述第四中间图像的图像倾斜角度,并基于所述第四中间图像的图像倾斜角度对所述第四中间图像进行角度矫正获得第五中间图像;
通过朝向分类模型对所述第五中间图像进行分类,并依据所述第五中间图像的朝向对所述第五中间图像进行朝向矫正,获得矫正后的目标图像。
可选地,所述通过朝向分类模型对所述第一中间图像进行分类之后,所述方法还包括:
若所述第一中间图像是向上朝向,则将所述第一中间图像作为矫正后的目标图像。
可选地,所述朝向分类模型的训练过程包括:
获取向上朝向的多张样本表格图像,并分别对每张所述样本表格图像进行旋转,获得向左朝向、向右朝向以及向下朝向的样本表格图像;
基于向上朝向、向下朝向、向左朝向以及向右朝向的样本表格图像,构建朝向分类模型的训练样本,并进行朝向分类模型的训练。
可选地,所述获取待矫正的初始表格图像之后,所述方法还包括:
确定所述初始表格图像中每个像素点的像素值;
针对每个像素点,获取该像素点的像素值以及该像素点对应的邻域像素点的像素值,对该像素点的像素值和邻域像素点的像素值进行加权求和,并将加权求和结果作为该像素点的最终像素值;
基于每个像素点的最终像素值,更新所述初始表格图像。
根据本申请的另一方面,提供了一种表格类图像的矫正装置,所述装置包括:
图像获取模块,用于获取待矫正的初始表格图像;
角度矫正模块,用于检测所述初始表格图像中包含的至少一条第一直线,依据所述第一直线的直线倾斜角度确定所述初始表格图像的图像倾斜角度,并基于所述初始表格图像的图像倾斜角度对所述初始表格图像进行角度矫正获得第一中间图像;
朝向矫正模块,用于通过朝向分类模型对所述第一中间图像进行分类,并依据所述第一中间图像的朝向对所述第一中间图像进行朝向矫正,获得矫正后的目标图像。
可选地,所述角度矫正模块,还用于:
获取每条第一直线的直线倾斜角度;
统计落入不同倾斜角度区间的第一直线,并依据落入每个倾斜角度区间的第一直线,计算每个倾斜角度区间对应的直线倾斜角度方差;
获取直线倾斜角度方差最小的倾斜角度区间对应的目标区间落入直线,并依据每条所述目标区间落入直线的直线倾斜角度,确定所述初始表格图像的图像倾斜角度。
可选地,所述装置还包括:
扭曲矫正模块,用于若所述初始表格图像的图像倾斜角度在预设扭曲角度范围内,则通过扭曲图像矫正模型对所述初始表格图像进行扭曲矫正获得第二中间图像;
所述角度矫正模块,还用于检测所述第二中间图像中包含的至少一条第二直线,依据所述第二直线的直线倾斜角度确定所述第二中间图像的图像倾斜角度,并基于所述第二中间图像的图像倾斜角度对所述第二中间图像进行角度矫正获得第三中间图像;
所述朝向矫正模块,还用于通过朝向分类模型对所述第三中间图像进行分类,并依据所述第三中间图像的朝向对所述第三中间图像进行朝向矫正,获得矫正后的目标图像。
可选地,所述确角度矫正模块,还用于若所述初始表格图像的图像倾斜角度不在预设扭曲角度范围内,则继续执行所述基于所述初始表格图像的图像倾斜角度对所述初始表格图像进行角度矫正获得第一中间图像;
相应地,所述扭曲矫正模块,还用于若所述第一中间图像不是向上朝向,则通过扭曲图像矫正模型对所述初始表格图像进行扭曲矫正获得第四中间图像;
所述角度矫正模块,还用于检测所述第四中间图像中包含的至少一条第三直线,依据所述第三直线的直线倾斜角度确定所述第四中间图像的图像倾斜角度,并基于所述第四中间图像的图像倾斜角度对所述第四中间图像进行角度矫正获得第五中间图像;
所述朝向矫正模块,还用于通过朝向分类模型对所述第五中间图像进行分类,并依据所述第五中间图像的朝向对所述第五中间图像进行朝向矫正,获得矫正后的目标图像。
可选地,所述朝向矫正模块,还用于若所述第一中间图像是向上朝向,则将所述第一中间图像作为矫正后的目标图像。
可选地,所述装置还包括:朝向分类模型训练模块,用于:
获取向上朝向的多张样本表格图像,并分别对每张所述样本表格图像进行旋转,获得向左朝向、向右朝向以及向下朝向的样本表格图像;
基于向上朝向、向下朝向、向左朝向以及向右朝向的样本表格图像,构建朝向分类模型的训练样本,并进行朝向分类模型的训练。
可选地,所述图像获取模块,还用于:
确定所述初始表格图像中每个像素点的像素值;
针对每个像素点,获取该像素点的像素值以及该像素点对应的邻域像素点的像素值,对该像素点的像素值和邻域像素点的像素值进行加权求和,并将加权求和结果作为该像素点的最终像素值;
基于每个像素点的最终像素值,更新所述初始表格图像。
依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述表格类图像的矫正方法。
依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述表格类图像的矫正方法。
借由上述技术方案,本申请提供的一种表格类图像的矫正方法及装置、存储介质、计算机设备,针对待矫正的初始表格图像,先进行直线检测,根据检测出的各直线的直线倾斜角度来计算图像倾斜角度,并对初始表格进行角度矫正,再利用朝向分类模型确定角度矫正后的第一中间图像的朝向,并对第一中间图像进行朝向矫正。本申请通过对初始表格图像进行角度矫正和朝向矫正,使得矫正后的图像中的表格和文字均能保持正向,有助于提升后续对图像进行文字识别的准确性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种表格类图像的矫正方法的流程示意图;
图2示出了本申请实施例提供的另一种表格类图像的矫正方法的流程示意图;
图3示出了本申请实施例提供的一种表格类图像的矫正装置的结构示意图;
图4示出了本申请实施例提供的一种计算机设备的装置结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种表格类图像的矫正方法,如图1所示,该方法包括:
步骤101,获取待矫正的初始表格图像。
本申请实施例中,首先,获取待矫正的初始表格图像,本申请实施例以对医疗类表格图像进行矫正为例进行解释说明,例如医疗检验单,当然也适用于其他类型的表格图像的矫正,在此不做限定。
可选地,确定所述初始表格图像中每个像素点的像素值;针对每个像素点,获取该像素点的像素值以及该像素点对应的邻域像素点的像素值,对该像素点的像素值和邻域像素点的像素值进行加权求和,并将加权求和结果作为该像素点的最终像素值;基于每个像素点的最终像素值,更新所述初始表格图像。
在该实施例中,针对待矫正的初始表格图像,可以先进行滤波降噪处理,以排除图像中的噪声干扰,提升后续直线检测的准确性,减少直线检测所检测出来的直线数量,方便后续矫正优化。具体可以通过高斯模糊的方式对初始表格图像进行降噪,高斯模糊是一种线性平滑滤波。可看作是对整副图像进行加权平均的过程,每一个像素点的值都由其本身和邻域内的其他像素值经过加权平均后得到,权重具体可以选择人工经验预设值,也可以对初始化的预设值进行不断尝试、迭代优化确定。
步骤102,检测所述初始表格图像中包含的至少一条第一直线,依据所述第一直线的直线倾斜角度确定所述初始表格图像的图像倾斜角度,并基于所述初始表格图像的图像倾斜角度对所述初始表格图像进行角度矫正获得第一中间图像。
其次,对初始表格图像进行直线检测,具体可以采用Hough直线检测方法,检测出初始表格图像中包含的全部直线,即第一直线。获取每条第一直线的直线倾斜角度,即第一直线相对于水平方向的夹角。之后,根据第一直线的直线倾斜角度统计计算出初始表格图像的图像倾斜角度,从而根据图像倾斜角度对初始表格图像进行角度矫正。例如图像倾斜角度为a,那么可以将图像旋转-a实现角度矫正。
可选地,步骤102中所述依据所述第一直线的直线倾斜角度确定所述初始表格图像的图像倾斜角度,包括:获取每条第一直线的直线倾斜角度;统计落入不同倾斜角度区间的第一直线,并依据落入每个倾斜角度区间的第一直线,计算每个倾斜角度区间对应的直线倾斜角度方差;获取直线倾斜角度方差最小的倾斜角度区间对应的目标区间落入直线,并依据每条所述目标区间落入直线的直线倾斜角度,确定所述初始表格图像的图像倾斜角度。
在该实施例中,通过Hough检测直线之后,即可计算角度。但是存在的问题在于,hough检测往往可以检测出图像中的多条直线,如何从所检测到的多条直线中确定图像的角度是一个问题。本申请提出的方式如下:将[-180,180]度之间的角度按照每45度划分小区间,形如[0,45),[45,90)[-180,-135)。对落每个区间内的各个直线的角度计算方差,确定方差最小的角度区间。对方差最小的角度区间内的各直线角度取平均,该平均值即认为是图片的倾斜角度。在确定图片的倾斜角度之后,将图片向着反方向旋转相应角度即可纠正图片的小角度倾斜。
步骤103,通过朝向分类模型对所述第一中间图像进行分类,并依据所述第一中间图像的朝向对所述第一中间图像进行朝向矫正,获得矫正后的目标图像。
进一步,在经过图片预处理及hough之间检测小角度纠正之后,基本能够确保图片不再倾斜。但还需要利用角度分类模型来确保图片是‘正’的(即文字朝上)。考虑到输入图片的分布情况和后续需求,本申请实施例预先训练一个图像角度四分类模型(0度,90度,180度,270度),即朝向分类模型,0度即向上朝向、90度即向左朝向、180度即向下朝向、270度即向右朝向。利用训练后的朝向分类模型对上述经过角度矫正得到的第一中间图像进行分类,确定第一中间图像的朝向,从而对第一中间图像进行朝向矫正。最终经过角度矫正和朝向矫正后的图像表格和文字的方向都是正确的,便于后续对图像识别时能够识别到准确的文字。
可选地,所述朝向分类模型的训练过程包括:获取向上朝向的多张样本表格图像,并分别对每张所述样本表格图像进行旋转,获得向左朝向、向右朝向以及向下朝向的样本表格图像;基于向上朝向、向下朝向、向左朝向以及向右朝向的样本表格图像,构建朝向分类模型的训练样本,并进行朝向分类模型的训练。
在该实施例中,在组织训练样本方面,选取了各种类型的正向的(0度)的医疗表格类数据(包括检验单、检查单、体检报告等)共700张,经过90度、180度、270度旋转共得到4*700=2800张图片,其中90%用作训练样本,10%用作测试样本。另外考虑到训练成本的问题,本文可以采用在imageNet上已经预训练过的PP-LCNet模型来训练图像分类模型的方式。
通过应用本实施例的技术方案,针对待矫正的初始表格图像,先进行直线检测,根据检测出的各直线的直线倾斜角度来计算图像倾斜角度,并对初始表格进行角度矫正,再利用朝向分类模型确定角度矫正后的第一中间图像的朝向,并对第一中间图像进行朝向矫正。本申请通过对初始表格图像进行角度矫正和朝向矫正,使得矫正后的图像中的表格和文字均能保持正向,有助于提升后续对图像进行文字识别的准确性。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种表格类图像的矫正方法,如图2所示,该方法包括:
步骤201,获取待矫正的初始表格图像。
步骤202,检测所述初始表格图像中包含的至少一条第一直线,依据所述第一直线的直线倾斜角度确定所述初始表格图像的图像倾斜角度。
步骤203,若所述初始表格图像的图像倾斜角度在预设扭曲角度范围内,则通过扭曲图像矫正模型对所述初始表格图像进行扭曲矫正获得第二中间图像;检测所述第二中间图像中包含的至少一条第二直线,依据所述第二直线的直线倾斜角度确定所述第二中间图像的图像倾斜角度,并基于所述第二中间图像的图像倾斜角度对所述第二中间图像进行角度矫正获得第三中间图像;通过朝向分类模型对所述第三中间图像进行分类,并依据所述第三中间图像的朝向对所述第三中间图像进行朝向矫正,获得矫正后的目标图像。
在该实施例中,如图2所示,针对初始表格图像,首先进行直线检测,根据在初始表格图像中检测出的全部第一直线来确定初始表格图像的图像倾斜角度,具体确定图像倾斜角度的方式可参见上文。如果初始表格图像的图像倾斜角度在一定范围内,即在预设扭曲角度范围内,例如在-10度~10度,那么认为该初始表格图像可能存在因纸张折叠、拍摄歪斜导致的图像小角度扭曲,这时可以先对初始表格图像进行扭曲矫正,具体可以选择DewarpNet模型对图像进行矫正拉平。在实际应用场景中,手持镜头拍摄得到的文档类图像往往会含有形变及环境背景的干扰,比如纸张的歪斜折叠、折叠弯曲畸变等都会给后续任务带来较大的困难。所以本申请实施例采用DewarpNet模型对图像进行预处理,主要是希望能够得到类似扫描仪扫描的结果。
DewarpNet由两个子网络组成,形状网络和纹理映射网络。先通过对形变纸张进行3维信息的采集,再将平整文档图像渲染到形变的纸张图像上,得到了形变的文档图像。形变的文档图像作为输入,纸张的3维信息、渲染过程的逆变换、平整文档图像共同作为Ground-truth,构成了含有丰富标注信息的数据集Doc3D。利用这些标注信息训练一个深度学习模型DewarpNet,在不需要额外硬件和多角度图像的情况下对该类文档图像进行处理,能达到很好的矫正效果。然后再针对扭曲矫正后的图像即第二中间图像依次进行角度矫正和朝向矫正,具体方式参见步骤102和步骤103的方式,在此不再赘述。经过上述扭曲矫正、角度矫正和朝向矫正后,可以对图像的扭曲、方向不正、朝向不正的问题进行修复,有助于提升后续文字识别的准确性。
步骤204,若所述初始表格图像的图像倾斜角度不在预设扭曲角度范围内,则基于所述初始表格图像的图像倾斜角度对所述初始表格图像进行角度矫正获得第一中间图像。
步骤205,通过朝向分类模型对所述第一中间图像进行分类。
步骤206,若所述第一中间图像不是向上朝向,则通过扭曲图像矫正模型对所述初始表格图像进行扭曲矫正获得第四中间图像;检测所述第四中间图像中包含的至少一条第三直线,依据所述第三直线的直线倾斜角度确定所述第四中间图像的图像倾斜角度,并基于所述第四中间图像的图像倾斜角度对所述第四中间图像进行角度矫正获得第五中间图像;通过朝向分类模型对所述第五中间图像进行分类,并依据所述第五中间图像的朝向对所述第五中间图像进行朝向矫正,获得矫正后的目标图像。
在该实施例中,如果初始表格图像的图像倾斜角度超出了预设扭曲角度范围,可能是因为图像扭曲、也可能是因为图像朝向不正,这时可以先对初始表格图像进行角度矫正,再针对角度矫正后的第一中间图像进行分类。如果第一中间图像不是向上朝向,这时可以认为图像存在扭曲,那么可以先对初始表格图像进行扭曲矫正,再对矫正得到的第四中间图像进行角度矫正和朝向矫正。
步骤207,若所述第一中间图像是向上朝向,则依据所述第一中间图像的朝向对所述第一中间图像进行朝向矫正,获得矫正后的目标图像。
在该实施例中,如果初始表格图像的图像倾斜角度不在预设扭曲角度范围内、并且经过角度矫正后的第一中间图像是朝上的,那么直接将角度矫正后的图像作为最终的目标图像。
本申请实施例提供的技术方案,针对目前图像矫正的预处理方案基本都是一些零散的问题,比如基于图像小角度倾斜,针对图像质量不高、图像褶皱的分散的方法和模型。另外就是医疗类表格数据,相比于其他类型的自然图片,在后续例如OCR识别等处理过程中,对于图像的整体质量要求更高,难度更大。也因此,结合具体的需求,主要针对医疗类表格图像,提出了一个涵盖预处理和图像角度检测和分类在内的完整的图像矫正方案。并且在后续的测试和端到端评估中已经证实是一个高效高收益的方案。同时,该方案目前主要针对医疗表格类图像,但是可以扩充到大部分类型图像矫正上,只需要相应的结合图像具体情况,比如对预训练步骤做一些增减,对hough直线检测相关参数进行调整,对图像四分类模型重新组织样本进行训练等等。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种表格类图像的矫正装置,如图3所示,该装置包括:
图像获取模块,用于获取待矫正的初始表格图像;
角度矫正模块,用于检测所述初始表格图像中包含的至少一条第一直线,依据所述第一直线的直线倾斜角度确定所述初始表格图像的图像倾斜角度,并基于所述初始表格图像的图像倾斜角度对所述初始表格图像进行角度矫正获得第一中间图像;
朝向矫正模块,用于通过朝向分类模型对所述第一中间图像进行分类,并依据所述第一中间图像的朝向对所述第一中间图像进行朝向矫正,获得矫正后的目标图像。
可选地,所述角度矫正模块,还用于:
获取每条第一直线的直线倾斜角度;
统计落入不同倾斜角度区间的第一直线,并依据落入每个倾斜角度区间的第一直线,计算每个倾斜角度区间对应的直线倾斜角度方差;
获取直线倾斜角度方差最小的倾斜角度区间对应的目标区间落入直线,并依据每条所述目标区间落入直线的直线倾斜角度,确定所述初始表格图像的图像倾斜角度。
可选地,所述装置还包括:
扭曲矫正模块,用于若所述初始表格图像的图像倾斜角度在预设扭曲角度范围内,则通过扭曲图像矫正模型对所述初始表格图像进行扭曲矫正获得第二中间图像;
所述角度矫正模块,还用于检测所述第二中间图像中包含的至少一条第二直线,依据所述第二直线的直线倾斜角度确定所述第二中间图像的图像倾斜角度,并基于所述第二中间图像的图像倾斜角度对所述第二中间图像进行角度矫正获得第三中间图像;
所述朝向矫正模块,还用于通过朝向分类模型对所述第三中间图像进行分类,并依据所述第三中间图像的朝向对所述第三中间图像进行朝向矫正,获得矫正后的目标图像。
可选地,所述确角度矫正模块,还用于若所述初始表格图像的图像倾斜角度不在预设扭曲角度范围内,则继续执行所述基于所述初始表格图像的图像倾斜角度对所述初始表格图像进行角度矫正获得第一中间图像;
相应地,所述扭曲矫正模块,还用于若所述第一中间图像不是向上朝向,则通过扭曲图像矫正模型对所述初始表格图像进行扭曲矫正获得第四中间图像;
所述角度矫正模块,还用于检测所述第四中间图像中包含的至少一条第三直线,依据所述第三直线的直线倾斜角度确定所述第四中间图像的图像倾斜角度,并基于所述第四中间图像的图像倾斜角度对所述第四中间图像进行角度矫正获得第五中间图像;
所述朝向矫正模块,还用于通过朝向分类模型对所述第五中间图像进行分类,并依据所述第五中间图像的朝向对所述第五中间图像进行朝向矫正,获得矫正后的目标图像。
可选地,所述朝向矫正模块,还用于若所述第一中间图像是向上朝向,则将所述第一中间图像作为矫正后的目标图像。
可选地,所述装置还包括:朝向分类模型训练模块,用于:
获取向上朝向的多张样本表格图像,并分别对每张所述样本表格图像进行旋转,获得向左朝向、向右朝向以及向下朝向的样本表格图像;
基于向上朝向、向下朝向、向左朝向以及向右朝向的样本表格图像,构建朝向分类模型的训练样本,并进行朝向分类模型的训练。
可选地,所述图像获取模块,还用于:
确定所述初始表格图像中每个像素点的像素值;
针对每个像素点,获取该像素点的像素值以及该像素点对应的邻域像素点的像素值,对该像素点的像素值和邻域像素点的像素值进行加权求和,并将加权求和结果作为该像素点的最终像素值;
基于每个像素点的最终像素值,更新所述初始表格图像。
需要说明的是,本申请实施例提供的一种表格类图像的矫正装置所涉及各功能单元的其他相应描述,可以参考图1至图2方法中的对应描述,在此不再赘述。
本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,如图4所示,该计算机设备包括总线、处理器、存储器和通信接口,还可以包括输入输出接口和显示设备。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储位置信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现各方法实施例中的步骤。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质可以是非易失性,也可以是易失性,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种表格类图像的矫正方法,其特征在于,所述方法包括:
获取待矫正的初始表格图像;
检测所述初始表格图像中包含的至少一条第一直线,依据所述第一直线的直线倾斜角度确定所述初始表格图像的图像倾斜角度,并基于所述初始表格图像的图像倾斜角度对所述初始表格图像进行角度矫正获得第一中间图像;
通过朝向分类模型对所述第一中间图像进行分类,并依据所述第一中间图像的朝向对所述第一中间图像进行朝向矫正,获得矫正后的目标图像。
2.根据权利要求1所述的方法,其特征在于,所述依据所述第一直线的直线倾斜角度确定所述初始表格图像的图像倾斜角度,包括:
获取每条第一直线的直线倾斜角度;
统计落入不同倾斜角度区间的第一直线,并依据落入每个倾斜角度区间的第一直线,计算每个倾斜角度区间对应的直线倾斜角度方差;
获取直线倾斜角度方差最小的倾斜角度区间对应的目标区间落入直线,并依据每条所述目标区间落入直线的直线倾斜角度,确定所述初始表格图像的图像倾斜角度。
3.根据权利要求1所述的方法,其特征在于,所述确定所述初始表格图像的图像倾斜角度之后,所述方法还包括:
若所述初始表格图像的图像倾斜角度在预设扭曲角度范围内,则通过扭曲图像矫正模型对所述初始表格图像进行扭曲矫正获得第二中间图像;
检测所述第二中间图像中包含的至少一条第二直线,依据所述第二直线的直线倾斜角度确定所述第二中间图像的图像倾斜角度,并基于所述第二中间图像的图像倾斜角度对所述第二中间图像进行角度矫正获得第三中间图像;
通过朝向分类模型对所述第三中间图像进行分类,并依据所述第三中间图像的朝向对所述第三中间图像进行朝向矫正,获得矫正后的目标图像。
4.根据权利要求3所述的方法,其特征在于,所述确定所述初始表格图像的图像倾斜角度之后,所述方法还包括:
若所述初始表格图像的图像倾斜角度不在预设扭曲角度范围内,则继续执行所述基于所述初始表格图像的图像倾斜角度对所述初始表格图像进行角度矫正获得第一中间图像;
相应地,所述通过朝向分类模型对所述第一中间图像进行分类之后,所述方法还包括:
若所述第一中间图像不是向上朝向,则通过扭曲图像矫正模型对所述初始表格图像进行扭曲矫正获得第四中间图像;
检测所述第四中间图像中包含的至少一条第三直线,依据所述第三直线的直线倾斜角度确定所述第四中间图像的图像倾斜角度,并基于所述第四中间图像的图像倾斜角度对所述第四中间图像进行角度矫正获得第五中间图像;
通过朝向分类模型对所述第五中间图像进行分类,并依据所述第五中间图像的朝向对所述第五中间图像进行朝向矫正,获得矫正后的目标图像。
5.根据权利要求4所述的方法,其特征在于,所述通过朝向分类模型对所述第一中间图像进行分类之后,所述方法还包括:
若所述第一中间图像是向上朝向,则将所述第一中间图像作为矫正后的目标图像。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述朝向分类模型的训练过程包括:
获取向上朝向的多张样本表格图像,并分别对每张所述样本表格图像进行旋转,获得向左朝向、向右朝向以及向下朝向的样本表格图像;
基于向上朝向、向下朝向、向左朝向以及向右朝向的样本表格图像,构建朝向分类模型的训练样本,并进行朝向分类模型的训练。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述获取待矫正的初始表格图像之后,所述方法还包括:
确定所述初始表格图像中每个像素点的像素值;
针对每个像素点,获取该像素点的像素值以及该像素点对应的邻域像素点的像素值,对该像素点的像素值和邻域像素点的像素值进行加权求和,并将加权求和结果作为该像素点的最终像素值;
基于每个像素点的最终像素值,更新所述初始表格图像。
8.一种表格类图像的矫正装置,其特征在于,所述装置包括:
图像获取模块,用于获取待矫正的初始表格图像;
角度矫正模块,用于检测所述初始表格图像中包含的至少一条第一直线,依据所述第一直线的直线倾斜角度确定所述初始表格图像的图像倾斜角度,并基于所述初始表格图像的图像倾斜角度对所述初始表格图像进行角度矫正获得第一中间图像;
朝向矫正模块,用于通过朝向分类模型对所述第一中间图像进行分类,并依据所述第一中间图像的朝向对所述第一中间图像进行朝向矫正,获得矫正后的目标图像。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310466161.9A CN116524508A (zh) | 2023-04-19 | 2023-04-19 | 表格类图像的矫正方法及装置、存储介质、计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310466161.9A CN116524508A (zh) | 2023-04-19 | 2023-04-19 | 表格类图像的矫正方法及装置、存储介质、计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524508A true CN116524508A (zh) | 2023-08-01 |
Family
ID=87402464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310466161.9A Pending CN116524508A (zh) | 2023-04-19 | 2023-04-19 | 表格类图像的矫正方法及装置、存储介质、计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524508A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117877038A (zh) * | 2024-03-12 | 2024-04-12 | 金现代信息产业股份有限公司 | 基于文字检测的文档图像纠偏方法、系统、设备及介质 |
-
2023
- 2023-04-19 CN CN202310466161.9A patent/CN116524508A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117877038A (zh) * | 2024-03-12 | 2024-04-12 | 金现代信息产业股份有限公司 | 基于文字检测的文档图像纠偏方法、系统、设备及介质 |
CN117877038B (zh) * | 2024-03-12 | 2024-06-04 | 金现代信息产业股份有限公司 | 基于文字检测的文档图像纠偏方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020232872A1 (zh) | 表格识别方法、装置、计算机设备和存储介质 | |
CN104143094B (zh) | 一种无需答题卡的试卷自动阅卷处理方法及系统 | |
RU2659745C1 (ru) | Реконструкция документа из серии изображений документа | |
CN109118473B (zh) | 基于神经网络的角点检测方法、存储介质与图像处理系统 | |
US20190294921A1 (en) | Field identification in an image using artificial intelligence | |
CN110569878A (zh) | 一种基于卷积神经网络的照片背景相似度聚类方法及计算机 | |
CN111680690B (zh) | 一种文字识别方法及装置 | |
CN107945111B (zh) | 一种基于surf特征提取结合cs-lbp描述符的图像拼接方法 | |
CN110188747A (zh) | 一种文本图像的倾斜校正方法、装置以及图像处理设备 | |
CN108846385B (zh) | 基于卷积-反卷积神经网络的图像识别、校正方法和装置 | |
CN109919037B (zh) | 一种文本定位方法及装置、文本识别方法及装置 | |
CN111738249B (zh) | 图像检测方法、装置、电子设备及存储介质 | |
CN111369523B (zh) | 显微图像中细胞堆叠的检测方法、系统、设备及介质 | |
Li et al. | Automatic comic page segmentation based on polygon detection | |
CN113392856B (zh) | 图像伪造检测装置和方法 | |
CN112686258A (zh) | 体检报告信息结构化方法、装置、可读存储介质和终端 | |
CN111539957A (zh) | 一种用于目标检测的图像样本生成方法、系统及检测方法 | |
Zhang et al. | Detection of regions of interest in a high-spatial-resolution remote sensing image based on an adaptive spatial subsampling visual attention model | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN116524508A (zh) | 表格类图像的矫正方法及装置、存储介质、计算机设备 | |
CN113111880A (zh) | 证件图像校正方法、装置、电子设备及存储介质 | |
Sakurai et al. | Restoring aspect ratio distortion of natural images with convolutional neural network | |
Dey | Image Processing Masterclass with Python: 50+ Solutions and Techniques Solving Complex Digital Image Processing Challenges Using Numpy, Scipy, Pytorch and Keras (English Edition) | |
US11893784B2 (en) | Assessment of image quality for optical character recognition using machine learning | |
CN115456888A (zh) | 电子化美术考试作品的校正方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |