CN113780330A - 图像校正方法及装置、计算机存储介质、电子设备 - Google Patents
图像校正方法及装置、计算机存储介质、电子设备 Download PDFInfo
- Publication number
- CN113780330A CN113780330A CN202110395349.XA CN202110395349A CN113780330A CN 113780330 A CN113780330 A CN 113780330A CN 202110395349 A CN202110395349 A CN 202110395349A CN 113780330 A CN113780330 A CN 113780330A
- Authority
- CN
- China
- Prior art keywords
- image
- processed
- file
- correction
- inclination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000003702 image correction Methods 0.000 title claims abstract description 34
- 238000012937 correction Methods 0.000 claims abstract description 51
- 238000001514 detection method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000010801 machine learning Methods 0.000 claims abstract description 22
- 238000009826 distribution Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 13
- 238000003708 edge detection Methods 0.000 claims description 10
- 238000002156 mixing Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 239000003086 colorant Substances 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 7
- 239000000463 material Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000012550 audit Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- 235000002566 Capsicum Nutrition 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 235000020061 kirsch Nutrition 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/60—Rotation of whole images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及图像处理技术领域,提供了一种图像校正方法、图像校正装置、计算机存储介质、电子设备,其中,图像校正方法包括:对初始样本集进行数据增强以得到扩充样本集;根据扩充样本集训练预设机器学习模型,得到一分类预测模型;分类预测模型用于对待处理文件图像进行倾斜检测;根据分类预测模型对待处理文件图像进行倾斜检测,得到待处理文件图像的倾斜角度范围;若倾斜角度范围与目标角度范围不一致,则对待处理文件图像进行倾斜校正。本公开能够自动检测图像的倾斜角度并进行倾斜校正,解决了现有技术中需要人工审核并多次反复重新上传文件图像的技术问题,简化图像上传流程,提高图像审核效率。
Description
技术领域
本公开涉及图像处理技术领域,特别涉及一种图像校正方法、图像校正装置、计算机存储介质及电子设备。
背景技术
随着多媒体技术的不断发展,数码相机,高清拍照手机等多媒体设备己经在人们的生活中占据了越来越重要的地位。通过采用图像处理技术,可以将数码设备采集到的文字、图片等信息转化成其他信息形势输出,例如转化成音频输出以解决视障患者的视力需求。但是,由于输入设备或某些其他因素不可避免地使得采集到的文本图像或多或少会出现某种程度的倾斜。因此,倾斜图像校正是当前文本图像研究领域中十分重要的课题。
目前,一般是通过人工对商家上传的图片进行审核,然而,人工审核需要花费大量的人力物力,成本较高,并且无法满足业务需求的时间。并且,若在审核过程中发现图像是倾斜的,则需要商家重新上传,因此,该流程需要耗费大量的时间,严重影响商家入驻进程。
鉴于此,本领域亟需开发一种新的图像校正方法及装置。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开的目的在于提供一种图像校正方法、图像校正装置、计算机存储介质及电子设备,进而至少在一定程度上克服了现有技术中无法对倾斜图像进行自动化校正的缺陷。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种图像校正方法,包括:对初始样本集进行数据增强以得到扩充样本集;根据所述扩充样本集训练预设机器学习模型,得到一分类预测模型;所述分类预测模型用于对待处理文件图像进行倾斜检测;根据所述分类预测模型对待处理文件图像进行倾斜检测,得到所述待处理文件图像的倾斜角度范围;若所述倾斜角度范围与目标角度范围不一致,则对所述待处理文件图像进行倾斜校正。
在本公开的示例性实施例中,在对初始样本集进行数据增强以得到扩充样本集之前,所述方法还包括:采集原始文件图像并获取所述原始文件图像对应的标签;对所述原始文件图像进行旋转处理,得到旋转图像;根据所述原始文件图像及其对应的标签、所述旋转图像及其对应的标签,确定所述初始样本集。
在本公开的示例性实施例中,所述对所述原始文件图像进行旋转处理,得到旋转图像,包括:将圆周以预设间隔划分为N个角度范围;N为大于1的整数;分别从每个角度范围中随机选取一角度值;根据选取出来的N个角度值对所述原始文件图像进行旋转处理,得到N张旋转图像。
在本公开的示例性实施例中,所述旋转图像对应的标签通过以下方式确定:根据所述角度值所属的角度范围,确定所述旋转图像对应的标签。
在本公开的示例性实施例中,在得到N张旋转图像之后,所述方法还包括:检测所述旋转图像是否超出图像边框;若是,则根据所述原始文件图像的尺寸以及所述选取出来的角度值,对所述图像边框进行尺寸校正。
在本公开的示例性实施例中,在对所述图像边框进行尺寸校正之后,所述方法还包括:对所述图像边框中的空白区域进行颜色填充;从所述颜色填充之后的图像中抠图得到所述旋转图像;从预先存储的背景图像集中随机选取一背景图像,并对所述背景图像添加随机噪声;将所述旋转图像粘贴到所述添加随机噪声之后的背景图像上。
在本公开的示例性实施例中,所述对初始样本集进行数据增强以得到扩充样本集,包括:将每张原始文件图像对应的N张旋转图像作为基础图像集,并对所述基础图像集中的图像序号进行随机打乱,得到目标图像集;从所述基础图像集中随机选取第一图像,并从第一图像上截取第一子图像;从所述目标图像集中随机选取第二图像,并从所述第二图像上截取第二子图像;所述第二图像与所述第一图像的序号相同;对所述第一子图像与所述第二子图像进行图像混合,得到混合图像;根据所述第一子图像的标签与所述第二子图像的标签,确定所述混合图像的标签;根据所述混合图像及其对应的标签,得到所述扩充样本集。
在本公开的示例性实施例中,所述对所述第一子图像与所述第二子图像进行图像混合,包括:基于贝塔分布从预设数值区间中随机采样,得到采样值;基于所述采样值,对所述第一子图像与所述第二子图像进行图像混合。
在本公开的示例性实施例中,所述若所述倾斜角度范围与目标角度范围不一致,则对所述待处理文件图像进行倾斜校正,包括:获取所述倾斜角度范围的边界值;所述边界值包括上限值和下限值;根据所述上限值和所述下限值的平均值,对所述待处理文件图像进行倾斜校正。
在本公开的示例性实施例中,所述若所述倾斜角度范围与目标角度范围不一致,则对所述待处理文件图像进行倾斜校正,还包括:将所述待处理文件图像转换为灰度图;对所述灰度图进行高斯模糊处理,得到模糊图像;对所述模糊图像进行边缘检测,得到边缘图像;基于极坐标空间变换的霍夫变换方法对所述边缘图像进行直线检测,得到特征直线;获取各所述特征直线与水平线的夹角值,选取夹角值位于所述倾斜角度范围之内的目标直线;根据所述目标直线对应的夹角值的平均值,对所述待处理文件图像进行倾斜校正。
根据本公开的第二方面,提供一种图像校正装置,包括:数据增强模块,用于对初始样本集进行数据增强以得到扩充样本集;模型训练模块,用于根据所述扩充样本集训练预设机器学习模型,得到一分类预测模型;所述分类预测模型用于对待处理文件图像进行倾斜检测;分类预测模型,用于根据所述分类预测模型对待处理文件图像进行倾斜检测,得到所述待处理文件图像的倾斜角度范围;倾斜校正模块,用于若所述倾斜角度范围与目标角度范围不一致,则对所述待处理文件图像进行倾斜校正。
根据本公开的第三方面,提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的图像校正方法。
根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面所述的图像校正方法。
由上述技术方案可知,本公开示例性实施例中的图像校正方法、图像校正装置、计算机存储介质及电子设备至少具备以下优点和积极效果:
在本公开的一些实施例所提供的技术方案中,一方面,对初始样本集进行数据增强以得到扩充样本集,能够解决因样本图像处于保密状态无法通过互联网获得导致数据量较少的技术问题,丰富了训练集中的图像数量,从而能够保证足够比例的样本,保证后续模型的准确度。进一步的,根据扩充样本集训练预设机器学习模型,得到一分类预测模型,并根据分类预测模型对待处理文件图像进行倾斜检测,得到待处理文件图像的倾斜角度范围,能够自动检测上传图像的倾斜角度,解决现有技术中需要人工审核所导致的人力物力成本较高的技术问题,降低审核成本。另一方面,若倾斜角度范围与目标角度范围不一致,则对待处理文件图像进行倾斜校正,能够提高简化商家入驻平台时的操作流程,避免因文件倾斜导致审核失败时需要商家多次上传文件图像所导致的效率较低、影响入驻进程的技术问题,降低人力物力成本,还能够解决因文件倾斜程度过大所导致的无法辨识、影响审核进度的技术问题,提高文件审核效率,保证后续文本识别的正确率。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本示例性实施方式中图像校正方法的流程示意图;
图2示出本示例性实施方式中确定初始样本集的流程示意图;
图3A-3B示出本示例性实施方式中采集到的原始文件图像的示意图;
图4示出本示例性实施方式中对原始文件图像进行旋转处理,得到旋转图像的流程示意图;
图5示出本示例性实施方式中根据原始文件图像的尺寸以及选取出来的角度值,对图像边框进行尺寸校正的示意图;
图6示出本示例性实施方式中对尺寸校正之后的图像进行处理的流程示意图;
图7示出本示例性实施方式中进行颜色填充之后的图像的示意图;
图8示出本示例性实施方式中将旋转图像粘贴到去噪处理之后的背景图像上得到的结果图像的示意图;
图9示出本示例性实施方式中对初始样本集进行数据增强以得到扩充样本集的流程示意图;
图10示出本示例性实施方式中混合图像的示意图;
图11A示出本示例性实施方式中ResneSt模型的架构示意图;
图11B示出本示例性实施方式中ResneSt模型的Split-Attention模块的架构示意图;
图12示出本示例性实施方式中若倾斜角度范围与目标角度范围不一致,则对待处理文件图像进行倾斜校正的流程示意图;
图13示出本示例性实施方式中图像校正方法的整体流程示意图;
图14示出本公开示例性实施例中图像校正装置的结构示意图;
图15示出本公开示例性实施例中电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
现如今,互联网购物已经成为必不可少的一种生活方式。这些离不开成功的电商平台和大批的供货商家。电商平台是一个商家数量、用户数量、商品数量、交易量都非常巨大的平台。用户想要找到大量的好产品离不开大量的商家入驻平台,这就需要对商家入驻上传的文件图像进行快速的审核。而由于商家有很多不熟悉电脑和拍摄操作,或者因为操作失误,导致上传的文件照片出现过度倾斜、倒放、侧放等情况,上传的文件图像无法识别,严重影响商家入驻的进程。
目前,在对商家上传的图像进行识别时存在以下难点:
第一,数据少。真实的商家文件图像有一定的保密性。无法通过互联网获得,所以得到的数据数量通常比较少。同时,要检测的文件类型却非常多,现有的是31种,需求的数据量大。这就构成了一对矛盾,增大了识别的难度;
第二,文件种类多,文件内容差异大,文件背景变化大。文件类型包含营业执照、授权书、委托书、产品清单等30多种类型。图像的尺寸差异也很大。有的图像中有内容的部分占图像的很小一部分。另外,因为商家在拍摄文件或证件图像时,因为操作带来的噪声和影响也特别大,例如反光、色差、光线太暗等等,有的商家拍摄的文件图像只有中间的文字部分。这些影响因素大大增加了项目的难度;
第三,没有标注数据,且倾斜数据的差异性很大。图像的倾斜角度可能是0~360度的任何一种角度,现实中缺乏这些数据。另外商家拍摄图像时会出现无限多种图像背景,这些背景很容易造成模型的学习偏差。而且带有这些噪声的数据也是很少的,也没有标注。
第四,文件图像内容复杂,无法使用霍夫变换等传统方法和文本识别方法。在实际工作中,有些类似场景可以使用图像处理的一些方法来识别图像中主体的倾斜角度。例如,使用霍夫变换检测图像中的直线,然后通过这些直线来判断文件的倾斜角度。然而,图像的宽高比变化范围非常大,有的宽高比是2:1,甚至是3:1,有的是1:3,有的照片因为拍摄原因图像内没有直线,也看不到文件的边缘,即使图像中有边框和直线,折线直线长短不一,有纵向也有横向,有的图像中是横向的直线比较长,有的图像中是纵向的直线比较长,有的直线是表格中的直线,有的是文本中填空用的直线,因而,传统方法无法识别文件图像倾斜角度。另外,深度识别方法虽然能够找到文字所在的文本框,但是对与倒过来的文本,无法确定图像是否正位,而且计算量较大,计算速度慢,同时需要大量的标注数据,且对于深度识别算法,需要将图像中的所有文字部分都标注出来,需要的工作量非常大,因而,深度识别方法也无法识别文件图像倾斜角度。
在本公开的实施例中,首先提供了一种图像校正方法,至少在一定程度上克服现有技术中无法自动对倾斜的文件图像进行校正的缺陷。
图1示出本示例性实施方式中图像校正方法的流程示意图,该图像校正方法的执行主体可以是对图像进行校正的服务器。
参考图1,根据本公开的一个实施例的图像校正方法包括以下步骤:
步骤S110,对初始样本集进行数据增强以得到扩充样本集;
步骤S120,根据扩充样本集训练预设机器学习模型,得到一分类预测模型;分类预测模型用于对待处理文件图像进行倾斜检测;
步骤S130,根据分类预测模型对待处理文件图像进行倾斜检测,得到待处理文件图像的倾斜角度范围;
步骤S140,若倾斜角度范围与目标角度范围不一致,则对待处理文件图像进行倾斜校正。
在图1所示实施例所提供的技术方案中,一方面,对初始样本集进行数据增强以得到扩充样本集,能够解决因样本图像处于保密状态无法通过互联网获得导致数据量较少的技术问题,丰富了训练集中的图像数量,从而能够保证足够比例的样本,保证后续模型的准确度。进一步的,根据扩充样本集训练预设机器学习模型,得到一分类预测模型,并根据分类预测模型对待处理文件图像进行倾斜检测,得到待处理文件图像的倾斜角度范围,能够自动检测上传图像的倾斜角度,解决现有技术中需要人工审核所导致的人力物力成本较高的技术问题,降低审核成本。另一方面,若倾斜角度范围与目标角度范围不一致,则对待处理文件图像进行倾斜校正,能够提高简化商家入驻平台时的操作流程,避免因文件倾斜导致审核失败时需要商家多次上传文件图像所导致的效率较低、影响入驻进程的技术问题,降低人力物力成本,还能够解决因文件倾斜程度过大所导致的无法辨识、影响审核进度的技术问题,提高文件审核效率,保证后续文本识别的正确率。
以下对图1中的各个步骤的具体实现过程进行详细阐述:
需要说明的是,本公开中的方法还可以用于以下应用场景中,比如,提高OCR(Optical Character Recognition)识别率从而提高文档自动化处理效率,车牌号码自动识别与交通监视,手写体自动识别,名片自动归类等,可以根据实际情况自行设定,均属于本公开的保护范围。
本公开中,可以先确定初始样本集,具体的,可以参考图2,图2示出本公开实施例中确定初始样本集的流程示意图,包含步骤S201-步骤S203,以下结合图2进行解释:
在步骤S201中,采集原始文件图像并获取原始文件图像对应的标签。
本步骤中,可以采集原始文件图像,并获取原始文件图像对应的标签,标签指示了原始文件图像的倾斜程度。其中,参考图3A-3B,原始文件图像可以是相关商家已经上传至互联网平台的处于正位(即倾斜角度为0,或,倾斜角度处于业务可承受范围内,即倾斜角度较小)的文件图像。示例性的,当原始文件图像的倾斜角度处于(-14.9,14.9)角度范围内时,可以确定原始文件图像对应的标签为0。
在步骤S202中,对原始文件图像进行旋转处理,得到旋转图像。
本步骤中,可以参考图4,图4示出对原始文件图像进行旋转处理,得到旋转图像的流程示意图,包含步骤S401-步骤S403,以下结合图4对步骤S202进行解释:
在步骤S401中,将圆周以预设间隔划分为N个角度范围。
本步骤中,可以将圆周(360度)划分为N个角度范围,N为大于1的整数,以N取12为例进行说明,则可以将圆周做12等分,得到12个角度范围,每个角度范围为30度,例如:(-15,15)、(15,45)、(45,75)等。每个角度范围对应一个标签值,即12个角度范围对应12个标签(即0-11),示例性的,(-15,15)对应的标签值为0,(15,45)对应的标签值为1……,从而,总共存在0-11共12个标签。
需要说明的是,本公开中可以引入一个边界距离margin,margin可以自行设定一个比较小的值(例如:0-2度之间任一数值,该数值越小,对处理结果的影响就越小),目的是为了减少边界位置的影响,减小训练难度。示例性的,margin可以设置为0.1。
进而,可以将每个角度范围的边界值向内收缩0.1,从而,(-15,15)变成(-14.9,14.9),(15,45)变为(15.1,44.9)。这样就避免了图像角度等于或者过于接近区间边界值造成无法判断属于哪个角度范围的情况,例如:如果图像的倾斜角度恰好等于15度,则无法判定它属于(-15,15)还是(15,45)。
在步骤S402中,分别从每个角度范围中随机选取一角度值。
本步骤中,在划分产生上述N个角度范围之后,可以从每个角度范围中随机选取一个角度值。举例而言,可以从上述12个角度范围中选取12个角度值。
在步骤S403中,根据选取出来的N个角度值,对采集到的原始文件图像进行旋转处理,得到N张旋转图像。
本步骤中,可以根据选取出来的N个角度值对上述原始文件图像进行旋转,得到N张旋转图像。举例而言,可以根据选取出来的12个角度值,对每张原始文件图像进行旋转处理,得到12张旋转图像。从而,每个角度值所属的角度范围便确定了旋转图像对应的标签(12个角度值属于12个角度范围,12个角度范围对应标签0-11)。则示例性的,当得到的旋转图像为图像A-图像L时,则可以确定图像A对应的标签为0,图像B对应的标签为1……图像L对应的标签为11。
从而,本公开能够解决训练样本缺少标注标签的技术问题,保证机器学习模型的学习准确性。以及,能够解决现有技术中采用深度识别模型检测文件图像的倾斜角度所导致的无法识别出旋转180度的图像的技术问题。
在得到N张旋转图像之后,可以检测旋转图像是否超出图像边框。若是,则根据原始文件图像的尺寸以及选取出来的角度值,对图像边框进行尺寸校正。
参照图5,当原始文件图像XYZW的尺寸为w*h(长为w,宽为h),原图像边框的尺寸也为w*h,则当选取的角度值为θ时,则调整之后的图像边框ABCD的长为w cosθ+h sinθ,宽为wsinθ+h cosθ,从而,能够避免因为旋转图像超出图像边框所导致的图像部分丢失的情况,保证原始文件图像的完整性。
在对图像边框进行尺寸校正之后,图像边框内部存在部分空白区域,从而,可以参考图6,图6示出本公开实施例中对尺寸校正之后的图像进行处理的流程示意图,包含步骤S601-步骤S604,以下结合图6对具体的实施方式进行解释:
在步骤S601中,对图像边框中的空白区域进行颜色填充。
本步骤中,在对图像边框进行尺寸调整之后,可以对图5中的空白区域进行颜色填充,示例性的,可以用黑色对空白区域(XCY、YBZ、ZAW、WDX)进行颜色填充,颜色填充之后得到的图像如图7所示。
在步骤S602中,从颜色填充之后的图像中抠图得到旋转图像。
本步骤中,可以基于阈值的方式从颜色填充之后的图像中抠图得到上述旋转图像。
在步骤S603中,从预先存储的背景图像集中随机选取一背景图像,并对背景图像添加随机噪声。
本步骤中,可以为上述背景图像添加高斯噪声、椒盐噪声等,以弥补背景图像不够多所导致的问题,具体的噪声类型可以根据实际情况自行设定,属于本公开的保护范围。
在步骤S604中,将旋转图像粘贴到添加随机噪声之后的背景图像上。
本步骤中,可以将上述抠图得到的旋转图像粘贴到上述添加随机噪声之后的背景图像上,得到结果图像(结果图像对应的标签与旋转图像对应的标签相同)。示例性的,经过该处理步骤之后得到的结果图像如图8所示。从而,本公开能够解决现有技术中直接旋转得到的图像与真实图像不符导致的问题,直接旋转图像则空白部分会自动由黑色或者白色填充,这些特征并非真实的特征,很容易被模型拟合,导致模型泛化能力急剧下降。
继续参考图2,在步骤S203中,根据原始文件图像及其对应的标签、旋转图像及其对应的标签,确定初始样本集。
本步骤中,可以将上述原始文件图像及其对应的标签、旋转图像及其对应的标签,确定为上述初始样本集。或者,还可以将上述原始文件图像及其对应的标签、步骤S604中得到的图像及其对应的标签,确定为上述初始样本集。
在步骤S110中,对初始样本集进行数据增强以得到扩充样本集。
本步骤中,可以对初始样本集进行数据增强以得到扩充样本集。其中,数据增强的方式有很多,比如对图像进行几何变换(如旋转、随机裁剪、变形、缩放等)、颜色变换(包括噪声、模糊、颜色变换、随机擦除等)等。从而,本公开能够解决因样本图像处于保密状态无法通过互联网获得导致数据量较少的技术问题,丰富了训练集中的图像数量,从而能够保证足够比例的样本,保证后续模型的准确度。
示例性的,可以参考图9,图9示出本示例性实施方式中对初始样本集进行数据增强以得到扩充样本集的流程示意图,包含步骤S901-S905,以下结合图9对步骤S110进行解释:
在步骤S901中,将每张原始文件图像对应的N张旋转图像作为基础图像集,并对基础图像集中的图像序号进行随机打乱,得到目标图像集。
本步骤中,举例而言,假设基础图像集中包含12张图像,其图像序号分别为1-12,可以将上述12张图像的顺序打乱之后,重新进行编号,得到目标图像集。
在步骤S902中,从基础图像集中随机选取第一图像,并从第一图像上截取第一子图像。
本步骤中,可以从基础图像集中随机选取第一图像(例如:选取序号为1的图像),进而,可以从该第一图像上截取第一子图像。具体的,可以从(1)中随机采样得到一面积占比值m,从中随机采样得到一长宽比值n,进而,从第一图像上随机裁剪面积占总面积的比值为m,长宽比为n的第一子图像。
在步骤S903中,从目标图像集中随机选取第二图像,并从第二图像上截取第二子图像;第二图像与第一图像的序号相同。
本步骤中,可以从目标图像集中选取第二图像(与上述第一图像的序号相同,例如:1),进而,可以从该第二图像上截图第二子图像。具体的,可以从(1)中随机采样得到一面积占比值u,从中随机采样得到一长宽比值v,进而,从第二图像上随机裁剪面积占总面积的比值为u,长宽比为v的第二子图像。
在步骤S904中,对第一子图像与第二子图像进行图像混合,得到混合图像。
本步骤中,可以基于贝塔分布从预设数值区间(例如:(0,1))中随机采样,得到采样值λ,基于上述采样值,对第一子图像与第二子图像进行图像混合(MixUp),示例性的,得到的混合图像如图10所示。
其中,贝塔分布(Beta Distribution)是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布也称β分布,是指一组定义在(0,1)区间的连续概率分布。
MixUp是一种运用在计算机视觉中的对图像进行混类增强的算法,它可以将不同类之间的图像进行混合,从而扩充训练数据集。
在步骤S905中,根据混合图像及其对应的标签,得到扩充样本集。
本步骤中,可以将得到的混合图像及其对应的标签确定为扩充样本集。从而,本公开能够在样本有限的情况下,进行数据扩充,解决现有技术中缺少训练样本的技术问题,丰富样本数量,保证后续模型的训练精度。
需要说明的是,在经过步骤S901-S903中的处理得到上述第一子图像与第二子图像之后,还可以对上述第一子图像进行缩放处理,例如,缩放到256*256像素,得到第一缩放图像(第一缩放图像的标签与上述第一子图像相同)。以及,对第二子图像进行缩放处理,例如,缩放到256*256像素,得到第二缩放图像(第二缩放图像的标签与上述第二子图像的标签相同)。进而,可以参考上述步骤S904的相关解释,对第一缩放图像与第二缩放图像进行图像混合,得到混合图像,进而,根据第一缩放图像的标签与第二缩放图像的标签,确定混合图像的标签,并根据混合图像及其对应的标签,得到上述扩充样本集。
继续参考图1,在步骤S120中,根据扩充样本集训练预设机器学习模型,得到一分类预测模型。
本步骤中,在得到上述扩充样本集之后,可以基于TensorFlow2.0(是基于DistBelief进行研发的第二代人工智能学习系统,可被用于语音识别或图像识别等多项机器学习和深度学习领域)机器学习平台,根据上述扩充样本集训练预设机器学习模型,得到一分类预测模型。具体的,可以将上述扩充样本集输入至预设机器学习模型中,进而,可以对机器学习模型的损失值进行调整,以训练上述机器学习模型,使上述机器学习模型的损失函数趋于收敛,以得到一分类预测模型。示例性的,可以基于以下公式2对模型的损失值进行修正:
loss=λ×floss(y_a,y_pred)+(1-λ)×floss(y_b,y_pred) 公式2
其中,loss表示修正之后的损失值,λ表示上述采样值,floss表示计算损失值的函数,y_a表示基础图像集的标签,y_pred指的是模型预测得到的标签,y_b表示目标图像集的标签。
示例性的,上述预设机器学习模型可以是ResneSt模型。ResneSt模型与之前的Resnet等类似结构的网络结构相比具有更高的精度,与Efficientnet系列网络结构相比,它具有更高精度和更高的计算效率。
本公开使用了自监督方法。所谓自监督,是相对于有监督学习、无监督学习、半监督学习来说的,常见的数据通过人工标注产生数据标签,然后模型通过训练来拟合这些标签,这也就是模型的训练过程。但是当没有标注数据,且标注数据的工作量非常大的时候,就需要使用算法来生成标签,并制定模型的、自定义的训练任务,通常称为前置任务(pretext task),完成该训练任务之后,再做针对业务场景的训练任务,该任务被称为下游任务(downstream task)。通过前置任务的训练可以使模型学到图像的一些基本模态,例如图像的颜色、线条、形状等。然后再进行针对业务场景需求的第二阶段的任务。使用这种方法可以在缺少标注数据的情况下,判断图像的倾斜角度。
参考图11A,图11A示出本公开实施例中ResneSt模型的架构示意图,以下结合图11A进行解释说明:
step1,将输入的所有feature map(特征图)分成不同的cardinality group(基数组);
step2,将每个cardinality group再分成不同的split;
step3,用split-attention(注意力分割模块)计算每个split的权重,再融合后作为每个cardinality group的输出;
step4,将所有的cardinality group的feature map在channel维度拼接到一起;
step5,再执行一次conv(改变channel个数)用skip connection(跳跃连接)将ResNeSt Block的原始输入特征融合进来。
以下结合图11B对上述step3中的Split-Attention模块的架构示意图进行解释说明:
step1,将该cardinality group的输入分成r个split,每个split经过一些变换后,进入到split-attention中,先用element-wise summation(数组元素依次求和)的方式将特征图融合到一起(输出维度:H×W timesC),该步骤可用以下公式3表示:
step2,将融合后的feature map指向global pooling(全局池化),即将图像空间维度压缩(输出维度:C),该步骤可用以下公式4表示:
step3,结合softmax(归一化层)计算出每个split的权重,图中的dense c实现方式是用两个全连接层;
step4,将每个split-attention模块输入的每个split的feature map和计算出来的每个split的权重相乘,得到一个cardinality group的加权融合(输出维度:H×WtimesC),该步骤可用以下公式5表示:
由此可见,split-attention其实就是给每一组split的feature map计算其对应的权重,然后再根据权重进行融合。
继续参考图1,在步骤S130中,根据分类预测模型对待处理文件图像进行倾斜检测,得到待处理文件图像的倾斜角度范围。
本步骤中,在训练得到上述分类预测模型之后,可以将待处理文件图像输入上述分类预测模型中,以使上述分类预测模型对待处理文件图像进行倾斜检测,进而,根据上述分类预测模型的输出,得到上述待处理文件图像的倾斜角度范围。示例性的,当分类预测模型的输出为0时,则可以确定待处理文件图像的倾斜角度范围为(-14.9,14.9),当分类预测模型的输出为1时,则可以确定待处理文件图像的倾斜角度范围为(15.1,44.9)。
在得到上述倾斜角度范围之后,若倾斜角度范围与目标角度范围一致,则确定待处理文件图像为非倾斜图像,举例而言,当模型输出的分类预测结果为0(即倾斜角度范围为(-14.9,14.9)时),而预先设置的目标角度范围为(-14.9,14.9)时,则可以确定上述待处理文件图像为非倾斜图像或倾斜角度在业务可承受范围内、不需要进行倾斜校正的图像。
而若倾斜角度范围与目标角度范围不一致,举例而言,模型输出的分类预测结果为1(即倾斜角度范围为(15.1,44.9)时),则可以确定上述待处理文件图像为倾斜图像,并对上述待处理文件图像进行倾斜校正。
具体的,可以获取上述获取倾斜角度范围的边界值(包括上限值和下限值),根据上限值和下限值的平均值,对输入图像待处理文件图像进行倾斜校正。举例而言,当模型输出的分类预测结果为1时,则对应的角度范围为(15.1,44.9),则可以确定出下限值为15.1,下限值为44.9,从而,平均值为进而,可以将待处理文件图像旋转-30度,以对上述待处理文件图像进行倾斜校正。
示例性的,还可以参考图12,图12示出若倾斜角度范围与目标角度范围不一致,则对待处理文件图像进行倾斜校正的流程示意图,包含步骤S1201-S1206,以下结合图12对具体的实施方式进行解释:
在步骤S1201中,将待处理文件图像转换为灰度图。
本步骤中,可以将上述待处理文件图像转换为灰度图,灰度图即RGB三通道数值相等的图像。示例性的,可以基于以下几种算法将彩色图像转换为灰度图:
①浮点法:Gray=R*0.3+G*0.59+B*0.11;
②整数法:Gray=(R*30+G*59+B*11)/100;
③移位法:Gray=(R*77+G*151+B*28)>>8;
④平均值法:Gray=(R+G+B)/3;
⑤仅取绿色:Gray=G;
在步骤S1202中,对灰度图进行高斯模糊处理,得到模糊图像。
本步骤中,可以对上述灰度图进行高斯模糊处理,得到模糊图像。从数学的角度来看,图像的高斯模糊过程就是图像与正态分布做卷积。由于正态分布又叫作高斯分布,所以这项技术就叫作高斯模糊。图像与圆形方框模糊做卷积将会生成更加精确的焦外成像效果。
在步骤S1203中,对模糊图像进行边缘检测,得到边缘图像。
本步骤中,可以采用Canny边缘检测算法对上述模糊图像进行边缘检测,得到边缘图像。示例性的,还可以采用Sobel边缘检测算法、Laplacian算子(二阶微分算子)、Roberts算子、Prewitt算子、Kirsch算子等对上述模糊图像进行边缘检测,可以根据实际情况自行设定,属于本公开的保护范围。
图像边缘检测大幅度地减少了数据量,并且剔除了不相关的信息,保留了图像重要的结构属性。
在步骤S1204中,基于极坐标空间变换的霍夫变换方法对边缘图像进行直线检测,得到特征直线。
本步骤中,可以基于极坐标空间变换的霍夫变换方法对上述边缘图像进行直线检测,得到特征直线。从而,能够解决现有技术中图像内容复杂(宽高比变化范围非常大、图像内没有直线也没有边缘、图像中的直线有长有短、有横向有纵向)所导致的无法使用霍夫变化检测倾斜角度的技术问题。
在步骤S1205中,获取各特征直线与水平线的夹角值,选取夹角值位于倾斜角度范围之内的目标直线。
本步骤中,在得到上述特征直线之后,可以获取各特征直线与水平线的夹角值,进而,可以确定夹角值位于上述模型输出的倾斜角度范围内的目标直线。
需要说明的是,通过上述步骤得到的夹角为极坐标下的夹角值,从而,可以先将上述倾斜角度范围转换为极坐标系下的角度范围,进而,确定夹角值位于上述极坐标系下的角度范围内的目标直线。
在步骤S1206中,根据目标直线对应的夹角值的平均值,对待处理文件图像进行倾斜校正。
本步骤中,可以计算上述目标直线对应的夹角值的平均值,进而,根据上述平均值对待处理文件图像进行倾斜校正。举例而言,当上述平均值为时,则可以将上述待处理文件图像旋转度,以实现对待处理文件图像进行倾斜校正。
从而,本公开不仅能够自动检测文件图像的倾斜角度,还能够根据检测结果对倾斜图像进行校正,从而能够提高简化商家入驻平台时的操作流程,避免因文件倾斜导致审核失败时需要商家多次上传文件图像所导致的效率较低、影响入驻进程的技术问题,降低人力物力成本。而且能够解决因文件倾斜程度过大所导致的无法辨识、影响审核进度的技术问题,提高文件审核效率,保证后续文本识别的正确率。
参考图13,图13示出本公开实施例中图像校正方法的整体流程图,包含步骤S1301-S1305,以下结合图13进行解释:
在步骤S1301中,获取原始文件图像及其对应的旋转图像;
在步骤S1302中,数据增强模块;
在步骤S1303中,训练ResneSt模型;
在步骤S1304中,利用训练好的模型识别图像的倾斜角度,并对倾斜图像进行校正处理;
在步骤S1305中,输出图像检测结果。
基于以上技术方案,一方面,本公开能够解决因样本图像处于保密状态无法通过互联网获得导致数据量较少的技术问题,丰富了训练集中的图片数量,从而能够保证足够比例的样本,保证后续模型的准确度。进一步的,本公开还能够解决训练样本缺少标注数据的技术问题,保证机器学习模型的学习准确性。另一方面,本公开通过对图片进行自动检测,解决了现有技术中通过人工检测图片倾斜角度所导致的人力物力成本较高的技术问题,提高了检测效率,以及,通过对检测出来的倾斜图片进行倾斜校正,解决了现有技术中需要联系商家重新上传相关文件所导致的严重影响商家入驻进程的技术问题,加快审核进程。
本公开还提供了一种图像校正装置,图14示出本公开示例性实施例中图像校正装置的结构示意图;如图14所示,图像校正装置1400可以包括数据增强模块1401、模型训练模块1402、分类预测模块1403和倾斜校正模块1404。其中:
数据增强模块1401,用于对初始样本集进行数据增强以得到扩充样本集。
在本公开的示例性实施例中,数据增强模块用于采集原始文件图像并获取原始文件图像对应的标签;对原始文件图像进行旋转处理,得到旋转图像;根据原始文件图像及其对应的标签、旋转图像及其对应的标签,确定初始样本集。
在本公开的示例性实施例中,数据增强模块用于将圆周以预设间隔划分为N个角度范围;N为大于1的整数;分别从每个角度范围中随机选取一角度值;根据选取出来的N个角度值对原始文件图像进行旋转处理,得到N张旋转图像。
在本公开的示例性实施例中,旋转图像对应的标签通过以下方式确定:根据角度值所属的角度范围,确定旋转图像对应的标签。
在本公开的示例性实施例中,在得到N张旋转图像之后,数据增强模块用于检测旋转图像是否超出图像边框;若是,则根据原始文件图像的尺寸以及选取出来的角度值,对图像边框进行尺寸校正。
在本公开的示例性实施例中,在对图像边框进行尺寸校正之后,数据增强模块用于对图像边框中的空白区域进行颜色填充;从颜色填充之后的图像中抠图得到旋转图像;从预先存储的背景图像集中随机选取一背景图像,并对背景图像添加随机噪声;将旋转图像粘贴到添加随机噪声之后的背景图像上。
在本公开的示例性实施例中,数据增强模块用于将每张原始文件图像对应的N张旋转图像作为基础图像集,并对基础图像集中的图像序号进行随机打乱,得到目标图像集;从基础图像集中随机选取第一图像,并从第一图像上截取第一子图像;从目标图像集中随机选取第二图像,并从第二图像上截取第二子图像;第二图像与第一图像的序号相同;对第一子图像与第二子图像进行图像混合,得到混合图像;根据第一子图像的标签与第二子图像的标签,确定混合图像的标签;根据混合图像及其对应的标签,得到扩充样本集。
在本公开的示例性实施例中数据增强模块用于基于贝塔分布从预设数值区间中随机采样,得到采样值;基于采样值,对第一子图像与第二子图像进行图像混合。
模型训练模块1402,用于根据扩充样本集训练预设机器学习模型,得到一分类预测模型;分类预测模型用于对待处理文件图像进行倾斜检测。
分类预测模型1403,用于根据分类预测模型对待处理文件图像进行倾斜检测,得到待处理文件图像的倾斜角度范围。
倾斜校正模块1404,用于若倾斜角度范围与目标角度范围不一致,则对待处理文件图像进行倾斜校正。
在本公开的示例性实施例中,倾斜校正模块用于获取倾斜角度范围的边界值;边界值包括上限值和下限值;根据上限值和下限值的平均值,对待处理文件图像进行倾斜校正。
在本公开的示例性实施例中,倾斜校正模块用于将待处理文件图像转换为灰度图;对灰度图进行高斯模糊处理,得到模糊图像;对模糊图像进行边缘检测,得到边缘图像;基于极坐标空间变换的霍夫变换方法对边缘图像进行直线检测,得到特征直线;获取各特征直线与水平线的夹角值,选取夹角值位于倾斜角度范围之内的目标直线;根据目标直线对应的夹角值的平均值,对待处理文件图像进行倾斜校正。
上述图像校正装置中各模块的具体细节已经在对应的图像校正方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的方法。
此外,在本公开实施例中还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图15来描述根据本公开的这种实施方式的电子设备1500。图15显示的电子设备1500仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图15所示,电子设备1500以通用计算设备的形式表现。电子设备1500的组件可以包括但不限于:上述至少一个处理单元1510、上述至少一个存储单元1520、连接不同系统组件(包括存储单元1520和处理单元1510)的总线1530以及显示单元1540。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1510执行,使得所述处理单元1510执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元1510可以执行如图1中所示的:步骤S110,对初始样本集进行数据增强以得到扩充样本集;步骤S120,根据扩充样本集训练预设机器学习模型,得到一分类预测模型;分类预测模型用于对待处理文件图像进行倾斜检测;步骤S130,根据分类预测模型对待处理文件图像进行倾斜检测,得到待处理文件图像的倾斜角度范围;步骤S140,若倾斜角度范围与目标角度范围不一致,则对待处理文件图像进行倾斜校正。
存储单元1520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)15201和/或高速缓存存储单元15202,还可以进一步包括只读存储单元(ROM)15203。
存储单元1520还可以包括具有一组(至少一个)程序模块15205的程序/实用工具15204,这样的程序模块15205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1500也可以与一个或多个外部设备1600(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1500交互的设备通信,和/或与使得该电子设备1500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1550进行。并且,电子设备1500还可以通过网络适配器1560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1560通过总线1530与电子设备1500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (13)
1.一种图像校正方法,其特征在于,包括:
对初始样本集进行数据增强以得到扩充样本集;
根据所述扩充样本集训练预设机器学习模型,得到一分类预测模型;所述分类预测模型用于对待处理文件图像进行倾斜检测;
根据所述分类预测模型对待处理文件图像进行倾斜检测,得到所述待处理文件图像的倾斜角度范围;
若所述倾斜角度范围与目标角度范围不一致,则对所述待处理文件图像进行倾斜校正。
2.根据权利要求1所述的方法,其特征在于,在对初始样本集进行数据增强以得到扩充样本集之前,所述方法还包括:
采集原始文件图像并获取所述原始文件图像对应的标签;
对所述原始文件图像进行旋转处理,得到旋转图像;
根据所述原始文件图像及其对应的标签、所述旋转图像及其对应的标签,确定所述初始样本集。
3.根据权利要求2所述的方法,其特征在于,所述对所述原始文件图像进行旋转处理,得到旋转图像,包括:
将圆周以预设间隔划分为N个角度范围;N为大于1的整数;
分别从每个角度范围中随机选取一角度值;
根据选取出来的N个角度值对所述原始文件图像进行旋转处理,得到N张旋转图像。
4.根据权利要求3所述的方法,其特征在于,所述旋转图像对应的标签通过以下方式确定:
根据所述角度值所属的角度范围,确定所述旋转图像对应的标签。
5.根据权利要求3所述的方法,其特征在于,在得到N张旋转图像之后,所述方法还包括:
检测所述旋转图像是否超出图像边框;
若是,则根据所述原始文件图像的尺寸以及所述选取出来的角度值,对所述图像边框进行尺寸校正。
6.根据权利要求5所述的方法,其特征在于,在对所述图像边框进行尺寸校正之后,所述方法还包括:
对所述图像边框中的空白区域进行颜色填充;
从所述颜色填充之后的图像中抠图得到所述旋转图像;
从预先存储的背景图像集中随机选取一背景图像,并对所述背景图像添加随机噪声;
将所述旋转图像粘贴到所述添加随机噪声之后的背景图像上。
7.根据权利要求1所述的方法,其特征在于,所述对初始样本集进行数据增强以得到扩充样本集,包括:
将每张原始文件图像对应的N张旋转图像作为基础图像集,并对所述基础图像集中的图像序号进行随机打乱,得到目标图像集;
从所述基础图像集中随机选取第一图像,并从第一图像上截取第一子图像;
从所述目标图像集中随机选取第二图像,并从所述第二图像上截取第二子图像;所述第二图像与所述第一图像的序号相同;
对所述第一子图像与所述第二子图像进行图像混合,得到混合图像;
根据所述第一子图像的标签与所述第二子图像的标签,确定所述混合图像的标签;
根据所述混合图像及其对应的标签,得到所述扩充样本集。
8.根据权利要求7所述的方法,其特征在于,所述对所述第一子图像与所述第二子图像进行图像混合,包括:
基于贝塔分布从预设数值区间中随机采样,得到采样值;
基于所述采样值,对所述第一子图像与所述第二子图像进行图像混合。
9.根据权利要求1至8任意一项所述的方法,其特征在于,所述若所述倾斜角度范围与目标角度范围不一致,则对所述待处理文件图像进行倾斜校正,包括:
获取所述倾斜角度范围的边界值;所述边界值包括上限值和下限值;
根据所述上限值和所述下限值的平均值,对所述待处理文件图像进行倾斜校正。
10.根据权利要求9所述的方法,其特征在于,所述若所述倾斜角度范围与目标角度范围不一致,则对所述待处理文件图像进行倾斜校正,还包括:
将所述待处理文件图像转换为灰度图;
对所述灰度图进行高斯模糊处理,得到模糊图像;
对所述模糊图像进行边缘检测,得到边缘图像;
基于极坐标空间变换的霍夫变换方法对所述边缘图像进行直线检测,得到特征直线;
获取各所述特征直线与水平线的夹角值,选取夹角值位于所述倾斜角度范围之内的目标直线;
根据所述目标直线对应的夹角值的平均值,对所述待处理文件图像进行倾斜校正。
11.一种图像校正装置,其特征在于,包括:
数据增强模块,用于对初始样本集进行数据增强以得到扩充样本集;
模型训练模块,用于根据所述扩充样本集训练预设机器学习模型,得到一分类预测模型;所述分类预测模型用于对待处理文件图像进行倾斜检测;
分类预测模型,用于根据所述分类预测模型对待处理文件图像进行倾斜检测,得到所述待处理文件图像的倾斜角度范围;
倾斜校正模块,用于若所述倾斜角度范围与目标角度范围不一致,则对所述待处理文件图像进行倾斜校正。
12.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~10中任意一项所述的图像校正方法。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~10中任意一项所述的图像校正方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110395349.XA CN113780330A (zh) | 2021-04-13 | 2021-04-13 | 图像校正方法及装置、计算机存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110395349.XA CN113780330A (zh) | 2021-04-13 | 2021-04-13 | 图像校正方法及装置、计算机存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113780330A true CN113780330A (zh) | 2021-12-10 |
Family
ID=78835653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110395349.XA Pending CN113780330A (zh) | 2021-04-13 | 2021-04-13 | 图像校正方法及装置、计算机存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780330A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023173617A1 (zh) * | 2022-03-18 | 2023-09-21 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备及存储介质 |
CN116797493A (zh) * | 2023-08-02 | 2023-09-22 | 北京中科闻歌科技股份有限公司 | 一种图像去噪处理系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005010886A (ja) * | 2003-06-17 | 2005-01-13 | Fuji Xerox Co Ltd | 文書画像傾き検知方法、文書画像傾き補正方法、文書画像傾き検知装置、及び文書画像傾き補正装置 |
CN109460769A (zh) * | 2018-11-16 | 2019-03-12 | 湖南大学 | 一种基于表格字符检测与识别的移动端系统与方法 |
WO2019056346A1 (zh) * | 2017-09-25 | 2019-03-28 | 深圳传音通讯有限公司 | 一种利用膨胀法校正文本图像倾斜的方法及装置 |
CN109583445A (zh) * | 2018-11-26 | 2019-04-05 | 平安科技(深圳)有限公司 | 文字图像校正处理方法、装置、设备及存储介质 |
CN110136154A (zh) * | 2019-05-16 | 2019-08-16 | 西安电子科技大学 | 基于全卷积网络与形态学处理的遥感图像语义分割方法 |
WO2020186914A1 (zh) * | 2019-03-20 | 2020-09-24 | 北京沃东天骏信息技术有限公司 | 行人再识别方法、装置及存储介质 |
CN112131421A (zh) * | 2020-09-23 | 2020-12-25 | 平安科技(深圳)有限公司 | 医学图像分类方法、装置、设备及存储介质 |
CN112434696A (zh) * | 2020-12-11 | 2021-03-02 | 上海眼控科技股份有限公司 | 一种文本方向校正方法、装置、设备及存储介质 |
US20210059796A1 (en) * | 2019-09-04 | 2021-03-04 | Align Technology, Inc. | Automated detection, generation and/or correction of dental features in digital models |
-
2021
- 2021-04-13 CN CN202110395349.XA patent/CN113780330A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005010886A (ja) * | 2003-06-17 | 2005-01-13 | Fuji Xerox Co Ltd | 文書画像傾き検知方法、文書画像傾き補正方法、文書画像傾き検知装置、及び文書画像傾き補正装置 |
WO2019056346A1 (zh) * | 2017-09-25 | 2019-03-28 | 深圳传音通讯有限公司 | 一种利用膨胀法校正文本图像倾斜的方法及装置 |
CN109460769A (zh) * | 2018-11-16 | 2019-03-12 | 湖南大学 | 一种基于表格字符检测与识别的移动端系统与方法 |
CN109583445A (zh) * | 2018-11-26 | 2019-04-05 | 平安科技(深圳)有限公司 | 文字图像校正处理方法、装置、设备及存储介质 |
WO2020186914A1 (zh) * | 2019-03-20 | 2020-09-24 | 北京沃东天骏信息技术有限公司 | 行人再识别方法、装置及存储介质 |
CN110136154A (zh) * | 2019-05-16 | 2019-08-16 | 西安电子科技大学 | 基于全卷积网络与形态学处理的遥感图像语义分割方法 |
US20210059796A1 (en) * | 2019-09-04 | 2021-03-04 | Align Technology, Inc. | Automated detection, generation and/or correction of dental features in digital models |
CN112131421A (zh) * | 2020-09-23 | 2020-12-25 | 平安科技(深圳)有限公司 | 医学图像分类方法、装置、设备及存储介质 |
CN112434696A (zh) * | 2020-12-11 | 2021-03-02 | 上海眼控科技股份有限公司 | 一种文本方向校正方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
DONG XIAO: "A Multi-Table Image Recognition System Based on Deep Learning and Edge Detection", AICS 2019: PROCEEDINGS OF THE 2019 INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND COMPUTER SCIENCE, 12 July 2019 (2019-07-12) * |
姜宇;张子潮;周富强;: "基于OpenCV的车牌识别系统研究", 辽宁师范大学学报(自然科学版), no. 02, 15 June 2011 (2011-06-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023173617A1 (zh) * | 2022-03-18 | 2023-09-21 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备及存储介质 |
CN116797493A (zh) * | 2023-08-02 | 2023-09-22 | 北京中科闻歌科技股份有限公司 | 一种图像去噪处理系统 |
CN116797493B (zh) * | 2023-08-02 | 2024-01-26 | 北京中科闻歌科技股份有限公司 | 一种图像去噪处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112348815B (zh) | 图像处理方法、图像处理装置以及非瞬时性存储介质 | |
CN110163198B (zh) | 一种表格识别重建方法、装置和存储介质 | |
CN110188760B (zh) | 一种图像处理模型训练方法、图像处理方法及电子设备 | |
CN110458918B (zh) | 用于输出信息的方法和装置 | |
US8780131B2 (en) | Systems and methods for text-based personalization of images | |
US8917935B2 (en) | Detecting text using stroke width based text detection | |
AU2006252025B2 (en) | Recognition of parameterised shapes from document images | |
CN110866871A (zh) | 文本图像矫正方法、装置、计算机设备及存储介质 | |
CN108549643B (zh) | 翻译处理方法和装置 | |
CN111369581A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113780330A (zh) | 图像校正方法及装置、计算机存储介质、电子设备 | |
Peng et al. | Fabricating QR codes on 3D objects using self-shadows | |
Spizhevoi et al. | OpenCV 3 Computer Vision with Python Cookbook: Leverage the power of OpenCV 3 and Python to build computer vision applications | |
US20230005108A1 (en) | Method and system for replacing scene text in a video sequence | |
US10175867B2 (en) | User input-based object selection using multiple visual cues | |
US20240331373A1 (en) | Resolving training dataset category ambiguity | |
US11069034B2 (en) | Method and system to enhance quality of digital images | |
CN116071557A (zh) | 一种长尾目标检测方法、计算机可读存储介质及驾驶设备 | |
CN114565768A (zh) | 图像分割方法及装置 | |
CN116848547A (zh) | 图像的处理方法和系统 | |
CN113516697A (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN116391200A (zh) | 缩放不可知水印提取 | |
CN111914850B (zh) | 图片特征提取方法、装置、服务器和介质 | |
CN108776959B (zh) | 图像处理方法、装置及终端设备 | |
US10235786B2 (en) | Context aware clipping mask |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |