CN116485675A - 图像校正方法及装置 - Google Patents

图像校正方法及装置 Download PDF

Info

Publication number
CN116485675A
CN116485675A CN202310457999.1A CN202310457999A CN116485675A CN 116485675 A CN116485675 A CN 116485675A CN 202310457999 A CN202310457999 A CN 202310457999A CN 116485675 A CN116485675 A CN 116485675A
Authority
CN
China
Prior art keywords
image
picture
correction
area
connected component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310457999.1A
Other languages
English (en)
Inventor
梁增龑
李旭
胡旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Feixiang Xingxing Technology Co ltd
Original Assignee
Beijing Feixiang Xingxing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Feixiang Xingxing Technology Co ltd filed Critical Beijing Feixiang Xingxing Technology Co ltd
Priority to CN202310457999.1A priority Critical patent/CN116485675A/zh
Publication of CN116485675A publication Critical patent/CN116485675A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本说明书提供图像校正方法及装置,其中图像校正方法包括:确定初始校正图像中的连通分量区域,其中,初始校正图像为待校正图像经过语义校正获得的图像;对连通分量区域进行字符检测,确定各连通分量区域中的图画区域;从待校正图像中提取图画区域指示的图画部分,并对图画部分进行图画校正,获得更新图画;将更新图画渲染在初始校正图像中获得校正后的目标图像。如此,对于经过语义校正获得的初始校正图像中的图画区域,从待校正图像中提取出相应的图画部分单独进行图画校正,再渲染回初始校正图像中,获得最终校正完成的目标图像,校正过程保留了图画区域的原始图画信息,保证了图像的美化效果,进而保证了后续对图像的处理效率和准确率。

Description

图像校正方法及装置
技术领域
本说明书涉及图像处理技术领域,特别涉及一种图像校正方法。本说明书同时涉及一种图像校正装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
近年来随着计算机技术、互联网产业、网络基建和终端设备的高速发展和迭代,图像处理技术也随之高速发展,工作、学习和生活中越来越多的信息通过图像形式进行存储、处理和管理。用户上传的图像往往存在光照不均、阴影、褶皱、噪点、暗光、色偏等问题,这极大影响了后续对图像进行分析处理的任务,导致后续对图像进行自动化处理的效率和准确率较低。因而需要对用户上传的图像进行校正美化。
现有技术中,是通过二值化算法对用户上传图像进行校正处理,该算法通过阈值分割来将用户上传图像的像素分为两类,即,设定一个阈值或门限值,对大于阈值的像素值赋予白色,小于阈值的像素值赋予黑色,从而进行图像校正,美化图像。
然而,上述方法中进行图像校正的阈值难以确定,可能会导致出现阴影区域;另外,用户上传图像中除了文字之外,还可能会存在图画,图画往往是多个灰度呈现的,二值化处理会丢失图画原始信息,导致校正获得的图像中信息丢失,美化图像的效果较差,影响后续对图像的处理效率和准确率。
发明内容
有鉴于此,本说明书实施例提供了一种图像校正方法。本说明书同时涉及一种图像校正装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种图像校正方法,包括:
确定初始校正图像中的连通分量区域,其中,初始校正图像为待校正图像经过语义校正获得的图像;
对连通分量区域进行字符检测,确定各连通分量区域中的图画区域;
从待校正图像中提取图画区域指示的图画部分,并对图画部分进行图画校正,获得更新图画;
将更新图画渲染在初始校正图像中获得校正后的目标图像。
根据本说明书实施例的第二方面,提供了一种图像校正装置,包括:
第一确定模块,被配置为确定初始校正图像中的连通分量区域,其中,初始校正图像为待校正图像经过语义校正获得的图像;
第二确定模块,被配置为对连通分量区域进行字符检测,确定各连通分量区域中的图画区域;
图画校正模块,被配置为从待校正图像中提取图画区域指示的图画部分,并对图画部分进行图画校正,获得更新图画;
渲染模块,被配置为将更新图画渲染在初始校正图像中获得校正后的目标图像。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,以实现上述的图像校正方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述的图像校正方法的步骤。
本说明书实施例提供的图像校正方法,确定初始校正图像中的连通分量区域,其中,初始校正图像为待校正图像经过语义校正获得的图像;对连通分量区域进行字符检测,确定各连通分量区域中的图画区域;从待校正图像中提取图画区域指示的图画部分,并对图画部分进行图画校正,获得更新图画;将更新图画渲染在初始校正图像中获得校正后的目标图像。
这种情况下,对于经过语义校正获得的初始校正图像,可以确定初始校正图像中的连通分量区域,然后通过字符检测确定出其中的图画区域,从待校正图像中提取出相应的图画部分,单独对该图画部分进行图画校正操作,获得更新图画,再将更新图画渲染在初始校正图像中获得校正后的目标图像。如此,对于经过语义校正获得的初始校正图像中的图画区域,从待校正图像中提取出相应的图画部分单独进行图画校正,再渲染回初始校正图像中,获得最终校正完成的目标图像,校正过程保留了图画区域的原始图画信息,保证了图像的美化效果,进而保证了后续对图像的处理效率和准确率。
附图说明
图1是本说明书一实施例提供的一种不同阈值对应的作业图像示意图;
图2是本说明书一实施例提供的一种图像校正方法的流程图;
图3a是本说明书一实施例提供的一种语义分割模型U2Net的结构示意图;
图3b是本说明书一实施例提供的一种语义校正过程的示意图;
图3c是本说明书一实施例提供的一种关键点检测模型HRNet的结构示意图;
图3d是本说明书一实施例提供的一种梯形校正过程的示意图;
图3e是本说明书一实施例提供的一种图像质量检测模型MSUIQ的结构示意图;
图3f是本说明书一实施例提供的一种不同质量得分的图像示意图;
图3g是本说明书一实施例提供的一种清晰化模型MPRNet的结构示意图;
图3h是本说明书一实施例提供的一种不同清晰度的图像示意图;
图3i是本说明书一实施例提供的一种图画处理过程的示意图;
图3j是本说明书一实施例提供的一种图像校正过程的示意图;
图4是本说明书一实施例提供的一种应用于教育场景下的图像校正方法的处理流程图;
图5是本说明书一实施例提供的一种图像校正装置的结构示意图;
图6是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
HRNet:HighResolutionNET,高分辨率网络,它能够在整个过程中保持高分辨率表示,以高分辨率子网作为第一阶段,逐个添加高到低分辨率子网,以形成更多阶段,并且并行连接多分辨率子网,在整个过程中反复交换并行多分辨率子网中的信息来进行重复的多尺度融合。
MSUIQ:多尺度图像质量转换器,可以处理任意宽高比和分辨率的输入。由于图像质量受到局部细节和全局构图的双重影响,为了同时捕获全局和局部信息,用多尺度表示对输入图像进行建模,来自不同尺度的patch使Transformer能够跨多个尺度和空间位置聚合信息。
MPRNet:多阶段渐进图像恢复,其中包含几个关键部分:早期阶段采用编码器-解码器来学习多尺度上下文信息,而最后阶段则对原始图像分辨率进行操作,以保留精细的空间细节;每两个阶段之间插入一个监督注意模块(SAM),以实现渐进式学习,在ground-truth图像的指导下,该模块利用前一阶段的预测来计算注意力图,这些注意力图反过来用于细化前一阶段的特征,然后再传递到下一阶段;增加了一种跨阶段特征融合(CSFF)机制,有助于将多尺度上下文化特征从早期传播到后期。此外,该方法简化了各阶段之间的信息流,对稳定多阶段网络优化是有效的。
U2Net:一个两层嵌套的U型结构,用于显著目标检测,其中,U代表的就是在输入上提取和编码多尺度特征,嵌套的U型结构可以更有效的提取图片内的多尺度特征和聚集阶段的多层次特征。
需要说明的是,在教育场景下,往往可以通过电子设备采集作业、试卷等图像,通常用电子设备拍摄的作业、试卷等图像效果参差不齐,在不同的场景下,可能出现光照不均、阴影、褶皱、噪点、暗光、色偏、模糊等情况,这极大影响了后续对作业、试卷的题目识别、手写字符识别、版面分析、线上批改等后续任务,同时作业展示效果也较差。为了不影响对上传图像的一些后续任务,同时也能更好的展示学生的作答信息,需要设计一种图像校正系统,对作业/试卷图像进行美化处理,使得美化后的图像页面干净,字迹清晰,减少后续处理任务的错误,同时在展示学生作业的时候,视觉效果更好。
一种可能的实现方式中,对作业图像进行校正处理,通常是选用图像二值化算法来实现,图像二值化算法是一种常用的美化算法,该算法通过阈值分割来对作业图像的像素分为两类,即,设定一个阈值或门限值,对大于阈值的像素值赋予白色,小于阈值的像素值赋予黑色。具体方案是:先将拍摄图片转换为灰度图片,然后设定一个阈值,将图片进行阈值分割处理,即二值化处理,使用opencv库中的threshold函数即可得到二值化图片。
示例的,图1是本说明书一实施例提供的一种不同阈值对应的作业图像示意图,如图1所示,从左至右依次为原始作业图像、阈值为100对应的校正作业图像、阈值为150对应的校正作业图像。由图1可以看出,当阈值选的较小时,图像左上方的字体会有损失,而当阈值选的比较大时,阴影区域会显现出来。
由上可知,虽然通过图像二值化算法可以对图像进行校正,美化作业图像,但该算法有一个明显的缺点,即,阈值难以确定,如果阈值选择不好,图像进行二值化将会失败。另外,即便阈值选择合适,也可能面临以下难点:用户拍摄上传的作业图像中背景干扰多,作业图像的形状像一个梯形;用户拍摄上传的作业图像分辨率低,作业字迹模糊;作业图像中有一些图画题目,图画是多个灰度呈现的,二值化处理会丢失图画原始信息。
综上所示,如果需要较为理想的美化效果,使用单一算法来处理是行不通的。因而,本说明书实施例提供了一种图像校正系统,该系统包括:梯形校正模块、图像质量检测模型、清晰化模块、语义美化模块、图画处理模块,通过各个模块之间的协作处理,达到一个理想的图像美化效果。
在本说明书中,提供了一种图像校正方法,本说明书同时涉及一种图像校正装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图2示出了根据本说明书一实施例提供的一种图像校正方法的流程图,具体包括以下步骤202-208:
步骤202:确定初始校正图像中的连通分量区域,其中,初始校正图像为待校正图像经过语义校正获得的图像。
需要说明的是,待校正图像由于拍摄效果参差不齐,存在光照不均、阴影、褶皱、噪点、暗光、色偏等问题,为了更好的展示待校正图像的信息,可以基于图像处理技术对待校正图像进行语义校正,以获得美化后的初始校正图像,从而有效去除待校正图像中的光照不均、阴影、褶皱、噪点、暗光、色偏等问题。
实际应用中,可以通过语义分割模型U2Net对待校正图像进行语义校正处理,获得初始校正图像。图3a是本说明书一实施例提供的一种语义分割模型U2Net的结构示意图,将待校正图像输入至预先训练好的图3a所示的语义分割模型U2Net中,可以获得语义校正处理后的初始校正图像。该语义分割模型的标签(label)包含2类,第一类是背景,用0代表,第二类是前景(包括图像中的所有文字、数字、字母、线条,表格、图形、图画等等),用1表示。
U2Net是一个两层嵌套的U型结构,如图3a所示,它的顶层是一个由11个stages(阶段)(如图3a中的立方体)组成的大U型结构,每一stage由一个配置良好的RSU填充。因此,嵌套的U结构可以更有效的提取stage内的多尺度特征和聚集阶段的多层次特征。
如图3a所示,U2Net网络由三部分构成:六级编码器、五级解码器、与解码器和最后一级编码器相连的显著图融合模型。其中,编码器En_1、En_2、En_3和En_4阶段中,分别使用RSU-7,RSU-6,RSU-5,RSU-4的RSU结构,前面的数字如7、6、5、4是RSU的高度L,L通常根据输入特征图的空间分辨率进行配置。在En_5和En_6中,特征图的分辨率相对较低,进一步对这些特征图进行下采样会导致有用上下文的丢失。因此,在RSU-5和RSU-6阶段,使用RSU-4F,其中F表示RSU是一个扩展的版本,用扩展卷积来代替合并和上采样操作,这意味着RSU-4F的所有中间特征图都与其输入的特征图具有相同的分辨率。
解码阶段具有与En_6中对称编码阶段相似的结构。在De_5中,还使用了扩展板的RSU-4F,这与在编码阶段En_5,En_6中使用的类似。每个解码器阶段将来自前一级的上采样特征映射和来自其对称编码器阶段的特征映射的级联作为输入,见图3a。
最后一部分是显著图融合模块,用于生成显著概率图。U2Net网络首先通过3x3卷积和Sigmoid函数从En_6、De_5、De_4、De_3、De_2和De_1生成6个输出显著概率图然后,将输出的显著图的逻辑图(卷积输出,Sigmoid函数之前)向上采样至与输入图像大小一致,并通过级联操作相融合,然后通过1x1卷积层和一个Sigmoid函数,以生成最终的显著性概率映射图Sfuse
语义分割模型U2Net的初始训练参数如下所示:模型共训练100000轮(也即epoch_num=100000),训练的批处理数据为5(batch_size_train=5),测试的批处理数据为1(batch_size_val=1),每迭代2000次保存一次模型(save_frq=2000),模型采用Adam优化器,初始学习率是0.01(lr=0.01),训练样本尺寸是768,训练硬件是2块NVIDIAV100显卡并行训练,本说明书实施例中进行语义校正时选用的模型是迭代了196000次的模型。
示例的,图3b是本说明书一实施例提供的一种语义校正过程的示意图,如图3b所示,从左至右分别为待校正图像和经过语义校正的初始校正图像。
本说明书实施例中,通过语义分割模型U2Net对待校正图像进行语义校正,获得初始校正图像后,为了避免初始校正图像中图画区域出现镂空,还可以进一步对图画区域单独处理。实际实现时,可以确定初始校正图像中的连通分量区域。
其中,连通分量可以确定从图中的一个顶点是否能到达图中的另一个顶点,也就是说,图中任意两个顶点之间是否有路径可达。通过连通分量可以确定出初始校正图像中包括的字符或图画区域,也即确定出的连通分量区域可能包括字符区域和图画区域。
本实施例一个可选的实施方式中,可以通过形态学膨胀操作,对初始校正图像进行膨胀,从而确定出连通分量区域,也即是确定初始校正图像中的连通分量区域,具体实现过程可以如下:
对初始校正图像进行按位取反操作,并进行形态学膨胀操作,获得膨胀后的图像;
计算膨胀后的图像的连通分量,获得连通分量区域。
需要说明的是,形态学即数学形态学(Mathematical Morphology),是图像处理过程中一个非常重要的研究方向,形态学主要从图像内提取分量信息,该分量信息通常对于表达和描绘图像的形状具有重要意义,通常是图像理解时所使用的最本质的形状特征。形态学操作主要包含腐蚀和膨胀。腐蚀是最基本的形态学操作之一,它能够将图像的边界点消除,使图像沿着边界向内收缩,也可以将小于指定结构体元素的部分去除。膨胀可以用来“收缩”或者“细化”二值图像中的前景,借此实现去除噪声、元素分割等功能。
实际应用中,可以先对初始校正图像中的各个像素进行按位取反操作,然后进行形态学膨胀,使得初始校正图像中图画区域间的像素相连,增加后续计算膨胀后的图像的连通分量的准确性,以获得各个连通分量区域的矩形坐标。
具体实现时,可以通过如下公式(1)获得按位取反结果:
其中,q(i,j)是第i行第j列像素按位取反后的结果,p(i,j)是初始校正图像中第i行第j列像素的像素值。
另外,可以对按位取反后的初始校正图像进行形态学膨胀操作,膨胀算子大小为3*3,通过如下公式(2)进行形态学膨胀操作:
D=dilate(S’)3 (2)
其中,dilate()操作表示膨胀处理,3表示膨胀三次,S’表示按位取反后的初始校正图像,D表示膨胀后的图像。
实际实现时,可以计算膨胀后的图像的连通分量,连通域方向取8,标记每个连通分量区域,并用区域的左上角、长度、宽度来记录每个连通分量区域。
本说明书实施例中,初始校正图像是待校正图像经过语义分割模型校正处理后的图像,该初始校正图像中有可能出现图画镂空的问题,导致图画信息不全,需要对初始校正图像中的图画区域单独进行校正处理,单独美化图画区域内的图画部分,因而可以先对初始校正图像进行按位取反操作,然后再进行形态学膨胀操作,获得膨胀后的图像,计算膨胀后的图像的连通分量,获得连通分量区域,便于后续对连通分量区域进行识别分析,提取出单独的图画区域进行校正处理。
本实施例一个可选的实施方式中,确定出的连通分量区域除了可能包括字符区域、图画区域之外,还可能包括一些噪声区域,因而还可以进一步筛选连通分量区域,也即是确定初始校正图像中的连通分量区域之后,还可以包括:
确定各个连通分量区域的面积;
将面积大于第一面积阈值、且小于第二面积阈值的连通分量区域作为候选区域。
实际应用中,可以设置两个筛选连通分量区域的门限值:第一面积阈值T1和第二面积阈值T2,第一面积阈值T1和第二面积阈值T2可以基于经验设置,如第一面积阈值T1设置为600,第二面积阈值T2设置为0.1*Swidth*Sheight,Swidth与Sheight为初始校正图像的宽度与长度。
需要说明的是,可以保留面积处于第一面积阈值T1与第二面积阈值T2之间的连通分量区域,剔除面积较小的噪点干扰,也即面积小于等于第一面积阈值T1的连通分量区域,以及面积较大的闭合区域干扰,也即面积大于等于第二面积阈值T2的连通分量区域,如大面积阴影等。具体实现时,可以通过如下公式(3)筛选候选区域:
T1<area(component)<T2 (3)
其中,area(component)表示连通分量区域的面积,T1表示第一面积阈值,T2表示第二面积阈值。
本说明书实施例中,可以设置两个筛选连通分量区域的门限值,保留面积处于第一面积阈值与第二面积阈值之间的连通分量区域,作为候选区域,剔除面积较小的噪点干扰,以及面积较大的闭合区域干扰,获得的候选区域大概率为字符区域或图画区域,避免了后续对噪声数据进行分析处理,节省了处理资源,且避免了后续将噪声区域误识别为图画区域,提高了识别准确率。
本实施例一个可选的实施方式中,还可以预先对用户上传图像进行语义校正,获得初始校正图像,也即确定初始校正图像中的连通分量区域之前,还可以包括:
获取用户上传图像,并对用户上传图像进行梯形校正,获得梯形校正图像;
对梯形校正图像进行图像质量检测,获得梯形校正图像的质量得分;
若质量得分大于等于第一分值阈值,则对梯形校正图像进行语义校正,获得初始校正图像。
具体的,用户上传图像可以是用户利用电子设备拍摄、上传的图像,该用户上传图像可以为作业图像、试卷图像、调查问卷图像等。
实际应用中,由于用户在拍摄图像时,可能存在倾斜和背景干扰,因而获取到用户上传图像后,可以利用关键点检测模型HRNet确定出用户上传图像中目标物的关键点,然后进行梯形校正,获得梯形校正图像。其中,该目标物是需要进行梯形校正的目标,如作业图像中目标物为用户的作业。
关键点检测模型HRNet的标签(label)是点集,每个点集包含四个点类,分别是:图像中目标物的左上角点、右上角点、右下角点、左下角点等四个关键点。其中,在模型训练时,人工通过标注工具标注出大量图像中目标物的关键点,作为样本标签对模型进行训练。
示例的,图3c是本说明书一实施例提供的一种关键点检测模型HRNet的结构示意图,如图3c所示,由并行的高到低分辨率子网组成,具有跨多分辨率子网的重复信息交换(多尺度融合)。水平方向和垂直方向分别对应于网络的深度和特征图的尺度。该关键点检测模型HRNet的初始训练参数为:训练主干网是ResNet50,多尺度融合层数是4,输出类别是4,模型输入尺寸是224*244,模型共训练100轮,训练的批处理数据为4,测试的批处理数据为1,训练优化器是RMSprop,初始学习率是0.001,训练硬件是2块NVIDIA V100显卡并行训练。
实际应用中,可以将用户上传图像输入训练完成的关键点检测模型HRNet中,获得用户上传图像中目标物的四个角点坐标,根据四个角点坐标可以计算出目标物区域的长度(height)与宽度(width),根据该长度阈宽度可以确定目标物在新的坐标系的四个角点坐标分别是:(0,0),(width-1,0),(width-1,height-1),(0,height-1),利用OpenCV库中的getPerspectiveTransform函数得到点对的变换矩阵,然后用warpPerspective函数得到梯形校正图像。
示例的,以用户上传图像为作业图像为例进行说明,图3d是本说明书一实施例提供的一种梯形校正过程的示意图,如图3d所示,从左至右依次是用户上传图像、用户上传图像的关键点检测结果、梯形校正图像,图3d中四个圆圈内的关键点即为检测出的作业的顶点。
需要说明的是,可以对用户上传图像进行梯形校正,获得梯形校正图像,以对用户上传图像中的目标物进行梯形校正,修正倾斜问题;同时,可以删去用户上传图像中目标物区域以外的背景干扰。
实际应用中,用户上传图像进行梯形校正,获得梯形校正图像后,可以进一步对梯形校正图像的图像质量进行检测,获得梯形校正图像的质量得分,对于质量得分大于等于第一分值阈值的情况,直接对梯形校正图像进行语义校正,获得初始校正图像,避免对质量过差的图像进行语义校正处理。
其中,质量得分可以指示梯形校正图像的清晰度,质量得分越高,说明梯形校正图像的清晰度越高,反之则相反。质量得分的区间范围是[0-1],0表示最低质量,1表示最高质量。第一分值阈值是预先设定的数值,用于判断梯形校正图像的质量的得分是否符合要求,如第一分值阈值均可以为0.75。
具体实现时,可以通过图像质量检测模型采用MSUIQ,对梯形校正图像进行图像质量检测,获得梯形校正图像的质量得分。
示例的,图3e是本说明书一实施例提供的一种图像质量检测模型MSUIQ的结构示意图,如图3e所示,构建了一个多尺度图像表示作为输入,包括原生分辨率图像及其ARP调整大小的变体。每张图像被分割成固定大小的补丁,这些补丁由补丁编码模块嵌入。为了捕获图像的二维结构并处理不同长宽比的图像,通过在可学习的嵌入网格内将补丁位置(i,j)散列到(tj,t)来编码空间嵌入。引入尺度嵌入来捕获尺度信息。Transformer编码器获取输入令牌并执行多头自关注。为了预测图像质量,遵循Transformer中的常用策略,在序列中添加一个[CLS]令牌来表示整个多尺度输入,并使用相应的Transformer输出作为最终表示。
图像质量检测模型MSUIQ的标签(label)是图像的质量分数,分数的取值区间是[0-1],0表示质量最低,1表示质量最高。其中,该图像的质量分数训练时作为样本标签由人工标注,人工标注时,可以对样本图像的质量划分不同的区间,标注对应的质量分数作为标签。
模型的初始训练参数如下所示:训练主干网是ResNet50,模型输入尺寸是512*512,变换尺度因子是3,格子(HSE)的尺寸是10,输出类别是1,Transformer输入尺寸是384,Transformer共14层,MLP的头部数量是6,模型共训练80轮,训练的批处理数据为8,测试的批处理数据为1,训练优化器是Adam,初始学习率是0.001,训练硬件是2块NVIDIAV100显卡并行训练。
示例的,图3f是本说明书一实施例提供的一种不同质量得分的图像示意图,如图3f所示,从左至右的质量得分依次是0.93、0.75、0.42,质量得分0.93的清晰度高,质量得分0.75清晰度一般,质量得分0.42清晰度低。
本说明书实施例中,可以对梯形校正后的图像进行质量检测,给出质量得分,对于质量得分大于等于第一分值阈值的梯形校正图像,再进行语义校正获得初始校正图像,保证了初始校正图像的质量,避免了对避免对质量过差的图像进行语义校正处理,节省了处理资源。
本实施例一个可选的实施方式中,对于质量得分不满足要求的梯形校正图像,可以先进行清晰化处理,也即获得梯形校正图像的质量得分之后,还可以包括:
若质量得分小于第一分值阈值、且大于第二分值阈值,则对梯形校正图像进行清晰化处理,获得更新图像;
对更新图像进行图像质量检测,获得更新图像的质量得分;
确定更新图像的质量得分与梯形校正图像的质量得分之间的分值差;
若分值差大于差值阈值,则对更新图像进行语义校正,获得初始校正图像。
具体的,第一分值阈值、第二分值阈值均为预先设置的、用于判断图像质量的数值,如第一分值阈值可以为0.75,第二分值阈值可以为0.55。差值阈值为预先设置的、用于判断清晰化处理对质量的提升效果的数值,如差值阈值可以为0.2。
实际应用中,若质量得分小于第一分值阈值、且大于第二分值阈值,则说明梯形校正图的清晰度较差,不能直接进行语义校正,此时可以先对该梯形校正图像进行清晰化处理,获得更新图像,也即是对于质量得分较低的梯形校正图像,先进行清晰化处理。具体实现时,可以通过清晰化模型MPRNet对梯形校正图像进行清晰化处理,获得更新图像。
示例的,图3g是本说明书一实施例提供的一种清晰化模型MPRNet的结构示意图,如图3g所示,是一种用于渐进图像恢复的多阶段架构,早期阶段采用编码器-解码器提取多尺度上下文化特征,而最后阶段在原始图像分辨率下运行,以生成空间精确的输出。每两个阶段之间添加一个有监督的注意力模块,该模块在将一个阶段的特征传递到下一个阶段之前学习精炼它们,虚线状箭头表示跨阶段特征融合机制。
清晰化模型MPRNet的标签(label)是清晰图像,模型训练时,可以获取同一图像不同清晰度的两张,清晰度低的一张作为样本输入,清晰度高的一张作为样本的标签,对模型进行训练。模型的初始训练参数如下所示:对模型输入后的图像进行裁剪,裁剪后的尺寸是512*512,模型共训练200轮,训练的批处理数据为2,训练优化器是Adam,初始学习率是0.0001,每训练20轮进行一次验证集测试并保存模型,训练硬件是2块NVIDIAV100显卡并行训练。
需要说明的是,将质量得分较差的梯形校正图像输入至训练完成的清晰化模型MPRNet中,可以获得输出的清晰化处理的更新图像。然后,可以再基于上述的图像质量检测模型MSUIQ,对该更新图像进行图像质量检测,获得该更新图像的质量得分。如果更新图像的质量得分与梯形校正图像的质量得分之间的分值差大于差值阈值,则说明清晰化处理有效,更新图像比清洗化处理之前的梯形校正图像质量得分有显著提升,此时可以对更新图像进行语义校正,获得初始校正图像。
如果更新图像的质量得分与梯形校正图像的质量得分之间的分值差不大于差值阈值,则说明清晰化处理效果较差,更新图像比清洗化处理之前的梯形校正图像质量得分并没有显著提升,此时说明图像质量较差,清晰化处理也不能满足需求,可以向用户提示,请重新上传高清图像。另外,如果梯形校正图像的质量得分小于第二分值阈值,则说明梯形校正图像的质量较差,无法进行清晰化处理,此时也可以向用户提示,请重新上传高清图像。
示例的,图3h是本说明书一实施例提供的一种不同清晰度的图像示意图,如图3h所示,从左至右依次为清晰化处理前质量得分较低的图像,以及清晰化处理后质量得分较高的图像。
本说明书实施例中,可以对质量得分较高的图像,或者经过清晰化处理后质量提升的待校正图像进行语义校正,获得美化后的初始校正图像,保证了初始校正图像的清晰度。
步骤204:对连通分量区域进行字符检测,确定各连通分量区域中的图画区域。
需要说明的是,初始校正图像中的连通分量区域可能包括字符区域和图画区域,因而可以对初始校正图像中的各个连通分量区域进行字符检测,确定出各连通分量区域中的图画区域,便于后续对图画区域单独进行校正处理。
实际应用中,在语义分割图中,也即初始校正图像中,可以对每个连通分量区域利用字符检测算法或模型进行字符检测,例如字符检测可以选用python中的easyocr库来计算,具体实现过程可以如下公式(4):
words=word_detection(Sxy) (4)
其中,word_detection()操作表示字符检测处理,Sxy表示初始校正图像中的连通分量的矩形区域,words表示检测字符数量。
具体实现时,可以仅基于字符检测结果,确定各连通分量区域中的图画区域,比如,将字符数量小于数量阈值的连通分量区域作为图画区域,从而确定中初始校正图像中的图画区域,便于后续对图画区域单独进行处理。
另外,考虑到字符检测会有误检情况,为了提高图画区域检测的准确性,还可以进一步结合各连通分量区域的长宽比率,确定各连通分量区域中的图画区域。
本实施例一个可选的实施方式中,如果对初始校正图像中的各个连通分量区域进行筛选,获得面积位于第一面积阈值和第二面积阈值之间的候选区域,则可以直接对候选区域进行字符检测,确定各连通分量区域中的图画区域,无需对连通分量区域中的噪声区域进行检测,节省了计算量。具体的,对连通分量区域进行字符检测,确定各连通分量区域中的图画区域,实现过程可以如下:
对候选区域进行字符检测;
确定候选区域的长宽比率;
根据字符检测结果和长宽比率,确定候选区域是否为图画区域。
需要说明的是,可以对各个候选区域进行字符检测,具体实现时,可以利用上述python中的easyocr库来计算,当然,也可以选择其他的字符检测或识别算法。然后,可以确定各个候选区域的长宽比率,针对任一个候选区域,可以结合该候选区域的字符检测结果和长宽比率,确定该候选区域是否为图画区域。如此,综合了候选区域的字符检测结果和长宽比率,共同确定候选区域是否为图画区域,避免了字符误检测,提高了图画区域的检测准确性。
本实施例一个可选的实施方式中,字符检测结果为字符个数;根据字符检测结果和长宽比率,确定候选区域是否为图画区域,具体实现过程可以如下:
在第一字符个数小于个数阈值、且第一长宽比率大于比率阈值的情况下,确定目标候选区域为图画区域,其中,第一字符个数为目标候选区域的字符检测结果,第一长宽比率为目标候选区域的长宽比率。
具体的,个数阈值是预先设置的、用于判断候选区域是否为图画区域的限制条件,如个数阈值一般设置为1。比率阈值为预先设置的、图画区域的长宽比率限制,如比率阈值一般可以设置为0.7。
需要说明的是,如果目标候选区域的字符个数小于个数阈值、且长宽比率大于比率阈值,则说明该目标候选区域不包含字符,且长宽比率符合图画区域的要求,此时可以将该目标候选区域确定为图画区域。
实际实现时,可以通过如下代码对候选区域进行图画区域判断:
iflength(words)<1&&(Sxy_short/Sxy_long)>0.7,draw=True;
else,draw=False;
其中,length()操作表示字符检测结果中的字符个数;&&表示与操作;Sxy_short表示候选区域中较短的边;Sxy_long表示候选区域中较长的边;draw表示图画区域标识,draw=False,表示不是图画区域,draw=True,表示是图画区域。
本说明书实施例中,综合了候选区域的字符检测结果和长宽比率,共同确定候选区域是否为图画区域,避免了字符误检测,提高了图画区域的检测准确性。
步骤206:从待校正图像中提取图画区域指示的图画部分,并对图画部分进行图画校正,获得更新图画。
需要说明的是,可以提取图画区域标识为True的候选区域(或者连通分量区域)作为图画区域,根据该图画区域的左上角坐标、长度与宽度,对待校正图像进行裁剪,得到图画部分,然后对提取出的图画部分单独进行图画校正,获得更新图画。另外,待校正图像可以为初始用户上传的图像,如果初始用户上传的图像的质量不高,可以将清晰化处理后的图像作为待校正图像,提取图画部分。
本实施例一个可选的实施方式中,对图画部分进行图画校正,获得更新图画,具体实现过程可以如下:
对图画部分包括的像素值进行归一化处理;
对归一化后的图画部分进行幂律变换,并根据幂律变换结果进行分段线性变换,获得更新图画。
实际应用中,可以先对图画部分包括的各个像素值进行归一化处理,将该图画部分归一化至[0-1],具体可以通过如下公式(5)实现:
O=(I-Imin)/(Imax-Imin) (5)
其中,Imin表示图画部分各个像素值中最大的像素值;Imin表示图画部分各个像素值中最小的像素值;I表示图画部分的第I个像素的原始像素值;O表示图画部分第I个像素归一化后的像素值。
另外,归一化处理后,还可以进一步对归一化后的图画部分进行幂律变换,并根据幂律变换结果进行分段线性变换,获得更新图画,具体可以通过如下公式(6)和公式(7)实现:
S=c*Oγ (6)
其中,上述公式(6)为幂律变换公式,c为常数,γ是幂指数,O是归一化后的图画部分,S是幂律变换图画,也即幂律变换结果,此处c可以设为1,γ设为5。然后,可以通过上述公式(7)对上述幂律变换结果进行分段线形变换,获得更新图画,其中,L为分段线性变化图画,也即更新图画,M1取值为0.004,M2取值为0.6*mean(S),其中mean()操作表示取图画部分的像素平均值。
本说明书实施例中,从待校正图像中提取图画区域指示的图画部分后,可以先对图画分布进行归一化处理,将图画部分的像素值处理为[0,1]之间的数值,然后进行幂律变换,并根据幂律变换结果进行分段线性变换,获得更新图画,获得更新图画中像素点为0或255,也即黑或白,增大了图画部分的对比度,实现了单独对图画部分进行校正处理,使得更新图画可以更好地与经过语义校正的初始校正图像融合,既保留了图画部分的原始信息,又避免了图画部分过于突兀。
步骤208:将更新图画渲染在初始校正图像中获得校正后的目标图像。
需要说明的是,对图画部分单独进行校正处理后,可以将获得的更新图画渲染在初始校正图像中获得校正后的目标图像,也即将初始校正图像中图画区域的内容替换为该更新图画。
示例的,图3i是本说明书一实施例提供的一种图画处理过程的示意图,如图3i所示,从左至右依次是质量高图像、初始校正图像、图画处理后图像。用矩形框内框住的部分是作业中的图画,可以看出,经过语义校正后,图画区域出现了镂空现象,而经过图画处理后,图画区域没有出现镂空,完整保留了原始图画的信息。
又一示例,图3j是本说明书一实施例提供的一种图像校正过程的示意图,如图3j所示,对质量较高的图像(可以为用户原始上传的图像,也可以为经过清晰化处理的图像)进行语义校正,可以获得初始校正图像,对初始校正图像进行形态学膨胀,可以获得膨胀后的图像;然后,可以计算膨胀后的图像中的连通分量区域,然后对连通分量区域进行字符检测和长宽比率判断等综合判断,确定出图画区域;之后,从质量较高的图像中提取该图画区域对应的图画部分,针对该图画部分进行幂律变换,比基于幂律变换结果进行分段线形变换,获得更新图画,将初始校正图像中图画区域的内容替换为该更新图画。
本说明书实施例提供的图像校正方法,对于经过语义校正获得的初始校正图像,可以确定初始校正图像中的连通分量区域,然后通过字符检测确定出其中的图画区域,从待校正图像中提取出相应的图画部分,单独对该图画部分进行图画校正操作,获得更新图画,再将更新图画渲染在初始校正图像中获得校正后的目标图像。如此,对于经过语义校正获得的初始校正图像中的图画区域,从待校正图像中提取出相应的图画部分单独进行图画校正,再渲染回初始校正图像中,获得最终校正完成的目标图像,校正过程保留了图画区域的原始图画信息,保证了图像的美化效果,进而保证了后续对图像的处理效率和准确率。
下述结合附图4,以本说明书提供的图像校正方法在教育场景下的应用为例,对图像校正方法进行进一步说明。其中,图4示出了本说明书一实施例提供的一种应用于教育场景下的图像校正方法的处理流程图,应用于图像校正系统中,该图像校正系统包括:梯形校正模块、图像质量检测模型、清晰化模块、语义美化模块、图画处理模块等,具体包括以下步骤:
学生上传的作业图像进入梯形校正模块,进行梯形校正;梯形校正后图像进入图像质量检测模块,进行质量检测。如果图像的质量得分大于0.75,直接进入语义美化模块,进行语义美化;如果图像的质量得分小于等于0.75且大于0.55,则进入清晰化模块,进行清晰化处理,清晰化处理后进入图像质量检测模型,如果质量检测的分数比上一次的分数大于0.2,则进入语义美化模块,进行语义美化,否则向用户提示,请重新上传高清作业图像;如果图像的质量得分小于等于0.55,则向用户提示,请重新上传高清作业图像。
通过质量检测后的图像进入语义美化模块,进行语义美化,然后进入图画处理模块,检测作业图像中是否有图画,如果没有,则语义美化结果即为最终美化结果;否则,在图画处理模块中对单独图画区域进行校正处理,获得更新图画,然后将更新图画与语义美化结果融合,得到最终美化的目标作业图像。
本说明书实施例提供的图像校正方法,对于经过语义校正获得的语义美化图像中的图画区域,从高质量图像中提取出相应的图画部分单独进行图画校正,再渲染回语义美化图像中,获得最终校正完成的目标图像,校正过程保留了图画区域的原始图画信息,保证了图像的美化效果,进而保证了后续对图像的处理效率和准确率。
与上述方法实施例相对应,本说明书还提供了图像校正装置实施例,图5示出了本说明书一实施例提供的一种图像校正装置的结构示意图。如图5所示,该装置包括:
第一确定模块502,被配置为确定初始校正图像中的连通分量区域,其中,初始校正图像为待校正图像经过语义校正获得的图像;
第二确定模块504,被配置为对连通分量区域进行字符检测,确定各连通分量区域中的图画区域;
图画校正模块506,被配置为从待校正图像中提取图画区域指示的图画部分,并对图画部分进行图画校正,获得更新图画;
渲染模块508,被配置为将更新图画渲染在初始校正图像中获得校正后的目标图像。
可选地,第一确定模块502,进一步被配置为:
对初始校正图像进行按位取反操作,并进行形态学膨胀操作,获得膨胀后的图像;
计算膨胀后的图像的连通分量,获得连通分量区域。
可选地,该装置还包括第三确定模块,被配置为:
确定各个连通分量区域的面积;
将面积大于第一面积阈值、且小于第二面积阈值的连通分量区域作为候选区域。
可选地,第二确定模块504,进一步被配置为:
对候选区域进行字符检测;
确定候选区域的长宽比率;
根据字符检测结果和长宽比率,确定候选区域是否为图画区域。
可选地,字符检测结果为字符个数;第二确定模块504,进一步被配置为:
在第一字符个数小于个数阈值、且第一长宽比率大于比率阈值的情况下,确定目标候选区域为图画区域,其中,第一字符个数为目标候选区域的字符检测结果,第一长宽比率为目标候选区域的长宽比率。
可选地,图画校正模块506,进一步被配置为:
对图画部分包括的像素值进行归一化处理;
对归一化后的图画部分进行幂律变换,并根据幂律变换结果进行分段线性变换,获得更新图画。
可选地,该装置还包括图像校正模块,被配置为:
获取用户上传图像,并对用户上传图像进行梯形校正,获得梯形校正图像;
对梯形校正图像进行图像质量检测,获得梯形校正图像的质量得分;
若质量得分大于等于第一分值阈值,则对梯形校正图像进行语义校正,获得初始校正图像。
可选地,图像校正模块,进一步被配置为:
若质量得分小于第一分值阈值、且大于第二分值阈值,则对梯形校正图像进行清晰化处理,获得更新图像;
对更新图像进行图像质量检测,获得更新图像的质量得分;
确定更新图像的质量得分与梯形校正图像的质量得分之间的分值差;
若分值差大于差值阈值,则对更新图像进行语义校正,获得初始校正图像。
本说明书实施例提供的图像校正装置,对于经过语义校正获得的初始校正图像,可以确定初始校正图像中的连通分量区域,然后通过字符检测确定出其中的图画区域,从待校正图像中提取出相应的图画部分,单独对该图画部分进行图画校正操作,获得更新图画,再将更新图画渲染在初始校正图像中获得校正后的目标图像。如此,对于经过语义校正获得的初始校正图像中的图画区域,从待校正图像中提取出相应的图画部分单独进行图画校正,再渲染回初始校正图像中,获得最终校正完成的目标图像,校正过程保留了图画区域的原始图画信息,保证了图像的美化效果,进而保证了后续对图像的处理效率和准确率。
上述为本实施例的一种图像校正装置的示意性方案。需要说明的是,该图像校正装置的技术方案与上述的图像校正方法的技术方案属于同一构思,图像校正装置的技术方案未详细描述的细节内容,均可以参见上述图像校正方法的技术方案的描述。
图6示出了根据本说明书一实施例提供的一种计算设备的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。
计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,LocalAreaNetwork)、广域网(WAN,WideAreaNetwork)、个域网(PAN,PersonalAreaNetwork)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,Network InterfaceController))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocalAreaNetworks)无线接口、全球微波互联接入(Wi-MAX,Worldwide Interoperabilityfor Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near Field Communication)接口,等等。
在本说明书的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
其中,处理器620用于执行如下计算机可执行指令,以实现上述的图像校正方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的图像校正方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述图像校正方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于实现上述的图像校正方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的图像校正方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述图像校正方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
计算机指令包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (11)

1.一种图像校正方法,其特征在于,所述方法包括:
确定初始校正图像中的连通分量区域,其中,所述初始校正图像为待校正图像经过语义校正获得的图像;
对所述连通分量区域进行字符检测,确定各连通分量区域中的图画区域;
从所述待校正图像中提取所述图画区域指示的图画部分,并对所述图画部分进行图画校正,获得更新图画;
将所述更新图画渲染在所述初始校正图像中获得校正后的目标图像。
2.根据权利要求1所述的方法,其特征在于,所述确定初始校正图像中的连通分量区域,包括:
对所述初始校正图像进行按位取反操作,并进行形态学膨胀操作,获得膨胀后的图像;
计算所述膨胀后的图像的连通分量,获得所述连通分量区域。
3.根据权利要求1所述的方法,其特征在于,所述确定初始校正图像中的连通分量区域之后,还包括:
确定各个连通分量区域的面积;
将面积大于第一面积阈值、且小于第二面积阈值的连通分量区域作为候选区域。
4.根据权利要求3所述的方法,其特征在于,所述对所述连通分量区域进行字符检测,确定各连通分量区域中的图画区域,包括:
对所述候选区域进行字符检测;
确定所述候选区域的长宽比率;
根据字符检测结果和所述长宽比率,确定所述候选区域是否为图画区域。
5.根据权利要求4所述的方法,其特征在于,所述字符检测结果为字符个数;所述根据字符检测结果和所述长宽比率,确定所述候选区域是否为图画区域,包括:
在第一字符个数小于个数阈值、且第一长宽比率大于比率阈值的情况下,确定目标候选区域为图画区域,其中,所述第一字符个数为所述目标候选区域的字符检测结果,所述第一长宽比率为所述目标候选区域的长宽比率。
6.根据权利要求1所述的方法,其特征在于,所述对所述图画部分进行图画校正,获得更新图画,包括:
对所述图画部分包括的像素值进行归一化处理;
对归一化后的图画部分进行幂律变换,并根据幂律变换结果进行分段线性变换,获得更新图画。
7.根据权利要求1所述的方法,其特征在于,所述确定初始校正图像中的连通分量区域之前,还包括:
获取用户上传图像,并对所述用户上传图像进行梯形校正,获得梯形校正图像;
对所述梯形校正图像进行图像质量检测,获得所述梯形校正图像的质量得分;
若所述质量得分大于等于第一分值阈值,则对所述梯形校正图像进行语义校正,获得所述初始校正图像。
8.根据权利要求7所述的方法,其特征在于,所述获得所述梯形校正图像的质量得分之后,还包括:
若所述质量得分小于第一分值阈值、且大于第二分值阈值,则对所述梯形校正图像进行清晰化处理,获得更新图像;
对所述更新图像进行图像质量检测,获得所述更新图像的质量得分;
确定所述更新图像的质量得分与所述梯形校正图像的质量得分之间的分值差;
若所述分值差大于差值阈值,则对所述更新图像进行语义校正,获得所述初始校正图像。
9.一种图像校正装置,其特征在于,所述装置包括:
第一确定模块,被配置为确定初始校正图像中的连通分量区域,其中,所述初始校正图像为待校正图像经过语义校正获得的图像;
第二确定模块,被配置为对所述连通分量区域进行字符检测,确定各连通分量区域中的图画区域;
图画校正模块,被配置为从所述待校正图像中提取所述图画区域指示的图画部分,并对所述图画部分进行图画校正,获得更新图画;
渲染模块,被配置为将所述更新图画渲染在所述初始校正图像中获得校正后的目标图像。
10.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现上述权利要求1-8任一项所述的图像校正方法的步骤。
11.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现上述权利要求1-8任一项所述的图像校正方法的步骤。
CN202310457999.1A 2023-04-25 2023-04-25 图像校正方法及装置 Pending CN116485675A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310457999.1A CN116485675A (zh) 2023-04-25 2023-04-25 图像校正方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310457999.1A CN116485675A (zh) 2023-04-25 2023-04-25 图像校正方法及装置

Publications (1)

Publication Number Publication Date
CN116485675A true CN116485675A (zh) 2023-07-25

Family

ID=87215250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310457999.1A Pending CN116485675A (zh) 2023-04-25 2023-04-25 图像校正方法及装置

Country Status (1)

Country Link
CN (1) CN116485675A (zh)

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
US20190180154A1 (en) Text recognition using artificial intelligence
CN111985464B (zh) 面向法院判决文书的多尺度学习的文字识别方法及系统
CN107133622B (zh) 一种单词的分割方法和装置
US10423852B1 (en) Text image processing using word spacing equalization for ICR system employing artificial neural network
CN111401372A (zh) 一种扫描文档图文信息提取与鉴别的方法
US11587216B2 (en) Detection and identification of objects in images
US20190384954A1 (en) Detecting barcodes on images
CN112307919B (zh) 一种基于改进YOLOv3的单证图像中数字信息区域识别方法
CN104008401A (zh) 一种图像文字识别的方法及装置
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN113158977B (zh) 改进FANnet生成网络的图像字符编辑方法
CN113033558A (zh) 一种用于自然场景的文本检测方法及装置、存储介质
Yadav et al. A robust approach for offline English character recognition
CN110532938B (zh) 基于Faster-RCNN的纸质作业页码识别方法
CN109902751B (zh) 融合卷积神经网络和半字模板匹配的表盘数字字符识别法
CN111476226A (zh) 一种文本定位方法、装置及模型训练方法
CN116030472A (zh) 文字坐标确定方法及装置
CN115909378A (zh) 单据文本检测模型的训练方法及单据文本检测方法
CN112837329B (zh) 一种藏文古籍文档图像二值化方法及系统
CN116485675A (zh) 图像校正方法及装置
Castillo et al. Object detection in digital documents based on machine learning algorithms
Bureš et al. Semantic text segmentation from synthetic images of full-text documents
Pandey et al. Review of Different Binarization Techniques Used in Different Areas of Image Analysis
CN113158745A (zh) 一种基于多特征算子的乱码文档图片识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination