CN115641280B - 图像校正方法及装置、电子设备和存储介质 - Google Patents
图像校正方法及装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115641280B CN115641280B CN202211616579.5A CN202211616579A CN115641280B CN 115641280 B CN115641280 B CN 115641280B CN 202211616579 A CN202211616579 A CN 202211616579A CN 115641280 B CN115641280 B CN 115641280B
- Authority
- CN
- China
- Prior art keywords
- image
- processed
- dimensional
- grid
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本公开涉及一种图像校正方法及装置、电子设备和存储介质,涉及图像数据处理领域,本公开方法包括:对获取的待处理图像进行三维重建处理,得到待处理图像的三维网格数据,并根据三维网格数据对待处理图像进行网格校正处理,得到校正图像,然后,对校正图像进行画质增强处理,得到画质增强处理后的目标图像。本公开实施例的图像校正方法简单便捷,鲁棒性强,有利于更高效准确地将待处理图像包含的扭曲文档,校正为不存在歪斜与畸变、方便用户阅读以及文档存档的目标图像。
Description
技术领域
本公开涉及图像数据处理领域,尤其涉及一种图像校正方法及装置、电子设备和存储介质。
背景技术
在日常的办公生活场景中,会经常需要将纸质文档转换为电子版文档,通常的做法是使用专门的扫描仪,对纸质文档进行扫描,得到纸质文档的电子版文档。随着智能终端设备的普及以及智能终端设备摄像质量的提升,使用智能终端设备,可通过拍照的方式将纸质文档转换成电子版文档。
然而,由于拍摄角度和取景范围难以精确控制,以及纸质文档本身会存在的褶皱、卷曲的情况,在使用拍照的方式将纸质文档转换成电子版文档时,得到的电子版文档会存在歪斜、扭曲、变形等现象,不仅不利于对其内容的阅读与理解,而且还会影响后续对其进行打印、存档或光学字符识别(Optical Character Recognition,OCR)等处理过程。
发明内容
本公开提出了一种图像校正技术方案。
根据本公开的一方面,提供了一种图像校正方法,包括:获取待处理图像;对所述待处理图像进行三维重建处理,得到所述待处理图像的三维网格数据;根据所述三维网格数据,对所述待处理图像进行网格校正处理,得到校正图像;对所述校正图像进行画质增强处理,得到画质增强处理后的目标图像。
在一种可能的实现方式中,在所述对所述待处理图像进行三维重建处理,得到所述待处理图像的三维网格数据之前,包括:获取训练数据集,其中,所述训练数据集包括至少一个样本数据,所述样本数据包括扭曲文档图像,以及所述扭曲文档图像对应的第一三维网格数据,所述扭曲文档图像包括基于布料模拟系统生成的图像,所述布料模拟系统用于模拟物理文档受重力影响产生变形后,生成的扭曲文档;对所述训练数据集进行主成分分析处理,确定所述训练数据集对应的正交基和网格顶点位置均值。
在一种可能的实现方式中,所述对所述待处理图像进行三维重建处理,得到所述待处理图像的三维网格数据,包括:对所述待处理图像进行特征提取,确定所述待处理图像的第一特征信息,所述第一特征信息包括至少一个浮点系数;根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数,确定所述待处理图像的三维网格数据。
在一种可能的实现方式中,所述根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数,确定所述待处理图像的三维网格数据之前,所述方法还包括:获取所述待处理图像的线性系数;根据预设的顶点标准位置,所述线性系数,确定待处理图像的残差信息;所述根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数,确定所述待处理图像的三维网格数据,包括:根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数、所述残差信息,确定所述待处理图像的三维网格数据。
在一种可能的实现方式中,所述根据所述三维网格数据,对所述待处理图像进行网格校正处理,得到校正图像,包括:获取所述三维网格数据和预设的目标三维网格数据之间的变换信息;根据所述变换信息,对所述待处理图像进行网格校正处理,得到校正图像。
在一种可能的实现方式中,所述对所述校正图像进行画质增强处理,得到画质增强处理后的目标图像,包括:获取与所述校正图像对应的多项式曲面表示的目标光照系数,所述目标光照系数用于指示所述校正图像的明亮程度;根据所述目标光照系数,对所述校正图像进行画质增强处理,得到画质增强处理后的目标图像。
在一种可能的实现方式中,所述获取待处理图像,包括:获取原始图像,所述原始图像包括图像采集设备拍摄的纸质文档图像;对所述原始图像进行目标检测,确定原始图像中纸质文档的位置信息;根据所述位置信息,对所述原始图像进行投影变换,得到投影变换后的所述待处理图像。
根据本公开的一方面,提供了一种图像校正装置,包括:获取模块,用于获取待处理图像;重建模块,用于对所述待处理图像进行三维重建处理,得到所述待处理图像的三维网格数据;网格校正模块,用于根据所述三维网格数据,对所述待处理图像进行网格校正处理,得到校正图像;画质增强模块,用于对所述校正图像进行画质增强处理,得到画质增强处理后的目标图像。
在一种可能的实现方式中,所述重建模块用于:在对所述待处理图像进行三维重建处理,得到所述待处理图像的三维网格数据之前,获取训练数据集,其中,所述训练数据集包括至少一个样本数据,所述样本数据包括扭曲文档图像,以及所述扭曲文档图像对应的第一三维网格数据,所述扭曲文档图像包括基于布料模拟系统生成的图像,所述布料模拟系统用于模拟物理文档受重力影响产生变形后,生成的扭曲文档;对所述训练数据集进行主成分分析处理,确定所述训练数据集对应的正交基和网格顶点位置均值。
在一种可能的实现方式中,所述重建模块用于:对所述待处理图像进行特征提取,确定所述待处理图像的第一特征信息,所述第一特征信息包括至少一个浮点系数;根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数,确定所述待处理图像的三维网格数据。
在一种可能的实现方式中,所述重建模块用于:所述根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数,确定所述待处理图像的三维网格数据之前,获取所述待处理图像的线性系数;根据预设的顶点标准位置,所述线性系数,确定待处理图像的残差信息;根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数、所述残差信息,确定所述待处理图像的三维网格数据。
在一种可能的实现方式中,网格校正模块用于:获取所述三维网格数据和预设的目标三维网格数据之间的变换信息;根据所述变换信息,对所述待处理图像进行网格校正处理,得到校正图像。
在一种可能的实现方式中,所述画质增强模块用于:获取与所述校正图像对应的多项式曲面表示的目标光照系数,所述目标光照系数用于指示所述校正图像的明亮程度;根据所述目标光照系数,对所述校正图像进行画质增强处理,得到画质增强处理后的目标图像。
在一种可能的实现方式中,所述获取模块用于:获取原始图像,所述原始图像包括图像采集设备拍摄的纸质文档图像;对所述原始图像进行目标检测,确定原始图像中纸质文档的位置信息;根据所述位置信息,对所述原始图像进行投影变换,得到投影变换后的所述待处理图像。
根据本公开的一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
在本公开实施例中,能够对获取的待处理图像进行三维重建处理,得到待处理图像的三维网格数据,并根据三维网格数据对待处理图像进行网格校正处理,得到校正图像,然后,对校正图像进行画质增强处理,得到画质增强处理后的目标图像。本公开实施例的图像校正方法简单便捷,鲁棒性强,有利于更高效准确地将待处理图像包含的扭曲文档,校正为不存在歪斜与畸变、方便用户阅读以及文档存档的目标图像。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1示出根据本公开实施例的图像校正方法的流程图。
图2示出根据本公开实施例的获取待处理图像的示意图。
图3示出根据本公开实施例的生成样本数据的示意图。
图4示出根据本公开实施例的三维重建网络的示意图。
图5示出根据本公开实施例的另一种三维重建网络的示意图。
图6示出根据本公开实施例的网格校正处理效果的示意图。
图7示出根据本公开实施例的画质增强处理的示意图。
图8示出根据本公开实施例的图像校正装置的框图。
图9示出根据本公开实施例的一种电子设备的框图。
图10示出根据本公开实施例的另一种电子设备的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
另外,为了更好地说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
在办公场景中,会经常使用专用的扫描仪对纸质文档进行扫描处理,得到纸质文档的电子版文档。考虑到专用扫描仪成本比较高且不便于移动的特性,可以不使用专用扫描仪,而是使用任意移动设备的摄像头(例如包括手机摄像头)对纸质文档进行拍摄,再对拍摄到的图像进行图像校正处理,使其接近专用扫描仪的扫描效果。
相关技术中,可通过基于多视角的文档图像校正方法,从不同角度拍摄多张待校正的文档图像,利用多视角几何技术,对文档图像进行校正。然而,这种基于多视角的文档图像校正方法需要多次拍摄,其应用场景受限,且算法复杂,计算耗时较多。
或者,相关技术中,还可以基于文本行检测的文档图像校正方法,根据文本行检测的结果校正文本图像的扭曲,使弯曲的文本行重新变平直。然而,这种方法的校正效果取决于文本行检测的准确程度,鲁棒性不够好,针对某些复杂场景,会存在漏检文本或错检文本的情况。
或者,相关技术中,也可以基于坐标场预测的文档图像校正方法,将待校正的文档图像通过坐标场重新插值后,变为平整的文档图像。然而,这种基于坐标场预测的文档图像校正方法,计算量大,耗时长。
有鉴于此,本公开实施例提供的图像校正方法,能够对获取的待处理图像进行三维重建处理,得到待处理图像的三维网格数据,并根据三维网格数据,对待处理图像进行网格校正处理,得到校正图像,然后,对校正图像进行画质增强处理,得到画质增强处理后的目标图像。本公开实施例的图像校正方法简单便捷,鲁棒性强,有利于更高效更准确地将待处理图像包含的扭曲文档,校正为不存在歪斜与畸变、方便用户阅读以及文档存档的目标图像。
图1示出根据本公开实施例的图像校正方法的流程图,如图1所示,所述图像校正方法包括:在步骤S11中,获取待处理图像。
在步骤S12中,对所述待处理图像进行三维重建处理,得到所述待处理图像的三维网格数据。
在步骤S13中,根据所述三维网格数据,对所述待处理图像进行网格校正处理,得到校正图像。
在步骤S14中,对所述校正图像进行画质增强处理,得到画质增强处理后的目标图像。
在一种可能的实现方式中,所述图像校正方法可以由终端设备或服务器等电子设备执行,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,所述方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。或者,可通过服务器执行所述方法。
在一种可能的实现方式中,该图像校正方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。在一个示例中,该处理器可以为通用处理器如中央处理器(CPU,Central Processing Unit)、图形处理器(GPU,Graphics Processing Unit)、特定应用集成电路(Application-Specific Integrated Circuit,ASIC)等,也可以为人工智能处理器,如人工智能(AI,Artificial Intelligence)芯片等,例如:神经网络处理器(NeuralProcessing Unit,NPU)。
在一种可能的实现方式中,可在步骤S11中获取待处理图像,其中,针对不同的执行主体,获取待处理图像的方式也有所区别。例如,在执行主体为终端设备的情况下,可以调用终端设备中安装的摄像头对目标对象(例如纸质文档)进行拍摄,以获取待处理图像,也可以调用终端设备的相册读取待处理图像,还可以接收其他设备发送的待处理图像等;在执行主体为服务器的情况下,服务器可以接收其他设备发送的待处理图像,可以调用与服务器连接的数据库中存储的待处理图像。上述方式为示意性的举例,本公开的实施例对获取待处理图像的方式不作限制。
在示例中,待处理图像可以是扭曲文档图像,即包含文档内容存在扭曲现象的图像,例如,待处理图像的文档存在褶皱现象、卷曲现象等。可选的,待处理图像包含的扭曲文档的内容可以包括但不限于以下至少一项:表格、各种语言符号(如中文、英文、韩文、法文等的文字符号)、数字、图章、条形码、二维码或各种发票(如出租车发票、机票、油票、各种商品的税收发票等)。本公开实施例对待处理图像中扭曲的具体内容不作限制。
在步骤S11获取了待处理图像,可在步骤S12中,对待处理图像进行三维重建处理,将二维的待处理图像中的目标对象在三维虚拟空间中呈现,得到待处理图像的三维网格数据。该三维网格数据是计算机图形学中用于对各种不规律物体建模的一种数据结构,可用于表示待处理图像包含的目标对象(例如纸质文档)的三维重建结果,即用三维网格数据拟合待处理图像中目标对象(例如纸质文档)的表面。
其中,三维网格数据可包括多个彼此相连的多边形网格,例如包括三角形、四边形或者其它的凸多边形等。比如,以三角网格为例,三角网格由顶点、边和面构成,每个三角网格为三个顶点和三条边,每个顶点和每条边可以和其他的三角网格共享,每个三角网格分别对应一个面,在实际的应用中,可以用顶点或边的列表来表示面。
示例性地,可将获取到的待处理图像输入预先训练好的三维重建网络,对待处理图像进行三维重建处理,得到待处理图像的三维网格数据。
其中,预先训练的三维重建网络,用于对待处理图像中的目标对象(例如纸质文档)进行三维重建,确定待处理图像的三维重建结果,该三维重建结果也即用于对待处理图像中的目标对象(例如纸质文档)表面进行拟合的三维网格数据。例如,预先训练的三维重建网络可以包括下述至少一种:卷积神经网络(Convolutional Neural Networks,CNN)、反向传播神经网络(Back Propagation,BP)、骨干神经网络(Backbone Neural Network)。
示例性地,在确定三维重建网络结构时,例如可以先确定三维重建网络的骨干网络(Backbone Network),作为三维重建网络的主体架构,示例性的,骨干网络例如可以包括下述至少一种:编码网络(Encode)、解码网络(Decode)、起始网络(Inception)、残差网络变体网络(the next dimension to RESNET,ResNeXt)、起始网络变体网络(Xception)、挤压和激励网络(Squeeze-and-Excitation Networks,SENet)、轻量化网络(MobileNet)、以及轻量级网络(ShuffleNet)。
示例性地,三维重建网络包括卷积神经网络的情况下,还可选用轻量化网络(Mobilenet)作为卷积神经网络基础模型,在轻量化网络的基础上,增加其他网络结构,构成卷积神经网络,并对构成的卷积神经网络进行训练。该过程由于采用了轻量化网络作为卷积神经网络的一部分,且轻量化网络体积小、数据处理速度快,因此训练的速度也更快;同时,训练得到的三维重建网络同样具有体积小、数据处理速度快的优势,更适于部署在嵌入式设备中。
此处,上述三维重建网络的网络结构仅为一种示例,网络结构的具体结构可以按照实际情况确定,在此不再赘述,上述示例也不构成对本公开实施例的限定。
在步骤S12得到待处理图像的三维网格数据,可在步骤S13中,根据三维网格数据对待处理图像进行网格校正处理,得到校正图像。
示例性地,假设三维网格数据为非平整文档的三维重建结果,可以对三维网格数据进行各种变换,例如包括旋转变换、缩放变换、平移变换等,使三维网格数据中所有网格顶点移动到预设好的标准平面。
其中,为了提高处理效率,可以先设置一个目标三维网格数据,该目标三维网格数据的全部网格顶点都处于同一平面内,这样,将三维网格数据中所有网格顶点,移动至与目标三维网格数据重合,就可以使三维网格数据中所有网格顶点处于预设好的标准平面,也即目标三维网格数据所在的平面。
然后,可获取将三维网格数据中所有网格顶点移动到预设好的标准平面的变换信息,并根据该变换信息,对待处理图像进行网络校正处理,将待处理图像中扭转文档变平整,得到校正图像。
在步骤S13得到校正图像,可在步骤S14中,对校正图像进行画质增强处理,得到画质增强处理后的目标图像。
示例性地,为了改善视觉效果或者便于人或机器对校正图像的理解和分析,可对校正图像进行画质增强处理,有选择地突出便于人或机器分析的某些感兴趣信息,抑制一些无用信息,例如可将校正图像中光照不均匀部分和阴影去除,得到一个高画质的目标图像。
其中,画质增强处理可包括基于深度学习的画质增强法、基于空域的画质增法、基于频域的画质增强法等,本公开对画质增强处理的具体方法不作限制。
通过步骤S11~S14,能够对获取的待处理图像进行三维重建处理,得到待处理图像的三维网格数据,并根据三维网格数据对待处理图像进行网格校正处理,得到校正图像,然后,对校正图像进行画质增强处理,得到画质增强处理后的目标图像。本公开实施例的图像校正方法简单便捷,鲁棒性强,有利于更高效准确地将待处理图像包含的扭曲文档,校正为不存在歪斜与畸变、方便用户阅读以及文档存档的目标图像。
下面对本公开实施例的图像校正方法进行展开说明。
在实际的应用场景中,使用图像采集设备拍摄纸质文档的过程中,因为拍摄角度和范围的把控不当,可能会导致纸质文档在拍摄得到的原始图像中发生了明显歪斜且周围有很大的背景区域,不便于进行阅读以及存档处理。
所以,在使用图像采集设备拍摄纸质文档的过程中,如果拍摄角度和范围把控得当,可以将图像采集设备拍摄的关于纸质文档的原始图像直接作为待处理图像;如果拍摄角度和范围把控不当,可以先对图像采集设备拍摄的关于纸质文档的原始图像进行预处理操作,得到待处理图像。
在一种可能的实现方式中,步骤S11获取待处理图像,可包括:获取原始图像,所述原始图像包括图像采集设备拍摄的纸质文档图像;对所述原始图像进行目标检测,确定原始图像中纸质文档的位置信息;根据所述位置信息,对所述原始图像进行投影变换,得到投影变换后的所述待处理图像。
图2示出根据本公开实施例的获取待处理图像的示意图。下面以图2为例,对本公开实施例获取待处理图像的过程进行说明。
可以使用图像采集设备对纸质文档进行拍摄,得到如图2中21部分所示的原始图像。然后,可将原始图像输入训练好的目标检测网络,对原始图像进行目标检测,确定原始图像中纸质文档的位置信息。如图2中22部分所示,原始图像中纸质文档的位置信息可用四个点的坐标位置表示,即:原始图像中纸质文档区域左上点的坐标位置(x0’,y0’)、右上点的坐标位置(x1’,y1’)、左下点的坐标位置(x2’,y2’)、右下点的坐标位置(x3’,y3’)。这四个点可表示纸质文档区域的四边形顶点。
其中,目标检测网络可以包括下述至少一种:卷积神经网络(ConvolutionalNeural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)、深度神经网络(Deep Neural Networks,DNN)、基于深度学习的网络(You Only Look Once,Yolo)、残差网络(Residual Networks,ResNets)、反向传播神经网络(Back Propagation,BP)、骨干神经网络(Backbone Neural Network)等,本公开对此不作限制。
其中,目标检测网络可以通过训练数据集训练得到,该训练数据集中的样本数据可以用3D引擎生成。例如,可将纸质文档图像在3D引擎中随意摆放,使用模拟相机在各种视角下随意拍摄,每次拍摄所保存的图像和对应的四个纸质文档顶点的坐标,可作为一个样本数据。
应当理解,3D引擎是将现实中的物质抽象为多边形或者各种曲线等表现形式,在计算机中进行相关计算并输出最终图像的算法实现的集合,3D引擎就像是在计算机内建立一个虚拟的“真实的世界”,3D引擎例如包括blender软件,UE软件,Unity软件,Maya软件等,本公开对此不作限制。
在确定出原始图像中纸质文档的位置信息,可根据原始图像中纸质文档的位置信息,即:原始图像中纸质文档区域左上点的坐标位置(x0’,y0’)、右上点的坐标位置(x1’,y1’)、左下点的坐标位置(x2’,y2’)、右下点的坐标位置(x3’,y3’),对这四个顶点的坐标进行投影变换,使得四边形变成矩形,将纸质文档区域摆正,得到如图2中23部分所示的待处理图像,在待处理图像中,纸质文档区域左上点的坐标位置为(x0,y0)、右上点的坐标位置为(x1,y1)、左下点的坐标位置为(x2,y2)、右下点的坐标位置为(x3,y3)。
通过这种方式,可以先用深度学习方法检测出原始图像中的纸质文档区域,并对其进行投影变换校正,得到初步校正后的待处理图像,有利于提高后续步骤进行校正处理的效率和准确度。
在步骤S11获取了待处理图像,可在步骤S12中,对待处理图像进行三维重建处理,得到待处理图像的三维网格数据。
在一种可能的实现方式中,在步骤12中对待处理图像进行三维重建处理之前,可包括:获取训练数据集,其中,所述训练数据集包括至少一个样本数据,所述样本数据包括扭曲文档图像,以及所述扭曲文档图像对应的第一三维网格数据,所述扭曲文档图像包括基于布料模拟系统生成的图像,所述布料模拟系统用于模拟物理文档受重力影响产生变形后,生成的扭曲文档;对所述训练数据集进行主成分分析处理,确定所述训练数据集对应的正交基和网格顶点位置均值。
示例性地,图3示出根据本公开实施例的生成样本数据的示意图。如图3所示,生成样本数据原理可以是使用3D引擎的布料模拟系统,把平整的文档图像(例如专用扫描仪获取的扫描图像)作为矩形布料的贴图,然后,在布料背后放置随机形状的几何物体,令矩形布料在模拟重力作用下自然下垂,以形成形态各异的扭曲文档图像,以及每个扭曲文档图像对应的第一三维网络数据。
其中,3D引擎可将现实中的物质抽象为多边形或者各种曲线等表现形式,在计算机中进行相关计算并输出最终图像的算法实现的集合,使用3D引擎的布料模拟系统,包括不限于blender软件,UE软件,Unity软件,Maya软件等,本公开对此不作限制。
在获取了包括多个样本数据的训练数据集,可对训练数据集进行主成分分析(Principle Component Analysis,PCA)处理,即经过某种线性投影变换,将数据从较高维的线性空间映射至较低维的线性空间,并且期望在所投影的维度上信息量最大(方差最大),以此使用较少的数据维度,同时保留住较多的原数据的特征信息。
这样,就可以利用降维的思想,使降维后信息量损失最小,将训练数据集转化为少数的几个综合指标,即:训练数据集对应的正交基(B1,B2,B3,…,BN)和网格顶点位置均值X0。
通过这种方式,就可以得到用于重构训练数据集的正交基(B1,B2,B3,…,BN)和网格顶点位置均值X0,有利于后续更高效更准确地获取待处理图像的三维网格数据。
在确定训练数据集对应的正交基和网格顶点位置均值,可在步骤S12中,对待处理图像进行三维重建处理,得到待处理图像的三维网格数据。
在一种可能的实现方式中,可对所述待处理图像进行特征提取,确定所述待处理图像的第一特征信息,所述第一特征信息包括至少一个浮点系数;根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数,确定所述待处理图像的三维网格数据。
示例性地,图4示出根据本公开实施例的三维重建网络的示意图。如图4所示,可以将待处理图像输入训练好的三维重建网络,得到待处理图像的三维网格数据。
其中,可以先使用三维重建网络的特征提取模块,对待处理图像进行特征提取,确定待处理图像的第一特征信息,该第一特征信息包括N个浮点系数(t1,t2,t3,…,tN)。
然后,可根据这N个浮点系数(t1,t2,t3,…,tN),以及网格顶点位置均值X0、正交基(B1,B2,B3,…,BN),确定待处理图像的三维网格数据X’,例如,可以将正交基的线性组合( t1×B1 + t2×B2 + … + tN×BN)与网格顶点位置均值X0的和,作为三维网格数据X’,即:
X’ = X0 +( t1×B1 + t2×B2 + … + tN×BN) (1)
其中,可基于训练数据集,对初始状态的三维重建网络进行训练,得到训练好的目标状态的三维重建网络。
例如,可以将训练数据集的样本数据包括的扭曲文档图像输入初始状态的三维重建网络,得到预测的三维网格数据X’,可以将三维网格数据X’和样本数据包括的第一三维网格数据X输入第一损失函数loss1,得到第一损失loss1(X’,X)。
其中,第一损失函数loss1可以是平均绝对误差(Mean Absolute Error,MAE)损失函数、均方根误差(Root Mean Square Error,RMSE)损失函数、平均相对误差(MeanRelative Error,MAE)损失函数、均方对数误差(Mean Squared Log Error,MSLE)损失函数、均方误差(Mean Square Error,MSE)损失函数、交叉熵(Cross-entropy)损失函数等,本公开对第一损失函数loss1的类型不作限制。
利用第一损失loss1(X’,X)迭代地训练初始状态的三维重建网络的网络参数,直至网络参数收敛(或者训练的迭代次数达到预设次数),可结束对初始状态的三维重建网络的训练,得到训练好的目标状态的三维重建网络。
通过这种方式,基于三维重建网格获取的几个系数,即N个浮点系数(t1,t2,t3,…,tN),就可以准确地构建出待处理图像的三维网格数据,有利于降低构建三维网格数据的计算量,提高计算效率。
在一种可能的实现方式中,可获取所述待处理图像的线性系数;根据预设的顶点标准位置,所述线性系数,确定待处理图像的残差信息;根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数、所述残差信息,确定所述待处理图像的三维网格数据。
示例性地,图5示出根据本公开实施例的另一种三维重建网络的示意图。如图5所示,可以将待处理图像输入训练好的三维重建网络,得到待处理图像的三维网格数据。
其中,可以先使用三维重建网络的特征提取模块,对待处理图像进行特征提取,除了可以确定包括N个浮点系数(t1,t2,t3,…,tN)的第一特征信息,还可以并行地确定待处理图像的线性系数α=(α0, α1, α2)、β=(β0, β1, β2)、μ=(μ0, μ1, μ2)。
根据预设的顶点标准位置(x,y),线性系数α= (α0, α1, α2)、β= (β0, β1, β2)、μ=(μ0, μ1, μ2),确定待处理图像的残差信息C(x,y),即:
C(x,y)=[Cx(x,y),Cy(x,y),Cz(x,y)] (2)
其中,x和y分别代表三维网格顶点在预设的标准位置时的xy坐标,
Cx(x,y)=α0x+α1y+α2、Cy(x,y)=β0x+β1y+β2、Cz(x,y)=μ0x+μ1y+μ2。
根据网格顶点位置均值X0、正交基(B1,B2,B3,…,BN)、N个浮点系数(t1,t2,t3,…,tN),残差信息C(x,y),确定待处理图像的三维网格数据X’’,即:
X’’ = X0 +( t1×B1 + t2×B2 + … + tN×BN)+C(x,y) (3)
其中,可基于训练数据集,对初始状态的三维重建网络进行训练,得到训练好的目标状态的三维重建网络。
例如,可以将训练数据集的样本数据包括的扭曲文档图像输入初始状态的三维重建网络,得到预测的三维网格数据X’’,可以将三维网格数据X’’和样本数据包括的第一三维网格数据X输入第二损失函数loss2,得到第二损失loss2(X’’,X)。
其中,第二损失函数loss2可以是平均绝对误差(Mean Absolute Error,MAE)损失函数、均方根误差(Root Mean Square Error,RMSE)损失函数、平均相对误差(MeanRelative Error,MAE)损失函数、均方对数误差(Mean Squared Log Error,MSLE)损失函数、均方误差(Mean Square Error,MSE)损失函数、交叉熵(Cross-entropy)损失函数等,本公开对第二损失函数loss2的类型不作限制。
利用第二损失loss2(X’’,X)迭代地训练初始状态的三维重建网络的网络参数,直至网络参数收敛(或者训练的迭代次数达到预设次数),可结束对初始状态的三维重建网络的训练,得到训练好的目标状态的三维重建网络。
通过这种方式,在三维重建网络增加了用于确定残差信息C(x,y)的线性系数α=(α0, α1, α2)、β=(β0, β1, β2)、μ=(μ0, μ1, μ2),有利于进一步提高三维网格数据的准确性。
在步骤S12得到待处理图像的三维网格数据,可在步骤S13中,根据三维网格数据对待处理图像进行网格校正处理,得到校正图像。
在一种可能的实现方式中,可获取所述三维网格数据和预设的目标三维网格数据之间的变换信息;根据所述变换信息,对所述待处理图像进行网格校正处理,得到校正图像。
示例性地,可对三维网格数据与预设的目标三维网格数据进行对齐处理,可使用迭代最近点(iteration closest points,ICP)方法,确定三维网格数据与目标三维网格数据之间的变换信息。
例如,假设三维网格数据mesh与预设的目标三维网格数据mesh’的变换信息为trans,例如包括缩放变换信息、旋转变换信息、以及平移变换信息等。
在三维网格数据mesh的变换信息trans与目标三维网格数据mesh’两者的差值最小(三维网格数据mesh的变换信息trans无限逼近目标三维网格数据mesh’,也即三维网格数据mesh与目标三维网格数据mesh’对齐)情况下,记录三维网格数据mesh与目标三维网格数据mesh’的变换信息trans。
根据变换信息trans,对待处理图像进行网格校正处理,得到校正图像。
图6示出根据本公开实施例的网格校正处理效果的示意图。如图6所示,左侧的图像代表待处理图像(例如扭曲文档图像),右侧的图像代表网格校正处理后的校正图像,右侧的校正图像去除了左侧待处理图像中的扭曲部分,使其变得更平整,更接近于扫描文档。
通过这种方式,可以得到更平整校正图像,更接近专用扫描仪扫描效果,有利于提升后续对其进行光学字符识别(Optical Character Recognition,OCR)处理的准确度。
在步骤S13得到校正图像,可在步骤S14中,对校正图像进行画质增强处理,得到画质增强处理后的目标图像。
在一种可能的实现方式中,可获取与所述校正图像对应的多项式曲面表示的目标光照系数,所述目标光照系数用于指示所述校正图像的明亮程度;根据所述目标光照系数,对所述校正图像进行画质增强处理,得到画质增强处理后的目标图像。
示例性地,可将校正图像输入训练好的用于预测目标光照系数的神经网络中进行处理,得到目标光照系数,可以表示为W=(w0 ,w1,w2,w3,w4,w5,w6,w7,w8,w9)。该光照系数W,可作为模拟光照面的多项式曲面(x3, y3, x2 y, xy2, x2, y2, xy, x, y, 1)的乘性系数,用于指示校正图像的明亮程度。应当理解,本公开的实施例以三阶的多项式曲面(x3, y3,x2 y, xy2, x2, y2, xy, x, y, 1)为例,本公开对多项式曲面的阶数和形式不作具体限制。
其中,用于预测目标光照系数的神经网络可以包括下述至少一种:卷积神经网络(Convolutional Neural Networks,CNN)、Transformer网格(一种基于自我关注的、用于序列的神经网络结构)、循环神经网络(Recurrent Neural Network,RNN)、深度神经网络(Deep Neural Networks,DNN)、残差网络(Residual Networks,ResNets)、反向传播神经网络(Back Propagation,BP)、骨干神经网络(Backbone Neural Network)等,本公开对此不作限制。
其中,用于预测目标光照系数的神经网络可以通过其对应的训练数据集训练得到,该训练数据集中的样本数据可以用3D引擎生成。其中,可以使用3D引擎渲染各种光照环境,样本数据可以包括各种光照环境下的文档图像,和其中对应的纯白光下的文档图像。
在确定了目标光照系数W,可以根据目标光照系数W,确定校正图像对应的多项式曲面表示的场F(W),即:
F(W) = (x3, y3, x2y, xy2, x2, y2, xy, x, y, 1) • W
= w0x3+w1y3+w2x2y+w3xy2+w4x2+w5y2 +w6xy+w7x+w8y+w9 (4)
其中,x和y表示校正图像中像素的坐标值。
然后,可以根据场F(W)对校正图像进行画质增强处理,得到画质增强处理后的目标图像。
图7示出根据本公开实施例的画质增强处理的示意图,如图7所示,左侧的图像代表校正图像,右侧的图像代表画质增强处理后的目标图像,右侧的目标图像的画质明显优于左侧的校正图像,右侧的目标图像去除了左侧校正图像中的光照不均匀效应和阴影,可具有更高的清晰度。
通过这种方式,有利于得到画质更优更清晰的目标图像,不仅利于对其内容的阅读与理解,而且有利于提升后续对其进行光学字符识别(Optical CharacterRecognition,OCR)处理的准确度。
综上所述,本公开的实施例可以先检测出拍摄的原始图像的文档区域,并对其进行投影变换,得到待处理图像,并对待处理图像进行三维重建处理,得到待处理图像的三维网格数据,并根据三维网格数据对待处理图像进行网格校正处理,得到校正图像,然后,对校正图像进行画质增强处理,得到画质增强处理后的目标图像。
本公开实施例的图像校正方法,可根据任意角度拍摄的单张原始图片,得到具有扫描效果的校正图像,简单便捷,鲁棒性强,应用场景广泛,有利于更高效准确地将待处理图像包含的扭曲文档,校正为不存在歪斜与畸变、方便用户阅读以及文档存档的目标图像,有利于提升后续对其进行光学字符识别(Optical Character Recognition,OCR)处理的准确度。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
此外,本公开还提供了图像校正装置、电子设备、计算机可读存储介质、程序,上述均可用来实现本公开提供的任一种图像校正方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
图8示出根据本公开实施例的图像校正装置的框图,如图8所示,所述装置包括:获取模块81,用于获取待处理图像。
重建模块82,用于对所述待处理图像进行三维重建处理,得到所述待处理图像的三维网格数据。
网格校正模块83,用于根据所述三维网格数据,对所述待处理图像进行网格校正处理,得到校正图像。
画质增强模块84,用于对所述校正图像进行画质增强处理,得到画质增强处理后的目标图像。
在一种可能的实现方式中,所述重建模块82用于:在对所述待处理图像进行三维重建处理,得到所述待处理图像的三维网格数据之前,获取训练数据集,其中,所述训练数据集包括至少一个样本数据,所述样本数据包括扭曲文档图像,以及所述扭曲文档图像对应的第一三维网格数据,所述扭曲文档图像包括基于布料模拟系统生成的图像,所述布料模拟系统用于模拟物理文档受重力影响产生变形后,生成的扭曲文档;对所述训练数据集进行主成分分析处理,确定所述训练数据集对应的正交基和网格顶点位置均值。
在一种可能的实现方式中,所述重建模块82用于:对所述待处理图像进行特征提取,确定所述待处理图像的第一特征信息,所述第一特征信息包括至少一个浮点系数;根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数,确定所述待处理图像的三维网格数据。
在一种可能的实现方式中,所述重建模块82用于:所述根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数,确定所述待处理图像的三维网格数据之前,获取所述待处理图像的线性系数;根据预设的顶点标准位置,所述线性系数,确定待处理图像的残差信息;根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数、所述残差信息,确定所述待处理图像的三维网格数据。
在一种可能的实现方式中,网格校正模块83用于:获取所述三维网格数据和预设的目标三维网格数据之间的变换信息;根据所述变换信息,对所述待处理图像进行网格校正处理,得到校正图像。
在一种可能的实现方式中,所述画质增强模块84用于:获取与所述校正图像对应的多项式曲面表示的目标光照系数,所述目标光照系数用于指示所述校正图像的明亮程度;根据所述目标光照系数,对所述校正图像进行画质增强处理,得到画质增强处理后的目标图像。
在一种可能的实现方式中,所述获取模块81用于:获取原始图像,所述原始图像包括图像采集设备拍摄的纸质文档图像;对所述原始图像进行目标检测,确定原始图像中纸质文档的位置信息;根据所述位置信息,对所述原始图像进行投影变换,得到投影变换后的所述待处理图像。
该方法与计算机系统的内部结构存在特定技术关联,且能够解决如何提升硬件运算效率或执行效果的技术问题(包括减少数据存储量、减少数据传输量、提高硬件处理速度等),从而获得符合自然规律的计算机系统内部性能改进的技术效果。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
本公开实施例还提出一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。
本公开实施例还提出一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
本公开实施例还提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述方法。
电子设备可以被提供为终端、服务器或其它形态的设备。
图9示出根据本公开实施例的一种电子设备800的框图。例如,电子设备800可以是用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等终端设备。
参照图9,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
输入/输出接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到电子设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如互补金属氧化物半导体(CMOS)或电荷耦合装置(CCD)图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如无线网络(Wi-Fi)、第二代移动通信技术(2G)、第三代移动通信技术(3G)、第四代移动通信技术(4G)、通用移动通信技术的长期演进(LTE)、第五代移动通信技术(5G)或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器804,上述计算机程序指令可由电子设备800的处理器820执行以完成上述方法。
图10示出根据本公开实施例的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器或终端设备。参照图10,电子设备1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理,一个有线或无线网络接口1950被配置为将电子设备1900连接到网络,和一个输入输出接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如微软服务器操作系统(Windows ServerTM),苹果公司推出的基于图形用户界面操作系统(Mac OS XTM),多用户多进程的计算机操作系统(UnixTM), 自由和开放原代码的类Unix操作系统(LinuxTM),开放原代码的类Unix操作系统(FreeBSDTM)或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (9)
1.一种图像校正方法,其特征在于,包括:
获取待处理图像;
对所述待处理图像进行三维重建处理,得到所述待处理图像的三维网格数据;
根据所述三维网格数据,对所述待处理图像进行网格校正处理,得到校正图像,其中,所述网格校正处理包括:获取将三维网格数据中所有网格顶点移动到预设好的标准平面的变换信息,并根据所述变换信息,对待处理图像进行网格校正处理,得到校正图像;
对所述校正图像进行画质增强处理,得到画质增强处理后的目标图像;
其中,在所述对所述待处理图像进行三维重建处理,得到所述待处理图像的三维网格数据之前,包括:
获取训练数据集;
对所述训练数据集进行主成分分析处理,确定所述训练数据集对应的正交基和网格顶点位置均值;
所述对所述待处理图像进行三维重建处理,得到所述待处理图像的三维网格数据,包括:
对所述待处理图像进行特征提取,确定所述待处理图像的第一特征信息,所述第一特征信息包括至少一个浮点系数;
根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数,确定所述待处理图像的三维网格数据。
2.根据权利要求1所述的方法,其特征在于,所述训练数据集包括至少一个样本数据,所述样本数据包括扭曲文档图像,以及所述扭曲文档图像对应的第一三维网格数据,所述扭曲文档图像包括基于布料模拟系统生成的图像,所述布料模拟系统用于模拟物理文档受重力影响产生变形后,生成的扭曲文档。
3.根据权利要求2所述的方法,其特征在于,所述根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数,确定所述待处理图像的三维网格数据之前,所述方法还包括:
获取所述待处理图像的线性系数;
根据预设的顶点标准位置,所述线性系数,确定待处理图像的残差信息;
所述根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数,确定所述待处理图像的三维网格数据,包括:
根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数、所述残差信息,确定所述待处理图像的三维网格数据。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述根据所述三维网格数据,对所述待处理图像进行网格校正处理,得到校正图像,包括:
获取所述三维网格数据和预设的目标三维网格数据之间的变换信息;
根据所述变换信息,对所述待处理图像进行网格校正处理,得到校正图像。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述对所述校正图像进行画质增强处理,得到画质增强处理后的目标图像,包括:
获取与所述校正图像对应的多项式曲面表示的目标光照系数,所述目标光照系数用于指示所述校正图像的明亮程度;
根据所述目标光照系数,对所述校正图像进行画质增强处理,得到画质增强处理后的目标图像。
6.根据权利要求1-3中任一项所述的方法,其特征在于,所述获取待处理图像,包括:
获取原始图像,所述原始图像包括图像采集设备拍摄的纸质文档图像;
对所述原始图像进行目标检测,确定原始图像中纸质文档的位置信息;
根据所述位置信息,对所述原始图像进行投影变换,得到投影变换后的所述待处理图像。
7.一种图像校正装置,其特征在于,包括:
获取模块,用于获取待处理图像;
重建模块,用于对所述待处理图像进行三维重建处理,得到所述待处理图像的三维网格数据;
网格校正模块,用于根据所述三维网格数据,对所述待处理图像进行网格校正处理,得到校正图像,其中,所述网格校正处理包括:获取将三维网格数据中所有网格顶点移动到预设好的标准平面的变换信息,并根据所述变换信息,对待处理图像进行网格校正处理,得到校正图像;
画质增强模块,用于对所述校正图像进行画质增强处理,得到画质增强处理后的目标图像;
其中,所述重建模块用于:在对所述待处理图像进行三维重建处理,得到所述待处理图像的三维网格数据之前,获取训练数据集,对所述训练数据集进行主成分分析处理,确定所述训练数据集对应的正交基和网格顶点位置均值;
对所述待处理图像进行特征提取,确定所述待处理图像的第一特征信息,所述第一特征信息包括至少一个浮点系数;根据所述网格顶点位置均值、所述正交基、所述至少一个浮点系数,确定所述待处理图像的三维网格数据。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1至6中任意一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至6中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211616579.5A CN115641280B (zh) | 2022-12-16 | 2022-12-16 | 图像校正方法及装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211616579.5A CN115641280B (zh) | 2022-12-16 | 2022-12-16 | 图像校正方法及装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115641280A CN115641280A (zh) | 2023-01-24 |
CN115641280B true CN115641280B (zh) | 2023-03-17 |
Family
ID=84947872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211616579.5A Active CN115641280B (zh) | 2022-12-16 | 2022-12-16 | 图像校正方法及装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115641280B (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2261859A1 (en) * | 2009-06-10 | 2010-12-15 | Thomson Licensing | Method for encoding/decoding a 3D mesh model that comprises one or more components |
US8463073B2 (en) * | 2010-11-29 | 2013-06-11 | Microsoft Corporation | Robust recovery of transform invariant low-rank textures |
CN106296745B (zh) * | 2015-05-26 | 2019-03-12 | 富士通株式会社 | 对文档图像进行校正的方法和装置 |
CN106778739B (zh) * | 2016-12-02 | 2019-06-14 | 中国人民解放军国防科学技术大学 | 一种曲面化变形文本页面图像矫正方法 |
US10832046B1 (en) * | 2018-10-23 | 2020-11-10 | Architecture Technology Corporation | Systems and methods for processing document images |
CN111626941A (zh) * | 2020-05-11 | 2020-09-04 | 东莞市七宝树教育科技有限公司 | 一种基于深度学习语义分割的文档矫正方法 |
CN112509106A (zh) * | 2020-11-17 | 2021-03-16 | 科大讯飞股份有限公司 | 文档图片展平方法、装置以及设备 |
CN113792730B (zh) * | 2021-08-17 | 2022-09-27 | 北京百度网讯科技有限公司 | 文档图像的矫正方法、装置、电子设备和存储介质 |
CN114255337A (zh) * | 2021-11-03 | 2022-03-29 | 北京百度网讯科技有限公司 | 文档图像的矫正方法、装置、电子设备及存储介质 |
-
2022
- 2022-12-16 CN CN202211616579.5A patent/CN115641280B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115641280A (zh) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110503703B (zh) | 用于生成图像的方法和装置 | |
US11017159B2 (en) | Enhancing documents portrayed in digital images | |
US20220222786A1 (en) | Image processing method, smart device, and computer readable storage medium | |
WO2020199730A1 (zh) | 文本识别方法及装置、电子设备和存储介质 | |
JP7118244B2 (ja) | グラフィックコード認識方法及び装置、並びに、端末及びプログラム | |
JP7106687B2 (ja) | 画像生成方法および装置、電子機器、並びに記憶媒体 | |
CN112802033B (zh) | 图像处理方法及装置、计算机可读存储介质和电子设备 | |
US20190155883A1 (en) | Apparatus, method and computer program product for recovering editable slide | |
CN112184787A (zh) | 图像配准方法及装置、电子设备和存储介质 | |
CN112991381A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN110874809A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN113822798B (zh) | 生成对抗网络训练方法及装置、电子设备和存储介质 | |
CN114581542A (zh) | 图像预览方法及装置、电子设备和存储介质 | |
CN117253054B (zh) | 一种光场显著性检测方法及其相关设备 | |
CN113660531A (zh) | 视频处理方法及装置、电子设备和存储介质 | |
CN110633773B (zh) | 用于终端设备的二维码生成方法和装置 | |
CN112990197A (zh) | 车牌识别方法及装置、电子设备和存储介质 | |
CN115641280B (zh) | 图像校正方法及装置、电子设备和存储介质 | |
CN112597944A (zh) | 关键点检测方法及装置、电子设备和存储介质 | |
CN112613447A (zh) | 关键点检测方法及装置、电子设备和存储介质 | |
CN111931781A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN106682717B (zh) | 一种半色调二维码的生成方法和系统 | |
CN113538310A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN112258392A (zh) | 一种超分辨图像训练方法、装置、介质及设备 | |
CN113012052A (zh) | 图像处理方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |