CN113012075A - 一种图像矫正方法、装置、计算机设备及存储介质 - Google Patents

一种图像矫正方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113012075A
CN113012075A CN202110436837.0A CN202110436837A CN113012075A CN 113012075 A CN113012075 A CN 113012075A CN 202110436837 A CN202110436837 A CN 202110436837A CN 113012075 A CN113012075 A CN 113012075A
Authority
CN
China
Prior art keywords
image
image data
correction
model
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110436837.0A
Other languages
English (en)
Inventor
孙超
张蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110436837.0A priority Critical patent/CN113012075A/zh
Publication of CN113012075A publication Critical patent/CN113012075A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • G06T5/80
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06T5/70
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Abstract

本申请实施例属于人工智能中的图像处理技术领域,涉及一种图像矫正方法、装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,用户的原始图像数据可存储于区块链中。本申请通过获取原始图像数据的表格线mask图像,该表格线mask图像作为该原始图像数据的描述子,再将该表格线mask图像输入至训练好的图像矫正模型以进行矫正映射操作,得到矫正映射矩阵,最后将该矫正映射矩阵作用于该原始图像数据进行图像矫正操作,使得原始扭曲的图像数据能够矫正成为相对平整的图像数据,本申请相较于传统的图像矫正方法具有更强的鲁棒性,恢复的效果更加平滑,有效提升后续文本检测和识别模块的性能。

Description

一种图像矫正方法、装置、计算机设备及存储介质
技术领域
本申请涉及人工智能中的图像处理技术领域,尤其涉及一种图像矫正方法、装置、计算机设备及存储介质。
背景技术
随着智能手机的普及,文档照片的分析和识别已成为数字化归档的普遍方式,如在AI核保领域每天都有大量清单和表格照片需要进行识别归档。但是,由于物理文档保存或拍照常常存在扭曲和变形,对文字识别以及结构化信息抽取带来了巨大挑战。
现有一种图像矫正方法,基于3D建模的实现原理,采用各种测量仪器(例如结构光投影仪)测量原始图像的3D扭曲数据,再对该3D扭曲数据进行数据矫正操作,得到较为平滑的图像数据。
然而,申请人发现传统的图像矫正方法普遍不利于商业化推广,由于3D建模所采用的硬件以及软件极其精细化设计和昂贵校准硬件,从而导致传统的图像矫正方法需要消耗极大的成本,由此可见,传统的图像矫正方法存在成本过高、推广适用率较低的问题。
发明内容
本申请实施例的目的在于提出一种图像矫正方法、装置、计算机设备及存储介质,以解决传统的图像矫正方法存在成本过高、推广适用率较低的问题。
为了解决上述技术问题,本申请实施例提供一种图像矫正方法,采用了如下所述的技术方案:
接收用户终端发送的图像矫正请求,所述图像矫正请求至少携带有原始图像数据;
将所述原始图像数据输入至表格线识别模型进行表格线生成操作,得到原始掩膜图像;
将所述原始掩膜图像输入至训练好的图像矫正模型进行矫正映射操作,得到矫正映射矩阵;
基于所述矫正映射矩阵对所述原始图像数据进行图像矫正操作,得到目标图像数据;
向所述用户终端发送所述目标图像数据。
为了解决上述技术问题,本申请实施例还提供一种图像矫正装置,采用了如下所述的技术方案:
请求接收模块,用于接收用户终端发送的图像矫正请求,所述图像矫正请求至少携带有原始图像数据;
表格线生成模块,用于将所述原始图像数据输入至表格线识别模型进行表格线生成操作,得到原始掩膜图像;
矫正映射模块,用于将所述原始掩膜图像输入至训练好的图像矫正模型进行矫正映射操作,得到矫正映射矩阵;
图像矫正模块,用于基于所述矫正映射矩阵对所述原始图像数据进行图像矫正操作,得到目标图像数据;
目标图像输出模块,用于向所述用户终端输出所述目标图像数据。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的图像矫正方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的图像矫正方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请提供了一种图像矫正方法,包括:接收用户终端发送的图像矫正请求,所述图像矫正请求至少携带有原始图像数据;将所述原始图像数据输入至表格线识别模型进行表格线生成操作,得到原始掩膜图像;将所述原始掩膜图像输入至训练好的图像矫正模型进行矫正映射操作,得到矫正映射矩阵;基于所述矫正映射矩阵对所述原始图像数据进行图像矫正操作,得到目标图像数据;向所述用户终端发送所述目标图像数据。通过获取原始图像数据的表格线mask图像,该表格线mask图像作为该原始图像数据的描述子,再将该表格线mask图像输入至训练好的图像矫正模型以进行矫正映射操作,得到矫正映射矩阵,最后将该矫正映射矩阵作用于该原始图像数据进行图像矫正操作,使得原始扭曲的图像数据能够矫正成为相对平整的图像数据,本申请相较于传统的图像矫正方法具有更强的鲁棒性,恢复的效果更加平滑,有效提升后续文本检测和识别模块的性能。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的图像矫正方法的实现流程图;
图2是本申请实施例一提供的Unet网络的结构示意图;
图3是本申请实施例一提供的DocUNet模型的网络结构示意图;
图4是本申请实施例一提供的获取图像矫正模型方法的实现流程图;
图5是本申请实施例一提供的获取原始掩膜图像的实现流程图;
图6是本申请实施例一提供的U-Net网络构建方法的实现流程图;
图7是本申请实施例二提供的图像矫正装置的结构示意图;
图8是本申请实施例二提供的获取图像矫正模型装置的结构示意图;
图9是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
实施例一
如图1所示,示出了本申请实施例一提供的图像矫正方法的实现流程图,为了便于说明,仅示出与本申请相关的部分。
上述的图像矫正方法,包括以下步骤:
步骤S101、步骤S102、步骤S103、步骤S104以及步骤S105。
步骤S101:接收用户终端发送的图像矫正请求,图像矫正请求至少携带有原始图像数据。
在本申请实施例中,用户终端指的是用于执行本申请提供的预防证件滥用的图像处理方法的终端设备,该用户终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,应当理解,此处对用户终端的举例仅为方便理解,不用于限定本申请。
在本申请实施例中,原始图像数据指的是物理文档在保存或拍照的过程中导致采集到的图像出现扭曲或者变形,改原始图像数据若直接应用到后续的文字识别以及结构化信息抽取则会加大后续信息处理的难度,因此,需要对该原始图像数据进行图像矫正,以将原本扭曲变形的文档数字化数据展平成相对平整的图像数据。
步骤S102:将原始图像数据输入至表格线识别模型进行表格线生成操作,得到原始掩膜图像。
在本申请实施例中,表格线识别模型主要用于识别原始图像数据中的表格线数据,该表格线识别模型首先利用卷积进行下采样,然后提取出一层又一层的特征,利用这一层又一层的特征,其再进行上采样,最后得出该原始图像数据每个像素点对应表格线种类的图像,即上述原始掩膜图像。
在本申请实施例中,表格线识别模型可以采用Unet语义分割算法,参阅图2,Unet常用于边界模糊、梯度复杂,需要较多的高分辨率信息的医学图像领域。对于场景环境复杂,线段扭曲模糊的清单发票图像,Unet用来作表格线分割同样适合,本文在Unet的网络基础上增大了输入分辨率,将其用于表格线分割的网络模型即为该表格线识别模型。
在本申请实施例中,原始掩膜图像主要用于表征原始图像数据各个像素点的表格线类别。
步骤S103:将原始掩膜图像输入至训练好的图像矫正模型进行矫正映射操作,得到矫正映射矩阵。
在本申请实施例中,图像矫正模型是学习扭曲图像到原图的映射的矫正模型,图像矫正模型可以是原始docUnet模型,图像矫正模型还可以是在Dilated_DocUNet模型,其中,原始docUnet模型是逐像素偏移都需要作为特征进行学习,DocUNet模型的网络结构如图3所示。
原始docUnet模型是逐像素偏移都需要作为特征进行学习,往往会因为全局信息太大,局部细节恢复效果往往不够平滑。因此,本文采用LineUnet生成的表格线mask图像来作为描述子,将docNet模型的网络注意力attention到表格线上,在清单发票数据中,而表格线往往覆盖全局区域,所以学习到的迁移矩阵能更好表征全局信息,矫正的结果能更加的鲁棒和平滑。
在本申请实施例中,矫正映射矩阵主要用于在矫正过程中向各个像素点的调整方向、位置提供参考,在获得该矫正映射矩阵的情况下,原始图像数据可基于该矫正映射矩阵进行矫正调整。
步骤S104:基于矫正映射矩阵对原始图像数据进行图像矫正操作,得到目标图像数据。
在本申请实施例中,图像矫正操作指的是以得到矫正映射矩阵为参考,对原始图像数据中各个像素点进行调整的操作过程。
步骤S105:向用户终端发送目标图像数据。
本申请提供了一种图像矫正方法,包括:接收用户终端发送的图像矫正请求,图像矫正请求至少携带有原始图像数据;将原始图像数据输入至表格线识别模型进行表格线生成操作,得到原始掩膜图像;将原始掩膜图像输入至训练好的图像矫正模型进行矫正映射操作,得到矫正映射矩阵;基于矫正映射矩阵对原始图像数据进行图像矫正操作,得到目标图像数据;向用户终端发送目标图像数据。通过获取原始图像数据的表格线mask图像,该表格线mask图像作为该原始图像数据的描述子,再将该表格线mask图像输入至训练好的图像矫正模型以进行矫正映射操作,得到矫正映射矩阵,最后将该矫正映射矩阵作用于该原始图像数据进行图像矫正操作,使得原始扭曲的图像数据能够矫正成为相对平整的图像数据,本申请相较于传统的图像矫正方法具有更强的鲁棒性,恢复的效果更加平滑,有效提升后续文本检测和识别模块的性能。
继续参阅图4,示出了本申请实施例一提供的获取图像矫正模型方法的实现流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,在上述步骤S103之前,还包括:步骤S201、步骤S202以及步骤S203。
步骤S201:读取本地数据库,在本地数据库中获取标准图像数据。
在本申请实施例中,标准图像数据指的是平整的图像数据,作为示例,例如:PDF扫描件等;再例如:拍摄角度、质量较高的照片等,应当理解,此处对标准图像数据的举例说明仅为方便理解,不用于限定本申请。
步骤S202:对标准图像数据进行图像变形操作,得到变形图像数据。
在本申请实施例中,图像变形操作可以是:将标准图像数据进行网格分割,随机选择其中一个网格,对此网格进行变形,然后插入到该标准图像数据中,该标准图像数据按照网格的边界变化进行结合匹配,以得到该变形图像数据;或者在网格上选择一个随机边界点作为变形起点,通过随机设置的变形方向和强度对该标准图像数据进行变形,以得到该变形图像数据,其中,变形的方式至少包括:弯曲、折叠等等,此处不做限定。
步骤S203:将标准图像数据以及与标准图像数据相对应的变形图像数据作为训练数据集对初始图像矫正模型进行模型训练操作,得到训练好的图像矫正模型。
在本申请实施例中,图像矫正模型可以是采用多层次堆叠的带空洞卷积的Dilated_DocUNet模型,Dilated_DocUNet模型中的损失函数采用LeakyReLU,在Dilated_DocUNet模型通过训练文档图片和平整文档图片处理过程中采用小批量随机梯度下降法进行训练。
在本申请实施例中,图像矫正模型还可以是采用多层次堆叠的DocUNet模型,DocUNet模型中的损失函数采用LeakyReLU,在DocUNet模型通过训练文档图片和平整文档图片处理过程中采用小批量随机梯度下降法进行训练。
在本实施例的一些可选的实现方式中,图像矫正模型由多层次堆叠的带空洞卷积的Dilated_DocUNet模型组成。
在本申请实施例中,由于扩大了输入分辨率,本文在Unet的基础上将传统卷积(Convolution)改为了空洞卷积(Dilated Convolution)以同步获取更大感受野,对比传统的卷积操作,3层3x3的卷积加起来,stride为1的话,只能达到(kernel-1)*layer+1=7的感受野,也就是感受野和层数layer成线性关系,而Dilated Convolution的感受野也是呈指数级的增长。
继续参阅图5,示出了本申请实施例一提供的获取原始掩膜图像的实现流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,在步骤S102之前,还包括:还包括:步骤S401以及步骤S402;步骤S102具体包括:步骤S403。
步骤S401:将原始图像数据输入至语义分割模型进行语义分割操作,得到语义分割字段。
深度语义分割的原理包括:
1)下采样+上采样:Convlution+Deconvlution/Resize;
2)多尺度特征融合:特征逐点相加/特征channel维度拼接;
3)获得像素级别的segement map:对每一个像素点进行判断类别
其中,深度语义分割算法采用deeplab系列中的deeplabv3作为图像数据分割算法,结合多样的图像数据全字段分割数据集,实现全字段的图像数据分割。Deeplab系列算法的核心采用了空洞卷积(Dilated/Atrous Convolution)。空洞卷积实际上就是普通的卷积核中间插入了几个洞。不同采样率的空洞卷积可以有效捕获多尺度信息。将语义分割区域作为模型的输入,在分割模型中得图像数据的全字段mask图,根据mask中的label值,找出最大轮廓的矩形框得出相应的关键字段。
步骤S402:基于语义分割字段对原始图像数据进行字段标注操作,得到携带有字段文本框的中间图像数据。
在本申请实施例中,字段标注操作指的是在原始图像数据中,基于语义分割字段的位置,采用最小文本框覆盖至该语义分割字段,以得到携带有字段文本框的图像数据。
步骤S403:将中间图像数据输入至表格线识别模型进行表格线生成操作,得到原始掩膜图像。
在本申请实施例中,由于存在部分图像为纯文本图像,通过传统表格线无法识别该图像的描述子,通过在进行表格线生成操作之前,对原始图像数据的文本进行语义分割操作,得到各个文本的字段,再对该字段进行标注以得到携带有字段文本框的图像数据,最后将携带有字段文本框的图像数据输入至表格线识别模型,使得表格线识别模型能够基于该字段文本框确认表格线,进而能够准确的获取纯文本图像的表征信息。
继续参阅图6,示出了本申请实施例一提供的U-Net网络构建方法的实现流程图,为了便于说明,仅示出与本申请相关的部分。
在步骤S501中,搭建U-Net的下采样层。
在本申请实施例中,下采样层由多个(例如4个)卷积模块组成,每个卷积模块由两个3*3的卷积层、一个ReLU和一个2*2的最大池化层组成。
在步骤S502中,搭建U-Net的上采样层。
在本申请实施例中,上采样层由多个(例如4个)反卷积模块组成,每个反卷积模块由一个2*2的反卷积(Up-Convolution)层、两个3*3的卷积层和一个ReLU组成。
在步骤S503中,基于Skip Connection连接下采样层以及上采样层。
在本申请实施例中,将下采样层中卷积模块输出的特征层连接到相应上采样层的反卷积模块中,同上一层反卷积模块输入串联,一同作为输入特征。
在步骤S504中,搭建Dropout层。
在本申请实施例中,为避免网络训练过程发生过拟合,在下采样层中加入Dropout层。
在步骤S505中,搭建U-Net的网络输出模块。
在本申请实施例中,将上采样层的输出通过一个2*2和一个1*1的卷积层后得到U-Net的最终输出。从而保证U-Net可以对像素进行端到端的分割,即输入一幅图像,输出也是一幅同样大小的图像。
在步骤S506中,设置U-Net的网络参数。
在本申请实施例中,U-Net的网络参数设置包括卷积和反卷积模块数、优化器、损失函数、激活函数和Dropout等。本实施例中,数据集ISAR图片大小为128*128,因此U-Net网络下采样层设置为5个卷积模块,卷积处理后的特征维数依次设为16-32-64-128-256,相应的上采样层由5个反卷积模块组成,输出的特征维数依次设为128-64-32-16,两者成对称结构。由于输出层的输出为图像,因此除输出层的激活函数选用Sigmoid函数外,其他层的激活函数均选用ReLU函数。优化器选用结合了AdaGrad和RMSProp两种优化算法优点的Adam优化器,对内存需求更少,计算更高效。为了防止训练过程过拟合,设置Dropout层为50%的丢弃比例,即Dropout层将在训练过程中每次更新参数时随机断开50%的输入神经元连接。最后网络的损失函数选用二元交叉熵函数。
在本实施例的一些可选的实现方式中,表格线识别模型结合有空洞卷积。
在本申请实施例中,由于扩大了输入分辨率,本文在unet的基础上将传统卷积(Convolution)改为了空洞卷积(Dilated Convolution)以同步获取更大感受野,对比传统的卷积操作,3层3x3的卷积加起来,stride为1的话,只能达到(kernel-1)*layer+1=7的感受野,也就是感受野和层数layer成线性关系,而Dilated Convolution的感受野也是呈指数级的增长。
综上,本申请提供了一种图像矫正方法,包括:接收用户终端发送的图像矫正请求,图像矫正请求至少携带有原始图像数据;将原始图像数据输入至表格线识别模型进行表格线生成操作,得到原始掩膜图像;将原始掩膜图像输入至训练好的图像矫正模型进行矫正映射操作,得到矫正映射矩阵;基于矫正映射矩阵对原始图像数据进行图像矫正操作,得到目标图像数据;向用户终端发送目标图像数据。通过获取原始图像数据的表格线mask图像,该表格线mask图像作为该原始图像数据的描述子,再将该表格线mask图像输入至训练好的图像矫正模型以进行矫正映射操作,得到矫正映射矩阵,最后将该矫正映射矩阵作用于该原始图像数据进行图像矫正操作,使得原始扭曲的图像数据能够矫正成为相对平整的图像数据,本申请相较于传统的图像矫正方法具有更强的鲁棒性,恢复的效果更加平滑,有效提升后续文本检测和识别模块的性能。
需要强调的是,为进一步保证上述原始图像数据的私密和安全性,上述原始图像数据还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图7,作为对上述图1所示方法的实现,本申请提供了一种图像矫正装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例的图像矫正装置100包括:请求接收模块110、表格线生成模块120、矫正映射模块130、图像矫正模块140以及目标图像输出模块150。其中:
请求接收模块110,用于接收用户终端发送的图像矫正请求,图像矫正请求至少携带有原始图像数据;
表格线生成模块120,用于将原始图像数据输入至表格线识别模型进行表格线生成操作,得到原始掩膜图像;
矫正映射模块130,用于将原始掩膜图像输入至训练好的图像矫正模型进行矫正映射操作,得到矫正映射矩阵;
图像矫正模块140,用于基于矫正映射矩阵对原始图像数据进行图像矫正操作,得到目标图像数据;
目标图像输出模块150,用于向用户终端输出目标图像数据。
在本申请实施例中,用户终端指的是用于执行本申请提供的预防证件滥用的图像处理方法的终端设备,该用户终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,应当理解,此处对用户终端的举例仅为方便理解,不用于限定本申请。
在本申请实施例中,原始图像数据指的是物理文档在保存或拍照的过程中导致采集到的图像出现扭曲或者变形,改原始图像数据若直接应用到后续的文字识别以及结构化信息抽取则会加大后续信息处理的难度,因此,需要对该原始图像数据进行图像矫正,以将原本扭曲变形的文档数字化数据展平成相对平整的图像数据。
在本申请实施例中,表格线识别模型主要用于识别原始图像数据中的表格线数据,该表格线识别模型首先利用卷积进行下采样,然后提取出一层又一层的特征,利用这一层又一层的特征,其再进行上采样,最后得出该原始图像数据每个像素点对应表格线种类的图像,即上述原始掩膜图像。
在本申请实施例中,表格线识别模型可以采用Unet语义分割算法,Unet常用于边界模糊、梯度复杂,需要较多的高分辨率信息的医学图像领域。对于场景环境复杂,线段扭曲模糊的清单发票图像,Unet用来作表格线分割同样适合,本文在Unet的网络基础上增大了输入分辨率,将其用于了表格线分割的网络模型称之为LineUnet。
在本申请实施例中,原始掩膜图像主要用于表征原始图像数据各个像素点的表格线类别。
在本申请实施例中,图像矫正模型是学习扭曲图像到原图的映射的矫正模型,图像矫正模型可以是原始docUnet模型,图像矫正模型还可以是在Dilated_DocUNet模型,其中,原始docUnet模型是逐像素偏移都需要作为特征进行学习,DocUNet模型的网络结构如图3所示。
原始docUnet模型是逐像素偏移都需要作为特征进行学习,往往会因为全局信息太大,局部细节恢复效果往往不够平滑。因此,本文采用LineUnet生成的表格线mask图像来作为描述子,将docNet模型的网络注意力attention到表格线上,在清单发票数据中,而表格线往往覆盖全局区域,所以学习到的迁移矩阵能更好表征全局信息,矫正的结果能更加的鲁棒和平滑。
在本申请实施例中,矫正映射矩阵主要用于在矫正过程中向各个像素点的调整方向、位置提供参考,在获得该矫正映射矩阵的情况下,原始图像数据可基于该矫正映射矩阵进行矫正调整。
在本申请实施例中,图像矫正操作指的是以得到矫正映射矩阵为参考,对原始图像数据中各个像素点进行调整的操作过程。
本申请提供了一种图像矫正装置,通过获取原始图像数据的表格线mask图像,该表格线mask图像作为该原始图像数据的描述子,再将该表格线mask图像输入至训练好的图像矫正模型以进行矫正映射操作,得到矫正映射矩阵,最后将该矫正映射矩阵作用于该原始图像数据进行图像矫正操作,使得原始扭曲的图像数据能够矫正成为相对平整的图像数据,本申请相较于传统的图像矫正方法具有更强的鲁棒性,恢复的效果更加平滑,有效提升后续文本检测和识别模块的性能。
继续参阅图8,示出了本申请实施例二提供的获取图像矫正模型装置的结构示意图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,上述图像矫正装置100还包括:标准图像获取模块160、图像变形模块170以及模型训练模块180。其中:
标准图像获取模块160,用于读取本地数据库,在本地数据库中获取标准图像数据;
图像变形模块170,用于对标准图像数据进行图像变形操作,得到变形图像数据;
模型训练模块180,用于将标准图像数据以及与标准图像数据相对应的变形图像数据作为训练数据集对初始图像矫正模型进行模型训练操作,得到训练好的图像矫正模型。
在本申请实施例中,标准图像数据指的是平整的图像数据,作为示例,例如:PDF扫描件等;再例如:拍摄角度、质量较高的照片等,应当理解,此处对标准图像数据的举例说明仅为方便理解,不用于限定本申请。
在本申请实施例中,图像变形操作可以是:将标准图像数据进行网格分割,随机选择其中一个网格,对此网格进行变形,然后插入到该标准图像数据中,该标准图像数据按照网格的边界变化进行结合匹配,以得到该变形图像数据;或者在网格上选择一个随机边界点作为变形起点,通过随机设置的变形方向和强度对该标准图像数据进行变形,以得到该变形图像数据,其中,变形的方式至少包括:弯曲、折叠等等,此处不做限定。
在本申请实施例中,图像矫正模型可以是采用多层次堆叠的带空洞卷积的Dilated_DocUNet模型,Dilated_DocUNet模型中的损失函数采用LeakyReLU,在Dilated_DocUNet模型通过训练文档图片和平整文档图片处理过程中采用小批量随机梯度下降法进行训练。
在本申请实施例中,图像矫正模型还可以是采用多层次堆叠的DocUNet模型,DocUNet模型中的损失函数采用LeakyReLU,在DocUNet模型通过训练文档图片和平整文档图片处理过程中采用小批量随机梯度下降法进行训练。
在本实施例的一些可选的实现方式中,图像矫正模型由多层次堆叠的带空洞卷积的Dilated_DocUNet模型组成。
在本实施例的一些可选的实现方式中,上述图像矫正装置100还包括:语义分割模块以及字段标注模块,上述表格线生成模块120具体包括:表格线生成子模块。其中:
语义分割模块,用于将原始图像数据输入至语义分割模型进行语义分割操作,得到语义分割字段;
字段标注模块,用于基于语义分割字段对原始图像数据进行字段标注操作,得到携带有字段文本框的中间图像数据;
表格线生成子模块,用于将中间图像数据输入至表格线识别模型进行表格线生成操作,得到原始掩膜图像。
在本实施例的一些可选的实现方式中,上述图像矫正装置100还包括:下采样层搭建模块、上采样层搭建模块、连接模块、Dropout层搭建模块、输出模块搭建模块以及网络参数设置模块。
下采样层搭建模块,用于搭建所述U-Net的下采样层;
上采样层搭建模块,用于搭建所述U-Net的上采样层;
连接模块,用于基于Skip Connection连接所述下采样层以及所述上采样层;
Dropout层搭建模块,用于搭建所述Dropout层;
输出模块搭建模块,用于搭建所述U-Net的网络输出模块;
网络参数设置模块,用于设置所述U-Net的网络参数。
在本实施例的一些可选的实现方式中,表格线识别模型结合有空洞卷积。
综上,本申请提供的图像矫正装置,包括:请求接收模块,用于接收用户终端发送的图像矫正请求,图像矫正请求至少携带有原始图像数据;表格线生成模块,用于将原始图像数据输入至表格线识别模型进行表格线生成操作,得到原始掩膜图像;矫正映射模块,用于将原始掩膜图像输入至训练好的图像矫正模型进行矫正映射操作,得到矫正映射矩阵;图像矫正模块,用于基于矫正映射矩阵对原始图像数据进行图像矫正操作,得到目标图像数据;目标图像输出模块,用于向用户终端输出目标图像数据。通过获取原始图像数据的表格线mask图像,该表格线mask图像作为该原始图像数据的描述子,再将该表格线mask图像输入至训练好的图像矫正模型以进行矫正映射操作,得到矫正映射矩阵,最后将该矫正映射矩阵作用于该原始图像数据进行图像矫正操作,使得原始扭曲的图像数据能够矫正成为相对平整的图像数据,本申请相较于传统的图像矫正方法具有更强的鲁棒性,恢复的效果更加平滑,有效提升后续文本检测和识别模块的性能。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图9,图9为本实施例计算机设备基本结构框图。
所述计算机设备200包括通过系统总线相互通信连接存储器210、处理器220、网络接口230。需要指出的是,图中仅示出了具有组件210-230的计算机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器210至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器210可以是所述计算机设备200的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述存储器210也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器210还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中,所述存储器210通常用于存储安装于所述计算机设备200的操作系统和各类应用软件,例如图像矫正方法的计算机可读指令等。此外,所述存储器210还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器220在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器220通常用于控制所述计算机设备200的总体操作。本实施例中,所述处理器220用于运行所述存储器210中存储的计算机可读指令或者处理数据,例如运行所述图像矫正方法的计算机可读指令。
所述网络接口230可包括无线网络接口或有线网络接口,该网络接口230通常用于在所述计算机设备200与其他电子设备之间建立通信连接。
本申请提供的计算机存储设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的图像矫正方法的步骤。通过获取原始图像数据的表格线mask图像,该表格线mask图像作为该原始图像数据的描述子,再将该表格线mask图像输入至训练好的图像矫正模型以进行矫正映射操作,得到矫正映射矩阵,最后将该矫正映射矩阵作用于该原始图像数据进行图像矫正操作,使得原始扭曲的图像数据能够矫正成为相对平整的图像数据,本申请相较于传统的图像矫正方法具有更强的鲁棒性,恢复的效果更加平滑,有效提升后续文本检测和识别模块的性能。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的图像矫正方法的步骤。
本申请提供的计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的图像矫正方法的步骤。通过获取原始图像数据的表格线mask图像,该表格线mask图像作为该原始图像数据的描述子,再将该表格线mask图像输入至训练好的图像矫正模型以进行矫正映射操作,得到矫正映射矩阵,最后将该矫正映射矩阵作用于该原始图像数据进行图像矫正操作,使得原始扭曲的图像数据能够矫正成为相对平整的图像数据,本申请相较于传统的图像矫正方法具有更强的鲁棒性,恢复的效果更加平滑,有效提升后续文本检测和识别模块的性能。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种图像矫正方法,其特征在于,包括下述步骤:
接收用户终端发送的图像矫正请求,所述图像矫正请求至少携带有原始图像数据;
将所述原始图像数据输入至表格线识别模型进行表格线生成操作,得到原始掩膜图像;
将所述原始掩膜图像输入至训练好的图像矫正模型进行矫正映射操作,得到矫正映射矩阵;
基于所述矫正映射矩阵对所述原始图像数据进行图像矫正操作,得到目标图像数据;
向所述用户终端发送所述目标图像数据。
2.根据权利要求1所述的图像矫正方法,其特征在于,在所述将所述原始掩膜图像输入至训练好的图像矫正模型进行矫正映射操作,得到矫正映射矩阵的步骤之前,还包括:
读取本地数据库,在所述本地数据库中获取标准图像数据;
对所述标准图像数据进行图像变形操作,得到变形图像数据;
将所述标准图像数据以及与所述标准图像数据相对应的变形图像数据作为训练数据集对初始图像矫正模型进行模型训练操作,得到所述训练好的图像矫正模型。
3.根据权利要求2所述的图像矫正方法,其特征在于,所述图像矫正模型由多层次堆叠的带空洞卷积的Dilated_DocUNet模型组成。
4.根据权利要求2所述的图像矫正方法,其特征在于,在所述将所述原始图像数据输入至表格线识别模型进行表格线生成操作,得到原始掩膜图像的步骤之前,还包括:
将所述原始图像数据输入至语义分割模型进行语义分割操作,得到语义分割字段;
基于所述语义分割字段对所述原始图像数据进行字段标注操作,得到携带有字段文本框的中间图像数据;
所述将所述原始图像数据输入至表格线识别模型进行表格线生成操作,得到原始掩膜图像的步骤具体包括:
将所述中间图像数据输入至表格线识别模型进行所述表格线生成操作,得到所述原始掩膜图像。
5.根据权利要求1所述的图像矫正方法,其特征在于,所述表格线识别模型结合有空洞卷积。
6.根据权利要求5所述的图像矫正方法,其特征在于,在所述接收用户终端发送的图像矫正请求,所述图像矫正请求至少携带有原始图像数据的步骤之后,还包括:
将所述原始图像数据存储至区块链中。
7.一种图像矫正装置,其特征在于,包括:
请求接收模块,用于接收用户终端发送的图像矫正请求,所述图像矫正请求至少携带有原始图像数据;
表格线生成模块,用于将所述原始图像数据输入至表格线识别模型进行表格线生成操作,得到原始掩膜图像;
矫正映射模块,用于将所述原始掩膜图像输入至训练好的图像矫正模型进行矫正映射操作,得到矫正映射矩阵;
图像矫正模块,用于基于所述矫正映射矩阵对所述原始图像数据进行图像矫正操作,得到目标图像数据;
目标图像输出模块,用于向所述用户终端输出所述目标图像数据。
8.根据权利要求7所述的图像矫正装置,其特征在于,所述装置还包括:
标准图像获取模块,用于读取本地数据库,在所述本地数据库中获取标准图像数据;
图像变形模块,用于对所述标准图像数据进行图像变形操作,得到变形图像数据;
模型训练模块,用于将所述标准图像数据以及与所述标准图像数据相对应的变形图像数据作为训练数据集对初始图像矫正模型进行模型训练操作,得到所述训练好的图像矫正模型。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述的图像矫正方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的图像矫正方法的步骤。
CN202110436837.0A 2021-04-22 2021-04-22 一种图像矫正方法、装置、计算机设备及存储介质 Pending CN113012075A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110436837.0A CN113012075A (zh) 2021-04-22 2021-04-22 一种图像矫正方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110436837.0A CN113012075A (zh) 2021-04-22 2021-04-22 一种图像矫正方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113012075A true CN113012075A (zh) 2021-06-22

Family

ID=76389112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110436837.0A Pending CN113012075A (zh) 2021-04-22 2021-04-22 一种图像矫正方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113012075A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113724163A (zh) * 2021-08-31 2021-11-30 平安科技(深圳)有限公司 基于神经网络的图像矫正方法、装置、设备及介质
CN114966693A (zh) * 2022-07-20 2022-08-30 南京信息工程大学 基于深度学习的机载舰船目标isar精细化成像方法
CN117557447A (zh) * 2024-01-11 2024-02-13 深圳智能思创科技有限公司 图像还原方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064007A (zh) * 2006-04-29 2007-10-31 北大方正集团有限公司 一种表格图像几何畸变的数字校正方法
CN109933756A (zh) * 2019-03-22 2019-06-25 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN111709338A (zh) * 2020-06-08 2020-09-25 苏州超云生命智能产业研究院有限公司 一种用于表格检测的方法、装置及检测模型的训练方法
CN111814722A (zh) * 2020-07-20 2020-10-23 电子科技大学 一种图像中的表格识别方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064007A (zh) * 2006-04-29 2007-10-31 北大方正集团有限公司 一种表格图像几何畸变的数字校正方法
CN109933756A (zh) * 2019-03-22 2019-06-25 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN111709338A (zh) * 2020-06-08 2020-09-25 苏州超云生命智能产业研究院有限公司 一种用于表格检测的方法、装置及检测模型的训练方法
CN111814722A (zh) * 2020-07-20 2020-10-23 电子科技大学 一种图像中的表格识别方法、装置、电子设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113724163A (zh) * 2021-08-31 2021-11-30 平安科技(深圳)有限公司 基于神经网络的图像矫正方法、装置、设备及介质
CN114966693A (zh) * 2022-07-20 2022-08-30 南京信息工程大学 基于深度学习的机载舰船目标isar精细化成像方法
CN114966693B (zh) * 2022-07-20 2022-11-04 南京信息工程大学 基于深度学习的机载舰船目标isar精细化成像方法
CN117557447A (zh) * 2024-01-11 2024-02-13 深圳智能思创科技有限公司 图像还原方法、装置、设备及存储介质
CN117557447B (zh) * 2024-01-11 2024-04-26 深圳智能思创科技有限公司 图像还原方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN113012075A (zh) 一种图像矫正方法、装置、计算机设备及存储介质
WO2023035531A1 (zh) 文本图像超分辨率重建方法及其相关设备
CN110874618B (zh) 基于小样本的ocr模板学习方法、装置、电子设备及介质
CN112668588B (zh) 车位信息生成方法、装置、设备和计算机可读介质
CN112560861A (zh) 票据处理方法、装置、设备及存储介质
CN112016502B (zh) 安全带检测方法、装置、计算机设备及存储介质
CN112085094B (zh) 单证图像翻拍检测方法、装置、计算机设备和存储介质
CN112330331A (zh) 基于人脸识别的身份验证方法、装置、设备及存储介质
CN111291753A (zh) 基于图像的文本识别方法、装置及存储介质
CN112686243A (zh) 智能识别图片文字的方法、装置、计算机设备及存储介质
CN111104941B (zh) 图像方向纠正方法、装置及电子设备
CN103955713B (zh) 一种图标识别方法和装置
CN112418206B (zh) 基于位置检测模型的图片分类方法及其相关设备
CN112581344A (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN112380978A (zh) 基于关键点定位的多人脸检测方法、系统及存储介质
CN112434746A (zh) 基于层次化迁移学习的预标注方法及其相关设备
CN112287653B (zh) 产生电子合同的方法、计算设备和计算机存储介质
CN112395834B (zh) 基于图片输入的脑图生成方法、装置、设备及存储介质
CN114627170A (zh) 三维点云配准方法、装置、计算机设备及存储介质
CN112036501A (zh) 基于卷积神经网络的图片的相似度检测方法及其相关设备
CN113780294A (zh) 文本字符分割的方法和装置
CN112395450A (zh) 图片文字检测方法、装置、计算机设备及存储介质
CN111582143A (zh) 基于图像识别的学生课堂签到方法、装置及存储介质
CN112651399B (zh) 检测倾斜图像中同行文字的方法及其相关设备
CN114764858B (zh) 一种复制粘贴图像识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination