CN109635714A - 文档扫描图像的矫正方法及装置 - Google Patents
文档扫描图像的矫正方法及装置 Download PDFInfo
- Publication number
- CN109635714A CN109635714A CN201811493916.XA CN201811493916A CN109635714A CN 109635714 A CN109635714 A CN 109635714A CN 201811493916 A CN201811493916 A CN 201811493916A CN 109635714 A CN109635714 A CN 109635714A
- Authority
- CN
- China
- Prior art keywords
- picture
- file
- image
- light beam
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Facsimile Scanning Arrangements (AREA)
Abstract
本发明提供一种文档扫描图像的矫正方法及装置,涉及档案管理技术领域。该文档扫描图像的矫正方法包括:获取扫描后的文档图像和文档图像的不同角度方向光束的投影值,根据文档图像不同角度方向光束的投影值确定文档图像的偏斜角度,判断文档图像的偏斜角度是否大于预设阈值,如果大于预设阈值,则确定文档图像为偏斜图像,基于图片生成网络模型和图片生成网络模型的训练权重值,得到偏斜图像的矫正图像,该方法降低了人力成本,同时提高了文档扫描的效率。
Description
技术领域
本发明涉及档案管理技术领域,具体而言,涉及一种文档扫描图像的矫正方法及装置。
背景技术
档案信息一般用纸质文档存储在档案室里面,查找检索起来非常费时,存储档案空间又大,维护起来也不方便,备份档案需要大量的人力物力,人工处理更不可靠,随着档案信息数字化的发展,将纸质文档通过扫描和录入信息到计算机数据库中,以计算机存储档案信息,使得档案信息的检索更快捷方便,给人们带来了很大的便利性。
但是,在档案信息扫描过程中,一些人为或设备因素,不可避免可能使得文档扫描图像发生一定程度偏斜。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种文档扫描图像的矫正方法及装置,以解决在档案信息扫描过程中,文档扫描图像发生偏斜的问题。
为实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种文档扫描图像的矫正方法,所述方法包括:获取扫描后的文档图像和所述文档图像的不同角度方向光束的投影值,根据所述文档图像不同角度方向光束的投影值确定所述文档图像的偏斜角度,判断所述文档图像的偏斜角度是否大于预设阈值,如果大于所述预设阈值,则确定所述文档图像为偏斜图像,基于图片生成网络模型和所述图片生成网络模型的训练权重值,得到所述偏斜图像的矫正图像。
一种实现方法中,所述获取扫描后的文档图像和所述文档图像的不同角度方向光束的投影值的步骤,包括:获取扫描后的文档图像的像素和所述文档图像的像素在不同角度方向光束的投影值。
一种实现方法中,所述根据所述文档图像不同角度方向光束的投影值确定所述文档图像的偏斜角度的步骤,包括:分别将所述文档图像的各个像素在同一角度方向光束的投影值进行累加求和,得到所述文档图像的各个像素在不同角度方向光束的投影值,确定所述文档图像的各个像素在不同角度方向光束的投影值中的最小值,根据所述最小值所对应的光束角度得到所述文档图像的偏斜角度。
一种实现方法中,所述方法还包括:根据预设的正常文档图像集合和根据所述预设的正常文档图像集合生成的偏斜图像集合,基于串连双U-Net为网络架构完成网络训练,得到所述偏斜图像集合矫正为所述正常文档图像集合的图片生成网络模型和所述图片生成网络模型的所述训练权重值。
第二方面,本发明实施例还提供了一种文档扫描图像的矫正装置,所述装置包括:获取模块、检测模块和矫正模块,所述获取模块、所述检测模块和所述矫正模块依次连接,所述获取模块用于获取扫描后的文档图像和所述文档图像的不同角度方向光束的投影值,根据所述文档图像不同角度方向光束的投影值确定所述文档图像的偏斜角度,所述检测模块用于判断所述文档图像的偏斜角度是否大于预设阈值,如果大于所述预设阈值,则确定所述文档图像为偏斜图像,所述矫正模块用于基于图片生成网络模型和所述图片生成网络模型的训练权重值,得到所述偏斜图像的矫正图像。
一种实现方式中,所述获取模块具体用于获取扫描后的文档图像的像素和所述文档图像的像素在不同角度方向光束的投影值。
一种实现方式中,所述检测模块具体用于分别将所述文档图像的各个像素在同一角度方向光束的投影值进行累加求和,得到所述文档图像的各个像素在不同角度方向光束的投影值,确定所述文档图像的各个像素在不同角度方向光束的投影值中的最小值,并根据所述最小值所对应的光束角度得到所述文档图像的偏斜角度。
一种实现方式中,所述装置还包括模型构建模块,所述模型构建模块与所述获取模块连接,所述模型构建模块用于根据预设的正常文档图像集合和根据所述预设的正常文档图像集合生成的偏斜图像集合,基于串连双U-Net为网络架构完成网络训练,得到所述偏斜图像集合矫正为所述正常文档图像集合的图片生成网络模型和所述图片生成网络模型的所述训练权重值。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法的步骤。
本发明的有益效果是:该文档扫描图像的矫正方法包括:获取扫描后的文档图像和文档图像的不同角度方向光束的投影值,根据文档图像不同角度方向光束的投影值确定文档图像的偏斜角度,判断文档图像的偏斜角度是否大于预设阈值,如果大于预设阈值,则确定文档图像为偏斜图像,基于图片生成网络模型和图片生成网络模型的训练权重值,得到偏斜图像的矫正图像,通过确定文档扫描图像的角度来确定文档扫描图像的偏斜情况,对偏斜图像基于图片生成网络模型进行修复矫正,解决了文档扫描图像发生偏斜的问题,可以根据不同文档扫描偏斜图像的需求设置适用的场景,避免人工检测,降低了人力成本,同时提高了文档扫描的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请第一实施例提供的一种文档扫描图像矫正方法流程示意图;
图2为本申请第一实施例提供的一种文档扫描图像偏斜检测过程示意图;
图3为本申请第一实施例提供的一种确定文档图像的偏斜角度方法流程示意图;
图4为本申请第一实施例提供的一种检测文档图像的偏斜角度原理示意图;
图5为本申请第一实施例提供的一种图片生成网络模型训练过程流程示意图;
图6为本申请第一实施例提供的一种文档扫描图像的矫正流程示意图;
图7为本申请第二实施例提供的一种文档扫描图像的矫正装置结构示意图;
图8为本发明第三实施例提供的一种电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
下述以一种实施环境为例,介绍说明本申请提供的实施例运用的实施环境,本申请提供的实施例均可应用于该环境中,即,用户将待扫描的纸质文档放置到扫描仪器上,由扫描仪器采集文档的扫描图像数据进行数字化转化,将数字化转化后的文档扫描图像的数据发送至处理终端,由处理终端将转化后的文档扫描图像的数据进行保存。
上述处理终端,可以是管理至少一个扫描仪器的总终端设备或装置等,进而管理多台扫描仪器的运行,例如:处理终端可以是计算机设备或者智能手机产品等。通过将扫描仪器与处理终端建立通信连接,来实现数据的传输,该通信连接可以运用无线网络或有线网络等进行通信,例如:无线网(Wireless-Fidelity,简称WI-FI)、蓝牙、第四代移动通信技术(Fourth Generation,简称4G)、4G+或第五代移动通信技术(Fifth Generation,简称5G)等通信技术。
本发明实施例中,对上述的处理终端和扫描仪器,以及两者的通信方式,在此不做具体限定。
然而,在文档扫描图像的加工过程中,也就是在获取档案扫描图像时,由于是人工放置文档或者设备因素等的其他原因的影响,难以保证每张文档都不偏斜,从而导致经扫描仪器扫描传输到处理终端上的文档扫描图像也存在相应的偏斜,为后续查看处理终端上的文档扫描图像的数据带来困难,因此,为使得处理终端接收的文档扫描图像的发生偏斜的文档能够更好地被修复为非偏斜的图像,即处理终端最终保存的文档扫描图像数据均为非偏斜图像,需将存在偏斜的文档扫描图像挑出来并专门对其进行修复矫正,使得处理终端最终保存的文档扫描图像数据均为非偏斜图像。
第一实施例
图1为本申请第一实施例提供的一种文档扫描图像矫正方法流程示意图,如图1所示,该方法包括:
S101、获取扫描后的文档图像和文档图像的不同角度方向光束的投影值,根据文档图像不同角度方向光束的投影值确定文档图像的偏斜角度。
具体的,由处理终端接收扫描仪器扫描的文档图像的数据信息,可以使用预设投影算法通过像素遍历方法,对文档图像运用一系列平行光束(以下简称光束)从不同角度对文档进行投影,来计算文档图像的不同角度方向光束的投影值,从而处理终端将获取到文档扫描图像在不同角度方向光束的投影值,来确定该文档偏斜的角度。
下述以一种实施方式为例进行说明运用光束从不同角度对文档进行投影的实现方式,示例的:
首先,在扫描仪器放置待扫描文档的一侧设置由多条平行光束组成的光束,在扫描仪器开始运行时,始终保持光束从文档的侧面(正常文档的左侧或右侧)进行照射,保证光束可以从文档的整个侧面穿过,通过改变光束照射文档侧面的角度,当光束每转过一个角度,得到一个角度方向光束的投影值,当光束转过多个角度,最终得到多个不同角度方向光束的投影值,通过这些不同角度方向光束的投影值来确定文档扫描图像的偏斜角度。
S102、判断文档图像的偏斜角度是否大于预设阈值,如果大于预设阈值,则确定文档图像为偏斜图像。
需要说明的是,由于文档中文字大小、字数、类型和行距等各个因素的影响,均对文档扫描图像的清晰度有一定影响,因此,有些文档的偏斜可能不会造成对文档扫描图像清晰度的辨识,还有可能有些微小的偏斜可以忽略不计,或者算法本身会产生误差等,所以,对于不同文档的不同要求,对文档偏斜到哪个程度就算作该文档是偏斜图像的一个角度限制,将该角度限制称为文档是否为偏斜图像的角度限制的预设阈值,该预设阈值可通过人工在处理终端上进行设置。
例如:当检测到的文档偏斜的角度小于1度时,可视为该文档不是偏斜图像,具体根据用户的意愿及文档扫描图像等场景需求设置相应的预设阈值,在此不再详细赘述。
具体的,上述使用预设的投影算法对文档扫描图像进行检测,得到该文档图像的偏斜角度,为确定该文档图像是否是偏斜图像,在此通过预设阈值,判断文档图像的偏斜角度是否大于预设阈值,如果大于预设阈值,则确定文档图像为偏斜图像。
S103、基于图片生成网络模型和图片生成网络模型的训练权重值,得到偏斜图像的矫正图像。
可选地,可以对文档的扫描图像数据信息逐一对像素进行独立分类,判断文档扫描图像上每个像素点的类别,对文档扫描图像上的像素进行更精确的分割分类,通过图片生成网络模型构建一个文档扫描图像中偏斜图像上的每个像素点所对应的非偏斜图像上每个像素点的对应关系的映射,对该文档扫描图像中每个像素根据该映射,经图片生成网络模型基于语义分割的深度神经网络算法按照训练权重值对文档扫描图像的偏斜图像进行修复矫正,计算生成文档扫描图像的偏斜图像的矫正图像。
例如:我们用i表示一个文档扫描图像中从1到n的n个不同像素点的序号,将每个像素点的位置用(x,y)表示,每个像素点的类型用(c)表示,则文档扫描图像的偏斜图像中的每个像素点的位置用(xi,yi)表示,类型用(ci)表示,将要修复矫正后的非偏斜图像中的每个像素点的位置用(x′i,y′i)表示,类型用(ci)表示,此时,将偏斜图像中每个像素点记为S(xi,yi,ci),将矫正图像中每个像素点记为T(x′i,y′i,ci),因此,偏斜图像中每个像素点S(xi,yi,ci)中的元素与非偏斜图像中每个像素点T(x′i,y′i,ci)中的元素一一对应,这种关系则称为映射,将偏斜图像修复矫正为非偏斜图像的过程就是将S(xi,yi,ci)上的元素依次归位到T(x′i,y′i,ci)的位置上,从而实现将偏斜图像修复矫正为非偏斜图像,非偏斜图像也就是上述所述矫正图像。
在本实施例中,该方法包括:获取扫描后的文档图像和文档图像的不同角度方向光束的投影值,根据文档图像不同角度方向光束的投影值确定文档图像的偏斜角度,判断文档图像的偏斜角度是否大于预设阈值,如果大于预设阈值,则确定文档图像为偏斜图像,基于图片生成网络模型和图片生成网络模型的训练权重值,得到偏斜图像的矫正图像,通过确定文档扫描图像的角度来确定文档扫描图像的偏斜情况,对偏斜图像基于图片生成网络模型进行修复矫正,解决了文档扫描图像发生偏斜的问题,可以根据不同文档扫描偏斜图像的需求设置适用的场景,避免人工检测,降低了人力成本,同时提高了文档扫描的效率。
图2为本申请第一实施例提供的一种文档扫描图像偏斜检测过程示意图,如图2所示。
一种实现方法中,获取扫描后的文档图像和文档图像的不同角度方向光束的投影值的步骤,包括:获取扫描后的文档图像的像素和文档图像的像素在不同角度方向光束的投影值。
具体的,以下述一种实施方式为例进行说明一个文档的偏斜检测过程,示例的步骤如下:
S201、输入文档扫描图像。
扫描仪器将采集的文档的扫描图像数据进行数字化转化,将数字化转化后的文档扫描图像的数据输入至处理终端。
S202、文档扫描图像二值化。
具体的,对文档扫描图像偏斜检测的目标是判断输入到处理终端上的文档扫描图像是否是偏斜图像,即,根据文档扫描图像的内容来判别该图像是否偏斜,将该检测视为偏斜和非偏斜的二分类问题,在用光束照射待扫描文档投影前,通过判断图像是否有像素,而不需要色彩信息,所以将文档扫描图像二值化,生成二值化图像,也就是,最后在处理终端上生成的文档扫描图像为黑白图像,此方法可以减少计算量,从而提升偏斜检测的速度。
S203、计算不同角度方向光束投影值,确定文档扫描图像的偏斜角度。
通过使用光束对文档进行不同角度方向光束的照射投影,由预设的投影算法计算得到该文档扫描图像的不同角度方向光束的投影值,通过这些不同角度方向光束的投影值可以确定文档扫描图像的偏斜角度。
S204、判断文档图像的偏斜角度是否大于阈值,如果大于,则执行步骤S205,如果小于或等于,则执行步骤S206。
为确定该文档图像是否是偏斜图像,在此通过预设阈值,将上述得到的文档扫描图像的偏斜角度与预设阈值进行比较,判断文档扫描图像的偏斜角度是否大于预设阈值,如果文档扫描图像的偏斜角度大于预设阈值,则该文档扫描图像是偏斜图像,如果小于或等于预设阈值,则该文档扫描图像是非偏斜图像。
S205、输出文档扫描图像的偏斜图像。
如果上述检测得到的文档扫描图像是偏斜图像,则输出文档为偏斜图像数据。
S206、输出文档扫描图像的非偏斜图像。
如果上述检测得到的文档扫描图像不是偏斜图像,则输出文档为非偏斜图像数据。
此时,一个文档的扫描过程将结束,若需要检测更多文档时,继续根据上述检测步骤进行即可,在此不再详细描述。
图3为本申请第一实施例提供的一种确定文档图像的偏斜角度方法流程示意图,图4为本申请第一实施例提供的一种检测文档图像的偏斜角度原理示意图,如图3和图4所示。
一种实现方法中,根据文档图像不同角度方向光束的投影值确定文档图像的偏斜角度的步骤,包括:
S301、分别将文档图像的各个像素在同一角度方向光束的投影值进行累加求和,得到文档图像的各个像素在不同角度方向光束的投影值。
具体的,由于对文档进行扫描是根据文档上的像素得到对应光束的投影值,因此,我们可将一个文档看作是H×W像素大小的图像,文档图像的像素看作是边长为δ的正方形,光束看作是由一系列宽度为τ的平行光束组成,通常取τ=δ,为计算方便,可以仅将文字和表格等覆盖部分的像素值取1,未覆盖部分的像素值取0,则将同一角度下光束的不同多个1和0进行累加求和,最终得到该光束方向文档扫描图像的投影值,不同角度的光束对应不同的投影值。
需要说明的是,对于预设投影算法扫描文档,对文档像素的投影进行规定,例如:如果一个像素点的中心位于某一条光束内,则表示为该条光束经过该像素,否则表示为该条光束不经过该像素,进而当一条光束投影到文档图像时,这条光束经过值为1的像素点时,该条光束将被遮挡,记该条光束的投影值为1,相反的,如果一条光束所经过的所有像素值为0,则该光束完全穿过文档图像,记该条光束的投影值为0,将同一角度下每条光束的投影值进行累加求和,最终得到文档图像的像素在不同角度方向光束的投影值。
S302、确定文档图像的各个像素在不同角度方向光束的投影值中的最小值。
具体的,由上述不同角度光束对文档中像素进行投影的过程可知,当光束方向与文字行方向越接近时,没有被像素遮挡的光束的条数越多,也就是0的投影值越多,被遮挡的光束的条数越少,也就是1的投影值越少,当且仅当光束方向和文档上文字偏斜方向相同时,穿过文字行的光束条数最多,形成的投影值为最小值,此时光束方向即为文档的偏斜角度,最终,累加和越小,也就是该光束对文档图像生成的投影值也就越小,当光束方向与文字行方向越偏离时,累加和越大,也就是该光束对文档图像生成的投影值也就越大,将不同方向光束的投影值的累加和进行比较,得到其中最小的投影值。
S303、根据最小值所对应的光束角度得到文档图像的偏斜角度。
具体的,上述所述最小投影值所对应的光束从文档中穿过的光束条越多,表明了该光束方向与文档行文字方向相同,此时,该光束的角度即为文档偏斜的角度。
需要说明的是,本申请所提供的图片生成网络模型,可以是基于一个U-Net(图片生成网络)为网络架构完成网络训练,或者基于多个串联U-Net为网络架构完成网络训练,在本申请中将不做限定,下述将以其中一种基于串联双U-Net为网络架构完成网络训练时的情况为例进行说明。
一种实现方法中,上述文档扫描图像的矫正方法还包括:根据预设的正常文档图像集合和根据预设的正常文档图像集合生成的偏斜图像集合,基于串连双U-Net为网络架构完成网络训练,得到偏斜图像集合矫正为正常文档图像集合的图片生成网络模型和图片生成网络模型的训练权重值。
具体的,通过使用深度神经网络算法来构造一部分是正常(非偏斜)文档图像集合,另一部分是由正常文档图像经算法处理生成的偏斜文档图像集合的训练数据集,其中,这两部分集合中的文档图像样本数相同且内容上呈一一对应的关系,使用这些训练数据集来构建图片生成网络的语义分割模型,以下均简称网络模型,而此网络模型的构建就是不断对图片生成网络进行训练的过程,该过程向基于串连双U-Net为网络架构的网络(以下简称网络)输入训练数据集中的数据,并通过大量计算得到网络模型中的训练权重值,下述以一种实现方式为例进行说明构建网络模型的方式。
示例的:在构建网络模型过程中,将上述构造的训练数据集有组织、分批次、反复地输入到网络中,让网络学习到从偏斜图像到修复矫正后非偏斜图像的转化过程,使网络模型中的参数值或模型权重(以下称为训练权重值),在网络模型训练期间不断更新,随着多次前向、反向传播,训练权重值会不断持续优化,而在此训练过程中,避免不了会有误差,即,当前网络模型输出的修复矫正的图像与实际构造的对应的正常图像存在差异,因此,将该误差记为损失值loss,通过该损失值loss来量化当前网络模型输出的修复矫正的图像与实际构造的对应的正常图像的差异程度,经多次训练,直到损失值loss维稳收敛,表示训练完成,当训练完成后,向网络输入偏斜图像,固化网络权重,只进行正向传播计算,通过已有训练权重值来计算对应输出图像完成对偏斜图像的修复矫正。
其中,基于串连双U-Net为网络架构完成网络训练,而U–Net网络是多层的残差网络,它分为下采样提取图像特征和上采样回复图像细节两个过程,在部分卷积层后有分支短连接,短连接将下采样过程中的特征图复制一份并堆叠到对应上采样的特征图上,该结构能在恢复图像细节时尽可能多的保留原有用信息,使在下采样阶段不至于丢失过多原图细节而导致训练缓慢难以收敛,将第一个U-Net记为U-Net1,将第二个U-Net记为U-Net2,以下将以一种实现方式为例进行说明基于串连双U-Net为网络架构完成网络模型训练的步骤。
图5为本申请第一实施例提供的一种图片生成网络模型训练过程流程示意图,如图5所示。
S401、输入训练数据集图像y。
具体的,将正常的非偏斜文档图像的数据集合输入到网络中,经网络将非偏斜文档图像进行旋转操作,得到旋转后的偏斜文档图像的数据集合,每一张非偏斜文档图像的数据集合与偏斜文档图像的数据集合中都是一一对应的,即,每一张非偏斜文档图像的像素的数据集合与偏斜文档图像的像素的数据集合中都是一一对应的,根据对应关系,由此得到进行构建网络模型的训练数据集,进而将此处的偏斜文档图像记为y,输入到网络中,进行网络模型的训练。
S402、U-Net1下采样经卷积操作获取图像y的高阶特征图。
将图像y作为U-Net1的输入,为方便区分,此处将输入的图像y视为原始偏斜图像y,以3×3大小的滤波器提取原始偏斜图像y的像素特征,经线性修正单元(Rectify LinearUnit,简称ReLU)函数激活及最大池(maxpooling)池化后保留强特征,并缩小特征图,使原始偏斜图像y的通道数加倍,特征图大小变为原始偏斜图像的1/2,下采样过程中有横向短连接,将当前计算的特征图复制一份与经上采样生成的特征图融合,因为高阶图像特征有较好的语义信息,适合于分类,而低阶图像特征有较好的位置信息,适合于回归,U-Net1的短连接有效利用了低阶特征图和高阶特征图的优点,U-Net1下采样输出高阶特征图。
S403、U-Net1上采样经转置卷积操作获取图像y的三通道普通图像。
U-net1上采样使用3×3大小的卷积核提取图像y的特征,同时使用转置卷积来恢复图像y的细节,每一次恢复会使通道数减半,特征图大小变为原来2倍,需注意的是,U-Net1的下采样和上采样过程是对应的,下采样过程中通过复制特征图并堆叠到上采样生成的特征图上,最后再使用1×1大小的卷积核对所有特征进行融合,生成三通道的普通图像,而三通道图,也就是每个像素点都由3个值来表示,即上述每个像素点可以表示为(xi,yi,ci)。
S404、U-Net1损失计算进行更新训练权重值。
通过网络根据训练数据集合进行训练,经神经网络在训练过程中多次的前向、反向传播,前向传播根据目前已有的输入图像y及目前的训练权重值来计算输出的矫正图像,运用损失函数来量化当前输出的矫正图像与正常的非偏斜图像的真实值的差异,来表示当前输出的矫正图像与正常的非偏斜图像的真实值的差异,损失值loss逐层反向传播经再计算后更新训练权重值,达到训练网络的目的,函数损失值loss越小,表明当前网络模型拟合程度越好,在此处的语义分割算法中,损失值loss表示集合与集合间的差异,损失值loss的计算在每一次前向、反向传播时都会变化,随着网络多次传输迭代,达到降低损失、优化网络、提升效果的目的。
需要说明的是,上述损失函数可以理解为一个距离函数,此处定义为元素损失和位移不变损失的组合。
元素损失Le是:
其中,n指衡量损失函数中的要素个数(这里指3,分别是x和y坐标,以及对应的类别c),yi是某一个像素点的索引i的预测值,是某一个像素点的索引i的真实值。
而位移不变损失Ls不关心损失函数中yi的绝对值,它量化yi和yj和的差异,且差异越小越好,设差异所以位移不变损失Ls的表达式为:
S405、输出U-Net1训练数据集图像Y1。
上述U-Net1中的训练权重值经过不断更新,最终得到稳定的训练权重值,此时,U-Net1输出经U-Net1训练得到的正常文档图像Y1。
S406、U-Net2下采样经卷积操作获取图像Y1的高阶特征图。
这里,U-Net2网络和U-Net1网络从结构上来说是一样的,不一样的是U-Net2的输入是U-Net1的输出,U-Net2的输出是最后网络模型的输出,将U-Net1输出的图像Y1作为U-Net2的输入,再经U-Net2下采样生成图像Y1的高阶特征图,该过程同样经过3×3大小的滤波器提取图像特征,经ReLU函数激活及maxpooling池化等过程,具体过程与上述U-Net1下采样过程相似,在此不再详细描述。
S407、U-Net2上采样经转置卷积操作获取图像Y1的三通道普通图像。
U-Net2上采样过程同样使用3×3大小的卷积核提取图像特征,用转置卷积来恢复图像细节等,与上述U-Net1上采样过程相似,在此不再详细描述。
S408、U-Net2损失计算进行更新训练权重值。
该过程与U-Net1损失计算进行更新训练权重值的过程一致,在此不再详细描述,只是此时U-Net2网络的损失计算和U-Net1输出的Y1无关,只关乎U-Net2的输出训练数据集和正常的非偏斜图像的真实值间的量化,损失函数和计算过程完全一样,只是U-Net2网络内部的损失值和训练权重值和U-Net1不同。
S409、输出U-Net2训练数据集图像Y2。
上述U-Net2中的训练权重值经过不断更新,最终得到稳定的训练权重值,此时,U-Net2输出经U-Net2训练得到的正常文档图像Y2。
最终完成网络模型的训练,进而可以使用该训练完成的网络模型对文档扫描过程中出现的非偏斜文档进行修复矫正的操作。
本实施例中,使用第一个U-Net1的输出作为第二个U-Net2的输入,通过二次修复矫正使得达到更好的修复矫正效果。
综上实施例所述,下述将以一种实现方式为例进行说明对文档扫描图像进行检测和修复矫正过程。
图6为本申请第一实施例提供的一种文档扫描图像的矫正流程示意图,如图6所示,具体步骤如下:
S501、图片生成网络模型构建。
首先构建的对文档扫描图像进行修复矫正的图片生成网络模型,对该模型运用一些数据集进行训练,即,将该模型使用深度神经网络训练数据集来构建语义分割模型,得到训练好的可以进行偏斜图像修复矫正的模型。
S502、检测文档扫描图像是否是偏斜图像,如果是偏斜图像,则执行步骤S503,后续继续执行步骤S504,如果否,则直接执行步骤S504。
其次,用预设投影算法检测图像是否偏斜,具体根据文档扫描图像的角度是否大于预设的阈值,来检测输入的文档扫描图像是否为偏斜图像,如果大于预设阈值,则表示文档扫描图像是偏斜图像,如果小于或等于预设阈值,则表示文档扫描图像是非偏斜图像。
S503、修复矫正偏斜图像,得到修复矫正后的文档扫描图像的非偏斜图像。
将检测出的文档扫描图像中的偏斜图像输入到上述已构建好的图片生成网络模型中,运用图片生成网络处理计算,最终将偏斜图像生成修复矫正后的非偏斜图像。
需要说明的是,该方法基于运用预设投影算法检测文档扫描图像的角度,判断该文档扫描图像是否为偏斜图像的方法,然后利用全卷积网络框架的串行U-Net网络,基于深度学习修复偏斜扫描图像的方法,具体根据文档扫描图像上的像素特征,使用训练好的图片生成网络模型中训练好的训练权重值,将上述文档扫描图像的偏斜图像进行修复矫正,实现对偏斜图像的矫正修复。
S504、输出文档扫描图像的非偏斜图像。
将上述过程中文档扫描图像检测出的非偏斜图像或经修复矫正后的非偏斜图像输出即可,从而能够保证处理终端上最终得到的文档扫描图像全部为非偏斜图像。
第二实施例
图7为本申请第二实施例提供的一种文档扫描图像的矫正装置结构示意图,如图7所示,该文档扫描图像的矫正装置,可以是集成在处理终端或者是电子设备,本发明实施例还提供了文档扫描图像的矫正装置,该装置包括:获取模块30、检测模块40和矫正模块50,获取模块30、检测模块40和矫正模块50依次连接。
其中,获取模块30用于获取扫描后的文档图像和文档图像的不同角度方向光束的投影值,根据文档图像不同角度方向光束的投影值确定文档图像的偏斜角度。
检测模块40用于判断文档图像的偏斜角度是否大于预设阈值,如果大于预设阈值,则确定文档图像为偏斜图像。
矫正模块50用于基于图片生成网络模型和图片生成网络模型的训练权重值,得到偏斜图像的矫正图像。
一种实现方式中,获取模块30具体用于获取扫描后的文档图像的像素和文档图像的像素在不同角度方向光束的投影值。
一种实现方式中,检测模块40具体用于分别将文档图像的各个像素在同一角度方向光束的投影值进行累加求和,得到文档图像的各个像素在不同角度方向光束的投影值,确定文档图像的各个像素在不同角度方向光束的投影值中的最小值,根据最小值所对应的光束角度得到文档图像的偏斜角度。
一种实现方式中,该文档扫描图像的矫正装置还包括模型构建模块60,模型构建模块60与获取模块30连接,模型构建模块60用于根据预设的正常文档图像集合和根据预设的正常文档图像集合生成的偏斜图像集合,基于串连双U-Net为网络架构完成网络训练,得到偏斜图像集合矫正为正常文档图像集合的图片生成网络模型和图片生成网络模型的训练权重值。
上述装置用于执行前述第一实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
第三实施例
图8为本发明第三实施例提供的一种电子设备结构示意图,如图8所示,该设备包括:存储器70和处理器80。
需要说明的是,本实施例提供的电子设备也可以是集成在处理终端或者是处理终端上的芯片等。
存储器70用于存储程序,处理器80调用存储器70存储的程序,以执行上述提供的方法实施例,具体实现方式和技术效果类似,这里不再赘述。
可选地,本发明还提供一种程序产品,例如计算机可读存储介质,其上存储有计算机程序,该计算机程序在被处理器执行时用于执行上述方法实施例,具体实现方式和技术效果类似,这里不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置或系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种文档扫描图像的矫正方法,其特征在于,所述方法包括:
获取扫描后的文档图像和所述文档图像的不同角度方向光束的投影值,根据所述文档图像不同角度方向光束的投影值确定所述文档图像的偏斜角度;
判断所述文档图像的偏斜角度是否大于预设阈值,如果大于所述预设阈值,则确定所述文档图像为偏斜图像;
基于图片生成网络模型和所述图片生成网络模型的训练权重值,得到所述偏斜图像的矫正图像。
2.根据权利要求1所述的方法,其特征在于,所述获取扫描后的文档图像和所述文档图像的不同角度方向光束的投影值的步骤,包括:
获取扫描后的文档图像的像素和所述文档图像的像素在不同角度方向光束的投影值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述文档图像不同角度方向光束的投影值确定所述文档图像的偏斜角度的步骤,包括:
分别将所述文档图像的各个像素在同一角度方向光束的投影值进行累加求和,得到所述文档图像在不同角度方向光束的投影值;
确定所述文档图像的各个像素在不同角度方向光束的投影值中的最小值;
根据所述最小值所对应的光束角度得到所述文档图像的偏斜角度。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据预设的正常文档图像集合和根据所述预设的正常文档图像集合生成的偏斜图像集合,基于串连双U-Net为网络架构完成网络训练,得到所述偏斜图像集合矫正为所述正常文档图像集合的图片生成网络模型和所述图片生成网络模型的所述训练权重值。
5.一种文档扫描图像的矫正装置,其特征在于,所述装置包括:获取模块、检测模块和矫正模块,所述获取模块、所述检测模块和所述矫正模块依次连接;
所述获取模块用于获取扫描后的文档图像和所述文档图像的不同角度方向光束的投影值,根据所述文档图像不同角度方向光束的投影值确定所述文档图像的偏斜角度;
所述检测模块用于判断所述文档图像的偏斜角度是否大于预设阈值,如果大于所述预设阈值,则确定所述文档图像为偏斜图像;
所述矫正模块用于基于图片生成网络模型和所述图片生成网络模型的训练权重值,得到所述偏斜图像的矫正图像。
6.根据权利要求5所述的装置,其特征在于,所述获取模块具体用于获取扫描后的文档图像的像素和所述文档图像的像素在不同角度方向光束的投影值。
7.根据权利要求5所述的装置,其特征在于,所述检测模块具体用于分别将所述文档图像的各个像素在同一角度方向光束的投影值进行累加求和,得到所述文档图像的各个像素在不同角度方向光束的投影值,确定所述文档图像的各个像素在不同角度方向光束的投影值中的最小值,并根据所述最小值所对应的光束角度得到所述文档图像的偏斜角度。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括模型构建模块,所述模型构建模块与所述获取模块连接,所述模型构建模块用于根据预设的正常文档图像集合和根据所述预设的正常文档图像集合生成的偏斜图像集合,基于串连双U-Net为网络架构完成网络训练,得到所述偏斜图像集合矫正为所述正常文档图像集合的图片生成网络模型和所述图片生成网络模型的所述训练权重值。
9.一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至4任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811493916.XA CN109635714B (zh) | 2018-12-07 | 2018-12-07 | 文档扫描图像的矫正方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811493916.XA CN109635714B (zh) | 2018-12-07 | 2018-12-07 | 文档扫描图像的矫正方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635714A true CN109635714A (zh) | 2019-04-16 |
CN109635714B CN109635714B (zh) | 2023-05-30 |
Family
ID=66071646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811493916.XA Active CN109635714B (zh) | 2018-12-07 | 2018-12-07 | 文档扫描图像的矫正方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635714B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062252A (zh) * | 2019-11-15 | 2020-04-24 | 浙江大华技术股份有限公司 | 一种实时危险物品语义分割方法、装置及存储装置 |
CN111260586A (zh) * | 2020-01-20 | 2020-06-09 | 北京百度网讯科技有限公司 | 扭曲文档图像的矫正方法和装置 |
CN111784602A (zh) * | 2020-06-28 | 2020-10-16 | 江西理工大学 | 一种生成对抗网络用于图像修复的方法 |
CN113128495A (zh) * | 2019-12-30 | 2021-07-16 | 广州慧睿思通科技股份有限公司 | 文本倾斜矫正方法、装置、存储介质、计算机设备 |
CN114926464A (zh) * | 2022-07-20 | 2022-08-19 | 平安银行股份有限公司 | 在双录场景下的图像质检方法、图像质检装置及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1080419A (ja) * | 1996-09-09 | 1998-03-31 | Toshiba Corp | 画像再構成処理装置における画像再構成方法 |
CN104035997A (zh) * | 2014-06-13 | 2014-09-10 | 淮阴工学院 | 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法 |
US20170317983A1 (en) * | 2016-04-28 | 2017-11-02 | Xerox Corporation | Image document processing in a client-server system including privacy-preserving text recognition |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
-
2018
- 2018-12-07 CN CN201811493916.XA patent/CN109635714B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1080419A (ja) * | 1996-09-09 | 1998-03-31 | Toshiba Corp | 画像再構成処理装置における画像再構成方法 |
CN104035997A (zh) * | 2014-06-13 | 2014-09-10 | 淮阴工学院 | 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法 |
US20170317983A1 (en) * | 2016-04-28 | 2017-11-02 | Xerox Corporation | Image document processing in a client-server system including privacy-preserving text recognition |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
Non-Patent Citations (1)
Title |
---|
孙尚辉等: "基于Radon变换的倾斜彩色图像自动矫正方法", 《电子技术》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062252A (zh) * | 2019-11-15 | 2020-04-24 | 浙江大华技术股份有限公司 | 一种实时危险物品语义分割方法、装置及存储装置 |
CN111062252B (zh) * | 2019-11-15 | 2023-11-10 | 浙江大华技术股份有限公司 | 一种实时危险物品语义分割方法、装置及存储装置 |
CN113128495A (zh) * | 2019-12-30 | 2021-07-16 | 广州慧睿思通科技股份有限公司 | 文本倾斜矫正方法、装置、存储介质、计算机设备 |
CN111260586A (zh) * | 2020-01-20 | 2020-06-09 | 北京百度网讯科技有限公司 | 扭曲文档图像的矫正方法和装置 |
US11756170B2 (en) | 2020-01-20 | 2023-09-12 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for correcting distorted document image |
CN111784602A (zh) * | 2020-06-28 | 2020-10-16 | 江西理工大学 | 一种生成对抗网络用于图像修复的方法 |
CN111784602B (zh) * | 2020-06-28 | 2022-09-23 | 江西理工大学 | 一种生成对抗网络用于图像修复的方法 |
CN114926464A (zh) * | 2022-07-20 | 2022-08-19 | 平安银行股份有限公司 | 在双录场景下的图像质检方法、图像质检装置及系统 |
CN114926464B (zh) * | 2022-07-20 | 2022-10-25 | 平安银行股份有限公司 | 在双录场景下的图像质检方法、图像质检装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109635714B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635714A (zh) | 文档扫描图像的矫正方法及装置 | |
US11556797B2 (en) | Systems and methods for polygon object annotation and a method of training an object annotation system | |
CN110517278B (zh) | 图像分割和图像分割网络的训练方法、装置和计算机设备 | |
CN108345890B (zh) | 图像处理方法、装置和相关设备 | |
CN109815770B (zh) | 二维码检测方法、装置及系统 | |
CN107169463B (zh) | 人脸检测方法、装置、计算机设备及存储介质 | |
CN106796716B (zh) | 用于为低分辨率图像提供超分辨率的设备和方法 | |
CN109447990A (zh) | 图像语义分割方法、装置、电子设备和计算机可读介质 | |
CN110991435A (zh) | 一种基于深度学习的快递运单关键信息定位方法和装置 | |
CN110046698A (zh) | 异质图神经网络生成方法、装置、电子设备及存储介质 | |
CN111583165A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN103942571B (zh) | 一种基于遗传规划算法的图形图像分类方法 | |
CN110728295B (zh) | 半监督式的地貌分类模型训练和地貌图构建方法 | |
CN110245683B (zh) | 一种少样本目标识别的残差关系网络构建方法及应用 | |
CN108509407A (zh) | 文本语义相似度计算方法、装置及用户终端 | |
CN111353956B (zh) | 图像修复方法、装置、计算机设备及存储介质 | |
CN111666442B (zh) | 一种图像检索方法、装置及计算机设备 | |
CN108875693A (zh) | 一种图像处理方法、装置、电子设备及其存储介质 | |
CN107590460A (zh) | 人脸分类方法、装置及智能终端 | |
US11288538B2 (en) | Object functionality predication methods, computer device, and storage medium | |
CN113378812A (zh) | 一种基于Mask R-CNN和CRNN的数字表盘识别方法 | |
CN114565916A (zh) | 目标检测模型训练方法、目标检测方法以及电子设备 | |
Pichel et al. | A new approach for sparse matrix classification based on deep learning techniques | |
CN109492610A (zh) | 一种行人重识别方法、装置及可读存储介质 | |
CN112132232A (zh) | 医学图像的分类标注方法和系统、服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |