CN113793264B - 一种基于卷积模型的档案图像处理方法、系统和电子设备 - Google Patents
一种基于卷积模型的档案图像处理方法、系统和电子设备 Download PDFInfo
- Publication number
- CN113793264B CN113793264B CN202111044391.3A CN202111044391A CN113793264B CN 113793264 B CN113793264 B CN 113793264B CN 202111044391 A CN202111044391 A CN 202111044391A CN 113793264 B CN113793264 B CN 113793264B
- Authority
- CN
- China
- Prior art keywords
- image
- archive
- definition
- original
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 13
- 238000000034 method Methods 0.000 claims abstract description 55
- 239000011159 matrix material Substances 0.000 claims abstract description 41
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000005070 sampling Methods 0.000 claims abstract description 14
- 238000011176 pooling Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000003032 molecular docking Methods 0.000 claims description 3
- 238000009966 trimming Methods 0.000 claims description 3
- 239000002699 waste material Substances 0.000 abstract 1
- 230000008569 process Effects 0.000 description 22
- 238000001514 detection method Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000006798 recombination Effects 0.000 description 3
- 238000005215 recombination Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000004383 yellowing Methods 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000003313 weakening effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4046—Scaling the whole image or part thereof using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4038—Scaling the whole image or part thereof for image mosaicing, i.e. plane images composed of plane sub-images
-
- G06T5/70—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积模型的档案图像处理方法、系统和电子设备,其中方法包括:获取原始档案图像,并基于预设的卷积神经网络模型提取原始档案图像的特征得到特征矩阵;利用卷积神经网络模型对特征矩阵进行上采样,并重构得到高清档案图像;当原始档案图像包含照片时,利用原始档案图像中的照片替换高清档案图像中对应位置的照片。本发明提供的技术方案解决了档案图像进行数字化存储时浪费人力和不清晰的问题。
Description
技术领域
本发明涉及图像处理领域,具体涉及一种基于卷积模型的档案图像处理方法、系统和电子设备。
背景技术
随着互联网的高速发展,产生了一系列数字化的存储方法、管理方法、检索方法等,这些方法可大大减少存储、管理和检索的成本,并显著提高存储、管理、检索等的效率及安全性。为了提高人力管理效率,人员档案也在逐步地实现数字化存储,在人员档案的数字化的过程中,档案的情况极其复杂,例如,历史档案由于存放时间的久远,纸张会发黄,有褶皱,有污迹等。档案数字化有着严格的标准,不清晰的图像会为后续档案的使用造成困难,在将档案数字化(如扫描、拍照片)的过程中,由于档案的纸张损坏,需要花费大量的人力和时间在档案的数字化过程中进行微调,严重影响产能的提高。
发明内容
有鉴于此,本发明实施方式提供了一种基于卷积模型的档案图像处理方法、系统和电子设备,从而提高了档案高清数字化的效率。
根据第一方面,一种基于卷积模型的档案图像处理方法,所述方法包括:
获取原始档案图像,并基于预设的卷积神经网络模型提取所述原始档案图像的特征得到特征矩阵;利用所述卷积神经网络模型对所述特征矩阵进行上采样,并重构得到高清档案图像;当所述原始档案图像包含照片时,利用所述原始档案图像中的照片替换所述高清档案图像中对应位置的照片。
可选地,所述获取原始档案图像,并基于预设的卷积神经网络模型提取所述原始档案图像的特征得到特征矩阵,包括:对所述原始档案图像进行预处理,得到预处理档案图像;以预设尺寸对所述预处理档案图像进行图像切割,并对切割后的图像进行边缘扩充以生成多个档案子图;基于所述卷积神经网络模型对所述档案子图进行编码以提取所述档案子图的特征得到多个子特征矩阵。
可选地,所述对所述原始档案图像进行预处理,得到预处理档案图像,包括:基于字体水平线对所述原始档案图像纠偏;对纠偏后的原始档案图像进行切边,以确保档案主体位于图像的正中,并生成所述预处理档案图像。
可选地,所述对所述特征矩阵进行上采样,并重构得到高清档案图像,包括:对每一个所述子特征矩阵进行上采样,并重构得到多个高清子图;对所述高清子图进行边缘切除,并将切除边缘后的高清子图进行拼接,得到所述高清档案图像,所述高清子图边缘切除的大小和生成所述档案子图时边缘扩充的大小一致。
可选地,所述卷积神经网络模型的结构如下:第一编码层,所述第一编码层包括第一卷积层和第一最大池化层,其中所述第一卷积层包含维度3×3的卷积核64个且卷积步长为1,所述第一最大池化层包含维度2×2的池化窗口1个且池化步长为2;第二编码层,所述第二编码层包括第二卷积层和第二最大池化层,其中所述第二卷积层包含维度3×3的卷积核128个且卷积步长为1,所述第二最大池化层包含维度2×2的池化窗口1个且池化步长为2;第三解码层,所述第三解码层包括第三反卷积层和第三上采样层,其中所述第三反卷积层包含维度3×3的卷积核128个且卷积步长为1,所述第三上采样层包含维度2×2的上采样窗口1个且上采样步长为2;第四解码层,所述第四解码层包括第四反卷积层和第四上采样层,其中所述第四反卷积层包含维度3×3的卷积核64个且卷积步长为1,所述第四上采样层包含维度2×2的上采样窗口1个且上采样步长为2。
可选地,所述当所述原始档案图像包含照片时,利用所述原始档案图像中的照片替换所述高清档案图像中对应位置的照片,包括:以预设比例缩小所述高清档案图像,并基于YOLOv3模型搜索得到缩小后的高清档案图像的照片部分;获取所述照片部分的空间坐标,并根据所述预设比例对所述空间坐标进行放大得到替换坐标;获取所述原始档案图像的所述预处理档案图像,并根据所述替换坐标在所述预处理档案图像的相同位置复制原始照片;使用所述原始照片替换所述照片部分。
可选地,所述方法还包括:使用预设三原色数值对所述高清档案图像的底色进行统一。
根据第二方面,一种基于卷积模型的档案图像处理系统,所述系统包括:
特征提取模块,获取原始档案图像,并基于预设的卷积神经网络模型提取所述原始档案图像的特征得到特征矩阵;
图像重构模块,对所述特征矩阵进行上采样,并重构得到高清档案图像;
照片对接模块,当所述原始档案图像包含照片时,利用所述原始档案图像中的照片替换所述高清档案图像中对应位置的照片。
根据第三方面,一种电子设备,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面,或者第一方面任意一种可选实施方式中所述的方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机从而执行第一方面,或者第一方面任意一种可选实施方式中所述的方法。
本发明技术方案,具有如下优点:
本发明实施例提供的一种基于卷积模型的档案图像处理方法、系统和电子设备。该方法具体包括:通过卷积神经网络编码提取档案图像的图像特征,得到特征矩阵,之后利用上采样将特征矩阵重构,从而去除原档案图像中由于褶皱、纸发黄和纸背面印出的笔迹等扫描到的图像噪声,使得图像清晰可辨。之后利用目标检测方法将原始档案图像中高清的照片替换掉重构图像中的照片,避免了在重构过程中导致的照片不清晰等情况。使得档案的数字化图像文字和照片都清晰可见。
此外,在图像处理过程中,通过图像切割、重组的手段提高了图像高清处理过程的效率;以字体水平线为基准对档案图像进行纠偏等图像预处理,一方面提高了图像特征提取和重构的准确性,另一方面避免了大量的手工校正工作量,从而提高了人员档案的数字化录入效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种基于卷积模型的档案图像处理方法的步骤示意图;
图2为本发明实施例的一种基于卷积模型的档案图像处理方法的流程示意图;
图3为本发明实施例的一种基于卷积模型的档案图像处理方法的图像切割结构示意图;
图4为本发明实施例的一种基于卷积模型的档案图像处理方法的图像边缘扩充结构示意图;
图5为本发明实施例的一种基于卷积模型的档案图像处理系统的结构示意图;
图6为本发明实施例的一种电子设备的结构示意图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
请参阅图1和图2,本发明实施例提供的一种基于卷积模型的档案图像处理方法具体包括如下步骤:步骤S101:获取原始档案图像,并基于预设的卷积神经网络模型提取原始档案图像的特征得到特征矩阵;步骤S102:利用卷积神经网络模型对特征矩阵进行上采样,并重构得到高清档案图像;步骤S103:当原始档案图像包含照片时,利用原始档案图像中的照片替换高清档案图像中对应位置的照片。
其中,步骤S101:获取原始档案图像,并基于预设的卷积神经网络模型提取原始档案图像的特征得到特征矩阵。具体地,原始档案图像的数字化方式包括但不限于扫描和拍照,本发明实施例中的原始档案图像为用户使用设置好固定参数的扫描仪扫描得到的档案图片。档案图像可能由于放置时间较长的原因,出现纸张破损,字迹不清晰,有其他痕迹干扰等因素,本发明实施例基于卷积神经网络创建模型,通过卷积提取图像中的必要信息特征、对于非必要的干扰特征选择不提取,并将特征上采样、重构成新的图片,即可将原始图片中的干扰因素去除掉。该卷积神经网络模型中所提取的必要信息特征和非必要的干扰特征的类型不作限定,本领域技术人员可以在训练过程中确定,如预先获取多个原始档案图像样本集,可以通过对该原始档案图像样本集中的各个特征进行标记,如将文字标记为必要信息特征,将污迹标记为非必要干扰特征,将标记后的原始档案图像样本集输入到构建好的卷积神经网络模型,对该卷积神经网络模型进行训练,使得训练后得到的卷积神经网络模型可以准确提取出原始档案图像中必要信息特征对应的特征矩阵。
步骤S102:利用卷积神经网络模型对特征矩阵进行上采样,并重构得到高清档案图像。具体地,针对步骤S101得到的特征矩阵,基于预设的卷积神经网络模型对特征矩阵进行上采样,并利用反卷积对上采样后的特征矩阵解码,从而得到高清档案图像,实现了图像的去噪和重构。
步骤S103:当原始档案图像包含照片时,利用原始档案图像中的照片替换高清档案图像中对应位置的照片。具体地,由于档案图像中的照片不像文字那样特征非常单一、明显,通过步骤S102得到的高清档案图像,很可能导致其照片部分变得模糊,因此为了获得高清且准确的档案照片,本发明实施例采用原始档案图像中的高清照片对高清档案图像中对应位置的照片进行替换。
具体地,在一实施例中,由于在扫描的过程中,档案在扫描仪中放置的位置并不完全固定,扫描的到的图像可能是倾斜的,或者档案未完全填充满扫描得到的图像,又或者用户只需要档案的某一部分。因此,在本发明实施例中,步骤S101具体包括如下步骤:
步骤S201:对原始档案图像进行预处理,得到预处理档案图像。具体地,对获取的原始档案图像进行图像预处理,其中图像预处理包括但不限于扩充像素、锐化、纠偏。
步骤S202:以预设尺寸对预处理档案图像进行图像切割,并对切割后的图像进行边缘扩充以生成多个档案子图。
具体地,由于PC端在处理整个大图像时,其卷积输入过多,运算量太大,会导致卷积处理图像的过程很慢,为了提高整体算法的运行效率,如图3所示,在特征提取之前,以预设尺寸对预处理档案图像进行图像切割,并对切割后的图像进行边缘扩充以生成档案子图。从而将卷积运算应用于多个低像素尺寸的小图,提高算法运算效率。在本发明实施例中,根据指定的像素尺寸分别从原始档案图像的最左边开始自上而下截取图像块,得到多个原始档案图像的子图块,对于边缘不足指定像素的,按实际的尺寸计算,获取子图块后,保存子图块的顺序,以便于后续按照既定顺序重组成一个完整图像。之后,如图4所示,对切割得到的各个子图块进行边缘扩充,从而得到档案子图,由于卷积操作时图像的尺寸会从边缘收缩从而变小,为了避免信息的丢失,从而在卷积之前将切割的图像边缘进行扩充,在本实施例中使用单一颜色的像素扩充边缘即可,例如白色。
步骤S203:基于卷积神经网络模型对档案子图进行编码以提取档案子图的特征得到多个子特征矩阵。
具体地,在图像的特征提取部分,由于档案的复杂性,考虑到传统的基于规则的高清处理方法,没有一个统一的规则算法可以概括所有的高清情况,比如,档案图像中的人像要保持一致,而规则算法无法检测到人像的位置;如果档案中有污点,需要对污点进行去除,由于污点大小并不固定,无法根据大小进行统一的去除。因此,本发明实施例基于编码卷积提取各档案子图的特征得到多个子特征矩阵,通过较小的子图学习特征不仅扩充了样本数量,使得特征学习更加准确。并且通过卷积的方式,构建卷积神经网络模型,从大量原始档案图像和对应的高清档案图像组成的历史数据中进行学习,在编码阶段,提取高清应该保留的对应部分的元素而忽视高清应该忽视部分的元素,得到档案图像的特征矩阵,解决了无法使用统一的规则进行高清的难题。
具体地,在一实施例中,上述步骤S201,具体包括如下步骤:
步骤S301:基于字体水平线对原始档案图像纠偏。具体地,为了确保图像在高清处理过程中,其图像中的内容是符合人阅读习惯的垂直角度。因此基于原始档案图像中印刷字体和/或手写字体的横向排列水平线,对图像进行纠偏,保证图像特征提取的准确性。通过目标识别算法检测档案图像中组成段落的字体的水平线,之后以该水平线为基准在屏幕中调整扫描的图像为适合人阅读的角度。例如屏幕是矩形,那么按照屏幕设定的默认字体显示角度(字体行边缘通常与对应位置的屏幕上下边缘平行),将图片的整体进行旋转调正,保证图片内容与屏幕预设的默认字体角度一致。
步骤S302:对纠偏后的原始档案图像进行切边,以确保档案主体位于图像的正中,并生成预处理档案图像。具体地,由于扫描图像很可能会包含除档案之外额外的边缘部分,使得档案主体只占整幅扫描图像一部分,为了最大化的获取档案主体部分,降低后续特征提取的难度并提高提取精度,对原始档案图像中无效的边缘部分进行切边,保证距离档案两侧边缘的空白等距。通过上述图像预处理操作,降低了使用卷积神经网络模型进行卷积编码时的学习难度。
具体地,在一实施例中,在步骤S203之后,上述步骤S102,具体包括如下步骤:
步骤S204:对各子特征矩阵进行上采样,并重构得到多个高清子图。
步骤S205:对高清子图进行边缘切除,并将切除边缘后的高清子图进行拼接,得到中间图像,高清子图边缘切除的大小和生成档案子图边缘扩充的大小一致。
具体地,通过对步骤S203中得到的多个子特征矩阵进行反卷积和上采样,获得多个突出必要特征弱化非必要特征的高清子图(例如对档案中需要的文字进行突出,干扰污迹进行弱化),使用卷积神经网络的具体上采样过程为现有技术,本发明不再赘述。之后按照步骤S202中图片的存储顺序将高清子图拼接起来,但是由于提取特征之前对档案子图进行了边缘扩充,从而生成的高清子图的边缘也存在与扩充大小相同的干扰像素,所以在拼接之前对高清子图的边缘进行切除,保证拼接后结果的准确性,之后将高清子图合并为中间图像,实现了计算机自动对档案图像进行高清处理的目的。
具体地,在一实施例中,针对上述步骤S101中预设的卷积神经网络模型,其具体搭建步骤如下:
步骤S206:按照如下结构搭建预设的卷积神经网络模型:
第一编码层,第一编码层包括第一卷积层和第一最大池化层,其中第一卷积层包含维度3×3的卷积核64个且卷积步长为1,第一最大池化层包含维度2×2的池化窗口1个且池化步长为2;
第二编码层,第二编码层包括第二卷积层和第二最大池化层,其中第二卷积层包含维度3×3的卷积核128个且卷积步长为1,第二最大池化层包含维度2×2的池化窗口1个且池化步长为2;
第三解码层,第三解码层包括第三反卷积层和第三上采样层,其中第三反卷积层包含维度3×3的卷积核128个且卷积步长为1,第三上采样层包含维度2×2的上采样窗口1个且上采样步长为2;
第四解码层,第四解码层包括第四反卷积层和第四上采样层,其中第四反卷积层包含维度3×3的卷积核64个且卷积步长为1,第四上采样层包含维度2×2的上采样窗口1个且上采样步长为2。
具体地,在本发明实施例中,搭建了一种卷积神经网络模型——AUTOENCODER,其具体结构如下表所示:
表1 AUTOENCODER卷积网络结构
其中,conv3表示卷积核是3×3的矩阵,卷积层的空间补偿(Spatial Padding)为一个像素,卷积核的正则化为l2,upsampling(上采样层)使用bilinear插值法,上采样窗口是2×2的矩阵。在卷积运算值中,卷积作用于图像,通过稀疏连接和参数共享,在大大减少参数量的同时,使得卷积网络具有对平移等的性质。如果一个函数满足输入改变,输出也以同样的方式改变,即其是等变的。如果函数f(x)与g(x)满足f[g(x)]=g[f(x)],则f(x)对变换g具有等变性。对于卷积来说,如果令g是输入的任意平移函数,那么卷积函数对于g具有等变性。池化使用某一位置的相邻输出的总体统计特征来代替网络在该位置的输出。假设池化层的输入为aij,则输出Amax=max(aij)。maxpool(最大池化层)使卷积网路对图像具有局部平移不变性,池化窗口是2×2的矩阵。通过上述AUTOENCODER卷积神经网络模型,通过第一编码层和第二编码层实现步骤S203中提取子特征矩阵的操作,通过第三解码层和第四解码层实现步骤S204~S205的上采样和图片重构的操作。在重构的过程中,还原出高清图像的字体、印章、人像等有效的部分,忽略污点、背部渗透过来的字体等无效的部分,解决了规则算法不普遍适用的难题,该模型的结构形式在尽可能保证特征提取与重构准确度的情况下,减少大量卷积运算,提高算法效率。
具体地,上述步骤S103,具体包括如下步骤:
步骤S207:以预设比例缩小高清档案图像,并基于YOLOv3模型搜索得到缩小后的高清档案图像的照片部分
步骤S208:获取照片部分的空间坐标,并根据预设比例对空间坐标进行放大得到替换坐标;
步骤S209:获取原始档案图像的预处理档案图像,并根据替换坐标在预处理档案图像的相同位置复制原始照片,并使用原始照片替换照片部分。
具体地,档案中照片的替换操作,需要准确地识别出照片在档案中的位置,目标检测算法是一种很好的解决方法。近年来多种目标检测方法层出不穷,而基于YOLOv3模型的目标检测器是近年来的一类大热模型,其检测速度又快又准,非常适合应用于档案录入的海量工作当中,提高工作效率。结合YOLOv3模型的优势,本发明实施例基于YOLOv3模型进行档案中照片的替换。具体地,在本发明实施例中,将中间图像以预设比例缩小,可以进一步加快使用YOLOv3模型在中间图像中找到照片的速度。通过设定缩放比例α,设图像为I,则缩放后的图像为基于YOLOv3模型对缩小的中间图像进行目标识别,根据识别的类别获取照片的缩小空间坐标位置(x1,y1),(x2,y2),根据α获得中间图像中照片的替换坐标(αx1,αy1),(αx2,αy2),根据(αx1,αy1),(αx2,αy2)来对原始档案图像中的照片进行定位和复制。常用的基于轮廓或外观特征的匹配算法应用于档案的照片目标检测中过于复杂,会降低整体算法的运算效率,而基于YOLOv3模型的照片替换算法运算时间很短,从而实现了快速的高清照片替换。在确定照片的位置之后,由于档案匀是制式文件,因此其照片的位置差别并不会过大,从而通过图像坐标系的将中间图像与原始档案图像进行匹配,再从原始档案图像中找到对应的照片,其误差可以忽略不计,但是为了进一步提高人像照片检测的准确率,本发明实施例中复制的照片操作不在原始档案图像中进行,而是在经过优化和调整的预处理档案图像中进行。
具体地,在一实施例中,一种基于卷积模型的档案图像处理方法还包括:
步骤S104:使用预设三原色数值对高清档案图像的底色进行统一,并生成无效页码位置信息。具体地,在高清图像重构的过程中,重构所用模型的系数为从档案图像和高清图像一一对应中学习得到,难以保证重构得到的高清图像中底色统一,而数字档案的存储需要符合国家规定,其背景颜色具有统一的的标准,因此通过指定的RGB值,基于规则算法,实现了背景底色为指定的RGB值。
通过执行上述各个步骤,本发明实施例提供的一种基于卷积模型的档案图像处理方法,通过卷积编码提取档案图像的图像特征,得到特征矩阵,之后利用上采样将特征矩阵重构,从而去除原始档案图像中由于褶皱、纸发黄和纸背面印出的笔迹等扫描到的图像噪声,使得图像清晰可辨。之后利用目标检测方法将原始档案图像中高清的照片替换掉重构图像中的照片,避免了在重构过程中导致的照片不清晰等情况。使得档案的数字化图像中的文字和照片都清晰可见。此外,在出图像处理过程中,通过图像切割、重组的手段提高了图像高清处理过程的效率;以字体水平线为基准对档案图像进行纠偏等图像预处理,一方面提高了图像特征提取和重构的准确性,另一方面避免了大量的手工校正工作量,从而提高了档案的数字化录入效率。
如图5所示,本实施例还提供了一种基于卷积模型的档案图像处理系统,该系统包括:
特征提取模块101,获取原始档案图像,并基于预设的卷积神经网络模型提取原始档案图像的特征得到特征矩阵。详细内容参见上述方法实施例中步骤S101的相关描述,在此不再进行赘述。
图像重构模块102,对特征矩阵进行上采样,并重构得到高清档案图像。详细内容参见上述方法实施例中步骤S102的相关描述,在此不再进行赘述。
照片对接模块103,当原始档案图像包含照片时,利用原始档案图像中的照片替换高清档案图像中对应位置的照片。详细内容参见上述方法实施例中步骤S103的相关描述,在此不再进行赘述。
本发明实施例提供的一种基于卷积模型的档案图像处理系统,用于执行上述实施例提供的一种基于卷积模型的档案图像处理方法,其实现方式与原理相同,详细内容参见上述方法实施例的相关描述,不再赘述。
通过上述各个组成部分的协同合作,本发明实施例提供的一种基于卷积模型的档案图像处理系统,通过卷积编码提取档案图像的图像特征,得到特征矩阵,之后利用上采样将特征矩阵重构,从而去除原始档案图像中由于褶皱、纸发黄和纸背面印出的笔迹等扫描到的图像噪声,使得图像清晰可辨。之后利用目标检测方法将原始档案图像中高清的照片替换掉重构图像中的照片,避免了在重构过程中导致的照片不清晰等情况。使得档案的数字化图像中的文字和照片都清晰可见。此外,在出图像处理过程中,通过图像切割、重组的手段提高了图像高清处理过程的效率;以字体水平线为基准对档案图像进行纠偏等图像预处理,一方面提高了图像特征提取和重构的准确性,另一方面避免了大量的手工校正工作量,从而提高了档案的数字化录入效率。
图6示出了本发明实施例的一种电子设备,该设备包括:处理器901和存储器902,可以通过总线或者其他方式连接,图6中以通过总线连接为例。
处理器901可以为中央处理器(Central Processing Unit,CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如上述方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器902中,当被处理器901执行时,执行上述方法实施例中的方法。
上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,实现的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (8)
1.一种基于卷积模型的档案图像处理方法,其特征在于,所述方法包括:
获取原始档案图像,并基于预设的卷积神经网络模型提取所述原始档案图像的特征得到特征矩阵;
利用所述卷积神经网络模型对所述特征矩阵进行上采样,并重构得到高清档案图像;
当所述原始档案图像包含照片时,利用所述原始档案图像中的照片替换所述高清档案图像中对应位置的照片;
其中,所述获取原始档案图像,并基于预设的卷积神经网络模型提取所述原始档案图像的特征得到特征矩阵,包括:对所述原始档案图像进行预处理,得到预处理档案图像;以预设尺寸对所述预处理档案图像进行图像切割,并对切割后的图像进行边缘扩充以生成多个档案子图;基于所述卷积神经网络模型对所述档案子图进行编码以提取所述档案子图的特征得到多个子特征矩阵;
其中,所述对所述特征矩阵进行上采样,并重构得到高清档案图像,包括:对每一个所述子特征矩阵进行上采样,并重构得到多个高清子图;对所述高清子图进行边缘切除,并将切除边缘后的高清子图进行拼接,得到所述高清档案图像,所述高清子图边缘切除的大小和生成所述档案子图时边缘扩充的大小一致。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始档案图像进行预处理,得到预处理档案图像,包括:
基于字体水平线对所述原始档案图像纠偏;
对纠偏后的原始档案图像进行切边,以确保档案主体位于图像的正中,并生成所述预处理档案图像。
3.根据权利要求1所述的方法,其特征在于,所述卷积神经网络模型的结构如下:
第一编码层,所述第一编码层包括第一卷积层和第一最大池化层,其中所述第一卷积层包含维度3×3的卷积核64个且卷积步长为1,所述第一最大池化层包含维度2×2的池化窗口1个且池化步长为2;
第二编码层,所述第二编码层包括第二卷积层和第二最大池化层,其中所述第二卷积层包含维度3×3的卷积核128个且卷积步长为1,所述第二最大池化层包含维度2×2的池化窗口1个且池化步长为2;
第三解码层,所述第三解码层包括第三反卷积层和第三上采样层,其中所述第三反卷积层包含维度3×3的卷积核128个且卷积步长为1,所述第三上采样层包含维度2×2的上采样窗口1个且上采样步长为2;
第四解码层,所述第四解码层包括第四反卷积层和第四上采样层,其中所述第四反卷积层包含维度3×3的卷积核64个且卷积步长为1,所述第四上采样层包含维度2×2的上采样窗口1个且上采样步长为2。
4.根据权利要求2所述的方法,其特征在于,所述当所述原始档案图像包含照片时,利用所述原始档案图像中的照片替换所述高清档案图像中对应位置的照片,包括:
以预设比例缩小所述高清档案图像,并基于YOLOv3模型搜索得到缩小后的高清档案图像的照片部分;
获取所述照片部分的空间坐标,并根据所述预设比例对所述空间坐标进行放大得到替换坐标;
获取所述原始档案图像的所述预处理档案图像,并根据所述替换坐标在所述预处理档案图像的相同位置复制原始照片;
使用所述原始照片替换所述照片部分。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
使用预设三原色数值对所述高清档案图像的底色进行统一。
6.一种基于卷积模型的档案图像处理系统,其特征在于,所述系统包括:
特征提取模块,获取原始档案图像,并基于预设的卷积神经网络模型提取所述原始档案图像的特征得到特征矩阵;
图像重构模块,对所述特征矩阵进行上采样,并重构得到高清档案图像;
照片对接模块,当所述原始档案图像包含照片时,利用所述原始档案图像中的照片替换所述高清档案图像中对应位置的照片;
其中,所述获取原始档案图像,并基于预设的卷积神经网络模型提取所述原始档案图像的特征得到特征矩阵,包括:对所述原始档案图像进行预处理,得到预处理档案图像;以预设尺寸对所述预处理档案图像进行图像切割,并对切割后的图像进行边缘扩充以生成多个档案子图;基于所述卷积神经网络模型对所述档案子图进行编码以提取所述档案子图的特征得到多个子特征矩阵;
其中,所述对所述特征矩阵进行上采样,并重构得到高清档案图像,包括:对每一个所述子特征矩阵进行上采样,并重构得到多个高清子图;对所述高清子图进行边缘切除,并将切除边缘后的高清子图进行拼接,得到所述高清档案图像,所述高清子图边缘切除的大小和生成所述档案子图时边缘扩充的大小一致。
7.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机从而执行如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111044391.3A CN113793264B (zh) | 2021-09-07 | 2021-09-07 | 一种基于卷积模型的档案图像处理方法、系统和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111044391.3A CN113793264B (zh) | 2021-09-07 | 2021-09-07 | 一种基于卷积模型的档案图像处理方法、系统和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113793264A CN113793264A (zh) | 2021-12-14 |
CN113793264B true CN113793264B (zh) | 2022-11-15 |
Family
ID=78879705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111044391.3A Active CN113793264B (zh) | 2021-09-07 | 2021-09-07 | 一种基于卷积模型的档案图像处理方法、系统和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113793264B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115439871A (zh) * | 2022-09-13 | 2022-12-06 | 北京航星永志科技有限公司 | 档案自动化采集方法、装置和电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103093298A (zh) * | 2012-06-18 | 2013-05-08 | 北京航星永志科技有限公司 | 一种图像或影像文件的多版本数字档案管理与应用方法 |
CN109089008A (zh) * | 2018-07-27 | 2018-12-25 | 山东鲁能软件技术有限公司 | 基于dls模型干部人事档案高清处理方法及系统 |
CN110263610A (zh) * | 2019-02-28 | 2019-09-20 | 重庆大学 | 一种基于深度学习的退化文档图像二值化方法及系统 |
CN112150400A (zh) * | 2020-10-10 | 2020-12-29 | 清华大学 | 图像增强方法、装置和电子设备 |
CN112241934A (zh) * | 2019-07-19 | 2021-01-19 | 华为技术有限公司 | 一种图像处理方法以及相关设备 |
CN112508976A (zh) * | 2020-12-22 | 2021-03-16 | 大连民族大学 | 基于u型卷积神经网络的满文历史文档图像二值化方法 |
CN113065396A (zh) * | 2021-03-02 | 2021-07-02 | 国网湖北省电力有限公司 | 基于深度学习的扫描档案图像的自动化归档处理系统及方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136056B (zh) * | 2018-02-08 | 2023-08-29 | 华为技术有限公司 | 图像超分辨率重建的方法和装置 |
CN110263909B (zh) * | 2018-03-30 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 图像识别方法及装置 |
KR20210059712A (ko) * | 2018-08-07 | 2021-05-25 | 블링크에이아이 테크놀로지스, 아이엔씨. | 이미지 향상을 위한 인공지능 기법 |
-
2021
- 2021-09-07 CN CN202111044391.3A patent/CN113793264B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103093298A (zh) * | 2012-06-18 | 2013-05-08 | 北京航星永志科技有限公司 | 一种图像或影像文件的多版本数字档案管理与应用方法 |
CN109089008A (zh) * | 2018-07-27 | 2018-12-25 | 山东鲁能软件技术有限公司 | 基于dls模型干部人事档案高清处理方法及系统 |
CN110263610A (zh) * | 2019-02-28 | 2019-09-20 | 重庆大学 | 一种基于深度学习的退化文档图像二值化方法及系统 |
CN112241934A (zh) * | 2019-07-19 | 2021-01-19 | 华为技术有限公司 | 一种图像处理方法以及相关设备 |
CN112150400A (zh) * | 2020-10-10 | 2020-12-29 | 清华大学 | 图像增强方法、装置和电子设备 |
CN112508976A (zh) * | 2020-12-22 | 2021-03-16 | 大连民族大学 | 基于u型卷积神经网络的满文历史文档图像二值化方法 |
CN113065396A (zh) * | 2021-03-02 | 2021-07-02 | 国网湖北省电力有限公司 | 基于深度学习的扫描档案图像的自动化归档处理系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113793264A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210256253A1 (en) | Method and apparatus of image-to-document conversion based on ocr, device, and readable storage medium | |
US20190304066A1 (en) | Synthesis method of chinese printed character images and device thereof | |
JP7132654B2 (ja) | レイアウト解析方法、読取り支援デバイス、回路および媒体 | |
RU2631765C1 (ru) | Способ и система исправления перспективных искажений в изображениях, занимающих двухстраничный разворот | |
WO2018233055A1 (zh) | 保单信息录入的方法、装置、计算机设备及存储介质 | |
US20230222631A1 (en) | Method and device for removing handwritten content from text image, and storage medium | |
CN114255337A (zh) | 文档图像的矫正方法、装置、电子设备及存储介质 | |
CN113592735A (zh) | 文本页面图像还原方法及系统、电子设备和计算机可读介质 | |
CN114283156A (zh) | 一种用于去除文档图像颜色及手写笔迹的方法及装置 | |
CN114429636B (zh) | 图像扫描识别方法、装置及电子设备 | |
CN113793264B (zh) | 一种基于卷积模型的档案图像处理方法、系统和电子设备 | |
CN116758550A (zh) | 表单图像的文本识别方法及其装置、电子设备、存储介质 | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
US20230071008A1 (en) | Computer-readable, non-transitory recording medium containing therein image processing program for generating learning data of character detection model, and image processing apparatus | |
CN111340040A (zh) | 一种纸张字符识别方法、装置、电子设备及存储介质 | |
JP7364639B2 (ja) | デジタル化された筆記の処理 | |
US11367296B2 (en) | Layout analysis | |
Bhaskar et al. | Implementing optical character recognition on the android operating system for business cards | |
CN109741426B (zh) | 一种漫画形式转化方法和装置 | |
CN113591846A (zh) | 图像扭曲系数提取方法、扭曲矫正方法及系统、电子设备 | |
US9648208B2 (en) | Method and apparatus and using an enlargement operation to reduce visually detected defects in an image | |
CN111401365A (zh) | Ocr图像自动生成方法及装置 | |
CN113177556A (zh) | 一种文本图像增强模型、训练方法、增强方法及电子设备 | |
Konya et al. | Adaptive methods for robust document image understanding | |
CN117422945A (zh) | 训练样本生成方法、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |