CN116682120A - 基于深度学习的多语种马赛克图像文本识别方法 - Google Patents
基于深度学习的多语种马赛克图像文本识别方法 Download PDFInfo
- Publication number
- CN116682120A CN116682120A CN202310524256.1A CN202310524256A CN116682120A CN 116682120 A CN116682120 A CN 116682120A CN 202310524256 A CN202310524256 A CN 202310524256A CN 116682120 A CN116682120 A CN 116682120A
- Authority
- CN
- China
- Prior art keywords
- image
- module
- mosaic
- data
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000013135 deep learning Methods 0.000 title claims description 19
- 230000008569 process Effects 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000009792 diffusion process Methods 0.000 claims abstract description 27
- 230000000007 visual effect Effects 0.000 claims abstract description 24
- 238000005457 optimization Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 238000009826 distribution Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 238000011084 recovery Methods 0.000 claims description 9
- 238000003745 diagnosis Methods 0.000 claims description 6
- 230000019771 cognition Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000001143 conditioned effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims 1
- 210000000857 visual cortex Anatomy 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 12
- 239000008186 active pharmaceutical agent Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241001477352 Bengalia Species 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 2
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 2
- -1 MASTER Proteins 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明受人类视觉皮层观察‑练习‑完善的识别过程,提出了一种马赛克文字识别方法:采用合成数据以及公开基准数据集构造原始图像‑马赛克图像数据对;首先将马赛克图像数据送入“观察”模块的图像编码器中层次化提取特征;然后通过重建模块对图像初步恢复;受掩码自回归编码器的启发使用自监督学习来模仿人类的“练习”过程,由视觉自注意力模块预测像素值;最后“完善”模块的去噪扩散概率模型训练U型神经网络预测每一步的噪声实现迭代优化;通过反向传播优化权重参数;由开源识别网络或云服务API识别字符序列。本发明为多语种马赛克文本图像识别难题贡献了一种思路和可行方案。
Description
技术领域
本发明属于人工智能和计算机视觉技术领域,更具体地,涉及一种基于深度学习的多语种马赛克图像文本识别方法。
背景技术
文字是人类社会最重要的交际工具和信息载体,是文化的基础要素和鲜明标志。“没有文字便没有历史”,由此也可见文字在历史延续中举重若轻的地位。如今随着即时通讯与视频技术的发展与进步,人们为了保护或隐藏某些隐私信息而发明了马赛克这样一种基于图像像素模糊化的处理方法。在数学逻辑上,马赛克导致的信息损失时不可逆的,这也对马赛克文字识别提出了极大的挑战。在深度神经网络的推动下,图像文本识别技术在过去的十几年里取得了显著的进展,促进了文件扫描,数据归档,古籍识别等多个应用的落地发展,这也使得马赛克图像文字识别这一任务变得可能。
传统视觉图像恢复方法通常利用数字图像处理的技术如插值法、退化模型和稀疏表征法等,它们借助临近或主导像素值来重建图像。尽管这类传统方法极大的推动了该领域的发展,但面对马赛克图像时往往缺乏对复杂依赖关系的表现力而导致效果不佳。而近年来新兴的深度学习技术在目标检测和实例分割表现出了令人惊艳的效果,逐渐在各个视觉领域掀起了热潮,也为马赛克图像文字识别这一困难任务带来了新的思路和切入点。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提出了一种基于深度学习的多语种马赛克图像文本识别方法,挖掘此前没有得到应有重视的马赛克图像文本识别这一困难任务。
为实现上述目的,本发明提供了一种基于深度学习的多语种马赛克图像文本识别方法,该方法包括:
步骤一:数据获取,采用合成文本图像数据以及公开真实场景文字基准数据集作为原始训练数据,构成原始图像-马赛克图像数据对;
步骤二:数据预处理和数据增强:首先将输入图像调整统一的大小和分辨率;接下来对调整后的图像进行数据增强来提高模型对不同输入数据的泛化能力。
步骤三:“观察Observation”模块由图像编码器和重建模块组成,首先将马赛克图像数据送入图像编码器中进而层次化地利用卷积层与基于移动窗口的视觉自注意力模型提取图像特征和文本特征;然后通过重建模块的子像素卷积进一步对图像上采样以去除马赛克和提高图像质量与分辨率;
步骤四:“练习Practice”模块由与“观察Observation”模块同一个共享参数的图像编码器与一系列视觉自注意力模块组成的解码器组成,受掩码自回归编码器的启发使用大量的数据进行自监督学习来模仿人类的“练习Practice”过程来预测掩码图像补丁块的像素值;
步骤五:“完善Refined”模块由去噪扩散概率模型组成,主要有前向加噪和反向去噪两个步骤:前向加噪过程可视为一个马尔可夫链模型不断对原始图像添加高斯噪声直至成为纯噪声图像,而反向去噪过程则利用原始图像和噪声图像训练U型神经网络预测每一步的噪声从而达到图像恢复的效果;
步骤六:由“观察Observation”模块与“完善Refinement”模块利用二者输出的复原图像计算与原始图像的像素损失与峰值信噪比;而“练习Practice”模块利用预测掩码图像补丁块像素计算与真实像素的均方误差辅助并加速训练,通过反向传播优化识别网络权重参数;
步骤七:在推理阶段将恢复的图像送入识别网络或云服务API完成马赛克多语种文字图像的识别并输出预测的字符序列,使用预测准确率和标准化编辑距离作为衡量评价指标。
本发明的一个实施例中,所述步骤一中合成的一定数量的成对的原始图像-马赛克图像数据集需要一一对应,马赛克图像将送入后续网络的“观察Observation”、“练习Practice”和“完善Refinement”三个模块中利用视觉自注意力模型、掩码自编码器和去噪扩散模型来对图像逐步复原。
本发明的一个实施例中,在所述步骤一中:由于目前没有公开的马赛克多语言数据集同时为了验证提出方法在真实场景的模型泛化能力,我们使用开源工具SynthTiger,即一种合成文本图像生成器,生成了多语言马赛克合成训练图像并采用了公开场景文本识别基准数据集,包括(1)IIIT5kWords(IIIT);(2)Street View Text(SVT);(3)ICDAR 2013(IC13);(4)ICDAR 2015Incidental Text(IC15)。马赛克生成图像的网格大小有5×5、10×10、15×15三种。在我们的实验中,我们使用了六种语言的合成数据集,包括英语、中文、孟加拉、日语、德语和法语数据。同时也在生成数据时采取高斯噪声、随机模糊、旋转裁剪以及多样的背景字体等处理的方法使合成数据更加接近真实场景的数据并且使得测试集和训练集具有多样性。
本发明的一个实施例中,所述步骤二具体包括:给定高为H,宽为W,颜色通道数为3的彩色RGB原始图像-马赛克文本图片对 首先得到输入图像的高度与宽度,并根据二者的比值与1/4的大小关系选择最合适且能最大程度保留原始图像文字形状的缩放方式将输入图像调整为统一的高度为32、宽度为128的分辨率的图像对 接下来,我们对调整后的图像进行随机水平或垂直翻转的数据增强来提高模型对不同输入数据的泛化能力,最后增强的图像将作为输入送入“观察Observation”模块的图像编码器中,详细内容将在下面介绍。
本发明的一个实施例中,所述步骤三具体包括:“观察Observation”模块由图像编码器和重建模块组成,首先将预处理的马赛克图像数据送入图像编码器中进而层次化地利用卷积层与基于移动窗口的视觉自注意力模型提取图像的浅层与深层特征对图像特征和文本特征建模和分析,二者分别是图像低频和高频信息的表征,进而得到Fp=Encoder(X′;Θenc),Θenc表示图像编码器的参数,/>然后通过重建模块的子像素卷积进一步对图像上采样以去除马赛克和提高图像质量与分辨率,输出得到Recons(·)表示含子像素的卷积图像重建模块,在浅层特征和深层特征之间有跳跃连接,二者分别是图像低频和高频信息的表征,Θrecons表示图像重建模块的参数,/>然后根据输出/>与Y′计算L1像素损失作为/> 用于优化参数Θenc和Θrecons。
本发明的一个实施例中,所述步骤四具体包括:为保证参数优化的连续性,“练习Practice”模块由与“观察Observation”模块同一个共享参数的图像编码器与一系列视觉自注意力模块组成的解码器组成,受掩码自回归编码器的启发我们将图像分割为大小为2×2的非重叠图像补丁块并随机采样得到一个图像补丁子集/>将采样到的可见补丁子集经过一层线性映射后从而以指定的维度输入图像编码器,而其余的图像补丁/>将被掩码遮盖并且移去从而大大减少计算需求和存储内存,其中N和M分别表示可见与不可见两种补丁块的个数。我们利用大量的数据进行自监督学习来模仿人类的“练习Practice”过程,之后将编码的可见补丁Fm=Encoder(Linear(Z′);Θenc)(其中/>Θdec为编码器参数)和共享且可学习的掩码图像补丁拼接为并输入由一系列视觉自注意力模块组成的解码器来预测掩码图像补丁块的像素值Zm=DecOder(F′m;Θdec),并且解码器的最后一层为一个线性映射层使得输出满足/>Θdec为解码器参数,最后仅利用输出Zm中的掩码补丁部分Z′m,来计算均方误差Ldec=MSE(Z′m,Z″)用于优化参数Θdec和Θenc。
本发明的一个实施例中,所述步骤五具体包括:受去噪扩散概率模型的启发,我们采用了条件去噪扩散模型从一个纯高斯噪声开始,基于粗糙恢复图像不断迭代优化来模拟人类在认知过程的“完善Refinement”的环节。给定由图像恢复模块输出的粗糙恢复图像和原始正常图像Y′,“完善Refinement”迭代模块旨在学习从标准正态分布到以粗糙恢复图像为条件的经验数据分布的映射。具体而言,以粗糙恢复图像/>为条件训练U型神经网络(U-Net)模型,逐步从纯噪声图像/>中去除各种程度的噪声,直到得到正常图像Y′。扩散模型主要有前向加噪和反向去噪两个步骤:前向加噪过程q可视为一个马尔可夫链模型不断对原始图像y0=Y′添加高斯噪声直至成为纯噪声图像,该过程可由下式表示:
其中T为扩散模型的步数,设置为2000,前向过程的每一次迭代加噪根据下式进行:
其中α1:T为0到1之间的超参数,决定了每步的噪声变量,I为标准单位矩阵。前向过程在给定原始图像y0的条件下支持在任意时间步t进行采样,可由下式表示:
其中该式对于在t步快速采样yt十分有帮助,可由下式表达:
针对给定的条件粗糙图像和噪声目标图像yt,我们训练了一个U-Net作为去噪模型,表示为/>用于预测噪声向量∈,其中/>为条件粗糙恢复图像,γ为噪声方差的统计量。最终,我们将最小化扩散损失项,即:
其中γ~p(γ)并且设置在训练过程中,我们首先均匀采样一个时间步t~{0,...,T},然后从γt-1和γt的均匀分布U(γt-1,γt)中采样γ。此外,利用贝叶斯定理,我们可以推导出给定(y0,yt)的后验分布yt-1,如下式推导所示:
反向去噪过程由参数θ给出,定义为下式:
其中,反向过程将潜在变量分布pθ(yT)转换为数据分布pθ(y0),其中x为粗糙恢复图像。将上式联立并将y0代入后验分布q(yt-1|y0,yt)中参数化pθ(yt-1|yt,x)的均值为下式:
最后在推理阶段,对反向过程进行重参数得到下式:
其中该模型最终使用预测的/>作为输出。。
本发明的一个实施例中,所述步骤六具体包括:我们将模型的训练过程分为两个阶段,首先同时训练由“观察Observation”和“练习Practice”共用的图像编码器,然后训练迭代优化模块去噪扩散网络。对于两个训练阶段,我们采用Adam优化器并且设置相应的超参数,其中第一阶段的学习率为5e-5,进行10轮训练,批量大小设置为32;第二阶段的训练学习率为12e-6,进行50轮训练,批量大小为8。网络训练的代价函数由重建损失函数和像素损失函数组成,公式为:L=Lrec+Ldec,其中Lrec是“观察Observation”模块的图像重建模块与“完善Refinement”模块的预测输出与Y′计算的L1像素损失:/>Ldec为“练习Practice”模块利用输出Zm中的掩码补丁部分Z′m,来计算均方误差Ldec=MSE(Z′m,Z″)。
本发明的一个实施例中,所述步骤七具体包括:为了衡量马赛克图像恢复效果,我们将恢复后图像送入识别网络如百度飞桨提供的开源识别框架以及内置的主流文字识别模型(包括CRNN、MASTER、SAR和ABINet)或云服务API(包括国内阿里云、百度智能云和腾讯云与国外的微软云服务Azure、亚马逊云服务Amazon和谷歌云服务)完成马赛克多语种文字图像的识别并输出预测的字符序列,使用预测准确率和标准化编辑距离作为具体的衡量评价指标。在实验中我们注意到不同识别器的识别效果以及识别速度均存在差异,同时为了更好的评价恢复图像和马赛克图像相比在识别性能上的增幅,我们还利用以上识别器或云服务API对未处理的马赛克图像以及原始高像素图像分别进行识别,得到与识别器相关联的指标上下限。最后我们在多语种的合成数据以及多个公开真实场景的数据集进行了可视化的结果展示,具体的效果见说明书附图2。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
本发明受人类认知过程启发,使用层次化Observation-Practice-Refinement的模块结构,在多语种合成数据与真实场景数据集均取得显著提升识别性能。且本发明依据开源工具生成大量训练数据并采用高效的自监督学习方法,减少了数据收集以及数据标注的困难。
附图说明
图1为本发明实施例中基于深度学习马赛克文字识别方法的网络模型流程示意图;
图2为本发明在合成数据以及真实场景数据集可视化恢复图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为了解决现有技术存在的问题,本发明提出了一种基于深度学习的多语种马赛克图像文本识别方法,我们的目标是提出一种模仿人类认知过程“观察-练习-完善”的网络模型,探索现有马赛克技术对图像信息的安全性。如图1所示,图1展示的三个模块分别代表着“观察-练习-完善”,“观察Observation”模块由图像编码器和重建模块组成,“练习Practice”模块由与“观察Observation”模块同一个共享参数的图像编码器与一系列视觉自注意力模块组成的解码器组成,“完善Refined”模块由去噪扩散概率模型组成,而马赛克图像对生成、图像编码、掩码自编码器与扩散模型的核心框架在图中也以流程图的形式展现(即本发明的马赛克图像恢复模块主体部分,本发明的还包含后续步骤六提到的计算像素损失、峰值信噪比和恢复均方误差部分)。图像编码器、重建模块、自监督学习和扩散模型等为马赛克文字恢复方法的核心部分。
如图1所示,本发明提出的基于深度学习的多语种马赛克图像文本识别方法,包括以下步骤:
步骤一:数据获取,采用合成文本图像数据以及公开真实场景文字基准数据集作为原始训练数据,构成原始图像-马赛克图像数据对;
具体地,所述步骤一中合成的一定数量的成对的原始图像-马赛克图像数据集对,二者需要一一对应。由于目前没有公开的马赛克多语言数据集同时为了验证提出方法在真实场景的模型泛化能力,我们使用开源工具SynthTiger,即一种合成文本图像生成器,生成了多语言马赛克合成训练图像并采用了公开场景文本识别基准数据集,包括(1)IIIT5kWords(IIIT);(2)Street View Text(SVT);(3)ICDAR 2013(IC13);(4)ICDAR2015Incidental Text(IC15)。马赛克生成图像的网格大小有5×5、10×10、15×15三种。在我们的实验中,我们使用了六种语言的合成数据集,包括英语、中文、孟加拉、日语、德语和法语数据。同时也在生成数据时采取高斯噪声、随机模糊、旋转裁剪以及多样的背景字体等处理的方法使合成数据更加接近真实场景的数据并且使得测试集和训练集具有多样性。
步骤二:数据预处理和数据增强:首先将输入图像调整统一的大小和分辨率;接下来对调整后的图像进行数据增强来提高模型对不同输入数据的泛化能力。
具体地,给定高为H,宽为W,颜色通道数为3的彩色RGB原始图像-马赛克文本图片对首先得到输入图像的高度与宽度,并根据二者的比值与1/4的大小关系选择最合适且能最大程度保留原始图像文字形状的缩放方式将输入图像调整为统一的高度为32、宽度为128的分辨率的图像对/>接下来,我们对调整后的图像进行随机水平或垂直翻转的数据增强来提高模型对不同输入数据的泛化能力,最后增强的图像将作为输入送入“观察Observation”模块的图像编码器中,具体细节将在下一步骤介绍。
步骤三:将马赛克图像数据送入图像编码器中进而提取图像和文本特征;然后通过重建模块的子像素卷积进一步对图像上采样以去除马赛克和提高图像质量与分辨率;
具体地,“观察Observation”模块由图像编码器和重建模块组成,首先将预处理的马赛克图像数据送入图像编码器中进而层次化地利用卷积层与基于移动窗口的视觉自注意力模型提取图像的浅层与深层特征对图像特征和文本特征建模和分析,二者分别是图像低频和高频信息的表征,进而得到Fp=Encoder(X′;Θenc),Θenc表示图像编码器的参数,/>然后通过重建模块的子像素卷积进一步对图像上采样以去除马赛克和提高图像质量与分辨率,输出得到/>Recons(·)表示含子像素的卷积图像重建模块,在浅层特征和深层特征之间有跳跃连接,二者分别是图像低频和高频信息的表征,Θrecons表示图像重建模块的参数,/>然后根据输出/>与Y′计算L1像素损失作为/>用于优化参数Θ和Θ。
enc recons
这里图像编码器输入的图片来自于合成数据集,也可使用真实场景数据集和多语言数据集如(1)IIIT5kWords(IIIT);(2)Street View Text(SVT);(3)ICDAR 2013(IC13);(4)ICDAR 2015Incidental Text(IC15)数据集。
步骤四:受掩码自回归编码器的启发使用大量的数据进行无监督学习来模仿人类的“练习Practice”过程。将掩码补丁图像块送入与“观察Observation”模块同一个共享参数的图像编码器之后由视觉自注意力模块组成得解码器预测掩码图像补丁块的像素值。
具体地,为保证参数优化的连续性,“练习Practice”模块与“观察Observation”模块同一个共享参数的图像编码器与一系列视觉自注意力模块组成的解码器组成,受掩码自回归编码器的启发我们将图像分割为大小为2×2的非重叠图像补丁块并随机采样得到一个图像补丁子集/>将采样到的可见补丁子集经过一层线性映射后从而以指定的维度输入图像编码器,而其余的图像补丁/>将被掩码遮盖并且移去从而大大减少计算需求和存储内存,其中N和M分别表示可见与不可见两种补丁块的个数。我们利用大量的数据进行自监督学习来模仿人类的“练习Practice”过程,之后将编码的可见补丁Fm=Encoder(Linear(Z′);Θenc)(其中/>Θdec为编码器参数)和共享且可学习的掩码图像补丁拼接为/>并输入由一系列视觉自注意力模块组成的解码器来预测掩码图像补丁块的像素值Zm=Decoder(F′m;Θdec),并且解码器的最后一层为一个线性映射层使得输出满足/>Θdec为解码器参数,最后仅利用输出Zm中的掩码补丁部分Z′m,来计算均方误差Ldec=MSE(Z′m,Z″)用于优化参数Θdec和Θenc。
步骤五:“完善Refined”模块由去噪扩散概率模型组成,主要有前向加噪和反向去噪两个步骤:前向加噪过程可视为一个马尔可夫链模型不断对原始图像添加高斯噪声直至成为纯噪声图像,而反向去噪过程则利用原始图像和噪声图像训练U型神经网络预测每一步的噪声从而达到图像恢复的效果;
具体地,受去噪扩散概率模型的启发,我们采用了条件去噪扩散模型从一个纯高斯噪声开始,基于粗糙恢复图像不断迭代优化来模拟人类在认知过程的“完善Refinement”的环节。给定由图像恢复模块输出的粗糙恢复图像和原始正常图像Y′,“完善Refinement”迭代模块旨在学习从标准正态分布到以粗糙恢复图像为条件的经验数据分布的映射。具体而言,以粗糙恢复图像/>为条件训练U型神经网络(U-Net)模型,逐步从纯噪声图像/>中去除各种程度的噪声,直到得到正常图像Y'。扩散模型主要有前向加噪和反向去噪两个步骤:前向加噪过程q可视为一个马尔可夫链模型不断对原始图像y0=Y'添加高斯噪声直至成为纯噪声图像,该过程可由下式表示:
其中T为扩散模型的步数,设置为2000,前向过程的每一次迭代加噪根据下式进行:
其中α1:T为0到1之间的超参数,决定了每步的噪声变量,I为标准单位矩阵。前向过程在给定原始图像y0的条件下支持在任意时间步tt进行采样,可由下式表示:
其中该式对于在t步快速采样yt十分有帮助,可由下式表达:
针对给定的条件粗糙图像和噪声目标图像yt,我们训练了一个U-Net作为去噪模型,表示为/>用于预测噪声向量∈,其中/>为条件粗糙恢复图像,γ为噪声方差的统计量。最终,我们将最小化扩散损失项,即:
其中γ~p(γ)并且设置在训练过程中,我们首先均匀采样一个时间步t~{0,...,T},然后从γt-1和γt的均匀分布U(γt-1,γt)中采样γ。此外,利用贝叶斯定理,我们可以推导出给定(y0,yt)的后验分布yt-1,如下式推导所示:
反向去噪过程由参数θ给出,定义为下式:
其中,反向过程将潜在变量分布pθ(yT)转换为数据分布pθ(y0),其中x为粗糙恢复图像。将上式联立并将y0代入后验分布q(yt-1|y0,yt)中参数化pθ(yt-1|yt,x)的均值为下式:
最后在推理阶段,对反向过程进行重参数得到下式:
其中该模型最终使用预测的/>作为输出。
步骤六:由“观察Observation”模块与“完善Refinement”模块利用二者输出的复原图像计算与原始图像的像素损失与峰值信噪比;而“练习Practice”模块利用预测掩码图像补丁块像素计算与真实像素的均方误差辅助并加速训练,通过反向传播优化识别网络权重参数;
具体地,我们将模型的训练过程分为两个阶段,首先同时训练由“观察Observation”和“练习Practice”共用的图像编码器,然后训练迭代优化模块去噪扩散网络。对于两个训练阶段,我们采用Adam优化器并且设置相应的超参数,其中第一阶段的学习率为5e-5,进行10轮训练,批量大小设置为32;第二阶段的训练学习率为12e-6,进行50轮训练,批量大小为8。代价函数由重建损失函数和像素损失函数组成,公式为:L=Lrec+Ldec,其中Lrec是“观察Observation”模块的图像重建模块与“完善Refinement”模块的预测输出与Y′计算的L1像素损失:/>Ldec为“练习Practice”模块利用输出Zm中的掩码补丁部分Z′m,来计算均方误差Ldec=MSE(Z′m,Z″)。
这里具体使用反向传播算法,对计算的到的损失求梯度并让其在网络中反向传播,优化识别网络参数。
步骤七:在推理阶段将恢复的图像送入识别网络或云服务API完成马赛克多语种文字图像的识别并输出预测的字符序列,使用预测准确率和标准化编辑距离作为衡量评价指标。
所述步骤中,为了衡量马赛克图像恢复效果,我们将恢复后图像送入识别网络如百度飞桨提供的开源识别框架以及内置的常用识别模型(包括CRNN、MASTER、SAR和ABINet)或云服务API(包括国内阿里云、百度智能云和腾讯云与国外的微软云服务Azure、亚马逊云服务Amazon和谷歌云服务)完成马赛克多语种文字图像的识别并输出预测的字符序列,使用预测准确率和标准化编辑距离作为具体的衡量评价指标。在实验中我们注意到不同识别器的识别效果以及识别速度均存在差异,同时为了更好的评价恢复图像和马赛克图像相比在识别性能上的增幅,我们还利用以上识别器或云服务API对未处理的马赛克图像以及原始高像素图像分别进行识别,得到与识别器相关联的指标上下限。最后我们在多语种的合成数据以及多个公开真实场景的数据集进行了可视化的结果展示,具体的效果见说明书附图2,根据示意图可知多语种(中文、日语、德语、法语、英语以及孟加拉语)的文本信息均能从大程度的马赛克图像恢复至可识别的效果,其中较为复杂的中文、日语以及孟加拉语也取得了不错的效果;同时为了证明本发明的泛化能力,在真实场景文本基准数据集也进行了可视化分析,能较好的处理复杂的背景噪声和多样风格、字体的文本图像。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度学习的多语种马赛克图像文本识别方法,其特征在于,所述方法包括如下步骤:
步骤一:数据获取:采用合成文本图像数据以及公开真实场景文字基准数据集作为原始训练数据,构成原始图像-马赛克图像数据对;
步骤二:数据预处理和数据增强:首先将输入图像调整为统一的大小和分辨率;接下来对调整后的图像进行数据增强来提高模型对不同输入数据的泛化能力;
步骤三:“观察Observation”模块由图像编码器和重建模块组成,首先将马赛克图像数据送入图像编码器中进而层次化地利用卷积层与基于移动窗口的视觉自注意力模型提取图像特征和文本特征;然后通过重建模块的子像素卷积进一步对图像上采样以去除马赛克和提高图像质量与分辨率;
步骤四:受掩码自回归图像编码器的启发使用大量的图像数据进行自监督学习来模仿人类的“练习Practice”过程,此模块由与“观察Observation”模块同一个共享参数的图像编码器与一系列视觉自注意力模块组成的解码器组成,来预测掩码图像补丁块的像素值;
步骤五:“完善Refined”模块由去噪扩散概率模型组成,主要有前向加噪和反向去噪两个步骤:前向加噪过程视为一个马尔可夫链模型不断对原始图像添加高斯噪声直至成为纯噪声图像,而反向去噪过程则利用原始图像和噪声图像训练U型神经网络预测每一步的噪声从而实现图像恢复;
步骤六:由“观察Observation”模块和“完善Refinement”模块利用二者的预测复原图像计算与原始图像的像素损失与峰值信噪比;而“练习Practice”模块利用预测掩码图像补丁块像素计算与真实像素的均方误差辅助并加速训练,通过反向传播优化识别网络权重参数;
步骤七:在推理阶段将恢复的图像送入识别网络或云服务API完成马赛克多语种文字图像的识别并输出预测的字符序列,使用预测准确率和标准化编辑距离作为衡量评价指标。
2.根据权利要求1所述的基于深度学习的多语种马赛克图像文本识别方法,其特征在于:所述步骤一中合成的成对的原始图像-马赛克图像数据对需要一一对应,马赛克图像将送入后续网络的“观察Observation”、“练习Practice”和“完善Refinement”三个模块中利用视觉自注意力模型、掩码自编码器和去噪扩散模型来对图像逐步复原。
3.根据权利要求1或2所述的基于深度学习的多语种马赛克图像文本识别方法,其特征在于,在所述步骤一中:
使用开源工具SynthTiger,即一种合成文本图像生成器,生成了多语言马赛克合成训练图像并采用了公开场景文本识别基准数据集,包括(1)IIIT5kWords(IIIT);(2)StreetView Text(SVT);(3)ICDAR 2013(IC13);(4)ICDAR 2015Incidental Text(IC15),马赛克生成图像的网格大小有5×5、10×10、15×15三种,使用六种语言的合成数据集,包括英语、中文、孟加拉、日语、德语和法语数据,在生成数据时采取高斯噪声、随机模糊、旋转裁剪以及多样的背景字体处理方法使合成数据更加接近真实场景的数据并且使得测试集和训练集具有多样性。
4.根据权利要求1或2所述的基于深度学习的多语种马赛克图像文本识别方法,其特征在于,所述步骤二具体包括:
给定高为H,宽为W,颜色通道数为3的彩色RGB原始图像-马赛克文本图片对首先得到输入图像的高度与宽度,并根据二者的比值与1/4的大小关系选择最合适且能最大程度保留原始图像文字形状的缩放方式将输入图像调整为统一的高度为32、宽度为128的分辨率的图像对/>接下来,对调整后的图像进行随机水平或垂直翻转的数据增强来提高模型对不同输入数据的泛化能力,最后增强的图像将作为输入送入“观察Observation”模块的图像编码器中。
5.根据权利要求1或2所述的基于深度学习的多语种马赛克图像文本识别方法,其特征在于,所述步骤三具体包括:
“观察Observation”模块由图像编码器和重建模块组成,首先将预处理的马赛克图像数据送入图像编码器中进而层次化地利用卷积层与基于移动窗口的视觉自注意力模型提取图像的浅层与深层特征对图像特征和文本特征建模和分析,二者分别是图像低频和高频信息的表征,进而得到Fp=Encoder(X′;Θenc),Θenc表示图像编码器的参数,/>然后通过重建模块的子像素卷积进一步对图像上采样以去除马赛克和提高图像质量与分辨率,输出得到/>Recons(·)表示含子像素卷积层的重建模块,在浅层特征和深层特征之间有跳跃连接,二者分别是图像低频和高频信息的表征,Θrecons表示图像重建模块的参数,/>然后根据输出/>与Y′计算L1像素损失作为/>用于优化参数Θ和Θ。
enc recons
6.根据权利要求1或2所述的基于深度学习的多语种马赛克图像文本识别方法,其特征在于,所述步骤四具体包括:
为保证参数优化的连续性,“练习Practice”模块由与“观察Observation”模块同一个共享参数的图像编码器与一系列视觉自注意力模块组成的解码器组成,将图像分割为大小为2×2的非重叠图像补丁块,并随机采样得到一个图像补丁子集将采样到的可见补丁子集经过一层线性映射后从而以指定的维度输入图像编码器,而其余的图像补丁/>将被掩码遮盖并且移去从而大大减少计算需求和存储内存,其中N和M分别表示可见与不可见两种补丁块的个数,利用大量的数据进行自监督学习来模仿人类的“练习Practice”过程,之后将编码的可见补丁Fm=Encoder(Linear(Z′);Θenc)和共享且可学习的掩码图像补丁拼接得到/>并输入由一系列视觉自注意力模块组成的解码器来预测掩码图像补丁块的像素值Zm=Decoder(F′m;Θdec),其中/>Θdec为编码器参数,并且解码器的最后一层为一个线性映射层使得输出满足/>Θdec为解码器参数,最后仅利用输出Zm中的掩码补丁部分Z′m,来计算均方误差Ldec=MSE(Z′ m,Z″)用于优化参数Θdec和Θenc。
7.根据权利要求1或2所述的基于深度学习的多语种马赛克图像文本识别方法,其特征在于,所述步骤五具体包括:
受去噪扩散概率模型的启发,采用条件去噪扩散模型从一个纯高斯噪声开始,基于粗糙恢复图像不断迭代优化来模拟人类在认知过程的“完善Refinement”的环节,给定由图像恢复模块输出的粗糙恢复图像和原始正常图像Y′,“完善Refinement”迭代模块旨在学习从标准正态分布到以粗糙恢复图像为条件的经验数据分布的映射。
8.根据权利要求7所述的基于深度学习的多语种马赛克图像文本识别方法,其特征在于,“完善Refinement”迭代模块具体实现为:
以粗糙恢复图像为条件训练U型神经网络模型,逐步从纯噪声图像/>中去除各种程度的噪声,直到得到正常图像Y′,扩散模型有前向加噪和反向去噪两个步骤:前向加噪过程q视为一个马尔可夫链模型不断对原始图像y0=Y′添加高斯噪声直至成为纯噪声图像,该过程由下式表示:
其中T为扩散模型的步数,前向过程的每一次迭代加噪根据下式进行:
其中α1:T为0到1之间的超参数,决定了每步的噪声变量,I为标准单位矩阵,前向加噪过程在给定原始图像y0的条件下支持在任意时间步t进行采样,由下式表示:
其中该式对于在t步快速采样yt十分有帮助,由下式表达:
针对给定的条件粗糙图像和噪声目标图像yt,训练一个U-Net作为去噪模型,表示为用于预测噪声向量∈,其中/>为条件粗糙恢复图像,γ为噪声方差的统计量,最终将最小化扩散损失项即:
其中γ~p(γ)并且设置在训练过程中,我们首先均匀采样一个时间步t~{0,...,T},然后从γt-1和γt的均匀分布U(γt-1,γt)中采样γ;此外利用贝叶斯定理推导出给定(y0,yt)的后验分布yt-1,如下式推导所示:
反向去噪过程由参数θ给出,定义为下式:
其中,反向加噪过程将潜在变量分布pθ(yT)转换为数据分布pθ(y0),其中x为粗糙恢复图像,将上式联立并将y0代入后验分布q(yt-1|y0,yt)中参数化pθ(yt-1|yt,x)的均值为下式:
最后在推理阶段,对反向过程进行重参数得到下式:
其中该模型最终使用预测的/>作为输出。
9.根据权利要求1或2所述的基于深度学习的多语种马赛克图像文本识别方法,其特征在于,所述步骤六具体包括:
将模型的训练过程分为两个阶段,首先同时训练由“观察Observation”和“练习Practice”共用的图像编码器,然后训练迭代优化模块去噪扩散网络;对于两个训练阶段,采用Adam优化器并且设置相应的超参数,其中第一阶段的学习率为5e-5,进行10轮训练,批量大小设置为32;第二阶段的训练学习率为12e-6,进行50轮训练,批量大小为8。
10.根据权利要求9所述的基于深度学习的多语种马赛克图像文本识别方法,其特征在于,在所述步骤六中:
代价函数由重建损失函数和像素损失函数组成,公式为:L=Lrec+Ldec,其中Lrec是“观察Observation”模块的图像重建模块与“完善Refinement”模块的预测输出与Y′计算的L1像素损失:/>Ldec为“练习Practice”模块利用输出Zm中的掩码补丁部分Z′m,来计算均方误差Ldec=MSE(Z′m,Z″)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310524256.1A CN116682120A (zh) | 2023-05-08 | 2023-05-08 | 基于深度学习的多语种马赛克图像文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310524256.1A CN116682120A (zh) | 2023-05-08 | 2023-05-08 | 基于深度学习的多语种马赛克图像文本识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116682120A true CN116682120A (zh) | 2023-09-01 |
Family
ID=87777750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310524256.1A Pending CN116682120A (zh) | 2023-05-08 | 2023-05-08 | 基于深度学习的多语种马赛克图像文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116682120A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117037136A (zh) * | 2023-10-10 | 2023-11-10 | 中国科学技术大学 | 场景文本识别方法、系统、设备及存储介质 |
CN117710986A (zh) * | 2024-02-01 | 2024-03-15 | 长威信息科技发展股份有限公司 | 一种基于掩码的交互式增强图像文本识别的方法及系统 |
CN117745505A (zh) * | 2024-02-19 | 2024-03-22 | 南京熊猫电子股份有限公司 | 一种基于实时多模态数据的救灾指挥系统及方法 |
-
2023
- 2023-05-08 CN CN202310524256.1A patent/CN116682120A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117037136A (zh) * | 2023-10-10 | 2023-11-10 | 中国科学技术大学 | 场景文本识别方法、系统、设备及存储介质 |
CN117037136B (zh) * | 2023-10-10 | 2024-02-23 | 中国科学技术大学 | 场景文本识别方法、系统、设备及存储介质 |
CN117710986A (zh) * | 2024-02-01 | 2024-03-15 | 长威信息科技发展股份有限公司 | 一种基于掩码的交互式增强图像文本识别的方法及系统 |
CN117710986B (zh) * | 2024-02-01 | 2024-04-30 | 长威信息科技发展股份有限公司 | 一种基于掩码的交互式增强图像文本识别的方法及系统 |
CN117745505A (zh) * | 2024-02-19 | 2024-03-22 | 南京熊猫电子股份有限公司 | 一种基于实时多模态数据的救灾指挥系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | DRFN: Deep recurrent fusion network for single-image super-resolution with large factors | |
Wang et al. | Esrgan: Enhanced super-resolution generative adversarial networks | |
CN112200750B (zh) | 一种超声图像去噪模型建立方法及超声图像去噪方法 | |
CN108921786B (zh) | 基于残差卷积神经网络的图像超分辨率重构方法 | |
Pan et al. | Loss functions of generative adversarial networks (GANs): Opportunities and challenges | |
CN116682120A (zh) | 基于深度学习的多语种马赛克图像文本识别方法 | |
CN110570353A (zh) | 密集连接生成对抗网络单幅图像超分辨率重建方法 | |
CN111986108B (zh) | 一种基于生成对抗网络的复杂海空场景图像去雾方法 | |
CN109035146A (zh) | 一种基于深度学习的低质量图像超分方法 | |
CN111062329B (zh) | 基于增广网络的无监督行人重识别方法 | |
CN112837224A (zh) | 一种基于卷积神经网络的超分辨率图像重建方法 | |
Yang et al. | Image super-resolution based on deep neural network of multiple attention mechanism | |
CN108492270A (zh) | 一种基于模糊核估计和变分重构的超分辨率方法 | |
CN116664397B (zh) | TransSR-Net结构化图像超分辨重建方法 | |
Yang et al. | A survey of super-resolution based on deep learning | |
Xu et al. | AutoSegNet: An automated neural network for image segmentation | |
Gao et al. | Bayesian image super-resolution with deep modeling of image statistics | |
Xing et al. | Digital rock resolution Enhancement and detail recovery with multi attention neural network | |
An et al. | Image super-resolution reconstruction algorithm based on significant network connection-collaborative migration structure | |
Shen et al. | Mutual information-driven triple interaction network for efficient image dehazing | |
Xu et al. | Multi-scale dehazing network via high-frequency feature fusion | |
Yin et al. | Multiscale depth fusion with contextual hybrid enhancement network for image dehazing | |
Yang et al. | RSAMSR: A deep neural network based on residual self-encoding and attention mechanism for image super-resolution | |
Wan et al. | Progressive convolutional transformer for image restoration | |
CN110853040B (zh) | 一种基于超分辨率重建的图像协同分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |