CN116682120A

CN116682120A - 基于深度学习的多语种马赛克图像文本识别方法

Info

Publication number: CN116682120A
Application number: CN202310524256.1A
Authority: CN
Inventors: 陈铭锐; 刘禹良; 余文文; 刘明宇; 陆昊; 白翔
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2023-09-01

Abstract

本发明受人类视觉皮层观察‑练习‑完善的识别过程，提出了一种马赛克文字识别方法：采用合成数据以及公开基准数据集构造原始图像‑马赛克图像数据对；首先将马赛克图像数据送入“观察”模块的图像编码器中层次化提取特征；然后通过重建模块对图像初步恢复；受掩码自回归编码器的启发使用自监督学习来模仿人类的“练习”过程，由视觉自注意力模块预测像素值；最后“完善”模块的去噪扩散概率模型训练U型神经网络预测每一步的噪声实现迭代优化；通过反向传播优化权重参数；由开源识别网络或云服务API识别字符序列。本发明为多语种马赛克文本图像识别难题贡献了一种思路和可行方案。

Description

基于深度学习的多语种马赛克图像文本识别方法

技术领域

本发明属于人工智能和计算机视觉技术领域，更具体地，涉及一种基于深度学习的多语种马赛克图像文本识别方法。

背景技术

文字是人类社会最重要的交际工具和信息载体，是文化的基础要素和鲜明标志。“没有文字便没有历史”，由此也可见文字在历史延续中举重若轻的地位。如今随着即时通讯与视频技术的发展与进步，人们为了保护或隐藏某些隐私信息而发明了马赛克这样一种基于图像像素模糊化的处理方法。在数学逻辑上，马赛克导致的信息损失时不可逆的，这也对马赛克文字识别提出了极大的挑战。在深度神经网络的推动下，图像文本识别技术在过去的十几年里取得了显著的进展，促进了文件扫描，数据归档，古籍识别等多个应用的落地发展，这也使得马赛克图像文字识别这一任务变得可能。

传统视觉图像恢复方法通常利用数字图像处理的技术如插值法、退化模型和稀疏表征法等，它们借助临近或主导像素值来重建图像。尽管这类传统方法极大的推动了该领域的发展，但面对马赛克图像时往往缺乏对复杂依赖关系的表现力而导致效果不佳。而近年来新兴的深度学习技术在目标检测和实例分割表现出了令人惊艳的效果，逐渐在各个视觉领域掀起了热潮，也为马赛克图像文字识别这一困难任务带来了新的思路和切入点。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提出了一种基于深度学习的多语种马赛克图像文本识别方法，挖掘此前没有得到应有重视的马赛克图像文本识别这一困难任务。

为实现上述目的，本发明提供了一种基于深度学习的多语种马赛克图像文本识别方法，该方法包括：

步骤一：数据获取，采用合成文本图像数据以及公开真实场景文字基准数据集作为原始训练数据，构成原始图像-马赛克图像数据对；

步骤二：数据预处理和数据增强：首先将输入图像调整统一的大小和分辨率；接下来对调整后的图像进行数据增强来提高模型对不同输入数据的泛化能力。

步骤三：“观察Observation”模块由图像编码器和重建模块组成，首先将马赛克图像数据送入图像编码器中进而层次化地利用卷积层与基于移动窗口的视觉自注意力模型提取图像特征和文本特征；然后通过重建模块的子像素卷积进一步对图像上采样以去除马赛克和提高图像质量与分辨率；

步骤四：“练习Practice”模块由与“观察Observation”模块同一个共享参数的图像编码器与一系列视觉自注意力模块组成的解码器组成，受掩码自回归编码器的启发使用大量的数据进行自监督学习来模仿人类的“练习Practice”过程来预测掩码图像补丁块的像素值；

步骤五：“完善Refined”模块由去噪扩散概率模型组成，主要有前向加噪和反向去噪两个步骤：前向加噪过程可视为一个马尔可夫链模型不断对原始图像添加高斯噪声直至成为纯噪声图像，而反向去噪过程则利用原始图像和噪声图像训练U型神经网络预测每一步的噪声从而达到图像恢复的效果；

步骤六：由“观察Observation”模块与“完善Refinement”模块利用二者输出的复原图像计算与原始图像的像素损失与峰值信噪比；而“练习Practice”模块利用预测掩码图像补丁块像素计算与真实像素的均方误差辅助并加速训练，通过反向传播优化识别网络权重参数；

步骤七：在推理阶段将恢复的图像送入识别网络或云服务API完成马赛克多语种文字图像的识别并输出预测的字符序列，使用预测准确率和标准化编辑距离作为衡量评价指标。

本发明的一个实施例中，所述步骤一中合成的一定数量的成对的原始图像-马赛克图像数据集需要一一对应，马赛克图像将送入后续网络的“观察Observation”、“练习Practice”和“完善Refinement”三个模块中利用视觉自注意力模型、掩码自编码器和去噪扩散模型来对图像逐步复原。

本发明的一个实施例中，在所述步骤一中：由于目前没有公开的马赛克多语言数据集同时为了验证提出方法在真实场景的模型泛化能力，我们使用开源工具SynthTiger，即一种合成文本图像生成器，生成了多语言马赛克合成训练图像并采用了公开场景文本识别基准数据集，包括(1)IIIT5kWords(IIIT)；(2)Street View Text(SVT)；(3)ICDAR 2013(IC13)；(4)ICDAR 2015Incidental Text(IC15)。马赛克生成图像的网格大小有5×5、10×10、15×15三种。在我们的实验中，我们使用了六种语言的合成数据集，包括英语、中文、孟加拉、日语、德语和法语数据。同时也在生成数据时采取高斯噪声、随机模糊、旋转裁剪以及多样的背景字体等处理的方法使合成数据更加接近真实场景的数据并且使得测试集和训练集具有多样性。

本发明的一个实施例中，所述步骤二具体包括：给定高为H，宽为W，颜色通道数为3的彩色RGB原始图像-马赛克文本图片对首先得到输入图像的高度与宽度，并根据二者的比值与1/4的大小关系选择最合适且能最大程度保留原始图像文字形状的缩放方式将输入图像调整为统一的高度为32、宽度为128的分辨率的图像对接下来，我们对调整后的图像进行随机水平或垂直翻转的数据增强来提高模型对不同输入数据的泛化能力，最后增强的图像将作为输入送入“观察Observation”模块的图像编码器中，详细内容将在下面介绍。

本发明的一个实施例中，所述步骤三具体包括：“观察Observation”模块由图像编码器和重建模块组成，首先将预处理的马赛克图像数据送入图像编码器中进而层次化地利用卷积层与基于移动窗口的视觉自注意力模型提取图像的浅层与深层特征对图像特征和文本特征建模和分析，二者分别是图像低频和高频信息的表征，进而得到F_p＝Encoder(X′；Θ_enc)，Θ_enc表示图像编码器的参数，/>然后通过重建模块的子像素卷积进一步对图像上采样以去除马赛克和提高图像质量与分辨率,输出得到Recons(·)表示含子像素的卷积图像重建模块，在浅层特征和深层特征之间有跳跃连接，二者分别是图像低频和高频信息的表征，Θ_recons表示图像重建模块的参数,/>然后根据输出/>与Y′计算L₁像素损失作为/> 用于优化参数Θ_enc和Θ_recons。

本发明的一个实施例中，所述步骤四具体包括：为保证参数优化的连续性，“练习Practice”模块由与“观察Observation”模块同一个共享参数的图像编码器与一系列视觉自注意力模块组成的解码器组成，受掩码自回归编码器的启发我们将图像分割为大小为2×2的非重叠图像补丁块并随机采样得到一个图像补丁子集/>将采样到的可见补丁子集经过一层线性映射后从而以指定的维度输入图像编码器，而其余的图像补丁/>将被掩码遮盖并且移去从而大大减少计算需求和存储内存，其中N和M分别表示可见与不可见两种补丁块的个数。我们利用大量的数据进行自监督学习来模仿人类的“练习Practice”过程，之后将编码的可见补丁F_m＝Encoder(Linear(Z′)；Θ_enc)(其中/>Θ_dec为编码器参数)和共享且可学习的掩码图像补丁拼接为并输入由一系列视觉自注意力模块组成的解码器来预测掩码图像补丁块的像素值Z_m＝DecOder(F′_m；Θ_dec)，并且解码器的最后一层为一个线性映射层使得输出满足/>Θ_dec为解码器参数，最后仅利用输出Z_m中的掩码补丁部分Z′_m,来计算均方误差L_dec＝MSE(Z′_m,Z″)用于优化参数Θ_dec和Θ_enc。

本发明的一个实施例中，所述步骤五具体包括：受去噪扩散概率模型的启发，我们采用了条件去噪扩散模型从一个纯高斯噪声开始，基于粗糙恢复图像不断迭代优化来模拟人类在认知过程的“完善Refinement”的环节。给定由图像恢复模块输出的粗糙恢复图像和原始正常图像Y′，“完善Refinement”迭代模块旨在学习从标准正态分布到以粗糙恢复图像为条件的经验数据分布的映射。具体而言，以粗糙恢复图像/>为条件训练U型神经网络(U-Net)模型，逐步从纯噪声图像/>中去除各种程度的噪声，直到得到正常图像Y′。扩散模型主要有前向加噪和反向去噪两个步骤：前向加噪过程q可视为一个马尔可夫链模型不断对原始图像y₀＝Y′添加高斯噪声直至成为纯噪声图像，该过程可由下式表示：

其中T为扩散模型的步数，设置为2000，前向过程的每一次迭代加噪根据下式进行：

其中α_1：T为0到1之间的超参数，决定了每步的噪声变量，I为标准单位矩阵。前向过程在给定原始图像y₀的条件下支持在任意时间步t进行采样，可由下式表示：

其中该式对于在t步快速采样y_t十分有帮助，可由下式表达：

针对给定的条件粗糙图像和噪声目标图像y_t，我们训练了一个U-Net作为去噪模型，表示为/>用于预测噪声向量∈，其中/>为条件粗糙恢复图像，γ为噪声方差的统计量。最终，我们将最小化扩散损失项，即：

其中γ～p(γ)并且设置在训练过程中，我们首先均匀采样一个时间步t～{0，...，T}，然后从γ_t-1和γ_t的均匀分布U(γ_t-1，γ_t)中采样γ。此外，利用贝叶斯定理，我们可以推导出给定(y₀，y_t)的后验分布y_t-1，如下式推导所示：

反向去噪过程由参数θ给出，定义为下式：

其中，反向过程将潜在变量分布p_θ(y_T)转换为数据分布p_θ(y₀)，其中x为粗糙恢复图像。将上式联立并将y₀代入后验分布q(y_t-1|y₀，y_t)中参数化p_θ(y_t-1|y_t，x)的均值为下式：

最后在推理阶段，对反向过程进行重参数得到下式：

其中该模型最终使用预测的/>作为输出。。

本发明的一个实施例中，所述步骤六具体包括：我们将模型的训练过程分为两个阶段，首先同时训练由“观察Observation”和“练习Practice”共用的图像编码器，然后训练迭代优化模块去噪扩散网络。对于两个训练阶段，我们采用Adam优化器并且设置相应的超参数，其中第一阶段的学习率为5e-5，进行10轮训练，批量大小设置为32；第二阶段的训练学习率为12e-6，进行50轮训练，批量大小为8。网络训练的代价函数由重建损失函数和像素损失函数组成，公式为：L＝L_rec+L_dec，其中L_rec是“观察Observation”模块的图像重建模块与“完善Refinement”模块的预测输出与Y′计算的L₁像素损失：/>L_dec为“练习Practice”模块利用输出Z_m中的掩码补丁部分Z′_m,来计算均方误差L_dec＝MSE(Z′_m,Z″)。

本发明的一个实施例中，所述步骤七具体包括：为了衡量马赛克图像恢复效果，我们将恢复后图像送入识别网络如百度飞桨提供的开源识别框架以及内置的主流文字识别模型(包括CRNN、MASTER、SAR和ABINet)或云服务API(包括国内阿里云、百度智能云和腾讯云与国外的微软云服务Azure、亚马逊云服务Amazon和谷歌云服务)完成马赛克多语种文字图像的识别并输出预测的字符序列，使用预测准确率和标准化编辑距离作为具体的衡量评价指标。在实验中我们注意到不同识别器的识别效果以及识别速度均存在差异，同时为了更好的评价恢复图像和马赛克图像相比在识别性能上的增幅，我们还利用以上识别器或云服务API对未处理的马赛克图像以及原始高像素图像分别进行识别，得到与识别器相关联的指标上下限。最后我们在多语种的合成数据以及多个公开真实场景的数据集进行了可视化的结果展示，具体的效果见说明书附图2。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

本发明受人类认知过程启发，使用层次化Observation-Practice-Refinement的模块结构，在多语种合成数据与真实场景数据集均取得显著提升识别性能。且本发明依据开源工具生成大量训练数据并采用高效的自监督学习方法，减少了数据收集以及数据标注的困难。

附图说明

图1为本发明实施例中基于深度学习马赛克文字识别方法的网络模型流程示意图；

图2为本发明在合成数据以及真实场景数据集可视化恢复图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为了解决现有技术存在的问题，本发明提出了一种基于深度学习的多语种马赛克图像文本识别方法，我们的目标是提出一种模仿人类认知过程“观察-练习-完善”的网络模型，探索现有马赛克技术对图像信息的安全性。如图1所示，图1展示的三个模块分别代表着“观察-练习-完善”，“观察Observation”模块由图像编码器和重建模块组成，“练习Practice”模块由与“观察Observation”模块同一个共享参数的图像编码器与一系列视觉自注意力模块组成的解码器组成，“完善Refined”模块由去噪扩散概率模型组成，而马赛克图像对生成、图像编码、掩码自编码器与扩散模型的核心框架在图中也以流程图的形式展现(即本发明的马赛克图像恢复模块主体部分，本发明的还包含后续步骤六提到的计算像素损失、峰值信噪比和恢复均方误差部分)。图像编码器、重建模块、自监督学习和扩散模型等为马赛克文字恢复方法的核心部分。

如图1所示，本发明提出的基于深度学习的多语种马赛克图像文本识别方法，包括以下步骤：

具体地，所述步骤一中合成的一定数量的成对的原始图像-马赛克图像数据集对，二者需要一一对应。由于目前没有公开的马赛克多语言数据集同时为了验证提出方法在真实场景的模型泛化能力，我们使用开源工具SynthTiger，即一种合成文本图像生成器，生成了多语言马赛克合成训练图像并采用了公开场景文本识别基准数据集，包括(1)IIIT5kWords(IIIT)；(2)Street View Text(SVT)；(3)ICDAR 2013(IC13)；(4)ICDAR2015Incidental Text(IC15)。马赛克生成图像的网格大小有5×5、10×10、15×15三种。在我们的实验中，我们使用了六种语言的合成数据集，包括英语、中文、孟加拉、日语、德语和法语数据。同时也在生成数据时采取高斯噪声、随机模糊、旋转裁剪以及多样的背景字体等处理的方法使合成数据更加接近真实场景的数据并且使得测试集和训练集具有多样性。

具体地，给定高为H，宽为W，颜色通道数为3的彩色RGB原始图像-马赛克文本图片对首先得到输入图像的高度与宽度，并根据二者的比值与1/4的大小关系选择最合适且能最大程度保留原始图像文字形状的缩放方式将输入图像调整为统一的高度为32、宽度为128的分辨率的图像对/>接下来，我们对调整后的图像进行随机水平或垂直翻转的数据增强来提高模型对不同输入数据的泛化能力，最后增强的图像将作为输入送入“观察Observation”模块的图像编码器中，具体细节将在下一步骤介绍。

步骤三：将马赛克图像数据送入图像编码器中进而提取图像和文本特征；然后通过重建模块的子像素卷积进一步对图像上采样以去除马赛克和提高图像质量与分辨率；

具体地，“观察Observation”模块由图像编码器和重建模块组成，首先将预处理的马赛克图像数据送入图像编码器中进而层次化地利用卷积层与基于移动窗口的视觉自注意力模型提取图像的浅层与深层特征对图像特征和文本特征建模和分析，二者分别是图像低频和高频信息的表征，进而得到F_p＝Encoder(X′；Θ_enc)，Θ_enc表示图像编码器的参数，/>然后通过重建模块的子像素卷积进一步对图像上采样以去除马赛克和提高图像质量与分辨率,输出得到/>Recons(·)表示含子像素的卷积图像重建模块，在浅层特征和深层特征之间有跳跃连接，二者分别是图像低频和高频信息的表征，Θ_recons表示图像重建模块的参数，/>然后根据输出/>与Y′计算L₁像素损失作为/>用于优化参数Θ和Θ。

enc recons

这里图像编码器输入的图片来自于合成数据集，也可使用真实场景数据集和多语言数据集如(1)IIIT5kWords(IIIT)；(2)Street View Text(SVT)；(3)ICDAR 2013(IC13)；(4)ICDAR 2015Incidental Text(IC15)数据集。

步骤四：受掩码自回归编码器的启发使用大量的数据进行无监督学习来模仿人类的“练习Practice”过程。将掩码补丁图像块送入与“观察Observation”模块同一个共享参数的图像编码器之后由视觉自注意力模块组成得解码器预测掩码图像补丁块的像素值。

具体地，为保证参数优化的连续性，“练习Practice”模块与“观察Observation”模块同一个共享参数的图像编码器与一系列视觉自注意力模块组成的解码器组成，受掩码自回归编码器的启发我们将图像分割为大小为2×2的非重叠图像补丁块并随机采样得到一个图像补丁子集/>将采样到的可见补丁子集经过一层线性映射后从而以指定的维度输入图像编码器，而其余的图像补丁/>将被掩码遮盖并且移去从而大大减少计算需求和存储内存，其中N和M分别表示可见与不可见两种补丁块的个数。我们利用大量的数据进行自监督学习来模仿人类的“练习Practice”过程，之后将编码的可见补丁F_m＝Encoder(Linear(Z′)；Θ_enc)(其中/>Θ_dec为编码器参数)和共享且可学习的掩码图像补丁拼接为/>并输入由一系列视觉自注意力模块组成的解码器来预测掩码图像补丁块的像素值Z_m＝Decoder(F′_m；Θ_dec)，并且解码器的最后一层为一个线性映射层使得输出满足/>Θ_dec为解码器参数，最后仅利用输出Z_m中的掩码补丁部分Z′_m,来计算均方误差L_dec＝MSE(Z′_m,Z″)用于优化参数Θ_dec和Θ_enc。

具体地，受去噪扩散概率模型的启发，我们采用了条件去噪扩散模型从一个纯高斯噪声开始，基于粗糙恢复图像不断迭代优化来模拟人类在认知过程的“完善Refinement”的环节。给定由图像恢复模块输出的粗糙恢复图像和原始正常图像Y′，“完善Refinement”迭代模块旨在学习从标准正态分布到以粗糙恢复图像为条件的经验数据分布的映射。具体而言，以粗糙恢复图像/>为条件训练U型神经网络(U-Net)模型，逐步从纯噪声图像/>中去除各种程度的噪声，直到得到正常图像Y'。扩散模型主要有前向加噪和反向去噪两个步骤：前向加噪过程q可视为一个马尔可夫链模型不断对原始图像y₀＝Y'添加高斯噪声直至成为纯噪声图像，该过程可由下式表示：

其中α_1：T为0到1之间的超参数，决定了每步的噪声变量，I为标准单位矩阵。前向过程在给定原始图像y₀的条件下支持在任意时间步tt进行采样，可由下式表示：

其中该式对于在t步快速采样y_t十分有帮助，可由下式表达：

反向去噪过程由参数θ给出，定义为下式：

最后在推理阶段，对反向过程进行重参数得到下式：

其中该模型最终使用预测的/>作为输出。

具体地，我们将模型的训练过程分为两个阶段，首先同时训练由“观察Observation”和“练习Practice”共用的图像编码器，然后训练迭代优化模块去噪扩散网络。对于两个训练阶段，我们采用Adam优化器并且设置相应的超参数，其中第一阶段的学习率为5e-5，进行10轮训练，批量大小设置为32；第二阶段的训练学习率为12e-6，进行50轮训练，批量大小为8。代价函数由重建损失函数和像素损失函数组成，公式为：L＝L_rec+L_dec，其中L_rec是“观察Observation”模块的图像重建模块与“完善Refinement”模块的预测输出与Y′计算的L₁像素损失：/>L_dec为“练习Practice”模块利用输出Z_m中的掩码补丁部分Z′_m,来计算均方误差L_dec＝MSE(Z′_m,Z″)。

这里具体使用反向传播算法，对计算的到的损失求梯度并让其在网络中反向传播，优化识别网络参数。

所述步骤中，为了衡量马赛克图像恢复效果，我们将恢复后图像送入识别网络如百度飞桨提供的开源识别框架以及内置的常用识别模型(包括CRNN、MASTER、SAR和ABINet)或云服务API(包括国内阿里云、百度智能云和腾讯云与国外的微软云服务Azure、亚马逊云服务Amazon和谷歌云服务)完成马赛克多语种文字图像的识别并输出预测的字符序列，使用预测准确率和标准化编辑距离作为具体的衡量评价指标。在实验中我们注意到不同识别器的识别效果以及识别速度均存在差异，同时为了更好的评价恢复图像和马赛克图像相比在识别性能上的增幅，我们还利用以上识别器或云服务API对未处理的马赛克图像以及原始高像素图像分别进行识别，得到与识别器相关联的指标上下限。最后我们在多语种的合成数据以及多个公开真实场景的数据集进行了可视化的结果展示，具体的效果见说明书附图2，根据示意图可知多语种(中文、日语、德语、法语、英语以及孟加拉语)的文本信息均能从大程度的马赛克图像恢复至可识别的效果，其中较为复杂的中文、日语以及孟加拉语也取得了不错的效果；同时为了证明本发明的泛化能力，在真实场景文本基准数据集也进行了可视化分析，能较好的处理复杂的背景噪声和多样风格、字体的文本图像。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的多语种马赛克图像文本识别方法，其特征在于，所述方法包括如下步骤：

步骤一：数据获取：采用合成文本图像数据以及公开真实场景文字基准数据集作为原始训练数据，构成原始图像-马赛克图像数据对；

步骤二：数据预处理和数据增强：首先将输入图像调整为统一的大小和分辨率；接下来对调整后的图像进行数据增强来提高模型对不同输入数据的泛化能力；

步骤四：受掩码自回归图像编码器的启发使用大量的图像数据进行自监督学习来模仿人类的“练习Practice”过程，此模块由与“观察Observation”模块同一个共享参数的图像编码器与一系列视觉自注意力模块组成的解码器组成，来预测掩码图像补丁块的像素值；

步骤五：“完善Refined”模块由去噪扩散概率模型组成，主要有前向加噪和反向去噪两个步骤：前向加噪过程视为一个马尔可夫链模型不断对原始图像添加高斯噪声直至成为纯噪声图像，而反向去噪过程则利用原始图像和噪声图像训练U型神经网络预测每一步的噪声从而实现图像恢复；

步骤六：由“观察Observation”模块和“完善Refinement”模块利用二者的预测复原图像计算与原始图像的像素损失与峰值信噪比；而“练习Practice”模块利用预测掩码图像补丁块像素计算与真实像素的均方误差辅助并加速训练，通过反向传播优化识别网络权重参数；

2.根据权利要求1所述的基于深度学习的多语种马赛克图像文本识别方法，其特征在于：所述步骤一中合成的成对的原始图像-马赛克图像数据对需要一一对应，马赛克图像将送入后续网络的“观察Observation”、“练习Practice”和“完善Refinement”三个模块中利用视觉自注意力模型、掩码自编码器和去噪扩散模型来对图像逐步复原。

3.根据权利要求1或2所述的基于深度学习的多语种马赛克图像文本识别方法，其特征在于，在所述步骤一中：

使用开源工具SynthTiger，即一种合成文本图像生成器，生成了多语言马赛克合成训练图像并采用了公开场景文本识别基准数据集，包括(1)IIIT5kWords(IIIT)；(2)StreetView Text(SVT)；(3)ICDAR 2013(IC13)；(4)ICDAR 2015Incidental Text(IC15)，马赛克生成图像的网格大小有5×5、10×10、15×15三种，使用六种语言的合成数据集，包括英语、中文、孟加拉、日语、德语和法语数据，在生成数据时采取高斯噪声、随机模糊、旋转裁剪以及多样的背景字体处理方法使合成数据更加接近真实场景的数据并且使得测试集和训练集具有多样性。

4.根据权利要求1或2所述的基于深度学习的多语种马赛克图像文本识别方法，其特征在于，所述步骤二具体包括：

给定高为H，宽为W，颜色通道数为3的彩色RGB原始图像-马赛克文本图片对首先得到输入图像的高度与宽度，并根据二者的比值与1/4的大小关系选择最合适且能最大程度保留原始图像文字形状的缩放方式将输入图像调整为统一的高度为32、宽度为128的分辨率的图像对/>接下来，对调整后的图像进行随机水平或垂直翻转的数据增强来提高模型对不同输入数据的泛化能力，最后增强的图像将作为输入送入“观察Observation”模块的图像编码器中。

5.根据权利要求1或2所述的基于深度学习的多语种马赛克图像文本识别方法，其特征在于，所述步骤三具体包括：

“观察Observation”模块由图像编码器和重建模块组成，首先将预处理的马赛克图像数据送入图像编码器中进而层次化地利用卷积层与基于移动窗口的视觉自注意力模型提取图像的浅层与深层特征对图像特征和文本特征建模和分析，二者分别是图像低频和高频信息的表征，进而得到F_p＝Encoder(X^′；Θ_enc)，Θ_enc表示图像编码器的参数，/>然后通过重建模块的子像素卷积进一步对图像上采样以去除马赛克和提高图像质量与分辨率,输出得到/>Recons(·)表示含子像素卷积层的重建模块，在浅层特征和深层特征之间有跳跃连接，二者分别是图像低频和高频信息的表征，Θ_recons表示图像重建模块的参数,/>然后根据输出/>与Y^′计算L₁像素损失作为/>用于优化参数Θ和Θ。

enc recons

6.根据权利要求1或2所述的基于深度学习的多语种马赛克图像文本识别方法，其特征在于，所述步骤四具体包括：

为保证参数优化的连续性，“练习Practice”模块由与“观察Observation”模块同一个共享参数的图像编码器与一系列视觉自注意力模块组成的解码器组成，将图像分割为大小为2×2的非重叠图像补丁块，并随机采样得到一个图像补丁子集将采样到的可见补丁子集经过一层线性映射后从而以指定的维度输入图像编码器，而其余的图像补丁/>将被掩码遮盖并且移去从而大大减少计算需求和存储内存，其中N和M分别表示可见与不可见两种补丁块的个数，利用大量的数据进行自监督学习来模仿人类的“练习Practice”过程，之后将编码的可见补丁F_m＝Encoder(Linear(Z^′)；Θ_enc)和共享且可学习的掩码图像补丁拼接得到/>并输入由一系列视觉自注意力模块组成的解码器来预测掩码图像补丁块的像素值Z_m＝Decoder(F′_m；Θ_dec)，其中/>Θ_dec为编码器参数，并且解码器的最后一层为一个线性映射层使得输出满足/>Θ_dec为解码器参数，最后仅利用输出Z_m中的掩码补丁部分Z′_m,来计算均方误差L_dec＝MSE(Z^′ _m,Z″)用于优化参数Θ_dec和Θ_enc。

7.根据权利要求1或2所述的基于深度学习的多语种马赛克图像文本识别方法，其特征在于，所述步骤五具体包括：

受去噪扩散概率模型的启发，采用条件去噪扩散模型从一个纯高斯噪声开始，基于粗糙恢复图像不断迭代优化来模拟人类在认知过程的“完善Refinement”的环节，给定由图像恢复模块输出的粗糙恢复图像和原始正常图像Y′，“完善Refinement”迭代模块旨在学习从标准正态分布到以粗糙恢复图像为条件的经验数据分布的映射。

8.根据权利要求7所述的基于深度学习的多语种马赛克图像文本识别方法，其特征在于，“完善Refinement”迭代模块具体实现为：

以粗糙恢复图像为条件训练U型神经网络模型，逐步从纯噪声图像/>中去除各种程度的噪声，直到得到正常图像Y′，扩散模型有前向加噪和反向去噪两个步骤：前向加噪过程q视为一个马尔可夫链模型不断对原始图像y₀＝Y′添加高斯噪声直至成为纯噪声图像，该过程由下式表示：

其中T为扩散模型的步数，前向过程的每一次迭代加噪根据下式进行：

其中α_1：T为0到1之间的超参数，决定了每步的噪声变量，I为标准单位矩阵，前向加噪过程在给定原始图像y₀的条件下支持在任意时间步t进行采样，由下式表示：

其中该式对于在t步快速采样y_t十分有帮助，由下式表达：

针对给定的条件粗糙图像和噪声目标图像y_t，训练一个U-Net作为去噪模型，表示为用于预测噪声向量∈，其中/>为条件粗糙恢复图像，γ为噪声方差的统计量，最终将最小化扩散损失项即：

其中γ～p(γ)并且设置在训练过程中，我们首先均匀采样一个时间步t～{0，...，T}，然后从γ_t-1和γ_t的均匀分布U(γ_t-1，γ_t)中采样γ；此外利用贝叶斯定理推导出给定(y₀,y_t)的后验分布y_t-1，如下式推导所示：

反向去噪过程由参数θ给出，定义为下式：

其中，反向加噪过程将潜在变量分布p_θ(y_T)转换为数据分布p_θ(y₀)，其中x为粗糙恢复图像，将上式联立并将y₀代入后验分布q(y_t-1|y₀，y_t)中参数化p_θ(y_t-1|y_t，x)的均值为下式：

最后在推理阶段，对反向过程进行重参数得到下式：

其中该模型最终使用预测的/>作为输出。

9.根据权利要求1或2所述的基于深度学习的多语种马赛克图像文本识别方法，其特征在于，所述步骤六具体包括：

将模型的训练过程分为两个阶段，首先同时训练由“观察Observation”和“练习Practice”共用的图像编码器，然后训练迭代优化模块去噪扩散网络；对于两个训练阶段，采用Adam优化器并且设置相应的超参数，其中第一阶段的学习率为5e-5，进行10轮训练，批量大小设置为32；第二阶段的训练学习率为12e-6，进行50轮训练，批量大小为8。

10.根据权利要求9所述的基于深度学习的多语种马赛克图像文本识别方法，其特征在于，在所述步骤六中：

代价函数由重建损失函数和像素损失函数组成，公式为：L＝L_rec+L_dec，其中L_rec是“观察Observation”模块的图像重建模块与“完善Refinement”模块的预测输出与Y′计算的L₁像素损失：/>L_dec为“练习Practice”模块利用输出Z_m中的掩码补丁部分Z′_m,来计算均方误差L_dec＝MSE(Z′_m,Z″)。