CN116258652A - 基于结构注意和文本感知的文本图像修复模型及方法 - Google Patents

基于结构注意和文本感知的文本图像修复模型及方法 Download PDF

Info

Publication number
CN116258652A
CN116258652A CN202310525565.0A CN202310525565A CN116258652A CN 116258652 A CN116258652 A CN 116258652A CN 202310525565 A CN202310525565 A CN 202310525565A CN 116258652 A CN116258652 A CN 116258652A
Authority
CN
China
Prior art keywords
image
text
cnn
features
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310525565.0A
Other languages
English (en)
Other versions
CN116258652B (zh
Inventor
赵启军
刘雨轩
格桑多吉
高定国
潘帆
普布旦增
扎西多吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Tibet University
Original Assignee
Sichuan University
Tibet University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University, Tibet University filed Critical Sichuan University
Priority to CN202310525565.0A priority Critical patent/CN116258652B/zh
Publication of CN116258652A publication Critical patent/CN116258652A/zh
Application granted granted Critical
Publication of CN116258652B publication Critical patent/CN116258652B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于结构注意和文本感知的文本图像修复模型及方法,模型包括结构先验重建网络和生成网络,结构先验重建网络包括第一CNN编码器、仅解码器的Transformer及第一CNN解码器,生成网络包括第二CNN编码器、第三CNN编码器、轻量门控融合模块、带自注意力的门控融合模块、残差模块、SE模块及第二CNN解码器。本发明以Transformer为基础构建一个结构先验重建网络,捕捉全局依赖关系重建文本骨架和边缘结构先验图像,采用门控融合注意力模块将图像纹理特征和文本先验特征进行融合,利用跳跃连接将其融合到修复网络中,在文本感知损失等联合损失的监督下,使修复后的文本笔划连贯,内容真实自然,语义合理,能增强修补过程中纹理和结构的一致和连续性。

Description

基于结构注意和文本感知的文本图像修复模型及方法
技术领域
本发明涉及文本图像修复技术,具体是基于结构注意和文本感知的文本图像修复模型及方法。
背景技术
图像修复是对受损图像的缺失区域进行重建的过程,广泛应用于物体去除、旧照片恢复、图像编辑等领域。文本图像修复作为图像修复的一部分,目前对其研究主要分为以下两部分:
一部分研究的重点是文本图像盲修复,主要目的是重建完整的文本,提高识别率。现阶段这种方式只对二值图像进行完全文本笔画恢复,不考虑原始RGB图像的视觉效果和语义一致性。因此,这种修复方式易导致修复后图像存在视觉不完整、语义不合理的缺陷。
另一部分研究的重点是在文本图像修复任务中使用现有基于学习的图像修复方法,不考虑文本图像的特点,通过学习大量的图像集合,合成与真实纹理一致的结构。因目前的图像修复方法多用于自然图像和人脸图像,一些方法首先重建整体结构先验信息,如边缘、分割映射或粗预测图像,然后利用预测信息对修复结果进行细化。因文本图像的结构特征与自然图像、人脸图像的结构先验信息不一致,修补过程中纹理和结构的一致性、连续性不能得到保障。现有基于学习的图像修复方法也利用注意机制来利用全局上下文信息,然而,这种方式不能提取有用的笔画序列信息来促进文本修复。现有基于学习的图像修复方法大多对网络进行联合损失的训练,如重建损失、对抗损失等,因没有专注于文本本身,无法重建正确的文本笔画。
综上所述,现有技术无论是采用文本图像盲修复方法,还是采用基于学习的图像修复方法,都不适合实际的文本修复任务。
发明内容
本发明的目的在于解决现有文本图像修复方法存在的语义不合理,修补过程中文本图像一致性和连续性不能得到保障的问题,提供了一种基于结构注意和文本感知的文本图像修复模型及方法,其应用时能使修复后文本图像语义合理,能增强修补过程中纹理和结构的一致和连续性。
本发明的目的主要通过以下技术方案实现: 基于结构注意和文本感知的文本图像修复模型,包括结构先验重建网络和生成网络,所述结构先验重建网络包括依次设置的第一CNN编码器、仅解码器的Transformer及第一CNN解码器,所述第一CNN编码器用于输入待修复文本图像并对文本图像下采样,在每个空间位置对特征增加一个可学习的绝对位置嵌入;所述仅解码器的Transformer包括多层叠加的Transformer模块,所述仅解码器的Transformer用于重建第一CNN编码器输出图像的边缘和文本骨架图像;所述第一CNN解码器用于将仅解码器的Transformer输出图像进行上采样使输出图像达到输入待修复文本图像大小,得到先验图像;其中,所述第一CNN编码器输入的图像为以损坏的图像、掩码、损坏的边缘及损坏的文本骨架图像拼接的图像;
所述生成网络采用具有跳跃连接的编码器-解码器结构,其包括第二CNN编码器、第三CNN编码器、轻量门控融合模块、带自注意力的门控融合模块、残差模块、SE模块及第二CNN解码器,所述第二CNN编码器与第三CNN编码器共享权重,所述第二CNN编码器用于输入第一CNN解码器输出的先验图像并对先验图像下采样,所述第三CNN编码器用于输入损坏的图像并对损坏的图像下采样,所述轻量门控融合模块用于融合跳跃连接传递的多尺度的特征中第二CNN编码器生成的先验特征和第三CNN编码器生成的图像纹理特征;所述带自注意力的门控融合模块用于获取第三CNN编码器最后一层编码层包含高级语义信息的纹理特征,采用自注意力机制对纹理特征的长期依赖关系进行建模以获取全局上下文特征,再获取第二CNN编码器最后一层编码层输出的先验特征与采用自注意力机制处理后的纹理特征融合, 所述带自注意力的门控融合模块进行特征融合后将融合后特征依次经残差模块和SE模块输入第二CNN解码器;所述第二CNN解码器对输入SE模块后得到的输出特征进行上采样,在上采样阶段将轻量门控融合模块融合后特征在通道维度拼接起来以补充上采样阶段丢失的空间信息,然后输出修复后文本图像。
进一步的,所述第一CNN编码器和第一CNN解码器均包括四个依次设置的卷积模块。
进一步的,所述第二CNN编码器、第三CNN编码器及第二CNN解码器均包括四个依次设置的卷积模块,所述轻量门控融合模块的数量为三个,三个所述的轻量门控融合模块分别融合第二CNN编码器和第三CNN编码器两者前三个卷积模块的特征并分别输出至第二CNN解码器后三个卷积模块。
进一步的,所述轻量门控融合模块包括Relu层、sigmod函数层及三个1×1卷积层,轻量门控融合模块输入的第二CNN编码器生成的先验特征和第三CNN编码器生成的图像纹理特征分别经一个1×1卷积层后进行矩阵相加进行融合,融合后特征再依次经Relu层、1×1卷积层及sigmod函数层处理,得到的权重特征再与轻量门控融合模块输入的第三CNN编码器生成的图像纹理特征进行矩阵相乘实现再次融合后再输出融合后特征。
进一步的,所述带自注意力的门控融合模块包括Relu层、sigmod函数层及六个1×1卷积层,带自注意力的门控融合模块输入的第三CNN编码器生成的图像纹理特征复制三份,其中两份图像纹理特征分别经过1×1卷积层后进行矩阵相乘实现相似度计算,再采用softmax函数归一化权重后得到注意力图,注意力图特征与另一份经过1×1卷积层处理的第三CNN编码器生成的图像纹理特征进行矩阵相乘,再次经过1×1卷积层处理后与带自注意力的门控融合模块输入的经过一个1×1卷积层处理的第二CNN编码器生成的先验特征进行矩阵相加进行特征融合,融合后特征再依次经Relu层、1×1卷积层及sigmod函数层处理,然后再与带自注意力的门控融合模块输入的第三CNN编码器生成的图像纹理特征进行矩阵相乘实现再次融合后再输出融合后特征。
进一步的,所述Transformer模块包括多头自注意力层、全连接层及两个层归一化层,所述Transformer模块输入图像经依次经一个层归一化层和多头自注意力层处理后,再与Transformer模块输入图像进行第一次矩阵相加,第一次矩阵相加后图像依次经另一个层归一化层和全连接层处理后,然后再与第一次矩阵相加后图像进行矩阵相加后输出。
进一步的,所述结构先验重建网络在训练时采用二值交叉熵损失优化边缘图像的重建,采用二值交叉熵损失和骰子损失来优化骨架图像的重建,总损失L 1 表述为:
Figure SMS_1
式中,
Figure SMS_2
表示文本骨架图像的二分类交叉熵损失,/>
Figure SMS_3
表示边缘图像的二分类交叉熵损失,/>
Figure SMS_4
表示文本骨架图像的骰子损失,/>
Figure SMS_5
为平衡系数。
进一步的,所述文本图像修复模型在文本图像修复过程中采用重建损失、感知损失、风格损失、对抗损失及文本感知损失进行图像修复联合监督,所述文本感知损失包括文本梯度先验损失和文本先验损失,所述文本梯度先验损失采用L1范数来约束修复后的文本图像的梯度场与原始图像梯度场差异,文本梯度先验损失
Figure SMS_6
的公式如下:
Figure SMS_7
式中,
Figure SMS_8
和/>
Figure SMS_9
表示原始图像和修复图像的梯度场;
所述文本先验损失利用预训练过的文本识别模型来预测图像种的文本,采用CRNN模型作为文本先验生成器,对字符的概率序列进行预测,其是一个具有A维概率向量的序列,其中,A表示用CRNN模型学习的字符个数;对于输出图像和真实图像,分别用L1范数距离和KL散度度量两者之间的相似性;文本先验损失函数的表述如下:
Figure SMS_10
Figure SMS_11
其中,
Figure SMS_12
表示文本先验损失,其中/>
Figure SMS_13
,/>
Figure SMS_14
分别表示输出图像和真实图像经文本先验生成器之后的概率序列输出,/>
Figure SMS_15
表示输出图像和真实图像间的KL散度,/>
Figure SMS_16
表示一个很小的正数,以避免除法和对数中的数字错误;
文本感知损失
Figure SMS_17
表示为:
Figure SMS_18
其中,
Figure SMS_19
和/>
Figure SMS_20
均为平衡系数;
重建损失使用平均绝对误差计算修复图像
Figure SMS_21
和原始图像/>
Figure SMS_22
像素级别的差异,重建损失/>
Figure SMS_23
计算公式为:
Figure SMS_24
/>
式中,
Figure SMS_25
表示平均绝对误差的计算;
感知损失利用高级语义特征衡量图像差异,感知损失
Figure SMS_26
的计算公式为:
Figure SMS_27
式中,
Figure SMS_28
为预训练网络的第i层激活层输出的特征图;
风格损失用于风格迁移任务,计算图像特征之间相似度,风格损失
Figure SMS_29
的计算公式为:
Figure SMS_30
式中,
Figure SMS_31
是指从激活层输出的特征图创建的格雷姆矩阵运算;
对抗损失将
Figure SMS_32
视为真图像,/>
Figure SMS_33
视为假图像,对抗损失/>
Figure SMS_34
计算公式为:
Figure SMS_35
式中,
Figure SMS_36
表示判别网络;
文本图像修复模型的总损失
Figure SMS_37
表示为:
Figure SMS_38
其中,式中
Figure SMS_39
和/>
Figure SMS_40
为平衡系数。
基于上述的基于结构注意和文本感知的文本图像修复模型的文本图像修复方法,包括以下步骤:
步骤S1、将待修复文本图像输入结构先验重建网络;其中,待修复文本图像为以损坏的图像、掩码、损坏的边缘及损坏的文本骨架图像拼接的图像;
步骤S2、对文本图像下采样,并在每个空间位置对特征增加一个可学习的绝对位置嵌入;
步骤S3、重建边缘和文本骨架图像;
步骤S4、上采样使输出图像达到输入待修复文本图像大小,得到先验图像;
步骤S5、将先验图像输入生成网络,对于跳跃连接传递的多尺度的特征,采用轻量级的门控融合策略来融合先验特征和图像纹理特征,然后在上采样阶段将融合后特征在通道维度拼接起来,以补充其在上采样阶段丢失的空间信息;
对于包含高级语义信息的最后一层编码层的特征,首先利用自注意力机制对纹理特征的中的长期依赖关系进行建模,以获取全局上下文特征,再利用门控融合模块融合先验特征和纹理特征,然后将融合后的特征输入后续的残差模块以提取有用的深层特征。
文本图像修复是图像修复的一部分,有两个目标。一种是对图像上的不完整文本进行恢复,以利于后续任务。另一个目标是使恢复的图像在视觉上完整,语义上合理。为了恢复真实的纹理和一致的结构,重建正确的文本,本发明提出了一种两阶段的文本修复网络。第一阶段网络只使用仅解码器的Transformer重建文本结构的先验图像。根据人类视觉感知系统,骨架结构可以描述笔划方向等文本形状特征。因此,本发明利用文本骨架和边缘同时作为结构先验来指导文本图像的修复。在第二阶段,为了充分利用先验信息来恢复纹理细节,本发明提出了一种门控融合注意力模块,结合跳跃连接,使得编码器在不同尺度下提取的先验特征和纹理特征进行充分交互。然后采用门控注意力作为其主要结构,利用结构特征来增强纹理修复。最后,本发明还提出了一种文本感知损失,即分别从图像和语义级别约束网络生成具有清晰笔画和正确语义的图像。而且,这种损失不会在测试阶段带来额外的时间开销。
综上所述,本发明与现有技术相比具有以下有益效果:(1)本发明提出了一种两阶段的方法,先对破损区域的轮廓和骨架进行修复,然后第二阶段使用修复的轮廓和骨架对缺失区域的RGB像素数值进行估计和填充,能使修复后文本图像语义合理。
(2)本发明使用文本骨架和边缘图像作为先验信息,并提出了一种门控融合注意力模块,以充分利用在不同尺度感受野下的先验信息,增强修补过程中纹理和结构的一致和连续性。
(3)本发明提出了一种文本感知损失,约束网络生成在图像和语义上都正确的文字,并且该损失不会在测试时带来额外的时间浪费。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一个具体实施例的网络结构示意图;
图2为本发明一个具体实施例中轻量门控融合模块的网络结构示意图;
图3为本发明一个具体实施例中带自注意力的门控融合模块的网络结构示意图;
图4为本发明一个具体实施例中一层仅解码器的Transformer模块的网络结构示意图;
图5为本发明一个具体实施例应用时的流程图;
图6为本发明一个具体实施例的模型与现有技术中模型的定性比较结果对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例:
如图1所示,基于结构注意和文本感知的文本图像修复模型,包括结构先验重建网络和生成网络,所述结构先验重建网络包括依次设置的第一CNN编码器、仅解码器的Transformer及第一CNN解码器,所述第一CNN编码器用于输入待修复文本图像并对文本图像下采样,在每个空间位置对特征增加一个可学习的绝对位置嵌入;所述仅解码器的Transformer包括多层叠加的Transformer模块,所述仅解码器的Transformer用于重建第一CNN编码器输出图像的边缘和文本骨架图像;所述第一CNN解码器用于将仅解码器的Transformer输出图像进行上采样使输出图像达到输入待修复文本图像大小,得到先验图像;其中,所述第一CNN编码器输入的图像为以损坏的图像、掩码、损坏的边缘及损坏的文本骨架图像拼接的图像。
本实施例的生成网络采用具有跳跃连接的编码器-解码器结构,其包括第二CNN编码器、第三CNN编码器、轻量门控融合模块、带自注意力的门控融合模块、残差模块、SE模块及第二CNN解码器,所述第二CNN编码器与第三CNN编码器共享权重,所述第二CNN编码器用于输入第一CNN解码器输出的先验图像并对先验图像下采样,所述第三CNN编码器用于输入损坏的图像并对损坏的图像下采样,所述轻量门控融合模块用于融合跳跃连接传递的多尺度的特征中第二CNN编码器生成的先验特征和第三CNN编码器生成的图像纹理特征;所述带自注意力的门控融合模块用于获取第三CNN编码器最后一层编码层包含高级语义信息的纹理特征,采用自注意力机制对纹理特征的长期依赖关系进行建模以获取全局上下文特征,再获取第二CNN编码器最后一层编码层输出的先验特征与采用自注意力机制处理后的纹理特征融合, 所述带自注意力的门控融合模块进行特征融合后将融合后特征依次经残差模块和SE模块输入第二CNN解码器;所述第二CNN解码器对输入SE模块后得到的输出特征进行上采样,在上采样阶段将轻量门控融合模块融合后特征在通道维度拼接起来以补充上采样阶段丢失的空间信息,然后输出修复后文本图像。其中,残差模块使得网络结构具有自适应特性,对网络深度不会过于敏感,有利于网络收敛。SE模块使用通道注意力机制对两个方向的全局特征进行加权,这使网络能够自适应地调整不同上下文的重要性,从而更有效地捕获文本图像中的上下文信息。
在以往的图像修复方法中,已经证明了结构先验的有效性。许多方法选择边缘图像作为后续图像恢复的先导,有效地解决了边缘图像过于平滑或模糊的问题,并产生了更详细的结果。然而,在文本图像中,边缘图像的结果包含了复杂背景的纹理,而不是单纯的文本笔画,这是语义歧义,可能导致文本笔画重构中的误导。因此,为了指导网络在修复过程中准确地重构文本笔画,本实施例引入了文本骨架的先验。与自然物体不同,人类主要根据文字的骨架或形状来区分不同的字符。文本骨架保留了文本图像中的大部分上下文语义信息,广泛应用于许多文本编辑任务和文本超分辨率任务中。将文本骨架应用于文本图像修复,可以有效地指导后续修复网络区分背景和文本本身,重建健壮、可读的文本。
本实施例的第一CNN编码器和第一CNN解码器均包括四个依次设置的卷积模块。表1为本实施例中结构先验重建网络中编码器-解码器结构,其体现了本实施例中第一CNN编码器和第一CNN解码器的卷积模块具体参数。
Figure SMS_41
由于Transformer在恢复全局结构方面的性能优于CNN,本实施例在第一阶段引入了仅解码器的Transformer作为边缘和文本骨架重建的主要架构。如图4所示,本实施例的Transformer模块包括多头自注意力层、全连接层及两个层归一化层,Transformer模块输入图像经依次经一个层归一化层和多头自注意力层处理后,再与Transformer模块输入图像进行第一次矩阵相加,第一次矩阵相加后图像依次经另一个层归一化层和全连接层处理后,然后再与第一次矩阵相加后图像进行矩阵相加后输出。
本实施例的仅解码器的Transformer模块包括N层Transformer模块组成。在第n层中,编码器的计算表示为:
Figure SMS_42
其中LN、MSA和MLP分别代表层归一化、多头自注意力和全连接层。其中,层归一化为了稳定训练和帮助网络快速收敛,多头自注意力保证网络关注多个区域,更好地学习边缘图像重建和骨架图像重建两个任务,全连接层应用于自注意力层之间,进行特征变换和非线性。
同时,为了降低计算复杂度,在输入Transformer模块之前,本实施例先对图像进行下采样,然后在每个空间位置对特征增加一个可学习的绝对位置嵌入。经过Transformer模块后,本实施例使用CNN对图像进行采样,使其达到原来的大小。本实施例的结构先验重建网络在训练时使用二值交叉熵损失(Binary Cross Entropy Loss, BCE Loss)来优化边缘图像的重建,同时利用二值交叉熵损失(BinaryCross Entropy Loss, BCE Loss)和骰子损失(Dice Loss)来优化骨架图像的重建。总损失L 1 表述为:
Figure SMS_43
式中,
Figure SMS_44
表示文本骨架图像的二分类交叉熵损失,/>
Figure SMS_45
表示边缘图像的二分类交叉熵损失,/>
Figure SMS_46
表示文本骨架图像的骰子损失。/>
Figure SMS_47
为平衡系数,在本实施例中设为0.8。
在以往的先验引导修复方法中,先验图像和破损图像直接在通道维数上进行连接,然后送入编码器-解码器的修复网络进行修复。在这种简单的纠缠结构中,先验图像和受损图像在卷积过程中隐式耦合,在纹理恢复过程中缺乏适当的相互作用。它没有充分利用结构先验的信息来帮助修复受损的RGB图像的纹理细节。因此,本实施例设计了一个门控融合注意力模块来融合从编码器提取的先前图像和受损图像的特征,使用跳跃连接使用多尺度的融合特征补充缺失的纹理空间信息。
本实施例的第二CNN编码器、第三CNN编码器及第二CNN解码器均包括四个依次设置的卷积模块,所述轻量门控融合模块的数量为三个,三个所述的轻量门控融合模块分别融合第二CNN编码器和第三CNN编码器两者前三个卷积模块的特征并分别输出至第二CNN解码器后三个卷积模块。本实施例将第二CNN编码器、第三CNN编码器及第二CNN解码器依次设置的四个卷积模块分别定义为第一卷积模块、第二卷积模块、第三卷积模块及第四卷积模块,三个轻量门控融合模块分别定义为第一轻量门控融合模块、第二轻量门控融合模块及第三轻量门控融合模块,其中,第一轻量门控融合模块融合第二CNN编码器中第一卷积模块和第三CNN编码器中第一卷积模块的特征并输出至第二CNN解码器第四卷积模块,第二轻量门控融合模块融合第二CNN编码器中第二卷积模块和第三CNN编码器中第二卷积模块的特征并输出至第二CNN解码器第三卷积模块,第三轻量门控融合模块融合第二CNN编码器中第三卷积模块和第三CNN编码器中第三卷积模块的特征并输出至第二CNN解码器第二卷积模块。
表2为本实施例中生成网络的编码器-解码器结构,其体现了本实施例中第二CNN编码器、第三CNN编码器及第二CNN解码器的卷积模块具体参数。
Figure SMS_48
如图2所示,本实施例的轻量门控融合模块包括Relu层、sigmod函数层及三个1×1卷积层,轻量门控融合模块输入的第二CNN编码器生成的先验特征和第三CNN编码器生成的图像纹理特征分别经一个1×1卷积层后进行矩阵相加进行融合,融合后特征再依次经Relu层、1×1卷积层及sigmod函数层处理,得到的权重特征再与轻量门控融合模块输入的第三CNN编码器生成的图像纹理特征进行矩阵相乘实现再次融合后再输出融合后特征。
如图3所示,本实施例的所述带自注意力的门控融合模块包括Relu层、sigmod函数层及六个1×1卷积层,带自注意力的门控融合模块输入的第三CNN编码器生成的图像纹理特征复制三份,其中两份图像纹理特征分别经过1×1卷积层后进行矩阵相乘实现相似度计算,再采用softmax函数归一化权重后得到注意力图,注意力图特征与另一份经过1×1卷积层处理的第三CNN编码器生成的图像纹理特征进行矩阵相乘,再次经过1×1卷积层处理后与带自注意力的门控融合模块输入的经过一个1×1卷积层处理的第二CNN编码器生成的先验特征进行矩阵相加进行特征融合,融合后特征再依次经Relu层、1×1卷积层及sigmod函数层处理,然后再与带自注意力的门控融合模块输入的第三CNN编码器生成的图像纹理特征进行矩阵相乘实现再次融合后再输出融合后特征。其中,注意力图指的是两个特征卷积后得到的特征,一个转置后再和另一个特征进行矩阵相乘,这样就能得到注意力图,softmax为注意力图计算的方式。
本实施例应用时,对于跳跃连接传递的多尺度的特征,采用了一种轻量级的门控融合策略来融合先验特征
Figure SMS_49
和图像纹理特征/>
Figure SMS_50
,然后在上采样阶段将融合后特征
Figure SMS_51
在通道维度拼接起来,以补充其在上采样阶段丢失的空间信息。
对于包含高级语义信息的最后一层编码层的特征,本实施例首先利用自注意力机制对纹理特征的
Figure SMS_52
中的长期依赖关系进行建模,以获取全局上下文特征。然后利用门控融合模块融合先验特征/>
Figure SMS_53
和纹理特征/>
Figure SMS_54
,然后将融合后的特征/>
Figure SMS_55
输入后续的残差模块以提取有用的深层特征。
在文本图像修复过程中,本实施例使用重建损失、感知损失、风格损失及对抗损失作为损失函数。此外,为了约束网络在图像和语义上产生一致的纹理,本实施例使用了一个文本感知损失,它由两个部分组成。第一部分是文本梯度先验损失。文本梯度先验损失使用L1范数来约束修复后的文本图像的梯度场与原始图像梯度场差异。梯度场指的是像素的RGB值的空间梯度,在文本图像中,由于文字和背景区域RGB值相差很多,因此文字与背景区域边界的梯度场很大,在图像级别,这个约束迫使网络在文本和背景之间生成更清晰的边界,从而在修复后的图像中产生更清晰的笔画细节。文本梯度先验损失
Figure SMS_56
的公式如下:
Figure SMS_57
式中,
Figure SMS_58
和/>
Figure SMS_59
表示原始图像和修复图像的梯度场。
本实施例的文本先验损失借鉴了感知损失的思想,关注每个字符的内容以生成符合上下文语义的图像。利用预训练过的文本识别模型来预测图像种的文本。本实施例采用CRNN模型作为文本先验生成器,对字符的概率序列进行预测,这是一个具有A维概率向量的序列,其中A表示用CRNN模型学习的字符个数。对于输出图像和真实图像,分别用L1范数距离和KL散度度量两者之间的相似性。文本先验损失函数的表述如下:
Figure SMS_60
Figure SMS_61
其中,
Figure SMS_62
表示文本先验损失,其中/>
Figure SMS_63
,/>
Figure SMS_64
分别表示输出图像和真实图像经文本先验生成器之后的概率序列输出,/>
Figure SMS_65
表示输出图像和真实图像间的KL散度,/>
Figure SMS_66
表示一个很小的正数,以避免除法和对数中的数字错误;
文本感知损失
Figure SMS_67
表示为:
Figure SMS_68
其中,
Figure SMS_69
和/>
Figure SMS_70
均为平衡系数,本实施例的模型中设为0.001和1。
本实施例除了文本感知损失外,还使用重建损失、感知损失、风格损失和对抗损失联合和训练。重建损失使用平均绝对误差(Mean Absolute Error, MAE)计算修复图像
Figure SMS_71
和原始图像/>
Figure SMS_72
像素级别的差异,重建损失/>
Figure SMS_73
表示为:
Figure SMS_74
式中,
Figure SMS_75
表示MAE的计算。
感知损失利用高级语义特征衡量图像差异,使用在ImageNet上预训练过的VGG-19网络,感知损失
Figure SMS_76
计算公式为:
Figure SMS_77
式中,
Figure SMS_78
为预训练网络的第i层激活层输出的特征图。在模型中,选用VGG-19网络的RELU1_1,RELU2_1,RELU3_1,RELU4_1,RELU5_1层。
风格损失多用于风格迁移任务,计算图像特征之间相似度。风格损失与感知损失相似,都使用了在ImageNet上预训练网络的激活层输出,风格损失
Figure SMS_79
计算公式为:
Figure SMS_80
式中,
Figure SMS_81
是指从激活层输出的特征图创建的格雷姆矩阵运算。
对抗损失使用生成网络和判别网络串联训练,将网络优化问题转换为极小极大优化问题,使得生成器生成更加真实逼真的图像,对抗损失将
Figure SMS_82
视为真图像,/>
Figure SMS_83
视为假图像,对抗损失/>
Figure SMS_84
计算公式为:
Figure SMS_85
式中,
Figure SMS_86
表示判别网络。
文本图像修复模型的总损失
Figure SMS_87
表示为:
Figure SMS_88
其中,式中
Figure SMS_89
和/>
Figure SMS_90
为平衡系数,在模型中分别设置为1.0,0.1,250,0.1和1。
如图5所示,本实施例应用时包括以下步骤:步骤S1、将待修复文本图像输入结构先验重建网络;其中,待修复文本图像为以损坏的图像、掩码、损坏的边缘及损坏的文本骨架图像拼接的图像;步骤S2、对文本图像下采样,并在每个空间位置对特征增加一个可学习的绝对位置嵌入;步骤S3、重建边缘和文本骨架图像;步骤S4、上采样使输出图像达到输入待修复文本图像大小,得到先验图像;步骤S5、将先验图像输入生成网络,对于跳跃连接传递的多尺度的特征,采用轻量级的门控融合策略来融合先验特征和图像纹理特征,然后在上采样阶段将融合后特征在通道维度拼接起来,以补充其在上采样阶段丢失的空间信息;对于包含高级语义信息的最后一层编码层的特征,首先利用自注意力机制对纹理特征的中的长期依赖关系进行建模,以获取全局上下文特征,再利用门控融合模块融合先验特征和纹理特征,然后将融合后的特征输入后续的残差模块以提取有用的深层特征。
目前很多图像修复模型采用注意力机制从未缺失的背景区域获取上下文信息,并在缺失部分和剩余部分之间建立联系,以辅助图像修复。现有采用注意力机制的图像修复模型都在自然图像或人脸图像基础上发掘建立缺失区域和背景区域的联系,或使用多尺度的结构结合不同尺度的特征信息以提高图像修复的性能。在文本图像中,文字是主要信息,现有方法无法对文本图像中的文本序列特征信息进行有效提取和利用。
为保证修复后图像的结构连贯性,越来越多的方法使用额外的先验来提高图像修复的性能,例如边缘、线条、用户草图、低分辨率图像,分割图,和描述性文本等。现有图像修复方法采用的是比较通用的先验信息,在人脸和自然图像中都可以适用,然而对于文本图像,这些先验信息不足以指导文本图像中的字符的修复。
本实施例提出了一种两阶段的文本图像修复网络。在第一阶段,网络以损坏的图像、掩码、损坏的边缘和损坏的文本骨架图像作为输入,并利用仅解码器的Transformer来重建完整的边缘和文本骨架图像。在第二阶段,生成网络采用具有跳跃连接的编码器-解码器结构,其中图像的编码器分支和先验的编码器分支共享权重。然后采用门控融合注意力模块对不同尺度的先验特征和图像特征进行充分融合,以生成更详细的纹理。为了保证网络能够从图像和语义两方面产生更合理的文本图像,本实施例设计了一个文本感知损失,联合其他图像修复的损失共同训练网络。
由于现有的文本数据集大多是用于场景文本检测和识别的场景文本数据集,为了更好地模拟古籍文档中的文本图像,本实施例构建了一个英文文本数据集。本实施例使用五种字体文件,包括手写字体和打印字体,收集15张带有噪声的文档背景图像。在合成过程中,随机选择单词、小说等语料库中的文本、噪声背景、以及字体文件,然后将所选文本写在背景图像中的任意位置,并执行诸如倾斜和噪声之类的随机转换。最后从背景图像中裁剪出整个文本行图像。图像大小从50像素到200像素不等。该数据集共包含100000张训练图像和25000张测试图像。对于随机不规则的掩模,其遮挡比例为10%-60%。对于生成文本骨架图像,在保留和细化文本笔画的同时去除背景。利用Canny边缘检测算法生成边缘图像。
由于文本修复的目的是恢复完整的二值文本图像而不是RGB图像,所以本实施例将所提出的方法与具有不同策略的四种场景修复模型进行了比较:
Pconv:一种具有部分卷积的编码器解码器网络。
EC:首先重建边缘图像,然后利用它们来提高修复性能的两阶段GAN模型。
CTSDG:一种将纹理合成和结构重构相结合的双流网络,以获得更好的修复效果。
LGNet:一个由粗到细的三级网络,它实现了粗糙的初始结果,然后使用小的和大的感受野分别进行细化。
本实施例使用Pytorch实现模型构建,并在CPU Intel i7-8700F和NVIDIAGeForce GTX 1080Ti-11G上进行了实验。在训练和测试中,本实施例将文本图像调整为256×256以供输入。在评价过程中,将输出图像调整为原始图像的大小来计算相应指标。在训练的第一阶段,本实施例使用了AdamW优化器,学习率为3e-4。在第二阶段,使用Adam优化器,并将学习速率设置为1e-4。文本先验生成器使用了官方预训练的CRNN。在输出图像和真实图像采用非共享的文本先验生成器,并对输出分支的生成器进行微调。
在定性比较方面,本实施例展示了一些文本图像修复的结果,各模型得定性比较结果如图6所示,图6(b)为模型输入,图6(c)-(g)为对比模型和本实施例模型得修复结果。
Pconv在修复时未采用任何先验信息和注意力机制增强图像修复效果,缺失区域修复纹理模糊有伪影,且图像上被遮挡的文本修复存在明显错误。EC方法和CTSDG方法,在背景区域修复效果很好,缺失面积小时效果可以,但文字与背景边界模糊,有大面积文字缺失时,在文字的修复细节上效果不够好,文字修复有语义错误。LGNet方法修复结果缺失区域和背景区域文字衔接不一致,文字出现部分修复错误,没有达到文本修复的目的。
综合以上结果可见,本实施例可以更加精确地修复文本图像中的文本笔划,且在掩膜遮挡尺寸较大时效果更好。和其他模型结果对比,做到修复区域自然真实,人眼视觉感受效果较好。
在定量比较方面,对于评价指标,本实施例首先比较了本实施例和其他修复方法在图像质量评价指标上的差异。本实施例使用了平均绝对误差(MAE)、峰值噪声(PSNR)和结构相似性指数(SSIM)三种常用度量。PSNR是人类对重建质量感知的近似值,用来衡量图像失真的程度,其计算公式为:
Figure SMS_91
式中,
Figure SMS_92
为图像中最大可能的像素值,计算结果单位为dB。dB数值越大,表示修复结果失真越小,图像质量越好。
SSIM主要关注边缘和纹理相似性来模仿人类感知,对于两张图像x和y,SSIM的计算公式为:
Figure SMS_93
式中
Figure SMS_94
为图像/>
Figure SMS_95
的均值;/>
Figure SMS_96
为图像/>
Figure SMS_97
的方差;
Figure SMS_98
为图像/>
Figure SMS_99
的协方差;/>
Figure SMS_100
为两个常数。SSIM数值在0到1之间,SSIM越大,表示两图像之间差异越小。
MAE表示修复图像和原始图像像素值之间绝对误差的平均值,对于两张图像x和y,其计算公式为
Figure SMS_101
式中,
Figure SMS_102
表示图像所有像素点的个数。MAE越小,表示两个图像之间的差异越小。
表3展示了在图像质量上得定量实验的比较结果。结果表明,本实施例相较于其他方法,具有良好的图像质量。
Figure SMS_103
除了图像质量指标外,本实施例还采用文本识别指标来展示文本的修复效果。本实施例选择ASTER和MORAN识别器,载入了官方预训练的模型,使用文本识别准确率和字符识别精度作为评价指标,比较结果如表4所示。文本识别准确率计算公式为:
Figure SMS_104
其中,
Figure SMS_105
表示全部识别正确的文本图像的数量,/>
Figure SMS_106
表示总测试文本图像的数量。
字符识别准确率(Character Accuracy,C.Acc)计算公式为:
Figure SMS_107
式中,
Figure SMS_108
表示识别出的文本字符串和真实文本字符串之间的莱温斯坦距离(Levenshtein Distance),其定义为将一个字符串变换为另一个字符串所需删除、插入、替换操作的次数。/>
Figure SMS_109
表示真实文本的字符长度。
Figure SMS_110
由表4中数据可以看出,本实施例在每个识别器上都优于其他对比方法。表明本实施例可以有效地修复文本图像中的文字笔画,使得修复后的文本图像拥有正确的语义。
本实施例提出了一种两阶段的文本图像修复模型,用于更好地解决文本图像修复的问题。该模型从文本图像的特征以及文本图像修复的目的出发,针对现有图像修复模型在文本图像修复方面的不足,借鉴现有图像修复模型的思想,提出了先进行结构先验重建,然后在先验指导下通过门控融合注意力模块充分利用文本先验特征进行文本图像修复的方法,同时结合文本感知损失使得模型能够关注文字本身,有效修复缺损的文本图像,在英文数据集上的修复结果表明,本实施例得到的修复图像的人类主观视觉效果和客观的图像质量评价指标以及OCR识别结果等都比其他模型更好。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.基于结构注意和文本感知的文本图像修复模型,其特征在于,包括结构先验重建网络和生成网络,所述结构先验重建网络包括依次设置的第一CNN编码器、仅解码器的Transformer及第一CNN解码器,所述第一CNN编码器用于输入待修复文本图像并对文本图像下采样,在每个空间位置对特征增加一个可学习的绝对位置嵌入;所述仅解码器的Transformer包括多层叠加的Transformer模块,所述仅解码器的Transformer用于重建第一CNN编码器输出图像的边缘和文本骨架图像;所述第一CNN解码器用于将仅解码器的Transformer输出图像进行上采样使输出图像达到输入待修复文本图像大小,得到先验图像;其中,所述第一CNN编码器输入的图像为以损坏的图像、掩码、损坏的边缘及损坏的文本骨架图像拼接的图像;
所述生成网络采用具有跳跃连接的编码器-解码器结构,其包括第二CNN编码器、第三CNN编码器、轻量门控融合模块、带自注意力的门控融合模块、残差模块、SE模块及第二CNN解码器,所述第二CNN编码器与第三CNN编码器共享权重,所述第二CNN编码器用于输入第一CNN解码器输出的先验图像并对先验图像下采样,所述第三CNN编码器用于输入损坏的图像并对损坏的图像下采样,所述轻量门控融合模块用于融合跳跃连接传递的多尺度的特征中第二CNN编码器生成的先验特征和第三CNN编码器生成的图像纹理特征;所述带自注意力的门控融合模块用于获取第三CNN编码器最后一层编码层包含高级语义信息的纹理特征,采用自注意力机制对纹理特征的长期依赖关系进行建模以获取全局上下文特征,再获取第二CNN编码器最后一层编码层输出的先验特征与采用自注意力机制处理后的纹理特征融合,所述带自注意力的门控融合模块进行特征融合后将融合后特征依次经残差模块和SE模块输入第二CNN解码器;所述第二CNN解码器对输入SE模块后得到的输出特征进行上采样,在上采样阶段将轻量门控融合模块融合后特征在通道维度拼接起来以补充上采样阶段丢失的空间信息,然后输出修复后文本图像。
2.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型,其特征在于,所述第一CNN编码器和第一CNN解码器均包括四个依次设置的卷积模块。
3.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型,其特征在于,所述第二CNN编码器、第三CNN编码器及第二CNN解码器均包括四个依次设置的卷积模块,所述轻量门控融合模块的数量为三个,三个所述的轻量门控融合模块分别融合第二CNN编码器和第三CNN编码器两者前三个卷积模块的特征并分别输出至第二CNN解码器后三个卷积模块。
4.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型,其特征在于,所述轻量门控融合模块包括Relu层、sigmod函数层及三个1×1卷积层,轻量门控融合模块输入的第二CNN编码器生成的先验特征和第三CNN编码器生成的图像纹理特征分别经一个1×1卷积层后进行矩阵相加进行融合,融合后特征再依次经Relu层、1×1卷积层及sigmod函数层处理,得到的权重特征再与轻量门控融合模块输入的第三CNN编码器生成的图像纹理特征进行矩阵相乘实现再次融合后再输出融合后特征。
5.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型,其特征在于,所述带自注意力的门控融合模块包括Relu层、sigmod函数层及六个1×1卷积层,带自注意力的门控融合模块输入的第三CNN编码器生成的图像纹理特征复制三份,其中两份图像纹理特征分别经过1×1卷积层后进行矩阵相乘实现相似度计算,再采用softmax函数归一化权重后得到注意力图,注意力图特征与另一份经过1×1卷积层处理的第三CNN编码器生成的图像纹理特征进行矩阵相乘,再次经过1×1卷积层处理后与带自注意力的门控融合模块输入的经过一个1×1卷积层处理的第二CNN编码器生成的先验特征进行矩阵相加进行特征融合,融合后特征再依次经Relu层、1×1卷积层及sigmod函数层处理,然后再与带自注意力的门控融合模块输入的第三CNN编码器生成的图像纹理特征进行矩阵相乘实现再次融合后再输出融合后特征。
6.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型,其特征在于,所述Transformer模块包括多头自注意力层、全连接层及两个层归一化层,所述Transformer模块输入图像经依次经一个层归一化层和多头自注意力层处理后,再与Transformer模块输入图像进行第一次矩阵相加,第一次矩阵相加后图像依次经另一个层归一化层和全连接层处理后,然后再与第一次矩阵相加后图像进行矩阵相加后输出。
7.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型,其特征在于,所述结构先验重建网络在训练时采用二值交叉熵损失优化边缘图像的重建,采用二值交叉熵损失和骰子损失来优化骨架图像的重建,总损失L 1 表述为:
Figure QLYQS_1
式中,
Figure QLYQS_2
表示文本骨架图像的二分类交叉熵损失,/>
Figure QLYQS_3
表示边缘图像的二分类交叉熵损失,/>
Figure QLYQS_4
表示文本骨架图像的骰子损失,/>
Figure QLYQS_5
为平衡系数。
8.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型,其特征在于,所述文本图像修复模型在文本图像修复过程中采用重建损失、感知损失、风格损失、对抗损失及文本感知损失进行图像修复联合监督,所述文本感知损失包括文本梯度先验损失和文本先验损失,所述文本梯度先验损失采用L1范数来约束修复后的文本图像的梯度场与原始图像梯度场差异,文本梯度先验损失
Figure QLYQS_6
的公式如下:
Figure QLYQS_7
式中,
Figure QLYQS_8
和/>
Figure QLYQS_9
表示原始图像和修复图像的梯度场;
所述文本先验损失利用预训练过的文本识别模型来预测图像种的文本,采用CRNN模型作为文本先验生成器,对字符的概率序列进行预测,其是一个具有A维概率向量的序列,其中,A表示用CRNN模型学习的字符个数;对于输出图像和真实图像,分别用L1范数距离和KL散度度量两者之间的相似性;文本先验损失函数的表述如下:
Figure QLYQS_10
Figure QLYQS_11
/>
其中,
Figure QLYQS_12
表示文本先验损失,其中/>
Figure QLYQS_13
,/>
Figure QLYQS_14
分别表示输出图像和真实图像经文本先验生成器之后的概率序列输出,/>
Figure QLYQS_15
表示输出图像和真实图像间的KL散度,/>
Figure QLYQS_16
表示一个正数,以避免除法和对数中的数字错误;
文本感知损失
Figure QLYQS_17
表示为:
Figure QLYQS_18
其中,
Figure QLYQS_19
和/>
Figure QLYQS_20
均为平衡系数;
重建损失使用平均绝对误差计算修复图像
Figure QLYQS_21
和原始图像/>
Figure QLYQS_22
像素级别的差异,重建损失/>
Figure QLYQS_23
计算公式为:
Figure QLYQS_24
式中,
Figure QLYQS_25
表示平均绝对误差的计算;
感知损失利用高级语义特征衡量图像差异,感知损失
Figure QLYQS_26
的计算公式为:
Figure QLYQS_27
式中,
Figure QLYQS_28
为预训练网络的第i层激活层输出的特征图;
风格损失用于风格迁移任务,计算图像特征之间相似度,风格损失
Figure QLYQS_29
的计算公式为:
Figure QLYQS_30
式中,
Figure QLYQS_31
是指从激活层输出的特征图创建的格雷姆矩阵运算;
对抗损失将
Figure QLYQS_32
视为真图像,/>
Figure QLYQS_33
视为假图像,对抗损失/>
Figure QLYQS_34
计算公式为:
Figure QLYQS_35
式中,
Figure QLYQS_36
表示判别网络;
文本图像修复模型的总损失
Figure QLYQS_37
表示为:
Figure QLYQS_38
/>
其中,式中
Figure QLYQS_39
和/>
Figure QLYQS_40
为平衡系数。
9.基于权利要求1~8中任意一项所述的基于结构注意和文本感知的文本图像修复模型的文本图像修复方法,其特征在于,包括以下步骤:
步骤S1、将待修复文本图像输入结构先验重建网络;其中,待修复文本图像为以损坏的图像、掩码、损坏的边缘及损坏的文本骨架图像拼接的图像;
步骤S2、对文本图像下采样,并在每个空间位置对特征增加一个可学习的绝对位置嵌入;
步骤S3、重建边缘和文本骨架图像;
步骤S4、上采样使输出图像达到输入待修复文本图像大小,得到先验图像;
步骤S5、将先验图像输入生成网络,对于跳跃连接传递的多尺度的特征,采用轻量级的门控融合策略来融合先验特征和图像纹理特征,然后在上采样阶段将融合后特征在通道维度拼接起来,以补充其在上采样阶段丢失的空间信息;
对于包含高级语义信息的最后一层编码层的特征,首先利用自注意力机制对纹理特征的中的长期依赖关系进行建模,以获取全局上下文特征,再利用门控融合模块融合先验特征和纹理特征,然后将融合后的特征输入后续的残差模块以提取有用的深层特征。
CN202310525565.0A 2023-05-11 2023-05-11 基于结构注意和文本感知的文本图像修复模型及方法 Active CN116258652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310525565.0A CN116258652B (zh) 2023-05-11 2023-05-11 基于结构注意和文本感知的文本图像修复模型及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310525565.0A CN116258652B (zh) 2023-05-11 2023-05-11 基于结构注意和文本感知的文本图像修复模型及方法

Publications (2)

Publication Number Publication Date
CN116258652A true CN116258652A (zh) 2023-06-13
CN116258652B CN116258652B (zh) 2023-07-21

Family

ID=86688326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310525565.0A Active CN116258652B (zh) 2023-05-11 2023-05-11 基于结构注意和文本感知的文本图像修复模型及方法

Country Status (1)

Country Link
CN (1) CN116258652B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726550A (zh) * 2024-02-18 2024-03-19 成都信息工程大学 一种多尺度门控注意力遥感图像去雾方法和系统
CN117975467A (zh) * 2024-04-02 2024-05-03 华南理工大学 一种桥接式的端到端文字识别方法
CN118154476A (zh) * 2024-05-09 2024-06-07 山东浪潮科学研究院有限公司 一种全局文字图像修复方法及装置、介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340122A (zh) * 2020-02-29 2020-06-26 复旦大学 一种多模态特征融合的文本引导图像修复方法
US20200364624A1 (en) * 2019-05-16 2020-11-19 Retrace Labs Privacy Preserving Artificial Intelligence System For Dental Data From Disparate Sources
CN113240613A (zh) * 2021-06-07 2021-08-10 北京航空航天大学 一种基于边缘信息重建的图像修复方法
CN113609285A (zh) * 2021-08-09 2021-11-05 福州大学 一种基于依赖门控融合机制的多模态文本摘要系统
CN114897742A (zh) * 2022-06-10 2022-08-12 重庆师范大学 一种纹理和结构特征两次融合的图像修复方法
CN115238589A (zh) * 2022-08-09 2022-10-25 浙江大学 一种基于生成对抗网络的人群移动预测方法
CN115293170A (zh) * 2022-08-12 2022-11-04 桂林电子科技大学 一种基于协同注意力融合的方面级多模态情感分析方法
CN115438154A (zh) * 2022-09-19 2022-12-06 上海大学 基于表征学习的中文自动语音识别文本修复方法及系统
CN115829880A (zh) * 2022-12-23 2023-03-21 南京信息工程大学 基于上下文结构注意力金字塔网络的图像修复方法
CN116012581A (zh) * 2022-12-19 2023-04-25 上海师范大学 一种基于双重注意力融合的图像分割方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200364624A1 (en) * 2019-05-16 2020-11-19 Retrace Labs Privacy Preserving Artificial Intelligence System For Dental Data From Disparate Sources
CN111340122A (zh) * 2020-02-29 2020-06-26 复旦大学 一种多模态特征融合的文本引导图像修复方法
CN113240613A (zh) * 2021-06-07 2021-08-10 北京航空航天大学 一种基于边缘信息重建的图像修复方法
CN113609285A (zh) * 2021-08-09 2021-11-05 福州大学 一种基于依赖门控融合机制的多模态文本摘要系统
CN114897742A (zh) * 2022-06-10 2022-08-12 重庆师范大学 一种纹理和结构特征两次融合的图像修复方法
CN115238589A (zh) * 2022-08-09 2022-10-25 浙江大学 一种基于生成对抗网络的人群移动预测方法
CN115293170A (zh) * 2022-08-12 2022-11-04 桂林电子科技大学 一种基于协同注意力融合的方面级多模态情感分析方法
CN115438154A (zh) * 2022-09-19 2022-12-06 上海大学 基于表征学习的中文自动语音识别文本修复方法及系统
CN116012581A (zh) * 2022-12-19 2023-04-25 上海师范大学 一种基于双重注意力融合的图像分割方法
CN115829880A (zh) * 2022-12-23 2023-03-21 南京信息工程大学 基于上下文结构注意力金字塔网络的图像修复方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIANDE SUN等: "TSINIT:A Two-Stage Inpainting Network for Incomplete Text", 《JOURNALS&MAGAZINES》, pages 1 - 11 *
刘雨轩等: "结构先验指导的文本图像修复模型", 《中国图像图形学报》, pages 1 - 15 *
朱东辉: "基于深度学习的图像去雾方法研究", 《中国优秀硕士学位论文全文数据库》, no. 2, pages 138 - 1304 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726550A (zh) * 2024-02-18 2024-03-19 成都信息工程大学 一种多尺度门控注意力遥感图像去雾方法和系统
CN117726550B (zh) * 2024-02-18 2024-04-30 成都信息工程大学 一种多尺度门控注意力遥感图像去雾方法和系统
CN117975467A (zh) * 2024-04-02 2024-05-03 华南理工大学 一种桥接式的端到端文字识别方法
CN118154476A (zh) * 2024-05-09 2024-06-07 山东浪潮科学研究院有限公司 一种全局文字图像修复方法及装置、介质

Also Published As

Publication number Publication date
CN116258652B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN116258652B (zh) 基于结构注意和文本感知的文本图像修复模型及方法
CN111242238B (zh) 一种rgb-d图像显著性目标获取的方法
CN113989129A (zh) 基于门控和上下文注意力机制的图像修复方法
CN112365514A (zh) 基于改进PSPNet的语义分割方法
CN114283080A (zh) 一种多模态特征融合的文本指导图像压缩噪声去除方法
CN116309107A (zh) 基于Transformer和生成式对抗网络的水下图像增强方法
CN113837290A (zh) 一种基于注意力生成器网络的无监督非成对图像翻译方法
CN116310394A (zh) 显著性目标检测方法及装置
CN116309890A (zh) 模型生成方法、风格化图像生成方法、装置及电子设备
CN116524307A (zh) 一种基于扩散模型的自监督预训练方法
CN113538359A (zh) 一种用于指静脉图像分割的系统以及方法
CN115861094A (zh) 一种融合注意力机制的轻量级gan水下图像增强模型
CN116228785A (zh) 一种基于改进的Unet网络的肺炎CT影像分割方法
CN112419159B (zh) 文字图像超分辨率重建系统及方法
CN116523985B (zh) 一种结构和纹理特征引导的双编码器图像修复方法
CN117726814A (zh) 基于交叉注意力和双分支池化融合的视网膜血管分割方法
CN117217997A (zh) 一种基于上下文感知边缘增强的遥感图像超分辨率方法
CN116823610A (zh) 一种基于深度学习的水下图像超分辨率生成方法和系统
CN116630763A (zh) 一种基于多尺度上下文感知的多聚焦图像融合方法
CN116309278A (zh) 基于多尺度上下文感知的医学图像分割模型及方法
CN116778165A (zh) 基于多尺度自适应语义分割的遥感影像灾害检测方法
CN114862696A (zh) 一种基于轮廓和语义引导的人脸图像修复方法
CN115035170A (zh) 基于全局纹理与结构的图像修复方法
CN113723174B (zh) 基于生成对抗网络的人脸图像超分辨修复重建方法及系统
CN114140316A (zh) 一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant