CN113256494B - 一种文本图像超分辨率方法 - Google Patents
一种文本图像超分辨率方法 Download PDFInfo
- Publication number
- CN113256494B CN113256494B CN202110614954.1A CN202110614954A CN113256494B CN 113256494 B CN113256494 B CN 113256494B CN 202110614954 A CN202110614954 A CN 202110614954A CN 113256494 B CN113256494 B CN 113256494B
- Authority
- CN
- China
- Prior art keywords
- image
- resolution
- convolution
- super
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000000007 visual effect Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 16
- 229940126535 potassium competitive acid blocker Drugs 0.000 claims abstract description 15
- 230000008447 perception Effects 0.000 claims abstract description 12
- 238000012937 correction Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000009499 grossing Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims 1
- 230000010354 integration Effects 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000132092 Aster Species 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 2
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/181—Segmentation; Edge detection involving edge growing; involving edge linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种文本图像超分辨率方法,包括以下步骤:1)图像预处理:由灰度图像均值将灰度图像二值化得到文字蒙版,将文字蒙版(M)叠加到图像上,得到RGBM的四通道低分辨率‑高分辨率图像对;2)模型训练:低分辨率RGBM被送入网络,首先经过文本矫正模块的处理;紧接着,利用矫正后的特征统一构建视觉上下文,这个部分由稠密连接的五个并行正交上下文注意力模块(PCAB)组成;然后,每个PCAB模块的输出被统一合并到一起,进一步在这些特征上构建正交纹理感知注意力,自适应加权那些对重建高频信息有较大影响的特征;最后,经过两倍上采样和一次卷积,得到最终尺寸为4*(2H)*(2W)的输出超分辨率RGBM图像。
Description
技术领域
本发明涉及计算机视觉领域。
背景技术
近年来,场景文本理解在计算机视觉任务中扮演着十分重要的角色。然而,自然环境下苛刻的成像条件(低分辨率、抖动等)往往阻碍了这些领域的进展。由于成像过程中景深变化较大,低分辨率文本图像比比皆是,同时低分辨率图像中文本的形状和轮廓经常是模糊的,这对场景文本理解无疑是巨大的挑战。
场景文本超分辨率可以有效地缓解上述问题,超分出来的图像可以显著的提升文字识别算法的准确率。现有的工作大多只是将通用超分辨率算法应用于文本超分任务,较少的针对文本图像的上下文特性提出新的解决方案。同一张图像中,前景文本字符之间通常具有相似的纹理、颜色以及笔画特性。文字的边缘轮廓信息是比较具有辨识力的高频信息。因此,有必要针对上述特点提出新的文本超分辨率算法。
如何找出一种方法高效的提取视觉特征的上下文信息,同时能够自适应的重建高频信息是一项较为值得研究的问题。而深度学习的动机恰恰在于编码特征空间,让网络自适应的寻找上述信息的最优解,用这样的机制来解释数据。因此使用深度学习的方法来进行文本图像超分辨率成为可能。
专利CN 110415176 A提出了一种基于深度学习的文本图像超分辨率方法。此方法的目标是针对文档图像进行超分辨率,使用深度空域特征转换生成对抗网络(SFTGAN)对文本前景进行超分辨率,使用增强超分生成对抗网络(ESRGAN)对文档背景进行超分辨率操作,最后再将二者进行融合得到文档图像的超分辨率结果。这种方法在场景图像上不具备通用性,并且没有针对文本的特点建模上下文关系,仅使用了现有的通用超分辨率模型,因此难以在真实场景上取得较好的效果。
发明内容
本发明目的在于克服上述现有技术存在的缺陷,提供了一种文本图像超分辨率方法。
技术方案
一种文本图像超分辨率方法,其特征在于,采用平行双分支结构捕捉视觉上下文信息,并且自适应加权特征重建文本高频信息;
包括以下步骤:
1)图像预处理:由灰度图像均值将灰度图像二值化得到文字蒙版,将文字蒙版(M)叠加到图像上,得到RGBM的四通道低分辨率-高分辨率图像对;
2)模型训练:低分辨率RGBM被送入网络,首先经过文本矫正模块的处理,这个模块为文字识别的通用模块,用在文本超分辨率上主要是为了调整像素之间的偏移,使得网络优化的时候能够自适应对齐;紧接着,矫正后的特征将统一构建视觉上下文,这个部分由稠密连接的五个并行正交上下文注意力模块(PCAB)组成,并行正交上下文注意力模块旨在捕获视觉特征之间垂直和水平两组正交方向上的特征依赖关系,从而促进模型生成具有辨识力的超清图像;构建完视觉上下文以后的特征,即每个PCAB模块的输出被统一合并到一起,进一步在这些特征上构建正交纹理感知注意力,旨在提升网络编码高频信息的能力,自适应加权那些对重建高频信息有较大影响的特征;最后,经过两倍上采样和一次卷积,得到最终尺寸为4*(2H)*(2W)的输出超分辨率RGBM图像;针对网络的训练,本方法提出了用边缘引导损失函数(自研)辅助L2损失函数,以起到更好的图像超分辨率效果。
与现有技术相比,本发明具有以下优点:
一、本发明解耦了正交方向上下文特征之间的依赖,采用并行双分支,分别建模垂直和水平方向上的视觉上下文关系,并用通道注意力的方式加权两组信息,使网络具有更强编码视觉上下文信息的能力。
二、本发明在层级特征上构建全局注意力具有如下特点:参数量小、感受野大,使得网络能够更全面的加权特征,自适应地关注有助于重建高频信息的特征。
三、本发明提出了一种辅助训练策略,显式建模网络对于文本轮廓的关注度,强化对边缘轮廓细节的重建,使得超分辨率文本图像更清晰、稳定。
四、本发明仅占用少量的计算、存储资源,并能在低分辨率文本识别上起到较为显著的提升,同时有助于防止对抗攻击的干扰,一定程度上提升文字识别算法流程的安全性,方法简单易行。
附图说明
图1是本发明的实现流程图。
图2模型架构图
图3为本发明生成的超分辨率图像以及识别结果(灰度化显示)。
图4为本发明生成的超分辨率图像的细节比较(灰度化显示)。
具体实施方式
一种文本图像超分辨率方法,其特征在于,采用平行双分支结构捕捉视觉上下文信息,并且自适应加权特征重建文本高频信息;
包括以下步骤:
1)图像预处理:由灰度图像均值将灰度图像二值化得到文字蒙版,将文字蒙版(M)叠加到图像上,得到RGBM的四通道低分辨率-高分辨率图像对;
2)模型训练:低分辨率RGBM被送入网络,首先经过文本矫正模块的处理,这个模块为文字识别的通用模块,用在文本超分辨率上主要是为了调整像素之间的偏移,使得网络优化的时候能够自适应对齐。紧接着,矫正后的特征将统一构建视觉上下文,这个部分由稠密连接的五个并行正交上下文注意力模块(PCAB)组成,并行正交上下文注意力模块旨在捕获视觉特征之间垂直和水平两组正交方向上的特征依赖关系,从而促进模型生成具有辨识力的超清图像。构建完视觉上下文以后的特征,即每个PCAB模块的输出被统一合并到一起,进一步在这些特征上构建正交纹理感知注意力,旨在提升网络编码高频信息的能力,自适应加权那些对重建高频信息有较大影响的特征。最后,经过两倍上采样和一次卷积,得到最终尺寸为4*(2H)*(2W)的输出超分辨率RGBM图像。针对网络的训练,本方法提出了用边缘引导损失函数(自研)辅助L2损失函数,以起到更好的图像超分辨率效果。
3)模型评估:将测试集图像输入模型中进行测试,选取主流的文字识别算法得到在文本超分辨率图像上的识别精度,识别算法的精度提升作为衡量本发明方法有效性的指标。
所述的步骤1)中,图像预处理具体包括以下步骤:
在同一张文本图像中,相邻字符通常具有颜色、纹理等一致性,然而字符前景与背景具有较大的反差。为了向超分辨率网络引入前背景的语义信息,取灰度图像像素值的平均值作为阈值,得到二值化蒙版(1表示前景,0表示背景)。将蒙版与RGB图像通道叠加,得到RGBM低分辨率-高分辨率图像对,为训练文本超分辨率网络做准备。
所述的步骤2)中,将训练集图像输入网络中进行训练,具体包括以下步骤(如图2所示):
21)网络的第一个阶段(已有技术)是文本校正(薄板样条插值形状校正模块)。使用STN网络实现了薄板样条插值函数(TPS)的操作。首先,输入图像为16*64尺寸的RGBM低分图像,经过TPS-STN网络生成校正采样以后的采样矩阵,再从输入图像上做相应的采样得到16*64的同尺寸输出。
22)网络的第二个阶段(创新点)是构建视觉上下文(由五个并行正交上下文注意力模块稠密连接组成)。首先,经过一次卷积核大小为9*9,步长为1,边界填充为4的卷积操作,得到输出为64*16*64的特征层。将此特征以DenseNet稠密连接的模式送入五个并行正交上下文注意力模块(PCAB),提取视觉特征的上下文关系。每个并行上下文注意力特征提取模块的输入尺寸为(T*64)*16*64,T表示当前块的序号。PCAB模块将先进行通道降维,经过一次3*3卷积,将(T*64)*16*64输入特征通道降维成64*16*64,然后先在模块内的主干分支上经过一次3*3的同型卷积处理,然后变成双分支结构,上下支路分别进行一次3*3的同型卷积,以及一次GRU运算构建垂直或水平方向上的循环连接,最终将双分支特征按通道维度堆叠在一起,得到尺寸为128*16*64的特征,此特征在后阶段经过一次通道注意力加权,再经一次卷积得到PCAB模块的输出结果。GRU模块构建视觉特征上下文的计算方法如下:
Fout=fc(Concat(Oh,Ov))
其中,Ht表示GRU中的隐藏层,下标t表示GRU中的时间步,Xr,Xh,Xv分别表示主干特征、上分支特征(构建水平方向视觉特征上下文)、下分支特征(构建垂直方向视觉特征上下文),表示GRU定义的矩阵运算;Oh,Ov分别表示经由GRU处理以后的上下分支特征,Concat表示按照通道方向上堆叠特征,并由fc函数生成通道注意力权重对特征进行点乘加权,这里的做法和本领域已知的SENet中SE模块的做法一致,Fout表示通道加权以后的输出特征。
23)网络的第三个阶段(创新点)是在层级特征之上(即收集所有PCAB模块的输出特征)构建正交纹理感知注意力,旨在增加网络对特征的编码能力,使其能自适应的关注那些对高频信息重建有帮助的特征。此模块的实现如下:首先,将上一阶段五个并行正交上下文注意力模块的输出特征堆叠到一起得到(5*64)*16*64的特征图。在此基础上构建正交纹理感知注意力,主干特征经过两次1*1同型卷积,然后分为垂直方向纹理感知和水平方向纹理感知双分支。双分支分别采用1*K、K*1卷积作为基础(K表示卷积核尺寸,本发明的方法一般采用K为3),结合不同大小的空洞系数(空洞系数dilation为1、2、3),并且让同一类纹理感知的空洞卷积共享权重,降低参数量的同时扩大CNN的感知范围。将上下分支处理得到的特征通道堆叠得到尺寸为(6*5*64)*16*64的特征图(上下分支、以及每一分支有三种膨胀系数,因此有6倍特征)。然后此特征经过一次通道加权、一次1*1同型卷积通道降维、一次尺寸为8*8步长为2的最大池化、一次卷积、一次上采样、一次卷积、一次Sigmoid特征归一化,得到空间注意力权重张量,并与此模块的输入特征进行按位点乘,乘完的特征作为模块的输出。
24)最后,文本图像超分辨率被建模成为一种回归问题。由前面步骤得到特征先进行两倍上采样,再经过一次卷积核尺寸为9*9、边界补零为4的卷积运算得到整个网络的输出结果。网络输出与高分辨率RGBM之间采用L2损失函数优化,同时使用边缘引导损失函数LEG(本法创新点)进行辅助训练。该边缘引导损失函数借鉴了Sobel高通滤波算子,是一种端到端的卷积实现,显式地提取图像上的高频轮廓信息。网络的整体优化过程数学表达如下:
其中,L2损失函数是本领域已知的一种回归损失,Ey表示对y求期望,和y分别表示模型预测的超分辨率输出结果和高分辨率图像。f(x)函数的目的是显式地处理图像x上的垂直、水平纹理,得到一张边缘梯度响应图,Wh,Wv分别表示Sobel算子的水平、垂直方向上的滤波参数,实践过程中将其替换CNN的权重并且固定此权重,Conv(x,W)表示在输入为x的特征上进行参数为W的卷积运算,ε表示平滑系数。LEG表示边缘引导损失函数,它度量的是超分辨率图像和高清图像之间轮廓高频信息的差值。Ltotal是总的优化方程,λ1,λ2分别作为最终优化目标的权重因子。
所述的步骤3)中,将测试集图像输入模型中进行测试,选取主流的文字识别算法得到在文本超分辨率图像上的识别精度,识别算法的精度提升作为衡量本发明方法有效性的指标。根据预测数据计算模型性能具体步骤如下:
31)计算文字识别算法的准确率。文字识别算法(ASTER、MORAN、CRNN等)输入为超分辨率图像,算法的输出为图片上文本内容的字符串表达形式。识别结果的准确率计算如下:
WRA=|C|/|T|
其中,C表示识别结果正确的样本总数,T表示待识别的总样本量。文字超分辨率任务通过比较超分出来的图像和原图,在主流的文字识别算法(使用预训练模型)上的识别准确率差值,反映文字超分辨率算法的有效性。
32)计算超分辨率图像PSNR(Peak Signal-to-Noise Ratio)、SSIM(StructuralSIMilarity)通用指标:
PSNR的计算方法如下:
SSIM基于输出图像x和标签y之间的亮度、对比度和结构做度量,其计算方法如下:
c1=(k1L)2,c2=(k2L)2,c3=c2/2
其中,μx,μy分别表示图像x和y的均值,分别表示图像x和y的方差,σxσy分别表示图像x和y的标准差,σxy表示图像x和y的协方差,c1,c2,c3分别表示三个常数,L为像素值的范围(1或者255),k1k2为常数,k1通常取0.01,k2通常取0.03。
图1是本发明的实现流程图,具体实施方式如下:
1.对低分辨率、高分辨率图像同时进行预处理,得到新的包含语义蒙版的RGBM彩图作为低分-高分成对数据;
2.将成对数据中的低分辨率RGBM图像送入网络,得到两倍长宽、四通道输出特征;
3.用L2损失和边缘引导损失函数计算输出特征与高分辨率RGBM图像的损失,采用梯度下降算法反向传播,对网络参数进行更新。
4.将测试集低分辨率图像输入训练好的模型,得到相应的超分辨率图像。并加载主流的文字识别算法,识别超分辨率图像。
5.根据测试结果计算文字识别算法的识别精度,同时计算超分图像和高清图像的SSIM值、PSNR值。
表1-表2为本发明算法与其他算法的性能比较。
表1本发明算法同其它算法在TextZoom公开数据集上文字识别精确度比较。分别用ASTER、MORAN、CRNN(三种主流的文字识别算法)的识别精度作为度量指标。
表2本发明算法同其它算法在TextZoom公开数据集上超分图像指标比较。
Claims (2)
1.一种文本图像超分辨率方法,其特征在于,采用平行双分支结构捕捉视觉上下文信息,并且自适应加权特征重建文本高频信息;
包括以下步骤:
1)图像预处理:由灰度图像均值将灰度图像二值化得到文字蒙版,将文字蒙版(M)叠加到图像上,得到RGBM的四通道低分辨率-高分辨率图像对;
2)模型训练:低分辨率RGBM被送入网络,首先经过文本矫正模块的处理;紧接着,利用矫正后的特征统一构建视觉上下文,这个部分由稠密连接的五个并行正交上下文注意力模块(PCAB)组成;然后,每个PCAB模块的输出被统一合并到一起,进一步在这些特征上构建正交纹理感知注意力,自适应加权那些对重建高频信息有较大影响的特征;最后,经过两倍上采样和一次卷积,得到最终尺寸为4*(2H)*(2W)的输出超分辨率RGBM图像;
所述的步骤2)中,将训练集图像输入网络中进行训练,具体包括以下步骤:
21)网络的第一个阶段是文本校正;使用STN网络实现了薄板样条插值函数(TPS)的操作;首先,输入图像为16*64尺寸的RGBM低分图像,经过TPS-STN网络生成校正采样以后的采样矩阵,再从输入图像上做相应的采样得到16*64的同尺寸输出;
22)网络的第二个阶段是构建视觉上下文;首先,经过一次卷积核大小为9*9,步长为1,边界填充为4的卷积操作,得到输出为64*16*64的特征层;将此特征以DenseNet稠密连接的模式送入五个并行正交上下文注意力模块(PCAB),提取视觉特征的上下文关系;每个并行上下文注意力特征提取模块的输入尺寸为(T*64)*16*64,T表示当前块的序号;PCAB模块将先进行通道降维,经过一次3*3卷积,将(T*64)*16*64输入特征通道降维成64*16*64,然后先在模块内的主干分支上经过一次3*3的同型卷积处理,然后变成双分支结构,上下支路分别进行一次3*3的同型卷积,以及一次GRU运算构建垂直或水平方向上的循环连接,最终将双分支特征按通道维度堆叠在一起,得到尺寸为128*16*64的特征,此特征在后阶段经过一次通道注意力加权,再经一次卷积得到PCAB模块的输出结果;GRU模块构建视觉特征上下文的计算方法如下:
Fout=fc(Concat(Oh,Ov))
其中,Ht表示GRU中的隐藏层,下标t表示GRU中的时间步,Xr,Xh,Xv分别表示主干特征、上分支特征、下分支特征,表示GRU定义的矩阵运算;Oh,Ov分别表示经由GRU处理以后的上下分支特征,Concat表示按照通道方向上堆叠特征,并由fc函数生成通道注意力权重对特征进行点乘加权,Fout表示通道加权以后的输出特征;
23)网络的第三个阶段是在层级特征之上构建正交纹理感知注意力,此模块的实现如下:首先,将上一阶段五个并行正交上下文注意力模块的输出特征堆叠到一起得到(5*64)*16*64的特征图;在此基础上构建正交纹理感知注意力,主干特征经过两次1*1同型卷积,然后分为垂直方向纹理感知和水平方向纹理感知双分支;双分支分别采用1*K、K*1卷积作为基础,K表示卷积核尺寸,采用K为3,结合不同大小的空洞系数dilation,空洞系数dilation为1、2、3,并且让同一类纹理感知的空洞卷积共享权重,降低参数量的同时扩大CNN的感知范围;将上下分支处理得到的特征通道堆叠得到尺寸为(6*5*64)*16*64的特征图;然后此特征经过一次通道加权、一次1*1同型卷积通道降维、一次尺寸为8*8步长为2的最大池化、一次卷积、一次上采样、一次卷积、一次Sigmoid特征归一化,得到空间注意力权重张量,并与此模块的输入特征进行按位点乘,乘完的特征作为模块的输出;
24)最后,文本图像超分辨率被建模成为一种回归问题;由前面步骤得到特征先进行两倍上采样,再经过一次卷积核尺寸为9*9、边界补零为4的卷积运算得到整个网络的输出结果;网络输出与高分辨率RGBM之间采用L2损失函数优化,同时使用边缘引导损失函数LEG进行辅助训练;网络的整体优化过程数学表达如下:
2.如权利要求书1所述一种文本图像超分辨率方法,其特征在于,所述的步骤1)中,图像预处理具体包括以下步骤:
取灰度图像像素值的平均值作为阈值,得到二值化蒙版;将蒙版与RGB图像通道叠加,得到RGBM低分辨率-高分辨率图像对,为训练文本超分辨率网络做准备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110614954.1A CN113256494B (zh) | 2021-06-02 | 2021-06-02 | 一种文本图像超分辨率方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110614954.1A CN113256494B (zh) | 2021-06-02 | 2021-06-02 | 一种文本图像超分辨率方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113256494A CN113256494A (zh) | 2021-08-13 |
CN113256494B true CN113256494B (zh) | 2022-11-11 |
Family
ID=77186082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110614954.1A Active CN113256494B (zh) | 2021-06-02 | 2021-06-02 | 一种文本图像超分辨率方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113256494B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763249A (zh) * | 2021-09-10 | 2021-12-07 | 平安科技(深圳)有限公司 | 文本图像超分辨率重建方法及其相关设备 |
CN115062673B (zh) * | 2022-07-28 | 2022-10-28 | 中国科学院自动化研究所 | 图像处理方法、装置、电子设备及存储介质 |
CN115829837A (zh) * | 2022-11-15 | 2023-03-21 | 深圳市新良田科技股份有限公司 | 一种文本图像超分重建的方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161146A (zh) * | 2019-12-25 | 2020-05-15 | 大连理工大学 | 一种由粗糙到精细的单张图像超分辨率重建方法 |
CN111476717A (zh) * | 2020-04-07 | 2020-07-31 | 西安电子科技大学 | 基于自注意力生成对抗网络的人脸图像超分辨重建方法 |
CN111861961A (zh) * | 2020-07-25 | 2020-10-30 | 安徽理工大学 | 单幅图像超分辨率的多尺度残差融合模型及其复原方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102393970B (zh) * | 2011-12-13 | 2013-06-19 | 北京航空航天大学 | 一种物体三维建模与渲染系统及三维模型生成、渲染方法 |
CN109493278A (zh) * | 2018-10-24 | 2019-03-19 | 北京工业大学 | 一种基于sift特征的大场景图像拼接系统 |
CN109859106B (zh) * | 2019-01-28 | 2022-07-05 | 桂林电子科技大学 | 一种基于自注意力的高阶融合网络的图像超分辨率重建方法 |
CN110717856A (zh) * | 2019-09-03 | 2020-01-21 | 天津大学 | 一种用于医学成像的超分辨率重建算法 |
CN111783474B (zh) * | 2020-07-16 | 2023-04-07 | 厦门市美亚柏科信息股份有限公司 | 一种评论文本观点信息处理方法、装置及存储介质 |
CN111932673B (zh) * | 2020-09-22 | 2020-12-25 | 中国人民解放军国防科技大学 | 一种基于三维重建的物体空间数据增广方法及系统 |
-
2021
- 2021-06-02 CN CN202110614954.1A patent/CN113256494B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161146A (zh) * | 2019-12-25 | 2020-05-15 | 大连理工大学 | 一种由粗糙到精细的单张图像超分辨率重建方法 |
CN111476717A (zh) * | 2020-04-07 | 2020-07-31 | 西安电子科技大学 | 基于自注意力生成对抗网络的人脸图像超分辨重建方法 |
CN111861961A (zh) * | 2020-07-25 | 2020-10-30 | 安徽理工大学 | 单幅图像超分辨率的多尺度残差融合模型及其复原方法 |
Non-Patent Citations (2)
Title |
---|
基于并行对抗与多条件融合的生成式高分辨率图像修复;邵杭等;《模式识别与人工智能》;20200415(第04期);全文 * |
基于空洞U-Net神经网络的PET图像重建算法;杜倩倩等;《太原理工大学学报》;20200315(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113256494A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113256494B (zh) | 一种文本图像超分辨率方法 | |
CN113313657B (zh) | 一种用于低光照图像增强的非监督学习方法和系统 | |
CN111127374B (zh) | 一种基于多尺度密集网络的Pan-sharpening方法 | |
CN111754438B (zh) | 基于多分支门控融合的水下图像复原模型及其复原方法 | |
CN111242841B (zh) | 一种基于语义分割和深度学习的图片背景风格迁移方法 | |
CN110648334A (zh) | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 | |
CN110473142B (zh) | 基于深度学习的单幅图像超分辨率重建方法 | |
CN109214989B (zh) | 基于多方向特征预测先验的单幅图像超分辨率重建方法 | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN113538246B (zh) | 基于无监督多阶段融合网络的遥感图像超分辨率重建方法 | |
CN111951164B (zh) | 一种图像超分辨率重建网络结构及图像重建效果分析方法 | |
CN112365514A (zh) | 基于改进PSPNet的语义分割方法 | |
CN110136122B (zh) | 一种基于注意力深度特征重建的脑mr图像分割方法 | |
CN113344933B (zh) | 一种基于多层次特征融合网络的腺体细胞分割方法 | |
CN112818920B (zh) | 一种双时相高光谱图像空谱联合变化检测方法 | |
CN115205672A (zh) | 一种基于多尺度区域注意力的遥感建筑物语义分割方法及系统 | |
CN115511767B (zh) | 一种自监督学习的多模态图像融合方法及其应用 | |
CN112686830B (zh) | 基于图像分解的单一深度图的超分辨率方法 | |
CN114897694B (zh) | 基于混合注意力和双层监督的图像超分辨率重建方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN117292117A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN115565056A (zh) | 基于条件生成对抗网络的水下图像增强方法及系统 | |
CN117333750A (zh) | 空间配准与局部全局多尺度的多模态医学图像融合方法 | |
CN116258632A (zh) | 一种基于文本辅助的文本图像超分辨率重建方法 | |
CN117252936A (zh) | 一种适配多种训练策略的红外图像彩色化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240607 Address after: Room 902, 9th Floor, No. 11 Yangfangdian Road, Haidian District, Beijing, 100038 Patentee after: Zhongzhi Shutong (Beijing) Information Technology Co.,Ltd. Country or region after: China Address before: 200092 Siping Road 1239, Shanghai, Yangpu District Patentee before: TONGJI University Country or region before: China |