CN116342385A - 文本图像超分辨率网络的训练方法、装置以及存储介质 - Google Patents

文本图像超分辨率网络的训练方法、装置以及存储介质 Download PDF

Info

Publication number
CN116342385A
CN116342385A CN202310133257.3A CN202310133257A CN116342385A CN 116342385 A CN116342385 A CN 116342385A CN 202310133257 A CN202310133257 A CN 202310133257A CN 116342385 A CN116342385 A CN 116342385A
Authority
CN
China
Prior art keywords
text image
text
super
feature
resolution network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310133257.3A
Other languages
English (en)
Inventor
秦睿
戴宇荣
王斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Tsinghua University
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Beijing Dajia Internet Information Technology Co Ltd filed Critical Tsinghua University
Priority to CN202310133257.3A priority Critical patent/CN116342385A/zh
Publication of CN116342385A publication Critical patent/CN116342385A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本公开关于一种文本图像超分辨率网络的训练方法、装置以及存储介质,属于图像技术领域。本公开通过基于第二文本图像和第三文本图像之间的像素损失值以及文本损失值,对文本图像超分辨率网络进行训练,由于像素损失值和文本损失值都表示第二文本图像与第三文本图像的差异程度,则像素损失函数和文本损失函数的收敛点能够相同,因此,对文本图像超分辨率网络进行训练的过程中,容易使得像素损失函数和文本损失函数同时收敛,使文本图像超分辨率网络完成训练,完成训练的文本图像超分辨率网络对文本图像进行超分辨率重构后,提高超分辨率重构后的文本图像的图像分辨率提高,从而能够提高超分辨率重构后的文本图像的显示效果。

Description

文本图像超分辨率网络的训练方法、装置以及存储介质
技术领域
本公开涉及图像技术领域,特别涉及一种文本图像超分辨率网络的训练方法、装置以及存储介质。
背景技术
对于一些图像分辨率低的文本图像,该文本图像的文本信息一般比较模糊,为了能够识别出该文本图像中模糊的文本信息,计算机设备通过文本图像超分辨率网络对该文本图像进行超分辨率重构,得到图像分辨率高于该文本图像的目标文本图像。
在相关技术中,计算机设备通过训练集中的文本图像,对文本图像超分辨率网络进行训练。在训练过程中,计算机设备还基于多个损失函数,对文本图像分辨率网络的训练进行监督。
但是,这多个损失函数中的部分损失函数依靠训练集中文本图像的标签收敛,而另一部分损失函数依靠训练集中文本图像的高图像分辨率文本图像收敛,因此,多个损失函数之间存在收敛点冲突的问题,使得在训练过程中多个损失函数不容易同时收敛,进而阻碍训练过程中文本图像超分辨率网络的迭代优化,导致通过该文本图像超分辨率网络超分辨率重构后的图像的显示效果较差。
发明内容
本公开提供一种文本图像超分辨率网络的训练方法、装置以及存储介质,以至少解决相关技术中文本图像超分辨率网络超分辨率重构后的图像的显示效果差的问题。本公开的技术方案如下:
根据本公开实施例的一方面,提供一种文本图像超分辨率网络的训练方法,包括:
获取第一文本图像和第二文本图像,所述第一文本图像和所述第二文本图像所描述的内容相同,所述第一文本图像的图像分辨率低于所述第二文本图像的图像分辨率;
将所述第一文本图像输入待训练的文本图像超分辨率网络,通过所述文本图像超分辨率网络对所述第一文本图像进行超分辨率重构,输出第三文本图像;
基于所述第二文本图像和所述第三文本图像,确定像素损失值以及文本损失值,所述像素损失值用于表示所述第二文本图像与所述第三文本图像在像素上的差异程度,所述文本损失值用于表示所述第二文本图像与所述第三文本图像在文本信息上的差异程度;
基于所述像素损失值以及所述文本损失值,对所述文本图像超分辨率网络进行训练,得到训练完成的文本图像超分辨率网络。
在一些实施例中,所述基于所述像素损失值以及所述文本损失值,对所述文本图像超分辨率网络进行训练包括:
对所述像素损失值以及所述文本损失值进行融合处理,得到目标损失值,所述目标损失值用于表示所述第二文本图像与所述第三文本图像之间的差异程度;
在所述目标损失值大于或等于损失阈值的情况下,对所述文本图像超分辨率网络的网络参数进行更新,对更新后的文本图像超分辨率网络进行下一次训练;
若所述目标损失值小于所述损失阈值,结束训练,其中,结束训练的更新后的文本图像超分辨率网络为所述训练完成的文本图像超分辨率网络。
在一些实施例中,所述文本损失值通过下述方式得到:
分别对所述第二文本图像以及所述第三文本图像进行多次带下采样的卷积操作,得到多个第一特征图以及多个第二特征图,所述多个第一特征图和所述多个第二特征图一一对应,对应的第一特征图和第二特征图的尺度相同,所述第一特征图用于表征下采样后的所述第二文本图像的图像信息,所述第二特征图用于表征下采样后的所述第三文本图像的图像信息;
基于所述多个第一特征图以及所述多个第二特征图,确定所述文本损失值,所述文本损失值用于表示所述第二文本图像以及所述第三文本图像的文本信息在多个尺度上的差异程度。
在一些实施例中,所述基于所述多个第一特征图以及所述多个第二特征图,确定所述文本损失值包括:
基于所述多个第一特征图以及所述多个第二特征图,确定多个单尺度文本损失值,所述单尺度文本损失值用于表示相同尺度的第一特征图以及第二特征图之间的差异程度;
对所述多个单尺度文本损失值进行融合处理,得到所述文本损失值。
在一些实施例中,所述像素损失值通过下述方式得到:
基于所述第二文本图像的像素值以及所述第三文本图像的像素值,确定像素均方差损失值,所述像素均方差损失值用于表示所述第二文本图像与所述第三文本图像在像素颜色上的差异程度;
基于所述第二文本图像以及第三文本图像,确定梯度轮廓损失值,所述梯度轮廓损失值用于表示所述第二文本图像与所述第三文本图像中文本信息边缘的像素梯度之间的差异程度;
对所述像素均方差损失值以及所述梯度轮廓损失值进行融合处理,得到所述像素损失值。
在一些实施例中,所述通过所述文本图像超分辨率网络对所述第一文本图像进行超分辨率重构,输出第三文本图像包括:
通过所述文本图像超分辨率网络,基于所述第一文本图像的第三特征图,对所述第一文本图像中的文本信息进行重构,得到文本特征图,所述第三特征图用于表示所述第一文本图像的特征,所述文本特征图用于表示重构后的文本信息的特征;
通过所述文本图像超分辨率网络,基于所述第三特征图以及所述文本特征图,输出所述第三文本图像。
在一些实施例中,所述通过所述文本图像超分辨率网络,基于所述第一文本图像的第三特征图,对所述第一文本图像中的文本信息进行重构,得到文本特征图包括:
通过所述文本图像超分辨率网络,基于所述第三特征图,对所述第一文本图像中像素点的列特征以及行特征进行多次迭代交叉提取,得到所述文本特征图。
在一些实施例中,所述通过所述文本图像超分辨率网络,基于所述第三特征图,对所述第一文本图像中像素点的列特征以及行特征进行多次迭代交叉提取包括:
在任一次迭代交叉提取的过程中,通过所述文本图像超分辨率网络,基于所述第一文本图像的第四特征图,对所述第一文本图像中像素点的第一像素特征进行提取,得到第五特征图,所述第四特征图为所述第三特征图或上一次迭代交叉提取过程中得到的中间特征图,所述第一像素特征为像素点的列特征或行特征;
通过所述文本图像超分辨率网络,基于所述第五特征图,对所述第一文本图像中像素点的第二像素特征进行提取,得到第六特征图,所述第二像素特征为像素点的列特征和行特征中除所述第一像素特征以外的特征;
通过所述文本图像超分辨率网络,对所述第六特征图与所述第四特征图进行融合处理,得到中间特征图。
在一些实施例中,所述第一像素特征为像素点的列特征,所述通过所述文本图像超分辨率网络,基于所述第一文本图像的第四特征图,对所述第一文本图像中像素点的第一像素特征进行提取包括:
通过所述文本图像超分辨率网络,将所述第四特征图中的各个特征点按列进行拆分,得到多列特征点;
通过所述文本图像超分辨率网络,分别对所述多列特征点进行自注意力计算,得到多个第一自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第一自注意力结果进行全连接处理。
在一些实施例中,所述第二像素特征为像素点的行特征,所述通过所述文本图像超分辨率网络,基于所述第五特征图,对所述第一文本图像中像素点的第二像素特征进行提取包括:
通过所述文本图像超分辨率网络,将所述第五特征图中的各个特征点按行进行拆分,得到多行特征点;
通过所述文本图像超分辨率网络,分别对所述多行特征点进行自注意力计算,得到多个第二自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第二自注意力结果进行全连接处理。
在一些实施例中,所述第一像素特征为像素点的行特征,所述通过所述文本图像超分辨率网络,基于所述第一文本图像的第四特征图,对所述第一文本图像中像素点的第一像素特征进行提取包括:
通过所述文本图像超分辨率网络,将所述第四特征图中的各个特征点按行进行拆分,得到多行特征点;
通过所述文本图像超分辨率网络,分别对所述多行特征点进行自注意力计算,得到多个第三自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第三自注意力结果进行全连接处理。
在一些实施例中,所述第二像素特征为像素点的列特征,所述通过所述文本图像超分辨率网络,基于所述第五特征图,对所述第一文本图像中像素点的第二像素特征进行提取包括:
通过所述文本图像超分辨率网络,将所述第五特征图中的各个特征点按列进行拆分,得到多列特征点;
通过所述文本图像超分辨率网络,分别对所述多列特征点进行自注意力计算,得到多个第四自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第四自注意力结果进行全连接处理。
在一些实施例中,所述通过所述文本图像超分辨率网络,基于所述第三特征图以及所述文本特征图,输出所述第三文本图像包括:
通过所述文本图像超分辨率网络,对所述第三特征图与所述文本特征图进行融合处理,得到第一目标特征图,所述第一目标特征图用于表示所述第三文本图像的特征;
通过所述文本图像超分辨率网络,对所述第一目标特征图进行上采样,得到第二目标特征图;
通过所述文本图像超分辨率网络,对所述第二目标特征图进行卷积计算,得到所述第三文本图像,输出第三文本图像。
在一些实施例中,所述通过所述文本图像超分辨率网络对所述第一文本图像进行超分辨率重构,输出第三文本图像之前,所述方法还包括:
通过所述文本图像超分辨率网络,将所述第一文本图像中的文本信息与所述第二文本图像中的文本信息进行对齐;
通过所述文本图像超分辨率网络,基于对齐后的所述第一文本图像,获取所述第一文本图像的第三特征图。
根据本公开实施例的另一方面,提供一种基于文本图像超分辨率网络的图像处理方法,所述文本图像超分辨率网络基于第二文本图像和第三文本图像之间的像素损失值和文本损失值训练得到,所述像素损失值用于表示所述第二文本图像与所述第三文本图像在像素上的差异程度,所述文本损失值用于表示所述第二文本图像与所述第三文本图像在文本信息上的差异程度,所述方法包括:
获取待处理的文本图像;
将所述文本图像输入所述文本图像超分辨率网络,通过所述文本图像超分辨网络对所述文本图像进行超分辨率重构,输出目标文本图像,所述目标文本图像的图像分辨率高于所述文本图像的图像分辨率,且所述目标文本图像和所述文本图像所描述的内容相同。
在一种可能的实现方式中,基于第二文本图像和第三文本图像之间的像素损失值和文本损失值训练得到文本图像超分辨率网络过程可参考上述一方面提供的文本图像超分辨率网络的训练方法。
根据本公开实施例的另一方面,提供一种文本图像超分辨率网络的训练装置,包括:
获取单元,被配置为执行获取第一文本图像和第二文本图像,所述第一文本图像和所述第二文本图像所描述的内容相同,所述第一文本图像的图像分辨率低于所述第二文本图像的图像分辨率;
重构单元,被配置为执行将所述第一文本图像输入待训练的文本图像超分辨率网络,通过所述文本图像超分辨率网络对所述第一文本图像进行超分辨率重构,输出第三文本图像;
确定单元,被配置为执行基于所述第二文本图像和所述第三文本图像,确定像素损失值以及文本损失值,所述像素损失值用于表示所述第二文本图像与所述第三文本图像在像素上的差异程度,所述文本损失值用于表示所述第二文本图像与所述第三文本图像在文本信息上的差异程度;
训练单元,被配置为执行基于所述像素损失值以及所述文本损失值,对所述文本图像超分辨率网络进行训练,得到训练完成的文本图像超分辨率网络。
在一些实施例中,所述训练单元被配置为执行:
对所述像素损失值以及所述文本损失值进行融合处理,得到目标损失值,所述目标损失值用于表示所述第二文本图像与所述第三文本图像之间的差异程度;
在所述目标损失值大于或等于损失阈值的情况下,对所述文本图像超分辨率网络的网络参数进行更新,对更新后的文本图像超分辨率网络进行下一次训练;
若所述目标损失值小于所述损失阈值,结束训练,其中,结束训练的更新后的文本图像超分辨率网络为所述训练完成的文本图像超分辨率网络。
在一些实施例中,所述确定单元包括:
多尺度卷积子单元,被配置为执行分别对所述第二文本图像以及所述第三文本图像进行多次带下采样的卷积操作,得到多个第一特征图以及多个第二特征图,所述多个第一特征图和所述多个第二特征图一一对应,对应的第一特征图和第二特征图的尺度相同,所述第一特征图用于表征下采样后的所述第二文本图像的图像信息,所述第二特征图用于表征下采样后的所述第三文本图像的图像信息;
第一确定子单元,被配置为执行基于所述多个第一特征图以及所述多个第二特征图,确定所述文本损失值,所述文本损失值用于表示所述第二文本图像以及所述第三文本图像的文本信息在多个尺度上的差异程度。
在一些实施例中,所述第一确定子单元被配置为执行:
基于所述多个第一特征图以及所述多个第二特征图,确定多个单尺度文本损失值,所述单尺度文本损失值用于表示相同尺度的第一特征图以及第二特征图之间的差异程度;
对所述多个单尺度文本损失值进行融合处理,得到所述文本损失值。
在一些实施例中,所述确定单元包括:
第二确定子单元,被配置为执行基于所述第二文本图像的像素值以及所述第三文本图像的像素值,确定像素均方差损失值,所述像素均方差损失值用于表示所述第二文本图像与所述第三文本图像在像素颜色上的差异程度;
第三确定子单元,被配置为执行基于所述第二文本图像以及第三文本图像,确定梯度轮廓损失值,所述梯度轮廓损失值用于表示所述第二文本图像与所述第三文本图像中文本信息边缘的像素梯度之间的差异程度;
融合子单元,被配置为执行对所述像素均方差损失值以及所述梯度轮廓损失值进行融合处理,得到所述像素损失值。
在一些实施例中,所述重构单元包括:
重构子单元,被配置为执行通过所述文本图像超分辨率网络,基于所述第一文本图像的第三特征图,对所述第一文本图像中的文本信息进行重构,得到文本特征图,所述第三特征图用于表示所述第一文本图像的特征,所述文本特征图用于表示重构后的文本信息的特征;
输出子单元,被配置为执行通过所述文本图像超分辨率网络,基于所述第三特征图以及所述文本特征图,输出所述第三文本图像。
在一些实施例中,所述重构子单元被配置为执行:
通过所述文本图像超分辨率网络,基于所述第三特征图,对所述第一文本图像中像素点的列特征以及行特征进行多次迭代交叉提取,得到所述文本特征图。
在一些实施例中,所述重构子单元包括:
第一提取子子单元,被配置为执行在任一次迭代交叉提取的过程中,通过所述文本图像超分辨率网络,基于所述第一文本图像的第四特征图,对所述第一文本图像中像素点的第一像素特征进行提取,得到第五特征图,所述第四特征图为所述第三特征图或上一次迭代交叉提取过程中得到的中间特征图,所述第一像素特征为像素点的列特征或行特征;
第二提取子子单元,被配置为执行通过所述文本图像超分辨率网络,基于所述第五特征图,对所述第一文本图像中像素点的第二像素特征进行提取,得到第六特征图,所述第二像素特征为像素点的列特征和行特征中除所述第一像素特征以外的特征;
融合子子单元,被配置为执行通过所述文本图像超分辨率网络,对所述第六特征图与所述第四特征图进行融合处理,得到中间特征图。
在一些实施例中,所述第一像素特征为像素点的列特征,所述第一提取子子单元被配置为执行:
通过所述文本图像超分辨率网络,将所述第四特征图中的各个特征点按列进行拆分,得到多列特征点;
通过所述文本图像超分辨率网络,分别对所述多列特征点进行自注意力计算,得到多个第一自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第一自注意力结果进行全连接处理。
在一些实施例中,所述第二像素特征为像素点的行特征,所述第二提取子子单元被配置为执行:
通过所述文本图像超分辨率网络,将所述第五特征图中的各个特征点按行进行拆分,得到多行特征点;
通过所述文本图像超分辨率网络,分别对所述多行特征点进行自注意力计算,得到多个第二自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第二自注意力结果进行全连接处理。
在一些实施例中,所述第一像素特征为像素点的行特征,所述第一提取子子单元被配置为执行:
通过所述文本图像超分辨率网络,将所述第四特征图中的各个特征点按行进行拆分,得到多行特征点;
通过所述文本图像超分辨率网络,分别对所述多行特征点进行自注意力计算,得到多个第三自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第三自注意力结果进行全连接处理。
在一些实施例中,所述第二像素特征为像素点的列特征,所述第二提取子子单元被配置为执行:
通过所述文本图像超分辨率网络,将所述第五特征图中的各个特征点按列进行拆分,得到多列特征点;
通过所述文本图像超分辨率网络,分别对所述多列特征点进行自注意力计算,得到多个第四自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第四自注意力结果进行全连接处理。
在一些实施例中,所述输出子单元被配置为执行:
通过所述文本图像超分辨率网络,对所述第三特征图与所述文本特征图进行融合处理,得到第一目标特征图,所述第一目标特征图用于表示所述第三文本图像的特征;
通过所述文本图像超分辨率网络,对所述第一目标特征图进行上采样,得到第二目标特征图;
通过所述文本图像超分辨率网络,对所述第二目标特征图进行卷积计算,得到所述第三文本图像,输出第三文本图像。
在一些实施例中,所述装置还包括:
对齐单元,被配置为执行通过所述文本图像超分辨率网络,将所述第一文本图像中的文本信息与所述第二文本图像中的文本信息进行对齐;
目标获取单元,被配置通过所述文本图像超分辨率网络,基于对齐后的所述第一文本图像,获取所述第一文本图像的第三特征图。
根据本公开实施例的另一方面,提供一种基于文本图像超分辨率网络的图像处理装置,所述文本图像超分辨率网络基于第二文本图像和第三文本图像之间的像素损失值和文本损失值训练得到,所述像素损失值用于表示所述第二文本图像与所述第三文本图像在像素上的差异程度,所述文本损失值用于表示所述第二文本图像与所述第三文本图像在文本信息上的差异程度,所述装置包括:
获取单元,被配置为执行获取待处理的文本图像;
处理单元,被配置为执行将所述文本图像输入所述文本图像超分辨率网络,通过所述文本图像超分辨网络对所述文本图像进行超分辨率重构,输出目标文本图像,所述目标文本图像的图像分辨率高于所述文本图像的图像分辨率。
根据本公开实施例的另一方面,提供一种计算机设备,包括:
一个或多个处理器;
用于存储所述一个或多个处理器可执行指令的一个或多个存储器;
其中,所述一个或多个处理器被配置为执行上述一方面的任一种可能实施方式中的文本图像超分辨率网络的训练方法,或上述基于文本图像超分辨率网络的图像处理方法。
根据本公开实施例的另一方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的至少一条指令由计算机设备的一个或多个处理器执行时,使得所述计算机设备能够执行上述一方面的任一种可能实施方式中的文本图像超分辨率网络的训练方法,或上述基于文本图像超分辨率网络的图像处理方法。
根据本公开实施例的另一方面,提供一种计算机程序产品,包括一条或多条指令,所述一条或多条指令可以由计算机设备的一个或多个处理器执行,使得所述计算机设备能够执行上述一方面的任一种可能实施方式中的文本图像超分辨率网络的训练方法,或上述基于文本图像超分辨率网络的图像处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过基于第二文本图像和第三文本图像之间的像素损失值以及文本损失值,对文本图像超分辨率网络进行训练,由于像素损失值和文本损失值都表示第二文本图像与第三文本图像的差异程度,则像素损失函数和文本损失函数的收敛点能够相同,因此,对文本图像超分辨率网络进行训练的过程中,容易使得像素损失函数和文本损失函数同时收敛,使得文本图像超分辨率网络完成训练,完成训练的文本图像超分辨率网络在对文本图像进行超分辨率重构后,提高超分辨率重构后的文本图像的图像分辨率提高,从而能够提高超分辨率重构后的文本图像的显示效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种文本图像超分辨率网络的训练方法的流程图;
图2是根据一示例性实施例示出的又一种文本图像超分辨率网络的训练方法的流程图;
图3是根据一示例性实施例示出的一种文本图像超分辨率网络的训练示意图;
图4是根据一示例性实施例示出的一种文本信息对齐的流程图;
图5是根据一示例性实施例提供的一种交叉特征提取模块的结构示意图;
图6是根据一示例性实施例示出的一种文本图像超分辨率网络的使用方法的流程图;
图7是根据一示例性实施例示出的一种文本图像超分辨率网络的训练装置的结构框图;
图8是根据一示例性实施例示出的一种基于文本图像超分辨率网络的图像处理装置的结构框图;
图9是根据一示例性实施例示出的一种计算机设备的结构框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在一些实施例中,A和/或B的含义包括:A和B,A,B这三种情况。
图像超分辨率是指从低图像分辨率的数字位图中恢复出更高图像分辨率的清晰位图的过程。自然场景的文字图像超图像分辨率是指针对“在自然场景中拍摄并且以文字为主要内容的”这一类特殊图像进行的超图像分辨率任务。为便于描述,将具有文本信息的图像称为文本图像,在一些实施例中,先训练文本图像超分辨率网络,使得训练后得到文本图像超分辨率网络能够学习到完成文本图像超图像分辨率的任务知识,以便后续通过文本图像超分辨率网络完成文本图像的超图像分辨率任务。
本公开提供一种文本图像超分辨率网络的训练方法,该方法由计算机设备来执行,其中,该计算机设备包括便携式计算机、台式计算机或服务器,若该服务器包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。可选地,该服务器是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。该服务器用于为训练文本图像超分辨率网络提供计算服务。
在一些实施例中,该计算机设备通过训练集对文本图像超分辨率网络进行训练,其中,该训练集为TextZoom(文本缩放)数据集或其他数据集的训练集。在一些实施例中,该训练集包括多个图像对,每个图像对包括图像分辨率不同的两个文本图像,且该两个文本图像所描述的内容相同,例如,采用不同拍摄设备对相同环境中的同一文本信息进行多次拍摄,得到不同分辨率的文本图像,或者,采用同一拍摄设备通过不同的拍摄参数,对相同环境中的同一文本信息进行多次拍摄,得到不同分辨率的文本图像。为了便于描述,将图像对中图像分辨率低的文本图像称为第一文本图像,将图像对中图像分辨率高的文本图像称为第二文本图像。
该计算机设备对文本图像超分辨率网络所进行的训练为迭代训练。在一些实施例中,该计算机设备基于训练集中的图像对,分批次的对文本图像超分辨率网络进行迭代训练。例如,该计算机设备将训练集中的图像对划分为多个图像组,每个图像组包括多个图像对,之后,计算机设备依次通过每个图像组分别对文本图像超分辨率网络进行一次训练,从而在计算机设备的算力资源不足的情况下,避免出现无法训练文本图像超分辨率网络的情况。
当然,在另外一些实施例中,在计算机设备的算力资源充足或者训练集中图像对的个数小于个数阈值时,计算机设备也能够基于训练集中所有的图像对,对文本图像超分辨率网络进行一次训练,之后,计算机设备再基于训练集中所有的图像对文本图像超分辨率网络进行下一次训练。其中,个数阈值可根据具体的实施场景进行设置,在此,本公开实施例对个数阈值不做限定。
每对文本图像超分辨率网络进行一次训练,该计算机设备对参与训练的各个图像对的处理过程类似,为了便于描述以一个图像对为例,对文本图像超分辨率网络的训练过程做如下介绍:
图1是根据一示例性实施例示出的一种文本图像超分辨率网络的训练方法的流程图,参见图1,该文本图像超分辨率网络的训练方法由计算机设备来执行,该方法包括如下步骤。
在步骤101中,计算机设备获取第一文本图像和第二文本图像,所述第一文本图像和所述第二文本图像所描述的内容相同,所述第一文本图像的图像分辨率低于所述第二文本图像的图像分辨率。
在步骤102中,计算机设备将所述第一文本图像输入待训练的文本图像超分辨率网络,通过所述文本图像超分辨率网络对所述第一文本图像进行超分辨率重构,输出第三文本图像。
在步骤103中,计算机设备基于所述第二文本图像和所述第三文本图像,确定像素损失值以及文本损失值,所述像素损失值用于表示所述第二文本图像与所述第三文本图像在像素上的差异程度,所述文本损失值用于表示所述第二文本图像与所述第三文本图像在文本信息上的差异程度。
在步骤104中,计算机设备基于所述像素损失值以及所述文本损失值,对所述文本图像超分辨率网络进行训练,得到训练完成的文本图像超分辨率网络。
本公开实施例提供的方法,通过基于第二文本图像和第三文本图像之间的像素损失值以及文本损失值,对文本图像超分辨率网络进行训练,由于像素损失值和文本损失值都表示第二文本图像与第三文本图像的差异程度,则像素损失函数和文本损失函数的收敛点能够相同,因此,对文本图像超分辨率网络进行训练的过程中,容易使得像素损失函数和文本损失函数同时收敛使得文本图像超分辨率网络完成训练,完成训练的文本图像超分辨率网络在对文本图像进行超分辨率重构后,提高超分辨率重构后的文本图像的图像分辨率提高,从而能够提高超分辨率重构后的文本图像的显示效果。
在一些实施例中,所述基于所述像素损失值以及所述文本损失值,对所述文本图像超分辨率网络进行训练包括:
对所述像素损失值以及所述文本损失值进行融合处理,得到目标损失值,所述目标损失值用于表示所述第二文本图像与所述第三文本图像之间的差异程度;
在所述目标损失值大于或等于损失阈值的情况下,对所述文本图像超分辨率网络的网络参数进行更新,对更新后的文本图像超分辨率网络进行下一次训练;
若所述目标损失值小于所述损失阈值,结束训练,其中,结束训练的更新后的文本图像超分辨率网络为所述训练完成的文本图像超分辨率网络。
在一些实施例中,所述文本损失值通过下述方式得到:
分别对所述第二文本图像以及所述第三文本图像进行多次带下采样的卷积操作,得到多个第一特征图以及多个第二特征图,所述多个第一特征图和所述多个第二特征图一一对应,对应的第一特征图和第二特征图的尺度相同,所述第一特征图用于表征下采样后的所述第二文本图像的图像信息,所述第二特征图用于表征下采样后的所述第三文本图像的图像信息;
基于所述多个第一特征图以及所述多个第二特征图,确定所述文本损失值,所述文本损失值用于表示所述第二文本图像以及所述第三文本图像的文本信息在多个尺度上的差异程度。
在一些实施例中,所述基于所述多个第一特征图以及所述多个第二特征图,确定所述文本损失值包括:
基于所述多个第一特征图以及所述多个第二特征图,确定多个单尺度文本损失值,所述单尺度文本损失值用于表示相同尺度的第一特征图以及第二特征图之间的差异程度;
对所述多个单尺度文本损失值进行融合处理,得到所述文本损失值。
在一些实施例中,所述像素损失值通过下述方式得到:
基于所述第二文本图像的像素值以及所述第三文本图像的像素值,确定像素均方差损失值,所述像素均方差损失值用于表示所述第二文本图像与所述第三文本图像在像素颜色上的差异程度;
基于所述第二文本图像以及第三文本图像,确定梯度轮廓损失值,所述梯度轮廓损失值用于表示所述第二文本图像与所述第三文本图像中文本信息边缘的像素梯度之间的差异程度;
对所述像素均方差损失值以及所述梯度轮廓损失值进行融合处理,得到所述像素损失值。
在一些实施例中,所述通过所述文本图像超分辨率网络对所述第一文本图像进行超分辨率重构,输出第三文本图像包括:
通过所述文本图像超分辨率网络,基于所述第一文本图像的第三特征图,对所述第一文本图像中的文本信息进行重构,得到文本特征图,所述第三特征图用于表示所述第一文本图像的特征,所述文本特征图用于表示重构后的文本信息的特征;
通过所述文本图像超分辨率网络,基于所述第三特征图以及所述文本特征图,输出所述第三文本图像。
在一些实施例中,所述通过所述文本图像超分辨率网络,基于所述第一文本图像的第三特征图,对所述第一文本图像中的文本信息进行重构,得到文本特征图包括:
通过所述文本图像超分辨率网络,基于所述第三特征图,对所述第一文本图像中像素点的列特征以及行特征进行多次迭代交叉提取,得到所述文本特征图。
在一些实施例中,所述通过所述文本图像超分辨率网络,基于所述第三特征图,对所述第一文本图像中像素点的列特征以及行特征进行多次迭代交叉提取包括:
在任一次迭代交叉提取的过程中,通过所述文本图像超分辨率网络,基于所述第一文本图像的第四特征图,对所述第一文本图像中像素点的第一像素特征进行提取,得到第五特征图,所述第四特征图为所述第三特征图或上一次迭代交叉提取过程中得到的中间特征图,所述第一像素特征为像素点的列特征或行特征;
通过所述文本图像超分辨率网络,基于所述第五特征图,对所述第一文本图像中像素点的第二像素特征进行提取,得到第六特征图,所述第二像素特征为像素点的列特征和行特征中除所述第一像素特征以外的特征;
通过所述文本图像超分辨率网络,对所述第六特征图与所述第四特征图进行融合处理,得到中间特征图。
在一些实施例中,所述第一像素特征为像素点的列特征,所述通过所述文本图像超分辨率网络,基于所述第一文本图像的第四特征图,对所述第一文本图像中像素点的第一像素特征进行提取包括:
通过所述文本图像超分辨率网络,将所述第四特征图中的各个特征点按列进行拆分,得到多列特征点;
通过所述文本图像超分辨率网络,分别对所述多列特征点进行自注意力计算,得到多个第一自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第一自注意力结果进行全连接处理。
在一些实施例中,所述第二像素特征为像素点的行特征,所述通过所述文本图像超分辨率网络,基于所述第五特征图,对所述第一文本图像中像素点的第二像素特征进行提取包括:
通过所述文本图像超分辨率网络,将所述第五特征图中的各个特征点按行进行拆分,得到多行特征点;
通过所述文本图像超分辨率网络,分别对所述多行特征点进行自注意力计算,得到多个第二自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第二自注意力结果进行全连接处理。
在一些实施例中,所述第一像素特征为像素点的行特征,所述通过所述文本图像超分辨率网络,基于所述第一文本图像的第四特征图,对所述第一文本图像中像素点的第一像素特征进行提取包括:
通过所述文本图像超分辨率网络,将所述第四特征图中的各个特征点按行进行拆分,得到多行特征点;
通过所述文本图像超分辨率网络,分别对所述多行特征点进行自注意力计算,得到多个第三自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第三自注意力结果进行全连接处理。
在一些实施例中,所述第二像素特征为像素点的列特征,所述通过所述文本图像超分辨率网络,基于所述第五特征图,对所述第一文本图像中像素点的第二像素特征进行提取包括:
通过所述文本图像超分辨率网络,将所述第五特征图中的各个特征点按列进行拆分,得到多列特征点;
通过所述文本图像超分辨率网络,分别对所述多列特征点进行自注意力计算,得到多个第四自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第四自注意力结果进行全连接处理。
在一些实施例中,所述通过所述文本图像超分辨率网络,基于所述第三特征图以及所述文本特征图,输出所述第三文本图像包括:
通过所述文本图像超分辨率网络,对所述第三特征图与所述文本特征图进行融合处理,得到第一目标特征图,所述第一目标特征图用于表示所述第三文本图像的特征;
通过所述文本图像超分辨率网络,对所述第一目标特征图进行上采样,得到第二目标特征图;
通过所述文本图像超分辨率网络,对所述第二目标特征图进行卷积计算,得到所述第三文本图像,输出第三文本图像。
在一些实施例中,所述通过所述文本图像超分辨率网络对所述第一文本图像进行超分辨率重构,输出第三文本图像之前,所述方法还包括:
通过所述文本图像超分辨率网络,将所述第一文本图像中的文本信息与所述第二文本图像中的文本信息进行对齐;
通过所述文本图像超分辨率网络,基于对齐后的所述第一文本图像,获取所述第一文本图像的第三特征图。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
下面结合图2所示的方法实施例,对本公开提供的文本图像超分辨率网络的训练方法的实施细节做如下介绍:
图2是根据一示例性实施例示出的又一种文本图像超分辨率网络的训练方法的流程图,参见图2,该文本图像超分辨率网络的训练方法由计算机设备来执行,该方法包括如下步骤。
在步骤201中,计算机设备获取第一文本图像和第二文本图像,该第一文本图像和该第二文本图像所描述的内容相同,该第一文本图像的图像分辨率低于该第二文本图像的图像分辨率。
其中,该第一文本图像和该第二文本图像属于训练集中的任一图像对。
例如,该计算机设备从该训练集中获取多个图像对,每个图像对包括第一文本图像和第二文本图像,之后,计算机设备基于该多个图像对,对文本图像超分辨率网络进行任一次训练,在该任一次训练的过程中,该计算机设备针对获取的每个图像对均执行步骤201之后的各个步骤。
在一些实施例中,在同一张文本图像中,相邻字符通常具有颜色、纹理等一致性,然而字符前景与背景具有较大的反差。为了向文本图像超分辨率网络引入前背景的语义信息,该计算机设备基于该第一文本图像,生成该第一文本图像的二值遮罩,其中,在二值遮罩中,以像素灰度均值为界,分别用1和0表示灰度大和小的两类像素,以更好的突出第一文本图像中文本信息内各个字符的形状和轮廓。之后,该计算机设备将该第一文本图像与二值遮罩进行叠加,得到处理后的第一文本图像,对处理后的第一文本图像执行下述步骤202。
在另一些实施例中,在获取到第一文本图像之后,该计算机设备也可能不生成该二值遮罩,也不将该第一文本图像与二值遮罩进行叠加,而是对获取到的第一文本图像执行下述步骤202。
在步骤202中,计算机设备将该第一文本图像输入待训练的文本图像超分辨率网络,通过该文本图像超分辨率网络对该第一文本图像进行超分辨率重构,输出第三文本图像。
其中,该文本图像超分辨率网络为机器学习网络,例如神经网络模型。在一些实施例中,该文本图像超分辨率网络包括多个模块,多个模块分别用于执行超分辨率重构过程中的不同计算任务,例如图3根据一示例性实施例示出的一种文本图像超分辨率网络的训练示意图,如图3所示,该文本图像超分辨率网络包括自适应对齐模块、第一卷积模块、多个交叉特征提取模块、融合模块、像素重组模块以及第二卷积模块,这多个模块通过级联组成该文本图像超分辨率网络。后续再结合具体的步骤,对这多个模块进行介绍,在此不做过多介绍。
对该第一文本图像进行超分辨率重构是指从第一文本图像中恢复出图像分辨率高于第一文本图像且和第一文本图像具有相同文本信息的文本图像,该第二文本图像为期望的该第一文本图像超分辨重构后的文本图像,第三文本图像为对该第一文本图像进行超分辨率重构所得到的文本图像。可以理解的是,第三文本图像的图像分辨率高于第一文本图像的图像分辨率,第三文本图像和第一文本图像具有相同的文本信息。
该计算机设备将该第一文本图像的图像数据输入该文本图像超分辨率网络,由该文本图像超分辨率网络基于该图像数据,对该第一文本图像进行超分辨率重构。其中,该图像数据为文本图像超分辨率网络能够识别的第一文本图像的表达形式,该图像数据为输入的第一文本图像。该图像数据包括该第一文本图像中各个像素点的像素值,每个像素点有多个像素值,多个像素值分别与第一文本图像的多个通道一一对应。例如,若该第一文本图像为叠加有二值遮罩的文本图像,则该第一文本图像对应4个通道分别为R(Red、红)、G(Green,绿)、B(Blue,蓝)以及红二值遮罩等通道,相应地,每个像素点具有4个通道上的像素值。
在一些实施例中,在将第一文本图像输入该文本图像超分辨率网络之后,计算机设备通过文本图像超分辨率网络,先提取输入的第一文本图像的特征,再基于提取出的特征,对该第一文本图像进行超分辨率重构,例如下述步骤21-23所示的过程实现。
在步骤21中,计算机设备通过文本图像超分辨率网络,获取该第一文本图像的第三特征图。
其中,该第三特征图用于表示该第一文本图像的特征。在一些实施例中,该第三特征图有多层,多层第三特征图分别与该第一文本图像的多个通道一一对应,每层第三特征图用于表示该第一文本图像在对应通道上的特征。其中,每层第三特征图包括多行多列的特征点,每个特征点用于表示该第一文本图像中的像素点在对应通道上的特征。
在一些实施例中,考虑到第一文本图像和第二文本图像中文本信息的位置可能不同,计算机设备先对齐这两个文本图像中的文本信息,再基于对齐后的第一文本图像,获取该第三特征图。例如下述步骤211-212所示的过程。
在步骤211中,该计算机设备通过该文本图像超分辨率网络,将该第一文本图像中的文本信息与该第二文本图像中的文本信息进行对齐。
其中,对齐后的第一文本图像中的文本信息与第二文本图像中的文本信息的位置相同。
例如,该计算机设备通过该文本图像超分辨率网络,基于输入的第一文本图像,对该第一文本图像中多个采样控制点在第二文本图像中对应的位置进行预测,得到多个目标位置,基于多个目标位置,对第一文本图像进行形变差值,以将多个采样控制点调整至第一文本信息中对应的目标位置,使得第一文本图像中的文本信息和第二文本图像中的文本信息对齐,该多个采样控制点为第一文本图像中均匀采样出的多个点,例如,在第一文本图像中距离上下边缘目标距离的行方向各均匀采样10点,得到的20个点也即是采样控制点,或者,在第一文本图像中距离左右边缘目标距离的行方向各均匀采样10点,得到的20个点也即是采样控制点,当然也可以采样20以上或以下的点,在此,本公开对采样控制点的位置以及个数不做限定。这种方式能够降低第一文本图像与第二文本图像之间因拍摄和数据裁剪过程而可能出现的位置和形状偏差,使得后续基于对齐后的第一文本图像所得到的第三文本图像能够与第二文本图像更加相似,从而降低了第三文本图像与第二文本图像之间的差异,加快了用于训练该文本图像超分辨率网络的损失函数的收敛速度,从而能够提高文本图像超分辨网络的训练速度。
在一些实施例中,计算机设备通过该文本图像超分辨率网络中的自适应对齐模块,来实现本步骤211。其中,该自适应对齐模块为训练完成的能够对齐不同文本图像的文本信息的网络。例如,自适应对齐模块为卷积层和全连接层的深度神经网络。
下面结合图4根据一示例性实施例示出的一种文本信息对齐的流程图,对自适应对齐模块的工作原理做如下介绍:
图4所示自适应对齐模块包括定位子网络和网格生成器,计算机设备将该第一文本图像输入该自适应对齐模块中的定位子网络,通过定位子网络对该第一文本图像中多个采样控制点进行采样,得到多个源位置,每个源位置为一个采用控制点在第一文本图像中的位置;基于第一文本图像以及多个源位置,对多个采样控制点在第二文本图像中对应的位置进行预测,得到多个目标位置,基于多个目标位置、多个源位置以及薄板样条插值算法,生成调整策略,该调整策略用于指示通过薄板样条插值算法调整第一文本图像中各个像素点的位置的调整方式,使得每个采样控制点由对应源位置调整至对应的目标位置。之后,该定位子网络向网格生成器输入调整策略,计算机设备通过网格生成器,基于调整策略,对第一文本图像中目标位置处的像素点的位置进行调整,输出调整后的第一文本图像,从而通过对第一文本图像的图像内容的自适应形变,使得第一文本图像的文本信息和第二文本图像的文本信息对齐。
在步骤212中,计算机设备通过该文本图像超分辨率网络,基于对齐后的第一文本图像,获取第一文本图像的第三特征图。
在一些实施例中,该计算机设备通过文本图像超分辨率网络,对对齐后的第一文本图像进行卷积计算,得到该第三特征图。其中,对该第一文本图像进行的卷积计算为9*9的卷积计算或者其他尺度的卷积计算,其中,该卷积计算的尺度可根据具体实施场景进行设置,在此,本公开实施例对该卷积计算的尺度不做限定。
以图3所示的文本图像超分辨网络为例,计算机设备通过自适应对齐模块,向第一卷积模块输入对齐后的第一文本图像,通过第一卷积模块对对齐后的第一文本图像进行卷积计算,得到第三特征图。
在另一些实施例中,文本图像超分辨率网络不对第一文本图像中的文本信息进行对齐,而是对未对齐的第一文本图像进行卷积计算。此时该文本图像超分辨率网络不包括自适应对齐模块,包括第一卷积模块。其中,该第一卷积模块为一个卷积网络。
对于上述步骤211-212所示的过程,通过文本图像超分辨率网络,先将第一文本图像中的文本信息与第二文本图像中的文本信息进行对齐,在基于对齐后的第一文本图像,获取第一文本图像的第三特征图,使得第三特征图所表示的文本信息的形状更加接近期望的第二文本图像中的文本信息的形状,以便之后文本图像超分辨率网络基于第三特征图所重构出的文本图像中的文本信息的形状能够接近期望的第二文本图像中的文本信息的形状,降低文本图像超分辨率网络重构出的文本图像与第二文本图像之间的差异,以减少文本图像超分辨率网络的训练次数,提高了文本图像超分辨率网络的训练效率。
在获取到该第三特征图之后,该计算机设备通过文本图像超分辨率网络,基于该第三特征图,对该第一文本图像进行超分辨率重构。例如下述步骤22-23。
在步骤22中,计算机设备通过文本图像超分辨率网络,基于该第一文本图像的第三特征图,对该第一文本图像中的文本信息进行重构,得到文本特征图,该文本特征图用于表示重构后的该文本信息的特征。
其中,该文本特征图为重构后的文本信息的语义信息的表达,该语义信息包括重构后的该文本信息的颜色、形状、轮廓以及纹理等。该文本特征图有多层,多层文本特征图与该第一文本图像的多个通道一一对应,每层文本特征图用于表示重构后的文本信息在对应通道上的特征。
在一些实施例中,计算机设备通过该文本图像超分辨率网络,对该第一文本图像中像素点的列特征以及行特征进行多次迭代交叉提取,得到该文本特征图。其中,像素点的列特征为该像素点在该第一文本图像的列方向上的特征,像素点的行特征为该像素点在该第一文本图像的行方向上的特征。
由于像素点的列特征和行特征分别为像素点在该第一文本图像的列方向上和行方向上的特征,通过对该第一文本图像中像素点的列特征以及行特征进行多次迭代交叉提取,使得像素点的列特征和行特征能够充分融合,进而提取出的文本特征图能够精确的表达出文本信息的语义信息。
由于该多次迭代交叉提取过程中的每次迭代交叉提取过程类似,为了便于描述,结合下述步骤221-223所示的过程,对该多次迭代交叉提取过程中,任一次迭代交叉提取的过程做如下介绍:
在步骤221中,在任一次迭代交叉提取的过程中,计算机设备通过该文本图像超分辨率网络,基于该第一文本图像的第四特征图,对该第一文本图像中像素点的第一像素特征进行提取,得到第五特征图,该第四特征图为该第三特征图或上一次迭代交叉提取过程中得到的中间特征图,该第一像素特征为像素点的列特征或行特征。
其中,该第五特征图用于表示在至少一次迭代交叉提取过程中提取的第一像素特征,该至少一次迭代交叉提取过程包括该任一次迭代交叉提取过程以及该任一次迭代交叉提取过程之前的迭代交叉提取过程。在一些实施例中,该第五特征图有多层,多层第五特征图分别与该第一文本图像的多个通道一一对应,每层第五特征图用于表示在该至少一次迭代交叉提取过程中提取的像素点在对应通道上的第一像素特征。其中,每层第五特征图包括多行多列的特征点,每层第六特征图中的特征点与第一文本图像中的像素点一一对应。
若该任一迭代交叉提取的过程为该多次迭代交叉提取过程中的第一次迭代交叉提取过程,该第四特征图为该第三特征图。若该任一迭代交叉提取的过程不是该第一次迭代交叉提取过程,则该第四特征图为上一次迭代交叉提取过程中得到的中间特征图。其中,该中间特征图在下述步骤223中介绍,在此不再介绍。
在一些实施例中,该计算机设备通过该文本图像超分辨率网络,对该第四特征图进行卷积计算,得到卷积后的第四特征图,以扩大该第四特征图中单个特征的感受野。之后,该计算机设备通过该文本图像超分辨率网络,基于卷积后的第四特征图,对该第一文本图像中像素点的第一像素特征进行提取。
以第一像素特征为像素点的列特征为例,计算机设备通过该文本图像超分辨率网络中的某个交叉特征提取模块,来完成该任一次迭代交叉提取的过程,通过该交叉特征提取模块中的列向变压器,对该第四特征图进行卷积计算以及对该第一文本图像中像素点的列特征进行提取。
参见图5,图5是根据一示例性实施例提供的一种交叉特征提取模块的结构示意图或图3所示的交叉特征提取模块,如图3和图5所示,交叉特征提取模块包括第一卷积子模块、列向变压器、行向变压器以及加法器。以4层的第四特征图为例,计算机设备向第一卷积子模块输入第四特征图,通过第一卷子模块,对输入的第四特征图进行3*3的卷积计算,得到卷积后的第四特征图,向列向变压器输入卷积后的第四特征图。计算机设备通过列向变压器,基于卷积后的第四特征图,对该第一文本图像中像素点的列特征进行提取。其中,此处是以对输入的第四特征图进行3*3的卷积计算为例进行说明的,在不同的应用场景中,也可能对第四特征特图进行其他尺度的卷积计算,在此,本公开实施例对该卷积计算的尺度不做限定。
当然,不通过交叉特征提取模块,对该第四特征图进行卷积计算,而是基于未经过卷积的第四特征图,对该第一文本图像中像素点的列特征进行提取,此时该交叉特征提取模块不包括卷积子模块。其中,该第一卷积子模块为一个卷积网络。
对于未经过卷积的第四特征图或者卷积后的第四特征图中的任一个第四特征图,下面对该计算机设备通过该文本图像超分辨率网络,基于该第四特征图,对该第一文本图像中像素点的列特征进行提取的过程,做如下介绍:
在一些实施例中,在第一像素特征为像素点的列特征的情况下,计算机设备通过该文本图像超分辨率网络,将该第四特征图中的各个特征点按列进行拆分,得到多列特征点,其中,每列特征点有多层,每列特征点中的多层特征点与第一文本图像的多个通道一一对应。之后,计算机设备通过该文本图像超分辨率网络,分别对该多列特征点进行自注意力计算,得到多个第一自注意力结果,多个第一注意力结果与多列特征点一一对应,从而实现在列方向上为该第一文本特征图中各个通道上的特征点分配权重。然后,计算机设备通过该文本图像超分辨率网络,对该多个第一自注意力结果进行全连接处理,得到该第五特征图。
其中,该计算机设备能够通过该文本图像超分辨率网络中的列向变压器,来实现该过程。以上述图5中所示的列向变压器为例,该列向变压器包括变形子模块,自注意力计算子模块以及全连接子模块,其中,该自注意力计算子模块为一个自注意力网络,该全连接子模块为一个全连接网络。该计算机设备将4层的第四特征图输入列向变压器中的变形子模块,计算机设备通过该变形子模块,对每层第四特征图中的各个特征点按列进行拆分,得到4列特征点,每列特征点中处于同一层的4特征点对应与4个通道对应,从而每列特征点中处于同一层的4个特征点对应该第一文本图像中的同一个像素点。计算机设备通过该变形子模块,向自注意力计算子模块输入这4列特征点,计算机设备通过自注意力计算子模块,依次对这4列特征点进行自注意力计算,得到4个第一自注意力结果。之后,计算机设备通过自注意力计算子模块,将这4个第一自注意力结果输入全连接子模块,通过全连接子模块,对这4个第一自注意力结果进行全连接处理,输出第五特征图。
在第一像素特征为像素点的列特征的情况下,通过文本图像超分辨率网络,对第四特征图中的多列特征点进行自注意力计算,以建立第一文本图像的各列像素点之间的依赖关系,得到每个第一自注意力结果用于指示第一文本图像中一列像素点之间的依赖关系,进而通过对多个第一自注意力结果进行全连接处理,能够提取出每个像素点的列特征。
在另一些实施例中,在第一像素特征为像素点的行特征的情况下,计算机设备通过该文本图像超分辨率网络,将该第四特征图中的各个特征点按行进行拆分,得到多行特征点,其中,每行特征点有多层,每行特征点中的多层特征点与第一文本图像的多个通道一一对应。之后,计算机设备通过该文本图像超分辨率网络,分别对该多行特征点进行自注意力计算,得到多个第三自注意力结果,多个第三注意力结果与多行特征点一一对应,从而实现在行方向上为该第一文本特征图中各个通道上的特征点分配权重。然后,计算机设备通过该文本图像超分辨率网络,对该多个第三自注意力结果进行全连接处理,得到该第五特征图。该过程与在第一像素特征为像素点的行特征的情况下,获取第五特征图的过程同理,在此不再赘述。
在步骤222中,计算机设备通过该文本图像超分辨率网络,基于该第五特征图,对该第一文本图像中像素点的第二像素特征进行提取,得到第六特征图,所述第二像素特征为像素点的列特征和行特征中除所述第一像素特征以外的特征。
其中,在第一像素特征为像素点的列特征的情况下,第二像素特征为像素点的行特征,在第一像素特征为像素点的行特征的情况下,第二像素特征为像素点的列特征。该第六特征图用于表示在该至少一次迭代交叉提取过程中提取的第二像素特征。该第六特征图有多层,多层第六特征图分别与该第一文本图像的多个通道一一对应,每层第六特征图用于表示在该至少一次迭代交叉提取过程中提取的像素点在对应图像通道上的第二像素特征。其中,每层第六特征图包括多行多列的特征点,每层第六特征图中的特征点与第一文本图像中的像素点一一对应。
在一些实施例中,在第二像素特征为像素点的行特征的情况下,计算机设备通过文本图像超分辨率网络,将第五特征图中的各个特征点按行进行拆分,得到多行特征点,其中,每行特征点有多层,每行特征点中的多层特征点与第一文本图像的多个通道一一对应。之后,计算机设备通过该文本图像超分辨率网络,分别对该多行特征点进行自注意力计算,得到多个第二自注意力结果,多个第二注意力结果与多行特征点一一对应,从而实现在行方向上为该第一文本特征图中各个通道上的特征点分配权重。然后,计算机设备通过该文本图像超分辨率网络,对该多个第二自注意力结果进行全连接处理,得到该第六特征图。
其中,该计算机设备能够通过该文本图像超分辨率网络中的行向变压器,来实现过程。以上述图5中所示的行向变压器为例,该行向变压器包括变形子模块,自注意力计算子模块以及全连接子模块,其中,该自注意力计算子模块为一个自注意力网络,该全连接子模块为一个全连接网络。以4层的第五特征图为例,该计算机设备向行变压器中的变形子模块输入4层的第五特征图,计算机设备通过该变形子模块,对输入的每层第五特征图中的各个特征点按行进行拆分,得到4行特征点。计算机设备通过该变形子模块,向自注意力计算子模块输入这4行特征点,计算机设备通过自注意力计算子模块,依次对这4行特征点进行自注意力计算,得到4个第二自注意力结果。之后,计算机设备通过自注意力计算子模块,将这4个第二自注意力结果输入全连接子模块,通过全连接子模块,对这4个第二自注意力结果进行全连接处理,输出第六特征图。
在第二像素特征为像素点的行特征的情况下,通过文本图像超分辨率网络,对第五特征图中的多行特征点进行自注意力计算,以建立第一文本图像的各行像素点之间的依赖关系,得到每个第二自注意力结果用于指示第一文本图像中一行像素点之间的依赖关系,进而通过对多个第二自注意力结果进行全连接处理,能够提取出每个像素点的行特征。
在另一些实施例中,在第二像素特征为像素点的列特征的情况下,计算机设备通过文本图像超分辨率网络,将第五特征图中的各个特征点按列进行拆分,得到多列特征点,其中,每列特征点有多层,每列特征点中的多层特征点与第一文本图像的多个通道一一对应。之后,计算机设备通过该文本图像超分辨率网络,分别对该多列特征点进行自注意力计算,得到多个第四自注意力结果,多个第四注意力结果与多列特征点一一对应,从而实现在列方向上为该第一文本特征图中各个通道上的特征点分配权重。然后,计算机设备通过该文本图像超分辨率网络,对该多个第四自注意力结果进行全连接处理,得到该第六特征图。该过程与在第二像素特征为像素点的列特征的情况下,获取第六特征图的过程同理,在此不再赘述。
需要说明的是,本公开是以4层的特征图(如第四特征图和第五特征图)为例进行说明,再另一些实施例中,本公开所涉及的特征图的层数可能低于4层也可能高于4层,在此,本公开对所涉及的特征图的层数不做限定。
在一种可能的实现方式中,对任一种多个自注意力结果进行全连接处理可以由该文本图像超分辨率网络中的全连接层来实现,根据全连接层对应权值,对该多个自注意力结果进行加权处理。
在步骤223中,计算机设备通过该文本图像超分辨率网络,对该第六特征图与该第四特征图进行融合处理,得到中间特征图。
其中,该中间特征图为该任一次迭代交叉提取过程中得到的特征图,该第六特征图用于表示在该至少一次迭代交叉提取过程中提取的第一文本图像中文本信息的交叉特征。该中间特征图有多层,多层中间特征图分别与该第一文本图像的多个通道一一对应,每层中间特征图包括多行多列的特征点,每层第中间特征图中的特征点与第一文本图像中的像素点一一对应。
在一些实施例中,计算机设备通过该文本图像超分辨率网络,对该第六特征图与该第四特征图进行求和,得到中间特征图。示例性地,该第四特征图与该第六特征图中特征点的排布相同,该计算机设备通过该文本图像超分辨率网络,对该第四特征图以及该第六特征图中相同位置的特征点进行求和,得到该中间特征图。
仍以图5中的交叉特征提取模块为例,该计算机设备通过该交叉特征提取模块中的第一卷积子模块,向加法器输入卷积后的第四特征图,之后,通过行向变压器向加法器输入第六特征图,通过加法器,对第六特征图以及第四特征图进行求和,得到中间特征图。
若该任一次迭代交叉提取过程为该多次迭代交叉提取过程中的最后一次迭代交叉提取过程,则该任一次迭代交叉提取过程得到中间特征图为文本特征图,若该任一次迭代交叉提取过程不是该最后一次迭代交叉提取过程,该计算机设备以该任一次迭代交叉提取过程得到中间特征图为第四特征图,进行下一次迭代交叉提取过程,直至得到文本特征图。
在一些实施例中,该多次迭代交叉提取过程由文本图像超分辨网络中的多个交叉特征提取模块来完成。仍以图3所示的文本图像超分辨网络为例,计算机设备通过第一卷积模块,向多个交叉特征提取模块中的第一个交叉特征提取模块输入该第三特征图,该计算机设备通过该第一个交叉特征提取模块,基于该第三特征图,对该第一文本图像中像素点的列特征以及行特征进行第一次迭代交叉提取,得到一个中间特征图,向第二个交叉特征提取模块输入该中间特征图。计算机设备通过第二个交叉特征提取模块,对该第一文本图像中像素点的列特征以及行特征进行第二次迭代交叉提取,得到新的中间特征图,向第二个交叉特征提取模块输入新的中间特征图,依此类推,直至最后一个交叉特征提取模块输出中间特征图,将输出的中间特征图作为文本特征图。
在另一些实施例中,该文本图像超分辨率网络中的交叉特征提取模块,还能够替换成过密集变压器模块,通过密集变压器模块,基于该第三特征图,对该第一文本图像中的各个像素点的特征进行多次迭代提取,得到文本特征图。在每次迭代提取时,对待处理的特征图(如第三特征图或上一次迭代提取得到的特征图)进行多个方向上的特征提取。
另外,由于密集变压器模块是对待处理的特征图进行多个方向上的特征提取,使得该密集变压器模块的计算复杂度为o((HW)2),其中,H、W分别文本图像的通高度以及宽度。而交叉特征提取模块对第四特征图进行列方向和行方向这两个方向的特征提取,交叉特征提取模块的计算复杂度为O(H2+W2),从而交叉特征提取模块的复杂度低于密集变压器模块的复杂度,在文本图像超分辨率网络包括交叉特征提取模块的情况下,在训练文本图像超分辨网络的过程中,能够降低计算机设备的计算资源的消耗。且考虑到文本图像中文本信息的分布通常能够转换为水平或竖直的线性排列,因此,通过交叉特征提取模块,保留在水平和竖直方向上的注意力计算(即稀疏注意力策略),能够很大程度地保留交叉特征提取模块对文本信息先验的感知能力,从而使得交叉特征提取模块能够精确地重构出第一文本图像中的文本信息。
在另一些实施例中,该文本图像超分辨率网络中的交叉特征提取模块,还能够替换成其他计算复杂度更低的序列建模模型,以进一步压缩文本图像超分辨网络的复杂度。其中,其他计算复杂度更低的序列建模模型例如RNN(Recurrent Neural Network,递归神经网络),在此,本公开实施例对其他计算复杂度更低的序列建模模型不做限定。
对于上述步骤221-223所示的过程,在每次交叉提取过程中,通过文本图像超分辨率网络,先提取出第一文本图像的第一像素点特征,再对提取出的第一像素点特征进行第二像素特征的提取,然后,再将提取到的第二像素特征与上一次交叉提取过程所提取到的特征进行融合,使得第一文本图像在每次交叉提取过程中的特征能够充分融合,进而通过多次交叉提取过程,能够实现对第一文本图像的文本特征的深度提取,从而使得最终提取出的文本特征能够充分体现第一文本图像中文本信息的语义信息。
在步骤23中,该计算机设备通过该文本图像超分辨率网络,基于该第三特征图以及该文本特征图,输出该第三文本图像。
在一些实施例中,计算机设备通过文本图像超分辨率网络,对该第三特征图与该文本特征图进行融合处理,得到第一目标特征图,之后,计算机设备通过该文本图像超分辨率网络,对该第一目标特征图进行上采样,得到第二目标特征图。然后,计算机设备通过该文本图像超分辨率网络,对该第二目标特征图进行卷积计算,得到该第三文本图像,输出第三文本图像。
其中,该第一目标特征图用于表示该第三文本图像的特征,该第一目标特征图有多层,多层目标特征图与第三文本图像的多个通道一一对应,每层目标特征图用于表示第三文本图像在对应通道上的特征。
对该第三特征图与该文本特征图进行融合处理可以通过对该第三特征图与该文本特征图进行求和来实现,例如,该第三特征图与该文本特征图中特征点的排布相同,该计算机设备通过该文本图像超分辨率网络,对该第三特征图以及该文本特征图中相同位置的特征点进行求和,得到该第一目标特征图,使得该第一目标特征图所指示的文本图像的图像分辨率与第一文本图像的图像分辨率相同,之后,通过该第一目标特征图进行上采样,以增加第一目标特征图所指示的文本图像的图像分辨率。
对该目标特征图进行上采样的过程包括:该计算机设备通过文本图像超分辨率网络,对该目标特征图进行卷积计算以及通道重组,以实现对该目标特征图的上采样。或者,该计算机设备通过该文本图像超分辨率网络,对该目标特征图进行反卷积计算或者差值上采样,以实现对该目标特征图的上采样,在此,本公开实施例对通过文本图像超分辨率网络,对该目标特征图进行上采样的方式不做限定。
仍以图3所示的文本图像超分辨率网络为例,计算机设备通过第一卷积模块向融合模块输入卷积后的第三特征图,通过多个交叉特征提取模块中的最后一个交叉特征提取模块向融合模块输入文本特征图,通过融合模块对输入的该第三特征图与该文本特征图进行求和,向像素重组模块输入第一目标特征图。之后计算机设备再通过像素重组模块,对第一目标特征图进行上采样,向第二卷积模块输入第二目标特征图,通过第二卷积模块对第二目标特征图进行卷积计算,输出第三文本图像。其中,第一卷积模块进行卷积计算的尺度与第二卷积模块进行卷积计算的尺度可以相同,也可以不同。
对于本步骤23,通过文本图像超分辨率网络,先对第三特征图与文本特征图进行融合处理,以预测第三文本图像的特征(即第一目标特征图),再对预测出的进行上采样,以放大特征的尺寸,使得后续通过对所述第二目标特征图进行卷积计算所得到第三文本图像具有更高的图像超分辨率,从而实现对第一文本图像的超分辨率重构。
对于步骤21-23所示的过程,通过文本图像超分辨率网络,基于第一文本图像的全局特征(即第三特征图),重构出第一文本图像的文本信息的特征,进而通过第一文本图像的文本信息的特征以及全局特征,能够重构出能够体现第一文本全局特以及文本信息的特征的第三文本图像,以便后续基于重构出的第三文本图像对文本图像超分辨率网络进行训练,使得文本图像超分辨率网络能够学习到能够重构出高分辨率文本图像的能力。
在步骤203中,计算机设备基于该第二文本图像和该第三文本图像,确定像素损失值,该像素损失值用于表示该第二文本图像与该第三文本图像在像素上的差异程度。
其中,像素损失值为像素损失函数的数值。该像素损失函数用于计算两个文本图像在像素上的差异程度。
在一些实施例中,该像素损失函数为像素均方差损失值以及梯度轮廓损失函数的加权函数,其中,像素均方差损失值用于计算两个文本图像在像素颜色上的差异程度,该梯度轮廓损失函数用于计算两个文本图像中文本信息边缘的像素梯度之间的差异程度。相应地,本步骤203由下述步骤31-33所示的过程来实现。
在步骤31中,计算机设备基于该第二文本图像的像素值以及第三文本图像的像素值,确定像素均方差损失值,该像素均方差损失值用于表示该第二文本图像中的像素点与该第三文本图像中的像素点在像素颜色上的差异程度。
例如,计算机设备将第二文本图像的像素值IS以及第三文本图像的像素值IH,输入下述公式(1)所示的像素均方差损失函数,由像素均方差损失函数基于IS以及IH,输出像素均方差损失值LMSE
公式(1):
Figure BDA0004085536830000311
在步骤32中,计算机设备基于该第二文本图像以及该第三文本图像,确定梯度轮廓损失值,该梯度轮廓损失值用于表示第二文本图像与该第三文本图像中文本信息边缘的像素梯度之间的差异程度。
例如,对于第二文本图像和第三图像中的任一文本图像,计算机设备将该任一文本图像中目的像素点的位置坐标(x,y),输入下述公式(2-1)所示轮廓梯度函数,由梯度轮廓函数基于输入的(x,y),输出该任一文本图像的轮廓梯度值GP(I),其中,目的像素点为该任一文本图像中处于文本信息边缘的像素点。之后,计算机设备以第二文本图像轮廓梯度值为GP(IS),第三文本图像轮廓梯度值为GP(IH),将GP(IS)以及GP(IH)输入到下述公式(2-2)所示的梯度轮廓损失函数,由梯度轮廓损失函数基于输入的GP(IS)以及GP(IH),输出该梯度轮廓损失值LGP
公式(2-1):
Figure BDA0004085536830000321
公式(2-2):LGP=||GP(IS)-GP(IH)||
在步骤33中,计算机设备对像素均方差损失值以及该梯度轮廓损失值进行融合处理,得到该像素损失值。
在一种可能的实现方式中,计算设备基于像素损失函数,对像素均方差损失值以及该梯度轮廓损失值进行融合处理,得到像素损失值。
例如,该计算机设备将像素均方差损失值LMSE以及该梯度轮廓损失值LGP输入下述公式(3)所示的像素损失函数,通过公式(3),对LMSE以及LGP进行加权求和,输出该像素损失值LP
公式(3):LP=w1LMSE+w2LGP
其中,w1为LMSE对应的权重,w2为LGP对应的权重。
通过对第二文本图像与第三文本图像之间的像素均方差损失值以及梯度轮廓损失值进行融合处理,使得像素损失值能够体现第二文本图像和第三文本图像在全局像素以及文本轮廓这一局部像素等两方面的差异,进而使得像素损失值能够准确地体现第二文本图像和第三文本图像的文本信息在像素的差异。
在步骤204中,计算机设备基于该第二文本图像和该第三文本图像,确定文本损失值。
其中,该文本损失值为文本损失函数的数值,该文本损失函数用于计算文本图像在文本信息上的差异程度,或者多对文本图像上的文本信息在不同尺度上的差异程度。相应地,该文本损失值用于表示该第二文本图像与该第三文本图像在文本信息上的差异程度。在一些实施例中,该文本损失值用于表示第二文本图像以及第三文本图像的文本信息在多个尺度上的差异程度。
例如,计算机设备分别对该第二文本图像以及该第三文本图像进行多次带下采样的卷积操作,得到多个第一特征图以及多个第二特征图,该多个第一特征图和该多个第二特征图一一对应,对应的第一特征图和第二特征图的尺度相同,该第一特征图用于表征下采样后的第二文本图像的图像信息,该第二特征图用于表征下采样后的该第三文本图像的图像信息,可以理解的是,多对第一特征图以及第二特征图用表征第二文本图像和第三文本图像在不同尺度上的图像信息。可以理解的是,分别对该第二文本图像以及该第三文本图像进行多次带下采样的卷积操作,即,分别对该第二文本图像以及该第三文本图像的特征进行多尺度提取过程。
之后,计算机设备基于多对第一特征图以及第二特征图,确定该文本损失值,此时,该文本损失值用于表示第二文本图像以及第三文本图像的文本信息在多个尺度上的差异程度。通过基于第二文本图像在多个尺度上的多个第一特征图以及第三文本图像在多个尺度上的多个第一特征图,确定第二文本图像与第三文本图像之间的文本损失值,使得文本损失值能够体现第二文本图像和第三文本图像的文本信息在多个尺度上的差异程度,进而使得文本损失值能够深度精确体现第二文本图像和第三文本图像在文本内容上的差异,以便后续根据该文本损失值,准确地的确定出第二文本图像与第三文本图像之间的差异程度。
在一些实施例中,带下采样的卷积操作可以通过目标卷积网络来实现,其中,该目标卷积网络包括多个卷积层,每个卷积层都具有下采样效果。例如,该计算机设备将第一文本图像和第二文本图像输入目标卷积网络,通过该多个卷积层,依次对该第二文本图像和第三文本图像进行连续卷积运算,通过多个卷积层输出多个第一特征图以及多个第二特征图,其中,每个具有下采样效果的卷积层对第二文本图像的卷积结果为一个第一特征图,每个具有下采样效果的卷积层对第三文本图像的卷积结果为一个第二特征图,同一卷积层对应同一尺度的第一特征图和第二特征图。示例性地,多个卷积层中的第一卷积层分别第二文本图像和第三文本图像进行卷积运算,得到相同尺度的一对第一特征图以及第二特征图,将这对第一特征图以及第二特征图输入至下一个卷积层,由下一个卷积层分别对输入的第一特征图以及第二特征图进行卷积计算,输出相同尺度的另一对第一特征图以及第二特征图,依此类推,直至多个卷积层运算完成,得到多对第一特征图以及第二特征图。
其中,目标卷积网络为CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)中具有下采样效果的卷积部分或者其他类型的卷积网络。在此,本公开实施例对目标卷积网络不做限定。
在一些实施例中,计算机设备基于该多个第一特征图以及多个第二特征图,确定多个单尺度文本损失值,其中,多个单尺度文本损失值与该多个第一特征图、多个第二特征图一一对应。任一单尺度文本损失值为单尺度文本损失函数的数值,其中,单尺度文本损失函数例如下述的公式(4)。
公式(4):
Figure BDA0004085536830000341
其中,多个第一特征图φ(IS)按照从小到大的尺度依次排列,或按照从大到小的尺度依次排列,多个第二特征图φ(IH)的排列方式和多个第一特征图φ(IS)的排列方式,从而使得相同尺度的第一特征图φ(IS)和第二特征图φ(IH)对应。φj(IS)为多个第一特征图中的第j个第一特征图φ(IS),φj(IH)为多个第二特征图IS中的第j个第二特征图φ(IH),
Figure BDA0004085536830000342
为φj(IS)和φ(IH)对应的单尺度文本损失值,Cj、Hj、Wj多个尺度中第j个尺度的文本图像的通道数、高度以及宽度,j为正整数。
在得到该多个单尺度文本损失值之后,计算机设备对该多个单尺度文本损失值进行融合处理,得到文本损失值。在一些实施例中,计算机设备基于文本损失函数,对该多个单尺度文本损失值进行加权求和,得到该文本损失值。
例如,该计算机设备将多个单尺度文本损失值输入下述公式(5)所示的文本损失函数,由该文本损失函数对多个单尺度文本损失值进行加权求和,输入文本损失值。
公式(5):
Figure BDA0004085536830000343
其中,LCP(φ,IS,IH)为文本损失值,m为多个单尺度损失函数的总个数,m为大于或等于j的整数,λj代表第j个单尺度文本损失值对应的权重。在不同的应用场景中m以及λj的取值有所不同,在此,本公开实施例对m以及λj的取值不做限定。
该文本损失函数为一种多尺度文本识别特征的新型语义损失函数,也称为文字内容感知损失函数,它对文本图像的全局文本信息和局部笔画结构保持一致性约束,从而能够为文本图像超分辨率网络的训练提供文字相关的先验信息。
由于单尺度文本损失值能够表示相同尺度的第一特征图以及第二特征图之间的差异程度,通过对多个单尺度文本损失值进行融合处理,使得文本损失值能够表示能够体现第二文本图像和第三文本图像的文本信息在多个尺度上的差异程度,进而使得文本损失值能够深度精确体现第二文本图像和第二文本图像在文本内容上的差异,以便后续根据该文本损失值,准确地的确定出第二文本图像与第三文本图像之间的差异程度。
需要说明的是,步骤203和步骤204所述的过程也即是计算机设备基于该第二文本图像和该第三文本图像,确定像素损失值以及文本损失值的过程,计算机设备还能够同时执行步骤203和步骤204,或者先执行步骤204,再执行步骤203,在此,本公开实施例对步骤203和204的执行顺序不做限定。
为了进一步说明上述步骤203-204所示的过程,仍以图3为例,计算机设备通过文本图像超分辨率网络输出具有文本信息“20”的第三文本图像,该第三文本图像对应具有文本信息“20”的第二文本图像。计算机设备对第三文本图像与第二文本图像之间的像素均方差损失值以及梯度轮廓损失值进行融合处理,得到像素损失值,以对第二文本图像以及第三文本图像进行逐像素监督。之后,该计算机设备通过文字内容编码器对第二文本图像和第三文本图像进行多次带下采样的卷积操作,得到多对第一特征图和第二特征图,通过多对第一特征图和第二特征图之间的单尺度文本损失值进行加权求和,得到文本损失值,以实现感知第二文本图像和第三文本图像中的文本信息内容的损失,实现了文本内容感知监督。
在步骤205中,计算机设备对该像素损失值以及该文本损失值进行融合处理,得到目标损失值,该目标损失值用于表示该第二文本图像与该第三文本图像之间的差异程度。
其中,目标损失值为目标损失函数的数值,目标函数损失用于计算两个文本图像与之间的差异程度。该目标损失函数为像素损失函数和文本损失值的加权函数。
在一种可能的实现方式中,计算机设备基于目标损失函数,对该像素损失值以及文本损失值进行加权求和,得到该目标损失值。
例如,计算机设备将该像素损失值LP以及文本损失值LGP输入下述公式(6)所示的目标损失函数,由该目标损失函数对该像素损失值LP以及文本损失值LGP进行加权求和,输出该目标损失值L。
公式(6):L=w3LP+w4LGP
其中,w3为该像素损失值LP对应的权重,w4为文本损失值LGP对应的权重。
该目标损失函数用于对文本图像超分辨率网络进行的训练进行监督,例如下述的步骤206。
在步骤206中,在该目标损失值大于或等于损失阈值的情况下,计算机设备对该文本图像超分辨率网络的网络参数进行更新,对更新后的文本图像超分辨率网络进行下一次训练,在该目标损失值小于该损失阈值的情况下,结束训练,得到训练完成的文本图像超分辨率网络。
其中,该损失阈值可根据具体实施场景进行设置,在此,本公开实施例对损失阈值的大小不做限定。结束训练的更新后的文本图像超分辨率网络为训练完成的文本图像超分辨率网络,该文本图像超分辨率网络的网络参数包括该文本图像超分辨率网络中各个模块进行计算时所使用的参数。
在对该文本图像超分辨率网络进行任一次训练时,计算机设备向该文本图像超分辨率网络输入多个图像对,计算机设备对多个图像对均执行上述步骤202-205所示的过程,从而能够获取到多个目标损失值,多个目标损失值与该多个图像对一一对应,在多个目标损失值中的至少一个目标损失值大于该损失阈值的情况下,则说明该目标函数损失还未达到收敛,此时,文本图像超分辨率网络在对文本图像进行超分辨率重构时还不能重构出期望的文本图像,则计算机设备对该文本图像超分辨率网络的网络参数进行更新,从训练集中获取新的多个图像对,基于新的多个图像对,对更新后的文本图像超分辨率网络进行下一次训练。
在多个目标损失值均小于或等于该损失阈值的情况下,则说明此时的该目标函数损失达到收敛,该文本图像超分辨率网络在对文本图像进行超分辨率重构时能够重构出期望的文本图像,则计算机设备结束训练,结束训练的更新后的文本图像超分辨率网络即为训练完成的文本图像超分辨率网络。
需要说明的是,步骤205-206所示的过程为计算机设备基于第二问文本图像和第三文本图像之间的像素损失值和文本损失值,对该文本图像超分辨率网络进行训练,得到训练完成的文本图像超分辨率网络的过程。在该过程中,通过对像素损失值以及文本损失值进行融合处理,使得目标损失值能够表示第二文本图像与第三文本图像之间的差异程度,进而以损失阈值为期望的第二文本图像与第三文本图像之间的差异程度,在目标损失值大于或等于损失阈值的情况下,对文本图像超分辨率网络的网络参数进行更新,直至目标损失值小于损失阈值使得文本图像超分辨率网络学习到将输入的文本图像重构出更高图像分辨率的文本图像的能力,且重构出的文本图像与期望重构出的文本图像在文本内容以及像素上的差异程度小于损失阈值,从而使得输出的文本图像更加接近期望重构出的文本图像,提高了输出的文本图像的质量。
本公开实施例提供的方法,通过基于第二文本图像和第三文本图像之间的像素损失值以及文本损失值,对文本图像超分辨率网络进行训练,由于像素损失值和文本损失值都表示第二文本图像与第三文本图像的差异程度,则像素损失函数和文本损失函数的收敛点能够相同,因此,对文本图像超分辨率网络进行训练的过程中,容易使得像素损失函数和文本损失函数同时收敛,使得文本图像超分辨率网络完成训练,完成训练的文本图像超分辨率网络在对文本图像进行超分辨率重构后,提高超分辨率重构后的文本图像的图像分辨率提高,从而能够提高超分辨率重构后的文本图像的显示效果。
在一些实施例中,在该文本图像超分辨率网络训练完成后,计算机设备通过验证集中的多个图像对,对训练完成的文本图像超分辨率网络进行验证,若该文本图像超分辨率网络通过验证,则该文本图像超分辨率网络为最终的文本图像超分辨率网络,能够将该文本图像超分辨率网络投入使用,若文本图像超分辨率网络未通过验证,则舍弃文本图像超分辨率网络,重新训练新的文本图像超分辨率网络,直至获取到通过验证的文本图像超分辨率网络。
其中,对于验证集中的任一图像对,该任一图像对包括第四文本图像和第五文本图像,第四文本图像和第五文本图像所描述的内容相同,例如,第四文本图像和第五文本图像具有相同的文本信息。第四文本图像的图像分辨率低于第五文本图像的图像分辨率。可以理解的是,验证集中的图像对和训练集中的图像对的获取方式相同,在此,本申请实施例对验证集中图像对的获取方式不再赘述。
在一些实施例中,计算机设备通过验证集中的多个图像对,对该文本图像超分辨率网络进行验证过程包括:计算机设备将该多个图像对中的多个第四文本图像输入该文本图像超分辨率网络,通过该文本图像超分辨率网络对输入的多个第四文本图像进行超分辨率重构,输出多个第六文本图像,多个第六文本图像与多个第四文本图像一一对应。若存在大于或等于目标个数的第六文本图像为对应第四文本图像所在图像对中的第五文本图像,则该文本图像超分辨率网络通过验证,否则,该文本图像超分辨率网络未通过验证,其中,该目标个数大于或等于多个第六文本图像的总个数。
下面结合图6根据一示例性实施例示出的一种基于文本图像超分辨率网络的图像处理方法的流程图,对文本图像超分辨率网络进行图像处理的过程进行介绍。其中,该文本图像超分辨率网络基于第二文本图像和第三文本图像之间的像素损失值和文本损失值训练得到(该过程可参考图2所示文本图像超分辨率网络的训练方法),另外,文本图像超分辨率网络已经验证通过。
在步骤601中,计算机设备获取待处理的文本图像。
其中,该文本图像的图像分辨率低于图像分辨率阈值,可以理解的是,该文本图像为一个低图像分辨率文本图像。
在步骤602中,计算机设备将该文本图像输入文本图像超分辨率网络,通过该文本图像超分辨网络对该文本图像进行超分辨率重构,输出目标文本图像。
其中,目标文本图像的图像分辨率高于该文本图像的图像分辨率,且所述目标文本图像和该文本图像所描述的内容相同。在一些实施例中,目标文本图像的图像分辨率是该文本图像的图像分辨率的两倍,在此,本公开实施例对目标文本图像与该文本图像的图像分辨率之间的倍数不做限定。
需要说明的是,本步骤602与上述的步骤202同理,在此,本公开实施例对本步骤602不再赘述。
本公开实施例提供的方法,通过文本图像超分辨网络对低图像分辨率的文本图像进行超分辨率重构,输出高图像分辨率的目标文本图像,实现了低图像分辨率文本图像的超分辨率重构,有效提高了文本图像超图像分辨率结果的人眼观感,进而提高了重构后的文本图像的显示效果。另外,通过与其他架构的文本图像超分辨网络(如使用密集变压器的文本图像超分辨网络)进行比较,该文本图像超分辨网络有效提高了低图像分辨率文本图像的超分辨率重构的准确率。
在另一些实施例中,该计算机设备向其他设备发送该文本图像超分辨率网络,由其他设备执行上述图6所示的过程。该其他设备例如终端或者服务器。
图7是根据一示例性实施例示出的一种文本图像超分辨率网络的训练装置700的结构框图。参照图7,该装置700包括:
获取单元701,被配置为执行获取第一文本图像和第二文本图像,所述第一文本图像和所述第二文本图像所描述的内容相同,所述第一文本图像的图像分辨率低于所述第二文本图像的图像分辨率;
重构单元702,被配置为执行将所述第一文本图像输入待训练的文本图像超分辨率网络,通过所述文本图像超分辨率网络对所述第一文本图像进行超分辨率重构,输出第三文本图像;
确定单元703,被配置为执行基于所述第二文本图像和所述第三文本图像,确定像素损失值以及文本损失值,所述像素损失值用于表示所述第二文本图像与所述第三文本图像在像素上的差异程度,所述文本损失值用于表示所述第二文本图像与所述第三文本图像在文本信息上的差异程度;
训练单元704,被配置为执行基于所述像素损失值以及所述文本损失值,对所述文本图像超分辨率网络进行训练,得到训练完成的文本图像超分辨率网络。
在一些实施例中,所述训练单元704被配置为执行:
对所述像素损失值以及所述文本损失值进行融合处理,得到目标损失值,所述目标损失值用于表示所述第二文本图像与所述第三文本图像之间的差异程度;
在所述目标损失值大于或等于损失阈值的情况下,对所述文本图像超分辨率网络的网络参数进行更新,对更新后的文本图像超分辨率网络进行下一次训练;
若所述目标损失值小于所述损失阈值,结束训练,其中,结束训练的更新后的文本图像超分辨率网络为所述训练完成的文本图像超分辨率网络。
在一些实施例中,所述确定单元703包括:
多尺度卷积子单元,被配置为执行分别对所述第二文本图像以及所述第三文本图像进行多次带下采样的卷积操作,得到多个第一特征图以及多个第二特征图,所述多个第一特征图和所述多个第二特征图一一对应,对应的第一特征图和第二特征图的尺度相同,所述第一特征图用于表征下采样后的所述第二文本图像的图像信息,所述第二特征图用于表征下采样后的所述第三文本图像的图像信息;
第一确定子单元,被配置为执行基于所述多个第一特征图以及所述多个第二特征图,确定所述文本损失值,所述文本损失值用于表示所述第二文本图像以及所述第三文本图像的文本信息在多个尺度上的差异程度。
在一些实施例中,所述第一确定子单元被配置为执行:
基于所述多个第一特征图以及所述多个第二特征图,确定多个单尺度文本损失值,所述单尺度文本损失值用于表示相同尺度的第一特征图以及第二特征图之间的差异程度;
对所述多个单尺度文本损失值进行融合处理,得到所述文本损失值。
在一些实施例中,所述确定单元703包括:
第二确定子单元,被配置为执行基于所述第二文本图像的像素值以及所述第三文本图像的像素值,确定像素均方差损失值,所述像素均方差损失值用于表示所述第二文本图像与所述第三文本图像在像素颜色上的差异程度;
第三确定子单元,被配置为执行基于所述第二文本图像以及第三文本图像,确定梯度轮廓损失值,所述梯度轮廓损失值用于表示所述第二文本图像与所述第三文本图像中文本信息边缘的像素梯度之间的差异程度;
融合子单元,被配置为执行对所述像素均方差损失值以及所述梯度轮廓损失值进行融合处理,得到所述像素损失值。
在一些实施例中,所述重构单元702包括:
重构子单元,被配置为执行通过所述文本图像超分辨率网络,基于所述第一文本图像的第三特征图,对所述第一文本图像中的文本信息进行重构,得到文本特征图,所述第三特征图用于表示所述第一文本图像的特征,所述文本特征图用于表示重构后的文本信息的特征;
输出子单元,被配置为执行通过所述文本图像超分辨率网络,基于所述第三特征图以及所述文本特征图,输出所述第三文本图像。
在一些实施例中,所述重构子单元被配置为执行:
通过所述文本图像超分辨率网络,基于所述第三特征图,对所述第一文本图像中像素点的列特征以及行特征进行多次迭代交叉提取,得到所述文本特征图。
在一些实施例中,所述重构子单元包括:
第一提取子子单元,被配置为执行在任一次迭代交叉提取的过程中,通过所述文本图像超分辨率网络,基于所述第一文本图像的第四特征图,对所述第一文本图像中像素点的第一像素特征进行提取,得到第五特征图,所述第四特征图为所述第三特征图或上一次迭代交叉提取过程中得到的中间特征图,所述第一像素特征为像素点的列特征或行特征;
第二提取子子单元,被配置为执行通过所述文本图像超分辨率网络,基于所述第五特征图,对所述第一文本图像中像素点的第二像素特征进行提取,得到第六特征图,所述第二像素特征为像素点的列特征和行特征中除所述第一像素特征以外的特征;
融合子子单元,被配置为执行通过所述文本图像超分辨率网络,对所述第六特征图与所述第四特征图进行融合处理,得到中间特征图。
在一些实施例中,所述第一像素特征为像素点的列特征,所述第一提取子子单元被配置为执行:
通过所述文本图像超分辨率网络,将所述第四特征图中的各个特征点按列进行拆分,得到多列特征点;
通过所述文本图像超分辨率网络,分别对所述多列特征点进行自注意力计算,得到多个第一自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第一自注意力结果进行全连接处理。
在一些实施例中,所述第二像素特征为像素点的行特征,所述第二提取子子单元被配置为执行:
通过所述文本图像超分辨率网络,将所述第五特征图中的各个特征点按行进行拆分,得到多行特征点;
通过所述文本图像超分辨率网络,分别对所述多行特征点进行自注意力计算,得到多个第二自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第二自注意力结果进行全连接处理。
在一些实施例中,所述第一像素特征为像素点的行特征,所述第一提取子子单元被配置为执行:
通过所述文本图像超分辨率网络,将所述第四特征图中的各个特征点按行进行拆分,得到多行特征点;
通过所述文本图像超分辨率网络,分别对所述多行特征点进行自注意力计算,得到多个第三自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第三自注意力结果进行全连接处理。
在一些实施例中,所述第二像素特征为像素点的列特征,所述第二提取子子单元被配置为执行:
通过所述文本图像超分辨率网络,将所述第五特征图中的各个特征点按列进行拆分,得到多列特征点;
通过所述文本图像超分辨率网络,分别对所述多列特征点进行自注意力计算,得到多个第四自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第四自注意力结果进行全连接处理。
在一些实施例中,所述输出子单元被配置为执行:
通过所述文本图像超分辨率网络,对所述第三特征图与所述文本特征图进行融合处理,得到第一目标特征图,所述第一目标特征图用于表示所述第三文本图像的特征;
通过所述文本图像超分辨率网络,对所述第一目标特征图进行上采样,得到第二目标特征图;
通过所述文本图像超分辨率网络,对所述第二目标特征图进行卷积计算,得到所述第三文本图像,输出第三文本图像。
在一些实施例中,所述装置700还包括:
对齐单元,被配置为执行通过所述文本图像超分辨率网络,将所述第一文本图像中的文本信息与所述第二文本图像中的文本信息进行对齐;
目标获取单元701,被配置通过所述文本图像超分辨率网络,基于对齐后的所述第一文本图像,获取所述第一文本图像的第三特征图。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
关于上述实施例中的装置700,其中各个单元执行操作的具体方式已经在有关文本图像超分辨率网络的训练方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种计基于文本图像超分辨率网络的图像处理装置的结构框图,所述文本图像超分辨率网络基于第二文本图像和第三文本图像之间的像素损失值和文本损失值训练得到,所述像素损失值用于表示所述第二文本图像与所述第三文本图像在像素上的差异程度,所述文本损失值用于表示所述第二文本图像与所述第三文本图像在文本信息上的差异程度,如图8所示的装置800包括:
获取单元801,被配置为执行获取待处理的文本图像;
处理单元802,被配置为执行将所述文本图像输入所述文本图像超分辨率网络,通过所述文本图像超分辨网络对所述文本图像进行超分辨率重构,输出目标文本图像,所述目标文本图像的图像分辨率高于所述文本图像的图像分辨率。
其中,基于第二文本图像和第三文本图像之间的像素损失值和文本损失值训练得到文本图像超分辨率网络过程可参考上文提供的文本图像超分辨率网络的训练方法。
关于上述实施例中的装置800,其中各个单元执行操作的具体方式已经在有关图6所示方法实施例中进行了详细描述,此处将不做详细阐述说明。
图9是根据一示例性实施例示出的一种计算机设备的结构示框图,该计算机设备900可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器901和一个或多个存储器902,其中,所述存储器902中存储有一个或多个处理器90可执行的指令,所述指令由所述处理器901加载并执行以实现上述各个方法实施例提供的文本图像超分辨率网络的训练方法,和/或实现上述基于文本图像超分辨率网络的图像处理方法。当然,该计算机设备900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备900还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种包括至少一条指令的计算机可读存储介质,例如包括至少一条指令的存储器,上述至少一条指令可由计算机设备中的处理器执行以完成上述实施例中的文本图像超分辨率网络的训练方法,和/或完成上述实施例中的基于文本图像超分辨率网络的图像处理方法。
可选地,上述计算机可读存储介质可以是非临时性计算机可读存储介质,例如,该非临时性计算机可读存储介质可以包括ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,包括一条或多条指令,该一条或多条指令可以由计算机设备的处理器执行,以完成上述各个实施例提供的文本图像超分辨率网络的训练方法,和/或完成上述实施例中的基于文本图像超分辨率网络的图像处理方法。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的文本图像都是在充分授权的情况下获取的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (17)

1.一种文本图像超分辨率网络的训练方法,其特征在于,包括:
获取第一文本图像和第二文本图像,所述第一文本图像和所述第二文本图像所描述的内容相同,所述第一文本图像的图像分辨率低于所述第二文本图像的图像分辨率;
将所述第一文本图像输入待训练的文本图像超分辨率网络,通过所述文本图像超分辨率网络对所述第一文本图像进行超分辨率重构,输出第三文本图像;
基于所述第二文本图像和所述第三文本图像,确定像素损失值以及文本损失值,所述像素损失值用于表示所述第二文本图像与所述第三文本图像在像素上的差异程度,所述文本损失值用于表示所述第二文本图像与所述第三文本图像在文本信息上的差异程度;
基于所述像素损失值以及所述文本损失值,对所述文本图像超分辨率网络进行训练,得到训练完成的文本图像超分辨率网络。
2.根据权利要求1所述的文本图像超分辨率网络的训练方法,其特征在于,所述基于所述像素损失值以及所述文本损失值,对所述文本图像超分辨率网络进行训练包括:
对所述像素损失值以及所述文本损失值进行融合处理,得到目标损失值,所述目标损失值用于表示所述第二文本图像与所述第三文本图像之间的差异程度;
在所述目标损失值大于或等于损失阈值的情况下,对所述文本图像超分辨率网络的网络参数进行更新,对更新后的文本图像超分辨率网络进行下一次训练;
若所述目标损失值小于所述损失阈值,结束训练,其中,结束训练的更新后的文本图像超分辨率网络为所述训练完成的文本图像超分辨率网络。
3.根据权利要求1所述的文本图像超分辨率网络的训练方法,其特征在于,所述文本损失值通过下述方式得到:
分别对所述第二文本图像以及所述第三文本图像进行多次带下采样的卷积操作,得到多个第一特征图以及多个第二特征图,所述多个第一特征图和所述多个第二特征图一一对应,对应的第一特征图和第二特征图的尺度相同,所述第一特征图用于表征下采样后的所述第二文本图像的图像信息,所述第二特征图用于表征下采样后的所述第三文本图像的图像信息;
基于所述多个第一特征图以及所述多个第二特征图,确定所述文本损失值,所述文本损失值用于表示所述第二文本图像以及所述第三文本图像的文本信息在多个尺度上的差异程度。
4.根据权利要求3所述的文本图像超分辨率网络的训练方法,其特征在于,所述基于所述多个第一特征图以及所述多个第二特征图,确定所述文本损失值包括:
基于所述多个第一特征图以及所述多个第二特征图,确定多个单尺度文本损失值,所述单尺度文本损失值用于表示相同尺度的第一特征图以及第二特征图之间的差异程度;
对所述多个单尺度文本损失值进行融合处理,得到所述文本损失值。
5.根据权利要求1所述的文本图像超分辨率网络的训练方法,其特征在于,所述像素损失值通过下述方式得到:
基于所述第二文本图像的像素值以及所述第三文本图像的像素值,确定像素均方差损失值,所述像素均方差损失值用于表示所述第二文本图像与所述第三文本图像在像素颜色上的差异程度;
基于所述第二文本图像以及第三文本图像,确定梯度轮廓损失值,所述梯度轮廓损失值用于表示所述第二文本图像与所述第三文本图像中文本信息边缘的像素梯度之间的差异程度;
对所述像素均方差损失值以及所述梯度轮廓损失值进行融合处理,得到所述像素损失值。
6.根据权利要求1-5中任一项所述的文本图像超分辨率网络的训练方法,其特征在于,所述通过所述文本图像超分辨率网络对所述第一文本图像进行超分辨率重构,输出第三文本图像包括:
通过所述文本图像超分辨率网络,基于所述第一文本图像的第三特征图,对所述第一文本图像中的文本信息进行重构,得到文本特征图,所述第三特征图用于表示所述第一文本图像的特征,所述文本特征图用于表示重构后的文本信息的特征;
通过所述文本图像超分辨率网络,基于所述第三特征图以及所述文本特征图,输出所述第三文本图像。
7.根据权利要求6所述的文本图像超分辨率网络的训练方法,其特征在于,所述通过所述文本图像超分辨率网络,基于所述第一文本图像的第三特征图,对所述第一文本图像中的文本信息进行重构,得到文本特征图包括:
通过所述文本图像超分辨率网络,基于所述第三特征图,对所述第一文本图像中像素点的列特征以及行特征进行多次迭代交叉提取,得到所述文本特征图。
8.根据权利要求7所述的文本图像超分辨率网络的训练方法,其特征在于,所述通过所述文本图像超分辨率网络,基于所述第三特征图,对所述第一文本图像中像素点的列特征以及行特征进行多次迭代交叉提取包括:
在任一次迭代交叉提取的过程中,通过所述文本图像超分辨率网络,基于所述第一文本图像的第四特征图,对所述第一文本图像中像素点的第一像素特征进行提取,得到第五特征图,所述第四特征图为所述第三特征图或上一次迭代交叉提取过程中得到的中间特征图,所述第一像素特征为像素点的列特征或行特征;
通过所述文本图像超分辨率网络,基于所述第五特征图,对所述第一文本图像中像素点的第二像素特征进行提取,得到第六特征图,所述第二像素特征为像素点的列特征和行特征中除所述第一像素特征以外的特征;
通过所述文本图像超分辨率网络,对所述第六特征图与所述第四特征图进行融合处理,得到中间特征图。
9.根据权利要求8所述的文本图像超分辨率网络的训练方法,其特征在于,所述第一像素特征为像素点的列特征,所述通过所述文本图像超分辨率网络,基于所述第一文本图像的第四特征图,对所述第一文本图像中像素点的第一像素特征进行提取包括:
通过所述文本图像超分辨率网络,将所述第四特征图中的各个特征点按列进行拆分,得到多列特征点;
通过所述文本图像超分辨率网络,分别对所述多列特征点进行自注意力计算,得到多个第一自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第一自注意力结果进行全连接处理。
10.根据权利要求8所述的文本图像超分辨率网络的训练方法,其特征在于,所述第二像素特征为像素点的行特征,所述通过所述文本图像超分辨率网络,基于所述第五特征图,对所述第一文本图像中像素点的第二像素特征进行提取包括:
通过所述文本图像超分辨率网络,将所述第五特征图中的各个特征点按行进行拆分,得到多行特征点;
通过所述文本图像超分辨率网络,分别对所述多行特征点进行自注意力计算,得到多个第二自注意力结果;
通过所述文本图像超分辨率网络,对所述多个第二自注意力结果进行全连接处理。
11.根据权利要求6所述的文本图像超分辨率网络的训练方法,其特征在于,所述通过所述文本图像超分辨率网络,基于所述第三特征图以及所述文本特征图,输出所述第三文本图像包括:
通过所述文本图像超分辨率网络,对所述第三特征图与所述文本特征图进行融合处理,得到第一目标特征图,所述第一目标特征图用于表示所述第三文本图像的特征;
通过所述文本图像超分辨率网络,对所述第一目标特征图进行上采样,得到第二目标特征图;
通过所述文本图像超分辨率网络,对所述第二目标特征图进行卷积计算,输出第三文本图像。
12.根据权利要求6所述的文本图像超分辨率网络的训练方法,其特征在于,所述通过所述文本图像超分辨率网络对所述第一文本图像进行超分辨率重构,输出第三文本图像之前,所述方法还包括:
通过所述文本图像超分辨率网络,将所述第一文本图像中的文本信息与所述第二文本图像中的文本信息进行对齐;
通过所述文本图像超分辨率网络,基于对齐后的所述第一文本图像,获取所述第一文本图像的第三特征图。
13.一种基于文本图像超分辨率网络的图像处理方法,其特征在于,所述文本图像超分辨率网络基于第二文本图像和第三文本图像之间的像素损失值和文本损失值训练得到,所述像素损失值用于表示所述第二文本图像与所述第三文本图像在像素上的差异程度,所述文本损失值用于表示所述第二文本图像与所述第三文本图像在文本信息上的差异程度,所述方法包括:
获取待处理的文本图像;
将所述文本图像输入所述文本图像超分辨率网络,通过所述文本图像超分辨网络对所述文本图像进行超分辨率重构,输出目标文本图像,所述目标文本图像的图像分辨率高于所述文本图像的图像分辨率,且所述目标文本图像和所述文本图像所描述的内容相同。
14.一种文本图像超分辨率网络的训练装置,其特征在于,包括:
获取单元,被配置为执行获取第一文本图像和第二文本图像,所述第一文本图像和所述第二文本图像所描述的内容相同,所述第一文本图像的图像分辨率低于所述第二文本图像的图像分辨率;
重构单元,被配置为执行将所述第一文本图像待训练的输入文本图像超分辨率网络,通过所述文本图像超分辨率网络对所述第一文本图像进行超分辨率重构,输出第三文本图像;
确定单元,被配置为执行基于所述第二文本图像和所述第三文本图像,确定像素损失值以及文本损失值,所述像素损失值用于表示所述第二文本图像与所述第三文本图像在像素上的差异程度,所述文本损失值用于表示所述第二文本图像与所述第三文本图像在文本信息上的差异程度;
训练单元,被配置为执行基于所述像素损失值以及所述文本损失值,对所述文本图像超分辨率网络进行训练,得到训练完成的文本图像超分辨率网络。
15.一种基于文本图像超分辨率网络的图像处理装置,其特征在于,所述文本图像超分辨率网络基于第二文本图像和第三文本图像之间的像素损失值和文本损失值训练得到,所述像素损失值用于表示所述第二文本图像与所述第三文本图像在像素上的差异程度,所述文本损失值用于表示所述第二文本图像与所述第三文本图像在文本信息上的差异程度,所述装置包括:
获取单元,被配置为执行获取待处理的文本图像;
处理单元,被配置为执行将所述文本图像输入所述文本图像超分辨率网络,通过所述文本图像超分辨网络对所述文本图像进行超分辨率重构,输出目标文本图像,所述目标文本图像的图像分辨率高于所述文本图像的图像分辨率。
16.一种计算机设备,其特征在于,包括:
一个或多个处理器;
用于存储所述一个或多个处理器可执行指令的一个或多个存储器;
其中,所述一个或多个处理器被配置为执行所述指令,以实现如权利要求1至权利要求12中任一项所述的文本图像超分辨率网络的训练方法,或者权利要求13所述的基于文本图像超分辨率网络的图像处理方法。
17.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的至少一条指令由计算机设备的一个或多个处理器执行时,使得所述计算机设备能够执行如权利要求1至权利要求12中任一项所述的文本图像超分辨率网络的训练方法,或者权利要求13所述的基于文本图像超分辨率网络的图像处理方法。
CN202310133257.3A 2023-02-09 2023-02-09 文本图像超分辨率网络的训练方法、装置以及存储介质 Pending CN116342385A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310133257.3A CN116342385A (zh) 2023-02-09 2023-02-09 文本图像超分辨率网络的训练方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310133257.3A CN116342385A (zh) 2023-02-09 2023-02-09 文本图像超分辨率网络的训练方法、装置以及存储介质

Publications (1)

Publication Number Publication Date
CN116342385A true CN116342385A (zh) 2023-06-27

Family

ID=86892085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310133257.3A Pending CN116342385A (zh) 2023-02-09 2023-02-09 文本图像超分辨率网络的训练方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN116342385A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058014A (zh) * 2023-07-14 2023-11-14 北京透彻未来科技有限公司 一种基于lab色彩空间匹配的染色归一化系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058014A (zh) * 2023-07-14 2023-11-14 北京透彻未来科技有限公司 一种基于lab色彩空间匹配的染色归一化系统及方法
CN117058014B (zh) * 2023-07-14 2024-03-29 北京透彻未来科技有限公司 一种基于lab色彩空间匹配的染色归一化系统及方法

Similar Documents

Publication Publication Date Title
CN111062872B (zh) 一种基于边缘检测的图像超分辨率重建方法及系统
CN113658051B (zh) 一种基于循环生成对抗网络的图像去雾方法及系统
CN110119780B (zh) 基于生成对抗网络的高光谱图像超分辨重建方法
CN110443842B (zh) 基于视角融合的深度图预测方法
Kobler et al. Variational networks: connecting variational methods and deep learning
CN109636721B (zh) 基于对抗学习和注意力机制的视频超分辨率方法
CN112581370A (zh) 人脸图像的超分辨率重建模型的训练及重建方法
CN110188667B (zh) 一种基于三方对抗生成网络的人脸摆正方法
CN109948441B (zh) 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质
CN113762147B (zh) 人脸表情迁移方法、装置、电子设备及存储介质
WO2021219835A1 (en) Pose estimation method and apparatus
CN113658040A (zh) 一种基于先验信息和注意力融合机制的人脸超分辨方法
CN112509144A (zh) 人脸图像处理方法、装置、电子设备及存储介质
CN115049556A (zh) 一种基于StyleGAN的人脸图像修复方法
CN112184547A (zh) 红外图像的超分辨率方法及计算机可读存储介质
CN113591528A (zh) 文档矫正方法、装置、计算机设备和存储介质
Wang et al. DDistill-SR: Reparameterized dynamic distillation network for lightweight image super-resolution
CN116342385A (zh) 文本图像超分辨率网络的训练方法、装置以及存储介质
CN110570375B (zh) 一种图像处理方法、装置、电子设置以及存储介质
CN113592982B (zh) 身份迁移模型构建方法、装置、电子设备及可读存储介质
CN117593178A (zh) 一种基于特征引导的虚拟试衣方法
CN113658046B (zh) 基于特征分离的超分辨率图像生成方法、装置、设备和介质
CN115294182A (zh) 一种基于双交叉注意力机制的高精度立体匹配方法
CN113240589A (zh) 一种多尺度特征融合的图像去雾方法及系统
CN112508776A (zh) 动作迁移方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination