CN114897884A - 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法 - Google Patents

基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法 Download PDF

Info

Publication number
CN114897884A
CN114897884A CN202210684718.1A CN202210684718A CN114897884A CN 114897884 A CN114897884 A CN 114897884A CN 202210684718 A CN202210684718 A CN 202210684718A CN 114897884 A CN114897884 A CN 114897884A
Authority
CN
China
Prior art keywords
image
feature
distorted
screen content
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210684718.1A
Other languages
English (en)
Inventor
牛玉贞
陈友昆
陈俊豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202210684718.1A priority Critical patent/CN114897884A/zh
Publication of CN114897884A publication Critical patent/CN114897884A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Image Processing (AREA)

Abstract

本发明提出一种基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法,首先,对失真屏幕内容图像数据集中的数据进行数据预处理;训练基于多尺度边缘特征融合的图像质量评分预测网络,得到无参考屏幕内容图像质量评分预测模型;所述基于多尺度边缘特征融合的图像质量评分预测网络使用支持双源输入的孪生网络对输入的失真图像和对应的边缘结构图进行多尺度特征提取和特征融合;再使用Transformer编码器模块以形成不同尺度特征的全局信息表示;最后将失真图像和对应的边缘结构图输入,输出失真图像的质量评估分数。从而有效提高无参考屏幕内容图像质量评估模型的性能。

Description

基于多尺度边缘特征融合的无参考屏幕内容图像质量评估 方法
技术领域
本发明属于图像处理、计算机视觉技术领域,尤其涉及一种基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法。
背景技术
随着云计算、移动互联网以及物联网等技术的快速发展,多客户端交互等多媒体应用场合逐渐增多,由此产生的大量屏幕内容图像已经受到了人们的广泛关注。与从现实场景中拍摄的传统自然图像不同,屏幕内容图像通常由计算机生成的内容组成,包括图像、文本、表格和图案等媒体形式,有时还包括传统的自然图像内容。此外,屏幕内容图像通常具有一些与自然图像不同的特征,前者往往具有更高或更低频率的内容,例如大的平滑区域和尖锐的文本或边缘,并且高饱和度颜色、重复图案等也是屏幕内容图像的典型特征。通常屏幕内容图像在采集、传输、编码和显示等过程中会受到各种失真因素的作用,使得图像质量呈现不同程度的下降,从而影响到用户体验和系统交互性能。因此,在各种屏幕图像的处理应用中为其设计有效准确的质量评价方法极其重要。
根据质量评价过程中所需参考图像信息量的不同,目前图像质量评价的方法主要分为三类:全参考型,半参考型以及无参考型。由于现实生活中我们往往无法获取原始屏幕图像的参考信息,因此对于无参考图像质量评价算法的研究更具有现实意义,同时难度较全参考和半参考方法也更大。对于统计特征突出的屏幕内容图像而言,传统的质量评价方法都是基于一些精心选择的特征构建的,学者手工设计提取屏幕内容图像中的相关特征,再结合有效的机器学习算法将图像特征表征为一个质量评估分数。但传统的质量评价方法比较依赖于手工提取的特征的有效性,而且所提取的特征具有一定的局限性,在图像信息的利用率和模型性能的提升上受到了限制。
近年来,卷积神经网络在图像处理等任务上展现了强大的学习能力和卓越的性能,吸引了不少学者进行屏幕内容图像质量评估的深度学习方法研究。虽然使用深度学习方法比传统的质量评价方法取得了更大的进展和突破,但已有的无参考方法实际评估效果与主观感知一致性较低,且往往忽视了图像自身存在的深层隐含特征。
发明内容
为了弥补现有技术的空白和不足,本发明提出一种基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法,考虑到屏幕内容图像中包含大量锐利的边缘和文本信息,而人类视觉系统对图像的边缘结构等高频信息的变化高度敏感这一特性,提出了融合多尺度失真图像特征及图像边缘结构特征的学习策略,以图像的边缘结构信息来为模型训练提供额外的信息增益,同时引入了Transformer模型进一步建模从卷积神经网络提取的多尺度图像特征的非局部相关性,从而有效提高无参考屏幕内容图像质量评估模型的性能。
本发明具体采用以下技术方案:
一种基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法,其特征在于,包括以下步骤:
首先,对失真屏幕内容图像数据集中的数据进行数据预处理,利用高斯拉普拉斯算子在每幅失真图像的灰度图上进行图像边缘特征提取,生成对应失真屏幕内容图像数据集的边缘结构图数据集,然后将两个数据集按照统一的方式划分为训练集和测试集;
训练基于多尺度边缘特征融合的图像质量评分预测网络,得到无参考屏幕内容图像质量评分预测模型;
所述基于多尺度边缘特征融合的图像质量评分预测网络使用支持双源输入的孪生网络对输入的失真图像和对应的边缘结构图进行多尺度特征提取和特征融合;
再使用Transformer编码器模块以形成不同尺度特征的全局信息表示;
最后将失真图像和对应的边缘结构图输入到训练好的基于多尺度边缘特征融合的图像质量评分预测网络模型中,输出失真图像的质量评估分数。
进一步地,所述对失真屏幕内容图像数据集中的数据进行数据预处理具体包括以下步骤:
步骤S11、根据高斯拉普拉斯算子构建窗口大小为H×W、标准差为σ的高斯拉普拉斯卷积核;
步骤S12、将每一幅失真屏幕内容图像I转换为灰度图g,利用步骤S11得到的高斯拉普拉斯卷积核与转换后的灰度图g进行卷积运算得到中间结果图Icov
步骤S13、将步骤S12得到的中间结果图Icov进行阈值化处理,将边缘强度大于指定阈值的像素点确定为边缘点,设置其值为255,剔除边缘强度小于等于指定阈值的像素点,设置其值为0,得到最终的边缘结构图Iedge
步骤S14、通过步骤S11、步骤S12和步骤S13生成失真屏幕内容图像数据集中每幅失真图像对应的边缘结构图,得到与失真屏幕内容图像数据集相对应的边缘结构图数据集,将两个数据集以统一的方式划分为训练集和测试集,即某失真屏幕内容图像和其对应的边缘结构图同属于训练集或同属于测试集。
进一步地,所述支持双源输入的孪生网络具体为:
以两个共享参数的ResNet50作为主干网络,将失真图像及对应的边缘结构图分别输入到两个分支子网络中进行多尺度的特征提取。为了实现两个分支子网络之间的参数共享,需对边缘结构图进行通道复制,得到与失真图像相同的通道数。然后使用主干网络ResNet50中的阶段三和阶段四作为特征提取模块;
使用支持双源输入的孪生网络对输入的失真图像和对应的边缘结构图进行多尺度特征提取和特征融合具体为:
将训练集中某个批次的失真图像和对应的边缘结构图输入到支持双源输入的孪生网络中,得到两个不同尺度的失真图像特征图和对应边缘结构图的特征图;记主干网络ResNet50中阶段三输出的失真图像的特征图为Fa3、边缘结构图的特征图为Fe3,其维度均为C3×h3×w3,C3表示特征图的通道数,h3和w3分别表示特征图的高和宽;记主干网络ResNet50中阶段四输出的失真图像的特征图为Fa4、边缘结构图的特征图为Fe4,其维度均为C4×h4×w4,C4表示特征图的通道数,h4和w4分别表示特征图的高和宽;
将得到的两个不同尺度的失真图像特征图和对应边缘结构图的特征图进行特征融合,通过边缘结构图的特征信息加强原始失真图像特征图中的锐利边缘信息,具体的计算公式如下:
Figure BDA0003699380760000031
Figure BDA0003699380760000032
其中,
Figure BDA0003699380760000033
表示矩阵加法运算,F3表示融合失真图像特征图Fa3和边缘结构图特征图Fe3后得到特征图,其维度为C3×h3×w3,F4表示融合失真图像特征图Fa4和边缘结构图特征图Fe4后得到特征图,其维度为C4×h4×w4
进一步地,使用Transformer编码器模块以形成不同尺度特征的全局信息表示的具体过程为:
将使用支持双源输入的孪生网络输出的的两个融合了失真图像特征图和边缘结构图特征图形成的不同尺度图像特征F3和F4进行处理,得到处理后的特征图F′3和F′4,且F′3和F′4维度相同:
具体为,将特征图F3依次输入到一个最大池化层和一个卷积核为1×1的卷积层,调整其维度为D×h4×w4;将特征图F4输入到一个卷积核为1×1的卷积层,调整其维度为D×h4×w4。计算公式如下:
F′3=ReLU(Conv1(ReLU(Maxpool(F3))))
F′4=ReLU(Conv2(F4))
其中,ReLU(·)表示ReLU激活函数,Maxpool(*)表示步长为2的空间最大池化层,Conv1(*)、Conv2(*)分别表示两个卷积核为1×1的卷积层,F′3和F′4分别表示由特征图F3和F4经过处理后得到的特征图;
再将特征图F′3和F′4通过维度变换操作改变其特征维度,由D×h4×w4变为N×D,其中N=h4×w4,得到二维的输入矩阵X3和X4;接着分别在二维输入矩阵X3和X4的第一行添加一个额外的可学习特征嵌入Xclass_3和Xclass_4,其维度均为1×D,添加可学习特征嵌入Xclass_3和Xclass_4后的X3和X4的维度均变为(N+1)×D;再分别为二维输入矩阵X3和X4添加一个可学习的位置嵌入Xpos_3和Xpos_4,其维度均为(N+1)×D,从而得到最终的二维输入矩阵Z3和Z4;具体的计算公式如下:
X3=Reshape(F′3)
X4=Reshape(F′4)
Figure BDA0003699380760000041
Figure BDA0003699380760000042
其中,Reshape(·)表示维度变换操作,
Figure BDA0003699380760000043
表示矩阵加法运算,Concat(·)表示特征的拼接操作;
所述Transformer编码器模块,由两个结构相同的Transformer编码器组成;
每个Transformer编码器依次由层归一化模块、多头自注意力模块MHSA、随机失活层、层归一化模块、带GELU激活函数的两层全连接层组成的一个多层感知机模块MLP以及随机失活层构成;
将二维输入矩阵Z3和Z4分别输入到两个所述Transformer编码器中,从而得到不同尺度图像特征的非局部表示;取每个二维输入矩阵Z3和Z4中额外添加的可学习特征嵌入Xclass_3和Xclass_4经过Transformer编码器的输出作为最终的结果表示,具体的计算公式如下:
Z′3=Dropout(MHSA(LN(Z3)))+Z3
Y3=Dropout(MLP(LN(Z′3)))+Z′3
T3=Y3[:0]
Z′4=Dropout(MHSA(LN(Z4)))+Z4
Y4=Dropout(MLP(LN(Z′4)))+Z′4
T4=Y4[:0]
其中,LN(·)表示层归一化操作,Dropout(·)表示随机失活操作,MHSA(·)表示多头自注意力模块中的运算操作,Z′3和Z′4分别表示原始二维输入矩阵Z3和Z4经过多头自注意力模块得到的中间结果,MLP(·)表示MLP模块中的运算操作,Y3和Y4分别表示中间结果Z′3和Z′4经过MLP模块得到的输出结果,“[:0]”表示矩阵切片操作,即取二维矩阵中第一行的所有元素,T3和T4分别表示二维矩阵Y3和Y4中第一行的所有元素,即额外添加的可学习特征嵌入Xclass_3和Xclass_4
最后将经过由Transformer编码器模块输出的特征向量T3和T4进行特征融合,形成输入失真图像及对应边缘结构图的最终编码表示;具体计算公式如下:
Y=Concat(T3,T4)
其中,Concat(·)表示特征的拼接操作,Y表示输入失真图像及对应边缘结构图的最终编码表示。
进一步地,所述训练基于多尺度边缘特征融合的图像质量评分预测网络,得到无参考屏幕内容图像质量评分预测模型具体为:
将所述失真图像及对应边缘结构图的最终编码表示Y输入到两组不同的全连接层和激活层中,其中,第一组全连接层和激活层用于预测失真图像Ia的质量分数FScore,第二组全连接层和激活层用于预测失真图像Ia的失真类型FStyle
再根据所述基于多尺度边缘特征融合的图像质量评分预测网络的损失函数,利用反向传播方法计算失真图像质量分数评估的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;损失函数Loss的计算公式如下:
Figure BDA0003699380760000051
Figure BDA0003699380760000052
Loss=β1×Lscore2×Lstyle
其中,m为训练集中的样本个数,LCE(·)表示交叉熵损失函数,Lscore、Lstyle分别表示质量分数预测损失和失真类型预测损失,yi表示第i个图像样本的真实质量分数,
Figure BDA0003699380760000061
表示第i个图像样本经过网络得到的预测质量分数,ti表示第i个图像样本的真实失真类型,
Figure BDA0003699380760000062
表示第i个图像样本经过网络得到的预测失真类型,β1、β2分别表示两类损失函数的权重;
以批次为单位重复训练,直至计算得到的损失值收敛并趋于稳定,保存网络参数,完成基于多尺度边缘特征融合的无参考屏幕内容图像质量评估网络的训练过程。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上所述的基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法。
与现有技术相比,本发明及其优选方案具有以下有益效果:
本发明的目标在于解决现有的基于深度学习的无参考屏幕内容图像质量评估模型中因网络深度增加而导致的图像浅层特征退化问题,通过失真屏幕内容图像对应的边缘结构图来加强原始失真图像特征图的边缘结构信息,可提高无参考屏幕内容图像质量评估模型的性能。所提出方法能融合多尺度的失真图像特征及图像边缘结构特征来进行学习,并引入Transformer编码器来进一步建模从卷积神经网络提取的多尺度图像特征的非局部相关性,能够准确有效地预测失真屏幕内容图像的质量评估分数。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的网络模型结构图。
图3为本发明实施例的Transformer编码器结构图。
图4为本发明实施例的Transformer编码器中的多层感知机模块结构图。
具体实施方式
为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本说明书使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明所提出的基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法,其具体的设计过程如图1-图4所示,
本实施例提供了具体的步骤:
步骤S1、对失真屏幕内容图像数据集中的数据进行数据预处理,首先利用高斯拉普拉斯算子在每幅失真图像的灰度图上进行图像边缘特征提取,生成对应失真屏幕内容图像数据集的边缘结构图数据集,然后将两个数据集按照统一的方式划分为训练集和测试集;
步骤S2、设计支持双源输入的孪生网络,使用所设计的网络对输入的失真图像和对应的边缘结构图进行多尺度特征提取和特征融合;
步骤S3、设计Transformer编码器模块,该模块由两个结构相同的Transformer编码器组成,用于形成不同尺度特征的全局信息表示;
步骤S4、设计基于多尺度边缘特征融合的图像质量评分预测网络,训练所设计的网络得到无参考屏幕内容图像质量评分预测模型;
步骤S5、将失真图像和对应的边缘结构图输入到训练好的基于多尺度边缘特征融合的图像质量评分预测网络模型中,输出失真图像的质量评估分数。
其中,步骤S1包括以下步骤:
步骤S11、根据高斯拉普拉斯算子构建窗口大小为H×W、标准差为σ的高斯拉普拉斯卷积核。
步骤S12、将每一幅失真屏幕内容图像I转换为灰度图g,利用步骤S11得到的高斯拉普拉斯卷积核与转换后的灰度图g进行卷积运算得到中间结果图Icov
步骤S13、将步骤S12得到的中间结果图Icov进行阈值化处理,将边缘强度大于指定阈值的像素点确定为边缘点,设置其值为255,剔除边缘强度小于等于指定阈值的像素点,设置其值为0,得到最终的边缘结构图Iedge
步骤S14、通过步骤S11、步骤S12和步骤S13生成失真屏幕内容图像数据集中每幅失真图像对应的边缘结构图,得到与失真屏幕内容图像数据集相对应的边缘结构图数据集,将两个数据集以统一的方式划分为训练集和测试集,即某失真屏幕内容图像和其对应的边缘结构图同属于训练集或同属于测试集。
步骤S2包括以下步骤:
步骤S21、以两个共享参数的ResNet50作为主干网络,将失真图像(如Ia)及对应的边缘结构图(如Ie)分别输入到两个分支子网络中进行多尺度的特征提取。为了实现两个分支子网络之间的参数共享,对边缘结构图Ie进行通道复制,得到与失真图像Ia相同的通道数。由于浅层网络提取到的图像特征包含较多的细节信息,而深层网络提取到的图像特征包含较多的语义信息,因此本实施例使用主干网络ResNet50中的阶段三和阶段四作为特征提取模块。
步骤S22、将经过步骤S1得到的训练集中的某个批次的失真图像和对应的边缘结构图输入到步骤S21的模型中,得到两个不同尺度的失真图像特征图和对应边缘结构图的特征图。记主干网络ResNet50中阶段三输出的失真图像的特征图为Fa3、边缘结构图的特征图为Fe3,其维度均为C3×h3×w3,C3表示特征图的通道数,h3和w3分别表示特征图的高和宽;记主干网络ResNet50中阶段四输出的失真图像的特征图为Fa4、边缘结构图的特征图为Fe4,其维度均为C4×h4×w4,C4表示特征图的通道数,h4和w4分别表示特征图的高和宽;
步骤S23、将经过步骤S22得到的两个不同尺度的失真图像特征图和对应边缘结构图的特征图进行特征融合,通过边缘结构图的特征信息加强原始失真图像特征图中的锐利边缘信息,具体的计算公式如下:
Figure BDA0003699380760000081
Figure BDA0003699380760000082
其中,
Figure BDA0003699380760000083
表示矩阵加法运算,F3表示融合失真图像特征图Fa3和边缘结构图特征图Fe3后得到特征图,其维度为C3×h3×w3,F4表示融合失真图像特征图Fa4和边缘结构图特征图Fe4后得到特征图,其维度为C4×h4×w4
步骤S3包括以下步骤:
步骤S31、将经过步骤23得到的两个融合了失真图像特征图和边缘结构图特征图形成的不同尺度图像特征F3和F4进行处理,得到处理后的特征图F′3和F′4,且F′3和F′4维度相同。具体地,将特征图F3依次输入到一个最大池化层和一个卷积核为1×1的卷积层,调整其维度为D×h4×w4;将特征图F4输入到一个卷积核为1×1的卷积层,调整其维度为D×h4×w4。计算公式如下:
F′3=ReLU(Conv1(ReLU(Maxpool(F3))))
F′4=ReLU(Conv2(F4))
其中,ReLU(·)表示ReLU激活函数,Maxpool(*)表示步长为2的空间最大池化层,Conv1(*)、Conv2(*)分别表示两个卷积核为1×1的卷积层,F′3和F′4分别表示由特征图F3和F4经过处理后得到的特征图。
步骤S32、将经过步骤S31得到的特征图F′3和F′4通过维度变换操作改变其特征维度,由D×h4×w4变为N×D(其中N=h4×w4),得到二维的输入矩阵X3和X4。接着分别在二维输入矩阵X3和X4的第一行添加一个额外的可学习特征嵌入Xclass_3和Xclass_4,其维度均为1×D,添加可学习特征嵌入Xclass_3和Xclass_4后的X3和X4的维度均变为(N+1)×D。再分别为二维输入矩阵X3和X4添加一个可学习的位置嵌入Xpos_3和Xpos_4,其维度均为(N+1)×D,从而得到最终的二维输入矩阵Z3和Z4。具体的计算公式如下:
X3=Reshape(F′3)
X4=Reshape(F′4)
Figure BDA0003699380760000091
Figure BDA0003699380760000092
其中,Reshape(·)表示维度变换操作,
Figure BDA0003699380760000093
表示矩阵加法运算,Concat(·)表示特征的拼接操作。
步骤S33、设计Transformer编码器模块,该模块由两个结构相同的Transformer编码器组成。每个Transformer编码器依次由层归一化模块、多头自注意力模块(记为MHSA)、随机失活层、层归一化模块、带GELU激活函数的两层全连接层组成的一个多层感知机模块(记为MLP)以及随机失活层构成。将经过步骤S32得到的二维输入矩阵Z3和Z4分别输入到两个Transformer编码器中,从而得到不同尺度图像特征的非局部表示。取每个二维输入矩阵Z3和Z4中额外添加的可学习特征嵌入Xclass_3和Xclass_4经过Transformer编码器的输出作为最终的结果表示。具体的计算公式如下:
Z′3=Dropout(MHSA(LN(Z3)))+Z3
Y3=Dropout(MLP(LN(Z′3)))+Z′3
T3=Y3[:0]
Z′4=Dropout(MHSA(LN(Z4)))+Z4
Y4=Dropout(MLP(LN(Z′4)))+Z′4
T4=Y4[:0]
其中,LN(·)表示层归一化操作,Dropout(·)表示随机失活操作,MHSA(·)表示多头自注意力模块中的运算操作,Z′3和Z′4分别表示原始二维输入矩阵Z3和Z4经过多头自注意力模块得到的中间结果,MLP(·)表示MLP模块中的运算操作,Y3和Y4分别表示中间结果Z′3和Z′4经过MLP模块得到的输出结果,“[:0]”表示矩阵切片操作(即取二维矩阵中第一行的所有元素),T3和T4分别表示二维矩阵Y3和Y4中第一行的所有元素(即额外添加的可学习特征嵌入Xclass_3和Xclass_4)。
步骤S34、将经过步骤S33得到的由Transformer编码器模块输出的特征向量T3和T4进行特征融合,形成输入失真图像及对应边缘结构图的最终编码表示。具体计算公式如下:
Y=Concat(T3,T4)
其中,Concat(·)表示特征的拼接操作,Y表示输入失真图像及对应边缘结构图的最终编码表示。
步骤S4包括以下步骤:
步骤S41、针对步骤S34得到的输入失真图像及对应边缘结构图的最终编码表示Y,将其输入到两组不同的全连接层和激活层中,第一组全连接层和激活层用于预测失真图像Ia的质量分数FScore,第二组全连接层和激活层用于预测失真图像Ia的失真类型FStyle
步骤S42、设计基于多尺度边缘特征融合的无参考屏幕内容图像质量评估网络的损失函数,利用反向传播方法计算失真图像质量分数评估的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数。损失函数Loss的计算公式如下:
Figure BDA0003699380760000101
Figure BDA0003699380760000111
Loss=β1×Lscore2×Lstyle
其中,m为训练集中的样本个数,LCE(·)表示交叉熵损失函数,Lscore、Lstyle分别表示质量分数预测损失和失真类型预测损失,yi表示第i个图像样本的真实质量分数,
Figure BDA0003699380760000112
表示第i个图像样本经过网络得到的预测质量分数,ti表示第i个图像样本的真实失真类型,
Figure BDA0003699380760000113
表示第i个图像样本经过网络得到的预测失真类型,β1、β2分别表示两类损失函数的权重。
步骤S43、以批次为单位重复上述步骤S41至步骤S42,直至步骤S42中计算得到的损失值收敛并趋于稳定,保存网络参数,完成基于多尺度边缘特征融合的无参考屏幕内容图像质量评估网络的训练过程。
步骤S5包括以下步骤:
步骤S51、将测试集中的失真屏幕内容图像和其对应的边缘结构图输入到训练好的基于多尺度边缘特征融合的图像质量评分预测网络模型中,输出失真图像的质量评估分数。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程、以及流程图中的流程结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程图中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。

Claims (7)

1.一种基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法,其特征在于,包括以下步骤:
首先,对失真屏幕内容图像数据集中的数据进行数据预处理,利用高斯拉普拉斯算子在每幅失真图像的灰度图上进行图像边缘特征提取,生成对应失真屏幕内容图像数据集的边缘结构图数据集,然后将两个数据集按照统一的方式划分为训练集和测试集;
训练基于多尺度边缘特征融合的图像质量评分预测网络,得到无参考屏幕内容图像质量评分预测模型;
所述基于多尺度边缘特征融合的图像质量评分预测网络使用支持双源输入的孪生网络对输入的失真图像和对应的边缘结构图进行多尺度特征提取和特征融合;
再使用Transformer编码器模块以形成不同尺度特征的全局信息表示;
最后将失真图像和对应的边缘结构图输入到训练好的基于多尺度边缘特征融合的图像质量评分预测网络模型中,输出失真图像的质量评估分数。
2.根据权利要求1所述的基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法,其特征在于,所述对失真屏幕内容图像数据集中的数据进行数据预处理具体包括以下步骤:
步骤S11、根据高斯拉普拉斯算子构建窗口大小为H×W、标准差为σ的高斯拉普拉斯卷积核;
步骤S12、将每一幅失真屏幕内容图像I转换为灰度图g,利用步骤S11得到的高斯拉普拉斯卷积核与转换后的灰度图g进行卷积运算得到中间结果图Icov
步骤S13、将步骤S12得到的中间结果图Icov进行阈值化处理,将边缘强度大于指定阈值的像素点确定为边缘点,设置其值为255,剔除边缘强度小于等于指定阈值的像素点,设置其值为0,得到最终的边缘结构图Iedge
步骤S14、通过步骤S11、步骤S12和步骤S13生成失真屏幕内容图像数据集中每幅失真图像对应的边缘结构图,得到与失真屏幕内容图像数据集相对应的边缘结构图数据集,将两个数据集以统一的方式划分为训练集和测试集,即某失真屏幕内容图像和其对应的边缘结构图同属于训练集或同属于测试集。
3.根据权利要求1所述的基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法,其特征在于,所述支持双源输入的孪生网络具体为:
以两个共享参数的ResNet50作为主干网络,将失真图像及对应的边缘结构图分别输入到两个分支子网络中进行多尺度的特征提取;为了实现两个分支子网络之间的参数共享,需对边缘结构图进行通道复制,得到与失真图像相同的通道数;然后使用主干网络ResNet50中的阶段三和阶段四作为特征提取模块;
使用支持双源输入的孪生网络对输入的失真图像和对应的边缘结构图进行多尺度特征提取和特征融合具体为:
将训练集中某个批次的失真图像和对应的边缘结构图输入到支持双源输入的孪生网络中,得到两个不同尺度的失真图像特征图和对应边缘结构图的特征图;记主干网络ResNet50中阶段三输出的失真图像的特征图为Fa3、边缘结构图的特征图为Fe3,其维度均为C3×h3×w3,C3表示特征图的通道数,h3和w3分别表示特征图的高和宽;记主干网络ResNet50中阶段四输出的失真图像的特征图为Fa4、边缘结构图的特征图为Fe4,其维度均为C4×h4×w4,C4表示特征图的通道数,h4和w4分别表示特征图的高和宽;
将得到的两个不同尺度的失真图像特征图和对应边缘结构图的特征图进行特征融合,通过边缘结构图的特征信息加强原始失真图像特征图中的锐利边缘信息,具体的计算公式如下:
Figure FDA0003699380750000021
Figure FDA0003699380750000022
其中,
Figure FDA0003699380750000023
表示矩阵加法运算,F3表示融合失真图像特征图Fa3和边缘结构图特征图Fe3后得到特征图,其维度为C3×h3×w3,F4表示融合失真图像特征图Fa4和边缘结构图特征图Fe4后得到特征图,其维度为C4×h4×w4
4.根据权利要求3所述的基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法,其特征在于:使用Transformer编码器模块以形成不同尺度特征的全局信息表示的具体过程为:
将使用支持双源输入的孪生网络输出的的两个融合了失真图像特征图和边缘结构图特征图形成的不同尺度图像特征F3和F4进行处理,得到处理后的特征图F′3和F′4,且F′3和F′4维度相同:
具体为,将特征图F3依次输入到一个最大池化层和一个卷积核为1×1的卷积层,调整其维度为D×h4×w4;将特征图F4输入到一个卷积核为1×1的卷积层,调整其维度为D×h4×w4。计算公式如下:
F′3=ReLU(Conv1(ReLU(Maxpool(F3))))
F′4=ReLU(Conv2(F4))
其中,ReLU(·)表示ReLU激活函数,Maxpool(*)表示步长为2的空间最大池化层,Conv1(*)、Cony2(*)分别表示两个卷积核为1×1的卷积层,F′3和F′4分别表示由特征图F3和F4经过处理后得到的特征图;
再将特征图F′3和F′4通过维度变换操作改变其特征维度,由D×h4×w4变为N×D,其中N=h4×w4,得到二维的输入矩阵X3和X4;接着分别在二维输入矩阵X3和X4的第一行添加一个额外的可学习特征嵌入Xclass_3和Xclass_4,其维度均为1×D,添加可学习特征嵌入Xclass_3和Xclass_4后的X3和X4的维度均变为(N+1)×D;再分别为二维输入矩阵X3和X4添加一个可学习的位置嵌入Xpos_3和Xpos_4,其维度均为(N+1)×D,从而得到最终的二维输入矩阵Z3和Z4;具体的计算公式如下:
X3=Reshape(F′3)
X4=Reshape(F′4)
Figure FDA0003699380750000031
Figure FDA0003699380750000032
其中,Reshape(·)表示维度变换操作,
Figure FDA0003699380750000033
表示矩阵加法运算,Concat(·)表示特征的拼接操作;
所述Transformer编码器模块,由两个结构相同的Transformer编码器组成;
每个Transformer编码器依次由层归一化模块、多头自注意力模块MHSA、随机失活层、层归一化模块、带GELU激活函数的两层全连接层组成的一个多层感知机模块MLP以及随机失活层构成;
将二维输入矩阵Z3和Z4分别输入到两个所述Transformer编码器中,从而得到不同尺度图像特征的非局部表示;取每个二维输入矩阵Z3和Z4中额外添加的可学习特征嵌入Xclass_3和Xclass_4经过Transformer编码器的输出作为最终的结果表示,具体的计算公式如下:
Z′3=Dropout(MHSA(LN(Z3)))+Z3
Y3=Dropout(MLP(LN(Z′3)))+Z′3
T3=Y3[:0]
Z′4=Dropout(MHSA(LN(Z4)))+Z4
Y4=Dropout(MLP(LN(Z′4)))+Z′4
T4=Y4[:0]
其中,LN(·)表示层归一化操作,Dropout(·)表示随机失活操作,MHSA(·)表示多头自注意力模块中的运算操作,Z′3和Z′4分别表示原始二维输入矩阵Z3和Z4经过多头自注意力模块得到的中间结果,MLP(·)表示MLP模块中的运算操作,Y3和Y4分别表示中间结果Z′3和Z′4经过MLP模块得到的输出结果,“[:0]”表示矩阵切片操作,即取二维矩阵中第一行的所有元素,T3和T4分别表示二维矩阵Y3和Y4中第一行的所有元素,即额外添加的可学习特征嵌入Xclass_3和Xclass_4
最后将经过由Transformer编码器模块输出的特征向量T3和T4进行特征融合,形成输入失真图像及对应边缘结构图的最终编码表示;具体计算公式如下:
Y=Concat(T3,T4)
其中,Concat(·)表示特征的拼接操作,Y表示输入失真图像及对应边缘结构图的最终编码表示。
5.根据权利要求4所述的基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法,其特征在于,所述训练基于多尺度边缘特征融合的图像质量评分预测网络,得到无参考屏幕内容图像质量评分预测模型具体为:
将所述失真图像及对应边缘结构图的最终编码表示Y输入到两组不同的全连接层和激活层中,其中,第一组全连接层和激活层用于预测失真图像Ia的质量分数FScore,第二组全连接层和激活层用于预测失真图像Ia的失真类型FStyle
再根据所述基于多尺度边缘特征融合的图像质量评分预测网络的损失函数,利用反向传播方法计算失真图像质量分数评估的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;损失函数Loss的计算公式如下:
Figure FDA0003699380750000041
Figure FDA0003699380750000051
Loss=β1×Lscore2×Lstyle
其中,m为训练集中的样本个数,LCE(·)表示交叉熵损失函数,Lscore、Lstyle分别表示质量分数预测损失和失真类型预测损失,yi表示第i个图像样本的真实质量分数,
Figure FDA0003699380750000052
表示第i个图像样本经过网络得到的预测质量分数,ti表示第i个图像样本的真实失真类型,
Figure FDA0003699380750000053
表示第i个图像样本经过网络得到的预测失真类型,β1、β2分别表示两类损失函数的权重;
以批次为单位重复训练,直至计算得到的损失值收敛并趋于稳定,保存网络参数,完成基于多尺度边缘特征融合的无参考屏幕内容图像质量评估网络的训练过程。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5其中任一所述的基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5其中任一所述的基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法。
CN202210684718.1A 2022-06-17 2022-06-17 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法 Pending CN114897884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210684718.1A CN114897884A (zh) 2022-06-17 2022-06-17 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210684718.1A CN114897884A (zh) 2022-06-17 2022-06-17 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法

Publications (1)

Publication Number Publication Date
CN114897884A true CN114897884A (zh) 2022-08-12

Family

ID=82728853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210684718.1A Pending CN114897884A (zh) 2022-06-17 2022-06-17 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法

Country Status (1)

Country Link
CN (1) CN114897884A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116030095A (zh) * 2023-02-01 2023-04-28 西南石油大学 一种基于双分支孪生网络结构的视觉目标跟踪方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116030095A (zh) * 2023-02-01 2023-04-28 西南石油大学 一种基于双分支孪生网络结构的视觉目标跟踪方法
CN116030095B (zh) * 2023-02-01 2023-06-20 西南石油大学 一种基于双分支孪生网络结构的视觉目标跟踪方法

Similar Documents

Publication Publication Date Title
CN110599409B (zh) 基于多尺度卷积组与并行的卷积神经网络图像去噪方法
CN107767413B (zh) 一种基于卷积神经网络的图像深度估计方法
CN111754596B (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
CN108875935B (zh) 基于生成对抗网络的自然图像目标材质视觉特征映射方法
CN109360178A (zh) 基于融合图像的无参考立体图像质量评价方法
CN111709914B (zh) 一种基于hvs特性的无参考图像质量评价方法
CN111047543A (zh) 图像增强方法、装置和存储介质
CN112991493B (zh) 基于vae-gan和混合密度网络的灰度图像着色方法
DE112018007236T5 (de) Verfahren und vorrichtung zum erzeugen eines dreidimensionalen (3d) modells zur rekonstruktion einer 3d-szene
CN109410158B (zh) 一种基于卷积神经网络的多焦点图像融合方法
CN115424088A (zh) 图像处理模型训练方法以及装置
CN115063318A (zh) 自适应频率分解的低光照图像增强方法与相关设备
CN114897884A (zh) 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法
CN104781847B (zh) 视错觉分析装置及方法、参考视错觉的图像生成装置及方法
CN113486925A (zh) 模型训练方法、眼底图像生成方法、模型评估方法及装置
Ma et al. Enhancing the security of image steganography via multiple adversarial networks and channel attention modules
CN111652238B (zh) 一种多模型集成方法及系统
CN115953330A (zh) 虚拟场景图像的纹理优化方法、装置、设备和存储介质
CN115063847A (zh) 一种面部图像获取模型的训练方法及装置
CN108280511A (zh) 一种基于卷积网络进行网络访问数据进行处理的方法
CN114841887A (zh) 一种基于多层次差异学习的图像恢复质量评价方法
Ayunts et al. No-Reference Quality Metrics for Image Decolorization
CN112395964A (zh) 一种基于深度学习的能见度估计方法
CN112419169A (zh) 基于噪声先验的cnn医学ct图像去噪方法
Kung et al. A Study on Image Quality Assessment using Neural Networks and Structure Similarty.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination