CN115457015A - 一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置 - Google Patents

一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置 Download PDF

Info

Publication number
CN115457015A
CN115457015A CN202211189584.2A CN202211189584A CN115457015A CN 115457015 A CN115457015 A CN 115457015A CN 202211189584 A CN202211189584 A CN 202211189584A CN 115457015 A CN115457015 A CN 115457015A
Authority
CN
China
Prior art keywords
image
perception
distortion
module
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211189584.2A
Other languages
English (en)
Inventor
熊健
王小奇
罗旺
高�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211189584.2A priority Critical patent/CN115457015A/zh
Publication of CN115457015A publication Critical patent/CN115457015A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置,通过考虑人眼视觉系统的视觉掩蔽效应提出了三个模块:内容感知模块,失真感知模块和视觉交互模块。其中,内容感知模块采用基于ImageNet预训练的ResNet50网络用以提取语义特征作为图像内容表示;失真感知模块该模块通过在大规模合成失真数据集上训练BoTNet以提取图像失真的表征特征;视觉交互模块通过基于自注意力机制的特征融合模块来建模图像内容和失真的视觉交互关系。本发明提出的视觉感知交互网络基于人眼视觉系统的视觉掩蔽效应,对图像内容和图像失真的视觉交互作用进行建模,能够有效提高图像感知质量评估性能。

Description

一种基于视觉交互感知双流网络的图像无参考质量评估方法 及装置
技术领域
本发明涉及一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置,属于图像质量评估技术领域。
背景技术
在社交平台和视觉媒体应用中,每天都有大量的图像被上传和下载。然而,在图像处理的各个阶段,包括采集、压缩、传输和存储,图像的感知质量都会受损。因此,在处理系统中稳定地控制图像质量是至关重要的。根据可用的参考信息量,图像质量评估(imagequality assessment,IQA)算法通常分为三种类型:全参考评估方法、半参考评估方法和无参考评估方法(盲参考评估方法,Blind IQA,BIQA)。由于在许多应用场景中无法获得参考信息,近年来,直接对图像进行操作的无参考图像质量评估因需求更广泛而得到了更深入的研究。
客观图像质量评估的目标是自动评估与人类主观判断一致的图像的感知质量。为了构建IQA数据集,许多观察者被邀请对失真图像的视觉质量进行评价。然后,每张图像的感知质量通过平均意见分数(MOS或DMOS)进行标注。传统的BIQA模型通常是在精心设计的手工特征上设计的,这些特征通过非线性回归模型映射到MOS值。然而,由于失真和图像内容的复杂性,手工制作的特征的质量感知能力仍然有限。
近年来,由于深度神经网络提取特征的强大表示能力,越来越多的基于深度学习的BIQA模型被提出。主流模型包括两类:基于失真强度排名的模型和基于深度语义特征的模型。在失真强度排名模型的训练过程中,通过使用一定范围的失真强度来合成失真图像库,失真图像的质量按照相应的失真强度进行排序以用于模型训练。然而,对于相同的原始图像,失真图像的质量排名与失真强度高度相关,而对于不同内容的图像,图像质量的排名通常与失真强度的相关性较弱。基于深度语义特征模型往往利用图像分类数据集(如ImageNet等)的预训练权重作为特征提取骨干网络的初始化,这类工作试图将语义特征的破坏程度映射为图像质量。然而,语义特征的破坏并不一定反映图像质量的下降。原因是,图像分类任务需要对噪声具有鲁棒性。特别地,在分类任务的训练过程中,一般都会采用添加噪声的方式进行数据增强。在这种情况下,基于深度语义特征的模型对一些仍然会导致图像质量下降的失真往往不敏感。
视觉掩蔽效应的原理表明,在观察图像时,人类视觉系统(human visualsystems,HVS)对于具有同一失真但不同内容的图像有不同的失真可见性。HVS对图像失真的感知受到图像内容和失真之间的相互作用的影响。然而,基于失真强度排名的模型和基于深度语义特征的模型都没有考虑到这种互动。具体来说,基于失真强度排名的模型主要使用失真强度对图像质量进行排序,而基于语义的方法只关注深度语义特征的破坏程度作为图像内容质量的表示。
发明内容
本发明的目的在于提出一种基于视觉交互感知双流网络(visual interactionperception network,VIPNet)的无参考图像质量评估方法及装置,从图像失真可见性的角度评估图像质量,这种图像失真可见性被建模为图像内容和相应失真的视觉交互。
为达到上述目的,本发明采用的技术方案如下:
本发明提供一种基于视觉交互感知双流网络的图像无参考质量评估方法,包括:
对图像进行预处理;
采用预先训练的内容感知模块对预处理的图像进行语义特征提取;
采用预先训练的失真感知模块对预处理的图像进行失真感知特征提取;
将提取的图像的语义特征和失真感知特征采用预先训练的视觉交互感知模块进行特征融合,得到融合特征;
基于融合特征进行图像质量评估,得到图像质量分数。
进一步的,所述对图像进行预处理,包括:
将图像裁剪为统一尺寸。
进一步的,预先训练内容感知模块包括:
采用Imagenet作为训练集,输入去除最后的全局平均池化层和全连接层的图像分类网络ResNet50中,得到ResNet50的第t个模块的输出特征图
Figure BDA0003868670820000021
t∈1,2,3,4;
将得到的特征图
Figure BDA0003868670820000022
各自输入具有1×1核、1×1步长和输出通道大小为ct的卷积层;
将各卷积层的操作结果采用自适应池化层下采样到相同大小;
将自适应池化层的输出特征进行连接,作为多尺度的图像语义特征;
采用Imagenet训练图像分类网络ResNet50的网络权重,训练完成后,将ResNet50去除最后的全局平均池化层和全连接层的模块,以及所述具有1×1核、1×1步长和输出通道大小为ct的卷积层和自适应池化层组成的结构作为内容感知模块。
进一步的,所述输出通道大小ct的取值为:c1=128,c2=256,c3=512,c4=1152。
进一步的,预先训练失真感知模块包括:
构建失真图像训练样本集;
将每个失真图像训练样本转换为YCbCr颜色空间作为BoTNet的输入进行训练;
训练完成后,去除最后的全局平均池化层和线性层,得到失真感知模块。
进一步的,所述构建失真图像训练样本集,包括:
从KADIS-700K数据库中选取N张原始图像;
对每张原始图像生成具有30种失真类型、每种失真类型具有5种失真强度的失真图像样本;
将150×N个失真图像样本构成失真图像训练样本集;所述30种失真类型包括:粉红噪声、有损压缩、对比度变化、曝光不足、曝光过度、以及与KADID-10K数据库相同25种失真类型。
进一步的,预先训练视觉交互感知模块包括:
采用训练好的内容感知模块提取训练样本的语义特征,以及采用训练好的失真感知模块提取训练样本的失真感知特征,将训练样本的语义特征和失真感知特征连接起来,得到F,其中
Figure BDA0003868670820000031
cd表示失真感知特征输出通道大小,w和h分别表示输出特征的宽度和高度;
将F扁平化,并通过卷积操作映射到特征序列
Figure BDA0003868670820000032
其中
Figure BDA0003868670820000033
l=w×h为特征序列的长度,d为特征序列的尺寸;
将一个可学习的标记
Figure BDA0003868670820000034
添加到
Figure BDA0003868670820000035
中,并添加位置嵌入PE,得到训练样本的特征
Figure BDA0003868670820000036
将训练样本的特征依次输入多头自注意力机制的特征融合模块和多层感知器块进行训练,最终得到训练好的视觉交互感知模块。
进一步的,所述基于融合特征进行图像质量评估,得到图像质量分数,包括:
对最终得到的融合特征通过一个全连接层输出质量预测分数。
本发明还提供一种基于视觉交互感知双流网络的图像无参考质量评估装置,包括:
内容感知模块,用于提取图像的语义特征;
失真感知模块,用于提取图像的失真感知特征;
视觉交互模块,用于对图像的语义特征和失真感知特征进行特征融合;
评估模块,用于基于融合特征对图像质量进行评估,得到图像质量分数;
所述内容感知模块采用前述的基于视觉交互感知双流网络的图像无参考质量评估方法进行预先训练;
所述失真感知模块采用前述的基于视觉交互感知双流网络的图像无参考质量评估方法进行预先训练;
所述视觉交互模块采用前述的基于视觉交互感知双流网络的图像无参考质量评估方法进行预先训练。
进一步的,所述评估模块采用全连接层。
本发明的有益效果为:
本发明所提出的基于视觉交互感知双流网络的无参考图像质量评估方法,基于视觉掩蔽效应原理,对图像内容和图像失真的交互作用进行建模,能够有效提高图像质量评估的性能。本发明在模块训练过程中,采用一种分阶段(two-stage)的训练方式,这种训练方式使得模型能够显示地提取图像内容和图像失真的特征表示。
附图说明
图1为本发明实施例提供的基于视觉交互感知双流网络的图像无参考质量评估装置架构。
具体实施方式
下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
本实施例提供一种基于视觉交互感知双流网络的图像无参考质量评估装置,参见图1,包括内容感知模块(content perception module,CPM)、失真感知模块(distortionperception module,DPM)和视觉交互模块(visual interaction module,VIM)。
内容感知模块用于,提取图像的语义特征作为对图像内容的感知。
失真感知模块用于,提取图像的失真感知特征。
视觉交互模块用于,对图像的语义特征和图像的失真感知特征进行特征融合;
评估模块用于,基于融合特征对图像质量进行评估,得到图像质量分数。
本实施例中,内容感知模块采用去除最后的全局平均池化层(average pooling)和全连接层的图像分类网络(如ResNet50)训练生成。
本领域技术人员应该知道,ResNet50主要包括四个模块,每个模块通过堆叠不同数目的残差块构成,最后通过全局平均池化层和全连接层对图像进行分类。
本实施例中,采用Imagenet训练ResNet50,训练过程如下:
将训练集的图像输入ResNet50,得到第t个模块的输出特征图
Figure BDA0003868670820000041
其中t∈1,2,3,4;
将得到的特征图
Figure BDA0003868670820000042
送入具有1×1核、1×1步长和输出通道大小为ct的卷积层;
将每个模块的卷积结果采用自适应池化层下采样到相同大小;
将每个模块的自适应池化层的输出特征连接起来,作为多尺度的图像语义特征,表示为:
Figure BDA0003868670820000043
其中,
Figure BDA0003868670820000044
cs=Σtct、w和h分别为输出图像语义特征的通道大小、宽度和高度。操作Concat{·}、Pooling(·)和Conv(·)分别表示连接、自适应池化和卷积。
本实施例中,输出通道的取值分别为128,256,512,1152。
需要说明的是,输出特征图的尺寸为输入图像尺寸的1/32,其中32是由ResNet50结构决定的。
对ResNet50网络权重进行训练,训练完成后,
将ResNet50网络去除最后的全局平均池化层和全连接层的四个模块,以及上述的具有1×1核、1×1步长和输出通道大小为ct的卷积层和自适应池化层组成的结构作为内容感知模块。
本实施例中,失真感知模块采用去除最后的全局平均池化层和线性层的BoTNet训练生成。
本实施例中,失真感知模块训练过程如下:
首先生成一个大规模的合成失真数据集。具体地,从KADIS-700K数据库中选取40,000张原始图像,对每张原始图像生成具有30种失真类型、每种失真类型具有5种失真强度的失真图像样本,其中25种失真类型与KADID-10K数据库相同,其他5种类型包括:粉红噪声(pink noise)、有损压缩(lossy compression)、对比度变化(contrast change)、曝光不足(under exposure)和曝光过度(over exposure)。因此,每张原始图像有150个失真图像样本(即30失真类型x 5种失真强度),共40000×150个失真图像样本构成训练集。
本领域技术人员应该知道,KADIS-700K和KADID-10K均为现有的合成失真IQA数据库。
采用基于空间卷积和多头自注意力(Multi-head self-attention,MHSA)的混合设计的BoTNet为骨干网络,用于失真分类任务训练。BoTNet用MHSA取代了ResNet最后三个瓶颈块中的卷积层。
将每个失真图像样本转换为YCbCr颜色空间作为输入,表示为:
Figure BDA0003868670820000051
其中Y代表亮度信息,Cb和Cr代表色度信息,R、G、B分别为失真图像样本的颜色信息。
对于输入图像x及其对应的分类标签y,其中y∈{c|0≤c≤C-1,c∈N+},c为失真图像的失真类别,C是生成的失真图像数据集中的失真类别数量,本实施例中,C为150。
基于BoTNet的失真分类模型的输出表示为:
Figure BDA0003868670820000052
其中
Figure BDA0003868670820000053
表示第c类的预测概率,
定义如下:
Figure BDA0003868670820000054
其中φθ表示网络参数为θ的失真分类网络,[·]c是指概率向量中的第c个元素。Softmax()表示将输出的向量归一化0到1之间。
为了训练失真分类模型,本实施例将交叉熵损失函数
Figure BDA0003868670820000055
最小化,即:
Figure BDA0003868670820000056
其中1[y=c]表示为标签的one-hot编码。
采用生成的大规模合成失真数据集训练BoTNet,把去除最后的average pooling层和线性层的BoTNet作为失真感知模块(DPM)。
对于输入图像,失真感知模块DPM的最终特征谱被提取为失真感知表征,表示为FDPM,其中
Figure BDA0003868670820000057
cd、w和h分别表示输出特征的通道大小、宽度和高度。
本实施例中,视觉交互感知模块用于,基于自注意力机制对图像的语义特征和失真感知特征进行特征融合。
视觉交互感知模块具体用于,
将图像的语义特征FCPM和失真感知特征FDPM的特征连接起来,得到F,其中
Figure BDA0003868670820000058
将F扁平化,并通过卷积操作映射到特征序列
Figure BDA0003868670820000059
其中
Figure BDA00038686708200000510
l=w×h和d分别是序列的长度和尺寸。
将一个可学习的标记
Figure BDA00038686708200000511
添加到
Figure BDA00038686708200000512
中,并添加位置嵌入PE(Position Embedding),这样模型就能更好地感知图像不同区域对质量预测的贡献,其中
Figure BDA0003868670820000061
在基于自注意力机制的特征融合模块(self-attention based feature fusionblock,SAFFB)中,通过定义三个可学习的权重矩阵,将
Figure BDA0003868670820000062
转化为三个不同的序列向量(查询Q、关键字K和值V),表示为:
Figure BDA0003868670820000063
其中
Figure BDA0003868670820000064
而dq=dk=dv=d′是相应序列向量的维度。
通过Softmax
Figure BDA0003868670820000065
计算特征交互的权重,表示为:
Figure BDA0003868670820000066
为了提取输入序列中不同元素之间的多种复杂关系,多头自注意力由多个自注意力块组成,它们将加入标记
Figure BDA0003868670820000067
和位置嵌入PE后的特征线性地投射到多个特征子空间,并由相互独立的注意力块并行处理。多个SAFFB的结果向量被串联并映射到最终输出,表述为:
Figure BDA0003868670820000068
其中H是SAFFB的数量,
Figure BDA0003868670820000069
是输出线性投影矩阵。
本发明在Multi-SAFFB之后增加了一个多层感知器(MLP)块,在每个块之前利用Layer Normalization(LN)进行层归一化,并在它们之间增加残余连接。
VIM的过程可以简单表述为:
Figure BDA00038686708200000610
其中m=1,2,…M,M是模型的深度,m=1时,zm-1=z0
MLP包含两层GELU激活函数。
本实施例中,评估模块具体用于,对融合特征zm通过一个全连接层来输出质量预测分数。
本实施例基于CPM和DPM提供语义特征和失真特征,VIM的目标是对两者之间的交互作用进行建模。然而,由于主观质量分数无法显式的引导模型提取内容和失真的特征表示。在训练VIM同时更新模块CPM和DPM的参数会对图像内容和失真特征造成破坏。因此,为了更好地建立互动模型,本实施例采用基于分阶段的训练方式:在第一阶段,我们生成一个大规模的合成失真数据库,通过构建一个失真分类任务来获取失真感知模块;其次,利用预训练的图像分类网络Resnet50作为内容感知模块;在第二阶段,视觉交互模块通过基于自注意力机制的特征融合模块来建模图像内容和失真的视觉交互关系。在优化模型过程中,内容感知模块和失真感知模块的预训练权重被冻结,仅通过反向传播更新视觉交互模型的参数。
需要说明的是,本实施例在pytorch实验平台上进行实现。
实施例2
本实施例提供一种基于视觉交互感知双流网络的图像无参考质量评估方法,包括:
S1、对图像进行预处理;
S2、采用预先训练的内容感知模块提取图像的语义特征;
S3、采用预先训练的失真感知模块提取图像的失真感知特征;
S4、采用预先训练的视觉交互模块将提取图像的语义特征和失真感知特征进行特征融合,得到融合特征;
S5、基于融合特征进行图像质量评估,得到图像质量分数。
本实施例中,对图像进行预处理包括:
将图像裁剪为统一尺寸,如288×384。
本实施例中,内容感知模块基于实施例1中的方式进行训练。
本实施例中,失真感知模块基于实施例1中的方式进行训练。
本实施例中,视觉交互模块基于实施例1中的方式进行训练。
本实施例中,通过一个全连接层输出质量预测分数。
值得指出的是,该装置实施例是与上述方法实施例对应的,上述方法实施例的实现方式均适用于该装置实施例中,并能达到相同或相似的技术效果,故不在此赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于视觉交互感知双流网络的图像无参考质量评估方法,其特征在于,包括:
对图像进行预处理;
采用预先训练的内容感知模块对预处理的图像进行语义特征提取;
采用预先训练的失真感知模块对预处理的图像进行失真感知特征提取;
将提取的图像的语义特征和失真感知特征采用预先训练的视觉交互感知模块进行特征融合,得到融合特征;
基于融合特征进行图像质量评估,得到图像质量分数。
2.根据权利要求1所述的一种基于视觉交互感知双流网络的图像无参考质量评估方法,其特征在于,所述对图像进行预处理,包括:
将图像裁剪为统一尺寸。
3.根据权利要求1所述的一种基于视觉交互感知双流网络的图像无参考质量评估方法,其特征在于,预先训练内容感知模块包括:
采用Imagenet作为训练集,输入去除最后的全局平均池化层和全连接层的图像分类网络ResNet50中,得到ResNet50的第t个模块的输出特征图
Figure FDA0003868670810000011
将得到的特征图
Figure FDA0003868670810000012
各自输入具有1×1核、1×1步长和输出通道大小为ct的卷积层;
将各卷积层的操作结果采用自适应池化层下采样到相同大小;
将自适应池化层的输出特征进行连接,作为多尺度的图像语义特征;
采用Imagenet训练图像分类网络ResNet50的网络权重,训练完成后,将ResNet50去除最后的全局平均池化层和全连接层的模块,以及所述具有1×1核、1×1步长和输出通道大小为ct的卷积层和自适应池化层组成的结构作为内容感知模块。
4.根据权利要求3所述的一种基于视觉交互感知双流网络的图像无参考质量评估方法,其特征在于,所述输出通道大小ct的取值为:c1=128,c2=256,c3=512,c4=1152。
5.根据权利要求1所述的一种基于视觉交互感知双流网络的图像无参考质量评估方法,其特征在于,预先训练失真感知模块包括:
构建失真图像训练样本集;
将每个失真图像训练样本转换为YCbCr颜色空间作为BoTNet的输入进行训练;
训练完成后,去除最后的全局平均池化层和线性层,得到失真感知模块。
6.根据权利要求5所述的一种基于视觉交互感知双流网络的图像无参考质量评估方法,其特征在于,所述构建失真图像训练样本集,包括:
从KADIS-700K数据库中选取N张原始图像;
对每张原始图像生成具有30种失真类型、每种失真类型具有5种失真强度的失真图像样本;
将150×N个失真图像样本构成失真图像训练样本集;所述30种失真类型包括:粉红噪声、有损压缩、对比度变化、曝光不足、曝光过度、以及与KADID-10K数据库相同25种失真类型。
7.根据权利要求1所述的一种基于视觉交互感知双流网络的图像无参考质量评估方法,其特征在于,预先训练视觉交互感知模块包括:
采用训练好的内容感知模块提取训练样本的语义特征,以及采用训练好的失真感知模块提取训练样本的失真感知特征,将训练样本的语义特征和失真感知特征连接起来,得到F,其中
Figure FDA0003868670810000021
cd表示失真感知特征输出通道大小,w和h分别表示输出特征的宽度和高度;
将F扁平化,并通过卷积操作映射到特征序列
Figure FDA0003868670810000022
其中
Figure FDA0003868670810000023
l=w×h为特征序列的长度,d为特征序列的尺寸;
将一个可学习的标记
Figure FDA0003868670810000024
添加到
Figure FDA0003868670810000025
中,并添加位置嵌入PE,得到训练样本的特征
Figure FDA0003868670810000026
将训练样本的特征依次输入多头自注意力机制的特征融合模块和多层感知器块进行训练,最终得到训练好的视觉交互感知模块。
8.根据权利要求1所述的一种基于视觉交互感知双流网络的图像无参考质量评估方法,其特征在于,所述基于融合特征进行图像质量评估,得到图像质量分数,包括:
对最终得到的融合特征通过一个全连接层输出质量预测分数。
9.一种基于视觉交互感知双流网络的图像无参考质量评估装置,其特征在于,包括:
内容感知模块,用于提取图像的语义特征;
失真感知模块,用于提取图像的失真感知特征;
视觉交互模块,用于对图像的语义特征和失真感知特征进行特征融合;
评估模块,用于基于融合特征对图像质量进行评估,得到图像质量分数;
所述内容感知模块采用权利要求1至4任意一项所述的基于视觉交互感知双流网络的图像无参考质量评估方法进行预先训练;
所述失真感知模块采用权利要求5或6所述的基于视觉交互感知双流网络的图像无参考质量评估方法进行预先训练;
所述视觉交互模块采用权利要求7所述的基于视觉交互感知双流网络的图像无参考质量评估方法进行预先训练。
10.根据权利要求9所述的一种基于视觉交互感知双流网络的图像无参考质量评估装置,其特征在于,所述评估模块采用全连接层。
CN202211189584.2A 2022-09-28 2022-09-28 一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置 Pending CN115457015A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211189584.2A CN115457015A (zh) 2022-09-28 2022-09-28 一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211189584.2A CN115457015A (zh) 2022-09-28 2022-09-28 一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置

Publications (1)

Publication Number Publication Date
CN115457015A true CN115457015A (zh) 2022-12-09

Family

ID=84307491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211189584.2A Pending CN115457015A (zh) 2022-09-28 2022-09-28 一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置

Country Status (1)

Country Link
CN (1) CN115457015A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563189A (zh) * 2023-07-06 2023-08-08 长沙微妙医疗科技有限公司 一种基于深度学习的医学图像跨对比度合成方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563189A (zh) * 2023-07-06 2023-08-08 长沙微妙医疗科技有限公司 一种基于深度学习的医学图像跨对比度合成方法及系统
CN116563189B (zh) * 2023-07-06 2023-10-13 长沙微妙医疗科技有限公司 一种基于深度学习的医学图像跨对比度合成方法及系统

Similar Documents

Publication Publication Date Title
Li et al. Which has better visual quality: The clear blue sky or a blurry animal?
Kundu et al. No-reference quality assessment of tone-mapped HDR pictures
CN108090902B (zh) 一种基于多尺度生成对抗网络的无参考图像质量客观评价方法
Li et al. No-reference image quality assessment with deep convolutional neural networks
EP3292512B1 (en) Full reference image quality assessment based on convolutional neural network
CN111709265A (zh) 基于注意力机制残差网络的摄像监控状态分类方法
CN111292264A (zh) 一种基于深度学习的图像高动态范围重建方法
CN112150450B (zh) 一种基于双通道U-Net模型的图像篡改检测方法及装置
Ghadiyaram et al. Feature maps driven no-reference image quality prediction of authentically distorted images
CN111047543A (zh) 图像增强方法、装置和存储介质
He et al. A visual residual perception optimized network for blind image quality assessment
CN111079864A (zh) 一种基于优化视频关键帧提取的短视频分类方法及系统
CN111415304A (zh) 基于级联深度网络的水下视觉增强方法和装置
CN112651333A (zh) 静默活体检测方法、装置、终端设备和存储介质
Jenadeleh et al. Blind image quality assessment based on aesthetic and statistical quality-aware features
CN115457015A (zh) 一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置
CN113658091A (zh) 一种图像评价方法、存储介质及终端设备
CN113609944A (zh) 一种静默活体检测方法
CN116206227B (zh) 5g富媒体信息的图片审查系统、方法、电子设备及介质
US20220358752A1 (en) Apparatus and method for developing space analysis model based on data augmentation
Hepburn et al. Enforcing perceptual consistency on generative adversarial networks by using the normalised laplacian pyramid distance
Gibson et al. A no-reference perceptual based contrast enhancement metric for ocean scenes in fog
Yuan et al. Color image quality assessment with multi deep convolutional networks
US20220164934A1 (en) Image processing method and apparatus, device, video processing method and storage medium
CN110489584B (zh) 基于密集连接的MobileNets模型的图像分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination