CN117078659B - 基于主动学习的少样本无参考图像质量评价算法 - Google Patents
基于主动学习的少样本无参考图像质量评价算法 Download PDFInfo
- Publication number
- CN117078659B CN117078659B CN202311221440.5A CN202311221440A CN117078659B CN 117078659 B CN117078659 B CN 117078659B CN 202311221440 A CN202311221440 A CN 202311221440A CN 117078659 B CN117078659 B CN 117078659B
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- samples
- image quality
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000002372 labelling Methods 0.000 claims abstract description 4
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 4
- 238000004821 distillation Methods 0.000 description 14
- 238000002679 ablation Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000001303 quality assessment method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013329 compounding Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像质量评价技术领域,具体地说,是一种基于主动学习的少样本无参考图像质量评价算法,借助主动学习选择少量代表性样本以减少模型对样本数量的需求。首先,从图像质量和图像内容两个方面选择少量代表性样本;其次,对选中的少量样本进行人工标注,获得图像质量分数;然后,用有标注的少量样本进行prompt调优,以提升模型对图像质量评价任务的预测能力,并重复此过程,直到被选中的样本的总数达到预期数量;最后,采用所有被选中的样本同时微调prompt和模型的少量参数,完成模型的最终训练。本发明通过主动学习选择代表性样本,减少了模型对训练样本的依赖,有效提升了模型在少样本训练场景下的预测能力和泛化能力。
Description
技术领域
本发明属于图像质量评价技术领域,具体地说,是一种基于主动学习的少样本无参考图像质量评价算法。
背景技术
由于图像质量评价算法在图像采集、传输、处理、显示等多个领域都有着重要的作用,因而受到了广泛的关注。图像质量评价根据是否需要参考图像可以分为全参考、半参考、无参考图像质量评价。其中常见的SSIM/PSNR等算法属于全参考图像质量评价算法,全(半)参考图像质量评价算法,在评价给定图像的质量的时候,需要高质量的无失真图像(或无失真图像的部分信息)。而很多场景下无失真图像(或无失真图像的部分信息)难以获得,因此全(半)参考图像质量评价算法的使用场景大大受限。而无参考图像质量评价算法,可以直接评价给定图像的质量,无需任何参考信息,使用场景十分广泛,成为了近些年的研究热点。早期研究人员在高质量图像上加入模拟失真(如高斯噪声、均匀模糊),获得模拟失真图像,并在此基础上提出了多种无参考图像质量评价算法。而现实世界中的失真比模拟失真更为复杂,真实失真图像往往呈现出多维失真复合以及图像内容和失真紧密耦合的特点。因此设计面向真实失真的无参考图像质量评价算法依然非常具有挑战。
传统的无参考图像质量评价算法通常依靠手工设计特征,而手工特征难以有效描述复杂的真实失真。随着深度学习的发展,研究人员采用神经网络通过端到端的方式学习图像到质量分数的映射。这些质量评价算法在真实失真的质量评价上取得了长足的进展。真实失真图像较为复杂,每张图像的质量分数被称为平均主观分数(mean opinion score,MOS)。每张图像MOS的获取,需要多位打分者同时对该图像打分,然后对所有的打分者的分数进行平均。在现有的真实失真数据库中,以KonIQ-10k数据集为例,每张图像需要120人同时标记并平均。因此无参考图像质量评价数据集的获取成本较高,难以构建大规模的无参考图像质量评价数据集。而深度神经网络对训练样本的数量依赖较大,从而影响了现有算法的预测性能和泛化能力。
综上所述,现有技术存在的问题是:
(1)现有模型泛化能力有限,在评价新场景时往往无法取得令人满意的性能。为了达到理想的效果,往往需要对新场景中的图像进行大量的标注并微调模型。而图像质量分数标签的获取成本高昂,如何尽可能减少模型对标签数量的需要是算法迫切需要解决的。
(2)随着训练样本数量的变少,样本的泛化能力会急剧下降。采用较少的标签样本进行微调,难以保障模型的泛化能力。
解决上述技术问题的难度:上述技术问题的主要难点在于深度神经网络是数据驱动的,样本数量不足容易出现过拟合,从而影响模型的预测和泛化能力。
解决上述技术问题的意义:减少模型在新场景中对训练样本依赖性的同时提升模型的泛化能力,可以有效减少模型部署到新场景中的成本和时间,提升质量评价模型的实用性。
发明内容
针对现有技术存在的问题,本发明提供了基于主动学习的少样本无参考图像质量评价算法,基于不同样本对模型的训练过程有着不同贡献的事实,提出了一种小样本图像质量评价算法,借助主动学习选择少量代表性样本以减少模型对样本数量的需求,并提高模型的泛化能力。
具体而言,首先,在新场景找那个大量的无标签图像中,从图像质量和图像内容两个方面选择少量代表性样本;然后,对选中的少量样本进行人工标注,获得图像质量分数;其次,用有标注的少量样本进行prompt调优,以提升模型对图像质量评价任务的预测能力,并重复此过程,直到被选中的样本的总数达到预期数量;最后,采用所有被选中的样本同时微调prompt和模型最后几层的少量参数,完成质量评价模型的最终训练。
本发明通过主动学习选择代表性样本,减少了模型对训练样本的依赖,有效提升了模型在少样本训练场景下的预测能力和泛化能力包括以下步骤:
第一步,设计针对质量预测和质量属性(如图像亮度、清晰度、噪声)预测的prompts,并采用对比语言-图像预训练(Contrastive Language-Image Pre-Training,CLIP)模型和课程学习从图像的质量(包含质量属性)方面对所有图像应该被选择的概率进行排序和投票;
第二步,采用数据集蒸馏的策略,将大量无标签图像蒸馏为少数几张模拟图像,并在深度网络的特征空间中计算原始图像和蒸馏图像的距离,并根据该距离从图像内容的角度对图像进行排序和投票;
第三步,采用Borda计数法,融合图像质量和图像内容两个方面的投票,进行最后的样本选择,并对选中的图像进行人工标注,获取图像的质量分数;
第四步,采用微调prompt的方式,提高模型对图像质量的预测能力,并重复第一步到第四步,直到被选中的样本数量达到预期;
第五步,采用所有被选中的样本微调prompt和网络模型的少量参数,完成质量评价模型的最终训练。
在上述技术方案中,第一步中从图像质量角度选择样本,包括:
设计prompts:设计可以预测质量和质量属性(如图像亮度、清晰度、噪声)的prompts,共设计6组prompts,每组包含3对prompts。如第1组为:[1-1:‘it’s aphotoofhigh quality/low quality’,1-2:‘high quality/low qualityphoto’,1-3:‘this isa high quality/low qualityphoto’],如第6组为:[6-1:‘the noise in this photo isobvious/unobvious’,6-2:‘obvious/unobvious noise is in this photo’,6-3:‘thisphoto has obvious/unobvious noise’]。
主动学习算法通常需要一个较好的初始模型对样本进行预测从而根据预测结果进行样本选择,而在新场景中很难获得合适的初始模型,因此本算法采用CLIP解决该问题。CLIP具有较强的零样本预测能力,可以通过公式(1)中设计的prompt输入CLIP模型的文本编码器直接预测图像的质量和质量属性,公式(1)中设计的prompt记为其中i=1,2,…6,j=1,2,3,c=0,1,分别表示prompt属于第i组,第j对,第c类,如obvious=1,unobvious=0,则/>为‘the noise in this photo is obvious’;如果将CLIP的文本和图像编码器分别记为Et,Ei,则CLIP对图像I的预测分数为:
其中,为余弦相似度,si,j表示图像I在第i组,第j对prompt得到的预测分数;如obvious=1,unobvious=0,若s6,j接近1则,图像噪声强度越明显,同理,如果high quality=1,low quality=0,若s1,j接近1则图像质量越高,反之s1,j接近0则表示图像质量差。
根据图像质量对所有图像应该被选择的概率进行排序和投票,通过公式(2)获得每组每对prompt得到的预测分数之后,计算每组预测分数的方差作为预测不确定性,并融合不同属性和整体质量的不确定性获得每张图像的不确定性u:
进而对所有图像的不确定性un进行排序,其中n=1,2,…,N,N为样本总数:
vn=argsort(un) (3)
其中,vn为升序排序后的索引值,最大数值为N,最小为1。大的值表示该图像被选中的偏好较高,然后采用课程学习的方式选择不同难度(高不确定性意味着高难度)的样本,在第一轮选择难度在1/3区域的N1样本:
同理,在第二轮中选择难度在2/3区域的N2样本:
本发明的进一步改进,第二步中从图像内容角度选择样本,包括:
使用数据集蒸馏获取蒸馏图像。
数据集蒸馏最早由Wang等人[1]提出,旨在将高信息密度的小样本合成数据集进行蒸馏,模型在压缩数据集上训练的结果可以近似于在完整数据集上的训练结果。例如,Wang等人从MNIST中提取了60,000张图像,将其压缩成10张合成图像,然后仅使用这10张图像对模型进行训练。这些10张图像具有高的信息密度,并在MNIST上实现了94%的分类准确率。本算法采用分布匹配策略的数据集蒸馏方法进行数据集蒸馏,该策略具有计算效率高,蒸馏效果好的优势。
计算所有图像和蒸馏图像欧式距离。
将整个数据集蒸馏为少量的模拟图像之后,在CLIP图像编码器的特征空间中计算所有图像和蒸馏图像之间的欧氏距离,并对距离进行排序:
其中,D表示蒸馏得到的图像集,U是原始的无标签图像数据集,v'n最大数值为N,最小为1,大的值表示该图像被选中的偏好较高。
本发明的进一步改进,第三步中采用Borda计数法,融合图像质量和图像内容两个方面的投票,进行最后的样本选择:
其中,S为选中的样本,Ns表示被选中的图像数量,大的值表示该图像被选中的偏好较高选择图像后对选中的图像进行人工标注,获取图像的质量分数。
本发明的进一步改进,采用第四步,通过微调可学习的prompt,提高模型对图像质量的预测能力,并重复第一到第四步,直到被选中的样本数量达到预期;最后,采用第五步,使用所有被选中的样本微调prompt和网络模型的少量参数,完成质量评价模型的最终训练。
本发明的有益效果:本发明采用主动学习策略,从大量无标签样本中进行代表性样本选择,并通过标记少量选择后的代表性样本训练模型。本发明从图像质量和图像内容两个角度同时对样本进行选择,在图像质量选择阶段,本发明采用CLIP模型作为初始模型,可以在新场景中实现零样本预测,同时采用课程学习的思想,逐渐增加选中样本的难度,有利于模型的训练。在图像内容选择阶段,本项目采用数据集蒸馏和比较特征空间距离的方法,确定最具代表性的图像内容。本发明采用Borda计数法融合图像质量和内容两个方面,进行样本的最终选择。并采用微调prompt的方式减少模型的训练参数,同时避免了在主动学习的早期阶段,训练样本过少对CLIP模型泛化能力造成的破坏。综上所述,本发明通过主动学习策略在减少了模型对训练样本数量的依赖的同时,提升了模型的泛化能力。
附图说明
图1是本发明实施例提供的基于主动学习的少样本无参考图像质量评价算法流程图。
图2是本发明实施例提供的基于主动学习的少样本无参考图像质量评价算法的结构图。
图3是本发明实施例提供的不同数据集上的消融实验结果图。
图4是本发明实施例针对模型泛化能力的消融实验结果图。
图5是本发明实施例针对质量选择和内容选择策略的消融实验结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例和说明附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例:一种基于主动学习的少样本无参考图像质量评价算法,
如图1所示,本发明实施例提供的基于主动学习的少样本无参考图像质量评价算法包括以下步骤:
S101:设计针对质量和属性预测的prompts,并采用CLIP和课程学习从图像质量的角度对待选择图像进行排序和投票;
S102:通过数据集蒸馏和比较特征空间距离,从图像内容的角度对待选择图像进行排序和投票;
S103:采用Borda计数法,融合图像质量和内容两个方面的投票,进行最终的样本选择,并借助人工标注选中的图像;
S104:采用微调prompt的方式,提高模型对图像质量的预测能力,并重复第一到第四步,直到被选中的样本数量达到预期;
S105:采用所有被选中的样本微调prompt和CLIP的少量参数,完成质量评价模型的最终训练。
第一步中从图像质量角度选择样本,包括:
设计prompts:设计可以预测质量和质量属性(如图像亮度、清晰度、噪声)的prompts,共设计6组prompts,每组包含3对prompts。如第1组为:[1-1:‘it’s aphotoofhigh quality/low quality’,1-2:‘high quality/low qualityphoto’,1-3:‘this isa high quality/low qualityphoto’],如第6组为:[6-1:‘the noise in this photo isobvious/unobvious’,6-2:‘obvious/unobvious noise is in this photo’,6-3:‘thisphoto has obvious/unobvious noise’]。
CLIP具有较强的零样本预测能力,可以通过公式(1)中设计的prompt输入CLIP模型的文本编码器直接预测图像的质量和质量属性,公式(1)中设计的prompt记为其中i=1,2,…6,j=1,2,3,c=0,1,分别表示prompt属于第i组,第j对,第c类,如obvious=1,unobvious=0,则/>为‘the noise in this photo is obvious’;如果将CLIP的文本和图像编码器分别记为Et,Ei,则CLIP对图像I的预测分数为:
其中,为余弦相似度,si,j表示图像I在第i组,第j对prompt得到的预测分数;如obvious=1,unobvious=0,若s6,j接近1则,图像噪声强度越明显,同理,如果high quality=1,low quality=0,若s1,j接近1则图像质量越高,反之s1,j接近0则表示图像质量差。
根据图像质量对所有图像应该被选择的概率进行排序和投票,通过公式(2)获得每组每对prompt得到的预测分数之后,计算每组预测分数的方差作为预测不确定性,并融合不同属性和整体质量的不确定性获得每张图像的不确定性u:
进而对所有图像的不确定性un进行排序,其中n=1,2,…,N,N为样本总数:
vn=argsort(un) (3)
其中,vn为升序排序后的索引值,最大数值为N,最小为1。大的值表示该图像被选中的偏好较高,然后采用课程学习的方式选择不同难度(高不确定性意味着高难度)的样本,在第一轮选择难度在1/3区域的N1样本:
同理,在第二轮中选择难度在2/3区域的N2样本:
在本实施例中第二步中从图像内容角度选择样本,包括:
使用数据集蒸馏获取蒸馏图像。
数据集蒸馏最早由Wang等人[1]提出,旨在将高信息密度的小样本合成数据集进行蒸馏,模型在压缩数据集上训练的结果可以近似于在完整数据集上的训练结果。例如,Wang等人从MNIST中提取了60,000张图像,将其压缩成10张合成图像,然后仅使用这10张图像对模型进行训练。这些10张图像具有高的信息密度,并在MNIST上实现了94%的分类准确率。本算法采用分布匹配策略的数据集蒸馏方法进行数据集蒸馏,该策略具有计算效率高,蒸馏效果好的优势。
计算所有图像和蒸馏图像欧式距离。将整个数据集蒸馏为少量的模拟图像之后,在CLIP图像编码器的特征空间中计算所有图像和蒸馏图像之间的欧氏距离,并对距离进行排序:
其中,D表示蒸馏得到的图像集,U是原始的无标签图像数据集,v'n最大数值为N,最小为1,大的值表示该图像被选中的偏好较高。
第三步中采用Borda计数法,融合图像质量和图像内容两个方面的投票,进行最后的样本选择:
其中,S为选中的样本,Ns表示被选中的图像数量,大的值表示该图像被选中的偏好较高选择图像后对选中的图像进行人工标注,获取图像的质量分数。
第四步,通过微调可学习的prompt,提高模型对图像质量的预测能力,并重复第一到第四步,直到被选中的样本数量达到预期;最后,采用第五步,使用所有被选中的样本微调prompt和网络模型的少量参数,完成质量评价模型的最终训练。
下面结合附图2-5对本发明的技术方案作进一步的描述。
本发明的算法框架如图2所示。算法共包含三个模块:分别为输入模块、样本选择模块和prompt调优模块。1)输入模块由所有未标记的图像和专门设计的质量(和质量属性)预测prompt组成。2)样本选择模块从质量和内容两个方面选择样本:一方面,将prompt和图像输入CLIP模型,从而可以得到预测不确定性,基于预测不确定性,采用课程学习策略对图像进行排序和投票;另一方面,通过分布匹配将所有未标记图像数据集蒸馏成几张模拟图像,然后计算特征空间中无标签图像与模拟图像之间的距离,通过比较该距离,从内容方面对图像进行排名和投票,最后,利用Borda计数将质量投票和内容投票结合起来,以选择图像。3)prompt调优模块采用少量选择样本,通过监督范式训练可学习prompt和CLIP模型,重复这个过程,直到达到所需的训练样本数量。
算法的整体训练流程如伪代码所示:
下面结合性能测试和实验分析对本发明的技术效果作详细的描述。现有的无参考质量评价算法通常采用80%的图像训练模型,而本发明旨在减少模型的训练数据,为了证明本模型在小样本下的性能,本发明采用真实失真数据集KonIQ-10k[2]中选择5%,10%,25%的图像训练样本。并与现有算法进行了比较,结果如下表所示:
训练样本数量 | 5%KonIQ-10k | 10%KonIQ-10k | 25%KonIQ-10k | 25%LIVEW |
BRISQUE[3] | 0.594 | 0.627 | 0.666 | 0.477 |
NFERM[4] | 0.615 | 0.651 | 0.687 | 0.447 |
HOSA[5] | 0.730 | 0.751 | 0.777 | 0.617 |
CORNIA[6] | 0.721 | 0.743 | 0.765 | 0.635 |
WaDIQaM-NR[7] | 0.678 | 0.723 | 0.789 | 0.538 |
MetaIQA[8] | 0.796 | 0.821 | 0.861 | 0.780 |
HyperNet[9] | 0.800 | 0.842 | 0.883 | 0.767 |
DBCNN[10] | 0.829 | 0.843 | 0.868 | 0.721 |
所提算法 | 0.859 | 0.888 | 0.915 | 0.875 |
同时本发明还在图像总数较少的LIVEW[11]数据上采用25%的图像训练了所提算法,结果列于表中最后一列。从上表可见,与现有的SOTA算法相比,本发明取得了最佳的小样本预测能力。
为了进一步证明本发明的有效性,本发明进行了消融实验。本发明采用一般算法的思路,随机选取图像并采用和发明算法相同的训练方式和网络训练模型作为基线模型与本发明进行对比,结果如图3所示。从图3可见,如果不采用本发明所用的主动学习策略,而是采用常用的随机选取样本进行训练,模型的预测能力会显著降低。
为了进一步验证本发明对小样本场景下模型泛化能力的影响,本发明做了泛化能力消融实验。同上,本发明采用随机选取的5%的KonIQ-10k图像训练模型,并直接在其它四个真实失真数据集LVIEW[11]、CID2013[12]、RBID[13]上进行跨数据集测试。得到的结果作为基线模型结果。然后采用本发明所提的方法,选择5%的KonIQ-10k数据集图像训练模型,同样在其它数据集上直接进行跨数据集测试。所得结果如图4所示,从图4可见,本发明所提算法在小样本训练场景下取得了显著优异的跨数据集测试能力。
最后,本发明还开展消融实验证明了算法所从图像内容和质量两个方面进行样本选择的有效性。本发明采用一般算法的思路,随机选取图像并采用和发明算法相同的训练方式和网络训练模型作为基线模型,进而分别引入内容选择、质量选择分别训练模型,并于发明算法采用的内容+质量进行对比,所得结果如图5所示。从图5可见,图像内容和图像质量对于样本选择都很重要,通过融合两个方面,本发明取得了最佳的效果。综上所述,以上实验证明了本发明的有效性。本发明在显著降低图像训练样本数量的场景下,不但能显著提升模型的预测能力还能显著提升模型的泛化能力。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于主动学习的少样本无参考图像质量评价算法,其特征在于,包括以下步骤:
步骤一、设计针对质量和属性预测的prompts,并采用CLIP和课程学习从图像质量的角度对待选择图像进行排序和投票;
步骤二、借助数据集蒸馏和比较特征空间距离,从图像内容的角度对待选择图像进行排序和投票;
步骤三、采用Borda计数法,融合图像质量和内容两个方面的投票,进行最终的样本选择,并借助人工标注选中的图像;
步骤四、采用微调prompt的方式,提高模型对图像质量的预测能力,并重复步骤一到步骤四,直到被选中的样本数量达到预期;
步骤五、采用所有被选中的样本微调prompt和CLIP的少量参数,完成质量评价模型的最终训练。
2.根据权利要求1所述的基于主动学习的少样本无参考图像质量评价算法,其特征在于,所述步骤一中从图像质量角度选择样本,包括以下流程:设计6组prompts,每组包含3对prompts。
3.根据权利要求2所述的基于主动学习的少样本无参考图像质量评价算法,其特征在于,所述步骤一中,设计的prompt记为其中i=1,2,…6,j=1,2,3,c=0,1,分别表示prompt属于第i组,第j对,第c类,将CLIP的文本和图像编码器分别记为Et,Ei,则CLIP对图像I的预测分数为:
其中,为余弦相似度,si,j表示图像I在第i组,第j对prompt得到的预测分数,若s6,j接近1则,图像噪声强度越明显,若s1,j接近1则图像质量越高,反之s1,j接近0则表示图像质量差。
4.根据权利要求3所述的基于主动学习的少样本无参考图像质量评价算法,其特征在于,所述步骤一中,通过公式(2)获得每组每对prompt得到的预测分数之后,计算每组预测分数的方差作为预测不确定性,并融合不同属性和整体质量的不确定性获得每张图像的不确定性u:
进而对所有图像的不确定性un进行排序,其中n=1,2,…,N,N为样本总数:
vn=argsort(un) (3)
其中,vn为升序排序后的索引值,最大数值为N,最小为1,大的值表示该图像被选中的偏好较高,然后采用课程学习的方式选择不同难度的样本,在第一轮选择难度在1/3区域的N1样本:
在第二轮中选择难度在2/3区域的N2样本:
5.根据权利要求4所述的基于主动学习的少样本无参考图像质量评价算法,其特征在于,所述步骤二中从图像内容角度选择样本,包括以下流程:
计算所有图像和蒸馏图像欧式距离,将整个数据集蒸馏为少量的模拟图像之后,在CLIP图像编码器的特征空间中计算所有图像和蒸馏图像之间的欧氏距离,并对距离进行排序:
其中,D表示蒸馏得到的图像集,U是原始的无标签图像数据集,v'n最大数值为N,最小为1,大的值表示该图像被选中的偏好较高。
6.根据权利要求5所述的基于主动学习的少样本无参考图像质量评价算法,其特征在于,所述步骤三中采用Borda计数法,融合图像质量和图像内容两个方面的投票,进行最后的样本选择:
其中,S为选中的样本,Ns表示被选中的图像数量,大的值表示该图像被选中的偏好较高选择图像后对选中的图像进行人工标注,获取图像的质量分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311221440.5A CN117078659B (zh) | 2023-09-21 | 2023-09-21 | 基于主动学习的少样本无参考图像质量评价算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311221440.5A CN117078659B (zh) | 2023-09-21 | 2023-09-21 | 基于主动学习的少样本无参考图像质量评价算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117078659A CN117078659A (zh) | 2023-11-17 |
CN117078659B true CN117078659B (zh) | 2024-01-26 |
Family
ID=88706147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311221440.5A Active CN117078659B (zh) | 2023-09-21 | 2023-09-21 | 基于主动学习的少样本无参考图像质量评价算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117078659B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106610969A (zh) * | 2015-10-21 | 2017-05-03 | 上海文广互动电视有限公司 | 基于多模态信息的视频内容审查系统及方法 |
CN109816646A (zh) * | 2019-01-21 | 2019-05-28 | 武汉大学 | 一种基于退化决策逻辑的无参考图像质量评价方法 |
CN112785585A (zh) * | 2021-02-03 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 基于主动学习的图像视频质量评价模型的训练方法以及装置 |
WO2021135391A1 (zh) * | 2020-01-02 | 2021-07-08 | 广州大学 | 一种图像质量评估方法及装置 |
-
2023
- 2023-09-21 CN CN202311221440.5A patent/CN117078659B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106610969A (zh) * | 2015-10-21 | 2017-05-03 | 上海文广互动电视有限公司 | 基于多模态信息的视频内容审查系统及方法 |
CN109816646A (zh) * | 2019-01-21 | 2019-05-28 | 武汉大学 | 一种基于退化决策逻辑的无参考图像质量评价方法 |
WO2021135391A1 (zh) * | 2020-01-02 | 2021-07-08 | 广州大学 | 一种图像质量评估方法及装置 |
CN112785585A (zh) * | 2021-02-03 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 基于主动学习的图像视频质量评价模型的训练方法以及装置 |
Non-Patent Citations (4)
Title |
---|
Blind Image Quality Index for Authentic Distortions With Local and Global Deep Feature Aggregation;Leida Li;IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY;第32卷(第12期);全文 * |
Exploring CLIP for Assessing the Look and Feel of Images;JianyiWang;arXiv:2207.12396v2 [cs.CV] 23 Nov 2022;全文 * |
IE-IQA: Intelligibility Enriched Generalizable No-Reference Image Quality Assessment;Tianshu Song;ORIGINAL RESEARCH;全文 * |
面向真实失真的无参考图像质量评价模型泛化性研究;宋天舒;CNKI博士学位论文;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117078659A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108345911B (zh) | 基于卷积神经网络多级特征的钢板表面缺陷检测方法 | |
CN112800876B (zh) | 一种用于重识别的超球面特征嵌入方法及系统 | |
CN111611924B (zh) | 一种基于深度迁移学习模型的蘑菇识别方法 | |
CN110728656A (zh) | 基于元学习的无参考图像质量数据处理方法、智能终端 | |
CN109446898A (zh) | 一种基于迁移学习和特征融合的行人重识别方法 | |
CN108665460A (zh) | 基于组合神经网络和分类神经网络的图像质量评价方法 | |
CN103745454B (zh) | 一种基于排序学习的图像处理算法或系统的评价方法 | |
CN110245683B (zh) | 一种少样本目标识别的残差关系网络构建方法及应用 | |
CN110210538A (zh) | 一种家居图像多目标识别方法及装置 | |
CN109919901B (zh) | 一种基于集成学习与随机森林的图像质量评价方法 | |
CN111047193A (zh) | 一种基于信用大数据标签的企业信用评分模型生成算法 | |
CN117078659B (zh) | 基于主动学习的少样本无参考图像质量评价算法 | |
CN111242131A (zh) | 一种智能阅卷中图像识别的方法、存储介质及装置 | |
CN114549910A (zh) | 基于干净数据集与关键特征检测的噪声识别方法 | |
CN115063692B (zh) | 一种基于主动学习的遥感图像场景分类方法 | |
CN113657472A (zh) | 一种基于子空间学习的多源遥感数据融合方法 | |
CN110516640B (zh) | 一种基于特征金字塔联合表示的车辆再辨识方法 | |
Prince et al. | Bayesian identity clustering | |
CN116993639A (zh) | 基于结构重参数化的可见光与红外图像融合方法 | |
CN107423759B (zh) | 低维逐次投影寻踪聚类模型综合评价方法、装置及应用 | |
CN115601745A (zh) | 一种面向应用端的多视图三维物体识别方法 | |
CN114359568A (zh) | 一种基于多粒度特征的多标签场景图生成方法 | |
CN110502660B (zh) | 一种弱监督下的多距离度量图像检索方法 | |
CN109948421B (zh) | 基于pca和属性配置文件的高光谱图像分类方法 | |
CN113032612A (zh) | 一种多目标图像检索模型的构建方法及检索方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |