CN113658091A - 一种图像评价方法、存储介质及终端设备 - Google Patents
一种图像评价方法、存储介质及终端设备 Download PDFInfo
- Publication number
- CN113658091A CN113658091A CN202010397845.4A CN202010397845A CN113658091A CN 113658091 A CN113658091 A CN 113658091A CN 202010397845 A CN202010397845 A CN 202010397845A CN 113658091 A CN113658091 A CN 113658091A
- Authority
- CN
- China
- Prior art keywords
- image
- distortion
- network model
- training
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 155
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims description 181
- 239000011159 matrix material Substances 0.000 claims description 158
- 238000012545 processing Methods 0.000 claims description 27
- 230000004927 fusion Effects 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 description 56
- 230000006870 function Effects 0.000 description 29
- 238000013441 quality evaluation Methods 0.000 description 23
- 239000013598 vector Substances 0.000 description 15
- 230000003044 adaptive effect Effects 0.000 description 8
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000004297 night vision Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像评价方法、存储介质及终端设备,所述方法包括获取待评价图像,并基于所述评价网络模型确定所述待评价图像的图像质量分数,其中,所述评价网络模型包括并联的语义信息模块以及失真信息模块。本发明通过语义信息模块确定所述图像的语义信息,并通过所述失真信息模块确定图像失真信息(例如,噪声种类,噪声强度等),再根据确定到的语义信息以及失真信息对所述图像进行评价,这样通过将语义信息与失真信息相结合来对图像进行评价,提高了图像评价的准确性。
Description
技术领域
本发明涉及图像处理技术领域,特别涉及一种图像评价方法、存储介质及终端设备。
背景技术
图像质量评价是计算机视觉领域的重要研究方向,通过对图像质量评价的研究,不仅可以直接给出图像质量好坏的评价,还可以给出图像增强算法的参考方向。例如,通过评价某一指定场景下处理后图像的噪声和细节(模糊),可以指出为了提高图像的整体视觉质量,采用的图像增强方案为:以牺牲图像细节的方式来关注图像去噪,或者以放松噪声影响的方式来保留及复原图像细节。
目前普遍使用的图像质量评价方法为客观质量评价方法,其中,客观质量评价方法可以分为全参考图像质量评价、半参考图像质量评价和无参考图像质量评价,其中,无参考图像质量评价指的是在没有任何对照图像信息的情况下,对任意一张图像进行质量评价。在客观质量评价方法中,由于在实际拍摄和处理的图像,很难找到精确的参考图像作为对照,从而无参考图像质量评价方法被广泛使用。然而,目标普遍使用的无参考图像质量评价方法主要从图像的局部信息出发来关注局部特征(例如,图像噪声等),而忽略了图像整体信息相关的图像内容特征,进而影响了图像质量评价的准确性。
发明内容
本发明要解决的技术问题在于,针对现有技术的不足,提供一种图像评价方法、存储介质及终端设备。
为了解决上述技术问题,本发明所采用的技术方案如下:
一种图像评价方法,所述方法应用于已训练的评价网络模型,所述评价方法包括:
所述评价网络模型获取待评价图像;
所述评价网络模型根据所述待评价图像,确定所述待评价图像对应的语义特征和失真特征;
所述评价网络模型基于所述语义特征以及所述失真特征,确定所述待评价图像的图像质量分数。
所述的图像评价方法,其中,所述评价网络模型包括语义信息模块以及失真信息模块,所述评价网络模型根据所述待评价图像,确定所述待评价图像对应的语义特征和失真特征具体包括:
所述语义信息模块根据所述待评价图像,确定所述待评价图像对应的语义特征,所述语义特征用于反映所述待评价图像的语义信息;
所述失真信息模块根据所述待评价图像确定所述待评价图像对应的失真特征,其中,所述失真特征用于反映所述待评价图像的失真程度。
所述的图像评价方法,其中,所述评价网络模型包括融合模块;所述评价网络模型基于所述语义特征以及所述失真特征,确定所述待评价图像的图像质量分数具体包括:
所述融合模块根据所述语义特征以及所述失真特征,确定所述待评价图像的图像质量分数。
所述的图像评价方法,其中,所述语义特征的第一矩阵维度与所述失真特征的第二矩阵维度不同;所述融合模块根据所述语义特征以及所述失真特征,确定所述待评价图像的图像质量分数之前,所述方法包括:
所述评价网络模型根据所述第一矩阵维度和第二矩阵维度确定目标矩阵维度;
所述评价网络模型根据所述目标矩阵维度分别对所述语义特征以及所述失真特征进行调整,得到调整后的语义特征与调整后的失真特征。
所述的图像评价方法,其中,所述评价网络模型根据所述第一矩阵维度和第二矩阵维度确定目标矩阵维度具体包括:
所述评价网络模型获取第一矩阵维度中的行数与第二矩阵维度中的行数中的最小行数,以及获取第一矩阵维度中的列数与第二矩阵维度中的列数中的最小列数;
所述评价网络模型所述最小行数以及最小列数确定目标矩阵维度。
所述的图像评价方法,其中,所述评价网络模型为基于预设的训练图像集对第一网络模型进行训练得到,其中,所述第一网络模型中的失真信息模块为经过训练的网络模块,所述训练图像集包括多张训练图像以及每张训练图像对应的图像评价分数。
所述的图像评价方法,其中,所述第一网络模型中的失真信息模块为基于预设的训练样本训练得到,所述训练样本包括多组训练图像组,每组训练图像组包括第一图像和第二图像,所述第一图像与第二图像为同一原图像的失真图像,所述第一图像的失真类型与第二图像的失真类型相同,并且所述第一图像的失真程度与第二图像的失真程度不同。
所述的图像评价方法,其中,所述训练样本的生成过程具体包括:
获取初始图像集;
对于初始图像集中的每张初始图像,对该初始图像进行失真处理,以得到若干失真图像;
在该张初始图像对应的若干失真图像中选取失真类型相同且失真程度不同的第一图像和第二图像,以形成一组训练图像组;
根据形成得到的所有训练图像组,生成所述训练样本。
所述的图像评价方法,其中,所述失真信息模块的训练过程具体包括:
基于预设的第二网络模型,确定所述第一图像对应的第一生成图像质量分类,以及所述第二图像对应的第二生成图像质量分类;
基于所述第一生成图像质量分类以及所述第二生成图像质量分类对所述第二网络模型进行训练;
当所述第二网络模型的模型参数满足预设条件时,将所述第二网络模型中的特征提取层后的所有网络层去除,以得到所述第一网络模型中的失真信息模块。
所述的图像评价方法,其中,所述第二网络模型包括第一网络单元和第二网络单元,所述基于预设的第二网络模型,确定所述第一图像对应的第一生成图像质量分类,以及所述第二图像对应的第二生成图像质量分类具体包括:
将所述第一图像输入至所述第一网络单元,通过所述第一网络单元输出所述第一图像对应的第一生成图像质量分类;
将所述第二图像输入至所述第二网络单元,通过所述第一网络单元输出所述第二图像对应的第二生成图像质量分类。
所述的图像评价方法,其中,所述第一网络单元和所述第二网络单元共享模型参数;所述当所述第二网络模型的模型参数满足预设条件时,将所述第二网络模型中的特征提取层后的所有网络层去除,以得到所述第一网络模型中的失真信息模块具体为:
当所述第一网络单元的模型参数满足预设条件时;将所述第一网络单元中的特征提取层后的所有网络层去除,以得到所述第一网络模型中的失真信息模块;或者当所述第二网络单元的模型参数满足预设条件时;将所述第二网络单元中的特征提取层后的所有网络层去除,以得到所述第二网络模型中的失真信息模块。
一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的图像评价方法中的步骤。
一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上任一所述的图像评价方法中的步骤。
有益效果:与现有技术相比,本发明提供了一种图像评价方法、存储介质及终端设备,所述方法包括获取待评价图像,并基于所述评价网络模型确定所述待评价图像的图像质量分数,其中,所述评价网络模型包括并联的语义信息模块以及失真信息模块。本发明通过语义信息模块确定所述图像的语义信息,并通过所述失真信息模块确定图像失真信息(例如,噪声种类,噪声强度等),再根据确定到的语义信息以及失真信息对所述图像进行评价,这样通过将语义信息与失真信息相结合来对图像进行评价,提高了图像评价的准确性。
附图说明
图1为本发明提供的图像评价方法的应用场景的示意图。
图2为本发明提供的图像评价方法的流程图。
图3为本发明提供的图像评价方法中评价网络模型的训练过程的流程示意图。
图4为本发明提供的图像评价方法中失真信息模块的训练过程的流程示意图。
图5为本发明提供的终端设备的结构原理图。
具体实施方式
本发明提供一种图像评价方法、存储介质及终端设备,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
发明人经研究发现,由于实际拍摄的图像很难找到精确的参考图像作为对照图像,从而无参考图像质量评价方法被广泛应用于图像质量评价方案中。然而,目前普遍使用的无参考图像质量评价方法主要是从图像的局部信息出发来关注局部特征(,例如,图像噪声等),而忽略了图像整体信息相关的图像特征(如亮度、色彩对比度等),这样会影响图像质量评价的准确性。
为了解决上述问题,在本发明实施例中,采用通过包括语义信息模块以及失真信息模块的评价网络模型对获取到的待评价图像进行评价,在结合语义信息模块确定到的语义信息以及失真信息模块确定到失真信息的基础上,对图像进行无参考图像质量评价。可见,本发明实施例中,确定所述图像的语义信息,并通过所述失真信息模块确定图像失真信息(例如,噪声种类,噪声强度等),再根据确定到的语义信息以及失真信息对所述图像进行评价,这样通过将语义信息与失真信息相结合来对图像进行评价,一方面实现了无参考图像质量评价,另一方面提高了图像评价的准确性。
本实施例提供了一种图像评价方法、存储介质及终端设备,该方法可以应用于电子设备,所述电子设备可以以各种形式来实现。例如,PC机、服务器、手机、平板电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)等。另外,该方法所实现的功能可以通过电子设备中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该电子设备至少包括处理器和存储介质。
举例说明,本发明实施例可以应用到如图1所示的场景。在该场景中,首先,终端设备1可以获取待评价图像,并将所述待评价图像输入服务器2,以使得服务器2基于经训练的评价网络模型对所述待评价图像进行评价,以得到待评价图像对应的图像质量分数。服务器2可以预先存储有经训练的评价网络模型,所述评价网络模型响应终端设备1的输入的待评价图像,根据所述待评价图像,确定所述待评价图像对应的语义特征和失真特征;基于所述语义特征以及所述失真特征,确定所述待评价图像的图像质量分数。
可以理解的是,在上述应用场景中,虽然将本发明实施方式的动作描述为部分由终端设备2执行、部分由服务器1执行,但是这些动作可以完全由服务器执行,或者完全由终端设备2执行。本发明在执行主体方面不受限制,只要执行了本发明实施方式所公开的动作即可。
需要注意的是,上述应用场景仅是为了便于理解本发明而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
进一步,为了对发明内容作进一步说明,下面结合附图,通过对实施例进行具体描述。
下面对本实施例中的涉及的名称进行说明。
图像质量指人们对一幅图像视觉感受的评价,图像质量指的是被测图像(即目标图像)相对于标准图像(即原图像)在人眼视觉系统中产生误差的程度。可以理解的是,相对于原图像,人眼认为目标图像降质或损伤少,则说目标图像的质量高,反之,人眼认为目标图像降质或损伤多,则说目标图像的质量差。此外,在没有原图像的情况下,人眼能清晰地分辨图像中的事物,对图像中前景和背景、物体的轮廓、纹理等,则说图像质量好,否则说图像质量差。
失真图像指的是发生图像失真的图像,其中,图像失真为在数字图像/视频的获取,处理(如压缩),传输和存储的过程中,由于成像系统、处理方法、传输介质和存储设备等不完善,以及之物体运动、离焦等原因,使得图像细节信息丢失或者产生图像噪声。其中,失真图像对应有失真类型以及失真程度,所述失真类型指的引起图像失真的成因,例如,高斯噪声、脉冲噪声、对比度变化、饱和度变化以及块效应等,失真程度指的是该失真类型造成图像失真程度,例如,失真程度可以通过峰值信噪比来表示。
本实施提供了一种图像评价方法,如图2所示,所述方法可以包括以下步骤:
S10、所述评价网络模型获取待评价图像。
具体地,所述待评价图像可以是用于评价所述待评价图像的图像处理设备拍摄的图像(例如,智能手机等),也可以是其他外部设备(例如,数码相机等)拍摄并存储于图像处理设备的图像,还可以是通过云端发生至图像处理设备的图像。在本实施例中,所述待评价图像可以是通过成像系统(例如,摄像头)拍摄得到的图像,其中,所述成像系统可以为图像处理设备自身配置的,也可以为其他设备配置的。例如,所述待评价图像为通过配置有摄像头的手机拍摄得到风景图像;再如,所述待评价图像为数码相机拍摄并发送至图像处理设备的人物画像等。
进一步,所述评价网络模型为经过训练的网络模型,其中,所述评价网络模型的训练过程可以是在处理所述待评价图像的图像处理设备(例如,配置有摄像头的手机)执行的;也可以是在其他外部设备中执行。当所述评价网络模型的训练过程在其他外部设备中执行时,其他设备将所述评价网络模型训练完成后,将该评价网络模型对应的文件移植到图像处理设备中,以使得图像处理设备配置有该评价网络模型。此外,在本实施例的一个实现方式中,所述图像处理设备可以将所述评价网络模型作为一个功能模块(记为图像评价功能),该图像评价功能用于评价图像的图像质量,以得到图像质量分数。可以理解的是,当图像处理设备获取到待评价图像时,图像处理设备启动该图像评价功能,并将该待评价图像作为该图像评价功能的输入项,以通过该图像评价功能对应的评价网络模型确定该待评价图像的图像质量分数。
进一步,所述图像质量分数为所述评价网络模型的输出项,用于表示该待评价图像的图像质量的好坏。其中,所述图像质量分数与待评价图像的图像质量的对应关系可以为:图像质量分数越高,该待评价图像的图像质量越好;图像质量分数越低,该待评价图像的图像质量越差。例如,对于待评价图像A和待评价图像B;待评价图像A通过所述评价网络模型得到的图像质量分数为90,待评价图像B通过所述评价网络模型得到的图像质量分数为95,那么待评价图像B的图像质量高于待评价图像A的图像质量。
S20、所述评价网络模型根据所述待评价图像,确定所述待评价图像对应的语义特征和失真特征。
具体地,所述语义特征用于反应所述待评价图像中的语义信息,其中,所述语义信息用于反映所述待评价图像中图像内容信息,例如,所述待评价图像携带的对象(如,图像中携带的物品为人或者风景等)、拍摄场景等。例如,待评价图像为人物图像,那么所述待评价图像对应的图像内容信息为人物。当然,在实际应用中,基于语义特征可以确定待评价图像对应的语义信息可以为:植物、动物、湖泊、大海以及城市街道等等。
进一步,所述失真特征用于确定待评价图像的失真类型(例如,图像噪声类别)以及失真程度(例如,图像噪声强度)。例如,所述待评价图像为携带有高斯噪声的图像,并且所述图像的高斯噪声强度为0.0082,那么基于所述图像失真特征确定的图像失真信息为失真类型为高斯噪声,失真程度为0.0082。当然,在实际应用中,所述失真类型还可以为脉冲噪声、JPEG压缩噪声、JPEG2000压缩噪声、色对比度误差和饱和度误差等。
在本实施例的一个实现方式中,所述评价网络模型包括语义信息模块以及失真信息模块,所述评价网络模型根据所述待评价图像,确定所述待评价图像对应的语义特征和失真特征具体包括:
S21、所述语义信息模块根据所述待评价图像,确定所述待评价图像对应的语义特征,其中,所述语义特征用于反映所述待评价图像的语义信息;
S22、所述失真信息模块根据所述待评价图像确定所述待评价图像对应的失真特征,其中,所述失真特征用于反映所述待评价图像的失真程度。
具体地,所述语义信息模块为评价网络模型的一个网络单元,用于确定待评价图像的语义特征,所述失真信息模块也为所述评价网模块的一个网络单元,用于确定待评价图像的失真特征。所述语义信息模块与所述失真信息模块并联,并且所述语义信息模块与所述失真信息模块的输入项均为所述待评价图像。由此,所述评价网络模型获取到待评价图像后,分别将将所述待评价图像输入至语义信息模块,通过所述语义信息模块输出待评价图像对应的语义特征,以及将所述待评价图像输入至失真信息模块,通过所述失真信息模块输出待评价图像对应的失真特征。
进一步,所述语义信息模块可以为深度学习模型的卷积部分,其中,所述深度学习模块为用于物体识别的网络模型。例如,所述语义信息模块可以为在ImageNet数据集上训练的VGG16网络模型去掉顶部全连接层;也可以为在ImageNet数据集上训练的ResNet-50网络模型去掉顶部全连接层。当然,值得说明的是,语义信息模块不包括全连接层,从而该语义信息模块对输入项(即待评价图像)的图片尺寸没有要求,任意尺寸的图像均可以输入至该语义信息模块。
进一步,所述失真信息模块可以为深度学习模块,经过训练后可以输入待评价图像对应的失真特征。在本实施例的一个实现方式中,如图4所述,所述失真信息模块可以包括五个卷积单元,分别记为第一卷积单元10、第二卷积单元20、第三卷积单元30、第四卷积单元40以及第五卷积单元50;所述第一卷积单元10、第二卷积单元20、第三卷积单元30、第四卷积单元40以及第五卷积单元50依次级联,并且相邻两个卷积单元中前一个卷积单元的输出项为后一个卷积单元的输入项。例如,对于第二卷积单元20和第三卷积单元30,第二卷积单元20的输出项为第三卷积单元30的输入项。此外,所述第一卷积单元10的输入项为待评价图像,第五卷积单元50的输出项为失真特征。
所述第一卷积单元10包括第一卷积层、第二卷积层以及第一最大池化层;所述第一卷积层与第二卷积层相连,第二卷积层与第一最大池化层相连,其中,第一卷积层的输入项为待评价图像,第二卷积层的输入项为第一卷积层的输出项,第一最大池化层的输入项为第二卷积层的输出项。在本实施例的中,所述第一卷积层的卷积核为3*3,输入通道为3,输出通道为64,填充为1,步长为1;第二卷积层的卷积核为3*3,输入通道为64,输出通道为64,填充为1,步长为1;第一最大池化层的卷积核为3*3,步长为2。
所述第二卷积单元20包括第三卷积层、第四卷积层以及第二最大池化层;所述第三卷积层与第四卷积层相连,第三卷积层与第二最大池化层相连,其中,第三卷积层的输入项为第一最大池化层的输出项,第四卷积层的输入项为第三卷积层的输出项,第二最大池化层的输入项为第四卷积层的输出项。在本实施例的中,所述第三卷积层的卷积核为3*3,输入通道为64,输出通道为128,填充为1,步长为1;第四卷积层的卷积核为3*3,输入通道为128,输出通道为128,填充为1,步长为1;第二最大池化层的卷积核为3*3,步长为2。
所述第三卷积单元30包括第五卷积层、第六卷积层、第七卷积层以及第三最大池化层;所述第五卷积层与第六卷积层相连,第六卷积层与第七卷积层相连接,第七卷积层与第二最大池化层相连,其中,第五卷积层的输入项为第二最大池化层的输出项,第六卷积层的输入项为第五卷积层的输出项,第七卷积层的输入项为第六卷积层的输出项,第三最大池化层的输入项为第七卷积层的输出项。在本实施例的中,所述第五卷积层的卷积核为3*3,输入通道为128,输出通道为256,填充为1,步长为1;第六卷积层的卷积核为3*3,输入通道为256,输出通道为256,填充为1,步长为1;第六卷积层的卷积核为3*3,输入通道为256,输出通道为256,填充为1,步长为1;第三最大池化层的卷积核为3*3,步长为2。
进一步,第四卷积单元40和第五卷积单元50均匀第三卷积单元30的模型结构相同,均包括三个卷积层以及一个最大池化层。其中,第四卷积单元40和第五卷积单元50与第三卷积单元30区别在,各卷积层的输入通道数以及输出通道数不同。在第四卷积单元40中,第五卷积层的输入通道数为256,输出通道数为512,第六卷积单元以及第七卷积单元的输出通道数均为512,输出通道数均为512。在第五卷积单元50中,第五卷积单元50、第六卷积单元以及第七卷积单元的输出通道数均为512,输出通道数均为512。
S30、所述评价网络模型基于所述语义特征以及所述失真特征,确定所述待评价图像的图像质量分数。
具体地,所述图像质量分数为所述评价网络模型的输出项,用于表示该待评价图像的图像质量的好坏。其中,所述图像质量分数与待评价图像的图像质量的对应关系可以为:图像质量分数越高,该待评价图像的图像质量越好;图像质量分数越低,该待评价图像的图像质量越差。例如,对于待评价图像A和待评价图像B;待评价图像A通过所述评价网络模型得到的图像质量分数为90,待评价图像B通过所述评价网络模型得到的图像质量分数为95,那么待评价图像B的图像质量高于待评价图像A的图像质量。
进一步,所述语义特征为所述语义信息模块的输出项,所述失真特征为所述失真信息模块的输出项,其中,所述语义特征为语义特征矩阵,所述失真信息为失真特征矩阵。所述失真特征矩阵的矩阵尺度以及语义特征矩阵均包括矩阵维度以及通道数,例如,矩阵维度为7*7,通道数为512,那么矩阵尺度为7*7*512,再如,矩阵尺度为h×w×d,那么矩阵维度为h×w,通道数为d。此外,所述语义特征矩阵的矩阵尺度为根据语义信息模块的网络结构以及输入图像的图像尺寸确定,所述失真特征矩阵的矩阵尺度为根据失真信息模块网络结构以及输入图像的图像尺寸确定。例如,以上述失真信息模块的网络结构为例,当输入项的图像尺寸为224*224时,失真信息矩阵的矩阵尺度为7*7*512。
进一步,在获取到语义特征以及所述失真特征后,将所述语义特征以及所述失真特征进行融合,并基于融合得到融合图像确定待评价图像对应的图像质量分数。其中,所述融合可以基于语义特征与失真特征得到池化特征向量,之后再将池化特征向量应用是欧式空间以得到融合后的特征向量。由此,在本实施例的一个实现方式中,所述评价网络模型包括融合模块;所述评价网络模型基于所述语义特征以及所述失真特征,确定所述待评价图像的图像质量分数具体包括:
S23a所述融合模块根据所述语义特征以及所述失真特征,确定所述待评价图像的图像质量分数。
具体地,所述融合模块分别与所述语义信息模块以及所述失真信息模块相连,所述语义信息模块输出的语义特征以及所述失真信息模块输入的失真特征均输入所述融合模块,所述融合模块对所述语义特征以及失真特征进行融合,以得到融合后的特征向量,最后基于融合后的特征向量来确定所述待评价图像对应的图像质量分数。此外,语音特征是由语义信息模块输出的,失真特征是由失真信息模块输出的,所述语义特征的矩阵维度与所述失真特征的矩阵维度可以相同,也可以不同。其中,所述语义特征的矩阵维度与所述失真特征的矩阵维度相同时,可以采用双线性池化层将所述语义特征与所述失真特征进行融合,当所述语义特征的矩阵维度与所述失真特征的矩阵维度不相同时,可以采用自适应池化层将所述语义特征与所述失真特征进行融合,也可以将所述语义特征的矩阵维度与失真特征的矩阵维度调整相同后,采用采用双线性池化层将所述语义特征与所述失真特征进行融合。
在本实施例的一个实现方式中,所述语义特征的矩阵维度与所述失真特征的矩阵维度相同,所述融合模块基于双线性池化方法进行特征融合,相应的,所述融合模块可以包括双线性池化层,所述双线性池化层用于将语义特征以及失真特征融合为双线性池化特征,再将双线性池化特征映射至欧式空间下,以得到融合后的特征向量。其中,所述语义特征和失真特征确定融合后的特征向量的关系式可以为:
B=F1 TF2
其中,F1为语义特征,F1 T为语义特征的转置矩阵,F2为失真特征,B为双线性池化特征。
此外,双线性池化特征映射到欧式空间下的融合后的特征向量的映射关系可以为:
进一步,在本实施例的一个实现方式中,所述语义特征的矩阵维度与所述失真特征的矩阵维度不同,在采用双线性池化将所述语义特征与所述失真特征进行融合之前,需要确定语义特征的矩阵维度(记为第一矩阵维度)与失真特征的矩阵维度(记为第二矩阵维度)是否相同;当第一矩阵维度与第二矩阵维度相同时,直接根据关系式将语义特征和失真特征融合;当第一矩阵维度与第二矩阵维度不同时,需要先对第一矩阵维度和第二矩阵维度进行调整,以使得第一矩阵维度和第二矩阵维度相同。相应的,当语义特征的第一矩阵维度与所述失真特征的第二矩阵维度不同时,所述评价网络模型根据所述第一矩阵维度和第二矩阵维度确定目标矩阵维度具体包括:
所述评价网络模型根据所述第一矩阵维度和第二矩阵维度确定目标矩阵维度;
所述评价网络模型根据所述目标矩阵维度分别对所述语义特征以及所述失真特征进行调整,得到调整后的语义特征与调整后的失真特征。
具体地,所述目标矩阵维度为语义特征和失真特征调整后的矩阵维度,所述目标矩阵维度的行数小于或等于第一矩阵维度的行数,且小于或等于第二矩阵维度的行数,目标矩阵维度的列数小于第二矩阵维度的列数,且小于或等于第二矩阵维度的列数。例如,第一矩阵维度为5*8,第二矩阵维度为6*7,那么调整后的矩阵维度的行数小于或等于5,列数小于或等于7。进一步,所述目标矩阵维度可以是根据第一矩阵维度和第二矩阵维度确定。相应的,所述所述评价网络模型根据所述第一矩阵维度和第二矩阵维度确定目标矩阵维度度具体包括:
所述评价网络模型获取第一矩阵维度中的行数与第二矩阵维度中的行数中的最小行数,以及获取第一矩阵维度中的列数与第二矩阵维度中的列数中的最小列数;
所述评价网络模型所述最小行数以及最小列数确定目标矩阵维度。
具体地,所述第一矩阵维度和第二矩阵维度均采用A*B的形式,其中行数指的是A,列数指的是B。由此,目标矩阵维度也可为A*B的形式,并且目标矩阵维度中的行数为第一矩阵维度中行数与第二矩阵维度中行数的最小值,目标矩阵维度中的行数为第一矩阵维度中列数与第二矩阵维度中行=列数的最小值。例如,语义特征的第一矩阵尺度为h1×w1×d1,失真特征的第二矩阵尺度为h2×w2×d2,那么第一矩阵维度为h1×w1,第二矩阵维度为h2×w2,并且h1×w1≠h2×w2,则在h1,h2和w1,w2中分别选取较小的一个,例如,h1和w2,那么目标矩阵维度为h1×w2,并且所述第一矩阵尺度变为h1×w2×d1,第二矩阵尺度变为h1×w2×d2。
此外,在确定调整后的矩阵维度后,需要根据所述矩阵维度对所述的语义特征和失真特征进行修正,其中,语义特征调整规则与失真调整规则可以相同,例如,均为从后向前删除多余行以及多余列;当然,语义特征调整规则与失真调整规则可以不相同,例如,语义特征为从后向前删除多余行以及多余列,失真特征为从前向后删除多余行以及多余列。在本实施例的一个可选实施例中,所述语义特征调整规则与失真调整规则可以相同,均为从后向前删除多余行以及多余列。
进一步,在本实施例的一个实现方式中,所述语义特征的矩阵维度与所述失真特征的矩阵维度不同,在采用自适应池化将所述语义特征与所述失真特征进行融合。相应的,当语义特征的第一矩阵维度与所述失真特征的第二矩阵维度不同时,所述融合模块根据所述语义特征以及所述失真特征,确定所述待评价图像的图像质量分数之前,所述方法包括:
基于所述第一矩阵维度和所述第二矩阵维度确定目标矩阵维度;
基于所述目标矩阵维度与所述第一矩阵维度确定所述语义特征对应的第一池化核,以及基于所述目标矩阵维度与所述第二矩阵维度确定所述失真特征对应的第二池化核;
基于所述第一池化核对所述语义特征进行池化,以得到池化后的语义特征,其中,池化后的语义特征的矩阵维度等于目标矩阵维度;
基于所述第二池化核度所述失真特征信息池化,以得到池化后的失真特征,其中,池化后的失真特征的矩阵维度等于目标矩阵维度。
具体地,所述目标矩阵维度为语义特征和失真特征调整后的矩阵维度,所述目标矩阵维度的行数小于或等于第一矩阵维度的行数,且小于或等于第二矩阵维度的行数,目标矩阵维度的列数小于第二矩阵维度的列数,且小于或等于第二矩阵维度的列数。例如,第一矩阵维度为5*8,第二矩阵维度为6*7,那么调整后的矩阵维度的行数小于或等于5,列数小于或等于7。
进一步,在本实施例的一个实现方式中,所述目标矩阵维度的行数可以等于第一矩阵维度的行数与第二矩阵维度的行数中最小值,所述目标矩阵维度的列数可以等于第一矩阵维度的列数与第二矩阵维度的列数中最小值。此外,在获取到目标矩阵维度之后,可以根据第一矩阵维度的行数与目标矩阵维度的行数的商A,以及第一矩阵维度的列数与目标矩阵维度的列数的商B来确定语义特征对应的池化核,其中,所述池化核的尺寸可以为商A*商B。同理,可以根据第二矩阵维度的行数与目标矩阵维度的行数的商C,以及第二矩阵维度的列数与目标矩阵维度的列数的商D来确定语义特征对应的池化核,其中,所述池化核的尺寸可以为商C*商D。举例说明:第一矩阵维度为3*12,第二矩阵维度为12*3,那么所述目标矩阵维度为3*3,语义特征对应的池化核为1*4;失真特征对应的池化核为4*1。
基于此,所述评价网络模型可以包括第一自适应池化层和第二自适应池化层;所述第一自适应池化层的输入项为语义特征和第二自适应池化层的输入项为失真特征;所述第一自适应池化层和所述第二自适应池化层均与所述融合模块相连接,并分别将各自的输出项输入至所述融合模块,以通过所述融合模块输入图像质量分数。当然,在实际应用中,所述第一自适应池化层和所述第二自适应池化层可以包含于所述融合模块,即所述融合模块包括第一自适应池化层、所述第二自适应池化层以及融合层,所述所述评价网络模型基于所述语义特征以及所述失真特征,确定所述待评价图像的图像质量分数可以具体包括:所述第一自适应池化层基于所述语义特征确定语义特征对应的池化语义特征;所述第二自适应池化层基于所述失真特征确定语义特征对应的池化失真特征;所述融合层基于所述池化语义特征以及池化失真特征,确定所述待评价图像的图像质量分数。
进一步,在本实施例的一个实现方式中,为了基于融合后的特征向量输出待评价图像对应的图像质量分数,所述评价网络模型还包括回归顶层,所述回归顶层与所述融合模块相连,所述融合模块输出的特征向量为所述回归顶层的输出项,其中,该回归顶层用于将确定到的特征向量整合回归到图像质量分数。例如,所述回归顶层可以包括一个全连接层,该全连接层的输出项为1维标量(即,图像质量分数),还可以包括多个级联的全连接层,多个全连接层中最后一个全连接处的输出项为1维标量(即,图像质量分数)。
进一步,在本实施例的一个实现方式中,所述评价网络模型为通过对第一网络模型进行训练得到,如图3所示,所述评价网络模型的训练过程可以包括:
A10、第一网络模型根据训练图像集中训练图像,生成所述训练图像对应的生成图像质量分类;
A20、所述第一网络模型根据所述训练图像对应的目标分数和所述训练图像对应的生成图像质量分类,对模型参数进行修正,并继续执行根据所述训练图像集中的下一训练图像,生成所述训练图像对应的生成图像质量分类的步骤,直至所述第一网络模型的训练情况满足预设条件,以得到所述评价网络模型。
具体地,在所述步骤A10中,所述训练图像集包括多组具有不同图像内容的训练图像,每张训练图像对应有目标分数,其中,所述目标分数为所述训练图像对应的实际图像质量分数。例如,训练图像集中包括训练图像A,以及训练图像A对应的目标分数B,其中,训练图像A为第一网络模型的输入项。此外,所述第一网络模型与所述评价网络模型的模型结构相同,其区别在于所述第一网络模型的模型参数与所述评价网络模型的模型参数不同,所述第一网络模型的模型参数为预先设定的初始模型参数,所述评价网络模型的模型参数为经过训练得到的模型参数,基于评价网络模型得到的图像质量分数的精度高于基于第一网络模型得到的图像质量分数。
基于此,由评价网络模型对待评价图像的处理过程可以知道,所述第一网络模型包括语义信息模块以及失真信息模块,从而所述第一网络模型根据训练图像集中训练图像,生成所述训练图像对应的生成图像质量分类具体包括:
A11、将所述训练图像分别输入至语义信息模块以及失真信息模块;
A12、通过所述语义信息模块确定训练图像的语义特征,以及通过所述失真信息模块确定训练图像的失真特征;
A13、基于所述语义特征以及所述失真特征,生成所述训练图像对应的生成图像质量分类。
具体地,所述语义信息模块的输入项为训练图像,输出项为语义特征;所述失真信息模块的输入项为训练图像,输出项为失真特征。其中,所述语义信息模块的结构与评价网络模型中的语义信息模块的结构相同,具体可以参照评价网络模型中的语义信息模块的说明;所述失真信息模块的结构与评价网络模型中的失真信息模块的结构相同,具体可以参照评价网络模型中的失真信息模块的说明。此外,所述第一网络模型中的语义信息模块对训练图像的处理与评价网络模型的语义信息模块的对待评价图像的处理过程相同,以及所述第一网络模型中的失真信息模块对训练图像的处理与评价网络模型的失真信息模块的对待评价图像的处理过程相同,从而所述步骤A12具体执行过程可以参照步骤S20。
可以理解的是,评价网络模型在训练过程中对应的网络结构,与在应用过程(确定待评价图像的图像质量分数)中所对应的网络结构相同。例如,在通过评价网络模型确定待评价图像的图像质量分数的过程中,评价网络模型包括语义信息模块和失真信息模块,那么相应地,在训练过程时,评价网络模型(即第一网络模型)也包括语义信息模块和失真信息模块。
例如,在通过评价网络模型确定待评价图像的图像质量分数的过程中,评价网络模型的失真信息模块包括五个卷积单元;相应地,在训练过程时,失真信息模块包括五个卷积单元;并且在训练过程中,每一层的工作原理与在应用过程中每一层的工作原理相同,因此,评价网络模型训练过程中的每一层神经网络的输入输出情况可以参见评价网络模型的应用过程中的相关介绍,这里不再赘述。
在本实施例的一个实现方式中,所述第一网络模型中的失真信息模块为经过训练的网络模块,所述第一网络模型中的失真信息模块为基于预设的训练样本训练得到,所述训练样本包括多组训练图像组,每组训练图像组包括第一图像和第二图像,所述第一图像与第二图像为同一原图像的失真图像,所述第一图像的失真类型与第二图像的失真类型相同,并且所述第一图像的失真程度与第二图像的失真程度不同。其中,所述失真类型为造成图像失真的形式,所述失真类型可以包括所述高斯噪声、脉冲噪声、JPEG压缩噪声、JPEG2000压缩噪声、色对比度误差和饱和度误差等。所述失真程度指的第一图像与原图像的偏离程度。其中,所述失真图像为原始图像
进一步,所述训练样本为通过采集到初始图像集中每一张图像进行失真处理得到,其中,所述失真处理指的是向每一张标准图像内添加失真信息(例如,噪声等),以使得得到该标准图像对应的失真图像。相应的,所述训练样本的生成过程具体包括:
M10、获取初始图像集;
M20、对于初始图像集中的每张初始图像,对该初始图像进行失真处理,以得到若干失真图像;
M30、在该张初始图像对应的若干失真图像中选取失真类型相同且失真程度不同的第一图像和第二图像,以形成一组训练图像组;
M40、根据形成得到的所有训练图像组,生成所述训练样本。
具体地,在所述步骤M10中,所述初始图像集可以是通过互联网(例如,百度等)搜索下载的,也可以是通过成像设备拍摄得到,还可以是公开数据集(例如,如2018年发表的Waterloo Exploration图库中包含4744张高质量图片)。当然,在实际应用中,所述初始图像集也可以是根据需要在感兴趣的场景对应的图像中选取得到的,例如,针对夜视场景的图像质量评价,则应集中选择或采集夜景图像。
进一步,在所述步骤M20中,对该初始图像进行失真处理为依据设定失真类型以及设定失真程度集对所述初始图像进行失真处理,其中,所述设定失真程度集包括若干设定失真程度;若干设定失真程度中的任意两个失真程度不同。所述按照预设规则对该初始图像进行失真处理指的是对于该初始图像,分别按照所述设定失真类型以及设定失真程度中的各设定失真程度对该初始图像进行失真处理,以得到若干失真图像,其中,若干失真图像与若干设定失真程度一一对应。
举例说明,预设规则中的设定失真类型为高斯噪声、设定失真程度集为[0.0082,0.0190,0.0298,0.0406,0.0514],那么当初始图像为RGB图像时,按照预设规则对初始图像进行失真处理为:在初始图像的三个色域上分别加入方差为0.0082的高斯噪声,0.0190的高斯噪声,0.0298的高斯噪声,0.0406的高斯噪声以及0.0514的高斯噪声,以得到五张失真图像,并且每一张失真图像对应设定失真程度集中的一个设定失真程度,并且不同失真图像对应的设定失真程度不同。当然,值得说明的是,所述预设规则可以为预设规则集合,预设规则集合内可以包括有多个预设规则,多个预设规则中任意两个预设规则的对应的设定失真类型不同。相应的,在按照预设规则对按照预设规则对该初始图像进行失真处理时,分别按照预设规则集中的每个预设规则对该处理进行设置处理,这样可以得到多组失真图像组,每组失真图像组对应一种失真类型。
进一步,在所述步骤M30中,在获取到初始图像对应的若干失真图像后,在所述若干失真图像中选取第一图像和第二图像,并将第一图像和第二图像作为一个训练图像组,其中,第一图像和第二图像的失真类型相同,但是失真程度不同。可以理解的是,训练图像组中的第一图像的失真类型与第二图像的失真类型相同,并且第一图像的失真程度与第二图像的失真程度不相同。例如,第一图像对应的失真类型和第二图像对应的失真类型均为高斯噪声,第一图像对应的失真程度为0.0082,第二图像对应的失真程度为0.0190。
进一步,在本实施例的一个实现方式中,如图4所示,所述第一网络模型中的失真信息模块的训练过程具体包括:
L10、基于预设的第二网络模型,确定所述第一图像对应的第一生成图像质量分类,以及所述第二图像对应的第二生成图像质量分类;
L20、基于所述第一生成图像质量分类以及所述第二生成图像质量分类对所述第二网络模型进行训练;
L30、当所述第二网络模型的模型参数满足预设条件时,将所述第二网络模型中的特征提取层后的所有网络层去除,以得到所述第一网络模型中的失真信息模块。
具体地,在步骤L10中,所述第二网络模型的输入项为训练图像组中第一图像和第二图像,输出项为第一图像对应的第一生成图像质量分类,以及第二图像对应的第二生成图像质量分类。所述第二网络模型包括所述失真信息模块,并通过所述失真信息模块输出所述第一图像对应的第一失真特征,以及第二图像对应的第二失真特征。其中,所述第二网络模型可以包括一个失真信息模块,将所述第一图像和第二图像依次输入该失真信息模块,以分别通过该失真模块输出第一图像的第一失真特征,以及第二图像的第二失真特征;所述第二网络模型也可以包括两个并联第一网络单元和第二网络单元,第一网络单元和第二网络单元均包括评价网络模型中失真信息模块,第一网络单元与第二网络单元的网络结构相同,并且第一网络单元与第二网络单元共享模型参数,通过第一网络单元输出第一图像对应的第一生成图像质量分类,通过第二网络单元输出第二图像对应的第二生成图像质量分类。当然,值得说明的,当第二网络模型包括一个失真信息模型时,所述第二网络模型的网络结构与第一网络单元的网络结构相同。也就是说,在对第二网络模型进行训练时,可以是通过第一图像和第二图像依次输入第二网络模型的方式,也可以将两个第二网络模型并联,在将第一图像输入两个第二网络模型中的一个第二网络模型,将第二图像输入两个第二网络模型中的另一个第二网络模型,以使得两个第二网络模型同步输出,可以提高第二网络模型的训练速度。其中,采用两个第二网络模型时,将两个第二网络模型分别记为第一网络单元和第二网络单元。
在本实施例的一个实现方式中,所述第二网络模型包括两个并列设置的第一网络单元和第二网络单元,第一网络单元与第二网络单元的网络结构相同,并且第一网络单元与第二网络单元共享模型参数。相应的,所述基于预设的第二网络模型,确定所述第一图像对应的第一生成图像质量分类,以及所述第二图像对应的第二生成图像质量分类具体包括:
将所述第一图像输入至所述第一网络单元,通过所述第一网络单元输出所述第一图像对应的第一生成图像质量分类;
将所述第二图像输入至所述第二网络单元,通过所述第一网络单元输出所述第二图像对应的第二生成图像质量分类。
具体地,所述第一网络单元的网络结构和第二网络单元结构均包括评价网络模型中失真信息模块。此外,由于第一网络单元的模型结构与第二网络单元的模型结构相同,从而这里以第一网络单元为例加以说明。如图3所示,所述第一网络单元还包括回归层60,所述回归层60与失真信息模块相连,失真信息模块输出的失真特征为回归层的输入项,回归层的输出项为第一图像对应的第一生成图像质量分类,其中,所述回归层包括若干级联的全连接层。例如,回归层包括三个级联的全连接层,分别记为第一全连接层、第二全连接层以及第三全连接层,第一全连接层的输入向量维数为25088,神经元数量为1024,第二全连接层的输入向量维数为1024,神经元数量为512,第三全连接层的输入向量维数为512,神经元数量为1,以使得回归成输出第一图像的第一生成图像质量分类。
进一步,在步骤L20中,基于所述第一生成图像质量分类以及所述第二生成图像质量分类对所述第二网络模型进行训练为基于所述第一生成图像质量分类以及所述第二生成图像质量分类确定损失函数,基于该损失函数对第二网络模型进行训练。其中,所述损失函数可以为:
L(f(xi),f(xj);θ)=max(0,f(xj;θ)-f(xi;θ)+ε)
其中,ε表示相邻两个失真程度的图片的目标分数之间的差距,θ为第一网络单元的模型参数,f(xi;θ)为第一图像和第二图像中对应失真程度小的图像对应的目标分数,f(xj;θ)为第一图像和第二图像中对应失真程度大的图像对应的目标分数,L(f(xi),f(xj))为第一图像与第二图像的损失函数。
进一步,在所述步骤L30中,所述预设条件包括损失函数值满足预设要求或者训练次数达到预设次数。所述预设要求可以是根据失真信息模块的精度来确定,这里不做详细说明,所述预设次数可以为第二网络模型的最大训练次数,例如,5000次等。由此,在计算得到损失函数值后,判断所述损失函数值是否满足预设要求;若损失函数值满足预设要求,则结束训练;若损失函数值不满足预设要求,则判断所述第二网络模型的训练次数是否达到预测次数,若未达到预设次数,则根据所述损失函数值对所述第二网络模型的网络参数进行修正;若达到预设次数,则结束训练。这样通过损失函数值和训练次数来判断预设网络模型训练是否结束,可以避免因损失函数值无法达到预设要求而造成预设网络模型的训练进入死循环。
进一步,由于对第二网络模型的网络参数进行修改是在第二网络模型的训练情况未满足预设条件(即,损失函数值未满足预设要求并且训练次数未达到预设次数),从而在根据损失函数值对所述第二网络模型的网络参数进行修正后,需要继续对第二网络模型进行训练,即基于预设的第二网络模型,确定所述第一图像对应的第一生成图像质量分类,以及所述第二图像对应的第二生成图像质量分类。其中,继续执行基于预设的第二网络模型确定所述第一图像对应的第一生成图像质量分类,以及所述第二图像对应的第二生成图像质量分类中的第一图像和第二图像对应的训练图像组为未作为输入项输入过第二网络模型的训练图像组中第一图像和第二图像。例如,训练图像集中所有训练图像组均具有唯一图像标识(例如,图像编号),第一次训练输入的训练图像组为图像标识与第二次训练输入的训练图像组的图像标识不同,如,第一次训练输入的训练图像组的图像编号为1,第二次训练输入的训练图像组的图像编号为2,第N次训练输入的训练图像组的图像编号为N。当然,在实际应用中,由于训练图像集中的训练图像组的数量有限,为了提高评价网络模型的训练效果,可以依次将训练图像集中的训练图像组输入至预设网络模型以对预设网络模型进行训练,当训练图像集中的所有训练图像组均输入过预设网络模型后,可以继续执行依次将训练图像集中的训练图像组输入至预设网络模型的操作,以使得训练图像集中的训练图像组按循环输入至预设网络模型。此外,在继续执行依次将训练图像集中的训练图像组输入至预设网络模型的操作,可以对训练图像集中各训练图像组的输入顺序进行调整,以得到调整后的训练图像集,并基于调整后的训练图像集中的训练图像组输入至预设网络模型。
进一步,由于训练图像集中每组训练图像组均包括两种不同失真程度的训练图像,从而对于每个训练图像组,可以将该训练图像组中的一张训练图像与目标训练图像组中的一张图像进行交换来更新该训练图像组,以及更新训练图像集,基于更新后的训练图像集的训练图像组输入至预设网络模型。其中,所述目标训练图像组对应的失真类型与训练图像组的失真类型相同。当然,更新后的训练图像组中的两张训练图像的失真类型相同,但失真程度不同。例如,训练图像组包括训练图像A和训练图像B,目标训练图像组包括训练图像C和训练图像D,训练图像组对应的失真类型为高斯噪声,目标图像组对应的失真类型为高斯噪声;训练图像A对应的失真程度为0.1,训练图像B对应的失真程度为0.3,训练图像C对应的失真程度为0.5,训练图像D对应的失真程度为0.7,那么可以训练图像C替换训练图像组中的训练图像B,使得训练图像组更新为训练图像A和训练图像C。
进一步,由第二网络模型的结构可以知道,将所述第二网络模型中的特征提取层后的所有网络层去除指的是将位于失真信息模块之后的回归层去除,仅保留失真信息模块,以通过该失真信息模块输出失真特征。此外,当第二网络模型为第一网络单元和第二网络单元并列时,将回归层去除指的是,在第一网络单元和第二网络单元中选取一个网络单元,将选取得到的网络单元的回归层去除,以得到失真信息模块。由此,所述当所述第二网络模型的模型参数满足预设条件时,将所述第二网络模型中的特征提取层后的所有网络层去除,以得到所述第一网络模型中的失真信息模块具体为:当所述第一网络单元/所述第二网络单元的模型参数满足预设条件时;将所述第一网络单元/所述第二网络单元中的特征提取层后的所有网络层去除,以得到所述第一网络模型中的失真信息模块。至此,完成对步骤A10的说明,下面对步骤A20进行说明。
进一步,在步骤A20中,根据目标分数以及生成图像质量分类对模型参数进行修正指的是基于目标分数以及生成图像质量分类对模型参数进行修正,以更新第一网络模型的模型参数。其中,所述损失函数可以为目标分数与生成图像质量分类之间的L1距离,也可以为目标分数与生成图像质量分类之间的L2距离,其中,L1距离和L2距离的表达式分别为:
其中,m为一个训练批次包含的训练图像的数量,xi表示一个训练批次中的第i张训练图像,yi表示第i张训练图像对应的目标分数。
进一步,所述预设条件为所述预设条件包括损失函数值满足预设要求或者训练次数达到预设次数。所述预设要求可以是根据评价网络模型的精度来确定,这里不做详细说明,所述预设次数可以为第一网络模型的最大训练次数,例如,5000次等。由此,在计算得到损失函数值后,判断所述损失函数值是否满足预设要求;若损失函数值满足预设要求,则结束训练;若损失函数值不满足预设要求,则判断所述第一网络模型的训练次数是否达到预测次数,若未达到预设次数,则根据所述损失函数值对所述第一网络模型的网络参数进行修正;若达到预设次数,则结束训练。这样通过损失函数值和训练次数来判断预设网络模型训练是否结束,可以避免因损失函数值无法达到预设要求而造成预设网络模型的训练进入死循环。
综上,本实施例提供了一种图像评价方法、存储介质及终端设备,所述方法包括获取待评价图像,并基于所述评价网络模型确定所述待评价图像的图像质量分数,其中,所述评价网络模型包括并联的语义信息模块以及失真信息模块。本发明基于包括语义信息模块和失真信息模块的双通道卷积的网络框架,通过语义信息模块确定所述图像的语义信息(例如,对比度,亮度等),并通过所述失真信息模块确定图像失真信息(例如,噪声种类,噪声强度等),再根据确定到的语义信息以及失真信息对所述图像进行评价,这样通过将语义信息与失真信息相结合来对图像进行评价,提高了图像评价的准确性。此外,在失真信息模块的训练过程中,采用两个第二网络模型并联以形成孪生网络训练策略,基于包括两张失真类型相同、失真程度不同的图像的训练图像组进行训练,降低了对训练样本集的要求,从而可以在现有图库上,扩展了可用于训练深度神经网络的图片数据库,进而提高评价模型的泛化能力。另一方面,通过采用语义信息模块和失真信息模块的双通道网络模型,可以克服目前无参考图像质量评价方法对图片内容信息确定的缺失,提高了图像质量评价的准确性。
基于上述图像评价方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的图像评价方法、存储介质及终端设备中的步骤。
基于上述图像评价方法,本发明还提供了一种终端设备,如图5所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (13)
1.一种图像评价方法,其特征在于,所述方法应用于已训练的评价网络模型,所述评价方法包括:
所述评价网络模型获取待评价图像;
所述评价网络模型根据所述待评价图像,确定所述待评价图像对应的语义特征和失真特征;
所述评价网络模型基于所述语义特征以及所述失真特征,确定所述待评价图像的图像质量分数。
2.根据权利要求1所述的图像评价方法,其特征在于,所述评价网络模型包括语义信息模块以及失真信息模块,所述评价网络模型根据所述待评价图像,确定所述待评价图像对应的语义特征和失真特征具体包括:
所述语义信息模块根据所述待评价图像,确定所述待评价图像对应的语义特征,所述语义特征用于反映所述待评价图像的语义信息;
所述失真信息模块根据所述待评价图像确定所述待评价图像对应的失真特征,其中,所述失真特征用于反映所述待评价图像的失真程度。
3.根据权利要求1所述图像评价方法,其特征在于,所述评价网络模型包括融合模块;所述评价网络模型基于所述语义特征以及所述失真特征,确定所述待评价图像的图像质量分数具体包括:
所述融合模块根据所述语义特征以及所述失真特征,确定所述待评价图像的图像质量分数。
4.根据权利要求2所述图像评价方法,其特征在于,所述语义特征的第一矩阵维度与所述失真特征的第二矩阵维度不同;所述融合模块根据所述语义特征以及所述失真特征,确定所述待评价图像的图像质量分数之前,所述方法包括:
所述评价网络模型根据所述第一矩阵维度和第二矩阵维度确定目标矩阵维度;
所述评价网络模型根据所述目标矩阵维度分别对所述语义特征以及所述失真特征进行调整,得到调整后的语义特征与调整后的失真特征。
5.根据权利要求4所述图像评价方法,其特征在于,所述评价网络模型根据所述第一矩阵维度和第二矩阵维度确定目标矩阵维度具体包括:
所述评价网络模型获取第一矩阵维度中的行数与第二矩阵维度中的行数中的最小行数,以及获取第一矩阵维度中的列数与第二矩阵维度中的列数中的最小列数;
所述评价网络模型所述最小行数以及最小列数确定目标矩阵维度。
6.根据权利要求1-5任一所述图像评价方法,其特征在于,所述评价网络模型为基于预设的训练图像集对第一网络模型进行训练得到,其中,所述第一网络模型中的失真信息模块为经过训练的网络模块,所述训练图像集包括多张训练图像以及每张训练图像对应的图像评价分数。
7.根据权利要求6所述图像评价方法,其特征在于,所述第一网络模型中的失真信息模块为基于预设的训练样本训练得到,所述训练样本包括多组训练图像组,每组训练图像组包括第一图像和第二图像,所述第一图像与第二图像为同一原图像的失真图像,所述第一图像的失真类型与第二图像的失真类型相同,并且所述第一图像的失真程度与第二图像的失真程度不同。
8.根据权利要求7所述图像评价方法,其特征在于,所述训练样本的生成过程具体包括:
获取初始图像集;
对于初始图像集中的每张初始图像,对该初始图像进行失真处理,以得到若干失真图像;
在该张初始图像对应的若干失真图像中选取失真类型相同且失真程度不同的第一图像和第二图像,以形成一组训练图像组;
根据形成得到的所有训练图像组,生成所述训练样本。
9.根据权利要求7所述图像评价方法,其特征在于,所述失真信息模块的训练过程具体包括:
基于预设的第二网络模型,确定所述第一图像对应的第一生成图像质量分类,以及所述第二图像对应的第二生成图像质量分类;
基于所述第一生成图像质量分类以及所述第二生成图像质量分类对所述第二网络模型进行训练;
当所述第二网络模型的模型参数满足预设条件时,将所述第二网络模型中的特征提取层后的所有网络层去除,以得到所述第一网络模型中的失真信息模块。
10.根据权利要求9所述图像评价方法,其特征在于,所述第二网络模型包括第一网络单元和第二网络单元,所述基于预设的第二网络模型,确定所述第一图像对应的第一生成图像质量分类,以及所述第二图像对应的第二生成图像质量分类具体包括:
将所述第一图像输入至所述第一网络单元,通过所述第一网络单元输出所述第一图像对应的第一生成图像质量分类;
将所述第二图像输入至所述第二网络单元,通过所述第一网络单元输出所述第二图像对应的第二生成图像质量分类。
11.根据权利要求9所述图像评价方法,其特征在于,所述第一网络单元和所述第二网络单元共享模型参数;所述当所述第二网络模型的模型参数满足预设条件时,将所述第二网络模型中的特征提取层后的所有网络层去除,以得到所述第一网络模型中的失真信息模块具体为:
当所述第一网络单元的模型参数满足预设条件时;将所述第一网络单元中的特征提取层后的所有网络层去除,以得到所述第一网络模型中的失真信息模块;或者当所述第二网络单元的模型参数满足预设条件时;将所述第二网络单元中的特征提取层后的所有网络层去除,以得到所述第二网络模型中的失真信息模块。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-11任意一项所述的图像评价方法中的步骤。
13.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1-11任意一项所述的图像评价方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010397845.4A CN113658091A (zh) | 2020-05-12 | 2020-05-12 | 一种图像评价方法、存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010397845.4A CN113658091A (zh) | 2020-05-12 | 2020-05-12 | 一种图像评价方法、存储介质及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113658091A true CN113658091A (zh) | 2021-11-16 |
Family
ID=78488709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010397845.4A Pending CN113658091A (zh) | 2020-05-12 | 2020-05-12 | 一种图像评价方法、存储介质及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113658091A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642479A (zh) * | 2021-08-17 | 2021-11-12 | 北京的卢深视科技有限公司 | 人脸图像的评价方法、装置、电子设备及存储介质 |
CN114372974A (zh) * | 2022-01-12 | 2022-04-19 | 北京字节跳动网络技术有限公司 | 图像检测方法、装置、设备及存储介质 |
CN114863127A (zh) * | 2022-02-16 | 2022-08-05 | 北京工业大学 | 一种针对图像语义边缘的质量评价方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108665460A (zh) * | 2018-05-23 | 2018-10-16 | 浙江科技学院 | 基于组合神经网络和分类神经网络的图像质量评价方法 |
CN109272499A (zh) * | 2018-09-25 | 2019-01-25 | 西安电子科技大学 | 基于卷积自编码网络的无参考图像质量评价方法 |
CN109345502A (zh) * | 2018-08-06 | 2019-02-15 | 浙江大学 | 一种基于视差图立体结构信息提取的立体图像质量评价方法 |
CN109949264A (zh) * | 2017-12-20 | 2019-06-28 | 深圳先进技术研究院 | 一种图像质量评价方法、设备及存储设备 |
CN109961434A (zh) * | 2019-03-30 | 2019-07-02 | 西安电子科技大学 | 面向层级语义衰减的无参考图像质量评价方法 |
CN110490323A (zh) * | 2019-08-20 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 网络模型压缩方法、装置、存储介质和计算机设备 |
CN110782445A (zh) * | 2019-10-25 | 2020-02-11 | 北京华捷艾米科技有限公司 | 无参考图像质量评价方法及系统 |
-
2020
- 2020-05-12 CN CN202010397845.4A patent/CN113658091A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109949264A (zh) * | 2017-12-20 | 2019-06-28 | 深圳先进技术研究院 | 一种图像质量评价方法、设备及存储设备 |
CN108665460A (zh) * | 2018-05-23 | 2018-10-16 | 浙江科技学院 | 基于组合神经网络和分类神经网络的图像质量评价方法 |
CN109345502A (zh) * | 2018-08-06 | 2019-02-15 | 浙江大学 | 一种基于视差图立体结构信息提取的立体图像质量评价方法 |
CN109272499A (zh) * | 2018-09-25 | 2019-01-25 | 西安电子科技大学 | 基于卷积自编码网络的无参考图像质量评价方法 |
CN109961434A (zh) * | 2019-03-30 | 2019-07-02 | 西安电子科技大学 | 面向层级语义衰减的无参考图像质量评价方法 |
CN110490323A (zh) * | 2019-08-20 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 网络模型压缩方法、装置、存储介质和计算机设备 |
CN110782445A (zh) * | 2019-10-25 | 2020-02-11 | 北京华捷艾米科技有限公司 | 无参考图像质量评价方法及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642479A (zh) * | 2021-08-17 | 2021-11-12 | 北京的卢深视科技有限公司 | 人脸图像的评价方法、装置、电子设备及存储介质 |
CN114372974A (zh) * | 2022-01-12 | 2022-04-19 | 北京字节跳动网络技术有限公司 | 图像检测方法、装置、设备及存储介质 |
CN114372974B (zh) * | 2022-01-12 | 2024-03-08 | 抖音视界有限公司 | 图像检测方法、装置、设备及存储介质 |
CN114863127A (zh) * | 2022-02-16 | 2022-08-05 | 北京工业大学 | 一种针对图像语义边缘的质量评价方法 |
CN114863127B (zh) * | 2022-02-16 | 2024-05-31 | 北京工业大学 | 一种针对图像语义边缘的质量评价方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liang et al. | Cameranet: A two-stage framework for effective camera isp learning | |
Schwartz et al. | Deepisp: Toward learning an end-to-end image processing pipeline | |
Sun et al. | Blind quality assessment for in-the-wild images via hierarchical feature fusion and iterative mixed database training | |
CN106778928B (zh) | 图像处理方法及装置 | |
CN110008817B (zh) | 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN112446834B (zh) | 图像增强方法和装置 | |
Afifi et al. | Cie xyz net: Unprocessing images for low-level computer vision tasks | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN113658091A (zh) | 一种图像评价方法、存储介质及终端设备 | |
CN111835983B (zh) | 一种基于生成对抗网络的多曝光图高动态范围成像方法及系统 | |
CN111047543A (zh) | 图像增强方法、装置和存储介质 | |
CN110674759A (zh) | 一种基于深度图的单目人脸活体检测方法、装置及设备 | |
CN110958469A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
US11138693B2 (en) | Attention-driven image manipulation | |
CN114418853A (zh) | 基于相似图像检索的图像超分辨率优化方法、介质及设备 | |
CN107729885B (zh) | 一种基于多重残差学习的人脸增强方法 | |
CN111814534A (zh) | 视觉任务的处理方法、装置和电子系统 | |
CN113628134B (zh) | 图像降噪方法及装置、电子设备及存储介质 | |
CN114638375A (zh) | 视频生成模型训练方法、视频生成方法及装置 | |
Tatanov et al. | LFIEM: Lightweight filter-based image enhancement model | |
CN115311149A (zh) | 图像去噪方法、模型、计算机可读存储介质及终端设备 | |
Chambe et al. | HDR-LFNet: Inverse tone mapping using fusion network | |
JP7443030B2 (ja) | 学習方法、プログラム、学習装置、および、学習済みウエイトの製造方法 | |
CN116844008A (zh) | 一种注意力机制引导的内容感知无参考图像质量评价方法 | |
CN116485743A (zh) | 一种无参考图像质量评价方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |