CN117636134A - 基于层级移动窗口注意力的全景图像质量评价方法与系统 - Google Patents
基于层级移动窗口注意力的全景图像质量评价方法与系统 Download PDFInfo
- Publication number
- CN117636134A CN117636134A CN202410101453.7A CN202410101453A CN117636134A CN 117636134 A CN117636134 A CN 117636134A CN 202410101453 A CN202410101453 A CN 202410101453A CN 117636134 A CN117636134 A CN 117636134A
- Authority
- CN
- China
- Prior art keywords
- features
- viewport
- image
- representing
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 25
- 230000008447 perception Effects 0.000 claims abstract description 45
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 230000035945 sensitivity Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000001303 quality assessment method Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000015541 sensory perception of touch Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于层级移动窗口注意力的全景图像质量评价方法与系统,该方法包括,基于层级移动窗口注意力构建多尺度特征提取网络,将视口图像通过不同层级的多尺度特征提取网络,以获得不同尺度的非均匀质量感知特征,再进行融合,获得多尺度感知特征,自动调节不同视口维度和通道维度的权重以获取通道特征,融合通道特征和多尺度感知特征,得到多视口融合特征,将多视口融合特征通过多层感知机以获得非均匀失真全景图像的预测评价分数。本发基于层级移动窗口注意力进行多尺度特征提取,可以同时捕捉局部细节和全局结构,从而更好地理解非均匀失真图像的内容,适应非均匀图像中的物体可能具有不同的尺度,从而提高对非均匀失真的鲁棒性。
Description
技术领域
本发明涉及计算机视觉和多媒体数字图像处理技术领域,特别涉及一种基于层级移动窗口注意力的全景图像质量评价方法与系统。
背景技术
虚拟现实(VR)是一种可以创建和体验虚拟世界的计算机仿真技术。它利用计算机技术模拟人的视听和触觉等感官体验,使用户仿佛身临其境地进入一个虚拟的世界。全景图像(OI)是VR显示的核心组成部分,能够提供全面的视角和强烈的沉浸感,从而使用户能够更加深入地体验虚拟环境。然而OI图像在采集、压缩、传输、重建、显示过程中会面临多种质量问题。因此,准确估计OI的质量对于系统优化和算法优化都非常重要。一般来说,根据客观算法对参考图像的依赖程度,现有的OI图像客观评价方法主要有全参考OIQA(FR-OIQA)和无参考/盲OIQA(NR-/BOIQA)。FR-OIQA在部署时需要使用参考信息,而NR-/BOIQA可以在没有参考信息的情况下评估OI质量,因此NR-/BOIQA更实用也是研究热点。
随着近年来深度学习技术的不断进步,基于神经网络的深度学习方法逐渐成为质量评价研究和应用领域中备受关注的主流。根据OI输入模型方式的不同,OIQA可以分为基于等距投影及其他投影空间方式和基于视口的方式两种。第一种OIQA模型,直接将投影表达空间的图像作为输入或将投影表达空间图像分成图像块作为输入,这种方式数据处理简单且计算复杂度低。第二种OIQA模型,模拟用户在现实观看OI内容时的真实过程,将视口图像作为输入。这种方式数据的视觉内容和用户实际观看到的具有一致性。尽管现有的模型在均匀失真的OI上显示出不错的结果,但它们在非均匀失真的OI上的性能不理想。
为此,需要提出一种高效、准确的全景图像质量评价方法用于评价非均匀失真全景图像的质量,提出这种方法的目的在于:
1、开发专门的非均匀特征提取模块,以精准捕捉具有质量感知的特征,获取对非均匀失真特征敏感的信息。通过引导模型有效区分各种非均匀失真类型,提升特征的可辨别性。为图像处理领域提供更为高效的特征提取手段;
2、通过深入研究建模,致力于设计自适应选择不同视口的非均匀失真信息。通过应用多视口非均匀失真特征聚合模块,增强特征表示,有助于推动深度学习OIQA模型的发展。
因此,高效准确地评估非均匀失真全景图像的盲图像质量评价方法对于图像质量评价领域的发展乃至计算机视觉领域的发展都会有很大的促进作用。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种基于层级移动窗口注意力的全景图像质量评价方法与系统,以解决上述技术问题。
本发明提出了一种基于层级移动窗口注意力的全景图像质量评价方法,所述方法包括如下步骤:
S1、获取全景图像赤道区域的视口图像,对视口图像进行图像预处理;
S2、基于层级移动窗口注意力构建多尺度特征提取网络,将预处理后视口图像通过不同层级的多尺度特征提取网络,以获得不同尺度的非均匀质量感知特征;
S3、对不同尺度的非均匀质量感知特征进行融合,以提高对非均匀失真在局部和全局的敏感性,得到多尺度感知特征;
S4、自动调节不同视口维度和通道维度的权重,以获取不同视口图像的感知重要性,对视口中不同通道的重要性进行选择,定位不同失真类型和程度的通道以获取通道特征;
S5、融合通道特征和多尺度感知特征以捕获整张图像的局部细节和全局结构,得到多视口融合特征;
S6、将多视口融合特征通过多层感知机以获得非均匀失真全景图像的预测评价分数。
本发明还提出一种基于层级移动窗口注意力的全景图像质量评价系统,其中,所述系统应用如上所述的基于层级移动窗口注意力的全景图像质量评价方法,所述系统包括:
视口提取模块,用于:
获取全景图像赤道区域的视口图像,对视口图像进行图像预处理;
基于层级移动窗口注意力构建多尺度特征提取网络,将预处理后视口图像通过不同层级的多尺度特征提取网络,以获得不同尺度的非均匀质量感知特征;
多尺度特征聚合模块,用于:
对不同尺度的非均匀质量感知特征进行融合,以提高对非均匀失真在局部和全局的敏感性,得到多尺度感知特征;
失真自适应感知模块,用于:
自动调节不同视口维度和通道维度的权重,以获取不同视口图像的感知重要性,对视口中不同通道的重要性进行选择,定位不同失真类型和程度的通道以获取通道特征;
视口融合视觉注意力模块,用于:
融合通道特征和多尺度感知特征以捕获整张图像的局部细节和全局结构,得到多视口融合特征;
质量回归模块,用于:
将多视口融合特征通过多层感知机以获得非均匀失真全景图像的预测评价分数。
与现有技术相比,本发明的有益效果:
1、基于层级移动窗口注意力的多尺度特征提取,同时捕捉局部细节和全局结构,从而更好地理解非均匀失真图像的内容,适应非均匀图像中的物体可能具有不同的尺度,从而提高对非均匀失真的鲁棒性。
2、对多尺度非均匀失真信息进行聚合,对于非均匀失真,一些微小但重要的细节可能在较小尺度上更加显著。通过多尺度特征聚合使得模型能够更敏感地捕捉这些细节信息,同时可以更准确地定位和识别出这些失真区域,有助于更精细地进行质量评价。
3、使用自适应视口注意力计算,人眼在观看图像时通常会关注到一些特定区域,这些区域对于整体图像的理解和感知更为重要。引入自适应视口注意力可以更好地模拟人眼的观察方式,提高模型对于图像的感知能力。
4、使用自适应通道注意力计算,可以帮助模型区分图像中不同区域的失真程度。通过对失真区域的注意力加强,模型可以更有针对性地关注那些可能受到较大失真影响的区域,同时可以有选择地关注对应于特定失真类型的通道,使模型能够更好地适应不同种类的失真。
5、使用多视口视觉注意力计算,可以使得模型更加关注非均匀失真的区域,同时能够综合处理不同视口图像的失真情况,这提高了模型的泛化性,使其在更广泛的图像质量评价任务中表现更好。
本发明的附加方面与优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的一种基于层级移动窗口注意力的全景图像质量评价方法的流程图;
图2为本发明提出的一种基于层级移动窗口注意力的全景图像质量评价系统的框架图;
图中,.矩阵乘法、/>.矩阵加法、/>.拼接。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。
请参阅图1,本实施例提供了一种基于层级移动窗口注意力的全景图像质量评价方法,所述方法包括如下步骤:
S1、获取全景图像赤道区域的视口图像,对视口图像进行图像预处理;
进一步的,获取全景图像赤道区域的视口图像,对视口图像进行图像预处理的方法具体包括如下步骤:
S101、获取若干非均匀失真全景图像;
S102、设定采样视口大小,图像采样提取大小为512×512的视口;
S103、从每张非均匀失真全景图像的赤道区间进行等距视口采样,得到视口图像,并存入非均匀失真全景图像数据库中。
为了防止过拟合,本实施例将非均匀失真全景图像数据库中的80%图像用于训练,而20%用于测试。
S2、基于层级移动窗口注意力构建多尺度特征提取网络,将预处理后视口图像通过不同层级的多尺度特征提取网络,以获得不同尺度的非均匀质量感知特征;
进一步的,将预处理后视口图像通过不同层级的多尺度特征提取网络的过程存在如下关系式:
;
其中,表示第/>张视口图像,/>表示层级移动窗口注意力,/>表示第/>张视口图像的第/>阶段的特征,/>表示1×1卷积层,/>表示赤道区域提取的视口数量,本实施例中/>设置为8。
本实施例使用多尺度特征提取能力强大的预训练层级移动窗口注意力()来提取不同视口图像的低级和高级特征。本实施例的多尺度特征提取网络采用四层架构,四个阶段的特征图大小分别为/>,/>,/>,/>,本实施例使用4个/>卷积层将四个阶段提取的特征/>的不同的通道数统一为128,这样优化了特征融合和信息交互,避免了维度不匹配问题。
其中,层级移动窗口注意力的每个阶段中含有补丁合并()和层级注意力块(/>)。补丁合并操作会将输入的视口图像进行分块,即每/>相邻的像素为一个图像块(/>),然后在通道维度上进行展平。视口图像的形状由/>变成了/>,其中/>分别表示宽度、高度和维度,/>表示展平后的维度。前三个阶段通过补丁合并后,输入层级注意力块之前会进行下采样操作。
其中,层级注意力块包含窗口多头自注意力模块()和滑动窗口多头自注意力模块(/>),以下窗口多头自注意力模块记为/>模块,滑动窗口多头自注意力模块记为/>模块。对于/>模块首先将特征图按照/>大小划分成一个个窗口,然后单独对每个窗口内部进行自注意力计算(/>)。采用/>模块时,只会在每个窗口内进行/>计算,所以窗口与窗口之间是无法进行信息传递的。/>计算的表示存在如下关系:
;
其中,表示输入特征,/>、/>、/>表示查询、键和值对应的投影矩阵,/>表示的特征维度,/>表示矩阵乘法。
模块可以解决窗口间无法进行信息传递问题,/>模块和/>模块是成对使用的。/>模块引入滑动窗口机制,限制注意力窗口的范围,通过引入偏移量来限制位置之间的交互范围。滑动窗口机制的表示存在如下关系:
;
其中,、/>、/>表示输入特征投影到对应位置的查询、键和值空间。
;
其中,为未归一化的注意力权重。
;
其中,是一个二进制掩码函数,表示只有当/>位于范围内时,权重才保留;否则,权重为零。
最后进行归一化输出。
;
其中,表示对应位置 j 的值特征。
S3、对不同尺度的非均匀质量感知特征进行融合,以提高对非均匀失真在局部和全局的敏感性,得到多尺度感知特征;
进一步的,对不同尺度的非均匀质量感知特征进行融合的过程存在如下关系式:
;
其中,表示展平操作,/>表示拼接操作,/>表示全连接层,/>表示不同阶段特征整合后的多尺度感知特征。
在本步骤中,通过将来自不同尺度的特征图,在/>维度展平为一维向量,展平过程中不同特征图的相邻像素仍然保持相邻关系,保留相对位置信息。然后将展平的向量按照一定的顺序进行拼接后通过线性变化得到形状为/>的/>,有助于不同尺度的信息整合到共享的特征空间中。
S4、自动调节不同视口维度和通道维度的权重,以获取不同视口图像的感知重要性,对视口中不同通道的重要性进行选择,定位不同失真类型和程度的通道以获取通道特征;
进一步的,自动调节不同视口维度和通道维度的权重,以指导获取不同视口图像的感知重要性,对视口中不同通道的重要性进行选择,定位不同失真类型和程度的通道以获取通道特征的方法具体包括如下步骤:
S401、不同尺度的非均匀质量感知特征包括由多尺度特征提取网络浅层所提取的低级特征和由多尺度特征提取网络深层所提取的高级特征,根据特征金字塔思想将高级特征和低级特征进行整合,得到指导特征,根据特征金字塔思想将高级特征和低级特征进行整合的过程存在如下关系式:
;
其中,表示上采样,/>表示第/>个视口的指导特征;
在本步骤中,通过将多尺度特征提取模块中后三个阶段较低分辨率的特征上采样成第一个阶段特征/>的大小,并在通道维度进行拼接得到指导特征。这个过程能够将高级语义信息引入到低级特征来实现多尺度信息融合,并指导模型来理解视口内容。然后使用/>卷积来降低指导特征的通道数并减少计算成本。
S402、对指导特征进行视口注意力计算,获得视口特征,对指导特征进行视口注意力计算的过程存在如下关系式:
;
其中,表示自适应视口注意力计算,/>表示视口特征。
在本步骤中,自适应视口注意力计算过程首先通过将指导特征通过全局平均池化层,全连接层和转置操作变换为/>和/>,/>和/>相乘后并进行/>归一化得到视口注意力矩阵,接着把指导特征/>重塑为和视口注意力矩阵相同大小的/>。
该过程表示为:
;
其中,表示全局平均池化层,/>表示将通道维度和空间维度合并相乘,/>表示将数值为1的维度去除,/>表示/>函数,/>、/>、/>分别表示查询特征、键特征、值特征;
通过矩阵乘法将视口注意力矩阵和相乘得到视口特征/>,最后将视口特征/>重塑为指导特征/>的形状后,通过可学习因子/>对视口特征/>进行放缩并和指导特征相加,得到视口特征。
自适应视口注意力计算关系表示如下:
;
其中,表示可学习因子,/>表示标量乘法;
S403、对视口特征进行通道注意力计算,得到自适应特征,对视口特征进行通道注意力计算的过程存在如下关系式:
;
其中,表示通道特征,/>表示自适应通道注意力计算,自适应通道注意力计算关系表示如下:
;
其中,分别表示视口特征对应的键特征、值特征、查询特征。
S5、融合通道特征和多尺度感知特征以捕获整张图像的局部细节和全局结构,得到多视口融合特征;
进一步的,融合通道特征和多尺度感知特征以捕获整张图像的局部细节和全局结构的过程存在如下关系式:
;
其中,表示多头注意力机制,/>表示多视口融合特征,表示融合特征,融合特征的计算过程存在如下关系式:
。
本步骤中,先将通过在空间维度进行展平操作后和/>在通道维度进行拼接,并使用卷积对结果降维,以提高模型对视口多样化特征的捕获和表征能力。再把大小为的融合特征/>在视口维度进行展平成/>的视口融合特征/>,来融合多个视口的不同信息,其中,/>分别表示视口图像数量、高度、宽度和通道数。接着使用多头注意力机制(/>)来提取视口融合特征/>之间的关联性信息,促进全局信息的整合和处理,得到多视口融合特征。
多头注意力计算过程如下:
首先对进行三个线性投影,分别生成/>、/>和/>的查询、键和值,/>、/>和/>分别是注意力头相关的投影矩阵。对每个注意力头分别计算注意力权重,并应用到值上。这个过程地关系表示如下:
;
将多个注意力头的输出拼接在一起,并进行线性变换,最后得到大小的多视口融合特征/>。将多个注意力头的输出拼接在一起,并进行线性变换的过程地关系表示如下:
;
其中,表示输出的线性变换矩阵。
S6、将多视口融合特征通过多层感知机以获得非均匀失真全景图像的预测评价分数。
进一步的,将多视口融合特征通过多层感知机以获得非均匀失真全景图像的预测评价分数的过程存在如下关系式:
;
其中,表示多层感知机,/>表示转置操作,/>表示线性层,/>表示图像的预测质量分数。
本步骤中,多层感知机通过使用两个线性层和函数将特征/>映射为一个向量,接着通过转置操作/>和线性层/>对/>进行整合和压缩,最终输出一个标量值代表整张全景图像的感知质量得分。
多层感知机的计算过程的表示如下:
;
其中,表示输入多视口融合特征/>,/>表示全连接层,/>表示/>函数,/>函数的表达式如下:
。
利用非均匀失真全景图像质量数据库对本发明进行训练和测试过程的具体步骤如下:
获取非均匀失真全景图像数据库中所有数据的平均主观分数(MOS),作为标签数据。标签数据的表示存在如下关系式:
;
其中,表示第/>个受试者对非均匀失真全景图片给出的体验质量意见分数,/>表示参与评价非均匀失真全景图像质量的实验人数;
使用Adam优化器进行优化;学习率设置为0.0001;权重衰减策略,衰减率为0.0005;
输入赤道区域的8个视口图像重复本发明步骤S1至S6得到预测质量分数;
利用预测质量分数和主观分数构建损失函数,通过最小化损失以优化模型性能。
本实施例采用均方误差(MSE)作为损失函数:
;
其中,和/>训练数据中第/>非均匀失真全景图像的预测质量分数和主观分数,表示数据中非均匀失真全景图像的数量。
将均方误差结果与MOS分数对比计算可以得到模型各项指标,测试指标包括以下3种:
预测单调性指标,包括斯皮尔曼相关系数(SRCC),具体表示为:
;
其中,表示第/>个非均匀失真全景图像的主观分数与客观预测得分的差值。
预测准确性指标,包括皮尔逊相关系数(PLCC),具体表示为:
。
其中,和/>分别是主观分数平均值与客观预测得分平均值。
预测误差程度指标,包括均方根误差(RMSE)具体表示为:
。
请参照图2,本实施例还提供一种基于层级移动窗口注意力的全景图像质量评价系统,所述系统应用如上所述的基于层级移动窗口注意力的全景图像质量评价方法,所述系统包括:
视口提取模块,用于:
获取全景图像赤道区域的视口图像,对视口图像进行图像预处理;
基于层级移动窗口注意力构建多尺度特征提取网络,将预处理后视口图像通过不同层级的多尺度特征提取网络,以获得不同尺度的非均匀质量感知特征;
多尺度特征聚合模块,用于:
对不同尺度的非均匀质量感知特征进行融合,以提高对非均匀失真在局部和全局的敏感性,得到多尺度感知特征;
失真自适应感知模块,用于:
自动调节不同视口维度和通道维度的权重,以获取不同视口图像的感知重要性,对视口中不同通道的重要性进行选择,定位不同失真类型和程度的通道以获取通道特征;
视口融合视觉注意力模块,用于:
融合通道特征和多尺度感知特征以捕获整张图像的局部细节和全局结构,得到多视口融合特征;
质量回归模块,用于:
将多视口融合特征通过多层感知机以获得非均匀失真全景图像的预测评价分数。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种基于层级移动窗口注意力的全景图像质量评价方法,其特征在于,包括如下步骤:
S1、获取全景图像赤道区域的视口图像,对视口图像进行图像预处理;
S2、基于层级移动窗口注意力构建多尺度特征提取网络,将预处理后视口图像通过不同层级的多尺度特征提取网络,以获得不同尺度的非均匀质量感知特征;
S3、对不同尺度的非均匀质量感知特征进行融合,以提高对非均匀失真在局部和全局的敏感性,得到多尺度感知特征;
S4、自动调节不同视口维度和通道维度的权重,以获取不同视口图像的感知重要性,对视口中不同通道的重要性进行选择,定位不同失真类型和程度的通道以获取通道特征;
S5、融合通道特征和多尺度感知特征以捕获整张图像的局部细节和全局结构,得到多视口融合特征;
S6、将多视口融合特征通过多层感知机以获得非均匀失真全景图像的预测评价分数。
2.根据权利要求1所述的一种基于层级移动窗口注意力的全景图像质量评价方法,其特征在于,步骤S1中,获取全景图像赤道区域的视口图像,对视口图像进行图像预处理的方法具体包括如下步骤:
S101、获取若干非均匀失真全景图像;
S102、设定采样视口大小,图像采样提取大小为512×512的视口;
S103、从每张非均匀失真全景图像的赤道区间进行等距视口采样,得到视口图像,并存入非均匀失真全景图像数据库中。
3.根据权利要求2所述的一种基于层级移动窗口注意力的全景图像质量评价方法,其特征在于,在所述步骤S2中,将预处理后视口图像通过不同层级的多尺度特征提取网络的过程存在如下关系式:
;
其中,表示第/>张视口图像,/>表示层级移动窗口注意力,/>表示第/>张视口图像的第阶段的特征,/>表示1×1卷积层,/>表示赤道区域提取的视口数量。
4.根据权利要求3所述的一种基于层级移动窗口注意力的全景图像质量评价方法,其特征在于,在所述步骤S3中,对不同尺度的非均匀质量感知特征进行融合的过程存在如下关系式:
;
其中,表示展平操作,/>表示拼接操作,/>表示全连接层,/>表示不同阶段特征整合后的多尺度感知特征。
5.根据权利要求4所述的一种基于层级移动窗口注意力的全景图像质量评价方法,其特征在于,在所述步骤S4中,自动调节不同视口维度和通道维度的权重,以指导获取不同视口图像的感知重要性,对视口中不同通道的重要性进行选择,定位不同失真类型和程度的通道以获取通道特征的方法具体包括如下步骤:
S401、不同尺度的非均匀质量感知特征包括由多尺度特征提取网络浅层所提取的低级特征和由多尺度特征提取网络深层所提取的高级特征,根据特征金字塔思想将高级特征和低级特征进行整合,得到指导特征,根据特征金字塔思想将高级特征和低级特征进行整合的过程存在如下关系式:
;
其中,表示上采样,/>表示第/>个视口的指导特征;
S402、对指导特征进行视口注意力计算,获得视口特征,对指导特征进行视口注意力计算的过程存在如下关系式:
;
其中,表示自适应视口注意力计算,/>表示视口特征;
S403、对视口特征进行通道注意力计算,得到自适应特征,对视口特征进行通道注意力计算的过程存在如下关系式:
;
其中,表示自适应通道注意力计算,/>表示通道特征。
6.根据权利要求5所述的一种基于层级移动窗口注意力的全景图像质量评价方法,其特征在于,在所述步骤S5中,融合通道特征和多尺度感知特征以捕获整张图像的局部细节和全局结构的过程存在如下关系式:
;
其中,表示多头注意力机制,/>表示多视口融合特征,/>表示融合特征。
7.根据权利要求6所述的一种基于层级移动窗口注意力的全景图像质量评价方法,其特征在于,融合特征的计算过程存在如下关系式:
。
8.根据权利要求7所述的一种基于层级移动窗口注意力的全景图像质量评价方法,其特征在于,在所述步骤S6中,将多视口融合特征通过多层感知机以获得非均匀失真全景图像的预测评价分数的过程存在如下关系式:
;
其中,表示多层感知机,/>表示转置操作,/>表示线性层,/>表示图像的预测质量分数。
9.一种基于层级移动窗口注意力的全景图像质量评价系统,其特征在于,所述系统应用如权利要求1至8任意一项所述的基于层级移动窗口注意力的全景图像质量评价方法,所述系统包括:
视口提取模块,用于:
获取全景图像赤道区域的视口图像,对视口图像进行图像预处理;
基于层级移动窗口注意力构建多尺度特征提取网络,将预处理后视口图像通过不同层级的多尺度特征提取网络,以获得不同尺度的非均匀质量感知特征;
多尺度特征聚合模块,用于:
对不同尺度的非均匀质量感知特征进行融合,以提高对非均匀失真在局部和全局的敏感性,得到多尺度感知特征;
失真自适应感知模块,用于:
自动调节不同视口维度和通道维度的权重,以获取不同视口图像的感知重要性,对视口中不同通道的重要性进行选择,定位不同失真类型和程度的通道以获取通道特征;
视口融合视觉注意力模块,用于:
融合通道特征和多尺度感知特征以捕获整张图像的局部细节和全局结构,得到多视口融合特征;
质量回归模块,用于:
将多视口融合特征通过多层感知机以获得非均匀失真全景图像的预测评价分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410101453.7A CN117636134B (zh) | 2024-01-25 | 2024-01-25 | 基于层级移动窗口注意力的全景图像质量评价方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410101453.7A CN117636134B (zh) | 2024-01-25 | 2024-01-25 | 基于层级移动窗口注意力的全景图像质量评价方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117636134A true CN117636134A (zh) | 2024-03-01 |
CN117636134B CN117636134B (zh) | 2024-04-16 |
Family
ID=90030754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410101453.7A Active CN117636134B (zh) | 2024-01-25 | 2024-01-25 | 基于层级移动窗口注意力的全景图像质量评价方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117636134B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118096770A (zh) * | 2024-04-29 | 2024-05-28 | 江西财经大学 | 非视口依赖的抗畸变无参考全景图像质量评价方法与系统 |
CN118196107A (zh) * | 2024-05-20 | 2024-06-14 | 江西财经大学 | 基于多协同网络辅助的全景图像盲质量评价方法与系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122115A1 (en) * | 2017-10-24 | 2019-04-25 | Vmaxx, Inc. | Image Quality Assessment Using Similar Scenes as Reference |
CN110910344A (zh) * | 2019-10-12 | 2020-03-24 | 上海交通大学 | 一种全景图片无参考质量评价方法、系统及设备 |
CN114066812A (zh) * | 2021-10-13 | 2022-02-18 | 西安理工大学 | 基于空间注意力机制的无参考图像质量评价方法 |
CN115546162A (zh) * | 2022-10-14 | 2022-12-30 | 安庆师范大学 | 一种虚拟现实图像质量评估方法及系统 |
CN116168011A (zh) * | 2023-03-16 | 2023-05-26 | 西安电子科技大学 | 基于多粒度网络的无参考图像质量评价方法 |
CN116245861A (zh) * | 2023-03-16 | 2023-06-09 | 西安电子科技大学 | 基于交叉多尺度的无参考图像质量评价方法 |
CN117237279A (zh) * | 2023-08-11 | 2023-12-15 | 江西财经大学 | 一种非均匀失真全景图像盲质量评价方法及系统 |
-
2024
- 2024-01-25 CN CN202410101453.7A patent/CN117636134B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122115A1 (en) * | 2017-10-24 | 2019-04-25 | Vmaxx, Inc. | Image Quality Assessment Using Similar Scenes as Reference |
CN110910344A (zh) * | 2019-10-12 | 2020-03-24 | 上海交通大学 | 一种全景图片无参考质量评价方法、系统及设备 |
CN114066812A (zh) * | 2021-10-13 | 2022-02-18 | 西安理工大学 | 基于空间注意力机制的无参考图像质量评价方法 |
CN115546162A (zh) * | 2022-10-14 | 2022-12-30 | 安庆师范大学 | 一种虚拟现实图像质量评估方法及系统 |
CN116168011A (zh) * | 2023-03-16 | 2023-05-26 | 西安电子科技大学 | 基于多粒度网络的无参考图像质量评价方法 |
CN116245861A (zh) * | 2023-03-16 | 2023-06-09 | 西安电子科技大学 | 基于交叉多尺度的无参考图像质量评价方法 |
CN117237279A (zh) * | 2023-08-11 | 2023-12-15 | 江西财经大学 | 一种非均匀失真全景图像盲质量评价方法及系统 |
Non-Patent Citations (3)
Title |
---|
ZILIANG ZHANG: "No-Reference Quality Assessment for Realistic Distorted Images by Color Moment and Texture Features", 《2020 IEEE CONFERENCE ON MULTIMEDIA INFORMATION PROCESSING AND RETRIEVAL (MIPR)》, 25 August 2020 (2020-08-25) * |
鄢杰斌: "基于双目视觉感知的无参考三维图像视觉质量评价", 《中国优秀硕士学位论文全文数据库》, 15 January 2019 (2019-01-15) * |
鄢杰斌: "视频质量评价研究综述", 《计算机学报》, 31 October 2023 (2023-10-31) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118096770A (zh) * | 2024-04-29 | 2024-05-28 | 江西财经大学 | 非视口依赖的抗畸变无参考全景图像质量评价方法与系统 |
CN118196107A (zh) * | 2024-05-20 | 2024-06-14 | 江西财经大学 | 基于多协同网络辅助的全景图像盲质量评价方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117636134B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117636134B (zh) | 基于层级移动窗口注意力的全景图像质量评价方法与系统 | |
Tursun et al. | An objective deghosting quality metric for HDR images | |
Zhou et al. | Omnidirectional image quality assessment by distortion discrimination assisted multi-stream network | |
CN107818554B (zh) | 信息处理设备和信息处理方法 | |
CN106127234B (zh) | 基于特征字典的无参考图像质量评价方法 | |
CN117710370B (zh) | 多任务驱动的真实失真全景图像盲质量评价方法与系统 | |
CN108710893A (zh) | 一种基于特征融合的数字图像相机源模型分类方法 | |
CN112967227B (zh) | 基于病灶感知建模的糖尿病视网膜病变自动评估系统 | |
CN112434608A (zh) | 一种基于双流结合网络的人体行为识别方法及系统 | |
CN115484410B (zh) | 基于深度学习的事件相机视频重建方法 | |
CN115526891B (zh) | 一种缺陷数据集的生成模型的训练方法及相关装置 | |
CN117237279A (zh) | 一种非均匀失真全景图像盲质量评价方法及系统 | |
CN111950457A (zh) | 油田安全生产图像识别方法及系统 | |
CN115311186A (zh) | 一种红外与可见光图像跨尺度注意力对抗融合方法及终端 | |
CN111598032B (zh) | 一种基于图神经网络的群体行为识别方法 | |
CN114140623A (zh) | 一种图像特征点提取方法及系统 | |
CN113378812A (zh) | 一种基于Mask R-CNN和CRNN的数字表盘识别方法 | |
CN117409481A (zh) | 一种基于2dcnn和3dcnn的动作检测方法 | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
CN117834852A (zh) | 基于跨注意力多尺度视觉变压器的时空视频质量评价方法 | |
CN117274173A (zh) | 一种语义与结构蒸馏的无参考图像质量评价方法 | |
CN115240123B (zh) | 一种面向智能监控系统的暗处暴力行为检测方法 | |
CN111667495A (zh) | 一种图像场景解析方法和装置 | |
CN116363094A (zh) | 一种超分辨率重建图像质量评价方法 | |
CN115359571A (zh) | 一种在线跨通道交互式并行蒸馏架构姿态预估方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |