CN116168008A - 一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法 - Google Patents

一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法 Download PDF

Info

Publication number
CN116168008A
CN116168008A CN202310226876.7A CN202310226876A CN116168008A CN 116168008 A CN116168008 A CN 116168008A CN 202310226876 A CN202310226876 A CN 202310226876A CN 116168008 A CN116168008 A CN 116168008A
Authority
CN
China
Prior art keywords
scale
binocular
image
features
monocular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310226876.7A
Other languages
English (en)
Inventor
刘允
王嘉仪
武靖恺
白岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning University
Original Assignee
Liaoning University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University filed Critical Liaoning University
Priority to CN202310226876.7A priority Critical patent/CN116168008A/zh
Publication of CN116168008A publication Critical patent/CN116168008A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Image Processing (AREA)

Abstract

一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法:1.构建训练数据集,从LIVE和IVC立体图像数据集中,随机选取80%图像作为训练集进行多尺度处理。2.将左、右图像的多尺度图像分别输入到各自的Transformer编码器中,得到各自的单目特征。3.将单目特征进行双目组合,从而得到双目特征。4.将单目特征和双目特征放入全连通层中,预测图像质量评分。本发明所述的基于双目组合和多尺度Transformer质量评价模型在国际主流的数据集上取得了优异的性能,与目前主流算法相比具有较好的竞争力。

Description

一种基于双目组合和多尺度Transformer的无参考立体图像 质量评价方法
技术领域
本发明涉及无参考立体图像质量评价领域,尤其涉及一种双目组合和多尺度Transformer处理机制的无参考评价方法。
背景技术
立体图像质量评分为主观质量评价和客观质量两种,其中主观质量评估是完全符合人眼的感知过程,通过参与者现场对立体图像感受来决定质量好坏,但该方法既费时又不具有实时性。其次,客观质量评价方法的主体是计算机模型,通过机器学习模型或深度学习模型等方法来判断图像质量好坏的方法。因而,建立一个能够有效并且准确地判断3D图像视觉感知质量的客观质量评价方法至关重要。客观图像质量评价方法根据使用参考图像信息的多少可以分为以下三类:全参考质量评价方法、半参考质量评价方法和无参考质量评价方法。其中FR-IQA需要使用原始图像的全部信息,RR-IQA需要使用原始图像的部分信息,而NR-IQA不需要原始图像的任何信息。由于参考图像在日常生活中难以获得,这使得NR-IQA更加实用和流行。因此,建立一个有效的无参考立体图像质量评价客观模型是十分有必要的和亟待解决的问题。
早期立体图像质量评价方法只考虑到图像的单目质量,其质量评价仅取决于左右单视图的质量评分。与传统二维视觉感知不同,立体图像视觉感知质量不仅仅取决于左右视图的质量,还需要考虑双目视觉信息。由于左眼和右眼接收到刺激的相似/不同程度,导致大脑视觉皮层出现不同双目现象。双目融合现象所产生的原因是左眼和右眼所接收的刺激相同或非常相似,双目竞争现象是由于左眼和右眼收到的刺激是充分不同的。为了更好的解释人眼的双目融合和双目竞争机制,研究者提出了双通道感知机制,其基本原理是通过左右图像之和和左右图像之差构成求和图像和差分图像来模拟人眼的双目融合和双目竞争现象。求和图像反映了人眼双目感知中的融合机制,差分图像反映了立体感知中的视差信息。
图像质量受局部细节和全局细节的影响。因此输入图像进行多尺度表示,这有利于许多视觉任务。利用多尺度图像表示,可以捕捉不同粒度下的图像质量。
近年来,随着计算能力的提高,卷积神经网络CNN在图像处理方面取得了很大进展,如图像质量评估、图像深度感知检测、图像分割等。CNN已被证明在解决计算机视觉问题方面是有效的,同时为解决图像质量评价方面的找到了一种新的方向。与此同时,一些图像质量评价Transformer也随之而来。使用图像质量评价Transformer可以处理具有任意长宽比或分辨率的图像,并允许特征提取。来自不同比例的表面使Transformer能够跨多个比例和空间位置聚合信息。
发明内容
本发明提出一种基于双目组合和多尺度Transformer的无参考立体图像质量评价算法,能够较好地模拟人眼视觉感知过程。
本发明的目的是通过下述技术方案实现的:一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法,其步骤为:
1)从立体图像数据集中选取预训练数据集,并对数据集中的图像进行多尺度预处理;
具体方法为:将左右图像进行多尺度预处理,首先将左右图像的比例减少到一半,再将左右图像的比例再次减少到一半,这两种左右图像和原始的左右图像共同构成多尺度图像。
2)将左右多尺度图像输入到多尺度Transformer编码器,得到单目特征;
具体方法为:将左右多尺度图像输入到多尺度Transformer编码器,多尺度Transformer编码器由三个编码组件组成,分别为多尺度补丁嵌入、空间嵌入和尺度嵌入;在多尺度补丁嵌入过程中,多尺度图像由高度Hn,宽度Ln和通道C组成,其中n=1,...,N,N为每个输入调整大小的变量的数量;从多尺度表示的每张图像中提取大小为M的正方形补片,对宽度或高度不是M倍数的图像使用相应的零填充图像;调整大小的补丁数量计算为
Figure BDA0004118757970000021
在空间嵌入过程中,将补丁运用到哈希网络进行处理,位于第x行,第y列的补丁被散列到G×G网格中的对应元素,网格中的每个元素都是D维嵌入的,如果可学习矩阵为,输入分辨率为H×L,则将输入图像划分为
Figure BDA0004118757970000022
块;对于位于(x,y)的每个补丁,其位于(px,py)的元素P定义的空间嵌入为
Figure BDA0004118757970000023
在尺度嵌入过程中,对于Q∈R(N+1)×D中具有N尺度调整变量的输入图像,将第一个元素添加到局部分辨率图像的所有D维补丁嵌入中;Qn∈RD,n=1,...,N也加到从图像的n缩放尺度嵌入的所有补丁上,多尺度Transformer编码器输出结果为单目特征。
3)将单目特征进行双目组合,从而得到双目特征;
具体方法为:为了模拟人眼视觉感知过程中的双眼融合和双眼竞争机制,将得到的单目特征进行求和和求差操作,得到双目特征,所述的处理机制具体为:如下所示:
sum=FL+FR (3)
dif=FL-FR (4)
其中FL和FR分别是左、右图像的单目特征,sum为求和操作,代表人眼感知过程中的双目融合;dif为差分操作,代表人眼感知过程中的双目竞争;然后,求和操作和差分操作得到的特征共同组成了双目特征。
4)将单目特征和双目特征放入全连通层中,预测图像质量评分;
具体方法为:将单目特征和双目特征送入全连接层进行立体图像块的质量预测,最后的质量预测应用于MLP磁头的预测。MLP头由两个完全连接层组成,第一个FC层应用于ReLU激活之后,第二个FC层包含一个可以预测单个分数的通道,最终的目标分数是所有图像的预测质量分数的平均值。
本发明创造的有益效果是:
1、考虑到不同尺度图像信息在视觉感知上的重要性,本发明对图像进行多尺度处理,可以提取更丰富的单目和双目视觉特征;
2、在学习到的单目视觉特征基础上提取双目视觉特征,更符合人类的立体视觉感知特性,进而可以获得更有效的双目视觉特征;
3、通过提取单目视觉特征和双目视觉特征两类视觉特征,可以有效互补并反映立体视觉感知效果的损失程度。
4、本方法在国际主流的数据集上进行实验,在评价指标PLCC、SRCC上取得了优异的性能,与目前主流算法相比具有较好的竞争力。
附图说明
图1:算法整体流程图;
图2:Transformer编码器结构图;
图3:求和和差分特征操作图。
具体实施方式
下面将结合本发明创造实施例中的附图,对本发明创造实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明创造一部分实施例,而不是全部的实施例。基于本发明创造中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明创造保护的范围。
实施例1
本发明实例1提供了一种基于双目组合和多尺度Transformer的无参考立体图像质量评价算法,下面结合附图对本发明做进一步阐述。本发明按以下步骤具体实现:
第一步,对用于训练的LIVE 3D和IVC 3D数据集中的原始立体图像进行预处理。首先,对于上述数据集中的图像,选取80%的数据作为训练数据。将用于训练的原始立体图像进行多尺度处理,首先将左右图像的比例减少到一半,再将左右图像的比例再次减少到一半,这两种左右图像和原始的左右图像共同构成多尺度图像。
第二步,将左右多尺度图像输入到多尺度Transformer编码器,多尺度Transformer编码器由三个编码组件组成,分别为多尺度补丁嵌入、空间嵌入和尺度嵌入。在多尺度补丁嵌入过程中,多尺度图像由高度Hn,宽度Ln和通道C组成,其中n=1,...,N,N为每个输入调整大小的变量的数量。从多尺度表示的每张图像中提取大小为M的正方形补片,对宽度或高度不是M倍数的图像使用相应的零填充图像。调整大小的补丁数量计算为
Figure BDA0004118757970000041
在空间嵌入过程中,将补丁运用到哈希网络进行处理,位于第x行,第y列的补丁被散列到G×G网格中的对应元素,网格中的每个元素都是D维嵌入的。如果可学习矩阵为,输入分辨率为H×L,则将输入图像划分为
Figure BDA0004118757970000042
块。对于位于(x,y)的每个补丁,其位于(px,py)的元素P定义的空间嵌入为/>
Figure BDA0004118757970000043
在尺度嵌入过程中,对于Q∈R(N+1)×D中具有N尺度调整变量的输入图像,将第一个元素添加到局部分辨率图像的所有D维补丁嵌入中。Qn∈RD,n=1,...,N也加到从图像的n缩放尺度嵌入的所有补丁上。多尺度Transformer编码器输出结果为单目特征。
第三步,为了模拟人眼视觉感知过程中的双眼融合和双眼竞争机制,将得到的单目特征进行求和和求差操作,得到双目特征,所述的处理机制具体为:如下所示:
sum=FL+FR (3)
dif=FL-FR (4)
其中FL和FR分别是左、右图像的单目特征,sum为求和操作,代表人眼感知过程中的双目融合;dif为差分操作,代表人眼感知过程中的双目竞争;然后,求和操作和差分操作得到的特征共同组成了双目特征。
实验性能指标:
使用三个IQA领域主流的性能标准来验证和分析图像质量评价方法性能:皮尔逊线性相关(PLCC)和斯皮尔曼秩序相关系数(SROCC)。其中PLCC和SROCC值越高,性能越好。当PLCC=SROCC=1为最佳性能。为了避免偶然性的影响,经过1000次迭代后,取PLCC、SROCC的平均值作为最终结果。
Figure BDA0004118757970000051
Figure BDA0004118757970000052
Figure BDA0004118757970000053
N代表测试图像数量,Ou和Pu分别为预测数据集中所有图像的主观质量分数均值和客观质量分数均值,Oi和Pi表示测试图像的第i幅数据集提供的主观质量分数和通过模型预测的质量分数。PLCC表示预测的图像质量分数和数据集提供的质量分数之间的线性一致性。
Figure BDA0004118757970000054
其中,
Figure BDA0004118757970000055
和/>
Figure BDA0004118757970000056
代表排好序的第i个图像的数据集提供的主观分数和模型预测的分数。SROCC表示预测的质量分数和数据集提供的主观分数之间的单调性。
为了证明所提出的基于双目组合和多尺度Transformer的NR-SIQA模型的有效性,在LIVE 3D PHASE I和LIVE 3D PHASE II数据集上,将所提方法与现有的3个FR-SIQA模型:SSIM、ADD-GSIM和Wang2018和5个NR-SIQA模型:Jiang2019、Zhou2020、Shi2020、Li2022和Si2022进行模型性能比较。需要指出的是这些模型的性能指标均来源于其原创论文。实验结果如表1所示。
表1:LIVE 3D数据集上整体性能比较表
Figure BDA0004118757970000057
Figure BDA0004118757970000061
从表1中可以看出,本发明提出的模型在PLCC和SROCC性能指标中都取得了最好的效果,证明本发明所提出SIQA模型的优越性。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法,其特征在于,其步骤为:
1)从立体图像数据集中选取预训练数据集,并对数据集中的图像进行多尺度预处理;
2)将左右多尺度图像输入到多尺度Transformer编码器,得到单目特征;
3)将单目特征进行双目组合,从而得到双目特征;
4)将单目特征和双目特征放入全连通层中,预测图像质量评分。
2.根据权利要求1所述的一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法,其特征在于,所述的1)中,具体方法为:将左右图像进行多尺度预处理,首先将左右图像的比例减少到一半,再将左右图像的比例再次减少到一半,这两种左右图像和原始的左右图像共同构成多尺度图像。
3.根据权利要求1所述的一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法,其特征在于,所述的2)中,具体方法为:将左右多尺度图像输入到多尺度Transformer编码器,多尺度Transformer编码器由三个编码组件组成,分别为多尺度补丁嵌入、空间嵌入和尺度嵌入;在多尺度补丁嵌入过程中,多尺度图像由高度Hn,宽度Ln和通道C组成,其中n=1,...,N,N为每个输入调整大小的变量的数量;从多尺度表示的每张图像中提取大小为M的正方形补片,对宽度或高度不是M倍数的图像使用相应的零填充图像;调整大小的补丁数量计算为
Figure FDA0004118757960000011
在空间嵌入过程中,将补丁运用到哈希网络进行处理,位于第x行,第y列的补丁被散列到G×G网格中的对应元素,网格中的每个元素都是D维嵌入的,如果可学习矩阵为,输入分辨率为H×L,则将输入图像划分为
Figure FDA0004118757960000012
块;对于位于(x,y)的每个补丁,其位于(px,py)的元素P定义的空间嵌入为
Figure FDA0004118757960000013
在尺度嵌入过程中,对于Q∈R(N+1)×D中具有N尺度调整变量的输入图像,将第一个元素添加到局部分辨率图像的所有D维补丁嵌入中;Qn∈RD,n=1,...,N也加到从图像的n缩放尺度嵌入的所有补丁上,多尺度Transformer编码器输出结果为单目特征。
4.根据权利要求1所述的一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法,其特征在于,所述的3)中,具体方法为:为了模拟人眼视觉感知过程中的双眼融合和双眼竞争机制,将得到的单目特征进行求和和求差操作,得到双目特征,所述的处理机制具体为:如下所示:
sum=FL+FR (3)
dif=FL-FR (4)
其中FL和FR分别是左、右图像的单目特征,sum为求和操作,代表人眼感知过程中的双目融合;dif为差分操作,代表人眼感知过程中的双目竞争;然后,求和操作和差分操作得到的特征共同组成了双目特征。
5.根据权利要求1所述的一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法,其特征在于,所述的4)中,具体方法为:将单目特征和双目特征送入全连接层进行立体图像块的质量预测,最后的质量预测应用于MLP磁头的预测。MLP头由两个完全连接层组成,第一个FC层应用于ReLU激活之后,第二个FC层包含一个可以预测单个分数的通道,最终的目标分数是所有图像的预测质量分数的平均值。
CN202310226876.7A 2023-03-10 2023-03-10 一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法 Pending CN116168008A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310226876.7A CN116168008A (zh) 2023-03-10 2023-03-10 一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310226876.7A CN116168008A (zh) 2023-03-10 2023-03-10 一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法

Publications (1)

Publication Number Publication Date
CN116168008A true CN116168008A (zh) 2023-05-26

Family

ID=86420110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310226876.7A Pending CN116168008A (zh) 2023-03-10 2023-03-10 一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法

Country Status (1)

Country Link
CN (1) CN116168008A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117788473A (zh) * 2024-02-27 2024-03-29 北京大学第一医院(北京大学第一临床医学院) 一种基于双眼融合网络预测高血压的方法、系统和设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117788473A (zh) * 2024-02-27 2024-03-29 北京大学第一医院(北京大学第一临床医学院) 一种基于双眼融合网络预测高血压的方法、系统和设备
CN117788473B (zh) * 2024-02-27 2024-05-14 北京大学第一医院(北京大学第一临床医学院) 一种基于双眼融合网络预测高血压的方法、系统和设备

Similar Documents

Publication Publication Date Title
CN110738697B (zh) 基于深度学习的单目深度估计方法
CN109360178B (zh) 基于融合图像的无参考立体图像质量评价方法
CN107767413B (zh) 一种基于卷积神经网络的图像深度估计方法
Yang et al. Detecting fake images by identifying potential texture difference
CN112132023A (zh) 基于多尺度上下文增强网络的人群计数方法
CN108682007B (zh) 基于深度随机森林的jpeg图像重采样自动检测方法
CN112837344B (zh) 一种基于条件对抗生成孪生网络的目标跟踪方法
Han et al. Stereo matching using genetic algorithm with adaptive chromosomes
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN107330873B (zh) 基于多尺度双目融合和局部特征提取的立体图像质量客观评价方法
CN115345866B (zh) 一种遥感影像中建筑物提取方法、电子设备及存储介质
US20220147732A1 (en) Object recognition method and system, and readable storage medium
CN112184731B (zh) 一种基于对抗性训练的多视图立体深度估计方法
CN111553296B (zh) 一种基于fpga实现的二值神经网络立体视觉匹配方法
CN116168008A (zh) 一种基于双目组合和多尺度Transformer的无参考立体图像质量评价方法
CN115100490A (zh) 一种图像质量评价方法、系统以及可读存储介质
CN115424209A (zh) 一种基于空间金字塔注意力网络的人群计数方法
CN114120361A (zh) 一种基于编解码结构的人群计数定位方法
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN114187261A (zh) 一种基于多维注意力机制的无参考立体图像质量评价方法
CN115953330B (zh) 虚拟场景图像的纹理优化方法、装置、设备和存储介质
CN115965844B (zh) 基于视觉显著性先验知识的多聚焦图像融合方法
CN111709977A (zh) 一种基于自适应单峰立体匹配成本滤波的双目深度学习方法
CN111860668A (zh) 一种针对原始3d点云处理的深度卷积网络的点云识别方法
CN109978928A (zh) 一种基于加权投票的双目视觉立体匹配方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination