CN115209122B - 一种基于多智能体的立体图像视觉舒适度增强方法及系统 - Google Patents

一种基于多智能体的立体图像视觉舒适度增强方法及系统 Download PDF

Info

Publication number
CN115209122B
CN115209122B CN202210887485.5A CN202210887485A CN115209122B CN 115209122 B CN115209122 B CN 115209122B CN 202210887485 A CN202210887485 A CN 202210887485A CN 115209122 B CN115209122 B CN 115209122B
Authority
CN
China
Prior art keywords
view
agent
network
right view
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210887485.5A
Other languages
English (en)
Other versions
CN115209122A (zh
Inventor
陈羽中
沈启金
牛玉贞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202210887485.5A priority Critical patent/CN115209122B/zh
Publication of CN115209122A publication Critical patent/CN115209122A/zh
Application granted granted Critical
Publication of CN115209122B publication Critical patent/CN115209122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及一种基于多智能体的立体图像视觉舒适度增强方法及系统,该方法包括:对高质量立体图像对的左、右视图分别进行变换扰动,合成视觉不舒适的立体图像对,并将原始高质量立体图像对作为参考图像对;构建基于注意力机制的立体图像特征增强融合网络,该网络采用多阶段结构设计,在不同阶段增强融合左、右视图不同尺度的特征;构建双智能体的强化学习架构,分别用于预测左视图和右视图四个角的偏移量,进而计算得到变换矩阵,并将变换矩阵应用于左、右视图;利用合成的立体图像对和参考图像对双智能体进行训练;通过训练后的双智能体对待调整的立体图像对进行变换调整,以提高其视觉舒适度。该方法及系统能够显著增强立体图像的视觉舒适度。

Description

一种基于多智能体的立体图像视觉舒适度增强方法及系统
技术领域
本发明属于计算机视觉领域,具体涉及一种基于多智能体的立体图像视觉舒适度增强方法及系统。
背景技术
立体图像的出现将二维图像的信息呈现方式拓展了一个维度,不仅改变了用户浏览信息的方式,还带给用户沉浸式的体验。然而,不舒适的立体图像会引起眩晕、恶心等生理反应,影响用户的观看体验,甚至危害用户的健康。因此,立体图像的视觉舒适度对立体图像的应用和推广至关重要,如何增强立体图像的视觉舒适度已经成为学界和工业界越来越关注的热点之一。
垂直视差和水平视差是影响三维立体图像视觉舒适度的关键因素,传统的立体图像舒适度增强方法主要分为立体校正和视差调整。立体校正通过使用变换矩阵使左和右视图的极线满足几何约束,从而消除垂直视差。根据是否需要使用相机参数又可将立体校正方法分为需标定的立体校正和无需标定的立体校正。视差调整方法可分为视差平移和视差映射,视差平移通过移动零视差平面以缓解辐辏-调节冲突,然后根据最优零视差平面调整视差范围。视差映射通过线性或者非线性的方式将视差重新映射到舒适的范围内,从而增强立体图像的视觉舒适度。
除了传统的立体图像舒适度增强方法外,近几年出现了利用单智能体强化学习增强立体图像视觉舒适度的方法,Kim等人利用强化学习方式对左视图进行水平左右移动,从而调整左和右视图的视差以增强立体图像的视觉舒适度和深度感知。Niu等人同时考虑视差调整和立体变换,通过单智能体强化学习的方式选择预先设置好的平移、旋转、透视动作,对左视图进行变换以增强立体图像的视觉舒适度。Chen等人采用单智能体强化学习的方式选择预先训练好的可以预测连续变换的变换模型,对左和右视图进行变换以提高立体图像的视觉舒适度。
视差是由左和右视图共同决定的,即左视图的变换应考虑到右视图的变换,反之亦然。然而,已有基于单智能体的方法无法考虑到左和右视图变换之间的配合,而在由左视图智能体和右视图智能体构成的双智能体体系中,各个智能体内部具有自治性,同时左和右视图智能体之间又具有协调性,极大地提高问题求解效率。为实现左和右视图智能体协同合作,首先要解决左和右视图的特征之间的交互以感知彼此的视图信息。已有的立体图像视觉舒适度增强方法主要使用骨干网络分别提取左和右视图的特征,再将左和右视图特征输入决策网络进行动作决策,无法探索左和右视图在低层特征之间的联系。针对这些问题,迫切需要设计一个有效的立体图像视觉舒适度增强方法。
发明内容
本发明的目的在于提供一种基于多智能体的立体图像视觉舒适度增强方法及系统,该方法及系统能够显著增强立体图像的视觉舒适度。
为实现上述目的,本发明采用的技术方案是:一种基于多智能体的立体图像视觉舒适度增强方法,包括以下步骤:
步骤A、对舒适的高质量立体图像对的左、右视图分别进行不同类型、不同尺度的变换扰动,合成视觉不舒适的立体图像对,并将原始高质量立体图像对作为参考图像对;
步骤B、构建基于注意力机制的立体图像特征增强融合网络,所述立体图像特征增强融合网络采用多阶段结构设计,在不同阶段增强融合左、右视图不同尺度的特征;
步骤C、构建双智能体的强化学习架构,分别用于预测左视图和右视图四个角的连续的偏移量,通过四个角的偏移量计算得到变换矩阵,并将变换矩阵应用于左、右视图;
步骤D、利用合成的立体图像对和参考图像对双智能体进行训练;
步骤E、通过训练后的双智能体对待调整的立体图像对进行变换调整,以提高其视觉舒适度。
进一步地,所述步骤A具体包括以下步骤:
步骤A1、根据公共数据集自带的平均意见分数选取舒适的高质量立体图像对,构成舒适的高质量立体图像数据集;
步骤A2、将舒适的高质量立体图像数据集中的每一对立体图像对缩放,得到264×364尺寸的图像对;
步骤A3、设置平移、旋转、透视三种变换类型以及对应的变换尺度范围,对缩放后的立体图像对进行若干次的变换扰动;对于每一次变换扰动,先随机选取左、右视图的变换类型,然后在该变换类型的尺度范围内随机采样连续的变换值,最后将采样到的连续变换应用于左、右视图,得到视觉不舒适的立体图像对;
步骤A4、考虑到合成后的图像对在边缘区域可能存在无图像内容的区域,将合成后的立体图像对进行中心裁剪,得到224×288尺寸的图像对。
进一步地,所述步骤B具体包括以下步骤:
步骤B1、将左、右视图分别划分为不重叠的大小相同的图像块,然后每个图像块经过线性变换转换成块嵌入,最后将块嵌入加上位置编码得到带位置信息的块嵌入;
步骤B2、构建基于自注意力和交叉注意力的双目特征增强融合模块;
步骤B3、构建立体图像特征增强融合网络,所述立体图像特征增强融合网络由步骤B2得到的双目特征增强融合模块串行堆叠而成,模块与模块之间进行特征降采样,并将降采样后的特征图沿通道维度堆叠起来,从而实现在不同阶段增强融合左、右视图不同尺度的特征。
进一步地,所述步骤B1具体包括以下步骤:
步骤B11、为了将左、右视图分别划分为不重叠的大小相同的图像块,并将每个图像块映射成块嵌入,将同一批次大小均为[H,W,3]的左、右视图分别输入一层卷积层,每个卷积核的大小为4×4,步长为4,由于卷积核的步长等于卷积核的宽、高,因此对左、右视图不重叠的图像块进行卷积,并将每个图像块映射成高维块嵌入;每个批次的左、右视图卷积后得到大小均为[B,C,H′,W′]的特征图,并通过维度变换得到大小均为[B,H′×W′,C]的左视图块嵌入和右视图块嵌入,其中B为批次大小,H′和W′分别为特征图的高和宽,C为卷积核个数;
步骤B12、利用均值为0、方差为0.02的正态分布分别生成大小为[B,H′×W′,C]的可学习的左、右视图位置编码,并将左、右视图位置编码分别与左、右视图块嵌入相加,最终得到带位置编码信息的左视图块嵌入和右视图块嵌入,具体公式如下:
F′l=Fl+Pl,
F′r=Fr+Pr,
其中,Pl表示左视图位置编码,Pr表示右视图位置编码,Fl表示左视图块嵌入,Fr表示右视图块嵌入,F′l表示带位置编码信息的左视图块嵌入,F′r表示带位置编码信息的右视图块嵌入。
进一步地,所述步骤B2具体包括以下步骤:
构建基于自注意力和交叉注意力的双目特征增强融合模块,所述双目特征增强融合模块的输入是左视图块嵌入Xl和右视图块嵌入Xr,将Xl和Xr分别输入自注意力模块得到特征增强后的块嵌入El、Er,然后将El作为查询向量、Er作为键向量和值向量输入交叉注意力模块得到E′l,将Er作为查询向量、El作为键向量和值向量输入交叉注意力模块得到E′r,E′l、E′r的大小分别和输入的块嵌入Xl、Xr大小相同,具体的公式如下:
Figure BDA0003766327320000041
Figure BDA0003766327320000042
Figure BDA0003766327320000043
Figure BDA0003766327320000044
其中,softmax(*)为归一化函数,d为输入的块嵌入的维度。
进一步地,所述步骤B3具体包括以下步骤:
步骤B31、先将带位置编码信息的左、右视图块嵌入进行维度变换得到[B,H′,W′,C]的特征图,然后将特征图划分成大小为Hwin×Wwin的子窗口
Figure BDA0003766327320000045
最后将划分后的特征图进行维度变换,得到大小为/>
Figure BDA0003766327320000046
的块嵌入F″l、F″r
步骤B32、将四个所述双目特征增强融合模块串行堆叠构成立体图像特征增强融合网络,每个双目特征增强融合模块为一个增强融合阶段,模块与模块之间采用隔行隔列的方式进行降采样,降采样后得到4个大小为原来四分之一的特征图,并将降采样后的特征图沿着通道维度堆叠起来,堆叠后的特征图通道数为降采样前的四倍,最后在通道维度进行降维,使堆叠后的特征图通道数为降采样前的两倍,第i个增强融合阶段的输入块嵌入的大小为
Figure BDA0003766327320000047
进一步地,所述步骤C具体包括以下步骤:
步骤C1、构建双智能体架构的动作,双智能体包括负责调整左视图的左视图智能体和负责调整右视图的右视图智能体,每一个智能体的输出为8维数值向量,分别对应视图的左上、左下、右上、右下四个角沿着x轴和y轴移动的偏移量,偏移量会随着动作的执行而累加,由四个角点的初始位置和四个角点加上累计偏移量的位置计算出单应性矩阵,并将单应性矩阵作用于初始视图得到变换后的视图,最终双智能体的输出为左视图智能体的8维数值向量拼接上右视图智能体的8维数值向量,一共16维度数值向量;
步骤C2、构建双智能体架构的网络模型,每个智能体包含1个动作网络和1个评价网络,动作网络由所述立体图像特征增强融合网络和3层全连接层构成,最后一个全连接层输出8个连续的数值,并经过Tanh激活函数,将输出归一化到[-1,1],再将归一化后的数值乘以放大因子得到最终的偏移量,放大因子为每次动作允许移动的最大像素值;评价网络由所述立体图像特征增强融合网络和3层全连接层构成,最后一个全连接层输出维度为1的数值,用于预测智能体做出动作后的奖励;
步骤C3、构建双智能体架构的奖励函数,智能体调整视图后的得分由调整后的图像与参考图像的相似度加上舒适度得分,左视图智能体的得分scorel和右视图智能体的得分scorer计算公式如下:
Figure BDA0003766327320000051
Figure BDA0003766327320000052
其中,Il为调整后的左视图,
Figure BDA0003766327320000053
为左视图Il对应的参考图像,Ir为调整后的右视图,
Figure BDA0003766327320000054
为右视图Ir对应的参考图像,Idis为调整后的左视图和右视图生成的视差图,SSIM(*)为结构相似性度量指标,VC(*)为立体图像舒适度得分,智能体的奖励定义为调整后的得分减去调整前的得分,具体公式如下:
reward=scoreafter-scorebefore
其中,scoreafter为智能体调整视图后的得分,scorebefore为智能体调整视图前的得分。
进一步地,所述步骤D具体包括以下步骤:
步骤D1、采用多智能体强化学习算法MADDPG来训练双智能体架构,构造左视图智能体的动作网络Al、评价网络Cl和右视图智能体的动作网络Ar、评价网络Cr,复制一份双智能体作为目标网络,记为左视图目标动作网络A′l、左视图目标评价网络C′l、右视图目标动作网络A′r、右视图目标评价网络C′r,复制前后的网络的参数一致;
步骤D2、训练初始,左、右视图智能体的动作网络根据输入的左、右视图对s分别输出预测动作al、ar,拼接得到a=(al,ar),左、右视图智能体的评价网络根据输入的左、右视图对s和动作网络预测出的动作分别得到对应动作的奖励rl、rr,拼接得到r=(rl,rr),然后得到变换后的左、右视图对s′,将(s,a,s′,r)作为一条记录存储到缓存数组中,再将s′作为下一时刻的输入,每一对左、右视图重复此过程设定次数,若缓存数组满了,则采用先进先出的策略删除历史记录;
步骤D3、从缓存数组中随机采样若干条记录,分别计算左、右视图智能体奖励的目标值,奖励的目标值为当前动作的奖励加上目标评价网络预测的下一时刻的奖励值,左视图智能体奖励的目标值yl和右视图智能体奖励的目标值yr计算公式如下:
yl=rl+C′l(s′,(A′l(s′),A′r(s′))),
yr=rr+C′r(s′,(A′l(s′),A′r(s′))),
其中,rl为采样记录中左视图智能体的奖励,rr为采样记录中右视图智能体的奖励,A′l(s′)为左视图目标动作网络A′l根据下一时刻视图s′输出的动作,A′r(s′)为右视图目标动作网络A′r根据下一时刻视图s′输出的动作,A′l(s′)和A′r(s′)拼接得(A′l(s′),A′r(s′)),C′l(s′,(A′l(s′),A′r(s′)))为左视图智能体的目标评价网络C′l根据下一时刻的视图s′以及下一时刻目标动作网络的动作(A′l(s′),A′r(s′))预测得到的下一时刻的奖励值,C′r(s′,(A′l(s′),A′r(s′)))为右视图智能体的目标评价网络C′r根据下一时刻的视图s′以及下一时刻目标动作网络的动作(A′l(s′),A′r(s′))预测得到的下一时刻的奖励值;
左视图智能体的评价网络Cl和右视图智能体的评价网络Cr的损失为奖励的目标值与奖励的预测值的差,具体公式如下:
Figure BDA0003766327320000061
Figure BDA0003766327320000062
其中,yl和Cl(s,a)分别对应左视图智能体奖励的目标值和预测值,
Figure BDA0003766327320000063
是左视图智能体的评价网络Cl的损失,yr和Cr(s,a)分别对应右视图智能体奖励的目标值和预测值,
Figure BDA0003766327320000064
是右视图智能体的评价网络Cr的损失;
左视图智能体的动作网络Al和右视图智能体的动作网络Ar的损失为最大化奖励的预测值,即最小化奖励的负预测值,Al的奖励预测值为Cl根据当前视图s以及双智能体动作(Al(s),ar)预测出的奖励值,ar是采样记录中的右智能体的动作,Ar的奖励预测值为Cr根据当前视图s以及双智能体动作(al,Ar(s))预测出的奖励值,al是采样记录中的左智能体的动作,公式如下:
Figure BDA0003766327320000065
Figure BDA0003766327320000066
其中,
Figure BDA0003766327320000067
是左视图智能体的动作网络Al的损失,/>
Figure BDA0003766327320000068
是右视图智能体的动作网络Ar的损失;
步骤D4、更新设定次数后,将Al、Cl、Ar、Cr的参数复制给A′l、C′l、A′r、C′r,继续执行步骤D3,直至步骤D3中计算得到的损失值收敛到阈值或迭代次数达到阈值,保存训练好的模型,完成网络训练过程。
本发明还提供了一种基于多智能体的立体图像视觉舒适度增强系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。
与现有技术相比,本发明具有以下有益效果:相较于现有技术,本发明具有以下有益效果:本发明适用于对普通用户制作的立体图像进行视觉舒适度增强,有效地解决视觉舒适度增强过程中左和右视图的协同配合问题和左和右视图特征融合问题。该方法创新性地提出利用多智能体架构增强立体图像的视觉舒适度,左和右视图智能体分别控制着左和右视图的变换,双智能体内部具有自治性,而智能体之间又具有协调性,极大地提高问题求解效率。同时,该方法采用自注意力机制对左和右视图的特征进行端到端的融合,探索左和右视图不同尺度特征之间的像素级关系,有利于多智能体进行动作决策,从而提高立体图像的视觉舒适度。另外,该方法设计了智能体的动作,智能体的动作被定义为调整左和右视图的四个角点,然后通过调整前后的角点位置计算出变换矩阵,再将变换矩阵应用于左和右视图,得到变换后的左和右视图。本发明能有效且灵活地增强立体图像的视觉舒适度,具有较高的使用价值。
附图说明
图1是本发明实施例的方法实现流程图。
图2是本发明实施例中双目特征增强融合模块图。
图3是本发明实施例中双目特征增强融合网络图。
图4是本发明实施例中智能体的动作示意图。
图5是本发明实施例中双智能体架构图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于多智能体的立体图像视觉舒适度增强方法,包括以下步骤:
步骤A、对舒适的高质量立体图像对的左、右视图分别进行不同类型、不同尺度的变换扰动,合成视觉不舒适的立体图像对,并将原始高质量立体图像对作为参考图像对。
在本实施例中,所述步骤A具体包括以下步骤:
步骤A1、根据公共数据集自带的平均意见分数选取舒适的高质量立体图像对,构成舒适的高质量立体图像数据集。
步骤A2、将舒适的高质量立体图像数据集中的每一对立体图像对缩放,得到264×364尺寸的图像对。
步骤A3、设置平移、旋转、透视三种变换类型以及对应的变换尺度范围,对缩放后的立体图像对进行若干次的变换扰动。对于每一次变换扰动,先随机选取左、右视图的变换类型,然后在该变换类型的尺度范围内随机采样连续的变换值,最后将采样到的连续变换应用于左、右视图,得到视觉不舒适的立体图像对。
步骤A4、考虑到合成后的图像对在边缘区域可能存在无图像内容的区域,将合成后的立体图像对进行中心裁剪,得到224×288尺寸的图像对。
步骤B、构建基于注意力机制的立体图像特征增强融合网络,所述立体图像特征增强融合网络采用多阶段结构设计,在不同阶段增强融合左、右视图不同尺度的特征。
在本实施例中,所述步骤B具体包括以下步骤:
步骤B1、将左、右视图分别划分为不重叠的大小相同的图像块,然后每个图像块经过线性变换转换成块嵌入(patch embedding),最后将块嵌入(patch embedding)加上位置编码得到带位置信息的块嵌入(patch embedding)。
具体地,所述步骤B1包括以下步骤:
步骤B11、为了将左、右视图分别划分为不重叠的大小相同的图像块,并将每个图像块映射成块嵌入(patch embedding),将同一批次大小均为[H,W,3]的左、右视图分别输入一层卷积层,每个卷积核的大小为4×4,步长为4,由于卷积核的步长等于卷积核的宽、高,因此对左、右视图不重叠的图像块进行卷积,并将每个图像块映射成高维块嵌入(patchembedding)。每个批次的左、右视图卷积后得到大小均为[B,C,H′,W′]的特征图,并通过维度变换得到大小均为[B,H′×W′,C]的左视图块嵌入(patch embedding)Fl和右视图块嵌入(patch embedding)Fr,其中B为批次大小,H′和W′分别为特征图的高和宽,C为卷积核个数。
步骤B12、利用均值为0、方差为0.02的正态分布分别生成大小为[B,H′×W′,C]的可学习的左、右视图位置编码,并将左、右视图位置编码分别与左、右视图块嵌入(patchembedding)相加,最终得到带位置编码信息的左视图块嵌入(patch embedding)和右视图块嵌入(patch embedding),具体公式如下:
F′l=Fl+Pl,
F′r=Fr+Pr,
其中,Pl表示左视图位置编码,Pr表示右视图位置编码,Fl表示左视图块嵌入(patch embedding),Fr表示右视图块嵌入(patch embedding),F′l表示带位置编码信息的左视图块嵌入(patch embedding),F′r表示带位置编码信息的右视图块嵌入(patchembedding)。
步骤B2、构建基于自注意力和交叉注意力的双目特征增强融合模块。
具体地,所述步骤B2包括以下步骤:
如图2所示,构建基于自注意力和交叉注意力的双目特征增强融合模块,所述双目特征增强融合模块的输入是左视图块嵌入(patch embedding)Xl和右视图块嵌入(patchembedding)Xr,将Xl和Xr分别输入自注意力模块得到特征增强后的块嵌入(patchembedding)El、Er,然后将El作为查询向量、Er作为键向量和值向量输入交叉注意力模块得到E′l,将Er作为查询向量、El作为键向量和值向量输入交叉注意力模块得到E′r,E′l、E′r的大小分别和输入的块嵌入(patch embedding)Xl、Xr大小相同,具体的公式如下:
Figure BDA0003766327320000091
Figure BDA0003766327320000092
Figure BDA0003766327320000093
Figure BDA0003766327320000094
其中,softmax(*)为归一化函数,d为输入的块嵌入(patch embedding)的维度。
步骤B3、构建立体图像特征增强融合网络,所述立体图像特征增强融合网络由步骤B2得到的双目特征增强融合模块串行堆叠而成,模块与模块之间进行特征降采样,并将降采样后的特征图沿通道维度堆叠起来,从而实现在不同阶段增强融合左、右视图不同尺度的特征。
具体地,所述步骤B3包括以下步骤:
步骤B31、如图3所示,先将带位置编码信息的左、右视图块嵌入(patchembedding)进行维度变换得到[B,H′,W′,C]的特征图,然后将特征图划分成大小为Hwin×Wwin的子窗口
Figure BDA0003766327320000101
最后将划分后的特征图进行维度变换,得到大小为/>
Figure BDA0003766327320000102
的块嵌入(patch embedding)F″l、F″r
步骤B32、将四个所述双目特征增强融合模块串行堆叠构成立体图像特征增强融合网络,每个双目特征增强融合模块为一个增强融合阶段,模块与模块之间采用隔行隔列的方式进行降采样,降采样后得到4个大小为原来四分之一的特征图,并将降采样后的特征图沿着通道维度堆叠起来,堆叠后的特征图通道数为降采样前的四倍,最后在通道维度进行降维,使堆叠后的特征图通道数为降采样前的两倍,第i个增强融合阶段的输入块嵌入(patch embedding)的大小为
Figure BDA0003766327320000103
步骤C、构建双智能体的强化学习架构,分别用于预测左视图和右视图四个角的连续的偏移量,通过四个角的偏移量计算得到变换矩阵,并将变换矩阵应用于左、右视图。
在本实施例中,所述步骤C具体包括以下步骤:
步骤C1、构建双智能体架构的动作,如图4所示,双智能体包括负责调整左视图的左视图智能体和负责调整右视图的右视图智能体,每一个智能体的输出为8维数值向量,分别对应视图的左上、左下、右上、右下四个角沿着x轴和y轴移动的偏移量,偏移量会随着动作的执行而累加,由四个角点的初始位置和四个角点加上累计偏移量的位置计算出单应性矩阵,并将单应性矩阵作用于初始视图得到变换后的视图,最终双智能体的输出为左视图智能体的8维数值向量拼接上右视图智能体的8维数值向量,一共16维度数值向量。
步骤C2、构建双智能体架构的网络模型,每个智能体包含1个动作网络和1个评价网络,动作网络由所述立体图像特征增强融合网络和3层全连接层构成,最后一个全连接层输出8个连续的数值,并经过Tanh激活函数,将输出归一化到[-1,1],再将归一化后的数值乘以放大因子得到最终的偏移量,放大因子为每次动作允许移动的最大像素值,本发明设置放大因子为20个像素。评价网络由所述立体图像特征增强融合网络和3层全连接层构成,最后一个全连接层输出维度为1的数值,用于预测智能体做出动作后的奖励。
步骤C3、构建双智能体架构的奖励函数,智能体调整视图后的得分由调整后的图像与参考图像的相似度加上舒适度得分,左视图智能体的得分scorel和右视图智能体的得分scorer计算公式如下:
Figure BDA0003766327320000111
Figure BDA0003766327320000112
其中,Il为调整后的左视图,
Figure BDA0003766327320000113
为左视图Il对应的参考图像,Ir为调整后的右视图,
Figure BDA0003766327320000114
为右视图Ir对应的参考图像,Idis为调整后的左视图和右视图生成的视差图,SSIM(*)为结构相似性度量指标,VC(*)为立体图像舒适度得分,智能体的奖励定义为调整后的得分减去调整前的得分,具体公式如下:
reward=scoreafter-scorebefore
其中,scoreafter为智能体调整视图后的得分,scorebefore为智能体调整视图前的得分。
步骤D、利用合成的立体图像对和参考图像对双智能体进行训练。
在本实施例中,所述步骤D具体包括以下步骤:
步骤D1、采用多智能体强化学习算法MADDPG来训练双智能体架构,如图5所示,构造左视图智能体的动作网络Al、评价网络Cl和右视图智能体的动作网络Ar、评价网络Cr,复制一份双智能体作为目标网络,记为左视图目标动作网络A′l、左视图目标评价网络C′l、右视图目标动作网络A′r、右视图目标评价网络C′r,复制前后的网络的参数一致。
步骤D2、训练初始,左、右视图智能体的动作网络根据输入的左、右视图对s分别输出预测动作al、ar,拼接得到a=(al,ar),左、右视图智能体的评价网络根据输入的左、右视图对s和动作网络预测出的动作分别得到对应动作的奖励rl、rr,拼接得到r=(rl,rr),然后得到变换后的左、右视图对s′,将(s,a,s′,r)作为一条记录存储到缓存数组中,再将s′作为下一时刻的输入,每一对左、右视图重复此过程4次,缓存数组大小设置1000条记录,若缓存满了,则采用先进先出的策略删除历史记录。
步骤D3、从缓存数组中随机采样若干条记录,分别计算左、右视图智能体奖励的目标值,奖励的目标值为当前动作的奖励加上目标评价网络预测的下一时刻的奖励值,左视图智能体奖励的目标值yl和右视图智能体奖励的目标值yr计算公式如下:
yl=rl+C′l(s′,(A′l(s′),A′r(s′))),
yr=rr+C′r(s′,(A′l(s′),A′r(s′))),
其中,rl为采样记录中左视图智能体的奖励,rr为采样记录中右视图智能体的奖励,A′l(s′)为左视图目标动作网络A′l根据下一时刻视图s′输出的动作,A′r(s′)为右视图目标动作网络A′r根据下一时刻视图s′输出的动作,A′l(s′)和A′r(s′)拼接得(A′l(s′),A′r(s′)),C′l(s′,(A′l(s′),A′r(s′)))为左视图智能体的目标评价网络C′l根据下一时刻的视图s′以及下一时刻目标动作网络的动作(A′l(s′),A′r(s′))预测得到的下一时刻的奖励值,C′r(s′,(A′l(s′),A′r(s′)))为右视图智能体的目标评价网络C′r根据下一时刻的视图s′以及下一时刻目标动作网络的动作(A′l(s′),A′r(s′))预测得到的下一时刻的奖励值。
左视图智能体的评价网络Cl和右视图智能体的评价网络Cr的损失为奖励的目标值与奖励的预测值的差,具体公式如下:
Figure BDA0003766327320000121
Figure BDA0003766327320000122
其中,yl和Cl(s,a)分别对应左视图智能体奖励的目标值和预测值,
Figure BDA0003766327320000123
是左视图智能体的评价网络Cl的损失,yr和Cr(s,a)分别对应右视图智能体奖励的目标值和预测值,
Figure BDA0003766327320000124
是右视图智能体的评价网络Cr的损失。
左视图智能体的动作网络Al和右视图智能体的动作网络Ar的损失为最大化奖励的预测值,即最小化奖励的负预测值,Al的奖励预测值为Cl根据当前视图s以及双智能体动作(Al(s),ar)预测出的奖励值,ar是采样记录中的右智能体的动作,Ar的奖励预测值为Cr根据当前视图s以及双智能体动作(al,Ar(s))预测出的奖励值,al是采样记录中的左智能体的动作,公式如下:
Figure BDA0003766327320000125
Figure BDA0003766327320000131
其中,
Figure BDA0003766327320000132
是左视图智能体的动作网络Al的损失,/>
Figure BDA0003766327320000133
是右视图智能体的动作网络Ar的损失。
步骤D4、更新100次后,将Al、Cl、Ar、Cr的参数复制给A′l、C′l、A′r、C′r,继续执行步骤D3,直至步骤D3中计算得到的损失值收敛到阈值或迭代次数达到阈值,保存训练好的模型,完成网络训练过程。
步骤E、通过训练后的双智能体对待调整的立体图像对进行变换调整,以提高其视觉舒适度。
本实施例还提供了一种基于多智能体的立体图像视觉舒适度增强系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (7)

1.一种基于多智能体的立体图像视觉舒适度增强方法,其特征在于,包括以下步骤:
步骤A、对舒适的高质量立体图像对的左、右视图分别进行不同类型、不同尺度的变换扰动,合成视觉不舒适的立体图像对,并将原始高质量立体图像对作为参考图像对;
步骤B、构建基于注意力机制的立体图像特征增强融合网络,所述立体图像特征增强融合网络采用多阶段结构设计,在不同阶段增强融合左、右视图不同尺度的特征;
步骤C、构建双智能体的强化学习架构,分别用于预测左视图和右视图四个角的连续的偏移量,通过四个角的偏移量计算得到变换矩阵,并将变换矩阵应用于左、右视图;
步骤D、利用合成的立体图像对和参考图像对双智能体进行训练;
步骤E、通过训练后的双智能体对待调整的立体图像对进行变换调整,以提高其视觉舒适度;
所述步骤B具体包括以下步骤:
步骤B1、将左、右视图分别划分为不重叠的大小相同的图像块,然后每个图像块经过线性变换转换成块嵌入,最后将块嵌入加上位置编码得到带位置信息的块嵌入;
步骤B2、构建基于自注意力和交叉注意力的双目特征增强融合模块;
步骤B3、构建立体图像特征增强融合网络,所述立体图像特征增强融合网络由步骤B2得到的双目特征增强融合模块串行堆叠而成,模块与模块之间进行特征降采样,并将降采样后的特征图沿通道维度堆叠起来,从而实现在不同阶段增强融合左、右视图不同尺度的特征;
所述步骤C具体包括以下步骤:
步骤C1、构建双智能体架构的动作,双智能体包括负责调整左视图的左视图智能体和负责调整右视图的右视图智能体,每一个智能体的输出为8维数值向量,分别对应视图的左上、左下、右上、右下四个角沿着x轴和y轴移动的偏移量,偏移量会随着动作的执行而累加,由四个角点的初始位置和四个角点加上累计偏移量的位置计算出单应性矩阵,并将单应性矩阵作用于初始视图得到变换后的视图,最终双智能体的输出为左视图智能体的8维数值向量拼接上右视图智能体的8维数值向量,一共16维度数值向量;
步骤C2、构建双智能体架构的网络模型,每个智能体包含1个动作网络和1个评价网络,动作网络由所述立体图像特征增强融合网络和3层全连接层构成,最后一个全连接层输出8个连续的数值,并经过Tanh激活函数,将输出归一化到[-1,1],再将归一化后的数值乘以放大因子得到最终的偏移量,放大因子为每次动作允许移动的最大像素值;评价网络由所述立体图像特征增强融合网络和3层全连接层构成,最后一个全连接层输出维度为1的数值,用于预测智能体做出动作后的奖励;
步骤C3、构建双智能体架构的奖励函数,智能体调整视图后的得分由调整后的图像与参考图像的相似度加上舒适度得分,左视图智能体的得分scorel和右视图智能体的得分scorer计算公式如下:
Figure FDA0004255856650000021
Figure FDA0004255856650000022
其中,Il为调整后的左视图,
Figure FDA0004255856650000023
为左视图Il对应的参考图像,Ir为调整后的右视图,/>
Figure FDA0004255856650000024
为右视图Ir对应的参考图像,Idis为调整后的左视图和右视图生成的视差图,SSIM(*)为结构相似性度量指标,VC(*)为立体图像舒适度得分,智能体的奖励定义为调整后的得分减去调整前的得分,具体公式如下:
reward=scoreafter-scorebefore
其中,scoreafter为智能体调整视图后的得分,scorebefore为智能体调整视图前的得分。
2.根据权利要求1所述的一种基于多智能体的立体图像视觉舒适度增强方法,其特征在于,所述步骤A具体包括以下步骤:
步骤A1、根据公共数据集自带的平均意见分数选取舒适的高质量立体图像对,构成舒适的高质量立体图像数据集;
步骤A2、将舒适的高质量立体图像数据集中的每一对立体图像对缩放,得到264×364尺寸的图像对;
步骤A3、设置平移、旋转、透视三种变换类型以及对应的变换尺度范围,对缩放后的立体图像对进行若干次的变换扰动;对于每一次变换扰动,先随机选取左、右视图的变换类型,然后在该变换类型的尺度范围内随机采样连续的变换值,最后将采样到的连续变换应用于左、右视图,得到视觉不舒适的立体图像对;
步骤A4、考虑到合成后的图像对在边缘区域可能存在无图像内容的区域,将合成后的立体图像对进行中心裁剪,得到224×288尺寸的图像对。
3.根据权利要求1所述的一种基于多智能体的立体图像视觉舒适度增强方法,其特征在于,所述步骤B1具体包括以下步骤:
步骤B11、为了将左、右视图分别划分为不重叠的大小相同的图像块,并将每个图像块映射成块嵌入,将同一批次大小均为[H,W,3]的左、右视图分别输入一层卷积层,每个卷积核的大小为4×4,步长为4,由于卷积核的步长等于卷积核的宽、高,因此对左、右视图不重叠的图像块进行卷积,并将每个图像块映射成高维块嵌入;每个批次的左、右视图卷积后得到大小均为[B,C,H′,W′]的特征图,并通过维度变换得到大小均为[B,H′×W′,C]的左视图块嵌入和右视图块嵌入,其中B为批次大小,H′和W′分别为特征图的高和宽,C为卷积核个数;
步骤B12、利用均值为0、方差为0.02的正态分布分别生成大小为[B,H′×W′,C]的可学习的左、右视图位置编码,并将左、右视图位置编码分别与左、右视图块嵌入相加,最终得到带位置编码信息的左视图块嵌入和右视图块嵌入,具体公式如下:
F′l=Fl+Pl
F′r=Fr+Pr
其中,Pl表示左视图位置编码,Pr表示右视图位置编码,Fl表示左视图块嵌入,Fr表示右视图块嵌入,F′l表示带位置编码信息的左视图块嵌入,F′r表示带位置编码信息的右视图块嵌入。
4.根据权利要求3所述的一种基于多智能体的立体图像视觉舒适度增强方法,其特征在于,所述步骤B2具体包括以下步骤:
构建基于自注意力和交叉注意力的双目特征增强融合模块,所述双目特征增强融合模块的输入是左视图块嵌入Xl和右视图块嵌入Xr,将Xl和Xr分别输入自注意力模块得到特征增强后的块嵌入El、Er,然后将El作为查询向量、Er作为键向量和值向量输入交叉注意力模块得到E′l,将Er作为查询向量、El作为键向量和值向量输入交叉注意力模块得到E′r,E′l、E′r的大小分别和输入的块嵌入Xl、Xr大小相同,具体的公式如下:
Figure FDA0004255856650000031
Figure FDA0004255856650000032
Figure FDA0004255856650000033
Figure FDA0004255856650000034
其中,softmax(*)为归一化函数,d为输入的块嵌入的维度。
5.根据权利要求4所述的一种基于多智能体的立体图像视觉舒适度增强方法,其特征在于,所述步骤B3具体包括以下步骤:
步骤B31、先将带位置编码信息的左、右视图块嵌入进行维度变换得到[B,H′,W′,C]的特征图,然后将特征图划分成大小为Hwin×Wwin的子窗口
Figure FDA0004255856650000041
最后将划分后的特征图进行维度变换,得到大小为/>
Figure FDA0004255856650000042
的块嵌入F″l、F″r
步骤B32、将四个所述双目特征增强融合模块串行堆叠构成立体图像特征增强融合网络,每个双目特征增强融合模块为一个增强融合阶段,模块与模块之间采用隔行隔列的方式进行降采样,降采样后得到4个大小为原来四分之一的特征图,并将降采样后的特征图沿着通道维度堆叠起来,堆叠后的特征图通道数为降采样前的四倍,最后在通道维度进行降维,使堆叠后的特征图通道数为降采样前的两倍,第i个增强融合阶段的输入块嵌入的大小为
Figure FDA0004255856650000043
6.根据权利要求1所述的一种基于多智能体的立体图像视觉舒适度增强方法,其特征在于,所述步骤D具体包括以下步骤:
步骤D1、采用多智能体强化学习算法MADDPG来训练双智能体架构,构造左视图智能体的动作网络Al、评价网络Cl和右视图智能体的动作网络Ar、评价网络Cr,复制一份双智能体作为目标网络,记为左视图目标动作网络A′l、左视图目标评价网络C′l、右视图目标动作网络A′r、右视图目标评价网络C′r,复制前后的网络的参数一致;
步骤D2、训练初始,左、右视图智能体的动作网络根据输入的左、右视图对s分别输出预测动作al、ar,拼接得到a=(al,ar),左、右视图智能体的评价网络根据输入的左、右视图对s和动作网络预测出的动作分别得到对应动作的奖励rl、rr,拼接得到r=(rl,rr),然后得到变换后的左、右视图对s′,将(s,a,s′,r)作为一条记录存储到缓存数组中,再将s′作为下一时刻的输入,每一对左、右视图重复此过程设定次数,若缓存数组满了,则采用先进先出的策略删除历史记录;
步骤D3、从缓存数组中随机采样若干条记录,分别计算左、右视图智能体奖励的目标值,奖励的目标值为当前动作的奖励加上目标评价网络预测的下一时刻的奖励值,左视图智能体奖励的目标值yl和右视图智能体奖励的目标值yr计算公式如下:
yl=rl+C′l(s′,(A′l(s′),A′r(s′))),
yr=rr+C′r(s′,(A′l(s′),A′r(s′))),
其中,rl为采样记录中左视图智能体的奖励,rr为采样记录中右视图智能体的奖励,A′l(s′)为左视图目标动作网络A′l根据下一时刻视图s′输出的动作,A′r(s′)为右视图目标动作网络A′r根据下一时刻视图s′输出的动作,A′l(s′)和A′r(s′)拼接得(A′l(s′),A′r(s′)),C′l(s′,(A′l(s′),A′r(s′)))为左视图智能体的目标评价网络C′l根据下一时刻的视图s′以及下一时刻目标动作网络的动作(A′l(s′),A′r(s′))预测得到的下一时刻的奖励值,C′r(s′,(A′l(s′),A′r(s′)))为右视图智能体的目标评价网络C′r根据下一时刻的视图s′以及下一时刻目标动作网络的动作(A′l(s′),A′r(s′))预测得到的下一时刻的奖励值;
左视图智能体的评价网络Cl和右视图智能体的评价网络Cr的损失为奖励的目标值与奖励的预测值的差,具体公式如下:
Figure FDA0004255856650000051
Figure FDA0004255856650000052
其中,yl和Cl(s,a)分别对应左视图智能体奖励的目标值和预测值,
Figure FDA0004255856650000053
是左视图智能体的评价网络Cl的损失,yr和Cr(s,a)分别对应右视图智能体奖励的目标值和预测值,/>
Figure FDA0004255856650000054
是右视图智能体的评价网络Cr的损失;
左视图智能体的动作网络Al和右视图智能体的动作网络Ar的损失为最大化奖励的预测值,即最小化奖励的负预测值,Al的奖励预测值为Cl根据当前视图s以及双智能体动作(Al(s),ar)预测出的奖励值,ar是采样记录中的右智能体的动作,Ar的奖励预测值为Cr根据当前视图s以及双智能体动作(al,Ar(s))预测出的奖励值,al是采样记录中的左智能体的动作,公式如下:
Figure FDA0004255856650000055
Figure FDA0004255856650000056
其中,
Figure FDA0004255856650000057
是左视图智能体的动作网络Al的损失,/>
Figure FDA0004255856650000058
是右视图智能体的动作网络Ar的损失;
步骤D4、更新设定次数后,将Al、Cl、Ar、Cr的参数复制给A′l、C′l、A′r、C′r,继续执行步骤D3,直至步骤D3中计算得到的损失值收敛到阈值或迭代次数达到阈值,保存训练好的模型,完成网络训练过程。
7.一种基于多智能体的立体图像视觉舒适度增强系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-6任一项所述的方法步骤。
CN202210887485.5A 2022-07-26 2022-07-26 一种基于多智能体的立体图像视觉舒适度增强方法及系统 Active CN115209122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210887485.5A CN115209122B (zh) 2022-07-26 2022-07-26 一种基于多智能体的立体图像视觉舒适度增强方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210887485.5A CN115209122B (zh) 2022-07-26 2022-07-26 一种基于多智能体的立体图像视觉舒适度增强方法及系统

Publications (2)

Publication Number Publication Date
CN115209122A CN115209122A (zh) 2022-10-18
CN115209122B true CN115209122B (zh) 2023-07-07

Family

ID=83584424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210887485.5A Active CN115209122B (zh) 2022-07-26 2022-07-26 一种基于多智能体的立体图像视觉舒适度增强方法及系统

Country Status (1)

Country Link
CN (1) CN115209122B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117615112B (zh) * 2023-10-11 2024-08-20 浙江华诺康科技有限公司 一种立体舒适度调整方法、装置、设备和可读存储介质
CN117058132B (zh) * 2023-10-11 2024-01-23 天津大学 基于神经网络的文物照明视觉舒适度量化评估方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2434766A2 (en) * 2010-09-23 2012-03-28 Thomson Licensing Adaptation of 3d video content
WO2013143625A1 (en) * 2012-03-30 2013-10-03 Thomson Licensing Antighosting method using binocular suppression
CN104469355A (zh) * 2014-12-11 2015-03-25 西安电子科技大学 基于显著自适应的视觉舒适预测及非线性映射的视觉舒适增强方法
US10032281B1 (en) * 2017-05-03 2018-07-24 Siemens Healthcare Gmbh Multi-scale deep reinforcement machine learning for N-dimensional segmentation in medical imaging
CN111669563A (zh) * 2020-06-19 2020-09-15 福州大学 一种基于强化学习的立体图像视觉舒适度增强方法
WO2022089077A1 (zh) * 2020-10-28 2022-05-05 西安交通大学 一种基于自适应候选视差预测网络的实时双目立体匹配方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463890B (zh) * 2014-12-19 2017-05-24 北京工业大学 一种立体图像显著性区域检测方法
KR20200132468A (ko) * 2019-05-17 2020-11-25 삼성전자주식회사 첨단 운전자 지원 장치 및 이의 객체를 검출하는 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2434766A2 (en) * 2010-09-23 2012-03-28 Thomson Licensing Adaptation of 3d video content
WO2013143625A1 (en) * 2012-03-30 2013-10-03 Thomson Licensing Antighosting method using binocular suppression
CN104469355A (zh) * 2014-12-11 2015-03-25 西安电子科技大学 基于显著自适应的视觉舒适预测及非线性映射的视觉舒适增强方法
US10032281B1 (en) * 2017-05-03 2018-07-24 Siemens Healthcare Gmbh Multi-scale deep reinforcement machine learning for N-dimensional segmentation in medical imaging
CN111669563A (zh) * 2020-06-19 2020-09-15 福州大学 一种基于强化学习的立体图像视觉舒适度增强方法
WO2022089077A1 (zh) * 2020-10-28 2022-05-05 西安交通大学 一种基于自适应候选视差预测网络的实时双目立体匹配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Continuous Transformation Superposition for Visual Comfort Enhancement of Casual Stereoscopic Photography;Yuzhong Chen 等;2022 IEEE Conference on Virtual Reality and 3D User Interfaces;全文 *
基于视差重映射的立体图像视觉舒适度提升;王颖;郁梅;应宏微;蒋刚毅;;中国图象图形学报(04);全文 *
视差注意力的立体图像颜色校正方法;郑愈明;小型微型计算机系统;第43卷(第3期);全文 *

Also Published As

Publication number Publication date
CN115209122A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN115209122B (zh) 一种基于多智能体的立体图像视觉舒适度增强方法及系统
CN115191005B (zh) 用于从多视图图像进行端到端场景重建的系统和方法
CN111325851B (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
US8217990B2 (en) Stereoscopic picture generating apparatus
CN110458957A (zh) 一种基于神经网络的图像三维模型构建方法及装置
CN108924528B (zh) 一种基于深度学习的双目风格化实时渲染方法
CN101702781A (zh) 基于光流法的2d转3d方法
CN103238337A (zh) 立体图像获取系统及方法
US11561508B2 (en) Method and apparatus for processing hologram image data
KR20230028253A (ko) 얼굴 이미지 처리 방법, 얼굴 이미지 처리 모델 훈련 방법, 장치, 디바이스, 저장 매체 및 프로그램 제품
CN111612878A (zh) 将静态照片制作成三维效果视频的方法及装置
Liu et al. Facial image inpainting using attention-based multi-level generative network
CN116934936A (zh) 一种三维场景风格迁移方法、装置、设备及存储介质
CN112634127B (zh) 一种无监督立体图像重定向方法
CN116597146A (zh) 一种针对激光雷达稀疏点云数据的语义分割方法
CN117315096A (zh) 基于控制信息和光流信息的动画生成方法、介质和设备
CN108769644B (zh) 一种基于深度学习的双目动画风格化渲染方法
CN115984510A (zh) 一种风格化人脸纹理建模方法及系统、设备、存储介质
CN113808006B (zh) 一种基于二维图像重建三维网格模型的方法及装置
CN1154073C (zh) 可调整立体效果的三维空间图像转换的装置及其方法
CN111669563B (zh) 一种基于强化学习的立体图像视觉舒适度增强方法
Zhang et al. A generative adversarial network to denoise depth maps for quality improvement of DIBR-synthesized stereoscopic images
CN115082640A (zh) 基于单张图像的3d人脸模型纹理重建方法及设备
CN105528763B (zh) 一种基于多重网格近似算法的自适应区域感知蒙板生成方法
CN113256544A (zh) 一种多视点图像合成方法、系统、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant