CN115209122A

CN115209122A - 一种基于多智能体的立体图像视觉舒适度增强方法及系统

Info

Publication number: CN115209122A
Application number: CN202210887485.5A
Authority: CN
Inventors: 陈羽中; 沈启金; 牛玉贞
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2022-10-18
Anticipated expiration: 2042-07-26
Also published as: CN115209122B

Abstract

本发明涉及一种基于多智能体的立体图像视觉舒适度增强方法及系统，该方法包括：对高质量立体图像对的左、右视图分别进行变换扰动，合成视觉不舒适的立体图像对，并将原始高质量立体图像对作为参考图像对；构建基于注意力机制的立体图像特征增强融合网络，该网络采用多阶段结构设计，在不同阶段增强融合左、右视图不同尺度的特征；构建双智能体的强化学习架构，分别用于预测左视图和右视图四个角的偏移量，进而计算得到变换矩阵，并将变换矩阵应用于左、右视图；利用合成的立体图像对和参考图像对双智能体进行训练；通过训练后的双智能体对待调整的立体图像对进行变换调整，以提高其视觉舒适度。该方法及系统能够显著增强立体图像的视觉舒适度。

Description

一种基于多智能体的立体图像视觉舒适度增强方法及系统

技术领域

本发明属于计算机视觉领域，具体涉及一种基于多智能体的立体图像视觉舒适度增强方法及系统。

背景技术

立体图像的出现将二维图像的信息呈现方式拓展了一个维度，不仅改变了用户浏览信息的方式，还带给用户沉浸式的体验。然而，不舒适的立体图像会引起眩晕、恶心等生理反应，影响用户的观看体验，甚至危害用户的健康。因此，立体图像的视觉舒适度对立体图像的应用和推广至关重要，如何增强立体图像的视觉舒适度已经成为学界和工业界越来越关注的热点之一。

垂直视差和水平视差是影响三维立体图像视觉舒适度的关键因素，传统的立体图像舒适度增强方法主要分为立体校正和视差调整。立体校正通过使用变换矩阵使左和右视图的极线满足几何约束，从而消除垂直视差。根据是否需要使用相机参数又可将立体校正方法分为需标定的立体校正和无需标定的立体校正。视差调整方法可分为视差平移和视差映射，视差平移通过移动零视差平面以缓解辐辏-调节冲突，然后根据最优零视差平面调整视差范围。视差映射通过线性或者非线性的方式将视差重新映射到舒适的范围内，从而增强立体图像的视觉舒适度。

除了传统的立体图像舒适度增强方法外，近几年出现了利用单智能体强化学习增强立体图像视觉舒适度的方法，Kim等人利用强化学习方式对左视图进行水平左右移动，从而调整左和右视图的视差以增强立体图像的视觉舒适度和深度感知。Niu等人同时考虑视差调整和立体变换，通过单智能体强化学习的方式选择预先设置好的平移、旋转、透视动作，对左视图进行变换以增强立体图像的视觉舒适度。Chen等人采用单智能体强化学习的方式选择预先训练好的可以预测连续变换的变换模型，对左和右视图进行变换以提高立体图像的视觉舒适度。

视差是由左和右视图共同决定的，即左视图的变换应考虑到右视图的变换，反之亦然。然而，已有基于单智能体的方法无法考虑到左和右视图变换之间的配合，而在由左视图智能体和右视图智能体构成的双智能体体系中，各个智能体内部具有自治性，同时左和右视图智能体之间又具有协调性，极大地提高问题求解效率。为实现左和右视图智能体协同合作，首先要解决左和右视图的特征之间的交互以感知彼此的视图信息。已有的立体图像视觉舒适度增强方法主要使用骨干网络分别提取左和右视图的特征，再将左和右视图特征输入决策网络进行动作决策，无法探索左和右视图在低层特征之间的联系。针对这些问题，迫切需要设计一个有效的立体图像视觉舒适度增强方法。

发明内容

本发明的目的在于提供一种基于多智能体的立体图像视觉舒适度增强方法及系统，该方法及系统能够显著增强立体图像的视觉舒适度。

为实现上述目的，本发明采用的技术方案是：一种基于多智能体的立体图像视觉舒适度增强方法，包括以下步骤：

步骤A、对舒适的高质量立体图像对的左、右视图分别进行不同类型、不同尺度的变换扰动，合成视觉不舒适的立体图像对，并将原始高质量立体图像对作为参考图像对；

步骤B、构建基于注意力机制的立体图像特征增强融合网络，所述立体图像特征增强融合网络采用多阶段结构设计，在不同阶段增强融合左、右视图不同尺度的特征；

步骤C、构建双智能体的强化学习架构，分别用于预测左视图和右视图四个角的连续的偏移量，通过四个角的偏移量计算得到变换矩阵，并将变换矩阵应用于左、右视图；

步骤D、利用合成的立体图像对和参考图像对双智能体进行训练；

步骤E、通过训练后的双智能体对待调整的立体图像对进行变换调整，以提高其视觉舒适度。

进一步地，所述步骤A具体包括以下步骤：

步骤A1、根据公共数据集自带的平均意见分数选取舒适的高质量立体图像对，构成舒适的高质量立体图像数据集；

步骤A2、将舒适的高质量立体图像数据集中的每一对立体图像对缩放，得到264×364尺寸的图像对；

步骤A3、设置平移、旋转、透视三种变换类型以及对应的变换尺度范围，对缩放后的立体图像对进行若干次的变换扰动；对于每一次变换扰动，先随机选取左、右视图的变换类型，然后在该变换类型的尺度范围内随机采样连续的变换值，最后将采样到的连续变换应用于左、右视图，得到视觉不舒适的立体图像对；

步骤A4、考虑到合成后的图像对在边缘区域可能存在无图像内容的区域，将合成后的立体图像对进行中心裁剪，得到224×288尺寸的图像对。

进一步地，所述步骤B具体包括以下步骤：

步骤B1、将左、右视图分别划分为不重叠的大小相同的图像块，然后每个图像块经过线性变换转换成块嵌入，最后将块嵌入加上位置编码得到带位置信息的块嵌入；

步骤B2、构建基于自注意力和交叉注意力的双目特征增强融合模块；

步骤B3、构建立体图像特征增强融合网络，所述立体图像特征增强融合网络由步骤B2得到的双目特征增强融合模块串行堆叠而成，模块与模块之间进行特征降采样，并将降采样后的特征图沿通道维度堆叠起来，从而实现在不同阶段增强融合左、右视图不同尺度的特征。

进一步地，所述步骤B1具体包括以下步骤：

步骤B11、为了将左、右视图分别划分为不重叠的大小相同的图像块，并将每个图像块映射成块嵌入，将同一批次大小均为[H,W,3]的左、右视图分别输入一层卷积层，每个卷积核的大小为4×4，步长为4，由于卷积核的步长等于卷积核的宽、高，因此对左、右视图不重叠的图像块进行卷积，并将每个图像块映射成高维块嵌入；每个批次的左、右视图卷积后得到大小均为[B,C,H′,W′]的特征图，并通过维度变换得到大小均为[B,H′×W′,C]的左视图块嵌入和右视图块嵌入，其中B为批次大小，H′和W′分别为特征图的高和宽，C为卷积核个数；

步骤B12、利用均值为0、方差为0.02的正态分布分别生成大小为[B,H′×W′,C]的可学习的左、右视图位置编码，并将左、右视图位置编码分别与左、右视图块嵌入相加，最终得到带位置编码信息的左视图块嵌入和右视图块嵌入，具体公式如下：

F′_l＝F_l+P_l,

F′_r＝F_r+P_r,

其中，P_l表示左视图位置编码，P_r表示右视图位置编码，F_l表示左视图块嵌入，F_r表示右视图块嵌入，F′_l表示带位置编码信息的左视图块嵌入，F′_r表示带位置编码信息的右视图块嵌入。

进一步地，所述步骤B2具体包括以下步骤：

构建基于自注意力和交叉注意力的双目特征增强融合模块，所述双目特征增强融合模块的输入是左视图块嵌入X_l和右视图块嵌入X_r，将X_l和X_r分别输入自注意力模块得到特征增强后的块嵌入E_l、E_r，然后将E_l作为查询向量、E_r作为键向量和值向量输入交叉注意力模块得到E′_l，将E_r作为查询向量、E_l作为键向量和值向量输入交叉注意力模块得到E′_r，E′_l、E′_r的大小分别和输入的块嵌入X_l、X_r大小相同，具体的公式如下：

其中，softmax(*)为归一化函数，d为输入的块嵌入的维度。

进一步地，所述步骤B3具体包括以下步骤：

步骤B31、先将带位置编码信息的左、右视图块嵌入进行维度变换得到[B,H′,W′,C]的特征图，然后将特征图划分成大小为H_win×W_win的子窗口

最后将划分后的特征图进行维度变换，得到大小为

的块嵌入F″_l、F″_r；

步骤B32、将四个所述双目特征增强融合模块串行堆叠构成立体图像特征增强融合网络，每个双目特征增强融合模块为一个增强融合阶段，模块与模块之间采用隔行隔列的方式进行降采样，降采样后得到4个大小为原来四分之一的特征图，并将降采样后的特征图沿着通道维度堆叠起来，堆叠后的特征图通道数为降采样前的四倍，最后在通道维度进行降维，使堆叠后的特征图通道数为降采样前的两倍，第i个增强融合阶段的输入块嵌入的大小为

进一步地，所述步骤C具体包括以下步骤：

步骤C1、构建双智能体架构的动作，双智能体包括负责调整左视图的左视图智能体和负责调整右视图的右视图智能体，每一个智能体的输出为8维数值向量，分别对应视图的左上、左下、右上、右下四个角沿着x轴和y轴移动的偏移量，偏移量会随着动作的执行而累加，由四个角点的初始位置和四个角点加上累计偏移量的位置计算出单应性矩阵，并将单应性矩阵作用于初始视图得到变换后的视图，最终双智能体的输出为左视图智能体的8维数值向量拼接上右视图智能体的8维数值向量，一共16维度数值向量；

步骤C2、构建双智能体架构的网络模型，每个智能体包含1个动作网络和1个评价网络，动作网络由所述立体图像特征增强融合网络和3层全连接层构成，最后一个全连接层输出8个连续的数值，并经过Tanh激活函数，将输出归一化到[-1,1]，再将归一化后的数值乘以放大因子得到最终的偏移量，放大因子为每次动作允许移动的最大像素值；评价网络由所述立体图像特征增强融合网络和3层全连接层构成，最后一个全连接层输出维度为1的数值，用于预测智能体做出动作后的奖励；

步骤C3、构建双智能体架构的奖励函数，智能体调整视图后的得分由调整后的图像与参考图像的相似度加上舒适度得分，左视图智能体的得分score_l和右视图智能体的得分score_r计算公式如下：

其中，I^l为调整后的左视图，

为左视图I^l对应的参考图像，I^r为调整后的右视图，

为右视图I^r对应的参考图像，I_dis为调整后的左视图和右视图生成的视差图，SSIM(*)为结构相似性度量指标，VC(*)为立体图像舒适度得分，智能体的奖励定义为调整后的得分减去调整前的得分，具体公式如下：

reward＝score_after-score_before，

其中，score_after为智能体调整视图后的得分，score_before为智能体调整视图前的得分。

进一步地，所述步骤D具体包括以下步骤：

步骤D1、采用多智能体强化学习算法MADDPG来训练双智能体架构，构造左视图智能体的动作网络A_l、评价网络C_l和右视图智能体的动作网络A_r、评价网络C_r，复制一份双智能体作为目标网络，记为左视图目标动作网络A′_l、左视图目标评价网络C′_l、右视图目标动作网络A′_r、右视图目标评价网络C′_r，复制前后的网络的参数一致；

步骤D2、训练初始，左、右视图智能体的动作网络根据输入的左、右视图对s分别输出预测动作a_l、a_r，拼接得到a＝(a_l，a_r)，左、右视图智能体的评价网络根据输入的左、右视图对s和动作网络预测出的动作分别得到对应动作的奖励r_l、r_r，拼接得到r＝(r_l，r_r)，然后得到变换后的左、右视图对s′，将(s，a，s′，r)作为一条记录存储到缓存数组中，再将s′作为下一时刻的输入，每一对左、右视图重复此过程设定次数，若缓存数组满了，则采用先进先出的策略删除历史记录；

步骤D3、从缓存数组中随机采样若干条记录，分别计算左、右视图智能体奖励的目标值，奖励的目标值为当前动作的奖励加上目标评价网络预测的下一时刻的奖励值，左视图智能体奖励的目标值y_l和右视图智能体奖励的目标值y_r计算公式如下：

y_l＝r_l+C′_l(s′，(A′_l(s′)，A′_r(s′)))，

y_r＝r_r+C′_r(s′，(A′_l(s′)，A′_r(s′)))，

其中，r_l为采样记录中左视图智能体的奖励，r_r为采样记录中右视图智能体的奖励，A′_l(s′)为左视图目标动作网络A′_l根据下一时刻视图s′输出的动作，A′_r(s′)为右视图目标动作网络A′_r根据下一时刻视图s′输出的动作，A′_l(s′)和A′_r(s′)拼接得(A′_l(s′)，A′_r(s′))，C′_l(s′，(A′_l(s′)，A′_r(s′)))为左视图智能体的目标评价网络C′_l根据下一时刻的视图s′以及下一时刻目标动作网络的动作(A′_l(s′)，A′_r(s′))预测得到的下一时刻的奖励值，C′_r(s′，(A′_l(s′)，A′_r(s′)))为右视图智能体的目标评价网络C′_r根据下一时刻的视图s′以及下一时刻目标动作网络的动作(A′_l(s′)，A′_r(s′))预测得到的下一时刻的奖励值；

左视图智能体的评价网络C_l和右视图智能体的评价网络C_r的损失为奖励的目标值与奖励的预测值的差，具体公式如下：

其中，y_l和C_l(s，a)分别对应左视图智能体奖励的目标值和预测值，

是左视图智能体的评价网络C_l的损失，y_r和C_r(s，a)分别对应右视图智能体奖励的目标值和预测值，

是右视图智能体的评价网络C_r的损失；

左视图智能体的动作网络A_l和右视图智能体的动作网络A_r的损失为最大化奖励的预测值，即最小化奖励的负预测值，A_l的奖励预测值为C_l根据当前视图s以及双智能体动作(A_l(s)，a_r)预测出的奖励值，a_r是采样记录中的右智能体的动作，A_r的奖励预测值为C_r根据当前视图s以及双智能体动作(a_l，A_r(s))预测出的奖励值，a_l是采样记录中的左智能体的动作，公式如下：

其中，

是左视图智能体的动作网络A_l的损失，

是右视图智能体的动作网络A_r的损失；

步骤D4、更新设定次数后，将A_l、C_l、A_r、C_r的参数复制给A′_l、C′_l、A′_r、C′_r，继续执行步骤D3，直至步骤D3中计算得到的损失值收敛到阈值或迭代次数达到阈值，保存训练好的模型，完成网络训练过程。

本发明还提供了一种基于多智能体的立体图像视觉舒适度增强系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

与现有技术相比，本发明具有以下有益效果：相较于现有技术，本发明具有以下有益效果：本发明适用于对普通用户制作的立体图像进行视觉舒适度增强，有效地解决视觉舒适度增强过程中左和右视图的协同配合问题和左和右视图特征融合问题。该方法创新性地提出利用多智能体架构增强立体图像的视觉舒适度，左和右视图智能体分别控制着左和右视图的变换，双智能体内部具有自治性，而智能体之间又具有协调性，极大地提高问题求解效率。同时，该方法采用自注意力机制对左和右视图的特征进行端到端的融合，探索左和右视图不同尺度特征之间的像素级关系，有利于多智能体进行动作决策，从而提高立体图像的视觉舒适度。另外，该方法设计了智能体的动作，智能体的动作被定义为调整左和右视图的四个角点，然后通过调整前后的角点位置计算出变换矩阵，再将变换矩阵应用于左和右视图，得到变换后的左和右视图。本发明能有效且灵活地增强立体图像的视觉舒适度，具有较高的使用价值。

附图说明

图1是本发明实施例的方法实现流程图。

图2是本发明实施例中双目特征增强融合模块图。

图3是本发明实施例中双目特征增强融合网络图。

图4是本发明实施例中智能体的动作示意图。

图5是本发明实施例中双智能体架构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于多智能体的立体图像视觉舒适度增强方法，包括以下步骤：

步骤A、对舒适的高质量立体图像对的左、右视图分别进行不同类型、不同尺度的变换扰动，合成视觉不舒适的立体图像对，并将原始高质量立体图像对作为参考图像对。

在本实施例中，所述步骤A具体包括以下步骤：

步骤A1、根据公共数据集自带的平均意见分数选取舒适的高质量立体图像对，构成舒适的高质量立体图像数据集。

步骤A2、将舒适的高质量立体图像数据集中的每一对立体图像对缩放，得到264×364尺寸的图像对。

步骤A3、设置平移、旋转、透视三种变换类型以及对应的变换尺度范围，对缩放后的立体图像对进行若干次的变换扰动。对于每一次变换扰动，先随机选取左、右视图的变换类型，然后在该变换类型的尺度范围内随机采样连续的变换值，最后将采样到的连续变换应用于左、右视图，得到视觉不舒适的立体图像对。

步骤B、构建基于注意力机制的立体图像特征增强融合网络，所述立体图像特征增强融合网络采用多阶段结构设计，在不同阶段增强融合左、右视图不同尺度的特征。

在本实施例中，所述步骤B具体包括以下步骤：

步骤B1、将左、右视图分别划分为不重叠的大小相同的图像块，然后每个图像块经过线性变换转换成块嵌入(patch embedding)，最后将块嵌入(patch embedding)加上位置编码得到带位置信息的块嵌入(patch embedding)。

具体地，所述步骤B1包括以下步骤：

步骤B11、为了将左、右视图分别划分为不重叠的大小相同的图像块，并将每个图像块映射成块嵌入(patch embedding)，将同一批次大小均为[H,W,3]的左、右视图分别输入一层卷积层，每个卷积核的大小为4×4，步长为4，由于卷积核的步长等于卷积核的宽、高，因此对左、右视图不重叠的图像块进行卷积，并将每个图像块映射成高维块嵌入(patchembedding)。每个批次的左、右视图卷积后得到大小均为[B,C,H′,W′]的特征图，并通过维度变换得到大小均为[B,H′×W′,C]的左视图块嵌入(patch embedding)F_l和右视图块嵌入(patch embedding)F_r，其中B为批次大小，H′和W′分别为特征图的高和宽，C为卷积核个数。

步骤B12、利用均值为0、方差为0.02的正态分布分别生成大小为[B,H′×W′,C]的可学习的左、右视图位置编码，并将左、右视图位置编码分别与左、右视图块嵌入(patchembedding)相加，最终得到带位置编码信息的左视图块嵌入(patch embedding)和右视图块嵌入(patch embedding)，具体公式如下：

F′_l＝F_l+P_l,

F′_r＝F_r+P_r,

其中，P_l表示左视图位置编码，P_r表示右视图位置编码，F_l表示左视图块嵌入(patch embedding)，F_r表示右视图块嵌入(patch embedding)，F′_l表示带位置编码信息的左视图块嵌入(patch embedding)，F′_r表示带位置编码信息的右视图块嵌入(patchembedding)。

步骤B2、构建基于自注意力和交叉注意力的双目特征增强融合模块。

具体地，所述步骤B2包括以下步骤：

如图2所示，构建基于自注意力和交叉注意力的双目特征增强融合模块，所述双目特征增强融合模块的输入是左视图块嵌入(patch embedding)X_l和右视图块嵌入(patchembedding)X_r，将X_l和X_r分别输入自注意力模块得到特征增强后的块嵌入(patchembedding)E_l、E_r，然后将E_l作为查询向量、E_r作为键向量和值向量输入交叉注意力模块得到E′_l，将E_r作为查询向量、E_l作为键向量和值向量输入交叉注意力模块得到E′_r，E′_l、E′_r的大小分别和输入的块嵌入(patch embedding)X_l、X_r大小相同，具体的公式如下：

其中，softmax(*)为归一化函数，d为输入的块嵌入(patch embedding)的维度。

具体地，所述步骤B3包括以下步骤：

步骤B31、如图3所示，先将带位置编码信息的左、右视图块嵌入(patchembedding)进行维度变换得到[B,H′,W′,C]的特征图，然后将特征图划分成大小为H_win×W_win的子窗口

最后将划分后的特征图进行维度变换，得到大小为

的块嵌入(patch embedding)F″_l、F″_r。

步骤B32、将四个所述双目特征增强融合模块串行堆叠构成立体图像特征增强融合网络，每个双目特征增强融合模块为一个增强融合阶段，模块与模块之间采用隔行隔列的方式进行降采样，降采样后得到4个大小为原来四分之一的特征图，并将降采样后的特征图沿着通道维度堆叠起来，堆叠后的特征图通道数为降采样前的四倍，最后在通道维度进行降维，使堆叠后的特征图通道数为降采样前的两倍，第i个增强融合阶段的输入块嵌入(patch embedding)的大小为

步骤C、构建双智能体的强化学习架构，分别用于预测左视图和右视图四个角的连续的偏移量，通过四个角的偏移量计算得到变换矩阵，并将变换矩阵应用于左、右视图。

在本实施例中，所述步骤C具体包括以下步骤：

步骤C1、构建双智能体架构的动作，如图4所示，双智能体包括负责调整左视图的左视图智能体和负责调整右视图的右视图智能体，每一个智能体的输出为8维数值向量，分别对应视图的左上、左下、右上、右下四个角沿着x轴和y轴移动的偏移量，偏移量会随着动作的执行而累加，由四个角点的初始位置和四个角点加上累计偏移量的位置计算出单应性矩阵，并将单应性矩阵作用于初始视图得到变换后的视图，最终双智能体的输出为左视图智能体的8维数值向量拼接上右视图智能体的8维数值向量，一共16维度数值向量。

步骤C2、构建双智能体架构的网络模型，每个智能体包含1个动作网络和1个评价网络，动作网络由所述立体图像特征增强融合网络和3层全连接层构成，最后一个全连接层输出8个连续的数值，并经过Tanh激活函数，将输出归一化到[-1,1]，再将归一化后的数值乘以放大因子得到最终的偏移量，放大因子为每次动作允许移动的最大像素值，本发明设置放大因子为20个像素。评价网络由所述立体图像特征增强融合网络和3层全连接层构成，最后一个全连接层输出维度为1的数值，用于预测智能体做出动作后的奖励。

其中，I^l为调整后的左视图，

为左视图I^l对应的参考图像，I^r为调整后的右视图，

reward＝score_after-score_before，

步骤D、利用合成的立体图像对和参考图像对双智能体进行训练。

在本实施例中，所述步骤D具体包括以下步骤：

步骤D1、采用多智能体强化学习算法MADDPG来训练双智能体架构，如图5所示，构造左视图智能体的动作网络A_l、评价网络C_l和右视图智能体的动作网络A_r、评价网络C_r，复制一份双智能体作为目标网络，记为左视图目标动作网络A′_l、左视图目标评价网络C′_l、右视图目标动作网络A′_r、右视图目标评价网络C′_r，复制前后的网络的参数一致。

步骤D2、训练初始，左、右视图智能体的动作网络根据输入的左、右视图对s分别输出预测动作a_l、a_r，拼接得到a＝(a_l，a_r)，左、右视图智能体的评价网络根据输入的左、右视图对s和动作网络预测出的动作分别得到对应动作的奖励r_l、r_r，拼接得到r＝(r_l，r_r)，然后得到变换后的左、右视图对s′，将(s，a，s′，r)作为一条记录存储到缓存数组中，再将s′作为下一时刻的输入，每一对左、右视图重复此过程4次，缓存数组大小设置1000条记录，若缓存满了，则采用先进先出的策略删除历史记录。

y_l＝r_l+C′_l(s′，(A′_l(s′)，A′_r(s′)))，

y_r＝r_r+C′_r(s′，(A′_l(s′)，A′_r(s′)))，

其中，r_l为采样记录中左视图智能体的奖励，r_r为采样记录中右视图智能体的奖励，A′_l(s′)为左视图目标动作网络A′_l根据下一时刻视图s′输出的动作，A′_r(s′)为右视图目标动作网络A′_r根据下一时刻视图s′输出的动作，A′_l(s′)和A′_r(s′)拼接得(A′_l(s′)，A′_r(s′))，C′_l(s′，(A′_l(s′)，A′_r(s′)))为左视图智能体的目标评价网络C′_l根据下一时刻的视图s′以及下一时刻目标动作网络的动作(A′_l(s′)，A′_r(s′))预测得到的下一时刻的奖励值，C′_r(s′，(A′_l(s′)，A′_r(s′)))为右视图智能体的目标评价网络C′_r根据下一时刻的视图s′以及下一时刻目标动作网络的动作(A′_l(s′)，A′_r(s′))预测得到的下一时刻的奖励值。

是右视图智能体的评价网络C_r的损失。

其中，

是左视图智能体的动作网络A_l的损失，

是右视图智能体的动作网络A_r的损失。

步骤D4、更新100次后，将A_l、C_l、A_r、C_r的参数复制给A′_l、C′_l、A′_r、C′_r，继续执行步骤D3，直至步骤D3中计算得到的损失值收敛到阈值或迭代次数达到阈值，保存训练好的模型，完成网络训练过程。

本实施例还提供了一种基于多智能体的立体图像视觉舒适度增强系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于多智能体的立体图像视觉舒适度增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多智能体的立体图像视觉舒适度增强方法，其特征在于，所述步骤A具体包括以下步骤：

3.根据权利要求1所述的一种基于多智能体的立体图像视觉舒适度增强方法，其特征在于，所述步骤B具体包括以下步骤：

4.根据权利要求3所述的一种基于多智能体的立体图像视觉舒适度增强方法，其特征在于，所述步骤B1具体包括以下步骤：

步骤B11、为了将左、右视图分别划分为不重叠的大小相同的图像块，并将每个图像块映射成块嵌入，将同一批次大小均为[H，W，3]的左、右视图分别输入一层卷积层，每个卷积核的大小为4×4，步长为4，由于卷积核的步长等于卷积核的宽、高，因此对左、右视图不重叠的图像块进行卷积，并将每个图像块映射成高维块嵌入；每个批次的左、右视图卷积后得到大小均为[B，C，H′，W′]的特征图，并通过维度变换得到大小均为[B，H′×W′，C]的左视图块嵌入和右视图块嵌入，其中B为批次大小，H′和W′分别为特征图的高和宽，C为卷积核个数；

步骤B12、利用均值为0、方差为0.02的正态分布分别生成大小为[B，H′×W′，C]的可学习的左、右视图位置编码，并将左、右视图位置编码分别与左、右视图块嵌入相加，最终得到带位置编码信息的左视图块嵌入和右视图块嵌入，具体公式如下：

F_l＝F_l+P_l，

F′_r＝F_r+P_r，

5.根据权利要求4所述的一种基于多智能体的立体图像视觉舒适度增强方法，其特征在于，所述步骤B2具体包括以下步骤：

其中，softmax(*)为归一化函数，d为输入的块嵌入的维度。

6.根据权利要求5所述的一种基于多智能体的立体图像视觉舒适度增强方法，其特征在于，所述步骤B3具体包括以下步骤：

步骤B31、先将带位置编码信息的左、右视图块嵌入进行维度变换得到[B，H′，W′，C]的特征图，然后将特征图划分成大小为H_win×W_win的子窗口

最后将划分后的特征图进行维度变换，得到大小为

的块嵌入F″_l、F″_r；

7.根据权利要求1所述的一种基于多智能体的立体图像视觉舒适度增强方法，其特征在于，所述步骤C具体包括以下步骤：

步骤C1、构建双智能体架构的动作，双智能体包括负责调整左视图的左视图智能体和负责调整右视图的右视图智能体，每一个智能体的输出为8维数值向量，分别对应视图的左上、左下、右上、右下四个角沿着x轴和v轴移动的偏移量，偏移量会随着动作的执行而累加，由四个角点的初始位置和四个角点加上累计偏移量的位置计算出单应性矩阵，并将单应性矩阵作用于初始视图得到变换后的视图，最终双智能体的输出为左视图智能体的8维数值向量拼接上右视图智能体的8维数值向量，一共16维度数值向量；

步骤C2、构建双智能体架构的网络模型，每个智能体包含1个动作网络和1个评价网络，动作网络由所述立体图像特征增强融合网络和3层全连接层构成，最后一个全连接层输出8个连续的数值，并经过Tanh激活函数，将输出归一化到[-1，1]，再将归一化后的数值乘以放大因子得到最终的偏移量，放大因子为每次动作允许移动的最大像素值；评价网络由所述立体图像特征增强融合网络和3层全连接层构成，最后一个全连接层输出维度为1的数值，用于预测智能体做出动作后的奖励；

其中，I^l为调整后的左视图，

为左视图I^l对应的参考图像，I^r为调整后的右视图，

reward＝score_after—score_before，

8.根据权利要求1所述的一种基于多智能体的立体图像视觉舒适度增强方法，其特征在于，所述步骤D具体包括以下步骤：

步骤D1、采用多智能体强化学习算法MADDPG来训练双智能体架构，构造左视图智能体的动作网络A_l、评价网络C_l和右视图智能体的动作网络A_r、评价网络C_r，复制一份双智能体作为目标网络，记为左视图目标动作网络A′_i、左视图目标评价网络C′_l、右视图目标动作网络A′_r、右视图目标评价网络C′_r，复制前后的网络的参数一致；

y_l＝r_l+C′_l(s′，(A′_l(s′)，A′_r(s′)))，

y_r＝r_r+C′_r(s′，(A′_l(s′)，A′_r(s′)))，

左视图智能体的评价网络C_l和右视图智能体的评价网络C_r的损失为奖励的目标值与奖励的预测值的差，具体公式加下：

是右视图智能体的评价网络C_r的损失；

其中，

是左视图智能体的动作网络A_l的损失，

是右视图智能体的动作网络A_r的损失；

9.一种基于多智能体的立体图像视觉舒适度增强系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-8任一项所述的方法步骤。