CN117527983A

CN117527983A - 基于Transformer的图像信息隐藏方法

Info

Publication number: CN117527983A
Application number: CN202311463828.6A
Authority: CN
Inventors: 何周燕; 周宇航; 骆挺; 金充充; 黄江涛
Original assignee: College of Science and Technology of Ningbo University
Current assignee: College of Science and Technology of Ningbo University
Priority date: 2023-11-06
Filing date: 2023-11-06
Publication date: 2024-02-06

Abstract

本发明公开了基于Transformer的图像信息隐藏方法，涉及图像信息处理领域，包括通过生成子网络将秘密图像隐藏到载体图像中，获得隐写图像；提取子网络从所述隐写图像中提取出秘密信息；鉴别子网络对载体图像和隐写图像进行区分；对所述生成子网络、所述鉴别子网络和所述提取子网络进行联合训练，最小化总损失；通道自注意力模块CSAB，通过计算通道维度上的自注意力建立通道关系，从而更关注有利于信息隐藏的特征通道，同时获得了更好的全局建模能力。并且通过对CSAB模块中NLE层的设计，增强了有利于信息隐藏的特征权重并抑制了不利的特征。

Description

基于Transformer的图像信息隐藏方法

技术领域

本发明涉及图像数据处理的技术领域，尤其涉及基于Transformer的图像信息隐藏方法。

背景技术

图像隐藏是指在不引起怀疑的情况下将秘密图像隐藏到载体图像之中，并且只允许知情的接收者提取秘密图像，而对其他人不可见。图像隐藏与图像加密不同，图像隐藏能够利用数字图像的冗余信息来伪装秘密图像。出于安全考虑，通常要求隐写图像和载体图像不可区分，因此常应用于秘密通信和隐私保护等。

传统的图像信息隐藏是在空域上通过调整图像的像素值隐藏秘密信息，或者对载体图像进行频域变换后修改频域系数从而实现隐藏信息。基于空域的信息隐藏实现速度快，但是容量小并且安全性较差。基于频域的信息隐藏虽然在安全性方面有所提高，但隐藏容量仍就具有一定的局限性。此外，还有一些自适应的嵌入方法通过失真函数来进行失真度量，从而选择适合的区域来隐藏信息。然而，这些的方法都是通过手工设计特征来实现的，这些特征较容易被隐写分析算法检测和发现，因此在安全性上有所欠缺。随着深度学习的发展，人们将卷积神经网络应用于图像隐藏。但这些图像隐藏方法并未考虑载体图像和秘密图像特征之间的相关性，使得二者的特征耦合性不足，容易损害载体图像的质量。此外，使用卷积神经网络进行特征提取无法很好的筛选出有利于信息隐藏的特征，反而容易引入一些不利于信息隐藏的图像特征。然而，近几年在计算机视觉领域获得出色效果的Transformer能够通过自注意力的计算来有效建模长距离依赖关系，从而更准确的关注有利于信息隐藏的特征。并且，Transformer能够通过交叉注意力的计算来对交差依赖关系建模，以此来构建载体图像和秘密图像之间的交互。

发明内容

本发明解决的技术问题是：传统方法都是通过手工设计特征来实现的，这些特征较容易被隐写分析算法检测和发现，因此在安全性上有所欠缺。随着深度学习的发展，人们将卷积神经网络应用于图像隐藏。但这些图像信息隐藏并未考虑载体图像特征和秘密图像特征之间的相关性，从而使得特征之间的耦合性不足，容易损害载体图像的质量。此外，使用卷积神经网络进行特征提取无法很好的筛选出有利于信息隐藏的特征，反而容易引入一些不利于信息隐藏的图像特征。

为解决上述技术问题，本发明提供如下技术方案：基于Transformer的图像信息隐藏方法，包括通过生成子网络将秘密图像隐藏到载体图像中，获得隐写图像；提取子网络从所述隐写图像中提取出秘密信息；鉴别子网络对载体图像和隐写图像进行区分；对所述生成子网络、所述鉴别子网络和所述提取子网络进行联合训练，最小化总损失。

作为本发明所述的基于Transformer的图像信息隐藏方法的优选方案，其中：通过生成子网络将秘密图像隐藏到载体图像中，获得隐写图像包括：

使用ConvLNReLU模块逐步扩大秘密图像和载体图像的特征通道数；

通过使用CSAB模块，赋予适合信息隐藏的特征通道更大的权重；

通过CCAB模块，计算载体图像与秘密图像之间的相关性，从而通过调整获得适合信息隐藏的载体图像特征；

通过特征融合过程将秘密信息嵌入到隐藏的位置；

通过通道降维，获得隐写图像。

作为本发明所述的基于Transformer的图像信息隐藏方法的优选方案，其中：所述ConvLNReLU模块包括卷积核大小为3，步幅为1，填充为1的带偏置卷积层、层归一化层和斜率为0.01的LeakyReLU激活函数。

作为本发明所述的基于Transformer的图像信息隐藏方法的优选方案，其中：将彩色图像作为载体图像和秘密图像，其数学表达式为：

x_c,x_s∈B^C×H×W

其中，x_c表示载体图像，x_s表示秘密图像，C＝3表示彩色图像所需要的通道数，B表示像素值的取值范围，H表示图像的高度，W表示图像的宽度，将秘密图像隐藏到载体图像中，其数学表达式为：

x_t＝f_G(x_c,x_s；θ_G),

其中，x_t表示藏有秘密信息的隐写图像，f_G(·)代表生成子网络映射函数，θ_G代表生成子网络的网络参数。

作为本发明所述的基于Transformer的图像信息隐藏方法的优选方案，其中：提取子网络从所述隐写图像中提取出秘密信息包括：

采用ConvLNReLU模块逐步扩大隐写图像的通道数，从而获得更多层次和更丰富的图像特征；

使用CSAB模块来发挥Transformer模型对全局通道建模的优势，使得网络关注到隐写图像特征通道中更有可能隐藏更多秘密信息的特征通道，给其分配更大的权重，以此增强对隐藏信息的敏感度和区分度；

通过对输入的特征按通道划分多个注意力头，来进行多组自注意力的计算从而增强模型的特征表达能力；

所述提取子网络学习识别和提取隐藏在隐写图像中的秘密信息，数学表达式为：

x_rs＝f_E(x_t；θ_E),

其中，x_rs表示提取的秘密信息，f_E(·)表示提取子网络映射函数，θ_E表示提取子网络的网络参数。

作为本发明所述的基于Transformer的图像信息隐藏方法的优选方案，其中：鉴别子网络对载体图像和隐写图像进行区分包括：

判断过程的数学表达式为：

x∈{x_c,x_t}

P＝f_D(x；θ_D)，

其中，f_D(·)表示鉴别子网络映射函数，θ_D表示鉴别子网络的网络参数，对于输入图像x，鉴别子网络会输出一个0到1之间的实数P，来表示输入图像x是隐写图像的概率，将P与预先设定的置信度数值q进行比较；

若P≥q，则输入图像x为隐写图像；

若P<q，则输入图像x为载体图像。

作为本发明所述的基于Transformer的图像信息隐藏方法的优选方案，其中：所述CSAB模块包括通道转置注意层(CTA)和第一非线性增强层(NLE)；

通道转置注意层(CTA)包括：

定义特征图为输入；

经过归一化层后获得标准化后的张量

使用卷积核为1×1的卷积进行通道升维；

聚合像素级别和跨通道的上下文信息；

使用卷积核为3×3的深度卷积来对通道级上下文进行建模；

将特征按通道划分为三部分，以产生查询(Q_s)，键(K_s)和值(V_s)矩阵，其数学表达式为：

其中，表示卷积核为1×1的逐点卷积，/>表示卷积核为3×3的深度卷积；

重塑Q_s、K_s和V_s矩阵的形状后得到和/>其中，R表示矩阵大小，/>表示特征图的长，/>表示特征图的宽，/>表示特征图的通道数；

通过对Q_s和K_s矩阵进行点积计算跨通道的特征相关性，得到大小的转置通道注意力图；

将转置通道注意力图经过Softmax函数后得到注意力权重矩阵，将注意力权重矩阵点乘V_s矩阵得到加权后的注意力特征表示；

将特征图重塑成原来的大小后残差连接上输入X，得到最终输出的特征图其数学表达式为：

其中Att(·)定义为：

Att(Q_s,K_s,V_s)＝V_s·Softmax(K_s·Q_s/α),

其中，α是一个可学习的缩放参数，用在Softmax函数之前控制Q_s和K_s点积的大小。

作为本发明所述的基于Transformer的图像信息隐藏方法的优选方案，其中：第一非线性增强层(NLE)包括：

给定输入张量第一非线性增强层(NLE)形式化过程的数学表达式为：

其中NLE(·)定义为：

其中，⊙表示逐元素乘法，φ表示GELU非线性激活函数，LN表示层归一化层。

作为本发明所述的基于Transformer的图像信息隐藏方法的优选方案，其中：所述CCAB模块包括通道交叉注意力层(CCA)层和第二非线性增强层(NLE)；

所述通道交叉注意力层(CCA)包括：

定义输入载体图像和秘密图像分别表示为M和N；

对M和N分别进行LN操作获得归一化后的张量；

使用1×1的普通卷积和3×3的深度卷积升维来对通道级上下文进行建模；

通过M和N生成Q_N，K_M和V_M矩阵，过程表示如下：

其中，Q_N由N生成，K_M和V_M由M生成，将Q_N和K_M点乘进行特征交互，并使用Softmax激活函数后获得K_M和Q_N之间的相关性权重矩阵；将相关性权重矩阵与载体图像的V_M相乘，得到经过交叉修正后的载体图像特征；

通过通道交叉注意力层(CCA)捕捉秘密图像和载体图像之间的相关性，并在此基础上对载体图像的特征进行交叉修正，为秘密信息的嵌入提供更好的支持，其数学表达式为：

其中，将秘密图像的Q_N与载体图像的K_M和V_M进行交叉注意力的计算，获得了秘密图像的Q_N与载体图像的K_M的相关性，以此来调整载体图像的特征图，并给与更适合嵌入信息的位置更大的权重。

第二非线性增强层(NLE)与第一非线性增强层(NLE)结构相同。

作为本发明所述的基于Transformer的图像信息隐藏方法的优选方案，其中：对所述生成子网络、所述鉴别子网络和所述提取子网络进行联合训练，最小化总损失包括：

总损失包括隐藏损失、提取损失、结构相似性损失和对抗损失；

隐藏损失数学表达式为：

其中，L_mc表示隐藏损失，x_t＝f_G(x_c,x_s；θ_G),θ表示要学习的网络参数，θ＝{W_i,b_i}通过反向传播算法迫使网络不断优化学习，N表示训练样本数，l_m表示隐写图像x_t和作为ground-truth的载体图像x_c之间的均方误差，其数学表达式为：

其中，∥·∥₂表示L2范数；

提取过程的目的是从x_t中准确的提取出x_rs，需要x_s和x_rs尽可能的相同，提取损失的数学表达式为：

其中，L_ms表示提取损失，x_rs＝f_E(x_t；θ_E),表示提取的秘密信息，使用l_m来测量作为ground-truth的秘密图像x_s和x_rs之间的差异；

结构相似度损失用于衡量x_c/x_t和x_s/x_rs图像对之间的结构性差异，其数学表达式为：

使用l_s测量x_c和x_t之间的结构性差异值以及x_s和x_rs之间的结构性差异值，l_s定义如下：

其中，μ表示均值，σ表示标准差，σ_xy表示X和Y的协方差，C₁和C₂表示常数，在训练过程中，会不断最小化损失L_sc和L_ss，这个过程相当于最大化结构相似度SSIM的值；

定义散度值D_KL趋近于0，对抗损失的数学表达式为：

L_adv＝log(f_D(x_c))+log(1-f_D(f_G(x_c,x_s))).

总损失函数L_total是隐藏损失L_mc、提取损失L_ms、结构相似性损失L_sc和L_ss以及对抗损失L_adv的加权和，其数学表达式为：

L_total＝αL_mc+βL_ms+ηL_sc+λL_ss+γL_adv,

其中，α，β，η，λ，γ表示不同损失项的权重系数。

本发明的有益效果：通道自注意力模块CSAB，通过计算通道维度上的自注意力建立通道关系，从而更关注有利于信息隐藏的特征通道，同时获得了更好的全局建模能力。并且通过对CSAB模块中NLE层的设计，增强了有利于信息隐藏的特征权重并抑制了不利的特征；通过NLE层来控制网络中的信息流动。通道交叉注意力模块CCAB，通过发挥Transformer有效建模不同对象之间相互关系的优势，来计算载体图像与秘密图像之间的相关性，从而获得了更加适合隐藏秘密信息的载体图像特征，提升了图像质量。

通过对载体图像和隐写图像进行区分的迭代训练，生成子网络生成尽可能接近真实分布的图像，而鉴别子网络不断提高对真实和生成图像的分类能力，二者对抗训练不断增强各自的性能，使生成子网络能够生成接近于载体图像的隐写图像，而鉴别子网络则无法判别该图是否为隐写图像，提高隐藏效果。

附图说明

图1为本发明一个实施例提供的基于Transformer的图像信息隐藏方法的基本流程示意图。

图2为本发明一个实施例提供的基于Transformer的图像信息隐藏方法的生成子网络、提取子网络和鉴别子网络的结构示意图。

图3为本发明一个实施例提供的基于Transformer的图像信息隐藏方法的CTA层结构示意图。

图4为本发明一个实施例提供的基于Transformer的图像信息隐藏方法的NLE层结构示意图。

图5为本发明一个实施例提供的基于Transformer的图像信息隐藏方法的CCA层结构示意图。

图6为本发明一个实施例提供的基于Transformer的图像信息隐藏方法的不同方法隐藏和提取效果的视觉比较示意图。

图7为本发明一个实施例提供的基于Transformer的图像信息隐藏方法中的直方图比较示意图，其中(a)-(c)表示由CCAFormer方法获得的载体图像与隐写图像之间的R、G、B三通道以及全通道之间的直方图比较示意图，(d)-(f)表示由CCAFormer方法获得的秘密图像和提取的秘密图像之间的R、G、B三通道以及全通道之间的直方图比较示意图。

图8为本发明一个实施例提供的基于Transformer的图像信息隐藏方法的不同通道注意力的视觉比较示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。

实施例1

参照图1至图4，为本发明的一个实施例，提供了基于Transformer的图像信息隐藏方法，包括：

S1：通过生成子网络将秘密图像隐藏到载体图像中，获得隐写图像包括：

通过生成子网络将秘密图像隐藏到载体图像中，获得隐写图像包括：

通过CSAB模块，来充分发挥Transformer的全局上下文建模能力，从而赋予适合信息隐藏的特征通道更大的权重；

通过CCAB模块，来利用Transformer有效建模不同对象之间相互关系的优势，计算载体图像与秘密图像之间的相关性，从而通过调整获得适合信息隐藏的载体图像特征；

通过对Transformer长距离依赖关系建模的能力的运用，使特征融合过程能够更加准确的将秘密信息嵌入到适合隐藏的位置。

所述ConvLNReLU模块包括卷积核大小为3，步幅为1，填充为1的带偏置卷积层、层归一化层和斜率为0.01的LeakyReLU激活函数。

将彩色图像作为载体图像和秘密图像，其数学表达式为：

x_c,x_s∈B^C×H×W

x_t＝f_G(x_c,x_s；θ_G),

S2：提取子网络从所述隐写图像中提取出秘密信息包括：

使用CSAB模块来发挥Transformer模型对全局通道建模的优势，使得网络能够关注到隐写图像特征通道中更有可能隐藏更多秘密信息的特征通道，给其分配更大的权重，以此增强对隐藏信息的敏感度和区分度；

CSAB是基于通道注意力的Transformer模块，其相比于普通卷积的通道注意力具有更好的全局建模能力，能够关注到不同通道之间的相关性。

x_rs＝f_E(x_t；θ_E),

其中，x_rs表示秘密信息，f_E(·)表示提取子网络映射函数，θ_E表示提取子网络的网络参数。

S3：鉴别子网络对载体图像和隐写图像进行区分包括：

判断过程的数学表达式为：

x∈{x_c,x_t}

P＝f_D(x；θ_D)，

若P≥q，则输入图像x为隐写图像；

若P<q，则输入图像x为载体图像。

所述CSAB模块包括通道转置注意层(CTA)和第一非线性增强层(NLE)；

通道转置注意层(CTA)包括：

定义特征图为输入；

经过归一化层后获得标准化后的张量

本实施例中用的是层归一化，对一个所有特征通道进行归一化。具体是要计算均值和方差后通过归一化的公式获得(每个数值减均值除标准差)。

使用卷积核为1×1的卷积进行通道升维；

聚合像素级别和跨通道的上下文信息；

使用卷积核为3×3的深度卷积来对通道级上下文进行建模；

将转置通道注意力图经过Softmax函数后得到注意力权重矩阵，转置通道注意力图经过Softmax函数的具体过程为：

e的x次(x表示矩阵每个位置的值)除以矩阵所有位置上e的x次的总和；

将注意力权重矩阵点乘V矩阵得到加权后的注意力特征表示；

其中Att(·)定义为：

Att(Q_s,K_s,V_s)＝V_s·Softmax(K_s·Q_s/α),

第一非线性增强层(NLE)包括：

其中NLE(·)定义为：

其中，⊙表示逐元素乘法，φ表示GELU非线性激活函数，LN表示归一化层。

所述CCAB模块包括通道交叉注意力层(CCA)层和第二非线性增强层(NLE)；

所述通道交叉注意力层(CCA)包括：

定义输入载体图像和秘密图像分别表示为M和N；

对M和N分别进行LN操作获得归一化后的张量；

这里用的是层归一化，对一个批次中的所有特征通道进行归一化。具体是要计算均值和方差后通过归一化的公式获得(每个数值减均值除标准差)。

通过M和N生成Q_N，K_M和V_M矩阵，过程表示如下：

其中，将秘密图像的Q_N与载体图像的K_M和V_M进行交叉注意力的计算，获得了秘密图像的Q_N与载体图像的K_M的相关性，调整载体图像的特征图，并给与更适合嵌入信息的位置更大的权重。

第二非线性增强层(NLE)与第一非线性增强层(NLE)结构相同。

S4：对所述生成子网络、鉴别子网络和所述提取子网络进行联合训练，最小化总损失：

隐藏损失数学表达式为：

其中，∥·∥₂表示L2范数；

定义散度值D_KL趋近于0，对抗损失的数学表达式为：

L_adv＝log(f_D(x_c))+log(1-f_D(f_G(x_c,x_s))).

L_total＝αL_mc+βL_ms+ηL_sc+λL_ss+γL_adv,

其中，α，β，η，λ，γ表示不同损失项的权重系数。

实施例2

为本发明另一个实施例，该实施例不同于第一个实施例的是。给出了生成子网络和提取子网络进行联合训练的训练过程，其具体算法如下：

实施例3

为本发明另一个实施例，该实施例不同于第一个实施例的是，提供了基于Transformer的图像信息隐藏方法的实验验证，为对本方法中采用的技术效果加以验证说明，本实施例采用传统技术方案与本发明方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

对于网络训练，采用从COCO数据集中随机采样的20000张图像来训练CCAFormer，并使用8000张图片进行验证。测试集包括COCO中的8000张图像，ImageNet中的8000张图像和DIV2K中的100张测试图像。训练图像、验证图像和测试图像分辨率都为128×128，以确保载体图像和秘密图像具有相同的分辨率。网络总共迭代200轮，参数α，β，η，λ和γ分别设置为4，10，0.02，0.01和0.0001。每个批量大小设置为12，其中随机抽取二分之一作为载体图像，剩余二分之一作为秘密图像。采用了标准参数的Adam优化器，初始学习率为1×10^-3每迭代80轮，学习率乘以衰减因子0.1。最后，在8000张图像的测试集上，对性能最佳的模型进行评估。

本方法在Pytorch平台上进行实现，应用程序则使用PyCharm 2022.3进行仿真实验。本方法中所有基于深度学习的程序，包括比较算法和隐写分析网络，都是在NVIDIAGeforce RTX 3090GPU(显存：24GB)上运行的。

为了评估该方法的优越性，本方法与传统的图像隐藏算法LSB进行了比较。此外，并且与其他基于深度学习的方法进行了比较，包括HiDDeN，Weng et al.，Baluja，MISDNN，ISN，HiNet和DeepMIH。对于Weng et al.，MISDNN，HiNet和DeepMIH采用官方发布的代码。

采用四个指标来衡量x_c/x_t和x_s/x_rs图像对的质量，包括均方根误差(RMSE)、峰值信噪比(PSNR)、平均绝对误差(MAE)和结构相似性(SSIM)，其公式如下：

RMSE：均方根误差(RMSE)是用来衡量两幅图像对应像素点之间差异的指标。其在数值上等于均方误差(MSE)开根号，给定尺寸为C×H×W的无失真彩色图像X和相同尺寸的失真彩色图像Y，将MSE定义为：

其中，X_i,j,k和Y_i,j,k分别表示X，Y图像中位置为(i,j,k)处的像素值。由此可以很容易的得到RMSE的定义：

PSNR：峰值信噪比(PSNR)是广泛用于衡量图像质量的指标。它是通过均方误差来定义的，根据MSE的定义可以得到PSNR为：

其中，MAX＝2ⁿ-1，表示的是图像像素中的最大值，在真彩色图像中通常使用n＝8位来表示一个像素，那么此时MAX的值为255。

MAE：平均绝对误差(MAE)测量的是两幅图像相应元素之间的绝对误差，其公式为：

SSIM：结构相似性(SSIM)是基于人类视觉系统(HVS)的指标。该指标通过比较无失真图像和失真图像之间的亮度l、对比度c和结构s的相似度来综合评估图像的质量。l，c，s可以分别定义为：

/>

其中，μ_X，μ_Y分别代表图像X，Y的平均值，σ_X，σ_Y分别代表图像X，Y的标准差，σ_Xσ_Y表示图像X和Y的协方差，而C₁，C₂和C₃为常数。SSIM的公式定义为：

SSIM(X,Y)＝[l(X,Y)]^a1·[c(X,Y)]^a2·[s(X,Y)]^a3.

在实际的工程计算过程中，一般取a1＝a2＝a3＝1，C₃＝C₂/2。因此公式可以简化为：

其中，C₁＝(k₁L)²和C₂＝(k₂L)²是用来避免分母为零而导致错误的常数项。其中，L＝2n-1，代表像素值的动态取值范围。按经验值常取k₁＝0.01，k₂＝0.03。

PSNR，SSIM越大，MAE，RMSE越小，图像质量越高。

安全性评估主要考虑两个方面：一是嵌入的秘密信息不被外部恶意势力检测并获取；二是嵌入的秘密信息不影响载体图像的正常使用。因此，可以通过其抗隐写分析能力来评价隐写图像的安全性，它主要受到隐写算法、嵌入数据量以及隐写分析技术等因素的影响，本方法使用隐写分析来进行隐写图像安全性的衡量。

检测精度P_F是评价隐写分析方法的重要指标，它可以评估隐写图像和载体图像的区分度和准确性，能够用来表征安全性。它是分类正确的样本数占总样本数的比例，即正例预测为正例的真正率(True Positive,TP)和把反例预测为反例的真假率(True Positive,TN)的总和占总样本数的比例，关系表达式为：

检测精度越接近随机猜测，表明模型的抗隐写分析能力越强，当准确率为50％时，隐写分析器完全无法区分隐写图像和载体图像，模型具有较高的安全性。

容量是隐写算法中的一个重要指标，通常以比特每像素(bpp)的形式表示。隐写容量是指在保证隐写安全性的情况下，能够安全、可靠的传输信息的理论极大值。因此，通过比较隐写容量，可以衡量隐写算法在载体图像中嵌入秘密信息的性能和效率。隐写容量的大小不一定能够说明隐写图像和嵌入算法的好坏，但可以一定程度上反映嵌入算法嵌入秘密信息的有效性和隐蔽性。因此，在隐写算法评估中，隐写容量可以作为比较不同算法和技术的一个重要指标。这不仅要求极高的隐写图像质量，并且能够具有较强的抗隐写分析能力，同时也要求能够可靠的进行秘密信息的提取，因此使用容量来衡量模型的整体效果是合理的。容量的计算公式如下：

其中，C表示通道数，H和W分别表示图像的高度和宽度，N表示每个像素所需要的比特位数，在RGB图片格式下通常取N为8。

信息隐藏是将秘密信息隐藏在载体图像的冗余信息中，通过传输载体图像的方式来传递秘密信息，从而会牺牲一定的信息传输效率来获得对秘密消息的保护。通常情况下，隐藏容量与安全性是相互矛盾的。较小的容量对于图像所产生的失真较小，能够获得较高的安全性。因此，需要在保证安全性的前提下尽可能的提高隐藏的容量以提升信息隐藏的效率。

实施例4

参照图5至图8，为本发明另一个实施例，该实施例不同于第一个实施例的是。

将CCAFormer方法的图像质量效果与其他对比方法在COCO，ImageNet，DIV2K数据集上的PSNR，SSIM，MAE和RMSE上进行了数值比较。从表中可以看到，本方法的CCAFormer在x_c/x_t图像对和x_s/x_rs图像对的四个指标上均明显优于其他方法。具体来说，在PSNR方面，本方法的x_c/x_t图像对比次优的方法在COCO，ImageNet，DIV2K数据集上分别提高了2.46dB，2.48dB和1.88dB，并在x_s/x_rs图像对上分别提高了0.45dB，0.24dB和0.25dB。在SSIM方面，本方法的x_c/x_t图像对比次优的方法在COCO，ImageNet，DIV2K数据集上分别提高了0.0104，0.0108和0.0101，在x_s/x_rs图像对上分别提高了0.0036，0.0033和0.0035。同样的，本方法在MAE和RMSE指标上也具有类似的优越性。与基于深度学习的HiDDeN，Weng et al.，Baluja，MISDNN，ISN，HiNet和DeepMIH方法相比，本方法取得了明显更好的效果。并且值得一提的是，本方法的CCAFormer在提高隐写图像质量的同时，兼顾了提取图像的质量。

参照图7，展示了不同的基于Transformer的图像信息隐藏方法的可视化效果。对于HiDDeN和Baluja，可以在隐写图像和残差图中看到存在明显的纹理伪影，在平滑区域中尤为明显。对于Weng et al.，MISDNN和ISN，可以看到有较多的信息被嵌入了平滑的区域，特别是Weng et al.，导致了颜色偏差以及边缘模糊，这使得图片看起来不自然。对于HiNet，信息几乎被嵌入了边缘区域，但仍能够看到较为清晰的纹理伪影。对于DeepMIH，虽然在隐写图像中几乎察觉不到纹理以及颜色的变化，但是在残差图中还是能够看到轻微的纹理伪影。与这些方法相比本方法的CCAFormer方法生成的隐写图像与载体图像几乎无法区分，不存在任何的纹理伪影以及颜色偏差等问题。这些结果验证了本方法在图像隐藏方面相较于比较方法的优越性。

对于秘密图像的提取，图7可视化了CCAFormer方法和其他比较方法提取出的秘密图像，以及提取的秘密图像与原始秘密图像之间的残差图。如该图所示，对于HiDDeN，提取的图像颜色差异的范围较大。对于Baluja，Weng etal.，MISDNN和ISN，提取的图像在平坦区域存在不规则的噪声。对于DeepMIH，存在一些模糊区域和纹理失真。对于HiNet，错误的提取了载体图像中的一些内容。与这些方法相比，CCAFormer方法提取出的秘密图像更加的干净和准确，哪怕是在增强10倍的残差图中，提取的差异也几乎可以忽略不计，这验证了本方法在秘密信息提取方面的准确性

不同方法隐藏和提取效果的视觉比较。括号中的值是PSNR/SSIM值。每一列表示一个对比算法，其中GT表示Ground Truth。第一行表示针对不同方法得到的隐写图像。第二行展示了载体图像和隐写图像(增强10倍)之间的残差。第三行表示针对不同方法提取出的秘密图像。第四行展示了秘密图像和提取的秘密图像(增强10倍)之间的残差。

尽管只在COCO数据集上进行了训练，但是它能够在ImageNet和DIV2K数据集上提供了同样出色的效果，如表1和表2所示。这表明了本方法具有良好的泛化能力，这在实际应用中具有重要的意义。

表1：模型隐藏能力在不同数据集基准上的比较表。

其中，↑代表数值越高效果越好，反之↓表示数值越低效果越好。

表2：模型提取能力在不同数据集基准上的比较表。

图8为使用不同通道注意力的视觉比较。对于每个通道注意力方法，第一行显示了载体图像和待嵌入的秘密图像，第二行显示了通过各个通道注意力后获得的隐写图像，第三行显示了隐写图像和载体图像的残差图Diff1(增强了20倍)，第四行显示了提取出的秘密图像，第五行显示了原始秘密图像和提取的秘密图像之间的残差Diff2(增强了20倍).

表3：在COCO数据集上使用不同通道注意力模块的性能比较表。

其中，SE*表示使用全局平均池化。

表4：在COCO数据集上使用和不使用CCAB模块处理的性能比较表。

表5：在COCO数据集上进行和不进行预处理的性能比较表。

表6：在COCO数据集上采用ConvBNReLU模块和采用ConvLNReLU模块的性能比较表。

表7：在COCO数据集上采用和不采用长距离跳跃连接的性能比较表。

表8：GAN损失和SSIM损失函数的消融表。

使用CSAB模块在x_c/x_t图像对质量上相比于次优的SK注意力方法在PSNR指标上提高了4.33dB，在x_s/x_rs图像对质量上相比于次优的ECA注意力方法PSNR提高了7.26dB。为了更加直观的显示，在图8中展示了使用不同通道注意力后模型隐藏和提取的效果，对于使用SE，SE*，ECA的方法可以在残差图Diff1中观察到明显的纹理伪影，特别是在平滑的区域上。在残差图Diff2中可以看到使用SK方法提取的秘密图像与原始秘密图像产生了较大的误差。与这些通道注意力相比，使用了CSAB模块生成的隐写图像将秘密信息自适应的嵌入了图像中的边缘和纹理区域。并且提取出的秘密信息与原始秘密信息之间的几乎没有差异。消融实验充分证明了本方法将基于通道注意力的Transformer技术引入图像隐藏领域后显示出的优越性。

Effectiveness ofCCAB.传统的卷积和通道自注意力机制只考虑图像内部的特征关系，而CCAB模块设计的目的是进行载体图像和秘密图像之间的信息交互，从而找到载体图像中更适合信息嵌入的特征。如表6所示，可以明显看出CCAB模块对于提高本方法的性能具有重要作用。具体而言，经过CCAB模块后，x_c/x_t和x_s/x_rs图像对的PSNR分别提高了2.53dB和6.63dB，SSIM分别提高了0.0043和0.0183，MAE分别降低了0.31和1.26，RMSE分别降低了0.62和1.91。总体而言，实验结果表明CCAB模块对于本方法的性能提升具有明显的帮助。

Effectiveness ofPreprocessing Network.对载体图像和秘密图像进行特征预处理是为了提取图像中的有用信息，如灰度、颜色、纹理等，同时去除噪声和冗余信息，以便在隐藏过程中更好地嵌入秘密信息。在表7中，分别讨论了对载体图像和秘密图像进行预处理的四种情况，可以看出只对载体图像和秘密图像进行简单的拼接，都不进行预处理的情况下，网络完全无法提取出秘密信息。可能的原因是，直接的隐藏过程引入了原始图像中的噪声和冗余信息，干扰了提取的过程，从而无法提取出正确的特征。进一步的，分别只对载体图像和秘密图像进行了预处理。可以看出，虽然隐藏的性能没有太多的下降，但是提取的性能相比于都进行预处理的情况，PSNR分别下降了2.84dB和5.89dB，SSIM分别下降了0.0054和0.0150，同样的在RMSE，MAE指标上效果也有所降低。这进一步证明了对载体图像和秘密图像都进行预处理操作有益于提高网络的隐藏和提取性能。

Effectiveness ofLayerNormalization.在网络模型中，选择了层归一化LayerNormalization(LN)作为卷积后续处理的归一化方式，而不是通常会优先考虑的批量归一化Batch Normalization(BN)。因为BN是在批方向上对整个批次进行标准化，这可能对小的批大小造成一定的影响，而LN是在每个样本的每个特征维度，即通道上进行标准化，与批大小无关。此外，由于本方法的CSAB和CCAB模块中使用的也是LN的标准化方式，因此混用BN和LN可能会引入噪声而影响到网络性能，并且两种方法的原理不同，混用后会破坏原有的归一化效果。因此，在整个网络中统一采用LN的归一化方式，避免混用BN和LN带来的不必要的错误。最终的消融实验证明了混用LN和BN对网络性能的影响非常大，如表8所示。在实验中，当用BN替换LN时，x_c/x_t图像对的PSNR和SSIM值分别下降了3.92dB和0.0125。x_s/x_rs图像对的PSNR和SSIM值分别下降了8.6dB和0.0295，同样的MAE和RMSE指标效果也有所下降。最终实验证明了，LN已经包含了BN的作用，因此采用LN更为合适。

Effectiveness ofLong-range Skip Connections.为了能够更好地保留原始载体图像的信息，采用了将原始载体图像和特征融合后的特征图进行通道维度的拼接方法。这种方法可以将原始载体图像的三个通道与特征图进行连接，从而得到一个包含原始载体图像和特征图像所有信息的矩阵。通过在模型中加入远距离的跳跃连接，发现可以极大地提高模型的性能。效果如表9所展示，在x_c/x_t图像对上，本方法经过远距离跳跃连接后，PSNR指标提高了9.76dB，SSIM提高了0.0140，MAE和RMSE分别降低了2.93和4.19。在x_s/x_rs图像对上，PSNR指标提高了6.14dB，SSIM提高了0.0153，MAE和RMSE分别降低了1.18和1.72。这进一步证明了将原始载体图像和融合后特征图进行拼接后再输出对于网络性能提升的有效性。

Effectiveness ofthe SSIM Loss and GAN Loss.由表10可以看出，使用SSIM损失后，x_c/x_t图像对的PSNR提高了2.42dB，x_s/x_rs图像对的PSNR提高了2.37dB。使用GAN损失后，x_c/x_t图像对的PSNR提高了2.41dB，x_s/x_rs图像对的PSNR提高了0.68dB。同时使用SSIM损失和GAN损失后，x_c/x_t图像对的PSNR提高了3.05dB，x_s/x_rs图像对的PSNR提高了1.61dB。证明了使用SSIM损失与GAN损失的有效性。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于Transformer的图像信息隐藏方法，其特征在于，包括：

通过生成子网络将秘密图像隐藏到载体图像中，获得隐写图像；

提取子网络从所述隐写图像中提取出秘密信息；

鉴别子网络对载体图像和隐写图像进行区分；

对所述生成子网络、所述鉴别子网络和所述提取子网络进行联合训练，最小化总损失。

2.如权利要求1所述的基于Transformer的图像信息隐藏方法，其特征在于，

通过特征融合过程将秘密信息嵌入到隐藏的位置；

通过通道降维，获得隐写图像。

3.如权利要求2所述的基于Transformer的图像信息隐藏方法，其特征在于，包括：

4.如权利要求3所述的基于Transformer的图像信息隐藏方法，其特征在于，包括：

将彩色图像作为载体图像和秘密图像，其数学表达式为：

x_c,x_s∈B^C×H×W

x_t＝f_G(x_c,x_s；θ_G),

5.如权利要求4所述的基于Transformer的图像信息隐藏方法，其特征在于，

提取子网络从所述隐写图像中提取出秘密信息包括：

使用CSAB模块发挥Transformer模型对全局通道建模的优势，使得网络关注到隐写图像特征通道中更有可能隐藏更多秘密信息的特征通道，给其分配更大的权重，以此增强对隐藏信息的敏感度和区分度；

x_rs＝f_E(x_t；θ_E),

6.如权利要求5所述的基于Transformer的图像信息隐藏方法，其特征在于，

鉴别子网络对载体图像和隐写图像进行区分包括：

判断过程的数学表达式为：

x∈{x_c,x_t}

P＝f_D(x；θ_D)，

若P≥q，则输入图像x为隐写图像；

若P<q，则输入图像x为载体图像。

7.如权利要求6所述的基于Transformer的图像信息隐藏方法，其特征在于，包括：

通道转置注意层(CTA)包括：

定义特征图为输入；

经过归一化层后获得标准化后的张量

使用卷积核为1×1的卷积进行通道升维；

聚合像素级别和跨通道的上下文信息；

使用卷积核为3×3的深度卷积来对通道级上下文进行建模；

其中Att(·)定义为：

Att(Q_s,K_s,V_s)＝V_s·Softmax(K_s·Q_s/α),

8.如权利要求7所述的基于Transformer的图像信息隐藏方法，其特征在于，包括：

第一非线性增强层(NLE)包括：

其中NLE(·)定义为：

9.如权利要求8所述的基于Transformer的图像信息隐藏方法，其特征在于，包括：

所述通道交叉注意力层(CCA)包括：

定义输入载体图像和秘密图像分别表示为M和N；

对M和N分别进行LN操作获得归一化后的张量；

通过M和N生成Q_N，K_M和V_M矩阵，过程表示如下：

其中，Q_N由N生成，K_M和V_M由M生成，将Q_N和K_M点乘进行特征交互，并使用Softmax激活函数后获得K_M和Q_N之间的相关性权重矩阵；

将相关性权重矩阵与载体图像的V_M相乘，得到经过交叉修正后的载体图像特征；

第二非线性增强层(NLE)与第一非线性增强层(NLE)结构相同。

10.如权利要求9所述的基于Transformer的图像信息隐藏方法，其特征在于，对所述生成子网络、所述鉴别子网络和所述提取子网络进行联合训练，最小化总损失包括：

隐藏损失数学表达式为：

其中，L_mc表示隐藏损失，x_t＝f_G(x_c,x_s；θ_G),θ表示要学习的网络参数，θ＝{W_i,b_i}通过反向传播算法迫使网络不断优化学习，N表示训练样本数，表示隐写图像x_t和作为ground-truth的载体图像x_c之间的均方误差，其数学表达式为：

其中，∥·∥₂表示L2范数；

其中，L_ms表示提取损失，x_rs＝f_E(x_t；θ_E)表示提取的秘密信息，使用来测量作为ground-truth的秘密图像x_s和x_rs之间的差异；

使用测量x_c和x_t之间的结构性差异值以及x_s和x_rs之间的结构性差异值，/>定义如下：

对抗损失的数学表达式为：

L_adv＝log(f_D(x_c))+log(1-f_D(f_G(x_c,x_s))).

L_total＝αL_mc+βL_ms+ηL_sc+λL_ss+γL_adv,

其中，α，β，η，λ，γ表示不同损失项的权重系数。