CN117057969B

CN117057969B - 跨模态图像-水印联合生成与检测装置及方法

Info

Publication number: CN117057969B
Application number: CN202311085662.9A
Authority: CN
Inventors: 刘安安; 张国楷; 王岚君; 徐宁; 苏育挺; 张勇东
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2024-04-19
Anticipated expiration: 2043-08-28
Also published as: CN117057969A

Abstract

本发明公开了一种跨模态图像‑水印联合生成与检测装置及方法，装置包括：多模态编码器，图像‑水印特征共嵌模块，图像‑水印特征融合模块，上采样生成器，非平衡博弈解耦模块，利用非平衡博弈理论和香农信息论制定解耦策略，通过两个解码器将复合图像解析成无水印图像和重建水印；策略分配模块，用于设置图像鉴别器，采用多规格的下采样卷积核提取复合图像特征，设置目标函数约束水印和无水印图像的重建；后处理攻击模块，用于模拟针对复合图像的后处理攻击，验证水印的鲁棒性。

Description

跨模态图像-水印联合生成与检测装置及方法

技术领域

本发明涉及视觉生成内容溯源领域，尤其涉及一种跨模态图像-水印联合生成与检测装置及方法。

背景技术

艺术、广告等设计领域对个性化和定制化的创作需求不断增长，导致了大量人工智能生成内容(Artificial Intelligence Generated Content，AIGC)平台的涌现。得益于现有的文本到图像(Text-to-image，T2I)生成模型，用户能够绘制出与专业摄影和大师杰作相媲美的画作。合成图像的逼真程度已经超出人类对其真实性的辨识能力。为了保障生成内容的安全性和可靠性，通过在未来产品的生成图像中集成不可见但可识别的水印，来开发安全、可靠和有价值的人工智能技术。此外，可以预见更合理的监管措施将陆续提出，以保障文本到图像生成技术的安全性。

在当前生成图像泛滥的背景下，亟需一种新颖的联合文生图和水印嵌入的技术手段，即将携带创作相关元数据的水印隐藏在生成图像中，图像经由传播后，可从中提取水印信号来追踪图像的来源和真实性，以缓解虚假信息传播等安全问题，增加生成内容的可信度和可靠性。

尽管当前文本到图像生成和数字水印分别取得了一定进展，但是难以满足当前的应用需求。作为视觉内容生成的代表性领域，文生图旨在依据文本字符描述视觉要素，来生成高质量的逼真图像。当前基于生成对抗性网络(Generative Adversarial Network，GAN)的方法已经在文生图任务中展现了强大的生成能力，它由合成图像的生成器和评估图像真实性的鉴别器组成，以确保合成图像分布拟合真实数据分布。其具有训练成本低，可扩展性强以及推理速度快的优势，能够适用于多种算力平台。然而，文本到图像生成仍难以弥合单词-像素的跨模态鸿沟，且无法实现生成图像的可追溯。而数字水印技术旨在将数字水印嵌入到图像中，在减少对图像的扰动情况下保证水印的隐蔽性，但仍存在无法实现嵌入多样化信息和应对后处理攻击鲁棒性差的问题。目前，文本到图像生成具有广阔的市场前景，若保障其安全性和可靠性，则需要来弥合以上缺陷来设计适应文生图特性的水印嵌入范式。

考虑到以上现存技术难点，有必要从文本联合生成图像和水印，这面临更加严峻的挑战，然而目前并未存在技术方案。其基本范式为，创作元数据被映射为数字水印，将其隐藏在生成的图像中，并在接收端能够重建出水印，以实现生成图像的可追溯性、隐私保护和其他安全相关目的。因此，文本到图像及水印联合跨模态生成系统需要考虑以下因素：复合图像的像素需同时具备文本语义和水印信号，两者互相兼容，保证图像的高质量；在生成图像具备良好视觉效果的同时，确保水印的隐蔽性；即使应对各种后处理攻击，隐藏的水印仍然可以从复合图像中充分重建，保证水印的鲁棒性；该系统还有望隐藏和重建具有多样化数据的数字水印，保证对多样化水印信号的适应性。通过数字水印的隐蔽嵌入和无损重建来保障生成图像的可靠性和安全性，以实现对视觉生成内容的有效监管。

综上所述，作为对文生图的技术补充，目前跨模态图像-水印联合生成与检测主要存在两个挑战：

(1)当前生成式人工智能平台大量涌现，其合成图像的真实性超过人类的辨识能力。由于创作门槛较低，一般用户可以根据各种目的输入文本进行创作，导致多样化生成内容剧增，其中掺杂了大量有害或伪造信息。然而，目前缺乏文本到图像生成的监管技术手段，难以对有害图像进行溯源。基于这一应用需求，推动文本到图像生成朝着更安全、可靠的生成范式发展变得迫在眉睫。

(2)此外，尽管文生图和数字水印都取得一定研究进展，但是难以满足当前的溯源应用需求。文生图技术存在难以弥合单词-像素的跨模态鸿沟，且无法实现生成图像的可追溯。而数字水印技术存在无法实现嵌入多样化信息和应对后处理攻击的鲁棒性的问题。故联合文生图和数字水印技术面临巨大挑战，并且亟需实现端到端的携带盲水印的图像生成。

综上，文本到图像及水印联合生成与检测目前仍未被关注和探究，该技术需要同时兼顾图像质量、水印不可感知性、水印鲁棒性以及多样化水印的适应性。

发明内容

本发明提供了一种跨模态图像-水印联合生成与检测装置及方法，本发明将数字水印信号嵌入整合到文本到图像生成过程中，以获取携带盲水印的复合图像，并且在经过外部后处理攻击之后，水印仍能进行高质量重建，达到溯源和保护目的，实现对视觉生成式人工智能的有效监管，保障生成技术的可靠性和安全性，详见下文描述：

第一部分、一种跨模态图像-水印联合生成与检测装置，所述装置包括：

图像-水印特征共嵌模块，利用可学习参数矩阵将原始图像特征及水印特征映射到统一的特征空间中；

图像-水印特征融合模块，用于将水印特征和原始图像特征进行通道层级融合获取水印图像融合特征，并多次级联原始图像特征；

上采样生成器，用于将水印图像融合特征映射为像素点，获取预设分辨率的复合图像；

非平衡博弈解耦模块，利用非平衡博弈理论和香农信息论制定解耦策略，通过两个解码器对复合图像的信息进行分配，以解耦成无水印图像和重建水印；

策略分配模块，用于设定复合图像、原始图像以及数字水印的目标函数，即设置图像鉴别器，采用多规格的下采样卷积核提取复合图像特征，以约束图文语义一致性和保真度，同时设置目标策略约束水印和无水印图像重建；

后处理攻击模块，用于模拟针对复合图像的后处理攻击，验证水印的鲁棒性。

第二部分、一种跨模态图像-水印联合生成与检测方法，所述方法包括：

通过图像-水印特征共嵌矩阵实现图像与水印的特征兼容；利用图像-水印特征融合在通道层级融合水印与图像特征；

通过上采样生成器合成携带不可见水印的高分辨率复合图像；基于非平衡博弈理论解耦无水印图像和重建水印；

利用策略分配对复合图像、无水印图像以及重建水印进行约束；通过后处理攻击对复合图像进行攻击；判断图像及水印的嵌入及解析效果。

第三部分、一种跨模态图像-水印联合生成与检测装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第二部分中的方法。

第四部分、一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第二部分中的方法。

本发明提供的技术方案的有益效果是：

(1)为了应对当前生成图像难以被溯源和监管的安全性问题，本发明联合文生图和数字水印嵌入提出一类新型的技术手段，通过将携带多样化元数据的数字水印集成到生成图像中，以实现可追溯性、隐私保护和其他安全目的；本发明提出的框架易推广到基于生成对抗网络的文本到图像模型，实现水印信号的隐藏和重建，本方案具备强泛化性；

(2)本发明提供了一个文本到图像生成和水印嵌入的联合框架，通过图像-水印特征融合模块能够在不影响图像生成质量的情况下将水印嵌入到图像特征中，并且客观上达到了隐藏水印信号的目的，是一种具备强隐蔽性的水印编码方式；

(3)本发明提出一种利用香农信息论和非合作博弈理论对复合图像进行水印和图像解耦的方法，并且达到了图像高质量和水印不可见之间的权衡，实现了水印重建的可靠性；

(4)本发明在训练中模拟后处理攻击以获得鲁棒的编码器-解码器参数，在不同强度的常见攻击下仍然能够重建出高质量水印，实现水印的强鲁棒性。

(5)本发明针对联合文生图和数字水印技术，提出一套评估系统，从图像质量、水印隐蔽性、水印重建质量和水印鲁棒性等方面进行全面化评估。

附图说明

图1为一种跨模态图像-水印联合生成与检测装置的架构图；

图2为一种跨模态图像-水印联合生成与检测装置的网络框架示意图；

图3为一种跨模态图像-水印联合生成与检测方法的流程图；

图4为生成图像的案例展示图；

图5为多种后处理攻击下水印解析效果的案例展示图；

图6为多种后处理攻击下水印解析的性能量化的对比效果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种跨模态图像-水印联合生成与检测装置，参见图1-图2，该装置包括：

一、多模态编码器，用于利用预训练自然语言编码模型、多层感知机以及视觉编码模型对输入文本、噪声采样以及数字水印进行特征提取，获取其特征表示，继而利用文本特征和噪声特征通过仿射变换得到原始图像特征。

具体地，该多模态编码器进一步包括：

1)BiLSTM上下文感知编码单元，用于利用预训练长短期记忆网络对词嵌入特征进行序列化编码，使文本特征具备上下文感知信息，得到句子层级嵌入表示。

将文本特征序列化地送入到BiLSTM中进行双向编码，获取整个句子的隐状态作为上下文感知特征，其中L₁表示句向量长度。

2)多层感知机噪声编码单元，用于利用多层感知机网络将从标准高斯分布随机采样得到的噪声映射为特征向量，以增加生成图像的多样性。

将从标准高斯分布N(0,1)随机采样得到的噪声送入MLP网络中映射为特征向量其中L₂表示噪声向量长度。

3)水印生成单元，用于将创作相关的元数据映射成单通道二值水印，以隐蔽地嵌入图像中，据其实现溯源目的。

具体地，将文本、创作时间、创作者ID等创作要素以字符形式写入单通道二值水印像素中。其中创作者ID设置为8位，每一位由均匀分布U(0,9)进行采样得到。

4)多层卷积网络水印特征提取单元，利用卷积神经网络提取二值水印特征，得到空间层级的特征表示。

其中，将单通道二值水印送入多层二维卷积神经网络(Convolutional NeuralNetworks，CNN)中，获取水印特征多层卷积网络层数设置为4层，且输出通道数分别设置为3，6，12，1，层间设置LeakyReLu激活函数，感受野尺寸设置为3×3，卷积步长设置为1。

5)图像特征初始化单元，用于根据噪声采样和文本输入经过仿射变换计算生成图像初始特征。

为了丰富生成图像的视觉效果，引入仿射变换以融合噪声和文本特征，其具体实施过程可表示为：

Affine(z,s)＝γ_scale(s)·η(z)+γ_shift(s) (1)

其中，Affine(·)表示仿射变换函数，γ_scale(·)、γ_shift(·)和η(·)表示缩放、平移和噪声映射函数。仿射变换的输出矩阵表示为被视作原始图像特征，其中H、W、C分别表示为特征矩阵高度、宽度以及通道数，/>表示特征空间。

二、图像-水印特征共嵌模块，利用可学习参数矩阵将原始图像特征及水印特征映射到统一的特征空间中，实现两者的特征兼容。

具体地，为了增强图像的表达能力并优化水印的隐藏性，需要寻找一个特征共嵌空间来同时整合原始图像特征M_t和水印特征M_w。可学习的对应尺寸参数矩阵T_t和T_w被随机初始化，在训练过程中使得水印特征和图像特征兼容，其具体实施过程表示为：

f_t,w＝φ_c(T_tM_t,T_wM_w) (2)

其中，f_t,w为图像与水印的拼接特征，φ_c(·)表示通道层级拼接操作，旨在将水印和图像在同一特征空间表示。

三、图像-水印特征融合模块，用于将水印特征和图像特征进行通道层级融合，通过多次级联原始图像特征，以达到隐藏水印信号，凸显高质量图像视觉效果的作用。

具体地，利用Unet网络对拼接特征f_t,w进行压缩得到低层级关键信息，再通过跳跃连接(Skip Connection)进行不同尺度特征的关联挖掘，学习到多尺度的水印图像信息。此外，为了弱化水印对图像特征的干扰，原始图像特征M_t被多次融合，水印信号占比降低，具体实施过程可表示为：

其中，Y_i(·)是第i层特征融合模块，主要由参数为θ_i的全卷积网络(FullConnected Network，FCN)和最近邻插值算法组成，本发明实施例将该层数量设置为3。为第i层输出的复合视觉特征图。E_Unet(·)为基于Unet的编码器，用于将视觉特征和水印特征耦合。本发明实施例在保证图像质量受到水印微小干扰的情况下，亦能保证水印信息不会丢失。

四、上采样生成器，用于将水印图像融合特征映射为像素点，其中包含语义信息和水印信号，最终获得分辨率256×256的复合图像。

为了利用融合特征生成隐藏水印的复合图像，利用上采样生成器对其进行处理，具体实施过程可表示为：

其中，F_w(·)表示为参数θ_c的上采样生成函数函数。x_c为分辨率256×256的复合图像，表现出优秀的视觉效果并且充分隐藏了水印信息。

五、非平衡博弈解耦模块，利用非平衡博弈理论和香农信息论制定分配策略，通过两个解码器对复合图像的信息进行分配，以解耦成无水印图像和重建水印。

具体地，非合作博弈的特点是博弈参与者之间缺乏沟通和协商，要求他们制定自己的优势策略。具体而言，参与者非常注重自主决策以最大化自身利益，独立于战略环境中其余参与方采用的策略，最终目标是达到各个博弈方之间的平衡。

对于博弈G＝(s₁,s₂,...,s_n；p,p₂,...,p_n)，假设(s₁',s₂',...,s_n')为任意策略组合，当遇到其他参与者的策略(s₁',...,s_i-1',s_i+1',...,s_n')时，策略s_i*是参与者p_i的最佳选择。将非合作博弈公式化为：

其中，σ^*表示纳什均衡策略集合，即没有任何参与方可以通过单独改变自身策略来增加收益。表示参与者p_i执行策略集合所获得的收益，P表示参与者的集合，表示所有参与者执行策略集合所获得的收益集合，s_n表示第n个参与方的策略，s_n'表示第n个参与方的任意策略，p_n表示第n个参与者。在文本到图像和水印联合生成中，图像和水印的解耦可以被视作一个非合作博弈过程。而这图像特征和水印特征对复合图像的整体视觉效果都有不同程度的贡献，假设有贡献因子/>和/>分别反映x_r、w_r和x_c的视觉效果，将其近似为具有线性正相关关系的分配策略：

其中，σ(·)反映了对两个贡献者的信息分配策略，取值范围为[0,1]，∝表示正相关关系。从理论上讲，水印和图像参与了一个非合作博弈，并致力于实现纳什均衡态。假设达到了一个最优点/>此时具备最佳视觉表现效果：

其中，σ^*(·)表示为最优分配策略。将公式(8)进行简化：

其中，C^*为常数。分配策略由和/>决定，即需要由水印和图像分别地制定策略。因此，纳什均衡态/>可由公式(1)计算得到：

其中，和/>是用于解耦图像和重构水印的策略，θ_x和θ_w为对应的网络参数，而和/>是最优参数。(x_r,w_r)越接近/>就越接近实现纳什均衡。理想情况下，/>和/>在不相互干扰的情况下实现权衡，完成解耦。

具体地，该非平衡博弈解耦模块进一步包括：

1)图像解析单元，用于从复合图像中解耦出无水印图像。

本发明实施例设计了一种针对水印和图像的协同解耦方法。理想情况下，无水印图像有望保留与复合图像相当的视觉信息，从而减少它们之间的视差。另外，水印信号不应存储在无水印图像中。根据香农信息论，该过程旨在缩小无水印图像和复合图像之间的差异，同时扩大隐藏水印和无水印图像之间的鸿沟，该策略具体实施过程可表示为：

其中，ΔMI(·)表示通过Kullback-Leibler散度计算的用于优化参数θ_x的互信息函数，表示无水印图像解耦策略，/>表示无水印图像解耦的策略执行收益，I(x_c)表示x_c的信息量，I(w_r)表示w_r的信息量，w_h表示隐藏的水印。目标/>旨在恢复出未加水印的图像x_r。

为了实现公式(11)，首先采用解码器来处理复合图像，具体实施过程可表示为：

x_r＝R_r(x_c；θ_x) (12)

其中，R_r(·)是基于Unet的图像解码器，在复合图像和解析图像之间建立像素级依赖关系。

2)水印重建单元，用于从复合图像中重建出高质量水印。

具体地，理想的情况下无水印图像x_r几乎与重建水印w_r的信息独立，而复合图像x_c与重建水印w_r共享隐藏信息。故在特征空间中，复合图像的自信息被设置为I(x_c)，其与无水印图像的互信息被设置为ΔMI(x_c,x_r)，而I(w_r)旨在搜索其补集的特征空间，该策略具体实施过程可表示为：

其中，表示水印重建策略，/>表示水印重建的策略执行收益。目标迫使w_r远离x_r空间并接近x_c空间。因此，w_r中隐藏的信息可以被有效地恢复。此外，类似于公式(12)，需要一个解码器来获得w_r，具体实施过程可表示为：

w_r＝R_w(x_c；θ_w) (14)

其中，R_w(·)是基于Unet的水印解码器，因此，独立的策略和解码器使得图像和水印可以在纳什均衡状态下协同解耦。

六、策略分配模块，用于设定复合图像、原始图像以及数字水印的目标函数，即设置图像鉴别器，采用多规格的下采样卷积核提取复合图像特征，以约束图文语义一致性和保真度，同时设置目标策略约束水印和无水印图像重建。

具体地，该策略分配模块进一步包括：

1)复合图像鉴别策略，设置鉴别器来约束复合图像。

本发明实施例不仅要求产生复合图像x_c，并根据特定的Unet解码器解耦出无水印图像x_r。因此，需要鉴别器来保证图像的真实性。并且对于复合图像，初始化图像特征M_t用于引导x_c的语义表达。复合图像鉴别器的目标函数定义为：

其中，对应于与图像不匹配的文本描述，x表示真实图像，p_r和/>表示真实数据分布和复合图像分布。为了保证生成图像的视觉效果，复合图像生成器的目标函数定义为：

其中，δ(·)通过使用MSE-L2损失来度量x_c和初始图像特征M_t之间的相似性。λ₁为比例系数。

2)无水印图像解析策略，用以从复合图像中解析出无水印图像。

作为对策略的补充，本发明引入平滑L1损失||·||₁进一步约束解析图像的生成：

其中，λ₂为比例系数。该目标函数旨在消除水印，同时通过平滑L1损失使得无水印图像与复合图像保持相似的视觉外观。

3)重建水印策略，用以从复合图像中重建出水印信号。

本发明实施例引入强约束δ(·)保证w_r的完备性，恢复水印的目标函数如下：

其中，λ₃为比例系数。该目标函数旨在使得重建水印与隐藏水印保持一致。

七、后处理攻击模块，用于模拟随机裁剪、空间旋转、高斯噪声、椒盐噪声、高斯模糊以及亮度调整等后处理攻击，使得水印具备对常见攻击的鲁棒性。

在可能发生高斯噪声、空间旋转、随机裁剪等后处理攻击的真实场景中，水印需要具有强鲁棒性来保证信息不受损失，以实现最终的溯源保护目的。本发明实施例在训练过程中进行模拟后处理攻击，使编码器-解码器更适应攻击模式。具体地，本模块设置在上采样生成器之后，将不同强度的后处理攻击添加在复合图像x_c上，旨在训练鲁棒的解码器参数。在训练过程中，生成器参数固定，保证复合图像的生成过程不受影响。攻击后图像x_c’送入到水印解码器，最终获取高质量重建水印。本方案展示对后处理攻击的显著鲁棒性，并将信息存量保持在合理的、可识别地范围内。

八、图像及水印联合生成评估体系，提出一套专门的评估指标，从图像质量、水印隐蔽性、水印重建质量以及水印鲁棒性等方面对本发明效果进行评估。

本发明实施例提出了一套适用于图像及水印联合生成的评估模块，该模块从图像质量(即IS和FID)、水印隐蔽性(即PSNR、SSIM和LPIPS)、水印重建质量(即NC和CA)，以及水印鲁棒性(即NC和CA)等方面进行评估。作为对现有的水印空间评估指标NC的补充，本发明实施例设计了一种度量重建水印的字符准确度(CharacterAccuracy,CA)的指标，该指标由光学字符识别(Optical Character Recognition,OCR)和编辑距离(Edit Distance)进行计算。通过NC和CA的指标计算，在模拟的后处理攻击(例如，旋转、裁剪、高斯噪声、椒盐噪声等)之后，证明本发明实施例所提供方案的重建水印中的字符数据仍然可以被保留和恢复。

实施例2

本发明实施例提供了一种跨模态图像-水印联合生成与检测方法，如图3所示，该方法包括以下步骤：

步骤101：基于多模态编码器提取文本、噪声采样以及数字水印的特征；

具体地，选取BiLSTM模型对输入文本进行序列化编码，选取MLP对噪声采样进行编码，选取多层CNN提取数字水印特征，最终输出三种模态数据的编码特征，此外，将噪声特征和文本特征通过仿射变换计算得到初始化图像特征。

步骤102：通过图像-水印特征共嵌矩阵实现图像与水印的特征兼容；

具体地，设置两个可学习的参数矩阵，利用其寻找图像和水印的共嵌空间，在实现特征对齐的基础上，进行通道层级串接，以达到两者的特征兼容。

步骤103：利用图像-水印特征融合模块在通道层级融合水印与图像特征；

具体地，采用Unet作为图像和水印特征的融合网络。为了保障最终生成图像的视觉效果，多次整合图像特征，以降低水印对融合特征的干扰，并且能够确保水印信号和图像语义的兼容性，确保最终复合图像的视觉效果。

步骤104：通过上采样生成器合成携带盲水印的高分辨率复合图像；

具体地，将水印与图像融合特征送入基于上采样模块构成的生成器中，实现分辨率为256×256的高质量复合图像生成，其中隐藏水印信号。

步骤105：基于非平衡博弈理论解耦无水印图像和重建水印；

具体地，将水印重建和图像解析视作非平衡博弈过程，旨在独立地制定两组分配策略以从复合图像中解耦。本发明实施例要求水印特征和图像特征的分配达到纳什均衡状态，保证两者的解耦质量。

步骤106：利用策略分配模块对复合图像、无水印图像以及重建水印进行约束；

具体地，通过图像鉴别器对复合图像进行真实性和一致性鉴别，对于重建水印和无水印图像施加信息分配策略，保障复合图像、无水印图像以及重建水印输出的质量。

步骤107：通过后处理攻击模块对复合图像进行攻击，以评估水印的鲁棒性；

具体地，在复合图像中添加常见的多种强度的后处理攻击，在像素空间信息和语义信息被破坏的情况下进行水印解码，通过训练获取鲁棒的解码器参数，证明水印具备强鲁棒性。

步骤108：基于图像及水印联合生成评估体系，判断图像及水印的嵌入及解析效果。

具体地，采用一套综合评估体系来量化图像及水印联合生成效果，即从图像质量(即IS和FID)、水印隐蔽性(即PSNR、SSIM和LPIPS)、水印重建质量(即NC和CA)以及水印鲁棒性(即NC和CA)等方面进行度量。本发明实施例实现了优异的性能指标。

综上所述，本发明实施例将数字水印嵌入到文生图过程中，在水印隐蔽的情况下尽可能降低对生成图像的视觉效果的影响，为视觉生成式人工智能提供监管和溯源手段，保障生成图像的安全性和可靠性；本发明实施例能够利用非平衡博弈和香农信息论制定复合图像的信息分配策略，实现水印与图像之间的质量权衡下的解耦；本发明实施例在对复合图像施加后处理攻击的情况下，仍然能够重建出高质量水印，证明本发明实施例提出的水印技术具备鲁棒性；本发明实施例能够适用于基于生成对抗网络的方法，使其生成图像具备隐藏水印，本发明具备强泛化性；本发明实施例提出了一套联合文生图和水印的评估体系，能够从图像质量、水印隐蔽性、水印重建程度以及水印鲁棒性进行评估。上述提出的技术对生成图像监管和溯源提供可靠的技术支撑。

实施例3

下面结合具体的算例，实验数据对实施例1和2中的方案进行可行性验证，详见下文描述：

表1-表3为一种跨模态图像-水印联合生成与检测装置及方法的量化结果。本发明实施例从单阶段生成和多阶段生成两类范式中分别选择文生图模型，即RAT-GAN和AttnGAN模型，来验证所提出的图像及水印联合生成的泛化性。

表1列出了三种图像进行保真度比较：(1)原始图像：由基线模型合成；(2)复合图像：是指从本发明的生成器中获取的具有隐藏水印的图像；(3)无水印图像：是从复合图像中解耦得到的未加水印图像。本发明实施例使用IS和FID指标来评估图像的保真度。在理想情况下，尽管存在较小的像素级干扰，复合图像、无水印图像和原始图像应该表现出几乎相同的视觉外观，在量化指标中也应该会有轻微的性能波动。

表1

隐藏水印的隐蔽性应该体现在当达到纳什均衡状态时，它们对人类视觉系统是具备隐蔽性的，要求复合图像不会产生明显的信息泄漏。采用PSNR来度量复合图像和解析图像之间的相似度。如表2所示，在CUB-Birds数据集上，RAT-GAN和AttnGAN的PSNR值分别达到33.29dB和33.86dB，而在Oxford-102 Flowers和MS-COCO数据集上获得了相当的PSNR。当PSNR为30dB时嵌入信号可视为具备高隐蔽性，本发明实施例显然超过了该阈值。因此，PSNR证实了本发明实施例中各种水印的高度不可察觉性。通过模拟人类的感知偏好，利用SSIM进行进一步评估，两个模型的SSIM保持了超过99％的匹配度，证明了隐藏水印和恢复图像的兼容性以及水印的隐蔽性。最后，为了关注图像特征的内在结构，LPIPS模型被用于学习复合图像和无水印图像的感知距离，该模型通过深度特征来进行评估。RAT-GAN和AttnGAN在MS-COCO上达到0.0219和0.0235，这低于现有水印嵌入方法的性能，即在对真实图像进行处理的情况下达到的0.0320，表明隐藏在合成图像中的秘密水印几乎不能被感知。因此，本发明实施例实现了无迹的水印信息隐藏。

表2

表3展示了在无攻击情况下的从空间和字符角度评估的水印重建程度。NC能够以逐像素的方式对空间相似性进行测量，这表明失真像素点较少，重构水印和隐藏水印之间的相似性超过99％。因此，本发明实施例从空间角度实现了极高的重建水平。本发明实施例继而提出CA(CharacterAccuracy)指标，它结合了OCR和编辑距离来从语义上测量字符的准确性。可以观察到平均CA低于0.17，表明几乎所有字符都会在不受攻击的情况下具备可识别性。因此，本发明实施例从字符角度实现了极高的重建水平。

表3

图4为生成图像的案例展示图，每个实例包括复合图像、无水印图像、隐藏水印、重建水印、一倍和十倍图像差分。图像中隐藏水印的存在不会显著改变图案的视觉外观，它仅表现出色度的细微变化。此外，水印实现了高质量重建，并且所有字符均清晰可见。本发明实施例实现了显著的视觉效果，确保了图像和水印之间的信息分配权衡。

图5为多种后处理攻击下水印解析效果的案例展示图，图6为多种后处理攻击下水印解析的性能量化，展示了本发明实施例针对常见后处理攻击的显著鲁棒性，并具备较高的水印重建能力。通常地，攻击后的水印确保了一定的字符可识别性，足以用来支撑追溯。因此，本发明实施例能够保证攻击下的水印的重建质量，确保其在各种强度后处理攻击后的卓越鲁棒性。

综上所述，本发明实施例依据一套全面的评估体系证明了本发明中生成图像质量高、嵌入水印隐蔽性强、水印重建精准度高以及水印应对后处理攻击的鲁棒性强等特点，能够充分满足文本到图像及水印联合跨模态生成的技术需求。本发明实施例旨为视觉生成式模型的监管赋能，支撑对生成图像的溯源，保障生成视觉内容的安全性和可靠性。

实施例4

一种跨模态图像-水印联合生成与检测装置，该装置包括：处理器和存储器，存储器中存储有程序指令，处理器调用存储器中存储的程序指令以使装置执行以下方法步骤：

通过上采样生成器合成携带隐蔽水印的高分辨率复合图像；基于非平衡博弈理论解耦无水印图像和重建水印；

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器和存储器的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器和处理器之间通过总线传输数据信号，本发明实施例对此不做赘述。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其它可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种跨模态图像-水印联合生成与检测装置，其特征在于，所述装置包括：

非平衡博弈解耦模块，利用非平衡博弈理论和香农信息论制定分配策略，通过两个解码器对复合图像的信息进行分配，以解耦成无水印图像和重建水印；

策略分配模块，用于设置图像联合鉴别器，采用多规格的下采样卷积核提取复合图像特征，以约束图文语义一致性和保真度，并设置目标函数约束水印和无水印图像重建；

后处理攻击模块，用于模拟后处理攻击，输出最终的图像及水印联合生成图像；

其中，获取原始图像特征为：多模态编码器，用于利用预训练自然语言编码模型、多层感知机以及视觉编码模型对输入文本、噪声采样以及数字水印进行特征提取，获取其特征表示，继而利用文本特征和噪声特征通过仿射变换得到原始图像特征。

2.根据权利要求1所述的一种跨模态图像-水印联合生成与检测装置，其特征在于，所述装置还包括：图像及水印联合生成评估模块，用于从图像质量、水印隐蔽性、水印重建质量以及水印鲁棒性进行评估。

3.根据权利要求1所述的一种跨模态图像-水印联合生成与检测装置，其特征在于，所述图像-水印特征共嵌模块为：

f_t,w＝φ_c(T_tM_t,T_wM_w)

其中，f_t,w为图像与水印的拼接特征，φ_c(·)表示通道层级拼接操作，原始图像特征M_t和水印特征M_w，可学习的对应尺寸参数矩阵T_t和T_w。

4.根据权利要求3所述的一种跨模态图像-水印联合生成与检测装置，其特征在于，所述图像-水印特征融合模块为：

其中，Y_i(·)是第i层特征融合模块，由参数为θ_i的全卷积网络和最近邻插值算法组成，为第i层输出的复合视觉特征图，E_Unet(·)为基于Unet的编码器，用于将视觉特征和水印特征耦合。

5.根据权利要求3所述的一种跨模态图像-水印联合生成与检测装置，其特征在于，所述非平衡博弈解耦模块包括：图像解析单元和水印重建单元，

所述图像解析单元表示为：

s.t.,ΔMI(x_c,x_r)≤I(x_c)-I(w_h)

其中，ΔMI(·)表示通过Kullback-Leibler散度计算的用于优化参数θ_x的互信息函数，表示无水印图像解耦策略，/>表示无水印图像解耦的策略执行收益，I(x_c)表示x_c的信息量，I(w_r)表示w_r的信息量，w_h表示隐藏的水印；目标/>旨在恢复出未加水印的图像x_r；x_c为分辨率256×256的复合图像；

所述水印重建单元表示为：

s.t.,I(w_r)＜I(x_c)

其中，表示水印重建策略，/>表示水印重建的策略执行收益，θ_w为网络参数，目标/>迫使w_r远离x_r空间并接近x_c空间。

6.一种跨模态图像-水印联合生成与检测方法，其特征在于，所述方法包括：

利用可学习参数矩阵将原始图像特征及水印特征映射到统一的特征空间中；

将水印特征和原始图像特征进行通道层级融合获取水印图像融合特征，并多次级联原始图像特征；

将水印图像融合特征映射为像素点，获取预设分辨率的复合图像；

利用非平衡博弈理论和香农信息论制定分配策略，通过两个解码器对复合图像的信息进行分配，以解耦成无水印图像和重建水印；

设置图像联合鉴别器，采用多规格的下采样卷积核提取复合图像特征，以约束图文语义一致性和保真度，并设置目标函数约束水印和无水印图像重建；

模拟后处理攻击，输出最终的图像及水印联合生成图像；

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行权利要求6中的所述的方法。