CN114207659A - 光场消息传递 - Google Patents
光场消息传递 Download PDFInfo
- Publication number
- CN114207659A CN114207659A CN202080055956.5A CN202080055956A CN114207659A CN 114207659 A CN114207659 A CN 114207659A CN 202080055956 A CN202080055956 A CN 202080055956A CN 114207659 A CN114207659 A CN 114207659A
- Authority
- CN
- China
- Prior art keywords
- model
- image
- camera
- training
- cdtf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 78
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000011084 recovery Methods 0.000 claims abstract description 41
- 238000012546 transfer Methods 0.000 claims abstract description 19
- 230000003287 optical effect Effects 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 37
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 241000208140 Acer Species 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 244000062645 predators Species 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 229920006395 saturated elastomer Polymers 0.000 description 2
- 238000010206 sensitivity analysis Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 241001050985 Disco Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0021—Image watermarking
- G06T1/005—Robust watermarking, e.g. average attack or collusion attack resistant
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0021—Image watermarking
- G06T1/0028—Adaptive watermarking, e.g. Human Visual System [HVS]-based watermarking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2201/00—General purpose image data processing
- G06T2201/005—Image watermarking
- G06T2201/0051—Embedding of the watermark in the spatial domain
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2201/00—General purpose image data processing
- G06T2201/005—Image watermarking
- G06T2201/0065—Extraction of an embedded watermark; Reliable detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2201/00—General purpose image data processing
- G06T2201/005—Image watermarking
- G06T2201/0083—Image watermarking whereby only watermarked image required at decoder, e.g. source-based, blind, oblivious
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Studio Devices (AREA)
- Television Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
Abstract
一种光信息传递方法,其中经由从显示设备发射并使用相机检索的编码图像传输隐藏信息,包括训练相机显示器传递模型,该相机显示器传递模型从嵌入模型接收具有隐藏消息的图像,并基于说明显示器和相机的属性的训练数据生成修改的编码图像,将修改的编码图像传送到恢复模型,该恢复模型解码隐藏消息并输出隐藏消息确定,使用CDTF模型和训练数据训练嵌入和恢复模型,以最小化输入的隐藏消息和隐藏消息确定之间的差异。在训练CDTF模型和其他模型之后,使用嵌入模型在载体图像中嵌入隐藏消息,使用显示设备显示编码图像,在相机处接收编码图像,并且使用恢复模型检索隐藏消息。
Description
技术领域
本发明涉及在数据通信中嵌入隐藏信息,并且更具体地,涉及通过光场消息传递(LFM)在电子显示的图像和视频中嵌入和检索隐写(steganographically)隐藏信息的方法。
背景技术
在光场消息传递中,隐藏信息嵌入在由电子设备显示的图像或视频(本文统称为“图像”)中,并且相机捕获图像。电子屏幕上显示图像的照明是自由空间中的光源,其特征是光场。相机通过对该光场进行采样来捕获图像。相机的准确位置和方向未知,在3D空间中也不固定。然后使用共置在相机上或单独设备中的处理器对接收的图像和视频进行算法解码,以检索嵌入其中的信息。因此,光场消息传递有时被称为屏幕相机通信(也称为可见光消息传递、相机显示器消息传递)。视觉隐藏信息有许多应用,诸如交互式视觉媒体、增强现实、自动驾驶车辆的道路标志、机器人和物体的隐藏标签以及私密通信。
当使用相机从屏幕图像中捕获隐藏信息时,解码任务不同于传统的隐写术(steganography)。隐写术通常涉及数字域,其中图像作为数字信号进行处理和传输。数字隐写术的早期工作可分为空间和转换技术。空间技术的范围从最低有效强度比特(LSB)的简单改变到更复杂的固定滤波器转换域技术,再到使用深度网络的学习滤波器。像素值的微小变化很难在视觉上检测到,并可用于存储相对大量的信息。实际上,简单的LSB隐写术并不常用,但更复杂的LSB方法可以与图像压缩结合使用,以实现更好的不可检测性。转换域技术使用过滤后的信号和消息进行嵌入,使得嵌入的消息被隐藏而无法视觉观察。然而,对于光场消息传递中的光传输,空间和转换技术都不是鲁棒的。
最近,机器学习技术,包括深度卷积神经网络,已被应用于数字图像隐写术。研究人员已经证明,使用联合学习的特征和分类器的深度学习通常比使用手工选择的图像特征的更成熟的隐写术分析方法表现得更好。此外,已经探索了结构化神经学习方法,该方法集成了传统的空间域和转换域隐写术技术,诸如用于基于文本的消息的载体图像中的LSB选择。
例如,Baluja已经公开了深度前馈卷积神经网络,该网络可以直接学习特征表示以将消息图像嵌入到载体图像中。区别于约束网络选择载体图像中适合嵌入的像素,神经网络使用保持载体和消息图像质量的约束来训练神经网络。见S.Baluja,“Hiding imagesin plain sight:Deep steganography”,载于Advances in Neural InformationProcessing Systems,第2006-2076页(2017)。Hayes等人已经公开了一种基于深度神经网络的类似隐写算法,该算法利用对抗性学习来保持载体图像的质量并限制隐藏消息检测。J.Hayes和G.Danezis,“Generating steganographic images via adversarialtraining”,载于Advances in Neural Information Processing Systems,1951-1960页(2017)。然而,这些和类似的技术也涉及数字隐写术,并且当应用于摄影隐写术和光场消息传递时,也不能很好地执行。
图1是最近公开的数字隐写术技术的示意图。图1示出了示例性载体图像102和对消息104进行编码的示例性二维图案。消息104嵌入到载体图像中,将载体图像转换为编码图像108。编码图像显示在电子显示器110上,并且使用相机115捕获显示编码图像。从显示器到相机的传输称为相机显示器传递(CDT),其特征在于相机显示器传递函数(CDTF)。传输具有失真效应,其会损坏或破坏隐写编码在相机图像中的信息。在图1中,虽然捕获的编码图像122看起来类似于显示的编码图像108,但是由于相机显示器传递的影响,恢复的消息124根本不类似于原始消息104。
特别是在光场消息传递和可见光通信领域,早期的系统专注于屏幕相机传输,而不寻求在显示图像中隐藏信号。在计算摄影中,单通道系统已经被开发出来,可以为投影相机系统生成最优模式。在计算机视觉领域,显示图像中隐藏信息的通信从Pixnet和可视MIMO开始,并在诸如InFrame和DisCo的其他近期工作成果中继续进行。在这些双通道方法中,显示器通过相机捕获视频独立于可见图像传送隐藏消息。在以前的方法中,消息已经使用固定的滤波技术嵌入,包括多分辨率空间嵌入或时间嵌入,其需要高频显示器和高速相机来利用人类感知的局限性。已经发现,这些光消息传递技术在性能方面受到影响,这是由于相机显示器传递效应、隐藏消息的可感知伪影以及同步电子显示器和相机的问题。
因此,需要一种光场消息传递方法,该方法不依赖于时间变化来将隐藏消息从编码图像中分离出来,因为这些技术需要相机和显示器之间的时间同步。
发明内容
本文公开了一种光消息传递方法,其中隐藏消息在编码图像中被传输,该编码图像从显示设备发射并由相机捕获。处理相机捕获的编码图像版本以检索消息。该方法包括学习函数以近似相机显示器传递的效果。在一些实施例中,该函数被实现为相机显示器传递函数模型,该模型从嵌入模型接收用隐藏消息编码的图像,并基于训练图像数据生成模拟相机显示器失真的修改的编码图像,将修改的编码图像传递到恢复模型,该恢复模型被配置为从修改的编码图像解码隐藏消息并输出隐藏消息确定,使用先前训练的CDTF模型和训练图像数据训练嵌入模型和恢复模型两者以最小化输入的隐藏消息和隐藏消息确定之间的差异,在训练CDTF之后,嵌入和恢复模型:使用训练的嵌入模型在载体图像中嵌入进一步的隐藏消息,将载体图像转换为编码图像,使用显示设备显示编码图像,在相机处接收编码图像,以及使用训练的恢复模型检索嵌入在编码图像中的进一步的隐藏消息。
在某些实施例中,使用包括感知损失正则化器的损失函数来训练CDTF模型。
在进一步的实施例中,训练图像数据包括由在相机类型以及相机位置/方向上变化的多个相机捕获的照片。训练图像数据还可以包括在多个显示设备上显示的图像。数据是在各种照明和曝光条件下收集的。然而,需要注意的是,在对模型进行训练之后,该模型可以与训练图像数据中使用的那些不同的相机/显示器组合一起使用。
在某些实施例中,嵌入模型包括用于消息的第一处理路径和用于隐藏消息被嵌入其中的载体图像的第二处理路径。在某些实现中,载体图像和消息的特征由第一和第二处理路径共享。
一种使用相机显示器失真模型的光消息传递方法,该相机显示器失真模型包括:嵌入模型,被配置为将隐藏消息嵌入载体图像并将载体图像转换为编码图像;相机显示器传递函数模型,被配置为从嵌入模型接收编码图像,并基于训练图像数据生成模拟相机显示器失真的修改的编码图像;以及恢复模型,被配置为从修改的编码图像检索隐藏消息。该方法包括:接收由显示设备发射的图像,其中使用用CDTF模型训练的嵌入模型嵌入了消息;通过用CDTF模型训练的恢复模型处理接收的图像;以及确定隐藏消息。
此外,还提供了另一种光消息传递方法,其中嵌入模型被配置为将隐藏消息嵌入到载体图像中,并将载体图像转换为编码图像,相机显示器传递函数模型被配置为从嵌入模型接收编码图像并基于训练图像数据生成模拟相机显示器失真的修改的编码图像,恢复模型被配置为从修改的编码图像检索隐藏消息。该方法包括使用用CDTF模型训练的嵌入模型在载体图像中嵌入进一步的隐藏消息,将载体图像转换为编码图像,以及使用显示设备显示编码图像。
可以从以下对本发明的某些实施例的描述以及附图和权利要求书来理解这些和其他方面、特征和优点。
附图说明
图1是现有技术中公开的数字隐写术技术的示意图。
图2是根据本公开的光消息传递方法的高级概述。
图3是根据本公开的用于实现光场消息传递的系统的实施例的示意图。
图4是示出使用用于构造数据集以训练CDTF网络功能的多个相机显示器对获得的图像的表。
图5示出了使用T()训练的前测试与不使用T()训练的前测试之间的结果差异。
图6描绘了分别使用λT值0.0、0.001和0.01获得的编码图像的示例。
图7示出了使用相同的显示器相机对捕获两个不同图像的消息恢复结果,其中使用显示器相机对以30°和45°角度捕获图像。
图8示出了相机曝光设置的经验灵敏度分析的结果。
具体实施方式
如本文所使用的,术语“隐藏消息”指的是隐蔽通信的有效载荷,并且可以包括任何类型的信息,但不限于此。术语“载体图像”是指用于隐藏消息的图像,“编码图像”是指组合的载体图像和隐藏消息。术语“图像”通篇意指包括静态图像和视频帧两者。
本文公开了端到端摄影光场消息传递的方法。该方法的实施例包括提供:相机显示器传递函数,该传递函数对相机和显示器进行建模而不进行辐射校准;嵌入模型,将消息最优地嵌入到图像内;以及在相机侧检索消息的消息恢复模型。相机显示器传递函数可以使用机器学习技术(包括神经网络)以多种不同的方式实现。在一些实施例中,可以实现一起工作的多个相机显示器传递函数。此外,在某些实施例中,可以使用神经网络实现嵌入模型和恢复模型。可以采用单帧操作,因此不需要相机和显示器之间的时间同步,大大提高了该方法的实用性。相机硬件、显示硬件和辐射测量的特性不需要事先知道。而是编译训练相机显示器数据集(“CD数据集”)。在一个实现中,使用了具有100多万张图像和25个相机显示器对的丰富CD数据集来训练神经网络,以学习具有代表性的CDTF。在建立鲁棒的CDTF模型后,对嵌入和恢复模型进行训练。在一些实现中,使用神经网络算法建模CDTF,该算法学习哪些特征对CDTF失真是不变的,同时保持载体图像的感知质量。
图2是根据本公开的光消息传递方法的实施例的高级概述。将编码消息104’的二维图案嵌入到载体图像102’中,创建编码图像108’。与图1所示的方法不同,在图2的方法中,用于嵌入消息的嵌入模型(E')包括其训练管道中的相机显示器传递函数(CDTF)的模型。在将消息显示在设备110’上并且使用相机115’获得捕获的编码图像122’之后,使用恢复模型(R’)来检索消息124’,恢复模型(R’)也包括训练管道中的CDTF的模型。消息124’准确地再现原始消息104’,因为训练的嵌入和恢复模型(E',R')对CDTF失真具有鲁棒性。
需要注意的是,嵌入和恢复模型不需要首先使用CDTF模型进行训练。相反,在这样的实施例中,嵌入和恢复模型使用显示器/相机图像对,使得嵌入和恢复模型本身包含CDTF传递函数。此外,并非使用模型来模拟相机显示器失真,可以对嵌入和恢复模型进行反向训练,以包含有效逆转相机显示器失真影响的“反向”函数。因此,如本领域技术人员所理解的,可以以多种不同的方式以不同的顺序实现相机显示器失真被建模然后被反转的方式。
图3是根据本公开的用于实现光场消息传递的系统的实施例的示意图。系统200包括嵌入模型210,其适于在载体图像中嵌入(隐藏)消息并生成编码图像。在所示的实施例中,相机显示器传递(CDTF)模型被实现为神经网络230,其适于模拟相机显示器传递的失真效果,并且恢复模型250适于从编码图像恢复消息。根据函数表示法,嵌入模型表示为E(),恢复模型表示为R(),CDTF模型表示为T()。
未改变的载体图像表示为ic,未改变的消息表示为im,编码图像表示为I’c,恢复的消息表示为I’m。Lc和Lm表示用于图像和消息丢失的通用范数函数,可分别缩放以改变其相对权重。理论上,目标是学习函数E()和R(),它们使
Lc(i’c-ic)+Lm(i’m-im) (1)
受制于
E(ic,im)=i’c(2)并且R(i’c)=i’m (3)
换句话说,目标是同时最小化对载体图像的失真和最小化消息恢复错误。事实证明,这个简单的公式并不能产生一个经过训练的解决方案。相反,添加了模拟CDTF失真的附加函数T()。如果I”c表示已通过显示器相机传递T()的编码图像,则
T(i’c)=i”c (4)
从(1)中最小化损失函数的条件现在是:
E(ic,im)=i’c,T(i’c)=i”c(5),and R(i”c)=i’m (6)
CDTF函数T()表示相机显示器传递的光度和辐射效果两者。T()使用使用显示器和相机的多种组合的电子显示的和相机捕获的大型图像数据集进行训练。图4是示出使用多个相机显示器配对获得的示例图像的表。第一列包括五幅原始照片。第二列包括由Samsung 2494SJ显示器显示并由Pixel 2相机捕获的相同原始图像;第三列包括在AcerS240ML显示器上显示并由Basler acA2040-90uc相机捕获的原始图像;第四列包括在Insignia NS-40D40SNA 14监视器上显示并由Logitech c920相机捕获的原始图像;第五列包括在Acer Predator XB271HU显示器上显示并由iPhone 8相机捕获的原始图像;第六列包括在Dell 1707FPt显示器上显示并由Basler acA1300-30uc相机捕获的原始图像。虽然该表示出了从显示器相机对中采集的30幅图像,但用于实际训练CDTF模型的图像集包括从25对显示器相机对中采集的100万幅图像。相机特性(光谱灵敏度、辐射测量功能、空间传感器模式)和显示特性(空间发射器模式、光谱发射度功能)导致同一图像在使用不同的显示器相机硬件进行显示和捕获时出现显著差异。
再次回到图3,在所描绘的实施例中,嵌入模型210、CDTF模型230和恢复模型250包括具有以U-Net形状的不同比例的特征映射的密集块。嵌入模型210可以包括具有接收和直接处理载体图像(ic)的第一部分211和接收和直接处理消息(im)的第二部分212的“Siamese”架构。然而,这只是一种实现,不是必需的。在所描绘的实施例中,两个部分211、212被链接、共享特征并组合以生成编码图像输出(i’c)。部分211、212中的每对块的输出可以被串联并传递给后续块。每个部分211、212包括多个学习“块”。在一些实现中,部分211包括初始块214,该初始块214是卷积神经网络,该卷积神经网络接收批量归一化输入,并采用非线性函数(诸如泄漏ReLU)作为激活函数。来自初始块的输出由三个密集层编码块215、216、217串联接收。编码块具有类似的卷积神经网络结构,并采用批量归一化、非线性激活函数(如泄漏ReLU)以及最大池来降低特征维数。最后一个编码块将输出传递给具有与初始块类似的架构的底部块218。底部块依次将输出传递到解码块219、220、221的密集三层,解码块219、220、221分别包括卷积转置层、卷积网络层和另一卷积转置层。嵌入模型的第二部分212具有与初始、编码、底部和解码块类似的多层架构。
注意,还可以使用不同的卷积神经网络架构,并且上面描述的特定卷积网络实现不被视为限制。此外,在一些实施例中,可以实现CDTF函数,而无需使用一个或多个固定函数的显式训练网络。例如,可以使用仿射或透视转换、模糊、亮度变化、对比度变化、颜色饱和度变化、色调变化、旋转、翻转、缩放、拉伸、裁剪或平移以及图像处理和计算机视觉函数的其他组合来修改图像。在这些实施例中,未经训练的CDTF模型可用于训练嵌入和/或恢复函数。
CDTF模型230在初始块231中接收编码图像(i’c)。来自初始块231的输出被传递到编码块232、233、234的层,然后传递到底部块235,然后传递到解码块235、236、237的密集层。最终解码块238输出对显示器相机失真建模的修改的编码图像(i”c)。初始、编码、底部和解码块231-238可以具有与上述嵌入模型中描述的那些相同的架构,尽管这不是必需的。类似地,恢复模型250可以包括在初始块251中接收修改的编码图像(i”c)的初始块。来自初始块251的输出被传递到编码块252、253、254的层,然后传递到底部块255,然后传递到解码块255、256、257的密集层。最终解码块258输出恢复的消息(i’m)。在一些实现中,初始、编码、底部和解码块251-258可以具有与上述嵌入和CDTF模型中描述的那些相同的架构。
本发明的光消息传递方法具有最大化消息恢复和最小化载体图像失真的组合目标。对于编码图像保真度,损失函数使用L2范数来测量ic和i’c之间的差异。为了捕获这种差异,使用神经网络生成照片真实感图像可以在训练中使用感知损失度量。感知损失度量还可以包括质量损失。在一些实现中,质量损失可以通过将ic和i’c传递给训练的对象识别神经网络(诸如VGG(视觉几何组模型))来计算,并最小化若干深度的特征映射响应差异。
如上所述,为了训练CDTF模型(T()),使用了数据集,该数据集包括使用25个相机显示器对收集的100多万张图像。来自MSCOCO 2014训练和验证数据集中的图像显示在五个不同的电子显示器上,然后使用五个数码相机捕获。所选的硬件代表一系列常见的相机和显示器。为了获得一组1M张图像,随机选择了120000张MSCOCO图像。每个相机捕获的图像都经过裁剪、扭曲到正面视图,并与其原始图像对齐。测量处理是半自动化的,采用软件控制所有相机和显示器。CDTF模型使用1000000个图像对(“1M数据集”)进行训练;icoco代表原始图像,iCDTF代表显示的和相机捕获的相同图像。通过输入icoco并输出iCDTF,训练传递函数T()来模拟CDTF失真。因此,要最小化的损失函数为:
Tloss=L2(icoco–iCDTF)+λT*L1(VGG(icoco)–VGG(iCDTF)) (7)
包括T()的感知损失正则化器,以保持CDTF模型输出(i”c)的视觉质量。训练中使用的感知损失权重可能因训练数据集而异;λT的值为0.001,用于使用1M数据集训练CDTF模型。使用Adam优化器对T()进行2个阶段的训练,学习率为0.001,beta等于(0.9,0.999),且无权重衰减。总训练时间为7天。
使用的来自MS-COCO的针对ic的123287张图像和针对im的123282条消息,同时对嵌入和恢复模型进行训练。E()的损失函数有效地最小化了编码图像和原始图像之间的差异,同时编码来自im的信息,使得对CDTF具有鲁棒性。R()的损失函数被最小化,以恢复im中的所有信息,尽管CDTF失真。
Eloss=L2(ic–i’c)+λE*L1(VGG(ic)–VGG(i’c)) (8)
Rloss=φ*L1(im-i’m) (9)
感知损失正则化器也可以包含在E()的损失函数中,以保持嵌入模型输出i’c的视觉质量。训练中使用的损失权重(λE)为0.001,消息权重(φ)为128。使用Adam优化器对嵌入模型和恢复模型两者进行了3阶段的训练,学习率为0.001,beta等于(0.9,0.999),且没有权重衰减。嵌入和恢复模型的总学习时间为8小时。嵌入、CDTF和恢复模型均使用PyTorch0.3.0和Nvidia Titan X(Maxwell)计算卡进行训练。
通过实验探讨了该训练方法的有效性。使用具有来自MSCOCO图像集的1000幅图像、1000条消息和5个相机显示器对的基准测试数据集执行测试。每条消息包含1024比特。生成两个视频,每个视频包含1000个编码图像,使用训练的光场消息传递方法嵌入;在一个测试中,使用CDTF模型训练的完整模型恢复消息。在另一测试中,使用不事先使用CDTF模型进行训练的嵌入和恢复模型。在进一步的测试中,使用CDTF模型训练的完全嵌入和恢复模型使用相机在与显示器成45°角的位置捕获的数据进行测试。表1示出了使用基准数据进行测试的比特误码率(BER)结果。使用T()训练的光场消息传递方法实现了7.3737%的比特误码率,或者正面捕获显示器的平均正确恢复比特为92.6263%。当相机和显示器以45°角对齐时,相同模型的误码率为14.0809%。所有误码率结果都是在相机和显示器之间没有任何纠错码或辐射定标的情况下产生的。冗余和纠错编码可用于进一步降低比特误码率。
表1
图5示出了使用T()训练的前测试与不使用T()训练的前测试之间的结果差异。示出了两个测试用例的示例编码图像(i’c)、残差(i’c-ic),即编码图像和原始载体图像之间的差异,以及恢复的消息(i’m)。可以看出,当使用T()计算显示器相机失真时,恢复的图像具有更高的信息保真度。类似地,在这两种情况下,残差也有很大不同,这表明训练系统作为一个整体如何通过改变编码信息来预测显示器相机失真的影响。不使用T(),消息将被编码为每像素的微小变化,这些变化在整个图像中几乎是一致的。使用T(),消息被编码为像素大小在空间上变化的块。
进行了进一步的测试,以深入了解变化的不同度量对所公开的LFM隐写术模型的影响。在一个测试中,针对T()的损失函数中的感知正则化器权重(λT)发生了变化。图6描绘了分别使用λT值0.0、0.001和0.01获得的编码图像302、304、306的示例。随着感知质量度量λT的增加,图像变得更清晰,并且具有更少的颜色偏移误差。然而,当λT变得太大时,用于消息恢复的比特误码率增加,当λT为0.01时也是如此。图7示出了使用相同的显示器相机对捕获两个不同图像但使用显示器相机对以30°和45°角度捕获的图像的结果。所公开的LFM模型在斜视图中表现良好,但随着角度从30°增加到45°,性能从2.73%BER下降到11.72%BER。图8示出了相机曝光设置的经验灵敏度分析的结果。该测试使用Acer PredatorXB271HU显示器和Pixel 2相机对包括大量白色(雪)的图像来执行。结果表明,所公开的LFM模型和方法对过度曝光和曝光不足具有鲁棒性,前提是像素不处于饱和状态(在任何情况下都是低BER)。该方法对于曝光不足的图像比对于曝光过度的图像(通常)执行得更好,因为不能容易地从曝光过度的图像中的饱和像素(例如,图8的示例中的饱和雪像素)恢复消息。
还执行了另一项测试,以确定T()在多大程度上适用于新的相机显示器对。使用1000幅图像、1024比特测试数据集,使用i)离散余弦转换(DCT)算法;ii)上述Baluja算法,iii)具有CDTF模型和正面图像捕获(即,无T())的光场消息传递方法;iv)公开的使用T()和45°图像捕获的光场消息传递方法(相机显示器);以及v)公开的使用T()和正面图像捕获的光场消息传递方法测试两个额外的相机和两个额外的显示器。表2示出了测试结果(在比特误码率(BER)方面),表明使用T()训练的LFM显著优于新相机-显示器对的现有方法,即使相机和显示器呈45°角度。
表2
上面的结果表明,所公开的具有CDTF模型(T())的光场消息传递LFM方法显著优于现有的深度学习和固定滤波器隐写术方法,为测试的每个相机-显示器组合产生最优BER得分。该方法对相机曝光设置和相机显示器角度具有鲁棒性,45°的LFM优于0°相机显示器视角下的所有其他方法。所公开的LFM方法的低误码率为摄影隐写术的新应用和基于学习的方法开辟了令人兴奋的途径。此外,所公开的方法可以实现为单帧无同步方法,使用普通显示硬件而不需要高频率要求。因此,所公开的方法的一个重要优点是其采用空间编码并且不依赖于检测图像随时间的变化,从而消除了在时域中同步图像生成和图像捕获的需要。需要注意的是,使用来自特定相机和显示器集的数据训练的模型概括为未包括在训练集中的相机和显示器。
应当理解,本文公开的任何结构和功能细节不应解释为限制系统和方法,而是作为代表性实施例和/或布置提供,用于向本领域技术人员传授实现方法的一种或多种方法。
应进一步理解,附图中的类似编号表示贯穿多个附图的类似元件,并且并非所有实施例或布置都需要参考附图描述和图示的所有组件和/或步骤。
本文使用的术语仅用于描述特定实施例的目的,并不旨在限制本发明。如本文所用,除非上下文另有明确指示,否则单数形式“一”、“一个”和“该”也旨在包括复数形式。应进一步理解,当在本规范中使用术语“包括”和/或“包含”时,规定了所述特征、整数、步骤、操作、元件和/或组件的存在,但不排除一个或多个其他特征、整数、步骤、操作、元件和组件和/或其组的存在或添加。
本文使用的方向术语仅用于约定和参考目的,不得解释为限制。然而,人们认识到,这些术语可用于参考观看者。因此,未暗示或推断任何限制。
此外,本文使用的措辞和术语仅用于描述,不应视为限制。本文中“包括”、“包含”或“具有”、“包含”、“涉及”及其变体的使用意指包括其后列出的项目及其等效物以及附加项目。
虽然已经参考示例性实施例描述了本发明,但是本领域技术人员将理解,在不脱离本发明的范围的情况下,可以进行各种改变,并且可以用等效物替换其元件。此外,本领域技术人员将理解许多修改,以使特定仪器、情况或材料适应本发明的教导,而不脱离本发明的基本范围。因此,本发明不限于作为实现本发明的最优模式而公开的特定实施例,而是本发明将包括落入所附权利要求范围内的所有实施例。
Claims (20)
1.一种光消息传递方法,其中隐藏消息在从显示设备发射的编码图像中传输并使用相机从所述编码图像检索,包括:
训练相机显示器传递模型,所述相机显示器传递模型从嵌入模型接收用隐藏消息编码的图像,并基于训练图像数据生成模拟相机显示器失真的修改的编码图像,所述修改的编码图像被传送到恢复模型,所述恢复模型被配置为从所述修改的编码图像解码所述隐藏消息并输出隐藏消息确定;
使用先前训练的CDTF模型和所述训练图像数据训练所述嵌入模型和所述恢复模型两者,以最小化输入的隐藏消息和所述隐藏消息确定之间的差异;
在训练所述CDTF模型之后,嵌入模型和恢复模型:
使用训练的嵌入模型在载体图像中嵌入进一步的隐藏消息,将所述载体图像转换为编码图像;
使用所述显示设备显示所述编码图像;
在所述相机处接收所述编码图像;以及
使用训练的恢复模型检索嵌入在所述编码图像中的所述进一步的隐藏消息。
2.根据权利要求1所述的方法,其中,所述CDTF模型是使用机器学习技术来实现的。
3.根据权利要求2所述的方法,其中,实现所述CDTF模型的神经网络包括具有至少一个卷积神经网络的神经网络系统。
4.根据权利要求2所述的方法,其中,所述CDTF模型是使用包括感知度量的损失函数来训练的。
5.根据权利要求1所述的方法,其中,所述训练图像数据包括由多个相机捕获的照片。
6.根据权利要求1所述的方法,其中,所述训练图像数据包括显示在多个显示设备上的图像。
7.根据权利要求1所述的方法,其中,所述嵌入模型包括用于消息的第一处理路径和用于所述隐藏消息被嵌入其中的载体图像的第二处理路径。
8.根据权利要求7所述的方法,其中,所述载体图像和消息的特征由所述第一处理路径和所述第二处理路径共享。
9.根据权利要求1所述的方法,其中,与从中获得了所述训练图像数据的显示器和相机设备相比,是使用不同的显示器和相机设备在所述载体图像中显示和捕获所述编码图像的。
10.根据权利要求1所述的方法,其中,所述编码图像由所述嵌入模型在空间上编码,使得使用所述恢复模型解码所述编码图像不需要基于时间的同步。
11.一种使用相机显示器失真模型的光消息传递方法,所述相机显示器失真模型包括:嵌入模型,被配置为将隐藏消息嵌入载体图像中并将所述载体图像转换为编码图像;相机显示器传递模型,被配置为从所述嵌入模型接收所述编码图像并生成模拟相机显示器失真的修改的编码图像;以及恢复模型,被配置为从所述修改的编码图像检索所述隐藏消息,所述方法包括:
接收由显示设备发射的、其中使用用CDTF模型训练的嵌入模型嵌入消息的图像;
通过用所述CDTF模型训练的恢复模型处理接收的图像;以及
确定所述隐藏的消息。
12.根据权利要求11所述的方法,其中,使用训练图像数据训练所述嵌入模型、相机显示器传递模型和恢复模型,以最小化由所述嵌入模型嵌入到所述载体图像中的所述隐藏消息与根据由所述CDTF模型模拟的所述相机显示器失真检索的消息之间的差异。
13.一种使用相机失真模型的光消息传递方法,所述相机失真模型包括:嵌入模型,被配置为将隐藏消息嵌入载体图像中并将所述载体图像转换为编码图像;相机显示器传递模型,被配置为从所述嵌入模型接收所述编码图像并基于训练图像数据生成模拟相机显示器失真的修改的编码图像;以及恢复模型,被配置为从所述修改的编码图像检索所述隐藏消息,所述方法包括:
使用用CDTF模型训练的所述嵌入模型在载体图像中嵌入进一步的隐藏消息,将所述载体图像转换为编码图像;以及
使用显示设备显示所述编码图像。
14.一种光消息传递方法,其中隐藏信息在从显示设备发射的编码图像中传输,并使用相机从所述编码图像中检索,包括:
训练相机显示器传递函数模型,所述相机显示器传递函数模型被配置为从嵌入模型接收所述编码图像,并基于训练图像数据生成模拟相机显示器失真的修改的编码图像,所述修改的编码图像被传送到恢复模型,所述恢复模型被配置为从所述修改的编码图像解码所述隐藏消息并输出隐藏消息确定;以及
使用先前训练的CDTF模型和所述训练图像数据训练所述嵌入模型和所述恢复模型两者,以最小化输入的隐藏消息和所述隐藏消息确定之间的差异。
15.根据权利要求14所述的方法,其中,所述CDTF模型是使用机器学习技术来实现的。
16.根据权利要求15所述的方法,其中,实现所述CDTF模型的神经网络包括具有至少一个卷积神经网络的神经网络系统。
17.根据权利要求15所述的方法,其中,所述CDTF模型是使用包括感知度量的损失函数来训练的。
18.根据权利要求14所述的方法,其中,所述编码图像由所述嵌入模型在空间上编码,使得使用所述恢复模型解码所述编码图像不需要基于时间的同步。
19.一种使能光消息传递的方法,其中隐藏消息在从显示设备发射的编码图像中传输,并使用相机从所述编码图像检索,包括:
获得训练图像数据,所述训练图像数据包括由多个显示设备显示并由多个相机设备捕获的图像;以及
训练相机显示器传递模型,所述相机显示器传递模型被配置为基于获得的训练图像数据来模拟相机显示器失真。
20.根据权利要求19所述的方法,还包括确定训练的相机显示器传递函数的逆函数。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962860438P | 2019-06-12 | 2019-06-12 | |
US62/860,438 | 2019-06-12 | ||
PCT/US2020/036925 WO2020251976A1 (en) | 2019-06-12 | 2020-06-10 | Light-field messaging |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114207659A true CN114207659A (zh) | 2022-03-18 |
Family
ID=73781294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080055956.5A Pending CN114207659A (zh) | 2019-06-12 | 2020-06-10 | 光场消息传递 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11790475B2 (zh) |
EP (1) | EP3983990A4 (zh) |
JP (1) | JP2022539975A (zh) |
CN (1) | CN114207659A (zh) |
WO (1) | WO2020251976A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102412135B1 (ko) * | 2019-08-01 | 2022-06-23 | 네이버 주식회사 | 워터마크의 삽입을 위한 영상 합성 장치 및 방법 |
CN112634118B (zh) * | 2020-12-24 | 2022-09-30 | 中国科学技术大学 | 对抗批隐写方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018212811A1 (en) * | 2017-05-19 | 2018-11-22 | Google Llc | Hiding information and images via deep learning |
CN109587372A (zh) * | 2018-12-11 | 2019-04-05 | 北京邮电大学 | 一种基于生成对抗网络的不可见图像隐写术 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6665869B1 (en) * | 1997-09-05 | 2003-12-16 | United Video Properties, Inc. | Program guide application interface system |
-
2020
- 2020-06-10 EP EP20823671.1A patent/EP3983990A4/en not_active Withdrawn
- 2020-06-10 JP JP2021573765A patent/JP2022539975A/ja active Pending
- 2020-06-10 US US17/617,559 patent/US11790475B2/en active Active
- 2020-06-10 WO PCT/US2020/036925 patent/WO2020251976A1/en unknown
- 2020-06-10 CN CN202080055956.5A patent/CN114207659A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018212811A1 (en) * | 2017-05-19 | 2018-11-22 | Google Llc | Hiding information and images via deep learning |
CN109587372A (zh) * | 2018-12-11 | 2019-04-05 | 北京邮电大学 | 一种基于生成对抗网络的不可见图像隐写术 |
Non-Patent Citations (2)
Title |
---|
E. WENGROWSKI ET AL.: "Optimal radiometric calibration for camera-display communication", 《2016 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV)》, 31 December 2016 (2016-12-31), pages 1 - 10 * |
ERIC WENGROWSKI ET AL: "Light Field Messaging With Deep Photographic Steganography", pages 1515 - 1524, XP033687288, Retrieved from the Internet <URL:https://www.semanticscholar.org/paper/Light-Field-Messaging-With-Deep-Photographic-Wengrowski-Dana/3f650e8d4d0e8c1d8eb9c8fffbe4d80dadd00d1f> DOI: 10.1109/CVPR.2019.00161 * |
Also Published As
Publication number | Publication date |
---|---|
EP3983990A1 (en) | 2022-04-20 |
EP3983990A4 (en) | 2023-06-21 |
US20220261944A1 (en) | 2022-08-18 |
WO2020251976A1 (en) | 2020-12-17 |
US11790475B2 (en) | 2023-10-17 |
JP2022539975A (ja) | 2022-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wengrowski et al. | Light field messaging with deep photographic steganography | |
Yan et al. | Deep HDR imaging via a non-local network | |
Li et al. | Underwater scene prior inspired deep underwater image and video enhancement | |
Korus | Digital image integrity–a survey of protection and verification techniques | |
CN108419028B (zh) | 图像处理方法、装置、计算机可读存储介质和电子设备 | |
CN108055452A (zh) | 图像处理方法、装置及设备 | |
Jia et al. | RIHOOP: Robust invisible hyperlinks in offline and online photographs | |
Pu et al. | Robust high dynamic range (hdr) imaging with complex motion and parallax | |
Liu et al. | Exploit camera raw data for video super-resolution via hidden Markov model inference | |
CN111242883A (zh) | 一种基于深度学习的动态场景hdr重建方法 | |
CN108024054A (zh) | 图像处理方法、装置及设备 | |
CN108154514A (zh) | 图像处理方法、装置及设备 | |
CN108111749A (zh) | 图像处理方法和装置 | |
CN110135434A (zh) | 基于颜色线模型的水下图像质量提升算法 | |
CN108156369A (zh) | 图像处理方法和装置 | |
JP2023056056A (ja) | データ生成方法、学習方法及び推定方法 | |
US20150066923A1 (en) | Reference card for scene referred metadata capture | |
Yan et al. | High dynamic range imaging via gradient-aware context aggregation network | |
CN114207659A (zh) | 光场消息传递 | |
Hadziabdic et al. | Comparison of deghosting algorithms for multi-exposure high dynamic range imaging | |
CN115115516B (zh) | 基于Raw域的真实世界视频超分辨率的构建方法 | |
CN107872631A (zh) | 基于双摄像头的图像拍摄方法、装置及移动终端 | |
Jeelani et al. | Expanding synthetic real-world degradations for blind video super resolution | |
CN109191398B (zh) | 图像处理方法、装置、计算机可读存储介质和电子设备 | |
CN113628134A (zh) | 图像降噪方法及装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |