CN117876221A

CN117876221A - 基于神经网络结构搜索的对抗鲁棒图像拼接方法

Info

Publication number: CN117876221A
Application number: CN202410276424.4A
Authority: CN
Inventors: 姜智颖; 刘晋源; 仲维; 樊鑫; 刘日升
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2024-03-12
Filing date: 2024-03-12
Publication date: 2024-04-12

Abstract

本发明公开一种基于神经网络结构搜索的对抗鲁棒图像拼接方法，属于计算机视觉和人工智能领域，旨在通过结合神经网络结构搜索技术和图像拼接技术，实现在复杂环境下对对抗性干扰鲁棒的图像拼接。本发明基于双层优化策略，自动设计并优化用于图像拼接的网络结构，通过评估不同网络结构在图像拼接任务上的性能来确定最终的结构选取。过程中通过引入对抗训练机制增强图像拼接网络的鲁棒性。在训练时，网络不仅学习如何精确地拼接图像，同时学习如何抵抗和纠正由于各种外部干扰引起的潜在误差。所确定的网络结构能够有效处理各种图像特征，并适应不同的图像环境和条件，显著提升图像拼接的性能和鲁棒性，适用于自动驾驶、无人机监控、安全监控等领域。

Description

基于神经网络结构搜索的对抗鲁棒图像拼接方法

技术领域

本发明属于计算机视觉和人工智能领域，涉及基于神经网络结构搜索的对抗鲁棒图像拼接方法。

背景技术

图像拼接作为一种将多个图像无缝组合成一张大图像的技术，在计算机视觉领域中占有极其重要的地位。这项技术在众多领域如医疗成像、卫星图像处理、安全监控等都有着广泛的应用。然而，随着人工智能技术的发展，图像拼接系统越来越多地受到各种对抗攻击的威胁，这些攻击旨在通过向图像中注入精心设计的干扰来误导拼接算法。

传统的图像拼接方法主要依赖于图像特征的提取和匹配。Matthew Brown2007年发表在《International Journal of Computer Vision》上的“Automatic PanoramicImage Stitching using Invariant Features”基于尺度不变特征转换（SIFT）来检测和匹配图像中的特征点。论文中详细阐述了如何利用这些特征点来自动识别匹配图像中的相似区域，并使用柱面或球面投影技术来对齐和拼接图像。Herbert Bay在2005年《IEEEConference on Computer Vision and Pattern Recognition》发表的“Multi-ImageMatching using Multi-Scale Oriented Patches”使用特征点匹配和图像对齐技术，该方法能够处理大范围的图像旋转和尺度变化。但这些方法往往对噪声和小的干扰不够鲁棒，容易受到对抗攻击的影响。对抗攻击通过在图像中添加难以察觉的扰动，能够欺骗图像拼接算法，导致错误的拼接结果。这种攻击不仅威胁到图像拼接的准确性和可靠性，也对使用这些技术的应用领域构成了安全风险。

近年来，对抗鲁棒性逐渐成为计算机视觉研究的一个重要方向，旨在提高算法对这类攻击的抵抗能力。在图像拼接领域，开发一种能够有效抵御对抗攻击的鲁棒拼接方法成为研究的重点。这不仅包括提高算法对攻击扰动的识别和过滤能力，还涉及到在算法设计上增强其对外部干扰的不敏感性。

发明内容

为解决上述问题，本发明提供一种基于神经网络结构搜索的对抗鲁棒图像拼接方法，该方法通过结合先进的神经网络结构搜索技术和对抗鲁棒性策略，旨在提高拼接算法在面对恶意扰动时的稳定性和准确性。本发明使用双目相机获取图像，并利用经验设计基础候选网络结构。在优化训练的过程中引入对抗训练机制，将光照变化、遮挡以及噪声等影响的观测图像数据融入训练数据集。通过评估不同网络结构在图像拼接任务上的性能和在对抗攻击数据上的性能稳定性来确定最终的拼接网络结构选取，在保证图像拼接质量的同时，显著提升了常规图像拼接思路的性能和鲁棒性，显著提高了算法对潜在安全威胁的防御能力，对于提升图像拼接技术的安全性和可靠性具有重要意义，特别适用于自动驾驶、无人机监控、安全监控等领域。

本发明的技术方案如下：

基于神经网络结构搜索的对抗鲁棒图像拼接方法，步骤如下：

1）双目视觉图像采集

使用配对的双目相机系统从不同视角捕捉待拼接的场景图像，确保图像具有足够的覆盖范围和重叠区域，以便于后续的拼接处理。

2）设计模型的网络结构

基于三尺度特征金字塔结构，每个尺度特征由一个基础结构单元得到。基础单元由多个组合操作构成，并且组合操作间存在信息传递。组合操作是常规基础操作的加权组合。以适应图像拼接任务的多样性。

3）构建训练数据集

收集不同环境下的图像数据，包括不同光照条件、有遮挡的场景和含噪声的图像。对收集的图像进行预处理，如裁剪、缩放和格式转换，以适配网络输入要求。

4）引入对抗训练机制

在训练数据集中融入对抗性扰动（如光照变化、遮挡和噪声影响的观测图像）。设计对抗训练策略，使网络能够学习在对抗条件下正确拼接图像。

5）优化训练过程

使用神经网络结构搜索（NAS）技术自动测试和优化候选网络结构。根据图像拼接任务的性能和对抗攻击数据的稳定性对网络结构进行评估。

本发明的有益效果是：本发明使用双目立体相机完成数据的采集，并结合MATLAB构建高性能计算平台，科学有效地对采样数据进行处理。通过结合双目视觉图像拼接和神经网络结构搜索技术，能够有效处理真实对抗扰动复杂场景下的图像拼接问题。它不仅提高了图像拼接的准确性和效率，而且在保持高质量图像输出的同时，提升了算法的鲁棒性和适用范围。

本发明具有以下特点：

（1）系统容易构建，使用立体双目相机即可完成输入数据的采集；

（2）程序简单，易于实现，测试推理过程快；

（3）利用神经网络结构搜索技术确定推理模型结构，自动实现最优化结构的选择。在保证拼接有效性的基础上提升了算法的鲁棒性.

（4）可进行多线程操作，提高效率。

附图说明

图1为双目相机采集示意图；

图2为模型的网络结构示意图；

图3为训练数据构建示意图；

图4为本发明的整体流程图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明的基于神经网络结构搜索的对抗鲁棒图像拼接方法，如图4所示，具体步骤如下：

1）双目视觉图像采集过程如图1所示，使用配对的双目相机系统，调整其焦距、曝光和感光度，确保获取清晰、对比度适宜的图像。此外要确保相机固定在稳定的平台上，避免抖动导致的图像模糊。场景的选择应在多种光照和环境条件下进行，从不同角度拍摄多组图像，确保每组图像之间有足够的重叠区域，确保数据多样性。

2）本方法的模型所需的网络设计是基于一个三尺度的特征金字塔结构，每个尺度特征通过一个基础结构单元得到，基础结构内部由多个常规操作的组合实现，并且每个组合操作之间均存在信息传递。具体实施时，每个基础结构单元由五个组合操作构成，每个组合操作可以采用包括Skip, Average Pooling (AvgP), Max Pooling (MaxP), 3×3SepConv (3-SC), 5×5 SepConv (5-SC), 3×3 Dilated Conv (3-DC), 5×5DilatedConv (5-DC)等中的多种常规基础操作。为这七个基础操作分别赋予一个权重 (i=1…7)用于表示该操作的重要性，组合操作的最终实现由/> (Skip)+/> (AveP)+/> (MaxP)+/> (3-SC)+/> (5-SC)+/> (3-DC)+/> (5-DC)得到。针对左、右两视角场景，分别得到两组三尺度特征金字塔，并通过回归得到了精细的变形矩阵。由此可实现左、右视角图像的扭曲对齐。为了实现大视角场景的生成，基于上述基础结构单元构建下采样-上采样网络进行多视角场景的整合。模型的网络结构如图2所示。

3）训练数据集构建时，首先对捕获的图像进行裁剪、调整分辨率和归一化处理。通过旋转、缩放、添加随机噪声等手段实现图像数据集的增广，以提高模型的泛化能力。此外还需要对图像进行适当的标注，如指定对应点，以及按照不同的环境条件进行分类。详细过程如图3所示。

4）对抗训练时首先使用正常的数据集对步骤2）中的模型进行初步训练。这一步骤类似于传统的机器学习训练流程，旨在让模型学习从数据中提取特征并做出准确的预测。然后利用投影梯度下降（PGD）生成对抗样本。将生成的对抗样本与步骤1）中采集的未受攻击干扰的正常样本进行混合，形成一个新的训练数据集。使用这个混合的数据集重新训练步骤2）中的模型的网络结构，使其不仅能识别正常样本，也能识别并正确处理对抗样本。在每个训练阶段后，评估模型在正常样本和对抗样本上的性能。如果模型在对抗样本上的表现不佳，需要重新生成新的对抗样本并重复训练过程。这个过程可能需要多次迭代，直到模型在对抗样本上达到要求的性能的训练损失小于0.0001并收敛趋于不变。

5）由于扰动生成的复杂性，许多研究都采用对抗性训练来增强针对此类攻击的鲁棒性。尽管将受攻击的数据集成到训练过程中可以增强鲁棒性，但它通常会损害特定任务的性能。为了减轻对抗训练后模型表现出的性能下降，并实现具有强大抗攻击性和有效拼接性能的图像拼接模型，从架构角度开发了一种自适应对抗训练策略。具体来说，所提出的策略是在可微分的基础上开发的架构搜索，形成可微搜索策略。可微搜索策略通过引入网络结构参数α将离散搜索空间松弛为连续搜索空间，同时实现网络结构参数α和操作权重的更新，整个搜索优化目标可以表示为：

其中为权重参数；/>表示对抗攻击扰动引导下的训练损失、正常验证损失和攻击验证损失。上述目标的优化可以以迭代方式解耦，分别关注α的鲁棒架构训练和θ的标准最优参数学习。实现过程中用原始数据扩充被攻击的数据，优化α时，采用包含正常样本和攻击样本的混合数据进行标准对抗训练，促进了稳健的架构构建。此外，使用正常数据进行较低目标中的权重参数优化，实现了性能与鲁棒性的平衡并且防止搜索过程中出现振荡。

Claims

1.基于神经网络结构搜索的对抗鲁棒图像拼接方法，其特征在于，步骤如下：

1）双目视觉图像采集

使用配对的双目相机系统从不同视角捕捉待拼接的场景图像，确保图像具有足够的覆盖范围和重叠区域，以便于后续的拼接处理；

2）设计模型的网络结构

基于三尺度特征金字塔结构，每个尺度特征由一个基础结构单元得到；基础单元由多个组合操作构成，并且组合操作间存在信息传递；组合操作是基础操作的加权组合，以适应图像拼接任务的多样性；

每个基础结构单元由五个组合操作构成，每个组合操作采用包括Skip, AveragePooling, Max Pooling, 3×3 SepConv, 5×5 SepConv, 3×3 Dilated Conv, 5×5Dilated Conv中的多种基础操作；针对左、右两视角场景，分别得到两组三尺度特征金字塔，并通过回归得到了变形矩阵，以实现左、右视角图像的扭曲对齐；为了实现大视角场景的生成，基于所述的基础结构单元构建下采样-上采样网络进行多视角场景的整合；

3）构建训练数据集

收集不同环境下的图像数据，包括不同光照条件、有遮挡的场景和含噪声的图像；对收集的图像进行预处理，包括裁剪、缩放和格式转换，以适配网络输入要求；

4）引入对抗训练机制

在训练数据集中融入对抗性扰动，包括光照变化、遮挡和噪声影响的观测图像；设计对抗训练策略，使网络能够学习在对抗条件下正确拼接图像；

5）优化训练过程

使用神经网络结构搜索技术自动测试和优化候选网络结构；根据图像拼接任务的性能和对抗攻击数据的稳定性对网络结构进行评估。

2.根据权利要求1所述的基于神经网络结构搜索的对抗鲁棒图像拼接方法，其特征在于，步骤4）具体如下：

对抗训练时首先使用正常的数据集对步骤2）中的模型进行初步训练，然后利用投影梯度下降生成对抗样本；将生成的对抗样本与步骤1）中采集的未受攻击干扰的正常样本进行混合，形成一个新的训练数据集；使用这个混合的数据集重新训练步骤2）中的模型的网络结构，使其不仅能识别正常样本，也能识别并正确处理对抗样本；在每个训练阶段后，评估模型在正常样本和对抗样本上的性能；如果模型在对抗样本上的表现不佳，需要重新生成新的对抗样本并重复训练过程；这个过程需要多次迭代，直到模型在对抗样本上的训练损失收敛并趋于不变。

3.根据权利要求1所述的基于神经网络结构搜索的对抗鲁棒图像拼接方法，其特征在于，步骤5）中，为了减轻对抗训练后模型表现出的性能下降，并实现具有强大抗攻击性和有效拼接性能的图像拼接模型，从架构角度开发了一种自适应对抗训练策略；具体来说，所提出的策略是在可微分的基础上开发的架构搜索，形成可微搜索策略；可微搜索策略通过引入网络结构参数α将离散搜索空间松弛为连续搜索空间，同时实现网络结构参数α和操作权重的更新，整个搜索优化目标表示为：/>

其中为权重参数；/>表示对抗攻击扰动引导下的训练损失、正常验证损失和攻击验证损失。