CN117474806A - 一种基于全局结构编码的全景图像修复方法 - Google Patents

一种基于全局结构编码的全景图像修复方法 Download PDF

Info

Publication number
CN117474806A
CN117474806A CN202311797008.0A CN202311797008A CN117474806A CN 117474806 A CN117474806 A CN 117474806A CN 202311797008 A CN202311797008 A CN 202311797008A CN 117474806 A CN117474806 A CN 117474806A
Authority
CN
China
Prior art keywords
features
global
panoramic image
feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311797008.0A
Other languages
English (en)
Other versions
CN117474806B (zh
Inventor
刘寒松
王永
王国强
刘瑞
谭连盛
董玉超
李贤超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sonli Holdings Group Co Ltd
Original Assignee
Sonli Holdings Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sonli Holdings Group Co Ltd filed Critical Sonli Holdings Group Co Ltd
Priority to CN202311797008.0A priority Critical patent/CN117474806B/zh
Publication of CN117474806A publication Critical patent/CN117474806A/zh
Application granted granted Critical
Publication of CN117474806B publication Critical patent/CN117474806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/36Applying a local operator, i.e. means to operate on image points situated in the vicinity of a given point; Non-linear local filtering operations, e.g. median filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Nonlinear Science (AREA)
  • Image Processing (AREA)

Abstract

本发明属于图像处理技术领域,涉及一种基于全局结构编码的全景图像修复方法,先构建全景图像修复数据集,对全景图像分别进行视觉特征和结构特征编码,再进行视觉结构特征交互后过滤噪声,然后对全景全局特征引入编码层并进行全景特征缺失区域相似性约束,最后特征精细化输出以及网络训练和测试;通过引入全局结构编码,更全面地理解全景图像的整体语境,在修复过程中提供更准确、更自然的结果,全局结构信息的有效利用有助于恢复缺失区域,使修复的图像更贴近原始的全景场景。

Description

一种基于全局结构编码的全景图像修复方法
技术领域
本发明属于图像处理技术领域,尤其涉及一种基于全局结构编码的全景图像修复方法。
背景技术
全景图像修复是计算机视觉领域中一项复杂而关键的任务,其主要挑战之一是克服全景图像中的球面畸变问题,以及确保修复过程中全局信息的一致性,全景图像通常是通过将多个图像拼接而成,这导致了球面畸变的出现,因为在球形表面上观察到的物体可能会因其弯曲而被扭曲。这种畸变对于传统的图像修复算法来说是一个挑战,因为它们通常基于平面图像的假设,而无法有效处理球面上的结构信息,例如CN116957977A公开的基于立方体投影格式的双生成器全景图像修复方法,其包括获取待修复全景图像,并将其格式转换为立方体贴图投影格式;将待修复全景图像的前、后、左、右四个面进行拼接,得待修复矩形图像;利用四面生成器对待修复矩形图像进行修复,得重构矩形图像;将重构矩形图像与上、下两面按通道拼接,得多通道的待修复图像;利用六面生成器对多通道的待修复图像进行修复,得重构全景图像;将重构全景图像的格式转换为等距柱状投影格式,即为修复后的全景图像;CN111131689A提供的一种全景图像修复方法和系统,所述方法包括响应于图像采集设备处于待修复区域内,采集素材图像并根据素材图像生成全景图像;待修复区域是由围绕所述图像采集设备的多个标志限定的,每一标志具有唯一的标识符;将全景图像转换为包括底面图像的立面体图像;响应于图像采集设备处于待修复区域外,图像采集设备拍摄包括多个标志和待修复区域的第一图像,并拍摄仅包括待修复区域的第二图像;基于标志确定从底面图像到第一图像的变换矩阵;用变换矩阵对第二图像进行投影变换;用经投影变换的第二图像修复底面图像。
发明内容
为了解决全景畸变问题,本发明提出了一种基于全局结构编码的全景图像修复方法,采用全局结构编码算法有效地处理球面上的物体结构信息,并采用球面几何学建模方法更准确地表示球面上物体的形状和结构,在修复过程中更好地考虑球面上物体的真实形态,从而提高修复的准确性。
为实现上述目的,本发明通过以下技术方案实现:
一种基于全局结构编码的全景图像修复方法,具体包括如下步骤:
(1)收集并整理包含全景图像构建全景图像修复数据集;
(2)将全景图像修复数据集中的全景图像作为输入图像,采用ViT方式将输入图像分割成小块并通过线性层进行特征嵌入得到视觉特征,在特征嵌入过程中,将输入特征划分为像素级的卷积输入;
(3)对全景图像进行角点检测和边缘检测,将角点检测和边缘检测的结构输入深度学习网络提取全景图像结构特征分别得到角点特征和边缘特征,并将角点特征和边缘特征进行拼接融合得到结构特征;
(4)采用结合深度特征的奇异值分解方式进行视觉特征和结构特征之间的交互得到增强后的视觉特征;
(5)使用滤波或去噪技术对增强后的视觉特征进行处理得到经过噪声过滤的视觉特征,再将经过噪声过滤的视觉特征输入到convGRU神经网络中得到输出结果;
(6)采用全局池化层对步骤(2)得到的视觉特征操作,将其转化为一个高维度的向量,得到全局特征,并从全局特征中提取高维度语义信息得到高纬度的全局特征;
(7)将全局特征进行修复,得到增强后的特征;
(8)对步骤(7)得到的增强后的特征,通过对当前局部区域与其他区域之间的相似性进行约束得到经过约束处理后的特征;
(9)对经过约束处理后的特征进行精细化处理后输出;
(10)采用 Adam 优化器训练整个网络模型,并对训练好的网络模型进行测试。
作为本发明的进一步技术方案,步骤(1)所述构建全景图像修复数据集涵包括受到球面畸变影响的全景图像,球面畸变指损坏、缺失或扭曲。
作为本发明的进一步技术方案,步骤(2)所述ViT 方式为:
,/>表示ViT处理的函数形式, ImageSegmentation 为图像分割函数,LinearLayer 为线性层特征嵌入函数,Image为输入图像;
每个所述卷积输入包含9个不同位置的特征值,每个卷积的特征值是根据全景图像的投影信息获得的,包括1个中心坐标和8个邻域坐标,先获取中心坐标,然后通过邻域投影得到8个邻域坐标,从而确定ERP投影的位置,再采用球面切线投影的方法,在球面中心坐标位置将球面上的8邻域投影到平面,从而获得平面上的9个坐标点,具体表示为:
其中为视觉特征,/>和/>分别表示中心坐标和邻域坐标的函数;input为经过/>提取的特征信息;
表示ERP投影函数,SphericalProjection 表示球面投影函数,SphericalTangentPatchProjection 表示球面切线投影函数,/>为球面上与ERP上相对应位置的坐标信息。
作为本发明的进一步技术方案,步骤(3)所述角点检测使用角点检测算法识别全景图像中的关键角点,得到角点的位置和强度信息/>,其中I为全景图像,/>为角点的位置,/>为强度信息;
所述边缘检测使用边缘检测算法检测全景图像中的边缘,获得边缘的位置和强度信息/>,其中/>为边缘的位置,/>为强度信息;
所述角点特征为
所述边缘特征为;其中/>表示深度学习网络;
所述结构特征为,其中/>为特征拼接, />为卷积层。
作为本发明的进一步技术方案,步骤(4)的具体过程表示为:
作为本发明的进一步技术方案,步骤(5)得到的输出结果为:
,其中NoiseFiltered 表示噪声过滤操作,ConvGRU 表示卷积门控循环单元的操作。
作为本发明的进一步技术方案,步骤(6)所述全局特征为,GlobalPooling 表示全局池化操作;高纬度的全局特征为/>,SemanticInfo 表示从全局特征中提取高维度语义信息的操作。
作为本发明的进一步技术方案,步骤(7)增强后的特征为,其中,α为权重系数,用于平衡/>对相似性的影响,
β为权重系数,用于平衡与/>的相似性和/>与/>的相似性,表示/>与/> 之间的余弦相似性,/>表示/>与/>之间的余弦相似性。
作为本发明的进一步技术方案,步骤(8)经过约束处理后的特征为:
为步骤(7)增强后的特征,Wq, Wk, Wv 是分别用于查询、键、值的权重矩阵,Softmax 是 Softmax 激活函数,/>dk 的平方根,其中dk 是查询/键向量的维度。
作为本发明的进一步技术方案,步骤(9)的输出结果为:,其中:/>是经过约束处理后的特征,Refine 表示特征精细化操作,特征精细化操作包括卷积层和激活层操作。
作为本发明的进一步技术方案,步骤(10)在进行网络训练时,将样本图像的尺寸调整为 256×256,同时采用随机位置放置缺失区域的策略,损失函数为:
其中Reconstruction Loss为重建损失,Perceptual Loss为感知损失,StyleLoss为风格损失,GT表示不需要修复的完整图像。
与现有技术相比,本发明不仅更好地处理了球面畸变,还能够保持修复结果在全景图像中的一致性,对于全景图像的后续应用,如虚拟现实、增强现实等,具有重要的意义,不仅仅是一种修复工具,更是提供了更高质量全景图像的生成路径,为各种应用场景提供了更真实、更具吸引力的图像内容,具体具有以下有益效果:
(1)更准确的修复效果:通过引入全局结构编码,更全面地理解全景图像的整体语境,从而在修复过程中提供更准确、更自然的结果,而且全局结构信息的有效利用有助于恢复缺失区域,使修复的图像更贴近原始的全景场景。
(2)更好的语义信息保留:全局结构编码策略能够捕捉全景图像中更高层次、更抽象的语义信息,相对于仅仅关注局部特征的方法,在修复过程中更好地保留了图像的语义内容,使得修复后的图像更富有意义。
(3)适应性强: 通过对训练样本的裁剪和缺失区域的随机放置,在处理不同场景和缺失模式时表现出较强的适应性,在自然场景或特定环境的全景图像修复任务中都能够表现出色,为全景图像修复任务带来了更智能、更高效的解决方案,标志着全景图像修复领域的重大突破,为实现高水平的修复质量奠定了坚实基础。
附图说明
图1为本发明提供的一种基于全局结构编码的全景图像修复方法的工作流程框图。
图2为本发明实现全景图像修复的网络结构示意图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
实施例:
如图1和图2所示,本实施例提供了一种基于全局结构编码的全景图像修复方法,具体实施包括如下步骤:
(1)构建全景图像修复数据集:
在构建全景图像修复数据集阶段,本实施例收集并整理了包含全景图像的数据,确保覆盖多样的场景和情境,该数据集涵盖了受到球面畸变影响的全景图像,其中包括损坏、缺失或扭曲的部分,通过引入这些具有挑战性的样本,为全景图像修复算法提供丰富而真实的训练和评估数据,以更好地应对修复过程中可能遇到的各种问题。
本实施例采用SUN360和Laval Indoo两个全景图像数据集以涵盖丰富多样的场景,其中SUN360囊括各种室内外场景, Laval Indoor专注于室内环境;在SUN360数据集中,随机选择2000张图像进行训练,并额外挑选了500张用于测试,以确保训练和测试样本的广泛代表性;对于Laval Indoor数据集,挑选289张图像进行测试,以验证本实施例在处理室内场景时的性能;本实施例引入两种输入类型,以全面考察本实施例的适应性,先单一输入,即单个NFoV图像,其中90◦FoV位于全景图的中央位置,再采用配对输入,即一对NFoV相对旋转的图像,以模拟更复杂的拼接场景,全面评估对各种场景和输入类型的鲁棒性,确保其在不同环境下都能取得优异的修复效果,为全景图像修复领域的性能评估提供更全面和可靠的数据支持。
(2)全景图像视觉特征编码:
采用ViT方式将输入图像分割成小块并通过线性层进行特征嵌入可能导致详细信息的丢失,尤其是在进行特征恢复任务时。为了克服这一问题,本实施例提出一种新的方法,即将输入特征划分为像素级的卷积输入,每个卷积输入包含9个不同位置的特征值,每个卷积的特征值是根据全景图像的投影信息获得的,包括中心坐标(1个)和邻域坐标(8个);首先获取中心坐标,然后通过邻域投影查找最相关的8个邻域坐标,以确定在ERP投影上的位置;为了在特征层中获取邻域位置信息并消除扭曲,本实施例采用球面切线投影的方法,即在球面中心坐标位置将球面上的8邻域投影到平面,从而获得平面上的9个坐标点,具体为:
(21)ViT 处理:
,/>表示ViT处理的函数形式, ImageSegmentation 为图像分割函数,LinearLayer 为线性层特征嵌入函数,Image为输入图像;
(22)带坐标的逐像素卷积输入:
,其中/>为视觉特征,/>和/>分别表示中心坐标和邻域坐标的函数;input为经过/>提取的特征信息;
(23)ERP投影和球面切线投影:
表示ERP投影函数,SphericalProjection 表示球面投影函数,SphericalTangentPatchProjection 表示球面切线投影函数,/>为球面上与ERP上相对应位置的坐标信息。
全景图像结构特征编码的原因在于全景图像的特殊性,需要更好地处理球面几何,以及在一些任务中需要全局信息的需求,这种编码方法能更好地捕捉全局上下文信息、提升密集预测性能、补偿图像畸变、支持视觉导航和全景图像编辑,使得对全景图像的处理更加有效和准确;将角点检测和边缘检测的结果输入到网络中以提取结构信息是一种有效的方法,充分利用这两种特征的信息来获取更全面的结构表示,同时利用角点和边缘的信息,能够更全面地理解图像的结构,具体的,
(31)角点检测:使用角点检测算法(本实施例采用Shi-Tomasi或Harris角点检测算法)识别全景图像中的关键角点,得到角点的位置和强度信息,其中I为全景图像,/>为角点的位置,/>为强度信息;
(32)边缘检测:使用边缘检测算法(本实施例采用Canny、Sobel算法)检测全景图像中的边缘,边缘的位置和强度信息,其中/>为边缘的位置,/>为强度信息;
(33)输入到网络:角点检测和边缘检测结果输入到深度学习网络中进行结构信息提取,深度学习网络将检测结果映射到更高级别的结构信息,得到角点特征:
;边缘特征为/>
(34)特征融合:将角点特征和边缘特征通过拼接融合方法融合成一个新的特征表示,得到融合后的特征即为结构特征
,其中/>为特征拼接, />为卷积层。
(4)全景图像视觉结构特征交互:
视觉特征可能更适用于捕捉图像的颜色、纹理等外观信息,而结构特征则更擅长描述图像的几何结构、角点、边缘等,融合可以弥补各自特征的不足,提高对图像整体特征的描述准确性;通过结合视觉和结构特征,可以更准确地理解全景图像中的场景,提高对物体、环境和空间结构的认知,而且结合球面结构信息进行畸变校正,可以减轻由于球面展开而引起的畸变,提高全景图像的质量,能够从数据中学习到更高级别的特征表示,提高对全景图像的抽象能力和泛化能力。本实施例采用结合深度特征的奇异值分解,用于视觉和结构特征之间的交互,深度学习网络学习到数据中的复杂关系,奇异值分解用于降维和提取模态间的关键信息,将结合两者有效地实现多模态信息的融合,并在降维后的共享表示上执行具体的任务,具体为:
其中为线性层,对于每对特征/>和/>,计算他们之间的余弦相似度,其中k为特征V和S的维度,然后将余弦相似度值填入相似度矩阵M的对应位置/>,/>,重复这个过程,到填满整个相似度矩阵,增强后的视觉特征为/>,其中i 表示特征V的维度索引,j 表示特征S的维度索引,在增强后的视觉特征Vi′ 中,每个原始特征Vij被相似性矩阵M中对应位置的元素加权,这样相似性高的结构特征对应的视觉特征会得到更高的权重。
(5)视觉特征和结构特征噪声过滤:
噪声过滤有助于去除图像中的随机噪声,从而提高视觉特征的质量,更容易从图像中提取有用的、真实的结构信息,而不受不相关的干扰影响,干净的视觉特征有助于模型更准确地学习图像中的模式和特征,去除噪声更专注于真实的图像结构,有助于提高模型的泛化能力和性能,使用现有的滤波或去噪技术对视觉特征进行处理,以减少可能存在的噪声,将经过噪声过滤的增强后的视觉特征输入到ConvGRU (Convolutional GatedRecurrent Unit,卷积门控循环单元)中,ConvGRU是一种融合了卷积和门控循环单元的神经网络结构,通常用于序列建模任务,,其中NoiseFiltered 表示噪声过滤操作,ConvGRU 表示卷积门控循环单元的操作。
(6)全景全局特征编码:
在图像修复任务中,使用全局特征具有多方面的优势,全局特征不仅能够提供更广泛的上下文信息,有助于理解图像中各部分之间的关系,而且能够捕捉整体结构,有利于保持修复后图像的自然外观,通过处理整个图像的信息,全局特征有助于确保修复结果在整体上表现一致而不失真。此外,全局特征包含更高级的语义信息,为模型提供更深入的图像理解,从而支持更合理的修复,利用全局特征可以提高图像修复模型对整体图像上下文的感知,增强修复的准确性和视觉质量,本实施例为了获得全局特征,先采用全局池化层对视觉特征进行操作,将其转化为一个高维度的向量,将整个图像的信息综合到一个向量中,而不是保留每个位置的细节,从而形成全局特征/>,其中GlobalPooling 表示全局池化操作,本实施例为平均池化或最大池化;再将获得的全局特征被描述为包含高维度语义信息得到高维度的全局特征/>,SemanticInfo 表示从全局特征中提取高维度语义信息的操作,主要包含Linear层操作,这意味着这个向量不仅包括图像的低级纹理和结构信息,还包含了更高层次、更抽象的语义信息,有助于更深入地理解图像的内容和语境。
(7)全景全局特征引入编码层:
高维度的全局特征 不仅仅被视为一种抽象的表示,更是被认为在全景图像修复任务中扮演着至关重要的角色,在图像修复的具体执行中,这些全局特征被当作有力的引导,为修复过程提供了高层次的信息支持,这种引导不仅仅局限于低级的纹理和结构信息,而是深入到更为抽象和语义的层面,通过利用这些全局特征,修复算法得以更好地理解全景图像的整体上下文和语境,从而能够生成更符合全局语义规律的修复结果,这种全景图像修复的方法,借助高维度的全局特征,不仅提高了修复的准确性,同时也确保了修复结果在整个场景中的一致性和合理性,具体为:
其中α 是权重系数,用于平衡对相似性的影响,
是一个用于考虑全局特征的相似性度量,本实施例选择余弦相似性,
其中β 是权重系数,用于平衡与/>的相似性和/>与/>的相似性,表示/>与/> 之间的余弦相似性,/>表示/>与/>之间的余弦相似性,通过这种定义,权重系数β 允许灵活地调整局部特征和全局特征在相似性计算中的重要性,最后得到增强后特征/>
(8)全景特征缺失区域相似性约束:
全景特征缺失区域相似性约束是通过对当前局部区域与其他区域之间的相似性进行约束,实现对缺失区域的有效修复,该步骤在整体图像修复任务中扮演着关键的角色,充分利用了特征中包含的全局信息、视觉信息和结构信息,本实施例利用全景图像中已有的局部区域与其他区域的相似性,为缺失区域的填充提供了有力的参考,相似性约束的引入有助于确保修复结果更符合图像整体的语境,使得缺失区域的填充更为准确和合理,由于特征中包含全局信息,能够更全面地理解图像,从而更好地指导缺失区域的填充过程,具体为:
其中为步骤(7)增强后的特征,Wq, Wk, Wv 是分别用于查询、键、值的权重矩阵,Softmax 是 Softmax 激活函数,/>dk 的平方根,其中dk 是查询/键向量的维度。
(9)特征精细化输出:
特征精细化输出的主要任务是将经过增强处理的特征进一步细化,以生成最终的输出,这一步骤的目标在于将特征转化为具有更高层次语义和更细致细节的填充后图像信息,在这个过程中,通过进一步优化和调整特征表示以确保输出结果更加符合整体图像的结构和语境;通过特征精细化输出,能够更好地捕捉图像中的微观和宏观信息,使得生成的图像更具真实感和视觉上的一致性,这涉及到对特征空间的进一步推导和精炼,以更好地反映图像的细节和语义特征,特征精细化输出的过程用以下的公式来表示:,其中:/>是经过约束处理后的特征,Refine 表示特征精细化操作,特征精细化操作包括卷积层和激活层操作,以确保在特征空间中进行有效的优化和调整,以生成更准确、更富有细节的图像信息;特征精细化输出通过对增强后的特征进行深层次的处理,为最终输出提供了更为准确和丰富的信息,从而提升了生成图像的质量和逼真度。
本实施例选用 Adam 优化器,并设置学习率为 0.0001,以训练整个全景图像修复网络,在训练过程中,对图像样本进行精心裁剪,将其尺寸调整为 256 × 256,同时采用随机位置放置缺失区域的策略,这一设计旨在模拟实际场景下的不同缺失情况,更全面地学习全景图像的修复任务,特别是在涉及全局结构的情况下,损失函数设计为:
其中重建损失(Reconstruction Loss)通过比较生成的输出和目标图像之间的像素级别差异,学习生成与目标一致的图像;感知损失(Perceptual Loss)通过比较生成和目标图像在深度学习网络中的特征表示,捕捉更高层次的语义信息,使生成图像更符合目标图像的视觉感知;风格损失(Style Loss)通过比较生成和目标图像的风格特征,使生成的图像在纹理和风格上更接近目标图像。
本实施例先通过构建全景图像修复数据集,提供丰富的训练样本,再利用全景图像视觉和结构特征编码,将图像中的视觉信息和结构信息进行有效的表示,然后进行全景图像视觉结构特征交互,以确保在修复过程中更好地融合这两方面的信息,再通过视觉特征和结构特征噪声过滤,削弱干扰信号,提高修复的准确性,全景全局特征编码的引入增强了对全局信息的把握,考虑到整个图像场景,通过引入编码层,算法使全景图像更好地融合全局信息,提高修复的整体一致性,特征间相似性约束确保了不同特征之间的一致性,有助于产生更连贯和真实的修复结果,实现了对特征的重建和优化,从而得到精细化的全景图像修复输出,整个过程通过一系列有机整合的步骤,从数据集构建到修复输出,全面考虑了全景图像的视觉和结构特征,以及全局信息的影响,从而实现了全景图像修复的高效而全面的处理。
需要强调的是,在全景图像修复过程中,本实施例引入了全局结构编码的关键概念,通过对全景图像的全局结构进行编码,更好地理解图像的整体语境,从而更准确地进行修复,全局结构编码策略允许模型学习到全景图像的更高级别、更抽象的语义信息,这对于整体修复过程至关重要,本实施例所有的实验和评估过程都在相同的硬件平台上进行,该平台配备了 3GHz Intel i7-9700F CPU、32GB 内存、256GB 交换空间以及 NVIDIARTX3090 GPU 的 Ubuntu 机器。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (10)

1.一种基于全局结构编码的全景图像修复方法,其特征在于,具体包括如下步骤:
(1)收集并整理包含全景图像构建全景图像修复数据集;
(2)将全景图像修复数据集中的全景图像作为输入图像,采用ViT方式将输入图像分割成小块并通过线性层进行特征嵌入得到视觉特征,在特征嵌入过程中,将输入特征划分为像素级的卷积输入;
(3)对全景图像进行角点检测和边缘检测,将角点检测和边缘检测的结构输入深度学习网络提取全景图像结构特征分别得到角点特征和边缘特征,并将角点特征和边缘特征进行拼接融合得到结构特征;
(4)采用结合深度特征的奇异值分解方式进行视觉特征和结构特征之间的交互得到增强后的视觉特征;
(5)使用滤波或去噪技术对增强后的视觉特征进行处理得到经过噪声过滤的视觉特征,再将经过噪声过滤的视觉特征输入到convGRU神经网络中得到输出结果;
(6)采用全局池化层对步骤(2)得到的视觉特征进行操作,将其转化为一个高维度的向量,得到全局特征,并从全局特征中提取高维度语义信息得到高纬度的全局特征;
(7)将全局特征进行修复,得到增强后的特征;
(8)对步骤(7)得到的增强后的特征,通过对当前局部区域与其他区域之间的相似性进行约束得到经过约束处理后的特征;
(9)对经过约束处理后的特征进行精细化处理后输出;
(10)采用 Adam 优化器训练整个网络模型,并对训练好的网络模型进行测试。
2. 根据权利要求1所述基于全局结构编码的全景图像修复方法,其特征在于,步骤(2)所述ViT 方式为:,/>表示ViT处理的函数形式, ImageSegmentation 为图像分割函数,LinearLayer 为线性层特征嵌入函数,Image为输入图像;
每个所述卷积输入包含9个不同位置的特征值,每个卷积的特征值是根据全景图像的投影信息获得的,包括1个中心坐标和8个邻域坐标,先获取中心坐标,然后通过邻域投影得到8个邻域坐标,从而确定ERP投影的位置,再采用球面切线投影的方法,在球面中心坐标位置将球面上的8邻域投影到平面,从而获得平面上的9个坐标点,具体表示为:
其中为视觉特征,/>和/>分别表示中心坐标和邻域坐标的函数;input为经过/>提取的特征信息;
表示ERP投影函数,SphericalProjection 表示球面投影函数,SphericalTangentPatchProjection 表示球面切线投影函数,/>为球面上与ERP上相对应位置的坐标信息。
3.根据权利要求2所述基于全局结构编码的全景图像修复方法,其特征在于,步骤(3)所述角点检测使用角点检测算法识别全景图像中的关键角点,得到角点的位置和强度信息/>,其中I为全景图像,/>为角点的位置,/>为强度信息;
所述边缘检测使用边缘检测算法检测全景图像中的边缘,获得边缘的位置和强度信息/>,其中/>为边缘的位置,/>为强度信息;
所述角点特征为
所述边缘特征为;其中/>表示深度学习网络;
所述结构特征为,其中为特征拼接, />为卷积层。
4.根据权利要求3所述基于全局结构编码的全景图像修复方法,其特征在于,步骤(4)的具体过程表示为:
其中为线性层,对于每对特征/>和/>,计算他们之间的余弦相似度,其中k为特征V和S的维度,然后将余弦相似度值填入相似度矩阵M的对应位置/>,/>,重复这个过程,到填满整个相似度矩阵,增强后的视觉特征为/>,其中i 表示特征V的维度索引,j 表示特征S的维度索引,在增强后的视觉特征Vi′ 中,每个原始特征Vij被相似性矩阵M中对应位置的元素加权。
5.根据权利要求4所述基于全局结构编码的全景图像修复方法,其特征在于,步骤(5)得到的输出结果为:,其中NoiseFiltered表示噪声过滤操作,ConvGRU 表示卷积门控循环单元的操作。
6.根据权利要求5所述基于全局结构编码的全景图像修复方法,其特征在于,步骤(6)所述全局特征为,GlobalPooling 表示全局池化操作;高纬度的全局特征为/>,SemanticInfo 表示从全局特征中提取高维度语义信息的操作。
7.根据权利要求6所述基于全局结构编码的全景图像修复方法,其特征在于,步骤(7)增强后的特征为,其中/>,α为权重系数,用于平衡/>对相似性的影响,
β为权重系数,用于平衡与/>的相似性和/>与/>的相似性,/>表示/>与/> 之间的余弦相似性,/>表示/>与/>之间的余弦相似性。
8.根据权利要求7所述基于全局结构编码的全景图像修复方法,其特征在于,步骤(8)经过约束处理后的特征为:
为步骤(7)增强后的特征,Wq, Wk, Wv 是分别用于查询、键、值的权重矩阵,Softmax 是 Softmax 激活函数,/>dk 的平方根,其中dk 是查询/键向量的维度。
9.根据权利要求8所述基于全局结构编码的全景图像修复方法,其特征在于,步骤(9)的输出结果为:,其中:/>是经过约束处理后的特征,Refine 表示特征精细化操作,特征精细化操作包括卷积层和激活层操作。
10.根据权利要求9所述基于全局结构编码的全景图像修复方法,其特征在于,步骤(10)在进行网络训练时,将样本图像的尺寸调整为 256×256,同时采用随机位置放置缺失区域的策略,损失函数为:
其中Reconstruction Loss为重建损失,Perceptual Loss为感知损失,Style Loss为风格损失,GT表示不需要修复的完整图像。
CN202311797008.0A 2023-12-26 2023-12-26 一种基于全局结构编码的全景图像修复方法 Active CN117474806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311797008.0A CN117474806B (zh) 2023-12-26 2023-12-26 一种基于全局结构编码的全景图像修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311797008.0A CN117474806B (zh) 2023-12-26 2023-12-26 一种基于全局结构编码的全景图像修复方法

Publications (2)

Publication Number Publication Date
CN117474806A true CN117474806A (zh) 2024-01-30
CN117474806B CN117474806B (zh) 2024-04-12

Family

ID=89629652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311797008.0A Active CN117474806B (zh) 2023-12-26 2023-12-26 一种基于全局结构编码的全景图像修复方法

Country Status (1)

Country Link
CN (1) CN117474806B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708576A (zh) * 2012-05-18 2012-10-03 西安电子科技大学 基于结构字典的分块图像压缩感知重建方法
CN104408158A (zh) * 2014-12-05 2015-03-11 合肥工业大学 一种基于几何重构和语义融合的视点追踪方法
CN112132770A (zh) * 2020-09-21 2020-12-25 腾讯科技(深圳)有限公司 图像修复的方法、装置、计算机可读介质及电子设备
US20210357648A1 (en) * 2019-02-15 2021-11-18 Rutgers, The State University Of New Jersey Image processing neural network systems and methods with scene understanding
CN114862814A (zh) * 2022-05-18 2022-08-05 上海师范大学天华学院 太阳能电池板缺陷检测方法及系统、存储介质及终端
US20230019211A1 (en) * 2021-06-30 2023-01-19 Nvidia Corporation Pretraining framework for neural networks
CN116309155A (zh) * 2023-03-08 2023-06-23 中国传媒大学 基于卷积和转换器混合网络的图像修复方法、模型和装置
CN116612167A (zh) * 2023-05-11 2023-08-18 常州大学 一种实木锯材去缺陷的纹理拼接方法
CN116758507A (zh) * 2023-07-03 2023-09-15 中铁建设集团有限公司 基于病害图像采集、分割的道面质量分析方法、装置及程序
CN116863014A (zh) * 2023-05-29 2023-10-10 东南大学 一种基于深度双域联合引导学习的ldct图像重建方法
CN116934613A (zh) * 2023-06-19 2023-10-24 齐鲁工业大学(山东省科学院) 一种用于文字修复的分支卷积通道注意力模块
CN116978061A (zh) * 2023-07-28 2023-10-31 重庆邮电大学 一种基于多特征融合的遮挡行人再识别方法
CN117115359A (zh) * 2023-10-17 2023-11-24 国网江西省电力有限公司信息通信分公司 一种基于深度图融合的多视图电网三维空间数据重建方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708576A (zh) * 2012-05-18 2012-10-03 西安电子科技大学 基于结构字典的分块图像压缩感知重建方法
CN104408158A (zh) * 2014-12-05 2015-03-11 合肥工业大学 一种基于几何重构和语义融合的视点追踪方法
US20210357648A1 (en) * 2019-02-15 2021-11-18 Rutgers, The State University Of New Jersey Image processing neural network systems and methods with scene understanding
CN112132770A (zh) * 2020-09-21 2020-12-25 腾讯科技(深圳)有限公司 图像修复的方法、装置、计算机可读介质及电子设备
US20230019211A1 (en) * 2021-06-30 2023-01-19 Nvidia Corporation Pretraining framework for neural networks
CN114862814A (zh) * 2022-05-18 2022-08-05 上海师范大学天华学院 太阳能电池板缺陷检测方法及系统、存储介质及终端
CN116309155A (zh) * 2023-03-08 2023-06-23 中国传媒大学 基于卷积和转换器混合网络的图像修复方法、模型和装置
CN116612167A (zh) * 2023-05-11 2023-08-18 常州大学 一种实木锯材去缺陷的纹理拼接方法
CN116863014A (zh) * 2023-05-29 2023-10-10 东南大学 一种基于深度双域联合引导学习的ldct图像重建方法
CN116934613A (zh) * 2023-06-19 2023-10-24 齐鲁工业大学(山东省科学院) 一种用于文字修复的分支卷积通道注意力模块
CN116758507A (zh) * 2023-07-03 2023-09-15 中铁建设集团有限公司 基于病害图像采集、分割的道面质量分析方法、装置及程序
CN116978061A (zh) * 2023-07-28 2023-10-31 重庆邮电大学 一种基于多特征融合的遮挡行人再识别方法
CN117115359A (zh) * 2023-10-17 2023-11-24 国网江西省电力有限公司信息通信分公司 一种基于深度图融合的多视图电网三维空间数据重建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LINGFENG WANG等: "("All Metadata":image inpainting) AND ("All Metadata":ViT OR "All Metadata":vision transformer)", 《2022 INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, COMPUTER VISION AND MACHINE LEARNING (ICICML)》, 12 February 2023 (2023-02-12), pages 1 - 12 *
孟丽莎等: "基于密集卷积生成对抗网络的图像修复", 《计算机科学》, vol. 47, no. 08, 15 April 2020 (2020-04-15), pages 202 - 207 *
李志丹等: "基于结构偏移映射统计和多方向特征的MRF图像修复算法", 《电子学报》, no. 5, 1 July 2020 (2020-07-01), pages 985 - 989 *

Also Published As

Publication number Publication date
CN117474806B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN109003325B (zh) 一种三维重建的方法、介质、装置和计算设备
CN109544456A (zh) 基于二维图像和三维点云数据融合的全景环境感知方法
CN113572962B (zh) 室外自然场景光照估计方法及装置
CN111325693B (zh) 一种基于单视点rgb-d图像的大尺度全景视点合成方法
CN112001859A (zh) 一种人脸图像的修复方法及系统
CN101794459A (zh) 一种立体视觉影像与三维虚拟物体的无缝融合方法
CN113808261A (zh) 一种基于全景图的自监督学习场景点云补全的数据集生成方法
CN112801047B (zh) 缺陷检测方法、装置、电子设备及可读存储介质
EP4296947A1 (en) Calibration information determination method and apparatus, and electronic device
CN115082254A (zh) 一种变电站精益管控数字孪生系统
Zhu et al. Spatially-varying outdoor lighting estimation from intrinsics
CN112562056A (zh) 虚拟演播室中虚拟灯光的控制方法、装置、介质与设备
CN117456136A (zh) 一种基于多模态视觉识别的数字孪生场景智能生成方法
Yang et al. Image translation based synthetic data generation for industrial object detection and pose estimation
CN117094895B (zh) 图像全景拼接方法及其系统
Li et al. $\mathcal {S}^{2} $ Net: Accurate Panorama Depth Estimation on Spherical Surface
CN103646397A (zh) 基于多源数据融合的实时合成孔径透视成像方法
CN117474806B (zh) 一种基于全局结构编码的全景图像修复方法
CN112509110A (zh) 一种陆地对抗智能体的图像数据集自动采取与标注框架
CN113673567B (zh) 基于多角度子区域自适应的全景图情感识别方法及系统
CN116385577A (zh) 虚拟视点图像生成方法及装置
CN112002019B (zh) 一种基于mr混合现实的模拟人物阴影的方法
Meng et al. Distortion-aware room layout estimation from a single fisheye image
CN113781372A (zh) 一种基于深度学习的戏曲脸谱生成方法及系统
Liang et al. Simulation-based machine learning training data generation system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant