CN115456896A - 面向顶视鱼眼视觉任务的旋转卷积方法 - Google Patents

面向顶视鱼眼视觉任务的旋转卷积方法 Download PDF

Info

Publication number
CN115456896A
CN115456896A CN202211082599.9A CN202211082599A CN115456896A CN 115456896 A CN115456896 A CN 115456896A CN 202211082599 A CN202211082599 A CN 202211082599A CN 115456896 A CN115456896 A CN 115456896A
Authority
CN
China
Prior art keywords
convolution
view fisheye
view
image
center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211082599.9A
Other languages
English (en)
Inventor
路小波
魏煊
黄卫
魏运
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202211082599.9A priority Critical patent/CN115456896A/zh
Publication of CN115456896A publication Critical patent/CN115456896A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/32Indexing scheme for image data processing or generation, in general involving image mosaicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向顶视鱼眼视觉任务的旋转卷积方法,当计算旋转卷积所需要的掩膜时,将不同方向的卷积核作用于顶视鱼眼图像的不同区域,且进行卷积操作时,让输入特征图分别与不同旋转状态的卷积核进行中心限制可变形卷积;本发明基于卷积神经网络的旋转等变性提出旋转卷积核,并将旋转后的卷积核应用于顶视鱼眼图像中的不同位置,同时提出中心限制的可变形卷积并将其应用于旋转卷积,使得卷积核可以自适应的旋转和变形,改进了卷积核从顶视鱼眼图像中具有不同旋转状态的对象中提取相似特征的能力,极大提高了卷积神经网络在顶视鱼眼视觉检测和分割任务中的准确率。

Description

面向顶视鱼眼视觉任务的旋转卷积方法
技术领域
本发明属于人工智能技术领域,具体涉及一种面向顶视鱼眼视觉任务的旋转卷积方法。
背景技术
顶视鱼眼摄像头是拍摄360度视频的最具经济效益的设备,在视觉监控中有着广泛的应用范围。与传统透视相机不同,传统透视相机对投影到2D平面上的3D场景的视野进行采样,顶视鱼眼摄像头捕获围绕其光学中心的全向视图。因此,顶视鱼眼图像比传统透视图像提供更多的空间信息。
顶视鱼眼摄像头由于要捕捉全向视图,因此其图像相比于传统图像在执行视觉任务时更有难度。其主要原因有两点:第一,传统图像中与现实世界中具有相同的相对位置,而顶视鱼眼图像中的物体绕光轴旋转,而卷积核并不具备旋转等变性;第二,为了捕捉更大的视场,在顶视鱼眼图像中引入了更多的畸变,在鱼眼图像的边缘处更为严重。因此,普通的卷积神经网络应用于顶视鱼眼视觉任务中时,精度会被严重降低。
发明内容
本发明正是针对现有技术中卷积核不具备旋转等变性、且图像中引入更多畸变的问题,提供一种面向顶视鱼眼视觉任务的旋转卷积方法,针对图像旋转的问题,本发明基于卷积神经网络的旋转等变性提出旋转卷积核,并将旋转后的卷积核应用于顶视鱼眼图像中的不同位置;针对图像畸变的问题,本发明提出中心限制的可变形卷积并将其应用于旋转卷积;该卷积方法使得卷积核可以自适应的旋转和变形,改进了卷积核从顶视鱼眼图像中具有不同旋转状态的对象中提取相似特征的能力,极大提高了卷积神经网络在顶视鱼眼视觉检测和分割任务中的准确率。
为了实现上述目的,本发明采取的技术方案是:面向顶视鱼眼视觉任务的旋转卷积方法,当计算旋转卷积所需要的掩膜时,将不同方向的卷积核作用于顶视鱼眼图像的不同区域,且进行卷积操作时,让输入特征图分别与不同旋转状态的卷积核进行中心限制可变形卷积。
作为本发明的进一步改进,本发明方法包括如下步骤:
S1,旋转卷积输入图获取:提取顶视鱼眼图片的特征并将其输入旋转卷积;
S2,掩膜计算:计算旋转卷积所需要的掩膜,所述掩膜用于将不同方向的卷积核作用于顶视鱼眼图像的不同区域,生成的掩膜尺寸与图像原始尺寸相同,用在不同尺度的特征时需要进行降采样;
S3,卷积核旋转拼接:将卷积核复制成4份,并将4份卷积核分别逆时针旋转0°,90°,180°和270°,4份旋转后的卷积核沿输出特征维度进行拼接;
S4,中心限制可变形卷积:旋转后的卷积核和输入特征进行中心限制可变形卷积;
S5,特征图输出:对经过步骤S4中心限制可变形卷积进行卷积操作,得到的输出结果沿特征维度分解为4份,并分别与步骤S2计算得到的掩膜对应相乘得到笛卡尔积,再将4份笛卡尔积相加得到旋转卷积的最终结果,特征图输出。
与现有技术相比,现有技术的主要思路是群等变卷积,即扩充卷积核为旋转群,让旋转群中每个卷积核与输入图像卷积生成输出特征图,这样的方式会对特征图增加新的维度,占用更多数据;此外,目前优化卷积神经网络的旋转等变性的方法主要基于随机旋转的图像,即图像内部的感知目标以随机规律旋转,而顶视鱼眼图像中的感知目标则有固定规律,因此群等变卷积并不能最佳的适应顶视鱼眼图像的旋转规律。本发明针对顶视鱼眼图像旋转的规律,基于卷积神经网络的旋转等变性提出旋转卷积核,并将旋转后的卷积核应用于顶视鱼眼图像中的不同位置;针对图像畸变的问题,本发明提出中心限制的可变形卷积并将其应用于旋转卷积,该卷积方法使得卷积核可以自适应的旋转和变形,改进了卷积核从顶视鱼眼图像中具有不同旋转状态的对象中提取相似特征的能力,极大提高了卷积神经网络在顶视鱼眼视觉检测和分割任务中的准确率。
附图说明
图1是本发明面向顶视鱼眼视觉任务的旋转卷积方法的步骤流程图;
图2是本发明实施例1步骤S2旋转卷积掩膜生成示意图;
图3是本发明实施例1步骤S3卷积核旋转时卷积核内部参数对应关系图;
图4是本发明方法中心限制可变形卷积和普通卷积的对比示意图;
图5是本发明实施例1步骤S5的旋转卷积原理图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
实施例1
面向顶视鱼眼视觉任务的旋转卷积方法,如图1所示,包括如下步骤:
步骤S1、提取顶视鱼眼图片的特征并将其输入旋转卷积
顶视鱼眼原始图像经过连续多层的普通卷积得到旋转卷积的输入特征图,在卷积神经网络中,底层特征包括更多细节信息,顶层特征包括更多语义信息,因此将旋转卷积应用于顶层特征。将顶层特征输入旋转卷积,在旋转卷积结束后,可将旋转卷积的结果送入下一次旋转卷积或经过普通卷积的解码得到检测任务或分割任务的结果。特别地,用于旋转卷积的顶视鱼眼图像宽高比为1:1,并且成像区域的中心与图像中心大致重合。
步骤S2、计算旋转卷积所需要的掩膜
所述掩膜用于将不同方向的卷积核作用于顶视鱼眼图像的不同区域。具体的,在顶视鱼眼图像中,以图像中心为原点沿右方向为正方向建立极坐标系,上方区域的物体方向大致朝上,因此让90°的卷积核主要作用于该区域;而右方区域的物体方向大致朝右,因此让0°的卷积核主要作用于该区域,以此类推。生成的掩膜尺寸与图像原始尺寸相同,用在不同尺度的特征时需要进行降采样。以用于上方区域的掩膜为例,如图2所示,在与输入图像分辨率相同的基础上,通过下述极坐标系式生成用于上方区域的90°掩膜:
Figure BDA0003833970420000041
其中,r为极坐标系下的半径,θ为极坐标系下的角度。
将90°掩膜顺时针旋转90°得到用于右方区域的0°掩膜,0°掩膜逆时针旋转180°得到用于左方区域的180°掩膜,0°掩膜逆时针旋转270°得到用于下方区域的270°掩膜。
步骤S3、将卷积核复制成4份,4份卷积核分别逆时针旋转0°,90°,180°,270°。
具体的,输入特征图维度为[B,C_in,W_in,H_in],其中B为特征图的Batch维度,C_in为特征图的输入通道维度,W_in、H_in分别为输入特征图的宽、高,卷积核维度为[C_out,C_in,w,w],其中C_out为输出特征维度,w为卷积核的宽度。以w为3的3×3卷积核为例,旋转时按照图3所示的参数位置读取数据,未旋转时的卷积核左上角参数a00在旋转90度后转移到卷积核的左下角,同理右上、右下、左下角的参数a02、a22、a20在旋转90度后转移到卷积核的左上、右上、右下角;在旋转180度时,左上、右上、右下、左下角的参数将旋转到右下、左下、左上、右上角处,其他参数也按照类似规律旋转。将4份旋转后的卷积核沿输出维度进行拼接,拼接后的卷积核维度为:[4*C_out,C_in,w,w]。
步骤S4、旋转后的卷积核和输入特征进行中心限制可变形卷积
如图4所示,由于鱼眼图像畸变导致的感知目标形状变化和图像失真,导致传统的卷积神经网络结构对鱼眼图像进行目标感知的效果不佳,采用可变形卷积对卷积神经网络进行优化是让深度学习模型适应图像畸变的有效方法。通过额外的卷积层学习卷积核网格位置的偏置和权重,再固定卷积核中心位置不变以实现中心限制可变形卷积。由于卷积核与输出特征以相同方式拼接,进行一次卷积操作即可让输入特征图分别与4种旋转状态的卷积核进行中心限制可变形卷积。所述中心限制可变形卷积由以下方法得到:
Figure BDA0003833970420000051
其中,p为特征图中的位置坐标;pk∈{(-1,-1),(-1,-0),...,(1,0),(1,1)}为卷积核网格采样位置的坐标,(-1,-1)、(0,0)分别为左上角和中心的索引;k为卷积核网格采样位置的个数,wk为卷积核在不同卷积核网格位置中的参数;△pk、△mk分别为可变形卷积中特征网格采样位置和系数的偏移量,该偏置量由一个普通卷积模块学习得到;x、y分别为输入和输出特征。为了保证更多的空间结构,限制了可变形卷积核的中心,使其位置和系数的偏移量保持为常数。
步骤S5、4份卷积结果乘以掩膜后逐位相加得到旋转卷积的结果
具体的,由步骤S4得到的输出特征维度为[B,4*C_out,W,H],其中B为特征图的Batch维度,C_out为旋转卷积的输出通道维度,W_out、H_out分别为输出特征图的宽、高。将该特征沿特征维度分解为4份维度为[B,C_out,W,H]的特征图,其中第一份为输入特征与0°卷积核作用的输出特征,第二份为输入特征与90°卷积核作用的输出特征,以此类推。如图5所示,为了让0°卷积核作用顶视鱼眼图像的右侧D区域,因此将第一份输出特征与步骤S2生成的0°掩膜计算笛卡尔积,类似的,将第二、三、四份输出特征与步骤S2生成的90°、180°、270°掩膜计算笛卡尔积。最后将上述4份输出特征图直接相加得到维度为[B,C_out,W,H]的旋转卷积输出特征图。
实施例2
以输入维度为[64,64,32]的顶视鱼眼顶层特征、输出维度为[64,64,16]的特征图为例,说明本发明提出的旋转卷积方法。
首先通过步骤S2所述的旋转卷积掩膜生成方法,用极坐标公式生成4张维度为[64,64]的掩膜,如图2所示,分别为0°右朝向的掩膜,90°上朝向的掩膜,180°左朝向的掩膜,以及270度下朝向的掩膜。之后如步骤S3所述将原始维度为[32,16,3,3]卷积核的卷积核复制成4份,并通过索引坐标的形式将4份卷积核分别逆时针旋转0°、90°、180°、270°,将4份卷积核沿输出维度(即第二维度)堆叠在一起形成维度为[32,64,3,3]的卷积核。用新得到的维度为[32,64,3,3]的卷积核和维度为[64,64,32]的输入特征作中心限制的可变形卷积得到维度为[64,64,64]的输出特征图,然后将输出特征图延通道维度(即第三维度)分解为4份维度为[64,64,16]的特征图,其中第一份为输入特征与0°卷积核卷积的结果,第二份为输入特征与90°卷积核卷积的结果,以此类推。之后将4份维度为[64,64,16]的特征图分别与四份维度为[64,64]的掩膜按位相乘,最后将相乘的结果进行逐位相加得到输出维度为[64,64,16]的特征图。通过这样的方式使得4个不同朝向的卷积核主要作用于图像的4个不同区域,实现旋转卷积。
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims (6)

1.面向顶视鱼眼视觉任务的旋转卷积方法,其特征在于:当计算旋转卷积所需要的掩膜时,将不同方向的卷积核作用于顶视鱼眼图像的不同区域,且进行卷积操作时,让输入特征图分别与不同旋转状态的卷积核进行中心限制可变形卷积。
2.如权利要求1所述的面向顶视鱼眼视觉任务的旋转卷积方法,其特征在于,包括如下步骤:
S1,旋转卷积输入图获取:提取顶视鱼眼图片的特征并将其输入旋转卷积;
S2,掩膜计算:计算旋转卷积所需要的掩膜,所述掩膜用于将不同方向的卷积核作用于顶视鱼眼图像的不同区域,生成的掩膜尺寸与图像原始尺寸相同,用在不同尺度的特征时需要进行降采样;
S3,卷积核旋转拼接:将卷积核复制成4份,并将4份卷积核分别逆时针旋转0°,90°,180°和270°,4份旋转后的卷积核沿输出特征维度进行拼接;
S4,中心限制可变形卷积:旋转后的卷积核和输入特征进行中心限制可变形卷积;
S5,特征图输出:对经过步骤S4中心限制可变形卷积进行卷积操作,得到的输出结果沿特征维度分解为4份,并分别与步骤S2计算得到的掩膜对应相乘得到笛卡尔积,再将4份笛卡尔积相加得到旋转卷积的最终结果,特征图输出。
3.如权利要求2所述的面向顶视鱼眼视觉任务的旋转卷积方法,其特征在于:所述步骤S1中顶视鱼眼图片的特征由顶视鱼眼原始图像经过连续多层的普通卷积操作后得到的顶层特征,所述顶层特征来自于宽高比为1:1,且成像区域的中心与图像中心重合的顶视鱼眼图片。
4.如权利要求2所述的面向顶视鱼眼视觉任务的旋转卷积方法,其特征在于:所述步骤S3中,在顶视鱼眼图像中,以图像中心为原点沿右方向为正方向建立极坐标系,用于上方区域的90°掩膜极坐标公式为::
Figure FDA0003833970410000021
其中,r为极坐标系下的半径,θ为极坐标系下的角度。
其他区域的掩膜通过该掩膜旋转即可得到。
5.如权利要求2所述的面向顶视鱼眼视觉任务的旋转卷积方法,其特征在于:所述步骤S4中,中心限制的可变形卷积由以下方法得到:
Figure FDA0003833970410000022
其中p为特征图中的位置坐标;pk∈{(-1,-1),(-1,-0),...,(1,0),(1,1)}为卷积核网格采样位置的坐标,(-1,-1)、(0,0)分别为左上角和中心的索引;k为卷积核网格采样位置的个数;wk为卷积核在不同卷积核网格位置中的参数;△pk、△mk分别为可变形卷积中特征网格采样位置和系数的偏移量;x、y分别为输入和输出特征。
6.如权利要求5所述的面向顶视鱼眼视觉任务的旋转卷积方法,其特征在于:所述步骤S4计算中心限制的可变形卷积时,可变形卷积中位置偏移量△pk和系数偏移量△mk保持为常数。
CN202211082599.9A 2022-09-06 2022-09-06 面向顶视鱼眼视觉任务的旋转卷积方法 Pending CN115456896A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211082599.9A CN115456896A (zh) 2022-09-06 2022-09-06 面向顶视鱼眼视觉任务的旋转卷积方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211082599.9A CN115456896A (zh) 2022-09-06 2022-09-06 面向顶视鱼眼视觉任务的旋转卷积方法

Publications (1)

Publication Number Publication Date
CN115456896A true CN115456896A (zh) 2022-12-09

Family

ID=84303512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211082599.9A Pending CN115456896A (zh) 2022-09-06 2022-09-06 面向顶视鱼眼视觉任务的旋转卷积方法

Country Status (1)

Country Link
CN (1) CN115456896A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152491A (zh) * 2023-01-03 2023-05-23 北京海天瑞声科技股份有限公司 一种语义分割方法、装置及存储介质
CN117808821A (zh) * 2023-12-29 2024-04-02 深圳希哈科技有限公司 一种垂直农业集装箱的全景分割算法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152491A (zh) * 2023-01-03 2023-05-23 北京海天瑞声科技股份有限公司 一种语义分割方法、装置及存储介质
CN116152491B (zh) * 2023-01-03 2023-12-26 北京海天瑞声科技股份有限公司 一种语义分割方法、装置及存储介质
CN117808821A (zh) * 2023-12-29 2024-04-02 深圳希哈科技有限公司 一种垂直农业集装箱的全景分割算法

Similar Documents

Publication Publication Date Title
CN115456896A (zh) 面向顶视鱼眼视觉任务的旋转卷积方法
CN107154023B (zh) 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法
TWI709107B (zh) 影像特徵提取方法及包含其顯著物體預測方法
US7865013B2 (en) System and method for registration of cubic fisheye hemispherical images
US6671400B1 (en) Panoramic image navigation system using neural network for correction of image distortion
US7817161B2 (en) Texture synthesis using dimensionality-reduced appearance space
CN113313732A (zh) 一种基于自监督学习的前视场景深度估计方法
TW202117611A (zh) 電腦視覺訓練系統及訓練電腦視覺系統的方法
CN111553845B (zh) 一种基于优化的三维重建的快速图像拼接方法
CN110880191B (zh) 基于直方图均衡化的红外立体相机动态外参计算方法
CN115456870A (zh) 基于外参估计的多图像拼接方法
CN106845555A (zh) 基于Bayer格式的图像匹配方法及图像匹配装置
Bergmann et al. Gravity alignment for single panorama depth inference
CN113327295A (zh) 一种基于级联全卷积神经网络的机器人快速抓取方法
US20240135632A1 (en) Method and appratus with neural rendering based on view augmentation
CN112927304B (zh) 一种基于卷积神经网络的鱼眼镜头标定方法
CN110910457A (zh) 基于角点特征的多光谱立体相机外参计算方法
US11967131B2 (en) System for processing an image, method for processing the image, method for training a neural network for processing the image, and recording medium for executing the method
JP7254849B2 (ja) 全方向ローカリゼーションのための回転等変向き推定
Komatsu et al. Effectiveness of u-net in denoising rgb images
CN112419172B (zh) 倾斜图像校正去模糊的遥感图像处理方法
US11797854B2 (en) Image processing device, image processing method and object recognition system
CN117593462B (zh) 三维空间场景的融合方法和系统
Yeh et al. Applying Deep Learning Neural Network with Randomly Downscaled Image and Data Augmentation to Multiscale Image Enlargement.
Yu et al. Sub-pixel convolution and edge detection for multi-view stereo

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination