CN110689071B - 一种基于结构化高阶特征的目标检测系统及方法 - Google Patents

一种基于结构化高阶特征的目标检测系统及方法 Download PDF

Info

Publication number
CN110689071B
CN110689071B CN201910912143.2A CN201910912143A CN110689071B CN 110689071 B CN110689071 B CN 110689071B CN 201910912143 A CN201910912143 A CN 201910912143A CN 110689071 B CN110689071 B CN 110689071B
Authority
CN
China
Prior art keywords
convolution
layer
output
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910912143.2A
Other languages
English (en)
Other versions
CN110689071A (zh
Inventor
左旺孟
王昊
王旗龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201910912143.2A priority Critical patent/CN110689071B/zh
Publication of CN110689071A publication Critical patent/CN110689071A/zh
Application granted granted Critical
Publication of CN110689071B publication Critical patent/CN110689071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于结构化高阶特征的目标检测系统及方法,它属于图像目标检测技术领域。本发明解决了现有方法在进行目标检测时仅仅使用了简单的判别信息少的一阶特征,导致无法准确地检测出图像中包含目标的问题。本发明的目标检测系统包括多尺度特征提取模块,结构化高阶特征提取模块,特征加权模块,特征融合模块,预选框生成模块,特征映射模块、分类及回归模块。多尺度特征提取模块用于提取多尺度的输出特征;结构化高阶特征提取模块用于获得结构化高阶特征,特征加权模块输出特征权重,特征融合模块将结构化高阶特征与特征权重进行按位点积,输出加权后的结构化高阶特征;再利用加权后的结构化高阶特征进行目标检测。本发明可以应用于图像目标检测。

Description

一种基于结构化高阶特征的目标检测系统及方法
技术领域
本发明属于图像目标检测技术领域,具体涉及一种基于结构化高阶特征的目标检测系统及方法。
背景技术
图像检测是计算机视觉和图像处理领域中的一项基本问题,其主要用于检测图像中包含的物体,输出物体的种类以及其所在坐标位置。
现有的图像目标检测方法主要包括基于手工提取特征的方法和基于深度学习提取特征的方法。
基于手工提取特征的方法,首先使用基于滑窗的方法,使用不同尺寸的矩形框一行一行地扫描整张图像,然后提取矩形框内的特征,判断是否有待检测的物体。
基于深度学习的图像目标检测方法,主要分为两个方向,分别是两阶段目标检测方法和一阶段目标检测方法。基于深度学习的两阶段目标检测方法首先在目标图像上生成多个区域预选框,然后对预选框内的目标区域进行分类以及回归,从而得到最终的检测结果。基于深度学习的一阶段目标检测方法首先将图像输入到卷积神经网络中,然后直接在卷积神经网络输出的特征图上进行坐标回归,这类目标检测方法不需要单独生成区域预选框,直接得到物体的位置坐标及其对应的分类置信度。
虽然现有方法在图像目标检测领域的研究已经取得了一定的成就,但是现有方法在进行目标检测时仅仅使用了简单的判别信息少的一阶特征,并无法准确地检测出图像中包含的目标。
发明内容
本发明的目的是为解决现有方法在进行目标检测时仅仅使用了简单的判别信息少的一阶特征,导致无法准确地检测出图像中包含的目标的问题,而提出了一种基于结构化高阶特征的目标检测系统及方法。
本发明为解决上述技术问题采取的技术方案是:
基于本发明的一个方面,一种基于结构化高阶特征的目标检测系统,
所述目标检测系统包括多尺度特征提取模块、结构化高阶特征提取模块、特征加权模块、特征融合模块、预选框生成模块、特征映射模块、分类及回归模块,其中:
所述多尺度特征提取模块用于对待检测图像的不同尺度特征进行融合,输出多尺度特征;并将多尺度特征输入结构化高阶特征提取模块;
所述结构化高阶特征提取模块用于对输入的多尺度特征进行结构化处理,输出结构化的高阶特征;并将结构化的高阶特征输入特征加权模块;
所述特征加权模块用于对输入的结构化高阶特征进行处理,输出特征权重;
所述特征融合模块用于将结构化的高阶特征与特征加权模块输出的特征权重进行按位点积,将按位点积后的特征进行级联,输出加权的结构化高阶特征;
并将加权的结构化高阶特征输入特征映射模块;
预选框生成模块用于生成预选框坐标,并将预选框坐标输入到特征映射模块;特征映射模块用于将预选框坐标映射到加权的结构化高阶特征上,输出经过坐标映射后的特征;
经过坐标映射后的特征输入分类及回归模块,通过分类及回归模块输出目标检测结果。
基于本发明的另一个方面,一种基于结构化高阶特征的目标检测方法,该方法具体为:
将待检测图像输入多尺度特征提取模块,利用多尺度特征提取模块对待检测图像的不同尺度特征进行融合,获得多尺度特征;
利用结构化高阶特征提取模块对多尺度特征进行结构化处理,即对多尺度特征进行维度变换后,获得维度变换后的多尺度特征,并对维度变换后的多尺度特征进行奇异值分解,获得维度变换后的多尺度特征的奇异值矩阵;再对奇异值矩阵进行幂指数操作,获得结构化的多尺度特征;再对结构化的多尺度特征进行处理获得结构化高阶特征;
利用特征加权模块对结构化高阶特征进行处理,即计算结构化高阶特征的特征图上的每个特征点的权重,输出特征权重;
利用特征融合模块将结构化的高阶特征与特征权重进行按位点积,并将点积后的特征进行级联后,获得加权的结构化高阶特征;
特征映射模块(即感兴趣池化层)将预选框生成模块输出的预选框坐标映射到加权的结构化高阶特征的特征图上,获得经过坐标映射后的尺寸为W*H的特征;
分类及回归模块根据坐标映射后的特征输出目标检测结果。
本发明的有益效果是:本发明提出了一种基于结构化高阶特征的目标检测系统及方法,本发明的目标检测系统包括多尺度特征提取模块,结构化高阶特征提取模块,特征加权模块,特征融合模块,预选框生成模块,特征映射模块、分类及回归模块,多尺度特征提取模块将待检测的图像作为输入,对不同尺度特征进行融合,输出多尺度特征;结构化高阶特征提取模块将多尺度特征作为输入,首先对输入特征进行结构化处理,获得结构化的多尺度特征,再对结构化的多尺度特征进行高阶特征提取,输出结构化高阶特征。特征加权模块输出特征权重,特征融合模块将结构化高阶特征与特征权重进行按位点积,输出加权后的结构化高阶特征;特征映射模块将预选框坐标映射到加权结构化高阶特征,输出经过坐标映射后的特征;分类及回归网络输入为经过坐标映射后的特征,输出为目标检测结果。因此本发明在进行目标检测时,利用的是提取出来的结构化高阶特征,可以准确地检测出图像中包含的目标,克服了现有方法中的不足,与现有方法相比,采用本发明的方法可以使目标检测的准确率提高1.5%左右。
附图说明
图1为本发明的基于结构化高阶特征的目标检测系统的结构图;
图2为多尺度特征提取模块的网络结构图;
图3为结构化高阶特征提取模块进行特征结构化的示意图;
图4为结构化高阶特征提取模块的网络结构图;
图5为特征加权模块的网络结构图;
图6为特征融合模块的网络结构图;
图7为生成预选框的示意图;
图8为目标检测结果图1;
图9为目标检测结果图2;
图中的数值越接近于1代表目标检测结果越准确。
具体实施方式
具体实施方式一:如图1所示,本实施方式所述的一种基于结构化高阶特征的目标检测系统,所述目标检测系统包括多尺度特征提取模块、结构化高阶特征提取模块、特征加权模块、特征融合模块、预选框生成模块、特征映射模块、分类及回归模块,其中:
所述多尺度特征提取模块用于对待检测图像的不同尺度特征进行融合,输出多尺度特征;并将多尺度特征输入结构化高阶特征提取模块;
所述结构化高阶特征提取模块用于对输入的多尺度特征进行结构化处理,输出结构化的高阶特征;并将结构化的高阶特征输入特征加权模块;
所述特征加权模块用于对输入的结构化高阶特征进行处理,输出特征权重;
所述特征融合模块用于将结构化的高阶特征与特征加权模块输出的特征权重进行按位点积,将按位点积后的特征进行级联,输出加权的结构化高阶特征;
并将加权的结构化高阶特征输入特征映射模块;
预选框生成模块用于生成预选框坐标,并将预选框坐标输入到特征映射模块;特征映射模块用于将预选框坐标映射到加权的结构化高阶特征上,输出经过坐标映射后的特征;
经过坐标映射后的特征输入分类及回归模块,通过分类及回归模块输出目标检测结果。
具体实施方式二:如图2所示,本实施方式与具体实施方式一不同的是:所述多尺度特征提取模块包括卷积层C1_1~卷积层C6_1,按位相加层ADD1,最大池化层P1~最大池化层P4和级联层CAT1~级联层CAT2;
卷积层C1_1用于对待检测的图像依次进行第一卷积操作和第一激活操作;
卷积层C1_2用于对卷积层C1_1的输出依次进行第二卷积操作和第二激活操作;
最大池化层P1用于对卷积层C1_2的输出进行第一最大池化操作;
卷积层C2_1用于对最大池化层P1的输出依次进行第三卷积操作和第三激活操作;
卷积层C2_2用于对卷积层C2_1的输出依次进行第四卷积操作和第四激活操作;
最大池化层P2用于对卷积层C2_2的输出进行第二最大池化操作;
卷积层C3_1用于对最大池化层P2的输出依次进行第五卷积操作和第五激活操作;
卷积层C3_2用于对卷积层C3_1的输出依次进行第六卷积操作和第六激活操作;
卷积层C3_3用于对卷积层C3_2的输出依次进行第七卷积操作和第七激活操作;
最大池化层P3用于对卷积层C3_3的输出进行第三最大池化操作;
卷积层C4_1用于对最大池化层P3的输出依次进行第八卷积操作和第八激活操作;
卷积层C4_2用于对卷积层C4_1的输出依次进行第九卷积操作和第九激活操作;
卷积层C4_3用于对卷积层C4_2的输出依次进行第十卷积操作和第十激活操作;
最大池化层P4用于对卷积层C4_3的输出进行第四最大池化操作;
级联层CAT1用于对卷积层C4_2和卷积层C4_3的输出进行第一特征级联操作;
卷积层C4_4用于对特征级联层CAT1的输出依次进行第十一卷积操作和第十一激活操作;
卷积层C4_5用于对卷积层C4_4的输出依次进行第十二卷积操作和第十二激活操作;
卷积层C5_1用于对最大池化层P4的输出依次进行第十三卷积操作和第十三激活操作;
卷积层C5_2用于对卷积层C5_1的输出依次进行第十四卷积操作和第十四激活操作;
卷积层C5_3用于对卷积层C5_2的输出依次进行第十五卷积操作和第十五激活操作;
级联层CAT2用于对卷积层C5_2和卷积层C5_3的输出进行第二特征级联操作;
卷积层C5_4用于对级联层CAT2的输出依次进行第十六卷积操作和第十六激活操作;
按位相加层ADD1用于对卷积层C5_4和卷积层C4_5的输出进行第一按位相加操作;
卷积层C6_1用于对按位相加层ADD1的输出依次进行第十七卷积操作和第十七激活操作;
卷积层C6_1的输出为多尺度特征;
第一卷积操作至第二卷积操作均为64个卷积核大小为3*3,步长为1,填充为1的卷积操作;
第三卷积操作至第四卷积操作均为128个卷积核大小为3*3,步长为1,填充为1的卷积操作;
第五卷积操作至第七卷积操作均为128个卷积核大小为3*3,步长为1,填充为1的卷积操作;
第八卷积操作至第十卷积操作均为128个卷积核大小为3*3,步长为1,填充为1的卷积操作;
第十一卷积操作为1024个卷积核大小为1*1,步长为1,填充为0的卷积操作;
第十二卷积操作为1024个卷积核大小为1*1,步长为2,填充为0的卷积操作;
第十三卷积操作至第十五卷积操作均为512个卷积核大小为3*3,步长为1,填充为1的卷积操作;
第十六卷积操作为1024个卷积核大小为1*1,步长为1,填充为0的卷积操作;
第十七卷积操作为512个卷积核大小为1*1,步长为1,填充为0的卷积操作;
第一最大池化操作至第四最大池化操作均为池化核大小2*2,步长为2的最大池化操作;
第一特征级联操作至第二特征级联操作均将输入特征按照输入特征的第二个维度进行级联;
第一按位相加操作为将输入特征按位进行相加操作;
第一激活操作至第十七激活操作均采用ReLU激活函数。
具体实施方式三:如图4所示,本实施方式与具体实施方式二不同的是:所述结构化高阶特征提取模块包括卷积层C7~卷积层C11,按位点积层MUL1~按位点积层MUL2;
卷积层C7用于对输入的结构化多尺度特征进行第一卷积操作;
卷积层C8用于对输入的结构化多尺度特征进行第二卷积操作;
按位点积层MUL1用于对卷积层C7和卷积层C8的输出进行第一按位点积操作;
卷积层C9用于对输入的结构化多尺度特征进行第三卷积操作;
卷积层C10用于对输入的结构化多尺度特征进行第四卷积操作;
卷积层C11用于对输入的结构化多尺度特征进行第五卷积操作;
按位点积层MUL2用于对卷积层C9,卷积层C10和卷积层C11的输出进行第二按位点积操作;
按位点积层MUL1和按位点积层MUL2的输出为结构化的高阶特征;
第一卷积操作至第二卷积操作均为2048个卷积核大小为1*1、步长为1、填充为0的卷积操作;
第三卷积操作至第五卷积操作均为4096个卷积核大小为1*1、步长为1、填充为0的卷积操作;
第一按位点积操作至第二按位点积操作均为将输入特征按位进行点积。
具体实施方式四:如图5所示,本实施方式与具体实施方式三不同的是:所述特征加权模块包括卷积层C12_1~卷积层C13_5,全局池化层P5~全局池化层P6,外积层OUT1~外积层OUT2,SoftMax层S1~SoftMax层S2;
卷积层C12_1用于对按位点积层MUL1的输出进行第一卷积操作;
卷积层C12_2用于对卷积层C12_1的输出进行第二卷积操作;
卷积层C12_3用于对卷积层C12_2的输出进行第三卷积操作;
全局池化层P5用于对按位点积层MUL1的输出进行第一全局池化操作;
卷积层C12_4用于对全局池化层P5的输出进行第四卷积操作;
卷积层C12_5用于对卷积层C12_4的输出进行第五卷积操作;
外积层OUT1用于对卷积层C12_3和卷积层C12_5的输出进行第一外积操作;
SoftMax层S1用于对外积层OUT1的输出进行第一SoftMax操作;
卷积层C13_1用于对按位点积层MUL2的输出进行第六卷积操作;
卷积层C13_2用于对卷积层C13_1的输出进行第七卷积操作;
卷积层C13_3用于对卷积层C13_2的输出进行第八卷积操作;
全局池化层P6用于对按位点积层MUL2的输出进行第二全局池化操作;
卷积层C13_4用于对全局池化层P6的输出进行第九卷积操作;
卷积层C13_5用于对卷积层C13_4的输出进行第十卷积操作;
外积层OUT2用于对卷积层C13_3和卷积层C13_5的输出进行第二外积操作;
SoftMax层S2用于对外积层OUT2的输出进行第二SoftMax操作;
SoftMax层S1和SoftMax层S2的输出为特征权重;
第一卷积操作和第六卷积操作为128个卷积核大小为1*1、步长为1、填充为0的卷积操作;
第二卷积操作和第七卷积操作为64个卷积核大小为3*3、步长为1、填充为1的卷积操作;
第三卷积操作和第八卷积操作为1个卷积核大小为1*1、步长为1、填充为0的卷积操作;
第四卷及操作和第九卷积操作为128个卷积核大小为1*1、步长为1、填充为0的卷积操作;
第五卷积操作为2048个卷积核大小为1*1、步长为1、填充为0的卷积操作;
第十卷积操作4096个卷积核大小为1*1、步长为1、填充为0的卷积操作;
第一全局池化操作为池化核大小与按位点积层MUL1的输出特征尺寸相同、步长为1的全局池化操作;
第二全局池化操作为池化核大小与按位点积层MUL2的输出特征尺寸相同、步长为1的全局池化操作;
第一外积操作和第二外积操作均为输入特征*输入特征转置的操作;
第一SoftMax操作为对SoftMax层S1的输入进行SoftMax处理;
第二SoftMax操作为对SoftMax层S2的输入进行SoftMax处理。
具体实施方式五:如图6所示,本实施方式与具体实施方式四不同的是:所述特征融合模块包括按位点积层MUL3~按位点积层MUL4,级联层CAT3,卷积层C14;
按位点积层MUL3用于对按位点积层MUL1输出和SoftMax层S1输出进行第一按位点积操作;
按位点积层MUL4用于对按位点积层MUL2输出和SoftMax层S2输出进行第二按位点积操作;
级联层CAT3用于对按位点积层MUL3的输出、MUL4的输出以及结构化多尺度特征进行第一特征级联操作;
卷积层C14用于对级联层CAT3的输出进行第一卷积操作和第一激活操作;
卷积层C14的输出为加权的结构化高阶特征;
第一按位点积操作至第二按位点积操作均为将输入特征按位进行点积;
第一级联操作将输入特征按照输入特征的第二个维度进行级联;
第一卷积操作为6656个卷积核大小为1*1,步长为1、填充为0的卷积操作;
第一激活操作采用ReLU激活函数。
具体实施方式六:基于具体实施方式一所述的一种基于结构化高阶特征的目标检测系统的目标检测方法:该方法具体为:
将待检测图像输入多尺度特征提取模块,利用多尺度特征提取模块对待检测图像的不同尺度特征进行融合,获得多尺度特征;
利用结构化高阶特征提取模块对多尺度特征进行结构化处理,即对多尺度特征进行维度变换后,获得维度变换后的多尺度特征,并对维度变换后的多尺度特征进行奇异值分解,获得维度变换后的多尺度特征的奇异值矩阵;再对奇异值矩阵进行幂指数操作,获得结构化的多尺度特征;再对结构化的多尺度特征进行处理获得结构化高阶特征;
利用特征加权模块对结构化高阶特征进行处理,即计算结构化高阶特征的特征图上的每个特征点的权重,输出特征权重;
利用特征融合模块将结构化的高阶特征与特征权重进行按位点积,并将点积后的特征进行级联后,获得加权的结构化高阶特征;
特征映射模块(即感兴趣池化层)将预选框生成模块输出的预选框坐标映射到加权的结构化高阶特征的特征图上,获得经过坐标映射后的尺寸为W*H的特征;
分类及回归模块根据坐标映射后的特征输出目标检测结果。
输出的目标检测结果包括目标的种类及位置坐标。
具体实施方式七:如图3所示,本实施方式与具体实施方式六不同的是:所述利用结构化高阶特征提取模块对多尺度特征进行结构化处理,即对多尺度特征进行维度变换后,获得维度变换后的多尺度特征,并对维度变换后的多尺度特征进行奇异值分解,获得维度变换后的多尺度特征的奇异值矩阵;再对奇异值矩阵进行幂指数操作,获得结构化的多尺度特征;其具体过程为:
对于多尺度特征X∈RC×W×H,R代表实数域,C代表特征维度,W代表特征宽度,H代表特征高度,对X进行维度变换,得到维度变换后的多尺度特征
Figure BDA0002215014770000081
对维度变换后的多尺度特征
Figure BDA0002215014770000082
进行奇异值分解:
Figure BDA0002215014770000083
式中,U和V均为单位正交矩阵,Λ为维度变换后的多尺度特征
Figure BDA0002215014770000084
的奇异值矩阵;Λ=diag(λ12...λd)为一个对角矩阵,λi为维度变换后的多尺度特征/>
Figure BDA0002215014770000091
的奇异值,i=1,2,…,d;
对维度变换后的多尺度特征
Figure BDA0002215014770000092
的奇异值矩阵Λ进行幂指数操作,得到结构化的多尺度特征Y:
Figure BDA0002215014770000093
将结构化的多尺度特征Y进行维度变化,得到维度变化后的结构化多尺度特征
Figure BDA0002215014770000094
Figure BDA0002215014770000095
具体实施方式八:如图7所示,本实施方式与具体实施方式七不同的是:所述特征映射模块将预选框生成模块输出的预选框坐标映射到加权的结构化高阶特征的特征图上,获得经过坐标映射后的尺寸为W*H的特征;其具体过程为:
在加权的结构化高阶特征的每个特征点上生成9个预选框,9个预选框包括三种不同的尺寸1282,2562和5122,且每个尺寸包括三种不同长宽比例1:1,1:2和2:1;
将每一个预选框定义成一个四元组(r,c,w,h),其中:(r,c)代表预选框左上角顶点的坐标值,(w,h)代表预选框的宽和高;
将宽和高为w*h的预选框分割成W*H大小的网格,再将分割成网格的预选框映射到提取的加权结构化高阶特征的特征图上,每个网格大小为
Figure BDA0002215014770000096
将每个网格里特征值的最大值作为该网格的输出。特征值的计算是按照网格内特征的第二个维度进行计算的;
作为优选的是,W=H=7;
具体实施方式九:本实施方式与具体实施方式八不同的是:所述分类及回归模块包括分类网络和回归网络;
分类网络的损失函数定义为:
Lcls(p,u)=-logpu
其中:Lcls(p,u)为分类网络的损失函数,u代表预选框的类别标签,pu代表预测属于类别u的概率;
回归网络的损失函数定义为:
Figure BDA0002215014770000101
其中:Lloc(tu,v)为回归网络的损失函数,v代表类别u对应的预选框,tu代表预选框v对应的回归目标,(x,y)代表预选框v的中心点坐标,(w,h)代表预选框v的宽和高,i∈{x,y,w,h},[u≥1]表示当预选框v被判断为背景时不计算其损失,即仅计算判断为前景的预选框的损失;
Figure BDA0002215014770000102
代表平滑L1损失函数;
平滑L1损失函数的具体形式为:
Figure BDA0002215014770000103
x代表平滑L1损失函数的自变量,smoothL1(x)代表平滑L1损失函数的函数值;
v=(vx,vy,vw,vh)的表达式为:
vx=(Gx-Px)/Pw
vy=(Gy-Py)/Ph
vw=log(Gw/Pw)
vh=log(Gh/Ph)
其中:vx、vy、vw和vh均为中间变量,(Px,Py)代表预选框v的中心点坐标,(Pw,Ph)代表预选框v的宽和高;(Gx,Gy)代表目标的真实边界框的中心点坐标,(Gw,Gh)代表目标的真实边界框的宽和高;
整个分类及回归模块的损失函数L(p,u,tu,v)的定义为:
L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v)
其中:λ为平衡分类损失和回归损失的参数。
在本发明中设置λ为1。
作为优选的是,本发明的训练网络采用SGD优化算法,通过三步迭代方法对目标检测网络进行训练。
如图8和图9所示,为采用本发明方法获得的目标检测结果图。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (9)

1.一种基于结构化高阶特征的目标检测系统,其特征在于,所述目标检测系统包括多尺度特征提取模块、结构化高阶特征提取模块、特征加权模块、特征融合模块、预选框生成模块、特征映射模块、分类及回归模块,其中:
所述多尺度特征提取模块用于对待检测图像的不同尺度特征进行融合,输出多尺度特征;并将多尺度特征输入结构化高阶特征提取模块;
所述结构化高阶特征提取模块用于对输入的多尺度特征进行结构化处理,即对多尺度特征进行维度变换后,获得维度变换后的多尺度特征,并对维度变换后的多尺度特征进行奇异值分解,获得维度变换后的多尺度特征的奇异值矩阵;再对奇异值矩阵进行幂指数操作,获得结构化的多尺度特征;再对结构化的多尺度特征进行处理获得结构化高阶特征;并将结构化的高阶特征输入特征加权模块;
所述特征加权模块用于对输入的结构化高阶特征进行处理,输出特征权重;
所述特征融合模块用于将结构化的高阶特征与特征加权模块输出的特征权重进行按位点积,将按位点积后的特征进行级联,输出加权的结构化高阶特征;
并将加权的结构化高阶特征输入特征映射模块;
预选框生成模块用于生成预选框坐标,并将预选框坐标输入到特征映射模块;特征映射模块用于将预选框坐标映射到加权的结构化高阶特征上,输出经过坐标映射后的特征;
经过坐标映射后的特征输入分类及回归模块,通过分类及回归模块输出目标检测结果。
2.根据权利要求1所述的一种基于结构化高阶特征的目标检测系统,其特征在于,所述多尺度特征提取模块包括卷积层C1_1~卷积层C6_1,按位相加层ADD1,最大池化层P1~最大池化层P4和级联层CAT1~级联层CAT2;
卷积层C1_1用于对待检测的图像依次进行第一卷积操作和第一激活操作;
卷积层C1_2用于对卷积层C1_1的输出依次进行第二卷积操作和第二激活操作;
最大池化层P1用于对卷积层C1_2的输出进行第一最大池化操作;
卷积层C2_1用于对最大池化层P1的输出依次进行第三卷积操作和第三激活操作;
卷积层C2_2用于对卷积层C2_1的输出依次进行第四卷积操作和第四激活操作;
最大池化层P2用于对卷积层C2_2的输出进行第二最大池化操作;
卷积层C3_1用于对最大池化层P2的输出依次进行第五卷积操作和第五激活操作;
卷积层C3_2用于对卷积层C3_1的输出依次进行第六卷积操作和第六激活操作;
卷积层C3_3用于对卷积层C3_2的输出依次进行第七卷积操作和第七激活操作;
最大池化层P3用于对卷积层C3_3的输出进行第三最大池化操作;
卷积层C4_1用于对最大池化层P3的输出依次进行第八卷积操作和第八激活操作;
卷积层C4_2用于对卷积层C4_1的输出依次进行第九卷积操作和第九激活操作;
卷积层C4_3用于对卷积层C4_2的输出依次进行第十卷积操作和第十激活操作;
最大池化层P4用于对卷积层C4_3的输出进行第四最大池化操作;
级联层CAT1用于对卷积层C4_2和卷积层C4_3的输出进行第一特征级联操作;
卷积层C4_4用于对特征级联层CAT1的输出依次进行第十一卷积操作和第十一激活操作;
卷积层C4_5用于对卷积层C4_4的输出依次进行第十二卷积操作和第十二激活操作;
卷积层C5_1用于对最大池化层P4的输出依次进行第十三卷积操作和第十三激活操作;
卷积层C5_2用于对卷积层C5_1的输出依次进行第十四卷积操作和第十四激活操作;
卷积层C5_3用于对卷积层C5_2的输出依次进行第十五卷积操作和第十五激活操作;
级联层CAT2用于对卷积层C5_2和卷积层C5_3的输出进行第二特征级联操作;
卷积层C5_4用于对级联层CAT2的输出依次进行第十六卷积操作和第十六激活操作;
按位相加层ADD1用于对卷积层C5_4和卷积层C4_5的输出进行第一按位相加操作;
卷积层C6_1用于对按位相加层ADD1的输出依次进行第十七卷积操作和第十七激活操作;
卷积层C6_1的输出为多尺度特征;
第一卷积操作至第二卷积操作均为64个卷积核大小为3*3,步长为1,填充为1的卷积操作;
第三卷积操作至第四卷积操作均为128个卷积核大小为3*3,步长为1,填充为1的卷积操作;
第五卷积操作至第七卷积操作均为128个卷积核大小为3*3,步长为1,填充为1的卷积操作;
第八卷积操作至第十卷积操作均为128个卷积核大小为3*3,步长为1,填充为1的卷积操作;
第十一卷积操作为1024个卷积核大小为1*1,步长为1,填充为0的卷积操作;
第十二卷积操作为1024个卷积核大小为1*1,步长为2,填充为0的卷积操作;
第十三卷积操作至第十五卷积操作均为512个卷积核大小为3*3,步长为1,填充为1的卷积操作;
第十六卷积操作为1024个卷积核大小为1*1,步长为1,填充为0的卷积操作;
第十七卷积操作为512个卷积核大小为1*1,步长为1,填充为0的卷积操作;
第一最大池化操作至第四最大池化操作均为池化核大小2*2,步长为2的最大池化操作;
第一特征级联操作至第二特征级联操作均将输入特征按照输入特征的第二个维度进行级联;
第一按位相加操作为将输入特征按位进行相加操作;
第一激活操作至第十七激活操作均采用ReLU激活函数。
3.根据权利要求2所述的一种基于结构化高阶特征的目标检测系统,其特征在于,所述结构化高阶特征提取模块包括卷积层C7~卷积层C11,按位点积层MUL1~按位点积层MUL2;
卷积层C7用于对输入的结构化多尺度特征进行第一卷积操作;
卷积层C8用于对输入的结构化多尺度特征进行第二卷积操作;
按位点积层MUL1用于对卷积层C7和卷积层C8的输出进行第一按位点积操作;
卷积层C9用于对输入的结构化多尺度特征进行第三卷积操作;
卷积层C10用于对输入的结构化多尺度特征进行第四卷积操作;
卷积层C11用于对输入的结构化多尺度特征进行第五卷积操作;
按位点积层MUL2用于对卷积层C9,卷积层C10和卷积层C11的输出进行第二按位点积操作;
按位点积层MUL1和按位点积层MUL2的输出为结构化的高阶特征;
第一卷积操作至第二卷积操作均为2048个卷积核大小为1*1、步长为1、填充为0的卷积操作;
第三卷积操作至第五卷积操作均为4096个卷积核大小为1*1、步长为1、填充为0的卷积操作;
第一按位点积操作至第二按位点积操作均为将输入特征按位进行点积。
4.根据权利要求3所述的一种基于结构化高阶特征的目标检测系统,其特征在于,所述特征加权模块包括卷积层C12_1~卷积层C13_5,全局池化层P5~全局池化层P6,外积层OUT1~外积层OUT2,SoftMax层S1~SoftMax层S2;
卷积层C12_1用于对按位点积层MUL1的输出进行第一卷积操作;
卷积层C12_2用于对卷积层C12_1的输出进行第二卷积操作;
卷积层C12_3用于对卷积层C12_2的输出进行第三卷积操作;
全局池化层P5用于对按位点积层MUL1的输出进行第一全局池化操作;
卷积层C12_4用于对全局池化层P5的输出进行第四卷积操作;
卷积层C12_5用于对卷积层C12_4的输出进行第五卷积操作;
外积层OUT1用于对卷积层C12_3和卷积层C12_5的输出进行第一外积操作;
SoftMax层S1用于对外积层OUT1的输出进行第一SoftMax操作;
卷积层C13_1用于对按位点积层MUL2的输出进行第六卷积操作;
卷积层C13_2用于对卷积层C13_1的输出进行第七卷积操作;
卷积层C13_3用于对卷积层C13_2的输出进行第八卷积操作;
全局池化层P6用于对按位点积层MUL2的输出进行第二全局池化操作;
卷积层C13_4用于对全局池化层P6的输出进行第九卷积操作;
卷积层C13_5用于对卷积层C13_4的输出进行第十卷积操作;
外积层OUT2用于对卷积层C13_3和卷积层C13_5的输出进行第二外积操作;
SoftMax层S2用于对外积层OUT2的输出进行第二SoftMax操作;
SoftMax层S1和SoftMax层S2的输出为特征权重;
第一卷积操作和第六卷积操作为128个卷积核大小为1*1、步长为1、填充为0的卷积操作;
第二卷积操作和第七卷积操作为64个卷积核大小为3*3、步长为1、填充为1的卷积操作;
第三卷积操作和第八卷积操作为1个卷积核大小为1*1、步长为1、填充为0的卷积操作;
第四卷及操作和第九卷积操作为128个卷积核大小为1*1、步长为1、填充为0的卷积操作;
第五卷积操作为2048个卷积核大小为1*1、步长为1、填充为0的卷积操作;
第十卷积操作4096个卷积核大小为1*1、步长为1、填充为0的卷积操作;
第一全局池化操作为池化核大小与按位点积层MUL1的输出特征尺寸相同、步长为1的全局池化操作;
第二全局池化操作为池化核大小与按位点积层MUL2的输出特征尺寸相同、步长为1的全局池化操作;
第一外积操作和第二外积操作均为输入特征*输入特征转置的操作;
第一SoftMax操作为对SoftMax层S1的输入进行SoftMax处理;
第二SoftMax操作为对SoftMax层S2的输入进行SoftMax处理。
5.根据权利要求4所述的一种基于结构化高阶特征的目标检测系统,其特征在于,所述特征融合模块包括按位点积层MUL3~按位点积层MUL4,级联层CAT3,卷积层C14;
按位点积层MUL3用于对按位点积层MUL1输出和SoftMax层S1输出进行第一按位点积操作;
按位点积层MUL4用于对按位点积层MUL2输出和SoftMax层S2输出进行第二按位点积操作;
级联层CAT3用于对按位点积层MUL3的输出、MUL4的输出以及结构化多尺度特征进行第一特征级联操作;
卷积层C14用于对级联层CAT3的输出进行第一卷积操作和第一激活操作;
卷积层C14的输出为加权的结构化高阶特征;
第一按位点积操作至第二按位点积操作均为将输入特征按位进行点积;
第一级联操作将输入特征按照输入特征的第二个维度进行级联;
第一卷积操作为6656个卷积核大小为1*1,步长为1、填充为0的卷积操作;
第一激活操作采用ReLU激活函数。
6.基于权利要求1所述的一种基于结构化高阶特征的目标检测系统的检测方法,其特征在于,该方法具体为:
将待检测图像输入多尺度特征提取模块,利用多尺度特征提取模块对待检测图像的不同尺度特征进行融合,获得多尺度特征;
利用结构化高阶特征提取模块对多尺度特征进行结构化处理,即对多尺度特征进行维度变换后,获得维度变换后的多尺度特征,并对维度变换后的多尺度特征进行奇异值分解,获得维度变换后的多尺度特征的奇异值矩阵;再对奇异值矩阵进行幂指数操作,获得结构化的多尺度特征;再对结构化的多尺度特征进行处理获得结构化高阶特征;
利用特征加权模块对结构化高阶特征进行处理,即计算结构化高阶特征的特征图上的每个特征点的权重,输出特征权重;
利用特征融合模块将结构化的高阶特征与特征权重进行按位点积,并将点积后的特征进行级联后,获得加权的结构化高阶特征;
特征映射模块将预选框生成模块输出的预选框坐标映射到加权的结构化高阶特征的特征图上,获得经过坐标映射后的尺寸为W*H的特征;
分类及回归模块根据坐标映射后的特征输出目标检测结果。
7.根据权利要求6所述的一种基于结构化高阶特征的目标检测方法,其特征在于,所述利用结构化高阶特征提取模块对多尺度特征进行结构化处理,即对多尺度特征进行维度变换后,获得维度变换后的多尺度特征,并对维度变换后的多尺度特征进行奇异值分解,获得维度变换后的多尺度特征的奇异值矩阵;再对奇异值矩阵进行幂指数操作,获得结构化的多尺度特征;其具体过程为:
对于多尺度特征X∈RC×W×H,C代表特征维度,W代表特征宽度,H代表特征高度,对X进行维度变换,得到维度变换后的多尺度特征
Figure FDA0003980861810000061
Figure FDA0003980861810000062
对维度变换后的多尺度特征
Figure FDA0003980861810000063
进行奇异值分解:
Figure FDA0003980861810000064
式中,U和V均为单位正交矩阵,Λ为维度变换后的多尺度特征
Figure FDA0003980861810000065
的奇异值矩阵;
对维度变换后的多尺度特征
Figure FDA0003980861810000066
的奇异值矩阵Λ进行幂指数操作,得到结构化的多尺度特征Y:
Figure FDA0003980861810000067
将结构化的多尺度特征Y进行维度变化,得到维度变化后的结构化多尺度特征
Figure FDA0003980861810000068
Figure FDA0003980861810000069
8.根据权利要求7所述的一种基于结构化高阶特征的目标检测方法,其特征在于,所述特征映射模块将预选框生成模块输出的预选框坐标映射到加权的结构化高阶特征的特征图上,获得经过坐标映射后的尺寸为W*H的特征;其具体过程为:
在加权的结构化高阶特征的每个特征点上生成9个预选框,9个预选框包括三种不同的尺寸1282,2562和5122,且每个尺寸包括三种不同长宽比例1:1,1:2和2:1;
将每一个预选框定义成一个四元组(r,c,w,h),其中:(r,c)代表预选框左上角顶点的坐标值,(w,h)代表预选框的宽和高;
将宽和高为w*h的预选框分割成W*H大小的网格,再将分割成网格的预选框映射到提取的加权结构化高阶特征的特征图上,每个网格大小为
Figure FDA00039808618100000610
将每个网格里特征值的最大值作为该网格的输出。
9.根据权利要求8所述的一种基于结构化高阶特征的目标检测方法,其特征在于,所述分类及回归模块包括分类网络和回归网络;
分类网络的损失函数定义为:
Lcls(p,u)=-logpu
其中:Lcls(p,u)为分类网络的损失函数,u代表预选框的类别标签,pu代表预测属于类别u的概率;
回归网络的损失函数定义为:
Figure FDA0003980861810000071
其中:Lloc(tu,v)为回归网络的损失函数,v代表类别u对应的预选框,tu代表预选框v对应的回归目标,(x,y)代表预选框v的中心点坐标,(w,h)代表预选框v的宽和高,i∈{x,y,w,h},[u≥1]表示当预选框v被判断为背景时不计算其损失,即仅计算判断为前景的预选框的损失;
Figure FDA0003980861810000072
代表平滑L1损失函数;
平滑L1损失函数的具体形式为:
Figure FDA0003980861810000073
x代表平滑L1损失函数的自变量,smoothL1(x)代表平滑L1损失函数的函数值;
整个分类及回归模块的损失函数L(p,u,tu,v)的定义为:
L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v)
其中:λ为平衡分类损失和回归损失的参数。
CN201910912143.2A 2019-09-25 2019-09-25 一种基于结构化高阶特征的目标检测系统及方法 Active CN110689071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910912143.2A CN110689071B (zh) 2019-09-25 2019-09-25 一种基于结构化高阶特征的目标检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910912143.2A CN110689071B (zh) 2019-09-25 2019-09-25 一种基于结构化高阶特征的目标检测系统及方法

Publications (2)

Publication Number Publication Date
CN110689071A CN110689071A (zh) 2020-01-14
CN110689071B true CN110689071B (zh) 2023-03-24

Family

ID=69110070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910912143.2A Active CN110689071B (zh) 2019-09-25 2019-09-25 一种基于结构化高阶特征的目标检测系统及方法

Country Status (1)

Country Link
CN (1) CN110689071B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111932038B (zh) * 2020-09-24 2020-12-29 浙江口碑网络技术有限公司 轨迹生成方法、装置、计算机设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549929A (zh) * 2018-03-29 2018-09-18 河海大学 一种基于深层卷积神经网络的光伏功率预测方法
CN109711481A (zh) * 2019-01-02 2019-05-03 京东方科技集团股份有限公司 用于画作多标签识别的神经网络、相关方法、介质和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549929A (zh) * 2018-03-29 2018-09-18 河海大学 一种基于深层卷积神经网络的光伏功率预测方法
CN109711481A (zh) * 2019-01-02 2019-05-03 京东方科技集团股份有限公司 用于画作多标签识别的神经网络、相关方法、介质和设备

Also Published As

Publication number Publication date
CN110689071A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN111444939B (zh) 电力领域开放场景下基于弱监督协同学习的小尺度设备部件检测方法
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN111461083A (zh) 基于深度学习的快速车辆检测方法
CN112364931B (zh) 一种基于元特征和权重调整的少样本目标检测方法及网络系统
CN108710913A (zh) 一种基于深度学习的开关柜图像开关状态自动识别方法
CN110751195B (zh) 一种基于改进YOLOv3的细粒度图像分类方法
CN110348437B (zh) 一种基于弱监督学习与遮挡感知的目标检测方法
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和系统
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN112541532B (zh) 基于密集连接结构的目标检测方法
CN114972213A (zh) 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法
CN112418351B (zh) 基于全局与局部上下文感知的零样本学习图像分类方法
CN111914720B (zh) 一种输电线路绝缘子爆裂识别方法及装置
CN111798447B (zh) 一种基于Faster RCNN的深度学习塑化材料缺陷检测方法
CN112861970B (zh) 一种基于特征融合的细粒度图像分类方法
CN110909615A (zh) 基于多尺度输入混合感知神经网络的目标检测方法
CN111754507A (zh) 一种轻量化的基于强注意力机制的工业缺陷图像分类方法
CN116152254B (zh) 工业泄露目标气体检测模型训练方法、检测方法、电子设备
CN110321867B (zh) 基于部件约束网络的遮挡目标检测方法
CN112364974A (zh) 一种基于激活函数改进的YOLOv3算法
CN115423796A (zh) 一种基于TensorRT加速推理的芯片缺陷检测方法及系统
CN110689071B (zh) 一种基于结构化高阶特征的目标检测系统及方法
CN117131348B (zh) 基于差分卷积特征的数据质量分析方法及系统
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant