CN116452794A - 一种基于半监督学习的有向目标检测方法 - Google Patents
一种基于半监督学习的有向目标检测方法 Download PDFInfo
- Publication number
- CN116452794A CN116452794A CN202310395613.9A CN202310395613A CN116452794A CN 116452794 A CN116452794 A CN 116452794A CN 202310395613 A CN202310395613 A CN 202310395613A CN 116452794 A CN116452794 A CN 116452794A
- Authority
- CN
- China
- Prior art keywords
- frame
- angle
- prediction
- network
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 51
- 230000006870 function Effects 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 9
- WDLRUFUQRNWCPK-UHFFFAOYSA-N Tetraxetan Chemical compound OC(=O)CN1CCN(CC(O)=O)CCN(CC(O)=O)CCN(CC(O)=O)CC1 WDLRUFUQRNWCPK-UHFFFAOYSA-N 0.000 claims description 6
- 230000000750 progressive effect Effects 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000010187 selection method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 101150053100 cls1 gene Proteins 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 230000005764 inhibitory process Effects 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于半监督学习的有向目标检测方法,首先通过本发明提出的一种新的五参数有向框表示方法对有标签数据集进行标注,其次设计了基于多阶段Faster RCNN的有向目标检测网络。为了保证网络在有高召回率的同时具有高精确度,本发明采用先预测水平包络框再将其回归为有向框的方式,并设计了角度增强训练算法。在此基础上,构建基于教师‑学生网络的有向目标检测半监督学习方法,利用少量有标签数据集和大量无标签数据集联合训练,计算有监督损失和无监督损失的加权和,得到总损失,用于网络模型参数更新。根据本发明,使用少量的有标签数据和海量的无标签数据,在极低的有向目标检测数据集标注成本下,提高了有向目标检测的精度。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种半监督学习的有向目标检测方法。
背景技术
有向框是指预测框的角度可以任意旋转,从而更精确的预测目标边界框,目标大多用在场景文字检测,遥感检测,人脸检测,3D目标检测等领域,有向目标检测目前成熟的技术有R2CNN,RRPN,DRBOX,R3Det,Rol Transformer,SCRDet,OrentedRcnn等等,目前大都采用有监督方式训练网络模型,而有向框多用于军事遥感等领域,遥感图片难以获取,且标签由于多了旋转角度因素,制作相对困难,导致有标签数据集较少。
有向框表示方法目前比较流行有传统五参数表示法:参数分别为有向框的中心点(x,y),宽高(w,h),角度(θ);八参数表示法:中心点,宽高和四个顶点偏移量,以及六参数表示法:中心点,宽高和两个中心点偏移量。传统五参数法存在损失不连续以及回归参数不统一的问题;且传统五参数表示法直接预测有向框的宽高,在半监督框架中,大长宽比有向框的宽高参数的伪标签容易受角度伪标签误差的干扰,不易训练。八参数表示方式与六参数表示方式所表示的框都并非旋转矩形且所需学习的参数量较大,确定伪标签的自由度也随之增多,导致伪标签质量相对较差。
发明内容
本发明的目的在于提供了一种基于半监督学习的有向目标检测方法,使用少量有标签数据与大量无标签数据一起训练有向框检测网络,并采用新的五参数表示法,用水平包络框的中心点、宽高以及有向框的角度表示一个有向框,以先回归水平框再回归角度参数,最终根据水平框与角度参数解码有向框的方式嵌入半监督框架中;设计旋转角度增强训练方法增加角度参数训练强度。
实现本发明的技术方案:一种基于半监督学习的有向目标检测方法,步骤如下:
步骤1、下载DOTA数据集里有带角度标签的有向框数据集,从有向框数据集中选择10%的图像,通过五参数表示方法进行有标签标记,构成有标签数据集;剩余的90%图像组成无标签数据集;转入步骤2。
步骤2、构建基于教师-学生网络的半监督有向目标检测模型:
所述基于教师-学生网络的半监督有向目标检测模型包括教师网络和学生网络,两个网络的结构相同,均为改进的两阶段目标检测网络;学生网络参数通过无监督训练得到,教师网络参数则由学生网络参数通过指数滑动平均的方式进行迭代更新;转入步骤3。
步骤3、将有标签数据集和无标签数据集同时作为教师网络和学生网络的输入;采用联合训练的方式,对基于教师-学生网络的半监督有向目标检测模型进行训练,分别得到训练好的学生网络与训练好的教师网络;转入步骤4。
步骤4、下载DOTA数据集中的测试集;将测试集作为训练好的教师网络的输入,获取测试集中目标的预测类别和预测有向框坐标。
与现有技术相比,本发明的优点在于:
1)设计了一种基于半监督学习的有向目标检测方法,采用半监督方式训练有向目标检测,可采用少量有标签数据集与大量无标签数据集一起训练模型,克服了有向框数据集较少的问题。
2)设计了水平框与角度结合的方式编码旋转框,以先回归水平包络框再回归有向框的方式,解决了半监督框架中有向框伪标签质量较差的问题,同时解决了传统五参数表示的角度损失不连续以及回归参数不统一的问题。
3)设计了旋转角度增强训练方法训练角度参数,并设计了旋转角度增强训练算法,增强了角度参数训练效果,高效的适用于本发明设计的基于半监督学习的有向目标检测方法中。
附图说明
图1为本发明基于半监督训练方式的有向目标检测方法的流程图。
图2为本发明设计的五参数有向框表示图。
图3为本发明基于半监督训练方式的有向目标检测方法的学生网络网络结构图。
图4为本发明基于半监督训练方式的有向目标检测方法的无监督训练网络结构图。
具体实施方式
本发明提供了一种基于半监督学习的有向目标检测方法,旨在改善旋转数据集少的问题,为适用于半监督框架,本发明首次利用水平框与角度结合的方式编码旋转框,以先回归水平包络框再回归有向框的方式训练有向框。下面对本发明实施方式作进一步地详细描述。
结合图1-图4,一种基于半监督学习的有向目标检测方法,包括以下步骤:
步骤1、下载DOTA数据集里有带角度标签的有向框数据集,从有向框数据集中选择10%的图像,通过五参数表示方法进行有标签标记,构成有标签数据集;剩余的90%图像组成无标签数据集。
将有向框数据集中带有角度标签的图像通过五参数表示方法进行标签标记,即对每幅带有角度标签的图像采用五参数表示方法转化为有向框的五参数表示的真值;
编码阶段:有向框数据集中带有角度标签的图像作为原始图像,原始图像中真值框的四个顶点坐标(x1,y1),(x2,y2),(x3,y3),(x4,y4)通过五参数表示方法转化为有向框的五参数表示的真值对有向框数据集中所有原始图像逐一进行标签标记后,构成有标签数据集,其中x*,y*表示水平包络真值框的中心点坐标,w*,h*分别表示水平包络真值框的宽和高,/>表示有向框长边与x轴的夹角也称有向框长边表示法的角度,其取值范围为[-90°,90°];具体如下:
首先找到有向框数据集中第一个真值框的四个顶点坐标值,找到坐标值中数值最小的坐标值记为xmin,ymin,以及数值最大的坐标值记为xmax,ymax,根据xmin,ymin,xmax,ymax计算得到有向框的五参数表示的真值中的x*、y*、w*、h*。
有向框的五参数表示的真值中的角度计算方式如下:
记为有向框长边表示法的真值的宽,/>为有向框长边表示法的真值的高;
设xmin所在点为A1,并按顺时针方向将剩余三个点依次表示为A2,A3,A4;其中d()为距离,dy为A1,A3两点垂直高度差,dx为A1,A3两点水平宽度差;将有向框数据集中原始图像的四个顶点坐标(x1,y1),(x2,y2),(x3,y3),(x4,y4)转换为有向框的五参数表示的真值/>并将角度/>统一到-π/2与π/2之间,如果/>则/>
转入步骤2;
构建基于教师-学生网络的半监督有向目标检测模型,具体如下:
所述基于教师-学生网络的半监督有向目标检测模型包括教师网络和学生网络,两个网络的结构相同,均为改进的两阶段目标检测网络;学生网络参数通过无监督训练得到,教师网络参数则由学生网络参数通过指数滑动平均的方式进行迭代更新。
改进的两阶段目标检测网络为基于Faster RCNN的渐进式有向目标检测网络;为了提高网络的召回率,设计了渐进式的两个预测阶段,其中第一阶段为水平包络预测框预测阶段,第二阶段为角度参数预测阶段。
水平包络预测框预测阶段采用改进后的Faster RCNN网络进行预测,设水平包络预测框的参数为(x,y,w,h),角度参数预测阶段的预测角度参数为θ,第一阶段预测得到(x,y,w,h),第二阶段预测得到θ,在第二阶段后,有向框解码器根据x,y,w,h,θ解码得到有向框的长边表示法的预测值(xr,yr,wr,hr,θr),以此来确定最终的有向预测框。
如图3所示:基于Faster RCNN的渐进式有向目标检测网络采用ResNet50作为特征提取网络提取图片特征,采用FPN生成融合多尺度信息的特征图,RPN阶段生成水平建议框,将原Faster RCNN网络中的ROI Align后分类预测头3*3卷积的输出通道改为1,构成前景分类头,分类损失函数改为二元交叉熵损失。
第一阶段中,利用第一ROI Align提取水平建议框特征图,第一ROI Head的边界框检测头根据水平建议框特征图来预测水平包络预测框的参数x,y,w,h;在训练过程中利用五参数表示的真值中的(x*,y*,w*,h*)与水平包络预测框的参数x,y,w,h计算第一阶段的损失函数,从而训练第一阶段;再利用水平包络预测框的参数x,y,w,h映射到融合多尺度信息的特征图,提取水平包络预测框感兴趣区域特征图。
采用旋转角度增强训练方法训练第二阶段,将水平包络预测框感兴趣区域特征图映射为多个不同角度的旋转特征图并计算每个旋转特征图对应的角度标签,将代表不同角度的特征图分别通过第二ROI Align得到固定尺寸的特征图。第二ROI Align后同样接入第二ROI Head,第二ROI Head由分类头与输出通道为1的全连接层构成,其中输出通道为1的全连接层为角度参数预测头,用于预测每块特征图的角度参数θ,在其后接入有向框解码器,有向框解码器用来将水平包络框与对应的一个角度参数解码出最终对应的有向预测框。
有向框解码器方法:根据水平包络预测框的参数x,y,w,h与第二阶段的预测值θ解码出有向框的长边表示法的预测值(xr,yr,wr,hr,θr);有向框的长边表示法的预测值的xr,yr对应等于水平包络预测框预测值的中心点坐标x,y,θr=θ,如图2所示:wr,hr由式(1)推理可得:
由式(2)、式(3)、式(4)、式(5)计算可得:
L(h)=L(w)*tan(|θ|) (3)
其中,L(w)表示宽边偏移距离;L(h)表示长边偏移距离;La、Lb为计算过程中用到的偏移量。
旋转角度增强训练方法具体如下:
将水平包络预测框感兴趣区域特征图乘以预先设置好的s种单应性矩阵得到s种不同俯视视角的旋转特征图,利用单应性矩阵分别得到s种俯视视角旋转特征图的旋转角度,将s种旋转角度加上原水平包络预测框解码时对应的角度标签的值作为s种不同俯视视角旋转特征图的角度标签;再利用s种不同俯视视角的旋转特征图与对应的s种不同俯视视角旋转特征图的角度标签一起训练角度回归分支。
单应性矩阵根据需求自行设置,设置方法如下:拍摄s+1张同一物体不同俯视视角的图片,选取一张图片作为主模板与剩下s张图片逐一匹配计算对应的s个单应性矩阵,利用OpenCV库中的方法提取每张图片的shift关键点并生成描述子,将s张图片中每一张图片的特征点与描述子采用OpenCV库中knnMatch函数与模板图片的特征点与描述子进行shift特征匹配配对,并采用findHomography函数计算视角变换矩阵,以此得到s种不同的单应性矩阵。
不同单应性矩阵与水平包络预测框感兴趣区域特征图各个通道做单应性变换并拼接得到不同俯视视角的旋转特征图,并将其大小缩小至原水平包络预测框内,空白点补零;不同俯视视角的旋转特征图的角度标签计算方法如下:将单应性矩阵乘以(1,0,0)向量得到变化后的旋转向量(X,Y,Z),不同俯视视角的旋转特征图乘以其对应的单应性矩阵后在XY平面旋转的角度为 与角度标签/>求和,最终得到不同俯视视角的旋转特征图的角度标签。
使不同俯视视角的旋转特征图经过角度参数预测头得到的角度预测值,利用不同俯视视角的旋转特征图的角度标签与角度预测值计算第二阶段的损失函数,从而反向梯度更新第二阶段网络参数。
第二阶段的损失函数如式(6)、式(7)、式(8)、式(9)所示:
其中,Lreg(*)为回归损失;Lcls(*)为分类损失;n为每张图片中水平包络预测框的个数;p*为真实的类别标签;p为预测的类概率分布;θ为第二阶段的预测角度参数,为有向框的五参数表示的真值中的角度;γ为平衡权重值,i表示每张图片中第i个水平包络预测框,m为总类别数。
转入步骤3。
步骤3、将有标签数据集和无标签数据集同时作为教师网络和学生网络的输入;采用联合训练的方式,对基于教师-学生网络的半监督有向目标检测模型进行训练,分别得到训练好的学生网络与训练好的教师网络,具体如下:
首先利用有标签数据集训练学生网络,其次采用学生网络与教师网络联合训练的方式,利用有标签数据集与无标签数据集同时作为网络输入,计算联合训练损失函数,训练半监督有向目标检测模型;有标签数据集作为学生网络的输入,利用学生网络得到预测结果并选取正负样本与有标签数据集计算得到有监督损失Ls。
如图4所示,无标签数据集经过强增强和弱增强两个不同的数据处理分支,强增强后的数据输入学生网络得到预测概率,弱增强后的数据输入教师网络得到水平包络预测框与角度的伪标签,选取正负样本并将两者计算一致性损失作为无监督损失Lu;计算有监督损失和无监督损失的加权和,得到总损失,用于反向梯度更新学生网络的模型参数;经过每一轮训练得到训练好的学生网络,再通过指数滑动平均方式对教师网络参数进行更新,得到训练好的教师网络。
有标签数据集作为学生网络的输入,利用学生网络得到预测结果并选取正负样本与有标签数据集计算得到有监督损失时,正负样本选取方法如下:
训练第一阶段时,在RPN生成的建议框中进行第一次正负样本筛选,选择所有水平建议框中与水平包络真值框IoU值大于0.5的水平建议框作为正样本,与水平包络真值框IoU值小于0.4的水平建议框作为负样本,利用第一次正负样本筛选结果训练第一ROIHead;在水平包络预测框回归后再进行第二次正负样本筛选,选取所有水平建议框中与水平包络预测框真值IoU值大于0.8的回归框作为正样本,与水平包络预测框真值IoU值小于0.7的回归框作为负样本,利用第二次正负样本筛选结果训练第二ROI Head;训练第二阶段时,直接选取第一阶段中非极大值抑制后筛选得到的水平包络预测框送入第二阶段。
利用伪标签训练第一阶段与第二阶段时,将伪标签作为真值,正负样本筛选方式与上述正负样本筛选方式相同。
弱增强后的数据输入教师网络得到的水平包络预测框与角度参数的伪标签选取方法如下:
在训练第一阶段时:选取在RPN Head的分类头中前景得分大于0.7的水平建议框,其经过第一ROI Head的边界框检测头精确回归后的值作为教师网络的水平包络预测框伪标签。
在训练第二阶段时:得到精确的水平包络预测框后,选取第二ROI Head的分类头中分类前景得分大于0.9的水平包络预测框,并经过第二ROI Head的边界框检测头进行角度参数预测后,经有向框解码器解码的值作为有向框的伪标签;教师网络生成的伪标签经过坐标变换映射到学生网络的标签尺度上,坐标变换的变换矩阵为弱增强时记录的变换矩阵。
联合训练损失函数L包括有监督损失Ls和无监督损失Lu如式(10)所示:
L=Ls+aLu (10)
a为权重值;
其中,有监督损失Ls包括第一阶段回归损失函数与第二阶段回归损失函数/>如式(11)所示:
第一阶段的损失函数如式(12)和式(13)所示:
其中Ncls为正负样本的总数,k表示第k个样本;Nreg为特征图的大小*3,f表示特征图中的第f个特征点;Lcls1(*)为二元交叉熵损失;vk表示第k个样本预测的前景类别概率;代表第k个样本的前景类别标签;/>为平衡权重。
计算无监督损失Lu时,将选取的伪标签作为无监督的真值标签,无监督的水平包络真值框与有向框的五参数表示的角度真值为教师网络预测得到的水平包络预测框与有向框的角度预测值,如式(14)所示。
选取水平包络预测框伪标签与有向框伪标签后需热编码伪标签的分类分布如式(15)所示:
T是输入图像;fc(T;e)代表由e参数化的教师网络的分类头预测的类别分布;fb(T;e)代表由e参数化的教师网络的边界框检测头与角度参数预测头预测的参数;e是教师网络训练所得到的参数;ONE_HOE为热编码。
根据联合训练损失函数计算出的损失,反向梯度更新学生网络参数的同时同步迭代更新教师网络参数,重复训练20个周期,保存网络权重。
转入步骤4。
步骤4、下载DOTA数据集中的测试集;将测试集作为训练好的教师网络的输入,获取测试集中目标的预测类别和预测有向框坐标。
按照如上步骤,便可实现基于半监督学习的有向目标检测方法。
Claims (9)
1.一种基于半监督学习的有向目标检测方法,其特征在于,步骤如下:
步骤1、下载DOTA数据集里有带角度标签的有向框数据集,从有向框数据集中选择10%的图像,通过五参数表示方法进行有标签标记,构成有标签数据集;剩余的90%图像组成无标签数据集;转入步骤2;
步骤2、构建基于教师-学生网络的半监督有向目标检测模型:
所述基于教师-学生网络的半监督有向目标检测模型包括教师网络和学生网络,两个网络的结构相同,均为改进的两阶段目标检测网络;学生网络参数通过无监督训练得到,教师网络参数则由学生网络参数通过指数滑动平均的方式进行迭代更新;转入步骤3;
步骤3、将有标签数据集和无标签数据集同时作为教师网络和学生网络的输入;采用联合训练的方式,对基于教师-学生网络的半监督有向目标检测模型进行训练,分别得到训练好的学生网络与训练好的教师网络;转入步骤4;
步骤4、下载DOTA数据集中的测试集;将测试集作为训练好的教师网络的输入,获取测试集中目标的预测类别和预测有向框坐标。
2.根据权利要求1所述的一种基于半监督学习的有向目标检测方法,其特征在于,步骤1中,将有向框数据集中带有角度标签的图像通过五参数表示方法进行标签标记,即对每幅带有角度标签的图像采用五参数表示方法转化为有向框的五参数表示的真值;
编码阶段:有向框数据集中带有角度标签的图像作为原始图像,原始图像中真值框的四个顶点坐标(x1,y1),(x2,y2),(x3,y3),(x4,y4)通过五参数表示方法转化为有向框的五参数表示的真值对有向框数据集中所有原始图像逐一进行标签标记后,构成有标签数据集,其中x*,y*表示水平包络真值框的中心点坐标,w*,h*分别表示水平包络真值框的宽和高,/>表示有向框长边与x轴的夹角也称有向框长边表示法的角度,其取值范围为[-90°,90°];具体如下:
首先找到有向框数据集中第一个真值框的四个顶点坐标值,找到坐标值中数值最小的坐标值记为xmin,ymin,以及数值最大的坐标值记为xmax,ymax接着根据xmin,ymin,xmax,ymax计算得到有向框的五参数表示的真值中的x*、y*、w*、h*;
有向框的五参数表示的真值中的角度计算方式如下:
记为有向框长边表示法的真值的宽,/>为有向框长边表示法的真值的高;
设xmin所在点为A1,并按顺时针方向将剩余三个点依次表示为A2,A3,A4;其中d()为距离,dy为A1,A3两点垂直高度差,dx为A1,A3两点水平宽度差;将有向框数据集中原始图像的四个顶点坐标(x1,y1),(x2,y2),(x3,y3),(x4,y4)转换为有向框的五参数表示的真值/>并将角度/>统一到-π/2与π/2之间,如果/>则/>
3.根据权利要求2所述的一种基于半监督学习的有向目标检测方法,其特征在于,步骤2中,改进的两阶段目标检测网络为基于Faster RCNN的渐进式有向目标检测网络;为了提高网络的召回率,设计了渐进式的两个预测阶段,其中第一阶段为水平包络预测框预测阶段,第二阶段为角度参数预测阶段;
水平包络预测框预测阶段采用改进后的Faster RCNN网络进行预测,设水平包络预测框的参数(x,y,w,h),角度参数预测阶段的预测角度参数为θ,第一阶段预测得到(x,y,w,h),第二阶段预测得到θ,在第二阶段后,有向框解码器根据x,y,w,h,θ解码得到有向框的长边表示法的预测值(xr,yr,wr,hr,θr),以此来确定最终的有向预测框。
4.根据权利要求3所述的一种基于半监督学习的有向目标检测方法,其特征在于,基于Faster RCNN的渐进式有向目标检测网络采用ResNet50作为特征提取网络提取图片特征,采用FPN生成融合多尺度信息的特征图,RPN阶段生成水平建议框,将原Faster RCNN网络中的ROI Align后分类预测头3*3卷积的输出通道改为1,分类损失函数改为二元交叉熵损失:
第一阶段中,利用第一ROI Align提取水平建议框特征图,第一ROI Head的边界框检测头根据水平建议框特征图来预测水平包络预测框的参数x,y,w,h;在训练过程中利用五参数表示的真值中的(x*,y*,w*,h*)与水平包络预测框的参数x,y,w,h计算第一阶段的损失函数,从而训练第一阶段;再利用水平包络预测框的参数x,y,w,h映射到融合多尺度信息的特征图,提取水平包络预测框感兴趣区域特征图;
采用旋转角度增强训练方法训练第二阶段,将水平包络预测框感兴趣区域特征图映射为多个不同角度的旋转特征图并计算每个旋转特征图对应的角度标签,将代表不同角度的特征图分别通过第二ROI Align得到固定尺寸的特征图;第二ROI Align后同样接入第二ROI Head,第二ROI Head由分类头与输出通道为1的全连接层构成,其中输出通道为1的全连接层为角度参数预测头,用于预测每块特征图的角度参数θ,在其后接入有向框解码器,有向框解码器用来将水平包络框与对应的一个角度参数解码出最终对应的有向预测框;
有向框解码器方法:根据水平包络预测框的参数x,y,w,h与第二阶段的预测值θ解码出有向框的长边表示法的预测值(xr,yr,wr,hr,θr);有向框的长边表示法的预测值的xr,yr对应等于水平包络预测框预测值的中心点坐标x,y,θr=θ,wr,hr由以下式得到:
L(h)=L(w)*tan(|θ|)
其中,L(w)表示宽边偏移距离;L(h)表示长边偏移距离。
5.根据权利要求4所述的一种基于半监督学习的有向目标检测方法,其特征在于,旋转角度增强训练方法具体如下:
将水平包络预测框感兴趣区域特征图乘以预先设置好的s种单应性矩阵得到s种不同俯视视角的旋转特征图,利用单应性矩阵分别得到s种俯视视角旋转特征图的旋转角度,将s种旋转角度加上原水平包络预测框解码时对应的角度标签的值作为s种不同俯视视角旋转特征图的角度标签;再利用s种不同俯视视角的旋转特征图与对应的s种不同俯视视角旋转特征图的角度标签一起训练角度回归分支;
单应性矩阵根据需求自行设置,设置方法如下:拍摄s+1张同一物体不同俯视视角的图片,选取一张图片作为主模板与剩下s张图片逐一匹配计算对应的s个单应性矩阵,利用OpenCV库中的方法提取每张图片的shift关键点并生成描述子,将s张图片中每一张图片的特征点与描述子采用OpenCV库中knnMatch函数与模板图片的特征点与描述子进行shift特征匹配配对,并采用findHomography函数计算视角变换矩阵,以此得到s种不同的单应性矩阵;
不同单应性矩阵与水平包络预测框感兴趣区域特征图各个通道做单应性变换并拼接得到不同俯视视角的旋转特征图,并将其大小缩小至原水平包络预测框内,空白点补零;不同俯视视角的旋转特征图的角度标签计算方法如下:将单应性矩阵乘以(1,0,0)向量得到变化后的旋转向量(X,Y,Z),不同俯视视角的旋转特征图乘以其对应的单应性矩阵后在XY平面旋转的角度为 与角度标签/>求和,最终得到不同俯视视角的旋转特征图的角度标签;
使不同俯视视角的旋转特征图经过角度参数预测头得到的角度预测值,利用不同俯视视角的旋转特征图的角度标签与角度预测值计算第二阶段的损失函数,从而反向梯度更新第二阶段网络参数。
6.根据权利要求1所述的一种基于半监督学习的有向目标检测方法,其特征在于,步骤3中,将有标签数据集和无标签数据集同时作为教师网络和学生网络的输入;采用联合训练的方式,对基于教师-学生网络的半监督有向目标检测模型进行训练,分别得到训练好的学生网络与训练好的教师网络;具体如下:
首先利用有标签数据集训练学生网络,其次采用学生网络与教师网络联合训练的方式,利用有标签数据集与无标签数据集同时作为网络输入,计算联合训练损失函数,训练半监督有向目标检测模型;有标签数据集作为学生网络的输入,利用学生网络得到预测结果并选取正负样本与有标签数据集计算得到有监督损失Ls;无标签数据集经过强增强和弱增强两个不同的数据处理分支,强增强后的数据输入学生网络得到预测概率,弱增强后的数据输入教师网络得到水平包络预测框与角度的伪标签,选取正负样本并将两者计算一致性损失作为无监督损失Lu;计算有监督损失和无监督损失的加权和,得到总损失,用于反向梯度更新学生网络的模型参数;经过每一轮训练得到训练好的学生网络,再通过指数滑动平均方式对教师网络参数进行更新,得到训练好的教师网络。
7.根据权利要求6所述的一种基于半监督学习的有向目标检测方法,其特征在于,有标签数据集作为学生网络的输入,利用学生网络得到预测结果并选取正负样本与有标签数据集计算得到有监督损失时,正负样本选取方法如下:
训练第一阶段时,在RPN生成的建议框中进行第一次正负样本筛选,选择与水平包络真值框IoU值大于0.5的水平建议框作为正样本,与水平包络真值框IoU值小于0.4的水平建议框作为负样本,利用第一次正负样本筛选结果训练第一ROI Head;在水平包络预测框回归后再进行第二次正负样本筛选,选取与水平包络预测框真值IoU值大于0.8的回归框作为正样本,与水平包络预测框真值IoU值小于0.7的回归框作为负样本,利用第二次正负样本筛选结果训练第二ROI Head;训练第二阶段时,直接选取第一阶段中非极大值抑制后筛选得到的水平包络预测框送入第二阶段;
利用伪标签训练第一阶段与第二阶段时,将伪标签作为真值,正负样本筛选方式与上述筛选方式相同;
弱增强后的数据输入教师网络得到的水平包络预测框与角度参数的伪标签选取方法如下:
在训练第一阶段时:选取在RPN Head的分类头中前景得分大于0.7的水平建议框,其经过第一ROI Head的边界框检测头精确回归后的值作为教师网络的水平包络预测框伪标签;
在训练第二阶段时:得到精确的水平包络预测框后,选取第二ROI Head的分类头中分类前景得分大于0.9的水平包络预测框,并经过第二ROI Head的边界框检测头进行角度参数预测后,经有向框解码器解码的值作为有向框的伪标签;教师网络生成的伪标签经过坐标变换映射到学生网络的标签尺度上,坐标变换的变换矩阵为弱增强时记录的变换矩阵。
8.根据权利要求5所述的一种基于半监督学习的有向目标检测方法,其特征在于,第二阶段的损失函数如下:
其中,Lreg(*)为回归损失;Lcls(*)为分类损失;n为每张图片中水平包络预测框的个数;p*为真实的类别标签;p为预测的类概率分布;θ为第二阶段的预测角度参数,为有向框的五参数表示的真值中的角度;γ为平衡权重值,i表示每张图片中第i个水平包络预测框,m为总类别数。
9.根据权利要求6所述的一种基于半监督学习的有向目标检测方法,其特征在于,
联合训练损失函数L包括有监督损失Ls和无监督损失Lu如下所示:
L=Ls+aLu
a为权重值;
其中,有监督损失Ls包括第一阶段回归损失函数与第二阶段回归损失函数/>如下所示:
第一阶段的损失函数如下所示:
其中Ncls为正负样本的总数,k表示第k个样本;Nreg为特征图的大小*3,f表示特征图中的第f个特征点;Lcls1(*)为二元交叉熵损失;vk表示第k个样本预测的前景类别概率;代表第k个样本的前景类别标签;/>为平衡权重;
计算无监督损失Lu时,将选取的伪标签作为无监督的真值标签,无监督的水平包络真值框与有向框的五参数表示的角度真值为教师网络预测得到的水平包络预测框与有向框的角度预测值,如式(14)所示;
选取水平包络预测框伪标签与有向框伪标签后需热编码伪标签的分类分布如式(15)所示:
T是输入图像;fc(T;e)代表由e参数化的教师网络的分类头预测的类别分布;fb(T;e)代表由e参数化的教师网络边的边界框检测头与角度参数预测头预测的参数;e是教师网络训练所得到的参数;ONE_HOE为热编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310395613.9A CN116452794B (zh) | 2023-04-14 | 2023-04-14 | 一种基于半监督学习的有向目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310395613.9A CN116452794B (zh) | 2023-04-14 | 2023-04-14 | 一种基于半监督学习的有向目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116452794A true CN116452794A (zh) | 2023-07-18 |
CN116452794B CN116452794B (zh) | 2023-11-03 |
Family
ID=87125129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310395613.9A Active CN116452794B (zh) | 2023-04-14 | 2023-04-14 | 一种基于半监督学习的有向目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116452794B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118247607A (zh) * | 2024-05-27 | 2024-06-25 | 厦门大学 | 基于双旋转局部不一致性学习的半监督伪装目标检测方法 |
CN118411683A (zh) * | 2024-07-03 | 2024-07-30 | 浙江华是科技股份有限公司 | 一种模拟不同角度变换的船舶检测方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3633990A1 (en) * | 2018-10-02 | 2020-04-08 | Nokia Technologies Oy | An apparatus, a method and a computer program for running a neural network |
CN112818969A (zh) * | 2021-04-19 | 2021-05-18 | 南京烽火星空通信发展有限公司 | 一种基于知识蒸馏的人脸姿态估计方法及系统 |
CN113377888A (zh) * | 2021-06-25 | 2021-09-10 | 北京百度网讯科技有限公司 | 训练目标检测模型和检测目标的方法 |
CN113610173A (zh) * | 2021-08-13 | 2021-11-05 | 天津大学 | 一种基于知识蒸馏的多跨域少样本分类方法 |
CN114898173A (zh) * | 2022-04-13 | 2022-08-12 | 广东工业大学 | 一种改善伪标签质量和类别不平衡的半监督目标检测方法 |
CN115393687A (zh) * | 2022-07-12 | 2022-11-25 | 西北工业大学 | 一种基于双伪标签优化学习的rgb图像半监督目标检测方法 |
-
2023
- 2023-04-14 CN CN202310395613.9A patent/CN116452794B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3633990A1 (en) * | 2018-10-02 | 2020-04-08 | Nokia Technologies Oy | An apparatus, a method and a computer program for running a neural network |
CN112818969A (zh) * | 2021-04-19 | 2021-05-18 | 南京烽火星空通信发展有限公司 | 一种基于知识蒸馏的人脸姿态估计方法及系统 |
CN113377888A (zh) * | 2021-06-25 | 2021-09-10 | 北京百度网讯科技有限公司 | 训练目标检测模型和检测目标的方法 |
CN113610173A (zh) * | 2021-08-13 | 2021-11-05 | 天津大学 | 一种基于知识蒸馏的多跨域少样本分类方法 |
CN114898173A (zh) * | 2022-04-13 | 2022-08-12 | 广东工业大学 | 一种改善伪标签质量和类别不平衡的半监督目标检测方法 |
CN115393687A (zh) * | 2022-07-12 | 2022-11-25 | 西北工业大学 | 一种基于双伪标签优化学习的rgb图像半监督目标检测方法 |
Non-Patent Citations (4)
Title |
---|
HAIYUE ZHU等: "Grasping Detection Network with Uncertainty Estimation for Confidence-Driven Semi-Supervised Domain Adaptation", 《 2020 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS)》, pages 9608 - 9613 * |
YANGYANG LI 等: "A Lightweight Keypoint-Based Oriented Object Detection of Remote Sensing Images", 《REMOTE SENSING》, vol. 13, no. 13, pages 1 - 19 * |
冯承健: "基于深度迁移学习的图像识别算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 07, pages 138 - 467 * |
苗壮等: "一种鲁棒的双教师自监督蒸馏哈希学习方法", 《计算机科学》, vol. 49, no. 10, pages 159 - 168 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118247607A (zh) * | 2024-05-27 | 2024-06-25 | 厦门大学 | 基于双旋转局部不一致性学习的半监督伪装目标检测方法 |
CN118247607B (zh) * | 2024-05-27 | 2024-09-06 | 厦门大学 | 基于双旋转局部不一致性学习的半监督伪装目标检测方法 |
CN118411683A (zh) * | 2024-07-03 | 2024-07-30 | 浙江华是科技股份有限公司 | 一种模拟不同角度变换的船舶检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116452794B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116452794B (zh) | 一种基于半监督学习的有向目标检测方法 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN113436169B (zh) | 一种基于半监督语义分割的工业设备表面裂纹检测方法及系统 | |
CN113657388B (zh) | 一种融合图像超分辨率重建的图像语义分割方法 | |
CN113870335B (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN108647585A (zh) | 一种基于多尺度循环注意力网络的交通标识符检测方法 | |
CN109886121A (zh) | 一种遮挡鲁棒的人脸关键点定位方法 | |
CN111325750B (zh) | 一种基于多尺度融合u型链神经网络的医学图像分割方法 | |
CN111652240B (zh) | 一种基于cnn的图像局部特征检测与描述方法 | |
CN112734764A (zh) | 一种基于对抗网络的无监督医学图像分割方法 | |
CN112287941B (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
CN110648310A (zh) | 基于注意力机制的弱监督铸件缺陷识别方法 | |
Tinchev et al. | Skd: Keypoint detection for point clouds using saliency estimation | |
CN111738113A (zh) | 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法 | |
CN116453121B (zh) | 一种车道线识别模型的训练方法及装置 | |
CN114240955B (zh) | 一种半监督的跨领域自适应的图像分割方法 | |
CN114332007A (zh) | 一种基于Transformer的工业缺陷检测和识别方法 | |
CN115631121A (zh) | 一种基于自监督学习的全景图像显著性预测方法 | |
CN116310350B (zh) | 基于图卷积和半监督学习网络的城市场景语义分割方法 | |
Pei et al. | Consistency guided network for degraded image classification | |
CN112861700A (zh) | 基于DeepLabv3+的车道线网络识别模型建立及车辆速度检测方法 | |
CN114820655A (zh) | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 | |
CN112488128A (zh) | 一种基于贝塞尔曲线的任意畸变图像线段检测方法 | |
CN114821326A (zh) | 一种宽幅遥感影像中密集弱小目标检测识别方法 | |
CN114943888B (zh) | 基于多尺度信息融合的海面小目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |