CN112966587B - 目标检测模型的训练方法、目标检测方法及相关设备 - Google Patents
目标检测模型的训练方法、目标检测方法及相关设备 Download PDFInfo
- Publication number
- CN112966587B CN112966587B CN202110231549.1A CN202110231549A CN112966587B CN 112966587 B CN112966587 B CN 112966587B CN 202110231549 A CN202110231549 A CN 202110231549A CN 112966587 B CN112966587 B CN 112966587B
- Authority
- CN
- China
- Prior art keywords
- target
- feature
- remote sensing
- sensing image
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 150
- 238000012549 training Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000010586 diagram Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 97
- 238000004873 anchoring Methods 0.000 claims description 20
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 4
- 230000011218 segmentation Effects 0.000 description 16
- 238000005457 optimization Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/469—Contour-based spatial representations, e.g. vector-coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30181—Earth observation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Astronomy & Astrophysics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了目标检测模型的训练方法、目标检测方法及相关设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取训练样本数据,训练样本数据包括第一遥感图像和第一遥感图像中待检测对象的锚定框的位置标注信息,位置标注信息包括锚定框相对于预设方向的角度信息;基于目标检测模型获取第一遥感图像的目标特征图,基于目标特征图对待检测对象进行目标检测,得到目标边界框,并基于角度信息,确定锚定框和目标边界框之间的损失信息;基于损失信息,更新目标检测模型的参数。根据本申请的技术,解决了目标检测技术中存在的对遥感图像的目标检测准确率比较低的问题,提高了对遥感图像的目标检测的准确率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域,具体涉及一种目标检测模型的训练方法、目标检测方法及相关设备。
背景技术
随着深度学习技术的进步,计算机视觉技术在工业场景中的落地越来越丰富。而作为计算机视觉技术的基础,目标检测方法在遥感检测当中将起到关键作用。
目前,遥感图像的目标检测方法中,训练数据通常使用的是无旋转角度的锚定框,通过将预测的锚定框与标定的锚定框进行比较,并训练回归函数使预测的锚定框接近标定的锚定框,以实现模型训练。
发明内容
本公开提供了一种目标检测模块的训练方法、目标检测方法及相关设备。
根据本公开的第一方面,提供了一种目标检测模块的训练方法,包括:
获取训练样本数据,所述训练样本数据包括第一遥感图像和所述第一遥感图像中待检测对象的锚定框的位置标注信息,所述位置标注信息包括所述锚定框相对于预设方向的角度信息;
基于目标检测模型获取所述第一遥感图像的目标特征图,基于所述目标特征图对所述待检测对象进行目标检测,得到目标边界框,并基于所述角度信息,确定所述锚定框和所述目标边界框之间的损失信息;
基于所述损失信息,更新所述目标检测模型的参数。
根据本公开的第二方面,提供了一种目标检测方法,包括:使用第一方面中的任一项方法训练得到的目标检测模型对第二遥感图像进行目标检测。
根据本公开的第三方面,提供了一种目标检测模型的训练装置,包括:
第一获取模块,用于获取训练样本数据,所述训练样本数据包括第一遥感图像和所述第一遥感图像中待检测对象的锚定框的位置标注信息,所述位置标注信息包括所述锚定框相对于预设方向的角度信息;
第二获取模块,用于基于目标检测模型获取所述第一遥感图像的目标特征图;
第一目标检测模块,用于基于所述目标特征图对所述待检测对象进行目标检测,得到目标边界框;
确定模块,用于基于所述角度信息,确定所述锚定框和所述目标边界框之间的损失信息;
更新模块,用于基于所述损失信息,更新所述目标检测模型的参数。
根据本公开的第四方面,提供了一种目标检测装置,包括:
第二目标检测模块,用于使用第一方面中的任一项方法训练得到的目标检测模型对第二遥感图像进行目标检测。
根据本公开的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面中的任一项方法,或者执行第二方面中的任一项方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行第一方面中的任一项方法,或者执行第二方面中的任一项方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面中的任一项方法,或者实现第二方面中的任一项方法。
根据本申请的技术解决了目标检测技术中存在的对遥感图像的目标检测准确率比较低的问题,提高了对遥感图像的目标检测的准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的目标检测模型的训练方法的流程示意图;
图2是遥感图像中待检测对象的锚定框示意图;
图3是根据本申请第三实施例的目标检测模型的训练装置的结构示意图;
图4是根据本申请第四实施例的目标检测装置的结构示意图;
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
第一实施例
如图1所示,本申请提供一种目标检测模型的训练方法,包括如下步骤:
步骤S101:获取训练样本数据,所述训练样本数据包括第一遥感图像和所述第一遥感图像中待检测对象的锚定框的位置标注信息,所述位置标注信息包括所述锚定框相对于预设方向的角度信息。
本实施例中,目标检测模型的训练方法涉及计算机视觉、深度学习等人工智能技术领域,其可以广泛应用于遥感检测场景中。该方法可以由本申请实施例的目标检测模型的训练装置执行。而目标检测模型的训练装置可以配置在任意电子设备中,以执行本申请实施例的目标检测模型的训练方法,该电子设备可以服务器,也可以为终端,这里不做具体限定。
所述训练样本数据为用于对目标检测模型进行训练的数据,其包括多个遥感图像,以及针对每个遥感图像中待检测对象的标注信息。其中,标注信息包括针对遥感图像中待检测对象的锚定框的位置标注信息和待检测对象的分类标注信息。
遥感图像可以是通过搭载在例如人造卫星、航拍飞机上的传感器探测的地物电磁辐射特征信号等所获得的图像。锚定框指的是框定遥感图像中待检测对象的边界框,用于指定待检测对象在遥感图像中所处的位置,其形状可以为长方形、正方形或其他形状。
而待检测对象指的是与遥感图像中相对于背景的图像内容,其可以称之为前景,可以为物体,如飞机或船舰等,本申请实施例的目的即在于检测遥感图像的前景图像区域以及前景分类。另外,第一遥感图像中需要检测的待检测对象可以为一至多个,比如包括多架飞机或多艘船舰。
待检测对象的锚定框的位置标注信息可以包括锚定框相对于预设方向的角度信息,所述预设方向通常可以为水平方向。如图2所示,相关技术中,锚定框通常为无旋转角度的边界框201,这种锚定框所确定的边界框是待检测对象的外接边界框,当待检测对象例如飞机或船舰处于倾斜的状态时,利用这种锚定框所确定的面积通常与待检测对象的真实面积相差是比较大的。
而在一些应用场景中,待检测对象的长宽比悬殊,其对方位比较敏感,在遥感图像中相对于水平方向可能会存在一定的角度,因此,如图2中的锚定框202,相对于水平方向也会存在一定的角度,通过标定待检测对象的角度信息,其相对于水平方向的角度为θ,如此,使得遥感图像中待检测对象的位置标定更加准确,提高目标检测模型的训练效果。
可以采用人工方式标注第一遥感图像中待检测对象的锚定框的位置标注信息,其人工标注可以采用四点式标注方法,其可以按照顺时针或逆时针对待检测对象的四个顶点进行位置标注,通过标注的四个顶点的坐标,即可以确定待检测对象的区域位置。也可以获取其他设备发送的第一遥感图像中待检测对象的锚定框的位置标注信息。
所述待检测对象的锚定框的位置标注信息除了包括角度信息之外,还可以包括锚定框的中心坐标、长度和宽度等信息,这些信息共同确定待检测对象在遥感图像中所处的区域位置。
待检测对象的分类标注信息为指示待检测对象为何种种类的物体的信息,比如,飞机或船舰等物体。
步骤S102:基于目标检测模型获取所述第一遥感图像的目标特征图,基于所述目标特征图对所述待检测对象进行目标检测,得到目标边界框,并基于所述角度信息,确定所述锚定框和所述目标边界框之间的损失信息。
所述目标检测模型用于对遥感图像进行目标检测,即输入遥感图像,目标检测模型可以输出遥感图像的检测结果,包括对象的区域位置和分类。
所述目标检测模型可以为单阶段目标检测模型,其包括RetinaNet网络,其可以分为两个部分:主干网络、分类和回归子网络,主干网络用于对遥感图像进行特征提取。
可选的,RetinaNet网络可以使用特征金字塔FPN结构的网络作为主干网络,可以称之为FPN网络,FPN网络通过自上而下的路径和横向之间的连接可以增强卷积神经网络的特征提取能力,网络可以有效地从单分辨率输入图像上构建丰富的多尺度特征金字塔。特征金字塔的每一层都可以被用于检测不同尺度的物体,极大地提高了网络对不同尺度特征的稳定性。
所述目标特征图可以包括第一遥感图像的特征数据,用于对待检测对象进行目标检测。其可以为多通道的特征数据,特征数据的大小和通道数据可以由特征提取网络的具体结构确定。
可以采用FPN网络来对第一遥感图像进行特征提取,得到所述第一遥感图像的目标特征图,也可以在RetinaNet网络的基础上添加特征优化网络,该特征优化网络可以将主干网络输出的特征图进行特征优化后得到目标特征图,之后,基于该特征优化网络输出的目标特征图对待检测对象进行目标检测。至于特征优化网络如何进行特征优化,在下面实施方式中再进行详细说明。
FPN网络的每一层或特征优化网络都与分类和回归子网络相连接,分类和回归子网络可以具有相同的结构,但是网络中变量的权重参数可以不相同,分类和回归子网络用于基于目标特征图对待检测对象进行目标检测,得到目标边界框和待检测对象的分类信息,所述目标边界框即为检测出来的待检测对象的区域位置。
在目标边界框的检测过程中,分类和回归子网络可以利用感兴趣区域等技术,基于所述目标特征图预测得到待检测对象的多个边界框,包括了获得的这多个边界框的参数信息,参数信息可以包括边界框的长度、宽度、中心点坐标和角度等一种或任意组合。
同时,可以基于所述目标特征图,获得第一遥感图像的前景分割结果,其中,前景分割结果包括指示第一遥感图像的多个像素中每个像素是否属于前景的指示信息。指示信息包含了第一遥感图像的像素属于前景和/或背景的概率,该前景分割结果给出了像素级的预测结果。
通过将待检测对象的多个边界框映射到前景分割结果,与待检测对象的轮廓拟合越好的边界框,与前景分割结果对应的前景图像区域越接近重叠,因此,在这多个边界框中,与前景图像区域之间的重叠区域越大,也即边界框与前景图像区域越接近重叠,说明该边界框与待检测对象的轮廓拟合的越好,也说明该边界框的预测结果越准确。
相应的,可以将这多个边界框中与前景图像区域重叠大于预设阈值的边界框确定为所述待检测对象的目标边界框,本领域技术人员应当理解,本申请实施例不限定预设阈值的具体数值,其可以根据实际需求来确定。其中,该目标边界框的数量可以为一至多个,其数量对应待检测对象的数量,每个待检测对象可以对应一个目标边界框。
比如,这多个边界框分别为边界框A、边界框B和边界框C,将这三个边界框映射至前景分割结果中,可以计算得出每个边界框与前景图像区域的重叠区域在整个边界框中所占的比例,例如,针对边界框A,该比例为95%,针对边界框B,该比例为85%,针对边界框C,该比例为60%,在预设阈值设置为80%的情况下,则排除了边界框C为目标边界框的可能性。
另外,在目标边界框的数量包括多个的情况下,其内可能存在重叠的目标边界框,即重叠的目标边界框对应的是同一待检测对象,在该种情况下,可以将重叠区域大于一定阈值的两个边界框中其中之一移除,这其中之一可以为与前景图像区域的重叠区域较小的边界框。
比如,第一遥感图像中仅包括一个待检测对象如船舰,而确定的目标边界框包括边界框A和边界框B,边界框A和边界框B的重叠区域大于一定阈值,而边界框B中与前景图像区域的重叠区域在边界框B中所占的比例小于边界框A中与前景图像区域的重叠区域在边界框A中所占的比例,因此,将边界框B移除,最终得到目标边界框为边界框A。
之后,可以基于所述角度信息,确定所述锚定框与所述目标边界框之间的损失信息,所述损失信息为所述锚定框所框定的区域位置与所述目标边界框所框定的区域位置的差异。
可以通过交并比IOU的指标来确定所述锚定框与所述目标边界框之间的差异,IOU指的是锚定框与目标边界框的交叠率,即它们的交集与并集的比值,最理想的情况是完全重叠,即比值为1,此时,其损失信息为零。
然而,在实际情况下,检测框即检测出来的目标边界框不太可能与锚定框完全重叠,即之间具有损失,重叠参数越大,之间的损失信息越小,重叠参数越小,之间的损失信息越大。并且,在待检测对象的长宽比悬殊,且处于倾斜的状态下,由于目标边界框与待检测对象之间面积的差异,使得计算得到的交并比的误差是非常大的,相应的,由IOU确定的损失信息的误差也是比较大,导致模型训练的效果变差,目标检测的准确率降低。
在该种应用场景下,可以首先确定所述锚定框和所述目标边界框之间的IOU,之后,该IOU可以结合锚定框的角度信息,来确定所述锚定框与目标边界框之间的损失信息。
具体的,可以基于目标边界框的坐标信息(该坐标信息可以为目标边界框中心点坐标和四个角点坐标),确定所述目标边界框相对于预设方向的角度信息,基于锚定框相对于预设方向的角度信息和目标边界框相对于预设方向的角度信息,确定锚定框与目标边界框之间的夹角,根据之间的夹角和锚定框与目标边界框之间的IOU,确定锚定框与目标边界框的重叠参数,最终基于重叠参数确定锚定框与目标边界框之间的损失信息。
在一个示例中,可以将交并比除以夹角得到的归一化值确定为锚定框和目标边界框的重叠参数,即在IOU保持一定的情况下,重叠参数随着锚定框和目标边界框之间的角度的增大而减小,相应的,由于损失信息与重叠参数呈反比,因此,损失信息随着锚定框和目标边界框之间的夹角的增大而增大,即夹角越大,损失信息也越大。
同时,在确定锚定框和目标边界框之间的损失信息的情况下,可以确定待检测对象的分类标注信息与检测出来的待检测对象的分类信息之间的损失信息,该损失信息结合锚定框与目标边界框之间的损失信息共同构成了目标检测模型的损失信息。
此外,为了解决目标检测模型中目标与种类数量的差异过大而导致的失衡问题,可以采用focal loss损失函数来确定目标检测模型的损失信息,从而能够大大地提高单阶段检测器的目标检测模型的表现。
步骤S103:基于所述损失信息,更新所述目标检测模型的参数。
可以基于锚定框与目标边界框之间的损失信息,更新目标检测模型的参数,更具体的,可以将该损失信息与待检测对象的分类标注信息与检测出来的待检测对象的分类信息之间的损失信息的加和值,更新目标检测模型的参数。
在一示例中,可以通过梯度反向传播方法调整目标检测模型的参数,在训练时,可以将训练样本数据包括的第一遥感图像依次输入至目标检测模型,每次迭代根据损失信息的加和值反向回传至目标检测模型,以调整目标检测模型的参数。当损失信息的加和值降低到一定阈值,或者达到了预定的迭代次数,则目标检测模型的参数更新完毕,即目标检测模型训练完成。
本实施例中,通过对训练样本数据处理时添加遥感图像中待检测对象的角度信息,在训练过程回归角度信息,从而可以大大提高目标检测模型的训练效果,进而适用于遥感图像中角度各异的目标,提高目标检测的准确率。
可选的,所述角度信息通过如下方式确定:
获取第一遥感图像中待检测对象的顶点的坐标序列,所述坐标序列为所述待检测对象的顶点的坐标按照目标时针顺序进行排列的序列;
基于所述坐标序列,确定所述第一遥感图像中待检测对象的锚定框相对于预设方向的角度信息。
本实施方式中,在数据标注阶段,可以采用四点式标定方法进行数据标定,区别于常用的利用锚定框中心点坐标位置以及锚定框的宽度和高度进行遥感图像中对象的锚定框标定,在存在旋转角度的目标检测方案中,对锚定框的四个顶点坐标进行标定有利于更精确地定位复杂场景下有角度的多种类目标信息。
可以将待检测对象的四个顶点按照目标时针顺序如顺时针顺序进行依次标定。且为了应对不同种类目标对于不同方位信息表达的不一致,对于方位敏感的物体如飞机,轮船等,可以选择使用待检测对象的头部点(机头或船头等)作为起始点,并按照顺时针顺序依次标定,得到所述坐标序列。
数据预处理时,可以利用四个顶点的坐标序列进行计算,得出锚定框的位置标注信息,包括中心坐标、长度和宽度以及角度信息,这些信息将会被输入至目标检测模型中进行模型的训练。
本实施方式中,通过四点式标注方法标注第一遥感图像中待检测对象的四个顶点的坐标,得到坐标序列,如此,可以基于该坐标序列,确定第一遥感图像中待检测对象的锚定框相对于预设方向的角度信息,其标定方式简单且有效。
可选的,所述基于所述角度信息,确定所述锚定框和所述目标边界框之间的损失信息,包括:
确定所述锚定框和所述目标边界框之间的交并比;
基于所述交并比和角度信息,确定所述锚定框与所述目标边界框之间的损失信息。
本实施方式中,交并比即IOU指的是锚定框与目标边界框的交叠率,即它们的交集与并集的比值。可以通过现有的或者新的交并比计算方式,确定所述锚定框和所述目标边界框之间的交并比。
之后,可以基于目标边界框的坐标信息(该坐标信息可以为目标边界框中心点坐标和四个角点坐标),确定所述目标边界框相对于预设方向的角度信息,基于锚定框相对于预设方向的角度信息和目标边界框相对于预设方向的角度信息,确定锚定框与目标边界框之间的夹角,根据之间的夹角和锚定框与目标边界框之间的IOU,确定锚定框与目标边界框的重叠参数,最终基于重叠参数确定锚定框与目标边界框之间的损失信息。
在一个示例中,可以将交并比除以夹角得到的归一化值确定为锚定框和目标边界框的重叠参数,即在IOU保持一定的情况下,重叠参数随着锚定框和目标边界框之间的角度的增大而减小,相应的,由于损失信息与重叠参数呈反比,因此,损失信息随着锚定框和目标边界框之间的夹角的增大而增大,即夹角越大,损失信息也越大。
本实施方式中,通过基于交并比结合角度信息去确定所述锚定框和所述目标边界框之间的损失信息,在锚定框和目标边界框之间的夹角越大的情况下,损失信息也越大,如此,可以提高目标检测模型的网络损失确定的准确率,提高目标检测模型的回归效果。
可选的,所述基于目标检测模型获取所述第一遥感图像的目标特征图,包括:
将所述训练样本数据输入至所述目标检测模型执行如下操作,以得到所述第一遥感图像的目标特征图:
对所述第一遥感图像进行特征提取,得到所述第一遥感图像的特征图,所述特征图包括第一特征点和所述第一特征点对应的第一特征向量;
基于所述特征图,确定所述第一特征点对应的目标候选边界框;
基于所述目标候选边界框和第一特征向量对所述特征图进行重构,得到所述目标特征图,所述目标特征图包括基于所述目标候选边界框确定的第二特征点和所述第二特征点对应的第二特征向量。
目前,每次迭代由主干网络输出的特征图做分类和回归任务时,通常都使用相同的特征图做分类和回归任务,而没有考虑到由于置信框即置信度评分较高的目标边界框的位置变化而引起的特征不对齐的问题。其中,置信框位置变化引起的特征不对齐的问题指的是,由于每次迭代时置信框的角度通常会发生变化,而特征图的特征没有相应发生变化,导致特征图中的特征与置信框的位置没有对齐。
本实施方式中,可以在RetinaNet网络的基础上添加特征优化网络,该特征优化网络可以将主干网络输出的特征图进行特征优化后得到目标特征图,相应的,可以将该特征优化网络与分类和回归子网络相连接,以将该特征优化网络输出的目标特征图输入至分类和回归子网络做分类和回归任务。
而该特征优化网络的目的即是将置信框位置变化引起的特征不对齐的问题进行纠正,具体可以将目标边界框的位置信息重新编码为特征图中相应的特征点,从而重构整个特征图实现特征的对齐。
具体的,可以将所述训练样本数据输入至所述目标检测模型执行相应操作,所述目标检测模型可以采用FPN网络对所述第一遥感图像进行特征提取,得到所述第一遥感图像的特征图,所述特征图可以包括一个或多个第一特征点,以及每个第一特征点对应的第一特征向量。其中,特征图中第一特征点的数量可以根据待检测对象的数量来确定,通常一个特征点可以对应一个待检测对象在第一遥感图像上的区域位置。
可以基于所述特征图,利用感兴趣区域等技术,基于所述特征图预测得到第一特征点对应的多个候选边界框,包括了获得的这多个候选边界框的参数信息,参数信息可以包括候选边界框的长度、宽度、中心点坐标和角度等一种或任意组合。
同时,可以基于所述特征图,可以获得第一遥感图像的前景分割结果,其中,前景分割结果包括指示第一遥感图像的多个像素中每个像素是否属于前景的指示信息。指示信息包含了第一遥感图像的像素属于前景和/或背景的概率,该前景分割结果给出了像素级的预测结果。
针对每个第一特征点,通过将第一特征点的多个候选边界框映射到前景分割结果,与待检测对象的轮廓拟合越好的候选边界框,与前景分割结果对应的前景图像区域越接近重叠,相应的,该候选边界框的置信度越高。因此,在这多个候选边界框中,与前景图像区域之间的重叠区域越大,也即候选边界框与前景图像区域越接近重叠,置信度越高,说明该候选边界框与待检测对象的轮廓拟合的越好,也说明该候选边界框的预测结果越准确。
相应的,针对每个第一特征点,可以将第一特征点对应的多个候选边界框中与前景图像区域重叠最大的候选边界框确定为所述第一特征点对应的目标候选边界框。也即保留每个第一特征点置信度最高的候选边界框,这样,可以提高处理的速度,同时确保每个第一特征点仅对应一个精化的候选边界框。
之后,针对每个第一特征点,可以基于所述目标候选边界框和所述第一特征向量对所述特征图进行重构,得到所述目标特征图。更具体的,可以基于所述目标候选边界框的位置信息在特征图上得到相应的向量信息,基于该向量信息替换所述第一特征点对应的第一特征向量,以将所述目标候选边界框的位置信息重新编码为特征图中相应的特征点,以重构整个特征图实现特征的对齐。其中,可以通过双向卷积来添加特征图,将该向量信息替换第一特征点对应的第一特征向量,以获得新的特征。
在重构的特征图中,特征点的位置没有发生变化,即目标候选边界框的区域位置没有发生变化,但是特征点对应的表征待检测对象的位置信息的特征向量随着目标候选边界框的位置信息发生了变化,从而可以解决置信框的位置变化引起的特征不对齐的问题,实现特征的对齐。
本实施方式中,通过将训练样本数据输入至目标检测模型执行特征对齐操作,这样可以解决置信框的位置变化引起的特征不对齐的问题,实现特征的对齐,如此可以进一步提高目标检测模型的训练效果,进一步提高目标检测的准确率。
可选的,所述基于所述特征图,确定所述第一特征点对应的目标候选边界框,包括:
基于所述特征图,确定所述第一特征点对应的N个候选边界框,N为正整数;
获取所述N个候选边界框中置信度最高的所述目标候选边界框。
本实施方式中,可以基于所述特征图,利用感兴趣区域等技术,基于所述特征图预测得到第一特征点对应的多个候选边界框,包括了获得的这多个候选边界框的参数信息,参数信息可以包括候选边界框的长度、宽度、中心点坐标和角度等一种或任意组合。
同时,可以基于所述特征图,可以获得第一遥感图像的前景分割结果,其中,前景分割结果包括指示第一遥感图像的多个像素中每个像素是否属于前景的指示信息。指示信息包含了第一遥感图像的像素属于前景和/或背景的概率,该前景分割结果给出了像素级的预测结果。
针对每个第一特征点,通过将第一特征点的多个候选边界框映射到前景分割结果,与待检测对象的轮廓拟合越好的候选边界框,与前景分割结果对应的前景图像区域越接近重叠,相应的,该候选边界框的置信度越高。因此,在这多个候选边界框中,与前景图像区域之间的重叠区域越大,也即候选边界框与前景图像区域越接近重叠,置信度越高,说明该候选边界框与待检测对象的轮廓拟合的越好,也说明该候选边界框的预测结果越准确。
相应的,针对每个第一特征点,可以将第一特征点对应的多个候选边界框中与前景图像区域重叠最大的候选边界框确定为所述第一特征点对应的目标候选边界框。也即保留每个第一特征点置信度最高的候选边界框,这样,可以提高处理的速度,同时确保每个第一特征点仅对应一个精化的候选边界框。
可选的,所述特征图还包括所述目标候选边界框的位置信息对应的第三特征向量;
所述基于所述目标候选边界框和第一特征向量对所述特征图进行重构,得到所述目标特征图,包括:
基于所述第一特征向量和第三特征向量对所述特征图进行重构,得到所述目标特征图。
本实施方式中,针对每个第一特征点,可以基于所述目标候选边界框的位置信息在特征图上得到相应的第三向量信息,基于该第三向量信息替换所述第一特征点对应的第一特征向量,以将所述目标候选边界框的位置信息重新编码为特征图中相应的特征点,以重构整个特征图实现特征的对齐。其中,可以通过双向卷积来添加特征图,将该第三向量信息替换第一特征点对应的第一特征向量,以获得新的特征。
其中,所述目标候选边界框的位置信息可以用目标候选边界框的中心点和四个角点的坐标来表征。遍历所有第一特征点后,即可以基于目标候选边界框的位置信息在特征图上查找到相应的第三特征向量,基于查找到的第三特征向量重构整个特征图,得到目标特征图,该目标特征图中置信框的位置与特征实现了对齐。
可选的,所述基于所述第一特征向量和第三特征向量对所述特征图进行重构,得到所述目标特征图,包括:
确定所述第三特征向量对应的K个特征向量,所述第二特征向量包括所述K个特征向量,K为大于1的正整数;
将所述第一特征点作为第二特征点,并将所述特征图中所述第一特征向量替换为所述K个特征向量,得到所述目标特征图。
本实施方式中,可以通过双线性插值方法基于所述第三特征向量获得更准确的表征所述目标候选边界框位置的特征信息,即所述第三特征向量对应的K个特征向量,K为大于1的正整数。
具体的,可以通过双线性插值方法在一个角度范围内如0至180度对第三特征向量进行插值,以获得所述第三特征向量对应的K个特征向量如五个特征向量,其中,K值越大,目标候选边界框的位置特征信息的表征越准确。
之后,将所述第一特征点作为第二特征点,并将所述特征图中所述第一特征向量替换为所述K个特征向量,从而重构整个特征图,得到目标特征图。
本实施方式中,可以通过双线性插值方法基于第三特征向量得到多个特征向量,如此,可以使得目标候选边界框的位置特征信息具有多个维度的特性,提高目标候选边界框的位置表征的准确性,从而可以提高目标特征图的特征对齐效果,进而进一步提高目标检测模型的训练效果。
第二实施例
本申请提供一种目标检测方法,包括:使用目标检测模型对第二遥感图像进行目标检测。
其中,所述第二遥感图像可以为待检测的遥感图像,该目标检测方法的目的即是基于目标检测模型检测出第二遥感图像中的待检测对象的区域位置和分类信息。
所述目标检测模型可以为第一实施例中基于目标检测模型的训练方法训练得到的目标检测模型,基于目标检测模型的训练方法包括:
获取训练样本数据,所述训练样本数据包括第一遥感图像和所述第一遥感图像中待检测对象的锚定框的位置标注信息,所述位置标注信息包括所述锚定框相对于预设方向的角度信息;
基于目标检测模型获取所述第一遥感图像的目标特征图,基于所述目标特征图对所述待检测对象进行目标检测,得到目标边界框,并基于所述角度信息,确定所述锚定框和所述目标边界框之间的损失信息;
基于所述损失信息,更新所述目标检测模型的参数。
可选的,其中,所述角度信息通过如下方式确定:
获取第一遥感图像中待检测对象的顶点的坐标序列,所述坐标序列为所述待检测对象的顶点的坐标按照目标时针顺序进行排列的序列;
基于所述坐标序列,确定所述第一遥感图像中待检测对象的锚定框相对于预设方向的角度信息。
可选的,其中,所述基于所述角度信息,确定所述锚定框和所述目标边界框之间的损失信息,包括:
确定所述锚定框和所述目标边界框之间的交并比;
基于所述交并比和角度信息,确定所述锚定框与所述目标边界框之间的损失信息。
可选的,其中,所述基于目标检测模型获取所述第一遥感图像的目标特征图,包括:
将所述训练样本数据输入至所述目标检测模型执行如下操作,以得到所述第一遥感图像的目标特征图:
对所述第一遥感图像进行特征提取,得到所述第一遥感图像的特征图,所述特征图包括第一特征点和所述第一特征点对应的第一特征向量;
基于所述特征图,确定所述第一特征点对应的目标候选边界框;
基于所述目标候选边界框和第一特征向量对所述特征图进行重构,得到所述目标特征图,所述目标特征图包括基于所述目标候选边界框确定的第二特征点和所述第二特征点对应的第二特征向量。
可选的,其中,所述基于所述特征图,确定所述第一特征点对应的目标候选边界框,包括:
基于所述特征图,确定所述第一特征点对应的N个候选边界框,N为正整数;
获取所述N个候选边界框中置信度最高的所述目标候选边界框。
可选的,其中,所述特征图还包括所述目标候选边界框的位置信息对应的第三特征向量;
所述基于所述目标候选边界框和第一特征向量对所述特征图进行重构,得到所述目标特征图,包括:
基于所述第一特征向量和第三特征向量对所述特征图进行重构,得到所述目标特征图。
可选的,其中,所述基于所述第一特征向量和第三特征向量对所述特征图进行重构,得到所述目标特征图,包括:
确定所述第三特征向量对应的K个特征向量,所述第二特征向量包括所述K个特征向量,K为大于1的正整数;
将所述第一特征点作为第二特征点,并将所述特征图中所述第一特征向量替换为所述K个特征向量,得到所述目标特征图。
本实施例中,通过第一实施例的训练方法得到的目标检测模型对第二遥感图像进行目标检测,可以提高目标检测的准确性。
第三实施例
如图3所示,本申请提供一种目标检测模型的训练装置300,包括:
第一获取模块301,用于获取训练样本数据,所述训练样本数据包括第一遥感图像和所述第一遥感图像中待检测对象的锚定框的位置标注信息,所述位置标注信息包括所述锚定框相对于预设方向的角度信息;
第二获取模块302,用于基于目标检测模型获取所述第一遥感图像的目标特征图;
第一目标检测模块303,用于基于所述目标特征图对所述待检测对象进行目标检测,得到目标边界框;
确定模块304,用于基于所述角度信息,确定所述锚定框和所述目标边界框之间的损失信息;
更新模块305,用于基于所述损失信息,更新所述目标检测模型的参数。
可选的,其中,所述角度信息通过如下方式确定:
获取第一遥感图像中待检测对象的顶点的坐标序列,所述坐标序列为所述待检测对象的顶点的坐标按照目标时针顺序进行排列的序列;
基于所述坐标序列,确定所述第一遥感图像中待检测对象的锚定框相对于预设方向的角度信息。
可选的,其中,所述确定模块304,具体用于确定所述锚定框和所述目标边界框之间的交并比;基于所述交并比和角度信息,确定所述锚定框与所述目标边界框之间的损失信息。
可选的,其中,所述第二获取模块302,具体用于将所述训练样本数据输入至所述目标检测模型执行如下操作,以得到所述第一遥感图像的目标特征图:
对所述第一遥感图像进行特征提取,得到所述第一遥感图像的特征图,所述特征图包括第一特征点和所述第一特征点对应的第一特征向量;
基于所述特征图,确定所述第一特征点对应的目标候选边界框;
基于所述目标候选边界框和第一特征向量对所述特征图进行重构,得到所述目标特征图,所述目标特征图包括基于所述目标候选边界框确定的第二特征点和所述第二特征点对应的第二特征向量。
可选的,其中,所述第二获取模块302,具体用于基于所述特征图,确定所述第一特征点对应的N个候选边界框,N为正整数;获取所述N个候选边界框中置信度最高的所述目标候选边界框。
可选的,其中,所述特征图还包括所述目标候选边界框的位置信息对应的第三特征向量;所述第二获取模块302包括:
重构单元,用于基于所述第一特征向量和第三特征向量对所述特征图进行重构,得到所述目标特征图。
可选的,其中,所述重构单元,具体用于确定所述第三特征向量对应的K个特征向量,所述第二特征向量包括所述K个特征向量,K为大于1的正整数;将所述第一特征点作为第二特征点,并将所述特征图中所述第一特征向量替换为所述K个特征向量,得到所述目标特征图。
本申请提供的目标检测模型的训练装置300能够实现上述目标检测模型的训练方法实施例实现的各个过程,且能够达到相同的有益效果,为避免重复,这里不再赘述。
第四实施例
如图4所示,本申请提供一种目标检测装置400,包括:
第二目标检测模块401,用于使用第一实施例中的方法训练得到的目标检测模型对第二遥感图像进行目标检测。
本申请提供的目标检测装置400能够实现上述目标检测方法实施例实现的各个过程,且能够达到相同的有益效果,为避免重复,这里不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM503中,还可以存储设备500操作所需的各种程序和数据。计算单元501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调整解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如目标检测模型的训练方法或目标检测方法。例如,在一些实施例中,目标检测模型的训练方法或目标检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM503并由计算单元501执行时,可以执行上文描述的目标检测模型的训练方法或目标检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方法(例如,借助于固件)而被配置为执行目标检测模型的训练方法或目标检测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编辑语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (10)
1.一种目标检测模型的训练方法,包括:
获取训练样本数据,所述训练样本数据包括第一遥感图像和所述第一遥感图像中待检测对象的锚定框的位置标注信息,所述位置标注信息包括所述锚定框相对于预设方向的角度信息;
基于目标检测模型获取所述第一遥感图像的目标特征图,基于所述目标特征图对所述待检测对象进行目标检测,得到目标边界框,并基于所述角度信息,确定所述锚定框和所述目标边界框之间的损失信息;
基于所述损失信息,更新所述目标检测模型的参数;
所述角度信息通过如下方式确定:
获取第一遥感图像中待检测对象的顶点的坐标序列,所述坐标序列为所述待检测对象的顶点的坐标按照目标时针顺序进行排列的序列;所述获取第一遥感图像中待检测对象的顶点的坐标序列,包括:使用待检测对象的头部点作为起始点,按照顺时针顺序依次标定,得到所述坐标序列;
基于所述坐标序列,确定所述第一遥感图像中待检测对象的锚定框相对于预设方向的角度信息;
所述目标检测模型包括RetinaNet网络,所述RetinaNet网络用于对所述第一遥感图像进行特征提取;
所述基于目标检测模型获取所述第一遥感图像的目标特征图,包括:
将所述训练样本数据输入至所述目标检测模型执行如下操作,以得到所述第一遥感图像的目标特征图:
对所述第一遥感图像进行特征提取,得到所述第一遥感图像的特征图,所述特征图包括第一特征点和所述第一特征点对应的第一特征向量;
基于所述特征图,确定所述第一特征点对应的目标候选边界框;
基于所述目标候选边界框和第一特征向量对所述特征图进行重构,得到所述目标特征图,所述目标特征图包括基于所述目标候选边界框确定的第二特征点和所述第二特征点对应的第二特征向量;
所述特征图还包括所述目标候选边界框的位置信息对应的第三特征向量;
所述基于所述目标候选边界框和第一特征向量对所述特征图进行重构,得到所述目标特征图,包括:
基于所述第一特征向量和第三特征向量对所述特征图进行重构,得到所述目标特征图;
所述基于所述第一特征向量和第三特征向量对所述特征图进行重构,得到所述目标特征图,包括:
确定所述第三特征向量对应的K个特征向量,所述第二特征向量包括所述K个特征向量,K为大于1的正整数;
将所述第一特征点作为第二特征点,并将所述特征图中所述第一特征向量替换为所述K个特征向量,得到所述目标特征图;
所述确定所述第三特征向量对应的K个特征向量,包括:
通过双线性插值方法在0至180度对所述第三特征向量进行插值,以获得所述第三特征向量对应的K个特征向量;
所述将所述特征图中所述第一特征向量替换为所述K个特征向量,得到所述目标特征图,包括:
通过双向卷积添加所述特征图,将所述K个特征向量替换所述第一特征点对应的第一特征向量,以获得新的特征,得到所述目标特征图。
2.根据权利要求1所述的方法,其中,所述基于所述角度信息,确定所述锚定框和所述目标边界框之间的损失信息,包括:
确定所述锚定框和所述目标边界框之间的交并比;
基于所述交并比和角度信息,确定所述锚定框与所述目标边界框之间的损失信息。
3.根据权利要求1所述的方法,其中,所述基于所述特征图,确定所述第一特征点对应的目标候选边界框,包括:
基于所述特征图,确定所述第一特征点对应的N个候选边界框,N为正整数;
获取所述N个候选边界框中置信度最高的所述目标候选边界框。
4.一种目标检测方法,包括:使用如权利要求1至3中任一项所述的方法训练得到的目标检测模型对第二遥感图像进行目标检测。
5.一种目标检测模型的训练装置,包括:
第一获取模块,用于获取训练样本数据,所述训练样本数据包括第一遥感图像和所述第一遥感图像中待检测对象的锚定框的位置标注信息,所述位置标注信息包括所述锚定框相对于预设方向的角度信息;
第二获取模块,用于基于目标检测模型获取所述第一遥感图像的目标特征图;
第一目标检测模块,用于基于所述目标特征图对所述待检测对象进行目标检测,得到目标边界框;
确定模块,用于基于所述角度信息,确定所述锚定框和所述目标边界框之间的损失信息;
更新模块,用于基于所述损失信息,更新所述目标检测模型的参数;
所述角度信息通过如下方式确定:
获取第一遥感图像中待检测对象的顶点的坐标序列,所述坐标序列为所述待检测对象的顶点的坐标按照目标时针顺序进行排列的序列;所述获取第一遥感图像中待检测对象的顶点的坐标序列,包括:使用待检测对象的头部点作为起始点,按照顺时针顺序依次标定,得到所述坐标序列;
基于所述坐标序列,确定所述第一遥感图像中待检测对象的锚定框相对于预设方向的角度信息;
所述目标检测模型包括RetinaNet网络,所述RetinaNet网络用于对所述第一遥感图像进行特征提取;
所述第二获取模块,具体用于将所述训练样本数据输入至所述目标检测模型执行如下操作,以得到所述第一遥感图像的目标特征图:
对所述第一遥感图像进行特征提取,得到所述第一遥感图像的特征图,所述特征图包括第一特征点和所述第一特征点对应的第一特征向量;
基于所述特征图,确定所述第一特征点对应的目标候选边界框;
基于所述目标候选边界框和第一特征向量对所述特征图进行重构,得到所述目标特征图,所述目标特征图包括基于所述目标候选边界框确定的第二特征点和所述第二特征点对应的第二特征向量;
所述特征图还包括所述目标候选边界框的位置信息对应的第三特征向量;所述第二获取模块包括:
重构单元,用于基于所述第一特征向量和第三特征向量对所述特征图进行重构,得到所述目标特征图;
所述重构单元,具体用于确定所述第三特征向量对应的K个特征向量,所述第二特征向量包括所述K个特征向量,K为大于1的正整数;将所述第一特征点作为第二特征点,并将所述特征图中所述第一特征向量替换为所述K个特征向量,得到所述目标特征图;
所述确定所述第三特征向量对应的K个特征向量,包括:
通过双线性插值方法在0至180度对所述第三特征向量进行插值,以获得所述第三特征向量对应的K个特征向量;
所述将所述特征图中所述第一特征向量替换为所述K个特征向量,得到所述目标特征图,包括:
通过双向卷积添加所述特征图,将所述K个特征向量替换所述第一特征点对应的第一特征向量,以获得新的特征,得到所述目标特征图。
6.根据权利要求5所述的装置,其中,所述确定模块,具体用于确定所述锚定框和所述目标边界框之间的交并比;基于所述交并比和角度信息,确定所述锚定框与所述目标边界框之间的损失信息。
7.根据权利要求5所述的装置,其中,所述第二获取模块,具体用于基于所述特征图,确定所述第一特征点对应的N个候选边界框,N为正整数;获取所述N个候选边界框中置信度最高的所述目标候选边界框。
8.一种目标检测装置,包括:
第二目标检测模块,用于使用如权利要求1至3中任一项所述的方法训练得到的目标检测模型对第二遥感图像进行目标检测。
9.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任一项所述的方法,或者执行权利要求4中所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的方法,或者执行权利要求4中所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110231549.1A CN112966587B (zh) | 2021-03-02 | 2021-03-02 | 目标检测模型的训练方法、目标检测方法及相关设备 |
EP21197508.1A EP3910543A3 (en) | 2021-03-02 | 2021-09-17 | Method for training object detection model, object detection method and related apparatus |
US17/489,991 US20220020175A1 (en) | 2021-03-02 | 2021-09-30 | Method for Training Object Detection Model, Object Detection Method and Related Apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110231549.1A CN112966587B (zh) | 2021-03-02 | 2021-03-02 | 目标检测模型的训练方法、目标检测方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966587A CN112966587A (zh) | 2021-06-15 |
CN112966587B true CN112966587B (zh) | 2022-12-20 |
Family
ID=76277471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110231549.1A Active CN112966587B (zh) | 2021-03-02 | 2021-03-02 | 目标检测模型的训练方法、目标检测方法及相关设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220020175A1 (zh) |
EP (1) | EP3910543A3 (zh) |
CN (1) | CN112966587B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966587B (zh) * | 2021-03-02 | 2022-12-20 | 北京百度网讯科技有限公司 | 目标检测模型的训练方法、目标检测方法及相关设备 |
CN113469025B (zh) * | 2021-06-29 | 2024-05-31 | 阿波罗智联(北京)科技有限公司 | 应用于车路协同的目标检测方法、装置、路侧设备和车辆 |
US11868444B2 (en) * | 2021-07-20 | 2024-01-09 | International Business Machines Corporation | Creating synthetic visual inspection data sets using augmented reality |
CN113449702B (zh) * | 2021-08-31 | 2021-12-03 | 天津联图科技有限公司 | 遥感图像的目标检测方法、装置、存储介质及电子设备 |
CN113486910B (zh) * | 2021-09-07 | 2021-11-19 | 北京欧应信息技术有限公司 | 用于提取数据信息区域的方法、设备和存储介质 |
CN113537170A (zh) * | 2021-09-16 | 2021-10-22 | 北京理工大学深圳汽车研究院(电动车辆国家工程实验室深圳研究院) | 一种交通路况智能监测方法和计算机可读存储介质 |
CN113947771B (zh) * | 2021-10-15 | 2023-06-27 | 北京百度网讯科技有限公司 | 图像识别方法、装置、设备、存储介质以及程序产品 |
CN114219991A (zh) * | 2021-12-06 | 2022-03-22 | 安徽省配天机器人集团有限公司 | 目标检测方法、装置及计算机可读存储介质 |
CN114219930A (zh) * | 2021-12-06 | 2022-03-22 | 安徽省配天机器人集团有限公司 | 特征点的检测方法、检测装置及计算机可读存储介质 |
CN114997153A (zh) * | 2022-04-25 | 2022-09-02 | 有米科技股份有限公司 | 基于交并比损失优化模型的文本识别方法及装置 |
CN114742820B (zh) * | 2022-05-11 | 2023-06-27 | 西南交通大学 | 一种基于深度学习的螺栓松动检测方法、系统及存储介质 |
CN114973008B (zh) * | 2022-05-11 | 2024-08-27 | 武汉大学 | 一种面向高分辨率光学遥感图像目标检测的自监督学习方法 |
CN115063741B (zh) * | 2022-06-10 | 2023-08-18 | 嘉洋智慧安全科技(北京)股份有限公司 | 目标检测方法、装置、设备、介质及产品 |
CN115100492B (zh) * | 2022-08-26 | 2023-04-07 | 摩尔线程智能科技(北京)有限责任公司 | Yolov3网络训练、pcb表面缺陷检测方法及装置 |
CN117611513B (zh) * | 2022-11-08 | 2024-09-06 | 郑州英视江河生态环境科技有限公司 | 微观生物图像处理方法、设备及系统 |
CN115457036B (zh) * | 2022-11-10 | 2023-04-25 | 中国平安财产保险股份有限公司 | 检测模型训练方法、智能点数方法和相关设备 |
CN116051985B (zh) * | 2022-12-20 | 2023-06-23 | 中国科学院空天信息创新研究院 | 一种基于多模型互馈学习的半监督遥感目标检测方法 |
CN116363435B (zh) * | 2023-04-03 | 2023-10-27 | 盐城工学院 | 一种基于深度学习的遥感图像目标检测系统及方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808144A (zh) * | 2017-11-10 | 2018-03-16 | 深圳市唯特视科技有限公司 | 一种基于视频时空关系进行自我监督嵌入姿态学习方法 |
CN108876813A (zh) * | 2017-11-01 | 2018-11-23 | 北京旷视科技有限公司 | 用于视频中物体检测的图像处理方法、装置及设备 |
CN110298298A (zh) * | 2019-06-26 | 2019-10-01 | 北京市商汤科技开发有限公司 | 目标检测及目标检测网络的训练方法、装置及设备 |
CN110674674A (zh) * | 2019-08-01 | 2020-01-10 | 杭州电子科技大学 | 一种基于yolo v3的旋转目标检测方法 |
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和系统 |
CN111626110A (zh) * | 2020-04-20 | 2020-09-04 | 南京邮电大学 | 一种基于改进MobileNetV2-SSD的烟雾视频检测方法及系统 |
CN111862034A (zh) * | 2020-07-15 | 2020-10-30 | 平安科技(深圳)有限公司 | 图像检测方法、装置、电子设备及介质 |
CN112395975A (zh) * | 2020-11-17 | 2021-02-23 | 南京泓图人工智能技术研究院有限公司 | 一种基于旋转区域生成网络的遥感图像目标检测方法 |
CN113191296A (zh) * | 2021-05-13 | 2021-07-30 | 中国人民解放军陆军炮兵防空兵学院 | 一种基于yolov5的任意朝向目标五参数检测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117831B (zh) * | 2018-09-30 | 2021-10-12 | 北京字节跳动网络技术有限公司 | 物体检测网络的训练方法和装置 |
CN109559300A (zh) * | 2018-11-19 | 2019-04-02 | 上海商汤智能科技有限公司 | 图像处理方法、电子设备及计算机可读存储介质 |
CN109858530B (zh) * | 2019-01-14 | 2022-06-28 | 苏州长风航空电子有限公司 | 一种基于复合金字塔的旋转目标检测方法 |
CN109919934B (zh) * | 2019-03-11 | 2021-01-29 | 重庆邮电大学 | 一种基于多源域深度迁移学习的液晶面板缺陷检测方法 |
CN112966587B (zh) * | 2021-03-02 | 2022-12-20 | 北京百度网讯科技有限公司 | 目标检测模型的训练方法、目标检测方法及相关设备 |
-
2021
- 2021-03-02 CN CN202110231549.1A patent/CN112966587B/zh active Active
- 2021-09-17 EP EP21197508.1A patent/EP3910543A3/en not_active Withdrawn
- 2021-09-30 US US17/489,991 patent/US20220020175A1/en not_active Abandoned
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876813A (zh) * | 2017-11-01 | 2018-11-23 | 北京旷视科技有限公司 | 用于视频中物体检测的图像处理方法、装置及设备 |
CN107808144A (zh) * | 2017-11-10 | 2018-03-16 | 深圳市唯特视科技有限公司 | 一种基于视频时空关系进行自我监督嵌入姿态学习方法 |
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和系统 |
CN110298298A (zh) * | 2019-06-26 | 2019-10-01 | 北京市商汤科技开发有限公司 | 目标检测及目标检测网络的训练方法、装置及设备 |
CN110674674A (zh) * | 2019-08-01 | 2020-01-10 | 杭州电子科技大学 | 一种基于yolo v3的旋转目标检测方法 |
CN111626110A (zh) * | 2020-04-20 | 2020-09-04 | 南京邮电大学 | 一种基于改进MobileNetV2-SSD的烟雾视频检测方法及系统 |
CN111862034A (zh) * | 2020-07-15 | 2020-10-30 | 平安科技(深圳)有限公司 | 图像检测方法、装置、电子设备及介质 |
CN112395975A (zh) * | 2020-11-17 | 2021-02-23 | 南京泓图人工智能技术研究院有限公司 | 一种基于旋转区域生成网络的遥感图像目标检测方法 |
CN113191296A (zh) * | 2021-05-13 | 2021-07-30 | 中国人民解放军陆军炮兵防空兵学院 | 一种基于yolov5的任意朝向目标五参数检测方法 |
Non-Patent Citations (2)
Title |
---|
R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object;Xue Yang等;《arXiv:1908.05612v6》;20201208;1-13 * |
复杂海空环境舰船目标光学遥感成像特性建模及检测方法研究;杨博;《中国优秀硕士学位论文全文数据库_工程科技Ⅱ辑》;20210215;正文第4章、结论部分、图4-1、图4-17、图4-18 * |
Also Published As
Publication number | Publication date |
---|---|
EP3910543A2 (en) | 2021-11-17 |
CN112966587A (zh) | 2021-06-15 |
US20220020175A1 (en) | 2022-01-20 |
EP3910543A3 (en) | 2022-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966587B (zh) | 目标检测模型的训练方法、目标检测方法及相关设备 | |
US11321593B2 (en) | Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device | |
CN113902897B (zh) | 目标检测模型的训练、目标检测方法、装置、设备和介质 | |
CN112785625B (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
CN112560684B (zh) | 车道线检测方法、装置、电子设备、存储介质以及车辆 | |
CN112528858A (zh) | 人体姿态估计模型的训练方法、装置、设备、介质及产品 | |
CN113205041B (zh) | 结构化信息提取方法、装置、设备和存储介质 | |
CN115719436A (zh) | 模型训练方法、目标检测方法、装置、设备以及存储介质 | |
CN113947188A (zh) | 目标检测网络的训练方法和车辆检测方法 | |
CN113298910A (zh) | 生成交通标志线地图的方法、设备和存储介质 | |
CN113378712A (zh) | 物体检测模型的训练方法、图像检测方法及其装置 | |
CN112989995A (zh) | 文本检测方法、装置及电子设备 | |
CN115457152A (zh) | 外参标定方法、装置、电子设备及存储介质 | |
CN114299242A (zh) | 高精地图中图像处理方法、装置、设备以及存储介质 | |
CN113688920A (zh) | 模型训练及目标检测方法、装置、电子设备以及路侧设备 | |
CN113569911A (zh) | 车辆识别方法、装置、电子设备及存储介质 | |
CN113219505A (zh) | 用于车路协同隧道场景的采集gps坐标的方法、装置和设备 | |
CN113920273B (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN114166238B (zh) | 车道线的识别方法、装置及电子设备 | |
CN113706705A (zh) | 用于高精地图的图像处理方法、装置、设备以及存储介质 | |
CN113112551A (zh) | 相机参数的确定方法、装置、路侧设备和云控平台 | |
CN116229209B (zh) | 目标模型的训练方法、目标检测方法及装置 | |
CN112507951B (zh) | 指示灯识别方法、装置、设备、路侧设备和云控平台 | |
CN113361379B (zh) | 生成目标检测系统和检测目标的方法及装置 | |
CN113534095B (zh) | 一种激光雷达地图构建方法和机器人自主导航方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |