CN117576364A - 目标检测方法、装置、计算机设备以及存储介质 - Google Patents
目标检测方法、装置、计算机设备以及存储介质 Download PDFInfo
- Publication number
- CN117576364A CN117576364A CN202311360592.3A CN202311360592A CN117576364A CN 117576364 A CN117576364 A CN 117576364A CN 202311360592 A CN202311360592 A CN 202311360592A CN 117576364 A CN117576364 A CN 117576364A
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- determining
- target
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 199
- 238000000605 extraction Methods 0.000 claims abstract description 156
- 230000006870 function Effects 0.000 claims abstract description 101
- 239000013598 vector Substances 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000004422 calculation algorithm Methods 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000011176 pooling Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000002441 reversible effect Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本申请涉及一种目标检测方法、装置、计算机设备以及存储介质。所述方法包括:确定样本图像的数据增强图像,并对数据增强图像进行分割确定图像序列;通过特征提取编码器和图像序列,确定样本图像的预测图像特征和图像序列的目标局部特征;根据样本图像和特征提取编码器确定样本查询向量,基于样本查询向量从目标局部特征中确定正样本数据和负样本数据,并根据正样本数据、负样本数据和样本查询向量确定对比学习损失函数;根据对比学习损失函数、预测图像特征、样本图像的实际图像特征对特征提取编码器进行权重调整,确定目标检测模型;通过目标检测模型对待检测图像进行目标检测,确定待检测图像的目标特征信息。上述方法提高了目标检测的精确度。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种目标检测方法、装置、计算机设备以及存储介质。
背景技术
目标检测是计算机视觉中的重要任务,包括对图像中目标的定位和分类,是比图像分类更为复杂的任务,目标检测技术在安防、交通、智慧农业、医疗等行业都有广泛的应用。基于深度学习的目标检测技术,近年来已经在诸多领域有了越来越广泛的应用,随着科学技术的发展,目标检测技术已经应用到诸如无人机遥感、行人车辆船舶检测、街道交通监测、安全监测、医学影像诊断等场景中。但是随着图像数据的爆发增长,产生了越来越多的无标记数据,这些无标记数据并不能很好地被应用到需要提前标注好图像类型和物体位置的图像分类和目标检测模型中进行训练。
对比学习作为无监督学习的一个分支,能够为下游的目标检测任务提供良好的图像特征提取网络,模型训练过程中无需使用带标记的图像数据,当前大多数对比学习模型不加区分地为下游任务提供通用的特征提取网络,然而不同的下游任务诸如图像分类和目标检测任务侧重点不同,图像分类任务仅需对整张图像进行分类,更关注图像整体特征,而目标检测任务需要对图像中的目标进行定位并给出属于某个类别的概率,更关注图像局部细节,因此当前的目标检测方法难以兼顾图像识别和目标定位两个方面,导致目标检测模型的定位能力差且预测准确率低。因此,如何在对图像进行目标检测时,提高目标检测的精确度,是需要解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高目标检测的精确度的目标检测方法、装置、计算机设备以及存储介质。
第一方面,本申请提供了一种目标检测方法,所述方法包括:
确定样本图像的数据增强图像,并对所述数据增强图像进行分割确定图像序列;
通过特征提取编码器和所述图像序列,确定所述样本图像的预测图像特征和所述图像序列的目标局部特征;
根据所述样本图像和所述特征提取编码器确定样本查询向量,基于所述样本查询向量从所述目标局部特征中确定正样本数据和负样本数据,并根据所述正样本数据、所述负样本数据和所述样本查询向量确定对比学习损失函数;
根据所述对比学习损失函数、所述预测图像特征、所述样本图像的实际图像特征对所述特征提取编码器进行权重调整,确定目标检测模型;
通过所述目标检测模型对待检测图像进行目标检测,确定所述待检测图像的目标特征信息。
在其中一个实施例中,通过特征提取编码器和所述图像序列,确定所述样本图像的预测图像特征和所述图像序列的目标局部特征,包括:
根据所述图像序列确定样本上分支输入数据和样本下分支输入数据,并将所述样本上分支输入数据输入所述特征提取编码器的编码器上分支,确定样本上分支输出特征;
将所述样本下分支输入数据输入所述特征提取编码器的编码器下分支,确定样本下分支输出特征;
根据所述样本上分支输出特征和所述样本下分支输出特征确定所述样本图像的预测图像特征;
通过所述特征提取编码器对所述图像序列进行特征提取,确定所述图像序列的目标局部特征。
在其中一个实施例中,将所述样本下分支输入数据输入所述特征提取编码器的编码器下分支,确定样本下分支输出特征,包括:
将所述样本下分支输入数据分为的第一算法输入数据和第二算法输入数据;
将所述第一算法输入数据输入所述特征提取编码器中的高频特征提取器,确定图像纹理特征数据;
将第二算法输入数据输入所述特征提取编码器中的低频特征提取器,确定图像关联特征数据;
根据所述图像关联特征数据和所述图像纹理特征数据确定样本下分支输出特征。
在其中一个实施例中,通过所述特征提取编码器对所述图像序列进行特征提取,确定所述图像序列的目标局部特征,包括:
通过所述特征提取编码器确定所述图像序列的位置编码,并根据所述位置编码确定图像序列的键和属性;
使用离散小波变换对图像序列的键和属性进行转换,确定转换子带特征,并基于通道维度对所述转换子带特征进行拼接,确定拼接子带特征;
通过逆离散小波变换对所述拼接子带特征进行维度转换,确定所述图像序列的重构特征图;
对图像序列的键和属性进行自注意力学习,确定所述图像序列的序列特征图;
根据所述重构特征图和所述序列特征图确定目标局部特征。
在其中一个实施例中,根据所述对比学习损失函数、所述预测图像特征、所述样本图像的实际图像特征对所述特征提取编码器进行权重调整,确定目标检测模型,包括:
根据所述预测图像特征确定样本预测标签和样本预测框,并确定样本真实标签和样本真实框;
根据所述样本预测标签和所述样本真实标签,确定分类损失函数;
根据所述样本预测框和样本真实框确定定位损失函数;
根据所述对比学习损失函数、所述分类损失函数和所述定位损失函数对所述特征提取编码器进行权重调整,确定目标检测模型。
在其中一个实施例中,确定样本图像的数据增强图像,并对所述数据增强图像进行分割确定图像序列,包括:
对样本图像进行数据增强处理,确定所述样本图像的数据增强图像;
根据步长小于内核尺寸的卷积函数对所述数据增强图像进行分割,确定包含图像相邻信息的图像序列。
在其中一个实施例中,通过所述目标检测模型对待检测图像进行目标检测,确定所述待检测图像的目标特征信息,包括:
将待检测图像输入所述目标检测模型,通过所述目标检测模型对所述待检测图像进行分割处理,确定所述待检测图像的目标图像序列;
根据所述目标图像序列确定所述目标检测模型的目标上分支输入数据和目标下分支输入数据;
将所述目标上分支输入数据输入所述目标检测模型的模型上分支,确定目标上分支输出特征,并将所述目标下分支数据输入所述目标检测模型的模型下分支,确定目标下分支输出特征;
根据所述目标上分支输出特征和所述目标下分支输出特征确定所述待检测图像中的目标特征信息。
第二方面,本申请还提供了一种目标检测装置,所述装置包括:
图像序列确定模块,用于确定样本图像的数据增强图像,并对所述数据增强图像进行分割确定图像序列;
目标局部特征确定模块,用于通过特征提取编码器和所述图像序列,确定所述样本图像的预测图像特征和所述图像序列的目标局部特征;
损失函数确定模块,用于根据所述样本图像和所述特征提取编码器确定样本查询向量,基于所述样本查询向量从所述目标局部特征中确定正样本数据和负样本数据,并根据所述正样本数据、所述负样本数据和所述样本查询向量确定对比学习损失函数;
目标检测模型确定模块,用于根据所述对比学习损失函数、所述预测图像特征、所述样本图像的实际图像特征对所述特征提取编码器进行权重调整,确定目标检测模型;
目标特征信息确定模块,用于通过所述目标检测模型对待检测图像进行目标检测,确定所述待检测图像的目标特征信息。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
确定样本图像的数据增强图像,并对所述数据增强图像进行分割确定图像序列;
通过特征提取编码器和所述图像序列,确定所述样本图像的预测图像特征和所述图像序列的目标局部特征;
根据所述样本图像和所述特征提取编码器确定样本查询向量,基于所述样本查询向量从所述目标局部特征中确定正样本数据和负样本数据,并根据所述正样本数据、所述负样本数据和所述样本查询向量确定对比学习损失函数;
根据所述对比学习损失函数、所述预测图像特征、所述样本图像的实际图像特征对所述特征提取编码器进行权重调整,确定目标检测模型;
通过所述目标检测模型对待检测图像进行目标检测,确定所述待检测图像的目标特征信息。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
确定样本图像的数据增强图像,并对所述数据增强图像进行分割确定图像序列;
通过特征提取编码器和所述图像序列,确定所述样本图像的预测图像特征和所述图像序列的目标局部特征;
根据所述样本图像和所述特征提取编码器确定样本查询向量,基于所述样本查询向量从所述目标局部特征中确定正样本数据和负样本数据,并根据所述正样本数据、所述负样本数据和所述样本查询向量确定对比学习损失函数;
根据所述对比学习损失函数、所述预测图像特征、所述样本图像的实际图像特征对所述特征提取编码器进行权重调整,确定目标检测模型;
通过所述目标检测模型对待检测图像进行目标检测,确定所述待检测图像的目标特征信息。
上述目标检测方法、装置、计算机设备以及存储介质,确定样本图像的数据增强图像,并对数据增强图像进行分割确定图像序列;通过特征提取编码器和图像序列,确定图像序列的预测图像特征和目标局部特征;根据样本图像和特征提取编码器确定样本查询向量,基于样本查询向量从目标局部特征中确定正样本数据和负样本数据,并根据正样本数据、负样本数据和样本查询向量确定对比学习损失函数;根据对比学习损失函数、预测图像特征、样本图像的实际图像特征对特征提取编码器进行权重调整,确定目标检测模型;将待检测图像输入目标检测模型,确定待检测图像中的目标图像特征。解决了难以根据无标签数据对深度学习模型进行训练确定目标检测模型,以及目标检测方法难以兼顾图像识别和目标定位两个方面,目标检测模型的定位能力差且预测准确率低的问题。上述方法,在确定目标检测模型时,通过对比学习方法确定特征提取编码器的对比学习损失函数,根据特征提取编码器确定的样本图像的预测图像特征,以及样本图像的实际图像特征确定特征提取编码器的目标识别误差,以根据对比学习损失函数和目标识别误差调整特征提取编码器的权重,获取可以对待检测图像进行目标检测的目标检测模型,使得目标检测模型可以在对待检测目标进行目标检测时,实现对待识别目标的目标识别和目标定位,提高了目标检测模型的模型可靠性,从而提高了目标检测的准确性。
附图说明
图1为一个实施例中目标检测方法的应用环境图;
图2为一个实施例中目标检测方法的流程示意图;
图3为一个实施例中特征提取编码器的工作流程示意图;
图4为另一个实施例中目标检测方法的流程示意图;
图5为另一个实施例中目标检测方法的流程示意图;
图6为一个实施例中特征提取编码器的编码器双分支的工作流程示意图;
图7为另一个实施例中目标检测方法的流程示意图;
图8为另一个实施例中目标检测方法的流程示意图;
图9为一个实施例中目标检测装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的目标检测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104确定样本图像的数据增强图像,并对数据增强图像进行分割确定图像序列;通过特征提取编码器和图像序列,确定样本图像的预测图像特征和图像序列的目标局部特征;根据样本图像和特征提取编码器确定样本查询向量,基于样本查询向量从目标局部特征中确定正样本数据和负样本数据,并根据正样本数据、负样本数据和样本查询向量确定对比学习损失函数;根据对比学习损失函数、预测图像特征、样本图像的实际图像特征对特征提取编码器进行权重调整,确定目标检测模型;通过目标检测模型对待检测图像进行目标检测,确定待检测图像的目标特征信息,并通过通信网络将目标特征信息发送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种目标检测方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
S210、确定样本图像的数据增强图像,并对数据增强图像进行分割确定图像序列。
其中,样本图像是指随机采集的包含有可提取特征的图像。图像序列即数据增强图像的patches序列。
具体的,通过不同的图像数据增强处理方法对样本图像进行数据增强处理,确定样本图像的数据增强图像。图像数据增强处理方法包括图像翻转、图像旋转、图像缩放和图像随机剪裁等。并对数据增强图像进行分割,将数据增强图像的图像数据转换为图像序列数据,确定数据分割图像的图像序列。
S220、通过特征提取编码器和图像序列,确定样本图像的预测图像特征和图像序列的目标局部特征。
其中,样本图像的预测图像特征是指对样本图像进行目标检测获取的样本预测标签和样本预测框信息。预测标签是指表征目标检测结果属性的数据,预测框是指对样本图像进行目标检测获取的目标特征的边界框。样本预测框信息包括对样本图像进行目标检测确定的样本图像中目标物体的边界框的中心坐标、高度、宽度和置信度。
需要说明的是,特征提取编码器是指双分支高低频混合编码器,特征提取编码器包括四个结构,分别为Stage1、Stage2、Stage3和Stage4。Stage1由线性映射patchEmbedding层,高低频混合特征提取层,以及基于逆离散小波变换和注意力机制的可逆下采样层组成;Stage2由池化模块patch Merging,高低频混合特征提取模块层,以及基于逆离散小波变换和注意力机制的可逆下采样层组成;Stage3由patch Merging层,高低频混合特征提取层,以及基于逆离散小波变换和注意力机制的可逆下采样层组成;Stage4由patchMerging层以及两层高低频混合特征提取层组成。
具体的,如图3所示,将图像序列输入特征提取编码器,输入特征提取编码器中Stage1的图像序列的图像尺寸为为了令图像序列适配高低频混合特征提取模块,需要通过Patch Embedding层改变输入的图像序列的图像特征的通道数,并通过高低频混合特征提取层,以及基于逆离散小波变换和注意力机制的可逆下采样层对图像序列进行处理,确定Stage1的输出特征维度为/>将Stage1的输出特征作为Stage2的输入特征,确定Stage2的输出特征维度为/>将Stage2的输出特征作为Stage3的输入特征,确定Stage3的输出特征维度为/>Stage4通过Patch Embedding层将Stage3的输出特征在空间维度中对应的patches序列进行拼接,并将编码器的通道数减半,确定Stage4的输出特征为图像序列的目标局部特征,目标局部特征的特征维度为同时,通过特征提取编码器对图像序列进行特征提取,并根据图像序列的特征提取结果确定样本图像的预测图像特征。
S230、根据样本图像和特征提取编码器确定样本查询向量,基于样本查询向量从目标局部特征中确定正样本数据和负样本数据,并根据正样本数据、负样本数据和样本查询向量确定对比学习损失函数。
其中,样本查询向量是指用于进行样本间对比,确定正样本数据和负样本数据的向量数据,通过样本间对比,正样本对相互靠近,负样本对相互远离。正样本数据即与样本查询向量来自于同一样本图像的目标局部特征,负样本数据即与样本查询向量来自不同样本图像的目标局部特征。
具体的,对样本图像进行图像剪裁,确定剪裁图像,随机抽取同一样本图像的两个剪裁图像,并对随机抽取的两个剪裁图像进行数据增强处理,确定增强剪裁图像。将其中一个剪裁图像对应的增强剪裁图像输入特征提取编码器的上分支fθ中,并将另一个剪裁图像对应的增强剪裁图像输入特征提取编码器的下分支fξ中,根据fθ的输出向量和fξ的输出向量确定样本查询向量。例如,可以将fξ的输出向量作为样本查询向量。通过样本查询向量对同一批次数据对应的目标局部特征对应的键进行查询,从目标局部特征中确定正样本数据和负样本数据,根据正样本数据、负样本数据和样本查询向量确定对比学习损失函数。对比学习损失函数的计算公式如公式(1)所示:
其中,L为对比学习损失函数;q为样本查询向量;k+为正样本数据对应的正样本向量;k-为负样本数据对应的负样本向量;τ为超参数,用于对特征向量进行归一化处理。
S240、根据对比学习损失函数、预测图像特征、样本图像的实际图像特征对特征提取编码器进行权重调整,确定目标检测模型。
其中,样本图像的实际图像特征包括样本图像的实际标签和实际检测框。
具体的,根据预测图像特征和样本图像的实际图像特征确定特征提取编码器在进行目标检测时的误差函数,根据误差函数和对比学习损失函数对特征提取编码器进行权重调整,根据调整后的特征提取编码器构建目标检测模型。
S250、通过目标检测模型对待检测图像进行目标检测,确定待检测图像的目标特征信息。
其中,目标特征信息是指根据目标检测需求从待检测图像中提取出的图像特征,目标特征信息可以包括目标标签和目标检测框的检测框信息。目标标签可以用于表征从待检测图像中检测出的目标特征的属性信息,目标检测框的检测框信息包括对待检测图像进行目标检测确定的目标物体的边界框的中心坐标、高度和宽度。
具体的,将待检测图像输入目标检测模型,根据目标检测模型的输出数据确定待检测图像的目标特征信息。
上述目标检测方法中,确定样本图像的数据增强图像,并对数据增强图像进行分割确定图像序列;通过特征提取编码器和图像序列,确定图像序列的预测图像特征和目标局部特征;根据样本图像和特征提取编码器确定样本查询向量,基于样本查询向量从目标局部特征中确定正样本数据和负样本数据,并根据正样本数据、负样本数据和样本查询向量确定对比学习损失函数;根据对比学习损失函数、预测图像特征、样本图像的实际图像特征对特征提取编码器进行权重调整,确定目标检测模型;将待检测图像输入目标检测模型,确定待检测图像中的目标图像特征。解决了难以根据无标签数据对深度学习模型进行训练确定目标检测模型,以及目标检测方法难以兼顾图像识别和目标定位两个方面,目标检测模型的定位能力差且预测准确率低的问题。上述方法,在确定目标检测模型时,通过对比学习方法确定特征提取编码器的对比学习损失函数,根据特征提取编码器确定的样本图像的预测图像特征,以及样本图像的实际图像特征确定特征提取编码器的目标识别误差,以根据对比学习损失函数和目标识别误差调整特征提取编码器的权重,获取可以对待检测图像进行目标检测的目标检测模型,使得目标检测模型可以在对待检测目标进行目标检测时,实现对待识别目标的目标识别和目标定位,提高了目标检测模型的模型可靠性,从而提高了目标检测的准确性。
示例性的,通过目标检测模型对待检测图像进行目标检测,确定待检测图像的目标特征信息,包括:将待检测图像输入目标检测模型,通过目标检测模型对待检测图像进行分割处理,确定待检测图像的目标图像序列。根据目标图像序列确定目标检测模型的目标上分支输入数据和目标下分支输入数据。将目标上分支输入数据输入目标检测模型的模型上分支,确定目标上分支输出特征,并将目标下分支数据输入目标检测模型的模型下分支,确定目标下分支输出特征。根据目标上分支输出特征和目标下分支输出特征确定待检测图像中的目标特征信息。
上述方案,根据目标检测模型对待检测图像进行目标检测,以确定待检测图像的目标特征信息,提高了对待检测图像的目标检测效率,同时提高了所获取的目标特征信息的精确度。
在一个实施例中,如图4所示,通过特征提取编码器和图像序列,确定样本图像的预测图像特征和图像序列的目标局部特征,包括:
S410、根据图像序列确定样本上分支输入数据和样本下分支输入数据,并将样本上分支输入数据输入特征提取编码器的编码器上分支,确定样本上分支输出特征。
具体的,特征提取编码器为双分支高低频混合编码器,具有上下两个分支,将图像序列分为特征提取编码器的样本上分支输入数据和样本下分支输入数据,样本上分支输入数据和样本下分支输入数据不一致。将样本上分支输入数据输入特征提取编码器的编码器上分支,根据编码器上分支的输出数据确定样本上分支输出特征。
S420、将样本下分支输入数据输入特征提取编码器的编码器下分支,确定样本下分支输出特征。
具体的,将样本下分支输入数据输入特征提取编码器的编码器下分支,根据编码器下分支的输出数据确定样本下分支输出特征。
S430、根据样本上分支输出特征和样本下分支输出特征确定样本图像的预测图像特征。
其中,预测图像特征包括通过特征提取编码器对样本图像进行目标检测确定的样本图像的预测分类标签和预测检测框信息。预测检测框信息包括对样本图像进行目标检测确定的样本图像中目标物体的边界框的中心坐标、高度和宽度。
对编码器上分支的输出数据和编码器下分支的输出数据进行求和,确定样本图像的预测图像特征。
S440、通过特征提取编码器对图像序列进行特征提取,确定图像序列的目标局部特征。
示例性的,确定图像序列的目标局部特征的方法可以是:通过特征提取编码器确定图像序列的位置编码,并根据位置编码确定图像序列的键和属性;使用离散小波变换对图像序列的键和属性进行转换,确定转换子带特征,并基于通道维度对转换子带特征进行拼接,确定拼接子带特征;通过逆离散小波变换对拼接子带特征进行维度转换,确定图像序列的重构特征图;对图像序列的键和属性进行自注意力学习,确定图像序列的序列特征图;根据重构特征图和序列特征图确定目标局部特征。
需要说明的是,特征提取编码器为使用兼顾注意力机制和卷积神经网络的双分支高低频混合特征提取编码器,特征提取编码器中包含有patch Embedding层、高低频混合特征提取层、基于逆离散小波变换和注意力机制的可逆下采样层。
具体的,通过特征提取编码器,采用深度可分离卷积函数确定图像序列的位置编码,并根据位置编码确定图像序列的键keys和属性values,使用离散小波变换对图像序列的keys和values进行转换,将keys和values转换为分辨率较低的转换子带特征。基于通道维度对转换子带特征进行拼接,确定拼接子带特征,通过逆离散小波变换对拼接子带特征进行维度转换,以将拼接子带特征恢复为离散小波变换操作之前的维度,并将拼接子带特征恢复为离散小波变换操作之前的维度获取的特征图作为图像序列的重构特征图。经过的卷积网络在转换子带特征上施加空间局部性,并对下采样的keys和values进行多头自注意力学习,确定图像序列的序列特征图。将重构特征图和序列特征图进行组合,确定目标局部特征。
通过特征提取编码器,基于注意力机制和卷积神经网络对图像序列进行特征提取确定图像序列的目标局部特征,提高了模型对局部小目标特征的挖掘能力。
本实施例中,基于特征提取编码器的编码器上分支和编码器下分支分别确定图像序列的特征信息,并将编码器上分支获取的特征信息和编码器下分支获取的图像信息进行整合确定样本图像的预测图像特征,可以提高预测图像特征的可靠性,优化了对样本图像进行目标检测的输出结果。
在一个实施例中,如图5所示,将下分支输入数据输入特征提取编码器的编码器下分支,确定样本下分支输出特征,包括:
S510、将下分支输入数据分为的第一算法输入数据和第二算法输入数据。
具体的,若下分支输入数据为X∈RN×C,则可以基于通道维度将X∈RN×C分为和/>两部分,/>作为第一算法输入数据,/>作为第二算法输入数据。
S520、将第一算法输入数据输入特征提取编码器中的高频特征提取器,确定图像纹理特征数据。
需要说明的是,特征提取编码器可以用于提取图像数据中的低频分量和高频分量,其中低频分量反映了粗粒度级别的基本对象结构,利于目标检测中的分类任务,而高频分量保留了细粒度级别的对象纹理细节,用于目标检测中的定位任务。示例性的,特征提取编码器的结构图如图6所示,其中虚线框图中的结构为高频特征提取器的结构。
其中,高频特征提取器基于卷积神经网络进行特征提取。图像纹理特征数据是指样本图像局部范围的纹理特征。
具体的,将第一算法输入数据输入特征提取编码器中的高频特征提取器,通过高频特征提取器按通道维度将第一算法输入数据Xh划分为和/>Xh1通过最大池化层和线性层进行特征嵌入。Xh2先后经过线性层和深度可分离卷积层,Xh1经过最大池化层和线性映射层后的输出如公式(2)所示:
Yh1=FC(MaxPool(Xh1)) (2)
Xh2经过线性层和深度可分离卷积后的输出如公式(3)所示:
Yh2=DWConv(FC(Xh2)) (3)
根据Yh1和Yh2确定图像纹理特征数据。其中,MaxPool为最大池化层;FC为线性映射层;DWConv为深度可分离卷积。
S530、将第二算法输入数据输入特征提取编码器中的低频特征提取器,确定图像关联特征数据。
其中,低频特征提取器基于注意力算法进行特征提取。图像关联特征数据即特征在全局范围内的联系关系数据。
具体的,将第二算法输入数据Xl输入低频特征提取器,通过低频特征提取器对Xl进行平均池化以降低特征的空间维度,通过深度学习网络Swin Transformer的注意力算法捕获Xl在全局范围内的关联关系,再通过上采样层恢复降低维度后的Xl的特征数据。低频特征提取器输出的图像关联特征数据如公式(4)所示:
Yl=UpSample(MultiAttn(AvePool(Xl))) (4)
其中,AvePool为平均池化层;MultiAttn为基于W-MSA和SW-MSA的注意力模块;UpSample为上采样层。
S540、根据图像关联特征数据和图像纹理特征数据确定样本下分支输出特征。
示例性的,样本下分支输出特征的计算方式如公式(5)和公式(6)所示。
Yc=Concat(Yl,Yh1,Yh2) (5)
Y2=FC(Yc+Conv(Yc)) (6)
其中,Concat为按通道维度进行特征拼接;Conv为3×3的卷积函数;FC为线性映射层,用于保证输出特征与输入特征的通道数一致。
上述方案,通过高低频混合特征提取编码器确定样本下分支输出特征。高低频混合特征提取编码器包含上下两个分支,上分支采用多层卷积网络提高了输入特征整体表达能力。下分支包括低频特征提取器和高频特征提取器两个分支。低频特征提取器采用基于注意力机制的低频特征提取模块的输入,通过注意力网络从而对特征在全局范围建立联系,使得模型对用于分类的低频特征挖掘能力提高。高频特征提取模块考虑到最大池化的灵敏度和卷积运算的细节感知,使用包含最大池化和深度可分离卷积的并行结构,从而提高训练出的目标检测模型对用于定位的高频特征的捕捉能力。
在一个实施例中,如图7所示,根据对比学习损失函数、预测图像特征、样本图像的实际图像特征对特征提取编码器进行权重调整,确定目标检测模型,包括:
S710、根据预测图像特征确定样本预测标签和样本预测框,并确定样本真实标签和样本真实框。
S720、根据样本预测标签和样本真实标签,确定分类损失函数。
具体的,在目标检测任务中,具有目标分类和目标定位两个子任务。通过特征提取编码器确定样本预测标签时的分类损失函数可以通过交叉熵损失函数表示。基于此,分类损失函数的计算公式如公式(7)所示:
其中,CE(p,q)为分类损失函数;p(xi)为样本真实标签;q(xi)为样本预测标签。
S730、根据样本预测框和样本真实框确定定位损失函数。
具体的,可以将样本预测框和样本真实框之间距离的平均值作为定位损失函数,定位损失函数如公式(8)所示:
其中,MAE为样本预测框和样本真实框之间距离的平均值,即定位损失函数;f(xi)为样本预测框;yi为样本真实框。
S740、根据对比学习损失函数、分类损失函数和定位损失函数对特征提取编码器进行权重调整,确定目标检测模型。
上述方案,通过对比学习损失函数、分类损失函数和定位损失函数对特征提取编码器进行权重调整,确定目标检测模型,可以提高目标检测模型的可靠性,使目标检测模型在执行目标检测任务时,可以实现提高待检测图像的目标分类和目标定位的准确性。
在一个实施例中,如图8所示,确定样本图像的数据增强图像,并对数据增强图像进行分割确定图像序列,包括:
S810、对样本图像进行数据增强处理,确定样本图像的数据增强图像。
具体的,采用随机的至少两种数据增强方法对样本图像进行数据增强处理,确定样本图像的数据增强图像。
S820、根据步长小于内核尺寸的卷积函数对数据增强图像进行分割,确定包含图像相邻信息的图像序列。
其中,图像相邻信息是指图像序列的相邻序列的图像特征信息。
具体的,对于来自相同样本图片的不同数据增强图像,通过图像分割工具ImageSplit将数据增强图像划分成一定数量小的图像,即patches,Image Split通过步长stride小于内核尺寸kernel size的卷积函数划分图像样本,得到包含图像相邻信息的patches序列。
示例性的,对于图像特征为H×W×C的样本图像x,分别对其进行两种不同的数据增强处理,得到样本图像的数据增强图像x1和x2。分别将x1和x2输入stride小于kernelsize的卷积函数,其中,stride可以设置为4,kernel size可以设置为7。通过卷积函数分别将x1和x2划分成大小为4×4的patches序列,patches序列的数据特征为且patches序列包含有图像相邻信息。
上述方案,通过不同的数据增强方式对样本图像进行数据增强处理,可以丰富模型训练的样本数据,通过卷积函数对数据增强图像进行分割,可以确定到包含图像相邻信息的patches序列,可以充分挖掘图像特征。
示例性的,在上述实施例的基础上,目标检测方法包括:
对于来自相同样本图片的不同数据增强图像,通过图像分割工具Image Split将数据增强图像划分成一定数量小的图像,即patches,Image Split通过步长stride小于内核尺寸kernel size的卷积函数划分图像样本,得到包含图像相邻信息的图像序列。
将图像序列分为特征提取编码器的样本上分支输入数据和样本下分支输入数据,样本上分支输入数据和样本下分支输入数据不一致。将样本上分支输入数据输入特征提取编码器的编码器上分支,根据编码器上分支的输出数据确定样本上分支输出特征。将下分支输入数据分为的第一算法输入数据和第二算法输入数据。将第一算法输入数据输入特征提取编码器中的高频特征提取器,确定图像纹理特征数据,将第二算法输入数据输入基于注意力算法的低频特征提取器,确定图像关联特征数据,根据图像纹理特征数据和图像关联特征数据确定样本下分支输出特征。对编码器上分支的输出数据和编码器下分支的输出数据进行求和,确定样本图像的预测图像特征。
通过特征提取编码器,采用深度可分离卷积函数确定图像序列的位置编码,并根据位置编码确定图像序列的键keys和属性values,使用离散小波变换对图像序列的keys和values进行转换,将keys和values转换为分辨率较低的转换子带特征。基于通道维度对转换子带特征进行拼接,确定拼接子带特征,通过逆离散小波变换对拼接子带特征进行维度转换,以将拼接子带特征恢复为离散小波变换操作之前的维度,并将拼接子带特征恢复为离散小波变换操作之前的维度获取的特征图作为图像序列的重构特征图。经过的卷积网络在转换子带特征上施加空间局部性,并对下采样的keys和values进行多头自注意力学习,确定图像序列的序列特征图。将重构特征图和序列特征图进行组合,确定目标局部特征。
对样本图像进行图像剪裁,确定剪裁图像,随机抽取同一样本图像的两个剪裁图像,并对随机抽取的两个剪裁图像进行数据增强处理,确定增强剪裁图像。将其中一个剪裁图像对应的增强剪裁图像输入特征提取编码器的上分支fθ中,并将另一个剪裁图像对应的增强剪裁图像输入特征提取编码器的下分支fξ中,根据fθ的输出向量和fξ的输出向量确定样本查询向量。通过样本查询向量对同一批次数据对应的目标局部特征对应的键进行查询,从目标局部特征中确定正样本数据和负样本数据,根据正样本数据、负样本数据和样本查询向量确定对比学习损失函数。根据预测图像特征确定样本预测标签和样本预测框,并确定样本真实标签和样本真实框,根据样本预测标签和样本真实标签,确定分类损失函数,根据样本预测框和样本真实框确定定位损失函数,根据对比学习损失函数、分类损失函数和定位损失函数对特征提取编码器进行权重调整,确定目标检测模型。
将待检测图像输入目标检测模型,通过目标检测模型对待检测图像进行分割处理,确定待检测图像的目标图像序列。根据目标图像序列确定目标检测模型的目标上分支输入数据和目标下分支输入数据。将目标上分支输入数据输入目标检测模型的模型上分支,确定目标上分支输出特征,并将目标下分支数据输入目标检测模型的模型下分支,确定目标下分支输出特征。根据目标上分支输出特征和目标下分支输出特征确定待检测图像中的目标特征信息。
上述目标检测方法中,在确定目标检测模型时,通过对比学习方法确定特征提取编码器的对比学习损失函数,根据特征提取编码器确定的样本图像的预测图像特征,以及样本图像的实际图像特征确定特征提取编码器的目标识别误差,以根据对比学习损失函数和目标识别误差调整特征提取编码器的权重,获取可以对待检测图像进行目标检测的目标检测模型,使得目标检测模型可以在对待检测目标进行目标检测时,实现对待识别目标的目标识别和目标定位,提高了目标检测模型的模型可靠性,从而提高了目标检测的准确性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的目标检测方法的目标检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个目标检测装置实施例中的具体限定可以参见上文中对于目标检测方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种目标检测装置,包括:图像序列确定模块901、目标局部特征确定模块902、损失函数确定模块903、目标检测模型确定模块904和目标特征信息确定模块905,其中:
图像序列确定模块901,用于确定样本图像的数据增强图像,并对数据增强图像进行分割确定图像序列;
目标局部特征确定模块902,用于通过特征提取编码器和图像序列,确定样本图像的预测图像特征和图像序列的目标局部特征;
损失函数确定模块903,用于根据样本图像和特征提取编码器确定样本查询向量,基于样本查询向量从目标局部特征中确定正样本数据和负样本数据,并根据正样本数据、负样本数据和样本查询向量确定对比学习损失函数;
目标检测模型确定模块904,用于根据对比学习损失函数、预测图像特征、样本图像的实际图像特征对特征提取编码器进行权重调整,确定目标检测模型;
目标特征信息确定模块905,用于通过目标检测模型对待检测图像进行目标检测,确定待检测图像的目标特征信息。
上述目标检测装置,确定样本图像的数据增强图像,并对数据增强图像进行分割确定图像序列;通过特征提取编码器和图像序列,确定图像序列的预测图像特征和目标局部特征;根据样本图像和特征提取编码器确定样本查询向量,基于样本查询向量从目标局部特征中确定正样本数据和负样本数据,并根据正样本数据、负样本数据和样本查询向量确定对比学习损失函数;根据对比学习损失函数、预测图像特征、样本图像的实际图像特征对特征提取编码器进行权重调整,确定目标检测模型;将待检测图像输入目标检测模型,确定待检测图像中的目标图像特征。解决了难以根据无标签数据对深度学习模型进行训练确定目标检测模型,以及目标检测方法难以兼顾图像识别和目标定位两个方面,目标检测模型的定位能力差且预测准确率低的问题。上述方法,在确定目标检测模型时,通过对比学习方法确定特征提取编码器的对比学习损失函数,根据特征提取编码器确定的样本图像的预测图像特征,以及样本图像的实际图像特征确定特征提取编码器的目标识别误差,以根据对比学习损失函数和目标识别误差调整特征提取编码器的权重,获取可以对待检测图像进行目标检测的目标检测模型,使得目标检测模型可以在对待检测目标进行目标检测时,实现对待识别目标的目标识别和目标定位,提高了目标检测模型的模型可靠性,从而提高了目标检测的准确性。
示例性的,目标局部特征确定模块902具体用于:
根据图像序列确定样本上分支输入数据和样本下分支输入数据,并将样本上分支输入数据输入特征提取编码器的编码器上分支,确定样本上分支输出特征;
将样本下分支输入数据输入特征提取编码器的编码器下分支,确定样本下分支输出特征;
根据样本上分支输出特征和样本下分支输出特征确定样本图像的预测图像特征;
通过特征提取编码器对图像序列进行特征提取,确定图像序列的目标局部特征。
进一步的,目标局部特征确定模块902还具体用于:
将样本下分支输入数据分为的第一算法输入数据和第二算法输入数据;
将第一算法输入数据输入特征提取编码器中的高频特征提取器,确定图像纹理特征数据;
将第二算法输入数据输入特征提取编码器中的低频特征提取器,确定图像关联特征数据;
根据图像关联特征数据和图像纹理特征数据确定样本下分支输出特征。
进一步的,目标局部特征确定模块902还具体用于:
通过特征提取编码器确定图像序列的位置编码,并根据位置编码确定图像序列的键和属性;
使用离散小波变换对图像序列的键和属性进行转换,确定转换子带特征,并基于通道维度对转换子带特征进行拼接,确定拼接子带特征;
通过逆离散小波变换对拼接子带特征进行维度转换,确定图像序列的重构特征图;
对图像序列的键和属性进行自注意力学习,确定图像序列的序列特征图;
根据重构特征图和序列特征图确定目标局部特征。
示例性的,目标检测模型确定模块904具体用于:
根据预测图像特征确定样本预测标签和样本预测框,并确定样本真实标签和样本真实框;
根据样本预测标签和样本真实标签,确定分类损失函数;
根据样本预测框和样本真实框确定定位损失函数;
根据对比学习损失函数、分类损失函数和定位损失函数对特征提取编码器进行权重调整,确定目标检测模型。
示例性的,图像序列确定模块901具体用于:
对样本图像进行数据增强处理,确定样本图像的数据增强图像;
根据步长小于内核尺寸的卷积函数对数据增强图像进行分割,确定包含图像相邻信息的图像序列。
示例性的,目标特征信息确定模块905具体用于:
将待检测图像输入目标检测模型,通过目标检测模型对待检测图像进行分割处理,确定待检测图像的目标图像序列;
根据目标图像序列确定目标检测模型的目标上分支输入数据和目标下分支输入数据;
将目标上分支输入数据输入目标检测模型的模型上分支,确定目标上分支输出特征,并将目标下分支数据输入目标检测模型的模型下分支,确定目标下分支输出特征;
根据目标上分支输出特征和目标下分支输出特征确定待检测图像中的目标特征信息。
上述目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种目标检测方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
步骤一、确定样本图像的数据增强图像,并对数据增强图像进行分割确定图像序列;
步骤二、通过特征提取编码器和图像序列,确定样本图像的预测图像特征和图像序列的目标局部特征;
步骤三、根据样本图像和特征提取编码器确定样本查询向量,基于样本查询向量从目标局部特征中确定正样本数据和负样本数据,并根据正样本数据、负样本数据和样本查询向量确定对比学习损失函数;
步骤四、根据对比学习损失函数、预测图像特征、样本图像的实际图像特征对特征提取编码器进行权重调整,确定目标检测模型;
步骤五、通过目标检测模型对待检测图像进行目标检测,确定待检测图像的目标特征信息。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤一、确定样本图像的数据增强图像,并对数据增强图像进行分割确定图像序列;
步骤二、通过特征提取编码器和图像序列,确定样本图像的预测图像特征和图像序列的目标局部特征;
步骤三、根据样本图像和特征提取编码器确定样本查询向量,基于样本查询向量从目标局部特征中确定正样本数据和负样本数据,并根据正样本数据、负样本数据和样本查询向量确定对比学习损失函数;
步骤四、根据对比学习损失函数、预测图像特征、样本图像的实际图像特征对特征提取编码器进行权重调整,确定目标检测模型;
步骤五、通过目标检测模型对待检测图像进行目标检测,确定待检测图像的目标特征信息。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
步骤一、确定样本图像的数据增强图像,并对数据增强图像进行分割确定图像序列;
步骤二、通过特征提取编码器和图像序列,确定样本图像的预测图像特征和图像序列的目标局部特征;
步骤三、根据样本图像和特征提取编码器确定样本查询向量,基于样本查询向量从目标局部特征中确定正样本数据和负样本数据,并根据正样本数据、负样本数据和样本查询向量确定对比学习损失函数;
步骤四、根据对比学习损失函数、预测图像特征、样本图像的实际图像特征对特征提取编码器进行权重调整,确定目标检测模型;
步骤五、通过目标检测模型对待检测图像进行目标检测,确定待检测图像的目标特征信息。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种目标检测方法,其特征在于,包括:
确定样本图像的数据增强图像,并对所述数据增强图像进行分割确定图像序列;
通过特征提取编码器和所述图像序列,确定所述样本图像的预测图像特征和所述图像序列的目标局部特征;
根据所述样本图像和所述特征提取编码器确定样本查询向量,基于所述样本查询向量从所述目标局部特征中确定正样本数据和负样本数据,并根据所述正样本数据、所述负样本数据和所述样本查询向量确定对比学习损失函数;
根据所述对比学习损失函数、所述预测图像特征、所述样本图像的实际图像特征对所述特征提取编码器进行权重调整,确定目标检测模型;
通过所述目标检测模型对待检测图像进行目标检测,确定所述待检测图像的目标特征信息。
2.根据权利要求1所述的方法,其特征在于,通过特征提取编码器和所述图像序列,确定所述样本图像的预测图像特征和所述图像序列的目标局部特征,包括:
根据所述图像序列确定样本上分支输入数据和样本下分支输入数据,并将所述样本上分支输入数据输入所述特征提取编码器的编码器上分支,确定样本上分支输出特征;
将所述样本下分支输入数据输入所述特征提取编码器的编码器下分支,确定样本下分支输出特征;
根据所述样本上分支输出特征和所述样本下分支输出特征确定所述样本图像的预测图像特征;
通过所述特征提取编码器对所述图像序列进行特征提取,确定所述图像序列的目标局部特征。
3.根据权利要求2所述的方法,其特征在于,将所述样本下分支输入数据输入所述特征提取编码器的编码器下分支,确定样本下分支输出特征,包括:
将所述样本下分支输入数据分为的第一算法输入数据和第二算法输入数据;
将所述第一算法输入数据输入所述特征提取编码器中的高频特征提取器,确定图像纹理特征数据;
将第二算法输入数据输入所述特征提取编码器中的低频特征提取器,确定图像关联特征数据;
根据所述图像关联特征数据和所述图像纹理特征数据确定样本下分支输出特征。
4.根据权利要求2所述的方法,其特征在于,通过所述特征提取编码器对所述图像序列进行特征提取,确定所述图像序列的目标局部特征,包括:
通过所述特征提取编码器确定所述图像序列的位置编码,并根据所述位置编码确定图像序列的键和属性;
使用离散小波变换对图像序列的键和属性进行转换,确定转换子带特征,并基于通道维度对所述转换子带特征进行拼接,确定拼接子带特征;
通过逆离散小波变换对所述拼接子带特征进行维度转换,确定所述图像序列的重构特征图;
对图像序列的键和属性进行自注意力学习,确定所述图像序列的序列特征图;
根据所述重构特征图和所述序列特征图确定目标局部特征。
5.根据权利要求1所述的方法,其特征在于,根据所述对比学习损失函数、所述预测图像特征、所述样本图像的实际图像特征对所述特征提取编码器进行权重调整,确定目标检测模型,包括:
根据所述预测图像特征确定样本预测标签和样本预测框,并确定样本真实标签和样本真实框;
根据所述样本预测标签和所述样本真实标签,确定分类损失函数;
根据所述样本预测框和样本真实框确定定位损失函数;
根据所述对比学习损失函数、所述分类损失函数和所述定位损失函数对所述特征提取编码器进行权重调整,确定目标检测模型。
6.根据权利要求1所述的方法,其特征在于,确定样本图像的数据增强图像,并对所述数据增强图像进行分割确定图像序列,包括:
对样本图像进行数据增强处理,确定所述样本图像的数据增强图像;
根据步长小于内核尺寸的卷积函数对所述数据增强图像进行分割,确定包含图像相邻信息的图像序列。
7.根据权利要求1所述的方法,其特征在于,通过所述目标检测模型对待检测图像进行目标检测,确定所述待检测图像的目标特征信息,包括:
将待检测图像输入所述目标检测模型,通过所述目标检测模型对所述待检测图像进行分割处理,确定所述待检测图像的目标图像序列;
根据所述目标图像序列确定所述目标检测模型的目标上分支输入数据和目标下分支输入数据;
将所述目标上分支输入数据输入所述目标检测模型的模型上分支,确定目标上分支输出特征,并将所述目标下分支数据输入所述目标检测模型的模型下分支,确定目标下分支输出特征;
根据所述目标上分支输出特征和所述目标下分支输出特征确定所述待检测图像中的目标特征信息。
8.一种目标检测装置,其特征在于,所述目标检测装置包括:
图像序列确定模块,用于确定样本图像的数据增强图像,并对所述数据增强图像进行分割确定图像序列;
目标局部特征确定模块,用于通过特征提取编码器和所述图像序列,确定所述样本图像的预测图像特征和所述图像序列的目标局部特征;
损失函数确定模块,用于根据所述样本图像和所述特征提取编码器确定样本查询向量,基于所述样本查询向量从所述目标局部特征中确定正样本数据和负样本数据,并根据所述正样本数据、所述负样本数据和所述样本查询向量确定对比学习损失函数;
目标检测模型确定模块,用于根据所述对比学习损失函数、所述预测图像特征、所述样本图像的实际图像特征对所述特征提取编码器进行权重调整,确定目标检测模型;
目标特征信息确定模块,用于通过所述目标检测模型对待检测图像进行目标检测,确定所述待检测图像的目标特征信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至权利要求7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311360592.3A CN117576364A (zh) | 2023-10-19 | 2023-10-19 | 目标检测方法、装置、计算机设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311360592.3A CN117576364A (zh) | 2023-10-19 | 2023-10-19 | 目标检测方法、装置、计算机设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117576364A true CN117576364A (zh) | 2024-02-20 |
Family
ID=89890641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311360592.3A Pending CN117576364A (zh) | 2023-10-19 | 2023-10-19 | 目标检测方法、装置、计算机设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576364A (zh) |
-
2023
- 2023-10-19 CN CN202311360592.3A patent/CN117576364A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fang et al. | Infrared small UAV target detection based on residual image prediction via global and local dilated residual networks | |
Ju et al. | A simple and efficient network for small target detection | |
Qu et al. | Dilated convolution and feature fusion SSD network for small object detection in remote sensing images | |
US10055672B2 (en) | Methods and systems for low-energy image classification | |
CN110838125B (zh) | 医学图像的目标检测方法、装置、设备、存储介质 | |
CN112990010B (zh) | 点云数据处理方法、装置、计算机设备和存储介质 | |
CN110599502B (zh) | 一种基于深度学习的皮肤病变分割方法 | |
CN113537254B (zh) | 图像特征提取方法、装置、电子设备及可读存储介质 | |
US20160267324A1 (en) | Context-awareness through biased on-device image classifiers | |
Wang et al. | Urban building extraction from high-resolution remote sensing imagery based on multi-scale recurrent conditional generative adversarial network | |
Li et al. | Enhanced bird detection from low-resolution aerial image using deep neural networks | |
Kavitha et al. | Convolutional Neural Networks Based Video Reconstruction and Computation in Digital Twins. | |
Zhang et al. | Small object detection in UAV image based on improved YOLOv5 | |
Qin et al. | Depth estimation by parameter transfer with a lightweight model for single still images | |
Ying et al. | Tyre pattern image retrieval–current status and challenges | |
Tang et al. | An object fine-grained change detection method based on frequency decoupling interaction for high-resolution remote sensing images | |
Sugimura et al. | Enhanced cascading classifier using multi-scale HOG for pedestrian detection from aerial images | |
CN116994155A (zh) | 一种地质岩性的解译方法、装置及存储介质 | |
Sun et al. | Improving autoencoder by mutual information maximization and shuffle attention for novelty detection | |
CN116758419A (zh) | 针对遥感图像的多尺度目标检测方法、装置和设备 | |
Li et al. | DAR-Net: dense attentional residual network for vehicle detection in aerial images | |
CN109558819A (zh) | 一种用于遥感图像目标检测的深度网络轻量化方法 | |
CN117576364A (zh) | 目标检测方法、装置、计算机设备以及存储介质 | |
CN116310308A (zh) | 图像分割方法、装置、计算机设备和存储介质 | |
CN115223181A (zh) | 基于文本检测的报告材料印章文字识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |