CN113076969A - 基于混合高斯损失函数的图像目标检测方法 - Google Patents

基于混合高斯损失函数的图像目标检测方法 Download PDF

Info

Publication number
CN113076969A
CN113076969A CN202110203764.0A CN202110203764A CN113076969A CN 113076969 A CN113076969 A CN 113076969A CN 202110203764 A CN202110203764 A CN 202110203764A CN 113076969 A CN113076969 A CN 113076969A
Authority
CN
China
Prior art keywords
image
feature
neural network
deep neural
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110203764.0A
Other languages
English (en)
Other versions
CN113076969B (zh
Inventor
熊文昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xinwei Intelligent Technology Co ltd
Original Assignee
Shanghai Xinwei Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xinwei Intelligent Technology Co ltd filed Critical Shanghai Xinwei Intelligent Technology Co ltd
Priority to CN202110203764.0A priority Critical patent/CN113076969B/zh
Publication of CN113076969A publication Critical patent/CN113076969A/zh
Application granted granted Critical
Publication of CN113076969B publication Critical patent/CN113076969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了基于混合高斯损失函数的图像目标检测方法,其基于预设训练样本构建关于所述待检测图像的旋转框的采样数据库,并对所述采样数据库进行数据增强处理,并且还能够基于混合高斯模型的损失函数,构建相应的深度神经网络模型,并对经过数据增强处理后的采样数据库进行数据分析,最后对所述深度神经网络模型的参数进行训练优化,并将统一格式后的所述待检测图像输入至所述深度神经网络模型进行非极大值抑制处理,从而得到关于所述旋转框的长度、宽度和旋转角度中的任意一者,其能够对包含角度信息的待检测图像进行有效的和可靠的分析处理,从而准确地和全面地获得待检测图像中目标对应的长度、宽度和角度信息。

Description

基于混合高斯损失函数的图像目标检测方法
技术领域
本发明涉及图像智能处理的技术领域,特别涉及基于混合高斯损失函数的图像目标检测方法。
背景技术
现有的图像目标检测方法所检测的图像主要为水平拍摄的透视场景图像,其在实际应用中通常是基于水平框的深度学习目标检测方法来实现的。而对于利用无人机或者光学遥感拍摄得到的车辆、房屋、桥梁等俯视拍摄得到的航拍图像,这类图像中的待检测目标通常与横轴方向呈一定夹角,这使得待检测目标不仅包含长度和宽度等信息,还包括待检测目标在图像中的角度信息。现有的基于水平框的深度学习目标检测方法并不能全面地和有效地估计图像中待检测目标对应的旋转框的长度、宽度和角度,从而降低对图像中待检测目标进行角度检测的准确性和可靠性。
发明内容
针对现有技术存在的缺陷,本发明提供基于混合高斯损失函数的图像目标检测方法,其通过获取待检测图像,基于预设训练样本构建关于该待检测图像的旋转框的采样数据库,并对该采样数据库进行数据增强处理,再基于混合高斯模型的损失函数,构建相应的深度神经网络模型,并对经过数据增强处理后的采样数据库进行数据分析,再利用该数据分析的结果,初始化该深度神经网络模型的参数,最后对该深度神经网络模型的参数进行训练优化,并将统一格式后的该待检测图像输入至该深度神经网络模型进行非极大值抑制处理,从而得到关于该旋转框的长度、宽度和旋转角度中的任意一者;可见,该基于混合高斯损失函数的图像目标检测方法能够基于预设训练样本构建关于所述待检测图像的旋转框的采样数据库,并对所述采样数据库进行数据增强处理,并且还能够基于混合高斯模型的损失函数,构建相应的深度神经网络模型,并对经过数据增强处理后的采样数据库进行数据分析,最后对所述深度神经网络模型的参数进行训练优化,并将统一格式后的所述待检测图像输入至所述深度神经网络模型进行非极大值抑制处理,从而得到关于所述旋转框的长度、宽度和旋转角度中的任意一者,其能够对包含角度信息的待检测图像进行有效的和可靠的分析处理,从而准确地和全面地获得待检测图像中目标对应的长度、宽度和角度信息,以此提高对待检测图像中目标检测的可信度和精确度。
本发明提供基于混合高斯损失函数的图像目标检测方法,其特征在于,其包括如下步骤:
步骤S1,获取待检测图像,基于预设训练样本构建关于所述待检测图像的旋转框的采样数据库,并对所述采样数据库进行数据增强处理;
步骤S2,基于混合高斯模型的损失函数,构建相应的深度神经网络模型,并对经过数据增强处理后的采样数据库进行数据分析,再利用所述数据分析的结果,初始化所述深度神经网络模型的参数;
步骤S3,对所述深度神经网络模型的参数进行训练优化,并将统一格式后的所述待检测图像输入至所述深度神经网络模型进行非极大值抑制处理,从而得到关于所述旋转框的长度、宽度和旋转角度中的任意一者;
进一步,在所述步骤S1中,获取待检测图像,基于预设训练样本构建关于所述待检测图像的旋转框的采样数据库具体包括:
获取待检测图像,确定所述预设训练样本的样本个数为bs,训练样本的图像宽度为Wimg,图像高度为Himg,训练样本的通道个数为3,以及确定所述旋转框的个数为nb,特征值类别概率为c,所述旋转框的中心坐标为(x,y),所述旋转框的宽度为w、高度为h、旋转角度为θ,根据下面公式(1)确定所述采样数据库的输入Inputs-输出outputs关系:
(Inputs,outputs)=(M(bs×3×Himg×Wimg),M(bs×nb×(c+6))) (1)
在上述公式(1)中,M表示数值矩阵,c+6表示所述旋转框的特征长度,c为所述旋转框对应置信度p、坐标x、坐标y、宽度w、高度h、旋转角度θ中任一特征值类别的概率;
进一步,在所述步骤S1中,对所述采样数据库进行数据增强处理具体包括:
对所述采样数据库进行随机灰度、随机饱和度、随机色调、随机色相、随机透视变换和随机仿射变换中任意一者的数据增强处理,从而防止后续深度神经网络模型训练过拟合;
进一步,在所述步骤S2中,基于混合高斯模型的损失函数,构建相应的深度神经网络模型具体包括:
基于预设网络框架作为模型框架,构建深度神经网络模型,具体为将宽度为Wimg,高度为Himg和通道数为3的彩色图像作为输入图像,并利用特征提取网络生成具有第一尺寸、第二尺寸和第三尺寸的三个特征图,且第一尺寸、第二尺寸和第三尺寸依次变小,将所述三个特征图输入到基于混合高斯模型的损失函数以此得到相应的真值特征图,再确定预设预测特征图与所述真值特征图之间的相对误差,然后对所述相对误差进行误差方向传播处理,从而构建得到所述深度神经网络模型;
进一步,在所述步骤S2中,所述预设预测特征图是通过如下方式来实现:
设定特征提取网络输出的预测特征图的尺寸为ng*ng*(na*(c+6)),待检测图像对应的标注值尺寸为nb*(c+6),ng、na、nb分别为预定特征长度值,c+6表示所述旋转框的特征长度,;
对预测特征图的索引1到索引5的特征向量进行sigmoid网络层计算处理,以此得到取值范围为[0,1]的坐标x、坐标y、宽度w、高度h、旋转角度θ的特征向量,并根据ng*ng的网格将坐标x、坐标y、宽度w、高度h、旋转角度θ映射到所述特征向量的取值范围中,具体为:
(x,y)=sigmoid((x,y))*ng*grid(x,y) (2)
(w,h)=sigmoid((w,h))*ng*anchor (3)
Figure BDA0002949676260000041
grid(x,y)={(x,y)|x∈(0,1,…,ng-1),y∈(0,1,…,ng-1)} (5)
在上述公式(2)-(5)中,grid(x,y)表示特征图归一化网格系数,anchor表示特征图对应的锚点;
进一步,在所述步骤S2中,确定预设预测特征图与所述真值特征图之间的相对误差具体包括:
确定预设预测特征图的矩形旋转框和所述真值特征图的矩形旋转框之间的相对置信度,从而利用所述相对置信度评估矩形旋转框之间的相似度;
进一步,在所述步骤S2中,确定预设预测特征图的矩形旋转框和所述真值特征图的矩形旋转框之间的相对置信度具体包括:
根据下面公式(6)-(10),确定真值特征图的矩形旋转框特征向量与映射后的预测特征图的矩形旋转框特征向量的置信度P:
Figure BDA0002949676260000046
Figure BDA0002949676260000042
Figure BDA0002949676260000043
Figure BDA0002949676260000044
Figure BDA0002949676260000045
在上述公式(6)-(10)中,xp,yp,wp,hpp表示映射后的预测特征图的矩形旋转框特征向量,xt,yt,wt,htt表示真值特征图的矩形旋转框特征向量,ρ、a、b、c分别表示预设系数;
根据下面公式(11)-(13),对映射后的预测特征图的矩形旋转框特征向量进行方向计算:
Figure BDA0002949676260000051
Figure BDA0002949676260000052
Figure BDA0002949676260000053
根据真值特征图的矩形旋转框特征向量的置信度Pt与映射后的预测特征图的矩形旋转框特征向量的置信度Pp,确定所述相对置信度;
进一步,在所述步骤S2中,利用所述数据分析的结果,初始化所述深度神经网络模型的参数具体包括:
对所述数据分析的结果进行统计分析,依照锚点的数量对所述旋转框的宽度w、高度h进行聚类,得到具有第一尺寸、第二尺寸和第三尺寸的三个特征图中旋转框的锚点值,对所述锚点值进行初始化,以此得到特征提取网络的网络权重和偏置量,从而实现初始化所述深度神经网络模型的参数;
进一步,在所述步骤S3中,对所述深度神经网络模型的参数进行训练优化具体包括:
根据预设训练数据库和预设模型优化器,对所述深度神经网络模型进行训练优化,并保存其中平均精度最高的模型Modelbest
进一步,在所述步骤S3中,将统一格式后的所述待检测图像输入至所述深度神经网络模型进行非极大值抑制处理,从而得到关于所述旋转框的长度、宽度和旋转角度中的任意一者具体包括:
将统一格式后的所述待检测图像输入至所述模型Modelbest中进行推断,以此得到np*(c+6)维度的输出矩阵Moutputs,其中np表示所述待检测图像中旋转框的总推断个数;
对所述输出矩阵Moutputs进行如下过程的非极大值抑制处理,从而得到关于所述旋转框的长度、宽度和旋转角度中的任意一者:
A.确定所述输出矩阵Moutputs的绝对置信度阈值Thresha和相对置信度阈值Threshc
B.剔除实际绝对置信度小于所述绝对置信度阈值Thresha对应的输出矩阵Moutputs,从剩余的输出矩阵Moutputs中选取具有最大绝对置信度阈值的输出矩阵Moutputs,并计算所述选取的输出矩阵Moutputs的向量Vmax
C.计算其他未选取的输出矩阵Moutputs的向量与所述向量Vmax之间的相对置信度,剔除所述相对置信度小于所述相对置信度阈值Threshc对应的输出矩阵Moutputs;
D.重复上述步骤B和C,直到输出矩阵Moutputs中的向量个数为1;
E.根据步骤D中得到的输出矩阵Moutputs中的向量,得到关于所述旋转框的长度、宽度和旋转角度中的任意一者。
相比于现有技术,该基于混合高斯损失函数的图像目标检测方法通过获取待检测图像,基于预设训练样本构建关于该待检测图像的旋转框的采样数据库,并对该采样数据库进行数据增强处理,再基于混合高斯模型的损失函数,构建相应的深度神经网络模型,并对经过数据增强处理后的采样数据库进行数据分析,再利用该数据分析的结果,初始化该深度神经网络模型的参数,最后对该深度神经网络模型的参数进行训练优化,并将统一格式后的该待检测图像输入至该深度神经网络模型进行非极大值抑制处理,从而得到关于该旋转框的长度、宽度和旋转角度中的任意一者;可见,该基于混合高斯损失函数的图像目标检测方法能够基于预设训练样本构建关于所述待检测图像的旋转框的采样数据库,并对所述采样数据库进行数据增强处理,并且还能够基于混合高斯模型的损失函数,构建相应的深度神经网络模型,并对经过数据增强处理后的采样数据库进行数据分析,最后对所述深度神经网络模型的参数进行训练优化,并将统一格式后的所述待检测图像输入至所述深度神经网络模型进行非极大值抑制处理,从而得到关于所述旋转框的长度、宽度和旋转角度中的任意一者,其能够对包含角度信息的待检测图像进行有效的和可靠的分析处理,从而准确地和全面地获得待检测图像中目标对应的长度、宽度和角度信息,以此提高对待检测图像中目标检测的可信度和精确度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于混合高斯损失函数的图像目标检测方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的基于混合高斯损失函数的图像目标检测方法的结构示意图。该基于混合高斯损失函数的图像目标检测方法包括如下步骤:
步骤S1,获取待检测图像,基于预设训练样本构建关于该待检测图像的旋转框的采样数据库,并对该采样数据库进行数据增强处理;
步骤S2,基于混合高斯模型的损失函数,构建相应的深度神经网络模型,并对经过数据增强处理后的采样数据库进行数据分析,再利用该数据分析的结果,初始化该深度神经网络模型的参数;
步骤S3,对该深度神经网络模型的参数进行训练优化,并将统一格式后的该待检测图像输入至该深度神经网络模型进行非极大值抑制处理,从而得到关于该旋转框的长度、宽度和旋转角度中的任意一者。
上述技术方案的有益效果为:该基于混合高斯损失函数的图像目标检测方法能够基于预设训练样本构建关于该待检测图像的旋转框的采样数据库,并对该采样数据库进行数据增强处理,并且还能够基于混合高斯模型的损失函数,构建相应的深度神经网络模型,并对经过数据增强处理后的采样数据库进行数据分析,最后对该深度神经网络模型的参数进行训练优化,并将统一格式后的该待检测图像输入至该深度神经网络模型进行非极大值抑制处理,从而得到关于该旋转框的长度、宽度和旋转角度中的任意一者,其能够对包含角度信息的待检测图像进行有效的和可靠的分析处理,从而准确地和全面地获得待检测图像中目标对应的长度、宽度和角度信息,以此提高对待检测图像中目标检测的可信度和精确度。
优选地,在该步骤S1中,获取待检测图像,基于预设训练样本构建关于该待检测图像的旋转框的采样数据库具体包括:
获取待检测图像,确定该预设训练样本的样本个数为bs,训练样本的图像宽度为Wimg,图像高度为Himg,训练样本的通道个数为3,以及确定该旋转框的个数为nb,特征值类别概率为c,该旋转框的中心坐标为(x,y),该旋转框的宽度为w、高度为h、旋转角度为θ,根据下面公式(1)确定该采样数据库的输入Inputs-输出outputs关系:
(Inputs,outputs)=(M(bs×3×Himg×Wimg),M(bs×nb×(c+6))) (1)
在上述公式(1)中,M表示数值矩阵,c+6表示该旋转框的特征长度,c为该旋转框对应置信度p、坐标x、坐标y、宽度w、高度h、旋转角度θ中任一特征值类别的概率。
上述技术方案的有益效果为:由于该公式(1)包含了图像中目标对应的旋转框的宽度、高度和旋转角度,通过该公式(1)确定该采样数据库的输入Inputs-输出outputs关系,能够确保通过该采样数据库即可快速地和准确地得到该旋转框对应的宽度信息、高度信息和旋转角度信息,从而提高对图像中目标对应的旋转框分析的效率。
优选地,在该步骤S1中,对该采样数据库进行数据增强处理具体包括:
对该采样数据库进行随机灰度、随机饱和度、随机色调、随机色相、随机透视变换和随机仿射变换中任意一者的数据增强处理,从而防止后续深度神经网络模型训练过拟合。
上述技术方案的有益效果为:对该采样数据库进行随机灰度、随机饱和度、随机色调、随机色相、随机透视变换和随机仿射变换中任意一者的数据增强处理,能够便于根据待检测图像的具体类型选择相匹配的数据增强处理方式,从而改善对待检测图像进行数据增强处理的灵活性和有效性。
优选地,在该步骤S2中,基于混合高斯模型的损失函数,构建相应的深度神经网络模型具体包括:
基于预设网络框架作为模型框架,构建深度神经网络模型,具体为将宽度为Wimg,高度为Himg和通道数为3的彩色图像作为输入图像,并利用特征提取网络生成具有第一尺寸、第二尺寸和第三尺寸的三个特征图,且第一尺寸、第二尺寸和第三尺寸依次变小,将该三个特征图输入到基于混合高斯模型的损失函数以此得到相应的真值特征图,再确定预设预测特征图与该真值特征图之间的相对误差,然后对该相对误差进行误差方向传播处理,从而构建得到该深度神经网络模型。
上述技术方案的有益效果为:将该预设网络框架作为模型框架,能够便于利用该模型框架作为参照比对基准,从而准确地确定预设预测特征图与该真值特征图之间的相对误差,以此有效地构建得到该深度神经网络模型。
优选地,在该步骤S2中,该预设预测特征图是通过如下方式来实现:
设定特征提取网络输出的预测特征图的尺寸为ng*ng*(na*(c+6)),待检测图像对应的标注值尺寸为nb*(c+6),ng、na、nb分别为预定特征长度值,c+6表示该旋转框的特征长度,;
对预测特征图的索引1到索引5的特征向量进行sigmoid网络层计算处理,以此得到取值范围为[0,1]的坐标x、坐标y、宽度w、高度h、旋转角度θ的特征向量,并根据ng*ng的网格将坐标x、坐标y、宽度w、高度h、旋转角度θ映射到该特征向量的取值范围中,具体为:
(x,y)=sigmoid((x,y))*ng*grid(x,y) (2)
(w,h)=sigmoid((w,h))*ng*anchor (3)
Figure BDA0002949676260000101
grid(x,y)={(x,y)|x∈(0,1,…,ng-1),y∈(0,1,…,ng-1)} (5)
在上述公式(2)-(5)中,grid(x,y)表示特征图归一化网格系数,anchor表示特征图对应的锚点。
上述技术方案的有益效果为:通过上述公式(2)-(5),能够对预测特征图进行关于坐标x、坐标y、宽度w、高度h、旋转角度θ的归一化的映射,从而准确地确定特征图对应的锚点。
优选地,在该步骤S2中,确定预设预测特征图与该真值特征图之间的相对误差具体包括:
确定预设预测特征图的矩形旋转框和该真值特征图的矩形旋转框之间的相对置信度,从而利用该相对置信度评估矩形旋转框之间的相似度。
上述技术方案的有益效果为:由于预设预测特征图的矩形旋转框和该真值特征图的矩形旋转框之间的相对置信度与这两者之间的相似度存在相应的正相关关系,通过该相对置信度能够快速地和准确地确定其对应的相似度。
优选地,在该步骤S2中,确定预设预测特征图的矩形旋转框和该真值特征图的矩形旋转框之间的相对置信度具体包括:
根据下面公式(6)-(10),确定真值特征图的矩形旋转框特征向量与映射后的预测特征图的矩形旋转框特征向量的置信度P:
Figure BDA0002949676260000111
Figure BDA0002949676260000112
Figure BDA0002949676260000113
Figure BDA0002949676260000114
Figure BDA0002949676260000115
在上述公式(6)-(10)中,xp,yp,wp,hpp表示映射后的预测特征图的矩形旋转框特征向量,xt,yt,wt,htt表示真值特征图的矩形旋转框特征向量,ρ、a、b、c分别表示预设系数;
根据下面公式(11)-(13),对映射后的预测特征图的矩形旋转框特征向量进行方向计算:
Figure BDA0002949676260000116
Figure BDA0002949676260000117
Figure BDA0002949676260000118
根据真值特征图的矩形旋转框特征向量的置信度Pt与映射后的预测特征图的矩形旋转框特征向量的置信度Pp,确定该相对置信度。
上述技术方案的有益效果为:通过该公式(6)-(10)能够对真值特征图的矩形旋转框特征向量与映射后的预测特征图的矩形旋转框特征向量的置信度进行快速的和可靠的计算,而通过该公式(11)-(13)能够实现对对映射后的预测特征图的矩形旋转框特征向量进行准确的方向计算,从而提高确定该相对置信度的可靠性。
优选地,在该步骤S2中,利用该数据分析的结果,初始化该深度神经网络模型的参数具体包括:
对该数据分析的结果进行统计分析,依照锚点的数量对该旋转框的宽度w、高度h进行聚类,得到具有第一尺寸、第二尺寸和第三尺寸的三个特征图中旋转框的锚点值,对该锚点值进行初始化,以此得到特征提取网络的网络权重和偏置量,从而实现初始化该深度神经网络模型的参数。
上述技术方案的有益效果为:通过类聚计算的方式计算得到不同尺寸旋转框的锚点值,并对锚点值进行初始化,能够准确地和可靠地实现初始化该深度神经网络模型的参数。
优选地,在该步骤S3中,对该深度神经网络模型的参数进行训练优化具体包括:
根据预设训练数据库和预设模型优化器,对该深度神经网络模型进行训练优化,并保存其中平均精度最高的模型Modelbest
上述技术方案的有益效果为:利用预设模型优化器,能够快速地实现对深度神经网络模型的训练优化性能,从而确保平均精度最高的模型的确定效率。
优选地,在该步骤S3中,将统一格式后的该待检测图像输入至该深度神经网络模型进行非极大值抑制处理,从而得到关于该旋转框的长度、宽度和旋转角度中的任意一者具体包括:
将统一格式后的该待检测图像输入至该模型Modelbest中进行推断,以此得到np*(c+6)维度的输出矩阵Moutputs,其中np表示该待检测图像中旋转框的总推断个数;
对该输出矩阵Moutputs进行如下过程的非极大值抑制处理,从而得到关于该旋转框的长度、宽度和旋转角度中的任意一者:
A.确定该输出矩阵Moutputs的绝对置信度阈值Thresha和相对置信度阈值Threshc
B.剔除实际绝对置信度小于该绝对置信度阈值Thresha对应的输出矩阵Moutputs,从剩余的输出矩阵Moutputs中选取具有最大绝对置信度阈值的输出矩阵Moutputs,并计算该选取的输出矩阵Moutputs的向量Vmax
C.计算其他未选取的输出矩阵Moutputs的向量与该向量Vmax之间的相对置信度,剔除该相对置信度小于该相对置信度阈值Threshc对应的输出矩阵Moutputs;
D.重复上述步骤B和C,直到输出矩阵Moutputs中的向量个数为1;
E.根据步骤D中得到的输出矩阵Moutputs中的向量,得到关于该旋转框的长度、宽度和旋转角度中的任意一者。
上述技术方案的有益效果为:通过将统一格式后的该待检测图像输入至该深度神经网络模型进行非极大值抑制处理,并执行上述步骤A-E的处理过程,能够便于快速地和准确地识别得到该旋转框的长度、宽度和旋转角度中的任意一者,以此提高对待检测图像中目标检测的可信度和精确度。
从上述实施例的内容可知,该基于混合高斯损失函数的图像目标检测方法通过获取待检测图像,基于预设训练样本构建关于该待检测图像的旋转框的采样数据库,并对该采样数据库进行数据增强处理,再基于混合高斯模型的损失函数,构建相应的深度神经网络模型,并对经过数据增强处理后的采样数据库进行数据分析,再利用该数据分析的结果,初始化该深度神经网络模型的参数,最后对该深度神经网络模型的参数进行训练优化,并将统一格式后的该待检测图像输入至该深度神经网络模型进行非极大值抑制处理,从而得到关于该旋转框的长度、宽度和旋转角度中的任意一者;可见,该基于混合高斯损失函数的图像目标检测方法能够基于预设训练样本构建关于所述待检测图像的旋转框的采样数据库,并对所述采样数据库进行数据增强处理,并且还能够基于混合高斯模型的损失函数,构建相应的深度神经网络模型,并对经过数据增强处理后的采样数据库进行数据分析,最后对所述深度神经网络模型的参数进行训练优化,并将统一格式后的所述待检测图像输入至所述深度神经网络模型进行非极大值抑制处理,从而得到关于所述旋转框的长度、宽度和旋转角度中的任意一者,其能够对包含角度信息的待检测图像进行有效的和可靠的分析处理,从而准确地和全面地获得待检测图像中目标对应的长度、宽度和角度信息,以此提高对待检测图像中目标检测的可信度和精确度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.基于混合高斯损失函数的图像目标检测方法,其特征在于,其包括如下步骤:
步骤S1,获取待检测图像,基于预设训练样本构建关于所述待检测图像的旋转框的采样数据库,并对所述采样数据库进行数据增强处理;
步骤S2,基于混合高斯模型的损失函数,构建相应的深度神经网络模型,并对经过数据增强处理后的采样数据库进行数据分析,再利用所述数据分析的结果,初始化所述深度神经网络模型的参数;
步骤S3,对所述深度神经网络模型的参数进行训练优化,并将统一格式后的所述待检测图像输入至所述深度神经网络模型进行非极大值抑制处理,从而得到关于所述旋转框的长度、宽度和旋转角度中的任意一者。
2.如权利要求1所述的基于混合高斯损失函数的图像目标检测方法,其特征在于:
在所述步骤S1中,获取待检测图像,基于预设训练样本构建关于所述待检测图像的旋转框的采样数据库具体包括:
获取待检测图像,确定所述预设训练样本的样本个数为bs,训练样本的图像宽度为Wimg,图像高度为Himg,训练样本的通道个数为3,以及确定所述旋转框的个数为nb,特征值类别概率为c,所述旋转框的中心坐标为(x,y),所述旋转框的宽度为w、高度为h、旋转角度为θ,根据下面公式(1)确定所述采样数据库的输入Inputs-输出outputs关系:
(Inputs,outputs)=(M(bs×3×Himg×Wimg),M(bs×nb×(c+6))) (1)
在上述公式(1)中,M表示数值矩阵,c+6表示所述旋转框的特征长度,c为所述旋转框对应置信度p、坐标x、坐标y、宽度w、高度h、旋转角度θ中任一特征值类别的概率。
3.如权利要求1所述的基于混合高斯损失函数的图像目标检测方法,其特征在于:
在所述步骤S1中,对所述采样数据库进行数据增强处理具体包括:
对所述采样数据库进行随机灰度、随机饱和度、随机色调、随机色相、随机透视变换和随机仿射变换中任意一者的数据增强处理,从而防止后续深度神经网络模型训练过拟合。
4.如权利要求2所述的基于混合高斯损失函数的图像目标检测方法,其特征在于:
在所述步骤S2中,基于混合高斯模型的损失函数,构建相应的深度神经网络模型具体包括:
基于预设网络框架作为模型框架,构建深度神经网络模型,具体为将宽度为Wimg,高度为Himg和通道数为3的彩色图像作为输入图像,并利用特征提取网络生成具有第一尺寸、第二尺寸和第三尺寸的三个特征图,且第一尺寸、第二尺寸和第三尺寸依次变小,将所述三个特征图输入到基于混合高斯模型的损失函数以此得到相应的真值特征图,再确定预设预测特征图与所述真值特征图之间的相对误差,然后对所述相对误差进行误差方向传播处理,从而构建得到所述深度神经网络模型。
5.如权利要求4所述的基于混合高斯损失函数的图像目标检测方法,其特征在于:
在所述步骤S2中,所述预设预测特征图是通过如下方式来实现:
设定特征提取网络输出的预测特征图的尺寸为ng*ng*(na*(c+6)),待检测图像对应的标注值尺寸为nb*(c+6),ng、na、nb分别为预定特征长度值,c+6表示所述旋转框的特征长度,;
对预测特征图的索引1到索引5的特征向量进行sigmoid网络层计算处理,以此得到取值范围为[0,1]的坐标x、坐标y、宽度w、高度h、旋转角度θ的特征向量,并根据ng*ng的网格将坐标x、坐标y、宽度w、高度h、旋转角度θ映射到所述特征向量的取值范围中,具体为:
(x,y)=sigmoid((x,y))*ng*grid(x,y) (2)
(w,h)=sigmoid((w,h))*ng*anchor (3)
Figure FDA0002949676250000031
grid(x,y)={(x,y)|x∈(0,1,...,ng-1),ye(0,1,...,ng-1)} (5)
在上述公式(2)-(5)中,grid(x,y)表示特征图归一化网格系数,anchor表示特征图对应的锚点。
6.如权利要求5所述的基于混合高斯损失函数的图像目标检测方法,其特征在于:
在所述步骤S2中,确定预设预测特征图与所述真值特征图之间的相对误差具体包括:
确定预设预测特征图的矩形旋转框和所述真值特征图的矩形旋转框之间的相对置信度,从而利用所述相对置信度评估矩形旋转框之间的相似度。
7.如权利要求6所述的基于混合高斯损失函数的图像目标检测方法,其特征在于:
在所述步骤S2中,确定预设预测特征图的矩形旋转框和所述真值特征图的矩形旋转框之间的相对置信度具体包括:
根据下面公式(6)-(10),确定真值特征图的矩形旋转框特征向量与映射后的预测特征图的矩形旋转框特征向量的置信度P:
Figure FDA0002949676250000032
Figure FDA0002949676250000041
Figure FDA0002949676250000042
Figure FDA0002949676250000043
Figure FDA0002949676250000044
在上述公式(6)-(10)中,xp,yp,wp,hp,θp表示映射后的预测特征图的矩形旋转框特征向量,xt,yt,wt,ht,θt表示真值特征图的矩形旋转框特征向量,ρ、a、b、c分别表示预设系数;
根据下面公式(11)-(13),对映射后的预测特征图的矩形旋转框特征向量进行方向计算:
Figure FDA0002949676250000045
Figure FDA0002949676250000046
Figure FDA0002949676250000047
根据真值特征图的矩形旋转框特征向量的置信度Pt与映射后的预测特征图的矩形旋转框特征向量的置信度Pp,确定所述相对置信度。
8.如权利要求7所述的基于混合高斯损失函数的图像目标检测方法,其特征在于:
在所述步骤S2中,利用所述数据分析的结果,初始化所述深度神经网络模型的参数具体包括:
对所述数据分析的结果进行统计分析,依照锚点的数量对所述旋转框的宽度w、高度h进行聚类,得到具有第一尺寸、第二尺寸和第三尺寸的三个特征图中旋转框的锚点值,对所述锚点值进行初始化,以此得到特征提取网络的网络权重和偏置量,从而实现初始化所述深度神经网络模型的参数。
9.如权利要求8所述的基于混合高斯损失函数的图像目标检测方法,其特征在于:
在所述步骤S3中,对所述深度神经网络模型的参数进行训练优化具体包括:
根据预设训练数据库和预设模型优化器,对所述深度神经网络模型进行训练优化,并保存其中平均精度最高的模型Modelbest
10.如权利要求9所述的基于混合高斯损失函数的图像目标检测方法,其特征在于:
在所述步骤S3中,将统一格式后的所述待检测图像输入至所述深度神经网络模型进行非极大值抑制处理,从而得到关于所述旋转框的长度、宽度和旋转角度中的任意一者具体包括:
将统一格式后的所述待检测图像输入至所述模型Modelbest中进行推断,以此得到np*(c+6)维度的输出矩阵Moutputs,其中np表示所述待检测图像中旋转框的总推断个数;
对所述输出矩阵Moutputs进行如下过程的非极大值抑制处理,从而得到关于所述旋转框的长度、宽度和旋转角度中的任意一者:
A.确定所述输出矩阵Moutputs的绝对置信度阈值Thresha和相对置信度阈值Threshc
B.剔除实际绝对置信度小于所述绝对置信度阈值Thresha对应的输出矩阵Moutputs,从剩余的输出矩阵Moutputs中选取具有最大绝对置信度阈值的输出矩阵Moutputs,并计算所述选取的输出矩阵Moutputs的向量Vmax
C.计算其他未选取的输出矩阵Moutputs的向量与所述向量Vmax之间的相对置信度,剔除所述相对置信度小于所述相对置信度阈值Threshc对应的输出矩阵Moutputs;
D.重复上述步骤B和C,直到输出矩阵Moutputs中的向量个数为1;
E.根据步骤D中得到的输出矩阵Moutputs中的向量,得到关于所述旋转框的长度、宽度和旋转角度中的任意一者。
CN202110203764.0A 2021-02-24 2021-02-24 基于混合高斯损失函数的图像目标检测方法 Active CN113076969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110203764.0A CN113076969B (zh) 2021-02-24 2021-02-24 基于混合高斯损失函数的图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110203764.0A CN113076969B (zh) 2021-02-24 2021-02-24 基于混合高斯损失函数的图像目标检测方法

Publications (2)

Publication Number Publication Date
CN113076969A true CN113076969A (zh) 2021-07-06
CN113076969B CN113076969B (zh) 2022-10-25

Family

ID=76609514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110203764.0A Active CN113076969B (zh) 2021-02-24 2021-02-24 基于混合高斯损失函数的图像目标检测方法

Country Status (1)

Country Link
CN (1) CN113076969B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114019371A (zh) * 2021-10-15 2022-02-08 上海交通大学 一种基于高斯过程回归的电机极端工况的温度预测系统
CN115862118A (zh) * 2023-01-29 2023-03-28 南京开为网络科技有限公司 基于高斯分布假设和mse损失的人脸年龄估计方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748873A (zh) * 2017-10-31 2018-03-02 河北工业大学 一种融合背景信息的多峰目标跟踪方法
CN108960230A (zh) * 2018-05-31 2018-12-07 中国科学院自动化研究所 基于旋转矩形框的轻量化目标识别方法及装置
CN111242122A (zh) * 2020-01-07 2020-06-05 浙江大学 一种轻量级深度神经网络旋转目标检测方法和系统
CN111738262A (zh) * 2020-08-21 2020-10-02 北京易真学思教育科技有限公司 目标检测模型训练、检测方法、装置、设备及存储介质
CN111738243A (zh) * 2020-08-25 2020-10-02 腾讯科技(深圳)有限公司 人脸图像的选择方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748873A (zh) * 2017-10-31 2018-03-02 河北工业大学 一种融合背景信息的多峰目标跟踪方法
CN108960230A (zh) * 2018-05-31 2018-12-07 中国科学院自动化研究所 基于旋转矩形框的轻量化目标识别方法及装置
CN111242122A (zh) * 2020-01-07 2020-06-05 浙江大学 一种轻量级深度神经网络旋转目标检测方法和系统
CN111738262A (zh) * 2020-08-21 2020-10-02 北京易真学思教育科技有限公司 目标检测模型训练、检测方法、装置、设备及存储介质
CN111738243A (zh) * 2020-08-25 2020-10-02 腾讯科技(深圳)有限公司 人脸图像的选择方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114019371A (zh) * 2021-10-15 2022-02-08 上海交通大学 一种基于高斯过程回归的电机极端工况的温度预测系统
CN115862118A (zh) * 2023-01-29 2023-03-28 南京开为网络科技有限公司 基于高斯分布假设和mse损失的人脸年龄估计方法及装置
CN115862118B (zh) * 2023-01-29 2023-05-23 南京开为网络科技有限公司 基于高斯分布假设和mae损失的人脸年龄估计方法及装置

Also Published As

Publication number Publication date
CN113076969B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN111738124B (zh) 基于Gabor变换和注意力的遥感图像云检测方法
WO2020186678A1 (zh) 无人机三维地图构建方法、装置、计算机设备及存储介质
CN109766936B (zh) 基于信息传递和注意力机制的图像变化检测方法
CN109871902B (zh) 一种基于超分辨率对抗生成级联网络的sar小样本识别方法
CN113033520B (zh) 一种基于深度学习的树木线虫病害木识别方法及系统
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
CN113076969B (zh) 基于混合高斯损失函数的图像目标检测方法
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN112818969A (zh) 一种基于知识蒸馏的人脸姿态估计方法及系统
CN111582337A (zh) 基于小样本细粒度图像分析的草莓畸形状态检测方法
CN112633354B (zh) 路面裂缝检测方法、装置、计算机设备和存储介质
CN111242028A (zh) 基于U-Net的遥感图像地物分割方法
CN113723572B (zh) 船只目标识别方法、计算机系统及程序产品、存储介质
CN113076876B (zh) 一种基于三维结构监督和置信度加权的人脸欺骗检测方法和系统
CN115984646B (zh) 面向遥感跨卫星观测的分布式目标检测方法、装置和卫星
CN115984647B (zh) 面向星群的遥感分布式协同推理方法、装置、介质和卫星
Wang et al. Research on vehicle detection based on faster R-CNN for UAV images
CN116030300A (zh) 一种用于零样本sar目标识别的渐进式域自适应识别方法
CN115761888A (zh) 基于nl-c3d模型的塔吊操作人员异常行为检测方法
CN115331078A (zh) 一种基于ESR-YOLOv5的光学遥感图像目标检测方法
CN115223033A (zh) 一种合成孔径声呐图像目标分类方法及系统
CN114663760A (zh) 模型训练的方法、目标检测方法、存储介质及计算设备
CN113724325A (zh) 一种基于图卷积网络的多场景单目相机位姿回归方法
CN112465821A (zh) 一种基于边界关键点感知的多尺度害虫图像检测方法
CN111126485A (zh) 一种基于李群机器学习核函数的Lie-KFDA场景分类方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant