CN112287839B - 一种基于迁移学习的ssd红外图像行人检测方法 - Google Patents

一种基于迁移学习的ssd红外图像行人检测方法 Download PDF

Info

Publication number
CN112287839B
CN112287839B CN202011185638.9A CN202011185638A CN112287839B CN 112287839 B CN112287839 B CN 112287839B CN 202011185638 A CN202011185638 A CN 202011185638A CN 112287839 B CN112287839 B CN 112287839B
Authority
CN
China
Prior art keywords
ssd
network
image
pedestrian
infrared image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011185638.9A
Other languages
English (en)
Other versions
CN112287839A (zh
Inventor
王智文
冯晶
王宇航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Eleflex Intelligent Technology Co ltd
Original Assignee
Guangxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Science and Technology filed Critical Guangxi University of Science and Technology
Priority to CN202011185638.9A priority Critical patent/CN112287839B/zh
Publication of CN112287839A publication Critical patent/CN112287839A/zh
Application granted granted Critical
Publication of CN112287839B publication Critical patent/CN112287839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于迁移学习的SSD红外图像行人检测方法,包括,利用ImageNet数据集对MobileNet V2+SSD网络进行训练,并保存权重;将OUS红外行人数据集转化为三通道图像进行数据扩充,根据8:2的比例划分训练集和测试集,且转换为tfrecord格式文件;利用所述训练集对预先训练好的SSD网络进行微调,将所述测试集输入训练好的检测模型,根据检测结果调整超参数,输出最终的所述检测模型。本发明通过将测试集输入到训练好的模型中,根据结果调整超参数,提高网络精确率,平均精确率mAP为94.8%,提升了网络训练效果,加快了网络收敛,提高了准确率,并克服了现有样本数量较少而无法准确识别分类的问题。

Description

一种基于迁移学习的SSD红外图像行人检测方法
技术领域
本发明涉及迁移学习、行人检测的技术领域,尤其涉及一种基于迁移学习的SSD红外图像行人检测方法。
背景技术
当前红外行人图像检测存在的难点和问题可以概括为5个方面,一、红外图像为灰度图像,没有色彩信息,而且图像深度有限,信噪比低,动态范围窄,这样对红外图像中的人体目标进行检测时,就不能像可见光那样通过对皮肤的颜色聚类;二、红外图像层次感差,纹理信息很少,而且边缘模糊,使得红外图像中的人体检测不能像可见光图像那样通过人的一些特征如眼睛、面部特点等对人体进行定位;三、由于红外图像是热成像,图像中存在很多干扰目标,如灯柱、动物、车辆、电器盒、建筑等热源,它们的红外成像比较容易与人体目标混淆;四、红外图像中目标的亮度还与目标表面特征、朝向、辐射波长有关,行人前进方向、服装成分厚重程度等都会对目标亮度产生影响,这些成像特征的不一致性,使得红外图像中人体目标的检测更加困难;五、行人兼具刚性和柔性的物特性,外表易受姿态、视角、遮挡等影响。因此研究红外图像中的人体检测具有重要的学术意义。
迁移学习(Transfer Learning)是一种机器学习方法,是把一个领域(即源领域)的知识,迁移到另外一个领域(即目标领域),使得目标领域能够取得更好的学习效果。
通常,源领域数据量充足,而目标领域数据量较小,这种场景就很适合做迁移学习,例如要对一个任务进行分类,但是此任务中数据不充足(目标域),然而却又大量的相关的训练数据(源域),但是此训练数据与所需进行的分类任务中的测试数据特征分布不同(例如语音情感识别中,一种语言的语音数据充足,然而所需进行分类任务的情感数据却极度缺乏),在这种情况下如果可以采用合适的迁移学习方法则可以大大提高样本不充足任务的分类识别结果。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明提供了一种基于迁移学习的SSD红外图像行人检测方法,能够解决样本不充足条件下无法准确识别、分类的问题。
为解决上述技术问题,本发明提供如下技术方案:包括,利用ImageNet数据集对MobileNet V2+SSD网络进行训练,并保存权重;将OUS红外行人数据集转化为三通道图像进行数据扩充,根据8:2的比例划分训练集和测试集,且转换为tfrecord格式文件;利用所述训练集对预先训练好的SSD网络进行微调,将所述测试集输入训练好的检测模型,根据检测结果调整超参数,输出最终的所述检测模型。
作为本发明所述的基于迁移学习的SSD红外图像行人检测方法的一种优选方案,其中:所述微调包括,将所述ImageNet数据集预先训练好的权重转换为在所述OUS热红外行人数据集上的权重;将直接涉及到输出层的网络层,即Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2层的网络权重进行重新学习;通过卷积层融合多尺度特征图,生成包含感兴趣对象概率的边界框bounding box,利用非最大值抑制NMS生成所述检测结果;利用所述检测模型在训练集上的误差不断迭代训练,得到对数据拟合的合理检测模型。
作为本发明所述的基于迁移学习的SSD红外图像行人检测方法的一种优选方案,其中:所述扩充包括,对10%的图像进行上下翻转、50%的图像进行镜像翻转、左右平移20%、剪切变换±16°、图像缩放80%到120%之间、随机旋转±15°。
作为本发明所述的基于迁移学习的SSD红外图像行人检测方法的一种优选方案,其中:转化为所述三通道图像包括,利用RGB赋予原通道的值将红外图像转变为三通道;通过LabelImg对行人图像进行标记,构建红外行人图像对应的.xml格式标签。
作为本发明所述的基于迁移学习的SSD红外图像行人检测方法的一种优选方案,其中:所述标签包括,图像名称、目标类别及目标所在位置的坐标信息的xml树。
作为本发明所述的基于迁移学习的SSD红外图像行人检测方法的一种优选方案,其中:所述MobileNet V2+SSD网络包括,所述SSD网络由VGG16构建,其包括5组13个卷积层、5个最大池化层和3个全连接层,其中,所述卷积层的步长为1、卷积核为3×3、所述池化层步长为2、大小为2×2;所述MoblieNet V2添加宽度缩放因子α,使得每层网络都变薄,输入通道由D变为αD,输出通道由K变为αK,计算量变为:
F×F×αD×N×N+1×1×αD×αK×N×N
其中,计算量和参数个数缩小为原来的α2
作为本发明所述的基于迁移学习的SSD红外图像行人检测方法的一种优选方案,其中:还包括,所述MoblieNet为轻量级网络,采用深度可分解卷积将一个标准卷积分解为深度卷积和点卷积,其为2D卷积并作为卷积核深度为1的CNN卷积核,每个卷积核只对输入数据的一层做卷积运算,其计算量为:
F×F×D×N×N+1×1×D×K×N×N
其中,F为卷积核的维度,D为输入的深度,N为输入的宽度和高度,K为输出的深度。
作为本发明所述的基于迁移学习的SSD红外图像行人检测方法的一种优选方案,其中:所述检测模型以损失函数为目标函数,包括,所述损失函数定义为位置误差与置信度误差的加权之和,如下:
Figure BDA0002751357610000031
其中,N是先验框的正样本的数量,c为类别置信度预测值,l为先验框所对应边界框的位置预测值,g为真实边界框的位置参数,α为权重系数。
作为本发明所述的基于迁移学习的SSD红外图像行人检测方法的一种优选方案,其中:还包括,所述位置误差采用Smooth L1 loss定义,如下:
Figure BDA0002751357610000032
Figure BDA0002751357610000033
由于l是编码值,所以计算时要先对g进行编码得到
Figure BDA0002751357610000034
如下:
Figure BDA0002751357610000035
Figure BDA0002751357610000036
其中,d为先验框位置,variance为超参数,用来调整检测值对
Figure BDA0002751357610000037
进行缩放。
作为本发明所述的基于迁移学习的SSD红外图像行人检测方法的一种优选方案,其中:还包括,所述置信误差采用softmax loss计算,如下:
Figure BDA0002751357610000041
其中,
Figure BDA0002751357610000042
为一个参数指标,当
Figure BDA0002751357610000043
时表示第i个预测边界框与第j个真实边界框匹配,并且边界框的类别为p,c为类别置信度预测值,p的概率预测越高,损失越小,概率通过softmax产生。
本发明的有益效果:本发明通过将测试集输入到训练好的模型中,根据结果调整超参数,提高网络精确率,平均精确率mAP为94.8%,提升了网络训练效果,加快了网络收敛,提高了准确率,并克服了现有样本数量较少而无法准确识别分类的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例所述的基于迁移学习的SSD红外图像行人检测方法的流程示意图;
图2为本发明第一个实施例所述的基于迁移学习的SSD红外图像行人检测方法的扩充后的数据集部分图像示意图;
图3为本发明第一个实施例所述的基于迁移学习的SSD红外图像行人检测方法的原图像示意图;
图4为本发明第一个实施例所述的基于迁移学习的SSD红外图像行人检测方法的标签可视化示意图;
图5为本发明第一个实施例所述的基于迁移学习的SSD红外图像行人检测方法的.xml格式的图片标签信息示意图;
图6为本发明第二个实施例所述的基于迁移学习的SSD红外图像行人检测方法的map函数曲线示意图;
图7为本发明第二个实施例所述的基于迁移学习的SSD红外图像行人检测方法的localization loss函数曲线示意图;
图8为本发明第二个实施例所述的基于迁移学习的SSD红外图像行人检测方法的classification loss函数曲线示意图;
图9为本发明第二个实施例所述的基于迁移学习的SSD红外图像行人检测方法的总损失值曲线示意图;
图10为本发明第二个实施例所述的基于迁移学习的SSD红外图像行人检测方法的测试输入图像示意图;
图11为本发明第二个实施例所述的基于迁移学习的SSD红外图像行人检测方法的检测结果示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1~图5,为本发明的第一个实施例,提供了一种基于迁移学习的SSD红外图像行人检测方法,包括:
S1:利用ImageNet数据集对MobileNet V2+SSD网络进行训练,并保存权重。其中需要说明的是,MobileNet V2+SSD网络包括:
SSD网络由VGG16构建,其包括5组13个卷积层、5个最大池化层和3个全连接层,其中,卷积层的步长为1、卷积核为3×3、池化层步长为2、大小为2×2;
MoblieNet V2添加宽度缩放因子α,使得每层网络都变薄,输入通道由D变为αD,输出通道由K变为αK,计算量变为:
F×F×αD×N×N+1×1×αD×αK×N×N
其中,计算量和参数个数缩小为原来的α2
MoblieNet为轻量级网络,采用深度可分解卷积将一个标准卷积分解为深度卷积和点卷积,其为2D卷积并作为卷积核深度为1的CNN卷积核,每个卷积核只对输入数据的一层做卷积运算,其计算量为:
F×F×D×N×N+1×1×D×K×N×N
其中,F为卷积核的维度,D为输入的深度,N为输入的宽度和高度,K为输出的深度。
S2:将OUS红外行人数据集转化为三通道图像进行数据扩充,根据8:2的比例划分训练集和测试集,且转换为tfrecord格式文件。本步骤需要说明的是,扩充包括:
对10%的图像进行上下翻转、50%的图像进行镜像翻转、左右平移20%、剪切变换±16°、图像缩放80%到120%之间、随机旋转±15°。
进一步的,转化为三通道图像包括:
利用RGB赋予原通道的值将红外图像转变为三通道;
通过LabelImg对行人图像进行标记,构建红外行人图像对应的.xml格式标签;
标签包括,图像名称、目标类别及目标所在位置的坐标信息的xml树。
S3:利用训练集对预先训练好的SSD网络进行微调,将测试集输入训练好的检测模型,根据检测结果调整超参数,输出最终的检测模型。其中还需要说明的是,微调包括:
将ImageNet数据集预先训练好的权重转换为在OUS热红外行人数据集上的权重;
将直接涉及到输出层的网络层,即Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2层的网络权重进行重新学习;
通过卷积层融合多尺度特征图,生成包含感兴趣对象概率的边界框boundingbox,利用非最大值抑制NMS生成检测结果;
利用检测模型在训练集上的误差不断迭代训练,得到对数据拟合的合理检测模型。
进一步的,检测模型以损失函数为目标函数,包括:
损失函数定义为位置误差与置信度误差的加权之和,如下:
Figure BDA0002751357610000071
其中,N是先验框的正样本的数量,c为类别置信度预测值,l为先验框所对应边界框的位置预测值,g为真实边界框的位置参数,α为权重系数;
位置误差采用Smooth L1 loss定义,如下:
Figure BDA0002751357610000072
Figure BDA0002751357610000073
由于l是编码值,所以计算时要先对g进行编码得到
Figure BDA0002751357610000074
如下:
Figure BDA0002751357610000075
Figure BDA0002751357610000076
其中,d为先验框位置,variance为超参数,用来调整检测值对
Figure BDA0002751357610000077
进行缩放;
置信误差采用softmax loss计算,如下:
Figure BDA0002751357610000081
其中,
Figure BDA0002751357610000082
为一个参数指标,当
Figure BDA0002751357610000083
时表示第i个预测边界框与第j个真实边界框匹配,并且边界框的类别为p,c为类别置信度预测值,p的概率预测越高,损失越小,概率通过softmax产生。
参照图2,为扩充后的数据集部分图像,由于OUS数据集只有284幅图像,为了达到较好的结果,本实施例采用数据增强的方式来对数据集进行扩充,主要为对10%的图像进行上下翻转、50%的图像进行镜像翻转、左右平移20%、剪切变换±16°、图像缩放80%到120%之间、随机旋转±15°,之后数据集扩充为2823幅图像。
参照图3、图4和图5,因为红外图像为单通道图像,而SSD网络要求输入图像为三通道图像,本实施例通过把原通道的值赋予RGB三个通道的方法将红外图像转变为三通道,使用LabelImg对这2823幅行人图像进行标记,构建红外行人图像对应的.xml格式标签,可以看出.xml格式的图片标签信息主要为包括图像名称、目标类别、目标所在位置的坐标信息的xml树。
优选的,将数据集标签转换为.csv格式,再将.xml格式的图片标签所包含的图像名称、图像宽高、目标类别与坐标写入表格文件,同时以8:2的比例分为训练集和测试集,数据集具体数值如下表所示:
表1:数据集具体数值表。
数据集 图像数(幅) 行人数(人)
训练集 2258 5568
测试集 565 1336
合计 2823 6904
在SSD网络中并不能直接处理xml格式及cvs格式的文件所包含的标签信息,需要进一步转换为网络能读取的tfrecord格式文件,tfrecord格式文件是一种二进制文件更方便复制和移动,并且不需要单独的标签文件,因此本实施例将图片和.xml格式的标签转换为.tfrecord格式文件进行读取(迁移学习)。
当数据集准备好后,利用本发明方法不断学习数据集中的目标特征并训练出能检测目标的权值模型,通过SSD己经在ImageNet数据集上训练迭代了数十万次的网络权重作为基础来初始化网络参数,训练迭代过的权值模型己经初步具备了的提取特征的能力,能够提高网络训练效果加快收敛。
实施例2
参照图6~图11,为本发明的第二个实施例,该实施例不同于第一个实施例的是,提供了一种基于迁移学习的SSD红外图像行人检测方法的验证,包括:
参照图6,需要说明的是,为了验证权值模型检测目标的准确率,主要是看检测测试集所有数据后计算得到的平均准确率均值(MAP)的大小,本实施例采用Adam下降法,所有图片分批次投入模型训练,提升了梯度下降时更新所有参数的速度,尽可能获得参数解的最优值,本实施例设定每次输入模型训练的图片数量为16,设置迭代次数为9000次,最后测试集准确率为94.8%,根据每一万次验证计算得到的MAP,绘制出准确率随迭代步数增加的曲线图。
参照图7、图8和图9,均为训练过程中损失值的收敛曲线,横坐标为迭代次数,最大迭代为9000次,总损失值下降到为1.94,网络训练结果较理想,其中,localization_loss为边界框回归的损失即位置损失,classification_loss为将检测的对象分类为各种类别的损失即分类损失,total_loss为总损失。
参照图6、图7、图8和图9,可以看出不论是准确率还是损失的曲线都是有波动的,并不是平滑的,这是由于本实施例采用的是Adam下降法,每次训练的只是所有数据集中的一批图像,对这一批图像进行计算得到的损失和准确率,虽然曲线有所起伏,但是准确率的整体趋势是上升的,而损失是下降的,模型是在逐渐收敛的。
参照图6,可以看出随着训练次数的增加,mAP在不断提升,准确率在迭代次数为0到2000次之间曲线变化非常明显,准确率的提升幅度很大,代表模型处于学习阶段;而迭代次数在3200次之后,准确率的曲线基本保持平稳,没有出现大幅度的变化,这是因为模型逐渐收敛,参数的更新在不断向最优解拟合,当训练次数达到5000次后,准确率趋于饱和,训练次数达到9000次时,SSD算法平均准确率均值约为94.8%。
参照图10和图11,是对测试集图片进行目标检测的效果,测试时候先搭建好算法网络,再直接调用训练9000次时的权值模型,计算出图片中目标的位置偏移、目标类别、预定义框位置,根据预定义框位置和位置偏移量得到目标最终的位置(目标中心、目标长和目标宽),设置黄绿色来绘制目标边框,并给出目标为某一类的概率,当预测概率>50%时认为该目标属于行人,如图10对于3个目标分类为行人的概率分别为75%(机器75%确定该目标为行人)、92%、96%,对输入的5幅图像都能预测成功。
为了验证对OUS热红外行人数据集进行增广可以使网络模型达到较好的效果,提高检测精度,本实施例对数据集进行扩充和优化后的网络性能对比如下所示:
表2:优化数据集前后对比表。
数据集处理方法 mAP(%)
数据扩充前 64.17
数据扩充后 90.23
数据优化后 94.80
本实施例采用平均准确率(mAP)、查全率(recall,R)、检测时间三个指标作为不同算法在红外图像行人目标检测任务上的评判标准,兼顾查准查全两个要求,衡量算法整体性能,更全面评价不同算法针对行人目标的检测性能。
表3:不同模型在数据集中的识别结果对比表。
模型 mAP(%) R(%) 检测时间(ms)
Faster-Rcnn 79.1 74.35 2374
YOLO 75.25 69.79 1653
SSD 77.86 72.33 3428
本发明方法 94.8 85.94 530
综上,本发明通过将测试集输入到训练好的模型中,根据结果调整超参数,提高网络精确率,平均精确率mAP为94.8%,提升了网络训练效果,加快了网络收敛,提高了准确率。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于迁移学习的SSD红外图像行人检测方法,其特征在于:包括,
利用ImageNet数据集对MobileNet V2+SSD网络进行训练,并保存权重;
将OUS红外行人数据集转化为三通道图像进行数据扩充,根据8:2的比例划分训练集和测试集,且转换为tfrecord格式文件;
利用所述训练集对预先训练好的SSD网络进行微调,将所述测试集输入训练好的检测模型,根据检测结果调整超参数,输出最终的所述检测模型;
所述微调包括,将所述ImageNet数据集预先训练好的权重转换为在所述OUS热红外行人数据集上的权重;
将直接涉及到输出层的网络层,即Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2层的网络权重进行重新学习;
通过卷积层融合多尺度特征图,生成包含感兴趣对象概率的边界框bounding box,利用非最大值抑制NMS生成所述检测结果;
利用所述检测模型在训练集上的误差不断迭代训练,得到对数据拟合的合理检测模型;
所述扩充包括,对10%的图像进行上下翻转、50%的图像进行镜像翻转、左右平移20%、剪切变换
Figure DEST_PATH_IMAGE002
、图像缩放80%到120%之间、随机旋转
Figure DEST_PATH_IMAGE004
转化为所述三通道图像包括,利用RGB赋予原通道的值将红外图像转变为三通道;
通过LabelImg对行人图像进行标记,构建红外行人图像对应的.xml格式标签;
所述标签包括,图像名称、目标类别及目标所在位置的坐标信息的xml树。
2. 根据权利要求1所述的基于迁移学习的SSD红外图像行人检测方法,其特征在于:所述MobileNet V2+SSD网络包括,
所述SSD网络由VGG16构建,其包括5组13个卷积层、5个最大池化层和3个全连接层,其中,所述卷积层的步长为1、卷积核为3×3、所述池化层步长为2、大小为2×2;
所述MobileNet V2添加宽度缩放因子
Figure DEST_PATH_IMAGE006
,使得每层网络都变薄,输入通道由D变为
Figure DEST_PATH_IMAGE008
,输出通道由K变为
Figure DEST_PATH_IMAGE010
,计算量变为:
Figure DEST_PATH_IMAGE012
其中,计算量和参数个数缩小为原来的
Figure DEST_PATH_IMAGE014
3.根据权利要求2所述的基于迁移学习的SSD红外图像行人检测方法,其特征在于:还包括,
所述MobileNet 为轻量级网络,采用深度可分解卷积将一个标准卷积分解为深度卷积和点卷积,其为 2D 卷积并作为卷积核深度为1的CNN卷积核,每个卷积核只对输入数据的一层做卷积运算,其计算量为:
Figure DEST_PATH_IMAGE016
其中,F为卷积核的维度,D为输入的深度,N为输入的宽度和高度,K为输出的深度。
4.根据权利要求3所述的基于迁移学习的SSD红外图像行人检测方法,其特征在于:所述检测模型以损失函数为目标函数,包括,
所述损失函数定义为位置误差与置信度误差的加权之和,如下:
Figure DEST_PATH_IMAGE018
其中,N是先验框的正样本的数量,c为类别置信度预测值,l为先验框所对应边界框的位置预测值, g为真实边界框的位置参数,
Figure DEST_PATH_IMAGE006A
为权重系数。
5.根据权利要求4所述的基于迁移学习的SSD红外图像行人检测方法,其特征在于:还包括,
所述位置误差采用Smooth L1 loss定义,如下:
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
由于l是编码值,所以计算时要先对g进行编码得到
Figure DEST_PATH_IMAGE024
,如下:
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE032
其中,d为先验框位置,variance为超参数,用来调整检测值对
Figure DEST_PATH_IMAGE024A
进行缩放。
6.根据权利要求5所述的基于迁移学习的SSD红外图像行人检测方法,其特征在于:还包括,
所述置信误差采用softmax loss计算,如下:
Figure DEST_PATH_IMAGE034
其中,
Figure DEST_PATH_IMAGE036
为一个参数指标,当
Figure DEST_PATH_IMAGE038
时表示第i个预测边界框与第j个真实边界框匹配,并且边界框的类别为pc为类别置信度预测值,p的概率预测越高,损失越小,概率通过softmax产生。
CN202011185638.9A 2020-10-29 2020-10-29 一种基于迁移学习的ssd红外图像行人检测方法 Active CN112287839B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011185638.9A CN112287839B (zh) 2020-10-29 2020-10-29 一种基于迁移学习的ssd红外图像行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011185638.9A CN112287839B (zh) 2020-10-29 2020-10-29 一种基于迁移学习的ssd红外图像行人检测方法

Publications (2)

Publication Number Publication Date
CN112287839A CN112287839A (zh) 2021-01-29
CN112287839B true CN112287839B (zh) 2022-12-09

Family

ID=74353042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011185638.9A Active CN112287839B (zh) 2020-10-29 2020-10-29 一种基于迁移学习的ssd红外图像行人检测方法

Country Status (1)

Country Link
CN (1) CN112287839B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861687B (zh) * 2021-02-01 2023-08-08 郑州大学 用于门禁系统的口罩佩戴检测方法、装置、设备和介质
CN113111792A (zh) * 2021-04-16 2021-07-13 东莞市均谊视觉科技有限公司 一种基于迁移学习的饮料瓶回收视觉检测方法
CN113313078B (zh) * 2021-07-02 2022-07-08 昆明理工大学 一种基于模型优化的轻量化夜间红外图像行人检测方法及系统
CN113343949B (zh) * 2021-08-03 2021-10-29 中国航空油料集团有限公司 一种通用的嵌入式平台的行人检测模型训练方法
CN113705404A (zh) * 2021-08-18 2021-11-26 南京邮电大学 一种面向嵌入式硬件的人脸检测方法
CN114092740A (zh) * 2021-11-11 2022-02-25 成都云芯医联科技有限公司 一种ai辅助下的免疫侧流传感的解析方法
CN114313851A (zh) * 2022-01-11 2022-04-12 浙江柯工智能系统有限公司 一种模块化化纤物料转运平台及方法
CN114821703B (zh) * 2022-03-15 2023-07-28 电子科技大学 一种距离自适应热红外人脸识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110494890A (zh) * 2017-05-24 2019-11-22 赫尔实验室有限公司 卷积神经网络从可见颜色(rbg)到红外(ir)域的迁移学习

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508650A (zh) * 2018-10-23 2019-03-22 浙江农林大学 一种基于迁移学习的树种识别方法
CN110427875B (zh) * 2019-07-31 2022-11-11 天津大学 基于深度迁移学习和极限学习机的红外图像目标检测方法
CN110544251B (zh) * 2019-09-08 2021-02-09 河海大学 基于多迁移学习模型融合的大坝裂缝检测方法
CN110795991B (zh) * 2019-09-11 2023-03-31 西安科技大学 一种基于多信息融合的矿用机车行人检测方法
CN111476266B (zh) * 2020-02-27 2022-04-12 武汉大学 一种基于迁移学习的非平衡类别白细胞分类方法
CN111476766B (zh) * 2020-03-31 2023-08-22 哈尔滨商业大学 基于深度学习的肺结节ct图像检测系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110494890A (zh) * 2017-05-24 2019-11-22 赫尔实验室有限公司 卷积神经网络从可见颜色(rbg)到红外(ir)域的迁移学习

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Visual Trunk Detection Using Transfer Learning and a Deep Learning-Based Coprocessor;André Silva Aguiar 等;《IEEE Access》;20200420;第8卷;77308-77320 *
基于深度学习的空中红外目标检测关键技术研究;谢江荣;《中国博士学位论文全文数据库信息科技辑》;20200315(第03期);I135-8 *
基于深度学习的红外图像行人检测研究;冯晶;《中国优秀硕士学位论文全文数据库信息科技辑》;20220415(第04期);I138-844 *

Also Published As

Publication number Publication date
CN112287839A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN112287839B (zh) 一种基于迁移学习的ssd红外图像行人检测方法
Huang et al. Epithelium-stroma classification via convolutional neural networks and unsupervised domain adaptation in histopathological images
CN107316294B (zh) 一种基于改进的深度玻尔兹曼机肺结节特征提取方法
US20240095501A1 (en) Multi-modal adaptive fusion deep clustering model and method based on auto-encoder
CN111695636B (zh) 一种基于图神经网络的高光谱图像分类方法
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
CN108830237B (zh) 一种人脸表情的识别方法
CN107169117B (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN111126127B (zh) 一种多级空间上下文特征指导的高分辨率遥感影像分类方法
CN110543906B (zh) 基于Mask R-CNN模型的肤质自动识别方法
CN108595558B (zh) 一种数据均衡策略和多特征融合的图像标注方法
CN112115291B (zh) 一种基于深度学习的三维室内模型检索方法
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
Zuobin et al. Feature regrouping for cca-based feature fusion and extraction through normalized cut
WO2024021461A1 (zh) 缺陷检测方法及装置、设备、存储介质
CN112561926A (zh) 三维图像分割方法、系统、存储介质及电子设备
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN115393631A (zh) 基于贝叶斯层图卷积神经网络的高光谱图像分类方法
Di et al. 3D face modeling algorithm for film and television animation based on lightweight convolutional neural network
CN111222546A (zh) 一种多尺度融合的食品图像分类模型训练及图像分类方法
CN112967296B (zh) 一种点云动态区域图卷积方法、分类方法及分割方法
CN111611919B (zh) 一种基于结构化学习的道路场景布局分析方法
CN104933410A (zh) 一种高光谱图像光谱域与空间域联合分类方法
CN115564915A (zh) 变电站环境数字化区域的地图构建方法及装置
CN113139540B (zh) 背板检测方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240514

Address after: Room 301, Wanji Pharmaceutical Office Building, No. 39 Keji Middle Road, Maling Community, Yuehai Street, Nanshan District, Shenzhen City, Guangdong Province, 518000

Patentee after: Shenzhen eleflex Intelligent Technology Co.,Ltd.

Country or region after: China

Address before: 545006 268 East Ring Road, Central District, Liuzhou, the Guangxi Zhuang Autonomous Region

Patentee before: GUANGXI University OF SCIENCE AND TECHNOLOGY

Country or region before: China