CN111476219A - 智能家居环境中图像目标检测方法 - Google Patents

智能家居环境中图像目标检测方法 Download PDF

Info

Publication number
CN111476219A
CN111476219A CN202010489218.3A CN202010489218A CN111476219A CN 111476219 A CN111476219 A CN 111476219A CN 202010489218 A CN202010489218 A CN 202010489218A CN 111476219 A CN111476219 A CN 111476219A
Authority
CN
China
Prior art keywords
image
home environment
intelligent home
target
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010489218.3A
Other languages
English (en)
Inventor
奚雪峰
段杰
崔志明
王金亮
夏炜
史庆伟
王坚
曾诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunshan Public Security Bureau
Suzhou University of Science and Technology
Original Assignee
Kunshan Public Security Bureau
Suzhou University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunshan Public Security Bureau, Suzhou University of Science and Technology filed Critical Kunshan Public Security Bureau
Priority to CN202010489218.3A priority Critical patent/CN111476219A/zh
Publication of CN111476219A publication Critical patent/CN111476219A/zh
Priority to PCT/CN2021/078415 priority patent/WO2021244079A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及智能家居环境中图像目标检测方法,通过ImageNet数据进行模型的预训练,采用随机种子融合多种图像增强方式将家居数据增强及扩充预处理操作,利用特征提取网络,引入空洞卷积,采用预训练好的模型参数,对处理好的家居数据集进行模型的再次训练;保存二次训练好的模型,对其进行封装,对图像库和检测库中的图像进行k‑means聚类分析,形成特定的目标检测特征库;当输入单张家居图像时,对输入的图像用特征提取网络进行特征的提取得到预测边框的四个坐标,对预测边框进行回归和分类计算,通过非极大值抑制输出检测结果。满足智能家居环境中目标检测要求。

Description

智能家居环境中图像目标检测方法
技术领域
本发明涉及一种智能家居环境中图像目标检测方法。
背景技术
目标检测是计算机视觉方面一个重要的技术,在汽车自动驾驶、智能机器人技术、智能安防等领域有着广泛的应用。经典的目标检测方法有Dalal于2005年提出的基于HOG特征的检测方法,Felzenswalb等人于2008年提出的可变行组件模型(Deformable PartModel,DPM)检测方法,该方法先利用梯度算子计算出目标物体的HOG特征并采用滑动窗口+SVM的方法进行分类,在目标检测方面表现良好。
近年来,随着计算性能的大幅提升,人工智能和神经网络迅猛发展,基于深度学习的各种计算机视觉处理方式得到广泛应用。卷积神经网络是计算机视觉和图像处理方面一个非常重要的模型,在图像分类、人脸识别、动作识别、图像分割、目标检测等方面具有广泛应用,并取得巨大成功。与传统的目标检测方法相比,深度神经网络提取特征能力强,检测精度和检测速度大幅提升。目前广泛使用的基于神经网络的目标检测方式主要分两类:一类是“二阶段检测器”,该类方法将目标检测分为两步,先确定候选框然后再对区域内的目标进行识别,该类方法检测精度相对较高,检测速度相对低,一般只能达到5fps,典型的网络有RCNN、FAST-RCNN、FASTER-RCNN等;另外一类是“一阶段检测器”,该类方法利用回归思想同时完成后选框的检测与识别,实现端到端的检测与识别,典型网络有YOLO、SSD等,该类方法检测速度极快,但检测精度相对较低。
发明内容
本发明的目的是克服现有技术存在的不足,提供一种智能家居环境中图像目标检测方法。
本发明的目的通过以下技术方案来实现:
智能家居环境中图像目标检测方法,特点是:
首先通过ImageNet数据进行模型的预训练,采用随机种子融合多种图像增强方式将家居数据进行增强和扩充操作,采用轻量化的网络进行特征提取,引入空洞卷积,利用预训练好的模型参数,对处理好的家居数据集进行模型的再次训练;保存二次训练好的模型,进行封装;
对图像库和目标检测库中的图像通过k-means算法进行聚类分析,形成特定的目标检测特征库;当输入单张家居图像时,对输入的图像用特征提取网络进行特征的提取,得到预测边框的四个坐标,然后对预测边框进行回归和分类计算,最后通过非极大值抑制输出检测结果。
进一步地,上述的智能家居环境中图像目标检测方法,其中,包括以下步骤:
a)首先,数据的筛选、标签和预处理
从海量的图像库中筛选出符合智能家居环境的图像;随后对筛选的图像打标签,生成目标检测数据集;对生成的数据集进行数据预处理;
b)然后,利用特征提取网络进行特征提取并训练模型
采用16层VGG16作为特征提取网络,VGG16为一连串级联网的卷积层,形成空间分辨率降低、感受野增大的特征图,损失信息和细节;引入空洞卷积,通过卷积核模拟人类视觉中的不同感受野结构,卷积核接受不同膨胀率的空洞卷积来模拟感受野和偏心率之间的关系;针对特征提取网络,利用在ImageNet上训练好的参数,对预处理好的图像进行训练;
c)继而,对图像库和目标检测库中的图像通过k-means算法进行聚类分析,在3个不同尺度生成3个先验框,通道数为3,后续框大小将基于9个先验框进行微调;
d)最后,通过回归和分类计算输出目标检测的结果;
通过神经网络对图像进行特征的提取,进而形成相应的预测边界框,对预测边界框进行回归和分类计算,并且通过非极大值抑制输出最后的结果。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤a),家居数据集是从10万多张图像中筛选出的8000张图像,每张图像均为手工拍摄,不同背景下的各类物体的不同角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况,数据集达到网络训练的泛化性和鲁棒性要求,数据集包含23个类别,涵盖常见的家居环境中所有类别。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤a),对筛选好的数据集用labellmg进行标签制作,对于标注后的图像生成与其相对应的xml文件,每个xml文件记录图像名称,标注对象类别及其对应的像素坐标信息。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤a),采用随机种子,对旋转变换、翻转变换、缩放变换、平移变换、尺寸变换、颜色变换、噪声扰动、弹性畸变的数据增强方式进行随机组合,对数据进行增强及扩充操作。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤b),对图像大小不一致,采用全卷积处理,使其自适应各类长宽比的图像。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤b),引入C.Relu作为激活函数,即允许在正方向和负方向上同时激活,同时保持相同程度的非饱和与非线性,减少激活时的冗余。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤b),训练过程中,总计训练40000~60000个batch,batch_size为8~32,在ImageNet预训练参数的基础上采用Adam算法进行优化;在ImageNet预训练的参数基础上采用Adam算法进行优化,利用梯度的一阶矩阵估计和二阶矩阵估计动态的调整;
采用指数衰减学习率,即学习率会根据训练下降的速度自行调节变化,指数衰减学习率的公式为:
Figure BDA0002520272050000041
其中,lr为当前学习率,lr0为初始学习率,gamma为学习率衰减系数,globalstep为当前迭代次数,decaysteps为衰减速度,*为乘号,^为幂次运算。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤c),通过K-means算法对数据集样本进行聚类分析,在3个不同尺度上生成3个先验框13×13、26×26、52×52,通道数为3,后续边界框的大小将基于9个先验框进行微调;对于一个输入图像,经过基础网络进行特征提取,输入到FPN结构,最终生成3个尺度的特征图作为预测;将特征图划分为网格区域,在每个网格上预测三个边界框,一共:
1×(3×(13×13+26×26+52×52))×(5+k)=1×10647×(5+k)个边界框,k代表类别数。
进一步地,上述的智能家居环境中图像目标检测方法,其中,步骤d),通过神经网络进行特征提取,得到每个边界框预测四个坐标:tx,ty,tw,th,目标网络到左上角的距离为(cx,cy),对应的边界框宽和高为pw,ph,对应的预测关系如下:
bx=σ(tx)+cx,by=δ(ty)+cy
bw=pwetw,bh=pheth
其中,tx,ty为网络预测值,σ为sigmoid函数,tw,th为坐标,pw,ph为Cell对应的边界框的宽高;
每个网格预测物体在预测框中的概率Pr(Object),通过如下公式进行打分:
Figure BDA0002520272050000051
其中,
Figure BDA0002520272050000052
为预测框和ground truth的交并比,conf(Object)为置信度,当前网格中存在目标时Pr(Object)=1,否则为0,预测框最终通过非极大值抑制得出最后的结果。
本发明与现有技术相比具有显著的优点和有益效果,具体体现在以下方面:
①本发明基于迁移学习的用于智能家居环境图像的目标检测方法是集成的深度神经网络方法,用于智能家居图像的目标检测,通过轻量化的神经网络,以减少神经网络的层数,减少计算量;其次,使用迁移学习的方式对模型进行预训练,使得在数据量较小的智能家居数据集上有着良好的表现;
②数据的筛选更有针对性,筛选的数据是在不同天气、不同光照、不用背景下的各类物体的不同佳角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况,数据可达到网络训练的泛化性和鲁棒性要求;数据的增强和扩充不在使用单个的数据增强方式,而是通过随机种子,以一定的概率融合多种数据增强方式,形成新的数据增强方式,进一步增加数据的泛化性和鲁棒性;
③引入空洞卷积,代替传统的神经网络的卷积和池化操作,通过模拟人类视觉中的不同感受野结构,使卷积核接受不同膨胀率的空洞卷积模拟感受野和偏心率之间的关系,改善级联网络VGG16会形成一系列空间分辨率不断降低、感受野不断的增大特征图,损失一些重要的信息和细节的问题,提高模型对小物体的目标检测的能力。
④引入C.Relu激活函数,允许在正方向和负方向上同时激活,同时保持相同程度的非饱和与非线性,可以在卷积之后同时保存正的和负的线性响应,减少传统激活函数引起的卷积学习的冗余,而且可以更加有效的利用可训练参数;
⑤通过数据的筛选、标签和预处理,模型的迁移学习及特征提取网络的改进与二次训练,满足实际智能家居环境中目标检测的要求;网络设计具有一定的针对性,能够提升智能家居机器人目标检测的能力,为智能家居机器人的发展提供一定的动力,促进智能家居机器人的发展。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明具体实施方式了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书中所特别指出的结构来实现和获得。
附图说明
图1:本发明的流程示意图;
图2:空洞卷积模块示意图;
图3:特征提取网络结构示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现详细说明具体实施方案。
如图1所示,智能家居环境中图像目标检测方法,首先通过ImageNet数据进行模型预训练,采用随机种子融合多种图像增强方式将家居数据进行增强和扩充操作,保证每类增强数据的平衡性,将模型的特征提取网络进行替换,用更加轻量化的网络进行代替,并且采用空洞代替传统神经网络的卷积与池化层,采用预训练好的模型参数,对处理好的家居数据集进行模型的再次训练;之后,保存二次训练好的模型,进行封装;
对图像库和目标检测库中的图像进行k-means算法进行聚类分析,形成特定的目标检测特征库;当输入单张家居图像时,对输入的图像用替换后的特征提取网络进行特征的提取得到预测边框的四个坐标,然后对每一个边框进行回归和分类计算,最后通过非极大值抑制输出检测结果。
具体包括以下步骤:
a)首先,数据的筛选、打标签和预处理;
家居数据没有现成的大规模的数据集,需要从海量的图像库中筛选出一些符合智能家居环境的图像;从10万多张图像中筛选出8000张图像,每张图像均为手工拍摄;不同背景下的各类物体的不同角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况,数据集包含信息丰富,可达到网络训练的泛化性和鲁棒性要求;数据集包含23个类别,涵盖常见的家居环境中所有类别;
对筛选好的数据集用labellmg进行标签的制作,对于标注后的图像会生成与其相对应的xml文件,每个xml文件记录图像名称,标注的对象类别及其对应的像素坐标等信息;采用随机种子,以一定的概率对旋转、翻转变换、缩放变换、平移变换、尺寸变换、颜色变换、噪声扰动、弹性畸变等数据增强方式进行随机组合,对数据进行增强及扩充操作,最终经过增强和扩充后的数据集达到12000张;
b)然后,替换模型的特征提取网络并训练模型;
引入空洞卷积,如图2所示,(a)和(b)分别代表两种不同的空洞卷积模块,通过1*1、3*3、5*5等卷积核模拟人类视觉中的不同感受野结构,卷积核接受不同膨胀率的空洞卷积来模拟感受野和偏心率之间的关系;(a)和(b)代表不同的模拟结构,两者的差别在于是否用更小的卷积核替换大卷积核,以减少计算量;传统的卷积和池化方式因池化操作损失一些信息,而空洞卷积在保持卷积核大小参数不变的同时,增大卷积的视野,提取更多的全局信息,增强对小物体信息的提取能力。
利用VGG16作为特征提取网络,VGG16是一种流水线形特征提取网络,原始的VGG16是一连串级联的卷积层,形成一系列空间分辨率不断降低、感受野不断的增大特征图,损失一些重要的信息和细节;模型保留与VGG16相同的级联结构,在具有相对大分辨率的特征层,采用RFB-s模块代替传统的卷积池化层,针对相对小分辨率的特征层,采用RFB代替卷积池化层;将第一、二、三层用RFB-s模块代替,第四层和第五层用RFB代替;第一个融合层用RFB-s代替,第二、三融合层用RFB代替;此外,灵活设置膨胀率和标准卷积核的大小模拟人眼的感受野和偏心率之间的关系;用RFB和RFB-s模块来减少网络参数,减少计算量;使网络更加轻量化,且对于小物体特征的提取能力有所提升;
由于卷积核学习到的参数分布具有很强的正负相关性,在卷积神经网络中,采用Relu激活函数,Relu将负值清零并产生稀疏激活,所以需要学习两个线性相关的正相位和反相位的参数,对冗余参数的学习无形中增加了网络的计算消耗;引入C.Relu(Concatenated Rectified Linear Units)函数,其基本原理是允许在正方向和负方向上同时激活,同时保持相同程度的非饱和与非线性;因此,可以在卷积之后同时保存正的和负的线性响应,减少Relu激活函数引起的卷积学习的冗余,而且可以更加有效的利用可训练参数;C.Relu的函数表达式为
Figure BDA0002520272050000081
在特征提取网络的低卷积层中,采用C.Relu进行非线性话处理,C.Relu在卷积神经网络中的实现过程为:将卷积得到的特征直接取反,再与原卷积特征相连,然后经过一次Relu激活函数即可;
训练过程中,采用ImageNet预训练好的参数,用改进后的模型进行训练,总计训练了60000个batch,batch_size为8;使用Adam进行优化,训练过程中不需要池化操作;
采用指数衰减学习率,即学习率回根据训练下降的速度自行调节变化,防止产生震荡,加快收敛速度;指数衰减学习率的公式为:
Figure BDA0002520272050000091
其中,lr为当前学习率,lr0为初始学习率,gamma为学习率衰减系数(一般在0~1之间),globalstep为当前迭代次数,decaysteps为衰减速度,*为乘号,^为幂次运算。
c)继而,对图像库和目标检测库中的图像进行k-means算法进行聚类分析,在3个不同尺度生成3个先验框,通道数为3,后续编大小将基于9个先验框进行微调;
对于一个输入图像,经过基础网络进行特征提取,输入到FPN结构,最终生成3个尺度的特征图作为预测;将这些特征图划分为网格区域,在每个网格上预测三个边界框,一共产生1×(3×(13×13+26×26+52×52))×(5+k)=1×10647×(5+k)个边界框,k代表类别数;
d)最后,通过回归和分类计算输出目标检测的结果;
通过改进后的神经网络进行特征提取得到每个边界框预测四个坐标:tx,ty,tw,th,目标网络到左上角的距离为(cx,cy)并且它对应的边界框宽和高为pw,ph,对应的预测关系如下
bx=σ(tx)+cx,by=δ(ty)+cy
bw=pwetw,bh=pheth
每个网格还预测物体在预测框中的概率Pr(Object),并且通过如下公式进行打分:
Figure BDA0002520272050000101
其中,
Figure BDA0002520272050000102
为预测框和ground truth的交并比,conf(Object)为置信度,当前网格中存在目标时Pr(Object)=1,否则为0;预测框最终通过非极大值抑制得出最后的结果。
结合四种主流的评估指标,对原模型和本发明的表现进行评估,四个评价指标分别为召回率、精准率、平均精度均值和Frame;与原模型相比,本发明精准率提高到72.84%,提高4.71个百分点;召回率提高到73.4%,提高2.2个百分点;在平均精度均值和检测速度方面分别提升了1.2%和27FPS;并且,本发明对小物体检测精度有所提高。
本发明采用更浅、更轻量化的网络进行特征的提取,引入空洞卷积,用于家居图像特征的提取,通过引入C.Relu函数进一步进行优化,减少计算量;可以获得良好且更加快速的家居目标检测方式;其次,使用迁移学习的方式对模型进行预训练,使得在数据量较小的智能家居数据集上有着良好的表现。
综上所述,本发明基于迁移学习的用于智能家居环境图像的目标检测方法是集成的深度神经网络方法,用于智能家居图像的目标检测,通过轻量化的神经网络,以减少神经网络的层数,减少计算量;其次,使用迁移学习的方式对模型进行预训练,使得在数据量较小的智能家居数据集上有着良好的表现;
数据的筛选更有针对性,筛选的数据是在不同天气、不同光照、不用背景下的各类物体的不同佳角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况,数据可保证网络训练的泛化性和鲁棒性要求;数据的增强和扩充不在使用单个的数据增强方式,而是通过随机种子,以一定的概率融合多种数据增强方式,形成新的数据增强方式,进一步增加数据的泛化性和鲁棒性;
引入空洞卷积,通过模拟人类视觉中的不同感受野结构,使卷积核接受不同膨胀率的空洞卷积模拟感受野和偏心率之间的关系,改善级联网络VGG16会形成一系列空间分辨率不断降低、感受野不断的增大特征图,损失一些重要的信息和细节的问题,提高模型对小物体的目标检测的能力。
引入C.Relu激活函数,允许在正方向和负方向上同时激活,同时保持相同程度的非饱和与非线性,可以在卷积之后同时保存正的和负的线性响应,减少传统激活函数引起的卷积学习的冗余,而且可以更加有效的利用可训练参数;
通过数据的筛选、标签和预处理,模型的迁移学习及特征提取网络的改进与二次训练,满足实际智能家居环境中目标检测的要求;网络设计具有一定的针对性,能够提升智能家居机器人目标检测的能力,为智能家居机器人的发展提供一定的动力,促进智能家居机器人的发展。
需要说明的是:以上所述仅为本发明的优选实施方式,并非用以限定本发明的权利范围;同时以上的描述,对于相关技术领域的专门人士应可明了及实施,因此其它未脱离本发明所揭示的精神下所完成的等效改变或修饰,均应包含在申请专利范围中。

Claims (10)

1.智能家居环境中图像目标检测方法,其特征在于:
首先通过ImageNet数据进行模型的预训练,采用随机种子融合多种图像增强方式将家居数据进行增强和扩充操作,采用轻量化的网络进行特征提取,引入空洞卷积,利用预训练好的模型参数,对处理好的家居数据集进行模型的再次训练;保存二次训练好的模型,进行封装;
对图像库和目标检测库中的图像通过k-means算法进行聚类分析,形成特定的目标检测特征库;当输入单张家居图像时,对输入的图像用特征提取网络进行特征的提取,得到预测边框的四个坐标,然后对预测边框进行回归和分类计算,最后通过非极大值抑制输出检测结果。
2.根据权利要求1所述的智能家居环境中图像目标检测方法,其特征在于:包括以下步骤:
a)首先,数据的筛选、标签和预处理
从海量的图像库中筛选出符合智能家居环境的图像;随后对筛选的图像打标签,生成目标检测数据集;对生成的数据集进行数据预处理;
b)然后,利用特征提取网络进行特征提取并训练模型
采用16层VGG16作为特征提取网络,VGG16为一连串级联网的卷积层,形成空间分辨率降低、感受野增大的特征图,损失信息和细节;引入空洞卷积,通过卷积核模拟人类视觉中的不同感受野结构,卷积核接受不同膨胀率的空洞卷积来模拟感受野和偏心率之间的关系;针对特征提取网络,利用在ImageNet上训练好的参数,对预处理好的图像进行训练;
c)继而,对图像库和目标检测库中的图像通过k-means算法进行聚类分析,在3个不同尺度生成3个先验框,通道数为3,后续框大小将基于9个先验框进行微调;
d)最后,通过回归和分类计算输出目标检测的结果;
通过神经网络对图像进行特征的提取,进而形成相应的预测边界框,对预测边界框进行回归和分类计算,并且通过非极大值抑制输出最后的结果。
3.根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤a),家居数据集是从10万多张图像中筛选出的8000张图像,每张图像均为手工拍摄,不同背景下的各类物体的不同角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况,数据集达到网络训练的泛化性和鲁棒性要求,数据集包含23个类别,涵盖常见的家居环境中所有类别。
4.根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤a),对筛选好的数据集用labellmg进行标签制作,对于标注后的图像生成与其相对应的xml文件,每个xml文件记录图像名称,标注对象类别及其对应的像素坐标信息。
5.根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤a),采用随机种子,对旋转变换、翻转变换、缩放变换、平移变换、尺寸变换、颜色变换、噪声扰动、弹性畸变的数据增强方式进行随机组合,对数据进行增强及扩充操作。
6.根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤b),对图像大小不一致,采用全卷积处理,使其自适应各类长宽比的图像。
7.根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤b),引入C.Relu作为激活函数,即允许在正方向和负方向上同时激活,同时保持相同程度的非饱和与非线性,减少激活时的冗余。
8.根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤b),训练过程中,总计训练40000~60000个batch,batch_size为8~32,在ImageNet预训练参数的基础上采用Adam算法进行优化;在ImageNet预训练的参数基础上采用Adam算法进行优化,利用梯度的一阶矩阵估计和二阶矩阵估计动态的调整;
采用指数衰减学习率,即学习率会根据训练下降的速度自行调节变化,指数衰减学习率的公式为:
Figure FDA0002520272040000031
其中,lr为当前学习率,lr0为初始学习率,gamma为学习率衰减系数,globalstep为当前迭代次数,decaysteps为衰减速度,*为乘号,^为幂次运算。
9.根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤c),通过K-means算法对数据集样本进行聚类分析,在3个不同尺度上生成3个先验框13×13、26×26、52×52,通道数为3,后续边界框的大小将基于9个先验框进行微调;对于一个输入图像,经过基础网络进行特征提取,输入到FPN结构,最终生成3个尺度的特征图作为预测;将特征图划分为网格区域,在每个网格上预测三个边界框,一共:
1×(3×(13×13+26×26+52×52))×(5+k)=1×10647×(5+k)个边界框,k代表类别数。
10.根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤d),通过神经网络进行特征提取,得到每个边界框预测四个坐标:tx,ty,tw,th,目标网络到左上角的距离为(cx,cy),对应的边界框宽和高为pw,ph,对应的预测关系如下:
bx=σ(tx)+cx,by=δ(ty)+cy
bw=pwetw,bh=pheth
其中,tx,ty为网络预测值,σ为sigmoid函数,tw,th为坐标,pw,ph为Cell对应的边界框的宽高;
每个网格预测物体在预测框中的概率Pr(Object),通过如下公式进行打分:
Figure FDA0002520272040000041
其中,
Figure FDA0002520272040000042
为预测框和ground truth的交并比,conf(Object)为置信度,当前网格中存在目标时Pr(Object)=1,否则为0,预测框最终通过非极大值抑制得出最后的结果。
CN202010489218.3A 2020-06-02 2020-06-02 智能家居环境中图像目标检测方法 Pending CN111476219A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010489218.3A CN111476219A (zh) 2020-06-02 2020-06-02 智能家居环境中图像目标检测方法
PCT/CN2021/078415 WO2021244079A1 (zh) 2020-06-02 2021-03-01 智能家居环境中图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010489218.3A CN111476219A (zh) 2020-06-02 2020-06-02 智能家居环境中图像目标检测方法

Publications (1)

Publication Number Publication Date
CN111476219A true CN111476219A (zh) 2020-07-31

Family

ID=71763646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010489218.3A Pending CN111476219A (zh) 2020-06-02 2020-06-02 智能家居环境中图像目标检测方法

Country Status (2)

Country Link
CN (1) CN111476219A (zh)
WO (1) WO2021244079A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738231A (zh) * 2020-08-06 2020-10-02 腾讯科技(深圳)有限公司 目标对象检测方法、装置、计算机设备和存储介质
CN112597801A (zh) * 2020-11-24 2021-04-02 安徽天虹数码科技股份有限公司 一种录播系统中教师检测与跟踪方法及系统
CN112598043A (zh) * 2020-12-17 2021-04-02 杭州电子科技大学 一种基于弱监督学习的协同显著性检测方法
CN113221761A (zh) * 2021-05-17 2021-08-06 深圳大学 基于集成式Yolo网络的iPSCs群落检测方法、存储介质及装置
CN113283428A (zh) * 2021-07-20 2021-08-20 南京信息工程大学 一种基于fce-ssd方法的图像目标检测方法
WO2021244079A1 (zh) * 2020-06-02 2021-12-09 苏州科技大学 智能家居环境中图像目标检测方法
CN114494890A (zh) * 2022-04-14 2022-05-13 广州市玄武无线科技股份有限公司 一种模型训练方法、商品图像管理方法及装置
CN117334162A (zh) * 2023-10-11 2024-01-02 深圳市穗晶光电股份有限公司 Led背光源控制系统及其方法
CN117590761A (zh) * 2023-12-29 2024-02-23 广东福临门世家智能家居有限公司 用于智能家居的开门状态检测方法及系统
CN117689020A (zh) * 2024-02-04 2024-03-12 青岛海尔科技有限公司 基于大模型构建智能家居本体的方法及装置、电子设备

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113869361A (zh) * 2021-08-20 2021-12-31 深延科技(北京)有限公司 模型训练方法、目标检测方法及相关装置
CN114332583A (zh) * 2021-12-10 2022-04-12 北京航空航天大学 基于改进yolov3的室内目标检测方法
CN114241308B (zh) * 2021-12-17 2023-08-04 杭州电子科技大学 一种基于压缩模块的轻量化遥感图像显著性检测方法
CN114220015A (zh) * 2021-12-21 2022-03-22 一拓通信集团股份有限公司 一种基于改进YOLOv5的卫星图像小目标检测方法
CN114494151A (zh) * 2021-12-30 2022-05-13 山东师范大学 一种复杂果园环境下的果实检测方法及系统
CN114330460B (zh) * 2022-01-12 2023-05-30 齐鲁工业大学 一种基于灵巧手触觉的物体属性识别方法
CN114511644B (zh) * 2022-01-21 2023-06-09 电子科技大学 一种基于深度学习的自适应数字伪装方法
CN114862751B (zh) * 2022-01-21 2024-03-22 西北工业大学 一种用于快速识别全息图像中铝燃烧颗粒的目标检测方法
CN114492625A (zh) * 2022-01-23 2022-05-13 北京工业大学 基于迁移的目标检测网络搜索模型在智能车标志物检测问题的解决方案
CN114120077B (zh) * 2022-01-27 2022-05-03 山东融瓴科技集团有限公司 一种基于无人机航拍大数据下的防控风险预警方法
CN114445689A (zh) * 2022-01-29 2022-05-06 福州大学 目标先验信息指导的多尺度加权融合目标检测方法及系统
CN114782735B (zh) * 2022-02-22 2024-04-26 北京航空航天大学杭州创新研究院 一种基于多区域数据增强的菜品识别方法
CN114549507B (zh) * 2022-03-01 2024-05-24 浙江理工大学 改进Scaled-YOLOv4的织物瑕疵检测方法
CN114693605A (zh) * 2022-03-07 2022-07-01 重庆亲禾智千科技有限公司 一种基于deepstream的道路裂缝检测方法
CN114694091B (zh) * 2022-03-09 2024-06-14 东南大学 一种复杂交通环境下基于监控视频的交通参与者检测方法
CN114724179B (zh) * 2022-03-10 2024-04-30 大连海洋大学 一种基于深度学习的水下扇贝识别方法
CN114898327B (zh) * 2022-03-15 2024-04-26 武汉理工大学 一种基于轻量化深度学习网络的车辆检测方法
CN114708531A (zh) * 2022-03-18 2022-07-05 南京大学 电梯内异常行为检测方法、装置及存储介质
CN114926629B (zh) * 2022-03-31 2024-03-22 北京工业大学 一种基于轻量化卷积神经网络的红外船目标显著性检测方法
CN114663769B (zh) * 2022-04-07 2023-04-18 杭州电子科技大学 一种基于YOLO v5的水果识别方法
CN114782355B (zh) * 2022-04-18 2024-05-14 华南理工大学 基于改进vgg16网络的胃癌数字病理切片检测方法
CN114972525B (zh) * 2022-04-21 2024-05-14 浙江理工大学 一种面向机器人抓取及增强现实的空间目标姿态估计方法
CN114821315B (zh) * 2022-04-24 2024-06-07 福州大学 结合边缘检测和多任务学习的遥感影像耕地地块提取方法
CN114882556B (zh) * 2022-04-26 2024-03-15 西北大学 一种基于改进的YoloX的戏曲角色妆容脸部检测方法
CN114913428A (zh) * 2022-04-26 2022-08-16 哈尔滨理工大学 一种基于深度学习的遥感图像目标检测系统
CN114998210B (zh) * 2022-04-29 2024-05-07 华南理工大学 一种基于深度学习目标检测的早产儿视网膜病变检测系统
CN114821433B (zh) * 2022-05-05 2024-04-12 南京智慧水运科技有限公司 一种基于目标检测信度动态融合的目标识别方法
CN114821368B (zh) * 2022-05-05 2024-03-01 合肥工业大学 一种基于强化学习和Transformer的电力缺陷检测方法
CN114972208B (zh) * 2022-05-05 2024-04-09 扬州大学 一种基于YOLOv4的轻量化小麦赤霉病检测方法
CN114973032B (zh) * 2022-05-27 2024-06-18 沈阳农业大学 一种基于深度卷积神经网络的光伏板热斑检测方法及装置
CN114972869B (zh) * 2022-05-30 2024-02-20 西北工业大学 一种基于反事实因果学习的红外微弱目标检测方法
CN114973390B (zh) * 2022-05-30 2024-03-12 西北工业大学 结合眼动注意力机制的复杂背景红外微弱目标检测方法
CN115147642A (zh) * 2022-06-02 2022-10-04 盛视科技股份有限公司 基于视觉的渣土车检测方法、装置、计算机及存储介质
CN114842208B (zh) * 2022-06-08 2024-05-03 南昌大学 一种基于深度学习的电网危害鸟种目标检测方法
CN115221207B (zh) * 2022-06-21 2023-04-11 广州极点三维信息科技有限公司 一种智能家居方案设计方法、系统、装置及存储介质
CN115063777B (zh) * 2022-06-27 2024-06-04 厦门大学 一种野外环境下的无人车障碍物识别方法
CN115100495A (zh) * 2022-07-08 2022-09-23 福州大学 基于子特征融合的轻量化安全帽检测方法
CN115220361A (zh) * 2022-08-02 2022-10-21 福州大学 基于深度学习的智能家居服务管控方法
CN115631326B (zh) * 2022-08-15 2023-10-31 无锡东如科技有限公司 一种智能机器人的知识驱动3d视觉检测方法
CN115169504B (zh) * 2022-09-06 2022-11-25 山东洲蓝环保科技有限公司 一种煤气精脱硫工艺中的设备异常识别方法
CN115376108A (zh) * 2022-09-07 2022-11-22 南京邮电大学 一种复杂天气下障碍物检测方法及装置
CN115482227B (zh) * 2022-09-26 2023-09-12 中机生产力促进中心有限公司 机器视觉自适应成像环境调整方法
CN115546555B (zh) * 2022-10-18 2024-05-03 安徽大学 一种基于混合表征学习增强的轻量化sar目标检测方法
CN115775236B (zh) * 2022-11-24 2023-07-14 广东工业大学 基于多尺度特征融合的表面微小缺陷视觉检测方法及系统
CN116342985B (zh) * 2023-02-14 2023-09-12 中南大学 一种用于动态智能货柜的鲁棒性特征学习方法
CN116309465B (zh) * 2023-03-21 2024-02-13 湖南中医药大学 一种基于改进的YOLOv5的自然环境下舌像检测定位方法
CN116245557B (zh) * 2023-03-28 2023-09-19 啄木鸟房屋科技发展(广东)股份有限公司 一种用于分析住户体验的数据处理方法及装置
CN116681962A (zh) * 2023-05-05 2023-09-01 江苏宏源电气有限责任公司 基于改进YOLOv5的电力设备热图像检测方法及系统
CN116580285B (zh) * 2023-07-14 2023-09-22 西安益迪惟科智能科技有限责任公司 铁路绝缘子夜间目标识别检测方法
CN116611503B (zh) * 2023-07-21 2023-09-22 浙江双元科技股份有限公司 用于多类别瑕疵实时检测的轻量化模型构建方法及装置
CN116977931A (zh) * 2023-07-31 2023-10-31 深圳市星河智善科技有限公司 一种基于深度学习的高空抛物识别方法
CN116863252B (zh) * 2023-09-04 2023-11-21 四川泓宝润业工程技术有限公司 动火作业现场易燃物检测方法、装置、设备、存储介质
CN117037173B (zh) * 2023-09-22 2024-02-27 武汉纺织大学 一种二阶段的英文字符检测与识别方法及系统
CN117333539A (zh) * 2023-10-09 2024-01-02 南京华麦机器人技术有限公司 一种面向移动机器人的充电桩定位方法及装置
CN117611877B (zh) * 2023-10-30 2024-05-14 西安电子科技大学 基于ls-yolo网络的遥感影像滑坡体检测方法
CN117152422B (zh) * 2023-10-31 2024-02-13 国网湖北省电力有限公司超高压公司 一种紫外图像无锚框目标检测方法及存储介质、电子设备
CN117589065A (zh) * 2023-11-20 2024-02-23 河北工程大学 一种针对异形轴接口尺寸的检测方法
CN117527399B (zh) * 2023-11-28 2024-05-17 广州视声智能股份有限公司 用于智能家居的信息安全加密方法及系统
CN117315446B (zh) * 2023-11-29 2024-02-09 江西省水利科学院(江西省大坝安全管理中心、江西省水资源管理中心) 一种面向复杂环境下水库溢洪道异常智能识别方法
CN117350926B (zh) * 2023-12-04 2024-02-13 北京航空航天大学合肥创新研究院 一种基于目标权重的多模态数据增强方法
CN117351022B (zh) * 2023-12-06 2024-03-08 长沙能川信息科技有限公司 一种基于复杂环境下的输电线路绝缘子缺陷检测方法
CN118019188A (zh) * 2024-01-30 2024-05-10 深圳联恒智控科技有限公司 一种基于智能射灯的人体行为识别方法和系统
CN117894319B (zh) * 2024-03-14 2024-05-17 南京土星信息科技有限公司 基于机器学习数据生成的小样本声纹识别模型训练方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373320B2 (en) * 2017-03-17 2019-08-06 Uurmi Systems PVT, LTD Method for detecting moving objects in a video having non-stationary background
CN107818302A (zh) * 2017-10-20 2018-03-20 中国科学院光电技术研究所 基于卷积神经网络的非刚性多尺度物体检测方法
CN108009509A (zh) * 2017-12-12 2018-05-08 河南工业大学 车辆目标检测方法
CN110163187B (zh) * 2019-06-02 2022-09-02 东北石油大学 基于f-rcnn的远距离交通标志检测识别方法
CN110796037B (zh) * 2019-10-15 2022-03-15 武汉大学 基于轻量级感受野金字塔的星载光学遥感图像舰船目标检测方法
CN110956119B (zh) * 2019-11-26 2023-05-26 大连理工大学 一种图像中目标检测的方法
CN110751134B (zh) * 2019-12-23 2020-05-12 长沙智能驾驶研究院有限公司 目标检测方法、装置、存储介质及计算机设备
CN111476219A (zh) * 2020-06-02 2020-07-31 苏州科技大学 智能家居环境中图像目标检测方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021244079A1 (zh) * 2020-06-02 2021-12-09 苏州科技大学 智能家居环境中图像目标检测方法
CN111738231B (zh) * 2020-08-06 2020-12-11 腾讯科技(深圳)有限公司 目标对象检测方法、装置、计算机设备和存储介质
CN111738231A (zh) * 2020-08-06 2020-10-02 腾讯科技(深圳)有限公司 目标对象检测方法、装置、计算机设备和存储介质
CN112597801A (zh) * 2020-11-24 2021-04-02 安徽天虹数码科技股份有限公司 一种录播系统中教师检测与跟踪方法及系统
CN112597801B (zh) * 2020-11-24 2023-08-01 安徽天虹数码科技股份有限公司 一种录播系统中教师检测与跟踪方法及系统
CN112598043A (zh) * 2020-12-17 2021-04-02 杭州电子科技大学 一种基于弱监督学习的协同显著性检测方法
CN112598043B (zh) * 2020-12-17 2023-08-18 杭州电子科技大学 一种基于弱监督学习的协同显著性检测方法
CN113221761B (zh) * 2021-05-17 2023-09-05 深圳大学 基于集成式Yolo网络的iPSCs群落检测方法、存储介质及装置
CN113221761A (zh) * 2021-05-17 2021-08-06 深圳大学 基于集成式Yolo网络的iPSCs群落检测方法、存储介质及装置
CN113283428A (zh) * 2021-07-20 2021-08-20 南京信息工程大学 一种基于fce-ssd方法的图像目标检测方法
CN113283428B (zh) * 2021-07-20 2021-10-08 南京信息工程大学 一种基于fce-ssd方法的图像目标检测方法
CN114494890A (zh) * 2022-04-14 2022-05-13 广州市玄武无线科技股份有限公司 一种模型训练方法、商品图像管理方法及装置
CN117334162A (zh) * 2023-10-11 2024-01-02 深圳市穗晶光电股份有限公司 Led背光源控制系统及其方法
CN117334162B (zh) * 2023-10-11 2024-05-10 深圳市穗晶光电股份有限公司 Led背光源控制系统及其方法
CN117590761A (zh) * 2023-12-29 2024-02-23 广东福临门世家智能家居有限公司 用于智能家居的开门状态检测方法及系统
CN117590761B (zh) * 2023-12-29 2024-04-19 广东福临门世家智能家居有限公司 用于智能家居的开门状态检测方法及系统
CN117689020A (zh) * 2024-02-04 2024-03-12 青岛海尔科技有限公司 基于大模型构建智能家居本体的方法及装置、电子设备
CN117689020B (zh) * 2024-02-04 2024-05-24 青岛海尔科技有限公司 基于大模型构建智能家居本体的方法及装置、电子设备

Also Published As

Publication number Publication date
WO2021244079A1 (zh) 2021-12-09

Similar Documents

Publication Publication Date Title
CN111476219A (zh) 智能家居环境中图像目标检测方法
CN110929577A (zh) 一种基于YOLOv3的轻量级框架改进的目标识别方法
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN109829541A (zh) 基于学习自动机的深度神经网络增量式训练方法及系统
CN113128558B (zh) 基于浅层空间特征融合与自适应通道筛选的目标检测方法
CN111612051B (zh) 一种基于图卷积神经网络的弱监督目标检测方法
CN105825511A (zh) 一种基于深度学习的图片背景清晰度检测方法
CN112949673A (zh) 一种基于全局注意力的特征融合目标检测与识别方法
WO2021051987A1 (zh) 神经网络模型训练的方法和装置
CN112541532B (zh) 基于密集连接结构的目标检测方法
CN115393687A (zh) 一种基于双伪标签优化学习的rgb图像半监督目标检测方法
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN113743505A (zh) 基于自注意力和特征融合的改进ssd目标检测方法
CN116310718A (zh) 一种基于YOLOv5模型的害虫目标检测方法、系统及设备
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN113435254A (zh) 一种基于哨兵二号影像的耕地深度学习提取方法
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
CN115240259A (zh) 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统
CN112364979B (zh) 一种基于GoogLeNet的红外图像识别方法
CN113793341A (zh) 一种自动驾驶场景语义分割方法、电子设备及可读介质
CN114494284B (zh) 一种基于显式监督区域关系的场景解析模型及方法
CN116148864A (zh) 一种基于DyConvGRU和Unet的预测细化结构的雷达回波外推方法
CN116168392A (zh) 基于多维空间特征模型最佳源域的目标标注方法及系统
CN113516055A (zh) 一种用于物品搜索的机器人问答方法
CN109726690A (zh) 基于DenseCap网络的学习者行为图像多区域描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination