CN110705698A - 尺度自适应感知的目标计数深度网络设计方法 - Google Patents

尺度自适应感知的目标计数深度网络设计方法 Download PDF

Info

Publication number
CN110705698A
CN110705698A CN201910984593.2A CN201910984593A CN110705698A CN 110705698 A CN110705698 A CN 110705698A CN 201910984593 A CN201910984593 A CN 201910984593A CN 110705698 A CN110705698 A CN 110705698A
Authority
CN
China
Prior art keywords
convolutional layer
output
layer
activation function
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910984593.2A
Other languages
English (en)
Other versions
CN110705698B (zh
Inventor
成锋娜
周宏平
张镜洋
程卫国
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Forestry University
Original Assignee
Nanjing Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Forestry University filed Critical Nanjing Forestry University
Priority to CN201910984593.2A priority Critical patent/CN110705698B/zh
Publication of CN110705698A publication Critical patent/CN110705698A/zh
Application granted granted Critical
Publication of CN110705698B publication Critical patent/CN110705698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种尺度自适应感知的目标计数深度网络设计方法,所述包括以下步骤:步骤1:制作训练和测试样本集合;将每个图片的目标标注生成真实标签,步骤2:将训练集和测试集的图片及其对应的真实标签进行尺寸调整,步骤3:建立尺度自适应感知目标计数深度网络模型;步骤4:将步骤2获得训练样本输入到步骤3建立的卷积网络模型中,通过Adam优化策略对网络进行参数学习,步骤5:深度网络模型测试。本发明设计了一种尺度自适应感知的目标计数深度网络设计方法,其在公共安全、交通、林业、农业等多个领域有着极其重要的应用价值。

Description

尺度自适应感知的目标计数深度网络设计方法
技术领域
本发明涉及图像处理和模式识别技术领域,尤其涉及尺度自适应感知的目标计数深度网络设计方法。
背景技术
目标计数是对图片或视频帧中场景内容的一种理解,其在生产生活中变得越来越重要。例如,对公共场所中人群的密度统计,会帮助工作人员及时管理、便于疏导人群,以防拥挤、踩踏事件的发生。对某些果树的果实或者植物进行统计,会帮助果农或者大型养殖场了解植物的生长密度以及产量情况。上述的目标统计将会对生产生活起着指导作用,帮助人们更好的处理存在的问题。
在图片或者视频帧中,由于拍摄视角的缘故,目标通常会有不同的视角。例如距离拍摄镜头近的物体尺度较大,相反较远的目标在图片中的尺度较小。这就需要设计的模型考虑目标多尺度的变化。但是由于不同的物体尺度不一样,所以在网络设计模型也需要自适应地条件感知的条件。基于以上分析,本发明提出了尺度自适应感知的目标计数深度网络设计方法。
发明内容
为了解决上述问题,本发明设计了尺度自适应感知的目标计数深度网络设计方法,该方法设计了自适应的尺度感知模块,使得网络可以自适应地调节尺度感知的范围,同时设计了分块的损失函数,以便更准确地预测更鲁棒的密度图。
为了实现上述目的,本发明采用了如下技术方案:
一种尺度自适应感知的目标计数深度网络设计方法,所述方法包括以下步骤:
步骤1:制作训练和测试样本集合;将每个图片的目标标注生成真实标签,其具体包括:
步骤101:通过搜索引擎搜集一个特定目标有关的词汇搜索目标图片,例如,通过‘人山人海’搜索人群,搜索‘汽车’搜索车辆等。或自行拍摄N张带有目标的图片。
步骤102:通过人工方式对步骤101的每张图片的每个目标进行标注,记录每个标注点的位置,进而建立一个特定目标相关数据集。
步骤103:首先将步骤102制作的数据集分为训练集和测试集;设数据集合总共有N个图片和与之对应的目标标注,记数据集合中的图片Dateset={I1,I2,...,IN}和与之对应的目标标注Labelset={l1,l2,...,lN};将前M个图片和它对应的目标标注设为训练集合,记训练图片为Traindate={I1,I2,...,IM}与之对应的标注Labeltrain={l1,l2,...,lM};同时将后N-M个图片和它对应的目标标注设为测试集合;记测试图片为Testdate={IM+1,IM+2,...,IN}与之对应的标注Labeltest={lM+1,lM+2,...,lN};
步骤104:将步骤103中第i个图片Ii转换成高斯密度图deni(x),可通过下述的公式进行计算:
Figure BDA0002236261490000021
其中表示给定图片的坐标,xj表示标注的目标位置;
Figure BDA0002236261490000022
表示高斯核,其中xj是均值向量和σ2是方差项;如果x不在xj的领域范围内,令
Figure BDA0002236261490000023
此时第i个图片的标签li变换为deni(x);
步骤105:依次对步骤102中的第1张图片直至第N个图片执行步骤104的操作,将图片的标注转换成高斯密度图;从而将训练的标注Labeltrain映射为训练真实标签Labeltrain_new:Labeltrain_new={den1,den2,...,denM},将测试的标注Labeltest映射为测试真实标签Labeltest_new:Labletest_new={denM+1,denM+2,...,denN};
步骤2:将训练集和测试集的图片及其对应的真实标签进行尺寸调整,其具体包括:
步骤201:将图片的尺寸调整为8的整数倍;记第i个图片Ii的尺寸大小为(pi,qi);图片通过插值的方式将尺寸大小调整为8的整数倍,记图片Ii调整后的尺寸大小(xi,yi);调整的计算公式为xi=(pi%8)×8和yi=(qi%8)×8,其中%表示整除操作;
步骤202:将与图片对应的高斯密度图也进行尺度调整;第i个图片Ii对应的真实标签deni(m)的尺寸大小为(pi,qi),通过步骤201中的调整计算公式后得到调整后真实标签den_newi(m)的大小(xi,yi);为了使得目标数量保持不变,对调整后的真实标签进行如下操作:
Figure BDA0002236261490000031
步骤203:依次对步骤105中的第1张图片直至第N个图片的真实标签执行步骤202的操作;
步骤3:建立尺度自适应感知目标计数深度网络模型。网络的具体的模型给出如下:
卷积层1:使用64个3×3的卷积核去卷积输入为x×y×3的图像,经过ReLU激活函数后得到x×y×64的特征;
卷积层2:使用64个3×3的卷积核去卷积卷积层1的输出,经过ReLU激活函数和2×2的最大值池化层后得到(x%2)×(y%2)×64的特征;
卷积层3:使用128个3×3的卷积核去卷积卷积层2的输出,经过ReLU激活函数后得到(x%2)×(y%2)×128的特征;
卷积层4:使用128个3×3的卷积核去卷积卷积层3的输出,经过ReLU激活函数和2×2的最大值池化层后得到(x%2)×(y%2)×128的特征;
卷积层5:使用256个3×3的卷积核去卷积卷积层4的输出,经过ReLU激活函数后得到(x%4)×(y%4)×256的特征;
卷积层6:使用256个3×3的卷积核去卷积卷积层5的输出,经过ReLU激活函数后得到(x%4)×(y%4)×256的特征;
卷积层6_0_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_0_2:使用64个3×3的卷积核去卷积卷积层6_0_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_0_3:使用exp(a1)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_0_2的输出后得到(x%4)×(y%4)×64的特征;
卷积层6_1_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_1_2:使用64个5×5的卷积核(padding的大小为2)去卷积卷积层6_1_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_1_3:使用exp(a2)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_1_2的输出后得到(x%4)×(y%4)×64的特征;
卷积层6_2_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_2_2:使用64个7×7的卷积核(padding的大小为3)去卷积卷积层6_2_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_2_3:使用exp(a3)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_2_2的输出后得到(x%4)×(y%4)×64的特征;
聚集层1:将卷积层6_0_3的输出、卷积层6_1_3的输出和卷积层6_2_3的输出,沿着通道维级联,得到(x%4)×(y%4)×192的特征;
卷积层7:使用256个3×3的卷积核去卷积聚集层1的输出,经过ReLU激活函数层和2×2的最大值池化层后得到(x%8)×(y%8)×256的特征;
卷积层8:使用256个3×3的卷积核去卷积卷积层7的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层8_0_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_0_2:使用64个3×3的卷积核去卷积卷积层8_0_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_0_3:使用exp(b1)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_0_2的输出后得到(x%8)×(y%8)×64的特征;
卷积层8_1_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_1_2:使用64个5×5的卷积核(padding的大小为2)去卷积卷积层8_1_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_1_3:使用exp(b2)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_1_2的输出后得到(x%8)×(y%8)×64的特征;
卷积层8_2_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_2_2:使用64个7×7的卷积核(padding的大小为3)去卷积卷积层8_2_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_2_3:使用exp(b3)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_2_2的输出后得到(x%8)×(y%8)×64的特征;
聚集层2:将卷积层8_0_3的输出、卷积层8_1_3的输出和卷积层8_2_3的输出,沿着通道维级联,得到(x%8)×(y%8)×192的特征;
卷积层9:使用256个3×3的卷积核去卷积聚集层2的输出,经过ReLU激活函数层和3×1×1的最大值池化层后得到(x%8)×(y%8)×256的特征;
卷积层10:使用256个3×3的卷积核去卷积聚集层2的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层11:使用256个3×3的卷积核去卷积卷积层10的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层12:使用256个3×3的卷积核去卷积卷积层11的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层13:使用256个3×3的卷积核去卷积卷积层12的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层14:使用256个3×3的卷积核去卷积卷积层13的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层15:使用256个3×3的卷积核去卷积卷积层14的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层16:使用1个1×1的卷积核去卷积卷积层15的输出,得到(x%8)×(y%8×)的特征。在该网络中,本发明设计了尺度归一化的操作,以帮助网络学习归一化的尺度特征,使得网络可以从不同的分辨率中学习不同尺度的特征。
步骤4:将步骤2获得训练样本输入到步骤3建立的卷积网络模型中,通过Adam优化策略对网络进行参数学习,具体包含如下的步骤:
步骤401:本发明设计的网络采取多任务的方式对网络参数进行训练,设置网络的初始学习率为l;
步骤402:记步骤3建立的网络模型的参数为Θ,其中步骤3中卷积层16的输出为Pre_net,网络中的运算表示为f(g),则网络的输出可表示为Pre_net=f(Θ)
使用步骤203给出的标签,对网络的参数进行学习,损失函数记为:
Figure BDA0002236261490000061
其中先将deni和den_newi(x)等同地平分成U个块,Tk、GTk分别表示deni和den_newi(x)第k个块;Tk.sum()表示对Tk里的元素求加和;abs(g)表示求绝对值;λ1,λ2是超参数。该损失函数使得网络可以关注整体的密度分布,也可以学习局部人数的变化,这有助于网络从两个不同的角度回归更加准确的人数。
步骤5:深度网络模型测试;网络经步骤4训练完成后,保留网络的卷积层的参数;将测试图片通过步骤1和步骤2操作后输入网络中,将步骤3中卷积层16的输出Pre_net求和,记为当前图片的目标数量。
相对于现有技术,本发明的有益效果如下:
1)本发明设计了自适应的尺度感知模块,通过学习不同的参数帮助网络提取更加鲁棒的尺度特征,同时该参数经过归一化,避免参数过大或者过小,以影响网络的鲁棒性;
2)本发明设计了分块的损失函数,使得网络不仅关注整体的密度,而且也关注局部的密度,这帮助网络获取更加鲁棒的密度图。
附图说明
图1为本发明中深度网络模型的框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1:参照图1,一种尺度自适应感知的目标计数深度网络设计方法,包括以下步骤:
步骤1:制作训练和测试样本集合;将每个图片的目标标注生成真实标签,其具体包括:
步骤101:通过搜索引擎搜集一个特定目标有关的词汇搜索目标图片,例如,通过‘人山人海’搜索人群,搜索‘汽车’搜索车辆等。或自行拍摄N张带有目标的图片。
步骤102:通过人工方式对步骤101的每张图片的每个目标进行标注,记录每个标注点的位置,进而建立一个特定目标相关数据集;
步骤103:首先将步骤102制作的数据集分为训练集和测试集;设数据集合总共有N个图片和与之对应的目标标注,记数据集合中的图片Dateset={I1,I2,...,IN}和与之对应的目标标注Labelset={l1,l2,...,lN};将前M个图片和它对应的目标标注设为训练集合,记训练图片为Traindate={I1,I2,...,IM}与之对应的标注Labeltrain={l1,l2,...,lM};同时将后N-M个图片和它对应的目标标注设为测试集合;记测试图片为Testdate={IM+1,IM+2,...,IN}与之对应的标注Labeltest={lM+1,lM+2,...,lN};
步骤104:将步骤103中第i个图片Ii转换成高斯密度图deni(x),可通过下述的公式进行计算:
Figure BDA0002236261490000081
其中表示给定图片的坐标,xj表示标注的目标位置;
Figure BDA0002236261490000082
表示高斯核,其中xj是均值向量和σ2是方差项;如果x不在xj的领域范围内,令
Figure BDA0002236261490000083
此时第i个图片的标签li变换为deni(x);
步骤105:依次对步骤102中的第1张图片直至第N个图片执行步骤104的操作,将图片的标注转换成高斯密度图;从而将训练的标注Labeltrain映射为训练真实标签Labeltrain_new:Labeltrain_new={den1,den2,...,denM},将测试的标注Labeltest映射为测试真实标签Labeltest_new:Labletest_new={denM+1,denM+2,...,denN};
步骤2:将训练集和测试集的图片及其对应的真实标签进行尺寸调整,其具体包括:
步骤201:将图片的尺寸调整为8的整数倍;记第i个图片Ii的尺寸大小为(pi,qi);图片通过插值的方式将尺寸大小调整为8的整数倍,记图片Ii调整后的尺寸大小(xi,yi);调整的计算公式为xi=(pi%8)×8和yi=(qi%8)×8,其中%表示整除操作;
步骤202:将与图片对应的高斯密度图也进行尺度调整;第i个图片Ii对应的真实标签deni(m)的尺寸大小为(pi,qi),通过步骤201中的调整计算公式后得到调整后真实标签den_newi(m)的大小(xi,yi);为了使得目标数量保持不变,对调整后的真实标签进行如下操作:
步骤203:依次对步骤105中的第1张图片直至第N个图片的真实标签执行步骤202的操作;
步骤3:建立尺度自适应感知目标计数深度网络模型,网络的具体的模型给出如下:
卷积层1:使用64个3×3的卷积核去卷积输入为x×y×3的图像,经过ReLU激活函数后得到x×y×64的特征;
卷积层2:使用64个3×3的卷积核去卷积卷积层1的输出,经过ReLU激活函数和2×2的最大值池化层后得到(x%2)×(y%2)×64的特征;
卷积层3:使用128个3×3的卷积核去卷积卷积层2的输出,经过ReLU激活函数后得到(x%2)×(y%2)×128的特征;
卷积层4:使用128个3×3的卷积核去卷积卷积层3的输出,经过ReLU激活函数和2×2的最大值池化层后得到(x%2)×(y%2)×128的特征;
卷积层5:使用256个3×3的卷积核去卷积卷积层4的输出,经过ReLU激活函数后得到(x%4)×(y%4)×256的特征;
卷积层6:使用256个3×3的卷积核去卷积卷积层5的输出,经过ReLU激活函数后得到(x%4)×(y%4)×256的特征;
卷积层6_0_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_0_2:使用64个3×3的卷积核去卷积卷积层6_0_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_0_3:使用exp(a1)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_0_2的输出后得到(x%4)×(y%4)×64的特征;
卷积层6_1_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_1_2:使用64个5×5的卷积核(padding的大小为2)去卷积卷积层6_1_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_1_3:使用exp(a2)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_1_2的输出后得到(x%4)×(y%4)×64的特征;
卷积层6_2_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_2_2:使用64个7×7的卷积核(padding的大小为3)去卷积卷积层6_2_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_2_3:使用exp(a3)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_2_2的输出后得到(x%4)×(y%4)×64的特征;
聚集层1:将卷积层6_0_3的输出、卷积层6_1_3的输出和卷积层6_2_3的输出,沿着通道维级联,得到(x%4)×(y%4)×192的特征;
卷积层7:使用256个3×3的卷积核去卷积聚集层1的输出,经过ReLU激活函数层和2×2的最大值池化层后得到(x%8)×(y%8)×256的特征;
卷积层8:使用256个3×3的卷积核去卷积卷积层7的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层8_0_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_0_2:使用64个3×3的卷积核去卷积卷积层8_0_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_0_3:使用exp(b1)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_0_2的输出后得到(x%8)×(y%8)×64的特征;
卷积层8_1_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_1_2:使用64个5×5的卷积核(padding的大小为2)去卷积卷积层8_1_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_1_3:使用exp(b2)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_1_2的输出后得到(x%8)×(y%8)×64的特征;
卷积层8_2_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_2_2:使用64个7×7的卷积核(padding的大小为3)去卷积卷积层8_2_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_2_3:使用exp(b3)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_2_2的输出后得到(x%8)×(y%8)×64的特征;
聚集层2:将卷积层8_0_3的输出、卷积层8_1_3的输出和卷积层8_2_3的输出,沿着通道维级联,得到(x%8)×(y%8)×192的特征;
卷积层9:使用256个3×3的卷积核去卷积聚集层2的输出,经过ReLU激活函数层和3×1×1的最大值池化层后得到(x%8)×(y%8)×256的特征;
卷积层10:使用256个3×3的卷积核去卷积聚集层2的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层11:使用256个3×3的卷积核去卷积卷积层10的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层12:使用256个3×3的卷积核去卷积卷积层11的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层13:使用256个3×3的卷积核去卷积卷积层12的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层14:使用256个3×3的卷积核去卷积卷积层13的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层15:使用256个3×3的卷积核去卷积卷积层14的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层16:使用1个1×1的卷积核去卷积卷积层15的输出,得到(x%8)×(y%8×)的特征;
步骤4:将步骤2获得训练样本输入到步骤3建立的卷积网络模型中,通过Adam优化策略对网络进行参数学习,具体包含如下的步骤:
步骤401:本发明设计的网络采取多任务的方式对网络参数进行训练,设置网络的初始学习率为l;
步骤402:记步骤3建立的网络模型的参数为Θ,其中步骤3中卷积层16的输出为Pre_net,网络中的运算表示为f(g),则网络的输出可表示为
Pre_net=f(Θ)
使用步骤203给出的标签,对网络的参数进行学习,损失函数记为:
Figure BDA0002236261490000121
其中先将deni和den_newi(x)等同地平分成U个块,Tk、GTk分别表示deni和den_newi(x)第k个块;Tk.sum()表示对Tk里的元素求加和;abs(g)表示求绝对值;λ1,λ2是超参数;
步骤5:深度网络模型测试;网络经步骤4训练完成后,保留网络的卷积层的参数;将测试图片通过步骤1和步骤2操作后输入网络中,将步骤3中卷积层16的输出Pre_net求和,记为当前图片的目标数量。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种尺度自适应感知的目标计数深度网络设计方法,其特征在于,所述方法包括以下步骤:
步骤1:制作训练和测试样本集合,将每个图片的目标标注生成真实标签;
步骤2:将训练集和测试集的图片及其对应的真实标签进行尺寸调整;
步骤3:建立尺度自适应感知目标计数深度网络模型;
步骤4:将步骤2获得训练样本输入到步骤3建立的卷积网络模型中,通过Adam优化策略对网络进行参数学习;
步骤5:深度网络模型测试;网络经步骤4训练完成后,保留网络的卷积层的参数;将测试图片通过步骤1和步骤2操作后输入网络中,将步骤3中卷积层16的输出Pre_net求和,记为当前图片的目标数量。
2.根据权利要求1所述的尺度自适应感知的目标计数深度网络设计方法,其特征在于,所述步骤1具体如下:
步骤101:通过搜索引擎搜集一个特定目标有关的词汇搜索目标图片,或自行拍摄N张带有目标的图片;
步骤102:通过人工方式对步骤101的每张图片的每个目标进行标注,记录每个标注点的位置,进而建立一个特定目标相关数据集;
步骤103:首先将步骤102制作的数据集分为训练集和测试集;设数据集合总共有N个图片和与之对应的目标标注,记数据集合中的图片Dateset={I1,I2,...,IN}和与之对应的目标标注Labelset={l1,l2,...,lN};将前M个图片和它对应的目标标注设为训练集合,记训练图片为Traindate={I1,I2,...,IM}与之对应的标注Labeltrain={l1,l2,...,lM};同时将后N-M个图片和它对应的目标标注设为测试集合;记测试图片为Testdate={IM+1,IM+2,...,IN}与之对应的标注Labeltest={lM+1,lM+2,...,lN};
步骤104:将步骤103中第i个图片Ii转换成高斯密度图deni(x),可通过下述的公式进行计算:
Figure FDA0002236261480000021
其中
Figure FDA0002236261480000022
表示给定图片的坐标,xj表示标注的目标位置;
Figure FDA0002236261480000023
表示高斯核,其中xj是均值向量和σ2是方差项;如果x不在xj的领域范围内,令此时第i个图片的标签li变换为deni(x);
步骤105:依次对步骤102中的第1张图片直至第N个图片执行步骤104的操作,将图片的标注转换成高斯密度图;从而将训练的标注Labeltrain映射为训练真实标签Labeltrain_new:Labeltrain_new={den1,den2,...,denM},将测试的标注Labeltest映射为测试真实标签Labeltest_new:Labletest_new={denM+1,denM+2,...,denN}。
3.根据权利要求1所述的尺度自适应感知的目标计数深度网络设计方法,其特征在于,所述步骤2具体如下,
步骤201:将图片的尺寸调整为8的整数倍;记第i个图片Ii的尺寸大小为(pi,qi);图片通过插值的方式将尺寸大小调整为8的整数倍,记图片Ii调整后的尺寸大小(xi,yi);调整的计算公式为xi=(pi%8)×8和yi=(qi%8)×8,其中%表示整除操作;
步骤202:将与图片对应的高斯密度图也进行尺度调整;第i个图片Ii对应的真实标签deni(m)的尺寸大小为(pi,qi),通过步骤201中的调整计算公式后得到调整后真实标签den_newi(m)的大小(xi,yi);为了使得目标数量保持不变,对调整后的真实标签进行如下操作;
Figure FDA0002236261480000025
步骤203:依次对步骤105中的第1张图片直至第N个图片的真实标签执行步骤202的操作。
4.根据权利要求1所述的尺度自适应感知的目标计数深度网络设计方法,其特征在于,所述步骤3建立尺度自适应感知目标计数深度网络模型,网络的具体的模型给出如下:
卷积层1:使用64个3×3的卷积核去卷积输入为x×y×3的图像,经过ReLU激活函数后得到x×y×64的特征;
卷积层2:使用64个3×3的卷积核去卷积卷积层1的输出,经过ReLU激活函数和2×2的最大值池化层后得到(x%2)×(y%2)×64的特征;
卷积层3:使用128个3×3的卷积核去卷积卷积层2的输出,经过ReLU激活函数后得到(x%2)×(y%2)×128的特征;
卷积层4:使用128个3×3的卷积核去卷积卷积层3的输出,经过ReLU激活函数和2×2的最大值池化层后得到(x%2)×(y%2)×128的特征;
卷积层5:使用256个3×3的卷积核去卷积卷积层4的输出,经过ReLU激活函数后得到(x%4)×(y%4)×256的特征;
卷积层6:使用256个3×3的卷积核去卷积卷积层5的输出,经过ReLU激活函数后得到(x%4)×(y%4)×256的特征;
卷积层6_0_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_0_2:使用64个3×3的卷积核去卷积卷积层6_0_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_0_3:使用exp(a1)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_0_2的输出后得到(x%4)×(y%4)×64的特征;
卷积层6_1_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_1_2:使用64个5×5的卷积核(padding的大小为2)去卷积卷积层6_1_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_1_3:使用exp(a2)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_1_2的输出后得到(x%4)×(y%4)×64的特征;
卷积层6_2_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_2_2:使用64个7×7的卷积核(padding的大小为3)去卷积卷积层6_2_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_2_3:使用exp(a3)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_2_2的输出后得到(x%4)×(y%4)×64的特征;
聚集层1:将卷积层6_0_3的输出、卷积层6_1_3的输出和卷积层6_2_3的输出,沿着通道维级联,得到(x%4)×(y%4)×192的特征;
卷积层7:使用256个3×3的卷积核去卷积聚集层1的输出,经过ReLU激活函数层和2×2的最大值池化层后得到(x%8)×(y%8)×256的特征;
卷积层8:使用256个3×3的卷积核去卷积卷积层7的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层8_0_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_0_2:使用64个3×3的卷积核去卷积卷积层8_0_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_0_3:使用exp(b1)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_0_2的输出后得到(x%8)×(y%8)×64的特征;
卷积层8_1_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_1_2:使用64个5×5的卷积核(padding的大小为2)去卷积卷积层8_1_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_1_3:使用exp(b2)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_1_2的输出后得到(x%8)×(y%8)×64的特征;
卷积层8_2_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_2_2:使用64个7×7的卷积核(padding的大小为3)去卷积卷积层8_2_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_2_3:使用exp(b3)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_2_2的输出后得到(x%8)×(y%8)×64的特征;
聚集层2:将卷积层8_0_3的输出、卷积层8_1_3的输出和卷积层8_2_3的输出,沿着通道维级联,得到(x%8)×(y%8)×192的特征;
卷积层9:使用256个3×3的卷积核去卷积聚集层2的输出,经过ReLU激活函数层和3×1×1的最大值池化层后得到(x%8)×(y%8)×256的特征;
卷积层10:使用256个3×3的卷积核去卷积聚集层2的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层11:使用256个3×3的卷积核去卷积卷积层10的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层12:使用256个3×3的卷积核去卷积卷积层11的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层13:使用256个3×3的卷积核去卷积卷积层12的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层14:使用256个3×3的卷积核去卷积卷积层13的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层15:使用256个3×3的卷积核去卷积卷积层14的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层16:使用1个1×1的卷积核去卷积卷积层15的输出,得到(x%8)×(y%8)×1的特征。
5.根据权利要求1所述的尺度自适应感知的目标计数深度网络设计方法,其特征在于,所述步骤4:将步骤2获得训练样本输入到步骤3建立的卷积网络模型中,通过Adam优化策略对网络进行参数学习,具体包含如下的步骤:
步骤401:网络采取多任务的方式对网络参数进行训练,设置网络的初始学习率为l;
步骤402:记步骤3建立的网络模型的参数为Θ,其中步骤3中卷积层16的输出为Pre_net,网络中的运算表示为f(g),则网络的输出可表示为
Pre_net=f(Θ);
使用步骤203给出的标签,对网络的参数进行学习,损失函数记为:
Figure FDA0002236261480000061
其中先将deni和den_newi(x)等同地平分成U个块,Tk、GTk分别表示deni和den_newi(x)第k个块;Tk.sum()表示对Tk里的元素求加和;abs(g)表示求绝对值;λ1,λ2是超参数。
6.根据权利要求5所述的尺度自适应感知的目标计数深度网络设计方法,其特征在于,网络经步骤4训练完成后,保留网络的卷积层的参数;将测试图片通过步骤1和步骤2操作后输入网络中,将步骤3中卷积层16的输出Pre_net求和,记为当前图片的目标数量。
CN201910984593.2A 2019-10-16 2019-10-16 尺度自适应感知的目标计数深度网络设计方法 Active CN110705698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910984593.2A CN110705698B (zh) 2019-10-16 2019-10-16 尺度自适应感知的目标计数深度网络设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910984593.2A CN110705698B (zh) 2019-10-16 2019-10-16 尺度自适应感知的目标计数深度网络设计方法

Publications (2)

Publication Number Publication Date
CN110705698A true CN110705698A (zh) 2020-01-17
CN110705698B CN110705698B (zh) 2023-07-25

Family

ID=69199619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910984593.2A Active CN110705698B (zh) 2019-10-16 2019-10-16 尺度自适应感知的目标计数深度网络设计方法

Country Status (1)

Country Link
CN (1) CN110705698B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640092A (zh) * 2020-05-20 2020-09-08 南京林业大学 基于多任务协同特征重建目标计数网络的方法
CN112862023A (zh) * 2021-04-26 2021-05-28 腾讯科技(深圳)有限公司 对象密度确定方法、装置、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301387A (zh) * 2017-06-16 2017-10-27 华南理工大学 一种基于深度学习的图像高密度人群计数方法
WO2019071370A1 (en) * 2017-10-09 2019-04-18 Intel Corporation FUSION OF MULTIMODAL AUTOMATIC LEARNING ANALYSIS CHARACTERISTICS

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301387A (zh) * 2017-06-16 2017-10-27 华南理工大学 一种基于深度学习的图像高密度人群计数方法
WO2019071370A1 (en) * 2017-10-09 2019-04-18 Intel Corporation FUSION OF MULTIMODAL AUTOMATIC LEARNING ANALYSIS CHARACTERISTICS

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640092A (zh) * 2020-05-20 2020-09-08 南京林业大学 基于多任务协同特征重建目标计数网络的方法
CN111640092B (zh) * 2020-05-20 2024-01-16 南京林业大学 基于多任务协同特征重建目标计数网络的方法
CN112862023A (zh) * 2021-04-26 2021-05-28 腾讯科技(深圳)有限公司 对象密度确定方法、装置、计算机设备和存储介质
WO2022228142A1 (zh) * 2021-04-26 2022-11-03 腾讯科技(深圳)有限公司 对象密度确定方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110705698B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN107358257B (zh) 一种大数据场景下可增量学习的图像分类训练方法
CN102982336B (zh) 识别模型生成方法和系统
CN114387520B (zh) 一种用于机器人采摘的密集李子精准检测方法及其系统
CN109949316A (zh) 一种基于rgb-t融合的电网设备图像弱监督实例分割方法
CN111340141A (zh) 一种基于深度学习的作物幼苗与杂草检测方法及系统
CN113538390B (zh) 一种柚子病虫害的快速识别方法
CN110942454A (zh) 一种农业图像语义分割方法
CN113657326A (zh) 一种基于多尺度融合模块和特征增强的杂草检测方法
CN110533100A (zh) 一种基于机器学习进行cme检测和跟踪的方法
CN114140665A (zh) 一种基于改进YOLOv5的密集小目标检测方法
CN115115830A (zh) 一种基于改进Transformer的家畜图像实例分割方法
CN110705698A (zh) 尺度自适应感知的目标计数深度网络设计方法
CN114202643A (zh) 基于多传感融合的苹果叶部病害识别终端及方法
CN113435254A (zh) 一种基于哨兵二号影像的耕地深度学习提取方法
Liu et al. Deep learning based research on quality classification of shiitake mushrooms
CN115050020A (zh) 一种基于改进Mask R-CNN草莓叶面积的智能视觉检测方法及系统
CN115330833A (zh) 一种改进多目标跟踪的果实产量估算方法
Zhong et al. Identification and depth localization of clustered pod pepper based on improved Faster R-CNN
Kiratiratanapruk et al. Automatic detection of rice disease in images of various leaf sizes
CN111401163B (zh) 基于多尺度注意力感知卷积网络的目标数量统计方法
CN116630828B (zh) 基于地形环境适配的无人机遥感信息采集系统及方法
CN117392535A (zh) 一种面向复杂环境的果树花芽目标检测与白点率估算方法
CN116563205A (zh) 基于小目标检测和改进YOLOv5的麦穗计数检测方法
CN113408374B (zh) 基于人工智能的产量预估方法、装置、设备及存储介质
Stanski et al. Flower detection using object analysis: new ways to quantify plant phenology in a warming tundra biome

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant