CN110705698A - 尺度自适应感知的目标计数深度网络设计方法 - Google Patents
尺度自适应感知的目标计数深度网络设计方法 Download PDFInfo
- Publication number
- CN110705698A CN110705698A CN201910984593.2A CN201910984593A CN110705698A CN 110705698 A CN110705698 A CN 110705698A CN 201910984593 A CN201910984593 A CN 201910984593A CN 110705698 A CN110705698 A CN 110705698A
- Authority
- CN
- China
- Prior art keywords
- convolutional layer
- output
- layer
- activation function
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种尺度自适应感知的目标计数深度网络设计方法,所述包括以下步骤:步骤1:制作训练和测试样本集合;将每个图片的目标标注生成真实标签,步骤2:将训练集和测试集的图片及其对应的真实标签进行尺寸调整,步骤3:建立尺度自适应感知目标计数深度网络模型;步骤4:将步骤2获得训练样本输入到步骤3建立的卷积网络模型中,通过Adam优化策略对网络进行参数学习,步骤5:深度网络模型测试。本发明设计了一种尺度自适应感知的目标计数深度网络设计方法,其在公共安全、交通、林业、农业等多个领域有着极其重要的应用价值。
Description
技术领域
本发明涉及图像处理和模式识别技术领域,尤其涉及尺度自适应感知的目标计数深度网络设计方法。
背景技术
目标计数是对图片或视频帧中场景内容的一种理解,其在生产生活中变得越来越重要。例如,对公共场所中人群的密度统计,会帮助工作人员及时管理、便于疏导人群,以防拥挤、踩踏事件的发生。对某些果树的果实或者植物进行统计,会帮助果农或者大型养殖场了解植物的生长密度以及产量情况。上述的目标统计将会对生产生活起着指导作用,帮助人们更好的处理存在的问题。
在图片或者视频帧中,由于拍摄视角的缘故,目标通常会有不同的视角。例如距离拍摄镜头近的物体尺度较大,相反较远的目标在图片中的尺度较小。这就需要设计的模型考虑目标多尺度的变化。但是由于不同的物体尺度不一样,所以在网络设计模型也需要自适应地条件感知的条件。基于以上分析,本发明提出了尺度自适应感知的目标计数深度网络设计方法。
发明内容
为了解决上述问题,本发明设计了尺度自适应感知的目标计数深度网络设计方法,该方法设计了自适应的尺度感知模块,使得网络可以自适应地调节尺度感知的范围,同时设计了分块的损失函数,以便更准确地预测更鲁棒的密度图。
为了实现上述目的,本发明采用了如下技术方案:
一种尺度自适应感知的目标计数深度网络设计方法,所述方法包括以下步骤:
步骤1:制作训练和测试样本集合;将每个图片的目标标注生成真实标签,其具体包括:
步骤101:通过搜索引擎搜集一个特定目标有关的词汇搜索目标图片,例如,通过‘人山人海’搜索人群,搜索‘汽车’搜索车辆等。或自行拍摄N张带有目标的图片。
步骤102:通过人工方式对步骤101的每张图片的每个目标进行标注,记录每个标注点的位置,进而建立一个特定目标相关数据集。
步骤103:首先将步骤102制作的数据集分为训练集和测试集;设数据集合总共有N个图片和与之对应的目标标注,记数据集合中的图片Dateset={I1,I2,...,IN}和与之对应的目标标注Labelset={l1,l2,...,lN};将前M个图片和它对应的目标标注设为训练集合,记训练图片为Traindate={I1,I2,...,IM}与之对应的标注Labeltrain={l1,l2,...,lM};同时将后N-M个图片和它对应的目标标注设为测试集合;记测试图片为Testdate={IM+1,IM+2,...,IN}与之对应的标注Labeltest={lM+1,lM+2,...,lN};
步骤104:将步骤103中第i个图片Ii转换成高斯密度图deni(x),可通过下述的公式进行计算:
步骤105:依次对步骤102中的第1张图片直至第N个图片执行步骤104的操作,将图片的标注转换成高斯密度图;从而将训练的标注Labeltrain映射为训练真实标签Labeltrain_new:Labeltrain_new={den1,den2,...,denM},将测试的标注Labeltest映射为测试真实标签Labeltest_new:Labletest_new={denM+1,denM+2,...,denN};
步骤2:将训练集和测试集的图片及其对应的真实标签进行尺寸调整,其具体包括:
步骤201:将图片的尺寸调整为8的整数倍;记第i个图片Ii的尺寸大小为(pi,qi);图片通过插值的方式将尺寸大小调整为8的整数倍,记图片Ii调整后的尺寸大小(xi,yi);调整的计算公式为xi=(pi%8)×8和yi=(qi%8)×8,其中%表示整除操作;
步骤202:将与图片对应的高斯密度图也进行尺度调整;第i个图片Ii对应的真实标签deni(m)的尺寸大小为(pi,qi),通过步骤201中的调整计算公式后得到调整后真实标签den_newi(m)的大小(xi,yi);为了使得目标数量保持不变,对调整后的真实标签进行如下操作:
步骤203:依次对步骤105中的第1张图片直至第N个图片的真实标签执行步骤202的操作;
步骤3:建立尺度自适应感知目标计数深度网络模型。网络的具体的模型给出如下:
卷积层1:使用64个3×3的卷积核去卷积输入为x×y×3的图像,经过ReLU激活函数后得到x×y×64的特征;
卷积层2:使用64个3×3的卷积核去卷积卷积层1的输出,经过ReLU激活函数和2×2的最大值池化层后得到(x%2)×(y%2)×64的特征;
卷积层3:使用128个3×3的卷积核去卷积卷积层2的输出,经过ReLU激活函数后得到(x%2)×(y%2)×128的特征;
卷积层4:使用128个3×3的卷积核去卷积卷积层3的输出,经过ReLU激活函数和2×2的最大值池化层后得到(x%2)×(y%2)×128的特征;
卷积层5:使用256个3×3的卷积核去卷积卷积层4的输出,经过ReLU激活函数后得到(x%4)×(y%4)×256的特征;
卷积层6:使用256个3×3的卷积核去卷积卷积层5的输出,经过ReLU激活函数后得到(x%4)×(y%4)×256的特征;
卷积层6_0_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_0_2:使用64个3×3的卷积核去卷积卷积层6_0_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_0_3:使用exp(a1)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_0_2的输出后得到(x%4)×(y%4)×64的特征;
卷积层6_1_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_1_2:使用64个5×5的卷积核(padding的大小为2)去卷积卷积层6_1_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_1_3:使用exp(a2)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_1_2的输出后得到(x%4)×(y%4)×64的特征;
卷积层6_2_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_2_2:使用64个7×7的卷积核(padding的大小为3)去卷积卷积层6_2_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_2_3:使用exp(a3)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_2_2的输出后得到(x%4)×(y%4)×64的特征;
聚集层1:将卷积层6_0_3的输出、卷积层6_1_3的输出和卷积层6_2_3的输出,沿着通道维级联,得到(x%4)×(y%4)×192的特征;
卷积层7:使用256个3×3的卷积核去卷积聚集层1的输出,经过ReLU激活函数层和2×2的最大值池化层后得到(x%8)×(y%8)×256的特征;
卷积层8:使用256个3×3的卷积核去卷积卷积层7的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层8_0_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_0_2:使用64个3×3的卷积核去卷积卷积层8_0_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_0_3:使用exp(b1)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_0_2的输出后得到(x%8)×(y%8)×64的特征;
卷积层8_1_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_1_2:使用64个5×5的卷积核(padding的大小为2)去卷积卷积层8_1_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_1_3:使用exp(b2)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_1_2的输出后得到(x%8)×(y%8)×64的特征;
卷积层8_2_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_2_2:使用64个7×7的卷积核(padding的大小为3)去卷积卷积层8_2_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_2_3:使用exp(b3)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_2_2的输出后得到(x%8)×(y%8)×64的特征;
聚集层2:将卷积层8_0_3的输出、卷积层8_1_3的输出和卷积层8_2_3的输出,沿着通道维级联,得到(x%8)×(y%8)×192的特征;
卷积层9:使用256个3×3的卷积核去卷积聚集层2的输出,经过ReLU激活函数层和3×1×1的最大值池化层后得到(x%8)×(y%8)×256的特征;
卷积层10:使用256个3×3的卷积核去卷积聚集层2的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层11:使用256个3×3的卷积核去卷积卷积层10的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层12:使用256个3×3的卷积核去卷积卷积层11的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层13:使用256个3×3的卷积核去卷积卷积层12的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层14:使用256个3×3的卷积核去卷积卷积层13的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层15:使用256个3×3的卷积核去卷积卷积层14的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层16:使用1个1×1的卷积核去卷积卷积层15的输出,得到(x%8)×(y%8×)的特征。在该网络中,本发明设计了尺度归一化的操作,以帮助网络学习归一化的尺度特征,使得网络可以从不同的分辨率中学习不同尺度的特征。
步骤4:将步骤2获得训练样本输入到步骤3建立的卷积网络模型中,通过Adam优化策略对网络进行参数学习,具体包含如下的步骤:
步骤401:本发明设计的网络采取多任务的方式对网络参数进行训练,设置网络的初始学习率为l;
步骤402:记步骤3建立的网络模型的参数为Θ,其中步骤3中卷积层16的输出为Pre_net,网络中的运算表示为f(g),则网络的输出可表示为Pre_net=f(Θ)
使用步骤203给出的标签,对网络的参数进行学习,损失函数记为:
其中先将deni和den_newi(x)等同地平分成U个块,Tk、GTk分别表示deni和den_newi(x)第k个块;Tk.sum()表示对Tk里的元素求加和;abs(g)表示求绝对值;λ1,λ2是超参数。该损失函数使得网络可以关注整体的密度分布,也可以学习局部人数的变化,这有助于网络从两个不同的角度回归更加准确的人数。
步骤5:深度网络模型测试;网络经步骤4训练完成后,保留网络的卷积层的参数;将测试图片通过步骤1和步骤2操作后输入网络中,将步骤3中卷积层16的输出Pre_net求和,记为当前图片的目标数量。
相对于现有技术,本发明的有益效果如下:
1)本发明设计了自适应的尺度感知模块,通过学习不同的参数帮助网络提取更加鲁棒的尺度特征,同时该参数经过归一化,避免参数过大或者过小,以影响网络的鲁棒性;
2)本发明设计了分块的损失函数,使得网络不仅关注整体的密度,而且也关注局部的密度,这帮助网络获取更加鲁棒的密度图。
附图说明
图1为本发明中深度网络模型的框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1:参照图1,一种尺度自适应感知的目标计数深度网络设计方法,包括以下步骤:
步骤1:制作训练和测试样本集合;将每个图片的目标标注生成真实标签,其具体包括:
步骤101:通过搜索引擎搜集一个特定目标有关的词汇搜索目标图片,例如,通过‘人山人海’搜索人群,搜索‘汽车’搜索车辆等。或自行拍摄N张带有目标的图片。
步骤102:通过人工方式对步骤101的每张图片的每个目标进行标注,记录每个标注点的位置,进而建立一个特定目标相关数据集;
步骤103:首先将步骤102制作的数据集分为训练集和测试集;设数据集合总共有N个图片和与之对应的目标标注,记数据集合中的图片Dateset={I1,I2,...,IN}和与之对应的目标标注Labelset={l1,l2,...,lN};将前M个图片和它对应的目标标注设为训练集合,记训练图片为Traindate={I1,I2,...,IM}与之对应的标注Labeltrain={l1,l2,...,lM};同时将后N-M个图片和它对应的目标标注设为测试集合;记测试图片为Testdate={IM+1,IM+2,...,IN}与之对应的标注Labeltest={lM+1,lM+2,...,lN};
步骤104:将步骤103中第i个图片Ii转换成高斯密度图deni(x),可通过下述的公式进行计算:
步骤105:依次对步骤102中的第1张图片直至第N个图片执行步骤104的操作,将图片的标注转换成高斯密度图;从而将训练的标注Labeltrain映射为训练真实标签Labeltrain_new:Labeltrain_new={den1,den2,...,denM},将测试的标注Labeltest映射为测试真实标签Labeltest_new:Labletest_new={denM+1,denM+2,...,denN};
步骤2:将训练集和测试集的图片及其对应的真实标签进行尺寸调整,其具体包括:
步骤201:将图片的尺寸调整为8的整数倍;记第i个图片Ii的尺寸大小为(pi,qi);图片通过插值的方式将尺寸大小调整为8的整数倍,记图片Ii调整后的尺寸大小(xi,yi);调整的计算公式为xi=(pi%8)×8和yi=(qi%8)×8,其中%表示整除操作;
步骤202:将与图片对应的高斯密度图也进行尺度调整;第i个图片Ii对应的真实标签deni(m)的尺寸大小为(pi,qi),通过步骤201中的调整计算公式后得到调整后真实标签den_newi(m)的大小(xi,yi);为了使得目标数量保持不变,对调整后的真实标签进行如下操作:
步骤203:依次对步骤105中的第1张图片直至第N个图片的真实标签执行步骤202的操作;
步骤3:建立尺度自适应感知目标计数深度网络模型,网络的具体的模型给出如下:
卷积层1:使用64个3×3的卷积核去卷积输入为x×y×3的图像,经过ReLU激活函数后得到x×y×64的特征;
卷积层2:使用64个3×3的卷积核去卷积卷积层1的输出,经过ReLU激活函数和2×2的最大值池化层后得到(x%2)×(y%2)×64的特征;
卷积层3:使用128个3×3的卷积核去卷积卷积层2的输出,经过ReLU激活函数后得到(x%2)×(y%2)×128的特征;
卷积层4:使用128个3×3的卷积核去卷积卷积层3的输出,经过ReLU激活函数和2×2的最大值池化层后得到(x%2)×(y%2)×128的特征;
卷积层5:使用256个3×3的卷积核去卷积卷积层4的输出,经过ReLU激活函数后得到(x%4)×(y%4)×256的特征;
卷积层6:使用256个3×3的卷积核去卷积卷积层5的输出,经过ReLU激活函数后得到(x%4)×(y%4)×256的特征;
卷积层6_0_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_0_2:使用64个3×3的卷积核去卷积卷积层6_0_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_0_3:使用exp(a1)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_0_2的输出后得到(x%4)×(y%4)×64的特征;
卷积层6_1_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_1_2:使用64个5×5的卷积核(padding的大小为2)去卷积卷积层6_1_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_1_3:使用exp(a2)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_1_2的输出后得到(x%4)×(y%4)×64的特征;
卷积层6_2_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_2_2:使用64个7×7的卷积核(padding的大小为3)去卷积卷积层6_2_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_2_3:使用exp(a3)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_2_2的输出后得到(x%4)×(y%4)×64的特征;
聚集层1:将卷积层6_0_3的输出、卷积层6_1_3的输出和卷积层6_2_3的输出,沿着通道维级联,得到(x%4)×(y%4)×192的特征;
卷积层7:使用256个3×3的卷积核去卷积聚集层1的输出,经过ReLU激活函数层和2×2的最大值池化层后得到(x%8)×(y%8)×256的特征;
卷积层8:使用256个3×3的卷积核去卷积卷积层7的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层8_0_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_0_2:使用64个3×3的卷积核去卷积卷积层8_0_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_0_3:使用exp(b1)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_0_2的输出后得到(x%8)×(y%8)×64的特征;
卷积层8_1_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_1_2:使用64个5×5的卷积核(padding的大小为2)去卷积卷积层8_1_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_1_3:使用exp(b2)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_1_2的输出后得到(x%8)×(y%8)×64的特征;
卷积层8_2_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_2_2:使用64个7×7的卷积核(padding的大小为3)去卷积卷积层8_2_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_2_3:使用exp(b3)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_2_2的输出后得到(x%8)×(y%8)×64的特征;
聚集层2:将卷积层8_0_3的输出、卷积层8_1_3的输出和卷积层8_2_3的输出,沿着通道维级联,得到(x%8)×(y%8)×192的特征;
卷积层9:使用256个3×3的卷积核去卷积聚集层2的输出,经过ReLU激活函数层和3×1×1的最大值池化层后得到(x%8)×(y%8)×256的特征;
卷积层10:使用256个3×3的卷积核去卷积聚集层2的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层11:使用256个3×3的卷积核去卷积卷积层10的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层12:使用256个3×3的卷积核去卷积卷积层11的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层13:使用256个3×3的卷积核去卷积卷积层12的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层14:使用256个3×3的卷积核去卷积卷积层13的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层15:使用256个3×3的卷积核去卷积卷积层14的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层16:使用1个1×1的卷积核去卷积卷积层15的输出,得到(x%8)×(y%8×)的特征;
步骤4:将步骤2获得训练样本输入到步骤3建立的卷积网络模型中,通过Adam优化策略对网络进行参数学习,具体包含如下的步骤:
步骤401:本发明设计的网络采取多任务的方式对网络参数进行训练,设置网络的初始学习率为l;
步骤402:记步骤3建立的网络模型的参数为Θ,其中步骤3中卷积层16的输出为Pre_net,网络中的运算表示为f(g),则网络的输出可表示为
Pre_net=f(Θ)
使用步骤203给出的标签,对网络的参数进行学习,损失函数记为:
其中先将deni和den_newi(x)等同地平分成U个块,Tk、GTk分别表示deni和den_newi(x)第k个块;Tk.sum()表示对Tk里的元素求加和;abs(g)表示求绝对值;λ1,λ2是超参数;
步骤5:深度网络模型测试;网络经步骤4训练完成后,保留网络的卷积层的参数;将测试图片通过步骤1和步骤2操作后输入网络中,将步骤3中卷积层16的输出Pre_net求和,记为当前图片的目标数量。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种尺度自适应感知的目标计数深度网络设计方法,其特征在于,所述方法包括以下步骤:
步骤1:制作训练和测试样本集合,将每个图片的目标标注生成真实标签;
步骤2:将训练集和测试集的图片及其对应的真实标签进行尺寸调整;
步骤3:建立尺度自适应感知目标计数深度网络模型;
步骤4:将步骤2获得训练样本输入到步骤3建立的卷积网络模型中,通过Adam优化策略对网络进行参数学习;
步骤5:深度网络模型测试;网络经步骤4训练完成后,保留网络的卷积层的参数;将测试图片通过步骤1和步骤2操作后输入网络中,将步骤3中卷积层16的输出Pre_net求和,记为当前图片的目标数量。
2.根据权利要求1所述的尺度自适应感知的目标计数深度网络设计方法,其特征在于,所述步骤1具体如下:
步骤101:通过搜索引擎搜集一个特定目标有关的词汇搜索目标图片,或自行拍摄N张带有目标的图片;
步骤102:通过人工方式对步骤101的每张图片的每个目标进行标注,记录每个标注点的位置,进而建立一个特定目标相关数据集;
步骤103:首先将步骤102制作的数据集分为训练集和测试集;设数据集合总共有N个图片和与之对应的目标标注,记数据集合中的图片Dateset={I1,I2,...,IN}和与之对应的目标标注Labelset={l1,l2,...,lN};将前M个图片和它对应的目标标注设为训练集合,记训练图片为Traindate={I1,I2,...,IM}与之对应的标注Labeltrain={l1,l2,...,lM};同时将后N-M个图片和它对应的目标标注设为测试集合;记测试图片为Testdate={IM+1,IM+2,...,IN}与之对应的标注Labeltest={lM+1,lM+2,...,lN};
步骤104:将步骤103中第i个图片Ii转换成高斯密度图deni(x),可通过下述的公式进行计算:
步骤105:依次对步骤102中的第1张图片直至第N个图片执行步骤104的操作,将图片的标注转换成高斯密度图;从而将训练的标注Labeltrain映射为训练真实标签Labeltrain_new:Labeltrain_new={den1,den2,...,denM},将测试的标注Labeltest映射为测试真实标签Labeltest_new:Labletest_new={denM+1,denM+2,...,denN}。
3.根据权利要求1所述的尺度自适应感知的目标计数深度网络设计方法,其特征在于,所述步骤2具体如下,
步骤201:将图片的尺寸调整为8的整数倍;记第i个图片Ii的尺寸大小为(pi,qi);图片通过插值的方式将尺寸大小调整为8的整数倍,记图片Ii调整后的尺寸大小(xi,yi);调整的计算公式为xi=(pi%8)×8和yi=(qi%8)×8,其中%表示整除操作;
步骤202:将与图片对应的高斯密度图也进行尺度调整;第i个图片Ii对应的真实标签deni(m)的尺寸大小为(pi,qi),通过步骤201中的调整计算公式后得到调整后真实标签den_newi(m)的大小(xi,yi);为了使得目标数量保持不变,对调整后的真实标签进行如下操作;
步骤203:依次对步骤105中的第1张图片直至第N个图片的真实标签执行步骤202的操作。
4.根据权利要求1所述的尺度自适应感知的目标计数深度网络设计方法,其特征在于,所述步骤3建立尺度自适应感知目标计数深度网络模型,网络的具体的模型给出如下:
卷积层1:使用64个3×3的卷积核去卷积输入为x×y×3的图像,经过ReLU激活函数后得到x×y×64的特征;
卷积层2:使用64个3×3的卷积核去卷积卷积层1的输出,经过ReLU激活函数和2×2的最大值池化层后得到(x%2)×(y%2)×64的特征;
卷积层3:使用128个3×3的卷积核去卷积卷积层2的输出,经过ReLU激活函数后得到(x%2)×(y%2)×128的特征;
卷积层4:使用128个3×3的卷积核去卷积卷积层3的输出,经过ReLU激活函数和2×2的最大值池化层后得到(x%2)×(y%2)×128的特征;
卷积层5:使用256个3×3的卷积核去卷积卷积层4的输出,经过ReLU激活函数后得到(x%4)×(y%4)×256的特征;
卷积层6:使用256个3×3的卷积核去卷积卷积层5的输出,经过ReLU激活函数后得到(x%4)×(y%4)×256的特征;
卷积层6_0_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_0_2:使用64个3×3的卷积核去卷积卷积层6_0_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_0_3:使用exp(a1)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_0_2的输出后得到(x%4)×(y%4)×64的特征;
卷积层6_1_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_1_2:使用64个5×5的卷积核(padding的大小为2)去卷积卷积层6_1_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_1_3:使用exp(a2)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_1_2的输出后得到(x%4)×(y%4)×64的特征;
卷积层6_2_1:使用64个1×1的卷积核去卷积卷积层6的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_2_2:使用64个7×7的卷积核(padding的大小为3)去卷积卷积层6_2_1的输出,经过ReLU激活函数后得到(x%4)×(y%4)×64的特征;
卷积层6_2_3:使用exp(a3)/(exp(a1)+exp(a2)+exp(a3))乘以卷积层6_2_2的输出后得到(x%4)×(y%4)×64的特征;
聚集层1:将卷积层6_0_3的输出、卷积层6_1_3的输出和卷积层6_2_3的输出,沿着通道维级联,得到(x%4)×(y%4)×192的特征;
卷积层7:使用256个3×3的卷积核去卷积聚集层1的输出,经过ReLU激活函数层和2×2的最大值池化层后得到(x%8)×(y%8)×256的特征;
卷积层8:使用256个3×3的卷积核去卷积卷积层7的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层8_0_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_0_2:使用64个3×3的卷积核去卷积卷积层8_0_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_0_3:使用exp(b1)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_0_2的输出后得到(x%8)×(y%8)×64的特征;
卷积层8_1_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_1_2:使用64个5×5的卷积核(padding的大小为2)去卷积卷积层8_1_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_1_3:使用exp(b2)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_1_2的输出后得到(x%8)×(y%8)×64的特征;
卷积层8_2_1:使用64个1×1的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_2_2:使用64个7×7的卷积核(padding的大小为3)去卷积卷积层8_2_1的输出,经过ReLU激活函数后得到(x%8)×(y%8)×64的特征;
卷积层8_2_3:使用exp(b3)/(exp(b1)+exp(b2)+exp(b3))乘以卷积层8_2_2的输出后得到(x%8)×(y%8)×64的特征;
聚集层2:将卷积层8_0_3的输出、卷积层8_1_3的输出和卷积层8_2_3的输出,沿着通道维级联,得到(x%8)×(y%8)×192的特征;
卷积层9:使用256个3×3的卷积核去卷积聚集层2的输出,经过ReLU激活函数层和3×1×1的最大值池化层后得到(x%8)×(y%8)×256的特征;
卷积层10:使用256个3×3的卷积核去卷积聚集层2的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层11:使用256个3×3的卷积核去卷积卷积层10的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层12:使用256个3×3的卷积核去卷积卷积层11的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层13:使用256个3×3的卷积核去卷积卷积层12的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层14:使用256个3×3的卷积核去卷积卷积层13的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层15:使用256个3×3的卷积核去卷积卷积层14的输出,经过ReLU激活函数后得到(x%8)×(y%8)×256的特征;
卷积层16:使用1个1×1的卷积核去卷积卷积层15的输出,得到(x%8)×(y%8)×1的特征。
5.根据权利要求1所述的尺度自适应感知的目标计数深度网络设计方法,其特征在于,所述步骤4:将步骤2获得训练样本输入到步骤3建立的卷积网络模型中,通过Adam优化策略对网络进行参数学习,具体包含如下的步骤:
步骤401:网络采取多任务的方式对网络参数进行训练,设置网络的初始学习率为l;
步骤402:记步骤3建立的网络模型的参数为Θ,其中步骤3中卷积层16的输出为Pre_net,网络中的运算表示为f(g),则网络的输出可表示为
Pre_net=f(Θ);
使用步骤203给出的标签,对网络的参数进行学习,损失函数记为:
其中先将deni和den_newi(x)等同地平分成U个块,Tk、GTk分别表示deni和den_newi(x)第k个块;Tk.sum()表示对Tk里的元素求加和;abs(g)表示求绝对值;λ1,λ2是超参数。
6.根据权利要求5所述的尺度自适应感知的目标计数深度网络设计方法,其特征在于,网络经步骤4训练完成后,保留网络的卷积层的参数;将测试图片通过步骤1和步骤2操作后输入网络中,将步骤3中卷积层16的输出Pre_net求和,记为当前图片的目标数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910984593.2A CN110705698B (zh) | 2019-10-16 | 2019-10-16 | 尺度自适应感知的目标计数深度网络设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910984593.2A CN110705698B (zh) | 2019-10-16 | 2019-10-16 | 尺度自适应感知的目标计数深度网络设计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110705698A true CN110705698A (zh) | 2020-01-17 |
CN110705698B CN110705698B (zh) | 2023-07-25 |
Family
ID=69199619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910984593.2A Active CN110705698B (zh) | 2019-10-16 | 2019-10-16 | 尺度自适应感知的目标计数深度网络设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705698B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640092A (zh) * | 2020-05-20 | 2020-09-08 | 南京林业大学 | 基于多任务协同特征重建目标计数网络的方法 |
CN112862023A (zh) * | 2021-04-26 | 2021-05-28 | 腾讯科技(深圳)有限公司 | 对象密度确定方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301387A (zh) * | 2017-06-16 | 2017-10-27 | 华南理工大学 | 一种基于深度学习的图像高密度人群计数方法 |
WO2019071370A1 (en) * | 2017-10-09 | 2019-04-18 | Intel Corporation | FUSION OF MULTIMODAL AUTOMATIC LEARNING ANALYSIS CHARACTERISTICS |
-
2019
- 2019-10-16 CN CN201910984593.2A patent/CN110705698B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301387A (zh) * | 2017-06-16 | 2017-10-27 | 华南理工大学 | 一种基于深度学习的图像高密度人群计数方法 |
WO2019071370A1 (en) * | 2017-10-09 | 2019-04-18 | Intel Corporation | FUSION OF MULTIMODAL AUTOMATIC LEARNING ANALYSIS CHARACTERISTICS |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640092A (zh) * | 2020-05-20 | 2020-09-08 | 南京林业大学 | 基于多任务协同特征重建目标计数网络的方法 |
CN111640092B (zh) * | 2020-05-20 | 2024-01-16 | 南京林业大学 | 基于多任务协同特征重建目标计数网络的方法 |
CN112862023A (zh) * | 2021-04-26 | 2021-05-28 | 腾讯科技(深圳)有限公司 | 对象密度确定方法、装置、计算机设备和存储介质 |
WO2022228142A1 (zh) * | 2021-04-26 | 2022-11-03 | 腾讯科技(深圳)有限公司 | 对象密度确定方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110705698B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107358257B (zh) | 一种大数据场景下可增量学习的图像分类训练方法 | |
CN102982336B (zh) | 识别模型生成方法和系统 | |
CN114387520B (zh) | 一种用于机器人采摘的密集李子精准检测方法及其系统 | |
CN109949316A (zh) | 一种基于rgb-t融合的电网设备图像弱监督实例分割方法 | |
CN111340141A (zh) | 一种基于深度学习的作物幼苗与杂草检测方法及系统 | |
CN113538390B (zh) | 一种柚子病虫害的快速识别方法 | |
CN110942454A (zh) | 一种农业图像语义分割方法 | |
CN113657326A (zh) | 一种基于多尺度融合模块和特征增强的杂草检测方法 | |
CN110533100A (zh) | 一种基于机器学习进行cme检测和跟踪的方法 | |
CN114140665A (zh) | 一种基于改进YOLOv5的密集小目标检测方法 | |
CN115115830A (zh) | 一种基于改进Transformer的家畜图像实例分割方法 | |
CN110705698A (zh) | 尺度自适应感知的目标计数深度网络设计方法 | |
CN114202643A (zh) | 基于多传感融合的苹果叶部病害识别终端及方法 | |
CN113435254A (zh) | 一种基于哨兵二号影像的耕地深度学习提取方法 | |
Liu et al. | Deep learning based research on quality classification of shiitake mushrooms | |
CN115050020A (zh) | 一种基于改进Mask R-CNN草莓叶面积的智能视觉检测方法及系统 | |
CN115330833A (zh) | 一种改进多目标跟踪的果实产量估算方法 | |
Zhong et al. | Identification and depth localization of clustered pod pepper based on improved Faster R-CNN | |
Kiratiratanapruk et al. | Automatic detection of rice disease in images of various leaf sizes | |
CN111401163B (zh) | 基于多尺度注意力感知卷积网络的目标数量统计方法 | |
CN116630828B (zh) | 基于地形环境适配的无人机遥感信息采集系统及方法 | |
CN117392535A (zh) | 一种面向复杂环境的果树花芽目标检测与白点率估算方法 | |
CN116563205A (zh) | 基于小目标检测和改进YOLOv5的麦穗计数检测方法 | |
CN113408374B (zh) | 基于人工智能的产量预估方法、装置、设备及存储介质 | |
Stanski et al. | Flower detection using object analysis: new ways to quantify plant phenology in a warming tundra biome |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |