CN113313091B - 仓储物流下的基于多重注意力和拓扑约束的密度估计方法 - Google Patents
仓储物流下的基于多重注意力和拓扑约束的密度估计方法 Download PDFInfo
- Publication number
- CN113313091B CN113313091B CN202110860327.6A CN202110860327A CN113313091B CN 113313091 B CN113313091 B CN 113313091B CN 202110860327 A CN202110860327 A CN 202110860327A CN 113313091 B CN113313091 B CN 113313091B
- Authority
- CN
- China
- Prior art keywords
- feature map
- module
- convolution
- attention
- conv
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06M—COUNTING MECHANISMS; COUNTING OF OBJECTS NOT OTHERWISE PROVIDED FOR
- G06M1/00—Design features of general application
- G06M1/27—Design features of general application for representing the result of count in the form of electric signals, e.g. by sensing markings on the counter drum
- G06M1/272—Design features of general application for representing the result of count in the form of electric signals, e.g. by sensing markings on the counter drum using photoelectric means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
一种仓储物流下的基于多重注意力和拓扑约束的密度估计方法,模型中的多重注意力模块可以对目标物体和背景进行区分,让模型更关注目标物体区域。模型中的细节增强模块提取利用小尺寸卷积核提取细节特征,利用多分支多尺寸卷积核提取多尺度特征。通过堆叠卷积核和使用空洞卷积增大感受野。从而提高了模型的计数精确度。利用拓扑约束损失可以使模型学习目标物体与附近目标物体,目标物体自身的空间约束关系,解决同一目标物体多次预测,同一位置多个预测目标物体的语义问题。同时拓扑约束损失加入目标物体计数损失,进一步降低了模型估计目标物体数量的准确性。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种仓储物流下的基于多重注意力和拓扑约束的密度估计方法。
背景技术
近年来,随着社会的不断发展,科技变化也日新月异。随着物联网电子设备以及通信设备的不断发展,各项人工智能技术也让人们的生活变得更加便捷与美好。从智能手机的更新换代到智能家居的兴起,从辅助驾驶的逐渐落地到实现无人驾驶的研究热潮,再到大量出现的无人超市与逐渐兴起的无人派送。随着计算机软硬件的不断发展特别是GPU的发展,再加上大数据技术的不断推进,深度学习引领着人工智能与计算机视觉领域进入了发展黄金期。而目标密度估计也正是计算机视觉领域的一项重要研究内容。目标密度估计实际上就是估计指定目标在图像或视频中的密度分布情况,统计目标数量。
目标密度估计系统可以应用到社会生产与生活中方方面面。例如,超市中货架商品计数,智慧仓储中的货物计件,物流运输的钢管、原木等目标的数量统计。由于它应用的广泛性,目标密度估计已经成为了计算机视觉领域的一个热门研究方向。
早期,自动化系统发展还不够成熟,应用也不够广泛,目标的统计分析工作基本上完全是由人工完成。一方面,人如果长时间处于高度集中的工作中,人的眼睛和大脑会产生疲劳感,容易精力不集中,那么在工作过程中就会不可避免的出现错误,最后会影响结果统计的精确性,另一方面,人工操作会使统计分析结果带有很强的主观判断,最后会影响到分析结果的客观性。因此,不论是在哪一个应用领域,如果人工操作存在的问题不能得到妥善解决,都会有可能导致严重的经济损失。
后来出现了基于光阻法和电阻法的物体计数器。其工作原理是当物体进入到敏感区之后,它会隔断计数器的光路,因此改变了光电接收器上接收到的光电强度,计数器将变化了的光电信息转换成电压脉冲信号,以此来达到对目标计数的目的。由于光电管响应具有滞后性,往往多个物体目标物体已经通过敏感区,仪器才开始响应。对于复杂重叠的目标物体,光电管计数方式容易出现漏记的情况。另外光电管的灵敏度很容易衰减,需要经常更换,增加了计数成本。
随着图像技术的发展,结合图像处理的目标计数方式成为研究的热点。由于物体目标之间相互靠的太近时,会出现粘连和重叠的现象,形成多种形态的组合结构,要完成对物体目标的特征提取与分析,就需要将该区域分割成具有清晰轮廓的单个物体。近年来,国内外学者根据不同的目标对象开展了各种相应的分割算法的研究,大体上可以分为基于形态学的分割算法、基于边缘轮廓的分割算法和其他分割算法。
早期的图像技术需要人为的设计特征模式,用于提取图像中目标的特征。这种传统手工特征需要根据数据的特点精心设计,虽然是在众多的视觉神经理论依据下,但是难免有人为的想当然的成分。设计的特征模式往往依赖于数据库,也就是说设计的特征只对某些数据库表现好,而对其它的数据库效果并不能保证就好。或者当数据来源发生变化,比如对RGB数据设计的特征换成Kinect深度图像,这些特征点就不一定适应了,因此又得重新设计。基于目标检测或者分割的方法虽然可以精确的标出目标物体的位置,但却不能描述目标物体的空间分布情况,从而弱化了其在实际场景中的应用范围。而且计数性能也会随着局部目标物体数量的增加而急剧下降。
2012年, 由于AlexNet在被誉为计算机视觉中的奥林匹克竞赛的 ImageNet中获得了巨大的成功。所以很多研究人员逐渐将研究领域转到了深度学习,基于卷积神经网络进行目标检测的相关方法不断的提出,卷积神经网络在目标计数领域掀起了一波波热潮。
发明内容
本发明为了克服以上技术的不足,提供了一种计数准确度高、可以解决目标物体之间遮挡导致无法识别的仓储物流下的基于多重注意力和拓扑约束的密度估计方法。
本发明克服其技术问题所采用的技术方案是:
一种仓储物流下的基于多重注意力和拓扑约束的密度估计方法,包括如下步骤:
(a)计算机获取计数目标物体的原始图像,对原始图像进行预处理,用于模型的训练和测试;
(b)构建密度估计模型并对模型进行初始化,将训练样本输入密度估计模型中,通过最小化损失函数优化密度估计模型;
(c)固定优化后的密度估计模型,并将密度估计模型部署至服务器;
(d)图像采集设备采集图像输入密度估计模型,得到图像中物体的个数。
进一步的,步骤(a)中预处理的方法为:采用labeling标注工具标注计数目标物体的原始图片,标注方式为在目标物体的类圆形状的几何中使用一个像素点标注位置,将标注后的每幅图像生成一个记录标注像素点位置的npy文件。
进一步的,步骤(b)包括如下步骤:
(b-1)构建Conv-5、Conv-4、Conv-3和Conv-1,2的卷积层、批归一化层和激活层,通过VGG-16网络架构预训练Conv-5、Conv-4、Conv-3和Conv-1,2中的10层卷积层的权重参数,Conv-5卷积组的输出分别连接RMBB-1模块和MLA-1模块,Conv-4卷积组的输出分别连接RMBB-2模块和MLA-2模块,Conv-3卷积组的输出分别连接RMBB-3模块和MLA-3模块,将RMBB-1模块与MLA-1模块的输出进行相乘操作后进行双线性插值操作,将RMBB-2模块与MLA-2模块的输出进行相乘操作后与上采样结果相加并连接上采样操作和卷积,将RMBB-3模块与MLA-3模块的输出进行相乘操作后与卷积做加法运算后连接上采样操作和卷积,卷积后与Conv-1,2输出相加,将相加结果连接上采样操作和卷积,完成密度估计模型的构建,密度估计模型中除了Conv-5、Conv-4、Conv-3和Conv-1,2的卷积层之外的其它网络参数采用随机初始化的方式进行参数初始化,MLA-1模块、MLA-2模块和MLA-3模块均为多重注意力模块;
(b-3)初级特征图经过RMBB-1模块得到细节增强特征图,将初级特征图输入MLA-1模块,在空间维度上对初级特征图分别进行最大值池化操作和均值池化操作,得到特征图和特征图,将特征图和特征图经过共享的卷积提取通道上的注意力信息,分别得到和,将和相加后经过sigmoid激活得到注意力权重,将与初级特征图相乘得到经过通道维度注意力优化的特征图,将特征图在通道上分别求最大值和均值,得到和,将和在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重,将空间注意力权重经过sigmoid激活之后与特征图相乘,得到经过时空维度注意力优化的特征图;
(b-5)初级特征图经过RMBB-2模块得到细节增强特征图,将初级特征图输入MLA-2模块,在空间维度上对初级特征图分别进行最大值池化操作和均值池化操作,得到特征图和特征图,将特征图和特征图经过共享的卷积提取通道上的注意力信息,分别得到和,将和相加后经过sigmoid激活之后得到注意力权重,将与初级特征图相乘得到经过通道维度注意力优化的特征图,将特征图在通道上分别求最大值和均值,得到和,将和在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重,将空间注意力权重经过sigmoid激活之后与特征图相乘,得到经过时空维度注意力优化的特征图;
(b-7)初级特征图经过RMBB-3模块得到细节增强特征图,将初级特征图输入MLA-3模块,在空间维度上对初级特征图分别进行最大值池化操作和均值池化操作,得到特征图和特征图,将特征图和特征图经过共享的卷积提取通道上的注意力信息,分别得到和,将和相加后经过sigmoid激活之后得到注意力权重,将与初级特征图相乘得到经过通道维度注意力优化的特征图,将特征图在通道上分别求最大值和均值,得到和,将和在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重,将空间注意力权重经过sigmoid激活之后与特征图相乘,得到经过时空维度注意力优化的特征图;
进一步的,步骤(b-1)中的RMBB-1模块、RMBB-2模块和RMBB-3模块均由五个多分支模块以残差的方式连接而成,每个多分支模块后面使用ReLu激活函数激活,每个多分支模块由多尺寸小卷积核堆叠而成,每个多分支模块通过一层的卷积层卷积,第一个多分支模块经过的卷积层卷积后连接空洞率为1的卷积层,第二个多分支模块经过的卷积层卷积后依次连接的卷积层和空洞率为3的卷积层,第三个多分支模块经过的卷积层卷积后依次连接的卷积层、的卷积层和空洞率为3的卷积层,第四个多分支模块经过的卷积层卷积后依次连接的卷积层和空洞率为5的卷积层,将第一多分支模块的结果、第二多分支模块的结果、第三多分支模块的结果和第四多分支模块的结果在通道维度拼接,拼接后使用的卷积降维,将结果与第五多分支模块经过的卷积层卷积后的结果相加,将相加结果经过ReLu激活输出。
本发明的有益效果是:采用深度神经网络来挖掘图像更深、更为抽象的特征,模型更加精确。采用基于密度图回归的技术方法,在提高计数精度的同时可以估计目标物体的分布情况。以密度图作为回归目标,无需检测整个目标物体,可以解决目标物体之间遮挡导致目标物体形态变化,无法识别的问题。模型估计的密度图除了可以统计出目标物体数量之外,也可反映出目标物体的分布情况。计数更加灵活,只需要对密度图上和图像中需要统计的对应区域积分就可以得到相应区域的目标物体数量。模型中的多重注意力模块可以对目标物体和背景进行区分,让模型更关注目标物体区域。模型中的细节增强模块利用小尺寸卷积核提取细节特征,利用多分支多尺寸卷积核提取多尺度特征。通过堆叠卷积核和使用空洞卷积增大感受野。从而提高了模型的计数精确度。利用拓扑约束损失可以使模型学习目标物体与附近目标物体,目标物体自身的空间约束关系,解决同一目标物体多次预测,同一位置多个预测目标物体的语义问题。同时拓扑约束损失加入目标物体计数损失,进一步提高了模型估计目标物体数量的准确性。
附图说明
图1为本发明的方法流程图;
图2为本发明的模型结构图;
图3为本发明的残差多分支结构图;
图4为本发明的多分支结构图;
图5为本发明的待计数的目标图像;
图6为本发明的labeling标注工具进行点标注的图像;
图7为本发明的将RMBB-1特征图输出为密度图;
图8为本发明的MLA-1注意力图可视化后的图像;
图9为本发明的模型输出密度似然图。
具体实施方式
下面结合附图1至附图4对本发明做进一步说明。
一种仓储物流下的基于多重注意力和拓扑约束的密度估计方法,包括如下步骤:
(a)计算机获取计数目标物体的原始图像,对原始图像进行预处理,用于模型的训练和测试。
(b)构建密度估计模型并对模型进行初始化,将训练样本输入密度估计模型中,通过最小化损失函数优化密度估计模型。
(c)固定优化后的密度估计模型,并将密度估计模型部署至服务器。
(d)图像采集设备采集图像输入密度估计模型,得到图像中物体的个数。
采集设备可以是手机,其更简单,易部署。甚至可以直接利用广泛部署的监控摄像头采集的视频计数,而不需要额外增加采集设备。而且可以应用到更大的计数场景。采用深度神经网络来挖掘图像更深、更为抽象的特征,模型更加精确。采用基于密度图回归的技术方法,在提高计数精度的同时可以估计目标物体的分布情况。以密度图作为回归目标,无需检测整个目标物体,可以解决目标物体之间遮挡导致目标物体形态变化,无法识别的问题。模型估计的密度图除了可以统计出目标物体数量之外,也可反映出目标物体的分布情况。计数更加灵活,只需要对密度图上和图像中需要统计的对应区域积分就可以得到相应区域的目标物体数量。图像的低层具有丰富轮廓、边缘、颜色、纹理等特征,高层的特征具有丰富的语义信息,所以本发明将底层特征和高层特征融合使用增强特征的表征能力。模型中的多重注意力模块可以对目标物体和背景进行区分,让模型更关注目标物体区域。模型中的细节增强模块利用小尺寸卷积核提取细节特征,利用多分支多尺寸卷积核提取多尺度特征。通过堆叠卷积核和使用空洞卷积增大感受野。从而提高了模型的计数精确度。利用拓扑约束损失可以使模型学习目标物体与附近目标物体,目标物体自身的空间约束关系,解决同一目标物体多次预测,同一位置多个预测目标物体的语义问题。同时拓扑约束损失加入目标物体计数损失,进一步提高了模型估计目标物体数量的准确性。
进一步的,步骤(a)中预处理的方法为:采用labeling标注工具标注计数目标物体的原始图片,标注方式为在目标物体的类圆形状的几何中使用一个像素点标注位置,将标注后的每幅图像生成一个记录标注像素点位置的npy文件。
进一步的,步骤(b)包括如下步骤:
(b-1)构建Conv-5、Conv-4、Conv-3和Conv-1,2的卷积层、批归一化层和激活层,通过VGG-16网络架构预训练Conv-5、Conv-4、Conv-3和Conv-1,2中的10层卷积层的权重参数,Conv-5卷积组的输出分别连接RMBB-1模块和MLA-1模块,Conv-4卷积组的输出分别连接RMBB-2模块和MLA-2模块,Conv-3卷积组的输出分别连接RMBB-3模块和MLA-3模块,将RMBB-1模块与MLA-1模块的输出进行相乘操作后进行双线性插值操作,将RMBB-2模块与MLA-2模块的输出进行相乘操作后与上采样结果相加并连接上采样操作和 卷积,将RMBB-3模块与MLA-3模块的输出进行相乘操作后与卷积做加法运算后连接上采样操作和卷积,卷积后与Conv-1,2输出相加,将相加结果连接上采样操作和卷积,完成密度估计模型的构建,密度估计模型中除了Conv-5、Conv-4、Conv-3和Conv-1,2的卷积层之外的其它网络参数采用随机初始化的方式进行参数初始化,MLA-1模块、MLA-2模块和MLA-3模块均为多重注意力模块。
(b-3) 初级特征图经过RMBB-1模块得到细节增强特征图,将初级特征图输入MLA-1模块,在空间维度上对初级特征图分别进行最大值池化操作和均值池化操作,得到特征图和特征图,将特征图和特征图经过共享的卷积提取通道上的注意力信息,分别得到和,将和相加后经过sigmoid激活得到注意力权重,将与初级特征图相乘得到经过通道维度注意力优化的特征图,将特征图在通道上分别求最大值和均值,得到和,将和在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重,将空间注意力权重经过sigmoid激活之后与特征图相乘,得到经过时空维度注意力优化的特征图。
(b-5)初级特征图经过RMBB-2模块得到细节增强特征图,将初级特征图输入MLA-2模块,在空间维度上对初级特征图分别进行最大值池化操作和均值池化操作,得到特征图和特征图,将特征图和特征图经过共享的卷积提取通道上的注意力信息,分别得到和,将和相加后经过sigmoid激活之后得到注意力权重,将与初级特征图相乘得到经过通道维度注意力优化的特征图,将特征图在通道上分别求最大值和均值,得到和,将和在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重,将空间注意力权重经过sigmoid激活之后与特征图相乘,得到经过时空维度注意力优化的特征图。
(b-7)初级特征图经过RMBB-3模块得到细节增强特征图,将初级特征图输入MLA-3模块,在空间维度上对初级特征图分别进行最大值池化操作和均值池化操作,得到特征图和特征图,将特征图和特征图经过共享的卷积提取通道上的注意力信息,分别得到和,将和相加后经过sigmoid激活之后得到注意力权重,将与初级特征图相乘得到经过通道维度注意力优化的特征图,将特征图在通道上分别求最大值和均值,得到和,将和在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重,将空间注意力权重经过sigmoid激活之后与特征图相乘,得到经过时空维度注意力优化的特征图。
(b-8)注意力的目的是预测每个像素点的属于前景的概率,模型通过学习会更加关注目标物体区域。在训练过程中,通过计算不同尺度下的多重注意力监督下的损失,提高定位精度,降低模型学习难度。
这可以看作具有两类的语义分割问题。将细节增强特征图与特征图相乘得到特征图,对特征图与特征图相加,对相加结果进行上采样操作,使用卷积核大小为的卷积进行通道维度上降维,使其维度从256维降到128维,得到输出特征图。
(b-10)通过公式计算得到拓扑持久损失,最大化前个点的显著性,并且最小化其余点的显著性。式中为第个显著点,第个显著点对应的鞍点,和均是通过归并树算法在密度似然图中搜索得到的,为密度似然图中点的值,为图像中标记目标物体的数量,为个显著点的集合,为密度似然图中个显著点以外的点的集合。最小化算是就是相当于最大化前个点的显著性,并且最小化其余点的显著性,这样就可以使得不同显著点之间形成清晰的边界。
(b-12)注意力图的损失的目的是预测每个像素的属于前景的概率,给前景更多的关注。在训练过程中,通过计算不同尺度下的多重注意力监督下的损失,提高定位精度,降低模型学习难度。这可以看作具有两类的语义分割问题。通过公式计算不同尺度下多重注意力监督下的损失,,,为分别调整到与相同尺寸时的值,,为注意力图的阈值参数,的取值为1e-5,为真值密度图中的一点,为真值图中一点的值。
进一步的,细节增强模块使用的是残差多分支模块(Residual Multi-BrachBlock, RMBB),具体的步骤(b-1)中的RMBB-1模块、RMBB-2模块和RMBB-3模块均由五个多分支模块以残差的方式连接而成,每个多分支模块后面使用ReLu激活函数激活,每个多分支模块由多尺寸小卷积核堆叠而成,每个多分支模块通过一层的卷积层卷积,第一个多分支模块经过的卷积层卷积后连接空洞率为1的卷积层,第二个多分支模块经过的卷积层卷积后依次连接的卷积层和空洞率为3的卷积层,第三个多分支模块经过的卷积层卷积后依次连接的卷积层、的卷积层和空洞率为3的卷积层,第四个多分支模块经过的卷积层卷积后依次连接的卷积层和空洞率为5的卷积层,将第一多分支模块的结果、第二多分支模块的结果、第三多分支模块的结果和第四多分支模块的结果在通道维度拼接,拼接后使用的卷积降维,将结果与第五多分支模块经过的卷积层卷积后的结果相加,将相加结果经过ReLu激活输出。
优选的,步骤(b-13)中在模型初始训练时设置为0,经过30到50次迭代优化后再引入,设置为1,设置为0.001。根据不同的应用场景的取值是不同的,一般情况下,的取值范围是大于等于0小于等于10,若是场景中目标物体十分密集,则模型训练难以收敛,需要增大的取值,同理,若是场景中目标物体不是很密集,则需要减小的取值。
下面通过附图5所示的以矿泉水瓶为计数目标的照片对本发明进行举例说明,附图5是超市货架上拍摄的一幅商品图像,附图6是将附图5通过labeling标注工具标注之后的结果,其中白色像素点标记了计数目标的类圆形状的几何中心点。附图7是模型中RMBB-1输出的特征图按照密度图的计算方式可视化的结果。可以很明显的看出,模型对目标物体的预测基本符合。但是多数目标物体边界模糊,还需要融合多尺度信息和细节信息对特征进行优化,降低模型边界预测误差。附图8是MLA-1注意力图可视化后的图像,这里将MLA模块的注意力权重以掩膜的方式,在原始图像上可视化。从图中可以很清晰的看出,对于目标物体和背景来说,模型对包含目标物体区域有较高的关注度。这也足以证明模型中的多重注意力能够引导模型对目标和背景进行有效区分。最后如附图9所示,将模型最后计算得到密度似然图进行可视化。可以很明显的看出,每个计数目标的预测区域都非常集中。模型预测目标之间拥有非常清晰的边界线,预测结果中几乎不存在目标相互重叠的现象,这可以极大的降低计数误差。从以上的结果中也证明了本发明的有效性和创新性。得到密度似然图后,通过公式积分得到图像中目标物体的个数,式中为密度似然图中第个点,为密度似然图中点的值,,为密度似然图的像素点集合。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种仓储物流下的基于多重注意力和拓扑约束的密度估计方法,其特征在于,包括如下步骤:
(a)计算机获取计数目标物体的原始图像,对原始图像进行预处理,用于模型的训练和测试;
(b)构建密度估计模型并对模型进行初始化,将训练样本输入密度估计模型中,通过最小化损失函数优化密度估计模型;
(c)固定优化后的密度估计模型,并将密度估计模型部署至服务器;
(d)图像采集设备采集图像输入密度估计模型,得到图像中物体的个数;
步骤(b)包括如下步骤:
(b-1)构建Conv-5、Conv-4、Conv-3和Conv-1,2的卷积层、批归一化层和激活层,通过VGG-16网络架构预训练Conv-5、Conv-4、Conv-3和Conv-1,2中的10层卷积层的权重参数,Conv-5卷积组的输出分别连接RMBB-1模块和MLA-1模块,Conv-4卷积组的输出分别连接RMBB-2模块和MLA-2模块,Conv-3卷积组的输出分别连接RMBB-3模块和MLA-3模块,将RMBB-1模块与MLA-1模块的输出进行相乘操作后进行双线性插值操作,将RMBB-2模块与MLA-2模块的输出进行相乘操作后与上采样结果相加并连接上采样操作和1×1卷积,将RMBB-3模块与MLA-3模块的输出进行相乘操作后与1×1卷积做加法运算后连接上采样操作和1×1卷积,1×1卷积后与Conv-1,2输出相加,将相加结果连接上采样操作和1×1卷积,完成密度估计模型的构建,密度估计模型中除了Conv-5、Conv-4、Conv-3和Conv-1,2的卷积层之外的其它网络参数采用随机初始化的方式进行参数初始化,MLA-1模块、MLA-2模块和MLA-3模块均为多重注意力模块;
(b-2)将训练样本中的目标图像输入到密度估计模型中,图像依次经过Conv-5、Conv-4、Conv-3和Conv-1,2卷积组提取目标初级特征,分别得到初级特征图f4、f3、f2和f1;
(b-3)初级特征图f4经过RMBB-1模块得到细节增强特征图rf4,将初级特征图f4输入MLA-1模块,在空间维度上对初级特征图f4分别进行最大值池化操作和均值池化操作,得到特征图和特征图将特征图和特征图经过共享的卷积提取通道上的注意力信息,分别得到和将和相加后经过sigmoid激活得到注意力权重Fc 1,将Fc 1与初级特征图f4相乘得到经过通道维度注意力优化的特征图F′c1,将特征图F′c1在通道上分别求最大值和均值,得到F′max1和F′avg1,将F′max1和F′avg1在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重将空间注意力权重经过sigmoid激活之后与特征图F′c1相乘,得到经过时空维度注意力优化的特征图AF′4;
(b-4)将细节增强特征图rf4与特征图AF′4相乘得到特征图F′4,对特征图F′4进行双线性插值操作,得到与初级特征图f3维度相同的特征图F4 out;
(b-5)初级特征图f3经过RMBB-2模块得到细节增强特征图rf3,将初级特征图f3输入MLA-2模块,在空间维度上对初级特征图f3分别进行最大值池化操作和均值池化操作,得到特征图和特征图将特征图和特征图经过共享的卷积提取通道上的注意力信息,分别得到和将和相加后经过sigmoid激活之后得到注意力权重Fc 2,将Fc 2与初级特征图f3相乘得到经过通道维度注意力优化的特征图F′c2,将特征图F′c2在通道上分别求最大值和均值,得到F′max2和F′avg2,将F′max2和F′avg2在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重将空间注意力权重经过sigmoid激活之后与特征图F′c2相乘,得到经过时空维度注意力优化的特征图AF′3;
(b-6)将细节增强特征图rf3与特征图AF′3相乘得到特征图F′3,将特征图F′3与特征图F4 out相加,对相加结果进行上采样操作,使用卷积核大小为1×1的卷积进行通道维度上降维,使其维度从512维降到256维,得到输出特征图F3 out;
(b-7)初级特征图f2经过RMBB-3模块得到细节增强特征图rf2,将初级特征图f2输入MLA-3模块,在空间维度上对初级特征图f2分别进行最大值池化操作和均值池化操作,得到特征图和特征图将特征图和特征图经过共享的卷积提取通道上的注意力信息,分别得到和将和相加后经过sigmoid激活之后得到注意力权重Fc 3,将Fc 3与初级特征图f2相乘得到经过通道维度注意力优化的特征图F′c3,将特征图F′c3在通道上分别求最大值和均值,得到F′max3和F′avg3,将F′max3和F′avg3在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重将空间注意力权重经过sigmoid激活之后与特征图F′c3相乘,得到经过时空维度注意力优化的特征图AF′2;
(b-8)将细节增强特征图rf2与特征图AF′2相乘得到特征图F′2,对特征图F′2与特征图F3 out相加,对相加结果进行上采样操作,使用卷积核大小为1×1的卷积进行通道维度上降维,使其维度从256维降到128维,得到输出特征图F2 out;
(b-9)将初级特征图f1与特征图F2 out相加,得到特征图F1′,对特征图F1′进行上采样操作还原输入图像的分辨率,上采样后经过一层卷积,输出模型计算的密度似然图f;
(b-10)通过公式计算得到拓扑持久损失式中mi为第i个显著点,Si第i个显著点对应的鞍点,f(·)为密度似然图f中点的值,c为图像中标记目标物体的数量,Mc为c个显著点的集合,为密度似然图f中c个显著点以外的点的集合;
(b-12)通过公式计算不同尺度下多重注意力监督下的损失Q={4,3,2},i∈{4,3,2},Ai gt为Agt分别调整到与Ai p相同尺寸时的值,t为注意力图的阈值参数,t的取值为1e-5,xi为真值密度图Fgt中的一点,Fgt(·)为真值图中一点的值;
步骤(b-1)中的RMBB-1模块、RMBB-2模块和RMBB-3模块均由五个多分支模块以残差的方式连接而成,每个多分支模块后面使用ReLu激活函数激活,每个多分支模块由多尺寸小卷积核堆叠而成,每个多分支模块通过一层1×1的卷积层卷积,第一个多分支模块经过1×1的卷积层卷积后连接3×3空洞率为1的卷积层,第二个多分支模块经过1×1的卷积层卷积后依次连接1×3的卷积层和3×3空洞率为3的卷积层,第三个多分支模块经过1×1的卷积层卷积后依次连接1×3的卷积层、3×1的卷积层和3×3空洞率为3的卷积层,第四个多分支模块经过1×1的卷积层卷积后依次连接3×3的卷积层和3×3空洞率为5的卷积层,将第一多分支模块的结果、第二多分支模块的结果、第三多分支模块的结果和第四多分支模块的结果在通道维度拼接,拼接后使用11的卷积降维,将结果与第五多分支模块经过11的卷积层卷积后的结果相加,将相加结果经过ReLu激活输出。
2.根据权利要求1所述的仓储物流下的基于多重注意力和拓扑约束的密度估计方法,其特征在于,步骤(a)中预处理的方法为:采用labeling标注工具标注计数目标物体的原始图片,标注方式为在目标物体的类圆形状的几何中使用一个像素点标注位置,将标注后的每幅图像生成一个记录标注像素点位置的npy文件。
3.根据权利要求1所述的仓储物流下的基于多重注意力和拓扑约束的密度估计方法,其特征在于:步骤(b-13)中在模型初始训练时λpres设置为0,经过30到50次迭代优化后再引入λpres,λ1设置为1,λ2设置为0.001。
4.根据权利要求1所述的仓储物流下的基于多重注意力和拓扑约束的密度估计方法,其特征在于:步骤(d)中将图像采集设备采集图像输入步骤(b)中的密度估计模型,得到步骤(b-9)中输出模型计算的密度似然图f,对密度似然图f积分得到图像中目标物体的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110860327.6A CN113313091B (zh) | 2021-07-29 | 2021-07-29 | 仓储物流下的基于多重注意力和拓扑约束的密度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110860327.6A CN113313091B (zh) | 2021-07-29 | 2021-07-29 | 仓储物流下的基于多重注意力和拓扑约束的密度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113313091A CN113313091A (zh) | 2021-08-27 |
CN113313091B true CN113313091B (zh) | 2021-11-02 |
Family
ID=77381968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110860327.6A Active CN113313091B (zh) | 2021-07-29 | 2021-07-29 | 仓储物流下的基于多重注意力和拓扑约束的密度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113313091B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118279840A (zh) * | 2024-04-18 | 2024-07-02 | 江童(上海)科技有限公司 | 水面大尺寸物体检测方法及系统、可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401163A (zh) * | 2020-03-04 | 2020-07-10 | 南京林业大学 | 基于多尺度注意力感知卷积网络的目标数量统计方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965705B2 (en) * | 2015-11-03 | 2018-05-08 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering |
CN110188685B (zh) * | 2019-05-30 | 2021-01-05 | 燕山大学 | 一种基于双注意力多尺度级联网络的目标计数方法及系统 |
CN111860162B (zh) * | 2020-06-17 | 2023-10-31 | 上海交通大学 | 一种视频人群计数系统及方法 |
CN112464893A (zh) * | 2020-12-10 | 2021-03-09 | 山东建筑大学 | 一种复杂环境下的拥挤度分类方法 |
-
2021
- 2021-07-29 CN CN202110860327.6A patent/CN113313091B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401163A (zh) * | 2020-03-04 | 2020-07-10 | 南京林业大学 | 基于多尺度注意力感知卷积网络的目标数量统计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113313091A (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
Jia et al. | Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot | |
CN110956185B (zh) | 一种图像显著目标的检测方法 | |
CN110147743A (zh) | 一种复杂场景下的实时在线行人分析与计数系统及方法 | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN110942471B (zh) | 一种基于时空约束的长时目标跟踪方法 | |
CN110991257B (zh) | 基于特征融合与svm的极化sar溢油检测方法 | |
CN108537121A (zh) | 气象环境参数与图像信息融合的自适应遥感场景分类方法 | |
CN113408584A (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN113129336A (zh) | 一种端到端多车辆跟踪方法、系统及计算机可读介质 | |
CN110633727A (zh) | 基于选择性搜索的深度神经网络舰船目标细粒度识别方法 | |
CN111814696A (zh) | 一种基于改进YOLOv3的视频船舶目标检测方法 | |
CN114187506B (zh) | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN117079095A (zh) | 基于深度学习的高空抛物检测方法、系统、介质和设备 | |
Wei et al. | Novel green-fruit detection algorithm based on D2D framework | |
CN113313091B (zh) | 仓储物流下的基于多重注意力和拓扑约束的密度估计方法 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
Kajabad et al. | YOLOv4 for urban object detection: Case of electronic inventory in St. Petersburg | |
Hu et al. | Automatic detection of pecan fruits based on Faster RCNN with FPN in orchard | |
CN114037737B (zh) | 一种基于神经网络的近岸海底鱼类检测及跟踪统计方法 | |
CN116030511A (zh) | 一种基于ToF的三维人脸识别方法 | |
CN114694042A (zh) | 一种基于改进Scaled-YOLOv4的伪装人员目标检测方法 | |
CN111914110A (zh) | 一种基于深度激活显著区域的实例检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 250101 1000, Feng Ming Road, Lingang Development Zone, Licheng District, Ji'nan, Shandong Applicant after: SHANDONG JIANZHU University Applicant after: SHANDONG NEW BEIYANG INFORMATION TECHNOLOGY Co.,Ltd. Address before: 264203 No. 126, Kunlun Road, Weihai City, Shandong Province (Science and Technology Park) Applicant before: SHANDONG NEW BEIYANG INFORMATION TECHNOLOGY Co.,Ltd. Applicant before: SHANDONG JIANZHU University |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |