CN117423047A - 基于特征图像的计数方法、装置、电子设备及存储介质 - Google Patents
基于特征图像的计数方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117423047A CN117423047A CN202311746195.XA CN202311746195A CN117423047A CN 117423047 A CN117423047 A CN 117423047A CN 202311746195 A CN202311746195 A CN 202311746195A CN 117423047 A CN117423047 A CN 117423047A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- feature vector
- detected
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 195
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000004590 computer program Methods 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 13
- 230000010354 integration Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008447 perception Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008034 disappearance Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及图像处理技术领域,提供了一种基于特征图像的计数方法、装置、电子设备及存储介质。该方法包括:获取待测图像和目标特征图像,将待测图像和目标特征图像分别输入至图像识别模型进行特征提取,得到与待测图像对应的第一特征向量和与目标特征图像对应的第二特征向量;通过第一特征向量对第二特征向量进行特征增强,得到增强后的第三特征向量;将第三特征向量和第一特征向量进行融合,得到融合特征向量;将融合特征向量输入至回归头中,得到待测图像对应的表示待测对象数值的密度图。本申请解决了小计量计数方法中计数精度不高的技术问题。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种基于特征图像的计数方法、装置、电子设备及存储介质。
背景技术
图像是人们日常生活中最重要的信息源之一,随着近年来计算机技术的发展,图像识别技术被应用到人类生活的方方面面,在人脸识别、医学图像识别、交通监控等领域应用广泛。基于图像识别技术出现的大部分计数算法主要是针对特定目标进行设计的,例如人群计数、车辆计数等,为了提高计数方法的可扩展性,将特征图像和查询图像进行关联,对查询图像中的特征图像进行计数,实现了对特征图像的小样本计数。
现有技术中,小样本计数算法中往往存在有计数精度不高的问题。
发明内容
有鉴于此,本申请实施例提供了一种基于特征图像的计数方法、装置、电子设备及存储介质,以解决现有技术中计数精度不高的问题。
本申请实施例的第一方面,提供了一种基于特征图像的计数方法,包括:
获取待测图像和目标特征图像,将待测图像和目标特征图像分别输入至图像识别模型进行特征提取,得到与待测图像对应的第一特征向量和与目标特征图像对应的第二特征向量;
通过第一特征向量对第二特征向量进行特征增强,得到增强后的第三特征向量;
将第三特征向量和第一特征向量进行融合,得到融合特征向量;
将融合特征向量输入至回归头中,得到待测图像对应的表示待测对象数值的密度图。
本申请实施例的第二方面,提供了一种基于特征图像的计数装置,包括:
特征模块,用于获取待测图像和目标特征图像,将待测图像和目标特征图像分别输入至图像识别模型进行特征提取,得到与待测图像对应的第一特征向量和与目标特征图像对应的第二特征向量;
相似度增强模块,用于通过第一特征向量对第二特征向量进行特征增强,得到增强后的第三特征向量;
融合模块,用于将第三特征向量和第一特征向量进行融合,得到融合特征向量;
计数模块,用于将融合特征向量输入至回归头中,得到待测图像对应的表示待测对象数值的密度图。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种可读存储介质,该可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:通过获取待测图像和目标特征图像,并对待测图像和目标特征图像进行特征提取,目标特征图像是待测图像中带计数对象的特征图像。在提取获得与待测图像对应的第一特征向量和与目标特征图像对应的第二特征向量后,由于缺乏对两种向量之间关系的感知,将第一特征向量和第二特征向量输入至相似度增强模型中,对目标特征图像对应的第二特征向量进行相似度增强,得到第三特征向量。然后,将第三特征向量与第一特征向量进行融合,得到第一融合向量,该第一融合向量中包含有第一特征向量和第三特征向量的信息。接着,将第一融合向量输入至回归模型中,得到待测图像对应的密度图,此密度图包含数值信息,完成了对待测图像中的对象的小样本计数。由于第三特征向量经过增强后,具备了与第一特征向量之间的关系感知,提高了待测图片中对应的第一特征向量之间的联系,从而提升了模型在使用中的计数精度。这解决了现有技术中小样本计数算法不准确的技术问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例的应用场景的场景示意图;
图2是本申请实施例提供的一种基于特征图像的计数方法的流程示意图;
图3是本申请提供的一种基于特征图像的计数方法实施例的示意图;
图4是本申请实施例提供的一种基于特征图像的计数装置的结构示意图;
图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
下面将结合附图详细说明根据本申请实施例的一种基于特征图像的计数方法和装置。
图1是本申请实施例的应用场景的场景示意图。该应用场景可以包括第一终端设备1、第二终端设备2和第三终端设备3、服务器4以及网络5。
第一终端设备1、第二终端设备2和第三终端设备3可以是硬件,也可以是软件。当第一终端设备1、第二终端设备2和第三终端设备3为硬件时,其可以是具有显示屏且支持与服务器4通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当第一终端设备1、第二终端设备2和第三终端设备3为软件时,其可以安装在如上所述的电子设备中。第一终端设备1、第二终端设备2和第三终端设备3可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本申请实施例对此不作限制。进一步地,第一终端设备1、第二终端设备2和第三终端设备3上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
服务器4可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器4可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本申请实施例对此不作限制。
需要说明的是,服务器4可以是硬件,也可以是软件。当服务器4为硬件时,其可以是为第一终端设备1、第二终端设备2和第三终端设备3提供各种服务的各种电子设备。当服务器4为软件时,其可以是为第一终端设备1、第二终端设备2和第三终端设备3提供各种服务的多个软件或软件模块,也可以是为第一终端设备1、第二终端设备2和第三终端设备3提供各种服务的单个软件或软件模块,本申请实施例对此不作限制。
网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(Bluetooth)、近场通信(Near FieldCommunication,NFC)、红外(Infrared)等,本申请实施例对此不作限制。
用户可以通过第一终端设备1、第二终端设备2和第三终端设备3经由网络5和服务器4建立通信连接,以接收或发送信息等。具体的,在用户将收集到的待测图像和目标特征图像和导入到服务器4之后,服务器4将待测图像和目标特征图像分别输入至图像识别模型进行特征提取,得到与待测图像对应的第一特征向量和与目标特征图像对应的第二特征向量;通过第一特征向量对第二特征向量进行特征增强,得到增强后的第三特征向量;将第三特征向量和第一特征向量进行融合,得到融合特征向量;将融合特征向量输入至回归头中,得到待测图像对应的表示待测对象数值的密度图。
需要说明的是,第一终端设备1、第二终端设备2和第三终端设备3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本申请实施例对此不作限制。
图2是本申请实施例提供的一种基于特征图像的计数方法的流程示意图。图2的基于特征图像的计数方法可以由图1的终端设备或服务器执行。如图2所示,该基于特征图像的计数方法包括:
步骤201,获取待测图像和目标特征图像,将待测图像和目标特征图像分别输入至图像识别模型进行特征提取,得到与待测图像对应的第一特征向量和与目标特征图像对应的第二特征向量。
具体的,待测图像为需要进行识别的图像。目标特征图像为待测图像中进行计数目标的特征图像,用于指示待测图像中计数目标的图像特征。图像识别模型在本实施例的作用为提取图像中的特征向量,例如,使用卷积神经网络模型(Convolutional NeuralNetwork,CNN)提取图像中的特征向量,CNN应用多层卷积提取图像的隐性特征,依靠强大的学习能力实现图像识别中的提取特征向量。特征向量用于指示图像中的特征,在图像识别中,图像特征包括边缘形状特征和图像综合纹理特征等,边缘形状特征的提取需对图像进行轮廓提取后进行分析,常见的形状特征有凸包、凹缺、角点、线夹角、多边形逼近形状特征、矩形、椭圆、特征矩等,常通过这些形状特征的组合特征来识别某些具体图像;图像综合纹理特征能够反映图像中像素或区域之间空间分布、灰度变化等视觉特性的特征,这些特征可以包括纹理的周期性、方向性、粗糙度、对比度等,以及不同纹理区域之间的边界和分布信息等,图像综合纹理特征可以用于图像分类、目标检测、图像检索等计算机视觉任务中,帮助提高任务的性能和准确性。
通过获取待测图像和目标特征图像,并将待测图像和目标特征图像输入至用于特征提取的图像识别模型中,提取待测图像和目标特征图像的图像特征得到与待测图像对应的第一特征向量和与目标特征图像对应的第二特征向量,降低图像中的数据维度,增强可解释性,更好的理解和解释图像中的内容。
步骤202,通过第一特征向量对第二特征向量进行特征增强,得到增强后的第三特征向量。
通过第一特征向量对第二特征向量进行特征增强,得到增强后的第三特征向量,使得目标特征图像对应的第三特征向量增加了与待测图像对应的第一特征向量之间的关联性,具备有第一特征向量和第二特征向量之间的关系感知,反应了图像内容的丰富性和复杂性,提高图像识别任务的性能和准确性。
步骤203,将第三特征向量和第一特征向量进行融合,得到融合特征向量。
具体的,图像特征之间的融合是指将来自不同来源或不同层次的图像特征进行组合和整合,以形成更具代表性和鲁棒性的特征,这种融合可以发生在不同的层次上,包括像素级融合、特征级融合和决策级融合,像素级融合直接对图像像素进行操作,将多个图像的特征信息融合到一起。特征级融合则是对图像的特征进行提取和整合,形成更具代表性的特征向量。决策级融合是对来自不同分类器的决策结果进行融合,以得到更准确的分类结果。
通过将目标特征图像对应的第三特征向量和与待测图像对应的第一特征向量进行融合,使得融合后的融合特征向量具备有目标特征图像和待测图像的特征向量,提高了图像识别任务的性能和准确性。
步骤204,将融合特征向量输入至回归头中,得到待测图像对应的表示待测对象数值的密度图。
具体地,回归头通常采用神经网络结构,通过训练数据学习融合特征向量与待测对象数值之间的映射关系,在训练过程中,回归头不断优化自身的参数,以提高对新输入数据的回归预测能力,回归头输出的密度图表示了待测图像中待测对象的数值分布情况,从而实现了对待测对象的定量分析和可视化展示。密度图指图像中待识别对象的分布情况,密度图是一种二维图像,其中像素的灰度值或颜色强度表示了待识别对象在图像中的密度或分布程度,通过分析密度图的分布特征,可以实现对图像中待识别对象数量的定量估计和可视化展示,因此,密度图提供了一种直观且有效的方式来表示图像中待识别对象的数量信息,为图像识别任务提供了更多的信息和支持。
根据本申请实施例提供的技术方案,通过获取待测图像以及待测图像中需要进行计数的目标特征图像,将待测图像和目标特征图像分别输入至图像识别模型中以降低图像的信息维度,获取到的第一特征向量和第二特征向量用于指代待测图像和目标特征图像,使用第一特征向量对第二特征向量进行特征增强,使得目标特征向量对应第三特征向量具备有与第一特征图像的关系感知,提高识别的准确度,将具备关系感知的第三特征向量与第一特征向量进行融合,获取的融合特征向量同时具备有目标特征图像和待测图像的特征,将融合后的融合特征向量输入至回归头得到用于表示待测对象数值的密度图,实现了对待测图像的计数,提高了计数算法的准确性。
在一些实施例中,获取待测图像和目标特征图像,将待测图像和目标特征图像分别输入至图像识别模型进行特征提取,得到与待测图像对应的第一特征向量和与目标特征图像对应的第二特征向量,包括:
获取待测图像和目标特征图像,将待测图像和目标特征图像输入至残差网络模型ResNet50进行特征提取,得到与待测图像对应的第一特征向量和与目标特征图像对应的第二特征向量。
具体地,残差网络(Residual Network,ResNet)是一种深度卷积神经网络,通过引入残差连接来解决深度网络中的梯度消失问题,在传统的深度神经网络中,随着网络层数的加深,训练过程中可能会出现梯度消失或梯度爆炸的问题,导致训练难以收敛或效果不佳,而残差网络通过在网络中添加一些跳跃连接(skip connection),使得输入数据可以直接跳过一些层并与更深层的输出进行相加,从而保留了更多的输入信息,有效地缓解了梯度消失问题。这种设计使得ResNet可以构建非常深的网络结构,提高了模型的表达能力和性能。ResNet50是一种深度残差网络,具体包含了50层的网络结构,这种网络结构的设计是为了解决深度神经网络中的梯度消失问题,通过引入残差连接,使得输入数据可以跳过一些层并与更深层的输出进行相加,从而保留了更多的输入信息。ResNet50可以提取到多种图像特征,具体的,ResNet50的前几层会提取图像的低级特征,如边缘、角点、颜色、纹理等,随着网络层数的加深,ResNet50可以提取到更加抽象和高级的特征,例如物体的形状、结构、语义信息等,这些特征可以用于多种计算机视觉任务,如图像分类、目标检测、图像分割等,通过训练,ResNet50可以学习到从原始图像到高级特征的映射关系,从而提取出对于特定任务有用的图像特征,由于ResNet50具有较深的网络结构和优秀的性能,因此它可以提取到更加丰富和准确的图像特征,作为一个示例,输入特征图像首先经过一系列的卷积层进行特征提取,这些卷积层可以学习到图像的各种空间特征和模式,同时,由于ResNet50采用了残差结构,使得网络可以更加深入地学习图像特征,提高了特征提取的能力,在卷积操作之后,通常会进行池化操作来进一步抽象和降维特征,从而得到更加高级和抽象的特征表示。最终,通过一系列的卷积和池化操作,ResNet50可以提取到丰富的图像特征,为各种计算机视觉任务提供有力的支持。
根据本申请实施例提供的技术方案,通过使用ResNet50作为残差网络模型提取待测图像和目标特征图像的特征向量,使得提取的图像特征更加丰富和有效,进而提高图像识别任务的性能和准确性,从而提高了图像识别任务的性能和准确性。
此外,在一些实施例中,ResNet50使用批量归一化-卷积-参数化激活函数-卷积-批量归一化结构作为残差块。
具体的,批量归一化(Batch Normalization,BN)是一种常用的正则化和加速训练的方法,将每个小批量数据的输入中进行归一化处理,使得每个小批量的均值和方差都接近于0和1,这样可以使得模型更加稳定,并且可以加速训练。改善训练速度和模型的性能,对于神经网络模型的每一层,BN算法对输出向量中的每一个元素进行规则化,使其具有零均值和单位方差,加入BN层的神经网络模型可以使用饱和类非线性单元,且可以使用更高的参数学习率,从而降低训练难度,提高训练效果。在CNN中,卷积层(Convolution,Conv)的作用就是通过卷积操作抽象出图像特征信息,卷积是一种重要的操作,它可以用来提取图像或其他形式数据的特征,通过卷积,网络可以学习到输入数据的局部特征。线性整流函数(Linear rectification function,ReLU)是一种常用的激活函数,用于神经网络中增加非线性特性,将所有负值置为0,而正值则保持不变。PReLU是参数化的ReLU激活函数,是ReLU的扩展版本,与ReLU不同,PReLU在负数区域允许负数的激活值,并通过引入一个可学习的斜率参数,缓解了ReLU可能导致的梯度消失问题,这种设计使得PReLU可以更好地适应不同的数据分布。
根据本申请实施例提供的技术方案,通过在ResNet50中使用BN-Conv-BN-PReLU-Conv-BN结构作为残差块,由于在残差块中使用BN和 PReLU,可以改善梯度流,使得网络更容易训练,批量归一化可以减少内部协变量偏移,使得网络的训练更加稳定,而PReLU可以增加非线性,提高网络的表达能力,因为PReLU的激活函数是在卷积之后进行的,BN-Conv-BN-PReLU结构可以减少计算量,减少了卷积操作的计算负担。通过使用这种改进的残差块结构,ResNet50可以更好地提取图像特征,提高模型的性能,这种结构可以更好地捕捉图像的局部和全局特征,提高了模型训练的稳定性,减少了计算量,提高了图像识别的准确性,从而提高计数的准确度。
在一些实施例中,通过第一特征向量对第二特征向量进行特征增强,得到增强后的第三特征向量,包括:
计算第二特征向量和第一特征向量之间的相似性得到相似度图;
根据相似度图对第二特征向量进行特征增强得到增强后的第三特征向量。
具体的,相似度图表示第二特征向量与第一特征向量之间的相似性,根据相似度图对第二特征向量进行特征增强的方法包括加权处理和特征融合,具体的,使用相似度图对第二特征向量进行加权处理以突出关键特征并抑制噪声和异常值的影响,提高了特征的准确性和鲁棒性,使得模型能够更好地适应不同的数据分布和场景;特征融合提高特征的全面性和表达能力,使得模型能够更好地捕捉图像中的关键信息,进而提高图像识别任务的性能和准确性,应理解本实施例对特征增强的方法不做限制,根据实际情况进行选择即可。
根据本申请实施例提供的技术方案,通过计算第二特征向量和第一特征向量之间的相似性得到相似度图,并使用相似度图对第二特征向量进行特征增强,得到第三特征向量,使得与目标特征图像对应的第三特征向量增加了与待测图像对应的第二特征向量之间的对比关系,提高了图像识别任务的性能和准确性,进而提高了计数的准确性。
此外,在一些实施例中,计算第二特征向量和第一特征向量之间的相似性得到相似度图,包括:
将第二特征向量作为卷积核对第一特征向量进行特征提取得到相似度图。
具体的,卷积核指对图像做卷积提取图像的特征值,用来和图像做卷积的矩阵,卷积层的每一个特征图(Feature Map)都有一个大小相同的卷积核,卷积层的输入来源于初始输入或者上一层的输出;输入和输出都为矩阵,例如,输入矩阵为(n,n),卷积核为(k,k),输出矩阵为(n-k+1,n-k+1);在卷积神经网络的卷积层中,卷积核即为可学习的特征权重,一个卷积核就代表一个特征,例如一个角点或者一段弧线,CNN中每一个卷积层包含多个特征图(FeatureMap),每个特征图由多个神经元卷积生成,同一个特征图对应的所有神经元共用上一个卷积层中的一个卷积核,而每一个特征图的卷积核都会与上层输入的整个图像进行卷积,全局共享可以进一步降低特征维度和参数数量,同时保证每个特征都与全局输入相关联,这样设计的原理在于图像特征的可复用性与位置无关性。
根据本申请实施例提供的技术方案,通过将第二特征向量作为卷积核对第一特征向量进行特征提取,可以更好地捕捉图像中的关键信息,提高了特征表达的准确性。
在一些实施例中,将融合特征向量输入至回归头中,得到待测图像对应的表示待测对象数值的密度图之前,还包括:
通过卷积对融合特征向量进行特征整合;
对特征整合后的融合特征向量进行批量归一化处理。
具体的,在Conv层进行卷积可以对融合特征向量进行特征提取和整合,进一步提取图像中的关键信息。在BN层对特征整合后的融合特征向量进行批量归一化处理,使得不同特征具有相同的尺度,便于后续模型的学习和训练。
根据本申请实施例提供的技术方案,通过卷积对融合特征向量进行特征整合以及对特征整合后的融合特征向量进行批量归一化处理,可以进一步提高特征的表达能力,提高了图像识别的准确性,进而提高了计数的准确性。
在一些实施例中,在将融合特征向量输入至回归头中,得到待测图像对应的表示待测对象数值的密度图之后,还包括:
获取与待测图像对应的预设标签,其中,预设标签用于指示待测图像中被计数目标的准确数量;
根据表示数值的密度图和预设标签计算均方差损失;
使用均方差损失更新回归头参数。
具体的,与待测图像对应的预设标签包含有待测图像中被计数目标的准确数量信息;利用表示数值的密度图和预设标签,可以计算均方差损失,该损失反映了密度图所表示的数值与真实数量之间的差距;通过计算出的均方差损失,可以更新回归头的参数,从而优化模型的回归预测能力。
根据本实施例提供的技术方案,通过获取预设标签,并根据表示数值的密度图和预设标签计算均方差损失,以及使用均方差损失更新回归头参数的操作,可以提高模型对待测图像中被计数目标的准确数量的回归精度,并增强模型的鲁棒性。
此外,图3是本申请提供的一种基于特征图像的计数方法实施例的示意图,如图3所示,该基于特征图像的计数方法包括:
获取目标特征图像和待测图像,并将它们输入至图像识别模型中,图像识别模型会对目标特征图像和待测图像进行特征提取,分别得到与目标特征图像对应的第二特征向量和与待测图像对应的第一特征向量。接着,使用第二特征向量和第一特征向量进行相似度计算获得相似度图,根据相似度图对第二特征向量进行特征增强获取到第三特征向量,将第三特征向量与第一特征向量进行全局特征融合,并在Conv层和BN层进行卷积和批量归一化,得到融合特征向量。然后,将融合特征向量输入至回归头,得到待测图像对应的表示待测对象数值的密度图。在获得密度图之后,还可以获取待测对象数值的标签,并利用标签和密度图计算均方差损失。最后,根据均方差损失对回归头进行优化,提高了计数的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图4是本申请实施例提供的一种基于特征图像的计数装置的示意图。如图4所示,该基于特征图像的计数装置包括:
特征模块401,用于获取待测图像和目标特征图像,将待测图像和目标特征图像分别输入至图像识别模型进行特征提取,得到与待测图像对应的第一特征向量和与目标特征图像对应的第二特征向量;
相似度增强模块402,用于通过第一特征向量对第二特征向量进行特征增强,得到增强后的第三特征向量;
融合模块403,用于将第三特征向量和第一特征向量进行融合,得到融合特征向量;
计数模块404,用于将融合特征向量输入至回归头中,得到待测图像对应的表示待测对象数值的密度图。
在一些实施例中,特征模块401具体用于获取待测图像和目标特征图像,将待测图像和目标特征图像输入至残差网络模型ResNet50进行特征提取,得到与待测图像对应的第一特征向量和与目标特征图像对应的第二特征向量。
此外,在一些实施例中,特征模式401具体还用于ResNet50使用批量归一化-卷积-参数化激活函数-卷积-批量归一化结构作为残差块。
在一些实施例中,相似度增强模块402具体用于计算第二特征向量和第一特征向量之间的相似性得到相似度图;根据相似度图对第二特征向量进行特征增强得到增强后的第三特征向量。
此外,在一些实施例中,相似度增强模块402具体还用于将第二特征向量作为卷积核对第一特征向量进行特征提取得到相似度图。
在一些实施例中,融合模块403之前还包括特征整合模块,特征整合模块具体用于通过卷积对融合特征向量进行特征整合;对特征整合后的融合特征向量进行批量归一化处理。
在一些实施例中,计数模块404之后还包括调整模块,调整模块用于获取与待测图像对应的预设标签,其中,预设标签用于指示待测图像中被计数目标的准确数量;根据表示数值的密度图和预设标签计算均方差损失;使用均方差损失更新回归网络参数。
图5是本申请实施例提供的电子设备5的示意图。如图5所示,该实施例的电子设备5包括:处理器501、存储器502以及存储在该存储器502中并且可在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者,处理器501执行计算机程序503时实现上述各装置实施例中各模块/单元的功能。
电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解,图5仅仅是电子设备5的示例,并不构成对电子设备5的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器501可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器502可以是电子设备5的内部存储单元,例如,电子设备5的硬盘或内存。存储器502也可以是电子设备5的外部存储设备,例如,电子设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器502还可以既包括电子设备5的内部存储单元也包括外部存储设备。存储器502用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读存储介质(例如计算机可读存储介质)中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于特征图像的计数方法,其特征在于,包括:
获取待测图像和目标特征图像,将所述待测图像和所述目标特征图像分别输入至图像识别模型进行特征提取,得到与所述待测图像对应的第一特征向量和与所述目标特征图像对应的第二特征向量;
通过所述第一特征向量对所述第二特征向量进行特征增强,得到增强后的第三特征向量;
将所述第三特征向量和所述第一特征向量进行融合,得到融合特征向量;
将所述融合特征向量输入至回归头中,得到所述待测图像对应的表示待测对象数值的密度图。
2.根据权利要求1所述的基于特征图像的计数方法,其特征在于,所述获取待测图像和目标特征图像,将所述待测图像和所述目标特征图像分别输入至图像识别模型进行特征提取,得到与所述待测图像对应的第一特征向量和与所述目标特征图像对应的第二特征向量,包括:
获取待测图像和目标特征图像,将所述待测图像和所述目标特征图像输入至残差网络模型ResNet50进行特征提取,得到与所述待测图像对应的第一特征向量和与所述目标特征图像对应的第二特征向量。
3.根据权利要求2所述的基于特征图像的计数方法,其特征在于,所述ResNet50使用批量归一化-卷积-参数化激活函数-卷积-批量归一化结构作为残差块。
4.根据权利要求1所述的基于特征图像的计数方法,其特征在于,所述通过所述第一特征向量对所述第二特征向量进行特征增强,得到增强后的第三特征向量,包括:
计算所述第二特征向量和所述第一特征向量之间的相似性得到相似度图;
根据所述相似度图对所述第二特征向量进行特征增强得到增强后的第三特征向量。
5.根据权利要求4所述的基于特征图像的计数方法,其特征在于,所述计算第二特征向量和第一特征向量之间的相似性得到相似度图,包括:
将所述第二特征向量作为卷积核对所述第一特征向量进行特征提取得到相似度图。
6.根据权利要求1所述的基于特征图像的计数方法,其特征在于,将所述融合特征向量输入至回归头中,得到所述待测图像对应的表示待测对象数值的密度图之前,还包括:
通过卷积对所述融合特征向量进行特征整合;
对特征整合后的所述融合特征向量进行批量归一化处理。
7.根据权利要求1所述的基于特征图像的计数方法,其特征在于,在将所述融合特征向量输入至回归头中,得到所述待测图像对应的表示待测对象数值的密度图之后,还包括:
获取与所述待测图像对应的预设标签,其中,所述预设标签用于指示所述待测图像中被计数目标的准确数量;
根据所述表示数值的密度图和所述预设标签计算均方差损失;
使用所述均方差损失更新回归网络参数。
8.一种基于特征图像的计数装置,其特征在于,包括:
特征模块,用于获取待测图像和目标特征图像,将所述待测图像和所述目标特征图像分别输入至图像识别模型进行特征提取,得到与所述待测图像对应的第一特征向量和与所述目标特征图像对应的第二特征向量;
相似度增强模块,用于通过所述第一特征向量对所述第二特征向量进行特征增强,得到增强后的第三特征向量;
融合模块,用于将所述第三特征向量和所述第一特征向量进行融合,得到融合特征向量;
计数模块,用于将所述融合特征向量输入至回归头中,得到所述待测图像对应的表示待测对象数值的密度图。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种可读存储介质,所述可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311746195.XA CN117423047A (zh) | 2023-12-19 | 2023-12-19 | 基于特征图像的计数方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311746195.XA CN117423047A (zh) | 2023-12-19 | 2023-12-19 | 基于特征图像的计数方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117423047A true CN117423047A (zh) | 2024-01-19 |
Family
ID=89532897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311746195.XA Pending CN117423047A (zh) | 2023-12-19 | 2023-12-19 | 基于特征图像的计数方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117423047A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826449A (zh) * | 2019-10-30 | 2020-02-21 | 杭州叙简科技股份有限公司 | 基于轻量型卷积神经网络的非机动车再识别目标检索方法 |
CN114399672A (zh) * | 2022-01-14 | 2022-04-26 | 东南大学 | 一种基于深度学习的铁路货车闸瓦故障检测方法 |
CN115424171A (zh) * | 2022-08-24 | 2022-12-02 | 深圳海翼智新科技有限公司 | 火焰和烟雾检测方法、装置和存储介质 |
CN115862113A (zh) * | 2022-12-20 | 2023-03-28 | 上海东普信息科技有限公司 | 陌生人异常识别方法、装置、设备及存储介质 |
CN115908449A (zh) * | 2022-10-21 | 2023-04-04 | 北京邮电大学 | 一种基于改进UNet模型的2.5D医学CT影像分割方法及装置 |
CN116310410A (zh) * | 2022-12-19 | 2023-06-23 | 深圳大学 | 多尺度计数方法、装置及计算机可读存储介质 |
CN116543346A (zh) * | 2023-05-06 | 2023-08-04 | 电子科技大学 | 一种基于深度学习的输电线路视频山火检测方法 |
-
2023
- 2023-12-19 CN CN202311746195.XA patent/CN117423047A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826449A (zh) * | 2019-10-30 | 2020-02-21 | 杭州叙简科技股份有限公司 | 基于轻量型卷积神经网络的非机动车再识别目标检索方法 |
CN114399672A (zh) * | 2022-01-14 | 2022-04-26 | 东南大学 | 一种基于深度学习的铁路货车闸瓦故障检测方法 |
CN115424171A (zh) * | 2022-08-24 | 2022-12-02 | 深圳海翼智新科技有限公司 | 火焰和烟雾检测方法、装置和存储介质 |
CN115908449A (zh) * | 2022-10-21 | 2023-04-04 | 北京邮电大学 | 一种基于改进UNet模型的2.5D医学CT影像分割方法及装置 |
CN116310410A (zh) * | 2022-12-19 | 2023-06-23 | 深圳大学 | 多尺度计数方法、装置及计算机可读存储介质 |
CN115862113A (zh) * | 2022-12-20 | 2023-03-28 | 上海东普信息科技有限公司 | 陌生人异常识别方法、装置、设备及存储介质 |
CN116543346A (zh) * | 2023-05-06 | 2023-08-04 | 电子科技大学 | 一种基于深度学习的输电线路视频山火检测方法 |
Non-Patent Citations (1)
Title |
---|
ZHIYUAN YOU ET AL.: "Few-shot Object Counting with Similarity-Aware Feature Enhancement", ARXIV:2201.08959V5 [CS.CV], 11 September 2022 (2022-09-11), pages 1 - 16 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109508681B (zh) | 生成人体关键点检测模型的方法和装置 | |
US11657602B2 (en) | Font identification from imagery | |
CN108229419B (zh) | 用于聚类图像的方法和装置 | |
CN110765860A (zh) | 摔倒判定方法、装置、计算机设备及存储介质 | |
CN113704531A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
US11714921B2 (en) | Image processing method with ash code on local feature vectors, image processing device and storage medium | |
CN108509994B (zh) | 人物图像聚类方法和装置 | |
CN110941978B (zh) | 一种未识别身份人员的人脸聚类方法、装置及存储介质 | |
CN113657087B (zh) | 信息的匹配方法及装置 | |
EP4447008A1 (en) | Facial recognition method and apparatus | |
WO2022161302A1 (zh) | 动作识别方法、装置、设备、存储介质及计算机程序产品 | |
CN113793370A (zh) | 三维点云配准方法、装置、电子设备及可读介质 | |
WO2021051562A1 (zh) | 人脸特征点定位方法、装置、计算设备和存储介质 | |
CN113822871A (zh) | 基于动态检测头的目标检测方法、装置、存储介质及设备 | |
CN117953581A (zh) | 动作识别的方法、装置、电子设备及可读存储介质 | |
CN117876709A (zh) | 图像识别方法、装置、电子设备及可读存储介质 | |
CN116824609B (zh) | 文档版式检测方法、装置和电子设备 | |
CN111899239A (zh) | 图像处理方法和装置 | |
CN115546554A (zh) | 敏感图像的识别方法、装置、设备和计算机可读存储介质 | |
CN116311298A (zh) | 信息生成方法、信息处理方法、装置、电子设备以及介质 | |
CN113780148A (zh) | 交通标志图像识别模型训练方法和交通标志图像识别方法 | |
CN117423047A (zh) | 基于特征图像的计数方法、装置、电子设备及存储介质 | |
CN113780239A (zh) | 虹膜识别方法、装置、电子设备和计算机可读介质 | |
CN116912631B (zh) | 目标识别方法、装置、电子设备及存储介质 | |
CN116912518B (zh) | 图像的多尺度特征处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |