CN116665128A - 一种图像识别方法和相关装置 - Google Patents
一种图像识别方法和相关装置 Download PDFInfo
- Publication number
- CN116665128A CN116665128A CN202310653547.0A CN202310653547A CN116665128A CN 116665128 A CN116665128 A CN 116665128A CN 202310653547 A CN202310653547 A CN 202310653547A CN 116665128 A CN116665128 A CN 116665128A
- Authority
- CN
- China
- Prior art keywords
- image
- crowd
- density
- map
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000009826 distribution Methods 0.000 claims abstract description 61
- 238000000605 extraction Methods 0.000 claims description 19
- 238000007499 fusion processing Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像识别方法和相关装置,可应用于人工智能领域或金融领域,将获取到的待识别图像输入图像识别模型中的注意力图生成器中,利用注意力图生成器确定待识别图像的图像区域特征图,图像区域特征图可以区分人群区域和背景区域。由于图像区域特征图中是抽象的区域特征,故对待识别图像和图像区域特征图进行融合处理,得到的图像区域分布图能够更准确地反映待识别图像中的人群区域和背景区域。接着将图像区域分布图输入图像识别模型中的密度图生成器,利用密度图生成器输出人群密度图,人群密度图能够指示待识别图像中的人群密集情况。正是利用密度图生成器区分人群区域与背景区域,使得密度图生成器更关注人群区域,以提高识别效率。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种图像识别方法和相关装置。
背景技术
图像识别技术能够从图像中获取关键信息,以便利用关键信息进行相关服务。比如,对于银行网点来说,每天来来往往的用户较多,大部分用户都是来办理银行业务(例如存取款等)。为了保障安全性,银行网点通常会采用图像识别技术对银行网点的人群进行分析,以便能够及时应对突发情况。
在实际应用中,基于图像识别技术的人群分析具体是指从图像中获取用户聚集所在区域,并估计该区域中的用户数量、密度或分布,以便进行行为分析、拥塞分析、异常检测和事件检测等。准确的人群分析有利于及时发现人群拥挤和异常行为并进行预警,以便采取措施进行疏导,尽可能避免悲剧的发生,更好地保障用户的资产财产和人身安全。
然而,对于复杂场景中的人群分析,相关技术中的图像识别技术在人群密度识别时存在识别效率低的问题。
发明内容
为了解决上述技术问题,本申请提供了一种图像识别方法和相关装置,在确定人群密度特征时,可以更关注人群区域,从而提高人群密度识别的识别效率。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供了一种图像识别方法,所述方法包括:
获取待识别图像;
将所述待识别图像输入图像识别模型中的注意力图生成器,利用所述注意力图生成器中依次连接的第一卷积层和第二卷积层对所述待识别图像进行特征提取,得到所述待识别图像的图像区域特征图;所述图像区域特征图的尺寸与所述待识别图像的尺寸相同,所述第一卷积层包括串联连接的五层卷积层,所述第二卷积层包括依次连接的VGG-16模型的前十层和多个扩张卷积层,所述多个扩张卷积层的扩张率各不相同;
利用所述注意力图生成器中的区域输出层对所述待识别图像和所述图像区域特征图进行融合处理,得到所述待识别图像的图像区域分布图;所述图像区域分布图包括多个区域,所述多个区域中的每个区域为人群区域或背景区域;
将所述图像区域分布图输入所述图像识别模型中的密度图生成器,利用所述密度图生成器对所述图像区域分布图中所包括的人群区域进行密度特征提取,得到所述人群区域的人群密度特征;
根据所述人群区域的人群密度特征,通过所述密度图生成器输出所述待识别图像的人群密度图。
另一方面,本申请实施例提供了一种图像识别装置,所述装置包括获取单元、提取单元、融合单元和输出单元:
所述获取单元,用于获取待识别图像;
所述提取单元,用于将所述待识别图像输入图像识别模型中的注意力图生成器,利用所述注意力图生成器中依次连接的第一卷积层和第二卷积层对所述待识别图像进行特征提取,得到所述待识别图像的图像区域特征图;所述图像区域特征图的尺寸与所述待识别图像的尺寸相同,所述第一卷积层包括串联连接的五层卷积层,所述第二卷积层包括依次连接的VGG-16的前十层和多个扩张卷积层,所述多个扩张卷积层的扩张率各不相同;
所述融合单元,用于利用所述注意力图生成器中的区域输出层对所述待识别图像和所述图像区域特征图进行融合处理,得到所述待识别图像的图像区域分布图;所述图像区域分布图包括多个区域,所述多个区域中的每个区域为人群区域或背景区域;
所述提取单元,还用于将所述图像区域分布图输入所述图像识别模型中的密度图生成器,利用所述密度图生成器对所述图像区域分布图中所包括的人群区域进行密度特征提取,得到所述人群区域的人群密度特征;
所述输出单元,用于根据所述人群区域的人群密度特征,通过所述密度图生成器输出所述待识别图像的人群密度图。
又一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行以上方面所述的图像识别方法。
又一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行以上方面所述的图像识别方法。
又一方面,本申请实施例提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行以上方面所述的图像识别方法。
由上述技术方案可以看出,可以将获取到的待识别图像输入图像识别模型中的注意力图生成器中,利用注意力图生成器中依次连接的第一卷积层和第二卷积层对待识别图像进行特征提取,得到待识别图像的图像区域特征图,在网络结构方面,第一卷积层包括串联连接的五层卷积层,第二卷积层包括依次连接的VGG-16的前十层和多个扩张卷积层,且多个扩张卷积层的扩张率各不相同,如此,在利用第一卷积层进行特征提取时,可以提取更为丰富以及不同层次的区域特征,从而使得图像区域特征图可以更为准确地区分人群区域和背景区域这两类不同区域。由于图像区域特征图中是抽象的区域特征,以及图像区域特征图的尺寸与待识别图像的尺寸相同,故可以利用注意力图生成器中的区域输出层对待识别图像和图像区域特征图进行融合处理,得到待识别图像的图像区域分布图,基于此,使得图像区域分布图能够更准确地反映待识别图像中的人群区域和背景区域,具体的,图像区域分布图包括多个区域,多个区域中的每个区域为人群区域或背景区域。接着,可以将图像区域分布图输入图像识别模型中的密度图生成器,利用密度图生成器对图像区域分布图中所包括的人群区域进行密度特征提取,得到人群区域的人群密度特征,以及根据人群区域的人群密度特征,通过密度图生成器输出待识别图像的人群密度图,人群密度图能够指示待识别图像中的人群密集情况。基于此,正是利用密度图生成器将人群区域与背景区域进行了识别区分,如此使得在利用密度图生成器确定人群密度特征时,可以更关注人群区域,从而提高人群密度识别的识别效率。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像识别方法的流程图;
图2为本申请实施例提供的一种图像识别装置的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例所提供的图像识别方法可以通过计算机设备实施,该计算机设备可以是终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请对此不做任何限制。
需要说明的是,本申请提供的一种图像识别方法和相关装置可用人工智能领域或金融领域。上述仅为示例,并不对本申请提供的一种图像识别方法和相关装置的应用领域进行限定。
具体通过如下实施例进行说明:
图1为本申请实施例提供的一种图像识别方法的流程图,以服务器作为前述计算机设备为例进行说明,所述方法包括S101-S105:
S101:获取待识别图像。
在需要确定人群密度时,可以首先获取待识别图像,待识别图像可以是指需要确定人群密度的图像。例如,待识别图像可以是银行网点采集到的银行网点的图,图中通常包括银行网点来来往往的用户。
S102:将待识别图像输入图像识别模型中的注意力图生成器,利用注意力图生成器中依次连接的第一卷积层和第二卷积层对待识别图像进行特征提取,得到待识别图像的图像区域特征图。
接着,可以将待识别图像输入图像识别模型中的注意力图生成器,利用注意力图生成器中依次连接的第一卷积层和第二卷积层对待识别图像进行特征提取,得到待识别图像的图像区域特征图,图像区域特征图可以是指待识别图像中的各个区域,具体可以是基于特征提取确定的待识别图像中的人群区域以及背景区域。其中,图像区域特征图的尺寸与待识别图像的尺寸相同,第一卷积层包括串联连接的五层卷积层,第二卷积层包括依次连接的VGG-16模型的前十层和多个扩张卷积层,多个扩张卷积层的扩张率各不相同,如此,在利用第一卷积层进行特征提取时,可以提取更为丰富以及不同层次的区域特征,从而使得图像区域特征图可以更为准确地区分人群区域和背景区域这两类不同区域。其中,VGG-16模型具体可以是已经经过训练得到的,故将VGG-16模型的前十层作为注意力图生成器的第二卷积层中的部分卷积层,能够实现良好地特征提取效果。具体的,第一卷积层可以用于提取待识别图像的低级特征,第二卷积层中的多个扩张卷积层具有不同的扩张率,使得注意图生成器具有扩大接受野的人群的能力,能够用于处理各种人群密度规模的待识别图像。
在实际应用中,密度连接的网络模型更容易训练,相比较于传统的卷积网络,密度连接模式的一个可能反直觉效果是它需要更少的参数,密度连接有正则化的效果,在数据量更少的数据上训练,能够有效减少过拟合,具有高参数效率。故,针对第一卷积层所包括的五层卷积层,可以采用密度连接的方式连接,具体以前馈的方式将每层连接到其他每个层,通过特征重用利用网络潜力,对于每一层,前面所有图层的特征映射都被用作输入,并且它自己的特征映射被用作所有后续层的输入。通过不同层学习到的特征,提升位于网络后面层的输入的变化,改善效率。然后,可以将第一卷积层提取到的特征输入后续的第二卷积层进行后续处理。
可见,图像识别模型中的注意力图生成器的网络结构可以包括第一卷积层、第二卷积层和区域输出层。在实际应用中,注意图生成器可以是利用训练样本预先训练得到的,具体的,训练样本可以包括利用人群图像构建的正样本和利用背景图像构建的负样本,训练样本具有样本标签,样本标签用于指示训练样本中的各个区域是人群区域或者背景区域,基于此,通过训练使得注意图生成器能够学习到图像中的人群区域和背景区域的区域特征。相应的,完成训练后的注意图生成器即可用于对待识别图像进行识别,以确定图像区域特征图。在实际应用中,在确定图像区域特征图的过程中,还可以进行基于通道的全局最大池化处理和全局平均池化处理,并将全局最大池化处理和全局平均池化处理进行串联操作,然后经过一个卷积操作,降维为一个通道数后,经过Sigmoid函数确定图像区域特征图。
S103:利用注意力图生成器中的区域输出层对待识别图像和图像区域特征图进行融合处理,得到待识别图像的图像区域分布图。
由于图像区域特征图中是抽象的区域特征,以及图像区域特征图的尺寸与待识别图像的尺寸相同,故为了能够从待识别图像的维度体现区域特征,可以利用注意力图生成器中的区域输出层对待识别图像和图像区域特征图进行融合处理,得到待识别图像的图像区域分布图。基于此,使得图像区域分布图能够更准确地反映待识别图像中的人群区域和背景区域,具体的,图像区域分布图包括多个区域,多个区域中的每个区域为人群区域或背景区域。
需要说明的是,对于对待识别图像和图像区域特征图进行融合处理的方式,本申请不做任何限定。为了便于理解,本申请实施例提供以下实现方式作为示例:
在实际应用中,图像区域分布图中可以指示各个区域的权重,区域的权重用于表示该区域中具有人群的概率,即,区域的权重可以用于表示该区域是人群区域的概率,具体的,人群区域具有较高的权重,背景区域具有较低的权重。具体的,可以将权重大于或等于预设权重的区域确定为人群区域,将权重小于预设权重的区域确定为背景区域,例如,权重的取值可以是[0,1]之间的数,相应的,预设权重可以设置为0.3。
为了能够从待识别图像的维度体现区域特征,也就是使得待识别图像中的人群区域和背景区域的区分更为显著,在一种可能的实现方式中,可以利用注意力图生成器中的区域输出层对待识别图像和图像区域特征图进行逐像素乘积处理,得到图像区域分布图。基于逐像素乘积,可以使得待识别图像中的人群区域和背景区域的区分更为显著,从而使得图像区域分布图能够更准确地反映待识别图像中的人群区域和背景区域。在具体实施时,可以是采用线性加权的方式进行逐像素乘积,实现对待识别图像和图像区域特征图进行融合处理的目的。
S104:将图像区域分布图输入图像识别模型中的密度图生成器,利用密度图生成器对图像区域分布图中所包括的人群区域进行密度特征提取,得到人群区域的人群密度特征。
S105:根据人群区域的人群密度特征,通过密度图生成器输出待识别图像的人群密度图。
在利用图像识别模型中的注意力图生成器确定出待识别图像的图像区域分布图之后,可以将图像区域分布图输入图像识别模型中的密度图生成器,利用密度图生成器对图像区域分布图中所包括的人群区域进行密度特征提取,得到人群区域的人群密度特征,人群区域的人群密度特征可以用于指示人群区域中所包括的人群情况。以及,可以根据人群区域的人群密度特征,通过密度图生成器输出待识别图像的人群密度图,人群密度图能够指示待识别图像中的人群密集情况。基于此,正是利用密度图生成器将人群区域与背景区域进行了识别区分,如此使得在利用密度图生成器确定人群密度特征时,可以更关注人群区域,从而提高人群密度识别的识别效率。
在实际应用中,密度图生成器包括依次连接的第三卷积层、MCNN卷积列和密度输出层,相应的,前述的S104在具体实施时,可以针对人群区域,利用第三卷积层提取人群区域的低级特征,进而可以根据低级特征,利用MCNN卷积列确定人群区域的人群密度特征,人群密度特征可以用于指示人群区域中所包括的人群情况。相应的,前述的S105在具体实施时,可以根据人群区域的人群密度特征,利用密度输出层输出待识别图像的人群密度图。具体的,第三卷积层可以包括十层普通的网络卷积层,主要用于提取人群区域的低级特征,低级特征能够体现人群区域中所包括的人群情况,相较于人群区域自身而言,是通过十层普通的网络卷积层进行卷积处理得到的,是一种抽象的特征信息,作为后续的MCNN卷积列的输入,有利于MCNN卷积列的处理。
为了能够兼容待识别图像中的各种遮挡、多样化的人群分布以及透视图造成的失真,可以采用多尺度可变形卷积的网络。具体的,MCNN卷积列可以包括三列卷积列和预测卷积层,且三列卷积列具有的滤波器的大小各不相同。相应的,在基于低级特征确定人群密度特征时,可以根据低级特征,利用三列卷积列中的第一列卷积列输出第一尺度特征、利用三列卷积列中的第二列卷积列输出第二尺度特征、以及利用三列卷积列中的第三列卷积列输出第三尺度特征,由于三列卷积列具有的滤波器的大小各不相同,使得三列卷积列可以提取到不同尺度的特征,相应得到三种尺度上的特征,更为丰富。接着,可以利用预测卷积层对第一尺度特征、第二尺度特征和第三尺度特征进行融合处理,得到融合后的多尺度特征,以及根据融合后的多尺度特征,利用预测卷积层输出人群区域的人群密度特征。基于此,利用不同尺度上更为丰富的特征,有利于提高人群密度特征的准确性,使得人群密度特征能够更为准确地指示人群区域中的人群情况。
在实际应用中,三列卷积列中的第一列卷积列、第二列卷积列以及第三列卷积列,均可以包括五层卷积层。以及,三列卷积列具有的滤波器的大小分别可以是3*3、5*5以及7*7,滤波器的大小不同,对应的感受野不同,使得可以关注到不同尺度的特征,使得对于透视或不同的图像分辨率造成的人或者人头大小变化是自适应的,即,可以提高兼容性。由于三列卷积列具有的滤波器的大小不同,为了便于确定人群密度特征,前述的预测卷积层具有的滤波器的大小可以为一乘一,即采用滤波器大小为1*1的预测卷积层代替传统网络模型中的连接层进行预测,如此,可以允许输入任何尺寸或者分辨率的图像,提高兼容性。相较于均匀采样的方式,这种多尺度的方式也可以认为是一种动态采样方式,更适合拥挤嘈杂场景的人群识别。
可见,密度图生成器可以更为关注人群区域,而对于背景区域,在一种可能的实现方式中,针对图像区域分布图中所包括的背景区域,可以利用密度图生成器确定背景区域的人群密度值为零,人群密度值为零用于指示背景区域中不包括人群。对应的,在确定人群区域的人群密度图时,可以针对图像区域分布图中所包括的人群区域,根据人群区域的人群密度特征,通过密度图生成器确定人群区域的人群密度值,人群区域的人群密度值为正数,用于指示人群区域所包括的人群多少,也就是说,人群区域的人群密度值可以用于指示人群区域的人群拥挤程度。接着,可以根据图像区域分布图中所包括的背景区域的人群密度值和图像区域分布图中所包括的人群区域的人群密度值,确定多个区域分别对应的人群密度值,以及基于多个区域和多个区域分别对应的人群密度值,通过密度图生成器输出待识别图像的人群密度图。基于此,人群密度图可以包括多个区域和多个区域分别对应的人群密度值。如此一来,可以利用人群密度图快速定位哪些区域包含人群、哪些区域不包含人群,以及包含人群的那些区域中,各自所包含的人群拥挤程度。
在实际应用中,可以采用Softmax函数确定人群密度值,基于此,使得每个区域的人群密度值都处于[0,1]之间。通常,人群密度值大于密度阈值的人群区域,可以认为是人群较为拥挤的区域,可能存在安全隐患。因此,在一种可能的实现方式中,可以将人群密度值大于密度阈值的人群区域,作为拥挤区域,并对拥挤区域进行预警,以便提示相关工作人员及时采取措施对拥挤区域的人群进行疏导,尽可能避免悲剧的发生,更好地保障用户的资产财产和人身安全。其中,密度阈值可以是预先设置的,例如可以设置密度阈值为0.8。
在实际应用中,密度图生成器可以是利用密度训练样本预先训练得到的,密度训练样本具体可以是利用前述训练好的注意图生成器生成的人群图像以及背景图像的图像区域分布图构建的,密度训练样本的样本标签用于指示密度训练样本的人群密度,具体例如可以是用于指示密度训练样本中的人群图像以及背景图像的图像区域分布图中所包括的各个区域的人群密度值。相应的,完成训练后的密度图生成器可以用于对待识别图像的图像区域分布图进行处理,得到待识别图像的人群密度图,具体的,人群密度图可以包括多个区域以及多个区域分别对应的人群密度值。
由上述技术方案可以看出,可以将获取到的待识别图像输入图像识别模型中的注意力图生成器中,利用注意力图生成器中依次连接的第一卷积层和第二卷积层对待识别图像进行特征提取,得到待识别图像的图像区域特征图,在网络结构方面,第一卷积层包括串联连接的五层卷积层,第二卷积层包括依次连接的VGG-16的前十层和多个扩张卷积层,且多个扩张卷积层的扩张率各不相同,如此,在利用第一卷积层进行特征提取时,可以提取更为丰富以及不同层次的区域特征,从而使得图像区域特征图可以更为准确地区分人群区域和背景区域这两类不同区域。由于图像区域特征图中是抽象的区域特征,以及图像区域特征图的尺寸与待识别图像的尺寸相同,故可以利用注意力图生成器中的区域输出层对待识别图像和图像区域特征图进行融合处理,得到待识别图像的图像区域分布图,基于此,使得图像区域分布图能够更准确地反映待识别图像中的人群区域和背景区域,具体的,图像区域分布图包括多个区域,多个区域中的每个区域为人群区域或背景区域。接着,可以将图像区域分布图输入图像识别模型中的密度图生成器,利用密度图生成器对图像区域分布图中所包括的人群区域进行密度特征提取,得到人群区域的人群密度特征,以及根据人群区域的人群密度特征,通过密度图生成器输出待识别图像的人群密度图,人群密度图能够指示待识别图像中的人群密集情况。基于此,正是利用密度图生成器将人群区域与背景区域进行了识别区分,如此使得在利用密度图生成器确定人群密度特征时,可以更关注人群区域,从而提高人群密度识别的识别效率。
图2为本申请实施例提供的一种图像识别装置的结构图,所述装置包括获取单元、提取单元、融合单元和输出单元:
所述获取单元201,用于获取待识别图像;
所述提取单元202,用于将所述待识别图像输入图像识别模型中的注意力图生成器,利用所述注意力图生成器中依次连接的第一卷积层和第二卷积层对所述待识别图像进行特征提取,得到所述待识别图像的图像区域特征图;所述图像区域特征图的尺寸与所述待识别图像的尺寸相同,所述第一卷积层包括串联连接的五层卷积层,所述第二卷积层包括依次连接的VGG-16的前十层和多个扩张卷积层,所述多个扩张卷积层的扩张率各不相同;
所述融合单元203,用于利用所述注意力图生成器中的区域输出层对所述待识别图像和所述图像区域特征图进行融合处理,得到所述待识别图像的图像区域分布图;所述图像区域分布图包括多个区域,所述多个区域中的每个区域为人群区域或背景区域;
所述提取单元202,还用于将所述图像区域分布图输入所述图像识别模型中的密度图生成器,利用所述密度图生成器对所述图像区域分布图中所包括的人群区域进行密度特征提取,得到所述人群区域的人群密度特征;
所述输出单元204,用于根据所述人群区域的人群密度特征,通过所述密度图生成器输出所述待识别图像的人群密度图。
在一种可能的实现方式中,所述密度图生成器包括依次连接的第三卷积层、MCNN卷积列和密度输出层,所述提取单元还用于:
针对所述人群区域,利用所述第三卷积层提取所述人群区域的低级特征;
根据所述低级特征,利用所述MCNN卷积列确定所述人群区域的人群密度特征;
所述输出单元还用于:
根据所述人群区域的人群密度特征,利用所述密度输出层输出所述待识别图像的人群密度图。
在一种可能的实现方式中,所述MCNN卷积列包括三列卷积列和预测卷积层,所述三列卷积列具有的滤波器的大小各不相同,所述提取单元还用于:
根据所述低级特征,利用所述三列卷积列中的第一列卷积列输出第一尺度特征、利用所述三列卷积列中的第二列卷积列输出第二尺度特征、以及利用所述三列卷积列中的第三列卷积列输出第三尺度特征;
利用所述预测卷积层对所述第一尺度特征、所述第二尺度特征和所述第三尺度特征进行融合处理,得到融合后的多尺度特征;
根据所述融合后的多尺度特征,利用所述预测卷积层输出所述人群区域的人群密度特征。
在一种可能的实现方式中,所述预测卷积层具有的滤波器的大小为一乘一。
在一种可能的实现方式中,所述装置还包括确定单元:
所述确定单元,用于针对所述图像区域分布图中所包括的背景区域,利用所述密度图生成器确定所述背景区域的人群密度值为零;
所述输出单元还用于:
针对所述图像区域分布图中所包括的人群区域,根据所述人群区域的人群密度特征,通过所述密度图生成器确定所述人群区域的人群密度值;所述人群区域的人群密度值为正数;
根据所述图像区域分布图中所包括的背景区域的人群密度值和所述图像区域分布图中所包括的人群区域的人群密度值,确定所述多个区域分别对应的人群密度值;
基于所述多个区域和所述多个区域分别对应的人群密度值,通过所述密度图生成器输出所述待识别图像的人群密度图;所述人群密度图包括所述多个区域和所述多个区域分别对应的人群密度值。
在一种可能的实现方式中,所述融合单元还用于:
利用所述注意力图生成器中的区域输出层对所述待识别图像和所述图像区域特征图进行逐像素乘积处理,得到所述图像区域分布图。
由上述技术方案可以看出,可以将获取到的待识别图像输入图像识别模型中的注意力图生成器中,利用注意力图生成器中依次连接的第一卷积层和第二卷积层对待识别图像进行特征提取,得到待识别图像的图像区域特征图,在网络结构方面,第一卷积层包括串联连接的五层卷积层,第二卷积层包括依次连接的VGG-16的前十层和多个扩张卷积层,且多个扩张卷积层的扩张率各不相同,如此,在利用第一卷积层进行特征提取时,可以提取更为丰富以及不同层次的区域特征,从而使得图像区域特征图可以更为准确地区分人群区域和背景区域这两类不同区域。由于图像区域特征图中是抽象的区域特征,以及图像区域特征图的尺寸与待识别图像的尺寸相同,故可以利用注意力图生成器中的区域输出层对待识别图像和图像区域特征图进行融合处理,得到待识别图像的图像区域分布图,基于此,使得图像区域分布图能够更准确地反映待识别图像中的人群区域和背景区域,具体的,图像区域分布图包括多个区域,多个区域中的每个区域为人群区域或背景区域。接着,可以将图像区域分布图输入图像识别模型中的密度图生成器,利用密度图生成器对图像区域分布图中所包括的人群区域进行密度特征提取,得到人群区域的人群密度特征,以及根据人群区域的人群密度特征,通过密度图生成器输出待识别图像的人群密度图,人群密度图能够指示待识别图像中的人群密集情况。基于此,正是利用密度图生成器将人群区域与背景区域进行了识别区分,如此使得在利用密度图生成器确定人群密度特征时,可以更关注人群区域,从而提高人群密度识别的识别效率。
又一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述实施例提供的图像识别方法。
该计算机设备可以包括终端设备或服务器,前述的图像识别装置可以配置在该计算机设备中。
又一方面,本申请实施例还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序用于执行上述实施例提供的图像识别方法。
另外,本申请实施例还提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例提供的图像识别方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:Read-only Memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请实施例提供的一种图像识别方法和相关装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法。同时,对于本领域的一般技术人员,依据本申请的方法,在具体实施方式及应用范围上均会有改变之处。
综上所述,本说明书内容不应理解为对本申请的限制,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。而且本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
Claims (10)
1.一种图像识别方法,其特征在于,所述方法包括:
获取待识别图像;
将所述待识别图像输入图像识别模型中的注意力图生成器,利用所述注意力图生成器中依次连接的第一卷积层和第二卷积层对所述待识别图像进行特征提取,得到所述待识别图像的图像区域特征图;所述图像区域特征图的尺寸与所述待识别图像的尺寸相同,所述第一卷积层包括串联连接的五层卷积层,所述第二卷积层包括依次连接的VGG-16模型的前十层和多个扩张卷积层,所述多个扩张卷积层的扩张率各不相同;
利用所述注意力图生成器中的区域输出层对所述待识别图像和所述图像区域特征图进行融合处理,得到所述待识别图像的图像区域分布图;所述图像区域分布图包括多个区域,所述多个区域中的每个区域为人群区域或背景区域;
将所述图像区域分布图输入所述图像识别模型中的密度图生成器,利用所述密度图生成器对所述图像区域分布图中所包括的人群区域进行密度特征提取,得到所述人群区域的人群密度特征;
根据所述人群区域的人群密度特征,通过所述密度图生成器输出所述待识别图像的人群密度图。
2.根据权利要求1所述的方法,其特征在于,所述密度图生成器包括依次连接的第三卷积层、MCNN卷积列和密度输出层,所述利用所述密度图生成器对所述图像区域分布图中所包括的人群区域进行密度特征提取,得到所述人群区域的人群密度特征,包括:
针对所述人群区域,利用所述第三卷积层提取所述人群区域的低级特征;
根据所述低级特征,利用所述MCNN卷积列确定所述人群区域的人群密度特征;
所述根据所述人群区域的人群密度特征,通过所述密度图生成器输出所述待识别图像的人群密度图,包括:
根据所述人群区域的人群密度特征,利用所述密度输出层输出所述待识别图像的人群密度图。
3.根据权利要求2所述的方法,其特征在于,所述MCNN卷积列包括三列卷积列和预测卷积层,所述三列卷积列具有的滤波器的大小各不相同,所述根据所述低级特征,利用所述MCNN卷积列确定所述人群区域的人群密度特征,包括:
根据所述低级特征,利用所述三列卷积列中的第一列卷积列输出第一尺度特征、利用所述三列卷积列中的第二列卷积列输出第二尺度特征、以及利用所述三列卷积列中的第三列卷积列输出第三尺度特征;
利用所述预测卷积层对所述第一尺度特征、所述第二尺度特征和所述第三尺度特征进行融合处理,得到融合后的多尺度特征;
根据所述融合后的多尺度特征,利用所述预测卷积层输出所述人群区域的人群密度特征。
4.根据权利要求3所述的方法,其特征在于,所述预测卷积层具有的滤波器的大小为一乘一。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述图像区域分布图中所包括的背景区域,利用所述密度图生成器确定所述背景区域的人群密度值为零;
所述根据所述人群区域的人群密度特征,通过所述密度图生成器输出所述待识别图像的人群密度图,包括:
针对所述图像区域分布图中所包括的人群区域,根据所述人群区域的人群密度特征,通过所述密度图生成器确定所述人群区域的人群密度值;所述人群区域的人群密度值为正数;
根据所述图像区域分布图中所包括的背景区域的人群密度值和所述图像区域分布图中所包括的人群区域的人群密度值,确定所述多个区域分别对应的人群密度值;
基于所述多个区域和所述多个区域分别对应的人群密度值,通过所述密度图生成器输出所述待识别图像的人群密度图;所述人群密度图包括所述多个区域和所述多个区域分别对应的人群密度值。
6.根据权利要求1-5中任意一项所述的方法,其特征在于,所述利用所述注意力图生成器中的区域输出层对所述待识别图像和所述图像区域特征图进行融合处理,得到所述待识别图像的图像区域分布图,包括:
利用所述注意力图生成器中的区域输出层对所述待识别图像和所述图像区域特征图进行逐像素乘积处理,得到所述图像区域分布图。
7.一种图像识别装置,其特征在于,所述装置包括获取单元、提取单元、融合单元和输出单元:
所述获取单元,用于获取待识别图像;
所述提取单元,用于将所述待识别图像输入图像识别模型中的注意力图生成器,利用所述注意力图生成器中依次连接的第一卷积层和第二卷积层对所述待识别图像进行特征提取,得到所述待识别图像的图像区域特征图;所述图像区域特征图的尺寸与所述待识别图像的尺寸相同,所述第一卷积层包括串联连接的五层卷积层,所述第二卷积层包括依次连接的VGG-16的前十层和多个扩张卷积层,所述多个扩张卷积层的扩张率各不相同;
所述融合单元,用于利用所述注意力图生成器中的区域输出层对所述待识别图像和所述图像区域特征图进行融合处理,得到所述待识别图像的图像区域分布图;所述图像区域分布图包括多个区域,所述多个区域中的每个区域为人群区域或背景区域;
所述提取单元,还用于将所述图像区域分布图输入所述图像识别模型中的密度图生成器,利用所述密度图生成器对所述图像区域分布图中所包括的人群区域进行密度特征提取,得到所述人群区域的人群密度特征;
所述输出单元,用于根据所述人群区域的人群密度特征,通过所述密度图生成器输出所述待识别图像的人群密度图。
8.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-6中任意一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-6中任意一项所述的方法。
10.一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行权利要求1-6中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310653547.0A CN116665128A (zh) | 2023-06-02 | 2023-06-02 | 一种图像识别方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310653547.0A CN116665128A (zh) | 2023-06-02 | 2023-06-02 | 一种图像识别方法和相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116665128A true CN116665128A (zh) | 2023-08-29 |
Family
ID=87725764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310653547.0A Pending CN116665128A (zh) | 2023-06-02 | 2023-06-02 | 一种图像识别方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665128A (zh) |
-
2023
- 2023-06-02 CN CN202310653547.0A patent/CN116665128A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860573B (zh) | 模型训练方法、图像类别检测方法、装置和电子设备 | |
CN112560829B (zh) | 人群数量确定方法、装置、设备及存储介质 | |
CN110119736B (zh) | 车牌位置识别方法、装置及电子设备 | |
CN114693624B (zh) | 一种图像检测方法、装置、设备及可读存储介质 | |
CN111639607A (zh) | 模型训练、图像识别方法和装置、电子设备及存储介质 | |
CN111652661B (zh) | 一种手机客户端用户流失预警处理方法 | |
CN114638633A (zh) | 异常流量检测的方法和装置、电子设备和存储介质 | |
CN114841705B (zh) | 一种基于场景识别的反欺诈监测方法 | |
CN117523218A (zh) | 标签生成、图像分类模型的训练、图像分类方法及装置 | |
CN115035347A (zh) | 图片识别方法、装置及电子设备 | |
CN114898737A (zh) | 声学事件检测方法、装置、电子设备和存储介质 | |
CN114005019A (zh) | 一种翻拍图像识别方法及其相关设备 | |
CN112132867B (zh) | 一种遥感影像变化检测方法及装置 | |
CN113313582A (zh) | 拒客回捞模型训练方法、装置及电子设备 | |
CN116205726B (zh) | 一种贷款风险预测方法、装置、电子设备及存储介质 | |
CN116010228B (zh) | 面向网络安全扫描的时间预估方法及装置 | |
CN107734534B (zh) | 一种网络负荷评估方法及装置 | |
CN112613341A (zh) | 训练方法及装置、指纹识别方法及装置、电子设备 | |
CN116168213A (zh) | 人流量数据的识别方法和人流量数据识别模型的训练方法 | |
CN116665128A (zh) | 一种图像识别方法和相关装置 | |
CN114445716A (zh) | 关键点检测方法、装置、计算机设备、介质及程序产品 | |
CN113537087A (zh) | 一种智慧交通信息处理方法、装置及服务器 | |
CN115482500A (zh) | 基于置信概率的人群统计方法及装置 | |
CN112417007A (zh) | 一种数据分析方法、装置、电子设备及存储介质 | |
CN110969209A (zh) | 一种陌生人识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |