CN114120245B - 基于深度神经网络的人群图像分析方法、装置以及设备 - Google Patents

基于深度神经网络的人群图像分析方法、装置以及设备 Download PDF

Info

Publication number
CN114120245B
CN114120245B CN202111535629.2A CN202111535629A CN114120245B CN 114120245 B CN114120245 B CN 114120245B CN 202111535629 A CN202111535629 A CN 202111535629A CN 114120245 B CN114120245 B CN 114120245B
Authority
CN
China
Prior art keywords
feature map
crowd
crowd image
image analysis
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111535629.2A
Other languages
English (en)
Other versions
CN114120245A (zh
Inventor
韩茂琨
刘玉宇
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111535629.2A priority Critical patent/CN114120245B/zh
Publication of CN114120245A publication Critical patent/CN114120245A/zh
Application granted granted Critical
Publication of CN114120245B publication Critical patent/CN114120245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及人工智能领域,公开了一种基于深度神经网络的人群图像分析方法,包括:获取待分析的人群图像,将人群图像输入至预设的编码器进行分析得到人群图像对应的特征图,对特征图执行预设的通道压缩操作得到特征图对应的通道压缩向量,将通道压缩向量输入至预设的解码器进行分析得到人群图像对应的分析结果。可见,本发明能够对人群图像的特征图进行通道压缩,从而能够减少特征图中的冗余信息,减少冗余信息对深度神经网络的推断的干扰,并减少冗余信息所占用的额外的计算资源,进而能够提高基于深度神经网络的人群图像分析技术的准确度和计算效率。

Description

基于深度神经网络的人群图像分析方法、装置以及设备
技术领域
本发明涉及人工智能领域,尤其涉及一种基于深度神经网络的人群图像分析方法、装置、计算机设备以及存储介质。
背景技术
基于深度神经网络实现对人群图像中的人的数量的计数是一项深度神经网络技术的常见应用,其通过深度神经网络计数对人群图像进行分析,能够分析出人群图像中所包含的人的数量。随着对深度神经网络技术的研究的不断深入,人们通常会通过设计更复杂的深度神经网络来对现有的深度神经网络技术进行优化(通常更复杂的深度神经网络能够学习到更多特征信息,从而能够完成更复杂的任务)。如,目前的神经网络优化模块均是通过额外的计算,扩充额外的通道数来帮助神经网络学习到更加丰富的特征信息,然而在神经网络学习到更多特征信息的同时,也学习了很多的冗余信息,这些冗余信息会干扰神经网络的推断,还会占用额外的计算量资源,不利于提高神经网络的性能。可见,目前的基于深度神经网络的人群图像分析技术的准确度和计算效率仍有进一步提升的空间。
发明内容
本发明所要解决的技术问题在于,目前的基于深度神经网络的人群图像分析技术的准确度和计算效率较低。
为了解决上述技术问题,本发明第一方面公开了一种基于深度神经网络的人群图像分析方法,所述方法包括:
获取待分析的人群图像;
将所述人群图像输入至预设的编码器进行分析,得到所述人群图像对应的特征图;
对所述特征图执行预设的通道压缩操作,以得到所述特征图对应的通道压缩向量,其中,所述通道压缩操作用于实现压缩所述特征图的通道;
将所述通道压缩向量输入至预设的解码器进行分析,得到所述人群图像对应的分析结果,其中,所述分析结果用于表示所述人群图像中的人的数量。
本发明第二方面公开了一种基于深度神经网络的人群图像分析装置,所述装置包括:
获取模块,用于获取待分析的人群图像;
编码模块,用于将所述人群图像输入至预设的编码器进行分析,得到所述人群图像对应的特征图;
压缩模块,用于对所述特征图执行预设的通道压缩操作,以得到所述特征图对应的通道压缩向量,其中,所述通道压缩操作用于实现压缩所述特征图的通道;
分析模块,用于将所述通道压缩向量输入至预设的解码器进行分析,得到所述人群图像对应的分析结果,其中,所述分析结果用于表示所述人群图像中的人的数量。
本发明第三方面公开了一种计算机设备,所述计算机设备包括:
存储有可执行程序代码的存储器;
与所述存储器连接的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于深度神经网络的人群图像分析方法中的部分或全部步骤。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于深度神经网络的人群图像分析方法中的部分或全部步骤。
本发明实施例中,获取待分析的人群图像,将人群图像输入至预设的编码器进行分析得到人群图像对应的特征图,对特征图执行预设的通道压缩操作得到特征图对应的通道压缩向量,将通道压缩向量输入至预设的解码器进行分析得到人群图像对应的分析结果。通过在基于深度神经网络对人群图像进行分析的过程中,对人群图像的特征图进行通道压缩,从而能够减少特征图中的冗余信息,减少冗余信息对深度神经网络的推断的干扰,并减少冗余信息所占用的额外的计算资源,进而能够提高基于深度神经网络的人群图像分析技术的准确度和计算效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于深度神经网络的人群图像分析方法的流程示意图;
图2是本发明实施例中的人群图像的一个示例;
图3是图2中的人群图像的真值图;
图4是图2中的人群图像的预测图;
图5是本发明实施例公开的一种基于深度神经网络的人群图像分析装置的结构示意图;
图6是本发明实施例公开的一种计算机设备的结构示意图;
图7是本发明实施例公开的一种计算机存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明公开了一种基于深度神经网络的人群图像分析方法、装置、计算机设备以及存储介质,获取待分析的人群图像,将人群图像输入至预设的编码器进行分析得到人群图像对应的特征图,对特征图执行预设的通道压缩操作得到特征图对应的通道压缩向量,将通道压缩向量输入至预设的解码器进行分析得到人群图像对应的分析结果。通过在基于深度神经网络对人群图像进行分析的过程中,对人群图像的特征图进行通道压缩,从而能够减少特征图中的冗余信息,减少冗余信息对深度神经网络的推断的干扰,并减少冗余信息所占用的额外的计算资源,进而能够提高基于深度神经网络的人群图像分析技术的准确度和计算效率。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种基于深度神经网络的人群图像分析方法的流程示意图。如图1所示,该基于深度神经网络的人群图像分析方法可以包括以下操作:
101、获取待分析的人群图像。
在上述步骤101中,待分析的人群图像可以是由安装在街道口、商场等人群密集场所的摄像头拍摄到的图像,其中通常包括较多的行人,后续即可以对人群图像进行分析,分析出其中的人的数量。可选地,人群图像可以从摄像头终端获取,也可以从云端获取(如,摄像头终端可以先将人群图像上传至云端进行保存,然后即可以从云端获取人群图像)。
102、将所述人群图像输入至预设的编码器进行分析,得到所述人群图像对应的特征图。
在上述步骤102中,编码器可以是VGG(Visual Geometry Group)-16网络。编码器可以理解为一连串的人工神经网络,其可以对输入的人群图像进行压缩,得到人群图像中的精髓数据(即人群图像对应的特征图)。VGG-16网络的输入是224*224的RGB图像,共有13个卷积层(conv3)、5个最大池化层(maxpool)、3个全连接层(FC)和1个softmax层。由于同时包括13个卷积层和3个全连接层,13+3=16,只有这些网络层含有参数,共包含1.38亿个参数,所以该网络被命名为VGG-16。VGG-16网络的全连接层(FC-4096、FC-1000等)输出的多维度特征数据即可以作为人群图像对应的特征图,如,将FC-4096全连接层输出的4096维度特征数据作为人群图像对应的特征图。一般而言,VGG-16网络的网络结构比较规整,其包含的超参数较少,使得整体网络结构较为简单,通常是几个卷积层之后接入一个可以压缩图像大小的池化层,且基本使用3*3的小型卷积核(CONV=3*3filters,s=1,padding=sameconvolution)和2*2的最大池化层(MAX_POOL=2*2,s=2)。在VGG-16网络中,随着网络加深,输入图像的宽度和高度都在以一定的规律不断减小,每次池化后刚好缩小一半,通道数目不断增加一倍。
103、对所述特征图执行预设的通道压缩操作,以得到所述特征图对应的通道压缩向量,其中,所述通道压缩操作用于实现压缩所述特征图的通道。
在上述步骤103中,特征图的通道数越多,深度神经网络学习到的特征信息越丰富,但是随之而来的是,引入了更多的冗余信息,这些冗余信息会影响深度神经网络的推断,并占用深度神经网络的计算资源,从而降低神经网络的性能。所以,可以通过压缩特征图中的通道,来实现对冗余信息的优化,使得深度神经网络能够更专注于对人群特征的学习,从而提高神经网络的性能。对特征图的通道压缩过程,稍后进行具体描述,其可以通过在深度神经网络的解码器和编码器之间插入预设的CAC-block来实现,其中,CAC-block能够对特征图进行通道压缩。编码器VGG-16网络通常是一个双路网络,所以在每个VGG-16网络之后,通常需要接入两个CAC-block来进行通道压缩。本发明实施例的人群图像分析方法中的编码器可以同时包括4个VGG-16网络,所以在编码器之后可以接入8个CAC-block,编码器的每路输出均接入一个CAC-block,以对该路输出的特征图进行通道压缩。
104、将所述通道压缩向量输入至预设的解码器进行分析,得到所述人群图像对应的分析结果,其中,所述分析结果用于表示所述人群图像中的人的数量。
在上述步骤104中,解码器可以对通道压缩向量进行解压,从而弥补对人群图像进行压缩后造成的细节损失,最终得到人群图像的分析结果。在深度神经网络技术中,编码器加解码器的方式是一种常用的技术手段,通过编码器加解码器的方式能够使深度神经网络能够实现各种任务,如,统计出人群图像中的人的数量。
可选地,本发明实施例公开的基于深度神经网络的人群图像分析方法的开发环境可以包括linux操作系统、cuda9.0、cudnn7.5、Pytorch 1.3、opencv4.1.0等。
图2是示出了本发明实施例中的人群图像的一个示例,图3是示出了图2中的人群图像的真值图,图4是示出了图2中的人群图像的预测图。需要说明的是,真值图是用于表示人群图像中的人的数量的正确值的图,预测图是用于表示本发明实施例的人群图像分析方法对人群图像进行分析后预测出的人的数量的预测值的图。图2为实验中较有代表性的密集人群图,图2中包含着密集的人群,为了精确地对人群图像进行分析,本发明实施例中的深度神经网络模型需要克服尺度变化、透视形变、目标遮蔽、背景干扰等问题,才能准确地分析出人群图像中的人的数量。在分析人群图像中的人的数量时,深度神经网络不仅要学习人群图像中人群的分布信息、尺度信息、透视信息等有助于精确分析的信息,还要避免深度神经网络中的噪声信息、背景信息的干扰,通过合理的特征图通道压缩,即能够优化掉冗余杂乱的信息,使得深度神经网络更加专注于人群特征的学习,从而能够提高人群图像分析的准确度和计算效率。结合图2、图3、图4可以看出,对特征图进行通道压缩之后,集成了CAC-block的深度学习神经网络可以较好地区分人群信息与背景噪声,并对人群图像中人群密集的区域进行合理估计。实验后,发现深度学习神经网络对人的数量的分析正确率达到97%,能够较准确地分析出人的数量,说明了集成CAC-block的深度学习神经网络可以对密集人群密度进行精确的估计。另外,通过在ShanghaiTechA数据集上得到消融实验数据为:没有进行通道压缩的深度学习神经网络的绝对误差(MAE)为59.8;进行通道压缩的深度学习神经网络的绝对误差(MAE)为:58.4。可见,深度学习模型的精度提升了2.3%,这也进一步验证了CAC-block对深度学习神经网络的提升效果。此外,进行通道压缩的深度学习神经网络降低了6%的训练参数,也极大地提高了深度学习神经网络的实用性。在实验中,可以在pytorch平台上训练并测试CAC-block的有效性。CAC-block是一个即插即用的模型,可以对冗余的特征图进行有效的通道压缩,从而能够提取到更加精简的特征图。这样不仅可以减少深度神经网路中不必要的计算,还可以使深度神经网路根据这些精简的特征图略去可能引起歧义的噪声信息而关注更重要的特征信息。
可见,实施图1所描述的基于深度神经网络的人群图像分析方法,获取待分析的人群图像,将人群图像输入至预设的编码器进行分析得到人群图像对应的特征图,对特征图执行预设的通道压缩操作得到特征图对应的通道压缩向量,将通道压缩向量输入至预设的解码器进行分析得到人群图像对应的分析结果。通过在基于深度神经网络对人群图像进行分析的过程中,对人群图像的特征图进行通道压缩,从而能够减少特征图中的冗余信息,减少冗余信息对深度神经网络的推断的干扰,并减少冗余信息所占用的额外的计算资源,进而能够提高基于深度神经网络的人群图像分析技术的准确度和计算效率。
在一个可选的实施例中,所述对所述特征图执行预设的通道压缩操作,以得到所述特征图对应的通道压缩向量,包括:
对所述特征图执行预设的注意力向量转换操作,以得到所述特征图对应的注意力向量,其中,所述注意力向量转换操作用于实现将所述特征图转换为对应的注意力向量;
基于所述注意力向量对所述特征图执行预设的向量压缩操作,以得到所述特征图对应的通道压缩向量,其中,所述向量压缩操作用于实现基于所述注意力向量对所述特征图的通道进行压缩。
在该可选的实施例中,可以先根据特征图生成对应的注意力向量,然后根据生成的注意力向量对特征图进行通道压缩,从而减少特征图中的通道数量。在深度神经网络中,特征图的通道数量越多,即意味着深度神经网络所提取的特征信息越丰富,即特征信息中的冗余信息也越多。所以,减少特征图中的通道数量能够有效地减少深度神经网络中的冗余信息,从而达到提高人群图像分析技术的准确度和计算效率的效果。
可见,实施该可选的实施例,先根据特征图生成对应的注意力向量,然后根据生成的注意力向量对特征图进行通道压缩,从而能够减少特征图中的通道数量,实现对特征图的通道压缩。
在一个可选的实施例中,所述对所述特征图执行预设的注意力向量转换操作,以得到所述特征图对应的注意力向量,包括:
通过以下公式将所述特征图转换为所述特征图对应的注意力向量:
M(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
其中,M(F)表示所述特征图对应的注意力向量,MLP表示多层感知机,AvgPool表示均匀池化运算,MaxPool表示最大池化计算,σ表示sigmoid函数,F表示所述特征图。
在该可选的实施例中,对特征图进行均匀池化运算,然后输入至第一多层感知机进行处理。并对特征图进行最大池化运算,然后输入至第二多层感知机进行处理。最后,将第一多层感知机和第二多层感知机的输出进行叠加之后,输入至sigmoid函数进行运算,从而能够实现将特征图转换为特征图对应的注意力向量。其中,第一多层感知机和第二多层感知机均可以是只包括一层隐藏层的多层感知机。注意力向量的转换过程可以在CAC-block中实现。
在一个可选的实施例中,所述基于所述注意力向量对所述特征图执行预设的向量压缩操作,以得到所述特征图对应的通道压缩向量,包括:
通过以下公式对所述特征图的通道进行压缩;
其中,f1*1表示1x1的卷积运算,表示矩阵乘法,表示同元素相加,Fc表示所述特征图对应的通道压缩向量,F表示所述特征图,M(F)表示所述特征图对应的注意力向量。
在该可选的实施例中,在得到特征图对应的注意力向量之后,可以将注意力向量与特征图进行矩阵相乘,然后进行矩阵相加,最后进行1x1的卷积运算,这样即能实现对特征图的通道进行压缩,减少特征图的通道数量。可选地,对于卷积运算,可以根据实际需要,选择使用2*2、4*4等卷积核进行卷积运算。向量压缩的过程也可以在CAC-block中实现。
在一个可选的实施例中,所述基于深度神经网络的人群图像分析方法通过预设的人群图像分析模型实现,在所述人群图像分析模型的训练过程中,通过L2范式损失函数与BCE损失函数在ShanghaiTechA数据集中进行对所述人群图像分析模型的联合训练。
在该可选的实施例中,L2范数损失函数,也被称为最小平方误差(LSE),其能够使目标值与估计值的差值的平方和最小化。在一般的回归问题中,经常会使用L2范数损失函数,其中的离群点对次损失影响较大。BCE损失函数是一种在二分类的问题中,经常使用的交叉熵损失函数。实验发现,通过使用L2范式损失函数与BCE损失函数在ShanghaiTechA数据集中对人群图像分析模型进行联合训练,能够取得较好的训练效果。
在一个可选的实施例中,在所述人群图像分析模型的训练过程中,在所述人群图像分析模型中引入阈值图和DB函数层进行训练,并且在所述人群图像分析模型的训练完成后,将所述阈值图和所述DB函数层从所述人群图像分析模型中去除。
在该可选的实施例中,在训练时,可以在人群图像分析模型最后的输出端,继续引入阈值图和DB函数层,然后再进行训练。阈值图可以用于对人群图像进行处理,使人群图像的像素总值不大于1024。在首轮训练时,可以将阈值图的初始阈值设置为0.001,这样,图像在经过阈值图的处理之后,大于初始阈值的像素将被设置为1,小于初始阈值的像素将被设置为0,这样即能够将图像转化为二值图像,使得人群图像分析模型的训练效果更好。在训练时,添加阈值图和DB函数层,来辅助进行人群图像分析模型的训练,然后在训练完成之后,再将添加的阈值图和DB函数层从人群图像分析模型中去除,从而使加入的阈值图和DB函数层不会对人群图像分析模型最终的分析效果造成影响的同时,能够起到辅助对人群图像分析模型的训练的作用,从而实现提高人群图像分析模型的训练效果。
可见,实施该可选的实施例,在人群图像分析模型的训练过程中,在人群图像分析模型中引入阈值图和DB函数层进行训练,并且在人群图像分析模型的训练完成后,将引入的阈值图和DB函数层从人群图像分析模型中去除,从而使加入的阈值图和DB函数层不会对人群图像分析模型最终的分析效果造成影响的同时,能够起到辅助对人群图像分析模型的训练的作用,从而能够提高人群图像分析模型的训练效果,使得模型的分析结果更加准确。
可选地,在人群图像分析模型的训练过程中,可以将初始学习率设置为0.0001,并且每迭代100代,即将学习率设置为降低为原本的学习率的0.1,将batch size设置为1,优化器设置为adam,组合损失函数的BCE loss的系数设置为0.1,实践发现,通过使用这种训练方式能够取得较好的训练效果。
可选地,待分析的人群图像可以是从医疗管理系统中获取的,获取到的人群图像可以是医院的等待大厅的人群图像、医院科室门前的人群图像、医院科室内的人群图像等等。通过对这些人群图像进行分析,可以分析出医院的客流情况。
可选地,还可以:将所述基于深度神经网络的人群图像分析方法的基于深度神经网络的人群图像分析信息上传至区块链中。
具体来说,基于深度神经网络的人群图像分析信息是通过运行所述基于深度神经网络的人群图像分析方法后得到的,用于记录基于深度神经网络的人群图像分析情况,例如,获取到的人群图像、人群图像对应的特征图、特征图对应的通道压缩向量、人群图像对应的分析结果等等。将基于深度神经网络的人群图像分析信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得到该基于深度神经网络的人群图像分析信息,以便查证所述基于深度神经网络的人群图像分析方法的基于深度神经网络的人群图像分析信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
实施例二
请参阅图5,图5是本发明实施例公开的一种基于深度神经网络的人群图像分析装置的结构示意图。如图5所示,该基于深度神经网络的人群图像分析装置可以包括:
获取模块201,用于获取待分析的人群图像;
编码模块202,用于将所述人群图像输入至预设的编码器进行分析,得到所述人群图像对应的特征图;
压缩模块203,用于对所述特征图执行预设的通道压缩操作,以得到所述特征图对应的通道压缩向量,其中,所述通道压缩操作用于实现压缩所述特征图的通道;
分析模块204,用于将所述通道压缩向量输入至预设的解码器进行分析,得到所述人群图像对应的分析结果,其中,所述分析结果用于表示所述人群图像中的人的数量。
在一个可选的实施例中,所述压缩模块203对所述特征图执行预设的通道压缩操作,以得到所述特征图对应的通道压缩向量的具体方式为:
对所述特征图执行预设的注意力向量转换操作,以得到所述特征图对应的注意力向量,其中,所述注意力向量转换操作用于实现将所述特征图转换为对应的注意力向量;
基于所述注意力向量对所述特征图执行预设的向量压缩操作,以得到所述特征图对应的通道压缩向量,其中,所述向量压缩操作用于实现基于所述注意力向量对所述特征图的通道进行压缩。
在一个可选的实施例中,所述压缩模块203对所述特征图执行预设的注意力向量转换操作,以得到所述特征图对应的注意力向量的具体方式为:
通过以下公式将所述特征图转换为所述特征图对应的注意力向量:
M(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
其中,M(F)表示所述特征图对应的注意力向量,MLP表示多层感知机,AvgPool表示均匀池化运算,MaxPool表示最大池化计算,σ表示sigmoid函数,F表示所述特征图。
在一个可选的实施例中,所述压缩模块203基于所述注意力向量对所述特征图执行预设的向量压缩操作,以得到所述特征图对应的通道压缩向量的具体方式为:
通过以下公式对所述特征图的通道进行压缩;
其中,f1*1表示1x1的卷积运算,表示矩阵乘法,表示同元素相加,Fc表示所述特征图对应的通道压缩向量,F表示所述特征图,M(F)表示所述特征图对应的注意力向量。
在一个可选的实施例中,所述基于深度神经网络的人群图像分析装置通过预设的人群图像分析模型实现,在所述人群图像分析模型的训练过程中,通过L2范式损失函数与BCE损失函数在ShanghaiTechA数据集中进行对所述人群图像分析模型的联合训练。
在一个可选的实施例中,在所述人群图像分析模型的训练过程中,在所述人群图像分析模型中引入阈值图和DB函数层进行训练,并且在所述人群图像分析模型的训练完成后,将所述阈值图和所述DB函数层从所述人群图像分析模型中去除。
在一个可选的实施例中,在所述人群图像分析模型的训练过程中,将初始学习率设置为0.0001,并且每迭代100代,即将学习率设置为降低为原本的学习率的0.1,将batchsize设置为1,优化器设置为adam,组合损失函数的BCE loss的系数设置为0.1。
对于上述基于深度神经网络的人群图像分析装置的具体描述可以参照上述基于深度神经网络的人群图像分析方法的具体描述,为避免重复,在此不再一一赘述。
实施例三
请参阅图6,图6是本发明实施例公开的一种计算机设备的结构示意图。如图6所示,该计算机设备可以包括:
存储有可执行程序代码的存储器301;
与存储器301连接的处理器302;
处理器302调用存储器301中存储的可执行程序代码,执行本发明实施例一公开的基于深度神经网络的人群图像分析方法中的步骤。
实施例四
请参阅图7,本发明实施例公开了一种计算机存储介质401,计算机存储介质401存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一公开的基于深度神经网络的人群图像分析方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种基于深度神经网络的人群图像分析方法、装置、计算机设备以及存储介质所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims (6)

1.一种基于深度神经网络的人群图像分析方法,其特征在于,所述方法包括:
获取待分析的人群图像;
将所述人群图像输入至预设的编码器进行分析,得到所述人群图像对应的特征图;
对所述特征图执行预设的通道压缩操作,以得到所述特征图对应的通道压缩向量,其中,所述通道压缩操作用于实现压缩所述特征图的通道;所述对所述特征图执行预设的通道压缩操作,以得到所述特征图对应的通道压缩向量,包括,对所述特征图执行预设的注意力向量转换操作,以得到所述特征图对应的注意力向量,其中,所述注意力向量转换操作用于实现将所述特征图转换为对应的注意力向量;基于所述注意力向量对所述特征图执行预设的向量压缩操作,以得到所述特征图对应的通道压缩向量,其中,所述向量压缩操作用于实现基于所述注意力向量对所述特征图的通道进行压缩;
所述对所述特征图执行预设的注意力向量转换操作,以得到所述特征图对应的注意力向量,包括,
通过以下公式将所述特征图转换为所述特征图对应的注意力向量,
M(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
其中,M(F)表示所述特征图对应的注意力向量,MLP表示多层感知机,AvgPool表示均匀池化运算,MaxPool表示最大池化计算,σ表示sigmoid函数,F表示所述特征图;
所述基于所述注意力向量对所述特征图执行预设的向量压缩操作,以得到所述特征图对应的通道压缩向量,包括,
通过以下公式对所述特征图的通道进行压缩;
其中,f1*1表示1x1的卷积运算,表示矩阵乘法,表示同元素相加,Fc表示所述特征图对应的通道压缩向量,F表示所述特征图,M(F)表示所述特征图对应的注意力向量;
将所述通道压缩向量输入至预设的解码器进行分析,得到所述人群图像对应的分析结果,其中,所述分析结果用于表示所述人群图像中的人的数量;
所述基于深度神经网络的人群图像分析方法通过预设的人群图像分析模型实现,在所述人群图像分析模型的训练过程中,通过L2范式损失函数与BCE损失函数在ShanghaiTechA数据集中进行对所述人群图像分析模型的联合训练。
2.根据权利要求1所述的基于深度神经网络的人群图像分析方法,其特征在于,在所述人群图像分析模型的训练过程中,在所述人群图像分析模型中引入阈值图和DB函数层进行训练,并且在所述人群图像分析模型的训练完成后,将所述阈值图和所述DB函数层从所述人群图像分析模型中去除。
3.根据权利要求2所述的基于深度神经网络的人群图像分析方法,其特征在于,在所述人群图像分析模型的训练过程中,将初始学习率设置为0.0001,并且每迭代100代,即将学习率设置为降低为原本的学习率的0.1,将batch size设置为1,优化器设置为adam,组合损失函数的BCE loss的系数设置为0.1。
4.一种基于深度神经网络的人群图像分析装置,其特征在于,所述装置包括:
获取模块,用于获取待分析的人群图像;
编码模块,用于将所述人群图像输入至预设的编码器进行分析,得到所述人群图像对应的特征图;
压缩模块,用于对所述特征图执行预设的通道压缩操作,以得到所述特征图对应的通道压缩向量,其中,所述通道压缩操作用于实现压缩所述特征图的通道;
所述压缩模块对所述特征图执行预设的通道压缩操作,以得到所述特征图对应的通道压缩向量的具体方式为,对所述特征图执行预设的注意力向量转换操作,以得到所述特征图对应的注意力向量,其中,所述注意力向量转换操作用于实现将所述特征图转换为对应的注意力向量;基于所述注意力向量对所述特征图执行预设的向量压缩操作,以得到所述特征图对应的通道压缩向量,其中,所述向量压缩操作用于实现基于所述注意力向量对所述特征图的通道进行压缩;
所述压缩模块对所述特征图执行预设的注意力向量转换操作,以得到所述特征图对应的注意力向量的具体方式为,
通过以下公式将所述特征图转换为所述特征图对应的注意力向量,
M(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
其中,M(F)表示所述特征图对应的注意力向量,MLP表示多层感知机,AvgPool表示均匀池化运算,MaxPool表示最大池化计算,σ表示sigmoid函数,F表示所述特征图;
所述压缩模块基于所述注意力向量对所述特征图执行预设的向量压缩操作,以得到所述特征图对应的通道压缩向量的具体方式为,
通过以下公式对所述特征图的通道进行压缩;
其中,f1*1表示1x1的卷积运算,表示矩阵乘法,表示同元素相加,Fc表示所述特征图对应的通道压缩向量,F表示所述特征图,M(F)表示所述特征图对应的注意力向量;
分析模块,用于将所述通道压缩向量输入至预设的解码器进行分析,得到所述人群图像对应的分析结果,其中,所述分析结果用于表示所述人群图像中的人的数量;
所述基于深度神经网络的人群图像分析装置通过预设的人群图像分析模型实现,在所述人群图像分析模型的训练过程中,通过L2范式损失函数与BCE损失函数在ShanghaiTechA数据集中进行对所述人群图像分析模型的联合训练。
5.一种计算机设备,其特征在于,所述计算机设备包括:
存储有可执行程序代码的存储器;
与所述存储器连接的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-3任一项所述的基于深度神经网络的人群图像分析方法。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-3任一项所述的基于深度神经网络的人群图像分析方法。
CN202111535629.2A 2021-12-15 2021-12-15 基于深度神经网络的人群图像分析方法、装置以及设备 Active CN114120245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111535629.2A CN114120245B (zh) 2021-12-15 2021-12-15 基于深度神经网络的人群图像分析方法、装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111535629.2A CN114120245B (zh) 2021-12-15 2021-12-15 基于深度神经网络的人群图像分析方法、装置以及设备

Publications (2)

Publication Number Publication Date
CN114120245A CN114120245A (zh) 2022-03-01
CN114120245B true CN114120245B (zh) 2024-07-23

Family

ID=80365524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111535629.2A Active CN114120245B (zh) 2021-12-15 2021-12-15 基于深度神经网络的人群图像分析方法、装置以及设备

Country Status (1)

Country Link
CN (1) CN114120245B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612402A (zh) * 2022-03-04 2022-06-10 腾讯科技(深圳)有限公司 对象数量的确定方法、装置、设备、介质及程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889343A (zh) * 2019-11-15 2020-03-17 复旦大学 基于注意力型深度神经网络的人群密度估计方法及装置
CN112784685A (zh) * 2020-12-28 2021-05-11 山东师范大学 基于多尺度引导注意力机制网络的人群计数方法及系统
CN112818862A (zh) * 2021-02-02 2021-05-18 南京邮电大学 基于多源线索与混合注意力的人脸篡改检测方法与系统
CN116071709A (zh) * 2023-03-31 2023-05-05 南京信息工程大学 一种基于改进型vgg16网络的人群计数方法、系统及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190113119A (ko) * 2018-03-27 2019-10-08 삼성전자주식회사 합성곱 신경망을 위한 주의집중 값 계산 방법
CN109858611B (zh) * 2019-01-11 2024-03-26 平安科技(深圳)有限公司 基于通道注意力机制的神经网络压缩方法及相关设备
CN113536925B (zh) * 2021-06-15 2024-02-02 杭州电子科技大学 一种基于引导注意力机制的人群计数方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889343A (zh) * 2019-11-15 2020-03-17 复旦大学 基于注意力型深度神经网络的人群密度估计方法及装置
CN112784685A (zh) * 2020-12-28 2021-05-11 山东师范大学 基于多尺度引导注意力机制网络的人群计数方法及系统
CN112818862A (zh) * 2021-02-02 2021-05-18 南京邮电大学 基于多源线索与混合注意力的人脸篡改检测方法与系统
CN116071709A (zh) * 2023-03-31 2023-05-05 南京信息工程大学 一种基于改进型vgg16网络的人群计数方法、系统及存储介质

Also Published As

Publication number Publication date
CN114120245A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN110929622B (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN107730474B (zh) 图像处理方法、处理装置和处理设备
CN112052886A (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN110222718B (zh) 图像处理的方法及装置
CN112883227B (zh) 一种基于多尺度时序特征的视频摘要生成方法和装置
CN115130656A (zh) 异常检测模型的训练方法、装置、设备及存储介质
CN113033276B (zh) 一种基于转换模块的行为识别方法
CN111489803B (zh) 基于自回归模型的报告单编码模型生成方法、系统和设备
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
EP4318322A1 (en) Data processing method and related device
CN114330736A (zh) 具有噪声对比先验的潜在变量生成性模型
CN114978189A (zh) 一种数据编码方法以及相关设备
CN116543351A (zh) 一种基于时空串并联关系编码的自监督群体行为识别方法
CN116030537A (zh) 基于多分支注意力图卷积的三维人体姿态估计方法
CN112115744B (zh) 点云数据的处理方法及装置、计算机存储介质、电子设备
CN114120245B (zh) 基于深度神经网络的人群图像分析方法、装置以及设备
CN114996495A (zh) 一种基于多原型和迭代增强的单样本图像分割方法及装置
CN113762503A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN117058392A (zh) 一种基于卷积局部增强的多尺度Transformer图像语义分割方法
CN117197632A (zh) 一种基于Transformer的电镜花粉图像目标检测方法
CN116821113A (zh) 时序数据缺失值处理方法、装置、计算机设备及存储介质
CN114511813B (zh) 视频语义描述方法及装置
CN116758331A (zh) 物体检测方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant