CN113516029A - 基于部分标注的图像人群计数方法、装置、介质及终端 - Google Patents

基于部分标注的图像人群计数方法、装置、介质及终端 Download PDF

Info

Publication number
CN113516029A
CN113516029A CN202110469748.6A CN202110469748A CN113516029A CN 113516029 A CN113516029 A CN 113516029A CN 202110469748 A CN202110469748 A CN 202110469748A CN 113516029 A CN113516029 A CN 113516029A
Authority
CN
China
Prior art keywords
crowd
image
feature
counting
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110469748.6A
Other languages
English (en)
Other versions
CN113516029B (zh
Inventor
高盛华
徐衍玉
钟子明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ShanghaiTech University
Original Assignee
ShanghaiTech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ShanghaiTech University filed Critical ShanghaiTech University
Priority to CN202110469748.6A priority Critical patent/CN113516029B/zh
Publication of CN113516029A publication Critical patent/CN113516029A/zh
Application granted granted Critical
Publication of CN113516029B publication Critical patent/CN113516029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于部分标注的图像人群计数方法、装置、介质及终端,采用前端解码器构建特征提取模块;基于第一损失函数构建特征分布一致性模块;基于隐式向量特征字典构建未标注区域特征化模块;基于不同的高斯核参数构建交叉回归一致性正则模块,最终构建出基于卷积神经网络的图像人群计数模型获取人群计数结果。本发明大大降低了新场景的人群计算成本,降低了人群计算对标注信息的依赖性,并且保证了人群计算的精度,最大程度地保留数据集中图片的人头姿态、光照情况、图片视角等信息的同时使用更少的标注量实现精确的人群计算,具有极高的应用价值和广泛的适用性,且对于管控人群异常事件具有重要意义。

Description

基于部分标注的图像人群计数方法、装置、介质及终端
技术领域
本发明涉及人群图像分析技术领域,特别是涉及基于部分标注的图像人群计数方法、装置、介质及终端。
背景技术
现有的人群计数方法存在对数据集人群位置标注依赖性比较大。许多数据集制作需要几千工时来标注。这对新场景的人群计算来说成本太高。现有的许多算法在数据集标注较少的情况下计数精度很低。如今,中国拥有全世界最多的人口以及最丰富的人群计算应用场景,对于通过人群计算来管控人群密度的需求越来越高,而不断出现的新场景人群计算任务意味着巨大的数据标注成本,全监督学习(Fully-Supervised Learning,FSL)需要的巨大标注量给人群计数任务带来了巨大的挑战,而半监督学习(Semi-supervisedlearning,SSL)以及主动学习(Active learning,AL)虽然可以利用部分具有完整标注的图片进行网络训练,但使用部分图片进行网络训练的做法损失了未使用图片的人头姿态、光照情况、图片视角等信息。因此最大程度地保留数据集中图片的人头姿态、光照情况、图片视角等信息的同时使用更少的标注量进行精确的人群计算对于管控人群异常事件具有重要意义。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供基于部分标注的图像人群计数方法、装置、介质及终端,用于解决现有技术中的人群计数标注较少的情况下人群计数精度不足的技术问题。
为实现上述目的及其它相关目的,本发明的第一方面提供一种基于部分标注的图像人群计数方法,包括:采用前端解码器构建特征提取模块,从图像中提取标注区域特征和未标注区域特征并输出第一特征图;基于第一损失函数构建特征分布一致性模块,对所述标注区域特征和未标注区域特征进行特征约束;基于隐式向量特征字典构建未标注区域特征化模块,对所述特征约束后的第一特征图进行更新和取回操作,以获取第二特征图;基于不同的高斯核参数构建交叉回归一致性正则模块,将所述第二特征图输入并预测获取人群密度估计图,且通过第二损失函数对预测结果进行约束以获取人群计数结果。
于本发明的第一方面的一些实施例中,所述图像人群计数方法包括:采用随机梯度下降法优化各个所述模块的参数。
于本发明的第一方面的一些实施例中,所述第一损失函数的构建方式包括:基于所述标注区域特征的均值和协方差,以及所述非标注区域特征的均值和协方差构建所述第一损失函数。
于本发明的第一方面的一些实施例中,所述第二特征图的获取方式包括:基于所述标注区域特征对所述隐式向量特征字典中的特征进行更新;采用所述隐式向量特征字典中的最相近特征对所述第一特征图中的标注区域特征和未标注区域特征进行替代;将替代后的特征与所述第一特征图进行连接以获取所述第二特征图。
于本发明的第一方面的一些实施例中,所述第二损失函数的构建方式包括:基于图像的人群密度估计图和人群实际密度图之间的欧氏距离构建所述第二损失函数。
于本发明的第一方面的一些实施例中,所述图像人群计数方法包括:采用平均绝对误差和均方误差评估所述人群计数结果的准确度。
于本发明的第一方面的一些实施例中,所述图像人群计数方法包括:分阶段训练各个所述模块;其包括:第一阶段使用部分标注的图像人群密度信息作为图像的真实人群密度信息进行训练并获取估计的图像人群密度信息;第二阶段使用所述第一阶段估计的图像人群密度信息作为图像的真实人群密度信息进行训练。
为实现上述目的及其它相关目的,本发明的第二方面提供一种基于部分标注的图像人群计数装置,包括:特征提取模块,用于从图像中提取标注区域特征和未标注区域特征并输出第一特征图;特征分布一致性模块,用于基于第一损失函数对所述标注区域特征和未标注区域特征进行特征约束;未标注区域特征化模块,用于基于隐式向量特征字典对所述特征约束后的第一特征图进行更新和取回操作,以获取第二特征图;交叉回归一致性正则模块,用于基于不同的高斯核参数对所述第二特征图进行预测以获取人群密度估计图,且通过第二损失函数对预测结果进行约束以获取人群计数结果。
为实现上述目的及其它相关目的,本发明的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于部分标注的图像人群计数方法。
为实现上述目的及其它相关目的,本发明的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述基于部分标注的图像人群计数方法。
如上所述,本发明涉及的基于部分标注的图像人群计数方法、装置、介质及终端,具有以下有益效果:基于部分标注学习的方法建立人群计数模型,大大降低了新场景的人群计算成本,降低了人群计算对标注信息的依赖性,并且保证了人群计算的精度,最大程度地保留数据集中图片的人头姿态、光照情况、图片视角等信息的同时使用更少的标注量实现精确的人群计算,具有极高的应用价值和广泛的适用性,且对于管控人群异常事件具有重要意义。
附图说明
图1显示为本发明一实施例中一种基于部分标注的图像人群计数方法流程示意图。
图2显示为本发明一实施例中一种图像人群计数模型的结构示意图。
图3显示为本发明一实施例中一种图像人群计数方法的人群计数密度图。
图4显示为本发明一实施例中一种基于部分标注的图像人群计数装置结构示意图。
图5显示为本发明一实施例中电子终端的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其它优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本发明的若干实施例。应当理解,还可使用其它实施例,并且可以在不背离本发明的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本发明。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其它特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
本发明提出一种基于部分标注的图像人群计数方法、装置、介质及终端,通过提供一种依据单张图像的部分标注进行精确的人群计数或者人群密度估计的部分标注学习Partial Annotation Learning(PAL)算法来解决现有技术中的人群计数标注较少的情况下人群计数精度不足的技术问题。
为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一
如图1所示,本实施例提出一种基于部分标注的图像人群计数方法的流程示意图,其包括步骤如下:
步骤S11.采用前端解码器构建特征提取模块,从图像中提取标注区域特征和未标注区域特征并输出第一特征图。具体的,使用VGG-16作为前端解码器从标注区域和未标注区域获取图片特征,使用的VGG-16网络只包含卷积网络部分,其中标注区域的尺寸与图片尺寸的比例为Ratio。将图像输入到特征提取模块获取特征图F0,输入的图像大小为H×W,特征图F0的大小为
Figure BDA0003044893650000041
步骤S12.基于第一损失函数构建特征分布一致性模块(FDC,FeatureDistribution Consistency),对所述标注区域特征和未标注区域特征进行特征约束。由于标注区域与未标注区域都是全部数据集的采样,因此两个区域拥有一致的特征分布。
在本实施例较佳的实施方式中,使用特征的均值和协方差进行第一损失函数的约束,具体表示如下:
Figure BDA0003044893650000042
其中,其中
Figure BDA0003044893650000043
Figure BDA0003044893650000044
分别是标注区域和未标注区域的均值特征向量,Fin和Fout分别是标注区域和未标注区域的全部特征向量;Lmean和Lcovar分别表示均值和协方差的一致性损失值。
在一些示例中,均值和协方差一致性损失值Lmean、Lcovar的系数在模型训练的过程中从0增加到0.01。
步骤S13.基于隐式向量特征字典构建未标注区域特征化模块(URC,UnannotatedRegions Characterization),对所述特征约束后的第一特征图进行更新和取回操作,以获取第二特征图。URC模块用于储存学习到的标注区域特征,并不储存未标注区域特征。
在本实施例较佳的实施方式中,URC模块定义了一个记忆体E作为隐式向量特征字典,使用记忆体E编码和储存整个数据集标注区域的特征,记忆体E可表示如下:
E:=e1,e2,…,en
其中ei是隐式向量特征字典中被储存的特征,n是记忆体E的大小。
关于记忆体E有两个阶段,更新阶段和取回阶段。更新阶段,只使用从标注区域学习的特征,也只依据标注部分的特征进行更新。将特征图F0作为输入,对于在特征图
Figure BDA0003044893650000051
中任意一点的特征使用与之在记忆体E中最相近的特征ei替代。取回阶段,标注部分和未标注部分都需要进行取回操作,取回记忆体中最相近特征ei进行替代。最后连接取回后的特征与原始特征F0作为未标注区域特征化模块(URC)的输出,即第二特征图,记为F1
在本实施例较佳的实施方式中,采用L2范数测量两个特征的距离,从而获得最相近的特征进行替代。L2范数相对于L1范数具有更为平滑的特性,在模型预测中比L1范数具有更好的预测特性。
步骤S14.基于不同的高斯核参数构建交叉回归一致性正则模块(CCR,Cross-regressor Consistency Regularization),将所述第二特征图输入并预测获取人群密度估计图,且通过第二损失函数对预测结果进行约束以获取人群计数结果。
具体的,将第二特征图F1输入到两个卷积神经网络分支Net1和Net2中,利用不同的高斯核参数sigma预测最后的人群密度图。两个分支都利用VGG-16的前端网络来提取特征,最后将基于不同高斯核参数sigma生成人群密度图。
在本实施例较佳的实施方式中,由于两个基于不同高斯核参数sigma的人群密度图都是同一张图片的人群预测,人群密度图的和即输入图片的总人数相同,因此约束两个人群密度图的和相同来优化网络,故可得第二损失函数表示如下:
Figure BDA0003044893650000052
其中,
Figure BDA0003044893650000053
Figure BDA0003044893650000054
分别是第i个图片优化网络参数θ1和网络参数θ2下Net1和Net2输出的人群密度图。
在一些实施方式中,所述方法可应用于控制器,所述电控单元例如为ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital Signal Processing)控制器、或者MCU(Microcontroller Unit)控制器等等。在一些实施方式中,所述方法也可应用于包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其它输出或控制设备,以及外部端口等组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant,简称PDA)等个人电脑。在另一些实施方式中,所述方法还可应用于服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或集中的服务器集群构成。
实施例二
本发明实施例需要解决给定一张人群图像或者视频中的一帧,然后估计该图像各个区域人群的密度以及总人数。
已知输入图像可以表示为m×n的矩阵:x∈Rm×n,则该输入图像x所对应的实际人群密度可以表示为:
Figure BDA0003044893650000061
式中,N为图像中的人数,
Figure BDA0003044893650000062
表示图像中每个像素的位置,xi为第i个人头在图像中的位置,δ为单位冲击函数,*为卷积操作,
Figure BDA0003044893650000063
为标准差为σi的高斯核。
基于特征量化变分自编码器卷积神经网络的弱监督人群计数算法的目标是学习一个由输入图像x到该图像中的人群密度(如图2Ours列所示)的映射函数F:
F:x→F(x)≈M(x);
式中,F(x)为估计人群密度图。为了学习F,需要解决如下问题:
Figure BDA0003044893650000064
式中,F(x;Θ)为估计人群密度图,Θ为待学习参数。一般来说,F是一个复杂非线性的映射。
如图2所示,本发明实施例提出一种基于部分标注的图像人群计数模型来学习非线性函数F,其包括:特征分布一致性模块(FDC,Feature Distribution Consistency)、未标注区域特征化模块(URC,Unannotated Regions Characterization)和交叉回归一致性正则模块(CCR,Cross-regressor Consistency Regularization)。
Net1和Net2分别表示选用的不同的两个网络。F0表示特征提取模块的输出。F1表示未标注区域特征化模块(URC)的输出。Annotated Region和Unannotated Region分别表示图片中有标注信息的区域和没有标注信息的区域。Mθ1和Mθ2分别表示Net1和Net2输出的人群密度图。Concat表示各个特征图按“通道”维度链接起来总的特征图。LCCR是交叉回归一致性正则模块(CCR)中对Net1和Net2的损失函数。
上述基于部分标注学习的人群计数卷积神经网络的损失函数是估计密度图和实际密度图之间的欧氏距离:
Figure BDA0003044893650000071
式中,F(Xi;Θ)为第i幅输入图像的人群密度估计图,Xi为第i幅输入图像的图像矩阵,Θ为待学习参数,N为输入图像的总数量,Fi为第i幅输入图像的标准密度图矩阵。首先随机初始化,给定初始值之后,根据实际的标准密度图算出输入图片的损失:L(Θ)。然后采用随机梯度下降法在每一次优化迭代中更新整个网络的参数:L(Θ),直到损失值收敛到一个较小的值。
该图像人群计数模型为基于特征量化变分自编码器卷积神经网络模型,包括损失函数:原始模型损失函数
Figure BDA0003044893650000072
Figure BDA0003044893650000073
交叉损失函数LCCR,均值和协方差一致性损失Lmean、Lcovar。在一些示例中,两个原始模型损失
Figure BDA0003044893650000074
Figure BDA0003044893650000075
的系数是1,交叉损失LCCR的系数是0.1,均值和协方差一致性损失Lmean、Lcovar的系数在模型训练的过程中从0增加到0.01。
在本实施例较佳的实施方式中,该图像人群计数模型分为两个训练阶段:阶段一使用部分标注的图片人群密度信息作为图片的真实人群密度信息,本发明中使用10%标注信息进行举例;阶段二使用阶段一估计的图片人群密度信息作为图片的真实人群密度信息。
在本实施例较佳的实施方式中,为基于部分标注学习的人群计数卷积神经网络的参数设定一个初始值后,根据实际的标准密度图算出输入图片的损失:L(Θ),然后在每一次优化迭代中更新整个网络的参数Θ,直到损失值收敛到一个较小的值。优选地,采用随机梯度下降法在每一次优化迭代中更新整个网络的参数Θ。
在一些示例中,输入图像x对应的实际人群密度图M(x)表示为:
Figure BDA0003044893650000081
其中,N为图像中的人数,
Figure BDA0003044893650000082
表示输入图像x中每个像素的位置,xi为第i个人头在输入图像x中的位置,δ为单位冲击函数,*为卷积操作,
Figure BDA0003044893650000083
为标准差为σi的高斯核。
如图3所示,本发明实施例给出本发明在不同公共数据集上的人群密度图预测结果,各公共数据集分别ShanghaiTech Part A&B、UCF-QNRF和NWPU-Crowd,图3中Images为输入图片,GT为真实的人群密度图,Ours为本发明预测的人群密度图。由图3可知,本实施例提出的人群计数方法估计的人群密度图与真实的人群密度图相近,本发明有较好的预测精度。
进一步地,本发明实施例通过在不同数据集上与现有技术进行对比来说明本发明方法的技术效果,选取四个公共数据集:ShanghaiTech,UCF_CC_50,UCF-QNRF和NWPU-crowd。如表1所示,本实施例给出公共数据集基本信息如下:
表1.公共数据集基本信息
Figure BDA0003044893650000084
表1中,Num为图像数量,Max和Min分别表示图像中出现的最大人数和最小人数,Ave表示图像的平均人数,Total是数据集中所有的人数。
优选的,本实施例采用平均绝对误差(MAE)和均方误差(MSE)评估人群计数结果的准确度,分别表示如下:
Figure BDA0003044893650000085
Figure BDA0003044893650000086
其中,N为图片数量,zi为第i幅图像中实际的人头数,
Figure BDA0003044893650000087
为第i幅图像输出的人头数。
表2、表3、表4和表5分别为ShanghaiTech数据集、UCF_CC_50数据集、UCF-QNRF数据集和NWPU-crowd数据集上,不同方法之间的图像人群计数对比结果:
表2.ShanghaiTech数据集对比结果
Figure BDA0003044893650000091
表3.UCF_CC_50数据集对比结果
Figure BDA0003044893650000092
表4.UCF-QNRF数据集对比结果
Figure BDA0003044893650000093
表5.NWPU-crowd数据集
Figure BDA0003044893650000101
其中,表2~表5中的Label-10%Regions Ours表示本发明实施例提出的图像人群计数方法,由表表2~表5可知,本发明提出的人群计数方法在图像仅有10%的标注信息的情况下仍然保持了较高的人群计数准确度。
在一些实施方式中,所述方法可应用于控制器,所述电控单元例如为ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital Signal Processing)控制器、或者MCU(Microcontroller Unit)控制器等等。在一些实施方式中,所述方法也可应用于包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其它输出或控制设备,以及外部端口等组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant,简称PDA)等个人电脑。在另一些实施方式中,所述方法还可应用于服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或集中的服务器集群构成。
实施例三
如图4所示,本发明实施例提出一种基于部分标注的图像人群计数装置的结构示意图,其包括:特征提取模块41,用于从图像中提取标注区域特征和未标注区域特征并输出第一特征图;特征分布一致性模块42,用于基于第一损失函数对所述标注区域特征和未标注区域特征进行特征约束;未标注区域特征化模块43,用于基于隐式向量特征字典对所述特征约束后的第一特征图进行更新和取回操作,以获取第二特征图;交叉回归一致性正则模块44,用于基于不同的高斯核参数对所述第二特征图进行预测以获取人群密度估计图,且通过第二损失函数对预测结果进行约束以获取人群计数结果。
需要说明的是,本实施例提供的模块与上文中提供的方法、实施方式类似,故不再赘述。另外需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,特征提取模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上特征提取模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
实施例四
本发明实施例提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前文所述的基于部分标注的图像人群计数方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
实施例五
如图5所示,本发明实施例提供一种电子终端的结构示意图。本实施例提供的电子终端,包括:处理器51、存储器52、通信器53;存储器52通过系统总线与处理器51和通信器53连接并完成相互间的通信,存储器52用于存储计算机程序,通信器53用于和其它设备进行通信,处理器51用于运行计算机程序,使电子终端执行如上基于部分标注的图像人群计数方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其它设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明提供基于部分标注的图像人群计数方法、装置、介质及终端,基于部分标注学习的方法建立人群计数模型,大大降低了新场景的人群计算成本,降低了人群计算对标注信息的依赖性,并且保证了人群计算的精度,最大程度地保留数据集中图片的人头姿态、光照情况、图片视角等信息的同时使用更少的标注量实现精确的人群计算,具有极高的应用价值和广泛的适用性,且对于管控人群异常事件具有重要意义。所以,本发明有效克服了现有技术中的种种缺点而具有高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种基于部分标注的图像人群计数方法,其特征在于,包括:
采用前端解码器构建特征提取模块,从图像中提取标注区域特征和未标注区域特征并输出第一特征图;
基于第一损失函数构建特征分布一致性模块,对所述标注区域特征和未标注区域特征进行特征约束;
基于隐式向量特征字典构建未标注区域特征化模块,对所述特征约束后的第一特征图进行更新和取回操作,以获取第二特征图;
基于不同的高斯核参数构建交叉回归一致性正则模块,将所述第二特征图输入并预测获取人群密度估计图,且通过第二损失函数对预测结果进行约束以获取人群计数结果。
2.根据权利要求1所述的基于部分标注的图像人群计数方法,其特征在于,包括:采用随机梯度下降法优化各个所述模块的参数。
3.根据权利要求2所述的基于部分标注的图像人群计数方法,其特征在于,所述第一损失函数的构建方式包括:
基于所述标注区域特征的均值和协方差,以及所述非标注区域特征的均值和协方差构建所述第一损失函数。
4.根据权利要求1所述的基于部分标注的图像人群计数方法,其特征在于,所述第二特征图的获取方式包括:
基于所述标注区域特征对所述隐式向量特征字典中的特征进行更新;
采用所述隐式向量特征字典中的最相近特征对所述第一特征图中的标注区域特征和未标注区域特征进行替代;
将替代后的特征与所述第一特征图进行连接以获取所述第二特征图。
5.根据权利要求1所述的基于部分标注的图像人群计数方法,其特征在于,所述第二损失函数的构建方式包括:基于图像的人群密度估计图和人群实际密度图之间的欧氏距离构建所述第二损失函数。
6.根据权利要求1所述的基于部分标注的图像人群计数方法,其特征在于,包括:采用平均绝对误差和均方误差评估所述人群计数结果的准确度。
7.根据权利要求1所述的基于部分标注的图像人群计数方法,其特征在于,包括:分阶段训练各个所述模块;其包括:
第一阶段使用部分标注的图像人群密度信息作为图像的真实人群密度信息进行训练并获取估计的图像人群密度信息;
第二阶段使用所述第一阶段估计的图像人群密度信息作为图像的真实人群密度信息进行训练。
8.一种基于部分标注的图像人群计数装置,其特征在于,包括:
特征提取模块,用于从图像中提取标注区域特征和未标注区域特征并输出第一特征图;
特征分布一致性模块,用于基于第一损失函数对所述标注区域特征和未标注区域特征进行特征约束;
未标注区域特征化模块,用于基于隐式向量特征字典对所述特征约束后的第一特征图进行更新和取回操作,以获取第二特征图;
交叉回归一致性正则模块,用于基于不同的高斯核参数对所述第二特征图进行预测以获取人群密度估计图,且通过第二损失函数对预测结果进行约束以获取人群计数结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述基于部分标注的图像人群计数方法。
10.一种电子终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至7中任一项所述基于部分标注的图像人群计数方法。
CN202110469748.6A 2021-04-28 2021-04-28 基于部分标注的图像人群计数方法、装置、介质及终端 Active CN113516029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110469748.6A CN113516029B (zh) 2021-04-28 2021-04-28 基于部分标注的图像人群计数方法、装置、介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110469748.6A CN113516029B (zh) 2021-04-28 2021-04-28 基于部分标注的图像人群计数方法、装置、介质及终端

Publications (2)

Publication Number Publication Date
CN113516029A true CN113516029A (zh) 2021-10-19
CN113516029B CN113516029B (zh) 2023-11-07

Family

ID=78064092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110469748.6A Active CN113516029B (zh) 2021-04-28 2021-04-28 基于部分标注的图像人群计数方法、装置、介质及终端

Country Status (1)

Country Link
CN (1) CN113516029B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682058A (zh) * 2023-05-30 2023-09-01 南通大学 一种基于空间池化的轻量级ViT弱监督人群计数方法
CN117253184A (zh) * 2023-08-25 2023-12-19 燕山大学 一种雾先验频域注意表征引导的雾天图像人群计数方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074186A1 (en) * 2018-08-28 2020-03-05 Beihang University Dense crowd counting method and apparatus
CN111428587A (zh) * 2020-03-10 2020-07-17 同济大学 人群计数及密度估计方法、装置、存储介质及终端
WO2020169043A1 (zh) * 2019-02-21 2020-08-27 苏州大学 一种密集人群计数的方法、装置、设备以及存储介质
CN111626134A (zh) * 2020-04-28 2020-09-04 上海交通大学 一种基于隐密度分布的密集人群计数方法、系统及终端
CN111626141A (zh) * 2020-04-30 2020-09-04 上海交通大学 基于生成图像的人群计数模型建立方法、计数方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074186A1 (en) * 2018-08-28 2020-03-05 Beihang University Dense crowd counting method and apparatus
WO2020169043A1 (zh) * 2019-02-21 2020-08-27 苏州大学 一种密集人群计数的方法、装置、设备以及存储介质
CN111428587A (zh) * 2020-03-10 2020-07-17 同济大学 人群计数及密度估计方法、装置、存储介质及终端
CN111626134A (zh) * 2020-04-28 2020-09-04 上海交通大学 一种基于隐密度分布的密集人群计数方法、系统及终端
CN111626141A (zh) * 2020-04-30 2020-09-04 上海交通大学 基于生成图像的人群计数模型建立方法、计数方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李云波;唐斯琪;周星宇;潘志松;: "可伸缩模块化CNN人群计数方法", 计算机科学, no. 08 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682058A (zh) * 2023-05-30 2023-09-01 南通大学 一种基于空间池化的轻量级ViT弱监督人群计数方法
CN117253184A (zh) * 2023-08-25 2023-12-19 燕山大学 一种雾先验频域注意表征引导的雾天图像人群计数方法
CN117253184B (zh) * 2023-08-25 2024-05-17 燕山大学 一种雾先验频域注意表征引导的雾天图像人群计数方法

Also Published As

Publication number Publication date
CN113516029B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
US11954025B2 (en) Systems and methods for reading and writing sparse data in a neural network accelerator
CN105069424B (zh) 面部快速识别系统和方法
WO2017166933A1 (zh) 一种基于核机器学习的非负矩阵分解人脸识别方法及系统
CN113168559A (zh) 机器学习模型的自动化生成
CN110738102A (zh) 一种人脸识别方法及系统
KR102667737B1 (ko) 특징점 포지셔닝 방법 및 장치
US12094456B2 (en) Information processing method and system
CN113516029A (zh) 基于部分标注的图像人群计数方法、装置、介质及终端
WO2021169160A1 (zh) 图像归一化处理方法及装置、存储介质
CN113298931B (zh) 一种物体模型的重建方法、装置、终端设备和存储介质
US20230021551A1 (en) Using training images and scaled training images to train an image segmentation model
CN111507288A (zh) 图像检测方法、装置、计算机设备和存储介质
CN110009625B (zh) 基于深度学习的图像处理系统、方法、终端、及介质
CN115605862A (zh) 训练用于3d模型数据库查询的可微分渲染器和神经网络
CN111382791A (zh) 深度学习任务处理方法、图像识别任务处理方法和装置
CN111797862A (zh) 任务处理方法、装置、存储介质和电子设备
CN111709473B (zh) 对象特征的聚类方法及装置
US20240012966A1 (en) Method and system for providing a three-dimensional computer aided-design (cad) model in a cad environment
WO2024046144A1 (zh) 一种视频处理方法及其相关设备
CN117493881A (zh) 一种模型生成方法、装置、设备及存储介质
CN113139540A (zh) 背板检测方法及设备
CN110765917A (zh) 适用于人脸识别模型训练的主动学习方法、装置、终端、介质
CN116363641A (zh) 一种图像处理方法、装置及电子设备
WO2022266888A1 (zh) 拥塞预测模型训练方法、图像处理方法及装置
CN112634143A (zh) 图像色彩校正模型训练方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant