CN114463694A - 一种基于伪标签的半监督人群计数方法及装置 - Google Patents
一种基于伪标签的半监督人群计数方法及装置 Download PDFInfo
- Publication number
- CN114463694A CN114463694A CN202210019308.5A CN202210019308A CN114463694A CN 114463694 A CN114463694 A CN 114463694A CN 202210019308 A CN202210019308 A CN 202210019308A CN 114463694 A CN114463694 A CN 114463694A
- Authority
- CN
- China
- Prior art keywords
- density
- crowd
- picture
- pseudo
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 181
- 239000013598 vector Substances 0.000 claims abstract description 138
- 230000002776 aggregation Effects 0.000 claims abstract description 68
- 238000004220 aggregation Methods 0.000 claims abstract description 68
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 238000010586 diagram Methods 0.000 claims description 135
- 230000004913 activation Effects 0.000 claims description 45
- 230000007704 transition Effects 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 21
- 238000002372 labelling Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 46
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000711573 Coronaviridae Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于伪标签的半监督人群计数方法及装置,包括:获取并输入人群图片训练集;分别得到每幅人群图片所对应的人群密度等级概率分布向量、预测密度图、密度图伪标签和人群密度等级聚合分数向量;依次对所有的人群图片进行损失函数计算,并监督迭代训练,以使在每一次迭代训练中,根据人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,预测密度图的L2损失,来进行监督迭代训练,直至所有的人群图片都进行监督迭代训练,从而完成了对人群计数模型的训练;将待计数的人群图片输入已完成训练的人群计数模型,从而得到预测人群数量。本发明解决了现有技术中依赖大量有标记数据的局限性问题。
Description
技术领域
本发明涉及人群计数领域,尤其涉及一种基于伪标签的半监督人群计数方法及装置。
背景技术
随着城市人口的不断增长,各公共场所如商场、地铁站、旅游景点等面临着巨大的人群压力,监控场景中的人群密度并做出合理的管理决策,是城市规划与商业规划的重要一环。特别地,随着新型冠状病毒疫情防控的常态化,对人员密集型场所进行人群密度监控的重要性日益突显。人群计数的目的是准确估计图像中的人群数量,作为一项重要的计算机视觉任务,人群计数在人群分析、人群流量监控、公共安全、城市规划等领域都有着广泛的应用价值。
人群计数任务充满了各种挑战,如极端的尺度变化、严重遮挡、视角扭曲、光照变化、背景杂乱、人群分布不均匀等。因此,人群计数是一项困难的任务。近年来,随着深度学习的快速发展,基于卷积神经网络的人群计数方法取得了重大进展,已成为目前最主流和最有效的方法。目前人群计数的常用方法是,把人群计数视为一种端到端的逐像素回归的任务,即把一张人群图片输入到模型中,输出人群密度图,把人群密度图中的每个像素值求和即可得到该图片的人群数量。
但是现有的人群计数方法都是基于完全监督范式,严重依赖于大量的有标记数据。一般地,在人群计数的数据集里,需要对人群图片中每一个人头中心点进行标记。因此,标记数据为各个人头中心点在图片中的二维坐标。通过标准化的高斯核与图片中每一个人头中心点做卷积,就可以得到真值人群密度图。在一张人群图片中,人群数量可达数百人甚至数千人,标记这种数据费时费力,使得标记数据的获取较为困难,不利于人群计数的进行。
发明内容
本发明提供了一种基于伪标签的半监督人群计数方法及装置,以解决现有技术中依赖大量有标记数据的局限性,减少人群数据标注的工作量。
为了解决上述技术问题,本发明实施例提供了一种基于伪标签的半监督人群计数方法,包括:
获取并输入人群图片训练集;其中,所述人群图片训练集包括有标记人群图片和无标记人群图片;
对所述人群图片训练集中所有的人群图片分别进行密度等级分类、密度图预测、伪标签标记和密度等级聚合,分别得到每幅人群图片所对应的人群密度等级概率分布向量、预测密度图、密度图伪标签和人群密度等级聚合分数向量;
依次对所有的人群图片进行损失函数计算,并监督迭代训练,以使在每一次迭代训练中,根据真值密度等级或伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图或密度图伪标签对预测密度图的L2损失,来进行监督迭代训练,直至人群图片训练集中所有的人群图片都进行监督迭代训练,从而完成了对人群计数模型的训练;其中,所述真值密度等级和所述真值密度图由所述有标记人群图片的真值标注处理得到,所述伪密度等级由所述无标记人群图片处理得到;
将待计数的人群图片输入已完成训练的人群计数模型,得到待计数的人群图片的预测密度图,从而得到预测人群数量。
进一步地,在所述对所述人群图片训练集中所有的人群图片分别进行密度等级分类、密度图预测、伪标签标记和密度等级聚合之前,还包括:
将所有的人群图片输入骨干网络,分别得到每幅人群图片所对应的骨干网络特征图。
进一步地,所述对所述人群图片训练集中所有的人群图片分别进行密度等级分类、密度图预测、伪标签标记和密度等级聚合,分别得到每幅人群图片所对应的人群密度等级概率分布向量、预测密度图、密度图伪标签和人群密度等级聚合分数向量,具体为:
对每幅骨干网络特征图进行第一特征过渡,分别得到每幅骨干网络特征图对应的密度等级特征图,并对每幅所述密度等级特征图进行自适应平均池化和展平,分别得到每幅所述密度等级特征图所对应的人群密度等级概率分布向量;
对每幅骨干网络特征图进行第二特征过渡,分别得到每幅骨干网络特征图对应的密度特征图;
对每幅骨干网络特征图进行第三特征过渡,分别得到每幅骨干网络特征图对应的密度等级激活特征图;
对每幅骨干网络特征图所对应的密度等级特征图、密度特征图和密度等级激活特征图进行拼接与特征融合,得到每幅骨干网络特征图所对应的预测密度图;
对每幅所述密度等级激活特征图进行密度等级激活,分别得到每幅密度等级激活特征图所对应的预设通道数的特征图,对每幅预设通道数的特征图进行对数求和指数处理,得到每幅预设通道数的特征图所对应的人群密度等级聚合分数向量;
对每幅预设通道数的特征图进行计算,得到每幅预设通道数的特征图所对应的等级加权密度图,对每幅等级加权密度图和每幅预测密度图一一对应进行密度融合,得到每幅等级加权密度图对应的密度图伪标签。
进一步地,所述根据真值密度等级或伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图或密度图伪标签对预测密度图的L2损失,来进行监督迭代训练,具体为:
若当前监督迭代训练的人群图片为有标记人群图片,则根据真值密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图对预测密度图的L2损失,来进行监督迭代训练;
若当前监督迭代训练的人群图片为无标记人群图片,则根据伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,密度图伪标签对预测密度图的L2损失,来进行监督迭代训练。
进一步地,所述依次对所有的人群图片进行损失函数计算,并监督迭代训练,具体为:
对所述有标记人群图片进行损失函数计算,并监督迭代训练,直至所述人群计数模型收敛后,从所述有标记人群图片和所述无标记人群图片中随机交替选择一幅人群图片,用于进行损失函数计算,并监督迭代训练。
进一步地,所述若当前监督迭代训练的人群图片为有标记人群图片,则根据真值密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图对预测密度图的L2损失,来进行监督迭代训练,具体为:
若当前监督迭代训练的人群图片为有标记人群图片,根据有根据真值密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图对预测密度图的L2损失:
LLD=λ1Lm+λ2Lcls+λ3Lpseudo,
其中,LLD表示有标记图片的训练损失函数;Lm为真值密度图D对预测密度图的L2损失;Lcls为真值密度等级对人群密度等级概率分布向量的交叉熵损失;Lpseudo为真值密度等级对人群密度等级聚合分数向量的交叉熵损失,λ1,λ2,λ3分别是Lm、Lcls、Lpseudo损失函数的权重系数;
根据有标记图片的训练损失函数,从而对当前的有标记人群图片进行监督迭代训练。
进一步地,所述若当前监督迭代训练的人群图片为无标记人群图片,则根据伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,密度图伪标签对预测密度图的L2损失,来进行监督迭代训练,具体为:
若当前监督迭代训练的人群图片为无标记人群图片,根据伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,密度图伪标签对预测密度图的L2损失:
LUD=λ′1L′m+λ′2L′cls+λ′3L′pseudo
其中,LUD表示无标记图片的训练损失函数;L′m为密度图伪标签D′pseudo对预测密度图的L2损失;L′cls为伪密度等级对人群密度等级概率分布向量的交叉熵损失;L′pseudo为伪密度等级对人群密度等级聚合分数向量的的交叉熵损失,λ′1,λ′2,λ′3分别是L′m、L′cls、L′pseudo损失函数的权重系数;
根据无标记图片的训练损失函数,从而对当前的无标记人群图片进行监督迭代训练。
进一步地,所述将待计数的人群图片输入所述人群计数模型,得到待计数的人群图片预测密度图,从而得到预测人群数量,具体为:
将待计数的人群图片输入骨干网络,得到待计数的人群图片所对应的第一骨干网络特征图;
对第一骨干网络特征图进行第一特征过渡,得到第一密度等级特征图;
对第一骨干网络特征图进行第二特征过渡,得到第一密度特征图;
对第一骨干网络特征图进行第三特征过渡,得到第一密度等级激活特征图;
对所述第一密度等级特征图、所述第一密度特征图和所述第一密度等级激活特征图进行拼接与特征融合,得到第一骨干网络特征图所对应的第一预测密度图,从而得到待计数的人群图片的预测人群数量。
进一步地,在所述将待计数的人群图片输入所述人群计数模型,得到待计数的人群图片预测密度图,从而得到预测人群数量之后,还包括:
根据预设人群图片测试集中的每幅人群图片的预测人群数量和真值人群数量,来得到所述人群计数模型的平均绝对误差和均方根误差,作为所述人群计数模型的评价标准。
相应地,本发明实施例还提供一种基于伪标签的半监督人群计数装置,包括:训练集生成模块、训练集处理模块、迭代建模模块、人群计数模块;
所述训练集生成模块,用于获取并输入人群图片训练集;其中,所述人群图片训练集包括有标记人群图片和无标记人群图片;
进一步地,在所述对所述人群图片训练集中所有的人群图片分别进行密度等级分类、密度图预测、伪标签标记和密度等级聚合之前,还包括:
将所有的人群图片输入骨干网络,分别得到每幅人群图片所对应的骨干网络特征图。
所述训练集处理模块,用于对所述人群图片训练集中所有的人群图片分别进行密度等级分类、密度图预测、伪标签标记和密度等级聚合,分别得到每幅人群图片所对应的人群密度等级概率分布向量、预测密度图、密度图伪标签和人群密度等级聚合分数向量;
进一步地,所述对所述人群图片训练集中所有的人群图片分别进行密度等级分类、密度图预测、伪标签标记和密度等级聚合,分别得到每幅人群图片所对应的人群密度等级概率分布向量、预测密度图、密度图伪标签和人群密度等级聚合分数向量,具体为:
对每幅骨干网络特征图进行第一特征过渡,分别得到每幅骨干网络特征图对应的密度等级特征图,并对每幅所述密度等级特征图进行自适应平均池化和展平,分别得到每幅所述密度等级特征图所对应的人群密度等级概率分布向量;
对每幅骨干网络特征图进行第二特征过渡,分别得到每幅骨干网络特征图对应的密度特征图;
对每幅骨干网络特征图进行第三特征过渡,分别得到每幅骨干网络特征图对应的密度等级激活特征图;
对每幅骨干网络特征图所对应的密度等级特征图、密度特征图和密度等级激活特征图进行拼接与特征融合,得到每幅骨干网络特征图所对应的预测密度图;
对每幅所述密度等级激活特征图进行密度等级激活,分别得到每幅密度等级激活特征图所对应的预设通道数的特征图,对每幅预设通道数的特征图进行对数求和指数处理,得到每幅预设通道数的特征图所对应的人群密度等级聚合分数向量;
对每幅预设通道数的特征图进行计算,得到每幅预设通道数的特征图所对应的等级加权密度图,对每幅等级加权密度图和每幅预测密度图一一对应进行密度融合,得到每幅等级加权密度图对应的密度图伪标签;
所述迭代建模模块,用于依次对所有的人群图片进行损失函数计算,并监督迭代训练,以使在每一次迭代训练中,根据真值密度等级或伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图或密度图伪标签对预测密度图的L2损失,来进行监督迭代训练,直至人群图片训练集中所有的人群图片都进行监督迭代训练,从而完成了对人群计数模型的训练;其中,所述真值密度等级和所述真值密度图由所述有标记人群图片的真值标注处理得到,所述伪密度等级由所述无标记人群图片处理得到;
进一步地,所述根据真值密度等级或伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图或密度图伪标签对预测密度图的L2损失,来进行监督迭代训练,具体为:
若当前监督迭代训练的人群图片为有标记人群图片,则根据真值密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图对预测密度图的L2损失,来进行监督迭代训练;
若当前监督迭代训练的人群图片为无标记人群图片,则根据伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,密度图伪标签对预测密度图的L2损失,来进行监督迭代训练。
进一步地,所述依次对所有的人群图片进行损失函数计算,并监督迭代训练,具体为:
对所述有标记人群图片进行损失函数计算,并监督迭代训练,直至所述人群计数模型收敛后,从所述有标记人群图片和所述无标记人群图片中随机交替选择一幅人群图片,用于进行损失函数计算,并监督迭代训练。
进一步地,所述若当前监督迭代训练的人群图片为有标记人群图片,则根据真值密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图对预测密度图的L2损失,来进行监督迭代训练,具体为:
若当前监督迭代训练的人群图片为有标记人群图片,根据有根据真值密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图对预测密度图的L2损失:
LLD=λ1Lm+λ2Lcls+λ3Lpseudo,
其中,LLD表示有标记图片的训练损失函数;Lm为真值密度图D对预测密度图的L2损失;Lcls为真值密度等级对人群密度等级概率分布向量的交叉熵损失;Lpseudo为真值密度等级对人群密度等级聚合分数向量的交叉熵损失,λ1,λ2,λ3分别是Lm、Lcls、Lpseudo损失函数的权重系数;
根据有标记图片的训练损失函数,从而对当前的有标记人群图片进行监督迭代训练。
进一步地,所述若当前监督迭代训练的人群图片为无标记人群图片,则根据伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,密度图伪标签对预测密度图的L2损失,来进行监督迭代训练,具体为:
若当前监督迭代训练的人群图片为无标记人群图片,根据伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,密度图伪标签对预测密度图的L2损失:
LUD=λ′1L′m+λ′2L′cls+λ′3L′pseudo
其中,LUD表示无标记图片的训练损失函数;L′m为密度图伪标签D′pseudo对预测密度图的L2损失;L′cls为伪密度等级对人群密度等级概率分布向量的交叉熵损失;L′pseudo为伪密度等级对人群密度等级聚合分数向量的的交叉熵损失,λ′1,λ′2,λ′3分别是L′m、L′cls、L′pseudo损失函数的权重系数;
根据无标记图片的训练损失函数,从而对当前的无标记人群图片进行监督迭代训练。
所述人群计数模块,用于将待计数的人群图片输入所述人群计数模型,得到待计数的人群图片预测密度图,从而得到预测人群数量。
进一步地,所述将待计数的人群图片输入所述人群计数模型,得到待计数的人群图片预测密度图,从而得到预测人群数量,具体为:
将待计数的人群图片输入骨干网络,得到待计数的人群图片所对应的第一骨干网络特征图;
对第一骨干网络特征图进行第一特征过渡,得到第一密度等级特征图;
对第一骨干网络特征图进行第二特征过渡,得到第一密度特征图;
对第一骨干网络特征图进行第三特征过渡,得到第一密度等级激活特征图;
对所述第一密度等级特征图、所述第一密度特征图和所述第一密度等级激活特征图进行拼接与特征融合,得到第一骨干网络特征图所对应的第一预测密度图,从而得到待计数的人群图片的预测人群数量。
进一步地,在所述将待计数的人群图片输入所述人群计数模型,得到待计数的人群图片预测密度图,从而得到预测人群数量之后,还包括:
根据预设人群图片测试集中的每幅人群图片的预测人群数量和真值人群数量,来得到所述人群计数模型的平均绝对误差和均方根误差,作为所述人群计数模型的评价标准。
相比于现有技术,本发明实施例具有如下有益效果:
本发明的技术方案将大量的无标记人群图片和部分有标记人群图片作为训练集,对人群图片进行密度等级分类、密度图预测和伪标签标记的处理,并根据L2损失函数和交叉熵损失,来进行人群计数模型的监督迭代训练,使得人群计数模型能够准确并识别无标记人群图片中的人,来附上伪标签,从而利用伪标签来对人群密度进行精确计算,减少了人群数据标记的工作量,实现通过利用大量的无标记数据来提升模型性能,同时也保证了监督迭代训练保证了人群计数模型的准确性。
附图说明
图1:为本发明实施例所提供的一种基于伪标签的半监督人群计数方法的步骤流程图;
图2:为本发明实施例所提供的一种基于伪标签的半监督人群计数方法的步骤示意图;
图3:为本发明实施例所提供的一种基于伪标签的半监督人群计数方法中的SPP模块的结构示意图;
图4:为本发明实施例所提供的一种基于伪标签的半监督人群计数方法中的有标记人群图片进行迭代训练的步骤示意图;
图5:为本发明实施例所提供的一种基于伪标签的半监督人群计数方法中的无标记人群图片进行迭代训练的步骤示意图;
图6:为本发明实施例所提供的一种基于伪标签的半监督人群计数装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参照图1,为本发明实施例提供的一种基于伪标签的半监督人群计数方法,包括以下步骤S101-S104:
S101:获取并输入人群图片训练集;其中,所述人群图片训练集包括有标记人群图片和无标记人群图片。
需要说明的是,有标记图片含有图片中各人头中心点的标记,即图片中各个人头中心点在图片中的二维坐标,通过标准化的高斯核与图片中每一个人头中心点做卷积,即可得到真值人群密度图。
每张有标记图片的人群数量分别为c1,c2,…,cm,对c1,c2,…,cm进行升序排序,取排在第10%,20%,…,90%的人群数量,分别为c10%,c20%,…,c90%,可得到10个人群数量区间,分别为[0,c10%),[c10%,c20%),…,[c90%,+∞)。在这10个人群数量区间对应的密度等级为0,1,…,9。因此,对于每张有标记图片,根据其人群数量所落入的人群数量区间,可确定其人群密度等级。对每个密度等级中的有标记图片,统计平均人群数量,设每个密度等级的平均人群数量分别为x0,x1,…,x9。获取到:有标记数据样本:其中,是第i张有标记人群图片,Di,ci,和li分别为有标记人群图片对应的真值密度图、人群数量和人群密度等级,li∈{0,1,…,9};无标记数据样本其中是第i张无标记人群图片。
作为本实施例的优选方案,在所述对所述人群图片训练集中所有的人群图片分别进行密度等级分类、密度图预测、伪标签标记和密度等级聚合之前,还包括:
将所有的人群图片输入骨干网络,分别得到每幅人群图片所对应的骨干网络特征图。
需要说明的是,骨干网络由Vgg16网络的前10层组成,包含各种配置的二维卷积层、ReLU(Rectified Linear Unit,修正线性单元)激活函数层和最大池化层,在每个二维卷积层后都含有一层ReLU激活函数。
S102:对所述人群图片训练集中所有的人群图片分别进行密度等级分类、密度图预测、伪标签标记和密度等级聚合,分别得到每幅人群图片所对应的人群密度等级概率分布向量、预测密度图、密度图伪标签和人群密度等级聚合分数向量。
作为本实施例的优选方案,请参阅图2,对每幅骨干网络特征图进行第一特征过渡FTM1,分别得到每幅骨干网络特征图对应的密度等级特征图,并对每幅所述密度等级特征图进行自适应平均池化和展平,分别得到每幅所述密度等级特征图所对应的人群密度等级概率分布向量。
将每幅密度等级特征图分别输入至SPP模块,SPP模块的结构如图3所示,每幅密度等级特征图伪64通道的特征图,对于每幅密度等级特征图,都要进行4×4,2×2和1×1的自适应平均池化,并将池化后的特征图展平,分别得到长度为16×64,4×64和1×64的一维向量。将这3个一维向量拼接起来,得到长度为1344的一维向量。随后,将SPP模块输出的一维向量输入到3层全连接神经网络中,得到长度为10的一维向量,再通过softmax函数将其标准化,得到长度为10,且和为1的人群密度等级概率分布向量。
具体地,所述3层全连接神经网络具体设置为:{FC(1344,512)-ReLU,FC(512,512)-ReLU,FC(512,10)},其中,FC为全连接层,FC全连接层中第一个元素为输入向量长度,第二个元素为输出向量长度。
作为本实施例的优选方案,对每幅骨干网络特征图进行第二特征过渡FTM2,分别得到每幅骨干网络特征图对应的密度特征图;对每幅骨干网络特征图进行第三特征过渡FTM3,分别得到每幅骨干网络特征图对应的密度等级激活特征图。
具体地,每个FTM都由3层卷积-ReLU层组成:{Conv(512,256,3,1,1)-ReLU,Conv(256,128,3,1,1)-ReLU,Conv(128,64,3,1,1)-ReLU},将骨干网络特征图分别输入FTM1,FTM2和FTM3,得到密度等级特征图、密度特征图和密度等级激活特征图,它们的通道数都是64。
对每幅骨干网络特征图所对应的密度等级特征图、密度特征图和密度等级激活特征图进行拼接与特征融合,得到每幅骨干网络特征图所对应的预测密度图。
请参阅图2,在本实施例中,将FTM1,FTM2和FTM3分别输出的密度等级特征图、密度特征图和密度等级激活特征图进行拼接,得到一个通道数为64×3=192的特征图,再通过特征融合模块FFM得到最终的预测密度图。FFM由3个卷积-ReLU层组成,具体配置为:{Conv(192,64,3,1,1)-ReLU,Conv(64,64,3,1,1)-ReLU,Conv(64,1,1,1,0)-ReLU}。
对每幅所述密度等级激活特征图进行密度等级激活,分别得到每幅密度等级激活特征图所对应的预设通道数的特征图,对每幅预设通道数的特征图进行对数求和指数处理,得到每幅预设通道数的特征图所对应的人群密度等级聚合分数向量;对每幅预设通道数的特征图进行计算,得到每幅预设通道数的特征图所对应的等级加权密度图,对每幅等级加权密度图和每幅预测密度图一一对应进行密度融合,得到每幅等级加权密度图对应的密度图伪标签。
在本实施例中,将每幅密度等级激活特征图通过密度等级激活模块DLAM,分别得到通道数为10的特征图。DLAM输出的10通道特征图中的每个特征平面对应于一个密度等级,分别为密度等级0,1,…,9对应的逐像素分数值,设这10个特征平面分别为S(0),S(1),…,S(9),而为密度等级l对应的特征平面S(l)中位于(i,j)的分数值。具体地,DLAM由3个卷积层和1个softmax层组成,首先用3个卷积层输出一个10通道的特征图,再用softmax层对该特征图在通道维度上做标准化,使得在每个像素位置上都有10个分数值,分别对应10个密度等级,而这10个分数就是一个概率分布,和为1。DLAM中的3个卷积层的具体设置为:{Conv(64,64,3,1,1)-ReLU,Conv(64,64,3,1,1)-ReLU,Conv(64,10,3,1,1)}。对于每一幅密度等级激活特征图来说,对密度等级激活特征图使用10个分数图计算得到等级加权密度图,再与密度图预测模块生成的预测密度图通过密度图融合模块DFM,进行密度图融合,得到密度图伪标签。
需要说明的是,人群密度等级聚合分数向量通过对数-求和-指数的LSE函数求出:
其中,sl为密度等级l所对应的聚合分数,为密度等级l对应的分数图S(l)中位于(i,j)的分数值,h,w分别为S(l)的高度和宽度,l∈{0,1,…,9}。计算出各密度等级对应的聚合分数s0,s1,…,s9后,使用softmax函数对它们进行标准化,得到和为1的人群密度等级概率分布向量
等级加权密度图的具体计算方法如下:
其中,表示等级加权密度图D(w)中位于(i,j)的密度值;xl是步骤S101中计算得到的密度等级l的平均人群数量;h,w分别为S(l)的高度和宽度。将D(w)与密度图预测模块生成的预测密度图一并输入到DFM中,进行密度图融合,得到密度图伪标签,具体计算方法如下:
S103:依次对所有的人群图片进行损失函数计算,并监督迭代训练,以使在每一次迭代训练中,根据真值密度等级或伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图或密度图伪标签对预测密度图的L2损失,来进行监督迭代训练,直至人群图片训练集中所有的人群图片都进行监督迭代训练,从而完成了对人群计数模型的训练;其中,所述真值密度等级和所述真值密度图由所述有标记人群图片的真值标注得到,所述伪密度等级由所述无标记人群图片得到。
作为本实施例的优选方案,若当前监督迭代训练的人群图片为有标记人群图片,则根据真值密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图对预测密度图的L2损失,来进行监督迭代训练;若当前监督迭代训练的人群图片为无标记人群图片,则根据伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,密度图伪标签对预测密度图的L2损失,来进行监督迭代训练。
作为本实施例的优选方案,对所述有标记人群图片进行损失函数计算,并监督迭代训练,直至所述人群计数模型收敛后,从所述有标记人群图片和所述无标记人群图片中随机交替选择一幅人群图片,用于进行损失函数计算,并监督迭代训练。
具体地,随机交替是指,在每个训练迭代中,各有50%的概率从有标记或无标记数据样本中随机选取一组数据样本进行训练。
作为本实施例的优选方案,请参阅图4,若当前监督迭代训练的人群图片为有标记人群图片,根据有根据真值密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图对预测密度图的L2损失:
LLD=λ1Lm+λ2Lcls+λ3Lpseudo,#(4)
其中,LLD表示有标记图片的训练损失函数;Lm为真值密度图D对预测密度图的L2损失;Lcls为真值密度等级对人群密度等级概率分布向量的交叉熵损失;Lpseudo为真值密度等级对人群密度等级聚合分数向量的交叉熵损失,λ1,λ2,λ3分别是Lm、Lcls、Lpseudo损失函数的权重系数。
需要说明的是,真值密度等级和真值密度图根据有标记人群图片的真值标注得到,具体由步骤S101中得到。
根据有标记图片的训练损失函数,从而对当前的有标记人群图片进行监督迭代训练。
需要说明的是,对于有标记人群图片,其生成的密度图伪标签可以与由自带的真值标注生成的真值密度图进行对比,验证伪标签生成的准确度。
作为本实施例的优选方案,请参阅图5,若当前监督迭代训练的人群图片为无标记人群图片,根据伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,密度图伪标签对预测密度图的L2损失:
LUD=λ′1L′m+λ′2L′cls+λ′3L′pseudo,#(6)
其中,LUD表示无标记图片的训练损失函数;L′m为密度图伪标签D′pseudo对预测密度图的L2损失;L′cls为伪密度等级对人群密度等级概率分布向量的交叉熵损失;L′pseudo为伪密度等级对人群密度等级聚合分数向量的的交叉熵损失,λ′1,λ′2,λ′3分别是L′m、L′cls、L′pseudo损失函数的权重系数。
需要说明的是,图5中的Argmax为取人群密度等级概率分布向量最大值的下标,即为伪密度等级。
根据无标记图片的训练损失函数,从而对当前的无标记人群图片进行监督迭代训练。
S104:将待计数的人群图片输入已完成训练的人群计数模型,得到待计数的人群图片的预测密度图,从而得到预测人群数量。
作为本实施例的优选方案,将待检测的人群图片输入骨干网络,得到待检测的人群图片所对应的第一骨干网络特征图;对第一骨干网络特征图进行第一特征过渡,得到第一密度等级特征图;对第一骨干网络特征图进行第二特征过渡,得到第一密度特征图;对第一骨干网络特征图进行第三特征过渡,得到第一密度等级激活特征图;对所述第一密度等级特征图、所述第一密度特征图和所述第一密度等级激活特征图进行拼接与特征融合,得到第一骨干网络特征图所对应的第一预测密度图,从而得到待计数的人群图片的预测人群数量。
作为本实施例的优选方案,在所述将待检测的人群图片输入所述人群计数模型,得到待计数的人群图片预测密度图,从而得到预测人群数量之后,还包括:
根据预设人群图片测试集中的每幅人群图片的预测人群数量和真值人群数量,来得到所述人群计数模型的平均绝对误差和均方根误差,作为所述人群计数模型的评价标准。
具体地,所述人群计数模型的评价标准的定义为:
需要说明的是,本发明实施例使用PyTorch深度学习框架实现。模型中的所有参数都使用均值为0,标准差为0.01的高斯分布来随机初始化。模型训练采用Adam优化器,学习率为0.00001,训练批大小为1。密度图融合模块中的α设为0.5。损失函数中的λ1,λ2,λ3,λ′1,λ′2,λ′3均为1。
实施本发明实施例,具有如下效果:
本发明实施例将大量的无标记人群图片和部分有标记人群图片作为训练集,对人群图片进行密度等级分类、密度图预测和伪标签标记的处理,以及平均池化、特征图拼接和特征平面激活等操作,得到L2损失函数和交叉熵损失,并根据得到的损失函数,来进行人群计数模型的监督迭代训练,使得人群计数模型能够准确并识别无标记人群图片中的人,来附上伪标签,从而利用伪标签来对人群密度进行精确计算,减少了人群数据标记的工作量,实现通过利用大量的无标记数据来提升模型性能,并在建模完成后对人群计数模型进行评价,进一步保证了人群计数模型的准确性。
实施例二
相应地,本发明实施例还提供一种基于伪标签的半监督人群计数装置,包括:训练集生成模块201、训练集处理模块202、迭代建模模块203、人群计数模块204。
所述训练集生成模块201,用于获取并输入人群图片训练集;其中,所述人群图片训练集包括有标记人群图片和无标记人群图片。
在本实施例中,在所述对所述人群图片训练集中所有的人群图片分别进行密度等级分类、密度图预测、伪标签标记密度等级聚合之前,还包括:
将所有的人群图片输入骨干网络,分别得到每幅人群图片所对应的骨干网络特征图。
所述训练集处理模块202,用于对所述人群图片训练集中所有的人群图片分别进行密度等级分类、密度图预测、伪标签标记和密度等级聚合,分别得到每幅人群图片所对应的人群密度等级概率分布向量、预测密度图、密度图伪标签和人群密度等级聚合分数向量。
在本实施例中,具体地,对每幅骨干网络特征图进行第一特征过渡,分别得到每幅骨干网络特征图对应的密度等级特征图,并对每幅所述密度等级特征图进行自适应平均池化和展平,分别得到每幅所述密度等级特征图所对应的人群密度等级概率分布向量;对每幅骨干网络特征图进行第二特征过渡,分别得到每幅骨干网络特征图对应的密度特征图;对每幅骨干网络特征图进行第三特征过渡,分别得到每幅骨干网络特征图对应的密度等级激活特征图;对每幅骨干网络特征图所对应的密度等级特征图、密度特征图和密度等级激活特征图进行拼接与特征融合,得到每幅骨干网络特征图所对应的预测密度图;对每幅所述密度等级激活特征图进行密度等级激活,分别得到每幅密度等级激活特征图所对应的预设通道数的特征图,对每幅预设通道数的特征图进行对数求和指数处理,得到每幅预设通道数的特征图所对应的人群密度等级聚合分数向量;对每幅预设通道数的特征图进行计算,得到每幅预设通道数的特征图所对应的等级加权密度图,对每幅等级加权密度图和每幅预测密度图一一对应进行密度融合,得到每幅等级加权密度图对应的密度图伪标签。
所述迭代建模模块203,用于依次对所有的人群图片进行损失函数计算,并监督迭代训练,以使在每一次迭代训练中,根据真值密度等级或伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图或密度图伪标签对预测密度图的L2损失,来进行监督迭代训练,直至人群图片训练集中所有的人群图片都进行监督迭代训练,从而完成了对人群计数模型的训练;其中,所述真值密度等级和所述真值密度图由所述有标记人群图片的真值标注处理得到,所述伪密度等级由所述无标记人群图片处理得到。
在本实施例中,具体地,若当前监督迭代训练的人群图片为有标记人群图片,则根据真值密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图对预测密度图的L2损失,来进行监督迭代训练;若当前监督迭代训练的人群图片为无标记人群图片,则根据伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,密度图伪标签对预测密度图的L2损失,来进行监督迭代训练。
在本实施例中,具体地,对所述有标记人群图片进行损失函数计算,并监督迭代训练,直至所述人群计数模型收敛后,从所述有标记人群图片和所述无标记人群图片中随机交替选择一幅人群图片,用于进行损失函数计算,并监督迭代训练。
进一步地,若当前监督迭代训练的人群图片为有标记人群图片,根据有根据真值密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图对预测密度图的L2损失:
LLD=λ1Lm+λ2Lcls+λ3lpseudo,#(4)
其中,LLD表示有标记图片的训练损失函数;Lm为真值密度图D对预测密度图的L2损失;Lcls为真值密度等级对人群密度等级概率分布向量的交叉熵损失;Lpseudo为真值密度等级对人群密度等级聚合分数向量的交叉熵损失,λ1,λ2,λ3分别是Lm、Lcls、Lpseudo损失函数的权重系数。
根据有标记图片的训练损失函数,从而对当前的有标记人群图片进行监督迭代训练。
进一步地,所述若当前监督迭代训练的人群图片为无标记人群图片,则根据伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,密度图伪标签对预测密度图的L2损失,来进行监督迭代训练,具体为:
若当前监督迭代训练的人群图片为无标记人群图片,根据伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,密度图伪标签对预测密度图的L2损失:
LUD=λ′1L′m+λ′2L′cls+λ′3L′pseudo,#(6)
其中,LUD表示无标记图片的训练损失函数;L′m为密度图伪标签D′pseudo对预测密度图的L2损失;L′cls为伪密度等级对人群密度等级概率分布向量的交叉熵损失;L′pseudo为伪密度等级对人群密度等级聚合分数向量的的交叉熵损失,λ′1,λ′2,λ′3分别是L′m、L′cls、L′pseudo损失函数的权重系数。
根据无标记图片的训练损失函数,从而对当前的无标记人群图片进行监督迭代训练。
所述人群计数模块204,用于将待计数的人群图片输入所述人群计数模型,得到待计数的人群图片预测密度图,从而得到预测人群数量。
进一步地,所述将待计数的人群图片输入所述人群计数模型,得到待计数的人群图片预测密度图,从而得到预测人群数量,具体为:
将待计数的人群图片输入骨干网络,得到待计数的人群图片所对应的第一骨干网络特征图;对第一骨干网络特征图进行第一特征过渡,得到第一密度等级特征图;对第一骨干网络特征图进行第二特征过渡,得到第一密度特征图;对第一骨干网络特征图进行第三特征过渡,得到第一密度等级激活特征图;对所述第一密度等级特征图、所述第一密度特征图和所述第一密度等级激活特征图进行拼接与特征融合,得到第一骨干网络特征图所对应的第一预测密度图,从而得到待计数的人群图片的预测人群数量。
在本实施例中,在所述将待计数的人群图片输入所述人群计数模型,得到待计数的人群图片预测密度图,从而得到预测人群数量之后,还包括:
根据预设人群图片测试集中的每幅人群图片的预测人群数量和真值人群数量,来得到所述人群计数模型的平均绝对误差和均方根误差,作为所述人群计数模型的评价标准。
实施本发明实施例,具有如下效果:
本发明实施例将大量的无标记人群图片和部分有标记人群图片作为训练集,引入了密度图伪标签和密度等级分类,能够为无标注的人群图片自动生成密度图伪标签,并用于监督训练,进一步提升模型性能,生成的人群计数模型能够利用好大量的无标注数据进行训练,仅需要少量的有标注数据进行训练,即可使模型对各种场景的人群图片进行准确的人群密度图预测和人群计数,同时也减少了数据标注的工作量,并且利用好大量的无标注数据。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于伪标签的半监督人群计数方法,其特征在于,包括:
获取并输入人群图片训练集;其中,所述人群图片训练集包括有标记人群图片和无标记人群图片;
对所述人群图片训练集中所有的人群图片分别进行密度等级分类、密度图预测、伪标签标记和密度等级聚合,分别得到每幅人群图片所对应的人群密度等级概率分布向量、预测密度图、密度图伪标签和人群密度等级聚合分数向量;
依次对所有的人群图片进行损失函数计算,并监督迭代训练,以使在每一次迭代训练中,根据真值密度等级或伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图或密度图伪标签对预测密度图的L2损失,来进行监督迭代训练,直至人群图片训练集中所有的人群图片都进行监督迭代训练,从而完成了对人群计数模型的训练;其中,所述真值密度等级和所述真值密度图由所述有标记人群图片的真值标注处理得到,所述伪密度等级由所述无标记人群图片处理得到;
将待计数的人群图片输入已完成训练的人群计数模型,得到待计数的人群图片的预测密度图,从而得到预测人群数量。
2.如权利要求1所述的一种基于伪标签的半监督人群计数方法,其特征在于,在所述对所述人群图片训练集中所有的人群图片分别进行密度等级分类、密度图预测、伪标签标记和密度等级聚合之前,还包括:
将所有的人群图片输入骨干网络,分别得到每幅人群图片所对应的骨干网络特征图。
3.如权利要求2所述的一种基于伪标签的半监督人群计数方法,其特征在于,对所述人群图片训练集中所有的人群图片分别进行密度等级分类、密度图预测、伪标签标记和密度等级聚合,分别得到每幅人群图片所对应的人群密度等级概率分布向量、预测密度图、密度图伪标签和人群密度等级聚合分数向量,具体为:
对每幅骨干网络特征图进行第一特征过渡,分别得到每幅骨干网络特征图对应的密度等级特征图,并对每幅所述密度等级特征图进行自适应平均池化和展平,分别得到每幅所述密度等级特征图所对应的人群密度等级概率分布向量;
对每幅骨干网络特征图进行第二特征过渡,分别得到每幅骨干网络特征图对应的密度特征图;
对每幅骨干网络特征图进行第三特征过渡,分别得到每幅骨干网络特征图对应的密度等级激活特征图;
对每幅骨干网络特征图所对应的密度等级特征图、密度特征图和密度等级激活特征图进行拼接与特征融合,得到每幅骨干网络特征图所对应的预测密度图;
对每幅所述密度等级激活特征图进行密度等级激活,分别得到每幅密度等级激活特征图所对应的预设通道数的特征图,对每幅预设通道数的特征图进行对数求和指数处理,得到每幅预设通道数的特征图所对应的人群密度等级聚合分数向量;
对每幅预设通道数的特征图进行计算,得到每幅预设通道数的特征图所对应的等级加权密度图,对每幅等级加权密度图和每幅预测密度图一一对应进行密度融合,得到每幅等级加权密度图对应的密度图伪标签。
4.如权利要求1所述的一种基于伪标签的半监督人群计数方法,其特征在于,所述根据真值密度等级或伪密度等级分别对人群密度等级概率分布向量和密度等级聚合分数向量的交叉熵损失,以及,真值密度图或密度图伪标签对预测密度图的L2损失,来进行监督迭代训练,具体为:
若当前监督迭代训练的人群图片为有标记人群图片,则根据真值密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图对预测密度图的L2损失,来进行监督迭代训练;
若当前监督迭代训练的人群图片为无标记人群图片,则根据伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,密度图伪标签对预测密度图的L2损失,来进行监督迭代训练。
5.如权利要求4所述的一种基于伪标签的半监督人群计数方法,其特征在于,所述依次对所有的人群图片进行损失函数计算,并监督迭代训练,具体为:
对所述有标记人群图片进行损失函数计算,并监督迭代训练,直至所述人群计数模型收敛后,从所述有标记人群图片和所述无标记人群图片中随机交替选择一幅人群图片,用于进行损失函数计算,并监督迭代训练。
6.如权利要求5所述的一种基于伪标签的半监督人群计数方法,其特征在于,所述若当前监督迭代训练的人群图片为有标记人群图片,则根据真值密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图对预测密度图的L2损失,来进行监督迭代训练,具体为:
若当前监督迭代训练的人群图片为有标记人群图片,根据有根据真值密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图对预测密度图的L2损失:
LLD=λ1Lm+λ2Lcls+λ3Lpseudo,
其中,LLD表示有标记图片的训练损失函数;Lm为真值密度图D对预测密度图的L2损失;Lcls为真值密度等级对人群密度等级概率分布向量的交叉熵损失;Lpseudo为真值密度等级对人群密度等级聚合分数向量的交叉熵损失,λ1,λ2,λ3分别是Lm、Lcls、Lpseudo损失函数的权重系数;
根据有标记图片的训练损失函数,从而对当前的有标记人群图片进行监督迭代训练。
7.如权利要求5所述的一种基于伪标签的半监督人群计数方法,其特征在于,所述若当前监督迭代训练的人群图片为无标记人群图片,则根据伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,密度图伪标签对预测密度图的L2损失,来进行监督迭代训练,具体为:
若当前监督迭代训练的人群图片为无标记人群图片,根据伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,密度图伪标签对预测密度图的L2损失:
LUD=λ′1L′m+λ′2L′cls+λ′3L′pseudo
其中,LUD表示无标记图片的训练损失函数;L′m为密度图伪标签D′pseudo对预测密度图的L2损失;L′cls为伪密度等级对人群密度等级概率分布向量的交叉熵损失;L′pseudo为伪密度等级对人群密度等级聚合分数向量的的交叉熵损失,λ′1,λ′2,λ′3分别是L′m、L′cls、L′pseudo损失函数的权重系数;
根据无标记图片的训练损失函数,从而对当前的无标记人群图片进行监督迭代训练。
8.如权利要求3所述的一种基于伪标签的半监督人群计数方法,其特征在于,所述将待计数的人群图片输入所述人群计数模型,得到待计数的人群图片预测密度图,从而得到预测人群数量,具体为:
将待计数的人群图片输入骨干网络,得到待计数的人群图片所对应的第一骨干网络特征图;
对第一骨干网络特征图进行第一特征过渡,得到第一密度等级特征图;
对第一骨干网络特征图进行第二特征过渡,得到第一密度特征图;
对第一骨干网络特征图进行第三特征过渡,得到第一密度等级激活特征图;
对所述第一密度等级特征图、所述第一密度特征图和所述第一密度等级激活特征图进行拼接与特征融合,得到第一骨干网络特征图所对应的第一预测密度图,从而得到待计数的人群图片的预测人群数量。
9.如权利要求8所述的一种基于伪标签的半监督人群计数方法,其特征在于,在所述将待计数的人群图片输入所述人群计数模型,得到待计数的人群图片预测密度图,从而得到预测人群数量之后,还包括:
根据预设人群图片测试集中的每幅人群图片的预测人群数量和真值人群数量,来得到所述人群计数模型的平均绝对误差和均方根误差,作为所述人群计数模型的评价标准。
10.一种基于伪标签的半监督人群计数装置,其特征在于,包括:训练集生成模块、训练集处理模块、迭代建模模块、人群计数模块;
所述训练集生成模块,用于获取并输入人群图片训练集;其中,所述人群图片训练集包括有标记人群图片和无标记人群图片;
所述训练集处理模块,用于对所述人群图片训练集中所有的人群图片分别进行密度等级分类、密度图预测、伪标签标记和密度等级聚合,分别得到每幅人群图片所对应的人群密度等级概率分布向量、预测密度图、密度图伪标签和人群密度等级聚合分数向量;
所述迭代建模模块,用于依次对所有的人群图片进行损失函数计算,并监督迭代训练,以使在每一次迭代训练中,根据真值密度等级或伪密度等级分别对人群密度等级概率分布向量和人群密度等级聚合分数向量的交叉熵损失,以及,真值密度图或密度图伪标签对预测密度图的L2损失,来进行监督迭代训练,直至人群图片训练集中所有的人群图片都进行监督迭代训练,从而完成了对人群计数模型的训练;其中,所述真值密度等级和所述真值密度图由所述有标记人群图片的真值标注处理得到,所述伪密度等级由所述无标记人群图片处理得到;
所述人群计数模块,用于将待计数的人群图片输入所述人群计数模型,得到待计数的人群图片预测密度图,从而得到预测人群数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210019308.5A CN114463694B (zh) | 2022-01-06 | 2022-01-06 | 一种基于伪标签的半监督人群计数方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210019308.5A CN114463694B (zh) | 2022-01-06 | 2022-01-06 | 一种基于伪标签的半监督人群计数方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114463694A true CN114463694A (zh) | 2022-05-10 |
CN114463694B CN114463694B (zh) | 2024-04-05 |
Family
ID=81409625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210019308.5A Active CN114463694B (zh) | 2022-01-06 | 2022-01-06 | 一种基于伪标签的半监督人群计数方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114463694B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210603A (zh) * | 2019-06-10 | 2019-09-06 | 长沙理工大学 | 人群的计数模型构建方法、计数方法和装置 |
CN111191667A (zh) * | 2018-11-15 | 2020-05-22 | 天津大学青岛海洋技术研究院 | 基于多尺度生成对抗网络的人群计数方法 |
WO2020169043A1 (zh) * | 2019-02-21 | 2020-08-27 | 苏州大学 | 一种密集人群计数的方法、装置、设备以及存储介质 |
US20210073675A1 (en) * | 2019-09-11 | 2021-03-11 | Samsung Display Co., Ltd. | System and method to improve accuracy of regression models trained with imbalanced data |
CN112861718A (zh) * | 2021-02-08 | 2021-05-28 | 暨南大学 | 一种轻量级特征融合人群计数方法及系统 |
CN113255430A (zh) * | 2021-03-31 | 2021-08-13 | 中交第二公路勘察设计研究院有限公司 | 基于深度学习的视频中人群分布检测与计数方法 |
-
2022
- 2022-01-06 CN CN202210019308.5A patent/CN114463694B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191667A (zh) * | 2018-11-15 | 2020-05-22 | 天津大学青岛海洋技术研究院 | 基于多尺度生成对抗网络的人群计数方法 |
WO2020169043A1 (zh) * | 2019-02-21 | 2020-08-27 | 苏州大学 | 一种密集人群计数的方法、装置、设备以及存储介质 |
CN110210603A (zh) * | 2019-06-10 | 2019-09-06 | 长沙理工大学 | 人群的计数模型构建方法、计数方法和装置 |
US20210073675A1 (en) * | 2019-09-11 | 2021-03-11 | Samsung Display Co., Ltd. | System and method to improve accuracy of regression models trained with imbalanced data |
CN112861718A (zh) * | 2021-02-08 | 2021-05-28 | 暨南大学 | 一种轻量级特征融合人群计数方法及系统 |
CN113255430A (zh) * | 2021-03-31 | 2021-08-13 | 中交第二公路勘察设计研究院有限公司 | 基于深度学习的视频中人群分布检测与计数方法 |
Non-Patent Citations (3)
Title |
---|
刘砚;雷印杰;宁芊;: "基于深度神经网络的"弱监督"密集场景人群计数算法", 计算机科学, no. 04, 31 December 2020 (2020-12-31) * |
赵琪;孙立双;谢志伟;: "基于改进MCNN的密度图在室内定位中的应用", 测绘通报, no. 06, 25 June 2020 (2020-06-25) * |
马骞;: "基于通道域注意力机制的人群密度估计算法研究", 电子设计工程, no. 15, 3 August 2020 (2020-08-03) * |
Also Published As
Publication number | Publication date |
---|---|
CN114463694B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113326764B (zh) | 训练图像识别模型和图像识别的方法和装置 | |
CN109977918B (zh) | 一种基于无监督域适应的目标检测定位优化方法 | |
CN110598029B (zh) | 基于注意力转移机制的细粒度图像分类方法 | |
CN110135295A (zh) | 一种基于迁移学习的无监督行人重识别方法 | |
CN108416370A (zh) | 基于半监督深度学习的图像分类方法、装置和存储介质 | |
CN110334705A (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN109978893A (zh) | 图像语义分割网络的训练方法、装置、设备及存储介质 | |
CN110929848B (zh) | 基于多挑战感知学习模型的训练、跟踪方法 | |
CN111339818B (zh) | 一种人脸多属性识别系统 | |
CN112668579A (zh) | 基于自适应亲和力和类别分配的弱监督语义分割方法 | |
CN112560829B (zh) | 人群数量确定方法、装置、设备及存储介质 | |
CN108596243A (zh) | 基于分级注视图和条件随机场的眼动注视图预测方法 | |
CN111931719B (zh) | 高空抛物检测方法以及装置 | |
CN115019209A (zh) | 一种基于深度学习的电力杆塔状态检测的方法及系统 | |
CN111199238A (zh) | 一种基于双流卷积神经网络的行为识别方法及设备 | |
CN112580616B (zh) | 人群数量确定方法、装置、设备及存储介质 | |
CN114463694A (zh) | 一种基于伪标签的半监督人群计数方法及装置 | |
CN116151479A (zh) | 一种航班延误预测方法及预测系统 | |
CN115240271A (zh) | 基于时空建模的视频行为识别方法与系统 | |
CN111401225B (zh) | 基于改进逻辑回归分类的人群异常行为检测方法 | |
CN114818945A (zh) | 融入类别自适应度量学习的小样本图像分类方法及装置 | |
CN115631530B (zh) | 一种基于人脸动作单元的公平人脸表情识别方法 | |
CN116467610B (zh) | 基于5g消息的数据拓扑分析方法、装置、设备及存储介质 | |
CN112732976B (zh) | 一种基于深度哈希编码的短视频多标签快速分类方法 | |
US20230129870A1 (en) | Method, apparatus, electronic device and medium for training models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |