CN118115932A - 图像回归器训练方法与相关方法、装置、设备及介质 - Google Patents
图像回归器训练方法与相关方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN118115932A CN118115932A CN202311208964.0A CN202311208964A CN118115932A CN 118115932 A CN118115932 A CN 118115932A CN 202311208964 A CN202311208964 A CN 202311208964A CN 118115932 A CN118115932 A CN 118115932A
- Authority
- CN
- China
- Prior art keywords
- image
- target
- segmentation mask
- regressor
- density map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 163
- 238000000034 method Methods 0.000 title claims abstract description 117
- 230000011218 segmentation Effects 0.000 claims abstract description 222
- 230000001373 regressive effect Effects 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 86
- 238000012545 processing Methods 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000002829 reductive effect Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 27
- 230000000694 effects Effects 0.000 description 25
- 238000005516 engineering process Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000002372 labelling Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000011731 head segmentation Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种图像回归器训练方法与相关方法、装置、设备及介质。该图像回归器训练方法包括:获取图像样本并提取图像特征;通过分割器输出第一预测分割掩码,通过图像回归器输出第一预测密度图;将第一预测密度图与第一分割掩码结合输出目标分割掩码对分割器进行提示训练;基于提示训练后的分割器输出第二预测分割掩码;通过图像回归器输出第二预测密度图;更新目标分割掩码,并返回根据目标分割掩码对分割器进行提示训练的步骤继续进行迭代互相提示学习,直至满足迭代条件,得到训练后的图像回归器。以此,通过互相提示学习的方式进行图像回归器训练,以获取到人头位置的精确空间信息,减少点标签不确定性带来的影响,提升人群计数的准确性。
Description
技术领域
本申请涉及人工智能领域,具体涉及一种图像回归器训练方法与相关方法、装置、设备及介质。
背景技术
人群计数重点是评估图片中的人数,尤其在非常拥挤和复杂背景的场景中。因其在公共安全、交通监控和农业等领域的广泛应用而日益受到关注。近些年来,深度学习的出现使人群计数取得了重大进展。已有的大多方法将人群计数看做密度图回归的问题,即训练一个密度图图像回归器,输入图片,输出密度图。模型训练时学习的目标密度图是通过设定的高斯核在点标签上进行卷积操作生成的。然而,点标签在人头内部的位置表现出相当大的方差(标签方差,即点在人头内部任意位置而非人头中心),这实际上阻碍了模型的准确学习。标签方差是一个固有的问题,即标注点被粗略地放置在头部区域内,而不是精确的中心位置。
在相关技术中,已经有很多相关弱化标签方差影响的方法,例如为标签不确定性的量化提供数学框架,或者将标签噪声视为随机变量,随后导出人群密度图相应的概率密度函数,上述现有方法都是以间接的方式来最小化标签不确定带来的影响,只考虑了带噪声的点标签,并没有改善对目标精确空间信息的感知。因此这些方法缺少鲁棒和准确的空间信息,并且容易受到点标签变化的影响。
发明内容
本申请实施例提供了一种图像回归器训练方法与相关方法、装置、设备及介质,采用图像回归器和目标分割器进行协同训练,通过二者互相提示学习的方式来进行图像回归器训练,以获取到头部位置的精确空间信息,从而减少点标签不确定性带来的影响,提升人群计数的准确性。
根据本申请公开的一方面,提供了一种图像回归器训练方法,包括:
获取包含人头的图像样本,并提取所述图像样本的图像特征;
通过目标分割器输出所述图像特征对应的第一预测分割掩码,并通过图像回归器输出所述图像特征对应的第一预测密度图;
将所述第一预测密度图结合目标分割器预输出的第一分割掩码,生成目标分割掩码;
根据所述目标分割掩码对所述目标分割器进行提示训练,得到提示训练后的目标分割器;
基于提示训练后的目标分割器输出所述图像特征对应的第二预测分割掩码;
基于图像回归器,在所述第二预测分割掩码作为上下文提示下输出所述图像特征对应的第二预测密度图;
基于所述第二预测密度图结合所述第一分割掩码,更新所述目标分割掩码,并返回根据所述目标分割掩码对所述目标分割器进行提示训练的步骤进行迭代互相提示学习,直至满足迭代条件,得到训练后的图像回归器。
根据本公开的一方面,提供了一种人群计数方法,包括:
获取包含人头的图像样本,并提取所述图像样本的图像特征;
将所述图像特征输入根据权利要求1-7中的任一个图像回归器训练方法训练出的图像回归器中,输出预测密度图;
对所述预测密度图进行求和计算,计算出所述预测密度图对应的人群数量。
根据本公开的一方面,提供了一种图像回归器训练装置,包括:
第一获取单元,用于获取包含人头的图像样本,并提取所述图像样本的图像特征;
第一输出单元,用于通过目标分割器输出所述图像特征对应的第一预测分割掩码,基于图像回归器,在所述第一预测分割掩码作为上下文提示下输出所述图像特征对应的第一预测密度图;
第二输出单元,用于将所述第一预测密度图结合目标分割器预输出的第一分割掩码,输出目标分割掩码;
提示训练单元,用于根据所述目标分割掩码对所述目标分割器进行提示训练,得到提示训练后的目标分割器;
第三输出单元,基于提示训练后的目标分割器输出所述图像特征对应的第二预测分割掩码;
第四输出单元,基于图像回归器,在所述第二预测分割掩码作为上下文提示下输出所述图像特征对应的第二预测密度图;
迭代训练单元,基于所述第二预测密度图结合所述第一分割掩码,更新所述目标分割掩码,并返回提示训练单元继续进行迭代互相提示学习,直至满足迭代条件,得到训练后的图像回归器。
可选地,所述目标分割器为经过包含人头框标注的图像训练得到的,基于目标分割器,所述第一输出单元具体作用于:获取所述目标分割器预输出的第一分割掩码;将所述第一分割掩码作为所述目标分割器的第一标签,对输入的所述图像特征进行第一训练;根据第一训练后的目标分割器输出所述图像特征对应的第一预测分割掩码。
可选地,基于图像回归器,所述第一输出单元具体作用于:获取所述第一预测分割掩码的掩码区域;根据所述掩码区域,对所述图像回归器根据所述图像特征生成的点标签进行上下文约束,输出初始预测密度图;获取所述图像样本对应的真实密度图;将所述真实密度图作为所述图像回归器的第二标签,基于所述初始预测密度图,对输入的所述图像特征进行第二训练;根据所述第二训练后的图像回归器输出所述图像特征对应的第一预测密度图。
在一个实施例中,基于图像回归器,所述第二输出单元具体作用于:将所述第一预测密度图、所述真实密度图和所述目标分割器预输出的第一分割掩码进行并集处理,得到目标分割掩码。
可选地,基于目标分割器,所述提示训练单元具体作用于:将所述目标分割掩码作为所述目标分割器的第三标签,对输入的所述图像特征进行第三训练;根据第三训练后的目标分割器输出所述图像特征对应的第三预测分割掩码;根据所述第三预测分割掩码和所述第二标签之间的差异,构造第一误差函数;基于所述第一误差函数对所述目标分割器进行提示训练。
可选地,基于图像回归器,所述第四输出单元具体作用于:
获取所述第二预测分割掩码的掩码区域;根据所述掩码区域,对所述图像回归器根据所述图像特征生成的点标签进行上下文约束,输出第三预测密度图;获取所述图像样本对应的真实密度图;根据所述第三预测密度图和所述真实密度图的差异以及所述掩码区域和所述点标签形成的面积区域之间的差异,共同构建第二误差函数,并基于所述第二误差函数对所述图像回归器进行第三训练;根据所述第三训练后的图像回归器输出所述图像特征对应的第二预测密度图。
在一个实施例中,所述第四输出单元具体作用于:
根据所述第三预测密度图和所述真实密度图的差异构建第三误差函数;根据所述掩码区域和所述点标签形成的面积区域之间的差异构造第四误差函数;基于所述第三误差函数和所述第四误差函数生成所述第二误差函数。
根据本公开的一方面,提供了一种图像回归器处理装置,包括:
第二获取单元,用于获取包含人头的图像样本,并提取所述图像样本的图像特征;
第五输出单元,用于将所述图像特征输入根据上述图像回归器训练方法训练出的图像回归器中,输出预测密度图;
计算单元,用于对所述预测密度图进行求和计算,计算出所述预测密度图对应的人群数量。
根据本公开的一方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述的图像回归器训练方法或人群计数方法。
根据本公开的一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的图像回归器训练方法或人群计数方法。
本公开实施例通过获取图像样本并提取图像特征;通过分割器输出第一预测分割掩码,通过图像回归器输出第一预测密度图;将第一预测密度图与第一分割掩码结合输出目标分割掩码对分割器进行提示训练;基于提示训练后的分割器输出第二预测分割掩码;通过图像回归器输出第二预测密度图;更新目标分割掩码,并返回根据目标分割掩码对分割器进行提示训练的步骤继续进行迭代互相提示学习,直至满足迭代条件,得到训练后的图像回归器。以此,通过互相提示学习的方式进行图像回归器训练,以获取到人头位置的精确空间信息,相对于以间接的方式来最小化标签不确定的方案而言,本申请实施例可以减少点标签不确定性带来的影响,提升人群计数的准确性。
本公开的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本公开技术方案的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开的技术方案,并不构成对本公开技术方案的限制。
图1是本申请一实施例中图像回归器训练方法的流程图;
图2是本申请一实施例中图像回归器训练方法的模型原理结构图;
图3是本申请一实施例中图像回归器训练方法的流程图;
图4是本申请一实施例中图像回归器训练方法的流程图;
图5是本申请一实施例中图像回归器训练方法的回归器与分割器工作原理图;
图6是本申请一实施例中图像回归器训练方法的KNN优化算法原理示例图;
图7是本申请一实施例中图像回归器训练方法的点提示训练过程示例图;
图8是本申请一实施例中图像回归器训练方法的流程图;
图9是本申请一实施例中图像回归器训练方法的流程图;
图10是本申请一实施例中图像回归器训练方法的上下文提示训练过程示例图;
图11是本申请一实施例中图像回归器训练方法的流程图;
图12是利用本申请一实施例中图像回归器训练方法训练出的图像回归器处理公开数据集和现有的处理技术的试验比对数据;
图13是利用本申请一实施例中图像回归器训练方法训练出的图像回归器处理具体数据生成的预测与真实对比图;
图14是本申请一实施例中人群计数方法的应用场景图;
图15是本申请一实施例中图像回归器训练装置的结构原理图;
图16是本申请一实施例中图像回归器处理装置的结构原理图;
图17是本申请一实施例中提供的电子设备的结构原理图。
具体实施方式
为了使本技术领域的人员更好地理解本申请的方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
可以理解的是,在本申请的具体实施方式中,涉及到文件相应的文件数据等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
对本公开实施例进行进一步详细说明之前,对本公开实施例中涉及的名词和术语进行说明,本公开实施例中涉及的名词和术语适用于如下的解释:
人工智能:是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得目标结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
分割掩码(Segmentation Mask):分割掩码是一种图像,其尺寸与原始图像相同,但每个像素被分配一个标签或值,以指示该像素属于哪个对象、类别或区域。每个像素通常用不同的标签或颜色来表示其所属的类别。分割任务的目标是将图像分解成具有语义意义的多个区域。分割掩码在计算机视觉中有广泛的应用,包括语义分割、实例分割、人体姿态估计、目标检测等任务。它们帮助计算机理解图像中的对象和区域,并能够为后续任务提供有用的信息。分割掩码可以通过手动标注、半自动标注或使用深度学习模型自动生成。手动标注需要人工绘制区域轮廓或标注每个像素的类别。深度学习模型可以通过训练,从带有标签的图像数据中自动学习生成分割掩码。
密度图(Density Map):密度图是一种用于表示数据点在空间中分布密度的可视化工具。密度图的主要目的是通过颜色、灰度或其他视觉属性来展示数据点的密度分布情况,从而帮助观察者理解数据的分布模式和趋势。密度图在多个领域中有广泛的应用,包括但不限于地理信息系统(GIS)、社会科学研究、机器学习、数据分析和图像处理等。在地理信息系统中,密度图可用于显示人口密度、犯罪热点等;在社会科学研究中,它可用于研究人群行为和社会现象;在机器学习中,密度图可用于异常检测;在数据分析中,它可用于寻找数据集中的分布模式,例如人群计数等应用。
回归器(Regressor):回归器是一种机器学习模型或统计方法,用于建立一个输入变量(或多个输入变量)与一个或多个连续输出变量之间的关系。回归分析旨在预测或估计输出变量的值,这些输出变量通常是连续的数值。回归器的主要目标是拟合数据集中的模式,以便在给定新的输入数据时能够进行准确的预测。
分割器(Divider):分割器通常指的是用于将图像或视频中的人群分割或识别出来的模型或方法。这有助于在密集人群中准确计数人数。在人群计数领域,分割器是一种模型或算法,用于将图像中的人群与背景分开。通常,这包括将每个像素分配给“人”或“非人”类别。分割器可以是传统的计算机视觉方法,也可以是基于深度学习的神经网络。基于深度学习的方法在人群计数领域取得了显著的进展,卷积神经网络(CNN)和语义分割网络(如FCN和U-Net)常用于分割器的构建,这些网络可以学习图像中的人群和背景之间的复杂关系。
近年来,深度学习的出现使人群计数取得了重大进展,已有的大多数人群计数方法是通过训练一个密度图回归器来进行人群计数,密度图回归器所输出的密度图是通过对点标签进行卷积操作生成的,而这种点标签在人头部分会出现比较大的标签方差。
现有的相关技术中,可以采取为标签不确定性的量化提供数学框架、将标签噪声视为随机变量,导出人群密度图相应的概率密度函数等方法来弱化标签方差带来的影响,但是这些方法都是以间接的方式来最小化标签方差带来的影响,没有改善对于目标精确空间信息的感知,确实鲁棒和准确的空间信息,并且容易受到点标签变化带来的影响。
本申请为了解决上述问题,提出一种图像回归器训练方法与相关方法、装置、设备及介质,能够通过图像回归器与目标分割器互相提示学习的方式来获取到人头位置的精确空间信息,减少点标签不确定性所带来的影响,提升了人群计数的准确性。
下面结合附图,通过对本申请实施例的详细描述,对申请内容进一步说明。
本申请一实施例提供了一种图像回归器训练方法,如图1所示,所述方法包括:
S110、获取包含人头的图像样本,并提取所述图像样本的图像特征;
S120、通过目标分割器输出所述图像特征对应的第一预测分割掩码,基于图像回归器,在所述第一预测分割掩码作为上下文提示下输出所述图像特征对应的第一预测密度图;
S130、将所述第一预测密度图结合目标分割器预输出的第一分割掩码,输出目标分割掩码;
S140、根据所述目标分割掩码对所述目标分割器进行提示训练,得到提示训练后的目标分割器;
S150、基于提示训练后的目标分割器输出所述图像特征对应的第二预测分割掩码;
S160、基于图像回归器,在所述第二预测分割掩码作为上下文提示下输出所述图像特征对应的第二预测密度图;
S170、基于所述第二预测密度图结合所述第一分割掩码,更新所述目标分割掩码,并返回根据所述目标分割掩码对所述目标分割器进行提示训练的步骤进行迭代互相提示学习,直至满足迭代条件,得到训练后的图像回归器。
下面结合图2所示,对步骤S110-S170进行详细描述,需要说明的是,步骤中的目标分割器与图2所示的分割器230是等同的,步骤中的图像回归器与回归器220也是等同的,仅仅是命名上的差异。
S110中获取的包含人头的图像样本是指一张图像中包含至少一个人像头部的特征区域,例如一张三人合照,图像中的主要前景信息就会存在三个人像头部的特征区域,即S110中所描述的人头,若此时在该合照的背景部分还存在其他人头,例如有两位路人的后脑部分也被呈现在了合照中,则回归器220就会将后脑部分也识别为人像头部特征区域,从而在这张图像样本上生成五个人头特征区域,即五个点标签。提取图像样本的图像特征,可以通过图示的骨干网络210来进行提取,也可以通过其他服务器或者网络模型进行提取,本申请不对图像特征的提取方式作出具体限定。S110的主要作用是为了滤掉一部分图像样本中的背景信息,即与人头无关的区域,通过对图像样本进行特征提取,过滤背景信息,提取人头特征信息,来提取人头图像特征,方便后续对该图像特征进行处理。
进一步地,获取图像样本的方式可以为输入一套包含人头的图像数据集,或者输入想要计算人群数量的单张或多张图片,该图片可以是通过图像采集设备对预设地点拍摄而得到的,也可以为通过互联网检索,还可以为通过监控设备拍摄到的视频画面,从中截取为图片来作为图像样本,本申请不对图像样本的获取方式进行具体限定。需要说明的是,图像样本中人群头像的尺寸可以有差异,即近处的人头较大,远处的人头较小,本申请实施例在此场景下,仍然可以识别出相对应的人头特征去进行人群的计数。
S120中通过目标分割器输出图像特征对应的第一预测分割掩码,基于图像回归器,在第一预测分割掩码作为上下文提示下输出图像特征对应的第一预测密度图。第一预测分割掩码是分割器230对图像特征进行输出得到的,掩码的作用是对图像特征中人头区域进行重点标识,生成一个掩码区域来提供图像中人头的空间信息,第一预测分割掩码是通过分割器230以图像样本对应的伪分割掩码为标签学习训练之后输出图像特征得到的,第一预测密度图是回归器220在经过分割器230输出的第一预测分割掩码的掩码区域的上下文约束后,再通过图像样本对应的真实密度图为标签学习训练得到的。密度图的作用是表示数据点在空间中的分布密度,即表示人头区域在空间中的密度,以像素点的方式进行呈现,通过像素点值的大小来判断密度图中人头区域所在位置以及人头中心区域的位置,人头中心区域的位置往往是像素值最大的区域。步骤S120中输出的第一预测分割掩码与第一预测密度图,都存在精确性不足的情况,后续会对回归器与分割器进行一个迭代的协同训练,通过这种迭代的互相提示学习来不断的优化回归器与分割器的参数,从而不断的提高分割器输出预测分割掩码,回归器输出预测密度图的准确性。
S130是将第一预测密度图与目标分割器预输出的第一分割掩码进行结合,得到目标分割掩码。是通过第一预测密度图与第一分割掩码的并集操作来实现结合,其中第一分割掩码是目标分割器预输出的,即目标分割器会在训练之前进行一个预处理操作,通过预处理操作来对经过特征提取后的图像样本进行训练,得到一个第一分割掩码,该分割掩码用于第一次指导分割器230生成第一预测分割掩码的标签。其中,目标分割器可以是使用已经具备了人头区域标注功能的分割器,也可以是对初始分割器进行预训练得到的,本申请不对目标分割器的获取方式作出具体限定。分割器230是以目标分割掩码232作为标签不断进行迭代学习的,回归器220则是通过参照预测分割掩码233的上下文提示,并以真实密度图222作为标签来不断的迭代学习的,这种互相提示学习的方式能够提高分割器230分割人头掩码的准确性,提高回归器220生成预测密度图221的精确性。
进一步地,在本申请一实施例中,会对初始分割器进行预训练得到目标分割器,并通过目标分割器生成与图像样本对应的第一分割掩码,具体步骤如下:
获取包含人头框标注的数据样本,构成数据集;
针对每一幅带有人头框标注的图像,将图像输入到骨干网络中进行图像特征提取,接着将图像特征输入到初始分割器中进行训练;
初始分割器将图像特征映射到分割掩码上输出初始分割掩码;
利用人头框标注的区域对初始分割掩码进行指导,指导初始分割器在训练过程中将初始分割掩码尽可能的映射在人头框标注的区域中,对初始分割器进行不断优化,直至训练结束,得到具备标注人群图像中人头区域功能的目标分割器。
将用于训练的图像样本输入到目标分割器中,预生成图像样本对应的伪分割掩码集,即上述步骤中的第一分割掩码。
进一步地,在本申请一实施例中,还可以直接通过以往的点标注直接生成伪分割掩码,具体步骤如下:
利用以往已经完成了点标注的图像数据,使用插值技术,根据已标记的点标注生成与人头区域边界相关的曲线或轮廓;
基于生成的曲线或轮廓,填充人头区域,通过在曲线内部绘制多边形或使用区域填充算法来实现,以创建伪分割掩码。
需要说明的是,本申请中不对伪分割掩码的输出方式与过程作出具体限定。
S140是利用目标分割掩码232对分割器230进行提示训练,即分割器230将目标分割掩码232作为提示训练过程中的标签,利用标签来指导自己去将图像特征中人群头像区域映射为分割掩码区域,生成预测分割掩码233。提示训练实际为点提示训练,即分割器230只会在目标分割掩码232中标记为1的区域(人头特征区域)进行训练,而在标记为0的区域(背景区域)不进行训练。代表分割器230只会关注于第一分割掩码和第一预测密度图中认为可能包含目标人头的区域,从而更有效地进行学习训练任务。
S150基于提示训练后的目标分割器输出图像特征对应的第二预测分割掩码。在经过目标分割掩码的提示训练后,分割器230实际实现了更好的分割能力,依据该分割器230能够输出分割效果更好的第二预测分割掩码,该第二预测分割掩码用于后续对回归器220进行一个上下文提示,约束回归器220输出预测密度图211的生成范围。
S160是基于图像回归器,在第二预测分割掩码作为上下文提示下输出图像特征对应的第二预测密度图。上下文提示即是回归器220通过学习到第二预测分割掩码的人头分割掩码区域作为指导,回归器220在经过上下文提示后,会将预测密度图221内每个预测的人头的像素点都尽量归类在人头分割掩码区域内,这样能通过掩码区域来对回归器220生成预测密度图221的过程来进行一个上下文的约束,使得回归器220生成的预测密度图221的点标签所形成的面积尽量落入到人头的分割掩码区域中,即通过训练与人头分割掩码区域的面积相交部分不断变大,不断优化回归器220的训练效果。
S170是基于第二预测密度图结合第一分割掩码,更新目标分割掩码,并返回根据目标分割掩码对目标分割器进行提示训练的步骤进行迭代互相提示学习,直至满足迭代条件,得到训练后的图像回归器。即经过一轮训练后由回归器220输出的第二预测密度图(预测密度图221)将继续与第一分割掩码(伪分割掩码231)进行结合,以此生成新的目标分割掩码232,该新的目标分割掩码232通过上述优化,能够更好的标注图像中的人头区域,指导目标分割器在训练过程中预测出更准确的预测分割掩码,以此,实现回归器220输出的预测密度图221以点提示的方式形成目标分割掩码232进而优化分割器230,分割器230输出的预测分割掩码233以上下文提示的方式优化回归器220,不断的进行点提示——上下文提示的迭代互相提示学习的过程,直至满足迭代条件,终止迭代训练,得到训练好的回归器220用于实际图像的处理。
进一步地,上述迭代条件,可以为迭代过程中满足对损失函数的要求,即经过损失函数的计算后,损失值小于某一预设阈值,例如图2所示,在经过损失误差函数L1、损失误差函数L2、损失误差函数L3的比较后,若都能够小于损失误差函数的预设阈值,则认为是满足迭代条件,可以终止迭代训练。迭代条件还可以为满足预设的迭代次数,例如在迭代了200次后,认为训练效果已经满足需求,即可停止迭代,使用训练好的回归器进行相关人群计数任务的处理。
本申请的图像回归器训练方法,通过获取包含人头的图像样本并提取图像样本的图像特征用于目标分割器和图像回归器进行训练,输出第一预测分割掩码和第一预测密度图,再通过并集操作使得第一预测密度图可以与目标分割器预输出的第一分割掩码合并生成目标分割掩码,目标分割掩码能够更好的指导目标分割器预测出具备更好效果的预测分割掩码。目标分割器在经过目标分割掩码的提示训练后输出图像特征对应的第二预测分割掩码,基于第二预测分割掩码的掩码区域,将其上下文约束来进一步提示图像回归器,使得图像回归器在经过上下文的提示后输出预测效果更好的第二预测密度图,结合第二预测密度图与第一分割掩码再对目标分割掩码进行更新,返回到使用目标分割掩码对目标分割器进行提示训练的步骤进行迭代互相提示学习,直至满足迭代条件得到训练后的图像回归器。在反复迭代互相提示学习的方式的积极作用下,能够不断优化回归器的性能,获取到更加精确与鲁棒的人头区域空间信息,并且可以减少点标签不确定性所带来的影响,有效地降低了人头位置的标签方差大小,提升了对于人群计数的准确性与可靠性。
在本申请一实施例中,如图3所示,图1步骤S120中的通过目标分割器输出所述图像特征对应的第一预测分割掩码,包括:
S310、获取所述目标分割器预输出的第一分割掩码;
S320、将所述第一分割掩码作为所述目标分割器的第一标签,对输入的所述图像特征进行第一训练;
S330、根据第一训练后的目标分割器输出所述图像特征对应的第一预测分割掩码。
接下来对步骤S310至S330进行详细描述。
获取目标分割器预输出的第一分割掩码,即是获取在目标分割器进行预处理时,生成的关于图像样本的一个伪分割掩码集,里面包含了即将输入的所有图像样本对应的伪分割掩码。目标分割器会以图像样本对应的伪分割掩码作为第一标签进行第一轮的训练,输出了第一预测分割掩码以及注意力图,该注意力图会被输入至图像回归器中,辅助图像回归器提取人头区域特征信息,该第一预测分割掩码后续会被用于对图像回归器进行上下文提示,即通过第一预测分割掩码的掩码区域来约束图像回归器输出的预测密度图,使图像回归器能输出预测效果更好的第一预测密度图,该第一预测密度图会被用于接下来互相提示学习环节的点提示训练之中,对目标分割器进行优化,使目标分割器也能够输出预测效果更好的预测分割掩码。
在本申请一实施例中,如图4所示,图1步骤S120中的通过图像回归器输出所述图像特征对应的第一预测密度图,包括:
S410、获取所述第一预测分割掩码的掩码区域;
S420、根据所述掩码区域,对所述图像回归器根据所述图像特征生成的点标签进行上下文约束,输出初始预测密度图;
S430、获取所述图像样本对应的真实密度图;
S440、将所述真实密度图作为所述图像回归器的第二标签,基于所述初始预测密度图,对输入的所述图像特征进行第二训练;
S450、根据所述第二训练后的图像回归器输出所述图像特征对应的第一预测密度图。
接下来对步骤S410至S450进行详细描述。
获取第一预测分割掩码的掩码区域,利用掩码区域来对图像回归器根据图像特征生成的点标签进行一个上下文约束,经过掩码区域的指导,得到初始预测密度图,获取图像样本对应的真实密度图,将真实密度图作为图像回归器的第二标签,基于初始预测密度图,指导图像回归器对于图像特征进行的第二训练,得到了图像特征对应的第一预测密度图。需要说明的是,此处的第二标签与第二训练目的只是为了区分上述的标签与训练过程。实际上,图像回归器输出第一预测密度图与目标分割器输出第一预测分割掩码的过程是同时进行的,并没有第一第二的先后顺序之分,都属于是第一轮的训练过程,独立于后续迭代训练过程之外。
进一步地,关于图像样本的真实密度图,实际上是属于预处理步骤,在训练之前,通过对图像样本进行高斯处理,即将图像样本中真实的点标注经过高斯平滑处理从而得到真实密度图,真实密度图拥有精确的人头中心区域的标注信息,能够用于指导图像回归器预测出效果更好的预测密度图。其中真实的点标注的形成方式可以是图像样本已有的,即选取已经存在真实点标注的图像样本作为训练集进行训练,或者可以为在预处理阶段对图像样本进行手动的点标注,采取人工点标注的方式或者点标注生成器来自动生成图像样本中人头区域所在位置的点标注。本申请不对点标注的产生方式作出具体限定。
需要说明的是,对图像样本中真实的点标注经过高斯平滑处理得到的真实密度图,所采取的高斯核大小为15。
进一步地,对于回归器输出预测密度图,分割器输出预测分割掩码的详细过程,如图5所示,具体过程如下:
对于回归器和分割器的训练过程可以分为两个部分,一个是同步阶段,一个是异步阶段。
同步阶段中,分割器对输入的图像特征进行处理,包括:卷积操作、批量归一化、ReLu处理,Sigmoid处理,具体来说:
卷积操作:Conv3×3通常表示包含3x3的卷积核(fi lter)的卷积层。这些卷积核用于从输入的图像特征中进一步的提取特征。卷积操作通过将卷积核在输入图像上滑动,对每个位置进行加权求和,从而生成输出特征图;
批量归一化:是一种正则化技术,通常应用在卷积层或全连接层之后。规范化每个批次的输入数据,使其均值接近0,标准差接近1,有助于加速训练和减少梯度消失问题。
ReLu处理:ReLu是一种非线性激活函数,通常应用在卷积层或全连接层之后。其定义为F(x)=max(0,x),即当输入值x大于0时,输出值F(x)等于输入值,否则输出值为0。用于缓解梯度消失问题,因为它不会将负梯度变为零。
Sigmoid处理:将每个像素的像素值映射到一个介于0和1之间的概率值,用于表示该像素属于特定类别的概率。
同步阶段中,回归器对输入的图像特征进行处理,包括:卷积操作、批量归一化、ReLu处理,如上所述,在经过ReLu处理后会输出一个特征图,里面包含有对图像特征进一步进行特征提取后的特征内容。
需要说明的是,同步阶段中分割器进行卷积操作、批量归一化、ReLu处理时需要重复三次,同步阶段中回归器进行卷积操作、批量归一化、ReLu处理时只需要进行一次。
异步阶段中,分割器将经过Sigmoid处理之后生成的注意力图输入至回归器中,完成之后分割器会继续进行一次卷积核为1×1的卷积操作,并再次经过Si gmoid处理,输出预测分割掩码。
异步阶段中,回归器会接收到分割器输出的注意力图,并与回归器经过ReLu处理后输出的特征内容进行乘操作,实质上是为了去除背景图像特征,留下人头图像特征(也即是前景特征),随后将提取出的前景特征再进行2次卷积操作、批量归一化、ReLu处理,最后通过卷积核为1×1的卷积操作,输出预测密度图。
需要说明的是,注意力图的作用是帮助回归器集中注意力于图像中的人头区域,以更准确地定位目标。通过将注意力分配给包含目标的区域,回归器可以提高目标的定位精度,以便于输出效果更好的预测密度图。
在本申请一实施例中,图1步骤S130将所述第一预测密度图结合目标分割器预输出的第一分割掩码,输出目标分割掩码,还包括:
将回归器输出的预测密度图真实密度图/>合并到目标分割器预输出的第一分割掩码,也就是伪分割掩码/>中,合并的方式是通过并集得到新的伪分割掩码/>从而进一步得到目标分割掩码/>通过点提示学习,目标分割器吸收点的统计分布,将点的预测区域合并到目标掩码区域中(随机和不s确定位置),具体以并集操作实现,以预测更准确的预测分割掩码,并能够提高目标分割掩码/>对于分割器的点提示优化效果。
进一步地,还可以利用KNN算法(K-Nearest Neighbor,K最近邻分类算法)对目标分割掩码进行优化,对于每个点标签,KNN算法找到其K个最近的点,覆盖K个最近点的最小圆区域被定义为上下文掩码该掩码用于对伪分割掩码/>进行交叉操作,去除掉多余的背景信息,点提示的过程被定义为:
其中,∪为矩阵像素级“或”/合并操作,∩为矩阵像素集“与”/交叉操作,B(·)为矩阵像素级二值化操作,其作用是将大于阈值的预测为1(人头区域),将小于阈值的预测为0(背景区域),在本申请实施例中,将所述阈值限定为0,即只要有像素值,就将其预测为人头区域。
如图6所示,图6子图A为经过分割器对人头区域的训练后,得到的一个不准确的分割掩码,该分割掩码同时将非人头区域的背景信息也标注成了人头区域,图6子图B为KNN算法的实际操作图示,即当K=1时,对于真实密度图中标注人头区域的一个点标签,覆盖另一个最近点标签的最小圆区域,即可视为是掩码通过图6子图C可以看出子图A中不准确的分割掩码在结合了经过KNN算法处理的掩码/>之后,已经去除掉了背景信息,最后得到一个图6子图D的分割掩码,针对人头区域的分割掩码进行了保留,过滤掉了多余的背景信息,具备优化目标分割掩码的效果,有助于后续利用优化好的目标分割掩码指导目标分割器输出预测效果更好的预测分割掩码。
需要说明的是,将阈值限定为0仅是本申请一实施例的方案,也可以将阈值限定为其他值。
进一步地,如图7所示,图7是对经过KNN算法优化后的点提示示例图,通过该图可以更好的理解点提示训练的过程。整个点提示训练过程实际可以分为两个部分:离线点提示和在线点提示。离线点提示指的是在实际训练过程之前即可完成,所需要的伪分割掩码与真实密度图都是已经在实际训练之前预处理好的,可以直接进行并集操作来合并。在线点提示则是需要在训练过程中进行的,所需要的预测密度图为第一轮训练中回归器以真实密度图为标签,输出的第一预测密度图。KNN分割掩码则是对真实密度图经过KNN算法的处理,达到去除多余背景信息的效果。最后,将预测密度图、伪分割掩码、真实密度图合并,再与KNN分割掩码进行交叉,最终得到一个只关注人头区域的目标分割掩码,用于后续对分割器的提示训练。
需要说明的是,根据图7进一步的说明KNN分割掩码的效果,图7中的伪分割掩码将部分背景区域识别成人头区域进行了掩码标注,预测密度图将部分背景区域识别成人头区域进行了点标注。只有真实密度图是正确的标注了人头框,所以利用KNN算法依据真实密度图进行背景过滤,过滤掉了影响伪分割掩码和预测密度图精确性的背景区域,使得目标分割掩码中掩码区域只关注于人头区域,便于后续对分割器的提示训练,优化分割器的训练效果。
在本申请一实施例中,如图8所示,图1步骤S150中的基于提示训练后的目标分割器输出所述图像特征对应的第二预测分割掩码,包括:
S810、将所述目标分割掩码作为所述目标分割器的第三标签,对输入的所述图像特征进行第三训练;
S820、根据第三训练后的目标分割器输出所述图像特征对应的第三预测分割掩码;
S830、根据所述第三预测分割掩码和所述第三标签之间的差异,构造第一误差函数;
S840、基于所述第一误差函数对所述目标分割器进行提示训练。
接下来对步骤S810至S840进行详细描述。
利用点提示优化的目标分割掩码作为第三标签来指导目标分割器进行第三训练,目标分割器输出图像特征对应的第三预测分割掩码。并根据第三预测分割掩码与目标分割掩码之间的差异来构造第一误差函数,基于第一误差函数继续对目标分割器进行提示训练。其中,第一误差函数为交叉熵损失误差函数,定义为:
其中N为训练样本数量,(H,W)为样本图片的高和宽,s(h,w)为样本对应的伪分割掩码在(h,w)位置上的像素值,为样本对应的预测分割掩码在(h,w)位置上的预测像素值,log为对数函数。
需要说明的是,该第一误差函数的含义为:通过对比预测分割掩码像素点与目标分割掩码的像素点的一致情况,即比较预测分割掩码像素值与目标分割掩码像素值的接近情况来确定损失误差,当二者像素值越接近时,代表二者像素点越趋于一致,代表损失误差越小。基于交叉熵损失误差函数去不断的比较第三预测分割掩码与目标分割掩码,使得第三预测分割掩码不断接近目标分割掩码,优化了目标分割器的分割效果,提升了对于人群技术的准确性。
需要说明的是,如图2所示,图2中的损失函数即为上述第一误差函数/>
在本申请一实施例中,如图9所示,图1步骤S160中的在所述第二预测分割掩码作为上下文提示下输出所述图像特征对应的第二预测密度图,包括:
S910、获取所述第二预测分割掩码的掩码区域;
S920、根据所述掩码区域,对所述图像回归器根据所述图像特征生成的点标签进行上下文约束,输出第三预测密度图;
S930、获取所述图像样本对应的真实密度图;
S940、根据所述第三预测密度图和所述真实密度图的差异以及所述掩码区域和所述点标签形成的面积区域之间的差异,共同构建第二误差函数,并基于所述第二误差函数对所述图像回归器进行第三训练;
S950、根据所述第三训练后的图像回归器输出所述图像特征对应的第二预测密度图。
接下来结合图10,对步骤S910至S950进行详细描述。
获取第二预测分割掩码的掩码区域,该掩码区域能够对图像回归器生成的点标签进行上下文的约束,即将图像回归器会将预测的点标签尽量的落入掩码区域中,由于掩码区域代表着人头区域,所以通过这种上下文约束的方式能够更好的使图像回归器对人头区域进行标注,进而输出预测效果较好的第三预测密度图。通过上下文提示学习,预测的密度图被约束为落入预测的掩码区域,改进了密度回归。如图10所示,预测密度图中对于人头预测了一个不完全处于人头中心区域的点标签,预测分割掩码中对于人头区域预测了一个不完全覆盖人头的人头掩码区域,对预测密度图与预测分割掩码进行交叉操作,得到一个点标签形成的面积区域与人头掩码区域的一个交叉区域,若点标签完全落入到预测分割掩码的人头掩码区域内,则损失函数的值为最小,代表图像回归器输出的预测密度图效果较好,反之,则需要通过梯度下降等方式去优化图像回归器的模型参数。同时,获取该图像特征对应的真实密度图,根据第三预测密度图与真实密度图之间的差异以及第二预测分割掩码的掩码区域与图像回归器生成的点标签所形成的面积区域之间的差异,综合两个差异共同构建第二误差函数,并基于第二误差函数对图像回归器进行第三训练。通过上下文提示的方式可以优化图像回归器生成预测密度图的效果,获取到了更加精确和鲁棒头部空间信息。其中,第二误差函数被定义为:
其中,λd以及λc是实验定义的正则化因子(用来平衡两个误差损失函数的损失),和/>都属于损失误差函数,/>为回归器输出的预测密度图,/>为已有的真实密度图,/>为分割器输出的预测分割掩码,由此可见,第二误差函数其实还可以被拆分成两个误差函数:第三误差函数和第四误差函数。
如图11所示,图9中步骤S940共同构建第二误差函数,并基于所述第二误差函数对所述图像回归器进行第三训练,包括:
S1110、根据所述第三预测密度图和所述真实密度图的差异构建第三误差函数;
S1120、根据所述掩码区域和所述点标签形成的面积区域之间的差异构造第四误差函数;
S1130、基于所述第三误差函数和所述第四误差函数生成所述第二误差函数。
接下来对步骤S1110至S1130进行详细描述。
由上述对第二误差函数的定义可知,第二误差函数中,可以将第三预测密度图与真实密度图之间的差异构建为第三误差函数,将第二预测分割掩码的掩码区域与图像回归器生成的点标签所形成的面积区域之间的差异构建为第四误差函数。具体地,第三误差函数为均方误差(MSE)损失误差函数,被定义为:
其中,N为样本个数,Σ为矩阵像素级累加操作,和/>分别为第i个输入样本的预测密度图和真实密度图。
需要说明的是,该第三误差函数的含义为:计算每个像素点的预测像素值与真实像素值之间的差异,将这些差异平方后求平均,从而得到一个衡量回归器性能的指标,当回归器的预测像素值与真实像素值非常接近时,均方误差损失接近于零,表示回归器的预测非常准确。当回归器的预测像素值与真实值像素之间的差异增大时,损失值增加,这鼓励模型通过调整参数来减小预测误差。
需要说明的是,如图2所示,图2中的损失函数即为上述第一误差函数/>
第四误差损失函数具体为通过约束计数任务的计数区域而形成的损失函数,被定义为:
其中,为回归器输出的预测密度图,/>为分割器输出的预测分割掩码,∑为矩阵像素级累加操作。
需要说明的是,该第三误差函数的含义为:当与/>交叉区域不存在时,损失函数的值为1,当完全交叉时,损失函数的值为0,即回归器预测的/>完全落入分割器预测的掩码区域中。
需要说明的是,如图2所示,图2中的损失函数即为上述第一误差函数/>
进一步地,可以将上述的第一误差损失函数、第三误差损失函数、第四误差损失函数结合在一起,形成一个针对与目标分割器与图像回归器二者整体的一个损失函数:
其中,λd,λs和λc是实验定义的正则化因子(用来平衡三个损失误差函数),为回归器输出的预测密度图,/>为已有的真实密度图,/>为分割器输出的预测分割掩码,m为分割器预输出的伪分割掩码。
通过判断整体的损失函数的值来决定迭代是否结束,相当于一个互相提示学习框架,该框架包含了一个分割器和一个回归器在具有共享骨干的框架中,将点提示学习与上下文提示学习统一起来,并以端到端的方式训练网络参数,创建互相提示学习,进而不断的优化框架内的分割器与回归器,获取到人头头部位置的精确空间信息,从而减少点标签不确定性带来的影响,提升人群计数的准确性,提高了回归器和分割器对于人群计数的互补性。
在本申请一实施例中,会对训练结束的图像回归器进行测试,测试之后会对测试结果进行性能评测,进行具体步骤如下:
将训练得到的图像回归器应用到测试图像样本进行测试,以验证图像回归器的有效性,对一张输入图像样本图像回归器给出的密度图预测为/>则最终预测人数为:
其中,为对于输入图像样本/>预测的密度图,∑为矩阵的所有像素求和,/>为对于输入图像样本/>预测的人数。
图像回归器的性能测试评估标准为平均绝对损失(MAE)和根均方误差(RMSE)。
MAE定义为:
RMSE定义为:
其中N为样本个数,Ci为输入图像样本Yi对应的真实人数。
验证和性能评测的具体步骤如下:
获取测试图像样本,提取测试图像样本的图像特征;
通过目标分割器输出图像特征对应的第一预测分割掩码,基于图像回归器,在所述第一预测分割掩码作为上下文提示下输出所述图像特征对应的第一预测密度图;
将第一预测密度图结合目标分割器预输出的第一分割掩码,暑促和目标分割掩码;
根据目标分割掩码对目标分割器进行提示训练,得到提示训练后的目标分割器;
基于提示训练后的目标分割器输出图像特征对应的第二预测分割掩码;
基于图像回归器,在第二预测分割掩码作为上下文提示下输出图像特征对应的第二预测密度图;
基于第二预测密度图结合第一分割掩码,更逊目标分割掩码,并返回目标分割掩码对目标分割器进行提示训练的步骤继续进行迭代互相提示学习,直至满足迭代条件,得到训练后的图像回归器;
训练后的图像回归器输出第三预测密度图,对第三预测密度图进行求和计算,得到最终预测人数;
利用平均绝对损失和根均方误差对最终预测人数和实际人数进行计算,若计算结果满足预设值,则认为图像回归器已经训练完成,具备可靠的人群预测计数效果。
在本申请一实施例中,通过在公开数据集上进行大量实验,包括SHA/B、UCF-QNRF和NWPU,证明了本申请方法对多领域学习问题,特别是人群计数问题上的普遍适用性。如图12所示,可以看出在相同公开数据集的实验中,本申请方法训练出的图像回归器所具备的性能、效果是要明显优于现有方法的性能、效果的。
图12中最优性能为加粗表示,次优性能为下划线表示。
由图12可知,本申请方法在公开数据集的测试表现上,针对大部分数据集,与现有方法对比都能取得最优性能,由此可见本申请方法对于多领域学习问题,特别是人群计数问题上的适用性。
如图13所示,图13给出了利用本申请训练方法得到的图像回归器对于人群计数预测的可视化密度图与实际人数的比较。图示中的各个部分描述如下:
(a)不采用互相提示学习的基准方法;
(b)采用我们提出的互相提示学习方法;
(c)真实密度图。可以看出,本申请方法无论在稀疏还是密集情况,都能较准确识别到人群,并且计数更接近真实人数;
(d)应用互相提示学习时,目标分割器会输出经Si gmoid处理后的注意力图,该注意力图用以辅助图像回归器进一步提取人头区域特征(前景特征),过滤掉多余的背景信息,加强回归器对人群的识别能力,进而生成更准确的人群密度图。
基于上述本申请公开的实施例,可以得到训练好的图像回归器,该图像回归器可以用于对实际输入的图像或者图像集进行人群计数,输出人群数量计数结果。
因此,在本申请一实施例中,还提出了一种人群计数方法,包括:
获取包含人头的图像样本,并提取图像样本的图像特征;
将图像特征输入上述图像回归器训练方法训练出的图像回归器中,输出预测密度图;
对预测密度图进行求和计算,计算出预测密度图对应的人群数量。
人群计数方法在本实施例中是指利用训练好的图像回归器对输入的图像或者图像集进行处理,并输出图像对应的预测密度图,根据该预测密度图来进行人群计数,通过求和计算来得出预测密度图中对应的人群数量,将人群数量计数结果输出。与以往普通的利用密度图回归器输出人群密度图并求和计算出人群数量计数结果不同,本实施例采取的是经过与分割器进行了互相提示协同训练的图像回归器,该回归器对于人群计数功能的实现结合了分割器的对于图像中人头区域的分割效果,因此经过图像回归器训练方法得到的图像回归器对于人群计数的效果相比于现有计数中的普通密度图回归器拥有明显提升。如图14所示,将图像样本输入至骨干网络进行特征提取,得到图像特征,图像样本中可能有多余信息参杂在人头区域,在经过骨干网络的特征提取之后可以过滤掉这些多余信息,将图像特征输入至训练后的图像回归器中进行处理,训练后的图像回归器会输出预测密度图,如图所示,输出的预测密度图中点标签均处于人头区域的中心位置,代表图像回归器有着很好的对于人头区域进行点标注的处理效果,最后根据预测密度图对人数进行一个求和计算,得到具体人数。
可以理解的是,虽然上述各个流程图中的各个步骤按照箭头的表征依次显示,但是这些步骤并不是必然按照箭头表征的顺序依次执行。除非本实施例中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时间执行完成,而是可以在不同的时间执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据目标对象属性信息或属性信息集合等与目标对象特性相关的数据进行相关处理时,都会先获得目标对象的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关国家和地区的相关法律法规和标准。此外,当本申请实施例需要获取目标对象属性信息时,会通过弹窗或者跳转到确认页面等方式获得目标对象的单独许可或者单独同意,在明确获得目标对象的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的目标对象相关数据。
在本申请一实施例中,如图15所示,提供了上述图像回归器训练装置1500的结构示意图,该图像回归器训练装置1500包括:
第一获取单元1510,用于获取包含人头的图像样本,并提取图像样本的图像特征;
第一输出单元1520,用于通过目标分割器输出图像特征对应的第一预测分割掩码,基于图像回归器,在第一预测分割掩码作为上下文提示下输出图像特征对应的第一预测密度图;
第二输出单元1530,用于将第一预测密度图结合目标分割器预输出的第一分割掩码,输出目标分割掩码;
提示训练单元1540,用于根据目标分割掩码对目标分割器进行提示训练,得到提示训练后的目标分割器;
第三输出单元1550,基于提示训练后的目标分割器输出图像特征对应的第二预测分割掩码;
第四输出单元1560,基于图像回归器,在第二预测分割掩码作为上下文提示下输出图像特征对应的第二预测密度图;
迭代训练单元1570,基于第二预测密度图结合第一分割掩码,更新目标分割掩码,并返回提示训练单元1540继续进行迭代互相提示学习,直至满足迭代条件,得到训练后的图像回归器。
在本申请一实施例中,如图16所示,提供了上述图像回归器处理装置1600的结构示意图,该图像回归器处理装置1600包括:
第二获取单元1610,用于获取包含人头的图像样本,并提取图像样本的图像特征;
第五输出单元1620,用于将图像特征输入根据上述图像回归器训练方法训练出的图像回归器中,输出预测密度图;
计算单元1630,用于对预测密度图进行求和计算,计算出预测密度图对应的人群数量。
在本申请一实施例中,基于上述图像回归器训练方法,还提供了一种电子设备,如图17所示,其包括至少一个处理器(processor)1710;显示屏1720;以及存储器(memory)1730,还可以包括通信接口(Communications Interface)和总线1750。其中,处理器1710、显示屏1720、存储器1730和通信接口1740可以通过总线1750完成相互间的通信。显示屏1720设置为显示初始设置模式中预设的用户引导界面。通信接口1740可以传输信息。处理器1710可以调用存储器1730中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器1730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
本申请一实施例中,存储器1730可以作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器1710通过运行存储在存储器1730中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现如上述实施例所述的图像回归器训练方法中的步骤,或实现如上述实施例所述的人群计数方法中的步骤。
存储器1730可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器1730可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
本公开的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“包含”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。
应当理解,在本公开中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
应了解,在本公开实施例的描述中,多个(或多项)的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。
在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
还应了解,本公开实施例提供的各种实施方式可以任意进行组合,以实现不同的技术效果。
以上是对本公开的实施方式的具体说明,但本公开并不局限于上述实施方式,熟悉本领域的技术人员在不违背本公开精神的条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本公开权利要求所限定的范围内。
Claims (11)
1.一种图像回归器训练方法,其特征在于,包括:
获取包含人头的图像样本,并提取所述图像样本的图像特征;
通过目标分割器输出所述图像特征对应的第一预测分割掩码,基于图像回归器,在所述第一预测分割掩码作为上下文提示下输出所述图像特征对应的第一预测密度图;
将所述第一预测密度图结合目标分割器预输出的第一分割掩码,输出目标分割掩码;
根据所述目标分割掩码对所述目标分割器进行提示训练,得到提示训练后的目标分割器;
基于提示训练后的目标分割器输出所述图像特征对应的第二预测分割掩码;
基于图像回归器,在所述第二预测分割掩码作为上下文提示下输出所述图像特征对应的第二预测密度图;
基于所述第二预测密度图结合所述第一分割掩码,更新所述目标分割掩码,并返回根据所述目标分割掩码对所述目标分割器进行提示训练的步骤继续进行迭代互相提示学习,直至满足迭代条件,得到训练后的图像回归器。
2.根据权利要求1所述的一种图像回归器训练方法,其特征在于,所述目标分割器为经过包含人头框标注的图像训练得到的;
通过目标分割器输出所述图像特征对应的第一预测分割掩码,包括:
获取所述目标分割器预输出的第一分割掩码;
将所述第一分割掩码作为所述目标分割器的第一标签,对输入的所述图像特征进行第一训练;
根据第一训练后的目标分割器输出所述图像特征对应的第一预测分割掩码。
3.根据权利要求1所述的一种图像回归器训练方法,其特征在于,所述基于图像回归器,在所述第一预测分割掩码作为上下文提示下输出所述图像特征对应的第一预测密度图,包括:
获取所述第一预测分割掩码的掩码区域;
根据所述掩码区域,对所述图像回归器根据所述图像特征生成的点标签进行上下文约束,输出初始预测密度图;
获取所述图像样本对应的真实密度图;
将所述真实密度图作为所述图像回归器的第二标签,基于所述初始预测密度图,对输入的所述图像特征进行第二训练;
根据所述第二训练后的图像回归器输出所述图像特征对应的第一预测密度图。
4.根据权利要求3所述的一种图像回归器训练方法,其特征在于,将所述第一预测密度图结合目标分割器预输出的第一分割掩码,生成目标分割掩码,包括:
将所述第一预测密度图、所述真实密度图和所述目标分割器预输出的第一分割掩码进行并集处理,得到目标分割掩码。
5.根据权利要求1所述的一种图像回归器训练方法,其特征在于,所述根据所述目标分割掩码对所述目标分割器进行提示训练,包括:
将所述目标分割掩码作为所述目标分割器的第三标签,对输入的所述图像特征进行第三训练;
根据第三训练后的目标分割器输出所述图像特征对应的第三预测分割掩码;
根据所述第三预测分割掩码和所述第三标签之间的差异,构造第一误差函数;
基于所述第一误差函数对所述目标分割器进行提示训练。
6.根据权利要求1所述的一种图像回归器训练方法,其特征在于,所述在所述第二预测分割掩码作为上下文提示下输出所述图像特征对应的第二预测密度图,包括:
获取所述第二预测分割掩码的掩码区域;
根据所述掩码区域,对所述图像回归器根据所述图像特征生成的点标签进行上下文约束,输出第三预测密度图;
获取所述图像样本对应的真实密度图;
根据所述第三预测密度图和所述真实密度图的差异以及所述掩码区域和所述点标签形成的面积区域之间的差异,共同构建第二误差函数,并基于所述第二误差函数对所述图像回归器进行第三训练;
根据所述第三训练后的图像回归器输出所述图像特征对应的第二预测密度图。
7.根据权利要求6所述的一种图像回归器训练方法,其特征在于,所述共同构建第二误差函数,包括:
根据所述第三预测密度图和所述真实密度图的差异构建第三误差函数;
根据所述掩码区域和所述点标签形成的面积区域之间的差异构造第四误差函数;
基于所述第三误差函数和所述第四误差函数生成所述第二误差函数。
8.一种人群计数方法,其特征在于,包括:
获取包含人头的图像样本,并提取所述图像样本的图像特征;
将所述图像特征输入根据权利要求1-7中的任一个所述的图像回归器训练方法训练出的图像回归器中,输出预测密度图;
对所述预测密度图进行求和计算,计算出所述预测密度图对应的人群数量。
9.一种图像回归器训练装置,其特征在于,所述装置包括:
第一获取单元,用于获取包含人头的图像样本,并提取所述图像样本的图像特征;
第一输出单元,用于通过目标分割器输出所述图像特征对应的第一预测分割掩码,基于图像回归器,在所述第一预测分割掩码作为上下文提示下输出所述图像特征对应的第一预测密度图;
第二输出单元,用于将所述第一预测密度图结合目标分割器预输出的第一分割掩码,输出目标分割掩码;
提示训练单元,用于根据所述目标分割掩码对所述目标分割器进行提示训练,得到提示训练后的目标分割器;
第三输出单元,基于提示训练后的目标分割器输出所述图像特征对应的第二预测分割掩码;
第四输出单元,基于图像回归器,在所述第二预测分割掩码作为上下文提示下输出所述图像特征对应的第二预测密度图;
迭代训练单元,基于所述第二预测密度图结合所述第一分割掩码,更新所述目标分割掩码,并返回提示训练单元继续进行迭代互相提示学习,直至满足迭代条件,得到训练后的图像回归器。
10.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现根据权利要求1-7任意一项所述图像回归器训练方法,或根据权利要求8所述的人群计数方法。
11.一种计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现根据权利要求1-7任意一项所述图像回归器训练方法,或根据权利要求8所述的人群计数方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311208964.0A CN118115932A (zh) | 2023-09-18 | 2023-09-18 | 图像回归器训练方法与相关方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311208964.0A CN118115932A (zh) | 2023-09-18 | 2023-09-18 | 图像回归器训练方法与相关方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118115932A true CN118115932A (zh) | 2024-05-31 |
Family
ID=91209555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311208964.0A Pending CN118115932A (zh) | 2023-09-18 | 2023-09-18 | 图像回归器训练方法与相关方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118115932A (zh) |
-
2023
- 2023-09-18 CN CN202311208964.0A patent/CN118115932A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113168510B (zh) | 通过细化形状先验分割对象 | |
CN111523421B (zh) | 基于深度学习融合各种交互信息的多人行为检测方法及系统 | |
CN113111716B (zh) | 一种基于深度学习的遥感影像半自动标注方法和装置 | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
CN111915618B (zh) | 基于峰值响应增强的实例分割算法、计算设备 | |
CN112257665A (zh) | 图像内容的识别方法、图像识别模型的训练方法及介质 | |
CN116311214B (zh) | 车牌识别方法和装置 | |
CN112668638A (zh) | 一种图像美学质量评估和语义识别联合分类方法及系统 | |
CN114266894A (zh) | 一种图像分割方法、装置、电子设备及存储介质 | |
CN109376736A (zh) | 一种基于深度卷积神经网络的视频小目标检测方法 | |
CN116258937A (zh) | 基于注意力机制的小样本分割方法、装置、终端及介质 | |
CN116206334A (zh) | 一种野生动物识别方法和装置 | |
CN115050002A (zh) | 图像标注模型训练方法、装置、电子设备及存储介质 | |
CN111275694A (zh) | 一种注意力机制引导的递进式划分人体解析模型及方法 | |
CN112633100B (zh) | 行为识别方法、装置、电子设备和存储介质 | |
CN112348011B (zh) | 一种车辆定损方法、装置及存储介质 | |
CN117829243A (zh) | 模型训练方法、目标检测方法、装置、电子设备及介质 | |
CN113705293A (zh) | 图像场景的识别方法、装置、设备及可读存储介质 | |
WO2022247448A1 (zh) | 数据处理方法、装置、计算设备和计算机可读存储介质 | |
CN116958846A (zh) | 视频检测方法、装置、设备、介质及产品 | |
CN118115932A (zh) | 图像回归器训练方法与相关方法、装置、设备及介质 | |
CN112861689A (zh) | 一种基于nas技术的坐标识别模型的搜索方法及装置 | |
CN118379586B (zh) | 关键点预测模型的训练方法、装置、设备、介质及产品 | |
CN116612466B (zh) | 基于人工智能的内容识别方法、装置、设备及介质 | |
CN117173530B (zh) | 目标异常检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |