CN116524442A - 基于视角贡献加权的人群检测方法及相关装置 - Google Patents

基于视角贡献加权的人群检测方法及相关装置 Download PDF

Info

Publication number
CN116524442A
CN116524442A CN202310809287.1A CN202310809287A CN116524442A CN 116524442 A CN116524442 A CN 116524442A CN 202310809287 A CN202310809287 A CN 202310809287A CN 116524442 A CN116524442 A CN 116524442A
Authority
CN
China
Prior art keywords
view
feature
map
training
crowd detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310809287.1A
Other languages
English (en)
Other versions
CN116524442B (zh
Inventor
张琦
黄惠
龚云飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202310809287.1A priority Critical patent/CN116524442B/zh
Priority claimed from CN202310809287.1A external-priority patent/CN116524442B/zh
Publication of CN116524442A publication Critical patent/CN116524442A/zh
Application granted granted Critical
Publication of CN116524442B publication Critical patent/CN116524442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本申请公开了一种基于视角贡献加权的人群检测方法及相关装置,方法包括获取目标场景的多个视角图像,控制人群检测模型提取各视角图像的单视角特征图,将各单视角特征图投影至预设平面以得到各单视角投影特征图;对各单视角投影特征图进行解码以得各单视角预测概率图;确定各单视角预测概率图的单视角权重图,并基于各单视角权重图将各单视角投影特征图融合以得到多视角特征图;对多视角特征图进行解码以得到多视角预测概率图。本申请基于各单视角投影特征图来确定各视角的单视角权重图,然后基于各视角权重图将各视角投影特征图按照视角贡献进行融合,有效的利用多视角的特征信息,可以很好的解决遮挡问题,提高了人群检测位置信息的准确性。

Description

基于视角贡献加权的人群检测方法及相关装置
技术领域
本申请涉及计算机视觉技术领域,特别涉及一种基于视角贡献加权的人群检测方法及相关装置。
背景技术
针对人群检测的研究通常是在场景的场景地平面上进行检测,可以服务于多种不同的实际应用,如公共安全、自动驾驶以及智慧城市等。其中,遮挡始终是一个难以逾越的问题,许多方法为了解决遮挡造成的误差做出了努力。这些方法尝试在图像中提取一些人为定义的特征以检测每个人的位置,例如,通过提取图像的概率占据图来表示被检测人群在场景地面网格上所占据的位置。然而,这些方法需要依赖背景抠除预处理等,这极大抑制了它们的性能和应用场景。
为了解决上述问题,卷积神经网络模型被用于进行人群检测,其中,卷积神经网络的输入是相机在某个场景下所拍摄的图片,输出则是该场景的人群检测位置信息。但是,对于一个比较拥挤的场景,会存在非常严重的遮挡问题,比如被检测对象之间的遮挡或场景障碍物对被检测对象的遮挡等,采用卷积神经网络对单视角图像进行特征提取来确定人群检测位置信息仍然会受遮挡问题影响,进而会影响人群检测位置信息的准确性。
因而现有技术还有待改进和提高。
发明内容
本申请要解决的技术问题在于,针对现有技术的不足,提供一种基于视角贡献加权的人群检测方法及相关装置。
为了解决上述技术问题,本申请实施例第一方面提供了一种基于视角贡献加权的人群检测方法,应用经过训练的人群检测模型,所述方法包括:
获取目标场景的多个视角图像,其中,每个视角图像均包含若干人;
通过人群检测模型提取各视角图像各自对应的单视角特征图,并将各单视角特征图投影至预设平面,以得到各单视角特征图各自对应的单视角投影特征图,其中,所述预设平面平行于所述目标场景中的场景地平面;
通过人群检测模型对各单视角投影特征图进行解码,以得各单视角投影特征图各自对应的单视角预测概率图;
通过人群检测模型确定各单视角预测概率图各自对应的单视角权重图,并基于各单视角权重图将各单视角投影特征图融合,以得到多视角特征图;
通过人群检测模型对所述多视角特征图进行解码以得到多视角预测概率图。
所述的基于视角贡献加权的人群检测方法,其中,所述基于各单视角权重图将各单视角投影特征图融合,以得到多视角特征图具体包括:
将各单视角权重图与各自对应的单视角投影特征图相乘,以得到各单视角投影特征图各自对应的单视角目标特征图;
将各单视角目标特征图相加,以得到多视角特征图。
所述的基于视角贡献加权的人群检测方法,其中,所述通过人群检测模型确定各单视角预测概率图各自对应的单视角权重图具体包括:
通过人群检测模型计算各单视角预测概率图各自对应的单视角权重,并将各单视角权重与各单视角的掩膜图相乘,以得到各单视角预测概率图各自对应的单视角候选权重图;
通过人群检测模型对各单视角候选权重图进行归一化处理,以得到各单视角预测概率图各自对应的单视角权重图。
所述的基于视角贡献加权的人群检测方法,其中,所述人群检测模型包括单视角特征提取模块、单视角投影解码模块、视角贡献加权融合模块和多视角特征解码模块,其中,所述单视角特征提取模块与所述单视角投影解码模块相连接,所述单视角投影解码模块与所述视角贡献加权融合模块相连接,所述单视角特征解码模块与所述视角贡献加权融合模块相连接,所述视角贡献加权融合模块与所述多视角特征解码模块相连接。
所述的基于视角贡献加权的人群检测方法,其中,所述人群检测模型的训练过程具体包括:
将预设训练集中的训练图像组输入所述人群检测模型对应的初始检测模型,通过所述初始检测模型确定各单视角训练概率图和多视角训练概率图;
基于各单视角训练概率图和多视角训练概率图确定第一损失函数,并基于所述第一损失函数对所述初始检测模型进行训练,以得到经过训练的人群检测模型。
所述的基于视角贡献加权的人群检测方法,其中,所述第一损失函数的表达式为:
其中,表示第一损失函数,/>表示场景级损失项,/>表示单视角预测损失项,/>表示视角图像的数目,/>表示单视角训练概率图,/>表示多视角训练概率图,/>表示场景真实概率图;/>表示均方差损失函数,/>表示第i个视角的掩膜图,用于反映第i个视角在场景中的可见范围,/>表示权重超参数。
所述的基于视角贡献加权的人群检测方法,其中,当将所述人群检测模型应用于目标场景之前,所述方法还包括:
将基于预设训练集训练的人群检测模型作为预训练人群检测模型;
将预设训练集中的训练图像组输入预训练人群检测模型,通过预训练人群检测模型确定训练图像组对应的多视角训练特征图以及训练场景预测概率图;
将目标场景对应的测试集中的测试图像组输入预训练人群检测模型,通过预训练人群检测模型确定测试图像组对应的多视角测试特征图;
通过预设判别器确定多视角训练特征图对应的第一预测场景,以及多视角测试特征图对应的第二预测场景;
基于所述训练场景预测概率图、第一预测场景和所述第二预测场景确定第二损失函数,并基于所述第二损失函数对所述预训练人群检测模型进行训练,以得到所述目标场景对应的人群检测模型。
本申请实施例第二方面提供了一种基于视角贡献加权的人群检测装置,应用经过训练的人群检测模型,所述的人群检测装置包括:
获取模块,用于获取目标场景的多个视角图像,其中,每个视角图像均包含若干人;
控制模块,用于控制人群检测模型提取各视角图像各自对应的单视角特征图,并将各单视角特征图投影至预设平面,以得到各单视角特征图各自对应的单视角投影特征图;对各单视角投影特征图进行解码,以得各单视角投影特征图各自对应的单视角预测概率图;确定各单视角预测概率图各自对应的单视角权重图,并基于各单视角权重图将各单视角投影特征图融合,以得到多视角特征图;对所述多视角特征图进行解码以得到多视角预测概率图,其中,所述预设平面平行于所述目标场景中的场景地平面。
本申请实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的基于视角贡献加权的人群检测方法中的步骤。
本申请实施例第四方面提供了一种电子设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上任一所述的基于视角贡献加权的人群检测方法中的步骤。
有益效果:与现有技术相比,本申请提供了一种基于视角贡献加权的人群检测方法及相关装置,方法包括获取目标场景的多个视角图像,控制人群检测模型提取各视角图像各自对应的单视角特征图,并将各单视角特征图投影至预设平面,以得到各单视角特征图各自对应的单视角投影特征图;对各单视角投影特征图进行解码,以得各单视角投影特征图各自对应的单视角预测概率图;确定各单视角预测概率图各自对应的单视角权重图,并基于各单视角权重图将各单视角投影特征图融合,以得到多视角特征图;对所述多视角特征图进行解码以得到多视角预测概率图。本申请基于各单视角投影特征图来确定各视角的单视角权重图,然后基于各视角权重图将各视角投影特征图按照视角贡献进行融合,有效的利用多视角的特征信息,可以很好的解决遮挡问题,提高了人群检测位置信息的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员而言,在不符创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的人群检测模型的结构原理图。
图2为单视角特征解码单元的模型结构的说明图。
图3为视角1的场景概率图。
图4为视角2的场景概率图。
图5为视角3的场景概率图。
图6为场景概率图。
图7为人群检测模型的训练过程的原理流程图。
图8为目标场景下的人群检测模型的微调过程的原理流程图。
图9为本实施例提供的基于视角贡献加权的人群检测方法的流程图。
图10为本实施例提供的基于视角贡献加权的人群检测装置的结构原理图。
图11为本申请提供的电子设备的结构原理图。
具体实施方式
本申请提供一种基于视角贡献加权的人群检测方法及相关装置,为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定义,否则不会用理想化或过于正式的含义来解释。
应理解,本实施例中各步骤的序号和大小并不意味着执行顺序的先后,各过程的执行顺序以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
经过研究发现,针对人群检测的研究通常是在场景的场景地平面上进行检测,可以服务于多种不同的实际应用,如公共安全、自动驾驶以及智慧城市等。其中,遮挡始终是一个难以逾越的问题,许多方法为了解决遮挡造成的误差做出了努力。这些方法尝试在图像中提取一些人为定义的特征以检测每个人的位置,例如,通过提取图像的概率占据图来表示被检测人群在场景地面网格上所占据的位置。然而,这些方法需要依赖背景抠除预处理等,这极大抑制了它们的性能和应用场景。
为了解决上述问题,卷积神经网络模型被用于进行人群检测,其中,卷积神经网络的输入是相机在某个场景下所拍摄的图片,输出则是该场景的人群检测位置信息。但是,对于一个比较拥挤的大人群场景,会存在非常严重的遮挡问题,比如被检测对象之间的遮挡或场景障碍物对被检测对象的遮挡等,采用卷积神经网络对单视角图像进行特征提取来确定人群检测位置信息仍然会受遮挡问题影响,进而会影响人群检测位置信息的准确性。
为了解决上述问题,在本申请实施例中,获取目标场景的多个视角图像,控制人群检测模型提取各视角图像各自对应的单视角特征图,并将各单视角特征图投影至预设平面,以得到各单视角特征图各自对应的单视角投影特征图;对各单视角投影特征图进行解码,以得各单视角投影特征图各自对应的单视角预测概率图;确定各单视角预测概率图各自对应的单视角权重图,并基于各单视角权重图将各单视角投影特征图融合,以得到多视角特征图;对所述多视角特征图进行解码以得到多视角预测概率图。本申请基于各单视角投影特征图来确定各视角的单视角权重图,然后基于各视角权重图将各视角投影特征图按照视角贡献进行融合,有效的利用多视角的特征信息,可以很好的解决遮挡问题,提高了人群检测位置信息的准确性。
下面结合附图,通过对实施例的描述,对申请内容作进一步说明。
本实施例提供了一种基于视角贡献加权的人群检测方法,可以应用电子设备,电子设备中部署有人群检测模型,或者可以调用人群检测模型。电子设备用于获取目标场景的多个视角图像,并控制人群检测模型对多个视角图像进行处理,以得到多视角预测概率图。其中,电子设备可以为具有数据处理能力的设备,例如,PC机、笔记本电脑等。本申请实施例对电子设备的具体类型和结构等不作限定。
所述人群检测模型为经过训练的深度学习网络模型,如图1所示,人群检测模型包括单视角特征提取模块、单视角投影解码模块、视角贡献加权融合模块和多视角特征解码模块。单视角特征提取模块用于对输入图像进行特征提取,以得到单视角特征图。单视角特征提取模块与单视角投影解码模块相连接,单视角投影解码模块的输入项为单视角特征提取模块的输出项,单视角投影解码模块用于将单视角特征图投影至预设平面以得到单视角投影特征图,并对单视角投影特征图进行解码得到单视角预测概率图,以及对单视角预测概率图进行计算得到单视角权重图。视角贡献加权融合模块与单视角投影解码模块相连接,视角贡献加权融合模块的输入项为单视角投影解码模块确定的单视角投影特征图和单视角权重图,视角贡献加权融合模块用于将各单视角投影特征图按照单视角权重图进行融合,以得到多视角特征图。多视角特征解码模块与视角贡献加权融合模块相连接,多视角特征解码模块的输入项为视角贡献加权融合模块输出的多视角特征图,多视角特征解码模块用于对多视角特征图进行解码,以得到多视角预测概率图。本实施例通过单视角特征提取模块和单视角投影解码模块对输入图像进行特征提取、投影以及解码来得到输入图像的单视角投影特征图和各单视角投影特征图的单视角权重图,这样可以确定各视角在人群检测中的重要程度;然后通过视角贡献加权融合模块将各单视角投影特征图按照各自的重要程度进行融合来得到多视角特征图,使得多视角特征图即可以融合各视角的特征信息,又可以体现各视角的不同特征;最后通过多视角特征解码模块对多视角特征进行解码,使得多视角特征解码模块可以学习到多视角特征所携带的各视角所提供的特征信息以及各视角的重要程度,从而可以有效利用每个视角信息,在避免遮挡问题的同时,提高检测到的多视角预测概率图的准确性,从而提高了人群检测位置信息的准确性。
为了进一步说明本实施例中的人群检测模型,下面分别对人群检测模型所包括的单视角特征提取模块、单视角投影解码模块、视角贡献加权融合模块和多视角特征解码模块分别进行说明。
在一个实现方式中,单视角特征提取模块可以经过预训练的深度网络模型,例如,单视角特征提取模块选择ResNet/VGG作为特征提取的骨干网络等。其中,单视角特征提取模块的预训练过程可以为:首先将训练图像输入特征提取模块,通过特征提取模块确定训练特征图;其次将训练特征图输入解码器,通过解码器得到训练图像对应的预测图像;再次计算预测图像和训练图像对应的标注图像的均方差损失,并基于均方差损失对特征提取模块和解码器所形成的网络模型进行训练,直至均方差损失项收敛或训练次数达到预设次数;最后将经过训练的特征提取模块作为单视角特征提取模块。此外,值得说明的是,在人群检测模型的训练过程中,单视角特征提取模块的模型参数可以保持不变,也可以在人群检测模型的训练过程中同步修正等。
进一步,单视角投影特征解码模块可以包括投影层、单视角特征解码单元以及权重计算单元,单视角特征提取模块与投影层相连接,投影层与单视角特征图解码单元和视角贡献加权融合模块相连接,权重计算单元与视角贡献加权融合模块相连接。其中,投影层用于将单视角特征图投影至预设平面,以得到单视角投影特征图;单视角特征解码单元用于对单视角投影特征图进行解码,以得到单视角预测概率图;权重计算单元用于对单视角预测概率图进行计算,以得到各单视角预测概率图的单视角权重图。
投影层基于视角图像对应的相机内参和相机外参将单视角特征图投影值预设平面。其中,预设平面平行于场景地平面,例如,预设平面为场景地平面,或者是,距离场景地平面设定距离的平面,其中,设定距离可以为行人平均高度。相机内参可以包括相机的焦距、像素平面的像素大小;相机外参可以包括相机本身相对于世界坐标系的旋转矩阵和平移向量,以适应不同场景和相机数目的变化。在一个实现方式中,投影层以空间转换网络为基础,根据视角图像对应的相机内参和相机外参来确定投影过程,并将视角图像对应的单视角特征图投影至预设平面以得到单视角投影特征图。可以理解的是,投影层可以看作一个针孔相机模型,图像坐标通过相机内参从图像平面转换值相机平面,然后再通过相机外参转换为世界坐标。
单视角特征解码单元用于基于单视角投影特征图预测视角图像中的人群在场景地平面上的位置信息,以得到单视角预测概率图。其中,单视角特征解码单元可以采用如图2所示的卷积神经网络(CNN网络),其中,CNN网络包括若干卷积块和卷积层,若干卷积块中的每个卷积块均包括卷积层和ReLU激活函数层。此外,单视角特征解码单元会对每个单视角投影特征图进行解码,从而单特征解码单元对于每个视角图像共享权重。此外,单视角特征解码单元会预测得到视角图像的单视角预测概率图,从而单视角特征解码单元在训练过程中也可以设置有监督信息,其中,监督信息为训练场景下对应的视角可见范围内的场景概率图,场景概率图指的是在场景地平面上可见人群所在位置通过高斯模糊处理构成的概率占据图。例如,如图3为视角1对应的场景概率图,图4为视角2对应的场景概率图,图5为视角3对应的场景概率图,图6为训练场景的场景概率图。
权重计算单元用于计算各视角的权重值,并基于各视角的权重值来确定各视角的单视角权重图,其中,权重计算单元的输入项为单视角预测概率图,权重计算单元基于单视角预测概率图预测每个视角的权重,例如,将单视角预测概率图中的人群位置数量和等。在获取到每个视角的权重后,可以将各视角下的场景不可见范围的位置上的设置为0,其他位置设置为1,以形成各视角下的掩膜图,然后将权重与视角的掩膜图相乘以得到候选单视角权重图;最后将各候选单视角权重图进行归一化,以得到各单视角权重图。这样对于场景概率图上的每个像素点,该像素点在所有视角下的权重和为1。
进一步,视角贡献加权融合模块用于将各视角的单视角投影特征进行融合,其中,视角贡献加权融合模块可以包括若干乘法器和加法器,若干乘法器均与加法器相连接,若干乘法器中的每个乘法器均与投影层和权重计算单元相连接;通过乘法器将单视角投影特征图与其对应的单视角权重图进行相乘,以得到单视角目标特征图;然后通过加法器将各单视角目标特征图进行相加,以得到多视角特征图。
进一步,多视角特征解码模块基于多视角特征图进行人群在场景地平面的位置预测,以得到多视角预测概率图。其中,多视角特征解码模块的模型结构与单视角解码单元的模型结构相同,两者不同是单视角解码单元用于对单视角投影特征图进行解码,多视角特征解码模块用于对融合各单视角投影特征图得到的多视角特征图进行解码,并且单视角解码单元和多视角特征解码模块的网络参数不共享。
在说明完人群检测模型的模型结构,需要对人群检测模型的训练过程进行说明,如图7所示,人群检测模型的训练过程可以为:
将预设训练集中的训练图像组输入所述人群检测模型对应的初始检测模型,通过所述初始检测模型确定各单视角训练概率图和多视角训练概率图;
基于各单视角训练概率图和多视角训练概率图确定第一损失函数,并基于所述第一损失函数对所述初始检测模型进行训练,以得到经过训练的人群检测模型。
具体地,训练集包括若干训练图像组,若干训练图像组中的每个训练图像组均包括多个单视角训练图像,多个单视角训练图像为对同一训练场景进行图像采集所得到的,且各视角训练图像各自对应的视角不同。对于每个训练图像组,将各训练图像组中的单视角训练图像输入人群检测模型对应的初始检测模型,通过初始检测模型可以确定各单视角训练概率图以及训练图像组对应的多视角训练概率图。其中,初始检测模块的模型结构与人群检测模型的模型结构相同,各模块的工作过程也相同,两者的区别仅是初始检测模型的模型参数与人群检测模型的模型参数不同,由此,各单视角训练概率图和多视角训练概率图的确定过程可以参照上述人群检测模型的工作过程,这里就不在赘述。
在获取到各单视角训练概率图和多视角训练概率图后,基于各单视角训练概率图和多视角训练概率图确定第一损失函数,使得第一损失函数中包括有对单角度特征提取模块的约束信息,也包括对单角度投影解码模块和多角度解码模块的约束信息,这样一方面可以使得单视角特征提取模块所输出的特征信息使得单视角投影解码模块能够准确的预测到单视角预测概率图;另一方面可以包括场景级损失信息,使得多角度解码模块可以准确的预测到多角度预测概率图,从而提高训练得到的人群检测模型的模型性能。
在一个实现方式中,所述第一损失函数的表达式为:
其中,表示第一损失函数,/>表示场景级损失项,/>表示单视角预测损失项,/>表示视角图像的数目,/>表示单视角训练概率图,/>表示多视角训练概率图,/>表示场景真实概率图;/>表示均方差损失函数,/>表示第i个视角的掩膜图,用于反映第i个视角在场景中的可见范围,/>表示权重超参数。
在一个实现方式中,在基于训练集训练得到人群检测模型后,可以将该人群检测模型作为预训练人群检测模型,在将预训练人群检测模型泛化至不同场景时,为了减少场景迁移带来的误差,可以获取待迁移的目标场景中的若干图像组,并将若干图像组构成的图像集作为目标场景的测试集,其中,若干图像组中的每个图像组均包括若干测试图像,每个测试图像对应的视角不同。然后,基于测试集和训练集对预训练人群检测模型进行微调,并将微调后的预训练人群检测模型作为目标场景对应的人群检测模型。其中,如图8所示,基于测试集和训练集对预训练人群检测模型进行微调的过程可以包括:
H10、将基于预设训练集训练的人群检测模型作为预训练人群检测模型;
H20、将预设训练集中的训练图像组输入预训练人群检测模型,通过预训练人群检测模型确定训练图像组对应的多视角训练特征图以及训练场景预测概率图;
H30、将目标场景对应的测试集中的测试图像组输入预训练人群检测模型,通过预训练人群检测模型确定测试图像组对应的多视角测试特征图;
H40、通过预设判别器确定多视角训练特征图对应的第一预测场景,以及多视角测试特征图对应的第二预测场景;
H50、基于所述训练场景预测概率图、第一预测场景和所述第二预测场景确定第二损失函数,并基于所述第二损失函数对所述预训练人群检测模型进行训练,以得到所述目标场景对应的人群检测模型。
具体地,训练图像组为训练集中任意训练图像组,即可以在训练集中随机选取一个训练图像组输入预训练人群检测模型,通过预训练人群检测模型确定训练图像组对应的多视角训练特征图以及训练场景预测概率图。测试集为对目标场景进行多视角图像采集所形成的,测试集中包括若干测试图像组,每个测试图像组均未携带有场景真实概率图,即测试集未携带有监督信息。由此,在将测试图像组输入预训练人群检测模型时,通过预训练人群检测模型仅需要输出训练图像组对应的多角度测试特征图,而无需输出目标场景预测概率图。
在获取到多视角测试特征图和多视角训练特征图后,可以通过判别器对多视角测试特征图和多视角训练特征图进行场景判别,以确定多视角测试特征图对应的第二预测场景和多视角训练特征图对应的第一预测场景。这样通过判别器可以对场景进行判别,可以减少训练场景下确定的多视角训练特征图和目标场景下的多视角测试特征图间的特征差异。
第二损失函数包括基于训练集确定的场景损失项和判别器的判别损失项,其中,基于训练集确定的场景损失项为基于训练场景预测概率图和训练图像组对应的场景真实概率图确的,例如,场景损失项,判别损失性,其中,/>表示多视角训练概率图,/>表示场景真实概率图。判别损失项可以采用二分类交叉熵损失(BCE),判别器可以判别出输入的多角度特征图是来源于哪一个数据集,即多角度特征图对应的预测场景,例如,多角度训练特征图对应的第一预测场景,以及多角度测试特征图对应的第二预测场景。本实施例通过场景损失项和判别损失项联合来对预训练人群检测其进行微调,在训练判别器的同时,可以训练更新单视角特征提取模块和多视角特征解码模块的模型参数,使得模型可以泛化到目标场景。
在训练得到人群检测模型后,可以应用人群检测模型对目标场景进行人群检测。基于此,本实施例提供了一种基于视角贡献加权的人群检测方法,应用上述的人群检测模型,如图9所示,所述方法包括
S10、获取目标场景的多个视角图像,其中,每个视角图像均包含若干人;
S20、通过人群检测模型提取各视角图像各自对应的单视角特征图,并将各单视角特征图投影至预设平面,以得到各单视角特征图各自对应的单视角投影特征图,其中,所述预设平面平行于所述目标场景中的场景地平面;
S30、通过人群检测模型对各单视角投影特征图进行解码,以得各单视角投影特征图各自对应的单视角预测概率图;
S40、通过人群检测模型确定各单视角预测概率图各自对应的单视角权重图,并基于各单视角权重图将各单视角投影特征图融合,以得到多视角特征图;
S50、通过人群检测模型对所述多视角特征图进行解码以得到多视角预测概率图。
具体地,目标场景为大人群场景,例如,多人拥挤场景等。目标场景可以人群拥挤场景,多个视角图像可以通过从不同视角对目标场景进行图像采集所得到,以使得各视角图像各自对应的视角不同。例如,多个视角图像可以通过多个装配于目标场景的摄像头采集的,其中,每个摄像头对应的拍摄视角不同,以使得每个摄像头采集到的单视角图像的视角不同。多视角预测概率图用于反映被检测人群在场景地平面网络上所占据的位置,从而基于多视角预测概率图可以确定目标场景对应的人群检测位置信息。
在一个实现方式中,所述基于各单视角权重图将各单视角投影特征图融合,以得到多视角特征图具体包括:
将各单视角权重图与各自对应的单视角投影特征图相乘,以得到各单视角投影特征图各自对应的单视角目标特征图;
将各单视角目标特征图相加,以得到多视角特征图。
具体地,单视角权重图与各自对应的单视角投影特征图进行相乘指的是将单视角权重图中的各像素点与其对应的单视角投影特征图中的各像素点进行逐点相乘,例如,单视角权重图采用像素点表示为,/>,/>,单视角投影特征图采用像素点表示为/>,/>,/>,其中,表示图像宽度,/>表示图像高度;那么将各单视角权重图与各自对应的单视角投影特征图相乘为将像素点/>与像素点/>相乘,其中,/>在单视角权重图中所处的像素位置与/>单视角投影特征图中所处的像素位置相同。
进一步,在将各单视角权重图与各自对应的单视角投影特征图相乘得到各自对应的单视角目标特征图后,将各单视角目标特征图进行相加,其中,各单视角目标特征图进行相加可以是直接将各单视角目标特征图中对应像素位置的像素值进行相加,并将相加的和作为该像素位置的像素值。当然,在实际应用中,还可以将单视角目标特征图中对应像素位置的像素值的均值作为该像素位置的像素值,或者将对应像素位置的像素值进行加权等。在本实施例中,直接将对应像素位置的像素值的和作为该像素位置的像素值,由于每个单视角目标特征图中的像素值均是基于该视角对应的权重确定,那么直接将和作为像素值,可以体现各视角的目标特征在多视角特征中的贡献,使得每个视角的特征信息可以被充分有效的利用。
在一个实现方式中,所述通过人群检测模型确定各单视角预测概率图各自对应的单视角权重图具体包括:
通过人群检测模型计算各单视角预测概率图各自对应的单视角权重,并将各单视角权重与各单视角的掩膜图相乘,以得到各单视角预测概率图各自对应的单视角候选权重图;
通过人群检测模型对各单视角候选权重图进行归一化处理,以得到各单视角预测概率图各自对应的单视角权重图。
具体地,所述单视角权重的确定过程和掩膜图均与人群检测模型的过程相同这里就不再赘述,这里就对归一化处理的过程进行说明,其中,归一化处理可以表示为:
其中,表示视角/>的单视角权重图,/>表示视角/>的掩膜图,/>表示视角/>的单视角候选权重图,/>表示调节系数,设定数值为极小值,例如,1e-18等,这样可以通过使得分母不为零,这是由于场景概率图中的某个位置可能不对任一视角可见,又不会因为/>而对单视角权重产生影响。
综上所述,本实施例提供了一种基于视角贡献加权的人群检测方法,方法包括获取目标场景的多个视角图像,控制人群检测模型提取各视角图像各自对应的单视角特征图,并将各单视角特征图投影至预设平面,以得到各单视角特征图各自对应的单视角投影特征图;对各单视角投影特征图进行解码,以得各单视角投影特征图各自对应的单视角预测概率图;确定各单视角预测概率图各自对应的单视角权重图,并基于各单视角权重图将各单视角投影特征图融合,以得到多视角特征图;对所述多视角特征图进行解码以得到多视角预测概率图。本申请基于各单视角投影特征图来确定各视角的单视角权重图,然后基于各视角权重图将各视角投影特征图按照视角贡献进行融合,有效的利用多视角的特征信息,可以很好的解决遮挡问题,提高了人群检测位置信息的准确性。
基于上述基于视角贡献加权的人群检测方法,本实施例提供了一种基于视角贡献加权的人群检测装置,如图10所示,应用经过训练的人群检测模型,所述的人群检测装置包括:
获取模块100,用于获取目标场景的多个视角图像,其中,每个视角图像均包含若干人;
控制模块200,用于控制人群检测模型提取各视角图像各自对应的单视角特征图,并将各单视角特征图投影至预设平面,以得到各单视角特征图各自对应的单视角投影特征图;对各单视角投影特征图进行解码,以得各单视角投影特征图各自对应的单视角预测概率图;确定各单视角预测概率图各自对应的单视角权重图,并基于各单视角权重图将各单视角投影特征图融合,以得到多视角特征图;对所述多视角特征图进行解码以得到多视角预测概率图,其中,所述预设平面平行于所述目标场景中的场景地平面。
基于上述基于视角贡献加权的人群检测方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的基于视角贡献加权的人群检测方法中的步骤。
基于上述基于视角贡献加权的人群检测方法,本申请还提供了一种电子设备,如图11所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及电子设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种基于视角贡献加权的人群检测方法,其特征在于,应用经过训练的人群检测模型,所述方法包括:
获取目标场景的多个视角图像,其中,每个视角图像均包含若干人;
通过人群检测模型提取各视角图像各自对应的单视角特征图,并将各单视角特征图投影至预设平面,以得到各单视角特征图各自对应的单视角投影特征图,其中,所述预设平面平行于所述目标场景中的场景地平面;
通过人群检测模型对各单视角投影特征图进行解码,以得各单视角投影特征图各自对应的单视角预测概率图;
通过人群检测模型确定各单视角预测概率图各自对应的单视角权重图,并基于各单视角权重图将各单视角投影特征图融合,以得到多视角特征图;
通过人群检测模型对所述多视角特征图进行解码以得到多视角预测概率图。
2.根据权利要求1所述的基于视角贡献加权的人群检测方法,其特征在于,所述基于各单视角权重图将各单视角投影特征图融合,以得到多视角特征图具体包括:
将各单视角权重图与各自对应的单视角投影特征图相乘,以得到各单视角投影特征图各自对应的单视角目标特征图;
将各单视角目标特征图相加,以得到多视角特征图。
3.根据权利要求1所述的基于视角贡献加权的人群检测方法,其特征在于,所述通过人群检测模型确定各单视角预测概率图各自对应的单视角权重图具体包括:
通过人群检测模型计算各单视角预测概率图各自对应的单视角权重,并将各单视角权重与各单视角的掩膜图相乘,以得到各单视角预测概率图各自对应的单视角候选权重图;
通过人群检测模型对各单视角候选权重图进行归一化处理,以得到各单视角预测概率图各自对应的单视角权重图。
4.根据权利要求1所述的基于视角贡献加权的人群检测方法,其特征在于,所述人群检测模型包括单视角特征提取模块、单视角投影解码模块、视角贡献加权融合模块和多视角特征解码模块,其中,所述单视角特征提取模块与所述单视角投影解码模块相连接,所述单视角投影解码模块与所述视角贡献加权融合模块相连接,所述单视角特征解码模块与所述视角贡献加权融合模块相连接,所述视角贡献加权融合模块与所述多视角特征解码模块相连接。
5.根据权利要求1-4任意一项所述的基于视角贡献加权的人群检测方法,其特征在于,所述人群检测模型的训练过程具体包括:
将预设训练集中的训练图像组输入所述人群检测模型对应的初始检测模型,通过所述初始检测模型确定各单视角训练概率图和多视角训练概率图;
基于各单视角训练概率图和多视角训练概率图确定第一损失函数,并基于所述第一损失函数对所述初始检测模型进行训练,以得到经过训练的人群检测模型。
6.根据权利要求5所述的基于视角贡献加权的人群检测方法,其特征在于,所述第一损失函数的表达式为:
其中,表示第一损失函数,/>表示场景级损失项,/>表示单视角预测损失项,/>表示视角图像的数目,/>表示单视角训练概率图,/>表示多视角训练概率图,/>表示场景真实概率图;/>表示均方差损失函数,/>表示第i个视角的掩膜图,用于反映第i个视角在场景中的可见范围,/>表示权重超参数。
7.根据权利要求5所述的基于视角贡献加权的人群检测方法,其特征在于,当将所述人群检测模型应用于目标场景之前,所述方法还包括:
将基于预设训练集训练的人群检测模型作为预训练人群检测模型;
将预设训练集中的训练图像组输入预训练人群检测模型,通过预训练人群检测模型确定训练图像组对应的多视角训练特征图以及训练场景预测概率图;
将目标场景对应的测试集中的测试图像组输入预训练人群检测模型,通过预训练人群检测模型确定测试图像组对应的多视角测试特征图;
通过预设判别器确定多视角训练特征图对应的第一预测场景,以及多视角测试特征图对应的第二预测场景;
基于所述训练场景预测概率图、第一预测场景和所述第二预测场景确定第二损失函数,并基于所述第二损失函数对所述预训练人群检测模型进行训练,以得到所述目标场景对应的人群检测模型。
8.一种基于视角贡献加权的人群检测装置,其特征在于,应用经过训练的人群检测模型,所述的人群检测装置包括:
获取模块,用于获取目标场景的多个视角图像,其中,每个视角图像均包含若干人;
控制模块,用于控制人群检测模型提取各视角图像各自对应的单视角特征图,并将各单视角特征图投影至预设平面,以得到各单视角特征图各自对应的单视角投影特征图;对各单视角投影特征图进行解码,以得各单视角投影特征图各自对应的单视角预测概率图;确定各单视角预测概率图各自对应的单视角权重图,并基于各单视角权重图将各单视角投影特征图融合,以得到多视角特征图;对所述多视角特征图进行解码以得到多视角预测概率图,其中,所述预设平面平行于所述目标场景中的场景地平面。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-7任意一项所述的基于视角贡献加权的人群检测方法中的步骤。
10.一种电子设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1-7任意一项所述的基于视角贡献加权的人群检测方法中的步骤。
CN202310809287.1A 2023-07-04 基于视角贡献加权的人群检测方法及相关装置 Active CN116524442B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310809287.1A CN116524442B (zh) 2023-07-04 基于视角贡献加权的人群检测方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310809287.1A CN116524442B (zh) 2023-07-04 基于视角贡献加权的人群检测方法及相关装置

Publications (2)

Publication Number Publication Date
CN116524442A true CN116524442A (zh) 2023-08-01
CN116524442B CN116524442B (zh) 2024-05-17

Family

ID=

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596902A (zh) * 2018-05-04 2018-09-28 北京大学 基于选通卷积神经网络的多任务全参考图像质量评价方法
CN111429514A (zh) * 2020-03-11 2020-07-17 浙江大学 一种融合多帧时序点云的激光雷达3d实时目标检测方法
CN111612732A (zh) * 2020-04-02 2020-09-01 深圳大学 图像质量评估方法、装置、计算机设备及存储介质
CN111814771A (zh) * 2020-09-04 2020-10-23 支付宝(杭州)信息技术有限公司 图像处理的方法及装置
US20210174513A1 (en) * 2019-12-09 2021-06-10 Naver Corporation Method and apparatus for semantic segmentation and depth completion using a convolutional neural network
CN114663473A (zh) * 2022-03-02 2022-06-24 国网浙江省电力有限公司电力科学研究院 基于多视角信息融合的人员目标定位与追踪方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596902A (zh) * 2018-05-04 2018-09-28 北京大学 基于选通卷积神经网络的多任务全参考图像质量评价方法
US20210174513A1 (en) * 2019-12-09 2021-06-10 Naver Corporation Method and apparatus for semantic segmentation and depth completion using a convolutional neural network
CN111429514A (zh) * 2020-03-11 2020-07-17 浙江大学 一种融合多帧时序点云的激光雷达3d实时目标检测方法
CN111612732A (zh) * 2020-04-02 2020-09-01 深圳大学 图像质量评估方法、装置、计算机设备及存储介质
CN111814771A (zh) * 2020-09-04 2020-10-23 支付宝(杭州)信息技术有限公司 图像处理的方法及装置
CN114663473A (zh) * 2022-03-02 2022-06-24 国网浙江省电力有限公司电力科学研究院 基于多视角信息融合的人员目标定位与追踪方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QI ZHANG ET AL.: "Cross-View Cross-Scene Multi-View Crowd Counting", 《2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, pages 557 - 564 *

Similar Documents

Publication Publication Date Title
US11256955B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
US11232286B2 (en) Method and apparatus for generating face rotation image
US10497099B2 (en) Automatic orientation adjustment of spherical panorama digital images
EP3576017A1 (en) Method, apparatus, and device for determining pose of object in image, and storage medium
CN113420729B (zh) 多尺度目标检测方法、模型、电子设备及其应用
JP7093427B2 (ja) オブジェクト追跡方法および装置、電子設備並びに記憶媒体
CN108416902A (zh) 基于差异识别的实时物体识别方法和装置
CN110998671B (zh) 三维重建方法、装置、系统和存储介质
CN114140683A (zh) 一种航拍图像目标检测的方法、设备与介质
CN111723707A (zh) 一种基于视觉显著性的注视点估计方法及装置
CN112446322A (zh) 眼球特征检测方法、装置、设备及计算机可读存储介质
CN114169425A (zh) 训练目标跟踪模型和目标跟踪的方法和装置
CN113627298A (zh) 目标检测模型的训练方法及检测目标对象的方法、装置
CN116524442B (zh) 基于视角贡献加权的人群检测方法及相关装置
CN112633066A (zh) 一种航拍小目标检测方法、装置、设备及存储介质
CN115205793B (zh) 基于深度学习二次确认的电力机房烟雾检测方法及装置
CN115937546A (zh) 图像匹配、三维图像重建方法、装置、电子设备以及介质
CN116524442A (zh) 基于视角贡献加权的人群检测方法及相关装置
Elassal et al. Unsupervised crowd counting
CN116091784A (zh) 一种目标跟踪方法、设备及存储介质
CN115965653A (zh) 一种光斑追踪方法、装置、电子设备及存储介质
CN115393423A (zh) 目标检测方法和装置
CN114972465A (zh) 图像目标深度的检测方法、装置、电子设备和存储介质
CN114022630A (zh) 三维场景的重建方法、装置、设备和计算机可读存储介质
CN115908879B (zh) 基于点引导注意力机制的自适应局部图像特征匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant