CN115393892A - 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法 - Google Patents
一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法 Download PDFInfo
- Publication number
- CN115393892A CN115393892A CN202210863953.5A CN202210863953A CN115393892A CN 115393892 A CN115393892 A CN 115393892A CN 202210863953 A CN202210863953 A CN 202210863953A CN 115393892 A CN115393892 A CN 115393892A
- Authority
- CN
- China
- Prior art keywords
- frame
- formula
- candidate
- box
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法,包括以下步骤:S1:将图像输入到主干网络,提取不同尺度下的特征;S2:将步骤S1提取的特征输入到基于简化CIoU和K‑means聚类算法的锚框优化方法的双锚框区域建议网络中获取候选框;S3:采用改进的双候选框交叉替换策略对步骤S2生成的候选框对进行比对、替换,生成高质量候选框对;S4:将经过RoI Align后的头部和全身候选框对应的特征输入全连接层进行融合,并得到特征图信息;S5:采用改进的损失函数对融合后的特征图信息进行分类和回归处理,预测行人的位置和类别信息;S6:剔除冗余预测框,输出带有最优预测框的图像。该方法有效降低了拥挤场景下行人检测的误检率和漏检率。
Description
技术领域
本发明涉及目标检测技术领域,具体涉及一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法。
背景技术
行人检测这些年一直受到众多研究者的关注,可以为一些现实场景提供重要的技术支持。例如,在车辆驾驶系统中,帮助车辆在行驶过程中检测行人,从而辅助车辆行驶规避行人,减少交通事故发生;在智能监控系统中,通过监控视频或图片的内容,识别罪犯、拥挤行人等潜在的安全隐患,从而及时采取行动,提高居民和城市安全;在机器人以及高级人机交互系统中,赋予机器智能,解放工人双手。此外,行人检测也是多目标追踪、人体姿态估计和人像搜索的前提。
近年来,随着人民物质生活水平的逐渐提高和城市化进程的不断加快,城市居民数量得到了迅速的增长,导致许多场景经常会出现人群拥挤情况,如商场、车站、街道、医院、景区等场景,这些拥挤场景存在着较大的安全隐患。尽管现有行人检测模型在KITTI、CityPersons 和Caltech等经典行人检测数据集上取得了不错的结果,但是在拥挤场景数据集上依然表现不佳。与一般行人检测相比,在拥挤场景下,行人检测除了受到图像中光照强度不一、背景复杂多样、不同拍摄角度等因素的影响外,人体结构之间的相似性、姿态的多样性、尺度大小在图像中多变以及行人着装各异等因素,也大大增加了人体检测的难度。更困难的是人体之间还普遍存在高度遮挡,这些遮挡的模式多样且属于同类别遮挡,使得行人检测模型提取的每个目标的特征区分性不高,导致模型无法区分各目标之间的边界,以致将多个目标看作一个整体,或者某些目标的预测边界框有较大偏差,或者预测的边界框被非极大值抑制剔除,进而导致检测模型存在漏检和误检情况,使模型检测效果严重下降。因此,研究拥挤场景行人检测方法,提高行人识别的准确性及定位的精确性,具有较好的理论意义以及实际应用价值。
发明内容
本发明提供了一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法,其目的在于解决在拥挤场景下由于人体间的遮挡导致行人检测模型存在漏检和误检的问题。
为实现上述目的,本发明提供了如下的技术方案:
一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法,具体步骤如下:
S1:将图像输入到主干网络,提取不同尺度下的特征;
S2:将步骤S1中提取的特征输入到基于简化CIoU和K-means聚类算法的锚框优化方法的双锚框区域建议网络中获取候选框;
S3:采用改进的双候选框交叉替换策略对步骤S2生成的候选框对进行比对、替换,生成包含头部和全身候选框的高质量候选框对;
S4:将经过RoI Align后的头部和全身候选框对应的特征输入全连接层进行融合,生成融合后的特征图信息;
S5:根据目标内容对融合后的特征图信息,采用基于改进的损失函数对融合后的特征图信息进行分类和回归处理,获得多个预测框,预测行人的位置和类别信息,其中改进的回归损失函数计算公式见公式(1):
LE-RepLoss=LE-Attr-α*LE-RepGT-β*LE-RepBox (1)
公式(1)中,LE-RepLoss是改进的损失函数,LE-Attr是吸引力损失,LE-RepGT、LE-RepBox是排斥力损失,α和β为平衡系数;
公式(1)中,吸引力损失LE-Attr的计算方法见公式(2),其作用是使目标的预测边界框尽可能靠近自己的真实框:
公式(2)中,b和分别表示行人的预测边界框和与之对应的真实框,而w表示预测边界框的宽,h表示预测边界框的高,表示真实框的宽,表示真实框的高,c表示两个边界框最小外接矩形的对角线,ρ表示两个边界框最小外接矩形的中心点的距离,Cw和Ch为两个边界框最小外接矩形的宽和高;
公式(1)中,LE-RepGT为预测边界框与相邻目标真实框的排斥力损失函数,计算方法见公式 (3):
公式(1)中,LE-RepBox为行人预测边界框与相邻行人预测边界框损失函数,计算方法见公式(4):
公式(4)中,bi和bj表示行人i跟行人j的预测边界框,wi、hi表示行人i的预测边界框的宽跟高,wj、hj表示行人j的预测边界框的宽跟高;
S6:剔除冗余预测框,输出带有最优预测框的图像。
进一步的,所述步骤S1具体包括步骤S11至步骤S12:
S11:加载在ImageNet分类数据集上预训练后生成的深度残差卷积神经网络模型ResNet50;
S12:将待检测的图像输入到深度残差卷积神经网络ResNet50中提取不同尺度下的深度卷积特征;
进一步的,所述步骤S2具体包括步骤S21至步骤S22:
S21:采用基于简化CIoU和K-means聚类算法的锚框优化方法对双锚框区域建议网络进行锚框优化,进一步包括步骤S211至步骤S215:
S211:将数据集中所有全身标注框的宽和高(xi,yi)作为待聚类样本,其中,i∈(1,2,...N), N为样本个数,xi为第i个标注框的宽,yi为第i个标注框的高;
S212:给定K个聚类中心点的坐标(SWj,SHj),其中,(SWj,SHj)为第j个聚类中心点的坐标, j∈(1,2,...K),K为聚类中心点的数量;
S213:根据LS-CIoU计算每个标注框到每个聚类中心的距离,计算公式见公式(5),将标注框分配给距离最近的聚类中心;
d=LS-CIoU[(swi,shi),(SWj,SHj)] (5)
公式(5)中,d表示标注框到聚类中心的距离,i∈(1,2,…,N),j∈(1,2,…K),LS-CIoU为 K-means聚类算法中距离计算公式,(swi,shi)为第i个标注框中心位置坐标,LS-CIoU计算公式见公式(6):
LS-CIoU=1-IoU+αν (6)
公式(6)中,v是宽高比,a是动态权重因子,其中,α的计算方法见公式(7):
公式(7)中,宽高比v的计算方法见公式(8):
公式(8)中,(swgt,shgt)为真实框中心位置坐标,(sw,sh)为标注框中心位置坐标;
S214:所有标注框分配完毕以后,对每个簇重新计算聚类中心,计算方法见公式(9):
公式(9)中,(SW’,SH’)为重新计算的第i个类簇的聚类中心位置坐标,Ni为第i个类簇中对象个数,∑SWi为第i个类簇中所有对象横坐标SW向量的和,∑SHi为第i个类簇中所有对象纵坐标SH向量的和;
S215:重复步骤S213、S214,直到聚类中心不再改变;
S22:将步骤S1中提取的特征输入到基于简化CIoU和K-means聚类算法的锚框优化方法的双锚框区域建议网络中,由RPN-H和RPN-B生成符合数据集的头部和全身候选框对。
进一步的,所述步骤S3具体包括步骤S31至步骤S32:
S31:设定第一阈值;
S32:对RPN-B的低质量头部候选框和RPN-H高质量头部候选框计算交并比,若交并比值大于步骤S31所述的第一阈值,则将RPN-B的头部候选框替换为RPN-H的头部候选框;将替换后头部候选框与RPN-B中身体候选框拼接,最终形成一对高质量候选框对。
进一步的,所述步骤S6具体包括步骤S61至步骤S62:
S61:通过非极大值抑制法筛选出所述最优预测框;
S62:通过Open CV将带有最优预测框的图像绘制到操作界面的结果输出框,并进行输出。
进一步的,所述步骤S61具体包括步骤S611至步骤S615:
S611:通过联合非极大值抑制的方法,同时利用输出的头部和全身边界框的信息,加权两种边界框的类别得分作为边界框排序的置信度;
S612:将置信度最高的预测框记录到最终输出列表中,并将步骤S611所述置信度最高的预测框从预测框列表中删除;
S613:计算所述预测框列表中剩余预测框的面积;并根据所述剩余预测框的面积,计算所述置信度最高的预测框与剩余预测框的重叠度;
S614:将所述剩余预测框中大于阈值的预测框,从所述预测框列表中删除;
S615:重复步骤S612-S614,直到所述预测框列表为空。
本发明与现有技术相比,具体有以下优点:
(1)采用基于简化CIoU和K-means聚类算法的锚框优化方法,设计符合数据集的锚框大小和比例从而提升了模型检测效果。
(2)采用改进的双候选框交叉替换策略,将候选框交叉替换策略中全身框选择替换改为头部框选择替换,若RPN-B和RPN-H中的头部框候选框之间的交并比大于指定阈值,则将 RPN-B的头部候选框替换为RPN-H的头部候选框,然后再将替换后头部候选框与RPN-B中全身候选框融合,从而提高候选框的质量。
(3)提出一种适用于遮挡更严重场景的回归损失函数E-RepLoss。该函数将EIoU损失函数与RepLoss相结合,使RepLoss完全以EIoU损失函数实现吸引和排斥损失内容。该函数包含的两个函数以不同的方式都可以使边界框更好地覆盖自身目标的同时,与基于锚框(anchor-based)的CrowdDet模型更适配,RepLoss可以使预测的边界框远离相邻行人真实框和预测边界框,提高了检测模型在遮挡更严重的场景的检测性能。
附图说明
图1是本发明的流程图;
图2是基于简化CIoU和K-means聚类算法的锚框优化方法流程图;
图3是改进的双候选框交叉替换策略的示意图;
具体实施方式
为了更清楚地理解本发明的上述方案,下面结合附图对本发明进行进一步的详细描述。需要说明的是,此处所描述的具体实施仅用于解释本申请,并不用于限定本申请。
图1是本发明一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法流程图,具体步骤如下:
S1:将图像输入到主干网络,提取不同尺度下的特征;
S2:将步骤S1中提取的特征输入到基于简化CIoU和K-means聚类算法的锚框优化方法的双锚框区域建议网络中获取候选框;
S3:采用改进的双候选框交叉替换策略对步骤S2生成的候选框对进行比对、替换,生成包含头部和全身候选框的高质量候选框对;
S4:将经过RoI Align后的头部和全身候选框对应的特征输入全连接层进行融合,生成融合后的特征图信息;
S5:根据目标内容对融合后的特征图信息,采用基于改进的损失函数对融合后的特征图信息进行分类和回归处理,获得多个预测框,预测行人的位置和类别信息,其中改进的回归损失函数计算公式见公式(1):
LE-RepLoss=LE-Attr-α*LE-RepGT-β*LE-RepBox (1)
公式(1)中,LE-RepLoss是改进的损失函数,LE-Attr是吸引力损失,LE-RepGT、LE-RepBox是排斥力损失,α和β为平衡系数;
公式(1)中,吸引力损失LE-Attr的计算方法见公式(2),其作用是使目标的预测边界框尽可能靠近自己的真实框:
公式(2)中,b和分别表示行人的预测边界框和与之对应的真实框,而w表示预测边界框的宽,h表示预测边界框的高,表示真实框的宽,表示真实框的高,c表示两个边界框最小外接矩形的对角线,ρ表示两个边界框最小外接矩形的中心点的距离,Cw和Ch为两个边界框最小外接矩形的宽和高;
公式(1)中,LE-RepGT为预测边界框与相邻目标真实框的排斥力损失函数,计算方法见公式 (3):
公式(1)中,LE-RepBox为行人预测边界框与相邻行人预测边界框损失函数,计算方法见公式(4):
公式(4)中,bi和bj表示行人i跟行人j的预测边界框,wi、hi表示行人i的预测边界框的宽跟高,wj、hj表示行人j的预测边界框的宽跟高;
S6:剔除冗余预测框,输出带有最优预测框的图像。
具体的,所述步骤S1具体包括如下步骤:
S11:加载在ImageNet分类数据集上预训练后生成的深度残差卷积神经网络模型ResNet50;
S12:将待检测的图像输入到深度残差卷积神经网络ResNet50中提取不同尺度下的深度卷积特征;
图2为基于简化CIoU和K-means聚类算法的锚框优化方法的流程图,具体的,所述步骤S2具体包括步骤S21至步骤S22:
S21:采用基于简化CIoU和K-means聚类算法的锚框优化方法对双锚框区域建议网络进行锚框优化,进一步包括步骤S211至步骤S215:
S211:将数据集中所有全身标注框的宽和高(xi,yi)作为待聚类样本,其中,i∈(1,2,...N), N为样本个数,xi为第i个标注框的宽,yi为第i个标注框的高;
S212:给定K个聚类中心点的坐标(SWj,SHj),其中,(SWj,SHj)为第j个聚类中心点的坐标, j∈(1,2,...K),K为聚类中心点的数量;
S213:根据LS-CIoU计算每个标注框到每个聚类中心的距离,计算公式见公式(5),将标注框分配给距离最近的聚类中心;
d=LS-CIoU[(swi,shi),(SWj,SHj)] (5)
公式(5)中,d表示标注框到聚类中心的距离,i∈(1,2,…,N),j∈(1,2,…K),LS-CIoU为 K-means聚类算法中距离计算公式,(swi,shi)为第i个标注框中心位置坐标,LS-CIoU计算公式见公式(6):
LS-CIoU=1-IoU+αν (6)
公式(6)中,v是宽高比,a是动态权重因子,其中,α的计算方法见公式(7):
公式(7)中,宽高比v的计算方法见公式(8):
公式(8)中,(swgt,shgt)为真实框中心位置坐标,(sw,sh)为标注框中心位置坐标;
S214:所有标注框分配完毕以后,对每个簇重新计算聚类中心,计算方法见公式(9):
公式(9)中,(SW’,SH’)为重新计算的第i个类簇的聚类中心位置坐标,Ni为第i个类簇中对象个数,∑SWi为第i个类簇中所有对象横坐标SW向量的和,∑SHi为第i个类簇中所有对象纵坐标SH向量的和;
S215:重复步骤S213、S214,直到聚类中心不再改变;
S22:将步骤S1中提取的特征输入到基于简化CIoU和K-means聚类算法的锚框优化方法的双锚框区域建议网络中,由RPN-H和RPN-B生成符合数据集的头部和全身候选框对。
图3是改进的双候选框交叉替换策略的示意图,具体的,所述步骤S3具体包括步骤S31 至步骤S32:
S31:设定第一阈值;
S32:对RPN-B的低质量头部候选框和RPN-H高质量头部候选框计算交并比,若交并比值大于步骤S31所述的第一阈值,则将RPN-B的头部候选框替换为RPN-H的头部候选框;将替换后头部候选框与RPN-B中身体候选框拼接,最终形成一对高质量候选框对。
具体的,所述步骤S6具体包括步骤S61至步骤S62:
S61:通过非极大值抑制法筛选出所述最优预测框;
S62:通过Open CV将带有最优预测框的图像绘制到操作界面的结果输出框,并进行输出。
具体的,所述步骤S61具体包括如下步骤:
S611:通过联合非极大值抑制的方法,同时利用输出的头部和全身边界框的信息,加权两种边界框的类别得分作为边界框排序的置信度;
S612:将置信度最高的预测框记录到最终输出列表中,并将步骤S611所述置信度最高的预测框从预测框列表中删除;
S613:计算所述预测框列表中剩余预测框的面积;并根据所述剩余预测框的面积,计算所述置信度最高的预测框与剩余预测框的重叠度;
S614:将所述剩余预测框中大于阈值的预测框,从所述预测框列表中删除;
S615:重复步骤S612-S614,直到所述预测框列表为空。
本发明公开了一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法,解决了拥挤造成行人检测模型普遍面临NMS阈值设定敏感问题,以及由于遮挡导致模型预测的边界框发生较大偏移和最优边界框被非极大值抑制误删的问题,拥挤场景下准确检测行人目标提供了一种基于深度学习的新方法,有效提高行人检测模型的检测性能。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所做的任何修改、同等替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法,其特征在于,包括以下步骤:
S1:将图像输入到主干网络,提取不同尺度下的特征;
S2:将步骤S1中提取的特征输入到基于简化CIoU和K-means聚类算法的锚框优化方法的双锚框区域建议网络中获取候选框;
S3:采用改进的双候选框交叉替换策略对步骤S2生成的候选框对进行比对、替换,生成包含头部和全身候选框的高质量候选框对;
S4:将经过RoIAlign后的头部和全身候选框对应的特征输入全连接层进行融合,生成融合后的特征图信息;
S5:根据目标内容对融合后的特征图信息,采用基于改进的损失函数对融合后的特征图信息进行分类和回归处理,获得多个预测框,预测行人的位置和类别信息,其中改进的回归损失函数计算公式见公式(1):
LE-RepLoss=LE-Attr-α*LE-RepGT-β*LE-RepBox (1)
公式(1)中,LE-RepLoss是改进的损失函数,LE-Attr是吸引力损失,LE-RepGT、LE-RepBox是排斥力损失,α和β为平衡系数;
公式(1)中,吸引力损失LE-Attr的计算方法见公式(2),其作用是使目标的预测边界框尽可能靠近自己的真实框:
公式(2)中,b和分别表示行人的预测边界框和与之对应的真实框,w表示预测边界框的宽,h表示预测边界框的高,表示真实框的宽,表示真实框的高,c表示两个边界框最小外接矩形的对角线,ρ表示两个边界框最小外接矩形的中心点的距离,Cw和Ch分别为两个边界框最小外接矩形的宽和高;
公式(1)中,LE-RepGT为预测边界框与相邻目标真实框的排斥力损失函数,计算方法见公式(3):
公式(1)中,LE-RepBox为行人预测边界框与相邻行人预测边界框损失函数,计算方法见公式(4):
公式(4)中,bi和bj表示行人i跟行人j的预测边界框,wi、hi表示行人i的预测边界框的宽跟高,wj、hj表示行人j的预测边界框的宽跟高;
S6:剔除冗余预测框,输出带有最优预测框的图像。
2.如权利要求1所述的一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法,其特征在于,所述步骤S1,进一步包括步骤S11至步骤S12:
S11:加载在ImageNet分类数据集上预训练后生成的深度残差卷积神经网络模型ResNet50;
S12:将待检测的图像输入到深度残差卷积神经网络ResNet50中提取不同尺度下的深度卷积特征。
3.如权利要求1所述的一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法,其特征在于,所述步骤S2,进一步包括步骤S21至步骤S22:
S21:采用基于简化CIoU和K-means聚类算法的锚框优化方法对双锚框区域建议网络进行锚框优化,进一步包括步骤S211至步骤S215:
S211:将数据集中所有全身标注框的宽和高(xi,yi)作为待聚类样本,其中,i∈(1,2,...N),N为样本个数,xi为第i个标注框的宽,yi为第i个标注框的高;
S212:给定K个聚类中心点的坐标(SWj,SHj),其中,(SWj,SHj)为第j个聚类中心点的坐标,j∈(1,2,...K),K为聚类中心点的数量;
S213:根据LS-CIoU计算每个标注框到每个聚类中心的距离,计算公式见公式(5),将标注框分配给距离最近的聚类中心;
d=LS-CIoU[(swi,shi),(SWj,SHj)] (5)
公式(5)中,d表示标注框到聚类中心的距离,i∈(1,2,…,N),J∈(l,2,…K),LS-CIoU为K-means聚类算法中距离计算公式,(swi,shi)为第i个标注框中心位置坐标,LS-CIoU计算公式见公式(6):
LS-CIoU=1-IoU+αν (6)
公式(6)中,v是宽高比,a是动态权重因子,其中,α的计算方法见公式(7):
公式(7)中,宽高比v的计算方法见公式(8):
公式(8)中,(swgt,shgt)为真实框中心位置坐标,(sw,sh)为标注框中心位置坐标;
S214:所有标注框分配完毕以后,对每个簇重新计算聚类中心,计算方法见公式(9):
公式(9)中,(SW’,SH’)为重新计算的第i个类簇的聚类中心位置坐标,Ni为第i个类簇中对象个数,∑SWi为第i个类簇中所有对象横坐标SW向量的和,∑SHi为第i个类簇中所有对象纵坐标SH向量的和;
S215:重复步骤S213、S214,直到聚类中心不再改变;
S22:将步骤S1中提取的特征输入到基于简化CIoU和K-means聚类算法的锚框优化方法的双锚框区域建议网络中,由RPN-H和RPN-B生成符合数据集的头部和全身候选框对。
4.如权利要求1所述的一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法,其特征在于,所述步骤S3,进一步包括以下步骤S31至步骤S32:
S31:设定第一阈值;
S32:对RPN-B的低质量头部候选框和RPN-H高质量头部候选框计算交并比,若交并比值大于步骤S31所述的第一阈值,则将RPN-B的头部候选框替换为RPN-H的头部候选框;将替换后头部候选框与RPN-B中身体候选框拼接,最终形成一对高质量候选框对。
5.如权利要求1所述的一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法,其特征在于,所述步骤S6,进一步包括步骤S61至步骤S62:
S61:通过非极大值抑制法筛选出所述最优预测框;
S62:通过Open CV将带有最优预测框的图像绘制到操作界面的结果输出框,并进行输出。
6.如权利要求6所述的非极大值抑制法筛选出所述最优预测框,其特征在于,所述步骤S61,进一步包括步骤S611至步骤S615:
S611:通过联合非极大值抑制的方法,同时利用输出的头部和全身边界框的信息,加权两种边界框的类别得分作为边界框排序的置信度;
S612:将置信度最高的预测框记录到最终输出列表中,并将步骤S611所述置信度最高的预测框从预测框列表中删除;
S613:计算所述预测框列表中剩余预测框的面积;并根据所述剩余预测框的面积,计算所述置信度最高的预测框与剩余预测框的重叠度;
S614:将所述剩余预测框中大于阈值的预测框,从所述预测框列表中删除;
S615:重复步骤S612-S614,直到所述预测框列表为空。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210863953.5A CN115393892B (zh) | 2022-07-20 | 2022-07-20 | 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210863953.5A CN115393892B (zh) | 2022-07-20 | 2022-07-20 | 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115393892A true CN115393892A (zh) | 2022-11-25 |
CN115393892B CN115393892B (zh) | 2023-08-04 |
Family
ID=84117586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210863953.5A Active CN115393892B (zh) | 2022-07-20 | 2022-07-20 | 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115393892B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116883765A (zh) * | 2023-09-07 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866476A (zh) * | 2019-11-06 | 2020-03-06 | 南京信息职业技术学院 | 一种基于自动标注和迁移学习的密集堆垛目标检测方法 |
WO2020125495A1 (zh) * | 2018-12-17 | 2020-06-25 | 中国科学院深圳先进技术研究院 | 一种全景分割方法、装置及设备 |
CN112287788A (zh) * | 2020-10-20 | 2021-01-29 | 杭州电子科技大学 | 基于改进YOLOv3和改进NMS的行人检测方法 |
CN112529090A (zh) * | 2020-12-18 | 2021-03-19 | 天津大学 | 一种基于改进YOLOv3的小目标检测方法 |
CN112766188A (zh) * | 2021-01-25 | 2021-05-07 | 浙江科技学院 | 一种基于改进yolo算法的小目标行人检测方法 |
CN113743470A (zh) * | 2021-08-04 | 2021-12-03 | 浙江联运环境工程股份有限公司 | 自动破袋分类箱基于ai算法垃圾识别精度提升方法 |
CN114332942A (zh) * | 2021-12-31 | 2022-04-12 | 武汉理工大学 | 基于改进YOLOv3的夜间红外行人检测方法及系统 |
-
2022
- 2022-07-20 CN CN202210863953.5A patent/CN115393892B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020125495A1 (zh) * | 2018-12-17 | 2020-06-25 | 中国科学院深圳先进技术研究院 | 一种全景分割方法、装置及设备 |
CN110866476A (zh) * | 2019-11-06 | 2020-03-06 | 南京信息职业技术学院 | 一种基于自动标注和迁移学习的密集堆垛目标检测方法 |
CN112287788A (zh) * | 2020-10-20 | 2021-01-29 | 杭州电子科技大学 | 基于改进YOLOv3和改进NMS的行人检测方法 |
CN112529090A (zh) * | 2020-12-18 | 2021-03-19 | 天津大学 | 一种基于改进YOLOv3的小目标检测方法 |
CN112766188A (zh) * | 2021-01-25 | 2021-05-07 | 浙江科技学院 | 一种基于改进yolo算法的小目标行人检测方法 |
CN113743470A (zh) * | 2021-08-04 | 2021-12-03 | 浙江联运环境工程股份有限公司 | 自动破袋分类箱基于ai算法垃圾识别精度提升方法 |
CN114332942A (zh) * | 2021-12-31 | 2022-04-12 | 武汉理工大学 | 基于改进YOLOv3的夜间红外行人检测方法及系统 |
Non-Patent Citations (5)
Title |
---|
JIN Y等: "Pedestrian detection with super-resolution reconstruction for low-quality image", 《PATTERN RECOGNITION》, vol. 115, pages 1 - 15 * |
QIAN Z等: "Using GMOSTNet for Tree Detection Under Complex Illumination and Morphological Occlusion", 《SPRINGER SINGAPORE》, pages 488 - 505 * |
WANG X等: "Repulsion loss: Detecting pedestrians in a crowd", 《/PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 7774 - 7783 * |
吴迪: "基于改进卷积神经网络的行人检测及再识别方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 3, pages 138 - 1257 * |
周莉莉等: "基于YOLO和排斥力损失函数的行人检测方法", 《云南民族大学学报(自然科学版)》, vol. 28, no. 6, pages 624 - 628 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116883765A (zh) * | 2023-09-07 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、电子设备及存储介质 |
CN116883765B (zh) * | 2023-09-07 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115393892B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797716B (zh) | 一种基于Siamese网络的单目标跟踪方法 | |
CN110837778B (zh) | 一种基于骨架关节点序列的交警指挥手势识别方法 | |
CN110175576B (zh) | 一种结合激光点云数据的行驶车辆视觉检测方法 | |
Yang et al. | Spatio-temporal action detection with cascade proposal and location anticipation | |
CN110111338B (zh) | 一种基于超像素时空显著性分割的视觉跟踪方法 | |
CN112836639A (zh) | 基于改进YOLOv3模型的行人多目标跟踪视频识别方法 | |
CN111476817A (zh) | 一种基于yolov3的多目标行人检测跟踪方法 | |
CN105528794A (zh) | 基于混合高斯模型与超像素分割的运动目标检测方法 | |
CN112489081B (zh) | 一种视觉目标跟踪方法及装置 | |
CN109101932B (zh) | 基于目标检测的多任务及临近信息融合的深度学习方法 | |
CN103136537A (zh) | 一种基于支持向量机的车型识别方法 | |
CN113989784A (zh) | 一种基于车载激光点云的道路场景类型识别方法及系统 | |
Hammam et al. | Real-time multiple spatiotemporal action localization and prediction approach using deep learning | |
CN115393892B (zh) | 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法 | |
Asgarian Dehkordi et al. | Vehicle type recognition based on dimension estimation and bag of word classification | |
CN113052136B (zh) | 一种基于改进Faster RCNN的行人检测方法 | |
CN114923491A (zh) | 一种基于特征融合和距离融合的三维多目标在线跟踪方法 | |
Kumar et al. | Improved YOLOv4 approach: a real time occluded vehicle detection | |
Hänisch et al. | Free-space detection with fish-eye cameras | |
CN112347967A (zh) | 一种复杂场景下融合运动信息的行人检测方法 | |
CN116434150A (zh) | 面向拥挤场景的多目标检测跟踪方法、系统及存储介质 | |
Gawande et al. | Scale invariant mask r-cnn for pedestrian detection | |
CN113313008B (zh) | 基于YOLOv3网络和均值漂移的目标与识别跟踪方法 | |
CN113763418B (zh) | 一种基于头肩检测的多目标跟踪方法 | |
CN113869239A (zh) | 一种交通信号灯倒计时识别系统及其构建方法、应用方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |