CN112465735A - 行人检测方法、装置及计算机可读存储介质 - Google Patents
行人检测方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112465735A CN112465735A CN202011293191.7A CN202011293191A CN112465735A CN 112465735 A CN112465735 A CN 112465735A CN 202011293191 A CN202011293191 A CN 202011293191A CN 112465735 A CN112465735 A CN 112465735A
- Authority
- CN
- China
- Prior art keywords
- image
- pedestrian
- visible light
- pedestrian detection
- total
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 137
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000010586 diagram Methods 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims description 60
- 238000000605 extraction Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000005096 rolling process Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000005286 illumination Methods 0.000 abstract description 22
- 238000003384 imaging method Methods 0.000 abstract description 8
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 18
- 230000015654 memory Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 4
- 230000016776 visual perception Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000001931 thermography Methods 0.000 description 2
- 101000713575 Homo sapiens Tubulin beta-3 chain Proteins 0.000 description 1
- 101000859864 Rattus norvegicus Gamma-crystallin E Proteins 0.000 description 1
- 102100036790 Tubulin beta-3 chain Human genes 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
Abstract
本申请涉及人工智能技术领域,具体公开一种行人检测方法、装置及计算机可读存储介质。该方法包括分别获取远红外图像和可见光图像;基于亮度权重融合远红外图像和可见光图像,得到总融合图像;提取融合图像中不同分辨率的行人特征图,并形成总特征图;确定总特征图中的行人中心点和尺度,并基于行人中心点和尺度获取行人检测结果。同时融合远红外图像和可见光图像,弥补了可见光图像用于光照条件较差情况下行人检测的局限性,提高夜间图像或者白天光照不均匀时图像的清晰度,同时弥补了远红外图像分辨率较差、缺少成像细节等问题,在不同的光照条件下均能够体现行人的细节信息,降低行人检测的误检率和漏检率,实现全天时段的行人检测。
Description
技术领域
本发明涉及人工智能技术领域,特别是涉及一种行人检测方法、装置及计算机可读存储介质。
背景技术
随着智能化时代的来临,智慧家庭、无人驾驶、智能园区监控系统得到了广泛的研究、应用与发展,其中行人检测技术是一大热点研究方向。然而基于视觉的行人检测技术在复杂环境下的应用依然存在着一定的困难,由于行人特征受到不同的光照、天气、背景、穿着、姿态或遮挡等因素影响,较一般物体检测有更大的难度,在复杂环境中容易出现漏检和误检情况。
其中,光照变化问题是当前行人检测技术中面临的一大难点。可见光摄像头在视觉感知和识别中起着尤为重要的作用,但对光照非常敏感,在昏暗的亮度条件下,获取的成像信息有限,容易发生识别错误;并且,目标与背景混杂时,检测效果得不到保证。目前的夜间检测常使用红外摄像头,但相对于可见光图像,红外图像普遍存在分辨率较差的问题,缺少成像细节,与人眼视觉感知效果的差距较大,并且在行人检测应用中,由于低分辨率图像中缺乏纹理细节信息,行人目标缺乏立体感,也给红外图像的行人检测带来了一定的困难。
基于上述分析,如何减小光照变化对行人检测结果造成的影响是本领域中亟需解决的问题之一。
发明内容
基于此,有必要针对如何减小光照变化对行人检测结果造成的影响的问题,提供一种行人检测方法、装置及计算机可读存储介质。
一种行人检测方法,包括以下步骤:
分别获取远红外图像和可见光图像;
基于亮度权重融合所述远红外图像和所述可见光图像,得到总融合图像;
提取所述总融合图像中不同分辨率的行人特征图,并形成总特征图;
确定所述总特征图中的行人中心点和尺度,并基于所述行人中心点和尺度获取行人检测结果。
在其中一个实施例中,所述基于亮度权重融合所述远红外图像和所述可见光图像,得到总融合图像的步骤包括:
确定所述远红外图像和所述可见光图像融合所需的亮度权值;
分别将所述远红外图像多尺度分解为远红外基层图像和远红外细节层图像,将所述可见光图像多尺度分解为可见光基层图像和可见光细节层图像;
基于所述亮度权值和显著性图对所述远红外基层图像和所述可见光基层图像进行融合,得到基层融合图像;
对所述远红外细节层图像和所述可见光细节层图像进行融合,得到细节层融合图像;
根据所述基层融合图像和所述细节层融合图像得到总融合图像。
在其中一个实施例中,所述确定所述远红外图像和所述可见光图像融合所需的亮度权值的步骤包括:
根据亮度与平均灰度值的关系,确定亮度权值。
在其中一个实施例中,在所述根据亮度与平均灰度值的关系,确定亮度权值的步骤中,采用下式得到所述亮度权值:
Bw=1-log(1+e-t)
其中,t表示所述可见光图像像素归一化后的平均灰度值,Bw表示亮度权值。
在其中一个实施例中,在所述分别将所述远红外图像多尺度分解为远红外基层图像和远红外细节层图像,将所述可见光图像多尺度分解为可见光基层图像和可见光细节层图像的步骤中,采用滚动引导滤波方法对所述远红外图像和所述可见光图像进行多尺度分解。
在其中一个实施例中,所述基于所述亮度权值和显著性图对所述远红外基层图像和所述可见光基层图像进行融合,得到基层融合图像的步骤包括:
确定所述可见光基层图像和所述远红外基层图像的显著性值,并根据所述显著性值确定可见光基层图像和远红外基层图像的显著性图;
基于所述可见光基层图像和所述远红外基层图像的显著性图,以及所述亮度权值,得到所述基层融合图像;
在所述基于所述可见光基层图像和所述远红外基层图像的显著性图,以及所述亮度权值,得到所述基层融合图像的步骤中,通过下式获得所述基层融合图像:
BF=Bw·[1+(v1-v2)]·B1+(1-Bw)·[1+(v1-v2)]·B2
其中,Bw表示亮度权值,B1表示可见光基层图像,B2表示远红外基层图像,v1表示可见光基层图像的显著性图,v2表示远红外基层图像的显著性图,BF表示基层融合图像。
在其中一个实施例中,在所述对所述远红外细节层图像和所述可见光细节层图像进行融合,得到细节层融合图像的步骤中,基于最小二乘法对所述远红外细节层图像和所述可见光细节层图像进行融合,所述细节层融合图像的表达式如下所示:
在其中一个实施例中,所述根据所述基层融合图像和所述细节层融合图像得到总融合图像的步骤包括:
通过下式得到总融合图像:
FF=BF+Rj
其中,FF表示总融合图像,BF表示基层融合图像,Rj表示细节层融合图像。
在其中一个实施例中,所述提取所述总融合图像中不同分辨率的行人特征图,并形成总特征图的步骤包括:
将所述总融合图像输入至特征提取模块中,通过所述特征提取模块中的多个卷积层提取出不同分辨率的行人特征图,并合并形成总特征图。
在其中一个实施例中,所述确定所述总特征图中的行人中心点和尺度,并基于所述行人中心点和尺度获取行人检测结果的步骤包括:
将所述总特征图输入至行人检测器模块,通过所述行人检测器模块中的卷积层对所述总特征图进行降维和卷积处理,预测得到中心点信息和尺度信息;
并根据所述中心点信息和所述尺度信息自动生成检测框,将所述检测框映射到总融合图像中,获得行人检测结果。
在其中一个实施例中,在所述分别获取远红外图像和可见光图像的步骤之后,所述行人检测方法还包括:
对所述远红外图像和所述可见光图像进行预处理,其中,预处理方式包括图像灰度化、图像增强、滤波去噪和图像校准。
一种行人检测装置,包括:
图像获取单元,用于分别获取远红外图像和可见光图像;
图像融合单元,用于基于亮度权重融合所述远红外图像和所述可见光图像,得到总融合图像;
提取单元,用于提取所述总融合图像中不同分辨率的行人特征图,并形成总特征图;
检测单元,用于确定所述总特征图中的行人中心点和尺度,并基于所述行人中心点和尺度获取行人检测结果。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令,所述计算机指令被处理器执行时实现如上述的行人检测方法。
上述行人检测方法,首先获取远红外图像和可见光图像,然后基于亮度权重融合远红外图像和可见光图像,得到总融合图像,再提取总融合图像中不同分辨率的行人特征图,形成总特征图,最后确定总特征图中的行人中心点和尺度,并基于行人中心点和尺度获取行人检测结果。该行人检测方法同时融合了远红外图像和可见光图像,弥补了可见光图像用于光照条件较差情况下的行人检测的局限性,提高夜间图像或者白天光照不均匀时图像的清晰度,同时弥补了远红外图像分辨率较差、缺少成像细节等问题,利用融合后的图像进行行人检测,综合了远红外图像和可见光图像的优势,在不同的光照条件下均能够体现行人的细节信息,突显行人特征,降低行人检测的误检率和漏检率,实现全天时段的行人检测。并且,在基于融合图像进行行人检测过程中,利用行人中心点和尺度获取行人检测结果,不受传统的滑动锚框尺寸的限制,行人检测较为灵活。
附图说明
图1为本申请实施例提供的行人检测方法的流程框图;
图2为本申请实施例提供的行人检测方法中步骤S30的流程框图;
图3为本申请实施例提供的行人检测方法中步骤S70的流程框图;
图4为现有的行人检测效果图;
图5为采用本实施例提供的行人检测方法后的行人检测效果图;
图6为本申请实施例提供的行人检测装置的结构示意图;
图7为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的优选实施方式。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反的,提供这些实施方式的目的是为了对本发明的公开内容理解得更加透彻全面。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
如背景技术所述,光照变化问题是当前行人检测技术面临的艰巨挑战之一。一方面,可见光摄像头在视觉感知和识别中起着尤为重要的作用,但其对光照非常敏感,在昏暗的亮度条件下,获取的成像信息有限,容易发生识别错误。另外,目标与背景混杂时,检测效果得不到保证。另一方面,目前的夜间检测常使用红外摄像头,但相对于可见光图像,红外图像普遍存在分辨率较差的问题,缺少成像细节,与人眼视觉感知效果的差距较大,在行人检测应用中,由于低分辨率图像中缺乏纹理细节信息,行人目标缺乏立体感,也给红外图像的行人检测带来了一定的困难。
针对光照变化对行人检测的影响,目前有一些解决方案,图像融合是其中之一,例如获取夜间红外热成像图像,对获取夜间红外热成像图像进行处理以生成第一图像和第二图像;将第一图像和第二图像均分离得到红色通道图像、蓝色通道图像、绿色通道图像;分别提取第一图像和第二图像中的红色通道图像,并对红色通道图像进行边缘检测变化;将第一图像中边缘检测变化后的红色通道与第一图像中蓝色通道图像、绿色通道图像进行融合后得到第一融合图像。通过增加行人与背景的对比度,得到比较清晰的图片以提高检测行人的准确性。该方案虽然利用红外图像改善了夜间检测效果,对行人和背景图像进行融合,但红外图像分辨率较低,行人和背景间差异较大,且缺乏行人细节信息,导致夜间行人检测的准确度不高,且对于复杂的背景,特别是各种光照变化场景下鲁棒性较低。因此,其并不能真正解决上述问题。
为了解决上述问题,本申请实施例提供了一种行人检测方法、装置及计算机可读存储介质。
本实施例提供了一种行人检测方法,应用于行人检测过程中。参照图1,本实施例所提供的行人检测方法包括以下步骤:
步骤S10、分别获取远红外图像和可见光图像。
步骤S30、基于亮度权重融合远红外图像和可见光图像,得到总融合图像。
步骤S50、提取总融合图像中不同分辨率的行人特征图,并形成总特征图。
步骤S70、确定总特征图中的行人中心点和尺度,并基于行人中心点和尺度获取行人检测结果。
该行人检测方法同时融合了远红外图像和可见光图像,弥补了可见光图像用于光照条件较差情况下的行人检测的局限性,提高夜间图像或者白天光照不均匀时图像的清晰度,同时弥补了远红外图像分辨率较差、缺少成像细节等问题,利用融合后的图像进行行人检测,综合了远红外图像和可见光图像的优势,在不同的光照条件下均能够体现行人的细节信息,突显行人特征,让行人更立体、真实,更符合人眼感知效果,降低行人检测的误检率和漏检率,实现全天时段的行人检测。并且,在基于融合图像进行行人检测过程中,利用行人中心点和尺度获取行人检测结果,不受传统的滑动锚框尺寸的限制,行人检测较为灵活。
在步骤S10中,可以获取摄像镜头所拍摄到的远红外图像和可见光图像。
在其中一个实施例中,在获取到远红外图像和可见光图像之后,还对远红外图像和可见光图像进行预处理。其中,预处理方式包括图像灰度化、图像增强、滤波去噪和图像校准等操作。对远红外图像和可见光图像进行图像灰度化处理之后,进行图像增强处理,使图像恢复出目标前景,有助于改善黑暗背景中的物体识别效果,然后可通过高斯滤波进行去噪处理,最后对去噪处理后的图像进行图像校准处理。
在其中一个实施例中,参照图2,在步骤S30,即基于亮度权重融合远红外图像和可见光图像,得到总融合图像的步骤包括:
步骤S301、确定远红外图像和可见光图像融合所需的亮度权值。
首先根据亮度信息对行人检测的影响,确定远红外图像和可见光图像融合时采用的亮度权值。其中,可以仅确定可见光图像对应的亮度权值,进而通过计算获得远红外图像对应的亮度权值。
步骤S302、分别将远红外图像多尺度分解为远红外基层图像和远红外细节层图像,将可见光图像多尺度分解为可见光基层图像和可见光细节层图像。
其中,基层图像主要保留原始图像的全局目标和对比度信息,细节层图像则保留细节和纹理,反映图像的轮廓细节。对图像进行多尺度分解的方式有多种,本实施例中优选采用滚动引导滤波方法对远红外图像和可见光图像进行分解。滚动引导滤波方法包括高斯滤波和引导滤波,高斯滤波用于去除图像的小区域,实现图像去噪去干扰,引导滤波用于进行迭代边缘修复,在去除图像中复杂小区域时,保证大区域边界的准确性。
设原始输入图像为I,每一次迭代分解的图像分别为G1,G2,…,GN-1,滚动引导滤波原理简单地表示如下式所示:
其中初始图像G1为基层图像,N是图像分解的层数(本发明取N=3)。δs是尺度控制参数,去除尺度空间理论中尺度小于δs的细节结构。δr为滤波器的半径。分解后的基层主要保留图像的整体对比度信息,细节层保留图像中行人等目标物的轮廓细节。
步骤S303、基于亮度权值和显著性图对远红外基层图像和可见光基层图像进行融合,得到基层融合图像。
当获取到可见光图像和远红外图像的融合所对应的亮度权值,以及远红外基层图像和可见光基层图像,则可根据亮度权值和显著性图对远红外基层图像和可见光基层图像进行融合。其中,可首先获得远红外基层图像和可见光基层图像所对应的显著性图,再进行基层图像的融合。
步骤S304、对远红外细节层图像和可见光细节层图像进行融合,得到细节层融合图像。
步骤S305、根据基层融合图像和细节层融合图像得到总融合图像。
当分别得到基层融合图像和细节层融合图像,即可以根据基层融合图像和细节层融合图像得到总融合图像,实现图像的融合。
在其中一个实施例中,步骤S301,即确定远红外图像和可见光图像融合所需的亮度权值的步骤包括:根据亮度与平均灰度值的关系,确定亮度权值。
在其中一个实施例中,在根据亮度与平均灰度值的关系,确定亮度权值的步骤中,采用下式得到亮度权值:
Bw=1-log(1+e-t)
其中,t表示可见光图像像素归一化后的平均灰度值,Bw表示亮度权值。
亮度权值Bw单调递增,当可见光图像的平均灰度值增加时,亮度权值也相应增加。本实施例中,将亮度权值Bw保持在0.5左右波动,以防止其中一幅图像权值过大,确保在后续融合过程中能够保留一定的可见光图像信息,同时也能够加入远红外图像特征信息。
在其中一个实施例中,步骤S303,即基于亮度权值和显著性图对远红外基层图像和可见光基层图像进行融合,得到基层融合图像的步骤包括:
步骤S3031、确定可见光基层图像和远红外基层图像的显著性值,并根据所述显著性值确定可见光基层图像和远红外基层图像的显著性图。
定义v为图像的显著性图,v中像素i的显著性值为v(i),其表达式如下式所示:
其中,Pj是j像素值的像素数目,取当前像素值Ii和其它所有像素灰度值的绝对值差,两者的积求和,即归纳得到像素i的显著性值。计算所有像素的显著性值,并最终得到总的显著性图v。本实施例中,分别得到可见光基层图像的显著性图结果为v1,远红外基层图像的显著性图结果为v2。
步骤S3032、基于可见光基层图像和远红外基层图像的显著性图,以及亮度权值,得到基层融合图像。
当获取到可见光基层图像和远红外基层图像的显著性图,以及亮度权值,则可获得基层融合图像。在其中一个实施例中,通过下式获得基层融合图像:
BF=Bw·[1+(v1-v2)]·B1+(1-Bw)·[1+(v1-v2)]·B2
其中,Bw表示亮度权值,B1表示可见光基层图像,B2表示远红外基层图像,v1表示可见光基层图像的显著性图,v2表示远红外基层图像的显著性图,BF表示基层融合图像。
在其中一个实施例中,在步骤S304,即对远红外细节层图像和可见光细节层图像进行融合,得到细节层融合图像的步骤中,基于最小二乘法对远红外细节层图像和可见光细节层图像进行融合。
细节层图像的融合采用传统的绝对最大法则,即对比两张图像每级的细节层图像,每个像素点的值由两幅图中像素值较大的一个决定。对细节层图像轮廓信息多的地方,融合系数取1,否则取0。并且为了减少图像噪点,在融合时同时进行适当的高斯滤波。设滤波框的尺度控制参数δs=2。对第j级细节层,细节层融合图像的表达式如下:
在其中一个实施例中,步骤S305,即根据基层融合图像和细节层融合图像得到总融合图像的步骤包括:
通过下式得到总融合图像:
FF=BF+Rj
其中,FF表示总融合图像,BF表示基层融合图像,Rj表示细节层融合图像。
复杂光照环境下的可见光图像和远红外图像的融合,保留了原图像中的整体外观和对比度信息,并突出了行人目标,有利于提升各种关照下的行人检测稳定性。
在其中一个实施例中,步骤S50,即提取总融合图像中不同分辨率的行人特征图,并形成总特征图的步骤包括:
将总融合图像输入至特征提取模块中,通过特征提取模块中的多个卷积层提取出不同分辨率的行人特征图,并合并形成总特征图。
特征提取模块中包含多个卷积层,通过多个卷积层对总融合图像进行特征提取,合并得到总特征图。将目标行人抽象成高阶语义,利用行人中心点等特征代替传统底层特征点提取。其中,浅层的卷积层保留更丰富的图像细节特征和更精确的位置信息,深层的卷积层呈现更多的抽象语义信息。结合二者优势,串联不同分辨率下提取的特征图,形成一个总的特征图。
其中,在串联各个特征图之前先进行正则化处理,并通过反卷积将不同维度的特征图转换为相同的尺寸。
在其中一个实施例中,参照图3,步骤S70,即确定总特征图中的行人中心点和尺度,并基于行人中心点和尺度获取行人检测结果的步骤包括:
步骤S701、将总特征图输入至行人检测器模块,通过行人检测器模块中的卷积层对总特征图进行降维和卷积处理,预测得到中心点信息和尺度信息。
步骤S702、根据中心点信息和尺度信息自动生成检测框,将检测框映射到总融合图像中,获得行人检测结果。
在特征提取后,行人检测器模块可以首先通过一个3x3x256的卷积层进行降维,将总特征图的通道数缩减到256,再采用两个1x1的卷积层进行并行卷积操作,分别预测得到一个中心点热图和一个尺度图。然后利用中心点坐标和尺度结果自动生成检测框,映射到原图中。
其中,中心点位置预测是个二分类问题,即把行人中心像素点作为正样本,若所在位置为中心点的概率大,则标记为“+”(正);其余负样本点标记为“-”(负)。另外,为了提高中心点计算精度,本申请还考虑了中心点附近的点,若某位置不是正样本,但离正样本点比较近,则通过高斯热图Mij反映与中心点间的距离。
为了在训练和测试时对中心点的预测结果进行优化,利用交叉熵作为中心点位置的损失函数Lcenter,如下式:
其中,Pij∈[0,1]是对位置(i,j)有无中心点的概率预测值。yij为1或0表示所在位置为正样本或负样本。若该位置不是正样本,但离正样本点比较近,则通过Mij的值让中心点附近的点也参与计算,而其他离得较远的点是0。β=4,γ=2为损失函数的超参数。
在行人尺度预测中,本发明设定固定的行人宽高比Ratio=0.37,仅需要对行人高度h进行预测,即可得出识别框的尺寸大小。尺度预测的损失函数采用SmoothL1损失,如下式所示:
其中,sk和tk分别表示预测结果和真实值的尺度。
结合中心点和尺度预测的损失函数得到总的损失函数如下式所示:
Loss=λcenterLcenter+λscaleLscale
其中超参数λcenter=0.01,λscale=1。
上述行人检测技术,减轻了传统的锚框参数设置的复杂性和锚框尺寸局限性,同时也对行人遮挡问题有所改善。
下面介绍一个具体示例:
图4为现有行人检测方法的行人检测效果,其中包括白天和夜晚两种亮度条件下,分别基于远红外图像和可见光图像的行人检测结果。由图4可看到,在白天和夜间,远红外和可见光图像都能进行基本的识别,但分别有其优劣。在白天情况下,同样的场景下,远红外的效果比可见光稍差一点。由于远红外图像包含的信息丰富度不足,缺少成像细节,容易出现漏检和较多误检。夜间情况下,单独使用可见光相机和远红外的识别效果都比较差,但相对地,行人和车辆在远红外图像中均比较明显,效果会优于可见光图像。
图5为采用本实施例所提供的行人检测方法的行人检测效果。由图5可看出,融合图像的识别效果比用单一图像有明显改进,可以检测出可见光无法识别的行人,同时也降低了单一远红外图像的误检率。白天明亮环境中,远红外图像的行人特征相清晰度较差,导致行人检测率比较低,融合图像和可见光图像的检测准确率较高。但在光线有阴影情况下,融合图像的检测效果优于可见光图像。由于缺少足够的光线亮度,夜间可见光图像的行人检测效果不理想,远红外图像和融合图像的行人特征较为明显。由于融合图像包含更多的细节信息,图像更立体,对识别框位置和尺寸的预测也更好。
在另一个实施例中,本实施例提供了一种行人检测装置,应用于行人检测过程中。参照图6,本实施例提供的行人检测装置包括图像获取单元20、图像融合单元21、提取单元22和检测单元23。其中,
图像获取单元20用于分别获取远红外图像和可见光图像。
图像融合单元21用于基于亮度权重融合远红外图像和可见光图像,得到总融合图像。
提取单元22用于提取总融合图像中不同分辨率的行人特征图,并形成总特征图。
检测单元23用于确定总特征图中的行人中心点和尺度,并基于行人中心点和尺度获取行人检测结果。
通过上述行人检测装置进行行人检测过程中,同时融合了远红外图像和可见光图像,弥补了可见光图像用于光照条件较差情况下的行人检测的局限性,提高夜间图像或者白天光照不均匀时图像的清晰度,同时弥补了远红外图像分辨率较差、缺少成像细节等问题,利用融合后的图像进行行人检测,综合了远红外图像和可见光图像的优势,在不同的光照条件下均能够体现行人的细节信息,突显行人特征,让行人更立体、真实,更符合人眼感知效果,降低行人检测的误检率和漏检率,实现全天时段的行人检测。并且,在基于融合图像进行行人检测过程中,利用行人中心点和尺度获取行人检测结果,不受传统的滑动锚框尺寸的限制,行人检测较为灵活。
本实施例所提供的行人检测装置和前文的行人检测方法属于同一发明构思,关于行人检测装置的具体内容请参见前文行人检测方法中的具体描述,在此不再赘述。
在另一个实施例中,本申请实施例还提供了一种电子设备,如图7所示,电子设备包括存储器100以及处理器200。其中,存储器100和处理器200之间互相通信连接,可以通过总线或者其他方式连接,图7中以通过总线连接为例。
处理器200可以为中央处理器(Central Processing Unit,CPU)。处理器200还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器100作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的行人检测方法对应的程序指令。处理器200通过运行存储在存储器100中的非暂态软件程序、指令以及模块,从而执行处理器200的各种功能应用以及数据处理,即实现行人检测方法。
存储器100可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器200所创建的数据等。此外,存储器100可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器100可选包括相对于处理器200远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (13)
1.一种行人检测方法,其特征在于,包括以下步骤:
分别获取远红外图像和可见光图像;
基于亮度权重融合所述远红外图像和所述可见光图像,得到总融合图像;
提取所述总融合图像中不同分辨率的行人特征图,并形成总特征图;
确定所述总特征图中的行人中心点和尺度,并基于所述行人中心点和尺度获取行人检测结果。
2.根据权利要求1所述的行人检测方法,其特征在于,所述基于亮度权重融合所述远红外图像和所述可见光图像,得到总融合图像的步骤包括:
确定所述远红外图像和所述可见光图像融合所需的亮度权值;
分别将所述远红外图像多尺度分解为远红外基层图像和远红外细节层图像,将所述可见光图像多尺度分解为可见光基层图像和可见光细节层图像;
基于所述亮度权值和显著性图对所述远红外基层图像和所述可见光基层图像进行融合,得到基层融合图像;
对所述远红外细节层图像和所述可见光细节层图像进行融合,得到细节层融合图像;
根据所述基层融合图像和所述细节层融合图像得到总融合图像。
3.根据权利要求2所述的行人检测方法,其特征在于,所述确定所述远红外图像和所述可见光图像融合所需的亮度权值的步骤包括:
根据亮度与平均灰度值的关系,确定亮度权值。
4.根据权利要求3所述的行人检测方法,其特征在于,在所述根据亮度与平均灰度值的关系,确定亮度权值的步骤中,采用下式得到所述亮度权值:
Bw=1-log(1+e-t)
其中,t表示所述可见光图像像素归一化后的平均灰度值,Bw表示亮度权值。
5.根据权利要求2所述的行人检测方法,其特征在于,在所述分别将所述远红外图像多尺度分解为远红外基层图像和远红外细节层图像,将所述可见光图像多尺度分解为可见光基层图像和可见光细节层图像的步骤中,采用滚动引导滤波方法对所述远红外图像和所述可见光图像进行多尺度分解。
6.根据权利要求2所述的行人检测方法,其特征在于,所述基于所述亮度权值和显著性图对所述远红外基层图像和所述可见光基层图像进行融合,得到基层融合图像的步骤包括:
确定所述可见光基层图像和所述远红外基层图像的显著性值,并根据所述显著性值确定可见光基层图像和远红外基层图像的显著性图;
基于所述可见光基层图像和所述远红外基层图像的显著性图,以及所述亮度权值,得到所述基层融合图像;
在所述基于所述可见光基层图像和所述远红外基层图像的显著性图,以及所述亮度权值,得到所述基层融合图像的步骤中,通过下式获得所述基层融合图像:
BF=Bw·[1+(v1-v2)]·B1+(1-Bw)·[1+(v1-v2)]·B2
其中,Bw表示亮度权值,B1表示可见光基层图像,B2表示远红外基层图像,v1表示可见光基层图像的显著性图,v2表示远红外基层图像的显著性图,BF表示基层融合图像。
8.根据权利要求2所述的行人检测方法,其特征在于,所述根据所述基层融合图像和所述细节层融合图像得到总融合图像的步骤包括:
通过下式得到总融合图像:
FF=BF+Rj
其中,FF表示总融合图像,BF表示基层融合图像,Rj表示细节层融合图像。
9.根据权利要求1所述的行人检测方法,其特征在于,所述提取所述总融合图像中不同分辨率的行人特征图,并形成总特征图的步骤包括:
将所述总融合图像输入至特征提取模块中,通过所述特征提取模块中的多个卷积层提取出不同分辨率的行人特征图,并合并形成总特征图。
10.根据权利要求1所述的行人检测方法,其特征在于,所述确定所述总特征图中的行人中心点和尺度,并基于所述行人中心点和尺度获取行人检测结果的步骤包括:
将所述总特征图输入至行人检测器模块,通过所述行人检测器模块中的卷积层对所述总特征图进行降维和卷积处理,预测得到中心点信息和尺度信息;
并根据所述中心点信息和所述尺度信息自动生成检测框,将所述检测框映射到总融合图像中,获得行人检测结果。
11.根据权利要求1所述的行人检测方法,其特征在于,在所述分别获取远红外图像和可见光图像的步骤之后,所述行人检测方法还包括:
对所述远红外图像和所述可见光图像进行预处理,其中,预处理方式包括图像灰度化、图像增强、滤波去噪和图像校准。
12.一种行人检测装置,其特征在于,包括:
图像获取单元,用于分别获取远红外图像和可见光图像;
图像融合单元,用于基于亮度权重融合所述远红外图像和所述可见光图像,得到总融合图像;
提取单元,用于提取所述总融合图像中不同分辨率的行人特征图,并形成总特征图;
检测单元,用于确定所述总特征图中的行人中心点和尺度,并基于所述行人中心点和尺度获取行人检测结果。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1-11任一项所述的行人检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011293191.7A CN112465735A (zh) | 2020-11-18 | 2020-11-18 | 行人检测方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011293191.7A CN112465735A (zh) | 2020-11-18 | 2020-11-18 | 行人检测方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112465735A true CN112465735A (zh) | 2021-03-09 |
Family
ID=74837740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011293191.7A Pending CN112465735A (zh) | 2020-11-18 | 2020-11-18 | 行人检测方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112465735A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113902666A (zh) * | 2021-12-13 | 2022-01-07 | 湖南警察学院 | 一种车载多波段立体视觉感知方法、装置、设备和介质 |
CN114092369A (zh) * | 2021-11-19 | 2022-02-25 | 中国直升机设计研究所 | 基于视觉显著映射与最小二乘优化的图像融合方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105913040A (zh) * | 2016-04-27 | 2016-08-31 | 重庆邮电大学 | 暗视觉条件下的双摄像头实时行人检测系统 |
CN110490914A (zh) * | 2019-07-29 | 2019-11-22 | 广东工业大学 | 一种基于亮度自适应和显著性检测的图像融合方法 |
CN111126178A (zh) * | 2019-12-05 | 2020-05-08 | 大连民族大学 | 红外-可见光双目行人身体多部件融合的持续距离估计方法 |
CN111209810A (zh) * | 2018-12-26 | 2020-05-29 | 浙江大学 | 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构 |
CN111222396A (zh) * | 2019-10-23 | 2020-06-02 | 江苏大学 | 一种全天候多光谱行人检测方法 |
CN111680564A (zh) * | 2020-05-09 | 2020-09-18 | 安徽工程大学 | 一种全天候行人重识别方法、系统、设备及存储介质 |
CN111767882A (zh) * | 2020-07-06 | 2020-10-13 | 江南大学 | 一种基于改进yolo模型的多模态行人检测方法 |
-
2020
- 2020-11-18 CN CN202011293191.7A patent/CN112465735A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105913040A (zh) * | 2016-04-27 | 2016-08-31 | 重庆邮电大学 | 暗视觉条件下的双摄像头实时行人检测系统 |
CN111209810A (zh) * | 2018-12-26 | 2020-05-29 | 浙江大学 | 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构 |
CN110490914A (zh) * | 2019-07-29 | 2019-11-22 | 广东工业大学 | 一种基于亮度自适应和显著性检测的图像融合方法 |
CN111222396A (zh) * | 2019-10-23 | 2020-06-02 | 江苏大学 | 一种全天候多光谱行人检测方法 |
CN111126178A (zh) * | 2019-12-05 | 2020-05-08 | 大连民族大学 | 红外-可见光双目行人身体多部件融合的持续距离估计方法 |
CN111680564A (zh) * | 2020-05-09 | 2020-09-18 | 安徽工程大学 | 一种全天候行人重识别方法、系统、设备及存储介质 |
CN111767882A (zh) * | 2020-07-06 | 2020-10-13 | 江南大学 | 一种基于改进yolo模型的多模态行人检测方法 |
Non-Patent Citations (5)
Title |
---|
JIA CAI 等: "BAIFA: A Brightness Adaptive Image Fusion Algorithm for Robotic Visual Perception", 《2019 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND BIOMIMETICS (ROBIO)》, pages 1179 - 1185 * |
WEI LIU 等: "High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, pages 5182 - 5191 * |
宋荣;周大可;杨欣;: "基于特征融合的尺度感知行人检测", 电子测量技术, no. 05 * |
杨艳春 等: "基于RGF和改进自适应Unit-Linking PCNN的红外与可见光图像融合", 《光电子·激光》, vol. 31, no. 4, pages 401 - 410 * |
王贝贝;王正勇;何小海;吴小强;: "基于LLF和RBD检测的红外和可见光图像融合", 计算机工程与应用, no. 17 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092369A (zh) * | 2021-11-19 | 2022-02-25 | 中国直升机设计研究所 | 基于视觉显著映射与最小二乘优化的图像融合方法 |
CN113902666A (zh) * | 2021-12-13 | 2022-01-07 | 湖南警察学院 | 一种车载多波段立体视觉感知方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112132156B (zh) | 多深度特征融合的图像显著性目标检测方法及系统 | |
KR101854554B1 (ko) | 건축물 높이 산출 방법, 장치 및 저장 매체 | |
TWI651697B (zh) | 停車場空位偵測方法及其偵測模型建立方法 | |
CN111222395A (zh) | 目标检测方法、装置与电子设备 | |
CN111462128B (zh) | 一种基于多模态光谱图像的像素级图像分割系统及方法 | |
WO2016113983A1 (ja) | 画像処理装置、画像処理方法、プログラム及びシステム | |
WO2023137914A1 (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111091592A (zh) | 图像处理方法、图像处理装置、电子设备及可读存储介质 | |
CN112819858B (zh) | 基于视频增强的目标跟踪方法、装置、设备及存储介质 | |
US11657592B2 (en) | Systems and methods for object recognition | |
CN114782298B (zh) | 一种具有区域注意力的红外与可见光图像融合方法 | |
CN112465735A (zh) | 行人检测方法、装置及计算机可读存储介质 | |
CN116052026A (zh) | 一种无人机航拍图像目标检测方法、系统及存储介质 | |
Chen et al. | Visual depth guided image rain streaks removal via sparse coding | |
Babu et al. | An efficient image dahazing using Googlenet based convolution neural networks | |
CN111862511B (zh) | 基于双目立体视觉的目标入侵检测装置及其方法 | |
CN108268866B (zh) | 一种车辆检测方法和系统 | |
CN116229406B (zh) | 车道线检测方法、系统、电子设备及存储介质 | |
CN116310889A (zh) | 无人机环境感知数据的处理方法、控制终端以及存储介质 | |
CN115512302A (zh) | 基于改进YOLOX-s模型的车辆检测方法及系统 | |
CN115249269A (zh) | 目标检测方法、计算机程序产品、存储介质及电子设备 | |
Wang et al. | Efficient road specular reflection removal based on gradient properties | |
Zhang et al. | A unified saliency detection framework for visible and infrared images | |
CN115909446B (zh) | 一种双目人脸活体判别方法、装置及存储介质 | |
CN117789153B (zh) | 基于计算机视觉的汽车油箱外盖定位系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |