CN113470068A - 一种复杂场景中的跟随导航方法和系统 - Google Patents
一种复杂场景中的跟随导航方法和系统 Download PDFInfo
- Publication number
- CN113470068A CN113470068A CN202110629411.7A CN202110629411A CN113470068A CN 113470068 A CN113470068 A CN 113470068A CN 202110629411 A CN202110629411 A CN 202110629411A CN 113470068 A CN113470068 A CN 113470068A
- Authority
- CN
- China
- Prior art keywords
- gait
- target pedestrian
- contour data
- video image
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000005021 gait Effects 0.000 claims abstract description 187
- 230000000007 visual effect Effects 0.000 claims abstract description 68
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000010606 normalization Methods 0.000 claims abstract description 23
- 238000001514 detection method Methods 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 17
- 230000009467 reduction Effects 0.000 claims description 10
- 238000013075 data extraction Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000007797 corrosion Effects 0.000 claims description 5
- 238000005260 corrosion Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000010339 dilation Effects 0.000 claims description 4
- 208000029257 vision disease Diseases 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 3
- 238000006243 chemical reaction Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 9
- 230000004064 dysfunction Effects 0.000 description 7
- 230000015556 catabolic process Effects 0.000 description 5
- 238000006731 degradation reaction Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 241001166076 Diapheromera femorata Species 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 206010047571 Visual impairment Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000037230 mobility Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000004393 visual impairment Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种复杂场景中的跟随导航方法和系统,包括:实时采集视频图像并进行高清晰度重建,得到清晰视频图像;选定清晰视频图像视域范围内行人中的一人作为目标行人,并提取目标行人的步态轮廓数据;将步态轮廓数据进行视角归一化处理后完成目标行人的步态识别并对目标行人进行实时追踪;实时生成目标行人与用户之间的辅助导航信息,使得用户根据辅助导航信息对目标行人进行实时跟随导航。本发明能够实时地自动检测出用户周围环境中的行人,并识别和跟踪特定的目标行人,使具有视觉障碍的用户能够在开放环境中自主地跟随目标行人活动。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种复杂场景中的跟随导航方法和系统。
背景技术
具有视力功能障碍的人群,在面对复杂、多变的室内及户外场景时,往往无法自行活动,给其生活带来了许多不便。为了提高视力功能障碍人群的行动能力,国内外许多公司设计和生产了可穿戴的智能导航设备(如智能手杖、智能眼镜、语音助手等),可以提供周围环境的感知信息进行辅助导航,进而提高视力功能障碍人群的生活质量。
现有产品(如助行眼镜等)的辅助导航方法可以分为两大类,第一类依赖于多传感器集成,通过多模态信号采集的方式进行环境感知,其缺陷是产品成本较高,容易屏蔽掉对价格敏感的潜在用户;第二类方法是基于视觉导航,然而大部分并没有针对复杂场景进行模型的设计和优化,当存在运动模糊、光线变化、物体遮挡时,模型很难对目标行人进行准确跟踪,这将严重影响用户体验。同时当前模型较少考虑目标行人与用户之间视角的动态变化,而复杂场景下的视角变化是经常出现的一种现象,因此现有模型在跨视角的步态识别上错误率较高,在视角变化时不能提供正确的导航信息。
发明内容
鉴于上述问题,本发明实施例一种复杂场景中的跟随导航方法和系统,解决现有复杂场景识别错误率高导航信息不准的技术问题。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种复杂场景中的跟随导航方法,该方法包括:
实时采集视频图像并进行高清晰度重建,得到清晰视频图像;
选定清晰视频图像视域范围内行人中的一人作为目标行人,并提取目标行人的步态轮廓数据;
将步态轮廓数据进行视角归一化处理后完成目标行人的步态识别并对目标行人进行实时追踪;
实时生成目标行人与用户之间的辅助导航信息,使得用户根据辅助导航信息对目标行人进行实时跟随导航。
在本发明一实施例中,所述实时采集视频图像并进行高清晰度重建,得到清晰视频图像包括:
构建实际场景中拍摄的清晰视频图像数据集和带有噪声的模糊图像数据集;
根据清晰视频图像数据集和模糊图像数据集对CycleGAN网络进行训练,得到训练好的CycleGAN网络;
利用训练好的CycleGAN网络对实时采集的视频图像进行高清晰度重建。
在本发明一实施例中,所述选定清晰视频图像视域范围内行人中的一人作为目标行人,并提取目标行人的步态轮廓数据包括:
将清晰视频图像的初始帧通过特征金字塔目标检测模型进行实时检测,得到检测结果;
设定检测结果中的一个行人作为跟随导航的目标行人;
将清晰视频图像初始帧的目标行人检测框输入至训练好的SiamMask模型中作为视频图像后续帧的跟踪和检索依据对目标行人的步态轮廓进行实时分割和提取,得到步态轮廓数据;
对步态轮廓数据进行降噪处理,得到完整的步态轮廓数据。
在本发明一实施例中,还包括:
对原始步态轮廓数据增加随机的图像掩模,利用图像掩模对原始步态轮廓数据进行点乘操作,得到随机遮挡步态轮廓数据;
同时将原始步态轮廓数据和随机遮挡步态轮廓数据训练SiamMask模型,得到训练好的SiamMask模型。
在本发明一实施例中,所述降噪处理包括:
利用腐蚀及开运算操作去除步态轮廓数据的毛刺噪声;
利用膨胀及闭运算操作填充步态轮廓数据的孤立像素区域。
在本发明一实施例中,所述将步态轮廓数据进行视角归一化处理后完成目标行人的步态识别并对目标行人进行实时追踪包括:
将非正前方视角的步态轮廓数据归一化至正前方步态轮廓数据,视角归一化后的步态轮廓数据;
将视角归一化后的步态轮廓数据输入至GaitSet模型,利用GaitSet模型对每一帧步态轮廓数据进行提取,通过集合池化运算对所有帧的步态轮廓数据进行融合,通过水平金字塔映射完成特征学习,得到目标行人的步态特征,将步态特征和目标行人进行特征匹配完成对目标行人的识别和追踪。
在本发明一实施例中,所述实时生成目标行人与用户之间的辅助导航信息包括:
利用双目立体视觉测量方法以及视差原理生成用户与目标行人的距离与方位。
第二方面,本发明提供一种复杂场景中的跟随导航系统,该系统包括:
视频图像重建模块:用于实时采集视频图像并进行高清晰度重建,得到清晰视频图像;
步态轮廓数据提取模块:用于选定清晰视频图像视域范围内行人中的一人作为目标行人,并提取目标行人的步态轮廓数据;
跨视角步态识别模块:用于将步态轮廓数据进行视角归一化处理后完成目标行人的步态识别并对目标行人进行实时追踪;
导航信息生成模块:用于实时生成目标行人与用户之间的辅助导航信息,使得用户根据辅助导航信息对目标行人进行实时跟随导航。
在本发明一实施例中,所述视频图像重建模块具体用于:
构建实际场景中拍摄的清晰视频图像数据集和带有噪声的模糊图像数据集;
根据清晰视频图像数据集和模糊图像数据集对CycleGAN网络进行训练,得到训练好的CycleGAN网络;
利用训练好的CycleGAN网络对实时采集的视频图像进行高清晰度重建。
在本发明一实施例中,所述步态轮廓数据提取模块具体用于:
将清晰视频图像的初始帧通过特征金字塔目标检测模型进行实时检测,得到检测结果;
设定检测结果中的一个行人作为跟随导航的目标行人;
将清晰视频图像初始帧的目标行人检测框输入至训练好的SiamMask模型中作为视频图像后续帧的跟踪和检索依据对目标行人的步态轮廓进行实时分割和提取,得到步态轮廓数据;
对步态轮廓数据进行降噪处理,得到完整的步态轮廓数据。
在本发明一实施例中,所述步态轮廓数据提取模块还用于:
对原始步态轮廓数据增加随机的图像掩模,利用图像掩模对原始步态轮廓数据进行点乘操作,得到随机遮挡步态轮廓数据;
同时将原始步态轮廓数据和随机遮挡步态轮廓数据训练SiamMask模型,得到训练好的SiamMask模型。
在本发明一实施例中,所述步态轮廓数据提取模块中的降噪处理包括:
利用腐蚀及开运算操作去除步态轮廓数据的毛刺噪声;
利用膨胀及闭运算操作填充步态轮廓数据的孤立像素区域。
在本发明一实施例中,所述跨视角步态识别模块具体用于:
将非正前方视角的步态轮廓数据归一化至正前方步态轮廓数据,视角归一化后的步态轮廓数据;
将视角归一化后的步态轮廓数据输入至GaitSet模型,利用GaitSet模型对每一帧步态轮廓数据进行提取,通过集合池化运算对所有帧的步态轮廓数据进行融合,通过水平金字塔映射完成特征学习,得到目标行人的步态特征,将步态特征和目标行人进行特征匹配完成对目标行人的识别和追踪。
在本发明一实施例中,所述导航信息生成模块具体用于:
利用双目立体视觉测量方法以及视差原理生成用户与目标行人的距离与方位。
第三方面,本发明提供一种电子设备,该设备包括:
处理器、存储器、与网关通信的接口;
存储器用于存储程序和数据,所述处理器调用存储器存储的程序,以执行第一方面任一项提供的一种复杂场景中的跟随导航方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质包括程序,所述程序在被处理器执行时用于执行第一方面任一项提供的一种复杂场景中的跟随导航方法。
从上述描述可知,本发明实施例提供一种复杂场景中的跟随导航方法和系统,本发明可以根据在复杂场景中利用实时采集视频图像并进行高清晰度重建,解决复杂场景导致的视频图像退化问题;能够实时地自动检测出用户周围环境中的目标行人,并识别和跟踪特定的目标行人;利用步态轮廓数据视角归一化处理,解决复杂场景导致的视角动态变化问题,对于视角变化有较好的鲁棒性;可以实时生成目标行人与用户之间的辅助导航信息,为视觉功能障碍人群提供高精度的跟随导航信息,从而使具有视觉障碍的用户能够在开放环境中自主地跟随目标行人进行活动。
附图说明
图1所示为本发明一种复杂场景中的跟随导航方法的流程示意图;
图2所示为本发明一种复杂场景中的跟随导航系统的结构示意图;
图3所示为本发明一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本发明作进一步说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先需要说明的是,本发明的主要应用在佩戴于用户眼部的设备(例如智能眼镜或头盔等)。适用人群为视觉障碍用户,可以理解的是视觉障碍用户并不是指存在完全视觉障碍的盲人,而是存在部分视觉障碍的人,他们无法靠自身双眼进行正常行走,但是他们可以看到佩戴于眼前设备上的辅助导航信息,并跟随辅助导航信息进行跟随导航自主活动。
基于现有技术的缺点,本发明实施例提供了一种复杂场景中的跟随导航方法的具体实施方式,如图1所示,该方法具体包括:
S110:实时采集视频图像并进行高清晰度重建,得到清晰视频图像。
具体地,视频图像可以是可见光视频、红外成像视频等,这些视频图像通过佩戴于用户眼前的设备采集。当用户佩戴设备进行室内或室外活动时,常常因运动幅度过大导致设备产生晃动等现象,从而使得采集到的图像数据呈现出边缘细节缺失等运动模糊,这无疑将影响目标行人的识别精度。同时雾、霾、雨、雪等恶劣天气也会降低设备的成像质量。因此需要首先考虑对视频图像进行高清晰度重建,从而提升复杂环境下的成像质量,缓解因运动模糊和恶劣天气造成的图像退化问题。在传统的视频图像恢复研究中,多采用数字滤波算法(如维纳滤波等),需要对滤波器进行设计和优化,其鲁棒性和泛化能力有限。鉴于传统技术存在的问题,本发明通过计算机学习中的深度学习训练生成对抗网络。让生成对抗网络学习到清晰图像与模糊图像之间的最优变换,得到内容清晰的视频图像,从而提高复杂环境下的视频成像质量,这样不仅能够为视觉障碍人士提供更加清晰的图像,同时还可以为目标行人的识别提供清晰视频图像。
S120:选定清晰视频图像视域范围内行人中的一人作为目标行人,并提取目标行人的步态轮廓数据。
具体地,经过高清晰度重建得到的清晰视频图像中包含着用户周围的所有行人,可以通过检测模型将这些行人全部检测出来,并将检测出的行人全部作为备选目标行人,由用户自主选择需要跟随的备选目标行人作为最终的目标行人。被选定的目标行人会被检测模型生成的检测框选取,在视频图像的初始帧时选取的目标行人检测框作为后续帧的检索依据,然后将目标行人分割出来,利用一个统一的深度学习框架对目标行人的步态轮廓进行提取,获得目标行人的步态轮廓数据。
S130:将步态轮廓数据进行视角归一化处理后完成目标行人的步态识别并对目标行人进行实时追踪。
具体地,由于影响行人步态识别精度的因素有很多,其中设备拍摄视角的动态变化是其中非常重要的一个因素。用户在实时导航过程中,由于周围环境复杂多变,其跟随路线并不是简单的直线,这就导致目标行人相对于用户之间的视角在不断发生变化。传统步态识别算法大多只考虑简单场景下的识别问题,对于复杂场景下跨视角的步态识别缺乏针对性的设计。为了解决跨视角识别问题,可用通过构建视角转换模型,将目标行人的步态轮廓数据实时归一化到某一特定视角,从而解决因视角不同导致的识别失败情况的发生。视角转换模型可以由轻量级的生成对抗网络进行实现,从而在保证步态轮廓视角转换的基础上减小计算量,提高模型的实时性。通过对行人步态轮廓特征与目标行人步态轮廓特征进行对比,实现对目标行人的识别与跟踪。
S140:实时生成目标行人与用户之间的辅助导航信息,使得用户根据辅助导航信息对目标行人进行实时跟随导航。
具体地,在经过步态识别后,目标行人即被设备自动识别、定位出来。为了能够为视觉障碍人士提供跟随导航功能,根据识别出来的目标行人检测框的大小、位置等信息,自动计算出目标行人与用户之间的距离和方位,以及目标行人的识别概率,从而为设备跟随导航的可视化提供相关数据。用户根据提供的实时导航信息,即可完成复杂场景下的目标行人跟随。
在本实施例中,本实施例可以根据在复杂场景中利用实时采集视频图像并进行高清晰度重建,解决复杂场景导致的视频图像退化问题;能够实时地自动检测出用户周围环境中的目标行人,并识别和跟踪特定的目标行人;利用步态轮廓数据视角归一化处理,解决复杂场景导致的视角动态变化问题,对于视角变化有较好的鲁棒性;可以实时生成目标行人与用户之间的辅助导航信息,为视觉功能障碍人群提供高精度的跟随导航信息,从而使具有视觉障碍的用户能够在开放环境中自主地跟随目标行人进行活动。
在上述实施例的基础上,本发明一实施例中,步骤S110具体包括:
构建实际场景中拍摄的清晰视频图像数据集和带有噪声的模糊图像数据集;
根据清晰视频图像数据集和模糊图像数据集对CycleGAN网络进行训练,得到训练好的CycleGAN网络;
利用训练好的CycleGAN网络对实时采集的视频图像进行高清晰度重建。
具体地,CycleGAN网络的输入为模糊的图像,输出为去模糊后的清晰图像。为了训练CycleGAN网络,需要构建两个数据集,分别为设备拍摄的清晰图像形成的清晰视频图像数据集和带有噪声的模糊图像数据集。经过训练,CycleGAN网络可以学习到模糊图像到清晰图像之间的最优变换,从而有效提高复杂成像环境下的视频数据质量。此外,相比其他基于深度学习的图像恢复模型对于训练数据的限制(必须同时出现某一场景的模糊图像和清晰图像),CycleGAN网络则无上述要求,从而大大降低了训练数据准备的难度。
在本实施例中,利用CycleGAN网络可以更容易的学习到模糊图像与清晰图像之间的最优变换,解决用户因走动、手扶眼睛等动作造成的视频图像运动模糊,以及因雾、霾、雨、雪等恶劣天气条件造成的视频图像退化,可以适应各种复杂的场景,扩大应用场景。
在上述实施例的基础上,本发明一实施例中,步骤S120具体包括:
将清晰视频图像的初始帧通过特征金字塔目标检测模型进行实时检测,得到检测结果;
具体地,可以理解的是特征金字塔目标检测模型(FPN)设计了自上而下的网络结构和横向连接,以此融合具有高分辨率的浅层特征和具有丰富语义信息的深层特征。先通过下采样的卷积神经网络获得不同尺度的特征。这些顶层特征再通过上采样的网络和低层特征做融合,不同层输出可以得到对不同尺度的敏感的特征,检测不同形态的行人,最后得到的检测结果中包含清晰图像初始帧内所有行人的检测框。
设定检测结果中的一个行人作为跟随导航的目标行人;
具体地,可以通过以下方法设定目标行人,将头戴设备对准需要跟随的目标行人并保持5秒以上,当停留时间达到阈值时对目标行人进行锁定。被锁定的目标行人的检测框会作为初始检测框送入SiamMask模型中。
将清晰视频图像初始帧的目标行人检测框输入至训练好的SiamMask模型中作为视频图像后续帧的跟踪和检索依据对目标行人的步态轮廓进行实时分割和提取,得到步态轮廓数据;
具体地,可以理解的是SiamMask模型可以将初始检测框和视频后续帧送入一个双分支的卷积神经网络,分别进行特征提取,并对各自提取的特征进行互相关融合,基于融合后的特征进行多任务学习,分别输出目标行人的步态轮廓数据、目标行人的检测框以及目标行人识别正确的概率。
对步态轮廓数据进行降噪处理,得到完整的步态轮廓数据。
具体地,因复杂场景下提取到的行人步态轮廓存在噪声污染问题,可以通过数字图像处理领域经典的数学形态学方法对步态轮廓数据进行降噪和标准化处理,对椒盐噪声等进行过滤。利用腐蚀及开运算操作去除步态轮廓数据的毛刺噪声,利用膨胀及闭运算操作填充步态轮廓数据的孤立像素区域。进而使得步态轮廓的完整性更高。
在本实施例中,利用特征金字塔目标检测模型可以快速获得SiamMask模型需要的初始帧目标行人检测框,通过SiamMask模型完成目标形人的步态轮廓数据提取,通过将二者有效结合,从而为步态识别提供边缘清晰、时间连续的步态轮廓数据,提高在复杂场景的鲁棒性和适应性。
在上述实施例的基础上,本发明一实施例中,步骤S120还包括:
对原始步态轮廓数据增加随机的图像掩模,利用图像掩模对原始步态轮廓数据进行点乘操作,得到随机遮挡步态轮廓数据;
同时将原始步态轮廓数据和随机遮挡步态轮廓数据训练SiamMask模型,得到训练好的SiamMask模型。
具体地,在对SiamMask模型训练时对数据采用随机遮挡的方式进行数据增强。其中,基于随机遮挡方式进行数据增强是指对步态轮廓数据增加随机的图像掩模,利用图像掩模数据对步态轮廓进行点乘操作,模拟出目标行人的步态轮廓被周围物体遮挡的情况,从而增加步态轮廓训练样本的难度和多样性。在SiamMask模型训练过程中,同时使用原始的步态轮廓数据和经过随机遮挡得到随机遮挡步态轮廓数据。
在本实施例中,可以有效避免因相互遮挡导致的目标行人步态轮廓不完整的问题,提高步态识别过程中对于未遮挡区域的学习能力,增强模型对于复杂环境的鲁棒性和适应性。
在上述实施例的基础上,本发明一实施例中,步骤S130具体包括:
将非正前方视角的步态轮廓数据归一化至正前方步态轮廓数据,视角归一化后的步态轮廓数据;
具体地,视角的方向是通过目标行人相对于用户的方向定义,正常情况下目标行人是在用户的正前方视角内,当进行变向时目标行人可能跳出用户的正前方视角,通过将非正前方视角的步态轮廓数据归一化至正前方步态轮廓数据,使得在用户视角逐渐转换,目标行人始终出现在用户的正前方视角内。
将视角归一化后的步态轮廓数据输入至GaitSet模型,利用GaitSet模型对每一帧步态轮廓数据进行提取,通过集合池化运算对所有帧的步态轮廓数据进行融合,通过水平金字塔映射完成特征学习,得到目标行人的步态特征,将步态特征和目标行人进行特征匹配完成对目标行人的识别和追踪。
具体地,特征匹配采用K近邻算法,首先将提取的步态特征在训练特征集中找到与其最邻近的K个实例,若K个实例中的多数属于目标行人,则判定该输入步态特征同属于目标行人,则特征匹配成功并完成了目标行人的识别。
在本实施例中,可以实时转换用户的视角,跟随目标行人动态变化,保障目标行人始终出现在用户的正前方视角内。提高在跨视角的步态识别上的正确率,保证在视角变化时也能够提供正确的导航信息,以应对复杂的场景。
在上述实施例的基础上,本发明一实施例中,用户视角的转换可以通过视角转换网络实现:
视角转换网络采用轻量级的生成对抗网络进行实现,从而在保证步态轮廓视角转换的基础上减小计算量,提高模型的实时性。其中,轻量级的生成对抗网络负责将非正前方视角的步态轮廓转换到正前方视角下,该视角转换网络由生成器和判别器组成,其中生成器由轻量级的全卷积神经网络组成,判别器由轻量级的全连接神经网络组成。视角转换网络的训练需要两组数据:即非正前方视角的步态轮廓数据以及对应的正前方视角数据。在完成视角转换网络训练后,该生成对抗网络的生成器即可实现步态轮廓的视角转换,此时输入一张非正前方的步态轮廓图像,视角转换网络即可输出转换后的正前方的步态轮廓图像。
在上述实施例的基础上,本发明一实施例中,步骤S140具体包括:利用双目立体视觉测量方法以及视差原理生成用户与目标行人的距离与方位。
具体地,在经过步态识别后,目标行人就会被设备自动识别、定位出来。其中目标行人与用户之间的距离和方位通过经典的双目立体视觉测量得到,此时设备的左右镜片相当于两台摄像机,可以从不同角度同时获取周围景物的两幅数字图像,并基于视差原理即可恢复出目标行人的三维几何信息,通过计算可以得到用户与目标行人的距离与方位。而目标识别的概率可以提示用户是否可以相信设备的识别结果,如果遇到某些极端复杂的场景导致识别概率过低(如小于0.1),用户可以选择放弃目标行人的跟随导航,并进行重置,重新提供目标行人在该场景下的初始检测框,以提高跟随导航的性能。
在本实施例中,可以利用识别出来的目标行人检测框的大小、位置等信息,自动计算出目标行人与用户之间的距离和方位,以及目标行人的识别概率,从而为跟随导航的可视化提供相关数据。用户根据提供的实时辅助导航信息,即可完成复杂场景下的目标行人跟随导航。
需要指出的是,本发明的整体实现过程如下:用户在复杂场景下进行行走前,首先通过特征金字塔目标检测模型对目标行人进行检测,从而得到目标行人的检测框,作为后续目标跟踪的初始化数据。在用户行走的过程中,利用CycleGAN网络对设备拍摄的视频图像进行高清晰度重建,从而解决用户因走动、手扶眼镜等动作造成的视频图像运动模糊,以及因雾、霾、雨、雪等恶劣天气条件造成的视频图像退化。接下来,利用SiamMask模型对目标行人的运动轨迹进行实时追踪,并对目标行人的步态轮廓进行自动提取,从而为行人的步态识别提供边缘清晰、时间连续的步态轮廓数据。同时考虑了复杂场景下的行人遮挡问题,利用随机遮挡的方式避免因相互遮挡导致的目标行人步态轮廓不完整的问题。在复杂场景下,目标行人与用户之间的视角存在较大的差异性,将对行人识别结果造成较大误差,因此利用视角转换网络对目标行人的步态轮廓进行归一化处理,并在此基础上利用GaitSet模型完成目标行人的识别。最后将目标行人的检测框、到用户的距离、方位等信息实时显示在设备上,从而为视觉障碍用户提供实时的导航信息,便于其对目标行人进行跟随。
基于同一发明构思,本申请实施例还提供了一种复杂场景中的跟随导航系统,可以用于实现上述实施例所描述的一种复杂场景中的跟随导航方法,如下面的实施例所述。由于一种复杂场景中的跟随导航系统解决问题的原理与一种复杂场景中的跟随导航方法相似,因此一种复杂场景中的跟随导航系统的实施可以参见方法实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本发明提供了一种复杂场景中的跟随导航系统,如图2所示。在图2中,该系统包括:
视频图像重建模块210:用于实时采集视频图像并进行高清晰度重建,得到清晰视频图像;
步态轮廓数据提取模块220:用于选定清晰视频图像视域范围内行人中的一人作为目标行人,并提取目标行人的步态轮廓数据;
跨视角步态识别模块230:用于将步态轮廓数据进行视角归一化处理后完成目标行人的步态识别并对目标行人进行实时追踪;
导航信息生成模块240:用于实时生成目标行人与用户之间的辅助导航信息,使得用户根据辅助导航信息对目标行人进行实时跟随导航。
在本发明一实施例中,视频图像重建模块210具体用于:
构建实际场景中拍摄的清晰视频图像数据集和带有噪声的模糊图像数据集;
根据清晰视频图像数据集和模糊图像数据集对CycleGAN网络进行训练,得到训练好的CycleGAN网络;
利用训练好的CycleGAN网络对实时采集的视频图像进行高清晰度重建。
在本发明一实施例中,步态轮廓数据提取模块220具体用于:
将清晰视频图像的初始帧通过特征金字塔目标检测模型进行实时检测,得到检测结果;
设定检测结果中的一个行人作为跟随导航的目标行人;
将清晰视频图像初始帧的目标行人检测框输入至训练好的SiamMask模型中作为视频图像后续帧的跟踪和检索依据对目标行人的步态轮廓进行实时分割和提取,得到步态轮廓数据;
对步态轮廓数据进行降噪处理,得到完整的步态轮廓数据。
在本发明一实施例中,步态轮廓数据提取模块220还用于:
对原始步态轮廓数据增加随机的图像掩模,利用图像掩模对原始步态轮廓数据进行点乘操作,得到随机遮挡步态轮廓数据;
同时将原始步态轮廓数据和随机遮挡步态轮廓数据训练SiamMask模型,得到训练好的SiamMask模型。
在本发明一实施例中,步态轮廓数据提取模块220中的降噪处理包括:
利用腐蚀及开运算操作去除步态轮廓数据的毛刺噪声;
利用膨胀及闭运算操作填充步态轮廓数据的孤立像素区域。
在本发明一实施例中,跨视角步态识别模块230具体用于:
将非正前方视角的步态轮廓数据归一化至正前方步态轮廓数据,视角归一化后的步态轮廓数据;
将视角归一化后的步态轮廓数据输入至GaitSet模型,利用GaitSet模型对每一帧步态轮廓数据进行提取,通过集合池化运算对所有帧的步态轮廓数据进行融合,通过水平金字塔映射完成特征学习,得到目标行人的步态特征,将步态特征和目标行人进行特征匹配完成对目标行人的识别和追踪。
在本发明一实施例中,导航信息生成模块240具体用于:
利用双目立体视觉测量方法以及视差原理生成用户与目标行人的距离与方位。
本申请的实施例还提供能够实现上述实施例中的一种复杂场景中的跟随导航方法中全部步骤的一种电子设备的具体实施方式,参见图3,电子设备300具体包括如下内容:
处理器310、存储器320、通信单元330和总线340;
其中,处理器310、存储器320、通信单元330通过总线340完成相互间的通信;通信单元330用于实现服务器端设备以及终端设备等相关设备之间的信息传输。
处理器310用于调用存储器320中的计算机程序,处理器执行计算机程序时实现上述实施例中的一种复杂场景中的跟随导航方法中的全部步骤。
本领域普通技术人员应理解:存储器可以是,但不限于,随机存取存储器(RandomAccess Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,简称:EPROM),电可擦除只读存储器(ElectricErasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。进一步地,上述存储器内的软件程序以及模块还可包括操作系统,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通信,从而提供其他软件组件的运行环境。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质包括程序,所述程序在被处理器执行时用于执行前述任一方法实施例提供的一种复杂场景中的跟随导航方法。
本领域普通技术人员应理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质,具体的介质类型本申请不做限制。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (10)
1.一种复杂场景中的跟随导航方法,其特征在于,该方法包括:
实时采集视频图像并进行高清晰度重建,得到清晰视频图像;
选定清晰视频图像视域范围内行人中的一人作为目标行人,并提取目标行人的步态轮廓数据;
将步态轮廓数据进行视角归一化处理后完成目标行人的步态识别并对目标行人进行实时追踪;
实时生成目标行人与用户之间的辅助导航信息,使得用户根据辅助导航信息对目标行人进行实时跟随导航。
2.如权利要求1所述的一种复杂场景中的跟随导航方法,其特征在于,所述实时采集视频图像并进行高清晰度重建,得到清晰视频图像包括:
构建实际场景中拍摄的清晰视频图像数据集和带有噪声的模糊图像数据集;
根据清晰视频图像数据集和模糊图像数据集对CycleGAN网络进行训练,得到训练好的CycleGAN网络;
利用训练好的CycleGAN网络对实时采集的视频图像进行高清晰度重建。
3.如权利要求1所述的一种复杂场景中的跟随导航方法,其特征在于,所述选定清晰视频图像视域范围内行人中的一人作为目标行人,并提取目标行人的步态轮廓数据包括:
将清晰视频图像的初始帧通过特征金字塔目标检测模型进行实时检测,得到检测结果;
设定检测结果中的一个行人作为跟随导航的目标行人;
将清晰视频图像初始帧的目标行人检测框输入至训练好的SiamMask模型中作为视频图像后续帧的跟踪和检索依据对目标行人的步态轮廓进行实时分割和提取,得到步态轮廓数据;
对步态轮廓数据进行降噪处理,得到完整的步态轮廓数据。
4.如权利要求3所述的一种复杂场景中的跟随导航方法,其特征在于,还包括:
对原始步态轮廓数据增加随机的图像掩模,利用图像掩模对原始步态轮廓数据进行点乘操作,得到随机遮挡步态轮廓数据;
同时将原始步态轮廓数据和随机遮挡步态轮廓数据训练SiamMask模型,得到训练好的SiamMask模型。
5.如权利要求3所述的一种复杂场景中的跟随导航方法,其特征在于,所述降噪处理包括:
利用腐蚀及开运算操作去除步态轮廓数据的毛刺噪声;
利用膨胀及闭运算操作填充步态轮廓数据的孤立像素区域。
6.如权利要求1所述的一种复杂场景中的跟随导航方法,其特征在于,所述将步态轮廓数据进行视角归一化处理后完成目标行人的步态识别并对目标行人进行实时追踪包括:
将非正前方视角的步态轮廓数据归一化至正前方步态轮廓数据,视角归一化后的步态轮廓数据;
将视角归一化后的步态轮廓数据输入至GaitSet模型,利用GaitSet模型对每一帧步态轮廓数据进行提取,通过集合池化运算对所有帧的步态轮廓数据进行融合,通过水平金字塔映射完成特征学习,得到目标行人的步态特征,将步态特征和目标行人进行特征匹配完成对目标行人的识别和追踪。
7.如权利要求1所述的一种复杂场景中的跟随导航方法,其特征在于,所述实时生成目标行人与用户之间的辅助导航信息包括:
利用双目立体视觉测量方法以及视差原理生成用户与目标行人的距离与方位。
8.一种复杂场景中的跟随导航系统,其特征在于,该系统包括:
视频图像重建模块:用于实时采集视频图像并进行高清晰度重建,得到清晰视频图像;
步态轮廓数据提取模块:用于选定清晰视频图像视域范围内行人中的一人作为目标行人,并提取目标行人的步态轮廓数据;
跨视角步态识别模块:用于将步态轮廓数据进行视角归一化处理后完成目标行人的步态识别并对目标行人进行实时追踪;
导航信息生成模块:用于实时生成目标行人与用户之间的辅助导航信息,使得用户根据辅助导航信息对目标行人进行实时跟随导航。
9.一种电子设备,其特征在于,该设备包括:
处理器、存储器、与网关通信的接口;
存储器用于存储程序和数据,所述处理器调用存储器存储的程序,以执行权利要求1至7任一项所述的一种复杂场景中的跟随导航方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括程序,所述程序在被处理器执行时用于执行权利要求1至7任一项所述的一种复杂场景中的跟随导航方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110629411.7A CN113470068A (zh) | 2021-06-07 | 2021-06-07 | 一种复杂场景中的跟随导航方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110629411.7A CN113470068A (zh) | 2021-06-07 | 2021-06-07 | 一种复杂场景中的跟随导航方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113470068A true CN113470068A (zh) | 2021-10-01 |
Family
ID=77872308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110629411.7A Pending CN113470068A (zh) | 2021-06-07 | 2021-06-07 | 一种复杂场景中的跟随导航方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113470068A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101558996A (zh) * | 2009-05-15 | 2009-10-21 | 天津大学 | 基于人体运动结构正投影三维重建的步态识别方法 |
CN110599416A (zh) * | 2019-09-02 | 2019-12-20 | 太原理工大学 | 一种基于空间目标图像数据库的非合作目标图像盲复原方法 |
CN112132864A (zh) * | 2020-09-21 | 2020-12-25 | 大连遨游智能科技有限公司 | 基于视觉的机器人跟随方法及跟随机器人 |
-
2021
- 2021-06-07 CN CN202110629411.7A patent/CN113470068A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101558996A (zh) * | 2009-05-15 | 2009-10-21 | 天津大学 | 基于人体运动结构正投影三维重建的步态识别方法 |
CN110599416A (zh) * | 2019-09-02 | 2019-12-20 | 太原理工大学 | 一种基于空间目标图像数据库的非合作目标图像盲复原方法 |
CN112132864A (zh) * | 2020-09-21 | 2020-12-25 | 大连遨游智能科技有限公司 | 基于视觉的机器人跟随方法及跟随机器人 |
Non-Patent Citations (2)
Title |
---|
徐昆昆: "基于深度学习的步态识别系统设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
李占利,李洪安著: "《智能视频分析与步态识别》", 30 June 2020 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021233029A1 (en) | Simultaneous localization and mapping method, device, system and storage medium | |
Tian et al. | Depth estimation using a self-supervised network based on cross-layer feature fusion and the quadtree constraint | |
CN111797716A (zh) | 一种基于Siamese网络的单目标跟踪方法 | |
CN111563415A (zh) | 一种基于双目视觉的三维目标检测系统及方法 | |
WO2020237942A1 (zh) | 一种行人3d位置的检测方法及装置、车载终端 | |
CN113052066B (zh) | 三维目标检测中基于多视图和图像分割的多模态融合方法 | |
US20200349757A1 (en) | Object capture coverage evaluation | |
CN111274847B (zh) | 一种定位方法 | |
Nassu et al. | A vision-based approach for rail extraction and its application in a camera pan–tilt control system | |
CN113568435B (zh) | 一种基于无人机自主飞行态势感知趋势的分析方法与系统 | |
CN110276831B (zh) | 三维模型的建构方法和装置、设备、计算机可读存储介质 | |
CN114332394A (zh) | 一种基于语义信息辅助的动态场景三维重建方法 | |
CN106915303A (zh) | 基于深度数据和鱼眼图像的汽车a柱盲区透视方法 | |
CN115147809B (zh) | 一种障碍物检测方法、装置、设备以及存储介质 | |
CN112000226A (zh) | 一种人眼视线估计方法、装置及视线估计系统 | |
CN111814603A (zh) | 一种人脸识别方法、介质及电子设备 | |
CN104700105A (zh) | 非结构化室外地形全局检测方法 | |
CN114170290A (zh) | 图像的处理方法及相关设备 | |
Sun et al. | IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes | |
CN110837760B (zh) | 目标检测方法、用于目标检测的训练方法和装置 | |
CN112529011A (zh) | 目标检测方法及相关装置 | |
CN117315547A (zh) | 一种解决动态物体大占比的视觉slam方法 | |
CN116453198A (zh) | 一种基于头部姿态差异的视线校准方法和装置 | |
CN113470068A (zh) | 一种复杂场景中的跟随导航方法和系统 | |
CN115249269A (zh) | 目标检测方法、计算机程序产品、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211001 |