CN112528817B - 一种基于神经网络的巡检机器人视觉检测及跟踪方法 - Google Patents
一种基于神经网络的巡检机器人视觉检测及跟踪方法 Download PDFInfo
- Publication number
- CN112528817B CN112528817B CN202011409502.1A CN202011409502A CN112528817B CN 112528817 B CN112528817 B CN 112528817B CN 202011409502 A CN202011409502 A CN 202011409502A CN 112528817 B CN112528817 B CN 112528817B
- Authority
- CN
- China
- Prior art keywords
- target
- tracking
- human body
- robot
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000001514 detection method Methods 0.000 title claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 18
- 238000007689 inspection Methods 0.000 title claims description 31
- 238000011179 visual inspection Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims abstract description 5
- 230000006399 behavior Effects 0.000 claims description 37
- 230000004044 response Effects 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 claims description 6
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 210000000299 nuclear matrix Anatomy 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims 1
- 230000001537 neural effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000391 smoking effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/262—Analysis of motion using transform domain methods, e.g. Fourier domain methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
- G06V10/507—Summing image-intensity values; Histogram projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/695—Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20056—Discrete and fast Fourier transform, [DFT, FFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于神经网络的巡检机器人视觉检测及跟踪方法,其包括步骤:1)机器人在移动过程中采集动态背景的环境图像;2)将采集到的图像进行预处理;3)在机器人本体上完成图像中人体目标和特定行为的检测,并保存满足特定行为的人体目标的大小、位置信息和特征;4)运用目标跟踪算法并控制机器人云台朝向使得特定目标始终位于图像中心位置;5)控制机器人运动跟随跟踪对象。本发明基于神经网络的巡检机器人视觉检测及跟踪方法,具有很强的自适应能力,在动态背景的场景下,对目标有较好的检测与跟踪效果,具有较高可靠性和鲁棒性。
Description
技术领域
本发明涉及智能机器人技术领域,特别涉及一种巡检机器人视觉检测及跟踪方法。
背景技术
随着神经网络和机器人技术的快速发展,智能自主巡检机器人的研发和应用逐渐成为可能。传统人工巡检需要大量的人力,并且要求巡检人员时刻保持高度的注意力,对于大型的室内外场景,存在着各种不可控的因素,突发事件的不确定性,暴露出人工巡检方式固有的低效率高风险的缺点。因此开发一款能够自主巡检以及辅助人工巡检的智能巡检机器人就显得格外重要。
对于安全性和保密性较高的应用场景,要求智能巡检机器人不仅能完成既定区域的巡检,还需要能够辨识区域场景中的人员信息和行为,及时发现非法或有重大风险行为的人员并对其进行稳定跟踪,例如在禁止吸烟区域吸烟以及未按照要求着装等行为的人员,并上报异常信息,能够及时有效地避免危害安全和保密行为的发生,相较于事后查看监控溯源的方式更加节省人力和资源。
目前巡检机器人视觉跟踪的方法大部分采用机器人本体采集图像信息,上传服务器端进行信息处理的形式,并不能很好的利用机器人搭载的经济高性能的处理器,导致资源的浪费和稳定性、实时性的下降。同时传统的用于巡检机器人的人员跟踪算法高度依赖环境光照等因素的稳定性,人体被短时间遮挡时算法就会失效,并且对于人体外观的形变和快速移动鲁棒性较低。
发明内容
有鉴于此,本发明的目的是一种基于神经网络的巡检机器人视觉检测及跟踪方法,以解决让巡检机器人能够快速准确地检测出特定行为以及人体目标,提高机器人视觉跟踪的可靠性和鲁棒性等技术问题。
本发明基于神经网络的巡检机器人视觉检测及跟踪方法,包括步骤:
1)机器人在巡检移动过程中使用摄像头采集环境动态图像;
2)使用机器人搭载的嵌入式系统对视频图像进行预处理;
其特征在于:还包括以下步骤:
3)使用目标检测算法构建目标检测器,将预处理后的图像传入目标检测器,目标检测器对图像中人体和特定行为进行检测,对满足特定行为的人体目标记录人体深度特征以及人体大小和位置信息;
4)使用目标跟踪算法构建目标跟踪器,调用目标跟踪器跟踪图像中满足特定行为的人体目标,并控制机器人摄像头云台转动角度θ,使得跟踪对象能够时刻处于图像的中心位置,并开启测距传感器获取跟踪对象与机器人相隔位置d;如果存在多个满足特定行为的人体目标,选择人体检测框最大并且行为危险程度最高的人体目标作为跟踪对象,以行为危险程度为优先考量准则;
5)使用机器人搭载的运动控制器控制机器人运动跟随跟踪对象;
6)当跟踪目标长时间消失在画面中时,重置目标检测器和跟踪器,并删除人体目标,复位摄像头云台的位置。
进一步,在步骤2)中,使用机器人搭载的嵌入式系统对视频图像进行预处理,压缩图片尺寸为608*608,通道数为3的RGB格式。
进一步,在步骤3)中,所述的目标检测算法为yolov4算法;
在步骤4)中,所述的目标跟踪算法包括:
上式中:fs(xi)是KCF核相关滤波算法使得样本xi与其目标ys的均方差尽可能小的线性回归函数,λ是正则化参数,其作用是控制过拟合,w是分类器参数;
通过核函数将样本xi投影到高维特征空间,KCF算法的岭回归中的分类器参数w在高维空间表示为:
其中,是映射函数,用来将样本xi映射到高维特征空间,将求解w的问题转为求解分类器系数α的问题;分类器系数α={α1,α2,...,αi,...}。同时核函数具有如下形式:
对基于最小二乘法给出的岭回归的解进行傅里叶变换,得到下式:
其中为生成向量,是训练样本xi的核矩阵K=[Kij]n×n的第一行,其中Kij=k(xi,xj),i,j=1,2,...,n,y是所有样本xi对应的期望ys组成的集合,F(α)和F(y)分别表示系数α和期望集合y的离散傅里叶变换。
测试样本z={z1,z2,...,zn}是当前目标位置使用循环移位产生的样本,由样本xi和样本zi构造核矩阵Kz=[k(xi,zj)],其中i,j=1,2,...,n。
将核矩阵Kz进行傅里叶变换得到对角矩阵的形式,并代入回归函数fs(xi)当中,计算所有由测试样本zi构造而成的候选样本响应具有如下形式:
其中是核矩阵Kz的生成向量;构造32维HOG和11维CN特征组合成高维的新特征,通过PCA算法将高维的新特征降维成低维特征Ldown以加速跟踪算法确保运算的实时性;将特征Ldown带入式:/>和,得到人工特征响应/>
使用Densenet卷积神经网络提取满足特定行为的人体目标的深度特征,将Densenet各层卷积输出特征带入式:/>中,得到每层的深度特征响应/>其中i=1,2,……n,表示卷积层的顺序;进而得到一组响应特征图的集合用/>表示第k层的目标预测位置,由于前一层的响应受到后一层响应的影响,因此第k-1层的目标预测位置表示为/>其中μ为正则化参数,深度特征响应/>
综合人工特征响应和深度特征响应/>确定响应图的最优分布,其中最大值的元素对应区域即为跟踪对象:
对于上一帧中出现的跟踪对象,当前帧中的预测位置由上述基于人工特征响应和深度特征响应的相关滤波器的最大响应图确定,跟踪对象在当前帧中的位置p如下所示,其中pl为上一帧中跟踪对象的位置,W和H分别为图像的宽、高像素:
进一步,在步骤3)中,还包括对人体目标的人脸进行检测,保存检测成功的人脸图片和Facenet128维人脸特征至数据库。
进一步,在步骤2)中对视频图像进行预处理还包括将采集的视频图像划分为若干固定长度帧,在步骤3)中对固定长度帧的头帧调用目标检测算法,在步骤4中)对固定长度帧的后续帧调用目标跟踪算法完成人体目标的视觉跟踪
本发明的有益效果:
1、本发明基于神经网络的巡检机器人视觉检测及跟踪方法,通过YOLOV4算法实现图像中人体对象的检测与定位,无需借助特殊标定物,能够检测特定行为的发生,并结合基于改进KCF的跟踪器实现巡检机器人的视觉跟踪,能够检测和定位具有特定行为的人员,确保作业环境的安全和规范,能提高巡检机器人视觉检测及跟踪的可靠性和鲁棒性,并能够降低机器人视觉跟踪对光照等环境的依赖程度。
2、本发明基于神经网络的巡检机器人视觉检测及跟踪方法,在机器人本体上完成图像中人体目标和特定行为的检测,不将采集的图像信息上传到服务器端处理,避免了资源的浪费,同时有利于提高视觉跟踪的稳定性、实时性。
3、本发明基于神经网络的巡检机器人视觉检测及跟踪方法,其不会因为人体被短时间遮挡时算法就会失效,并且对于人体外观的形变和快速移动鲁棒性较高。
附图说明
图1是基于神经网络的巡检机器人视觉检测及跟踪方法的实施流程图;
图2是YOLOv4结构图。
图3是改进KCF跟踪算法流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步描述。
本实施例基于神经网络的巡检机器人视觉检测及跟踪方法,包括步骤:
1)机器人在巡检移动过程中使用摄像头采集环境动态图像。
2)使用机器人搭载的嵌入式系统对视频图像进行预处理。本实施例中具体为使用机器人搭载的Jetson Xavier NX嵌入式系统对视频图像进行预处理,压缩图片尺寸为608*608,通道数为3的RGB格式。嵌入式系统搭载Ubuntu16.04系统,调用OpenCV库中的函数使用Python语言进行图像操作。
3)使用目标检测算法构建目标检测器,将预处理后的图像传入目标检测器,目标检测器对图像中人体和特定行为进行检测,对满足特定行为的人体目标记录人体深度特征以及人体大小和位置信息。本实施例中具体使用yolov4算法构建目标检测器完成图像中人体以及特定行为的检测,当检测到特定行为时,目标检测器将会记录该人员的人体深度特征以及人体大小、位置等信息。当然在具体实施中还可同时对目标人脸进行检测,保存检测成功的人脸图片和Facenet128维人脸特征至数据库。
在具体实施中,yolov4算法在高性能主机上使用数据集完成离线监督训练,针对不同特定行为的独特性,所述的特定行为包括但不限于翻越围栏、抽烟、未按照规定佩戴口罩、安全帽等行为,通过人工的方式在训练集中对人体和不同的特定行为进行逐一标注,然后载入yolov4算法进行训练,输入像素大小为608*608的图片,yolov4将会提取三个特征层,输出尺寸分别为19*19、38*38以及76*76,通过三个尺度特征上的解码即可用于检测和定位具有相应行为的目标,完成训练后将获得的h5权值文件部署在Jetson Xavier NX嵌入式系统中。同时为了提高检测与跟踪的实时性和鲁棒性,本实施例在步骤2)中还将采集的视频图像划分为若干固定长度帧,在固定长度帧的头帧调用yolov4算法,后续帧调用目标跟踪算法完成特定人体目标的视觉跟踪。
4)使用目标跟踪算法构建目标跟踪器,调用目标跟踪器跟踪图像中满足特定行为的人体目标,并控制机器人摄像头云台转动角度θ,使得跟踪对象能够时刻处于图像的中心位置,并开启测距传感器获取跟踪对象与机器人相隔位置d,测距传感器可采用激光传感器或超声波传感器;如果存在多个满足特定行为的人体目标,选择人体检测框最大并且行为危险程度最高的人体目标作为跟踪对象,以行为危险程度为优先考量准则。
本步骤4)中,所述的目标跟踪算法包括:
上式中:fs(xi)是KCF核相关滤波算法使得样本xi与其目标ys的均方差尽可能小的线性回归函数,λ是正则化参数,其作用是控制过拟合,w是分类器参数;
通过核函数将样本xi投影到高维特征空间,KCF算法的岭回归中的分类器参数w在高维空间表示为:
其中,是映射函数,用来将样本xi映射到高维特征空间,将求解w的问题转为求解分类器系数α的问题;分类器系数α={α1,α2,…,αi,…}。同时核函数具有如下形式:
对基于最小二乘法给出的岭回归的解进行傅里叶变换,得到下式:
其中为生成向量,是训练样本xi的核矩阵K=[Kij]n×n的第一行,其中Kij=k(xi,xj),i,j=1,2,...,n,y是所有样本xi对应的期望ys组成的集合,F(α)和F(y)分别表示系数α和期望集合y的离散傅里叶变换。
测试样本z={z1,z2,...,zn}是当前目标位置使用循环移位产生的样本,由样本xi和样本zi构造核矩阵Kz=[k(xi,zj)],其中i,j=1,2,...,n。
将核矩阵Kz进行傅里叶变换得到对角矩阵的形式,并代入回归函数fs(xi)当中,计算所有由测试样本zi构造而成的候选样本响应具有如下形式:
其中是核矩阵Kz的生成向量;构造32维HOG和11维CN特征组合成高维的新特征,通过PCA算法将高维的新特征降维成低维特征Ldown以加速跟踪算法确保运算的实时性;将特征Ldown带入式:/>中,得到人工特征响应/>
使用Densenet卷积神经网络提取满足特定行为的人体目标的深度特征,深层特征能够提取更丰富的语义信息,对人体的遮挡和形变有一定的鲁棒性,同时浅层特征能够提供丰富的局部特征,因此将Densenet各层卷积输出特征带入式:/>中,得到每层的深度特征响应/>其中i=1,2,……n,表示卷积层的顺序;进而得到一组响应特征图的集合/>用/>表示第k层的目标预测位置,由于前一层的响应受到后一层响应的影响,因此第k-1层的目标预测位置表示为其中μ为正则化参数,深度特征响应/>
综合人工特征响应和深度特征响应/>确定响应图的最优分布,其中最大值的元素对应区域即为跟踪对象:
对于上一帧中出现的跟踪对象,当前帧中的预测位置由上述基于人工特征响应和深度特征响应的相关滤波器的最大响应图确定,跟踪对象在当前帧中的位置p如下所示,其中pl为上一帧中跟踪对象的位置,W和H分别为图像的宽、高像素:
在具体实施中,当出现视觉跟踪的人体目标短时间消失时,需要开启目标检测器检测图像中所有目标,并且用跟踪目标历史特征进行匹配识别,匹配成功即输出跟踪结果继续跟踪过程,如图3所示。
5)使用机器人搭载的运动控制器控制机器人运动跟随跟踪对象。在具体实施中运动控制器可根据机器人上搭载的测距模块检测距离与跟踪对象的距离,并控制机器人行走速度以使跟踪距离保持在设定范围内。
6)当跟踪目标由于遮挡等原因长时间消失在画面中时,重置目标检测器和跟踪器,并删除人体目标,复位摄像头云台的位置。
本实施例中基于神经网络的巡检机器人视觉检测及跟踪方法,使用基于卷积神经网络的yolov4算法实现图像中人体对象的检测与定位,无需借助特殊标定物,能够检测特定行为的发生,结合基于改进KCF的跟踪器实现巡检机器人的视觉跟踪。本发明基于神经网络的巡检机器人视觉检测及跟踪方法,能够降低机器人视觉跟踪对光照等环境的依赖程度,能够检测和定位具有特定行为的人员,确保作业环境的安全和规范,提高了巡检机器人视觉跟踪的可靠性和鲁棒性。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种基于神经网络的巡检机器人视觉检测及跟踪方法,包括步骤:
1)机器人在巡检移动过程中使用摄像头采集环境动态图像;
2)使用机器人搭载的嵌入式系统对视频图像进行预处理;
其特征在于:还包括以下步骤:
3)使用目标检测算法构建目标检测器,将预处理后的图像传入目标检测器,目标检测器对图像中人体和特定行为进行检测,对满足特定行为的人体目标记录人体深度特征以及人体大小和位置信息;所述的目标检测算法为yolov4算法;
4)使用目标跟踪算法构建目标跟踪器,调用目标跟踪器跟踪图像中满足特定行为的人体目标,并控制机器人摄像头云台转动角度θ,使得跟踪对象能够时刻处于图像的中心位置,并开启测距传感器获取跟踪对象与机器人相隔位置d;如果存在多个满足特定行为的人体目标,选择人体检测框最大并且行为危险程度最高的人体目标作为跟踪对象,以行为危险程度为优先考量准则;所述的目标跟踪算法包括:
上式中:fs(xi)是KCF核相关滤波算法使得样本xi与其目标ys的均方差尽可能小的线性回归函数;λ是正则化参数,其作用是控制过拟合;w是分类器参数;
通过核函数将样本xi投影到高维特征空间,KCF算法的岭回归中的分类器参数w在高维空间表示为:
其中,是映射函数,用来将样本xi映射到高维特征空间,将求解w的问题转为求解分类器系数α的问题;分类器系数α={α1,α2,…,αi,…};同时核函数具有如下形式:
对基于最小二乘法给出的岭回归的解进行离散傅里叶变换,得到下式:
其中为生成向量,是训练样本xi的核矩阵K=[Kij]n×n的第一行,其中Kij=k(xi,xj),i,j=1,2,…,n,y是所有样本xi对应的期望ys组成的集合,F(α)和F(y)分别表示系数α和期望集合y的离散傅里叶变换;
测试样本z={z1,z2,…,zn}是当前目标位置使用循环移位产生的样本,由样本xi和样本zi构造核矩阵Kz=[k(xi,zj)],其中i,j=1,2,…,n;
将核矩阵Kz进行傅里叶变换得到对角矩阵的形式,并代入回归函数fs(xi)当中,计算所有由测试样本zi构造而成的候选样本响应具有如下形式:
其中是核矩阵Kz的生成向量;构造32维HOG和11维CN特征组合成高维的新特征,通过PCA算法将高维的新特征降维成低维特征Ldown以加速跟踪算法确保运算的实时性;将特征Ldown带入式:/>中,得到人工特征响应/>
使用Densenet卷积神经网络提取满足特定行为的人体目标的深度特征,将Densenet各层卷积输出特征带入式:/>中,得到每层的深度特征响应/>其中i=1,2,……n,表示卷积层的顺序;进而得到一组响应特征图的集合用/>表示第k层的目标预测位置,由于前一层的响应受到后一层响应的影响,因此第k-1层的目标预测位置表示为/>其中μ为正则化参数,深度特征响应/>
综合人工特征响应和深度特征响应/>确定响应图的最优分布,其中最大值的元素对应区域即为跟踪对象:
对于上一帧中出现的跟踪对象,当前帧中的预测位置由上述基于人工特征响应和深度特征响应的相关滤波器的最大响应图确定,跟踪对象在当前帧中的位置p如下所示,其中pl为上一帧中跟踪对象的位置,W和H分别为图像的宽、高像素:
5)使用机器人搭载的运动控制器控制机器人运动跟随跟踪对象;
6)当跟踪目标长时间消失在画面中时,重置目标检测器和跟踪器,并删除人体目标,复位摄像头云台的位置。
2.根据权利要求1所述的基于神经网络的巡检机器人视觉检测及跟踪方法,其特征在于:在步骤2)中,使用机器人搭载的嵌入式系统对视频图像进行预处理,压缩图片尺寸为608*608,通道数为3的RGB格式。
3.根据权利要求1所述的基于神经网络的巡检机器人视觉检测及跟踪方法,其特征在于:在步骤3)中,还包括对人体目标的人脸进行检测,保存检测成功的人脸图片和Facenet128维人脸特征至数据库。
4.根据权利要求1所述的基于神经网络的巡检机器人视觉检测及跟踪方法,其特征在于:在步骤2)中对视频图像进行预处理还包括将采集的视频图像划分为若干固定长度帧,在步骤3)中对固定长度帧的头帧调用目标检测算法,在步骤4中)对固定长度帧的后续帧调用目标跟踪算法完成人体目标的视觉跟踪。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011409502.1A CN112528817B (zh) | 2020-12-04 | 2020-12-04 | 一种基于神经网络的巡检机器人视觉检测及跟踪方法 |
US17/349,170 US11462053B2 (en) | 2020-12-04 | 2021-06-16 | Neural network-based visual detection and tracking method of inspection robot |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011409502.1A CN112528817B (zh) | 2020-12-04 | 2020-12-04 | 一种基于神经网络的巡检机器人视觉检测及跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528817A CN112528817A (zh) | 2021-03-19 |
CN112528817B true CN112528817B (zh) | 2024-03-19 |
Family
ID=74996999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011409502.1A Active CN112528817B (zh) | 2020-12-04 | 2020-12-04 | 一种基于神经网络的巡检机器人视觉检测及跟踪方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11462053B2 (zh) |
CN (1) | CN112528817B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528817B (zh) * | 2020-12-04 | 2024-03-19 | 重庆大学 | 一种基于神经网络的巡检机器人视觉检测及跟踪方法 |
CN113203419B (zh) * | 2021-04-25 | 2023-11-10 | 重庆大学 | 基于神经网络的室内巡检机器人校正定位方法 |
CN113536934B (zh) * | 2021-06-17 | 2024-02-02 | 杭州电子科技大学 | 一种巡逻机器人执行追踪任务时的主动隐藏方法 |
CN113977603B (zh) * | 2021-10-29 | 2023-07-18 | 连云港福润食品有限公司 | 基于目标检测识别及追踪的工人生产规范的监测机器人 |
CN114119970B (zh) * | 2022-01-29 | 2022-05-03 | 中科视语(北京)科技有限公司 | 目标跟踪方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977971A (zh) * | 2019-03-29 | 2019-07-05 | 苏州大学 | 基于均值偏移与核相关滤波的尺度自适应目标跟踪系统 |
CN111368755A (zh) * | 2020-03-09 | 2020-07-03 | 山东大学 | 一种基于视觉的四足机器人行人自主跟随方法 |
CN111967498A (zh) * | 2020-07-20 | 2020-11-20 | 重庆大学 | 基于毫米波雷达和视觉融合的夜间目标检测和跟踪方法 |
CN111986228A (zh) * | 2020-09-02 | 2020-11-24 | 华侨大学 | 一种基于lstm模型扶梯场景下的行人跟踪方法、装置和介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107105193B (zh) * | 2016-02-23 | 2020-03-20 | 芋头科技(杭州)有限公司 | 基于人体信息的机器人监控系统 |
GB201613138D0 (en) * | 2016-07-29 | 2016-09-14 | Unifai Holdings Ltd | Computer vision systems |
US10898999B1 (en) * | 2017-09-18 | 2021-01-26 | X Development Llc | Selective human-robot interaction |
JP6858681B2 (ja) * | 2017-09-21 | 2021-04-14 | 株式会社日立製作所 | 距離推定装置及び方法 |
CN109753846A (zh) * | 2017-11-03 | 2019-05-14 | 北京深鉴智能科技有限公司 | 目标跟踪硬件实现系统和方法 |
US11435734B2 (en) * | 2019-03-19 | 2022-09-06 | King Fahd University Of Petroleum And Minerals | Apparatus and method for failure detection |
US11182906B2 (en) * | 2019-11-24 | 2021-11-23 | International Business Machines Corporation | Stream object tracking with delayed object detection |
CN112528817B (zh) * | 2020-12-04 | 2024-03-19 | 重庆大学 | 一种基于神经网络的巡检机器人视觉检测及跟踪方法 |
-
2020
- 2020-12-04 CN CN202011409502.1A patent/CN112528817B/zh active Active
-
2021
- 2021-06-16 US US17/349,170 patent/US11462053B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977971A (zh) * | 2019-03-29 | 2019-07-05 | 苏州大学 | 基于均值偏移与核相关滤波的尺度自适应目标跟踪系统 |
CN111368755A (zh) * | 2020-03-09 | 2020-07-03 | 山东大学 | 一种基于视觉的四足机器人行人自主跟随方法 |
CN111967498A (zh) * | 2020-07-20 | 2020-11-20 | 重庆大学 | 基于毫米波雷达和视觉融合的夜间目标检测和跟踪方法 |
CN111986228A (zh) * | 2020-09-02 | 2020-11-24 | 华侨大学 | 一种基于lstm模型扶梯场景下的行人跟踪方法、装置和介质 |
Non-Patent Citations (3)
Title |
---|
A Multi-target Tracking Algorithm for Fast-moving Workpieces Based on Event Camera;Yuanze Wang等;《 IECON 2021 - 47th Annual Conference of the IEEE Industrial Electronics Society》;第5页 * |
一种基于Yolo V4-tiny和KCF的目标跟踪 融合算法分析;解滋坤,等;《电子技术》;第309-311页 * |
人体结构化特征与核相关滤波器算法融合的目标跟踪方法;马敬奇,等;《计算机应用》;第56-60页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112528817A (zh) | 2021-03-19 |
US20220180090A1 (en) | 2022-06-09 |
US11462053B2 (en) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528817B (zh) | 一种基于神经网络的巡检机器人视觉检测及跟踪方法 | |
CN109819208B (zh) | 一种基于人工智能动态监控的密集人群安防监控管理方法 | |
WO2019101220A1 (zh) | 基于深度学习网络和均值漂移的船只自动跟踪方法及系统 | |
US20210073573A1 (en) | Ship identity recognition method based on fusion of ais data and video data | |
CN109887040B (zh) | 面向视频监控的运动目标主动感知方法及系统 | |
US11443454B2 (en) | Method for estimating the pose of a camera in the frame of reference of a three-dimensional scene, device, augmented reality system and computer program therefor | |
Foedisch et al. | Adaptive real-time road detection using neural networks | |
CN109145836B (zh) | 基于深度学习网络和卡尔曼滤波的船只目标视频检测方法 | |
EP3499414A1 (en) | Lightweight 3d vision camera with intelligent segmentation engine for machine vision and auto identification | |
Bianchi et al. | UAV localization using autoencoded satellite images | |
CN109919223B (zh) | 基于深度神经网络的目标检测方法及装置 | |
CN110728252A (zh) | 一种应用于区域人员运动轨迹监控的人脸检测方法 | |
CN113273179A (zh) | 用于管理养殖场环境的装置 | |
CN112541403B (zh) | 一种利用红外摄像头的室内人员跌倒检测方法 | |
CN117475353A (zh) | 基于视频的异常烟雾识别方法及系统 | |
EP4287145A1 (en) | Statistical model-based false detection removal algorithm from images | |
CN116546287A (zh) | 一种多联动野生动物在线监测方法及系统 | |
Mantini et al. | Camera Tampering Detection using Generative Reference Model and Deep Learned Features. | |
CN114782860A (zh) | 一种监控视频中暴力行为检测系统及方法 | |
CN115880648B (zh) | 无人机角度下的人群聚集识别方法、系统及其应用 | |
US20230316760A1 (en) | Methods and apparatuses for early warning of climbing behaviors, electronic devices and storage media | |
Salazar-Reque et al. | A CNN-based algorithm for selecting tree-of-interest images acquired by UAV | |
CN115830517B (zh) | 基于视频的考场异常帧提取方法及系统 | |
CN117197695B (zh) | 基于人工智能的无人机云台相机目标识别跟踪方法及系统 | |
CN114792417B (zh) | 模型训练方法、图像识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |