CN112598738A - 一种基于深度学习的人物定位方法 - Google Patents
一种基于深度学习的人物定位方法 Download PDFInfo
- Publication number
- CN112598738A CN112598738A CN202011559123.0A CN202011559123A CN112598738A CN 112598738 A CN112598738 A CN 112598738A CN 202011559123 A CN202011559123 A CN 202011559123A CN 112598738 A CN112598738 A CN 112598738A
- Authority
- CN
- China
- Prior art keywords
- character
- image
- scene
- coordinates
- coordinate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000013135 deep learning Methods 0.000 title claims abstract description 35
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 80
- 230000009466 transformation Effects 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000013136 deep learning model Methods 0.000 claims abstract description 28
- 239000011159 matrix material Substances 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims abstract description 17
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000012544 monitoring process Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008054 signal transmission Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的人物定位方法,包括:获取数据集并通过类别标签对数据集进行筛选处理,训练获得深度学习模型;在待识别场景中配置摄像头,并选择并获取边界点在图像中的像素坐标、在待识别场景中的仿射后的像素坐标和实际坐标;计算坐标转换矩阵和线性关系函数;利用深度学习模型对摄像头采集的图像进行人物检测,获得人物像素坐标;通过坐标转换矩阵得到人物仿射后的像素坐标,根据线性关系函数换算得到人物实际坐标;输出并实时显示人物定位结果,包括人物图像选框和人物实际坐标。采用前述方法,能够精准判断待识别场景中人物的同时,实时显示人物坐标,相较于现有技术运行速度得到显著提升。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于深度学习的人物定位方法。
背景技术
近年来,随着计算机视觉领域的迅速发展和计算机科学技术水平的提高,通过计算机对人物进行检测和定位逐渐进入了大众的视野。无论是对于超市等大型公共场所的整体监控,还是对于工厂工地等生产经营场所内工作人员的活动范围检测,亦或是对于各种场所的安防监控,都有着极大的帮助。因此,有效确定人物的位置在计算机视觉领域具有良好的发展前景。目前,针对目标检测的主流研究很多,也取得了丰硕的成果。但是将目标检测用于实时定位却鲜有人提出。
目前主流的人物定位技术包括电子标签定位技术、图像处理定位技术以及红外线感知技术。电子标签定位技术需要专员佩戴相应的电子标签,然后通过内网传输电子标签信息到服务器上对专员进行实时定位,通过电子标签定位技术进行人物定位的定位较为准确,且实时性好,但是实现该定位技术需要有内网支持,且电子标签造价高,导致技术成本较大。而图像处理定位技术,一般通过首先对录制的监控画面进行逐帧处理,再通过膨胀腐蚀等基础图像处理方法对图像进行处理,最后利用表征分类对判定为人物这一类别的位置进行显示,通过图像处理定位技术进行人物定位的计算速度较快,但是其定位精度往往达不到要求。至于红外感知技术,通过在对象身上附着发射红外线的标签,通过在安放多个红外传感器确定信号源和传感器之间的距离和角度,达到人物定位的目的,通过红外线感知技术进行人物定位的定位方式受环境影响较大,尤其是在有遮挡的情况下信号无法传输,而且信号传输距离也较短。
因此,需要一种人物定位方法,以解决现有的各种人物定位方法中定位设备造价高、定位精度较低、受到环境的影响较大以及信号传输距离较短,导致人物定位效果较差的问题。
发明内容
本发明提供了一种基于深度学习的人物定位方法,以解决现有的各种人物定位方法中定位设备造价高、定位精度较低、受到环境的影响较大以及信号传输距离较短,导致人物定位效果较差的问题。
为了解决上述技术问题,本发明公开了一种基于深度学习的人物定位方法,该方法可以用于定向监控,目标定位,安防工程等应用中,一种基于深度学习的人物定位方法,包括如下步骤:
步骤1,获取数据集,通过类别标签对所述数据集进行筛选处理,使筛选处理后的数据集包含人物类别,利用所述筛选处理后的数据集训练获得深度学习模型;
步骤2,在待识别场景中配置摄像头,并选择所述待识别场景中的边界点,获取所述边界点在图像中的像素坐标、在待识别场景中的仿射后的像素坐标和在识别场景中的实际坐标,所述图像通过摄像头采集,所述边界点为至少三个不在一条直线上的点;
步骤3,根据所述边界点在图像中的像素坐标和在待识别场景中的仿射后的像素坐标计算坐标转换矩阵,根据所述在待识别场景中的仿射后的像素坐标和在待识别场景中的实际坐标计算线性关系函数;
步骤4,利用训练得到的深度学习模型对所述摄像头采集的图像进行人物检测,获得人物像素坐标;
步骤5,通过所述坐标转换矩阵将人物像素坐标换算得到人物仿射后的像素坐标,根据所述线性关系函数将人物仿射后的像素坐标换算得到人物实际坐标;
步骤6,输出并实时显示人物定位结果,所述人物定位结果包括人物图像选框和人物实际坐标。
进一步地,在一种实现方式中,在所述步骤2之前,还包括:
根据所述待识别场景建立二维坐标系,所述二维坐标系的坐标轴为待识别场景中的两条互相垂直的场景边界线。
进一步地,在一种实现方式中,所述步骤3包括:
所述坐标转换矩阵为:
其中,x为边界点在图像中的像素横坐标,y为边界点在图像中的像素纵坐标,则(x,y)为边界点在图像中的像素坐标,xp为边界点在待识别场景中的仿射后的像素横坐标,yp为边界点在待识别场景中的仿射后的像素纵坐标,则(xp,yp)为边界点在待识别场景中的仿射后的像素坐标,所述边界点在图像中的像素坐标与边界点在待识别场景中的仿射后的像素坐标一一对应;
所述线性关系函数为:
其中,(x0,y0)为边界点在待识别场景中的实际坐标,(x1,y1)和(x2,y2)分别为选取用于仿射变换的两点的实际坐标,(xp0,yp0)为边界点仿射变换后的像素坐标,(xp1,yp1)和(xp2,yp2)为选取用于仿射变换的两点仿射变换后的像素坐标;
所述边界点在待识别场景中的仿射后的像素坐标与边界点在待识别场景中的实际坐标一一对应。
进一步地,在一种实现方式中,所述步骤4包括:
步骤4-1,对所述训练得到的深度学习模型设定预设阈值;
步骤4-2,将所述训练得到的深度学习模型预测获得的人物类别出现概率与预设阈值进行比对,获得比对结果;
若选框中的所述人物类别出现概率大于或等于预设阈值,则所述比对结果为所述选框中存在待定位人物,所述选框通过训练得到的深度学习模型在图像中预先拟定;
若所述选框中的人物类别出现概率小于预设阈值,则所述比对结果为选框中不存在待定位人物;
步骤4-3,若所述比对结果为选框中存在待定位人物,则通过所述训练得到的深度学习模型获得人物在图像中的像素坐标,并拟合所述选框后在图像中输出人物图像选框,所述人物在图像中的像素坐标包括左上坐标(x0,y0)和右下坐标(x1,y1)构成的框选区域,所述人物图像选框即存在待定位人物的选框,即由(x0,y0)、(x0,y1)、(x1,y0)和(x1,y1)四个坐标构成的矩形框;
若所述比对结果为选框中不存在待定位人物,则舍弃所述选框。
进一步地,在一种实现方式中,所述步骤5包括:
步骤5-2,根据以下公式,通过所述坐标转换矩阵计算人物落脚点的仿射后的像素坐标,即所述人物仿射后的像素坐标:
步骤5-3,根据以下公式,通过线性关系函数计算人物实际坐标:
进一步地,在一种实现方式中,所述步骤6包括:将所述待定位人物的人物图像选框与人物仿射后的像素坐标(x′,y′)作为定位结果输出,与所述图像实时显示。
进一步地,在一种实现方式中,所述定位结果还包括人物类别出现概率。
有益效果:本发明的显著优点是利用深度学习的精确性以及仿射变换的普适性做到既精准判断人物存在同时运行速度较快能够实时显示人物坐标,并且对于房间内有多个人存在的情况下依然表现良好,适合监控人物以及检测人物活动范围,算法性能优良。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例部分提供的一种基于深度学习的人物定位方法的工作流程示意图;
图2a是本发明实施例部分提供的一种基于深度学习的人物定位方法中第一中间结果示意图;
图2b是本发明实施例部分提供的一种基于深度学习的人物定位方法中第二中间结果示意图;
图3是本发明实施例部分提供的一种基于深度学习的人物定位方法的效果图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明第一实施例公开一种基于深度学习的人物定位方法,本方法应用于在封闭的开阔空间内对人物活动范围判断,以及在监控区域内对人物异常的识别。
如图1所示,本实施例所述的一种基于深度学习的人物定位方法,包括如下步骤:
步骤1,获取数据集,通过类别标签对所述数据集进行筛选处理,使筛选处理后的数据集包含人物类别和其他类别,利用所述筛选处理后的数据集训练获得深度学习模型;本实施例中,通过下载VOC2012、VOC2007等数据集获取数据集。本步骤中,通过类别标签对所述数据集进行筛选处理,使筛选处理后的数据集包含人物类别,所述筛选处理后的数据集在包含人物这一种类别之外还包含其他类别,即包含多种类别,所述多种类别可以按照人物类别和非“人物”的其他类别进行区分,其中人物类别作为正例,其他类别作为反例进行训练,因此相较于仅仅仅包含了“人物”一种类别的数据集,本实施例所述的通过筛选处理后的数据集训练获得深度学习模型的学习效果更好,能在选中待识别人物目标的同时,避免选中非人物目标,进一步提升基于深度学习的室内人物定位的准确性。具体的,本实施例采用mobilenet网络原型,将所述筛选处理后的数据集加以训练获得深度学习模型。
步骤2,在待识别场景中配置摄像头,并选择所述待识别场景中的边界点,获取所述边界点在图像中的像素坐标、在待识别场景中的仿射后的像素坐标和在识别场景中的实际坐标,所述图像通过摄像头采集,所述边界点为至少三个不在一条直线上的点;本实施例中,所述摄像头需要设置于高处,便于摄像头采集包含了位于地面的人物的图像,从而便于通过图像进行人物检测。
步骤3,根据所述边界点在图像中的像素坐标和在待识别场景中的仿射后的像素坐标计算坐标转换矩阵,根据所述在待识别场景中的仿射后的像素坐标和在待识别场景中的实际坐标计算线性关系函数;本实施例中,所述坐标转换矩阵用于根据人物像素坐标换算得到人物仿射后的像素坐标,所述人物像素坐标通过摄像头采集图像获取。
步骤4,利用训练得到的深度学习模型对所述摄像头采集的图像进行人物检测,获得人物像素坐标;
步骤5,通过所述坐标转换矩阵将人物像素坐标换算得到人物仿射后的像素坐标,根据所述线性关系函数将人物仿射后的像素坐标换算得到人物实际坐标;
步骤6,输出并实时显示人物定位结果,所述人物定位结果包括人物图像选框和人物实际坐标。
本实施例所述的一种基于深度学习的人物定位方法,包括步骤1,获取数据集,通过类别标签对所述数据集进行筛选处理,使筛选处理后的数据集包含人物类别和其他类别,利用所述筛选处理后的数据集训练获得深度学习模型;步骤2,在待识别场景中配置摄像头,并选择所述待识别场景中的边界点,获取所述边界点在图像中的像素坐标、在待识别场景中的仿射后的像素坐标和在识别场景中的实际坐标,所述图像通过摄像头采集,所述边界点为至少三个不在一条直线上的点;步骤3,根据所述边界点在图像中的像素坐标和在待识别场景中的仿射后的像素坐标计算坐标转换矩阵,根据所述在待识别场景中的仿射后的像素坐标和在待识别场景中的实际坐标计算线性关系函数;步骤4,利用训练得到的深度学习模型对所述摄像头采集的图像进行人物检测,获得人物像素坐标;步骤5,通过所述坐标转换矩阵将人物像素坐标换算得到人物仿射后的像素坐标,根据所述线性关系函数将人物仿射后的像素坐标换算得到人物实际坐标;步骤6,输出并实时显示人物定位结果,所述人物定位结果包括人物图像选框和人物实际坐标。利用深度学习的精确性以及仿射变换的普适性做到既精准判断人物存在同时运行速度较快能够实时显示人物坐标,并且对于房间内有多个人存在的情况下依然表现良好,适合监控人物以及检测人物活动范围,算法性能优良。
本实施例所述的一种基于深度学习的人物定位方法中,在所述步骤2之前,还包括:
根据所述待识别场景建立二维坐标系,所述二维坐标系的坐标轴为待识别场景中的两条互相垂直的场景边界线。本实施例中,所述场景边界线是人为设定的,可以将两条互相垂直的墙面和地面的交界线设定为待识别场景中的场景边界线,采用墙面和地面的交界线的好处在于:它们自然互相垂直,方便进行后续处理。此外,本实施例还需要同时标定坐标系原点以及坐标系中的单位长度,从而准确输出待识别人物相对于待识别场景的实际位置。具体的,可以将互相垂直的墙面和地面的交界线的交点作为坐标系原点,在此场景下,能够避免坐标为负的情况,从而简化后续处理过程。
本实施例所述的一种基于深度学习的人物定位方法中,所述步骤3包括:
所述坐标转换矩阵为:
其中,x为边界点在图像中的像素横坐标,y为边界点在图像中的像素纵坐标,则(x,y)为边界点在图像中的像素坐标,xp为边界点在待识别场景中的仿射后的像素横坐标,yp为边界点在待识别场景中的仿射后的像素纵坐标,则(xp,yp)为边界点在待识别场景中的仿射后的像素坐标,所述边界点在图像中的像素坐标与边界点在待识别场景中的仿射后的像素坐标一一对应。
本实施例中,由于显示的为人物所在的坐标,因此以地面为坐标系,该环境下为二维建模,因此恒有a13=0,a23=0。故在有6个未知数的情况下只需要三对图像中的像素坐标与对应的仿射后的像素坐标就可以根据仿射变换算出矩阵中其他参数的值,便于本申请后续求得人物的仿射后的像素坐标。
所述线性关系函数为:
其中,(x0,y0)为边界点在待识别场景中的实际坐标,(x1,y1)和(x2,y2)分别为选取用于仿射变换的两点的实际坐标,(xp0,yp0)为边界点仿射变换后的像素坐标,(xp1,yp1)和(xp2,yp2)为选取用于仿射变换的两点仿射变换后的像素坐标;
所述边界点在待识别场景中的仿射后的像素坐标与边界点在待识别场景中的实际坐标一一对应。
此外,本实施例中,若要求得边界点的实际横坐标x0,则不可选取仿射变换后在同一水平线上的两点,因为这样会使得xp2-xp1=0导致无法计算;因此,一般而言我们利用左上角和左下角两点来求出边界点的实际纵坐标y0,用左上角和右上角两点来求出实际横坐标x0,亦或直接选取左上角和右下角对实际横坐标x0和实际纵坐标y0进行计算。
本实施例所述的一种基于深度学习的人物定位方法中,所述步骤4包括:
步骤4-1,对所述训练得到的深度学习模型设定预设阈值;具体的,本实施例中,预设阈值的设定可以根据需要选用不同的取值,一般而言选取0.5-0.75较为合适。如果追求判断精度而允许漏检,则可以将预设阈值设定为0.8-0.9。本实施例中,将预设阈值设定为0.5。
步骤4-2,将所述训练得到的深度学习模型预测获得的人物类别出现概率与预设阈值进行比对,获得比对结果;
若选框中的所述人物类别出现概率大于或等于预设阈值,则所述比对结果为所述选框中存在待定位人物,所述选框通过训练得到的深度学习模型在图像中预先拟定;
若所述选框中的人物类别出现概率小于预设阈值,则所述比对结果为选框中不存在待定位人物;
步骤4-3,若所述比对结果为选框中存在待定位人物,则通过所述训练得到的深度学习模型获得人物在图像中的像素坐标,并拟合所述选框后在图像中输出人物图像选框,所述人物在图像中的像素坐标包括左上坐标(x0,y0)和右下坐标(x1,y1)构成的框选区域,所述人物图像选框即存在待定位人物的选框,即由(x0,y0)、(x0,y1)、(x1,y0)和(x1,y1)四个坐标构成的矩形框;
若所述比对结果为选框中不存在待定位人物,则舍弃所述选框。本步骤中,检测到没有人物之后舍弃所述选框,将不会对原图像进行后续操作,从而减少程序运算时间,进一步提升人物定位的实时性。
本实施例中,所述深度学习模型预测获得的人物类别出现概率即训练过后的网络给出的该物体为人物这一类别的概率。具体的,网络对输入的图片先拟定画出几千个框,这些预测框足以覆盖整个图片,然后通过检测算法检测框中出现人物的概率,最后与预设阈值进行比对,如果概率大于等于预设阈值则拟合存在人物的选框使其更加精确准备最后输出,检测概率和选框拟合通过训练过程中通过反向传播机制而获得。简而言之,本实施例中网络对采集到的图片预先画出可能出现人物类别的选框,而后在选框中进行检测人物类别出现的概率,而后与预设阈值比对,拟合输出。
若所述人物类别在某个框或某些框中出现的概率大于或等于预设阈值,则所述比对结果为图像中存在待定位人物,同时对这些框进行拟合调整使其更加精确;
若所述人物类别在所有框中出现的概率均小于预设阈值,则所述比对结果为图像中不存在待定位人物,对原图像不采取任何更改;本步骤中,检测到没有人物之后舍弃所述选框,将不会对原图像进行后续操作,从而减少程序运算时间,相较于现有技术中的人物定位方法,本实施例所述的人物定位方法进一步提升定位的实时性。
本实施例中,如果预设阈值设定为0.5,模型预测某个框内区域出现所述人物类别的概率为0.4,小于预设阈值,比对结果为所述选框中不存在待定位人物;如果模型预测得出的人物类别出现概率为0.6,大于预设阈值,比对结果为所述选框中存在待定位人物,最终输出的定位结果包括所述选框的拟合结果、通过坐标转换获得的人物仿射后的像素坐标以及通过模型判断的选框中的人物类别出现概率。
本实施例中,通过所述训练得到的深度学习模型有两个功能:一方面是确定图像中是否存在人物,另一方面是当确定图像中存在人物时,对人物进行框选,获得所述人物图像选框。如果深度学习模型通过判断确定图片中有人,就会自动框选出人物所在的区域,即输出所述人物图像选框,不需要人为干涉。
框选之后形成新的图像,所述新的图像中包含原图像的信息和模型勾勒出的人物图像选框,作为本申请最终的输出。除了给出人物图像选框之外,本申请还会根据步骤5和步骤6给出人物相对于整个待识别场景的人物仿射后的像素坐标,即将像素坐标通过坐标转换获得的人物实际坐标进行输出。
本实施例所述的一种基于深度学习的人物定位方法中,所述步骤5包括:
步骤5-2,根据以下公式,通过所述坐标转换矩阵计算人物落脚点的仿射后的像素坐标,即所述人物仿射后的像素坐标:
步骤5-3,根据以下公式,通过线性关系函数计算人物实际坐标:
本实施例所述的一种基于深度学习的人物定位方法中,所述步骤6包括:将所述待定位人物的人物图像选框与人物实际坐标(x′,y′)作为定位结果输出,与所述图像实时显示。本实施例中,因为计算过程较快,因此只需要开启程序和摄像头便能实时输出。启动程序之后将会弹出一个窗口显示当前摄像头拍摄区域,只需要人走动便可以实时显示房间内的情况以及模型的预测结果和实时坐标。
本实施例所述的一种基于深度学习的人物定位方法中,所述定位结果还包括人物类别出现概率。本实施例中,所述定位结果即最终的输出结果,包括:所述人物类别出现概率的数值,预测为人物类别处的人物图像选框,以及该人物落脚点相对于待识别场景的仿射后的像素坐标。
通过本实施例所公开的一种基于深度学习的人物定位方法,能够克服现有人物定位不同方法的各自弱点,以及将现有的目标检测算法与仿射矩阵相结合,采用深度学习模型对整个环境进行检测提取人物类别,提升人物定位的精度同时优化运行速度使其能够实时显示。
实施例
为了进行系统运行前的预处理,本发明需要在此之前进行系统算法模型的训练,其中训练集是本申请人为处理的图片集合,可以是RGB图片,其中包含多种类别的标签,但是只有标签为人物这一类别为正例,其它类别均为反例。
图像训练集的获取,本发明采用将能够保存图像的摄像头在不同场景下拍摄的图像保存,然后进行人工标定,再结合标准VOC2012数据集进行最终筛选和标签修改,最终图像数据集包含约6000张原始图像。
在获得上述的图像训练集之后,按照以下步骤进行系统的模型训练以及评估过程:
1、基于RGB图像的模型训练以及环境配置:
1.1通过得到的训练数据利用深度学习训练模型,具体的,本申请实施例采用mobilenet网络原型,将其加以训练。
1.2配置摄像头,尽量将摄像头设置在房间高处。同时标定其实坐标以及单位长度,便于后续求得实时坐标显示。
1.3利用摄像头下的图片以及事先确定的起始坐标与单位距离计算坐标转换矩阵,这一过程如图2a和图2b所示,具体如下:
假定边界点在图像中的像素坐标为(x,y),对应的,所述边界点在待识别场景中的仿射后的像素坐标为(xp,yp),那么有:
由于本申请显示的为待识别人物所在的坐标,因此以地面为坐标系,该环境下为二维建模,因此恒有a13=0,a23=0。故在有6个未知数的情况下只需要三对图像坐标与对应的仿射后的像素坐标就可以根据仿射变换算出矩阵中其他参数的值,便于本申请后续求得真实坐标。
如图2a所示,为配置过后的待识别场景图。以地面左侧墙地交线为y轴,前侧墙地交线为x轴。本申请可以看出左侧x轴与y轴并非正交,这是摄像头角度所决定的。而经过仿射变换后的场景图如图2b所示,此时可以看出x轴与y轴基本正交,达到了本申请预期的效果。
1.4对训练好的模型进行预设阈值设定,超过一定预设阈值判断该处有人则进行框选与显示。
2、测试:
2.1判断摄像头下是否有人存在,若人物类别出现概率超过所述预设阈值,则得到人物在图像中的像素坐标,包括左上坐标(x0,y0)和右下坐标(x1,y1);
2.3计算人物脚所对应的人物仿射后的像素坐标
其中各参数已在先前步骤中求得。
2.4将所判断的超过设定预设阈值的人物图像选框与人物实际坐标(x′,y′)同时输出,实时显示。
基于上述的训练以及测试步骤,本申请最终得到了一个可以进行实时定位人物坐标的系统,使用这种基于深度学习的方法进行人物检测可以得到95%以上的准确率。同时结合仿射变换的方法输出精确的坐标,利用数据处理优化了网络最后需要进行softmax等操作使得其可以基本达到实时性的要求。所以本发明用于人物定位具有检测准确率高、输出坐标精确、鲁棒性好等优点。
如图3所示,取待识别场景中的边界点,所述边界点至少为三个不在一条直线上的点,本实施例中选取了4个边界点,分别为待识别场景中的房间左上角、房间左下角、房间右下角和房间右上角,4个边界点仿射变换前实际的像素坐标分别为A0(351,256),B0(800,239),C0(934,845),D0(20,845);设定的仿射变换后的像素坐标分别为A(200,0),B(1100,0),C(1100,1000),D(200,1000)。所述仿射变换后的像素坐标的需要根据待识别场景进行设定,需要使得仿射变换后的像素坐标尽可能覆盖待识别场景的最大区域。本实施例中,其设定规则是使得4个仿射变换后的像素坐标尽可能覆盖房间的最大区域,保证AB所在直线与CD所在直线平行,BC所在直线与AD所在直线平行,且AB所在直线与BC所在直线互相垂直,BC所在直线与CD所在直线互相垂直。
本实施例中,房间左上角的实际坐标设定为原点A’(0,0),房间左下角的实际坐标设定为B’(0,20),房间右下角的实际坐标设定为C’(15,20),房间右上角的实际坐标设定为D’(15,0)。具体实施中,实际坐标可根据不同需求,可根据房间自身的长宽比和规定的单位长度等等进行设定。
仿射变换后的像素坐标与实际坐标之间可由简单的线性函数计算而得,假设人物所在室内的仿射后的像素坐标为(x,y),这里需要注意到像素坐标与我们所设定实际坐标的相交轴相互颠倒,因此根据线性关系可求得实际坐标为:化简后得:
在训练模型期间本申请调整用于识别的预设阈值为0.5,也就是说当模型有至少0.5的把握认为选框中存在待识别人物的时候才会输出。该定位系统框选出了通过模型判别的人物选框,人物选框附近给出了人物类别出现概率以及当前识别的人物实际坐标,在图3中所述人物类别出现概率以字符person后的数字示出,所述人物实际坐标记作local(x,y)。从图3中可以看出,人物类别出现概率较高之处的人物选框对待识别场景中待定位人物的框选正确,相对于本申请初始设定的边界点的实际坐标而言人物实际坐标也比较中肯。
与现有技术中的几种人物定位方法相比,本发明提出的基于深度学习的人物定位方法与电子标签定位技术相比有无需联网同时不需要专员佩戴标签的优势,普适性得以有很大的提升,相应的关于定位及检测方面也不落下风。与图像处理定位技术相比,由于深度学习网络的存在,无论是检测精度还是定位精度都得以大大提高,而运行速度进一步提升,能够达到实时显示的效果。同时,基于深度学习的人物定位方法能够轻而易举地处理复杂环境,无论是人物有部分遮挡或是房间内有多个人物都能准确框选出所有人以及对应的位置坐标,这点是基于红外线定位很难做到的,同时基于深度学习的人物定位系统也不需要配置红外传感器,这点也优于后者。
对于房间内复杂情况而言,比如房间内有些遮挡或是受到信号干扰,现有技术中的的人物定位方案并不适用。对于这些情况,现有技术中的方法的接收器或传感器难以接受到发射器发射的信号或电波,图像单独处理起来也比较复杂,难以进行检测人物以及判断坐标,现有技术中的方法难以用于这种场景。
综上所述,本发明的显著优点是利用深度学习的精确性以及仿射变换的普适性做到既精准判断人物存在同时运行速度较快能够实时显示人物坐标,并且对于房间内有多个人存在的情况下依然表现良好,适合监控人物以及检测人物活动范围,算法性能优良。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的一种基于深度学习的人物定位方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-onlymemory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。
Claims (7)
1.一种基于深度学习的人物定位方法,其特征在于,包括如下步骤:
步骤1,获取数据集,通过类别标签对所述数据集进行筛选处理,使筛选处理后的数据集包含人物类别和其他类别,利用所述筛选处理后的数据集训练获得深度学习模型;
步骤2,在待识别场景中配置摄像头,并选择所述待识别场景中的边界点,获取所述边界点在图像中的像素坐标、在待识别场景中的仿射后的像素坐标和在识别场景中的实际坐标,所述图像通过摄像头采集,所述边界点为至少三个不在一条直线上的点;
步骤3,根据所述边界点在图像中的像素坐标和在待识别场景中的仿射后的像素坐标计算坐标转换矩阵,根据所述在待识别场景中的仿射后的像素坐标和在待识别场景中的实际坐标计算线性关系函数;
步骤4,利用训练得到的深度学习模型对所述摄像头采集的图像进行人物检测,获得人物像素坐标;
步骤5,通过所述坐标转换矩阵将人物像素坐标换算得到人物仿射后的像素坐标,根据所述线性关系函数将人物仿射后的像素坐标换算得到人物实际坐标;
步骤6,输出并实时显示人物定位结果,所述人物定位结果包括人物图像选框和人物实际坐标。
2.根据权利要求1所述的一种基于深度学习的人物定位方法,其特征在于,在所述步骤2之前,还包括:
根据所述待识别场景建立二维坐标系,所述二维坐标系的坐标轴为待识别场景中的两条互相垂直的场景边界线。
3.根据权利要求1所述的一种基于深度学习的人物定位方法,其特征在于,所述步骤3包括:
所述坐标转换矩阵为:
其中,x为边界点在图像中的像素横坐标,y为边界点在图像中的像素纵坐标,则(x,y)为边界点在图像中的像素坐标,xp为边界点在待识别场景中的仿射后的像素横坐标,yp为边界点在待识别场景中的仿射后的像素纵坐标,则(xp,yp)为边界点在待识别场景中的仿射后的像素坐标,所述边界点在图像中的像素坐标与边界点在待识别场景中的仿射后的像素坐标一一对应;
所述线性关系函数为:
其中,(x0,y0)为边界点在待识别场景中的实际坐标,(x1,y1)和(x2,y2)分别为选取用于仿射变换的两点的实际坐标,(xp0,yp0)为边界点仿射变换后的像素坐标,(xp1,yp1)和(xp2,yp2)为选取用于仿射变换的两点仿射变换后的像素坐标;
所述边界点在待识别场景中的仿射后的像素坐标与边界点在待识别场景中的实际坐标一一对应。
4.根据权利要求1所述的一种基于深度学习的人物定位方法,其特征在于,所述步骤4包括:
步骤4-1,对所述训练得到的深度学习模型设定预设阈值;
步骤4-2,将所述训练得到的深度学习模型预测获得的人物类别出现概率与预设阈值进行比对,获得比对结果;
若选框中的所述人物类别出现概率大于或等于预设阈值,则所述比对结果为所述选框中存在待定位人物,所述选框通过训练得到的深度学习模型在图像中预先拟定;
若所述选框中的人物类别出现概率小于预设阈值,则所述比对结果为选框中不存在待定位人物;
步骤4-3,若所述比对结果为选框中存在待定位人物,则通过所述训练得到的深度学习模型获得人物在图像中的像素坐标,并拟合所述选框后在图像中输出人物图像选框,所述人物在图像中的像素坐标包括左上坐标(x0,y0)和右下坐标(x1,y1)构成的框选区域,所述人物图像选框即存在待定位人物的选框,即由(x0,y0)、(x0,y1)、(x1,y0)和(x1,y1)四个坐标构成的矩形框;
若所述比对结果为选框中不存在待定位人物,则舍弃所述选框。
6.根据权利要求5所述的一种基于深度学习的人物定位方法,其特征在于,所述步骤6包括:将所述待定位人物的人物图像选框与人物实际坐标(x′,y′)作为定位结果输出,与所述图像实时显示。
7.根据权利要求1所述的一种基于深度学习的人物定位方法,其特征在于,所述定位结果还包括人物类别出现概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011559123.0A CN112598738B (zh) | 2020-12-25 | 2020-12-25 | 一种基于深度学习的人物定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011559123.0A CN112598738B (zh) | 2020-12-25 | 2020-12-25 | 一种基于深度学习的人物定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112598738A true CN112598738A (zh) | 2021-04-02 |
CN112598738B CN112598738B (zh) | 2024-03-19 |
Family
ID=75202008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011559123.0A Active CN112598738B (zh) | 2020-12-25 | 2020-12-25 | 一种基于深度学习的人物定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112598738B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023070870A1 (zh) * | 2021-10-28 | 2023-05-04 | 歌尔股份有限公司 | 标识定位方法、装置、电子设备及计算机可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993021A (zh) * | 2017-12-29 | 2019-07-09 | 浙江宇视科技有限公司 | 人脸正脸检测方法、装置及电子设备 |
CN110020650A (zh) * | 2019-03-26 | 2019-07-16 | 武汉大学 | 一种针对倾斜车牌的深度学习识别模型的构建方法、识别方法及装置 |
CN111027522A (zh) * | 2019-12-30 | 2020-04-17 | 华通科技有限公司 | 基于深度学习的探鸟定位系统 |
CN111339903A (zh) * | 2020-02-21 | 2020-06-26 | 河北工业大学 | 一种多人人体姿态估计方法 |
CN111553252A (zh) * | 2020-04-24 | 2020-08-18 | 福建农林大学 | 一种基于深度学习及u-v视差算法的道路行人自动识别定位方法 |
US20200302187A1 (en) * | 2015-07-17 | 2020-09-24 | Origin Wireless, Inc. | Method, apparatus, and system for people counting and recognition based on rhythmic motion monitoring |
CN111738164A (zh) * | 2020-06-24 | 2020-10-02 | 广西计算中心有限责任公司 | 一种基于深度学习的行人检测方法 |
CN111754552A (zh) * | 2020-06-29 | 2020-10-09 | 华东师范大学 | 一种基于深度学习的多摄像头协同目标跟踪方法 |
-
2020
- 2020-12-25 CN CN202011559123.0A patent/CN112598738B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200302187A1 (en) * | 2015-07-17 | 2020-09-24 | Origin Wireless, Inc. | Method, apparatus, and system for people counting and recognition based on rhythmic motion monitoring |
CN109993021A (zh) * | 2017-12-29 | 2019-07-09 | 浙江宇视科技有限公司 | 人脸正脸检测方法、装置及电子设备 |
CN110020650A (zh) * | 2019-03-26 | 2019-07-16 | 武汉大学 | 一种针对倾斜车牌的深度学习识别模型的构建方法、识别方法及装置 |
CN111027522A (zh) * | 2019-12-30 | 2020-04-17 | 华通科技有限公司 | 基于深度学习的探鸟定位系统 |
CN111339903A (zh) * | 2020-02-21 | 2020-06-26 | 河北工业大学 | 一种多人人体姿态估计方法 |
CN111553252A (zh) * | 2020-04-24 | 2020-08-18 | 福建农林大学 | 一种基于深度学习及u-v视差算法的道路行人自动识别定位方法 |
CN111738164A (zh) * | 2020-06-24 | 2020-10-02 | 广西计算中心有限责任公司 | 一种基于深度学习的行人检测方法 |
CN111754552A (zh) * | 2020-06-29 | 2020-10-09 | 华东师范大学 | 一种基于深度学习的多摄像头协同目标跟踪方法 |
Non-Patent Citations (6)
Title |
---|
NIRATTAYA KHAMSEMANAN ET.AL: "Human Identification From Freestyle Walks Using Posture-Based Gait Feature", 《 IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY 》, vol. 13, no. 01, 10 August 2017 (2017-08-10), pages 119 - 128 * |
ZIHAO GUO ET.AL: "Thyroid Nodule Ultrasonic Imaging Segmentation Based on a Deep Learning Model and Data Augmentation", 《2020 IEEE 4TH INFORMATION TECHNOLOGY, NETWORKING, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (ITNEC)》, 14 June 2020 (2020-06-14) * |
彭秋辰等: "基于Mask R-CNN的物体识别和定位", 《清华大学学报(自然科学版)》, vol. 59, no. 02, 28 February 2019 (2019-02-28) * |
董学文: "单类别实时目标检测算法与系统研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, no. 05, 15 May 2022 (2022-05-15), pages 5 * |
赵文硕: "基于深度学习的行人再识别技术研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》, no. 12, 15 December 2020 (2020-12-15) * |
黄小赛: "利用深度卷积神经网络的遥感影像建筑物识别和轮廓规范化", 《中国优秀硕士学位论文全文数据库(电子期刊)》, no. 05, 15 May 2020 (2020-05-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023070870A1 (zh) * | 2021-10-28 | 2023-05-04 | 歌尔股份有限公司 | 标识定位方法、装置、电子设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112598738B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563442B (zh) | 基于激光雷达的点云和相机图像数据融合的slam方法及系统 | |
EP3349050A1 (en) | Inspection devices and methods for detecting a firearm | |
CN108898047B (zh) | 基于分块遮挡感知的行人检测方法及系统 | |
CN105279772B (zh) | 一种红外序列图像的可跟踪性判别方法 | |
CN101167086A (zh) | 用于安全应用的人体检测和跟踪 | |
CN111161214B (zh) | 一种基于双目视觉的猪只体重测量及饮水行为识别系统及方法 | |
CN106022266A (zh) | 一种目标跟踪方法及装置 | |
CN114399882A (zh) | 一种用于消防机器人的火源探测识别并预警方法 | |
WO2024060978A1 (zh) | 关键点检测模型训练及虚拟角色驱动的方法和装置 | |
CN116259002A (zh) | 一种基于视频的人体危险行为分析方法 | |
CN114972421A (zh) | 车间物料识别追踪与定位方法、系统 | |
CN116128883A (zh) | 一种光伏板数量统计方法、装置、电子设备及存储介质 | |
CN112598738A (zh) | 一种基于深度学习的人物定位方法 | |
CN107767366B (zh) | 一种输电线路拟合方法及装置 | |
CN114170686A (zh) | 一种基于人体关键点的屈肘行为检测方法 | |
CN108388854A (zh) | 一种基于改进fast-surf算法的定位方法 | |
CN110287957B (zh) | 一种低慢小目标的定位方法及定位装置 | |
CN112183287A (zh) | 一种移动机器人在复杂背景下的人数统计方法 | |
KR100543706B1 (ko) | 비젼기반 사람 검출방법 및 장치 | |
JP6893812B2 (ja) | 物体検出装置 | |
CN112541403B (zh) | 一种利用红外摄像头的室内人员跌倒检测方法 | |
CN112347904B (zh) | 基于双目深度和图片结构的活体检测方法、装置及介质 | |
CN104182990B (zh) | 一种实时序列图像运动目标区域获取方法 | |
JPWO2020175085A1 (ja) | 画像処理装置、及び画像処理方法 | |
Chen et al. | An integrated sensor network method for safety management of construction workers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |