CN111275010A - 一种基于计算机视觉的行人重识别方法 - Google Patents
一种基于计算机视觉的行人重识别方法 Download PDFInfo
- Publication number
- CN111275010A CN111275010A CN202010114631.1A CN202010114631A CN111275010A CN 111275010 A CN111275010 A CN 111275010A CN 202010114631 A CN202010114631 A CN 202010114631A CN 111275010 A CN111275010 A CN 111275010A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- image
- target
- identification
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于计算机视觉的行人重识别方法。解决了在复杂环境下行人重识别问题。其实现步骤为采集行人数据集并进行人工标注,对标注的图像集真实框进行聚类获得训练的先验框,构建端到端的可同时预测目标位置、大小和类别的卷积神经网络,训练该神经网络获得权重,加载权重到网络,输入行人图像进行重识别,非极大值抑制方法处理获得的位置坐标及所属类别信息,获得最终的识别结果图像,实时记录识别信息获得行人解译结果。本发明克服了现有技术中行人重识别中行人检测和身份识别分步进行的缺陷,极大的简化了行人重识别的过程,提高了识别的准确度和速度,增强了识别系统的鲁棒性,并且实现了对行人解译的功能。
Description
技术领域
本发明属于图像处理技术领域,更进一步涉及图像的目标识别技术,具体是一种基于计算机视觉的行人重识别方法。
背景技术
近年来,随着计算机视觉和机器学习等相关学科的发展,视频监控技术(videosurveillance)正逐渐从以“人为中心”向以“计算机为中心”转变。以计算机作为视频图像信息处理平台的智能视频监控系统为决策者提供了更为直观、快速、准确的决策支持,其中包括人脸识别、行人识别以及行人重识别等。其中日常生活中的监控视频作为自然直观的信息载体,拥有着巨大的挖掘价值和很好的应用前景:利用行人照片识别行人的身份;用作行人重识别,解决行人活动轨迹追踪问题。因此,行人重识别有着很重要的研究价值和意义。
行人重识别主要集中在两个方面,一种是基于静态图像的行人重识别,另一种是基于视频的行人重识别。由于基于视频的行人重识别能够使操作者以更加自然的方式进行人机交互,且信息量更大,所以得到了越来越多的研究和关注。目前多数行人重识别都是基于对图像中的行人进行检测及识别,采用先检测行人目标,再确定行人身份的两步识别方法。
行人重识别是图像检索的应用。P.Jain等人发表的论文“Fast Image Search forLearned Metrics”(IN CVPR,IEEE,2008)中提出了一种基于行人检测和相似性度量的方法。该方法首先利用检测器提取出行人区域,然后分割出行人图像,再利用度量学习对行人目标进行分类。但是,该方法对成像环境要求严格,只有在单一的环境和规范的姿势下才能分割出行人位置。另外,此方法识别的行人形状单一,鲁棒性差。
R.Zhao发表的论文“Unsupervised Salience Learning for Person Re-identication”(In CVPR,IEEE,2013)中提出了一种基于局部区域的网格和KNN识别显著性的算法。该方法利用滤波等基本图像处理方法得到稠密颜色直方图和SIFT特征,然后将KNN距离进行行人重识别,以提高准确度。但是,该方法需要对图像进行预处理,对环境颜色要求高,而且行人的检测和识别分两步进行,即先得到行人的位置,再对当前行人进行分类得到状态,识别步骤繁琐且耗时。
发明内容
本发明的目的在于针对已有行人重识别技术的不足,提出一种准确率更高、效率更高的基于计算机视觉的行人重识别方法。
为解决上述技术问题,本发明的一种基于计算机视觉的行人重识别方法,包括有如下步骤:
S1:采集行人图像:将采集的行人图像划分为训练集和测试集,分别对其中的行人进行人工标注,得到真实数据框的类别和坐标数据;
S2:聚类获得先验框:对人工标注的真实数据框聚类,以框的面积的重叠程度作为损失度量,得到几个初试先验框;
S3:构建端到端的可同时预测目标行人的位置、大小及类别的卷积神经网络:以改进的ResNet网络作为网络框架,以同时约束目标位置、类别的损失函数构建端到端的卷积神经网络;
S4:训练端到端卷积神经网络:为了增强卷积神经网络对图像尺寸的鲁棒性,批量读入行人图像后,对读入的行人图像进行数据扩充,对扩充的行人图像进行两次缩放;第一次是从扩充的行人图像随机缩放到任意尺寸,第二次是从缩放后的任意尺寸图像再次缩放到指定尺寸,最后将缩放到指定尺寸的行人图像输入卷积神经网络中进行训练,得到训练权重;
S5:加载权重:将步骤S4得到的网络权重加载到步骤S3构建的卷积神经网络中;
S6:预测行人的位置和类别:读入待识别的行人图像,输入到加载好权重的网络中进行识别,同时获得行人目标识别的位置坐标及所属类别信息;
S7:去除冗余预测框:采用非极大值抑制方法处理获得的位置坐标及所属类别信息,获得最终的预测框;
S8:预测结果的可视化:将预测框数据映射到原图中,在原图中画出预测框并且标出行人目标所属类别标签;
S9:记录和分析:实时记录待测试行人有关的行人图像,分析所得的实时数据,对行人进行解译,将解译结果直接显示在屏幕。
进一步的,所述步骤S2具体包括如下步骤:
S2-1:读取行人图像训练集和测试集样本的真实框数据;
S2-2:采用k-means聚类算法,按照下式的损失度量d进行聚类,获得先验框:d=1-IoU。其中,IoU是交并比,表示目标检测中产生的候选框与原标记框的交叠率,即它们的交集与并集的比值。进一步的,所述步骤S3具体包括如下步骤:
S3-1:以ResNet卷积神经网络为基础,使用简单的1*1和3*3卷积核,构建包含G个卷积层和5个池化层的卷积神经网络;
S3-2:按照下式的损失函数训练构建的卷积网络:
其中,损失函数的第一项为预测目标框的中心点坐标损失,其中λcoord为坐标损失系数,1≤λcoord≤5;S2表示图片划分网格的个数,B表示每个网格预测框的个数;表示有目标时,第i个网格中的第j个预测框是否负责这个目标的预测;(xi,yi)表示目标真实框中心点坐标,表示预测框中心点坐标。函数第二项为预测框宽高损失,(wi,hi)表示真实框的宽高,表示预测框的宽高。函数第三项和第四项是预测框中包含目标的概率损失,其中λnoobj表示不包含目标时的损失系数,0.1≤λnoobj≤1,以保证卷积神经网络能够区分目标和背景块;表示不含有目标时,第i个网格中的第j个预测框是否负责这个目标的预测;Ci表示包含目标的真实概率,表示预测包含目标的概率。函数第五项是预测类别概率损失,表示第i个网格含有目标中心点;pi(c)表示真实目标类别,表示预测的目标类别;c表示类别数。
进一步的,所述坐标损失系数λcoord取值为3;所述不包含目标时的损失系数λnoobj取值为1。
进一步的,所述步骤S4具体包括如下步骤:
S4-1:批量读入训练集样本的行人图像;
S4-2:分别采用的水平翻转、垂直翻转、旋转、平移等方法对图像进行扩充,得到扩充后的读入的行人图像;
S4-3:采用双线性插值方法对扩充图像进行随机缩放,尺寸大小选择为64的倍数,得到缩放后的读入的行人图像;
S4-4:采用双线性插值的方法对步骤S4-3得到的缩放后的行人图像再次进行尺寸缩放,缩放至固定大小,得到能输入到卷积网络中的图像;
S4-5:采用步骤S4-4得到的固定大小图像对步骤S3构建的卷积神经网络进行训练,得到卷积神经网络对应的权重。
进一步的,所述步骤S7具体包括如下步骤:
S7-1:将所有框的得分降序排列,选中最高分及其对应的框;
S7-2:从未处理的框中继续选一个得分最高的,重复步骤S7-1,得到保留下来的预测框数据。
本发明采用以上技术方案,具有以下有益效果:
1、本发明使用卷积神经网络对行人进行识别,图像中行人目标的位置检测与身份识别一步完成,步骤简洁,识别速度快,克服了现有技术中两步分开处理,先检测行人位置,再识别行人身份时无法保证实时性的缺陷。同时网络能很好地提取行人图像的特征,在任何角度对行人的识别都有很高的准确率,且对成像的环境没有要求,即使是在复杂的环境下也能准确识别出行人,克服了现有技术中成像环境要求单一的缺陷;
2、本发明使用MTMC17行人训练集样本的行人图像预训练构建的卷积神经网络,获得网络模型的初始权重,并将预训练权重加载到构建的卷积神经网络中,然后读入行人图像再次训练卷积神经网络,微调网络的权重,这种迁移学习机制有利于提高网络的鲁棒性;
3、本发明在训练卷积神经网络时采用随机缩放行人图像尺寸的方法,每迭代几次都会改变行人图像的尺寸输入到卷积神经网络中。算法采用每30个批次,网络就会随机地选择一个新的图片尺寸,让网络在不同的输入尺寸上都能达到一个很好的预测效果,同一网络能在不同分辨率上进行检测。从而使得相同的网络可以预测不同分辨率的检测,鲁棒性和泛化性更强。
附图说明
下面结合附图与具体实施方式对本发明做进一步详细的说明:
图1是本发明的流程图;
图2是本发明在仿真实验中使用的自然场景行人图;
图3是在仿真实验中得到的行人目标检测结果图;
图4是本发明对行人的识别结果图,其中是行人视频中身份为“0342”的查询行人图像在不同摄像机下该过程检测识别结果的某一帧。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述。
一种基于计算机视觉的行人重识别方法,包括有如下步骤:
S1:采集行人图像:将采集的行人图像划分为训练集和测试集,分别对其中的行人进行人工标注,得到真实数据框的类别和坐标数据;
S2:聚类获得先验框:对人工标注的真实数据框聚类,以框的面积的重叠程度作为损失度量,得到几个初试先验框;
S3:构建端到端的可同时预测目标行人的位置、大小及类别的卷积神经网络:以改进的ResNet网络作为网络框架,以同时约束目标位置、类别的损失函数构建端到端的卷积神经网络;
S4:训练端到端卷积神经网络:为了增强卷积神经网络对图像尺寸的鲁棒性,批量读入行人图像后,对读入的行人图像进行数据扩充,对扩充的行人图像进行两次缩放;第一次是从扩充的行人图像随机缩放到任意尺寸,第二次是从缩放后的任意尺寸图像再次缩放到指定尺寸,最后将缩放到指定尺寸的行人图像输入卷积神经网络中进行训练,得到训练权重;
S5:加载权重:将步骤S4得到的网络权重加载到步骤S3构建的卷积神经网络中;
S6:预测行人的位置和类别:读入待识别的行人图像,输入到加载好权重的网络中进行识别,同时获得行人目标识别的位置坐标及所属类别信息;
S7:去除冗余预测框:采用非极大值抑制方法处理获得的位置坐标及所属类别信息,获得最终的预测框;
S8:预测结果的可视化:将预测框数据映射到原图中,在原图中画出预测框并且标出行人目标所属类别标签;
S9:记录和分析:实时记录待测试行人有关的行人图像,分析所得的实时数据,对行人进行解译,将解译结果直接显示在屏幕。
进一步的,所述步骤S2具体包括如下步骤:
S2-1:读取行人图像训练集和测试集样本的真实框数据;
S2-2:采用k-means聚类算法,按照下式的损失度量d进行聚类,获得先验框:d=1-IoU。其中,IoU(Intersection-over-Union)是交并比,表示目标检测中产生的候选框与原标记框的交叠率,即它们的交集与并集的比值。
进一步的,所述步骤S3具体包括如下步骤:
S3-1:以ResNet卷积神经网络为基础,使用简单的1*1和3*3卷积核,构建包含G个卷积层和5个池化层的卷积神经网络;
S3-2:按照下式的损失函数训练构建的卷积网络:
其中,损失函数的第一项为预测目标框的中心点坐标损失,其中λcoord为坐标损失系数,1≤λcoord≤5;S2表示图片划分网格的个数,B表示每个网格预测框的个数;表示有目标时,第i个网格中的第j个预测框是否负责这个目标的预测;(xi,yi)表示目标真实框中心点坐标,表示预测框中心点坐标。函数第二项为预测框宽高损失,(wi,hi)表示真实框的宽高,表示预测框的宽高。函数第三项和第四项是预测框中包含目标的概率损失,其中λnoobj表示不包含目标时的损失系数,0.1≤λnoobj≤1,以保证卷积神经网络能够区分目标和背景块;表示不含有目标时,第i个网格中的第j个预测框是否负责这个目标的预测;Ci表示包含目标的真实概率,表示预测包含目标的概率。函数第五项是预测类别概率损失,示第i个网格含有目标中心点;pi(c)表示真实目标类别,表示预测的目标类别;c表示类别数。
进一步的,所述坐标损失系数λcoord取值为3;所述不包含目标时的损失系数λnoobj取值为1。
进一步的,所述步骤S4具体包括如下步骤:
S4-1:批量读入训练集样本的行人图像;
S4-2:分别采用的水平翻转、垂直翻转、旋转、平移等方法对图像进行扩充,得到扩充后的读入的行人图像;
S4-3:采用双线性插值方法对扩充图像进行随机缩放,尺寸大小选择为64的倍数,得到缩放后的读入的行人图像;
S4-4:采用双线性插值的方法对步骤S4-3得到的缩放后的行人图像再次进行尺寸缩放,缩放至固定大小,得到能输入到卷积网络中的图像;
S4-5:采用步骤S4-4得到的固定大小图像对步骤S3构建的卷积神经网络进行训练,得到卷积神经网络对应的权重。
进一步的,所述步骤S7具体包括如下步骤:
S7-1:将所有框的得分降序排列,选中最高分及其对应的框;
S7-2:从未处理的框中继续选一个得分最高的,重复步骤S7-1,得到保留下来的预测框数据。
实施例1
行人重识别作为智能视频监控的关键技术,拥有着很好的应用前景:利用行人照片识别行人的身份;用作行人重识别,解决行人活动轨迹追踪问题等。目前针对基于视觉的行人识别技术大致都采用传统方法,即先检测出行人目标,再对行人进行分类,这种方式对图像质量要求高,且难以处理在复杂环境下的行人。因此限制了行人重识别应用的发展。本发明针对上述现状,展开了研究与创新,提出一种基于计算机视觉的行人重识别方法,参见图1,包括有如下步骤:
(1)采集行人图像:将采集的行人图像划分为训练集和测试集,训练集用于训练卷积神经网络、测试集用于计算该网络识别的准确率。标记采集到的行人图像上的行人,得到最贴近行人的矩形框大小和中心点坐标,以及对应行人的类别。实现对其中的行人进行人工标注,得到真实数据框的类别和坐标数据。
(2)聚类获得先验框:选取聚类中心数目,对人工标注的真实数据框聚类,按框的面积的重叠程度作为损失度量进行聚类,得到几个初试先验框。在本例中设置聚类中心数设为12,经过以重叠程度作为损失度量的聚类后,得到的12个初试先验框,以此12个初试先验框作为卷积神经网络的初试预测框,能够缩短卷积神经网络的收敛时间。通常,聚类中心数的大小取决于图片中目标数目的密集程度,及图片中目标数目越多,设置的聚类的中心数越多。
(3)构建端到端的可同时预测目标行人的位置、大小及类别的卷积神经网络:以改进的ResNet网络作为网络框架,配合同时约束目标位置、大小、类别的损失函数构建端到端的卷积神经网络。设计一个能够同时约束目标位置和类别的端到端的卷积神经网络,该网络能够同时预测目标行人的位置、大小和类别。本发明构建的卷积神经网络利用了同时约束目标位置、大小及其类别的损失函数,使得该网络具备同时预测目标位置、大小及类别的功能。该网络计算量小,且易于收敛,在MTMC17数据集上能对3059个目标分类。
(4)训练端到端卷积神经网络:为了增强卷积神经网络的泛化能力,先批量读入MTMC17行人图像,对卷积神经网络进行预训练,得到预训练权重,然后再读入行人图像对已经训练的卷积神经网络进行微调,以适应行人图像的检测与识别。为了增强卷积神经网络对图像尺寸的鲁棒性,批量读入行人图像后,对读入的行人图像进行两次缩放;第一次是从原始输入的行人图像随机缩放到任意尺寸,第二次是从缩放后的任意尺寸图像再次缩放到指定尺寸,最后将缩放到指定尺寸的行人图像输入卷积神经网络中进行训练,得到训练权重,具体包括如下步骤:
(4a)批量读入MTMC17行人训练集样本的行人图像,步骤(3)构建的卷积神经网络进行训练,得到构建的卷积神经网络对应的权重;
(4b)批量读入训练集样本的行人图像;
(4c)采用双线性插值方法对图像进行随机缩放,尺寸大小选择为64的倍数,得到缩放后的读入的行人图像;这样做是为了增加数据的尺度多样性,增强网络的鲁棒性,进而提高识别准确率。
(4d)采用双线性插值的方法对输入图像进行尺寸缩放,缩放至固定大小,得到能输入到卷积网络中的图像;在本例中,固定大小的尺寸是256*128。图像缩放至固定大小与卷积神经网络的结构有关。
(4e)将步骤(4a)得到的卷积神经网络对应的权重加载到步骤(3)构建的卷积神经网络中;
(4f)采用步骤(4d)得到的固定大小图像输入到加载好权重的卷积神经网络中进行训练,微调网络权重;
(5)加载权重:将步骤(4f)得到的网络权重加载到步骤(3)构建的卷积神经网络中;此权重即为预测时所需的网络参数。
(6)预测行人的位置和类别:读入待识别的行人图像,网络先将输入的行人图像缩放至4(d)中的尺寸,再输入到加载好权重的网络中进行识别,同时获得行人目标识别的位置坐标、大小及所属类别信息。
(7)去除冗余预测框:采用非极大值抑制方法处理获得行人图像中行人的位置坐标及所属类别信息,获得最终的预测框。同一目标的预测结果可能得到多个识别框,用非极大抑制算法去除冗余的识别框,保留置信度最大的一个识别框的数据,具体操作如下:
(7a)将所有框的置信度得分降序排列,选中置信度最高分对应的框;
(7b)遍历其余的框,如果和当前置信度得分最高的框的重叠面积IOU大于一定阈值,就将框删除;
(7c)从未处理的框中继续选一个得分最高的,重复上述过程,即执行(7a)到(7c),得到保留下来的预测框数据;预测框的数据包括框的位置、大小、类别。
(8)预测结果的可视化:预测识别框的坐标数据及大小是相对4(d)尺寸下的,也就是缩放的固定尺寸,将固定尺寸下的预测框数据映射到原图尺寸中,原图尺寸即待识别的行人图像尺寸,在原图中画出预测框并标出行人目标所属类别标签。
(9)记录和分析:本发明对单张照片的识别仅需0.02秒,可达实时行人识别的要求。通过opencv调用摄像头,用该训练好的卷积神经网络,实时记录行人的类别和位置信息,分析所得的实时数据,对行人进行解译,将解译结果直接显示在屏幕。
本发明以同时约束目标位置、类别的损失函数构建端到端的卷积神经网络,同时预测目标的位置、大小和类别,以简化行人识别步骤,提高识别的速率;在训练阶段,随机缩放待识别的行人图像送入卷积神经网络中训练,增强了网络的鲁棒性,提高了识别的准确率。
实施例2
基于计算机视觉的行人重识别方法同实施例1,本发明步骤(2)中的对人工标注的真实数据框聚类,具体包括有如下步骤:
(2a)读取训练集和测试集样本的人工标注的真实框数据;
(2b)设置聚类中心数目、采用k-means聚类算法,按照下式的损失度量d(box,centroid)进行聚类,获得先验框:
d(bbox,centroidbox)=1-IOU(bbox,centroidbox)
其中,centroidbox表示随机选取的聚类中心框,bbox表示除中心框外的其他真实框,IOU(bbox,centroidbox)表示其他框与中心框的相似程度,也就是两个框的重叠面积的比例,通过中心框和其他框二者的交集除以并集计算。
本发明通过聚类能够得到人工采集的真实框最具代表性的几个先验框,先验框即为神经网络预测的初试框。先验框的确定能够减少卷积神经网络的预测范围,加快网络的收敛。
实施例3
基于计算机视觉的行人重识别方法同实施例1-2,本发明步骤(3)中的构建卷积神经网络,包括有如下步骤:
(3a)以ResNet卷积神经网络为基础,使用简单的1*1和3*3卷积核,构建包含G个卷积层和5个池化层的卷积神经网络,本例中G取50。
(3b)按照下式的损失函数训练构建的卷积网络:
其中,损失函数的第一项为预测目标框的中心点坐标损失,其中λcoord为坐标损失系数,1≤λcoord≤5,本例中取为3;S2表示图片划分网格的个数,B表示每个网格预测框的个数;表示有目标时,第i个网格中的第j个预测框是否负责这个目标的预测;(xi,yi)表示目标真实框中心点坐标,表示预测框中心点坐标。函数第二项为预测框宽高损失,(wi,hi)表示真实框的宽高,表示预测框的宽高。函数第三项和第四项是预测框中包含目标的概率损失,其中λnoobj表示不包含目标时的损失系数,0.1≤λnoobj≤1本例中取1,以保证卷积神经网络能够区分目标和背景块;表示不含有目标时,第i个网格中的第j个预测框是否负责这个目标的预测;Ci表示包含目标的真实概率,表示预测包含目标的概率。函数第五项是预测类别概率损失,表示第i个网格含有目标中心点;pi(c)表示真实目标类别,表示预测的目标类别;c表示类别数。
本发明实施例中行人的位置检测和类别识别一步完成。采用卷积神经网络对原始行人图像进行特征提取,然后通过减少位置损失和类别损失训练网络,使网络在检测行人位置的同时识别行人身份。
实施例4
基于计算机视觉的行人识别方法同实施例1-3,本发明步骤(4b)所述的采用双线性插值方法对图像进行随机缩放,尺寸大小选择为64的倍数,得到缩放后的输入图像,按如下步骤进行:
4b1:读入一幅待识别的行人图像。
4b2:采用双线性插值方法对图像进行随机缩放,尺寸大小选择为64的倍数,得到缩放后的输入图像。
本发明实施例中输入的待处理的行人图像如附图2所示,行人图像的像素范围为[128-256],缩放后图像尺寸大小选择为64的倍数{128,192…768},最小128*128,最大768*768,得到缩放后的输入图像。
本发明在训练卷积神经网络时随机缩放行人图像尺寸,以增加卷积神经网络对图像尺寸的鲁棒性。算法采用每10个批次,就将行人图像随机地缩放,让网络在不同的输入尺寸上都能达到一个很好的预测效果,同一网络能在不同分辨率上进行检测。使得相同的网络可以预测不同分辨率的行人图像,鲁棒性和泛化性更强。
下面结合附图,给出一个更加完整的例子对本发明做进一步的描述。
实施例5
基于计算机视觉的行人识别方法同实施例1-4。参见附图1,具体实施步骤包括:
步骤1:采集行人图像,用摄像头拍摄行人视频图像,我们从视频中每60帧采样一张图像,得到5635张图像。包括有200个人出现在超过2个摄像头下,75人只出现在一个摄像头下。每幅行人图像中还包含一些复杂环境,且同一行人具备各种不同的旋转角度。将采集的行人图像划分为训练集和测试集,分别对采集的行人图像中的行人进行人工标注,得到真实框的类别和坐标数据。
采集的自然场景行人图像集共5635幅,本例中选取具有代表性的200个行人,均匀分为100个人作为训练集和100个人作为测试集,参见附图2。图像集的拍摄采用1200万像素的摄像头,对拍摄的图像进行筛选和人工标注
步骤2:聚类获得先验框。
读取训练集和测试集样本的真实框数据。
本实施例中,训练集和测试集样本的真实框是图像中人工标注的目标框坐标和类别信息。
采用k-means聚类算法,按照下式的损失度量d(bbox,centroidbox)进行聚类,获得先验框:
d(bbox,centroidbox)=1-IOU(bbox,centroidbox)
其中,centroidbox表示随机选取的聚类中心框,bbox表示除中心框外的其他真实框,IOU(bbox,centroidbox)表示其他框与中心框的相似程度,通过二者的交集除以并集计算。
本例中选取的聚类中心框个数为5,IOU(bbox,centroidbox)按照下式计算获得:
其中,∩表示centroidbox和bbox两个框的交集区域面积,∪表示centroidbox和bbox两个框的并集区域面积。
步骤3:构建卷积神经网络。
以ResNet卷积神经网络为基础,使用简单的1*1和3*3卷积核,构建包含G个卷积层和5个池化层的卷积神经网络,本例中G取50。
按照下式的损失函数训练构建的卷积网络:
其中,损失函数的第一项为预测目标框的中心点坐标损失,其中λcoord为坐标损失系数,本例中取为5;函数第三项和第四项是预测框中包含目标的概率损失,其中λnoobj表示不包含目标时的损失系数,本例中取0.5。
即使是同一个行人,不同的拍摄角度也会得到不同的图像。在现有的方法中很难做到对同一行人的不同角度的稳定识别,但本发明构建的卷积神经网络能够克服同一行人具备多旋转角度难以识别的问题,对行人识别具有很好的稳定性。
步骤4:训练网络。
批量读入MTMC17行人训练集样本的行人图像,本实施例中,网络每批次读入的训练集图像是32幅。对步骤(3)构建的卷积神经网络进行预训练,得到构建的卷积神经网络对应的权重;
批量读入训练集样本的行人图像。采用双线性插值方法对图像进行随机缩放,缩放后的行人图像尺寸大小选择为64的倍数,得到缩放后的输入图像。
本实施例中输入的待处理的行人图像如附图2所示,行人图像的像素范围为[128-256],缩放后图像尺寸大小选择为64的倍数{128,192…768},最小128*128,最大768*768,得到缩放后的行人图像。
采用双线性插值的方法对缩放后的行人图像再次进行尺寸缩放,缩放至固定大小,得到能输入到卷积网络中的图像。本例中,行人图像缩放至固定大小的尺寸为384*128。
加载预训练卷积神经网络权重到步骤(3)构建的卷积神经网络中,采用固定大小的行人图像输入到预训练的卷积神经网络进行训练微调,得到卷积神经网络权重,权重就是卷积神经网络的参数,作为测试时使用。采用训练集样本训练网络,迭代2万次得到权重,训练完成。
步骤5:将步骤4得到的网络权重即参数加载到步骤3构建的卷积神经网络中,为测试做准备。
步骤6:读入测试集中待识别的行人图像,输入到加载好权重的网络中进行识别,获得行人目标识别的大小、位置坐标及所属类别信息,参见图3,图3是本发明对应图2的检测结果。
步骤7:采用非极大值抑制方法处理获得的位置及所属类别信息,获得最终的预测框。
将所有预测框按照置信度得分降序排列,选中最高分及其对应的框;
遍历其余的预测框,如果和当前置信度得分最高的框的重叠面积IOU大于一定阈值,就将框删除;
从未处理的框中继续选一个得分最高的,重复上述过程,得到保留下来的预测框数据;
步骤8:将预测框数据映射到原图中,得到行人的类别和位置信息,根据位置信息在原图中画出预测框并且标出目标所属类别标签,参见附图3。
步骤9:实时记录待测试行人图像有关的所有行人图像,参见附图4,分析所得的实时数据,对行人进行解译,将解译结果直接显示在屏幕。
下面结合仿真对本发明的技术效果再做说明。
实施例6
基于计算机视觉的行人识别方法同实施例1-5。
仿真实验条件:
本发明仿真实验的硬件平台是:华硕计算机Intel(R)Core5处理器,主频3.20GHz,内存64GB;仿真软件平台是:pytorch1.0版。
仿真实验内容与结果分析:
本发明的仿真实验具体分为两个仿真实验。
先手工标记采集的数据集位置坐标及类别数据,并制作成PASCAL VOC格式数据集,其中数据集的80%作为训练集样本,20%作为测试集样本。
仿真实验1:本发明与现有技术的对比:采用本发明与现有技术中基于行人检测和人脸检测的方法、基于行人检测和CNN识别的方法,分别用相同训练集样本进行训练,再用相同测试集样本对各种方法进行评价。评价结果如表1所示,表1中的Alg1表示本发明的方法,Alg2表示基于行人检测和人脸检测的方法,Alg3表示基于行人检测和CNN识别的方法。
表1三种方法仿真实验测试集准确率
从表1中可以看出,本发明相比于基于行人检测和人脸检测的方法、基于行人检测和CNN识别的方法,行人识别准确率有明显的优势,识别率分别提高近67%和20%,识别速度相对于其他两种方法也分别快于6倍和47倍。本发明识别率高于其他两种算法的原因是,本发明能对复杂环境、行人的多种角度都能保证很高的识别率。本发明识别速度高于其他两种算法的原因是,本发明构建了一个端到端的卷积神经网络,能够同时预测行人的位置和类别,而不需要分两部进行。仿真结果表明,本发明在进行行人目标识别时有识别率高、速度快等更好的性能,特别是在复杂环境条件下。
实施例7
基于计算机视觉的行人识别方法同实施例1-5,仿真条件和内容同实施例6。
仿真实验2:采用本发明方法,在测试集上分别使用不同的行人图像缩放尺寸作为网络的输入,测试评价结果如表2所示。
表2不同网络输入尺寸的识别结果
网络输入尺寸(像素) | 准确率(%) |
128*128 | 94.1 |
128*256 | 97.8 |
128*384 | 98.0 |
从表2中可以看出,本发明在输入图像缩放到一定尺寸时,目标识别准确率不再有明显变化,所以综合识别率和识别速率等考虑,选择固定尺寸为384*128大小行人图像作为卷积神经网络的最佳尺寸。
本发明提出的基于计算机视觉的行人识别方法对行人目标识别能取得更好的识别准确率,并且可以进行实时的行人重识别。
综上所述,本发明公开的一种基于计算机视觉的行人识别方法。解决了在复杂环境下行人的失踪识别问题。其步骤为:采集行人数据集并进行人工标注;对标注的图像集真实框进行聚类获得训练的先验框;构建端到端的可同时预测目标位置、大小和类别的卷积神经网络;训练网络获得权重;加载权重到网络;输入行人图像进行识别;非极大值抑制方法处理获得的位置坐标及所属类别信息;获得最终的识别结果图像;实时记录识别信息获得行人解译结果。本发明克服了现有技术中行人识别中手部检测和类别识别分步进行的缺陷,极大的简化了行人识别的过程,提高了识别的准确度和速度,增强了识别系统的鲁棒性,并且实现了对行人解译的功能。本发明可应用于对视频监控中的行人检测、行人重识别、目标追踪、视频解译等领域。
以上所述为本发明的实施例,对于本领域的普通技术人员而言,根据本发明的教导,在不脱离本发明的原理和精神的情况下凡依本发明申请专利范围所做的均等变化、修改、替换和变型,皆应属本发明的涵盖范围。
Claims (6)
1.一种基于计算机视觉的行人重识别方法,其特征在于:包括有如下步骤:
S1:采集行人图像:将采集的行人图像划分为训练集和测试集,分别对其中的行人进行人工标注,得到真实数据框的类别和坐标数据;
S2:聚类获得先验框:对人工标注的真实数据框聚类,以框的面积的重叠程度作为损失度量,得到几个初试先验框;
S3:构建端到端的可同时预测目标行人的位置、大小及类别的卷积神经网络:以改进的ResNet网络作为网络框架,以同时约束目标位置、类别的损失函数构建端到端的卷积神经网络;
S4:训练端到端卷积神经网络:批量读入行人图像后,对读入的行人图像进行数据扩充,对扩充的行人图像进行两次缩放;第一次是从扩充的行人图像随机缩放到任意尺寸,第二次是从缩放后的任意尺寸图像再次缩放到指定尺寸,最后将缩放到指定尺寸的行人图像输入卷积神经网络中进行训练,得到训练权重;
S5:加载权重:将步骤S4得到的网络权重加载到步骤S3构建的卷积神经网络中;
S6:预测行人的位置和类别:读入待识别的行人图像,输入到加载好权重的网络中进行识别,同时获得行人目标识别的位置坐标及所属类别信息;
S7:去除冗余预测框:采用非极大值抑制方法处理获得的位置坐标及所属类别信息,获得最终的预测框;
S8:预测结果的可视化:将预测框数据映射到原图中,在原图中画出预测框并且标出行人目标所属类别标签;
S9:记录和分析:实时记录待测试行人有关的行人图像,分析所得的实时数据,对行人进行解译,将解译结果直接显示在屏幕。
2.根据权利要求1所述的一种基于计算机视觉的行人重识别方法,其特征在于:所述步骤S2具体包括如下步骤:
S2-1:读取行人图像训练集和测试集样本的真实框数据;
S2-2:采用k-means聚类算法,按照下式的损失度量d进行聚类,获得先验框:d=1-IoU。其中,IoU是交并比,表示目标检测中产生的候选框与原标记框的交叠率,即它们的交集与并集的比值。
3.根据权利要求1所述的一种基于计算机视觉的行人重识别方法,其特征在于:所述步骤S3具体包括如下步骤:
S3-1:以ResNet卷积神经网络为基础,使用简单的1*1和3*3卷积核,构建包含G个卷积层和5个池化层的卷积神经网络;
S3-2:按照下式的损失函数训练构建的卷积网络:
其中,损失函数的第一项为预测目标框的中心点坐标损失,其中λcoord为坐标损失系数,1≤λcoord≤5;S2表示图片划分网格的个数,B表示每个网格预测框的个数;表示有目标时,第i个网格中的第j个预测框是否负责这个目标的预测;(xi,yi)表示目标真实框中心点坐标;表示预测框中心点坐标;函数第二项为预测框宽高损失;(wi,hi)表示真实框的宽高,表示预测框的宽高;函数第三项和第四项是预测框中包含目标的概率损失,其中λnoobj表示不包含目标时的损失系数,0.1≤λnoobj≤1,以保证卷积神经网络能够区分目标和背景块;表示不含有目标时,第i个网格中的第j个预测框是否负责这个目标的预测;Ci表示包含目标的真实概率,表示预测包含目标的概率;函数第五项是预测类别概率损失,表示第i个网格含有目标中心点;pi(c)表示真实目标类别,表示预测的目标类别;c表示类别数。
4.根据权利要求3所述的一种基于计算机视觉的行人重识别方法,其特征在于:所述坐标损失系数λcoord取值为3;所述不包含目标时的损失系数λnoobj取值为1。
5.根据权利要求1所述的一种基于计算机视觉的行人重识别方法,其特征在于:所述步骤S4具体包括如下步骤:
S4-1:批量读入训练集样本的行人图像;
S4-2:分别采用的水平翻转、垂直翻转、旋转、平移方法对图像进行扩充,得到扩充后的读入的行人图像;
S4-3:采用双线性插值方法对扩充图像进行随机缩放,尺寸大小选择为64的倍数,得到缩放后的读入的行人图像;
S4-4:采用双线性插值的方法对步骤S4-3得到的缩放后的行人图像再次进行尺寸缩放,缩放至固定大小,得到能输入到卷积网络中的图像;
S4-5:采用步骤S4-4得到的固定大小图像对步骤S3构建的卷积神经网络进行训练,得到卷积神经网络对应的权重。
6.根据权利要求1所述的一种基于计算机视觉的行人重识别方法,其特征在于:所述步骤S7具体包括如下步骤:
S7-1:将所有框的得分降序排列,选中最高分及其对应的框;
S7-2:从未处理的框中继续选一个得分最高的,重复步骤S7-1,得到保留下来的预测框数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010114631.1A CN111275010A (zh) | 2020-02-25 | 2020-02-25 | 一种基于计算机视觉的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010114631.1A CN111275010A (zh) | 2020-02-25 | 2020-02-25 | 一种基于计算机视觉的行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111275010A true CN111275010A (zh) | 2020-06-12 |
Family
ID=71002405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010114631.1A Withdrawn CN111275010A (zh) | 2020-02-25 | 2020-02-25 | 一种基于计算机视觉的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111275010A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914668A (zh) * | 2020-07-08 | 2020-11-10 | 浙江大华技术股份有限公司 | 一种基于图像增强技术的行人重识别方法、装置及系统 |
CN112232390A (zh) * | 2020-09-29 | 2021-01-15 | 北京临近空间飞行器系统工程研究所 | 一种高像素大图像的识别方法和系统 |
CN112308045A (zh) * | 2020-11-30 | 2021-02-02 | 深圳集智数字科技有限公司 | 一种密集人群的检测方法、装置及电子设备 |
CN112668508A (zh) * | 2020-12-31 | 2021-04-16 | 中山大学 | 基于垂直俯视角的行人标注、检测和性别识别方法 |
CN113901962A (zh) * | 2021-12-06 | 2022-01-07 | 北京建筑大学 | 一种基于深度学习的非常态下行人识别方法及系统 |
CN111881777B (zh) * | 2020-07-08 | 2023-06-30 | 泰康保险集团股份有限公司 | 一种视频处理方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808143A (zh) * | 2017-11-10 | 2018-03-16 | 西安电子科技大学 | 基于计算机视觉的动态手势识别方法 |
CN109711316A (zh) * | 2018-12-21 | 2019-05-03 | 广东工业大学 | 一种行人重识别方法、装置、设备及存储介质 |
CN109784182A (zh) * | 2018-12-17 | 2019-05-21 | 北京飞搜科技有限公司 | 行人重识别方法和装置 |
AU2019101142A4 (en) * | 2019-09-30 | 2019-10-31 | Dong, Qirui MR | A pedestrian detection method with lightweight backbone based on yolov3 network |
-
2020
- 2020-02-25 CN CN202010114631.1A patent/CN111275010A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808143A (zh) * | 2017-11-10 | 2018-03-16 | 西安电子科技大学 | 基于计算机视觉的动态手势识别方法 |
CN109784182A (zh) * | 2018-12-17 | 2019-05-21 | 北京飞搜科技有限公司 | 行人重识别方法和装置 |
CN109711316A (zh) * | 2018-12-21 | 2019-05-03 | 广东工业大学 | 一种行人重识别方法、装置、设备及存储介质 |
AU2019101142A4 (en) * | 2019-09-30 | 2019-10-31 | Dong, Qirui MR | A pedestrian detection method with lightweight backbone based on yolov3 network |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914668A (zh) * | 2020-07-08 | 2020-11-10 | 浙江大华技术股份有限公司 | 一种基于图像增强技术的行人重识别方法、装置及系统 |
CN111881777B (zh) * | 2020-07-08 | 2023-06-30 | 泰康保险集团股份有限公司 | 一种视频处理方法和装置 |
CN112232390A (zh) * | 2020-09-29 | 2021-01-15 | 北京临近空间飞行器系统工程研究所 | 一种高像素大图像的识别方法和系统 |
CN112232390B (zh) * | 2020-09-29 | 2024-03-01 | 北京临近空间飞行器系统工程研究所 | 一种高像素大图像的识别方法和系统 |
CN112308045A (zh) * | 2020-11-30 | 2021-02-02 | 深圳集智数字科技有限公司 | 一种密集人群的检测方法、装置及电子设备 |
CN112308045B (zh) * | 2020-11-30 | 2023-11-24 | 深圳集智数字科技有限公司 | 一种密集人群的检测方法、装置及电子设备 |
CN112668508A (zh) * | 2020-12-31 | 2021-04-16 | 中山大学 | 基于垂直俯视角的行人标注、检测和性别识别方法 |
CN112668508B (zh) * | 2020-12-31 | 2023-08-15 | 中山大学 | 基于垂直俯视角的行人标注、检测和性别识别方法 |
CN113901962A (zh) * | 2021-12-06 | 2022-01-07 | 北京建筑大学 | 一种基于深度学习的非常态下行人识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107808143B (zh) | 基于计算机视觉的动态手势识别方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN111275010A (zh) | 一种基于计算机视觉的行人重识别方法 | |
CN112418117B (zh) | 一种基于无人机图像的小目标检测方法 | |
CN111783576B (zh) | 基于改进型YOLOv3网络和特征融合的行人重识别方法 | |
CN107506703B (zh) | 一种基于无监督局部度量学习和重排序的行人再识别方法 | |
CN108520226B (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
CN111179217A (zh) | 一种基于注意力机制的遥感图像多尺度目标检测方法 | |
CN111695482A (zh) | 一种管道缺陷识别方法 | |
CN110929593B (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
Zhang et al. | Road recognition from remote sensing imagery using incremental learning | |
CN108734200B (zh) | 基于bing特征的人体目标视觉检测方法和装置 | |
CN111476084A (zh) | 一种基于深度学习的停车场动态停车位状况识别方法 | |
CN111860587A (zh) | 一种用于图片小目标的检测方法 | |
CN111508006A (zh) | 一种基于深度学习的运动目标同步检测、识别与跟踪方法 | |
CN111738164B (zh) | 一种基于深度学习的行人检测方法 | |
CN113221956A (zh) | 基于改进的多尺度深度模型的目标识别方法及装置 | |
CN111709317A (zh) | 一种基于显著性模型下多尺度特征的行人重识别方法 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN115147644A (zh) | 图像描述模型的训练和描述方法、系统、设备及存储介质 | |
CN113780145A (zh) | 精子形态检测方法、装置、计算机设备和存储介质 | |
CN101118544A (zh) | 一种图像形状轮廓描述符的构造方法 | |
Zhu et al. | Scene text relocation with guidance | |
CN111797795A (zh) | 一种基于YOLOv3与SSR的行人检测算法 | |
CN110889418A (zh) | 一种气体轮廓识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200612 |
|
WW01 | Invention patent application withdrawn after publication |