CN112541374B - 一种基于深度学习的乘客属性的获取方法、装置及模型训练方法 - Google Patents
一种基于深度学习的乘客属性的获取方法、装置及模型训练方法 Download PDFInfo
- Publication number
- CN112541374B CN112541374B CN201910892154.9A CN201910892154A CN112541374B CN 112541374 B CN112541374 B CN 112541374B CN 201910892154 A CN201910892154 A CN 201910892154A CN 112541374 B CN112541374 B CN 112541374B
- Authority
- CN
- China
- Prior art keywords
- passenger
- attribute
- target frame
- attributes
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013135 deep learning Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 title claims abstract description 13
- 238000001514 detection method Methods 0.000 claims abstract description 56
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 7
- 238000010224 classification analysis Methods 0.000 claims abstract description 4
- 238000013145 classification model Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 23
- 239000003086 colorant Substances 0.000 claims description 15
- 239000011521 glass Substances 0.000 claims description 15
- 238000012935 Averaging Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 7
- 206010061274 Malocclusion Diseases 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Multimedia (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的乘客属性的获取方法、装置及模型训练方法,所述方法包括:步骤1,获取乘客上车的图像流,并标记出图像中包含乘客及附属物的目标框区域,得到乘客上车的完整目标框轨迹;步骤2,使用基于深度学习卷积神经网络训练的属性分类模型,对每个乘客的属性进行分类分析,以每个乘客目标框轨迹中的单个目标框作为模型的检测输入,输出一组对该乘客的属性分类预测的概率结果;根据乘客各个属性不同的特点,设定不同的网络结构、检测方式,同时结合乘客目标框轨迹的获取,实现乘客属性的有效检测,并提高了属性检测的准确率。
Description
技术领域
本发明涉及智能公共交通领域和图像识别领域,具体涉及一种基于深度学习的乘客属性的获取方法、装置及模型训练方法。
背景技术
随着科学技术的发展,人们出行的交通工具选择越来越多,目前人们常用的交通工具有公交,地铁,火车,飞机等,而对于火车和飞机这类交通工具由于购票的实名制推广,对乘客身份可以很容易得到确认;但是在实现本发明过程中,发明人发现现有技术中至少存在如下问题:公交、地铁等公共交通并未进行乘客实名制的管理,很容易成为嫌疑犯或可疑人员进行转移的途径,如何获取更多的准确的乘客唯一属性,是目前存在的一大难题;获取更多的乘客唯一属性将能够对这类人员进行有效的识别与追踪,同时也能够对寻找走失人员提供一定的技术帮助。
发明内容
为了克服现有技术的不足,本公开实施例提供了一种基于深度学习的乘客属性的获取方法、装置及模型训练方法,通过对网络模型自定义修改,实现乘客属性的有效检测,并提高了属性检测的准确率。所述技术方案如下:
第一方面,提供了一种基于深度学习的乘客属性的获取方法,所述方法包括:
步骤1,获取乘客上车的图像流,并标记出图像中包含乘客及附属物的目标框区域,进而得到乘客上车的完整目标框轨迹;
步骤2,使用基于深度学习卷积神经网络训练的属性分类模型,对每个乘客的属性进行分类分析,以每个乘客目标框轨迹中的单个目标框作为模型的检测输入,输出一组对该乘客的属性分类预测的概率结果。所述深度学习卷积神经网络采用一个多任务的深度网络,多任务的深度网络包含基础网络部分和多任务分类网络部分;所述基础网络(BasicNetwork)不做限定;使用多任务的深度网络,可减少资源占用,能够一次直接得到多组属性的分类结果,且结果更加具有鲁棒性。
对所述多任务深度网络结构进行修改,具体修改如下:
步骤22,在基础网络之后,复制一份基础网络输出的特征映射图,进行以下操作;
(1)截取该特征映射图的上半部分,先对上半部分特征映射图进行均值池化操作,得到global_avg1特征向量,再分别连续做两个卷积的操作,然后做Softmax操作,对发型,戴帽子,戴眼镜,戴口罩进行预测;针对明显在头部位置的属性,截取该特征映射图的上半部分的目的是为了去除不必要的干扰;
(2)对完整特征映射图进行均值池化操作得到global_avg2特征向量,连续做两个卷积的操作,然后做Softmax操作,对上衣类型,下衣类型,上衣颜色,下衣颜色,背包,手拎物,其他类别进行预测;
(3)结合global_avg1特征向量和global_avg2特征向量,连续做两个卷积的操作,然后做Softmax操作,对年龄段和性别进行预测;
进而得到乘客各类属性结果。
在本公开的实施例中,由于发型,戴帽子,带口罩,带眼镜只在头部区域,所以对这些属性的分类时只使用特征映射图的上半部分;上衣类型,下衣类型,上衣颜色,下衣颜色,背包,手拎物,其他类别会在完整特征映射图上显示;而性别,年龄段在人脸部分和全身上都得以体现,所以这两个属性的分类所使用的特征为特征映射图的上半部分的特征与全身特征的结合;根据乘客各个属性不同的特点,设定不同的网络结构、检测方式,同时结合乘客目标框轨迹的获取,实现乘客属性的有效检测,并提高了属性检测的准确率。
优选的,步骤2中所述对多任务深度网络结构进行修改,步骤22之前还包括步骤21,采用在网络的浅层特征(优选的,当降采样效果使得特征映射图降为原图的1/8时),引出一个分类分支进行视角的分类,该部分的Softmax返回结果为乘客各种属性(如:发型,戴帽子,戴眼镜,戴口罩,年龄段,性别,上衣类型,下衣类型,上衣颜色,下衣颜色,背包,手拎物,其他类别)的权重系数组合,该权重系数反应了不同视角下各属性的置信度B情况;
由于一些属性特征在不同视角的表现不同,视角属性分为正面视角,侧面视角,背面视角;如年龄,性别,是否带眼镜等在正面视角可以很好地观察到,而发型,背包这些属性在背面视角可以更好的观察,所以通过引入了视角属性,作为其他各属性结果进行加权的系数或者权重,使得乘客属性的结果更加准确。而视角属性分类使用的特征映射图降为原图的浅层特征(1/8)比较大,是因为底层的特征保留了乘客更多视角轮廓信息,更有利于视角属性的分类。
同时,步骤22之后还包括步骤23,使用视角分类的权重系数组合结果,对步骤22得到的预测结果进行加权处理,进而得到乘客各类属性结果;
优选的,步骤1中所述标记出图像中包含乘客及附属物的目标框区域,具体为:步骤11,通过图像检测方法检测出乘客及附属物在视频帧图像中的位置,标记出包含乘客及附属物的目标框区域及其置信度A,若当前目标框为第一次出现时,对其附加一个乘客id号,否则与上一帧的相应目标框做相似度计算,若相似度计算结果大于阈值α,则视为同一乘客id号,否则,对该目标框附加一个新的乘客id号。
进一步的,所述相似度计算为IOU计算,所述IOU计算是两相应目标框的交集与其并集的比值。所述步骤11的详细步骤如下:通过原有安装在公交前后门的摄像装置,获取前后门的乘客上车或者下车的视频流,通过图像检测方法检测出乘客在视频帧图像中的位置,标记出包含乘客的目标框区域;若所述乘客目标框为第一次出现时,对其附加一个乘客id号,否则与上一帧的相应的目标框做IOU(Intersection over Union)计算,应当注意的是,因为同一个视频帧图像中可能存在两个以上的目标框,因此当前视频帧的数个目标框与上一帧的相应目标框做IOU计算,若IOU计算结果大于0.3-0.8之间的任何一个数值,则视为同一乘客id号,否则,对该目标框附加一个新的乘客id号。
进一步的,实际场景下,乘客上车图像中的某些区域有可能一直包含第一排座位的乘客,或者附属物品,而在这些区域中上车乘客及其附属物不可能出现,因此为了减少计算量,对乘客上车图像,对步骤11中的所述视频帧图像设置检测区域,当检测目标框超出该区域范围时,检测出的目标框无效,不进行乘客id的赋值及轨迹的增加。
优选的,为了弥补检测方法存在一定的丢失率而使得准确率下降的问题,步骤11之后还包括:步骤12,对目标检测方法丢失的一些视频帧图像进行乘客目标框的补全。优选的,目标框补全的同时为了防止将单个乘客间断的轨迹错分为多条轨迹,从而减少误检轨迹的数量。设置:若当前乘客轨迹长度大于2~15帧时,对目标检测方法丢失的一些视频帧图像进行乘客目标框的补全;
进一步,所述对目标检测方法丢失的一些视频帧图像进行乘客目标框的补全,具体方法如下:若从上一视频帧图像中检测或跟踪到某id号的乘客目标框,而当前视频帧图像未检测到对应id号的乘客目标框,且上一视频帧之后的连续m(优选10-30)个视频帧图像中检测到该id号的乘客的次数超过n次,1≤n<m,则使用图像跟踪方法,用上一视频帧图像检测或跟踪的乘客目标框在当前视频帧图像上做跟踪预测,以此得到的跟踪预测框作为在当前帧丢失的该id号的乘客目标框,以所有该id号的乘客的目标框组合形成该乘客上车的完整图像轨迹点;
进一步,基于同上述设置检测区域相同的原因,对步骤12中所述视频帧图像设置目标跟踪区域,当乘客跟踪目标框超过该区域时,停止对该乘客的目标跟踪,乘客轨迹获取结束。
优选的,步骤2中,所述检测输入,可以选择乘客目标框轨迹中的X个目标框作为检测输入,1≤X≤乘客目标框轨迹中目标框的数量,这样每个乘客可以获得X组属性的分类结果,对这X组属性进行取众数操作,得到的结果即代表该乘客的属性结果。一般情况下,一个人上车时间往往超过2秒,能够获取到的目标框轨迹一般超过30张,只取用其中的X个目标框,而不是全部作为检测输入,将在一定程度上减少计算量。
优选的,步骤2中所述X个目标框的选取方法为:将目标框轨迹中按置信度A大小降序排序,选择排序靠前的X个目标框作为检测输入;或者将目标框轨迹按相同时间间隔取出X个目标框作为检测输入。
进一步的,将步骤1中所述乘客上车的图像流替换为乘客上下车的图像流,所述每个乘客上下车的图像流关联了乘客上车时的时间、地点和/或站点信息,通过对对步骤2得到上下车乘客的乘客各类属性结果进行匹配,进而得到客流OD数据,所述客流OD为某一乘客何时从何地点和/或站点上车,之后何时从何地点和/或站点下车的数据。此处关联的乘客信息包含了三种情况:(1)时间和地点,(2)时间和站点,(3)时间、地点和站点);结合时空属性,能够让乘客信息更完整,有利于乘客属性结果的使用,可在乘客OD匹配上起到好的效果。
第二方面,提供了一种基于深度学习的乘客属性的获取装置,该装置包括乘客轨迹获取模块、属性分类模块,两模块电连接;
所述乘客轨迹获取模块用于执行上述任一项所述一种基于深度学习的乘客属性的获取方法的步骤1的步骤;
所述特征提取模块用于执行上述任一项所述一种基于深度学习的乘客属性的获取方法的步骤2的步骤。
第三方面,提供了一种基于深度学习的乘客属性的获取模型训练方法,包括如下步骤:
(1)构建训练样本集
采集每个乘客上车的图像序列,对图像序列中的每张图像进行乘客属性的标注,所述乘客属性包括: 1)乘客基本属性 2)着衣属性3)附属物属性4)视角属性;具体的,乘客基本属性包括年龄段,性别,发型,是否带眼镜;着衣属性包括是否带口罩,是否戴帽子,上衣类型,下衣类型,上衣颜色,下衣颜色;附属物属性包括是否背包,手拎物品,其它。视角属性包括正面视角,侧面视角,背面视角;对于视角属性的标注,是对基本属性,着衣属性,附属物属性中每个子属性进行权重系数的标注,划分构成样本集。
(2)训练乘客属性模型
采用一个多任务的深度网络,多任务的深度网络包含基础网络部分和多任务分类网络部分;基础网络部分选用resnet50网络分类层之前的网络层,在此基础上有如下修改:
1)在经过第二组Bottleneck后,引出一个分类分支进行视角的分类,该部分的Softmax返回结果为乘客基本属性、着衣属性、附属物属性中各子属性的权重系数组合,该权重系数反应了不同视角下各属性的置信度B情况;
2)在基础网络的第四组Bottleneck后,复制一份当前网络层输出的特征映射图,进行以下操作
截取该特征映射图的上半部分,先对上半部分特征映射图进行均值池化操作,得到global_avg1特征向量,再分别连续做两个卷积的操作,然后做Softmax操作,对发型,戴帽子,戴眼镜,戴口罩进行预测。
对完整特征映射图进行均值池化操作得到global_avg2特征向量,连续做两个卷积的操作,然后做Softmax操作;对上衣类型,下衣类型,上衣颜色,下衣颜色,背包,手拎物,其他类别进行预测。
结合global_avg1特征向量和global_avg2特征向量,连续做两个卷积的操作,然后做Softmax操作;对年龄段和性别进行预测。
3)使用视角分类的权重系数结果,对步骤2)得到的预测结果进行加权处理,得到最终的预测结果输出。
根据预测结果与标注值进行loss的设计和反向误差传播
(3)对乘客属性模型测试
与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:通过对多任务深度网络结构的修改,采用基础网络输出的特征映射图上半图和全图的方式针对不同类别的乘客属性进行分类识别,根据乘客各个属性不同的特点,设定不同的网络结构、检测方式,同时结合乘客目标框轨迹的获取,实现乘客属性的有效检测,并提高了属性检测的准确率。
附图说明
图1为本公开实施例提供的一种属性分类resnet50网络结构图;
图2 为本公开实施例提供的一种乘客属性图。
具体实施方式
为了阐明本发明的技术方案和工作原理,下面将结合附图对本公开实施方式做进一步的详细描述。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
第一方面,本公开实施例提供了一种基于深度学习的乘客属性的获取方法,本公开实施例采用resnet50为基础网络,附图1为本公开实施例提供的一种属性分类resnet50网络结构图,结合附图,主要包括以下步骤:
步骤1,获取乘客上车的图像流,并标记出图像中包含乘客及附属物的目标框区域,进而得到乘客上车的完整目标框轨迹;
优选的,步骤1中所述标记出图像中包含乘客及附属物的目标框区域,具体为:步骤11,通过图像检测方法检测出乘客及附属物在视频帧图像中的位置,标记出包含乘客及附属物的目标框区域及其置信度A,若当前目标框为第一次出现时,对其附加一个乘客id号,否则与上一帧的相应目标框做相似度计算,若相似度计算结果大于阈值α,则视为同一乘客id号,否则,对该目标框附加一个新的乘客id号。
进一步的,所述相似度计算为IOU计算,所述IOU计算是两相应目标框的交集与其并集的比值。所述步骤11的详细步骤如下:通过原有安装在公交前后门的摄像装置,获取前后门的乘客上车或者下车的视频流,通过图像检测方法检测出乘客在视频帧图像中的位置,标记出包含乘客的目标框区域;若所述乘客目标框为第一次出现时,对其附加一个乘客id号,否则与上一帧的相应的目标框做IOU(Intersection over Union)计算,应当注意的是,因为同一个视频帧图像中可能存在两个以上的目标框,因此当前视频帧的数个目标框与上一帧的相应目标框做IOU计算,若IOU计算结果大于0.8,则视为同一乘客id号,否则,对该目标框附加一个新的乘客id号。
进一步的,实际场景下,乘客上车图像中的某些区域有可能一直包含第一排座位的乘客,或者附属物品,而在这些区域中上车乘客及其附属物不可能出现,因此为了减少计算量,对乘客上车图像,对步骤11中的所述视频帧图像设置检测区域,当检测目标框超出该区域范围时,检测出的目标框无效,不进行乘客id的赋值及轨迹的增加。
优选的,为了弥补检测方法存在一定的丢失率而使得准确率下降的问题,步骤11之后还包括:步骤12,对目标检测方法丢失的一些视频帧图像进行乘客目标框的补全。优选的,目标框补全的同时为了防止将单个乘客间断的轨迹错分为多条轨迹,从而减少误检轨迹的数量。设置:若当前乘客轨迹长度大于5帧时,对目标检测方法丢失的一些视频帧图像进行乘客目标框的补全;
进一步,所述对目标检测方法丢失的一些视频帧图像进行乘客目标框的补全,具体方法如下:若从上一视频帧图像中检测或跟踪到某id号的乘客目标框,而当前视频帧图像未检测到对应id号的乘客目标框,且上一视频帧之后的连续15个视频帧图像中检测到该id号的乘客的次数超过10次,则使用图像跟踪方法,用上一视频帧图像检测或跟踪的乘客目标框在当前视频帧图像上做跟踪预测,以此得到的跟踪预测框作为在当前帧丢失的该id号的乘客目标框,以所有该id号的乘客的目标框组合形成该乘客上车的完整图像轨迹点;
进一步,基于同上述设置检测区域相同的原因,对步骤12中所述视频帧图像设置目标跟踪区域,当乘客跟踪目标框超过该区域时,停止对该乘客的目标跟踪,乘客轨迹获取结束。
步骤2,使用基于深度学习卷积神经网络训练的属性分类模型,对每个乘客的属性进行分类分析,以每个乘客目标框轨迹中的单个目标框作为模型的检测输入,输出一组对该乘客的属性分类预测的概率结果。所述深度学习卷积神经网络采用一个多任务的深度网络,多任务的深度网络包含基础网络部分和多任务分类网络部分;所述基础网络(BasicNetwork) 选用resnet50网络分类层之前的网络层。并在此基础上,对所述多任务深度网络结构进行修改,具体修改如下:
步骤22,在基础网络之后,复制一份基础网络输出的特征映射图,进行以下操作;
(1)截取该特征映射图的上半部分,先对上半部分特征映射图进行均值池化操作,得到global_avg1特征向量,再分别连续做两个卷积的操作,然后做Softmax操作,对发型,戴帽子,戴眼镜,戴口罩进行预测;针对明显在头部位置的属性,截取该特征映射图的上半部分的目的是为了去除不必要的干扰;
(2)对完整特征映射图进行均值池化操作得到global_avg2特征向量,连续做两个卷积的操作,然后做Softmax操作,对上衣类型,下衣类型,上衣颜色,下衣颜色,背包,手拎物,其他类别进行预测;
(3)结合global_avg1特征向量和global_avg2特征向量,连续做两个卷积的操作,然后做Softmax操作,对年龄段和性别进行预测;
进而得到乘客各类属性结果。
在本公开的实施例中,由于发型,戴帽子,带口罩,带眼镜只在头部区域,所以对这些属性的分类时只使用特征映射图的上半部分;上衣类型,下衣类型,上衣颜色,下衣颜色,背包,手拎物,其他类别会在完整特征映射图上显示;而性别,年龄段在人脸部分和全身上都得以体现,所以这两个属性的分类所使用的特征为特征映射图的上半部分的特征与全身特征的结合;根据乘客属性的特点选择不同的检测方式,提高了属性检测的准确率。
优选的,步骤2中所述对多任务深度网络结构进行修改,步骤22之前还包括步骤21,当降采样效果使得特征映射图降为原图的1/8时,引出一个分类分支进行视角的分类,该部分的Softmax返回结果为乘客各种属性(如:发型,戴帽子,戴眼镜,戴口罩,年龄段,性别,上衣类型,下衣类型,上衣颜色,下衣颜色,背包,手拎物,其他类别)的权重系数组合,该权重系数反应了不同视角下各属性的置信度B情况;
由于一些属性特征在不同视角的表现不同,视角属性分为正面视角,侧面视角,背面视角;如年龄,性别,是否带眼镜等在正面视角可以很好地观察到,而发型,背包这些属性在背面视角可以更好的观察,所以通过引入了视角属性,作为其他各属性结果进行加权的系数或者权重,使得乘客属性的结果更加准确。而视角属性分类使用的特征映射图降为原图的1/8比较大,是因为底层的特征保留了乘客更多视角轮廓信息,更有利于视角属性的分类。
同时,步骤22之后还包括步骤23,使用视角分类的权重系数组合结果,对步骤22得到的预测结果进行加权处理,进而得到乘客各类属性结果;
优选的,步骤2中,所述检测输入,可以选择乘客目标框轨迹中的8个目标框作为检测输入 ,这样每个乘客可以获得8组属性的分类结果,对这8组属性进行取众数操作,得到的结果即代表该乘客的属性结果。一般情况下,一个人上车时间往往超过2秒,能够获取到的目标框轨迹一般超过30张,只取用其中的8个目标框,而不是全部作为检测输入,将在一定程度上减少计算量。
优选的,步骤2中所述8个目标框的选取方法为:将目标框轨迹中按置信度A大小降序排序,选择排序靠前的8个目标框作为检测输入;或者将目标框轨迹按相同时间间隔取出8个目标框作为检测输入。
进一步的,将步骤1中所述乘客上车的图像流替换为乘客上下车的图像流,所述每个乘客上下车的图像流关联了乘客上车时的时间、地点和/或站点信息,通过对对步骤2得到上下车乘客的乘客各类属性结果进行匹配,进而得到客流OD数据,所述客流OD为某一乘客何时从何地点和/或站点上车,之后何时从何地点和/或站点下车的数据。此处关联的乘客信息包含了三种情况:(1)时间和地点,(2)时间和站点,(3)时间、地点和站点);结合时空属性,能够让乘客信息更完整,有利于乘客属性结果的使用,可在乘客OD匹配上起到好的效果。
第二方面,本公开实施例提供了一种基于深度学习的乘客属性的获取装置
基于相同的技术构思,该装置可以执行一种基于深度学习的乘客属性的获取方法的流程,该装置具体包括乘客轨迹获取模块、属性分类模块,两模块电连接;
所述乘客轨迹获取模块用于执行上述实施例中任一项所述一种基于深度学习的乘客属性的获取方法的步骤1的步骤;
所述特征提取模块用于执行上述实施例中任一项所述一种基于深度学习的乘客属性的获取方法的步骤2的步骤。
需要说明的是,上述实施例提供的一种基于深度学习的乘客属性的获取装置在执行一种基于深度学习的乘客属性的获取方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外上述实施例提供的一种基于深度学习的乘客属性的获取装置与一种基于深度学习的乘客属性的获取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
第三方面,本公开实施例提供了一种基于深度学习的乘客属性的获取模型训练方法,附图2为本公开实施例提供的一种乘客属性图,结合该图,乘客属性包括:1)时空属性2)乘客基本属性3)着衣属性 4)附属物属性 5)视角属性。具体的,时空属性包括上车时间和上车地点;乘客基本属性包括年龄段,性别,发型,是否带眼镜;着衣属性包括是否带口罩,是否戴帽子,上衣类型,下衣类型,上衣颜色,下衣颜色;附属物属性包括是否背包,手拎物品,其它。视角属性包括正面视角,侧面视角,背面视角。在构建样本集的过程中,采集每个乘客上车的图像序列,对图像序列中的每张图像进行乘客属性的标注,对于视角属性的标注,是对基本属性,着衣属性,附属物属性中每个子属性进行权重系数的标注,划分构成样本集。
使用如图2所示的网络结构进行模型训练,Basic Network部分选用resnet50网络分类层之前的网络层,在此基础上有如下修改
(1)在经过第二组Bottleneck后,引出一个分类分支进行视角的分类,该部分的Softmax返回结果为乘客基本属性、着衣属性、附属物属性中各子属性的权重系数组合,该权重系数反应了不同视角下各属性的置信度情况。
(2)在第四组Bottleneck后,复制一份当前网络层输出的特征映射图,进行以下操作
截取该特征映射图的上半部分,先对上半部分特征映射图进行均值池化操作,得到global_avg1特征向量,再分别连续做两个卷积的操作,然后做Softmax操作,对戴口罩,戴帽子, 发型,戴眼镜进行预测。
对完整特征映射图进行均值池化操作得到global_avg2特征向量,连续做两个卷积的操作,然后做Softmax操作;对上衣类型,下衣类型,上衣颜色,下衣颜色,背包,手拎物,其他类别进行预测。
结合global_avg1特征向量和global_avg2特征向量,连续做两个卷积的操作,然后做Softmax操作;对年龄段和性别进行预测。
(3)使用视角分类的权重系数结果,对步骤2)得到的预测结果进行加权处理,得到最终的预测结果输出。
根据预测结果与标注值进行loss的设计和反向误差传播
最后,对乘客属性模型测试
需要注意的是:图1中加操作为两个向量的加法操作,而乘操作为两个向量的乘法操作, Prediction部分为乘客基本属性、着衣属性、附属物属性的子属性组成而成的属性预测结果,其维数为所有子属性的类别数的总数。对于子属性的类别数,如图2所述,解释为如发型这个子属性,存在长发,短发,光头类别,类别数为3。
以上结合附图对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。
Claims (13)
1.一种基于深度学习的乘客属性的获取方法,其特征在于,包括如下步骤:
步骤1,获取乘客上车的图像流,并标记出图像中包含乘客及附属物的目标框区域,进而得到乘客上车的完整目标框轨迹;
步骤2,使用基于深度学习卷积神经网络训练的属性分类模型,对每个乘客的属性进行分类分析,以每个乘客目标框轨迹中的单个目标框作为模型的检测输入,输出一组对该乘客的属性分类预测的概率结果;所述深度学习卷积神经网络采用一个多任务的深度网络,多任务的深度网络包含基础网络部分和多任务分类网络部分;对所述多任务深度网络结构进行修改,具体修改如下:
步骤21,在网络的浅层特征引出一个分类分支进行视角的分类,该部分的Softmax返回结果为乘客各种属性的权重系数组合,该权重系数反应了不同视角下各属性的置信度B情况;
步骤22,在基础网络之后,复制一份基础网络输出的特征映射图,进行以下操作:
(1)截取该特征映射图的上半部分,先对上半部分特征映射图进行均值池化操作,得到global_avg1特征向量,再分别连续做两个卷积的操作,然后做Softmax操作,对发型,戴帽子,戴眼镜,戴口罩进行预测;
(2)对完整特征映射图进行均值池化操作得到global_avg2特征向量,连续做两个卷积的操作,然后做Softmax操作,对上衣类型,下衣类型,上衣颜色,下衣颜色,背包,手拎物,其他类别进行预测;
(3)结合global_avg1特征向量和global_avg2特征向量,连续做两个卷积的操作,然后做Softmax操作,对年龄段和性别进行预测;
步骤23,使用视角分类的权重系数组合结果,对步骤22得到的预测结果进行加权处理,进而得到乘客各类属性结果。
2.根据权利要求1所述的一种基于深度学习的乘客属性的获取方法,其特征在于,步骤1中所述标记出图像中包含乘客及附属物的目标框区域,具体为:步骤11,通过图像检测方法检测出乘客及附属物在视频帧图像中的位置,标记出包含乘客及附属物的目标框区域及其置信度A,若当前目标框为第一次出现时,对其附加一个乘客id号,否则与上一帧的相应目标框做相似度计算,若相似度计算结果大于阈值α,则视为同一乘客id号,否则,对该目标框附加一个新的乘客id号。
3.根据权利要求2所述的一种基于深度学习的乘客属性的获取方法,其特征在于,所述相似度计算为IOU计算,所述IOU计算是两相应目标框的交集与其并集的比值。
4.根据权利要求2所述的一种基于深度学习的乘客属性的获取方法,其特征在于,对步骤11中的所述视频帧图像设置检测区域,当检测目标框超出该区域范围时,检测出的目标框无效,不进行乘客id的赋值及轨迹的增加。
5.根据权利要求2-4任一项所述的一种基于深度学习的乘客属性的获取方法,其特征在于,步骤11之后还包括:步骤12,对目标检测方法丢失的一些视频帧图像进行乘客目标框的补全。
6.根据权利要求2-4任一项所述的一种基于深度学习的乘客属性的获取方法,其特征在于,步骤11之后还包括:步骤12,若当前乘客轨迹长度大于2~15帧时,对目标检测方法丢失的一些视频帧图像进行乘客目标框的补全。
7.根据权利要求6所述的一种基于深度学习的乘客属性的获取方法,其特征在于,步骤12中所述对目标检测方法丢失的一些视频帧图像进行乘客目标框的补全,具体方法如下:若从上一视频帧图像中检测或跟踪到某id号的乘客目标框,而当前视频帧图像未检测到对应id号的乘客目标框,且上一视频帧之后的连续m个视频帧图像中检测到该id号的乘客的次数超过n次,1≤n<m,则使用图像跟踪方法,用上一视频帧图像检测或跟踪的乘客目标框在当前视频帧图像上做跟踪预测,以此得到的跟踪预测框作为在当前帧丢失的该id号的乘客目标框,以所有该id号的乘客的目标框组合形成该乘客上车的完整图像轨迹点。
8.根据权利要求7所述的一种基于深度学习的乘客属性的获取方法,其特征在于,对步骤12中所述视频帧图像设置目标跟踪区域,当乘客跟踪目标框超过该区域时,停止对该乘客的目标跟踪,乘客轨迹获取结束。
9.根据权利要求1-8任一项所述的一种基于深度学习的乘客属性的获取方法,其特征在于,步骤2中,所述检测输入,可以选择乘客目标框轨迹中的X个目标框作为检测输入,1≤X≤乘客目标框轨迹中目标框的数量,这样每个乘客可以获得X组属性的分类结果,对这X组属性进行取众数操作,得到的结果即代表该乘客的属性结果。
10.根据权利要求9所述的一种基于深度学习的乘客属性的获取方法,其特征在于,步骤2中所述X个目标框的选取方法为:将目标框轨迹中按置信度A大小降序排序,选择排序靠前的X个目标框作为检测输入;或者将目标框轨迹按相同时间间隔取出X个目标框作为检测输入。
11.根据权利要求1-10任一项所述的一种基于深度学习的乘客属性的获取方法,其特征在于,将步骤1中所述乘客上车的图像流替换为乘客上下车的图像流,所述每个乘客上下车的图像流关联了乘客上车时的时间、地点和/或站点信息,通过对步骤2得到上下车乘客的乘客各类属性结果进行匹配,进而得到客流OD数据,所述客流OD为某一乘客何时从何地点和/或站点上车,之后何时从何地点和/或站点下车的数据。
12.一种基于深度学习的乘客属性的获取装置,该装置包括乘客轨迹获取模块、属性分类模块,两模块电连接;
所述乘客轨迹获取模块用于执行权利要求1-11任一项所述的一种基于深度学习的乘客属性的获取方法的步骤1的步骤;
所述属性分类模块用于执行权利要求1-11任一项所述的一种基于深度学习的乘客属性的获取方法的步骤2的步骤。
13.一种基于深度学习的乘客属性的获取模型训练方法,包括如下步骤:
(1)构建训练样本集
采集每个乘客上车的图像序列,对图像序列中的每张图像进行乘客属性的标注,所述乘客属性包括:1)乘客基本属性2)着衣属性3)附属物属性4)视角属性;具体的,乘客基本属性包括年龄段,性别,发型,是否带眼镜;着衣属性包括是否带口罩,是否戴帽子,上衣类型,下衣类型,上衣颜色,下衣颜色;附属物属性包括是否背包,手拎物品,其它;视角属性包括正面视角,侧面视角,背面视角;对于视角属性的标注,是对基本属性,着衣属性,附属物属性中每个子属性进行权重系数的标注,划分构成样本集;
(2)训练乘客属性模型
采用一个多任务的深度网络,多任务的深度网络包含基础网络部分和多任务分类网络部分;基础网络部分选用resnet50网络分类层之前的网络层,在此基础上有如下修改:
1)在经过第二组Bottleneck后,引出一个分类分支进行视角的分类,该部分的Softmax返回结果为乘客基本属性、着衣属性、附属物属性中各子属性的权重系数组合,该权重系数反应了不同视角下各属性的置信度B情况;
2)在基础网络的第四组Bottleneck后,复制一份当前网络层输出的特征映射图,进行以下操作
截取该特征映射图的上半部分,先对上半部分特征映射图进行均值池化操作,得到global_avg1特征向量,再分别连续做两个卷积的操作,然后做Softmax操作,对发型,戴帽子,戴眼镜,戴口罩进行预测;
对完整特征映射图进行均值池化操作得到global_avg2特征向量,连续做两个卷积的操作,然后做Softmax操作;对上衣类型,下衣类型,上衣颜色,下衣颜色,背包,手拎物,其他类别进行预测;
结合global_avg1特征向量和global_avg2特征向量,连续做两个卷积的操作,然后做Softmax操作;对年龄段和性别进行预测;
3)使用视角分类的权重系数结果,对步骤2)得到的预测结果进行加权处理,得到最终的预测结果输出;
根据预测结果与标注值进行loss的设计和反向误差传播;
(3)对乘客属性模型测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910892154.9A CN112541374B (zh) | 2019-09-20 | 2019-09-20 | 一种基于深度学习的乘客属性的获取方法、装置及模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910892154.9A CN112541374B (zh) | 2019-09-20 | 2019-09-20 | 一种基于深度学习的乘客属性的获取方法、装置及模型训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112541374A CN112541374A (zh) | 2021-03-23 |
CN112541374B true CN112541374B (zh) | 2024-04-30 |
Family
ID=75012530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910892154.9A Active CN112541374B (zh) | 2019-09-20 | 2019-09-20 | 一种基于深度学习的乘客属性的获取方法、装置及模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541374B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114332184B (zh) * | 2021-11-30 | 2023-05-02 | 南京行者易智能交通科技有限公司 | 一种基于单目深度估计的乘客统计识别的方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017092269A1 (zh) * | 2015-12-03 | 2017-06-08 | 杭州海康威视数字技术股份有限公司 | 客流信息采集方法及装置、客流信息处理方法及装置 |
CN108241844A (zh) * | 2016-12-27 | 2018-07-03 | 北京文安智能技术股份有限公司 | 一种公交客流统计方法、装置及电子设备 |
CN108549926A (zh) * | 2018-03-09 | 2018-09-18 | 中山大学 | 一种用于精细化识别车辆属性的深度神经网络及训练方法 |
CN108921022A (zh) * | 2018-05-30 | 2018-11-30 | 腾讯科技(深圳)有限公司 | 一种人体属性识别方法、装置、设备及介质 |
CN109325404A (zh) * | 2018-08-07 | 2019-02-12 | 长安大学 | 一种公交场景下的人数统计方法 |
CN109902550A (zh) * | 2018-11-08 | 2019-06-18 | 阿里巴巴集团控股有限公司 | 行人属性的识别方法和装置 |
CN110009153A (zh) * | 2019-04-04 | 2019-07-12 | 南京行者易智能交通科技有限公司 | 一种基于od客流的公交排班优化方法及系统 |
CN110084197A (zh) * | 2019-04-28 | 2019-08-02 | 苏州清研微视电子科技有限公司 | 基于深度学习的公交车客流量统计方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017156772A1 (zh) * | 2016-03-18 | 2017-09-21 | 深圳大学 | 一种乘客拥挤度的计算方法及其系统 |
US11087130B2 (en) * | 2017-12-29 | 2021-08-10 | RetailNext, Inc. | Simultaneous object localization and attribute classification using multitask deep neural networks |
-
2019
- 2019-09-20 CN CN201910892154.9A patent/CN112541374B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017092269A1 (zh) * | 2015-12-03 | 2017-06-08 | 杭州海康威视数字技术股份有限公司 | 客流信息采集方法及装置、客流信息处理方法及装置 |
CN106845318A (zh) * | 2015-12-03 | 2017-06-13 | 杭州海康威视数字技术股份有限公司 | 客流信息采集方法及装置、客流信息处理方法及装置 |
CN108241844A (zh) * | 2016-12-27 | 2018-07-03 | 北京文安智能技术股份有限公司 | 一种公交客流统计方法、装置及电子设备 |
CN108549926A (zh) * | 2018-03-09 | 2018-09-18 | 中山大学 | 一种用于精细化识别车辆属性的深度神经网络及训练方法 |
CN108921022A (zh) * | 2018-05-30 | 2018-11-30 | 腾讯科技(深圳)有限公司 | 一种人体属性识别方法、装置、设备及介质 |
CN109325404A (zh) * | 2018-08-07 | 2019-02-12 | 长安大学 | 一种公交场景下的人数统计方法 |
CN109902550A (zh) * | 2018-11-08 | 2019-06-18 | 阿里巴巴集团控股有限公司 | 行人属性的识别方法和装置 |
CN110009153A (zh) * | 2019-04-04 | 2019-07-12 | 南京行者易智能交通科技有限公司 | 一种基于od客流的公交排班优化方法及系统 |
CN110084197A (zh) * | 2019-04-28 | 2019-08-02 | 苏州清研微视电子科技有限公司 | 基于深度学习的公交车客流量统计方法和系统 |
Non-Patent Citations (1)
Title |
---|
实时信息下的乘客路径选择行为;曾鹦;李军;朱晖;;计算机应用;20131001;第33卷(第10期);2964-2968 * |
Also Published As
Publication number | Publication date |
---|---|
CN112541374A (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837778B (zh) | 一种基于骨架关节点序列的交警指挥手势识别方法 | |
Li et al. | A unified framework for concurrent pedestrian and cyclist detection | |
CN107016357B (zh) | 一种基于时间域卷积神经网络的视频行人检测方法 | |
CN109146921B (zh) | 一种基于深度学习的行人目标跟踪方法 | |
CN110717414A (zh) | 一种目标检测追踪方法、装置及设备 | |
CN104298969B (zh) | 基于颜色与haar特征融合的人群规模统计方法 | |
JP6398979B2 (ja) | 映像処理装置、映像処理方法および映像処理プログラム | |
CN103020992B (zh) | 一种基于运动颜色关联的视频图像显著性检测方法 | |
CN108171112A (zh) | 基于卷积神经网络的车辆识别与跟踪方法 | |
CN108537117A (zh) | 一种基于深度学习的乘客检测方法和系统 | |
CN107180226A (zh) | 一种基于组合神经网络的动态手势识别方法 | |
CN103020985B (zh) | 一种基于场量分析的视频图像显著性检测方法 | |
CN111860274A (zh) | 基于头部朝向与上半身骨架特征的交警指挥手势识别方法 | |
CN105868690A (zh) | 识别驾驶员打手机行为的方法和装置 | |
CN111597870A (zh) | 一种基于注意力机制与多任务学习的人体属性识别方法 | |
Erlik Nowruzi et al. | In-vehicle occupancy detection with convolutional networks on thermal images | |
CN107145819A (zh) | 一种公交车拥挤度确定方法和装置 | |
CN111178403B (zh) | 训练属性识别模型的方法、装置、电子设备及存储介质 | |
CN110543917B (zh) | 一种利用行人惯导轨迹与视频信息的室内地图匹配方法 | |
Liu et al. | Multi-type road marking recognition using adaboost detection and extreme learning machine classification | |
JP2019106193A (ja) | 情報処理装置、情報処理プログラム、及び、情報処理方法 | |
CN106650635A (zh) | 一种驾驶员后视镜查看行为检测方法及系统 | |
CN112541374B (zh) | 一种基于深度学习的乘客属性的获取方法、装置及模型训练方法 | |
CN105890600A (zh) | 基于手机传感器的地铁乘客位置推测方法 | |
Hoang et al. | An improvement of RetinaNet for hand detection in intelligent homecare systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |