CN109948709A

CN109948709A - 一种目标对象的多任务属性识别系统

Info

Publication number: CN109948709A
Application number: CN201910216045.5A
Authority: CN
Inventors: 鞠蓉; 邢卫国
Original assignee: Nanjing Smart Intelligent Technology Co Ltd
Current assignee: Jiangsu Future Networks Innovation Institute
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2019-06-28
Anticipated expiration: 2039-03-21
Also published as: CN109948709B

Abstract

一种目标对象的多任务属性识别系统，涉及计算机视觉技术领域。本发明包括：接收外部输入的待识别目标对象图像的数据输入层；对数据输入层接收的外部目标对象图像进行浅层学习的第一基础卷积神经网络；对第一基础卷积神经网络学习得到的信息进行深度学习的第二基础卷积神经网络；提取目标对象局部特征的第一局部特征提取网络、第二局部特征提取网络；提取目标对象图像全局特征的全局特征提取网络；对目标对象图像进行识别视角的视角识别网络；对两个局部特征数据进行合并处理的融合特征层；进行属性识别的多任务属性识别网络。降低了资源消耗，无需占用过多的存储资源即计算资源，能够同时应用于车辆属性识别和行人属性识别。

Description

一种目标对象的多任务属性识别系统

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种目标对象的多任务属性识别系统。

背景技术

车辆属性识别和行人属性识别是现代智能交通系统的重要组成部分，缓解了越来越严峻的交通压力。车辆属性识别主要包括车辆视角识别、车身颜色识别、车辆类型识别、车辆品牌识别、车辆子品牌识别等信息。车辆属性识别能够通过智能分析车辆，提取出关键的属性信息，对车辆进行文本的语义描述以便对视频中的车辆进行识别、跟踪、检索等操作。行人属性，如年龄、性别、发型、衣服款式、衣服颜色、配饰等，是人类重要的语义描述，可以作为视觉监控中的软生物特征，有利于行人检索、行人识别和行人再识别等应用。

目前，车辆属性和行人属性一般需要分别设计不同的神经网络模型进行识别，而对车辆属性进行识别时，又需要针对不同的车辆属性分别训练一个神经网络模型，利用训练好的不同的神经网络模型分别识别并输出同一张车辆图像的不同车辆属性。

通过训练多个神经网络模型分别对车辆图像和行人图像进行识别而得到相应图像所对应的不同属性时，需要占用较多的存储资源及计算资源，资源消耗较高。

发明内容

为了降低资源消耗，无需占用过多的存储资源即计算资源，本发明的目的在于提供一种目标对象的多任务属性识别系统，能够同时应用于车辆属性识别和行人属性识别。

本发明提供了一种目标对象的多任务属性识别系统，所述系统包括：

数据输入层、第一基础卷积神经网络、第二基础卷积神经网络、第一局部特征提取网络、第二局部特征提取网络、全局特征提取网络、视角识别网络、融合特征层以及多任务属性识别网络；

所述数据输入层，用于接收外部输入的待识别的目标对象图像；

所述第一基础卷积神经网络，用于对所述数据输入层接收的外部目标对象图像进行浅层学习，学习得到浅层特征信息；

所述第二基础卷积神经网络，用于对所述第一基础卷积神经网络学习得到的所述浅层特征信息进行深度学习；

所述第一局部特征提取网络，用于提取所述目标对象图像经过所述第一基础卷积神经网络学习得到的局部特征；

所述第二局部特征提取网络，用于提取所述目标对象图像经过所述第一基础卷积神经网络和所述第二基础卷积神经网络学习得到的局部特征；

所述全局特征提取网络，用于提取所述目标对象图像的全局特征；

所述视角识别网络，用于对所述数据输入层接收的所述目标对象图像进行识别以判别所述目标对象的视角并获得其属于不同视角的置信值；

所述融合特征层，用于对两个所述局部特征提取网络和所述全局特征提取网络得到的特征数据进行合并处理以形成对应的高级特征数据；

所述多任务属性识别网络，用于对所述目标对象图像进行属性识别。

优选的，所述第一基础卷积神经网络，由多个卷积层、至少一个池化层以及至少一层inception层组成，其中，排列在首位的所述卷积层输入为所述数据输入层接收的所述待识别目标对象图像，提取所述目标对象图像的浅层特征数据，并将所述浅层特征数据输出至与其相连的后置卷积层，后置卷积层对所述浅层特征数据进行特征提取以形成新的特征数据，排列在末位的所述卷积层与所述池化层相连；所述池化层，用于对相连的所述卷积层接收的浅层特征数据进行降维处理以形成低维浅层特征数据，排列在末位的池化层与排在首位的所述inception层相连接；排在末位的所述inception层分别与所述第一局部特征提取网络、所述第二基础卷积神经网络以及所述视角识别网络相连接。

优选的，所述第二基础卷积神经网络，由多层inception层组成，其中，排在首位的inception层与所述第一基础卷积神经网络相连，排在末位的inception层与所述第二局部特征提取网络和全局特征提取网络相连接。

优选的，所述第一局部特征提取网络，包括卷积层、可变空间金字塔池化层(FlexibleSpatial Pyramid Pooling, FSPP)，其中，位于首位的所述卷积层与所述第一基础卷积神经网络的输出端相连接，通过所述第一基础卷积神经网络获取的浅层特征数据学习得到局部中层特征数据；所述FSPP层，能够根据不同属性中层特征数据的局部空间分布特性获取不同属性的位置信息。

优选的，所述第二局部特征提取网络的网络结构和所述第一局部特征提取网络相同，其中，位于首位的所述卷积层与所述第二基础卷积神经网络的输出端相连接，通过所述第二基础卷积神经网络深度学习获取的特征数据学习得到局部深层特征数据。

优选的，所述全局特征提取网络，由多层inception层组成，其中，排在首位的inception层与所述第二基础卷积神经网络相连，根据所述第二基础卷积神经网络深度学习获取的特征数据学习得到全局高层特征数据。

优选的，所述视角识别网络的输入端与所述第一基础卷积神经网络的输出端相连接，通过所述第一基础卷积神经网络对接收到的所述待识别目标对象图像进行浅层学习得到的浅层特征信息，对所述待识别目标对象进行识别得到所述待识别目标对象的视角信息以及属于不同视角的预测权值，将所述预测权值输出至所述多任务属性识别网络。

优选的，所述多任务属性识别网络，包括：正面属性识别单元、背面属性识别单元以及侧面属性识别单元，所述的各个视角属性识别单元的输出的所述属性信息分别与所述视角识别网络输出的对应视角的预测权值进行权值相加得到所述属性信息。

本发明提供了一种目标对象的多任务属性识别系统，该系统由数据输入层、第一基础卷积神经网络、第二基础卷积神经网络、第一局部特征提取网络、第二局部特征提取网络、全局特征提取网络、视角识别网络、融合特征层以及多任务属性识别网络构成。基础卷积神经网络能够学习获取数据输入层接收的待识别目标对象图像的浅层特征信息和中层特征信息；局部特征提取网络可以获取数据输入层接收的待识别目标对象图像的局部特征数据；全局特征可以根据中层特征信息学习得到全局高层特征数据；视角识别网络能够提前识别待识别目标对象的视角属性并获取不同视角的预测权值，有效利用了待识别目标对象的视角信息，降低了视角变化对属性识别带来的影响；多任务属性识别网络可根据局部特征数据、全局特征数据以及视角预测权值确定并输出待识别目标对象的属性信息。由于车辆和行人同样具有视角属性，可见，通过本发明提供的技术方案，既适用于行人属性识别，也适用于车辆属性识别。实现对车辆或行人图像进行识别以确定并输出待识别目标对象所对应的多种属性时，无需训练多个不同的神经网络模型来分别针对不同的属性进行识别，即无需占用过多的存储资源和计算资源，又降低了资源消耗；同时充分利用了目标的视角属性信息，降低了目标视角信息对属性识别带来的影响。

附图说明

为了更清晰地说明本发明实施例中具体的技术方案，下面将对实施例中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种目标对象的多任务属性识别的结构示意图；

图2为本发明实施例提供的多任务行人属性识别网络结构示意图；

图3为本发明实施例提供的多任务车辆属性识别网络结构示意图；

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合具体实施例即相应的附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种目标对象的多任务属性识别方法，包括：数据输入层101、第一基础卷积神经网络102、第二基础卷积神经网络103、第一局部特征提取网络104、第二局部特征提取网络105、全局特征提取网络106、视角识别网络107、融合特征层108以及多任务属性识别网络109。

所述数据输入层101，用于接收外部输入的待识别的目标对象图像；

需要说明的是，在本发明实施例中，目标对象可以为行人，也可以为车辆。对此，在本发明实施例中，不做具体的限定。进一步需要说明的是，在本发明实施例中，获取的图像为待识别的目标对象，其中，目标对象的数量可以为一个，也可以为多个。

所述第一基础卷积神经网络102，用于对所述数据输入层101接收的外部目标对象图像进行浅层学习，学习得到浅层特征数据；

这里，浅层特征数据的类型包括但不限于纹理数据、边缘数据或者色彩数据。

具体的，在本发明一实施例中，所述第一基础卷积神经网络102，包括多个卷积层、至少一个池化层以及至少一层inception层，其中，排列在首位的所述卷积层输入为所述数据输入层接收的所述待识别目标对象图像，提取所述目标对象的浅层特征数据，并将所述浅层特征数据输出至与其相连的后置卷积层，后置卷积层对所述浅层特征数据进行特征提取以形成新的特征数据，排列在末位的所述卷积层与所述池化层相连；所述池化层，用于对所述卷积层接收的浅层特征数据进行降维处理以形成低维浅层特征数据，排列在末位的池化层与排在首位的所述inception层相连接；所述inception层进行卷积时采用多个不同尺寸的卷积核，增加了特征图像的多样性，多尺度融合了特征图像，且降低了运算量，能够更好地适应所述目标对象图像尺寸的变化，排在末位的所述inception层分别与所述第一局部特征提取网络104、所述第二基础卷积神经网络103以及所述视角识别网络107相连接。

所述第二基础卷积神经网络103，用于对所述第一基础卷积神经网络102学习得到的所述浅层特征信息进行深度学习；

具体的，在本发明一实施例中，所述基础卷积神经网络2，由多层inception层组成，其中，排在首位的inception层与所述第一基础卷积神经网络102相连，排在末位的inception层与所述第二局部特征提取网络105和所述全局特征提取网络106相连接。

所述第一局部特征提取网络104，用于提取所述目标对象图像经过所述第一基础卷积神经网络102学习得到的局部特征；

所述第二局部特征提取网络105，用于提取所述目标对象图像经过所述第一基础卷积神经网络102和所述第二基础卷积神经网络103深度学习得到的局部特征；

需要说明的是，在本发明一实施例中，所述第一局部特征提取网络104和所述第二局部特征提取网络105结构相似，包括卷积层、可变空间金字塔池化层(FlexibleSpatialPyramid Pooling, FSPP)。

具体的，在所述第一局部特征提取网络104中，位于首位的所述卷积层与所述第一基础卷积神经网络102的输出端相连接，根据所述第一基础卷积神经网络102获取的浅层特征数据学习得到中层特征数据；所述FSPP层，能够根据不同属性中层特征数据的局部空间分布特性获取不同属性的位置信息，从不同的角度对所述特征数据进行特征提取再聚合。

具体的，在所述第二局部特征提取网络105中，位于首位的所述卷积层与所述第二基础卷积神经网络103的输出端相连接，根据所述第二基础卷积神经网络103深度学习获取的特征数据得到中层特征数据。

所述全局特征提取网络106，用于提取所述目标图像的全局特征；

具体的，所述全局特征提取网络，由多层inception层组成，其中，排在首位的inception层与所述第二基础卷积神经网络103相连，通过所述第二基础卷积神经网络103获取的特征数据学习得到全局高层特征数据。

所述视角识别网络107，用于对所述数据输入层101接收的所述目标对象进行识别以确定所述目标对象的视角属性并获得属于不同视角的置信值；

具体的，所述视角识别网络107的输入端与所述第一基础卷积神经网络102的输出端相连接，通过所述第一基础卷积神经网络102对接收到的所述待识别目标对象图像进行浅层学习得到的浅层特征信息，对所述待识别目标对象进行识别得到所述待识别目标对象的视角属性信息以及属于不同视角的预测权值，将所述预测权值输出至所述多任务属性识别网络109；

所述融合特征层108，用于对所述第一局部特征提取网络104、所述第二局部特征提取网络105和所述全局特征提取网络106得到的特征数据进行合并处理以形成对应的高级特征数据。

具体的，将所述局部特征信息与所述全局特征信息进行特征融合得到目标特征信息包括：对所述局部特征信息的张量与所述全局特征信息的张量进行叠加处理，并将叠加结果作为所述目标对象的特征信息；或者，对所述局部特征信息的张量与所述全局特征信息的张量进行加权合并，并将合并结果作为所述目标对象的特征信息。

需要说明的是，在本发明实施例中，局部特征信息和全局特征信息均为多维张量，例如，三维张量。

具体地，可以将所述第一局部特征提取网络104和所述第二局部特征提取网络105获取的所述局部特征信息的张量与全局特征信息的张量进行合并，例如，所述第一局部特征提取网络104获取的局部特征信息的张量为512个通道，所述第二局部特征提取网络105获取的局部特征信息的张量为512个通道，全局特征信息的张量为1024通道，合并后的张量为2048通道。另外，也可以将所述第一局部特征提取网络104获取的局部特征信息的张量、所述第二局部特征提取网络105获取的局部特征信息的张量与全局特征信息的张量进行加权合并，例如，所述第一局部特征提取网络104获取的局部特征信息的张量为512个通道，所述第二局部特征提取网络105获取的局部特征信息的张量为512个通道，全局特征信息的张量为1024通道，将全局特征信息的张量压缩为512通道再与两个局部特征信息的张量合并，以形成1536通道的张量。

在本发明实施例中，通过融合局部特征信息和全局特征信息来识别目标对象的属性信息，提高了属性识别的识别精度，缓解了现有的属性识别技术中大量的无用信息对局部相关属性识别精度造成的影响。

所述多任务属性识别网络109，用于对所述目标对象进行属性识别。

需要说明的是，本发明实施例中提供的目标对象的多任务属性识别方法可以用于行人属性识别、车辆属性识别等场景，其中多任务属性识别网络109对于不同的场景略有不同，下面结合不同的应用场景进行具体说明。

实施例一行人属性识别

当应用于行人属性识别时，目标对象的视角具体分为：行人正面、行人背面以及行人侧面。所述多任务属性识别网络109的具体网络结构如图2所示，包括：行人正面属性识别单元10911、行人背面属性识别单元10912、行人侧面属性识别单元10913以及行人属性10914，所述的各个视角属性识别单元分别与所述视角识别网络107输出的对应视角的预测权值进行权值相加得到所述属性信息。

需要说明的是，在本发明一实施例中，需要识别的行人属性特征的数量有12个，在本发明的其他实施例中，所述属性特征的数量可以为其他数量。对此，在本发明实施例中，不做具体的限定。

具体的，当所述属性特征的数量为12个时，所述的属性特征包括：性别、年龄、发型、人脸遮挡方式、上衣款式、下衣款式、鞋子类型、携带物、上衣颜色、下衣颜色、鞋子颜色以及上衣纹理，其中，所述性别包括2类，所述年龄包括4类，所述发型包括3类，所述人脸遮挡方式包括3类，所述上衣款式包括9类，所述下衣款式包括7类，所述鞋子类型包括5类，所述携带物包括7类，所述上衣颜色包括12类，所述下衣颜色包括8类，所述鞋子颜色包括9类，所述上衣纹理包括4类，属性总类别数量为73，因此属性标签表示为一个73维的二值向量，0表示所述目标对象不包含对应的属性，1表示所述目标对象包含对应的属性。

具体的，在图2中，所述行人正面属性识别单元10911、所述行人背面属性识别单元10912以及所述行人侧面属性识别单元10913分别确定并输出一个73维的向量，代表对应的行人属性信息，将所述的不同视角的属性识别单元输出的各个行人属性信息分别与所述视角识别网络107输出的对应视角的预测权值进行权值相加得到最终的所述行人属性信息。

实施例二车辆属性识别：

当应用于车辆属性识别时，目标的视角具体分为：车辆正面、车辆背面以及车辆侧面。所述多任务属性识别网络109的具体网络结构如图3所示，包括：车辆正面属性识别单元10921、车辆背面属性识别单元10922、车辆侧面属性识别单元10923，颜色识别模块10931、颜色识别模块10934、颜色识别模块10937、车型识别模块10932、车型识别模块10935、车型识别模块10938、车款识别模块10933、车款识别模块10936、车款识别模块10939以及颜色属性10941、车型属性10942、车款属性10943，所述的各个视角属性识别单元分别与所述视角识别网络107输出的对应视角的预测权值进行权值相加得到所述属性信息，输出最终的车辆颜色、车型、车款信息。

具体的，在本发明一实施例中，需要识别的车辆的属性特征具体包括颜色、车型以及车款，其中，车辆颜色包括11类，车型包括10类，车款包括三千多种。由于属性总类别比较多，不能将车辆属性标签表示为一个二值向量，因此需要对颜色、车型和车款分别设计一个识别模块，其中所述的各个属性识别模块获取与其对应的所述车辆图像的属性特征的所有类别的得分，然后将获得的所有类别的得分分别与所述视角识别网络输出的对应视角的预测权值进行权值相加，得到对应属性特征的所有类别的最终得分，输出得分最高的类别确定为与其对应的属性识别信息。

以上所述实施例仅用以说明本发明的具体技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种目标对象的多任务属性识别系统，其特征在于所述系统包括：

用于接收外部输入的待识别的目标对象图像的数据输入层；

用于对所述数据输入层接收的外部目标对象图像进行浅层学习，学习得到浅层特征信息的第一基础卷积神经网络；

用于对所述第一基础卷积神经网络学习得到的所述浅层特征信息进行深度学习的第二基础卷积神经网络；

用于提取所述目标对象图像经过所述第一基础卷积神经网络学习得到的局部特征的第一局部特征提取网络；

用于提取所述目标对象图像经过所述第一基础卷积神经网络和所述第二基础卷积神经网络学习得到的局部特征的第二局部特征提取网络；

用于提取所述目标对象图像全局特征的全局特征提取网络；

用于对所述数据输入层接收的所述目标对象图像进行识别以判别所述目标对象的视角并获得其属于不同视角置信值的视角识别网络；

用于对两个所述局部特征提取网络和所述全局特征提取网络得到的特征数据进行合并处理以形成对应的高级特征数据的融合特征层；

用于对所述目标对象图像进行属性识别的多任务属性识别网络。

2.根据权利要求1所述的目标对象的多任务属性识别系统，其特征在于上述第一基础卷积神经网络，由多个卷积层、至少一个池化层以及至少一层inception层组成，其中，排列在首位的所述卷积层输入为所述数据输入层接收的所述待识别目标对象图像，提取所述目标对象图像的浅层特征数据，并将所述浅层特征数据输出至与其相连的后置卷积层，后置卷积层对所述浅层特征数据进行特征提取以形成新的特征数据，排列在末位的所述卷积层与所述池化层相连；所述池化层，用于对相连的所述卷积层接收的浅层特征数据进行降维处理以形成低维浅层特征数据，排列在末位的池化层与排在首位的所述inception层相连接；排在末位的所述inception层分别与所述第一局部特征提取网络、所述第二基础卷积神经网络以及所述视角识别网络相连接。

3.根据权利要求1所述的目标对象的多任务属性识别系统，其特征在于上述第二基础卷积神经网络，由多层inception层组成，其中，排在首位的inception层与所述第一基础卷积神经网络相连，排在末位的inception层与所述第二局部特征提取网络和全局特征提取网络相连接。

4.根据权利要求1所述的目标对象的多任务属性识别系统，其特征在于上述第一局部特征提取网络，包括卷积层、可变空间金字塔池化层，其中，位于首位的所述卷积层与所述第一基础卷积神经网络的输出端相连接，通过所述第一基础卷积神经网络获取的浅层特征数据学习得到局部中层特征数据；所述可变空间金字塔池化层，能够根据不同属性中层特征数据的局部空间分布特性获取不同属性的位置信息。

5.根据权利要求1所述的目标对象的多任务属性识别系统，其特征在于上述第二局部特征提取网络的网络结构和所述第一局部特征提取网络相同，其中，位于首位的所述卷积层与所述第二基础卷积神经网络的输出端相连接，通过所述第二基础卷积神经网络深度学习获取的特征数据学习得到局部深层特征数据。

6.根据权利要求1所述的目标对象的多任务属性识别系统，其特征在于上述全局特征提取网络，由多层inception层组成，其中，排在首位的inception层与所述第二基础卷积神经网络相连，根据所述第二基础卷积神经网络深度学习获取的特征数据学习得到全局高层特征数据。

7.根据权利要求1所述的目标对象的多任务属性识别系统，其特征在于上述视角识别网络的输入端与所述第一基础卷积神经网络的输出端相连接，通过所述第一基础卷积神经网络对接收到的所述待识别目标对象图像进行浅层学习得到的浅层特征信息，对所述待识别目标对象进行识别得到所述待识别目标对象的视角信息以及属于不同视角的预测权值，将所述预测权值输出至所述多任务属性识别网络。

8.根据权利要求1所述的目标对象的多任务属性识别系统，其特征在于上述多任务属性识别网络，包括：正面属性识别单元、背面属性识别单元以及侧面属性识别单元，所述的各个视角属性识别单元的输出的所述属性信息分别与所述视角识别网络输出的对应视角的预测权值进行权值相加得到所述属性信息。