CN110046577A

CN110046577A - 行人属性预测方法、装置、计算机设备和存储介质

Info

Publication number: CN110046577A
Application number: CN201910308746.1A
Authority: CN
Inventors: 张保成
Original assignee: Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Maigewei Technology Co Ltd
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2019-07-23
Anticipated expiration: 2039-04-17
Also published as: CN110046577B

Abstract

本申请涉及一种行人属性预测方法、装置、计算机设备和存储介质。所述方法包括：将待识别图像输入第一神经网络，得到特征信息和行人分割信息，将特征信息和行人分割信息进行信息融合，得到特征图集，对特征图集进行池化处理，并将池化处理后得到的特征均值集输入第二神经网络，预测出行人各个分割区域的颜色，从而可以有效地实现搜索视频中相关的目标行人。

Description

行人属性预测方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种行人属性预测方法、装置、计算机设备和存储介质。

背景技术

在视频结构化的诸多应用中，行人分析是计算机视觉领域内的一个研究热点，同时在现实中具有十分重要的应用价值，特别是对于人的身份识别在安防、视频检索等众多领域起着核心作用。

目前有很多针对行人分析方法，主要分为三大类：基于外观特征、结合生物特征和结合图像序列的空间关系。由于监控视频的清晰度问题，使得人脸识别不能在此情况下应用，转而分析行人的穿着，如衣服、裤子的颜色特征，从而可以过滤掉大部分不相关的目标，实现相关目标的快速检索。

由于颜色特征是在图像检索中应用最为广泛的视觉特征，与其他的视觉特征相比，颜色特征对图像本身的尺寸、方向、视角的依赖性较小，具有较高的鲁棒性。因此通过提取行人躯干、腿部等外观颜色信息，可以有效地实现搜索视频中相关的目标行人，但是现有的技术还没有涉及到这方面的研究，故需要一个新的技术方案来实现突破。

发明内容

基于此，有必要针对上述技术问题，提供一种行人属性预测方法、装置、计算机设备和存储介质。

一种行人属性预测方法，所述方法包括：

将待识别图像输入第一神经网络，得到特征信息和行人分割信息；

将所述特征信息和所述行人分割信息进行信息融合，得到特征图集；

对所述特征图集进行池化处理，并将池化处理后得到的特征均值集输入第二神经网络，预测出行人各个分割区域的颜色。

在其中一个实施例中，所述第一神经网络包括卷积神经网络和行人分割模型；所述卷积神经网络和所述行人分割模型并联连接；

所述将待识别图像输入第一神经网络，得到特征信息和行人分割信息，包括：

将所述待识别图像输入所述卷积神经网络，得到所述特征信息；

将所述待识别图像输入所述行人分割模型，得到所述行人分割信息。

在其中一个实施例中，所述行人分割信息包括至少一个分割区域；

所述将所述特征信息和所述行人分割信息进行信息融合，得到特征图集，包括：

将所述每一个分割区域与所述特征信息进行信息融合，得到所述特征图集。

在其中一个实施例中，所述将所述每一个分割区域与所述特征信息进行信息融合，得到所述特征图集，包括：

将包含分割区域信息的所述行人分割信息与所述特征信息在维度通道上进行特征串联拼接，得到所述特征图集。

将包含分割区域信息的所述行人分割信息与所述特征信息按位相乘，得到所述特征图集。

在其中一个实施例中，所述第二神经网络为全连接神经网络；

所述对所述特征图集进行池化处理，并将池化处理后得到的特征均值集输入第二神经网络，预测出行人各个分割区域的颜色，包括：

对所述特征图集进行池化处理，得到与所述特征图集对应的特征均值集；

将所述特征均值集输入所述全连接神经网络，得到每个分割区域的属于预设颜色的概率集；

根据所述概率集预测出行人各个分割区域的颜色。

在其中一个实施例中，所述方法还包括：

对待训练图像中的预设区域进行颜色标注，得到训练样本；

将所述训练样本输入初始第一神经网络和初始第二神经网络进行训练，得到所述第一神经网络和所述第二神经网络。

在其中一个实施例中，所述将所述训练样本输入初始第一神经网络和初始第二神经网络进行训练，得到所述第一神经网络和所述第二神经网络，包括：

将所述训练样本输入所述初始第一神经网络，得到初始特征信息和初始行人分割信息；

将所述初始特征信息和所述初始行人分割信息进行信息融合，得到初始特征图集；

对所述初始特征图集进行池化处理，并将池化处理后得到的初始特征均值集输入初始第二神经网络，得到输出结果；

计算所述输出结果和所述训练样本的损失；

根据所述损失更新所述初始第一神经网络和所述初始第二神经网络的网络参数，并迭代执行上述训练步骤，直到网络收敛，得到所述第一神经网络和所述第二神经网络。

一种行人属性预测装置，所述装置包括：

信息获取模块，用于将待识别图像输入第一神经网络，得到特征信息和行人分割信息；

信息融合模块，用于将所述特征信息和所述行人分割信息进行信息融合，得到特征图集；

预测模块，用于对所述特征图集进行池化处理，并将池化处理后得到的特征均值集输入第二神经网络，预测出行人各个分割区域的颜色。

一种计算机设备，包括存储器及处理器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述行人属性预测方法、装置、计算机设备和存储介质，将待识别图像输入第一神经网络，得到特征信息和行人分割信息，将特征信息和行人分割信息进行信息融合，得到特征图集，对特征图集进行池化处理，并将池化处理后得到的特征均值集输入第二神经网络，预测出行人各个分割区域的颜色。其中，通过将行人身体的每个区域分割出来得到行人分割信息，利用上述神经网络，将特征信息和行人分割信息进行信息融合，并进行预测，可以得到每个区域的颜色，从而可以有效地实现搜索视频中相关的目标行人。

附图说明

图1为一个实施例中行人属性预测方法的应用环境图；

图2为一个实施例中行人属性预测方法的流程示意图；

图3为一个实施例中步骤S201的细化步骤的流程示意图；

图4为一个实施例中步骤S203的细化步骤的流程示意图；

图5为另一个实施例中行人属性预测方法的流程示意图；

图6为一个实施例中行人属性预测装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的行人属性预测方法，可以应用于如图1所示的应用环境中。其中，图像采集装置10与计算机设备20相连接。其中，图像采集装置10与计算机设备20可以设置为一体式终端，该一体式终端可以包含但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑。该图像采集装置10与计算机设备20还可以是分别独立设置的图像采集装置10(例如相机)与服务器，该图像采集装置10通过网络与服务器通信连接，该服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

可选地，图像采集装置10获取待识别图像，其中，该待识别图像可以为图像采集装置10从网络或者其他图像采集装置10获取到的图像，或者为图像采集装置10从视频画面中截取的图像等。其中，图像采集装置10在获取到待识别图像后，将待识别图像发送至计算机设备20。可选地，该计算机设备20包含至少一个处理器21和存储器22。可选地，该处理器21可以为CPU(Central Processing Unit，中央处理器)，GPU(Graphics Processing Unit，图形处理器)等等，该处理器21可以为多核处理器，例如多核GPU。

其中，该计算机设备20内的存储器22内存储有行人属性预测算法，处理器21可以调用并运行存储器22内的行人属性预测算法，对输入神经网络的待识别图像进行特征提取、区域分割、信息融合等操作，预测出行人各个分割区域的颜色。

在一个实施例中，如图2所示，提供了一种行人属性预测方法，以该方法应用于图1为例进行说明，包括以下步骤：

步骤S201，将待识别图像输入第一神经网络，得到特征信息和行人分割信息；

在本发明实施例中，待识别图像可以为多种格式的图像，例如，该待识别图像可以为RGB图像。

其中，上述第一神经网络是预先训练好的网络，将待识别图像输入第一神经网络，进行特征提取，可以得到特征信息。在本发明实施例中，特征信息是进行特征提取之后所生成的若干张特征图，每张特征图中可以包含颜色信息、轮廓信息等多种信息，此处不加以限定。

其中，行人分割信息是对待识别图像进行区域分割后得到的一个个区域信息，例如，对待识别图像进行区域分割，得到帽子区域、头发区域、上身区域、下身区域、鞋子区域等。

步骤S202，将所述特征信息和所述行人分割信息进行信息融合，得到特征图集；

其中，信息融合可以是将特征信息和行人分割信息进行特征串联处理或者特征相乘处理。

其中，上述特征图集是进行信息融合后所生成的若干数量的特征图所构成的集合。该特征图集包含了用于预测每个区域颜色的特征信息。

步骤S203，对所述特征图集进行池化处理，并将池化处理后得到的特征均值集输入第二神经网络，预测出行人各个分割区域的颜色。

其中，对特征图集中的每张特征图进行池化处理，可以得到与每张特征图对应的特征均值，所有特征图对应的特征均值构成了一个特征均值集。

其中，上述第二神经网络是预先训练好的网络，第二神经网络对输入的特征均值集进行分析，可以直接预测出行人各个分割区域的颜色。

上述行人属性预测方法，将待识别图像输入第一神经网络，得到特征信息和行人分割信息，将特征信息和行人分割信息进行信息融合，得到特征图集，对特征图集进行池化处理，并将池化处理后得到的特征均值集输入第二神经网络，预测出行人各个分割区域的颜色。其中，将行人身体的每个区域分割出来得到行人分割信息，利用上述神经网络，将特征信息和行人分割信息进行信息融合，并进行预测，可以得到每个区域的颜色，从而可以有效地实现搜索视频中相关的目标行人。

在一个实施例中，如图3所示，为步骤S201的细化步骤的流程示意图，其中，所述第一神经网络包括卷积神经网络和行人分割模型；所述卷积神经网络和所述行人分割模型并联连接；则步骤S201具体包括：

步骤S2011，将所述待识别图像输入所述卷积神经网络，得到所述特征信息；

步骤S2012，将所述待识别图像输入所述行人分割模型，得到所述行人分割信息。

在本发明实施例中，第一神经网络由卷积神经网络和行人分割模型构成。其中，行人分割模型是利用卷积神经网络训练出来的一个模型。

其中，上述关于步骤S2011和步骤S2012的描述与S201所描述的内容相似，此处不再加以赘述。

在本发明实施例中，对于一个新部位的颜色，只需要利用上述行人分割模型进行区域分割，即可将该新部位分割出来，不必再使用新的颜色数据训练出一个新的模型，具有良好的可扩展性。

在一个实施例中，可选的，步骤S202将所述特征信息和所述行人分割信息进行信息融合，得到特征图集，主要包括两种方法：

第一种：将所述每一个分割区域与所述特征信息进行信息融合，得到所述特征图集。

在本发明实施例中，特征信息是包含了待识别图像中的全部特征的特征向量，该特征信息中没有对区域进行划分。因为行人分割模型是解卷积神经网络CNN训练得到的，所以行人分割模型输出的结果(每一个分割区域)也是特征向量，且该每一个分割区域是与特征信息尺寸一致的特征向量。因为两者是尺寸一致的特征向量，所以可以在维度通道上进行特征串联拼接，得到特征图集。

第二种：将包含分割区域信息的所述行人分割信息与所述特征信息按位相乘，得到所述特征图集。

在本发明实施例中，特征信息是包含了待识别图像中的全部特征的特征向量，而行人分割模型输出的结果(每一个分割区域)可以是网络模型的权重输出，将权重输出(行人分割模型输出的每一个分割区域)按位与特征向量(卷积神经网络输出的特征信息)相乘，得到特征图集。

在一个实施例中，如图4所示，为步骤S203的细化步骤的流程示意图，其中，所述第二神经网络为全连接神经网络；则步骤S203具体包括：

步骤S2031，对所述特征图集进行池化处理，得到与所述特征图集对应的特征均值集；

步骤S2032，将所述特征均值集输入所述全连接神经网络，得到每个分割区域的属于预设颜色的概率集；

其中，上述全连接神经网络是预先训练好的网络，该全连接神经网络内设置有代表某颜色的编码信息和该颜色的对应关系。

在本发明实施例中，因为特征均值集包含了颜色信息、行人分割信息等信息，则全连接神经网络对输入的一个特征均值集进行分析后，可以输出各个分割区域的属于预设颜色的概率集，其中，概率集包含了若干个概率值，概率集中的概率值的数量可以和网络输入有关，例如，网络设置输出为12种颜色类别，则每个分割区域对应的概率集包含了12个概率值，每一个概率值表示属于某一个编码信息的概率。

步骤S2033，根据所述概率集预测出行人各个分割区域的颜色。

可选的，在本发明实施例中，如上述步骤S2032中的例子，因为每一个概率值表示属于某一个编码信息的概率，确定出某个分割区域对应的概率集中的最大概率值，从而确定出与该最大概率值对应的编号信息，则该编号信息对应的颜色确定为该分割区域的颜色。

在一个实施例中，如图5所示，提供了一种行人属性预测方法，以该方法应用于图1为例进行说明，包括以下步骤：

步骤S501，对待训练图像中的预设区域进行颜色标注，得到训练样本；

在本发明实施例中，可以人工或者利用计算机对待训练图像中的预设区域进行颜色标注，得到训练样本。

可选的，训练过程中可以只标注行人的上身颜色和下身颜色，但是训练好的网络可以预测行人分割模型分割出来的任意部分的颜色，原因是卷积神经网络可以提取整个待识别图像的特征信息，只要与行人分割模型对应部位融合即可输入到全连接神经网络，而全连接神经网络只是根据融合后的特征图集来预测颜色，与行人部位无关。

步骤S502，将所述训练样本输入初始第一神经网络和初始第二神经网络进行训练，得到所述第一神经网络和所述第二神经网络。

在本发明实施例中，将训练样本输入初始第一神经网络，得到初始特征信息和初始行人分割信息，将初始特征信息和所述初始行人分割信息进行信息融合，得到初始特征图集，对初始特征图集进行池化处理，并将池化处理后得到的初始特征均值集输入初始第二神经网络，得到输出结果，计算输出结果和训练样本的损失，根据损失更新初始第一神经网络和初始第二神经网络的网络参数，并迭代执行上述训练步骤，直到网络收敛，得到第一神经网络和第二神经网络。

其中，训练过程关键在于信息融合，可选的，两者融合方法为：将第一神经网络中的卷积神经网络输出的特征信息和第一神经网络中的行人分割模型输出的行人分割信息的对应部位的概率图进行特征串联拼接或按位相乘。

可选的，计算损失的损失函数为传统分类任务中的交叉熵损失函数。

上述行人属性预测方法，对待训练图像中的预设区域进行颜色标注，得到训练样本，将训练样本输入初始第一神经网络和初始第二神经网络进行训练，得到第一神经网络和第二神经网络，利用上述方法，训练中每个部分的训练不再局限于该类的数据，所有颜色可以共享训练数据。利用该训练好的第一神经网络和第二神经网络，可以将特征信息和行人分割信息进行信息融合，并进行预测，得到每个区域的颜色，从而可以有效地实现搜索视频中相关的目标行人。

应该理解的是，虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种行人属性预测装置，包括：信息获取模块601、信息融合模块602和预测模块603，其中：

信息获取模块601，用于将待识别图像输入第一神经网络，得到特征信息和行人分割信息；

信息融合模块602，用于将所述特征信息和所述行人分割信息进行信息融合，得到特征图集；

预测模块603，用于对所述特征图集进行池化处理，并将池化处理后得到的特征均值集输入第二神经网络，预测出行人各个分割区域的颜色。

作为一种可选地实施方式，所述第一神经网络包括卷积神经网络和行人分割模型；所述卷积神经网络和所述行人分割模型并联连接；所述信息获取模块601用于：

作为一种可选地实施方式，所述行人分割信息包括至少一个分割区域；所述信息融合模块602用于：

作为一种可选地实施方式，所述信息融合模块602还用于：

作为一种可选地实施方式，所述信息融合模块702还用于：

作为一种可选地实施方式，所述第二神经网络为全连接神经网络；所述预测模块603用于：

根据所述概率集预测出行人各个分割区域的颜色。

作为一种可选地实施方式，所述行人属性预测装置还包括样本确定模块和训练模块，具体的：

所述样本确定模块，用于对待训练图像中的预设区域进行颜色标注，得到训练样本；

所述训练模块，用于将所述训练样本输入初始第一神经网络和初始第二神经网络进行训练，得到所述第一神经网络和所述第二神经网络。

作为一种可选地实施方式，所述训练模块具体用于：

计算所述输出结果和所述训练样本的损失；

关于行人属性预测装置的具体限定可以参见上文中对于行人属性预测方法的限定，在此不再赘述。上述行人属性预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储特征信息和行人分割信息等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种行人属性预测方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器及处理器，所述存储器上存储有可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据所述概率集预测出行人各个分割区域的颜色。

对待训练图像中的预设区域进行颜色标注，得到训练样本；

计算所述输出结果和所述训练样本的损失；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据所述概率集预测出行人各个分割区域的颜色。

对待训练图像中的预设区域进行颜色标注，得到训练样本；

计算所述输出结果和所述训练样本的损失；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种行人属性预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一神经网络包括卷积神经网络和行人分割模型；所述卷积神经网络和所述行人分割模型并联连接；

3.根据权利要求1所述的方法，其特征在于，所述行人分割信息包括至少一个分割区域；

4.根据权利要求3所述的方法，其特征在于，所述将所述每一个分割区域与所述特征信息进行信息融合，得到所述特征图集，包括：

5.根据权利要求3所述的方法，其特征在于，所述将所述每一个分割区域与所述特征信息进行信息融合，得到所述特征图集，包括：

6.根据权利要求1所述的方法，其特征在于，所述第二神经网络为全连接神经网络；

根据所述概率集预测出行人各个分割区域的颜色。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对待训练图像中的预设区域进行颜色标注，得到训练样本；

8.根据权利要求7所述的方法，其特征在于，所述将所述训练样本输入初始第一神经网络和初始第二神经网络进行训练，得到所述第一神经网络和所述第二神经网络，包括：

计算所述输出结果和所述训练样本的损失；

9.一种行人属性预测装置，其特征在于，所述装置包括：

10.一种计算机设备，包括存储器及处理器，所述存储器上存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。