CN109344920B

CN109344920B - 顾客属性预测方法、存储介质、系统及设备

Info

Publication number: CN109344920B
Application number: CN201811535557.XA
Authority: CN
Inventors: 袁德胜; 游浩泉; 洪灿佳; 王作辉; 姚磊; 杨进参; 余晓聪
Original assignee: Winner Technology Co ltd
Current assignee: Winner Technology Co ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2021-02-02
Anticipated expiration: 2038-12-14
Also published as: CN109344920A

Abstract

本发明提供一种顾客属性预测方法、存储介质、系统及设备，所述顾客属性预测方法包括：获取顾客图像；将所述顾客图像进行预处理；所述预处理包括：划分训练集、验证集和测试集；构建网络并进行随机初始化；输入所述顾客图像数据并用所述训练集训练网络；计算回传梯度后的模型参数；在所述测试集上选取最优模型。本发明解决了基于深度学习的顾客属性预测过程中不能高效高质量提取顾客图像属性从而导致不能高精准的预测顾客属性的问题。并创造性的结合了注意力机制来有效高质量提取顾客属性行为特征，从而更加高精准高质量的对顾客属性进行预测。

Description

顾客属性预测方法、存储介质、系统及设备

技术领域

本发明特别涉及一种顾客属性预测方法、存储介质、系统及设备。

背景技术

商业大数据的有效利用给现代企业带来了巨大的商业机会和利益，在大数据时代，企业越来越重视如何有效利用数据，尤其是在商业客流领域中。作为与顾客直接接触的线下零售场所，如购物中心，连锁店和超市等地方，每天可以产生庞大的数据，如何从这些海量的数据中提取有效的信息，成为提高企业核心竞争力的关键。

特别是在大型商场购物中心，如何分析出顾客的喜好、顾客的主要集中时间段、顾客中的年龄段分布，是一个衡量商业客流分析提供商的重要指标。在实际应用场景中，由于场景复杂，导致最终形成的图像有较多的遮挡和失真，并且对于感兴趣的某些属性存在着极大的不平衡性，使得后续对顾客的分析造成困难。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种顾客属性预测方法、存储介质、系统及设备，用于解决现有技术中基于深度学习的顾客属性预测过程中不能高效高质量提取顾客图像属性从而导致不能高精准的预测顾客属性的问题。

为实现上述目的及其他相关目的，本发明提供一种顾客属性预测方法，所述顾客属性预测方法包括：获取顾客图像；将所述顾客图像进行预处理；所述预处理包括：划分训练集、验证集和测试集与数据增强；构建网络并进行随机初始化；输入所述顾客图像数据并用所述训练集训练网络；计算回传梯度后的模型参数；在所述测试集上选取最优模型。

于本发明的一实施例中，所述将所述顾客图像进行预处理的一种实现过程包括：将所述顾客图像的属性的数据集划分为训练集、验证集和测试集与数据增强；对所述验证集的其中一部分进行手工校对；将所述顾客图像的大小进行调节以适应检测器的输入；保存固定尺寸的所述顾客图像。

于本发明的一实施例中，所述构建网络并进行随机初始化的一种实现过程包括：选取能融合各个尺寸所述顾客图像的网络；所述网络的其中一个分支用于在语义较低的层预测顾客图像情况；所述网络的其中一个分支用于在较高的语义信息环境下对所述顾客图像属性进行后续预测；将各个分支的预测结果进行融合并计算出结果；将置信度信息与预测分支进行融合并计算出结果；将上述融合结果进行加权计算推算出预测结果；将属性预测置信度高于一定值的属性输出。

于本发明的一实施例中，所述用所述训练集训练网络的一种实现过程包括：

将所述获取的用于训练的批顾客图像，依据标注类别计算相互间的相似度，根据相似度来抑制训练过程中某些类别主导的问题，对其进行数据增强后输入网络；；定义损失函数的计算并对损失进行加权计算；以处理各个所述顾客图像属性之间的不平衡问题；判断回传梯度是否能够使得所述网络在所述验证集上的精度提高；若是，则进行权重更新；否则，则不进行更行；当网络模型的损失不再下降时，训练停止，此时获得最优训练参数；依据最优训练参数，让网络模型在训练集和验证集上训练，得到每次迭代的模型；在测试集对所述网络模型进行评估，并将所述网络模型按照一定阈值进行选取输出。

于本发明的一实施例中，所述定义损失函数的一种实现过程包括：设所述权重为W；所述训练集上各个属性的比例为ratios；则：W＝Exp(-ratios)；其中某个属性所占训练集比重越低，对损失的贡献越大。

为实现上述目的及其他相关目的，本发明提供一种顾客属性预测系统，所述顾客属性预测系统包括：摄像模块，获取顾客图像；处理模块，与所述摄像模块通信相连，将所述顾客图像进行预处理；所述预处理包括：划分训练集、验证集和测试集与数据增强；构建网络并进行随机初始化；输入所述顾客图像数据并用所述训练集训练网络；计算回传梯度后的模型参数；在所述测试集上选取最优模型。

将所述获取的用于训练的批顾客图像，依据标注类别计算相互间的相似度，根据相似度来抑制训练过程中某些类别主导的问题，对其进行数据增强后输入网络；定义损失函数的计算并对损失进行加权计算，以处理各个所述顾客图像属性之间的不平衡问题；判断回传梯度是否能够使得所述网络在所述验证集上的精度提高。若是，则进行权重更新。否则，则不进行更行；当网络模型的损失不再下降时，训练停止，此时获得最优训练参数；依据最优训练参数，让网络模型在训练集和验证集上训练，得到每次迭代的模型；在测试集对所述网络模型进行评估，并将所述网络模型按照一定阈值进行选取输出。

为实现上述目的及其他相关目的，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行本发明所述顾客属性预测方法。

为实现上述目的及其他相关目的，本发明提供一种设备，所述设备包括：所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述设备执行本发明所述顾客属性预测方法。

如上所述，本发明的顾客属性预测方法、存储介质、系统及设备，具有以下有益效果：本发明解决了基于深度学习的顾客属性预测过程中不能高效高质量提取顾客图像属性从而导致不能高精准的预测顾客属性的问题。并创造性的结合了注意力机制来有效高质量提取顾客属性行为特征，从而更加高精准高质量的对顾客属性进行预测。

附图说明

图1A显示为本发明实施例所述的一种顾客属性预测方法的一种实现流程示意图。

图1B显示为本发明实施例所述的一种顾客属性预测方法的一种实现流程示意图。

图2显示为本发明实施例所述的一种顾客属性预测系统的一种结构示意图。

图3显示为本发明实施例所述的一种设备的一种结构示意图。

元件标号说明

20 顾客属性预测系统

21 摄像模块

22 处理模块

30 设备

31 处理器

32 存储器

S101～S106 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1A和1B，本发明提供一种顾客属性预测方法，所述顾客属性预测方法包括：

S101、获取顾客图像；

S102、将所述顾客图像进行预处理；所述预处理包括：划分训练集、验证集和测试集；

具体的，所述预处理包括：将数据集划分为训练集、验证集与测试集和数据增强并对部分验证集进行手工校对；将图像减去均值并除以方差，考虑到实际目标检测器的原因，对图像进行抖动以此来适应检测器的输入，最后将顾客图像缩放成固定尺寸。网络的输入为大小H*W*C的图像，H、W、C分别为图像的长宽和通道数；标签(label)为一个长度为N的指示向量，以此表示是否包含这个属性。

S103、构建网络并进行随机初始化；具体的，本实施例网络结构中采取了多分支的结构，其中一个分支产生注意力特征图(Attention Map)，用于指导网络特征图中的重要程度，以此来解决实际场景中顾客图像的多样性；本实施例网络结构中采取了LeakyReLU替代常见的ReLU，主要考虑到无效区域应该对结果有响应而不是没有响应；本实施例中的网络最后输出结果为多分支输出形式，可以让网络适应不同的顾客图像，每个分支代表不同形式的顾客图像，提高算法的精确性。

S104、输入所述顾客图像数据并用所述训练集训练网络；具体的，对批输入图像B依据所对应的类别进行相似性计算得到相似度矩阵S，将相似度矩阵中的众数记为该批次数据的基准S_C。对某个图像与该批次的图像所计算的相似度，取众数代表该图像的基准S_i，依据S_C与S_i计算贡献度。这样做的目的是由于实际训练过程中，即使在损失函数中已依据不平衡度做了相应的修正。但在批数据当中，顾客与顾客之间的属性有时仅仅表现出部分不同而已。若此时不加以处理会使得网络在训练过程中梯度被部分类别主导，导致最终结果与预想不同。因此计算批数据中的相似性对回传梯度进行修正，能使训练的模型鲁棒性更好。随后对数据进行增强后输入网络，得到loss后依据贡献度对其进行加权以此来修正梯度若此次梯度回传能够使得网络在验证集上精度提高，则进行权重更新，否则不更新。损失函数采取加权交叉熵函数，以处理各个属性之间的不平衡度问题。优化器采用Adam，每次梯度回传使损失会下降，直到损失不再下降为止，训练停止。

S105、计算回传梯度后的模型参数；

S106、在所述测试集上选取最优模型，具体的，在测试集上评估模型，将模型的输出按照一定的阈值进行选取，并且可根据常识来过滤，如某张顾客图像预测为男性，着装为裙子，头发为长发，此时可根据置信度来过滤掉男性或者其他。对网络输出进行过滤后，可以根据个体精度或属性精度指标来选取最好的模型。

于本发明的一实施例中，所述将所述顾客图像进行预处理的一种实现过程包括：

将所述顾客图像的属性的数据集划分为训练集、验证集合测试集；对所述验证集的其中一部分进行手工校对；

将所述顾客图像的大小进行调节以适应检测器的输入；

保存固定尺寸的所述顾客图像。

于本发明的一实施例中，所述构建网络并进行随机初始化的一种实现过程包括：

选取能融合各个尺寸所述顾客图像的网络；

所述网络的其中一个分支用于在语义较低的层预测顾客图像情况；

所述网络的其中一个分支用于在较高的语义信息环境下对所述顾客图像属性进行后续预测；

于本发明的一实施例中，将各个分支的预测结果进行融合并计算出结果；

将置信度信息与预测分支进行融合并计算出结果；

将上述融合结果进行加权计算推算出预测结果；

将属性预测置信度高于一定值的属性输出。

将所述获取的用于训练的批顾客图像，依据标注类别计算相互间的相似度，根据相似度来抑制训练过程中某些类别主导的问题，对其进行数据增强后输入网络；

定义损失函数的计算并对损失进行加权计算；以处理各个所述顾客图像属性之间的不平衡问题；

判断回传梯度是否能够使得所述网络在所述验证集上的精度提高；

若是，则进行权重更新；

否则，则不进行更行；

当网络模型的损失不再下降时，训练停止，此时获得最优训练参数；

依据最优训练参数，让网络模型在训练集和验证集上训练，得到每次迭代的模型；

在测试集对所述网络模型进行评估，并将所述网络模型按照一定阈值进行选取输出。。

于本发明的一实施例中，所述定义损失函数的一种实现过程包括：

设所述权重为W；所述训练集上各个属性的比例为ratios；

则：W＝Exp(-ratios)；

其中所占比重越低，对损失的贡献越大。

——深度学习中的注意力机制，注意力机制(Attention Mechanism)源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息。上述机制通常被称为注意力机制。人类视网膜不同的部位具有不同程度的信息处理能力，即敏锐度(Acuity)，只有视网膜中央凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源，人类需要选择视觉区域中的特定部分，然后集中关注它。例如，人们在阅读时，通常只有少量要被读取的词会被关注和处理。注意力机制主要有两个方面：决定需要关注输入的哪部分；分配有限的信息处理资源给重要的部分。注意力模型(Attention Model)被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中，是深度学习技术中最值得关注与深入了解的核心技术之一。注意力模型最近几年在深度学习各个领域被广泛使用，无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中，都很容易遇到注意力模型的身影。所以，了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。从注意力模型的命名方式看，很明显其借鉴了人类的注意力机制，因此，我们首先简单介绍人类视觉的选择性注意力机制。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段，是人类在长期进化中形成的一种生存机制，人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。注意力机制的一种非正式的说法是，神经注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力：选择特定的输入。注意力可以应用于任何类型的输入而不管其形状如何。在计算能力有限情况下，注意力机制(attention mechanism)是解决信息超载问题的主要手段的一种资源分配方案，将计算资源分配给更重要的任务。注意力一般分为两种：一种是自上而下的有意识的注意力，称为聚焦式(focus)注意力。聚焦式注意力是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力；另一种是自下而上的无意识的注意力，称为基于显著性(saliency-based)的注意力。基于显著性的注意力是由外界刺激驱动的注意，不需要主动干预，也和任务无关。如果一个对象的刺激信息不同于其周围信息，一种无意识的“赢者通吃”(winner-take-all)或者门控(gating)机制就可以把注意力转向这个对象。不管这些注意力是有意还是无意，大部分的人脑活动都需要依赖注意力，比如记忆信息，阅读或思考等。在认知神经学中，注意力是一种人类不可或缺的复杂认知功能，指人可以在关注一些信息的同时忽略另一些信息的选择能力。在日常生活中，我们通过视觉、听觉、触觉等方式接收大量的感觉输入。但是我们的人脑可以在这些外界的信息轰炸中还能有条不紊地工作，是因为人脑可以有意或无意地从这些大量输入信息中选择小部分的有用信息来重点处理，并忽略其他信息。这种能力就叫做注意力。注意力可以体现为外部的刺激(听觉、视觉、味觉等)，也可以体现为内部的意识(思考、回忆等)。

多头注意力(multi-head attention)是利用多个查询，来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分。硬注意力，即基于注意力分布的所有输入信息的期望。还有一种注意力是只关注到一个位置上，叫做硬性注意力(hardattention)。硬性注意力有两种实现方式，一种是选取最高概率的输入信息。另一种硬性注意力可以通过在注意力分布式上随机采样的方式实现。硬性注意力的一个缺点是基于最大采样或随机采样的方式来选择信息。因此最终的损失函数与注意力分布之间的函数关系不可导，因此无法使用在反向传播算法进行训练。为了使用反向传播算法，一般使用软性注意力来代替硬性注意力。键值对注意力：更一般地，我们可以用键值对(key-valuepair)格式来表示输入信息，其中“键”用来计算注意力分布，“值”用来生成选择的信息。结构化注意力：要从输入信息中选取出和任务相关的信息，主动注意力是在所有输入信息上的多项分布，是一种扁平(flat)结构。如果输入信息本身具有层次(hierarchical)结构，比如文本可以分为词、句子、段落、篇章等不同粒度的层次，我们可以使用层次化的注意力来进行更好的信息选择。此外，还可以假设注意力上下文相关的二项分布，用一种图模型来构建更复杂的结构化注意力分布。神经机器翻译，注意力机制最成功的应用是机器翻译。基于神经网络的机器翻译模型也叫做神经机器翻译(Neural Machine Translation，NMT)。一般的神经机器翻译模型采用“编码-解码”的方式进行序列到序列的转换。这种方式有两个问题：一是编码向量的容量瓶颈问题，即源语言所有的信息都需要保存在编码向量中，才能进行有效地解码；二是长距离依赖问题，即编码和解码过程中在长距离信息传递中的信息丢失问题。通过引入注意力机制，我们将源语言中每个位置的信息都保存下来。在解码过程中生成每一个目标语言的单词时，我们都通过注意力机制直接从源语言的信息中选择相关的信息作为辅助。这样的方式就可以有效地解决上面的两个问题。一是无需让所有的源语言信息都通过编码向量进行传递，在解码的每一步都可以直接访问源语言的所有位置上的信息；二是源语言的信息可以直接传递到解码过程中的每一步，缩短了信息传递的距离。图像描述生成，图像描述生成是输入一幅图像，输出这幅图像对应的描述。图像描述生成也是采用“编码-解码”的方式进行。编码器为一个卷积网络，提取图像的高层特征，表示为一个编码向量；解码器为一个循环神经网络语言模型，初始输入为编码向量，生成图像的描述文本。在图像描述生成的任务中，同样存在编码容量瓶颈以及长距离依赖这两个问题，因此也可以利用注意力机制来有效地选择信息。在生成描述的每一个单词时，循环神经网络的输入除了前一个词的信息，还有利用注意力机制来选择一些来自于图像的相关信息。深度学习里的Attention model其实模拟的是人脑的注意力模型，举个例子来说，当我们观赏一幅画时，虽然我们可以看到整幅画的全貌，但是在我们深入仔细地观察时，其实眼睛聚焦的就只有很小的一块，这个时候人的大脑主要关注在这一小块图案上，也就是说这个时候人脑对整幅图的关注并不是均衡的，是有一定的权重区分的。这就是深度学习里的AttentionModel的核心思想。AM刚开始也确实是应用在图像领域里的，AM在图像处理领域取得了非常好的效果！于是，就有人开始研究怎么将AM模型引入到NLP领域。机器翻译主要使用的是Encoder-Decoder模型，在Encoder-Decoder模型的基础上引入了AM，取得了不错的效果：Soft Attention Model：其实有Soft AM，对应也有一个Hard AM。既然Soft是给每个单词都赋予一个单词对齐概率，那么如果不这样做，直接从输入句子里面找到某个特定的单词，然后把目标句子单词和这个单词对齐，而其它输入句子中的单词硬性地认为对齐概率为0，这就是Hard Attention Model的思想。Hard AM在图像里证明有用，但是在文本里面用处不大，因为这种单词一一对齐明显要求太高，如果对不齐对后续处理负面影响很大。GlobalAM其实就是soft AM，Decoder的过程中，每一个时间步的Context vector需要计算Encoder中每一个单词的注意力权重，然后加权得到。Local AM则是首先找到一个对其位置，然后在对其位置左右一个窗口内来计算注意力权重，最终加权得到Context vector。这其实是Soft AM和Hard AM的一个混合折中。静态AM，其实还有一种AM叫做静态AM。所谓静态AM，其实是指对于一个文档或者句子，计算每个词的注意力概率分布，然后加权得到一个向量来代表这个文档或者句子的向量表示。跟soft AM的区别是，soft AM在Decoder的过程中每一次都需要重新对所有词计算一遍注意力概率分布，然后加权得到context vector，但是静态AM只计算一次得到句子的向量表示即可。(这其实是针对于不同的任务而做出的改变)强制前向AM，Soft AM在逐步生成目标句子单词的时候，是由前向后逐步生成的，但是每个单词在求输入句子单词对齐模型时，并没有什么特殊要求。强制前向AM则增加了约束条件：要求在生成目标句子单词时，如果某个输入句子单词已经和输出单词对齐了，那么后面基本不太考虑再用它了，因为输入和输出都是逐步往前走的，所以看上去类似于强制对齐规则在往前走。我们知道，注意力机制是在序列到序列模型中用于注意编码器状态的最常用方法，它同时还可用于回顾序列模型的过去状态。使用注意力机制，系统能基于隐藏状态s_1，...，s_m而获得环境向量(context vector)c_i，这些环境向量可以和当前的隐藏状态h_i一起实现预测。环境向量c_i可以由前面状态的加权平均数得出，其中状态所加的权就是注意力权重a_i：注意力函数f_att(h_i,s_j)计算的是目前的隐藏状态h_i和前面的隐藏状态s_j之间的非归一化分配值。而实际上，注意力函数也有很多种变体。接下来我们将讨论四种注意力变体：加性注意力(additive attention)、乘法(点积)注意力(multiplicativeattention)、自注意力(self-attention)和关键值注意力(key-value attention)。加性注意力(additive attention)，加性注意力是最经典的注意力机制，它使用了有一个隐藏层的前馈网络(全连接)来计算注意力的分配。加性注意力和乘法注意力在复杂度上是相似的，但是乘法注意力在实践中往往要更快速、具有更高效的存储，因为它可以使用矩阵操作更高效地实现。两个变体在低维度解码器状态中性能相似，但加性注意力机制在更高的维度上性能更优。自注意力(self-attention)，注意力机制不仅能用来处理编码器或前面的隐藏层，它同样还能用来获得其他特征的分布，例如阅读理解任务中作为文本的词嵌入。然而，注意力机制并不直接适用于分类任务，因为这些任务并不需要情感分析(sentimentanalysis)等额外的信息。在这些模型中，通常我们使用LSTM的最终隐藏状态或像最大池化和平均池化那样的聚合函数来表征句子。自注意力机制(Self-attention)通常也不会使用其他额外的信息，但是它能使用自注意力关注本身进而从句子中抽取相关信息。关键值注意力(key-value attention)，是最近出现的注意力变体机制，它将形式和函数分开，从而为注意力计算保持分离的向量。它同样在多种文本建模任务中发挥了很大的作用。具体来说，关键值注意力将每一个隐藏向量h_i分离为一个键值k_i和一个向量v_i：[k_i；v_i]＝h_i。键值使用加性注意力来计算注意力分布a_i：其中L为注意力窗体的长度，I为所有单元为1的向量。然后使用注意力分布值可以求得环境表征c_i：其中环境向量c_i将联合现阶段的状态值v_i进行预测。

——更具体的情况是，目前基于深度学习的顾客属性预测方案有许多，按照技术手段主要分为以下几种：①基于原始图片的预测：该手段将检测物体与属性预测结合在一起，通过给定一张实际场景中的图像，该方法检测出图像中的每个顾客目标并预测出相相对应的属性。②基于行人图片的预测：该技术手段假定输入的是合法的图像，即图像包含顾客，网络预测出该顾客的属性。上述①中的缺点是，基于原始图片预测的技术手段涉及到检测目标与属性预测两部分，检测部分涉及到提取候选区域、过滤、修正、非极大值抑制等过程，该过程较为耗时，且一些参数需要比较小心的选择。属性预测部分基于检测到的目标来预测，检测的质量直接影响到属性预测的精度，这也会造成在训练前期难以收敛的情况。且在网络训练的过程，需要很好的平衡检测部分和属性预测部分。上述②中的缺点是基于行人图像预测的技术直接基于行人图像来训练，网络直接输出是否包含该属性的置信度。这与图像分类不同，图像分类中物体所占整个图像的比例一般较大，即粒度较粗，而顾客属性预测中某些属性往往所占图像比例较小，即粒度较细(fine-grained)，如是否使用手机这个属性。第①种技术手段由于整张图片都输入进网络，因此网络可以捕获全局信息，如顾客附近的场景信息，网络可以通过场景信息来辅助预测属性；而第二种技术手段只输入了顾客图像，顾客区域以外的信息较为缺乏，因此如何提取有效地提取特征是该手段的最大缺点。本发明通过第②种手段，即基于行人图像的图片来预测顾客属性，并结合注意力机制来提取有效特征。结合注意力机制是基于这样的事实：顾客是否被遮挡、失真与否和姿态的多样性不能简单地由特征图(feature map)算出，需抑制或增强图像中的部分区域，如一张被部分被遮挡的顾客图像，此时应该抑制被遮挡部分的响应或/和加强有效区域的响应。

实际场景中的顾客图像往往具备多样性，如由于成像设备部署的位置与质量的好坏会造成顾客图像被遮挡与运动模糊，并且对于一些门口会被强光照影响的地方，顾客图像往往会严重的丢失。

本发明针对实际场景中的顾客图像的多样性，提出了一种结合注意力机制的卷积神经网络，能够有效地解决实际场景中遮挡、失真、模糊的顾客图像，并且能够实时运行。此外，本方法结合注意力机制，捕获细粒度信息，使网络能够加强有效区域的响应和抑制无效区域的响应，以此来解决顾客图像多样性的问题。

由于顾客图像的多样性，本发明将网络的输出设定为多分支形式，每个分支预测不同形式的顾客图像，并通过额外的一个分支预测不同形式的注意力特征图，以此来捕获细粒度。

网络结构：

基本结构1：

基本结构2：

基本结构3:

网络结构：

在这里，为了简洁地描述网络结构，定义了三个基本结构：BasicConv2d、InceptionThreeBranch、InceptionFourBranch。BasicConv2d采取了BN层在LeakyReLU之前的结构，而不是BN层在LeakyReLU之后，这是因为Conv2d与BN层都是线性变化，可以将卷积与归一化合并成一个矩阵，相比于后者，速度更快；InceptionBranch的结构相比于直接的卷积层能够捕获更多的信息；网络经过第一个InceptionThreeBranch之后，产生了分支，其中一个分支(Pooling-BasicConv2d-FC-BN-FC)产生注意力特征图(AttentionFeatureMap)，用于指导网络将注意力集中在特征图的哪些区域，以此来增强某些区域和抑制部分区域；另一个分支继续生成语义高的特征，经过第二个InceptionThreeBranch后再经过InceptionFourBranch后产生3个分支，每个分支预测后与注意力特征图结合，得到最终的输出。

网络训练：

将输入批数据依据类别标签计算相似度度量P，用于后续修正梯度，将批数据输入网络后得到输出，计算损失，依据P对损失进行加权，得到最终损失。

若此次梯度回传能够使得网络在验证集上精度提高，则进行权重更新，否则不更新。

损失函数采取加权交叉熵函数，以处理各个属性之间的不平衡度问题。

优化器采用Adam，每次梯度回传使损失会下降，直到损失不再下降为止，训练停止。

评估网络，在测试集上评估模型，将模型的输出按照一定的阈值进行选取，并且可根据常识来过滤，如某张顾客图像预测为男性，着装为裙子，头发为长发，此时可根据置信度来过滤掉男性或者其他。对网络输出进行过滤后，可以根据个体精度或属性精度指标来选取最好的模型。

本发明中的技术方案中的网络结构、训练方法和预测结果具有以下可实施方式，在这些方案中，本实施例的技术方案为取得最小误差的方案。

实施方式1：可不对输入图像计算批数据之间的相似度来进行训练。计算相似度修正梯度能在一定程度上缓和部分属性主导梯度的问题。

实施方式2：梯度回传部分也可对每批数据进行更新，选择性地回传梯度可以在一定程度上解决数据当中属性不平衡的问题，而且能缓和训练集中数据标注错误的问题。实施方式3：网络输出进行归一化的部分，可用sigmoid代替softmax。由于各个属性之间不是完全互斥的，因此采用sigmoid可一定程度上提高性能。

实施方式4：可对网络的FC(全连接)层替换成卷积层，以使网络支持多尺度的训练。多尺度的训练可以使得网络的鲁棒性更强。

实施方式5：可将第二个InceptionThreeBranch后面接的InceptionFourBranch去除，以减小网络大小。

实施方式6：最大响应的分支替代加权求和。对于最后多分支与注意力特征图的结合，可选择相应最大的分支来替代3个分支的结果求和。

实施方式7：可选用ReLU来替代LeakyReLU，去除无效区域的响应而不是使其对最终响应有影响。

本实施例网络结构中采取了多分支的结构，其中一个分支产生注意力特征图(Attention Map)，用于指导网络特征图中的重要程度，以此来解决实际场景中顾客图像的多样性；本实施例网络结构中采取了LeakyReLU替代常见的ReLU，主要考虑到无效区域应该对结果有响应而不是没有响应；本实施例中的网络最后输出结果为多分支输出形式，可以让网络适应不同的顾客图像，每个分支代表不同形式的顾客图像，提高算法的精确性。

本实施方式中顾客属性预测技术通过预测顾客的属性，实现对顾客群体的分析，进而用于商业价值提取。基于原始图像的属性预测需要基于自身检测的结果来预测属性，往往在训练前期难以收敛，而且提候选区域往往较为耗时，显存占用也较高；基于顾客图像的属性预测，网络无法捕获顾客所占区域以外的信息，因此对特征提取的要求较高，本方法通过结合注意力机制，让网络能够抑制消极响应，增强积极响应，使提取的特征具有较细的粒度，大大提高算法的精确度与鲁棒性。

本实施方式的优势有以下几点：能够有效地预测顾客属性，网络尺寸较小，速度较快，能适应不同角度、失真与否、遮挡与否的顾客图像，部署简单。使用简单，只需结合检测顾客位置的检测器即可运行；通过分支的形式来使得网络分情况的预测，并且通过一个额外的分支来预测置信度；

步骤1：收集顾客图像，每个顾客有对应的属性标签，将属性标签转换为指示向量，用于表示该属性的有无；将数据集划分为训练集、验证集和测试集，手工校对验证集，统计训练集上各个属性的比例，记为ratios。

步骤2：将图像归一化，将图像进行抖动(jitter)、归一化等数据增强手段后缩放成固定尺寸。

步骤3：定义损失函数的计算，这里定义为加权交叉熵函数，权重W由步骤1计算的比例通过以下式子计算得到：

W＝Exp(-ratios)

即所占比重越低，对损失的贡献越大

步骤4：搭建网络并随机进行初始化；

BasicConv2d为网络的基本模块之一，采用LeakyReLU替代传统的ReLU；

InceptionBranch采用3分支和4分支的形式，较好的融合各个尺度的信息；

网络的其中一个分支在语义较低的层预测顾客图像的情况；

网络的后续属性预测分支需要较高的语义信息，因此网络多加了几层InceptionFourBranch继续抽取特征，在最后划分成3分支，每个分支表示在不同情况下的顾客图像。

具体的，融合各个分支的结果，将置信度信息与预测分支进行融合，加权得到最后的预测结果；将属性预测置信度高于一定值的属性输出。对于FC层和卷积层，采用xavier_uniform进行初始化，偏差采用0进行初始化。

步骤5：用训练集训练网络，由于实际训练过程中批数据内的样本间相似度较大，因此计算各个样本的相似度评估基准P，用以后续的梯度修正

步骤6：将批数据输入网络，将网络输出与实际真实标签计算损失L；依据P对L进行加权，以使梯度修正。

步骤7：在进行回传梯度前，评估更新后的参数是否在验证集上的损失有下降，如果有下降，则进行此次梯度回传更新；若不下降，则不进行梯度回传。

步骤8：重复步骤5和步骤6，直到损失不再明显下降，训练结束。

步骤9：挑选最优模型，利用测试集评估模型，挑选最优模型作为最终模型

本实施方式中的属性预测算法可以作为一个模块供外部客流分析系统调用，外部客流分析系统输入一张顾客图像，返回该顾客的属性，也可结合跟踪模块，综合历史的属性预测，进行细致的采样，进一步提高精度。

本实施方式中所述的顾客属性预测方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

请参阅图2所示，本发明还提供一种顾客属性预测系统，所述顾客属性预测系统可以实现本发明所述的顾客属性预测方法，但本发明所述的顾客属性预测方法的实现装置包括但不限于本实施例列举的顾客属性预测系统的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

为实现上述目的及其他相关目的，本发明提供一种顾客属性预测系统20，所述顾客属性预测系统20包括：

摄像模块21，获取顾客图像；

处理模块22，与所述摄像模块21通信相连，将所述顾客图像进行预处理；所述预处理包括：划分训练集、验证集和测试集；构建网络并进行随机初始化；输入所述顾客图像数据并用所述训练集训练网络；计算回传梯度后的模型参数；在所述测试集上选取最优模型。

选取能融合各个尺寸所述顾客图像的网络；

将各个分支的预测结果进行融合并计算出结果；

将置信度信息与预测分支进行融合并计算出结果；

将上述融合结果进行加权计算推算出预测结果；

将属性预测置信度高于一定值的属性输出。

若是，则进行权重更新；

否则，则不进行更行；

在测试集对所述网络模型进行评估，并将所述网络模型按照一定阈值进行选取输出。需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现，也可以全部以硬件的形式实现，还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如：x模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现。此外，x模块也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，一个或多个微处理器31(Digital Singnal Processor，简称DSP)，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。这些模块可以集成在一起，以片上系统(System-on-a-chip，简称SOC)的形式实现。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

请参阅图3所示，为实现上述目的及其他相关目的，本发明提供一种设备30，所述设备30包括：所述存储器32用于存储计算机程序，所述处理器31用于执行所述存储器32存储的计算机程序，以使所述设备30执行本发明所述顾客属性预测方法。

——更具体的，本实施例提供的设备，包括：处理器、存储器、收发器、通信接口或/和系统总线；存储器和通信接口通过系统总线与处理器和收发器连接并完成相互间的通信，存储器用于存储计算机程序，通信接口用于和其他设备进行通信，处理器和收发器用于运行计算机程序。上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

如上所述，本发明的顾客属性预测方法及系统具有以下有益效果：创造性的结合了注意力机制来有效高质量提取顾客属性行为特征，从而更加高精准高质量的对顾客属性进行预测。

本发明解决了基于深度学习的顾客属性预测过程中不能高效高质量提取顾客图像属性从而导致不能高精准的预测顾客属性的问题，有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种顾客属性预测方法，其特征在于，所述顾客属性预测方法包括：

获取顾客图像；

将所述顾客图像进行预处理；所述预处理包括：划分训练集、验证集和测试集；

构建网络并进行随机初始化；该步骤包括：选取能融合各个尺寸所述顾客图像的网络；所述网络的其中一个分支用于在语义较低的层预测顾客图像情况；所述网络的其中一个分支用于在较高的语义信息环境下对所述顾客图像属性进行后续预测；将各个分支的预测结果进行融合并计算出结果；将置信度信息与预测分支进行融合并计算出结果；将上述融合结果进行加权计算推算出预测结果；将属性预测置信度高于一定值的属性输出；

输入所述顾客图像数据并用所述训练集训练网络；训练网络的步骤包括：对批输入图像依据所对应的类别进行相似性计算得到相似度矩阵，将相似度矩阵中的众数记为该批次数据的基准；对一图像与该批次的图像所计算的相似度，取众数代表该图像的基准，依据该批次数据的基准与该图像的基准计算贡献度；

计算回传梯度后的模型参数；

在所述测试集上选取最优模型。

2.根据权利要求1所述的顾客属性预测方法，其特征在于，所述将所述顾客图像进行预处理的一种实现过程包括：

将所述顾客图像的属性的数据集划分为训练集、验证集和测试集；

对所述验证集的其中一部分进行手工校对；

将所述顾客图像的大小进行调节以适应检测器的输入；

保存固定尺寸的所述顾客图像。

3.根据权利要求1所述的顾客属性预测方法，其特征在于，所述用所述训练集训练网络的一种实现过程包括：

将获取的用于训练的顾客图像，依据标注类别计算相互间的相似度，根据相似度来抑制训练过程中部分类别主导的问题，对其进行数据增强后输入网络；

若是，则进行权重更新；

否则，则不进行更新；

在测试集对所述网络模型进行评估，并将所述网络模型按照一定阈值进行选取输出。

4.根据权利要求3所述的顾客属性预测方法，其特征在于，所述定义损失函数的一种实现过程包括：

设所述权重为W；所述训练集上各个属性的比例为ratios；

则：W＝Exp(-ratios)；

其中某个属性在训练集中所占比重越低，对网络模型损失的贡献越大。

5.一种顾客属性预测系统，其特征在于，所述顾客属性预测系统包括：

摄像模块，获取顾客图像；

处理模块，与所述摄像模块通信相连，将所述顾客图像进行预处理；所述预处理包括：划分训练集、验证集和测试集并进行数据增强；构建网络并进行随机初始化；输入所述顾客图像数据并用所述训练集训练网络；计算回传梯度后的模型参数；在所述测试集上选取最优模型；其中，所述处理模块构建网络并进行随机初始化的过程包括选取能融合各个尺寸所述顾客图像的网络；所述网络的其中一个分支用于在语义较低的层预测顾客图像情况；所述网络的其中一个分支用于在较高的语义信息环境下对所述顾客图像属性进行后续预测；将各个分支的预测结果进行融合并计算出结果；将置信度信息与预测分支进行融合并计算出结果；将上述融合结果进行加权计算推算出预测结果；将属性预测置信度高于一定值的属性输出；所述处理模块训练网络的过程包括：对批输入图像依据所对应的类别进行相似性计算得到相似度矩阵，将相似度矩阵中的众数记为该批次数据的基准；对一图像与该批次的图像所计算的相似度，取众数代表该图像的基准，依据该批次数据的基准与该图像的基准计算贡献度。

6.根据权利要求5所述的顾客属性预测系统，其特征在于，所述用所述训练集训练网络的一种实现过程包括：

若是，则进行权重更新；

否则，则不进行更新；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至4任一项所述顾客属性预测方法。

8.一种训练设备，其特征在于，所述设备包括：存储器和处理器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述设备执行如权利要求1至4中任一项所述顾客属性预测方法。