CN109635680B

CN109635680B - 多任务属性识别方法、装置、电子设备及存储介质

Info

Publication number: CN109635680B
Application number: CN201811419595.9A
Authority: CN
Inventors: 吴涛; 黄轩; 胡文泽; 王孝宇
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2021-07-06
Anticipated expiration: 2038-11-26
Also published as: CN109635680A

Abstract

一种多任务属性识别方法，所述方法包括：获取视频序列中的目标人脸图像；将所述目标人脸图像输入到第一神经网络模型中，并输出至少两种不同的属性特征类别对应的属性特征；选取符合预设输入条件的所述属性特征类别对应的属性特征作为目标属性特征；将所述目标属性特征输入到第二神经网络模型中，并得到若干表情向量。一方面，第一神经网络模型同时提取目标人脸图像的不同属性特征，有效提高了属性特征的获取效率，另一方面，结合第一神经网络模型和第二神经网络模型识别出的属性特征对应的表情向量，使得在图像质量不高的条件下也能快速识别出用户表情，提高了表情向量的识别准确率。

Description

多任务属性识别方法、装置、电子设备及存储介质

技术领域

本发明涉及大数据技术领域，特别涉及一种用于用户画像的多任务属性识别方法、装置、电子设备及存储介质。

背景技术

用户画像，又称为用户角色(Persona)，是一种勾画目标用户、联系用户诉求与设计方向的有效工具。例如在产品开发时，可用于对产品进行定位与规划；在具体实现时，可以将用户画像作为刻画用户特征的标签(tag)集合，例如：年龄、性别、学历等基础属性，或者用户的兴趣特征等；在产品推广时，可根据用户画像挖掘潜在客户群体，进行有针对性的产品推荐。

在智慧商业中，很多用户画像策略需要数百个特征维度进行刻画，其中，特征维度包括了用户的消费、属性和行为等，但是，在实际操作中，由于用户的消费行为表征的特征维度较为复杂，大大降低了特征维度的获取效率。另外，由于每个特征维度的识别模型一般是基于质量较佳的图像进行训练获得的，当对图像进行特征维度识别时，特别是在图像质量不高的条件下，容易导致特征维度的识别效果不佳，识别准确率低的问题。

发明内容

鉴于以上内容，有必要提出一种多任务属性识别方法、装置、电子设备及存储介质，通过第一神经网络模型和第二神经网络模型分别解决了目标人脸图像对应的属性特征的低获取效率问题以及识别表情向量的低准确率问题。

一种多任务属性识别方法，所述方法包括：

获取视频序列中的目标人脸图像；

将所述目标人脸图像输入到第一神经网络模型中，并输出至少两种不同的属性特征类别对应的属性特征，其中，所述第一神经网络模型包括用于识别所述目标人脸图像的多个属性特征的一维卷积神经网络模型，所述属性特征类别包括第一属性类别和第二属性类别，所述第二属性类别包括表情属性类别，所述第一属性类别的稳定度大于所述表情属性类别的稳定度；

选取符合预设输入条件的所述属性特征类别对应的属性特征作为目标属性特征；

将所述目标属性特征输入到第二神经网络模型中，并得到若干表情向量，其中，所述第二神经网络模型包括用于识别所述目标属性特征对应的表情向量的卷积神经网络模型。

根据本发明优选实施例，所述第一属性类别包括自然属性类别，所述第二属性类别还包括饰品属性类别，所述自然属性类别的稳定度大于所述饰品属性类别，所述选取符合预设输入条件的所述属性特征类别对应的属性特征作为目标属性特征包括：

根据置信度算法计算每个所述属性类别对应的所述属性特征的置信度；

当所述属性特征的置信度大于或者等于置信度阈值时，则确认所述属性特征符合所述预设输入条件。

根据本发明优选实施例，所述将所述目标属性特征输入到第二神经网络模型中，并得到若干表情向量之后，所述方法还包括：

根据预设的加权算法，计算预设时间段内每个所述表情向量的加权值，其中，所述表情向量的长度用于表征维持同类表情的持续时间，所述表情向量的方向用于表征表情属性特征。

根据本发明优选实施例，在计算预设时间段内每个所述表情向量的加权值之后，所述方法还包括：

根据预设的用户画像模型，确定所述表情向量的加权值对应的兴趣标签；

在预设的推荐数据库中查找与所述兴趣标签对应的产品信息；

按照推荐排序方式将所述产品信息推送至用户的终端设备。

根据本发明优选实施例，所述获取视频序列中的目标人脸图像之前，所述方法还包括：

获取携带标记的训练数据，其中，所述训练数据是指从训练视频序列中提取的训练人脸图像；

将所述训练数据输入到所述第一神经网络模型中，并输出属性特征分类结果；

计算每个所述属性特征分类结果对应的精度值；

当所述精度值小于预设的精度阈值时，调节所述第一神经网络模型中的共享参数以及各属性区域的参数值，直至所述精度值达到所述阈值时，停止所述第一神经网络模型的训练。

通过端到端的训练方式训练得到所述第二神经网络模型的模型参数，其中，所述模型参数用于使所述第二神经网络模型中的输出结果符合预设期望值。

根据本发明优选实施例，所述获取视频序列中的目标人脸图像包括：

对所述视频序列执行人脸检测；

当在所述视频序列中检测到人脸图像时，将所述人脸图像确定为目标人脸图像；

每隔预设帧数，提取跟踪到的所述视频序列中的多个所述目标人脸图像。

一种多任务属性识别装置，所述装置包括：

获取模块，用于获取视频序列中的目标人脸图像；

第一处理模块，用于将所述目标人脸图像输入到第一神经网络模型中，并输出至少两种不同的属性特征类别对应的属性特征，其中，所述第一神经网络模型用于识别所述目标人脸图像的多个属性特征的一维卷积神经网络模型，所述属性特征类别包括第一属性类别和第二属性类别，所述第二属性类别包括表情属性类别，所述第一属性类别的稳定度大于所述表情属性类别的稳定度；

第二处理模块，用于选取符合预设输入条件的所述属性特征类别对应的属性特征作为目标属性特征；

执行模块，用于将所述目标属性特征输入到第二神经网络模型中，并得到若干表情向量，其中，所述第二神经网络模型用于识别所述目标属性特征对应的表情向量的卷积神经网络模型。

根据本发明优选实施例，所述第一属性类别包括自然属性类别，所述第二属性类别还包括饰品属性类别，所述自然属性类别的稳定度大于所述饰品属性类别，所述第二处理模块具体用于：

根据本发明优选实施例，所述装置还包括：

计算模块，用于在将所述目标属性特征输入到第二神经网络模型中，并得到若干表情向量之后，根据预设的加权算法，计算预设时间段内每个所述表情向量的加权值，其中，所述表情向量的长度用于表征维持同类表情的持续时间，所述表情向量的方向用于表征表情属性特征。

根据本发明优选实施例，所述装置还包括：

确定模块，用于在计算预设时间段内每个所述表情向量的加权值之后，根据预设的用户画像模型，确定所述表情向量的加权值对应的兴趣标签；

查找模块，用于在预设的推荐数据库中查找与所述兴趣标签对应的产品信息；

推送模块，用于按照推荐排序方式将所述产品信息推送至用户的终端设备。

根据本发明优选实施例，所述获取模块，还用于在获取视频序列中的目标人脸图像之前，获取携带标记的训练数据，其中，所述训练数据是指从训练视频序列中提取的训练人脸图像；

所述装置还包括：

训练模块，用于将所述训练数据输入到所述第一神经网络模型中，并输出属性特征分类结果；

所述计算模块，还用于计算每个所述属性特征分类结果对应的精度值；

调节模块，用于当所述精度值小于预设的精度阈值时，调节所述第一神经网络模型中的共享参数以及各属性区域的参数值，直至所述精度值达到所述阈值时，停止所述第一神经网络模型的训练。

根据本发明优选实施例，所述训练模块，还用于在获取视频序列中的目标人脸图像之前，通过端到端的训练方式训练得到所述第二神经网络模型的模型参数，其中，所述模型参数用于使所述第二神经网络模型中的输出结果符合预设期望值。

根据本发明优选实施例，所述获取模块获取视频序列中的目标人脸图像包括：

对所述视频序列执行人脸检测；

一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现所述多任务属性识别方法。

一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现所述多任务属性识别方法。

本发明通过获取视频序列中的目标人脸图像；将所述目标人脸图像输入到第一神经网络模型中，并输出至少两种不同的属性特征类别对应的属性特征；选取符合预设输入条件的所述属性特征类别对应的属性特征作为目标属性特征；将所述目标属性特征输入到第二神经网络模型中，并得到若干表情向量。一方面，第一神经网络模型同时提取目标人脸图像的不同属性特征，有效提高了属性特征的获取效率，另一方面，结合第一神经网络模型和第二神经网络模型识别出的属性特征对应的表情向量，使得在图像质量不高的条件下也能快速识别出用户表情，提高了表情向量的识别准确率。

附图说明

图1是本发明多任务属性识别方法的较佳实施例的流程图。

图2是本发明多任务属性识别装置的较佳实施例的功能模块图。

图3是本发明实现多任务属性识别方法的较佳实施例的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

如图1所示，是本发明多任务属性识别方法的较佳实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

所述多任务属性识别方法应用于一个或者多个电子设备中，所述电子设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital SignalProcessor，DSP)、嵌入式设备等。

所述电子设备可以是任何一种可与用户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(Internet Protocol Television，IPTV)、智能式穿戴式设备等。

所述电子设备还可以包括网络设备和/或用户设备。其中，所述网络设备包括，但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。

所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

S10，获取视频序列中的目标人脸图像。

本实施例中，所述视频序列可以来自于一个广告机。

所述广告机是新一代的智能终端，其可以是一个单一的多媒体终端，也可以是由一个控制终端、网络信息传输和多媒体显示终端构成一个完整的广告播控系统。所述广告机可以通过图片、文字、视频、小插件(天气、汇率等)等多媒体素材进行广告宣传。

所述广告机可以包括壁挂的、车载的，楼宇广告机等，其可以按照需求的不同播放各种视频，支持多种格式的视频文件，并支持24小时不间断的运行。广告机也可以联网，通过互联网实现远程操作控制。此外，广告机还包括互动式广告机，实现了触摸功能，人脸识别，电子橱窗等等，大大吸引了顾客的眼球。

因此，通过所述广告机，所述电子设备能够获取到多种场景下的视频序列作为训练神经网络模型的样本，以使训练的神经网络模型不仅具有庞大的数据作为支撑，而且，样本数据的类型更加多样，则构建的神经网络模型也将更加准确。

在本发明的至少一个实施例中，所述广告机上可以包括一个或者多个摄像头，当有用户在广告机的摄像头抓拍的范围内出现时，所述摄像头可以捕捉到用户的视频。

进一步地，所述广告机上也可以安装有红外线探测器，以侦测广告机前是否有用户。

当所述红外线探测器侦测到广告机前有用户时，控制所述摄像头进行摄像，以捕获所述用户的视频序列。

当然，在其他实施例中，所述电子设备还可以通过其他方式获取所述视频序列，例如：所述电子设备可以通过各种摄像设备(如商场内安装的摄像设备等)，本发明不限制。

在本发明的至少一个实施例中，所述电子设备获取视频序列中的目标人脸图像包括：

所述电子设备对所述视频序列执行人脸检测，当在所述视频序列中检测到人脸图像时，所述电子设备将所述人脸图像确定为目标人脸图像，每隔预设帧数，所述电子设备提取跟踪到的所述视频序列中的多个所述目标人脸图像。

具体地，所述电子设备通过人脸识别技术提取所述视频序列中的人脸图像，进一步地，所述电子设备通过分析所述视频序列中的静态的影像帧或所述视频序列，从中找出人脸，并输出人脸的数目、位置及其大小等有效信息。

在本发明的至少一个实施例中，每隔预设帧数，所述电子设备提取跟踪到的所述视频序列中的多个所述目标人脸图像。

具体地，所述预设帧数可以由所述电子设备进行配置，也可以由用户进行自定义配置，本发明不限制。

例如：所述电子设备可以配置在第一帧提取一次，在第十帧再提取一次，以此类推。

通过上述实施方式，一方面，由于伴随有对所述人脸图像的跟踪，因此所述电子设备无需对所述视频序列中的所有帧进行人脸的提取，从而有效降低计算量，并进一步提高了人脸提取的效率，另一方面，当所述电子设备检测到有新的人脸时，也可以对新的人脸进行跟踪，从而避免人脸漏检的情况发生。

在本发明的至少一个实施例中，所述电子设备对所述目标人脸图像进行跟踪。

具体地，所述电子设备对所述目标人脸图像进行跟踪，是指在检测到所述目标人脸图像的前提下，在后面的影像帧中继续捕获该人脸的位置及其大小等信息。

具体地，所述电子设备在第一帧视频图像中使用预设的人脸检测方法检测出所有出现的人脸，并分别保存每个人脸区域图像及该人脸的特征信息；当下一帧到来时，所述电子设备检测该帧中出现的人脸，并使用跟踪算法在每个人脸周围获取负样本；然后使用多目标分类的算法将他们分开；最后使用特征匹配算法将该帧人脸图像与上一帧的人脸进行匹配，达对所述人脸图像进行跟踪的目的。

在跟踪的过程中，需要不断更新每个人的图像，当有新的更加清晰的图像出现时，用当前更加清晰的图像替换之前保存的图像，此外，还需要保存当前图像(无论是否清晰)的人脸区域的特征信息，以在下一帧到来时，使用该图像的特征信息进行匹配。

所述预设的人脸检测的方法可以是利用人工提取特征，训练分类器，进行人脸检测。例如可以通过卷积神经网络进行人脸检测。

具体地，所述电子设备可以通过，但不限于以下人脸跟踪技术对所述人脸图像进行跟踪：

基于模型跟踪算法，基于运动信息跟踪算法，基于人脸局部特征跟踪算法，及基于神经网络跟踪算法等。

在本发明的至少一个实施例中，所述方法还包括：

当跟踪的人脸图像丢失时，所述电子设备继续获取所述视频序列。

具体地，所述电子设备判断是否跟踪的人脸图像丢失包括：

当所跟踪的人脸图像的特征信息在下一帧视频图像中没有与之相匹配的特征信息时，则所述电子设备可以判定跟踪的人脸图像丢失。

进一步地，当跟踪的人脸图像丢失时，所述电子设备重新提取人脸图像并进行跟踪。

或者，当跟踪的人脸图像未丢失时，所述电子设备继续跟踪。

通过上述实施方式，所述电子设备可以有效避免人脸漏检及跟踪目标丢失的情况，跟踪效果更佳。

在本发明的至少一个实施例中，所述电子设备在获取视频序列中的目标人脸图像之前，所述方法还包括：

所述电子设备获取携带标记的训练数据，其中，所述训练数据是指从训练视频序列中提取的训练人脸图像，所述电子设备将所述训练数据输入到所述第一神经网络模型中，并输出属性特征分类结果，所述电子设备计算每个所述属性特征分类结果对应的精度值，当所述精度值小于预设的精度阈值时，所述电子设备调节所述第一神经网络模型中的共享参数以及各属性区域的参数值，直至所述精度值达到所述阈值时，所述电子设备停止所述第一神经网络模型的训练。

其中，所述第一神经网络模型包括用于识别所述目标人脸图像的多个属性特征的一维卷积神经网络模型。

具体地，所述携带标记的训练数据是指带有人脸标记的训练数据，例如，人脸标记可以是属性特征的命名。

所述精度阈值、所述共享参数、所述各属性区域的参数值根据训练结果进行定义配置，以便根据实际需求训练出满足精度要求的模型。

进一步地，所述属性特征类别包括第一属性类别和第二属性类别，所述第二属性类别包括表情属性类别，所述第一属性类别的稳定度大于所述表情属性类别的稳定度。

更进一步地，所述第一属性类别包括自然属性类别，所述第二属性类别还包括饰品属性类别，所述自然属性类别的稳定度大于所述饰品属性类别。

其中，所述自然属性类别可以包括，但不限于以下一种或者多种的组合：

性别、年龄、种族、发型等。

具体地，性别分为男性以及女性；年龄可以分为幼儿、少年、青年、中年、老年等，或者分为不同的具体年龄，如0～10岁、11～20岁、21～30岁、31～40岁、41～50岁、51～60岁等；种族可以分为黄种人、白种人、黑种人和棕种人，或者分为特定种族(例如黄种人)与其他种族。发型可以分为光头、板寸、齐耳短发、齐肩长发、齐腰长发等。

所述表情属性类别可以包括，但不限于以下一种或者多种的组合：

微笑、平静、厌恶等。

本发明其他较佳实施例中，所述电子设备也可以根据实际需要对人脸属性进行不同的划分，例如，所述表情还可以包括悲伤表情、愤怒表情、恐惧表情、惊讶表情等。

所述饰品属性类别可以包括，但不限于以下一种或者多种的组合：

帽子、眼镜、项链、耳环等。

具体地，眼镜还可以具体分为黑框眼镜、金丝细边眼镜、无框眼镜以及墨镜等。

通过上述实施方式，所述电子设备能够通过相应参数的不断调整，实现对所述第一神经网络模型的训练，以获取到满足精度需求的模型，且若上述每个属性类别皆采用独立的网络模型，将导致计算中模型数量太多，运算效率低下。因此，本发明训练得到的第一神经网络模型为多任务联合训练模型，该模型能将所有属性类别整合为单一模型，提高运算效率，从而提高属性特征的获取效率。

所述电子设备通过端到端(end-to-end)的训练方式训练得到所述第二神经网络模型的模型参数，其中，所述模型参数用于使所述第二神经网络模型中的输出结果符合预设期望值。

具体地，所述模型参数及所述预设期望值也可以进行自定义配置，本发明不限制。

同样的，所述电子设备通过不断地调整训练过程中的相应参数值，以便根据实际需求训练出满足精度要求的模型。

S11，将所述目标人脸图像输入到第一神经网络模型中，并输出至少两种不同的属性特征类别对应的属性特征。

由于步骤S10获取的目标人脸图像可能存在质量不高的问题，例如，在光照条件差的条件下获取的目标人脸图像，或者当目标人脸图像为侧脸或者低头时，由于目标人脸图像质量不高，在一般的神经网络模型中识别得到的表情向量准确率不高，故本发明通过所述第二神经网络模型对第一神经网络模型的属性特征进一步识别得到准确率更高的表情向量，一般所述第二神经网络模型的输入特征不包括所述第一神经网络模型输出的表情特征，即所述第二神经网络模型的输入特征可以是所述自然属性类别或者所述饰品属性类别。

S12，选取符合预设输入条件的所述属性特征类别对应的属性特征作为目标属性特征。

在本发明的至少一个实施例中，所述电子设备选取符合预设输入条件的所述属性特征类别对应的属性特征作为目标属性特征包括：

所述电子设备根据置信度算法计算每个所述属性类别对应的所述属性特征的置信度，当所述属性特征的置信度大于或者等于置信度阈值时，则确认所述属性特征符合所述预设输入条件。

具体地，所述置信度阈值可以进行自定义配置，以满足不同的精度需求。

进一步地，所述置信度算法可以采用已知的算法，本发明对所述置信度算法不限制。

S13，将所述目标属性特征输入到第二神经网络模型中，并得到若干表情向量。

在本发明的至少一个实施例中，所述第二神经网络模型包括用于识别所述目标属性特征对应的表情向量的卷积神经网络模型。

具体地，在所述电子设备将所述目标属性特征输入到第二神经网络模型中，并得到若干表情向量之后，所述方法还包括：

所述电子设备根据预设的加权算法，计算预设时间段内每个所述表情向量的加权值。

其中，所述表情向量的长度用于表征维持同类表情的持续时间，即用户的关注时间，所述表情向量的方向用于表征表情属性特征。

具体地，所述电子设备采用所述预设的加权算法，即下述公式(1)计算预设时间段内每个所述表情向量的加权值：

其中，其中exp r_i表示一个时间段内的起始时刻至结束时刻内某一帧图像人脸的表情，w_i为该帧图像的表情权值。通常而言，某一用户对目标的关注度会随时间推移而降低，且关注时间越长，人脸图像的识别效果越好，那么输出表情所占的权重越高，因此，表情权值w＝[w₁,w₂,...w_n]应该是时间的单调增函数。本发明较佳实施例中，为了便于统一计算，使得到的数据在一个维度，使训练的模型收敛且有效，所述表情权值选用归一化线性函数，见下述公式(2)：

例如：所述电子设备可以采用三层卷积层的一维卷积网络模型构建所述第二神经网络模型，具体地，所述电子设备将性别、年龄、种族、发型以及所佩戴的饰品，包括帽子、眼镜、项链、耳环等八个属性作为网络输入特征，即：feature＝[gender,age,race,hairstyle,hat,glass,necklace,earring]，而将一个时间段内的表情属性作为输出标签。

进一步地，网络输入为上述的8维特征向量，输出为具有表情属性，如高兴、平静、厌恶，的三输出的全连接层，三个卷积层分别具有2、4、8个滤波器，采用的卷积核大小皆为3x1，无扩边，卷积形式为valid。

当然，在其他实施例中，也可以拓展其他属性(如步态、手势、服饰，背包等)，增加特征维度，使用户画像更加准确和精细，神经网络的特征向量及层数等也对应改变。

通过上述实施方式，利用所述多任务联合训练模型可以有效提高识别速度，节省存储空间，并使得不同模型任务之间共享相同的参数，挖掘不同任务之间隐藏的共有数据特征，相关特征间相互约束(如年龄与发型的相关)，从而有效提升识别性能。

在本发明的至少一个实施例中，所述电子设备在计算预设时间段内每个所述表情向量的加权值之后，所述方法还包括：

所述电子设备根据预设的用户画像模型，确定所述表情向量的加权值对应的兴趣标签，并在预设的推荐数据库中查找与所述兴趣标签对应的产品信息，所述电子设备按照推荐排序方式将所述产品信息推送至用户的终端设备。

具体地，所述用户画像模型可以事先配置好，所述用户画像模型中存储着表情与兴趣标签之间的关系。

进一步地，所述推荐数据库中存储着兴趣标签与产品的对应关系。

更进一步地，当所述表情向量的加权值为微笑表情或平静表情时，所述电子设备确定所述目标人脸图像对应的用户的兴趣度高；或者当所述表情向量的加权值为厌恶表情时，所述电子设备确定所述目标人脸图像对应的用户的兴趣度低。当兴趣度高时，说明所述用户对正在观看的产品感兴趣，则所述电子设备可以按照所述推荐排序方式将所述产品的相关信息推送至用户的终端设备。

通过上述实施方式，所述电子设备能够预估用户对当前事物的感兴趣程度，实现商业广告的精准投放、信息智能推荐，甚至反馈产品开发等。

具体地，所述电子设备按照推荐排序方式将所述产品信息推送至用户的终端设备包括：

所述电子设备获取所述用户的当前位置，并将所述商家按照与所述当前位置的距离进行排序，所述电子设备根据排序推荐与所述关注点相关的商家至所述用户的终端设备。

通过上述实施方式，所述电子设备不仅可以推荐商家，还可以将距离用户位置最近的商家进行优先推荐，以节约所述用户选取目标商家的时间，用户体验更佳。

当然，在其他事实例中，所述电子设备还可以根据商家评分等进行推荐，以满足用户的实际需求，本发明不限制。

综上所述，一方面，第一神经网络模型同时提取目标人脸图像的不同属性特征，有效提高了属性特征的获取效率，另一方面，结合第一神经网络模型和第二神经网络模型识别出的属性特征对应的表情向量，使得在图像质量不高的条件下也能快速识别出用户表情，提高了表情向量的识别准确率。

如图2所示，是本发明多任务属性识别装置的较佳实施例的功能模块图。所述多任务属性识别装置11包括获取模块110、第一处理模块111、第二处理模块112、执行模块113、计算模块114、确定模块115、查找模块116、推送模块117、训练模块118及调节模块119。本发明所称的模块/单元是指一种能够被处理器13所执行，并且能够完成固定功能的一系列计算机程序段，其存储在存储器12中。在本实施例中，关于各模块/单元的功能将在后续的实施例中详述。

获取模块110获取视频序列中的目标人脸图像。

本实施例中，所述视频序列可以来自于一个广告机。

在本发明的至少一个实施例中，所述获取模块110获取视频序列中的目标人脸图像包括：

所述获取模块110对所述视频序列执行人脸检测，当在所述视频序列中检测到人脸图像时，所述获取模块110将所述人脸图像确定为目标人脸图像，每隔预设帧数，所述获取模块110提取跟踪到的所述视频序列中的多个所述目标人脸图像。

具体地，所述获取模块110通过人脸识别技术提取所述视频序列中的人脸图像，进一步地，所述获取模块110通过分析所述视频序列中的静态的影像帧或所述视频序列，从中找出人脸，并输出人脸的数目、位置及其大小等有效信息。

在本发明的至少一个实施例中，每隔预设帧数，所述获取模块110提取跟踪到的所述视频序列中的多个所述目标人脸图像。

例如：所述获取模块110可以配置在第一帧提取一次，在第十帧再提取一次，以此类推。

通过上述实施方式，一方面，由于伴随有对所述人脸图像的跟踪，因此所述获取模块110无需对所述视频序列中的所有帧进行人脸的提取，从而有效降低计算量，并进一步提高了人脸提取的效率，另一方面，当所述获取模块110检测到有新的人脸时，也可以对新的人脸进行跟踪，从而避免人脸漏检的情况发生。

在本发明的至少一个实施例中，所述获取模块110对所述目标人脸图像进行跟踪。

具体地，所述获取模块110对所述目标人脸图像进行跟踪，是指在检测到所述目标人脸图像的前提下，在后面的影像帧中继续捕获该人脸的位置及其大小等信息。

具体地，所述获取模块110在第一帧视频图像中使用预设的人脸检测方法检测出所有出现的人脸，并分别保存每个人脸区域图像及该人脸的特征信息；当下一帧到来时，所述获取模块110检测该帧中出现的人脸，并使用跟踪算法在每个人脸周围获取负样本；然后使用多目标分类的算法将他们分开；最后使用特征匹配算法将该帧人脸图像与上一帧的人脸进行匹配，达对所述人脸图像进行跟踪的目的。

具体地，所述获取模块110可以通过，但不限于以下人脸跟踪技术对所述人脸图像进行跟踪：

在本发明的至少一个实施例中，所述方法还包括：

当跟踪的人脸图像丢失时，所述获取模块110继续获取所述视频序列。

具体地，所述获取模块110判断是否跟踪的人脸图像丢失包括：

当所跟踪的人脸图像的特征信息在下一帧视频图像中没有与之相匹配的特征信息时，则所述获取模块110可以判定跟踪的人脸图像丢失。

进一步地，当跟踪的人脸图像丢失时，所述获取模块110重新提取人脸图像并进行跟踪。

或者，当跟踪的人脸图像未丢失时，所述获取模块110继续跟踪。

通过上述实施方式，可以有效避免人脸漏检及跟踪目标丢失的情况，跟踪效果更佳。

在本发明的至少一个实施例中，所述获取模块110在获取视频序列中的目标人脸图像之前，所述方法还包括：

所述获取模块110获取携带标记的训练数据，其中，所述训练数据是指从训练视频序列中提取的训练人脸图像，训练模块118将所述训练数据输入到所述第一神经网络模型中，并输出属性特征分类结果，计算模块114计算每个所述属性特征分类结果对应的精度值，当所述精度值小于预设的精度阈值时，调节模块119调节所述第一神经网络模型中的共享参数以及各属性区域的参数值，直至所述精度值达到所述阈值时，所述训练模块118停止所述第一神经网络模型的训练。

性别、年龄、种族、发型等。

微笑、平静、厌恶等。

帽子、眼镜、项链、耳环等。

所述训练模块118通过端到端(end-to-end)的训练方式训练得到所述第二神经网络模型的模型参数，其中，所述模型参数用于使所述第二神经网络模型中的输出结果符合预设期望值。

同样的，所述训练模块118通过不断地调整训练过程中的相应参数值，以便根据实际需求训练出满足精度要求的模型。

第一处理模块111将所述目标人脸图像输入到第一神经网络模型中，并输出至少两种不同的属性特征类别对应的属性特征。

具体地，由于所述获取模块110获取的目标人脸图像可能存在质量不高的问题，例如，在光照条件差的条件下获取的目标人脸图像，或者当目标人脸图像为侧脸或者低头时，由于目标人脸图像质量不高，在一般的神经网络模型中识别得到的表情向量准确率不高，故本发明通过所述第二神经网络模型对第一神经网络模型的属性特征进一步识别得到准确率更高的表情向量，一般所述第二神经网络模型的输入特征不包括所述第一神经网络模型输出的表情特征，即所述第二神经网络模型的输入特征可以是所述自然属性类别或者所述饰品属性类别。

第二处理模块112选取符合预设输入条件的所述属性特征类别对应的属性特征作为目标属性特征。

在本发明的至少一个实施例中，所述第二处理模块112选取符合预设输入条件的所述属性特征类别对应的属性特征作为目标属性特征包括：

所述第二处理模块112根据置信度算法计算每个所述属性类别对应的所述属性特征的置信度，当所述属性特征的置信度大于或者等于置信度阈值时，则确认所述属性特征符合所述预设输入条件。

执行模块113将所述目标属性特征输入到第二神经网络模型中，并得到若干表情向量。

具体地，在所述执行模块113将所述目标属性特征输入到第二神经网络模型中，并得到若干表情向量之后，所述方法还包括：

计算模块114根据预设的加权算法，计算预设时间段内每个所述表情向量的加权值。

具体地，所述计算模块114采用所述预设的加权算法，即下述公式(1)计算预设时间段内每个所述表情向量的加权值：

其中，其中exp r_i表示一个时间段内的起始时刻至结束时刻内某一帧图像人脸的表情，w_i为该帧图像的表情权值。通常而言，某一用户对目标的关注度会随时间推移而降低，且关注时间越长，人脸图像的识别效果越好，那么输出表情所占的权重越高，因此，表情权值w＝[w_1,w₂,...w_n]应该是时间的单调增函数。本发明较佳实施例中，为了便于统一计算，使得到的数据在一个维度，使训练的模型收敛且有效，所述表情权值选用归一化线性函数，见下述公式(2)：

例如：所述计算模块114可以采用三层卷积层的一维卷积网络模型构建所述第二神经网络模型，具体地，所述计算模块114将性别、年龄、种族、发型以及所佩戴的饰品，包括帽子、眼镜、项链、耳环等八个属性作为网络输入特征，即：feature＝[gender,age,race,hair style,hat,glass,necklace,earring]，而将一个时间段内的表情属性作为输出标签。

在本发明的至少一个实施例中，所述计算模块114在计算预设时间段内每个所述表情向量的加权值之后，所述方法还包括：

确定模块115根据预设的用户画像模型，确定所述表情向量的加权值对应的兴趣标签，查找模块116在预设的推荐数据库中查找与所述兴趣标签对应的产品信息，推送模块117按照推荐排序方式将所述产品信息推送至用户的终端设备。

更进一步地，当所述表情向量的加权值为微笑表情或平静表情时，所述确定模块115确定所述目标人脸图像对应的用户的兴趣度高；或者当所述表情向量的加权值为厌恶表情时，所述确定模块115确定所述目标人脸图像对应的用户的兴趣度低。当兴趣度高时，说明所述用户对正在观看的产品感兴趣，则所述推送模块117可以按照所述推荐排序方式将所述产品的相关信息推送至用户的终端设备。

具体地，所述推送模块117按照推荐排序方式将所述产品信息推送至用户的终端设备包括：

所述推送模块117获取所述用户的当前位置，并将所述商家按照与所述当前位置的距离进行排序，所述推送模块117根据排序推荐与所述关注点相关的商家至所述用户的终端设备。

当然，在其他事实例中，所述推送模块117还可以根据商家评分等进行推荐，以满足用户的实际需求，本发明不限制。

如图3所示，是本发明实现多任务属性识别方法的较佳实施例的电子设备的结构示意图。

所述电子设备1是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述电子设备1还可以是但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(InternetProtocol Television，IPTV)、智能式穿戴式设备等。

所述电子设备1还可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。

所述电子设备1所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

在本发明的一个实施例中，所述电子设备1包括，但不限于，存储器12、处理器13，以及存储在所述存储器12中并可在所述处理器13上运行的计算机程序，例如多任务属性识别程序。

本领域技术人员可以理解，所述示意图仅仅是电子设备1的示例，并不构成对电子设备1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。

所称处理器13可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器13是所述电子设备1的运算核心和控制中心，利用各种接口和线路连接整个电子设备1的各个部分，及执行所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。

所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个多任务属性识别方法实施例中的步骤，例如图1所示的步骤S10、S11、S12、S13。

或者，所述处理器13执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如：获取视频序列中的目标人脸图像；将所述目标人脸图像输入到第一神经网络模型中，并输出至少两种不同的属性特征类别对应的属性特征；选取符合预设输入条件的所述属性特征类别对应的属性特征作为目标属性特征；将所述目标属性特征输入到第二神经网络模型中，并得到若干表情向量。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器13执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如，所述计算机程序可以被分割成获取模块110、第一处理模块111、第二处理模块112、执行模块113、计算模块114、确定模块115、查找模块116、推送模块117、训练模块118及调节模块119。

所述存储器12可用于存储所述计算机程序和/或模块，所述处理器13通过运行或执行存储在所述存储器12内的计算机程序和/或模块，以及调用存储在存储器12内的数据，实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器12可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地，所述存储器12可以是集成电路中没有实物形式的具有存储功能的电路，如RAM(Random-AccessMemory，随机存取存储器)、FIFO(First In First Out，)等。或者，所述存储器12也可以是具有实物形式的存储器，如内存条、TF卡(Trans-flash Card)等等。

所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。

其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

结合图1，所述电子设备1中的所述存储器12存储多个指令以实现一种多任务属性识别方法，所述处理器13可执行所述多个指令从而实现：获取视频序列中的目标人脸图像；将所述目标人脸图像输入到第一神经网络模型中，并输出至少两种不同的属性特征类别对应的属性特征；选取符合预设输入条件的所述属性特征类别对应的属性特征作为目标属性特征；将所述目标属性特征输入到第二神经网络模型中，并得到若干表情向量。

根据本发明优选实施例，所述处理器13还执行多个指令包括：

按照推荐排序方式将所述产品信息推送至用户的终端设备。

计算每个所述属性特征分类结果对应的精度值；

对所述视频序列执行人脸检测；

具体地，所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种多任务属性识别方法，其特征在于，所述方法包括：

获取视频序列中的目标人脸图像；

将所述目标人脸图像输入到第一神经网络模型中，并输出至少两种不同的属性特征类别对应的属性特征，其中，所述第一神经网络模型包括用于识别所述目标人脸图像的多个属性特征的一维卷积神经网络模型，所述属性特征类别包括第一属性类别和第二属性类别，所述第一属性类别包括自然属性类别，所述自然属性类别包括性别、年龄、种族和发型，所述第二属性类别包括表情属性类别和饰品属性类别，所述饰品属性类别包括帽子、眼镜、项链和耳环，所述第一属性类别的稳定度大于所述表情属性类别的稳定度；

选取符合预设输入条件的所述属性特征类别对应的属性特征作为目标属性特征，所述目标属性特征包括所述自然属性类别对应的属性特征和所述饰品属性类别对应的属性特征；

2.如权利要求1所述的多任务属性识别方法，其特征在于，所述自然属性类别的稳定度大于所述饰品属性类别，所述选取符合预设输入条件的所述属性特征类别对应的属性特征作为目标属性特征包括：

3.如权利要求1所述的多任务属性识别方法，其特征在于，所述将所述目标属性特征输入到第二神经网络模型中，并得到若干表情向量之后，所述方法还包括：

4.如权利要求3所述的多任务属性识别方法，其特征在于，在计算预设时间段内每个所述表情向量的加权值之后，所述方法还包括：

按照推荐排序方式将所述产品信息推送至用户的终端设备。

5.如权利要求1所述的多任务属性识别方法，其特征在于，所述获取视频序列中的目标人脸图像之前，所述方法还包括：

计算每个所述属性特征分类结果对应的精度值；

6.如权利要求1所述的多任务属性识别方法，其特征在于，所述获取视频序列中的目标人脸图像之前，所述方法还包括：

7.如权利要求1所述的多任务属性识别方法，其特征在于，所述获取视频序列中的目标人脸图像包括：

对所述视频序列执行人脸检测；

8.一种多任务属性识别装置，其特征在于，所述装置包括：

获取模块，用于获取视频序列中的目标人脸图像；

第一处理模块，用于将所述目标人脸图像输入到第一神经网络模型中，并输出至少两种不同的属性特征类别对应的属性特征，其中，所述第一神经网络模型用于识别所述目标人脸图像的多个属性特征的一维卷积神经网络模型，所述属性特征类别包括第一属性类别和第二属性类别，所述第一属性类别包括自然属性类别，所述自然属性类别包括性别、年龄、种族和发型，所述第二属性类别包括表情属性类别和饰品属性类别，所述饰品属性类别包括帽子、眼镜、项链和耳环，所述第一属性类别的稳定度大于所述表情属性类别的稳定度；

第二处理模块，用于选取符合预设输入条件的所述属性特征类别对应的属性特征作为目标属性特征，所述目标属性特征包括所述自然属性类别对应的属性特征和所述饰品属性类别对应的属性特征；

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现如权利要求1至7中任意一项所述的多任务属性识别方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述的多任务属性识别方法。