CN110543578A

CN110543578A - 物体识别方法及装置

Info

Publication number: CN110543578A
Application number: CN201910736247.2A
Authority: CN
Inventors: 黄飞; 吴小飞; 李志豪; 许松岑; 刘健庄; 颜友亮; 钱莉; 黄雪妍
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2019-12-06
Anticipated expiration: 2039-08-09
Also published as: US20220245926A1; WO2021027789A1

Abstract

本申请涉及人工智能领域。具体涉及计算机视觉领域，公开了一种优化用户拍照姿势的方法，应用于电子设备，所述方法包括：显示所述电子设备的相机的拍摄界面；获取所述拍摄界面的取景图像，根据所述取景图像确定所述拍摄界面上包括人像；进入姿态推荐模式，将人体姿态推荐图片按照预定的预览方式呈现给用户；所述人体姿态图片为使用度量学习，从图片库中选取同所述取景图像相似度排名靠前的至少一张图片；其中，所述相似度为融合了背景相似度和前景相似度的整体相似度。

Description

物体识别方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种物体识别方法及装置。

背景技术

计算机视觉是各个应用领域，如制造业、检验、文档分析、医疗诊断，和军事等领域中各种智能/自主系统中不可分割的一部分，它是一门关于如何运用照相机/摄像机和计算机来获取我们所需的，被拍摄对象的数据与信息的学问。形象地说，就是给计算机安装上眼睛(照相机或摄像机)和大脑(算法)用来代替人眼对目标进行识别、跟踪和测量等，从而使计算机能够感知环境。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。总的来说，计算机视觉就是用各种成象系统代替视觉器官获取输入信息，再由计算机来代替大脑对这些输入信息完成处理和解释。计算机视觉的最终研究目标就是使计算机能像人那样通过视觉观察和理解世界，具有自主适应环境的能力。

人体姿态推荐是计算机视觉领域中一个非常新颖的应用问题，应用于手机人像摄影的情景下，当用户针对日常场景进行人像拍照时，人体姿态推荐方法可以根据当前被拍摄者所在的环境信息推荐出与当前环境高度相似的一系列专业的人体姿态图片，进而被拍者可以从中进行选择和参考，进一步提升人像摄影的姿态感和美感。

当前，业界已有一些针对人体姿态推荐的方法，但是现有的方法利用的信息有限，推荐结果比较差，难以满足实际应用的要求，或者使用的模型复杂度过高，无法支撑实时的推荐要求和无法部署到计算能力有限的手机等终端设备上。因此现有的人体姿态推荐的方法应用场景十分受限。

发明内容

本发明综合考虑了现有技术方案的不足，提出一种人体姿态推荐的技术方案，通过场景分类、场景解析、人体属性等方法提取预览图片中复杂的环境信息，通过度量学习进行信息融合和模型训练，实现轻量级高准确度的方案，可部署到手机等移动终端实时地进行推荐。

一方面，本申请实施例提供一种人体姿态相似图片推荐方法，所述方法包括：

接收输入图片，所述输入图片中包含人像；

使用基于多层次环境信息特征的度量学习，从图片库中选取同所述输入图片相似度最高的至少一张图片作为人体姿态推荐图片；其中，所述多层次环境特征包括：场景特征、物体的空间分布特征和前景人体特征；

将所述人体姿态推荐图片按照预定的预览方式呈现给用户。

可选地，所述方法包括：

接收用户的推荐偏好设置；其中，所述使用基于多层次环境信息特征的度量学习，从图片库中选取同所述输入图片相似度最高的至少一张图片作为人体姿态推荐图片，包括：

使用基于多层次环境信息特征的度量学习结合所述用户的推荐偏好，从图片库中选取同所述输入图片相似度最高的至少一张图片作为人体姿态推荐图片；所述人体姿态推荐图片符合所述用户的推荐偏好。

可选地，所述使用基于多层次环境信息特征的度量学习，从图片库中选取同所述输入图片相似度最高的至少一张图片作为人体姿态推荐图片，包括：

对所述输入图片进行特征提取处理，得到所述输入图片的特征；

使用基于多层次环境信息特征的度量学习，计算所述输入图片的特征与每一张特征库中图像特征的相似度；其中，所述特征库是通过对图片库中的每张图片提取预定数量的维度的特征得到的；

根据计算结果，从所述图片库中选择相似度排名靠前的对应的至少一张图片作为人体姿态推荐图片。

可选地，所述方法包括：

接收用户的推荐偏好设置；

从所述人体姿态图片中，筛选出符合所述推荐偏好的图片作为最终的人体姿态推荐图片。

可选地，接收输入图片包括：接收包含拍摄目标的多张不同角度的输入图片；可选地，另一种替代的方案为：接收输入图片包括：接收包含拍摄目标的至少一张不同角度的输入图片；

使用基于多层次环境信息特征的度量学习，从图片库中选取同所述输入图片相似度最高的至少一张图片作为人体姿态推荐图片，包括：

使用基于多层次环境信息特征的度量学习，计算所述图片库中与每张所述输入图片的最相似的图片；

将所有的最相似图片进行排序，选择排名靠前的至少一张图片作为所述人体姿态推荐图片。

可选地，所述方法还包括：

接收用户上传的自定义图片；

将用户自定义图片更新至所述图片库。

一方面，本申请实施例提供一种一种图片推荐装置，所述装置包括：

接收模块，用于接收输入图片，所述输入图片中包含人像；

推荐模块，用于使用基于多层次环境信息特征的度量学习，从图片库中选取同所述接收模块接收到的输入图片相似度最高的至少一张图片作为人体姿态推荐图片；其中，所述多层次环境特征包括：场景特征、物体的空间分布特征和前景人体特征；

输出模块，用于将所述人体姿态推荐图片按照预定的预览方式呈现给用户。

可选地，所述装置还包括：

偏好设置接收模块，用于接收用户的推荐偏好设置；其中，所述推荐模块，具体用于：

可选地，所述推荐模块，包括：

特征提取单元，用于对所述输入图片进行特征提取处理，得到所述输入图片的特征；

相似度计算单元，用于基于多层次环境信息特征的度量学习，计算所述输入图片的特征与每一张特征库中图像特征的相似度；其中，所述特征库是通过对图片库中的每张图片提取预定数量的维度的特征得到的；

推荐单元，用于根据计算结果，从所述图片库中选择对应排名靠前的相似度的至少一张图片作为人体姿态推荐图片。

可选地，所述接收模块还用于接收包含拍摄目标的多张不同角度的输入图片；

所述推荐模块，包括：

相似度计算单元，用于基于多层次环境信息特征的度量学习，计算所述图片库中与每张所述输入图片的最相似的图片；

推荐单元，用户将所有的最相似图片进行排序，选择排名靠前的至少一张图片作为所述人体姿态推荐图片。

可选地，所述装置还包括：

自定义图片接收模块，用于接收用户上传的自定义图片；

更新模块，用于将所述自定义图片更新至所述图片库。

一方面，本申请实施例提供一种提示用户进行相似构图拍照的方法，所述方法包接收用户在当前地点取景的包含拍摄目标的多张不同角度的原始图片集合；

推荐给用户至少一张目标图片和至少一张对应的原始图片，所述目标图片包含了推荐的人物姿态，其中，所述目标图片和所述对应原始图片具有相似的背景构图。

可选地，所述方法还包括：

在拍摄界面上显示一个预览框，在所述预览框中显示所述目标图片和所述对应的原始图片对应的预览图片，并辅以文字提示。

一方面，本申请实施例提供一种可以提示用户进行相似构图拍照的智能终端，，所述装置包括：

接收模块，用于接收用户在当前地点取景的包含拍摄目标的多张不同角度的原始图片集合；

推荐模块，用于推荐给用户至少一张目标图片和至少一张对应的原始图片，所述目标图片包含了推荐的人物姿态，其中，所述目标图片和所述对应原始图片具有相似的背景构图。

可选地，所述装置还包括：

呈现模块，用于在拍摄界面上显示一个预览框，在所述预览框中显示所述目标图片和所述对应的原始图片对应的预览图片，并辅以文字提示。

一方面，本申请实施例提供一种构建人体特征库的方法，所述方法包括：

计算人体姿态库中的人体姿态图片的两两之间的相似度；

对于所述人体姿态库中的每一张图片，根据所述人体姿态图片的两两之间的相似度采集三元组训练样本；其中，每个三元组训练样本<A,P,N>包括三张人体姿态图像：A为所述人体姿态库中某张人体姿态图片，P为图片A的正样本，所述正样本为所述图片A的拍摄场景下可直接推荐的人体姿态图片，N为所述图片A的负样本，所述负样本为所述图片A的拍摄场景下不可直接推荐的人体姿态图片；

使用度量学习的方式对所述三元组训练样本进行训练，得到CNN特征提取模型；所述CNN特征提取模型使得能相互推荐的样本映射到特征空间后距离相近，不能推荐的样本映射到特征空间后距离远离。

使用所述CNN特征提取模型，对人体姿态图片库中的每张图片提取预定数量的维度的特征，构建人体姿态特征库。

可选地，所述计算人体姿态库中的人体姿态图片的两两之间的相似度，包括：

计算所述人体姿态库中人体姿态图片的两两之间的背景相似度和前景相似度；

融合所述人体姿态库人体姿态图片的两两之间的背景相似度和前景相似度，得到所述人体姿态库人体姿态图片的两两之间整体相似度。

可选地，所述计算所述人体姿态库中人体姿态图片的两两之间的背景相似度和前景相似度，包括：

通过场景分类算法和场景解析算法计算所述人体姿态库中人体姿态图片的两两之间的背景相似度；

通过人体属性提取算法计算所述人体姿态库中人体姿态图片的两两之间的前景相似度。

可选地，对于所述人体姿态库中的每一张图片，根据所述人体姿态图片的两两之间的相似度采集三元组训练样本，包括：

对于所述人体姿态库中的每一张图片，在所述人体姿态库中将相似度排名靠前的若干张图片作为正样本，将剩余的所有图片作为负样本。

一方面，本申请实施例提供一种构建人体特征库的装置，所述装置包括：

计算图像相似性模块，用于计算人体姿态库中的人体姿态图片的两两之间的相似度；

训练样本采集模块，对于所述人体姿态库中的每一张图片，根据所述人体姿态图片的两两之间的相似度采集三元组训练样本；其中，每个三元组训练样本<A,P,N>包括三张人体姿态图像：A为所述人体姿态库中某张人体姿态图片，P为图片A的正样本，所述正样本为所述图片A的拍摄场景下可直接推荐的人体姿态图片，N为所述图片A的负样本，所述负样本为所述图片A的拍摄场景下不可直接推荐的人体姿态图片；

CNN特征学习模块，用于使用度量学习的方式对所述三元组训练样本进行训练，得到CNN特征提取模型；所述CNN特征提取模型使得能相互推荐的样本映射到射到特征空间后尽可能相近，不能推荐的样本映射到特征空间后尽可能远离。

人体姿态特征库构建模块，使用所述CNN特征提取模型，对人体姿态图片库中的每张图片提取预定数量的维度的特征，构建人体姿态特征库。

可选地，所述计算图像相似性模块，包括：

相似度计算单元，用于计算所述人体姿态库中人体姿态图片的两两之间的背景相似度和前景相似度；

融合单元，用于融合所述人体姿态库中人体姿态图片的两两之间的背景相似度和前景相似度，得到所述人体姿态库中的人体姿态图片的两两之间整体相似度。

可选地，训练样本采集模块，用于：

一方面，本申请实施例提供一种优化用户拍照姿势的方法，应用于电子设备，所述方法包括：

显示所述电子设备的相机的拍摄界面；

获取所述拍摄界面的取景图像，根据所述取景图像确定所述拍摄界面上包括人像；

进入姿态推荐模式，将人体姿态推荐图片按照预定的预览方式呈现给用户；所述人体姿态图片为使用度量学习，从图片库中选取同所述取景图像相似度排名靠前的至少一张图片；其中，所述相似度为融合了背景相似度和前景相似度的整体相似度。

可选地，进入姿态推荐模式后，在所述将人体姿态推荐图片按照预定的预览方式呈现给用户之前，所述方法还包括：

对所述取景图像进行特征提取处理，得到所述取景图像的特征；

计算所述取景图像的特征与特征库中每一张图像的特征的相似度；其中，所述特征库是通过对所述图片库中的每张图片提取预定数量的维度的特征得到的；

将相似度排序，从图片库中选取对应排名靠前的相似度的至少一张图片作为人体姿态推荐图片。

相应用户切换到的云端智能推荐模式，然后将所述取景图像特征传输到云端服务器；

接收所述人体姿态推荐图片；所述人体姿态推荐图片为所述云端服务器根据所述取景图像特征从从图片库中选取同所述取景图像相似度排名靠前的至少一张图片。

接受用户的推荐偏好设置；

基于度量学习结合所述用户的推荐偏好，从图片库中选取同所述输入图片相似度排名靠前的至少一张图片作为人体姿态推荐图片；所述人体姿态推荐图片符合所述用户的推荐偏好。

可选地，所述方法还包括：

接收用户上传的自定义图片；

将用户自定义图片更新至所述图片库。

一方面，本申请实施例提供一种电子设备，其特征在于，包括：

一个或多个处理器；

一个或多个存储器；

多个应用程序；

以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，当所述一个或者多个程序被所述处理器执行时，使得所述电子设备执行以下步骤：

显示所述电子设备的相机的拍摄界面；

可选地，当所述一个或者多个程序被所述处理器执行时，使得所述电子设备执行以下步骤：

接受用户的推荐偏好设置；

接收用户上传的自定义图片；

将用户自定义图片更新至所述图片库。

一方面，本申请实施例提供一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如上述中任一项所述的人体姿态相似图片推荐方法。

一方面，本申请实施例提供一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如上述述的人体姿态相似图片推荐方法。

本发明实施例使用了图像的多层次特征，利用了人体姿态推荐中的有益信息，基于这些有益信息定义针对人体姿态推荐的相似度，并且通过度量学习有效地进行信息融合和模型训练，实现轻量级高准确度的方案，同时可部署到手机等移动终端实时地进行姿态推荐。

进一步，用户自定义推荐图库，同时可通过共享机制将自定义人体姿态图片上传，对本地和云端的图库不断进行更新和扩充。

进一步，用户可以结合当前环境设置用户偏好选项，然后针对用户的个性化设置推荐出用户实际需要的人体姿态图片，进一步提升用户体验。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的系统架构的结构示意图；

图2为本申请实施例提供的CNN特征提取模型的示意图；

图3是本申请实施例提供的一种效果示意图；

图4为本申请实施例提供的一种效果示意图；

图5为本申请实施例提供的一种系统实现示意图；

图6为本申请实施例提供的一种人体姿态图片推荐方法流程图；

图7为本申请实施例提供一种人体姿态图片推荐方法流程图；

图8为本申请实施例提供的一种多任务度量学习的网络结构示意图；

图9a为本申请实施例提供的一种效果示意图；

图9b为本申请实施例提供的一种效果示意图；

图10为本申请实施例提供的一种人体姿态图片推荐方法示意图；

图11为本申请实施例提供的一种用户界面示意图；

图12为本申请实施例提供的一种用户界面示意图；

图13为本申请实施例提供的一种人体姿态图片推荐方法流程图；

图14为本申请实施例提供的种多任务度量学习的网络结构示意图；

图15为本申请实施例提供的一种用户界面示意图；

图16为本申请实施例提供的一种用户界面示意图；

图17为本申请实施例提供的一种用户界面示意图；

图18为本申请实施例提供的一种用户界面示意图；

图19为本申请实施例提供的提供一种人体姿态相似图片推荐方法示意图；

图20为本申请实施例提供的一种人体姿态图片推荐装置示意图；

图21为本申请实施例提供的一种提示用户进行相似构图拍照的方法示意图；

图22为本申请实施例提供的一种可以提示用户进行相似构图拍照的智能终端示意图；

图23为本申请实施例提供的一种构建人体特征库的方法流程图；

图24为本申请实施例提供的一种构建人体特征库的装置示意图；

图25为本申请实施例提供的一种优化用户拍照姿势的方法流程图；

图26为本申请实施例提供的一种电子设备结构示意图；

图27为本申请实施例提供的一种芯片结构示意图。

具体实施方式

首先对本申请实施例中用到的缩略语，列表如下：

表1

由于本申请实施例涉及大量神经网络的应用，为了便于理解，下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。

(1)物体识别，利用图像处理和机器学习、计算机图形学等相关方法，确定图像物体的类别。

(2)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以xs和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，Ws为xs的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(3)深度神经网络

深度神经网络(Deep Neural Network，DNN)，也称多层神经网络，可以理解为具有很多层隐含层的神经网络，这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：其中，是输入向量，是输出向量，是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量经过如此简单的操作得到输出向量由于DNN层数多，则系数W和偏移向量的数量也就很多了。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是：第L-1层的第k个神经元到第L层的第j个神经元的系数定义为需要注意的是，输入层是没有W参数的。在深度

神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(4)卷积神经网络

卷积神经网络(CNN，Convolutional Neuron Network)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(5)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(6)反向传播算法

卷积神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的超分辨率模型中参数的大小，使得超分辨率模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的超分辨率模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的超分辨率模型的参数，例如权重矩阵。

需要说明的是，本发明实施例部分附图为了更符合业界的术语描述，使用了英文描述，同时实施例中也给出了相应的中文的定义。下面结合附图对本申请的实施例进行描述。

本申请实施例所要解决的技术问题是针对各种日常场景下的人体姿态推荐问题。当用户使用手机等终端设备对日常场景进行人像拍照时，人体姿态推荐方法可以根据当前被拍摄者所在的环境信息推荐出与当前环境高度相似的一系列专业的人像摆拍图片，进而被拍者可以从中进行选择和参考，进一步提升人像摄影的姿态感和美感。为此，需要实现对当前环境信息进行深度的理解以保证较好的推荐效果，同时也要兼顾模型的复杂性，以便部署到手机等终端设备上。

本申请实施例主要应用于以下场景：在辅助人像摄影和智能构图上，可以使用本申请实施例的方法辅助用户进行人体姿态摆拍，从而提升人像图片的趣味性和美感。本申请实施例可以直接应用在移动设备上的以图搜图的场景，帮助用户搜索出高度相似的图片。

应用场景1：辅助人像摄影

在不同的场景下用户利用手机等终端设备进行人像摄影时，很多被拍摄者往往没有很好的摆拍姿态的想法，造成拍摄的人像姿态比较单一，影响了人像图片的整体美感。本发明的方法利用手机等终端设备获取当前的预览图片，分析当前预览图片的环境信息和被拍摄者的主体信息，从预筛选的专业人像摄影图片图库或用户自定义\收藏的摄影图库中推荐出与当前场景和被拍摄者属性(人数，性别，衣着等)高度相似的人体姿态的图片，供被拍摄者参考或模仿，进一步提升人像摄影的姿态感。如图3所示，(a)为用户针对当前场景摆拍时，按照被拍摄者的初始姿态进行拍摄图片，(b)为本发明根据用户所在环境和被拍摄者的主体属性推荐出的人体姿态图片，(c)为被拍摄者参考推荐的人体姿态图片调整姿态后的拍摄结果，可以很明显地发现本发明推荐的人体姿态图片与当前环境高度相似，并且对被拍摄者摆拍产生很大的有益效果。

应用场景2：以图搜图

用户利用手机等终端设备进行以图搜图时，为了提高搜索效果需要利用图像的多层次有益的信息，同时需要兼顾到移动设备的计算能力，因此需要一个高精度轻量级的解决方案。本发明的方法充分利用了图像的多层次的丰富信息，基于这些信息获得的相似度并利用度量学习进行多特征的信息融合与挖掘，实现了一个非常轻量级的检索或者推荐的方案，可在手机等移动设备上实时运行。当用户已有一张某个环境下的样例图像，想要在用户手机上的图库或者预定义的图库中搜索或者匹配相似环境下的图片时，可通过本发明的方案提取图像的特征，然后与图库中的已有图像进行相似度匹配，按照相似度排序展示给用户最为相似的图片。如图4所示，(a)样例为用户使用样例图片，(b)为使用本发明方法搜索到的相似图片，可以很明显发现本发明方法的搜索结果与样例图片非常相似。

下面介绍本申请实施例提供的系统架构。

参见图1，本申请实施例提供了一种系统架构100。如所述系统架构100所示，数据采集设备160用于采集训练数据，本申请实施例中训练数据包括：包含人体的图像或图像块；并将训练数据存入数据库130。也就是说，这里的数据库中存储有人体姿态图片库。

训练设备120基于数据库130中维护的训练数据训练得到CNN特征提取模型101。本申请后面的实施例将会将更详细地描述训练设备120如何基于训练数据得到CNN特征提取模型101。该CNN特征提取模型101能够用于，即，将包含人体的图像或图像块相关预处理后输入该CNN特征提取模型101，即可得到包含人体的图像或图像块预定数量的维度的特征。这些特征用于构成人体姿态特征库。

本申请实施例中的CNN特征提取模型101可以通过CNN卷积神经网络实现。需要说明的是，在实际的应用中，所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的，例如用户通过其电子设备直接上传到数据库中的。另外需要说明的是，训练设备130也不一定完全基于数据库130维护的训练数据进行CNN特征提取模型101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的CNN特征提取模型101可以应用于不同的系统或设备中，如应用于图1所示的执行设备110，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，AR/VR，车载终端等，还可以是服务器或者云端等。例如，执行设备110为手机终端的时候，可以将CNN特征提取模型101打包成SDK直接下载到手机上运行。在附图1中，执行设备110配置有I/O接口112，用于与外部设备进行数据交互。用户通过I/O接口112输入数据，可选地，如图1所述，可以通过客户设备140和I/O接口112交互。所述输入数据在本申请实施例中可以包括：用户使用电子设备取景得到的包括人体的图像，或者用户保存在执行设备本地存储中的带有人体的图像。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理(比如进行本申请中提到的寻找相似图片的过程)过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。比如，在一个实施例中，通过本申请实施例方法得到的人体姿态特征库可以存储在数据存储系统150中。

最后，I/O接口112将处理结果，如寻找到的可以用于推荐的人体姿态图片，返回给用户，呈现给用户。

在附图1中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，附图1仅是本发明实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图1中，数据存储系统160相对执行设备120是外部存储器，在其它情况下，也可以将数据存储系统160置于执行设备120中。可选地，在一个实施例中，客户设备140也可以位于执行设备110中。

本申请实施例提供的方法和装置还可以用于扩充训练数据库，如图1所示执行设备120的I/O接口112可以将经执行设备处理过的图像(如包含人像的图像，这个图像可以是智能手机，数码相机等电子设备拍摄的，也可以是用户自己上传的)作为训练数据对发送给数据库130，以使得数据库130维护的训练数据更加丰富，从而为训练设备130的训练工作提供更丰富的训练数据。

本申请实施例提供的训练CNN特征提取模型的方法，涉及计算机视觉的处理，具体可以应用于数据训练、机器学习、深度学习等数据处理方法，对训练数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等，最终得到训练好的CNN特征提取模型的；并且，本申请实施例将输入数据(如本申请中的人体姿态图片)输入到所述训练好的CNN特征提取模型中，得到输出数据(如本申请实施例中下面反复提到的，每张人体姿态图片库中的人体姿态图像提取预定数量的维度的特征。而这些特征构成了人体姿态特征库)。

如前文的基础概念介绍所述，卷积神经网络是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元可以对输入其中的图像作出响应。

如图2所示，卷积神经网络(CNN)200可以包括输入层210，卷积层/池化层220(其中池化层为可选的)，以及神经网络层230。

卷积层/池化层220：

卷积层：

如图2所示卷积层/池化层220可以包括如示例221-226层，举例来说：在一种实现中，221层为卷积层，222层为池化层，223层为卷积层，224层为池化层，225为卷积层，226为池化层；在另一种实现方式中，221、222为卷积层，223为池化层，224、225为卷积层，226为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

下面将以卷积层221为例，介绍一层卷积层的内部工作原理。

卷积层221可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用多个尺寸(行×列)相同的权重矩阵，即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度，这里的维度可以理解为由上面所述的“多个”来决定。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同，经过该多个尺寸相同的权重矩阵提取后的特征图的尺寸也相同，再将提取到的多个尺寸相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息，从而使得卷积神经网络210进行正确的预测。

当卷积神经网络220有多个卷积层的时候，初始的卷积层(例如221)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络210深度的加深，越往后的卷积层(例如226)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，在如图2中220所示例的221-226各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

神经网络层230：

在经过卷积层/池化层220的处理后，卷积神经网络200还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层220只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息)，卷积神经网络200需要利用神经网络层230来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层230中可以包括多层隐含层(如图2所示的231、232至23n)以及输出层240，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等等。

在神经网络层230中的多层隐含层之后，也就是整个卷积神经网络200的最后层为输出层240，该输出层240具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络200的前向传播(如图2由210至240方向的传播为前向传播)完成，反向传播(如图2由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络200的损失，及卷积神经网络200通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图2所示的卷积神经网络200仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在。

下面对本申请具体的技术方案进行详细描述。

图5是本发明实施例提供的一种模块实现示意图。本发明实施例的落地产品形态是手机终端设备，部署在相关设备的计算节点上，通过软件改造，以辅助拍照的形式优化人像摄影和智能构图的姿态感和美感。本发明实施例的实现模块如图5所示，其主要包括离线模块和在线模块。离线模块分为两个子模块：计算图像相似性子模块和CNN特征训练子模块，在线模块分为两个子模块：CNN特征提取子模块和在线推荐子模块。各个模块功能描述如下：

(1)离线模块

离线模块即在模型部署手机等终端设备前完成，可以在任意满足训练能力要求的服务器上完成，目标是获得具备理解图像的环境信息和拍摄主体(人)的属性信息的轻量级模型，支撑其在手机等终端设备上进行推荐的能力。

计算图像相似性子模块：将人体姿态库中的人体姿态图片输入计算图像相似性模块，获得图片库中图像的两两之间的相似度。该相似度包括背景相似度和前景相似度，背景相似度表示图像所在环境场景的相似性(例如是否都是沙滩的场景)，通过场景分类和场景解析获得；前景相似度表示被拍摄者的主体属性相似性(例如，是否是同性别、衣着是否相似)，通过人体属性获得。通过融合前景相似性和背景相似性，得到图片的整体相似性，该相似度能够比较准确地进行人体姿态推荐。可选地，在一个实施例中，可以通过度量学习进行融合融合前景相似性和背景相似性。

需要说明的是，在一个实施例中，这个人体姿态库是预先收集的，后续可通过用户上传扩充这个库。

通过输入图片在互联网上搜索推荐的姿态图片的方式，在技术上是可行的，将互联网图片搜索(如百度图片搜索)与本专利方法结合也可能是有用的。

CNN特征学习子模块：根据计算图像相似性子模块中获得的图像相似度信息在人体姿态库中进行大量的三元组采样，每个三元组样本<A,P,N>包括三张人体姿态图像：A姿态库中某张人体姿态图像，P为A场景下可直接推荐的人体姿态图像(相似度高)，N为A环境下不可直接推荐的人体姿态图像(相似度低)。需要说明的是，这个A指的是姿态库中某张人体姿态图像，P为图像A所拍摄场景下可直接推荐的人体姿态图像，N为图像A所拍摄场景下不可直接推荐的人体姿态图像。

通过利用大量的三元组训练数据，使用度量学习的方式训练一个轻量级的CNN特征提取模型，使得能相互推荐的样本映射到射到特征空间后尽可能相近，不能推荐的样本映射到特征空间后尽可能远离。训练完CNN特征提取模型后，利用已经训练好的度量学习CNN特征提取模型对每张人体姿态图片库中的人体姿态图像提取预定数量的维度的特征(一种可能的实现方式是，后台通过CNN特征提取模型自动提取)，构成人体姿态特征库。在一个实施例中，预定数量的维度的特征可理解为长度固定的数组，例如我们规定特征维度为10，[x1,x2,x3,…,x10],这个10维的特征代表着这张图片的信息。

需要说明的是，人体姿态图库是用来存储原图的，推荐的时候直接展示给用户，人体姿态特征库是用于存储人体姿态图库中每张原图特征，用于后台算法计算相似度进行推荐的。

(2)在线模块

CNN特征提取子模块：在线阶段，使用离线训练的度量学习CNN特征提取模型，部署到手机等移动设备上。对于摄像机捕获得视频流，按照固定间隔取帧，把当前帧图片输入CNN特征提取模型提取图像预定数量的维度的特征，然后将该特征输入在线推荐子模块。

可选地，CNN特征提取模型可以打包成SDK直接下载到手机上运行。

在线推荐子模块：该模块的输入为预览图片的特征、人体姿态图库和人体姿态特征库。计算预览图像的特征与每一张特征库中的特征计算相似度，然后将相似度排序，将最相似的多张图片按照预定的预览方式反馈给用户进行选择。为了在手机等设备上加速相似度计算和排序过程，可使用任意的索引方式，包括但不限于哈希索引、决策树等。

本发明实施例的一种方法流程如图6所示。

(1)计算图像相似度。在该步骤中，对人体姿态图片库中的图片，计算两两之间的相似度。该相似度包括背景相似度和前景相似度，背景相似度表示图像所在环境场景的相似性(例如是否都是沙滩的场景)，通过场景分类和场景解析获得；前景相似度表示被拍摄者的主体属性相似性(例如，是否是同性别、衣着是否相似)，通过人体属性检测获得。通过融合前景相似度和背景相似度，得到图片的整体相似度。

(2)三元组训练样本采样。对于所述人体姿态库中的每一张图片，根据所述人体姿态图片的两两之间的相似度采集三元组训练样本。。对于人体姿态库中的每一张图像，在推荐图库中计算最为相似的若干张图像作为正样本(如按照相似度排序取前K张)，剩下的图像都当做负样本。如此可以采集大量的三元组样本，支撑后续的训练过程。

(3)CNN特征提取模型训练。将上述采样的三元组训练样本，使用度量学习的方式训练CNN特征网络。为了保持图像的场景信息一致，采用度量学习和场景分类联合多任务训练的方式，同时使用排序损失函数和分类损失函数优化模型参数。该排序损失函数标签由三元组采样获得，场景分类标签可为人工标注的标签，也可为场景分类网络获得的伪标签。

(4)构建人体姿态特征库和提取预览图片特征。该部分使用训练好的CNN特征提取模型分别提取人体姿态库的图像特征和手机等设备上的预览图像特征，前者可在任意服务器端完成并随着模型一起部署到手机等设备上，后者需要在手机等设备上实时运行。

(5)在线推荐。根据预览图片的特征和人体姿态推荐库的特征。计算预览图像的特征与每一张特征库中的图像特征计算相似度，然后将相似度排序，将最相似的多张图片按照预定的预览方式反馈给用户进行选择。为了在手机等设备上加速相似度计算和排序过程，可使用任意的索引方式，包括但不限于哈希索引、决策树等。

本发明实施例一

本发明实施例阐述的是本发明的推荐方法及模块，本发明实施例的主要模块由离线模块和在线模块构成，离线模块分为两个子模块：计算图像相似性子模块和CNN特征学习子模块，这两个子模块用于通过一种无监督的方式获取针对人体姿态推荐有益的图像相似度，然后使用度量学习建模这种相似度关系；在线模块分为两个子模块：CNN特征提取子模块和在线推荐子模块，这两个子模块包括利用离线模块获取的CNN特征提取模型部署到手机等移动设备上进行在线实时的特征提取和人体姿态推荐。下面将详细说明本发明实施例的这些模块：

(1)离线模块

对于离线处理，我们分为两个子模块：计算图像相似性模块和CNN特征学习子模块，下面分别详细介绍该模块的功能。

计算图像相似性模块

计算图像相似性模块，用于提取图像的多种有益环境信息，融合这些信息计算针对人体姿态推荐的相似度进行推荐。

本发明实施例使用了三种层次的环境信息特征：场景特征、物体的空间分布特征和前景人体特征。场景特征由预训练的场景分类网络获得的，本发明实施例的场景分类网络可采用多种架构，如ResNet-152和DenseNet-161等网络结构。场景分类网络训练使用的数据集包括Places365，SUN Database等，覆盖日常生活的大部分场景。

物体的空间分布特征是由场景解析网络获得，本发明实施例中的场景解析网络可使用但不局限于PSP-Net、RefineNet等网络架构，训练数据集可包括ADE20K等。

人体信息由人体检测和人体属性网络获得，人体检测网络用于检测出人体以及获得人体区域作为人体属性网络的输入，人体属性网络用于识别每个人体的属性信息，主要包括性别和衣着等。本发明实施例中的人体检测和人体属性网络可使用任意高精度的结构，人体检测可使用MS COCO等公开数据用于训练人体的检测模型，人体属性可使用PA-100K等数据库进行模型训练。

基于这些多层次的信息，使用一种多阶段级联的方法获得图像相似性，其示意流程如图7所示。

1和2：首先给定任意一张图片(本部分计算图像相似性是用于产生三元组训练数据，这里的任意一张图像指的是训练集中的任意一张图像，该训练集可包含图5中的人体姿态图片库)和图片库(这里的图片库，具体指的是训练集，该训练集可包含图5中的人体姿态图片库)；

3和5：按照场景分类、人体检测和人体属性分类的硬规则从图片库中获得与当前输入图像具有相似场景并且相似人数和人体属性(可选地，具体人体属性包括性别、衣着等)的候选相似图像集，

4：根据场景解析网络获得图像(图像是指“给定任意一张图片”，也可理解为输入图片)的特征；

6：计算输入图片和候选相似图像集中的每一张图片物体空间分布的相似度，然后进行排序，最后选取排序较高的前K个候选相似图像作为该输入图片的相似图片，其余全视为不相似图片。这里场景解析的特征可从预训练好的网络中特定层直接抽取，它代表了图像的物体的空间分布信息。

CNN特征学习子模块

该模块基于计算图像相似度子模块的图像相似度，采样出大量的三元组数据进行度量学习训练，以达到特征融合的目的。具体而言，每个三元组样本<A,P,N>包括三张人体姿态图像：A姿态库中某张人体姿态图像，P为A场景下可直接推荐的人体姿态图像，称为正样本，N为A环境下不可直接推荐的人体姿态图像，称为负样本。对于图像库中的任意一张图片，通过计算图像相似性子模块获得相似的图像作为正样本，不相似的图像作为负样本。举例来说，这个A指的是姿态库中某张人体姿态图像，P为图像A所拍摄场景下可直接推荐的人体姿态图像，N为图像A所拍摄场景下不可直接推荐的人体姿态图像。例如图8，A和P是可相互推荐的图片，N跟A/P不可相互推荐，因为N是咖啡厅的坐的pose，A和P的环境下不能做这样的摆拍。

在一个实施例中，在训练模型的时候，每张图片对应着多个正样本，多个负样本，那么会存在很多三元组，这些恰巧是我们需要的，例如我们有三万张图片训练集，可生成几百万到几千万个三元组。但是具体地，实现的时候，可以设定一些规则去筛选出部分重要的三元组，例如每张图片只保留K1张最相似的正样本，K2张最不相似的负样本，以此限制三元组的数量。

由此方法可获得大量的三元组样本作为度量学习的训练数据。训练度量学习CNN特征提取模型，使得可相互推荐的图像映射到特征空间后尽可能相近，不可相互推荐的图像映射到特征空间后尽可能远离。本实施例使用度量学习方式训练CNN特征提取模型。该度量学习模型是三胎网络(Triplet Network)，三胎网络结构如图8所示。

基于三胎网络，通过该网络学习CNN特征提取模型。三胎网络由三个权重共享的CNN网络分支组成，该CNN可为任何可部署到移动端的轻量级CNN基础网络，包括但不限于ResNet,MobileNet等，三个网络分支分别对应着三元组样本中的三张人体姿态图片<A,P,N>，通过前向传播得到分别的特征向量f(A)、f(P)和f(N)。本发明采用了场景分类和度量学习联合多任务训练的模式，即同时预测图片的场景类别，也同时拟合预先定义的相似度关系。假设CNN的特征提取用函数f(*)表示，输入三元组用<A,P,N>表示，那么三胎网络的排序损失函数为：

其中α为一个参数，用来定义正样本P和负样本N的优化距离，M三元组样本数量。另外假设每个三张人体姿态图片<A,P,N>的场景类别标签分别为和该标签可为上述场景分类网络获得的伪标签，也可为人工标注的正确标签，通过引入场景分类损失函数，如下：

其中C(*)为一个浅层的多层感知机，用于分类器建模，由此在训练三胎网络的时候同时使用两种损失函数进行优化，同时保证了场景的正确性和相似度的正确性。训练完成后，可直接使用CNN提取的特征进行人体姿态推荐。同时，需要离线提前对人体姿态图库中的人体姿态图像提取CNN特征，构建人体姿态特征库，以便在线进行高效匹配和推荐。

(2)在线模块

对于在线处理，我们分为两个子模块：CNN特征提取子模块和在线推荐子模块，下面分别详细介绍该模块的方法。

CNN特征提取子模块：

在线阶段，使用离线训练的度量学习CNN特征提取模型，部署到手机等移动设备上。对于摄像机捕获得视频流(在人体姿态推荐的使用场景下，这里的取的景是这个视频流，该视频流用于提取当前照相机拍摄的环境特征，用于计算相似度进行人体姿态推荐)，按照固定间隔取帧。取帧方式与模型运行时间直接相关。假设模型提取特征的时间为t秒，那么每秒可提取1/t帧图像进行处理。然后将每帧图片输入CNN特征提取模型提取图像预定数量的维度的特征。某一帧图片的特征可直接使用当前帧图片提取的CNN特征，也可以融合临近的若干帧图片的特征。然后将该特征输入在线推荐子模块。

在线推荐子模块：

该模块的输入为预览图像的特征和人体姿态图库和人体姿态特征库。按照下面公式计算预览图像的特征与每一张特征库中的特征计算相似度：

然后按照相似度进行排序，将最相似的多张图片按照预定的预览方式反馈给用户进行选择。为了在手机等设备上加速相似度计算和排序过程，可使用任意的索引方式，如哈希索引、决策树等。

下面图9a是本发明实施例一的技术效果图，每行第一列是不同场景下的输入图片，后三列分别是按照本专利的方法推荐出来的人体姿态图片。另外本方案实现的模型可成功部署在手机上实时地进行人体姿态推荐，通过实际的现场测试，取得了很好的效果。图9b为用户使用我们的系统的一些摆拍的例图。第一列为用户初始的摆拍图片，第二列为按照我们的方法推荐出来的人体姿态图像，第三列为用户参考推荐图片进行调整姿态后的摆拍图片。非常明显地可以看出，用户针对本发明的推荐结果摆拍后图片的美感和姿态感更好。

本发明实施例区别与现在技术的主要改进在于使用了图像的多层次特征，深度利用了人体姿态推荐中的有益信息，基于这些有益信息定义针对人体姿态推荐的相似度，并且通过度量学习有效地进行信息融合和模型训练，实现轻量级高准确度的方案，同时可部署到手机等移动终端实时地进行姿态推荐。

本发明实施例二

本实施例阐述的是基于方法的推荐流程。实施例二的方法流程如图10所示，本发明实施例提供上传机制。一方面，用户可以上传个人偏好的图片，加入到本地的图片库中，供自己后续的拍照使用，这些图片可以在后续类似的场景中推荐出来。另一方面，本发明实施例提供给用户在线分享机制，将图片加入到云端的图片库中，对人体姿态推荐图库进行更新供其它人参考，进一步提升用户体验。在这两种模式下，会根据图片库中的图片自动的更新推荐内容，便捷的提供姿态推荐服务。

本发明实施例中的本地智能推荐具体是在手机等移动终端完成，包括图像的特征提取和在线推荐逻辑都在本地完成，此时只在本地的人体姿态图库中进行匹配和推荐，不涉及云端的数据库。这种推荐场景不需要用户上传任何信息，保障了用户隐私，并且推荐效率比较高。当用户本地的人体姿态图库不能满足推荐需求时，用户可切换成云端智能推荐模式。

可选地，可以手动切换，也可以本地和云端同时找，或者先本地找，找不到合适的再去云端找，这几种方式本专利算法都可以实现。考虑到云端找需要用户上传数据，如果在用户不知情的情况下涉及到用户隐私问题，所以可以手动切换推荐模式。

该云端智能推荐模式下图像的特征提取在本地完成，然后将特征传输到云端服务器并在远程服务器上按照本发明的推荐方法进行匹配和推荐，然后将推荐结果以预先定义的预览方式返回给用户进行预览与选择。此时需要用户上传特征和传输返回结果，因此推荐效率受网络带宽的影响，由于云端的人体姿态图库通常比本地图库丰富，所以推荐结果会更好。

当用户通过某种方式获得个性化的人体姿态图片，该方式包括但不限于用户自定义人体姿态图片或者从互联网网站上收藏人体姿态图片，用户可通过分享机制将用户获取的个性化人体姿态图片分享到云端，扩充云端的图库，以供其它用户使用与参考。同时，用户也可以在远程服务器上下载喜欢的人体姿态图片到本地，扩充本地的图库。对于新增的人体姿态图片，系统自动按照本发明的度量学习模型直接提取其特征，建立原图和特征的对应关系(因为是基于每张原图的特征向量计算人体姿态的相似度，将相似度高的原图推荐给用户，因此，每张原图对应着预定数量的维度的特征向量，特征向量的相似性直接反映着原图的人体姿态的相似性，所以需要建立一个类似列表(或字典)的结构，保存人体姿态库中的每张原图的ID和其对应的特征向量)，然后将特征保存到人体姿态特征库中，将原图保存到人体姿态图库中。同时，本发明实施例也提供用户删除本地图库中人体姿态图片的机制，只需要将对应的特征及原图一同删掉，以保证不会被再次推荐。

当云端新增的图片达到一定规模时，在远程服务器上需要将新增的图片按照本发明的方法重新加入度量学习的训练集中，在原有的数据和新增的数据基础上，对模型进行更新，以进一步提高模型的鲁棒性和可使用性，然后将更新的模型通过系统更新的方式重新部署到用户的移动设备上。

图11为用户上传个人偏好的图片加入到本地图片库的示例。

如图11所示的拍摄界面(图a)，用户通过点击拍摄界面上的姿态推荐图标(如图11“姿态”图标所示)，进入姿态推荐界面(图b、图c、图d)，默认显示预设数量(下图示例为9张)的推荐姿态图片在界面上(图b),将最优选的排在第一位，并默认打上已选择的标识(图b/图c中带对号图标的第一张推荐图片)，如果当前推荐的图片都不能令用户满意，可以通过图b所示的方式换一批图片或通过图c所示的方式上拉加载更多，以向用户呈现更多的推荐图片，通过点击上传图片图标(如下图d“添加我的姿态”图标所示)，可以从手机图库选择图片作为姿态库。

图12为用户上传个人偏好的图片加入到本地图片库的另外一个示例。

如图12所示的手机图库的查看图片详情界面(下图a)，通过选择功能菜单(如，点击图b中所示的“加入姿态库”菜单项)，可以将当前显示的图片加入姿态库。

实施例二将本发明的推荐方法和应用场景下的推荐流程进行结合，提供了上传及分享机制。实施例二支持用户自定义推荐图库，同时可通过共享机制将自定义人体姿态图片上传，对本地和云端的图库不断进行更新和扩充，运行在移动设备上的模型也在不断进行优化，进一步提升了推荐的准确度和系统的可用性。另外，本地智能推荐和云端智能推荐的组合也保证了用户的隐私性和推荐效率，提升了系统的实用性。

本发明实施例二具有如下有益效果：

(1)支持移动设备的本地智能推荐和云端智能推荐的组合

本实施例可在用户的移动设备上独立地进行本地智能推荐，也能通过连接云端服务器进行智能推荐，同时保证了用户的隐私和推荐效果。

(2)提供了本地图库和云端图库的更新和扩充方式，针对新扩充的数据进一步优化推荐模型

基于用户获取的自定义人体姿态图片，可对本地图库进行实时更新，同时也可以通过分享机制将个性化图片上传云端供其它用户参考与使用。基于扩充的数据，在线地优化度量学习模型，提高整个系统的可用性和用户体验。

本发明实施例三

本实施例阐述的是基于本发明方法的用户个性化推荐流程。实施例三方法流程如图13所示，本发明提供用户个性化推荐功能，可按照用户偏好推荐人体姿态图片。具体地，本系统预先定义用户偏好选项，如被拍摄者的衣着、身材、肤色以及形象气质等，或者拍摄姿态所借助的道具等。在进行人体姿态推荐时，用户可选择偏好选项，然后基于用户选择的偏好选项进行推荐。在实际使用时，个性化推荐功能可由用户选择开启或关闭，当开启时，提供用户选择界面设置推荐偏好进行推荐，当关闭时，用户选择的推荐偏好对人体姿态推荐结果不产生影响。

在具体实施时，提供给用户进行选择的个性化设置包括被拍摄者的主体属性和拍摄道具：主体属性包括衣着、身材、肤色以及形象气质等，拍摄道具包括背包、墨镜、鲜花、椅子等，本发明中的用户偏好选项需提前定义好，然后部署在手机等移动设备和远程服务器上。可选地，这个个性化设置是指上一段将的偏好设置。

可选地，这里的部署，实际上直接将CNN特征提取模型放到手机上和服务器上运行，手机和服务器上的模型相同，推荐算法相同，仅仅人体姿态推荐的图库不同，服务器上的图库更大。当模型部署到手机等移动设备上进行个性化推荐时，用户开启个性化推荐模式，根据个性化偏好选择界面选择本发明预先定义好的偏好选项，然后基于用户的偏好，分别使用不同的特征进行推荐，如用户选择推荐衣着形象更相似的人体姿态图像，即可直接通过CNN+h1网络提取图像特征，然后将该特征与图库中的对应特征计算相似度，排序后反馈给用户。当用户不选择偏好时，则直接按照各种维度的特征融合得到的总体相似度进行推荐。

本实施例的后台算法采用一种多任务度量学习方案。本实施例方案分为三个步骤：获得多维度图像相似性、多任务度量学习训练和个性化在线推荐。

前两个步骤是离线处理，可在任意满足计算需求的服务器上进行处理，最后一个步骤需要在手机等移动设备上在线运行。

具体流程如图13，在离线阶段，本实施例首先计算人体姿态图库中图像的多维度的相似度，然后基于每种相似度分别采样三元组训练数据，训练多任务度量学习模型，最后将模型部署到手机等移动设备上或者放在服务器上提供动态下载。

在线进行推荐时，结合摄像头获取的预览图像和用户设置的偏好选项，进行个性化推荐，最后将推荐结果反馈给用户进行选择。

本实施例中的多维度图像相似度包括被拍摄者的衣着、身材、肤色以及形象气质等主体相似度，也包括拍摄姿态所借助的道具等物体空间布局的相似度和场景的相似度。这些相似度可通过多种方法获得，其中被拍摄者的衣着等主体相似度可通过人体属性识别等方法获得，物体空间布局的相似度可通过场景解析等方法获得，场景相似度可通过场景分类等方法获得，具体实施时可只利用其中之一的相似度，也可利用所有的相似度进行推荐。当获得人体姿态库中的图像的多维度相似度后，针对每个维度的相似度模型采样出大量的三元组训练样本。具体地，首先给定任意一张图片和图片库，按照某个维度相似度进行排序，最后选取排序较高的前K个候选相似图像作为该输入图片的相似图片，其余全视为不相似图片。因此产生了大量的三元组样本<A,P,N>，每个三元组包括三张人体姿态图像：A姿态库中某张人体姿态图像，P为在某个维度相似度下跟A相似的图片，称为正样本，N为A为在某个维度相似度下跟A不相似的图片，称为负样本。假设以主体属性和物体的空间布局两个维度相似度为例，多任务度量学习的网络结构如图14所示：

该网络结构由两个模块组成，第一个模块CNN用于提取图像的共有特征，第二部分是不同的头网络h1和h2，两个头网络分别为相同的结构但不同参数的卷积神经网络，用于分别提取被拍摄者的主体属性特征和物体的空间分布特征，针对每种维度的特征，分别按照三元组组合方式输入三元排序损失函数层，排序损失函数为：

其中α为一个参数，用来定义正样本P和负样本N的优化距离，M三元组样本数量。该网络训练时采用交替异步更新的方式，首先输入针对主体属性维度的三元组数据，更新CNN+h1的参数，h2保持不变，下一次迭代时则输入物体空间分布维度的三元组数据，更新CNN+h2的参数，h1保持不变，如此方式循环迭代，直至模型收敛。最后将CNN+h1+h2部署到移动设备上，对于输入一张图像，可通过CNN+h1网络提取主体属性维度的特征，通过CNN+h2网络提取物体空间分布维度的特征。

当模型部署到手机等移动设备上进行个性化推荐时，用户开启个性化推荐模式，根据个性化偏好选择界面选择本发明预先定义好的偏好选项，然后基于用户的偏好，分别使用不同的特征进行推荐，如用户选择推荐衣着形象更相似的人体姿态图像，即可直接通过CNN+h1网络提取图像特征，然后将该特征与图库中的对应特征计算相似度，排序后反馈给用户。当用户不选择偏好时，则直接按照各种维度的特征融合得到的总体相似度进行推荐。

如图15所示的界面示例进行说明：

当前取景框中的景物为海水，不远处有一棵树，画面基本上是二分构图，用户选择姿态推荐功能后，界面上显示偏好选择选项(如下图中的“全部场景类似构图类似拍摄主体类似”所示)，用户可以选择按上述三个维度进行总体相似度推荐(图b),或者根据其中的任意一种或两种维度进行推荐，如，用户选择场景类似，则推荐的图片主要以海滩、海水等类似的场景为主(图c)，再如，用户选择构图类似，则推荐的图片主要以二分构图为主。

实施例三将本发明实施例的推荐方法与实际应用场景下的个性化推荐进行结合。实施例三支持用户的个性化推荐，当用户开启个性化推荐功能时，本发明提供用户个性化设置界面，用户可以结合当前环境设置用户偏好选项，然后针对用户的个性化设置推荐出用户实际需要的人体姿态图片，进一步提升用户体验。本实施例可在用户的移动设备上按照用户需求进行个性化设置，包括被拍摄者的衣着、身材、肤色以及形象气质等，或者拍摄姿态所借助的道具等，然后根据用户的个性化设置推荐出用户需求的人体姿态图片，进一步保证了系统的鲁棒性和用户友好性。

本发明实施例四

本实施例阐述的是基于本发明方法并且支持拍摄目标属性的自动检测和过滤的方案。实施例四方法流程如图13所示，当用户取景一张包含拍摄目标的图片，需要进行推荐时，本实施例能直接检测出拍摄目标的主体属性以及拍摄辅助的道具，展示给用户进行选择，并且基于用户的选择对推荐结果进行筛选和过滤，返回更符合用户需求、与拍摄目标的形象气质更相似的人体姿态图像。

具体地，当前用户手机在拍照功能界面(图16的图a)，图中带帽子和墨镜的长发女性为当前取景框中的拍摄对象，将当前取景框中的景物作为预览照片用于推荐，系统分析预览照片的特征，包括人体属性标签性别：女，人数：单人，发型：长发，金发，脸型：瓜子脸，等，以及拍摄道具标签墨镜、帽子。系统将分析出来的特征标签显示在拍照功能界面上(如图16的图b所示的偏好选择界面)，用户通过预设的手势(比如向左轻扫“姿态”图标)唤出这些标签(图b中的“墨镜、帽子、美女、长发、金发、白皮肤、瓜子脸”)，接收用户的推荐偏好选项，如用户点击了“帽子、美女、长发”这3个标签(如图c所示)，则系统根据用户选择的偏好确定姿态库筛选条件。

用户的推荐偏好选项的意义是，系统分析出的预览照片特征可能太过局限或不符合用户的喜好，比如说因为拍摄对象当前戴了墨镜，因此没有找到合适的照片，而用户认为帽子是拍摄对象最大的特征，有没有墨镜无所谓。那么按照图16所示的偏好选项查找到的推荐照片可能就是没有墨镜的，但是符合“带帽子的长发美女”标签(图d所示)。如果用户喜欢推荐的照片，就确认使用(如，通过图d所示的“使用这个姿态”图标来确认)。

本实施例中，用户可按照系统分析的拍摄目标的个性化标签筛选和过滤出人体姿态图片。在实际使用时，该功能可由用户选择开启或关闭，当开启时，当后台算法检测到预览画面中出现拍摄目标或者经由拍摄者确认目标后，可由人体属性检测方法检测出该拍摄目标的主体属性，包括但不局限于性别、年龄、身高、人数、体型、肤色、发型、发色、衣着、道具等。

本发明实施例中的标签种类可提前定义好，然后部署在手机等移动设备或远程服务器上。

个性化标签获取包括两个方面：人体姿态图库的图像个性化标签获取和预览图片个性化标签获取。

对于人体姿态图库的图像，可在远程服务器端结合人体属性识别、场景解析、物体检测、人物关系识别等方法自动获取个性化标签，也可在手机等移动设备上通过轻量级网络实现；

对于预览图片的个性化标签获取，可将图片上传服务器处理或在本地直接处理。

由于本地系统分析预览照片的特征可能会消耗较多的计算资源，因此另外一种替代的实施方式是，偏好选择界面(图17的图f、图g)上的各个标签都是预设的，每张图片显示的都是统一的标签，包括主体属性如衣着、身材、肤色以及形象气质等，拍摄道具包括帽子、围巾、背包、墨镜等。在本例中，用户选择了一部分标签，如图g所示，包括人数：单人，性别：女，年龄：成年，体型：适中，肤色：白皙，发型：长发，发色：金发，季节：夏，道具：帽子，等。则系统按用户选择的这些标签进行推荐。

当获得预览图像和人体姿态图库的个性化标签后，本实施例提供过滤和重排序机制对推荐结果进行优化。首先根据度量学习模型对预览图片进行推荐，获得初始结果，然后根据这些标签的相似度对初始的人体姿态推荐结果进行过滤与重排序，返回不仅与当前环境非常相似，而且满足用户个性化需求的人体姿态图片。假设预览图像与图库图像的个性化标签分别是和其中R^D为标签表。个性化标签相似度定义公式(4)所示：

具体实施时，对于预览图像，首先按照本发明实施例中的度量学习方法提取的图像特征计算相似度Sim_b进行初始的人体姿态推荐，将排序前K的人体姿态图像作为个性化推荐的候选子集，然后计算当前用户设置的个性化标签和该子集的图像个性化标签的相似度Sim_f，并融合两种相似度对K张候选图片进行重新排序，如公式(5)所示，

Sim＝α·Sim_f+(1-α)·Sim_b (5)

基于以上的总体相似度，将相似度较高的人体姿态图像返回给用户进行选择。

实施例四提供拍摄目标的个性化标签自动获取和基于个性化标签推荐的方案。当拍摄目标出现在预览画面中，系统自动分析获取拍摄目标的主体属性或拍摄辅助道具，然后将其展示给用户进行筛选，然后基于用户选择的个性化标签调用过滤和重排序机制进行人体姿态推荐。该实施例可针对拍摄目标的具体属性进行更加准确的个性化推荐，提升了推荐结果和系统的可操作性。

本实施例四可自动分析拍摄目标的具体属性和拍摄道具，包括性别、年龄、身高、人数、体型、肤色、发型、发色、衣着、道具等，并提供用户具体的个性化标签选项进行过滤和重排序，该过滤和重排序机制保证了用户的精细的个性化需求得到满足，进一步保证了系统的鲁棒性和用户友好性。

本发明实施例五

本实施例阐述的是根据多张预览图片进行人体姿态推荐方案，本实施例的特点在于“从摄像头获取图像”步骤，获取的是多张图像。本实施例考虑的场景是，由于构图对于拍照来说是非常重要的因素，如果用户拍摄水平不佳，选择的角度不合适，那么可能无法推荐出好的照片，因此当用户在指定地点有拍摄需求时，当前的环境可能存在多个角度的不同选景方式，存在多种不同的拍摄方案。

本实施例提供用户选择多角度的推荐模式，即需要用户移动(手机)摄像头(例如拍摄者旋转180度)，获取不同角度的预览图片，这些图片的场景往往相同，但是背景不同，物体的空间分布也不同，因此会产生不同的推荐结果。本实施例不仅能有效的发掘当前地点最优的拍摄角度，也能推荐最优角度下的人体姿态图片。

在具体实施时，首先根据用户移动手机过程中获取的视频流，按照固定间隔取帧，获得N个不同角度下的预览图片{I₁，I₂，I₃，...，I_N},然后将这N个预览图片分别进行推荐，产生N个推荐结果列表，每个推荐结果列表至少包含一张推荐图片，于是产生至少N个推荐图片，分别对应不同角度的预览图片，然后将这N个推荐结果进行排序，将至少一张图片推荐给用户。该排序依据可采用多种特征，例如可以按照推荐图片的整体美学评分进行排序，也可以按照推荐图片与预览图片的场景、物体空间分布、前景人体属性整体的相似度进行排序。当用户不选择当前推荐角度下的人体姿态图片时，本功能提供给用户下拉或换一批按钮选择其它拍摄角度下的人体姿态图片。

如图18示的一种实施方式的示例进行说明：

首先用户手机取景框中的图像如图a所示，用户选择姿态推荐功能，可以在进入姿态推荐界面(图b)后，在姿态推荐界面上显示让用户转换拍摄角度的功能提示(如图b中右上角“换个角度”)，用户选择该功能后，可以在拍摄功能界面上显示让用户转换拍摄角度的提示(如图c所示的箭头和“请沿箭头方向移动手机”提示文字)，用户移动手机的位置以转换拍摄角度，在这个过程中，系统根据用户移动手机过程中获取的视频流获得N个不同角度下的预览图片(例如，用户左转，在这个过程中不断获取预览图片，假设左转到30度时，获取的是预览图片1，继续左转30度后，获得的是预览图片2)，产生至少N个推荐结果列表(如，对应预览图片1产生推荐结果列表1，对应预览图片2产生推荐结果列表2……)，将至少一张图片推荐给用户(例如，最后排序的结果是对应预览图片2产生的推荐结果列表中的一张图片)。推荐的方式可以是如下图d所示的，在手机拍摄功能界面上，先显示一个预览框(图18的图d右下角)，在预览框中显示上述推荐图片对应的预览图片(预览图片2)，以提示用户应该在哪里拍摄。用户通过观察预览图片2，了解到自己应该在左转60度的位置进行拍摄)，因此左转60度回到刚才获取预览图片2的位置进行拍摄，同时也可以在姿态推荐界面查看前述推荐的图片。

可以理解的是，上图c所示的只是一种转换拍摄角度的示例，程序开发人员可以根据需求提示用户向不同的方向移动手机。

上述“换个角度”的提示也只是一种可能的提示方法，程序开发人员可以根据需要，将这个提示显示在拍摄界面的某个位置。

如图19所示，本发明实施例提供一种人体姿态相似图片推荐方法，所述方法包括：

S110，接收输入图片，所述输入图片中包含人像；

S120，使用基于多层次环境信息特征的度量学习，从图片库中选取同所述输入图片相似度最高的至少一张图片作为人体姿态推荐图片；其中，所述多层次环境特征包括：场景特征、物体的空间分布特征和前景人体特征；

S130，将所述人体姿态推荐图片按照预定的预览方式呈现给用户。

如图19的虚线框所示，所述方法包括：

S111，接收用户的推荐偏好设置；

其中，S120，具体包括：

可选地，所述方法包括：

在S111，接收用户的推荐偏好设置后，可以从已经推荐的所述人体姿态图片中，筛选出符合所述推荐偏好的图片作为最终的人体姿态推荐图片。

可选地，在一个实施例中，S120包括：

可选地，在一个实施例中，S110包括：接收包含拍摄目标的多张不同角度的输入图片；

此时，S120，包括：

如图中虚线框所示，所述方法还包括：

S140，接收用户上传的自定义图片；

S150，将用户自定义图片更新至所述图片库。

如图20所示，本发明实施例提供一种人体姿态图片推荐装置1000，

接收模块100，用于接收输入图片，所述输入图片中包含人像；

推荐模块110，用于使用基于多层次环境信息特征的度量学习，从图片库中选取同所述接收模块接收到的输入图片相似度最高的至少一张图片作为人体姿态推荐图片；其中，所述多层次环境特征包括：场景特征、物体的空间分布特征和前景人体特征；

输出模块120，用于将所述人体姿态推荐图片按照预定的预览方式呈现给用户。

可选地，本实施例中的推荐模块可以对应于前述实施例以及附图中的在线模块。

如图20的虚线框所示，所述装置还包括：

偏好设置接收模块130，用于接收用户的推荐偏好设置；其中，所述推荐模块110，具体用于：

可选地，所述推荐模块110，包括：

特征提取单元111，用于对所述输入图片进行特征提取处理，得到所述输入图片的特征；

相似度计算单元112，用于基于多层次环境信息特征的度量学习，计算所述输入图片的特征与每一张特征库中图像特征的相似度；其中，所述特征库是通过对图片库中的每张图片提取预定数量的维度的特征得到的；

推荐单元113，用于根据计算结果，从所述图片库中选择对应排名靠前的相似度的至少一张图片作为人体姿态推荐图片。

所述推荐模块110，包括：

相似度计算单元112，用于基于多层次环境信息特征的度量学习，计算所述图片库中与每张所述输入图片的最相似的图片；

推荐单元113，用户将所有的最相似图片进行排序，选择排名靠前的至少一张图片作为所述人体姿态推荐图片。

可选地，所述装置还包括：

自定义图片接收模块140，用于接收用户上传的自定义图片；

更新模块150，用于将所述自定义图片更新至所述图片库。

如图21所示，本发明实施例提供一种提示用户进行相似构图拍照的方法，所述方法包括：

S210，接收用户在当前地点取景的包含拍摄目标的多张不同角度的原始图片集合；

S220，推荐给用户至少一张目标图片和至少一张对应的原始图片，所述目标图片包含了推荐的人物姿态，其中，所述目标图片和所述对应原始图片具有相似的背景构图。

可选地，在另一中可替代的实现方式中，步骤S220可以只推荐给用户至少一张目标图片。

可选地，所述方法还包括：

S230，在拍摄界面上显示一个预览框，在所述预览框中显示所述目标图片和所述对应的原始图片对应的预览图片，并辅以文字提示。

如图22所示，本发明实施例提供一种可以提示用户进行相似构图拍照的智能终端20000，所述装置包括：

接收模块210，用于接收用户在当前地点取景的包含拍摄目标的多张不同角度的原始图片集合；

推荐模块220，用于推荐给用户至少一张目标图片和至少一张对应的原始图片，所述目标图片包含了推荐的人物姿态，其中，所述目标图片和所述对应原始图片具有相似的背景构图。

可选地，所述装置还包括：

呈现模块230，用于在拍摄界面上显示一个预览框，在所述预览框中显示所述目标图片和所述对应的原始图片对应的预览图片，并辅以文字提示。

如图23所示，本发明实施例提供一种构建人体特征库的方法，所述方法包括：

S2100，计算人体姿态库中的人体姿态图片的两两之间的相似度；

S2200，对于所述人体姿态库中的每一张图片，根据所述人体姿态图片的两两之间的相似度采集三元组训练样本；其中，每个三元组训练样本<A,P,N>包括三张人体姿态图像：A为所述人体姿态库中某张人体姿态图片，P为图片A的正样本，所述正样本为所述图片A的拍摄场景下可直接推荐的人体姿态图片，N为所述图片A的负样本，所述负样本为所述图片A的拍摄场景下不可直接推荐的人体姿态图片；

S2300，使用度量学习的方式对所述三元组训练样本进行训练，得到CNN特征提取模型；所述CNN特征提取模型使得能相互推荐的样本映射到特征空间后距离尽可能相近，不能推荐的样本映射到特征空间后距离尽可能远离。

S2400，使用所述CNN特征提取模型，对人体姿态图片库中的每张图片提取预定数量的维度的特征，构建人体姿态特征库。

可选地，S2100，包括：

可选地，S2200包括：

如图24所示，本发明实施例提供一种构建人体特征库的装置3000，所述装置包括：

计算图像相似性模块310，用于计算人体姿态库中的人体姿态图片的两两之间的相似度；

训练样本采集模块320，对于所述人体姿态库中的每一张图片，根据所述人体姿态图片的两两之间的相似度采集三元组训练样本；其中，每个三元组训练样本<A,P,N>包括三张人体姿态图像：A为所述人体姿态库中某张人体姿态图片，P为图片A的正样本，所述正样本为所述图片A的拍摄场景下可直接推荐的人体姿态图片，N为所述图片A的负样本，所述负样本为所述图片A的拍摄场景下不可直接推荐的人体姿态图片；

可选地，训练样本采集模块320对于所述人体姿态库中的每一张图片，在所述人体姿态库中将相似度排名靠前的若干张图片作为正样本，将剩余的所有图片作为负样本。

CNN特征学习模块330，用于使用度量学习的方式对所述三元组训练样本进行训练，得到CNN特征提取模型；所述CNN特征提取模型使得能相互推荐的样本映射到射到特征空间后尽可能相近，不能推荐的样本映射到特征空间后尽可能远离。

人体姿态特征库构建模块340，使用所述CNN特征提取模型，对人体姿态图片库中的每张图片提取预定数量的维度的特征，构建人体姿态特征库。

可选地，所述计算图像相似性模块310，包括：

相似度计算单元311，用于计算所述人体姿态库中人体姿态图片的两两之间的背景相似度和前景相似度；

融合单元312，用于融合所述人体姿态库中人体姿态图片的两两之间的背景相似度和前景相似度，得到所述人体姿态库中的人体姿态图片的两两之间整体相似度。

如图25所示，本发明实施例提供一种优化用户拍照姿势的方法，应用于电子设备，所述方法包括：

S310，显示所述电子设备的相机的拍摄界面；

S320，获取所述拍摄界面的取景图像，根据所述取景图像确定所述拍摄界面上包括人像；

S330，进入姿态推荐模式，将人体姿态推荐图片按照预定的预览方式呈现给用户；所述人体姿态图片为使用度量学习，从图片库中选取同所述取景图像相似度排名靠前的至少一张图片；其中，所述相似度为融合了背景相似度和前景相似度的整体相似度。

S331，对所述取景图像进行特征提取处理，得到所述取景图像的特征；

S332，计算所述取景图像的特征与特征库中每一张图像的特征的相似度；其中，所述特征库是通过对所述图片库中的每张图片提取预定数量的维度的特征得到的；

S333，将相似度排序，从图片库中选取对应排名靠前的相似度的至少一张图片作为人体姿态推荐图片。

S340对所述取景图像进行特征提取处理，得到所述取景图像的特征；

S350，相应用户切换到的云端智能推荐模式，然后将所述取景图像特征传输到云端服务器；

S360，接收所述人体姿态推荐图片；所述人体姿态推荐图片为所述云端服务器根据所述取景图像特征从从图片库中选取同所述取景图像相似度排名靠前的至少一张图片。

S370，接受用户的推荐偏好设置；

S380，基于度量学习结合所述用户的推荐偏好，从图片库中选取同所述输入图片相似度排名靠前的至少一张图片作为人体姿态推荐图片；所述人体姿态推荐图片符合所述用户的推荐偏好。

可选地，所述方法还包括：

S390，接收用户上传的自定义图片；

S400，将用户自定义图片更新至所述图片库。

如图26所示，本发明实施例提供一种电子设备2000，包括：

一个或多个处理器2001；

一个或多个存储器2002；

至少一个显示设备2004

多个应用程序；

以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器400中，当所述一个或者多个程序被所述处理器300执行时，使得所述电子设备执行以下步骤：

显示所述电子设备的相机的拍摄界面；

显示设备2004，用于按照预定的预览方式呈现所述人体姿态推荐图片给用户。

接受用户的推荐偏好设置；

接收用户上传的自定义图片；

将用户自定义图片更新至所述图片库。

其中：

显示设备2004和通信接口2003通过通信总线连接并完成相互间的通信。

通信接口2003，用于与其他设备或通信网络通信，如以太网，无线接入网(radioaccess network,RAN)，无线局域网(wireless local area networks，WLAN)等。

存储器2002可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，所述存储器2002用于存储执行以上方案的应用程序代码，并由处理器2001来控制执行。所述处理器2001用于执行所述存储器2002中存储的应用程序代码。

处理器2001还可以采用或者一个或多个集成电路。

处理器2001还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的推荐方法的各个步骤可以通过处理器2001中的硬件的集成逻辑电路或者软件形式的指令完成。在实现过程中，本申请实施例的训练方法的各个步骤可以通过处理器2001中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2001还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、ASIC、现成可编程门阵列(fieldprogrammable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及模块框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器2002，处理器2001读取存储器2002中的信息，结合其硬件完成本申请实施例的方法。

通信接口2003使用例如但不限于收发器一类的收发装置，来实现推荐装置或训练装置与其他设备或通信网络之间的通信。例如，可以通过通信接口2003获取待识别图片或者训练数据。

总线可包括在装置各个部件(例如，存储器2002、处理器2001、通信接口2003、显示设备2004)之间传送信息的通路。

如图27所示本申请实施例提供的一种芯片硬件结构。

图27为本发明实施例提供的一种芯片硬件结构，该芯片包括神经网络处理器30。该芯片可以被设置在如图1所示的执行设备110中，用以完成计算模块111的计算工作。该芯片也可以被设置在如图1所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型/规则。如图2所示的卷积神经网络中各层的算法均可在如图3所示的芯片中得以实现。

神经网络处理器NPU 30，NPU作为协处理器挂载到主CPU(Host CPU)上，由HostCPU分配任务。NPU的核心部分为运算电路303，控制器304控制运算电路303提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路303内部包括多个处理单元(Process Engine,PE)。在一些实现中，运算电路303是二维脉动阵列。运算电路303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路303是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器302中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器301中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)308中。

向量计算单元307可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元307可以用于神经网络中非卷积/非FC层的网络计算，如池化(Pooling)，批归一化(Batch Normalization)，局部响应归一化(Local Response Normalization)等。

在一些实现中，向量计算单元能307将经处理的输出的向量存储到统一缓存器306。例如，向量计算单元307可以将非线性函数应用到运算电路303的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元307生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路303的激活输入，例如用于在神经网络中的后续层中的使用。

本申请实施例提供的特征提取的运算可以由303或307执行。

统一存储器306用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器305(Direct Memory AccessController，DMAC)将外部存储器中的输入数据搬运到输入存储器301和/或统一存储器306、将外部存储器中的权重数据存入权重存储器302，以及将统一存储器306中的数据存入外部存储器。

总线接口单元(Bus Interface Unit，BIU)310，用于通过总线实现主CPU、DMAC和取指存储器309之间进行交互。

与控制器304连接的取指存储器(instruction fetch buffer)309，用于存储控制器304使用的指令；

控制器304，用于调用指存储器309中缓存的指令，实现控制该运算加速器的工作过程。

可选地，本申请中此处的输入数据为图片，输出数据为图片中感兴趣物体的2D、3D、Mask、关键点等信息。

一般地，统一存储器306，输入存储器301，权重存储器302以及取指存储器309均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random AccessMemory，简称DDR SDRAM)、高带宽存储器(High Bandwidth Memory，HBM)或其他可读可写的存储器。

可选地，图1和图2中的程序算法以及上述实施例中涉及到的算法是由主CPU和NPU共同配合完成的。其中，图2所示的卷积神经网络中各层的运算可以由运算电路303或向量计算单元307执行。

本申请实施例还提供一种计算机存储介质，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行上述各个方法实施例中任一个提到的所述的人体姿态相似图片推荐方法。

本申请实施例还一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行上述各个方法实施例中任一个提到的所述的人体姿态相似图片推荐方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上上述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人体姿态相似图片推荐方法，其特征在于，所述方法包括：

接收输入图片，所述输入图片中包含人像；

使用基于多层次环境信息特征的度量学习，从图片库中选取同所述输入图片相似度最高的至少一张图片作为人体姿态推荐图片；其中，所述人体姿态推荐图片包含人像；所述多层次环境特征包括：场景特征、物体的空间分布特征和前景人体特征；

按照预定的预览方式呈现所述人体姿态推荐图片。

2.如权利要求1所述的图片推荐方法，其特征在于，所述方法包括：

3.如权利要求1或2所述的图片推荐方法，其特征在于，所述使用基于多层次环境信息特征的度量学习，从图片库中选取同所述输入图片相似度最高的至少一张图片作为人体姿态推荐图片，包括：

使用基于多层次环境信息特征的度量学习，计算所述输入图片的特征与每一张特征库中图像特征的相似度；其中，所述特征库是通过对图片库中的每张图片提取预定数量维度的特征得到的；

4.如权利要求3所述的图片推荐方法，其特征在于，所述方法包括：

接收用户的推荐偏好设置；

5.如权利要求1-4任一项所述的图片推荐方法，其特征在于，所述人像为拍摄目标，接收输入图片包括：接收包含所述拍摄目标的多张不同角度的输入图片；

6.如权利要求1-5任一项所述的图片推荐方法，其特征在于，所述方法还包括：

接收用户上传的自定义图片；

将用户自定义图片更新至所述图片库。

7.一种图片推荐装置，其特征在于，所述装置包括：

接收模块，用于接收输入图片，所述输入图片中包含人像；

输出模块，用于按照预定的预览方式呈现所述人体姿态推荐图片。

8.如权利要求7所述的图片推荐装置，其特征在于，所述装置还包括：

9.如权利要求1或2所述的图片推荐装置，其特征在于，所述推荐模块，包括：

相似度计算单元，用于基于多层次环境信息特征的度量学习，计算所述输入图片的特征与每一张特征库中图像特征的相似度；其中，所述特征库是通过对图片库中的每张图片提取预定数量维度的特征得到的；

10.如权利要求7所述的图片推荐装置，其特征在于，所述接收模块还用于接收包含拍摄目标的多张不同角度的输入图片；

所述推荐模块，包括：

11.如权利要求7-10任一项所述的图片推荐装置，其特征在于，所述装置还包括：

自定义图片接收模块，用于接收用户上传的自定义图片；

更新模块，用于将所述自定义图片更新至所述图片库。

12.一种提示用户进行相似构图拍照的方法，其特征在于，所述方法包接收用户在当前地点取景的包含拍摄目标的多张不同角度的原始图片集合；

13.如权利要求12所述的方法，其特征在于，所述方法还包括：

在拍摄界面上显示一个预览框，在所述预览框中显示所述目标图片和所述对应的原始图片对应的预览图片。

14.一种可以提示用户进行相似构图拍照的智能终端，其特征在于，所述装置包括：

15.如权利要求14所述的智能终端，其特征在于，所述装置还包括：

呈现模块，用于在拍摄界面上显示一个预览框，在所述预览框中显示所述目标图片和所述对应的原始图片对应的预览图片。

16.一种构建人体特征库的方法，其特征在于，所述方法包括：

计算人体姿态库中的人体姿态图片的两两之间的相似度；

使用所述CNN特征提取模型，对人体姿态图片库中的每张图片提取预定数量维度的特征，构建人体姿态特征库。

17.如权利要去16所述的方法，其特征在于，所述计算人体姿态库中的人体姿态图片的两两之间的相似度，包括：

计算所述人体姿态库中人体姿态图片的两两之间的背景相似度和前景相似度，所述前景相似度包括前景人体特征相似度；

18.如权利要求16所述的方法，其特征在于，所述计算所述人体姿态库中人体姿态图片的两两之间的背景相似度和前景相似度，包括：

19.如权利要求16所述的方法，其特征在于，对于所述人体姿态库中的每一张图片，根据所述人体姿态图片的两两之间的相似度采集三元组训练样本，包括：

对于所述人体姿态库中的每一张图片，在所述人体姿态库中将相似度排名靠前的若干张图片作为正样本，将剩余的所有图片作为负样本，所述正样本和所述负样本构成所述三元组的主要元素。

20.一种构建人体特征库的装置，其特征在于，所述装置包括：

CNN特征学习模块，用于使用度量学习的方式对所述三元组训练样本进行训练，得到CNN特征提取模型；所述CNN特征提取模型使得能相互推荐的样本映射到射到特征空间后相近，不能推荐的样本映射到特征空间后远离。

人体姿态特征库构建模块，使用所述CNN特征提取模型，对人体姿态图片库中的每张图片提取预定数量维度的特征，构建人体姿态特征库。

21.如权利要求20所述的装置，其特征在于，所述计算图像相似性模块，包括：

22.如权利要求20所述的方法，其特征在于，训练样本采集模块，用于：

23.一种优化用户拍照姿势的方法，应用于电子设备，其特征在于，所述方法包括：

显示所述电子设备的拍摄界面；

获取所述拍摄界面的取景图像，所述取景图像包括人像；

将人体姿态推荐图片按照预定的预览方式呈现；所述人体姿态图片为使用度量学习，从图片库中选取同所述取景图像相似度排名靠前的至少一张图片；其中，所述相似度为融合了背景相似度和前景相似度的整体相似度。

24.如权利要求23所述的方法，其特征在于，在所述将人体姿态推荐图片按照预定的预览方式呈现给用户之前，所述方法还包括：

计算所述取景图像的特征与特征库中每一张图像的特征的相似度；其中，所述特征库是通过对所述图片库中的每张图片提取预定数量维度的特征得到的；

25.权利要求23所述的方法，其特征在于，在所述将人体姿态推荐图片按照预定的预览方式呈现给用户之前，所述方法还包括：

将所述取景图像特征传输到云端服务器；

26.如权利要求23-25任一项所述的方法，其特征在于，在所述将人体姿态推荐图片按照预定的预览方式呈现给用户之前，所述方法还包括：

接收用户的推荐偏好设置；

27.如权利要求23-26人一向所述的方法，其特征在于，所述方法还包括：

接收用户上传的自定义图片；

将用户自定义图片更新至所述图片库。

28.一种电子设备，其特征在于，包括：

一个或多个处理器；

一个或多个存储器；

多个应用程序；

显示所述电子设备的相机的拍摄界面；

29.如权利要求28所述的电子设备，其特征在于，当所述一个或者多个程序被所述处理器执行时，使得所述电子设备执行以下步骤：

30.权利要求28所述的电子设备，其特征在于，当所述一个或者多个程序被所述处理器执行时，使得所述电子设备执行以下步骤：

31.如权利要求28-30任一项所述的电子设备，其特征在于，当所述一个或者多个程序被所述处理器执行时，使得所述电子设备执行以下步骤：

接受用户的推荐偏好设置；

32.如权利要求28-31人一向所述的方法，其特征在于，当所述一个或者多个程序被所述处理器执行时，使得所述电子设备执行以下步骤：

接收用户上传的自定义图片；

将用户自定义图片更新至所述图片库。

33.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1至6中任一项所述的人体姿态相似图片推荐方法。

34.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求23至27中任一项所述的优化用户拍照姿势的方法。

35.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至6中任一项所述的人体姿态相似图片推荐方法。

36.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求23至27中任一项所述的优化用户拍照姿势的方法。