CN113591704A

CN113591704A - 体重指数估计模型训练方法、装置和终端设备

Info

Publication number: CN113591704A
Application number: CN202110870948.2A
Authority: CN
Inventors: 郑秀娟; 向成豪
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-11-02
Anticipated expiration: 2041-07-30
Also published as: CN113591704B

Abstract

本申请公开的体重指数估计模型训练方法、装置和终端设备，根据训练数据集中的人脸训练样本的类型对训练数据集中的各个人脸训练样本进行对应的标准化处理以获得标准训练数据集，所述各个人脸训练样本带有相应的体重指数标签；再利用所述标准训练数据集训练体重指数估计模型直至所述体重指数估计模型对应的损失函数最小化。本申请对不同类型的人脸训练样本进行不同的标准化处理，不仅使得标准化处理过程更具有针对性，更能突出体现人脸训练样本的特征，而且使得训练完成的体重指数估计模型更具有普适性，可以识别多种类型的人脸数据，从不同类型的人脸数据中确定对应的体重指数。

Description

体重指数估计模型训练方法、装置和终端设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种体重指数估计模型训练方法、装置和终端设备。

背景技术

体重指数(Body Mass Index，简称BMI)是一项衡量人体体型标准与否的指标。其中，BMI＝体重/身高的平方。这样，在计算BMI时需要知道人体的身高和体重。但是，采集用户真实的身高和体重是一件较为困难的事情，身高和体重可能受到被测用户自身因素影响，例如，在很多场合下，由于受到用户穿戴物品的影响，导致采集的用户的身高和体重与真实身高和体重之间存在偏差；或者在测量残疾人群的BMI时，残疾人群的身高或者体重难以获取。除了受到被测用户自身因素影响外，测量身高及体重的仪器误差也可能导致采集的用户的身高和体重与真实身高和体重之间存在偏差，并且身高及体重的测量需要专门仪器，难以随时测量。

发明内容

鉴于上述问题，本申请提出一种体重指数估计模型训练方法、装置和终端设备。

本申请提出一种体重指数估计模型训练方法，所述方法包括：

根据训练数据集中的人脸训练样本的类型对训练数据集中的各个人脸训练样本进行对应的标准化处理以获得标准训练数据集，所述各个人脸训练样本带有相应的体重指数标签；

利用所述标准训练数据集训练体重指数估计模型直至所述体重指数估计模型对应的损失函数最小化。

本申请所述的体重指数估计模型训练方法，若所述训练数据集中的每一个人脸训练样本的类型是图像类型，所述根据训练数据集中的人脸训练样本的类型对训练数据集中的各个人脸训练样本进行对应的标准化处理，包括：

利用透视变换方法将第k个人脸训练样本旋转N次以获得N个人脸图像旋转样本，每一次旋转角度不同，1≤k≤K，K为所述训练数据集中的人脸训练样本的总数；

将第k个人脸训练样本和第k个人脸训练样本对应的N个人脸图像旋转样本组成的人脸序列作为第k个标准人脸样本，并利用第k个标准人脸样本替换第k个人脸训练样本，第k个标准人脸样本的体重指数标签为第k个人脸训练样本的体重指数标签；

对第k个标准人脸样本中的第k个人脸训练样本和N个人脸图像旋转样本的预定人脸区域进行遮挡。

本申请所述的体重指数估计模型训练方法，若所述训练数据集中的每一个人脸训练样本的类型是视频类型，所述根据训练数据集中的人脸训练样本的类型对训练数据集中的各个人脸训练样本进行对应的标准化处理，包括：

确定第k个人脸训练样本中每一个包含人脸的视频帧的人脸偏移距离，所述人脸偏移距离表示视频帧中的人脸偏离正脸的程度，1≤k≤K，K为所述训练数据集中的人脸训练样本的总数；

从第k个人脸训练样本中的多个包含人脸的视频帧中选择N个人脸偏移距离在预定范围内的视频帧；

利用N个人脸偏移距离在预定范围内的视频帧组成的人脸序列作为第k个标准人脸样本，并利用第k个标准人脸样本替换第k个人脸训练样本，第k个标准人脸样本的体重指数标签为第k个人脸训练样本的体重指数标签。

本申请所述的体重指数估计模型训练方法，每一个包含人脸的视频帧的人脸偏移距离利用以下公式计算：

dis_yaw表示人脸偏移距离，A_x表示A点的横坐标，B_x表示B点的横坐标，C_x表示C点的横坐标，A点为视频帧中的人脸鼻尖所在位置点，B点为视频帧中的两个眼睛中点连线的中心点，C点为视频帧中的左右嘴角连线的中心点。

本申请所述的体重指数估计模型训练方法，所述利用所述标准训练数据集训练体重指数估计模型直至所述体重指数估计模型对应的损失函数最小化，包括：

根据所述标准训练数据集中各个标准人脸样本对应的体重指数标签确定各个标准人脸样本所属的类别，所述类别包括肥胖类、超重类、过轻类和正常类；

统计各个类别中标准人脸样本的数目；

对各个类别中标准人脸样本进行样本增强处理以使各个类别中标准人脸样本的数目相同；

利用各个类别中标准人脸样本训练体重指数估计模型直至所述体重指数估计模型对应的损失函数最小化。

本申请所述的体重指数估计模型训练方法，所述体重指数估计模型包括：依次连接的三维卷积层、三维批量归一化层、激活层、第一三维平均池化层、第一注意力模块、第一基本模块、第一特征提取模块、第二特征提取模块、第二注意力模块、第二基本模块、第三特征提取模块、第四特征提取模块、第五特征提取模块、第六特征提取模块、第七特征提取模块、第八特征提取模块、第九特征提取模块、第二三维平均池化层和一维全连接层。

本申请还提出一种体重指数估计方法，利用经过本申请所述的体重指数估计模型训练方法训练达标的体重指数估计模型估计人脸图像帧中人脸对应的体重指数。

本申请还提出一种体重指数估计模型训练装置，所述装置包括：

标准化处理模块，用于根据训练数据集中的人脸训练样本的类型对训练数据集中的各个人脸训练样本进行对应的标准化处理以获得标准训练数据集，所述各个人脸训练样本带有相应的体重指数标签；

模型训练模块，用于利用所述标准训练数据集训练体重指数估计模型直至所述体重指数估计模型对应的损失函数最小化。

本申请还提出一种终端设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行本申请所述的体重指数估计模型训练方法或者本申请所述的体重指数估计方法。

本申请还提出一种可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行本申请所述的体重指数估计模型训练方法或者本申请所述的体重指数估计方法。

本申请公开的体重指数估计模型训练方法，根据训练数据集中的人脸训练样本的类型对训练数据集中的各个人脸训练样本进行对应的标准化处理以获得标准训练数据集，所述各个人脸训练样本带有相应的体重指数标签；再利用所述标准训练数据集训练体重指数估计模型直至所述体重指数估计模型对应的损失函数最小化。本申请一方面，不依赖身高和体重确定身体指数，避免在用户的身高和体重与真实身高和体重之间存在偏差时影响体重指数测定的准确性；本申请另一方面，对不同类型的人脸训练样本进行不同的标准化处理，不仅使得标准化处理过程更具有针对性，更能突出体现人脸训练样本的特征，而且使得训练完成的体重指数估计模型更具有普适性，可以识别多种类型的人脸数据，从不同类型的人脸数据中确定对应的体重指数。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1示出了本申请实施例提出的一种体重指数估计模型训练方法的流程示意图；

图2示出了本申请实施例提出的一种5点面部地标点示意图；

图3示出了本申请实施例提出的一种68点面部地标点示意图；

图4示出了本申请实施例提出的一种体重指数估计模型训练方法中利用标准训练数据集训练体重指数估计模型的过程示意图；

图5示出了本申请实施例提出的一种体重指数估计模型训练方法中对人脸图像类型样本进行标准化处理的过程示意图；

图6示出了本申请实施例提出的一种人脸图像旋转样本示意图；

图7示出了本申请实施例提出的一种遮挡后的人脸图像示意图；

图8示出了本申请实施例提出的一种体重指数估计模型训练方法中对视频类型样本进行标准化处理的过程示意图；

图9示出了本申请实施例提出的一种用于计算人脸偏移距离的人脸图像示意图；

图10示出了本申请实施例提出的一种体重指数估计模型的结构示意图；

图11示出了本申请实施例提出的体重指数估计模型中第一注意力模块和第二注意力模块的结构示意图；

图12示出了本申请实施例提出的体重指数估计模型中第一基本模块和第二基本模块的结构示意图；

图13示出了本申请实施例提出的体重指数估计模型中的各个征提取模块的结构示意图；

图14示出了本申请实施例提出的一种体重指数估计模型训练装置的结构示意图。

10-体重指数估计模型训练装置；11-标准化处理模块；12-模型训练模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下文中，可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。

实施例1

本申请的一个实施例，请参见图1，示出了一种体重指数估计模型训练方法包括以下步骤S100和S200：

S100：根据训练数据集中的人脸训练样本的类型对训练数据集中的各个人脸训练样本进行对应的标准化处理以获得标准训练数据集，所述各个人脸训练样本带有相应的体重指数标签。

可以理解，人脸训练样本的类型包括图像类型和视频类型，为了增加体重指数估计模型的普适性，使其既可以根据图像类型的人脸数据准确地确定对应的体重指数，又可以根据视频类型的人脸数据准确地确定对应的体重指数，本申请利用两种类型的人脸训练样本训练体重指数估计模型。

示范性的，图像类型的人脸训练样本可以为VIP-attribute人脸图片数据集，VIP-attribute人脸图片数据集于2017年从社交媒体中获得，该社交媒体包括513名女性和513名男性受试者(主要是演员，歌手和运动员)，VIP-attribute人脸图片数据集对应的BMI值分布范围为16到56，大多数女性体重不足或正常，大多数男性是正常的和超重的；视频类型的人脸训练样本可以为面部视频数据集FRV-rotation，该数据集包括285个带有头部旋转的面部视频，该数据集中的所有参与者均为亚洲人，年龄分布在10至70岁之间，其中包括76位女性和209位男性，为了实现视频类型的人脸训练样本的多样性，可以在不同的环境中使用各种移动设备录制视频，录制视频时要求参与者尽可能缓慢地将头从左肩移动到右肩，以从不同角度获得足够的面部信息，该面部视频数据集中的大多数女性体重不足或正常，大多数男性是正常的和超重的。

可以理解，首先需要对人脸图片数据或者面部视频数据集中的各个人脸训练样本进行裁剪，以获得相对统一规范的人脸训练样本。

示范性的，可以利用多任务卷积神经网络(MTCNN)的人脸检测器初始化卷积专家约束局部模型(Convolutional Experts Constrained Local Model，CE-CLM)，再利用多任务卷积神经网络(MTCNN)的人脸检测器初始化后的卷积专家约束局部模型对人脸训练样本进行面部检测和面部裁剪，卷积专家约束局部模型可以从人脸训练样本中检测出5个面部地标点和68个面部地标点，其中，如图2所示，5个面部地标点包括鼻尖点、左左嘴角、右嘴角、左眼中心和右眼中心。68个面部地标点如图3所示。

其中，多任务卷积神经网络(MTCNN)的人脸检测器主要使用三个级联网络，并采用候选框加分类器进行快速高效的人脸检测。三个级联网络分别是：P-Net(用于快速生成候选窗口)，R-Net(用于过滤和选择高精度候选窗口)以及O-Net(用于生成最终边界框和人脸地标)。卷积专家约束局部模型是在约束局部模型(CLM)中加入卷积专家网络(CEN)，卷积专家网络(CEN)作为局部检测器，即在端到端框架中汇集了神经体系结构和专家混合的优势。卷积专家约束局部模型(CE-CLM)算法包括两个主要部分：使用卷积专家网络(CEN)的响应图计算和使用点分布模型的形状参数更新。

对人脸训练样本进行面部检测和面部裁剪过程包括：独立于其他地标的位置估算各个地标对齐方式，在参数更新过程中，所有地标的位置将一起更新，使用点分布模型对未对齐的地标和不规则形状进行惩罚。最终优化结果可利用以下公式确定：

其中，p*是控制地标位置的最佳参数集，p是当前需要迭代的估计值。L是面部图像，地标i在位置x_i的对齐概率，R是由点分布模型实施的正则化。

CEN将估计的地标位置附近的具有n*n个像素大小的感兴趣区(ROI)作为输入，然后输出用于评估每个像素位置的地标对齐概率的响应图。因此将地标i拟合到位置x_i遵循原则如下所示：

其中，l_i是第i个地标对齐的标志，

是面部图像L在位置x_i的感兴趣区，响应图

用来最小化式

点分布模型(Point Distribution Models,PDM)用来控制地标位置并在CE-CLM框架中规范形状。最终检测到的地标中的不规则形状用

中的R(p)来惩罚。

进一步的，可利用以下公式使用P＝[s,t,w,q]来参数化地标位置x_i＝[x_i,y_i]^T：

其中，

是第i个地标的平均值，Φ_i是一个3×m的主成分矩阵，q是非刚性形状参数的m维向量，s、R和t是刚性参数，s是标度，R是由轴角w＝[w_x,w_y,w_z]^T定义的3×3旋转矩阵(R_2D是该矩阵的前两行)，t＝[t_x,t_y]^T是平移变换。

进一步的，考虑到图像类型的人脸训练样本和视频类型的人脸训练样本之间的差异，可以对图像类型的人脸训练样本和视频类型的人脸训练样本分别进行不同的标准化处理。以使得标准化处理过程更具有针对性，更能突出体现人脸训练样本的特征。

S200：利用所述标准训练数据集训练体重指数估计模型直至所述体重指数估计模型对应的损失函数最小化。

示范性的，请参见图4，S200包括以下步骤S210～S240：

S210：根据所述标准训练数据集中各个标准人脸样本对应的体重指数标签确定各个标准人脸样本所属的类别，所述类别包括肥胖类、超重类、过轻类和正常类。

S220：统计各个类别中标准人脸样本的数目。

S230：对各个类别中标准人脸样本进行样本增强处理以使各个类别中标准人脸样本的数目相同。

可以理解，样本增强处理包括对样本随机裁剪，样本随机翻转和样本随机旋转，对各个类别中标准人脸样本进行样本增强处理以使各个类别中标准人脸样本的数目相同，可以使得标准训练数据集中各个类别的标准人脸样本数目均衡，避免体重指数估计模型出现过拟合现象。

S240：利用各个类别中标准人脸样本训练体重指数估计模型直至所述体重指数估计模型对应的损失函数最小化。

示范性的，可以将所有标准人脸样本划分为五个部分，即五个子集，并通过交叉验证对体重指数估计模型进行训练。其中，四个子集用作训练集，其余一个子集为测试集。

随机初始化训练参数θ，平滑L1loss作为损失函数，如下所示：

其中，n为每次训练的批标准人脸样本数，z_i通过下式计算：

其中，x_i表示批标准人脸样本对应的真实体重指数，y_i表示批标准人脸样本对应的预测体重指数。

Adam(Adaptive Moment Estimation)优化器的初始学习率base_lr为1×10^-4，两个动量设置为β₁＝0.9andβ₂＝0.999，每次训练的批标准人脸样本数为20，学习率的衰减准则如下所示：

base_lr×gamma×iter

其中，gamma赋值为0.8，iter表示每次训练的次数。

设置好超参数及优化算法后，将标准人脸样本作为整个框架的输入，输出为单个体重指数的值。通过上述步骤，可得到每个标准人脸样本对应的体重指数的估计值。

本实施例对不同类型的人脸训练样本进行不同的标准化处理，不仅使得标准化处理过程更具有针对性，更能突出体现人脸训练样本的特征，而且使得训练完成的体重指数估计模型更具有普适性，可以识别多种类型的人脸数据，从不同类型的人脸数据中确定对应的体重指数。

实施例2

示范性的，请参见图5，若所述训练数据集中的每一个人脸训练样本的类型是图像类型，则步骤S100包括以下S110～S130步骤：

S110：利用透视变换方法将第k个人脸训练样本旋转N次以获得N个人脸图像旋转样本，每一次旋转角度不同，1≤k≤K，K为所述训练数据集中的人脸训练样本的总数。

透视变换是将人脸训练样本投影到新的视平面，也称为投影映射。因此，这也是改变物体的尺寸和形状的操作。平面图形可以在透视变换后产生三维效果。透视变换方法如下所示：

其中，

是人脸训练样本对应的矩阵，

是人脸训练样本透视变换后的目标矩阵，

是变换矩阵，变换矩阵可以分为四部分,

表示线性变换比如平移和放缩。[a₃₁a₃₂]表示翻转.[a₁₃ a₂₃]^T表示透视变换，a₃₃＝1。

可以理解，透视变换方法是从二维空间到三维空间的转换。由于人脸训练样本中的人脸图像位于二维平面中，因此目标矩阵中X、Y和Z的关系如下所示：

其中，(X',Y',Z')表示人脸训练样本中的人脸图像中一点的坐标，上式展开后如下所示：

可以理解，

有两个方程式和八个未知数。如果得到4个点的坐标，则可以得到8个方程来求解变换矩阵

求解出变换矩阵后，将图像的四个顶点用作源点，迭代地调整人脸训练样本中的人脸图像中各个目标点的坐标，然后将计算出的透视矩阵应用于原始图像以生成新图像。

其中，若N的取值过大，导致每一个人脸训练样本对应的人脸序列过大，进而导致GPU内存的容量无法存储全部人脸训练样本对应的人脸序列；若N的取值过少，人脸训练样本对应的人脸序列在多层卷积后尺寸将为零。因此，经过大量实验预先确定N可以为30，通过透视变换方法将各个人脸训练样本中的人脸图像旋转30次以获得每一个人脸训练样本对应的30个人脸图像旋转样本。

S120：将第k个人脸训练样本和第k个人脸训练样本对应的N个人脸图像旋转样本组成的人脸序列作为第k个标准人脸样本，并利用第k个标准人脸样本替换第k个人脸训练样本。

其中，第k个标准人脸样本的体重指数标签为第k个人脸训练样本的体重指数标签。

将每一个人脸训练样本和对应的N个人脸图像旋转样本组成的人脸序列替换对应的人脸训练样本，以通过人脸序列在二维空间中实现人脸姿态旋转的视觉效果。

示范性的，请参见图6，图6中以一个人脸训练样本A和对应的6个人脸图像旋转样本(B、B’、C、C’、D、D’)为例，人脸训练样本A为正脸图像，可以将人脸训练样本A分别向左和向右旋转5度，以获得人脸图像旋转样本B和B’，可以将人脸训练样本A分别向左和向右旋转10度，以获得人脸图像旋转样本C和C’，可以将人脸训练样本A分别向左和向右旋转15度，以获得人脸图像旋转样本D和D’。可以理解，图6仅是示意性说明，若一个人脸训练样本和对应的30个人脸图像旋转样本组成人脸序列，则可以将人脸训练样本分别向左和向右旋转依次旋转15次，以获得15对左右对称的人脸图像旋转样本，旋转角度范围可以是-40～40度之间的任一角度。

S130：对第k个标准人脸样本中的第k个人脸训练样本和N个人脸图像旋转样本的预定人脸区域进行遮挡。

预定人脸区域包括眼睛和鼻子区域。示范性的，请参见图7，示出了遮挡后的人脸图像。

由于，眼睛和鼻子区域经常用于面部识别和面部相似度比较，而在体重指数估计中提取几何特征时不使用眼睛和鼻子区域，若不遮挡眼睛和鼻子区域，将导致体重指数估计模型预测无关的特征，增加体重指数估计模型训练的复杂度，降低训练速度。因此，通过遮盖眼睛和鼻子区域可以减少与体重指数预测无关的特征，从而避免体重指数估计模型倾向于对相似性分类而不是体重指数预测。

示范性的，分别利用VIP-attribute人脸图片数据集训练ResNet152-2D模型，利用VIP-perspective人脸图片数据集(对VIP-attribute人脸图片数据集中的各个人脸样本进行透视变换处理)和VIP-mask标准训练数据集(对VIP-attribute人脸图片数据集中的各个人脸样本进行透视变换处理并对预定人脸区域进行遮挡)训练ResNet152-3D模型，并统计各个数据集对应的模型的训练结果，其中，各个数据集对应的模型的训练结果，如下表所示。

数据集	网络	0-F1	1-F1	2-F1	3-F1	Mean-F1	ACC	MAE
									VIP-attribute	ResNet152-2D	0.1875	0.7708	0.4262	0.7	0.5212	0.6636	2.629
VIP-perspective	ResNet152-3D	0.2581	0.7864	0.4634	0.8000	0.5770	0.6869	2.504
									VIP-mask	ResNet152-3D	0.4167	0.8118	0.6000	0.8333	0.6654	0.7293	2.186

其中，

MAE表示平均绝对误差，xi表示批标准人脸样本对应的真实体重指数，yi表示批标准人脸样本对应的预测体重指数，n为每次训练的批标准人脸样本数。

其中，

F1分数是统计中用来衡量两类或多任务分类模型的准确性的指标，F1还考虑了分类模型的查准率和召回率，F1分数可以视为模型查准率和召回率的加权平均值，0-F1表示过轻类对应的F1，1-F1表示正常类对应的F1，2-F1表示超重类对应的F1，3-F1表示肥胖类对应的F1。

其中，

ACC也是统计中用来衡量两类或多任务分类模型的准确性的指标。TP：正例预测正确的个数，FP：负例预测错误的个数，TN：负例预测正确的个数，FN：正例预测错误的个数。

结果表明，对各个人脸样本进行透视变换处理并对预定人脸区域进行遮挡后，MAE、F1和ACC都取得了更优的结果，这表明对各个人脸样本进行透视变换处理并对预定人脸区域进行遮挡可以有效提高体重指数估计的准确率。

实施例3

示范性的，请参见图8，若所述训练数据集中的每一个人脸训练样本的类型是视频类型(每一个人脸训练样本是由多个包含人脸的视频帧序列组成的)，则步骤S100包括以下S140～S160步骤：

S140：确定第k个人脸训练样本中每一个包含人脸的视频帧的人脸偏移距离，所述人脸偏移距离表示视频帧中的人脸偏离正脸的程度，1≤k≤K，K为所述训练数据集中的人脸训练样本的总数。

示范性的，请参见图9，示出了经过相同比例裁剪并获得五个地标点的人脸图像，以图9所示的人脸图像为例，每一个包含人脸的视频帧的人脸偏移距离利用以下公式计算：

S150：从第k个人脸训练样本中的多个包含人脸的视频帧中选择N个人脸偏移距离在预定范围内的视频帧。

在获得每一个人脸训练样本中的多个包含人脸的视频帧的人脸偏移距离之后，可以去掉人脸偏移距离不在适当范围内的帧。考虑到每一个人脸训练样本对应的视频时长不相等，每一个人脸训练样本的旋转角度范围略有不同，所以要对原始的旋转视频进行处理和重组，以确保每一个人脸训练样本不受不同角度范围的影响，并减少训练的难度。通过计算人脸偏移距离的范围，可以获取每一个人脸训练样本中所有视频帧的人脸偏移距离。然后，在-40至-30，-5至5和30至40的人脸偏移距离范围内选择N个视频帧。其中，N可以是30。

S160：利用N个人脸偏移距离在预定范围内的视频帧组成的人脸序列作为第k个标准人脸样本，并利用第k个标准人脸样本替换第k个人脸训练样本。

利用每一个人脸训练样本对应的30个人脸偏移距离在预定范围内的视频帧组成的人脸序列替换对应的人脸训练样本以获得对应标准人脸样本，使各个人脸训练样本标准化，进而可以使得体重指数估计模型的训练速度更快，训练完的体重指数估计模型的预测结果更准确。

示范性的，分别利用面部视频数据集FRV-rotation(其中每个人脸训练样本带有头部旋转的面部视频)和FRV-perspective(其中每个人脸训练样本为对FRV-picture中每个人脸训练样本进行透视变换后的人脸序列)训练ResNet152-3D模型，利用FRV-picture(其中每个人脸训练样本为正脸图像帧)训练ResNet152-2D模型，并统计各个数据集对应的模型的训练结果，其中，各个数据集对应的模型的训练结果，如下表所示。

数据集	网络	ACC	MAE
				FRV-picture	ResNet152-2D	0.6071	3.369
FRV-perspective	ResNet152-3D	0.6429	3.174
				FRV-rotation	ResNet152-3D	0.6607	3.076

FRV-rotation数据集在准确性和MAE方面均优于FRV-picture和FRV-perspective数据集，这表明具有不同面部姿态的面部信息可以提高BMI估计的性能。

实施例4

本申请的另一个实施例，请参见图10，提出一种体重指数估计模型包括：依次连接的三维卷积层、三维批量归一化层、激活层、第一三维平均池化层、第一注意力模块、第一基本模块、第一特征提取模块、第二特征提取模块、第二注意力模块、第二基本模块、第三特征提取模块、第四特征提取模块、第五特征提取模块、第六特征提取模块、第七特征提取模块、第八特征提取模块、第九特征提取模块、第二三维平均池化层和一维全连接层。

其中，第一注意力模块和第二注意力模块的结构相同，如图11所示，与现有的GCNet中的注意力块相比，第一注意力模块和第二注意力模块中的卷积层是三维的，适用于三维的标准人脸样本；现有的GCNet中的注意力块中的矩阵乘积被爱因斯坦求和代替，因此，第一注意力模块和第二注意力模块可以执行更高效的计算并减少对张量维度的运算。

其中，第一基本模块和第二基本模块的结构相同，如图12所示；第一特征提取模块、第二特征提取模块、第三特征提取模块、第四特征提取模块、第五特征提取模块、第六特征提取模块、第七特征提取模块、第八特征提取模块和第九特征提取模块的结构相同，如图13所示。

其中，第二三维平均池化层用于调整特征向量的尺寸，以将调整后的特征向量输入至一维全连接层。一维全连接层，用于体重指数估计。利用第二三维平均池化层调整特征向量的尺寸，以将调整后的特征向量输入至一维全连接层，可以减少体重指数估计模型的相关参数，降低体重指数估计模型的复杂度。

可以理解，由多个人脸序列组成的标准人脸样本是三维的，本实施例公开的体重指数估计模型的卷积层、池化层和批量归一化层均是三维的，因此，可以接收由多个人脸序列组成的标准人脸样本，本实施例公开的体重指数估计模型具有更强的运算能力，适用于对三维的标准人脸样本进行处理。

示范性的，为了证明本实施例提出的体重指数估计模型有效性，可以在VIP-mask和FRV-rotation数据集分别对本实施例提出的体重指数估计模型(STNet)和ResNet152-3D模型进行对比实验，实验结果如下表所示。

Dataset	Network	Acc	MAE
				VIP-mask	ResNet152-3D	0.7293	2.186
VIP-mask	STNet	0.7444	2.114
				FRV-rotation	ResNet152-3D	0.6607	3.076
FRV-rotation	STNet	0.6964	2.604

可以观察到，两个中训练数据集对应的训练结果表明，本实施例提出的体重指数估计模型(STNet)优于ResNet，这表明本实施例提出的体重指数估计模型对于体重指数估计是更准确的。

进一步的，使用VIP_attribute数据集分别训练ResNet50(Dantchev提出了一种基于50层ResNet体系结构)、NBS(Polania基于在暹罗网络上实现的成对比较，提出了NoisyBinary Search算法)、LD-CCA(一种基于标签分布的BMI估计学习方法，并通过Centerloss模型提取了深度特征)和本实施例提出的体重指数估计模型(STNet)。对应的训练结果如下表所示。

由此可知，本实施例提出的体重指数估计模型(STNet)与以前的方法相比，在整体准确率和MAE上都优于其他方法。以上所有实验结果证明了本实施例提出的体重指数估计模型(STNet)的具有更高的准确率和更低的MAE。

实施例5

本申请的另一个实施例，请参见图14，提出一种体重指数估计模型训练装置10包括：标准化处理模块11和模型训练模块12。

标准化处理模块11，用于根据训练数据集中的人脸训练样本的类型对训练数据集中的各个人脸训练样本进行对应的标准化处理以获得标准训练数据集，所述各个人脸训练样本带有相应的体重指数标签；模型训练模块12，用于利用所述标准训练数据集训练体重指数估计模型直至所述体重指数估计模型对应的损失函数最小化。

本实施例提出的体重指数估计模型训练装置10通过标准化处理模块11和模型训练模块12的配合使用，用于执行上述实施例所述的体重指数估计模型训练方法，上述实施例所涉及的实施方案以及有益效果在本实施例中同样适用，在此不再赘述。

本申请还涉及一种体重指数估计方法，利用经过本申请所述的体重指数估计模型训练方法训练达标的体重指数估计模型估计任一人脸图像或视频中人脸对应的体重指数。

本申请还涉及一种终端设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行本申请所述的体重指数估计模型训练方法或者本申请所述的体重指数估计方法。

本申请还涉及一种可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行本申请所述的体重指数估计模型训练方法或者本申请所述的体重指数估计方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种体重指数估计模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的体重指数估计模型训练方法，其特征在于，若所述训练数据集中的每一个人脸训练样本的类型是图像类型，所述根据训练数据集中的人脸训练样本的类型对训练数据集中的各个人脸训练样本进行对应的标准化处理，包括：

3.根据权利要求1所述的体重指数估计模型训练方法，其特征在于，若所述训练数据集中的每一个人脸训练样本的类型是视频类型，所述根据训练数据集中的人脸训练样本的类型对训练数据集中的各个人脸训练样本进行对应的标准化处理，包括：

4.根据权利要求3所述的体重指数估计模型训练方法，其特征在于，每一个包含人脸的视频帧的人脸偏移距离利用以下公式计算：

5.根据权利要求1所述的体重指数估计模型训练方法，其特征在于，所述利用所述标准训练数据集训练体重指数估计模型直至所述体重指数估计模型对应的损失函数最小化，包括：

统计各个类别中标准人脸样本的数目；

6.根据权利要求1至5任一项所述的体重指数估计模型训练方法，其特征在于，所述体重指数估计模型包括：依次连接的三维卷积层、三维批量归一化层、激活层、第一三维平均池化层、第一注意力模块、第一基本模块、第一特征提取模块、第二特征提取模块、第二注意力模块、第二基本模块、第三特征提取模块、第四特征提取模块、第五特征提取模块、第六特征提取模块、第七特征提取模块、第八特征提取模块、第九特征提取模块、第二三维平均池化层和一维全连接层。

7.一种体重指数估计方法，其特征在于，利用经过权利要求1至6任一项所述的体重指数估计模型训练方法训练达标的体重指数估计模型估计人脸图像帧中人脸对应的体重指数。

8.一种体重指数估计模型训练装置，其特征在于，所述装置包括：

9.一种终端设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行权利要求1至6任一项所述的体重指数估计模型训练方法或者权利要求7所述的体重指数估计方法。

10.一种可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序在处理器上运行时执行权利要求1至6任一项所述的体重指数估计模型训练方法或者权利要求7所述的体重指数估计方法。