CN111881705B

CN111881705B - 数据处理、训练、识别方法、装置和存储介质

Info

Publication number: CN111881705B
Application number: CN201910935970.3A
Authority: CN
Inventors: 沈凌浩; 吴新
Original assignee: Shenzhen Digital Life Institute
Current assignee: Shenzhen Digital Life Institute
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2023-12-12
Anticipated expiration: 2039-09-29
Also published as: WO2021057810A1; CN111881705A

Abstract

本发明公开了一种数据处理、训练、识别方法、装置和存储介质。其中，该方法包括：将待识别的特征数据输入权重注意力神经网络模型，识别得到待识别的特征数据中至少一个目标的关键点二维坐标，其中，权重注意力神经网络模型用于通过自顶向下的方式进行至少一人的姿态估计，检测待识别的特征数据中至少一个目标的位置矩形框，并检测位置矩形框内目标的关键点二维坐标；通过目标的关键点二维坐标进行计算，得到第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角；将第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角在第一预设数据库中进行匹配，得出目标的识别结果。本发明解决了由于相关技术在对人体姿态的识别过程中，数据处理效率低的技术问题。

Description

数据处理、训练、识别方法、装置和存储介质

技术领域

本发明涉及计算机技术应用领域，具体而言，涉及一种数据处理、训练、识别方法、装置和存储介质。

背景技术

在姿态估计技术中(即，关键点检测技术)目前常用的两种解决方案包括：自顶向下的方法(Two-step framework)和自底向上的方法(Part-based framework)；

其中，自顶向下的方法是先检测图片(2D/3D)中所有人物的位置矩形框(人物完整的被包含在矩形框内)，然后分别独立地检测每一个矩形框内人物的骨骼关键点坐标，连接成人物骨架，其特点在于数据处理精度高，其中，姿态估计的准确度高度依赖于人物位置矩形框的检测质量。

自底向上的方法是先检测出图片中所有人物的骨骼关键点坐标，然后处理每个骨骼关键点的分配问题，将每个关键点分配给不同的人，连接成人物骨架，其特点在于数据处理速度快，但是如果出现密集人群或人物之间出现遮挡，那么在分配关键点到个人的阶段容易出现错误的情况。

而相关技术中在实现体态识别上主要通过Kinect设备获取人物关键点，但是该设备价格昂贵且不便携带，此外，相关技术中由于采样和计算模型的原因会导致数据源头本身的误差变大，因此相关技术在对人体姿态的动作识别上精度低。

针对上述由于相关技术在对人体姿态的识别过程中，数据处理效率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据处理、训练、识别方法、装置和存储介质，以至少解决由于相关技术在对人体姿态的识别过程中，数据处理效率低的技术问题。

根据本发明实施例的一个方面，提供了一种数据处理方法，包括：将具备第一数量通道的第一特征数据输入至具备第二数量滤波器的第一类卷积层进行计算，输出具备第二数量通道的第二特征数据，其中，第一数量大于第二数量；将具备第二数量通道的第二特征数据输入至具备第二数量滤波器的第二类卷积层，并根据第二类卷积层中的全连接层生成的第二类卷积层中各个滤波器的权重的掩码；依据掩码确定第二类卷积层中的各个滤波器与第二特征数据中的各通道的连接方式；依据连接方式得到的映射关系对第二特征数据进行卷积计算，得到第三特征数据；将具备第二数量通道的第三特征数据输入至具备第一数量滤波器的第三类卷积层进行计算，输出具备第一数量通道的第四特征数据。

可选的，数据处理方法应用于人工智能中的深度学习。

可选的，数据处理方法应用于识别图片/视频中的目标的姿态或动作。

根据本发明实施例的一个方面，提供了一种数据训练方法，包括：获取待训练的权重分类模型，其中，权重分类模型为获取图像数据的图像特征的神经网络模型；对待训练的权重分类模型进行训练，得到权重分类模型；其中，对待训练的权重分类模型进行训练中使用的方法包括上述数据处理方法。

可选的，对待训练的权重分类模型进行训练，得到权重分类模型包括：将第一预设数据集中的数据输入待训练的权重分类模型，得到类别预测结果；依据类别预测结果与第一预设数据集中的数据的标签类别，得到类别预测结果与第一预设数据集中的数据的标签类别的误差；依据误差进行反向传播算法训练待训练的权重分类模型，直至待训练的权重分类模型收敛，得到收敛的权重分类模型。

可选的，依据误差进行反向传播算法训练待训练的权重分类模型，直至待训练的权重分类模型收敛包括：通过激励传播和权重更新的反复迭代，直至待训练的权重分类模型收敛。

可选的，在待训练的权重分类模型包括残差结构，池化结构和全连接结构的情况下，通过激励传播和权重更新的反复迭代，直至待训练的权重分类模型收敛包括：在激励传播阶段，将图像通过待训练的权重分类模型的卷积层获取特征,在待训练的权重分类模型的全连接层获取类别预测结果,再将类别预测结果与第一预设数据集中的数据的标签类别求差,得到隐藏层和输出层的响应误差；在权重更新阶段,将误差与本层响应对前一层响应的函数的导数相乘,获得两层之间权重矩阵的梯度,沿梯度的反方向以设定的学习率调整权重矩阵；将梯度确定为前一层的误差，并计算前一层的权重矩阵,通过迭代计算对待训练的权重分类模型更新，直至待训练的权重分类模型收敛。

根据本发明实施例的另一个方面，提供了一种数据训练方法，包括：通过收敛的权重分类模型初始化目标检测模型中的特征提取模块，获得待训练的目标检测模型；其中，该收敛的权重分类模型通过上述数据训练方法训练得到；通过第二预设数据集中的目标位置框标签信息对待训练的目标检测模型进行训练，得到训练后的目标检测模型；依据第三预设数据集中的目标关键点标签信息对待训练的单人姿态估计模型的网络参数进行训练,得到训练后的单人姿态估计模型；依据训练后的目标检测模型和训练后的单人姿态估计模型，得到权重注意力神经网络模型。

可选的，通过第二预设数据集中的目标位置框标签信息对待训练的目标检测模型进行训练，得到训练后的目标检测模型包括：在目标检测模型包括特征提取模块、建议框生成模块和目标分类器与位置框回归预测模块的情况下，分别对特征提取模块和建议框生成模块进行训练，得到特征提取模块第一参数值和建议框生成模块第一参数值；依据特征提取模块第一参数值和建议框生成模块第一参数值训练目标分类器与位置框回归预测模块，得到目标分类器与位置框回归预测模块第一参数值和特征提取模块第二参数值；依据目标分类器与位置框回归预测模块第一参数值和特征提取模块第二参数值训练建议框生成模块，得到建议框生成模块第二参数值；依据建议框生成模块第二参数值和特征提取模块第二参数值训练目标分类器与位置框回归预测模块，得到目标分类器与位置框回归预测模块第二参数值。

进一步地，可选的，特征提取模块用于提取第二预设数据集中的各个数据的特征；建议框生成模块用于依据第二预设数据集中的各个数据的特征生成各个数据的候选目标框；目标分类器与位置框回归预测模块用于依据第二预设数据集中的各个数据的特征和各个数据的候选目标框获取第二预设数据集中各个数据的目标的检测框及相应检测框的类别；在建议框生成模块包括一个滑窗的卷积层，卷积层后连接两个并行的卷积层，两个并行的卷积层分别为回归层和分类层的情况下，建议框生成模块用于依据第二预设数据集中的各个数据的特征生成各个数据的候选目标框包括：依据第二预设数据集中的各个数据的特征通过回归层，得到第二预设数据集中的各个数据的各个候选目标框的中心锚点的坐标和相应的候选目标框的宽与高；通过分类层判定各个数据的各个候选目标框是前景或背景。

可选的，在目标分类器与位置框回归预测模块的结构为顺次连接的一个池化层、三个全连接层和并行的两个全连接层的情况下，目标分类器与位置框回归预测模块用于依据第二预设数据集中的各个数据的特征和各个数据的候选目标框获取第二预设数据集中各个数据的各个目标的检测框和相应的检测框的类别包括：通过池化层将特征提取模块输出的不同长度的各个数据的特征转换为固定长度的各个数据的特征；依据固定长度的各个数据的特征，分别通过三个全连接层后再通过并行的两个全连接层，输出第二预设数据集中各个数据的各个目标的检测框及相应检测框的类别。

可选的，依据第三预设数据集中的目标关键点标签信息对待训练的单人姿态估计模型的网络参数进行训练,得到训练后的单人姿态估计模型包括：依据第三预设数据集中的目标关键点标签信息对待训练的单人姿态估计模型的网络参数进行训练,通过前向传播和后向传播算法迭代的更新待训练的单人姿态估计模型的网络参数；其中，依据第三预设数据集中的目标关键点标签信息对待训练的单人姿态估计模型的网络参数进行训练,通过前向传播和后向传播算法迭代的更新待训练的单人姿态估计模型的网络参数包括：依据预设宽高比对输入的单人图像的高度或宽度进行扩展，并将单人图像裁剪为预设尺寸。

可选的，对待训练的单人姿态估计模型的网络参数进行训练中使用的方法包括上述的数据处理方法。

可选的，该方法还包括：收集训练待训练的目标检测模型和待训练的单人姿态估计模型所需的样本；对样本进行预处理，其中，预处理包括：数据集的划分和预处理操作。

进一步地，可选的，第一预设数据集包括：第一类图像数据集，第一类图像数据集自定义了训练集和验证集；第二预设数据集包括第二类图像数据集和第三类图像数据集中有位置框信息标注的数据集合；第二类图像数据集自定义了训练集和验证集；第三类图像数据集按照预设比例随机划分为训练集和验证集；第二类图像数据集的训练集和第三类图像数据集的训练集为第二预设数据集中的训练集，第二类图像数据集的验证集和第三类图像数据集的验证集为第二预设数据集中的验证集；第三预设数据集包括第二类图像数据集和第三类图像数据集中有关键点信息标注的数据集合；预处理操作包括：通过随机几何变换对第一预设数据集和第三预设数据集中的数据分别进行处理；通过随机混合操作和/或随机几何变换对第二预设数据集中的数据进行处理。

可选的，通过随机几何变换包括随机裁剪、按预设角度进行随机旋转和/或按照预设缩放比例进行随机缩放；随机混合操作包括将至少两个数据按照预设权重进行重合，具体为将不同数据中的预设位置像素值与预设权重的乘积相加。

根据本发明实施例的又一个方面，提供了一种数据识别方法，基于上述方法，包括：将待识别的特征数据输入权重注意力神经网络模型，识别得到待识别的特征数据中至少一个目标的关键点二维坐标，其中，权重注意力神经网络模型用于通过自顶向下的方式进行至少一人的姿态估计，检测待识别的特征数据中至少一个目标的位置矩形框，并检测位置矩形框内目标的关键点二维坐标；通过目标的关键点二维坐标进行计算，得到第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角；将第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角在第一预设数据库中进行匹配，得出目标的识别结果。

可选的，将第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角在第一预设数据库中进行匹配，得出目标的识别结果包括：在待识别的特征数据包括图片数据的情况下，将得到的至少一个夹角的角度值与第一预设数据库中的相应的夹角类型的角度值进行匹配，得出图片数据的识别结果。

可选的，将第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角在第一预设数据库中进行匹配，得出目标的识别结果包括：在待识别的特征数据包括视频数据的情况下，获取视频数据中至少一个目标的关键点二维坐标信息；依据视频数据中至少一个目标的关键点二维坐标信息得到至少一个目标的至少一个特定夹角的角度时间变化曲线，并通过与至少一种标准运动的至少一个夹角的角度时间变化曲线做比较分析，得到识别结果。

进一步地，可选的，依据视频数据中至少一个目标的关键点二维坐标信息得到至少一个目标的至少一个特定夹角的角度时间变化曲线，并通过与至少一种标准运动的至少一个夹角的角度时间变化曲线做比较分析，得到识别结果包括：将至少一个目标的至少一个特定夹角的角度时间变化曲线，与预先获得的至少一种标准运动的至少一个夹角的角度时间变化曲线进行相似度比较，若相似度落入第一预设阈值区间，则判定视频数据中的相应目标正在进行所对应的标准运动类型；在判定视频数据中的相应目标正在进行所对应的标准运动类型的情况下，进一步比较该目标的至少一个特定夹角的角度时间变化曲线与标准运动的相应特定夹角的角度时间变化曲线；若目标的至少一个特定夹角的角度时间变化曲线上相邻最值的差，和标准运动的相应特定夹角的角度时间变化曲线上相邻最值的差落入第二预设阈值区间，则判断视频数据中目标的特定夹角所对应的关节动作规范，否则视频数据中该目标的特定夹角所对应的关节动作不规范；判断目标的至少一个特定夹角的角度时间变化曲线上相邻峰值之间的距离，和标准运动的相应特定夹角的角度时间变化曲线上相邻峰值的差是否落入第三预设阈值区间、第四预设阈值区间或第五预设阈值区间，进而确认视频数据中目标的特定夹角所对应的关节动作运动强度过低、适当或过高。

可选的，该方法还包括：依据识别结果在第二预设数据库中进行匹配，得到识别结果对应的体态评估结果。

进一步地，可选的，在得到识别结果对应的体态评估结果之后，该方法还包括：依据体态评估结果在第三预设数据库中进行匹配，得到体态评估结果对应的建议信息。

根据本发明实施例的再一个方面，提供了一种数据识别装置，包括：坐标识别模块，用于将待识别的特征数据输入权重注意力神经网络模型，识别得到待识别的特征数据中至少一个目标的关键点二维坐标，其中，权重注意力神经网络模型用于通过自顶向下的方式进行至少一人的姿态估计，检测待识别的特征数据中至少一个目标的位置矩形框，并检测位置矩形框内目标的关键点二维坐标；计算模块，用于通过目标的关键点二维坐标进行计算，得到第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角；匹配模块，用于将第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角在第一预设数据库中进行匹配，得出目标的识别结果。

根据本发明实施例的一个方面，提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述方法。

根据本发明实施例的一个方面，提供了一种数据识别装置，包括：存储介质和用于运行存储于存储介质中的程序的处理器，程序运行时执行上述方法。

在本发明实施例中，提出了权重注意力机制，其中，通过引入可学习的mask机制，不人为固定网络的分组模式，让网络自身学习卷积分组，并选择对网络有用的滤波器进行卷积运算，提升网络的性能；基于该权重注意力机制对待训练的权重分类模型进行数据训练，得到权重分类模型，通过该权重分类模型对目标检测模型中的特征提取模块进行初始参数的初始化，从而在得到权重注意力神经网络模型的过程中，通过该权重分类模型提高目标检测模型的准确率及加快模型训练的收敛速度；

基于上述数据训练方法，还通过采用自顶向下的多人姿态估计的方式，通过将待识别的特征数据输入权重注意力神经网络模型，识别得到待识别的特征数据中至少一个目标的关键点二维坐标，其中，权重注意力神经网络模型用于通过自顶向下的方式进行至少一人的姿态估计，检测待识别的特征数据中至少一个目标的位置矩形框，并检测位置矩形框内目标的关键点二维坐标；通过目标的关键点二维坐标进行计算，得到第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角；将第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角在第一预设数据库中进行匹配，得出目标的识别结果，达到了提升对人体姿态的识别精度和效率的目的，从而实现了根据提升精度和效率后的人体姿态提供评估结果的技术效果，进而解决了由于相关技术在对人体姿态的识别过程中，数据处理效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的数据处理方法的流程示意图；

图2是根据本发明实施例的数据处理方法中权重注意力机制的示意图；

图3是根据本发明实施例的数据训练方法的流程示意图；

图4是根据本发明实施例的数据训练方法中权重分类模型的网络结构图；

图5是根据本发明实施例的数据训练方法的流程示意图；

图6是根据本发明实施例的数据训练方法中目标检测模型的示意图；

图7是根据本发明实施例的数据训练方法中单人姿态估计模型的示意图；

图8是根据本发明实施例的数据训练方法中关键点位置和骨架连线的示意图；

图9a是根据本发明实施例的数据训练方法中关键点位置和骨架连线的标注前的效果示意图；

图9b是根据本发明实施例的数据训练方法中关键点位置和骨架连线的标注后的效果示意图；

图10是根据本发明实施例的数据训练方法中mix-up的效果示意图；

图11是根据本发明实施例的数据识别方法的流程示意图；

图12是根据本发明实施例的数据识别方法中基于深度学习得到的体态风险的评估的流程示意图；

图13a是根据本发明实施例的体态风险的评估方法中正面照的示意图；

图13b是根据本发明实施例的体态风险的评估方法中侧面照的示意图；

图14是根据本发明实施例的数据识别方法中体态风险的评估结果的展示示意图；

图15是根据本发明实施例的数据识别装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请涉及的技术名词：

体态评估：通过一定的技术方法对图片中人物的体态状况进行评估，比如是否具有O/X型腿，是否驼背或高低肩等体态上的疾病问题，还可进一步对各种体态状况严重情况进行等级打分；

动作识别：通过一定的技术方法识别图片或视频中人物的动作类别，比如行走，举手，鼓掌等姿势名称或动作类别名称；

关键点检测：通过一定的技术方法识别图片/视频中单个目标或多个目标的关键点坐标，如果目标为人，该关键点坐标为骨骼关键点坐标。

实施例一

根据本发明实施例的一个方面，提供了一种数据处理方法，图1是根据本发明实施例的数据处理方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤S102，将具备第一数量通道的第一特征数据输入至具备第二数量滤波器的第一类卷积层进行计算，输出具备第二数量通道的第二特征数据，其中，第一数量大于第二数量；

步骤S104，将具备第二数量通道的第二特征数据输入至具备第二数量滤波器的第二类卷积层，并根据第二类卷积层中的全连接层生成的第二类卷积层中各个滤波器的权重的掩码；

步骤S106，依据掩码确定第二类卷积层中的各个滤波器与第二特征数据中的各通道的连接方式；

步骤S108，依据连接方式得到的映射关系对第二特征数据进行卷积计算，得到第三特征数据；

步骤S110，将具备第二数量通道的第三特征数据输入至具备第一数量滤波器的第三类卷积层进行计算，输出具备第一数量通道的第四特征数据。

具体的，结合步骤S102至步骤S110，图2是根据本发明实施例的数据处理方法中权重注意力机制的示意图，以图2所示的权重注意力机制的示例为例进行说明，在本申请实施例中第一数量通道的第一特征数据可以为具有256个通道的特征图数据，第二数据量滤波器的第一类卷积层可以为带有128个滤波器的1×1卷积层，因此，基于图2，步骤S102为将具有256个通道的特征图数据输入至具备128个滤波器的1×1卷积层中进行计算，输出通道数为128的特征图数据；

如图2所示，在经过带有128个滤波器的1×1卷积层的计算后，步骤S104中将通道数为128的特征图数据作为输入，输入至带有128个滤波器的3×3卷积层(即，本申请实施例中的具备第二数量滤波器的第二类卷积层)，其中，在第二类卷积层(3×3)执行卷积计算的过程中，是根据3×3卷积层中的全连接层生成的各个滤波器的权重的掩码，依据该掩码在步骤S106中确定在3×3卷积层中各个滤波器与通道数为128的特征图数据中的各通道的连接方式(见图2左侧的掩码(mask)图)，依据该连接方式在步骤S108中根据该连接方式的映射关系对通道数为128的特征图数据进行卷积计算，得到第三特征数据，即，通道数为128的特征图数据；最终在步骤S110中将该通道数为128的特征图数据作为输入，输入至带有256个滤波器的1×1卷积层中进行计算，得到通道数是256的特征图数据。

在本申请实施例中是利用全连接层生成滤波器掩码(mask)，如图2左侧mask中所示，在后向传播中让网络去学习掩码(mask),掩码中置1的部分就是网络选择的滤波器。由于是通过学习一个权重的掩码来选择滤波器的连接方式，因此在本申请实施例中步骤S102至步骤S110所使用的滤波器选择和滤波器与通道之间卷积计算的方式为权重注意力机制weight attention，在本申请实施例中WeightNet引入可学习的mask机制，不人为固定网络的分组模式(分组模式即图2中所示的in与out间相同类别线条)，让网络自身学习卷积分组，并选择对网络有用的滤波器进行卷积运算，提升网络的性能。

可选的，本申请实施例提供的数据处理方法应用于人工智能中的深度学习。

具体的，基于步骤S102至步骤S104的卷积算法可以将该权重注意力机制应用于人工智能技术中，特别是深层神经网络学习中，从而网络能够依据自身学习对滤波器和通道之间自行进行分组，进而进行卷积计算，从而提升深层神经网络学习的数据处理能力。

可选的，本申请实施例提供的数据处理方法应用于识别图片/视频中的目标的姿态或动作。

具体的，在本申请实施例中目标可以为人、动物等，即，在图片或视频中的人、动物，在人工智能(AI)计算的延伸，以及普遍适用的情况下，基于步骤S102至步骤S104的卷积算法可以将该权重注意力机制具体应用于识别图片/视频中的目标的姿态，这里可以应用于安防监控环境，依据获取到的图片/视频中的人、车、动物、昆虫等目标，预测人、车、动物、昆虫的行为、运动轨迹等；

在本申请实施例中可以优选的，将该技术应用于医疗诊断中，例如，通过识别图片/视频中的人，将识别到的人作为目标，通过获取该目标的外形得到组成目标的关键点，依据该关键点进行姿态评估，进一步地根据该姿态评估该目标的骨骼健康状况，其中，用于识别图片/视频中人的图像计算过程可以为步骤S102-步骤S110记载的数据处理方法，所适用的卷积算法可以如图2所示。

其中，将图2所示的卷积算法应用于AI技术中的数据模型训练详见实施例二中的数据训练方法，在该实施例二中基于图2所示的卷积算法得到一个WeightNet网络，基于该WeightNet网络进行数据训练详见实施例二。

实施例二

根据本发明实施例的一个方面，提供了一种数据训练方法，图3是根据本发明实施例的数据训练方法的流程示意图，如图3所示，该方法包括如下步骤：

步骤S302，获取待训练的权重分类模型，其中，权重分类模型为获取图像数据的图像特征的神经网络模型；

具体的，图4是根据本发明实施例的数据训练方法中权重分类模型的网络结构图，在本申请实施例中以WeightNet-50分类模型为例进行说明，基于该分类模型可以对待处理图像进行图像特征提取。同理，WeightNet-101分类模型也同样适用于本申请实施例提供的数据训练方法，本申请实施例仅以WeightNet-50分类模型为例进行说明，以实现本申请实施例提供的数据训练方法为准，具体不做限定。

步骤S304，对待训练的权重分类模型进行训练，得到权重分类模型；其中，对待训练的权重分类模型进行训练中使用的方法包括上述实施例1中的数据处理方法。

具体的，基于步骤S302中得到的WeightNet-50分类模型，通过将训练图片引入WeightNet-50分类模型进行卷积训练，最终得到WeightNet分类模型(即，本申请实施例提供的权重分类模型)。

可选的，步骤S304中对待训练的权重分类模型进行训练，得到权重分类模型包括：

步骤S3041，将第一预设数据集中的数据输入待训练的权重分类模型，得到类别预测结果；

具体的，在本申请实施例中预设数据集为涵盖了所有对象类别的图像数据集，对象类别包括：人、狗、马等等自然类别；其中，在步骤S3041中将该图像数据集中的各个类型的图片数据作为第一数据输入至待训练的权重分类模型，即，将人、狗、马等各个类型的图片输入待训练的WeightNet-50分类模型，得到各个图片数据的类别预测结果。

其中，如图4所示，以待训练的WeightNet-50分类模型为例，WeightNet-50分类模型由残差结构，池化结构和全连接结构组成：

残差结构由三层卷积完成,第一层卷积层有n个1x1的卷积核,步长为1；第二层有n个3x3的卷积核,步长为1；第三层有2n个1x1的卷积核,步长为1；

具体的网络参数配置为:第一个卷积块是n＝64个步长为2的7x7的卷积核,带有3x3且步长为2的池化；第二个卷积块是由3个n＝64的残差结构组成；第三个卷积块是由4个n＝128的残差结构组成；第四个卷积块是由6个n＝256的残差结构组成；第五个卷积块是由3个n＝512的残差结构组成；最后是一个全局平均池化层和1000输出的softmax全连接层。

需要说明的是，在本申请实施例中，将第一预设数据集中的数据输入待训练的权重分类模型，得到的类别预测结果可以为图片的类别预测结果，还可以为视频中图像的类别预测结果，本申请实施例中所使用的预设数据集仅以图片类的数据集为优选示例进行说明，此外，还可以包括视频图像类的数据集。以实现本申请实施例提供的数据训练方法为准，具体不做限定。

步骤S3042，依据类别预测结果与第一预设数据集中的数据的标签类别，得到类别预测结果与第一预设数据集中的数据的标签类别的误差；

具体的，将该依据第一预设数据集中已标注标签类别的图片数据输入至待训练的WeightNet-50分类模型，得到通过前向传播提取特征，得到类别预测结果。

将类别预测结果与第一预设数据集中的数据的标签类别进行比对，得到类别预测结果与第一预设数据集中的数据的标签类别的误差。

步骤S3043，依据误差进行反向传播算法训练待训练的权重分类模型，直至待训练的权重分类模型收敛，得到收敛的权重分类模型。

具体的，基于步骤S3042中得到的误差，采用误差反向传播算法来训练该模型,直至模型收敛,得到WeightNet-50分类网络。

这里需要说明的是，本申请实施例中第一预设数据集可以为ImageNet数据集，通过使用百万级ImageNet分类数据预训练WeightNet分类模型,并通过收敛的权重分类模型初始化目标检测模型中的特征提取模块，以此提高最终目标检测模型的准确率及加快模型训练的收敛速度。其中，使用ImageNet数据集是由于，ImageNet包含1000个类别的120万张ImageNet图像，庞大的数据量作为样本进行训练能够满足AI技术对深层神经网络学习的需求。

因此需要说明的是，本申请实施例提供的第一预设数据集仅以ImageNet数据集为例进行说明，以能够实现本申请实施例提供的数据训练方法为准，具体不做限定。

进一步地，可选的，步骤S3044中依据误差进行反向传播算法训练待训练的权重分类模型，直至待训练的权重分类模型收敛包括：

步骤S30441，通过激励传播和权重更新的反复迭代，直至待训练的权重分类模型收敛；其中，在待训练的权重分类模型包括残差结构，池化结构和全连接结构的情况下，通过激励传播和权重更新的反复迭代，直至待训练的权重分类模型收敛包括：在激励传播阶段，将图像通过待训练的权重分类模型的卷积层获取特征,在待训练的权重分类模型的全连接层获取类别预测结果,再将类别预测结果与第一预设数据集中的数据的标签类别求差,得到隐藏层和输出层的响应误差；在权重更新阶段,将误差与本层响应对前一层响应的函数的导数相乘,获得两层之间权重矩阵的梯度,沿梯度的反方向以设定的学习率调整权重矩阵；将梯度确定为前一层的误差，并计算前一层的权重矩阵,通过迭代计算对待训练的权重分类模型更新，直至待训练的权重分类模型收敛。

具体的，仍以ImageNet数据集为例进行说明，利用ImageNet已经标注类别数据对网络参数进行训练,通过前向传播提取特征,利用网络输出的类别预测结果(one-hot)与真实的标签类别误差,采用误差反向传播算法来训练该模型,直至模型收敛,得到WeightNet-50分类网络。

其中，通过误差反向传播算法来训练卷积神经网络模型,具体为激励传播以及权重更新两个环节的反复迭代,直到达到收敛条件为止；

在激励传播阶段将图像通过WeightNet-50网络的卷积层获取特征,在网络最后的全连接层获取预测结果,再将预测结果与真实结果求差,从而获得隐藏层和输出层的响应误差；

在权重更新阶段,先将已知误差与本层响应对前一层响应的函数的导数相乘,从而获得两层之间权重矩阵的梯度,然后沿这个梯度的反方向以设定的学习率调整权重矩阵；随后,将该梯度当作前一层的误差从而计算前一层的权重矩阵,以此类推完成对整个模型的更新；

这里本申请实施例中训练WeightNet-50分类网络可以采用Adam作为优化器，在设置参数上可以将基础学习率设为0.1，在第32000和48000迭代时将其除以10，并在64000迭代时终止训练，权重衰减值设为0.0001，批尺寸设为128。

需要说明的是，本申请实施例中训练WeightNet-50分类网络以采用Adam作为优化器为例，在设置参数上也仅以上述为优选示例，以能够实现本申请实施例提供的数据训练方法为准，具体不做限定。

实施例三

根据本发明实施例的一个方面，提供了一种数据训练方法，图5是根据本发明实施例的数据训练方法的流程示意图，如图5所示，包括：

步骤S502，通过收敛的权重分类模型初始化目标检测模型中的特征提取模块，获得待训练的目标检测模型；其中，该收敛的权重分类模型通过实施例2中的方法训练训练得到；

具体的，本申请实施例提供的数据训练方法是适用于训练一种权重注意力神经网络模型，其中，该权重注意力神经网络模型包含目标检测模型(Faster-RCNN)，该Faster-RCNN用于提取输入图像中各个人物的位置框信息给单人姿态估计模型进行姿态估计，其中，Faster-RCNN包括：特征提取模块(WeightNet)、建议框生成模块(RPN)和目标分类器与位置框回归预测模块(Fast-RCNN)；

其中，步骤S502中的特征提取模块为Faster-RCNN中的WeightNet，基于实施例2得到的权重分类模型，基于该权重分类模型在对WeightNet进行初始化，但不包括输出层参数。这里通过权重分类模型对获取第一预设数据集中图像特征的特征提取模块的权重进行初始化可以为：

将WeightNet-50在ImageNet数据集上进行分类任务的预训练，并将最终收敛的权重作为人物检测模型中特征提取模块的初始化权重，以此提高最终人物检测模型的准确率及加快模型训练的收敛速度；

这里训练和验证时遵循上述数据预处理操作；采用Adam作为优化器(Adam:Adaptive moment estimation，适应性矩估计，一种随机优化的方法)；基础学习率设为0.1，在迭代第32000步和48000步时除以10，并在第64000步迭代时终止训练；权重衰减值为0.0001；批尺寸设置为128。

其中，第一预设数据集中的图像的预处理操作采用预设概率随机水平翻转，其中，预设概率可以设定为50％，在得到不需要翻转的图像时则不需要进行随机翻转，以实际符合图像处理的需求为准。

步骤S504，通过第二预设数据集中的目标位置框标签信息对待训练的目标检测模型进行训练，得到训练后的目标检测模型；

具体的，基于步骤S502中得到的待训练的目标检测模型，图6是根据本发明实施例的数据训练方法中目标检测模型的示意图，如图6所示，结合第二预设数据集，在本申请实施例中，第二预设数据集可以为包含有目标位置框标签信息的数据集，其中，第二预设数据集可以为COCO和Kinetics-14数据集中的目标位置框标签信息组成的数据集，这里通过使用COCO和Kinetics-14数据集中的目标位置框标签信息组成的数据集训练目标检测模型以提高最终整体架构对类似场景中人物位置的定位的识别效果。此外，需要说明的是，本申请实施例中的特征提取模块(WeightNet)是基于实施例2中权重分类模型训练得到，区别在于，权重分类模型(WeightNet)与特征提取模块(WeightNet)的结构以及功能；

其中，权重分类模型(WeightNet)，用于将WeightNet-50在ImageNet数据集上进行分类任务的预训练，并将最终收敛的权重作为目标检测模型中特征提取模块的初始化权重，以此提高最终目标检测模型的准确率及加快模型训练的收敛速度；且权重分类模型(WeightNet)的结构为：WeightNet+分类器；

而特征提取模块(WeightNet)，是通过权重分类模型对权重进行初始化得到；在结构上特征提取模块(WeightNet)的结构为去掉分类器的权重分类模型(WeightNet)部分，即，包含有WeightNet的部分。

步骤S506，依据第三预设数据集中的目标关键点标签信息对待训练的单人姿态估计模型的网络参数进行训练,得到训练后的单人姿态估计模型；

具体的，在本申请实施例中，第三预设数据集可以为包含有目标关键点标签信息的数据集，其中，第三预设数据集可以为COCO和Kinetics-14数据集中的目标关键点标签信息组成的数据集，这里通过使用COCO和Kinetics-14数据集中的目标关键点标签信息组成的数据集训练单人姿态估计模型以提高最终整体架构对类似场景中人物骨骼关键点的识别效果。

其中，在本申请实施例中单人姿态估计模型可以以HRNet模型为例，图7是根据本发明实施例的数据训练方法中单人姿态估计模型的示意图，如图7所示，基于HRNet算法及上述构建的数据集，重新训练一个符合此场景的单人姿态模型；HRNet模型并行连接高分辨率到低分辨率的子网，区别于相关技术中的串行连接，HRNet模型保持高分辨率，而不是通过一个低到高的过程恢复分辨率；以及区别于相关技术中的融合方案都将低层和高层的表示集合起来，而本申请实施例中HRNet模型使用重复的多尺度融合，利用相同深度和相似级别的低分辨率表示来提高高分辨率表示。

步骤S508，依据训练后的目标检测模型和训练后的单人姿态估计模型，得到权重注意力神经网络模型。

具体的，结合步骤S504得到的训练后的目标检测模型和步骤S506得到的训练后的单人姿态估计模型，得到权重注意力神经网络模型，即，Faster-RCNN模型与HRNet模型的结合构成权重注意力神经网络模型。

综上，本申请实施例提供的数据训练方法中第一预设数据集，用于训练权重分类模型，然后利用收敛的权重分类模型初始化目标检测模型中的特征提取模块；第二预设数据集用于训练目标检测模型；第三预设数据集用于训练单人姿态估计模型。

可选的，步骤S504中通过第二预设数据集中的目标位置框标签信息对待训练的目标检测模型进行训练，得到训练后的目标检测模型包括：

步骤S5041，在目标检测模型包括特征提取模块、建议框生成模块和目标分类器与位置框回归预测模块的情况下，分别对特征提取模块和建议框生成模块进行训练，得到特征提取模块第一参数值和建议框生成模块第一参数值；

具体的，基于步骤S502中对Faster-RCNN包括：特征提取模块(WeightNet)、建议框生成模块(RPN)和目标分类器与位置框回归预测模块(Fast-RCNN)，在对WeightNet和RPN模块参数进行训练时具体如下：单独训练WeightNet和RPN模块参数，得到rpn1(即，本申请实施例中的建议框生成模块第一参数值)和weightnet1(即，本申请实施例中的特征提取模块第一参数值)。

其中，目标检测模型中的建议框生成模块，和目标分类器与位置框回归预测模块分别可采用不同的数据分布方法进行初始化(常用的初始化方式有：1.初始化为0，2.随机初始化，3.Xavier initialization，4.He initialization；在本申请实施例中优选3或4)。

步骤S5042，依据特征提取模块第一参数值和建议框生成模块第一参数值训练目标分类器与位置框回归预测模块，得到目标分类器与位置框回归预测模块第一参数值和特征提取模块第二参数值；

具体的，依据特征提取模块第一参数值和建议框生成模块第一参数值训练Fast-RCNN(即，本申请实施例中的目标分类器与位置框回归预测模块),得到fast-rcnn1(即，本申请实施例中的目标分类器与位置框回归预测模块第一参数值),WeightNet2(即，本申请实施例中的特征提取模块第二参数值)。

步骤S5043，依据目标分类器与位置框回归预测模块第一参数值和特征提取模块第二参数值训练建议框生成模块，得到建议框生成模块第二参数值；

具体的，结合fast-rpn1和WeightNet2训练RPN(即，本申请实施例中的建议框生成模块)，得到rpn2(即，本申请实施例中的建议框生成模块第二参数值)。

步骤S5044，依据建议框生成模块第二参数值和特征提取模块第二参数值训练目标分类器与位置框回归预测模块，得到目标分类器与位置框回归预测模块第二参数值。

具体的，依据特征提取模块第二参数值和建议框生成模块第二参数值训练Fast-RCNN模块,得到fast-rcnn2(即，本申请实施例中的目标分类器与位置框回归预测模块第二参数值)。

其中，在训练目标检测模型的过程中，输入图像预处理操作可以采用mix-up以及随机水平翻转(50％),并且训练目标检测模型的过程中可以以用Adam作为优化器为例，其中的参数可以设置为：基础学习率为0.001，权重衰减值为0.0001，批尺寸设置为32，4个训练阶段的每个迭代步数分别为80000,40000,80000,40000。

具体的，基于上述，如图6所示，本申请实施例提供的目标检测模型中特征提取模块用于提取输入图像的特征图(feature map)；

建议框生成模块(RPN)输入的是特征提取模块提取的特征图(feature map)，输出为一系列候选人体目标矩形框坐标，用于对输入图像的侯选目标框的生成。

目标分类器与位置框回归预测模块(Fast-RCNN)主要输入为特征提取模块提取的特征图和建议框生成模块生成的侯选框，用于精确的位置的回归及类别预测结果。

其中，RPN网络结构包括：一个使用3×3滑窗的卷积层，其后连接两个并行的1×1的卷积层，分别为回归层(reg_layer)和分类层(cls-layer)。其中，回归层(reg_layer)用于预测窗口的中心锚点对应在原图上侯选框的坐标x，y和宽高w，h；cls-layer(分类层)：用于判定该侯选是前景还是背景。

进一步地，可选的，在目标分类器与位置框回归预测模块的结构为顺次连接的一个池化层、三个全连接层和并行的两个全连接层的情况下，目标分类器与位置框回归预测模块用于依据第二预设数据集中的各个数据的特征和各个数据的候选目标框获取第二预设数据集中各个数据的各个目标的检测框和相应的检测框的类别包括：通过池化层将特征提取模块输出的不同长度的各个数据的特征转换为固定长度的各个数据的特征；依据固定长度的各个数据的特征，分别通过三个全连接层后再通过并行的两个全连接层，输出第二预设数据集中各个数据的各个目标的检测框及相应检测框的类别。

具体的，以对人物检测为例，目标分类器与位置框回归预测模块包括一个ROI池化层，三个全连接层和分别并行两个全连接层，ROI池化层的主要作用为将不同大小的输入转换为固定长度的输出，两个并行的全连接层主要用于预测类别和回归人物检测框。

可选的，步骤S506中依据第三预设数据集中的目标关键点标签信息对待训练的单人姿态估计模型的网络参数进行训练,得到训练后的单人姿态估计模型包括：依据第三预设数据集中的目标关键点标签信息对待训练的单人姿态估计模型的网络参数进行训练,通过前向传播和后向传播算法迭代的更新待训练的单人姿态估计模型的网络参数；其中，依据第三预设数据集中的目标关键点标签信息对待训练的单人姿态估计模型的网络参数进行训练,通过前向传播和后向传播算法迭代的更新待训练的单人姿态估计模型的网络参数包括：依据预设宽高比对输入的单人图像的高度或宽度进行扩展，并将单人图像裁剪为预设尺寸。

具体的，仍以HRNet模型为例，HRNet单人姿态估计网络输入为单人图像，输出为该单人图像中人体骨骼关键点的二维坐标；HRNet单人姿态估计网络的结构图如图7所示，分四个阶段，从第二阶段开始，每个阶段向下并行分出一条子网络，其分辨率相比上一级网络减小一半，宽度(通道数C)增加到两倍，因此，到最后第四阶段时具有四个并行的子网络；同时，在每个阶段中又包含了若干个交换块(第一阶段没有)，每一个交换块在一个分支上包含一个基本单元(由4个WeightNet残差单元组成，每个WeightNet残差单元如图2所示)以及跨越分辨率的交换单元；其中，交换单元的作用为将当前每个平行子网络的输出通过上采样、下采样或恒等映射操作，将不同分支的分辨率进行融合作为该分支的下一步输入，以达到模型多尺度融合的效果；具体的，第一个阶段包含一个基本单元和一个3×3的卷积层，3×3卷积层的主要作用是将基本单元输出的特征图通道降低为32，作为接下来的高分辨率分支；第2，第3，第4阶段分别包含1,4,3个交换块；由此可知，HRNet总共有8个交换块，进行了8次多尺度融合，在最后的阶段中，每个分支通道数分别为32，64，128，256。

利用COCO和Kinetics-14数据集中的目标关键点标签信息对HRNet网络参数进行训练,通过前向传播和后向传播算法迭代的更新网络参数；其中，HRNet网络将输入的单人图像的高度或宽度扩展为固定的宽高比(高度比宽度等于4:3)，然后将图像裁剪为固定大小384×288；数据增强(预处理)包括随机旋转(±45度)，随机缩放(0.65～1.35)和/或随机水平翻转；训练时使用Adam优化器，基础学习率设定为0.001，批尺寸设置为16，并分别在第170和第200个epoch时下降到0.0001和0.00001。总的训练epoch设置为210。

综上，本申请实施例提供的目标检测模型和单人姿态估计模型均采用前向传播算法获取模型预测输出和真实标签的均方误差(如公式(1)，

其中，y_i为模型对第i个数据的预测，y′_i为第i个数据的真实标签，n为批尺寸值；)

并通过反向传播算法更新模型参数，通过有限次的迭代，使训练模型在训练数据集上的均方误差最小/收敛(训练模型时，当训练准确率及误差不随训练迭代步骤改变，趋于稳定时，称模型已经收敛，并达到误差最小化)；并通过验证集筛选出最优的模型作为测试阶段的检测模型(在训练时，每隔一定训练间隔就使用验证集测试一次模型，最终选取在验证集上准确率最高或误差最小的模型)。

可选的，对待训练的单人姿态估计模型的网络参数进行训练中使用的方法包括实施例1中的数据处理方法。

可选的，本申请实施例提供的数据训练方法还包括：收集训练待训练的目标检测模型和待训练的单人姿态估计模型所需的样本；对样本进行预处理，其中，预处理包括：数据集的划分和预处理操作。

具体的，本申请实施例中的样本可以源于开源数据集，例如：Microsoft COCO2017Keypoint Detection Dataset(微软COCO 2017关键点检测数据集)、Kinetics-600和ImageNet(Large Scale Visual Recognition Challenge)；

其中，本申请实施例中的预处理包括的数据集的划分和预处理操作，其中，数据集的划分是数据输入到模型前，对数据进行处理的步骤，其中，对上述三个数据集依据预设方式进行数据划分，以便筛选得到最优的数据模型。

预处理操作包括混合操作和随机几何变换，在输入为图片的情况下，通过对不同图片的合成获得新的训练数据，依据该训练数据对图片作几何变换，以使得由于在多人运动的场景中，出现人物遮挡是常见的，通过预处理操作丰富了训练数据的多样性，使模型更加鲁棒，能够有效降低对抗图像的影响。

具体的，第一预设数据集包括第一类图像数据集，其中，在本申请实施例中第一类图像数据集可以以ImageNet数据集为例进行说明；本申请实施例中的第二预设数据集包括的第二类图像数据集可以以Microsoft COCO 2017Keypoint Detection Dataset(微软COCO 2017关键点检测数据集)(后续简称COCO数据集)中的位置框信息标注的数据集合为例进行说明，第二预设数据集包括的第三类图像数据集可以以Kinetics-14中的位置框信息标注的数据集合为例进行说明；第三预设数据集包括的第二类图像数据集和第三类图像数据集中有关键点信息标注的数据集合可以以COCO数据集中有关键点信息标注的数据集合和Kinetics-14中有关键点信息标注的数据集合为例进行说明。

其中，COCO数据集包含超过200,000张图像和总共250,000个已标注二维关键点信息的数据(此数据集中，人物在图片中的尺度多数为中等尺度和大尺度)，可公开下载的训练集和验证集的标注总共超过150,000人和170万个标注关键点。标注信息主要记录在相应的.json格式文件中，其中记录了每张图片的详细信息，包括：图片下载的URL、图片名、图片分辨率、图片采集的时间、图片的索引(ID)、图片中每个人物的可见骨骼关键点的数目(COCO数据集完整的标注个数为17个骨骼关键点，即，图8是根据本发明实施例的数据训练方法中关键点位置和骨架连线的示意图，如图8所示，下标从0开始算起，分别为：0：鼻子：1左眼，2：右眼，3：左耳，4：右耳，5：左肩，6：右肩，7：左肘，8：右肘，9：左手腕，10：右手腕，11：左髋关节，12：右髋关节，13：左膝盖，14：右膝盖，15：左脚踝，16：右脚踝，17:左肩和右肩连线的中点，因为在图片中，有的人物为侧身站立或身体部位被遮挡，所以此信息只记录可见的骨骼关键点数目)、骨骼关键点的坐标(分别按顺序排列，如果某个骨骼位置没有可见的关键点，则相应位置(x,y)设为(0,0))、每个人物的矩形位置框坐标(左上角坐标和右下角坐标)、类别名(COCO数据集大概有80类，但是只有人物才有骨骼关键点的标注信息)、图像分割信息等等。

需要说明的是图8中的左图为COCO数据集的关键点位置和骨架连线示意图；图8中的右图为本申请实施例提供的数据训练方法中基于COCO数据集二获得的关键点位置和骨架连线示意图

其中，图9a和图9b是根据本发明实施例的数据训练方法中关键点位置和骨架连线的标注前和标注后的效果示意图，如图9a和图9b所示，标注流程为：通过标注工具，手动的在每张图片上对特定可见的17个点进行标注，左边为原始图片，右边为标注后可视化的效果图。

由于现有的人体检测模型和姿态估计模型主要由自然场景下的图像训练所得，对于运动场景下的目标检测和姿态估计效果差；这是因为运动场景中人物的身体姿势和自然场景中区别较大，而在大部分开源的数据集中，各种运动场景下的人物位置标注和姿态估计标注数据又相对较少，导致现有的目标检测模型和姿态估计模型对运动场景下的人物检测和姿态估计效果差；

针对此问题，本申请实施例额外从Kinetics-600开源数据集中收集了14类运动类别，包括：卧推、挺举、爬绳、硬拉、弓步、拳击、跑步、仰卧起坐、跳绳、深蹲和伸展腿，总数超过10000张运动场景下的图片，并使用开源软件Visipedia Annotation Toolkit(一种图像关键点标注工具)对其进行标注，标注格式和COCO数据集一致，在本申请实施例中称其为Kinetics-14；基于Kinetics-14(即，本申请实施例中的第三类图像数据集)及COCO数据集(即，本申请实施例中的第二类图像数据集)中的目标位置框标签信息和目标关键点标签信息，分别训练目标检测模型及单人姿态估计模型，以提高最终整体架构对类似场景中人物位置的定位和骨骼关键点的识别效果。其中，Kinetics-14及COCO数据集中的目标位置框标签信息组成的数据集为本申请实施例中的第二预设数据集，Kinetics-14及COCO数据集中的目标关键点标签信息组成的数据集为本申请实施例中的第三预设数据集。

使用百万级ImageNet分类数据预训练WeightNet,并将最终收敛的权重作为人物检测模型中特征提取模块的初始化权重，以此提高最终人物检测模型的准确率及加快模型训练的收敛速度。

这里第一预设数据集在输入上述数据模型进行数据训练的过程中，需要进行数据的随机几何变换；第二预设数据集在输入上述数据模型进行数据训练的过程中，需要进行数据混合操作和随机几何变换；第三预设数据集在输入上述数据模型进行数据训练的过程中，需要进行数据的随机几何变换。

具体的，本申请实施例中随机混合操作表示为：mix-up操作，其中，图10是根据本发明实施例的数据识别方法中mix-up的效果示意图，如图10所示，mix-up的操作流程具体如下：

将两张输入图像按照一定权重合并成一张新图像，合并之后的图像作为新的输入训练数据；由于目标检测模型对图像几何变换有很强的敏感性，所以当进行mix-up操作时的两张图像分辨率不一致时，将采取几何保持对齐，以避免出现图像失真，也就是不对图像进行修剪和缩放，直接采用相应位置像素值乘于一定权重再相加，具体表达式为公式(2)。通过mix-up操作，由于在多人运动的场景中，出现人物遮挡是常见的，此操作作为一种数据扩展方式，丰富了训练数据的多样性，使模型更加鲁棒，能够有效降低对抗图像的影响。

其中，x_i和x_j表示两张不同的图像，表示通过mix-up操作合成的图像，α和β表示mix-up的权重，本申请实施例中α和β的取值范围没有限制(在分类任务中，0<α+β<1，在目标检测任务中，α和β>1)，优选的，本申请实施例中设置α＝β＝1.5。

此外，在本申请实施例中随机几何变换包括随机裁剪(256x256，其中：可以有多种裁剪大小，考虑到训练硬件条件，一般设置为2的N次方，且最短边不小于128，最大边不大于512)，随机在(-45°,45°)范围内旋转(即，本申请实施例中的预设旋转角度)，50％的概率随机水平翻转和随机在(0.65，1.35)范围内缩放。其中，随机裁剪表示将原始图片的大小随机裁剪为256x 256(本申请实施例采用的剪裁尺寸)，而通道大小不变；随机旋转操作表示在正负45度内随机旋转图像角度，改变图像内容的朝向；随机翻转操作表示以50％的概率随机水平的翻转图像；随机缩放操作表示在0.65～1.35的比例内放大或者缩小图像；通过随机几何变换，在训练分类网络和姿态估计网络时，随机几何变换不仅仅只是增加数据，也是一个弱化数据噪声与增加模型稳定性的方法。

需要说明的是，在本申请实施例中随机几何变换中可以包括随机裁剪、按预设角度进行随机旋转和/或按照预设缩放比例进行随机缩放中的一种或至少两种的组合，且执行顺序上根据图片实际需要进行调整，例如，有的图片的尺寸刚好符合数据训练，则不需要进行随机剪裁或缩放；或，图片的展示角度刚好符合数据训练，则不需要进行随机旋转。同理，根据实际对图片的需求对图片进行随机几何变换。

其中，本申请实施例中的预处理操作是在模型训练时(每一轮)，将原来用于训练的数据中的部分按照上述方式进行预处理，然后这些预处理后的数据一并用于训练；不同轮之间选择的数据，和预处理后实际进行训练的数据都是不一样的，以达到逐步收敛的效果。

实施例四

根据本发明实施例的一个方面，提供了一种数据识别方法，基于上述实施例三中的方法，图11是根据本发明实施例的数据识别方法的流程示意图，如图11所示，包括：

步骤S1102，将待识别的特征数据输入权重注意力神经网络模型，识别得到待识别的特征数据中至少一个目标的关键点二维坐标，其中，权重注意力神经网络模型用于通过自顶向下的方式进行至少一人的姿态估计，检测待识别的特征数据中至少一个目标的位置矩形框，并检测位置矩形框内目标的关键点二维坐标；

步骤S1104，通过目标的关键点二维坐标进行计算，得到第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角；

其中，第一预设线可为水平线或竖直线等；第一预设关键点组合中有两个关键点；第二预设关键点组合中有两个关键点。

具体的，在本申请实施例中第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角具体如下：

情形1：特定3个关键点中的特定两条线之间的夹角；

其中，假设在平面内有3个不在同一直线上的关键点，根据两两组合，即，关键点1与关键点2连线的线段，关键点1与关键点3连线的线段，通过关键点1相连形成的夹角。

情形2：特定2个关键点的连线与环境线(例如水平线或竖直线，即本申请实施例中的第一预设线)之间的夹角；

其中，假定得到的2个关键点，是位于人体目标的肩部的两个关键点，为了与人体其他关键点构成骨架连线，需要进行线段连线，因此在保障没有冗余连接的情况下，通过与水平线或垂线的连接，构成夹角。

情形3：特定2个关键点连线与另2个关键点连线之间的夹角；

其中，与情形1相似，基于通过得到的关键点二维坐标，分别获取两组由两个关键点的连线，获取两条连线的夹角。

步骤S1106，将第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角在第一预设数据库中进行匹配，得出目标的识别结果。

具体的，结合步骤S1102至步骤S1106，图12是根据本发明实施例的数据识别方法中基于深度学习得到的体态风险的评估的流程示意图，如图12所示，在本申请实施例中特征数据可以包括：图片和/或视频，即，在本申请实施例中，特征数据的输入形式可以包括：形式一：图片；形式二：视频；形式三：图片和视频。

其中，本申请实施例提供的数据识别方法在将特征数据输入到端到端的模型之前还包括数据样本的采集、神经网络的学习，如图12所示，本申请实施例提供的体态风险的评估方法具体如下：

Step1:数据采集，根据获取的数据集，进行样本采集；

Step2:基于Step1的样本采集，对数据集中的数据进行预处理，分别得到训练集和测试集；

Step3:输入特征数据至端到端的模型，得到目标的关键点二维坐标；

Step4:根据特征数据的数据类型，依据目标的关键点二维坐标进行角度计算，生成体态风险的评估结果。

这里本申请实施例提供的数据识别方法中将待评估的图像输入到端到端的模型，输出为模型识别到的人体骨骼关键点二维坐标(即，本申请实施例中的目标的关键点二维坐标)，通过该骨骼关键点二维坐标进而计算出特定个数关节的角度值，并且通过该角度值将该夹角的与第一预设数据库中的夹角进行匹配，得到各个夹角的对应的位置，从而生成如图8右侧图中的关键点组合连线，达到识别图像中目标的目的；进而通过将识别结果在第二预设数据库中进行匹配，将得到体态评估结果；另外，该输入也可是运动视频，通过上述获取频流(帧)中各个运动者的每个关节角度的连续变化曲线信息，并与标准运动库进行比较，进而给出有针对性的运动改进指导。

此外，当输入为图片和视频的情况下，如图12所示，在多人姿态估计模块中会对图片和视频分别作处理，针对图片为输入的情况下，得到图片中的人体骨骼关键点二维坐标；针对视频为输入的情况下，得到视频中每帧中各个运动者的每个关节角度的连续变化曲线信息，或，从视频中按照预设时间间隔抽取帧图像，并依据抽取的帧图像获取各个运动者的每个关节角度的连续变化曲线信息，通过按照预设时间间隔抽取帧图像，以此降低计算机对图像的识别压力，降低运算律，提升识别效率；分别依据人体骨骼关键点二维坐标和连续变化曲线信息，得到对图片中每个人和视频中每个人的体态风险的评估结果。

在本发明实施例中，采用自顶向下的多人姿态估计的方式，通过将待识别的特征数据输入权重注意力神经网络模型，识别得到待识别的特征数据中至少一个目标的关键点二维坐标，其中，权重注意力神经网络模型用于通过自顶向下的方式进行至少一人的姿态估计，检测待识别的特征数据中至少一个目标的位置矩形框，并检测位置矩形框内目标的关键点二维坐标；通过目标的关键点二维坐标进行计算，得到第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角；将第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角在第一预设数据库中进行匹配，得出目标的识别结果，达到了提升对人体姿态的识别精度和效率的目的，从而实现了根据提升精度和效率后的人体姿态提供评估结果的技术效果，进而解决了由于相关技术在对人体姿态的识别过程中，数据处理效率低的技术问题。

可选的，步骤S1106中将第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角在第一预设数据库中进行匹配，得出目标的识别结果包括：

在待识别的特征数据包括图片数据的情况下，将得到的至少一个夹角的角度值与第一预设数据库中的相应的夹角类型的角度值进行匹配，得出图片数据的识别结果。

可选的，该夹角包括：两眼连线与水平直线的夹角、肩膀连线与水平直线的夹角、胯部连线和水平直线的夹角、头部中线与垂直直线的夹角，躯干中线与垂直直线的夹角、上手臂与下手臂的关节夹角、大腿与小腿的关节夹角、耳朵与肩膀的连线与垂直直线的夹角、躯干中线与大腿中线的关节夹角、上手臂与下手臂的关节夹角和大腿与小腿的关节夹角。

具体的，图13a和图13b是根据本发明实施例的数据识别方法中正面照和侧面照的示意图，如图13a和图13b所示，展示了角度计算模块所计算的特定13个关节夹角；其中包括两眼连线与水平直线的夹角(正面照/1)、肩膀连线与水平直线的夹角(正面照/2)、胯部连线和水平直线的夹角(正面照/3)、头部中线与垂直直线的夹角(正面照/1)，躯干中线与垂直直线的夹角(正面照/5)、上手臂与下手臂的关节夹角(正面照/左6右7)、大腿与小腿的关节夹角(正面照/左8右9)、耳朵与肩膀的连线与垂直直线的夹角(侧面照/10)、躯干中线与大腿中线的关节夹角(侧面照/11)、上手臂与下手臂的关节夹角(侧面照/12)和大腿与小腿的关节夹角(侧面照/13)。具体的计算流程为：设A、B和C分别为二维平面上的三个点(即，本申请实施例中的特征数据所在的二维平面上获取任意三个点)，要求出直线AB与直线AC之间的夹角，可以先求出直线AB，AC的斜率，再转换成对应的角度，两线角度之差即为所求夹角，考虑到夹角的方向，顺时钟夹角定为正。

步骤S11061，在待识别的特征数据包括视频数据的情况下，获取视频数据中至少一个目标的关键点二维坐标信息；

步骤S11062，依据视频数据中至少一个目标的关键点二维坐标信息得到至少一个目标的至少一个特定夹角的角度时间变化曲线，并通过与至少一种标准运动的至少一个夹角的角度时间变化曲线做比较分析，得到识别结果。

具体的，例如获取视频图像中正在健身的人的手臂变化曲线，由于人在托举、提举杠铃时，手臂各关键点在图像中的坐标会发生改变，因此，根据每个角度值随着时间的变化得到的连线，进而得到角度时间变化曲线，并依据该角度时间变化曲线与相应的标准运动类型的至少一种标准运动的至少一个夹角的角度时间变化曲线做比较分析，得到识别结果。

其中，以获取正在健身的人的视频为例进行说明，假设视频中的人在托举杠铃，获取该人的各关节的关键点和相关连线组成的夹角随着时间推移的角度时间变化曲线，该角度时间变化曲线可以为视频中每帧图像中各夹角变换得到的角度时间变化曲线；还可以为在预设时间间隔内抽取的帧画面中各夹角变换得到的角度时间变化曲线；

获取数据库中各类标准运动的至少一个夹角的角度时间变化曲线；

通过将角度时间变化曲线之间的相似度比较，所得到的相似度若落入第一预设阈值区间，则判定视频数据中的人所做的运动为托举杠铃；

进一步地，通过将该人的角度时间变化曲线与托举杠铃标准的角度时间变化曲线进行比较，通过在两条角度时间曲线分别求相邻最值的差，通过做差的形式判断该人的各特定角度所对应的关节动作是否规范；并进一步的，通过在两条角度时间曲线分别求相邻峰值的差，并判断是否属于第三预设阈值区间、第四预设阈值区间或第五预设阈值区间，进而判断该人的运动强度是否过低、适当或过高。

其中，本申请实施例中第一预设阈值区间用于判断视频中目标的运动类型；第二预设阈值区间用于判断视频中的目标的运动姿势是否规范；第三预设阈值区间、第四预设阈值区间或第五预设阈值区间用于判断视频中目标的运动强度；

需要说的是第三预设阈值区间、第四预设阈值区间或第五预设阈值区间的设置还可以通过设置一个阈值区间实现，通过每个阈值区间中的子区间设置对应的运动强度。

需要补充说明的是，在本实施例的替代方案中，本实施例也可不做动作类型识别，直接获取待识别特征(例如录入视频或图像)的运动类型(例如录入视频或图像时同时说明对应的运动类型)，然后直接将待识别特征识别获得的至少一个角度时间变化曲线与该录入的运动类型对应的标准动作的相应角度时间变化曲线进行比较；比较方法可如前所述。

在图10中，运动指导模块(动态评估)主要输入为单人或多人的运动视频，经多人姿态估计模型获取运动视频流(帧)中各个人体的关键点二维坐标信息，视频流(帧)的二维坐标经过角度计算模块获取视频流(帧)中每个人的每个特定关节角度的连续变化曲线值(视频(流)的每一帧可以当做一个时间点，每个时间点的每个角度值的连线即为(角度值y/帧x)的角度变化曲线)，并通过与相应的标准运动曲线做比较分析，其中，标准运动曲线通过本申请的模型识别出关键点及各关节角度变化值，进而获得标准运动曲线，给出运动矫正指导。

具体的实现如下：其中，每个人的每个特定角度随着视频流(帧)的输入，会记录一段连续的角度变化曲线；在第一预设数据库中，已经计算好并存储每类标准动作(包括同一个动作的不同站姿和方位)的每个特定关节角度的角度时间变化曲线，当经过上述获取视频流(帧)中每个人的每个特定关节角度的角度时间变化曲线时，将其与相应的标准动作的角度时间变化曲线进行匹配比较；其中，角度时间变化曲线的相邻最值的差(最低值和最高值)可以用来判断待测试特定关节的动作幅度是否规范，如果待测试者的关节的角度时间变化曲线的相邻最大值与最小值的距离，和标准运动视频中相对位置的距离值的差值大于指定的阈值(即，本申请实施例中的第二预设阈值区间)，则可断定为此部位运动不规范；另一方面，角度变化曲线的每两个峰值之间的距离(相邻两个最大值或最小值之间的距离)可以用来衡量特定角度运动的强度，如果待测试者指定的关节的角度时间变化曲线相邻最大值之间距离，和标准运动视频中相对位置的距离值的差值大于一指定的阈值，且该差值位于该阈值所在的区间(即，本申请实施例中的第三预设阈值区间)，则可断定为此关节运动强度过高；如果位于一指定的阈值所在的区间则可断定运动强度适中(即，本申请实施例中的第四预设阈值区间)；如果小于一指定的阈值，且该差值位于该阈值所在的区间则可断定运动强度过低(即，本申请实施例中的第五预设阈值区间)。综合全部关节的规范值和强度值，得出一个最终评估。

可选的，本申请实施例提供的数据识别方法还包括：

步骤S1109，依据识别结果在第二预设数据库中进行匹配，得到识别结果对应的体态评估结果。

具体的，角度值-体态知识库为本申请实施例中的第二预设数据库，在一具体实施例中，每个部位的体态评估风险分为低风险、潜在风险和高风险三个等级。具体的匹配流程为：

(1)头侧倾风险评估(0-4度：低风险、4-9度：潜在风险、9度：以上高风险)主要匹配的角度为1；

(2)高低肩风险评估(0-2度：低风险、2-4度：潜在风险、4度：以上高风险)主要匹配的角度为2；

(3)脊柱异位风险评估(0-2度：低风险、2-4度：潜在风险、4度：以上高风险)主要匹配的角度为5；

(4)骨盆侧倾风险评估(0-2度：低风险、2-4度：潜在风险、4度：以上高风险)主要匹配的角度为6；

(5)异常腿型风险评估(176-180度：低风险、173-176度：潜在风险、173度：以下高风险)主要匹配的角度为8和9；

(6)头部前倾与圆肩风险评估(0-9度：低风险、9-14度：潜在风险、14度：以上高风险)主要匹配的角度为10；

(7)膝过伸风险评估(179-180度：低风险、177-179度：潜在风险、177度：以下高风险)主要匹配的角度为13。

基于上述匹配流程，图14是根据本发明实施例的数据识别方法中体态风险的评估结果的示意图，如图14所示，本申请实施例归结了7种常见的不健康体态，分别为头侧倾、高低肩、脊柱异位、骨盆侧倾、异常腿型、头部前倾与圆肩和膝过伸。

进一步地，可选的，在得到识别结果对应的体态评估结果之后，本申请实施例提供的数据识别方法还包括：

步骤S1110，依据体态评估结果在第三预设数据库中进行匹配，得到体态评估结果对应的建议信息。

具体的，在本申请实施例中第一预设数据库、第二预设数据库和第三预设数据库可以为三个独立的数据库，或位于不同服务器上的数据库，或一台服务器上三个存储空间上的数据库，或，一个数据库中用于存储不同类型映射关系的数据模块，基于步骤S1109得到的评估结果，根据各个评估结果提供对应的建议信息，该建议信息包括但不限于相应体态提示的可能的疾病隐患、改善建议等，例如:在评估结果包括目标存在头部前倾与圆肩风险的情况下，对应该评估结果的建议信息可以包括：体态上将会造成颈椎移位，突出；如体态发生上述变化将导致眩晕和神经性头疼，头部胀痛；建议避免低头长时间玩手机，长时间对着电脑，电视，看书等，建议多参加体育锻炼，特别是球类运动；

或，在评估结果包括骨盆侧倾的情况下，对应该评估结果的建议信息可以包括：体态上将会造成长短腿，腰间盘突出；如体态发生上述变化将导致双腿长度不一，站立受体重影响两腿承重不一；如产生腰间盘突出，将会导致腰椎受力不均，有瘫痪在床的风险；长短腿建议：避免跷二郎腿，单腿支撑坐姿，站立时单腿承重等；腰间盘突出建议：避免久坐，建议多参加体育锻炼，适量活动腰椎，并配合定期按摩推拿正骨。

此外，本申请实施例提供的数据识别方法还可以适用于在线购物，以在线买衣服为例，用户通过上传自拍照片或自拍视频，通过步骤S1102至步骤S1106进行识别，得到识别结果，依据该识别结果，与服务器中存储的使用商品A的模特进行对比，依据对比结果提供购物建议，例如，商品A的尺寸有：S码，M码，L码，XL码，XXL码；若通过步骤S1102至步骤S1106进行识别得到该用户的提醒与模特的体型相同，且模特穿戴商品A的尺寸为M码，则建议用户购买M码的商品A；若相比模特体型瘦小，则建议用户购买S码的商品A；反之，相比模特体型的胖的程度建议用户购买L码，XL码或XXL码的商品A。

实施例五

根据本发明实施例的一个方面，提供了一种数据识别装置，图15是根据本发明实施例的数据识别装置的示意图，如图15所示，包括：坐标识别模块1502，用于将待识别的特征数据输入权重注意力神经网络模型，识别得到待识别的特征数据中至少一个目标的关键点二维坐标，其中，权重注意力神经网络模型用于通过自顶向下的方式进行至少一人的姿态估计，检测待识别的特征数据中至少一个目标的位置矩形框，并检测位置矩形框内目标的关键点二维坐标；计算模块1504，用于通过目标的关键点二维坐标进行计算，得到第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角；匹配模块1506，用于将第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角在第一预设数据库中进行匹配，得出目标的识别结果。

可选的，匹配模块1506包括：第一匹配单元，用于在待识别的特征数据包括图片数据的情况下，将得到的至少一个夹角的角度值与第一预设数据库中的相应的夹角类型的角度值进行匹配，得出图片数据的识别结果。

可选的，匹配模块1506包括：获取单元，用于在待识别的特征数据包括视频数据的情况下，获取视频数据中至少一个目标的关键点二维坐标信息；第二匹配单元，用于依据视频数据中至少一个目标的关键点二维坐标信息得到至少一个目标的至少一个特定夹角的角度时间变化曲线，并通过与至少一种标准运动的至少一个夹角的角度时间变化曲线做比较分析，得到识别结果。

进一步地，可选的，第二匹配单元包括：第一判断子单元，用于将至少一个目标的至少一个特定夹角的角度时间变化曲线，与预先获得的至少一种标准运动的至少一个夹角的角度时间变化曲线进行相似度比较，若相似度落入第一预设阈值区间，则判定视频数据中的相应目标正在进行所对应的标准运动类型；比较子单元，用于在判定视频数据中的相应目标正在进行所对应的标准运动类型的情况下，进一步比较该目标的至少一个特定夹角的角度时间变化曲线与标准运动的相应特定夹角的角度时间变化曲线；第二判断子单元，用于若目标的至少一个特定夹角的角度时间变化曲线上相邻最值的差，和标准运动的相应特定夹角的角度时间变化曲线上相邻最值的差落入第二预设阈值区间，则判断视频数据中目标的特定夹角所对应的关节动作规范，否则视频数据中该目标的特定夹角所对应的关节动作不规范；第三判断子单元，用于判断目标的至少一个特定夹角的角度时间变化曲线上相邻峰值之间的距离，和标准运动的相应特定夹角的角度时间变化曲线上相邻峰值的差是否落入第三预设阈值区间、第四预设阈值区间或第五预设阈值区间，进而确认视频数据中目标的特定夹角所对应的关节动作运动强度过低、适当或过高。

可选的，本申请实施例提供的数据识别装置还包括：评估模块，用于依据识别结果在第二预设数据库中进行匹配，得到识别结果对应的体态评估结果。

进一步地，可选的，本申请实施例提供的数据识别装置还包括：建议模块，用于在得到识别结果对应的体态评估结果之后，依据体态评估结果在第三预设数据库中进行匹配，得到体态评估结果对应的建议信息。

实施例六

实施例七

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据训练方法，其特征在于，包括：

获取数据处理方法，其中，所述数据处理方法包括：将具备第一数量通道的第一特征数据输入至具备第二数量滤波器的第一类卷积层进行计算，输出具备第二数量通道的第二特征数据，其中，所述第一数量大于所述第二数量；将所述具备第二数量通道的第二特征数据输入至具备所述第二数量滤波器的第二类卷积层，并根据所述第二类卷积层中的全连接层生成的所述第二类卷积层中各个滤波器的权重的掩码；依据所述掩码确定所述第二类卷积层中的各个滤波器与所述第二特征数据中的各通道的连接方式；依据所述连接方式得到的映射关系对所述第二特征数据进行卷积计算，得到第三特征数据；将所述具备第二数量通道的第三特征数据输入至具备第一数量滤波器的第三类卷积层进行计算，输出具备所述第一数量通道的第四特征数据；

获取待训练的权重分类模型，通过所述数据处理方法对所述待训练的权重分类模型进行训练，得到收敛的权重分类模型，其中，所述权重分类模型为获取图像数据的图像特征的神经网络模型；

通过所述收敛的权重分类模型初始化目标检测模型中的特征提取模块，获得待训练的目标检测模型；

通过第二预设数据集中的目标位置框标签信息对待训练的目标检测模型进行训练，得到训练后的目标检测模型；

依据第三预设数据集中的目标关键点标签信息对待训练的单人姿态估计模型的网络参数进行训练,得到训练后的单人姿态估计模型，其中，所述对待训练的单人姿态估计模型的网络参数进行训练中使用的方法中包括所述数据处理方法；

依据所述训练后的目标检测模型和所述训练后的单人姿态估计模型，得到权重注意力神经网络模型，其中，所述权重注意力神经网络模型包含目标检测模型，该目标检测模型用于提取输入图像中各个人物的位置框信息给单人姿态估计模型进行姿态估计。

2.根据权利要求1所述的方法，其特征在于，所述数据处理方法应用于人工智能中的深度学习。

3.根据权利要求1所述的方法，其特征在于，所述数据处理方法应用于识别图片/视频中的目标的姿态或动作。

4.根据权利要求1所述的方法，其特征在于，所述对所述待训练的权重分类模型进行训练，得到收敛的权重分类模型包括：

将第一预设数据集中的数据输入所述待训练的权重分类模型，得到类别预测结果；

依据所述类别预测结果与所述第一预设数据集中的数据的标签类别，得到所述类别预测结果与所述第一预设数据集中的数据的标签类别的误差；

依据所述误差进行反向传播算法训练所述待训练的权重分类模型，直至所述待训练的权重分类模型收敛，得到所述收敛的权重分类模型。

5.根据权利要求4所述的方法，其特征在于，所述依据所述误差进行反向传播算法训练所述待训练的权重分类模型，直至所述待训练的权重分类模型收敛包括：

通过激励传播和权重更新的反复迭代，直至所述待训练的权重分类模型收敛；

其中，在所述待训练的权重分类模型包括残差结构，池化结构和全连接结构的情况下，通过激励传播和权重更新的反复迭代，直至所述待训练的权重分类模型收敛包括：

在激励传播阶段，将图像通过所述待训练的权重分类模型的卷积层获取特征,在所述待训练的权重分类模型的全连接层获取类别预测结果,再将所述类别预测结果与第一预设数据集中的数据的标签类别求差,得到隐藏层和输出层的响应误差；

在权重更新阶段,将所述误差与本层响应对前一层响应的函数的导数相乘,获得两层之间权重矩阵的梯度,沿所述梯度的反方向以设定的学习率调整权重矩阵；将所述梯度确定为前一层的误差，并计算前一层的权重矩阵,通过迭代计算对所述待训练的权重分类模型更新，直至所述待训练的权重分类模型收敛。

6.根据权利要求1所述的方法，其特征在于，所述通过第二预设数据集中的目标位置框标签信息对待训练的目标检测模型进行训练，得到训练后的目标检测模型包括：

在所述目标检测模型包括特征提取模块、建议框生成模块和目标分类器与位置框回归预测模块的情况下，

分别对所述特征提取模块和所述建议框生成模块进行训练，得到特征提取模块第一参数值和建议框生成模块第一参数值；

依据特征提取模块第一参数值和建议框生成模块第一参数值训练所述目标分类器与位置框回归预测模块，得到目标分类器与位置框回归预测模块第一参数值和特征提取模块第二参数值；

依据目标分类器与位置框回归预测模块第一参数值和特征提取模块第二参数值训练所述建议框生成模块，得到建议框生成模块第二参数值；

依据建议框生成模块第二参数值和特征提取模块第二参数值训练所述目标分类器与位置框回归预测模块，得到目标分类器与位置框回归预测模块第二参数值。

7.根据权利要求6所述的方法，其特征在于，所述特征提取模块用于提取所述第二预设数据集中的各个数据的特征；所述建议框生成模块用于依据所述第二预设数据集中的各个数据的特征生成各个数据的候选目标框；所述目标分类器与位置框回归预测模块用于依据所述第二预设数据集中的各个数据的特征和所述各个数据的候选目标框获取所述第二预设数据集中各个数据的目标的检测框及相应检测框的类别；

在所述建议框生成模块包括一个滑窗的卷积层，所述卷积层后连接两个并行的卷积层，所述两个并行的卷积层分别为回归层和分类层的情况下，所述建议框生成模块用于依据所述第二预设数据集中的各个数据的特征生成各个数据的候选目标框包括：

依据所述第二预设数据集中的各个数据的特征通过所述回归层，得到所述第二预设数据集中的各个数据的各个候选目标框的中心锚点的坐标和相应的候选目标框的宽与高；

通过所述分类层判定所述各个数据的各个候选目标框是前景或背景。

8.根据权利要求7所述的方法，其特征在于，在所述目标分类器与位置框回归预测模块的结构为顺次连接的一个池化层、三个全连接层和并行的两个全连接层的情况下，所述目标分类器与位置框回归预测模块用于依据所述第二预设数据集中的各个数据的特征和所述各个数据的候选目标框获取所述第二预设数据集中各个数据的各个目标的检测框和相应的检测框的类别包括：

通过所述池化层将所述特征提取模块输出的不同长度的各个数据的特征转换为固定长度的各个数据的特征；

依据所述固定长度的各个数据的特征，分别通过所述三个全连接层后再通过所述并行的两个全连接层，输出所述第二预设数据集中各个数据的各个目标的检测框及相应检测框的类别。

9.根据权利要求1所述的方法，其特征在于，所述依据第三预设数据集中的目标关键点标签信息对待训练的单人姿态估计模型的网络参数进行训练,得到训练后的单人姿态估计模型包括：

依据所述第三预设数据集中的目标关键点标签信息对待训练的单人姿态估计模型的网络参数进行训练,通过前向传播和后向传播算法迭代的更新所述待训练的单人姿态估计模型的网络参数；

其中，所述依据所述第三预设数据集中的目标关键点标签信息对待训练的单人姿态估计模型的网络参数进行训练,通过前向传播和后向传播算法迭代的更新所述待训练的单人姿态估计模型的网络参数包括：

依据预设宽高比对输入的单人图像的高度或宽度进行扩展，并将所述单人图像裁剪为预设尺寸。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

收集训练所述待训练的目标检测模型和待训练的单人姿态估计模型所需的样本；

对所述样本进行预处理，其中，所述预处理包括：数据集的划分和预处理操作。

11.根据权利要求10所述的方法，其特征在于，第一预设数据集包括：第一类图像数据集，第一类图像数据集自定义了训练集和验证集；所述第二预设数据集包括第二类图像数据集和第三类图像数据集中有位置框信息标注的数据集合；所述第二类图像数据集自定义了训练集和验证集；所述第三类图像数据集按照预设比例随机划分为训练集和验证集；所述第二类图像数据集的训练集和所述第三类图像数据集的训练集为第二预设数据集中的训练集，所述第二类图像数据集的验证集和所述第三类图像数据集的验证集为第二预设数据集中的验证集；所述第三预设数据集包括所述第二类图像数据集和第三类图像数据集中有关键点信息标注的数据集合；

所述预处理操作包括：通过随机几何变换对第一预设数据集和第三预设数据集中的数据分别进行处理；通过随机混合操作和/或随机几何变换对所述第二预设数据集中的数据进行处理。

12.根据权利要求11所述的方法，其特征在于，所述通过随机几何变换包括随机裁剪、按预设角度进行随机旋转和/或按照预设缩放比例进行随机缩放；所述随机混合操作包括将至少两个数据按照预设权重进行重合，具体为将不同数据中的预设位置像素值与预设权重的乘积相加。

13.一种数据识别方法，其特征在于，基于权利要求1至12中任意一项所述的方法，包括：

将待识别的特征数据输入权重注意力神经网络模型，识别得到所述待识别的特征数据中至少一个目标的关键点二维坐标，其中，所述权重注意力神经网络模型用于通过自顶向下的方式进行至少一人的姿态估计，检测所述待识别的特征数据中至少一个目标的位置矩形框，并检测位置矩形框内目标的关键点二维坐标；

通过所述目标的关键点二维坐标进行计算，得到第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角；

将所述第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角在第一预设数据库中进行匹配，得出所述目标的识别结果。

14.根据权利要求13所述的方法，其特征在于，所述将所述第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角在第一预设数据库中进行匹配，得出所述目标的识别结果包括：

在所述待识别的特征数据包括图片数据的情况下，将得到的至少一个夹角的角度值与第一预设数据库中的相应的夹角类型的角度值进行匹配，得出所述图片数据的识别结果。

15.根据权利要求13所述的方法，其特征在于，所述将所述第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角在第一预设数据库中进行匹配，得出所述目标的识别结果包括：

在所述待识别的特征数据包括视频数据的情况下，获取所述视频数据中至少一个目标的关键点二维坐标信息；

依据所述视频数据中至少一个目标的关键点二维坐标信息得到至少一个目标的至少一个特定夹角的角度时间变化曲线，并通过与至少一种标准运动的至少一个夹角的角度时间变化曲线做比较分析，得到所述识别结果。

16.根据权利要求15所述的方法，其特征在于，所述依据所述视频数据中至少一个目标的关键点二维坐标信息得到至少一个目标的至少一个特定夹角的角度时间变化曲线，并通过与至少一种标准运动的至少一个夹角的角度时间变化曲线做比较分析，得到所述识别结果包括：

将所述至少一个目标的至少一个特定夹角的角度时间变化曲线，与预先获得的至少一种标准运动的至少一个夹角的角度时间变化曲线进行相似度比较，若相似度落入第一预设阈值区间，则判定所述视频数据中的相应目标正在进行所对应的标准运动类型；

在判定所述视频数据中的相应目标正在进行所对应的标准运动类型的情况下，进一步比较该目标的至少一个特定夹角的角度时间变化曲线与标准运动的相应特定夹角的角度时间变化曲线；

若所述目标的至少一个特定夹角的角度时间变化曲线上相邻最值的差，和所述标准运动的相应特定夹角的角度时间变化曲线上相邻最值的差落入第二预设阈值区间，则判断所述视频数据中所述目标的特定夹角所对应的关节动作规范，否则所述视频数据中该目标的特定夹角所对应的关节动作不规范；

判断所述目标的至少一个特定夹角的角度时间变化曲线上相邻峰值之间的距离，和所述标准运动的相应特定夹角的角度时间变化曲线上相邻峰值的差是否落入第三预设阈值区间、第四预设阈值区间或第五预设阈值区间，进而确认所述视频数据中所述目标的特定夹角所对应的关节动作运动强度过低、适当或过高。

17.根据权利要求13所述的方法，其特征在于，所述方法还包括：

依据所述识别结果在第二预设数据库中进行匹配，得到所述识别结果对应的体态评估结果。

18.根据权利要求17所述的方法，其特征在于，在得到所述识别结果对应的体态评估结果之后，所述方法还包括：

依据所述体态评估结果在第三预设数据库中进行匹配，得到所述体态评估结果对应的建议信息。

19.一种数据识别装置，其特征在于，包括：

坐标识别模块，用于将待识别的特征数据输入权重注意力神经网络模型，识别得到所述待识别的特征数据中至少一个目标的关键点二维坐标，其中，所述权重注意力神经网络模型用于通过自顶向下的方式进行至少一人的姿态估计，检测所述待识别的特征数据中至少一个目标的位置矩形框，并检测位置矩形框内目标的关键点二维坐标，其中，所述权重注意力神经网络模型基于权利要求1-12中任意一项所述的方法得到；

计算模块，用于通过所述目标的关键点二维坐标进行计算，得到第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角；

匹配模块，用于将所述第一预设关键点组合的连线与第二预设关键点组合的连线之间的夹角或第一预设关键点组合的连线与第一预设线之间的夹角在第一预设数据库中进行匹配，得出所述目标的识别结果。

20.一种存储介质，所述存储介质包括存储的程序，其特征在于，在所述程序运行时控制所述存储介质所在设备执行权利要求1至18中任意一项所述的方法。

21.一种数据识别装置，包括：存储介质和用于运行存储于存储介质中的程序的处理器，其特征在于，所述程序运行时执行权利要求1至18中任意一项所述的方法。