CN116778579A

CN116778579A - 多人姿态的识别方法、装置、存储介质及电子设备

Info

Publication number: CN116778579A
Application number: CN202310714176.2A
Authority: CN
Inventors: 崔长瑞; 吴晓茵; 张�浩; 曾诗华
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-09-19

Abstract

本申请公开了一种多人姿态的识别方法、装置、存储介质及电子设备。涉及人工智能技术领域，其中，该方法包括：获取待识别图像，其中，待识别图像通过图像形式表征M个目标对象中的每个目标对象的动作姿态，M为正整数；识别待识别图像中的目标对象的数量，得到目标数量；将待识别图像以及目标数量输入至姿态识别模型中，得到姿态识别模型输出的识别结果，其中，识别结果中包括每个目标对象对应的动作姿态类别信息和每个目标对象对应的人体关键点坐标，姿态识别模型为包括混合模型的神经网络模型，混合模型用于通过柯西分布函数确定每个目标对象对应的人体关键点坐标。本申请解决了现有技术对多人姿态的识别准确率较低的技术问题。

Description

多人姿态的识别方法、装置、存储介质及电子设备

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种多人姿态的识别方法、装置、存储介质及电子设备。

背景技术

目前，对于多人姿态识别的方法主要包括两种方法，一种方法是自顶向下，先识别出图像中的每个人，然后再对每个人进行关键点提取。但是，该方法在当图像中存在多人遮挡时，可能会将两个互相遮挡的人误识别为一个人，从而导致无法准确识别人体姿势。另一种方法是自底向上，先检测出图像中所有的关键点，然后将关键点匹配到不同的人体，但是，该方法依赖于人体检测器的性能，当人体定位出现误差或者有边界框重复时无法准确识别人体姿势；并且，自下而上的方法，在当人体出现遮挡的时候，由于关键点数量检测出错，可能会影响不同人体的关键点的区分和连接，导致无法准确识别人体姿势。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请提供了一种多人姿态的识别方法、装置、存储介质及电子设备，以至少解决现有技术对多人姿态的识别准确率较低的技术问题。

根据本申请的一个方面，提供了一种多人姿态的识别方法，包括：获取待识别图像，其中，所述待识别图像通过图像形式表征M个目标对象中的每个目标对象的动作姿态，M为正整数；识别所述待识别图像中的目标对象的数量，得到目标数量；将所述待识别图像以及所述目标数量输入至姿态识别模型中，得到所述姿态识别模型输出的识别结果，其中，所述识别结果中包括所述每个目标对象对应的动作姿态类别信息和所述每个目标对象对应的人体关键点坐标，所述姿态识别模型为包括混合模型的神经网络模型，所述混合模型用于通过柯西分布函数确定所述每个目标对象对应的人体关键点坐标。

进一步地，在将所述待识别图像以及所述目标数量输入至姿态识别模型中，得到所述姿态识别模型输出的识别结果之后，所述方法还包括：将所述目标对象对应的动作姿态类别信息输入至二分类模型中，得到所述二分类模型输出的目标标签；在所述目标标签为第一标签的情况下，确定所述目标对象的动作姿态为异常姿态，并生成异常提示信息，其中，所述第一标签用于表征所述目标对象对应的动作姿态类别与预设动作姿态类别不相同，所述异常提示信息用于对所述目标对象的异常姿态进行警示；在所述目标标签为第二标签的情况下，确定所述目标对象的动作姿态为正常姿态，并禁止生成所述异常提示信息，其中，所述第二标签用于表征所述目标对象对应的动作姿态类别与所述预设动作姿态类别相同。

进一步地，识别所述待识别图像中的目标对象的数量，得到目标数量，包括：通过图像增强模型对所述待识别图像进行图像处理，得到目标图像，其中，所述图像增强模型用于对所述待识别图像的亮度进行增强处理；识别所述目标图像中的目标对象的数量，得到所述目标数量。

进一步地，通过图像增强模型对所述待识别图像进行图像处理，得到目标图像，包括：通过所述图像增强模型检测所述待识别图像的亮度值是否小于预设亮度值；在所述待识别图像的亮度值小于所述预设亮度值的情况下，通过所述图像增强模型对所述待识别图像的亮度进行增强处理，得到所述目标图像，其中，所述目标图像的亮度值大于或等于所述预设亮度值；在所述待识别图像的亮度值大于或等于所述预设亮度值的情况下，将所述待识别图像作为所述目标图像。

进一步地，所述姿态识别模型通过如下过程得到：获取第一训练集合，其中，所述第一训练集合中包括L张第一图像，每张第一图像为一张通过图像形式表征M个对象中的每个对象的动作姿态，L为正整数；将所述L张第一图像输入至所述图像增强模型中，得到L张第二图像，其中，每张第二图像的亮度值大于或等于该第二图像对应的第一图像的亮度值；对所述每张第二图像中的每个对象设置第三标签，得到K个第三标签，其中，每个第三标签用于表征一个对象对应的动作姿态类别信息，K＝L*M；对所述每张第二图像中的每个对象设置第四标签，得到K个第四标签，其中，每个第四标签用于表征一个对象对应的人体关键点坐标；将所述L张第二图像、所述K个第三标签以及所述K个第四标签输入至初始神经网络模型中，进行迭代训练，得到所述姿态识别模型。

进一步地，将所述L张第二图像、所述K个第三标签以及所述K个第四标签输入至初始神经网络模型中，进行迭代训练，得到所述姿态识别模型，包括：识别所述每张第二图像中的对象的数量，得到L个第一数量；将所述每张第二图像转换为具有边界框的第三图像，得到L张第三图像，其中，所述边界框用于表征所述每张第二图像中的M个对象所在的位置；将所述L张第三图像以及所述L个第一数量输入至初始神经网络模型中的卷积神经网络中，得到K个对象中的每个对象对应的第一特征图，其中，所述卷积神经网络用于从每张第三图像中提取所述每个对象对应的特征图；将所述每个对象对应的第一特征图输入至所述初始神经网络模型中的全局平均池化层，得到所述全局平均池化层输出的每个对象对应的第二特征图，其中，所述全局平均池化层用于对所述第一特征图进行降维处理，所述第一特征图的维度数量高于所述第二特征图的维度数量；通过所述初始神经网络模型中的参数提取网络对所述每个对象对应的第二特征图进行人体关键点参数提取，得到所述每个对象的每个人体关键点对应的位置参数和所述每个对象对应的尺度参数，其中，所述尺度参数用于表征所述每个对象的人体关键点在所述第二特征图中的分布情况；将所述每个对象的每个人体关键点对应的位置参数、所述每个对象对应的尺度参数、所述K个第三标签以及所述K个第四标签输入至混合模型中，进行所述迭代训练，得到所述姿态识别模型。

进一步地，所述二分类模型通过如下过程得到：将所述L张第二图像输入至所述姿态识别模型中，得到所述姿态识别模型输出的K个对象中的每个对象的实际动作姿态类别信息；对所述每个对象的实际动作姿态类别信息设置标签，得到K个标签，其中，所述标签为第五标签或第六标签，所述第五标签用于表征所述对象对应的实际动作姿态类别与所述预设动作姿态类别不相同，所述第六标签用于表征所述对象对应的实际动作姿态类别与所述预设动作姿态类别相同；将所述每个对象的实际动作姿态类别信息、所述K个标签输入至初始二分类模型中进行模型训练，得到所述二分类模型。

根据本申请的另一方面，还提供了一种多人姿态的识别装置，包括：获取模块，用于获取待识别图像，其中，所述待识别图像通过图像形式表征M个目标对象中的每个目标对象的动作姿态，M为正整数；第一识别模块，用于识别所述待识别图像中的目标对象的数量，得到目标数量；第二识别模块，用于将所述待识别图像以及所述目标数量输入至姿态识别模型中，得到所述姿态识别模型输出的识别结果，其中，所述识别结果中包括所述每个目标对象对应的动作姿态类别信息和所述每个目标对象对应的人体关键点坐标，所述姿态识别模型为包括混合模型的神经网络模型，所述混合模型用于通过柯西分布函数确定所述每个目标对象对应的人体关键点坐标。

根据本申请的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的多人姿态的识别方法。

根据本申请的另一方面，还提供了一种电子设备，电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为运行时执行上述的多人姿态的识别方法。

在本申请中，首先获取待识别图像，其中，所述待识别图像通过图像形式表征M个目标对象中的每个目标对象的动作姿态，M为正整数；然后识别所述待识别图像中的目标对象的数量，得到目标数量；最后将所述待识别图像以及所述目标数量输入至姿态识别模型中，得到所述姿态识别模型输出的识别结果，其中，所述识别结果中包括所述每个目标对象对应的动作姿态类别信息和所述每个目标对象对应的人体关键点坐标，所述姿态识别模型为包括混合模型的神经网络模型，所述混合模型用于通过柯西分布函数确定所述每个目标对象对应的人体关键点坐标。

在上述过程中，通过自动识别待识别图像中的目标对象的数量，然后通过预先训练好的姿态识别模型依据目标对象的数量识别待识别图像中的每个目标对象的动作姿态类别信息，避免了因多人遮挡导致无法准确识别人体姿势的问题；通过姿态识别模型中的混合模型来确定每个目标对象对应的人体关键点坐标，能够提高人体关键点坐标的识别准确率，从而实现了提高多人姿态的识别准确率的技术效果，进而解决了现有技术对多人姿态的识别准确率较低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的多人姿态的识别方法的流程图；

图2是根据本申请实施例的一种可选的姿态识别模型的模型训练过程的流程图；

图3是根据本申请实施例的另一种可选的姿态识别模型的模型训练过程的流程图；

图4是根据本申请实施例的一种可选的二分类模型的模型训练过程的流程图；

图5是根据本申请实施例的一种可选的多人姿态的识别装置的示意图；

图6是根据本申请实施例的一种可选的电子设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

实施例1

根据本申请实施例，提供了一种可选的多人姿态的识别方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

其中，为了方便理解本申请的技术方案，以下为对本申请中的一些关键术语的具体定义：

Retinex-Net：Retinex-Net(Retinex Neural Network)是一种基于深度学习的图像增强方法，它能够提高图像的亮度、对比度和色彩饱和度，在不失真地保留细节信息的同时改善视觉效果。该网络结合了传统的Retinex理论和深度卷积神经网络技术，通过多层次特征提取和反向传播优化来实现图像增强，并取得了较好的效果。

HRNet-32网络：HRNet-32网络是一种用于图像分类和目标检测任务的神经网络模型，它采用了高分辨率特征表示(High-Resolution Feature Representation)策略，将多个不同分辨率的特征图级联在一起，并通过一个逐层融合的方式进行信息交换，从而有效地提升了模型性能。HRNet-32具有高精度、高效性和可扩展性等优点。

one-hot编码：one-hot编码是一种将离散型特征映射为连续型变量的方法。它把每个离散值表示成一个二进制向量，其中只有一个元素为1而其他元素都为0。

Faster RCNN：Faster RCNN(Faster Region-based Convolutional NeuralNetwork)是一种深度学习算法，用于目标检测任务。Faster RCNN使用两个网络模型：一个用于生成候选区域，另一个则用于对这些候选区域进行分类和定位。其中第一个网络被称为Region Proposal Network(RPN)，它可以在图像中生成潜在的物体边界框，并将这些边界框提供给第二个网络进行处理。

图1是根据本申请实施例的一种可选的多人姿态的识别方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，获取待识别图像。

在一种可选的实施例中，一种多人姿态的识别系统可作为本申请实施例中的多人姿态的识别方法的执行主体。为了方便描述，以下将多人姿态的识别系统简称为系统。

在步骤S101中，待识别图像通过图像形式表征M个目标对象中的每个目标对象的动作姿态，M为正整数。例如，待识别图像通过图像形式表征金融机构网点的柜员在为客户办理业务时，柜员和客户的动作姿态。

步骤S102，识别待识别图像中的目标对象的数量，得到目标数量。

在本申请实施例中，系统可通过人头检测算法对识别待识别图像中的目标对象的数量，得到目标数量。

步骤S103，将待识别图像以及目标数量输入至姿态识别模型中，得到姿态识别模型输出的识别结果。

在步骤S103中，识别结果中包括每个目标对象对应的动作姿态类别信息和每个目标对象对应的人体关键点坐标，其中，动作姿态类别信息包括但不限于站姿、坐姿、走路姿态、躺卧姿态等。姿态识别模型为包括混合模型的神经网络模型，混合模型用于通过柯西分布函数确定每个目标对象对应的人体关键点坐标，其中，人体关键点坐标包括但不限于人体的头部、左右肩膀、左右手肘、左右手腕、左右臀部、左右膝盖、左右脚踝的在图像中的位置坐标。

在本实施例中，通过将待识别图像以及目标数量输入至姿态识别模型中，姿态识别模型可为依据目标数量识别待识别图像中的每个目标对象的动作姿态类别信息，能够避免因多人遮挡导致无法准确识别人体姿势的问题。通过姿态识别模型中的混合模型来确定每个目标对象对应的人体关键点坐标，能够通过混合模型中的柯西分布函数准确的预测人体关键点坐标，实现了提高人体关键点坐标的识别准确率，从而实现了提高多人姿态的识别准确率的技术效果，进而解决了现有技术对多人姿态的识别准确率较低的技术问题。

基于上述步骤S101至步骤S103所限定的方案，可以获知，在本申请实施例中，首先获取待识别图像，其中，待识别图像通过图像形式表征M个目标对象中的每个目标对象的动作姿态，M为正整数；然后识别待识别图像中的目标对象的数量，得到目标数量；最后将待识别图像以及目标数量输入至姿态识别模型中，得到姿态识别模型输出的识别结果，其中，识别结果中包括每个目标对象对应的动作姿态类别信息和每个目标对象对应的人体关键点坐标，姿态识别模型为包括混合模型的神经网络模型，混合模型用于通过柯西分布函数确定每个目标对象对应的人体关键点坐标。

需要说明的是，在上述过程中，通过自动识别待识别图像中的目标对象的数量，然后通过预先训练好的姿态识别模型依据目标对象的数量识别待识别图像中的每个目标对象的动作姿态类别信息，避免了因多人遮挡导致无法准确识别人体姿势的问题；通过姿态识别模型中的混合模型来确定每个目标对象对应的人体关键点坐标，能够提高人体关键点坐标的识别准确率，从而实现了提高多人姿态的识别准确率的技术效果，进而解决了现有技术对多人姿态的识别准确率较低的技术问题。

可选地，在本申请实施例提供的多人姿态的识别方法中，在将待识别图像以及目标数量输入至姿态识别模型中，得到姿态识别模型输出的识别结果之后，包括：将目标对象对应的动作姿态类别信息输入至二分类模型中，得到二分类模型输出的目标标签；在目标标签为第一标签的情况下，确定目标对象的动作姿态为异常姿态，并生成异常提示信息，其中，第一标签用于表征目标对象对应的动作姿态类别与预设动作姿态类别不相同，异常提示信息用于对目标对象的异常姿态进行警示；在目标标签为第二标签的情况下，确定目标对象的动作姿态为正常姿态，并禁止生成异常提示信息，其中，第二标签用于表征目标对象对应的动作姿态类别与预设动作姿态类别相同。

可选地，预设动作姿态类别为预先设置的动作姿态类别，例如，可通过系统设置预设动作姿态类别为站姿、坐姿、直立行走姿态。

在本实施例中，在得到每个目标对象对应的动作姿态类别信息之后，系统可通过训练好的二分类模型来识别目标对象的动作姿态是否为正常动作姿态。例如，在金融机构网点的柜员(即目标对象)对应的动作姿态类别信息为躺卧姿态(躺卧姿态可表征该柜员可能因身体不适引起的晕倒)的信息时，系统将动作姿态类别信息为躺卧姿态的信息输入至二分类模型中，通过二分类模型可自动识别出躺卧姿态与预设动作姿态类别不相同，并输出第一标签，然后系统可依据第一标签确定该柜员的动作姿态为异常动作姿态，并生成异常提示信息。系统可将该异常提示信息发送至相关人员及时进行救助处理。

需要说明的是，通过训练好的二分类模型来识别目标对象的动作姿态是否为正常动作姿态，能够在目标对象因身体不适出现异常行为时，及时识别出目标对象的动作姿态为异常姿态，并异常提示信息，提醒相关人员及时进行救助处理，避免因救助不及时导致目标对象错过最佳救援时间的问题，从而提高了用户的体验感。

可选地，在本申请实施例提供的多人姿态的识别方法中，识别待识别图像中的目标对象的数量，得到目标数量，包括：通过图像增强模型对待识别图像进行图像处理，得到目标图像，其中，图像增强模型用于对待识别图像的亮度进行增强处理；识别目标图像中的目标对象的数量，得到目标数量。

可选地，在本申请实施例提供的多人姿态的识别方法中，通过图像增强模型对待识别图像进行图像处理，得到目标图像，包括：通过图像增强模型检测待识别图像的亮度值是否小于预设亮度值；在待识别图像的亮度值小于预设亮度值的情况下，通过图像增强模型对待识别图像的亮度进行增强处理，得到目标图像，其中，目标图像的亮度值大于或等于预设亮度值；在待识别图像的亮度值大于或等于预设亮度值的情况下，将待识别图像作为目标图像。

为了提高姿态识别的准确率，避免因为待识别图像的亮度较低导致无法准确识别目标对象的动作姿态的问题，在本实施例中，系统可通过训练好的图像增强模型检测待识别图像的亮度值是否小于预设亮度值；在待识别图像的亮度值小于预设亮度值的情况下，系统可通过图像增强模型对待识别图像的亮度进行增强处理，得到目标图像；在待识别图像的亮度值大于或等于预设亮度值的情况下，系统可直接将待识别图像作为目标图像。然后系统可通过识别目标图像中的对象数量，得到目标数量。

可选地，在本实施例中，图像增强模型可以为Retinex-Net网络模型。

可选地，在本实施例中，图像增强模型的模型训练过程如下：

步骤一，获取第一训练集合，其中，第一训练集合中包括N张第一图像和K张第二图像，每张第一图像的亮度值小于预设亮度值，每张第二图像的亮度值大于或等于预设亮度值，N、K为正整数。

步骤二，将N张第一图像和K张第二图像输入至初始网络模型中，进行迭代训练，得到图像增强模型。

可选地，图2是根据本申请实施例的一种可选的姿态识别模型的模型训练过程的流程图，如图2所示，模型训练的步骤具体如下：

步骤S201，获取第一训练集合。

在步骤S201中，第一训练集合中包括L张第一图像，每张第一图像为一张通过图像形式表征M个对象中的每个对象的动作姿态，L为正整数。其中，L张第一图像中包含了存在多人遮挡情况的图片和未存在多人遮挡情况的图片。

步骤S202，将L张第一图像输入至图像增强模型中，得到L张第二图像。

在步骤S202中，每张第二图像的亮度值大于或等于该第二图像对应的第一图像的亮度值。

步骤S203，对每张第二图像中的每个对象设置第三标签，得到K个第三标签。

在步骤S203中，每个第三标签用于表征一个对象对应的动作姿态类别信息，K＝L*M。

步骤S204，对每张第二图像中的每个对象设置第四标签，得到K个第四标签。

在步骤S204中，每个第四标签用于表征一个对象对应的人体关键点坐标。

步骤S205，将L张第二图像、K个第三标签以及K个第四标签输入至初始神经网络模型中，进行迭代训练，得到姿态识别模型。

在本实施例中，为了实现通过姿态识别模型输出姿态识别类型以及人体关键点坐标，系统通过对每张第二图像中的每个对象设置表征动作姿态类别信息的第三标签和表征人体关键点坐标的第四标签，通过第二图像、第三标签和第四标签对初始神经网络模型进行迭代训练，得到姿态识别模型。

可选地，图3是根据本申请实施例的另一种可选的姿态识别模型的模型训练过程的流程图，如图3所示，模型训练的步骤具体如下：

步骤S301，识别每张第二图像中的对象的数量，得到L个第一数量。

在步骤S301中，系统通过人头检测算法识别每张第二图像中的对象的数量，得到L个第一数量。

步骤S302，将每张第二图像转换为具有边界框的第三图像，得到L张第三图像。

在步骤S302中，边界框用于表征每张第二图像中的M个对象所在的位置。系统科通过Faster RCNN检测器将每张第二图像转换为具有边界框的第三图像，得到L张第三图像。

步骤S303，将L张第三图像以及L个第一数量输入至初始神经网络模型中的卷积神经网络中，得到K个对象中的每个对象对应的第一特征图。

在步骤S303中，卷积神经网络用于从每张第三图像中提取每个对象对应的特征图。其中，卷积神经网络可以为HRNet-32网络。

可选地，将L张第三图像以及L个第一数量输入至初始神经网络模型中的卷积神经网络中，若第一数量为N，卷积神经网络可依据第一数量为N确定参数u，u可以使卷积神经网络识别在同一个边界框中的M个对象的特征，得到每个对象对应的第一特征图。其中，u的取值范围在[0，N-1]之间。系统可使用one-hot的编码方式对u进行编码，依据卷积神经网络可依据编码后的参数u进行特征提取。

需要说明的是，通过将L张第三图像以及L个第一数量输入至初始神经网络模型中的卷积神经网络中，能够在第三图像中存在多人遮挡的情况下，依据参数u指定当前要识别的同一个边界框中的某个对象，从而得到该对象对应的准确的动作特征，从而提高了模型识别的精确度。

可选地，卷积神经网络在训练过程中不会固定输入图像的边界框，边界框的宽高比是根据实际捕捉到的人体动态变化的。例如，系统可设置一个初始边界框的真值B₀用来初始化训练过程，B_i，i∈{1，…n-1}表示与边界框B₀有部分重叠的。

步骤S304，将每个对象对应的第一特征图输入至初始神经网络模型中的全局平均池化层，得到全局平均池化层输出的每个对象对应的第二特征图。

在步骤S304中，全局平均池化层用于对第一特征图进行降维处理，第一特征图的维度数量高于第二特征图的维度数量。

步骤S305，通过初始神经网络模型中的参数提取网络对每个对象对应的第二特征图进行人体关键点参数提取，得到每个对象的每个人体关键点对应的位置参数和每个对象对应的尺度参数。

在步骤S305中，尺度参数用于表征每个对象的人体关键点在第二特征图中的分布情况。

可选地，参数提取网络由八层3*3的卷积神经网络构成。

需要说明的是，通过参数提取网络提取每个对象的每个人体关键点对应的位置参数和每个对象对应的尺度参数，为后续通过混合模型进行迭代训练提供数据准备。

步骤S306，将每个对象的每个人体关键点对应的位置参数、每个对象对应的尺度参数、K个第三标签以及K个第四标签输入至混合模型中，进行迭代训练，得到姿态识别模型。

可选地，在本实施例中，系统可通过第一损失函数进行模型训练。其中，第一损失函数具体如下：

其中，y₀是初始边界框的真值B₀对应的真实动作特征的值，y_i对应的是第i个边界框的真实动作特征的值，P代表的是特征提取阶段使用的网络模型，x代表的是图片，P＝(x，u＝i)代表在某张图片x中，边界框中指定的第i个人在特征提取阶段计算得到的动作特征的值。n是探测到的边界框个数，N是图片x中的人物个数，当n＞N时，说明探测到的边界框中有多余重复的，这时只选择中心点与B₀距离最近的N-1个边界框来计算损失值，其余的视作冗余；当n＜N时，说明图片中存在遮挡，也就是两个人或多个人出现在同一个边界框中，选择y₀用于计算损失值。

可选地，在本实施例中，混合模型由多个柯西分布构成，图像中的一个对象对应于混合模型中的一个柯西分布，假设一个图像有N个对象时，这N个对象的关键点为：

N个对象中的第i个对象的关键点为：

其中，H为关键点个数。

混合模型中的一个分布的柯西分布函数的公式定义如下：

其中，k_i是第i个对象包含的关键点，k_i,j,d为第i个对象的第j个关键点，μ_j,d为第j个关键点的位置参数，γ_j,d表示第j个关键点的尺度参数。D＝{x,y}是关键点的二维坐标，j是关键点索引，μ是位置参数，γ是尺度参数。

然后将所有的子柯西分布进行加和，得到混合模型最终的概率分布函数p为：

其中，m代表F个混合模型子柯西分布的索引，π_m表示前置背景归一化后的概率参数，F(k_i；μ_m,γ_m)代表第m个模型子柯西分布的概率分布函数，μ_m表示第m个模型子分布中的关键点的位置参数，γ_m表示第m个模型子分布中的尺度参数。

可选地，在本实施例中，系统可通过第二损失函数进行模型训练。其中，第二损失函数具体如下：

其中，为图像x中所有关键点的概率。

图4是根据本申请实施例的一种可选的二分类模型的模型训练过程的流程图，如图4所示，模型训练的步骤具体如下：

步骤S401，将L张第二图像输入至姿态识别模型中，得到姿态识别模型输出的K个对象中的每个对象的实际动作姿态类别信息。

步骤S402，对每个对象的实际动作姿态类别信息设置标签，得到K个标签。

在步骤S402中，标签为第五标签或第六标签，第五标签用于表征对象对应的实际动作姿态类别与预设动作姿态类别不相同，第六标签用于表征对象对应的实际动作姿态类别与预设动作姿态类别相同。

步骤S403，将每个对象的实际动作姿态类别信息、K个标签输入至初始二分类模型中进行模型训练，得到二分类模型。

为了实现通过动作姿态类别信息自动识别图像中的对象的动作姿态是否为异常姿态，本申请通过将L张第二图像输入至训练好的姿态识别模型中，得到L张第二图像输入至姿态识别模型中，并对每个对象的实际动作姿态类别信息设置第五标签或第六标签，得到K个标签，例如，若一个对象的实际动作姿态类别信息为站立姿态，则对其设置第六标签；若一个对象的实际动作姿态类别信息为躺卧姿态，则对其设置第五标签。然后通过每个对象的实际动作姿态类别信息、K个标签对初始二分类模型中进行模型训练，得到训练好的二分类模型。

由此可见，通过本申请的多人姿态的识别方法，通过自动识别待识别图像中的目标对象的数量，然后通过预先训练好的姿态识别模型依据目标对象的数量识别待识别图像中的每个目标对象的动作姿态类别信息，避免了因多人遮挡导致无法准确识别人体姿势的问题；通过姿态识别模型中的混合模型来确定每个目标对象对应的人体关键点坐标，能够提高人体关键点坐标的识别准确率，从而实现了提高多人姿态的识别准确率的技术效果，进而解决了现有技术对多人姿态的识别准确率较低的技术问题。

实施例2

根据本申请实施例，提供了一种多人姿态的识别装置的实施例，其中，图5是根据本申请实施例的一种可选的多人姿态的识别装置的示意图，如图5所示，该装置包括：

获取模块501，用于获取待识别图像，其中，待识别图像通过图像形式表征M个目标对象中的每个目标对象的动作姿态，M为正整数；

第一识别模块502，用于识别待识别图像中的目标对象的数量，得到目标数量；

第二识别模块503，用于将待识别图像以及目标数量输入至姿态识别模型中，得到姿态识别模型输出的识别结果，其中，识别结果中包括每个目标对象对应的动作姿态类别信息和每个目标对象对应的人体关键点坐标，姿态识别模型为包括混合模型的神经网络模型，混合模型用于通过柯西分布函数确定每个目标对象对应的人体关键点坐标。

需要说明的是，上述获取模块501、第一识别模块502以及第二识别模块503对应于上述实施例1中的步骤S101至步骤S103，三个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

可选地，多人姿态的识别装置还包括：第一处理模块，用于在将待识别图像以及目标数量输入至姿态识别模型中，得到姿态识别模型输出的识别结果之后，将目标对象对应的动作姿态类别信息输入至二分类模型中，得到二分类模型输出的目标标签；第一确定模块，用于在目标标签为第一标签的情况下，确定目标对象的动作姿态为异常姿态，并生成异常提示信息，其中，第一标签用于表征目标对象对应的动作姿态类别与预设动作姿态类别不相同，异常提示信息用于对目标对象的异常姿态进行警示；第二确定模块，用于在目标标签为第二标签的情况下，确定目标对象的动作姿态为正常姿态，并禁止生成异常提示信息，其中，第二标签用于表征目标对象对应的动作姿态类别与预设动作姿态类别相同。

可选地，第一识别模块包括：第一处理单元，用于通过图像增强模型对待识别图像进行图像处理，得到目标图像，其中，图像增强模型用于对待识别图像的亮度进行增强处理；第一识别单元，用于识别目标图像中的目标对象的数量，得到目标数量。

可选地，第一处理单元包括：检测单元，用于通过图像增强模型检测待识别图像的亮度值是否小于预设亮度值；第二处理单元，用于在待识别图像的亮度值小于预设亮度值的情况下，通过图像增强模型对待识别图像的亮度进行增强处理，得到目标图像，其中，目标图像的亮度值大于或等于预设亮度值；第一确定单元，用于在待识别图像的亮度值大于或等于预设亮度值的情况下，将待识别图像作为目标图像。

可选地，多人姿态的识别装置还包括：第一获取模块，用于获取第一训练集合，其中，第一训练集合中包括L张第一图像，每张第一图像为一张通过图像形式表征M个对象中的每个对象的动作姿态，L为正整数；第二处理模块，用于将L张第一图像输入至图像增强模型中，得到L张第二图像，其中，每张第二图像的亮度值大于或等于该第二图像对应的第一图像的亮度值；第一设置模块，用于对每张第二图像中的每个对象设置第三标签，得到K个第三标签，其中，每个第三标签用于表征一个对象对应的动作姿态类别信息，K＝L*M；第二设置模块，用于对每张第二图像中的每个对象设置第四标签，得到K个第四标签，其中，每个第四标签用于表征一个对象对应的人体关键点坐标；迭代训练模块，用于将L张第二图像、K个第三标签以及K个第四标签输入至初始神经网络模型中，进行迭代训练，得到姿态识别模型。

可选地，迭代训练模块包括：第二识别单元，用于识别每张第二图像中的对象的数量，得到L个第一数量；转换单元，用于将每张第二图像转换为具有边界框的第三图像，得到L张第三图像，其中，边界框用于表征每张第二图像中的M个对象所在的位置；第三处理单元，用于将L张第三图像以及L个第一数量输入至初始神经网络模型中的卷积神经网络中，得到K个对象中的每个对象对应的第一特征图，其中，卷积神经网络用于从每张第三图像中提取每个对象对应的特征图；第四处理单元，用于将每个对象对应的第一特征图输入至初始神经网络模型中的全局平均池化层，得到全局平均池化层输出的每个对象对应的第二特征图，其中，全局平均池化层用于对第一特征图进行降维处理，第一特征图的维度数量高于第二特征图的维度数量；特征提取单元，用于通过初始神经网络模型中的参数提取网络对每个对象对应的第二特征图进行人体关键点参数提取，得到每个对象的每个人体关键点对应的位置参数和每个对象对应的尺度参数，其中，尺度参数用于表征每个对象的人体关键点在第二特征图中的分布情况；迭代训练单元，用于将每个对象的每个人体关键点对应的位置参数、每个对象对应的尺度参数、K个第三标签以及K个第四标签输入至混合模型中，进行迭代训练，得到姿态识别模型。

可选地，多人姿态的识别装置还包括：第三处理模块，用于将L张第二图像输入至姿态识别模型中，得到姿态识别模型输出的K个对象中的每个对象的实际动作姿态类别信息；第三设置模块，用于对每个对象的实际动作姿态类别信息设置标签，得到K个标签，其中，标签为第五标签或第六标签，第五标签用于表征对象对应的实际动作姿态类别与预设动作姿态类别不相同，第六标签用于表征对象对应的实际动作姿态类别与预设动作姿态类别相同；模型训练模块，用于将每个对象的实际动作姿态类别信息、K个标签输入至初始二分类模型中进行模型训练，得到二分类模型。

实施例3

根据本申请实施例的另一方面，还提供了计算机可读存储介质，计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的多人姿态的识别方法。

实施例4

根据本申请实施例的另一方面，还提供了一种电子设备，其中，图6是根据本申请实施例的一种可选的电子设备的示意图，如图6所示，电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为运行时执行上述的多人姿态的识别方法。

如图6所示，本申请实施例提供了一种电子设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取待识别图像，其中，待识别图像通过图像形式表征M个目标对象中的每个目标对象的动作姿态，M为正整数；识别待识别图像中的目标对象的数量，得到目标数量；将待识别图像以及目标数量输入至姿态识别模型中，得到姿态识别模型输出的识别结果，其中，识别结果中包括每个目标对象对应的动作姿态类别信息和每个目标对象对应的人体关键点坐标，姿态识别模型为包括混合模型的神经网络模型，混合模型用于通过柯西分布函数确定每个目标对象对应的人体关键点坐标。

可选地，处理器执行程序时还实现以下步骤：在将待识别图像以及目标数量输入至姿态识别模型中，得到姿态识别模型输出的识别结果之后，将目标对象对应的动作姿态类别信息输入至二分类模型中，得到二分类模型输出的目标标签；在目标标签为第一标签的情况下，确定目标对象的动作姿态为异常姿态，并生成异常提示信息，其中，第一标签用于表征目标对象对应的动作姿态类别与预设动作姿态类别不相同，异常提示信息用于对目标对象的异常姿态进行警示；在目标标签为第二标签的情况下，确定目标对象的动作姿态为正常姿态，并禁止生成异常提示信息，其中，第二标签用于表征目标对象对应的动作姿态类别与预设动作姿态类别相同。

可选地，处理器执行程序时还实现以下步骤：通过图像增强模型对待识别图像进行图像处理，得到目标图像，其中，图像增强模型用于对待识别图像的亮度进行增强处理；识别目标图像中的目标对象的数量，得到目标数量。

可选地，处理器执行程序时还实现以下步骤：通过图像增强模型检测待识别图像的亮度值是否小于预设亮度值；在待识别图像的亮度值小于预设亮度值的情况下，通过图像增强模型对待识别图像的亮度进行增强处理，得到目标图像，其中，目标图像的亮度值大于或等于预设亮度值；在待识别图像的亮度值大于或等于预设亮度值的情况下，将待识别图像作为目标图像。

可选地，处理器执行程序时还实现以下步骤：获取第一训练集合，其中，第一训练集合中包括L张第一图像，每张第一图像为一张通过图像形式表征M个对象中的每个对象的动作姿态，L为正整数；将L张第一图像输入至图像增强模型中，得到L张第二图像，其中，每张第二图像的亮度值大于或等于该第二图像对应的第一图像的亮度值；对每张第二图像中的每个对象设置第三标签，得到K个第三标签，其中，每个第三标签用于表征一个对象对应的动作姿态类别信息，K＝L*M；对每张第二图像中的每个对象设置第四标签，得到K个第四标签，其中，每个第四标签用于表征一个对象对应的人体关键点坐标；将L张第二图像、K个第三标签以及K个第四标签输入至初始神经网络模型中，进行迭代训练，得到姿态识别模型。

可选地，处理器执行程序时还实现以下步骤：识别每张第二图像中的对象的数量，得到L个第一数量；将每张第二图像转换为具有边界框的第三图像，得到L张第三图像，其中，边界框用于表征每张第二图像中的M个对象所在的位置；将L张第三图像以及L个第一数量输入至初始神经网络模型中的卷积神经网络中，得到K个对象中的每个对象对应的第一特征图，其中，卷积神经网络用于从每张第三图像中提取每个对象对应的特征图；将每个对象对应的第一特征图输入至初始神经网络模型中的全局平均池化层，得到全局平均池化层输出的每个对象对应的第二特征图，其中，全局平均池化层用于对第一特征图进行降维处理，第一特征图的维度数量高于第二特征图的维度数量；通过初始神经网络模型中的参数提取网络对每个对象对应的第二特征图进行人体关键点参数提取，得到每个对象的每个人体关键点对应的位置参数和每个对象对应的尺度参数，其中，尺度参数用于表征每个对象的人体关键点在第二特征图中的分布情况；将每个对象的每个人体关键点对应的位置参数、每个对象对应的尺度参数、K个第三标签以及K个第四标签输入至混合模型中，进行迭代训练，得到姿态识别模型。

可选地，处理器执行程序时还实现以下步骤：将L张第二图像输入至姿态识别模型中，得到姿态识别模型输出的K个对象中的每个对象的实际动作姿态类别信息；对每个对象的实际动作姿态类别信息设置标签，得到K个标签，其中，标签为第五标签或第六标签，第五标签用于表征对象对应的实际动作姿态类别与预设动作姿态类别不相同，第六标签用于表征对象对应的实际动作姿态类别与预设动作姿态类别相同；将每个对象的实际动作姿态类别信息、K个标签输入至初始二分类模型中进行模型训练，得到二分类模型。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种多人姿态的识别方法，其特征在于，包括：

获取待识别图像，其中，所述待识别图像通过图像形式表征M个目标对象中的每个目标对象的动作姿态，M为正整数；

识别所述待识别图像中的目标对象的数量，得到目标数量；

将所述待识别图像以及所述目标数量输入至姿态识别模型中，得到所述姿态识别模型输出的识别结果，其中，所述识别结果中包括所述每个目标对象对应的动作姿态类别信息和所述每个目标对象对应的人体关键点坐标，所述姿态识别模型为包括混合模型的神经网络模型，所述混合模型用于通过柯西分布函数确定所述每个目标对象对应的人体关键点坐标。

2.根据权利要求1所述的方法，其特征在于，在将所述待识别图像以及所述目标数量输入至姿态识别模型中，得到所述姿态识别模型输出的识别结果之后，所述方法还包括：

将所述目标对象对应的动作姿态类别信息输入至二分类模型中，得到所述二分类模型输出的目标标签；

在所述目标标签为第一标签的情况下，确定所述目标对象的动作姿态为异常姿态，并生成异常提示信息，其中，所述第一标签用于表征所述目标对象对应的动作姿态类别与预设动作姿态类别不相同，所述异常提示信息用于对所述目标对象的异常姿态进行警示；

在所述目标标签为第二标签的情况下，确定所述目标对象的动作姿态为正常姿态，并禁止生成所述异常提示信息，其中，所述第二标签用于表征所述目标对象对应的动作姿态类别与所述预设动作姿态类别相同。

3.根据权利要求2所述的方法，其特征在于，识别所述待识别图像中的目标对象的数量，得到目标数量，包括：

通过图像增强模型对所述待识别图像进行图像处理，得到目标图像，其中，所述图像增强模型用于对所述待识别图像的亮度进行增强处理；

识别所述目标图像中的目标对象的数量，得到所述目标数量。

4.根据权利要求3所述的方法，其特征在于，通过图像增强模型对所述待识别图像进行图像处理，得到目标图像，包括：

通过所述图像增强模型检测所述待识别图像的亮度值是否小于预设亮度值；

在所述待识别图像的亮度值小于所述预设亮度值的情况下，通过所述图像增强模型对所述待识别图像的亮度进行增强处理，得到所述目标图像，其中，所述目标图像的亮度值大于或等于所述预设亮度值；

在所述待识别图像的亮度值大于或等于所述预设亮度值的情况下，将所述待识别图像作为所述目标图像。

5.根据权利要求4所述的方法，其特征在于，所述姿态识别模型通过如下过程得到：

获取第一训练集合，其中，所述第一训练集合中包括L张第一图像，每张第一图像为一张通过图像形式表征M个对象中的每个对象的动作姿态，L为正整数；

将所述L张第一图像输入至所述图像增强模型中，得到L张第二图像，其中，每张第二图像的亮度值大于或等于该第二图像对应的第一图像的亮度值；

对所述每张第二图像中的每个对象设置第三标签，得到K个第三标签，其中，每个第三标签用于表征一个对象对应的动作姿态类别信息，K＝L*M；

对所述每张第二图像中的每个对象设置第四标签，得到K个第四标签，其中，每个第四标签用于表征一个对象对应的人体关键点坐标；

将所述L张第二图像、所述K个第三标签以及所述K个第四标签输入至初始神经网络模型中，进行迭代训练，得到所述姿态识别模型。

6.根据权利要求5所述的方法，其特征在于，将所述L张第二图像、所述K个第三标签以及所述K个第四标签输入至初始神经网络模型中，进行迭代训练，得到所述姿态识别模型，包括：

识别所述每张第二图像中的对象的数量，得到L个第一数量；

将所述每张第二图像转换为具有边界框的第三图像，得到L张第三图像，其中，所述边界框用于表征所述每张第二图像中的M个对象所在的位置；

将所述L张第三图像以及所述L个第一数量输入至初始神经网络模型中的卷积神经网络中，得到K个对象中的每个对象对应的第一特征图，其中，所述卷积神经网络用于从每张第三图像中提取所述每个对象对应的特征图；

将所述每个对象对应的第一特征图输入至所述初始神经网络模型中的全局平均池化层，得到所述全局平均池化层输出的每个对象对应的第二特征图，其中，所述全局平均池化层用于对所述第一特征图进行降维处理，所述第一特征图的维度数量高于所述第二特征图的维度数量；

通过所述初始神经网络模型中的参数提取网络对所述每个对象对应的第二特征图进行人体关键点参数提取，得到所述每个对象的每个人体关键点对应的位置参数和所述每个对象对应的尺度参数，其中，所述尺度参数用于表征所述每个对象的人体关键点在所述第二特征图中的分布情况；

将所述每个对象的每个人体关键点对应的位置参数、所述每个对象对应的尺度参数、所述K个第三标签以及所述K个第四标签输入至混合模型中，进行所述迭代训练，得到所述姿态识别模型。

7.根据权利要求5所述的方法，其特征在于，所述二分类模型通过如下过程得到：

将所述L张第二图像输入至所述姿态识别模型中，得到所述姿态识别模型输出的K个对象中的每个对象的实际动作姿态类别信息；

对所述每个对象的实际动作姿态类别信息设置标签，得到K个标签，其中，所述标签为第五标签或第六标签，所述第五标签用于表征所述对象对应的实际动作姿态类别与所述预设动作姿态类别不相同，所述第六标签用于表征所述对象对应的实际动作姿态类别与所述预设动作姿态类别相同；

将所述每个对象的实际动作姿态类别信息、所述K个标签输入至初始二分类模型中进行模型训练，得到所述二分类模型。

8.一种多人姿态的识别装置，其特征在于，包括：

获取模块，用于获取待识别图像，其中，所述待识别图像通过图像形式表征M个目标对象中的每个目标对象的动作姿态，M为正整数；

第一识别模块，用于识别所述待识别图像中的目标对象的数量，得到目标数量；

第二识别模块，用于将所述待识别图像以及所述目标数量输入至姿态识别模型中，得到所述姿态识别模型输出的识别结果，其中，所述识别结果中包括所述每个目标对象对应的动作姿态类别信息和所述每个目标对象对应的人体关键点坐标，所述姿态识别模型为包括混合模型的神经网络模型，所述混合模型用于通过柯西分布函数确定所述每个目标对象对应的人体关键点坐标。

9.一种计算机可读存储介质，其特征在于，计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的多人姿态的识别方法。

10.一种电子设备，其特征在于，包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至7中任意一项所述的多人姿态的识别方法。