CN117854156A - 一种特征提取模型的训练方法和相关装置 - Google Patents

一种特征提取模型的训练方法和相关装置 Download PDF

Info

Publication number
CN117854156A
CN117854156A CN202410261643.5A CN202410261643A CN117854156A CN 117854156 A CN117854156 A CN 117854156A CN 202410261643 A CN202410261643 A CN 202410261643A CN 117854156 A CN117854156 A CN 117854156A
Authority
CN
China
Prior art keywords
probability distribution
feature extraction
model
difference
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410261643.5A
Other languages
English (en)
Other versions
CN117854156B (zh
Inventor
张映艺
贾琼
张睿欣
丁守鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202410261643.5A priority Critical patent/CN117854156B/zh
Publication of CN117854156A publication Critical patent/CN117854156A/zh
Application granted granted Critical
Publication of CN117854156B publication Critical patent/CN117854156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请实施例公开了一种特征提取模型的训练方法和相关装置,可应用于云技术、人工智能、智慧交通、辅助驾驶等场景。通过初始特征提取模型对图像样本进行特征提取,得到各个关键点的特征。根据各个关键点的特征,确定各个关键点的概率分布。从多个概率分布中采样得到多个样本,通过初始归一化流模型对多个样本进行拟合,得到模拟概率分布。根据模拟概率分布和真实概率分布之间的差异,调整初始归一化流模型的模型参数和初始特征提取模型的模型参数,得到特征提取模型。由此,归一化流模型和特征提取模型构成的整体模型,其输入数据和输出数据处在同一个空间维度上,特征提取模型捕捉图像中内在信息的能力提高,从而提高关键点的位置坐标的准确性。

Description

一种特征提取模型的训练方法和相关装置
技术领域
本申请涉及图像处理技术领域,特别是涉及一种特征提取模型的训练方法和相关装置。
背景技术
姿态估计是预测实体上预定义的关键点的位置坐标,从而通过关键点的位置坐标识别物体的姿态。例如,人体姿态估计是将头部、肩膀或肘部等关节作为关键点进行识别,从而基于各个关键点的位置坐标确定人物姿态的过程。
相关技术中,一般采用基于回归的姿态估计方式,即根据待识别图像,通过回归模型进行预测,得到待识别图像中关键点的位置坐标,从而基于关键点的位置坐标确定姿态。但是,该种方式得到的关键点的位置坐标的准确性较低。
发明内容
为了解决上述技术问题,本申请提供了一种特征提取模型的训练方法和相关装置,用于提高关键点的位置坐标的准确性。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供一种特征提取模型的训练方法,所述方法包括:
获取包括多个关键点的图像样本,所述关键点具有真实位置坐标;
根据所述图像样本,通过初始特征提取模型进行特征提取,得到多个所述关键点分别对应的特征;
根据各个所述关键点的特征,确定各个所述关键点的概率分布,所述概率分布用于描述对应关键点在所述图像样本中各个位置的概率;
从多个所述概率分布中进行采样,得到多个样本;
根据多个所述样本,通过初始归一化流模型进行拟合,得到模拟概率分布;
根据所述模拟概率分布和真实概率分布之间的差异,调整所述初始归一化流模型的模型参数和所述初始特征提取模型的模型参数,得到特征提取模型,所述真实概率分布是基于所述样本对应的关键点的真实位置坐标确定的。
另一方面,本申请实施例提供一种特征提取模型的训练装置,所述装置包括:获取单元、特征提取单元、转换单元、采样单元、拟合单元和调整单元;
所述获取单元,用于获取包括多个关键点的图像样本,所述关键点具有真实位置坐标;
所述特征提取单元,用于根据所述图像样本,通过初始特征提取模型进行特征提取,得到多个所述关键点分别对应的特征;
所述转换单元,用于根据各个所述关键点的特征,确定各个所述关键点的概率分布,所述概率分布用于描述对应关键点在所述图像样本中各个位置的概率;
所述采样单元,用于从多个所述概率分布中进行采样,得到多个样本;
所述拟合单元,用于根据多个所述样本,通过初始归一化流模型进行拟合,得到模拟概率分布;
所述调整单元,用于根据所述模拟概率分布和真实概率分布之间的差异,调整所述初始归一化流模型的模型参数和所述初始特征提取模型的模型参数,得到特征提取模型,所述真实概率分布是基于所述样本对应的关键点的真实位置坐标确定的。
另一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的方法。
由上述技术方案可以看出,获取图像样本,该图像样本包括多个具有真实位置坐标的关键点,以便基于真实位置坐标得到关键点的真实概率分布。通过初始特征提取模型对图像样本进行特征提取,得到各个关键点的特征。为了避免输入数据和输出数据不处在同一个空间维度,不再基于关键点的特征直接预测关键点的位置坐标,而是根据各个关键点的特征,确定关键点在图像样本中各个位置的概率,即得到各个关键点的概率分布。从多个概率分布中采样得到多个样本,并通过初始归一化流模型对多个样本进行拟合,得到模拟概率分布,相当于将关键点的位置坐标转换为图像平面空间上的概率分布,从而促使输入数据和输出数据处于同一个空间维度上。
为了使得初始归一化流模型能够逐渐逼近关键点的潜在分布,不仅可以调整初始归一化流模型的模型参数,提高其拟合数据的能力,还可以调整初始特征提取模型的模型参数,使得初始归一化流模型的输入数据更加真实,即根据模拟概率分布和真实概率分布之间的差异,调整初始归一化流模型的模型参数和初始特征提取模型的模型参数,得到特征提取模型和归一化流模型。由此,初始归一化流模型和初始特征提取模型构成的整体模型,其输入数据和输出数据处在同一个空间维度上,通过训练得到的特征提取模型,其捕捉图像中内在信息的能力提高,即捕获底层关键点的位置坐标分布方面的表示能力提高,从而后续基于特征提取模型得到的特征,确定的关键点的位置坐标的准确性更高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种特征提取模型的训练方法的应用场景示意图;
图2为本申请实施例提供的一种特征提取模型的训练方法的流程示意图;
图3为本申请实施例提供的一种掌纹识别的示意图;
图4为本申请实施例提供的一种手掌检测的示意图;
图5为本申请实施例提供的一种姿态识别的示意图;
图6为本申请实施例提供的一种对象识别的示意图;
图7为本申请实施例提供的一种特征提取模型的训练装置的结构示意图;
图8为本申请实施例提供的服务器的结构示意图;
图9为本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
姿态估计是计算机视觉的一项基本任务,其广泛应用于各种视觉任务,是许多下游任务(如人体运动分析、活体识别、动作捕捉等)的预处理操作。相关技术中,将待识别图像输入至训练好的回归模型中,通过回归模型进行预测,得到待识别图像中关键点的位置坐标,从而基于关键点的位置坐标确定姿态。但是,该种方式得到的关键点的位置坐标的准确性较低。
经过研究发现,由于回归模型的输入数据和输出数据并不处在同一个空间维度,即输入数据(即待识别图像)属于二维数据,输出数据(即关键点位置坐标)属于一维数据,因此约束坐标值是一种隐式的、非对齐的约束方式,从而回归模型并不能很好地捕捉到待识别图像中的内在信息,其捕获底层关键点位置分布方面的表示能力有限,也就是说,由于导致其输出的关键点的位置坐标的准确性较低。
基于此,本申请实施例提供一种特征提取模型的训练方法和相关装置,初始归一化流模型和初始特征提取模型构成的整体模型,其输入数据和输出数据处在同一个空间维度上,从而通过训练得到的特征提取模型,其捕捉图像中内在信息的能力提高,即捕获底层关键点的位置坐标分布方面的表示能力提高,从而后续基于特征提取模型得到的特征,确定的关键点的位置坐标的准确性更高。
在本申请提供的图像特征提取模型的训练方法,训练得到的特征提取模型后,可以应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶、物联网、身份识别、影视产业和医疗保健等。需要说明的是,下述应用场景仅为示例,本实施例提供的图像特征提取模型的训练方法还可以应用于其他场景中,此处不做限定。下面以三个场景为例进行说明。
场景一,自动驾驶场景。
车辆实时拍摄车辆周围的环境图像,以识别车辆前方的行人为例,可以通过特征提取模型提取环境图像中的人体关键点的特征,然后基于人体关键点的特征确定人体关键点的位置坐标,从而得到车辆前方行人的姿态,进而决定车辆的行驶速度和方向等。
场景二,身份识别场景。
随着人们对隐私信息问题的关注,掌纹识别在支付、核实身份等应用场景逐渐开始普及,可以通过特征提取模型提取待识别图像中的人体关键点的特征,然后基于手掌关键点的特征确定手掌关键点的位置坐标,从而在待识别图像中圈选出手掌的位置,即只将手掌区域的图像传递给后续掌纹识别模块,从而提高后续掌纹识别的准确性。
场景三,动作识别场景。
通过训练好的特征提取模型对待识别图像进行特征提取,从而得到待识别图像中包括的实体的关键点的特征,然后基于实体的关键点的特征确定实体关键点的位置坐标,从而得到实体的姿态,从而实现针对人体或动物等实体的动作识别、手势识别、步态识别等,进而可以判断实体是否摔倒、是否具有疾病信号、体育或舞蹈的自动教学或电影特效制作等。
本申请提供的特征提取模型的训练方法可以应用于具有特征提取模型的训练能力的计算机设备,如终端设备、服务器。其中,终端设备具体可以为台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备、飞行器和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等,智能车载设备可以车载导航终端和车载电脑等,便携式可穿戴设备可为智能手表、智能手环、头戴设备等,但并不局限于此;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
为了便于理解本申请实施例提供的特征提取模型的训练方法,下面以该特征提取模型的训练方法的执行主体为服务器为例,对该特征提取模型的训练方法的应用场景进行示例性介绍。
参见图1,该图为本申请实施例提供的一种特征提取模型的训练方法的应用场景示意图。如图1所示,该应用场景中包括服务器100,服务器100可以是独立的、用于训练特征提取模型的服务器,当完成特征提取模型的训练后,可以将训练得到的特征提取模型部署在产品对应的服务器或终端设备上,以便提供特征提取、姿态识别等服务;服务器100也可以是提供为各种产品提供对应服务的服务器,提供的服务例如可以包括对人体或动物等实体的图像进行特征提取。下面以服务器100训练特征提取模型为例进行说明。
服务器100获取图像样本,如图1所示,图像样本可以是多张等待识别人体姿势的图像,该图像样本包括多个具有真实位置坐标的关键点,以便基于真实位置坐标得到关键点的真实概率分布。通过初始特征提取模型对图像样本进行特征提取,得到各个关键点的特征。为了避免输入数据和输出数据不处在同一个空间维度,不再基于关键点的特征直接预测关键点的位置坐标,而是根据各个关键点的特征,确定关键点在图像样本中各个位置的概率,即得到各个关键点的概率分布。从多个概率分布中采样得到多个样本,并通过初始归一化流模型对多个样本进行拟合,得到模拟概率分布,相当于将关键点的位置坐标转换为图像平面空间上的概率分布,从而促使输入数据和输出数据处于同一个空间维度上。
为了使得初始归一化流模型能够逐渐逼近关键点的潜在分布,不仅可以调整初始归一化流模型的模型参数,提高其拟合数据的能力,还可以调整初始特征提取模型的模型参数,使得初始归一化流模型的输入数据更加真实,即根据模拟概率分布和真实概率分布之间的差异,调整初始归一化流模型的模型参数和初始特征提取模型的模型参数,得到特征提取模型和归一化流模型。由此,初始归一化流模型和初始特征提取模型构成的整体模型,其输入数据和输出数据处在同一个空间维度上,通过训练得到的特征提取模型,其捕捉图像中内在信息的能力提高,即捕获底层关键点的位置坐标分布方面的表示能力提高,从而后续基于特征提取模型得到的特征,确定的关键点的位置坐标的准确性更高。
本申请实施例所提供的特征提取模型的训练方法可以由服务器执行。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请实施例所提供的特征提取模型的训练方法,或者由终端设备和服务器共同执行本申请实施例所提供的特征提取模型的训练方法,本实施例对此不做限定。
下面通过方法实施例对本申请提供的一种特征提取模型的训练方法进行详细介绍。
参见图2,该图为本申请实施例提供的一种特征提取模型的训练方法的流程示意图。为了便于描述,下述实施例仍以该特征提取模型的训练方法的执行主体为服务器为例进行介绍。如图2所示,该特征提取模型的训练方法包括以下步骤:
S201:获取包括多个关键点的图像样本。
图像样本为包括多个关键点的图像,其中,关键点均是在实体姿态识别过程中,用于描述实体姿态和动作的特定部位。以人体姿态识别为例,关键点可以是头部、脖子、肩膀、手肘、手腕、腰部、膝盖和脚踝等部位的位置坐标。准确检测关键点的位置可以提高姿态识别的准确性和鲁棒性,从而更好地应用于实际场景中。
而且,图像样本包括的各个关键点均具有真实位置坐标。真实位置坐标是能够准确描述关键点位置的坐标,可以通过人工标定得到。
可以理解的是,在本申请的具体实施方式中,若图像涉及到用户信息、面部图像等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户单独许可或者单独同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
S202:根据图像样本,通过初始特征提取模型进行特征提取,得到多个关键点分别对应的特征。
初始特征提取模型是还未训练完成的特征提取模型,用于对输入数据进行特征提取。例如,图像样本进行特征提取,从而得到图像样本包括的各个关键点分别对应的特征。关键点的特征指的是关键点所具有的独特属性或标志,例如角点、边缘、纹理等。这些特征可以用于描述和识别关键点,从而提取出图像中的重要信息和结构。
本申请实施例不具体限定初始特征提取模型,例如,初始特征提取模型可以包括骨干网络和卷积层,骨干网络用于进行特征提取,卷积层用于调整骨干网络输出的特征的维度。例如,将样本图像输入至骨干网络中,通过骨干网络进行特征提取,得到特征图,将特征图输入至卷积层,得到特征f,该特征f的大小为。其中,/>为样本图像包括的关键点的数量,/>为特征f的宽度,/>为特征f的长度。特征图是通过骨干网络中的卷积核与输入图像(如图像样本)进行卷积运算后得到的输出,反映了输入图像在卷积核的作用下所提取的某些特征,如颜色、纹理、形状等。
S203:根据各个关键点的特征,确定各个关键点的概率分布。
为了避免输入数据和输出数据不处在同一个空间维度,不再基于关键点的特征直接预测关键点的位置坐标,而是根据各个关键点的特征,确定关键点在图像样本中各个位置的概率,即得到各个关键点的概率分布。一般关键点的特征和概率分布之间存在一定的关联,如某些关键点特征的出现可能与概率分布中的峰值有关。
概率分布用于描述对应关键点在图像样本中各个位置的概率,如用于标识肘部的关键点在图像中(2,3)的概率为50%,在(3,4)的概率为30%等。可以理解的是,各个关键点在图像中所有位置的概率之和为1。关键点的概率分布则是指关键点在图像中出现的概率或密度情况。通过概率分布可以明确关键点在图像中的分布情况和密度,从而更好地理解图像的内容和结构。
本申请实施例不具体限定将特征转换为概率分布的方式,本领域技术人员可以采用实际需要进行设置。例如,通过argmax函数或将特征转换为概率分布。又如,通过softmax函数将特征转换为概率分布,可以参见公式(1)。
(1)
其中,为第i个关键点对应的概率分布,/>为第i个关键点的特征。
相比于通过argmax函数或将特征转换为概率分布,通过softmax函数将特征转换为概率分布不会产生导致梯度截断,从而无法进行端到端训练。
S204:从多个概率分布中进行采样,得到多个样本。
一个关键点对应一个概率分布,以一个关键点为例,从该关键点对应的概率分布进行提取,得到该关键点对应的样本。从而针对每个关键点对应的概率分布分别进行采样,得到多个样本。
作为一种可能的实现方式,由于概率分布可能为离散分布,在离散分布中进行采样的难度较高,故此,可以将离散分布看为一个分类问题,即将概率图上的每个位置坐标作为一个类别,将每个位置坐标对应的概率值分别与随机噪声相加,得到多个扰动概率。其中,随机噪声服从耿贝尔(Gumbel)分布,Gumbel分布能够从类别分布中进行采样。而且扰动概率能够实现微分,从而在模型训练过程中不丢失梯度信息。最后根据退火参数,对多个扰动概率进行归一化,得到针对目标关键点的样本,将多个概率分布分别作为目标概率分布,得到多个样本。
继续以前述第i个关键点为例,对于第i个关键点对应的概率分布,概率分布/>是一个离散分布,在离散分布中采样非常困难。故此,将离散分布看为一个分类问题,即将概率图上的每个位置坐标作为一个类别,每个位置坐标对应的概率值可以表示为,所有概率值的和为1。可以应用Gumbel Max从概率分布/>中提取样本,具体参见公式(2)。
(2)
其中,为样本,/>为第i个关键点的特征的宽度,/>为第i个关键点的特征的长度,/>是第j个位置坐标,/>是独立同分布的标准Gumbel分布中采样随机变量,Gumbel分布的函数/>可以表示为同时(3)。
(3)
通过对公式(3)求逆从均匀分布,可以得到公式(4)。
(4)
其中,是独立同分布的标准Gumbel分布中采样随机变量,/>为均匀分布上的随机采样。
由于公式2中的argmax不可微分,因此使用可微分的近似版Gumbel Softmax来代替Gumbel Max,参见公式(5)。
(5)
其中,为样本,/>为第i个关键点的特征的宽度,/>为第i个关键点的特征的长度,/>是针对第i个关键点的特征中第j个位置坐标,/>是独立同分布的标准Gumbel分布中采样随机变量,/>为退火参数,/>
需要说明的是,当越接近于0,公式(5)就越近似于公式(2),但梯度消失的问题也会更严重;当/>较大时,公式(5)就越接近于均匀分布,训练稳定性也会越强。作为一种可能的实现方式,在模型训练过程中,可以采用一个稍大的/>起步,随后慢慢退火到一个接近0的数值。
由此,当关键点的概率分布为离散分布时,为了避免在离散分布中进行采样的难度较高的问题,本申请实施例将离散分布看为一个分类问题,即将概率图上的每个位置坐标作为一个类别,将每个位置坐标对应的概率值分别与随机噪声相加,得到多个扰动概率。其中,随机噪声服从Gumbel分布,Gumbel分布能够从类别分布中进行采样,从而将离散分布转换为在类别中进行采样的问题。而且得到的扰动概率能够实现微分,在模型训练过程中不丢失梯度信息,提高模型的准确性。最后,根据退火参数,对多个扰动概率进行归一化,得到针对目标关键点的样本,将多个概率分布分别作为目标概率分布,得到多个样本。从而保证模型训练的准确性。
S205:根据多个样本,通过初始归一化流模型进行拟合,得到模拟概率分布。
初始归一化流模型是还未训练完成的归一化流模型,归一化流模型能够通过构造一种可逆的变换,将任意的数据分布变换到一个简单的基础分布。将多个样本输入至初始归一化流模型进行拟合,得到用于描述关键点的位置坐标的概率分布,即模拟概率分布。
通过归一化流模型,能够学习并理解输入数据,即关键点的位置坐标的潜在分布,这种潜在分布能够描述数据内在的结构和规律,从而归一化流模型能够更好地理解输入数据,以便提高关键点的位置坐标的准确性。
继续以前述为例,可以通过公式(5)得到的多个样本来构建初始归一化流模型的概率分布形状,该概率分布形状以初始归一化流模型预测的关键点的位置坐标为中心。作为一种可能的实现方式,可以通过重参数化的方式,得到模拟概率分布,如公式(6)所示。
(6)
其中,为模拟概率分布,/>为通过初始归一化流模型计算给定数据点的对数概率,/>为样本,/>是初始归一化流模型预测的关键点的位置坐标,/>为样本的方差。作为一种可能的实现方式,可以设置方差由大到小变化,从而使得模型快速收敛。
S206:根据模拟概率分布和真实概率分布之间的差异,调整初始归一化流模型的模型参数和初始特征提取模型的模型参数,得到特征提取模型。
模拟概率分布是初始归一化流模型学习到的关键点的位置坐标的概率分布,真实概率分布是关键点的位置坐标的概率分布,可以基于样本对应的关键点的真实位置坐标确定,从而模拟概率分布和真实概率分布之间的差异可以体现初始归一化流模型的学习能力,进而根据模拟概率分布和真实概率分布之间的差异,如基于使得模拟概率分布和真实概率分布之间的差异越来越小的训练方式,调整初始归一化流模型的模型参数和初始特征提取模型的模型参数,不断调整模型参数的过程即为模型的训练过程,从而得到训练好的特征提取模型和/或归一化流模型,使得归一化流模型拟合得到的模拟概率分布越来越接近真实概率分布,且特征提取模型提取得到的特征更为准确。
此外,相关技术中,还会基于特征提取模型得到的特征图,生成高分辨率的热图。每一个关键点均会生成一张热图,在热图中,最有可能出现关键点的位置将会以高概率标注,其余位置以低概率标注。最后,基于热图,使用argmax函数就能得到关键点的位置坐标。但是,由于热图的尺寸有限,使用argmax函数得到的关键点的位置坐标往往存在量化误差,从而位置坐标的准确性较低。
基于此,本申请实施例认为特征提取模型输出的特征(或骨干网络输出的特征图)存在一个概率分布,故而将特征提取模型输出的特征,转换为概率分布,通过初始归一化流模型进行学习,得到模拟概率分布。归一化流模型能够根据输入的样本拟合出对应的形状,能够将一个空间内的分布转换为另一个空间内的分布,从而可以基于模拟概率分布和真实概率分布之间的差异训练初始归一化流模型。
而且,初始归一化流模型的拟合能力不仅与自身的参数有关,还与特征提取模型输出的特征的准确性有关,如若特征提取模型输出的关键点的特征的准确性较低,初始归一化流模型基于准确性较低的特征对应的概率分布进行学习,从而影响其学习的效果。故在模型训练的过程中,不仅要调整初始归一化模型的模型参数,还要同时调整特征提取模型的模型参数,使得特征提取模型能够更为准确性地进行特征提取,归一化流模型也能够更准确地拟合概率分布。从而该种方式不会使用热图,不会压缩关键点的特征,提高了后续得到的关键点的位置坐标的准确性。
可以理解的是,本申请实施例提供的特征提取模型的训练方法主要可以涉及人工智能技术,通过人工智能技术自动实现针对文本片段生成文本配图。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
在本申请实施例中,主要涉及的人工智能技术包括上述机器学习技术方向。机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
其中,预训练模型(Pre-training model,PTM),也称基石模型、大模型,指具有大参量的深度神经网络(Deep neural network,DNN),在海量未标记的数据上对其进行训练,利用大参量DNN的函数近似能力使PTM在数据上提取共性特征,经微调(fine tune)、参数高效微调(Parameter Efficient Fine-tuning ,PEFT)、提示学习(prompt-tuning)等技术,适用于下游任务。因此,预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(如ELMO、BERT、GPT等)、视觉模型(如swin-transformer、ViT、V-MOE等)、语音模型(如VALL-E)、多模态模型(如ViBERT、CLIP、Flamingo、Gato等)等,其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(Artificial Intelligence Generated Content ,AIGC)重要工具,也可以作为连接多个具体任务模型的通用接口。
由上述技术方案可以看出,获取图像样本,该图像样本包括多个具有真实位置坐标的关键点,以便基于真实位置坐标得到关键点的真实概率分布。通过初始特征提取模型对图像样本进行特征提取,得到各个关键点的特征。为了避免输入数据和输出数据不处在同一个空间维度,不再基于关键点的特征直接预测关键点的位置坐标,而是根据各个关键点的特征,确定关键点在图像样本中各个位置的概率,即得到各个关键点的概率分布。从多个概率分布中采样得到多个样本,并通过初始归一化流模型对多个样本进行拟合,得到模拟概率分布,相当于将关键点的位置坐标转换为图像平面空间上的概率分布,从而促使输入数据和输出数据处于同一个空间维度上。
为了使得初始归一化流模型能够逐渐逼近关键点的潜在分布,不仅可以调整初始归一化流模型的模型参数,提高其拟合数据的能力,还可以调整初始特征提取模型的模型参数,使得初始归一化流模型的输入数据更加真实,即根据模拟概率分布和真实概率分布之间的差异,调整初始归一化流模型的模型参数和初始特征提取模型的模型参数,得到特征提取模型和归一化流模型。由此,初始归一化流模型和初始特征提取模型构成的整体模型,其输入数据和输出数据处在同一个空间维度上,通过训练得到的特征提取模型,其捕捉图像中内在信息的能力提高,即捕获底层关键点的位置坐标分布方面的表示能力提高,从而后续基于特征提取模型得到的特征,确定的关键点的位置坐标的准确性更高。
本申请实施例不具体限定模型训练过程中使用的损失函数,下面以三种损失函数为例分别进行说明。
方式一。
参见公式(7)。
(7)
其中,为整体损失函数,/>为第一差异,第一差异用于描述模拟概率分布和真实概率分布之间的差异,可以表示为公式(8)。
(8)
其中,为模拟概率分布,可以参见前述公式(6)。
作为一种可能的实现方式,可以通过最大似然估计和公式(8)实现模型的训练,最大似然估计是一种常用的参数估计方法,它通过最大化数据的似然函数来估计参数。在归一化流模型中,可以使用最大似然估计来估计变换函数的参数,使得归一化流模型生成的模拟概率分布与真实数据的概率分布尽可能相似。
方式二。
如方式一所述的单独的最大似然估计作为整体损失函数,虽然也可以实现归一化流模型的训练,但是,单独使用最大似然估计可能不足以完全拟合数据的复杂分布。在这种情况下,结合标准概率分布可以提供更多的灵活性和自由度,使归一化流模型更好地拟合数据,具体参见A1-A4。
A1:根据各个关键点的真实位置坐标,确定各个关键点的标准概率分布。
本申请实施例不具体限定标准概率分布,本领域技术人员可以根据实际需要进行设置。以高斯分布为例,高斯分布的均值和方差等参数可以作为先验信息,即可以根据关键点的真实位置坐标,确定方差和均值,从而得到符合高斯分布的标准概率分布,进而引导归一化流模型向特定的数据分布进行拟合。通过结合高斯分布,归一化流模型可以利用高斯分布在概率分布建模方面的优势,如简单性、灵活性和连续性等。同时,高斯分布的可逆变换特性也使得归一化流模型能够实现更复杂的数据变换和生成任务。
A2:从多个标准概率分布中进行采样,得到多个目标采样点。
继续以高斯分布为标准概率分布,以多个关键点中一个关键为例,目标采样点符合标准概率分布,可以表示为公式(9)。
(9)
其中,为标准概率分布,/>为采样得到的目标采样点,为真实位置坐标,/>为基于真实位置坐标得到的方差。
从而基于上述方式得到每一个关键点的目标采样点,进而得到多个采样点。
A3:根据多个目标采样点,通过初始归一化流模型进行拟合,得到针对各个关键点的预测概率分布。
继续以一个关键点为例,将基于该关键点采样得到的目标采样点,输入至初始归一化流模型中,以便基于标准概率分布引导初始归一化流模型的概率分布的形状。
根据多个目标采样点,通过初始归一化流模型进行拟合,得到针对各个关键点的预测概率分布,可以表示为公式(10)。
(10)
其中,为模拟概率分布,/>为通过初始归一化流模型计算给定数据点的对数概率,/>为采样得到的目标采样点,/>为真实位置坐标,/>为基于目标采样点得到的方差。
A4:根据第一差异和第二差异,调整初始归一化流模型的模型参数和初始特征提取模型的模型参数,得到特征提取模型。
其中,第一差异为模拟概率分布和真实概率分布之间的差异,第二差异为预测概率分布和标准概率分布之间的差异。
基于第一差异和第二差异的损失函数可以表示为公式(11)。
(11)
其中,为整体损失函数,/>为第一差异,/>为第二差异,第二差异可以表示为公式(12)。
(12)
其中,为第二差异,/>为标准概率分布,具体参见公式(9),/>为模拟概率分布,具体参见公式(10)。相当于通过施加KL散度约束以拉近预测概率分布和标准概率分布。
由此,虽然真实位置坐标的概率分布往往是未知的,可能无法直接计算KL散度。在这种情况下,可以假设真实数据的分布是高斯分布等标准概率分布,并在标准概率分布上采样以近似计算KL散度。从而由于标准概率分布具有简单的数学形式和计算方便性,可以作为一个合理的近似来评估模型与真实数据分布之间的差异,以引导初始归一化流模型快速准确地学习,即在优化初始归一化流模型的模型参数时,不仅要最小化模拟概率分布和真实概率分布之间的差异,还要尽可能地使初始归一化流模型生成的预测概率分布接近标准概率分布。从而不仅提高模型的训练效率,还可以提高归一化流模型的拟合能力和灵活性,使得归一化流模型更好地适应不同数据分布的情况。
方式三。
在采用方式二进行模型训练的过程中,由于模型在训练初期对于模型的坐标与方差都毫无头绪,很容易走入死胡同。故此,在方式二的基础上,增加入了理想概率分布的约束,参见B1-B2。
B1:根据多个关键点分别对应的特征,得到各个关键的理想概率分布。
本申请实施例不具体限定理想概率分布,本领域技术人员可以根据实际需要进行设置。下面以图像样本为包括对象面部的图像为例,理想概率分布可以服从高斯分布或拉普拉斯分布,可以表示为公式(13)。由此,针对包括对象面部的图像样本,虽然对象面部的关键距离较近,识别较为复杂,但相比于其他分布,高斯分布或拉普拉斯分布更为稳定和方便,在保证准确性的同时,稳定性更高。
(13)
其中,为理想概率分布,/>为高斯分布,/>为拉普拉斯分布,/>为基于关键点的特征得到的方差,/>为基于关键点特征得到的样本,/>为基于关键点的特征得到的均值。
B2:根据第一差异、第二差异和第三差异,调整初始归一化流模型的模型参数和初始特征提取模型的模型参数,得到特征提取模型。
其中,第一差异为模拟概率分布和真实概率分布之间的差异,第二差异为预测概率分布和标准概率分布之间的差异,第三差异为标准概率分布和理想概率分布之间的差异。
基于第一差异、第二差异和第三差异的损失函数可以表示为公式(14)。
(14)
其中,为整体损失函数,/>为第一差异,/>为第二差异,/>为第三差异,第三差异可以表示为公式(15)。
(15)
其中,为第三差异,/>为标准概率分布,具体参见公式(9),为理想概率分布,具体参见公式(13)。
由此,基于包括第一差异、第二差异和第三差异的整体损失函数实现模型训练,可以在优化初始归一化流模型的模型参数时,不仅要最小化模拟概率分布和真实概率分布之间的差异,还要尽可能地使初始归一化流模型生成的预测概率分布接近标准概率分布。而且,通过理想概率分布的约束,使得初始归一化流模型在拟合数据的同时,还要考虑与理想分布的偏差。这样可以避免模型在训练初期陷入不良的局部最优解,并提高模型的稳定性和泛化能力。
作为一种可能的实现方式,不仅可以基于公式(14)表示整体损失函数,还可以基于公式(16)表示整体损失函数。即,根据第一差异、第二差异、第三差异、第一权重和第二权重,确定整体损失函数,从而基于最小化整体损失函数的训练方向,调整初始归一化流模型的模型参数和初始特征提取模型的模型参数,得到特征提取模型和/或归一化流模型。
(16)
其中,为整体损失函数,/>为第一差异,/>为第二差异,/>的第三差异,/>为第一权重,用于通过调整第二差异,从而缩小第二差异与第一差异之间差异,/>为第二权重,用于通过调整第三差异,从而缩小第三差异与第一差异之间的差异。
由此,通过第一权重和第二权重,可以调整第一差异、第二差异和第三差异之间相差较小,从而提高模型训练过程的稳定性。
作为一种能可能的实现方式,若迭代次数小于预设迭代次数阈值,且相邻两次模型训练得到的整体损失函数值的差值大于预设差值阈值,则增大第二权重,得到更新后的第二权重。
本申请实施例不具体限定预设迭代次数阈值的大小,本领域技术人员可以根据实际需要进行设置。若迭代次数小于预设迭代次数阈值,且相邻两次模型训练得到的整体损失函数值的差值大于预设差值阈值,说明在模型训练的初期,模型的波动较大,即模型训练不稳定,从而增大第二权重的大小,提高模型训练的稳定性。
由前述可知,还可以基于热力图的方式得到关键点的位置坐标,相关技术中,虽然可以采用softmax函数替代argmax函数,即通过softmax函数江南热图转换为概率分布,以避免产生导致梯度截断,从而无法进行端到端训练的问题。但是,由于将特征转换为热图,再基于热图得到概率分布的方式,由于softmax函数会改变概率分布的形状,使得模型所学习的热图与最终的概率分布之间存在一定差异,导致关键点的位置坐标的准确性 。而且,在确定关键点的位置坐标过程中,会使用到热图,热图的计算量大,会导致确定时间较长,不适用于实时姿态识别等对时间要求较高的场景。
基于此,本申请实施例不再使用热图确定关键点的坐标位置,而是基于初始特征提取模型提取图像样本包括的关键点的特征,再将关键点的特征转换为概率分布,通过初始归一化流模型进行拟合,归一化流模型能够拟合任意概率分布,因此可以被用来建模关键点的概率分布。从而在训练初始归一化流模型的拟合能力的同时,调整特征提取模型的特征提取能力,得到特征提取模型。
在获取待识别图像后,根据待识别图像,通过特征提取模型进行特征提取,得到待识别图像包括的多个待识别关键点分别对应的特征,根据多个待识别关键点分别对应的特征,确定各个待识别关键点的概率分布,根据各个待识别关键点的概率分布,确定各个待识别关键点的位置坐标。
由此,初始归一化流模型后接于特征提取模型,针对待识别图像的关键点进行位置坐标识别时,无需使用归一化流模型,降低了整体耗时。而且,该种方式不会使用到热图,且模型本身更轻量,不会带来多余的耗时负担。也就是说,该种方式的耗时代价极小,可适用于实时姿态识别等对时间要求较高的场景。
为了便于进一步理解本申请实施例提供的技术方案,下面以本申请实施例提供的特征提取模型的训练方法的执行主体为服务器为例,对该特征提取模型的训练方法进行整体示例性介绍。
下面先对模型的训练过程进行说明。
S1:获取包括多个关键点的图像样本。
每个样本图像包括的多个关键点分别具有真实位置坐标,以人体姿态识别场景为例,可以标注图像样本中肘部等关键点的真实位置坐标,即肘部等关键点在样本图像中的位置。
S2:根据图像样本,通过初始特征提取模型进行特征提取,得到多个关键点分别对应的特征。
S3:根据各个关键点的特征,确定各个关键点的概率分布。
可以通过前述公式(1)的方式将关键点的特征转换为概率分布。
S4:从多个概率分布中进行采样,得到多个样本。
可以通过前述公式(5)的方式从各个关键点的概率分布中分别进行采样,得到多个样本。
S5:根据多个样本,通过初始归一化流模型进行拟合,得到模拟概率分布。
可以通过前述公式(6)的方式,基于多个样本来构建以预测的关键点的坐标为中心的初始归一化流模型的概率分布的形状。
S6:根据各个关键点的真实位置坐标,确定各个关键点的标准概率分布。
以高斯分布为例,高斯分布的均值和方差等参数可以作为先验信息,即可以根据关键点的真实位置坐标,确定方差和均值,从而得到符合高斯分布的标准概率分布,进而引导归一化流模型向特定的数据分布进行拟合。
S7:从多个标准概率分布中进行采样,得到多个目标采样点。
目标采样点对应的标准概率分布可以表示为前述公式(9)。
S8:根据多个目标采样点,通过初始归一化流模型进行拟合,得到针对各个关键点的预测概率分布。
预测概率分布可以表示为前述公式(10)。
S9:根据多个关键点分别对应的特征,得到各个关键的理想概率分布。
理想概率分布可以符合高斯分布或拉普拉斯分布,如前述公式(13)所示。
S10:根据第一差异、第二差异、第三差异、第一权重和第二权重,确定整体损失函数。
整体损失函数如前述公式(16)所示。
S11:基于最小化整体损失函数的训练方向,调整初始归一化流模型的模型参数和初始特征提取模型的模型参数,得到特征提取模型和归一化流模型。
在训练得到特征提取模型后,可以实现对关键点的位置坐标的识别。
S12:获取待识别图像。
S13:根据待识别图像,通过特征提取模型进行特征提取,得到待识别图像包括的多个待识别关键点分别对应的特征。
S14:根据多个待识别关键点分别对应的特征,确定各个待识别关键点的概率分布。
S15:根据各个待识别关键点的概率分布,确定各个待识别关键点的位置坐标。
将本申请实施例的方案与其他三个方案的对比情况如表1所示。
表1
其中,方案一是前述所述的基于热图得到关键点的位置坐标的方案,但其不使用反卷积。方案二是前述所述的基于热图得到关键点的位置坐标的方案,但其使用反卷积。方案三是前述所述基于回归模型确定关键点的位置坐标的方案。方案四是本申请S1-S15的实施例。全类平均正确率(mean Average Precision,mAP)在机器学习中的目标检测领域,是十分重要的衡量指标,用于衡量目标检测算法的性能。一般而言,全类平均正确率是将所有类别检测的平均正确率(AP)进行综合加权平均而得到的。
下面结合两个应用场景,对特征提取模型的应用进行说明。
参见图3,该图为本申请实施例提供的一种掌纹识别的示意图。
获取待识别视频后,对待识别视频的每帧图像进行手掌检测,如图4所示,通过检测框圈选出图像中手掌的位置,以便基于检测框对待识别图像进行裁剪,得到仅包括手掌的图像。针对多帧图像,对手掌的图像进行手部关键点检测、估计检测框的位置两种操作不断循环进行, 基于第一帧图像得到的检测框,在该区域中对第2-5帧图像的关键点的位置坐标进行识别,然后再对第6帧图像识别检测框的位置,并基于该检测框对第7-10帧图像的关键点的位置坐标进行识别,依次类推。可以理解的是,可以通过前述S11-S15的方式得到手掌关键点的位置坐标,在得到手部关键点的位置坐标后,提取感兴趣区域(region ofinterest,ROI),从而实现掌纹识别。
参见图5,该图为本申请实施例提供的一种姿态识别的示意图。
获取待识别图像后,对待识别图像中的待识别对象进行识别,即实现目标检测,如图6所示,通过检测框圈选出图像中待识别对象的位置,以便基于检测框对待识别图像进行裁剪,得到仅包括待识别对象的图像。可以通过前述S11-S15的方式得到待识别对象的关键点的位置坐标,实现对象姿态估计,最后提取感兴趣区域,从而实现动作识别、手势识别、步态识别等。
针对上文描述的特征提取模型的训练方法,本申请还提供了对应的特征提取模型的训练装置,以使上述特征提取模型的训练方法在实际中得以应用及实现。
参见图7,该图为本申请实施例提供的一种特征提取模型的训练装置的结构示意图。如图7所示,该特征提取模型的训练装置700包括:获取单元701、特征提取单元702、转换单元703、采样单元704、拟合单元705和调整单元706;
所述获取单元701,用于获取包括多个关键点的图像样本,所述关键点具有真实位置坐标;
所述特征提取单元702,用于根据所述图像样本,通过初始特征提取模型进行特征提取,得到多个所述关键点分别对应的特征;
所述转换单元703,用于根据各个所述关键点的特征,确定各个所述关键点的概率分布,所述概率分布用于描述对应关键点在所述图像样本中各个位置的概率;
所述采样单元704,用于从多个所述概率分布中进行采样,得到多个样本;
所述拟合单元705,用于根据多个所述样本,通过初始归一化流模型进行拟合,得到模拟概率分布;
所述调整单元706,用于根据所述模拟概率分布和真实概率分布之间的差异,调整所述初始归一化流模型的模型参数和所述初始特征提取模型的模型参数,得到特征提取模型,所述真实概率分布是基于所述样本对应的关键点的真实位置坐标确定的。
由上述技术方案可以看出,获取图像样本,该图像样本包括多个具有真实位置坐标的关键点,以便基于真实位置坐标得到关键点的真实概率分布。通过初始特征提取模型对图像样本进行特征提取,得到各个关键点的特征。为了避免输入数据和输出数据不处在同一个空间维度,不再基于关键点的特征直接预测关键点的位置坐标,而是根据各个关键点的特征,确定关键点在图像样本中各个位置的概率,即得到各个关键点的概率分布。从多个概率分布中采样得到多个样本,并通过初始归一化流模型对多个样本进行拟合,得到模拟概率分布,相当于将关键点的位置坐标转换为图像平面空间上的概率分布,从而促使输入数据和输出数据处于同一个空间维度上。
为了使得初始归一化流模型能够逐渐逼近关键点的潜在分布,不仅可以调整初始归一化流模型的模型参数,提高其拟合数据的能力,还可以调整初始特征提取模型的模型参数,使得初始归一化流模型的输入数据更加真实,即根据模拟概率分布和真实概率分布之间的差异,调整初始归一化流模型的模型参数和初始特征提取模型的模型参数,得到特征提取模型和归一化流模型。由此,初始归一化流模型和初始特征提取模型构成的整体模型,其输入数据和输出数据处在同一个空间维度上,通过训练得到的特征提取模型,其捕捉图像中内在信息的能力提高,即捕获底层关键点的位置坐标分布方面的表示能力提高,从而后续基于特征提取模型得到的特征,确定的关键点的位置坐标的准确性更高。
作为一种可能的实现方式,所述装置700还包括识别单元;
所述获取单元701,还用于获取待识别图像;
所述特征提取单元702,还用于根据所述待识别图像,通过所述特征提取模型进行特征提取,得到所述待识别图像包括的多个待识别关键点分别对应的特征;
所述转换单元703,还用于根据多个所述待识别关键点分别对应的特征,确定各个所述待识别关键点的概率分布;
所述识别单元,用于根据各个所述待识别关键点的概率分布,确定各个所述待识别关键点的位置坐标。
作为一种可能的实现方式,所述转换单元703,还用于根据各个所述关键点的真实位置坐标,确定各个所述关键点的标准概率分布;
所述采样单元704,还用于从多个所述标准概率分布中进行采样,得到多个目标采样点;
所述拟合单元705,还用于根据多个所述目标采样点,通过所述初始归一化流模型进行拟合,得到针对各个所述关键点的预测概率分布;
所述调整单元706,具体用于根据第一差异和第二差异,调整所述初始归一化流模型的模型参数和所述初始特征提取模型的模型参数,得到所述特征提取模型,所述第一差异为所述模拟概率分布和所述真实概率分布之间的差异,所述第二差异为所述预测概率分布和所述标准概率分布之间的差异。
作为一种可能的实现方式,所述转换单元703,还用于根据多个所述关键点分别对应的特征,得到各个所述关键的理想概率分布;
所述调整单元706,具体用于根据第一差异、第二差异和第三差异,调整所述初始归一化流模型的模型参数和所述初始特征提取模型的模型参数,得到所述特征提取模型,所述第三差异为所述标准概率分布和所述理想概率分布之间的差异。
作为一种可能的实现方式,若所述图像样本为包括对象面部的图像,则所述理想概率分布满足高斯分布或拉普拉斯分布。
作为一种可能的实现方式,所述调整单元706,具体用于:
根据所述第一差异、所述第二差异、所述第三差异、第一权重和第二权重,确定整体损失函数,所述第一权重用于缩小所述第二差异与所述第一差异之间差异,所述第二权重用于缩小所述第三差异与所述第一差异之间的差异;
基于最小化所述整体损失函数的训练方向,调整所述初始归一化流模型的模型参数和所述初始特征提取模型的模型参数,得到所述特征提取模型。
作为一种可能的实现方式,所述装置700还包括调参单元,用于若迭代次数小于预设迭代次数阈值,且相邻两次模型训练得到的整体损失函数值的差值大于预设差值阈值,则增大所述第二权重,得到更新后的第二权重。
作为一种可能的实现方式,所述采样单元704,具体用于:
针对多个关键点中目标关键点的目标概率分布,根据所述目标概率分布包括的多个概率值和随机噪声,得到多个可微分的扰动概率,所述随机噪声服从耿贝尔分布,所述目标概率分布为多个所述概率分布中的一个概率分布;
根据退火参数,对多个所述扰动概率进行归一化,得到针对所述目标关键点的样本,所述退火参数用于在训练过程中逐渐减小学习率;
将多个所述概率分布分别作为所述目标概率分布,得到多个所述样本。
本申请实施例还提供了一种计算机设备,该计算机设备可以为服务器或者终端设备,下面将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。其中,图8所示为服务器的结构示意图,图9所示为终端设备的结构示意图。
参见图8,该图为本申请实施例提供的一种服务器结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器1422,如中央处理器(Central Processing Units,CPU),存储器1432,一个或一个以上应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,处理器1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。
其中,CPU 1422用于执行如下步骤:
获取包括多个关键点的图像样本,所述关键点具有真实位置坐标;
根据所述图像样本,通过初始特征提取模型进行特征提取,得到多个所述关键点分别对应的特征;
根据各个所述关键点的特征,确定各个所述关键点的概率分布,所述概率分布用于描述对应关键点在所述图像样本中各个位置的概率;
从多个所述概率分布中进行采样,得到多个样本;
根据多个所述样本,通过初始归一化流模型进行拟合,得到模拟概率分布;
根据所述模拟概率分布和真实概率分布之间的差异,调整所述初始归一化流模型的模型参数和所述初始特征提取模型的模型参数,得到特征提取模型,所述真实概率分布是基于所述样本对应的关键点的真实位置坐标确定的。
可选的,CPU 1422还可以执行本申请实施例中特征提取模型的训练方法任一具体实现方式的方法步骤。
参见图9,该图为本申请实施例提供的一种终端设备的结构示意图。以该终端设备是智能手机为例进行说明,图9示出的是该智能手机的部分结构的框图,该智能手机包括:射频(Radio Frequency,简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图9中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图9对智能手机的各个构成部件进行具体的介绍:
RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而实现智能手机的各种功能应用以及数据处理。
输入单元1530可用于接收输入的数字或字符信息,以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作,并根据预先设定的程式驱动相应的连接装置。除了触控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1541。
智能手机还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1560、扬声器1561,传声器1562可提供用户与智能手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出;另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送给比如另一智能手机,或者将音频数据输出至存储器1520以便进一步处理。
处理器1580是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行智能手机的各种功能和处理数据。可选的,处理器1580可包括一个或多个处理单元。
智能手机还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,智能手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该智能手机所包括的存储器1520可以存储计算机程序,并将所述计算机程序传输给所述处理器。
该智能手机所包括的处理器1580可以根据所述计算机程序中的指令执行上述实施例提供的特征提取模型的训练方法。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行上述实施例提供的特征提取模型的训练方法。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的特征提取模型的训练方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:Read-Only Memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (13)

1.一种特征提取模型的训练方法,其特征在于,所述方法包括:
获取包括多个关键点的图像样本,所述关键点具有真实位置坐标;
根据所述图像样本,通过初始特征提取模型进行特征提取,得到多个所述关键点分别对应的特征;
根据各个所述关键点的特征,确定各个所述关键点的概率分布,所述概率分布用于描述对应关键点在所述图像样本中各个位置的概率;
从多个所述概率分布中进行采样,得到多个样本;
根据多个所述样本,通过初始归一化流模型进行拟合,得到模拟概率分布;
根据所述模拟概率分布和真实概率分布之间的差异,调整所述初始归一化流模型的模型参数和所述初始特征提取模型的模型参数,得到特征提取模型,所述真实概率分布是基于所述样本对应的关键点的真实位置坐标确定的。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取待识别图像;
根据所述待识别图像,通过所述特征提取模型进行特征提取,得到所述待识别图像包括的多个待识别关键点分别对应的特征;
根据多个所述待识别关键点分别对应的特征,确定各个所述待识别关键点的概率分布;
根据各个所述待识别关键点的概率分布,确定各个所述待识别关键点的位置坐标。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据各个所述关键点的真实位置坐标,确定各个所述关键点的标准概率分布;
从多个所述标准概率分布中进行采样,得到多个目标采样点;
根据多个所述目标采样点,通过所述初始归一化流模型进行拟合,得到针对各个所述关键点的预测概率分布;
所述根据所述模拟概率分布和真实概率分布之间的差异,调整所述初始归一化流模型的模型参数和所述初始特征提取模型的模型参数,得到特征提取模型,包括:
根据第一差异和第二差异,调整所述初始归一化流模型的模型参数和所述初始特征提取模型的模型参数,得到所述特征提取模型,所述第一差异为所述模拟概率分布和所述真实概率分布之间的差异,所述第二差异为所述预测概率分布和所述标准概率分布之间的差异。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据多个所述关键点分别对应的特征,得到各个所述关键的理想概率分布;
所述根据第一差异和第二差异,调整所述初始归一化流模型的模型参数和所述初始特征提取模型的模型参数,得到所述特征提取模型,包括:
根据第一差异、第二差异和第三差异,调整所述初始归一化流模型的模型参数和所述初始特征提取模型的模型参数,得到所述特征提取模型,所述第三差异为所述标准概率分布和所述理想概率分布之间的差异。
5.根据权利要求4所述的方法,其特征在,若所述图像样本为包括对象面部的图像,则所述理想概率分布满足高斯分布或拉普拉斯分布。
6.根据权利要求4所述的方法,其特征在于,所述根据第一差异、第二差异和第三差异,调整所述初始归一化流模型的模型参数和所述初始特征提取模型的模型参数,得到所述特征提取模型,包括:
根据所述第一差异、所述第二差异、所述第三差异、第一权重和第二权重,确定整体损失函数,所述第一权重用于缩小所述第二差异与所述第一差异之间差异,所述第二权重用于缩小所述第三差异与所述第一差异之间的差异;
基于最小化所述整体损失函数的训练方向,调整所述初始归一化流模型的模型参数和所述初始特征提取模型的模型参数,得到所述特征提取模型。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若迭代次数小于预设迭代次数阈值,且相邻两次模型训练得到的整体损失函数值的差值大于预设差值阈值,则增大所述第二权重,得到更新后的第二权重。
8.根据权利要求1所述的方法,其特征在于,所述从多个所述概率分布中进行采样,得到多个样本,包括:
针对多个关键点中目标关键点的目标概率分布,根据所述目标概率分布包括的多个概率值和随机噪声,得到多个可微分的扰动概率,所述随机噪声服从耿贝尔分布,所述目标概率分布为多个所述概率分布中的一个概率分布;
根据退火参数,对多个所述扰动概率进行归一化,得到针对所述目标关键点的样本,所述退火参数用于在训练过程中逐渐减小学习率;
将多个所述概率分布分别作为所述目标概率分布,得到多个所述样本。
9.一种特征提取模型的训练装置,其特征在于,所述装置包括:获取单元、特征提取单元、转换单元、采样单元、拟合单元和调整单元;
所述获取单元,用于获取包括多个关键点的图像样本,所述关键点具有真实位置坐标;
所述特征提取单元,用于根据所述图像样本,通过初始特征提取模型进行特征提取,得到多个所述关键点分别对应的特征;
所述转换单元,用于根据各个所述关键点的特征,确定各个所述关键点的概率分布,所述概率分布用于描述对应关键点在所述图像样本中各个位置的概率;
所述采样单元,用于从多个所述概率分布中进行采样,得到多个样本;
所述拟合单元,用于根据多个所述样本,通过初始归一化流模型进行拟合,得到模拟概率分布;
所述调整单元,用于根据所述模拟概率分布和真实概率分布之间的差异,调整所述初始归一化流模型的模型参数和所述初始特征提取模型的模型参数,得到特征提取模型,所述真实概率分布是基于所述样本对应的关键点的真实位置坐标确定的。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括识别单元;
所述获取单元,还用于获取待识别图像;
所述特征提取单元,还用于根据所述待识别图像,通过所述特征提取模型进行特征提取,得到所述待识别图像包括的多个待识别关键点分别对应的特征;
所述转换单元,还用于根据多个所述待识别关键点分别对应的特征,确定各个所述待识别关键点的概率分布;
所述识别单元,用于根据各个所述待识别关键点的概率分布,确定各个所述待识别关键点的位置坐标。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序执行权利要求1-8中任意一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-8中任意一项所述的方法。
13.一种包括计算机程序的计算机程序产品,其特征在于,当其在计算机设备上运行时,使得所述计算机设备执行权利要求1-8中任意一项所述的方法。
CN202410261643.5A 2024-03-07 2024-03-07 一种特征提取模型的训练方法和相关装置 Active CN117854156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410261643.5A CN117854156B (zh) 2024-03-07 2024-03-07 一种特征提取模型的训练方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410261643.5A CN117854156B (zh) 2024-03-07 2024-03-07 一种特征提取模型的训练方法和相关装置

Publications (2)

Publication Number Publication Date
CN117854156A true CN117854156A (zh) 2024-04-09
CN117854156B CN117854156B (zh) 2024-05-07

Family

ID=90534998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410261643.5A Active CN117854156B (zh) 2024-03-07 2024-03-07 一种特征提取模型的训练方法和相关装置

Country Status (1)

Country Link
CN (1) CN117854156B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626105A (zh) * 2020-04-15 2020-09-04 南京旷云科技有限公司 姿态估计方法、装置及电子设备
CN112651490A (zh) * 2020-12-28 2021-04-13 深圳万兴软件有限公司 人脸关键点检测模型的训练方法及设备、可读存储介质
US20210279456A1 (en) * 2019-04-12 2021-09-09 Tencent Technology (Shenzhen) Company Limited Method and apparatus for training pose recognition model, and method and apparatus for image recognition
CN113762117A (zh) * 2021-08-27 2021-12-07 深圳数联天下智能科技有限公司 一种图像处理模型的训练方法、图像处理模型及计算机设备
WO2022156159A1 (zh) * 2021-01-22 2022-07-28 百度在线网络技术(北京)有限公司 模型参数调整的方法、设备、存储介质及程序产品
CN116580211A (zh) * 2023-07-12 2023-08-11 腾讯科技(深圳)有限公司 关键点检测方法、装置、计算机设备及存储介质
CN116958584A (zh) * 2023-09-21 2023-10-27 腾讯科技(深圳)有限公司 关键点检测方法、回归模型的训练方法、装置及电子设备
CN117115595A (zh) * 2023-10-23 2023-11-24 腾讯科技(深圳)有限公司 姿态估计模型的训练方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210279456A1 (en) * 2019-04-12 2021-09-09 Tencent Technology (Shenzhen) Company Limited Method and apparatus for training pose recognition model, and method and apparatus for image recognition
CN111626105A (zh) * 2020-04-15 2020-09-04 南京旷云科技有限公司 姿态估计方法、装置及电子设备
CN112651490A (zh) * 2020-12-28 2021-04-13 深圳万兴软件有限公司 人脸关键点检测模型的训练方法及设备、可读存储介质
WO2022156159A1 (zh) * 2021-01-22 2022-07-28 百度在线网络技术(北京)有限公司 模型参数调整的方法、设备、存储介质及程序产品
CN113762117A (zh) * 2021-08-27 2021-12-07 深圳数联天下智能科技有限公司 一种图像处理模型的训练方法、图像处理模型及计算机设备
CN116580211A (zh) * 2023-07-12 2023-08-11 腾讯科技(深圳)有限公司 关键点检测方法、装置、计算机设备及存储介质
CN116958584A (zh) * 2023-09-21 2023-10-27 腾讯科技(深圳)有限公司 关键点检测方法、回归模型的训练方法、装置及电子设备
CN117115595A (zh) * 2023-10-23 2023-11-24 腾讯科技(深圳)有限公司 姿态估计模型的训练方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
岳廷: "CVPR 2023 | STAR Loss:减少人脸关键点标注歧义实现人脸关键点SOTA精度", pages 1 - 15, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/659910020> *
镜子: "论文笔记及思考:Human Pose Regression with Residual Log-likelihood Estimation(ICCV 2021 Oral)", pages 1 - 17, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/395521994> *
陈耀东 等: "面向姿态估计的组件感知自适应算法", 计算机工程, no. 11, 23 April 2018 (2018-04-23), pages 263 - 270 *

Also Published As

Publication number Publication date
CN117854156B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
EP3940638B1 (en) Image region positioning method, model training method, and related apparatus
US11763599B2 (en) Model training method and apparatus, face recognition method and apparatus, device, and storage medium
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
CN109101602B (zh) 图像检索模型训练方法、图像检索方法、设备及存储介质
US10219129B2 (en) Autonomous semantic labeling of physical locations
US11908239B2 (en) Image recognition network model training method, image recognition method and apparatus
WO2019233421A1 (zh) 图像处理方法及装置、电子设备、存储介质
WO2020182121A1 (zh) 表情识别方法及相关装置
US20210342643A1 (en) Method, apparatus, and electronic device for training place recognition model
US9213919B2 (en) Category histogram image representation
US20220180534A1 (en) Pedestrian tracking method, computing device, pedestrian tracking system and storage medium
CN111368101B (zh) 多媒体资源信息的展示方法、装置、设备以及存储介质
CN112784778B (zh) 生成模型并识别年龄和性别的方法、装置、设备和介质
CN110765882B (zh) 一种视频标签确定方法、装置、服务器及存储介质
CN111542841A (zh) 一种内容识别的系统和方法
CN109325456A (zh) 目标识别方法、装置、目标识别设备及存储介质
JP2023541752A (ja) ニューラルネットワークモデルのトレーニング方法、画像検索方法、機器及び媒体
CN108492301A (zh) 一种场景分割方法、终端及存储介质
US20230041943A1 (en) Method for automatically producing map data, and related apparatus
CN114722937A (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN113822427A (zh) 一种模型训练的方法、图像匹配的方法、装置及存储介质
CN112529149A (zh) 一种数据处理方法及相关装置
CN116935188B (zh) 模型训练方法、图像识别方法、装置、设备及介质
CN117115595B (zh) 姿态估计模型的训练方法、装置、电子设备及存储介质
WO2023231753A1 (zh) 一种神经网络的训练方法、数据的处理方法以及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant