CN111985556A - 关键点识别模型的生成方法和关键点识别方法 - Google Patents
关键点识别模型的生成方法和关键点识别方法 Download PDFInfo
- Publication number
- CN111985556A CN111985556A CN202010836005.3A CN202010836005A CN111985556A CN 111985556 A CN111985556 A CN 111985556A CN 202010836005 A CN202010836005 A CN 202010836005A CN 111985556 A CN111985556 A CN 111985556A
- Authority
- CN
- China
- Prior art keywords
- key point
- thermodynamic diagram
- prediction vector
- vector
- thermodynamic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 239000013598 vector Substances 0.000 claims abstract description 297
- 238000010586 diagram Methods 0.000 claims abstract description 220
- 238000012549 training Methods 0.000 claims abstract description 61
- 238000006243 chemical reaction Methods 0.000 claims abstract description 38
- 230000009467 reduction Effects 0.000 claims description 52
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 description 13
- 238000011176 pooling Methods 0.000 description 11
- 238000005070 sampling Methods 0.000 description 10
- 238000012937 correction Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000002310 elbow joint Anatomy 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000000323 shoulder joint Anatomy 0.000 description 2
- 210000003857 wrist joint Anatomy 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例公开了一种关键点识别模型的生成方法和装置、关键点识别方法和装置、计算机可读存储介质及电子设备,其中,关键点识别模型的生成方法包括:基于初始模型包括的热力图生成模块,生成样本图像对应的热力图集合;基于初始模型包括的预测矢量转换模块,将热力图集合中的热力图转换为预测矢量;基于关键点集合中的关键点的位置信息,确定关键点集合中的关键点对应的监督矢量;基于预测矢量和监督矢量,对初始模型进行训练,得到关键点识别模型。本公开实施例可以提高模型训练的收敛速度,以及提高训练后的模型的识别准确性和效率。
Description
技术领域
本公开涉及计算机技术领域,尤其是一种关键点识别模型的生成方法和装置、关键点识别方法和装置、计算机可读存储介质及电子设备。
背景技术
关键点检测技术是指从诸如人脸图像、人体图像等各种图像中,确定具有某种关键特征的点(例如眼角、鼻尖等部位)的技术。目前的关键点检测方法可以分为:传统方法、基于坐标回归的CNN(卷积神经网络,Convolutional Neural Networks)方法,基于热力图(heatmap)回归的CNN方法等。
发明内容
本公开的实施例提供了一种关键点识别模型的生成方法和装置、关键点识别方法和装置、计算机可读存储介质及电子设备。
本公开的实施例提供了一种关键点识别模型的生成方法,该方法包括:基于初始模型包括的热力图生成模块,生成样本图像对应的热力图集合,其中,热力图集合中的热力图表征目标对象上的预测关键点的位置,样本图像具有预先标注的表征目标对象上的关键点集合中的关键点的位置信息;基于初始模型包括的预测矢量转换模块,将热力图集合中的热力图转换为预测矢量;基于关键点集合中的关键点的位置信息,确定关键点集合中的关键点对应的监督矢量;基于预测矢量和监督矢量,对初始模型进行训练,得到关键点识别模型。
根据本公开实施例的另一个方面,提供了一种关键点识别方法,该方法包括:获取包括目标对象的待识别图像;将待识别图像输入预先训练的关键点识别模型包括的热力图生成模块,得到热力图集合,其中,热力图集合中的热力图表征目标对象上的预测关键点的位置,关键点识别模型基于上述关键点识别模型的生成方法训练得到;基于关键点识别模型包括的预测矢量转换模块,将热力图集合中的热力图转换为预测矢量;基于关键点识别模型包括的解码模块,对预测矢量进行解码,得到待识别图像对应的关键点集合中的关键点的位置信息。
根据本公开实施例的另一个方面,提供了一种关键点识别模型的生成装置,该装置包括:第一生成模块,用于基于初始模型包括的热力图生成模块,生成样本图像对应的热力图集合,其中,热力图集合中的热力图表征目标对象上的预测关键点的位置,样本图像具有预先标注的表征目标对象上的关键点集合中的关键点的位置信息;第一转换模块,用于基于初始模型包括的预测矢量转换模块,将热力图集合中的热力图转换为预测矢量;确定模块,用于基于关键点集合中的关键点的位置信息,确定关键点集合中的关键点对应的监督矢量;训练模块,用于基于预测矢量和监督矢量,对初始模型进行训练,得到关键点识别模型。
根据本公开实施例的另一个方面,提供了一种关键点识别装置,该装置包括:第二获取模块,用于获取包括目标对象的待识别图像;第二生成模块,用于将待识别图像输入预先训练的关键点识别模型包括的热力图生成模块,得到热力图集合,其中,热力图集合中的热力图表征目标对象上的预测关键点的位置,关键点识别模型基于上述关键点识别模型的生成方法训练得到;第二转换模块,用于基于关键点识别模型包括的预测矢量转换模块,将热力图集合中的热力图转换为预测矢量;解码模块,用于基于关键点识别模型包括的解码模块,对预测矢量进行解码,得到待识别图像对应的关键点集合中的关键点的位置信息。
根据本公开实施例的另一个方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序用于执行上述关键点识别模型的生成方法或关键点识别方法。
根据本公开实施例的另一个方面,提供了一种电子设备,电子设备包括:处理器;用于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可执行指令,并执行指令以实现上述关键点识别模型的生成方法或关键点识别方法。
基于本公开上述实施例提供的关键点识别模型的生成方法和装置、关键点识别方法和装置、计算机可读存储介质及电子设备,通过基于初始模型包括的热力图生成模块,生成热力图集合,再基于初始模型包括的预测矢量转换模块,将热力图集合中的热力图转换为预测矢量,然后基于关键点集合中的关键点的位置信息,确定每个关键点对应的监督矢量,最后基于预测矢量和监督矢量,对初始模型进行训练,得到关键点识别模型,从而在模型训练阶段,利用监督矢量,避免了热力图中由于包含大量的背景像素造成的负样本比例过高,使得正负样本的比例得到了均衡,由于负样本对模型训练的影响减小,从而提高了模型训练的收敛速度提高了模型训练的收敛速度,以及提高了训练后的模型的识别准确性。关键点识别模型输出一个矢量,在利用关键点识别模型进行关键点识别时,由于矢量的包括的数据量较小,因此确定关键点坐标的后处理过程的效率更高。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开所适用的系统图。
图2是本公开一示例性实施例提供的关键点识别模型的生成方法的流程示意图。
图3是本公开另一示例性实施例提供的关键点识别模型的生成方法的流程示意图。
图4是本公开一示例性实施例提供的关键点识别模型的生成方法的降维操作的示例性示意图。
图5是本公开一示例性实施例提供的关键点识别方法的流程示意图。
图6是本公开另一示例性实施例提供的关键点识别方法的流程示意图。
图7是本公开一示例性实施例提供的关键点识别方法的从待识别图像的范围之外确定关键点的示例性示意图。
图8是本公开一示例性实施例提供的关键点识别模型的生成装置的结构示意图。
图9是本公开另一示例性实施例提供的关键点识别模型的生成装置的结构示意图。
图10是本公开一示例性实施例提供的关键点识别装置的结构示意图。
图11是本公开另一示例性实施例提供的关键点识别装置的结构示意图。
图12是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
基于heatmap回归的CNN方法存在以下一些问题:
1)网络会为每个关键点输出一个二维矩阵(heatmap),在嵌入式系统中,大量heatmap的数据交换以及从heatmap解析得到关键点坐标的后处理过程会为处理器造成极大的负担。
2)heatmap标签中正负样本极不平衡,负样本(背景像素)占绝大多数,因此训练时负样本的优化占主导地位,导致训练时收敛的速度和效果都受到制约。
3)该方法得到的最终结果被限制在输入网络的图像范围之内,无法处理输入图像之外的关键点。
为解决上述问题,针对问题1),可以使用soft-argmax,integralregression等操作,将heatmap输出转换为坐标点输出,简化后处理、减轻数据传输负担。但是上述中通常又引入了其他复杂的运算操作(如逐元素指数运算),同样会增加嵌入式系统的计算负担。而且并未解决heatmap中正负样本不平衡、无法处理输入图像之外的关键点等问题。
示例性系统
图1示出了可以应用本公开的实施例的关键点识别模型的生成方法、装置或关键点识别方法、装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101,网络102和服务器103。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如拍摄类应用、视频类应用、搜索类应用、网页浏览器应用、即时通信工具等。
终端设备101可以是各种电子设备,包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
服务器103可以是提供各种服务的服务器,例如利用终端设备101上传的样本图像进行模型训练的后台模型训练服务器。后台模型训练服务器可以对接收到的样本图像进行处理,得到热力图、预测矢量、监督矢量等,利用预测矢量和监督矢量,训练得到关键点识别模型。服务器103还可以是对终端设备101上传的待识别图像进行关键点识别的后台关键点识别服务器。后台关键点识别服务器可以利用关键点识别模型对待识别图像进行识别,得到各个关键点的位置信息。
需要说明的是,本公开的实施例所提供的关键点识别模型的生成方法或关键点识别方法可以由服务器103执行,也可以由终端设备101执行,相应地,关键点识别模型的生成装置或关键点识别装置可以设置于服务器103中,也可以设置于终端设备101中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在样本图像、待识别图像等不需要从远程获取的情况下,上述系统架构可以不包括网络,只包括服务器或终端设备。
示例性方法
图2是本公开一示例性实施例提供的关键点识别模型的生成方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上,如图2所示,该方法包括如下步骤:
步骤201,基于初始模型包括的热力图生成模块,生成样本图像对应的热力图集合。
在本实施例中,电子设备可以基于初始模型包括的热力图生成模块,生成样本图像对应的热力图集合。其中,热力图集合中的热力图表征目标对象上的预测关键点的位置,样本图像具有预先标注的表征目标对象上的关键点集合中的关键点的位置信息。
上述热力图生成模块可以采用现有的各种结构的深度神经网络实现,例如,热力图生成模块可以包括下采样子模块和上采样子模块,下采样子模块可以包括但不限于ResNet、MobileNet等网络的其中至少一种。上采样子模块可以包括但不限于FPN(特征图金字塔网络,Feature Pyramid Networks)、Deconvolution(逆卷积)等网络的其中至少一种。下采样模块和上采样模块共同使用,用于提取输入图像的空间特征,根据空间特征可以得到热力图。需要说明的是,生成热力图的方法是目前的现有技术,这里不再赘述。
上述热力图集合中的每个热力图对应于一个预测关键点,热力图中的每个像素点对应于输入的样本图像中的一个位置,一个热力图对应一个关键点。热力图与输入的样本图像的尺寸可以相同也可以不同,例如,热力图与样本图像的宽度比和高度比为与预设比例(例如1:4)。
上述目标对象可以为各种物体的影像,例如对人脸、人体、动物等拍摄的影像。上述关键点集合为目标对象相关的关键点组成的集合,关键点用于表征目标对象相关的特殊点。关键点可以为表示目标对象上某个特定部位的点,例如脸部上的眼角、嘴角、鼻尖等部位的点,再例如人体的肩关节、肘关节、腕关节等部位的点。关键点还可以为目标对象之外的特定位置的点,例如关键点可以是人脸的检测框的左上角和右下角。每个关键点对应于一个表征其在样本图像中的位置的位置信息,通常,位置信息包括两个坐标值,分别为宽度方向(x方向)上和高度方向(y方向)上的坐标值。
步骤202,基于初始模型包括的预测矢量转换模块,将热力图集合中的热力图转换为预测矢量。
在本实施例中,电子设备可以基于初始模型包括的预测矢量转换模块,将热力图集合中的热力图转换为预测矢量。
其中,上述预测矢量转换模块用于将每个热力图转换为对应的预测矢量。作为示例,预测矢量转换模块可以包括预设的公式,通过该公式,可以将热力图包括的各个像素点的数据进行整合(例如对每列或每行数据取平均),得到预测矢量。或者,预测矢量转换模块可以包括表征热力图和和预测矢量的对应关系的对应关系表,该对应关系表可以预先通过统计大量的热力图和对应的预测矢量得到,电子设备可以从该对应关系表中查找热力图集合中的每个热力图对应的预测矢量。
上述预测矢量为包括多个元素的矢量(又称向量),每个元素对应于输入的样本图像中的一个区域。例如,预测矢量可以包括第一预测矢量和第二预测矢量,第一预测矢量中的每个元素对应于样本图像中的一列(或多列)像素,元素的值表示对应的一列(或多列)中存在关键点的概率。相应的,第二预测矢量中的每个元素对应于样本图像中的一行(或多行)像素,元素的值表示对应的一行(或多行)中存在关键点的概率。
步骤203,基于关键点集合中的关键点的位置信息,确定关键点集合中的关键点对应的监督矢量。
在本实施例中,电子设备可以基于关键点集合中的关键点的位置信息,确定关键点集合中的关键点对应的监督矢量。
其中,监督矢量与预测矢量的维度相同,监督矢量用于表征样本图像中的真实关键点的位置。
作为示例,监督矢量可以是技术人员使用电子设备手动设置的,或者是电子设备根据预设的公式,将关键点的位置信息转换成的。
步骤204,基于预测矢量和监督矢量,对初始模型进行训练,得到关键点识别模型。
在本实施例中,电子设备可以基于预测矢量和监督矢量,对初始模型进行训练,得到关键点识别模型。
具体地,电子设备可以利用机器学习方法,将各个热力图分别对应的预测矢量作为实际输出,将各个预测矢量分别对应的监督矢量作为期望输出,对初始模型进行训练。训练时,电子设备可以采用梯度下降法和反向传播法,基于实际输出和期望输出,调整初始模型的参数,使实际输出和期望输出的差距减小,将每次调整参数后得到的模型作为下次训练的初始模型,并在满足预设的训练结束条件的情况下,结束训练,从而训练得到关键点识别模型。
需要说明的是,本实施例中的样本图像的数量可以为至少一个,每使用一个样本图像对初始模型的参数进行优化,则为训练一次,经过多次训练,直到满足训练结束条件。这里预设的训练结束条件可以包括但不限于以下至少一项:训练时间超过预设时长;训练次数超过预设次数;利用预设的损失函数(例如回归损失函数)计算所得的损失值小于预设损失值阈值。
在实际应用时,可以将包含目标对象的图像输入训练后得到的关键点识别模型,可以得到预测矢量,再经过关键点识别模型包括的解码模块对预测矢量进行解码,可以得到预测出的关键点集合。
本公开的上述实施例提供的方法,通过基于初始模型包括的热力图生成模块,生成热力图集合,再基于初始模型包括的预测矢量转换模块,将热力图集合中的热力图转换为预测矢量,然后基于关键点集合中的关键点的位置信息,确定每个关键点对应的监督矢量,最后基于预测矢量和监督矢量,对初始模型进行训练,得到关键点识别模型,从而在模型训练阶段,利用监督矢量,避免了热力图中由于包含大量的背景像素造成的负样本比例过高,使得正负样本的比例得到了均衡,由于负样本对模型训练的影响减小,从而提高了模型训练的收敛速度,以及提高了训练后的模型的识别准确性。
在一些可选的实现方式中,在上述步骤201之前,电子设备还可以执行如下步骤:
首先,获取原始样本图像。其中,原始样本图像可以是包括目标对象且未经过任何处理的图像。例如,原始样本图像可以是对目标对象直接拍摄得到的图像。
然后,从原始样本图像中提取包括目标对象的区域作为样本图像。具体地,电子设备可以利用现有的目标检测方法,从原始样本图像中确定目标对象所在的区域,并将该区域提取出来作为样本图像。例如,可以采用现有的目标检测网络(例如SSD(Single ShotMultiBox Detector)、DPM(Deformable Part Model)、RPN(Region Proposal Networks)等)对原始样本图像进行目标检测。目标检测网络可以从输入其中的图像中,确定目标对象的位置。通常,目标检测网络输出坐标信息,该坐标信息可以表征原始样本图像中的区域。例如,坐标信息可以包括矩形框的两个对角坐标,通过两个对角坐标,可以在原始样本图像中确定一个矩形框,该矩形框覆盖的区域即为样本图像。
本实现方式通过首先对原始样本图像进行目标检测,可以使得到的样本图像主要包括目标对象,从而降低了背景图像对关键点识别的影响,有助于提高模型训练的精确性。
进一步参考图3,示出了关键点识别模型的生成方法的又一个实施例的流程示意图。如图3所示,关键点识别模型的生成方法可以包括如下步骤:
步骤301,基于初始模型包括的热力图生成模块,生成样本图像对应的热力图集合。
在本实施例中,步骤301与图2对应实施例中的步骤201基本一致,这里不再赘述。
步骤302,对于热力图集合中的每个热力图,对该热力图进行第一方向和第二方向上的降维操作,分别得到该热力图对应的第一预测矢量和第二预测矢量。
其中,第一方向和第二方向仅仅是为了确定样本图像和热力图中的位置定义的方向,不对实际的方向做明确定义。作为示例,第一方向和第二方向可以分别为样本图像的宽度方向(x方向)和高度方向(y方向)。降维操作用于将矩阵转换为矢量,可以利用各种方法进行降维操作,例如通过池化操作或卷积操作等。
具体地,作为示例,假设热力图的尺寸为H×W,H代表热力图在竖直方向的像素高度,W代表热力图在水平方向的像素宽度。使用一个尺寸为H×b的平均池化核(averagepooling kernel),通过stride=1的平均池化操作,将热力图转换为1×W的矢量作为第一预测矢量;同理,使用一个尺寸为b×W的平均池化核,产生H×1的矢量作为第二预测矢量。其中,b是一个参数,为了保证池化操作转换的对称性,通常为远小于H,W的奇数。
在一些可选的实现方式中,步骤302可以如下执行:
首先,获取预设数量组降维核。
其中,预设数量组降维核中的每组降维核包括对应于第一方向的第一降维核和对应于第二方向的第二降维核。作为示例,当通过池化操作进行降维时,降维核为池化核,当通过卷积进行降维时,降维核为卷积核。如图4所示,预设数量为2,第一组中的第一降维核(如图中的K11所示的池化核)的大小可以为H×3,第一组中的第二降维核(如图中的K12所示)的大小可以为3×W;第二组中的第一降维核(如图中的K21所示)的大小可以为H×5,第二组中的第二降维核(如图中的K22所示)的大小可以为5×W。
然后,基于预设数量组降维核,对该热力图进行降维操作,得到预设数量组降维核中的每组降维核对应的第一子预测矢量和第二子预测矢量。
如图4所示,K11和K21在水平方向上滑动以进行水平方向上的池化操作,得到水平方向上的第一子预测矢量A11和A12;K12和K22在竖直方向上滑动以进行竖直方向上的池化操作,得到竖直方向上的第二子预测矢量A21和A22。
最后,基于每组降维核对应的预设权重,对各个第一子预测矢量和各个第二子预测矢量分别进行加权求和,得到该热力图对应的第一预测矢量和第二预测矢量。
其中,各组降维核分别对应的预设权重的和为1,如图4所示,第一组降维核对应的预设权重为α,第二组降维核对应的预设权重为1-α。A11中的元素与A12中的相应元素加权求和后,得到第一预测矢量A1;A21中的元素与A22中的相应元素加权求和后,得到第一预测矢量A2。
本实现方式通过使用预设数量组降维核进行降维操作,并对生成的各个第一子预测矢量和各个第二子预测矢量分别进行加权求和,可以利用预设权重的大小,有针对性地将降维操作的像素范围集中到某个尺寸,并顾及到其他尺寸的像素范围,从而提高了确定预测矢量的准确性和灵活性。
步骤303,基于关键点集合中的关键点的位置信息包括的第一方向和第二方向的坐标,确定关键点集合中的关键点对应的第一监督矢量和第二监督矢量。
作为示例,第一监督矢量和第二监督矢量可以是电子设备根据分别对应的预设公式,对每个关键点的第一方向和第二方向的坐标转换成的。
在一些可选的实现方式中,步骤303可以如下执行:
对于关键点集合中的每个关键点,执行如下步骤:
步骤一,基于该关键点的位置信息包括的第一方向的坐标和第二方向的坐标,确定该关键点对应的热力图上的坐标。
具体地,作为示例,热力图上的坐标可以按照下式(1)确定:
其中,x′,y′分别为热力图上的第一方向的坐标和第二方向的坐标,x,y分别为标注的关键点的第一方向的坐标和第二方向的坐标,λ为输入的样本图像与热力图的尺寸的比值(例如4),int()表示对括号中的数值取整。
步骤二,确定该关键点对应的第一监督矢量中的每个元素与该关键点对应的热力图上的第一坐标之间的第一距离,以及确定该关键点对应的第二监督矢量中的每个元素与该关键点对应的热力图上的第二坐标之间的第二距离。
作为示例,以第一监督矢量为例,对于第一监督矢量中的某个位置i上的元素的坐标xi(第一监督矢量的长度与热力图的宽度相同,这里的xi可以认为是热力图上的xi),该元素与关键点对应的在热力图上的第一坐标(即上述x′)的距离为:
式(2)计算得到的距离为第一距离。对于第二监督矢量,采用相同的方法,计算得到每个元素与关键点对应的在热力图上的第一坐标(即上述y′)之间的第二距离。
需要说明的是,这时的第一监督矢量和第二监督矢量中的元素并非最终的数值,由于确定距离只需要在监督矢量中的位置,因此,本步骤中的第一监督矢量和第二监督矢量中的元素可以为任意初始值。
步骤三,基于第一距离和第二距离,确定该关键点对应的第一监督矢量和第二监督矢量。
作为示例,可以使用高斯函数对该第一距离和第二距离进行处理,通过如下公式(3),得到x方向对应的第一监督矢量:
通过对关键点集合中的每个关键点均执行上述步骤一-步骤三,最终得到每个关键点对应的第一监督矢量和第二监督矢量。
本实现方式通过确定第一监督矢量和第二监督矢量中的每个元素与关键点在热力图上对应的第一坐标和第二坐标之间的距离,基于距离确定第一监督矢量和第二监督矢量,可以准确地将标注的关键点映射到第一监督矢量和第二监督矢量,使生成的第一监督矢量和第二监督矢量准确地表征实际的关键点,有助于提高模型训练的准确性。
在一些可选的实现方式中,上述步骤三可以包括如下子步骤:
对所得到的各个第一距离和各个第二距离中的最短距离对应的监督矢量元素进行增强,得到第一监督矢量和第二监督矢量。
具体地,以上述式(3)为例,可以按照下式(4)对监督矢量元素进行增强:
其中,θ>0,可以对监督矢量中的最大值元素进行增强,该增强可以使得模型更加专注于学习正确的关键点位置,从而可以提高训练得到的模型的识别准确性。
步骤304,基于预测矢量和监督矢量,对初始模型进行训练,得到关键点识别模型。
在本实施例中,步骤304与图2对应实施例中的步骤204基本一致,这里不再赘述。
上述图3对应实施例提供的方法,通过对每个热力图进行第一方向和第二方向的降维操作,以及基于标注的每个关键点的第一方向和第二方向的坐标,可以得到第一预测矢量、第二预测矢量、第一监督矢量、第二监督矢量,从而可以在训练时,针对不同的方向进行相应的模型参数的优化,提高训练得到的模型的识别精度。
图5是本公开一示例性实施例提供的关键点识别方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上,如图5所示,该方法包括如下步骤:
步骤501,获取包括目标对象的待识别图像。
在本实施例中,电子设备可以从本地或从远程获取包括目标对象的待识别图像。这里的目标对象可以与上述图2对应实施例中描述的目标对象相同,关于目标对象的描述,可以参考上述图2对应实施例,这里不再赘述。
步骤502,将待识别图像输入预先训练的关键点识别模型包括的热力图生成模块,得到热力图集合。
在本实施例中,电子设备可以将待识别图像输入预先训练的关键点识别模型包括的热力图生成模块,得到热力图集合。其中,热力图集合中的热力图表征目标对象上的预测关键点的位置,关键点识别模型基于上述图2对应实施例描述的方法训练得到。关于热力图生成模块的描述,可以参考上述图2对应实施例,这里不再赘述。
步骤503,基于关键点识别模型包括的预测矢量转换模块,将热力图集合中的热力图转换为预测矢量。
在本实施例中,电子设备可以基于关键点识别模型包括的预测矢量转换模块,将热力图集合中的热力图转换为预测矢量。关于预测矢量转换模块的描述,可以参考上述图2对应实施例,这里不再赘述。
步骤504,基于关键点识别模型包括的解码模块,对预测矢量进行解码,得到待识别图像对应的关键点集合中的关键点的位置信息。
在本实施例中,电子设备可以基于关键点识别模型包括的解码模块,对预测矢量进行解码,得到待识别图像对应的关键点集合中的关键点的位置信息。其中,解码模块用于利用预测矢量进行运算,得到关键点的位置信息。
解码模块可以对预测矢量进行反向运算,将预测矢量中的标注关键点的元素还原为在待识别图像中的坐标。
本公开的上述实施例提供的方法,通过利用上述图2对应实施例中描述的关键点识别模型,对待识别图像进行识别,得到待识别图像中的目标对象上的各个关键点的位置信息,从而利用了关键点识别模型输出的预测矢量进行关键点定位,由于预测矢量为一个矢量,在利用关键点识别模型进行关键点识别时,由于矢量的包括的数据量较小,因此相比二维矩阵,确定关键点坐标的后处理过程的效率更高。
在一些可选的实现方式中,在上述步骤501之前,电子设备还可以执行如下步骤:
首先,获取原始图像。其中,原始图像可以是包括目标对象且未经过任何处理的图像。例如,原始图像可以是对目标对象直接拍摄得到的图像。
然后,从原始图像中提取包括目标对象的区域作为待识别图像。具体地,电子设备可以利用现有的目标检测方法,从原始图像中确定目标对象所在的区域,并将该区域提取出来作为待识别图像。通常,目标检测网络输出坐标信息,该坐标信息可以表征原始图像中的区域。例如,坐标信息可以包括矩形框的两个对角坐标,通过两个对角坐标,可以在原始图像中确定一个矩形框,该矩形框覆盖的区域即为待识别图像。
本实现方式通过首先对原始图像进行目标检测,可以使得到的待识别图像主要包括目标对象,从而降低了背景图像对关键点识别的影响,有助于提高识别关键点的准确性。
进一步参考图6,示出了关键点识别方法的又一个实施例的流程示意图。如图6所示,在上述图5对应的实施例的基础上,步骤504可以如下执行:
对于所得到的各个预测矢量中的每个预测矢量,执行如下步骤:
步骤5041,在该预测矢量对应的热力图中,确定该预测矢量中的元素的最大值对应的坐标。
具体地,作为示例,对于预测矢量,可以进行argmax操作,得到预测矢量中的元素的最大值对应的坐标,例如最大值对应的坐标为(posx,posy)。
步骤5042,确定坐标指示的位置是否在该预测矢量的边界上。
其中,预测矢量的边界即为预测矢量中排在第一位和最后一位的元素。通常,预测矢量包括x方向上的第一预测矢量和y方向上的第二预测矢量。第一预测矢量的大小为1×W,则第一预测矢量的边界为0和W-1。第二预测矢量的大小为H×1,则第一预测矢量的边界为0和H-1。
步骤5043,如果在边界上,基于坐标进行峰值估计,得到峰值坐标。
具体地,如果上述最大值对应的坐标在边界上,则预测矢量分布的峰值位置可能位于预测矢量的范围外,此时关键点的实际位置可能位于上述输入模型的图像的范围外。需要说明的是,这里的峰值和上述最大值代表的意义不同,上述最大值是指预测矢量中实际输出的最大值,峰值是指预测矢量服从的分布的最大值。
作为示例,假设输出的预测矢量近似服从高斯分布(因为监督矢量是近似高斯的),并且该分布在预测矢量的边界位置被截断,即最大值对应的位置s=0或s=W-1,使得预测矢量的最大值并不是高斯分布的最大值。所以假设s位置的值近似服从于下式:
其中τ是一个尺度参数,σ是高斯分布的标准差,这两个参数可以根据模型的实际情况选取,一般σ可以与式(3)一致。而d是当前位置s与理想分布峰值(高斯分布的最大值)的距离。所以根据式(4)计算出理想分布的峰值:
对于y方向上的第二预测矢量,可以按照相同的方法确定在y方向上的峰值点。
步骤5044,基于峰值坐标,确定该预测矢量对应的关键点在待识别图像中的位置信息。
具体地,可以根据该预测矢量对应的热力图与待识别图像的比例关系确定关键点的位置信息。例如,可以按照如下公式(6)将步骤5043得到的坐标映射回待识别图像中:
coordx=loc*λ (6)
其中,λ为待识别图像与热力图的尺寸的比值。
需要说明的是,当待识别图像是重原始图像中截取出的时候,可以按照下式(7)确定关键点在原始图像的坐标:
cOordx=loc*λ+offsetx (7)
其中,offsetx是待识别图像相对于原始图像的偏移。
对于y方向上的坐标coordy,可以按照相同的方法得到。
如图7所示,待识别图像的范围如图中的701所示,利用上述步骤5041-步骤5044,可以在待识别图像的范围之外,确定关键点702。
通过对各个预测矢量中的每个预测矢量均执行步骤5041-步骤5044,可以得到每个预测矢量对应的关键点的位置信息。
上述图6对应实施例提供的方法,当预测矢量中的元素的最大值在边界上时,通过峰值估计,可以确定关键点的实际位置,从而可以确定输入图像的范围之外的关键点。
在一些可选的实现方式中,在步骤5042之后,如果预测矢量中的元素的最大值对应的坐标不在边界上,电子设备可以基于最大值对应的坐标,确定该预测矢量对应的关键点在待识别图像中的位置信息。具体地,可以根据热力图与待识别图像的尺寸的比例关系,将上述坐标映射到待识别图像中,得到关键点的位置信息。本实现方式通过判断最大值对应的坐标步骤边界上时,直接进行坐标映射,可以高效地确定关键点在待识别图像中的位置信息。
在一些可选的实现方式中,如果预测矢量中的元素的最大值对应的坐标不在边界上,电子设备可以按照如下步骤确定预测矢量对应的关键点在待识别图像中的位置信息:
首先,从该预测矢量包括的元素中确定第二大值。
然后,基于第二大值对应的坐标与最大值对应的坐标的位置关系,进行偏移修正,得到该预测矢量对应的关键点在待识别图像中的位置信息。
通常,在进行关键点检测的过程中,可以利用亚像素技术,在亚像素精度下进行关键点的检测。作为示例,可以基于现有的heatmapencode方法,按照下式(8)进行偏移修正:
其中,0.25是利用亚像素精度进行偏移修正的常用数值,sndx表示第二大值,对于y方向上的偏移修正,可以按照相同的方法得到locy。
本实现方式通过在最大值的坐标不在边界上时,通过对坐标进行偏移修正,可以更精确地确定关键点的位置,提高了利用关键点识别模型进行关键点定位的精度。
示例性装置
图8是本公开一示例性实施例提供的关键点识别模型的生成装置的结构示意图。本实施例可应用在电子设备上,如图8所示,关键点识别模型的生成装置包括:第一生成模块801,用于基于初始模型包括的热力图生成模块,生成样本图像对应的热力图集合,其中,热力图集合中的热力图表征目标对象上的预测关键点的位置,样本图像具有预先标注的表征目标对象上的关键点集合中的关键点的位置信息;第一转换模块802,用于基于初始模型包括的预测矢量转换模块,将热力图集合中的热力图转换为预测矢量;确定模块803,用于基于关键点集合中的关键点的位置信息,确定关键点集合中的关键点对应的监督矢量;训练模块804,用于基于预测矢量和监督矢量,对初始模型进行训练,得到关键点识别模型。
在本实施例中,第一生成模块801可以基于初始模型包括的热力图生成模块,生成样本图像对应的热力图集合。其中,热力图集合中的热力图表征目标对象上的预测关键点的位置,样本图像具有预先标注的表征目标对象上的关键点集合中的关键点的位置信息。
上述热力图生成模块可以采用现有的各种结构的深度神经网络实现,例如,热力图生成模块可以包括下采样子模块和上采样子模块,下采样子模块可以包括但不限于ResNet、MobileNet等网络的其中至少一种。上采样子模块可以包括但不限于FPN(特征图金字塔网络,Feature Pyramid Networks)、Deconvolution(逆卷积)等网络的其中至少一种。下采样模块和上采样模块共同使用,用于提取输入图像的空间特征,根据空间特征可以得到热力图。需要说明的是,生成热力图的方法是目前的现有技术,这里不再赘述。
上述热力图集合中的每个热力图对应于一个预测关键点,热力图中的每个像素点对应于输入的样本图像中的一个位置,一个热力图通常对应一个关键点。热力图与输入的样本图像的尺寸可以相同也可以不同,例如,热力图与样本图像的宽度比和高度比为与预设比例(例如1:4)。
上述目标对象可以为各种物体的影像,例如对人脸、人体、动物等拍摄的影像。上述关键点集合为目标对象相关的关键点组成的集合,关键点用于表征目标对象相关的特殊点。关键点可以为表示目标对象上某个特定部位的点,例如脸部上的眼角、嘴角、鼻尖等部位的点,再例如人体的肩关节、肘关节、腕关节等部位的点。关键点还可以为目标对象之外的特定位置的点,例如关键点可以是人脸的检测框的左上角和右下角。每个关键点对应于一个表征其在样本图像中的位置的位置信息,通常,位置信息包括两个坐标值,分别为宽度方向(x方向)上和高度方向(y方向)上的坐标值。
在本实施例中,第一转换模块802可以基于初始模型包括的预测矢量转换模块,将热力图集合中的热力图转换为预测矢量。
其中,上述预测矢量转换模块用于将每个热力图转换为对应的预测矢量。作为示例,预测矢量转换模块可以包括预设的公式,通过该公式,可以将热力图包括的各个像素点的数据进行整合,得到预测矢量。或者,预测矢量转换模块可以包括表征热力图和和预测矢量的对应关系的对应关系表,该对应关系表可以预先通过统计大量的热力图和对应的预测矢量得到,第一转换模块802可以从该对应关系表中查找热力图集合中的每个热力图对应的预测矢量。
上述预测矢量为包括多个元素的矢量(又称向量),每个元素对应于输入的样本图像中的一个区域。例如,预测矢量可以包括第一预测矢量和第二预测矢量,第一预测矢量中的每个元素对应于样本图像中的一列(或多列)像素,元素的值表示对应的一列(或多列)中存在关键点的概率。相应的,第二预测矢量中的每个元素对应于样本图像中的一行(或多行)像素,元素的值表示对应的一行(或多行)中存在关键点的概率。
在本实施例中,确定模块803可以基于关键点集合中的关键点的位置信息,确定关键点集合中的关键点对应的监督矢量。
其中,监督矢量与预测矢量的维度相同,监督矢量用于表征样本图像中的真实关键点的位置。
作为示例,监督矢量可以是技术人员使用电子设备手动设置的,或者是电子设备根据预设的公式,将关键点的位置信息转换成的。
在本实施例中,训练模块804可以基于预测矢量和监督矢量,对初始模型进行训练,得到关键点识别模型。
具体地,训练模块804可以利用机器学习方法,将各个热力图分别对应的预测矢量作为实际输出,将各个预测矢量分别对应的监督矢量作为期望输出,对初始模型进行训练。训练时,训练模块804可以采用梯度下降法和反向传播法,基于实际输出和期望输出,调整初始模型的参数,使实际输出和期望输出的差距减小,将每次调整参数后得到的模型作为下次训练的初始模型,并在满足预设的训练结束条件的情况下,结束训练,从而训练得到关键点识别模型。
需要说明的是,本实施例中的样本图像的数量可以为至少一个,每使用一个样本图像对初始模型的参数进行优化,则为训练一次,经过多次训练,直到满足训练结束条件。这里预设的训练结束条件可以包括但不限于以下至少一项:训练时间超过预设时长;训练次数超过预设次数;利用预设的损失函数(例如回归损失函数)计算所得的损失值小于预设损失值阈值。
在实际应用时,可以将包含目标对象的图像输入训练后得到的关键点识别模型,可以得到预测矢量,再经过关键点识别模型包括的解码模块对预测矢量进行解码,可以得到预测出的关键点集合。
参照图9,图9是本公开另一示例性实施例提供的关键点识别模型的生成装置的结构示意图。
在一些可选的实现方式中,第一转换模块802可以进一步用于:对于热力图集合中的每个热力图,对该热力图进行第一方向和第二方向上的降维操作,分别得到该热力图对应的第一预测矢量和第二预测矢量;确定模块进一步用于:基于关键点集合中的关键点的位置信息包括的第一方向和第二方向的坐标,确定关键点集合中的关键点对应的第一监督矢量和第二监督矢量。
在一些可选的实现方式中,第一转换模块802可以包括:第一获取单元8021,用于获取预设数量组降维核,其中,预设数量组降维核中的每组降维核包括对应于第一方向的第一降维核和对应于第二方向的第二降维核;降维单元8022,用于基于预设数量组降维核,对该热力图进行降维操作,得到预设数量组降维核中的每组降维核对应的第一子预测矢量和第二子预测矢量;计算单元8023,用于基于每组降维核对应的预设权重,对各个第一子预测矢量和各个第二子预测矢量分别进行加权求和,得到该热力图对应的第一预测矢量和第二预测矢量。
在一些可选的实现方式中,确定模块803可以包括:第一确定单元8031,用于对于关键点集合中的每个关键点,基于该关键点的位置信息包括的第一方向的坐标和第二方向的坐标,确定该关键点对应的热力图上的坐标;第二确定单元8032,用于确定该关键点对应的第一监督矢量中的每个元素与该关键点对应的热力图上的第一坐标之间的第一距离,以及确定该关键点对应的第二监督矢量中的每个元素与该关键点对应的热力图上的第二坐标之间的第二距离;第三确定单元8033,用于基于第一距离和第二距离,确定该关键点对应的第一监督矢量和第二监督矢量。
在一些可选的实现方式中,第三确定单元8033可以进一步用于:对所得到的各个第一距离和各个第二距离中的最短距离对应的监督矢量元素进行增强,得到第一监督矢量和第二监督矢量。
在一些可选的实现方式中,装置还包括:第一获取模块805,用于获取原始样本图像;提取模块806,用于从原始样本图像中提取包括目标对象的区域作为样本图像。
本公开上述实施例提供的关键点识别模型的生成装置,通过基于初始模型包括的热力图生成模块,生成热力图集合,再基于初始模型包括的预测矢量转换模块,将热力图集合中的热力图转换为预测矢量,然后基于关键点集合中的关键点的位置信息,确定每个关键点对应的监督矢量,最后基于预测矢量和监督矢量,对初始模型进行训练,得到关键点识别模型,从而在模型训练阶段,利用监督矢量,避免了热力图中由于包含大量的背景像素造成的负样本比例过高,使得正负样本的比例得到了均衡,由于负样本对模型训练的影响减小,从而提高了模型训练的收敛速度,以及提高了训练后的模型的识别准确性。
图10是本公开一示例性实施例提供的关键点识别装置的结构示意图。本实施例可应用在电子设备上,如图10所示,关键点识别装置包括:第二获取模块1001,用于获取包括目标对象的待识别图像;第二生成模块1002,用于将待识别图像输入预先训练的关键点识别模型包括的热力图生成模块,得到热力图集合,其中,热力图集合中的热力图表征目标对象上的预测关键点的位置,关键点识别模型基于上述关键点识别模型的生成方法训练得到;第二转换模块1003,用于基于关键点识别模型包括的预测矢量转换模块,将热力图集合中的热力图转换为预测矢量;解码模块1004,用于基于关键点识别模型包括的解码模块,对预测矢量进行解码,得到待识别图像对应的关键点集合中的关键点的位置信息。
在本实施例中,第二获取模块1001可以从本地或从远程获取包括目标对象的待识别图像。这里的目标对象可以与上述图2对应实施例中描述的目标对象相同,关于目标对象的描述,可以参考上述图2对应实施例,这里不再赘述。
在本实施例中,第二生成模块1002可以将待识别图像输入预先训练的关键点识别模型包括的热力图生成模块,得到热力图集合。其中,热力图集合中的热力图表征目标对象上的预测关键点的位置,关键点识别模型基于上述图2对应实施例描述的方法训练得到。关于热力图生成模块的描述,可以参考上述图2对应实施例,这里不再赘述。
在本实施例中,第二转换模块1003可以基于关键点识别模型包括的预测矢量转换模块,将热力图集合中的热力图转换为预测矢量。关于预测矢量转换模块的描述,可以参考上述图2对应实施例,这里不再赘述。
在本实施例中,解码模块1004可以基于关键点识别模型包括的解码模块,对预测矢量进行解码,得到待识别图像对应的关键点集合中的关键点的位置信息。其中,解码模块用于利用预测矢量进行运算,得到关键点的位置信息。
解码模块可以对预测矢量进行反向运算,将预测矢量中的标注关键点的元素还原为在待识别图像中的坐标。
参照图11,图11是本公开另一示例性实施例提供的关键点识别装置的结构示意图。
在一些可选的实现方式中,解码模块1004可以包括:第四确定单元10041,用于对于所得到的各个预测矢量中的每个预测矢量,在该预测矢量对应的热力图中,确定该预测矢量中的元素的最大值对应的坐标;第五确定单元10042,用于确定坐标指示的位置是否在该预测矢量的边界上;估计单元10043,用于如果在边界上,基于坐标进行峰值估计,得到峰值坐标;第六确定单元10044,用于基于峰值坐标,确定该预测矢量对应的关键点在待识别图像中的位置信息。
在一些可选的实现方式中,解码模块还包括:第七确定单元10045,用于如果不在边界上,基于最大值对应的坐标,确定该预测矢量对应的关键点在待识别图像中的位置信息。
在一些可选的实现方式中,第七确定单元10045可以包括:确定子单元100451,用于从该预测矢量包括的元素中确定第二大值;修正子单元100452,用于基于第二大值对应的坐标与最大值对应的坐标的位置关系,进行偏移修正,得到该预测矢量对应的关键点在待识别图像中的位置信息。
在一些可选的实现方式中,第二获取模块1001可以包括:第二获取单元10011,用于获取原始图像;提取单元10012,用于从原始图像中提取包括目标对象的区域作为待识别图像。
本公开上述实施例提供的关键点识别模型的生成装置,通过利用上述图2对应实施例中描述的关键点识别模型,对待识别图像进行识别,得到待识别图像中的目标对象上的各个关键点的位置信息,从而利用了关键点识别模型输出的预测矢量进行关键点定位,由于预测矢量为一个矢量,在利用关键点识别模型进行关键点识别时,由于矢量的包括的数据量较小,因此相比二维矩阵,确定关键点坐标的后处理过程的效率更高。
示例性电子设备
下面,参考图12来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备,该单机设备可以与终端设备101和服务器103进行通信,以从它们接收所采集到的输入信号。
图12图示了根据本公开实施例的电子设备的框图。
如图12所示,电子设备1200包括一个或多个处理器1201和存储器1202。
处理器1201可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备1200中的其他组件以执行期望的功能。
存储器1202可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器1201可以运行程序指令,以实现上文的本公开的各个实施例的关键点识别模型的生成方法或关键点识别方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如样本图像、待识别图像、关键点识别模型等各种内容。
在一个示例中,电子设备1200还可以包括:输入装置1203和输出装置1204,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是终端设备101或服务器103时,该输入装置1203可以是鼠标、键盘、相机等设备,用于输入图像。在该电子设备是单机设备时,该输入装置1203可以是通信网络连接器,用于从终端设备101和服务器103接收所输入的图像。
该输出装置1204可以向外部输出各种信息,包括确定出的关键点的位置信息等。该输出设备1204可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图12中仅示出了该电子设备1200中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备1200还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的关键点识别模型的生成方法或关键点识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的关键点识别模型的生成方法或关键点识别方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种关键点识别模型的生成方法,包括:
基于初始模型包括的热力图生成模块,生成样本图像对应的热力图集合,其中,所述热力图集合中的热力图表征所述目标对象上的预测关键点的位置,所述样本图像具有预先标注的表征所述目标对象上的关键点集合中的关键点的位置信息;
基于所述初始模型包括的预测矢量转换模块,将所述热力图集合中的热力图转换为预测矢量;
基于所述关键点集合中的关键点的位置信息,确定所述关键点集合中的关键点对应的监督矢量;
基于所述预测矢量和所述监督矢量,对所述初始模型进行训练,得到关键点识别模型。
2.根据权利要求1所述的方法,其中,所述基于所述初始模型包括的预测矢量转换模块,将所述热力图集合中的热力图转换为预测矢量,包括:
对于所述热力图集合中的每个热力图,对该热力图进行第一方向和第二方向上的降维操作,分别得到该热力图对应的第一预测矢量和第二预测矢量;
所述基于所述关键点集合中的关键点的位置信息,确定所述关键点集合中的关键点对应的监督矢量,包括:
基于所述关键点集合中的关键点的位置信息包括的第一方向和第二方向的坐标,确定所述关键点集合中的关键点对应的第一监督矢量和第二监督矢量。
3.根据权利要求2所述的方法,其中,所述对该热力图进行第一方向和第二方向上的降维操作,分别得到该热力图对应的第一预测矢量和第二预测矢量,包括:
获取预设数量组降维核,其中,所述预设数量组降维核中的每组降维核包括对应于所述第一方向的第一降维核和对应于所述第二方向的第二降维核;
基于所述预设数量组降维核,对该热力图进行降维操作,得到所述预设数量组降维核中的每组降维核对应的第一子预测矢量和第二子预测矢量;
基于所述每组降维核对应的预设权重,对各个第一子预测矢量和各个第二子预测矢量分别进行加权求和,得到该热力图对应的第一预测矢量和第二预测矢量。
4.根据权利要求2所述的方法,其中,所述基于所述关键点集合中的关键点的位置信息包括的第一方向和第二方向的坐标,确定所述关键点集合中的关键点对应的第一监督矢量和第二监督矢量,包括:
对于所述关键点集合中的每个关键点,基于该关键点的位置信息包括的第一方向的坐标和第二方向的坐标,确定该关键点对应的热力图上的坐标;
确定该关键点对应的第一监督矢量中的每个元素与该关键点对应的热力图上的第一坐标之间的第一距离,以及确定该关键点对应的第二监督矢量中的每个元素与该关键点对应的热力图上的第二坐标之间的第二距离;
基于所述第一距离和所述第二距离,确定该关键点对应的第一监督矢量和第二监督矢量。
5.一种关键点识别方法,包括:
获取包括目标对象的待识别图像;
将所述待识别图像输入预先训练的关键点识别模型包括的热力图生成模块,得到热力图集合,其中,所述热力图集合中的热力图表征所述目标对象上的预测关键点的位置,所述关键点识别模型基于权利要求1-6之一所述的方法训练得到;
基于所述关键点识别模型包括的预测矢量转换模块,将所述热力图集合中的热力图转换为预测矢量;
基于所述关键点识别模型包括的解码模块,对所述预测矢量进行解码,得到所述待识别图像对应的关键点集合中的关键点的位置信息。
6.根据权利要求5所述的方法,其中,所述基于所述关键点识别模型包括的解码模块,对所述预测矢量进行解码,得到所述待识别图像对应的关键点集合中的关键点的位置信息,包括:
对于所得到的各个预测矢量中的每个预测矢量,在该预测矢量对应的热力图中,确定该预测矢量中的元素的最大值对应的坐标;
确定所述坐标指示的位置是否在该预测矢量的边界上;
如果在所述边界上,基于所述坐标进行峰值估计,得到峰值坐标;
基于所述峰值坐标,确定该预测矢量对应的关键点在所述待识别图像中的位置信息。
7.一种关键点识别模型的生成装置,包括:
第一生成模块,用于基于初始模型包括的热力图生成模块,生成样本图像对应的热力图集合,其中,所述热力图集合中的热力图表征所述目标对象上的预测关键点的位置,所述样本图像具有预先标注的表征所述目标对象上的关键点集合中的关键点的位置信息;
第一转换模块,用于基于所述初始模型包括的预测矢量转换模块,将所述热力图集合中的热力图转换为预测矢量;
确定模块,用于基于所述关键点集合中的关键点的位置信息,确定所述关键点集合中的关键点对应的监督矢量;
训练模块,用于基于所述预测矢量和所述监督矢量,对所述初始模型进行训练,得到关键点识别模型。
8.一种关键点识别装置,包括:
第二获取模块,用于获取包括目标对象的待识别图像;
第二生成模块,用于将所述待识别图像输入预先训练的关键点识别模型包括的热力图生成模块,得到热力图集合,其中,所述热力图集合中的热力图表征所述目标对象上的预测关键点的位置,所述关键点识别模型基于权利要求1-6之一所述的方法训练得到;
第二转换模块,用于基于所述关键点识别模型包括的预测矢量转换模块,将所述热力图集合中的热力图转换为预测矢量;
解码模块,用于基于所述关键点识别模型包括的解码模块,对所述预测矢量进行解码,得到所述待识别图像对应的关键点集合中的关键点的位置信息。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一所述的方法。
10.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010836005.3A CN111985556A (zh) | 2020-08-19 | 2020-08-19 | 关键点识别模型的生成方法和关键点识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010836005.3A CN111985556A (zh) | 2020-08-19 | 2020-08-19 | 关键点识别模型的生成方法和关键点识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111985556A true CN111985556A (zh) | 2020-11-24 |
Family
ID=73434123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010836005.3A Pending CN111985556A (zh) | 2020-08-19 | 2020-08-19 | 关键点识别模型的生成方法和关键点识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111985556A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906675A (zh) * | 2021-04-27 | 2021-06-04 | 南京大学 | 一种固定场景中的无监督人体关键点检测方法及系统 |
CN114782449A (zh) * | 2022-06-23 | 2022-07-22 | 中国科学技术大学 | 下肢x光影像中关键点提取方法、系统、设备及存储介质 |
CN115578451A (zh) * | 2022-09-30 | 2023-01-06 | 北京百度网讯科技有限公司 | 图像处理方法、图像处理模型的训练方法和装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509222A (zh) * | 2018-10-26 | 2019-03-22 | 北京陌上花科技有限公司 | 直线类物体的检测方法及装置 |
CN109508681A (zh) * | 2018-11-20 | 2019-03-22 | 北京京东尚科信息技术有限公司 | 生成人体关键点检测模型的方法和装置 |
CN109657631A (zh) * | 2018-12-25 | 2019-04-19 | 上海智臻智能网络科技股份有限公司 | 人体姿态识别方法及装置 |
CN110020633A (zh) * | 2019-04-12 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 姿态识别模型的训练方法、图像识别方法及装置 |
US20190335100A1 (en) * | 2018-04-27 | 2019-10-31 | Continental Automotive Systems, Inc. | Device and Method For Determining A Center of A Trailer Tow Coupler |
CN110598601A (zh) * | 2019-08-30 | 2019-12-20 | 电子科技大学 | 一种基于分布式热力图的人脸3d关键点检测方法及系统 |
CN110991319A (zh) * | 2019-11-29 | 2020-04-10 | 广州市百果园信息技术有限公司 | 手部关键点检测方法、手势识别方法及相关装置 |
CN111191622A (zh) * | 2020-01-03 | 2020-05-22 | 华南师范大学 | 基于热力图和偏移向量的姿态识别方法、系统及存储介质 |
CN111223143A (zh) * | 2019-12-31 | 2020-06-02 | 广州市百果园信息技术有限公司 | 关键点检测方法、装置及计算机可读存储介质 |
CN111339846A (zh) * | 2020-02-12 | 2020-06-26 | 深圳市商汤科技有限公司 | 图像识别方法及装置、电子设备和存储介质 |
CN111523422A (zh) * | 2020-04-15 | 2020-08-11 | 北京华捷艾米科技有限公司 | 一种关键点检测模型训练方法、关键点检测方法和装置 |
-
2020
- 2020-08-19 CN CN202010836005.3A patent/CN111985556A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190335100A1 (en) * | 2018-04-27 | 2019-10-31 | Continental Automotive Systems, Inc. | Device and Method For Determining A Center of A Trailer Tow Coupler |
CN109509222A (zh) * | 2018-10-26 | 2019-03-22 | 北京陌上花科技有限公司 | 直线类物体的检测方法及装置 |
CN109508681A (zh) * | 2018-11-20 | 2019-03-22 | 北京京东尚科信息技术有限公司 | 生成人体关键点检测模型的方法和装置 |
CN109657631A (zh) * | 2018-12-25 | 2019-04-19 | 上海智臻智能网络科技股份有限公司 | 人体姿态识别方法及装置 |
CN110020633A (zh) * | 2019-04-12 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 姿态识别模型的训练方法、图像识别方法及装置 |
CN110598601A (zh) * | 2019-08-30 | 2019-12-20 | 电子科技大学 | 一种基于分布式热力图的人脸3d关键点检测方法及系统 |
CN110991319A (zh) * | 2019-11-29 | 2020-04-10 | 广州市百果园信息技术有限公司 | 手部关键点检测方法、手势识别方法及相关装置 |
CN111223143A (zh) * | 2019-12-31 | 2020-06-02 | 广州市百果园信息技术有限公司 | 关键点检测方法、装置及计算机可读存储介质 |
CN111191622A (zh) * | 2020-01-03 | 2020-05-22 | 华南师范大学 | 基于热力图和偏移向量的姿态识别方法、系统及存储介质 |
CN111339846A (zh) * | 2020-02-12 | 2020-06-26 | 深圳市商汤科技有限公司 | 图像识别方法及装置、电子设备和存储介质 |
CN111523422A (zh) * | 2020-04-15 | 2020-08-11 | 北京华捷艾米科技有限公司 | 一种关键点检测模型训练方法、关键点检测方法和装置 |
Non-Patent Citations (5)
Title |
---|
HUIMIN LI: ""Vector Hourglass Network for Human Pose Estimation based on Deep Learning"", 2019 IEEE 2ND INTERNATIONAL CONFERENCE ON AUTOMATION, ELECTRONICS AND ELECTRICAL ENGINEERING (AUTEEE), 12 March 2020 (2020-03-12) * |
张伟: ""引入全局约束的精简人脸关键点检测网络"", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, 15 August 2019 (2019-08-15) * |
张伟;钱沄涛;: "引入全局约束的精简人脸关键点检测网络", 信号处理, no. 03, 25 March 2019 (2019-03-25) * |
林怡雪;高尚;王光彩;刘晓欣;范迪;: "基于改进CPN的人体关键点定位算法研究", 现代计算机, no. 12, 25 April 2020 (2020-04-25) * |
谢禹;曹渝华;董文生;: "基于关键点的目标检测算法综述", 信息技术与标准化, no. 06, 10 June 2020 (2020-06-10) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906675A (zh) * | 2021-04-27 | 2021-06-04 | 南京大学 | 一种固定场景中的无监督人体关键点检测方法及系统 |
CN112906675B (zh) * | 2021-04-27 | 2024-03-22 | 南京大学 | 一种固定场景中的无监督人体关键点检测方法及系统 |
CN114782449A (zh) * | 2022-06-23 | 2022-07-22 | 中国科学技术大学 | 下肢x光影像中关键点提取方法、系统、设备及存储介质 |
CN115578451A (zh) * | 2022-09-30 | 2023-01-06 | 北京百度网讯科技有限公司 | 图像处理方法、图像处理模型的训练方法和装置 |
CN115578451B (zh) * | 2022-09-30 | 2024-01-23 | 北京百度网讯科技有限公司 | 图像处理方法、图像处理模型的训练方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108898186B (zh) | 用于提取图像的方法和装置 | |
CN108427927B (zh) | 目标再识别方法和装置、电子设备、程序和存储介质 | |
CN108509915B (zh) | 人脸识别模型的生成方法和装置 | |
CN111402130B (zh) | 数据处理方法和数据处理装置 | |
CN111985556A (zh) | 关键点识别模型的生成方法和关键点识别方法 | |
CN114186632B (zh) | 关键点检测模型的训练方法、装置、设备、存储介质 | |
CN110163205B (zh) | 图像处理方法、装置、介质和计算设备 | |
CN108875533B (zh) | 人脸识别的方法、装置、系统及计算机存储介质 | |
WO2016165614A1 (zh) | 一种即时视频中的表情识别方法和电子设备 | |
JP6071002B2 (ja) | 信頼度取得装置、信頼度取得方法および信頼度取得プログラム | |
CN112784765B (zh) | 用于识别动作的方法、装置、设备以及存储介质 | |
CN112509047A (zh) | 基于图像的位姿确定方法、装置、存储介质及电子设备 | |
CN113348465B (zh) | 图像中对象的关联性预测方法、装置、设备和存储介质 | |
CN111612842A (zh) | 生成位姿估计模型的方法和装置 | |
CN108229494B (zh) | 网络训练方法、处理方法、装置、存储介质和电子设备 | |
CN109345460B (zh) | 用于矫正图像的方法和装置 | |
WO2021208373A1 (zh) | 图像识别方法、装置、电子设备及计算机可读存储介质 | |
CN110659570A (zh) | 目标对象姿态跟踪方法、神经网络的训练方法及装置 | |
CN112489114A (zh) | 图像转换方法、装置、计算机可读存储介质及电子设备 | |
CN115471863A (zh) | 三维姿态的获取方法、模型训练方法和相关设备 | |
CN110532891B (zh) | 目标对象状态识别方法、装置、介质和设备 | |
US20240303848A1 (en) | Electronic device and method for determining human height using neural networks | |
CN111639591A (zh) | 轨迹预测模型生成方法、装置、可读存储介质及电子设备 | |
CN114139630A (zh) | 姿态识别方法、装置、存储介质和电子设备 | |
CN116704614B (zh) | 动作识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |