CN114332484A

CN114332484A - 关键点检测方法、装置、计算机设备和存储介质

Info

Publication number: CN114332484A
Application number: CN202111329254.4A
Authority: CN
Inventors: 项小明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-04-12

Abstract

本申请涉及一种关键点检测方法、装置、计算机设备和存储介质，属于人工智能技术领域。方法包括：对待检测图像进行特征提取处理，得到待检测图像的第一特征图；对第一特征图进行目标对象检测处理，得到目标对象的第二特征图；将第一特征图和第二特征图融合，得到融合后的特征图；基于融合后的特征图，确定目标对象的关键点特征参数；基于关键点特征参数，从第一特征图中检测出目标对象的关键点。采用本方法能够提升目标对象的关键点检测准确率。

Description

关键点检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术，更涉及图像处理技术领域，特别是涉及一种关键点检测方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，出现了关键点检测技术。关键点检测，是指从待检测的图像中定位出关键点的位置。传统技术中，通常是通过自底向上的方式，先识别出图像中所有的关键点，再通过辅助信息和后处理手段，将识别出来的关键点关联到其所属的目标物体上，从而得到最终的关键点检测结果。

但是，传统的关键点检测方法缺乏目标物体的整体性信息，因此，在关键点和所属目标物体关联时，容易出现误关联的情况，从而导致目标物体中的关键点检测准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高关键点检测准确率的关键点检测方法、装置、计算机设备和存储介质。

一种关键点检测方法，所述方法包括：

对待检测图像进行特征提取处理，得到所述待检测图像的第一特征图；

对所述第一特征图进行目标对象检测处理，得到所述目标对象的第二特征图；

将所述第一特征图和所述第二特征图融合，得到融合后的特征图；

基于所述融合后的特征图，确定所述目标对象的关键点特征参数；

基于所述关键点特征参数，从所述第一特征图中检测出所述目标对象的关键点。

一种关键点检测装置，所述装置包括：

提取模块，用于对待检测图像进行特征提取处理，得到所述待检测图像的第一特征图；

检测模块，用于对所述第一特征图进行目标对象检测处理，得到所述目标对象的第二特征图；

融合模块，用于将所述第一特征图和所述第二特征图融合，得到融合后的特征图；

确定模块，用于基于所述融合后的特征图，确定所述目标对象的关键点特征参数；

所述检测模块，用于基于所述关键点特征参数，从所述第一特征图中检测出所述目标对象的关键点。

在一个实施例中，所述提取模块还用于获取待检测图像的原始特征图；对所述原始特征图进行卷积，得到卷积后的特征图；对所述原始特征图进行上采样，得到上采样后的特征图；将所述卷积后的特征图和所述上采样后的特征图进行融合，得到融合特征图；对所述融合特征图进行卷积，得到所述待检测图像的第一特征图。

在一个实施例中，所述目标对象为多个，多个目标对象中包括不同类型的目标对象；所述检测模块还用于将所述第一特征图进行卷积，得到多个中间特征图；对所述多个中间特征图进行卷积，以将同一类型的目标对象的特征融合至同一特征图中，得到每个类型分别对应的第二特征图。

在一个实施例中，所述检测模块还用于对所述第一特征图进行目标对象检测处理，得到第一概率特征图；所述第一概率特征图中的每个像素点分别对应一个第一概率值；所述第一概率值，用于表征对应像素点的位置上存在目标对象的概率；将所述第一概率特征图划分为预设数量、且大小相同的第一图像块；针对每一个所述第一图像块，从所述第一图像块中选取概率值最大的第一概率值，作为第一目标概率值；将所述第一目标概率值大于第一预设概率值的概率值所对应的像素点，确定为第一目标像素点；根据所述第一目标像素点，生成所述目标对象的第二特征图。

在一个实施例中，所述第二特征图，是通过已训练的关键点检测模型中的目标检测网络生成的；所述已训练的关键点检测模型中还包括关键点检测网络；所述关键点检测网络中包括第一卷积网络和第二卷积网络；所述确定模块还用于将所述融合后的特征图输入至所述第一卷积网络进行卷积，以输出所述目标对象的关键点特征参数；所述检测模块还用于将所述关键点特征参数作为所述第二卷积网络的卷积参数，通过所述第二卷积网络对所述第一特征图进行卷积，以从所述第一特征图中检测出所述目标对象的关键点。

在一个实施例中，所述检测模块还用于将所述关键点特征参数作为所述第二卷积网络的卷积参数，以使得所述第二卷积网络基于所述关键点特征参数在所述第一特征图中确定目标区域；所述目标区域是所述目标对象的关键点在所述第一特征图中的区域；基于所述第二卷积网络从所述目标区域中检测出所述目标对象的关键点。

在一个实施例中，所述装置还包括：训练模块，用于获取含有目标对象的样本图像；将所述样本图像输入至待训练的关键点检测模型；所述待训练的关键点检测模型中包括待训练目标检测网络和待训练关键点检测网络；通过所述待训练目标检测网络预测所述样本图像中目标对象的预测属性信息，并通过所述待训练关键点检测网络预测所述目标对象的预测关键点信息；确定预测属性信息与目标对象的目标属性信息之间的第一损失值；确定预测关键点信息与目标对象的目标关键点信息之间的第二损失值；根据所述第一损失值和所述第二损失值确定目标损失值；朝着使所述目标损失值减小的方向，对所述待训练的关键点检测模型进行迭代训练，直至满足迭代停止条件时，得到已训练的关键点检测模型。

在一个实施例中，所述待训练关键点检测网络中包括待训练第一卷积网络；所述预测属性信息包括预测对象热力图；所述预测关键点信息包括预测关键点热力图；所述训练模块还用于通过所述待训练目标检测网络，预测所述样本图像中目标对象的预测对象热力图；将所述预测对象热力图和所述样本图像的特征图融合，得到样本融合特征图，并将所述样本融合特征图输入至所述待训练第一卷积网络，输出所述预测关键点特征参数；基于所述预测关键点特征参数，从所述样本图像的特征图中预测出所述目标对象的关键点，并基于预测的关键点生成所述目标对象的预测关键点热力图。

在一个实施例中，所述预测对象热力图，是基于所述待训练目标检测网络预测所述样本图像中目标对象的中心点的坐标后，对所述中心点的坐标进行热力图坐标转换得到的；所述预测属性信息还包括所述目标对象对应的边界框的预测尺寸信息，以及所述目标对象的中心点所对应的转换误差；所述转换误差，是将所述中心点的坐标进行热力图坐标转换时所产生的误差。

在一个实施例中，所述检测模块还用于根据所述关键点特征参数对所述第一特征图进行卷积，得到第二概率特征图；所述第二概率特征图中的每个像素点分别对应一个第二概率值；所述第二概率值，用于表征对应像素点的位置上存在关键点的概率；将所述第二概率特征图划分为预设数量、且大小相同的第二图像块；针对每一个所述第二图像块，从所述第二图像块中选取概率值最大的第二概率值，作为第二目标概率值；将所述第二目标概率值大于第二预设概率值的概率值所对应的像素点，确定为第二目标像素点；将所述第二目标像素点，作为所述目标对象的关键点。

在一个实施例中，所述待检测图像是在点读场景下采集的图像；所述目标对象是在所述点读场景下用于触发点读的输入实体；所述装置还包括：点读模块，用于基于所述输入实体的关键点，确定目标点读文本；基于所述目标点读文本进行点读处理。

在一个实施例中，所述输入实体为多个，多个输入实体中包括不同类型的输入实体；所述点读模块还用于根据所述不同类型的输入实体中各类型分别对应的优先级，将优先级最高的类型所对应的输入实体作为目标输入实体；将所述目标输入实体的关键点确定为目标关键点，确定所述目标关键点所指向的目标点读文本。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述关键点检测方法、装置、计算机设备和存储介质，通过对待检测图像进行特征提取处理，可以得到待检测图像的第一特征图，通过对第一特征图进行目标对象检测处理，可以获得包括目标对象整体性信息的目标对象的第二特征图。通过将第一特征图和第二特征图融合，可以得到融合后的特征图。基于融合后的特征图，确定目标对象的关键点特征参数。由于待检测图像是变化的，因此，获取得到的关键点特征参数也会随着待检测图像而动态变化。进而，基于关键点特征参数，可以直接从第一特征图中检测出目标对象的关键点，避免了将关键点与其所属的目标对象进行关联的步骤，提升了目标对象的关键点检测的准确率。

附图说明

图1为一个实施例中关键点检测方法的应用环境图；

图2为一个实施例中关键点检测方法的流程示意图；

图3为一个实施例中关键点检测模型的结构示意图；

图4为一个实施例中目标对象的预测对象热力图；

图5为一个实施例中样本图像中所有目标对象的预测对象热力图；

图6为一个实施例中关键点的预测关键点热力图；

图7为一个实施例中样本图像中所有关键点的预测关键点热力图；

图8为一个实施例中从待检测图像中检测出的所有关键点示意图；

图9为一个实施例中从待检测图像中检测出的目标关键点示意图；

图10为一个实施例中基于目标点读文本进行点读处理示意图；

图11为另一个实施例中基于目标点读文本进行点读处理示意图；

图12为另一个实施例中关键点检测方法的流程示意图；

图13为一个实施例中关键点检测装置的结构框图；

图14为另一个实施例中关键点检测装置的结构框图；

图15为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的关键点检测方法，可以应用于如图1的应用场景中，在该应用场景中，用户用手点读书本102中的文本，以得到对应的待检测图像104。计算机设备106可获取待检测图像104，并可对待检测图像104进行特征提取处理，得到待检测图像104的第一特征图，并对第一特征图进行目标对象检测处理，得到目标对象的第二特征图。计算机设备106可将第一特征图和第二特征图融合，得到融合后的特征图，并基于融合后的特征图，确定目标对象的关键点特征参数。计算机设备106可基于关键点特征参数，从第一特征图中检测出目标对象的关键点。

其中，计算机设备106可以包括终端和服务器。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备、车载终端和点读设备，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，本申请一些实施例中的关键点检测方法使用到了人工智能技术。比如，待检测图像的第一特征图和目标对象的第二特征图，则属于使用人工智能技术进行特征提取得到的特征图，以及，目标对象的关键点，也属于使用人工智能技术检测得到的关键点。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请一些实施例中的关键点检测方法使用到了计算机视觉技术。比如，计算机设备对待检测图像进行特征提取处理，得到待检测图像的第一特征图，则属于使用计算机视觉技术进行特征提取得到的特征图。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

在一个实施例中，如图2所示，提供了一种关键点检测方法，本实施例以该方法应用于图1中的计算机设备106为例进行说明，包括以下步骤：

步骤202，对待检测图像进行特征提取处理，得到待检测图像的第一特征图。

其中，待检测图像是待进行关键点检测的图像。第一特征图是待检测图像自身的特征图。

具体地，计算机设备可获取待检测图像，并对获取的待检测图像进行特征提取处理，得到待检测图像的第一特征图。

在一个实施例中，待检测图像可以是单通道或多通道的图像。比如，待检测图像可以是单通道的灰度图像，也可以是3通道的RGB(Red(红色)、Green(绿色)、Blue(蓝色))图像。

在一个实施例中，计算机设备可获取待检测图像，并按照预设的图像尺寸对待检测图像进行缩放处理，比如按照320*320的图像尺寸对待检测图像进行缩放处理。进而，计算机设备可对缩放处理后的待检测图像进行特征提取处理，得到待检测图像的第一特征图。

在一个实施例中，计算机设备中可运行有已训练的关键点检测模型，已训练的关键点检测模型中包括特征提取网络。计算机设备可获取待检测图像，并将待检测图像输入至特征提取网络，以通过特征提取网络对待检测图像进行特征提取处理，获得待检测图像的第一特征图。

在一个实施例中，特征提取网络中包括骨干网络，计算机设备可获取待检测图像，并将待检测图像输入至骨干网络，以通过骨干网络对待检测图像进行初步特征提取处理，获得待检测图像的原始特征图。进而，计算机设备可对原始特征图进行进一步的特征提取处理，得到待检测图像的第一特征图。其中，原始特征图，是对待检测图像进行初步特征提取处理得到的特征图。

步骤204，对第一特征图进行目标对象检测处理，得到目标对象的第二特征图。

其中，目标对象是作为目标的检测对象。第二特征图是目标对象自身的特征图。

具体地，计算机设备可对第一特征图进行卷积，以获取第一特征图中目标对象的特征。进而，计算机设备可基于第一特征图中目标对象的特征，生成目标对象的第二特征图。

在一个实施例中，计算机设备中可运行有已训练的关键点检测模型。计算机设备可将第一特征图输入至已训练的关键点检测模型，通过已训练的关键点检测模型对第一特征图进行卷积，以获取第一特征图中目标对象的特征。计算机设备可基于第一特征图中目标对象的特征，生成目标对象的第二特征图。

在一个实施例中，计算机设备中可运行有已训练的关键点检测模型，已训练的关键点检测模型中包括目标检测网络。计算机设备可将第一特征图输入至目标检测网络，以通过目标检测网络对第一特征图进行卷积，以获取第一特征图中目标对象的特征。计算机设备可基于第一特征图中目标对象的特征，生成目标对象的第二特征图。

在一个实施例中，计算机设备可对第一特征图进行卷积，以进行特征学习，得到中间特征图。计算机设备可再对中间特征图进行卷积，获得目标对象的第二特征图。其中，中间特征图，是对第一特征图进行目标对象检测处理，生成目标对象的第二特征图的过程中，处于中间状态的特征图。

在一个实施例中，计算机设备可对中间特征图进行卷积，得到第一概率特征图。进而，计算机设备可对第一概率特征图进行最大值池处理，并基于最大值池处理后的结果，生成目标对象的第二特征图。其中，第一概率特征图，是用于表征第一特征图中存在目标对象的概率。

步骤206，将第一特征图和第二特征图融合，得到融合后的特征图。

在一个实施例中，计算机设备将第一特征图和第二特征图融合，具体可以是将第一特征图和第二特征图进行特征拼接，得到拼接后的特征图，并将拼接后的特征图作为融合后的特征图。需要说明的是，第一特征图和第二特征图融合，具体也可以是除特征拼接之外的其他特征融合方式，本实施了对特征融合的具体方式不做限定。

步骤208，基于融合后的特征图，确定目标对象的关键点特征参数。

其中，关键点特征参数是用于表征关键点特征的参数。关键点特征是用于表征关键点的特征。

具体地，计算机设备可从融合后的特征图中，提取目标对象的关键点的特征。进而，计算机设备可基于目标对象的关键点的特征，确定目标对象的关键点特征参数。

在一个实施例中，计算机设备中可运行有已训练的关键点检测模型，计算机设备可通过已训练的关键点检测模型，从融合后的特征图中，提取目标对象的关键点的特征。进而，计算机设备可再通过已训练的关键点检测模型，基于目标对象的关键点的特征，确定目标对象的关键点特征参数。

在一个实施例中，计算机设备中可运行有已训练的关键点检测模型，已训练的关键点检测模型中包括关键点检测网络，关键点检测网络中包括第一卷积网络。计算机设备可将融合后的特征图输入至第一卷积网络，以通过第一卷积网络对融合后的特征图进行卷积，获得目标对象的关键点特征参数。

步骤210，基于关键点特征参数，从第一特征图中检测出目标对象的关键点。

具体地，计算机设备可基于关键点特征参数，确定目标对象的关键点所在位置区域。进而，计算机设备可基于确定的位置区域，从第一特征图中检测出目标对象的关键点。

在一个实施例中，计算机设备中可运行有已训练的关键点检测模型，已训练的关键点检测模型中包括关键点检测网络，关键点检测网络中包括第二卷积网络。计算机设备可将关键点特征参数作为第二卷积网络的卷积参数，进而，将第一特征图输入至第二卷积网络，并通过第二卷积网络对第一特征图进行卷积，以从第一特征图中检测出目标对象的关键点。

在一个实施例中，计算机设备可根据关键点特征参数对第一特征图进行卷积，得到第二概率特征图。进而，计算机设备可对第二概率特征图进行最大值池处理，并基于最大值池处理后的结果，从第一特征图中检测出目标对象的关键点。其中，第二概率特征图，是用于表征第一特征图中存在目标对象的关键点的概率。

上述关键点检测方法中，通过对待检测图像进行特征提取处理，可以得到待检测图像的第一特征图，通过对第一特征图进行目标对象检测处理，可以获得包括目标对象整体性信息的目标对象的第二特征图。通过将第一特征图和第二特征图融合，可以得到融合后的特征图。基于融合后的特征图，确定目标对象的关键点特征参数。由于待检测图像是变化的，因此，获取得到的关键点特征参数也会随着待检测图像而动态变化。进而，基于关键点特征参数，可以直接从第一特征图中检测出目标对象的关键点，避免了将关键点与其所属的目标对象进行关联的步骤，提升了目标对象的关键点检测的准确率。

同时，相较于传统的自顶向下的关键点检测方式，即，先通过目标检测模型检测出目标对象，再通过独立于目标检测模型的关键点检测模型检测出目标对象的关键点的方式，本申请提出了一种全新的关键点检测方法，本申请的关键点检测方法只需要训练一个模型就可实现对目标对象的关键点检测，而不需要如传统的自顶向下的关键点检测方式那样，单独训练两个独立的模型，节省了时间成本。

在一个实施例中，对待检测图像进行特征提取处理，得到待检测图像的第一特征图，包括：获取待检测图像的原始特征图；对原始特征图进行卷积，得到卷积后的特征图；对原始特征图进行上采样，得到上采样后的特征图；将卷积后的特征图和上采样后的特征图进行融合，得到融合特征图；对融合特征图进行卷积，得到待检测图像的第一特征图。

其中，对原始特征图进行上采样，是指对原始特征图进行尺寸放大处理。融合特征图，是将卷积后的特征图和上采样后的特征图进行融合所生成得到的特征图。

具体地，计算机设备可获取待检测图像的原始特征图，并对获取的原始特征图进行卷积，得到卷积后的特征图。计算机设备可对原始特征图进行上采样，即，对原始特征图进行尺寸放大处理，得到上采样后的特征图。进而，计算机设备可将卷积后的特征图和上采样后的特征图进行特征融合，得到融合特征图，并对融合特征图进行卷积，得到待检测图像的第一特征图。

在一个实施例中，计算机设备中可运行有已训练的关键点检测模型，已训练的关键点检测模型中包括特征提取网络，其中，特征提取网络中包括骨干网络特征卷积网络。计算机设备可将待检测图像输入至骨干网络，以通过骨干网络对待检测图像进行初步特征提取处理，获得待检测图像的原始特征图。进而，计算机设备可将原始特征图输入至特征卷积网络，以通过特征卷积网络对原始特征图进行卷积，得到卷积后的特征图，对原始特征图进行上采样，得到上采样后的特征图，以及将卷积后的特征图和上采样后的特征图进行融合，得到融合特征图，最后对再融合特征图进行卷积，得到待检测图像的第一特征图。

在一个实施例中，计算机设备可将待检测图像输入至骨干网络，比如，将图像尺寸为320*320的待检测图像输入至骨干网络，以通过骨干网络对该待检测图像进行初步特征提取处理，获得待检测图像的原始特征图。进而，计算机设备可将原始特征图输入至特征卷积网络，以通过特征卷积网络对原始特征图进行1*1卷积，得到卷积后的特征图，同时，通过FPN(Feature Pyramid Networks，特征金字塔网络)的方式对原始特征图进行上采样，得到上采样后的特征图，以及将卷积后的特征图和上采样后的特征图进行融合，得到融合特征图，比如，可以得到图像尺寸为80*80的融合特征图，最后对再融合特征图进行3*3卷积，得到待检测图像的第一特征图。其中，第一特征图的数量为N，N为自然数。

在一个实施例中，骨干网络可以是任意的神经网络，比如，骨干网络可以是MoileNetV1(移动网络第一版本)、MoileNetV2(移动网络第二版本)、VGG(Visual GeometryGroup Network，可视化几何组网络)和ResNet(残差网络)等中的任一种。

上述实施例中，通过对待检测图像的原始特征图进行卷积，可以得到更抽象的卷积后的特征图。通过对原始特征图进行上采样，可以得到更具体的上采样后的特征图，进而通过将卷积后的特征图和上采样后的特征图进行融合，可以得到融合特征图。通过对融合特征图进行卷积，得到更好的待检测图像的第一特征图，进而可以进一步提升目标对象的关键点检测准确率。

在一个实施例中，目标对象为多个，多个目标对象中包括不同类型的目标对象。对第一特征图进行目标对象检测处理，得到目标对象的第二特征图，包括：将第一特征图进行卷积，得到多个中间特征图；对多个中间特征图进行卷积，以将同一类型的目标对象的特征融合至同一特征图中，得到每个类型分别对应的第二特征图。

具体地，计算机设备可将第一特征图进行卷积，得到多个中间特征图，并对多个中间特征图进行卷积，以将同一类型的目标对象的特征融合至同一特征图中，得到每个类型分别对应的第二特征图。可以理解，目标对象的类型包括多种，一种类型的目标对象对应一张第二特征图。

在一个实施例中，计算机设备可将第一特征图进行3*3卷积，以进行特征学习，得到多个中间特征图。进而，计算机设备可对多个中间特征图进行1*1卷积，以将同一类型的目标对象的特征融合至同一特征图中，得到每个类型分别对应的第二特征图。举例说明，若目标对象的类型包括第一类型和第二类型两种，则第一类型的目标对象对应一张用于表征该目标对象的第二特征图，第二类型的目标对象对应另一张用于表征该目标对象的第二特征图。

上述实施例中，通过将第一特征图进行卷积，以进行特征学习，得到多个中间特征图。通过对多个中间特征图再进行卷积，可以将同一类型的目标对象的特征融合至同一特征图中，得到每个类型分别对应的第二特征图，从而可以检测出不同类型的目标对象，提升目标对象的检测准确率。

在一个实施例中，对第一特征图进行目标对象检测处理，得到目标对象的第二特征图，包括：对第一特征图进行目标对象检测处理，得到第一概率特征图；第一概率特征图中的每个像素点分别对应一个第一概率值；第一概率值，用于表征对应像素点的位置上存在目标对象的概率；将第一概率特征图划分为预设数量、且大小相同的第一图像块；针对每一个第一图像块，从第一图像块中选取概率值最大的第一概率值，作为第一目标概率值；将第一目标概率值大于第一预设概率值的概率值所对应的像素点，确定为第一目标像素点；根据第一目标像素点，生成目标对象的第二特征图。

其中，第一图像块，是对第一概率特征图进行划分得到的图像块。第一目标概率值是作为目标的第一概率值。第一目标像素点，是对应位置上真实存在目标对象的像素点。

具体地，计算机设备可对第一特征图进行目标对象检测处理，得到第一概率特征图，并将第一概率特征图划分为预设数量、且大小相同的第一图像块。针对每一个第一图像块，计算机设备可从第一图像块中选取概率值最大的第一概率值，作为第一目标概率值。计算机设备可将第一目标概率值与第一预设概率值进行比对，并将第一目标概率值大于第一预设概率值的概率值所对应的像素点，确定为第一目标像素点。进而，计算机设备可根据第一目标像素点，生成目标对象的第二特征图。

上述实施例中，通过对第一特征图进行目标对象检测处理，可以得到第一特征图对应的第一概率特征图，将第一概率特征图划分为多个第一图像块，从各第一图像块中选取概率值最大的第一概率值作为第一目标概率值，进而将第一目标概率值大于第一预设概率值的概率值所对应的像素点确定为第一目标像素点，可以理解，第一目标像素点所在的位置即为目标对象所在的位置。进而，根据第一目标像素点，可以生成目标对象的第二特征图，从而提升目标对象的检测准确率。

在一个实施例中，计算机设备可将第一特征图进行卷积，得到中间特征图。计算机设备可对中间特征图进行目标对象检测处理，得到第一概率特征图，并将第一概率特征图划分为预设数量、且大小相同的第一图像块。针对每一个第一图像块，计算机设备可从第一图像块中选取概率值最大的第一概率值，作为第一目标概率值。计算机设备可将第一目标概率值与第一预设概率值进行比对，并将第一目标概率值大于第一预设概率值的概率值所对应的像素点，确定为第一目标像素点。进而，计算机设备可根据第一目标像素点，生成目标对象的第二特征图。

在一个实施例中，第二特征图，是通过已训练的关键点检测模型中的目标检测网络生成的；已训练的关键点检测模型中还包括关键点检测网络；关键点检测网络中包括第一卷积网络和第二卷积网络。基于融合后的特征图，确定目标对象的关键点特征参数，包括：将融合后的特征图输入至第一卷积网络进行卷积，以输出目标对象的关键点特征参数；基于关键点特征参数，从第一特征图中检测出目标对象的关键点，包括：将关键点特征参数作为第二卷积网络的卷积参数，通过第二卷积网络对第一特征图进行卷积，以从第一特征图中检测出目标对象的关键点。

其中，卷积参数，是第二卷积网络进行卷积运算时所需要应用的参数。

具体地，已训练的关键点检测模型中包括目标检测网络和关键点检测网络，关键点检测网络中包括第一卷积网络和第二卷积网络。计算机设备可将第一特征图输入至目标检测网络，以通过目标检测网络对第一特征图进行目标对象检测处理，得到目标对象的第二特征图。计算机设备可将第一特征图和第二特征图融合，得到融合后的特征图。计算机设备可将融合后的特征图输入至第一卷积网络进行卷积，以输出目标对象的关键点特征参数。进而，计算机设备可将关键点特征参数作为第二卷积网络的卷积参数，通过第二卷积网络对第一特征图进行卷积，以从第一特征图中检测出目标对象的关键点。

在一个实施例中，计算机设备可将关键点特征参数作为第二卷积网络的卷积参数，以使得第二卷积网络基于关键点特征参数在第一特征图中确定目标对象的具体位置。进而，计算机设备可基于第二卷积网络，根据目标对象的具体位置，从第一特征图中检测出目标对象的关键点。

在一个实施例中，计算机设备可获取含有目标对象的样本图像，并将样本图像输入至待训练的关键点检测模型，以通过待训练的关键点检测模型预测样本图像对应的预测结果。计算机设备可确定预测结果与样本图像对应的样本结果之间的损失值，朝着使该损失值减小的方向，对待训练的关键点检测模型进行迭代训练，直至满足迭代停止条件时，得到已训练的关键点检测模型。其中，样本图像，是用于训练待训练的关键点检测模型的训练图像。预测结果，是训练待训练的关键点检测模型的过程中，待训练的关键点检测模型基于输入的样本图像所预测的结果。样本结果，是针对样本图像所预先标注的结果。

在一个实施例中，第一卷积网络可以为动态卷积核，动态卷积核的参数，即关键点特征参数，可以随着输入的不同而发生动态的改变。

上述实施例中，通过将融合后的特征图输入至第一卷积网络进行卷积，可以输出与输入相关联的目标对象的关键点特征参数，可以理解，关键点特征参数可以随着输入的不同而发生动态改变。进而，将关键点特征参数作为第二卷积网络的卷积参数后，通过第二卷积网络对第一特征图进行卷积，可以从第一特征图中检测出目标对象的关键点，进一步提升了目标对象的关键点检测准确率。

在一个实施例中，将关键点特征参数作为第二卷积网络的卷积参数，通过第二卷积网络对第一特征图进行卷积，以从第一特征图中检测出目标对象的关键点，包括：将关键点特征参数作为第二卷积网络的卷积参数，以使得第二卷积网络基于关键点特征参数在第一特征图中确定目标区域；目标区域是目标对象的关键点在第一特征图中的区域；基于第二卷积网络从目标区域中检测出目标对象的关键点。

具体地，计算机设备可将关键点特征参数作为第二卷积网络的卷积参数，以使得第二卷积网络可基于关键点特征参数在第一特征图中确定目标区域。进而，计算机设备可基于第二卷积网络从目标区域中检测出目标对象的关键点。

上述实施例中，通过将关键点特征参数作为第二卷积网络的卷积参数后，可以通过第二卷积网络基于关键点特征参数在第一特征图中确定目标区域，从而可基于第二卷积网络从目标区域中检测出目标对象的关键点，进一步提升关键点检测效率和准确率。

在一个实施例中，得到已训练的关键点检测模型的步骤，包括：得到已训练的关键点检测模型的步骤，包括：获取含有目标对象的样本图像；将样本图像输入至待训练的关键点检测模型；待训练的关键点检测模型中包括待训练目标检测网络和待训练关键点检测网络；通过待训练目标检测网络预测样本图像中目标对象的预测属性信息，并通过待训练关键点检测网络预测目标对象的预测关键点信息；确定预测属性信息与目标对象的目标属性信息之间的第一损失值；确定预测关键点信息与目标对象的目标关键点信息之间的第二损失值；根据第一损失值和第二损失值确定目标损失值；朝着使目标损失值减小的方向，对待训练的关键点检测模型进行迭代训练，直至满足迭代停止条件时，得到已训练的关键点检测模型。

其中，预测属性信息，是训练待训练的关键点检测模型的过程中，待训练的关键点检测模型基于输入的样本图像中的目标对象所预测的属性信息。预测关键点信息，是训练待训练的关键点检测模型的过程中，待训练的关键点检测模型基于输入的样本图像中的目标对象所预测的关键点信息。目标属性信息，是针对样本图像中的目标对象所预先标注的属性信息。目标关键点信息，是针对样本图像中的目标对象所预先标注的关键点信息。第一损失值，是预测属性信息与目标对象的目标属性信息之间的误差。第二损失值，是预测关键点信息与目标对象的目标关键点信息之间的误差。目标损失值是作为目标的损失值。

具体地，计算机设备可获取含有目标对象的样本图像，并将样本图像输入至待训练的关键点检测模型。计算机设备可通过待训练目标检测网络预测样本图像中目标对象的预测属性信息，并通过待训练关键点检测网络预测目标对象的预测关键点信息。计算机设备可将预测属性信息与目标对象的目标属性信息之间的差值作为第一损失值，以及将预测关键点信息与目标对象的目标关键点信息之间的差值作为第二损失值。计算机设备可将第一损失值和第二损失值进行加权融合，得到目标损失值，并朝着使目标损失值减小的方向，对待训练的关键点检测模型进行迭代训练，直至满足迭代停止条件时，得到已训练的关键点检测模型。

在一个实施例中，上述预测结果包括预测属性信息和预测关键点信息，以及，上述样本结果包括目标属性信息和目标关键点信息。

在一个实施例中，待训练关键点检测网络中包括待训练第一卷积网络，预测属性信息包括预测对象特征图，预测关键点信息包括预测关键点特征图。计算机设备可通过待训练目标检测网络，预测样本图像中目标对象的预测对象特征图。计算机设备可将预测对象特征图和样本图像的特征图进行融合，并将预测对象特征图和样本图像的特征图融合后的特征图，输入至待训练第一卷积网络，输出预测关键点特征参数。计算机设备可基于预测关键点特征参数，从样本图像的特征图中预测出目标对象的关键点，并基于预测的关键点生成目标对象的预测关键点特征图。其中，预测对象特征图，是训练待训练的关键点检测模型的过程中，待训练的关键点检测模型基于输入的样本图像中的目标对象所预测的特征图。预测关键点特征图，是训练待训练的关键点检测模型的过程中，待训练的关键点检测模型基于输入的样本图像中的目标对象所预测的关键点特征图。

上述实施例中，通过将含有目标对象的样本图像，输入至包括待训练目标检测网络和待训练关键点检测网络的待训练的关键点检测模型，进而可以通过待训练目标检测网络快速地预测样本图像中目标对象的预测属性信息，以及通过待训练关键点检测网络快速地预测目标对象的预测关键点信息。确定预测属性信息与目标对象的目标属性信息之间的第一损失值，以及确定预测关键点信息与目标对象的目标关键点信息之间的第二损失值，从而可以根据第一损失值和第二损失值准确地确定目标损失值。朝着使目标损失值减小的方向对待训练的关键点检测模型进行迭代训练，直至满足迭代停止条件时，可以得到已训练的关键点检测模型，使得最终得到的关键点检测模型同时具备检测目标对象和目标对象的关键点的能力。

在一个实施例中，待训练关键点检测网络中包括待训练第一卷积网络；预测属性信息包括预测对象热力图；预测关键点信息包括预测关键点热力图；通过待训练目标检测网络预测样本图像中目标对象的预测属性信息，并通过待训练关键点检测网络预测目标对象的预测关键点信息，包括：通过待训练目标检测网络，预测样本图像中目标对象的预测对象热力图；将预测对象热力图和样本图像的特征图融合，得到样本融合特征图，并将样本融合特征图输入至待训练第一卷积网络，输出预测关键点特征参数；基于预测关键点特征参数，从样本图像的特征图中预测出目标对象的关键点，并基于预测的关键点生成目标对象的预测关键点热力图。

其中，预测对象热力图，是训练待训练的关键点检测模型的过程中，待训练的关键点检测模型基于输入的样本图像中的目标对象所预测的热力图。预测关键点热力图，是训练待训练的关键点检测模型的过程中，待训练的关键点检测模型基于输入的样本图像中的目标对象所预测的关键点热力图。

具体地，计算机可通过待训练目标检测网络，预测样本图像中目标对象的预测对象热力图，并将预测对象热力图和样本图像的特征图进行特征融合，得到样本融合特征图。计算机设备可将获得的样本融合特征图输入至待训练第一卷积网络，以对样本融合特征图进行卷积，输出预测关键点特征参数。计算机设备可基于预测关键点特征参数，从样本图像的特征图中预测出目标对象的关键点，并基于预测的关键点生成目标对象的预测关键点热力图。

在一个实施例中，预测属性信息除了包括预测对象热力图之外，还可以包括目标对象的所包括的其他任意属性对应的信息。预测关键点信息除了包括预测关键点热力图之外，还可以包括可以表征目标对象的关键点的其他信息。

上述实施例中，通过待训练目标检测网络，可以快速预测样本图像中目标对象的预测对象热力图。通过将预测对象热力图和样本图像的特征图融合，可以得到样本融合特征图。通过将样本融合特征图输入至待训练第一卷积网络，可以输出与输入相关联的预测关键点特征参数。进而，基于输入相关联的预测关键点特征参数，可以准确从样本图像的特征图中预测出目标对象的关键点，基于预测的关键点，可以快速生成目标对象的预测关键点热力图。这样，通过第一卷积网络，可以将目标对象检测的训练与目标对象的关键点检测的训练联合起来，实现多任务联合训练。

在一个实施例中，预测对象热力图，是基于待训练目标检测网络预测样本图像中目标对象的中心点的坐标后，对中心点的坐标进行热力图坐标转换得到的；预测属性信息还包括目标对象对应的边界框的预测尺寸信息，以及目标对象的中心点所对应的转换误差；转换误差，是将中心点的坐标进行热力图坐标转换时所产生的误差。

其中，边界框是包裹目标对象的图形框，比如，矩形框。预测尺寸信息，是待训练的关键点检测模型预测得到的边界框的尺寸信息。

具体地，计算机设备可基于待训练目标检测网络，预测样本图像中目标对象的中心点的坐标，并在获取到目标对象的中心点之后，对该中心点的坐标进行热力图坐标转换得到预测对象热力图。计算机设备可基于待训练的关键点检测模型，确定目标对象对应的边界框，并对该边界框的尺寸进行预测，得到预测尺寸信息。计算机设备可在将上述中心点的坐标进行热力图坐标转换时，获得目标对象的中心点所对应的转换误差。

在一个实施例中，目标对象对应的边界框的预测尺寸信息，具体可以包括该边界框的预测高度信息和预测宽度信息。

在一个实施例中，如图3所示，关键点检测模型包括特征提取网络301、目标检测网络302、以及关键点检测网络303，其中，特征提取网络301包括骨干网络，关键点检测网络303包括第一卷积网络3031和第二卷积网络3032。计算机设备可将320*320的待检测图像输入至骨干网络，得到80*80的原始特征图，并对原始特征图进行1*1卷积，得到卷积后的特征图，对原始特征图进行上采样，得到上采样后的特征图，将卷积后的特征图和上采样后的特征图进行融合，得到融合特征图，对融合特征图进行3*3卷积，得到80*80目标对象的第一特征图。计算机设备可将第一特征图进行3*3卷积，得到多个中间特征图。计算机设备可将中间特征图输入至目标检测网络302，并通过目标检测网络302对多个中间特征图进行1*1卷积，以将同一类型的目标对象的特征融合至同一特征图中，得到每个类型分别对应的第二特征图。计算机设备可将第一特征图和第二特征图合并输入至第一卷积网络3031，得到关键点特征参数，并将关键点特征参数作为第二卷积网络3032的卷积参数，通过第二卷积网络3032对第一特征图进行卷积，以从第一特征图中检测出目标对象的关键点。

需要说明的是，计算机设备可通过已训练的关键点检测模型对目标对象的关键点进行检测。其中，已训练的关键点检测模型可通过对待训练的关键点检测模型进行迭代训练得到。在迭代训练关键点检测模型的过程中，参考图3，计算机设备可基于目标检测网络302，预测样本图像中目标对象的中心点的坐标，并在获取到目标对象的中心点之后，对该中心点的坐标进行热力图坐标转换得到预测对象热力图。同时，计算机设备可基于目标检测网络302，确定目标对象对应的边界框，并对该边界框的宽度和高度进行预测，得到预测宽度信息和预测高度信息。以及，计算机设备可在将上述中心点的坐标进行热力图坐标转换时，获得目标对象的中心点所对应的转换误差。可以理解，目标对象对应的宽度信息、高度信息、以及转换误差，是用于辅助训练关键点检测模型的，而在关键点检测模型的实际应用过程中，不需要输出目标对象对应的宽度信息、高度信息、以及转换误差，只需要输出目标对象对应的第二特征图，并将第一特征图与第二特征图合并输入至关键点检测网络进行目标对象的关键点检测即可。

在一个实施例中，如图4所示，样本图像401中包括目标对象(即，手)，计算机设备可基于待训练的关键点检测模型，预测样本图像中目标对象的中心点(即，手的中心点)的坐标。进而，计算机设备可在获取到目标对象的中心点之后，对该中心点的坐标进行热力图坐标转换，得到对应的预测对象热力图402，可以理解，预测对象热力图402中的白点即代表目标对象的中心点。

在一个实施例中，若样本图像中存在是三个目标对象，则，如图5所示，计算机设备可通过待训练的关键点检测模型，预测样本图像中这三个目标对象的中心点的坐标。进而，计算机设备可在获取到这三个目标对象的中心点的坐标之后，对这三个中心点的坐标进行热力图坐标转换，得到对应的预测对象热力图，可以理解，该预测对象热力图中的那三个白点即代表这三个目标对象的中心点。

在一个实施例中，如图6所示，样本图像601中包括目标对象(即，手)，计算机设备可基于待训练的关键点检测模型，预测样本图像中目标对象的关键点的坐标。计算机设备可在获取到目标对象的关键点的坐标之后，对该关键点的坐标进行热力图坐标转换，得到对应的预测关键点热力图602，可以理解，预测关键点热力图602中的白点即代表目标对象的关键点。

在一个实施例中，若样本图像中存在两个关键点，则，如图7所示，计算机设备可通过待训练的关键点检测模型，预测样本图像中这两个关键点的坐标。计算机设备可在获取到这两个关键点的坐标之后，对这两个关键点的坐标进行热力图坐标转换，得到对应的预测关键点热力图，可以理解，该预测关键点热力图中的那两个白点即代表样本图像中的两个关键点。

上述实施例中，预测属性信息中的预测尺寸信息以及转换误差，可以在目标对象检测的训练过程中起到很好的辅助作用，进一步提升了目标对象检测的准确率。

在一个实施例中，基于关键点特征参数，从第一特征图中检测出目标对象的关键点，包括：根据关键点特征参数对第一特征图进行卷积，得到第二概率特征图；第二概率特征图中的每个像素点分别对应一个第二概率值；第二概率值，用于表征对应像素点的位置上存在关键点的概率；将第二概率特征图划分为预设数量、且大小相同的第二图像块；针对每一个第二图像块，从第二图像块中选取概率值最大的第二概率值，作为第二目标概率值；将第二目标概率值大于第二预设概率值的概率值所对应的像素点，确定为第二目标像素点；将第二目标像素点，作为目标对象的关键点。

其中，第二图像块，是对第二概率特征图进行划分得到的图像块。第二目标概率值是作为目标的第二概率值。第二目标像素点，是对应位置上真实存在目标对象的关键点的像素点。

具体地，计算机设备可根据关键点特征参数对第一特征图进行卷积，得到第二概率特征图，并将第二概率特征图划分为预设数量、且大小相同的第二图像块。针对每一个第二图像块，计算机设备可从第二图像块中选取概率值最大的第二概率值，作为第二目标概率值。计算机设备可将第二目标概率值与第二预设概率值进行比对，并将第二目标概率值大于第二预设概率值的概率值所对应的像素点，确定为第二目标像素点。进而，计算机设备可将第二目标像素点，作为目标对象的关键点。

上述实施例中，根据关键点特征参数对第一特征图进行卷积，可以得到第二概率特征图，将第二概率特征图划分多个第二图像块，从各第二图像块中选取概率值最大的第二概率值作为第二目标概率值，进而将第二目标概率值大于第二预设概率值的概率值所对应的像素点确定为第二目标像素点，可以理解，第二目标像素点所在的位置即为目标对象的关键点所在的位置。进而可以将第二目标像素点直接作为目标对象的关键点，进一步提升目标对象的关键点检测准确率。

在一个实施例中，待检测图像是在点读场景下采集的图像；目标对象是在点读场景下用于触发点读的输入实体。上述方法还包括：基于输入实体的关键点，确定目标点读文本；基于目标点读文本进行点读处理。

其中，输入实体，是用于触发点读的实体对象，比如，点读者的手、写作业用的普通笔、或者点读专用的点读笔等。目标点读文本是作为目标的点读文本。

具体地，计算机设备可基于输入实体的关键点，确定需要进行点读的目标点读文本。进而，计算机设备可基于目标点读文本进行点读处理。

在一个实施例中，点读处理具体可以是对目标点读文本进行文本识别，并返回该目标点读文本的描述信息。其中，描述信息是用于描述目标点读文本的信息。

举例说明，若目标点读文本为英文单词，则描述信息可以包括该英文单词的读音、中文翻译、所属词性、单复数形式、以及应用举例等中的至少一种。

上述实施例中，基于输入实体的关键点，可以快速确定目标点读文本，进而基于目标点读文本可以进行点读处理，提升了点读场景下的点读准确率。

在一个实施例中，输入实体为多个，多个输入实体中包括不同类型的输入实体。基于输入实体的关键点，确定目标点读文本，包括：根据不同类型的输入实体中各类型分别对应的优先级，将优先级最高的类型所对应的输入实体作为目标输入实体；将目标输入实体的关键点确定为目标关键点，确定目标关键点所指向的目标点读文本。

其中，目标输入实体是作为目标的输入实体。目标关键点是作为目标的关键点。

具体地，针对每一个输入实体，计算机设备可预先基于该输入实体的类型，确定该输入实体的类型所对应的优先级。进而，计算机设备可根据不同类型的输入实体中各类型分别对应的优先级，将优先级最高的类型所对应的输入实体作为目标输入实体。计算机设备可将目标输入实体的关键点确定为目标关键点，并确定目标关键点所指向的目标点读文本。

在一个实施例中，在点读场景下，待检测图像中的输入实体包括手和笔，如图8所示，计算机设备可通过已训练的关键点检测模型，检测出所有输入实体的关键点(即，包括手的指尖801和802、以及笔的笔尖803)。在待检测图像中同时包括手和笔这两种类型的输入实体，若预先设置了优先级最高的类型为笔，则如图9所示，计算机设备最终可将笔的关键点确定为目标关键点901。

在一个实施例中，在点读场景下，如图10所示，笔1002的关键点所指向的目标点读文本为“man”，则计算机设备1001可基于目标点读文本“man”进行点读处理，返回并显示该目标点读文本“man”的描述信息1003。如图11所示，手1102的关键点所指向的目标点读文本为“the”，则计算机设备1101可基于目标点读文本“the”进行点读处理，返回并显示该目标点读文本“the”的描述信息1103。

上述实施例中，根据不同类型的输入实体中各类型分别对应的优先级，可以将优先级最高的类型所对应的输入实体作为目标输入实体，进而将目标输入实体的关键点确定为目标关键点，这样，便可以快速且准确地确定目标关键点所指向的目标点读文本，进而进一步提升了点读场景下的点读准确率。同时，由于各类型的输入实体均可进行点读操作，因此，在点读场景下，提供一种无间断的交互方式。

在一个实施例中，如图12所示，提供了一种关键点检测方法，该方法具体包括以下步骤：

步骤1202，获取含有输入实体的样本图像，将样本图像输入至待训练的关键点检测模型；待训练的关键点检测模型中包括待训练目标检测网络和待训练关键点检测网络。

步骤1204，通过待训练目标检测网络预测样本图像中目标对象的预测属性信息，并通过待训练关键点检测网络预测目标对象的预测关键点信息。

在一个实施例中，待训练关键点检测网络中包括待训练第一卷积网络；预测属性信息包括预测对象热力图；预测关键点信息包括预测关键点热力图。计算机设备可通过待训练目标检测网络，预测样本图像中输入实体的预测对象热力图；将预测对象热力图和样本图像的特征图融合，得到样本融合特征图，并将样本融合特征图输入至待训练第一卷积网络，输出预测关键点特征参数；基于预测关键点特征参数，从样本图像的特征图中预测出输入实体的关键点，并基于预测的关键点生成输入实体的预测关键点热力图。

在一个实施例中，预测对象热力图，是基于待训练目标检测网络预测样本图像中输入实体的中心点的坐标后，对中心点的坐标进行热力图坐标转换得到的；预测属性信息还包括输入实体对应的边界框的预测尺寸信息，以及输入实体的中心点所对应的转换误差；转换误差，是将中心点的坐标进行热力图坐标转换时所产生的误差。

步骤1206，确定预测属性信息与输入实体的目标属性信息之间的第一损失值，确定预测关键点信息与输入实体的目标关键点信息之间的第二损失值，根据第一损失值和第二损失值确定目标损失值。

步骤1208，朝着使目标损失值减小的方向，对待训练的关键点检测模型进行迭代训练，直至满足迭代停止条件时，得到已训练的关键点检测模型。

步骤1210，获取待检测图像的原始特征图；待检测图像是在点读场景下采集的图像，对原始特征图进行卷积，得到卷积后的特征图，对原始特征图进行上采样，得到上采样后的特征图。

步骤1212，将卷积后的特征图和上采样后的特征图进行融合，得到融合特征图，对融合特征图进行卷积，得到待检测图像的第一特征图，将第一特征图进行卷积，得到中间特征图。

步骤1214，将中间特征图输入至已训练的关键点检测模型中的目标检测网络，对中间特征图进行输入实体检测处理，得到第一概率特征图；已训练的关键点检测模型中还包括关键点检测网络；关键点检测网络中包括第一卷积网络和第二卷积网络。

步骤1216，将第一概率特征图划分为预设数量、且大小相同的第一图像块；针对每一个第一图像块，从第一图像块中选取概率值最大的第一概率值，作为第一目标概率值。

步骤1218，将第一目标概率值大于第一预设概率值的概率值所对应的像素点，确定为第一目标像素点。

步骤1220，根据第一目标像素点，生成输入实体的第二特征图，将第一特征图和第二特征图融合，得到融合后的特征图。

步骤1222，将融合后的特征图输入至第一卷积网络进行卷积，以输出输入实体的关键点特征参数。

步骤1224，将关键点特征参数作为第二卷积网络的卷积参数，通过第二卷积网络对第一特征图进行卷积，得到第二概率特征图。

步骤1226，将第二概率特征图划分为预设数量、且大小相同的第二图像块；针对每一个第二图像块，从第二图像块中选取概率值最大的第二概率值，作为第二目标概率值。

步骤1228，将第二目标概率值大于第二预设概率值的概率值所对应的像素点，确定为第二目标像素点。

步骤1230，将第二目标像素点，作为输入实体的关键点，根据不同类型的输入实体中各类型分别对应的优先级，将优先级最高的类型所对应的输入实体作为目标输入实体。

步骤1232，将目标输入实体的关键点确定为目标关键点，确定目标关键点所指向的目标点读文本，基于目标点读文本进行点读处理。

本申请还提供一种应用场景，该应用场景应用上述的关键点检测方法。具体地，该关键点检测方法可应用于点读业务下的关键点检测场景。计算机设备可获取含有输入实体的样本图像，将样本图像输入至待训练的关键点检测模型；待训练的关键点检测模型中包括待训练目标检测网络和待训练关键点检测网络。通过待训练目标检测网络预测样本图像中目标对象的预测属性信息，并通过待训练关键点检测网络预测目标对象的预测关键点信息。确定预测属性信息与输入实体的目标属性信息之间的第一损失值。确定预测关键点信息与输入实体的目标关键点信息之间的第二损失值；根据第一损失值和第二损失值确定目标损失值。朝着使目标损失值减小的方向，对待训练的关键点检测模型进行迭代训练，直至满足迭代停止条件时，得到已训练的关键点检测模型。

计算机设备可获取待检测图像的原始特征图；待检测图像是在点读场景下采集的图像，对原始特征图进行卷积，得到卷积后的特征图。对原始特征图进行上采样，得到上采样后的特征图。将卷积后的特征图和上采样后的特征图进行融合，得到融合特征图。对融合特征图进行卷积，得到待检测图像的第一特征图，将第一特征图进行卷积，得到中间特征图。

计算机设备可将中间特征图输入至已训练的关键点检测模型中的目标检测网络，对中间特征图进行输入实体检测处理，得到第一概率特征图；第一概率特征图中的每个像素点分别对应一个第一概率值；第一概率值，用于表征对应像素点的位置上存在输入实体的概率；已训练的关键点检测模型中还包括关键点检测网络；关键点检测网络中包括第一卷积网络和第二卷积网络；输入实体是在点读场景下用于触发点读的输入实体。将第一概率特征图划分为预设数量、且大小相同的第一图像块；针对每一个第一图像块，从第一图像块中选取概率值最大的第一概率值，作为第一目标概率值。将第一目标概率值大于第一预设概率值的概率值所对应的像素点，确定为第一目标像素点，根据第一目标像素点，生成输入实体的第二特征图。

计算机设备可将第一特征图和第二特征图融合，得到融合后的特征图，将融合后的特征图输入至第一卷积网络进行卷积，以输出输入实体的关键点特征参数。将关键点特征参数作为第二卷积网络的卷积参数，通过第二卷积网络对第一特征图进行卷积，得到第二概率特征图；第二概率特征图中的每个像素点分别对应一个第二概率值；第二概率值，用于表征对应像素点的位置上存在关键点的概率。将第二概率特征图划分为预设数量、且大小相同的第二图像块；针对每一个第二图像块，从第二图像块中选取概率值最大的第二概率值，作为第二目标概率值。将第二目标概率值大于第二预设概率值的概率值所对应的像素点，确定为第二目标像素点。将第二目标像素点，作为输入实体的关键点。

计算机设备可根据不同类型的输入实体中各类型分别对应的优先级，将优先级最高的类型所对应的输入实体作为目标输入实体。将目标输入实体的关键点确定为目标关键点，确定目标关键点所指向的目标点读文本，并基于目标点读文本进行点读处理。

本申请还另外提供一种应用场景，该应用场景应用上述的关键点检测方法。具体地，该关键点检测方法可应用于人脸识别过程中的人脸关键点检测场景。计算机设备可对待检测图像进行特征提取处理，得到待检测图像的第一特征图，对第一特征图进行目标人脸检测处理，得到目标人脸的第二特征图。将第一特征图和第二特征图融合，得到融合后的特征图。基于融合后的特征图，确定目标人脸的关键点特征参数，并基于关键点特征参数，从第一特征图中检测出目标人脸的关键点。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照顺序依次显示，但是这些步骤并不是必然按照顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图13所示，提供了一种关键点检测装置1300，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：

提取模块1301，用于对待检测图像进行特征提取处理，得到待检测图像的第一特征图。

检测模块1302，用于对第一特征图进行目标对象检测处理，得到目标对象的第二特征图。

融合模块1303，用于将第一特征图和第二特征图融合，得到融合后的特征图。

确定模块1304，用于基于融合后的特征图，确定目标对象的关键点特征参数。

检测模块1302，用于基于关键点特征参数，从第一特征图中检测出目标对象的关键点。

在一个实施例中，提取模块1301还用于获取待检测图像的原始特征图；对原始特征图进行卷积，得到卷积后的特征图；对原始特征图进行上采样，得到上采样后的特征图；将卷积后的特征图和上采样后的特征图进行融合，得到融合特征图；对融合特征图进行卷积，得到待检测图像的第一特征图。

在一个实施例中，目标对象为多个，多个目标对象中包括不同类型的目标对象；检测模块1302还用于将第一特征图进行卷积，得到多个中间特征图；对多个中间特征图进行卷积，以将同一类型的目标对象的特征融合至同一特征图中，得到每个类型分别对应的第二特征图。

在一个实施例中，检测模块1302还用于对第一特征图进行目标对象检测处理，得到第一概率特征图；第一概率特征图中的每个像素点分别对应一个第一概率值；第一概率值，用于表征对应像素点的位置上存在目标对象的概率；将第一概率特征图划分为预设数量、且大小相同的第一图像块；针对每一个第一图像块，从第一图像块中选取概率值最大的第一概率值，作为第一目标概率值；将第一目标概率值大于第一预设概率值的概率值所对应的像素点，确定为第一目标像素点；根据第一目标像素点，生成目标对象的第二特征图。

在一个实施例中，第二特征图，是通过已训练的关键点检测模型中的目标检测网络生成的；已训练的关键点检测模型中还包括关键点检测网络；关键点检测网络中包括第一卷积网络和第二卷积网络；确定模块1304还用于将融合后的特征图输入至第一卷积网络进行卷积，以输出目标对象的关键点特征参数；检测模块1302还用于将关键点特征参数作为第二卷积网络的卷积参数，通过第二卷积网络对第一特征图进行卷积，以从第一特征图中检测出目标对象的关键点。

在一个实施例中，检测模块1302还用于将关键点特征参数作为第二卷积网络的卷积参数，以使得第二卷积网络基于关键点特征参数在第一特征图中确定目标区域；目标区域是目标对象的关键点在第一特征图中的区域；基于第二卷积网络从目标区域中检测出目标对象的关键点。

在一个实施例中，装置还包括：训练模块，用于获取含有目标对象的样本图像；将样本图像输入至待训练的关键点检测模型；待训练的关键点检测模型中包括待训练目标检测网络和待训练关键点检测网络；通过待训练目标检测网络预测样本图像中目标对象的预测属性信息，并通过待训练关键点检测网络预测目标对象的预测关键点信息；确定预测属性信息与目标对象的目标属性信息之间的第一损失值；确定预测关键点信息与目标对象的目标关键点信息之间的第二损失值；根据第一损失值和第二损失值确定目标损失值；朝着使目标损失值减小的方向，对待训练的关键点检测模型进行迭代训练，直至满足迭代停止条件时，得到已训练的关键点检测模型。

在一个实施例中，待训练关键点检测网络中包括待训练第一卷积网络；预测属性信息包括预测对象热力图；预测关键点信息包括预测关键点热力图；训练模块还用于通过待训练目标检测网络，预测样本图像中目标对象的预测对象热力图；将预测对象热力图和样本图像的特征图融合，得到样本融合特征图，并将样本融合特征图输入至待训练第一卷积网络，输出预测关键点特征参数；基于预测关键点特征参数，从样本图像的特征图中预测出目标对象的关键点，并基于预测的关键点生成目标对象的预测关键点热力图。

在一个实施例中，检测模块1302还用于根据关键点特征参数对第一特征图进行卷积，得到第二概率特征图；第二概率特征图中的每个像素点分别对应一个第二概率值；第二概率值，用于表征对应像素点的位置上存在关键点的概率；将第二概率特征图划分为预设数量、且大小相同的第二图像块；针对每一个第二图像块，从第二图像块中选取概率值最大的第二概率值，作为第二目标概率值；将第二目标概率值大于第二预设概率值的概率值所对应的像素点，确定为第二目标像素点；将第二目标像素点，作为目标对象的关键点。

在一个实施例中，待检测图像是在点读场景下采集的图像；目标对象是在点读场景下用于触发点读的输入实体；装置还包括：点读模块，用于基于输入实体的关键点，确定目标点读文本；基于目标点读文本进行点读处理。

在一个实施例中，输入实体为多个，多个输入实体中包括不同类型的输入实体；点读模块还用于根据不同类型的输入实体中各类型分别对应的优先级，将优先级最高的类型所对应的输入实体作为目标输入实体；将目标输入实体的关键点确定为目标关键点，确定目标关键点所指向的目标点读文本。

参考图14，在一个实施例中，关键点检测装置1300还包括训练模块1305和点读模块1306。

上述关键点检测装置，通过对待检测图像进行特征提取处理，可以得到待检测图像的第一特征图，通过对第一特征图进行目标对象检测处理，可以获得包括目标对象整体性信息的目标对象的第二特征图。通过将第一特征图和第二特征图融合，可以得到融合后的特征图。基于融合后的特征图，确定目标对象的关键点特征参数。由于待检测图像是变化的，因此，获取得到的关键点特征参数也会随着待检测图像而动态变化。进而，基于关键点特征参数，可以直接从第一特征图中检测出目标对象的关键点，避免了将关键点与其所属的目标对象进行关联的步骤，提升了目标对象的关键点检测的准确率。

关于关键点检测装置的具体限定可以参见上文中对于关键点检测方法的限定，在此不再赘述。上述关键点检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种关键点检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种关键点检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对待检测图像进行特征提取处理，得到所述待检测图像的第一特征图，包括：

获取待检测图像的原始特征图；

对所述原始特征图进行卷积，得到卷积后的特征图；

对所述原始特征图进行上采样，得到上采样后的特征图；

将所述卷积后的特征图和所述上采样后的特征图进行融合，得到融合特征图；

对所述融合特征图进行卷积，得到所述待检测图像的第一特征图。

3.根据权利要求1所述的方法，其特征在于，所述目标对象为多个，多个目标对象中包括不同类型的目标对象；所述对所述第一特征图进行目标对象检测处理，得到所述目标对象的第二特征图，包括：

将所述第一特征图进行卷积，得到多个中间特征图；

对所述多个中间特征图进行卷积，以将同一类型的目标对象的特征融合至同一特征图中，得到每个类型分别对应的第二特征图。

4.根据权利要求1所述的方法，其特征在于，所述对所述第一特征图进行目标对象检测处理，得到所述目标对象的第二特征图，包括：

对所述第一特征图进行目标对象检测处理，得到第一概率特征图；所述第一概率特征图中的每个像素点分别对应一个第一概率值；所述第一概率值，用于表征对应像素点的位置上存在目标对象的概率；

将所述第一概率特征图划分为预设数量、且大小相同的第一图像块；针对每一个所述第一图像块，从所述第一图像块中选取概率值最大的第一概率值，作为第一目标概率值；

将所述第一目标概率值大于第一预设概率值的概率值所对应的像素点，确定为第一目标像素点；

根据所述第一目标像素点，生成所述目标对象的第二特征图。

5.根据权利要求1所述的方法，其特征在于，所述第二特征图，是通过已训练的关键点检测模型中的目标检测网络生成的；所述已训练的关键点检测模型中还包括关键点检测网络；所述关键点检测网络中包括第一卷积网络和第二卷积网络；

所述基于所述融合后的特征图，确定所述目标对象的关键点特征参数，包括：

将所述融合后的特征图输入至所述第一卷积网络进行卷积，以输出所述目标对象的关键点特征参数；

所述基于所述关键点特征参数，从所述第一特征图中检测出所述目标对象的关键点，包括：

将所述关键点特征参数作为所述第二卷积网络的卷积参数，通过所述第二卷积网络对所述第一特征图进行卷积，以从所述第一特征图中检测出所述目标对象的关键点。

6.根据权利要求5所述的方法，其特征在于，所述将所述关键点特征参数作为所述第二卷积网络的卷积参数，通过所述第二卷积网络对所述第一特征图进行卷积，以从所述第一特征图中检测出所述目标对象的关键点，包括：

将所述关键点特征参数作为所述第二卷积网络的卷积参数，以使得所述第二卷积网络基于所述关键点特征参数在所述第一特征图中确定目标区域；所述目标区域是所述目标对象的关键点在所述第一特征图中的区域；

基于所述第二卷积网络从所述目标区域中检测出所述目标对象的关键点。

7.根据权利要求5所述的方法，其特征在于，得到所述已训练的关键点检测模型的步骤，包括：

获取含有目标对象的样本图像；

将所述样本图像输入至待训练的关键点检测模型；所述待训练的关键点检测模型中包括待训练目标检测网络和待训练关键点检测网络；

通过所述待训练目标检测网络预测所述样本图像中目标对象的预测属性信息，并通过所述待训练关键点检测网络预测所述目标对象的预测关键点信息；

确定预测属性信息与目标对象的目标属性信息之间的第一损失值；

确定预测关键点信息与目标对象的目标关键点信息之间的第二损失值；

根据所述第一损失值和所述第二损失值确定目标损失值；

朝着使所述目标损失值减小的方向，对所述待训练的关键点检测模型进行迭代训练，直至满足迭代停止条件时，得到已训练的关键点检测模型。

8.根据权利要求7所述的方法，其特征在于，所述待训练关键点检测网络中包括待训练第一卷积网络；所述预测属性信息包括预测对象热力图；所述预测关键点信息包括预测关键点热力图；

所述通过所述待训练目标检测网络预测所述样本图像中目标对象的预测属性信息，并通过所述待训练关键点检测网络预测所述目标对象的预测关键点信息，包括：

通过所述待训练目标检测网络，预测所述样本图像中目标对象的预测对象热力图；

将所述预测对象热力图和所述样本图像的特征图融合，得到样本融合特征图，并将所述样本融合特征图输入至所述待训练第一卷积网络，输出所述预测关键点特征参数；

基于所述预测关键点特征参数，从所述样本图像的特征图中预测出所述目标对象的关键点，并基于预测的关键点生成所述目标对象的预测关键点热力图。

9.根据权利要求8所述的方法，其特征在于，所述预测对象热力图，是基于所述待训练目标检测网络预测所述样本图像中目标对象的中心点的坐标后，对所述中心点的坐标进行热力图坐标转换得到的；所述预测属性信息还包括所述目标对象对应的边界框的预测尺寸信息，以及所述目标对象的中心点所对应的转换误差；所述转换误差，是将所述中心点的坐标进行热力图坐标转换时所产生的误差。

10.根据权利要求1所述的方法，其特征在于，所述基于所述关键点特征参数，从所述第一特征图中检测出所述目标对象的关键点，包括：

根据所述关键点特征参数对所述第一特征图进行卷积，得到第二概率特征图；所述第二概率特征图中的每个像素点分别对应一个第二概率值；所述第二概率值，用于表征对应像素点的位置上存在关键点的概率；

将所述第二概率特征图划分为预设数量、且大小相同的第二图像块；针对每一个所述第二图像块，从所述第二图像块中选取概率值最大的第二概率值，作为第二目标概率值；

将所述第二目标概率值大于第二预设概率值的概率值所对应的像素点，确定为第二目标像素点；

将所述第二目标像素点，作为所述目标对象的关键点。

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述待检测图像是在点读场景下采集的图像；所述目标对象是在所述点读场景下用于触发点读的输入实体；所述方法还包括：

基于所述输入实体的关键点，确定目标点读文本；

基于所述目标点读文本进行点读处理。

12.根据权利要求11所述的方法，其特征在于，所述输入实体为多个，多个输入实体中包括不同类型的输入实体；所述基于所述输入实体的关键点，确定目标点读文本，包括：

根据所述不同类型的输入实体中各类型分别对应的优先级，将优先级最高的类型所对应的输入实体作为目标输入实体；

将所述目标输入实体的关键点确定为目标关键点；

确定所述目标关键点所指向的目标点读文本。

13.一种关键点检测装置，其特征在于，所述装置包括：

所述检测模块还用于基于所述关键点特征参数，从所述第一特征图中检测出所述目标对象的关键点。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。