CN115393894A - 图像处理方法、图像处理装置、电子设备和存储介质 - Google Patents
图像处理方法、图像处理装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115393894A CN115393894A CN202210895167.3A CN202210895167A CN115393894A CN 115393894 A CN115393894 A CN 115393894A CN 202210895167 A CN202210895167 A CN 202210895167A CN 115393894 A CN115393894 A CN 115393894A
- Authority
- CN
- China
- Prior art keywords
- image
- data
- sample
- label data
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
一种图像处理方法、图像处理装置、电子设备和存储介质。该图像处理方法包括:获取输入图像,输入图像包括待检测对象;通过图像检测模型对输入图像进行处理,得到图像检测模型的输出,图像检测模型的输出包括待检测对象的曲度数据;基于曲度数据,得到输入图像中的待检测对象的第一关键点数据。该方法可以减小关键点的偏差,使得关键点数据更加准确,并且降低了模型参数量,减小了计算量,提高了效率。
Description
技术领域
本公开的实施例涉及一种图像处理方法、图像处理装置、电子设备和计算机可读存储介质。
背景技术
随着计算机技术的快速发展,手机、电脑等电子设备越来越多地融入人们的生活和工作中,并且电子设备的功能也越来越丰富。在一些场景中,电子设备需要对用户的手部等对象进行关键点检测。例如,一些电子设备具有手势识别功能,可以采集用户的手部图像,并根据手部图像确定手部的关键点信息,进而根据手部的关键点信息来识别相应的手势,并执行相应的命令。
发明内容
本公开至少一个实施例提供一种图像处理方法,包括:获取输入图像,其中,所述输入图像包括待检测对象;通过图像检测模型对所述输入图像进行处理,得到所述图像检测模型的输出,其中,所述图像检测模型的输出包括所述待检测对象的曲度数据;基于所述曲度数据,得到所述输入图像中的所述待检测对象的第一关键点数据。
例如,在本公开一实施例提供的图像处理方法中,基于所述曲度数据,得到所述输入图像中的所述待检测对象的第一关键点数据,包括:获取转移矩阵;利用所述转移矩阵,将所述曲度数据转换为所述第一关键点数据。
例如,在本公开一实施例提供的图像处理方法中,所述待检测对象包括手,所述曲度数据包括与所述手的多个手指一一对应的多个弯曲曲度值。
例如,在本公开一实施例提供的图像处理方法中,所述图像检测模型的输出还包括角度数据,其中,所述角度数据包括所述输入图像中的所述手的手掌的朝向相对于预定朝向的旋转角度。
例如,本公开一实施例提供的图像处理方法还包括:利用所述角度数据,对所述第一关键点数据进行旋转操作,以得到所述输入图像中的所述待检测对象的第二关键点数据。
例如,在本公开一实施例提供的图像处理方法中,所述图像检测模型的输出还包括缩放比例数据,其中,所述缩放比例数据为所述输入图像中的所述待检测对象所在区域的外接框的尺寸与所述输入图像的尺寸的比例;所述图像处理方法还包括:利用所述缩放比例数据,对所述第一关键点数据进行缩放操作,以得到所述待检测对象的第三关键点数据。
例如,在本公开一实施例提供的图像处理方法中,所述第一关键点数据包括所述手对应的多个关键点在所述输入图像中的位置信息。
例如,本公开一实施例提供的图像处理方法还包括:获取所述图像检测模型;其中,获取所述图像检测模型包括:获取多个样本图像,其中,所述多个样本图像中的每个样本图像包括目标对象;获取所述多个样本图像分别对应的多个标签数据;基于所述多个样本图像和所述多个标签数据,训练得到所述图像检测模型;其中,所述每个样本图像对应的标签数据包括所述每个样本图像中的目标对象的曲度标签数据。
例如,在本公开一实施例提供的图像处理方法中,所述目标对象包括手;所述多个样本图像包括多个第一样本图像。获取所述多个样本图像分别对应的多个标签数据,包括:针对所述多个第一样本图像中的每个第一样本图像执行以下操作:确定所述第一样本图像中的手的至少一个手指分别对应的弯曲曲度标签数据;将所述至少一个手指分别对应的弯曲曲度标签数据作为所述第一样本图像对应的曲度标签数据;其中,确定所述第一样本图像中的手的至少一个手指分别对应的弯曲曲度标签数据,包括:针对所述至少一个手指中的每个手指,确定所述手指对应的多个关键点;获取所述多个关键点依次连接而形成的多条连线段;确定所述多条连线段分别对应的长度;确定所述多条连线段中每相邻两条连线段之间的夹角,以得到至少一个夹角;基于所述长度和所述至少一个夹角,得到所述手指对应的弯曲曲度标签数据。
例如,在本公开一实施例提供的图像处理方法中,所述多个样本图像还包括多个第二样本图像。获取所述多个样本图像分别对应的多个标签数据,还包括:基于所述多个第一样本图像,确定转移矩阵;获取所述多个第二样本图像中的每个第二样本图像对应的第一关键点标签数据;针对所述每个第二样本图像,利用所述转移矩阵,对所述第一关键点标签数据进行转换以得到所述第二样本图像中的手的多个手指分别对应的弯曲曲度标签数据,作为所述第二样本图像对应的曲度标签数据。
例如,在本公开一实施例提供的图像处理方法中,基于所述多个第一样本图像,确定转移矩阵,包括:获取所述多个第一样本图像分别对应的多个第一关键点标签数据;基于所述多个第一关键点标签数据和所述多个第一样本图像分别对应的曲度标签数据,计算得到所述转移矩阵。
例如,在本公开一实施例提供的图像处理方法中,所述每个样本图像对应的标签数据还包括角度标签数据,所述目标对象包括手,其中,所述每个样本图像对应的角度标签数据包括所述每个样本图像中的所述手的手掌的朝向相对于预定朝向的旋转角度。
例如,在本公开一实施例提供的图像处理方法中,所述每个样本图像对应的标签数据还包括缩放比例标签数据,其中,所述每个样本图像对应的缩放比例标签数据包括所述每个样本图像中的所述目标对象所在区域的外接框的尺寸与所述每个样本图像的尺寸的比例。
例如,在本公开一实施例提供的图像处理方法中,所述图像检测模型包括依次连接的输入层、多个分组空洞卷积层、多个分组卷积层、卷积层和输出层,其中,每个所述分组空洞卷积层的卷积核为3×3卷积核,每个所述分组卷积层的卷积核为1×1卷积核,所述卷积层的卷积核为1×1卷积核。
本公开至少一个实施例提供一种图像检测模型的训练方法,包括:获取多个样本图像,其中,所述多个样本图像中的每个样本图像包括目标对象;获取所述多个样本图像分别对应的多个标签数据;基于所述多个样本图像和所述多个标签数据,训练得到所述图像检测模型;其中,所述每个样本图像对应的标签数据包括所述每个样本图像中的目标对象的曲度标签数据。
本公开至少一个实施例提供一种图像处理装置,包括图像获取模块、模型检测模块和关键点获取模块。图像获取模块配置为获取输入图像,其中,所述输入图像包括待检测对象;模型检测模块配置为通过图像检测模型对所述输入图像进行处理,得到所述图像检测模型的输出,其中,所述图像检测模型的输出包括所述待检测对象的曲度数据;关键点获取模块配置为基于所述曲度数据,得到所述输入图像中的所述待检测对象的第一关键点数据。
本公开至少一个实施例提供一种图像检测模型的训练装置,包括样本获取模块、标签获取模块和模型训练模块,样本获取模块配置为获取多个样本图像,其中,所述多个样本图像中的每个样本图像包括目标对象;标签获取模块配置为获取所述多个样本图像分别对应的多个标签数据;模型训练模块配置为基于所述多个样本图像和所述多个标签数据,训练得到所述图像检测模型;其中,所述每个样本图像对应的标签数据包括所述每个样本图像中的目标对象的曲度标签数据。
本公开至少一个实施例提供一种电子设备,包括处理器;存储器,包括一个或多个计算机程序模块;其中,所述一个或多个计算机程序模块被存储在所述存储器中并被配置为由所述处理器执行,所述一个或多个计算机程序模块包括用于实现本公开任一实施例提供的图像处理方法的指令或者包括用于实现本公开任一实施例提供的图像检测模型的训练方法的指令。
本公开至少一个实施例提供一种计算机可读存储介质,存储有非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时可以实现本公开任一实施例提供的图像处理方法或者实现本公开任一实施例提供的图像检测模型的训练方法。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开的限制。
图1示出了一种手部和手部关键点的示意图;
图2示出了一种手部的热图的示意图;
图3示出了本公开至少一实施例提供的一种图像处理方法的流程图;
图4示出了本公开至少一实施例提供的手部弯曲的示意图;
图5示出了本公开至少一实施例提供的一种获取图像检测模型的流程图;
图6示出了本公开至少一实施例提供的一种手指关键点的连线段的示意图;
图7示出了本公开至少一实施例提供的一种目标对象所在区域的外接框的示意图;
图8示出了本公开至少一实施例提供的一种图像检测模型的结构示意图;
图9示出了本公开至少一个实施例提供的一种图像处理装置的示意框图;
图10示出了本公开至少一个实施例提供的一种图像检测模型的训练装置的示意框图
图11A示出了本公开至少一个实施例提供的一种电子设备的示意框图;
图11B示出了本公开至少一个实施例提供的另一种电子设备的示意框图;以及
图12示出了本公开至少一个实施例提供的一种计算机可读存储介质的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
图1示出了一种手部和手部关键点的示意图,如图1所示,手部关键点可以包括手部的主要关节点,包括指尖、各节指骨连接处等。手部关键点例如可以包括图示的21个关键点(关键点A0~关键点A20)。可以通过以下三种方式来获取手部关键点。
第一种是通过图像处理的方式获取手部关键点。例如,基于图像处理算法对手部图像进行图像处理,从手部图像中提取手部的特征,并根据特征确定关键点。但是这种方式存在较大的缺陷,泛化能力很低。
第二种是基于关键点深度学习的方式获取手部关键点。例如,将一张图像输入深度学习模型,深度学习模型直接输出手部关键点,这种方式的缺点是强行利用离散的关键点训练模型,导致模型输出的关键点与关键点之间没有关联,使得关键点偏差较大。
第三种是利用热图(heatmap)的方式获取手部关键点。例如,将一张图像输入网络模型,网络模型输出21张热图,每张热图示出一个关键点,例如,每张热图中的数值最高位置即表示该热图对应的关键点的位置。图2示出了一种热图的示意图,如图2所示,该热图例如表示手部的腕关节处的关键点,热图中的各个坐标位置具有对应的热量值,并通过不同的色阶或颜色来表示不同的热量值。例如,图2中高亮的位置P处的热量值较高,可以将该高亮位置P作为一个关键点。这种方式的缺点同样是强行利用离散的关键点训练模型,导致模型输出的关键点与关键点之间没有关联,使得关键点偏差较大。
因此,以上获取手部关键点的方式存在各关键点之间没有关联性从而导致关键点偏差较大的问题。
本公开至少一个实施例提供一种图像处理方法、图像检测模型的训练方法、图像处理装置、图像检测模型的训练装置、电子设备和计算机可读存储介质。该图像处理方法包括:获取输入图像,输入图像包括待检测对象;通过图像检测模型对输入图像进行处理,得到图像检测模型的输出,图像检测模型的输出包括待检测对象的曲度数据;基于曲度数据,得到输入图像中的待检测对象的第一关键点数据。该图像处理方法一方面通过曲度数据将关键点进行了关联,实现了关键点与关键点之间的联系,相比于模型直接输出没有关联的独立点的方式,该图像处理方法能够减小关键点的偏差,使得关键点数据更加准确;另一方面,图像检测模型输出的是曲度数据,相比于直接输出多个关键点的方式,该图像处理方法降低了模型的参数量,减小了计算量,提高了效率。
图3示出了本公开至少一实施例提供的一种图像处理方法的流程图。
如图3所示,该图像处理方法可以包括步骤S110~S130。
步骤S110:获取输入图像,输入图像包括待检测对象。
步骤S120:通过图像检测模型对输入图像进行处理,得到图像检测模型的输出,图像检测模型的输出包括待检测对象的曲度数据。
步骤S130:基于曲度数据,得到输入图像中的待检测对象的第一关键点数据。
例如,在步骤S110中,可以通过图像采集的方式获取输入图像,输入图像中的待检测对象可以是手。手可以是人体的手部,也可以是机械手、仿真手等具有手的形状且能够弯曲的物体。在本公开的实施例中,以待检测对象是人体的手部为例进行说明,但是本公开实施例并不以此为限,在实际应用中,可以根据实际需要设置待检测对象的类型,例如,待检测对象还可以是人体的其他部位,例如手臂、腿部等,或者,待检测对象还可以是除机械手、仿真手之外的其他可以弯曲的物体。
例如,图像检测模型例如可以是神经网络模型,可以通过样本预先对图像检测模型进行训练,得到训练好的图像检测模型。在步骤S120中,将输入图像输入该训练好的图像检测模型中,以得到输入图像中待检测对象的曲度数据。
例如,在待检测对象为手的情况下,曲度数据可以包括与手的多个手指一一对应的多个弯曲曲度值。图4示出了本公开至少一实施例提供的手部弯曲的示意图,如图4所示,手的食指包括关键点A5~A8,食指的弯曲曲度值例如可以是基于关键点A5至关键点A8确定的食指的曲率。
例如,在一些实施例中,图像检测模型可以输出该输入图像中手的全部手指(例如5个手指)的弯曲曲度值。在另一些实施例中,可以通过图像检测模型输出一部分手指(例如3个手指)的弯曲曲度值,并根据该一部分手指的曲度数据得到另一部分手指(例如另外2个手指)的弯曲曲度值。例如,在输入图像中仅显示部分手指的情况下,图像检测模型可以输出可见手指(即能够至少部分显示出来的手指)的弯曲曲度值,被遮挡的手指的弯曲曲度值可以根据与该被遮挡手指重合的可见手指的弯曲曲度值确定,例如被遮挡手指的曲度数据可以与该被遮挡手指重合的可见手指的弯曲曲度值相同。
例如,手的关键点例如包括手腕处的关键点(例如图1所示的关键点A0)、大拇指的多个关节点、食指的多个关节点、中指的多个关节点、无名指的多个关节点和小指的多个关节点,不同手指上的关键点的数量可以相同或不同,在实际应用中,关键点的数量和位置可以根据实际需求而定。
例如,在步骤S130中,第一关键点数据包括手的多个关键点在输入图像中的位置信息,位置信息例如可以包括坐标信息。例如,以输入图像中的某一点(例如中心点)作为原点,第一关键点数据包括各个关键点相对于该原点的坐标值。在得到手的曲度数据(即多个手指的弯曲曲度值)之后,可以根据该曲度数据转换得到手的第一关键点数据。
根据本公开实施例的图像处理方法,待检测对象的曲度数据与多个关键点相关,因此曲度数据将多个关键点进行了关联。例如图4所示的食指的弯曲曲度值与关键点A5、A6、A7和A8相关,将关键点A5~A8进行了关联。因此,待检测对象的曲度数据包含了待检测对象的多个关键点之间的关联关系。通过图像检测模型得到待检测对象的曲度数据,并进一步根据曲度数据得到待检测对象的第一关键点数据,通过这一方式,一方面通过曲度数据将关键点进行了关联,实现了关键点与关键点之间的联系,相比于模型直接输出没有关联的独立点的方式,本公开实施例的图像处理方法能够减小关键点的偏差,使得关键点数据更加准确;另一方面,图像检测模型输出的是曲度数据,相比于直接输出多个关键点的方式,本公开实施例的图像处理方法降低了模型的参数量,减小了计算量,提高了效率。
例如,在执行步骤S110之前,图像处理方法还可以包括:获取图像检测模型。
图5示出了本公开至少一实施例提供的一种获取图像检测模型的流程图。如图5所示,获取图像检测模型可以包括步骤S210~S230。
在步骤S210:获取多个样本图像,多个样本图像中的每个样本图像包括目标对象。
在步骤S220:获取多个样本图像分别对应的多个标签数据,每个样本图像对应的标签数据包括每个样本图像中的目标对象的曲度标签数据。
在步骤S230:基于多个样本图像和多个标签数据,训练得到图像检测模型。
例如,样本图像中的目标对象与上述输入图像中的待检测对象一致,本公开实施例以样本图像中的目标对象是手(例如,人的手部)为例进行说明。
例如,每个样本图像具有对应的标签数据,标签数据可以通过预定算法计算得到或者可以通过人工标注的方式得到。标签数据至少包括目标对象的曲度标签数据,该曲度标签数据与目标对象的第一关键点标签数据具有预定的转换关系(例如曲度标签数据和第一关键点标签数据可以通过转换矩阵相互转换)。在目标对象为手的情况下,曲度标签数据包括手的多个手指的弯曲曲度值。
例如,多个样本图像包括多个第一样本图像,步骤S220可以包括针对该多个第一样本图像中的每个第一样本图像执行以下操作:确定第一样本图像中的手的至少一个手指分别对应的弯曲曲度标签数据;将至少一个手指分别对应的弯曲曲度标签数据作为第一样本图像对应的曲度标签数据。例如,每个手指的弯曲曲度标签数据包括手指的弯曲曲度值。例如,弯曲曲度值例如为正数,即表示正常情况下手指向内弯曲(即向手心方向弯曲),而不能向后弯曲(即不能手背方向弯曲)。例如,手部完全握拳时,弯曲曲度值为最大(最大值例如设为1);手部完全展开时,弯曲曲度值为最小(最小值例如设为0);手部处于完全握拳和完全展开之间的姿势时,弯曲曲度值为介于0和1之间的数值。
例如,圆弧的曲率计算公式为:
其中,K为圆弧的曲率,△s为从圆弧上取的弧段的长度,△α为弧段对应切线的转角。在一种计算手指的弯曲曲度值的方式中,可以根据手指上的多个关键点拟合得到对应的圆弧,然后利用上述公式(1)计算圆弧的曲率,作为手指的弯曲曲度值。但是,手指的多个关键点是离散的点,且圆弧与手指的多个关键点并不能完全重合,因此,通过这种方式计算得到的弯曲曲度值存在一定程度的偏差,因此,本公开实施例提供了另一种计算手指的弯曲曲度值的方式。
例如,可以针对手的至少一个手指中的每个手指,确定手指对应的多个关键点;获取多个关键点依次连接而形成的多条连线段;确定多条连线段分别对应的长度;确定多条连线段中每相邻两条连线段之间的夹角,以得到至少一个夹角;基于长度和至少一个夹角,得到手指对应的弯曲曲度标签数据。
图6示出了本公开至少一实施例提供的一种手指关键点的连线段的示意图。如图6所示,以图4所示的食指为例,将食指上的关键点A5和A6进行连线,得到连线段L1,连线段L1的长度例如用l_1表示;将关键点A6和A7进行连线,得到连线段L2,连线段L2的长度例如用l_2表示;将关键点A7和A8进行连线,得到连线段L3,连线段L3的长度例如用l_3表示。连线段L1的延长线和连线段L2之间的夹角为α3,连线段L2的延长线和连线段L3之间的夹角为α2。该食指的弯曲曲度值Q例如可以表示为:
该公式(2)通过手指的各个关键点所形成的连线段的长度和连线段之间的夹角计算得到手指的弯曲曲度值,使用的是关键点本身的信息,相比于计算圆弧曲率的方式,这一方式计算得到的弯曲曲度值能够更准确地反映出手指的姿态以及手指上各个关键点的位置关联关系。Q越大表示手指骨骼的弯曲曲率越大。
例如,可以通过公式(2)计算得到第一样本图像中全部可见手指的弯曲曲度值,若第一样本图像中存在被遮挡的手指,可以将覆盖该被遮挡手指的可见手指的弯曲曲度值作为该被遮挡手指的弯曲曲度指。将第一样本图像中的每个手指的弯曲曲度值作为该手指的弯曲曲度标签数据,并将各个手指的弯曲曲度标签数据作为第一样本图像对应的曲度标签数据。
例如,在一些实施例中,多个第一样本图像为全部的样本图像,即全部样本图像的曲度标签数据均通过上述方式(公式(2)和/或公式(1))计算得到。
例如,在另一些实施例中,多个样本图像还可以包含除多个第一样本图像之外的多个第二样本图像,该多个第二样本图像的弯曲曲度标签数据可以通过该多个第一样本图像得到。
例如,步骤S220还包括:基于多个第一样本图像,确定转移矩阵;获取多个第二样本图像中的每个第二样本图像对应的第一关键点标签数据;针对每个第二样本图像,利用转移矩阵,对第一关键点标签数据进行转换以得到第二样本图像中的手的多个手指分别对应的弯曲曲度标签数据,作为第二样本图像对应的曲度标签数据。
例如,可以获取多个第一样本图像分别对应的多个第一关键点标签数据,然后,基于该多个第一关键点标签数据和该多个第一样本图像分别对应的曲度标签数据,计算得到转移矩阵。
例如,对于每个第一样本图像,计算得到第一样本图像中手的每个手指的弯曲曲度值Q,那么手的5个手指的弯曲曲度值可以形成一个5×1的矩阵B,例如,矩阵B=[Q1,Q2,Q3,Q4,Q5],Q1~Q5分别表示5个手指的弯曲曲度值。5个手指的关键点(例如每个手指有四个关键点)的坐标可以形成一个5×4的一个矩阵A,矩阵B和矩阵A可以通过一个4×1的转移矩阵T进行转换,例如,B=A*T,以及A=B*T-1,T-1为矩阵T的逆矩阵。在矩阵B和矩阵A已知的情况下,可以计算得到T。
例如,对于每个第一样本图像,可以通过关键点的连线段的长度和连线段之间的夹角计算得到每个手指的弯曲曲度值,即可以得到矩阵B。每个第一样本图像例如还可以具有对应的第一关键点标签数据,该第一关键点标签数据可以通过人工标注的方式得到或者可以通过已有的算法计算得到,该第一关键点标签数据可以形成矩阵A,因此,对于每个第一样本图像,可以根据对应的矩阵A和矩阵B计算得到一个初始转移矩阵Ti。多个第一样本图像对应的初始转移矩阵Ti可能相同或不同,在多个第一样本图像对应的初始转移矩阵Ti均相同的情况下,可以将该初始转移矩阵Ti作为转移矩阵T。在多个第一样本图像对应的初始转移矩阵Ti不完全相同的情况下,可以对多个第一样本图像对应的初始转移矩阵Ti进行计算平均值等处理,得到转移矩阵T。
例如,每个第二样本图像也具有对应的第一关键点标签数据,即每个第二样本图像对应的矩阵A已知,并且已经通过多个第一样本图像计算得到了转移矩阵T,因此,针对每个第二样本图像,可以根据B=A*T得到对应的矩阵B,根据矩阵B可以得到每个手指的弯曲曲度值。将弯曲曲度值作为弯曲曲度标签数据,将第二样本图像中各个手指的弯曲曲度标签数据作为第二样本图像对应的曲度标签数据。
根据本公开的实施例,先针对部分样本图像(多个第一样本图像),通过手指关键点的连线段的参数和公式(2)计算得到对应的曲度标签数据,然后根据该部分样本图像计算得到转移矩阵,并根据转移矩阵计算另一部分样本图像(多个第二样本图像)对应的曲度标签数据,基于这一方式,可以提高计算曲度标签数据的效率,节省时间。
例如,在一些实施例中,得到每个样本图像对应的曲度标签数据后,可以利用样本图像和曲度标签数据训练图像检测模型,例如,将样本图像输入待训练的初始模型中,将初始模型的输出与样本图像对应的曲度标签数据进行比对,得到初始模型的损失信息,利用损失信息对初始模型的参数进行调整,经过多次调整后,当调整后的模型的损失信息满足预定条件,则可以得到训练完成的图像检测模型,例如损失信息满足预定条件的调整后的模型即为训练完成的图像检测模型。
在另一些实施例中,每个样本图像还可以具有除曲度标签数据之外的其他标签数据,并且可以结合曲度标签数据和其他标签数据共同训练得到图像检测模型。
例如,每个样本图像对应的标签数据还可以包括角度标签数据,在目标对象包括手的情况下,每个样本图像对应的角度标签数据包括每个样本图像中的手的手掌的朝向相对于预定朝向的旋转角度。
例如,预定朝向可以是手心正对摄像头时的手掌朝向,图1和图2所示的手掌的朝向即为预定朝向,图4所示的手的手掌的朝向偏离了预定朝向,样本图像对应的角度标签数据包括样本图像中的手掌的朝向相对于预定朝向的偏离角度。
例如,角度标签数据可以通过欧拉角表示,欧拉角包括三个参数:章动角θ、进动角ψ和自转角φ,这三个参数例如表示图像中的手掌朝向对应的坐标系相对于预定朝向对应的坐标系分别沿X轴、Y轴和Z轴旋转的角度。根据章动角θ、进动角ψ和自转角φ可以确定这两个坐标系的坐标点之间的转换矩阵。
例如,每个样本图像对应的标签数据还可以包括缩放比例标签数据s,其中,每个样本图像对应的缩放比例标签数据包括每个样本图像中的目标对象所在区域的外接框的尺寸与每个样本图像的尺寸的比例。
图7示出了本公开至少一实施例提供的一种目标对象所在区域的外接框的示意图。如图7所示,外接框302为图像中手部的最小外接框,外接框302例如呈矩形,在另一些实施例中,外接框例如还可以呈圆形、椭圆形等形状。外接框302的尺寸例如为外接框302的边长(例如长度或宽度),样本图像301的尺寸例如为样本图像301的边长,缩放比例标签数据包括外接框302的边长与样本图像301的边长的比值。在另一些实施例中,外接框301的尺寸和样本图像的尺寸还可以采用其他参数,例如周长、面积、对角线长度、半径等。例如,外接框的尺寸的类型和样本图像的尺寸的类型相同,即当外接框的尺寸为边长时,样本图像的尺寸也为边长。
例如,每个样本图像具有对应的9个标签数据:Q1、Q2、Q3、Q4、Q5、θ、ψ、φ和s,其中,Q1、Q2、Q3、Q4、Q5表示曲度标签数据,θ、ψ、φ表示角度标签数据,s表示缩放比例标签数据。
例如,图像检测模型包括依次连接的输入层、多个分组空洞卷积层、多个分组卷积层、卷积层和输出层。每个分组空洞卷积层的卷积核为3×3卷积核,每个分组卷积层的卷积核为1×1卷积核,卷积层的卷积核为1×1卷积核。
图8示出了本公开至少一实施例提供的一种图像检测模型的结构示意图。如图8所示,在训练过程中,输入层接收样本图像,样本图像对应的特征图大小例如为128×128×3。图像检测模型例如包括5个分组空洞卷积层,每个分组空洞卷积层的卷积核大小例如为3×3,并且每个分组空洞卷积层可以分为若干组(grope),例如分为10组(即grope=10),该10组分别在10个计算装置(例如图形处理器GPU)中进行运算。输入层将特征图输入第一个分组空洞卷积层中,依次经过5个分组空洞卷积层的运算处理后,第五个分组空洞卷积层输出的特征图大小例如变为4×4×64。图像检测模型例如包括5个分组卷积层,每个分组卷积层的卷积核大小例如为1×1,并且每个分组卷积层可以分为若干组,例如分为10组,该10组分别在10个计算装置中进行运算。第一个分组卷积层接收第五个分组空洞卷积层输出的特征图,依次经过5个分组卷积层的运算处理后,第五个分组卷积层输出的特征图大小例如变为1×1×16。第五个分组卷积层将结果输出至卷积层,该卷积层的卷积核大小例如为1×1,该卷积层汇总第五个分组卷积层的多个分组的结果并进行运算。卷积层将运算结果输出至输出层,输出层输出的特征图大小例如为1×1×9,即输出9个参数。将输出的9个参数与样本图像对应的9个标签数据进行比对,得到图像检测模型的损失信息,基于图像检测模型的损失信息对各个分组空洞卷积层、各个分组卷积层以及卷积层等运算层的参数进行调整。重复上述操作,经过多次调参处理后完成训练,得到训练好的图像检测模型。分组空洞卷积层的层数、分组卷积层的层数和卷积层的层数可以根据实际需求而定,本公开对此不做限制。
本公开实施例的图像处理方法,由于图像检测模型只需要输出每只手的9个参数即可,而不需要输出每只手的21个关键点的位置(42个参数),该图像检测模型需要处理的参数较少,因此上述实施例提供的较为简单的模型即可满足要求,该简单模型的处理速度快且能够保证准确度。并且,图像检测模型中采用了空洞卷积,能够增加感受野(增加输出的准确率)。此外,图像检测模型还使用了分组卷积,能够极大地减少参数量,提高计算速度。
例如,在得到训练好的图像检测模型之后,可以执行步骤S110~S130。例如,如图8所示,在步骤S120中,输入层接收输入图像,依次经过多个分组空洞卷积层、多个分组卷积层、卷积层和输出层的处理后,得到图像检测模型的输出。若在训练图像检测模型的过程中,利用9个标签数据(Q1、Q2、Q3、Q4、Q5、θ、ψ、φ和s)进行训练,则在使用图像检测模型的过程中,图像检测模型的输出同样包括这9个参数的数值。例如,除了曲度数据之外,图像检测模型的输出还包括角度数据,该角度数据包括输入图像中的手的手掌的朝向相对于预定朝向的旋转角度。例如,图像检测模型的输出还包括缩放比例数据,该缩放比例数据为输入图像中的待检测对象所在区域的外接框的尺寸与输入图像的尺寸的比例。
例如,在步骤S130中,可以利用曲度数据Q1、Q2、Q3、Q4、Q5获得手部的第一关键点数据。例如,在步骤S130中,可以获取转移矩阵,并利用转移矩阵,将曲度数据转换为第一关键点数据。如上所述,转移矩阵T可以通过多个样本图像的曲度标签数据和第一关键点标签数据计算得到。在步骤S130中,可以通过转移矩阵T将曲度数据形成的5×1的矩阵B转换为5×4的矩阵A,将该矩阵A中的数据作为第一关键点数据。
需要说明的是,在步骤S130中,转移矩阵与图像检测模型是对应的,每个图像检测模型对应一个转移矩阵,且该转移矩阵是基于用于训练该图像检测模型的样本图像计算得到的。
例如,在得到第一关键点数据后,可以将该第一关键点数据进行展示。在手势识别的场景中,还可以将第一关键点数据输入手势识别模型中,得到输入图像中手的手势。
例如,该第一关键点数据是在图像所示的手部姿态下的关键点的坐标,在一些实施例中,可以利用角度数据将第一关键点数据转换为手部处于预定朝向时的关键点数据。例如,可以利用角度数据,对第一关键点数据进行旋转操作,以得到输入图像中的待检测对象的第二关键点数据,该第二关键点数据为手处于预定朝向时的关键点数据。例如,可以根据章动角θ、进动角ψ和自转角φ确定图像所示朝向下的坐标系的坐标点与预定朝向下的坐标系的坐标点之间的旋转矩阵,并利用该旋转矩阵将第一关键点数据转换为第二关键点数据。例如,在得到第二关键点数据后,可以将该第二关键点数据进行展示。在手势识别的场景中,还可以将第二关键点数据输入手势识别模型中,得到输入图像中手的手势。
例如,在一些实施例中,图像处理方法还可以包括:利用缩放比例数据,对第一关键点数据进行缩放操作,以得到待检测对象的第三关键点数据。例如,根据缩放比例数据,将图7所示的外接框302的尺寸放大为图像301对应的尺寸,外接框302中的各关键点的坐标也进行相应地变换,得到第三关键点数据。例如,在得到第三关键点数据后,可以将该第三关键点数据进行展示。在手势识别的场景中,还可以将第三关键点数据输入手势识别模型中,得到输入图像中手的手势。
例如,在另一些实施例中,还可以利用缩放比例数据,对第二关键点数据进行缩放操作,以得到待检测对象的第四关键点数据。
例如,在一些实施例中,可以根据图像检测模型输出的角度数据和/或缩放比例数据,形成从标准手部关键点转换至图像所示的手部朝向和/或尺寸时的关键点的转换视频,标准手部关键点例如为手部具有标准姿态时的关键点,标准姿态例如为图1所示的手部的手心朝向镜头并且处于正立展开姿势,对应地,标准手部关键点例如为图1所示的关键点A0~A20。例如,根据角度数据,将标准手部关键点分别绕X轴、Y轴和Z轴旋转相应角度,以旋转为图像所示朝向下的关键点,将旋转的过程制作为视频并展示,以供用户参考,使用户更为清晰和直观地了解图像所示的手部朝向是如何从标准姿态转换过来的,直观地反映角度变换过程。
图9示出了本公开至少一个实施例提供的一种图像处理装置400的示意框图。
例如,如图9所示,该图像处理装置400包括图像获取模块410、模型检测模块420和关键点获取模块430。
图像获取模块410配置为获取输入图像,其中,输入图像包括待检测对象。图像获取模块410例如可以执行图3描述的步骤S110。
模型检测模块420配置为通过图像检测模型对输入图像进行处理,得到图像检测模型的输出,其中,图像检测模型的输出包括待检测对象的曲度数据。模型检测模块420例如可以执行图3描述的步骤S120。
关键点获取模块430配置为基于曲度数据,得到输入图像中的待检测对象的第一关键点数据。关键点获取模块430例如可以执行图3描述的步骤S130。
例如,图像获取模块410、模型检测模块420和关键点获取模块430可以为硬件、软件、固件以及它们的任意可行的组合。例如,图像获取模块410、模型检测模块420和关键点获取模块430可以为专用或通用的电路、芯片或装置等,也可以为处理器和存储器的结合。关于上述各个模块的具体实现形式,本公开的实施例对此不作限制。
需要说明的是,本公开的实施例中,图像处理装置400的各个模块与前述的图像处理方法的各个步骤对应,关于图像处理装置400的具体功能可以参考关于图像处理方法的相关描述,此处不再赘述。图9所示的图像处理装置400的组件和结构只是示例性的,而非限制性的,根据需要,该图像处理装置400还可以包括其他组件和结构。
图10示出了本公开至少一个实施例提供的一种图像检测模型的训练装置500的示意框图。
例如,如图10所示,该图像检测模型的训练装置500包括样本获取模块510、标签获取模块520和模型训练模块530。
样本获取模块510配置为获取多个样本图像,其中,多个样本图像中的每个样本图像包括目标对象,其中,输入图像包括待检测对象。样本获取模块510例如可以执行图5描述的步骤S210。
标签获取模块520配置为获取多个样本图像分别对应的多个标签数据,其中,每个样本图像对应的标签数据包括每个样本图像中的目标对象的曲度标签数据。标签获取模块520例如可以执行图5描述的步骤S220。
模型训练模块530配置为基于多个样本图像和多个标签数据,训练得到图像检测模型。模型训练模块530例如可以执行图5描述的步骤S230。
例如,样本获取模块510、标签获取模块520和模型训练模块530可以为硬件、软件、固件以及它们的任意可行的组合。例如,样本获取模块510、标签获取模块520和模型训练模块530可以为专用或通用的电路、芯片或装置等,也可以为处理器和存储器的结合。关于上述各个模块的具体实现形式,本公开的实施例对此不作限制。
需要说明的是,本公开的实施例中,图像检测模型的训练装置500的各个模块与前述的图像检测模型的训练方法的各个步骤对应,关于图像检测模型的训练装置500的具体功能可以参考关于图像检测模型的训练方法的相关描述,此处不再赘述。图10所示的图像检测模型的训练装置500的组件和结构只是示例性的,而非限制性的,根据需要,该图像检测模型的训练装置500还可以包括其他组件和结构。
本公开的至少一个实施例还提供了一种电子设备,该电子设备包括处理器和存储器,存储器包括一个或多个计算机程序模块。一个或多个计算机程序模块被存储在存储器中并被配置为由处理器执行,一个或多个计算机程序模块包括用于实现上述的图像处理方法的指令或者用于实现上述的图像检测模型的训练方法的指令。该电子设备实现了关键点之间的联系,能够减小关键点的偏差,使得关键点数据更加准确,并且降低了模型参数量,减小了计算量,提高了效率。
图11A为本公开一些实施例提供的一种电子设备的示意框图。如图11A所示,该电子设备600包括处理器610和存储器620。存储器620存储有非暂时性计算机可读指令(例如一个或多个计算机程序模块)。处理器610用于运行非暂时性计算机可读指令,非暂时性计算机可读指令被处理器610运行时执行上文所述的图像处理方法中的一个或多个步骤或者执行上文所述的图像检测模型的训练方法中的一个或多个步骤。存储器620和处理器610可以通过总线系统和/或其它形式的连接机构(未示出)互连。
应当注意,图11A所示的电子设备600的组件只是示例性的,而非限制性的,根据实际应用需要,该电子设备600还可以具有其他组件。
例如,处理器610和存储器620之间可以直接或间接地互相通信。
例如,处理器610和存储器620可以通过网络进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。处理器610和存储器620之间也可以通过系统总线实现相互通信,本公开对此不作限制。
例如,处理器610和存储器620可以设置在服务器端(或云端)。
例如,处理器610可以控制电子设备600中的其它组件以执行期望的功能。例如,处理器610可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或程序执行能力的其它形式的处理单元。例如,中央处理单元(CPU)可以为X86或ARM架构等。处理器610可以为通用处理器或专用处理器,可以控制电子设备600中的其它组件以执行期望的功能。
例如,存储器620可以包括一个或多个计算机程序产品的任意组合,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序模块,处理器610可以运行一个或多个计算机程序模块,以实现电子设备600的各种功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据以及应用程序使用和/或产生的各种数据等。
例如,在一些实施例中,电子设备600可以为手机、平板电脑、电子纸、电视机、显示器、笔记本电脑、数码相框、导航仪、可穿戴电子设备、智能家居设备等。
例如,电子设备600可以包括显示面板,显示面板可以用于分割图像等。例如,显示面板可以为矩形面板、圆形面板、椭圆形面板或多边形面板等。另外,显示面板不仅可以为平面面板,也可以为曲面面板,甚至球面面板。
例如,电子设备600可以具备触控功能,即电子设备400可以为触控装置。
需要说明的是,本公开的实施例中,电子设备600的具体功能和技术效果可以参考上文中关于图像处理方法或者图像检测模型的训练方法的描述,此处不再赘述。
图11B为本公开一些实施例提供的另一种电子设备的示意框图。该电子设备700例如适于用来实施本公开实施例提供的图像处理方法或者图像检测模型的训练方法。电子设备700可以是终端设备等。需要注意的是,图11B示出的电子设备700仅仅是一个示例,其不会对本公开实施例的功能和使用范围带来任何限制。
如图11B所示,电子设备700可以包括处理装置(例如中央处理器、图形处理器等)710,其可以根据存储在只读存储器(ROM)720中的程序或者从存储装置780加载到随机访问存储器(RAM)730中的程序而执行各种适当的动作和处理。在RAM 730中,还存储有电子设备700操作所需的各种程序和数据。处理装置710、ROM 720以及RAM730通过总线740彼此相连。输入/输出(I/O)接口750也连接至总线740。
通常,以下装置可以连接至I/O接口750:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置760;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置770;包括例如磁带、硬盘等的存储装置780;以及通信装置790。通信装置790可以允许电子设备700与其他电子设备进行无线或有线通信以交换数据。虽然图11B示出了具有各种装置的电子设备700,但应理解的是,并不要求实施或具备所有示出的装置,电子设备700可以替代地实施或具备更多或更少的装置。
例如,根据本公开的实施例,上述图像处理方法或者图像检测模型的训练方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包括用于执行上述图像处理方法或者图像检测模型的训练方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置790从网络上被下载和安装,或者从存储装置780安装,或者从ROM 720安装。在该计算机程序被处理装置710执行时,可以实现本公开实施例提供的图像处理方法或者图像检测模型的训练方法中限定的功能。
本公开的至少一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有非暂时性计算机可读指令,当非暂时性计算机可读指令由计算机执行时可以实现上述的图像处理方法或者图像检测模型的训练方法。利用该计算机可读存储介质,实现了关键点之间的联系,能够减小关键点的偏差,使得关键点数据更加准确,并且降低了模型参数量,减小了计算量,提高了效率。
图12为本公开一些实施例提供的一种存储介质的示意图。如图12所示,存储介质800存储有非暂时性计算机可读指令810。例如,当非暂时性计算机可读指令810由计算机执行时执行根据上文所述的图像处理方法或者图像检测模型的训练方法中的一个或多个步骤。
例如,该存储介质800可以应用于上述电子设备600中。例如,存储介质800可以为图11A所示的电子设备600中的存储器620。例如,关于存储介质800的相关说明可以参考图11A所示的电子设备600中的存储器620的相应描述,此处不再赘述。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
有以下几点需要说明:
(1)本公开实施例附图只涉及到本公开实施例涉及到的结构,其他结构可参考通常设计。
(2)在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,本公开的保护范围应以所述权利要求的保护范围为准。
Claims (17)
1.一种图像处理方法,包括:
获取输入图像,其中,所述输入图像包括待检测对象;
通过图像检测模型对所述输入图像进行处理,得到所述图像检测模型的输出,其中,所述图像检测模型的输出包括所述待检测对象的曲度数据;
基于所述曲度数据,得到所述输入图像中的所述待检测对象的第一关键点数据。
2.根据权利要求1所述的方法,其中,基于所述曲度数据,得到所述输入图像中的所述待检测对象的第一关键点数据,包括:
获取转移矩阵;
利用所述转移矩阵,将所述曲度数据转换为所述第一关键点数据。
3.根据权利要求1所述的方法,其中,所述待检测对象包括手,所述曲度数据包括与所述手的多个手指一一对应的多个弯曲曲度值。
4.根据权利要求3所述的方法,其中,所述图像检测模型的输出还包括角度数据,其中,所述角度数据包括所述输入图像中的所述手的手掌的朝向相对于预定朝向的旋转角度。
5.根据权利要求4所述的方法,还包括:
利用所述角度数据,对所述第一关键点数据进行旋转操作,以得到所述输入图像中的所述待检测对象的第二关键点数据。
6.根据权利要求1所述的方法,其中,所述图像检测模型的输出还包括缩放比例数据,其中,所述缩放比例数据为所述输入图像中的所述待检测对象所在区域的外接框的尺寸与所述输入图像的尺寸的比例;
所述图像处理方法还包括:利用所述缩放比例数据,对所述第一关键点数据进行缩放操作,以得到所述待检测对象的第三关键点数据。
7.根据权利要求3所述的方法,其中,所述第一关键点数据包括所述手对应的多个关键点在所述输入图像中的位置信息。
8.根据权利要求1至7任一项所述的方法,还包括:
获取所述图像检测模型;
其中,获取所述图像检测模型包括:
获取多个样本图像,其中,所述多个样本图像中的每个样本图像包括目标对象;
获取所述多个样本图像分别对应的多个标签数据;
基于所述多个样本图像和所述多个标签数据,训练得到所述图像检测模型;
其中,所述每个样本图像对应的标签数据包括所述每个样本图像中的目标对象的曲度标签数据。
9.根据权利要求8所述的方法,其中,所述目标对象包括手;所述多个样本图像包括多个第一样本图像;
获取所述多个样本图像分别对应的多个标签数据,包括:针对所述多个第一样本图像中的每个第一样本图像执行以下操作:
确定所述第一样本图像中的手的至少一个手指分别对应的弯曲曲度标签数据;
将所述至少一个手指分别对应的弯曲曲度标签数据作为所述第一样本图像对应的曲度标签数据;
其中,确定所述第一样本图像中的手的至少一个手指分别对应的弯曲曲度标签数据,包括:
针对所述至少一个手指中的每个手指,
确定所述手指对应的多个关键点;
获取所述多个关键点依次连接而形成的多条连线段;
确定所述多条连线段分别对应的长度;
确定所述多条连线段中每相邻两条连线段之间的夹角,以得到至少一个夹角;
基于所述长度和所述至少一个夹角,得到所述手指对应的弯曲曲度标签数据。
10.根据权利要求9所述的方法,其中,所述多个样本图像还包括多个第二样本图像,
获取所述多个样本图像分别对应的多个标签数据,还包括:
基于所述多个第一样本图像,确定转移矩阵;
获取所述多个第二样本图像中的每个第二样本图像对应的第一关键点标签数据;
针对所述每个第二样本图像,利用所述转移矩阵,对所述第一关键点标签数据进行转换以得到所述第二样本图像中的手的多个手指分别对应的弯曲曲度标签数据,作为所述第二样本图像对应的曲度标签数据。
11.根据权利要求10所述的方法,其中,基于所述多个第一样本图像,确定转移矩阵,包括:
获取所述多个第一样本图像分别对应的多个第一关键点标签数据;
基于所述多个第一关键点标签数据和所述多个第一样本图像分别对应的曲度标签数据,计算得到所述转移矩阵。
12.根据权利要求8所述的方法,其中,所述每个样本图像对应的标签数据还包括角度标签数据,所述目标对象包括手,其中,所述每个样本图像对应的角度标签数据包括所述每个样本图像中的所述手的手掌的朝向相对于预定朝向的旋转角度。
13.根据权利要求8所述的方法,其中,所述每个样本图像对应的标签数据还包括缩放比例标签数据,其中,所述每个样本图像对应的缩放比例标签数据包括所述每个样本图像中的所述目标对象所在区域的外接框的尺寸与所述每个样本图像的尺寸的比例。
14.根据权利要求1-7任一项所述的方法,其中,
所述图像检测模型包括依次连接的输入层、多个分组空洞卷积层、多个分组卷积层、卷积层和输出层,
其中,每个所述分组空洞卷积层的卷积核为3×3卷积核,每个所述分组卷积层的卷积核为1×1卷积核,所述卷积层的卷积核为1×1卷积核。
15.一种图像处理装置,包括:
图像获取模块,配置为获取输入图像,其中,所述输入图像包括待检测对象;
模型检测模块,配置为通过图像检测模型对所述输入图像进行处理,得到所述图像检测模型的输出,其中,所述图像检测模型的输出包括所述待检测对象的曲度数据;
关键点获取模块,配置为基于所述曲度数据,得到所述输入图像中的所述待检测对象的第一关键点数据。
16.一种电子设备,包括:
处理器;
存储器,包括一个或多个计算机程序模块;
其中,所述一个或多个计算机程序模块被存储在所述存储器中并被配置为由所述处理器执行,所述一个或多个计算机程序模块包括用于实现权利要求1-14任一项所述的图像处理方法的指令。
17.一种计算机可读存储介质,存储有非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时实现权利要求1-14任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210895167.3A CN115393894A (zh) | 2022-07-26 | 2022-07-26 | 图像处理方法、图像处理装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210895167.3A CN115393894A (zh) | 2022-07-26 | 2022-07-26 | 图像处理方法、图像处理装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115393894A true CN115393894A (zh) | 2022-11-25 |
Family
ID=84116673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210895167.3A Pending CN115393894A (zh) | 2022-07-26 | 2022-07-26 | 图像处理方法、图像处理装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115393894A (zh) |
-
2022
- 2022-07-26 CN CN202210895167.3A patent/CN115393894A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021103648A1 (zh) | 手部关键点检测方法、手势识别方法及相关装置 | |
US9349076B1 (en) | Template-based target object detection in an image | |
CN111327828B (zh) | 拍照方法、装置、电子设备及存储介质 | |
WO2021120834A1 (zh) | 基于生物识别的手势识别方法、装置、计算机设备及介质 | |
CN111815754A (zh) | 一种三维信息确定方法、三维信息确定装置及终端设备 | |
CN113034652A (zh) | 虚拟形象驱动方法、装置、设备及存储介质 | |
US20220066569A1 (en) | Object interaction method and system, and computer-readable medium | |
WO2023083030A1 (zh) | 一种姿态识别方法及其相关设备 | |
CN111414915B (zh) | 一种文字识别方法以及相关设备 | |
CN109272442B (zh) | 全景球面图像的处理方法、装置、设备和存储介质 | |
CN111709268B (zh) | 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置 | |
CN114402369A (zh) | 人体姿态的识别方法、装置、存储介质及电子设备 | |
WO2021175020A1 (zh) | 一种人脸图像关键点方法、装置、计算机设备及存储介质 | |
CN112506340A (zh) | 设备控制方法、装置、电子设备及存储介质 | |
WO2022111609A1 (zh) | 一种网格编码方法及计算机系统 | |
CN111767965A (zh) | 图像匹配方法、装置、电子设备及存储介质 | |
CN114332927A (zh) | 课堂举手行为检测方法、系统、计算机设备和存储介质 | |
CN112270242B (zh) | 轨迹的显示方法、装置、可读介质和电子设备 | |
CN113066125A (zh) | 一种增强现实方法及其相关设备 | |
CN111368668A (zh) | 三维手部识别方法、装置、电子设备及存储介质 | |
CN115393894A (zh) | 图像处理方法、图像处理装置、电子设备和存储介质 | |
US20220050528A1 (en) | Electronic device for simulating a mouse | |
CN115049744A (zh) | 机器人手眼坐标转换方法、装置、计算机设备和存储介质 | |
CN115880719A (zh) | 手势深度信息生成方法、装置、设备和计算机可读介质 | |
Bhuyan et al. | Hand gesture recognition and animation for local hand motions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |