CN109948526B

CN109948526B - 图像处理方法及装置、检测设备及存储介质

Info

Publication number: CN109948526B
Application number: CN201910205464.9A
Authority: CN
Inventors: 金晟; 刘文韬; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2021-10-29
Anticipated expiration: 2039-03-18
Also published as: CN109948526A

Abstract

本发明实施例公开了一种图像处理方法及装置、检测设备及存储介质。所述图像处理方法，包括：从图像中检测出第一类特征，其中，所述第一类特征，至少包括：目标的表观信息；从所述图像中检测出第二类特征，其中，所述第二类特征，至少包括：目标的空间位置信息；融合所述第一类特征和所述第二类特征得到关键点的特征值。

Description

图像处理方法及装置、检测设备及存储介质

技术领域

本发明涉及信息技术领域，尤其涉及一种图像处理方法及装置、检测设备及存储介质。

背景技术

在安防领域、动作分析领域等都会需要对图像中的人像进行关键点检测，基于关键点检测获得人体的空间位置信息和/或人体特征信息等。在先关技术中有多种检测人体的关键点的方法，但是发现误差比较大，例如，可能会一个人像识别为多个人像。

发明内容

本发明实施例期望提供一种图像处理方法及装置、检测设备及存储介质。

本发明的技术方案是这样实现的：

一种图像处理方法，包括：

从图像中检测出第一类特征，其中，所述第一类特征，至少包括：目标的表观信息；

从所述图像中检测出第二类特征，其中，所述第二类特征，至少包括：目标的空间位置信息；

融合所述第一类特征和所述第二类特征得到关键点的特征值。

基于上述方案，所述方法还包括：

从所述图像中检测出第三类特征图，其中，所述第三类特征图，至少包括：关键点的特征值的预测信息；

所述融合所述第一类特征和所述第二类特征得到关键点的特征值，包括：

基于所述第三类特征图，融合所述第一类特征和所述第二类特征得到所述关键点的特征值。

基于上述方案，所述基于所述第三类特征图，融合所述第一类特征和所述第二类特征得到所述关键点的特征值，包括：

根据所述第三类特征图中预测关键点的置信度，确定出所述关键点的特征值的检测位置；

将第一类特征图中所述检测位置内的第一类特征、和第二类特征图中所述检测位置内的所述第二类特征进行拼接，得到所述关键点的特征值。

基于上述方案，所述方法还包括：

将所述关键点的特征值进行聚类，得到聚类结果；

根据所述聚类结果，确定出属于同一目标的关键点。

基于上述方案，所述方法，还包括：

基于同一个所述目标的关键点，获得所述目标在所述图像中的目标区域；

从所述目标区域提取出第四类特征，其中，所述第四类特征，包括所述目标的图像特征；

根据同一个目标在前后两帧图像的分布，得到第五类特征；

根据所述第四类特征和所述第五类特征进行目标跟踪。

基于上述方案，所述第五类特征包括：第t帧图像中一个目标的关键点指向第t+1帧图像对应目标的中心点的矢量，和/或，第t+1帧图像的目标的关键点指向第t帧图像对应目标的中心点的矢量，t为自然数。

基于上述方案，所述根据所述第四类特征和所述第五类特征进行目标跟踪，包括：

将第t+1帧图像的第四类特征和所述第t帧图像的第四类特征进行匹配，得到第一差分信息；

将第t+1帧图像相对于第t帧图像的第五类特征，和所述第t帧图像相对于所述第t-1帧图像得到第五类特征进行匹配，得到第二差分信息；

根据所述第一差分信息和所述第二差分信息，得到所述第t+1帧图像中的目标与第t帧图像中对应目标之间的对应关系。

基于上述方案，所述图像处理方法应用于深度学习模型中；所述方法还包括：

利用训练图像对深度学习模型进行训练，获得所述深度学习模型输出的训练特征；

利用辅助训练模块对所述训练特征进行转换处理，得到转换特征；

基于所述转换特征确定损失值；

基于所述损失值，确定是否继续训练所述深度学习模型。

基于上述方案，所述利用辅助训练模块对所述训练特征进行转换处理，得到转换特征，包括：

利用所述辅助训练模块将所述第一类特征转换为第一转换特征；

利用所述辅助训练模块将所述第二类特征转换为第二转换特征。

基于上述方案，所述基于所述转换特征确定损失值，包括：

基于所述第一转换特征获得第一损失项；

基于所述第二转换特征获得第二损失项；

基于所述第一损失项和所述第二损失项。

基于上述方案，所述方法还包括：

利用所述深度学习模型输出第六类特征；

基于所述第六类特征和所述第一类特征，得到第一类损失值；

所述基于所述转换特征确定损失值，包括：

基于所述转换特征得到第二类损失值；

基于所述第一类损失值和所述第二类损失值，得到用于确定是否继续所述深度学习模型的损失值。

一种图像处理装置，包括：

第一检测模块，用于从图像中检测出第一类特征，其中，所述第一类特征，至少包括：目标的表观信息；

第二检测模块，用于从所述图像中检测出第二类特征，其中，所述第二类特征，至少包括：目标的空间位置信息；

融合模块，用于融合所述第一类特征和所述第二类特征得到关键点的特征值。

基于上述方案，所述装置还包括：

第三检测模块，用于从所述图像中检测出第三类特征图，其中，所述第三类特征图，至少包括：关键点的特征值的预测信息；

所述融合模块，具体用于基于所述第三类特征图，融合所述第一类特征和所述第二类特征得到所述关键点的特征值。

基于上述方案，所述融合模块，具体用于根据所述第三类特征图中预测关键点的置信度，确定出所述关键点的特征值的检测位置；将第一类特征图中所述检测位置内的第一类特征、和第二类特征图中所述检测位置内的所述第二类特征进行拼接，得到所述关键点的特征值。

基于上述方案，所述装置还包括：

聚类模块，用于将所述关键点的特征值进行聚类，得到聚类结果；

确定模块，用于根据所述聚类结果，确定出属于同一目标的关键点。

基于上述方案，所述装置还包括：

第一获得模块，用于基于同一个所述目标的关键点，获得所述目标在所述图像中的目标区域；

提取模块，用于从所述目标区域提取出第四类特征，其中，所述第四类特征，包括所述目标的图像特征；

第二获得模块，用于根据同一个目标在前后两帧图像的分布，得到第五类特征；

跟踪模块，用于根据所述第四类特征和所述第五类特征进行目标跟踪。

基于上述方案，所述跟踪模块，包括：

第一匹配子模块，用于将第t+1帧图像的第四类特征和所述第t帧图像的第四类特征进行匹配，得到第一差分信息；

第二匹配子模块，用于将第t+1帧图像相对于第t帧图像的第五类特征，和所述第t帧图像相对于所述第t-1帧图像得到第五类特征进行匹配，得到第二差分信息；

跟踪子模块，用于根据所述第一差分信息和所述第二差分信息，得到所述第t+1帧图像中的目标与第t帧图像中对应目标之间的对应关系。

基于上述方案，所述装置还包括：

训练模块，用于利用训练图像对深度学习模型进行训练，获得所述深度学习模型输出的训练特征；

转换模块，用于利用辅助训练模块对所述训练特征进行转换处理，得到转换特征；

第一损失模块，用于基于所述转换特征确定损失值；

判断模块，用于基于所述损失值，确定是否继续训练所述深度学习模型。

基于上述方案，所述转换模块，用于利用所述辅助训练模块将所述第一类特征转换为第一转换特征；利用所述辅助训练模块将所述第二类特征转换为第二转换特征。

基于上述方案，所述转换模块，具体用于基于所述第一转换特征获得第一损失项；基于所述第二转换特征获得第二损失项；基于所述第一损失项和所述第二损失项。

基于上述方案，所述装置包括：

输出模块，用于利用所述深度学习模型输出第六类特征；

第二损失模块，用于基于所述第六类特征和所述第一类特征，得到第一类损失值；

所述第一损失模块，具体用于基于所述转换特征得到第二类损失值；基于所述第一类损失值和所述第二类损失值，得到用于确定是否继续所述深度学习模型的损失值。

一种检测设备，所述检测设备包括：

存储器，用于存储计算机可执行指令；

处理器，与所述存储器连接，用于通过执行所述计算机可执行指令，实现前述任意技术方案提供的图像处理方法。

一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行之后，能够实现前述任意实施例提供的图像处理方法。

本发明实施例提供的技术方案，在进行关键点检测时，会结合第一类特征和第二类特征两者，使得这两种特征相互融合之后得到关键点的特征值；如此，得到的每一个关键点的特征值既包括足够的表观信息，也包括同一个目标的内部空间结构特点，利用这种方式得到的关键点的特征值，进行后面目标的区分，或者，进行目标检测可以提升精确度。

附图说明

图1为本发明实施例提供的第一种图像处理方法的流程示意图；

图2为本发明实施例提供的第二种图像处理方法的流程示意图；

图3为本发明实施例提供的一种人体的关键点示意图；

图4为本发明实施例提供的第三种图像处理方法的流程示意图；

图5为本发明实施例提供的图像处理装置的结构示意图；

图6为本发明实施例提供的第四种图像处理方法的流程示意图；

图7为本发明实施例提供的一种提取关键点的特征值的流程示意图；

图8为本发明实施例提供的一种获得人第四类特征的流程示意图；

图9为本发明实施例提供的一种提取双向第五类特征的流程示意图；

图10为本发明实施例提供的一种深度学习模型训练方法的流程示意图；

图11为本发明实施例提供的一种聚类的流程示意图；

图12为本发明实施例提供的一种检测设备的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。

如图1所示，本实施例提供一种图像处理方法，包括：

步骤S110：从图像中检测出第一类特征，其中，所述第一类特征，至少包括：目标的表观信息；

步骤S120：从所述图像中检测出第二类特征，其中，所述第二类特征，至少包括：目标的空间位置信息；

步骤S130：融合所述第一类特征和所述第二类特征得到关键点的特征值。

本实施例中所述目标可为人或动物或设备等任意从图像中检测出关键点的图形元素。在本实施例中，本实施例提供的图像处理方法可以用于从包含有多个目标的图像中分别检测出各个目标的关键点的特征值。

从图像中检测出第一类特征(Keypoints Embedding，KE)，该KE包括但不限于目标体表的表观信息，该表观信息可为各种直接视觉可观察到的轮廓信息、纹理信息和皮肤质感信息等。

以人体为目标为例，所述表观信息包括但不限于：五官的轮廓信息；五官的分布信息等。

在一种图像的像素包括：属于目标的像素和属于目标以外的背景的像素。在本实施例中，区分目标所包含的像素和背景的像素，在生成的包含所述第一类特征的特征图中使用不同的像素值(或称为特征值)表示，例如，在特征图中对应于检测的图像中背景的像素，采用像素值“0”，而与目标所对应像素的像素值为为“0”以外的像素值。在本实施例中，检测的图像中可能有多个目标，为了区分多个目标，特征图中对应不同目标的像素的像素值使用不同的数值。例如，目标A所对应的特征值由“1”来表示，目标B所对应特征值由“2”来表示。而在图像中背景所对应的特征值为“0”；则此时，1不同于2且不同于0；2也不同于特征值0；如此，基于上述数值的比较，就知道特征图中哪些是背景，哪些是目标；同时，由于不同的目标使用不同的特征值，就可以根据特征值的具体取值，识别出哪些像素属于同一个目标。

所述第二类特征，包括了目标的空间位置信息，可选地，所述第二类特征的特征值用于指示每一个关键点是相对于目标的中心点的相对位置关系，具体如，所述第二类特征可为：所述空间关键点指向目标的中心点的向量。第二类特征可以表征目标内各个部分之间的相对位置关系。具体如，以人体为所述目标为例，所述第二类特征可包括：人体内不同关节的关节关键点相对于人体中心点的相对位置关系，该相对位置关系包括但不限于：方向和/或距离，可以由关键点指向人体中心点的向量表示。所述人体中心点可为人体的根节点。图3所示为一种人体的关键点示意图，其中，关键点0即为所述根节点，是基于计算得到的。图3中关键点10为头部关键点；关键点9为颈部关键点；关键点11及14为肩部关键点；关键点8为肩部与颈部连接的关键点；关键点7为腰部关键点；关键点12及15为肘部关键点；关键点13及16为手腕关键点；关键点1和4为胯部关键点；关键点5和20为膝盖关键点；关键点6和3为脚腕关键点。

在另一些实施例中，所述人体中心点还可为属于各个空间关键点的求均值，得到所述人体中心点的坐标值；如此，该目标内各空间关键点相对于所述人体中心点的分布满足特定的分布条件。若在判断是否为一个目标的空间实例嵌入特征时，就可以根据空间实例嵌入特征的嵌入值是满足所述分布条件，确定哪些嵌入值对应的空间实例嵌入特征是属于同一个目标的。

假设目标为人体，所述空间实例嵌入特征所对应的嵌入值为一个包含两个元素的数组，其中，数组中第一元素表示x方向的差值；第二元素表示y方向的差值，x方向和y方向相互垂直。此处的x方向和y方向都是相对图像而言的，例如在图像所在的平面内建立包括x轴和y轴的二维直角坐标系，则所述x方向可为图像坐标系的x轴方向；所述y方向可为图像坐标系的y轴方向。例如，以头部左脸关键点坐标减去人体中心点坐标得到的嵌入值中第一元素为正值且第二元素为正值；头部右脸关键点坐标减去人体中心点坐标得到的嵌入值中第一元素为负值且第二元素为正值；左脚关键点坐标减去人体中心点坐标得到的嵌入值的第一元素为正值，且第二元素为负值；右脚关键点坐标减去向人体中线点坐标得到的嵌入值的第一元素为负值，且第二元素为负值。在判断归属于一个目标的嵌入值时，可以根据该嵌入值对应关键点的特征值对应的局部，即其嵌入值的特点进行。

在本实施例中，所述第二类特征是各个空间关键点相对于中心点的向量，实质上相当于限定了一个目标内关键点之间的相对位置关系。

由于第一类特征更多关注目标的表观信息，在缺乏空间约束的情况下，会使得同一个目标的不同关键点归属给不同的目标从而导致不精确的问题。

由于第二类特征更多的关注目标内不同空间关键点，可能会忽略不同目标之间的相对位置关系，且对于相对于目标的中心点位置较远的点，会出现编码误差大等原因导致精确度差。

空间实例嵌入特征第二类特征

在本实施例中进行关键点的特征值检测时，会综合上述两种特征，使得两种特征利用彼此相互补充，例如，利用第二类特征作为第一类特征的空间约束，以所述第一类特征补强所述第二类特征的不足，融合两种特征得到融合特征作为所述关键点的特征值，基于该关键点的特征值就能够判断哪些关键点属于同一个目标，同时还可以获得目标的表观信息，如此，利用这种方式得到关键点的特征值，有助于提升目标的检测精度，减少将一个目标错误拆分成两个或两个以上目标的概率。且由于关键点的特征值的精确度提高了，减少了误差校正等原因导致的关键点的特征值提取效率低的问题，提升关键点的特征值的提取效率。

在一些实施例中，所述方法还包括：

步骤S121：从所述图像中检测出第三类特征图，其中，所述第三类特征图，至少包括：关键点的特征值的预测信息；

所述步骤S130可包括：

在本实施例中所述第三类特征图又可以称之为热力图，该第三类特征图中的像素可为置信度或概率值等预测信息，该预测信息可以指示图像中对应像素为关键点的概率值，或，该像素被预测为关键点的置信度等。

在本实施例中，会结合第三类特征图，确定出关键点所在位置的检测位置。

在步骤S130中进行第一类特征和第二类特征进行融合时，由于第一类特征所在的第一类特征图，和第二类特征所在的空间实例嵌入图是对齐的，且与第三类特征图是对齐的，此处的对齐是指图像包含的像素个数相同，且在空间位置上是一一对应的。

如此，在获得关键点的特征值时是将相同检测位置内的第一类特征和第二类特征进行融合，得到所述关键点的特征值。

在本实施例中，所述第一类特征和所述第二类特征的融合包括但不限于：

将第一类特征和第二类特征进行拼接。例如，所述第一类特征为一个m1维特征；所述第二类特征为m2维特征，则这两个特征拼接之后，可为m1+m2维特征。

在一些实施例中，所述第一类特征可为1维特征；所述第二类特征可为2维特征；通过所述融合之后，得到拼接特征可为3维特征。

在本实施例中，通过这种特征的直接拼接，形成的拼接特征同时保留了第一类特征的特征值和第二类特征的特征值，即同时保留了表观信息和空间位置信息，利用这种拼接后形成的拼接特征得到所述关键点的特征值，显然可以减少错误率，提升精确度。

在一些实施例中，如图2所示，所述步骤S130具体可包括：

步骤S131：根据所述第三类特征图中预测关键点的置信度，确定出所述关键点的特征值的检测位置；

步骤S132：将第一类特征图中所述检测位置内的第一类特征、和第二类特征图中所述检测位置内的所述第二类特征进行拼接，得到所述关键点的特征值。

在本实施例中，所述置信度越高则第三类特征图中指示对应像素为关键点的特征值的概率越高。例如，以头部关键点的置信度为例，遍历第三类特征图中各个像素的像素值(即所述置信度)，找出在不同区域里的局部极大值，局部的最大置信度，以该最大置信度所在的像素的坐标为(X1，Y1)，则取出第一类特征图(X1，Y1)的第一类特征；取出第二类特征图(X1，Y1)的第二类特征，并将这两个特征融合，就得到了一个关键点的特征值。该关键点在图像中的坐标为(X1，Y1)，且该关键点的特征值为m1维的第一类特征的嵌入值和m2维的第二类特征的嵌入值构成。

例如，以人体为目标，若人体包含有M个关键点，最终基于第三类特征图进行第一类特征和第二类特征融合之后，会得到M个关键点的特征值，每一个所述特征值是由对应关键点的第一类特征和第二类特征拼接形成的。

在一些实施例中所述方法还可包括：

将所述关键点的特征值进行聚类，得到聚类结果；

根据所述聚类结果，确定出属于同一目标的关键点。

例如，通过拼接之后得到了各个关键点的特征值，例如，以目标为例，若人体的关键点为S1个等，若图像中有S2个目标，则会得到S1*S2个关键点；

然后对S1*S2个关键点进行聚类，得到聚类结果。

例如，所述步骤S140可如下：

按照预定方向，对人体的各类型关键点进行聚类，例如进行基于距离的聚类；

基于聚类得到不同类型关键点的局部最优解；

组合各个局部最优解，得到了所述聚类结果。

例如，以目标为人体为例进行说明，从头部向脚部所对应的预定方向进行聚类；则所述按照预定方向，对人体的各类型关键点之间的距离，包括：

对各个头部关键点和颈部关键点进行距离聚类，得到各个头部关键点与各个颈部关键点之间的距离；

对各颈部关键点与胸部关键点进行举例聚类，得到各个颈部关键点与各个胸部关键点之间的距离，

以此类推，直到遍历完所有局部的关键点；

所述基于聚类得到不同类型关键点的局部最优解，包括：

选择距离最小的头部关键点和颈部关键点作为局部最优匹配；

选择距离最小的颈部关键点和胸部关键点作为局部最优匹配；

以此类推，直到遍历完所有局部最优匹配；

所述组合各个局部最优解，得到了所述聚类结果，包括：

将各个局部最优匹配中涉及相同关键点的匹配组合，得到以目标为粒度的聚类结果。

最终根据该聚类结果，反推出同一个目标所包含的所有关键点。

当然以上仅是将不同关键点划分到同一个目标的举例，具体实现方式有多种，此处就不再举例了。

在本实施例中，利用深度学习模型获得所述第一类特征和/或，所述空间实例特征。

该深度学习模型包括但不限于神经网络。

例如，参考图7所示，该深度学习模型包括：

特征提取层，用于从所述图像中提取出低层特征，得到特征图；

转换层，位于所述特征提取层后端，用于基于所述特征图得到所述第三类特征图、包含所述第一类特征的第一类特征图、包含所述第二类特征的第二类特征图；

特征融合卷积层，位于最后一个所述转换层的后端，用于基于第三类特征图融合所述第一类特征图和所述第二类特征图。

本实施例中所述第三类特征图、第一类特征图及所述第二类特征图包含的像素个数相同，但是单个像素的维度可不同。

例如，所述第三类特征图、第一类特征图及所述第二类特征图包含均W*H个像素；W和H均为正整数。第三类特征图中一个像素的维度可为J；第一类特征图中一个像素的维度可为J；所述第二类特征图的维度可为2。则所述特征融合卷积层可为通道数为J+J+2；卷积核为1:1卷积步长可为1。

在一些实施例中，所述转换层包括：N个串联的沙漏型编码子网络，该沙漏型编码子网络的网络架构为沙漏状；所述N个沙漏型编码子网络，用于基于所述特征图得到所述第三类特征图、包含所述第一类特征的第一类特征图、包含所述第二类特征的第二类特征图；N为正整数，例如，N可为2、3或4。

例如，所述转换层可包括：沙漏型编码子网络和位于所述沙漏型编码子网络后端的至少两个尾部卷积子层、及特征拼接节点；所述沙漏型编码子网络从特征提取层获得特征图，对特征图进行处理，并将处理后的特征输入到串联的至少两个卷积子层进行卷积处理；最后一个卷积子层输出的卷积特征和所述从特征提取层得到的特征图拼接后得到J+J+2维特征图，其中，1个J维特征对应于第三类特征图；另一个J维特征可为J维的第一类特征图；2维特征为第二类特征图。

在本实施例中，所述转换层采用了沙漏型编码子网络，具体实现过程中还可以采用残差模块替代所述沙漏型编码子网络等，总之此处仅为举例，具体实现方式有很多种，此处就不一一举例了。

在一些实施例中，如图4所示，本实施例提供一种图像处理方法，该图像处理方法可以与前述的图像处理方法结合，也可以单独使用。具体的，本实施例提供的图像处理方法还包括：

步骤S210：基于同一个所述目标的关键点，获得所述目标在所述图像中的目标区域；

步骤S220：从所述目标区域提取出第四类特征，其中，所述第四类特征，包括所述目标的图像特征；

步骤S230：根据同一个目标在前后两帧图像的分布，得到第五类特征；

步骤S240：根据所述第四类特征和所述第五类特征进行目标跟踪。

若本实施例提供图像处理方法与前述实施例(例如，图1所示)提供的图像处理方法结合使用，则在步骤S150中将各关键点分别归属到了不同的目标之后，就可以知道该目标在图像中的位置了，从而可以得到该目标的外接框等，该外接框所包含的图像区域可为所述目标区域或者称之为感兴趣区域。

所述第四类特征包括的图像特征包括但不限于区分不同目标的外接矩形框等特征，如全局嵌入特征。所述第四类特征包括的图像特征可以为同一次或多次卷积形成的区分不同目标的特征。

若此处的图像方法不与前述实施例提供的图像处理方法使用，则可以利用其他的任意方式获取所述图像区域，例如，从其他设备接收所述图像的同时获得图像所包含的多个图像区域的区域坐标等；再例如，利用其他全卷积神经网络等其他网络输出所述图像区域。

在本实施例中，基于同一个目标的关键点得到该目标区域之后，会从图像中将该目标区域分割出来，作为第四类特征提取的输入。该第四类特征为目标所在图像区域的图像特征，包括但不限于目标的表观特征和/或结构特征。所述结构特征包括目标的身体比例等。所述表观特征包括但不限于目标的表面可观察的色彩特征和/或轮廓特征等。

在本实施例中为了提升对目标的跟踪精确度，不仅仅单根据第四类特征进行目标跟踪，还会根据同一个目标在前后两针图像中的分布，得到第五类特征。

再结合第四类特征和第五类特征，综合得到目标跟踪的跟踪结果。

在一些实施例中，所述第五类特征包括：第t帧图像中一个目标的关键点指向第t+1帧图像对应目标的中心点的矢量，和/或，第t+1帧图像的目标的关键点指向第t帧图像对应目标的中心点的矢量，t为自然数。

此处，第t+1帧图像是第t帧图像的后一帧图像。假设第t帧图像和第t+1帧图像均包括S个目标，则第t帧图像和第t+1帧图像均会包含S个目标的第四类特征，同时第t+1帧图像会相对于第t帧图像得到一张第五类特征图，该实例时序嵌入特征图的像素值为前述第五类特征。一张所述第五类特征图所包含的S个目标的第五类特征。

在一些实施例中，所述步骤S230可包括：

所述第一差分信息可为两种图像中不同的第四类特征之间的欧式距离，此处的欧式距离仅是举例，具体实现时方式有很多种，不局限于此。

同样地的，所述第二差分信息也可以是两种图像所对应的第五类特征之间的距离。

所述根据所述第一差分信息和所述第二差分信息，得到所述第t+1帧图像中的目标与第t帧图像中对应目标之间的对应关系，包括：

将第t+1帧图像中第一目标的第一差分信息和所述第一目标的所述第二差分信息进行加权求和；

基于加权求最小所对应的所述第一目标和第t帧图像的第二目标为同一个目标。

由于第四类特征所对应的关键点是已知的，故这些关键点所对应的中心点也是已知的。而所述第四类特征中使用到了目标的中心点，故可以根据中心点匹配，知道在一帧图像中哪些第四类特征是与哪些第五类特征是对应的，如此，可以将同一种匹配的第一差分信息和第二差分信息进行加权求和，将得到最终差分信息；通过比较知道哪些匹配的最终差分信息最小，若最终差分信息最小的一组匹配，则说明这相邻两帧图像中所对应的是同一个目标，从而实现目标跟踪。

在一些实施例中，所述步骤S210可包括：

利用包括N1个第一残差模块的第一残差层对所述目标区域进行残差处理，得到第一残差特征，并利用包括N2个第二残差模块的第二残差层对所述第一残差特征进行残差处理，得到第二残差特征，N1为正整数；N2为正整数；

利用第三残差层对所述第二残差特征进行处理，得到第三残差特征；

利用第四残差层对所述第三残差特征进行处理，得到第四残差特征；

利用第五残差层对所述第四残差特征进行处理，得到第五残差特征；

将所述第五残差特征进行第一池化处理得到的第一池化特征与所述第三残差特征进行全连接得到第一特征；

将所述第五残差特征进行第二池化处理得到第二特征；

拼接所述第一特征和所述第二特征得到所述图像特征。

如图8所示，所述第一残差模块为4个，分别为res3a、res3b、res3c及res3d；第二残差模块为6个，分别是res4a、res4b、res4c、res4d、res4e及res4f。

第三残差层可包括残差模块res5a；第四残差层可包括残差模块res5b；第五残差层可包括残差模块res5c。

所述第一池化处理可为平均池化得到，再通过全连接(fc)之后得到中层特征可为前述第一特征的一种。

所述第五残差特征对应的第二池化处理可为平均池化，得到顶层特征为所述第二特征的一种。该第二特征可为2048维度(D)的特征。

将所述中间特征和所述顶层特征融合之后，得到所述第四类特征。

图8所示可为本实施例中用于提取所述第四类特征的深度学习模型的网络架构图。

图9所示可为本实施例中用于提取所述第五类特征的深度学习模型的网络架构图；

本实施例所述深度学习模型的两个分支，分别得到所述第四类特征和所述第五类特征之后，综合实现目标跟踪，可以提升目标跟踪结果。

所述图像处理方法应用于深度学习模型中；所述方法还包括：

基于所述转换特征确定损失值；

基于所述损失值，确定是否继续训练所述深度学习模型。

在本实施例中，训练所述深度学习模型的方法可如图10所示包括：

步骤S310：利用训练图像对深度学习模型进行训练，获得所述深度学习模型输出的训练特征；

步骤S320：利用辅助训练模块对所述训练特征进行转换处理，得到转换特征；

步骤S330：基于所述转换特征确定损失值；

步骤S340：基于所述损失值，确定是否继续训练所述深度学习模型。

本实施例中所述深度学习模型可以为一种能够对图像进行处理的深度学习模型。

所述训练图像中可包括一个或多个后续需要深度学习模型识别或检测的目标。本实施例中所述目标可为人或动物或设备等可移动或可活动的对象。

在本实施例中，所述深度学习模型不包括所述辅助训练模块，或者，所述辅助训练模块是在后续模型上线之后不使用的模块。

在本实施例中，所述深度学习模型可包括：

特征提取层，用于从图像中提取图像特征；

特征转换层，用于将图像特征进行语义特征；

语义层，用于基于语义特征获得图像处理结果对应的语义。

在本实施例中，所述语义转换层输出的语义包括所述步骤S310中的训练特征。

在本实施例中，所述辅助训练模块可以桥接在所述特征转换层和所述语义层之间，或者，和所述语义层并联连接在所述特征转换层的后端，从所述特征转换层接收所述语义特征，然后对语义特征进行转换处理之后，由辅助训练模块将得到训练的损失值，然后基于这个损失值进行深度学习模型是否需要继续训练的确定等。

在本实施例中，所述深度学习模型的训练是端到端的训练，如此，基于所述损失值从所述深度学习模型的最底层开始参数调优。在本实施例中，所述深度学习模型的参数包括但不限于以下至少之一：

超参数，网络节点的数目、节点之间的连接关系、阈值；

节点的权值等。

在本实施例中，所述辅助训练模块嵌入到训练阶段的深度学习模型中从而通过自身的辅助处理会得到可以进行监督训练的转换特征，辅助原本无监督或者弱监督的深度学习模型进行监督或强监督训练，可以通过这种监督或强监督训练，可以使得训练结束后的模型具有足够的精确度，并且可以适时停止训练，减少不必要训练导致的训练效率低的现象。

在一些实施例中，所述步骤S310可包括：利用所述训练图像对所述深度学习模型进行训练，获得所述深度学习模型输出的第三类特征和第一类特征和/或第二类特征；

所述步骤S320可包括：利用所述辅助训练模块基于第三类特征选择部分所述第一类特征和/或第二类特征进行转换处理，得到所述转换特征。

在本实施例中，所述训练图像可同时输出第三类特征和第一类特征；和/或，所述训练图像可同时输出所述第三类特征和第二类特征。

在本实施例中，所述第三类特征可以用于辅助选择进行特征转换的第一类特征和/或第二类特征。

在一些实施例中，所述第三类特征为第三类特征图的像素值；所述第一类特征为第一类特征图的特征；所述第二类特征为第二类特征图的特征。

所述第三类特征图、所述第一类特征和第二类特征图可为同维度的特征图。例如，第三类特征图和第一类特征和/或第二类特征图均包括N*M个像素。N为特征图中的行数，M为特征图中的列数。

在本实施例中，为了降低计算量，提升深度学习模型的训练效率，不是将所有的第一类特征和/或第二类特征都进行特征转换，进行损失值的计算，而是会根据第三类特征选择部分第一类特征和/或第二类特征进行转换并参与损失值计算。

具体地，根据第三类特征指示的与深度学习模型的任务相关度大于预设值的部分第一类特征和/或第二类特征参与转换和损失值的计算。

例如，若训练图像中包括目标；所述第一类特征和/或第二类特征可包括：区分各像素是属于目标还是背景的特征；所述第三类特征可为对应像素的特征的置信度。

如此，在所述步骤S320中可以根据第三类特征的置信度选择出高置信度(例如，置信度排序靠前的预定个数像素)所对应的部分第一类特征和/或第二类特征，或者，选择置信度高于置信度阈值的部分第一类特征和/或第二类特征进行转换，得到所述转换特征。

再例如，所述第一类特征和/或第二类特征包括：指示对应像素是属于目标的第一特征值，指示对应像素为背景的第二特征值，所述第三类特征可包括对应像素的特征值的置信度。在步骤S320中可以根据所述第三类特征，直接选择出置信度大于置信度阈值或者排序靠前的预定个像素所对应的第一特征值进行后续转换处理，以获得计算损失值的转换特征，从而再一次减少计算量，提升计算效率。

在一些实施例中，所述步骤S320可包括：根据第三类特征图像包含所述第三类特征和特征阈值的比较结果，生成特征蒙版；所述第三类特征来自所述第三类特征图，是属于第三类特征图所包含像素的像素值；

基于所述特征蒙版从所述第一类特征和/或第二类特征中选择进行转换处理的所述第一类特征和/或第二类特征。

在本实施例中，将第三类特征与对应的特征阈值进行比较，会得到比较结果包括以下至少之一：

第三类特征大于特征阈值，

第三类特征小于特征阈值；

第三类特征等于特征阈值。

在本实施例中，可以根据比较结果生成一个二值化的图像，该图像的维度与所述第三类特征图相同。

具体地，所述根据第三类特征图像包含所述第三类特征和特征阈值的比较结果，生成特征蒙版，包括：

将第三类特征图中第i个像素的所述第三类特征与所述特征阈值进行比较，所述i为像素编号；

若第i个像素的所述第三类特征大于所述特征阈值，则所述特征蒙版中第i个像素的像素值为第一取值；

和/或

若第i个像素的所述第三类特征小于或等于所述特征阈值，则所述特征蒙版中第i个像素的像素值为第二取值，其中，所述第二取值不同于所述第一取值。

此处所述特征蒙版为二值化的图像。所述第一取值和第二取值可以任意实数。

为了方便后续操作，所述第一取值和所述第二取值可为“0”和“1”。如此，后续在进行第一类特征和/或第二类特征的选择时，可以通过布尔运算简便的选择出所要的第一类特征和/或第二类特征。

例如，所述第一取值可为“1”；所述第二取值可为“0”，则可以通过布尔运算中的与运算选择出所需的第一类特征和/或第二类特征，未被选择的第一类特征和/或第二类特征通过和“0”的与运算都被置为了“0”。

故在一些实施例中，所述基于所述特征蒙版从所述第一类特征和/或第二类特征中选择进行转换处理的所述第一类特征和/或第二类特征，包括：

若所述特征蒙版的第j个像素为所述第一取值，则选择第一类特征和/或第二类特征图中第j个像素的所述第一类特征和/或第二类特征进行所述特征转换，j也为像素编号。此处的j与前述的i采用相同的像素编号方式形成的。

在一些实施例中，所述第三类特征为置信度。

目标的关键点包括：支架关键点和轮廓关键点等关键点中的一个或多个。此处，若目标为人或动物，则所述支架关键点可人或动物等骨架关键点；若所述目标为车或机器人等可为车的车架等支架体的关键点。第三类特征图所包含的第三类特征可为高斯响应所产生的置信度。该置信度的取值可为0到1之间的任意一个数。通常在关键点第三类特征图中，置信度越高，表示训练图像中对应像素为关键点的概率就越高。

在一些实施例中，所述步骤S320可包括：利用所述辅助训练模块对训练特征进行聚类处理，得到所述转换特征。

例如，在一个训练图像中知道了多个关键点，而这些关键点分属不同的目标，在本实施例中，通过所述聚类处理，可以将同一个目标的关键点归属到一个集合中。一个集合对应于一个目标。

在本实施例中，所述聚类处理采用的算法包括但不限于高斯模糊均值偏移(Gaussian Blurring Mean Shift，GBMS)算法。

在本实施例中，以下提供一种将训练特征转换为转换特征的具体实现方式，具体如，如图11所示，所述步骤S320可包括：

步骤S321：根据选择的第一类特征和/或第二类特征，计算高斯相似性矩阵；具体如，以所述第一类特征或第二类特征为计算所述高斯相似性矩阵的已知量计算得到所述高斯相似性矩阵；

步骤S322：对所述高斯相似性矩阵进行归一化处理，得到归一化矩阵系数；

步骤S323：基于所述高斯相似性矩阵和所述归一化矩阵系数，得到被选择部分的所述第一类特征和/或第二类特征的所述转换特征。

在本实施例中，所述深度学习模型可以用于关键点检测，利用这种结合两种特征进行关键点检测的特征，可以提升检测的精确度，理由是：综合上述两种特征，使得两种特征利用彼此相互补充，例如，利用第二特征作为第一特征的空间约束，以所述第一特征补强所述第二特征的不足，融合两种特征得到融合特征作为所述关键点的特征值，基于该关键点的特征值就能够判断哪些关键点属于同一个目标，同时还可以获得目标的外观信息，如此，利用这种方式得到关键点的特征值，有助于提升目标的检测精度，减少将一个目标错误拆分成两个或两个以上目标的概率。且由于关键点的特征值的精确度提高了，减少了误差校正等原因导致的关键点的特征值提取效率低的问题，提升关键点的特征值的提取效率。

如此，在步骤S321中进行特征转换时，可具体如下：

利用所述辅助训练模块对所述第一类特征进行转换处理，得到第一转换特征；

利用所述辅助训练模块对所述第二类特征进行转换处理，得到第二转换特征。

在计算损失值时，对应地，基于所述第一转换特征得到所述损失值的第一损失项；基于所述第二转换特征得到所述损失值的第二损失项；基于所述第一损失项项和所述第二损失项项，得到所述损失值。

具体的，基于加权求和对所述第一损失项和所述第二损失项，得到用于判断深度学习模型是否需要继续训练的所述损失值。

例如，以下提供几种分别计算所述第一损失项和所述第二损失项的函数关系：

为第k'个目标各个关键点嵌入特征的嵌入值的均值。

在本实施例中，L₁为所述第一损失项。J为一个目标所包含的关键点的总个数；K为一个图像包含的目标数目；m(p_j,k)为关键点嵌入特征对应的嵌入值；p_j,k为第k个目标的第j个关键点的位置；

为第k个目标各个关键点嵌入特征的嵌入值的均值。

所述第二损失项可以采用如下函数关系进行计算：

在本实施例中，L₂为所述第二损失项。p_j,k为第k个目标的第j个关键点相对于第k个目标的中心点的向量；

为第k个目标的中心点的坐标。J为一个目标所包含的关键点的总个数；K为一个图像包含的目标数目。

在一些实施例中，所述方法还包括：

步骤S311：获取所述深度学习模型输出的第六类特征；

步骤S312：基于所述第六类特征和所述第一类特征和/或第二类特征确定第一类损失值；

所述步骤S330可包括：基于所述转换特征得到第二类损失值；所述步骤S340可包括：基于所述第一类损失值和所述第二类损失值，对所述深度学习模型进行模型训练。

在本实施例中，还会利用第六类特征进行所述第一类特征和/或第二类特征中一个或多个特征的损失计算。

在本实施例中，所述第一类损失值可以与所述第二类损失值中的第一损失项同步计算。在本实施例中，所述第六类特征可以主要用于辅助所述第一类特征和/或第二类特征中的第一特征的第一损失项的损失计算。

例如，

此处的L₃为所述第一类损失值。

为第k个目标各个关键点嵌入特征的嵌入值的均值；

为第k'个目标各个关键点嵌入特征的嵌入值的均值。Ord为所述第六类特征预测的第k个目标和第k'个目标的空间顺序。

例如，Ord的取值为1或-1；例如，若按照从左至右的顺序，则在第六类特征中指示第k个目标在第k'个目标左边，则Ord的取值为1，否则Ord的取值为-1。

是根据第一特征中的关键点嵌入特征的各嵌入值的特征，正确预测出第k个目标在第k'个目标左边，则

会小于的

从而

会负数且大于-1；则得到的

接近为零，L₃为接近为零，若未预测正确，则

会为正数，则得到的

为正数，则L₃为正数，则最后的损失值就会因为较大的L₃而变大。总之，在步骤S330中可包括：基于前述的L₁、L₂及L₃三者确定最终的损失值，以确定是否继续深度学习模型的端到端训练。例如，对L₁、L₂及L₃进行加权求和得到最终的损失值；或者，直接求取三者之和得到所述最终的损失值。

在本实施例中，所述第六类特征可为仅参与模型训练的辅助特征，在所述深度学习模型上线之后，所述第六类特征可以不计算，或计算了不输出。总之，所述深度学习模型可能是一个多任务模型，而获得第六类特征的任务是一个仅用于辅助训练的辅助任务，该多任务模型上线之后该第三类任务对应的辅助任务可以不执行，以节省计算量。

在另一些实施例中，例如通过断开或截断所述深度学习模型输出所述第六类特征的通道，实现所述第六类特征的计算阻塞或者输出。

在一些实施例中，所述第六类特征包括：用于指示所述训练图像中不同目标之间的空间顺序的特征；所述第一类特征和/或第二类特征包括：第一特征，所述第一特征，包括：编码了目标的外观信息且能够区分不同目标的特征；

所述步骤S112可包括：根据不同目标的关键点嵌入特征得到所述不同目标的第一空间顺序；基于所述第六类特征，得到所述不同目标的第二空间顺序；基于所述第一空间顺序和所述第二空间顺序，确定所述第一类损失值。

值得注意的是：此处的第六类特征同样可为前述的嵌入特征的一种，同样是图像像素级别的特征、具有聚类属性，同时编码不同目标之间的空间位置关系的特征。

在一些实施例中，所述第六类特征包括但不限于：利用嵌入值区分位置上目标的空间关系嵌入特征。

例如，同一个目标的第一特征使用的嵌入值是相同或相等的；不同的目标的第一特征使用的其嵌入值是不同的。

如此，可以任意取目标的一个第一特征，再将不同目标的第一特征进行排序，得到的排序结果即为所述第一空间顺序。

再例如，可以基于一个目标的所有第一特征的均值或中值得到一个计算值；然后将不同目标的计算值进行排序，得到排序结果即为所述第二空间顺序。

若第一空间顺序和第二空间顺序相同，则第一类损失值小甚至为零；若所述第一空间顺序和第二空间顺序不同，则第一类损失值大，若多个目标的第一空间顺序和第二空间顺序的差异越大，则所述第一类损失值越大。

在一些实施例中，若深度学习模型输出的关键点嵌入值得到的空间顺序和自身输出的第六类特征的顺序不一致，则说明深度学习模型目前还需要进一步优化，否则至少在空间顺序上的排序模型目前有较高的准确率。最终是否需要停止训练，在本实施例中还需要结合基于转换特征得到的第二类损失值来综合确定。

在一些实施例中，所述第六类特征包括以下至少之一：

指示不同对象在第一方向上的分布关系的第一第六类特征；

指示不同对象在第二方向上的分布关系的第二第六类特征，其中，第二方向为所述第一方向的反方向；

指示不同对象在第三方向上的分布关系的第三第六类特征，其中，所述第三方向垂直于所述第一方向；

指示不同对象在第四方向上的分布关系的第四第六类特征，其中，所述第四方向为所述第三方向的反方向。

在本实施例中，在同一个图像中的目标按照排序位置和不同的排序方式，则会有不同的第六类特征，且基于这种第六类特征赋予的第一特征也会有所差异。

例如，假设所述第一方向为从左至右的方向，则所述第一空间关系特征是对图像中从左至右进行排序，对应的在左边的目标其第一特征的均值或者中值，是小于排在在其右边的目标的第一特征的均值或中值的。

所述第二方向为所述第一方向的反方向，若第一方向为从左至右，则所述第二方向为从右至左。

在本实施例中，所述第三方向可为从上至下，则所述第四方向可为从下至上。所述第五方向可为从前到后的方向；所述第六方向可为从后到前的方向，在判别两个对象在图像中的前后关系，可以通过各自的头部在图像中成像尺寸来确定。头部成像尺寸越大，说明位置越靠前，头部成像尺寸越小，则说明位置越靠后。

总之，在本实施例中，在深度学习模型的训练阶段引入了第六类特征进行辅助训练，一方面有利于提升模型的训练效率，另一方面可以确保训练之后的模型对同一个目标的第一特征使用相同或相似的嵌入值来表示。

在一些实施例中，所述深度学习模型得到的语义特征有多个时，所述深度学习模型还包括：

融合层，用于融合不同的语义特征，例如，所述语义特征：第一类特征和/或第二类特征的第一特征和第二特征，具体如，第一特征和第六类特征；

所述融合层可包括：融合所述第一特征和第二特征，具体如，融合所述第一特征和第六类特征，得到目标的关键点的特征值。所述融合包括但不限于特征拼接。

例如，第一特征和第二特征进行拼接时，若所述第一特征为一个m1维特征；所述第二特征为m2维特征，则这两个特征拼接之后，可为m1+m2维特征。

在一些实施例中，所述第一特征可为1维特征；所述第二特征可为2维特征；通过所述融合之后，得到拼接特征可为3维特征。

在本实施例中，通过这种特征的直接拼接，形成的拼接特征同时保留了第一特征的特征值和第二特征的特征值，即同时保留了外观信息和空间位置信息，利用这种拼接后形成的拼接特征得到所述关键点的特征值，显然可以减少错误率，提升精确度。

在一些实施例中，若所述第三类特征为关键点第三类特征图中的置信度，则拼接所述第一特征和所述第二特征可如下：

根据所述关键点第三类特征图中预测关键点的特征值的置信度，确定出所述关键点的特征值的检测位置；

将第一特征图中所述检测位置内的第一特征、和第二特征图中所述检测位置内的所述第二特征进行拼接，得到所述关键点的特征值。

在本实施例中，所述置信度越高则关键点第三类特征图中指示对应像素为关键点的特征值的概率越高。例如，以头部关键点的置信度为例，遍历关键点第三类特征图中各个像素的像素值(即所述置信度)，找出在不同区域里的局部极大值，局部的最大置信度，以该最大置信度所在的像素的坐标为(X1，Y1)，则取出第一特征图(X1，Y1)的第一特征；取出第二特征图(X1，Y1)的第二特征，并将这两个特征融合，就得到了一个关键点的特征值。该关键点在图像中的坐标为(X1，Y1)，且该关键点的特征值为m1维的第一特征的嵌入值和m2维的第二特征的嵌入值构成。

例如，以人体为目标，若人体包含有M个关键点，最终基于关键点第三类特征图进行第一特征和第二特征融合之后，会得到M个关键点的特征值，每一个所述特征值是由对应关键点的第一特征和第二特征拼接形成的。

在一些实施例中，所述方法还可包括：将所述关键点的特征值进行聚类，得到聚类结果；根据所述聚类结果，确定出属于同一目标的关键点。

然后对S1*S2个关键点进行聚类，得到聚类结果。

例如，所述步骤S340可如下：

基于聚类得到不同类型关键点的局部最优解；

组合各个局部最优解，得到了所述聚类结果。

以此类推，直到遍历完所有局部的关键点；

所述基于聚类得到不同类型关键点的局部最优解，包括：

以此类推，直到遍历完所有局部最优匹配；

所述组合各个局部最优解，得到了所述聚类结果，包括：

在本实施例中，利用深度学习模型获得所述第一特征和/或，所述空间实例特征。

该深度学习模型包括但不限于神经网络。

例如，该深度学习模型包括：

特征提取层，具体可为特征提取层，用于卷积操作等提取出低层特征，得到特征图；

特征转换层，位于所述特征提取层后端，用于基于所述特征图得到所述关键点第三类特征图、包含所述第一特征的第一特征图、包含所述第二特征的第二特征图；

融合层，位于最后一个所述特征转换层的后端，用于基于关键点第三类特征图融合所述第一特征图和所述第二特征图。

本实施例中所述关键点第三类特征图、第一特征图及所述第二特征图包含的像素个数相同，但是单个像素的维度可不同。

例如，所述关键点第三类特征图、第一特征图及所述第二特征图包含均W*H个像素；W和H均为正整数。关键点第三类特征图中一个像素的维度可为J；第一特征图中一个像素的维度可为J；所述第二特征图的维度可为2。则所述特征融合卷积层可为通道数为J+J+2；卷积核为1:1、卷积步长可为1。

在一些实施例中，所述特征转换层包括：N个串联的沙漏型编码子网络，该沙漏型编码子网络的网络架构为沙漏状；所述N个沙漏型编码子网络，用于基于所述特征图得到所述关键点第三类特征图、包含所述第一特征的第一特征图、包含所述第二特征的第二特征图；N为正整数，例如，N可为2、3或4。

例如，所述特征转换层可包括：沙漏型编码子网络和位于所述沙漏型编码子网络后端的至少两个尾部卷积子层、及特征拼接节点；所述沙漏型编码子网络从特征提取层获得特征图，对特征图进行处理，并将处理后的特征输入到串联的至少两个卷积子层进行卷积处理；最后一个卷积子层输出的卷积特征和所述从特征提取层得到的特征图拼接后得到J+J+2维特征图，其中，1个J维特征对应于关键点第三类特征图；另一个J维特征可为J维的第一特征图；2维特征为第二特征图。

在本实施例中，所述特征转换层采用了沙漏型编码子网络，具体实现过程中还可以采用残差模块替代所述沙漏型编码子网络等，总之此处仅为举例，具体实现方式有很多种，此处就不一一举例了。

在本实施例中一方面为了加速深度学习模型的训练，另一方面为了提升训练后的深度学习模型的精确度。在利用该深度学习模型进行训练的时候，会利用基于训练第一特征获得第一损失项，并基于第六类特征得到第二损失项，综合这两个损失值确定是否停止对深度学习模型中用于提取所述第一特征的分支的优化训练。

在本实施例中，所述深度学习模型可为一个多任务模型，能够同时完成两个或两个以上的任务；具体如，在本实施例中所述深度学习模型可至少同时能够提取出所述第一特征、第二特征的神经网络等深度学习模型。

在本实施例中，所述深度学习模型可为自底向上的模型，该自底向上的模型首先不区分目标，将图像中所有第一特征和/或所述第二特征提取出来，然后在提取出所有第一特征和第二特征之后，再组合各个关键点的特征值，得到一个目标所有关键点的特征值，这种相对于目标而言是从特征到目标划分的深度学习模型为所述自底向上模型。

如图5所示，本实施例提供一种图像处理装置，包括：

第一检测模块110，用于从图像中检测出第一类特征，其中，所述第一类特征，至少包括：目标的表观信息；

第二检测模块120，用于从所述图像中检测出第二类特征，其中，所述第二类特征，至少包括：目标的空间位置信息；

融合模块130，用于融合所述第一类特征和所述第二类特征得到关键点的特征值。

本实施例提供图像处理装置，可应用于各种电子设备中，例如，移动设备和固定设备等。所述移动设备包括但不限于手机、平板电脑或各种可穿戴式设备等。所述固定设备包括但不限于台式笔记本或服务器等。

在一些实施例中，所述第一检测模块110、第二检测模块120及融合模块130可为程序模块，该程序模块被处理器执行后，能够检测出第一类特征、第二类特征，并获得关键点的特征值。

在另一些实施例中，所述第一检测模块110、第二检测模块120及融合模块130可为软硬结合模块，所述软硬结合模块可包括各种可编程阵列；所述可编程阵列包括但不限于复杂可编程阵列或现场可编程这列。

在一些实施例中，所述装置还包括：

所述融合模块130，具体用于基于所述第三类特征图，融合所述第一类特征和所述第二类特征得到所述关键点的特征值。

在一些实施例中，所述融合模块130，具体用于根据所述第三类特征图中预测关键点的置信度，确定出所述关键点的特征值的检测位置；将第一类特征图中所述检测位置内的第一类特征、和第二类特征图中所述检测位置内的所述第二类特征进行拼接，得到所述关键点的特征值。

在一些实施例中，所述装置还包括：

在一些实施例中，所述跟踪模块，包括：

在一些实施例中，所述跟踪子模块，用于将第t+1帧图像中第一目标的第一差分信息和所述第一目标的所述第二差分信息进行加权求和；基于加权求最小所对应的所述第一目标和第t帧图像的第二目标为同一个目标。

在一些实施例中，所述第一获得模块，具体用于利用包括N1个第一残差模块的第一残差层对所述目标区域进行残差处理，得到第一残差特征，并利用包括N2个第二残差模块的第二残差层对所述第一残差特征进行残差处理，得到第二残差特征，N1为正整数；N2为正整数；利用第三残差层对所述第二残差特征进行处理，得到第三残差特征；利用第四残差层对所述第三残差特征进行处理，得到第四残差特征；利用第五残差层对所述第四残差特征进行处理，得到第五残差特征；将所述第五残差特征进行第一池化处理得到的第一池化特征与所述第三残差特征进行全连接得到第一特征；将所述第五残差特征进行第二池化处理得到第二特征；拼接所述第一特征和所述第二特征得到所述图像特征。

基于上述方案，在一些实施例中，所述装置还包括：

第一损失模块，用于基于所述转换特征确定损失值；

在另一些实施例中，所述转换模块，用于利用所述辅助训练模块将所述第一类特征转换为第一转换特征；利用所述辅助训练模块将所述第二类特征转换为第二转换特征。

在还有一些实施例中，所述转换模块，具体用于基于所述第一转换特征获得第一损失项；基于所述第二转换特征获得第二损失项；基于所述第一损失项和所述第二损失项。

此外，所述装置包括：

输出模块，用于利用所述深度学习模型输出第六类特征；

以下结合上述任意实施例提供几个具体示例：

示例1：

人体关键点检测是视频分析的基础，在安防领域、动作分析领域具有重要的应用前景。

本示例提供两种人体关键点检测技术，其一是基于第一类特征(KeypointEmbedding,KE)的解决方案，另一是基于第二类特征(Spatial Instance Embedding,SIE)的图像处理方法。

第一类特征图和第二类特征图的维数相同，同样可以用一系列输出分辨率大小的二维矩阵来表示，其中每一个关键点的类别，对应一张二维矩阵，而且在空间位置上，与关键点一一对应。

第一类特征KE在训练过程中，拉近同一个人的各个关键点的嵌入值，而拉远不同人的关键点的嵌入值。

KE主要包含了关键点附近的像素的表观信息。KE主要涉及表观信息，对空间位置不敏感，可以建模长距离的节点关系；然而，由于缺乏空间约束，只依赖KE可能会错误地将远处不同人的关键点聚在一起。

第二类特征SIE在训练过程中，对每一个像素值回归到人体中心的向量，于是SIE包含了人体中心位置信息。

SIE主要包含空间位置信息，编码了人体中心位置，可以有效利用空间位置进行聚类。然而，对于距离人体中心较远的点(比如头顶、脚踝)等部位，SIE的编码误差较大，可能会将同一个人错误地分割为多个部分。

如图6所示，本示例提出了一个多任务多分支的关键点检测模型，能够同时提取第一类特征和第二类特征，而第一类特征形成了第一类特征图；第二类特征中的第一特征形成了第一特征图；第二类特征中的第二特征形成了第二特征图。本示例提供的关键点检测模型还致力于有机融合这两种自底向上关键点检测方案，结合二者的优势，实现更高效、更准确的人体关键点检测。在图6所示的关键点检测模型进行关键点检测时，还会检测第三类特征图，方便后续关键点距离得到最终的关键点的特征值(即图6中所示的最终检测结果)。

具体地，本示例提出了一个多任务多分支的图像处理方法，包括：结合第一类特征和第二类特征，进行多人人体关键点预测。

该检测方法既可以用于多人人体关键点的检测，同时也可以扩展到人体关键点的跟踪任务之中。由图7所示，对于每一帧图像，首先通过多任务的自底向上的人体关键点模型，直接输出人体关键点的关键点高斯响应图，以及第一类特征图、第二类特征图。在图7中所示的特征提取层，包括：多个卷积子层和池化层，在图7中卷积子层的个数为5个；所述池化层为最大池化层，此处的最大池化层为保留最大值的下采样层；第1个卷积子层的通道数为64、卷积核的尺寸为7*7，卷积步长为2；第2个卷积子层的通道数为128、卷积核的尺寸为3*3，卷积步长为1；第3个卷积子层的通道数为128、卷积核的尺寸为7*7，卷积步长为1；第4个卷积子层的通道数为128、卷积核的尺寸为3*3，卷积步长为1；第5个卷积子层的通道数为256、卷积核的尺寸为3*3，卷积步长为1。特征提取层输出了256位的特征图，该特征图的像素值为前述底层特征。

S个转换模块形成的特征转换层；一个所述转换模块包括一个沙漏型子网络和多个卷积子层；所述S的取值可为2以上的任意正整数，例如，取值为4。在图7中展示有两个卷积子层，且这两个卷积子层的通道数均为256，卷积核的尺寸均为3*3，且卷积步长为1。该深度学习模型通过4个转换模块形成的特征转换层之后，通过一个卷积子层输出J维的第三类特征图、J维的第一类特征图和2维的第二类特征图。J的取值可为与目标的关键点的个数相同。例如，以人体为例，关键点的个数为14个或16个，则J的取值为14或16。

融合层进行特征拼接之后，通过一个通道数为J+J+2、卷积核尺寸为1*1且卷积步长为1的卷积分别输出J维的高斯响应图，以及J维的第一类特征图、2维的第二类特征图。这两类嵌入特征图，同样用一系列二维矩阵来表示，其中每一个关键点的类别，对应一张二维矩阵，和高斯响应图可以在空间位置上一一对应。对于第一类特征图KE，同一个人的各个关键点具有相似的嵌入值；对于不同人的关键点，要求其嵌入值不同。

对于空间实例嵌入图，每一个像素点回归一个到人体中心的坐标向量。空间实例嵌入图SIE，自然包含了人体的中心位置坐标信息。

通过基于卷积神经网络的自底向上的关键点模型，能够得到人体关键点的高斯响应和第一类特征，第二类特征。

第三类特征图像中，每个位置的值为该点被预测为相应关键点的置信度。该图中置信度最大的像素点的坐标为相应关键点的检测位置。

接着将第一类特征图和第二类特征图沿着特征维度拼接在一起，共同进行关节点的聚类，最终关节点构成整个人体姿态。

训练损失函数：

上式中L₁代表第一类特征的损失函数，J为关节点的种类数，K为一个图像包含的目标数目；m(p_j,k)为第一类特征对应的嵌入值；p_j,k为第k个目标的第j个关键点的位置；

为第k个目标各个第一类特征的嵌入值的均值。

上式中，L₂为所述第二损失项。p_j,k为第k个目标的第j个关键点相对于第k个目标的中心点的向量；

为第k个目标的中心点的坐标。J为一个目标所包含的关键点的总个数；K为一个图像包含的目标数目。。

单纯使用基于第一类特征的方法，KE主要涉及表观信息，对空间位置不敏感，可以建模长距离的节点关系；然而，由于缺乏空间约束，只依赖KE可能会错误地将远处不同人的关键点聚在一起。

单纯使用基于第二类特征的方法，SIE主要包含空间位置信息，编码了人体中心位置，可以有效利用空间位置进行聚类。然而，对于距离人体中心较远的点(比如头顶、脚踝)等部位，SIE的编码误差较大，可能会将同一个人错误地分割为多个部分。

总之，本示例提出了一种自底向上的多任务关键点预测模型，同时进行第一类特征和第二类特征提取。

结合第一类特征和第二类特征，进行多人人体关键点预测。

本示例结合第一类特征和第二类特征，进行多人人体关键点预测。第一类特征包含的表观信息和第二类特征的空间位置信息相结合，能够有效提升关键点检测精度。

本示例提供的关键点预测模型，可以利用本算法在互联网视频中，对人体关键点的位置进行准确预测；并可以将预测的关键点，用于分析人体的行为种类，精确定位人体不同部位之后在身体不同部位增加实时特效。在一些场景下，产品中是否同时采用了，第一类特征和第二类特征，进行关键点检测或跟踪任务。

示例2：

本示例提供一个双分支的时序特征提取的深度学习模型，提取人体第四类特征和第五类特征来进行人体跟踪。在本示例中，所述人体第四类特征为前述第四类特征的一种，由于跟踪的目标是人体，故称之为人体第四类特征。但在具体的实现过程中，目标的跟踪不限于人体，还可以是其他移动物体，例如，交通工具和/或地面移动机器人或者低空飞行机器人。

人体第四类特征包含了关键点区域的整体表观信息，而时序实例嵌入包含了时间一致性约束。

人体第四类特征蕴含整体表观信息、不依赖于人体的空间位置信息，对于人体快速移动、相机运动和缩放，具有很好的鲁棒性。第五类特征，包含了时间一致性的约束信息，能够使运动更加平滑，对姿态变化和遮挡更加鲁棒。

本示例提出，可以采用人体第四类特征和时序实例嵌入，并且将二者结合起来，共同进行人体关键点的跟踪任务。大大提高了模型的跟踪性能。

该深度学习模型用于多人人体关键点的跟踪任务之中。由图8所示，本示例采用了基于空间实例嵌入的，自底向上的进行单帧图像中人体的关键点的预测。对于每一帧图像，首先得到每一帧的第三类特征图、第二类特征图、以及最终的姿态检测结果。

接下来，针对连续两帧图像，输入到双分支时序特征提取网络，得到人体第四类特征、第五类特征。结合二者的输出，共同预测与前一帧检测结果的时序匹配结果(跟踪结果)，实现人体关键点的在线跟踪。

如图9所示，双分支时序特征提取网络的网络结构示意图。图8是人体第四类特征提取分支，输入神经网络底层的特征表示，根据单帧预测的人体姿态，提取人体区域的感兴趣对齐(ROI-Align)特征，并经过一系列残差卷积操作，提取更高层的特征。

各个层次的特征进行融合，得到人体第四类特征。

对于每一个人体框(一个所述人体框对应于前述一个目标区域)，可会得到一个预定维数(例如，3072)维的向量，作为人体第四类特征。

该向量对于相同的人的第四类特征相似，不同人的特征不相同。

其训练方法，类似于人体再识别算法，即要求相同的人的第四类特征相似，不同人的特征不相同。

图9是时序实例嵌入分支，输入连续两帧图像提取的低层特征的特征图、第三类特征图、第二类特征图进行拼接，在经过通道数为256，卷积核尺寸为1*1及卷积步长为1的卷积处理之后，输入到沙漏模型中进行处理，在通过三个卷积层的处理输出时序实例嵌入。这三个卷积层中前两个卷积层的通道数为256，卷积核的尺寸为3*3；卷积步长为1。第3个卷积层的通道数为2*2，卷积核的尺寸为1*1；卷积步长为1。

时序实例嵌入是双向的特征图。对于正向时序实例嵌入而言，第t帧图像上每一个像素点，都回归一个t+1帧图像的人体中心点坐标。反之，对于逆向时序实例嵌入，第t+1帧图像上每一个像素点，都回归一个t帧图像对应人体的中心点坐标。

本示例提供了一个双分支的时序特征提取网络，提取人体第四类特征，和第五类特征，来进行跟踪的方案。人体第四类特征包含了关键点区域的整体表观信息，而时序实例嵌入包含了时间一致性约束。

人体第四类特征蕴含整体表观信息、不依赖于空间位置信息，对于人体快速移动、相机运动和缩放，具有很好的鲁棒性。第五类特征，包含了时间一致性的约束信息，能够使运动更加平滑，对姿态变化和遮挡更加鲁棒。

本示例提出结合人体第四类特征和时序实例嵌入，共同进行人体关键点的跟踪任务。大大提高了模型的跟踪性能。

该深度学习模型方法用于前述图像处理的深度学习模型训练时，所述图像处理方法还包括：

如图12所示，本申请实施例提供了一种检测设备，包括：

存储器，用于存储信息；

处理器，分别与显示器及所述存储器连接，用于通过执行存储在所述存储器上的计算机可执行指令，能够实现前述一个或多个技术方案提供的图像处理方法，例如，如图1、图2、图4图6至图9及图10至图11所示的图像处理方法中的至少之一。

该存储器可为各种类型的存储器，可为随机存储器、只读存储器、闪存等。所述存储器可用于信息存储，例如，存储计算机可执行指令等。所述计算机可执行指令可为各种程序指令，例如，目标程序指令和/或源程序指令等。

所述处理器可为各种类型的处理器，例如，中央处理器、微处理器、数字信号处理器、可编程阵列、数字信号处理器、专用集成电路或图像处理器等。

所述处理器可以通过总线与所述存储器连接。所述总线可为集成电路总线等。

在一些实施例中，所述终端设备还可包括：通信接口，该通信接口可包括：网络接口、例如，局域网接口、收发天线等。所述通信接口同样与所述处理器连接，能够用于信息收发。

在一些实施例中，所述终端设备还包括人机交互接口，例如，所述人机交互接口可包括各种输入输出设备，例如，键盘、触摸屏等。

在一些实施例中，所述检测设备还包括：显示器，该显示器可以显示各种提示、采集的人脸图像和/或各种界面。

本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够实现前述一个或多个技术方案提供的图像处理方法，例如，如图1、图2、图4图6至图9及图10至图11所示的图像处理方法中的至少之一。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本示例各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本示例的具体实施方式，但本示例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本示例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本示例的保护范围之内。因此，本示例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

从图像中检测出第一类特征，其中，所述第一类特征包括：编码了目标的外观信息且能够区分不同目标的特征；

从所述图像中检测出第二类特征，其中，所述第二类特征，包括：编码了同一个目标内部关键点的空间位置信息且能够区分不同目标的特征；

融合所述第一类特征和所述第二类特征得到所述图像中包含的至少一个目标的关键点的特征值。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述图像中检测出第三类特征图，其中，所述第三类特征图包括第三类特征；所述第三类特征至少包括：指示对应像素为关键点的预测信息；

3.根据权利要求2所述的方法，其特征在于，所述基于所述第三类特征图，融合所述第一类特征和所述第二类特征得到所述关键点的特征值，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

将所述关键点的特征值进行聚类，得到聚类结果；

根据所述聚类结果，确定出属于同一目标的关键点。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法，还包括：

根据同一个目标在前后两帧图像的分布，得到第五类特征；

根据所述第四类特征和所述第五类特征进行目标跟踪。

6.根据权利要求5所述的方法，其特征在于，

所述第五类特征包括：第t帧图像中一个目标的关键点指向第t+1帧图像对应目标的中心点的矢量，和/或，第t+1帧图像的目标的关键点指向第t帧图像对应目标的中心点的矢量，t为自然数。

7.根据权利要求5所述的方法，其特征在于，所述根据所述第四类特征和所述第五类特征进行目标跟踪，包括：

将第t+1帧图像的第四类特征和第t帧图像的第四类特征进行匹配，得到第一差分信息；

将第t+1帧图像相对于第t帧图像的第五类特征，和所述第t帧图像相对于第t-1帧图像得到第五类特征进行匹配，得到第二差分信息；

8.根据权利要求1至4任一项所述的方法，其特征在于，所述图像处理方法应用于深度学习模型中；所述方法还包括：

基于所述转换特征确定损失值；

基于所述损失值，确定是否继续训练所述深度学习模型。

9.根据权利要求8所述的方法，其特征在于，所述利用辅助训练模块对所述训练特征进行转换处理，得到转换特征，包括：

10.根据权利要求9所述的方法，其特征在于，

所述基于所述转换特征确定损失值，包括：

基于所述第一转换特征获得第一损失项；

基于所述第二转换特征获得第二损失项；

基于所述第一损失项和所述第二损失项。

11.根据权利要求8所述的方法，其特征在于，所述方法还包括：

利用所述深度学习模型输出第六类特征；

所述基于所述转换特征确定损失值，包括：

基于所述转换特征得到第二类损失值；

12.一种图像处理装置，其特征在于，包括：

第一检测模块，用于从图像中检测出第一类特征，其中，所述第一类特征，包括：编码了目标的外观信息且能够区分不同目标的特征；

第二检测模块，用于从所述图像中检测出第二类特征，其中，所述第二类特征，包括：编码了同一个目标内部关键点的空间位置信息且能够区分不同目标的特征；

融合模块，用于融合所述第一类特征和所述第二类特征得到所述图像中包含的至少一个目标的关键点的特征值。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述融合模块，具体用于根据所述第三类特征图中预测关键点的置信度，确定出所述关键点的特征值的检测位置；将第一类特征图中所述检测位置内的第一类特征、和第二类特征图中所述检测位置内的所述第二类特征进行拼接，得到所述关键点的特征值。

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：

16.根据权利要求12至15任一项所述的装置，其特征在于，所述装置还包括：

17.根据权利要求16所述的装置，其特征在于，

18.根据权利要求16所述的装置，其特征在于，所述跟踪模块，包括：

第一匹配子模块，用于将第t+1帧图像的第四类特征和第t帧图像的第四类特征进行匹配，得到第一差分信息；

第二匹配子模块，用于将第t+1帧图像相对于第t帧图像的第五类特征，和所述第t帧图像相对于第t-1帧图像得到第五类特征进行匹配，得到第二差分信息；

19.根据权利要求12至15任一项所述的装置，其特征在于，所述装置还包括：

第一损失模块，用于基于所述转换特征确定损失值；

20.根据权利要求19所述的装置，其特征在于，所述转换模块，用于利用所述辅助训练模块将所述第一类特征转换为第一转换特征；利用所述辅助训练模块将所述第二类特征转换为第二转换特征。

21.根据权利要求20所述的装置，其特征在于，所述转换模块，具体用于基于所述第一转换特征获得第一损失项；基于所述第二转换特征获得第二损失项；基于所述第一损失项和所述第二损失项。

22.根据权利要求19所述的装置，其特征在于，所述装置包括：

输出模块，用于利用所述深度学习模型输出第六类特征；

23.一种检测设备，所述检测设备包括：

存储器，用于存储计算机可执行指令；

处理器，与所述存储器连接，用于通过执行所述计算机可执行指令，实现权利要求1至11任一项提供的方法。

24.一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行之后，能够实现权利要求1至11任一项所述的方法。