CN112364807A

CN112364807A - 图像识别方法、装置、终端设备及计算机可读存储介质

Info

Publication number: CN112364807A
Application number: CN202011328150.7A
Authority: CN
Inventors: 林灿然; 程骏; 庞建新
Original assignee: Shenzhen Ubtech Technology Co ltd
Current assignee: Shenzhen Ubtech Technology Co ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-02-12
Anticipated expiration: 2040-11-24
Also published as: CN112364807B

Abstract

本申请适用于图像处理技术领域，提供了一种图像识别方法、装置、终端设备及计算机可读存储介质，包括：检测待识别图像中的目标物体，获得包含目标物体的第一检测框；检测第一检测框中包含的目标物体上的关键点，获得第一检测框对应的关键点信息；提取第一检测框中包含图像的图像特征，获得第一检测框对应的图像特征信息；将第一检测框对应的关键点信息和图像特征信息进行信息融合处理，得到第一检测框对应的特征融合信息；根据第一检测框对应的特征融合信息对第一检测框中包含的目标物体进行识别，得到第一检测框对应的识别结果。通过上述方法，能够有效提高图像识别的准确度。

Description

图像识别方法、装置、终端设备及计算机可读存储介质

技术领域

本申请属于图像处理技术领域，尤其涉及一种图像识别方法、装置、终端设备及计算机可读存储介质。

背景技术

行为是人类之间进行表达与交流的重要方式，因此，人体的行为识别是人机交互的重要研究方向之一，在视频监控、智能家居等领域发挥着重要的作用。随着深度学习技术的不断发展，基于图像识别的行为识别方法受到广泛应用。

现有的图像识别方法通常是基于图像的RGB特征进行识别的。即利用样本图像的RGB特征对识别模型进行训练，然后将待识别图像的RGB特征输入到训练后的识别模型中，以实现对待识别图像的识别。由于图像的RGB特征容易受到背景噪声的干扰，因此，当待识别图像的背景与样本图像的背景差异较大时，识别模型的识别精度较低。

发明内容

本申请实施例提供了一种图像识别方法、装置、终端设备及计算机可读存储介质，可以提高图像识别结果的准确度。

第一方面，本申请实施例提供了一种图像识别方法，包括：

检测待识别图像中的目标物体，获得包含所述目标物体的第一检测框；

检测所述第一检测框中包含的所述目标物体上的关键点，获得所述第一检测框对应的关键点信息；

提取所述第一检测框中包含图像的图像特征，获得所述第一检测框对应的图像特征信息；

将所述第一检测框对应的关键点信息和图像特征信息进行信息融合处理，得到所述第一检测框对应的特征融合信息；

根据所述第一检测框对应的特征融合信息对所述第一检测框中包含的所述目标物体进行识别，得到所述第一检测框对应的识别结果。

由于图像中的关键点信息不容易受到背景噪声的干扰，因此，本申请实施例中，将检测出的关键点信息和图像特征信息进行融合，得到的特征融合信息中即保留了丰富的图像特征，又不容易受到背景噪声的干扰。那么利用特征融合信息进行图像识别，能够有效避免背景噪声的干扰，有效提高图像识别结果的准确度。

在第一方面的一种可能的实现方式中，所述检测所述第一检测框中包含的所述目标物体上的关键点，获得所述第一检测框对应的关键点信息，包括：

检测所述第一检测框中包含的所述目标物体上的关键点，得到多个关键点各自的坐标数据；

对所述多个关键点各自的坐标数据分别进行归一化处理，得到多个关键点各自的归一化坐标；

将所述多个关键点各自的归一化坐标确定为所述第一检测框对应的关键点信息。

在第一方面的一种可能的实现方式中，关键点的坐标数据包括关键点的横坐标和纵坐标；

关键点的归一化坐标包括关键点的归一化横坐标和归一化纵坐标；

所述对所述多个关键点各自的坐标数据分别进行归一化处理，得到多个关键点各自的归一化坐标，包括：

获取第一横坐标、第二横坐标、第一纵坐标和第二纵坐标，其中，所述第一横坐标为所述多个关键点的坐标数据中的最大横坐标，所述第二横坐标为所述多个关键点的坐标数据中的最小横坐标，所述第一纵坐标为所述多个关键点的坐标数据中的最大纵坐标，所述第二纵坐标为所述多个关键点的坐标数据中的最小纵坐标；

根据所述第一横坐标和所述第二横坐标计算关键点横向差值；

根据所述第一纵坐标和所述第二纵坐标计算关键点纵向差值；

对于每个关键点，根据所述关键点的横坐标、所述第二横坐标和所述关键点横向差值计算所述关键点的归一化横坐标，根据所述关键点的纵坐标、所述第二纵坐标和所述关键点纵向差值计算所述关键点的归一化纵坐标。

在第一方面的一种可能的实现方式中，若获得包含所述目标物体的多个第一检测框，则在得到每个第一检测框各自对应的识别结果之后，所述方法还包括：

获取每个第一检测框各自对应的目标点信息，其中，所述目标点信息为多个目标点各自的坐标数据，所述目标点为所述第一检测框中包含的所述目标物体的目标部位上的关键点；

根据每个第一检测框各自对应的目标点信息，对所述多个第一检测框进行去冗余处理，得到去冗余后处理后的第一检测框。

在第一方面的一种可能的实现方式中，所述根据每个第一检测框各自对应的目标点信息，对所述多个第一检测框进行去冗余处理，得到去冗余处理后的第一检测框，包括：

根据每个第一检测框各自对应的目标点信息，确定每个第一检测框包含的所述目标物体上的目标部位对应的第二检测框；

基于非极大值抑制方法对所述第二检测框进行去冗余处理，得到去冗余处理后的第二检测框；

将所述去冗余处理后的第二检测框对应的第一检测框确定为去冗余处理后的第一检测框。

在第一方面的一种可能的实现方式中，目标点的坐标数据包括目标点的横坐标和纵坐标；

所述根据每个第一检测框各自对应的目标点信息，确定每个第一检测框包含的所述目标物体上的目标部位对应的第二检测框，包括：

对于每个第一检测框，获取第三横坐标、第四横坐标、第三纵坐标和第四纵坐标，其中，所述第三横坐标为所述第一检测框对应的目标点信息中的最大横坐标，所述第四横坐标为所述第一检测框对应的目标点信息中的最小横坐标，所述第三纵坐标为所述第一检测框对应的目标点信息中的最大纵坐标，所述第四纵坐标为所述第一检测框对应的目标点信息中的最小纵坐标；

根据所述第三横坐标、所述第四横坐标、所述第三纵坐标和所述第四纵坐标确定所述第一检测框包含的所述目标物体上的目标部位对应的候选检测框；

按照预设比例扩大所述候选检测框，得到扩大后的候选检测框；

将所述扩大后的候选检测框确定为所述第一检测框包含的所述目标物体上的目标部位对应的第二检测框。

在第一方面的一种可能的实现方式中，应用于预设的神经网络模型，所述神经网络模型包括特征提取子网络和全连接子网络；

所述方法还包括：

获取样本图像；

检测样本图像中的所述目标物体，获得包含所述目标物体的第三检测框；

检测所述第三检测框中包含的所述目标物体上的关键点，获得所述第三检测框对应的关键点信息；

通过所述特征提取子网络提取所述第三检测框中包含图像的图像特征，获得所述第三检测框对应的图像特征信息；

将所述第三检测框对应的关键点信息和图像特征信息进行信息融合处理，得到所述第三检测框对应的特征融合信息；

根据所述第三检测框对应的特征融合信息对所述全连接子网络进行训练，得到所述训练后的全连接子网络。

第二方面，本申请实施例提供了一种图像识别装置，包括：

目标检测单元，用于检测待识别图像中的目标物体，获得包含所述目标物体的第一检测框；

关键点检测单元，用于检测所述第一检测框中包含的所述目标物体上的关键点，获得所述第一检测框对应的关键点信息；

特征提取单元，用于提取所述第一检测框中包含图像的图像特征，获得所述第一检测框对应的图像特征信息；

信息融合单元，用于将所述第一检测框对应的关键点信息和图像特征信息进行信息融合处理，得到所述第一检测框对应的特征融合信息；

图像识别单元，用于根据所述第一检测框对应的特征融合信息对所述第一检测框中包含的所述目标物体进行识别，得到所述第一检测框对应的识别结果。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的图像识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的图像识别方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的图像识别方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的图像识别方法的流程示意图；

图2是本申请实施例提供的人体关键点的示意图；

图3是本申请实施例提供的交并比的示意图；

图4是本申请实施例提供的模型训练方法的流程示意图；

图5是本申请实施例提供的图像识别流程示意图；

图6是本申请实施例提供的图像识别装置的结构框图；

图7是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

如在本申请说明书和所附权利要求书中所使用的那样，术语“若”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。

随着深度学习技术的不断发展，该技术被广泛应用于图像处理、信息搜索和数据挖掘等领域。以图像处理中的图像识别为例，利用大量的样本图像对神经网络模型进行训练，以使神经网络模型能够掌握样本图像中图像特征的内在规律，进而使得训练后的神经网络模型具有对图像进行识别的能力，即能够识别出各种不同的目标物体。常见的应用有人脸识别、商品识别等等。

图像识别技术通常包括模型训练和图像识别两个部分。其中，模型训练部分通常包括图像采集、图像预处理、图像特征提取和模型训练几个步骤。具体的：采集样本图像；对样本图像进行预处理(如去噪、滤波等操作)；提取预处理后的样本图像中的图像特征，并将图像特征输入到预设的神经网络模型中进行模型训练；当模型的输出满足预设条件时，训练结束。图像识别部分通常包括图像采集、图像预处理、图像特征提取和图像识别几个步骤。具体的：采集待识别图像；对待识别图像进行预处理(如去噪、滤波等操作)；提取预处理后的待识别图像中的图像特征，并将图像特征输入到训练后的神经网络模型中进行图像识别。

现有的图像识别技术中，通常是提取图像的RGB信息或像素值信息作为图像特征。但是RGB信息或像素值信息容易受到背景噪声的干扰。当待识别图像中的背景与样本图像中的背景差异较大、或者图像中目标物体与背景图案差异较小时，将会导致训练后的神经网络模型无法准确识别出待识别图像中的目标物体。

以课堂教学场景为例。新型的课堂教学模式是，在教室中安装有具有图像识别技术的机器，该机器能够实时对学生的课堂行为(如举手、起立等)进行识别，老师通过该机器能够及时掌握学生的课堂情况。在该场景中，学生即为图像识别中的目标物体。但是在课堂中，学生人数较多(即目标物体较多)，课堂场景(即背景图案)不固定，而且还会存在课桌、书本遮挡等情况，如果只利用RGB信息或像素值信息作为图像特征，那么图像识别效果较差。如果针对每个课堂场景训练一个神经网络模型，耗时耗力，成本较高。

为了解决上述问题，本申请实施例提供了一种图像识别方法。该方法中通过融合图像的RGB信息和人体关键点信息，得到特征融合信息，然后基于特征融合信息对课堂中学生的行为进行识别。通过本申请实施例中的方法，能够有效提高课堂学生行为识别的准确率。

下面介绍本申请实施例提供的图像识别方法。参见图1，是本申请实施例提供的图像识别方法的流程示意图。作为示例而非限定，如图1所示，图像识别方法可以包括以下步骤：

S101，检测待识别图像中的目标物体，获得包含目标物体的第一检测框。

可以利用目标检测模型检测待识别图像中的目标物体。将待识别图像输入到训练好的目标检测模型中，输出第一检测框。其中，输出的可以是带有第一检测框标记的待识别图像，也可以是第一检测框的位置信息。

可选的，可以采用YOLO v3模型作为目标检测模型。

以学生行为识别的应用场景为例，在该场景中，学生为目标物体。换言之，S101中检测待识别图像中的目标物体的过程，即为检测待识别图像中的人体的过程。

S102，检测第一检测框中包含的目标物体上的关键点，获得第一检测框对应的关键点信息。

目标物体上的关键点是预先定义好的。通常定义规则为，通过检测出的关键点可以勾勒出目标物体的大致轮廓、掌握目标物体的大致姿态。例如，参见图2，是本申请实施例提供的人体关键点的示意图。如图2所示，检测出人体上的18个关键点，通过这18个关键点可以勾勒出人体的大致轮廓、掌握人体的大致姿态。

可选的，可以利用人体姿态估计算法检测第一检测框中的关键点。

其中，关键点信息可以包括第一检测框内多个关键点各自的坐标数据。如图2中所示的18个关键点，获得18个关键点各自在图像中的横坐标和纵坐标。

由于目标物体在图像中的位置不是固定的，相应的，关键点在图像中的横纵坐标也是相对变化的。而本申请实施例提供的图像识别方法中，并不关注目标物体在图像中的位置，更加关注的是根据关键点拟合出目标物体姿态的能力。因此，为了降低目标物体在图像中的位置对关键点坐标的影响，在本申请实施例中，可以对关键点的坐标数据进行归一化处理。具体的：

检测第一检测框中包含的目标物体上的关键点，得到多个关键点各自的坐标数据；对多个关键点各自的坐标数据分别进行归一化处理，得到多个关键点各自的归一化坐标；将多个关键点各自的归一化坐标确定为第一检测框对应的关键点信息。

其中，关键点的归一化坐标包括关键点的归一化横坐标和归一化纵坐标。

进一步的，对多个关键点各自的坐标数据分别进行归一化处理，得到多个关键点各自的归一化坐标，可以包括以下步骤：

I、获取第一横坐标、第二横坐标、第一纵坐标和第二纵坐标。

其中，第一横坐标为多个关键点的坐标数据中的最大横坐标，第二横坐标为多个关键点的坐标数据中的最小横坐标，第一纵坐标为多个关键点的坐标数据中的最大纵坐标，第二纵坐标为多个关键点的坐标数据中的最小纵坐标。

示例性的，参见表1。

表1某目标对象的18个关键点的坐标数据

从表1中可以看出，18个关键点中第一横坐标(最大的横纵坐标)为X_max＝170，第一纵坐标(最大的纵坐标)为Y_max＝170。18个关键点中第二横坐标(最小的横坐标)为X_min＝10，第二纵坐标(最小的纵坐标)为Y_min＝10。

II、根据第一横坐标和第二横坐标计算关键点横向差值。

关键点横向差值为多个关键点的坐标数据中最大的横坐标与最小的横坐标的差值，用于表示多个关键点中两个关键点之间的最大横向距离。

如表1所示，关键点横向差值为W＝180-10＝170。

III、根据第一纵坐标和第二纵坐标计算关键点纵向差值。

关键点纵向差值为多个关键点的坐标数据中最大的纵坐标与最小的纵坐标的差值，用于表示多个关键点中两个关键点之间的最大纵向距离。

如表1所示，关键点纵向差值为H＝180-10＝170。

关键点横向差值可以用于表示目标物体的宽，关键点纵向差值可以用于表示目标物体的高。通过关键点横向差值和关键点纵向差值能够获取目标物体轮廓的大概范围。

IV、对于每个关键点，根据关键点的横坐标、第二横坐标和关键点横向差值计算关键点的归一化横坐标，根据关键点的纵坐标、第二纵坐标和关键点纵向差值计算关键点的归一化纵坐标。

通过

计算关键点的归一化横坐标，通过

计算关键点的归一化纵坐标。其中，X_ni为第i个关键点的归一化横坐标，X_i为归一化之前第i个关键点的横坐标。Y_ni为第i个关键点的归一化纵坐标，Y_i为归一化之前第i个关键点的纵坐标。

示例性的，如表1所示的数据，第1个关键点的归一化横坐标为

归一化纵坐标为

基于表1所示的数据，计算出的18个关键点的归一化坐标如表2所示。

表2某目标对象的18个关键点的归一化坐标

X<sub>ni</sub>(横坐标)	Y<sub>ni</sub>(横坐标)
		0	0
0.059	0.059
		0.118	0.118
0.177	0.177
		0.236	0.236
0.295	0.295
		0.354	0.354
0.413	0.413
		0.472	0.472
0.531	0.531
		0.590	0.590
0.649	0.649
		0.708	0.708
0.767	0.767
		0.826	0.826
0.885	0.885
		0.944	0.944
1	1

经过上述坐标归一化操作后，原来表示绝对位置的关键点坐标均被归一化为0到1区间范围内的数值。通过上述操作，有效降低目标物体在图像中的位置对关键点坐标的影响，归一化处理后的关键点信息更加清晰地反映出关键点之间的位置关系。

S103，提取第一检测框中包含图像的图像特征，获得第一检测框对应的图像特征信息。

在本申请实施例中，图像特征信息可以为图像的RGB信息，也可以是图像的像素值信息，还可以是其他图像特征信息。当然，图像特征信息还可以包括上述几种特征信息。获取到的特征信息的种类越多，图像识别精度越高，同时计算成本也越高。

可以利用具有特征提取功能的神经网络提取第一检测框中包含图像的图像特征。

S104，将第一检测框对应的关键点信息和图像特征信息进行信息融合处理，得到第一检测框对应的特征融合信息。

在本申请实施例中，可以将关键点信息和图像特征信息拼接成特征融合信息。例如：将关键点信息和图像特征信息存放在一个矩阵中，这个矩阵中的数据就构成了特征融合信息。

S105，根据第一检测框对应的特征融合信息对第一检测框中包含的目标物体进行识别，得到第一检测框对应的识别结果。

可以将第一检测框对应的特征融合信息输入到用训练好的图像识别模型中，输出第一检测框对应的识别结果。

在本申请实施例中，待识别图像中可以包括一个目标物体，也可以包括多个目标物体。当包括多个目标物体时，相应的，获得包含每个目标物体的第一检测框。仍以学生行为识别的应用场景为例，在该应用场景中，有多个学生。那么通过S101可以获得多个第一检测框，每个学生对应一个第一检测框，即每个第一检测框中包括一个学生的图像。

步骤S102-S105是针对某一个第一检测框的处理过程。对于获得多个第一检测框的情形，对于每个第一检测框，都可以按照步骤S102-S105进行处理。示例性的，假设待识别图像中有2个目标物体。通过S101可以获得两个第一检测框。对于第一检测框1按照步骤S102-S105进行处理，对于第一检测框2按照步骤S102-S105进行处理。具体的：

检测第一检测框1中包含的目标物体上的关键点，获得第一检测框1对应的关键点信息；提取第一检测框1中包含图像的图像特征，获得第一检测框1对应的图像特征信息；将第一检测框1对应的关键点信息和图像特征信息进行信息融合处理，得到第一检测框1对应的特征融合信息；根据第一检测框1对应的特征融合信息对第一检测框1中包含的目标物体进行识别，得到第一检测框1对应的识别结果。

检测第一检测框2中包含的目标物体上的关键点，获得第一检测框2对应的关键点信息；提取第一检测框2中包含图像的图像特征，获得第一检测框2对应的图像特征信息；将第一检测框2对应的关键点信息和图像特征信息进行信息融合处理，得到第一检测框2对应的特征融合信息；根据第一检测框2对应的特征融合信息对第一检测框2中包含的目标物体进行识别，得到第一检测框2对应的识别结果。

在实际应用中，上述步骤S101中利用目标检测模型检测待识别图像中的目标物体时，可能存在检测出一个目标物体对应多个第一检测框的情况，即目标多检的情况。现有技术中，通常使用非极大值抑制方法滤除多检框。但是在实际应用中，如课堂场景，学生座位比较靠近，导致目标物体之间的遮挡严重。如果采用非极大值抑制方法，会发生误删检测框的情况。

虽然目标物体之间距离较近，但是两个目标物体的某个部位之间的距离可能相隔较远。因此，如果基于目标物体的某个部位进行非极大值抑制处理，将会避免误删检测框的情况。

在本申请一个实施例中，在得到每个第一检测框各自对应的识别结果之后，还包括去冗余操作，具体的：

获取每个第一检测框各自对应的目标点信息，其中，目标点信息为多个目标点各自的坐标数据，目标点为所述第一检测框中包含的目标物体的目标部位上的关键点；根据每个第一检测框各自对应的目标点信息，对多个第一检测框进行去冗余处理，得到去冗余后处理后的第一检测框。

可选的，当目标物体为人体时，目标部位可以选择人体的头肩部位。如图2所示，目标部位上的关键点为0、1、2、5、14、15、16、17。相应的，目标点信息为上述8个关键点各自的横坐标和纵坐标。

进一步的，根据每个第一检测框各自对应的目标点信息，对多个第一检测框进行去冗余处理，得到去冗余后处理后的第一检测框，可以包括：

根据每个第一检测框各自对应的目标点信息，确定每个第一检测框包含的目标物体上的目标部位对应的第二检测框；基于非极大值抑制方法对第二检测框进行去冗余处理，得到去冗余处理后的第二检测框；将去冗余处理后的第二检测框对应的第一检测框确定为去冗余处理后的第一检测框。

其中，可以根据目标点信息(即目标部位上多个关键点各自的横坐标和纵坐标)确定目标部位的边界，该边界即可作为第二检测框。

具体的：对于每个第一检测框，获取第三横坐标、第四横坐标、第三纵坐标和第四纵坐标；根据第三横坐标、第四横坐标、第三纵坐标和第四纵坐标确定第一检测框包含的目标物体上的目标部位对应的候选检测框；将候选检测框确定为第二检测框。

其中，第三横坐标为第一检测框对应的目标点信息中的最大横坐标，第四横坐标为第一检测框对应的目标点信息中的最小横坐标，第三纵坐标为第一检测框对应的目标点信息中的最大纵坐标，第四纵坐标为第一检测框对应的目标点信息中的最小纵坐标。

示例性的，如图2所示，目标部位上的关键点为0、1、2、5、14、15、16、17。假设8个关键点的坐标数据中，最大横坐标为关键点5的横坐标X₅，最小横坐标为关键点2的横坐标X₂，最大纵坐标为关键点14的纵坐标Y₁₄，最小纵坐标为关键点1的纵坐标Y₁。可以确定出第二检测框21左下顶点P的坐标为(X₂,Y₁)，右上顶点Q的坐标为(X₅,Y₁₄)。即确定出第二检测框的位置。

为了防止检测框内包含的图像不完整的情况发生，可选的，在确定出候选检测框之后，还可以包括：

按照预设比例扩大候选检测框，得到扩大后的候选检测框；将扩大后的候选检测框确定为第一检测框包含的目标物体上的目标部位对应的第二检测框。

示例性的，可以将候选检测框的四条边均扩大n倍。具体操作如下：

其中，W_o为候选检测框的宽，H_o为候选检测框的高，X′_max为扩大后的第三横坐标，X′_min为扩大后的第四横坐标，Y′_max为扩大后的第三纵坐标，Y′_min为扩大后的第四纵坐标。

基于非极大值抑制方法对第二检测框进行去冗余处理的过程包括：

可以按照预设顺序判断每两个第二检测框之间的交并比；当交并比大于预设阈值时，进行过滤。

示例性的，假设一个目标物体对应3个第二检测框a、b、c，预设顺序为a->b->c。那么，先以a为参照，计算a和b之间的交并比，若交并比大于预设阈值，则删除b；计算a和c之间的交并比，若交并比大于预设阈值，则删除c。若b和c均保留了，再以b为参照，计算b和c之间的交并比，若交并比大于预设阈值，则删除c。依次类推，最终剩余的第二检测框即为去冗余处理后的第二检测框。

其中，交并比的计算方式可参见图3，是本申请实施例提供的交并比的示意图。如图3所示，假设第二检测框31左上顶点坐标A＝(x₁，y₁)，右下顶点坐标B＝(x₂，y₂)；第二检测框32的左上点坐标C＝(x₃，y₃)，右下点坐标D＝(x₄，y₄)。则交并比(IoU)的计算方式如下所示：

InterSection＝(x₂-x₃)*(y₂-y₃)；

Area₁＝(x₂-x₁)*(y₂-y₁)；

Area₂＝(x₄-x₃)*(y₄-y₃)；

Union＝Area₁+Area₂-InterSection；

IoU＝InterSection/Union。

在本申请一个实施例中，本申请实施例提供的图像识别方法可以应用于训练好的神经网络模型，该神经网络模型可以包括特征提取子网络和全连接子网络。

其中，特征提取子网络用于执行步骤S103，即提取第一检测框中包含图像的图像特征，获得第一检测框对应的图像特征信息。全连接子网络用于执行步骤S105，即根据第一检测框对应的特征融合信息对第一检测框中包含的目标物体进行识别，得到第一检测框对应的识别结果。

在神经网络模型的训练过程中，可以对神经网络模型进行完全训练，即特征提取子网络和全连接子网络均需要训练。这种训练方式耗时较长、GPU资源耗费量较大。可选的，可以对神经网络模型进行非完全训练，即只训练全连接子网络。

下面介绍神经网络模型的非完全训练方法。参见图4，是本申请实施例提供的模型训练方法的流程示意图。如图4所示，模型训练方法可以包括以下步骤：

S401，获取样本图像。

S402，检测样本图像中的目标物体，获得包含目标物体的第三检测框。

步骤S402与步骤S102相同，具体可参见S102中的描述。

在获得第三检测框之后，还可以进行人工筛查，即人工将错检、误检的第三检测框过滤掉，以避免错误信息对模型训练造成的干扰。

在人工筛查之后，还可以对样本图像进行预处理，包括去噪、滤波等操作，以滤除掉样本图像中的噪声、杂波信息对模型训练造成的干扰。

S403，检测第三检测框中包含的目标物体上的关键点，获得第三检测框对应的关键点信息。

S404，通过特征提取子网络提取第三检测框中包含图像的图像特征，获得第三检测框对应的图像特征信息。

S405，将第三检测框对应的关键点信息和图像特征信息进行信息融合处理，得到第三检测框对应的特征融合信息。

上述步骤S403-S405与步骤S103-S105相同，具体可参见S103-S105中的描述。在此不再赘述。

示例性的，假设关键点信息还包括置信度，那么18个关键点的关键点信息为3×18＝54维的数据。获取到的图像特征信息为RGB信息，为3×M维的数据。将两者进行信息融合，可以得到3×(18+M)维的数据。

S406，根据第三检测框对应的特征融合信息对全连接子网络进行训练，得到训练后的全连接子网络。

优选的，本申请实施例中的神经网络模型可以采用RestNet18网络。

示例性的，参见图5，是本申请实施例提供的图像识别流程示意图。图5中包括训练和预测两部分。

如图5所示，在训练部分，首先进行数据采集，即采集样本图像；然后利用YOLO v3模型检测样本图像中的目标候选框(即第三检测框)；然后人工筛查目标候选框，对筛查后的样本图像进行图像预处理；预处理后的样本图像分为两条支路：一条支路将带有目标候选框的样本图像输入到姿态估计模型(SPPE)中，输出关键点信息，并对关键点信息进行坐标归一化处理；另一条支路将带有目标候选框的样本图像输入到神经网络模型(ResNet18)的特征提取子网络中，输出图像特征信息；然后将关键点信息和图像特征信息进行融合得到特征融合信息；最后将特征融合信息输入到神经网络模型(ResNet18)的全连接子网络中，对全连接子网络进行训练。

在训练完成后，在预测部分，首先利用YOLO v3模型检测待识别图像中的目标候选框(即第一检测框)；然后对待识别图像进行图像预处理；预处理后的待识别图像同样分为两条支路：一条支路将带有目标候选框的待识别图像输入到姿态估计模型(SPPE)中，输出关键点信息，并对关键点信息进行坐标归一化处理；另一条支路将带有目标候选框的待识别图像输入到神经网络模型(ResNet18)的特征提取子网络中，输出图像特征信息；然后将关键点信息和图像特征信息进行融合得到特征融合信息；最后将特征融合信息输入到训练后的神经网络模型(ResNet18)的全连接子网络中进行图像识别。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的图像识别方法，图6是本申请实施例提供的图像识别装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图6，该装置包括：

目标检测单元61，用于检测待识别图像中的目标物体，获得包含目标物体的第一检测框。

关键点检测单元62，用于检测第一检测框中包含的目标物体上的关键点，获得第一检测框对应的关键点信息。

特征提取单元63，用于提取第一检测框中包含图像的图像特征，获得第一检测框对应的图像特征信息

信息融合单元64，用于将第一检测框对应的关键点信息和图像特征信息进行信息融合处理，得到第一检测框对应的特征融合信息。

图像识别单元65，用于根据第一检测框对应的特征融合信息对所述第一检测框中包含的目标物体进行识别，得到第一检测框对应的识别结果。

可选的，关键点检测单元62包括：

坐标获取模块，用于检测第一检测框中包含的目标物体上的关键点，得到多个关键点各自的坐标数据。

归一化处理模块，用于对多个关键点各自的坐标数据分别进行归一化处理，得到多个关键点各自的归一化坐标。

关键点信息获取模块，用于将多个关键点各自的归一化坐标确定为第一检测框对应的关键点信息。

可选的，关键点的坐标数据包括关键点的横坐标和纵坐标；关键点的归一化坐标包括关键点的归一化横坐标和归一化纵坐标。

可选的，归一化处理模块还用于：

获取第一横坐标、第二横坐标、第一纵坐标和第二纵坐标，其中，第一横坐标为多个关键点的坐标数据中的最大横坐标，第二横坐标为多个关键点的坐标数据中的最小横坐标，第一纵坐标为多个关键点的坐标数据中的最大纵坐标，第二纵坐标为多个关键点的坐标数据中的最小纵坐标；根据第一横坐标和第二横坐标计算关键点横向差值；根据第一纵坐标和第二纵坐标计算关键点纵向差值；对于每个关键点，根据关键点的横坐标、第二横坐标和关键点横向差值计算关键点的归一化横坐标，根据关键点的纵坐标、第二纵坐标和关键点纵向差值计算关键点的归一化纵坐标。

可选的，装置6还包括：

目标点信息获取单元66，用于在得到每个第一检测框各自对应的识别结果之后，获取每个第一检测框各自对应的目标点信息，其中，目标点信息为多个目标点各自的坐标数据，目标点为第一检测框中包含的目标物体的目标部位上的关键点。

去冗余单元67，用于根据每个第一检测框各自对应的目标点信息，对多个第一检测框进行去冗余处理，得到去冗余后处理后的第一检测框。

可选的，目标点信息获取单元66还用于：

可选的，目标点的坐标数据包括目标点的横坐标和纵坐标。

可选的，目标点信息获取单元66还用于：

对于每个第一检测框，获取第三横坐标、第四横坐标、第三纵坐标和第四纵坐标，其中，第三横坐标为第一检测框对应的目标点信息中的最大横坐标，第四横坐标为第一检测框对应的目标点信息中的最小横坐标，第三纵坐标为第一检测框对应的目标点信息中的最大纵坐标，第四纵坐标为第一检测框对应的目标点信息中的最小纵坐标；根据第三横坐标、第四横坐标、第三纵坐标和第四纵坐标确定第一检测框包含的目标物体上的目标部位对应的候选检测框；按照预设比例扩大候选检测框，得到扩大后的候选检测框；将扩大后的候选检测框确定为第一检测框包含的目标物体上的目标部位对应的第二检测框。、可选的，装置6应用于预设的神经网络模型，神经网络模型包括特征提取子网络和全连接子网络。

可选的，装置6还包括：

训练单元68，用于获取样本图像；检测样本图像中的目标物体，获得包含目标物体的第三检测框；检测第三检测框中包含的目标物体上的关键点，获得第三检测框对应的关键点信息；通过特征提取子网络提取第三检测框中包含图像的图像特征，获得第三检测框对应的图像特征信息；将第三检测框对应的关键点信息和图像特征信息进行信息融合处理，得到第三检测框对应的特征融合信息；根据第三检测框对应的特征融合信息对全连接子网络进行训练，得到训练后的全连接子网络。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

另外，图6所示的图像识别装置可以是内置于现有的终端设备内的软件单元、硬件单元、或软硬结合的单元，也可以作为独立的挂件集成到所述终端设备中，还可以作为独立的终端设备存在。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图7是本申请实施例提供的终端设备的结构示意图。如图7所示，该实施例的终端设备7包括：至少一个处理器70(图7中仅示出一个)处理器、存储器71以及存储在所述存储器71中并可在所述至少一个处理器70上运行的计算机程序72，所述处理器70执行所述计算机程序72时实现上述任意各个图像识别方法实施例中的步骤。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图7仅仅是终端设备7的举例，并不构成对终端设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，该处理器70还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71在一些实施例中可以是所述终端设备7的内部存储单元，例如终端设备7的硬盘或内存。所述存储器71在另一些实施例中也可以是所述终端设备7的外部存储设备，例如所述终端设备7上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储操作系统、应用程序、引导装载程序(Boot Loader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种图像识别方法，其特征在于，包括：

2.如权利要求1所述的图像识别方法，其特征在于，所述检测所述第一检测框中包含的所述目标物体上的关键点，获得所述第一检测框对应的关键点信息，包括：

3.如权利要求2所述的图像识别方法，其特征在于，关键点的坐标数据包括关键点的横坐标和纵坐标；

获取多个关键点的坐标数据中的最大横坐标、最小横坐标、最大纵坐标和最小纵坐标；

根据所述最大横坐标和所述最小横坐标计算关键点横向差值；

根据所述最大纵坐标和所述最小纵坐标计算关键点纵向差值；

对于每个关键点，根据所述关键点的横坐标、所述最小横坐标和所述关键点横向差值计算所述关键点的归一化横坐标，根据所述关键点的纵坐标、所述最小纵坐标和所述关键点纵向差值计算所述关键点的归一化纵坐标。

4.如权利要求2所述的图像识别方法，其特征在于，若获得包含所述目标物体的多个第一检测框，则在得到每个第一检测框各自对应的识别结果之后，所述方法还包括：

5.如权利要求4所述的图像识别方法，其特征在于，所述根据每个第一检测框各自对应的目标点信息，对所述多个第一检测框进行去冗余处理，得到去冗余处理后的第一检测框，包括：

6.如权利要求5所述的图像识别方法，其特征在于，目标点的坐标数据包括目标点的横坐标和纵坐标；

对于每个第一检测框，获取所述第一检测框对应的目标点信息中的最大横坐标、最小横坐标、最大纵坐标和最小纵坐标；

根据所述最大横坐标、所述最小横坐标、所述最大纵坐标和所述最小纵坐标确定所述第一检测框包含的所述目标物体上的目标部位对应的候选检测框；

7.如权利要求1至6任一项所述的图像识别方法，其特征在于，应用于预设的神经网络模型，所述神经网络模型包括特征提取子网络和全连接子网络；

所述方法还包括：

获取样本图像；

8.一种图像识别装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。