CN110458004B

CN110458004B - 一种目标对象识别方法、装置、设备以及存储介质

Info

Publication number: CN110458004B
Application number: CN201910590171.7A
Authority: CN
Inventors: 许成舜; 施亮; 张骋
Original assignee: Zhejiang Geely Holding Group Co Ltd; Zhejiang Geely Automobile Research Institute Co Ltd
Current assignee: Zhejiang Geely Holding Group Co Ltd; Zhejiang Geely Automobile Research Institute Co Ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2022-12-27
Anticipated expiration: 2039-07-02
Also published as: CN110458004A

Abstract

本申请公开了一种目标对象识别方法、装置、设备及存储介质，所述方法包括：根据检测窗口的尺寸和检测窗口的步长，将第一图片分为多张第一子图片，获取每张第一子图片的梯度特征信息。将梯度特征信息作为图片预识别模型的输入，从图片预识别模型输出多张第一子图片上目标对象的第一对象类型信息。若第一对象类型信息为预设对象类型信息，确定目标对象在第一子图片上的位置信息，确定第一图片上目标对象集合的位置信息集合；获取第一图片的特征平面，将特征平面和位置信息集合作为图片再识别模型的输入，从图片再识别模型输出位于位置信息集合上的目标对象集合的第二对象类型信息，基于初步的目标对象识别结果进行行人再识别过程，可以提高识别率。

Description

一种目标对象识别方法、装置、设备以及存储介质

技术领域

本申请涉及图像识别技术领域，尤其涉及一种目标对象识别方法、装置、设备及存储介质。

背景技术

随着多媒体技术和互联网技术的发展，行人识别也是近年来计算机视觉领域的热门研究对象，在智能交通、寻人、安全方面都有广阔的应用前景。在智能交通方面，为了减少汽车与行人碰撞事故的发生，有效的保护行人安全，国内，国外在制定严格的行人保护法规之外，在汽车的被动安全与主动安全等方面也进行了相关的研究。行人主动防碰撞系统是汽车主动安全系统中的重要组成部扥，该系统能在发现车辆前方的行人处于危险状态时能及时警告驾驶员，避免与其发生碰撞，也能主动采取紧急制动或者转向等措施以避免碰撞事故的发生。

行人主动防碰撞系统包括行人识别系统，行人识别的一种传统识别算法为人工神经网络，它从信息处理角度对人脑神经元网络进行抽象，建立一种简单模型。基于人工神经网络的训练算法为反向传播算法，它使得网络模型经过大量训练样本进行学习的过程能过获得统计规律，从而对未知事件做出推测。人工神经网络优点在于具有较强的非线性映射能力、自学习、自适应能力、泛化能力和一定的容错能力。

然而，人工神经网络也存在以下缺点：在行人识别样本训练时收敛速度慢，且其训练过程为监督过程，而对训练样本的标注既费时又费力，并且行人识别涉及到大量数据的计算和分析，外加受到环境因素的感染，使得传统识别算法的识别率较低，无法在复杂环境下进行有效的识别。

发明内容

本申请实施例提供了一种目标对象识别方法、装置、设备及存储介质，可以在复杂环境下进行有效的识别，提高识别率。

一方面，本申请实施例提供了一种目标对象识别方法，该方法包括：

根据检测窗口的尺寸和检测窗口的步长，将该第一图片分为多张第一子图片；

获取多张第一子图片中每张第一子图片的梯度特征信息；

将梯度特征信息作为图片预识别模型的输入，从图片预识别模型输出多张第一子图片上目标对象的第一对象类型信息；

若第一对象类型信息为预设对象类型信息，确定目标对象在第一子图片上的位置信息，并确定第一图片上目标对象集合的位置信息集合，目标对象集合包括多张第一子图片上的目标对象；

获取第一图片的特征平面，将特征平面和位置信息集合作为图片再识别模型的输入，从图片再识别模型输出位于位置信息集合上的目标对象集合的第二对象类型信息。

另一方面提供了一种目标对象识别装置，该装置包括：

图片处理模块，用于根据检测窗口的尺寸和检测窗口的步长，将该第一图片分为多张第一子图片；

梯度特征信息获取模块，用于获取多张第一子图片中每张第一子图片的梯度特征信息；

图片预识别模块，用于将梯度特征信息作为图片预识别模型的输入，从图片预识别模型输出多张第一子图片上目标对象的第一对象类型信息；

位置信息确定模块，用于若第一对象类型信息为预设对象类型信息，确定目标对象在第一子图片上的位置信息，并确定第一图片上目标对象集合的位置信息集合；目标对象集合包括多张第一子图片上的目标对象；

图片再识别模块，用于获取第一图片的特征平面，将特征平面和位置信息集合作为图片再识别模型的输入，从图片再识别模型输出位于位置信息集合上的目标对象集合的第二对象类型信息。

另一方面提供了一种目标对象识别设备，该设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上述的目标对象识别方法。

另一方面提供了一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上述的目标对象识别方法。

本申请实施例提供的目标对象识别方法、装置、设备及存储介质，具有如下技术效果：

根据检测窗口的尺寸和检测窗口的步长，将第一图片分为多张第一子图片，获取多张第一子图片中每张第一子图片的梯度特征信息。将梯度特征信息作为图片预识别模型的输入，从图片预识别模型输出多张第一子图片上目标对象的第一对象类型信息，从而得到初步的目标对象识别结果。若第一对象类型信息为预设对象类型信息，确定目标对象在第一子图片上的位置信息，并确定第一图片上目标对象集合的位置信息集合；目标对象集合包括多张第一子图片上的目标对象；获取第一图片的特征平面，将特征平面和位置信息集合作为图片再识别模型的输入，从图片再识别模型输出位于位置信息集合上的目标对象集合的第二对象类型信息，如此，基于初步的目标对象识别结果进行行人再识别过程，以此可以提高识别率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种应用环境的示意图；

图2是本申请实施例提供的一种目标对象识别方法的流程示意图；

图3是本申请实施例提供的一种获取第一子图片的梯度特征信息的方法的流程示意图；

图4是本申请实施例提供的一种第一子图片的示意图；

图5是本申请实施例提供的一种混合层的结构示意图；

图6是本申请实施例提供的一种目标对象识别装置的结构示意图；

图7是本申请实施例提供的一种目标对象识别方法的服务器的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本申请实施例提供的一种应用环境的示意图，包括图片处理模块101、梯度特征信息获取模块102、图片预识别模型103、位置信息确定模块104和图片再识别模型105。由上述5个模块组成的整体获取第一图片后，依次经过上述5个模块输出第一图片的目标对象集合的第二对象类型信息。

第一图片输入图片处理模块101，图片处理模块101根据检测窗口的尺寸和检测窗口的步长，将第一图片分为多张第一子图片，并输出该多张第一子图片至梯度特征信息获取模块102。梯度特征信息获取模块102获取多张第一子图片中每张第一子图片的梯度特征信息，并将该第一子图片的梯度特征信息输入图片预识别模型103。图片预识别模型103根据第一子图片的梯度特征信息确定多张第一子图片上目标对象的第一对象类型信息并传输至位置信息确定模块104。位置信息确定模块104接收该第一对象类型信息，并判断该第一对象类型信息是否为预设对象类型信息，若是，将第一子图片拼接成第一图片，根据一个或者多个第一子图片上的目标对象的位置信息确定第一图片上的目标对象集合的位置信息集合。图片再识别模型105接收从位置信息确定模块104输出的第一图片和位置信息集合，确定第一图片的特征平面，输出位于该位置信息集合上的目标对象集合的第二对象类型信息。

本申请实施例中，图片处理模块101、梯度特征信息获取模块102、图片预识别模型103、位置信息确定模块104和图片再识别模型105可以被设置在同一个设备中，比如移动终端、计算机终端、服务器或者类似的运算装置；可选的，图片处理模块101、梯度特征信息获取模块102、图片预识别模型103、位置信息确定模块104和图片再识别模型105可以被设置在多个设备中，该多个设备处于一个系统中；可选的，图片处理模块101、梯度特征信息获取模块102、图片预识别模型103、位置信息确定模块104和图片再识别模型105可以被设置在一个平台上。因此，本申请实施例的执行主体可以是移动终端、计算机终端、服务器或者类似的运算装置；可以是某个系统，还可以是某个平台。

本申请实施例中，图片处理模块101、梯度特征信息获取模块102、图片预识别模型103、位置信息确定模块104和图片再识别模型105之间可以通过有线连接，也可以通过无线连接。

以下介绍本申请一种目标对象识别方法的具体实施例，图2是本申请实施例提供的一种目标对象识别方法的流程示意图，本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，该方法可以包括：

S201：根据检测窗口的尺寸和检测窗口的步长，将第一图片分为多张第一子图片。

本申请实施例中，第一图片可以是从网上的图片库中下载得来的图片，也可以是车辆的摄像头录制的视屏中截取下来的图片，还可以是其他途径得到的图片。

一种可选的实施方式中，可以对上述的第一图片进行图片预处理，将预处理之后得到的第一图片根据检测窗口的尺寸和检测窗口的步长，分成多张第一子图片。图片预处理包括：尺寸变化，灰度化处理，高斯滤波处理和/或伽马校正等。本申请实施例中，可以选择上述的一种或者多种图片预处理方法结合对图片进行预处理。

尺寸变化是指将图片的分辨率由原有的分辨率经过缩放等方式变为预设分辨率。举个例子，第一图片的原分辨率为1280*720，其中，分辨率1280*720是指第一图片的宽为1280个像素，高为720个像素。假设预设分辨率为640*360，则可以通过隔列抽取像素的方法，将1280个像素的宽变为640个像素的宽，同样的，通过隔行抽取像素的方法，将720个像素的高变为360个像素的高。

灰度化处理是将彩色图转化成灰度图的过程。一般的，彩色图中每个像素的颜色是由R、G、B三个分量决定，而每个分量的取值范围为0-255。灰度图就是将图片中像素的R、G、B三个分量值设置为同一个值的图片。

高斯滤波处理是指对整个图片进行加权平均的过程，以减少白噪声对图片边缘信息的感染。具体的高斯滤波过程为用一个模板扫描图片中的每一个像素，用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值。

伽马校正是指对图片的伽马曲线进行编辑，以对图片进行非线性色调编辑的方法，检出图片信号中的深色部分和浅色部分，并使得两者比例增大，削弱光照不均对图片的影响，以增强图片中灰度较暗区域的亮度，或者减弱图片中灰度较亮区域的亮度。

本申请实施例中，为了简化后续的算法实现过程，下面提供一种可选的将第一图片分成多张第一子图片的实施方式。基于上述例子中进行过图片预处理后得到的分辨率为640*360的第一图片继续阐述，假设检测窗口为32*64，检测窗口的步长为20个像素，检测窗口的尺寸为宽32个像素，高64个像素，检测窗口的步长用于检测窗口在该第一图片上每向下或者向右移动20个像素就可以得到一张新的第一子图片。可选的，检测窗口的尺寸和步长可以根据实际需求设置。

一种可选的实施方式中，为了可以使检测窗口可以对第一图片遍历完整，可以对该第一图片进行像素填补。比如在640个像素宽的两边各添6个像素，在360个像素高的两边各添2个像素，得到分辨率为652*364的第一图片。将检测窗口的左上角对准该第一图片的左上角，检测窗口中包括的第一图片的部分就是第1张第一子图片，该第一子图片的像素包括第一图片的第1-32列，第1-64行像素，获取第1张第一子图片之后，将检测窗口沿着第一图片往右移20个像素获取第2张第一子图片，该第一子图片的像素包括第一图片第21-52列，第1-64行像素，以此类推……可以在1-64行对应的行区域得到(652-32)/20+1＝32张第一子图片。将该检测窗口沿着第一图片往下移20个像素获取新的第一子图片，该第一子图片的像素包括第一图片第621-652列，第21-84行像素。随后将检测窗口沿着第一图片往左移20个像素获取新的第一子图片，该第一子图片的像素包括第一图片第601-632列，第21-84行像素，以此类推……可以在一个列区域内(比如第1-32列)得到(364-64)/20+1＝16张第一子图片。因此，由第一图片最终得到16*32＝512张第一子图片，每张第一子图片的分辨率为32*64，而每张第一子图片都可以和其他第一子图片有重叠区域。

S203：获取多张第一子图片中每张第一子图片的梯度特征信息。

以下介绍本申请实施例中一种获取第一子图片的梯度特征信息的具体实施例，图3是本申请实施例提供的一种获取第一子图片的梯度特征信息的方法的流程示意图，该方法可以包括：

S301：根据第一区域的尺寸和该第一区域的步长，将第一子图片分为多个第一区域；其中，每个第一区域包括多个第二区域。

本申请实施例中，基于上述分辨率为32*64的第一子图片继续阐述获取梯度特征信息的方法，图4为本申请实施例提供的第一子图片的示意图，包括第一子图片401，第一区域402和第二区域403。假设图中的每个小格代表一个像素，则图中包含8*8个像素的区域就是第一子图片中的1个第一区域402，包含4*4个像素的区域就是第一区域中的1个第二区域403，第一区域402包括4个第二区域403。可选的，第一区域包含的第二区域的个数和第二区域包含的像素的个数可以根据实际需求设置。

第一区域的步长为4个像素，图中4021表示的是第一区域根据步长向右移动4个像素获得新的第一区域，图中4022表示的是第一区域根据步长向下移动4个像素获得新的第一区域。根据上文，在第一子图片的行区域，可以获得(32-8)/4+1＝7个第一区域，在第一子图片的列区域，可以获得(64-8)/4+1＝15。由此，由第一子图片最终得到15*7＝105个第一区域。

S303：根据每个第二区域内包含的每个像素的灰度值确定像素的梯度幅值和梯度方向，以及根据梯度方向和梯度幅值确定第二区域的梯度直方图。

本申请实施例中，可以用水平方向梯度和垂直方向梯度确定像素的梯度幅值和梯度方向。一种可选的实施方式中，可以用当前像素点的左右两个像素点的灰度值确定当前像素的水平方向梯度，可以用当前像素的上下两个像素点的灰度值确定当前像素的垂直方向梯度。

水平方向梯度可以用如下的公式(1)表示：

G_h(x,y)＝f(x+1,y)-f(x-1,y)……公式(1)

其中，公式(1)中的f(x-1,y)是当前像素点的左边像素点的灰度值，f(x+1,y)是当前像素点的右边像素点的灰度值。

垂直方向梯度可以用如下的公式(2)表示：

G_v(x,y)＝f(x,y+1)-f(x,y-1)……公式(2)

其中，公式(2)中的f(x,y-1)是当前像素点的上边像素点的灰度值，f(x,y+1)是当前像素点的下边像素点的灰度值。

随后，用水平方向梯度和垂直方向梯度确定像素的梯度幅值和梯度方向，梯度幅值可以用如下的公式(3)表示：

梯度方向可以用如下的公式(4)表示：

θ(x,y)＝arctan(G_v(x,y)/G_h(x,y))……公式(4)

如此，可以获得第二区域内4*4个像素中每个像素的梯度幅值和梯度方向。

本申请实施例中，根据获得的第二区域内4*4个像素中每个像素的梯度幅值和梯度方向确定第二区域的梯度直方图。具体的，16个像素对应16个梯度幅值和16个梯度方向，这32个数可以用9个bin的梯度直方图表示。可选的，9个bin对应可以9个角度：0度，20度，40度，60度，80度，100度，120度，140度和160度，180度就是0度。假设16个梯度幅值为

16个梯度方向为

下面通过表格的形式来阐述第二区域的9bin梯度直方图，表1为第二区域的9bin梯度直方图对应格。其中，表1的第一行为bin对应的9个角度，表1的第二行为不同角度下的梯度幅值。下面介绍一种可选的梯度幅值的确定方式：第一个梯度方向80度对应的梯度幅值为2，将梯度幅值2置于bin为80度的梯度幅值中；第二个梯度方向35度对应的梯度幅值为3，35度位于20度和40度之间，且与40度有5度的差值，与20度有15度的差值，将3*0.75＝2.25置于40度的梯度幅值中，将3*0.25＝0.75置于20度的梯度幅值中……第四个梯度方向10度对应的梯度幅值为4，10度位于0度和20度的中间，将4*0.5＝2置于0度的梯度幅值中，将4*0.5＝2置于20度的梯度幅值中……第八个梯度方向180度对应的梯度幅值为13，由于180度等于0度，将梯度幅值13置于bin为0度的梯度幅值中……如此，可以将16个梯度方向对应的梯度幅值归置与9个bin下，得到下面呈现的表1。

表1：第二区域的9bin梯度直方图对应表

bin	0度	20度	40度	60度	80度	100度	120度	140度	160度
										幅值	277.5	22	34.25	30.5	101.75	2.75	6	18	73.25

本申请实施例中，表格可以用梯度直方图表示，用来表示该第二区域的9维梯度特征信息。其中，第一区域的9维梯度特征信息包括9个梯度特征向量。

S305：根据第一区域包含的每个第二区域的梯度直方图确定第一区域的梯度特征信息。

本申请实施例中，可以按照上述确定第二区域的梯度直方图的方法确定第一区域内包含的其他第二区域的梯度直方图，基于上述图4所示的示意图，可以获取4个第二区域的梯度直方图，也就是获取第一区域的36维梯度特征信息。

一种可选的实施方式中，为了减弱由于局部光照的变化，以及前景背景对比度的变化，导致的梯度强度的变化范围非常大对于第一区域的梯度特征信息在后续计算过程中的不利影响，可以对第一区域的梯度特征信息进行归一化处理，得到归一化之后的第一区域的梯度特征信息。其中，可以根据第一区域的36维梯度特征信息包括的36个梯度特征向量确定归一量，再将第一区域的36维梯度特征信息包括的36个梯度特征向量除以该归一量得到归一化后的第一区域的梯度特征信息。

本申请实施例可以由如下的公式(5)确定归一量：

其中，

为梯度特征向量，α为常数。

S307：根据多个第一区域的梯度特征信息确定出第一子图片的梯度特征信息。

本申请实施例中，由于第一子图片是由105个第一区域组合而成，因此，可以根据上述确定第一区域的梯度特征信息的方法确定每个第一区域的梯度特征信息，如此，可以得到第一子图片的梯度特征信息，即36*105＝3780维梯度特征向量。

S205：将梯度特征信息作为图片预识别模型的输入，从图片预识别模型输出多张第一子图片上目标对象的第一对象类型信息。

本申请实施例中，目标对象可以是第一子图片上的事物，第一对象类型信息可以是该事物所属的类型。比如，该第一子图片上的目标对象的第一对象类型信息可以是人类，车辆，动物或者植物。由于第一子图片可以是第一图片的一部分，因此，该第一子图片上的目标对象可能是人类的上半身，动物的四肢或者车辆的车头。一种可选的实施方式中，完整的目标对象的第一对象类型信息和部分的目标对象的第一对象类型信息是一致的。

下面介绍一种可选的图片预识别模型的确定方式，获取多张第二子图片的梯度特征信息，确定第二子图片上目标对象的第一对象类型信息，将第二子图片的梯度特征信息作为第一输入，将第二子图片上目标对象的第一对象类型信息作为第一输出，进行模型训练，获得图片预识别模型。该图片预识别模型可以是线性分类器SVM，其中的核函数可以是线性核函数。

本申请实施例中，第二图片可以是从网上的图片库中下载得来的图片，也可以是车辆的摄像头录制的视屏中截取下来的图片，还可以是其他途径得到的图片。举个例子，第二图片是从车辆摄像头录制的帧率为30针的视屏截取而来，每10帧截取一张，每秒截取3张第二图片，将截取获取的第二图片归置于第二图片集合。第二图片集合中第二图片上目标对象的第一对象类型信息可以包括各种类型信息。

按照上述获取第一子图片的方式，根据检测窗口的尺寸和步长将第二图片集合中的每张第二图片分成多个第二子图片。基于上述确定第一子图片的梯度特征信息的方法确定每张第二子图片的梯度特征信息。并且确定每张第二子图片上的目标对象的第一对象类型信息，将第二子图片的梯度特征信息作为第一输入，将第二子图片上目标对象的第一对象类型信息作为第一输出，进行模型训练，获得图片预识别模型。

可选的，在将第二图片分为第二子图片之前，还可以对第二图片进行尺度缩放，缩放因子为1.13，缩放层数为6。则缩放的第一层尺寸为566*318，第二层尺寸为500*281，第三层尺寸为442*248，第四层尺寸为391*219，第五层尺寸为346*193，第六层尺寸为306*170。如此，可以减少第二图片的细节，扩充第二图片集合中的图片。

一种可选的实施方式中，第二图片集合中的一部分第二图片可以用来进行图片预识别模型的训练，得到图片预识别模型。另一部分第二图片可以用来对该图片预识别模型验证和测试，若该图片预识别模型的识别率达到预设的要求，比如95％，则该图片预识别模型可以进行商用或者其他运用，若不能达到要求，则可以继续基于图片库或者视频获取新的第二图片，加入第二图片集合。对该图片预识别模型进行训练，直到该图片预识别模型的识别率达到预设的要求。

该图片预识别模型对第一子图片进行初步的识别，确定该第一子图片上目标对象的第一目标对象类型。然而，第一目标对象类型可能并不准确，比如，第一子图片上的目标对象为坐在车上的人类，然而识别的第一目标对象类型车辆，并没有识别出人类，则可以根据预设对象类型信息的设定继续下一步的识别，即步骤S207的图片再识别模型的识别，以增加图片识别的准确性。

S207：若第一对象类型信息为预设对象类型信息，确定目标对象在第一子图片上的位置信息，并确定第一图片上目标对象集合的位置信息集合，目标对象集合包括多张第一子图片上的目标对象。

基于上述图片预识别模型识别出现误差的例子，假设预设对象类型信息是人类和车辆，则该第一子图片的目标对象的第一目标对象类型为预设对象类型信息，则可以确定目标对象在第一子图片上的位置信息，确定位置信息的方式有很多种，下面介绍两种可选的实施方式。一种可选的实施方式中，位置信息可以用像素点集合来表示，比如{A11，A12，A21，A22}，表示目标对象在第一行第一列的像素点，第二行第一列的像素点，第一行第二列的像素点和第二行第二列的像素点上。另一种可选的实施方式中，位置信息可以表示为以某个像素点为起点，宽若干个像素点，高若干个像素点的区域，比如{A11，5*5}，表示以第一行第一列像素点为起点，宽5个像素点，高5个像素点的区域。

本申请实施例中，第一图片对应的多张第一子图片中，只要存在有一张第一子图片上的目标对象的第一目标对象类型为预设对象类型信息，则可以确定该目标对象对应的目标对象集合在第一图片上的位置信息集合。

S209：获取第一图片的特征平面，将特征平面和位置信息集合作为图片再识别模型的输入，从图片再识别模型输出位于位置信息集合上的目标对象集合的第二对象类型信息。

本申请实施例中，第一图片的特征平面可以由第一图片调整尺寸获取，基于上述第一图片640*360的分辨率，可以通过尺寸变化的方式获取分辨率为224*224的特征平面。该平面特征的尺寸不是固定的，可以根据实际需求确定。

上述的图片再识别模型可以是卷积神经网络模型，该卷积审核网络模型可以包括输入层、2个卷积层、4个下采样层、9个混合层、1个最大池化层、1个全连接层和输出层。其中输出层获取该224*224的特征平面，依次输入卷积层、下采样层、混合层、最大池化层、全连接层和输出层中，获取位于位置信息集合上的目标对象集合的第二对象类型信息。其中，9个混合层中的每个混合层包括4个支路，针对一个混合层：输入混合层的第一特征平面分别与混合层的4个支路中的每个支路的卷积核和/或池化窗口进行计算得到每个支路对应的第二子特征平面；根据第二子特征平面确定输出混合层的第二特征平面。输出层获取全连接层输出的第三特征平面，确定第三特征平面与第二对象类型信息集合中每个第二对象类型信息的匹配程度值，将最大匹配程度值对应的第二对象类型信息确定为位置信息集合上的目标对象集合的第二对象类型信息。

下面介绍一种可选的图片再识别模型的结构，依次为输入层、第一卷积层、第一下采样层、第二卷积层、第二下采样层、第一混合层、第二混合层、第三下采样层、第三混合层、第四混合层、第五混合层、第六混合层、第七混合层、第四下采样层、第八混合层、第九混合层、最大池化层、全连接层和输出层。一个具体的例子中：

输入层的作用可以是传输作用，获取该224*224的特征平面，传输给第一卷积层。

第一卷积层接收该224*224的特征平面，该卷积层包括的64个5*5的卷积核对其进行卷积操作后得到64个112*112的特征平面。可选的，在对224*224的特征平面进行卷积操作之前，还有对该224*224的特征平面进行边缘补充，随后以2个像素的滑动步长对其进行卷积操作。

第一下采样层接收64个112*112的特征平面，通过该池化窗口进行最大池化处理或者平均池化处理后，得到64个56*56的特征平面，该下采样层包含2*2的池化窗口。

第二卷积层接收该64个56*56的特征平面，该卷积层包括的192个5*5的卷积核对其进行卷积操作后得到并输出192个56*56的特征平面。

第二下采样层接收192个56*56的特征平面，通过该池化窗口进行最大池化处理或者平均池化处理后，得到并输出192个28*28的特征平面。该下采样层包含2*2的池化窗口。

第一混合层可以由四条支路组成，通过第一混合层的四条支路做卷积操作或者最大池化操作，得到输出的特征平面。图5为本申请实施例中一种混合层的结构示意图，包括四个支路。第一支路包括64个1*1的卷积核，对192个28*28的特征平面进行卷积操作和ReLU非线性操作后得到64个28*28的特征平面。第二支路包括2个子层，第一子层包括96个1*1的卷积核，对192个28*28的特征平面进行卷积操作和ReLU非线性操作后得到96个28*28的特征平面，第二子层包括128个3*3的卷积核，对96个28*28的特征平面进行卷积操作后得到128个28*28的特征平面。第三支路包括2个子层，第一子层包括16个1*1的卷积核，对192个28*28的特征平面进行卷积操作和ReLU非线性操作后得到16个28*28的特征平面，第二子层包括32个5*5的卷积核，对16个28*28的特征平面进行卷积操作后得到32个28*28的特征平面。第四支路包括2个子层，第一子层包括128个3*3的池化窗口，对192个28*28的特征平面进行最大池化操作后得到128个28*28的特征平面，第二子层包括32个1*1的卷积核，对128个28*28的特征平面进行卷积操作后得到32个28*28的特征平面。将四个支路输出的特征平面个数相加得到64+128+32+32＝256个28*28的特征平面，输出该256个28*28的特征平面。

第二混合层可以由四条支路组成，具体结构可以参考上述的第一混合层，只是每个支路的卷积核和池化窗口可以存在不同，对输入的256个28*28的特征平面进行操作后，将该混合层的四个支路输出的特征平面个数相加得到480个28*28的特征平面。

第三下采样层接收480个28*28的特征平面，该下采样层包含2*2的池化窗口，通过该池化窗口进行最大池化处理或者平均池化处理后，得到480个14*14的特征平面。

第三混合层可以由四条支路组成，具体结构可以参考上述的第一混合层，只是每个支路的卷积核和池化窗口可以存在不同，对输入的480个14*14的特征平面进行操作后，将该混合层的四个支路输出的特征平面个数相加得到512个14*14的特征平面。

第四混合层可以由四条支路组成，具体结构可以参考上述的第一混合层，只是每个支路的卷积核和池化窗口可以存在不同，对输入的512个14*14的特征平面进行操作后，将该混合层的四个支路输出的特征平面个数相加得到512个14*14的特征平面。

第五混合层可以由四条支路组成，具体结构可以参考上述的第一混合层，只是每个支路的卷积核和池化窗口可以存在不同，对输入的512个14*14的特征平面进行操作后，将该混合层的四个支路输出的特征平面个数相加得到512个14*14的特征平面。

第六混合层可以由四条支路组成，具体结构可以参考上述的第一混合层，只是每个支路的卷积核和池化窗口可以存在不同，对输入的512个14*14的特征平面进行操作后，将该混合层的四个支路输出的特征平面个数相加得到528个14*14的特征平面。

第七混合层可以由四条支路组成，具体结构可以参考上述的第一混合层，只是每个支路的卷积核和池化窗口可以存在不同，对输入的528个14*14的特征平面进行操作后，将该混合层的四个支路输出的特征平面个数相加得到832个14*14的特征平面。

第四下采样层接收832个14*14的特征平面，该下采样层包含2*2的池化窗口，通过该池化窗口进行最大池化处理或者平均池化处理后，得到832个7*7的特征平面。

第八混合层可以由四条支路组成，具体结构可以参考上述的第一混合层，只是每个支路的卷积核和池化窗口可以存在不同，对输入的832个7*7的的特征平面进行操作后，将该混合层的四个支路输出的特征平面个数相加得到832个7*7的特征平面。

第九混合层可以由四条支路组成，具体结构可以参考上述的第一混合层，只是每个支路的卷积核和池化窗口可以存在不同，对输入的832个7*7的特征平面进行操作后，将该混合层的四个支路输出的特征平面个数相加得到1024个7*7的特征平面。

第大池化层接收1024个7*7的特征平面，该下采样层包含7*7的池化窗口，通过该池化窗口进行最大池化处理后，得到并输出1024个1*1的特征平面。

全连接层1024个1*1的特征平面，经过处理后，得到2个1*1的特征平面。

输出层获取2个1*1的特征平面，输出层包括Softmax分类模块，该分类模块确定该特征平面与第二对象类型信息集合中每个第二对象类型信息的匹配程度值，将最大匹配程度值对应的第二对象类型信息确定为第一图片位置信息集合上的目标对象集合的第二对象类型信息。

可选的，在对每一层输入的特征平面进行卷积操作或者池化操作之前，还有对该特征平面进行边缘补充，随后以若干个像素的滑动步长对其进行卷积操作或者池化操作。

本申请实施例中，可以通过一张表格直观的表示该图片再识别模型的结构。表2为本申请实施例的一种图片再识别模型结构的对应表，表2的第一行标识模型的结构，该层包含的卷积核或者池化窗口以及该层的输出。

表2：图片再识别模型结构的对应表

图片再识别模型可以输出位于该位置信息集合上的目标对象集合的第二对象类型信息。第二类对象类型信息可以是人类，车辆，动物或者植物，具体的，还可以是行走的人类，跑步的人类，驾驶状态下的人类等等；车辆可以是自行车，汽车，卡车，摩托车等等。假设图片预识别模型输出的第一子图片上目标对象的第一对象类型信息为车辆，预设对象类型信息为车辆和人类，则确定第一子图片对应的第一图片上目标对象集合的位置信息集合，将该第一图片的特征平面和位置信息集合输入图片再识别模型，假设输出结果为驾驶中的人类，则不仅避免了图片预识别模型的识别错误，进行有效识别，还更加细化了识别结果，对未来商用有重要意义。

下面介绍一种可选的图片再识别模型的确定方式，获取多张第三图片的特征平面，获取第三图片上目标对象集合的位置信息集合，确定第三图片上目标对象集合的第二对象类型信息，将第三图片的特征平面和第三图片上目标对象集合的位置信息集合作为第二输入，将第三图片上目标对象集合的第二对象类型信息作为第二输出，进行模型训练，获得图片再识别模型。

本申请实施例中，第三图片可以是从网上的图片库中下载得来的图片，也可以是车辆的摄像头录制的视屏中截取下来的图片，还可以是其他途径得到的图片。举个例子，第三图片是从车辆摄像头录制的帧率为30针的视屏截取而来，每10帧截取一张，每秒截取3张第三图片，将截取获取的第三图片归置于第三图片集合。

本申请实施例中，第三图片的特征平面可以由第三图片调整尺寸获得224*224的特征平面。确定第三图片上目标对象集合的位置信息集合的方式可以包括以下两种：一种可选的实施方式中，位置信息集合可以用像素点集合来表示，比如{A11，A12，A21，A22}，表示目标对象集合在第一行第一列的像素点，第二行第一列的像素点，第一行第二列的像素点和第二行第二列的像素点上。另一种可选的实施方式中，位置信息集合可以表示为某个像素点为起点，宽若干个像素点，高若干个像素点的区域，比如{A11，5*5}，表示以第一行第一列像素点为起点，宽5个像素点，高5个像素点的区域。

本申请实施例还提供了一种目标对象识别装置，图6是本申请实施例提供的一种目标对象识别装置的结构示意图，如图6所示，该装置包括：

图片处理模块601用于根据检测窗口的尺寸和检测窗口的步长，将第一图片分为多张第一子图片；

梯度特征信息获取模块602用于获取多张第一子图片中每张第一子图片的梯度特征信息；

图片预识别模块603用于将梯度特征信息作为图片预识别模型的输入，从图片预识别模型输出多张第一子图片上目标对象的第一对象类型信息；

位置信息确定模块604用于若第一对象类型信息为预设对象类型信息，确定目标对象在第一子图片上的位置信息，并确定第一图片上目标对象集合的位置信息集合；目标对象集合包括多张第一子图片上的目标对象；

图片再识别模块605用于获取第一图片的特征平面，将特征平面和位置信息集合作为图片再识别模型的输入，从图片再识别模型输出位于位置信息集合上的目标对象集合的第二对象类型信息。

在一种可选的实施方式中，该装置还包括：

梯度特征信息获取模块用于根据第一区域的尺寸和第一区域的步长，将第一子图片分为多个第一区域；其中，每个第一区域包括多个第二区域；根据每个第二区域内包含的每个像素的灰度值确定像素的梯度幅值和梯度方向，以及根据梯度方向和梯度幅值确定第二区域的梯度直方图；

根据第一区域包含的每个第二区域的梯度直方图确定第一区域的梯度特征信息；以及根据多个第一区域的梯度特征信息确定出第一子图片的梯度特征信息。

在一种可选的实施方式中，该装置还包括：

图片预识别模块用于获取多张第二子图片的梯度特征信息；确定第二子图片上目标对象的第一对象类型信息；将第二子图片的梯度特征信息作为第一输入，将第二子图片上目标对象的第一对象类型信息作为第一输出，进行模型训练，获得图片预识别模型。

在一种可选的实施方式中，该装置还包括：

图片再识别模块包括输入层、2个卷积层、4个下采样层、9个混合层、1个最大池化层、1个全连接层和输出层。

在一种可选的实施方式中，该装置还包括：

图片再识别模块包括的9个混合层中的每个混合层包括4个支路；针对一个混合层：输入混合层的第一特征平面分别与混合层的4个支路中的每个支路的卷积核和/或池化窗口进行计算得到每个支路对应的第二子特征平面；根据第二子特征平面确定输出混合层的第二特征平面。

在一种可选的实施方式中，该装置还包括：

图片再识别模块用于获取全连接层输出的第三特征平面；使用输出层确定第三特征平面与第二对象类型信息集合中每个第二对象类型信息的匹配程度值，将最大匹配程度值对应的第二对象类型信息确定为位置信息集合上的目标对象集合的第二对象类型信息。

在一种可选的实施方式中，该装置还包括：

图片再识别模块用于获取多张第三图片的特征平面；获取第三图片上目标对象集合的位置信息集合；确定第三图片上目标对象集合的第二对象类型信息；将第三图片的特征平面和第三图片上目标对象集合的位置信息集合作为第二输入，将第三图片上目标对象集合的第二对象类型信息作为第二输出，进行模型训练，获得图片再识别模型。

该装置实施例中的装置与方法实施例基于同样地申请构思。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图7是本申请实施例提供的一种目标对象识别方法的服务器的硬件结构框图。如图7所示，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)710(处理器710可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器730，一个或一个以上存储应用程序723或数据722的存储介质720(例如一个或一个以上海量存储设备)。其中，存储器730和存储介质720可以是短暂存储或持久存储。存储在存储介质720的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器710可以设置为与存储介质720通信，在服务器700上执行存储介质720中的一系列指令操作。服务器700还可以包括一个或一个以上电源760，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口740，和/或，一个或一个以上操作系统721，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口740可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器700的通信供应商提供的无线网络。在一个实例中，输入输出接口740包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口740可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图7所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器700还可包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。

本申请的实施例还提供了一种目标对象识别设备，设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现目标对象识别方法。

本申请的实施例还提供了一种存储介质，存储介质可设置于服务器之中以保存用于实现方法实施例中一种目标对象识别方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的目标对象识别方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

由上述本申请提供的目标对象识别方法、装置、设备及存储介质的实施例可见，本申请中根据检测窗口的尺寸和检测窗口的步长，将第一图片分为多张第一子图片，获取每张第一子图片的梯度特征信息。将梯度特征信息作为图片预识别模型的输入，从图片预识别模型输出多张第一子图片上目标对象的第一对象类型信息。若第一对象类型信息为预设对象类型信息，确定目标对象在第一子图片上的位置信息，确定第一图片上目标对象集合的位置信息集合；获取第一图片的特征平面，将特征平面和位置信息集合作为图片再识别模型的输入，从图片再识别模型输出位于位置信息集合上的目标对象集合的第二对象类型信息，基于初步的目标对象识别结果进行行人再识别过程，以此可以提高识别率。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种目标对象识别方法，其特征在于，包括:

根据检测窗口的尺寸和所述检测窗口的步长，将像素填补后的第一图片分为多张第一子图片；

获取所述多张第一子图片中每张第一子图片的梯度特征信息；

将所述梯度特征信息作为图片预识别模型的输入，从所述图片预识别模型输出所述多张第一子图片上目标对象的第一对象类型信息；

若所述第一对象类型信息为预设对象类型信息，确定所述目标对象在所述第一子图片上的位置信息，并根据一个或多个第一子图片上的目标对象的位置信息确定所述第一图片上目标对象集合的位置信息集合；所述目标对象集合包括所述多张第一子图片上的目标对象；

获取所述第一图片的特征平面，将所述特征平面和所述位置信息集合作为图片再识别模型的输入，从所述图片再识别模型输出位于所述位置信息集合上的目标对象集合的第二对象类型信息。

2.根据权利要求1所述的方法，其特征在于，所述获取所述多张第一子图片中每张第一子图片的梯度特征信息，包括：

根据第一区域的尺寸和所述第一区域的步长，将所述第一子图片分为多个第一区域；其中，每个第一区域包括多个第二区域；

根据所述每个第二区域内包含的每个像素的灰度值确定所述像素的梯度幅值和梯度方向，以及根据所述梯度方向和梯度幅值确定所述第二区域的梯度直方图；

根据所述第一区域包含的每个第二区域的梯度直方图确定所述第一区域的梯度特征信息；

以及根据所述多个第一区域的梯度特征信息确定出所述第一子图片的梯度特征信息。

3.根据权利要求2所述的方法，其特征在于，所述图片预识别模型采用下述方式确定：

获取多张第二子图片的梯度特征信息；

确定所述第二子图片上目标对象的第一对象类型信息；

将所述第二子图片的梯度特征信息作为第一输入，将所述第二子图片上目标对象的第一对象类型信息作为第一输出，进行模型训练，获得所述图片预识别模型。

4.根据权利要求1所述的方法，其特征在于，所述图片再识别模型包括：

输入层、2个卷积层、4个下采样层、9个混合层、1个最大池化层、1个全连接层和输出层。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

所述9个混合层中的每个混合层包括4个支路；

针对一个混合层：输入所述混合层的第一特征平面分别与所述混合层的4个支路中的每个支路的卷积核和/或池化窗口进行计算得到所述每个支路对应的第二子特征平面；

根据所述第二子特征平面确定输出所述混合层的第二特征平面。

6.根据权利要求4所述的方法，其特征在于，所述从所述图片再识别模型输出位于所述位置信息集合上的目标对象集合的第二对象类型信息，包括：

获取所述全连接层输出的第三特征平面；

使用所述输出层确定所述第三特征平面与第二对象类型信息集合中每个第二对象类型信息的匹配程度值，将最大匹配程度值对应的第二对象类型信息确定为所述位置信息集合上的目标对象集合的第二对象类型信息。

7.根据权利要求1所述的方法，其特征在于，所述图片再识别模型采用下述方式确定：

获取多张第三图片的特征平面；

获取所述第三图片上目标对象集合的位置信息集合；

确定所述第三图片上目标对象集合的第二对象类型信息；

将所述第三图片的特征平面和所述第三图片上目标对象集合的位置信息集合作为第二输入，将所述第三图片上目标对象集合的第二对象类型信息作为第二输出，进行模型训练，获得所述图片再识别模型。

8.一种目标对象识别装置，其特征在于，包括：

图片处理模块，用于根据检测窗口的尺寸和所述检测窗口的步长，将像素填补后的第一图片分为多张第一子图片；

梯度特征信息获取模块，用于获取所述多张第一子图片中每张第一子图片的梯度特征信息；

图片预识别模块，用于将所述梯度特征信息作为图片预识别模型的输入，从所述图片预识别模型输出所述多张第一子图片上目标对象的第一对象类型信息；

位置信息确定模块，用于若所述第一对象类型信息为预设对象类型信息，确定所述目标对象在所述第一子图片上的位置信息，并根据一个或多个第一子图片上的目标对象的位置信息确定所述第一图片上目标对象集合的位置信息集合；所述目标对象集合包括所述多张第一子图片上的目标对象；

图片再识别模块，用于获取所述第一图片的特征平面，将所述特征平面和所述位置信息集合作为图片再识别模型的输入，从所述图片再识别模型输出位于所述位置信息集合上的目标对象集合的第二对象类型信息。

9.一种目标对象识别设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的目标对象识别方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的目标对象识别方法。