CN107784315A

CN107784315A - 目标对象的识别方法和装置，及机器人

Info

Publication number: CN107784315A
Application number: CN201610741087.7A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shenzhen Guangqi Hezhong Technology Co Ltd
Current assignee: Shenzhen Kuang Chi Hezhong Technology Ltd; Shenzhen Guangqi Hezhong Technology Co Ltd
Priority date: 2016-08-26
Filing date: 2016-08-26
Publication date: 2018-03-09
Also published as: WO2018036286A1

Abstract

本发明公开了一种目标对象的识别方法和装置，及机器人。其中，该方法包括：获取至少一个滑动窗口，其中，每个滑动窗口内的图像中包含待识别的目标对象；采用至少一个卷积神经网络对至少一个滑动窗口内的图像进行识别，得到至少一个滑动窗口的识别结果，其中，识别结果至少包括：识别类型和置信度；在任意一个滑动窗口的置信度达到一个或多个卷积神经网络的置信度阈值的情况下，标记待识别的目标对象的类型为任意一个滑动窗口的识别类型。本发明解决了传统的目标对象的识别方法运行速度慢，精度低的技术问题。

Description

目标对象的识别方法和装置，及机器人

技术领域

本发明涉及物体识别领域，具体而言，涉及一种目标对象的识别方法和装置，及机器人。

背景技术

物体识别是计算机视觉领域的关键问题，同时也是人工智能领域判断机器是否拥有“智能”特征的重要意义。一项成熟稳定的物体识别技术对帮助计算机理解获取视觉范围内的物体布局并进一步提取视觉范围类的深层次信息(例如判断当前场景，发生的事件，时间等)。

传统的物体识别技术都使用了滑动窗口技术，使用传统的判别方法来判断不同滑动窗口下的物体类型。传统的物体识别方法不仅精度不够(使用传统的分类器)，而且其核心技术依赖于大量的滑动窗口(会导致识别的时间特别长)。因此，在精度和速度两方面传统的方法在实用场景下都效果不好。虽然目前在滑动传统技术的基础上提出了一些改进，比如选择性搜索算法，它将详尽搜索算法和图片分割技术相结合，能够智能地将分割的图片选择性地结合起来从而提升算法的效率和精度。尽管如此，由于在本质上仍然类似于遍历性的滑框技术并且依次对不同边框进行识别，在对单个窗口的识别速度提升不大的条件下，这些改进对传统算法的提升并不高。

针对传统的目标对象的识别方法运行速度慢，精度低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种目标对象的识别方法和装置，及机器人，以至少解决传统的目标对象的识别方法运行速度慢，精度低的技术问题。

根据本发明实施例的一个方面，提供了一种目标对象的识别方法，包括：获取至少一个滑动窗口，其中，每个滑动窗口内的图像中包含待识别的目标对象；采用至少一个卷积神经网络对至少一个滑动窗口内的图像进行识别，得到任意一个滑动窗口的识别结果，其中，识别结果至少包括：识别类型和置信度；在任意一个滑动窗口的置信度达到一个或多个卷积神经网络的置信度阈值的情况下，标记待识别的目标对象的类型为任意一个滑动窗口的识别类型。

根据本发明实施例的另一方面，还提供了一种目标对象的识别装置，包括：获取模块，用于获取至少一个滑动窗口，其中，每个滑动窗口内的图像中包含待识别的目标对象；处理模块，用于采用至少一个卷积神经网络对至少一个滑动窗口内的图像进行识别，得到任意一个滑动窗口的识别结果，其中，识别结果至少包括：识别类型和置信度；标记模块，用于在任意一个滑动窗口的置信度达到一个或多个卷积神经网络的置信度阈值的情况下，标记待识别的目标对象的类型为任意一个滑动窗口的识别类型。

根据本发明实施例的另一方面，还提供了一种机器人，包括：上述实施例中任意一项的目标对象的识别装置。

在本发明实施例中，可以在获取至少一个滑动窗口之后，通过至少一个卷积神经网络对至少一个滑动窗口内的图像进行识别，得到至少一个滑动窗口的识别结果，并在任意一个滑动窗口的置信度达到一个或多个卷积神经网络的置信度阈值的情况下，标记待识别的目标对象的类型为任意一个滑动窗口的识别类型，从而实现对目标对象的识别，因此，通过本发明上述实施例，可以通过多个卷积神经网络对滑动窗口进行识别，提高目标对象的识别精度，并通过对滑动窗口的置信度进行判断，对滑动窗口进行筛选，提高目标对象的识别速度，从而在从识别精度和速度两个方面双管齐下，提高物体识别技术的实际效用。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种目标对象的识别方法的流程图；

图2是根据本发明实施例的一种可选的目标对象的识别方法的流程图；

图3是根据本发明实施例的一种目标对象的识别装置的示意图；

图4是根据本发明实施例的一种可选的目标对象的识别装置的示意图；

图5是根据本发明实施例的一种可选的目标对象的识别装置的示意图；

图6是根据本发明实施例的一种可选的目标对象的识别装置的示意图；以及

图7是根据本发明实施例的一种可选的目标对象的识别装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种目标对象的识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种目标对象的识别方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取至少一个滑动窗口，其中，每个滑动窗口内的图像中包含待识别的目标对象。

步骤S104，采用至少一个卷积神经网络对至少一个滑动窗口内的图像进行识别，得到至少一个滑动窗口的识别结果，其中，识别结果至少包括：识别类型和置信度。

具体的，上述识别类型可以是通过卷积神经网络识别，识别出的待识别的目标对象的类型，并不一定是待识别的目标对象的实际类型。

此处需要说明的是，卷积神经网络可以通过一个深度神经网络对输入图片的每个像素点进行逐层抽象并最终通过高度抽象的数学方法提取出不同类型物体的本质特征，从而使较高精度的物体识别成为可能。

步骤S106，在任意一个滑动窗口的置信度达到一个或多个卷积神经网络的置信度阈值的情况下，标记待识别的目标对象的类型为任意一个滑动窗口的识别类型。

具体的，上述置信度阈值可以根据实际需要进行设定，例如可以是40％-50％，本发明对此不做具体限定。

此处需要说明的是，为了实现较高精度的物体识别分类，我们往往需要用到具有多层复杂结构的卷积神经网络，因此识别速度甚至比传统分类器还要低。为了解决大量滑动窗口带来的运算速度方面的瓶颈，可以采用层瀑式的判别结构来减少需要通过较高精度的卷积神经网络分类的窗口数目。简单来讲，我们可以用一个决策树的判断结构来对每一个滑动窗口进行判断。

可选的，根据本发明上述实施例，在任意一个滑动窗口的置信度未达到至少一个卷积神经网络的置信度阈值的情况下，丢弃任意一个滑动窗口。

在一种可选的方案中，在获取到多个滑动窗口之后，可以采用多层不同的卷积神经网络对每个滑动窗口进行识别，在任意一层卷积神经网络对每个滑动窗口进行识别之后，对每个滑动窗口的置信度进行判断，在任意一个滑动窗口的置信度达到该层积神经网络的置信度阈值，确定该滑动窗口为有效滑动窗口；在任意一层卷积神经网络对每个滑动窗口进行识别之后，对每个滑动窗口的置信度进行判断，在任意一个滑动窗口的置信度未达到该层积神经网络的置信度阈值，确定该滑动窗口为无效滑动窗口，直接丢弃该滑动窗口。并采用下一层卷积神经网络对有效滑动窗口进行识别，判断每个有效滑动窗口的置信度，在采用多层卷积神经网络对每个滑动窗口进行识别之后，可以根据剩余的有效滑动窗口的识别结果，确定待识别的目标对象的类型。

在本发明上述实施例中，可以在获取至少一个滑动窗口之后，通过至少一个卷积神经网络对至少一个滑动窗口内的图像进行识别，得到至少一个滑动窗口的识别结果，并在任意一个滑动窗口的置信度达到一个或多个卷积神经网络的置信度阈值的情况下，标记待识别的目标对象的类型为任意一个滑动窗口的识别类型，从而实现对目标对象的识别，因此，通过本发明上述实施例，可以通过多个卷积神经网络对滑动窗口进行识别，提高目标对象的识别精度，并通过对滑动窗口的置信度进行判断，对滑动窗口进行筛选，提高目标对象的识别速度，从而在从识别精度和速度两个方面双管齐下，提高物体识别技术的实际效用。

根据本发明上述实施例，在至少一个卷积神经网络中包含多个卷积神经网络的情况下，步骤S104，采用至少一个卷积神经网络对至少一个滑动窗口内的图像进行识别，得到至少一个滑动窗口的识别结果，包括：

步骤S1042，采用第一卷积神经网络对至少一个滑动窗口内的图像进行识别，得到至少一个滑动窗口的识别结果。

步骤S1044，在任意一个滑动窗口的置信度达到第一卷积神经网络的置信度阈值的情况下，确定任意一个滑动窗口为第一滑动窗口。

步骤S1046，采用第二卷积神经网络对至少一个第一滑动窗口内的图像进行识别，得到至少一个第一滑动窗口的识别结果。

其中，第二卷积神经网络的复杂度与第一卷积神经网络的复杂度不同，第二卷积神经网络的置信度阈值大于第一卷积神经网络的置信度阈值。

可选的，根据本发明上述实施例，在任意一个滑动窗口的置信度未达到第一卷积神经网络的置信度阈值的情况下，丢弃任意一个滑动窗口。

可选的，根据本发明上述实施例，在任意一个第一滑动窗口的置信度未达到第二卷积神经网络的置信度阈值的情况下，丢弃任意一个第一滑动窗口。

具体的，上述第一滑动窗口可以是有效滑动窗口。

此处需要说明的是，举例说明，假设对于单个提取出来的滑动窗口，使用传统的物体识别方法需要一个时间单位来完成单次识别(识别精度为60％)。使用深度神经网络能提高识别精度到80％，然而单次识别时间为两个时间单位，如果简单的使用卷积神经网络来代替传统方法，将需要花双倍的时间得到20％精度提升，为了解决上述问题，可以将深度神经网络置于层瀑结构的底层，而在它的上层设置多个简单的神经网络。对于第一层卷积神经网络，并不需要它有比较高的识别精度，在不影响整体识别精度的前提下，可以通过牺牲第一层的识别精度为代价换取识别速度的提升。因此，可以使用简化的结构来获取识别速度的提升(假设能够在0.2个时间单位内完成物体识别判断)，与此同时，可以需要下调第一层卷积神经网络的置信度阈值来提高正确滑框的召回率。

在一种可选的方案中，可以采用复杂度较低的卷积神经网络对每个滑动窗口进行识别，得到每个滑动窗口的识别结果，在任意一个滑动窗口的置信度未达到卷积神经网络的置信度阈值，确定该滑动窗口为无效窗口，并丢弃该滑动窗口；在任意一个滑动窗口的置信度达到卷积神经网络的置信度阈值，确定该滑动窗口为有效窗口。采用复杂度较高的卷积神经网络对每个有效滑动窗口进行识别，在任意一个滑动窗口的置信度未达到卷积神经网络的置信度阈值，确定该滑动窗口为无效窗口，并丢弃该滑动窗口；在任意一个滑动窗口的置信度达到卷积神经网络的置信度阈值，确定该滑动窗口为有效窗口。

此处还需要说明的是，可以通过复杂度较低的卷积神经网络拒绝掉大部分的无效滑框的同时保留下绝大部分的正确滑框，并通过复杂度较高的卷积神经网络来弥补复杂度较低的卷积神经网络的低识别精度，最终实现和单次通过复杂度最高的卷积神经网络进行目标对象识别的精度。

通过上述方案，可以在通过不同复杂度的卷积神经网络对每个滑动窗口进行识别之后，丢弃掉置信度未达到置信度阈值的无效滑动窗口，保留置信度达到置信度阈值的有效滑动窗口，从而实现在目标对象识别的过程中，降低识别速度，提高识别精度。

根据本发明上述实施例，步骤S104，采用至少一个卷积神经网络对至少一个滑动窗口内的图像进行识别，得到至少一个滑动窗口的识别结果，包括：

步骤S112，采用卷积核提取至少一个滑动窗口内的图像的特征向量。

具体的，上述特征向量可以是体现每个类型的目标对象差别的特征。

步骤S114，采用分类算法对每个滑动窗口内的图像的特征向量进行分类，得到每个滑动窗口的识别类型和置信度。

在一种可选的方案中，可以通过卷积核提取每个滑动窗口的特征向量，并通过分类算法对特征向量进行分类，确定每个滑动窗口内的图像中包含的目标对象的识别类型和置信度，得到每个滑动窗口的识别结果。

通过上述方案，可以通过卷积神经网络对每个滑动窗口进行识别，得到每个滑动窗口的识别结果，从而实现对目标对象进行识别的目的。

根据本发明上述实施例，在步骤S104，采用至少一个卷积神经网络对至少一个滑动窗口内的图像进行识别，得到至少一个滑动窗口的识别结果之前，上述方法还包括：

步骤S122，获取预设的训练集，其中，训练集至少包括：不同类型的多个目标对象，不同类型至少包括：识别类型。

具体的，上述训练集可以包括多种类型的目标对象，至少包括识别类型的目标对象，例如，可以包括桌子类型的目标对象，椅子类型的目标对象，电视机类型的目标对象等。

步骤S124，根据训练集，得到至少一个卷积神经网络的模型参数。

步骤S126，保存至少一个卷积神经网络的模型参数，并设定相应的置信度阈值。

此处需要说明的是，可以通过丰富而且多样的训练集对卷积神经网络进行训练，避免过拟合。

在一种可选的方案中，可以对训练集进行预处理，构造包含大量不同类型的目标对象的训练集，通过训练集对卷积神经网络进行训练，得到卷积神经网络的模型参数，例如卷积层数目，将训练后的模型参数进行保存，并根据需要设置置信度阈值。

此处需要说明的是，可以通过调整输入的数字图片的尺寸大小和神经网络中的卷积层数目和网络深度，设计不同复杂度的识别网络，而这是传统的物体识别分类器做不到的，并且，足够的网络深度和足够多的卷积层能够更加准确地提取出不同物体类别的核心特征，可以大大提高识别精度。

通过上述方案，通过对卷积神经网络进行训练，得到多个不同复杂度的卷积神经网络，从而方便后续对目标对象进行识别。

根据本发明上述实施例，步骤S122，获取预设的训练集包括：

步骤S1222，构建不同类型的多个目标对象的图像集合。

步骤S1224，将图像集合转化为预定的输入格式，并插入每个目标对象的标签信息，得到预设的训练集，其中，每个目标对象的标签信息用于表征每个目标对象的类型。

具体的，上述预定的输入格式可以是卷积神经网络需要的格式，本发明对此不做具体限定。

在一种可选的方案中，可以获取大量不同类型的目标对象的图像，构建图像集合，并将图像集合转化为卷积神经网络需要的特定输入格式，例如数字图片格式，并在转化后的数据中植入对应目标对象类型的标签信息，例如可以通过植入不同的数字，代表不同的类型。

根据本发明上述实施例，步骤S124，根据训练集，得到至少一个卷积神经网络的模型参数包括：

步骤S1242，根据训练集，得到至少一个卷积神经网络的初始模型参数。

步骤S1244，获取目标误差函数和模型参数优化方法。

具体的，上述目标误差函数可以是softmax-loss，上述模型参数优化方法可以是在随机梯度下降法中加入冲量调整，本发明对此不做具体限定。

步骤S1246，根据目标误差函数和模型参数优化方法，对至少一个卷积神经网络的初始模型参数进行优化，得到至少一个卷积神经网络的模型参数。

在一种可选的方案中，可以根据设定的目标误差函数和选取的模型参数的优化方法，对卷积神经网络的模型参数进行优化，得到最优的模型参数，并将最优的模型参数进行保存。

根据本发明上述实施例，步骤S126，设定相应的置信度阈值包括：

步骤S1262，采用至少一个卷积神经网络对携带有标签信息的测试集进行识别，得到测试集的召回率，其中，标签信息用于表征测试集中每个目标对象的类型。

具体的，上述测试集也可以通过构建预设类型的多个目标对象的图像集合，将图像集合转化为预定的输入格式，并插入每个目标对象的标签信息得到。

步骤S1264，在测试集的召回率未达到预设召回率的情况下，调整每个卷积神经网络的置信度阈值。

步骤S1266，在测试集的召回率达到预设召回率的情况下，设定至少一个卷积神经网络的置信度阈值为相应的置信度阈值。

具体的，上述预设召回率可以根据需要进行设定，本发明对此不做具体限定。

在一种可选的方案中，可以通过对携带有标签信息的测试集进行识别，得到召回率，并通过调整置信度阈值使得召回率达到设定值。例如，在1000张图像中有100张同类的目标对象的图像，可以设定召回率为98％，即100张图像中识别出98张。如果采用卷积神经网络对1000张图像进行识别，识别出的图像数量不够98，即召回率未达到98％，则调整卷积神经网络的置信度阈值。如果采用卷积神经网络对1000张图像进行识别，识别出的图像数量够98，即召回率达到98％，则不需要调整卷积神经网络的置信度阈值，可以根据当前的卷积神经网络的置信度阈值，设定每个卷积神经网络相应的置信度阈值。

下面，结合图2对本发明一种优选的实施例进行详细描述。

如图2所示，上述优选的实施例包括如下步骤：

步骤S21，获取测试窗口。

可选的，可以获取多个测试窗口。

步骤S22，采用卷积神经网络一对测试窗口进行识别。

可选的，可以采用如表1所示的卷积神经网络一对多个测试窗口进行识别，得到每个测试窗口的置信度。

表1

网络名	卷积层	全连接层	输入尺寸比例	Pool和LRN层
					卷积神经网络一	3	2	0.25	3
卷积神经网络二	5	3	0.5	5
					卷积神经网络三	8	5	1	8

步骤S23，判断当前测试窗口的置信度是否高于置信度阈值一。

可选的，判断每个测试窗口的置信度是否高于卷积神经网络一的置信度阈值，如果确定当前测试窗口的置信度高于卷积神经网络一的置信度阈值，则进入步骤S24；否则，进入步骤S29。

步骤S24，采用卷积神经网络二对测试窗口进行识别。

可选的，可以采用如表1所示的卷积神经网络二，对多个置信度高于卷积神经网络一的置信度阈值的测试窗口进行识别，得到每个测试窗口的置信度。

步骤S25，判断当前测试窗口的置信度是否高于置信度阈值二。

可选的，判断每个测试窗口的置信度是否高于卷积神经网络二的置信度阈值，如果确定当前测试窗口的置信度高于卷积神经网络二的置信度阈值，则进入步骤S27；否则，进入步骤S28。

步骤S26，采用卷积神经网络三对测试窗口进行识别。

可选的，可以采用如表1所示的卷积神经网络三，对多个置信度高于卷积神经网络二的置信度阈值的测试窗口进行识别，得到每个测试窗口的置信度。

步骤S27，判断当前测试窗口的置信度是否高于置信度阈值三。

可选的，判断每个测试窗口的置信度是否高于卷积神经网络三的置信度阈值，如果确定当前测试窗口的置信度高于卷积神经网络三的置信度阈值，则进入步骤S210；否则，进入步骤S211。

步骤S28，标记测试窗口中的目标对象对应的类别。

可选的，置信度高于卷积神经网络三的置信度阈值的测试窗口为有效窗口，可以标记对应目标对象的类别。

步骤S29，排除当前测试窗口。

可选的，如果当前测试窗口的置信度低于卷积神经网络一的置信度阈值，或者当前测试窗口的置信度低于卷积神经网络二的置信度阈值，或者当前测试窗口的置信度低于卷积神经网络三的置信度阈值，则确定当前测试窗口为无效窗口，丢弃当前窗口。

此处需要说明的是，可以通过合理的设置不同层的神经网络，大部分冗余的不含任何类别物体的窗口会在第一二层迅速的排除掉从而大幅削减识别时间。通过卷积神经网络一拒绝掉大部分的无效滑框的同时保留下绝大部分的正确滑框，(比如99％)。与此同时，卷积神经网络二和三作为一的补充，可以使用更深的网络结构来弥补网络一的低识别精度，最终实现和单次通过卷积神经网络三进行识别的精度。虽然单个窗口在通过卷积神经网络二和三的识别时间较长，但是考虑到滑动窗口中的绝大部分都是无效滑框(超过90％)，需要使用网络二和网络三进行判断的滑动窗口数目不足原始窗口的10％，这部分多余的计算时间只占整体识别时间的很小一部分。因此，通过充分利用图表中的层瀑式结构，检测时间将会降低到传统方法的25％以下，并且识别精度提升到80％。

通过上述实施例，可以通过三个不同复杂度的卷积神经网络进行识别，并通过层瀑式的判别结构来减少需要通过较高精度的卷积神经网络分类的窗口数目，从而能够更快更精确地实现视觉范围内的物体识别。

实施例2

根据本发明实施例，提供了一种目标对象的识别装置实施例，图3是根据本发明实施例的一种目标对象的识别装置的示意图，如图3所示，该方法包括如下步骤：

获取模块31，用于获取至少一个滑动窗口，其中，每个滑动窗口内的图像中包含待识别的目标对象。

处理模块33，用于采用至少一个卷积神经网络对至少一个滑动窗口内的图像进行识别，得到至少一个滑动窗口的识别结果，其中，识别结果至少包括：识别类型和置信度。

标记模块35，用于在任意一个滑动窗口的置信度达到一个或多个卷积神经网络的置信度阈值的情况下，标记待识别的目标对象的类型为任意一个滑动窗口的识别类型。

可选的，根据本发明上述实施例，如图4所示，上述装置还包括：

丢弃模块41，用于在任意一个滑动窗口的置信度未达到至少一个卷积神经网络的置信度阈值的情况下，丢弃任意一个滑动窗口。

根据本发明上述实施例，如图5所示，在至少一个卷积神经网络中包含多个卷积神经网络的情况下，上述处理模块33包括：

第一处理子模块51，用于采用第一卷积神经网络对至少一个滑动窗口内的图像进行识别，得到至少一个滑动窗口的识别结果。

确定子模块53，用于在任意一个滑动窗口的置信度达到第一卷积神经网络的置信度阈值的情况下，确定任意一个滑动窗口为第一滑动窗口。

第二处理子模块55，用于采用第二卷积神经网络对至少一个第一滑动窗口内的图像进行识别，得到至少一个第一滑动窗口的识别结果；

可选的，根据本发明上述实施例，如图6所示，上述处理模块33还包括：

第一丢弃子模块61，用于在任意一个滑动窗口的置信度未达到第一卷积神经网络的置信度阈值的情况下，丢弃任意一个滑动窗口。

可选的，根据本发明上述实施例，如图7所示，上述处理模块33还包括：

第二丢弃子模块71，用于在任意一个第一滑动窗口的置信度未达到第二卷积神经网络的置信度阈值的情况下，丢弃任意一个第一滑动窗口。

具体的，上述第一滑动窗口可以是有效滑动窗口。

此处需要说明的是，举例说明，假设对于单个提取出来的滑动窗口，使用传统的物体识别方法需要一个时间单位来完成单次识别(识别精度为60％)。使用深度神经网络能提高识别精度到80％，然而单次识别时间为两个时间单位，如果简单的使用卷积神经网络来代替传统方法，将需要花双倍的时间得到20％精度提升，为了解决上述问题，可以将深度神经网络置于层瀑结构的底层，而在它的上层设置多个简单的神经网络。对于第一层卷积神经网络，并不需要它有比较高的识别精度，在不影响整体识别精度的前提下，可以通过牺牲第一层的识别精度为代价换取识别速度的提升。因此，可以使用简化的结构来获取识别速度的提升(假设能够在0.2个时间单位内完成物体识别判断)，与此同时，可以需要下调卷积神经网络一的置信度阈值来提高正确滑框的召回率。

实施例3

根据本发明实施例，提供了一种机器人实施例，该机器人包括：上述实施例2中任意一项的目标对象的识别装置。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种目标对象的识别方法，其特征在于，包括：

获取至少一个滑动窗口，其中，每个滑动窗口内的图像中包含待识别的目标对象；

采用至少一个卷积神经网络对所述至少一个滑动窗口内的图像进行识别，得到所述至少一个滑动窗口的识别结果，其中，所述识别结果至少包括：识别类型和置信度；

在任意一个滑动窗口的置信度达到一个或多个卷积神经网络的置信度阈值的情况下，标记所述待识别的目标对象的类型为所述任意一个滑动窗口的识别类型。

2.根据权利要求1所述的方法，其特征在于，在任意一个滑动窗口的置信度未达到所述至少一个卷积神经网络的置信度阈值的情况下，丢弃所述任意一个滑动窗口。

3.根据权利要求1所述的方法，其特征在于，在所述至少一个卷积神经网络中包含多个卷积神经网络的情况下，采用至少一个卷积神经网络对所述至少一个滑动窗口内的图像进行识别，得到所述至少一个滑动窗口的识别结果，包括：

采用第一卷积神经网络对所述至少一个滑动窗口内的图像进行识别，得到所述至少一个滑动窗口的识别结果；

在所述任意一个滑动窗口的置信度达到所述第一卷积神经网络的置信度阈值的情况下，确定所述任意一个滑动窗口为第一滑动窗口；

采用第二卷积神经网络对至少一个第一滑动窗口内的图像进行识别，得到所述至少一个第一滑动窗口的识别结果；

其中，所述第二卷积神经网络的复杂度与所述第一卷积神经网络的复杂度不同。

4.根据权利要求3所述的方法，其特征在于，在所述任意一个滑动窗口的置信度未达到所述第一卷积神经网络的置信度阈值的情况下，丢弃所述任意一个滑动窗口。

5.根据权利要求3所述的方法，其特征在于，所述第二卷积神经网络的置信度阈值大于所述第一卷积神经网络的置信度阈值；在任意一个第一滑动窗口的置信度未达到所述第二卷积神经网络的置信度阈值的情况下，丢弃所述任意一个第一滑动窗口。

6.根据权利要求1至5中任意一项所述的方法，其特征在于，采用至少一个卷积神经网络对所述至少一个滑动窗口内的图像进行识别，得到所述至少一个滑动窗口的识别结果，包括：

采用卷积核提取所述至少一个滑动窗口内的图像的特征向量；

采用分类算法对每个滑动窗口内的图像的特征向量进行分类，得到所述每个滑动窗口的识别类型和置信度。

7.根据权利要求6所述的方法，其特征在于，在采用至少一个卷积神经网络对所述至少一个滑动窗口内的图像进行识别，得到所述至少一个滑动窗口的识别结果之前，所述方法还包括：

获取预设的训练集，其中，所述训练集至少包括：不同类型的多个目标对象，所述不同类型至少包括：所述识别类型；

根据所述训练集，得到所述至少一个卷积神经网络的模型参数；

保存所述至少一个卷积神经网络的模型参数，并设定相应的置信度阈值。

8.根据权利要求7所述的方法，其特征在于，获取预设的训练集包括：

构建所述不同类型的多个目标对象的图像集合；

将所述图像集合转化为预定的输入格式，并插入每个目标对象的标签信息，得到所述预设的训练集，其中，所述每个目标对象的标签信息用于表征所述每个目标对象的类型。

9.根据权利要求7所述的方法，其特征在于，根据所述训练集，得到所述至少一个卷积神经网络的模型参数包括：

根据所述训练集，得到所述至少一个卷积神经网络的初始模型参数；

获取目标误差函数和模型参数优化方法；

根据所述目标误差函数和所述模型参数优化方法，对所述至少一个卷积神经网络的初始模型参数进行优化，得到所述至少一个卷积神经网络的模型参数。

10.根据权利要求7所述的方法，其特征在于，设定相应的置信度阈值包括：

采用所述至少一个卷积神经网络对携带有标签信息的测试集进行识别，得到所述测试集的召回率，其中，所述标签信息用于表征所述测试集中每个目标对象的类型；

在所述测试集的召回率未达到预设召回率的情况下，调整所述至少一个卷积神经网络的置信度阈值；

在所述测试集的召回率达到所述预设召回率的情况下，设定所述至少一个卷积神经网络的置信度阈值为所述相应的置信度阈值。

11.一种目标对象的识别装置，其特征在于，包括：

获取模块，用于获取至少一个滑动窗口，其中，每个滑动窗口内的图像中包含待识别的目标对象；

处理模块，用于采用至少一个卷积神经网络对所述至少一个滑动窗口内的图像进行识别，得到所述至少一个滑动窗口的识别结果，其中，所述识别结果至少包括：识别类型和置信度；

标记模块，用于在任意一个滑动窗口的置信度达到一个或多个卷积神经网络的置信度阈值的情况下，标记所述待识别的目标对象的类型为所述任意一个滑动窗口的识别类型。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

丢弃模块，用于在任意一个滑动窗口的置信度未达到所述至少一个卷积神经网络的置信度阈值的情况下，丢弃所述任意一个滑动窗口。

13.根据权利要求11所述的装置，其特征在于，在所述至少一个卷积神经网络中包含多个卷积神经网络的情况下，所述处理模块包括：

第一处理子模块，用于采用第一卷积神经网络对所述至少一个滑动窗口内的图像进行识别，得到所述至少一个滑动窗口的识别结果；

确定子模块，用于在所述任意一个滑动窗口的置信度达到所述第一卷积神经网络的置信度阈值的情况下，确定所述任意一个滑动窗口为第一滑动窗口；

第二处理子模块，用于采用第二卷积神经网络对至少一个第一滑动窗口内的图像进行识别，得到所述至少一个第一滑动窗口的识别结果；

其中，所述第二卷积神经网络的复杂度与所述第一卷积神经网络的复杂度不同，所述第二卷积神经网络的置信度阈值大于所述第一卷积神经网络的置信度阈值。

14.根据权利要求13所述的装置，其特征在于，所述处理模块还包括：

第一丢弃子模块，用于在所述任意一个滑动窗口的置信度未达到所述第一卷积神经网络的置信度阈值的情况下，丢弃所述任意一个滑动窗口。

15.根据权利要求13所述的装置，其特征在于，所述处理模块还包括：

第二丢弃子模块，用于在任意一个第一滑动窗口的置信度未达到所述第二卷积神经网络的置信度阈值的情况下，丢弃所述任意一个第一滑动窗口。

16.一种机器人，其特征在于，包括：权利要求11至15中任意一项所述的目标对象的识别装置。