CN113420704A

CN113420704A - 一种基于视觉传感器的物体识别方法、装置及机器人

Info

Publication number: CN113420704A
Application number: CN202110754556.XA
Authority: CN
Inventors: 孙昊; 闫东坤
Original assignee: Beijing Yingdi Mande Technology Co ltd
Current assignee: Beijing Yingdi Mande Technology Co ltd
Priority date: 2021-06-18
Filing date: 2021-07-02
Publication date: 2021-09-21

Abstract

本发明提供一种基于视觉传感器的物体识别方法、装置及机器人，其中，该方法包括：读取视觉传感器数据；将所述视觉传感器数据输入至预先训练好的神经网络模型，得到目标物体的检测区域、类别以及距离信息；根据所述目标物体的检测区域、类别以及距离信息，得到决策结果。通过实施本发明，使用视觉传感器获取视觉传感器数据，将该视觉传感器数据输入至神经网络进行特征提取，从而完成物体的识别和距离计算，而不需要其他任何带深度信息的传感器，比如雷达，从而在保证精确度的同时，降低了成本。

Description

一种基于视觉传感器的物体识别方法、装置及机器人

技术领域

本发明涉及人工智能领域，具体涉及一种基于视觉传感器的物体识别方法、装置及机器人。

背景技术

相关技术中，用于清洁机器人的障碍物识别方法，如图1所示，主要步骤包括使用相机进行图像采集，使用传统算法或者神经网络检测出图像中的目标所在的区域，然后结合红外传感器、雷达或直接根据目标大小估计出物体距离机器的位置；最后把结果反馈给控制进行决策。

但使用传统算法依据单张图像信息进行距离估计，得到的位置不准确；而使用雷达、深度相机等设备代价高昂；红外测量只能处理热成像，对没有温度的物体无效。因此亟需提出一种新的物体避障方法。

发明内容

有鉴于此，本发明实施例提供了一种基于视觉传感器的物体识别方法、装置及机器人，以解决现有技术中距离估计不准确，物体避障代价高昂的缺陷。

根据第一方面，本发明实施例提供一种基于视觉传感器的物体识别方法，包括如下步骤：读取视觉传感器数据；将所述视觉传感器数据输入至预先训练好的神经网络模型，得到目标物体的检测区域、类别以及距离信息；根据所述目标物体的检测区域、类别以及距离信息，得到决策结果。

可选地，所述神经网络模型包括：特征提取网络，用于获取多组特征数据，所述特征数据包括所述目标物体在视觉传感器数据中的物体特征和深度特征；全连接层，用于解析多组特征数据，得到所述目标物体的检测区域、类别以及距离信息。

可选地，所述特征提取网络包括以下之一：1.神经网络；2.卷积网络、深度特征提取模块、特征融合网络；3.卷积网络、多目立体匹配模块、特征融合网络。

可选地，当所述特征提取网络包括：神经网络时，所述将所述视觉传感器数据输入至预先训练好的神经网络模型，得到目标物体的检测区域、类别以及距离信息，包括：将所述视觉传感器数据输入至特征提取网络，得到多组特征数据，所述特征数据包括所述目标物体在视觉传感器数据中的物体特征和深度特征；将所述特征数据输入至全连接层，得到所述目标物体的检测区域、类别以及距离信息。

可选地，当所述特征提取网络包括：卷积网络、深度特征提取模块、特征融合网络时，所述将所述视觉传感器数据输入至预先训练好的神经网络模型，得到目标物体的检测区域、类别以及距离信息，包括：将所述视觉传感器数据输入至卷积网络，得到多组特征数据，所述特征数据包括所述目标物体在视觉传感器数据中的物体特征；将所述多组特征数据输入至深度信息提取模块，得到所述目标物体在视觉传感器数据中的深度特征；将所述多组特征数据与所述深度特征进行特征融合，得到特征融合数据，所述特征融合数据包括所述目标物体在视觉传感器数据中的物体特征和深度特征；将所述特征融合数据输入至全连接层，得到所述目标物体的检测区域、类别以及距离信息。

可选地，当所述特征提取网络包括：卷积网络、多目立体匹配模块、特征融合网络时，所述视觉传感器数据为多目摄像头视觉传感器数据；所述将所述视觉传感器数据输入至预先训练好的神经网络模型，得到目标物体的检测区域、类别以及距离信息，包括：将所述视觉传感器数据输入至卷积网络，得到多组特征数据，所述特征数据包括所述目标物体在视觉传感器数据中的物体特征；将多目摄像头视觉传感器数据输入至多目立体匹配模块，得到所述目标物体在视觉传感器数据中的深度特征；将所述多组特征数据与所述深度信息进行特征融合，得到特征融合数据，所述特征融合数据包括所述目标物体在视觉传感器数据中的物体特征和深度特征；将所述特征融合数据输入至全连接层，得到所述目标物体的检测区域、类别以及距离信息。

可选地，将所述多组特征数据与所述深度信息进行特征融合，得到特征融合数据，包括：将所述多组特征数据与所述深度信息在目标维度上进行拼接或叠放，得到特征融合数据；或将所述多组特征数据与所述深度信息经过目标运算，得到特征融合数据。

可选地，所述预先训练好的神经网络模型的训练过程包括：S1：获取标注后的数据集，所述标注后的数据集包括原始图片以及标签，所述标签包括目标物体的检测区域、类别以及距离信息；S2：将所述标注后的数据集输入至预训练模型中，得到训练结果；S3：将训练结果与标签进行比对，得到训练误差；所述训练误差用于指导网络更新；S4：重复S2至S3，直到包括有训练误差的评价指标小于预设阈值，则得到预先训练好的神经网络模型。

根据第二方面，本发明实施例提供一种基于视觉传感器的物体识别装置，包括：视觉传感器数据读取模块，用于读取视觉传感器数据；特征数据确定模块，用于将所述视觉传感器数据输入至预先训练好的神经网络模型，得到目标物体的检测区域、类别以及距离信息；决策结果确定模块，用于根据所述目标物体的检测区域、类别以及距离信息，得到决策结果。

根据第三方面，本发明实施例提供一种机器人，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面或第一方面任一实施方式所述的基于视觉传感器的物体识别方法的步骤。

本发明技术方案，具有如下优点：

本实施例提供的基于视觉传感器的物体识别方法，使用神经网络进行深度估计，直接从图像中完成场景下物体的识别和距离计算，而不需要其他任何带深度信息的传感器，比如雷达，从而在保证精确度的同时，降低了成本。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中背景技术的具体示例图；

图2为本发明实施例中基于视觉传感器的物体识别方法的一个具体示例的流程图；

图3为本发明实施例中基于视觉传感器的物体识别方法的一个具体示例图；

图4为本发明实施例中基于视觉传感器的物体识别方法的一个具体示例图；

图5为本发明实施例中基于视觉传感器的物体识别方法的一个具体示例图；

图6为本发明实施例中基于视觉传感器的物体识别方法的一个具体示例图；

图7为本发明实施例中基于视觉传感器的物体识别装置的一个具体示例原理框图；

图8为本发明实施例中机器人的一个具体示例的原理框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本实施例提供一种基于视觉传感器的物体识别方法，可以用于清洁机器人，如图2所示，包括如下步骤：

S101，读取视觉传感器数据；

示例性地，视觉传感器可以设置在使用设备上，比如，将视觉传感器设置在清洁机器人上，用于获取清洁机器人行驶过程中的环境数据。视觉传感器可以是RGB相机、灰度相机等，视觉传感器数据可以是图像数据。本实施例对视觉传感器的类型不做限定，本领域技术人员可以根据需要确定。

S102，将视觉传感器数据输入至预先训练好的神经网络模型，得到目标物体的检测区域、类别以及距离信息；

示例性地，目标物体可以是视觉传感器数据中的任意物体，包括人、车、椅子、桌子、电梯、动物等等，本实施例对目标物体不做限定，本领域技术人员可以根据需要确定。预先训练好的神经网络模型可以通过带有目标区域坐标、目标类别以及距离信息标签的训练样本对预训练模型进行训练得到，训练的方式可以是将训练的结果与标签进行比对，得到误差值，根据误差指导预训练模型完成训练，得到精度较高的神经网络模型。将图像数据输入至预先训练好的神经网络模型，则可以在图像中得到较高精度的目标物体检测区域、类别信息以及距离信息。

S103，根据目标物体的检测区域、类别以及距离信息，得到决策结果。

示例性地，当该方法用于机器人避障时，根据目标物体的检测区域、类别以及距离信息，得到决策结果的方式可以是将一张或多张图像中物体的检测区域、类别和距离发送至机器人控制系统，根据机器人控制系统的内置算法确定是否要进行避让，以及进行避让时具体执行的避让操作位置及方向，比如，当检测到在机器人前方3米存在一个长宽均1米桌子，那么给出的决策结果可以是在前方2.5米处，向左或者向右拐，避开桌子的铺设范围，以使得机器人继续行驶。另外，该方法还可以用于自动驾驶领域，实现车辆驾驶过程中的物体避让，保证车辆驾驶安全。本实施例对该方法的使用场景不做限定，本领域技术人员可以根据需要确定。

作为本实施例一种可选的实施方式，神经网络模型包括：特征提取网络，用于获取多组特征数据，特征数据包括目标物体在视觉传感器数据中的物体特征和深度特征；全连接层，用于解析多组特征数据，得到目标物体的检测区域、类别以及距离信息。

示例性地，物体特征包括区域特征以及类别特征，区域特征可以通过目标物体在图像中的位置坐标信息进行表征，类别特征表征目标物体的类别信息，比如人、车、椅子、电梯、动物等。深度特征表征视觉传感器数据中物体与当前视觉传感器的距离。

特征提取网络可以由深度学习的神经网络构成，在特征提取网络中提取多组特征数据，全连接层则可以使用这些特征数据进行分类或者回归，得到目标物体的检测区域、类别以及距离信息。

作为本实施例一种可选的实施方式，特征提取网络包括以下之一：1、神经网络；2、卷积网络、深度特征提取模块、特征融合网络；3、卷积网络、多目立体匹配模块、特征融合网络。

作为本实施例一种可选的实施方式，如图3所示，当特征提取网络包括：神经网络时，将视觉传感器数据输入至预先训练好的神经网络模型，得到目标物体的检测区域、类别以及距离信息，包括：

将视觉传感器数据输入至特征提取网络，得到多组特征数据，特征数据包括所述目标物体在视觉传感器数据中的物体特征和深度特征；

将特征数据输入至全连接层，得到目标物体的检测区域、类别以及距离信息。

示例性地，特征提取网络为神经网络时，该神经网络为根据标注有目标区域坐标、目标类别以及对应每个目标物体的距离信息标签的训练样本对预训练模型进行训练得到，直至该神经网络达到训练目标，则完成训练。当视觉传感器的数据输入到训练完成的神经网络时，即可得到多组目标物体的目标区域坐标、目标类别以及距离信息和深度特征。多组特征数据经过全连接层的数据分类或者回归，则能得到根据特征数据所明确的目标物体的检测区域、类别以及距离信息。

作为本实施例一种可选的实施方式，如图4所示，当特征提取网络包括：卷积网络、深度特征提取模块、特征融合网络时，将视觉传感器数据输入至预先训练好的神经网络模型，得到目标物体的检测区域、类别以及距离信息，包括：

首先，将视觉传感器数据输入至卷积网络，得到多组特征数据，特征数据包括目标物体在视觉传感器数据中的物体特征；

示例性地，卷积网络可以是Yolo网络，经过卷积网络提取多组特征数据。特征数据通常为多个宽度＊高度＊层数(width＊height＊channel)的三维数据，其中组间的宽度＊高度大小可以不同；该特征数据蕴含了目标物体在视觉传感器数据中的物体特征，物体特征包括目标物体的区域坐标信息和类别信息，其中，目标物体的区域划定方式可以是矩形框，也可以是多边形框；类别信息可以是比如人、车、椅子、电梯、动物等。本实施例对目标物体的区域划定方式以及类别信息不做限定，本领域技术人员可以根据需要确定。

其次，将多组特征数据输入至深度信息提取模块，得到目标物体在视觉传感器数据中的深度特征；

示例性地，深度信息提取模块可以是反卷积网络、膨胀卷积网络等，经过深度信息提取模块可以在视觉传感器数据中提取出一组深度图，该深度图蕴涵了输入视觉传感器数据中所包含的深度信息，即距离信息。

深度信息提取模块以反卷积神经网络为例，输入特征图为卷积层提取到的高层语义信息，而反卷积层善于放大特征图，并结合卷积层的位置信息将高层语义信息恢复成像素级的深度特征，最终输出与原始图像相同大小的深度图。在对深度信息提取模块进行训练时，选取训练集，训练集可以是的NYU Depth数据集或KITTI数据集，并设置卷积－反卷积对神经网络模型的训练参数；根据卷积－反卷积对神经网络模型及其训练参数，以最小化损失函数为目标训练卷积－反卷积对神经网络模型形成深度信息提取模块。

再次，将多组特征数据与深度特征进行特征融合，得到特征融合数据，特征融合数据包括目标物体在视觉传感器数据中的物体特征和深度特征；

示例性地，将多组特征数据与深度特征进行特征融合，得到特征融合数据的方式可以是将多组特征数据与深度信息在目标维度上进行拼接或叠放，得到特征融合数据；在提取特征数据与深度信息通常包括宽度、高度、层数的三维信息，目标维度可以表征层数维度，在层数维度上对特征数据与深度信息进行拼接或者叠放，从而实现对特征数据与深度信息的融合，得到特征融合数据，特征融合数据同时兼有距离特征、位置特征和类别特征。

将多组特征数据与深度特征进行特征融合，得到特征融合数据的方式还可以是将多组特征数据与深度信息经过目标运算，得到特征融合数据，其中，目标运算可以是池化操作，包括最大池化、最小池化以及平均池化。

然后，将特征融合数据输入至全连接层，得到目标物体的检测区域、类别以及距离信息。将特征融合数据送入一组全连接层，进行信息整合；最终回归出目标物体在图片中的坐标信息、类别信息和在实际场景中的距离信息。

本实施例提供的基于视觉传感器的物体识别方法，设计了新的网络模型用于物体检测和距离估计，使用神经网络代替手工设计的区域和距离融合算法；提高了物体避障准确性。

作为本实施例一种可选的实施方式，如图5所示，当特征提取网络包括：卷积网络、多目立体匹配模块、特征融合网络时，视觉传感器数据为多目摄像头视觉传感器数据；将视觉传感器数据输入至预先训练好的神经网络模型，得到目标物体的检测区域、类别以及距离信息，包括：

首先，将视觉传感器数据输入至卷积网络，得到多组特征数据，特征数据包括所述目标物体在视觉传感器数据中的物体特征；具体内容参见上述对应部分，在此不再赘述。

其次，将多目摄像头视觉传感器数据输入至多目立体匹配模块，得到目标物体在视觉传感器数据中的深度特征；

示例性地，多目摄像头视觉传感器数据为对从不同角度拍摄到的同一图像信息。以双目摄像头为例，将双目摄像头视觉传感器数据输入至多目立体匹配模块，得到目标物体在视觉传感器数据中的深度特征的方式可以是：

如图6所示，Or和Ol分别双目摄像头的右边摄像头和左边摄像头，本实施例以Or和Ol为坐标原点建立坐标系，P表示目标物体的位置，Pr和Pl为P在两个像平面的投影，xr、xl为在两个坐标系中的横坐标，f表示当前双目摄像头的焦距，Z表示目标物体与双目摄像头的实际距离，也就是深度特征。视差d可以由xr、xl确定，d＝xl－xr。

由相似三角形原理可以得到深度特征与视差d的关系式：

通过上述计算方式即可得到目标物体与双目摄像头的深度特征。

再次，将多组特征数据与深度信息进行特征融合，得到特征融合数据，特征融合数据包括目标物体在视觉传感器数据中的物体特征和深度特征；具体内容参见上述对应部分，在此不再赘述。

然后，将特征融合数据输入至全连接层，得到目标物体的检测区域、类别以及距离信息。具体内容参见上述对应部分，在此不再赘述。

作为本实施例一种可选的实施方式，将视觉传感器数据输入至目标检测神经网络模型之前，还包括：将视觉传感器数据进行预处理，得到预处理数据。

示例性地，预处理方式可以是将读取到的图片(通常是1080p)缩放到一定大小(例如416＊416)以降低神经网络计算量，还可以是对图像进行增强、去噪、分割、滤波等操作，本实施例对预处理方式不做限定，本领域技术人员可以根据需要确定。

作为本实施例一种可选的实施方式，预先训练好的神经网络模型的训练过程包括：

S1：获取标注后的数据集，标注后的数据集包括原始图片以及标签，标签包括目标物体的检测区域、类别以及距离信息；

S2：将标注后的数据集输入至预训练模型中，得到训练结果，训练结果包括样本中检测出的目标物体的检测区域、类别以及距离信息。

S3：将训练结果与标签进行比对，得到训练误差，训练误差用于指导网络更新；

示例性地，将训练结果与标签进行比对，得到训练误差的方式可以是分别求取训练检测出的目标物体的检测区域与样本标签中该目标物体的检测区域的准确度、训练检测出的目标物体的种类与样本标签中该目标物体的种类的准确度、训练检测出的目标物体的距离信息与样本标签中该目标物体的距离信息的准确度，求取出三个准确度后，对其进行加权平均，将加权平均和作为训练误差。

其中，检测区域的准确度指标可以用训练检测出的目标物体的检测区域与样本标签中该目标物体的检测区域交并比结果进行表征；训练检测出的目标物体的种类与样本标签中该目标物体的种类的准确度可以用0和1进行表征，当训练检测出的目标物体的种类与样本标签中该目标物体的种类相同时，准确度为1，否则，为0；训练检测出的目标物体的距离信息与样本标签中该目标物体的距离信息的准确度可以用训练检测出的目标物体的距离信息与样本标签中该目标物体的距离的绝对差与训练检测出的目标物体的距离的比值大小进行表征。本实施例对将训练结果与标签进行比对，得到训练误差的方式不做限定，本领域技术人员可以根据需要确定。

S4：重复S2至S3，直到包括训练误差的评价指标小于预设阈值，则得到预先训练好的神经网络模型。

示例性地，训练误差的评价指标可以用误差，准确度等指标进行表征，当训练误差的评价指标为准确度时，预设阈值可以是98％。本实施例对训练误差的评价指标以及预设阈值的大小不做限定，本领域技术人员可以根据需要确定。

本实施例提供一种基于视觉传感器的物体识别装置，如图7所示，包括：

视觉传感器数据读取模块201，用于读取视觉传感器数据；具体内容参见上述方法实施例对应部分，在此不再赘述。

特征数据确定模块202，用于将所述视觉传感器数据输入至预先训练好的神经网络模型，得到目标物体的检测区域、类别以及距离信息；具体内容参见上述方法实施例对应部分，在此不再赘述。

决策结果确定模块203，用于根据所述目标物体的检测区域、类别以及距离信息，得到决策结果。具体内容参见上述方法实施例对应部分，在此不再赘述。

作为本实施例一种可选的实施方式，特征数据确定模块202，包括：

特征提取网络模块，用于获取多组特征数据，所述特征数据包括所述目标物体在视觉传感器数据中的物体特征和深度特征；

全连接层模块，用于解析多组特征数据，得到所述目标物体的检测区域、类别以及距离信息。

作为本实施例一种可选的实施方式，特征提取网络模块一下至少一种：1、神经网络；2、卷积网络、深度特征提取模块、特征融合网络；3、卷积网络、多目立体匹配模块、特征融合网络。

作为本实施例一种可选的实施方式，特征数据确定模块202包括：

第一特征数据确定子模块，用于将所述视觉传感器数据输入至特征提取网络，得到多组特征数据，所述特征数据包括所述目标物体在视觉传感器数据中的物体特征和深度特征；

第二特征数据确定子模块，用于将所述特征数据输入至全连接层，得到所述目标物体的检测区域、类别以及距离信息。

作为本实施例一种可选的实施方式，所述特征数据确定模块202，包括：

第一特征数据确定模块，用于将所述视觉传感器数据输入至目标检测神经网络模型，得到多组特征数据，所述特征数据包括所述目标物体在视觉传感器数据中的物体特征；具体内容参见上述方法实施例对应部分，在此不再赘述。

第二特征数据确定模块，用于将所述多组特征数据输入至深度信息提取模块，得到所述目标物体在视觉传感器数据中的深度特征；具体内容参见上述方法实施例对应部分，在此不再赘述。

第一特征融合模块，用于将所述多组特征数据与所述深度特征进行特征融合，得到特征融合数据，所述特征融合数据包括所述目标物体在视觉传感器数据中的物体特征和深度特征；具体内容参见上述方法实施例对应部分，在此不再赘述。

第一感知信息确认模块，用于将所述特征融合数据输入至全连接层，得到所述目标物体的检测区域、类别以及距离信息。具体内容参见上述方法实施例对应部分，在此不再赘述。

第三特征数据确定模块，用于将所述视觉传感器数据输入至卷积网络，得到多组特征数据，所述特征数据包括所述目标物体在视觉传感器数据中的物体特征；具体内容参见上述方法实施例对应部分，在此不再赘述。

第四特征数据确定模块，用于将多目摄像头视觉传感器数据输入至多目立体匹配模块，得到所述目标物体在视觉传感器数据中的深度特征；具体内容参见上述方法实施例对应部分，在此不再赘述。

第二特征融合模块，用于将所述多组特征数据与所述深度信息进行特征融合，得到特征融合数据，所述特征融合数据包括所述目标物体在视觉传感器数据中的物体特征和深度特征；具体内容参见上述方法实施例对应部分，在此不再赘述。

第二感知信息确认模块，用于将所述特征融合数据输入至全连接层，得到所述目标物体的检测区域、类别以及距离信息。具体内容参见上述方法实施例对应部分，在此不再赘述。

作为本实施例一种可选的实施方式，还包括：预处理模块，用于将所述视觉传感器数据进行预处理(例如，将读取到的图片缩放到一定大小以降低神经网络计算量)，得到预处理数据；具体内容参见上述方法实施例对应部分，在此不再赘述。

作为本实施例一种可选的实施方式，第一特征融合模块或第二特征融合模块，包括：

第一融合模块，用于将所述多组特征数据与所述深度信息在目标维度上进行拼接或叠放，得到特征融合数据；或

第二融合模块，用于将所述多组特征数据与所述深度信息经过目标运算，得到特征融合数据。

数据集获取模块，用于获取标注后的数据集，所述标注后的数据集包括原始图片以及标签，所述标签包括目标物体的检测区域、类别以及距离信息；具体内容参见上述方法实施例对应部分，在此不再赘述。

训练结果确认模块，用于将所述标注后的数据集输入至预训练模型中，得到训练结果；具体内容参见上述方法实施例对应部分，在此不再赘述。

误差确认模块，用于将训练结果与标签进行比对，得到训练误差，所述训练误差用于指导网络更新；具体内容参见上述方法实施例对应部分，在此不再赘述。

训练模块，用于当训练误差小于预设阈值，则得到预先训练好的神经网络模型。具体内容参见上述方法实施例对应部分，在此不再赘述。

本申请实施例还提供一种机器人，如图8所示，处理器310和存储器320，其中处理器310和存储器320可以通过总线或者其他方式连接。

处理器310可以为中央处理器(Central Processing Unit，CPU)。处理器310还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器320作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的基于视觉传感器的物体识别方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理。

存储器320可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器320可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器320中，当被所述处理器310执行时，执行如图2所示实施例中的基于视觉传感器的物体识别方法。

上述机器人的具体细节可以对应参阅图2所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本实施例还提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中基于视觉传感器的物体识别方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read－Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive，缩写：HDD)或固态硬盘(Solid－State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于视觉传感器的物体识别方法，其特征在于，包括如下步骤：

读取视觉传感器数据；

将所述视觉传感器数据输入至预先训练好的神经网络模型，得到目标物体的检测区域、类别以及距离信息；

根据所述目标物体的检测区域、类别以及距离信息，得到决策结果。

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型包括：

特征提取网络，用于获取多组特征数据，所述特征数据包括所述目标物体在视觉传感器数据中的物体特征和深度特征；

全连接层，用于解析多组特征数据，得到所述目标物体的检测区域、类别以及距离信息。

3.根据权利要求2所述的方法，其特征在于，所述特征提取网络包括以下之一：

神经网络；

卷积网络、深度特征提取模块、特征融合网络；

卷积网络、多目立体匹配模块、特征融合网络。

4.根据权利要求3所述的方法，其特征在于，当所述特征提取网络包括：神经网络时，所述将所述视觉传感器数据输入至预先训练好的神经网络模型，得到目标物体的检测区域、类别以及距离信息，包括：

将所述视觉传感器数据输入至特征提取网络，得到多组特征数据，所述特征数据包括所述目标物体在视觉传感器数据中的物体特征和深度特征；

将所述特征数据输入至全连接层，得到所述目标物体的检测区域、类别以及距离信息。

5.根据权利要求3所述的方法，其特征在于，当所述特征提取网络包括：卷积网络、深度特征提取模块、特征融合网络时，所述将所述视觉传感器数据输入至预先训练好的神经网络模型，得到目标物体的检测区域、类别以及距离信息，包括：

将所述视觉传感器数据输入至卷积网络，得到多组特征数据，所述特征数据包括所述目标物体在视觉传感器数据中的物体特征；

将所述多组特征数据输入至深度信息提取模块，得到所述目标物体在视觉传感器数据中的深度特征；

将所述多组特征数据与所述深度特征进行特征融合，得到特征融合数据，所述特征融合数据包括所述目标物体在视觉传感器数据中的物体特征和深度特征；

将所述特征融合数据输入至全连接层，得到所述目标物体的检测区域、类别以及距离信息。

6.根据权利要求3所述的方法，其特征在于，当所述特征提取网络包括：卷积网络、多目立体匹配模块、特征融合网络时，所述视觉传感器数据为多目摄像头视觉传感器数据；所述将所述视觉传感器数据输入至预先训练好的神经网络模型，得到目标物体的检测区域、类别以及距离信息，包括：

将多目摄像头视觉传感器数据输入至多目立体匹配模块，得到所述目标物体在视觉传感器数据中的深度特征；

将所述多组特征数据与所述深度信息进行特征融合，得到特征融合数据，所述特征融合数据包括所述目标物体在视觉传感器数据中的物体特征和深度特征；

7.根据权利要求5或6所述的方法，其特征在于，将所述多组特征数据与所述深度信息进行特征融合，得到特征融合数据，包括：

将所述多组特征数据与所述深度信息在目标维度上进行拼接或叠放，得到特征融合数据；或

将所述多组特征数据与所述深度信息经过目标运算，得到特征融合数据。

8.根据权利要求1所述的方法，其特征在于，所述预先训练好的神经网络模型的训练过程包括：

S1：获取标注后的数据集，所述标注后的数据集包括原始图片以及标签，所述标签包括目标物体的检测区域、类别以及距离信息；

S2：将所述标注后的数据集输入至预训练模型中，得到训练结果；

S3：将训练结果与标签进行比对，得到训练误差，所述训练误差用于指导网络更新；

S4：重复S2至S3，直到包括有训练误差的评价指标小于预设阈值，则得到预先训练好的神经网络模型。

9.一种基于视觉传感器的物体识别装置，其特征在于，包括：

视觉传感器数据读取模块，用于打开视觉传感器并读取视觉传感器数据；

特征数据确定模块，用于将所述视觉传感器数据输入至预先训练好的神经网络模型，得到目标物体的检测区域、类别以及距离信息；

决策结果确定模块，用于根据所述目标物体的检测区域、类别以及距离信息，得到决策结果。

10.一种机器人，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1－8任一所述的基于视觉传感器的物体识别方法的步骤。