CN112207821B

CN112207821B - 视觉机器人的目标搜寻方法及机器人

Info

Publication number: CN112207821B
Application number: CN202010997615.1A
Authority: CN
Inventors: 于峰
Original assignee: Dalian Aoyou Intelligent Technology Co ltd
Current assignee: Dalian Aoyou Intelligent Technology Co ltd
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2021-10-01
Anticipated expiration: 2040-09-21
Also published as: CN112207821A

Abstract

本发明提供了视觉机器人的目标搜寻方法及机器人，涉及机器人搜寻技术领域。所述方法包括步骤：获取搜寻目标信息；所述搜寻目标信息包括目标特征和所属目标类型；启动视觉相机拍摄以获取视野图像，根据前述所属目标类型对应的目标检测神经网络模型的检测图像尺寸要求，对视野图像进行预处理以生成检测图像，将检测图像输入到前述对应的目标检测神经网络模型进行目标检测；所述检测图像是由分辨率不同的、且与视野图像相关的多个图像拼接而成；获取目标检测结果，根据前述目标特征判断目标检测结果中是否有搜寻目标。本发明在保证远近目标搜寻的实时准确性的基础上，降低了远近目标搜寻对设备算力的要求。

Description

视觉机器人的目标搜寻方法及机器人

技术领域

本发明涉及机器人搜寻技术领域。

背景技术

通过智能移动机器人对目标进行搜寻被广泛地应用在搜救服务、场景监控和对象寻找、目标探测等领域，具有广泛应用前景。

移动机器人对目标的搜寻可能会涉及计算机视觉和模式识别等多个领域。其中，对于计算机视觉，目的是模拟人类视觉机制，计算视觉场景中信息的重要程度，提取图像中感兴趣的显著性特征或目标物体特征。机器人基于视觉进行目标搜寻的过程通常包括图像采集、目标检测和目标确认。随着人工智能和深度学习技术的快速发展，基于卷积神经网络(CNN)算法的目标检测方法得到了广泛应用。相较于传统的机器视觉方法，卷积神经网络在大数据的训练下，从大量数据中学习出有用的特征，具有速度快、精度高、成本低等优势。

然而，一方面，虽然卷积神经网络算法提高了跟踪的实时准确性，但由于卷积神经网络基于目标检测算法通常包含大量计算密集型运算，对实时检测算力和带宽的要求很高。另一方面，人们在使用视觉机器人对目标进行搜寻时，通常期望机器人不仅对近处目标有较好的搜寻能力，而且对远处目标具有较好的搜寻能力。卷积神经网络模型中为了检测不同远近距离的目标，目前常用的方法是：对原始图像进行多尺度缩放，生成多尺度金字塔图像组，然后对不同尺度的输入图像分别检测；具体的，在检测近处目标时，在缩小的图像上检测；在检测远处目标时，在高分辨率的大尺寸图像上检测。由于需要为每级图像尺度设计训练神经网络，对设备的算力和带宽提出了更高要求。如何在保证远近目标搜寻的实时准确性的基础上，降低目标实时搜寻对设备算力的要求，是当前亟待解决的技术问题。

发明内容

本发明的目的在于：克服现有技术的不足，提供了一种视觉机器人的目标搜寻方法及机器人。本发明针对搜寻目标的所属目标类型设置了不同的目标检测神经网络模型，在检测目标时可以仅针对搜寻目标所属类型进行目标检测；同时，通过分辨率不同的、且与视野图像相关的多个图像拼接形成检测图像以匹配目标检测神经网络模型的检测尺寸，大分辨率图像适合搜寻近处目标，小分辨率图像适合搜寻远处目标，无需对不同尺度的输入图像分别检测，在保证远近目标搜寻的实时准确性的基础上，降低了远近目标搜寻对设备算力的要求。

为实现上述目标，本发明提供了如下技术方案：

一种视觉机器人的目标搜寻方法，包括步骤：

获取搜寻目标信息；所述搜寻目标信息包括目标特征和所属目标类型，不同的目标类型对应有不同的目标检测神经网络模型；

启动视觉相机拍摄以获取视野图像，根据前述所属目标类型对应的目标检测神经网络模型的检测图像尺寸要求，对视野图像进行预处理以生成检测图像，将检测图像输入到前述对应的目标检测神经网络模型进行目标检测；所述检测图像是由分辨率不同的、且与视野图像相关的多个图像拼接而成；

获取目标检测结果，根据前述目标特征判断目标检测结果中是否有搜寻目标。

进一步，在判定有搜寻目标的情况下，启动视觉机器人的跟随模式，对前述搜寻目标进行跟随；否则，调整视觉相机的拍摄角度向左或向右旋转预设角度，重新获取视野图像后，进行前述目标检测的过程。

优选的，所述搜寻目标为人，所述目标特征为人脸特征信息，在跟随模式下，将所述人脸特征作为识别特征构建视觉跟踪器；以及，对应所述跟随模式设置有第一跟随距离，在跟随过程中与所述目标保持所述第一跟随距离。

优选的，在跟随过程中，获取目标的图像，识别目标的衣着特征信息、装扮特征信息、携带物品特征信息和/或步态特征信息作为目标附加信息，将所述目标附加信息发送至视觉跟踪器进行搜寻目标信息更新。

另一方面，所述搜寻目标为车辆，所述目标特征为车辆ID信息，在跟随模式下，将所述车辆ID信息作为识别特征构建视觉跟踪器；以及，对应所述跟随模式设置有第一跟随距离，在跟随过程中与所述目标保持所述第一跟随距离。

另一方面，所述视觉相机为单目视觉相机或双目立体视觉相机；在跟随过程中，保持所述目标位于视野中心区域；

当跟随目标偏离时，通过控制机器人进行旋转来补偿偏移量，或者通过控制机器人上安装的视觉相机旋转来补偿偏移量，并调整跟随方位。

另一方面，通过视觉机器人的显示结构输出视觉相机拍摄的实时视野图像，在目标检测结果中有搜寻目标的情况下，将检测出的搜寻目标映射到前述实时画面中进行标识输出；

以及，将包含搜寻目标的实时视野图像发送至关联用户所在的远程终端进行输出显示。

另一方面，通过所述远程终端上的即时通信工具、短视频工具和/或直播工具输出前述实时视野图像。

另一方面，对视野图像进行预处理以生成检测图像步骤包括：

将视野图像作为原始分辨率图像，对原始分辨率图像按两个压缩比例进行压缩处理以获得分辨率不同的两个全局映射图像；其中，分辨率小的全局映射图像的尺寸应小于检测图像的要求尺寸，分辨率大的全局映射图大于检测图像的要求尺寸；

选取分辨率小的全局映射图作为检测图像的第一拼接图，用检测图像的尺寸减去前述第一拼接图的尺寸以获取剩余区域的尺寸；

根据剩余区域的尺寸的大小设置一个或多个截取框，通过所述截取框在分辨率大的全局映射图的边缘区域获取大分辨率的边缘局部图像，将所述边缘局部图像填充到前述剩余区域进行拼接，形成检测图像。

本发明还提供了一种视觉机器人，设置有视觉相机，还包括如下结构：

信息采集模块，用于获取搜寻目标信息；所述搜寻目标信息包括目标特征和所属目标类型，不同的目标类型对应有不同的目标检测神经网络模型；

目标检测模块，用于启动视觉相机拍摄以获取视野图像，根据前述所属目标类型对应的目标检测神经网络模型的检测图像尺寸要求，对视野图像进行预处理以生成检测图像，将检测图像输入到前述对应的目标检测神经网络模型进行目标检测；所述检测图像是由分辨率不同的、且与视野图像相关的多个图像拼接而成；

目标搜寻模块，用于获取目标检测结果，根据前述目标特征判断目标检测结果中是否有搜寻目标。

本发明由于采用以上技术方案，与现有技术相比，具有以下的优点和积极效果：针对搜寻目标的所属目标类型设置了不同的目标检测神经网络模型，在检测目标时可以仅针对搜寻目标所属类型进行目标检测；同时，通过分辨率不同的、且与视野图像相关的多个图像拼接形成检测图像以匹配目标检测神经网络模型的检测尺寸，大分辨率图像适合搜寻近处目标，小分辨率图像适合搜寻远处目标，无需对不同尺度的输入图像分别检测，在保证远近目标搜寻的实时准确性的基础上，降低了远近目标搜寻对设备算力的要求。

附图说明

图1为本发明实施例提供的视觉机器人的目标搜寻方法的流程图。

图2为本发明实施例提供的确定搜寻目标的信息传输图。

具体实施方式

以下结合附图和具体实施例对本发明公开的视觉机器人的目标搜寻方法及机器人作进一步详细说明。应当注意的是，下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。在下述实施例的附图中，各附图所出现的相同标号代表相同的特征或者部件，可应用于不同实施例中。因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。附图均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定发明可实施的限定条件，任何结构的修饰、比例关系的改变或大小的调整，在不影响发明所能产生的功效及所能达成的目的下，均应落在发明所揭示的技术内容所能涵盖的范围内。

实施例

参见图1和图2所示，为本发明提供的一种基于视觉的机器人跟随方法。

所述方法包括步骤：

一种视觉机器人的目标搜寻方法，包括步骤：

步骤1，获取搜寻目标信息。

所述搜寻目标信息包括目标特征和所属目标类型，不同的目标类型对应有不同的目标检测神经网络模型，不同的目标检测神经网络模型设置有固定的检测图像尺寸要求。

步骤2，根据所属目标类型对应的目标检测神经网络模型，检测视野图像中的同一类型的目标。

启动视觉相机拍摄以获取视野图像，根据前述所属目标类型对应的目标检测神经网络模型的检测图像尺寸要求，对视野图像进行预处理以生成检测图像，将检测图像输入到前述对应的目标检测神经网络模型进行目标检测；所述检测图像是由分辨率不同的、且与视野图像相关的多个图像拼接而成。

所述视野图像，即通过视觉相机拍摄的原始图像数据，也可以称为视野输入图像(原始输入图像)。

步骤3，确定搜寻目标。获取目标检测结果，根据前述目标特征判断目标检测结果中是否有搜寻目标。

进一步，步骤3之后还可以包括步骤：在判定有搜寻目标的情况下，启动视觉机器人的跟随模式，对前述搜寻目标进行跟随。

以及，在判定没有搜寻目标的情况下，调整视觉相机的拍摄角度向左或向右旋转预设角度，重新获取视野图像后，进行前述目标检测的过程，如下：对视野图像进行预处理以生成检测图像，将检测图像输入到前述对应的目标检测神经网络模型进行目标检测；所述检测图像是由分辨率不同的、且与视野图像相关的多个图像拼接而成；获取目标检测结果，根据前述目标特征判断目标检测结果中是否有搜寻目标。

所述旋转预设角度，可以根据所述视觉相机的类型来设置。

本实施例中视觉相机可以为单目视觉相机、双目立体视觉相机、多目(三目及以上)立体视觉相机和全景视觉相机。一般来说，目数越多，获取的信息量越大，检测率越高，但算法处理时间也会增长，实时性也降低；反之，越好目数越小，算法处理时间短，实时性也越好。考虑到设备算力和实时性要求，优选为单目视觉相机或双目立体视觉相机。对应单目视觉相机，所述旋转预设角度优选范围为60度-120度之间；对于双目立体视觉相机，所述旋转预设角度优选范围为 120度-180度之间。

本实施例中，针对不同的目标类型对应有不同的目标检测神经网络模型，不同的目标检测神经网络模型设置有固定的检测图像尺寸要求。作为举例而非限制，比如所述目标类型具体可以为人、车辆、狗、无人机、鱼类等各种需要搜寻的运动目标。对应于不同目标，可以通过图像库进行模型训练以得到适用于不同目标的目标检测神经网络模型。

优选的实施方式中，所述搜寻目标为人。

此时，所述目标特征优选为人脸特征信息，在跟随模式下，将所述人脸特征作为识别特征构建视觉跟踪器；以及，对应所述跟随模式设置有第一跟随距离，在跟随过程中与所述目标保持所述第一跟随距离。此时，机器人在跟随目标时候，可以先基于人脸的侧部特征和/或面部五官特征进行跟随目标的确认，在确认跟随目标后，获取该目标的其它特征——比如步态特征、衣着特征等——以便于从其它方位进行跟随。

具体的，在跟随过程中，再通过人脸特征确认目标后，可以获取跟随目标的图像，识别目标的衣着特征信息、装扮特征信息、携带物品特征信息和/或步态特征信息作为目标附加信息，将所述目标附加信息发送至视觉跟踪器进行搜寻目标信息更新，并调整跟踪方位。优选的，还可以将跟踪距离调整为第二跟踪距离，所述第二跟随距离大于第一跟随距离。

在另一优选实施方式中，所述搜寻目标为车辆。

此时，所述目标特征为车辆ID信息，在跟随模式下，将所述车辆ID信息作为识别特征构建视觉跟踪器；以及，对应所述跟随模式设置有第一跟随距离，在跟随过程中与所述目标保持所述第一跟随距离。与前述实施方式类似，机器人在跟随目标时候，可以先基于车辆ID信息进行跟随目标的确认，在确认跟随目标后，获取该目标的其它特征——比如颜色、外观、尺寸特征等作为目标附加信息，将所述目标附加信息发送至视觉跟踪器进行搜寻目标信息更新，以便于从其它方位进行跟随。

在跟随过程中，最好保持所述目标位于视野中心区域。当跟随目标偏离时，通过控制机器人进行旋转来补偿偏移量，或者通过控制机器人上安装的视觉相机旋转来补偿偏移量，并调整跟随方位。

通过采用上述技术方案，机器人可以先基于具有显著性特征(五官特征)的、易于确认目标身份的人脸特征确定跟随目标，再通过跟随目标的其他特征进行后方跟随，便于调整跟随方位，降低跟丢概率。

本实施例中，还可以通过视觉机器人的显示结构输出视觉相机拍摄的实时视野图像，在目标检测结果中有搜寻目标的情况下，将检测出的搜寻目标映射到前述实时画面中进行标识输出。

进一个，还可以将包含搜寻目标的实时视野图像发送至关联用户所在的远程终端进行输出显示。

所述远程终端，优选的采用手机、平板电脑、佩戴式智能终端——比如智能眼镜和智能手表等。如此，便于远程用户辅助机器人进行目标跟踪。

优选的，机器人跟随过程中可以启动录像功能，并将录像的视频数据存储在关联的存储器或云端服务器中，并定期发送至前述用户的终端上。进一步，用户还可以通过终端发送实时查阅指令至机器人，机器人根据所述实时查阅指令将当前的实时视频数据或截图发送至所述用户的终端。

优选的，通过前述远程终端——比如手机——上的即时通信工具、短视频工具和/或直播工具输出前述实时视野图像。

本实施例中，组成所述检测图像的多个拼接图像的分辨率可以均不同。作为举例而非限制，比如检测图像包括3个拼接图像，3个拼接图像的分辨率均不相同。

或者，组成所述检测图像的多个拼接图像中，部分拼接图像的分辨率相同。作为举例而非限制，比如检测图像包括3个拼接图像，其中2个拼接图像的分辨率取自同一分辨率的图像，两者的分辨率相同。另外1个拼接图像的分辨率与前述二者不同。

在一个优选的实施方式中，对视野图像进行预处理以生成检测图像步骤可以如下：

前述截取框是固定的，对于每帧图像，只在分辨率大的全局映射图的固定的边缘区域获取大分辨率的边缘局部图像，截取框的形状和尺寸与剩余区域的尺寸适配，且截取框的尺寸大于行人检测神经网络模型的最小检测尺寸。

具体的，截取框的形状可以根据需要设置为矩形框、L型框、冂型框(开口可以向上、向下、向左或向右)和口型框。

优选的，截取框设置为矩形框，根据剩余区域的形状，矩形框可以设置为多个，所述多个矩形截取框能够通过边缘拼接组成剩余区域的形状。

所述固定的边缘区域，可以是左边边缘区域、右边边缘区域、上边边缘区域和/或下边边缘区域，优选为右边边缘区域和/或上边边缘区域。由于在相机拍摄图像时，由视野中心向外延伸，远处小目标位于图像边缘区域的概率要大于其位于图像中间区域(视野中心区域或靠近视野中心区域)的概率，即在图像边缘区域检测到远处小目标的可能性大于在图像中间区域检测到远处小目标的可能性 (图像中间区域更容易检测到近处大目标)，因此在通过分辨率小的全局映射图检测近处大目标时，可以通过截取分辨率大的全局映射图的边缘区域的局部图像来增加对可能位于边缘处的远处小目标的检测率。

所述检测图像是固定的输入尺寸，输入行人检测神经网络模型的检测图像的尺寸需要与前述固定的输入尺寸一致。根据检测图像的剩余区域的尺寸，可以设置一个或多个截取框在分辨率大的全局映射图的边缘区域获取局部图像(位于截取框中的图像即为截取的局部图像)。通过采用固定尺寸的检测图像，可以显著简化行人检测神经网络模型的模型训练和模型设计复杂度。

作为举例而非限制，比如视野图像的宽高尺寸为1000*1000像素，即原始分辨率图像的分辨率为1000*1000像素，检测图像要求的输入尺寸为540*360像素，对原始分辨率图像按两个压缩比例进行压缩处理(宽高等比例压缩)获得分辨率不同的两个全局映射图像，分别为300*300像素(压缩比例为0.3)和600*600 像素(压缩比例为0.6)，前者的尺寸小于检测图像的要求尺寸，后者的尺寸大于检测图像的要求尺寸。

将分辨率为300*300像素的全局映射图作为第一拼接图，然后根据检测图像的尺寸540*360像素，在第一拼接图的边缘用大分辨率(600*600像素)的局部图像进行剩余区域的拼接填充。拼接填充规则可以由系统默认或用户个性化设置，比如可以将拼接填充规则设置为：相比于左侧边缘优先基于第一拼接图的右边边缘拼接填充局部图像，以及相比于上边边缘优先基于第一拼接图的下边边缘拼接填充局部图像。上述剩余区域尺寸为L型，可以设置2个矩形截取框，作为举例，比如2个矩形截取框的宽高尺寸分别为240*360像素和300*60像素， 240*360截取框中的截取图像(来自于600*600像素的大分辨率图像)拼接到第一拼接图的左边边缘，满足检测图像的540的宽度要求(300+240＝540)，300*60 截取框中的截取图像(也来自于600*600像素的大分辨率图像)拼接到第一拼接图的下边边缘进行填充，满足检测图像的360的高度要求(300+60＝360)，构造了符合检测图像尺寸要求的拼接图像。

需要说明的是，根据剩余区域尺寸的形状和检测需要，可以设置更多个矩形截取框，只要多个矩形截取框能够通过边缘拼接组成剩余区域的形状即可。但优选的，在设置拼接的矩形截取框的个数时，基于“使参与拼接的矩形框最少”的规则设置矩形框的个数。

在另一个优选的实施方式中，对视野图像进行预处理以生成检测图像步骤如下：

将视野图像作为原始分辨率图像，判定原始分辨率图像的尺寸大于检测图像的要求尺寸时，对原始分辨率图像按压缩比例进行压缩处理以获得小分辨率的全局映射图像，所述小分辨率的全局映射图像的尺寸应小于检测图像的要求尺寸。

选取小分辨率的全局映射图作为检测图像的第一拼接图，用检测图像的尺寸减去前述第一拼接图的尺寸以获取剩余区域的尺寸。

根据剩余区域的尺寸的大小设置一个或多个截取框，通过所述截取框在原始分辨率图像的边缘区域获取大分辨率的边缘局部图像，将所述边缘局部图像填充到前述剩余区域进行拼接，形成检测图像。

在本实施例的另一实施方式中，还可以将前述固定的截取框设置为能够按规则移动的滑动框。具体的，所述滑动框(或称滑动窗)能够按照预设的移动规则按帧在指定图像上移动到不同的位置，比如从指定图像的左上角开始，按从左往右从上往下顺序匀速扫描全图，也可以按照用户设定的顺序扫描全图，也可以是按随机移动规则扫描全图。如此，可以实现对大分辨率图像的完整检测。

此时，对视野图像进行预处理以生成检测图像步骤可以如下：

将视野图像作为原始分辨率图像，对原始分辨率图像按两个压缩比例进行压缩处理以获得分辨率不同的两个全局映射图像；其中，分辨率小的全局映射图像的尺寸应小于检测图像的要求尺寸，分辨率大的全局映射图大于检测图像的要求尺寸。

选取分辨率小的全局映射图作为检测图像的第一拼接图，用检测图像的尺寸减去前述第一拼接图的尺寸以获取剩余区域的尺寸。

根据剩余区域的尺寸的大小设置一个或多个滑动框，所述滑动框能够按照预设的移动规则按帧在分辨率大的全局映射图上移动到不同的位置，通过所述截取框在分辨率大的全局映射图上获取该全局映射图的局部图像，将所述局部图像填充到前述剩余区域进行拼接，形成检测图像。

本发明还提供了可以进行目标搜寻的视觉机器人，其设置有视觉相机。所述视觉机器人还包括如下结构：

信息采集模块，用于获取搜寻目标信息；所述搜寻目标信息包括目标特征和所属目标类型，不同的目标类型对应有不同的目标检测神经网络模型。

目标检测模块，用于启动视觉相机拍摄以获取视野图像，根据前述所属目标类型对应的目标检测神经网络模型的检测图像尺寸要求，对视野图像进行预处理以生成检测图像，将检测图像输入到前述对应的目标检测神经网络模型进行目标检测；所述检测图像是由分辨率不同的、且与视野图像相关的多个图像拼接而成。

所述目标搜寻模块还被配置为：在判定没有搜寻目标的情况下，调整视觉相机的拍摄角度向左或向右旋转预设角度，重新获取视野图像后，进行前述目标检测的过程，如下：对视野图像进行预处理以生成检测图像，将检测图像输入到前述对应的目标检测神经网络模型进行目标检测；所述检测图像是由分辨率不同的、且与视野图像相关的多个图像拼接而成；获取目标检测结果，根据前述目标特征判断目标检测结果中是否有搜寻目标。

所述旋转预设角度，可以根据所述视觉相机的类型来设置。

其它技术特征参见在前实施例，所述电路模块可以被配置为执行在前实施例中描述的信息传输和信息处理功能，在此不再赘述。

在上面的描述中，在本公开内容的目标保护范围内，各组件可以以任意数目选择性地且操作性地进行合并。另外，像“包括”、“囊括”以及“具有”的术语应当默认被解释为包括性的或开放性的，而不是排他性的或封闭性，除非其被明确限定为相反的含义。虽然已出于说明的目的描述了本公开内容的示例方面，但是本领域技术人员应当意识到，上述描述仅是对本发明较佳实施例的描述，并非对本发明范围的任何限定，本发明的优选实施方式的范围包括另外的实现，其中可以不按所述出现或讨论的顺序来执行功能。本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。

Claims

1.一种视觉机器人的目标搜寻方法，其特征在于包括步骤：

获取目标检测结果，根据前述目标特征判断目标检测结果中是否有搜寻目标；

其中，对视野图像进行预处理以生成检测图像步骤包括：

将视野图像作为原始分辨率图像，对原始分辨率图像按两个压缩比例进行压缩处理以获得分辨率不同的两个全局映射图像；其中，分辨率小的全局映射图像的尺寸小于检测图像的要求尺寸，分辨率大的全局映射图的尺寸大于检测图像的要求尺寸；

2.根据权利要求1所述的目标搜寻方法，其特征在于：在判定有搜寻目标的情况下，启动视觉机器人的跟随模式，对前述搜寻目标进行跟随；否则，调整视觉相机的拍摄角度向左或向右旋转预设角度，重新获取视野图像后，进行前述目标检测的过程。

3.根据权利要求2所述的目标搜寻方法，其特征在于：所述搜寻目标为人，所述目标特征为人脸特征信息，在跟随模式下，将所述人脸特征作为识别特征构建视觉跟踪器；以及，对应所述跟随模式设置有第一跟随距离，在跟随过程中与所述目标保持所述第一跟随距离。

4.根据权利要求3所述的目标搜寻方法，其特征在于：在跟随过程中，获取目标的图像，识别目标的衣着特征信息、装扮特征信息、携带物品特征信息和/或步态特征信息作为目标附加信息，将所述目标附加信息发送至视觉跟踪器进行搜寻目标信息更新。

5.根据权利要求2所述的目标搜寻方法，其特征在于：所述搜寻目标为车辆，所述目标特征为车辆ID信息，在跟随模式下，将所述车辆ID信息作为识别特征构建视觉跟踪器；以及，对应所述跟随模式设置有第一跟随距离，在跟随过程中与所述目标保持所述第一跟随距离。

6.根据权利要求4或5所述的目标搜寻方法，其特征在于：所述视觉相机为单目视觉相机或双目立体视觉相机；在跟随过程中，保持所述目标位于视野中心区域；

7.根据权利要求1所述的目标搜寻方法，其特征在于：通过视觉机器人的显示结构输出视觉相机拍摄的实时视野图像，在目标检测结果中有搜寻目标的情况下，将检测出的搜寻目标映射到前述实时视野图像中进行标识输出；

8.根据权利要求7所述的目标搜寻方法，其特征在于：通过所述远程终端上的即时通信工具、短视频工具和/或直播工具输出前述实时视野图像。

9.一种根据权利要求1所述方法的视觉机器人，设置有视觉相机，其特征在于还包括如下结构：