CN108762250A

CN108762250A - 设备的控制方法和装置、设备、计算机程序和存储介质

Info

Publication number: CN108762250A
Application number: CN201810395270.5A
Authority: CN
Inventors: 刘春晓; 杨睿; 曾仕元; 张伟; 林倞
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2018-11-06

Abstract

本发明实施例公开了一种设备的控制方法和装置、设备、计算机程序和存储介质，其中，方法包括：采集视频图像；对所述视频图像中的视觉标记进行识别，得到所述视觉标记的识别结果；所述视觉标记包括以下任意一个或者多个种类：标记物的位置、颜色、形状，人体的动作、姿态、手势；根据所述视觉标记的识别结果确定对应的控制指令；根据所述控制指令对设备的运动状态进行控制；所述设备包括以下任意一种或多种：无人小车、车辆、玩具车、机器人。本发明实施例可以提升交互体验。

Description

设备的控制方法和装置、设备、计算机程序和存储介质

技术领域

本发明涉及无人驾驶技术，尤其是一种设备的控制方法和装置、电子设备、计算机程序和存储介质。

背景技术

无人小车，也称移动小车，目前已经在仓库物流、学校教育、玩具娱乐等领域得到了广泛的应用。无人小车可以极大的节约人力成本，便于实现自动化、规范化管理，可以适应各种环境和强度的要求，可以提升用户的体验感和乐趣。

发明内容

本发明实施例提供一种设备的控制方案。

根据本发明实施例的一个方面，提供一种设备的控制方法，包括：

采集视频图像；

对所述视频图像中的视觉标记进行识别，得到所述视觉标记的识别结果；所述视觉标记包括以下任意一个或者多个种类：标记物的位置、颜色、形状，人体的动作、姿态、手势；

根据所述视觉标记的识别结果确定对应的控制指令；

根据所述控制指令对设备的运动状态进行控制；所述设备包括以下任意一种或多种：无人小车、车辆、玩具车、机器人。

可选地，在本发明上述方法实施例中，所述对所述视频图像中的视觉标记进行识别，包括：

通过神经网络对所述视频图像中的视觉标记进行识别。

可选地，在本发明上述任一方法实施例中，所述通过神经网络对所述视频图像中的视觉标记进行识别，得到所述视觉标记的识别结果，包括：

利用神经网络对所述视频图像中的视觉标记进行特征提取；

利用神经网络根据提取到的特征数据，确定所述视觉标记的种类，得到所述视觉标记的识别结果。

可选地，在本发明上述任一方法实施例中，所述对所述视频图像中的视觉标记进行特征提取，包括：

对包含所述视频图像的视频序列中的多帧视频图像进行特征提取，得到多帧视频图像的特征数据；所述多帧视频图像包括所述视频图像。

可选地，在本发明上述任一方法实施例中，所述根据所述视觉标记的识别结果确定对应的控制指令，包括：

根据预设的视觉标记的种类与控制指令之间的对应关系，获取所述视觉标记对应的控制指令。

确定所述视频图像中视觉标记的数量；

若所述视频图像中包括二个以上视觉标记，根据所述视觉标记的种类获取每一个所述视觉标记预设的优先级；

判断各所述视觉标记的优先级是否相同；

若各所述视觉标记的优先级相同，根据各所述视觉标记的种类确定对应的控制指令；

若各所述视觉标记的优先级不同，根据具有最高优先级的所述视觉标记的种类确定控制指令。

可选地，在本发明上述任一方法实施例中，所述人体的动作、姿态和/或手势的优先级高于所述标记物的位置、颜色和/或形状的优先级。

可选地，在本发明上述任一方法实施例中，所述根据所述控制指令对设备的运动状态进行控制，包括：

根据所述控制指令，基于设备当前的运动状态，获取用于控制所述设备运动状态的控制信号；

根据所述控制信号控制执行机构，对所述设备的运动状态进行控制。

可选地，在本发明上述任一方法实施例中，所述根据所述控制指令，基于设备当前的运动状态，获取用于控制所述设备运动状态的控制信号，包括：

获取所述设备当前的运动状态，以及获取所述控制指令对应的所述设备的目标运动状态；所述运动状态包括：位置信息、偏航角信息和速度信息；

确定所述设备当前的运动状态与所述目标运动状态之间的差值，获取用于控制所述设备的运动状态、以达到所述目标运动状态的控制信号。

根据本发明实施例的另一个方面，提供的一种设备的控制装置，包括：

采集单元，用于采集视频图像；

识别单元，用于对所述视频图像中的视觉标记进行识别，得到所述视觉标记的识别结果；所述视觉标记包括以下任意一个或者多个种类：标记物的位置、颜色、形状，人体的动作、姿态、手势；

处理单元，用于根据所述视觉标记的识别结果确定对应的控制指令；

控制单元，用于根据所述控制指令对设备的运动状态进行控制；所述设备包括以下任意一种或多种：无人小车、车辆、玩具车、机器人。

可选地，在本发明上述装置实施例中，所述识别单元，用于通过神经网络对所述视频图像中的视觉标记进行识别。

可选地，在本发明上述任一装置实施例中，所述识别单元，用于利用神经网络对所述视频图像中的视觉标记进行特征提取；以及利用神经网络根据提取到的特征数据，确定所述视觉标记的种类，得到所述视觉标记的识别结果。

可选地，在本发明上述任一装置实施例中，所述识别单元，用于对包含所述视频图像的视频序列中的多帧视频图像进行特征提取，得到多帧视频图像的特征数据；所述多帧视频图像包括所述视频图像。

可选地，在本发明上述任一装置实施例中，所述处理单元，用于根据预设的视觉标记的种类与控制指令之间的对应关系，获取所述视觉标记对应的控制指令。

可选地，在本发明上述任一装置实施例中，所述处理单元，用于确定所述视频图像中视觉标记的数量；若所述视频图像中包括二个以上视觉标记，根据所述视觉标记的种类获取每一个所述视觉标记预设的优先级；以及判断各所述视觉标记的优先级是否相同；若各所述视觉标记的优先级相同，根据各所述视觉标记的种类确定对应的控制指令；若各所述视觉标记的优先级不同，根据具有最高优先级的所述视觉标记的种类确定控制指令。

可选地，在本发明上述任一装置实施例中，所述人体的动作、姿态和/或手势的优先级高于所述标记物的位置、颜色和/或形状的优先级。

可选地，在本发明上述任一装置实施例中，所述控制单元，用于根据所述控制指令，基于设备当前的运动状态，获取用于控制所述设备运动状态的控制信号；以及根据所述控制信号控制执行机构，对所述设备的运动状态进行控制。

可选地，在本发明上述任一装置实施例中，所述控制单元，用于获取所述设备当前的运动状态，以及获取所述控制指令对应的所述设备的目标运动状态；所述运动状态包括：位置信息、偏航角信息和速度信息；以及确定所述设备当前的运动状态与所述目标运动状态之间的差值，获取用于控制所述设备的运动状态、以达到所述目标运动状态的控制信号。

根据本发明实施例的又一个方面，提供的一种电子设备，包括上述任一实施例所述的装置，其中，

根据本发明实施例的再一个方面，提供的一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而完成上述任一实施例所述的方法。

根据本发明实施例的再一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现上述任一实施例所述方法的指令。

根据本发明实施例的再一个方面，提供的一种计算机程序产品，用于存储计算机可读指令，所述指令被执行时使得计算机执行上述任一实施例所述的方法。

在一个可选实施方式中，所述计算机程序产品具体为计算机存储介质，在另一个可选实施方式中，所述计算机程序产品具体为软件产品，例如SDK等。

基于本发明上述实施例提供的设备的控制方法和装置、电子设备、计算机程序和存储介质，通过采集视频图像，对视频图像中的视觉标记进行识别，得到视觉标记的识别结果，其中视觉标记包括以下任意一个或者多个种类包括：标记物的位置、颜色、形状，人体的动作、姿态、手势，然后根据视觉标记的识别结果确定对应的控制指令，根据控制指令对设备的运动状态进行控制，其中设备包括以下任意一种或多种：无人小车、车辆、玩具车、机器人，利用设备的视觉输入作为控制基础，通过视觉识别技术将视觉输入自动转化为控制指令，对设备的运动状态进行控制，无需额外的无线发射/接收模块，以及可穿戴式设备等，成本低廉，并且可以提升用户操作的便利性，提升交互体验，同时能够提拱稳定、连续的控制，可以方便扩展各种控制命令。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明一些实施例的设备的控制方法的流程图；

图2为本发明另一些实施例的设备的控制方法的流程图；

图3为本发明一些实施例的设备的控制装置的结构示意图；

图4是本发明一些实施例的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

目前，应用于仓库物流、学校教育、玩具娱乐等领域的无人小车，也称移动小车，大多是通过无线遥控器与小车进行交互，实现对小车运动状态的控制。其中，通过遥控手柄等无线遥控器对小车进行控制，交互体验欠佳，并且存在着控制不连续等缺点，同时需要在无人小车上安装无线接收装置，会造成成本的增加。

为了解决上述问题，本发明实施例提出一种设备的控制方法，下面将结合附图，详细描述本发明实施例提出的设备的控制方案。

图1为本发明一些实施例的设备的控制方法的流程图。该控制方法的实现装置(本实施例以下对应为设备的控制装置)可以设置在该设备上或者与该设备连接。应理解，图1所示的例子仅仅是为了帮助本领域技术人员更好地理解本发明的技术方案，而不应理解成对本发明的限定。本领域技术人员可以在图1的基础上进行各种变换，而这种变换也应理解成本发明技术方案的一部分。

如图1所示，该方法包括：

102，采集视频图像。

可选地，视频图像可以通过摄像头等图像采集设备实时采集获得，图像采集设备可以设置于控制设备上。例如：可以将图像采集设备设置于控制设备的前端，对控制设备的前方进行拍摄。本发明实施例对图像采集设备在控制设备上的设置位置不做限定。

在一个可选的例子中，图像采集设备可以设置于控制设备上，并能够相对于控制设备上下和/或左右转动，以实现对距离控制设备不同远近的位置和/或不同方向的拍摄。

在另一个可选的例子中，图像采集设备可以包括多个图像采集器，多个图像采集器可以根据需要设置在控制设备的不同位置，可以通过多个图像采集器对距离控制设备不同远近的位置和/或不同方向进行拍摄，此时，在同一时刻可能会获得多个视频图像，在对控制设备进行控制时，需要对多个视频图像进行综合考虑。

可选地，当图像采集设备采用摄像头时，为了能够对摄像头图像中的位置进行测距，需要在使用前对摄像头进行标定，即计算摄像头的内参和外参。

104，对视频图像中的视觉标记进行识别，得到视觉标记的识别结果。

其中，视觉标记可以包括以下任意一个或者多个种类：标记物的位置、颜色、形状，人体的动作、姿态、手势等。

在本发明实施例中，视频图像中的视觉标记可以是标记物的位置、颜色和/或形状等，也可以指人体的动作、姿态和/或手势等，其中标记物可以是指便于使用并且具有一定区分能力的标记线、纸板等。例如：可以在路面或者地面上绘制具有一定颜色和/或形状的标记线。本发明实施例对视频标记的形式不做限定。

可选地，可以通过神经网络或者其他机器学习的方法对视频图像中的视觉标记进行识别，例如：神经网络可以采用深度神经网络，也可以采用其它类型的神经网络。本发明实施例对对视觉标记进行识别的方法不做限定。

在一个可选的例子中，当采用神经网络对视频图像中的视觉标记进行识别时，需要预先通过大量的视觉标记的样本数据对神经网络进行训练，以实现对各种视觉标记的分类，例如：用于对神经网络进行训练的视频标记的样本数据可以包括：标记物的位置、颜色、形状，人体的动作、姿态、手势等。通过大量的样本数据对神经网络进行训练，可以确保分类模型的准确性和稳定性，保证分类模型对于光照的变化以及角度的变化具有一定的鲁棒性。

可选地，可以利用神经网络对视频图像中的视觉标记进行特征提取，然后利用神经网络根据提取到的特征数据，确定视觉标记的种类，得到视觉标记的识别结果。其中，提取到的特征数据可以包括颜色特征数据和/或形状特征数据等。

可选地，可以通过增加机器学习的视频标记的种类，增加与视频标记对应的控制指令，来实现对控制命令的扩展。

可选地，在对视频图像中的视觉标记进行特征提取时，可以对包含视频图像的视频序列中的多帧视频图像进行特征提取，得到多帧视频图像的特征数据，其中多帧视频图像包括视频图像。例如：对于视觉标记为人体动作的情况，需要对视频序列中的相邻的多帧视频图像进行特征提取，根据相邻的多帧视频图像的特征数据的差异确定人体动作的种类。其中，相邻的多帧视频图像可以是多帧连续的视频图像，也可以是对视频序列根据预设的采样频率采样得到的多帧视频图像，本发明实施例对此不做限定。

106，根据视觉标记的识别结果确定对应的控制指令。

可选地，可以根据预设的视觉标记的种类与控制指令之间的对应关系，获取视觉标记对应的控制指令。其中，预设的视觉标记的种类与控制指令之间的对应关系，可以以对照表的形式预先进行存储，在该对照表中可以记载所有能够被识别的视觉标记和其对应的控制指令，在得到视觉标记的种类后，可以通过查寻该对照表获取对应的控制指令。

在一个可选的例子中，视觉标记的种类与控制指令之间可以具有如下的对应关系：

视觉标记种类：地面标记双车道线，对应的控制指令：中心线保持；

视觉标记种类：带颜色的纸板：对应的控制指令：对速度的控制；

例如：红色表示减速停车；黄色表示减速；绿色表示加速；

视觉标记种类：人体动作：对应的控制指令：对方向的控制；

例如：手向左挥表示左转弯，手向右挥表示右转弯，单手向前表示直行。

可选地，在预设的视觉标记的种类与控制指令之间的对应关系中，每一种视觉标记可以对应一种对设备的控制行为，不同的视觉标记也可以对应同一种控制行为。例如：在地面上绘制的箭头线可以与人体动作均表示对方向的控制。

108，根据控制指令对设备的运动状态进行控制。

其中，设备包括以下任意一种或多种：无人小车、车辆、玩具车、机器人。

可选地，可以根据控制指令，基于设备当前的运动状态，获取用于控制设备运动状态的控制信号，然后根据控制信号控制执行机构，对设备的运动状态进行控制。在一个可选的例子中，控制信号可以包括：偏航角信息、加速度或减速度信息等，其中偏航角信息、加速度和减速度信息的取值可以为零。例如：可以通过模型预测控制算法根据控制指令，基于设备当前的运动状态，获取用于控制设备运动状态的控制信号。

可选地，可以获取设备当前的运动状态，以及获取控制指令对应的设备的目标运动状态，其中，运动状态包括：位置信息、偏航角信息和速度信息等，然后确定设备当前的运动状态与目标运动状态之间的差值，获取用于控制设备的运动状态、以达到目标运动状态的控制信号。上述流程可以周期性或者循环或重复执行，以实现对设备的动态控制。

在一个可选的例子中，上述过程可以在开发板和与开发板连接的微控制器上分两个阶段进行。其中，第一阶段，在开发板上进行模型预测控制算法，得到控制信号，然后通过串口将控制信号传输到微控制器上，在微控制器上进行第二阶段，对设备的转向和速度进行控制，通过使设备用于转向控制的舵机和用于速度控制的电机分别与微控制器不同的引脚连接，通过微控制器将控制信号中的转向控制信号发送给舵机，速度控制信号发送给电机，使设备的舵机和电机在接收到控制信号后对设备的运动进行控制。

在一个可选的例子中，本发明实施例可以用于对无人小车的运动状态进行控制，这里的无人小车可以是指小车的一种使用状态，即无人驾驶的使用状态，而并不排除小车可以具有有人驾驶的使用状态。

基于本发明上述实施例提供的设备的控制方法，通过采集视频图像，对视频图像中的视觉标记进行识别，得到视觉标记的识别结果，其中视觉标记包括以下任意一个或者多个种类包括：标记物的位置、颜色、形状，人体的动作、姿态、手势，然后根据视觉标记的识别结果确定对应的控制指令，根据控制指令对设备的运动状态进行控制，其中设备包括以下任意一种或多种：无人小车、车辆、玩具车、机器人，利用设备的视觉输入作为控制基础，通过视觉识别技术将视觉输入自动转化为控制指令，对设备的运动状态进行控制，无需额外的无线发射/接收模块，以及可穿戴式设备等，成本低廉，并且可以提升用户操作的便利性，提升交互体验，同时能够提拱稳定、连续的控制，可以方便扩展各种控制命令。

可选地，在上述各实施例中，可能会出现在同一视频图像中出现不只一个视觉标记的情况，此时若同时出现于同一视频图像中的视觉标记所对应的控制指令不相互矛盾，例如：出现于同一视频图像中的两个视觉标记分别对应的控制指令为右转弯和减速，只需要根据这两个视觉标记的种类确定对应的控制指令，根据这两个控制指令对无人小车进行控制即可。但是，还可能会出现同时出现于同一视频图像中的视觉标记所对应的控制指令是相互矛盾的情况，例如：出现于同一视频图像中的两个视觉标记分别对应的控制指令为右转弯和左转弯，两个视觉标记分别为人体手向右挥的动作和地面上绘制的左转弯的箭头线，此时将无法实现对无人小车的有效控制。

通常，与人体相关的视觉标记往往具有更优的时效性，因此我们可以通过将与人体相关的视觉标记设置成高优先级的方式来解决上述问题。下面将结合图2，详细描述本发明实施例在根据视觉标记的识别结果确定对应的控制指令时，基于对优先级的判断来确定控制指令的流程。

应理解，图2所示的例子仅仅是为了帮助本领域技术人员更好地理解本发明的技术方案，而不应理解成对本发明的限定。本领域技术人员可以在图2的基础上进行各种变换，而这种变换也应理解成本发明技术方案的一部分。

如图2所示，该方法包括：

202，确定视频图像中视觉标记的数量。

204，若视频图像中包括二个以上视觉标记，根据视觉标记的种类获取每一个视觉标记预设的优先级。

否则，根据视觉标记的种类确定对应的控制指令。

206，判断各视觉标记的优先级是否相同。

若各视觉标记的优先级相同，执行操作208；否则，若各视觉标记的优先级不同，执行操作210。

208，根据各视觉标记的种类确定对应的控制指令。

210，根据具有最高优先级的视觉标记的种类确定控制指令。

基于本发明上述实施例提供的设备的控制方法，当出现于同一视频图像中的视觉标记所对应的控制指令相互矛盾时，可以通过预先为不同种类的视觉标记设置不同的优先权，基于获取同一视频图像中各视觉标记对应的优先权，来保证具有高优先权的视觉标记对应的时效性高的控制指令被执行。图3为本发明一些实施例的设备的控制装置的结构示意图，图3所示的例子仅仅是为了帮助本领域技术人员更好地理解本发明的技术方案，而不应理解成对本发明的限定。本领域技术人员可以在图3的基础上进行各种变换，而这种变换也应理解成本发明技术方案的一部分。

如图3所示，该装置包括：采集单元310、识别单元320、处理单元330和控制单元340。其中，

采集单元310，用于采集视频图像。

可选地，采集单元310可以是摄像头，视频图像可以通过摄像头实时采集获得，采集单元310可以设置于控制设备上。例如：可以将采集单元310设置于控制设备的前端，对控制设备的前方进行拍摄。本发明实施例对采集单元310在控制设备上的设置位置不做限定。

在一个可选的例子中，采集单元310可以设置于控制设备上，并能够相对于控制设备上下和/或左右转动，以实现对距离控制设备不同远近的位置和/或不同方向的拍摄。

在另一个可选的例子中，采集单元310可以包括多个图像采集器，多个图像采集器可以根据需要设置在控制设备的不同位置，可以通过多个图像采集器对距离控制设备不同远近的位置和/或不同方向进行拍摄，此时，在同一时刻可能会获得多个视频图像，在对控制设备进行控制时，需要对多个视频图像进行综合考虑。

可选地，当采集单元310采用摄像头时，为了能够对摄像头图像中的位置进行测距，需要在使用前对摄像头进行标定，即计算摄像头的内参和外参。

识别单元320，用于对视频图像中的视觉标记进行识别，得到视觉标记的识别结果。

可选地，识别单元320可以通过神经网络或者其他机器学习的方法对视频图像中的视觉标记进行识别，例如：神经网络可以采用深度神经网络，也可以采用其它类型的神经网络。本发明实施例对对视觉标记进行识别的方法不做限定。

可选地，识别单元320可以利用神经网络对视频图像中的视觉标记进行特征提取，然后利用神经网络根据提取到的特征数据，确定视觉标记的种类，得到视觉标记的识别结果。其中，提取到的特征数据可以包括颜色特征数据和/或形状特征数据等。

可选地，识别单元320在对视频图像中的视觉标记进行特征提取时，可以对包含视频图像的视频序列中的多帧视频图像进行特征提取，得到多帧视频图像的特征数据，其中多帧视频图像包括视频图像。例如：对于视觉标记为人体动作的情况，识别单元320需要对视频序列中的相邻的多帧视频图像进行特征提取，根据相邻的多帧视频图像的特征数据的差异确定人体动作的种类。其中，相邻的多帧视频图像可以是多帧连续的视频图像，也可以是对视频序列根据预设的采样频率采样得到的多帧视频图像，本发明实施例对此不做限定。

处理单元330，用于根据视觉标记的识别结果确定对应的控制指令。

可选地，处理单元330可以根据预设的视觉标记的种类与控制指令之间的对应关系，获取视觉标记对应的控制指令。其中，预设的视觉标记的种类与控制指令之间的对应关系，可以以对照表的形式预先进行存储，在该对照表中可以记载所有能够被识别的视觉标记和其对应的控制指令，在得到视觉标记的种类后，可以通过查寻该对照表获取对应的控制指令。

例如：红色表示减速停车；黄色表示减速；绿色表示加速；

控制单元340，用于根据控制指令对设备的运动状态进行控制。

可选地，控制单元340可以根据控制指令，基于设备当前的运动状态，获取用于控制设备运动状态的控制信号，然后根据控制信号控制执行机构，对设备的运动状态进行控制，在一个可选的例子中，控制信号可以包括：偏航角信息、加速度或减速度信息等，其中偏航角信息、加速度和减速度信息的取值可以为零。例如：控制单元340可以通过模型预测控制算法根据控制指令，基于设备当前的运动状态，获取用于控制设备运动状态的控制信号。

可选地，控制单元340可以获取设备当前的运动状态，以及获取控制指令对应的设备的目标运动状态，其中，运动状态包括：位置信息、偏航角信息和速度信息等，然后确定设备当前的运动状态与目标运动状态之间的差值，获取用于控制设备的运动状态、以达到目标运动状态的控制信号。上述流程可以周期性或者循环或重复执行，以实现对设备的动态控制。

在一个可选的例子中，控制单元340可以包括开发板和与开发板连接的微控制器，上述过程可以在开发板和微控制器上分两个阶段进行。其中，第一阶段，在开发板上进行模型预测控制算法，得到控制信号，然后通过串口将控制信号传输到微控制器上，在微控制器上进行第二阶段，对设备的转向和速度进行控制，通过使设备用于转向控制的舵机和用于速度控制的电机分别与微控制器不同的引脚连接，通过微控制器将控制信号中的转向控制信号发送给舵机，速度控制信号发送给电机，使设备的舵机和电机在接收到控制信号后对设备的运动进行控制。

基于本发明上述实施例提供的设备的控制装置，通过采集视频图像，对视频图像中的视觉标记进行识别，得到视觉标记的识别结果，其中视觉标记包括以下任意一个或者多个种类包括：标记物的位置、颜色、形状，人体的动作、姿态、手势，然后根据视觉标记的识别结果确定对应的控制指令，根据控制指令对设备的运动状态进行控制，其中设备包括以下任意一种或多种：无人小车、车辆、玩具车、机器人，利用设备的视觉输入作为控制基础，通过视觉识别技术将视觉输入自动转化为控制指令，对设备的运动状态进行控制，无需额外的无线发射/接收模块，以及可穿戴式设备等，成本低廉，并且可以提升用户操作的便利性，提升交互体验，同时能够提拱稳定、连续的控制，可以方便扩展各种控制命令。

可选地，在上述各实施例中，处理单元330，还可以用于确定视频图像中视觉标记的数量，若视频图像中包括二个以上视觉标记，根据视觉标记的种类获取每一个视觉标记预设的优先级，否则，根据视觉标记的种类确定对应的控制指令；以及判断各视觉标记的优先级是否相同，若各视觉标记的优先级相同，根据各视觉标记的种类确定对应的控制指令，否则，若各视觉标记的优先级不同，根据具有最高优先级的视觉标记的种类确定控制指令。

基于处理单元330的上述功能，本发明上述实施例提供的设备的控制装置，当出现于同一视频图像中的视觉标记所对应的控制指令相互矛盾时，可以通过预先为不同种类的视觉标记设置不同的优先权，基于获取同一视频图像中各视觉标记对应的优先权，来保证具有高优先权的视觉标记对应的时效性高的控制指令被执行。

另外，本发明实施例还提供了一种电子设备，例如可以是移动终端、个人确定机(PC)、平板电脑、服务器等，该电子设备设置有本发明上述任一实施例的设备的控制装置。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图4，其示出了适于用来实现本申请实施例的设备的控制装置的电子设备400的结构示意图：如图4所示，计算机系统400包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)401，和/或一个或多个图像处理器(GPU)413等，处理器可以根据存储在只读存储器(ROM)402中的可执行指令或者从存储部分408加载到随机访问存储器(RAM)403中的可执行指令而执行各种适当的动作和处理。通信部412可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器402和/或随机访问存储器403中通信以执行可执行指令，通过总线404与通信部412相连、并经通信部412与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，采集视频图像；对所述视频图像中的视觉标记进行识别，得到所述视觉标记的识别结果；所述视觉标记包括以下任意一个或者多个种类：标记物的位置、颜色、形状，人体的动作、姿态、手势；根据所述视觉标记的识别结果确定对应的控制指令；根据所述控制指令对设备的运动状态进行控制；所述设备包括以下任意一种或多种：无人小车、车辆、玩具车、机器人。

此外，在RAM 403中，还可存储有装置操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。在有RAM403的情况下，ROM402为可选模块。RAM403存储可执行指令，或在运行时向ROM402中写入可执行指令，可执行指令使处理器401执行上述通信方法对应的操作。输入/输出(I/O)接口405也连接至总线404。通信部412可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的确定机程序根据需要被安装入存储部分408。

需要说明的，如图4所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图4的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，采集视频图像；对所述视频图像中的视觉标记进行识别，得到所述视觉标记的识别结果；所述视觉标记包括以下任意一个或者多个种类：标记物的位置、颜色、形状，人体的动作、姿态、手势；根据所述视觉标记的识别结果确定对应的控制指令；根据所述控制指令对设备的运动状态进行控制；所述设备包括以下任意一种或多种：无人小车、车辆、玩具车、机器人。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。

在一个或多个可选实施方式中，本发明实施例还提供了一种计算机程序程序产品，用于存储计算机可读指令，该指令被执行时使得计算机执行上述任一可能的实现方式中的设备的控制方法。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中，该计算机程序产品具体体现为计算机存储介质，在另一个可选例子中，该计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

在一个或多个可选实施方式中，本发明实施例还提供了一种设备的控制方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中，该方法包括：第一装置向第二装置发送设备的控制指示，该指示使得第二装置执行上述任一可能的实施例中的设备的控制方法；第一装置接收第二装置发送的设备的控制结果。

在一些实施例中，该设备的控制指示可以具体为调用指令，第一装置可以通过调用的方式指示第二装置执行设备的控制，相应地，响应于接收到调用指令，第二装置可以执行上述设备的控制方法中的任意实施例中的步骤和/或流程。

应理解，本发明实施例中的“第一”、“第二”等术语仅仅是为了区分，而不应理解成对本发明实施例的限定。

还应理解，在本发明中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本发明中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

还应理解，本发明对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种设备的控制方法，其特征在于，包括：

采集视频图像；

根据所述视觉标记的识别结果确定对应的控制指令；

2.根据权利要求1所述的方法，其特征在于，所述对所述视频图像中的视觉标记进行识别，包括：

通过神经网络对所述视频图像中的视觉标记进行识别。

3.根据权利要求1或2中任意一项所述的方法，其特征在于，所述根据所述视觉标记的识别结果确定对应的控制指令，包括：

4.根据权利要求1至3中任意一项所述的方法，其特征在于，所述根据所述视觉标记的识别结果确定对应的控制指令，包括：

确定所述视频图像中视觉标记的数量；

判断各所述视觉标记的优先级是否相同；

5.根据权利要求1至4中任意一项所述的方法，其特征在于，所述根据所述控制指令对设备的运动状态进行控制，包括：

6.一种设备的控制装置，其特征在于，包括：

采集单元，用于采集视频图像；

7.一种电子设备，其特征在于，包括权利要求6所述的装置。

8.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至5中任意一项所述的方法。

9.一种计算机程序，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求1至5中任意一项所述方法的指令。

10.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时实现权利要求1至5中任意一项所述的方法。