CN111340286B

CN111340286B - 机器人调度方法、装置、电子设备以及存储介质

Info

Publication number: CN111340286B
Application number: CN202010113608.0A
Authority: CN
Inventors: 董彦明
Original assignee: Guangdong Bozhilin Robot Co Ltd
Current assignee: Guangdong Bozhilin Robot Co Ltd
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2023-01-17
Anticipated expiration: 2040-02-24
Also published as: CN111340286A

Abstract

本申请实施例公开了一种机器人调度方法、装置、电子设备以及存储介质。所述方法包括：获取随机噪声，所述随机噪声表征随机引入的冲突；将所述随机噪声输入对抗网络的生成器，生成样本数据；将所述样本数据输入所述对抗网络的判别器，得到所述样本数据有冲突的概率，根据所述样本数据有冲突的概率，更新所述判别器或生成器的参数以得到训练后的对抗网络；获取机器人上传的工作参数；获取基于所述训练后的对抗网络优化的调度算法；基于所述调度算法与所述工作参数对所述机器人进行调度。通过上述方法，使用对抗网络对调度算法进行优化，提高了机器人调度系统中调度算法的精度，进而得到优化的调度方案，避免了机器人作业冲突。

Description

机器人调度方法、装置、电子设备以及存储介质

技术领域

本申请属于机器人技术领域，具体涉及一种机器人调度方法、装置、电子设备及存储介质。

背景技术

在智慧化建筑工程中，可以使用建筑机器人完成建筑工程的施工作业。在建筑机器人作业的过程中，需要使用调度系统对多个机器人进行有效调度，以提高机器人的工作效率，避免机器人作业发生冲突。相关的机器人调度系统对机器人进行调度时，机器人调度系统的调度算法可能导致机器人作业冲突。

发明内容

鉴于上述问题，本申请提出了一种机器人调度方法、装置、电子设备以及存储介质，以实现改善上述问题。

第一方面，本申请实施例提供了一种机器人调度方法，所述方法包括：获取随机噪声，所述随机噪声表征随机引入的冲突；将所述随机噪声输入对抗网络的生成器，生成样本数据；将所述样本数据输入所述对抗网络的判别器，得到所述样本数据有冲突的概率，根据所述样本数据有冲突的概率，更新所述判别器或生成器的参数以得到训练后的对抗网络；获取机器人上传的工作参数；获取基于所述训练后的对抗网络优化的调度算法；基于所述调度算法与所述工作参数对所述机器人进行调度。

第二方面，本申请实施例提供了一种机器人调度装置，所述装置包括：噪声获取单元，用于获取随机噪声，所述随机噪声表征随机引入的冲突；样本数据生成单元，用于将所述随机噪声输入对抗网络的生成器，生成样本数据；参数更新单元，用于将所述样本数据输入所述对抗网络的判别器，得到所述样本数据有冲突的概率，根据所述样本数据有冲突的概率，更新所述判别器或生成器的参数以得到训练后的对抗网络；参数获取单元，用于获取机器人上传的工作参数；调度算法获取单元，用于获取基于所述训练后的对抗网络优化的调度算法；处理单元，用于基于所述调度算法与所述工作参数对所述机器人进行调度。

第三方面，本申请实施例提供了一种电子设备，包括一个或多个处理器以及存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

本申请实施例提供了一种机器人调度方法、装置、电子设备及存储介质。获取随机噪声，将随机噪声输入对抗网络的生成器，生成样本数据，再将样本数据输入对抗网络的判别器，得到样本数据有冲突的概率，根据样本数据有冲突的概率，更新判别器或生成器的参数以得到训练后的对抗网络，获取机器人上传的参数，获取基于训练后的对抗网络优化的调度算法，基于所述调度算法与所述工作参数对所述机器人进行调度。通过上述方法，使用训练后的对抗网络对调度算法进行优化，提高了机器人调度系统中调度算法的精度，进而得到优化的调度方案，避免了机器人作业冲突。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提出的一种机器人调度方法的流程图；

图2示出了本申请另一实施例提出的一种机器人调度方法的流程图；

图3示出了本申请再一实施例提出的一种机器人调度方法的流程图；

图4示出了本申请一实施例提出的一种机器人调度装置的结构示意图；

图5示出了本申请另一实施例提出的一种机器人调度装置的结构示意图；

图6示出了本申请实时中的用于执行根据本申请实施例的机器人调度方法的电子设备的结构框图；

图7示出了本申请实施例提出的一种机器人调度方法中终端设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着科学技术的发展，机器人涉及较多应用领域，比如农业领域和建筑领域，尤其是在智慧化建筑工程中，可以使用机器人完成建筑工程的施工作业。在机器人作业的过程中需要使用多个机器人同时作业时，可以通过构建一套机器人调度系统，使得多台移动机器人协同作业时进行统一规划和调度，以便高效的配合完成较复杂的任务，以提高应用价值、推广市场和用户体验。

发明人在对相关机器人调度方法的研究过程中发现，相关的机器人调度系统在对多个机器人进行调度时，由于机器人调度系统的调度算法精度不高，可能导致多个机器人同时作业时产生冲突。

因此，发明人提出了本申请中的获取机器人上传的参数，获取基于对抗网络优化的调度算法，基于调度算法与工作参数对多个机器人进行调度，通过上述方法，使用对抗网络对调度算法进行优化，提高了机器人调度系统中调度算法的精度，进而得到优化的调度方案，避免了机器人作业冲突的方法、装置、电子设备及存储介质。

下面先对本申请实施例涉及的一种机器人调度系统进行介绍。

可选的，一种机器人调度系统可以包括：机器人控制系统和中间控制系统。其中，机器人控制系统用于从中间控制系统获取机器人管理信息或者机器人上传的各种参数，根据机器人管理信息或者机器人上传的各种参数生成任务指令，并将任务指令发送至与任务指令关联的机器人。此外，机器人调度系统可以为集中式的机器人调度系统，运用集中式的机器人调度系统可以实现对多个机器人的集中调度。

下面将结合附图具体描述本申请的各实施例。

请参阅图1，本申请实施例提供的一种机器人调度方法，应用于机器人调度系统，所述方法包括：

步骤S110：获取随机噪声，所述随机噪声表征随机引入的冲突。可选的，在使用对抗网络对调度算法进行优化时，可以先对对抗网络进行训练。

作为一种方式，可以引入随机噪声z对对抗网络中的生成器和判别器进行训练。其中，所述随机噪声z可以为虚拟的机器人、交通障碍、地点冲突、时间冲突等随机引入的冲突。其中，虚拟的机器人可以理解为虚拟的机器人可能会和实际存在的机器人产生路径、作业、时间等冲突。

可选的，引入的随机噪声z符合数学期望为μ，标准差为σ的高斯分布(即正态分布)，引入符合高斯分布的随机噪声z的目的是依据大数定理可知，统计样本的误差分布符合高斯分布，那么生成器在引入随机噪声z后生成的样本G(z)能够更好地模拟真实样本，进而判别器需要更精确的模型才能判别生成器所生成的样本G(z)是真实样本还是生成的样本，以达到更好地训练判别器的目的。

步骤S120：将所述随机噪声输入对抗网络的生成器，生成样本数据。

作为一种方式，生成器G引入根据先验分布P(z)生成的随机噪声z生成样本数据G(z)，并作为判别器的输入。

步骤S130：将所述样本数据输入所述对抗网络的判别器，得到所述样本数据有冲突的概率，根据所述样本数据有冲突的概率，更新所述判别器或生成器的参数，以得到训练后的对抗网络。

作为一种方式，在机器人调度系统中可以使用特定的函数来计算样本数据G(z)有冲突的概率。示例性的，以多个机器人所上传的参数作为数据样本，假设多个机器人的各种参数为样本空间X。机器人调度系统使用函数D对X进行计算p＝D(X)，结果p是多个机器人作业发生冲突的概率，0≤p≤1，1表示有冲突，0表示完全没有冲突。其中，样本空间X的数量可以根据情况获取，比如可以获取100组机器人上传的参数，将每一组参数作为一个样本空间X，机器人调度系统可以使用函数D对每一个X进行计算p＝D(X)，最后机器人调度系统将计算的100组X的概率取平均值，通过这种方式，可以得到更为准确的样本空间X是否有冲突的概率。

进一步的，机器人调度系统可以根据特定函数计算的样本数据G(z)是否有冲突的概率，通过目标优化函数：

对所述生成器和判别器的参数进行优化，使得判别器可以识别样本数据G(z)是否有冲突的概率提高。

在上述目标优化函数中，z表示从特定分布(正态分布或先验分布)P(z)中随机采样所得的向量，p_data(x)表示训练样本数据的概率分布；G(z)表示生成器生成的样本数据，D(x)表示训练样本中的真实数据X通过判别器判断其有冲突的概率，D(G(z))表示生成的样本通过判别器后，判断其有冲突的概率，它被期望越接近0越好。

判别器的目的是让D(x)接近0，D(G(z))接近1。对抗网络的训练过程是将D(x)的有冲突的概率最小化的过程，同时生成器将log(1-D(G(z))的期望达到最大化，提升自身生成能力，最终两者通过对抗交替训练，形成参数优化。通过上述方法，不断的交替训练生成器和判别器以得到训练后的对抗网络。

步骤S140：获取机器人上传的工作参数。

作为一种方式，机器人通过消息队列遥测传输(Message Queuing TelemetryTransport，MQTT)协议和机器人调度系统进行通信，可选的，进行通信时的数据格式可以为JSON格式。可以理解的是，每个机器人通过消息队列遥测传输协议将自身的工作参数以JSON格式上传给机器人调度系统，其中机器人自身的工作参数可以包括机器人自身的位置信息、电池剩余电量、温度或者机器人的工作状态等。机器人调度系统可以通过消息队列遥测传输协议和获取到的JSON数据格式的机器人工作参数向各个机器人下达指令。

可选的，可以预先为机器人配置一个参数上传时间。在这种方式下，当机器人检测到当前时间到达预先设置的参数上传时间时，机器人可以通过消息队列遥测传输协议主动向机器人调度系统上传自身当前的工作参数。

进一步的，所述参数上传时间可以配置为一个固定的时间点，也可以配置为周期性的时间段。若所述参数上传时间配置为周期性的时间段，则该参数上传时间可以为第一参数上传周期或者第二参数上传周期，或者其他参数上传周期。可选的，机器人的参数上传时间为第一参数上传周期还是第二参数上传周期，或者说是其他的参数上传周期，可以根据机器人作业或者执行的调度任务的情况来确定。示例性的，配置第一参数上传周期为每5分钟一次，第二参数上传周期为每10分钟上传一次。若机器人检测到要执行当前的调度任务需要自身运动更频繁，则可以确定当前的参数上传时间为该第一参数上传周期；若机器人检测到要执行当前的调度任务需要运动的距离比较远，则可以确定当前的参数上传时间为该第二参数上传周期。

也就是说，在机器人处于运动更为频繁的调度任务下，为了能够即时避免可能出现的运动冲突，可以选择时间段更短的参数上传周期，例如，在前述第一参数上传周期短于前述的第二参数上传周期的情况下，若机器人检测到要执行当前的调度任务需要自身运动更频繁，为了即时避免可能出现的运动冲突，选择了相对时间段更短的第一参数上传周期。

可选的，机器人可以响应于机器人调度系统发送的指令而向机器人调度系统上传自身当前的工作参数。示例性的，若机器人接收到机器人调度系统发送的表征需要机器人上传当前的工作参数的指令时，机器人会向机器人调度系统上传自身的工作参数；或者机器人调度系统直接获取机器人的工作参数。

当机器人调度系统检测到获取到机器人上传的工作参数时，可以根据各个机器人上传的工作参数，给多个机器人下达不同的指令。比如，如果机器人调度系统通过分析某个机器人上传的工作参数，发现这个机器人当前电池剩余电量不足以支撑其作业，则机器人调度系统可以给该机器人下达停止作业的指令。

作为另一种方式，机器人调度系统可以通过其他方式获取机器人上传的工作参数，除了前述的可以直接通过与机器人之间建立的通信通道去获取，还可以间接的从云端服务器或者与机器人和机器人调度系统都建立了通信的终端设备去获取。示例性的，机器人调度系统、机器人和终端设备之间可以通过移动通信网络建立数据交互，当终端设备接收到机器人调度系统需要获取机器人工作参数的请求时，终端设备可以直接获取机器人上传的工作参数，再将其发送给机器人调度系统。

步骤S150：获取基于所述优化后的对抗网络优化的调度算法。

可以理解的是，机器人调度系统可以使用特定的调度算法生成对多个机器人的调度方案，其中，特定的调度算法可以为预先设置在机器人调度系统中多个调度算法中的一个或者多个，机器人调度系统可以根据获取的机器人上传的工作参数或者引入的噪声来确定当前应该使用的调度算法。

在本申请实施例中，在生成调度算法时所采用的调度算法是经过对抗网络优化后的。机器人调度系统可以通过优化后的调度算法和机器人上传的工作参数得到更有效的机器人调度方案。

其中，对抗网络包括生成器G和判别器D，。生成对抗网络的目标，给定一个真实样本分布的集合，根据该集合不断迭代训练生成器G和判别器D，最终使得生成器G可以从噪声信号生成尽可能符合真实样本分布的样本，而判别器D可以从样本的分布判别该样本是否符合真实样本的分布，其中，判别器D和生成器G可由任意神经网络构成，比如卷积神经网络(convolutional neural networks，CNNs)或者长短期记忆(long short-term memory，LSTM)网络。

步骤S160：基于所述调度算法与所述工作参数对所述机器人进行调度。

作为一种方式，机器人调度系统根据获取到的优化后的调度算法和机器人上传的工作参数，生成调度方案，对多个机器人进行调度。

本申请实施例提供的一种机器人调度方法，获取随机噪声，将随机噪声输入对抗网络的生成器，生成样本数据，再将样本数据输入对抗网络的判别器，得到样本数据有冲突的概率，根据样本数据有冲突的概率，更新判别器或生成器的参数以得到训练后的对抗网络，获取机器人上传的参数，获取基于训练后的对抗网络优化的调度算法，基于所述调度算法与所述工作参数对所述机器人进行调度。通过上述方法，使用训练后的对抗网络对调度算法进行优化，提高了机器人调度系统中调度算法的精度，进而得到优化的调度方案，避免了机器人作业冲突。

请参阅图2，本申请实施例提供的一种机器人调度方法，应用于机器人调度系统，所述方法包括：

步骤S210：获取随机噪声，所述随机噪声表征随机引入的冲突。

步骤S220：将所述随机噪声输入对抗网络的生成器，生成样本数据。

步骤S230：将所述样本数据输入所述对抗网络的判别器，得到所述样本数据有冲突的概率，根据所述样本数据有冲突的概率，更新所述判别器或生成器的参数以得到训练后的对抗网络。

步骤S240：当所述生成器与所述判别器满足目标条件时，停止更新所述判别器或生成器的参数。

作为一种方式，当所述生成器与所述判别器达到纳什均衡时，停止更新所述判别器或所述生成器的参数。

可以理解的是，纳什均衡是指当生成器和判别器，只要其中任意一方不改变当前的状态，那么另外一方也无法改变当前的状态。

进一步的可以理解为，当生成器和判别器达到纳什均衡时，所述生成器和判别器的参数已经处于稳定状态，已经达到优化目标。

步骤S250：获取机器人上传的工作参数。

步骤S260：获取基于所述训练后的对抗网络优化的调度算法。

步骤S270：基于所述调度算法与所述工作参数对所述机器人进行调度。

可以理解的是，由于引入的随机噪声z是包含了虚拟的机器人、交通障碍、地点冲突、时间冲突等随机引入的冲突，那么调度算法的精度越来越高意味着调度系统对作业任务调度的冲突也越来越敏感。

所以，利用优化后的调度算法和机器人上传的工作参数，可以得到更有效的机器人调度方案对机器人进行调度。

本申请实施例提供的一种机器人调度方法，通过引入随机噪声，将随机噪声作为样本数据去训练对抗网络的生成器和判别器，更新生成器和判别器的网络权重参数，进而得到优化的调度算法，使用优化后的调度算法和机器人上传的工作参数生成调度方案对机器人进行调度。通过引入噪声不断的训练对抗网络中生成器和判别器，随着生成器和判别器的持续优化，生成器和判别器对噪声和生成的样本的敏感度越来越高，调度算法的精度也相应越来越高。

请参阅图3，本申请实施例提供的一种机器人调度方法，应用于机器人调度系统，所述方法包括：

步骤S310：获取随机噪声，所述随机噪声表征随机引入的冲突。

步骤S320：将所述随机噪声输入对抗网络生成器，生成样本数据。

步骤S330：将所述样本数据输入所述对抗网络的判别器，得到所述样本数据有冲突的概率，根据所述样本数据有冲突的概率，更新所述判别器或所述生成器的参数以得到训练后的对抗网络。

作为一种方式，若将所述样本数据输入所述判别器，得到所述样本数据有冲突的概率趋近于0，则更新所述判别器的参数。

作为另一种方式，若将所述样本数据输入所述判别器，得到所述样本数据有冲突的概率趋近于1，则更新所述生成器的参数。

可以理解的是，生成器的目标是让D(G(z))越接近0越好，即生成的样品被判别器识别为样本不存在冲突。判别器的目标是识别真实数据D(X)越接近0越好，生成器生成的样本D(G(z))越接近1越好，这样可以识别出真实样本不存在冲突，生成器生成的样本存在冲突。判别器把生成的样本D(G(z))判别为接近0，则判别器的模型需要进一步训练优化，反之判别器把生成的样本D(G(z))判别为接近1时，则生成器则需要进一步训练优化，以使生成的样本D(G(z))能够欺骗判别器，这样就生成了对抗网络。

步骤S340：基于更新后的所述判别器或所述生成器的参数，更新所述调度算法中的参数，得到优化的调度算法。

作为一种方式，机器人调度系统通过对抗网络更新生成器或判别器中的网络权重参数，可以理解的是，在生成器中，不同的网络权重参数，生成器生成的样本会有不同；在判别器中，不同的网络权重参数，会导致判别器的判定结果会有不同。

进一步的，对抗网络中的生成器和判别器通过训练更新各自的网络权重参数以后，各自将更新后的参数的值赋值给机器人调度系统中使用的调度算法中对应的参数，进而得到优化后的调度算法。

步骤S350：当所述生成器与所述判别器满足目标条件时，停止更新所述判别器或生成器的参数。

步骤S360：获取机器人上传的工作参数。

步骤S370：获取基于所述训练后的对抗网络优化的调度算法。

步骤S380：基于所述调度算法与所述工作参数对所述机器人进行调度。

请参阅图4，本申请实施例提供的一种机器人调度装置400，所述装置400包括：

噪声获取单元410，用于获取随机噪声，所述随机噪声表征随机引入的冲突。

样本数据生成单元420，用于将所述随机噪声输入对抗网络的生成器，生成样本数据。

参数更新单元430，用于将所述样本数据输入所述对抗网络的判别器，得到所述样本数据有冲突的概率，根据所述样本数据有冲突的概率，更新所述判别器或生成器的参数以得到训练后的对抗网络。

所述参数更新单元430，还用于若将所述样本数据输入所述判别器，得到所述样本数据有冲突的概率趋近于0，则更新所述判别器的参数；若将所述样本数据输入所述判别器，得到所述样本数据有冲突的概率趋近于1，则更新所述生成器的参数。

所述参数更新单元430，还用于当所述生成器与所述判别器达到纳什均衡时，停止更新所述判别器或所述生成器的参数。

参数获取单元440，用于获取机器人上传的工作参数。

调度算法获取单元450，用于获取基于所述训练后的对抗网络优化的调度算法。

处理单元460，用于基于所述调度算法与所述工作参数对所述机器人进行调度。

请参阅图5，所述装置400还包括：

判断单元470，用于当所述生成器与所述判别器满足目标条件时，停止更新所述判别器或生成器的参数。

需要说明的是，本申请中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

本发明实施例提供了一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的机器人调度方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

图6是本发明实施例提供的一种机器人调度方法的电子设备的硬件结构框图。如图6所示，该电子设备1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(ProcessingUnits，CPU)1110(处理器1110可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1130，一个或一个以上存储应用程序1123或数据1122的存储介质1120(例如一个或一个以上海量存储设备)。其中，存储器1130和存储介质1120可以是短暂存储或持久存储。存储在存储介质1120的程序可以包括一个或一个以上模块，每个模块可以包括对电子设备中的一系列指令操作。更进一步地，处理器1110可以设置为与存储介质1120通信，在服务器1100上执行存储介质1120中的一系列指令操作。电子设备1100还可以包括一个或一个以上电源1160，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1140，和/或，一个或一个以上操作系统1121，例如WindowsServerTM，MacOS6TM，Uni6TM,Linu6TM，FreeBSDTM等等。

输入输出接口1140可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备1100的通信供应商提供的无线网络。在一个实例中，输入输出接口1140包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1140可以为射频(RadioFrequenc7，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图6所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备1100还可包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。

图7为实现本发明各个实施例的一种移动终端的硬件结构示意图。本发明中电子设备即为移动终端。

该移动终端100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元101、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图7中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，移动终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。

其中，处理器110，用于根据调度算法和机器人上传的工作参数对机器人进行调度。

应理解的是，本发明实施例中，射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信系统与网络和其他设备通信。

移动终端通过网络模块102为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元103可以将射频单元101或网络模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103包括扬声器、蜂鸣器以及受话器等。

输入单元104用于接收音频或视频信号。输入单元104可以包括图形处理器(GraphicsProcessingUnit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元101上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或网络模块102进行发送。麦克风1042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。

移动终端100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1011的亮度，接近传感器可在移动终端100移动到耳边时，关闭显示面板1011和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器105还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元101用于显示由用户输入的信息或提供给用户的信息。显示单元101可包括显示面板1011，可以采用液晶显示器(LiquidCr7stalDispla7，LCD)、有机发光二极管(OrganicLight-EmittingDiode,OLED)等形式来配置显示面板1011。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板1071可覆盖在显示面板1011上，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1011上提供相应的视觉输出。虽然在图7中，触控面板1071与显示面板1011是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1011集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元108为外部装置与移动终端100连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

移动终端100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，移动终端100包括一些未示出的功能模块，在此不再赘述。

本发明实施例还提供一种移动终端，包括处理器110，存储器109，存储在存储器409上并可在所述处理器110上运行的计算机程序，该计算机程序被处理器410执行时实现上述机器人调度方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述机器人调度方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Onl7Memor7，简称ROM)、随机存取存储器(RandomAccessMemor7，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

本申请提供的一种机器人调度方法、装置、电子设备以及存储介质，获取随机噪声，将随机噪声输入对抗网络的生成器，生成样本数据，再将样本数据输入对抗网络的判别器，得到样本数据有冲突的概率，根据样本数据有冲突的概率，更新判别器或生成器的参数以得到训练后的对抗网络，获取机器人上传的参数，获取基于训练后的对抗网络优化的调度算法，基于所述调度算法与所述工作参数对所述机器人进行调度。通过上述方法，使用训练后的对抗网络对调度算法进行优化，提高了机器人调度系统中调度算法的精度，进而得到优化的调度方案，避免了机器人作业冲突。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种机器人调度方法，其特征在于，应用于机器人调度系统，所述方法包括：

获取随机噪声，所述随机噪声表征随机引入的冲突；其中，所述随机噪声包括虚拟的机器人、交通障碍、地点冲突和时间冲突中的至少一种；

将所述随机噪声输入对抗网络的生成器，生成样本数据；

将所述样本数据输入所述对抗网络的判别器，得到所述样本数据有冲突的概率，根据所述样本数据有冲突的概率，更新所述判别器或生成器的参数以得到训练后的对抗网络；

获取机器人上传的工作参数；其中，所述工作参数包括机器人自身的位置信息、电池剩余电量和电池温度中的至少一种；

获取基于所述训练后的对抗网络优化的调度算法；其中，在所述判别器或生成器通过训练更新各自的参数后，各自将更新后的参数的值赋值给机器人调度系统中使用的调度算法中对应的参数，进而得到所述调度算法；

基于所述调度算法与所述工作参数对所述机器人进行调度。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述生成器与所述判别器满足目标条件时，停止更新所述判别器或生成器的参数。

3.根据权利要求1所述的方法，其特征在于，所述将所述样本数据输入所述对抗网络的判别器，得到所述样本数据有冲突的概率，根据所述样本数据有冲突的概率，更新所述判别器或所述生成器的参数包括：

若将所述样本数据输入所述判别器，得到所述样本数据有冲突的概率趋近于0，则更新所述判别器的参数。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

若将所述样本数据输入所述判别器，得到所述样本数据有冲突的概率趋近于1，则更新所述生成器的参数。

5.根据权利要求2所述的方法，其特征在于，所述当所述生成器与所述判别器满足目标条件时，停止更新所述判别器或所述生成器的参数包括：

当所述生成器与所述判别器达到纳什均衡时，停止更新所述判别器或所述生成器的参数。

6.根据权利要求1所述的方法，其特征在于，所述机器人与所述机器人调度系统通过消息队列遥测传输协议进行通信。

7.一种机器人调度装置，其特征在于，所述装置包括：

噪声获取单元，用于获取随机噪声，所述随机噪声表征随机引入的冲突；其中，所述随机噪声包括虚拟的机器人、交通障碍、地点冲突和时间冲突中的至少一种；

样本数据生成单元，用于将所述随机噪声输入对抗网络的生成器，生成样本数据；

参数更新单元，用于将所述样本数据输入所述对抗网络的判别器，得到所述样本数据有冲突的概率，根据所述样本数据有冲突的概率，更新所述判别器或生成器的参数以得到训练后的对抗网络；

参数获取单元，用于获取机器人上传的工作参数；其中，所述工作参数包括机器人自身的位置信息、电池剩余电量、电池温度和机器人的工作状态中的至少两种；

调度算法获取单元，用于获取基于所述训练后的对抗网络优化的调度算法；其中，在所述判别器或生成器通过训练更新各自的参数后，各自将更新后的参数的值赋值给机器人调度系统中使用的调度算法中对应的参数，进而得到所述调度算法；

处理单元，用于基于所述调度算法与所述工作参数对所述机器人进行调度。

8.一种电子设备，其特征在于，包括一个或多个处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行权利要求1-6任一所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-6任一所述的方法。