CN113837396A

CN113837396A - 基于b-m2m的设备模仿学习方法、mec及存储介质

Info

Publication number: CN113837396A
Application number: CN202111130456.6A
Authority: CN
Inventors: 李希金; 李红五; 安岗; 周晓龙
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2021-12-24
Anticipated expiration: 2041-09-26
Also published as: CN113837396B

Abstract

本公开提供一种基于B‑M2M的设备模仿学习方法、MEC及计算机可读存储介质，所述方法应用于移动边缘计算服务器MEC，包括：分别生成各个学习设备的模仿学习策略；以及，基于B‑M2M信道将所述模仿学习策略广播至各个学习设备，以使各个学习设备基于其各自的模仿学习策略执行模仿学习任务。本公开实施例利用MEC强大的数据处理能力，在MEC中生成工业现场各学习设备需要的模仿学习策略，并结合B‑M2M信道实现模仿学习策略的广播通信，降低通信时延提高广播通信效率，进而提高学习设备的模仿效率，有效解决了目前模仿学习算法部署在设备侧所产生的机械设备生产成本高以及模仿效果差等问题。

Description

基于B-M2M的设备模仿学习方法、MEC及存储介质

技术领域

本公开涉及机器学习技术领域，尤其涉及一种基于B-M2M的设备模仿学习方法、一种MEC以及一种计算机可读存储介质。

背景技术

模仿是人类和其他生物获取运动技能最直接、最有效的学习方式。模仿学习(Imitation Learning，IL)就是基于这一思想而进行的工作。在IL中，专家示教提供了有效信息，从而提高了学习效率，并且适用于复杂任务，IL赋予机械设备、机器人模仿的能力，可以使机械设备、机器人通过模仿示教者的动作实现快速学习，从而有效地避免复杂的编程而赋予机械设备、机器人操作技能。

目前模仿学习的学习算法和控制网络通常部署在设备侧，因此工业环境中的机械设备需要有较大的数据处理能力才能实现模仿行为的再现，而随着生产多样性和技术升级，机械设备也需要不断重新构建更为复杂的模仿学习算法，在这种模式下，无形之中增加了企业生产成本，且不能达到良好的模仿学习效果。

发明内容

本公开提供了一种基于B-M2M的设备模仿学习方法、MEC及计算机可读存储介质，以至少解决目前模仿学习算法部署在设备侧所产生的的机械设备生产成本高以及模仿效果差等问题。

为实现上述目的，本公开提供一种基于B-M2M的设备模仿学习方法，应用于移动边缘计算服务器MEC，包括：

分别生成各个学习设备的模仿学习策略；以及，

基于B-M2M信道将所述模仿学习策略广播至各个学习设备，以使各个学习设备基于其各自的模仿学习策略执行模仿学习任务。

在一种实施方式中，在基于所述B-M2M信道将所述模仿学习策略广播至各个学习设备之前，还包括：

基于预设频段的信道资源划分公共信道资源池，所述公共信道资源池包括B-M2M信道。

在一种实施方式中，所述生成各个学习设备各自的模仿学习策略，包括：

建立各个学习设备的模仿学习神经网络；

基于所述B-M2M信道接收示教设备的示教数据以及各个学习设备基于所述示教数据进行同步操作的预期数据；

将所述示教数据分别作为所述各个学习设备的模仿学习神经网络的输入数据，获得各个学习设备的输出结果；

分别基于各个学习设备的预期数据及其输出结果对各个学习设备的模仿学习神经网络进行训练；以及，

基于经过训练的各个学习设备的模仿学习神经网络分别获取各个学习设备的模仿学习策略。

在一种实施方式中，所述建立各个学习设备的模仿学习神经网络，包括：

采用径向基函数RBF建立各个学习设备的模仿学习神经网络，所述模仿学习神经网络包括输入层、隐含层及输出层。

在一种实施方式中，所述分别基于各个学习设备的预期数据及其输出结果对各个学习设备的模仿学习神经网络进行训练，包括：

分别计算各个学习设备的预期数据和其输出结果之间的各个误差值；

分别判断各个误差值是否小于预设值；

若存在某个误差值不小于所述预设值，则基于所述误差值对其对应的学习设备的模仿学习神经网络进行训练，得到对应学习设备经过训练后的模仿学习神经网络；

基于所述对应学习设备经过训练后的模仿学习神经网络获取各个学习设备经过训练后的模仿学习神经网络；

将所述示教数据分别作为所述各个学习设备经过训练后的模仿学习神经网络的输入数据，得到各个学习设备更新后的输出结果，并返回分别计算各个学习设备的预期数据和其输出结果之间的各个误差值的步骤，直到所有误差值小于预设值，输出各个学习设备经过训练的模仿学习神经网络。

在一种实施方式中，基于所述误差值对其对应的学习设备的模仿学习神经网络进行训练，得到对应学习设备的训练后的模仿学习神经网络，包括：

基于所述误差值调整其对应学习设备的模仿学习神经网络中各神经元之间的连接权值；

基于调整后的所述连接权值获取所述学习设备的模仿学习神经网络的映射关系；以及，

基于所述映射关系获取所述学习设备的训练后的模仿学习神经网络。

在一种实施方式中，所述将所述示教数据分别作为所述各个学习设备的模仿学习神经网络的输入数据，获得各个学习设备的输出结果，根据以下公式得到：

式中,y_j表示某个学习设备的输出结果所对应的第j个输出层神经元的输出向量，j、i分别表示某个学习设备的模仿学习神经网络第j个输出层神经元和第i个隐含层神经元，其中j＝1,2,…,n，i＝1,2,…,h，w_ij表示第i个隐含层神经元与第j个输出层神经元之间的连接权值，x_p表示教数据对应的输入向量，c_i表示第i个隐含层神经元的中心向量，σ表示方差，c_max表示各个隐含层神经元的中心向量之间的最大距离。

在一种实施方式中，所述分别计算各个学习设备的预期数据和其输出结果之间的各个误差值，根据以下公式得到：

式中，σ_i表示某个学习设备的预期数据和输出结果之间的误差值对应的第i个向量，d_j表示某个学习设备的预期数据对应的第j个标准向量，y_j表示某个学习设备的输出结果所对应的第j个输出层神经元的输出向量，其中j＝1,2,…,n，c_i表示第i个隐含层神经元的中心向量。

为实现上述目的，本公开相应还提供一种移动边缘计算服务器MEC，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行所述的基于B-M2M的设备模仿学习方法。

为实现上述目的，本公开相应还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，所述处理器执行所述的基于B-M2M的设备模仿学习方法。

根据本公开提供的基于B-M2M的设备模仿学习方法、MEC及计算机可读存储介质，通过生成各个学习设备的模仿学习策略，然后基于B-M2M信道将所述模仿学习策略广播至各个学习设备，以使各个学习设备基于其各自的模仿学习策略执行模仿学习任务。本公开利用MEC强大的数据处理能力，在MEC中生成工业现场各学习设备需要的模仿学习策略，并结合B-M2M信道实现模仿学习策略的广播通信，降低通信时延提高广播通信效率，进而提高学习设备的模仿学习效率，有效解决了目前模仿学习算法部署在设备侧所产生的机械设备生产成本高以及模仿效果差等问题。

本公开的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本公开技术方案的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开的技术方案，并不构成对本公开技术方案的限制。

图1为本公开实施例提供的一种基于B-M2M的设备模仿学习方法的流程示意图；

图2为本公开实施例提供的另一种基于B-M2M的设备模仿学习方法的流程示意图；

图3a为本公开实施例中模仿学习神经网络的结构示意图之一；

图3b为本公开实施例中模仿学习神经网络的结构示意图之二；

图4为图2中步骤S204的流程示意图；

图5为本公开实施例提供的一种MEC的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序；并且，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互任意组合。

其中，在本公开实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本公开的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

为实现上述目的，本公开提供一种基于B-M2M(BoardMachine-to-Machine，广播机器对机器)的设备模仿学习方法，应用于移动边缘计算服务器MEC，如图1所示，所述方法包括步骤S101和步骤S102。

与自动化技术相比，以机器(模仿)学习为例的人工智能技术需要强大的数据处理能力和数据运算能力，以及低延时的数据通信能力。传统技术环境中有限的计算资源制约了复杂分析方法和模型的建设，本实施例中，利用第五代移动通信5G技术的高速、低时延的数据传输能力，结合移动边缘计算(Mobile Edge Computing，MEC)为模仿学习的普及提供了空间，有助于企业设备的升级改造和降低成本，打造开放共享的数据应用生态环境和产业合作能力，让模仿学习数据产生更大价值。

在步骤S101中，分别生成各个学习设备的模仿学习策略。

本实施中，考虑到工业现场由于不同机械设备的参数、环境、执行机构等存在差异，在MEC中针对每个机械设备生成对应的模仿学习策略。可以理解的是，本公开机械设备也即现场工业设备，包括学习设备和示教设备，其中学习设备为进行模仿学习的机械设备，示教设备为示范标准行为的机械设备。

具体地，可以通过在MEC中部署各个学习设备对应的模仿学习神经网络，利用B-M2M模块接收到示教设备广播的示教数据后，作为各个设备模仿学习神经网络的输入；同时，MEC的B-M2M模块接收学习设备同步操作的预期数据作为期望结果，模仿学习神经网络的输出与接收到的期望结果不断比对，进而通过模仿学习算法获得各个学习设备的模仿学习神经网络，在获得各个设备的模仿学习神经网络后，分别输入生产数据，得到各个设备的模仿学习策略。相较于相关技术，本实施例通过将模仿学习的算法部署在MEC中，利用MEC为各个学习设备生成其相应的模仿学习策略，各学习设备无需担心因自身数据处理能力小及灵活性低等问题无法完成模仿学习的训练，此外，由MEC统筹各设备的模仿学习策略的生成，不仅可以针对不同设备参数、环境等特性为其生成相适应的模仿学习策略，同时结合了各个设备的参数、环境等特性，进行数据共享，提高了模仿学习策略的训练效率，无需重建复杂的学习算法，降低了成本和周期。

需要说明的是，现有5G主要面向点-点通信，广播通信效率低，而模仿学习在学习和生成过程中需要大量低时延的广播通信，本实施例通过构建B-M2M网络，具体地，通过划分公共信道资源池，该公共信道资源池B-M2M信道，MEC、学习设备以及示教设备之间利用B-M2M信道进行广播通信。在一种实施方式中，MEC还具备根据公共信道资源池的频段宽度和时隙数量根据广播强度进行动态调整，以保证各节点的广播发送延迟符合生产现场的质量要求，进一步地，可以通过在MEC、学习设备以及示教设备中设置B-M2M模块实现B-M2M信道广播数据的收发功能。其中，B-M2M模块具有广播管理信息、确认信息以及管理和接收公共广播信道资源池所有时隙的功能。

在步骤S102中，基于B-M2M信道将所述模仿学习策略广播至各个学习设备，以使各个学习设备基于其各自的模仿学习策略执行模仿学习任务。

具体地，MEC在获得各个设备对应的模仿学习神经网络后，将生产数据输入MEC中的各个模仿学习神经网络中，各模仿学习神经网络的输出也即模仿学习策略通过MEC的B-M2M模块广播到各个现场设备(学习设备)的控制网络，生成各学习设备相关部件的驱动信息，驱动各个结构完成对应的操作，执行模仿学习任务。

在一种实施方式中，在步骤S102之前，还包括以下步骤：

具体地，利用5G的授权频段，在工业现场基站覆盖范围内，动态划分出专用的频段(即预设频段)，本领域技术人员可以结合实际应用对该专用的频段进行适应性设定，然后基于该专用的频段的信道资源划分公共信道资源池，采用时分方式部署广播信道，网络内所有节点具有接收所有广播时隙能力，节点可以动态选择空闲时隙发送广播信息，从而实现所有设备的广播发送和接收，同时配置专用的控制时隙。

可以理解的是，所述的基站为部署了本实施例中MEC的基站，节点即MEC、示教设备和学习设备。

请参照图2，图2为本公开实施例提供的另一种基于B-M2M的设备模仿学习方法的流程示意图，在上一实施例的基础上，本实施例进一步示例了各个学习设备的模仿学习策略的生成方案，通过为各个学习设备建立各自的模仿学习神经网络，进而获取各个设备的模仿学习策略，提高各学习设备的模仿精度，具体地，将步骤S101划分为步骤S201-S205。

本实施例中，模仿学习策略的生成可以包括工业现场示教部分、集中模仿学习部分以及工业现场执行部分，其中集中模仿学习部分通过获取工业现场示教部分包括示教者和模仿者，在模仿过程中，集中模仿学习部分的感知模块(感知模块安装在工业现场示教部分的示教设备上，可以采集示教行为的信息，然后进行数据处理并通过B-M2M模块发送到集中模仿学习部分的MEC中)将视觉信息转换成了空间信息和对象信息，一系列的运动元素通过模仿学习算法进行调节，匹配出最合适的行为基元来产生运动指令，并输入到末端执行器中形成动作。模仿学习部分通过感知模块获取示教行为信息，这一过程被称为行为获取；示教行为信息通过学习模块进行学习，这一过程称为行为表征；基于学习后得到的模仿学习策略使执行模块实现行为模仿，获得与示教者相同的行为，这一过程称为行为再现。集中模仿学习部分运行流程由行为获取、行为表征以及行为再现三阶段构成。

可以理解是，本实施例的MEC为集中模仿学习部分，示教设备为工业现场示教部分，学习设备为工业现场执行部分，其中MEC通过获取示教设备的示教数据以及学习设备同步操作的期望结果对模仿学习神经网络进行训练，获得各个适应其相应学习设备的模仿学习神经网络，生成相应的模仿学习策略。

为便于理解，本实施例对工业现场示教部分、集中模仿学习部分以及工业现场执行部分进一步示例：

1)工学现场示教部分，也称之为感知部分：行为获取是机器模仿学习的基础，本实施例通过采集示教操作设备的示教行为以提取示教样本点，例如距离、行进方向、行进距离、行进角度、角速度等，也可以通过图像识别来提取动作特征的关键点，在此过程中，可以基于不同的坐标系完成样本信息的标识，例如直角坐标系、关节坐标系、工具坐标系、用户坐标系等。获取示教行为信息后，对于非线性数据，一般还需要对信息进行处理，例如轨迹分割、降噪滤波、特征提取等，转换成示教数据，然后经过B-M2M模块将示教数据进行广播，MEC的B-M2M模块接收到示教数据后进行存储，作为模仿学习神经网络的示教数据。

在一些实施方式中，示教数据也可以在标准设备上执行示教操作，由相关厂家进行开发，然后直接将示教数据下载到MEC中，供模仿学习算法使用。示教数据根据不同产品的生产要求进行结构设计，一般来说，包括步骤标识、时间点标识、对应的目标特征数据(距离、高度、宽度、大小等)、操作动作数据(机械臂行进、后退、加工等)。

2)集中模仿学习部分，学习部分将获取到的示教行为信息映射到设备自身的运动的过程，其结果是通过模仿学习算法获得模仿策略。学习部分的算法要求具备一定的泛化能力和鲁棒性，能够适应不同的设备之间的环境差异，以及具备把学习到的行为技能推广应用到新的环境的能力，并且具有一定的抗干扰能力。由于人工神经网络ANN具有信息的分布式存储、非线性映射以及自学习能力等优点，能够较好的解决非线性分类问题，以及良好的泛化能力(指学习后的网络输入一个陌生样本时，网络依旧能够根据已经训练得到的输入输出映射关系获得正确的输出)，和较好的容错能力(指输入样本出现误差较大的数据时，网络能够对该数据进行剔除)，本实施例的模仿学习策略基于ANN模型构建。模仿学习任务中，神经网络可以学习训练输入样本与输出响应之间存在的内涵联系，以得到输入输出间的映射关系，这种映射关系即为模仿学习的模仿策略。

此处需要说明的是，上述的模仿策略可以称之为理论上的模仿学习策略(也即模仿学习神经网络中输入输出之间的映射关系)，MEC在将生产数据输入到各个基于对应模仿策略训练好的模仿学习神经网络后即可获得的实际的模仿学习策略，各个学习设备在接收到该模仿学习策略后即可直接执行模仿学习任务。

3)工业现场执行部分，MEC在获得各个设备对应的模仿策略后，将生产数据输入MEC生成的各个模仿学习神经网络中，各模仿学习神经网络的输出(也即模仿学习策略)通过MEC的B-M2M模块广播到各个现场设备的控制网络，生成现场设备相关部件的驱动信息，驱动现场设备完成对应的操作。

在一些实施例中，其工作流程可分为两个阶段，阶段一是模仿学习阶段，这个阶段主要是根据现有的训练样本数据，结合教具，对所有的设备进行模仿学习的训练，以消除不同设备及其环境的差异；阶段二是生产阶段，在生产示范数据的指挥下，利用训练的神经网络，进行生产，当个别设备参数调整，或者设备合格率不达标时，再次对该设备进行阶段一的模仿学习训练。

在步骤S201中，建立各个学习设备的模仿学习神经网络。

具体地，针对学习设备的差异性建立不同的模仿学习神经网络，例如，对于相同的生产数据，不同的学习设备存在不同的执行步骤以及不同的执行方案，其中，在建立初始模仿学习神经网络时，为各神经元之间赋予初始连接权值。

在一种优选的实现方式中，所述建立各个学习设备的模仿学习神经网络(步骤S201)，具体为以下步骤：

在模仿学习中，神经网络训练输入样本与输出响应之间存在的内涵联系，得到输入输出间的映射关系，这种映射关系即可称之为模仿策略，也即在没有输入生产数据时神经网络中理论上的模仿学习策略，在模仿学习神经网络中输入相应的生产数据后，即得到针对各学习设备的模仿学习策略。

本实施例中模仿学习神经网络的结构由输入层、隐含层以及输出层构成，结合图3a和图3b所示，本实施例的神经网络的神经单元采用径向基函数RBF(Radial-basedFunction Method)构造，包括输入层(I)、隐层(h)、输出层(O)，其中，隐含层的作用是把向量从低维度的n映射到高维度的h，这样低维度线性不可分的情况到高维度就可以变得线性可分了。从输入空间到隐层空间的变换是非线性的，而从隐层空间到输出层空间变换是线性的，这样就可以将输入矢量直接映射到隐空间，而不需要通过权连接，而隐含层空间到输出空间的映射是线性的，即神经网络的输出是隐层神经元输出的线性加权和，此处的权值w即为网络可调参数。采用这种结构，网络输出对可调参数而言是线性的，从而使得神经网络实现了不仅学习收敛速度快，具有全局逼近能力，而且具有良好的局部逼近性能，无局部极小问题，能够逼近任意复杂非线性映射关系，因此适合本实施例场景中设备的各类复杂的非线性操作。

在步骤S202中，基于所述B-M2M信道接收示教设备的示教数据以及各个学习设备基于所述示教数据进行同步操作的预期数据。

其中，示教设备上安装示教教具，工业现场的学习设备安装学习教具，示教设备的教具可以根据接收到的过程参数输出操作结果的特征数据(例如距离、高度、宽度、大小等)；示教设备进行操作，可以根据操作类型的不同，定时或者在特征点时将过程参数连同示教设备的特征参数通过数据处理模块处理后的示教数据，一起通过示教设备的B-M2M模块广播发送，可以理解的是，数据处理模块的作用主要在于对特征参数进行去噪、过滤等处理，使得数据更加精确，所训练出来的模仿学习神经网络也更精确。

之后，MEC中的B-M2M模块接收到示教设备广播的示教数据，示教数据作为MEC中各现场设备对应的机器学习网络中神经网络的输入；此时，工业现场的学习设备的B-M2M模块接收到示教设备广播的过程参数，发送给设备控制器，按照过程参数进行同示教设备相同的操作，学习教具产生操作结果的特征参数(也即预期数据)，经过数据处理模块后，通过学习设备的B-M2M模块广播发送，MEC的B-M2M模块进而接收学习设备同步操作的预期数据。

在步骤S203中，将所述示教数据分别作为所述各个学习设备的模仿学习神经网络的输入数据，获得各个学习设备的输出结果。

在一种实施方式中，步骤S203，根据以下公式得到：

其中，结合图3b所示，R(x_p-c_i)为神经元之间的传递函数，其值为

可以理解的是，神经网络中各个神经元节点包含一种输出函数，即传递函数，网络的输入信号经过每层传递函数后得到该神经元的输出，其中隐含层的传递函数采用高斯函数表示：

式中，||x_p-c_i||为欧式范数，是输入向量x_p与中心向量c_i的欧式距离，c_i表示第i(i＝1,2,...,n)个神经元的中心向量，由隐含层第i个神经元对应于输入层所有神经元的中心分量构成，σ表示方差，也即c_i的中心宽度。

可以理解的是，第j个输出层神经元的输出向量为输出结果的某一个输出因素，具体而言，在一些实施方式中一个输出结果包括多个输出因素，每一个输出因素对应一个输出层的神经元输出向量。例如，对于一个图像的处理，其处理结果包括黑白两种色彩，其输出因素包括黑和白，那么其对应的模仿学习神经网络的输出结果包括两个输出向量，其中两个输出向量分别对应黑和白两个输出因素。此外，图3b中，W₁，W₂…，W_P即对应本实施例中第i个隐含层神经元与第j个输出层神经元之间的连接权值w_ij，例如，W₁对应的是第一个隐含层神经元与第j个输出层神经元的连接权值。

在步骤S204中，分别基于各个学习设备的预期数据及其输出结果对各个学习设备的模仿学习神经网络进行训练。

MEC在分别接收到示教设备广播的示教数据以及各个学习设备广播的操作结果的特征参数后，MEC将接收到的各学习设备的特征参数作为各学习网络中神经网络的实际响应，MEC通过将模仿学习网络的输出结果与接收到的期望数据不断比对，获取经过训练的各个学习设备的模仿学习神经网络。

在步骤S205中，基于经过训练的各个学习设备的模仿学习神经网络分别获取各个学习设备的模仿学习策略。

具体地，MEC通过获取生产数据，并将生产数据输入到经过训练的各个学习设备的模仿学习神经网络中，该模仿学习神经网络的输出结果即为各个学习设备对应的模仿学习策略。其中，生产数据即为工业现场需要各工业设备(学习设备)执行模仿学习任务的数据。

进一步地，本实施例通过将模仿学习神经网络的输出不断与接收到的现场设备的实际相应进行对比，计算误差，利用误差信号进行反向回馈，对网络各层神经元间的连接权值进行修改，经过反复迭代，直到误差满足预设值，来确定最终的各个设备的模仿学习神经网络的映射关系，进而获得各个学习设备的模仿学习策略的生成，所述分别基于各个学习设备的预期数据及其输出结果对各个学习设备的模仿学习神经网络进行训练(步骤S204)，如图4所示，具体为以下步骤：

在步骤S204a中，分别计算各个学习设备的预期数据和其输出结果之间的各个误差值。

在一种实施方式中，所述步骤S204a，根据以下公式得到：

可以理解的是，上述公式为模仿学习神经网络的损失函数，基于损失函数的计算可获得各个学习设备的预期数据和其输出结果之间的各个误差值；其中，由于输出结果可能包括多个输出因素，相应的误差值也包括多个误差因素，每个误差因素对应一个向量。

在步骤S204b中，分别判断各个误差值是否小于预设值，若存在某个误差值不小于所述预设值，则执行步骤S204c，否则，说明结束流程。

需要说明的是，如果所判断出来的各个误差值均小于预设值，说明在建立各设备的模仿学习神经网络时为各神经元之间所赋予的初始连接权值即能满足工业设备的模仿学习精度，此时结束流程，直接输出当前各设备的模仿学习神经网络，并基于当前各设备的模仿学习神经网络获取各学习设备的模仿学习策略；此外，本领域技术人员可以结合现有技术和实际应用对该预设值进行适应性设定。

在步骤S204c中，基于所述误差值对其对应的学习设备的模仿学习神经网络进行训练，得到对应学习设备经过训练后的模仿学习神经网络；

在步骤S204d中，基于所述对应学习设备经过训练后的模仿学习神经网络获取各个学习设备经过训练后的模仿学习神经网络；

在步骤S204e中，将所述示教数据分别作为所述各个学习设备经过训练后的模仿学习神经网络的输入数据，得到各个学习设备更新后的输出结果，并返回分别计算各个学习设备的预期数据和其输出结果之间的各个误差值的步骤，直到所有误差值小于预设值，输出各个学习设备经过训练的模仿学习神经网络。

进一步地，基于所述误差值对其对应的学习设备的模仿学习神经网络进行训练，得到对应学习设备的训练后的模仿学习神经网络，具体为以下步骤：

a、基于所述误差值调整其对应学习设备的模仿学习神经网络中各神经元之间的连接权值。

可以理解的是，本实施例中各神经元之间的连接权值为隐含层到输出层中各神经元之间的连接权值。

在一种具体的实施方式中，各神经元之间的连接权值可以采用最小二乘法计算得到，即调整各神经元之间的连接权值使损失函数的值最小。进一步地，可以通过对损失函数求解关于w_ij的偏导数，使其等于0，化简得到以下公式对各神经元之间的连接权值进行调整：

其中，x_j为隐含层到输出层的第j神经元的输入向量(其中x_p对应输入层神经元的输入向量)，

b、基于调整后的所述连接权值获取所述学习设备的模仿学习神经网络的映射关系；以及，

c、基于所述映射关系获取所述学习设备的训练后的模仿学习神经网络。

本实施例中，模仿学习神经网络的映射关系的确定是训练的目的，其中映射关系即神经网络中输入输出间的映射关系，通过优化连接权值的方式获得映射关系。

本实施例中，结合5G的MEC技术和B-M2M网络，将模仿学习应用于工业现场大规模生产，将工业现场设备对应的模仿学习网络组成学习网络矩阵，部署到移动通信网络的MEC中，具有部署和升级灵活的特点，结合B-M2M高效广播网络，将示教数据和实际设备的操作数据通过B-M2M广播传输，在MEC中集中进行学习，充分利用了MEC的数据处理资源优势，降低了工业现场设备智能化的难度和成本，本实施例对提高5G技术在工业领域的应用，同时对构建B-M2M技术的应用生态，具有积极的意义。

基于相同的技术构思，本公开实施例相应还提供一种移动边缘计算服务器MEC，如图5所示，所述MEC包括存储器51和处理器52，所述存储器51中存储有计算机程序，当所述处理器52运行所述存储器51存储的计算机程序时，所述处理器执行所述的基于B-M2M的设备模仿学习方法。

基于相同的技术构思，本公开实施例相应还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，所述处理器执行所述的基于B-M2M的设备模仿学习方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims

1.一种基于B-M2M的设备模仿学习方法，其特征在于，应用于移动边缘计算服务器MEC，包括：

分别生成各个学习设备的模仿学习策略；以及，

基于广播机器对机器B-M2M信道将所述模仿学习策略广播至各个学习设备，以使各个学习设备基于其各自的模仿学习策略执行模仿学习任务。

2.根据权利要求1所述的方法，其特征在于，在基于所述B-M2M信道将所述模仿学习策略广播至各个学习设备之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述生成各个学习设备各自的模仿学习策略，包括：

建立各个学习设备的模仿学习神经网络；

4.根据权利要求3所述的方法，其特征在于，所述建立各个学习设备的模仿学习神经网络，包括：

5.根据权利要求4所述的方法，其特征在于，所述分别基于各个学习设备的预期数据及其输出结果对各个学习设备的模仿学习神经网络进行训练，包括：

分别判断各个误差值是否小于预设值；

6.根据权利要求5所述的方法，其特征在于，基于所述误差值对其对应的学习设备的模仿学习神经网络进行训练，得到对应学习设备的训练后的模仿学习神经网络，包括：

7.根据权利要求3所述的方法，其特征在于，所述将所述示教数据分别作为所述各个学习设备的模仿学习神经网络的输入数据，获得各个学习设备的输出结果，根据以下公式得到：

8.根据权利要求5所述的方法，其特征在于，所述分别计算各个学习设备的预期数据和其输出结果之间的各个误差值，根据以下公式得到：

9.一种MEC，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据权利要求1至8中任一项所述的基于B-M2M的设备模仿学习方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，所述处理器执行根据权利要求1至8中任一项所述的基于B-M2M的设备模仿学习方法。