CN111090631B

CN111090631B - 分布式环境下的信息共享方法、装置和电子设备

Info

Publication number: CN111090631B
Application number: CN202010211985.8A
Authority: CN
Inventors: 朱晓敏; 张雄涛; 包卫东; 梁文谦; 周文; 王吉; 吴冠霖; 陈超; 高雄; 闫辉; 张亮
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-06-19
Anticipated expiration: 2040-03-24
Also published as: CN111090631A

Abstract

本发明提供一种分布式环境下的信息共享方法、装置和电子设备，所述分布式环境包括若干节点，所述节点包括：聊天器、网络分析器、出版器、更新器、数据集存储器、训练器和本地模型发行器；所述分布式环境下的信息共享方法应用于任一所述节点，包括：所述训练器训练得到第一模型；所述聊天器问候相邻节点；所述网络分析器根据问候信息分析链路可靠性；所述出版器提取所述第一模型并发送给所述聊天器；所述聊天器确定合作伙伴，接收所述合作伙伴发送的第二模型并向所述合作伙伴发送所述第一模型，自适应地调整所述节点可靠性阈值；所述更新器根据所述第二模型和所述第一模型得到新的本地模型，并将所述新的本地模型存储在所述本地模型发行器中。

Description

分布式环境下的信息共享方法、装置和电子设备

技术领域

本发明涉及分布式学习技术领域，尤其涉及一种分布式环境下的信息共享方法、装置和电子设备。

背景技术

随着对低延迟、资源效率和安全性的要求越来越高，人工智能应用越来越广泛的应用于移动设备上。然而，网络环境的不稳定性和移动设备的资源约束等问题阻碍了其实现。

发明内容

有鉴于此，本发明的目的在于提出一种能够在移动设备资源约束条件下对不稳定网络实现稳定学习的分布式环境下的信息共享方法、装置和电子设备。

基于上述目的，本发明提供了一种分布式环境下的信息共享方法，其特征在于，所述分布式环境包括若干节点，所述节点包括：聊天器、网络分析器、出版器、更新器、数据集存储器、训练器和本地模型发行器；

所述分布式环境下的信息共享方法应用于任一所述节点，包括：

所述训练器根据来自所述数据集存储器的数据训练，得到第一模型，将所述第一模型存储在本地模型发行器中；

所述聊天器发送问候信息问候相邻节点；

所述网络分析器根据所述问候信息分析链路可靠性，并将所述链路可靠性的分析结果反馈给所述聊天器；

所述出版器提取所述第一模型并发送给所述聊天器；

所述聊天器通过将所述链路可靠性的分析结果与节点可靠性阈值进行比较从所述相邻节点中确定合作伙伴，通过闲聊方法接收所述合作伙伴发送的第二模型并向所述合作伙伴发送所述第一模型，自适应地调整所述节点可靠性阈值；

所述更新器根据所述第二模型和所述第一模型得到新的本地模型，并将所述新的本地模型存储在所述本地模型发行器中。

在一些实施方式中，所述节点还包括：

监视器，所述监视器监视节点状态得到节点状态信息，并向其他组件提供所述节点状态信息。

在一些实施方式中，所述链路可靠性通过如下公式获得：

其中，

为链路可靠性，

表示在

期间，节点

和

之间的节点移动性引起的链路失败的概率；

表示

期间

的节点错误概率。

在一些实施方式中，所述闲聊方法具体包括：

将时间划分为多个时段，通过以下公式表示所述节点之间的信息交换：

其中

表示节点

中的信息，χ_p表示来自合作伙伴n_p的信息，

表示信息的融合函数，

表示节点

是否成功接收到来自节点n_p的信息，如果成功，则为1，否则为0；

从节点n_p接收信息的期望为：

其中

表示节点

和节点n_p之间的链路可靠性。

在一些实施方式中，所述第一模型的参数矢量通过以下公式获得：

其中，w表示模型参数矢量，

是学习率，t=0,1,2,…表示迭代次数的索引，d是数据集中的数据样本，

表示在训练数据d上，利用模型参数矢量w(t)推理得到的结果和正确结果之间误差的损失函数。

在一些实施方式中，所述更新器根据所述第二模型和所述第一模型得到新的本地模型，具体计算包括：

其中，

是节点

的合作伙伴数，

表示模型的接收状态，若节点

从节点

成功接收到节点

中的模型参数矢量

，则

=0，否则

=1。

在一些实施方式中，所述自适应地调整所述节点可靠性阈值具体包括：

根据所述随机梯度下降方法的收敛性、节点所处的网络状态以及节点执行任务时所消耗资源的动态变化对所述节点可靠性阈值进行优化调整。

基于同一发明构思，本发明还提供了一种分布式环境下的信息共享装置，其特征在于，包括：

模型训练模块，被配置为训练器根据来自数据集存储器的数据训练，得到第一模型，将所述第一模型存储在本地模型发行器中；

问候分析模块，被配置为聊天器发送问候信息问候相邻节点；

分析模块，被配置为网络分析器根据所述问候信息分析链路可靠性，并将所述链路可靠性的分析结果反馈给所述聊天器；

模型出版模块，被配置为出版器提取所述第一模型并发送给所述聊天器；

模型交换模块，被配置为所述聊天器通过将所述链路可靠性的分析结果与节点可靠性阈值进行比较从所述相邻节点中确定合作伙伴，通过闲聊方法接收所述合作伙伴发送的第二模型并向所述合作伙伴发送所述第一模型，自适应地调整所述节点可靠性阈值；

模型更新模块，被配置为更新器根据所述第二模型和所述第一模型得到新的本地模型，并将所述新的本地模型存储在所述本地模型发行器中。

基于同一发明构思，本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述实施方式任意一项所述的方法。

基于同一发明构思，本发明还提供了一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述实施方式任一所述方法。

从上面所述可以看出，本发明提供的一种分布式环境下的信息共享方法、装置和电子设备是第一个同时考虑到网络的不稳定性和移动设备资源约束问题的分布式信息共享方法；率先提出了α-gossip学习，使得节点之间通过gossip的方式交换参数，实现了移动设备在不可靠网络中的分布式学习；提出了针对移动设备的移动性和网路故障率的链路可靠性模型，提高了网络的稳定性和健壮性；提出了一种动态控制算法Alpha-Gossip随机梯度下降，用于部署α-gossip 学习方案并最大限度地利用了资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例的一种分布式环境下的信息共享方法的流程图；

图2为本发明一个实施例的移动设备上的分布式学习场景示意图；

图3为本发明一个实施例的分布式学习架构示意图；

图4为本发明一个实施例的电子设备的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

每个人都有自己喜欢的音乐，着装风格和生活习惯，随着社会的发展，这些个人喜好越来越丰富和多样化。但是，当前的人工智能（AI）应用（例如语音识别）主要是基于公共数据集（语音识别中通常针对相对标准的发音）进行训练的。尽管这些应用程序在大多数测试数据集中显示出很高的准确性，但仍不足以满足用户的个别要求（例如口音、口头禅、术语等）。根据Statista 研究部的报告，到2020 年，全球手机用户数量有望突破50 亿大关。思科的可视化网络指数(VNI)报告指出，到2021年，移动数据流量预计将增长到每月49艾字节。这些数据使得进一步提高人工智能(AI)应用的性能成为可能，因为大多数人工智能模型都需要大量的样本进行训练用户在这些移动设备上生成大量个性化数据（身体状况，收入水平，聊天记录等），该数据可用于提高AI 应用程序的个性化水平。但是，受移动设备的计算，存储和电池电量的限制，在本地由单个设备处理学习任务是不现实的；此外，将数据发送到云可能会导致网络拥塞和隐私泄漏。因此，需要一种使移动设备能够在保护用户隐私的同时学习个人数据的训练架构，为了解决这一问题，达到扩展人工智能应用范围的同时减少延迟、释放带宽和保护隐私的目的，边缘人工智能(Edge AI)应运而生，近几年来结合了边缘计算和人工智能的新技术边缘智能得到了迅速的发展。边缘人工智能作为一种分布式计算系统，使移动设备可以训练共享模型，同时在本地保留所有原始数据，从而避免了直接数据共享带来的隐私泄露风险；使移动设备能够训练共享模型同时本地保存所有原始数据。这些方法在更新之前需要将本地模型发送到云或特定节点进行模型聚合，这在一些动态和不稳定的场景下不适合移动设备，目前主要是通过像联邦这样的分布式方法来实现，但是联邦学习需要将本地模型发送到云或公共服务器，这意味着其中一个成员可以通过允许后门学习其他人的数据来恶意攻击其他人。相比之下，个人移动设备之间的完全分布式协作体系结构可确保参与设备是非恶意的。而且这些方法需要发送本地模型到在模型聚合之前的云或特定节点更新，这是不适合移动设备在一些动态和不稳定场景。例如，大型无人机灯光秀需要在限制区部署大量无人机，这将导致边缘到云端的连接拥堵，以满足时间敏感的要求，而基站无法承受巨大的压力。与此相反，分布式协同架构可以获得更好的容错性、更高的效率、更少的带宽和更低的延迟。因此，本申请试图解决部署问题将人工智能应用以分布式方式应用到移动设备上，向云发送少量数据。本申请考虑一个典型的移动设备间分布式学习场景，其中移动节点通过无线通信网络部分地连接在一起。数据在本地收集和存储，并通过协作机制从这些数据中训练模型。由于移动设备的移动性和无线通信的局限性，移动节点之间的链路存在失效概率。

由于移动设备在功率、存储、处理等方面的局限性，再加上节点故障、通信不稳定、设备移动性等因素，实现上述场景需要克服许多挑战。此时，一种可靠的方法是让设备与其相邻的聊天器交换本地信息，而不是与特定的节点交换，然后迭代地形成一致意见。这种方法和人们的gossip行为非常相似。受此启发，可以设计一种基于gossip算法的分布式学习机制，该机制被广泛应用于分布式环境下的信息共享。而传统的gossip算法随机选择相邻的聊天器进行通信，容易受到网络不稳定的影响，导致信息丢失。和沟通与所有的相邻的聊天器，也可以导致浪费太多的带宽在低可靠性的链接。

为了在提供计算服务的同时减少处理时间和带宽压力，学术界和工业界先后提出了边缘计算、雾计算、移动云计算、移动边缘计算概念。广义上，边缘人工智能可以理解为它们的一个具体场景。然而，上述领域的现有研究主要集中在一般的应用上，并没有涉及到AI应用的不可靠通信、资源约束和训练收敛之间的关系，而这对于移动设备上的学习是非常重要的。

同时，现有的分布式学习研究大多集中在数据中心等场景。这些工作通过数据并行化模型并行化实现并行化。来平衡效率之间的关系硬件和统计方面，开发了Hadoop、Spark、TensorFlow等分布式系统。最近，Jiang Jie等人提出了一种分布式机器学习系统Angle，通过允许不同组的并发更新模型，并调度每个组的更新，促进了机器学习在生产环境中的应用开发。尽管这些研究在大规模分布式学习中表现良好，但没有研究表明这些研究能够在移动设备上取得可接受的结果。

一些人已经注意到开展前沿人工智能研究的重要性，并得出了许多有价值的结论。例如，Merelli 等人通过Fog 计算范例解决了便携式测序设备的大量数据流带来的挑战。为了更好地利用边缘设备中的各种资源。Sensi 等人设计了一个名为Mammut 的系统，用于管理底层架构功能，以控制性能和功耗。作为实现边缘计算的重要平台，诸如智能手机之类的移动设备必须面对诸如资源有限，兼容性和安全漏洞之类的挑战。为了应对这些挑战，Zhang 等人在不完整的信息环境中研究了Android 应用的反射分析。He 等人开发一个名为IctApiFinder 的新工具，以检测Android 应用程序中不兼容的API 应用。Danese等人提出了一种并行体系结构，用于在多核嵌入式处理器中实现基于带限相仅空间相关性（BLPOC）的匹配算法。同时，以神经网络为代表的AI 技术在高光谱图像分类，信号处理和产品推荐方面都取得了良好的效果。但是，由于诸如移动设备的计算，通信和存储等因素，结合了边缘计算和人工智能的应用才刚刚起步。代表性的是，Konený 等人提出了一种称为联邦学习的计划，该计划使手机能够协作学习共享的预测模型，同时将所有训练数据保留在本地。Wang 等人提出了一种自适应系统，该系统利用数据局部性和每个边缘节点的独特属性，来支持MEC 中广泛的有监督的机器学习问题，称为Cartel。为了全面利用云，边缘（雾）和终端设备中的资源，Teerapittayanon 等人在分布式计算层次结构上部署了分布式深度神经网络。Wang 等人通过动态更改全局聚合频率，在MEC 系统中以给定的资源预算优化学习效果。Torti 等人可穿戴系统中的嵌入式递归神经网络，用于实时跌倒检测。这些工作在促进边缘智能的发展中发挥了重要作用。但是，与多核平台上的并行和分布式计算不同，IoT 和边缘计算面临许多不确定性，例如通信突然中断。并且大多数现有的工作都没有讨论不可靠的网络和移动设备的移动性的影响。回到移动设备中的个性化应用程序，一些人还意识到边缘智能在使应用程序更具个性化方面的优势。Chen 等人提出了一种用于推荐的联合元学习框架，其中在算法级别共享用户信息，而不是先前方法中采用的模型或数据。但是，这种方法主要是为企业推荐用户的需求，将用户设备中的数据/模型上传到第三方仍然存在敏感数据泄露的风险。Hitaj 等人提出使用这种方法训练生成对抗网络（GAN）的恶意参与者可以攻击其他参与者。因此，本申请使用gossip 机制在没有公共节点的情况下通过用户的个人数据来训练个人模型，从而避免恶意参与者。早先，在分布式学习（主要是云中的多处理器）方面进行了一些研究，将注意力转移到类似gossip 的通信模式上。具体来说，Blot 等人提出了一种称为Go随机梯度下降的完全异步和分散式方法，该方法致力于通过在gossip 算法的启发下在不同线程之间共享信息来加快卷积网络的训练。考虑到可扩展的深度学习，Daily 等人设计了GossipGrad，这是一种基于异步通讯梯度下降的更为复杂的gossip 通讯。但是，直到Tang 等人在文献中才提出使用类似gossip的机制来解决不可靠网络的影响。假设工作人员与服务器之间的每一次通信都有被丢弃的非零概率p。唐等人的工作对于推进不可靠网络上的分布式研究的研究非常重要，但是该假设对于移动设备过于严格（移动引起的链路故障等）。此外，所有这些工作仍然不是为移动设备设计的。比较有代表性的提出了一种称为联合学习的方案，该方案使得手机能够在将所有的训练数据保存在设备上的同时，协同学习一个共享的预测模型。联邦学习的后续工作包括但不限于：跨多个机构构建AI解决方案，移动端异构资源客户端选择。也有一些工作尝试通过其他方案进行边缘AI，提出了一个自适应系统，利用数据局部性和每个边缘节点的独特属性，支持MEC中广泛的监督机器学习问题称为卡特尔。为了全面利用云、edge (fog)和终端设备中的资源，在分布式计算层次结构上部署了分布式深度神经网络。在MEC系统中，通过动态改变全局聚集频率，在给定的资源预算下优化学习效果。这些作品对Edge AI的发展起到了很大的推动作用。但他们都没有讨论不可靠的网络和移动设备的移动性的影响。

有鉴于此，本申请提出一种分布式环境下的信息共享方法、装置和电子设备。下面结合图1、图2 、图3和图4为为本发明一个实施例的一种分布式环境下的信息共享方法的流程图、移动设备上的分布式学习场景示意图、分布式学习架构示意图和电子设备的硬件结构示意图对本发明做进一步说明：

本申请通过为每个节点设立一个可靠性阈值，之后将节点之间的链路可靠性与设立的节点可靠性阈值进行比较，选择可建立可靠链路的节点作为合作伙伴，之后通过闲聊方法即α-gossip方法与合作伙伴进行数据传输，将模型传输给对方；由于每个节点的链路可靠性和资源状态各不相同，因此可以通过自适应地调整每个节点的可靠性阈值来控制学习过程。

本申请基于三个主要部分构建：链路可靠性判定，α-gossip方法和分布式学习，其中链路可靠性模型描述了不可靠网络的影响，节点之间通过α-gossip方法建立通信方式，分布式学习则提升了这些节点的学习效果。

本发明提供的一种分布式环境下的信息共享方法，所述分布式环境包括若干节点，所述节点包括：聊天器、网络分析器、出版器、更新器、数据集存储器、训练器和本地模型发行器；

本实施例中，所述节点还包括：监视器，所述监视器监视节点状态得到节点状态信息，并向其他组件提供所述节点状态信息。

S1，所述训练器根据来自所述数据集存储器的数据训练，得到第一模型，将所述第一模型存储在本地模型发行器中：

每个节点中的训练器根据存储在数据集存储器中的本地数据训练其本地模型，训练后的模型即第一模型，将存储在本地模型发行器中。

通常，大多数学习过程是使特定模型的损失函数最小化，为此，最常用的方法之一是随机梯度下降。

本实施例中，所述第一模型的参数矢量通过以下公式获得：

（14）

其中，w表示模型参数矢量，

考虑到有n个节点，在每个节点

中通过梯度下降学习m数据样本

。然后，本申请可以将公式(14)重写为本地更新为：

(15)

其中

是数据D_i集中的数据样本。

S2-1，所述聊天器发送问候信息问候相邻节点：

移动设备具有许多应用场景，包括狭窄空间的室内，高层城市街道，宽阔的平原和天空等。因此，影响链路可靠性的因素很多，例如节点之间的障碍，信号衰减，多径效应和节点故障等。在某些情况下，例如天空和平原，信号受诸如遮挡和干扰之类的因素影响较小，并且可以近似认为处于完全开放的空间中。为了获得各个移动设备的网络情况，对网络环境进行有效的分析，每个节点中的聊天器将通过发送参数如速度、位置等问候相邻节点中的聊天器。

S2-2，所述网络分析器根据所述问候信息分析链路可靠性，并将所述链路可靠性的分析结果反馈给所述聊天器：

网络分析器将根据聊天器接收的相邻节点中的聊天器反馈的参数来分析不同节点之间的链路可靠性，得到分析结果，之后将分析结果提供给聊天器。

为简单起见，考虑到某些移动设备在完全开放的空间（例如，外层空间，天空，海面和平原）中进行不规则移动。形式化的这些移动设备可以看作是一组移动节点：

，以及它们的总数是m，其中

。为了进行分析，本申请做出以下假设：

假设1.对于在开放空间中进行不规则移动的移动节点：

1）在这种情况下，链路故障的原因是节点的位置转换或意外退出（由于断电或链路故障）。

2）在同一节点上发生的移动和错误是独立的，并且在不同节点上发生的移动或错误也是独立的。

假设 2. 两个节点之间的通信链路有最大距离。那是：

其中，D_ij，d_ij表示最大通讯距离和两者之间的实际距离

和

，当链路可用时链路可靠性

> 0 对于不可用的链路

< 0。由于节点的停电是可以预测的，因此链路故障的主要因素是节点的移动性和错误率。根据假设1，由节点错误和节点移动引起的链路故障是彼此独立的。

本实施例中，所述链路可靠性通过如下公式获得：

其中，

为链路可靠性，

表示在

期间，节点

和

之间的节点移动性引起的链路失败的概率；

表示

期间

的节点错误概率。

对系统可靠性的研究表明，节点错误的概率服从Poisson分布。因此，当在

期间在节点

发生错误k次时，在

期间

没有发生错误的概率为：

其中λ_i是节点

的每单位期间的平均错误数。

至于节点移动引起的链路故障，本申请首先将其离散化。对于可以在时间

进行通信的一对节点，在时间t之后它们之间最简单的关系是：

其中I_m描述是否移动节点，当节点移动时I_m=1，否则I_m=0。公式(4)表示节点

和

的相对运动在当且仅当两个节点之间的链路断开时发生。更笼统地说，这种相对运动可以看作是发生了 k 次运动事件

其中I_m是节点

和

的相对移动时间；r表示链路将在r次移动过程中断开，并且k属于自然数。

为了便于推导，可以在此基础上给出定义。如果两个节点之间的相对运动可以如式(5)所示离散，则等效。然后，本申请可以在下面的定理中获得链路可靠性（仅考虑运动事件）。

定理 1. 对于在开放空间中进行不规则移动的移动节点，假设一对节点

和

之间的相对运动可以离散等效，那么，仅考虑运动，它们的链路可靠性与相对距离d_ij和相对速度v_ij负相关，服从伽玛分布：Γ(k_ij,λ_ij)。

其中λ_ij和k_ij与节点

和

之间的距离d_ij和相对速度v_ij相关：

这里， φ_λ(·) 和

被称为 λ 和 k 的相关函数。

公式(2)中的链路可靠性可以重写为：

其中，λ_i，λ_j分别表示节点

和

的每单位时间平均错误数。λ_ij，^k _ij可以分别通过相关函数

和

来计算。实际上，很难直接获得

和

的准确分析，因此本申请需要用另一种方法来拟合它，附录中对此进行了讨论。

S3-1，所述出版器提取所述第一模型并发送给所述聊天器：

出版器将之前存储在本地模型发行器中的第一模型提取出来并发送给聊天器。

S3-2，所述聊天器通过将所述链路可靠性的分析结果与节点可靠性阈值进行比较从所述相邻节点中确定合作伙伴，通过闲聊方法接收所述合作伙伴发送的第二模型并向所述合作伙伴发送所述第一模型，自适应地调整所述节点可靠性阈值：

本实施例中，所述所述节点自适应地调整所述节点可靠性阈值具体包括：

具体的有，本申请使用图来抽象移动设备的通信网络的结构。该网络可以表示为：

其中N是移动节点的并集；E是边缘，它是节点之间连接的集合。

表示此网络中的节点数；本申请将链路可靠性用作G的邻接矩阵，即

。如果存在从

到

以及i≠j的边，则r_ij＞0，否则r_ij＝0。

因此，每个节点

的相邻的聊天器为：

其中n_s∈N并且满足r_is＞0。

值得注意的是，在经典的gossip 问题中没有链路故障和随时间变化的信息，这被称为女士之间的电话gossip。因此，大多数gossip 算法使节点能够与随机选择的相邻的聊天器通信。这些方法通常用于在同步或异步任意连接的网络上分布信息（确定的和固定的），以实现全局一致性。但是，在本申请的问题中，传输中存在链路故障的时变可能性。此外，节点之间的通信需要一段时间才能完成，而每个节点维护的信息在训练时会随着时间不断变化。为了提高学习效果，有必要尽可能多地共享参数。进行随机选择不会有效地分散参数，但是会浪费通信资源到不可靠的链路上。尽管链路的错误很难预测，但是可以评估链路的可靠性。因此，本申请让每个节点根据链路可靠性选择其伙伴。

具体地，可以通过为每个节点

定义阈值

来改善伙伴的选择。一旦链路可靠性高于

，将选择相应的节点。即：

为简化起见，本申请将时间划分为多个时段。然后，可以通过以下公式来表示节点之间的信息交换：的信息

其中x_i(t)表示节点

的信息，

表示来自合作伙伴n_p的信息，

表示信息的融合函数（平均或加权求和等），

表示节点

是否成功接收到来自节点n_p的信息，如果成功，则为 1，否则为0；从n_p接收信息是一个概率事件，其期望为：

其中r_ip（t）表示节点

和节点n_p之间的链路可靠性。

通过联立方程(11)和(12)既可以得到α-gossip方法。

基于上述讨论，一个自然的问题是当网络不可靠时，如何充分利用受限资源来获得更好的学习效果，因此全局学习有效性在给定的条件下最大每个节点中此AI 应用程序的资源预算，为了衡量整体学习效果，本申请考虑每个节点

的总体损失函数为：

但是，可能会发生这种情况：

这意味着某些孤立的节点可能具有比其他节点高得多的损失函数值。为了避免这些情况，本申请引入模型方差来衡量每个节点之间的模型差异：

因此，可以通过复合等式(18)和(19)计算学习效率：

在这里本申请使用惩罚系数

和

-norm

描述模型差异的影响。显然，对于任何分布式学习算法，

越小，获得的学习效果越好。

在不失一般性的前提下，本申请专注于计算资源预算和通信资源预算

和

。形式化地，本申请定义每个参与节点的本地更新的每一步都消耗

单位的计算资源，而网络分析的每一步都消耗

的单位计算资源和

单位的通信资源，α-gossip的每一步都由

和

单位计算和通信资源，其中

，是大于0的实数。通常，有许多因素可能会影响这些消耗，例如训练方法，模型的大小和数据样本的数量。准确测量每种训练方法的资源消耗是沉重的负担。因此，本申请主要研究随机梯度下降（随机梯度下降）中的资源消耗，这是一种广为接受的方法，已被证明对于训练神经网络非常有效。根据这种方法，每个节点上的模型都在随机小批上训练。如果每个小批量中的样本数量相同，则每次训练迭代中的计算资源将仅与模型的大小有关。为简单起见，本申请假设

仅与模型的大小（每个微型批次中的样本数量相等），网络分析中的

，

与相邻的聊天器数量相关；α-gossip中的

，

与伙伴数量和模型有关。对于具有相同模型的特定应用程序，假设

，

，

，

与它们的大小线性相关，本申请有：

其中

是相邻的聊天器集合Ω_i的大小，而

是伙伴集合

的大小。

根据等式(21)，资源消耗与模型大小，相邻的聊天器和伙伴有关。由于相邻的聊天器和模型大小是固定的，用于控制资源消耗的可调参数是

，它决定了伙伴的选择。由于网络不可靠，在α-gossip步骤中交换模型的结果是随机的，在T迭代后模型的向量

也是随机的。因此，为了在不可靠网络和资源受限的情况下基于α-gossip学习获得更好的预期结果，本申请寻求以下优化问题的解决方案：

其中

和

是节点

的资源预算，是α-gossip learning的预定义总迭代（依次完成本地更新，网络分析和α-gossip看做是一个迭代）。

为了简化式(22)，本申请需要找出

的值如何影响优化函数

。这通常很难找到精确的表达式来将每个节点中的

与

来进行全局优化，因为它取决于梯度下降的收敛性和网络状态（这通常是不一致且不可预测）。此外，在部分情况下，每个节点执行同一任务所消耗的资源也可能随时间变化。这需要一种简单，实时的在线方法来确定每个节点本身的

的值。为了找到这种方法，本申请通过提高预算资源的使用效率对这种优化问题进行了近似解决。

虽然链路不可靠，但在这些失败的传输中会浪费通信资源。对于

选择的链路，节点

在每次迭代中浪费的通信资源为：

其中b是每次传输花费的带宽单位。

减少式(23)的一种方法是选择具有更高可靠性的链路。在尽可能多地使用带宽的同时，可以通过选择高于

的链路来减少浪费的通信资源。那么，在仅考虑通信资源的情况下，

满足：

其中

是伙伴集

的大小，它由r_ij＞α_i的所有相邻的聊天器组成。因此，当式(24)最大时，本申请有：

其中符号

表示小于或等于x的最大整数。

式(24) 的解是：

其中

是仅考虑通信资源的近似解，

是第

个可靠性的值，且

，

。

同样，仅考虑计算资源时，本申请也可以获得近似解：

计算资源的

的值为：

其中，

因为通信和计算的约束对于学习过程都是严格的，所以式(22)的近似解可以通过最大化式(26)）和(28)中的

和

：

S3-3，所述更新器根据所述第二模型和所述第一模型得到新的本地模型，并将所述新的本地模型存储在所述本地模型发行器中：

最后，聊天器通过伙伴通过α-gossip从合作伙伴收到的模型将由更新器更新，并存储在本地模型发行器中。注意，监视器的功能是监视移动节点的状态并向每个组件提供所需的信息。

本实施例中，为了改善公式(15)中的学习模型，每个节点应在一个或多个局部学习迭代之后通过某些机制（例如全局聚合）交换其模型。假设模型是平均融合的，则所述更新器根据所述第二模型和所述第一模型得到新的本地模型，具体计算包括：

其中，

是节点

的合作伙伴数，

表示模型的接收状态，若节点

从节点

成功接收到节点

中的模型参数矢量

，则

=0，否则

=1；节点

和

节点中的模型可以不同，因为它们的合作伙伴可以不同。

进一步的，在本实施例中，使用动态控制随机梯度下降算法实现，该控制算法可以匹配适用随机梯度下降训练的任何应用程序，其输入为节点

的资源预算

和

，学习率η和总训练迭代Τ。资源预算

，

由设备操作系统的监视器给出，而η，Τ对应于AI应用程序的学习算法。参数

和误差系数λ_i是移动设备的固有属性，其中

是根据MAC（媒体访问控制地址）设置的，而λ_i是单位时隙与节点

的设计使用寿命的比率。

为了同步每个节点中的学习过程，本申请在学习控制这三个步骤的切换之前，将时间t_a，t_b，t_c，t_o用作全局知识。其中，t_a，t_b和t_c分别是本地更新，网络分析和闲聊方法的最终结束时间。是每个步骤之间的预留时间，以使切换更加美观。学习迭代等于t_a+t_b+t_c+t_o，总学习时间为T(t_a+t_b+t_c+t_o)。在本申请的算法中，这些时间是在gossip方法之前进行调整的，其中本申请根据设备的计算资源状态确定t_a，t_o，并根据网络状态确定t_b，t_c。具体来说，对于将为给定应用程序部署的所有类型的设备，将对应用程序中设计的随即梯度下降算法执行100次迭代，然后将这些设备平均花费的时间作为t_a。t_b和t_c是按照所选通信模式的最大通信速率的10%，完成信息传输的时间。预留时间t_o设置为t_a乘以0.01。通常，每个应用程序在上线之前都将在相应的操作系统上进行测试，并且在初始化应用程序时可以自动设置以上参数。

在每次迭代中，该算法都可以使用数据集存储器中的数据来训练本地模型。然后，当时间满足时，每个节点将通过发送问候信息并接收反馈获得相邻的聊天器的信息Ω_i。之后，每个节点通过闲聊方法交换模型并更新本地模型。参数

，

，

，

，

，

和剩余资源预算

，

将在每个函数完成时更新，如第9，12和14行所示。最后，每个节点直到

和

之间的差等于T(t_a+t_b+t_c+t_o)时才执行下一次迭代，如第17行中所示，算法1的时间复杂度和空间复杂度都是0(n)。

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围（包括权利要求）被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路（IC）芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的（即，这些细节应当完全处于本领域技术人员的理解范围内）。在阐述了具体细节（例如，电路）以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构（例如，动态RAM（DRAM））可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。