CN112215326B - 一种分布式ai系统 - Google Patents

一种分布式ai系统 Download PDF

Info

Publication number
CN112215326B
CN112215326B CN201910619531.1A CN201910619531A CN112215326B CN 112215326 B CN112215326 B CN 112215326B CN 201910619531 A CN201910619531 A CN 201910619531A CN 112215326 B CN112215326 B CN 112215326B
Authority
CN
China
Prior art keywords
task
unit
distributed
components
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910619531.1A
Other languages
English (en)
Other versions
CN112215326A (zh
Inventor
朱越
张宝峰
王成录
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201910619531.1A priority Critical patent/CN112215326B/zh
Priority to PCT/CN2020/100833 priority patent/WO2021004478A1/zh
Publication of CN112215326A publication Critical patent/CN112215326A/zh
Application granted granted Critical
Publication of CN112215326B publication Critical patent/CN112215326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Biophysics (AREA)
  • Educational Administration (AREA)
  • Biomedical Technology (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Computer And Data Communications (AREA)

Abstract

一种分布式AI系统,可以为DDAI系统,用以灵活、高效地解决人工智能类应用任务。DDAI系统包括注册单元,用于当组件动态接入所述DDAI系统时进行注册或当组件从所述DDAI系统断开时进行注销;任务计划管理单元,用于根据接入的组件的特性,计划、管理分布式AI任务;任务交互单元,用于接入的组件之间交互信息;任务执行单元,用于接入的组件执行分配的分布式AI子任务,以使完成所述分布式AI任务;标准化单元,用于使所述DDAI系统对应统一的空间,其中,所述统一的空间包括统一的特征空间、统一的标记空间;所述的组件可以为独立的物理设备或者云虚拟节点;每个组件可以承载一个或者多个所述的单元。

Description

一种分布式AI系统
技术领域
本申请涉及人工智能(artificial intelligence,AI)领域,尤其涉及一种分布式人工智能AI系统。
背景技术
机器学习系统是AI系统最重要的分支。分布式机器学习(distributed machinelearning,DML)系统是目前常用的处理大规模人工智能类应用任务的系统。传统分布式机器学习系统是中心化的系统,利用计算集群,通过对海量用户数据进行训练得到预测模型。这样的中心化系统往往要求密集的计算资源,且海量的用户数据上传云侧存储,极易造成隐私安全问题。
为了解决上述隐私保护问题,最近联邦学习(federated learning,FL)系统提出了本地与云的交互模式,通过数据存储在本地并在本地进行计算以保护用户数据隐私,同时利用同态加密、模型聚合、差分隐私的手段使得本地与云的交互中传递的模型以及相关变量难以反推出用户的信息。
在上述两种主要的处理大规模人工智能任务的AI系统中,系统中节点连接的结构相对稳定,工作节点的数目有限,且存储于工作节点的数据样本的特征空间、标记空间均一致。然而对于终端设备来说,经常面临设备随时接入网络与从网络断开、异构设备采集的特征分属不同的特征空间,甚至每个终端设备面临的AI任务不同,属于不同的标记空间的问题。上述两种AI系统难以满足在上述设备动态接入、断开以及设备异构条件下完成人工智能类应用任务的需求。进一步地,上述两种AI系统均依赖于一个中心节点全局同步,会造成较大的通信开销,使得在解决AI任务时的灵活性与效率受到极大影响。
发明内容
本提供一种分布式AI系统,用以灵活、高效地解决人工智能类应用任务。
第一方面,本申请提供了一种分布式AI系统,所述分布式AI系统为去中心化分布式人工智能(decentralized distributed AI,DDAI)系统,包括:注册单元,用于当组件动态接入所述DDAI系统时进行注册或当组件从所述DDAI系统断开时进行注销;任务计划管理单元,用于根据接入组件的特性,计划、管理分布式AI任务;任务交互单元,用于接入的组件之间交互信息;任务执行单元,用于接入的组件执行被分配的分布式AI子任务,使其完成所述分布式AI任务;标准化单元,用于使所述分布式AI系统对应统一的空间,其中,所述统一的空间包括统一的特征空间、统一的标记空间;其中,所述的组件可以为独立物理设备或者云虚拟节点;每个组件承载一个或者多个所述的单元。
上述DDAI系统无需依赖中心节点,可以通过多个组件的异构性、动态性、自动协同与自动适配灵活且高效地解决AI任务,同时可以节省通信开销。
在一种可能的设计中,所述注册单元还用于发现所述注册单元所属组件的相邻接组件;相邻接的组件集成一个虚拟节点,集成一个虚拟节点的组件全部为物理设备或者全部为云虚拟节点。这样可以后续通过异构组件灵活且高效地解决AI任务。
在一种可能的设计中,所述任务计划管理单元包括分布式AI任务计划单元,用于根据特定规则或特定算法发起、接收AI任务计划;所述任务计划管理单元具体用于通过与所述虚拟节点中其它组件的任务计划管理单元协同,根据包括所述任务计划管理单元的组件的特性,在每个组件的分布式AI子任务分配上达成一致,并记录包括所述任务计划管理单元的组件的子任务计划;其中,所述特性包括外设特性、功能特性、计算能力。
在一种可能的设计中,任一个虚拟节点中的任务计划管理单元可以根据所属的组件的特性,动态选举出虚拟节点的一个组件作为一个网关节点。这样可以后续只通过作为网关节点的组件完成虚拟节点之间的通信,且由该网关节点的任务计划管理单元发起所有组件的任务协商或任务指派。这样实现简单灵活,且节省通信开销。
在一种可能的设计中,任一个虚拟节点中的所有的组件均直接与网关节点相连;或者当所述任一个虚拟节点由多个组件集成时,所述任一个虚拟节点中的多个组件以环形结构连接,且一个组件有一个前序节点和一个后序节点。
在一种可能的设计中,所述任务计划管理单元还包括状态记录单元,用于记录所述虚拟节点中其它组件的任务状态,并实时/定时更新;所述任务计划管理单元还用于根据虚拟节点中其它组件反馈的任务状态,通过所述分布式AI任务计划单元发起分布式AI后处理任务。这样可以协同完成AI任务。
在一种可能的设计中,所述分布式AI后处理任务包括异常处理任务、决策处理任务、动作编码任务,其中:所述异常处理任务为对异常状态进行异常处理;所述决策处理任务为综合所有反馈,按照预设规则或预设算法做出决策;所述动作编码任务为将决策结果转化为动作编码,传输给指定设备执行。
在一种可能的设计中,所述任务交互单元还用于在向其它组件发送信息前,对待发送的信息进行压缩;在接收到其它组件发送的信息后,对信息进行解压。
在一种可能的设计中,所述任务执行单元还用于按照所述任务计划管理单元指定的子任务计划执行子任务,完成后向所述任务计划管理单元反馈执行结果。
在一种可能的设计中,如果某个组件的分布式AI任务计划单元按照某种条件触发了数据收集任务,则将所属组件的数据收集与特征提取任务加入子任务队列,并通知所属虚拟节点的其它组件计划相应数据收集与特征提取子任务。
在一种可能的设计中,所述标准化单元具体用于将所述标准化单元所属的组件所提取的特征数据映射到所述分布式AI系统对应的统一特征空间的子空间。
在一种可能的设计中,所述标准化单元还用于将所述标准化单元的组件所提取的任务相关标记映射到所述分布式AI系统对应的统一标记空间。
在一种可能的设计中,多个虚拟节点对应统一的特征空间,具体可以为:每个虚拟节点通过该虚拟节点中每个组件分别对应的标准化单元,分别对每个组件的特征进行特征变换,以使每个组件变换后的特征空间属于所述统一的特征空间的子空间。这样可以不要求每个组件都属于同一个特征空间,只需通过变换使得任一虚拟节点属于同一个特征空间。同理,如果每个组件分属不同的标记空间,则每个组件通过标准化单元将各自数据对应的标记变换到统一的标记空间。从而可以使得异构设备能够基于统一的特征空间与统一的标记空间完成AI模型训练与更新任务。
在一种可能的设计中,如果网关节点的分布式AI任务计划单元按照某种算法计划了模型训练与更新任务,则在执行计划前,先将任务计划传递给所属虚拟节点的其它组件,所有组件的分布式AI任务计划单元根据所属的组件的特性协商确认各自的模型训练与更新子任务。
在一种可能的设计中,在网关节点根据所属虚拟节点中其它组件反馈的任务状态,通过所述分布式AI任务计划单元发起分布式AI后处理任务。
通过上述设计,可以使各个组件后续协同解决AI任务,且能够根据所述的组件的特性自适应分配AI任务。
在一种可能的设计中,所述DDAI系统还包括安全验证单元,用于验证接入的组件的身份,以保证分布式任务的完整性和保护交互数据的隐私性。
在一种可能的设计中,任务交互单元在向其它组件发送信息前,对待发送的信息进行压缩,安全验证单元对信息进行签名、加密;在任务交互单元接收到其它组件发送的信息后,对信息进行解压,安全验证单元对信息进行解密与签名验证。
在一种可能的设计中,所述DDAI系统还包括模型版本管理单元,用于维护模型的历史版本,以使模型自动过期、回退。
附图说明
图1为本申请提供的一种分布式AI系统的架构示意图;
图2为本申请提供的一种分布式AI系统的示意图;
图3为本申请提供的一种虚拟节点包括网关节点的示意图;
图4为本申请提供的一种虚拟节点的结构连接示意图;
图5为本申请提供的一种特征变换框架的示意图;
图6为本申请提供的一种组件的结构示意图;
图7为本申请提供的一种机器学习引擎的结构示意图;
图8为本申请提供的一种联合优化的流程示意图;
图9为本申请提供的一种全局模型更新的流程示意图;
图10为本申请提供的一种个性化模型训练/更新的流程示意图;
图11为本申请提供的一种进行个性化模型自适应的流程示意图。
具体实施方式
下面将结合附图对本申请作进一步地详细描述。
本申请实施例提供了一种分布式AI系统,用以灵活、高效地解决人工智能类应用任务。
在本申请的描述中,“至少一个”指一个或者多个。
通常情况下,AI任务包括数据采集、特征提取、模型训练与更新、模型执行。数据采集具体为记录原始数据,并将其储。存储的数据经过特征提取变成实数组成的特征向量。模型训练与更新则是根据特定的算法,输入产生的特征向量,输出训练好或是更新好的模型。模型执行则是对新产生的特征向量,用模型进行预测或决策。不同类型的设备采集的数据的通道不同,提取特征的方式不同会导致特征向量所属的特征空间不同。不同的设备的计算能力不同,所支持的模型复杂度也可能不同。
在现有的分布式AI系统中,存在中心节点和分布式工作节点,由中心节点来对各个分布式节点的计算结果进行综合再下发到各个工作节点进行更新。在现有的分布式AI系统中,工作节点通常为相同的节点,连接的结构相对比较稳定,所有节点的样本数据的特征空间要求一致。而且在现有的分布式AI系统中,必须依赖中心节点全局同步,会造成较大的通讯开销,分布式节点越多,相应的开销越大,会导致计算瓶颈。同时分布式AI系统基于大量用户的统计,也没有考虑用户个性化。现有的分布式AI系统在解决AI任务时,灵活性较差、效率较低。基于此,本申请提出了一种分布式AI系统,可以通过海量异构组件共同完成特定的分布式AI任务,支持组件动态的接入分布式AI系统或从分布式AI系统断开,可以根据组件各自的特性动态计划分布式AI任务,从而达到可以灵活地、高效地协作解决AI任务。
为了更加清晰地描述本申请实施例的技术方案,下面结合附图,对本申请实施例提供的分布式AI系统进行详细说明。
本申请实施例提供了一种分布式AI系统,所述AI系统可以是去中心化分布式人工智能(decentralized distributed AI,DDAI)系统,DDAI系统的架构示意图如图1所示。其中,所述DDAI系统可以包括注册单元、任务计划管理单元、任务交互单元、任务执行单元和标准化单元。具体的:
所述注册单元用于当组件动态接入所述DDAI系统时进行注册或当组件从所述系统断开时进行注销;所述任务计划管理单元用于根据接入的组件的特性,计划、管理分布式AI任务;所述任务交互单元用于接入的组件之间交互信息;所述任务执行单元用于接入的组件执行分配的分布式AI子任务,以使完成所述分布式AI任务;所述标准化单元用于使所述DDAI系统对应统一的空间,所述统一的空间可以包括统一的特征空间、统一的标记空间。所述的组件可以为独立的物理设备或者云虚拟节点;每个组件承载一个或者多个所述的单元。通过上述设计,上述DDAI系统无需依赖中心节点,可以通过多个组件的异构性、动态性、自动协同与自动适配灵活且高效地解决AI任务,同时可以节省通信开销。
在一种可选的实施方式中,多个组件组成了所述DDAI系统,承载所述注册单元的组件可以发现相邻接的组件;相邻接的组件可以集成一个虚拟节点,其中集成一个虚拟节点的组件全部为物理设备或者全部为云虚拟节点。示例性的,上述提及的物理设备可以但不限于为智能手机、智能手表、个人计算机(personal computer,PC)、平板等等终端设备。
示例性的,多个组件形成了多个虚拟节点,例如,由组件集成的多个虚拟节点可以如图2中的201标识所示。所述多个虚拟节点可以动态连通形成去中心虚拟云,如图2中202标识所示,亦即所述的DDAI系统。由于DDAI系统中的一个或多个组件可以按需随时接入或者断开,在不同时刻任一个虚拟节点中的组件可能不尽相同,即虚拟节点是实时变化的,由某一时刻接入的组件按需集成当前时刻的虚拟节点。
例如,在当前时刻物理设备1和物理设备2集成了虚拟节点1,在下一时刻物理设备1断开,物理设备3接入,可能会由物理设备2和物理设备3集成新的虚拟节点2;又例如,当前时刻物理设备4和物理设备5集成虚拟节点3,物理设备6和物理设备7集成虚拟节点4,但是下一时刻可能按照任务需求,可能物理设备4、物理设备5和物理设备6集成新的虚拟节点5,物理设备7集成新的虚拟节点6。当然,虚拟节点的集成情况不仅仅只是上述描述的情况,还可以有其它多种情况,本申请此处不再一一列举。
在一种实施例中,一个组件的任务计划管理单元可以包括分布式AI任务计划单元,用于根据特定规则或特定算法发起、接收AI任务计划;任务计划管理单元具体用于:通过与虚拟节点中其它组件的任务计划管理单元协同,根据包括任务计划管理单元的组件的特性,在每个组件的分布式AI子任务的分配上达成一致,并记录包括任务计划管理单元的组件的子任务计划;其中,所述特性包括外设特性、功能特性、计算能力。
在一种可选的实施方式中,任一个虚拟节点中的任务计划管理单元可以根据所属的组件的特性,动态选举出虚拟节点的一个组件作为一个网关节点。这样后续可以只通过作为虚拟节点的组件完成虚拟节点之间的通信,且由该网关节点的任务计划管理单元发起所有组件的任务协商或任务指派。这样实现简单灵活,且节省通信开销。
具体的,当有组件通过注册单元加入DDAI系统时,当前网关节点的任务计划管理单元发起新的协商,选举网关节点。如果新的节点当选网关节点,则当前网关节点将任务计划副本与网关责任移交新的节点。如果有组件从DDAI系统断开连接,网关节点的注册单元自动发现后,将其注销,并发起后处理任务,处理该组件离开、对应子任务停止的异常情况。如果虚拟节点中的其他组件的注册单元共同检测到当前网关节点离开网络,则由各自的任务计划管理单元重新发起网关节点选举任务。通过上述设计,可以使各个组件动态接入DDAI系统或从DDAI系统断开,而不会对整个DDAI系统造成影响。
示例性的,任一个虚拟节点以及其包括的网关节点可以如图3中(a)或(b)所示出的。其中,每个虚拟节点中的网关节点由该虚拟节点中的所有组件通过选举决定。示例性的,可以选择在某一时刻集成该虚拟节点的所有组件中性能状态最好的一个组件作为该虚拟节点的网关节点。
在一种实施例中,一个组件的所述任务计划管理单元还包括状态记录单元,用于记录虚拟节点中其它组件的任务状态,并实时或定时更新;所述任务计划管理单元,还用于根据所述虚拟节点中其它组件反馈的任务状态,通过所述分布式AI任务计划单元发起分布式AI后处理任务。
例如,每个虚拟节点中的任一组件满足某种条件,触发了该组件分布式AI任务计划单元,计划了数据收集任务时,该组件的分布式AI任务计划单元将所属组件的数据收集与特征提取任务加入子任务队列,并通知所属虚拟节点的其它组件计划相应数据收集与特征提取子任务。
具体的,每个网关节点的分布式AI任务计划单元按照某种算法计划了模型训练与更新任务,则在执行计划前,先将任务计划传递给所属虚拟节点的其它组件,所有组件的任务计划单元根据所属的特性协商确认各自的模型训练与更新子任务。
一种实施方式,网关节点根据所述虚拟节点中其它组件反馈的任务状态,通过所述分布式AI任务计划单元发起分布式AI后处理任务。所述分布式AI后处理任务包括异常处理任务、决策处理任务、动作编码任务,其中:所述异常处理任务为对异常状态进行异常处理;所述决策处理任务为综合所有反馈,按照预设规则或预设算法做出决策;所述动作编码任务为将决策结果转化为动作编码,传输给指定设备执行。
在一种可选的实施方式中,所述任务执行单元还用于按照所述任务计划管理单元指定的子任务计划执行子任务,完成后向所述任务计划管理单元反馈执行结果。
在一种可选的实施方式中,所述标准化单元具体用于将包括标准化单元的组件所提取的特征数据映射到所述DDAI系统对应的统一特征空间的子空间。所述标准化单元,还用于将包括标准化单元的组件所提取的任务相关标记映射到DDAI系统对应的统一标记空间。
具体实施时,多个虚拟节点对应DDAI系统的统一特征空间。具体的,每个虚拟节点通过该虚拟节点中每个组件分别对应的标准化单元,分别对每个组件的特征进行特征变换,以使每个组件变换后的特征空间属于统一特征空间的子空间。也就是说,在实际中,虽然每个组件的特征空间并不一定相同,但是通过上述变化,可以使得多个虚拟节点属于统一特征空间,这样可以保证较高效率和较高私密性地实现人工智能相关任务。
在一种可选的实施方式中,所述AI系统还包括安全验证单元,用于验证接入的组件的身份,以保证分布式任务的完整性和保护交互数据的隐私性。
具体的,任务交互单元在向其它组件发送信息前,对待发送的信息进行压缩,安全验证单元对信息进行签名、加密;任务交互单元在接收到其它组件发送的信息后,对信息进行解压,安全验证单元对信息进行解密与签名验证。
在一种可选的实施方式中,所述DDAI系统还包括模型版本管理单元,用于维护模型的历史版本,以使模型自动过期、回退。
通过上述设计,可以实现各个组件自动协同完成特征映射、机器学习训练与任务决策等等。并且针对各个组件的能力和约束实施自适应地调度,其中实施自适应地调度可以体现为但不限于为算法调度等等。
在一种可能的实施方式中,当所述任一个虚拟节点由多个组件集成时,任一个虚拟节点中的多个组件以环形结构连接,且一个组件有一个前序节点和一个后序节点。例如图4所示。具体的,每个组件记录前序节点和后续节点,并按照一定规则约定排列等的优先级。通过这样的结构连接,可以实现多组件协商、协同训练、分布式决策等等功能。
示例性的,在选举网关节点时,每个组件向后序节点发送自身的状态信息,并根据优先级协议,每个组件将最优的组件的状态信息向后续节点传递,最终达成一致,状态最优的节点被选为一个虚拟节点的网关节点。
具体的,在协同训练时,网关节点可以将目标函数、模型、映射拆解为各个组件相应的部分,然后逐一传递至各个对应的组件做相应的更新及训练。示例性的,传递的方式是先由网关节点将所有组件的任务部分传递给网关节点的后序节点,然后网关节点的后序节点领取了自己的任务部分后,将其它组件的任务部分继续向自己的后序节点传递,后面的组件一次执行上述过程,直至所有组件均领取到自己的任务部分。
在统一特征空间映射的一种可选的实现方式中,每个虚拟节点负责收集多模态特征:X=[X(1),…,X(m)](m表示m种不同的组件类型,即m种模态,X(m)是第m类组件上收集的样本,若无响应设备接入,则以0补齐),并通过特征映射(/>表示第m类组件对应的特征映射函数),使得不同虚拟节点的特征在变换后属于统一的特征空间χ,即对DDAI系统中的任何虚拟节点有Φi(Xi)∈χ。示例性的,特征变换框架如图5所示。
示例性的,特征映射可以为线性函数、多层感知机、深度神经网络、决策树等任意函数,将原始特征空间映射到新的特征空间。
在实现上,X(k)对应的数据和对应的特征变换函数分别存于虚拟节点中的第k类组件。需要说明的是,X(k)为用户隐私数据,不会进行共享。
一种实现方式中,在分布式决策时,每个组件将自己的模型在自己当前数据上的打分传递至网关节点进行综合,然后网关节点根据综合打分做出任务决策后,再将各个组件需要执行的任务传递至各个组件执行。具体的,各个组件的打分传递和网关节点的任务下发过程与上述描述的组件中的信息传递过程类似,可以相互参见,此处不再详细描述。
在一种可选的实施方式中,任一个虚拟节点在各个组件内部信息传递过程中,可以在信息中增加组件签名(即组件的标识),并在网关节点增加完整性验证,保证信息在传输过程中保持不被修改、不被破坏和丢失。
在一种可选的实施方式中,任一个组件的结构示意图可以如图6所示,具体可以包括:
注册单元,用于组件随时加入DDAI系统,以及有组件从DDAI系统退出时,及时发现,并向任务计划管理单元更新虚拟节点内的连接。
任务计划管理单元,用于根据特定规则或特定算法发起、接收AI任务计划;所述任务计划管理单元,具体用于:通过与所述虚拟节点中其它组件的任务计划管理单元协同,根据包括所述组件的特性,针对每个组件的分布式AI子任务的分配达成一致,并记录包括组件的子任务计划;其中,所述特性可以包括外设特性、功能特性、计算能力。所述任务计划管理单元还记录、刷新任务的执行状态。
数据采集单元,用于执行所述组件的数据采集任务,往数据库中记录原始采样的数据。
特征抽取单元,用于在存储的数据进行特征抽取;其中,所述特征可以包括但不限于用户或设备画像、行为特征、状态特征等,其中,可以用表示第i个虚拟节点中第p类组件的样本;
特征映射单元,用于将特征抽取单元抽取的特征映射到设定的特征空间;具体的,将特征可以按照组件类型或功能映射到统一特征空间的子空间,其中,可以用表示第i个虚拟节点中第p类组件的特征映射函数;
标记映射单元,用于将存储的任务标记映射到设定的任务空间;其中,设定的任务空间可以为系统的统一任务空间,每个组件映射到统一任务空间的子空间,过程中可以用Yi表示第i个虚拟节点中样本对应的标记;
机器学习引擎,用于训练AI模型、更新特征映射模型、本地模型自适应集成、全局模型更新;具体的,根据特征特征映射/>标记Yi以及标记映射训练个性化AI模型、更新特征映射模型、模型自适应集成、全局模型更新以及模型执行。同时机器学习引擎还可以对异常进行处理。
模型缓存单元,用于缓存多个模型,以使机器学习引擎进行本地模型自适应集成;
安全单元,用于进行安全验证;
交互单元,用于收发数据,压缩与解压,具体的与其他组件实现通信。
其中,所述数据采集单元、所述机器学习引擎均可以属于所述DDAI系统中所述的任务执行单元。其中机器学习引擎还可以包括所述DDAI系统中所述的后处理任务执行功能。
在一种可选的实施方式中,任一个组件中的机器学习引擎在功能实现时,可以如示意图中图7所示的,具体可以包括:
全局模型更新单元,用于从其它虚拟节点接收模型、梯度等,进行全局模型联合平均更新;
本地个性化模型训练单元,用于利用本地数据更新个性化模型;
个性化模型自适应单元,用于从模型缓存模块中根据优化指标、计算资源自适应选取模型进行集成;
特征映射更新单元,用于更新特征映射函数;
模型复合单元,用于将全局模型更新模块、本地个性化模型训练模块、个性化模型自适应模块得到的模型进行复合。
异常处理单元,用于处理异常情况或异常数据。
模型执行平台,用于基于模型复合模块得到的模型进行模型执行。
在一种可选的实施方式中,所述机器学习引擎中通过全局模型更新单元、本地个性化模型训练单元、个性化模型自适应单元、特征映射更新单元进行联合优化的一种实施方案可以为:采用交替优化策略,给定其他变量参数,优化其中一个变量。具体的,实现过程可以如图8所示,具体流程可以包括:
A1、给定本地个性化模型、集成后的个性化模型、特征映射,更新全局模型;
A2、给定全局模型、集成后的个性化模型、特征映射,更新本地个性化模型;
A3、给定全局模型、本地个性化模型、特征映射,个性化模型自适应;
A4、给定本地个性化模型、集成后的个性化模型、个性化模型自适应,更新特征映射函数,直至最大迭代数或收敛。
在一种示例性的方式中,所述机器学习引擎中全局模型更新单元进行全局模型更新的一种实施方案可以为:根据本地数据、特征映射、标记以及标记映射计算、更新关于统一标记、特征损失函数的梯度以及本地模型;将梯度与本地模型经过差分隐私、签名等安全验证后,发送到近邻组件;接收近邻组件发来的梯度和模型,与本地梯度和模型在安全模块进行聚合;利用聚合后的模型与梯度更新全局模型。其中,上述安全验证可以为完整性验证。示例性的,上述过程可以如图9的流程所示。
在一种示例性的方式中,所述机器学习引擎中本地个性化模型训练单元进行个性化模型训练/更新的一种实施方案可以为:根据本地数据、特征映射、标记,计算、更新关于本地标记、统一特征以及本地特征的损失函数的本地模型;进行差分隐私、签名等安全验证,将安全处理后的模型发送到相邻组件,存入模型缓存单元。示例性的,上述过程可以如图10所示。
在一种可能的方式中,所述机器学习引擎中个性化模型自适应单元进行个性化模型自适应的一种实施方案可以为:根据虚拟节点内组件的资源以及本地任务的约束以及策略模型采样模型集成策略;计算采样出来的策略从模型缓存模块中集成模型后的损失;根据反馈的损失更新采样策略模型;交替迭代至指定迭代轮数或达到收敛条件。示例性的,上述过程可以如图11所示。
在一种可选的实施方式中,所述机器学习引擎中特征映射更新单元进行的特征映射更新的实施方案与全局模型更新模块进行全局模型更新的实施方案类似,将优化变量替换为特征映射,具体可以相互参见,此处不再详细描述。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (11)

1.一种分布式AI系统,其特征在于,所述分布式AI系统为去中心化分布式人工智能DDAI系统,包括:
注册单元,用于当组件接入所述分布式AI系统时进行注册或当组件从所述分布式AI系统断开时进行注销;
任务计划管理单元,用于根据接入的组件的特性,计划、管理分布式AI任务;
任务交互单元,用于接入的组件之间交互信息;
任务执行单元,用于接入的组件执行被分配的分布式AI子任务,以使完成所述分布式AI任务;
标准化单元,用于使所述分布式AI系统对应统一的空间,其中,所述统一的空间包括统一的特征空间、统一的标记空间;
所述的组件为独立的物理设备或者云虚拟节点;
每个组件承载所述注册单元、所述任务计划管理单元、所述任务交互单元、所述任务执行单元或所述标准化单元中的一个或者多个。
2.如权利要求1所述的系统,其特征在于,所述注册单元,还用于:
发现所述注册单元所属组件的相邻接的组件;相邻接的组件集成一个虚拟节点,其中集成一个虚拟节点的组件全部为物理设备或者全部为云虚拟节点。
3.如权利要求2所述的系统,其特征在于,所述任务计划管理单元包括:
分布式AI任务计划单元,用于根据特定规则或特定算法发起、接收AI任务计划;
所述任务计划管理单元,具体用于:
通过与所述虚拟节点中其它组件的任务计划管理单元协同,根据包括任务计划管理单元的组件的特性,在每个组件的分布式AI子任务分配上达成一致,并记录包括所述任务计划管理单元的组件的子任务计划;其中,所述特性包括外设特性、功能特性、计算能力。
4.如权利要求1-3任一项所述的系统,其特征在于,所述任务交互单元,还用于:
在向其它组件发送信息前,对待发送的信息进行压缩;
在接收到其它组件发送的信息后,对信息进行解压。
5.如权利要求1-3任一项所述的系统,其特征在于,所述任务执行单元,还用于:
按照所述任务计划管理单元指定的子任务计划执行子任务,完成后向所述任务计划管理单元反馈执行结果。
6.如权利要求1-3任一项所述的系统,其特征在于,所述标准化单元,具体用于:
将所述标准化单元所属的组件所提取的特征数据映射到所述分布式AI系统对应的统一特征空间的子空间。
7.如权利要求1-3任一项所述的系统,其特征在于,所述标准化单元,还用于:
将所述标准化单元所属的组件所提取的任务相关标记映射到所述分布式AI系统对应的统一标记空间。
8.如权利要求3所述的系统,其特征在于,所述任务计划管理单元还包括状态记录单元,用于:
记录所述虚拟节点中其它组件的任务状态,并实时或定时更新;
所述任务计划管理单元,还用于:
根据所述虚拟节点中其它组件反馈的任务状态,通过所述分布式AI任务计划单元发起分布式AI后处理任务。
9.如权利要求8所述的系统,其特征在于,所述分布式AI后处理任务包括异常处理任务、决策处理任务、动作编码任务,其中:
所述异常处理任务为对异常状态进行异常处理;
所述决策处理任务为综合所有反馈,按照预设规则或预设算法做出决策;
所述动作编码任务为将决策结果转化为动作编码,传输给指定设备执行。
10.如权利要求1-3、8、9任一项所述的系统,其特征在于,还包括安全验证单元,用于:
验证接入的组件的身份,以保证分布式任务的完整性和保护交互数据的隐私性。
11.如权利要求1-3、8、9任一项所述的系统,其特征在于,还包括模型版本管理单元,用于:
维护模型的历史版本,以使模型自动过期、回退。
CN201910619531.1A 2019-07-10 2019-07-10 一种分布式ai系统 Active CN112215326B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910619531.1A CN112215326B (zh) 2019-07-10 2019-07-10 一种分布式ai系统
PCT/CN2020/100833 WO2021004478A1 (zh) 2019-07-10 2020-07-08 一种分布式ai系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910619531.1A CN112215326B (zh) 2019-07-10 2019-07-10 一种分布式ai系统

Publications (2)

Publication Number Publication Date
CN112215326A CN112215326A (zh) 2021-01-12
CN112215326B true CN112215326B (zh) 2024-03-29

Family

ID=74048053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910619531.1A Active CN112215326B (zh) 2019-07-10 2019-07-10 一种分布式ai系统

Country Status (2)

Country Link
CN (1) CN112215326B (zh)
WO (1) WO2021004478A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011494B (zh) * 2021-03-18 2024-02-27 北京百度网讯科技有限公司 一种特征处理方法、装置、设备以及存储介质
CN113301141B (zh) * 2021-05-20 2022-06-17 北京邮电大学 人工智能支持框架的部署方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101316242A (zh) * 2008-07-17 2008-12-03 上海交通大学 面向服务的智能体平台
CN102655532A (zh) * 2012-04-18 2012-09-05 上海和辰信息技术有限公司 分布式异构虚拟资源集成管理方法及系统
CN109561100A (zh) * 2018-12-24 2019-04-02 浙江天脉领域科技有限公司 基于分布式与人工智能的双工赋能网络攻防的方法及系统
CN109787788A (zh) * 2017-11-10 2019-05-21 中国信息通信研究院 一种构建基于人工智能的网络的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6981019B1 (en) * 2000-05-02 2005-12-27 International Business Machines Corporation System and method for a computer based cooperative work system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101316242A (zh) * 2008-07-17 2008-12-03 上海交通大学 面向服务的智能体平台
CN102655532A (zh) * 2012-04-18 2012-09-05 上海和辰信息技术有限公司 分布式异构虚拟资源集成管理方法及系统
CN109787788A (zh) * 2017-11-10 2019-05-21 中国信息通信研究院 一种构建基于人工智能的网络的方法
CN109561100A (zh) * 2018-12-24 2019-04-02 浙江天脉领域科技有限公司 基于分布式与人工智能的双工赋能网络攻防的方法及系统

Also Published As

Publication number Publication date
WO2021004478A1 (zh) 2021-01-14
CN112215326A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
Chalapathi et al. Industrial internet of things (iiot) applications of edge and fog computing: A review and future directions
CN111537945B (zh) 基于联邦学习的智能电表故障诊断方法及设备
Xiong et al. The best of both worlds: A general architecture for data management in blockchain-enabled Internet-of-Things
Thantharate et al. ADAPTIVE6G: Adaptive resource management for network slicing architectures in current 5G and future 6G systems
Cassará et al. Federated feature selection for cyber-physical systems of systems
CN112215326B (zh) 一种分布式ai系统
EP2101289A2 (en) Distributed cognitive architecture
Khansari et al. Virtual sensor as a service: a new multicriteria QoS-aware cloud service composition for IoT applications
CN114610475A (zh) 一种智能资源编排模型的训练方法
Fatima et al. Cyber physical systems and IoT: Architectural practices, interoperability, and transformation
CN117155845B (zh) 物联网数据交互方法及系统
Bantouna et al. Network load predictions based on big data and the utilization of self-organizing maps
Hussain et al. Fog assisted cloud models for smart grid architectures-comparison study and optimal deployment
CN116720132A (zh) 电力业务识别系统、方法、设备、介质和产品
Bellavista et al. Edge Cloud as an Enabler for Distributed AI in Industrial IoT Applications: the Experience of the IoTwins Project.
Prakash et al. Improved Political Optimizer and Deep Neural Network-based Resource Management Strategy for fog Enabled Cloud Computing
Velmurugadass et al. The cloud based edge computing with iot infrastructure and security
Zhao et al. An optimization method for satellite data structure design based on improved ant colony algorithm
Gu et al. Consensus control and feedback graph co-design for MIMO discrete-time multi-agent systems
CN110113193A (zh) 基于分级代理的数据传输方法、系统及介质
Rouhifar et al. Bandwidth allocation methods on internet of things: an analytical survey
Sengupta et al. Collaborative learning-based schema for predicting resource usage and performance in F2C paradigm
Karkalos et al. General aspects of the application of computational methods in industry 4.0
CN117687801B (zh) 一种跨域分布式计算系统、方法、存储介质和电子设备
CN117687800B (zh) 一种跨域分布式计算方法、系统、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant