CN112884165B

CN112884165B - 面向联邦机器学习的全流程服务迁移方法与系统

Info

Publication number: CN112884165B
Application number: CN202110290587.4A
Authority: CN
Inventors: 邢廷炎; 周长兵; 杨艳霞
Original assignee: China University of Geosciences Beijing
Current assignee: China University of Geosciences Beijing
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2023-07-04
Anticipated expiration: 2041-03-18
Also published as: CN112884165A

Abstract

本发明公开了一种面向联邦机器学习的全流程服务迁移系统，包括分布在不同地址的多个设备(1)；每个设备(1)包括相应的模型创建模块(2)、数据清理模块(3)、数据传感模块(6)和数据读取模块(11)；所述数据创建模块(2)和所述数据传感模块(6)数据通信连接；所述联邦机器学习调度模块(10)从所有设备上的所述单机存储模块(7)任意抽取一定数量的数据记录，用于对所述总的所述数据联邦模型进行校验。本发明的面向联邦机器学习的全流程服务迁移方法与系统，本申请在进行数据记录训练前，对数据记录进行数据清理，以便剔除数据记录异常的部分，以便保证数据记录的准确性，从而保证数据模型的准确。

Description

面向联邦机器学习的全流程服务迁移方法与系统

技术领域

本发明涉及在计算机算法技术领域，具体为一种面向联邦机器学习的全流程服务迁移方法与系统。

背景技术

21世纪是智能化的时代。随着科学技术的快速发展，人类社会的生产和生活都得到了极大的提高，而依赖于技术的进步，很多原来更多依赖人力的技术开始走向自动化的操作，但是自动化的操作通常需要计算机或者微型计算机去处理众多的逻辑关系，因此，其需要进行大量的数学计算和逻辑计算，这必然会提高对处理器的逻辑计算能力需求，而大规模集成电路或超大规模集成电路的运算处理能力，也直接影响到了其生产成本。而对有智能化的计算和人工智能的发展，其对处理器的运算处理能力需求进一步加强，因此，为了适应于大规模的计算和运算处理能力，一方面，需要提升处理器的自身处理能力，另外一方面，希望降低对运算能力的需求，即优化人工智能的运算处理需求，因此，现今，也一直有大量的研究针对算法，已通过算法去改进计算模型，降低运算的需求。另外一方面，对各种智能设备来说，为了实现各种智能化处理的技术效果，需要联合各传感设备或各机构的数据，进行综合逻辑计算后，进行汇总后作出综合判断，但要将分散在各地的数据进行整合在巨大的困难和经济成本，而目前也存在对分布在各地的数据进行联合访问和处理的技术，如联邦机器学习，又名联邦学习，联合学习，联盟学习，联邦机器学习是一个机器学习框架，能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模；

如专利CN 111126609A公开了一种基于联邦学习的知识迁移方法、装置、设备和介质，其首先进行各不同训练任务的各强化学习训练模型的接收，进而进行对各所述预设强化学习训练模型的适配，获得强化学习适配模型，进而进行对各所述强化学习适配模型的联邦处理，获得联邦模型，进而进行对所述联邦模型的适配，获得联邦适配模型，进而将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备，以对各所述强化学习训练模型进行迭代训练。也即，本申请通过首先进行对各所述强化学习训练模型的适配，实现了对不同训练任务的各强化学习训练模型的联邦处理，获得联邦模型，进而对所述联邦模型进行适配，获得联邦适配模型，进而实现了对不同训练任务的各强化学习训练模型的迭代训练，也即，实现了基于联邦学习的不同训练任务的各强化学习训练模型的知识的在线实时迁移，避免了进行知识迁移时花费训练时间过长的情况发生，进而提高了知识迁移的迁移效率，所以，解决了现有技术中知识迁移效率低的技术问题。

专利CN109299728A公开了一种联邦学习方法、系统及可读存储介质，其联邦学习方法包括以下步骤：数据终端基于梯度下降树GBDT算法对多方训练样本进行联邦训练，以构建梯度树模型，其中，所述数据终端为多个，所述梯度树模型包括多棵回归树，所述回归树包括多个分割点，所述训练样本包括多个特征，所述特征与所述分割点一一对应；所述数据终端基于所述梯度树模型，对待预测样本进行联合预测，以确定待预测样本的预测值。该发明通过GBDT算法对多方训练样本进行联邦训练，实现梯度树模型建立，通过梯度树模型，适用于数据量规模大的场景，可以很好地满足现实生产环境需要；对待预测样本进行联合预测，实现对待预测样本的预测。

专利CN111985650A公开了一种兼顾通用性与个性化的活动识别系统，包括由数据采集终端、边缘计算设备与云端计算平台所共同搭建的通信构架，活动识别系统借助于通信构架进行人员活动识别及模型更新，边缘计算设备还包括模型训练模块和活动识别模块，模型训练模块基于对用户ID的持续验证来调取本地活动识别模型，并利用第一数据以用户个性化特征与模型通用性特征相融合的方式训练本地活动识别模型的通用化网络结构和个性化网络结构，以使得活动识别模块所进行的人员活动识别过程兼顾通用性与个性化。另外，基于联邦学习框架的该系统结合“云-边”通信构架对活动识别模型进行更新，即可以提升模型通用性，也可避免用户的个性化特征泄露的风险。

专利CN111600707A公开了本发明公开了一种在隐私保护下的去中心化联邦学习方法，包括系统初始化步骤，请求模型与本地并行训练步骤，模型参数加密与模型发送步骤，模型接收与恢复步骤，系统更新步骤。通过使用随机选取参与者作为参数聚合者的策略实现去中心化，解决了现有联邦学习易受DoS攻击、参数服务器单点故障等缺点；结合PVSS可验证秘密分发协议保护参与者模型参数免受模型反演攻击、数据成员推理攻击。同时保证了在每一次训练任务由不同的参与者来进行参数聚合，当出现不信任的聚合者或者其遭受攻击时，可自行恢复正常，增加了联邦学习的鲁棒性；该发明在实现以上功能的同时，保证了联邦学习的性能，有效地改善了联邦学习的安全训练环境，具有广泛地应用前景。

专利CN112183652A公开了一种联邦机器学习环境下的边缘端偏见检测方法，包括以下步骤：通过筛选获得歧视实例，并增加歧视实例在数据集中的比例来构建新数据集，利用新数据集对模型进行分布式训练，以获得每个模型对敏感属性(偏见信息)的偏见程度，并通过根据偏见程度为每个模型赋予不同注意力权重的方式去除偏见，在消除偏见后，再进行模型聚合，从而保证联邦机器学习环境下边缘端的公平性。

可见，目前，市面上的基于联邦学习的知识迁移技术方面还存在以下缺陷：

1.在现有技术中，强化学习训练模型通常利用自身收集的数据进行学习、优化和控制，强化学习训练模型的知识也是可迁移的，例如，将无人车的控制知识迁移到扫地机器人的控制上，目前，通常是通过离线的迁移模型进行强化学习训练模型的知识的迁移，但是，这种离线迁移的方法在训练过程中需要花费大量的训练时间，进而导致强化学习训练模型的知识迁移效率极低，且导致训练过程中消耗的计算资源和传输资源过高的技术问题。

2.现有技术中，为了综合和汇总各类数据，虽然针对数据孤岛和数据隐私的两难问题,多家机构和学者提出解决办法，但是对多个数据的安全访问和处理并无有效的办法。

3.现有技术中，对数据记录的训练时，未考虑数据量的大小和数量的多少，直接对所有的数据进行训练以便获得模型时，容易导致数据量太大，从而一方面数据运算量大，数据运算困难；同时数据量量大容易导致数据训练模型不准确。

4.现有技术中，对数据记录中，可能存在的异常数据记录并未进行数据初步清理，容易产生异常数据导致数据训练得到的模型异常。

面对上述技术问题，人们希望提供一种能够快速进行数据训练，同时降低对数据处理系统的能力的需求的联邦机器学习方法的技术手段，以便快速处理数据的得到数据模型的技术方案。但到目前为止，现有技术中并无有效办法解决上述技术难题。

面对上述技术问题，希望提供一种面向联邦机器学习的全流程服务迁移方法与系统，以解决上述技术问题。

发明内容

针对上述技术问题，本发明的目的在于提供一种面向联邦机器学习的全流程服务迁移方法与系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

1.一种面向联邦机器学习的全流程服务迁移系统，包括分布在不同地址的多个设备；每个设备包括相应的模型创建模块、数据清理模块、数据传感模块和数据读取模块；所述数据创建模块和所述数据传感模块数据通信连接；

数据训练融合子模块，所述数据训练融合子模块，所述数据训练融合子模块设置于部分所述设备上；数据训练联合模块，所述数据训练联合模块设置于其中一个所述设备上；所有设备都包括单机存储模块，设置有所述数据训练融合子模块的设备上设置局域数据存储模块，设置有所述数据训练联合模块的所述设备设置有全局数据存储模块；联邦机器学习调度模块，所述联邦机器学习调度模块对所有参与联邦机器学习的设备、工作模块和数据进度调度；所述联邦机器学习调度模块数据通信连接所述数据读取模块、所述数据训练融合子模块和所述数据训练联合模块；所述数据创建模块和所述单机存储模块数据通信连接，所述单机存储模块还分别和所述数据清理模块和数据读取模块数据通信连接；

所述设备在运行时，所述数据传感模块获取安装在该设备上的运行数据和状态数据，并发送给所述模型创建模块，形成数据记录，并将所述数据记录存储于所述设备的所述单机存储模块，所述数据清理模块读取存储于所述单机存储模块中的所述数据记录，并利用数理统计方法和设定的要求去分析每条所述数据记录，在发现某条数据记录出现明显不合理时，将该条数据记录删除；

所述联邦机器学习调度模块对所有的设备进行分组，将所有的所述设备按照一定的规则分成数个分组，并保证每个所述分组中存在至少一个所述数据训练融合子模块，并将所述分组的信息发送给所述数据读取模块、所述数据训练融合子模块和所述数据训练联合模块，并且修改所述数据读取模块、所述数据训练融合子模块和所述数据训练联合模块的所述数据记录的读取权限；

所述数据训练融合子模块依据所述联邦机器学习调度模块分配的读取权限，和其对应的分组的所述数据读取模块建立数据通信连接，从而所述数据训练融合子模块通过所述数据读取模块读取存储于所述单机存储模块中存储的数据记录进行数据学习训练，得出数据联邦子模型，并将该数据联邦子模型和随机从获得该数据联邦子模型中应用的数据记录中抽取一定量的数据记录发送给所述局域数据存储模块；

所述数据训练联合模块读取存储于所述局域数据存储模块中的所述数据联邦子模型和所述数据记录，对所有所述联邦子模型采取参数加权的模式得出总的所述数据联邦模型，并利用读取的抽取的数据记录进行数据训练，从而得出总的所述数据联邦模型，并发送给所述全局数据存储模块进行存储；

所述联邦机器学习调度模块从所有设备上的所述单机存储模块任意抽取一定数量的数据记录，用于对所述总的所述数据联邦模型进行校验，在所述数据记录利用该总的所述数据联邦模型进行校验中，数据输出和数据记录中的数据符合模型精度要求时，则该总的所述数据联邦模型建立完成，否则，在所述局域数据存储模块中储存的随机抽取的数据记录重新随机抽取，并再次利用所述数据训练联合模块进行建立总的所述数据联邦模型的过程。

优选的，在各分组利用所述数据训练融合子模块进行数据训练生成所述数据联邦子模型时，为了增加训练数据的维度，对所述分组，部分分组采用纵向数据联邦学习，剩余部分分组采用联邦迁移学习；或部分分组采用纵向联邦数据学习、部分分组采用横向联邦学习，声音部分采用联邦迁移学习。

优选的，在所述数据训练融合子模块、所述数据读取模块和所述数据训练联合模块之间进行的数据通信和数据的存取都采用加密的方式进行，以保证数据记录在传输中的安全性。

优选的，在所述数据清理模块进行数据记录的数据清理时，利用已有的历史数据记录或数据联邦子模型对数据进行初步数据清理，对每条数据记录进行分析，在数据记录出现偏离一定程度时，剔除该数据记录，以使得数据记录清理更加准确。

优选的，还包括数据异常处理模块，在进行数据记录清理时，将剔除的不合理的数据记录发送给所述数据异常处理模块，从而通过数据异常处理模块对这些数据记录进行处理，并分析出现数据记录异常其中的原因。

优选的，在利用所述联邦机器学习调度模块对所有的设备进行分组时，预先获取各所述设备的数据记录量的大小，并且分组时，将数据记录量大的在同一分组，而数据记录量小的为一个分组，以便防止数据记录量大的数据记录在进行数据训练时淹没了数量记录量小的数据，以便构建总的所述数据联邦模型准确性。

优选的，在利用所述联邦机器学习调度模块对所有的设备进行分组时，预先获取各所述设备的数据记录量的大小，并且分组时，对数据记录量大的分组的所述设备的数量少，而数据记录量小的分组，所述设备的数量多，以便保证每个分组的所述数据记录的数量适中，以便使得所有的所述数据训练融合子模块的计算量合适。

优选的，对同一个分组的多个设备上的所述数据训练融合子模块、所述数据训练联合模块，所述联邦机器学习调度模块可以指定其中的一个所述数据训练联合模块为该服务迁移系统的所述数据训练联合模块，同一个分组的其中一个所述数据训练融合子模块为数据训练融合子模块，实现同一分组的数据训练。

另外一方面，本申请还提供一种面向联邦机器学习的全流程服务迁移方法，包括面向联邦机器学习的全流程服务迁移系统，包括如下步骤：

步骤S1，初始化面向联邦机器学习的全流程服务迁移系统，所述联邦机器学习调度模块预先获取各所述设备的数据记录量的大小，在利用对所有的设备进行分组时，将数据记录量大的在同一分组，而数据记录量小的为一个分组，以便防止数据记录量大的数据记录在进行数据训练时淹没了数量记录量小的数据，对数据记录量大的分组的所述设备的数量少，而数据记录量小的分组，所述设备的数量多，以便保证每个分组的所述数据记录的数量适中；并保证每个所述分组中存在至少一个所述数据训练融合子模块，并将所述分组的信息发送给所述数据读取模块、所述数据训练融合子模块和所述数据训练联合模块，并且修改所述数据读取模块、所述数据训练融合子模块和所述数据训练联合模块的所述数据记录的读取权限；

步骤S2，所述设备在运行时，所述数据传感模块获取安装在该设备上的运行数据和状态数据，形成数据记录，并将所述数据记录存储于所述设备的所述单机存储模块；

步骤S3，所述数据清理模块读取存储于所述单机存储模块中的所述数据记录，并利用数理统计方法和设定的要求去分析每条所述数据记录，在发现某条数据记录出现明显不合理时，将该条数据记录删除；

步骤S4，所述数据训练融合子模块依据所述联邦机器学习调度模块分配的读取权限，和其对应的分组的所述数据读取模块建立数据通信连接，从而所述数据训练融合子模块通过所述数据读取模块读取存储于所述单机存储模块中存储的数据记录进行数据学习训练，得出数据联邦子模型；

步骤S5，将该数据联邦子模型和随机从获得该数据联邦子模型中应用的数据记录中抽取一定量的数据记录发送给所述局域数据存储模块；

步骤S6，所述数据训练联合模块读取存储于所述局域数据存储模块中的所述数据联邦子模型和所述数据记录，对所有所述联邦子模型采取参数加权的模式得出总的所述数据联邦模型，并利用读取的抽取的数据记录进行数据训练，从而得出总的所述数据联邦模型；

步骤S7，所述联邦机器学习调度模块从所有设备上的所述单机存储模块任意抽取一定数量的数据记录，用于对所述总的所述数据联邦模型进行校验，在所述数据记录利用该总的所述数据联邦模型进行校验中，数据输出和数据记录中的数据符合模型精度要求时，则该总的所述数据联邦模型建立完成，

步骤S8，否则，在所述局域数据存储模块中储存的随机抽取的数据记录重新随机抽取，并再次利用所述数据训练联合模块进行建立总的所述数据联邦模型的过程。

与现有技术相比，本发明的有益效果是：

1、本发明的面向联邦机器学习的全流程服务迁移方法与系统，打破传统的全局整体的数据训练以便形成数据联邦模型，采用分布式的数据联邦训练方式，从而一方面可以提高数据样本规模，使得训练更加准确，另外一个可以减小数据整体成本。

2、本发明的面向联邦机器学习的全流程服务迁移方法与系统，在对设备进行分组以便联邦训练时，预先获取各所述设备的数据记录量的大小，并且分组时，将数据记录量大的在同一分组，而数据记录量小的为一个分组，以便防止数据记录量大的数据记录在进行数据训练时淹没了数量记录量小的数据，以便构建总的所述数据联邦模型准确性；同时，对数据记录量大的分组的所述设备的数量少，而数据记录量小的分组，所述设备的数量多，以便保证每个分组的所述数据记录的数量适中，以便使得所有的所述数据训练融合子模块的计算量合适。

3、本发明的面向联邦机器学习的全流程服务迁移方法与系统，本申请在进行数据记录训练前，对数据记录进行数据清理，以便剔除数据记录异常的部分，以便保证数据记录的准确性，从而保证数据模型的准确。

附图说明

图1为本发明的整体结构示意图；

图2为本发明的设备中设置的各模块的数据流程结构示意图；

图3为本发明的数据处理中数据传递流程结构示意图。

图中：1、设备；2、模型创建模块；3、数据清理模块；4、数据融合子模块；5、数据训练联合模块；6、数据传感模块；7、单机存储模块；8、局域数据存储设备；9、全局数据存储模块；10、联合机器学习调度模块；11、数据读取模块；12、数据异常处理模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体实施例一：

一种面向联邦机器学习的全流程服务迁移系统，包括分布在不同地址的多个设备1；每个设备1包括相应的模型创建模块2、数据清理模块3、数据传感模块6和数据读取模块11；所述数据创建模块2和所述数据传感模块6数据通信连接；

数据训练融合子模块4，所述数据训练融合子模块4，所述数据训练融合子模块4设置于部分所述设备上；数据训练联合模块5，所述数据训练联合模块5设置于其中一个所述设备1上；所有设备1都包括单机存储模块7，设置有所述数据训练融合子模块4的设备上设置局域数据存储模块8，设置有所述数据训练联合模块5的所述设备1设置有全局数据存储模块9；联邦机器学习调度模块10，所述联邦机器学习调度模块10对所有参与联邦机器学习的设备、工作模块和数据进度调度；所述联邦机器学习调度模块10数据通信连接所述数据读取模块11、所述数据训练融合子模块4和所述数据训练联合模块5；所述数据创建模块2和所述单机存储模块7数据通信连接，所述单机存储模块7还分别和所述数据清理模块3和数据读取模块11数据通信连接；

所述设备1在运行时，所述数据传感模块6获取安装在该设备1上的运行数据和状态数据，并发送给所述模型创建模块2，形成数据记录，并将所述数据记录存储于所述设备1的所述单机存储模块7，所述数据清理模块3读取存储于所述单机存储模块7中的所述数据记录，并利用数理统计方法和设定的要求去分析每条所述数据记录，在发现某条数据记录出现明显不合理时，将该条数据记录删除；

所述联邦机器学习调度模块10对所有的设备1进行分组，将所有的所述设备1按照一定的规则分成数个分组，并保证每个所述分组中存在至少一个所述数据训练融合子模块4，并将所述分组的信息发送给所述数据读取模块11、所述数据训练融合子模块4和所述数据训练联合模块5，并且修改所述数据读取模块11、所述数据训练融合子模块4和所述数据训练联合模块5的所述数据记录的读取权限；

所述数据训练融合子模块4依据所述联邦机器学习调度模块10分配的读取权限，和其对应的分组的所述数据读取模块11建立数据通信连接，从而所述数据训练融合子模块4通过所述数据读取模块11读取存储于所述单机存储模块7中存储的数据记录进行数据学习训练，得出数据联邦子模型，并将该数据联邦子模型和随机从获得该数据联邦子模型中应用的数据记录中抽取一定量的数据记录发送给所述局域数据存储模块8；

所述数据训练联合模块5读取存储于所述局域数据存储模块8中的所述数据联邦子模型和所述数据记录，对所有所述联邦子模型采取参数加权的模式得出总的所述数据联邦模型，并利用读取的抽取的数据记录进行数据训练，从而得出总的所述数据联邦模型，并发送给所述全局数据存储模块9进行存储；

所述联邦机器学习调度模块10从所有设备上的所述单机存储模块7任意抽取一定数量的数据记录，用于对所述总的所述数据联邦模型进行校验，在所述数据记录利用该总的所述数据联邦模型进行校验中，数据输出和数据记录中的数据符合模型精度要求时，则该总的所述数据联邦模型建立完成，否则，在所述局域数据存储模块8中储存的随机抽取的数据记录重新随机抽取，并再次利用所述数据训练联合模块5进行建立总的所述数据联邦模型的过程。

优选的，在各分组利用所述数据训练融合子模块4进行数据训练生成所述数据联邦子模型时，为了增加训练数据的维度，对所述分组，部分分组采用纵向数据联邦学习，剩余部分分组采用联邦迁移学习；或部分分组采用纵向联邦数据学习、部分分组采用横向联邦学习，声音部分采用联邦迁移学习。

优选的，在所述数据训练融合子模块4、所述数据读取模块11和所述数据训练联合模块5之间进行的数据通信和数据的存取都采用加密的方式进行，以保证数据记录在传输中的安全性。

优选的，在所述数据清理模块2进行数据记录的数据清理时，利用已有的历史数据记录或数据联邦子模型对数据进行初步数据清理，对每条数据记录进行分析，在数据记录出现偏离一定程度时，剔除该数据记录，以使得数据记录清理更加准确。

优选的，还包括数据异常处理模块12，在进行数据记录清理时，将剔除的不合理的数据记录发送给所述数据异常处理模块12，从而通过数据异常处理模块12对这些数据记录进行处理，并分析出现数据记录异常其中的原因。

优选的，在利用所述联邦机器学习调度模块10对所有的设备1进行分组时，预先获取各所述设备1的数据记录量的大小，并且分组时，将数据记录量大的在同一分组，而数据记录量小的为一个分组，以便防止数据记录量大的数据记录在进行数据训练时淹没了数量记录量小的数据，以便构建总的所述数据联邦模型准确性。

优选的，在利用所述联邦机器学习调度模块10对所有的设备1进行分组时，预先获取各所述设备1的数据记录量的大小，并且分组时，对数据记录量大的分组的所述设备1的数量少，而数据记录量小的分组，所述设备1的数量多，以便保证每个分组的所述数据记录的数量适中，以便使得所有的所述数据训练融合子模块4的计算量合适。

优选的，对同一个分组的多个设备上的所述数据训练融合子模块4、所述数据训练联合模块5，所述联邦机器学习调度模块10可以指定其中的一个所述数据训练联合模块5为该服务迁移系统的所述数据训练联合模块5，同一个分组的其中一个所述数据训练融合子模块4为数据训练融合子模块，实现同一分组的数据训练。

具体实施例二：

一种面向联邦机器学习的全流程服务迁移方法，包括面向联邦机器学习的全流程服务迁移系统，包括如下步骤：

步骤S1，初始化面向联邦机器学习的全流程服务迁移系统，所述联邦机器学习调度模块10预先获取各所述设备1的数据记录量的大小，在利用对所有的设备1进行分组时，将数据记录量大的在同一分组，而数据记录量小的为一个分组，以便防止数据记录量大的数据记录在进行数据训练时淹没了数量记录量小的数据，对数据记录量大的分组的所述设备1的数量少，而数据记录量小的分组，所述设备1的数量多，以便保证每个分组的所述数据记录的数量适中；并保证每个所述分组中存在至少一个所述数据训练融合子模块4，并将所述分组的信息发送给所述数据读取模块11、所述数据训练融合子模块4和所述数据训练联合模块5，并且修改所述数据读取模块11、所述数据训练融合子模块4和所述数据训练联合模块5的所述数据记录的读取权限；

步骤S2，所述设备1在运行时，所述数据传感模块6获取安装在该设备1上的运行数据和状态数据，形成数据记录，并将所述数据记录存储于所述设备1的所述单机存储模块7；

步骤S3，所述数据清理模块3读取存储于所述单机存储模块7中的所述数据记录，并利用数理统计方法和设定的要求去分析每条所述数据记录，在发现某条数据记录出现明显不合理时，将该条数据记录删除；

步骤S4，所述数据训练融合子模块4依据所述联邦机器学习调度模块10分配的读取权限，和其对应的分组的所述数据读取模块11建立数据通信连接，从而所述数据训练融合子模块4通过所述数据读取模块11读取存储于所述单机存储模块7中存储的数据记录进行数据学习训练，得出数据联邦子模型；

步骤S5，将该数据联邦子模型和随机从获得该数据联邦子模型中应用的数据记录中抽取一定量的数据记录发送给所述局域数据存储模块8；

步骤S6，所述数据训练联合模块5读取存储于所述局域数据存储模块8中的所述数据联邦子模型和所述数据记录，对所有所述联邦子模型采取参数加权的模式得出总的所述数据联邦模型，并利用读取的抽取的数据记录进行数据训练，从而得出总的所述数据联邦模型；

步骤S7，所述联邦机器学习调度模块10从所有设备上的所述单机存储模块7任意抽取一定数量的数据记录，用于对所述总的所述数据联邦模型进行校验，在所述数据记录利用该总的所述数据联邦模型进行校验中，数据输出和数据记录中的数据符合模型精度要求时，则该总的所述数据联邦模型建立完成，

步骤S8，否则，在所述局域数据存储模块8中储存的随机抽取的数据记录重新随机抽取，并再次利用所述数据训练联合模块5进行建立总的所述数据联邦模型的过程。

优选的，所述联邦机器学习调度模块10可以指定其的某个设备上的所述数据训练融合子模块4、所述数据训练联合模块5启用。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种面向联邦机器学习的全流程服务迁移系统，包括分布在不同地址的多个设备(1)；每个设备(1)包括相应的模型创建模块(2)、数据清理模块(3)、数据传感模块(6)和数据读取模块(11)；所述模型创建模块(2)和所述数据传感模块(6)数据通信连接；

数据训练融合子模块(4)，所述数据训练融合子模块(4)设置于部分所述设备上；数据训练联合模块(5)，所述数据训练联合模块(5)设置于其中一个所述设备(1)上；所有设备(1)都包括单机存储模块(7)，设置有所述数据训练融合子模块(4)的设备上设置局域数据存储模块(8)，设置有所述数据训练联合模块(5)的所述设备(1)设置有全局数据存储模块(9)；联邦机器学习调度模块(10)，所述联邦机器学习调度模块(10)对所有参与联邦机器学习的设备、工作模块和数据进度调度；所述联邦机器学习调度模块(10)数据通信连接所述数据读取模块(11)、所述数据训练融合子模块(4)和所述数据训练联合模块(5)；所述模型创建模块(2)和所述单机存储模块(7)数据通信连接，所述单机存储模块(7)还分别和所述数据清理模块(3)和数据读取模块(11)数据通信连接；

其特征在于：

所述设备(1)在运行时，所述数据传感模块(6)获取安装在该设备(1)上的运行数据和状态数据，并发送给所述模型创建模块(2)，形成数据记录，并将所述数据记录存储于所述设备(1)的所述单机存储模块(7)，所述数据清理模块(3)读取存储于所述单机存储模块(7)中的所述数据记录，并利用数理统计方法和设定的要求去分析每条所述数据记录，在发现某条数据记录出现明显不合理时，将该条数据记录删除；所述联邦机器学习调度模块(10)对所有的设备(1)进行分组，将所有的所述设备(1)按照一定的规则分成数个分组，并保证每个所述分组中存在至少一个所述数据训练融合子模块(4)，并将所述分组的信息发送给所述数据读取模块(11)、所述数据训练融合子模块(4)和所述数据训练联合模块(5)，并且修改所述数据读取模块(11)、所述数据训练融合子模块(4)和所述数据训练联合模块(5)的所述数据记录的读取权限；

所述数据训练融合子模块(4)依据所述联邦机器学习调度模块(10)分配的读取权限，和其对应的分组的所述数据读取模块(11)建立数据通信连接，从而所述数据训练融合子模块(4)通过所述数据读取模块(11)读取存储于所述单机存储模块(7)中存储的数据记录进行数据学习训练，得出数据联邦子模型，并将该数据联邦子模型和随机从获得该数据联邦子模型中应用的数据记录中抽取一定量的数据记录发送给所述局域数据存储模块(8)；

所述数据训练联合模块(5)读取存储于所述局域数据存储模块(8)中的所述数据联邦子模型和所述数据记录，对所有所述联邦子模型采取参数加权的模式得出总的数据联邦模型，并利用读取的抽取的数据记录进行数据训练，从而得出总的数据联邦模型，并发送给所述全局数据存储模块(9)进行存储；所述联邦机器学习调度模块(10)从所有设备上的所述单机存储模块(7)任意抽取一定数量的数据记录，用于对所述总的数据联邦模型进行校验，在所述数据记录利用该总的数据联邦模型进行校验中，数据输出和数据记录中的数据符合模型精度要求时，则该总的数据联邦模型建立完成，否则，在所述局域数据存储模块(8)中储存的随机抽取的数据记录重新随机抽取，并再次利用所述数据训练联合模块(5)进行建立总的数据联邦模型的过程；

在利用所述联邦机器学习调度模块(10)对所有的设备(1)进行分组时，预先获取各所述设备(1)的数据记录量的大小，并且分组时，将数据记录量大的在同一分组，而数据记录量小的为一个分组，以便防止数据记录量大的数据记录在进行数据训练时淹没了数量记录量小的数据，以便构建总的数据联邦模型准确性；在利用所述联邦机器学习调度模块(10)对所有的设备(1)进行分组时，预先获取各所述设备(1)的数据记录量的大小，并且分组时，对数据记录量大的分组的所述设备(1)的数量少，而数据记录量小的分组，所述设备(1)的数量多。

2.根据权利要求1所述的一种面向联邦机器学习的全流程服务迁移系统，其特征在于：在各分组利用所述数据训练融合子模块(4)进行数据训练生成所述数据联邦子模型时，为了增加训练数据的维度，对所述分组，部分分组采用纵向数据联邦学习，剩余部分分组采用联邦迁移学习；或部分分组采用纵向联邦数据学习、部分分组采用横向联邦学习，声音部分采用联邦迁移学习。

3.根据权利要求1所述的一种面向联邦机器学习的全流程服务迁移系统，其特征在于：在所述数据训练融合子模块(4)、所述数据读取模块(11)和所述数据训练联合模块(5)之间进行的数据通信和数据的存取都采用加密的方式进行，以保证数据记录在传输中的安全性。

4.根据权利要求1所述的一种面向联邦机器学习的全流程服务迁移系统，其特征在于：在所述数据清理模块(3)进行数据记录的数据清理时，利用已有的历史数据记录或数据联邦子模型对数据进行初步数据清理，对每条数据记录进行分析，在数据记录出现偏离一定程度时，剔除该数据记录，以使得数据记录清理更加准确。

5.根据权利要求4所述的一种面向联邦机器学习的全流程服务迁移系统，其特征在于：还包括数据异常处理模块(12)，在进行数据记录清理时，将剔除的不合理的数据记录发送给所述数据异常处理模块(12)，从而通过数据异常处理模块(12)对这些数据记录进行处理，并分析出现数据记录异常其中的原因。

6.根据权利要求1所述的一种面向联邦机器学习的全流程服务迁移系统，其特征在于：对同一个分组的多个设备上的所述数据训练融合子模块(4)、所述数据训练联合模块(5)，所述联邦机器学习调度模块(10)可以指定其中的一个所述数据训练联合模块(5)为该服务迁移系统的所述数据训练联合模块(5)，同一个分组的其中一个所述数据训练融合子模块(4)为数据训练融合子模块，实现同一分组的数据训练。

7.一种面向联邦机器学习的全流程服务迁移方法，包括如权利要求1-6中任意一项所述的面向联邦机器学习的全流程服务迁移系统，其特征在于，包括如下步骤：

步骤S1，初始化面向联邦机器学习的全流程服务迁移系统，所述联邦机器学习调度模块(10)预先获取各所述设备(1)的数据记录量的大小，在利用对所有的设备(1)进行分组时，将数据记录量大的在同一分组，而数据记录量小的为一个分组，以便防止数据记录量大的数据记录在进行数据训练时淹没了数量记录量小的数据，对数据记录量大的分组的所述设备(1)的数量少，而数据记录量小的分组，所述设备(1)的数量多，以便保证每个分组的所述数据记录的数量适中；并保证每个所述分组中存在至少一个所述数据训练融合子模块(4)，并将所述分组的信息发送给所述数据读取模块(11)、所述数据训练融合子模块(4)和所述数据训练联合模块(5)，并且修改所述数据读取模块(11)、所述数据训练融合子模块(4)和所述数据训练联合模块(5)的所述数据记录的读取权限；

步骤S2，所述设备(1)在运行时，所述数据传感模块(6)获取安装在该设备(1)上的运行数据和状态数据，形成数据记录，并将所述数据记录存储于所述设备(1)的所述单机存储模块(7)；

步骤S3，所述数据清理模块(3)读取存储于所述单机存储模块(7)中的所述数据记录，并利用数理统计方法和设定的要求去分析每条所述数据记录，在发现某条数据记录出现明显不合理时，将该条数据记录删除；

步骤S4，所述数据训练融合子模块(4)依据所述联邦机器学习调度模块(10)分配的读取权限，和其对应的分组的所述数据读取模块(11)建立数据通信连接，从而所述数据训练融合子模块(4)通过所述数据读取模块(11)读取存储于所述单机存储模块(7)中存储的数据记录进行数据学习训练，得出数据联邦子模型；

步骤S5，将该数据联邦子模型和随机从获得该数据联邦子模型中应用的数据记录中抽取一定量的数据记录发送给所述局域数据存储模块(8)；

步骤S6，所述数据训练联合模块(5)读取存储于所述局域数据存储模块(8)中的所述数据联邦子模型和所述数据记录，对所有所述联邦子模型采取参数加权的模式得出总的数据联邦模型，并利用读取的抽取的数据记录进行数据训练，从而得出总的数据联邦模型；

步骤S7，所述联邦机器学习调度模块(10)从所有设备上的所述单机存储模块(7)任意抽取一定数量的数据记录，用于对所述总的数据联邦模型进行校验，在所述数据记录利用该总的数据联邦模型进行校验中，数据输出和数据记录中的数据符合模型精度要求时，则该总的数据联邦模型建立完成，

步骤S8，否则，在所述局域数据存储模块(8)中储存的随机抽取的数据记录重新随机抽取，并再次利用所述数据训练联合模块(5)进行建立总的数据联邦模型的过程。

8.根据权利要求7所述的一种面向联邦机器学习的全流程服务迁移方法，其特征在于：对同一个分组的多个设备上的所述数据训练融合子模块(4)、所述数据训练联合模块(5)，所述联邦机器学习调度模块(10)可以指定其中的一个所述数据训练联合模块(5)为该服务迁移系统的所述数据训练联合模块(5)，同一个分组的其中一个所述数据训练融合子模块(4)为数据训练融合子模块，实现同一分组的数据训练。