CN115883016A

CN115883016A - 基于联邦生成对抗网络的流量数据增强方法与装置

Info

Publication number: CN115883016A
Application number: CN202211331540.9A
Authority: CN
Inventors: 黄洋; 陆逸炜; 后裕琦; 吴启晖; 崔皓禹; 朱秋明; 陈小敏; 赵玉龙
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-03-31
Anticipated expiration: 2042-10-28
Also published as: CN115883016B

Abstract

本发明公开了一种基于联邦生成对抗网络的流量数据增强方法与装置，离线保存每个基站历史采集的无线帧监测数据，通过计算每个采集的无线帧的资源占用率，得到各区域各基站的历史流量数据，对数据进行区域分簇收集，设置逻辑处理中心，并在逻辑处理中心进行缺损流量数据补全生成对抗网络预设，同步分簇网络与逻辑处理中心保持一致，采用联邦平均策略，调度各个分簇的网络进行聚合训练，将聚合训练后的联邦生成对抗网络在簇内进行同步保存；调取待增强缺失流量数据，基于联邦生成对抗网络，待待增强缺失流量数据中缺失的部分替换为联邦生成对抗网络输出的流量值，通过批量生成筛选的方式，得到最适合当前缺失流量数据分布的增强填充流量数据。

Description

基于联邦生成对抗网络的流量数据增强方法与装置

技术领域

本发明涉及无线通信技术领域，具体而言涉及一种基于联邦学习与生成对抗网络结合的多区域协同无线流量数据填充增强的方法及装置。

背景技术

无线流量数据是当前网络设计和流量工程任务的重要组成部分，包括容量规划、负载平衡、路径设置、网络供应、异常检测和故障恢复等。在5G通信系统中，基站也可以基于SDN/NFV(软件定义网络/网络功能虚拟化)技术来学习流量数据变化，动态适应流量负载，确保整体服务质量和网络性能。而且近年来，随着流媒体和云服务的广泛部署，无线流量在时间上的变化将更加剧烈，精确采集的流量数据也是当前挑战之一。许多流量工程任务(如异常检测、流量预测)需要完整的流量信息，针对流量数据缺失的准确填充增强，成为无线流量采集的一个关键问题。

数据填充增强技术旨在通过分析隐藏在数据集中的特征、规则、关系等来恢复数据集中缺失的值，使得填充增强后的数据能够提升其在后续环节的使用性能。具体到流量数据上，其拥有时间稳定性、空间相关性和周期性等特征，当流量数据出现缺失之后，流量工程任务会出现特征难以捕获的问题。以流量预测为例，如果忽略流量数据缺失的影响，预测得到的流量信息就容易产生误差，且无法有效适应当前流量变化趋势，对于动态调整网络结构，适应流量负载的任务效果也较差。对真实流量数据的分析表明，用户设备的网络接入行为在每天的同一时间会有相似行为，在时间上展开也就是流量数据的周期性特征，为了更准确进行的缺失流量数据填充增强，我们可以利用这些特征同时考虑不同日期的流量，进行特征学习，对缺失点的流量值进行推断。

对于流量数据缺失率较小的情况，通常采用简单的流量值缺省以及简单的插值填充方式(如线性插值，三次样条插值等)对流量数据进行处理，此时数据缺失对于流量预测的影响就比较小。但面对大缺失率的流量数据样本，样本信息过少，直接省略数据或简单插值容易出现流量预测误差过大的情况。在数据填充生成领域，生成对抗网络凭借能够学习历史数据，进行隐式建模，学习流量数据分布的特性，在各类时间序列填充算法上有着较为优秀的性能。尽管生成对抗网络方法在各类生成填充实验中，有良好的性能，但其训练环节依赖完整数据。在实际情况中，训练集拥有缺失是问题固有的一部分，获取完整数据集并不符合实际。此外，在无线通信系统中，流量数据采集存放于分散各地的基站中，使用整个区域内的所有基站流量数据进行训练，获取全局流量信息，需要消耗大量通信资源进行数据传递。因此，本方法的基本任务和主要难点在于，利用有限且分散的历史缺失流量数据以及流量数据的内部时间相关性，对各地的流量数据进行补全增强，从而在不过度占用通信资源的情况下，提高流量预测的准确度。

发明内容

本发明针对现有技术中的不足，提供了一种基于联邦学习与生成对抗网络结合的多区域协同无线流量数据填充增强方法和装置。在获取流量数据有一定缺失，且数据较为分散的情况下，能够有效对缺失流量数据进行填充增强，从而提高流量数据在流量预测环节的精度。

为达成上述目的，本发明采用以下技术方案：

一种基于联邦生成对抗网络的流量数据增强方法，包括以下几个步骤：

S101：离线保存每个基站历史采集的各时间点和频点的无线帧监测数据，通过计算每个采集的无线帧的资源占用率，得到各区域各基站的历史流量数据，每组训练数据由基站当前时间点和频点下的物理资源块占用情况组成，经过预处理后，历史流量数据展现为频率、时间作为变量到资源占用率与用户的一种映射关系；

S102：基于各区域各基站获取的训练用历史流量数据，进行区域分簇收集，将区域数据集中至区域簇头中；基于收集到的历史流量数据，设置逻辑处理中心，并在逻辑处理中心进行缺损流量数据补全生成对抗网络预设，同步分簇的缺损流量数据补全生成对抗网络与逻辑处理中心保持一致；

S103：通过逻辑处理中心调度各个分簇簇头，采用联邦平均策略，调度各个分簇的缺损流量数据补全生成对抗网络进行聚合训练，将聚合训练后的联邦生成对抗网络进行同步保存；

S104：基于步骤S103中的联邦生成对抗网络，分簇将簇内所有基站待补全的流量数据中缺失的部分替换为联邦生成对抗网络输出的流量值，通过批量生成筛选的方式，得到最适合当前缺失流量数据分布的增强填充流量数据。

其中：步骤S101包括以下子步骤：

S11，各个基站中的控制服务器以固定的时间间隔向流量采集设备发送流量采集请求，固定的时间间隔为时隙，流量采集设备收到流量采集请求后，采集当前时间点与频段范围内各频点的无线帧，设置为物理资源块，实时传回存储设备；

S12，对步骤S11采集的物理资源块进行各频点各时间点的预处理计算，通过读取物理资源块内每个符号对应的用户信息与物理资源块内的符号占用情况，计算当前频点与时间点的物理资源块占用率以及对应用户，依次计算得到历史流量数据；

S13，对步骤S12获得的历史流量数据进行进一步的筛选提取处理，对于流量采集过程中出现的缺失数据标记为0，生成历史缺失流量数据。

步骤S102包括以下子步骤：

S21，将区域内的所有基站以分簇进行划分，每个分簇设置一个簇头，簇头用于收集分簇内所有基站的历史缺失流量数据，并保存在簇头本地；

S22，对步骤S21中得到的分簇内历史缺失流量数据进行批处理用于输入后续步骤；

S23，对步骤S22中的分簇内历史缺失流量数据进行归一化处理，对得到的历史缺失流量数据进行固定时隙固定频点的标准化处理，保证每一条历史缺失流量数据由确定的频点和时刻映射而来，生成标准化历史缺失流量数据，保存在簇头本地；

S24，根据步骤S23中得到的标准化历史缺失流量数据，在逻辑处理中心构造一个缺损流量数据补全生成对抗网络，缺损流量数据补全生成对抗网络由生成器网络和鉴别器网络构成，生成器网络的输出与标准化历史缺失流量数据的维度一致，鉴别器网络的输入与标准化历史缺失流量数据维度一致；

S25，将步骤S24中逻辑处理中心设置的缺损流量数据补全生成对抗网络复制传输至各个分簇，在每个分簇构建与逻辑处理中心结构一致的缺损流量数据补全生成对抗网络，保证区域内所有缺损流量数据补全生成对抗网络结构具备一致性。

步骤S103包括以下步骤：

S31，对步骤S23中标准化历史缺失流量数据进行预处理，生成相应的掩码数据，缺损数据位置标记为0，有数据位置标记为1，对数据缺失点进行随机变量填充，将标准化历史缺失流量数据作为条件信息与随机潜变量进行融合，生成分簇训练历史缺失流量数据；

S32，将步骤S31中的分簇训练历史缺失流量数据输入各分簇已建立的缺损流量数据补全生成对抗网络中进行训练，缺损流量数据补全生成对抗网络的每一轮训练结束之后，训练模型参数均保存在簇头本地；流量数据补全条件生成对抗网络采用信息提示矩阵，为鉴别器网络提供部分数据点是由生成器网络得到或是真实数据的信息，所述的鉴别器网络输出的内容是对每个数据点进行真实或伪造的判别，除随机变量以及真实和伪造数据输入生成器网络与鉴别器网络外，还有其他的已知条件信息作为输入数据；

S33，对步骤S32中缺损流量数据补全生成对抗网络每一轮训练得到的模型参数进行聚合，将簇头本地的模型参数传输至逻辑处理中心，逻辑处理中心收到模型参数之后，采用联邦平均的策略对收集到的模型参数进行处理，最后将处理好的联邦模型参数同步给每一个分簇簇头进行下一步训练；

S34，根据逻辑处理中心每一轮训练的联邦模型参数相对误差进行缺损流量数据补全生成对抗网络的收敛判别，若未达到收敛，继续执行联邦平均策略的聚合调度；若达到收敛，则停止继续调度模型参数，并终止分簇的缺损流量数据补全生成对抗网络训练，设置聚合后的缺损流量数据补全生成对抗网络为联邦生成对抗网络，将联邦生成对抗网络同步至各分簇。

步骤S104包括以下步骤：

S41，对于存储于各基站中需要进行流量数据填充的待增强缺失流量数据进行调用，对单条待增强缺失流量数据，进行一定次数的复制；

S42，对步骤S41中的复制后的待增强缺失流量数据，进行流量缺失点的随机变量填充，将待增强缺失流量数据作为条件信息与随机潜变量进行融合，生成待增强随机填充流量数据；

S43，把步骤S42中得到的待增强随机填充流量数据输入步骤S34中联邦生成对抗网络，生成完整的待增强随机填充流量数据，替换待增强缺失流量数据中流量缺失点的部分，实现流量数据的填充增强，生成增强随机填充流量数据；

S44，对于步骤S43得到的增强随机填充流量数据，基于鉴别器网络的判别准确度和生成数据与原始数据的相对误差，筛选出最适合当前流量数据分布的增强填充流量数据。

本发明还提供了一种基于联邦生成对抗网络的流量数据增强方法的装置，包括离线数据采集模块、分簇数据处理模块、联邦学习控制模块和流量数据增强模块，

离线数据采集模块：离线保存每个基站历史采集的各时间点和频点的无线帧监测数据，通过计算每个采集的无线帧的资源占用率，得到各区域各基站的历史流量数据，每组训练数据由基站当前时间点和频点下的物理资源块占用情况组成，经过预处理后，历史流量数据展现为频率、时间作为变量到资源占用率与用户的一种映射关系，离线数据采集模块与分簇数据处理模块信号连接；

分簇数据处理模块：基于各区域各基站获取的训练用历史流量数据，进行区域分簇收集，将区域数据集中至区域簇头中；基于收集到的历史流量数据，设置逻辑处理中心，并在逻辑处理中心进行缺损流量数据补全生成对抗网络预设，同步分簇的缺损流量数据补全生成对抗网络与逻辑处理中心保持一致，分簇数据处理模块与联邦学习控制模块信号连接；

联邦学习控制模块：通过逻辑处理中心调度各个分簇簇头，采用联邦平均策略，调度各个分簇的缺损流量数据补全生成对抗网络进行聚合训练，将聚合训练后的联邦生成对抗网络进行同步保存，联邦学习控制模块与流量数据增强模块信号连接；

流量数据增强模块：基于联邦生成对抗网络，分簇将簇内所有基站待补全的流量数据中缺失的部分替换为联邦生成对抗网络输出的流量值，通过批量生成筛选的方式，得到最适合当前缺失流量数据分布的增强填充流量数据。

其中，离线数据采集模块包括以下单元：

流量数据采集单元：各个基站中的控制服务器以固定的时间间隔向流量采集设备发送流量采集请求，固定的时间间隔为时隙，流量采集设备收到流量采集请求后，采集当前时间点与频段范围内各频点的无线帧，设置为物理资源块，实时传回存储设备，流量数据采集单元与流量数据清洗单元信号连接；

流量数据清洗单元：对流量数据采集单元中的物理资源块进行各频点各时间点的预处理计算，通过读取物理资源块内每个符号对应的用户信息与物理资源块内的符号占用情况，计算当前频点与时间点的物理资源块占用率以及对应用户，依次计算得到历史流量数据，进一步的筛选提取处理，对于流量采集过程中出现的缺失数据标记为0，生成历史缺失流量数据。

分簇数据处理模块包括以下单元：

流量数据分簇单元：将区域内的所有基站以分簇进行划分，每个分簇设置一个簇头，簇头用于收集分簇内所有基站的历史缺失流量数据，并保存在簇头本地，流量数据分簇单元与标准化单元信号连接；

标准化单元：对流量数据分簇单元中得到的分簇内历史缺失流量数据进行批处理用于输入后续步骤，将分簇内历史缺失流量数据进行归一化处理，对得到的历史缺失流量数据进行固定时隙固定频点的标准化处理，保证每一条历史缺失流量数据由确定的频点和时刻映射而来，生成标准化历史缺失流量数据，标准化单元与分簇数据存储单元信号连接；

分簇数据存储单元：将标准化单元的数据保存在簇头本地，分簇数据存储单元与分簇模型预设单元信号连接；

分簇模型预设单元：接收逻辑处理中心构造的缺损流量数据补全生成对抗网络，缺损流量数据补全生成对抗网络由生成器网络和鉴别器网络构成，生成器网络的输出与标准化历史缺失流量数据的维度一致，鉴别器网络的输入与标准化历史缺失流量数据维度一致，将逻辑处理中心设置的缺损流量数据补全生成对抗网络复制传输至各个分簇，在每个分簇构建与逻辑处理中心结构一致的缺损流量数据补全生成对抗网络，保证区域内所有缺损流量数据补全生成对抗网络结构具备一致性，分簇模型预设单元与分簇模型调度存储单元信号连接；

分簇模型调度存储单元：对缺损流量数据补全生成对抗网络每一轮训练得到的模型参数进行聚合，将簇头本地的模型参数传输至逻辑处理中心，逻辑处理中心收到模型参数之后，采用联邦平均的策略对收集到的模型参数进行处理，最后将处理好的联邦模型参数同步给每一个分簇簇头进行下一步训练，根据逻辑处理中心每一轮训练的联邦模型参数相对误差进行缺损流量数据补全生成对抗网络的收敛判别，若未达到收敛，继续执行联邦平均策略的聚合调度；若达到收敛，则停止继续调度模型参数，并终止分簇的缺损流量数据补全生成对抗网络训练，设置聚合后的缺损流量数据补全生成对抗网络为联邦生成对抗网络，接收联邦生成对抗网络同步至各分簇。

联邦学习控制模块包括以下单元：

联邦模型预设单元：根据分簇数据存储单元中的标准化历史缺失流量数据，在逻辑处理中心构造一个缺损流量数据补全生成对抗网络，缺损流量数据补全生成对抗网络由生成器网络和鉴别器网络构成，生成器网络的输出与标准化历史缺失流量数据的维度一致，鉴别器网络的输入与标准化历史缺失流量数据维度一致；将逻辑处理中心设置的缺损流量数据补全生成对抗网络复制传输至各个分簇，在每个分簇构建与逻辑处理中心结构一致的缺损流量数据补全生成对抗网络，保证区域内所有缺损流量数据补全生成对抗网络结构具备一致性，联邦模型预设单元与预处理随机填充单元信号连接；

预处理随机填充单元：对标准化历史缺失流量数据进行预处理，生成相应的掩码数据，缺损数据位置标记为0，有数据位置标记为1，对数据缺失点进行随机变量填充，将标准化历史缺失流量数据作为条件信息与随机潜变量进行融合，生成分簇训练历史缺失流量数据，预处理随机填充单元与模型训练单元信号连接；

模型训练单元：将分簇训练历史缺失流量数据输入各分簇已建立的缺损流量数据补全生成对抗网络中进行训练，缺损流量数据补全生成对抗网络的每一轮训练结束之后，训练模型参数均保存在簇头本地；流量数据补全条件生成对抗网络采用信息提示矩阵，为鉴别器网络提供部分数据点是由生成器网络得到或是真实数据的信息，鉴别器网络输出的内容是对每个数据点进行真实或伪造的判别，除随机变量以及真实和伪造数据输入生成器网络与鉴别器网络外，还有其他的已知条件信息作为输入数据，模型训练单元与联邦模型调度存储单元信号连接；

联邦模型调度存储单元：对缺损流量数据补全生成对抗网络每一轮训练得到的模型参数进行聚合，将簇头本地的模型参数传输至逻辑处理中心，逻辑处理中心收到模型参数之后，采用联邦平均的策略对收集到的模型参数进行处理，最后将处理好的联邦模型参数同步给每一个分簇簇头进行下一步训练；根据逻辑处理中心每一轮训练的联邦模型参数相对误差进行缺损流量数据补全生成对抗网络的收敛判别，若未达到收敛，继续执行联邦平均策略的聚合调度；若达到收敛，则停止继续调度模型参数，并终止分簇的缺损流量数据补全生成对抗网络训练，设置聚合后的缺损流量数据补全生成对抗网络为联邦生成对抗网络，将联邦生成对抗网络同步至各分簇。

流量数据增强模块包括以下单元：

待增强数据存储单元：存储各基站中需要进行流量数据填充的待增强缺失流量数据，待增强数据存储单元与批量复制单元信号连接；

批量复制单元：对单条待增强缺失流量数据，进行一定次数的复制，批量复制单元与随机填充单元信号连接；

随机填充单元：对复制后的待增强缺失流量数据，进行批量流量缺失点的随机变量填充，将待增强缺失流量数据作为条件信息与随机潜变量进行融合，生成待增强随机填充流量数据，随机填充单元与批量增强单元信号连接；

批量增强单元：把待增强随机填充流量数据输入联邦学习控制模块，生成完整的待增强随机填充流量数据，替换待增强缺失流量数据中流量缺失点的部分，实现流量数据的填充增强，生成增强随机填充流量数据，批量增强单元与筛选单元信号连接；

筛选单元：对增强随机填充流量数据，基于鉴别器网络的判别准确度和生成数据与原始数据的相对误差，筛选出最适合当前流量数据分布的增强填充流量数据。

本发明的有益效果是：

本发明根据流量数据在区域整体空间内的时空分布特性进行研究，并且以无线通信帧中物理资源块的占用情况来指代流量数据。对于无线通信中采集的缺失流量数据，分簇将通过收集簇内流量数据，进行流量分布特征的学习，从而恢复缺失点的流量数据，从而为后续的流量工程任务，如流量预测等，提供丰富的历史流量信息，从而提升这些任务的性能。本发明离线获取各个基站已采集的无线流量帧，读取其帧内物理资源块占用情况，计算占用率并融合用户信息，得到各区域各基站的训练用历史流量数据；每组训练数据由基站当前时间点和频点下的物理资源块占用情况组成，经过预处理后，流量数据将展现为频率，时间作为变量到占用率与用户的一种映射关系；区域内的所有基站服务器，通过分簇，将流量数据聚集到各分簇内，进行归一化后的数据集制作，随后在分簇内，构造基于补全生成对抗网络的流量数据填充增强模型，经过生成器和鉴别器的对抗训练，以及其他分簇通过联邦学习传入的神经网络融合参数，进行生成网络和鉴别网络的联合学习，最终构造一个能够补全流量数据缺失的数据增强模型。对后续时刻的流量值进行预测；运行过程中实时采集的流量数据输入模型进行模型在线调整。本发明利用现有的各基站的历史缺损流量数据，面向区域内高性能流量工程任务的应用，对缺损的历史流量数据进行实时且精确的填充增强，能够有效的提升流量工程任务的性能，以流量预测为例，进行缺损流量数据填充后进行流量预测，可以有效提升流量预测的精度，为网络资源调度提供更准确的依据，提升网络的动态性能。因此本发明可以在依赖较少的网络资源传输训练数据，调度全局基站传递参数进行网络训练，能够有效的降低流量数据填充误差且提供较好的流量预测精度，其填充增强算法远好于经典的插值和迭代回归算法。

附图说明

图1是本发明的方法流程示意图；

图2是具体实施例的步骤S101的流程示意图；

图3是具体实施例的步骤S102的流程示意图；

图4是具体实施例的步骤S103的流程示意图；

图5是具体实施例的步骤S104的流程示意图；

图6是具体实施例的装置结构示意图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

具体的，本发明将通过以下的实施例来进行阐述，实施例背景均如下：无线通信系统中的流量数据体现为基站中以固定时间间隔记录的通信上下行无线帧物理资源块的占用率以及用户信息。因此我们将经过采集处理后的流量数据定义为时间点(记作t)、通信频点(记作f)的二元变量到物理资源块占用率(记作y)的映射关系。简化模型如下：

首先，根据采集时确定的时间间隔与频点信息，将流量数据进行标准化，规定用于增强和预测的流量数据在时域及频域的取值范围，在后续使用的增强数据和预测模型训练数据均采用标准化后的流量数据作为输入。在采集流量数据过程中，默认流量数据在每个时刻及频点上有对应的流量值。假设流量数据共有N_t*N_f个点构成，在时间t和频点f上的流量值表示为y_f，t，则流量数据可以表示为一个N_t*N_f的矩阵Y。

假设当前区域内所有基站的流量数据均采集在本地，数据较为分散，通过分簇，将流量数据聚集到簇头，为流量数据填充增强提供一批可用训练数据。在复杂通信环境中，对于流量数据的采集无法完全固定时隙，流量数据会有所缺失。而由于高缺失率下的高斯过程流量预测精度会大幅度下降，因此，为了提高预测结果准确性，在推理阶段利用已有的离线业务流量数据，学习业务流量的分布规律，补全业务流量数据以增强业务流量预测。假设基站获得的有缺失流量数据矩阵表示为

流量数据的缺失掩码，即表示数据是否在该点出现缺失，记作M。数据填充增强问题即是在当前采集的时刻频点范围内，基于当前采集到且未缺失的部分流量数据，学习当前区域内的时频流量分布特征，对整个时频范围内所有缺失点的流量值进行填充，寻找最符合当前缺失点的流量填充值，假设填充生成的流量值(记作/>

)该问题的公式表示为：/>

流量数据填充增强的目标是计算每个缺失流量数据中未观察到的值，填充后的样本根据目标为最大化以缺失数据为条件下，填充符合真实情况的概率，传统方法中填补缺失的数据点仅仅考虑了数据填充的期望值，而不是试图推理模型数据的分布，在面对真实环境中的干扰或噪声影响下的进行流量数据填充增强后，只能得到符合数据规律的误差较大的流量数据填充增强结果。

同时，本发明所使用的联邦学习与补全生成对抗网络的数据增强模型主要由生成器网络、鉴别器网络以及联邦学习框架构成，其中生成器网络在模型参数(即网络中各神经元的权重与偏置)的作用下，基于条件信息，将潜变量样本转换为服从真实流量数据分布的真实样本。缺失流量数据

在输入生成器网络之前，需要利用缺失掩码信息M，与潜变量向量Z进行融合，其中潜变量向量与流量数据维度保持一致，融合数据即可表示为缺失流量与掩码的元素乘叠加掩码反码与潜变量的元素乘，即/>

达到条件信息融合的效果，将合成数据输入生成器网络得到生成数据/>

而鉴别器网络则在模型参数作用下，判断输入样本的每个值是服从真实流量数据分布为真实值，还是由生成器网络通过隐式建模得到的流量值，并给出相应的概率度量，对于生成器的输出数据，输入鉴别器进行判别，得到对于数据真实性的概率判断，即掩码信息的估计值/>

为了保证鉴别器网络能够对流量数据输出的判别能够收敛到当前分布，补全生成对抗网络额外输入一些信息作作为为提示，提示向量记作H，其中包含部分正确的掩码数据判别信息，鉴别器得到的输出即可以表示为：/>

生成对抗网络旨在学习真实数据分布，并采用生成器网络和鉴别器网络相互对抗的训练策略来实现。生成器网络旨在学习数据内在分布，生成数据让鉴别器网络判别为真，而鉴别器网络旨在尽可能不出错的判断数据是否为伪造，两者通过对抗博弈的策略达到缺损流量填充的训练目标。假如具备足够的网络容量，则鉴别器网络和生成器网络可实现动态平衡。此时生成器网络隐性建模得到的分布收敛于真实数据分布，而鉴别器网络不能正确的区分真实样本和模拟样本。

此外，本发明使用的联邦学习框架利用分布式的神经网络训练方法，将生成器网络和鉴别器网络在每一次对抗训练之后的参数保存在本地，并通过逻辑处理中心的联邦服务器，调度各个分布式节点模型训练中保存参数，进行联邦聚合策略，并在完成之后，同步至各个分布式节点模型中。具有联邦学习框架的生成对抗网络训练过程中，每个节点对于本地训练数据的要求较低，在各节点数据较少的情况下，利用联邦学习框架训练，在不调度大量数据的前提下，也能得到生成数据分布收敛于全局数据的生成对抗网络模型。

本发明中，我们将使用所提出的联邦学习与补全生成对抗网络结合的方法，对分散在各基站的历史流量数据的分布特征进行多层收集后的数据挖掘，对流量数据在时频空间关联性进行隐式建模，从而进行更精确的缺失流量数据的填充增强，从而提升流量数据在流量工程中的性能。

实施例一

结合图1，本发明提及一种基于联邦生成对抗网络的流量数据增强方法，所述方法包括：

S104：基于联邦生成对抗网络，分簇将簇内所有基站待补全的流量数据中缺失的部分替换为联邦生成对抗网络输出的流量值，通过批量生成筛选的方式，得到最适合当前缺失流量数据分布的增强填充流量数据。

首先，结合图2，本实施例执行S101步骤：

离线保存每个基站历史采集的各时间点和频点的无线帧监测数据，通过计算每个采集的无线帧的资源占用率，得到各区域各基站的训练用历史流量数据，具体执行流程如下：

步骤1、通过控制各个基站以固定的时间间隔(如10分钟、30分钟或1小时)向流量采集设备发送流量采集请求，采集设备受到请求后，将当前时间点与频段范围内各频点的无线帧，即物理资源块，实时传回存储设备；

步骤2、对上述步骤获得的物理资源块数据进行各频点各时间点的预处理计算，通过读取物理资源块内每个符号对应的用户信息与块内的符号占用情况，计算当前频点与时间点的物理资源块占用率以及对应用户，依次计算得到历史流量数据；

步骤3、对步骤2获得的历史流量数据进行进一步的筛选提取，对于流量采集过程中出现的数据缺失现象，需要对频点和时间点映射到流量数据为空或出现异常值的点进行数据筛选提取，并对出现的缺失数据标记为0；最终，流量数据将展现为频率，时间作为变量到占用率与用户的一种映射关系。

至此，我们已经完成了离线获取基站历史流量数据以及预处理流量数据得到训练集的操作，通过上述步骤处理得到的历史流量数据将输入S102步骤进行数据填充增强训练，结合图3，继续执行S102步骤，基于各区域各基站获取的训练用历史流量数据，进行区域分簇收集，将区域数据集中至区域簇头中；基于收集到的历史流量数据，设置逻辑处理中心，并在逻辑处理中心进行流量数据增强的模型预设，同步中心与分簇的增强模型结构，具体执行流程如下：

步骤1、将整个区域内的所有基站，以一定的方式规划为一系列的分簇。对于每个分簇，设置一个簇头，簇头用于收集分簇内的所有基站的历史缺失流量数据，并保存在簇头本地；

步骤2、对上述步骤中得到的分簇内历史缺失流量数据进行批处理用于后续输入神经网络；

步骤3、对批处理后的分簇内历史缺失流量数据进行归一化，将流量数据的取值范围在0～1内进行展开，且不超过该范围；并对归一化后的流量数据进行固定时隙固定频点的标准化，保证每一条流量数据由确定的频点和时刻映射而来，生成的标准化历史缺失流量数据，保存在簇头本地；

步骤4、根据上述步骤得到的标准化历史缺失流量数据，在逻辑处理中心构造一个缺损流量数据补全生成对抗网络；该生成对抗网络由生成器网络和鉴别器网络构成，生成网络的输出与标准化历史缺失流量数据的维度一致，并且鉴别器网络的输入与标准化历史缺失流量数据维度一致；

步骤5、将上述步骤得到的逻辑处理中心预设的缺损流量补全生成对抗网络复制传输至各个分簇，构建一个与逻辑处理中心结构一致的流量数据补全生成对抗网络，保证区域内所有生成对抗网络结构的一致性。

至此，我们完成了流量数据分簇，联邦控制逻辑处理中心的建立，以及各位置的流量数据增强模型初始化操作，结合图4，随后执行S103步骤，通过逻辑中心调度各个区域簇头，进行基于联邦生成对抗网络流量数据生成增强训练；训练过程中，逻辑中心通过联邦控制器，调度各个分簇进行聚合训练，具体执行流程如下：

步骤1、将上述标准化历史缺失流量数据进行预处理，生成相应的掩码数据，缺损数据位置标记为0，有数据位置标记为1，对数据缺失点进行随机变量填充，将标准化历史缺失流量数据作为条件信息与随机潜变量进行融合，生成分簇训练历史缺失流量数据；

步骤2、对经过预处理与随机填充后的分簇训练历史缺失流量数据，输入各分簇已建立好的，具有信息提示机制和独立数据点判别能力的缺损流量数据补全生成对抗网络中进行训练，在该生成对抗网络的每一轮训练结束之后，将模型参数保存在簇头本地。流量数据补全条件生成对抗网络采用信息提示矩阵，为鉴别器网络提供部分数据点是由生成器网络得到或是真实数据的信息，所述的鉴别器网络输出的内容是对每个数据点进行真实或伪造的判别，除随机变量以及真实和伪造数据输入生成器网络与鉴别器网络外，还有其他的已知条件信息作为输入数据；

步骤3、对上述步骤中缺损流量数据补全生成对抗网络每一轮训练得到的模型参数进行聚合，将生成对抗网络参数传输至逻辑处理中心，逻辑处理中心收到模型参数之后，采用联邦平均的策略对收集到的模型参数进行处理，最后将处理好的联邦模型参数同步给每一个簇头进行下一步训练；

步骤4、根据逻辑处理中心每一次训练的联邦模型参数相对误差进行缺损流量数据补全生成对抗网络的收敛判别，若未达到收敛，继续执行联邦聚合调度；若达到收敛，则停止继续调度参数，并终止分簇的缺损流量数据补全生成对抗网络训练，执行最后一次的生成对抗网络联邦同步，保存当前的流量数据填充增强生成对抗网络模型。

至此，我们已经完成联邦学习与补全生成对抗网络结合的流量数据增强模型训练，并得到了学习后的流量数据增强模型。结合图5，执行S104步骤：基于分簇网络训练模块中得到的训练完成的流量填充增强生成对抗网络模型，执行流量数据填充增强环节，分簇将簇内所有基站待补全的流量数据中缺失的部分替换为当前网络生成输出的流量值，具体执行流程如下：

步骤1、对于单条待增强的缺损流量数据，进行一定次数的复制；

步骤2、对上述步骤中复制后的一批流量数据，进行流量缺失点的随机变量填充，将带增强流量数据作为条件信息与随机潜变量进行融合；

步骤3、基于联邦学习训练得到的联邦生成对抗网络模型，对上述步骤得到的批量随机填充融合数据，进行缺损流量数据的填充增强；在填充单元中得到的批量随机填充数据进行输入，补全生成对抗网络将缺损流量数据作为条件信息，进行一批随机填充后的部分缺失流量的流量数据增强，并替换待增强缺失流量数据中流量缺失点的部分，生成增强随机填充流量数据；

步骤4、对于上述步骤得到的增强随机填充流量数据，基于鉴别器的判别准确度和生成数据与原始数据的相对误差，筛选出最适合当前流量数据分布的增强数据。

本实施例中，离线获取区域内基站中无线通信产生的无线帧数据，基于原始数据进行计算得到流量数据，基于基站分布构造分簇和逻辑处理中心，逻辑中心通过调度各个分簇基于本地缺损流量数据进行补全生成对抗网络训练，在训练环节中，利用联邦学习调度各分簇执行参数聚合同步，在不交换数据的前提下，得到已学到全局流量数据分布规律的缺损流量数据填充增强生成对抗网络模型，并对基站中待填充增强的缺损流量进行生成填充。可以在训练数据有限且数据交互较少的情况下对缺损流量数据进行填充增强，有效提升流量数据在后续流量工程任务中的性能。

实施例二

结合图6，本发明提及一种基于联邦生成对抗网络的流量数据增强装置，该装置包括：

离线数据采集模块601、分簇数据处理模块602、分簇网络训练模块603、联邦学习控制模块604、流量数据增强模块605，其中：

离线数据采集模块601：用于离线保存每个基站历史采集的各时间点和频点的无线帧监测数据，通过计算每个采集的无线帧的资源占用率，得到各区域各基站的训练用历史流量数据；经过预处理后，流量数据将展现为频率，时间作为变量到占用率与用户或缺损的占用率数据的一种映射关系。

分簇数据处理模块602：用于将分散在各个基站的流量数据统一收集至按照区域基站分布情况划分的分簇中，通过将分散数据集中后进行数据统一数据归一化等处理，将历史流量数据进行标准化，用于后续的流量数据增强模型训练。

分簇网络训练模块603：用于对分簇内的历史缺损流量数据，进行基于补全生成对抗网络的迭代式的对抗训练，分簇响应逻辑处理中心的联邦学习控制模块的控制响应，进行本地模型训练过程的参数传递和回传同步过程。

联邦学习控制模块604：用于调度区域内所有分簇的填充增强生成对抗网络基于分簇本地的历史缺损流量数据进行训练，控制训练过程中的分簇参数调度以及聚合同步；模块搭载于逻辑处理中心，聚合各分簇的流量数据增强模型参数，得到学习过区域内全局流量数据特征的流量数据增强模型。

流量数据增强模块605：基于分簇网络训练模块中得到的训练完成的流量填充增强生成对抗网络模型，分簇将簇内所有基站待补全的流量数据中缺失的部分替换为当前网络生成输出的流量值，通过批量生成筛选的方式，得到最适合当前缺损流量数据分布的增强后的流量数据。

进一步的，所述离线数据采集模块601还包括：

流量数据采集单元6011：以固定的时间间隔(如10分钟、30分钟或1小时)向流量采集设备发送流量采集请求，采集设备受到请求后，将当前时间点与频段范围内各频点的无线帧，即物理资源块，实时传回基站中的存储设备。

流量数据清洗单元6012：对实时采集的物理资源块进行各频点各时间点的预处理计算，通过读取物理资源块内每个符号对应的用户信息与块内的符号占用情况，计算当前频点与时间点的物理资源库块占用率以及对应用户；对得到的历史流量数据历进行进一步的筛选提取，针对流量采集过程中出现的数据缺失现象，对缺失位置标记为0。

流量数据分簇单元6013：对整个区域内的所有基站，以一定的方式规划为一系列的分簇；并且对于每个分簇，设置一个簇头，所有基站将本地流量数据传输至区域内的对应分簇，并保存在簇头本地。

进一步的，所述分簇数据处理模块602还包括：

标准化单元6021：对流量数据分簇单元中得到的簇内历史流量数据进行批处理用于后续输入神经网络。随后，进行数据归一化，将流量数据的取值范围在0～1内进行展开，且不超过该范围；对得到的历史缺损流量数据进行固定时隙固定频点的标准化，保证每一条流量数据由确定的频点和时刻映射而来，缺损数据标记为空。

分簇数据存储单元6022：用于批量存储标准化后的历史缺损流量数据，准备传输至分簇网络训练模块进行处理。

进一步的，所述分簇网络训练模块603还包括：

网络结构同步单元6031：在分簇本地构建缺损流量数据补全生成对抗网络，保证区域内所有生成对抗网络结构的一致性，将逻辑处理中心的增强模型复制至本地，构建一个与逻辑中心结构一致的流量数据补全生成对抗网络，实现网络结构同步。

预处理单元6032：对分簇采集单元中得到的簇内历史流量数据进行批处理随后，进行数据归一化，将流量数据的取值范围在0～1内进行展开，且不超过该范围；对得到的历史缺损流量数据进行固定时隙固定频点的标准化，保证每一条流量数据由确定的频点和时刻映射而来，缺损数据标记为空；依据标记的数据，生成相应的掩码数据，对于缺损的位置标记为0，有数据的位置标记为1。

第一随机填充单元6033：对于预处理后的缺损数据，进行缺失点的随机变量填充，将现有数据作为条件信息与随机潜变量进行融合。

模型训练单元6034：对经过预处理与随机填充后的分簇训练用历史流量数据，输入各分簇已建立好的流量数据补全生成对抗网络进行训练，在生成对抗网络的每一轮训练结束之后，将模型参数保存在分簇模型存储单元中；随时准备接受联邦学习控制模块的联邦聚合调度信息，接收到调度请求后，将当次迭代下的模型参数传递至联邦学习控制模块。其中：信息提示机制是指在网络训练中，采用信息提示矩阵，为鉴别器提供部分数据点是由生成器得到或是真实数据，具有独立数据点判别能力是指该鉴别器网络输出的内容是对每个数据点进行真实或伪造的判别，缺损数据补全条件生成对抗网络是指，除随机变量以及真实和伪造数据输入生成器与鉴别器外，还有其他的已知条件信息作为输入。

分簇模型存储单元6035：对流量数据增强训练单元中每一轮训练得到的模型参数进行保存，随时接受联邦学习控制模块的参数同步数据，收到模型参数同步数据和请求后，将逻辑处理中心的模型参数覆盖当前分簇的模型参数。

进一步的，所述联邦学习控制模块604还包括：

模型预设单元6041：根据标准化的流量数据，在逻辑处理中心构造一个缺损流量数据补全生成对抗网络，该网络由生成器网络和鉴别器网络构成，生成网络的输出与流量数据的维度一致，并且鉴别器网络的输入与流量数据维度一致；将增强模型复制传输至各个分簇，构建一个与逻辑处理中心结构一致的流量数据补全生成对抗网络，保证区域内所有生成对抗网络结构的一致性。

模型存储单元6042：进行模型建立后的模型参数初始化，并且保存每次联邦学习后，参数聚合同步的补全生成对抗网络模型及参数。

联邦聚合同步控制单元6043：在分簇的网络训练过程中，每隔一段时间一定迭代次数后，向分簇网络训练模块传输补全生成对抗网络的参数聚合请求，调度分簇补全生成对抗网络的参数。

参数聚合单元6044：收到每个分簇的补全生成对抗网络模型参数后，采用联邦聚合的方式，对于模型的每一个参数用求平均的方式进行参数的融合。

参数同步单元6045：将聚合后的模型参数传递至需要进行同步的分簇网络，覆盖对应分簇的原有本地网络参数；并将聚合后的模型及参数保存至模型存储单元。

进一步的，所述流量数据增强模块605还包括：

待增强数据存储单元6051：存储各基站中需要进行流量数据填充增强的历史缺损流量数据。

批量复制单元6052：对于单条待增强数据，进行一定次数的复制，用于后续的批量训练，筛选更好的增强结果。

第二随机填充单元6053：对于当前待增强的缺损流量数据，进行缺失点的随机变量填充，将现有数据作为条件信息与随机潜变量进行融合；该缺损数据在单元内进行一定次数的随机填充，后续进行批量增强处理。

批量增强单元6054：对分簇本地训练得到的中心生成对抗网络模型，进行缺损流量数据的填充增强；在填充单元中得到的批量随机填充数据进行输入，补全生成对抗网络将缺损流量数据作为条件信息，进行一批随机填充后的部分缺失流量的流量数据增强，并替换原历史流量数据中缺失的部分，实现流量数据的填充增强。

筛选单元6055：对于一条缺损流量的一批增强后流量数据，基于鉴别器的判别准确度和生成数据与原始数据的相对误差，筛选出最适合当前流量数据分布的增强数据。

本实施例的基于联邦生成对抗网络的流量数据增强装置可以执行图1所示方法的实施例的技术方案，其实现原理类似，在此不再赘述。

本实施例中，通过所提出频谱态势或场强补全装置说明，对具有实施例背景和特点的缺损流量数据到的填充增强问题进行解决，可以在训练数据有限且数据交互较少的情况下对缺损流量数据进行填充增强，有效提升流量数据在后续流量工程任务中的性能。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于联邦生成对抗网络的流量数据增强方法，包括以下几个步骤：

S101：离线保存每个基站历史采集的各时间点和频点的无线帧监测数据，通过计算每个采集的无线帧的资源占用率，得到各区域各基站的历史流量数据，每组训练数据由基站当前时间点和频点下的物理资源块占用情况组成，经过预处理后，所述的历史流量数据展现为频率、时间作为变量到资源占用率与用户的一种映射关系；

2.根据权利要求1所述的一种基于联邦生成对抗网络的流量数据增强方法，其特征在于，所述的步骤S101包括以下步骤：

S11，各个基站中的控制服务器以固定的时间间隔向流量采集设备发送流量采集请求，所述的固定的时间间隔为时隙，流量采集设备收到流量采集请求后，采集当前时间点与频段范围内各频点的无线帧，设置为物理资源块，实时传回存储设备；

3.根据权利要求1所述的一种基于联邦生成对抗网络的流量数据增强方法，其特征在于，所述的步骤S102包括以下步骤：

S21，将区域内的所有基站以分簇进行划分，每个分簇设置一个簇头，所述的簇头用于收集分簇内所有基站的历史缺失流量数据，并保存在簇头本地；

S24，根据步骤S23中得到的标准化历史缺失流量数据，在逻辑处理中心构造一个缺损流量数据补全生成对抗网络，所述的缺损流量数据补全生成对抗网络由生成器网络和鉴别器网络构成，生成器网络的输出与标准化历史缺失流量数据的维度一致，鉴别器网络的输入与标准化历史缺失流量数据维度一致；

4.根据权利要求1所述的一种基于联邦生成对抗网络的流量数据增强方法，其特征在于，所述的步骤S103包括以下步骤：

S32，将步骤S31中的分簇训练历史缺失流量数据输入各分簇已建立的缺损流量数据补全生成对抗网络中进行训练，缺损流量数据补全生成对抗网络的每一轮训练结束之后，训练模型参数均保存在簇头本地；所述的流量数据补全条件生成对抗网络采用信息提示矩阵，为鉴别器网络提供部分数据点是由生成器网络得到或是真实数据的信息，所述的鉴别器网络输出的内容是对每个数据点进行真实或伪造的判别，除随机变量以及真实和伪造数据输入生成器网络与鉴别器网络外，还有其他的已知条件信息作为输入数据；

5.根据权利要求1所述的一种基于联邦生成对抗网络的流量数据增强方法，其特征在于，所述的步骤S104包括以下步骤：

6.使用如权利要求1-5任一所述的基于联邦生成对抗网络的流量数据增强方法的装置，包括离线数据采集模块、分簇数据处理模块、联邦学习控制模块和流量数据增强模块，

所述的离线数据采集模块：离线保存每个基站历史采集的各时间点和频点的无线帧监测数据，通过计算每个采集的无线帧的资源占用率，得到各区域各基站的历史流量数据，每组训练数据由基站当前时间点和频点下的物理资源块占用情况组成，经过预处理后，所述的历史流量数据展现为频率、时间作为变量到资源占用率与用户的一种映射关系，离线数据采集模块与分簇数据处理模块信号连接；

所述的分簇数据处理模块：基于各区域各基站获取的训练用历史流量数据，进行区域分簇收集，将区域数据集中至区域簇头中；基于收集到的历史流量数据，设置逻辑处理中心，并在逻辑处理中心进行缺损流量数据补全生成对抗网络预设，同步分簇的缺损流量数据补全生成对抗网络与逻辑处理中心保持一致，分簇数据处理模块与联邦学习控制模块信号连接；

所述的联邦学习控制模块：通过逻辑处理中心调度各个分簇簇头，采用联邦平均策略，调度各个分簇的缺损流量数据补全生成对抗网络进行聚合训练，将聚合训练后的联邦生成对抗网络进行同步保存，联邦学习控制模块与流量数据增强模块信号连接；

所述的流量数据增强模块：基于联邦生成对抗网络，分簇将簇内所有基站待补全的流量数据中缺失的部分替换为联邦生成对抗网络输出的流量值，通过批量生成筛选的方式，得到最适合当前缺失流量数据分布的增强填充流量数据。

7.根据权利要求6所述的基于联邦生成对抗网络的流量数据增强方法的装置，其特征在于，所述的离线数据采集模块包括以下单元：

流量数据采集单元：各个基站中的控制服务器以固定的时间间隔向流量采集设备发送流量采集请求，所述的固定的时间间隔为时隙，流量采集设备收到流量采集请求后，采集当前时间点与频段范围内各频点的无线帧，设置为物理资源块，实时传回存储设备，流量数据采集单元与流量数据清洗单元信号连接；

8.根据权利要求6所述的基于联邦生成对抗网络的流量数据增强方法的装置，其特征在于，所述的分簇数据处理模块包括以下单元：

流量数据分簇单元：将区域内的所有基站以分簇进行划分，每个分簇设置一个簇头，所述的簇头用于收集分簇内所有基站的历史缺失流量数据，并保存在簇头本地，流量数据分簇单元与标准化单元信号连接；

分簇模型预设单元：接收逻辑处理中心构造的缺损流量数据补全生成对抗网络，所述的缺损流量数据补全生成对抗网络由生成器网络和鉴别器网络构成，生成器网络的输出与标准化历史缺失流量数据的维度一致，鉴别器网络的输入与标准化历史缺失流量数据维度一致，将逻辑处理中心设置的缺损流量数据补全生成对抗网络复制传输至各个分簇，在每个分簇构建与逻辑处理中心结构一致的缺损流量数据补全生成对抗网络，保证区域内所有缺损流量数据补全生成对抗网络结构具备一致性，分簇模型预设单元与分簇模型调度存储单元信号连接；

9.根据权利要求6所述的基于联邦生成对抗网络的流量数据增强方法的装置，其特征在于，所述的联邦学习控制模块包括以下单元：

联邦模型预设单元：根据分簇数据存储单元中的标准化历史缺失流量数据，在逻辑处理中心构造一个缺损流量数据补全生成对抗网络，所述的缺损流量数据补全生成对抗网络由生成器网络和鉴别器网络构成，生成器网络的输出与标准化历史缺失流量数据的维度一致，鉴别器网络的输入与标准化历史缺失流量数据维度一致；将逻辑处理中心设置的缺损流量数据补全生成对抗网络复制传输至各个分簇，在每个分簇构建与逻辑处理中心结构一致的缺损流量数据补全生成对抗网络，保证区域内所有缺损流量数据补全生成对抗网络结构具备一致性，联邦模型预设单元与预处理随机填充单元信号连接；

模型训练单元：将分簇训练历史缺失流量数据输入各分簇已建立的缺损流量数据补全生成对抗网络中进行训练，缺损流量数据补全生成对抗网络的每一轮训练结束之后，训练模型参数均保存在簇头本地；所述的流量数据补全条件生成对抗网络采用信息提示矩阵，为鉴别器网络提供部分数据点是由生成器网络得到或是真实数据的信息，所述的鉴别器网络输出的内容是对每个数据点进行真实或伪造的判别，除随机变量以及真实和伪造数据输入生成器网络与鉴别器网络外，还有其他的已知条件信息作为输入数据，模型训练单元与联邦模型调度存储单元信号连接；

10.根据权利要求6所述的基于联邦生成对抗网络的流量数据增强方法的装置，其特征在于，所述的流量数据增强模块包括以下单元：