CN110890978A

CN110890978A - 基于模型重用的带隐私保护的跨区域通信质量预测方法

Info

Publication number: CN110890978A
Application number: CN201911073555.8A
Authority: CN
Inventors: 周志华
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-03-17
Anticipated expiration: 2039-11-06
Also published as: CN110890978B

Abstract

本发明公开一种基于模型重用的带隐私保护的跨区域通信质量预测方法，包括多区域数据采集步骤、模型训练步骤、模型规约计算步骤、模型及对应规约上传步骤、新区域部署及测试步骤；首先在不同区域分别收集通信数据，训练通信质量预测模型；然后计算得出适用于描述该模型能力的规约，并将训练完成的模型和对应的规约上传至区域间公开可见的模型库中；最后在新的区域上，可以直接通过对无标记数据与模型库中多模型规约的匹配，找到最适合预测当前用户通信质量的模型进行预测，从而完成对通信质量评价收集困难的新区域的预测。本发明可以解决多区域之间有用户数据隐私保护需求，不能共享数据辅助新区域模型训练的难点，实现预训练模型中蕴含知识的针对性重用，具有广泛的适用性。

Description

基于模型重用的带隐私保护的跨区域通信质量预测方法

技术领域

本发明涉及一种可保护各区域数据隐私的跨区域通信质量预测方法，具体是一种基于模型重用的带隐私保护的跨区域通信质量预测方法，属于通信技术领域。

背景技术

在通信领域，通信质量是服务于用户的重要目标。随着通信技术的发展，通信科学家和工程师们设计了许多改善通信质量的技术，其中许多已经逐步部署在通讯基站中并取得成功。然而，受自然条件、用户习惯等因素影响，一项改良技术在不同区域中对通信质量的提升程度不同。另一方面，部署新技术通常涉及对原有基站软硬件的改造升级，其中特别是硬件升级需要大量人力物力的投入。结合两方面，具体是否需要在某区域部署改良技术，需要评估部署之后的通信质量提升，来判断耗费升级成本能否取得经济效益。

在已有许多区域部署某项技术的情况下，可以收集到该区域的通信数据。但是在严格的隐私保护规定下，这些与实际用户密切相关的数据通常不能共享给其它区域。这给使用迁移学习技术或领域自适应技术带来了困难。这些已有技术通常需要两个区域或甚至多个区域之间共享数据才能运行。因此，在跨区域通信质量预测应用场景中需要一种保护隐私的机器学习技术。

发明内容

发明目的：针对以往的迁移学习技术依赖于区域之间数据共享，而现实环境中这些区域之间不能暴露敏感的用户数据的问题，本发明提供一种基于模型重用的，可保护隐私的跨区域通信质量预测方法。

技术方案：一种基于模型重用的带隐私保护的跨区域通信质量预测方法，由于其涉及多个有标记数据区域(称为已部署区域)和一个新区域，需要已部署区域完成多项步骤后上传预训练模型和模型规约至模型库，新区域在同时观察到未标记数据和访问模型库的条件下按一定步骤完成预测。

所述已部署区域步骤具体为：

步骤100，收集有标记的用户通信数据，标记为每个用户的通信质量；

步骤101，使用用户通信数据训练机器学习模型M，以在本区域内实现对通信质量的预测；

步骤102，使用用户通信数据及模型M计算规约S；

步骤103，上传模型及规约(M,S)至模型库。

至此已部署区域的流程结束。需要注意的是以上流程描述了单个区域的计算步骤，由于本问题可能涉及多个区域，应当在每个区域都完成以上流程，使得模型库中含有不同区域的模型时，再开始新区域的预测步骤。

所述新区域步骤具体为：

步骤200，收集未标记的用户通信数据；

步骤201，使用用户通信数据确定需求R；

步骤202，使用需求R与模型库中每个预训练模型对应的规约S进行匹配，寻找符合需求的一个或多个模型M。

步骤203，在规约S的指导下使用模型M，对用户数据进行预测。

针对本发明中模型M，规约S和需求R的说明：

在本发明中，预训练模型M的灵活性较大，可以是任意的形式的预测模型，如线性模型，支持向量机，神经网络等等。只需要能够对已部署区域内数据进行较为准确的预测即可。

规约S和需求R的实现方式根据不同的模型M和用户数据结构可能有多种实现。规约实现的核心是应在保护单个用户隐私的情况下充分反映用户数据集合整体的统计信息(从保护用户隐私的角度，至少不应该包含任何一条原始用户的数据。从反映用户数据集合整体信息角度，至少应该可用于估计出群体均值、方差等基本统计量。后者的具体要求和新区域的使用算法很有关系。)，以及模型适用范围的信息。需求应根据规约的实现方式进行对应设计，从而实现新区域上的检索及匹配。

有益效果：与现有技术相比，本发明所提供的基于模型重用的带隐私保护的跨区域通信质量预测方法，可以解决区域间用户通信数据不能互通的问题，使得有标记数据区域的预训练模型可以有选择地被新区域使用，并且在实施过程中广泛适用于多种预训练模型，能够解决分类或回归问题。

附图说明

图1为本发明实施例的已部署新技术区域的流程图；

图2为本发明实施例的规约计算流程图；

图3为本发明实施例的未部署待测新技术区域的流程图；

图4为本发明实施例的进行规约指导的预测流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

下面的实施例以4G信号通信质量预测为具体例子进行阐述，已部署新技术区域有A、B、C三个，未部署区域设为D。通信数据的特征包括时间戳、覆盖用户数量、业务负载、业务内容等。已部署区域A/B/C相比于未部署新区域D可以额外观察到用户通信质量。我们的目的是，在保护三个已部署区域的用户数据的前提下，重用已部署区域中预训练模型的知识，用于新区域D内用户通信质量的预测。

如图1所示，进行已部署区域流程。假设在区域A进行。首先开始收集用户数据(步骤10)，之后根据获得的有标记用户通信数据，训练简单的线性岭回归模型M，输入是用户特征，输出是该用户的通信质量(步骤11)。然后根据用户通信数据和训练完成的模型M计算规约S(步骤12，具体计算过程随后详述)。规约计算完成后，将模型和规约上传至模型库(步骤13)。在区域B/C上的流程与区域A一致。

如图2所示，进行规约计算流程。首先根据有标记用户通信数据确定特征维度和语义(步骤20)，再确定标记维度及语义(步骤21)，特征维度和语义以及标记维度和语义作为元数据的一部分，用于新区域匹配时，找到符合的维度和语义的其它基站数据，因为有些基站的数据维度不同，此处我们假设标记为一维正实数(也可以是多维的，如果通信质量有多个指标，预训练模型将是多标记输出，新区域也可以重用这些模型。)，因此该问题为单变量回归问题，所有元数据(特征/标记维度和语义)用I进行表示和存储，即I表示所有元数据的集合。使用步骤11中训练得到的岭回归模型M，在用户数据的验证集上检验回归性能指标均方误差(MSE)作为模型性能L(步骤22)，在用户数据上使用缩约核均值嵌入(ReducedKernel Mean Embedding)技术计算得到缩略集K(步骤23)。最后，将I,L,K三者的元组作为规约S输出，作为步骤12中计算规约的结果。

按以上流程即可在模型库中添加(M_A,S_A),(M_B,S_B),(M_C,S_C)三组不同的模型规约对。之后我们如图3所示进行新区域预测流程。首先收集未标记用户通信数据(步骤30)，随后确定需求R(步骤31)，需求中包括该新区域的元数据匹配程度和所要求预训练模型性能优于指定值。为保持与规约对应，此处我们认为满足需求的条件为元数据完全一致，模型性能要求为MSE小于0.001。之后在模型库中进行需求检索，我们假设模型库中的三个模型均满足元数据一致的需求，但规约S_C显示对应模型MSE＝0.01大于需求描述中的性能，因此仅有区域A、B的模型符合需求(步骤32)。随后我们使用规约中的缩略集对新区域数据进行样本分配和预测(步骤33，具体计算过程随后详述)。

如图4所示，进行规约指导的预测流程。首先计算每个满足需求的预训练模型在新区域的权重(步骤40)，得到权重向量W。然后考察是否仍有未预测样本(步骤41)，如已预测完则结束退出(步骤45)，否则取出单个样本，计算规约中每个核均值嵌入函数在该样本上的值(步骤42)，并与模型权重向量W相乘加权后得到竞争力指标(步骤43)。最后取竞争力指标最大的预训练模型对该样本进行预测(步骤44)。

Claims

1.一种基于模型重用的带隐私保护的跨区域通信质量预测方法，其特征在于：由于方法涉及多个有标记数据区域和一个新区域，所述有标记数据区域称为已部署区域，需要已部署区域完成多项步骤后上传预训练模型和模型规约至模型库，新区域在同时观察到未标记数据和访问模型库的条件下完成预测。

2.如权利要求1所述的基于模型重用的带隐私保护的跨区域通信质量预测方法，其特征在于，所述已部署区域步骤具体为：

步骤102，使用用户通信数据及模型M计算规约S；

步骤103，上传模型及规约(M,S)至模型库。

3.如权利要求2所述的基于模型重用的带隐私保护的跨区域通信质量预测方法，其特征在于，已部署区域步骤描述了单个区域的计算步骤，如果方法涉及多个区域，应当在每个区域都完成以上流程，使得模型库中含有不同区域的模型时，再开始新区域的预测步骤。

4.如权利要求1所述的基于模型重用的带隐私保护的跨区域通信质量预测方法，其特征在于，所述新区域步骤具体为：

步骤200，收集未标记的用户通信数据；

步骤201，使用用户通信数据确定需求R；

步骤202，使用需求R与模型库中每个预训练模型对应的规约S进行匹配，寻找符合需求的一个或多个模型M；

5.如权利要求2所述的基于模型重用的带隐私保护的跨区域通信质量预测方法，其特征在于，进行规约计算流程为：首先根据有标记用户通信数据确定特征维度和语义，再确定标记维度及语义，特征维度和语义及标记维度和语义作为元数据的一部分，用于新区域匹配时，找到符合的维度和语义的其它基站数据，因为有些基站的数据维度不同，设标记为一维正实数，所有元数据用I进行表示和存储，即I表示所有元数据的集合；使用训练得到模型M，在用户数据的验证集上检验回归性能指标均方误差(MSE)作为模型性能L，在用户数据上使用缩约核均值嵌入技术计算得到缩略集K；最后，将I,L,K三者的元组作为规约S输出，作为规约的计算结果；

按以上流程即可在模型库中添加(M_A,S_A),(M_B,S_B),(M_C,S_C)三组不同的模型规约对。

6.如权利要求5所述的基于模型重用的带隐私保护的跨区域通信质量预测方法，其特征在于，如果通信质量有多个指标，标记是多维的实数，预训练模型将是多标记输出，新区域也可以重用这些模型。

7.如权利要求3所述的基于模型重用的带隐私保护的跨区域通信质量预测方法，其特征在于，进行新区域预测流程：首先收集未标记用户通信数据，随后确定需求R，需求中包括该新区域的元数据匹配程度和所要求预训练模型性能优于指定值；为保持与规约对应，此处认为满足需求的条件为元数据完全一致，模型性能要求为MSE小于0.001；之后在模型库中进行需求检索，找出符合需求的模型；随后使用规约中的缩略集对新区域数据进行样本分配和预测。

8.如权利要求7所述的基于模型重用的带隐私保护的跨区域通信质量预测方法，其特征在于，使用规约中的缩略集对新区域数据进行样本分配和预测的流程为：首先计算每个满足需求的预训练模型在新区域的权重，得到权重向量W；然后考察是否仍有未预测样本，如已预测完则结束退出，否则取出单个样本，计算规约中每个核均值嵌入函数在该样本上的值，并与模型权重向量W相乘加权后得到竞争力指标；最后取竞争力指标最大的预训练模型对该样本进行预测。