CN112153650A

CN112153650A - 一种无线网络中基于终端信誉的可靠联邦学习方法及系统

Info

Publication number: CN112153650A
Application number: CN202010898028.7A
Authority: CN
Inventors: 孙红光; 宋振东; 李书琴; 张宏鸣; 徐超
Original assignee: Northwest A&F University
Current assignee: Northwest A&F University
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-29
Anticipated expiration: 2040-08-31
Also published as: CN112153650B

Abstract

本发明属于无线通信技术领域，公开了一种无线网络中基于终端信誉的可靠联邦学习方法及系统，通过Beta函数对用户进行信誉建模，令基站构建所有与之关联用户的信誉表，并初始化联邦学习的其他相关参数；在每一轮次的终端用户训练完成后，根据用户信誉公平地选择部分用户与基站进行交互，排除较差信誉用户被调度的可能，同时采用一种公平的策略防止高信誉的用户被过度调度。在基站处根据用户信誉值的比重将本地模型参数按照一定比例进行聚合，并根据当前用户的行为和信道质量更新用户信誉。本发明合理有效地调度更多终端用户参与联邦学习过程，克服了无线网络中信道资源的限制，避免造成资源浪费的问题，极大提升了联邦学习效率和性能。

Description

一种无线网络中基于终端信誉的可靠联邦学习方法及系统

技术领域

本发明属于无线通信技术领域，尤其涉及无线网络中基于终端信誉的可靠联邦学习方法及系统。

背景技术

目前，下一代计算网络将从传统的云计算设置(在数据中心聚合计算资源) 到边缘计算系统发生模式转变，该边缘计算系统将计算能力主要部署到网络边缘，以满足需要非常高带宽的应用程序的需求低延迟，以及仅通过不可靠的网络连接即可支持资源受限的节点。随着机器学习(Machine Learning,ML)的蓬勃发展，人们期望通过利用边缘节点(通常是接入点)的计算能力，未来的网络将能够利用本地数据对许多活动进行智能推理和控制，例如，学习手机用户的活动，通过可穿戴设备预测健康事件或检测智能家居中的盗窃事件。由于终端设备每天生成的数据量巨大，并且计算能力不断提高，现在越来越关注在终端设备上共享私有数据，因此直接在终端用户(UE)上进行学习变得更具有吸引力。为此，出现了一种新的机器学习模型，即联邦学习(Federated Learning, FL)，该模型允许在中央基站(BS)上将数据采集和计算解耦。具体来说，联邦学习系统通过重复以下过程来优化全局模型：i)终端用户用自己的数据执行本地计算，以最小化预先确定的经验风险函数并向中央基站更新训练后的权重； ii)中央基站收集来自终端用户的更新并咨询联邦学习单元以产生改进的全局模型，并且iii)将联邦学习模型的输出重新分配给终端用户，之后终端用户再使用全局模型作为参考来进行进一步的本地训练。以这种方式，中央基站能够在不牺牲其私密性的情况下，从存储在大量终端用户中的数据训练统计模型。因此，联邦学习宣称该试验具有更智能的模型，更低的延迟和更低的功耗，同时还确保了隐私。这些特性使联邦学习成为未来智能网络中最有前途的技术之一。

尽管如此，要使联邦学习成为可能，就需要应对新的挑战，这些挑战要求与分布式优化设计的标准方法有根本性的差异。特别是，在传统的机器学习系统中，算法在大型数据集上运行，该大型数据集在云中的多个服务器之间均匀地划分，而联邦学习通常是通过由大量非独立且由不同分布生成的数据集来训练跨不同终端的用户。同样重要的是在参数更新阶段可能发生的事情：虽然在联邦学习上运行的迭代算法需要非常低的延迟和计算单元之间的高吞吐量连接，但是中央基站通常需要通过资源受限的频谱连接大量终端用户，因此每个全局聚合仅允许有限数量的终端用户通过不可靠的信道发送经过训练的权重。为了成功部署联邦学习，要求模型训练不能直接访问原始数据，且通讯成本是一个限制因素。

目前的现有的联邦学习解决方案几乎都是假定联邦学习运行在理想的无线网络中。虽然这样的联邦学习解决方案能够在理想情况下很方便地解决问题，但在其实际运行过程中，无线网络中的联邦学习过程仍然容易受到各种各样的攻击。也就是说，在联邦学习过程中，数据所有者可能通过有意或无意的行为误导全局模型。对于故意行为，攻击者可以发送恶意更新，即中毒攻击，影响全局模型参数，导致当前协作学习失败，且现有的防御措施对此类攻击是无效的。此外，无线网络不可靠的环境因素也会间接地导致数据所有者的一些无意行为，从而对联邦学习产生不利影响。因此，对于联邦学习来说，防止这种有意或无意地不可靠的本地模型更新是至关重要的。

通过上述分析，现有技术存在的问题及缺陷为：现有技术大多是理想情况下无线网络中联邦学习的解决方案，但在实际应用中，由于恶意用户的数据中毒攻击或不可靠网络传输所导致的全局模型被误导的问题通过现有技术还无法有效解决。

解决以上问题及缺陷的难度为：为了解决现有技术中存在的问题，需要在制定解决方案时考虑到实际应用中恶意用户的中毒攻击情况，与此同时，还应考虑无线网络的资源限制和信道不可靠性等具体问题。为此，需要制定一种信誉模型来衡量联邦学习中终端用户提供的数据信息的可靠程度。在此基础上，还需要提出一种高效的无线网络中可靠联邦学习的调度策略以解决无线网络传输的弊端，并提升联邦学习的效率。

解决以上问题及缺陷的意义为：通过对联邦学习的终端用户进行信誉建模，可以有效衡量用户的可靠程度，及时发现并标识恶意用户，以此减少恶意用户和不可靠更新对联邦学习的影响；在信誉模型的基础上，通过公平可靠的调度策略合理有效地调度更多用户参与全局模型的聚合，在克服无线网络传输的弊端的同时，提高联邦学习的效率。

发明内容

针对现有技术存在的问题，本发明提供了一种无线网络中基于终端信誉的可靠联邦学习方法及系统。

本发明是这样实现的，一种无线网络中基于终端信誉的可靠联邦学习方法，所述无线网络中基于终端信誉的可靠联邦学习方法包括：

通过Beta函数对用户进行信誉建模，令基站构建所有与之关联用户的信誉表，并初始化联邦学习的其他相关参数；

在每一轮次的终端用户训练完成后，根据用户信誉公平地选择部分用户与基站进行交互，排除较差信誉用户被调度的可能，同时采用一种公平的策略防止高信誉的用户被过度调度。

在基站处根据用户信誉值的比重将本地模型参数按照一定比例进行聚合，并根据当前用户的行为和信道质量更新用户信誉。

进一步，所述无线网络中基于终端信誉的可靠联邦学习方法具体包括：

步骤一：构建信誉模型，信誉模型的理论基础是贝叶斯函数，将用户信誉假设成一个概率分布，使用对用户行为的观测结果以及用户信誉的先验概率，通过贝叶斯函数计算出用户信誉的后验概率，用公式表示如下：

以Beta信誉系统为基础，利用Beta函数给用户进行信誉建模，Beta函数通过Gamma函数表示如下：

其中0≤x≤1，a＞0，b＞0；

在Beta信誉系统中，将用户的行为表示成二元形式，并基于二元形式对用户的观测行为作出以下判断：正向行为和负向行为；用户和基站一共进行过 m+n次交互，且其中m次被基站判定为正向行为，n次被判为负向行为，在信誉初始化还没有任何先验参考的时候，将用户的先验信誉表示为一个(0，1)上的均匀分布，表示如下：

P(θ)＝uni(0，1)＝Beta(1，1)

建立用户的信誉模型如下：

用户i的信誉被描述为：

R_i＝Beta(a_i+1，b_i+1)

其中a_i和b_i分别表示用户的正向行为和负向行为，基站使用一个简单的二元组(a_i，b_i)存储用户的信誉；

利用概率分布的期望表示信誉值，作为基站对用户信誉衡量的一个数值化的尺度，将用户i的信誉值表示如下：

步骤二：根据用户信誉公平地选择部分用户与基站进行交互；

在终端用户与中心基站进行交互的每个通信轮次，根据用户的信誉值的高低选择部分用户进行调度并加入全局模型的聚合，共有K个用户，由于通信资源的限制最多只能传输N个用户的本地模型，将使用以下策略调度用户：

其中，m＝{m₁，m₂，...，m_N}是一个长度为N的向量，且

表示被选择用户的编号，设置一个信誉值的最低下限的阈值T_threshold，在m^*中剔除信誉值过低的用户：

m^*＝m^*-{i|T_i＜T_threshoLd}

使信誉较低但非恶意用户的终端用户能有机会加入联邦学习的过程；

步骤三：聚合本地模型，更新用户信誉；将遵循以下的本地模型聚合规则：

其中，ω^t+1是第t轮聚合后的全局模型，

是终端用户k上传的本地模型， G′_t是中心基站成功接收的所有本地模型的编号集合，

是当前终端用户的信誉值在所有成功传输的用户中所占的比重；中心基站配备有攻击检测模块用来检测联邦学习中的恶意用户，并根据检测结果更新用户信誉。

进一步，所述步骤二基于信誉值的公平性调度准则具体包括：

首先，在建立本地所有用户信誉表的同时，为每个用户创建一个计数器，用来记录与中心基站成功交互的次数，也就是正向行为的次数统计，定义如下：

C＝{C₁，C₂，...，C_K}

将每个计数器C_i的初始值均设置为1；

然后，在用户i与中心基站成功交互的次数也就是计数器C_i的值到达一个最高阈值C_threshold时，将计数器C_i重置为初始值，并将用户i的信誉(a_i，b_i)也重置为初始值。

最后，在实际应用的过程中，使用一种随机抽样的方式保证相同信誉值用户调度的公平性。

进一步，所述步骤三基于中心基站攻击检测模块检测结果的用户信誉更新具体包括：

用户i和中心基站之间又增加了r+s次新的交互，其中r次正向交互，s次负向交互，得出用户信誉(a_i，b_i)如下：

在实际应用中简单便捷地进行用户更新；

首先，在全局模型聚合完成并广播发送给所有终端用户进行下一轮次的训练后，中心基站会使用测试数据集对刚刚完成聚合的全局模型进行检测；

若测试精确度下降且超过了正常范围，则会打开攻击检测模块检测恶意节点来源；若测试精确度在正常范围内，则判定该用户的行为是正向行为，按照以下方式更新非恶意用户i的信誉：

a_i＝w_age×a_i+r^*

其中，r^*是正向行为分数的一个固定值，根据实际需要自行设定，ω_age是一个信誉新鲜度的参数，常用指数衰减函数或(0，1)之间的固定值代替；

若测试精确度下降且超过了正常范围，攻击检测模块对所有传输成功的终端用户模型进行遍历检测，若检测出用户i是恶意用户，则判定该用户的行为是负向行为，按以下方式更新信誉：

b_i＝w_age×b_i+s^*

其中，s^*是负向行为分数的一个固定值，根据实际需要自行设定；若此时检测的用户i是正常用户，则按测试精确度在正常范围内时更新非恶意用户信誉的方式更新该正常用户的信誉；

中心基站通过小区内其他终端用户对用户i的评价从而获得用户i的间接信誉，将直接信誉和间接信誉相结合能更好地反映用户的实际信誉，用户i的间接信誉可以按照以下方式更新：

其中(a_k，b_k)是用户k的信誉，

表示中心基站从终端用户k处获得的用户i间接信誉。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种实施所述无线网络中基于终端信誉的可靠联邦学习方法的可靠联邦学习系统，所述无线网络中基于终端信誉的可靠联邦学习系统包括：

信誉构建模块，用于通过Beta函数对用户进行信誉建模，构建所有与中心基站关联的用户信誉表，并在每次信息交互后根据当前用户的行为和信道质量更新用户信誉；

本地训练模块，用于本地用户利用本地数据进行联邦学习任务的训练，并生成本地模型；

信息交互模块，用于根据用户信誉公平地选择部分用户利用无线信道与基站进行交互；

攻击检测模块，用于对本地用户上传的模型参数进行检测，防止恶意用户和不可靠网络传输对全局模型造成影响；

全局聚合模块，用于根据用户信誉值的比重将本地模型参数按照一定比例进行聚合，得到全局模型给本地用户继续训练。

本发明的另一目的在于提供一种可穿戴设备，所述可穿戴设备搭载所述的无线网络中基于终端信誉的可靠联邦学习系统。

本发明的另一目的在于提供一种应用所述无线网络中基于终端信誉的可靠联邦学习方法的分布式机器学习系统。

本发明的另一目的在于提供一种应用所述无线网络中基于终端信誉的可靠联邦学习方法及系统的数据处理终端。

本发明的另一目的在于提供一种应用所述无线网络中基于终端信誉的可靠联邦学习方法及系统的数据处理基站。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：通过对联邦学习的终端用户进行信誉建模，可以有效衡量用户的可靠程度，及时发现并标识恶意用户，以此减少恶意用户和不可靠更新对联邦学习的影响；在信誉模型的基础上，通过公平可靠的调度策略合理有效地调度更多用户参与全局模型的聚合，在克服无线网络传输的弊端的同时，提高了联邦学习的效率。

本发明通过使用Beta信誉系统对终端用户的可靠程度进行了建模，利用 Beta信誉系统简单高效的特性，可以很快地进行信誉建模和信誉更新，使得中心基站在制定调度策略时能够及时发现并标识恶意用户，最大程度减少不利影响。且在实际应用中由于复杂性较低，不会造成资源浪费的问题。

本发明通过提出一种公平可靠的调度策略为无线网络中可靠联邦学习的用户调度问题提供了解决方案。在基于终端信誉的基础上合理有效地调度更多终端用户参与联邦学习过程，既克服了无线网络中信道资源的限制，又避免造成资源浪费的问题，最终极大提升了联邦学习的效率和性能。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的无线网络中基于终端信誉的可靠联邦学习方法的流程图。

图2是本发明实施例提供的无线网络中基于终端信誉的可靠联邦学习系统的结构示意图；

图2中：1、信誉构建模块；2、本地训练模块；3、信息交互模块；4、攻击检测模块；5、全局聚合模块。

图3是本发明实施例提供的无线网络中基于终端信誉的可靠联邦学习方法的实现流程图。

图4是本发明实施例提供的无线网络中基于终端信誉的可靠联邦学习方法的典型小区的场景图。

图5是本发明实施例提供的采用Beta信誉系统建模的典型终端用户的信誉值变化的数值仿真结果图。

图6是本发明实施例提供的无线网络中基于终端信誉的可靠联邦学习方法在具有恶意用户的实际情况中的收敛性能的数值仿真结果图。

图7是本发明实施例提供的无线网络中基于终端信誉的可靠联邦学习方法在不具有恶意用户的理想条件下的收敛性能的实验仿真结果图。

图中：图7(a)和图7(b)分别为采用本发明中的无线网络中基于终端信誉的可靠联邦学习方法在使用高信干噪比(SINR)和低SINR解码阈值情况下的收敛性能的实验仿真结果图。

图8是本发明实施例提供的无线网络中基于终端信誉的可靠联邦学习方法在具有恶意用户的实际情况中的收敛性能的实验仿真结果图。

图中：图8(a)和图8(b)分别为采用本发明中的无线网络中基于终端信誉的可靠联邦学习方法在恶意用户占小区中所有用户10％和30％情况下的收敛性能的实验仿真结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种无线网络中基于终端信誉的可靠联邦学习方法及系统，下面结合附图对本发明作详细的描述。

如图1所示，本发明提供的无线网络中基于终端信誉的可靠联邦学习方法包括以下步骤：

S101：通过Beta函数对用户进行信誉建模，令基站构建所有与之关联用户的信誉表；

S102：根据用户信誉公平地选择部分用户与基站进行交互；

S103：根据用户信誉值的比重将本地模型参数按照一定比例进行聚合，并根据当前用户的行为和信道质量更新用户信誉。

本发明提供的无线网络中基于终端信誉的可靠联邦学习方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的无线网络中基于终端信誉的可靠联邦学习方法仅仅是一个具体实施例而已。

如图2所示，本发明提供的无线网络中基于终端信誉的可靠联邦学习系统包括：

信誉构建模块1，用于通过Beta函数对用户进行信誉建模，构建所有与中心基站关联的用户信誉表，并在每次信息交互后根据当前用户的行为和信道质量更新用户信誉；

本地训练模块2，用于本地用户利用本地数据进行联邦学习任务的训练，并生成本地模型；

信息交互模块3，用于根据用户信誉公平地选择部分用户利用无线信道与基站进行交互；

攻击检测模块4，用于对本地用户上传的模型参数进行检测，防止恶意用户和不可靠网络传输对全局模型造成影响；

全局聚合模块5，用于根据用户信誉值的比重将本地模型参数按照一定比例进行聚合，得到全局模型给本地用户继续训练。

下面结合附图对本发明的技术方案作进一步的描述。

在具有恶意用户的实际无线网络场景下，本发明提出一种无线网络中基于终端信誉的可靠联邦学习方法；通过对联邦学习的终端用户进行信誉建模，可以有效衡量终端用户的可靠程度，及时发现并标识恶意用户，以此减少恶意用户和不可靠更新对联邦学习的影响；在信誉模型的基础上，通过公平可靠的调度策略合理有效地调度更多终端用户参与全局模型的聚合，在克服无线网络传输的弊端的同时，提高了联邦学习的效率和性能。

如图3所示，本发明实施例提供的无线网络中基于终端信誉的可靠联邦学习方法具体包括以下步骤：

第一步，通过Beta函数对用户进行信誉建模，令基站构建所有与之关联用户的信誉表，并初始化联邦学习的其他相关参数；

第二步，在每一轮次的终端用户训练完成后，根据用户信誉公平地选择部分用户与基站进行交互，排除较差信誉用户被调度的可能，同时采用一种公平的策略防止高信誉的用户被过度调度。

第三步，在基站处根据用户信誉值的比重将本地模型参数按照一定比例进行聚合，并根据当前用户的行为和信道质量更新用户信誉。

步骤一：构建信誉模型。

信誉模型的理论基础是贝叶斯函数，在这里可以将用户信誉假设成一个概率分布，使用对用户行为的观测结果以及用户信誉的先验概率，即可通过贝叶斯函数计算出用户信誉的后验概率。用公式表示如下：

以Beta信誉系统为基础，利用Beta函数给用户进行信誉建模，Beta函数可以通过Gamma函数表示如下：

其中0≤x≤1，a＞0，b＞0。

在Beta信誉系统中，需要将用户的行为表示成二元形式，因此本发明将对用户的观测行为作出以下判断：正向行为和负向行为。假设用户和基站一共进行过m+n次交互，且其中m次被基站判定为正向行为，n次被判为负向行为。在信誉初始化还没有任何先验参考的时候，可以将用户的先验信誉表示为一个 (0，1)上的均匀分布，表示如下：

P(θ)＝uni(0，1)＝Beta(1，1)

如此便可建立用户的信誉模型如下：

因此，用户i的信誉可以被描述为：

R_i＝Beta(a_i+1，b_i+1)

其中a_i和b_i分别表示用户的正向行为和负向行为。因此，基站可以使用一个简单的二元组(a_i，b_i)来存储用户的信誉。

此外，如上定义的信誉是一个概率分布，所以可以利用概率分布的期望来表示信誉值，也就是作为基站对用户信誉衡量的一个数值化的尺度。将用户i的信誉值表示如下：

步骤二：根据用户信誉公平地选择部分用户与基站进行交互。

在终端用户与中心基站进行交互的每个通信轮次，为了防止恶意用户对联邦学习过程的破坏，以及考虑到无线网络环境中通信资源的限制，需要根据用户的信誉值的高低选择部分用户进行调度并加入全局模型的聚合。假设共有K个用户，由于通信资源的限制最多只能传输N个用户的本地模型，将使用以下策略调度用户：

其中，m＝{m₁，m₂，...，m_N}是一个长度为N的向量，且

表示被选择用户的编号。设置一个信誉值的最低下限的阈值T_threshold为了避免恶意用户的干扰，还需要在m^*中剔除信誉值过低的用户：

m^*＝m^*-{i|T_i＜T_threshoLd}

此外，为了保证用户选择的公平性，防止信誉过高的用户被过度选择，从而导致联邦学习的过拟合。还需要制定一种公平性准则，使信誉较低但非恶意用户的终端用户能有机会加入联邦学习的过程。所述基于信誉值的公平性调度准则具体包括：

首先，在建立本地所有用户信誉表的同时，为每个用户创建一个计数器，用来记录与中心基站成功交互的次数，也就是正向行为的次数统计。定义如下：

C＝{C₁，C₂，...，C_K}

将每个计数器C_i的初始值均设置为1。

然后，在用户i与中心基站成功交互的次数也就是计数器C_i的值到达一个最高阈值C_threshold时，将计数器C_i重置为初始值，并将用户i的信誉(a_i，b_i)也重置为初始值。这样，既保证了用户选择的公平性，又防止了信誉过高的用户被过度选择导致联邦学习的过拟合。

最后，在实际应用的过程中，对于信誉值相同的用户，不能总是根据排序算法的先后顺序来选择调度的用户，而应使用一种随机抽样的方式保证相同信誉值用户调度的公平性。

步骤三：聚合本地模型，更新用户信誉。

在用户将本地模型参数传输到中心基站的过程中，由于受到无线网络中的衰落和干扰的影响，导致部分用户传输失败或传输出错，并且在传输成功的用户中还可能存在潜伏的恶意用户。因此，本发明将遵循以下的本地模型聚合规则：

其中，ω^t+1是第t轮聚合后的全局模型，

是当前终端用户的信誉值在所有成功传输的用户中所占的比重。

此外，中心基站配备有攻击检测模块用来检测联邦学习中的恶意用户，并根据检测结果更新用户信誉。所述基于中心基站攻击检测模块检测结果的用户信誉更新具体包括：

假设用户i和中心基站之间又增加了r+s次新的交互，其中r次正向交互， s次负向交互。可以得出用户信誉(a_i，b_i)如下：

基于以上理论，可在实际应用中简单便捷地进行用户更新。

首先，在全局模型聚合完成并广播发送给所有终端用户进行下一轮次的训练后，中心基站会使用测试数据集对刚刚完成聚合的全局模型进行检测。

a_i＝w_age×a_i+r^*

其中，r^*是正向行为分数的一个固定值，可根据实际需要自行设定。ω_age是一个信誉新鲜度的参数，为了保证最近的用户行为对信誉能够产生更重要的影响，常用指数衰减函数或(0，1)之间的固定值代替。

b_i＝w_age×b_i+s^*

其中，s^*是负向行为分数的一个固定值，可根据实际需要自行设定。若此时检测的用户i是正常用户，则按上述测试精确度在正常范围内时更新非恶意用户信誉的方式更新该正常用户的信誉。

在这里，中心基站仅更新被选择调度且传输成功的终端用户的信誉，由于其他终端用户的信息未被中心基站调度或未传输成功，所以无法判定其行为是正向或负向，因此他们的信誉保持不变。从另一方面来说，传输成功的终端用户极大可能也是信道质量较好的用户，因此在实际应用中，这种信誉更新方式不仅能够有效减少中心基站的工作量，还能更加有效地提升联邦学习的效率和性能。此时，信誉值高的用户不仅具有很高的可靠性，其与中心基站之间的无线信道质量也是可靠的。

此外，中心基站还可以通过小区内其他终端用户对用户i的评价从而获得用户i的间接信誉。将直接信誉和间接信誉相结合能更好地反映用户的实际信誉。用户i的间接信誉可以按照以下方式更新：

其中(a_k，b_k)是用户k的信誉，

表示中心基站从终端用户k处获得的用户i间接信誉。此时，信誉较好的终端用户提供了更可信的间接信誉，并且在信誉更新过程中获得了更高的权重。

然而，恶意用户也可能利用间接信誉来破坏正常终端用户的信誉，从而对联邦学习系统造成不良影响。因此，在实际应用中需要采取一些审查机制来防止恶意用户对正常终端用户的信誉破坏。

下面结合仿真实验对本发明的技术效果作详细的描述。

1、仿真条件：

本发明的仿真实验是在Windows平台，主要配置为：CPU为Intel(R) i5-6200U，2.30GHz；内存是8G；操作系统为Windows10；仿真的软件环境为 Python3.6+PyTorch。

以图4的典型小区的场景图作为本发明仿真实验中所使用的仿真场景示意图，该图中包括了K个终端用户和1个中心基站组成的联邦学习系统，其中K 个终端用户中还具有一定比例的恶意用户。

2、仿真内容与结果分析：

本仿真实验是采用本发明的方法与三个现有方法的调度策略(随机调度策略，轮询调度策略和比例公平调度策略)对比，使用图5的仿真场景，按照不同的仿真条件，采用本发明中的无线网络中基于终端信誉的可靠联邦学习方法进行仿真。仿真实验在面积为600×600m²的范围内进行，并选择一个典型小区内的联邦学习过程作为研究对象。除非特别说明，仿真的过程参数如下所示：基站的部署密度λ＝10^-4m²，每个小区中均匀分布的用户数K＝100，终端设备和基站天线的正交子信道的个数N＝15，路径损耗指数α＝3.8，终端用户的学习率η＝0.01，SINR解码阈值θ＝10dB，小区中恶意用户占所有用户的比例β＝10％。此外，在实验仿真中，考虑一个联邦学习任务使用常用的MNIST 数据集对手写数字进行分类，并从MNIST数据集中提供10000个训练样本和 5000个测试样本分别给终端用户和中心基站使用。通过数值仿真和实验仿真得到如图5～图8的结果。

图5中定义了三种不同类型的终端用户：恶意用户、正常用户和潜伏的恶意用户。恶意用户表示总是向中心基站发送恶意中毒数据的用户，正常用户是对中心基站没有恶意目的的用户，潜伏的恶意用户是在联邦学习初期表现良好，但随时会向中心基站发送恶意中毒数据的用户。图5展示了三种用户在每次与中心基站交互后的信誉值的变化。从图5可以看出，用户的信誉值随着与中心基站的交互而变化，并且信誉值对恶意用户的恶意行为更为敏感。特别是对于一个潜在的恶意用户，其恶意行为将直接导致其预先积累的信誉值的下降。因此，所提出的信誉模型能够有效地反映不同类型用户的正向或负向行为。

图6是基于所提的无线网络中基于终端信誉的可靠联邦学习方法的理论的数值仿真结果，评估了在不同SINR解码阈值下所提出的基于信誉的调度策略的归一化通信轮数(即收敛速度)，并在具有恶意用户的无线网络中将基于信誉的调度策略与现有方法的调度策略(随机调度策略，轮询调度策略和比例公平调度策略)进行比较。在图6中，可以清楚地看到所提出的基于信誉的调度策略比其他三种调度策略更快地实现收敛。这一结果表明了所提的无线网络中基于终端信誉的可靠联邦学习方法的有效性，原因在于基于信誉的调度策略能够根据信誉值准确区分恶意用户，从而选择更可信的用户进行调度。此外，随着SINR解码阈值的增加，包括所提出的基于信誉的调度策略在内的所有调度策略的归一化通信轮数急剧增加，特别是随机调度策略和轮询调度策略。这是因为在低 SINR解码阈值下所有终端用户的数据几乎都能通过无线信道成功传输到中心基站，但随着SINR解码阈值的提高，终端用户通过无线信道成功传输数据到中心基站的概率也会降低。

图7是基于无线网络中不存在恶意用户的理想情况的假设，并在这种情况下比较了不同SINR解码阈值下不同调度策略的收敛性能。在图7(a)中可以发现，高SINR解码阈值(15dB)下所提出的基于信誉的调度策略的收敛速度与比例公平调度策略相似，并且比随机调度策略和轮询调度策略更快。然而，如图7(b)所示，在低SINR解码阈值(-10dB)下的所有调度策略都具有相似且快速的收敛速度。图7(a)与图7(b)的区别在于不同SINR解码阈值下参数的成功传输概率不同，SINR解码阈值越高，成功传输的概率越低。由于所提出的信誉模型也从侧面反映了本地用户的整体信道质量，因此所提出的基于信誉的调度策略总是可以选择信道质量高且信誉度高的用户进行调度，这就解释了在没有恶意用户的无线网络中，所提出的基于信誉的调度策略具有与比例公平调度策略相似的收敛性能。因此，在没有恶意用户的情况下，与三种基本调度策略相比，提出的基于信誉的调度策略具有更好的收敛性能。

图8中展示了无线网络中存在恶意用户的实际情况，并通过在图8(a)和图8(b)中将恶意用户的比例分别设置为10％和30％来比较不同调度策略的收敛性能。通过比较图8(a)和图8(b)不难发现，随着恶意用户比例的增加，三种基本调度策略的收敛性能将急剧下降。然而，所提出的基于信誉的调度策略在含有恶意用户的无线网络中仍然保持了良好的收敛性能。这是因为三种基本调度策略在调度用户的过程中无法区分恶意用户，从而导致恶意用户的数据中毒攻击可以任意控制联邦学习的全局收敛过程。相反，所提出的基于信誉的调度策略可以根据用户的信誉值在每次全局聚合之前选择更可靠的终端用户进行调度，从而有效抵抗了恶意用户的数据中毒攻击。另外，从图7还可以看出，在联邦学习过程的早期，提出的基于信誉的调度策略的收敛性能也会受到一定程度的影响，但经过足够多轮的信誉更新后，联邦学习过程将很快达收敛。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。