CN116957067B

CN116957067B - 公共安全事件预测模型的强化联邦学习方法及装置

Info

Publication number: CN116957067B
Application number: CN202310777807.5A
Authority: CN
Inventors: 杜军平; 赵天宇; 邵蓥侠; 管泽礼
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2024-04-26
Anticipated expiration: 2043-06-28
Also published as: CN116957067A

Abstract

本申请提供一种公共安全事件预测模型的强化联邦学习方法及装置，方法包括：针对各个节点各自本地的公共安全事件预测子模型的特征向量进行马尔科夫决策以得到当前的目标聚类参数，并基于OPTICS聚类算法对各个特征向量进行聚类以将节点划分至不同的聚簇并生成全局模型参数；若当前的迭代轮次为最后轮次，则将全局模型参数作为目标公共安全事件预测模型来对公共网络平台实时发布的文本数据进行公共安全事件预测。本申请能够在模型训练阶段实现高效的数据记录、学习和更新，同时可以在保护用户隐私的前提下实现数据的共享和聚合，能够实现针对文本数据进行公共安全事件发生及类型的自动化预测，能够有效提高公共安全事件预测的准确性及可靠性。

Description

公共安全事件预测模型的强化联邦学习方法及装置

技术领域

本申请涉及联邦学习技术领域，尤其涉及公共安全事件预测模型的强化联邦学习方法及装置。

背景技术

公共安全问题已经深入影响到生活的各个方面，公共安全突发事件对社会秩序、国民经济和人民生命健康造成了严重的危害和影响。相对于传统大数据的大量、高速、多样、价值的特点，公共安全突发事件相关的大数据还具有多源、异质、时变、隐匿等复杂性，形成公共安全复杂大数据。联邦学习作为机器学习的前沿研究领域，是隐私保护要求下解决数据孤岛问题的关键技术，主要研究多个数据拥有方如何在数据不出本地的隐私保护前提下协同训练机器学习模型，因此，对于公共安全分布关联大数据的分析与学习符合联邦学习的研究范畴。

然而，在联邦学习中存在的一个主要问题是跨设备数据的不同分布，即数据的非独立同分布现象。这种现象会导致机器学习的准确性和效率受到影响，甚至会影响到算法的整体性能。在传统的机器学习中，通常假设所有的训练数据都是独立同分布的。也就是说，所有的数据都来自于同一个数据分布，并且每个数据样本之间是相互独立的。这个假设在很多情况下是成立的，例如在图像分类、语音识别等任务中，每个数据样本都是从同一个数据分布中采样得到的。联邦学习中的非独立同分布(Non-IID)是指在联邦学习中，每个参与方的本地数据分布不同，即每个参与方拥有的数据集可能来自不同的数据源或者是不同的数据分布。这种情况下，参与方之间的数据是非独立同分布的。在实际应用中，非独立同分布是很常见的。例如，网络文本数据可能来自不同的网络公平平台，这些数据之间的分布可能存在很大的差异。在这种情况下，如果直接将所有的数据汇集起来进行训练，可能会导致模型的性能下降。因此，解决非独立同分布的问题是联邦学习技术应对挑战的重要方向之一。

发明内容

鉴于此，本申请实施例提供了公共安全事件预测模型的强化联邦学习方法及装置，以消除或改善现有技术中存在的一个或更多个缺陷。

本申请的第一个方面提供了一种公共安全事件预测模型的强化联邦学习方法，包括：

在当前的迭代轮次中接收联邦学习系统中的各个节点各自本地的公共安全事件预测子模型的特征向量；

针对各个所述特征向量进行马尔科夫决策以得到当前的目标聚类参数，并基于OPTICS聚类算法，根据所述目标聚类参数对各个所述特征向量进行聚类以将各个所述节点划分至不同的聚簇，并得到各个所述聚簇当前对应的公共安全事件预测全局模型的全局模型参数；

若当前的迭代轮次为预设迭代次数中的最后轮次，则将各个所述聚簇当前对应的公共安全事件预测全局模型的全局模型参数作为目标公共安全事件预测模型，以采用该目标公共安全事件预测模型对公共网络平台实时发布的文本数据进行公共安全事件预测。

进一步地，还包括：

若当前的迭代轮次不为预设迭代次数中的最后轮次，则在各个所述聚簇中分别随机选取一个节点作为当前的工作节点；

将当前的所述全局模型参数分别发送至各个所述工作节点，以使当前作为所述工作节点的各个节点在下一迭代轮次中分别根据本地带有标签的历史公共安全突发事件文本数据训练所述全局模型参数，分别训练得到各自对应的公共安全事件预测子模型，并对各自本地当前的所述公共安全事件预测子模型的子模型参数进行特征提取，以得到当前作为所述工作节点的各个所述节点各自本地的公共安全事件预测子模型的特征向量；

其中，所述标签包括：分别用于表示无公共安全事件以及不同的多种公共安全事件类型的标识。

进一步地，所述目标公共安全事件预测模型为卷积神经网络。

进一步地，所述各个节点各自本地的公共安全事件预测子模型的特征向量是各个所述节点预先将各自本地训练得到的公共安全事件预测子模型的模型参数输入预设的特征向量提取模型后得到的；

其中，各个所述公共安全事件预测子模型的子模型参数是各个所述节点在当前迭代轮次采用接收到的全局模型参数对各自本地的公共安全事件预测子模型训练后得到的。

进一步地，所述特征向量提取模型包括：Deep Sets模型。

进一步地，所述针对各个所述特征向量进行马尔科夫决策以得到当前的目标聚类参数，并基于OPTICS聚类算法，根据所述目标聚类参数对各个所述特征向量进行聚类以将各个所述节点划分至不同的聚簇，并得到各个所述聚簇当前对应的公共安全事件预测全局模型的模型参数，包括：

采用预设的智能体针对各个所述特征向量进行马尔科夫决策，以使该智能体将聚类参数的搜索空间和OPTICS聚类算法分别作为环境、将搜索的位置与聚类的结果作为状态并将聚类参数的调整方向作为动作进行马尔科夫决策，以得到当前的目标聚类参数，其中，所述目标聚类参数包括：聚类的最大距离和最小样本数；

根据所述聚类的最大距离和最小样本数，采用OPTICS聚类算法对各个所述特征向量进行聚类以将各个所述节点划分至不同的聚簇，并得到各个所述聚簇当前对应的公共安全事件预测全局模型的模型参数。

本申请的第二个方面还提供了一种公共安全事件预测方法，包括：

接收公共网络平台实时发布的目标文本数据；

将所述目标文本数据输入经由第一方面提供的所述公共安全事件预测模型的强化联邦学习训练得到的目标公共安全事件预测模型，以使该目标公共安全事件预测模型对应输出所述目标文本数据对应的目标公共安全事件预测结果数据；

输出所述目标公共安全事件预测结果数据。

本申请的第三个方面还提供了一种公共安全事件预测模型的强化联邦学习装置，包括：

特征接收模块，用于在当前的迭代轮次中接收联邦学习系统中的各个节点各自本地的公共安全事件预测子模型的特征向量；

节点聚簇模块，用于针对各个所述特征向量进行马尔科夫决策以得到当前的目标聚类参数，并基于OPTICS聚类算法，根据所述目标聚类参数对各个所述特征向量进行聚类以将各个所述节点划分至不同的聚簇，并得到各个所述聚簇当前对应的公共安全事件预测全局模型的全局模型参数；

模型生成模块，用于若当前的迭代轮次为预设迭代次数中的最后轮次，则将各个所述聚簇当前对应的公共安全事件预测全局模型的全局模型参数作为目标公共安全事件预测模型，以采用该目标公共安全事件预测模型对公共网络平台实时发布的文本数据进行公共安全事件预测。

本申请的第四个方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的公共安全事件预测模型的强化联邦学习方法和/或公共安全事件预测方法。

本申请的第五个方面提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的公共安全事件预测模型的强化联邦学习方法和/或公共安全事件预测方法。

本申请提供的公共安全事件预测模型的强化联邦学习方法，通过在当前的迭代轮次中接收联邦学习系统中的各个节点各自本地的公共安全事件预测子模型的特征向量；针对各个所述特征向量进行马尔科夫决策以得到当前的目标聚类参数，并基于OPTICS聚类算法，根据所述目标聚类参数对各个所述特征向量进行聚类以将各个所述节点划分至不同的聚簇，并得到各个所述聚簇当前对应的公共安全事件预测全局模型的全局模型参数；若当前的迭代轮次为预设迭代次数中的最后轮次，则将各个所述聚簇当前对应的公共安全事件预测全局模型的全局模型参数作为目标公共安全事件预测模型，以采用该目标公共安全事件预测模型对公共网络平台实时发布的文本数据进行公共安全事件预测，能够在模型训练阶段实现高效的数据记录、学习和更新，同时可以在保护用户隐私的前提下实现数据的共享和聚合，能够实现针对文本数据进行公共安全事件发生及类型的自动化预测，能够有效提高公共安全事件预测的准确性及可靠性。

本申请的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本申请的实践而获知。本申请的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本申请实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本申请能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，并不构成对本申请的限定。附图中的部件不是成比例绘制的，而只是为了示出本申请的原理。为了便于示出和描述本申请的一些部分，附图中对应部分可能被放大，即，相对于依据本申请实际制造的示例性装置中的其它部件可能变得更大。在附图中：

图1为本申请一实施例中的公共安全事件预测模型的强化联邦学习方法的第一种流程示意图。

图2为本申请一实施例中的公共安全事件预测模型的强化联邦学习方法的第二种流程示意图。

图3为本申请一实施例中的公共安全事件预测方法的流程示意图。

图4为本申请另一实施例中的公共安全事件预测模型的强化联邦学习装置的结构示意图。

图5为本申请应用实例提供的基于自适应OPTICS聚类的强化联邦学习算法的整体架构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本申请做进一步详细说明。在此，本申请的示意性实施方式及其说明用于解释本申请，但并不作为对本申请的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本申请，在附图中仅仅示出了与根据本申请的方案密切相关的结构和/或处理步骤，而省略了与本申请关系不大的其他细节。

应该强调，术语“包括/包含”在本申请应用实例使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本申请应用实例不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本申请的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

联邦学习技术是一种新兴的分布式机器学习技术，与传统的中央化机器学习不同的是，联邦学习技术可以很好地平衡数据价值和数据隐私之间的矛盾。在这个分布式计算范式中，所有参与者节点可以在保护用户隐私和数据安全的情况下协作训练全局模型。每个参与者节点的数据留存在本地，同时又可以在服务端的协调下进行模型更新。训练出的模型可以分配到各参与方，也可以在多方之间共享。这种分布式机器学习技术的优势在于它可以有效地避免因数据隐私问题而导致的数据泄露和数据滥用。同时，联邦学习技术也被广泛应用于众多场景，如医疗健康、金融科技、以及智能制造等等。

在现有的一种联邦学习方式中，利用了模型之间参数距离，提出通过客户端模型和服务器模型之间的距离来决定客户端的关联，还有的方式则直接在客户端模型上应用基于距离的分层聚类算法来实现关联。另有学者提出了CFL算法，该算法使用客户端梯度的余弦相似度将客户端划分为两个分区，并通过测试其梯度范数来确认分区是否一致。将所有聚簇模型发送到本地节点，然后在本地节点上依次对聚簇模型进行几轮本地训练。这样就导致本地节点的计算量急剧攀升。如果本地节点的数据量很少，梯度可能会较大，从而导致错误分区。

在现有的另一种联邦学习方式中，提出一种基于假设的联邦聚类，通过考虑在局部数据上运行全局模型的损失来分配聚类。还可以使用了K-means等集中式聚类算法尝试考虑了聚类联邦学习的公式，中心机必须识别所有用户的聚类身份，导致中心的计算成本很高。然而，这些算法可能不适合大型模型，如深度神经网络或拥有大量用户的应用程序。此外，K-means聚类算法不能在处理离群点方面做到很好的处理，因此在存在可能会遭到恶意节点攻击的情况下，K-means聚类算法的表现可能会受到影响。

本申请提出了一种基于自适应OPTICS聚类的公共安全事件预测模型的强化联邦学习方法，通过该方法可以在联邦学习任务中解决数据分布的异质性问题，命名为FedRO。相比传统联邦学习算法，本申请提出的算法不仅能够实现高效的数据记录、学习和更新，同时可以在保护用户隐私的前提下实现数据的共享和聚合。总之，对于解决联邦学习中数据异质性问题具有重要的实际意义。

具体通过下述实施例进行详细说明。

基于此，本申请实施例提供一种可由公共安全事件预测模型的强化联邦学习装置实现的公共安全事件预测模型的强化联邦学习方法，参见图1，所述公共安全事件预测模型的强化联邦学习方法具体包含有如下内容：

步骤100：在当前的迭代轮次中接收联邦学习系统中的各个节点各自本地的公共安全事件预测子模型的特征向量。

在本申请的一个或多个实施例中，公共安全事件具体可以指针对用户在网络公共平台等处发出的文本内容中可能因此公共突发安全危害的文字内容。

可以理解的是，联邦学习是一种通过在本地设备上训练模型，然后将模型的更新反馈到中央服务器进行聚合的机器学习方法。这种方法可以保护用户隐私，同时在多个设备上共享模型知识，从而提高模型的准确性和性能。

步骤200：针对各个所述特征向量进行马尔科夫决策以得到当前的目标聚类参数，并基于OPTICS聚类算法，根据所述目标聚类参数对各个所述特征向量进行聚类以将各个所述节点划分至不同的聚簇，并得到各个所述聚簇当前对应的公共安全事件预测全局模型的全局模型参数。

在步骤200中，强化学习中的马尔科夫决策是一种机器学习方法，它通过智能体与环境的交互来学习如何做出决策。强化学习的目标是让智能体通过与环境的交互，学习到一种策略，使得它能够在某个任务中获得最大的累积奖励。

可以理解的是，OPTICS聚类算法是一种基于密度的聚类算法，它可以自适应地确定聚类数目，并且可以处理任意形状的簇。与传统的基于密度的聚类算法(比如DBSCAN)不同，OPTICS聚类算法不需要事先指定聚类半径参数，而是通过计算每个点的核心距离和可达距离来确定聚类结构。

步骤300：若当前的迭代轮次为预设迭代次数中的最后轮次，则将各个所述聚簇当前对应的公共安全事件预测全局模型的全局模型参数作为目标公共安全事件预测模型，以采用该目标公共安全事件预测模型对公共网络平台实时发布的文本数据进行公共安全事件预测。

从上述描述可知，本申请实施例提供的公共安全事件预测模型的强化联邦学习方法，能够在模型训练阶段实现高效的数据记录、学习和更新，同时可以在保护用户隐私的前提下实现数据的共享和聚合，能够实现针对文本数据进行公共安全事件发生及类型的自动化预测，能够有效提高公共安全事件预测的准确性及可靠性。

为了进一步提高公共安全事件预测模型的强化联邦学习的有效性及适用广泛性，在本申请实施例提供的一种公共安全事件预测模型的强化联邦学习方法中，参见图2，所述公共安全事件预测模型的强化联邦学习方法的步骤200之后还具体包含有如下内容：

步骤400：若当前的迭代轮次不为预设迭代次数中的最后轮次，则在各个所述聚簇中分别随机选取一个节点作为当前的工作节点；

步骤500：将当前的所述全局模型参数分别发送至各个所述工作节点，以使当前作为所述工作节点的各个节点在下一迭代轮次中分别根据本地带有标签的历史公共安全突发事件文本数据训练所述全局模型参数，分别训练得到各自对应的公共安全事件预测子模型，并对各自本地当前的所述公共安全事件预测子模型的子模型参数进行特征提取，以得到当前作为所述工作节点的各个所述节点各自本地的公共安全事件预测子模型的特征向量；其中，所述标签包括：分别用于表示无公共安全事件以及不同的多种公共安全事件类型的标识。

其中，不同的多种公共安全事件类型可以至少包含有：国民公共安全事件、国家公共安全事件和公共卫生公共安全事件等等。标识可以用数字表示，例如，0代表无公共安全事件，1代表国民公共安全事件，2代表国家公共安全事件，3代表公共卫生公共安全事件。相对应的，采用该目标公共安全事件预测模型对公共网络平台实时发布的文本数据进行公共安全事件预测所得到的文本数据对应的公共安全事件预测结果数据，该目标公共安全事件预测结果数据包含有上述各个标识的概率值。

为了进一步提高公共安全事件预测模型的强化联邦学习的有效性及可靠性，所述目标公共安全事件预测模型为卷积神经网络。

在本申请实施例提供的一种公共安全事件预测模型的强化联邦学习方法中，所述各个节点各自本地的公共安全事件预测子模型的特征向量是各个所述节点预先将各自本地训练得到的公共安全事件预测子模型的模型参数输入预设的特征向量提取模型后得到的；

其中，各个所述公共安全事件预测子模型的子模型参数是各个所述节点在当前迭代轮次采用接收到的全局模型参数对各自本地的公共安全事件预测子模型训练后得到的。所述特征向量提取模型包括：Deep Sets模型。

为了进一步提高公共安全事件预测模型的强化联邦学习的有效性及可靠性，在本申请实施例提供的一种公共安全事件预测模型的强化联邦学习方法中，参见图2，所述公共安全事件预测模型的强化联邦学习方法的步骤200具体包含有如下内容：

步骤210：采用预设的智能体针对各个所述特征向量进行马尔科夫决策，以使该智能体将聚类参数的搜索空间和OPTICS聚类算法分别作为环境、将搜索的位置与聚类的结果作为状态并将聚类参数的调整方向作为动作进行马尔科夫决策，以得到当前的目标聚类参数，其中，所述目标聚类参数包括：聚类的最大距离和最小样本数。

步骤220：根据所述聚类的最大距离和最小样本数，采用OPTICS聚类算法对各个所述特征向量进行聚类以将各个所述节点划分至不同的聚簇，并得到各个所述聚簇当前对应的公共安全事件预测全局模型的模型参数。

在本申请实施例提供的一种公共安全事件预测模型的强化联邦学习方法中，参见图3，所述公共安全事件预测模型的强化联邦学习方法的步骤300之后还具体包含有如下内容：

步骤500：接收公共网络平台实时发布的目标文本数据。

步骤600：将所述目标文本数据输入经由所述公共安全事件预测模型的强化联邦学习方法训练得到的目标公共安全事件预测模型，以使该目标公共安全事件预测模型对应输出所述目标文本数据对应的目标公共安全事件预测结果数据。

步骤700：输出所述目标公共安全事件预测结果数据。

基于上述公共安全事件预测模型的强化联邦学习方法的实施例，本申请还提供一种公共安全事件预测方法，参见图3，该公共安全事件预测方法也可以包含有步骤500指步骤700。

从软件层面来说，本申请还提供一种用于执行所述公共安全事件预测模型的强化联邦学习方法中全部或部分内的公共安全事件预测模型的强化联邦学习装置，参见图4，所述公共安全事件预测模型的强化联邦学习装置具体包含有如下内容：

特征接收模块10，用于在当前的迭代轮次中接收联邦学习系统中的各个节点各自本地的公共安全事件预测子模型的特征向量；

节点聚簇模块20，用于针对各个所述特征向量进行马尔科夫决策以得到当前的目标聚类参数，并基于OPTICS聚类算法，根据所述目标聚类参数对各个所述特征向量进行聚类以将各个所述节点划分至不同的聚簇，并得到各个所述聚簇当前对应的公共安全事件预测全局模型的全局模型参数；

模型生成模块30，用于若当前的迭代轮次为预设迭代次数中的最后轮次，则将各个所述聚簇当前对应的公共安全事件预测全局模型的全局模型参数作为目标公共安全事件预测模型，以采用该目标公共安全事件预测模型对公共网络平台实时发布的文本数据进行公共安全事件预测。

本申请提供的公共安全事件预测模型的强化联邦学习装置的实施例具体可以用于执行上述实施例中的公共安全事件预测模型的强化联邦学习方法的实施例的处理流程，其功能在此不再赘述，可以参照上述公共安全事件预测模型的强化联邦学习方法实施例的详细描述。

所述公共安全事件预测模型的强化联邦学习装置进行公共安全事件预测模型的强化联邦学习的部分可以在服务器中执行，也可以在客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器，用于公共安全事件预测模型的强化联邦学习的具体处理。

上述的客户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

上述服务器与所述客户端设备端之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

从上述描述可知，本申请实施例提供的公共安全事件预测模型的强化联邦学习装置，能够在模型训练阶段实现高效的数据记录、学习和更新，同时可以在保护用户隐私的前提下实现数据的共享和聚合，能够实现针对文本数据进行公共安全事件发生及类型的自动化预测，能够有效提高公共安全事件预测的准确性及可靠性。

为了进一步说明本方案，本申请还提供一种采用联邦学习系统实现的基于自适应OPTICS聚类的强化联邦学习算法的具体应用实例，其中，所述联邦学习系统包含有服务器和各个节点，所述节点均可以为客户端设备，后续简称客户端，所述服务器用于执行图1至图3的公共安全事件预测模型的强化联邦学习过程。

OPTICS聚类算法是一种基于密度的聚类算法，可以理解为对点排序以此来确定簇结构，可是对DBSCAN算法的一种优化。DBSCAN算法中，较小的聚类的最大距离eps将建立更多的族，而较大的eps将吞并较小的族建立更大的族群，而OPTICS算法是eps从单个值放宽到范围值。和DBSCAN相比，OPTICS算法的优点是：OPTICS对eps不再敏感。只要确定最小样本数minPts的值，eps的轻微变化，并不会影响聚类结果。因此可以通过强化学习来实现OPTICS聚类参数的自适应，从而更好的对客户端进行聚合。同时和K-means等算法相比，OPTICS算法不需要事前知道簇类的数量并且可以发现噪声点，从而避免离群点对联邦聚合的干扰。

本申请应用实例的核心思路是通过使用Deep Sets模型对本地数据进行特征提取，将特征向量上传到服务器节点，通过强化学习，定义状态空间、动作和奖励，将聚类环境感知为马尔可夫决策过程，对参数搜索方向的调整过程进行建模，从而找到OPTICS聚类算法最佳的聚类参数eps和minPts以实现最优的联邦聚合方法，将相似的客户端分配到同一个聚簇中，在簇内进行随机选择，每一个聚簇用来确定一个模型，算法的具体描述如表1所示。基于自适应OPTICS聚类的强化联邦学习算法的整体架构如图5所示，用三个客户端为例，描绘了通过自适应OPTICS聚类算法实现强化联邦聚合的过程。

表1基于自适应OPTICS聚类的强化联邦学习算法

面对联邦聚合的任务，使用OPTICS聚类可以通过基于密度的方法将相似的客户端划分到同一聚簇中，固定的OPTICS参数搜索策略不具有灵活性。训练过程就是在多轮过程中在每一层进行参数搜索来优化智能体的过程。在这个过程中，可以不断更新最优的参数组合，建立了提前停止机制来在最优参数组不再改变的时候停止来加速训练过程。在测试过程使用训练好的智能体来在一轮过程中直接搜索，并且不设置提前停止机制。

使用自适应的参数对特征矩阵进行OPTICS聚类，对节点进行一个分组，并将整个的聚簇模型的权重发给工作节点。使用FedAvg算法对聚簇进行本地的更新，将权重发回服务器。最终服务器收到所有的权重，加权聚合权重。

定义1.OPTICS聚类.对于数据块V中的数据对象{v₁，…，v_j，v_j+1，..}，依据参数P＝{eps,minPts}来划分出类别C＝{c₁，…，c_n，c_n+1，..}.指的是两个相邻点能被划分为一个类的最大距离，minPts指的是一个数据对象要作为一个核心点，其周围(以eps为半径的圆内)的邻接对象的最小数量。类的形成过程可以被理解为核心点和其周围点。其中，C1～C3均表示不同的客户端，S1～S3表示不同的状态，W表示本地模型。

定义2.OPTICS聚类的参数搜索.给定数据块V＝{v₁，…，v_j，v_j+1，..}，OPTICS聚类的参数搜索记为找到参数空间中最优的参数组合P＝{eps,minPts}的过程，其中，数据块V的特征集合R为R₁，…，R_j，R_j+1，…。J为大于1的正整数。

面对联邦聚合的任务，使用OPTICS聚类可以通过基于密度的方法将相似的客户端划分到同一聚簇中，固定的OPTICS参数搜索策略不具有灵活性。本申请应用实例提出了一直基于自适应OPTICS聚类的强化联邦聚合，其中核心模型可以被表达为一个包括状态集合，动作空间，奖励函数和策略优化算法马尔可夫决策过程。马尔科夫决策过程是一个由状态、动作、奖励和状态转移概率组成的四元组<S,A,T,R>，其中状态是环境的代表性变量，动作是Agent所采取的行为，奖励是指示Agent行为的好坏的信号，状态转移概率定义了Agent根据决策采取动作的结果，同时也描述了环境的动态特征。这个过程将OPTICS聚类的参数搜索过程转化为一个参数空间中的迷宫游戏问题，为了训练一个智能体通过与环境交互一步步的从初始点参数搜索到终止点参数，并且终止点(最后一步的参数)作为一局游戏最后的搜索结果。具体的，智能体将参数搜索空间和OPTICS聚类算法分别视为环境，搜索的位置与聚类的结果视为状态，参数的调整方向视为动作。

具体的，第e轮的搜索过程具有如下的形式：

由于状态需要能够尽量准确和完整的代表每一步的搜索环境，我们考虑从两方面来构建状态的表征(i＝1,2,…)。首先，对于全局的聚类状况状态的定义为：

其中，P^(e)(i)＝{Eps^(e)(i),MinPts^(e)(i)}是目前的参数组。是当前eps和minPts距离边界的平方和。/>是聚类后类簇的数量与数据框中数据对象的数量的比值。

其次，对于每一个类的情况的描述，对于第i步类别c_n∈C的局部状态，本申请应用实例定义了一个局部的聚类状况状态的定义：

其中，代表类别c_n的中心对象的特征，/>是类簇中心对象到整个数据块的中心对象的欧几里得距离。/>代表类簇c_n中对象的数目。

根据全局的状态和局部状态，定义当前状态为：

其中，F_G和F_L分别是以全局状态和局部状态为输入的全连接网络。σ代表ReLU激活函数。

动作：代表第i步的参数搜索方向。本申请应用实例将动作空间定义为D(left，right，down，up，stop)，其中left和right分别代表减小和增加参数eps。down和up代表减少和增大参数minPts，而stop代表停止搜索。具体，本申请应用实例建立了Actor作为策略网络来基于目前状态：

a^(e)(i)＝Actor(s^(e)(i))

其中Actor是一个三层的多层感知机(MLP)。注意到当一个动作引起参数超出边界，那么参数应该被设置为边界值，并且相应的边界距离在下一步应该被设置为-1。

奖励：为了激励智能体学习一个较好的参数搜索策略，我们需要给予奖励。然而，我们并不知道确切的终止参数点在哪里。因此，本申请应用实例采用一小部分外部度量的样本，作为奖励的基础。第i步的奖励为：

其中，NMI代表外部的度量函数，即聚类的标准化互信息(NMI)。χ是特征集合。y′是数据块的一个部分标签集。

终止:对于完整一轮搜索过程，使用如下的终止条件，超出边界停止；超出最大步数限制停止。

客户端调度的主要目的是为了将具有相似数据分布的客户端进行统一调度，使得它们可以协同训练联邦模型。为了实现这个目标，我们可以使用聚类算法。在这个过程中，我们通过OPTICS聚类算法来将所有的客户端根据它们数据分布的相似度，分成不同的聚簇。每个聚簇代表一个相似的数据分布，聚簇中的所有节点都可以视为具有独立同分布(IID)数据。这种方法帮助我们更好地理解数据分布，并且可以更好地协同训练联邦模型。FedAvg算法已经被证明能够在IID分布上有效的聚合模型参数。因此，本申请应用实例采用FedAvg算法在已分类的聚簇中来训练联邦模型。

综上所述，本申请应用实例提供的基于自适应OPTICS聚类的强化联邦学习算法，提出基于强化学习的自适应OPTICS聚类算法。该算法考虑到联邦学习中跨终端数据非独立同分布的问题，通过将不同终端中的数据聚类处理，可以有效解决数据分布不均匀的问题。具体而言，我们利用OPTICS聚类算法的优点，通过强化学习来自适应确定聚类的核心距离和最小样本数，从而更加准确合理地处理数据分布；提出基于自适应OPTICS聚类算法的强化联邦学习方法。该方法通过自适应的OPTICS聚类算法，将客户端根据特征分为不同的聚簇，在聚簇内进行随机选择，可以使得联邦学习的效果更加稳定且准确。

本申请实施例还提供了一种电子设备，该电子设备可以包括处理器、存储器、接收器及发送器，处理器用于执行上述实施例提及的公共安全事件预测模型的强化联邦学习和/或公共安全事件预测方法，其中处理器和存储器可以通过总线或者其他方式连接，以通过总线连接为例。该接收器可通过有线或无线方式与处理器、存储器连接。

处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的公共安全事件预测模型的强化联邦学习和/或公共安全事件预测方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的公共安全事件预测模型的强化联邦学习和/或公共安全事件预测方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器中，当被所述处理器执行时，执行实施例中的公共安全事件预测模型的强化联邦学习和/或公共安全事件预测方法。

在本申请的一些实施例中，用户设备可以包括处理器、存储器和收发单元，该收发单元可包括接收器和发送器，处理器、存储器、接收器和发送器可通过总线系统连接，存储器用于存储计算机指令，处理器用于执行存储器中存储的计算机指令，以控制收发单元收发信号。

作为一种实现方式，本申请中接收器和发送器的功能可以考虑通过收发电路或者收发的专用芯片来实现，处理器可以考虑通过专用处理芯片、处理电路或通用芯片实现。

作为另一种实现方式，可以考虑使用通用计算机的方式来实现本申请实施例提供的服务器。即将实现处理器，接收器和发送器功能的程序代码存储在存储器中，通用处理器通过执行存储器中的代码来实现处理器，接收器和发送器的功能。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述公共安全事件预测模型的强化联邦学习和/或公共安全事件预测方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本申请应用实例中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本申请中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域的技术人员来说，本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种公共安全事件预测模型的强化联邦学习方法，其特征在于，包括：

若当前的迭代轮次为预设迭代次数中的最后轮次，则将各个所述聚簇当前对应的公共安全事件预测全局模型的全局模型参数作为目标公共安全事件预测模型，以采用该目标公共安全事件预测模型对公共网络平台实时发布的文本数据进行公共安全事件预测；

其中，所述针对各个所述特征向量进行马尔科夫决策以得到当前的目标聚类参数，并基于OPTICS聚类算法，根据所述目标聚类参数对各个所述特征向量进行聚类以将各个所述节点划分至不同的聚簇，并得到各个所述聚簇当前对应的公共安全事件预测全局模型的模型参数，包括：

2.根据权利要求1所述的公共安全事件预测模型的强化联邦学习方法，其特征在于，还包括：

3.根据权利要求1所述的公共安全事件预测模型的强化联邦学习方法，其特征在于，所述目标公共安全事件预测模型为卷积神经网络。

4.根据权利要求2所述的公共安全事件预测模型的强化联邦学习方法，其特征在于，所述各个节点各自本地的公共安全事件预测子模型的特征向量是各个所述节点预先将各自本地训练得到的公共安全事件预测子模型的模型参数输入预设的特征向量提取模型后得到的；

5.根据权利要求4所述的公共安全事件预测模型的强化联邦学习方法，其特征在于，所述特征向量提取模型包括：Deep Sets模型。

6.根据权利要求1所述的公共安全事件预测模型的强化联邦学习方法，其特征在于，还包括：

接收公共网络平台实时发布的目标文本数据；

将所述目标文本数据输入所述目标公共安全事件预测模型，以使该目标公共安全事件预测模型对应输出所述目标文本数据对应的目标公共安全事件预测结果数据；

输出所述目标公共安全事件预测结果数据。

7.一种公共安全事件预测模型的强化联邦学习装置，其特征在于，包括：

模型生成模块，用于若当前的迭代轮次为预设迭代次数中的最后轮次，则将各个所述聚簇当前对应的公共安全事件预测全局模型的全局模型参数作为目标公共安全事件预测模型，以采用该目标公共安全事件预测模型对公共网络平台实时发布的文本数据进行公共安全事件预测；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的公共安全事件预测模型的强化联邦学习方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述的公共安全事件预测模型的强化联邦学习方法。