CN114095503A - 一种基于区块链的联邦学习参与节点选择方法 - Google Patents

一种基于区块链的联邦学习参与节点选择方法 Download PDF

Info

Publication number
CN114095503A
CN114095503A CN202111214690.7A CN202111214690A CN114095503A CN 114095503 A CN114095503 A CN 114095503A CN 202111214690 A CN202111214690 A CN 202111214690A CN 114095503 A CN114095503 A CN 114095503A
Authority
CN
China
Prior art keywords
terminal device
terminal equipment
terminal
clustering
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111214690.7A
Other languages
English (en)
Inventor
李晓欢
叶进
何杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Comprehensive Transportation Big Data Research Institute
Original Assignee
Guangxi Comprehensive Transportation Big Data Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Comprehensive Transportation Big Data Research Institute filed Critical Guangxi Comprehensive Transportation Big Data Research Institute
Priority to CN202111214690.7A priority Critical patent/CN114095503A/zh
Publication of CN114095503A publication Critical patent/CN114095503A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1021Server selection for load balancing based on client or server locations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1023Server selection for load balancing based on a hash applied to IP addresses or costs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于区块链的联邦学习参与节点选择方法。联邦学习参与节点选择方法用于物联网系统,物联网系统包括终端设备和基站,联邦学习参与节点选择方法包括:获取每个终端设备与基站、其它终端设备之间在预设时间内的交互次数和距离,根据预设截断距离、数据交互次数、终端设备与其它终端设备的距离确定每个终端设备的活跃度密度,根据活跃度密度的大小以选择目标终端设备,计算终端设备到目标终端设备的偏移距离,根据活跃度密度和偏移距离确定终端设备的聚类中心点,通过聚类中心点的终端设备传输对应聚类模型中终端设备的数据至基站。如此,有效的减少了物联网系统的传输时间,避免了因物联网设备的时延问题。

Description

一种基于区块链的联邦学习参与节点选择方法
技术领域
本申请涉及计算机网络安全领域,特别涉及一种基于区块链的联邦学习参与节点选择方法、联邦学习参与节点选择装置、电子设备及计算机可读存储介质。
背景技术
随着物联网(IOT)的兴起,物联网设备产生的数据给机器学习在众多应用中实现智能提供了机会。目前,物联网设备在数据处理方式为集中式的机器学习,需要将多方的数据源汇聚起来,再统一进行数据处理。然而,这样的做法需要多方的本地数据出库,使得数据拥有者失去了对数据的所有权且容易造成数据的隐私泄露问题。因此,如何实现数据协作共享的同时,还保证数据安全及隐私保护成了巨大的挑战。
相关技术中,可通过联邦学习(Federated Learning)技术在实现数据共享的同时,避免数据的隐私的泄露问题,从而保证数据安全。然而,物联网设备规模大、分布范围广,而物联网设备的计算和存储资源有限,难以输出和维护结构化的数据,导致存在传输时延的问题。
发明内容
有鉴于此,本申请提供一种基于区块链的联邦学习参与节点选择方法、联邦学习参与节点选择装置、电子设备及非易失性计算机可读存储介质。
本申请的基于区块链的联邦学习参与节点选择方法包括:
获取每个所述终端设备与所述基站、其它所述终端设备之间在预设时间内的交互次数和距离;
根据预设截断距离、所述数据交互次数、所述终端设备与其它终端设备的距离确定每个所述终端设备的活跃度密度;
根据所述活跃度密度的大小以选择目标终端设备;
计算所述终端设备到所述目标终端设备的偏移距离;
根据所述活跃度密度和所述偏移距离确定所述终端设备的聚类中心点;和
通过所述聚类中心点的所述终端设备传输对应聚类模型中所述终端设备的数据至所述基站。
在某些实施方式中,所述根据预设截断距离、所述数据交互次数、所述终端设备与其它终端设备的距离确定每个所述终端设备的活跃度密度,包括:
根据所述终端设备与所述基站在第一预设时间内的交互次数计算所述终端设备的历史社会相关性;
根据同一聚类模型内所述终端设备与所述终端设备在第二预设时间的交互次数计算所述终端设备的当前社会相关性;
根据所述终端设备的所述历史社会相关性和所述当前社会相关性计算所述终端设备的活跃度值;和
根据所述预设截断距离、所述活跃度值、所述终端设备与其它终端设备的距离确定每个所述终端设备的活跃度密度。
在某些实施方式中,所述根据所述活跃度密度的大小以选择目标终端设备,包括:
以最大活跃度密度对应的所述终端设备设置为所述目标终端设备。
在某些实施方式中,所述计算所述终端设备到所述目标终端设备的偏移距离,包括:
在所述终端设备的所述活跃度密度小于最大活跃度密度的情况下,将所述终端设备与所述目标终端设备的距离最小值设置为偏移距离;
在所述终端设备的所述活跃度密度等于所述最大活跃度密度的情况下,将所述终端设备与所述目标终端设备的距离最大值设置为偏移距离。
在某些实施方式中,所述通过所述聚类中心点的所述终端设备传输对应所述聚类模型中所述终端设备的数据至所述基站,包括:
比较所述聚类中心点的所述终端设备与每个所述基站的距离以确定目标传输基站;
通过所述聚类中心点的所述终端设备传输对应所述聚类模型中所述终端设备的数据至所述目标传输基站。
在某些实施方式中,所述通过所述聚类中心点的所述终端设备传输对应所述聚类模型中所述终端设备的数据至所述基站,还包括:
获取所述聚类模型中所有所述终端设备的数据;
根据所述终端设备的数据大小筛选出训练数据;
传输所述训练数据至对应的所述目标传输基站。
在某些实施方式中,所述基于区块链的联邦学习参与节点选择方法还包括:
根据预设空间向量模型对所述训练数据处理得到线性向量;
根据预设距离函数确定所述线性向量的文本相似度;
通过聚类算法根据所述文本相似度对所述训练数据进行聚类得到聚类结果。
本申请的基于区块链的联邦学习参与节点选择装置,用于物联网系统,所述联邦学习参与节点选择装置包括:
获取模块,用于获取每个所述终端设备与所述基站、其它所述终端设备之间在预设时间内的交互次数和距离;
第一确定模块,用于根据所述活跃度密度的大小以选择目标终端设备;
选择模块,用于根据预设截断距离、所述数据交互次数、所述终端设备与其它终端设备的距离确定每个所述终端设备的活跃度密度;
计算模块,用于计算所述终端设备到所述目标终端设备的偏移距离;
第二确定模块,用于根据所述活跃度密度和所述偏移距离确定所述终端设备的聚类中心点;和
传输模块,用于通过所述聚类中心点的所述终端设备传输对应聚类模型中所述终端设备的数据至所述基站。
本申请的电子设备,包括处理器和存储器;所述存储器中存储有程序,并且所述程序被所述处理器执行,所述程序包括用于执行上述任意一项实施方式的基于区块链的联邦学习参与节点选择方法的指令。
本申请的分易失性计算机可读存储介质,包括计算机程序,当所述计算机程序被处理器执行时,使得所述处理器执行上述任意一项所述的基于区块链的联邦学习参与节点选择方法。
本申请实施方式的基于区块链的联邦学习参与节点选择方法、联邦学习参与节点选择装置、电子设备及计算机可读存储介质中,通过根据终端设备与其它终端设备、基站的交互频率活跃度,对终端设备进行聚类处理,得到多个聚类模型,以及根据基站的交互频率活跃度选出每个聚类模型中积极性高、资源能力多的终端设备作为的聚类中心点,并通过聚类中心点的终端设备将聚类模型内的其它终端设备的数据传输至基站中。如此,使得终端设备既能够长期稳定通信并及时处理任务,还可以减少数据的传输时延。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请某些实施方式的基于区块链的联邦学习参与节点选择方法的流程示意图;
图2是本申请某些实施方式的联邦学习参与节点选择装置的模块示意图;
图3是本申请某些实施方式的物联网系统的模块示意图;
图4-8是本申请某些实施方式的联邦学习参与节点选择方法的流程示意图;
图9是本申请某些实施方式的联邦学习参与节点选择装置的又一模块示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
在当今这个数据大爆炸的时代,物联网(IoT)设备显著地增长产生了大量的数据。如此大量数据的可用性给机器学习在众多应用中实现智能提供了机会。各行各业对数据质量和准确性的要求也日益增长。同时,物联网设备在数据协作共享、数据安全及隐私保护等方面也面临着巨大的挑战。传统的数据处理方式为集中式的机器学习,需要将多方的数据源汇聚起来,统一进行数据处理。这样的做法使得多方的本地数据出库,数据拥有者失去了对数据的所有权且造成数据的隐私泄露问题。
随着区块链与联邦学习技术的快速兴起,相关技术中,可通过区块链技术与联邦学习技术有效地帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据共享和机器学习建模。
然而,现有技术中,更多关注于如何从联邦学习的模型聚合过程中,进行客户端的优化选择,从而影响全局模型的准确率。很少有技术是从物联网设备规模大小角度思考,减少参与节点数量及大规模下传输时延问题。同时,从现有技术的验证方案来说,大部分技术方案针对的是图片识别任务,没有考虑到物联网中终端设备有限的计算和存储资源问题,难以输出和维护结构化的数据。相反,它们在运行过程中会产生更多的非结构化数据,如文本形式的数据等。
有鉴于此,请参阅图1,本申请提供一种基于区块链的联邦学习参与节点选择方法,用于物联网系统,物联网系统包括多个基站和多个终端设备,联邦学习参与节点选择方法包括步骤:
01,获取每个终端设备与基站、其它终端设备之间在预设时间内的交互次数和距离;
02,根据预设截断距离、数据交互次数、终端设备与其它终端设备的距离确定每个终端设备的活跃度密度;
03,根据活跃度密度的大小以选择目标终端设备;
04,计算终端设备到目标终端设备的偏移距离;
05,根据活跃度密度和偏移距离确定终端设备的聚类中心点;和
06,通过聚类中心点的终端设备传输对应聚类模型中终端设备的数据至基站。
请参阅图2,本申请实施方式提供了一种联邦学习参与节点选择装置100。联邦学习参与节点选择装置100包括获取模块110、第一确定模块12、选择模块13、计算模块14、第二确定模块15和传输模块16。
其中,步骤01可以由获取模块110实现,步骤02可以由第一确定模块12实现,步骤03可以由选择模块13实现,步骤04可以由计算模块14实现,步骤05可以由第二确定模块15实现,步骤06可以由传输模块16实现,或者说,获取模块110可以用于获取每个终端设备与基站、其它终端设备之间在预设时间内的交互次数和距离,第一确定模块12可以用于根据预设截断距离、数据交互次数、终端设备与其它终端设备的距离确定每个终端设备的活跃度密度,选择模块13可以用于根据活跃度密度的大小以选择目标终端设备,计算模块14可以用于计算终端设备到目标终端设备的偏移距离,第二确定模块15可以用于根据活跃度密度和偏移距离确定终端设备的聚类中心点,传输模块16可以用于通过聚类中心点的终端设备传输对应聚类模型中终端设备的数据至基站。
本申请还提供了一种电子设备,上述基于区块链的联邦学习参与节点选择方法可以由电子设备完成,电子设备包括处理器。处理器用于获取每个终端设备与基站、其它终端设备之间在预设时间内的交互次数和距离,并根据预设截断距离、数据交互次数、终端设备与其它终端设备的距离确定每个终端设备的活跃度密度,处理器还可用于根据活跃度密度的大小以选择目标终端设备,并计算终端设备到目标终端设备的偏移距离,再根据活跃度密度和偏移距离确定终端设备的聚类中心点,以及通过聚类中心点的终端设备传输对应聚类模型中终端设备的数据至基站。
本申请的基于区块链的联邦学习参与节点选择方法、联邦学习参与节点选择装置和电子设备中,通过根据终端设备与终端设备之间以及与基站之间的交互频率,对终端设备进行聚类处理,得到多个聚类模型,并根据终端设备与终端设备、基站之间的交互频率和聚类模型内终端设备之间的距离,选出每个聚类模型中积极性高、资源能力多的终端设备作为的聚类中心点,再通过聚类中心点的终端设备将聚类模型内的其它终端设备的数据传输至基站中。如此,使得终端设备既能够长期稳定通信并及时处理任务,还可以减少数据的传输时延,提升了物联网系统的效率。
在一些实施方式中,联邦学习参与节点选择装置100可以是预安装于电子设备中的硬件或软件,并在物联网系统上启动运行时可以执行该基于区块链的联邦学习参与节点选择方法。例如,联邦学习参与节点选择装置100可以是无人机中的底层软件代码段或者说是操作系统的一部分。
在一些实施方式中,联邦学习参与节点选择装置100可以是一定方式组装以具有前述功能的分立元件、或者是以集成电路形式存在具有前述功能的芯片、又或者是在计算机上运行时使得计算机具有前述功能的计算机软件代码段。
在一些实施方式中,作为硬件,联邦学习参与节点选择装置100可以是独立或者作为额外增加的外围元件加装到计算机或者计算机系统。联邦学习参与节点选择装置100也可以集成到计算机或者计算机系统,例如,联邦学习参与节点选择装置100是电子设备的一部分时,联邦学习参与节点选择装置100可以集成到处理器上。
请结合图3,需要说明的是,在本实施方式中,物联网系统采用基于区块链共识算法的联邦学习数据安全共享架构。
本领域技术人员可以理解地,联邦学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。
终端设备可以是各种机器、传感器和摄像头等,终端设备能够产生的数据量巨大,并且,终端设备之间的数据存在异构性,终端设备设置有通信单元,终端设备可通过通信单元与附近基站以及其它的终端设备通信从而进行数据交互,如此,可以获取到内容更为丰富的数据样本信息,提高数据使用者的满意度。通信单元可以采用但不限于Wi-Fi、蓝牙、zigbee、Lora或者wimax等无线通信技术。例如,通信单元内置有Lora模块,终端设备之间可通过Lora技术实现无线通信。
还需要说明的是,在本申请中,多个终端设备可通过聚类算法进行划分,从而划分成多簇聚类模型,每簇聚类模型中可包括多个终端设备,并且,多个终端设备之间可进行交互。
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类算法可包括但不限于K-Means(K均值)聚类、均值漂移聚类、基于密度的聚类方法(DBSCAN)或凝聚层次聚类等。
终端设备的活跃度密度的计算公式为:
Figure BDA0003310311010000061
其中,i,j是不同的终端设备,
Figure BDA0003310311010000062
表示终端设备i与x之间互动符号,di,j表示不同终端设备之间的距离,
Figure BDA0003310311010000071
表示终端设备i与其他终端设备或基站的互动频率,
Figure BDA0003310311010000072
可以根据终端设备与基站和其它终端设备之间在预设时间内的交互次数得到;n是终端设备的个数;dc为截断距离,它由参数λ来决定。当di,j<dc
Figure BDA0003310311010000073
越接近1时,活跃度密度值大,表征终端设备的活跃度高、密度大;当di,j>dc
Figure BDA0003310311010000074
越接近0时,该终端设备的活跃度密度值越小,表征终端设备的活跃度低、密度值小。
进而,可比较终端设备之间的活跃度密度值,从而得到最大活跃密度值,以最大活跃度密度对应的终端设备设置为目标终端设备。
进一步地,计算每个终端设备到目标终端设备的偏移距离δi。可以理解的,聚类中心点应该位于高密度中心位置且聚类中心点相互之间应该保持较远的距离。因此,对于每一个终端设备di,可以通过活跃度密度值Ai和偏移距离δi共同决定它们能否成为下一个聚类初始中心点,因此,本申请结合活跃度密度值Ai和偏移距离δi来定义聚类中心点ri,使得聚类初始中心点di应该同时具有较高的Ai和δi值。聚类中心点ri的计算公式为:
ri=Ai×δi
也即是,将活跃度密度值Ai和偏移距离δi都最大的终端设备作为聚类模型中的聚类中的聚类中心点,并将作为聚类中心点的终端设备与基站通信,聚类模型内所有终端设备的数据将数据传输至作为聚类中心点的终端设备,再通过作为聚类中心点的终端设备将数据传输至基站。如此,可以减少数据传输的时间开销。
请参阅图4,在某些实施方式中,步骤02包括子步骤:
021,根据终端设备与基站在第一预设时间内的交互次数计算终端设备的历史社会相关性;
022,根据同一聚类模型内终端设备与终端设备在第二预设时间的交互次数计算终端设备的当前社会相关性;
023,根据终端设备的历史社会相关性和当前社会相关性计算终端设备的活跃度值;
024,根据预设截断距离、活跃度值、终端设备与其它终端设备的距离确定每个终端设备的活跃度密度。
请进一步结合图2,在某些实施方式中,子步骤021-024可以由第一确定模块120实现。
或者说,第一确定模块120可以用于根据终端设备与基站在第一预设时间内的交互次数计算终端设备的历史社会相关性,并根据同一聚类模型内终端设备与终端设备在第二预设时间的交互次数计算终端设备的当前社会相关性。第一确定模块120还可以用于根据终端设备的历史社会相关性和当前社会相关性计算终端设备的活跃度值,以及根据预设截断距离、活跃度值、终端设备与其它终端设备的距离确定每个终端设备的活跃度密度。
在某些实施方式中,处理器可以用于根据终端设备与基站在第一预设时间内的交互次数计算终端设备的历史社会相关性,并根据同一聚类模型内终端设备与终端设备在第二预设时间的交互次数计算终端设备的当前社会相关性。处理器还可以用于根据终端设备的历史社会相关性和当前社会相关性计算终端设备的活跃度值,以及根据预设截断距离、活跃度值、终端设备与其它终端设备的距离确定每个终端设备的活跃度密度。
需要说明的是,在本实施方式中,可采用区块链共识算法对终端设备的活跃度值进行计算,计算公式为:
Figure BDA0003310311010000081
其中,
Figure BDA0003310311010000082
表示为终端设备与基站的历史相关性,
Figure BDA0003310311010000083
表示为在同一个聚类模型内,两个终端设备之间交互的当前社会相关性。α和β为权重常系数,α+β=1。
可以理解地,由于区块链共识算法的运行时间相对较长,为了计算物联网设备与基站的历史社会相关性,本文定义一个长期的时间间隔(第一预设时间),比如全局模型共识次数为100次的时长,记为第一预设时间th100。与前第n个第一预设时间相比,当前的时间是
Figure BDA0003310311010000084
在第一预设时间间隔th100内,终端设备di与基站可能会有交互行为发生。终端设备di的历史社会相关性为:
Figure BDA0003310311010000085
其中,N表征系统中所包含的物联网设备数量,M表征系统中的基站单元数量,
Figure BDA0003310311010000086
表征终端设备的历史记录交互次数。在第一预设时间内,若
Figure BDA0003310311010000087
则表示该终端设备di没有积极参与交互,也说明在聚类过程中终端设备di不能有机会成为聚类中心点,同时无法担任验证节点角色参与整个区块链共识算法的运行。因此,它们的历史社会相关性等于0。
终端设备di的当前社会相关性
Figure BDA0003310311010000088
的计算公式为:
Figure BDA0003310311010000091
其中,C表征一个聚类模型内的终端设备数量,th50表征第二预设时间,第二预设时间th50短于第一预设时间th100
Figure BDA0003310311010000092
表征聚类模型内终端设备之间的交互次数。
请参阅图5,在某些实施方式中,步骤04包括子步骤:
041,在终端设备的活跃度密度小于最大活跃度密度的情况下,将终端设备与目标终端设备的距离最小值设置为偏移距离;
042,在终端设备的活跃度密度为最大活跃度密度的情况下,将终端设备与目标终端设备的距离最大值设置为偏移距离。
请进一步结合图2,在某些实施方式中,子步骤041-042可以由计算模块140实现。
或者说,计算模块140可以用于在终端设备的活跃度密度小于最大活跃度密度的情况下,将终端设备与目标终端设备的距离最小值设置为偏移距离,计算模块140还可用于在终端设备的活跃度密度为最大活跃度密度的情况下,将终端设备与目标终端设备的距离最大值设置为偏移距离。
在某些实施方式中,处理器可以用于在终端设备的活跃度密度小于最大活跃度密度的情况下,将终端设备与目标终端设备的距离最小值设置为偏移距离,并在终端设备的活跃度密度为最大活跃度密度的情况下,将终端设备与目标终端设备的距离最大值设置为偏移距离。
具体地,偏移距离δi的计算公式为:
Figure BDA0003310311010000093
其中,di,j表示当前终端设备与目标终端设备之间的距离,Ai表示当前终端设备的活跃度密度值,Aj表示目标终端设备的最大活跃度密度值。也即是,如果终端设备i的活跃度密度值为最大活跃度密度值,则偏移距离则取最大偏移距离,如果终端设备i的活跃度密度值不是最大活跃度密度值,那么首先找出活跃度密度值大于当前终端设备i的目标终端设备j,再选取这些目标终端设备j中与当前终端设备i距离最近的目标终端设备j的距离作为偏移距离δi
请参阅图6,在某些实施方式中,步骤06包括子步骤:
061,比较聚类中心点的终端设备与每个基站的距离以确定目标传输基站;
062,通过聚类中心点的终端设备传输对应聚类模型中终端设备的数据至目标传输基站。
在某些实施方式中,子步骤061-062可以由传输模块160实现。或者说,传输模块160可以用于比较聚类中心点的终端设备与每个基站的距离以确定目标传输基站,以及通过聚类中心点的终端设备传输对应聚类模型中终端设备的数据至目标传输基站。
在某些实施方式中,处理器用于比较聚类中心点的终端设备与每个基站的距离以确定目标传输基站,以及通过聚类中心点的终端设备传输对应聚类模型中终端设备的数据至目标传输基站。
聚类中心点的终端设备与基站的距离ds的计算公式可以为:
Figure BDA0003310311010000101
其中,Rix,Riy分别表示基站Ri的坐标位置;Lix,Liy分别表示聚类中心点的终端设备Li的坐标位置。
在本实施方式中,将与聚类中心点的终端设备距离最小的基站作为目标基站。可以理解地,基站可包括多个,由于聚类中心点的终端设备与基站的距离越近,则传输效率越好,从而可以节省传输时间。因此,可计算聚类中心点的终端设备与每个基站的距离,从而选择与距离中心点的终端设备距离最近的基站作为传输对象。如此,可以进一步地提升物联网系统的数据传输效率。
请结合图7,在某些实施方式中,步骤06包括子步骤:
063,获取聚类模型中所有终端设备的数据;
064,根据终端设备的数据大小筛选出训练数据;
065,传输训练数据至对应的目标传输基站。
在某些实施方式中,子步骤063-065可以由传输模块160实现。或者说,传输模块160可以用于获取聚类模型中所有终端设备的数据;传输模块160还可以用于根据终端设备的数据大小筛选出训练数据,或者传输训练数据至对应的目标传输基站。
在某些实施方式中,处理器可用于获取聚类模型中所有终端设备的数据,处理器还可以用于根据终端设备的数据大小筛选出训练数据,或者传输训练数据至对应的目标传输基站。
可以理解地,由于在一个聚类模型中,可能存在多个终端设备,每个终端设备可能产生很多数据,而有些终端设备产生的数据质量差,而当作为聚类中心点的终端设备接收到是聚类模型中所有终端设备的数据,数据量庞大,因此,在作为聚类中心点的终端设备接收到是聚类模型中所有终端设备的数据时,可以对比每个终端设备传输的数据的大小,进而将初步筛选出数据质量差的终端设备,将相应的数据丢弃,得到训练数据。如此,可以保证向目标传输基站的数据的质量,并且,也可以进一步地提升传输效率。
请结合图8,在某些实施方式中,基于区块链的联邦学习参与节点选择方法还包括:
07,根据预设空间向量模型对训练数据处理得到线性向量;
08,根据预设距离函数确定线性向量的文本相似度;
09,通过聚类算法根据文本相似度对训练数据进行聚类得到聚类结果。
请结合图9,在某些实施方式中,联邦学习参与节点选择装置还包括处理模块170和分类模块180。其中,步骤07可以由处理模块170实现,步骤08可以由第一确定模块120实现,步骤09可以由分类模块180实现。或者说,处理模块170可以用于根据预设空间向量模型对训练数据处理得到线性向量,第一确定模块120还可用于根据预设距离函数确定线性向量的文本相似度,分类模块180可用于通过聚类算法根据文本相似度对训练数据进行聚类得到聚类结果。
在某些实施方式中,处理器可以用于根据预设空间向量模型对训练数据处理得到线性向量,并根据预设距离函数确定线性向量的文本相似度,以及通过聚类算法根据文本相似度对训练数据进行聚类得到聚类结果。
需要说明的是,由于本申请中,物联网系统采用的基于区块链共识算法的联邦学习数据安全共享架构。因此,本申请的物联网系统在运行过程中是产生文本形式的数据,也即是,训练数据可以为文本数据。
为了多方间数据共享的联邦学习能够实现高效的数据检索,在本实施方式中,将训练数据先进行分类处理,从而,再根据分类后的训练数据再输入机器学习中训练数据模型,如此,可以进一步地提升训练效率。
其中,预设空间向量模型可采用TF-IDF技术对训练数据进行处理,从而将训练数据转换成线性向量。需要说明的是,TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
预设距离函数可以为Jaccard相似系数(Jaccard similarity coefficient),Jaccard相似系数用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。也即是,本申请中,可以通过Jaccard相似系数来线性向量的文本相似度。
聚类算法可以为k均值聚类算法(k-means clustering algorithm),k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。
如此,可以将相关的训练数据归类至一起,从而在查找与数据请求任务相关的数据拥有者时,可实现高效的数据检索。
在一些实施方式中,本申请的电子设备还包括存储器,存储器存储有一个或多个程序,并且被处理器执行,程序被处理器执行上述任意一项实施方式的基于区块链的联邦学习参与节点选择方法的指令。
本申请实施方式还提供了一种非易失性计算机可读存储介质,计算机读存储介质存储有计算机程序,当计算机程序被一个或多个处理器执行时,使得处理器执行上述的基于区块链的联邦学习参与节点选择方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于区块链的联邦学习参与节点选择方法,用于物联网系统,其特征在于,所述物联网系统包括多个基站和多个终端设备,所述联邦学习参与节点选择方法包括:
获取每个所述终端设备与所述基站、其它所述终端设备之间在预设时间内的交互次数和距离;
根据预设截断距离、所述数据交互次数、所述终端设备与其它终端设备的距离确定每个所述终端设备的活跃度密度;
根据所述活跃度密度的大小以选择目标终端设备;
计算所述终端设备到所述目标终端设备的偏移距离;
根据所述活跃度密度和所述偏移距离确定所述终端设备的聚类中心点;和
通过所述聚类中心点的所述终端设备传输对应聚类模型中所述终端设备的数据至所述基站。
2.如权利要求1所述的基于区块链的联邦学习参与节点选择方法,其特征在于,所述根据预设截断距离、所述数据交互次数、所述终端设备与其它终端设备的距离确定每个所述终端设备的活跃度密度,包括:
根据所述终端设备与所述基站在第一预设时间内的交互次数计算所述终端设备的历史社会相关性;
根据同一所述聚类模型内所述终端设备与所述终端设备在第二预设时间的交互次数计算所述终端设备的当前社会相关性;
根据所述终端设备的所述历史社会相关性和所述当前社会相关性计算所述终端设备的活跃度值;和
根据所述预设截断距离、所述活跃度值、所述终端设备与其它终端设备的距离确定每个所述终端设备的活跃度密度。
3.如权利要求1所述的基于区块链的联邦学习参与节点选择方法,其特征在于,所述根据所述活跃度密度的大小以选择目标终端设备,包括:
以最大活跃度密度对应的所述终端设备设置为所述目标终端设备。
4.如权利要求3所述的基于区块链的联邦学习参与节点选择方法,其特征在于,所述计算所述终端设备到所述目标终端设备的偏移距离,包括:
在所述终端设备的所述活跃度密度小于最大活跃度密度的情况下,将所述终端设备与所述目标终端设备的距离最小值设置为偏移距离;
在所述终端设备的所述活跃度密度等于所述最大活跃度密度的情况下,将所述终端设备与所述目标终端设备的距离最大值设置为偏移距离。
5.如权利要求1所述的基于区块链的联邦学习参与节点选择方法,其特征在于,所述通过所述聚类中心点的所述终端设备传输对应所述聚类模型中所述终端设备的数据至所述基站,包括:
比较所述聚类中心点的所述终端设备与每个所述基站的距离以确定目标传输基站;
通过所述聚类中心点的所述终端设备传输对应所述聚类模型中所述终端设备的数据至所述目标传输基站。
6.如权利要求5所述的基于区块链的联邦学习参与节点选择方法,其特征在于,所述通过所述聚类中心点的所述终端设备传输对应所述聚类模型中所述终端设备的数据至所述基站,还包括:
获取所述聚类模型中所有所述终端设备的数据;
根据所述终端设备的数据大小筛选出训练数据;
传输所述训练数据至对应的所述目标传输基站。
7.如权利要求6所述的基于区块链的联邦学习参与节点选择方法,其特征在于,所述联邦学习参与节点选择方法还包括:
根据预设空间向量模型对所述训练数据处理得到线性向量;
根据预设距离函数确定所述线性向量的文本相似度;
通过聚类算法根据所述文本相似度对所述训练数据进行聚类得到聚类结果。
8.一种基于区块链的联邦学习参与节点选择装置,用于物联网系统,其特征在于,所述联邦学习参与节点选择装置包括:
获取模块,用于获取每个所述终端设备与所述基站、其它所述终端设备之间在预设时间内的交互次数和距离;
第一确定模块,用于根据所述活跃度密度的大小以选择目标终端设备;
选择模块,用于根据预设截断距离、所述数据交互次数、所述终端设备与其它终端设备的距离确定每个所述终端设备的活跃度密度;
计算模块,用于计算所述终端设备到所述目标终端设备的偏移距离;
第二确定模块,用于根据所述活跃度密度和所述偏移距离确定所述终端设备的聚类中心点;和
传输模块,用于通过所述聚类中心点的所述终端设备传输对应聚类模型中所述终端设备的数据至所述基站。
9.一种电子设备,用于物联网系统,其特征在于,包括处理器和存储器,所述存储器存储有至少一个程序,并且所述程序被所述处理器执行,所述程序包括用于执行如权利要求1-7任意一项所述的基于区块链的联邦学习参与节点选择方法的指令。
10.一种计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时,使得所述处理器执行权利要求1-7中任一项所述的基于区块链的联邦学习参与节点选择方法。
CN202111214690.7A 2021-10-19 2021-10-19 一种基于区块链的联邦学习参与节点选择方法 Pending CN114095503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111214690.7A CN114095503A (zh) 2021-10-19 2021-10-19 一种基于区块链的联邦学习参与节点选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111214690.7A CN114095503A (zh) 2021-10-19 2021-10-19 一种基于区块链的联邦学习参与节点选择方法

Publications (1)

Publication Number Publication Date
CN114095503A true CN114095503A (zh) 2022-02-25

Family

ID=80297157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111214690.7A Pending CN114095503A (zh) 2021-10-19 2021-10-19 一种基于区块链的联邦学习参与节点选择方法

Country Status (1)

Country Link
CN (1) CN114095503A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115550849A (zh) * 2022-10-08 2022-12-30 广州爱浦路网络技术有限公司 终端设备选择方法、装置、网络设备及存储介质
CN115994588A (zh) * 2023-03-16 2023-04-21 杭州海康威视数字技术股份有限公司 基于区块链与合同理论的联邦学习方法、装置及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200034665A1 (en) * 2018-07-30 2020-01-30 DataRobot, Inc. Determining validity of machine learning algorithms for datasets
CN110969198A (zh) * 2019-11-24 2020-04-07 广东浪潮大数据研究有限公司 深度学习模型的分布式训练方法、装置、设备及存储介质
CN112101579A (zh) * 2020-11-18 2020-12-18 杭州趣链科技有限公司 基于联邦学习的机器学习方法、电子装置和存储介质
CN112256874A (zh) * 2020-10-21 2021-01-22 平安科技(深圳)有限公司 模型训练方法、文本分类方法、装置、计算机设备和介质
CN112287244A (zh) * 2020-10-29 2021-01-29 平安科技(深圳)有限公司 基于联邦学习的产品推荐方法、装置、计算机设备及介质
CN112465626A (zh) * 2020-11-24 2021-03-09 平安科技(深圳)有限公司 基于客户端分类聚合的联合风险评估方法及相关设备
CN112925989A (zh) * 2021-01-29 2021-06-08 中国计量大学 一种属性网络的群体发现方法及系统
US20210174257A1 (en) * 2019-12-04 2021-06-10 Cerebri AI Inc. Federated machine-Learning platform leveraging engineered features based on statistical tests

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200034665A1 (en) * 2018-07-30 2020-01-30 DataRobot, Inc. Determining validity of machine learning algorithms for datasets
CN110969198A (zh) * 2019-11-24 2020-04-07 广东浪潮大数据研究有限公司 深度学习模型的分布式训练方法、装置、设备及存储介质
US20210174257A1 (en) * 2019-12-04 2021-06-10 Cerebri AI Inc. Federated machine-Learning platform leveraging engineered features based on statistical tests
CN112256874A (zh) * 2020-10-21 2021-01-22 平安科技(深圳)有限公司 模型训练方法、文本分类方法、装置、计算机设备和介质
CN112287244A (zh) * 2020-10-29 2021-01-29 平安科技(深圳)有限公司 基于联邦学习的产品推荐方法、装置、计算机设备及介质
CN112101579A (zh) * 2020-11-18 2020-12-18 杭州趣链科技有限公司 基于联邦学习的机器学习方法、电子装置和存储介质
CN112465626A (zh) * 2020-11-24 2021-03-09 平安科技(深圳)有限公司 基于客户端分类聚合的联合风险评估方法及相关设备
CN112925989A (zh) * 2021-01-29 2021-06-08 中国计量大学 一种属性网络的群体发现方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115550849A (zh) * 2022-10-08 2022-12-30 广州爱浦路网络技术有限公司 终端设备选择方法、装置、网络设备及存储介质
CN115550849B (zh) * 2022-10-08 2023-06-06 广州爱浦路网络技术有限公司 终端设备选择方法、装置、网络设备及存储介质
CN115994588A (zh) * 2023-03-16 2023-04-21 杭州海康威视数字技术股份有限公司 基于区块链与合同理论的联邦学习方法、装置及设备
CN115994588B (zh) * 2023-03-16 2023-07-25 杭州海康威视数字技术股份有限公司 基于区块链与合同理论的数据处理方法、装置及设备

Similar Documents

Publication Publication Date Title
US11232152B2 (en) Efficient processing of neighborhood data
CN110321422B (zh) 在线训练模型的方法、推送方法、装置以及设备
US11526799B2 (en) Identification and application of hyperparameters for machine learning
US10102227B2 (en) Image-based faceted system and method
US9633311B2 (en) Decision tree learning
Ianni et al. Fast and effective Big Data exploration by clustering
US10467229B2 (en) Query-time analytics on graph queries spanning subgraphs
WO2022007434A1 (zh) 可视化方法及相关设备
US20120158623A1 (en) Visualizing machine learning accuracy
US20140040262A1 (en) Techniques for cloud-based similarity searches
CN114095503A (zh) 一种基于区块链的联邦学习参与节点选择方法
WO2022001918A1 (zh) 构建预测模型的方法、装置、计算设备和存储介质
US8756216B1 (en) Scalable tree builds for content descriptor search
CN104077723B (zh) 一种社交网络推荐系统及方法
CN106605222B (zh) 有指导的数据探索
CN108319628B (zh) 一种用户兴趣确定方法及装置
Kaur et al. Dynamic resource allocation for big data streams based on data characteristics (5 V s)
US11599561B2 (en) Data stream analytics
CN113807926A (zh) 推荐信息生成方法、装置、电子设备和计算机可读介质
WO2021245327A1 (en) Collaborative machine learning
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
JP2014215685A (ja) レコメンドサーバおよびレコメンドコンテンツ決定方法
EP2172821A1 (en) Aggregation server with industrial automation control and information visualization placeshifting
JP7491459B2 (ja) 分類装置、分類方法、および、分類プログラム
US10732983B1 (en) Systems and methods of parallel and distributed processing of datasets for model approximation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination