CN113128692B - 无线分布式机器学习中数据获取处理的方法、装置及系统 - Google Patents

无线分布式机器学习中数据获取处理的方法、装置及系统 Download PDF

Info

Publication number
CN113128692B
CN113128692B CN201911406059.XA CN201911406059A CN113128692B CN 113128692 B CN113128692 B CN 113128692B CN 201911406059 A CN201911406059 A CN 201911406059A CN 113128692 B CN113128692 B CN 113128692B
Authority
CN
China
Prior art keywords
data
importance
edge
target model
transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911406059.XA
Other languages
English (en)
Other versions
CN113128692A (zh
Inventor
张剑
钟绍宸
孙学文
王奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Chaoxing Future Technology Co ltd
Original Assignee
Beijing Chaoxing Future Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Chaoxing Future Technology Co ltd filed Critical Beijing Chaoxing Future Technology Co ltd
Priority to CN201911406059.XA priority Critical patent/CN113128692B/zh
Publication of CN113128692A publication Critical patent/CN113128692A/zh
Application granted granted Critical
Publication of CN113128692B publication Critical patent/CN113128692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0231Traffic management, e.g. flow control or congestion control based on communication conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/06Optimizing the usage of the radio link, e.g. header compression, information sizing, discarding information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • H04W28/18Negotiating wireless communication parameters
    • H04W28/22Negotiating communication rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/502Proximity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本说明书公开一种无线分布式机器学习中数据获取处理的方法、装置及系统,其中适于在边缘计算服务器上执行的数据获取方法,包括:根据当前训练集训练目标模型,根据重要性估计值定义,在测试集上得到重要性均值Lave,所述重要性评估值为当前目标模型对数据样本的模型输出与数据样本的标准输出差值的二范数的平方;测量各边缘设备的传输速率,选择传输速率最大的边缘设备发送传输触发命令;接收到被选择的边缘设备发送的数据后,计算每一数据的重要性评估值,将该重要性评估值与预设的重要性阈值θLave比较,若大于该阈值,则要求设备端重传数据,否则继续接收新数据;当接收的数据达到预设的数目后,通过当前训练集对目标模型进行训练,以更新目标模型。

Description

无线分布式机器学习中数据获取处理的方法、装置及系统
技术领域
本发明涉及通信技术领域,具体而言,涉及一种无线分布式机器学习中数据获取处理的方法、装置及系统。
背景技术
随着物联网、车联网等技术的发展和大规模智能终端的部署,边缘计算在处理终端产生的大量数据发挥着越来越重要的作用,针对边缘计算中的设备部署、资源分配、性能优化的研究也越来越多。相关的研究从各种不同的方面入手优化边缘计算的通信性能或将边缘计算方法结合实际应用中。相关的边缘计算技术主要研究如何通过资源的分配提高信道利用率、最大化通信容量、降低时延,但不会考虑传输的数据本身对于模型训练的影响。为了提高通信效率,常常会对通信数据进行压缩,但数据的有损压缩会带来信息的损失,所以需要在数据大小和信息损失之间进行权衡。训练数据中信息的损失,可能在特征空间中将训练数据移至分类超平面的另一端,从而对模型的训练带来负面影响,此时应调整压缩率减少信息的损失。在边缘学习中,优化的目标还应包括模型的性能,当前模型对此数据的特征提取、分析的能力较弱,这样的数据应提供更多的细节信息帮助模型学习对这类数据的处理方法。所以通信方案的设计除了获得更高的通信容量外,还应考虑到提高传输数据的总重要性。
综上,如何提高通信中数据质量,优化模型的性能,成为亟待解决的问题。
发明内容
本说明书提供一种无线分布式机器学习中数据获取处理的方法、装置及系统,用以克服现有技术中存在的至少一个技术问题。
根据本说明书实施例的第一方面,提供一种无线分布式机器学习中的数据获取方法,适于在边缘计算服务器上执行,包括:根据当前训练集训练目标模型,得到当前目标模型;基于当前目标模型,对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值Lave,所述重要性评估值为当前目标模型对数据样本的模型输出与数据样本的标准输出之间差值的二范数的平方,所述重要性评估值表征当前目标模型对该数据样本的分析能力;设置阈值θ,根据重要性均值Lave,得到重要性阈值θLave;测量与各边缘设备的信道条件,根据所述信道条件计算各边缘设备对应的传输速率,选择传输速率最大的边缘设备发送传输触发命令;接收被选择的边缘设备发送的数据;计算接收到的每一数据的重要性评估值L,若该数据的重要性评估值L大于重要性阈值θLave,且该数据的压缩率未达到数据传输的最大压缩率,则向被选择的边缘设备发送该数据的重传请求命令;若该数据的重要性评估值L不大于重要性阈值θLave,或该数据的压缩率已达到传输的最大压缩率,则将该数据加入当前训练集,并且继续根据各边缘设备发送的对应的信道条件选择传输数据的边缘设备;当接收到的数据达到预设的数目后,通过当前训练集对目标模型进行训练,得到参数更新后的目标模型。
可选地,所述重要性评估值的定义包括:
L=||F(x)-Gt||2
其中,L为数据样本(x,Gt)对应的数据重要性,F(x)为当前目标模型对数据样本的模型输出,Gt为该数据样本的标准输出。
可选地,所述测量与各边缘设备的信道条件,根据所述信道条件计算各边缘设备对应的传输速率,选择传输速率最大的边缘设备发送传输触发命令的步骤,包括:测量与各边缘设备的信道条件,根据所述信道条件获得与各边缘设备之间当前信号传输的信噪比;根据所述信噪比,通过香农公式计算对应的传输速率;选择传输速率最大的边缘设备发送传输触发命令。
根据本说明书实施例的第二方面,提供一种无线分布式机器学习中的数据处理方法,适于在边缘设备上执行,包括:接收边缘计算服务器发送的传输触发命令,随机选取数据,以第一压缩率对数据进行压缩,并传输该压缩数据;若接收到边缘计算服务器发送的对应数据的重传请求命令,则以第二压缩率对该数据进行压缩,并向边缘计算服务器发送第二压缩率下的压缩数据,所述第二压缩率大于所述第一压缩率,所述第二压缩率不大于数据传输的最大压缩率。
根据本说明书实施例的第三方面,提供一种边缘计算服务器,包括模型训练模块、均值计算模块、阈值计算模块、设备选择模块、数据接收模块、评估模块、更新模块,其中:模型训练模块,被配置为根据当前训练集训练目标模型,得到当前目标模型;均值计算模块,被配置为基于当前目标模型,对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值Lave,所述重要性评估值为当前目标模型对数据样本的模型输出与数据样本的标准输出之间差值的二范数的平方,所述重要性评估值表征当前目标模型对该数据样本的分析能力;阈值计算模块,被配置为设置阈值θ,根据重要性均值Lave,得到重要性阈值θLave;设备选择模块,被配置为测量与各边缘设备的信道条件,根据所述信道条件计算各边缘设备对应的传输速率,选择传输速率最大的边缘设备发送传输触发命令;数据接收模块,被配置为接收被选择的边缘设备发送的数据;评估模块,被配置为,计算接收到的每一数据的重要性评估值L,若该数据的重要性评估值L大于重要性阈值θLave,且该数据的压缩率未达到数据传输的最大压缩率,则向被选择的边缘设备发送该数据的重传请求命令;若该数据的重要性评估值L不大于重要性阈值θLave,或该数据的压缩率已达到传输的最大压缩率,则将该数据加入当前训练集,并且继续根据各边缘设备发送的对应的信道条件选择传输数据的边缘设备;更新模块,被配置为当接收到的数据达到预设的数目后,通过当前训练集对目标模型进行训练,得到参数更新后的目标模型。
可选地,所述均值计算模块中重要性评估值的定义包括:
L=||F(x)-Gt||2
其中,L为数据样本(x,Gt)对应的数据重要性,F(x)为当前目标模型对数据样本的模型输出,Gt为该数据样本的标准输出。
可选地,所述设备选择模块包括测量单元、计算单元、选择单元,其中:测量单元,被配置为测量与各边缘设备的信道条件,根据所述信道条件获得与各边缘设备之间当前信号传输的信噪比;计算单元,被配置为根据所述信噪比,通过香农公式计算对应的传输速率;选择单元,被配置为选择传输速率最大的边缘设备发送传输触发命令。
根据本说明书实施例的第四方面,提供一种边缘设备,包括发送模块、重传模块,其中:发送模块,被配置为接收边缘计算服务器发送的传输触发命令,随机选取数据,以第一压缩率对数据进行压缩,并传输该压缩数据;重传模块,被配置为若接收到边缘计算服务器发送的对应数据的重传请求命令,则以第二压缩率对该数据进行压缩,并向边缘计算服务器发送第二压缩率下的压缩数据,所述第二压缩率大于所述第一压缩率,所述第二压缩率不大于数据传输的最大压缩率。
根据本说明书实施例的第五方面,提供一种系统,包括至少一个边缘计算服务器和至少一个边缘设备,所述边缘计算服务器包括第一存储模块,所述边缘设备包括第二存储模块,所述第一存储模块存储有第一程序,所述第二存储模块存储有第二程序,当所述第一程序被执行时,所述边缘计算服务器执行上述中任一项适于在边缘计算服务器上执行的无线分布式机器学习中的数据获取方法;当所述第二程序被执行时,所述边缘设备执行上述适于在边缘设备上执行的无线分布式机器学习中的数据处理方法。
本说明书实施例的有益效果如下:
本说明书实施例中,边缘计算服务器根据当前目标模型对测试集数据样本的模型输出与数据样本标准输出之间的差距获得测试集重要性均值Lave,以此表征当前目标模型对测试集数据样本的平均分析能力,进而设置重要性阈值θLave作为评价标准来筛选从边缘设备端接收的数据。边缘计算服务器比较与各边缘设备之间的传输速率,选择传输速率最大的设备发送数据传输触发命令。在边缘计算服务器接收到边缘设备发送的数据后,计算每一数据的重要性评估值,并将所述重要性评估值与设置重要性阈值θLave作比较,若所述重要性评估值大于所述重要性阈值θLave,且该数据的压缩率未达到数据传输的最大压缩率,则向边缘设备发送该数据的重传请求命令,以使对应的边缘设备提高该数据的压缩率后再次传输该数据,从而获得该数据的更多信息,有利于目标模型的训练,从而提高模型的训练性能,提高了目标模型的训练数据的总质量,具有进步意义。
本说明书实施例的创新点包括:
1、本实施例中边缘计算服务器根据当前目标模型对测试集数据样本的模型输出与数据样本标准输出之间的差距获得测试集重要性均值Lave,以此表征当前目标模型对测试集数据样本的平均分析能力,进而设置重要性阈值θLave作为评价标准来筛选从边缘设备端接收的数据。边缘计算服务器比较与各边缘设备之间的传输速率,选择传输速率最大的设备发送数据传输触发命令。在边缘计算服务器接收到边缘设备发送的数据后,计算每一数据的重要性评估值,并将所述重要性评估值与设置重要性阈值θLave作比较,若所述重要性评估值大于所述重要性阈值θLave,且该数据的压缩率未达到数据传输的最大压缩率,则向边缘设备发送该数据的重传请求命令,以使对应的边缘设备提高该数据的压缩率后再次传输该数据,从而获得该数据的更多信息,有利于目标模型的训练,从而提高模型的训练性能,提高了目标模型的训练数据的总质量,是本说明书实施例的创新点之一。
2、本实施例中,所述重要性评估值为当前目标模型输出与标准输出的差值的二范数的平方,用模型训练中的Loss定义数据重要性评估,该定义适用于大多数机器学习模型,从而可利用数据重要性评估值对机器学习系统设计通信方案,具有应用广泛性、可迁移性,是本说明书实施例的创新点之一。
3、本实施例中,边缘计算服务器接收被选择设备发送的数据后,依据当前目标模型对该数据的分析能力,评价该数据对于目标模型训练的重要性大小,若所述重要性评估值大于当前目标模型在测试集上获得的重要性均值的预设倍数,则对于该数据需要更多的信息,向边缘设备请求提高该数据的压缩率并重新发送该数据,从而能避免数据压缩率较小带来的数据损失对当前模型训练造成的不利影响,使得模型的训练效率更高,获得的训练数据的质量显著提高,是本说明书实施例的创新点之一。
4、本实施例中,边缘设备接收到边缘计算服务器发送的相应数据的重传请求命令后,以更大的压缩率重新传输该数据,而提高该压缩率是为了提供该数据的更多信息,从而使得当前目标模型对该数据的分析能力在一定程度上提高,避免数据的有损压缩给模型训练造成不利的影响,并且提供该数据的更多信息有利于目标模型学习该较难分析的数据样本,有利于模型性能的优化,提高训练速度,是本说明书实施例的创新点之一。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个实施例提供的适于在边缘计算服务器上执行的一种无线分布式机器学习中的数据获取方法的流程示意图;
图2为本说明书一个实施例提供的适于在边缘设备上执行的一种无线分布式机器学习中的数据处理方法的流程示意图;
图3为本说明书一个实施例提供的一种无线分布式机器学习中的数据获取、数据处理方法的原理示意图;
图4为本说明书一个实施例提供的一种边缘计算服务器的结构示意图;
图5为本说明书一个实施例提供的一种边缘设备的结构示意图;
图6为本说明书一个实施例提供的一种系统的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本说明书实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明考虑利用边缘计算进行机器学习模型训练的场景,由物联网、车联网等场景中部署的边缘设备进行训练数据的采集,并将训练数据传输至边缘计算服务器用于模型训练。对于模型训练,不同的训练数据样本的重要性是不同的,利用这一特点可对通信方案设计进行优化,从而实现通信资源限制下的机器学习模型性能的最优化。
边缘计算服务器要对从各个边缘设备发送来的数据进行筛选,需要将对当前目标模型训练更关键的数据筛选出来,筛选出的是当前模型对该数据的分析或预测较差的数据,那么需要相应的边缘设备提供该数据更多的信息以利于当前模型进行学习,于是要求边缘设备提高该数据的压缩率,重新传输该数据。
本说明书实施例公开了一种无线分布式机器学习中数据获取处理的方法、装置及系统。以下分别进行详细说明。
图1为本说明书一个实施例提供的适于在边缘计算服务器上执行的一种无线分布式机器学习中的数据获取方法的流程示意图。如图1所示,本说明书实施例提供一种无线分布式机器学习中的数据获取方法方法,适于在边缘计算服务器上执行,其特征在于,包括:
S110,根据当前训练集训练目标模型,得到当前目标模型。
边缘计算服务器上储存有一部分数据样本作为初始训练集,在接收各边缘设备传输的数据之前,通过初始训练集得到初始的目标模型。
S120,基于当前目标模型,对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值Lave,所述重要性评估值为当前目标模型对数据样本的模型输出与数据样本的标准输出之间差值的二范数的平方,所述重要性评估值表征当前目标模型对该数据样本的分析能力。
S130,设置阈值θ,根据重要性均值Lave,得到重要性阈值θLave
边缘计算服务器要对边缘设备发来的数据进行筛选,需要建立评价数据的标准,在测试集上获取当前模型对测试集数据的平均分析能力的评估值,以此评估值作为基础建立评价标准,即所述重要性阈值,通过调整阈值θ能够对筛选数据的标准进行调整,具有灵活性和可调性,便于应对不同情况下的数据需求。
在一个具体实施例中,所述重要性评估值的定义包括:
L=||F(x)-Gt||2
其中,L为数据样本(x,Gt)对应的数据重要性,F(x)为当前目标模型对数据样本的模型输出,Gt为该数据样本的标准输出。
本具体实施例中,用模型训练中的Loss定义数据的重要性评估值,该定义适用于大多数机器学习模型,从而可利用数据重要性评估值对机器学习设计通信方案,具有应用广泛性、可迁移性。
S140,测量与各边缘设备的信道条件,根据所述信道条件计算各边缘设备对应的传输速率,选择传输速率最大的边缘设备发送传输触发命令。
在通信系统中,需要根据各边缘设备所处的环境决定信道的分配,对于处于通信质量更高的环境中的边缘设备,应有更高的概率被分配到信道,获得传输数据的机会。边缘计算服务器测量与各边缘设备的信道条件,计算对应设备的传输速率,选择传输速率最大的边缘设备发送传输触发命令,以使处于通信质量更高的环境中的边缘设备获得传输数据的机会,有利于提高通信的效率。
在一个具体实施例中,所述测量与各边缘设备的信道条件,根据所述信道条件计算各边缘设备对应的传输速率,选择传输速率最大的边缘设备发送传输触发命令的步骤,包括:
测量与各边缘设备的信道条件,根据所述信道条件获得与各边缘设备之间当前信号传输的信噪比;根据所述信噪比,通过香农公式计算对应的传输速率;选择传输速率最大的边缘设备发送传输触发命令。
边缘计算服务器利用信道条件测量算法测量信道条件,计算传输速率,进而选择传输速率最大的边缘设备发送传输触发命令,本发明对于具体的信道测量算法不作限定。
S150,接收被选择的边缘设备发送的数据。
边缘服务器接收由其选择的边缘设备传输的数据,在利用所述数据训练模型之前,要对接收的数据进行筛选。筛选的目的是,将那些当前目标模型分析能力较弱或者学习效果较差的数据挑选出来,使得设备端提高该数据的压缩率并重传,即增加获取该数据的信息量,从而更有利于当前目标模型的训练。
S160,计算接收到的每一数据的重要性评估值L,若该数据的重要性评估值L大于重要性阈值θLave,且该数据的压缩率未达到数据传输的最大压缩率,则向被选择的边缘设备发送该数据的重传请求命令;若该数据的重要性评估值L不大于重要性阈值θLave,或该数据的压缩率已达到传输的最大压缩率,则将该数据加入当前训练集,并且继续根据各边缘设备发送的对应的信道条件选择传输数据的边缘设备。
边缘计算服务器接收被选择设备的发送的数据后,计算该数据重要性评估值,若该重要性评估值大于当前目标模型在测试集上获得的重要性均值的预设倍数,则对于该数据需要更多的信息,向边缘设备请求提高该数据的压缩率并重新发送该数据,从而能避免数据压缩率较小带来的数据损失对当前模型训练造成不利影响,使得模型的训练效率更高,获得的训练数据的质量显著提高
S170,当接收到的数据达到预设的数目后,通过当前训练集对目标模型进行训练,得到参数更新后的目标模型。
边缘计算服务器不断接收数据加入训练集,训练模型以更新模型参数。
本实施例中,边缘计算服务器在测试集上获得重要性均值Lave,进而设置重要性阈值θLave作为评价标准来筛选从边缘设备端接收的数据。边缘计算服务器比较与各边缘设备之间的传输速率,选择传输速率最大的设备发送数据传输触发命令。在边缘计算服务器接收到边缘设备发送的数据后,计算每一数据的重要性评估值,并将所述重要性评估值与设置重要性阈值θLave作比较,若所述重要性评估值大于所述重要性阈值θLave,且该数据的压缩率未达到数据传输的最大压缩率,则向边缘设备发送该数据的重传请求命令,以使对应的边缘设备提高该数据的压缩率后再次传输该数据,获得该数据的更多信息,有利于目标模型的训练,从而提高模型的训练性能,提高了目标模型的训练数据的总质量。
图2为本说明书一个实施例提供的适于在边缘设备上执行的一种无线分布式机器学习中的数据处理方法的流程示意图。如图2所示,本说明书实施例提供一种无线分布式机器学习中的数据处理方法,适于在边缘设备上执行,包括:
S210,接收边缘计算服务器发送的传输触发命令,随机选取数据,以第一压缩率对数据进行压缩,并传输该压缩数据。
边缘设备在接收到边缘服务器发送的传输触发命令后,随机选取数据,通常以最小的压缩率对数据进行压缩,并传输该压缩数据,以减少数据的传输时间,提高数据传输的效率。
S220,若接收到边缘计算服务器发送的对应数据的重传请求命令,则以第二压缩率对该数据进行压缩,并向边缘计算服务器发送第二压缩率下的压缩数据,所述第二压缩率大于所述第一压缩率,所述第二压缩率不大于数据传输的最大压缩率。
边缘设备在接收到边缘服务器发送的重传请求命令后,对相应的数据,提高该数据的压缩率,以保留该数据更多的信息,减少压缩带来的信息损失,重新传送该数据,以使边缘计算服务器端在训练目标模型时获得更多数据信息,有利于目标模型的训练。
本实施例中,边缘设备接收到重传请求命令后,提高该数据的压缩率并重新发送该数据,从而能避免数据压缩率小带来的数据损失对当前模型训练造成不利影响,使得模型的训练效率更高,获得的训练数据的质量显著提高。
图3为本说明书一个实施例提供的一种无线分布式机器学习中的数据获取、数据处理方法的原理示意图。如图3所示,边缘计算服务器端,获取训练数据以训练当前模型,根据信道情况选择传输速率最大的边缘设备接收该设备的数据传输,边缘设备端接到传输触发命令,将数据传输给边缘计算服务器,边缘计算服务器对于接收到的设备端数据要进行重要性评估,根据重要性评估值确定重传数据或者继续接收新的数据。若满足重传数据的情况,则边缘设备端以更大的压缩率对相应数据进行压缩重传。
本实施例中,通过一种无线分布式机器学习中的数据获取、数据处理方法的原理示意图,形象地展示了边缘计算服务器和边缘设备的交互过程,实现了对训练数据的合理评估与筛选,并对重要性评估值较大的数据请求提高压缩率后进行重传,提升了训练数据传输的质量,有利于优化模型的性能。
图4为本说明书一个实施例提供的一种边缘计算服务器的结构示意图。如图4所示,本说明书实施例提供一种边缘计算服务器400,包括模型训练模块410、均值计算模块420、阈值计算模块430、设备选择模块440、数据接收模块450、评估模块460、更新模块470,其中:
模型训练模块410,被配置为根据当前训练集训练目标模型,得到当前目标模型;
均值计算模块420,被配置为基于当前目标模型,对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值Lave,所述重要性评估值为当前目标模型对数据样本的模型输出与数据样本的标准输出之间差值的二范数的平方,所述重要性评估值表征当前目标模型对该数据样本的分析能力;
在一个具体实施例中,所述均值计算模块420中重要性评估值的定义包括:
L=||F(x)-Gt||2
其中,L为数据样本(x,Gt)对应的数据重要性,F(x)为当前目标模型对数据样本的模型输出,Gt为该数据样本的标准输出。
阈值计算模块430,被配置为设置阈值θ,根据重要性均值Lave,得到重要性阈值θLave
设备选择模块440,被配置为测量与各边缘设备的信道条件,根据所述信道条件计算各边缘设备对应的传输速率,选择传输速率最大的边缘设备发送传输触发命令。
在一个具体实施例中,所述设备选择模块440包括测量单元、计算单元、选择单元,其中:
测量单元,被配置为测量与各边缘设备的信道条件,根据所述信道条件获得与各边缘设备之间当前信号传输的信噪比。计算单元,被配置为根据所述信噪比,通过香农公式计算对应的传输速率。选择单元,被配置为选择传输速率最大的边缘设备发送传输触发命令。
数据接收模块450,被配置为接收被选择的边缘设备发送的数据。
评估模块460,被配置为,计算接收到的每一数据的重要性评估值L,若该数据的重要性评估值L大于重要性阈值θLave,且该数据的压缩率未达到数据传输的最大压缩率,则向被选择的边缘设备发送该数据的重传请求命令;若该数据的重要性评估值L不大于重要性阈值θLave,或该数据的压缩率已达到传输的最大压缩率,则将该数据加入当前训练集,并且继续根据各边缘设备发送的对应的信道条件选择传输数据的边缘设备。
更新模块470,被配置为当接收到的数据达到预设的数目后,通过当前训练集对目标模型进行训练,得到参数更新后的目标模型。
图5为本说明书一个实施例提供的一种边缘设备的结构示意图;如图5所示,本说明书实施例提供一种边缘设备500,包括发送模块510、重传模块520,其中:
发送模块510,被配置为接收边缘计算服务器发送的传输触发命令,随机选取数据,以第一压缩率对数据进行压缩,并传输该压缩数据。
重传模块520,被配置为若接收到边缘计算服务器发送的对应数据的重传请求命令,则以第二压缩率对该数据进行压缩,并向边缘计算服务器发送第二压缩率下的压缩数据,所述第二压缩率大于所述第一压缩率,所述第二压缩率不大于数据传输的最大压缩率。
图6为本说明书一个实施例提供的一种系统的结构示意图。如图6所示,本说明书实施例提供一种系统600,包括至少一个边缘计算服务器610和至少一个边缘设备620,所述边缘计算服务器610包括第一存储模块,所述边缘设备620包括第二存储模块,所述第一存储模块存储有第一程序,所述第二存储模块存储有第二程序,当所述第一程序被执行时,所述边缘计算服务器610执行上述任一项适于在边缘计算服务器上执行的机器学习中数据处理方法;当所述第二程序被执行时,所述边缘设备620执行上述任一项适于在边缘设备上执行的机器学习中数据处理方法。
上述装置以及系统中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
综上所述,本说明书实施例中,提供一种无线分布式机器学习中数据获取处理的方法、装置及系统,其中边缘计算服务器建立对接收到的每一数据的评价体系,计算每一数据的重要性评估值,并将所述重要性评估值与设置重要性阈值θLave作比较,若所述重要性评估值大于所述重要性阈值θLave,且该数据的压缩率未达到数据传输的最大压缩率,则向边缘设备发送该数据的重传请求命令,以使对应的边缘设备提高该数据的压缩率后再次传输该数据,从而获得该数据的更多信息,实现了在边缘计算服务器端对接收到的训练数据的合理评价和筛选,有利于目标模型的训练,从而提高模型的训练性能,提高了目标模型的训练数据的总质量。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (7)

1.一种无线分布式机器学习中的数据获取方法,适于在边缘计算服务器上执行,其特征在于,包括:
根据当前训练集训练目标模型,得到当前目标模型;
基于当前目标模型,对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值Lave,所述重要性评估值为当前目标模型对数据样本的模型输出与数据样本的标准输出之间差值的二范数的平方,所述重要性评估值表征当前目标模型对该数据样本的分析能力;
设置阈值θ,根据重要性均值Lave,得到重要性阈值θLave
测量与各边缘设备的信道条件,根据所述信道条件计算各边缘设备对应的传输速率,选择传输速率最大的边缘设备发送传输触发命令;
接收被选择的边缘设备发送的数据;
计算接收到的每一数据的重要性评估值L,若该数据的重要性评估值L大于重要性阈值θLave,且该数据的压缩率未达到数据传输的最大压缩率,则向被选择的边缘设备发送该数据的重传请求命令;若该数据的重要性评估值L不大于重要性阈值θLave,或该数据的压缩率已达到传输的最大压缩率,则将该数据加入当前训练集,并且继续根据各边缘设备发送的对应的信道条件选择传输数据的边缘设备;
当接收到的数据达到预设的数目后,通过当前训练集对目标模型进行训练,得到参数更新后的目标模型。
2.根据权利要求1所述的方法,其特征在于,所述重要性评估值的定义包括:
L=||F(x)-Gt||2
其中,L为数据样本(x,Gt)对应的数据重要性,F(x)为当前目标模型对数据样本的模型输出,Gt为该数据样本的标准输出。
3.根据权利要求1所述的方法,其特征在于,所述测量与各边缘设备的信道条件,根据所述信道条件计算各边缘设备对应的传输速率,选择传输速率最大的边缘设备发送传输触发命令的步骤,包括:
测量与各边缘设备的信道条件,根据所述信道条件获得与各边缘设备之间当前信号传输的信噪比;
根据所述信噪比,通过香农公式计算对应的传输速率;
选择传输速率最大的边缘设备发送传输触发命令。
4.一种边缘计算服务器,包括模型训练模块、均值计算模块、阈值计算模块、设备选择模块、数据接收模块、评估模块、更新模块,其中:
模型训练模块,被配置为根据当前训练集训练目标模型,得到当前目标模型;
均值计算模块,被配置为基于当前目标模型,对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值Lave,所述重要性评估值为当前目标模型对数据样本的模型输出与数据样本的标准输出之间差值的二范数的平方,所述重要性评估值表征当前目标模型对该数据样本的分析能力;
阈值计算模块,被配置为设置阈值θ,根据重要性均值Lave,得到重要性阈值θLave
设备选择模块,被配置为测量与各边缘设备的信道条件,根据所述信道条件计算各边缘设备对应的传输速率,选择传输速率最大的边缘设备发送传输触发命令;
数据接收模块,被配置为接收被选择的边缘设备发送的数据;
评估模块,被配置为,计算接收到的每一数据的重要性评估值L,若该数据的重要性评估值L大于重要性阈值θLave,且该数据的压缩率未达到数据传输的最大压缩率,则向被选择的边缘设备发送该数据的重传请求命令;若该数据的重要性评估值L不大于重要性阈值θLave,或该数据的压缩率已达到传输的最大压缩率,则将该数据加入当前训练集,并且继续根据各边缘设备发送的对应的信道条件选择传输数据的边缘设备;
更新模块,被配置为当接收到的数据达到预设的数目后,通过当前训练集对目标模型进行训练,得到参数更新后的目标模型。
5.根据权利要求4所述的服务器,其特征在于,所述均值计算模块中重要性评估值的定义包括:
L=||F(x)-Gt||2
其中,L为数据样本(x,Gt)对应的数据重要性,F(x)为当前目标模型对数据样本的模型输出,Gt为该数据样本的标准输出。
6.根据权利要求4所述的服务器,所述设备选择模块包括测量单元、计算单元、选择单元,其中:
测量单元,被配置为测量与各边缘设备的信道条件,根据所述信道条件获得与各边缘设备之间当前信号传输的信噪比;
计算单元,被配置为根据所述信噪比,通过香农公式计算对应的传输速率;
选择单元,被配置为选择传输速率最大的边缘设备发送传输触发命令。
7.一种系统,其特征在于,包括至少一个边缘计算服务器和至少一个边缘设备,所述边缘计算服务器包括第一存储模块,所述边缘设备包括第二存储模块,所述第一存储模块存储有第一程序,所述第二存储模块存储有第二程序,当所述第一程序被执行时,所述边缘计算服务器执行权利要求1-3中任一项所述的方法;当所述第二程序被执行时,所述边缘设备接收边缘计算服务器发送的传输触发命令,随机选取数据,以第一压缩率对数据进行压缩,并传输该压缩数据;若接收到边缘计算服务器发送的对应数据的重传请求命令,则以第二压缩率对该数据进行压缩,并向边缘计算服务器发送第二压缩率下的压缩数据,所述第二压缩率大于所述第一压缩率,所述第二压缩率不大于数据传输的最大压缩率。
CN201911406059.XA 2019-12-31 2019-12-31 无线分布式机器学习中数据获取处理的方法、装置及系统 Active CN113128692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911406059.XA CN113128692B (zh) 2019-12-31 2019-12-31 无线分布式机器学习中数据获取处理的方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911406059.XA CN113128692B (zh) 2019-12-31 2019-12-31 无线分布式机器学习中数据获取处理的方法、装置及系统

Publications (2)

Publication Number Publication Date
CN113128692A CN113128692A (zh) 2021-07-16
CN113128692B true CN113128692B (zh) 2024-04-09

Family

ID=76768662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911406059.XA Active CN113128692B (zh) 2019-12-31 2019-12-31 无线分布式机器学习中数据获取处理的方法、装置及系统

Country Status (1)

Country Link
CN (1) CN113128692B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170053193A (ko) * 2015-11-05 2017-05-16 중앙대학교 산학협력단 무선 이미지 센서 네트워크를 위한 k-평균 클러스터링 기반의 데이터 압축 시스템 및 방법
CN107992888A (zh) * 2017-11-29 2018-05-04 深圳市智物联网络有限公司 工业设备运行状态的识别方法及服务器
CN109461450A (zh) * 2018-11-01 2019-03-12 恒玄科技(上海)有限公司 音频数据的传输方法、系统、存储介质及蓝牙耳机
CN109829375A (zh) * 2018-12-27 2019-05-31 深圳云天励飞技术有限公司 一种机器学习方法、装置、设备及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170053193A (ko) * 2015-11-05 2017-05-16 중앙대학교 산학협력단 무선 이미지 센서 네트워크를 위한 k-평균 클러스터링 기반의 데이터 압축 시스템 및 방법
CN107992888A (zh) * 2017-11-29 2018-05-04 深圳市智物联网络有限公司 工业设备运行状态的识别方法及服务器
CN109461450A (zh) * 2018-11-01 2019-03-12 恒玄科技(上海)有限公司 音频数据的传输方法、系统、存储介质及蓝牙耳机
CN109829375A (zh) * 2018-12-27 2019-05-31 深圳云天励飞技术有限公司 一种机器学习方法、装置、设备及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于近邻边缘检测的支持向量机;王秀华;武丽芬;;计算机与现代化(第03期);全文 *

Also Published As

Publication number Publication date
CN113128692A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN107733705B (zh) 一种用户体验质量评估模型建立方法及设备
CN113128532B (zh) 一种训练样本数据的获取方法、处理方法、装置及系统
EP3197198A1 (en) A method for analyzing and inferring wireless network performance
US10827412B2 (en) Ultra-reliable communication reliability and detection in mobile networks
EP2023575B1 (en) Transmission device, transmission method, system lsi, and computer program product for selecting a transmission rate with the highest effective value
WO2015021821A1 (zh) 评价用户体验质量的方法及装置、用户终端、网络服务器
CN105451099B (zh) 视频码率调整方法和装置
Raca et al. Empowering video players in cellular: Throughput prediction from radio network measurements
EP3461107A1 (en) Method and apparatus for controlling multi-connection for data transmission rate improvement
EP3491793B1 (en) System and method for resource-aware and time-critical iot frameworks
CN106341216B (zh) 一种无线通信链路自适应方法及上下行链路自适应方法
CN105848187A (zh) 基于信噪比阈值自适应的无线网络链路质量评估方法
US20160295210A1 (en) Method and Apparatus for Measuring Quality of Experience of Mobile Video Service
CN109375999A (zh) 一种基于贝叶斯网络的mec随机任务迁移方法
CN113128692B (zh) 无线分布式机器学习中数据获取处理的方法、装置及系统
WO2014129945A1 (en) Determination of network parameters in mobile communication networks
CN113271221A (zh) 网络能力开放方法、系统及电子设备
WO2023051318A1 (zh) 模型训练方法、无线资源调度方法及其装置及电子设备
WO2011079612A1 (zh) 一种链路自适应方法及装置
US10582410B2 (en) Predicting downlink throughput
CN104506453B (zh) 一种面向用户体验质量的码率分配方法
CN113128694A (zh) 机器学习中的数据获取、数据处理的方法、装置及系统
US11797372B2 (en) Method and apparatus for generating time series data based on multi-condition constraints, and medium
Talon et al. Comparing dash adaptation algorithms in a real network environment
Zhu et al. Machine learning based user QoE evaluation for video streaming over Mobile network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant