CN113128532B - 一种训练样本数据的获取方法、处理方法、装置及系统 - Google Patents

一种训练样本数据的获取方法、处理方法、装置及系统 Download PDF

Info

Publication number
CN113128532B
CN113128532B CN201911406291.3A CN201911406291A CN113128532B CN 113128532 B CN113128532 B CN 113128532B CN 201911406291 A CN201911406291 A CN 201911406291A CN 113128532 B CN113128532 B CN 113128532B
Authority
CN
China
Prior art keywords
data
importance
evaluation value
current
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911406291.3A
Other languages
English (en)
Other versions
CN113128532A (zh
Inventor
张剑
钟绍宸
孙学文
王奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Chaoxing Future Technology Co ltd
Original Assignee
Beijing Chaoxing Future Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Chaoxing Future Technology Co ltd filed Critical Beijing Chaoxing Future Technology Co ltd
Priority to CN201911406291.3A priority Critical patent/CN113128532B/zh
Publication of CN113128532A publication Critical patent/CN113128532A/zh
Application granted granted Critical
Publication of CN113128532B publication Critical patent/CN113128532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Complex Calculations (AREA)

Abstract

本说明书公开一种训练样本数据的获取方法、处理方法、装置及系统,其中适于在边缘计算服务器上执行的数据获取方法,包括:根据当前训练集训练目标模型,基于所述当前目标模型,获得评估数据样本对当前目标模型重要性的当前重要性计算模型,通过所述当前重要性计算模型对测试集中每一数据样本计算重要性评估值,获得重要性均值Lave;将所述当前重要性计算模型的参数和重要性均值Lave以广播方式发送给各边缘设备;根据收到的各边缘设备的接入机会参数值计算各设备的接入概率,向接入概率最大的边缘设备发送传输触发命令;接收边缘设备依据当前重要性计算模型和重要性均值Lave进行筛选后发送的数据,将所述数据加入当前训练集,以使目标模型参数得到更新。

Description

一种训练样本数据的获取方法、处理方法、装置及系统
技术领域
本发明涉及通信技术领域,具体而言,涉及一种训练样本数据的获取方法、处理方法、装置及系统。
背景技术
随着物联网、车联网等技术的发展和大规模智能终端的部署,边缘计算在处理终端产生的大量数据发挥着越来越重要的作用,针对边缘计算中的设备部署、资源分配、性能优化的研究也越来越多。相关的研究从各种不同的方面入手优化边缘计算的通信性能或将边缘计算方法结合实际应用中。相关的边缘计算技术主要研究如何通过资源的分配提高信道利用率、最大化通信容量、降低时延,但不会考虑传输的数据本身对模型训练的重要程度。而在边缘学习中,优化的目标还应包括模型的性能,而对于学习模型的训练,不同数据的重要性是不一样的。所以通信方案的设计除了获得更高的通信容量外,还应考虑到提高传输数据的总重要性。
综上,如何提高通信中所传输数据的重要性,优化模型的性能,成为亟待解决的问题。
发明内容
本说明书提供一种训练样本数据的获取方法、处理方法、装置及系统,用以克服现有技术中存在的至少一个技术问题。
根据本说明书实施例的第一方面,提供一种训练样本数据的获取方法,适于在边缘计算服务器上执行,包括:根据当前训练集训练目标模型,得到当前目标模型;基于所述当前目标模型的结构,获得评估数据样本对当前目标模型的重要性的当前重要性计算模型,所述当前重要性计算模型推理获得当前目标模型对每一输入的模拟输出,并通过该模拟输出与每一输入对应的标准输出的差距来表征当前目标模型对该输入的分析能力,以此作为该输入的重要性评估值,所述重要性评估值表征当前目标模型对该数据样本的分析能力;通过所述当前重要性计算模型对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值Lave;将所述当前的重要性计算模型的参数和对应的重要性均值Lave以广播方式发送给各边缘设备,以使得各边缘设备依据所述当前重要性计算模型和对应的重要性均值Lave对向边缘计算服务器发送的数据样本进行筛选;接收各边缘设备发送的接入机会参数值,依据所述接入机会参数值计算各边缘设备的接入概率,选择接入概率最大的边缘设备,向该边缘设备发送传输触发命令,各边缘设备发送的所述接入机会参数值正比于该边缘设备待传输数据的重要性评估值与该边缘设备对应的传输速率的乘积;接收被选择的边缘设备依据所述当前重要性计算模型和对应的重要性均值Lave进行筛选后发送的数据,将所述数据加入当前训练集,并继续根据各边缘设备的接入机会参数值选择传输数据的边缘设备;当接收到的所述数据达到预设的数目后,通过当前训练集对目标模型进行训练,得到参数更新后的目标模型。
可选地,所述基于所述当前目标模型的结构,获得预测数据样本对当前目标模型的数据重要性的当前重要性计算模型的步骤,包括:获取重要性计算模型的训练样本集,所述训练样本集包括多个重要性训练样本,每一重要性训练样本包括一个样本数据的样本输入、标准输出以及当前目标模型对该样本输入的模型输出以及该样本数据的重要性评估值,所述重要性评估值为所述模型输出与所述标准输出的差值的二范数的平方,所述样本数据为目标模型训练集中的数据样本;通过所述训练样本集对重要性计算模型进行训练,得到当前重要性计算模型,所述重要性计算模型根据输入的数据样本,输出该数据样本对于当前目标模型的重要性评估值。
可选地,在所述当接收到的所述数据达到预设的数目后,通过当前训练集对目标模型进行训练,得到参数更新后的目标模型的步骤之后,还包括:在预设的一段时延之后,基于所述当前目标模型的结构,获得评估数据样本对当前目标模型的重要性的当前重要性计算模型,通过所述当前重要性计算模型对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值Lave,将所述当前重要性计算模型的参数和对应的重要性均值Lave以广播方式发送给各边缘设备。
根据本说明书实施例的第二方面,提供一种训练样本数据的处理方法,适于在边缘设备上执行,包括:接收边缘计算服务器发来的当前重要性计算模型的参数和对应的重要性均值Lave;随机选取预设数目的数据加入预设容量固定的重要数据区中,通过所述当前重要性计算模型对重要数据区中的每一数据计算对应的重要性评估值,随机选取数据计算该数据的重要性评估值,根据该数据的重要性评估值更新重要数据区中的数据;根据所述重要性均值Lave以及预设的阈值θ,得到重要性阈值θLave;选取重要数据区中重要性评估值最大的数据作为待传输数据,计算该待传输数据压缩后的重要性评估值,得到第一评估值;将所述第一评估值与所述重要性阈值θLave进行比较,若所述第一评估值大于所述重要性阈值θLave,则提高该待传输数据的压缩率并计算新的压缩率下的重要性评估值,直到该待传输数据的重要性评估值不大于所述重要性阈值θLave或者达到数据传输的最大压缩率,获得该待传输数据的最大压缩率和该压缩率对应的第二评估值;测量信道条件并依据获得的信道参数计算对应的信号传输速率,根据所述待传输数据的第二评估值以及所述传输速率获得接入机会参数值,将所述接入机会参数值发送给边缘计算服务器,以使边缘计算服务器根据各边缘设备的接入机会参数值选择接入概率最大的边缘设备发送传输触发命令,所述接入机会参数值正比于待传输数据的第二评估值与传输速率的乘积;若接收到边缘计算服务器发来的传输触发命令,则将所述待传输数据以该待传输数据的最大压缩率发送给边缘计算服务器。
可选地,所述随机选取预设数目的数据加入预设容量固定的重要数据区中,通过所述当前重要性计算模型对重要数据区中的每一数据计算对应的重要性评估值,随机选取数据计算该数据的重要性评估值,根据该数据的重要性评估值更新重要数据区中的数据的步骤,包括:随机选取预设数目的数据加入预设容量固定的重要数据区;通过所述当前重要性计算模型计算重要数据区中每一数据的重要性评估值,并将重要数据区中的数据按照重要性评估值排序;随机选取重要数据区以外的数据,并通过所述当前重要性计算模型获得该数据的重要性评估值;将该数据的重要性评估值与重要数据区中数据的重要性评估值进行比较,若该数据的重要性评估值刚好大于重要数据区中的一个数据的重要性评估值,则将该数据插入重要数据区中对应数据之前。
可选地,所述选取重要数据区中数据重要性最大的数据作为待传输数据,计算该待传输数据压缩后的重要性评估值,得到第一评估值;将所述第一评估值与所述重要性阈值θLave进行比较之后,还包括:若所述第一评估值不大于所述重要性阈值θLave,则将所述第一评估值作为第二评估值,并将对应的压缩率作为该待传输数据的最大压缩率。
可选地,所述测量信道条件并依据获得的信道参数计算对应的信号传输速率,根据所述待传输数据的第二评估值以及所述传输速率获得接入机会参数值,将所述接入机会参数值发送给边缘计算服务器的步骤,包括:利用信道条件测量算法测量信道条件,获得当前信号传输的信噪比;根据所述信噪比,通过香农公式计算对应的传输速率;根据所述待传输数据的第二评估值以及所述传输速率获得接入机会参数值;将所述接入机会参数值发送给边缘计算服务器。
根据本说明书实施例的第三方面,提供一种边缘计算服务器,包括目标模型训练模块、重要性模型训练模块、均值计算模块、模型下发模块、设备选择模块、训练集更新模块,其中:目标模型训练模块,被配置为根据当前训练集训练目标模型,得到当前目标模型;重要性模型训练模块,被配置为基于所述当前目标模型的结构,获得评估数据样本对当前目标模型的重要性的当前重要性计算模型,所述当前重要性计算模型推理获得当前目标模型对每一输入的模拟输出,并通过该模拟输出与每一输入对应的标准输出的差距来表征当前目标模型对该输入的分析能力,以此作为该输入的重要性评估值,所述重要性评估值表征当前目标模型对该数据样本的分析能力;均值计算模块,被配置为通过所述当前重要性计算模型对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值Lave;模型下发模块,被配置为将所述当前重要性计算模型的参数和对应的重要性均值Lave以广播方式发送给各边缘设备,以使得各边缘设备依据所述当前重要性计算模型和对应的重要性均值Lave对向边缘计算服务器发送的数据进行筛选;设备选择模块,被配置为接收各边缘设备发送的接入机会参数值,依据所述接入机会参数值计算各边缘设备的接入概率,选择接入概率最大的边缘设备,向该边缘设备发送传输触发命令,各边缘设备发送的所述接入机会参数值正比于该边缘设备待传输数据的重要性评估值与该边缘设备对应的传输速率的乘积;训练集更新模块,被配置为接收被选择的边缘设备依据所述当前重要性计算模型和对应的重要性均值Lave进行筛选后发送的数据,将所述数据加入当前训练集,并继续根据各边缘设备的接入机会参数值选择传输数据的边缘设备;当接收到的所述数据达到预设的数目后,通过当前训练集对目标模型进行训练,得到参数更新后的目标模型。
根据本说明书实施例的第四方面,提供一种边缘设备,包括模型接收模块、重要数据更新模块、阈值设置模块、压缩率选择模块、接入参数发送模块、传输模块,其中:模型接收模块,被配置为接收边缘计算服务器发来的当前重要性计算模型的参数和对应的重要性均值Lave;重要数据更新模块,被配置为随机选取预设数目的数据加入预设容量固定的重要数据区中,通过所述当前重要性计算模型对重要数据区中的每一数据计算对应的重要性评估值,随机选取数据计算该数据的重要性评估值,根据该数据的重要性评估值更新重要数据区中的数据;阈值设置模块,被配置为根据所述重要性均值Lave以及预设的阈值θ,得到重要性阈值θLave;压缩率选择模块,被配置为选取重要数据区中重要性评估值最大的数据作为待传输数据,计算该待传输数据压缩后的重要性评估值,得到第一评估值;将所述第一评估值与所述重要性阈值θLave进行比较,若所述第一评估值大于所述重要性阈值θLave,则提高该待传输数据的压缩率并计算新的压缩率下的重要性评估值,直到该待传输数据的重要性评估值不大于所述重要性阈值θLave或者达到数据传输的最大压缩率,获得该待传输数据的最大压缩率和该压缩率对应的第二评估值;接入参数发送模块,被配置为测量信道条件并依据获得的信道参数计算对应的信号传输速率,根据所述待传输数据的第二评估值以及所述传输速率获得接入机会参数值,将所述接入机会参数值发送给边缘计算服务器,以使边缘计算服务器根据各边缘设备的接入机会参数值选择接入概率最大的边缘设备发送传输触发命令,所述接入机会参数值正比于待传输数据的第二评估值与传输速率的乘积;传输模块,被配置为若接收到服务器发来的传输触发命令,则将所述待传输数据以该待传输数据的最大压缩率发送给服务器。
根据本说明书实施例的第五方面,提供一种系统,包括至少一个边缘计算服务器和至少一个边缘设备,所述边缘计算服务器包括第一存储模块,所述边缘设备包括第二存储模块,所述第一存储模块存储有第一程序,所述第二存储模块存储有第二程序,当所述第一程序被执行时,所述边缘计算服务器执行上述任一项适于在边缘计算服务器上执行的训练样本数据的获取方法;当所述第二程序被执行时,所述边缘设备执行上述任一项适于在边缘设备上执行的训练样本数据的处理方法。
本说明书实施例的有益效果如下:
本说明书实施例中,边缘计算服务器根据当前目标模型对数据样本的模型输出以及数据样本的标准输出,训练当前重要性计算模型,并在测试集上得出数据样本的重要性均值,该重要性均值表征当前模型对数据的平均分析能力,以实现将平均分析能力加入到筛选训练数据的标准中。边缘计算服务器将当前重要性计算模型以及重要性均值下发给边缘设备,边缘设备每接收到边缘计算服务器下发的当前重要性计算模型以及重要性均值后,将新的重要性计算模型以及均值作为重要数据区更新的新标准。其中,边缘设备重要数据区的设置,实现了对边缘设备上产生的训练数据按照数据对当前目标模型的重要性评估值的排序。于是,在向边缘计算服务器传输数据时,边缘设备将重要数据区中重要性评估值最大的数据进行压缩,并通过将压缩后的该数据的重要性评估值与预设的重要性阈值进行比较,从而确定该数据最终的压缩率以及对应的最终的重要性评估值,使得对目标模型训练更重要的数据的压缩率更高,从而为待训练的目标模型提供该数据的更多信息,有利于获得更优的模型性能。本场景中各边缘设备根据待传输数据的重要性评估值与该设备的传输速率的乘积计算接入机会参数值,各边缘设备将相应的接入机会参数值发送给边缘计算服务器,边缘计算服务器评定接入概率,选择概率最大的边缘设备触发数据传输,既保证了传输速率高的设备在信道分配中的优势,又使得待传输数据重要性评估值较大的设备在边缘计算服务器指定接入机会时具有优势,从而使得边缘计算服务器获得的数据的总重要性提高。本说明书实施例,根据重要性评估值对待传输的训练数据进行筛选,通过将重要性评估值大的数据加入模型训练集,提高模型的训练效率,能够在较少数据量的情况下获得在原数据集上相似的训练效果,从而降低对训练数据量的需求,降低通信成本,进而在给定通信资源下实现更优的模型性能,解决了大量训练数据造成的通信负担,具有进步性。
本说明书实施例的创新点包括:
1、本实施例中,边缘计算服务器根据当前目标模型对数据样本的模型输出以及数据样本的标准输出,训练当前重要性计算模型,并在测试集上得出数据样本的重要性均值,该重要性均值表征当前模型对数据的平均分析能力,以实现将平均分析能力加入到筛选训练数据的标准中。边缘计算服务器将当前重要性计算模型以及重要性均值下发给边缘设备,边缘设备每接收到边缘计算服务器下发的当前重要性计算模型以及重要性均值后,将新的重要性计算模型以及均值作为重要数据区更新的新标准。其中,边缘设备重要数据区的设置,实现了对边缘设备上产生的训练数据按照数据对当前目标模型的重要性评估值的排序。于是,在向边缘计算服务器传输数据时,边缘设备将重要数据区中重要性评估值最大的数据进行压缩,并通过将压缩后的该数据的重要性评估值与预设的重要性阈值进行比较,从而确定该数据最终的压缩率以及对应的最终的重要性评估值,使得对目标模型训练更重要的数据的压缩率更高,从而为待训练的目标模型提供该数据的更多信息,有利于获得更优的模型性能。本场景中各边缘设备根据待传输数据的重要性评估值与该设备的传输速率的乘积计算接入机会参数值,各边缘设备将相应的接入机会参数值发送给边缘计算服务器,边缘计算服务器评定接入概率,选择概率最大的边缘设备触发数据传输,既保证了传输速率高的设备在信道分配中的优势,又使得待传输数据重要性评估值较大的设备在边缘计算服务器指定接入机会时具有优势,从而使得边缘计算服务器获得的数据的总重要性提高。本说明书实施例,根据重要性评估值对待传输的训练数据进行筛选,通过将重要性评估值大的数据加入模型训练集,提高模型的训练效率,能够在较少数据量的情况下获得在原数据集上相似的训练效果,从而降低对训练数据量的需求,降低通信成本,进而在给定通信资源下实现更优的模型性能,解决了大量训练数据造成的通信负担,是本说明书实施例的创新点之一。
2、本实施例中,所述重要性评估值为当前目标模型输出与标准输出的差值的二范数的平方,用模型训练中的Loss定义数据重要性评估,该定义适用于大多数机器学习模型,从而可利用数据重要性评估值针对机器学习系统设计通信方案,具有应用广泛性、可迁移性,是本说明书实施例的创新点之一。
3、本实施例中,边缘设备利用数据重要性评估值进行数据筛选,所述重要数据区的设置,实现了对边缘设备上产生的训练数据按照数据对当前目标模型训练的重要性评估值的排序,将有限的资源应用于传输对目标模型训练更重要的数据,不再需要传输所有产生的训练数据用于训练,用部分训练数据达到与整个训练数据集相近的训练效果,极大地降低了通信成本,是本说明书实施例的创新点之一。
4、本实施例中,边缘设备利用重要性评估值决定数据压缩率,基于数据重要性的定义可得当前模型对数据的分析能力越弱,则数据的重要性评估值越大,模型学习该数据需要的信息则越多,那么该数据的压缩率则应该越高,通过将压缩后数据的重要性评估值与预设的重要性阈值进行比较,从而确定该数据最终的压缩率以及对应的最终的重要性评估值,综合考虑了通信效率与数据对模型训练的影响,在给定通信资源下获得更优的模型性能,是本说明书实施例的创新点之一。
5、本实施例中,利用数据重要性设计信道分配方案,结合了数据重要性和信道的传输速率后,既保证了传输速率高的设备在信道分配中的优势,又使得待传输数据重要性评估值较大的设备在边缘计算服务器指定接入机会时具有优势,从而使得边缘计算服务器获得数据的总重要性提高,使得每单位通信资源对模型训练带来的提升更大,是本说明书实施例的创新点之一。
6、本实施例中,各边缘设备上能够计算重要性评估值需要有当前目标模型的参数,需要边缘计算服务器向各边缘设备下发模型参数,而下发模型参数会带来额外的通信开销,对此本说明书实施例在边缘计算服务器向边缘设备下发模型参数的过程中提出了两点优化,以达到控制通信成本、并提高传输数据质量的目的。其一,基于当前目标模型的结构,训练得到参数较少的重要性计算模型,边缘计算服务器向各边缘设备下发这个参数较少的重要性计算模型从而减少了通信开销;其二,采用每隔一段时间下发新模型参数而非目标模型每次更新均下发新的参数,由于在目标模型训练得较为成熟的情况下目标模型变动不太会频繁,所以隔一段时间才下发重要性计算模型参数并不会对重要性评估值的计算带来较大的误差。这两种优化方式降低了边缘计算服务器向各边缘设备下发模型的通信开销,相比于纳入数据的重要性评估后系统传输数据整体的成本节约,下发模型产生的所谓额外通信开销实际上是非常经济的,为数据重要性应用在边缘设备端的压缩率选择以及数据筛选提供了基础,是本说明书实施例的创新点之一。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个实施例提供的适于在边缘计算服务器上执行的一种训练样本数据的获取方法的流程示意图;
图2为本说明书一个实施例提供的适于在边缘设备上执行的一种训练样本数据的处理方法的流程示意图;
图3为本说明书一个实施例提供的一种训练样本数据的获取方法、处理方法的原理示意图;
图4为本说明书一个实施例提供的一种边缘计算服务器的结构示意图;
图5为本说明书一个实施例提供的一种边缘设备的结构示意图;
图6为本说明书一个实施例提供的一种系统的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本说明书实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本说明书实施例公开了一种训练样本数据的获取方法、处理方法、装置及系统。以下分别进行详细说明。
本发明考虑利用边缘计算进行机器学习模型训练的场景,由物联网、车联网等场景中部署的边缘设备进行训练数据的采集,并将训练数据传输至边缘计算服务器用于模型训练。对于模型训练,不同的训练数据样本的重要性是不同的,利用这一特点可对通信方案设计进行优化,从而实现通信资源限制下的机器学习模型性能的最优化。
为此,定义机器学习中的数据的重要性为机器学习模型训练时该数据在此模型上的损失值(Loss),即模型对此数据样本的分析能力越弱,则数据样本重要性评估值越大。例如,对于用L2Loss的模型训练方案,重要性评估值为
L=||F(x)-Gt||2
其中F(x)为模型对应于此数据样本输出,Gt为此数据对应的标准输出(即Groundtruth)。
图1为本说明书一个实施例提供的适于在边缘计算服务器上执行的一种训练样本数据的获取方法的流程示意图。如图1所示,本说明书实施例提供一种训练样本数据的获取方法,适于在边缘计算服务器上执行,包括:
S110,根据当前训练集训练目标模型,得到当前目标模型。
边缘计算服务器上储存有一部分数据样本作为初始训练集,在接收各边缘设备传输的数据以前,通过初始训练集得到初始的目标模型。
S120,基于所述当前目标模型的结构,获得评估数据样本对当前目标模型的重要性的当前重要性计算模型,所述当前重要性计算模型推理获得当前目标模型对每一输入的模拟输出,并通过该模拟输出与每一输入对应的标准输出的差距来表征当前目标模型对该输入的分析能力,以此作为该输入的重要性评估值,所述重要性评估值表征当前目标模型对该数据样本的分析能力。
作为待训练的目标模型,其模型参数众多,欲利用当前模型对设备端的数据进行重要性评估,边缘计算服务器需要向边缘设备下发当前模型的参数,但下发当前模型的全部参数势必会造成很大的通信负担。为了解决这一问题,采纳网络蒸馏的思想,训练一个模型参数较少又能模拟当前目标模型输出的蒸馏网络,利用蒸馏网络预测当前目标模型对设备端数据的输出,结合对重要性评估值的定义,计算该输出与数据的标准输出的差距,以此作为该数据的重要性评估值。根据网络蒸馏的思想,将当前目标模型对数据样本的模型输出加入重要性计算模型的训练样本集,经过训练,得到重要性计算模型。
一个具体实施例中,所述基于所述当前目标模型的结构,获得预测数据样本对当前目标模型的数据重要性的当前重要性计算模型的步骤,包括:
获取重要性计算模型的训练样本集,所述训练样本集包括多个重要性训练样本,每一重要性训练样本包括一个样本数据的样本输入、标准输出以及当前目标模型对该样本输入的模型输出以及该样本数据的重要性评估值,所述重要性评估值为所述模型输出与所述标准输出的差值的二范数的平方,所述样本数据为目标模型训练集中的数据样本;
通过所述训练样本集对重要性计算模型进行训练,得到当前重要性计算模型,所述重要性计算模型根据输入的数据样本,输出该数据样本对于当前目标模型的重要性评估值。
基于当前目标模型,训练得到参数较少的重要性计算模型,边缘计算服务器向各边缘设备下发这个参数较少的重要性计算模型,从而减少了通信开销,使得在设备端传输数据时将待训练目标模型纳入考虑成为可能,从而使得边缘设备能够依据下发的模型参数的对待传输的数据进行筛选,采集到的训练数据质量的提升进而降低了对训练数据量的需求,从而降低了通信压力,而在消耗同等通信资源的情况下,可以达到更好的模型性能。
S130,通过所述当前重要性计算模型对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值Lave
得到了能够评估数据重要性的重要性计算模型后,可以计算设备端任一数据相对于当前目标模型的重要性评估值,为了实现筛选的目的,还需要为设备端数据的重要性评估值设置一个比较的基准,此基准在测试集或任一固定数据集上求得,通过当前重要性计算模型计算固定数据集(相对于数据量不断扩大的当前训练集)中每一数据样本的重要性均值,得到重要性均值Lave。重要性均值Lave的设置是为了给设备端采集的训练数据的重要性评估值设定阈值,它表征当前模型对测试集或任一固定数据集的分析能力,在此基础上建立重要性阈值去筛选训练数据。
S140,将所述当前重要性计算模型的参数和对应的重要性均值Lave以广播方式发送给各边缘设备,以使得各边缘设备依据所述当前重要性计算模型和对应的重要性均值Lave对向边缘计算服务器发送的数据进行筛选。
边缘计算服务器将参数较少的当前重要性计算模型和重要性均值Lave下发给边缘设备,边缘设备端基于所述模型和所述均值可以对采集到的训练数据进行筛选、为待发送的数据选择合适的压缩率、将待发送数据的重要性评估值的因素纳入接入机会参数值的计算,实现对重要性评估值不同的数据的不同处理,提升所传输数据的质量,使得服务器端模型训练的性能更加优良。
S150,接收各边缘设备发送的接入机会参数值,依据所述接入机会参数值计算各边缘设备的接入概率,选择接入概率最大的边缘设备,向该边缘设备发送传输触发命令,各边缘设备发送的所述接入机会参数值正比于该边缘设备待传输数据的重要性评估值与该边缘设备对应的传输速率的乘积。
在本说明书实施例的场景中,采用由边缘计算服务器根据各边缘设备发送的接入机会参数值决定出可以进行数据传输的边缘设备,向被选择的边缘设备发送传输触发命令,以接收该设备的训练数据。各边缘设备发送的所述接入机会参数值正比于该边缘设备待传输数据的重要性评估值与该边缘设备对应的传输速率的乘积,使得各设备的接入概率也正比于该边缘设备待传输数据的重要性评估值与该边缘设备对应的传输速率的乘积,从而在信道分配的过程中实现了将待传输数据重要性评估值纳入考虑,有利于提高目标模型获取到的数据质量,有利于提高模型的性能,从而提高了通信资源的利用率。
S160,接收被选择的边缘设备依据所述当前重要性计算模型和对应的重要性均值Lave进行筛选后发送的数据,将所述数据加入当前训练集,并继续根据各边缘设备的接入机会参数值选择传输数据的边缘设备;当接收到的所述数据达到预设的数目后,通过当前训练集对目标模型进行训练,得到参数更新后的目标模型。
边缘计算服务器接收各边缘设备发送的数据,并加入到当前训练集,每收集到预设数目的新数据后训练目标模型,不断优化目标模型的性能。得到新的目标模型后,依据新的目标模型,训练新的重要性计算模型,并计算新的重要性均值Lave,下发给各边缘设备,以更新各边缘设备上对数据的筛选标准,如此循环,达到边缘设备端根据数据对当前目标模型提升训练性能大小的评估值筛选数据的目的,从本质上提升了通信资源的利用效率。
一个具体实施例中,在所述当接收到的所述数据达到预设的数目后,通过当前训练集对目标模型进行训练,得到参数更新后的目标模型的步骤之后,还包括:
在预设的一段时延之后,基于所述当前目标模型的结构,获得评估数据样本对当前目标模型的重要性的当前重要性计算模型,通过所述当前重要性计算模型对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值Lave,将所述当前重要性计算模型的参数和对应的重要性均值Lave以广播方式发送给各边缘设备。
边缘计算服务器不断接收数据加入训练集,训练模型以更新模型参数,但并不需要在模型每次更新后都重新下发重要性计算模型,而是每隔一段时间后才下发模型,在目标模型训练得较为成熟的情况下模型参数变动得不太会频繁,所以隔一段时间才下发重要性计算模型并不会对数据重要性的评估带来较大的误差,并可以节省通信资源。
本实施例中,边缘计算服务器根据当前目标模型训练当前重要性计算模型,在测试集上得出数据样本的重要性均值,将当前重要性计算模型以及重要性均值下发给各边缘设备,从而使得边缘设备根据重要性评估值对传输给服务器的训练数据进行筛选,通过将重要性评估值大的数据加入目标模型训练集,提高模型的训练效率,能够在较少数据量的情况下获得在原数据集上相似的训练效果,从而降低对训练数据量的需求,降低通信成本,在给定通信资源下实现更优的模型性能,并减少了大量训练数据造成的通信负担。
图2为本说明书一个实施例提供的适于在边缘设备上执行的一种训练样本数据的处理方法的流程示意图。如图2所示,本说明书实施例提供一种训练样本数据的处理方法,适于在边缘设备上执行,包括:
S210,接收边缘计算服务器发来的当前重要性计算模型的参数和对应的重要性均值Lave
各边缘设备接收边缘计算服务器下发的当前目标模型的当前重要性计算模型和重要性均值Lave,在边缘设备端对采集到的训练数据进行筛选排序以及有选择的传输,将经过筛选的数据传输给服务器端对目标模型的性能提升更加有益,从而优化目标模型的训练性能。
S220,随机选取预设数目的数据加入预设容量固定的重要数据区中,通过所述当前重要性计算模型对重要数据区中的每一数据计算对应的重要性评估值,随机选取数据计算该数据的重要性评估值,根据该数据的重要性评估值更新重要数据区中的数据。
在大数据时代,对于边缘设备产生的海量训练数据,在通信资源受限的情况下并不能、也不需要将所有训练数据都传输给边缘计算服务器,通过对数据的合理筛选,使用较小的数据集达到几乎相同的模型训练效果将会极大地减小通信负担。数据的筛选要求边缘设备上有目标模型参数并能评估数据对于当前目标模型的重要性,以实现将设备上的数据按重要性评估顺序进行传输。由于数据的重要性评估会随着模型的变化而不断变化,为了适应模型变化,当目标模型更新时需要重新计算数据的重要性。但是对边缘设备上的大量数据进行重要性计算会耗费大量的计算资源,为了解决这个问题,在每一边缘设备上设置重要数据区,该数据区存储最重要的小部分数据,每次目标模型更新后会重新计算重要数据区里的重要性评估值,同时边缘设备会不断地从整体数据中随机选取数据计算重要性评估值,用重要性较高的数据替换重要数据区里重要性评估值较低的数据。在边缘设备需要传输数据时,边缘设备可以选择重要数据区中数据重要性评估值最大的数据进行传输。
一个具体实施例中,所述随机选取预设数目的数据加入预设容量固定的重要数据区中,通过所述当前重要性计算模型对重要数据区中的每一数据计算对应的重要性评估值,随机选取数据计算该数据的重要性评估值,根据该数据的重要性评估值更新重要数据区中的数据的步骤,包括:
随机选取预设数目的数据加入预设容量固定的重要数据区;通过所述当前的重要性计算模型计算重要数据区中每一数据的重要性评估值,并将重要数据区中的数据按照数据重要性排序;随机选取重要数据区以外的数据,并通过所述当前的重要性计算模型获得该数据的重要性评估值;将该数据的重要性评估值与重要数据区中数据的重要性评估值进行比较,若该数据的重要性评估值刚好大于重要数据区中的一个数据的重要性评估值,则将该数据插入重要数据区中对应数据之前。
边缘设备端重要数据区的设置,实现了对边缘设备上产生的训练数据按照数据对当前目标模型训练的重要性评估值的排序,将有限的资源应用于传输对目标模型训练更重要的数据,不再需要传输所有产生的训练数据用于训练,用部分训练数据达到与整个训练数据集相近的训练效果,极大地降低了通信成本。
S230,根据所述重要性均值Lave以及预设的阈值θ,得到重要性阈值θLave
在接收边缘计算服务器下发的重要性均值Lave的基础上,乘以阈值θ,得到重要性阈值θLave,通过调整阈值θ能够对筛选数据的标准进行调整,具有灵活性和可调性,便于应对不同情况下的数据需求。
S240,选取重要数据区中重要性评估值最大的数据作为待传输数据,计算该待传输数据压缩后的重要性评估值,得到第一评估值;将所述第一评估值与所述重要性阈值θLave进行比较,若所述第一评估值大于所述重要性阈值θLave,则提高该待传输数据的压缩率并计算新的压缩率下的重要性评估值,直到该待传输数据的重要性评估值不大于所述重要性阈值θLave或者达到数据传输的最大压缩率,获得该待传输数据的最大压缩率和该压缩率对应的第二评估值。
为了提高通信效率,通常将通信数据进行压缩,但数据的有损压缩导致信息损失,所以需要对数据大小和信息损失进行权衡。在机器学习系统中训练数据的压缩率选择中加入对数据的重要性评估值的考虑,以下从两方面阐述:一方面,训练数据中信息的损失,可能在特征空间中将训练数据移至分类超平面的另一端,从而对模型的训练带来负面影响,对此应增大压缩率减少信息的损失,而对于这一情况的判断,可依据该数据的重要性评估值,重要性评估值大的数据Loss更大,从而会有更大的概率由于信息的损失被移至超平面的另一端,应提高对此数据的压缩率;另一方面,重要性评估值越大的数据,表明模型当前对该数据的特征提取、分析的能力较弱,该数据应提供更多的细节信息帮助模型学习对这类数据的处理方法,从而应该使用更大的压缩率。综合以上考虑,通过设置重要性阈值来选择每一待传输数据的最优压缩率,若待传输的数据的重要性评估值大于所述重要性阈值,则采用更高的压缩率,直至该数据的重要性评估值不大于所述重要性阈值或者该数据的压缩率达到了数据传输的最大压缩率。
一个具体实施例中,所述在数据传输的时刻,选取重要数据区中重要性评估值最大的数据作为待传输数据,计算该待传输数据压缩后的重要性评估值,得到第一评估值;将所述第一评估值与所述重要性阈值θLave进行比较之后,还包括:
若所述第一评估值不大于所述重要性阈值θLave,则将所述第一评估值作为第二评估值,并将对应的压缩率作为该待传输数据的最大压缩率。
若在边缘设备中待传输数据的重要性评估值与重要性阈值θLave比较,不大于所述重要性阈值θLave,则可以直接将该数据的压缩率以及对应的重要性评估值确定下来。
S250,测量信道条件并依据获得的信道参数计算对应的信号传输速率,根据所述待传输数据的第二评估值以及所述传输速率获得接入机会参数值,将所述接入机会参数值发送给边缘计算服务器,以使边缘计算服务器根据各边缘设备的接入机会参数值选择接入概率最大的边缘设备发送传输触发命令,所述接入机会参数值正比于待传输数据的第二评估值与传输速率的乘积。
在通信系统中,需要根据各边缘设备所处的环境决定信道的分配,对于处于通信质量更高的环境中的边缘设备,应有更高的概率被分配到信道,获得传输数据的机会。在将数据对于当前目标模型的重要性评估值纳入考虑后,对于待传输数据的重要性评估值越高的边缘设备,也更应获得信道分配的机会,因此综合考虑信道质量和待传输数据的重要性评估值两个因素,进行边缘设备的信道分配。例如,每一设备获得传输数据的机会为P∝Iv,I为设备上即将要传输的数据的重要性,v为设备所处的信道中的传输速率,,使得各边缘设备的接入概率与P∝Iv正相关。
一个具体实施例中,所述测量信道条件并依据获得的信道参数计算对应的信号传输速率,根据所述待传输数据的第二评估值以及所述传输速率获得接入机会参数值,将所述接入机会参数值发送给边缘计算服务器的步骤,包括:
利用信道条件测量算法测量信道条件,获得当前信号传输的信噪比;根据所述信噪比,通过香农公式计算对应的传输速率;根据所述待传输数据的第二评估值以及所述传输速率获得接入机会参数值;将所述接入机会参数值发送给边缘计算服务器。
各边缘设备根据其信道质量以及待传输数据的重要性评估值参与边缘计算服务器的信道分配,利用信道条件测量算法测量信道条件,计算传输速率,进而得到与待传输数据的重要性评估值有正相关的接入机会参数值,本发明对于具体的信道测量算法不作限定,该接入机会参数值的设置使得传输数据的重要性评估值大的边缘设备更利于在边缘计算服务器分配信道的过程中获得传输机会,从而提升传输数据的质量。
S260,若接收到边缘计算服务器发来的传输触发命令,则将所述待传输数据以该待传输数据的最大压缩率发送给边缘计算服务器。
当边缘设备接收到边缘计算服务器发来的传输触发命令,则将该设备的待传输数据以相应的压缩率发送给边缘计算服务器,接着循环上述过程,不断将边缘设备上采集到的数据经过筛选、压缩率选择、发送接入机会参数值、发送数据给边缘计算服务器,所发送的数据加入目标模型的训练集,以实现对目标模型训练数据的获取。
本实施例中,边缘设备每接收到边缘计算服务器下发的当前重要性计算模型以及重要性均值后,将新的重要性计算模型以及均值作为重要数据区更新的新标准。边缘设备按照数据对当前目标模型的重要性评估值进行筛选,对待发送数据的压缩率选择,以及接入机会参数值的确定,从而使得通信中传输的数据质量提升,使得通信资源的利用效率提高,并优化模型性能。
图3为本说明书一个实施例提供的一种训练样本数据的获取方法、处理方法的原理示意图。如图3所示,边缘计算服务器与多个边缘设备进行交互。边缘计算服务器训练模型,并利用网络蒸馏的思想基于当前目标模型得到重要性计算模型和重要性均值Lave,将重要性计算模型和重要性均值Lave下发给各边缘设备。边缘设备中,接收服务器下发的模型,保持重要数据区的数据更新,计算传输数据的最优压缩率,确定接入机会参数值并发送给边缘计算服务器。边缘计算服务器接收到各边缘设备的接入机会参数值后,经过概率计算选择概率最大的设备发送传输触发命令,以触发被选择的边缘设备传输数据,构成新的训练集,不断对目标模型进行训练。
本实施例中,通过一种训练样本数据的获取方法、处理方法的原理示意图,形象地展示了边缘计算服务器和边缘设备的交互过程,实现了对训练数据的合理评估与筛选,并对数据压缩率进行合理选择,在信道分配中纳入数据质量的因素,从整体上提高了数据的总重要性,提升了训练数据传输的质量。
图4为本说明书一个实施例提供的一种边缘计算服务器的结构示意图。如图4所示,本说明书实施例提供一种边缘计算服务器400,包括目标模型训练模块410、重要性模型训练模块420、均值计算模块430、模型下发模块440、设备选择模块450、训练集更新模块460,其中:
目标模型训练模块410,被配置为根据当前训练集训练目标模型,得到当前目标模型。
重要性模型训练模块420,被配置为基于所述当前目标模型的结构,获得评估数据样本对当前目标模型的重要性的当前重要性计算模型,所述当前重要性计算模型推理获得当前目标模型对每一输入的模拟输出,并通过该模拟输出与每一输入对应的标准输出的差距来表征当前目标模型对该输入的分析能力,以此作为该输入的重要性评估值,所述重要性评估值表征当前目标模型对该数据样本的分析能力。
均值计算模块430,被配置为通过所述当前重要性计算模型对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值Lave
模型下发模块440,被配置为将所述当前重要性计算模型的参数和对应的重要性均值Lave以广播方式发送给各边缘设备,以使得各边缘设备依据所述当前重要性计算模型和对应的重要性均值Lave对向边缘计算服务器发送的数据进行筛选。
设备选择模块450,被配置为接收各边缘设备发送的接入机会参数值,依据所述接入机会参数值计算各边缘设备的接入概率,选择接入概率最大的边缘设备,向该边缘设备发送传输触发命令,各边缘设备发送的所述接入机会参数值正比于该边缘设备待传输数据的重要性评估值与该边缘设备对应的传输速率的乘积。
训练集更新模块460,被配置为接收被选择的边缘设备依据所述当前重要性计算模型和对应的重要性均值Lave进行筛选后发送的数据,将所述数据加入当前训练集,并继续根据各边缘设备的接入机会参数值选择传输数据的边缘设备;当接收到的所述数据达到预设的数目后,通过当前训练集对目标模型进行训练,得到参数更新后的目标模型。
图5为本说明书一个实施例提供的一种边缘设备的结构示意图。如图5所示,本说明书实施例提供一种边缘设备500,包括模型接收模块510、重要数据更新模块520、阈值设置模块530、压缩率选择模块540、接入参数发送模块550、传输模块560,其中:
模型接收模块510,被配置为接收边缘计算服务器发来的当前重要性计算模型的参数和对应的重要性均值Lave
重要数据更新模块520,被配置为随机选取预设数目的数据加入预设容量固定的重要数据区中,通过所述当前重要性计算模型对重要数据区中的每一数据计算对应的重要性评估值,随机选取数据计算该数据的重要性评估值,根据该数据的重要性评估值更新重要数据区中的数据。
阈值设置模块530,被配置为根据所述重要性均值Lave以及预设的阈值θ,得到重要性阈值θLave
压缩率选择模块540,被配置为选取重要数据区中重要性评估值最大的数据作为待传输数据,计算该待传输数据压缩后的重要性评估值,得到第一评估值;将所述第一评估值与所述重要性阈值θLave进行比较,若所述第一评估值大于所述重要性阈值θLave,则提高该待传输数据的压缩率并计算新的压缩率下的重要性评估值,直到该待传输数据的重要性评估值不大于所述重要性阈值θLave或者达到数据传输的最大压缩率,获得该待传输数据的最大压缩率和该压缩率对应的第二评估值。
接入参数发送模块550,被配置为测量信道条件并依据获得的信道参数计算对应的信号传输速率,根据所述待传输数据的第二评估值以及所述传输速率获得接入机会参数值,将所述接入机会参数值发送给边缘计算服务器,以使边缘计算服务器根据各边缘设备的接入机会参数值选择接入概率最大的边缘设备发送传输触发命令,所述接入机会参数值正比于待传输数据的第二评估值与传输速率的乘积。
传输模块560,被配置为若接收到服务器发来的传输触发命令,则将所述待传输数据以该待传输数据的最大压缩率发送给服务器。
图6为本说明书一个实施例提供的一种系统的结构示意图。如图6所示,本说明书实施例提供一种系统600,包括至少一个边缘计算服务器610和至少一个边缘设备620,所述边缘计算服务器610包括第一存储模块,所述边缘设备620包括第二存储模块,所述第一存储模块存储有第一程序,所述第二存储模块存储有第二程序,当所述第一程序被执行时,所述边缘计算服务器610执行上述任一项适于在边缘计算服务器上执行的训练样本数据的获取方法;当所述第二程序被执行时,所述边缘设备620执行上述任一项适于在边缘设备上执行的训练样本数据的处理方法。
上述装置以及系统中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
综上所述,本说明书实施例提供一种训练样本数据的获取方法、处理方法、装置及系统,其中边缘计算服务器训练得到参数较少的重要性计算模型,下发该模型以及重要性均值,边缘设备对训练数据进行筛选,对待传输数据选择最优压缩率,在参与边缘计算服务器的信道分配时加入对待传输数据的重要性评估值的考虑因素,实现对训练数据有选择地传输,提升了边缘计算服务器与边缘设备之间的数据传输的质量,通过将重要性评估值较大的数据加入模型训练集,提高模型的训练效率,能够在较少数据量的情况下获得在原数据集上相似的训练效果,从而降低对训练数据量的需求,降低通信成本,进而在给定通信资源下实现更优的模型性能,解决了大量训练数据造成的通信负担,具有进步性。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (10)

1.一种训练样本数据的获取方法,适于在边缘计算服务器上执行,其特征在于,包括:
根据当前训练集训练目标模型,得到当前目标模型;
基于所述当前目标模型的结构,获得评估数据样本对当前目标模型的重要性的当前重要性计算模型,所述当前重要性计算模型推理获得当前目标模型对每一输入的模拟输出,并通过该模拟输出与每一输入对应的标准输出的差距来表征当前目标模型对该输入的分析能力,以此作为该输入的重要性评估值,所述重要性评估值表征当前目标模型对该数据样本的分析能力;
通过所述当前重要性计算模型对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值Lave
将所述当前重要性计算模型的参数和对应的重要性均值Lave以广播方式发送给各边缘设备,以使得各边缘设备依据所述当前重要性计算模型和对应的重要性均值Lave对向边缘计算服务器发送的数据样本进行筛选;
接收各边缘设备发送的接入机会参数值,依据所述接入机会参数值计算各边缘设备的接入概率,选择接入概率最大的边缘设备,向该边缘设备发送传输触发命令,各边缘设备发送的所述接入机会参数值正比于该边缘设备待传输数据的重要性评估值与该边缘设备对应的传输速率的乘积;
接收被选择的边缘设备依据所述当前重要性计算模型和对应的重要性均值Lave进行筛选后发送的数据,将所述数据加入当前训练集,并继续根据各边缘设备的接入机会参数值选择传输数据的边缘设备;当接收到的所述数据达到预设的数目后,通过当前训练集对目标模型进行训练,得到参数更新后的目标模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述当前目标模型的结构,获得预测数据样本对当前目标模型的数据重要性的当前重要性计算模型的步骤,包括:
获取重要性计算模型的训练样本集,所述训练样本集包括多个重要性训练样本,每一重要性训练样本包括一个样本数据的样本输入、标准输出以及当前目标模型对该样本输入的模型输出以及该样本数据的重要性评估值,所述重要性评估值为所述模型输出与所述标准输出的差值的二范数的平方,所述样本数据为目标模型训练集中的数据样本;
通过所述训练样本集对重要性计算模型进行训练,得到当前重要性计算模型,所述重要性计算模型根据输入的数据样本,输出该数据样本对于当前目标模型的重要性评估值。
3.根据权利要求1所述的方法,其特征在于,在所述当接收到的所述数据达到预设的数目后,通过当前训练集对目标模型进行训练,得到参数更新后的目标模型的步骤之后,还包括:
在预设的一段时延之后,基于所述当前目标模型的结构,获得评估数据样本对当前目标模型的重要性的当前重要性计算模型,通过所述当前重要性计算模型对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值Lave,将所述当前重要性计算模型的参数和对应的重要性均值Lave以广播方式发送给各边缘设备。
4.一种训练样本数据的处理方法,适于在边缘设备上执行,其特征在于,包括:
接收边缘计算服务器发来的当前重要性计算模型的参数和对应的重要性均值Lave
随机选取预设数目的数据加入预设容量固定的重要数据区中,通过所述当前重要性计算模型对重要数据区中的每一数据计算对应的重要性评估值,随机选取数据计算该数据的重要性评估值,根据该数据的重要性评估值更新重要数据区中的数据;
根据所述重要性均值Lave以及预设的阈值θ,得到重要性阈值θLave
选取重要数据区中重要性评估值最大的数据作为待传输数据,计算该待传输数据压缩后的重要性评估值,得到第一评估值;将所述第一评估值与所述重要性阈值θLave进行比较,若所述第一评估值大于所述重要性阈值θLave,则提高该待传输数据的压缩率并计算新的压缩率下的重要性评估值,直到该待传输数据的重要性评估值不大于所述重要性阈值θLave或者达到数据传输的最大压缩率,获得该待传输数据的最大压缩率和该压缩率对应的第二评估值;
测量信道条件并依据获得的信道参数计算对应的信号传输速率,根据所述待传输数据的第二评估值以及所述传输速率获得接入机会参数值,将所述接入机会参数值发送给边缘计算服务器,以使边缘计算服务器根据各边缘设备的接入机会参数值选择接入概率最大的边缘设备发送传输触发命令,所述接入机会参数值正比于待传输数据的第二评估值与传输速率的乘积;
若接收到边缘计算服务器发来的传输触发命令,则将所述待传输数据以该待传输数据的最大压缩率发送给边缘计算服务器。
5.根据权利要求4所述的方法,其特征在于,所述随机选取预设数目的数据加入预设容量固定的重要数据区中,通过所述当前重要性计算模型对重要数据区中的每一数据计算对应的重要性评估值,随机选取数据计算该数据的重要性评估值,根据该数据的重要性评估值更新重要数据区中的数据的步骤,包括:
随机选取预设数目的数据加入预设容量固定的重要数据区;
通过所述当前重要性计算模型计算重要数据区中每一数据的重要性评估值,并将重要数据区中的数据按照重要性评估值排序;
随机选取重要数据区以外的数据,并通过所述当前重要性计算模型获得该数据的重要性评估值;
将该数据的重要性评估值与重要数据区中数据的重要性评估值进行比较,若该数据的重要性评估值刚好大于重要数据区中的一个数据的重要性评估值,则将该数据插入重要数据区中对应数据之前。
6.根据权利要求4所述的方法,其特征在于,所述选取重要数据区中数据重要性最大的数据作为待传输数据,计算该待传输数据压缩后的重要性评估值,得到第一评估值;将所述第一评估值与所述重要性阈值θLave进行比较之后,还包括:
若所述第一评估值不大于所述重要性阈值θLave,则将所述第一评估值作为第二评估值,并将对应的压缩率作为该待传输数据的最大压缩率。
7.根据权利要求4所述的方法,其特征在于,所述测量信道条件并依据获得的信道参数计算对应的信号传输速率,根据所述待传输数据的第二评估值以及所述传输速率获得接入机会参数值,将所述接入机会参数值发送给边缘计算服务器的步骤,包括:
利用信道条件测量算法测量信道条件,获得当前信号传输的信噪比;
根据所述信噪比,通过香农公式计算对应的传输速率;
根据所述待传输数据的第二评估值以及所述传输速率获得接入机会参数值;
将所述接入机会参数值发送给边缘计算服务器。
8.一种边缘计算服务器,包括目标模型训练模块、重要性模型训练模块、均值计算模块、模型下发模块、设备选择模块、训练集更新模块,其中:
目标模型训练模块,被配置为根据当前训练集训练目标模型,得到当前目标模型;
重要性模型训练模块,被配置为基于所述当前目标模型的结构,获得评估数据样本对当前目标模型的重要性的当前重要性计算模型,所述当前重要性计算模型推理获得当前目标模型对每一输入的模拟输出,并通过该模拟输出与每一输入对应的标准输出的差距来表征当前目标模型对该输入的分析能力,以此作为该输入的重要性评估值,所述重要性评估值表征当前目标模型对该数据样本的分析能力;
均值计算模块,被配置为通过所述当前重要性计算模型对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值Lave
模型下发模块,被配置为将所述当前的重要性计算模型的参数和对应的重要性均值Lave以广播方式发送给各边缘设备,以使得各边缘设备依据所述当前的重要性计算模型和对应的重要性均值Lave对向服务器发送的数据样本进行筛选;
设备选择模块,被配置为接收各边缘设备发送的接入机会参数值,依据所述接入机会参数值计算各边缘设备的接入概率,选择接入概率最大的边缘设备,向该边缘设备发送传输触发命令,各边缘设备发送的所述接入机会参数值正比于该边缘设备待传输数据的重要性评估值与该边缘设备对应的传输速率的乘积;
训练集更新模块,被配置为接收被选择的边缘设备依据所述当前重要性计算模型和对应的重要性均值Lave进行筛选后发送的数据,将所述数据加入当前训练集,并继续根据各边缘设备的接入机会参数值选择传输数据的边缘设备;当接收到的所述数据达到预设的数目后,通过当前训练集对目标模型进行训练,得到参数更新后的目标模型。
9.一种边缘设备,包括模型接收模块、重要数据更新模块、阈值设置模块、压缩率选择模块、接入参数发送模块、传输模块,其中:
模型接收模块,被配置为接收服务器发来的当前重要性计算模型的参数和对应的重要性均值Lave
重要数据更新模块,被配置为随机选取预设数目的数据加入预设容量固定的重要数据区中,通过所述当前重要性计算模型对重要数据区中的每一数据计算对应的重要性评估值,随机选取数据计算该数据的重要性评估值,根据该数据的重要性评估值更新重要数据区中的数据;
阈值设置模块,被配置为根据所述重要性均值Lave以及预设的阈值θ,得到重要性阈值θLave
压缩率选择模块,被配置为选取重要数据区中重要性评估值最大的数据作为待传输数据,计算该待传输数据压缩后的重要性评估值,得到第一评估值;将所述第一评估值与所述重要性阈值θLave进行比较,若所述第一评估值大于所述重要性阈值θLave,则提高该待传输数据的压缩率并计算新的压缩率下的重要性评估值,直到该待传输数据的重要性评估值不大于所述重要性阈值θLave或者达到数据传输的最大压缩率,获得该待传输数据的最大压缩率和该压缩率对应的第二评估值;
接入参数发送模块,被配置为测量信道条件并依据获得的信道参数计算对应的信号传输速率,根据所述待传输数据的第二评估值以及所述传输速率获得接入机会参数值,将所述接入机会参数值发送给边缘计算服务器,以使边缘计算服务器根据各边缘设备的接入机会参数值选择接入概率最大的边缘设备发送传输触发命令,所述接入机会参数值正比于待传输数据的第二评估值与传输速率的乘积;
传输模块,被配置为若接收到服务器发来的传输触发命令,则将所述待传输数据以该待传输数据的最大压缩率发送给服务器。
10.一种系统,包括至少一个服务器和至少一个边缘设备,所述服务器包括第一存储模块,所述边缘设备包括第二存储模块,所述第一存储模块存储有第一程序,所述第二存储模块存储有第二程序,当所述第一程序被执行时,所述服务器执行权利要求1-3中任一项所述的方法;当所述第二程序被执行时,所述边缘设备执行权利4-7中任一项所述的方法。
CN201911406291.3A 2019-12-31 2019-12-31 一种训练样本数据的获取方法、处理方法、装置及系统 Active CN113128532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911406291.3A CN113128532B (zh) 2019-12-31 2019-12-31 一种训练样本数据的获取方法、处理方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911406291.3A CN113128532B (zh) 2019-12-31 2019-12-31 一种训练样本数据的获取方法、处理方法、装置及系统

Publications (2)

Publication Number Publication Date
CN113128532A CN113128532A (zh) 2021-07-16
CN113128532B true CN113128532B (zh) 2023-06-20

Family

ID=76768671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911406291.3A Active CN113128532B (zh) 2019-12-31 2019-12-31 一种训练样本数据的获取方法、处理方法、装置及系统

Country Status (1)

Country Link
CN (1) CN113128532B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113805546B (zh) * 2021-09-15 2023-07-07 广州文远知行科技有限公司 一种模型的部署方法、装置、计算机设备和存储介质
EP4343644A1 (en) * 2022-09-20 2024-03-27 u-blox AG Method for training a machine learning model in a server-client machine learning scenario
WO2024065566A1 (en) * 2022-09-30 2024-04-04 Huawei Technologies Co., Ltd. Methods and apparatus for communication of updates for machine-learning model

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214605A (zh) * 2018-11-12 2019-01-15 国网山东省电力公司电力科学研究院 电力系统短期负荷概率预测方法、装置及系统
CN110135167A (zh) * 2019-05-14 2019-08-16 电子科技大学 一种随机森林的边缘计算终端安全等级评估方法
US10461421B1 (en) * 2019-05-07 2019-10-29 Bao Tran Cellular system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417528B2 (en) * 2018-02-18 2019-09-17 Sas Institute Inc. Analytic system for machine learning prediction model selection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214605A (zh) * 2018-11-12 2019-01-15 国网山东省电力公司电力科学研究院 电力系统短期负荷概率预测方法、装置及系统
US10461421B1 (en) * 2019-05-07 2019-10-29 Bao Tran Cellular system
CN110135167A (zh) * 2019-05-14 2019-08-16 电子科技大学 一种随机森林的边缘计算终端安全等级评估方法

Also Published As

Publication number Publication date
CN113128532A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN113128532B (zh) 一种训练样本数据的获取方法、处理方法、装置及系统
US10382974B2 (en) Spectrum sharing method and apparatus thereof
CN112583504B (zh) 天线切换方法及装置
CN106612511B (zh) 一种基于支持向量机的无线网络吞吐量的评估方法及装置
CN1422498A (zh) 提供一个可分级动态客观量度的自动视频质量评价的系统和方法
CN104581758A (zh) 一种语音质量的估计方法、装置及电子设备
CN112020098B (zh) 负荷均衡方法、装置、计算设备及计算机存储介质
CN111460379A (zh) 基于高斯过程回归的多工况动力系统性能预测方法及系统
EP3491793B1 (en) System and method for resource-aware and time-critical iot frameworks
CN113869521A (zh) 构建预测模型的方法、装置、计算设备和存储介质
CN109548164A (zh) 一种基于负载需求的自适应调度切换方法和系统
CN103369655B (zh) 一种提高lte pucch dtx检测性能的方法
Mu et al. AMIS: Edge computing based adaptive mobile video streaming
CN109375999A (zh) 一种基于贝叶斯网络的mec随机任务迁移方法
CN107155192B (zh) 一种用户体验质量评估方法及装置
CN111191113A (zh) 一种基于边缘计算环境的数据资源需求预测和调整方法
CN102740109B (zh) 一种确定终端接收灵敏度的方法、系统及设备
CN113128694A (zh) 机器学习中的数据获取、数据处理的方法、装置及系统
CN112566170B (zh) 网络质量评估方法、装置、服务器及存储介质
CN111901134A (zh) 一种基于循环神经网络模型rnn的预测网络质量的方法和装置
CN101860946A (zh) 一种基于lte系统drx装置及其控制方法
CN114443612A (zh) 数据筛选系统、数据选择方法及应用其的状态预测系统
CN113128692B (zh) 无线分布式机器学习中数据获取处理的方法、装置及系统
CN105451350A (zh) 一种基于联合单播与组播机制的资源分配方法
CN112118591A (zh) 设备网络状态分析控制方法、系统以及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant