CN114154578A - 面向非平衡数据基于半监督分布式训练的任务识别方法 - Google Patents

面向非平衡数据基于半监督分布式训练的任务识别方法 Download PDF

Info

Publication number
CN114154578A
CN114154578A CN202111473280.4A CN202111473280A CN114154578A CN 114154578 A CN114154578 A CN 114154578A CN 202111473280 A CN202111473280 A CN 202111473280A CN 114154578 A CN114154578 A CN 114154578A
Authority
CN
China
Prior art keywords
training
data
nodes
label
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111473280.4A
Other languages
English (en)
Other versions
CN114154578B (zh
Inventor
许志伟
董泽辉
刘利民
王永生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202111473280.4A priority Critical patent/CN114154578B/zh
Publication of CN114154578A publication Critical patent/CN114154578A/zh
Application granted granted Critical
Publication of CN114154578B publication Critical patent/CN114154578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种面向非平衡数据基于半监督分布式训练的任务识别方法,首先,边缘设备收集大量的数据,通过自适应数据采样的方式统计数据的类别,按照类别数量从大到小生成一个降序数据集。然后,通过一个多层结构的分布式训练框架得到一个优化模型。其中,边缘节点既可以作为聚合参数的服务器,也可以作为模型训练的训练节点。最后,通过类再平衡自训练对数据集进行调整,生成一个伪标签集并统计标签集的类分布情况,遵守类再平衡规则生成一个伪标签子集,补充到标签集中生成新的数据集,完成一次自训练迭代。本发明充分利用了分布式训练与半监督学习优势,降低了非平衡数据带来的影响,提高了神经网络训练效果。

Description

面向非平衡数据基于半监督分布式训练的任务识别方法
技术领域
本发明属于人工智能技术领域,涉及任务识别,特别涉及一种基于半监督分布式训练的任务识别方法。
背景技术
随着深度学习领域研究的快速发展以及移动终端的大规模普及,资源与计算密集型的深度学习应用越来越多地被部署在移动终端设备上,如车联网中的道路识别应用和远程医疗应用等。然而,由于深度学习网络结构日趋复杂且产生了大型数据集,边缘终端设备往往难以承担深度学习应用所需的巨大训练成本。
神经网络通过大量的数据集做训练迭代计算,学习出一个模型,在推理阶段则使用该模型对未知数据的属性进行预测。随着大数据多样性的激增,模型为了能提取更加丰富的特征信息而变得越来越复杂。另外待训练数据规模持续增长,且实际训练的数据集是非平衡数据集,其表现为数据集中的样本分布十分不均衡。当基于不平衡数据集构造分类器时,分类器的预测结果可能会偏向多数类,这些分类器很容易将少数样本误分类为多数类。这两点原因使得神经网络的训练阶段非常消耗计算资源与时间,即便是利用GPU进行加速,训练模型都需要数天甚至数周的时间。这就使得利用神经网络进行任务识别时效率不高,且整体资源开销极大。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于半监督分布式训练的任务识别方法,利用多层分布式训练处理海量感知数据,并利用半监督学习的方法解决这些数据中不平衡问题所带来的负面影响,能够进一步提高模型训练的效率,缓解数据不均匀对训练性能带来的影响,减少海量数据训练过程中的资源开销,使得任务识别所消耗的资源更少。
为了实现上述目的,本发明采用的技术方案是:
一种面向非平衡数据基于半监督分布式训练的任务识别方法,包括:
步骤1,首先,针对待分类任务,利用边缘设备采集样本数据,将采集到的样本数据分为有标签集和无标签集;然后,边缘设备利用自身的预训练模型对采集到的样本数据进行处理,得出召回率和准确率,根据召回率和准确率得出待分类任务每个类别的数量,并根据每个类别的数量对各类别进行降序排序;最后,边缘设备获取到处理后的数据集,数据集中标签集和无标签集的边际类分布均是倾斜的;
步骤2,基于所述处理后的数据集,利用边缘设备、多层边缘节点和数据中心服务器组成的多层分布式训练结构,使用数据并行的分布式训练方法训练半监督学习模型,其中,边缘节点为训练节点时计算本地训练梯度,边缘节点为参数服务器时进行训练参数共享,一个参数服务器和多个边缘节点协同执行一个训练任务,数据中心服务器调度训练任务,每个训练任务经过分布式训练得到一个优化模型;
步骤3,利用训练得到的优化模型对标签集和无标签集实现类再平衡自训练,步骤如下:
步骤3.1,以训练得到的优化模型为教师模型,对无标签集进行预测,获得一个伪标签集;
步骤3.2,从标签集估计类分布,基于类再平衡规则,根据分布情况,从伪标签集中选取部分伪标签样本生成一个伪标签子集,利用伪标签子集扩展标签集,实现数据集的类分布平衡;
步骤3.3,基于步骤3.2所得类分布平衡的数据集,利用步骤2的方法训练一个新的模型,称为学生模型,并替代其相应的教师模型,通过设定一个阈值,到达该阈值后,结束自训练,得到识别任务模型;
步骤4,利用所述识别任务模型对新的待识别对象进行识别。
在一个实施例中,所述步骤1,待分类任务有L个类别,有标签集χ={(xn,yn)},无标签集u={um},其中xn表示第n个有标签样本,n∈(1,...,N),N为有标签样本的总数,
Figure BDA0003390054810000031
Nl为有标签集χ中第l类有标签样本的数量,yn为xn对应的类标签,yn∈{1,...,L},um表示第m个无标签样本,m∈(1,...,M),M为无标签样本的总数,um∈Rd,xn∈Rd,Rd表示待分类任务中的所有样本的存储矩阵,R为实数域,d为维数,根据每个类别的数量对各类别进行降序排序,得NL>......>Nl>......>N1其中NL是有标签集χ中第L类有标签样本的数量,其中N1是有标签集χ中第1类有标签样本的数量,有标签集χ和无标签集u共享相同的边际类分布,不平衡率
Figure BDA0003390054810000032
标签分数
Figure BDA0003390054810000033
单个边缘节点所需训练数据量S=N+M。
在一个实施例中,所述步骤2,边缘节点作为训练节点时,训练节点之间不会通信,采用一种强同步的通信模式,每一个训练节点在完成一次迭代后会被堵塞,直到参数服务器收到所有训练节点传送来的梯度并将最新的参数值传递给所有训练节点后才能执行下一轮迭代计算。
在一个实施例中,所述步骤2包括:
步骤2.1,本地训练
边缘节点判断所述处理后的数据集是否达到本地训练所需数据量,数据量不足时将本地数据发送到下层边缘节点,直至满足本地训练所需数据量,相应的边缘节点为训练节点,训练节点利用标签集和无标签集进行半监督学习训练,然后将训练计算得到的梯度发送到下层边缘节点;
步骤2.2,参数聚合
当边缘节点进行聚合训练参数时,相应的边缘节点为参数服务器,参数服务器收集训练节点的训练参数,将参数进行聚合,聚合完成后发送回训练节点;
步骤2.3,任务调度
一个参数服务器和多个训练节点协同执行半监督学习的训练任务,多层分布式训练结构由多个训练任务组成,数据中心服务器同时处理多个训练任务。
在一个实施例中,所述步骤3.1,对无标签集进行预测,预测结果为一个概率区间,选取置信度最大的类别,生成对应的伪标签,获得一个伪标签集。
在一个实施例中,所述步骤3.2,首先,从有标签集χ估计类分布,被预测l类的无标签样本包含在伪标签子集
Figure BDA0003390054810000048
中的比率为
Figure BDA0003390054810000041
对于不平衡率γ,最少类
Figure BDA0003390054810000042
最多类
Figure BDA0003390054810000043
然后,通过类分布情况生成的伪标签子集
Figure BDA0003390054810000044
来扩展有标签集χ,即
Figure BDA0003390054810000045
χ′即再平衡标签集,
Figure BDA0003390054810000046
Figure BDA0003390054810000047
是所有的伪标签样本。
与现有技术相比,本发明的有益效果是:
(1)在现实生活中,收集无标签样本相对容易,而获取大量的标签样本则要困难得多,因为在数据标注过程中可能会花费大量的人力、物力和财力。由于获取标签样本的成本较高,而获取无标签样本的成本相对较低,如果只对标签数据进行训练。而忽略了无标签数据中包含的有效信息,这将造成数据资源的极大浪费,因此通过利用无标签样本可大大节约资源。
(2)利用无标签样本缓解了因为不平衡数据造成分类效果差的现象,
(3)利用分布式训练的方式提升分类的速度和精度。
附图说明
图1是本发明流程示意图。
图2是召回率和准确率与类别数据量的关系。
图3是本发明多层分布式训练结构图。
图4是本发明类再平衡自训练结构图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
在分类任务中,会出现某一类别的数据在总数据中所占的比例远远高于其他类别的情况。例如,在图片分类任务中,每张图片都对应一个类别,而在所有图片中,某个类别的图片远高于其它类别的图片,这样的数据集合称为非平衡数据。非平衡数据会给神经网络训练带来负面影响,主要是消耗计算资源与时间,从而不利于利用神经网络或者人工智能进行任务分类或者任务识别。
为解决这一问题,本发明提供了一种面向非平衡数据基于半监督分布式训练的任务识别方法,充分利用分布式训练与半监督学习优势,降低了非平衡数据带来的影响,提高神经网络训练效率以及最终得到的模型分类准确率。
参考图1,其包括如下步骤:
步骤1:数据采集与处理
首先,针对待分类任务,利用边缘设备采集大量的样本数据,将采集到的样本数据分为有标签集和无标签集。
本发明中,待分类任务,指要处理的分类任务,例如图片分类任务、音频分类任务等。利用神经网络实现该任务时,需要大量的样本数据进行训练。本发明中,边缘设备指的是带有获取样本数据传感器的设备。例如,汽车,摄像头,手机,智能手表,智能空调,电视等智能设备。
本发明中,有标签集指的是具有分类标签的样本数据即有标签样本的集合,而无标签集指的是没有分类标签的样本数据即无标签样本的集合,无标签样本没有确定的类别不需要进行统计,而有标签样本需要进行统计。
然后,边缘设备利用自身的预训练模型对采集到的样本数据进行处理,得出召回率和准确率,根据召回率和准确率得出待分类任务每个类别的数量,并根据每个类别的数量对各类别进行降序排序。
示例地,可通过自适应数据采样的方式统计数据的类别信息,其中类别信息指数据集有多少个种类,每个类别有多少数量。例如,采集到的图片类别为猫图、狗图、鲨鱼图以及对应每类的数量。
现实生活所获取到的数据不但非平衡的,而且无法确定哪些数据属于多数类,哪些属于少数类。所以,本发明利用半监督学习在不平衡数据上的不良性能,设计了自适应数据采样方法。参考图2,利用预训练模型测试时,采集到数据在多数类上获得了较高的召回率和较低的准确率,而在少数类获得了较高的准确率和较低的召回率。根据图片的召回率和准确率就可以辅助统计每个类别的数量,按照类别数量从大到小即可生成一个降序数据集。自适应数据采样方法是利用上述不良性能进行数据处理,根据召回率和准确率对类别按照降序排序,实现对数据类别的统计。
最后,边缘设备获取到处理后的数据集,数据集中标签集和无标签集的边际类分布均是倾斜的。
为便于描述,设待分类任务有L个类别,有标签集χ={(xn,yn)},无标签集u={um}。其中,xn表示第n个有标签样本,n∈(1,...,N),N为有标签样本的总数,
Figure BDA0003390054810000061
Nl为有标签集χ中第l类有标签样本的数量,yn为xn对应的类标签,yn∈{1,...,L},um表示第m个无标签样本,m∈(1,...,M),M为无标签样本的总数,um∈Rd,xn∈Rd,Rd表示待分类任务中的所有样本的存储矩阵,R为实数域,d为维数。
根据每个类别的数量对各类别进行降序排序,得NL>......>Nl>......>N1,其中NL是有标签集χ中第L类有标签样本的数量,其中N1是有标签集χ中第1类有标签样本的数量,有标签集χ和无标签集u共享相同的边际类分布,不平衡率
Figure BDA0003390054810000062
衡量类不平衡的程度,标签分数
Figure BDA0003390054810000063
测量标签数据的百分比,单个边缘节点所需训练数据量S=N+M。
在本发明的一个实施例中,进行十分类任务,即L=10,数据集中的标签集χ和无标签集u都是类不平衡的,其中多数类N10的样本数比少数类N1的样本数多100倍,即不平衡率
Figure BDA0003390054810000064
设定边缘节点所需训练数据量S=10000,N1≥N2...≥N10,边缘设备处理后的数据集中标签集χ和无标签集u的边际类分布都是倾斜的,即N1>>N10
步骤2,分布式训练
如图3所示,边缘设备将处理后的数据集上传到边缘节点,由于数据规模庞大和模型复杂,模型训练非常消耗资源和时间,通过利用边缘设备、多层边缘节点和数据中心服务器组成的多层分布式训练结构,使用数据并行的分布式训练方法训练半监督学习模型,可有效提升效率和提高模型质量。数据并行是指参与训练的节点都有完整的网络模型,训练节点利用本身的数据计算梯度,更新这些模型的参数,训练之后的本地模型再通过参数服务器融合为全局模型。
根据功能,本发明中,边缘节点分为训练节点和参数服务器节点,为训练节点时计算本地训练梯度,为参数服务器时进行训练参数共享。一个参数服务器和多个边缘节点协同执行一个训练任务,训练任务为每个训练节点根据其局部数据独立地训练神经网络模型,参数服务器收集训练节点的模型参数,并将它们聚合,分发到每个训练节点,数据中心服务器调度训练任务,每个训练任务经过分布式训练得到一个优化模型,优化模型最终会替换边缘设备的预训练模型。各训练任务之间没有关系,并行执行。不同的训练任务所训练出的模型不同,对应的完成的分类识别功能也不同。
即,分布式训练由多个半监督学习训练任务构成,训练任务由多个训练节点利用标签集和无标签集进行半监督学习训练计算本地数据的梯度,并与参数服务器进行训练参数共享,实现对模型损失函数的优化。
在本发明中,训练节点和参数服务器间的关系相对独立,而且训练节点之间不会通信。边缘节点作为训练节点时,训练节点之间不会通信,采用一种强同步的通信模式,每一个训练节点在完成一次迭代后会被堵塞,直到参数服务器收到所有训练节点传送来的梯度并将最新的参数值传递给所有训练节点后才能执行下一轮迭代计算。
步骤2的完整流程可以描述如下:
步骤2.1,本地训练
边缘节点判断处理后的数据集是否达到本地训练所需数据量,数据量不足时将本地数据发送到下层边缘节点,直至满足本地训练所需数据量,相应的边缘节点为训练节点,训练节点利用标签集和无标签集进行半监督学习训练,然后将训练计算得到的梯度发送到下层边缘节点。
其中本地数据指该边缘节点的数据集。例如,在图片分类任务中,本地数据即该边缘节点所有的图片。由于神经网络训练时需要满足一定的数据量才可以开始训练。所以边缘设备采集数据,然后将数据发送到下层边缘节点,边缘节点需要判断数据量是否达到神经网络所需训练量,达到之后该节点才能作为训练节点,进行神经网络训练。
步骤2.2,参数聚合
当边缘节点进行聚合训练参数时,相应的边缘节点为参数服务器,参数服务器收集同种训练任务的训练节点的训练参数,例如第一个参数服务器进行的是猫狗分类的训练任务,则该参数服务器只会收集进行训练猫狗分类的训练节点的模型参数。之后将训练参数进行聚合,聚合完成后发送回参与同种训练任务的训练节点。
步骤2.3,任务调度
一个参数服务器和多个训练节点协同执行半监督学习的训练任务,多层分布式训练结构由多个训练任务组成,数据中心服务器同时处理多个训练任务。
本发明的实施例中,边缘节点层数为k∈(1,...,K),在步骤2.1,1层边缘节点收集边缘设备在步骤1处理后的待训练数据集χ和u后,判断是否达到训练所需数据量S。如果1层边缘节点未达到训练所需数据量S时,需要将本地数据上传到2层节点,以此类推,直到训练节点达到训练所需数据量S。如果数据量达到训练所需数据量S时,该层边缘节点将承担训练节点功能。训练节点在训练时从本地数据进行神经网络前向反向计算,反向计算得到的梯度上传到下层节点。在步骤2.2,当k层边缘节点收集到k-1层训练节点的训练参数时,该节点将承担参数服务器功能,参数服务器的层数一定是大于等于2,即k≥2。参数服务器将能是将同一训练任务中k-1层训练节点的神经网络梯度参数聚合,聚合完成后发送到训练节点,保证训练节点在进行下一轮迭代计算前从参数服务器拉取最新的聚合梯度。在步骤2.3,一个参数服务器和多个训练节点协同执行半监督学习的训练任务,构成一个训练任务,每个训练任务经过分布式训练得到一个优化模型,该模型将用于步骤3使用。多层分布式训练结构由多个训练任务组成,数据中心服务器将训练过程中的任务分为模型计算、参数聚合两类,使得任务的调度与具体的传输架构无关,给任务的并行和调度带来更多的可能,对多个训练任务进行调度。
步骤3,利用训练得到的优化模型对标签集和无标签集实现类再平衡自训练。如图4所示,该方法并不是将每个伪标记样本都包含在标签集中,而是从标签集估计类分布情况,从伪标签集中抽取部分样本,生成一个伪标签子集来扩展标签集,实现类再平衡。更行后的数据集返回步骤2通过多层分布式训练出新的模型,替换掉旧的模型,循环这个过程,直至达到所设阈值。
其具体步骤如下:
步骤3.1,以训练得到的优化模型为教师模型,对无标签集进行预测,预测结果为一个概率区间,选取置信度最大的类别,生成对应的伪标签,获得一个伪标签集。由于边缘设备获取到标签集是非平衡的,所以需要利用生成的伪标签集对标签集进行调整。但其采集到的伪标签集直接扩充到标签集中并不能使标签集达到平衡。因此本发明对其进行调整,调整的策略是根据类在平衡规则,从伪标签集中选取部分伪标签样本生成一个伪标签子集,扩充到标签集中,从而实现标签集的类分布平衡。
步骤3.2,从标签集估计类分布,基于类再平衡规则,根据分布情况,从伪标签集中选取部分伪标签样本生成一个伪标签子集,利用伪标签子集扩展标签集,实现数据集的类分布平衡。类再平衡规则是:某一类的频率越低,被预测为该类的未标记样本就越多。反之,该类的频率越高,被预测为该类的未标记样本就越少。
具体地,首先从有标签集χ估计类分布,被预测l类的无标签样本包含在伪标签子集
Figure BDA0003390054810000091
中的比率为
Figure BDA0003390054810000092
对于不平衡率
Figure BDA0003390054810000093
最少类
Figure BDA0003390054810000094
最多类
Figure BDA0003390054810000101
然后,通过类分布情况生成的伪标签子集
Figure BDA0003390054810000102
来扩展有标签集χ,即
Figure BDA0003390054810000103
χ′即再平衡标签集,
Figure BDA0003390054810000104
Figure BDA0003390054810000105
是所有的伪标签样本。原则上,类分布情况展示了标签集中每类的数量,根据数量多少对标签集进行扩充,数量少的类别多加伪标签样本,数量多的类别少加伪标签样本。
步骤3.3,基于步骤3.2所得类分布平衡的数据集,利用步骤2的方法训练一个新的模型,称为学生模型,并替代其相应的教师模型,完成一次自训练迭代。通过设定一个阈值,到达该阈值后,结束自训练,得到识别任务模型。
本发明的实施例中,步骤3.1,使用教师模型的预测功能给未标记的数据um生成伪标签
Figure BDA0003390054810000106
最终得到伪标签集
Figure BDA0003390054810000107
步骤3.2,在半监督学习的十分类任务中,即L=10。对于不平衡率
Figure BDA0003390054810000108
最少类
Figure BDA0003390054810000109
最多类
Figure BDA00033900548100001010
然后,通过类分布情况生成的伪标签子集
Figure BDA00033900548100001011
来扩展标签集χ,即
Figure BDA00033900548100001012
再平衡标签集χ′;步骤3.3,使用新的标签集χ′和无标签集u组合成新的数据集,返回步骤2分布式训练获得新的优化模型,即学生模型。本实施例设定标签分数β=95%,,达到该阈值后停止自训练迭代。
步骤4,利用识别任务模型,即可对新的待识别对象进行识别。
以上,对本发明的具体实施方式做了具体描述,但是不应该认定本发明的具体实施只局限于这些说明。对于本发明所属领域的普通技术人员来说,在不脱离本发明构思和由权利要求书所限定的保护范围的前提之下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (6)

1.一种面向非平衡数据基于半监督分布式训练的任务识别方法,其特征在于,包括:
步骤1,首先,针对待分类任务,利用边缘设备采集样本数据,将采集到的样本数据分为有标签集和无标签集;然后,边缘设备利用自身的预训练模型对采集到的样本数据进行处理,得出召回率和准确率,根据召回率和准确率得出待分类任务每个类别的数量,并根据每个类别的数量对各类别进行降序排序;最后,边缘设备获取到处理后的数据集,数据集中标签集和无标签集的边际类分布均是倾斜的;
步骤2,基于所述处理后的数据集,利用边缘设备、多层边缘节点和数据中心服务器组成的多层分布式训练结构,使用数据并行的分布式训练方法训练半监督学习模型,其中,边缘节点为训练节点时计算本地训练梯度,边缘节点为参数服务器时进行训练参数共享,一个参数服务器和多个边缘节点协同执行一个训练任务,数据中心服务器调度训练任务,每个训练任务经过分布式训练得到一个优化模型;
步骤3,利用训练得到的优化模型对标签集和无标签集实现类再平衡自训练,步骤如下:
步骤3.1,以训练得到的优化模型为教师模型,对无标签集进行预测,获得一个伪标签集;
步骤3.2,从标签集估计类分布,基于类再平衡规则,根据分布情况,从伪标签集中选取部分伪标签样本生成一个伪标签子集,利用伪标签子集扩展标签集,实现数据集的类分布平衡;
步骤3.3,基于步骤3.2所得类分布平衡的数据集,利用步骤2的方法训练一个新的模型,称为学生模型,并替代其相应的教师模型,通过设定一个阈值,到达该阈值后,结束自训练,得到识别任务模型;
步骤4,利用所述识别任务模型对新的待识别对象进行识别。
2.根据权利要求1所述基于半监督分布式训练的任务识别方法,其特征在于,所述步骤1中,待分类任务有L个类别,有标签集χ={(xn,yn)},无标签集u={um},其中xn表示第n个有标签样本,n∈(1,…,N),N为有标签样本的总数,
Figure FDA0003390054800000021
Nl为有标签集χ中第l类有标签样本的数量,yn为xn对应的类标签,yn∈{1,…,L},um表示第m个无标签样本,m∈(1,…,M),M为无标签样本的总数,um∈Rd,xn∈Rd,Rd表示待分类任务中的所有样本的存储矩阵,R为实数域,d为维数,根据每个类别的数量对各类别进行降序排序,得NL>……>Nl>……>N1其中NL是有标签集χ中第L类有标签样本的数量,其中N1是有标签集χ中第1类有标签样本的数量,有标签集χ和无标签集u共享相同的边际类分布,不平衡率
Figure FDA0003390054800000022
标签分数
Figure FDA0003390054800000023
单个边缘节点所需训练数据量S=N+M。
3.根据权利要求1所述基于半监督分布式训练的任务识别方法,其特征在于,所述步骤2,边缘节点作为训练节点时,训练节点之间不会通信,采用一种强同步的通信模式,每一个训练节点在完成一次迭代后会被堵塞,直到参数服务器收到所有训练节点传送来的梯度并将最新的参数值传递给所有训练节点后才能执行下一轮迭代计算。
4.根据权利要求1所述基于半监督分布式训练的任务识别方法,其特征在于,所述步骤2包括:
步骤2.1,本地训练
边缘节点判断所述处理后的数据集是否达到本地训练所需数据量,数据量不足时将本地数据发送到下层边缘节点,直至满足本地训练所需数据量,相应的边缘节点为训练节点,训练节点利用标签集和无标签集进行半监督学习训练,然后将训练计算得到的梯度发送到下层边缘节点;
步骤2.2,参数聚合
当边缘节点进行聚合训练参数时,相应的边缘节点为参数服务器,参数服务器收集训练节点的训练参数,将参数进行聚合,聚合完成后发送回训练节点;
步骤2.3,任务调度
一个参数服务器和多个训练节点协同执行半监督学习的训练任务,多层分布式训练结构由多个训练任务组成,数据中心服务器同时处理多个训练任务。
5.根据权利要求1所述基于半监督分布式训练的任务识别方法,其特征在于,所述步骤3.1,对无标签集进行预测,预测结果为一个概率区间,选取置信度最大的类别,生成对应的伪标签,获得一个伪标签集。
6.根据权利要求1所述基于半监督分布式训练的任务识别方法,其特征在于,所述步骤3.2,首先,从有标签集χ估计类分布,被预测l类的无标签样本包含在伪标签子集
Figure FDA0003390054800000031
中的比率为
Figure FDA0003390054800000032
对于不平衡率γ,最少类
Figure FDA0003390054800000033
最多类
Figure FDA0003390054800000034
然后,通过类分布情况生成的伪标签子集
Figure FDA0003390054800000035
来扩展有标签集χ,即
Figure FDA0003390054800000036
χ′即再平衡标签集,
Figure FDA0003390054800000037
Figure FDA0003390054800000038
是所有的伪标签样本。
CN202111473280.4A 2021-12-02 2021-12-02 面向非平衡数据基于半监督分布式训练的任务识别方法 Active CN114154578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111473280.4A CN114154578B (zh) 2021-12-02 2021-12-02 面向非平衡数据基于半监督分布式训练的任务识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111473280.4A CN114154578B (zh) 2021-12-02 2021-12-02 面向非平衡数据基于半监督分布式训练的任务识别方法

Publications (2)

Publication Number Publication Date
CN114154578A true CN114154578A (zh) 2022-03-08
CN114154578B CN114154578B (zh) 2023-10-31

Family

ID=80452376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111473280.4A Active CN114154578B (zh) 2021-12-02 2021-12-02 面向非平衡数据基于半监督分布式训练的任务识别方法

Country Status (1)

Country Link
CN (1) CN114154578B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824275A (zh) * 2023-08-29 2023-09-29 青岛美迪康数字工程有限公司 一种实现智能模型优化的方法、装置和计算机设备
CN117479235A (zh) * 2023-12-28 2024-01-30 中通信息服务有限公司 一种末梢网络设施调度管理方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090063145A1 (en) * 2004-03-02 2009-03-05 At&T Corp. Combining active and semi-supervised learning for spoken language understanding
WO2019169700A1 (zh) * 2018-03-08 2019-09-12 平安科技(深圳)有限公司 一种数据分类方法、装置、设备及计算机可读存储介质
US10474713B1 (en) * 2018-10-26 2019-11-12 StradVision, Inc. Learning method and learning device using multiple labeled databases with different label sets and testing method and testing device using the same
CN111666502A (zh) * 2020-07-08 2020-09-15 腾讯科技(深圳)有限公司 一种基于深度学习的异常用户识别方法、装置及存储介质
CN112232416A (zh) * 2020-10-16 2021-01-15 浙江大学 一种基于伪标签加权的半监督学习方法
CN112580742A (zh) * 2020-12-29 2021-03-30 中国科学技术大学 基于标签传播的图神经网络快速训练方法
WO2021057427A1 (zh) * 2019-09-25 2021-04-01 西安交通大学 一种基于PU learning的跨区域企业偷漏税识别方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090063145A1 (en) * 2004-03-02 2009-03-05 At&T Corp. Combining active and semi-supervised learning for spoken language understanding
WO2019169700A1 (zh) * 2018-03-08 2019-09-12 平安科技(深圳)有限公司 一种数据分类方法、装置、设备及计算机可读存储介质
US10474713B1 (en) * 2018-10-26 2019-11-12 StradVision, Inc. Learning method and learning device using multiple labeled databases with different label sets and testing method and testing device using the same
WO2021057427A1 (zh) * 2019-09-25 2021-04-01 西安交通大学 一种基于PU learning的跨区域企业偷漏税识别方法及系统
CN111666502A (zh) * 2020-07-08 2020-09-15 腾讯科技(深圳)有限公司 一种基于深度学习的异常用户识别方法、装置及存储介质
CN112232416A (zh) * 2020-10-16 2021-01-15 浙江大学 一种基于伪标签加权的半监督学习方法
CN112580742A (zh) * 2020-12-29 2021-03-30 中国科学技术大学 基于标签传播的图神经网络快速训练方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANA STANESCU: "Ensemble-based semi-supervised learning approaches for imbalanced splice site datasets", 《2014 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 *
王跃: "基于迁移学习的半监督聚类及其并行化实现", 《中国优秀硕士论文电子期刊网》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824275A (zh) * 2023-08-29 2023-09-29 青岛美迪康数字工程有限公司 一种实现智能模型优化的方法、装置和计算机设备
CN116824275B (zh) * 2023-08-29 2023-11-17 青岛美迪康数字工程有限公司 一种实现智能模型优化的方法、装置和计算机设备
CN117479235A (zh) * 2023-12-28 2024-01-30 中通信息服务有限公司 一种末梢网络设施调度管理方法及系统
CN117479235B (zh) * 2023-12-28 2024-03-19 中通信息服务有限公司 一种末梢网络设施调度管理方法及系统

Also Published As

Publication number Publication date
CN114154578B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN114241282B (zh) 一种基于知识蒸馏的边缘设备场景识别方法及装置
CN109558942B (zh) 一种基于浅度学习的神经网络迁移方法
CN114154578B (zh) 面向非平衡数据基于半监督分布式训练的任务识别方法
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
CN105787513A (zh) 多示例多标记框架下基于域适应迁移学习设计方法和系统
CN113128478B (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
CN111239137B (zh) 基于迁移学习与自适应深度卷积神经网络的谷物质量检测方法
CN113037783B (zh) 一种异常行为检测方法及系统
CN114782752B (zh) 基于自训练的小样本图像集成分类方法及装置
CN108596204B (zh) 一种基于改进型scdae的半监督调制方式分类模型的方法
CN114154647A (zh) 一种基于多粒度联邦学习的方法
CN116310466A (zh) 基于局部无关区域筛选图神经网络的小样本图像分类方法
CN113781404B (zh) 基于自监督预训练的道路病害检测方法和系统
CN116089883A (zh) 用于提高已有类别增量学习新旧类别区分度的训练方法
CN105512675A (zh) 一种基于记忆性多点交叉引力搜索的特征选择方法
CN111797935B (zh) 基于群体智能的半监督深度网络图片分类方法
CN113657473A (zh) 一种基于迁移学习的Web服务分类方法
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN115577797A (zh) 一种基于本地噪声感知的联邦学习优化方法及系统
CN115861239A (zh) 一种基于元学习的小样本工业零件表面缺陷检测方法
CN114861936A (zh) 一种基于特征原型的联邦增量学习方法
CN114758135A (zh) 一种基于注意力机制的无监督图像语义分割方法
CN114742166A (zh) 一种基于时延优化的通信网现场维护模型迁移方法
CN110427973B (zh) 一种面向歧义标注样本的分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant