CN113515639A - 基于置信学习与标签平滑的噪声数据处理方法与系统 - Google Patents

基于置信学习与标签平滑的噪声数据处理方法与系统 Download PDF

Info

Publication number
CN113515639A
CN113515639A CN202111075371.2A CN202111075371A CN113515639A CN 113515639 A CN113515639 A CN 113515639A CN 202111075371 A CN202111075371 A CN 202111075371A CN 113515639 A CN113515639 A CN 113515639A
Authority
CN
China
Prior art keywords
noise
label
text
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111075371.2A
Other languages
English (en)
Other versions
CN113515639B (zh
Inventor
刘伟
刘家伟
龚杰
李鑫涛
傅骏成
余晓霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202111075371.2A priority Critical patent/CN113515639B/zh
Publication of CN113515639A publication Critical patent/CN113515639A/zh
Application granted granted Critical
Publication of CN113515639B publication Critical patent/CN113515639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于置信学习与标签平滑的噪声数据处理方法与系统,该方法包括:对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,将经过迭代计算收敛后的模型作为训练好的教师模型;利用训练好的教师模型,通过置信学习的方式对带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;将第一训练集合以及噪声训练集合输入至学生模型,通过标签平滑正则化方法对学生模型进行训练,以最终得到训练好的学生模型。本发明可减小学生模型对噪声数据的拟合程度,从而提高训练好的学生模型的分类性能。

Description

基于置信学习与标签平滑的噪声数据处理方法与系统
技术领域
本发明涉及计算机技术领域,特别涉及一种基于置信学习与标签平滑的噪声数据处理方法与系统。
背景技术
在计算机领域的监督学习中,训练数据的质量对模型的学习效果至关重要。高性能的深度神经网络分类模型依赖大量高质量标记的训练数据,而训练数据的质量非常依赖人工的标注。标注的质量越高,标注的难度也就越大。因此,大型数据集总是包含错误的标签。例如,在文本分类的任务中,训练数据中某些“军事”类的文本被错误地标记为“历史”类。其中,过高比例的噪声数据会在模型的迭代过程中使模型收敛于错误知识,降低模型的分类效果。而噪声普遍存在文本分类和语音识别等分类任务的大型数据集中,因此,有必要面向噪声数据设计基于深度学习的分类算法。
为发现数据集中的噪声,以往诸多研究和应用采用置信学习的方式,以计算各个样本标签的不确定性。此类方法一般将识别出的噪声标签剔除出训练集或者重新修改样本的权重。具体的,现有的分类技术一般通过人工检查和置信学习两种方式处理噪声数据。(1)、人工检查根据对数据和业务的理解,手工对数据进行筛选清洗。当面对大型数据集时,采用人工检查的方式耗时费力,效率过低。(2)、以往基于置信学习的噪声数据分类技术主要通过剔除噪声数据或者调整噪声样本的损失。这些技术往往直接在噪声数据上训练一个分类模型,然后根据模型关于样本的预测值,剔除预测与标记不一致的样本,或者调整相关样本的权重。
然而,上述技术存在的缺点在于:直接在原始的噪声数据上训练的模型分类效果较差,利用较差的分类模型无法有效剔除噪声数据或者合理调整相关噪声样本的权重。此外,某些任务的数据较难获取,直接剔除稀有类别(样本占比较小的类别)的数据易导致数据关于类别的分布更加不平衡,进而降低最终的分类效果。
基于此,有必要提出一种新型的噪声数据处理方法,以提高分类算法对噪声的鲁棒性。
发明内容
鉴于上述状况,有必要解决现有技术中,直接在原始的噪声数据上训练的模型分类效果较差,利用较差的分类模型无法有效剔除噪声数据或者合理调整相关噪声样本的权重的问题。
本发明实施例提供一种基于置信学习与标签平滑的噪声数据处理方法,其中,所述方法包括:
步骤一:对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,将经过迭代计算收敛后的模型作为训练好的教师模型;
步骤二:利用训练好的教师模型,通过置信学习的方式对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;
步骤三:将所述第一训练集合以及所述噪声训练集合输入至学生模型,通过标签平滑正则化方法对学生模型进行训练,以最终得到训练好的学生模型。
本发明提出的基于置信学习与标签平滑的噪声数据处理方法,首先对对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,经迭代收敛后得到训练好的教师模型;利用训练好的教师模型,通过置信学习的方式对带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;最后输入至学生模型,结合标签平滑正则化方法对多分类交叉熵损失函数进行迭代收敛得到训练好的学生模型。
本发明在训练教师模型时,采用标签平滑正则化方法平滑one-hot编码的标签,可以抑制教师模型的过拟合,进而提高算法的噪声筛选能力,同时基于置信学习,筛选出数据中的噪声;此外,在噪声数据筛选的基础上,本发明采用标签平滑正则化的方式训练学生模型,可避免因数据剔除进一步造成稀有类别数据过少而导致类别不平衡的问题,同时对疑似噪声数据的标签进行平滑,可减小学生模型对噪声数据的拟合程度,从而提高训练好的学生模型的分类性能。
所述一种基于置信学习与标签平滑的噪声数据处理方法,其中,在所述步骤一中,所述原始训练数据集合
Figure 712124DEST_PATH_IMAGE001
表示为:
Figure 98106DEST_PATH_IMAGE002
其中,
Figure 81106DEST_PATH_IMAGE003
表示原始训练数据集合中的样本数量,
Figure 945156DEST_PATH_IMAGE004
表示原始训练数据集中第
Figure 228370DEST_PATH_IMAGE005
个文本,
Figure 316412DEST_PATH_IMAGE006
是文本
Figure 52287DEST_PATH_IMAGE004
的类别标签,
Figure 454449DEST_PATH_IMAGE007
Figure 592169DEST_PATH_IMAGE008
m是互斥的文本类别标签的数量,R为实数,d表示特征的维度,
Figure 54375DEST_PATH_IMAGE009
表示文本的特征属于d维的实数空间,
Figure 74283DEST_PATH_IMAGE010
表示样本标签所属的m维的实数空间。
所述一种基于置信学习与标签平滑的噪声数据处理方法,其中,在所述步骤一中,原始训练数据集合中
Figure 280137DEST_PATH_IMAGE001
属于类别
Figure 272364DEST_PATH_IMAGE011
的文本
Figure 905470DEST_PATH_IMAGE012
的类别标签
Figure 615937DEST_PATH_IMAGE013
经过标签平滑正则化后可得:
Figure 156640DEST_PATH_IMAGE014
其中,
Figure 268953DEST_PATH_IMAGE015
是平滑后的类别标签
Figure 70031DEST_PATH_IMAGE013
的第
Figure 2215DEST_PATH_IMAGE016
个元素,
Figure 549871DEST_PATH_IMAGE017
为超参数。
所述一种基于置信学习与标签平滑的噪声数据处理方法,其中,在所述步骤一中,进行迭代计算的方法包括如下步骤:
通过基于交叉熵的多类别分类损失进行迭代计算,将收敛后的模型作为训练好的教师模型;
其中,在教师模型中,基于交叉熵的多类别分类损失表示为:
Figure 516690DEST_PATH_IMAGE018
其中,
Figure 553916DEST_PATH_IMAGE019
为教师模型中基于交叉熵的多类别分类损失,
Figure 973396DEST_PATH_IMAGE020
表示教师模型的参数
Figure 59164DEST_PATH_IMAGE021
关于文本
Figure 880489DEST_PATH_IMAGE012
属于类别
Figure 291879DEST_PATH_IMAGE016
的预测概率,
Figure 995393DEST_PATH_IMAGE022
表示任意一个文本对应的类别标签。
所述一种基于置信学习与标签平滑的噪声数据处理方法,其中,在所述步骤二中,对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选的步骤中,需要对属于类别
Figure 884851DEST_PATH_IMAGE023
的文本
Figure 826262DEST_PATH_IMAGE024
对应的类别标签的标注正确与否进行判定,具体包括如下步骤:
若属于类别
Figure 142974DEST_PATH_IMAGE023
的文本
Figure 537046DEST_PATH_IMAGE024
在原始训练数据集合
Figure 230196DEST_PATH_IMAGE025
中的类别标签为
Figure 557272DEST_PATH_IMAGE026
,且对所述训练好的教师模型关于类别
Figure 310465DEST_PATH_IMAGE016
的预测概率大于预设概率阈值,则判定文本
Figure 926254DEST_PATH_IMAGE024
在原始训练数据集合
Figure 423094DEST_PATH_IMAGE001
中的类别标签
Figure 870256DEST_PATH_IMAGE026
为错误标签,即文本
Figure 519981DEST_PATH_IMAGE024
为噪声样本;
其中,属于类别
Figure 888646DEST_PATH_IMAGE023
的文本
Figure 923598DEST_PATH_IMAGE024
对所述训练好的教师模型关于类别
Figure 428528DEST_PATH_IMAGE016
的预测概率表示为
Figure 257944DEST_PATH_IMAGE027
所述预设概率阈值表示为:
Figure 113905DEST_PATH_IMAGE028
其中,
Figure 749285DEST_PATH_IMAGE029
为所述预设概率阈值,
Figure 108723DEST_PATH_IMAGE030
表示第
Figure 374619DEST_PATH_IMAGE016
类文本对应的数据集
Figure 186717DEST_PATH_IMAGE031
中文本的数量。
所述一种基于置信学习与标签平滑的噪声数据处理方法,其中,在所述步骤二中,在所述噪声训练集合中,第
Figure 829051DEST_PATH_IMAGE032
类噪声样本的初始数量表示为:
Figure 105312DEST_PATH_IMAGE033
Figure 542109DEST_PATH_IMAGE034
其中,
Figure 107083DEST_PATH_IMAGE035
表示混淆矩阵
Figure 21949DEST_PATH_IMAGE036
中类别标签标记为第
Figure 355978DEST_PATH_IMAGE032
类,真实类别标签为
Figure 963677DEST_PATH_IMAGE037
的样本数量,
Figure 812685DEST_PATH_IMAGE038
表示真实类别标签,
Figure 531242DEST_PATH_IMAGE039
表示教师模型的参数
Figure 982427DEST_PATH_IMAGE021
关于文本
Figure 495448DEST_PATH_IMAGE040
属于类别
Figure 35014DEST_PATH_IMAGE041
的预测概率,
Figure 354000DEST_PATH_IMAGE042
表示教师模型的参数
Figure 662621DEST_PATH_IMAGE021
关于文本
Figure 612123DEST_PATH_IMAGE040
属于类别
Figure 107826DEST_PATH_IMAGE043
的预测概率。
所述一种基于置信学习与标签平滑的噪声数据处理方法,其中,在所述步骤二中,第
Figure 433765DEST_PATH_IMAGE044
类噪声样本对应的最终噪声样本数量
Figure 596893DEST_PATH_IMAGE045
表示为:
Figure 514034DEST_PATH_IMAGE046
Figure 28192DEST_PATH_IMAGE047
其中,
Figure 626663DEST_PATH_IMAGE048
为各类别的训练样本数量相关的权重,
Figure 644298DEST_PATH_IMAGE049
为超参数,
Figure 201181DEST_PATH_IMAGE050
为第
Figure 733794DEST_PATH_IMAGE044
类噪声样本的初始数量,
Figure 401536DEST_PATH_IMAGE051
为第
Figure 273677DEST_PATH_IMAGE052
类噪声样本的初始数量,
Figure 735882DEST_PATH_IMAGE053
为第
Figure 959053DEST_PATH_IMAGE054
类噪声样本的初始数量。
所述一种基于置信学习与标签平滑的噪声数据处理方法,其中,所述第一训练集合表示为
Figure 961644DEST_PATH_IMAGE055
,所述噪声训练集合表示为
Figure 956800DEST_PATH_IMAGE056
,对学生模型进行训练的方法包括如下步骤:
通过对学生模型在原始训练数据集合
Figure 855486DEST_PATH_IMAGE057
上的多分类交叉熵损失函数进行迭代,直至收敛得到训练好的学生模型。
所述一种基于置信学习与标签平滑的噪声数据处理方法,其中,学生模型在原始训练数据集合
Figure 34795DEST_PATH_IMAGE057
上的多分类交叉熵损失函数
Figure 44339DEST_PATH_IMAGE058
表示为:
Figure 156652DEST_PATH_IMAGE059
Figure 757397DEST_PATH_IMAGE060
Figure 955160DEST_PATH_IMAGE061
其中,
Figure 502816DEST_PATH_IMAGE062
为学生模型在第一训练集合
Figure 204056DEST_PATH_IMAGE055
上的多分类交叉熵损失,
Figure 178965DEST_PATH_IMAGE063
为学生模型在噪声训练集合
Figure 660762DEST_PATH_IMAGE064
上的多分类交叉熵损失,
Figure 12109DEST_PATH_IMAGE065
为平滑后的类别标签
Figure 833435DEST_PATH_IMAGE066
的第
Figure 244825DEST_PATH_IMAGE016
个元素,
Figure 886021DEST_PATH_IMAGE067
表示文本
Figure 775480DEST_PATH_IMAGE012
的标签向量的第
Figure 513629DEST_PATH_IMAGE016
个分量,
Figure 830341DEST_PATH_IMAGE068
表示文本
Figure 958834DEST_PATH_IMAGE012
在教师模型参数
Figure 649054DEST_PATH_IMAGE069
下属于类别j的概率。
本发明还提出一种基于置信学习与标签平滑的噪声数据处理系统,其中,所述系统包括:
第一训练模块,用于对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,将经过迭代计算收敛后的模型作为训练好的教师模型;
数据筛选模块,用于利用训练好的教师模型,通过置信学习的方式对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;
第二训练模块,用于将所述第一训练集合以及所述噪声训练集合输入至学生模型,通过标签平滑正则化方法对学生模型进行训练,以最终得到训练好的学生模型。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明第一实施例提出的基于置信学习与标签平滑的噪声数据处理方法的流程图;
图2为本发明第一实施例提出的基于置信学习与标签平滑的噪声数据处理方法的原理示意图;
图3为本发明第二实施例提出的基于置信学习与标签平滑的噪声数据处理系统的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
实施例一:
现有技术中,直接在原始的噪声数据上训练的模型分类效果较差,利用较差的分类模型无法有效剔除噪声数据或者合理调整相关噪声样本的权重。为了解决该技术问题,请参阅图1与图2,本发明第一实施例提出一种基于置信学习与标签平滑的噪声数据处理方法,其中,所述方法包括:
S101,对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,将经过迭代计算收敛后的模型作为训练好的教师模型。
在本步骤中,原始训练数据集合
Figure 444971DEST_PATH_IMAGE001
表示为:
Figure 994901DEST_PATH_IMAGE002
其中,
Figure 876270DEST_PATH_IMAGE003
表示原始训练数据集合中的样本数量,
Figure 107531DEST_PATH_IMAGE004
表示原始训练数据集中第
Figure 492376DEST_PATH_IMAGE005
个文本,
Figure 416469DEST_PATH_IMAGE006
是文本
Figure 785134DEST_PATH_IMAGE004
的类别标签,
Figure 616824DEST_PATH_IMAGE007
Figure 121754DEST_PATH_IMAGE008
m是互斥的文本类别标签的数量,R为实数,d表示特征的维度,
Figure 216749DEST_PATH_IMAGE009
表示文本的特征属于d维的实数空间,
Figure 807131DEST_PATH_IMAGE010
表示样本标签所属的m维的实数空间。
需要补充说明的是,若采用one-hot编码标签,且文本
Figure 380194DEST_PATH_IMAGE004
属于类别
Figure 5211DEST_PATH_IMAGE043
,那么
Figure 67845DEST_PATH_IMAGE006
的第
Figure 145522DEST_PATH_IMAGE043
个元素
Figure 787856DEST_PATH_IMAGE070
,其余元素为0。
在本步骤中,为了防止教师模型过于自信地拟合于噪声数据,在训练教师模型时,采用了标签平滑正则化的方式抑制教师模型的过拟合。
在本步骤中,原始训练数据集合
Figure 267379DEST_PATH_IMAGE001
中属于类别
Figure 438597DEST_PATH_IMAGE043
的文本
Figure 18219DEST_PATH_IMAGE004
的类别标签
Figure 933086DEST_PATH_IMAGE013
经过标签平滑正则化后可得:
Figure 532694DEST_PATH_IMAGE014
其中,
Figure 937131DEST_PATH_IMAGE015
是平滑后的类别标签
Figure 989400DEST_PATH_IMAGE066
的第
Figure 707958DEST_PATH_IMAGE016
个元素,
Figure 162073DEST_PATH_IMAGE017
为超参数,一般取0.1。在具体应用中,也可以通过交叉验证的方式设置的较优值。例如当
Figure 940673DEST_PATH_IMAGE071
时,原始的标记由one-hot编码(0,0,1,0,0)平滑为(0.025,0.025,0.9,0.025,0.025)。如此,平滑后的分布可以避免教师模型对噪声标签过于自信,提高了教师模型对噪声数据的鲁棒性。
进一步的,将上述标签平滑后的文本样本输入到文本分类的教师模型。在此需要指出的是,教师模型为一种深度模型,在实际应用中可以为胶囊模型、循环神经网络或卷积神经网络等。
进一步的,进行迭代计算的方法包括如下步骤:
通过基于交叉熵的多类别分类损失进行迭代计算,将收敛后的模型作为训练好的教师模型。
其中,在教师模型中,基于交叉熵的多类别分类损失表示为:
Figure 214660DEST_PATH_IMAGE018
其中,
Figure 736908DEST_PATH_IMAGE019
为教师模型中基于交叉熵的多类别分类损失,
Figure 842267DEST_PATH_IMAGE020
表示教师模型的参数
Figure 791768DEST_PATH_IMAGE021
关于文本
Figure 553051DEST_PATH_IMAGE004
属于类别
Figure 878990DEST_PATH_IMAGE041
的预测概率,经一定次数的迭代或收敛后求解得到训练好的教师模型,
Figure 776539DEST_PATH_IMAGE022
表示任意一个文本对应的类别标签。
S102,利用训练好的教师模型,通过置信学习的方式对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合。
在本发明中,噪声数据筛选的目标是采用置信学习的方式发现文本样本中的噪声数据,其原理是对每一种类别
Figure 896942DEST_PATH_IMAGE072
,采用置信学习估计噪声样本的数量
Figure 411100DEST_PATH_IMAGE073
,并依概率筛选出概率最小的
Figure 71888DEST_PATH_IMAGE073
样本作为噪声数据。因此,关键是预测每个类别可能的噪声数据的数量
Figure 89523DEST_PATH_IMAGE073
在本步骤中,对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选的步骤中,需要对属于类别
Figure 643476DEST_PATH_IMAGE023
的文本
Figure 379351DEST_PATH_IMAGE024
对应的类别标签的标注正确与否进行判定,具体包括如下步骤:
若属于类别
Figure 515934DEST_PATH_IMAGE023
的文本
Figure 653655DEST_PATH_IMAGE024
在原始训练数据集合
Figure 178177DEST_PATH_IMAGE001
中的类别标签为
Figure 135769DEST_PATH_IMAGE026
,且对所述训练好的教师模型关于类别
Figure 607201DEST_PATH_IMAGE041
的预测概率大于预设概率阈值,则判定文本
Figure 599428DEST_PATH_IMAGE024
在原始训练数据集合
Figure 966956DEST_PATH_IMAGE001
中的类别标签
Figure 677423DEST_PATH_IMAGE026
为错误标签,即文本
Figure 686967DEST_PATH_IMAGE024
为噪声样本。在此需要补充说明的是,此处的文本
Figure 330438DEST_PATH_IMAGE024
与前述的文本
Figure 400025DEST_PATH_IMAGE004
本质物理含义相同。
其中,属于类别
Figure 332209DEST_PATH_IMAGE023
的文本
Figure 145444DEST_PATH_IMAGE024
对所述训练好的教师模型关于类别
Figure 846684DEST_PATH_IMAGE041
的预测概率表示为
Figure 821593DEST_PATH_IMAGE027
上述的预设概率阈值表示为:
Figure 506652DEST_PATH_IMAGE028
其中,
Figure 654737DEST_PATH_IMAGE029
为预设概率阈值,
Figure 478992DEST_PATH_IMAGE030
表示第
Figure 624803DEST_PATH_IMAGE016
类文本对应的数据集
Figure 266000DEST_PATH_IMAGE031
中文本的数量。
在噪声训练集合中,第
Figure 421037DEST_PATH_IMAGE044
类噪声样本的初始数量表示为:
Figure 893607DEST_PATH_IMAGE033
Figure 475898DEST_PATH_IMAGE034
其中,
Figure 869970DEST_PATH_IMAGE035
表示混淆矩阵
Figure 563120DEST_PATH_IMAGE036
中类别标签标记为第
Figure 93458DEST_PATH_IMAGE032
类,真实类别标签为
Figure 846651DEST_PATH_IMAGE037
的样本数量,
Figure 259178DEST_PATH_IMAGE038
表示真实类别标签,
Figure 756018DEST_PATH_IMAGE039
表示教师模型的参数
Figure 406442DEST_PATH_IMAGE021
关于文本
Figure 64957DEST_PATH_IMAGE040
属于类别
Figure 433621DEST_PATH_IMAGE041
的预测概率,
Figure 468573DEST_PATH_IMAGE042
表示教师模型的参数
Figure 770241DEST_PATH_IMAGE021
关于文本
Figure 865236DEST_PATH_IMAGE040
属于类别
Figure 190039DEST_PATH_IMAGE043
的预测概率。
在本实施例中,对上述的混淆矩阵
Figure 25752DEST_PATH_IMAGE036
而言,即第
Figure 650768DEST_PATH_IMAGE044
类噪声样本的初始数量是混淆矩阵
Figure 916664DEST_PATH_IMAGE036
Figure 791080DEST_PATH_IMAGE044
非对角线元素的和。
在分类任务中,原始训练数据集合
Figure 167834DEST_PATH_IMAGE001
中的类别分布往往不平衡。某些统治类别的样本在训练集合中占据较大比例,而稀有类别只有相对较少的训练样本。在类别不平衡数据集上训练得到的模型在分类表现上会有一定程度的偏置,即易于将稀有类别错误的分类为统治类别。因此,直接采取置信学习筛选样本,会将稀有类别的样本过大比例地划分为噪声样本。为避免此类现象,本实施例中设计了与各种类别的训练样本数量相关的权重
Figure 381778DEST_PATH_IMAGE048
,对应的表达式为:
Figure 818576DEST_PATH_IMAGE047
其中,
Figure 383549DEST_PATH_IMAGE048
为各类别的训练样本数量相关的权重,
Figure 360732DEST_PATH_IMAGE049
为超参数,
Figure 960341DEST_PATH_IMAGE050
为第
Figure 568040DEST_PATH_IMAGE044
类噪声样本的初始数量,
Figure 89151DEST_PATH_IMAGE051
为第
Figure 73287DEST_PATH_IMAGE052
类噪声样本的初始数量,
Figure 527403DEST_PATH_IMAGE053
为第
Figure 102740DEST_PATH_IMAGE054
类噪声样本的初始数量。
进一步的,第
Figure 376727DEST_PATH_IMAGE044
类噪声样本对应的最终噪声样本数量
Figure 898975DEST_PATH_IMAGE073
表示为:
Figure 942017DEST_PATH_IMAGE046
经过本步骤,对原始训练数据集合
Figure 891519DEST_PATH_IMAGE074
,第
Figure 715118DEST_PATH_IMAGE005
类数据中的噪声样本是预测概率
Figure 766689DEST_PATH_IMAGE075
最小的
Figure 195397DEST_PATH_IMAGE076
个的样本。
Figure 315799DEST_PATH_IMAGE001
被划分为第一训练集合
Figure 298799DEST_PATH_IMAGE055
以及噪声训练集合
Figure 162850DEST_PATH_IMAGE056
Figure 180484DEST_PATH_IMAGE077
表示文本
Figure 471788DEST_PATH_IMAGE024
属于第
Figure 207663DEST_PATH_IMAGE005
类文本对应的数据集
Figure 609826DEST_PATH_IMAGE078
S103,将所述第一训练集合以及所述噪声训练集合输入至学生模型,通过标签平滑正则化方法对学生模型进行训练,以最终得到训练好的学生模型。
在本步骤中,首先利用上述训练好的教师模型的参数初始化学生模型的参数,然后在上述步骤S102中数据筛选的基础上,采用标签平滑正则化训练学生模型。
具体的,对学生模型进行训练的方法包括如下步骤:
通过对学生模型在原始训练数据集合
Figure 747546DEST_PATH_IMAGE001
上的多分类交叉熵损失函数进行迭代,直至收敛得到训练好的学生模型。
其中,学生模型在原始训练数据集合
Figure 209751DEST_PATH_IMAGE001
上的多分类交叉熵损失函数
Figure 229660DEST_PATH_IMAGE058
表示为:
Figure 701092DEST_PATH_IMAGE059
Figure 427740DEST_PATH_IMAGE060
Figure 60847DEST_PATH_IMAGE061
其中,
Figure 771314DEST_PATH_IMAGE062
为学生模型在第一训练集合
Figure 577596DEST_PATH_IMAGE055
上的多分类交叉熵损失,
Figure 421399DEST_PATH_IMAGE063
为学生模型在噪声训练集合
Figure 490986DEST_PATH_IMAGE064
上的多分类交叉熵损失,
Figure 423170DEST_PATH_IMAGE065
为平滑后的类别标签
Figure 970826DEST_PATH_IMAGE066
的第
Figure 672066DEST_PATH_IMAGE016
个元素,
Figure 912555DEST_PATH_IMAGE067
表示文本
Figure 332035DEST_PATH_IMAGE012
的标签向量的第
Figure 480119DEST_PATH_IMAGE016
个分量,
Figure 301445DEST_PATH_IMAGE068
表示文本
Figure 712834DEST_PATH_IMAGE012
在教师模型参数
Figure 354031DEST_PATH_IMAGE021
下属于类别j的概率。
从上述公式中可以看出,学生模型在原始训练数据集
Figure 509069DEST_PATH_IMAGE001
上的多分类交叉熵损失函数
Figure 184901DEST_PATH_IMAGE058
可表示为第一训练集合
Figure 767192DEST_PATH_IMAGE055
以及噪声训练集合
Figure 958002DEST_PATH_IMAGE056
的加权损失。
本发明提出的基于置信学习与标签平滑的噪声数据处理方法,首先对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,经迭代收敛后得到训练好的教师模型;利用训练好的教师模型,通过置信学习的方式对带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;最后输入至学生模型,结合标签平滑正则化方法对多分类交叉熵损失函数进行迭代收敛得到训练好的学生模型。
本发明在训练教师模型时,采用标签平滑正则化方法平滑one-hot编码的标签,可以抑制教师模型的过拟合,进而提高算法的噪声筛选能力,同时基于置信学习,筛选出数据中的噪声;此外,在噪声数据筛选的基础上,本发明采用标签平滑正则化的方式训练学生模型,可避免因数据剔除进一步造成稀有类别数据过少而导致类别不平衡的问题,同时对疑似噪声数据的标签进行平滑,可减小学生模型对噪声数据的拟合程度,从而提高训练好的学生模型的分类性能。
实施例二:
请参阅图3,本发明第二实施例还提出一种基于置信学习与标签平滑的噪声数据处理系统,其中,所述系统包括:
第一训练模块,用于对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,将经过迭代计算收敛后的模型作为训练好的教师模型;
数据筛选模块,用于利用训练好的教师模型,通过置信学习的方式对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;
第二训练模块,用于将所述第一训练集合以及所述噪声训练集合输入至学生模型,通过标签平滑正则化方法对学生模型进行训练,以最终得到训练好的学生模型。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于置信学习与标签平滑的噪声数据处理方法,其特征在于,所述方法包括:
步骤一:对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,将经过迭代计算收敛后的模型作为训练好的教师模型;
步骤二:利用训练好的教师模型,通过置信学习的方式对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;
步骤三:将所述第一训练集合以及所述噪声训练集合输入至学生模型,通过标签平滑正则化方法对学生模型进行训练,以最终得到训练好的学生模型。
2.根据权利要求1所述的一种基于置信学习与标签平滑的噪声数据处理方法,其特征在于,在所述步骤一中,所述原始训练数据集合
Figure 694298DEST_PATH_IMAGE001
表示为:
Figure 20237DEST_PATH_IMAGE002
其中,
Figure 307999DEST_PATH_IMAGE003
表示原始训练数据集合中的样本数量,
Figure 162822DEST_PATH_IMAGE004
表示原始训练数据集中第
Figure 552347DEST_PATH_IMAGE005
个文本,
Figure 416397DEST_PATH_IMAGE006
是文本
Figure 230770DEST_PATH_IMAGE007
的类别标签,
Figure 912287DEST_PATH_IMAGE008
Figure 648161DEST_PATH_IMAGE009
m是互斥的文本类别标签的数量,R为实数,d表示特征的维度,
Figure 925690DEST_PATH_IMAGE010
表示文本的特征属于d维的实数空间,
Figure 797831DEST_PATH_IMAGE011
表示样本标签所属的m维的实数空间。
3.根据权利要求2所述的一种基于置信学习与标签平滑的噪声数据处理方法,其特征在于,在所述步骤一中,原始训练数据集合
Figure 322353DEST_PATH_IMAGE012
中属于类别
Figure 670158DEST_PATH_IMAGE013
的文本
Figure 610432DEST_PATH_IMAGE007
的类别标签
Figure 475096DEST_PATH_IMAGE006
经过标签平滑正则化后可得:
Figure 373782DEST_PATH_IMAGE014
其中,
Figure 943303DEST_PATH_IMAGE015
是平滑后的类别标签
Figure 749585DEST_PATH_IMAGE006
的第
Figure 861898DEST_PATH_IMAGE016
个元素,
Figure 275693DEST_PATH_IMAGE017
为超参数。
4.根据权利要求3所述的一种基于置信学习与标签平滑的噪声数据处理方法,其特征在于,在所述步骤一中,进行迭代计算的方法包括如下步骤:
通过基于交叉熵的多类别分类损失进行迭代计算,将收敛后的模型作为训练好的教师模型;
其中,在教师模型中,基于交叉熵的多类别分类损失表示为:
Figure 473456DEST_PATH_IMAGE018
其中,
Figure 145746DEST_PATH_IMAGE019
为教师模型中基于交叉熵的多类别分类损失,
Figure 909302DEST_PATH_IMAGE020
表示教师模型的参数
Figure 884211DEST_PATH_IMAGE021
关于文本
Figure 444637DEST_PATH_IMAGE022
属于类别
Figure 530405DEST_PATH_IMAGE016
的预测概率,
Figure 476364DEST_PATH_IMAGE023
表示任意一个文本对应的类别标签。
5.根据权利要求4所述的一种基于置信学习与标签平滑的噪声数据处理方法,其特征在于,在所述步骤二中,对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选的步骤中,需要对属于类别
Figure 887754DEST_PATH_IMAGE024
的文本
Figure 591267DEST_PATH_IMAGE025
对应的类别标签的标注正确与否进行判定,具体包括如下步骤:
若属于类别
Figure 356092DEST_PATH_IMAGE024
的文本
Figure 31924DEST_PATH_IMAGE025
在原始训练数据集合
Figure 473270DEST_PATH_IMAGE012
中的类别标签为
Figure 664080DEST_PATH_IMAGE026
,且对所述训练好的教师模型关于类别
Figure 357229DEST_PATH_IMAGE016
的预测概率大于预设概率阈值,则判定文本
Figure 855662DEST_PATH_IMAGE025
在原始训练数据集合
Figure 343275DEST_PATH_IMAGE012
中的类别标签
Figure 349277DEST_PATH_IMAGE026
为错误标签,即文本
Figure 580538DEST_PATH_IMAGE025
为噪声样本;
其中,属于类别
Figure 106328DEST_PATH_IMAGE024
的文本
Figure 827160DEST_PATH_IMAGE025
对所述训练好的教师模型关于类别
Figure 195824DEST_PATH_IMAGE016
的预测概率表示为
Figure 355410DEST_PATH_IMAGE027
所述预设概率阈值表示为:
Figure 594762DEST_PATH_IMAGE028
其中,
Figure 565123DEST_PATH_IMAGE029
为所述预设概率阈值,
Figure 217821DEST_PATH_IMAGE030
表示第
Figure 790885DEST_PATH_IMAGE031
类文本对应的数据集
Figure 540535DEST_PATH_IMAGE032
中文本的数量。
6.根据权利要求5所述的一种基于置信学习与标签平滑的噪声数据处理方法,其特征在于,在所述步骤二中,在所述噪声训练集合中,第
Figure 540852DEST_PATH_IMAGE033
类噪声样本的初始数量表示为:
Figure 493896DEST_PATH_IMAGE034
Figure 136230DEST_PATH_IMAGE035
其中,
Figure 412490DEST_PATH_IMAGE036
表示混淆矩阵
Figure 973921DEST_PATH_IMAGE037
中类别标签标记为第
Figure 273316DEST_PATH_IMAGE038
类,真实类别标签为
Figure 60619DEST_PATH_IMAGE039
的样本数量,
Figure 660227DEST_PATH_IMAGE040
表示真实类别标签,
Figure 64664DEST_PATH_IMAGE041
表示教师模型的参数
Figure 241567DEST_PATH_IMAGE021
关于文本
Figure 960124DEST_PATH_IMAGE042
属于类别
Figure 24027DEST_PATH_IMAGE016
的预测概率,
Figure 802627DEST_PATH_IMAGE043
表示教师模型的参数
Figure 466826DEST_PATH_IMAGE021
关于文本
Figure 785812DEST_PATH_IMAGE042
属于类别
Figure 94434DEST_PATH_IMAGE044
的预测概率。
7.根据权利要求6所述的一种基于置信学习与标签平滑的噪声数据处理方法,其特征在于,在所述步骤二中,第
Figure 919301DEST_PATH_IMAGE038
类噪声样本对应的最终噪声样本数量
Figure 415005DEST_PATH_IMAGE045
表示为:
Figure 865578DEST_PATH_IMAGE046
Figure 28706DEST_PATH_IMAGE047
其中,
Figure 945846DEST_PATH_IMAGE048
为各类别的训练样本数量相关的权重,
Figure 335370DEST_PATH_IMAGE049
为超参数,
Figure 933842DEST_PATH_IMAGE050
为第
Figure 76110DEST_PATH_IMAGE033
类噪声样本的初始数量,
Figure 429731DEST_PATH_IMAGE051
为第
Figure 165606DEST_PATH_IMAGE044
类噪声样本的初始数量,
Figure 446064DEST_PATH_IMAGE052
为第
Figure 318206DEST_PATH_IMAGE053
类噪声样本的初始数量。
8.根据权利要求7所述的一种基于置信学习与标签平滑的噪声数据处理方法,其特征在于,所述第一训练集合表示为
Figure 170624DEST_PATH_IMAGE054
,所述噪声训练集合表示为
Figure 128216DEST_PATH_IMAGE055
,对学生模型进行训练的方法包括如下步骤:
通过对学生模型在原始训练数据集合
Figure 396386DEST_PATH_IMAGE056
上的多分类交叉熵损失函数进行迭代,直至收敛得到训练好的学生模型。
9.根据权利要求8所述的一种基于置信学习与标签平滑的噪声数据处理方法,其特征在于,学生模型在原始训练数据集合
Figure 263979DEST_PATH_IMAGE001
上的多分类交叉熵损失函数
Figure 631506DEST_PATH_IMAGE057
表示为:
Figure 466607DEST_PATH_IMAGE058
Figure 476151DEST_PATH_IMAGE059
Figure 198251DEST_PATH_IMAGE060
其中,
Figure 64576DEST_PATH_IMAGE061
为学生模型在第一训练集合
Figure 996760DEST_PATH_IMAGE054
上的多分类交叉熵损失,
Figure 669050DEST_PATH_IMAGE062
为学生模型在噪声训练集合
Figure 635868DEST_PATH_IMAGE063
上的多分类交叉熵损失,
Figure 486144DEST_PATH_IMAGE064
为平滑后的类别标签
Figure 967941DEST_PATH_IMAGE065
的第
Figure 319288DEST_PATH_IMAGE031
个元素,
Figure 999668DEST_PATH_IMAGE066
表示文本
Figure 145478DEST_PATH_IMAGE022
的标签向量的第
Figure 924691DEST_PATH_IMAGE031
个分量,
Figure 79729DEST_PATH_IMAGE067
表示文本
Figure 552298DEST_PATH_IMAGE022
在教师模型参数
Figure 259223DEST_PATH_IMAGE068
下属于类别j的概率。
10.一种基于置信学习与标签平滑的噪声数据处理系统,其特征在于,所述系统包括:
第一训练模块,用于对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,将经过迭代计算收敛后的模型作为训练好的教师模型;
数据筛选模块,用于利用训练好的教师模型,通过置信学习的方式对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;
第二训练模块,用于将所述第一训练集合以及所述噪声训练集合输入至学生模型,通过标签平滑正则化方法对学生模型进行训练,以最终得到训练好的学生模型。
CN202111075371.2A 2021-09-14 2021-09-14 基于置信学习与标签平滑的噪声数据处理方法与系统 Active CN113515639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111075371.2A CN113515639B (zh) 2021-09-14 2021-09-14 基于置信学习与标签平滑的噪声数据处理方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111075371.2A CN113515639B (zh) 2021-09-14 2021-09-14 基于置信学习与标签平滑的噪声数据处理方法与系统

Publications (2)

Publication Number Publication Date
CN113515639A true CN113515639A (zh) 2021-10-19
CN113515639B CN113515639B (zh) 2021-12-17

Family

ID=78063169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111075371.2A Active CN113515639B (zh) 2021-09-14 2021-09-14 基于置信学习与标签平滑的噪声数据处理方法与系统

Country Status (1)

Country Link
CN (1) CN113515639B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036292A (zh) * 2021-10-29 2022-02-11 华东师范大学 一种基于深度学习的多标签文本分类场景下的噪声标签检测方法及系统
CN114117056A (zh) * 2022-01-29 2022-03-01 腾讯科技(深圳)有限公司 一种训练数据的处理方法、装置以及存储介质
CN114299349A (zh) * 2022-03-04 2022-04-08 南京航空航天大学 一种基于多专家系统和知识蒸馏的众包图像学习方法
CN114511848A (zh) * 2021-12-30 2022-05-17 广西慧云信息技术有限公司 一种基于改进标签平滑算法的葡萄物候期识别方法及系统
CN114927190A (zh) * 2022-06-17 2022-08-19 吉林大学 一种基于半监督-迁移学习的分布式隐私保护方法及系统
CN115331088A (zh) * 2022-10-13 2022-11-11 南京航空航天大学 基于带有噪声和不平衡的类标签的鲁棒学习方法
CN116030323A (zh) * 2023-03-27 2023-04-28 阿里巴巴(中国)有限公司 图像处理方法以及装置
CN116994343A (zh) * 2023-09-27 2023-11-03 睿云联(厦门)网络通讯技术有限公司 基于标签平滑的扩散标签深度学习模型训练方法及介质
WO2024119901A1 (zh) * 2022-12-06 2024-06-13 成都云天励飞技术有限公司 识别模型训练方法、装置、计算机设备及存储介质
CN118194048A (zh) * 2024-04-28 2024-06-14 北京易聊科技有限公司 基于动态样本权重的小样本文本多标记模型训练方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948705A (zh) * 2019-03-20 2019-06-28 武汉大学 一种基于k近邻图的稀有类检测方法及装置
CN111597907A (zh) * 2020-04-21 2020-08-28 广东工业大学 基于抗噪声元学习的人脸识别方法及系统
US10970650B1 (en) * 2020-05-18 2021-04-06 King Abdulaziz University AUC-maximized high-accuracy classifier for imbalanced datasets
CN112669323A (zh) * 2020-12-29 2021-04-16 深圳云天励飞技术股份有限公司 图像处理方法及相关设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948705A (zh) * 2019-03-20 2019-06-28 武汉大学 一种基于k近邻图的稀有类检测方法及装置
CN111597907A (zh) * 2020-04-21 2020-08-28 广东工业大学 基于抗噪声元学习的人脸识别方法及系统
US10970650B1 (en) * 2020-05-18 2021-04-06 King Abdulaziz University AUC-maximized high-accuracy classifier for imbalanced datasets
CN112669323A (zh) * 2020-12-29 2021-04-16 深圳云天励飞技术股份有限公司 图像处理方法及相关设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CURTIS G. NORTHCUTT等: "《Confident Learning: Estimating Uncertainty in Dataset Labels》", 《ARXIV:1911.00068V4》 *
MINQING ZHAN等: "《Characterizing Label Errors: Confident Learning for Noisy-Labeled Image Segmentation》", 《MEDICAL IMAGE COMPUTING AND COMPUTER ASSISTED INTERVENTION-MICCAI 2020》 *
RAFAEL MÜLLER等: "《When Does Label Smoothing Help?》", 《ARXIV:1906.02629V3》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036292A (zh) * 2021-10-29 2022-02-11 华东师范大学 一种基于深度学习的多标签文本分类场景下的噪声标签检测方法及系统
CN114511848B (zh) * 2021-12-30 2024-05-14 广西慧云信息技术有限公司 一种基于改进标签平滑算法的葡萄物候期识别方法及系统
CN114511848A (zh) * 2021-12-30 2022-05-17 广西慧云信息技术有限公司 一种基于改进标签平滑算法的葡萄物候期识别方法及系统
CN114117056A (zh) * 2022-01-29 2022-03-01 腾讯科技(深圳)有限公司 一种训练数据的处理方法、装置以及存储介质
CN114299349A (zh) * 2022-03-04 2022-04-08 南京航空航天大学 一种基于多专家系统和知识蒸馏的众包图像学习方法
CN114299349B (zh) * 2022-03-04 2022-05-13 南京航空航天大学 一种基于多专家系统和知识蒸馏的众包图像学习方法
CN114927190A (zh) * 2022-06-17 2022-08-19 吉林大学 一种基于半监督-迁移学习的分布式隐私保护方法及系统
CN115331088A (zh) * 2022-10-13 2022-11-11 南京航空航天大学 基于带有噪声和不平衡的类标签的鲁棒学习方法
WO2024119901A1 (zh) * 2022-12-06 2024-06-13 成都云天励飞技术有限公司 识别模型训练方法、装置、计算机设备及存储介质
CN116030323B (zh) * 2023-03-27 2023-08-29 阿里巴巴(中国)有限公司 图像处理方法以及装置
CN116030323A (zh) * 2023-03-27 2023-04-28 阿里巴巴(中国)有限公司 图像处理方法以及装置
CN116994343A (zh) * 2023-09-27 2023-11-03 睿云联(厦门)网络通讯技术有限公司 基于标签平滑的扩散标签深度学习模型训练方法及介质
CN116994343B (zh) * 2023-09-27 2023-12-15 睿云联(厦门)网络通讯技术有限公司 基于标签平滑的扩散标签深度学习模型训练方法及介质
CN118194048A (zh) * 2024-04-28 2024-06-14 北京易聊科技有限公司 基于动态样本权重的小样本文本多标记模型训练方法

Also Published As

Publication number Publication date
CN113515639B (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN113515639B (zh) 基于置信学习与标签平滑的噪声数据处理方法与系统
CN109934293B (zh) 图像识别方法、装置、介质及混淆感知卷积神经网络
CN101937513B (zh) 信息处理设备、信息处理方法
US9031897B2 (en) Techniques for evaluation, building and/or retraining of a classification model
JP6649174B2 (ja) 分類器の分類結果を改善する方法
CN111160959B (zh) 一种用户点击转化预估方法及装置
KR20220024990A (ko) L2TL(Learning to Transfer Learn)을 위한 프레임워크
CN110866113A (zh) 基于稀疏自注意力机制微调伯特模型的文本分类方法
CN114821022A (zh) 融合主观逻辑和不确定性分布建模的可信目标检测方法
CN111598113A (zh) 模型优化方法、数据识别方法和数据识别装置
CN111898704B (zh) 对内容样本进行聚类的方法和装置
CN114863091A (zh) 一种基于伪标签的目标检测训练方法
Elflein et al. On out-of-distribution detection with energy-based models
CN110796260B (zh) 一种基于类扩张学习的神经网络模型优化方法
CN116521863A (zh) 一种基于半监督学习的标签抗噪文本分类方法
JP2012118668A (ja) パターン分類装置の学習装置及びそのためのコンピュータプログラム
CN104281569B (zh) 构建装置和方法、分类装置和方法以及电子设备
CN112801162B (zh) 基于图像属性先验的自适应软标签正则化方法
CN116090556A (zh) 信息处理方法、信息处理装置和存储介质
CN117746084A (zh) 一种基于注意力残差和对比学习的无监督域适应行人重识别方法
JP2014085948A (ja) 誤分類検出装置、方法、及びプログラム
CN110705631B (zh) 一种基于svm的散货船舶设备状态检测方法
CN109947945B (zh) 基于词向量和集成svm的文本数据流分类方法
CN114297335A (zh) 基于自集成学习的高度噪声数据处理方法与系统
CN116227494A (zh) 一种基于去偏的带噪命名实体识别方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant