CN113515639A - 基于置信学习与标签平滑的噪声数据处理方法与系统 - Google Patents
基于置信学习与标签平滑的噪声数据处理方法与系统 Download PDFInfo
- Publication number
- CN113515639A CN113515639A CN202111075371.2A CN202111075371A CN113515639A CN 113515639 A CN113515639 A CN 113515639A CN 202111075371 A CN202111075371 A CN 202111075371A CN 113515639 A CN113515639 A CN 113515639A
- Authority
- CN
- China
- Prior art keywords
- noise
- label
- text
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009499 grossing Methods 0.000 title claims abstract description 56
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 134
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012216 screening Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002775 capsule Substances 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于置信学习与标签平滑的噪声数据处理方法与系统,该方法包括:对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,将经过迭代计算收敛后的模型作为训练好的教师模型;利用训练好的教师模型,通过置信学习的方式对带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;将第一训练集合以及噪声训练集合输入至学生模型,通过标签平滑正则化方法对学生模型进行训练,以最终得到训练好的学生模型。本发明可减小学生模型对噪声数据的拟合程度,从而提高训练好的学生模型的分类性能。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种基于置信学习与标签平滑的噪声数据处理方法与系统。
背景技术
在计算机领域的监督学习中,训练数据的质量对模型的学习效果至关重要。高性能的深度神经网络分类模型依赖大量高质量标记的训练数据,而训练数据的质量非常依赖人工的标注。标注的质量越高,标注的难度也就越大。因此,大型数据集总是包含错误的标签。例如,在文本分类的任务中,训练数据中某些“军事”类的文本被错误地标记为“历史”类。其中,过高比例的噪声数据会在模型的迭代过程中使模型收敛于错误知识,降低模型的分类效果。而噪声普遍存在文本分类和语音识别等分类任务的大型数据集中,因此,有必要面向噪声数据设计基于深度学习的分类算法。
为发现数据集中的噪声,以往诸多研究和应用采用置信学习的方式,以计算各个样本标签的不确定性。此类方法一般将识别出的噪声标签剔除出训练集或者重新修改样本的权重。具体的,现有的分类技术一般通过人工检查和置信学习两种方式处理噪声数据。(1)、人工检查根据对数据和业务的理解,手工对数据进行筛选清洗。当面对大型数据集时,采用人工检查的方式耗时费力,效率过低。(2)、以往基于置信学习的噪声数据分类技术主要通过剔除噪声数据或者调整噪声样本的损失。这些技术往往直接在噪声数据上训练一个分类模型,然后根据模型关于样本的预测值,剔除预测与标记不一致的样本,或者调整相关样本的权重。
然而,上述技术存在的缺点在于:直接在原始的噪声数据上训练的模型分类效果较差,利用较差的分类模型无法有效剔除噪声数据或者合理调整相关噪声样本的权重。此外,某些任务的数据较难获取,直接剔除稀有类别(样本占比较小的类别)的数据易导致数据关于类别的分布更加不平衡,进而降低最终的分类效果。
基于此,有必要提出一种新型的噪声数据处理方法,以提高分类算法对噪声的鲁棒性。
发明内容
鉴于上述状况,有必要解决现有技术中,直接在原始的噪声数据上训练的模型分类效果较差,利用较差的分类模型无法有效剔除噪声数据或者合理调整相关噪声样本的权重的问题。
本发明实施例提供一种基于置信学习与标签平滑的噪声数据处理方法,其中,所述方法包括:
步骤一:对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,将经过迭代计算收敛后的模型作为训练好的教师模型;
步骤二:利用训练好的教师模型,通过置信学习的方式对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;
步骤三:将所述第一训练集合以及所述噪声训练集合输入至学生模型,通过标签平滑正则化方法对学生模型进行训练,以最终得到训练好的学生模型。
本发明提出的基于置信学习与标签平滑的噪声数据处理方法,首先对对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,经迭代收敛后得到训练好的教师模型;利用训练好的教师模型,通过置信学习的方式对带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;最后输入至学生模型,结合标签平滑正则化方法对多分类交叉熵损失函数进行迭代收敛得到训练好的学生模型。
本发明在训练教师模型时,采用标签平滑正则化方法平滑one-hot编码的标签,可以抑制教师模型的过拟合,进而提高算法的噪声筛选能力,同时基于置信学习,筛选出数据中的噪声;此外,在噪声数据筛选的基础上,本发明采用标签平滑正则化的方式训练学生模型,可避免因数据剔除进一步造成稀有类别数据过少而导致类别不平衡的问题,同时对疑似噪声数据的标签进行平滑,可减小学生模型对噪声数据的拟合程度,从而提高训练好的学生模型的分类性能。
其中,表示原始训练数据集合中的样本数量,表示原始训练数据集中第个文本,是文本的类别标签,,,m是互斥的文本类别标签的数量,R为实数,d表示特征的维度,表示文本的特征属于d维的实数空间,表示样本标签所属的m维的实数空间。
所述一种基于置信学习与标签平滑的噪声数据处理方法,其中,在所述步骤一中,进行迭代计算的方法包括如下步骤:
通过基于交叉熵的多类别分类损失进行迭代计算,将收敛后的模型作为训练好的教师模型;
其中,在教师模型中,基于交叉熵的多类别分类损失表示为:
所述一种基于置信学习与标签平滑的噪声数据处理方法,其中,在所述步骤二中,对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选的步骤中,需要对属于类别的文本对应的类别标签的标注正确与否进行判定,具体包括如下步骤:
所述预设概率阈值表示为:
其中,为学生模型在第一训练集合上的多分类交叉熵损失,为学生模型在噪声训练集合上的多分类交叉熵损失,为平滑后的类别标签的第个元素,表示文本的标签向量的第个分量,表示文本在教师模型参数下属于类别j的概率。
本发明还提出一种基于置信学习与标签平滑的噪声数据处理系统,其中,所述系统包括:
第一训练模块,用于对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,将经过迭代计算收敛后的模型作为训练好的教师模型;
数据筛选模块,用于利用训练好的教师模型,通过置信学习的方式对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;
第二训练模块,用于将所述第一训练集合以及所述噪声训练集合输入至学生模型,通过标签平滑正则化方法对学生模型进行训练,以最终得到训练好的学生模型。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明第一实施例提出的基于置信学习与标签平滑的噪声数据处理方法的流程图;
图2为本发明第一实施例提出的基于置信学习与标签平滑的噪声数据处理方法的原理示意图;
图3为本发明第二实施例提出的基于置信学习与标签平滑的噪声数据处理系统的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
实施例一:
现有技术中,直接在原始的噪声数据上训练的模型分类效果较差,利用较差的分类模型无法有效剔除噪声数据或者合理调整相关噪声样本的权重。为了解决该技术问题,请参阅图1与图2,本发明第一实施例提出一种基于置信学习与标签平滑的噪声数据处理方法,其中,所述方法包括:
S101,对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,将经过迭代计算收敛后的模型作为训练好的教师模型。
其中,表示原始训练数据集合中的样本数量,表示原始训练数据集中第个文本,是文本的类别标签,,,m是互斥的文本类别标签的数量,R为实数,d表示特征的维度,表示文本的特征属于d维的实数空间,表示样本标签所属的m维的实数空间。
在本步骤中,为了防止教师模型过于自信地拟合于噪声数据,在训练教师模型时,采用了标签平滑正则化的方式抑制教师模型的过拟合。
其中,是平滑后的类别标签的第个元素,为超参数,一般取0.1。在具体应用中,也可以通过交叉验证的方式设置的较优值。例如当时,原始的标记由one-hot编码(0,0,1,0,0)平滑为(0.025,0.025,0.9,0.025,0.025)。如此,平滑后的分布可以避免教师模型对噪声标签过于自信,提高了教师模型对噪声数据的鲁棒性。
进一步的,将上述标签平滑后的文本样本输入到文本分类的教师模型。在此需要指出的是,教师模型为一种深度模型,在实际应用中可以为胶囊模型、循环神经网络或卷积神经网络等。
进一步的,进行迭代计算的方法包括如下步骤:
通过基于交叉熵的多类别分类损失进行迭代计算,将收敛后的模型作为训练好的教师模型。
S102,利用训练好的教师模型,通过置信学习的方式对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合。
在本发明中,噪声数据筛选的目标是采用置信学习的方式发现文本样本中的噪声数据,其原理是对每一种类别,采用置信学习估计噪声样本的数量,并依概率筛选出概率最小的样本作为噪声数据。因此,关键是预测每个类别可能的噪声数据的数量。
若属于类别的文本在原始训练数据集合中的类别标签为,且对所述训练好的教师模型关于类别的预测概率大于预设概率阈值,则判定文本在原始训练数据集合中的类别标签为错误标签,即文本为噪声样本。在此需要补充说明的是,此处的文本与前述的文本本质物理含义相同。
上述的预设概率阈值表示为:
在分类任务中,原始训练数据集合中的类别分布往往不平衡。某些统治类别的样本在训练集合中占据较大比例,而稀有类别只有相对较少的训练样本。在类别不平衡数据集上训练得到的模型在分类表现上会有一定程度的偏置,即易于将稀有类别错误的分类为统治类别。因此,直接采取置信学习筛选样本,会将稀有类别的样本过大比例地划分为噪声样本。为避免此类现象,本实施例中设计了与各种类别的训练样本数量相关的权重,对应的表达式为:
S103,将所述第一训练集合以及所述噪声训练集合输入至学生模型,通过标签平滑正则化方法对学生模型进行训练,以最终得到训练好的学生模型。
在本步骤中,首先利用上述训练好的教师模型的参数初始化学生模型的参数,然后在上述步骤S102中数据筛选的基础上,采用标签平滑正则化训练学生模型。
具体的,对学生模型进行训练的方法包括如下步骤:
其中,为学生模型在第一训练集合上的多分类交叉熵损失,为学生模型在噪声训练集合上的多分类交叉熵损失,为平滑后的类别标签的第个元素,表示文本的标签向量的第个分量,表示文本在教师模型参数下属于类别j的概率。
本发明提出的基于置信学习与标签平滑的噪声数据处理方法,首先对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,经迭代收敛后得到训练好的教师模型;利用训练好的教师模型,通过置信学习的方式对带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;最后输入至学生模型,结合标签平滑正则化方法对多分类交叉熵损失函数进行迭代收敛得到训练好的学生模型。
本发明在训练教师模型时,采用标签平滑正则化方法平滑one-hot编码的标签,可以抑制教师模型的过拟合,进而提高算法的噪声筛选能力,同时基于置信学习,筛选出数据中的噪声;此外,在噪声数据筛选的基础上,本发明采用标签平滑正则化的方式训练学生模型,可避免因数据剔除进一步造成稀有类别数据过少而导致类别不平衡的问题,同时对疑似噪声数据的标签进行平滑,可减小学生模型对噪声数据的拟合程度,从而提高训练好的学生模型的分类性能。
实施例二:
请参阅图3,本发明第二实施例还提出一种基于置信学习与标签平滑的噪声数据处理系统,其中,所述系统包括:
第一训练模块,用于对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,将经过迭代计算收敛后的模型作为训练好的教师模型;
数据筛选模块,用于利用训练好的教师模型,通过置信学习的方式对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;
第二训练模块,用于将所述第一训练集合以及所述噪声训练集合输入至学生模型,通过标签平滑正则化方法对学生模型进行训练,以最终得到训练好的学生模型。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于置信学习与标签平滑的噪声数据处理方法,其特征在于,所述方法包括:
步骤一:对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,将经过迭代计算收敛后的模型作为训练好的教师模型;
步骤二:利用训练好的教师模型,通过置信学习的方式对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;
步骤三:将所述第一训练集合以及所述噪声训练集合输入至学生模型,通过标签平滑正则化方法对学生模型进行训练,以最终得到训练好的学生模型。
10.一种基于置信学习与标签平滑的噪声数据处理系统,其特征在于,所述系统包括:
第一训练模块,用于对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,将经过迭代计算收敛后的模型作为训练好的教师模型;
数据筛选模块,用于利用训练好的教师模型,通过置信学习的方式对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;
第二训练模块,用于将所述第一训练集合以及所述噪声训练集合输入至学生模型,通过标签平滑正则化方法对学生模型进行训练,以最终得到训练好的学生模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111075371.2A CN113515639B (zh) | 2021-09-14 | 2021-09-14 | 基于置信学习与标签平滑的噪声数据处理方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111075371.2A CN113515639B (zh) | 2021-09-14 | 2021-09-14 | 基于置信学习与标签平滑的噪声数据处理方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113515639A true CN113515639A (zh) | 2021-10-19 |
CN113515639B CN113515639B (zh) | 2021-12-17 |
Family
ID=78063169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111075371.2A Active CN113515639B (zh) | 2021-09-14 | 2021-09-14 | 基于置信学习与标签平滑的噪声数据处理方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113515639B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036292A (zh) * | 2021-10-29 | 2022-02-11 | 华东师范大学 | 一种基于深度学习的多标签文本分类场景下的噪声标签检测方法及系统 |
CN114117056A (zh) * | 2022-01-29 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 一种训练数据的处理方法、装置以及存储介质 |
CN114299349A (zh) * | 2022-03-04 | 2022-04-08 | 南京航空航天大学 | 一种基于多专家系统和知识蒸馏的众包图像学习方法 |
CN114511848A (zh) * | 2021-12-30 | 2022-05-17 | 广西慧云信息技术有限公司 | 一种基于改进标签平滑算法的葡萄物候期识别方法及系统 |
CN114927190A (zh) * | 2022-06-17 | 2022-08-19 | 吉林大学 | 一种基于半监督-迁移学习的分布式隐私保护方法及系统 |
CN115331088A (zh) * | 2022-10-13 | 2022-11-11 | 南京航空航天大学 | 基于带有噪声和不平衡的类标签的鲁棒学习方法 |
CN116030323A (zh) * | 2023-03-27 | 2023-04-28 | 阿里巴巴(中国)有限公司 | 图像处理方法以及装置 |
CN116994343A (zh) * | 2023-09-27 | 2023-11-03 | 睿云联(厦门)网络通讯技术有限公司 | 基于标签平滑的扩散标签深度学习模型训练方法及介质 |
WO2024119901A1 (zh) * | 2022-12-06 | 2024-06-13 | 成都云天励飞技术有限公司 | 识别模型训练方法、装置、计算机设备及存储介质 |
CN118194048A (zh) * | 2024-04-28 | 2024-06-14 | 北京易聊科技有限公司 | 基于动态样本权重的小样本文本多标记模型训练方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948705A (zh) * | 2019-03-20 | 2019-06-28 | 武汉大学 | 一种基于k近邻图的稀有类检测方法及装置 |
CN111597907A (zh) * | 2020-04-21 | 2020-08-28 | 广东工业大学 | 基于抗噪声元学习的人脸识别方法及系统 |
US10970650B1 (en) * | 2020-05-18 | 2021-04-06 | King Abdulaziz University | AUC-maximized high-accuracy classifier for imbalanced datasets |
CN112669323A (zh) * | 2020-12-29 | 2021-04-16 | 深圳云天励飞技术股份有限公司 | 图像处理方法及相关设备 |
-
2021
- 2021-09-14 CN CN202111075371.2A patent/CN113515639B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948705A (zh) * | 2019-03-20 | 2019-06-28 | 武汉大学 | 一种基于k近邻图的稀有类检测方法及装置 |
CN111597907A (zh) * | 2020-04-21 | 2020-08-28 | 广东工业大学 | 基于抗噪声元学习的人脸识别方法及系统 |
US10970650B1 (en) * | 2020-05-18 | 2021-04-06 | King Abdulaziz University | AUC-maximized high-accuracy classifier for imbalanced datasets |
CN112669323A (zh) * | 2020-12-29 | 2021-04-16 | 深圳云天励飞技术股份有限公司 | 图像处理方法及相关设备 |
Non-Patent Citations (3)
Title |
---|
CURTIS G. NORTHCUTT等: "《Confident Learning: Estimating Uncertainty in Dataset Labels》", 《ARXIV:1911.00068V4》 * |
MINQING ZHAN等: "《Characterizing Label Errors: Confident Learning for Noisy-Labeled Image Segmentation》", 《MEDICAL IMAGE COMPUTING AND COMPUTER ASSISTED INTERVENTION-MICCAI 2020》 * |
RAFAEL MÜLLER等: "《When Does Label Smoothing Help?》", 《ARXIV:1906.02629V3》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036292A (zh) * | 2021-10-29 | 2022-02-11 | 华东师范大学 | 一种基于深度学习的多标签文本分类场景下的噪声标签检测方法及系统 |
CN114511848B (zh) * | 2021-12-30 | 2024-05-14 | 广西慧云信息技术有限公司 | 一种基于改进标签平滑算法的葡萄物候期识别方法及系统 |
CN114511848A (zh) * | 2021-12-30 | 2022-05-17 | 广西慧云信息技术有限公司 | 一种基于改进标签平滑算法的葡萄物候期识别方法及系统 |
CN114117056A (zh) * | 2022-01-29 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 一种训练数据的处理方法、装置以及存储介质 |
CN114299349A (zh) * | 2022-03-04 | 2022-04-08 | 南京航空航天大学 | 一种基于多专家系统和知识蒸馏的众包图像学习方法 |
CN114299349B (zh) * | 2022-03-04 | 2022-05-13 | 南京航空航天大学 | 一种基于多专家系统和知识蒸馏的众包图像学习方法 |
CN114927190A (zh) * | 2022-06-17 | 2022-08-19 | 吉林大学 | 一种基于半监督-迁移学习的分布式隐私保护方法及系统 |
CN115331088A (zh) * | 2022-10-13 | 2022-11-11 | 南京航空航天大学 | 基于带有噪声和不平衡的类标签的鲁棒学习方法 |
WO2024119901A1 (zh) * | 2022-12-06 | 2024-06-13 | 成都云天励飞技术有限公司 | 识别模型训练方法、装置、计算机设备及存储介质 |
CN116030323B (zh) * | 2023-03-27 | 2023-08-29 | 阿里巴巴(中国)有限公司 | 图像处理方法以及装置 |
CN116030323A (zh) * | 2023-03-27 | 2023-04-28 | 阿里巴巴(中国)有限公司 | 图像处理方法以及装置 |
CN116994343A (zh) * | 2023-09-27 | 2023-11-03 | 睿云联(厦门)网络通讯技术有限公司 | 基于标签平滑的扩散标签深度学习模型训练方法及介质 |
CN116994343B (zh) * | 2023-09-27 | 2023-12-15 | 睿云联(厦门)网络通讯技术有限公司 | 基于标签平滑的扩散标签深度学习模型训练方法及介质 |
CN118194048A (zh) * | 2024-04-28 | 2024-06-14 | 北京易聊科技有限公司 | 基于动态样本权重的小样本文本多标记模型训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113515639B (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113515639B (zh) | 基于置信学习与标签平滑的噪声数据处理方法与系统 | |
CN109934293B (zh) | 图像识别方法、装置、介质及混淆感知卷积神经网络 | |
CN101937513B (zh) | 信息处理设备、信息处理方法 | |
US9031897B2 (en) | Techniques for evaluation, building and/or retraining of a classification model | |
JP6649174B2 (ja) | 分類器の分類結果を改善する方法 | |
CN111160959B (zh) | 一种用户点击转化预估方法及装置 | |
KR20220024990A (ko) | L2TL(Learning to Transfer Learn)을 위한 프레임워크 | |
CN110866113A (zh) | 基于稀疏自注意力机制微调伯特模型的文本分类方法 | |
CN114821022A (zh) | 融合主观逻辑和不确定性分布建模的可信目标检测方法 | |
CN111598113A (zh) | 模型优化方法、数据识别方法和数据识别装置 | |
CN111898704B (zh) | 对内容样本进行聚类的方法和装置 | |
CN114863091A (zh) | 一种基于伪标签的目标检测训练方法 | |
Elflein et al. | On out-of-distribution detection with energy-based models | |
CN110796260B (zh) | 一种基于类扩张学习的神经网络模型优化方法 | |
CN116521863A (zh) | 一种基于半监督学习的标签抗噪文本分类方法 | |
JP2012118668A (ja) | パターン分類装置の学習装置及びそのためのコンピュータプログラム | |
CN104281569B (zh) | 构建装置和方法、分类装置和方法以及电子设备 | |
CN112801162B (zh) | 基于图像属性先验的自适应软标签正则化方法 | |
CN116090556A (zh) | 信息处理方法、信息处理装置和存储介质 | |
CN117746084A (zh) | 一种基于注意力残差和对比学习的无监督域适应行人重识别方法 | |
JP2014085948A (ja) | 誤分類検出装置、方法、及びプログラム | |
CN110705631B (zh) | 一种基于svm的散货船舶设备状态检测方法 | |
CN109947945B (zh) | 基于词向量和集成svm的文本数据流分类方法 | |
CN114297335A (zh) | 基于自集成学习的高度噪声数据处理方法与系统 | |
CN116227494A (zh) | 一种基于去偏的带噪命名实体识别方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |