CN114297335A - 基于自集成学习的高度噪声数据处理方法与系统 - Google Patents

基于自集成学习的高度噪声数据处理方法与系统 Download PDF

Info

Publication number
CN114297335A
CN114297335A CN202210226368.4A CN202210226368A CN114297335A CN 114297335 A CN114297335 A CN 114297335A CN 202210226368 A CN202210226368 A CN 202210226368A CN 114297335 A CN114297335 A CN 114297335A
Authority
CN
China
Prior art keywords
model
training
neural network
training sample
deep neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210226368.4A
Other languages
English (en)
Inventor
刘伟
龚杰
余晓霞
张苗辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202210226368.4A priority Critical patent/CN114297335A/zh
Publication of CN114297335A publication Critical patent/CN114297335A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于自集成学习的高度噪声数据处理方法与系统,该方法包括如下步骤:采用基于假阴率的第一交叉熵损失函数,在高度噪声的训练样本集合中对深度神经网络模型进行训练直至收敛,以在验证集合上得到集成模型;根据集成模型,得到在训练样本集合中每个训练样本
Figure DEST_PATH_IMAGE001
对应的预测标签值
Figure DEST_PATH_IMAGE002
,对每个训练样本
Figure 347877DEST_PATH_IMAGE001
通过预测标签值
Figure 716542DEST_PATH_IMAGE002
以及原始标签
Figure DEST_PATH_IMAGE003
进行更新以得到更新后的标签
Figure DEST_PATH_IMAGE004
,进而得到标签更新后的训练样本集合;在标签更新后的训练样本集合上,使用集成模型以初始化目标模型
Figure DEST_PATH_IMAGE005
的参数,并采用基于假阴率的第二交叉熵损失函数充分训练目标模型
Figure 922133DEST_PATH_IMAGE005
直至收敛。本发明可降低噪声对训练的干扰,并提高目标模型
Figure 692643DEST_PATH_IMAGE005
对稀有类别的表现。

Description

基于自集成学习的高度噪声数据处理方法与系统
技术领域
本发明涉及计算机技术领域,特别涉及一种基于自集成学习的高度噪声数据处理方法与系统。
背景技术
在计算机领域的监督学习中,训练数据的质量对模型的学习效果至关重要。高性能的深度神经网络分类模型依赖大量高质量标记的训练数据,而训练数据的质量非常依赖人工的标注。标注的质量越高,标注的难度也就越大。因此,大型数据集总是包含错误的标签。例如,在文本分类的任务中,训练数据中某些“军事”类的文本被错误地标记为“历史”类。其中,过高比例的噪声数据会在模型的迭代过程中使模型收敛于错误知识,降低模型的分类效果。而噪声普遍存在文本分类和语音识别等分类任务的大型数据集中,因此,有必要面向噪声数据设计基于深度学习的分类算法。
为发现数据集中的噪声,以往诸多研究和应用采用置信学习的方式,以计算各个样本标签的不确定性。此类方法一般将识别出的噪声标签剔除出训练集或者重新修改样本的权重。具体的,现有的分类技术一般通过人工检查和置信学习两种方式处理噪声数据。(1)、人工检查根据对数据和业务的理解,手工对数据进行筛选清洗。当面对大型数据集时,采用人工检查的方式耗时费力,效率过低。(2)、以往基于置信学习的噪声数据分类技术主要通过剔除噪声数据或者调整噪声样本的损失。这些技术往往直接在噪声数据上训练一个分类模型,然后根据模型关于样本的预测值,剔除预测与标记不一致的样本,或者调整相关样本的权重。
然而,上述技术存在的缺点在于:直接在原始的噪声数据上训练的模型分类效果较差,利用较差的分类模型无法有效剔除噪声数据或者合理调整相关噪声样本的权重。基于此,有必要提出一种新型的噪声数据处理方法,以提高分类算法对高度噪声的鲁棒性。
发明内容
鉴于上述状况,有必要解决现有技术中,直接在原始的噪声数据上训练的模型分类效果较差,利用较差的分类模型无法有效剔除噪声数据或者合理调整相关噪声样本权重的问题。
本发明实施例提供一种基于自集成学习的高度噪声数据处理方法,其中,所述方法包括如下步骤:
步骤一,采用基于假阴率的第一交叉熵损失函数,在高度噪声的训练样本集合中对深度神经网络模型进行训练直至所述深度神经网络模型收敛,以在验证集合上得到集成模型,其中所述集成模型为最优性能表现的K个深度神经网络断点的集合;
步骤二,根据所述集成模型,得到在所述训练样本集合中每个训练样本
Figure 2464DEST_PATH_IMAGE001
对应的预测标签值
Figure 330677DEST_PATH_IMAGE002
,对每个所述训练样本
Figure 470672DEST_PATH_IMAGE001
通过预测标签值
Figure 175323DEST_PATH_IMAGE002
以及原始标签
Figure 982742DEST_PATH_IMAGE003
进行更新以得到更新后的标签
Figure 481856DEST_PATH_IMAGE004
,进而得到标签更新后的训练样本集合;
步骤三,在所述标签更新后的训练样本集合上,使用所述集成模型以初始化目标模型
Figure 613541DEST_PATH_IMAGE005
的参数,并采用基于假阴率的第二交叉熵损失函数充分训练所述目标模型
Figure 590724DEST_PATH_IMAGE005
直至所述目标模型
Figure 455912DEST_PATH_IMAGE005
收敛。
所述基于自集成学习的高度噪声数据处理方法,其中,所述高度噪声的训练样本集合表示为:
Figure 125928DEST_PATH_IMAGE006
其中,
Figure 240514DEST_PATH_IMAGE007
表示高度噪声的训练样本集合,
Figure 286968DEST_PATH_IMAGE008
表示所述训练样本,
Figure 803400DEST_PATH_IMAGE009
表示所述原始标签,
Figure 644317DEST_PATH_IMAGE010
表示类别的序号,
Figure 246199DEST_PATH_IMAGE011
表示训练样本的数量。
所述基于自集成学习的高度噪声数据处理方法,其中,在所述步骤一中,所述基于假阴率的第一交叉熵损失函数的构建方法包括如下步骤:
确定在所述深度神经网络模型中,当前参数下每个批次关于类别
Figure 34027DEST_PATH_IMAGE012
的训练样本的假阴率
Figure 906430DEST_PATH_IMAGE013
根据所述当前参数下每个批次关于类别
Figure 918249DEST_PATH_IMAGE014
的训练样本的假阴率
Figure 7427DEST_PATH_IMAGE013
,计算得到类别
Figure 395683DEST_PATH_IMAGE014
的训练样本在深度神经网络模型当前参数下的权重
Figure 621128DEST_PATH_IMAGE015
根据所述类别
Figure 803848DEST_PATH_IMAGE014
的训练样本在深度神经网络模型当前参数下的权重
Figure 583585DEST_PATH_IMAGE015
,计算得到当前批次的训练样本对应的基于假阴率的第一交叉熵损失函数
Figure 509953DEST_PATH_IMAGE016
所述基于自集成学习的高度噪声数据处理方法,其中,当前参数下每个批次关于类别
Figure 589904DEST_PATH_IMAGE014
的训练样本的假阴率
Figure 707640DEST_PATH_IMAGE013
表示为:
Figure 771411DEST_PATH_IMAGE017
其中,
Figure 235890DEST_PATH_IMAGE018
表示类别
Figure 435927DEST_PATH_IMAGE014
关于深度神经网络模型的假阴样本的数量,
Figure 429291DEST_PATH_IMAGE019
表示类别
Figure 449199DEST_PATH_IMAGE014
关于深度神经网络模型的真阳样本的数量,
Figure 982949DEST_PATH_IMAGE020
为正数。
所述基于自集成学习的高度噪声数据处理方法,其中,类别
Figure 303072DEST_PATH_IMAGE014
的训练样本在深度神经网络模型当前参数下的权重
Figure 998495DEST_PATH_IMAGE015
表示为:
Figure 272744DEST_PATH_IMAGE021
其中,
Figure 547868DEST_PATH_IMAGE022
表示高度噪声的训练样本集合中训练样本的种类数量,
Figure 456918DEST_PATH_IMAGE023
为第一超参数,
Figure 588822DEST_PATH_IMAGE024
表示关于类别
Figure 583323DEST_PATH_IMAGE010
的训练样本的假阴率。
所述基于自集成学习的高度噪声数据处理方法,其中,当前批次的训练样本对应的基于假阴率的第一交叉熵损失函数
Figure 724454DEST_PATH_IMAGE025
表示为:
Figure 753590DEST_PATH_IMAGE026
其中,
Figure 790816DEST_PATH_IMAGE027
表示当前批次中训练样本的数量,
Figure 741455DEST_PATH_IMAGE028
表示训练样本
Figure 155118DEST_PATH_IMAGE029
关于类别
Figure 554874DEST_PATH_IMAGE030
的标签值,
Figure 28581DEST_PATH_IMAGE031
表示训练样本
Figure 997674DEST_PATH_IMAGE032
在深度神经网络模型当前参数下关于类别
Figure 215029DEST_PATH_IMAGE030
的预测值。
所述基于自集成学习的高度噪声数据处理方法,其中,在所述步骤二中,所述集成模型的构建方法包括如下步骤:
对所述深度神经网络模型,在每个轮次训练完后保留深度神经网络模型的参数作为断点;
当训练至深度神经网络模型收敛时,得到深度神经网络模型对应的多个深度神经网络断点;
在验证集合上验证各所述深度神经网络断点的性能,以筛选出最优性能表现的K个深度神经网络断点,进而构成集成模型
Figure 953177DEST_PATH_IMAGE033
其中,
Figure 801048DEST_PATH_IMAGE034
表示类别
Figure 257437DEST_PATH_IMAGE035
中任意一个深度神经网络断点对应的子模型。
所述基于自集成学习的高度噪声数据处理方法,其中,在所述步骤二中,集成模型
Figure 12903DEST_PATH_IMAGE036
关于训练样本
Figure 871138DEST_PATH_IMAGE037
的预测标签值
Figure 453691DEST_PATH_IMAGE038
可表示为:
Figure 131797DEST_PATH_IMAGE039
其中,
Figure 894217DEST_PATH_IMAGE040
是子模型
Figure 606958DEST_PATH_IMAGE041
关于训练样本
Figure 593368DEST_PATH_IMAGE042
的预测概率,
Figure 24350DEST_PATH_IMAGE043
表示子模型
Figure 387198DEST_PATH_IMAGE041
中的参数;
所述更新后的标签
Figure 954446DEST_PATH_IMAGE004
表示为:
Figure 111757DEST_PATH_IMAGE044
其中,
Figure 262991DEST_PATH_IMAGE045
为第二超参数。
所述基于自集成学习的高度噪声数据处理方法,其中,在所述步骤三中,所述标签更新后的训练样本集合表示为:
Figure 367213DEST_PATH_IMAGE046
其中,
Figure 54546DEST_PATH_IMAGE047
表示标签更新后的训练样本集合;
使用所述集成模型
Figure 382759DEST_PATH_IMAGE048
以初始化目标模型
Figure 788333DEST_PATH_IMAGE005
的参数的方法包括:
通过集成模型
Figure 227405DEST_PATH_IMAGE048
中各子模型
Figure 769244DEST_PATH_IMAGE041
的参数
Figure 268359DEST_PATH_IMAGE049
,均值初始化所述目标模型
Figure 98912DEST_PATH_IMAGE050
的参数
Figure 341674DEST_PATH_IMAGE051
,对应的计算公式表示为:
Figure 505064DEST_PATH_IMAGE052
使用标签更新后的训练样本集合
Figure 175080DEST_PATH_IMAGE047
,并基于假阴率的第二交叉熵损失函数
Figure 289667DEST_PATH_IMAGE053
训练目标模型
Figure 336120DEST_PATH_IMAGE005
直至收敛,第二交叉熵损失函数
Figure 852552DEST_PATH_IMAGE053
表示为:
Figure 896731DEST_PATH_IMAGE054
其中,
Figure 233035DEST_PATH_IMAGE055
表示更新后的训练样本
Figure 817600DEST_PATH_IMAGE056
关于类别
Figure 454118DEST_PATH_IMAGE057
的标签值。
本发明提出一种基于自集成学习的高度噪声数据处理方法,具有如下优点:
(1)针对高噪声训练样本中的类别不平衡问题,设计了基于假阴率的交叉熵损失函数训练集成模型,以减轻稀有类别被误判为统治类别的程度;
(2)使用集成模型的预测值和原始标签得到训练样本标签的更新值,可充分利用原始标签,并降低噪声对训练的干扰;
(3)利用集成模型中各模型参数的平均值初始化模型,可使模型更快地收敛;并使用基于假阴率的交叉熵损失函数可提高深度神经网络模型对稀有类别的表现。
本发明提出一种基于自集成学习的高度噪声数据处理系统,其中,所述系统包括:
第一训练模块,用于采用基于假阴率的第一交叉熵损失函数,在高度噪声的训练样本集合中对深度神经网络模型进行训练直至所述深度神经网络模型收敛,以在验证集合上得到集成模型,其中所述集成模型为最优性能表现的K个深度神经网络断点的集合;
标签更新模块,用于根据所述集成模型,得到在所述训练样本集合中每个训练样本
Figure 970331DEST_PATH_IMAGE001
对应的预测标签值
Figure 59509DEST_PATH_IMAGE058
,对每个所述训练样本
Figure 385448DEST_PATH_IMAGE001
通过预测标签值
Figure 876473DEST_PATH_IMAGE058
以及原始标签
Figure 59192DEST_PATH_IMAGE003
进行更新以得到更新后的标签
Figure 635667DEST_PATH_IMAGE004
,进而得到标签更新后的训练样本集合;
迭代收敛模块,用于在所述标签更新后的训练样本集合上,使用所述集成模型以初始化目标模型
Figure 562035DEST_PATH_IMAGE005
的参数,并采用基于假阴率的第二交叉熵损失函数充分训练所述目标模型
Figure 907566DEST_PATH_IMAGE005
直至所述目标模型
Figure 261186DEST_PATH_IMAGE005
收敛。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的基于自集成学习的高度噪声数据处理方法的流程图;
图2为本发明提出的基于自集成学习的高度噪声数据处理系统的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
请参阅图1,本发明提出一种基于自集成学习的高度噪声数据处理方法,其中,所述方法包括如下步骤:
S101,采用基于假阴率的第一交叉熵损失函数,在高度噪声的训练样本集合中对深度神经网络模型进行训练直至所述深度神经网络模型收敛,以在验证集合上得到集成模型,其中所述集成模型为最优性能表现的K个深度神经网络断点的集合。
在实际应用中,数据集合中的类别一般分布不平衡。以文本分类为例,某些类别的文本在数据集中出现的频次较高,占据统治地位;某些类别的文本在数据集中出现频次较少,属于稀有类别。在进行深度模型训练时,如果赋给统治类别和稀有类别样本一样的权重值,得到的模型在预测时会偏向统治类别,即容易将稀有类别的文本预测为统治类别。稀有类别相对抗噪能力较弱,特别是当数据集合中噪声程度较高时,很难将稀有类别数据与噪声数据进行正确区分。
为了避免将稀有类别的样本错误地判别为统治类别,降低稀有类别的假阴率。本发明中设计了基于假阴率的交叉熵损失函数,使假阴率高的类别在训练时被赋予更高的权重。
具体的,在本步骤中,高度噪声的训练样本集合表示为:
Figure 262641DEST_PATH_IMAGE006
其中,
Figure 494164DEST_PATH_IMAGE007
表示高度噪声的训练样本集合,
Figure 694201DEST_PATH_IMAGE008
表示所述训练样本,
Figure 484303DEST_PATH_IMAGE009
表示所述原始标签,
Figure 769790DEST_PATH_IMAGE010
表示类别的序号,
Figure 303540DEST_PATH_IMAGE011
表示训练样本的数量。
在本实施例中,上述基于假阴率的第一交叉熵损失函数的构建方法包括如下步骤:
S1011,确定在所述深度神经网络模型中,当前参数下每个批次关于类别
Figure 358084DEST_PATH_IMAGE012
的训练样本的假阴率
Figure 256770DEST_PATH_IMAGE013
当前参数下每个批次关于类别
Figure 29553DEST_PATH_IMAGE012
的训练样本的假阴率
Figure 101415DEST_PATH_IMAGE013
表示为:
Figure 774579DEST_PATH_IMAGE017
其中,
Figure 906483DEST_PATH_IMAGE018
表示类别
Figure 900984DEST_PATH_IMAGE014
关于深度神经网络模型的假阴样本的数量,
Figure 776536DEST_PATH_IMAGE019
表示类别
Figure 743355DEST_PATH_IMAGE014
关于深度神经网络模型的真阳样本的数量,
Figure 46161DEST_PATH_IMAGE020
为正数。作为补充说明的,
Figure 527957DEST_PATH_IMAGE020
用于避免因为当前批次的训练样本中没有类别
Figure 207201DEST_PATH_IMAGE014
的样本而使分母为0。
S1012,根据所述当前参数下每个批次关于类别
Figure 90843DEST_PATH_IMAGE014
的训练样本的假阴率
Figure 66014DEST_PATH_IMAGE013
,计算得到类别
Figure 238370DEST_PATH_IMAGE014
的训练样本在深度神经网络模型当前参数下的权重
Figure 455724DEST_PATH_IMAGE059
类别
Figure 193873DEST_PATH_IMAGE014
的训练样本在深度神经网络模型当前参数下的权重
Figure 838481DEST_PATH_IMAGE059
表示为:
Figure 560450DEST_PATH_IMAGE060
其中,
Figure 315916DEST_PATH_IMAGE022
表示高度噪声的训练样本集合中训练样本的种类数量,
Figure 174151DEST_PATH_IMAGE023
为第一超参数,
Figure 724081DEST_PATH_IMAGE023
被用于平滑
Figure 871028DEST_PATH_IMAGE061
Figure 719599DEST_PATH_IMAGE024
表示关于类别
Figure 432340DEST_PATH_IMAGE035
的训练样本的假阴率。
例如,当
Figure 622013DEST_PATH_IMAGE062
Figure 787415DEST_PATH_IMAGE063
时,假阴率(0.01, 0.02, 0.03, 0.9)可以被平滑为(0.21855283, 0.21964836, 0.22074933, 0.34104955),可避免某类训练样本对应的权值过大或者过小。
S1013,根据所述类别
Figure 884684DEST_PATH_IMAGE014
的训练样本在深度神经网络模型当前参数下的权重
Figure 983090DEST_PATH_IMAGE059
,计算得到当前批次的训练样本对应的基于假阴率的第一交叉熵损失函数
Figure 140402DEST_PATH_IMAGE016
在本步骤中,当前批次的训练样本对应的基于假阴率的第一交叉熵损失函数
Figure 793100DEST_PATH_IMAGE016
表示为:
Figure 195525DEST_PATH_IMAGE026
其中,
Figure 882858DEST_PATH_IMAGE027
表示当前批次中训练样本的数量,
Figure 414334DEST_PATH_IMAGE064
表示训练样本
Figure 554328DEST_PATH_IMAGE037
关于类别
Figure 993400DEST_PATH_IMAGE014
的标签值,
Figure 800819DEST_PATH_IMAGE065
表示训练样本
Figure 299933DEST_PATH_IMAGE037
在深度神经网络模型当前参数下关于类别
Figure 130486DEST_PATH_IMAGE014
的预测值。
S102,根据所述集成模型,得到在所述训练样本集合中每个训练样本
Figure 373248DEST_PATH_IMAGE037
对应的预测标签值
Figure 769595DEST_PATH_IMAGE066
,对每个所述训练样本
Figure 938146DEST_PATH_IMAGE037
通过预测标签值
Figure 318311DEST_PATH_IMAGE066
以及原始标签
Figure 364765DEST_PATH_IMAGE003
进行更新以得到更新后的标签
Figure 615617DEST_PATH_IMAGE004
,进而得到标签更新后的训练样本集合。
为防止模型过于自信地拟合于噪声数据,本发明采用基于集成学习的方式更新训练样本的标签,再在标签更新后的训练集上训练模型,得到泛化性较强的模型。集成模型一般针对同一学习任务,联合多个模型训练得到更佳预测结果的学习方式。
具体的,上述集成模型的构建方法包括如下步骤:
S1021,对所述深度神经网络模型,在每个轮次训练完后保留深度神经网络模型的参数作为断点。
S1022,当训练至深度神经网络模型收敛时,得到深度神经网络模型对应的多个深度神经网络断点。
S1023,在验证集合上验证各所述深度神经网络断点的性能,以筛选出最优性能表现的K个深度神经网络断点,进而构成集成模型
Figure 659797DEST_PATH_IMAGE033
其中,
Figure 261679DEST_PATH_IMAGE067
表示类别
Figure 111824DEST_PATH_IMAGE035
中任意一个深度神经网络断点对应的子模型。
对任意训练样本单元
Figure 482762DEST_PATH_IMAGE068
,集成模型
Figure 494581DEST_PATH_IMAGE036
关于训练样本
Figure 85224DEST_PATH_IMAGE001
的预测标签值
Figure 411163DEST_PATH_IMAGE066
可表示为:
Figure 636608DEST_PATH_IMAGE039
其中,
Figure 84907DEST_PATH_IMAGE069
是子模型
Figure 395803DEST_PATH_IMAGE041
关于训练样本
Figure 587750DEST_PATH_IMAGE001
的预测概率,
Figure 933280DEST_PATH_IMAGE043
表示子模型
Figure 490164DEST_PATH_IMAGE041
中的参数;
所述更新后的标签
Figure 288355DEST_PATH_IMAGE004
表示为:
Figure 18414DEST_PATH_IMAGE044
其中,
Figure 722846DEST_PATH_IMAGE045
为第二超参数。
S103,在所述标签更新后的训练样本集合上,使用所述集成模型以初始化目标模型
Figure 512947DEST_PATH_IMAGE005
的参数,并采用基于假阴率的第二交叉熵损失函数充分训练所述目标模型
Figure 798435DEST_PATH_IMAGE005
直至所述目标模型
Figure 66605DEST_PATH_IMAGE005
收敛。
在本步骤中,标签更新后的训练样本集合表示为:
Figure 121149DEST_PATH_IMAGE046
其中,
Figure 285414DEST_PATH_IMAGE047
表示标签更新后的训练样本集合。
此外,使用集成模型
Figure 58198DEST_PATH_IMAGE048
以初始化目标模型
Figure 864480DEST_PATH_IMAGE005
的参数的方法包括:
通过集成模型
Figure 39109DEST_PATH_IMAGE048
中各子模型
Figure 672478DEST_PATH_IMAGE041
的参数
Figure 932558DEST_PATH_IMAGE043
,均值初始化所述目标模型
Figure 542531DEST_PATH_IMAGE050
的参数
Figure 571667DEST_PATH_IMAGE051
,对应的计算公式表示为:
Figure 77735DEST_PATH_IMAGE070
进一步的,使用标签更新后的训练样本集合
Figure 559532DEST_PATH_IMAGE047
,并基于假阴率的第二交叉熵损失函数
Figure 238775DEST_PATH_IMAGE071
训练目标模型
Figure 122417DEST_PATH_IMAGE005
直至收敛,第二交叉熵损失函数
Figure 596124DEST_PATH_IMAGE071
表示为:
Figure 768479DEST_PATH_IMAGE054
其中,
Figure 218790DEST_PATH_IMAGE072
表示更新后的训练样本
Figure 222518DEST_PATH_IMAGE001
关于类别
Figure 867126DEST_PATH_IMAGE014
的标签值。
在此需要说明的是,充分收敛后的目标模型
Figure 589094DEST_PATH_IMAGE005
为本算法得到的最终模型。
本发明提出一种基于自集成学习的高度噪声数据处理方法,具有如下优点:
(1)针对高噪声训练样本中的类别不平衡问题,设计了基于假阴率的交叉熵损失函数训练集成模型,以减轻稀有类别被误判为统治类别的程度;
(2)使用集成模型的预测值和原始标签以得到训练样本标签的更新值,可充分利用原始标签,并降低噪声对训练的干扰;
(3)利用集成模型中各模型参数的平均值初始化模型,可使模型更快地收敛;并使用基于假阴率的交叉熵损失函数可提高深度神经网络模型对稀有类别的表现。
请参阅图2,本发明提出一种基于自集成学习的高度噪声数据处理系统,其中,所述系统包括:
第一训练模块,用于采用基于假阴率的第一交叉熵损失函数,在高度噪声的训练样本集合中对深度神经网络模型进行训练直至所述深度神经网络模型收敛,以在验证集合上得到集成模型,其中所述集成模型为最优性能表现的K个深度神经网络断点的集合;
标签更新模块,用于根据所述集成模型,得到在所述训练样本集合中每个训练样本
Figure 344561DEST_PATH_IMAGE001
对应的预测标签值
Figure 937216DEST_PATH_IMAGE058
,对每个所述训练样本
Figure 752725DEST_PATH_IMAGE001
通过预测标签值
Figure 899673DEST_PATH_IMAGE058
以及原始标签
Figure 458830DEST_PATH_IMAGE003
进行更新以得到更新后的标签
Figure 673036DEST_PATH_IMAGE004
,进而得到标签更新后的训练样本集合;
迭代收敛模块,用于在所述标签更新后的训练样本集合上,使用所述集成模型以初始化目标模型
Figure 659447DEST_PATH_IMAGE005
的参数,并采用基于假阴率的第二交叉熵损失函数充分训练所述目标模型
Figure 90428DEST_PATH_IMAGE005
直至所述目标模型
Figure 187697DEST_PATH_IMAGE005
收敛。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于自集成学习的高度噪声数据处理方法,其特征在于,所述方法包括如下步骤:
步骤一,采用基于假阴率的第一交叉熵损失函数,在高度噪声的训练样本集合中对深度神经网络模型进行训练直至所述深度神经网络模型收敛,以在验证集合上得到集成模型,其中所述集成模型为最优性能表现的K个深度神经网络断点的集合;
步骤二,根据所述集成模型,得到在所述训练样本集合中每个训练样本
Figure 915789DEST_PATH_IMAGE001
对应的预测标签值
Figure 525762DEST_PATH_IMAGE002
,对每个所述训练样本
Figure 56363DEST_PATH_IMAGE001
通过预测标签值
Figure 93589DEST_PATH_IMAGE003
以及原始标签
Figure 575386DEST_PATH_IMAGE004
进行更新以得到更新后的标签
Figure 723470DEST_PATH_IMAGE005
,进而得到标签更新后的训练样本集合;
步骤三,在所述标签更新后的训练样本集合上,使用所述集成模型以初始化目标模型
Figure 607113DEST_PATH_IMAGE006
的参数,并采用基于假阴率的第二交叉熵损失函数充分训练所述目标模型
Figure 80819DEST_PATH_IMAGE006
直至所述目标模型
Figure 49912DEST_PATH_IMAGE006
收敛。
2.根据权利要求1所述的基于自集成学习的高度噪声数据处理方法,其特征在于,所述高度噪声的训练样本集合表示为:
Figure 736109DEST_PATH_IMAGE007
其中,
Figure 739837DEST_PATH_IMAGE008
表示高度噪声的训练样本集合,
Figure 384445DEST_PATH_IMAGE009
表示所述训练样本,
Figure 73790DEST_PATH_IMAGE010
表示所述原始标签,
Figure 829256DEST_PATH_IMAGE011
表示类别的序号,
Figure 421911DEST_PATH_IMAGE012
表示训练样本的数量。
3.根据权利要求2所述的基于自集成学习的高度噪声数据处理方法,其特征在于,在所述步骤一中,所述基于假阴率的第一交叉熵损失函数的构建方法包括如下步骤:
确定在所述深度神经网络模型中,当前参数下每个批次关于类别
Figure 971841DEST_PATH_IMAGE013
的训练样本的假阴率
Figure 915527DEST_PATH_IMAGE014
根据所述当前参数下每个批次关于类别
Figure 474684DEST_PATH_IMAGE015
的训练样本的假阴率
Figure 921846DEST_PATH_IMAGE014
,计算得到类别
Figure 642677DEST_PATH_IMAGE015
的训练样本在深度神经网络模型当前参数下的权重
Figure 73659DEST_PATH_IMAGE016
根据所述类别
Figure 905348DEST_PATH_IMAGE015
的训练样本在深度神经网络模型当前参数下的权重
Figure 239640DEST_PATH_IMAGE016
,计算得到当前批次的训练样本对应的基于假阴率的第一交叉熵损失函数
Figure 131373DEST_PATH_IMAGE017
4.根据权利要求3所述的基于自集成学习的高度噪声数据处理方法,其特征在于,当前参数下每个批次关于类别
Figure 784071DEST_PATH_IMAGE015
的训练样本的假阴率
Figure 685031DEST_PATH_IMAGE014
表示为:
Figure 106785DEST_PATH_IMAGE018
其中,
Figure 434998DEST_PATH_IMAGE019
表示类别
Figure 309413DEST_PATH_IMAGE015
关于深度神经网络模型的假阴样本的数量,
Figure 14064DEST_PATH_IMAGE020
表示类别
Figure 555904DEST_PATH_IMAGE015
关于深度神经网络模型的真阳样本的数量,
Figure 571131DEST_PATH_IMAGE021
为正数。
5.根据权利要求4所述的基于自集成学习的高度噪声数据处理方法,其特征在于,类别
Figure 932843DEST_PATH_IMAGE015
的训练样本在深度神经网络模型当前参数下的权重
Figure 175605DEST_PATH_IMAGE016
表示为:
Figure 571951DEST_PATH_IMAGE022
其中,
Figure 976388DEST_PATH_IMAGE023
表示高度噪声的训练样本集合中训练样本的种类数量,
Figure 90974DEST_PATH_IMAGE024
为第一超参数,
Figure 871849DEST_PATH_IMAGE025
表示关于类别
Figure 388281DEST_PATH_IMAGE011
的训练样本的假阴率。
6.根据权利要求5所述的基于自集成学习的高度噪声数据处理方法,其特征在于,当前批次的训练样本对应的基于假阴率的第一交叉熵损失函数
Figure 963618DEST_PATH_IMAGE026
表示为:
Figure 66966DEST_PATH_IMAGE027
其中,
Figure 651531DEST_PATH_IMAGE028
表示当前批次中训练样本的数量,
Figure 756890DEST_PATH_IMAGE029
表示训练样本
Figure 768709DEST_PATH_IMAGE030
关于类别
Figure 592308DEST_PATH_IMAGE031
的标签值,
Figure 714985DEST_PATH_IMAGE032
表示训练样本
Figure 940430DEST_PATH_IMAGE033
在深度神经网络模型当前参数下关于类别
Figure 123150DEST_PATH_IMAGE015
的预测值。
7.根据权利要求6所述的基于自集成学习的高度噪声数据处理方法,其特征在于,在所述步骤二中,所述集成模型的构建方法包括如下步骤:
对所述深度神经网络模型,在每个轮次训练完后保留深度神经网络模型的参数作为断点;
当训练至深度神经网络模型收敛时,得到深度神经网络模型对应的多个深度神经网络断点;
在验证集合上验证各所述深度神经网络断点的性能,以筛选出最优性能表现的K个深度神经网络断点,进而构成集成模型
Figure 434045DEST_PATH_IMAGE034
其中,
Figure 360413DEST_PATH_IMAGE035
表示类别
Figure 673320DEST_PATH_IMAGE036
中任意一个深度神经网络断点对应的子模型。
8.根据权利要求7所述的基于自集成学习的高度噪声数据处理方法,其特征在于,在所述步骤二中,集成模型
Figure 292520DEST_PATH_IMAGE037
关于训练样本
Figure 90712DEST_PATH_IMAGE001
的预测标签值
Figure 555192DEST_PATH_IMAGE003
可表示为:
Figure 489649DEST_PATH_IMAGE038
其中,
Figure 279751DEST_PATH_IMAGE039
是子模型
Figure 565239DEST_PATH_IMAGE040
关于训练样本
Figure 567830DEST_PATH_IMAGE001
的预测概率,
Figure 622374DEST_PATH_IMAGE041
表示子模型
Figure 84841DEST_PATH_IMAGE040
中的参数;
所述更新后的标签
Figure 592046DEST_PATH_IMAGE005
表示为:
Figure 398328DEST_PATH_IMAGE042
其中,
Figure 572957DEST_PATH_IMAGE043
为第二超参数。
9.根据权利要求8所述的基于自集成学习的高度噪声数据处理方法,其特征在于,在所述步骤三中,所述标签更新后的训练样本集合表示为:
Figure 439282DEST_PATH_IMAGE044
其中,
Figure 433783DEST_PATH_IMAGE045
表示标签更新后的训练样本集合;
使用所述集成模型
Figure 43756DEST_PATH_IMAGE037
以初始化目标模型
Figure 72892DEST_PATH_IMAGE006
的参数的方法包括:
通过集成模型
Figure 844539DEST_PATH_IMAGE037
中各子模型
Figure 591915DEST_PATH_IMAGE040
的参数
Figure 509973DEST_PATH_IMAGE041
,均值初始化所述目标模型
Figure 393615DEST_PATH_IMAGE046
的参数
Figure 601743DEST_PATH_IMAGE047
,对应的计算公式表示为:
Figure 570836DEST_PATH_IMAGE048
使用标签更新后的训练样本集合
Figure 522611DEST_PATH_IMAGE045
,并基于假阴率的第二交叉熵损失函数
Figure 260760DEST_PATH_IMAGE049
训练目标模型
Figure 639789DEST_PATH_IMAGE006
直至收敛,第二交叉熵损失函数
Figure 96178DEST_PATH_IMAGE049
表示为:
Figure 851645DEST_PATH_IMAGE050
其中,
Figure 945765DEST_PATH_IMAGE051
表示更新后的训练样本
Figure 761274DEST_PATH_IMAGE001
关于类别
Figure 704959DEST_PATH_IMAGE013
的标签值。
10.一种基于自集成学习的高度噪声数据处理系统,其特征在于,所述系统包括:
第一训练模块,用于采用基于假阴率的第一交叉熵损失函数,在高度噪声的训练样本集合中对深度神经网络模型进行训练直至所述深度神经网络模型收敛,以在验证集合上得到集成模型,其中所述集成模型为最优性能表现的K个深度神经网络断点的集合;
标签更新模块,用于根据所述集成模型,得到在所述训练样本集合中每个训练样本
Figure 998537DEST_PATH_IMAGE001
对应的预测标签值
Figure 445699DEST_PATH_IMAGE002
,对每个所述训练样本
Figure 432110DEST_PATH_IMAGE001
通过预测标签值
Figure 597512DEST_PATH_IMAGE003
以及原始标签
Figure 694781DEST_PATH_IMAGE004
进行更新以得到更新后的标签
Figure 262028DEST_PATH_IMAGE005
,进而得到标签更新后的训练样本集合;
迭代收敛模块,用于在所述标签更新后的训练样本集合上,使用所述集成模型以初始化目标模型
Figure 153761DEST_PATH_IMAGE006
的参数,并采用基于假阴率的第二交叉熵损失函数充分训练所述目标模型
Figure 570574DEST_PATH_IMAGE006
直至所述目标模型
Figure 205954DEST_PATH_IMAGE006
收敛。
CN202210226368.4A 2022-03-09 2022-03-09 基于自集成学习的高度噪声数据处理方法与系统 Pending CN114297335A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210226368.4A CN114297335A (zh) 2022-03-09 2022-03-09 基于自集成学习的高度噪声数据处理方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210226368.4A CN114297335A (zh) 2022-03-09 2022-03-09 基于自集成学习的高度噪声数据处理方法与系统

Publications (1)

Publication Number Publication Date
CN114297335A true CN114297335A (zh) 2022-04-08

Family

ID=80978506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210226368.4A Pending CN114297335A (zh) 2022-03-09 2022-03-09 基于自集成学习的高度噪声数据处理方法与系统

Country Status (1)

Country Link
CN (1) CN114297335A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115099115A (zh) * 2022-08-24 2022-09-23 国网江西省电力有限公司电力科学研究院 一种户内变电站通风降噪深度强化学习设计方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115099115A (zh) * 2022-08-24 2022-09-23 国网江西省电力有限公司电力科学研究院 一种户内变电站通风降噪深度强化学习设计方法
CN115099115B (zh) * 2022-08-24 2022-12-30 国网江西省电力有限公司电力科学研究院 一种户内变电站通风降噪深度强化学习设计方法

Similar Documents

Publication Publication Date Title
CN113515639B (zh) 基于置信学习与标签平滑的噪声数据处理方法与系统
US11941523B2 (en) Stochastic gradient boosting for deep neural networks
CN110674880B (zh) 用于知识蒸馏的网络训练方法、装置、介质与电子设备
JP6941123B2 (ja) 適応型追加学習を用いた細胞のアノテーション法及びアノテーションシステム
CN110472675B (zh) 图像分类方法、图像分类装置、存储介质与电子设备
US8923608B2 (en) Pre-screening training data for classifiers
WO2019202941A1 (ja) 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム
CN110866113A (zh) 基于稀疏自注意力机制微调伯特模型的文本分类方法
CN103927550B (zh) 一种手写体数字识别方法及系统
CN111368878B (zh) 一种基于ssd目标检测的优化方法、计算机设备和介质
WO2021096799A1 (en) Deep face recognition based on clustering over unlabeled face data
CN112348360B (zh) 一种基于大数据技术的中药生产工艺参数分析系统
CN114297335A (zh) 基于自集成学习的高度噪声数据处理方法与系统
JP5704692B2 (ja) パターン分類装置の学習装置及びそのためのコンピュータプログラム
CN107688822B (zh) 基于深度学习的新增类别识别方法
CN112561073A (zh) 使用基于批次的主动学习方案训练机器学习模型
CN114254146A (zh) 图像数据的分类方法、装置和系统
JP2020052935A (ja) 学習済みモデルを生成する方法、データを分類する方法、コンピュータおよびプログラム
KR102456409B1 (ko) 인공 신경망의 추론 데이터에 대한 신뢰도를 판단하는 방법
CN113627538B (zh) 训练非对称生成对抗网络产生图像的方法及电子装置
CN113656669B (zh) 标签更新方法及装置
CN113344086B (zh) 人机回圈方法、装置、系统、电子设备和存储介质
CN113033817B (zh) 基于隐空间的ood检测方法、装置、服务器及存储介质
JP6233432B2 (ja) 混合モデルの選択方法及び装置
CN114332529A (zh) 图像分类模型的训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220408