CN114297335A - 基于自集成学习的高度噪声数据处理方法与系统 - Google Patents
基于自集成学习的高度噪声数据处理方法与系统 Download PDFInfo
- Publication number
- CN114297335A CN114297335A CN202210226368.4A CN202210226368A CN114297335A CN 114297335 A CN114297335 A CN 114297335A CN 202210226368 A CN202210226368 A CN 202210226368A CN 114297335 A CN114297335 A CN 114297335A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- neural network
- training sample
- deep neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 157
- 238000003062 neural network model Methods 0.000 claims abstract description 48
- 230000006870 function Effects 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000012795 verification Methods 0.000 claims abstract description 8
- 230000010354 integration Effects 0.000 claims abstract description 4
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims description 2
- 238000013145 classification model Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种基于自集成学习的高度噪声数据处理方法与系统。
背景技术
在计算机领域的监督学习中,训练数据的质量对模型的学习效果至关重要。高性能的深度神经网络分类模型依赖大量高质量标记的训练数据,而训练数据的质量非常依赖人工的标注。标注的质量越高,标注的难度也就越大。因此,大型数据集总是包含错误的标签。例如,在文本分类的任务中,训练数据中某些“军事”类的文本被错误地标记为“历史”类。其中,过高比例的噪声数据会在模型的迭代过程中使模型收敛于错误知识,降低模型的分类效果。而噪声普遍存在文本分类和语音识别等分类任务的大型数据集中,因此,有必要面向噪声数据设计基于深度学习的分类算法。
为发现数据集中的噪声,以往诸多研究和应用采用置信学习的方式,以计算各个样本标签的不确定性。此类方法一般将识别出的噪声标签剔除出训练集或者重新修改样本的权重。具体的,现有的分类技术一般通过人工检查和置信学习两种方式处理噪声数据。(1)、人工检查根据对数据和业务的理解,手工对数据进行筛选清洗。当面对大型数据集时,采用人工检查的方式耗时费力,效率过低。(2)、以往基于置信学习的噪声数据分类技术主要通过剔除噪声数据或者调整噪声样本的损失。这些技术往往直接在噪声数据上训练一个分类模型,然后根据模型关于样本的预测值,剔除预测与标记不一致的样本,或者调整相关样本的权重。
然而,上述技术存在的缺点在于:直接在原始的噪声数据上训练的模型分类效果较差,利用较差的分类模型无法有效剔除噪声数据或者合理调整相关噪声样本的权重。基于此,有必要提出一种新型的噪声数据处理方法,以提高分类算法对高度噪声的鲁棒性。
发明内容
鉴于上述状况,有必要解决现有技术中,直接在原始的噪声数据上训练的模型分类效果较差,利用较差的分类模型无法有效剔除噪声数据或者合理调整相关噪声样本权重的问题。
本发明实施例提供一种基于自集成学习的高度噪声数据处理方法,其中,所述方法包括如下步骤:
步骤一,采用基于假阴率的第一交叉熵损失函数,在高度噪声的训练样本集合中对深度神经网络模型进行训练直至所述深度神经网络模型收敛,以在验证集合上得到集成模型,其中所述集成模型为最优性能表现的K个深度神经网络断点的集合;
所述基于自集成学习的高度噪声数据处理方法,其中,所述高度噪声的训练样本集合表示为:
所述基于自集成学习的高度噪声数据处理方法,其中,在所述步骤一中,所述基于假阴率的第一交叉熵损失函数的构建方法包括如下步骤:
所述基于自集成学习的高度噪声数据处理方法,其中,在所述步骤二中,所述集成模型的构建方法包括如下步骤:
对所述深度神经网络模型,在每个轮次训练完后保留深度神经网络模型的参数作为断点;
当训练至深度神经网络模型收敛时,得到深度神经网络模型对应的多个深度神经网络断点;
所述基于自集成学习的高度噪声数据处理方法,其中,在所述步骤三中,所述标签更新后的训练样本集合表示为:
本发明提出一种基于自集成学习的高度噪声数据处理方法,具有如下优点:
(1)针对高噪声训练样本中的类别不平衡问题,设计了基于假阴率的交叉熵损失函数训练集成模型,以减轻稀有类别被误判为统治类别的程度;
(2)使用集成模型的预测值和原始标签得到训练样本标签的更新值,可充分利用原始标签,并降低噪声对训练的干扰;
(3)利用集成模型中各模型参数的平均值初始化模型,可使模型更快地收敛;并使用基于假阴率的交叉熵损失函数可提高深度神经网络模型对稀有类别的表现。
本发明提出一种基于自集成学习的高度噪声数据处理系统,其中,所述系统包括:
第一训练模块,用于采用基于假阴率的第一交叉熵损失函数,在高度噪声的训练样本集合中对深度神经网络模型进行训练直至所述深度神经网络模型收敛,以在验证集合上得到集成模型,其中所述集成模型为最优性能表现的K个深度神经网络断点的集合;
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的基于自集成学习的高度噪声数据处理方法的流程图;
图2为本发明提出的基于自集成学习的高度噪声数据处理系统的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
请参阅图1,本发明提出一种基于自集成学习的高度噪声数据处理方法,其中,所述方法包括如下步骤:
S101,采用基于假阴率的第一交叉熵损失函数,在高度噪声的训练样本集合中对深度神经网络模型进行训练直至所述深度神经网络模型收敛,以在验证集合上得到集成模型,其中所述集成模型为最优性能表现的K个深度神经网络断点的集合。
在实际应用中,数据集合中的类别一般分布不平衡。以文本分类为例,某些类别的文本在数据集中出现的频次较高,占据统治地位;某些类别的文本在数据集中出现频次较少,属于稀有类别。在进行深度模型训练时,如果赋给统治类别和稀有类别样本一样的权重值,得到的模型在预测时会偏向统治类别,即容易将稀有类别的文本预测为统治类别。稀有类别相对抗噪能力较弱,特别是当数据集合中噪声程度较高时,很难将稀有类别数据与噪声数据进行正确区分。
为了避免将稀有类别的样本错误地判别为统治类别,降低稀有类别的假阴率。本发明中设计了基于假阴率的交叉熵损失函数,使假阴率高的类别在训练时被赋予更高的权重。
具体的,在本步骤中,高度噪声的训练样本集合表示为:
在本实施例中,上述基于假阴率的第一交叉熵损失函数的构建方法包括如下步骤:
例如,当,时,假阴率(0.01, 0.02, 0.03, 0.9)可以被平滑为(0.21855283, 0.21964836, 0.22074933, 0.34104955),可避免某类训练样本对应的权值过大或者过小。
为防止模型过于自信地拟合于噪声数据,本发明采用基于集成学习的方式更新训练样本的标签,再在标签更新后的训练集上训练模型,得到泛化性较强的模型。集成模型一般针对同一学习任务,联合多个模型训练得到更佳预测结果的学习方式。
具体的,上述集成模型的构建方法包括如下步骤:
S1021,对所述深度神经网络模型,在每个轮次训练完后保留深度神经网络模型的参数作为断点。
S1022,当训练至深度神经网络模型收敛时,得到深度神经网络模型对应的多个深度神经网络断点。
在本步骤中,标签更新后的训练样本集合表示为:
本发明提出一种基于自集成学习的高度噪声数据处理方法,具有如下优点:
(1)针对高噪声训练样本中的类别不平衡问题,设计了基于假阴率的交叉熵损失函数训练集成模型,以减轻稀有类别被误判为统治类别的程度;
(2)使用集成模型的预测值和原始标签以得到训练样本标签的更新值,可充分利用原始标签,并降低噪声对训练的干扰;
(3)利用集成模型中各模型参数的平均值初始化模型,可使模型更快地收敛;并使用基于假阴率的交叉熵损失函数可提高深度神经网络模型对稀有类别的表现。
请参阅图2,本发明提出一种基于自集成学习的高度噪声数据处理系统,其中,所述系统包括:
第一训练模块,用于采用基于假阴率的第一交叉熵损失函数,在高度噪声的训练样本集合中对深度神经网络模型进行训练直至所述深度神经网络模型收敛,以在验证集合上得到集成模型,其中所述集成模型为最优性能表现的K个深度神经网络断点的集合;
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于自集成学习的高度噪声数据处理方法,其特征在于,所述方法包括如下步骤:
步骤一,采用基于假阴率的第一交叉熵损失函数,在高度噪声的训练样本集合中对深度神经网络模型进行训练直至所述深度神经网络模型收敛,以在验证集合上得到集成模型,其中所述集成模型为最优性能表现的K个深度神经网络断点的集合;
10.一种基于自集成学习的高度噪声数据处理系统,其特征在于,所述系统包括:
第一训练模块,用于采用基于假阴率的第一交叉熵损失函数,在高度噪声的训练样本集合中对深度神经网络模型进行训练直至所述深度神经网络模型收敛,以在验证集合上得到集成模型,其中所述集成模型为最优性能表现的K个深度神经网络断点的集合;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210226368.4A CN114297335A (zh) | 2022-03-09 | 2022-03-09 | 基于自集成学习的高度噪声数据处理方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210226368.4A CN114297335A (zh) | 2022-03-09 | 2022-03-09 | 基于自集成学习的高度噪声数据处理方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114297335A true CN114297335A (zh) | 2022-04-08 |
Family
ID=80978506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210226368.4A Pending CN114297335A (zh) | 2022-03-09 | 2022-03-09 | 基于自集成学习的高度噪声数据处理方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114297335A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115099115A (zh) * | 2022-08-24 | 2022-09-23 | 国网江西省电力有限公司电力科学研究院 | 一种户内变电站通风降噪深度强化学习设计方法 |
-
2022
- 2022-03-09 CN CN202210226368.4A patent/CN114297335A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115099115A (zh) * | 2022-08-24 | 2022-09-23 | 国网江西省电力有限公司电力科学研究院 | 一种户内变电站通风降噪深度强化学习设计方法 |
CN115099115B (zh) * | 2022-08-24 | 2022-12-30 | 国网江西省电力有限公司电力科学研究院 | 一种户内变电站通风降噪深度强化学习设计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113515639B (zh) | 基于置信学习与标签平滑的噪声数据处理方法与系统 | |
US11941523B2 (en) | Stochastic gradient boosting for deep neural networks | |
CN110674880B (zh) | 用于知识蒸馏的网络训练方法、装置、介质与电子设备 | |
JP6941123B2 (ja) | 適応型追加学習を用いた細胞のアノテーション法及びアノテーションシステム | |
CN110472675B (zh) | 图像分类方法、图像分类装置、存储介质与电子设备 | |
US8923608B2 (en) | Pre-screening training data for classifiers | |
WO2019202941A1 (ja) | 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム | |
CN110866113A (zh) | 基于稀疏自注意力机制微调伯特模型的文本分类方法 | |
CN103927550B (zh) | 一种手写体数字识别方法及系统 | |
CN111368878B (zh) | 一种基于ssd目标检测的优化方法、计算机设备和介质 | |
WO2021096799A1 (en) | Deep face recognition based on clustering over unlabeled face data | |
CN112348360B (zh) | 一种基于大数据技术的中药生产工艺参数分析系统 | |
CN114297335A (zh) | 基于自集成学习的高度噪声数据处理方法与系统 | |
JP5704692B2 (ja) | パターン分類装置の学習装置及びそのためのコンピュータプログラム | |
CN107688822B (zh) | 基于深度学习的新增类别识别方法 | |
CN112561073A (zh) | 使用基于批次的主动学习方案训练机器学习模型 | |
CN114254146A (zh) | 图像数据的分类方法、装置和系统 | |
JP2020052935A (ja) | 学習済みモデルを生成する方法、データを分類する方法、コンピュータおよびプログラム | |
KR102456409B1 (ko) | 인공 신경망의 추론 데이터에 대한 신뢰도를 판단하는 방법 | |
CN113627538B (zh) | 训练非对称生成对抗网络产生图像的方法及电子装置 | |
CN113656669B (zh) | 标签更新方法及装置 | |
CN113344086B (zh) | 人机回圈方法、装置、系统、电子设备和存储介质 | |
CN113033817B (zh) | 基于隐空间的ood检测方法、装置、服务器及存储介质 | |
JP6233432B2 (ja) | 混合モデルの選択方法及び装置 | |
CN114332529A (zh) | 图像分类模型的训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220408 |