CN112966767B - 一种特征提取和分类任务分离的数据不均衡处理方法 - Google Patents
一种特征提取和分类任务分离的数据不均衡处理方法 Download PDFInfo
- Publication number
- CN112966767B CN112966767B CN202110293696.1A CN202110293696A CN112966767B CN 112966767 B CN112966767 B CN 112966767B CN 202110293696 A CN202110293696 A CN 202110293696A CN 112966767 B CN112966767 B CN 112966767B
- Authority
- CN
- China
- Prior art keywords
- model
- classification
- data
- features
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种特征提取和分类任务分离的数据不均衡处理方法,其特征在于,包括步骤一:准备用于模型训练的分类数据集,判定数据是否存在长尾分布;步骤二:利用深度神经网络训练一个包含两个分支网络的模型,模型将表征特征与分类特征动态融合,并进行分类;步骤三:通过测试数据集对模型评估分析,在测试数据集上计算模型的准确率和召回率,通过准确率和召回率的值来判定模型的性能;步骤四:对验证测试好的模型进行部署测试,在真实的场景中,对抓取的类别图片进行分析,统计分析分类的效果。达到在不改变原始数据分布的情况下,很好的解决分类任务中长尾分布的问题的效果。
Description
技术领域
本发明涉及计算机深度学习领领域,特别是涉及一种特征提取和分类任务分离的数据不均衡处理方法。
背景技术
自然界中存在着比正太分布还要广泛的一种随机变量的分布——长尾分布。例如在做动物分类的时候,猫狗等常见的数据可以比较轻松的获得,考虑到数据的均衡,一些比较稀有的动物数据采集将变得非常困难,采样结果往往与稀有度呈现指数分布,越稀有的物种数量也越少。在现实情形中,大多数情况下统计的数据都会呈现为长尾分布。深度学习的训练是基于数据来驱动的,因此在训练过程中,如果能很好的解决数据中存在的长尾问题,不仅能够提升模型的稳定性,也对模型的性能有着显著的提升。
在实际的模型训练过程中,如果数据中存在着长尾分布,通常有两种解决方案,一种是数据的采样,另外一种是损失函数的设计。重采样主要是在模型训练过程中,对于数据量少的样本重复采样,这样可以保证每个类别的样本数量相同。损失函数的设计主要是通过控制损失的权重来实现的,例如数据量少的类损失权重相对比较大。这两种方式都可以在一定程度上解决长尾分布的问题。但是针对于更加一般的场景上述两种方式不能很好的解决长尾分布。
因此,需要一种特征提取和分类任务分离的数据不均衡处理方法。
发明内容
本发明的一种特征提取和分类任务分离的数据不均衡处理方法,针对数据集中存在的长尾问题进行了分析和方法的设计,通过对训练数据集中样本数量的统计分析,利用神经网络训练出一个表征学习和分类学习分离的模型。这个模型可以在不改变原始数据分布的情况下,很好的解决分类任务中长尾分布的问题。模型在特征提取部分共享权重,然后针对表征任务和分类任务设计不同的网络结构来抽象特征,最后将两部分特征进行融合,提升模型最后的性能。
本发明所要解决的技术问题是克服现有技术的不足,提供一种特征提取和分类任务分离的数据不均衡处理方法。
为解决上述技术问题,本发明提供一种特征提取和分类任务分离的数据不均衡处理方法,其特征在于,包括如下步骤:
步骤一:准备用于模型训练的分类数据集,对分类数据集统计分析,可视化数据的分布,判定数据是否存在长尾分布;对于采集均衡的数据集可以按着一般的分类模型定义思路来训练模型,如果可视化的分布结果有着明显的倾斜呈长尾分布可以按第二步的思路来做。
步骤二:利用深度神经网络训练一个包含两个分支网络的模型,其中,分支网络一用于学习图片的表征特征,分支网络二用于学习图片的分类特征,整个模型的后半部分将表征特征与分类特征动态融合,并进行分类;在两个分支网络的训练过程中,分支网络一接受原始采样分布的数据作为输入,分支网络二接受原始数据反比的采样分布作为输入;
步骤三:通过测试数据集对模型评估分析,在测试数据集上计算模型的准确率和召回率,通过准确率和召回率的值来判定模型的性能;
步骤四:对验证测试好的模型进行部署测试,在真实的场景中,对抓取的类别图片进行分析,统计分析分类的效果。
所述步骤一中包括,对分类数据集进行采集、标注和统计,所述采集指针对特定分类数据集的采集,每个类别的数据集中的图片数量在5张以上,为图片进行标注,所述标注是按照类别目录对图片进行归类,使相同类别的图片在同一个文件夹下,得到的标注信息为其中,k表示为图片的编号,c表示为图片的类别,所述统计是指分析数据样本是否存在长尾分布,所述长尾分布的概率密度函数为y=cx-r,其中所述x指稀有度,y指样本的数量,x,y是正的随机变量,c,r均为大于零的常数。根据分析的结果来决定是否继续第二步骤的操作。
所述步骤二中,利用深度神经网络训练一个包含两个分支网络的模型具体包括:
步骤2-1:根据实际的样本数据选择预训练模型作为backbone,所述预训练模型可以为ResNet或EfficientNet,为模型的特征提取模块设定卷积层数,模型对特征的融合按循环的迭代次数选择不同的权重来进行叠加;
步骤2-3:分类特征的提取,分支网络二按照样本个数的反比例对图片进行采样学习,这部分主要是为了得到数据的分类特征,因为正常情况下模型会更倾向于预测样本比较多的数据,所以这部分用来训练分类特征,其中F2是分类特征的分支,为图片k的分类特征,其中k=1,2,3…,n。
步骤2-4,将提取的表征特征与分类特征进行融合,所述融合按比例系数α来进行,这样进行最后分类的特征,既拥有按正常数据采样训练的表征特征,又拥有按着呈反比的方式采样训练的分类特征,得到组后的模型分类的特征 其中,featurek是模型最后进行分类的特征,α为特征融合时提取的系数,所述α的数学表达式为:
其中,T为模型当前训练的轮数,Tmax为模型训练的总的轮数;在开始的阶段模型的表征特征的参数会相对的较小,随着模型的迭代,分类特征占的比例会相对的比较高。前期主要是为了拟合自然场景下特征的分布,模型训练后期主要是为了解决分类的不均衡提取更多的类别特征,最后用融合的特征做模型的预测。
步骤2-5:模型的预测,根据步骤2-4得到的融合的特征进行模型的预测,
模型的预测阶段用上述两部分融合的特征来进行分类预测。
所述步骤2-1中,用VGG作为网络模型的backbone,模型的特征提取模块的卷积层数设定为5,获取第5个卷积层后的特征,其它模型也可以根据情况适当调整。
本发明所达到的有益效果:本发明针对数据集中存在的长尾问题进行了分析和方法的设计,通过对训练数据集中样本数量的统计分析,利用神经网络训练一个表征学习和分类学习分离的模型。这个模型可以在不改变原始数据分布的情况下,很好的解决分类任务中长尾分布的问题。模型在特征提取部分共享权重,然后针对表征和分类设计不同的网络结构来抽象特征,最后将两部分特征进行融合,提升模型的分类性能。
针对自然场景下的长尾分布的数据,利用表征特征和分类特征分离训练的方式得到一个稳定的分类模型。避免了在正常采样情况下训练的模型存在样本不均衡的问题,这种方式对解决数据的不均衡提供了一个比较通用的方法。
附图说明
图1为本发明的示例性实施例中的方法流程示意图;
图2为本发明的示例性实施例中的模块结构示意图。
具体实施方式
下面结合附图和示例性实施例对本发明作进一步的说明:
如图1所示,本发明公开一种特征提取和分类任务分离的数据不均衡处理方法,包括:
步骤11:准备模型训练的分类数据集,并对数据进行标注获得标注信息。
所述步骤11中,针对特定的场景采集模型训练所需要的数据集,经过人工筛选得到按照类别文件夹存放的训练数据集,每个类别目录下的图片数据最少5张,数据类别根据实际的情况来决定,如果数据量太少训练的模型稳定性存在问题,所以在数据收集的时候应该尽可能多的收集数据。对收集到的数据进行统计分析得到数据的分布,如果数据并没有存在长尾分布可以按照正常的训练策略,在预训练好的模型上微调得到泛化好的模型。如果数据中存在比较明显的长尾分布可以按着此方法来进行模型的训练。
步骤12:根据准备的标注好的分类数据集,利用神经网络来训练分类模型,模型的backbone作为公共的特征提取模块,在此基础之上构建表征特征提取模块和分类特征提取模块,最后动态的将这两部分特征融合得到最终的分类特征。通过上述方式训练出一个可以有效解决长尾分布的模型。
所述步骤12中:利用表征提取的模块提取表征特征,表征模块的输入数据是按着正常的采样方式进行采样的,采样的个数与数据量的大小成正比;利用分类提取模块提取分类特征处理长尾分布中存在的不均衡问题,分类模块输入数据的采样方式与训练数据的数量成反比;特征融合模块将产生的表征特征和分类特征进行动态融合得到模型分类所需要的特征,特征的融合过程是动态的,在训练初期表征特征会占据融合特征的绝大部分,在训练后期表征特征的权重逐渐减少,分类特征会占据主要的部分,动态融合使得提取出的特征更加具有稳定性,更能表征数据;最后将上述融合的特征进行模型训练,得到最后的分类模型,整个训练过程是端到端的。
步骤13:对按着正常的微调方式训练的模型和按着上述方式训练的模型进行对比,在测试集上测试模型的准确率和召回率,判定模型的泛化性和稳定性,选择出最优的模型。理论上模型训练的准确率和召回率越高越好,但是经过实践当准确率和召回率达到0.9时,模型的性能满足应用需求,且继续优化已经不能显著提升性能,达到最佳的投入产出比。
步骤14:将上述训练验证好的模型进行部署,在实际场景中对图片数据进行预测分析,分析分类的效果,如果存在问题,可以对存在问题的照片重新标注迭代到步骤12得到泛化性更好的模型。
该方法能够对存在长尾分布的数据集快速构建一个分类模型,通过对比试验来分析模型的有效性,得到一个泛化性能好的模型。
如图2所示,本发明公开一种特征提取和分类任务分离的数据不均衡处理方法,主要包括:依次相连的数据预处理模块21、模型训练模块22和模型评估部署模块23。
所述数据预处理模块21,主要是用来搜集数据,对数据集进行标注,然后统计分析数据中是否存在长尾分布,根据数据集的情况来决定是否进行下面的操作。
所述的模型训练模块22,主要是训练模型中的两个分支,一个分支用来进行表征特征的提取,另外一个分支用来进行模型分类的均衡。然后对两个分支提取的特征进行动态的融合做模型的分类。
所述的模型评估部署模块23,主要用来对模型的预测结果进行评估分析,分析模型的有效性,然后对模型进行部署。
本发明主要提出了一种特征表征和分类表征分离的分类方法,该方法主要是用来解决分类任务中存在长尾分布的问题。模型在训练中获得两种特征,一种是按着正常分布采样得到的表征特征,另一种是按着与样本数量成反比的方式采样得到的分类特征。最后将分类特征和表征特征进行融合得到最后的分类模型。整个过程中模型的训练是端到端的完成的,该方法对解决长尾分布提供了一种高效的解决方法。
本发明针对数据集中存在的长尾问题进行了分析和方法的设计,通过对训练数据集中样本数量的统计分析,利用神经网络训练一个表征学习和分类学习分离的模型。这个模型可以在不改变原始数据分布的情况下,很好的解决分类任务中长尾分布的问题。模型在特征提取部分共享权重,然后针对表征和分类设计不同的网络结构来抽象特征,最后将两部分特征进行融合,提升模型的分类性能。
针对自然场景下的长尾分布的数据,利用表征特征和分类特征分离训练的方式得到一个稳定的分类模型。避免了在正常采样情况下训练的模型存在样本不均衡的问题,这种方式对解决数据的不均衡提供了一个比较通用的方法。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。
Claims (4)
1.一种特征提取和分类任务分离的数据不均衡处理方法,其特征在于,包括如下步骤:
步骤一:准备用于模型训练的分类数据集,对分类数据集统计分析,可视化数据的分布,判定数据是否存在长尾分布;
步骤二:利用深度神经网络训练一个包含两个分支网络的模型,其中,分支网络一用于学习图片的表征特征,分支网络二用于学习图片的分类特征,模型将表征特征与分类特征动态融合,并进行分类;在两个分支网络的训练过程中,分支网络一接受原始采样分布的数据作为输入,分支网络二接受原始数据反比的采样分布作为输入;
所述步骤二中,利用深度神经网络训练一个包含两个分支网络的模型具体包括:
步骤2-1:根据实际的样本数据选择预训练模型作为backbone,为模型的特征提取模块设定卷积层数,模型对特征的融合按循环的迭代次数选择不同的权重来进行叠加;
其中,T为模型当前训练的轮数,Tmax为模型训练的总的轮数;
步骤2-5:模型的预测,根据步骤2-4得到的融合的特征进行模型的预测,
模型的预测阶段用上述两部分融合的特征来进行分类预测;
步骤三:通过测试数据集对模型评估分析,在测试数据集上计算模型的准确率和召回率,通过准确率和召回率的值来判定模型的性能;
步骤四:对验证测试好的模型进行部署测试,在真实的场景中,对抓取的类别图片进行分析,统计分析分类的效果。
3.如权利要求2所述的一种特征提取和分类任务分离的数据不均衡处理方法,其特征在于:所述步骤2-1中,用VGG作为网络模型的backbone,模型的特征提取模块的卷积层数设定为5,获取第5个卷积层后的特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110293696.1A CN112966767B (zh) | 2021-03-19 | 2021-03-19 | 一种特征提取和分类任务分离的数据不均衡处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110293696.1A CN112966767B (zh) | 2021-03-19 | 2021-03-19 | 一种特征提取和分类任务分离的数据不均衡处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966767A CN112966767A (zh) | 2021-06-15 |
CN112966767B true CN112966767B (zh) | 2022-03-22 |
Family
ID=76277664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110293696.1A Active CN112966767B (zh) | 2021-03-19 | 2021-03-19 | 一种特征提取和分类任务分离的数据不均衡处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966767B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255832B (zh) * | 2021-06-23 | 2021-10-01 | 成都考拉悠然科技有限公司 | 双分支多中心的长尾分布识别的方法 |
CN113780463B (zh) * | 2021-09-24 | 2023-09-05 | 北京航空航天大学 | 一种基于深度神经网络的多头归一化长尾分类方法 |
CN114937288B (zh) * | 2022-06-21 | 2023-05-26 | 四川大学 | 一种非典型类数据集平衡方法、装置、介质 |
CN114863193B (zh) * | 2022-07-07 | 2022-12-02 | 之江实验室 | 基于混合批归一化的长尾学习图像分类、训练方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461190A (zh) * | 2020-03-24 | 2020-07-28 | 华南理工大学 | 一种基于深度卷积神经网络的非均衡船舶分类方法 |
CN111950656A (zh) * | 2020-08-25 | 2020-11-17 | 深圳思谋信息科技有限公司 | 图像识别模型生成方法、装置、计算机设备和存储介质 |
CN112101544A (zh) * | 2020-08-21 | 2020-12-18 | 清华大学 | 适用于长尾分布数据集的神经网络的训练方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10853627B2 (en) * | 2017-09-28 | 2020-12-01 | Nec Corporation | Long-tail large scale face recognition by non-linear feature level domain adaptation |
-
2021
- 2021-03-19 CN CN202110293696.1A patent/CN112966767B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461190A (zh) * | 2020-03-24 | 2020-07-28 | 华南理工大学 | 一种基于深度卷积神经网络的非均衡船舶分类方法 |
CN112101544A (zh) * | 2020-08-21 | 2020-12-18 | 清华大学 | 适用于长尾分布数据集的神经网络的训练方法和装置 |
CN111950656A (zh) * | 2020-08-25 | 2020-11-17 | 深圳思谋信息科技有限公司 | 图像识别模型生成方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112966767A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966767B (zh) | 一种特征提取和分类任务分离的数据不均衡处理方法 | |
CN111160406A (zh) | 图像分类模型的训练方法、图像分类方法及装置 | |
CN112685504B (zh) | 一种面向生产过程的分布式迁移图学习方法 | |
CN109410184A (zh) | 基于稠密对抗网络半监督学习的直播色情图像检测方法 | |
CN112232328A (zh) | 基于卷积神经网络的遥感影像建筑区提取方法、装置 | |
CN110008853A (zh) | 行人检测网络及模型训练方法、检测方法、介质、设备 | |
CN112819063B (zh) | 一种基于改进的Focal损失函数的图像识别方法 | |
CN110442842A (zh) | 合同内容的提取方法及装置、计算机设备、存储介质 | |
CN113688558A (zh) | 一种基于大数据库样本的汽车行驶工况构建方法及系统 | |
CN108038499A (zh) | 一种基于深度学习的树种分类方法与系统 | |
CN112288700A (zh) | 一种铁轨缺陷检测方法 | |
CN112819821A (zh) | 一种细胞核图像检测方法 | |
CN111680575A (zh) | 一种人类上皮细胞染色分类装置、设备及存储介质 | |
CN114882497A (zh) | 一种基于深度学习算法实现水果分类识别的方法 | |
CN114596590A (zh) | 一种用于具有长尾分布特性的单猴视频动作分类方法 | |
CN115292538A (zh) | 一种基于深度学习的地图线要素提取方法 | |
CN112101313B (zh) | 一种机房机器人巡检方法及系统 | |
CN112508684B (zh) | 一种基于联合卷积神经网络的催收风险评级方法及系统 | |
CN112183674B (zh) | 一种粪便宏观图像颜色和性状多任务识别方法及系统 | |
CN113726558A (zh) | 基于随机森林算法的网络设备流量预测系统 | |
CN111191027B (zh) | 一种基于高斯混合分布vae的广义零样本识别方法 | |
CN111815209A (zh) | 应用于风控模型的数据降维方法及装置 | |
CN115393733B (zh) | 一种基于深度学习的水体自动识别方法及系统 | |
CN109816028A (zh) | 一种部分特征迁移的非平衡数据集分类模型融合方法 | |
CN115423600A (zh) | 数据筛选方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |