CN112257791A - 一种基于cnn和pca的多属性分类任务的分类方法 - Google Patents
一种基于cnn和pca的多属性分类任务的分类方法 Download PDFInfo
- Publication number
- CN112257791A CN112257791A CN202011156549.1A CN202011156549A CN112257791A CN 112257791 A CN112257791 A CN 112257791A CN 202011156549 A CN202011156549 A CN 202011156549A CN 112257791 A CN112257791 A CN 112257791A
- Authority
- CN
- China
- Prior art keywords
- features
- cnn
- classification
- neural network
- pca
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明涉及一种基于CNN和PCA的多属性分类任务的分类方法,属于机器学习和深度学习领域。该方法包括:S1:模型训练:获取多个属性的分类数据集并预处理;对预处理后的数据集采用PCA进行特征提取,得到独立特征;对卷积神经网络CNN进行预训练,再将预处理后的数据集输入预训练后的卷积神经网络CNN,得到组合特征;将独立特征和组合特征进行拼接得到混合特征;将混合特征输入深度神经网络DNN,进行训练;S2:采集实时样本数据;S3:将采集到的实时样本数据依照步骤S1的方式进行处理后,输入到训练好的深度神经网络DNN模型,得到分类结果。本发明能有效提高的多属性分类任务的精度,并大大降低了人工提取特征的成本。
Description
技术领域
本发明属于机器学习和深度学习领域,涉及卷积神经网络CNN和主成分分析PCA在特征提取和分类方面的应用,具体涉及一种基于CNN和PCA的多属性分类任务的分类方法。
背景技术
在数据挖掘领域中,随着数据量的爆炸式增长,数据所拥有的属性也在不断增多,如何有效地利用属性来解决分类问题也变得尤为重要,而现有的模型在捕捉样本属性之间的关系上还存在着许多不足之处。
传统机器学习算法都只是根据当前属性集来判断样本的所属性类别,而没有很好去深度挖掘属性之间关系带来的影响,这样的效率和准确率往往不是很高。例如,随机森林Random Forest、梯度提升树GBDT、以及XGBoost等等,尽管它们已被广泛应用在各种分类任务中,但是在对各种属性之间的关联关系上利用还是并不充分。
深度神经网络模型对多属性数据集进行分类时,很少去关注属性组合,而将特征属性直接输入到深度神经网络训练模型,再用训练好的模型进行样本分类。比如目前十分流行的残差网络ResNet,它主要考虑到通过增加网络的深度来提升网络性能,这种方式能够进行样本分类,但是其时间和成本消耗巨大而且准确性上不太理想。
因此,亟需一种新的能够有效区分多属性的分类方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于CNN和PCA的多属性分类任务的分类方法,在数据采集成本不变的情况下,提高的分类任务的精度。
为达到上述目的,本发明提供如下技术方案:
一种基于CNN和PCA的多属性分类任务的分类方法,具体包括以下步骤:
S1:模型训练,具体包括:
S11:获取具有多个属性的分类数据集;
S12:对数据集中的属性值预处理;
S13:对预处理后的数据集采用主成分分析PCA方法进行特征提取,得到独立特征;
S14:对卷积神经网络CNN进行预训练,再将预处理后的数据集输入预训练后的卷积神经网络CNN,得到组合特征;
S15:将独立特征和组合特征进行拼接得到混合特征;
S16:将混合特征输入深度神经网络DNN,进行训练;
S2:采集实时样本数据;
S3:将采集到的实时样本数据依照步骤S11~S15的方式进行处理后,输入到训练好的深度神经网络DNN模型,得到分类结果。
进一步,多属性数据集是领域专家所给出的,含有多个刻画该样本的特征属性。
进一步,步骤S14中,预训练的卷积神经网络CNN,包括:5个卷积层,4个平均池化层,1个Dropout层,一个空间金字塔池化层和三个全连接层,前四个卷积层后面各连接一个平均池化层,所采用的是1×3大小的卷积核和池化核,同时,在最后一个卷积层后面采用空间金字塔池化层来得到一个固定大小的特征表示,此外为保证模型的泛化能力,将Dropout层置于第1个全连接层与第二个全连接层之间。
进一步,步骤S15中,得到混合特征,具体包括:采用bootstrap对独立特征和组合特征进行有放回的采样,将采样得到的特征进行拼接融合,得到混合特征。
进一步,步骤S16中,训练的深度神经网络DNN包括:5个全连接层,3个Dropout层,为了得到类别置信度,最后一个全连接层采用softmax激活函数,其余均采用relu激活函数,同时将Dropout层分别置于前三个全连接层之后,用来控制参数量,避免过拟合。
本发明的有益效果在于:本发明采用CNN进行多属性组合,并用PCA提取的独立特征进行结合,充分利用样本属性之间组合的效果,在数据采集成本不变的情况下,有效的提高的多属性分类任务的精度,而且大大降低了人工提取特征的成本
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于CNN和PCA的多属性分类任务的分类方法的流程示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明提供的基于CNN和PCA的多属性分类任务的分类方法,设计思想为:借鉴卷积神经网络的网络结构优点,通过网络自动提取多属性乳腺癌数据的内在组合特征,而不是直接利用网络得到分类结果。并通过与PCA提取的独立特征进行结合,将两种数据特征共同进行决策分析,最终利用DNN进行训练,生成分类模型。同时实时采集多属性乳腺癌数据,根据上述方法进行特征融合后,将特征输入已经训练好的分类模型中进行样本分类,得到当前样本分类结果。
图1为本发明所述基于CNN和PCA的多属性分类任务的分类方法的流程示意图,如图1所示,该方法具体包括以下步骤:
步骤1:模型训练。
本实施例使用人工标注的多属性乳腺癌样本作为输入数据。在数据标注时,应对公共属性进行标注,这样既保证输入样本维度一致,同时在特征融合时也保证了融合的特征为同一类型的多种特征。
步骤1.1:获取具有多个属性的乳腺癌数据集;
步骤1.2:对乳腺癌数据集中的属性值预处理;
对于模型训练阶段,对原始数据进行标准化处理,可以消除不同量纲对数据的影响,本实施例中,对每个属性下的属性值分别减去其对应均值,再除以标准差,就使得属性值分布在0的附近,这样既减小了计算量,又提高了模型分类准确率。
步骤1.3:针对经过步骤1.2处理后的特征数据,进行PCA特征提取,消除特征之间的相关性得到相互独立的特征。
步骤1.4:针对经过步骤1.3处理后的特征数据,进行CNN预训练处理,步骤1.3使用的是未经过训练的卷积神经网络CNN提取样本特征,由于在初始情况下网络内部的权重和偏差都是随机初始化的,对数据进行一轮特征提取之后,得到的样本特征不稳定,不能很好的表征样本。为此,本实施例在使用卷积神经网络CNN提取样本特征时,首先使用模型预训练处理。使用同一网络结构的卷积神经网络进行训练操作,经过迭代多轮后,将每个样本特征在具有softmax函数的全连接层上进行输出。本次选择的迭代次数是5000轮。
步骤1.5:特征融合,将独立特征与组合特征进行拼接,得到具有混合特征的样本。随后将混合特征输入到DNN,经过训练得到分类结果输出。DNN是个快速的、分布式的、高性能的具有多个全连接层的深度神经网络。
步骤2:采集实时乳腺癌样本。
与训练步骤类似,实时样本是具有多个属性的乳腺癌样本数据,将多属性样本分别经过PCA和CNN处理,得到独立特征和组合特征。
步骤3:样本分类。
将上述独立特征与组合特征拼接融合,也就是将独立特征与组合特征一起送入训练好的DNN,即可得到分类结果。
本实施例中,使用卷积神经网络来自动提取组合特征,这是因为卷积层可以很好的捕捉到边缘和局部特征,实现特征的有效组合。然后,将特征融合后输入到深度神经网络DNN中训练分类器,最后利用训练好的DNN进行分类输出。
作为其他实施方式,卷积神经网络的结构可以根据实际需要进行设计,不局限于本实施例的结构和层数。
作为其他实施方式,DNN也可以替换为其他类型的分类模型。
作为其他实施方式,乳腺癌数据也可以根据应用需求替换为其他多属性数据,例如心电图数据、糖尿病数据等。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种基于CNN和PCA的多属性分类任务的分类方法,其特征在于,该方法具体包括以下步骤:
S1:模型训练,具体包括:
S11:获取具有多个属性的分类数据集;
S12:对数据集中的属性值预处理;
S13:对预处理后的数据集采用主成分分析PCA方法进行特征提取,得到独立特征;
S14:对卷积神经网络CNN进行预训练,再将预处理后的数据集输入预训练后的卷积神经网络CNN,得到组合特征;
S15:将独立特征和组合特征进行拼接得到混合特征;
S16:将混合特征输入深度神经网络DNN,进行训练;
S2:采集实时样本数据;
S3:将采集到的实时样本数据依照步骤S11~S15的方式进行处理后,输入到训练好的深度神经网络DNN模型,得到分类结果。
2.根据权利要求1所述的基于CNN和PCA的多属性分类任务的分类方法,其特征在于,多属性数据集是领域专家所给出的,含有多个刻画该样本的特征属性。
4.根据权利要求1所述的基于CNN和PCA的多属性分类任务的分类方法,其特征在于,步骤S14中,预训练的卷积神经网络CNN,包括:5个卷积层,4个平均池化层,1个Dropout层,一个空间金字塔池化层和三个全连接层,前四个卷积层后面各连接一个平均池化层,所采用的是1×3大小的卷积核和池化核,同时,在最后一个卷积层后面采用空间金字塔池化层来得到一个固定大小的特征表示,此外为保证模型的泛化能力,将Dropout层置于第1个全连接层与第二个全连接层之间。
5.根据权利要求1所述的基于CNN和PCA的多属性分类任务的分类方法,其特征在于,步骤S15中,得到混合特征,具体包括:采用bootstrap对独立特征和组合特征进行有放回的采样,将采样得到的特征进行拼接融合,得到混合特征。
6.根据权利要求1所述的基于CNN和PCA的多属性分类任务的分类方法,其特征在于,步骤S16中,训练的深度神经网络DNN包括:5个全连接层,3个Dropout层,为了得到类别置信度,最后一个全连接层采用softmax激活函数,其余均采用relu激活函数,同时将Dropout层分别置于前三个全连接层之后,用来控制参数量,避免过拟合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011156549.1A CN112257791A (zh) | 2020-10-26 | 2020-10-26 | 一种基于cnn和pca的多属性分类任务的分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011156549.1A CN112257791A (zh) | 2020-10-26 | 2020-10-26 | 一种基于cnn和pca的多属性分类任务的分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112257791A true CN112257791A (zh) | 2021-01-22 |
Family
ID=74262043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011156549.1A Pending CN112257791A (zh) | 2020-10-26 | 2020-10-26 | 一种基于cnn和pca的多属性分类任务的分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112257791A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112333625A (zh) * | 2019-11-05 | 2021-02-05 | 重庆邮电大学 | 一种基于Tensorflow的室内指纹定位方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830308A (zh) * | 2018-05-31 | 2018-11-16 | 西安电子科技大学 | 一种基于信号的传统特征与深度特征融合的调制识别方法 |
CN108830326A (zh) * | 2018-06-21 | 2018-11-16 | 河南工业大学 | 一种mri图像的自动分割方法及装置 |
CN109117826A (zh) * | 2018-09-05 | 2019-01-01 | 湖南科技大学 | 一种多特征融合的车辆识别方法 |
CN109615614A (zh) * | 2018-11-26 | 2019-04-12 | 北京工业大学 | 基于多特征融合的眼底图像中血管的提取方法与电子设备 |
CN109784151A (zh) * | 2018-12-10 | 2019-05-21 | 重庆邮电大学 | 一种基于卷积神经网络的脱机手写汉字识别方法 |
CN110991528A (zh) * | 2019-12-02 | 2020-04-10 | 上海尊溢商务信息咨询有限公司 | 一种线下新零售门店客流多属性单模型识别方法 |
-
2020
- 2020-10-26 CN CN202011156549.1A patent/CN112257791A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830308A (zh) * | 2018-05-31 | 2018-11-16 | 西安电子科技大学 | 一种基于信号的传统特征与深度特征融合的调制识别方法 |
CN108830326A (zh) * | 2018-06-21 | 2018-11-16 | 河南工业大学 | 一种mri图像的自动分割方法及装置 |
CN109117826A (zh) * | 2018-09-05 | 2019-01-01 | 湖南科技大学 | 一种多特征融合的车辆识别方法 |
CN109615614A (zh) * | 2018-11-26 | 2019-04-12 | 北京工业大学 | 基于多特征融合的眼底图像中血管的提取方法与电子设备 |
CN109784151A (zh) * | 2018-12-10 | 2019-05-21 | 重庆邮电大学 | 一种基于卷积神经网络的脱机手写汉字识别方法 |
CN110991528A (zh) * | 2019-12-02 | 2020-04-10 | 上海尊溢商务信息咨询有限公司 | 一种线下新零售门店客流多属性单模型识别方法 |
Non-Patent Citations (3)
Title |
---|
AAKRATI NIGAM ET AL.: ""Paddy leaf diseases recognition and classification using PCA and BF0-DNN algorithm by image processing"", 《MATERIALS TODAY:PROCEEDINGS》 * |
张炯辉 等: ""基于多属性分类的 KNN 改进算法"", 《鞍山师范学院学报》 * |
高志强 等: "《深度学习从入门到实践》", 3 June 2018, 中国铁道出版社 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112333625A (zh) * | 2019-11-05 | 2021-02-05 | 重庆邮电大学 | 一种基于Tensorflow的室内指纹定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lou et al. | Face image recognition based on convolutional neural network | |
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
Xu et al. | Maize diseases identification method based on multi-scale convolutional global pooling neural network | |
CN106528826A (zh) | 一种基于深度学习的多视图外观专利图像检索方法 | |
CN111339935B (zh) | 一种基于可解释cnn图像分类模型的光学遥感图片分类方法 | |
CN110287835A (zh) | 一种亚洲人脸库智能建立方法 | |
CN110188653A (zh) | 基于局部特征聚合编码和长短期记忆网络的行为识别方法 | |
CN109344856B (zh) | 一种基于多层判别式特征学习的脱机签名鉴别方法 | |
CN109815920A (zh) | 基于卷积神经网络和对抗卷积神经网络的手势识别方法 | |
Zhan et al. | Semi-supervised classification of hyperspectral data based on generative adversarial networks and neighborhood majority voting | |
CN109902662A (zh) | 一种行人重识别方法、系统、装置和存储介质 | |
CN108038499A (zh) | 一种基于深度学习的树种分类方法与系统 | |
CN109948498A (zh) | 一种基于3d卷积神经网络算法的动态手势识别方法 | |
CN112668486A (zh) | 一种预激活残差深度可分离卷积网络面部表情识别方法、装置和载体 | |
CN112257791A (zh) | 一种基于cnn和pca的多属性分类任务的分类方法 | |
CN113128560B (zh) | 一种基于注意力模块增强的cnn楷体书法风格分类方法 | |
CN110866547A (zh) | 基于多特征和随机森林的中药饮片自动分类系统及方法 | |
CN110765285A (zh) | 基于视觉特征的多媒体信息内容管控方法及系统 | |
CN112434662B (zh) | 一种基于多尺度卷积神经网络的茶叶病斑自动识别算法 | |
Menon et al. | Data augmentation and transfer learning applied to charcoal image classification | |
CN108537266A (zh) | 一种深度卷积网络的织物纹理疵点分类方法 | |
Li et al. | Locally-enriched cross-reconstruction for few-shot fine-grained image classification | |
CN113705713B (zh) | 一种基于全局和局部注意力机制的文本识别方法 | |
CN108062563A (zh) | 一种基于类别均衡的代表样本发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210122 |
|
RJ01 | Rejection of invention patent application after publication |