CN116563646B - 一种基于离散化数据的大脑影像分类方法 - Google Patents

一种基于离散化数据的大脑影像分类方法 Download PDF

Info

Publication number
CN116563646B
CN116563646B CN202310773717.9A CN202310773717A CN116563646B CN 116563646 B CN116563646 B CN 116563646B CN 202310773717 A CN202310773717 A CN 202310773717A CN 116563646 B CN116563646 B CN 116563646B
Authority
CN
China
Prior art keywords
discrete
brain image
original
attributes
discretized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310773717.9A
Other languages
English (en)
Other versions
CN116563646A (zh
Inventor
潘丹
张怡聪
陈启俊
吕锦
骆根强
曾安
杨洋
刘军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202310773717.9A priority Critical patent/CN116563646B/zh
Publication of CN116563646A publication Critical patent/CN116563646A/zh
Application granted granted Critical
Publication of CN116563646B publication Critical patent/CN116563646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10088Magnetic resonance imaging [MRI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30016Brain
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Quality & Reliability (AREA)
  • Physiology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及数据分类处理技术领域,公开了一种基于离散化数据的大脑影像分类方法,包括:将原始大脑影像数据集划分为原始训练集、原始验证集和原始测试集;构建包括数据集离散化前后的信息损失、分类错误率和离散数据复杂程度的多目标函数,对多目标函数的最优解进行搜索,得到离散化方案;根据离散化方案分别对原始训练集、原始验证集和原始测试集进行离散化;对离散训练集和离散验证集进行特征选择,利用特征选择结果,对离散训练集和离散测试集进行特征精简,得到精简离散训练集和精简离散测试集;利用精简离散训练集训练一个分类器对精简离散测试集进行分类,得到大脑影像数据分类结果。本发明能够提高大脑影像分类任务的分类准确率和效率。

Description

一种基于离散化数据的大脑影像分类方法
技术领域
本发明涉及数据分类处理领域,更具体地,涉及一种基于离散化数据的大脑影像分类方法。
背景技术
随着大脑影像学技术的不断发展,机器学习已被广泛应用于用于大脑影像的相关研究。其中对大脑影像数据进行分类,已成为大脑影像研究中的一个热点研究。
目前的基于机器学习的大脑影像分类方法常对原始大脑影像数据进行特征提取,并根据特征提取结果,利用分类器进行分类,得到大脑影像分类结果。该方法虽能实现大脑影像分类,但没有考虑到数据的分布特点和属性之间的相关性,使得算法的计算复杂度和存储需求大,造成分类精度低且效率低的缺陷。
发明内容
本发明为克服现有技术存在的精度低且效率低的缺陷,提出如下技术方案:
本发明提出一种基于离散化数据的大脑影像分类方法,包括:
S1:获取原始大脑影像数据集,并将所述原始大脑影像数据集划分为原始训练集、原始验证集和原始测试集。
S2:构建包括数据集离散化前后的信息损失、分类错误率和离散数据复杂程度的多目标函数。
S3:利用所述原始训练集和原始验证集对所述多目标函数的最优解进行搜索,得到离散化方案。
S4:根据所述离散化方案分别对所述原始训练集、原始验证集和原始测试集进行离散化,得到离散训练集、离散验证集和离散测试集。
S5:对所述离散训练集和离散验证集进行特征选择,并利用特征选择结果,对所述离散训练集和所述离散测试集进行特征精简,得到精简离散训练集和精简离散测试集。
S6:利用所述精简离散训练集训练一个分类器,并将所述精简离散测试集输入训练好的分类器进行分类,得到大脑影像数据分类结果。
与现有技术相比,本发明技术方案的有益效果包括:
(1)本发明通过对原始大脑影像数据集进行离散化,使用离散化大脑影像数据集用于后续的分类任务,能够充分考虑数据的分布特点和属性之间的相关性,以保留关键信息,降低算法的计算复杂度和存储需求,同时提高分类的准确性和效率。
(2)本发明通过构建包括数据集离散化前后的信息损失、分类错误率和离散数据复杂程度的多目标函数,并利用多目标优化算法对所述多目标函数的最优解进行搜索,得到离散化方案,利用该离散化方案对原始大脑影像数据集进行离散化,能够减少大脑影像数据集离散化前后的信息损失的同时使得离散化大脑影像数据集更简单,降低分类错误率,使得后续大脑影像分类任务的分类准确率和效率大大提高。
附图说明
图1为实施例一中基于离散化数据的大脑影像分类方法的流程示意图。
图2为实施例二中对原始大脑影像数据集进行离散化的的实施框架图。
图3为实施例三中进行对比实验的流程示意图。
图4为实施例三中不同离散化算法在CART分类模型上的平均分类准确率及平均切点数比较结果图。
图5为实施例三中不同离散化算法在Naive Bayes分类模型上的平均分类准确率及平均切点数比较结果图。
图6为实施例三中不同离散化算法在KNN分类模型上的平均分类准确率及平均切点数比较结果图。
图7为实施例三中不同离散化算法在SVM分类模型上的平均分类准确率及平均切点数比较结果图。
图8为实施例三中离散化前后的不同数据集在CatBoost分类模型上的运行时间示意图。
具体实施方式
以下将参照附图和优选的技术方案来说明本发明的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。应当理解,优选的技术方案仅为了说明本发明,而不是为了限制本发明的保护范围。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本发明的实施例难以理解。
实施例一
参阅图1,本实施例提出一种基于离散化数据的大脑影像分类方法,包括:
S1:获取原始大脑影像数据集,并将所述原始大脑影像数据集划分为原始训练集、原始验证集和原始测试集。
S2:构建包括数据集离散化前后的信息损失、分类错误率和离散数据复杂程度的多目标函数。
S3:利用所述原始训练集和原始验证集对所述多目标函数的最优解进行搜索,得到离散化方案。
S4:根据所述离散化方案分别对所述原始训练集、原始验证集和原始测试集进行离散化,得到离散训练集、离散验证集和离散测试集。
S5:对所述离散训练集和离散验证集进行特征选择,并利用特征选择结果,对所述离散训练集和所述离散测试集进行特征精简,得到精简离散训练集和精简离散测试集。
S6:利用所述精简离散训练集训练一个分类器,并将所述精简离散测试集输入训练好的分类器进行分类,得到大脑影像数据分类结果。
可以理解的是,通过对原始大脑影像数据集进行离散化,使用离散化大脑影像数据集用于后续的分类任务,能够充分考虑数据的分布特点和属性之间的相关性,以保留关键信息,降低算法的计算复杂度和存储需求,同时提高分类的准确性和效率。通过构建包括数据集离散化前后的信息损失、分类错误率和离散数据复杂程度的多目标函数,并利用多目标优化算法对所述多目标函数的最优解进行搜索,得到离散化方案,利用该离散化方案对原始大脑影像数据集进行离散化,能够减少大脑影像数据集离散化前后的信息损失的同时使得离散化大脑影像数据集更简单,降低分类错误率,使得后续大脑影像分类任务的分类准确率和效率大大提高。
实施例二
参阅图1和图2,本实施例在实施例一提出的基于离散化数据的大脑影像分类方法的基础上作出改进。
S1:获取原始大脑影像数据集,并将所述原始大脑影像数据集划分为原始训练集、原始验证集和原始测试集。
本实施例中,从SchizConnect数据库下载COBRE数据集和MCICShare数据集,从所述COBRE数据集和所述MCICShare数据集中获取结构磁共振成像(structural MRI, sMRI)数据样本,sMRI数据样本包含有精神分裂症患者(SC)和正常对照(HC)两大群体。COBRE和MCICShare两个数据集的数据情况如表1所示。
表1 数据集信息
然后,使用FreeSurfer对sMRI数据样本进行分析和测量,获取大脑形态学指标,利用大脑形态学指标构建表格数据,得到精神分裂症患者的原始大脑影像数据集。
本实施例选用Brainnetome 脑区模板,Brainnetome 脑区模板共划分有246个脑区,然后对各组模板的每一个脑区进行8个形态学指标的提取。在完成样本预处理后,每个脑区能得到如下8个形态学指标:表面面积(area)、灰质体积(volume)、平均厚度(thickness)、厚度标准差(thicknessstd)、积分校正平均曲率(meancurv)、积分校正高斯曲率(gauscurv)、折叠指数(foldind)和内在曲率指数(curvind)。本实施例所使用的Brainnetome 脑区模板总共划分246个区域,其中包含36个皮下区域,本实施例只研究皮层上的指标,所以在Brainnetome脑区模板上共提取特征210×8=1680个。
本实施例从原始大脑影像数据集中(共387个样本)中划分出77个样本作为独立的测试集,不参与任何训练,仅作最终模型性能检验使用;剩下310个样本进行5折划分,得到每个折次的原始训练集和原始验证集。因每折包含62个样本,故原始训练集包含248个样本,原始验证集包含62个样本。每一折的原始训练集和原始验证集的样本分布情况如表2所示,原始测试集的样本分布情况如表3所示。
表2 原始训练集与原始验证集样本分布情况
表3 原始测试集样本分布情况
S2:构建包括数据集离散化前后的信息损失、分类错误率和离散数据复杂程度的多目标函数。
本实施例中,所述多目标函数的表达式如下所示:
其中,表示最小化操作,/>表示数据集离散化前后的信息损失的目标函数,/>表示分类错误率的目标函数,/>表示离散数据复杂程度的目标函数,为原始大脑影像数据集中所有连续属性的离散区间数的集合,/>为第/>个连续属性的离散区间数,/>为原始大脑影像数据集中连续属性的个数。
本实施例中,所述数据集离散化前后的信息损失为数据集离散化前后属性的重要性排序的差异,数据集离散化前后的信息损失的目标函数如下所示:
其中,为归一化折损累计增益,用于衡量数据集离散化前后属性的重要性排序的差异。
可以理解的是,假设离散化前后数据集的属性的重要性保持不变,则离散化前后属性重要性排序就完全相同。但由于离散化前后同一属性在数据集中的属性相对重要性可能会发生改变,即离散化前后属性重要性排序会有所不同。本实施例通过计算离散化前后属性重要性排序的差异,用于评估离散化过程中的信息损失。
归一化折损累计增益的获取步骤具体包括:
计算出原始大脑影像数据集中所有连续属性的总体相关系数值;
根据所述原始大脑影像数据集中所有连续属性的总体相关系数值,构建原始大脑影像数据集中前k个连续属性的重要性排序的集合;其中表示原始大脑影像数据集中前/>个连续属性中的第/>个连续属性的重要性排名;
对原始大脑影像数据集进行离散化,并计算出经过离散化的大脑影像数据集中所有离散属性的总体相关系数值;
根据经过离散化的大脑影像数据集中所有离散属性的总体相关系数值,构建经过离散化的大脑影像数据集中前k个离散属性的重要性排序的集合,其中/>表示经过离散化的大脑影像数据集中前/>个离散属性中的第/>个离散属性的重要性排名;
分别计算原始大脑影像数据集前k个连续属性和经过离散化的大脑影像数据集中前k个离散属性的重要性排序的得分,其表达式如下所示:
其中,为原始大脑影像数据集中前k个连续属性的重要性排序的得分,为经过离散化的大脑影像数据集中前k个离散属性的重要性排序的得分;
根据原始大脑影像数据集前k个连续属性和经过离散化的大脑影像数据集中前k个离散属性的重要性排序的得分,计算归一化折损累计增益,其表达式如下所示:
本实施例中,总体相关系数值的计算步骤如下所示:
维的原始大脑影像数据集或经过离散化的大脑影像数据集进行标准化,得到标准化大脑影像数据集,其表达式如下所示:
其中,表示数据样本的数量,/>表示连续属性或离散属性的数量,/>为标准化大脑影像数据集,/>为原始大脑影像数据集或经过离散化的大脑影像数据集,/>为每一个元素都等于1的/>维矩阵,/>表示一个对角矩阵,对角元素/>表示第/>个连续属性或离散属性的标准差;
经标准化后的样本数据的相关矩阵就是样本协方差矩阵,设为样本相关矩阵:
计算原始大脑影像数据集或经过离散化的大脑影像数据集的样本相关矩阵,其表达式如下所示:
其中,为/>的转置;
对样本相关矩阵的特征值进行降序排序,得到特征序列/>,及所述特征序列对应的特征向量为/>
根据所述特征序列和特征向量,计算连续属性或离散属性的总体相关系数值,其表达式如下所示:
其中,为第/>个主成分,/>表示原始大脑影像数据集或经过离散化的大脑影像数据集中第j个连续属性或离散属性,/>为第/>个主成分的方差对总方差的贡献率,/>表示第j个特征向量的第i个元素,/>为第/>个连续属性或离散属性的方差。
本实施例中,根据所述原始大脑影像数据集中所有连续属性的总体相关系数值,构建原始大脑影像数据集中前k个连续属性的重要性排序的集合,具体的步骤包括:
对所述原始大脑影像数据集中所有连续属性的总体相关系数值进行离散化处理,得到离散化总体相关系数值;
根据所述离散化总体相关系数值,对原始大脑影像数据集中的连续属性按照其离散化总体相关系数值由大到小进行降序处理,得到连续属性降序序列;
对所述连续属性降序序列中每一个连续属性赋予整数分数数值,得到所有连续属性的重要性排序集合;其中连续属性对应离散化总体相关系数值越小,被赋予的分数数值越小,且当不同的连续属性对应的离散化总体相关系数值相同时,对所述不同的连续属性赋予相同的分数;
从所有连续属性的重要性排序集合中取前k个连续属性构建
根据经过离散化的大脑影像数据集中所有离散属性的总体相关系数值,构建经过离散化的大脑影像数据集中前k个离散属性的重要性排序的集合,具体的步骤包括:
根据经过离散化的大脑影像数据集中所有离散属性的总体相关系数值,对经过离散化的大脑影像数据集中的离散属性按照其总体相关系数值由大到小进行降序处理,得到离散属性降序序列;
对离散属性降序序列中的离散属性,赋予其在原始大脑影像数据集中所对应的连续属性一样的整数分数数值,得到所有离散属性的重要性排序集合
从所有离散属性的重要性排序集合中取前k个离散属性构建
本实施例中,分类错误率的目标函数的表达式如下所示:
其中,表示经过离散化的大脑影像数据集被应用在CART分类模型后,被错误分类的样本数在样本总数中所占的比例,/>表示对经过离散化的大脑影像数据集被应用在KNN分类器模型后,被错误分类的样本数在样本总数中所占的比例;
离散数据复杂程度的目标函数统计原始大脑影像数据集中离散区间数不为1的连续属性的离散区间数,其表达式如下所示:
可以理解的是,数据离散化结果越简单,说明离散化后的数据可以清晰地反映出数据的特征,并且具有很好的可读性和易理解性。此外,离散化方案的简单程度也会影响后续分类任务的执行速度。
S3:利用所述原始训练集和原始验证集对所述多目标函数的最优解进行搜索,得到离散化方案。
为了获得原始大脑影像数据集中每个属性所对应的最佳离散区间,通过将属性的离散区间数集合编码成进化多目标优化算法中的染色体,然后进行启发式搜索。本实施例利用非支配排序遗传算法NSGA-II对所述多目标函数进行启发式搜索,构建离散化方案,具体的步骤包括:
S3.1:初始化非支配排序遗传算法的种群和编码;其中,种群中每条染色体由原始大脑影像数据集中所有连续属性的离散区间数组成,所述编码为位置编码,所述位置编码中的第个基因表示第/>个连续属性的离散区间数;
S3.2:通过多目标函数对染色体个体进行评估,计算出种群中每条染色体的适应度值;
S3.3:根据所述适应度值,利用Pareto支配准则,将种群划分为若干不同层级的非支配层,并计算每个非支配层的染色体相对于位于同一层级的非支配层的相邻染色体的拥挤距离;所述若干不同层级的非支配层具有以下支配关系:第n层非支配层的解被前n-1层非支配层的解支配;
S3.4:根据非支配层的层级和拥挤距离筛选出条父代染色体,利用所述父代染色体创建交配池;
S3.5:对交配池内的父代染色体执行交叉和变异操作,并引入精英选择策略,得到大小为的子代染色体种群;
S3.6:迭代执行S3.4-S3.5,直至迭代次数达到阈值,得到多目标函数的最优解集;利用所述最优解集构建离散方案。
本实施例中,S3.4的具体步骤包括:
S3.4.1:对初始种群中的N条染色体中随机进行两两组合,产生N/2对候选染色体组合;
S3.4.2:在N/2对候选染色体组合中,执行以下操作,筛选出N/2条胜利者染色体:
(1)对于所有候选染色体组合,选择处于较低层级的非支配层的染色体作为胜利者染色体;
(2)当候选染色体组合中两条染色体所处的非支配层层级相同时,选择拥挤距离较大的染色体作为胜利者染色体;
(3)当候选染色体组合中两条染色体所处的非支配层层级和拥挤距离均相同时,随机选择一条染色体作为胜利者染色体;
S3.4.3:重复执行一次S3.4.1-S3.4.2,再次筛选出N/2条胜利者染色体,共得到N条胜利者染色体;
S3.4.4:将所述N条胜利者染色体设为父代染色体,利用所述父代染色体创建交配池。
S2.5:对交配池内的父代染色体执行交叉和变异操作,生成大小为的子代染色体种群。
本实施例中,S3.5的具体步骤包括:
S3.5.1:对交配池内的父代染色体执行交叉和变异操作,生成N条子代染色体;
S3.5.2:将生成的子代染色体与父代染色体组合一个新的候选种群;
S3.5.3:将新的候选种群中的染色体个体按照支配关系划分为若干不同层级的非支配层;
S3.5.4:在每个非支配层内,计算染色体个体的拥挤距离;
S3.5.5:根据非支配层的层级和拥挤距离选择N个染色体,得到大小为N的子代染色体种群。
S4:根据所述离散化方案分别对所述原始训练集、原始验证集和原始测试集进行离散化,得到离散训练集、离散验证集和离散测试集。
本实施例中,利用Lloyd-Max量化器对原始数据集进行离散化。
可以理解的是,Lloyd-Max量化器是在最小化原始连续值和离散值之间的均方误差的条件下,用有限的离散值来近似原始连续值。Lloyd-Max量化器的输入为原始数据集中的一个属性和原始数据集中该属性所对应的离散区间数,输出为切点及相应的离散值。
S5:对所述离散训练集和离散验证集进行特征选择,并利用特征选择结果,对所述离散训练集和所述离散测试集进行特征精简,得到精简离散训练集和精简离散测试集。具体包括以下步骤:
S5.1:计算离散训练集和离散验证集中每一列脑区特征的皮尔逊相关系数;
S5.2:对离散训练集和离散验证集中每一列脑区特征,根据其皮尔逊相关系数的绝对值大小进行降序排序,选择前b个特征作为关键脑区特征候选集;其中b为通过网格搜索确定的超参数;
S5.3:利用遗传算法在所述关键脑区特征候选集中进行特征选择,得到关键脑区特征集;
S5.4:利用所述关键脑区特征集分别对所述离散训练集和离散测试集进行特征精简,得到精简离散训练集和精简离散测试集。
本实施例中,为避免数据泄露问题,对原始训练集进行离散化,将得到的最优解集应用于原始验证集,选择原始验证集中分类准确率最高的解,作为离散化方案,并使用该离散化方案对每一折中的原始训练集和原始验证集及独立的原始测试集分别进行离散化。经过上述数据离散化操作处理后,分别得到五个不同的离散化训练集、离散验证集和离散测试集。然后结合具有特征选择的分类算法对处理得到的数据集进行分类。在上述具有特征选择的分类算法中,离散测试集用于测试最终的关键脑区特征集的分类效果(77个样本),离散训练集和离散验证集用于特征选择和训练分类器(310个样本),为避免分类实验时的数据泄露,没有测试集的数据被用于特征选择。
S6:利用所述精简离散训练集训练一个分类器,并将所述精简离散测试集输入训练好的分类器进行分类,得到大脑影像数据分类结果。
本实施例中,使用的分类器为SVM分类器,选用RBF核函数,惩罚系数=1.0。
在具体实施过程中,首先利用离散训练集和离散验证集(310个样本)的特征和标签计算出每一列特征的皮尔逊相关系数,对特征进行注意力加权,形成新的注意力数据集,并根据皮尔逊相关系数的绝对值对特征进行降序排序,使用网格搜索,确定候选特征个数,形成关键脑区特征候选集。然后利用遗传算法,根据离散训练集训练的SVM分类器在离散验证集上的平均分类准确率和特征长度来计算个体的适应度值,达到最大迭代次数后,得到利用遗传算法选择的关键脑区特征集。最后,使用该关键脑区特征集,对离散训练集及离散测试集分别进行特征约简,得到精简离散训练集和精简离散测试集。利用精简离散训练集训练SVM分类器和对精简离散测试集进行测试,最后对五折的结果取平均值,即为算法最后的分类结果。
表4 离散化前后数据在具有特征选择的大脑影像分类算法上的性能比较
经过十次五折交叉验证,在测试集上得到的ACC、AUC、F1指标如表4所示。相比直接使用原始大脑影像数据集结合具有特征选择的分类算法,使用离散化处理得到的大脑影像数据集可以获得更高的ACC、F1值。同时,通过分析关键特征集中这些特征所在的脑区,可以找出分类特征显著的脑区,有助于揭示出更有效而客观的脑区信息。
实施例三,
参阅图3,本实施例在实施例二提出的基于离散化数据的大脑影像分类方法的基础上,以UCI数据库中20个真实数据集为例,选择了Ameva、CACC、CAIM、ChiMerge、FUSINTER、HDD、Modified Chi2、MODL八个相关离散化算法,与实施例二所提及的离散化方案搜索方法(本实施例简称为AEMOD算法)进行对比实验,比较不同离散化算法对属性进行离散化后产生的切点数及在后续的CART、KNN、Naive Bayes、SVM四个经典分类模型上的分类准确率。其中Naive Bayes和SVM分类模型不包括在AEMOD算法的的目标函数中,以评估得到的离散化方案的泛化能力。同时,将AEMOD算法与另外一种进化多目标离散化算法MEMOD的实验结果进行比较,其中的实验部分使用了相同的UCI数据集、数据划分方式和分类模型(CART和Naive Bayes)。此外,为了进一步验证AEMOD算法的有效性,将不同离散化算法与目前最先进的GBDT算法CatBoost结合,并比较了离散化前后数据在CatBoost分类模型上的性能。
本实施例中,AEMOD算法使用MATLAB实现,作为对比的其它离散化算法(除MEMOD外)通过KEEL数据挖掘软件运行。在分类模型中,CatBoost使用开源实现,其余则使用Python中的sklearn包。为了获得更加稳定可靠的结果,本实施例采用分层十折交叉验证的方式对数据集进行划分,确保每一折数据与原始数据集有相同的类属性比例,按9:1的比例生成训练集和测试集。在每次实验中,对训练集进行离散化,将得到的离散化方案应用于测试集中。每种离散化算法分别进行10次实验,切点数和分类准确率均为10次实验的平均值。在实验过程中,具体的算法特征、数据集的特征、分类模型和离散化算法的参数设置如表5、表6和表7所示。
表5本发明与作为对比的其它离散化算法的特征
表6 UCI数据集的特征
表7 分类模型和各离散化算法的参数设置
表8 不同离散化算法得到的切点数
表9 不同离散化算法在CART分类模型上的分类准确率
表10 为不同离散化算法在Naive Bayes分类模型上的分类准确率
表11 不同离散化算法在KNN分类模型上的分类准确率
表12 不同离散化算法在SVM分类模型上的分类准确率
如表8-表12,及图4-图7所示,在切点数方面,尽管本发明所提出的AEMOD算法仅在2/20数据集上获得了最少的切点数,但是除MEMOD外,AEMOD算法在所有数据集上获得的平均切点数都要少于其他算法;在分类准确率方面,经过不同离散化算法处理后的数据集被分别应用到CART、Naive Bayes、KNN和SVM分类器后,AEMOD算法在14/20、11/20、14/20和17/20数据集上的分类准确率优于其他离散化算法,并且在所有数据集上的平均准确率是最高的(除Naive Bayes外),说明AEMOD算法可以得到泛化能力强的离散化方案。
表13 离散化前后不同数据集在CatBoost上的分类准确率
从表13可以看出,相比直接使用原始数据集,本发明所提出的AEMOD算法所得到的离散数据集在后续分类任务中的分类准确率有一定的提升。说明AEMOD算法通过在目标函数中加入衡量离散化前后属性重要性排序的差异的指标,尽可能地保留每个属性在离散化后的相对重要性,可以减少离散化过程中信息损失的影响。同时,由于在离散化过程中清除了异常数据带来的噪声,使得与连续属性相比更加有利于后续的分类。如图8所示,其为本实施例中离散化前后的不同数据集在CatBoost分类模型上的运行时间示意图,从图8可以看出,因为AEMOD算法所得到的离散数据集会更加简单,所以后续分类任务的执行速度也会更快。以上的实验结果及分析可以得出,AEMOD算法可以有效地划分连续数值属性,得到更有价值的切点,保留更多的数据信息,获得在准确性和简单性之间具有更好平衡的离散化方案。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列,现场可编程门阵列等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中,该程序在执行时包括方法实施例的步骤之一或其组合。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于离散化数据的大脑影像分类方法,其特征在于,包括:
S1:获取原始大脑影像数据集,并将所述原始大脑影像数据集划分为原始训练集、原始验证集和原始测试集;
S2:构建包括数据集离散化前后的信息损失、分类错误率和离散数据复杂程度的多目标函数;
S3:利用所述原始训练集和原始验证集对所述多目标函数的最优解进行搜索,得到离散化方案;
S4:根据所述离散化方案分别对所述原始训练集、原始验证集和原始测试集进行离散化,得到离散训练集、离散验证集和离散测试集;
S5:对所述离散训练集和离散验证集进行特征选择,并利用特征选择结果,对所述离散训练集和所述离散测试集进行特征精简,得到精简离散训练集和精简离散测试集;
S6:利用所述精简离散训练集训练一个分类器,并将所述精简离散测试集输入训练好的分类器进行分类,得到大脑影像数据分类结果;
其中,所述多目标函数的表达式如下所示:
其中,表示最小化操作,/>表示数据集离散化前后的信息损失的目标函数,/>表示分类错误率的目标函数,/>表示离散数据复杂程度的目标函数,为原始大脑影像数据集中所有连续属性的离散区间数的集合,/>为第/>个连续属性的离散区间数,/>为原始大脑影像数据集中连续属性的个数;
所述数据集离散化前后的信息损失为数据集离散化前后属性的重要性排序的差异,数据集离散化前后的信息损失的目标函数如下所示:
其中,为归一化折损累计增益,用于衡量数据集离散化前后属性的重要性排序的差异;
分类错误率的目标函数的表达式如下所示:
其中,表示经过离散化的大脑影像数据集被应用在CART分类模型后,被错误分类的样本数在样本总数中所占的比例,/>表示对经过离散化的大脑影像数据集被应用在KNN分类器模型后,被错误分类的样本数在样本总数中所占的比例;
离散数据复杂程度的目标函数统计原始大脑影像数据集中离散区间数不为1的连续属性的离散区间数,其表达式如下所示:
2.根据权利要求1所述的基于离散化数据的大脑影像分类方法,其特征在于,S5具体包括:
S5.1:计算离散训练集和离散验证集中每一列脑区特征的皮尔逊相关系数;
S5.2:对离散训练集和离散验证集中每一列脑区特征,根据其皮尔逊相关系数的绝对值大小进行降序排序,选择前b个特征作为关键脑区特征候选集;其中b为通过网格搜索确定的超参数;
S5.3:利用遗传算法在所述关键脑区特征候选集中进行特征选择,得到关键脑区特征集;
S5.4:利用所述关键脑区特征集分别对所述离散训练集和离散测试集进行特征精简,得到精简离散训练集和精简离散测试集。
3.根据权利要求2所述的基于离散化数据的大脑影像分类方法,其特征在于,所述关键脑区特征候选集包括:大脑皮层的表面面积、灰质体积、平均厚度、厚度标准差、积分校正平均曲率、积分校正高斯曲率、折叠指数和内在曲率指数。
4.根据权利要求1所述的基于离散化数据的大脑影像分类方法,其特征在于,所述数据集离散化前后的信息损失为数据集离散化前后属性的重要性排序的差异,
归一化折损累计增益的获取步骤具体包括:
计算出原始大脑影像数据集中所有连续属性的总体相关系数值;
根据所述原始大脑影像数据集中所有连续属性的总体相关系数值,构建原始大脑影像数据集中前k个连续属性的重要性排序的集合;其中/>表示原始大脑影像数据集中前/>个连续属性中的第/>个连续属性的重要性排名;
对原始大脑影像数据集进行离散化,并计算出经过离散化的大脑影像数据集中所有离散属性的总体相关系数值;
根据经过离散化的大脑影像数据集中所有离散属性的总体相关系数值,构建经过离散化的大脑影像数据集中前k个离散属性的重要性排序的集合,其中/>表示经过离散化的大脑影像数据集中前/>个离散属性中的第/>个离散属性的重要性排名;
分别计算原始大脑影像数据集前k个连续属性和经过离散化的大脑影像数据集中前k个离散属性的重要性排序的得分,其表达式如下所示:
其中,为原始大脑影像数据集中前k个连续属性的重要性排序的得分,/>为经过离散化的大脑影像数据集中前k个离散属性的重要性排序的得分;
根据原始大脑影像数据集前k个连续属性和经过离散化的大脑影像数据集中前k个离散属性的重要性排序的得分,计算归一化折损累计增益,其表达式如下所示:
5.根据权利要求4所述的基于离散化数据的大脑影像分类方法,其特征在于,总体相关系数值的计算步骤如下所示:
维的原始大脑影像数据集或经过离散化的大脑影像数据集进行标准化,得到标准化大脑影像数据集,其表达式如下所示:
其中,表示数据样本的数量,/>表示连续属性或离散属性的数量,/>为标准化大脑影像数据集,/>为原始大脑影像数据集或经过离散化的大脑影像数据集,/>为每一个元素都等于1的/>维矩阵,/>表示一个对角矩阵,对角元素/>表示第/>个连续属性或离散属性的标准差;
经标准化后的样本数据的相关矩阵就是样本协方差矩阵,设为样本相关矩阵:
计算原始大脑影像数据集或经过离散化的大脑影像数据集的样本相关矩阵,其表达式如下所示:
其中,为/>的转置;
对样本相关矩阵的特征值进行降序排序,得到特征序列/>,及所述特征序列对应的特征向量为/>
根据所述特征序列和特征向量,计算连续属性或离散属性的总体相关系数值,其表达式如下所示:
其中,为第/>个主成分,/>表示原始大脑影像数据集或经过离散化的大脑影像数据集中第j个连续属性或离散属性,/>为第/>个主成分的方差对总方差的贡献率,/>表示第j个特征向量的第i个元素,/>为第/>个连续属性或离散属性的方差。
6.根据权利要求4所述的基于离散化数据的大脑影像分类方法,其特征在于,根据所述原始大脑影像数据集中所有连续属性的总体相关系数值,构建原始大脑影像数据集中前k个连续属性的重要性排序的集合,具体的步骤包括:
对所述原始大脑影像数据集中所有连续属性的总体相关系数值进行离散化处理,得到离散化总体相关系数值;
根据所述离散化总体相关系数值,对原始大脑影像数据集中的连续属性按照其离散化总体相关系数值由大到小进行降序处理,得到连续属性降序序列;
对所述连续属性降序序列中每一个连续属性赋予整数分数数值,得到所有连续属性的重要性排序集合;其中连续属性对应离散化总体相关系数值越小,被赋予的分数数值越小,且当不同的连续属性对应的离散化总体相关系数值相同时,对所述不同的连续属性赋予相同的分数;
从所有连续属性的重要性排序集合中取前k个连续属性构建
根据经过离散化的大脑影像数据集中所有离散属性的总体相关系数值,构建经过离散化的大脑影像数据集中前k个离散属性的重要性排序的集合,具体的步骤包括:
根据经过离散化的大脑影像数据集中所有离散属性的总体相关系数值,对经过离散化的大脑影像数据集中的离散属性按照其总体相关系数值由大到小进行降序处理,得到离散属性降序序列;
对离散属性降序序列中的离散属性,赋予其在原始大脑影像数据集中所对应的连续属性一样的整数分数数值,得到所有离散属性的重要性排序集合
从所有离散属性的重要性排序集合中取前k个离散属性构建
7.根据权利要求1所述的基于离散化数据的大脑影像分类方法,其特征在于,利用非支配排序遗传算法NSGA-II对所述多目标函数的最优解进行启发式搜索,得到离散化方案,具体的步骤包括:
S3.1:初始化非支配排序遗传算法的种群和编码;其中,种群中每条染色体由原始大脑影像数据集中所有连续属性的离散区间数组成,所述编码为位置编码,所述位置编码中的第个基因表示第/>个连续属性的离散区间数;
S3.2:通过多目标函数对染色体个体进行评估,计算出种群中每条染色体的适应度值;
S3.3:根据所述适应度值,利用Pareto支配准则,将种群划分为若干不同层级的非支配层,并计算每个非支配层的染色体相对于位于同一层级的非支配层的相邻染色体的拥挤距离;所述若干不同层级的非支配层具有以下支配关系:第n层非支配层的解被前n-1层非支配层的解支配;
S3.4:根据非支配层的层级和拥挤距离筛选出条父代染色体,利用所述父代染色体创建交配池;
S3.5:对交配池内的父代染色体执行交叉和变异操作,并引入精英选择策略,得到大小为的子代染色体种群;
S3.6:迭代执行S3.4-S3.5,直至迭代次数达到阈值,得到多目标函数的最优解集;利用所述最优解集构建离散方案。
8.根据权利要求7所述的基于离散化数据的大脑影像分类方法,其特征在于,S3.4的具体步骤包括:
S3.4.1:对初始种群中的N条染色体中随机进行两两组合,产生N/2对候选染色体组合;
S3.4.2:在N/2对候选染色体组合中,执行以下操作,筛选出N/2条胜利者染色体:
(1)对于所有候选染色体组合,选择处于较低层级的非支配层的染色体作为胜利者染色体;
(2)当候选染色体组合中两条染色体所处的非支配层层级相同时,选择拥挤距离大的染色体作为胜利者染色体;
(3)当候选染色体组合中两条染色体所处的非支配层层级和拥挤距离均相同时,随机选择一条染色体作为胜利者染色体;
S3.4.3:重复执行一次S3.4.1-S3.4.2,再次筛选出N/2条胜利者染色体,共得到N条胜利者染色体;
S3.4.4:将所述N条胜利者染色体设为父代染色体,利用所述父代染色体创建交配池。
9.根据权利要求7所述的基于离散化数据的大脑影像分类方法,其特征在于,S3.5的具体步骤包括:
S3.5.1:对交配池内的父代染色体执行交叉和变异操作,生成N条子代染色体;
S3.5.2:将生成的子代染色体与父代染色体组合一个新的候选种群;
S3.5.3:将新的候选种群中的染色体个体按照支配关系划分为若干不同层级的非支配层;
S3.5.4:在每个非支配层内,计算染色体个体的拥挤距离;
S3.5.5:根据非支配层的层级和拥挤距离选择N个染色体,得到大小为N的子代染色体种群。
CN202310773717.9A 2023-06-28 2023-06-28 一种基于离散化数据的大脑影像分类方法 Active CN116563646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310773717.9A CN116563646B (zh) 2023-06-28 2023-06-28 一种基于离散化数据的大脑影像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310773717.9A CN116563646B (zh) 2023-06-28 2023-06-28 一种基于离散化数据的大脑影像分类方法

Publications (2)

Publication Number Publication Date
CN116563646A CN116563646A (zh) 2023-08-08
CN116563646B true CN116563646B (zh) 2023-10-13

Family

ID=87493203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310773717.9A Active CN116563646B (zh) 2023-06-28 2023-06-28 一种基于离散化数据的大脑影像分类方法

Country Status (1)

Country Link
CN (1) CN116563646B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288015A (zh) * 2020-10-30 2021-01-29 国网四川省电力公司电力科学研究院 基于边缘计算改进knn的配网电气拓扑识别方法及系统
CN115661546A (zh) * 2022-11-09 2023-01-31 西安电子科技大学 一种特征选择与分类器联合设计的多目标优化分类方法
WO2023104173A1 (zh) * 2021-12-09 2023-06-15 深圳先进技术研究院 基于人脑功能磁共振影像的自闭症分类器构建方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288015A (zh) * 2020-10-30 2021-01-29 国网四川省电力公司电力科学研究院 基于边缘计算改进knn的配网电气拓扑识别方法及系统
WO2023104173A1 (zh) * 2021-12-09 2023-06-15 深圳先进技术研究院 基于人脑功能磁共振影像的自闭症分类器构建方法及系统
CN115661546A (zh) * 2022-11-09 2023-01-31 西安电子科技大学 一种特征选择与分类器联合设计的多目标优化分类方法

Also Published As

Publication number Publication date
CN116563646A (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
Xie et al. Deep learning based analysis of histopathological images of breast cancer
Iftikhar et al. An evolution based hybrid approach for heart diseases classification and associated risk factors identification
Aziz et al. A novel approach for dimension reduction of microarray
Azmi et al. Interpretable regularized class association rules algorithm for classification in a categorical data space
Kumar et al. A benchmark to select data mining based classification algorithms for business intelligence and decision support systems
Geng et al. EARC: Evidential association rule-based classification
Chakradeo et al. Breast cancer recurrence prediction using machine learning
Meng et al. Classifier ensemble selection based on affinity propagation clustering
Ranalli et al. Mixture models for mixed-type data through a composite likelihood approach
Kluska et al. Extremely simple classifier based on fuzzy logic and gene expression programming
Sabeena et al. Optimization‐Based Ensemble Feature Selection Algorithm and Deep Learning Classifier for Parkinson’s Disease
Hornung et al. Prediction approaches for partly missing multi‐omics covariate data: A literature review and an empirical comparison study
Nimitha et al. An improved deep convolutional neural network architecture for chromosome abnormality detection using hybrid optimization model
Kumar et al. An Analysis of Ensemble Machine Learning Algorithms for Breast Cancer Detection: Performance and Generalization
Trajdos et al. A correction method of a binary classifier applied to multi-label pairwise models
KR101935094B1 (ko) 암유발 유전자를 식별하기 위한 컴퓨팅 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체
CN116563646B (zh) 一种基于离散化数据的大脑影像分类方法
Lorena et al. Evaluation of noise reduction techniques in the splice junction recognition problem
Kumar et al. Optimal feature subset selection method for improving classification accuracy of medical datasets
Evans Population-based ensemble learning with tree structures for classification
KR102025280B1 (ko) 다중 레이블 패턴 분류를 위한 특징 선택 방법 및 그 장치
Yazdani et al. Bounded fuzzy possibilistic method reveals information about lung cancer through analysis of metabolomics
Sherrod Predictive modelling software
Usha et al. Feature Selection Techniques in Learning Algorithms to Predict Truthful Data
Arputharaj et al. DEVELOPMENT OF HYBRID GENETIC DISCRETIZATION GENOMIC MODEL USING CORRELATION-BASED CLUSTERING TECHNIQUES.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant