CN116434950A - 基于数据分簇和集成学习的孤独症谱系障碍的诊断系统 - Google Patents
基于数据分簇和集成学习的孤独症谱系障碍的诊断系统 Download PDFInfo
- Publication number
- CN116434950A CN116434950A CN202310650820.4A CN202310650820A CN116434950A CN 116434950 A CN116434950 A CN 116434950A CN 202310650820 A CN202310650820 A CN 202310650820A CN 116434950 A CN116434950 A CN 116434950A
- Authority
- CN
- China
- Prior art keywords
- data
- autism spectrum
- spectrum disorder
- tested
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000029560 autism spectrum disease Diseases 0.000 title claims abstract description 47
- 238000003745 diagnosis Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 44
- 239000011159 matrix material Substances 0.000 claims abstract description 35
- 230000003925 brain function Effects 0.000 claims abstract description 28
- 230000009467 reduction Effects 0.000 claims abstract description 20
- 238000010276 construction Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 45
- 230000008569 process Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 10
- 238000003491 array Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 4
- 230000004886 head movement Effects 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 2
- 210000004556 brain Anatomy 0.000 abstract description 12
- 238000010801 machine learning Methods 0.000 abstract description 5
- 208000035478 Interatrial communication Diseases 0.000 description 29
- 206010003664 atrial septal defect Diseases 0.000 description 29
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 6
- 201000010099 disease Diseases 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000002595 magnetic resonance imaging Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 208000035475 disorder Diseases 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010003805 Autism Diseases 0.000 description 1
- 208000020706 Autistic disease Diseases 0.000 description 1
- 206010058314 Dysplasia Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 208000030251 communication disease Diseases 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013497 data interchange Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000002610 neuroimaging Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000003989 repetitive behavior Effects 0.000 description 1
- 208000013406 repetitive behavior Diseases 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000005257 unclassified method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/0033—Features or image-related aspects of imaging apparatus classified in A61B5/00, e.g. for MRI, optical tomography or impedance tomography apparatus; arrangements of imaging apparatus in a room
- A61B5/004—Features or image-related aspects of imaging apparatus classified in A61B5/00, e.g. for MRI, optical tomography or impedance tomography apparatus; arrangements of imaging apparatus in a room adapted for image acquisition of a particular organ or body part
- A61B5/0042—Features or image-related aspects of imaging apparatus classified in A61B5/00, e.g. for MRI, optical tomography or impedance tomography apparatus; arrangements of imaging apparatus in a room adapted for image acquisition of a particular organ or body part for the brain
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/05—Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves
- A61B5/055—Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves involving electronic [EMR] or nuclear [NMR] magnetic resonance, e.g. magnetic resonance imaging
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/40—Detecting, measuring or recording for evaluating the nervous system
- A61B5/4058—Detecting, measuring or recording for evaluating the nervous system for evaluating the central nervous system
- A61B5/4064—Evaluating the brain
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/7625—Hierarchical techniques, i.e. dividing or merging patterns to obtain a tree-like representation; Dendograms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Molecular Biology (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Biophysics (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Heart & Thoracic Surgery (AREA)
- Veterinary Medicine (AREA)
- Software Systems (AREA)
- Neurology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Radiology & Medical Imaging (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Physiology (AREA)
- Primary Health Care (AREA)
- Signal Processing (AREA)
- Psychiatry (AREA)
- High Energy & Nuclear Physics (AREA)
- Neurosurgery (AREA)
- Epidemiology (AREA)
- Psychology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Abstract
本发明属于脑影像领域和机器学习领域,为了解决现有技术存在数据量少、磁共振成像涉及参数较多及实施较复杂的问题,提供了基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其包括脑功能连接相关性矩阵构建模块,用于获取被试的单模态磁共振影像,构建被试的脑功能连接相关性矩阵;特征向量获取模块,用于基于信息熵对被试的脑功能连接相关性矩阵进行降维处理,获得被试的特征向量;孤独症谱系障碍诊断模块,用于基于诊断模型对被试的特征向量进行处理,得到最终诊断结果。本发明考虑了数据的个体异质性和中心异质性,有效地缓解了数据异质性对分类结果的影响,有助于提升模型诊断的准确率。
Description
技术领域
本发明属于脑影像领域和机器学习领域,尤其涉及一种基于数据分簇和集成学习的孤独症谱系障碍的诊断系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
孤独症谱系障碍(Autism Spectrum Disorder,ASD)是一种因脑发育异常导致的终身疾病,患者的主要表现为沟通障碍、社交障碍以及存在刻板性、重复性行为。该疾病在初期不易被察觉,且目前主流诊断依然基于行为观察、详细病史采集和精神评估。病情严重程度易受社会环境的影响,尽早地诊断和干预有助于疾病的治疗。因此,许多研究借助脑影像数据获取脑连接特征用于诊断ASD疾病,期待找到一些能应用于早期诊断的功能指标。
磁共振影像为探究人类大脑结构和功能提供了技术手段,研究者可以借助机器学习技术把大量磁共振影像数据作为数据集,训练出高效率的诊断模型进而能总结出可靠的影像学检查指标。但是磁共振影像数据易受采集机器型号、采集磁场强度和采集流程规范等客观因素的影响,导致数据集中不同采集中心的数据质量不同,即存在中心异质性。此外,ASD患者之间因为生活环境、年龄、智力、病情程度等个人因素不同,导致数据集中不同个体的数据质量不同,即存在个体异质性。异质性会影响机器学习的模型训练效果,从而影响人们对ASD的诊断和对发病原因的探索。
现阶段基于磁共振影像的ASD患者诊断的研究,主要聚焦于通过改进学习模型、引入新型优化方法、增加训练样本数据类型(多模态技术)来提升诊断模型的准确率,忽略了数据异质性对模型结果的影响。其余涉及到解决异质性问题的模型仅考虑通过借助机器学习技术学习磁共振扫描参数影响成像效果的规律来纠正数据从而提升数据质量,缓和数据异质性。但是该方法存在数据量少、磁共振成像涉及参数较多、实施较复杂的缺点。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其因考虑了数据的个体异质性和中心异质性,在模型训练开始前对数据集进行预处理,有效地缓解了数据异质性对分类结果的影响,有助于提升模型诊断的准确率。
为了实现上述目的,本发明采用如下技术方案:
一种基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其包括:
脑功能连接相关性矩阵构建模块,其用于获取被试的单模态磁共振影像,构建被试的脑功能连接相关性矩阵;
特征向量获取模块,其用于基于信息熵对被试的脑功能连接相关性矩阵进行降维处理,获得被试的特征向量;
孤独症谱系障碍诊断模块,其用于基于诊断模型对被试的特征向量进行处理,得到最终诊断结果;
其中,所述诊断模型包括同质基学习器和决策学习器;
同质基学习器的训练数据集构建过程为:将孤独症谱系障碍组和健康对照组的特征向量依次进行分布编码及结合空间距离分簇,再将分簇数据按照预设组合规则,组装成拥有孤独症谱系障碍组样本和健康对照组样本的数据子集;
决策学习器的训练数据集由同质基学习器输出的孤独症谱系障碍的概率值构建。
作为一种实施方式,在同质基学习器的训练数据集构建过程中,分布编码的过程为:
设定编码阈值,计算样本中每个位置数值和0差值的绝对值;
若绝对值大于编码阈值,则该位置编码为1;
若绝对值小于等于编码阈值,则该位置编码为0,最终每个样本获得一串多维的01编码。
作为一种实施方式,在同质基学习器的训练数据集构建过程中,对分布编码进行一次或多次池化操作。
作为一种实施方式,对分布编码进行一次或多次池化操作的过程为:
在每一次池化操作中设置一个预设宽度的滑动窗口,从编码串第一位开始进行预设步长的滑动操作;
根据0和1的数量,对孤独症谱系障碍组和健康对照组进行重新编码。
作为一种实施方式,所有池化操作完成之后将编码转成十进制数得到量化后的空间分布数值,空间分布数值越相近,则高相关性数据的空间分布越相似。
作为一种实施方式,结合空间距离使用层次聚类的方法对分布编码后的特征向量进行分簇。
作为一种实施方式,组装拥有孤独症谱系障碍组样本和健康对照组样本的数据子集的过程为:
以孤独症谱系障碍组中的每个簇为主簇;针对主簇之外的孤独症谱系障碍组簇按照取样总数为原主簇样本数的预设百分比进行随机采样;
使用分层随机采样方式对对照组中的各个簇分别采样后放进主簇中。
作为一种实施方式,在所述特征向量获取模块中,基于信息熵对被试的脑功能连接相关性矩阵进行降维处理的过程为:
每一个被试取严格上三角矩阵作为初始数据,然后将脑功能连接相关性矩阵从上到下遍历转换成一列多维向量;
将每个被试的列向量中相同位置的数值取出,组合成一个一维数组;
利用信息熵公式计算每个一维数组的熵值;
然后使用熵值对所有一维数组进行排序,取熵值最大的前预设数量的数组的下标作为第二轮降维后的数据采集索引;
最后将所有的特征向量按照数据采集索引进行取值降维,得到一个新的降维后的特征向量。
作为一种实施方式,在所述脑功能连接相关性矩阵构建模块中,构建被试的脑功能连接相关性矩阵之前,还包括:
对被试的单模态磁共振影像进行预处理。
作为一种实施方式,预处理流程包括:去时间点、头动及时间层矫正、空间标准化及平滑滤波。
与现有技术相比,本发明的有益效果是:
(1)本发明提出的基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,因考虑了数据的个体异质性和中心异质性,在模型训练开始前对数据集进行预处理,有效地缓解了数据异质性对分类结果的影响,有助于提升模型诊断的准确率。
(2)本发明因采用单模态数据,与多模态数据诊断技术相比有采集数据量少,经济负担小的优点。与目前的缓解数据异质性方法相比,从数据处理阶段而非数据采集阶段下手,不涉及磁共振设备的硬件知识和成像原理,操作实施更加简单。
(3)本发明在样本分簇步骤中引入新的相似度指标,该指标结合了数据值大小和数据空间分布两个部分,通过使用二进制编码与转换算法将数据空间分布信息量化成一个数值,在分簇标准上多纳入了空间信息,增加了参考维度,有利于提升分簇的准确性,更加贴切实际需要。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的一种基于数据分簇和集成学习的孤独症谱系障碍的诊断系统原理图;
图2为本发明实施例的基于信息熵的特征向量降维流程图;
图3为本发明实施例的基于多维相似度指标的样本分簇流程图;
图4为本发明实施例的组装数据子集流程图;
图5为本发明实施例的多模型训练与决策训练流程图;
图6为本发明实施例的二进制编码与转换算法示意图;
图7为本发明实施例的二进制编码与转换算法的池化原理图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
图1是本发明实施例的一种基于数据分簇和集成学习的孤独症谱系障碍的诊断系统原理图。基于上述原理图,本实施例提供了一种基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其包括:
(1)脑功能连接相关性矩阵构建模块,其用于获取被试的单模态磁共振影像,构建被试的脑功能连接相关性矩阵。
被试来源于孤独症影像数据交换数据库(ABIDE)等国际公开数据库,分别获取被试的单模态fMRI(磁共振影像)图像。
在具体实施过程中,在所述脑功能连接相关性矩阵构建模块中,构建被试的脑功能连接相关性矩阵之前,还包括:
对被试的单模态磁共振影像进行预处理。
其中,预处理流程包括:去时间点、头动及时间层矫正、空间标准化及平滑滤波。
此处需要说明的是,去时间点、头动及时间层矫正、空间标准化及平滑滤波这些预处理过程,均可采用现有的方法来实现,此处不再详述。
本实施例采用上述预处理操作,能够准确构建出被试的脑功能连接相关性矩阵,从而提高孤独症谱系障碍诊断结果的准确性。
首先对脑区进行定义:每个被试的fMRI数据采用CC-200脑图谱将大脑分割成200个脑区。每个脑区提取对应的平均时间序列。每两个脑区之间的时间序列根据Pearson相关性(皮尔逊相关性)公式计算相关值,最终将所有的相关值组成一个200×200的相关性矩阵。假设有n个被试数据,则在此步骤之后可获得n个相关性矩阵,记作M1……Mn。
(2)特征向量获取模块,其用于基于信息熵对被试的脑功能连接相关性矩阵进行降维处理,获得被试的特征向量。
在具体实施过程中,在所述特征向量获取模块中,如图2所示,基于信息熵对被试的脑功能连接相关性矩阵进行降维处理的过程为:
每一个被试取严格上三角矩阵作为初始数据,然后将脑功能连接相关性矩阵从上到下遍历转换成一列多维向量;
将每个被试的列向量中相同位置的数值取出,组合成一个一维数组;
利用信息熵公式计算每个一维数组的熵值;
然后使用熵值对所有一维数组进行排序,取熵值最大的前预设数量的数组的下标作为第二轮降维后的数据采集索引;
最后将所有的特征向量按照数据采集索引进行取值降维,得到一个新的降维后的特征向量。
例如:由于相关性矩阵具有对称性,首先每一个被试取严格上三角矩阵作为初始数据,然后将矩阵从上到下遍历转换成一列19900维向量。假设有n个被试,则在此步骤之后可获得n列19900维向量。记作V1……Vn。
为了实现降维的同时保证保留的数据对于ASD和对照组依然具有较好的区分能力,下一步将对相关性矩阵中的数据进行筛选,如图3所示。将每个被试的向量中相同位置的数值取出组合成一个一维数组,如将所有被试向量中的第一个数据取出组成一维数组L1,将所有被试向量中的第二个数据取出组成一维数组L2,以此类推直到取出最后一个一维数组L19900。由于每个数组中的数据来源于ASD和对照组,数据波动程度大证明该位置的数据对ASD的区分能力相对较强,数据波动程度小,证明该位置的ASD数据和对照组数据相似,进而表明该位置数据与波动大的位置数据相比对ASD区分能力不强。信息熵可以代表数据的混乱程度,熵值越大证明数据越混乱,数据波动程度越大。利用信息熵公式计算每个数组的熵值。然后使用熵值对所有数组进行排序,取熵值最大的前50%数组的下标作为第二轮降维后的数据采集索引。最后将所有的特征向量按照数据采集索引进行取值降维,得到一个新的9950维特征向量。假设有n个被试,则在此步骤之后可获得n个9950维特征向量,记作NV1……NVn。
(3)孤独症谱系障碍诊断模块,其用于基于诊断模型对被试的特征向量进行处理,得到最终诊断结果。
其中,所述诊断模型包括同质基学习器和决策学习器;
同质基学习器的训练数据集构建过程为:将孤独症谱系障碍组和健康对照组的特征向量依次进行分布编码及结合空间距离分簇,再将分簇数据按照预设组合规则,组装成拥有孤独症谱系障碍组样本和健康对照组样本的数据子集;
决策学习器的训练数据集由同质基学习器输出的孤独症谱系障碍的概率值构建。
本实施例将ASD和对照组按照标签分成两组:ASD组和对照组。
本实施例的聚类方法:与常用聚类方法不同,该方法聚类时除了考虑样本的欧式距离因素,还考虑空间分布因素。样本分簇使用的数据由空间距离(距离值)和量化后相关性空间分布特征值(分布编码)两部分组成。空间距离为两个样本之间的欧氏距离。分布编码体现了样本中高相关性数据的空间分布。
在一个或多个实施例中,如图6和图7所示,在同质基学习器的训练数据集构建过程中,分布编码的过程为:
设定编码阈值(如:α),计算样本中每个位置数值和0差值的绝对值;
若绝对值大于编码阈值,则该位置编码为1;
若绝对值小于等于编码阈值,则该位置编码为0,最终每个样本获得一串多维(如:9950维)的01编码。
其中,将高相关数据空间分布信息量化为一个数值。数值越接近的证明高相关数据空间分布信息越相似,聚类时将会参考划分到同一个簇中。为了缩短编码长度减轻计算和过滤掉每串编码中相对孤立的数据,根据实际编码长度和特点,对编码进行一次或多次池化操作。具体步骤为在每一次池化操作中设置一个宽度为X的滑动窗口,从编码串第一位开始进行步长为S的滑动操作,此处的X和S参数取值可以相同或不相同。每组中根据0和1的数量对该组重新编码。所有池化操作完成之后将编码转成十进制数得到量化后的空间分布数值,该数值越相近则高相关性数据的空间分布越相似。最后再结合欧式距离数值使用层次聚类的方法对样本进行聚类。
实现结果:将每个组中的向量使用层次聚类的方式进行聚类,选取各组最优聚类数Cma、Cmh(Cma与Cmh可以不相等),至此ASD组被分成Cma个簇,对照组被分成Cmh个簇。
其中,如图4所示,组装拥有孤独症谱系障碍组样本和健康对照组样本的数据子集的过程为:
以孤独症谱系障碍组中的每个簇为主簇;针对主簇之外的孤独症谱系障碍组簇按照取样总数为原主簇样本数的预设百分比进行随机采样;
使用分层随机采样方式对对照组中的各个簇分别采样后放进主簇中。
例如:
以ASD组中的每个簇为主簇,记目前该主簇的样本数为Nma,针对该主簇之外的ASD簇按照取样总数为原主簇样本数的30%(即Nma×30%)进行随机采样,此步骤是为了防止后期训练中出现过拟合问题。最后使用分层随机采样方式对对照组中的Cmh个簇分别采样后放进主簇中。此时需注意采样融合完成的主簇中ASD样本和对照样本的概率分布与S4步之前未分组的概率分布基本一致,因此对照组中每簇采样数量需按照原概率分布比例抽取。不同主簇之间的对照组抽取样本可以重复,即ASD主簇1抽取过的对照组样本可以被ASD主簇2再次抽取。将抽样融合完成的包含ASD被试和对照被试的主簇称为新的数据子集。在此步骤之后,可获得Cma个数据子集,记作D1……Dma。
如图5所示,在诊断模型训练的过程中,将Cma个数据子集分别划分给Cma个同质基学习器采用K折交叉验证方式进行同步训练。 每个基学习器的预测输出为是ASD的概率值。
所有基学习器训练完成后,总结各个学习器的评价指标。评价指标由两部分组成,一是平衡准确率,二是灵敏度。
将每个样本在每个基学习器中预测是ASD的概率值与该学习器的评价指标组成一列新的特征向量,如样本1在基学习器1预测是ASD的概率值0.8,平衡准确率为bacc1,灵敏度为spe1,基学习器2预测是ASD的概率值为0.35,平衡准确率为bacc2,灵敏度为spe2,基学习器Cma预测ASD的概率值0.98,平衡准确率为baccma,灵敏度为spema,然后将所有结果组成[0.8*bacc1*spe1,0.35*bacc2*spe2,……,0.98*baccma*spema]。假设有N个样本,则得到N个新的特征向量。将新得到的数据作为数据集训练一个新的决策学习器,将决策学习器的结果作为模型最终分类预测结果。
本实施例为了有效地解决目前ASD诊断模型在单模态下因数据异质性导致准确率不高的问题,更全面地探索ASD患者脑功能连接的异常及发病机制,提出的基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,利用单模态磁共振脑成像数据,从缓解数据异质性提升准确率的角度出发,融合数据聚类、特征提取、集成学习等方法,借助数据聚类方法在保证概率分布不变的前提下划分出若干数据子集,每个新子集代表一类潜在的ASD与对照的组合,与未分簇相比有效减少了ASD的潜在类型,进而缓和了数据的异质性。
此外,本实施例为了继续缓和数据异质性对分类结果的影响,在训练过程中采用集成学习的方式对新数据子集分别进行一对一训练,每个基学习器只针对一个数据子集进行特征提取和分类。对比未分类和未使用集成学习技术的方法可知,该方法可以最大程度保证数据特征的全面覆盖,提升分类准确率。
本领域内的技术人员应明白,本发明的实施例可提供为计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的 系统和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其特征在于,包括:
脑功能连接相关性矩阵构建模块,其用于获取被试的单模态磁共振影像,构建被试的脑功能连接相关性矩阵;
特征向量获取模块,其用于基于信息熵对被试的脑功能连接相关性矩阵进行降维处理,获得被试的特征向量;
孤独症谱系障碍诊断模块,其用于基于诊断模型对被试的特征向量进行处理,得到最终诊断结果;
其中,所述诊断模型包括同质基学习器和决策学习器;
同质基学习器的训练数据集构建过程为:将孤独症谱系障碍组和健康对照组的特征向量依次进行分布编码及结合空间距离分簇,再将分簇数据按照预设组合规则,组装成拥有孤独症谱系障碍组样本和健康对照组样本的数据子集;
决策学习器的训练数据集由同质基学习器输出的孤独症谱系障碍的概率值构建。
2.如权利要求1所述的基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其特征在于,在同质基学习器的训练数据集构建过程中,分布编码的过程为:
设定编码阈值,计算样本中每个位置数值和0差值的绝对值;
若绝对值大于编码阈值,则该位置编码为1;
若绝对值小于等于编码阈值,则该位置编码为0,最终每个样本获得一串多维的01编码。
3.如权利要求1或2所述的基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其特征在于,在同质基学习器的训练数据集构建过程中,对分布编码进行一次或多次池化操作。
4.如权利要求3所述的基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其特征在于,对分布编码进行一次或多次池化操作的过程为:
在每一次池化操作中设置一个预设宽度的滑动窗口,从编码串第一位开始进行预设步长的滑动操作;
根据0和1的数量,对孤独症谱系障碍组和健康对照组进行重新编码。
5.如权利要求4所述的基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其特征在于,所有池化操作完成之后将编码转成十进制数得到量化后的空间分布数值,空间分布数值越相近,则高相关性数据的空间分布越相似。
6.如权利要求1所述的基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其特征在于,结合空间距离使用层次聚类的方法对分布编码后的特征向量进行分簇。
7.如权利要求1所述的基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其特征在于,组装拥有孤独症谱系障碍组样本和健康对照组样本的数据子集的过程为:
以孤独症谱系障碍组中的每个簇为主簇;针对主簇之外的孤独症谱系障碍组簇按照取样总数为原主簇样本数的预设百分比进行随机采样;
使用分层随机采样方式对对照组中的各个簇分别采样后放进主簇中。
8.如权利要求1所述的基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其特征在于,在所述特征向量获取模块中,基于信息熵对被试的脑功能连接相关性矩阵进行降维处理的过程为:
每一个被试取严格上三角矩阵作为初始数据,然后将脑功能连接相关性矩阵从上到下遍历转换成一列多维向量;
将每个被试的列向量中相同位置的数值取出,组合成一个一维数组;
利用信息熵公式计算每个一维数组的熵值;
然后使用熵值对所有一维数组进行排序,取熵值最大的前预设数量的数组的下标作为第二轮降维后的数据采集索引;
最后将所有的特征向量按照数据采集索引进行取值降维,得到一个新的降维后的特征向量。
9.如权利要求1所述的基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其特征在于,在所述脑功能连接相关性矩阵构建模块中,构建被试的脑功能连接相关性矩阵之前,还包括:
对被试的单模态磁共振影像进行预处理。
10.如权利要求9所述的基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其特征在于,预处理流程包括:去时间点、头动及时间层矫正、空间标准化及平滑滤波。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310650820.4A CN116434950B (zh) | 2023-06-05 | 2023-06-05 | 基于数据分簇和集成学习的孤独症谱系障碍的诊断系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310650820.4A CN116434950B (zh) | 2023-06-05 | 2023-06-05 | 基于数据分簇和集成学习的孤独症谱系障碍的诊断系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116434950A true CN116434950A (zh) | 2023-07-14 |
CN116434950B CN116434950B (zh) | 2023-08-29 |
Family
ID=87089320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310650820.4A Active CN116434950B (zh) | 2023-06-05 | 2023-06-05 | 基于数据分簇和集成学习的孤独症谱系障碍的诊断系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116434950B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312971A (zh) * | 2023-11-29 | 2023-12-29 | 北京邮电大学 | 一种孤独症谱系障碍个体识别装置 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930862A (zh) * | 2016-04-13 | 2016-09-07 | 江南大学 | 一种基于密度自适应距离的密度峰聚类算法 |
CN106407363A (zh) * | 2016-09-08 | 2017-02-15 | 电子科技大学 | 一种基于信息熵的超高维数据降维算法 |
US20180268942A1 (en) * | 2016-12-06 | 2018-09-20 | Darmiyan, Inc. | Methods and systems for identifying brain disorders |
CN108921208A (zh) * | 2018-06-20 | 2018-11-30 | 天津大学 | 基于深度学习的不平衡数据的均衡采样及建模方法 |
CN111009321A (zh) * | 2019-08-14 | 2020-04-14 | 电子科技大学 | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 |
CN112434758A (zh) * | 2020-12-17 | 2021-03-02 | 浙江工业大学 | 基于聚类的联邦学习搭便车攻击防御方法 |
CN112734051A (zh) * | 2021-01-12 | 2021-04-30 | 西安邮电大学 | 一种针对分类问题的进化集成学习方法 |
CN112951413A (zh) * | 2021-03-22 | 2021-06-11 | 江苏大学 | 一种基于决策树和改进smote算法的哮喘病诊断系统 |
CN113614831A (zh) * | 2019-03-22 | 2021-11-05 | 英芙勒玛提克斯公司 | 用于从多个数据集导出和优化分类器的系统和方法 |
CN113962278A (zh) * | 2021-01-12 | 2022-01-21 | 大连理工大学 | 基于聚类的智能集成学习分类方法 |
US20220059190A1 (en) * | 2020-08-19 | 2022-02-24 | Tempus Labs, Inc. | Systems and Methods for Homogenization of Disparate Datasets |
CN114359577A (zh) * | 2021-12-22 | 2022-04-15 | 重庆理工大学 | 一种三维磁共振脑部图像分析方法及其应用 |
CN115005798A (zh) * | 2022-06-02 | 2022-09-06 | 四川大学 | 一种基于连边功能连接的脑影像特征提取方法 |
CN115204475A (zh) * | 2022-06-30 | 2022-10-18 | 云南省戒毒管理局 | 一种戒毒场所安全事件风险评估方法 |
CN115484864A (zh) * | 2020-04-06 | 2022-12-16 | 株式会社国际电气通信基础技术研究所 | 脑功能连接相关值的聚类装置、脑功能连接相关值的聚类系统、脑功能连接相关值的聚类方法、脑功能连接相关值的分类器程序、脑活动标记物分类系统以及脑功能连接相关值的聚类分类器模型 |
-
2023
- 2023-06-05 CN CN202310650820.4A patent/CN116434950B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930862A (zh) * | 2016-04-13 | 2016-09-07 | 江南大学 | 一种基于密度自适应距离的密度峰聚类算法 |
CN106407363A (zh) * | 2016-09-08 | 2017-02-15 | 电子科技大学 | 一种基于信息熵的超高维数据降维算法 |
US20180268942A1 (en) * | 2016-12-06 | 2018-09-20 | Darmiyan, Inc. | Methods and systems for identifying brain disorders |
CN108921208A (zh) * | 2018-06-20 | 2018-11-30 | 天津大学 | 基于深度学习的不平衡数据的均衡采样及建模方法 |
CN113614831A (zh) * | 2019-03-22 | 2021-11-05 | 英芙勒玛提克斯公司 | 用于从多个数据集导出和优化分类器的系统和方法 |
CN111009321A (zh) * | 2019-08-14 | 2020-04-14 | 电子科技大学 | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 |
CN115484864A (zh) * | 2020-04-06 | 2022-12-16 | 株式会社国际电气通信基础技术研究所 | 脑功能连接相关值的聚类装置、脑功能连接相关值的聚类系统、脑功能连接相关值的聚类方法、脑功能连接相关值的分类器程序、脑活动标记物分类系统以及脑功能连接相关值的聚类分类器模型 |
US20220059190A1 (en) * | 2020-08-19 | 2022-02-24 | Tempus Labs, Inc. | Systems and Methods for Homogenization of Disparate Datasets |
CN112434758A (zh) * | 2020-12-17 | 2021-03-02 | 浙江工业大学 | 基于聚类的联邦学习搭便车攻击防御方法 |
CN112734051A (zh) * | 2021-01-12 | 2021-04-30 | 西安邮电大学 | 一种针对分类问题的进化集成学习方法 |
CN113962278A (zh) * | 2021-01-12 | 2022-01-21 | 大连理工大学 | 基于聚类的智能集成学习分类方法 |
CN112951413A (zh) * | 2021-03-22 | 2021-06-11 | 江苏大学 | 一种基于决策树和改进smote算法的哮喘病诊断系统 |
CN114359577A (zh) * | 2021-12-22 | 2022-04-15 | 重庆理工大学 | 一种三维磁共振脑部图像分析方法及其应用 |
CN115005798A (zh) * | 2022-06-02 | 2022-09-06 | 四川大学 | 一种基于连边功能连接的脑影像特征提取方法 |
CN115204475A (zh) * | 2022-06-30 | 2022-10-18 | 云南省戒毒管理局 | 一种戒毒场所安全事件风险评估方法 |
Non-Patent Citations (1)
Title |
---|
PRADYUMNA LANKA: "Supervised machine learning for diagnostic classification from large-scale neuroimaging datasets", 《BRAIN IMAGING AND BEHAVIOR》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312971A (zh) * | 2023-11-29 | 2023-12-29 | 北京邮电大学 | 一种孤独症谱系障碍个体识别装置 |
CN117312971B (zh) * | 2023-11-29 | 2024-04-02 | 北京邮电大学 | 一种孤独症谱系障碍个体识别装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116434950B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | Global-local transformer for brain age estimation | |
JP7276915B2 (ja) | 脳機能地図のサル-ヒト種間移行に基づいて精神疾患の個別的予測を行う方法およびシステム | |
CN113314205B (zh) | 一种高效的医学影像标注与学习系统 | |
CN110236543B (zh) | 基于深度学习的阿尔茨海默病多分类诊断系统 | |
Wang et al. | Applications of generative adversarial networks in neuroimaging and clinical neuroscience | |
CN116434950B (zh) | 基于数据分簇和集成学习的孤独症谱系障碍的诊断系统 | |
Liu et al. | An enhanced multi-modal brain graph network for classifying neuropsychiatric disorders | |
CN112037179B (zh) | 一种脑疾病诊断模型的生成方法、系统及设备 | |
CN111938592B (zh) | 面向阿尔兹海默症诊断的有缺失多模态表示学习算法 | |
Zhang et al. | Integrative analysis of patient health records and neuroimages via memory-based graph convolutional network | |
WO2020154562A1 (en) | Method and system for automatic multiple lesion annotation of medical images | |
CN114748053A (zh) | 一种基于fMRI高维时间序列的信号分类方法及装置 | |
CN111179277B (zh) | 一种无监督自适应乳腺病变分割方法 | |
CN115496953A (zh) | 基于时空图卷积的脑网络分类方法 | |
Pan et al. | Multi-classification prediction of Alzheimer’s disease based on fusing multi-modal features | |
Yan et al. | Improving brain dysfunction prediction by gan: A functional-connectivity generator approach | |
CN110569880A (zh) | 一种利用人工神经网络模型对视觉刺激解码方法 | |
CN114190884B (zh) | 一种脑疾病数据的纵向分析方法、系统及装置 | |
CN113171075B (zh) | 基于深度生成模型的神经退行性疾病脑影像生成预测方法 | |
CN114983341A (zh) | 基于多模态特征融合的阿尔茨海默病多分类预测系统 | |
CN115063351A (zh) | 一种基于深度学习的胎儿mri脑组织分割方法及装置 | |
CN114926396A (zh) | 一种精神障碍类磁共振图像初步筛查模型构建方法 | |
CN114287910A (zh) | 一种基于多阶段图卷积融合的脑功能连接分类方法 | |
Mathew et al. | Deep convolutional neural network with transfer learning for automatic brain tumor detection from MRI | |
Guan et al. | Attention-guided autoencoder for automated progression prediction of subjective cognitive decline with structural MRI |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |