CN117312971B - 一种孤独症谱系障碍个体识别装置 - Google Patents

一种孤独症谱系障碍个体识别装置 Download PDF

Info

Publication number
CN117312971B
CN117312971B CN202311610236.2A CN202311610236A CN117312971B CN 117312971 B CN117312971 B CN 117312971B CN 202311610236 A CN202311610236 A CN 202311610236A CN 117312971 B CN117312971 B CN 117312971B
Authority
CN
China
Prior art keywords
data
center
tested
data set
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311610236.2A
Other languages
English (en)
Other versions
CN117312971A (zh
Inventor
仲苏玉
兰敏
苏禹巍
张校语
魏珑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202311610236.2A priority Critical patent/CN117312971B/zh
Publication of CN117312971A publication Critical patent/CN117312971A/zh
Application granted granted Critical
Publication of CN117312971B publication Critical patent/CN117312971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/70ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Developmental Disabilities (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Complex Calculations (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

本发明提供一种孤独症谱系障碍个体识别装置,其中分类识别处理模块所装载的孤独症谱系障碍个体识别模型,在预分类过程中对训练数据区分易分类个体和难分类个体,利用难分类个体添加高斯噪声生成新数据进行数据增强,数据增强过程中对数据分布特征建立约束,一方面要求新被试数据相对同类标签易分类个体中心距离接近,相对异类标签易分类个体中心距离较远,另一方面,要求新被试数据加入后,易分类个体中健康个体组和ASD组内各被试数据到数据中心的平均距离与原始状态的偏差符合设定范围。利用增强后的数据对模型进行参数微调优化,提升了模型对ASD个体的识别准确度和泛化能力。

Description

一种孤独症谱系障碍个体识别装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种孤独症谱系障碍个体识别装置。
背景技术
孤独症谱系障碍 (Autism Spectrum Disorder, ASD) 是一种较为严重的神经发育障碍性疾病,以语言交流异常、社会交往能力异常、重复及/或刻板行为模式为主要临床表现。目前,ASD患病率已达到1:54。ASD不仅会对患者的健康发展造成影响,还会给家庭和社会带来巨大压力。然而,截至目前,人们仍未探明ASD的具体成因,缺乏明确的生物标记物,医生通常只能通过对患者行为、心理和发育情况进行长期观察来做出诊断,具有较大的不确定性与滞后性。因此,寻找一种快速、有效的ASD诊断方法,有助于缩短诊断延迟,提高诊断精度,使患者及时得到治疗与帮助。
随着人工智能的高速发展与医学数据的持续扩增,人们开始探索使用神经影像数据、表型数据等医学数据,并利用智能算法对ASD进行诊断。从简单的机器学习(如支持向量机、随机森林等)到复杂的深度学习(如神经网络等),这些数据驱动方法都面临一个共同的问题:数据量的不足。数据增强是一种最常用的扩充数据样本规模的方法。它利用先验知识,基于有限数据生成更多的相似数据,从而扩大数据集,并提高数据集的多样性,有助于提高分类模型的性能。
目前,在使用数据增强的ASD识别研究中,绝大部分都是对数据集进行统一的数据增强,忽略了数据集分布的不平衡性,包括但不限于ASD疾病的高异质性有关的亚型分布不平衡性,这种亚型分布的不平衡性可能是导致模型对该亚型识别准确率低的原因。因此常规的无条件的数据增强算法由于缺乏针对性补充数据的能力,导致数据增强后模型识别能力的提升并不显著。此外,现有的用于提升个体识别能力的数据增强算法,往往只对新生成数据的数量及类别比例有约束,忽略了对生成数据分布的约束。缺少数据分布约束的数据增强算法会导致生成数据集分布脱离实际数据,过于分散或聚集,限制了数据增强对模型识别能力和泛化能力的提升能力。因此需要一种有约束的条件数据增强方法对数据进行扩充,从而提高模型对ASD个体的识别能力。
发明内容
鉴于此,本发明实施例提供了一种孤独症谱系障碍个体识别装置,以消除或改善现有技术中存在的一个或更多个缺陷,以解决现有技术忽略数据集分布不平衡性且对数据增强产生的新数据缺少分布约束的问题。
本发明提供一种孤独症谱系障碍个体识别装置,所述装置包括:
核磁共振成像设备用于采集待测用户的待测fMRI数据,并基于所述待测fMRI数据和分区图谱提取各脑区的待测BOLD信号时间序列数据,对两两脑区的所述待测BOLD信号时间序列数据做相关性强度计算,得到每个被试的待测功能连接网络,取所述待测功能连接网络的上三角元素并向量化作为该被试的待识别特征向量;分类识别处理模块,所述分类识别处理模块预装载孤独症谱系障碍个体识别模型,所述孤独症谱系障碍个体识别模型以所述待测用户的所述待识别特征向量为输入,并输出孤独症谱系障碍个体分类识别结果;
其中,所述孤独症谱系障碍个体识别模型的预训练步骤包括:
获取第一训练数据集,所述第一训练数据集包括多个被试数据,所述被试数据是针对健康被试或孤独症谱系障碍被试对应fMRI数据的各脑区BOLD信号时间序列数据,对两两脑区的所述BOLD信号时间序列数据做相关性强度计算,得到每个被试的功能连接网络,取功能连接网络的上三角元素并向量化作为该被试的特征向量,每个被试数据添加该被试属于健康或孤独症谱系障碍的标签;
获取预训练的初始分类模型,用所述初始分类模型对所述第一训练数据集中的每个被试进行多次分类,将分类正确率大于等于设定阈值的标记为易分类个体,将分类正确率小于设定阈值的标记为难分类个体;将所述易分类个体中的健康被试数据归为第一数据集合,将所述易分类个体中的孤独症谱系障碍被试数据归为第二数据集合;将所述难分类个体对应的被试数据归为第三数据集合;基于第一预设算法计算所述第一数据集合的第一中心以及所述第二数据集合的第二中心,以代表其平均水平;以及计算所述第一数据集合中所有被试数据距离所述第一中心的第一平均距离,计算所述第二数据集合中所有被试数据距离所述第二中心的第二平均距离;
在设定约束条件下,对所述第三数据集合中的每个被试的特征向量,添加具有设定缩放系数的高斯噪声以生成新被试数据,将所述第三数据集合添加噪声后的新被试数据按照原始被试标签加入所述第一数据集合或所述第二数据集合,使所述第一数据集合和所述第二数据集合中的新旧被试数量一致,实现数据增强;所述设定约束条件为,令所述第一中心或所述第二中心中与所述新被试数据标签相同的为同类中心,令所述第一中心或所述第二中心中与所述新被试数据标签不同的为异类中心,所述新被试数据与所述同类中心的距离小于所述新被试数据与所述异类中心的距离;以及,在所述新被试数据按照标签类别并入所述第一数据集合或所述第二数据集合后,基于所述第一预设算法重新计算合并后所述第一数据集合的第三中心,计算合并后所述第一数据集中所有被试数据与所述第三中心的第三平均距离,要求所述第三平均距离与所述第一平均距离的偏差符合第一设定范围;或,基于所述第一预设算法重新计算合并后所述第二数据集合的第四中心,计算合并后所述第二数据集中所有被试数据与所述第四中心的第四平均距离,要求所述第四平均距离与所述第二平均距离的偏差符合第二设定范围;
利用数据增强后的所述第一数据集合和所述第二数据集合构建第二训练数据集,利用所述第二训练数据集对所述初始分类模型进行训练,对参数进行微调优化得到所述孤独症谱系障碍个体识别模型。
在一些实施例中,所述初始分类模型为支持向量机。
在一些实施例中,基于第一预设算法计算所述第一数据集合的第一中心以及所述第二数据集合的第二中心,包括:
采用动态时间规划重心平均算法计算所述第一数据集合的第一中心以及所述第二数据集合的第二中心;
计算所述第一数据集合中所有被试数据距离所述第一中心的第一平均距离,计算所述第二数据集合中所有被试数据距离所述第二中心的第二平均距离中,采用动态时间规整距离进行计算。
在一些实施例中,添加具有设定缩放系数的高斯噪声以生成新被试数据,表达式为:
其中,bnew表示添加高斯噪声后的新被试数据,b为所述第三数据集合中的原始数据,β表示缩放系数,X为随机变量,表示X服从均值为0,标准差为1的正态分布。
在一些实施例中,所述孤独症谱系障碍个体识别模型的预训练步骤还包括:
将所述第一训练数据集按照设定比例划分为训练集和测试集,所述训练集用于进行数据增强构建所述第二训练数据集对所述孤独症谱系障碍个体识别模型进行参数微调优化,所述测试集用于对所述孤独症谱系障碍个体识别模型进行最终测试。
在一些实施例中,所述第一训练数据集采用ABIDE I数据集,并对每个被试的fMRI数据选择CC200分区图谱划分脑区并提取BOLD信号时间序列数据。
在一些实施例中,所述装置还包括:对两两脑区的所述BOLD信号时间序列数据做Pearson相关计算得到每个被试的功能连接网络。
在一些实施例中,所述约束条件中,令所述第一中心或所述第二中心中与所述新被试数据标签相同的为同类中心,令所述第一中心或所述第二中心中与所述新被试数据标签不同的为异类中心,所述新被试数据与所述同类中心的距离小于所述新被试数据与所述异类中心的距离,表达式为:
其中,d表示动态时间规整距离,bnew表示添加高斯噪声后的新被试数据,表示所述第二中心,/>表示所述第一中心;ASD表示孤独症谱系障碍个体,HC表示健康个体。
在一些实施例中,所述约束条件中,在所述新被试数据按照标签类别并入所述第一数据集合或所述第二数据集合后,基于所述第一预设算法重新计算合并后所述第一数据集合的第三中心,计算合并后所述第一数据集中所有被试数据与所述第三中心的第三平均距离,要求所述第三平均距离与所述第一平均距离的偏差符合第一设定范围;或,基于所述第一预设算法重新计算合并后所述第二数据集合的第四中心,计算合并后所述第二数据集中所有被试数据与所述第四中心的第四平均距离,要求所述第四平均距离与所述第二平均距离的偏差符合第二设定范围,表达式为:
其中,N1表示在所述新被试数据按照标签类别并入后所述第一数据集合后的被试数,N2表示在所述新被试数据按照标签类别并入后所述第二数据集合后的被试数;表示初始状态下所述第一数据集合中各被试数据与所述第一中心的平均距离,/>表示初始状态下所述第二数据集合中各被试数据与所述第二中心的平均距离;bnew表示添加高斯噪声后的新被试数据,An表示并入所述新被试数据后所述第二数据集合中的被试数据,Cn表示并入所述新被试数据后所述第一数据集合中的被试数据,ASD表示孤独症谱系障碍个体,HC表示健康个体;/>表示所述第二中心,/>表示所述第一中心。
在一些实施例中,所述设定阈值为80%。
本发明的有益效果至少是:
本发明所述孤独症谱系障碍个体识别装置中,分类识别处理模块所装载的孤独症谱系障碍个体识别模型,在训练过程中对训练数据区分易分类个体和难分类个体,利用难分类个体添加高斯噪声生成新数据进行数据增强规模扩充,扩充过程中通过对数据分布特征建立约束,一方面要求新数据相对同类标签易分类个体中心距离接近,相对异类标签易分类个体中心距离较远,另一方面,要求新数据加入后,易分类个体中健康个体组和ASD组内各被试数据到数据中心的平均距离与原始状态的偏差符合设定范围。利用增强后的数据对模型进行参数微调优化,提升了模型对ASD个体的识别准确度和泛化能力。
本发明的附加优点、目的,以及特征将在下面的描述中部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例所述孤独症谱系障碍个体识别装置的结构示意图。
图2为本发明一实施例对用于训练孤独症谱系障碍个体识别模型的数据进行数据增强的流程示意图。
图3为本发明一实施例对用于训练孤独症谱系障碍个体识别模型进行训练的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
随着人工智能的快速发展,大量智能算法被引用通过数据分析辅助对病症的判断,但是在对用于识别病症的功能模型进行训练时,由于隐私保护和采集难度等原因,通常会存在数据量不足的问题,所以数据增强和规模扩充成为必要辅助手段。但是现有技术中,数据增强常常忽略数据分布的不平衡性,包括但不限于在进行ASD个体识别时,与ASD疾病的高异质性有关的亚型分布不平衡性,这种亚型分布的不平衡性可能导致模型对该亚型识别准确率低,并且现有技术常常忽略对生成数据的分布进行约束,使生成的数据分布脱离实际数据,过于分散或聚集。
本发明提供一种孤独症谱系障碍个体识别装置,其所装载和采用的孤独症谱系障碍个体识别模型在训练形成过程中,引入了基于对比学习和条件数据增强的数据增强方案。具体的,如图1所示,所述孤独症谱系障碍个体识别装置包括:核磁共振成像设备和分类识别处理模块。
核磁共振成像设备用于采集待测用户的待测fMRI数据,并基于所述待测fMRI数据和分区图谱提取各脑区的待测BOLD信号时间序列数据,对两两脑区的所述待测BOLD信号时间序列数据做相关性强度计算,得到每个被试的待测功能连接网络,取所述待测功能连接网络的上三角元素并向量化作为该被试的待识别特征向量;
分类识别处理模块,所述分类识别处理模块预装载孤独症谱系障碍个体识别模型,所述孤独症谱系障碍个体识别模型以所述待测用户的所述待识别特征向量为输入,并输出孤独症谱系障碍个体分类识别结果;
其中,参照图2和图3所示,孤独症谱系障碍个体识别模型的数据增强步骤包括步骤S101~S104:
步骤S101:获取第一训练数据集,第一训练数据集包括多个被试数据,被试数据是针对健康被试或孤独症谱系障碍被试对应fMRI数据的各脑区BOLD信号时间序列数据,对两两脑区的BOLD信号时间序列数据做相关性强度计算,得到每个被试的功能连接网络,取功能连接网络的上三角元素并向量化作为该被试的特征向量,每个被试数据添加该被试属于健康或孤独症谱系障碍的标签。
步骤S102:获取预训练的初始分类模型,用初始分类模型对第一训练数据集中的每个被试进行多次分类,将分类正确率大于等于设定阈值的标记为易分类个体,将分类正确率小于设定阈值的标记为难分类个体;将易分类个体中的健康被试数据归为第一数据集合,将易分类个体中的孤独症谱系障碍被试数据归为第二数据集合;将难分类个体对应的被试数据归为第三数据集合;基于第一预设算法计算第一数据集合的第一中心以及第二数据集合的第二中心,以代表其平均水平;以及计算第一数据集合中所有被试数据距离所述第一中心的第一平均距离,计算第二数据集合中所有被试数据距离第二中心的第二平均距离。
步骤S103:在设定约束条件下,对第三数据集合中的每个被试的特征向量,按照添加具有设定缩放系数的高斯噪声以生成新被试数据,将第三数据集合添加噪声后的新被试数据按照原始被试标签加入第一数据集合或第二数据集合,使第一数据集合和第二数据集合中的新旧被试数量一致,实现数据增强;设定约束条件为,令第一中心或第二中心中与新被试数据标签相同的为同类中心,令第一中心或第二中心中与新被试数据标签不同的为异类中心,新被试数据与同类中心的距离小于新被试数据与异类中心的距离;以及,在新被试数据按照标签类别并入第一数据集合或第二数据集合后,基于第一预设算法重新计算合并后第一数据集合的第三中心,计算合并后第一数据集中所有被试数据与第三中心的第三平均距离,要求第三平均距离与第一平均距离的偏差符合第一设定范围;或,基于第一预设算法重新计算合并后第二数据集合的第四中心,计算合并后第二数据集中所有被试数据与第四中心的第四平均距离,要求第四平均距离与第二平均距离的偏差符合第二设定范围。
步骤S104:利用数据增强后的第一数据集合和第二数据集合构建第二训练数据集,利用第二训练数据集对初始分类模型进行训练,对参数进行微调优化得到孤独症谱系障碍个体识别模型。
在步骤S101中,fMRI(functional magnetic resonance imaging)数据是一种非侵入性的神经影像学技术,通过测量脑血流变化来反映大脑在特定任务或状态下的活动程度。通过fMRI技术可以非常详细地观察大脑区域的功能活动,对神经科学、心理学等领域的研究有着重要的意义。fMRI数据一般采用图像文件的形式保存,每个图像代表了一个时间点上的脑血流情况,可以通过数据分析方法进一步得到有关特定任务或状态下不同脑区间的相互作用和信息传递的信息。本发明采用核磁共振成像设备采集待测fMRI数据,用于训练的第一训练数据集是基于ABIDE I(Autism Brain Imaging Data Exchange I)数据集产生的,对每个被试的fMRI数据选择CC200分区图谱划分的BOLD信号时间序列数据,并对两两脑区的BOLD信号时间序列数据之间做Pearson相关计算得到每个被试的功能连接网络,取功能连接网络的上三角元素并向量化作为该被试的特征向量,该特征向量作为训练孤独症谱系障碍个体识别模型的输入。样本的标签包括两类,即健康个体和孤独症谱系障碍个体。
步骤S102中,初始分类模型可以采用支持向量机、决策树、随机森林、逻辑回归模型和神经网络模型等,初始分类模型可以采用通用的数据进行预训练。在一些实施例中,初始分类模型为支持向量机。
步骤S102~S104是对初始分类模型的优化操作。具体逻辑是,首先通过分类模型的识别成功率区分易分类个体和难分类个体,用于区分的设定阈值可以为80%。对难分类个体添加高斯噪声形成新被试数据,保留其数据分布的特征,实现针对性补充数据的能力,同时建立约束平衡新数据与易分类个体中数据分布的差异,提升最终训练得到的模型的性能。
具体的,易分类个体按照标签分为被试健康的第一数据集合和被试属于孤独症谱系障碍个体的第二数据集合。对于属于难分类个体的数据,添加高斯噪声形成新被试数据,新被试数据的标签与原数据一致。在一些实施例中,添加具有设定缩放系数的高斯噪声以生成新被试数据,表达式为:
其中,bnew表示添加高斯噪声后的新被试数据,b为第三数据集合中的原始数据,β表示缩放系数,X为随机变量,表示X服从均值为0,标准差为1的正态分布。
在这个过程中,建立约束条件,首先保证新被试数据与易分类个体中同类数据的中心接近,与不同类数据的中心较远。同时要求,合并形成新数据集后,新数据距离数据中心的平均距离,相比于原始状态偏差不能超过设定范围。
具体的,约束条件中,令第一中心或第二中心中与新被试数据标签相同的为同类中心,令第一中心或第二中心中与新被试数据标签不同的为异类中心,新被试数据与同类中心的距离小于新被试数据与异类中心的距离,表达式为:
其中,d表示DTW距离,bnew表示添加高斯噪声后的新被试数据,表示第二中心,/>表示第一中心;ASD表示孤独症谱系障碍个体,HC表示健康个体。
在一些实施例中,约束条件中,在新被试数据按照标签类别并入第一数据集合或第二数据集合后,基于第一预设算法重新计算合并后第一数据集合的第三中心,计算合并后第一数据集中所有被试数据与第三中心的第三平均距离,要求第三平均距离与第一平均距离的偏差符合第一设定范围;或,基于第一预设算法重新计算合并后第二数据集合的第四中心,计算合并后第二数据集中所有被试数据与第四中心的第四平均距离,要求第四平均距离与第二平均距离的偏差符合第二设定范围,表达式为:
其中,N1表示在新被试数据按照标签类别并入后第一数据集合后的被试数,N2表示在新被试数据按照标签类别并入后第二数据集合后的被试数;表示初始状态下第一数据集合中各被试数据与第一中心的平均距离,/>表示初始状态下第二数据集合中各被试数据与第二中心的平均距离;bnew表示添加高斯噪声后的新被试数据,An表示并入新被试数据后第二数据集合中的被试数据,Cn表示并入新被试数据后第一数据集合中的被试数据,ASD表示孤独症谱系障碍个体,HC表示健康个体;/>表示第二中心,/>表示第一中心。
基于上述约束,形成的新被试数据合并至第一数据集合和第二数据集合,并构建第二训练数据集。利用第二训练数据集对初始分类模型进行训练,对参数进行微调优化得到孤独症谱系障碍个体识别模型。
在一些实施例中,步骤S102中,基于第一预设算法计算第一数据集合的第一中心以及第二数据集合的第二中心,包括:
步骤S1021:采用动态时间规整重心平均算法计算第一数据集合的第一中心以及第二数据集合的第二中心。
步骤S1022:计算第一数据集合中所有被试数据距离第一中心的第一平均距离,计算第二数据集合中所有被试数据距离第二中心的第二平均距离中,采用动态时间规整距离进行计算。
在一些实施例中,所述孤独症谱系障碍个体识别模型的预训练步骤还包括:将第一训练数据集按照设定比例划分为训练集和测试集,训练集用于进行数据增强构建第二训练数据集对所述孤独症谱系障碍个体识别模型进行参数微调优化,测试集用于对所述孤独症谱系障碍个体识别模型进行最终测试。训练集和测试集的比例可以为8:2。
下面结合一具体实施例对本发明进行说明:
如图3所示,本发明实施例中的一种基于对比学习和条件数据增强的ASD个体识别优化方法,包括如下步骤:
S1:划分数据集及预分类:
将数据集按8:2的比例划分为训练集与测试集,利用预训练SVM分类器(也可利用训练集自行训练)对训练集进行100次分类。数据集采用ABIDE I(Autism Brain ImagingData Exchange I)数据集,共1112个被试,其中ASD被试539名,健康对照组573名。获取被试的fMRI数据并对其进行特征提取作为预训练SVM的输入。具体特征提取过程为:针对每个被试,首先选择CC200分区图谱划分的BOLD信号时间序列数据,然后两两脑区时间序列之间做Pearson相关,得到每个被试的功能连接网络,最后取功能连接网络的上三角元素并向量化作为该被试的特征向量,即预训练SVM的输入。
S2:确定易分类个体与难分类个体:
对S1得到的100次分类结果,统计每个被试的分类正确概率(即分类正确次数/100),设定80%为阈值,分类正确概率大于等于80%的被试为易分类个体,反之,为难分类个体。
S3:进行对比数据分类:
设易分类个体中ASD数据集合为A,易分类个体中健康个体(HC)数据集合为C,难分类个体数据集合为B。基于动态时间规整重心平均算法(DBA)分别计算当前集合A和C的中心和/>,代表相应集合数据的平均水平。
S4:基于S3数据分类,针对难分类个体提出一种对比数据增强算法:
401:从B中随机挑选一个被试b,采用添加高斯噪声的方式生成新数据bnew
其中,bnew表示添加高斯噪声后的新被试数据,b为第三数据集合中的原始数据,β表示缩放系数,用于控制噪声的强度,设置为10,X为随机变量,表示X服从均值为0,标准差为1的正态分布。新数据bnew的类别标签与b保持一致;
402:检查新生成数据bnew是否满足约束条件:根据对比学习的思想,需要控制同类之间的距离小于不同类之间的距离,因此约束条件1为:
其中,d表示动态时间规整距离,bnew表示添加高斯噪声后的新被试数据,表示第二中心,/>表示第一中心;ASD表示孤独症谱系障碍个体,HC表示健康个体。约束条件1只控制了类别之间的区分度,还需要控制数据增强后类别内部的分布,不能过于分散,也不能过于聚集,因此假设先将bnew根据标签纳入集合A或C,再重新计算其中心/>和/>,则需要满足约束条件2:
其中,N1表示在新被试数据按照标签类别并入后第一数据集合后的被试数,N2表示在新被试数据按照标签类别并入后第二数据集合后的被试数;表示初始状态下第一数据集合中各被试数据与第一中心的平均距离,/>表示初始状态下第二数据集合中各被试数据与第二中心的平均距离;bnew表示添加高斯噪声后的新被试数据,An表示并入新被试数据后第二数据集合中的被试数据,Cn表示并入新被试数据后第一数据集合中的被试数据,ASD表示孤独症谱系障碍个体,HC表示健康个体;/>表示第二中心,/>表示第一中心。
403:若新生成数据bnew同时满足上述约束条件1、2,则根据标签将其纳入集合A或C;反之,重新添加高斯噪声生成bnew直至满足约束条件为止。
404:重复S3、401、402、403,直至集合A和C中初始数据与新生成数据(即易分类个体与带有难分类个体特征的新个体)比例都为1:1。
S5:模型微调优化:
采用S4对比数据增强后的新集合A和C作为训练集,对S1中的预训练SVM进行微调优化,获得最终的分类模型。
本实施例对比之前在ASD识别领域所采用的数据增强方法相比,更具有针对性与约束性,使模型的识别能力、泛化能力能够得到最大限度的提升。一方面,本实施例首先在数据增强前对数据进行了划分,筛选出了易分类个体与难分类个体,这是由预训练模型的识别能力所决定的;然后针对难分类个体进行数据增强,使新数据集在模型的识别能力面前达到真正的平衡(即易处理数据信息与难处理数据信息的平衡),而不仅仅是类别的平衡。另一方面,基于对比学习的思想,本实施例提出了对比数据增强的方法。通过两个约束条件对新生成数据进行约束,既保证了数据增强后不同类别数据之间具有一定的区分度,又保证了相同类别数据内的分布更加合理,使其具有多样性的同时不会过于分散,具有聚集性的同时又不会过于相似。除此之外,本实施例这种处理思路与流程完全适用于多种分类模型及数据类型,具有良好的泛化能力。
综上所述,本发明所述孤独症谱系障碍个体识别装置中,分类识别处理模块所装载的孤独症谱系障碍个体识别模型,在预分类过程中对训练数据区分易分类个体和难分类个体,利用难分类个体添加高斯噪声生成新数据进行数据增强,数据增强过程中通过对数据分布特征建立约束,一方面要求新被试数据相对同类标签易分类个体中心距离接近,相对异类标签易分类个体中心距离较远,另一方面,要求新被试数据加入后,易分类个体中健康个体组和ASD组内各被试数据到数据中心的平均距离与原始状态的偏差符合设定范围。利用增强后的数据对模型进行参数微调优化,提升了模型对ASD个体的识别准确度和泛化能力。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种孤独症谱系障碍个体识别装置,其特征在于,所述装置包括:
核磁共振成像设备用于采集待测用户的待测fMRI数据,并基于所述待测fMRI数据和分区图谱提取各脑区的待测BOLD信号时间序列数据,对两两脑区的所述待测BOLD信号时间序列数据做相关性强度计算,得到每个被试的待测功能连接网络,取所述待测功能连接网络的上三角元素并向量化作为该被试的待识别特征向量;
分类识别处理模块,所述分类识别处理模块预装载孤独症谱系障碍个体识别模型,所述孤独症谱系障碍个体识别模型以所述待测用户的所述待识别特征向量为输入,并输出孤独症谱系障碍个体分类识别结果;
其中,所述孤独症谱系障碍个体识别模型的预训练步骤包括:
获取第一训练数据集,所述第一训练数据集包括多个被试数据,所述被试数据是针对健康被试或孤独症谱系障碍被试对应fMRI数据的各脑区BOLD信号时间序列数据,对两两脑区的所述BOLD信号时间序列数据做相关性强度计算,得到每个被试的功能连接网络,取功能连接网络的上三角元素并向量化作为该被试的特征向量,每个被试数据添加该被试属于健康或孤独症谱系障碍的标签;
获取预训练的初始分类模型,用所述初始分类模型对所述第一训练数据集中的每个被试进行多次分类,将分类正确率大于等于设定阈值的标记为易分类个体,将分类正确率小于设定阈值的标记为难分类个体;将所述易分类个体中的健康被试数据归为第一数据集合,将所述易分类个体中的孤独症谱系障碍被试数据归为第二数据集合;将所述难分类个体对应的被试数据归为第三数据集合;基于第一预设算法计算所述第一数据集合的第一中心以及所述第二数据集合的第二中心,以代表其平均水平;以及计算所述第一数据集合中所有被试数据距离所述第一中心的第一平均距离,计算所述第二数据集合中所有被试数据距离所述第二中心的第二平均距离;
在设定约束条件下,对所述第三数据集合中的每个被试的特征向量,添加具有设定缩放系数的高斯噪声以生成新被试数据,将所述第三数据集合添加噪声后的新被试数据按照原始被试标签加入所述第一数据集合或所述第二数据集合,使所述第一数据集合和所述第二数据集合中的新旧被试数量一致,实现数据增强;所述设定约束条件为,令所述第一中心或所述第二中心中与所述新被试数据标签相同的为同类中心,令所述第一中心或所述第二中心中与所述新被试数据标签不同的为异类中心,所述新被试数据与所述同类中心的距离小于所述新被试数据与所述异类中心的距离;以及,在所述新被试数据按照标签类别并入所述第一数据集合或所述第二数据集合后,基于所述第一预设算法重新计算合并后所述第一数据集合的第三中心,计算合并后所述第一数据集中所有被试数据与所述第三中心的第三平均距离,要求所述第三平均距离与所述第一平均距离的偏差符合第一设定范围;或,基于所述第一预设算法重新计算合并后所述第二数据集合的第四中心,计算合并后所述第二数据集中所有被试数据与所述第四中心的第四平均距离,要求所述第四平均距离与所述第二平均距离的偏差符合第二设定范围;
利用数据增强后的所述第一数据集合和所述第二数据集合构建第二训练数据集,利用所述第二训练数据集对所述初始分类模型进行训练,对参数进行微调优化得到所述孤独症谱系障碍个体识别模型。
2.根据权利要求1所述的孤独症谱系障碍个体识别装置,其特征在于,所述初始分类模型为支持向量机。
3.根据权利要求1所述的孤独症谱系障碍个体识别装置,其特征在于,基于第一预设算法计算所述第一数据集合的第一中心以及所述第二数据集合的第二中心,包括:
采用动态时间规整重心平均算法计算所述第一数据集合的第一中心以及所述第二数据集合的第二中心;
计算所述第一数据集合中所有被试数据距离所述第一中心的第一平均距离,计算所述第二数据集合中所有被试数据距离所述第二中心的第二平均距离中,采用动态时间规整距离进行计算。
4.根据权利要求1所述的孤独症谱系障碍个体识别装置,其特征在于,添加具有设定缩放系数的高斯噪声以生成新被试数据,表达式为:
其中,bnew表示添加高斯噪声后的新被试数据,b为所述第三数据集合中的原始数据,β表示缩放系数,X为随机变量,表示X服从均值为0,标准差为1的正态分布。
5.根据权利要求1所述的孤独症谱系障碍个体识别装置,其特征在于,所述孤独症谱系障碍个体识别模型的预训练步骤还包括:
将所述第一训练数据集按照设定比例划分为训练集和测试集,所述训练集用于进行数据增强构建所述第二训练数据集对所述孤独症谱系障碍个体识别模型进行参数微调优化,所述测试集用于对所述孤独症谱系障碍个体识别模型进行最终测试。
6.根据权利要求1所述的孤独症谱系障碍个体识别装置,其特征在于,所述第一训练数据集采用ABIDE I数据集,并对每个被试的fMRI数据选择CC200分区图谱划分脑区并提取BOLD信号时间序列数据。
7.根据权利要求1所述的孤独症谱系障碍个体识别装置,其特征在于,所述装置还包括:对两两脑区的所述BOLD信号时间序列数据做Pearson相关计算得到每个被试的功能连接网络。
8.根据权利要求1所述的孤独症谱系障碍个体识别装置,其特征在于,所述约束条件中,令所述第一中心或所述第二中心中与所述新被试数据标签相同的为同类中心,令所述第一中心或所述第二中心中与所述新被试数据标签不同的为异类中心,所述新被试数据与所述同类中心的距离小于所述新被试数据与所述异类中心的距离,表达式为:
其中,d表示动态时间规整距离,bnew表示添加高斯噪声后的新被试数据,表示所述第二中心,/>表示所述第一中心;ASD表示孤独症谱系障碍个体,HC表示健康个体。
9.根据权利要求1所述的孤独症谱系障碍个体识别装置,其特征在于,所述约束条件中,在所述新被试数据按照标签类别并入所述第一数据集合或所述第二数据集合后,基于所述第一预设算法重新计算合并后所述第一数据集合的第三中心,计算合并后所述第一数据集中所有被试数据与所述第三中心的第三平均距离,要求所述第三平均距离与所述第一平均距离的偏差符合第一设定范围;或,基于所述第一预设算法重新计算合并后所述第二数据集合的第四中心,计算合并后所述第二数据集中所有被试数据与所述第四中心的第四平均距离,要求所述第四平均距离与所述第二平均距离的偏差符合第二设定范围,表达式为:
其中,N1表示在所述新被试数据按照标签类别并入后所述第一数据集合后的被试数,N2表示在所述新被试数据按照标签类别并入后所述第二数据集合后的被试数;表示初始状态下所述第一数据集合中各被试数据与所述第一中心的平均距离,/>表示初始状态下所述第二数据集合中各被试数据与所述第二中心的平均距离;bnew表示添加高斯噪声后的新被试数据,An表示并入所述新被试数据后所述第二数据集合中的被试数据,Cn表示并入所述新被试数据后所述第一数据集合中的被试数据,ASD表示孤独症谱系障碍个体,HC表示健康个体;/>表示所述第二中心,/>表示所述第一中心。
10.根据权利要求1所述的孤独症谱系障碍个体识别装置,其特征在于,所述设定阈值为80%。
CN202311610236.2A 2023-11-29 2023-11-29 一种孤独症谱系障碍个体识别装置 Active CN117312971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311610236.2A CN117312971B (zh) 2023-11-29 2023-11-29 一种孤独症谱系障碍个体识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311610236.2A CN117312971B (zh) 2023-11-29 2023-11-29 一种孤独症谱系障碍个体识别装置

Publications (2)

Publication Number Publication Date
CN117312971A CN117312971A (zh) 2023-12-29
CN117312971B true CN117312971B (zh) 2024-04-02

Family

ID=89286972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311610236.2A Active CN117312971B (zh) 2023-11-29 2023-11-29 一种孤独症谱系障碍个体识别装置

Country Status (1)

Country Link
CN (1) CN117312971B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015095889A2 (en) * 2013-12-20 2015-06-25 Lineagen, Inc. Diagnosis and prediction of austism spectral disorder
CN114242235A (zh) * 2021-12-16 2022-03-25 北京阿叟阿巴科技有限公司 一种基于多层级关键特征行为的孤独症患者画像方法
CN115474939A (zh) * 2022-10-21 2022-12-16 重庆邮电大学 一种基于深度展开神经网络的孤独症谱系障碍识别模型
CN115565690A (zh) * 2022-10-27 2023-01-03 重庆医科大学附属儿童医院 一种基于机器学习的孤独症谱系障碍早期识别方法
CN116434950A (zh) * 2023-06-05 2023-07-14 山东建筑大学 基于数据分簇和集成学习的孤独症谱系障碍的诊断系统
CN116959714A (zh) * 2023-07-31 2023-10-27 中国科学院苏州生物医学工程技术研究所 一种自闭症谱系障碍分类方法、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015095889A2 (en) * 2013-12-20 2015-06-25 Lineagen, Inc. Diagnosis and prediction of austism spectral disorder
CN114242235A (zh) * 2021-12-16 2022-03-25 北京阿叟阿巴科技有限公司 一种基于多层级关键特征行为的孤独症患者画像方法
CN115474939A (zh) * 2022-10-21 2022-12-16 重庆邮电大学 一种基于深度展开神经网络的孤独症谱系障碍识别模型
CN115565690A (zh) * 2022-10-27 2023-01-03 重庆医科大学附属儿童医院 一种基于机器学习的孤独症谱系障碍早期识别方法
CN116434950A (zh) * 2023-06-05 2023-07-14 山东建筑大学 基于数据分簇和集成学习的孤独症谱系障碍的诊断系统
CN116959714A (zh) * 2023-07-31 2023-10-27 中国科学院苏州生物医学工程技术研究所 一种自闭症谱系障碍分类方法、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孤独症谱系障碍神经影像学研究进展;陈恒;陈华富;;中国实用儿科杂志(第08期);全文 *

Also Published As

Publication number Publication date
CN117312971A (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
Frässle et al. A generative model of whole-brain effective connectivity
Danelakis et al. Survey of automated multiple sclerosis lesion segmentation techniques on magnetic resonance imaging
US11200672B2 (en) Systems and methods for modeling neural architecture
Zhou et al. Automatic microaneurysm detection using the sparse principal component analysis-based unsupervised classification method
Duggal et al. Prediction of thyroid disorders using advanced machine learning techniques
CN104809226B (zh) 一种早期分类不平衡多变量时间序列数据的方法
CN112101451B (zh) 一种基于生成对抗网络筛选图像块的乳腺癌组织病理类型分类方法
CN106951825A (zh) 一种人脸图像质量评估系统以及实现方法
CN113724880A (zh) 一种异常脑连接预测系统、方法、装置及可读存储介质
CN104424386A (zh) 基于多参数磁共振影像的前列腺癌计算机辅助识别系统
Tan et al. A transfer learning approach to breast cancer classification in a federated learning framework
CN111783887B (zh) 基于fMRI小世界脑网络计算机分类测谎识别方法
Sharma et al. A review on various brain tumor detection techniques in brain MRI images
CN115272295A (zh) 基于时域-空域联合状态的动态脑功能网络分析方法及系统
CN110718301B (zh) 基于动态脑功能网络的阿尔茨海默病辅助诊断装置及方法
Nagarathinam et al. Image registration‐based brain tumor detection and segmentation using ANFIS classification approach
Elayaraja et al. An efficient approach for detection and classification of cancer regions in cervical images using optimization based CNN classification approach
Nhu et al. Deep learning for automated epileptiform discharge detection from scalp EEG: A systematic review
CN108805181B (zh) 一种基于多分类模型的图像分类装置及分类方法
WO2023198224A1 (zh) 一种精神障碍类磁共振图像初步筛查模型构建方法
CN117312971B (zh) 一种孤独症谱系障碍个体识别装置
Chen et al. An iterative self-training support vector machine algorithm in brain-computer interfaces
Cao et al. Temporal graph representation learning for autism spectrum disorder brain networks
Kim et al. Graph-aware modeling of brain connectivity networks
Moguilner et al. Deep Learning classification based on raw MRI images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant