CN115484864A - 脑功能连接相关值的聚类装置、脑功能连接相关值的聚类系统、脑功能连接相关值的聚类方法、脑功能连接相关值的分类器程序、脑活动标记物分类系统以及脑功能连接相关值的聚类分类器模型 - Google Patents

脑功能连接相关值的聚类装置、脑功能连接相关值的聚类系统、脑功能连接相关值的聚类方法、脑功能连接相关值的分类器程序、脑活动标记物分类系统以及脑功能连接相关值的聚类分类器模型 Download PDF

Info

Publication number
CN115484864A
CN115484864A CN202180027512.5A CN202180027512A CN115484864A CN 115484864 A CN115484864 A CN 115484864A CN 202180027512 A CN202180027512 A CN 202180027512A CN 115484864 A CN115484864 A CN 115484864A
Authority
CN
China
Prior art keywords
clustering
brain
data
learning
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180027512.5A
Other languages
English (en)
Inventor
柏木雄人
德田智矶
高原雄史
川人光男
山下步
山下宙人
酒井雄希
吉本润一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Publication of CN115484864A publication Critical patent/CN115484864A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/05Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves 
    • A61B5/055Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves  involving electronic [EMR] or nuclear [NMR] magnetic resonance, e.g. magnetic resonance imaging
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0033Features or image-related aspects of imaging apparatus classified in A61B5/00, e.g. for MRI, optical tomography or impedance tomography apparatus; arrangements of imaging apparatus in a room
    • A61B5/004Features or image-related aspects of imaging apparatus classified in A61B5/00, e.g. for MRI, optical tomography or impedance tomography apparatus; arrangements of imaging apparatus in a room adapted for image acquisition of a particular organ or body part
    • A61B5/0042Features or image-related aspects of imaging apparatus classified in A61B5/00, e.g. for MRI, optical tomography or impedance tomography apparatus; arrangements of imaging apparatus in a room adapted for image acquisition of a particular organ or body part for the brain
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Data Mining & Analysis (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Radiology & Medical Imaging (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Educational Technology (AREA)
  • High Energy & Nuclear Physics (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Developmental Disabilities (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Neurology (AREA)

Abstract

基于从多个设施获取到的脑测量数据来执行具有规定的属性的受验者的聚类的、脑功能连接相关值的聚类装置在多个MRI装置中对于健康群、患者群拍摄静息态的fMRI图像数据,计算处理系统(300)在进行协调化处理后的相关阵列的元素值与关于各受验者的疾病标签之间,通过“有监督学习”将识别器的生成作为集成学习来实施,在集成学习过程中,根据重要度而从在针对疾病标签生成识别器的生成处理中确定出的特征量中选择出用于聚类的特征量,之后通过“无监督学习”来执行多重共聚类。

Description

脑功能连接相关值的聚类装置、脑功能连接相关值的聚类系 统、脑功能连接相关值的聚类方法、脑功能连接相关值的分类 器程序、脑活动标记物分类系统以及脑功能连接相关值的聚 类分类器模型
技术领域
本发明涉及一种对在多个装置中利用脑功能图像法测量出的脑功能连接相关值的图案进行聚类的技术,更确定地说,涉及一种脑功能连接相关值的聚类装置、脑功能连接相关值的聚类系统、脑功能连接相关值的聚类方法、脑功能连接相关值的分类器程序、脑活动标记物分类系统以及脑功能连接相关值的聚类分类器模型。本申请要求2020年4月6日申请的日本特愿2020-068669号的优先权,将所述日本申请所记载的全部记载内容通过引用并入本申请。
背景技术
(数据驱动型的聚类方法)
随着近年来的人工智能技术、特别是数据驱动型人工智能技术的发展,在声音识别、翻译、图像识别等领域中部分地实现了与人类的能力相匹敌的应用,或者,在部分领域中还实现了超越人类的能力那样的应用(例如专利文献1)。
在医疗技术的领域中,在图像诊断等中利用深度学习等机器学习的情况也增多。深度学习是使用了多层神经网络的机器学习,在图像识别的领域中,已知的是使用作为深度学习之一的卷积神经网络(Convolutional Neural Network,下面称为“CNN”)的学习方法表现出与以往的方法相比非常高的性能(例如专利文献2)。
例如,在大肠癌的利用内窥镜的图像诊断等中,诊断的准确度超过人类诊断的准确度那样的诊断设备已被实用化(非专利文献1)。
但是,这些人工智能技术在机器学习的分类上几乎都落入了所谓的“有监督学习”的范畴,即,大量地准备正解数据与输入数据(例如图像数据)的组,以该组为输入来使人工智能进行学习处理。
另一方面,作为数据驱动型人工智能的应用用途,也存在将所提供的数据基于其特征量分类为若干个簇这样的任务的执行。在该情况下,已知有不存在正解数据的所谓的“无监督学习”、将基于少量的“带正解标签的学习数据”的学习与基于大量的“无正解标签的学习数据”的学习组合所得到的“半监督学习”等(例如专利文献3)。
例如,在专利文献3中记载有“半监督学习是基于比较少的带标签数据和无标签数据进行学习的学习方法,例如包括自举法、基于图的算法(graph base algorithm)等,该自举法是使用带标签数据(包含状态数据S和判定数据L的训练数据T)生成进行分类的学习模型,使用该学习模型和无标签数据(状态数据S),对于该学习模型进行追加学习,从而提高学习的精度,该基于图的算法是基于带标签数据和无标签数据的数据分布进行分组从而生成作为分类器的学习模型”。但是,也如该例所示的那样,在“半监督学习”中,存在的训练数据是少量的学习数据,从而前提是首先生成分类器并在之后使用大量的“无正解标签的学习数据”来使该分类器自身进行再学习等。
(生物标记物)
下面,作为应用基于人工智能技术的判别、聚类的领域,以医学领域为例。
将为了定量地掌握生物体内的生物学变化而对生物体信息进行了数值化/定量化的指标称为“生物标记物”。
FDA(美国食品药品监督管理局)将生物标记物的定位定义为“作为正常过程和病态过程、或者对于治疗的药理学反应的指标来客观地测定/评价的项目”。另外,用于表征疾病的状态、变化、治愈的程度的生物标记物被用作用于确认新药在临床试验中的有效性的替代标记物(surrogate marker)。血糖值、胆固醇值等是代表性的作为生活习惯病的指标的生物标记物。不仅包含尿、血液中包含的源自生物体的物质,还包含心电图、血压、PET(positron emission tomography:正电子放射断层造影术)图像、骨密度、肺功能等。另外,随着染色体组解析、蛋白质组解析的发展,发现了与DNA、RNA、生物蛋白等相关联的各种生物标记物。
生物标记物不仅应用于患上疾病后的治疗效果的测定,还作为用于预防疾病的日常的指标而应用于疾病的预防,并且还被期待应用于选择避免副作用的有效治疗法的个体化医疗。
例如,对于肺部疾病,公开有用于使用基因信息来判断罹患疾病的可能性的生物标记物(专利文献4)。在专利文献4中,“生物标记物”或“标记物”是指“作为表示该生物体系统的生理学状态的特征的物质而能够客观地进行测定的生物学分子”。而且,在该专利文献4中,记载有“通常,生物标记物测定值典型的是与蛋白质或多肽即表达产物的定量测定相关的信息。本发明设想以RNA(翻译前)水平或蛋白质水平(还能包含翻译后修饰)来决定生物标记物测定值”。而且,在专利文献4中,作为用作针对这样的生物标记物测定值的“分类系统”的分类器,例示了决策树、贝叶斯分类器、贝叶斯信念网络、k-最近邻法、基于事例的推理以及支持向量机等。
另一方面,在神经/精神疾病的情况下,现状的诊断有时也是基于DSM-5(精神障碍的诊断/统计手册(Diagnostic and Statistical Manual of Mental Disorders)第5版)等、所谓的基于症状的诊断,虽然从生物化学或分子遗传学的观点出发还研究出了能够利用为客观性指标的分子标记物等,但仍处于应该称为研究阶段这样的状况。
可是,还报告了使用NIRS(Near-infraRed Spectroscopy:近红外光谱)技术来根据通过生物体光测量而测量出的血红蛋白信号的特征量进行精神分裂症、抑郁症等精神疾病的分类的疾病判定系统等(专利文献5)。
(基于脑活动的生物标记物)
另一方面,在所谓的图像诊断的领域中,与如上所述的“生物学分子”这样的生物标记物的概念不同,还存在被称为“图像生物标记物”的生物标记物。例如,还尝试在脑神经区域的分子成像中使用PET来进行神经传递功能、受体功能解析。
并且,在磁共振成像法(MRI:Magnetic Resonance Imaging)中,还能够使用与血流量的变化相应地在检测出的信号中出现变化的情形,来使大脑对于外部刺激等的活动部位视觉化。将这种磁共振成像法特别称为fMRI(functional MRI:功能性磁共振成像)。
在fMRI中,作为装置,使用了在通常的MRI装置中进一步配备fMRI测量所需要的硬件和软件而成的装置。
在此,血流量的变化引起NMR信号强度的变化是利用了血液中的氧合血红蛋白和脱氧血红蛋白的磁学性质不同。氧合血红蛋白具有反磁性体的性质,对于周围存在的水的氢原子的弛豫时间没有影响,与此相对,脱氧血红蛋白为顺磁性体,使周围的磁场变化。因而,当大脑受到刺激、局部血流增大从而脱氧血红蛋白变化时,能够将其变化量检测为MRI信号。这种对受验者的刺激例如一般使用视觉刺激、听觉刺激、或规定课题(任务)的执行等。
而且,在脑功能研究中,通过测定与微静脉、毛细血管内的红血球中的脱氧血红蛋白的浓度减少的现象(BOLD效应)对应的氢原子的磁共振信号(MRI信号)的上升,来进行大脑的活动的测定。
像这样,将反映出由fMRI装置测量出的脑活动的血中氧浓度依赖信号称为BOLD信号(Blood Oxygen Level Dependent Signal:血氧水平依赖信号)。
特别是,在与人的运动功能有关的研究中,使受验者进行一些运动,并通过上述fMRI测量来测定大脑的活动。
另外,在是人的情况下,需要进行非侵入式的脑活动的测量,在该情况下,能够从fMRI数据提取更详细的信息的解码技术逐渐发展起来。特别是,通过fMRI以大脑中的体素(volumetric pixel:voxel)为单位对脑活动进行解析,能够根据脑活动的空间图案来估计刺激输入、识别状态。
并且,作为这种使解码技术发展起来的技术,在专利文献6中公开了用于通过脑功能图像法实现对于神经/精神疾病的“诊断生物标记物”的脑活动解析方法。在本方法中,根据对于健康群、患者群测定出的静息态功能连接的MRI的数据,来针对各个受验者导出规定的脑区域间的活动度的相关阵列(脑功能连接参数)。对于包含受验者的疾病/健康标签的受验者的属性和相关阵列,通过正则化典型相关分析进行特征提取。基于正则化典型相关分析的结果,通过基于稀疏逻辑回归(Sparse Logistic Regression:SLR)的判别分析来生成作为生物标记物而发挥功能的判别器。通过这样的机器学习的技术,表示出能够基于根据静息态的fMRI数据导出的脑区域间的连接来预测神经疾病的诊断结果。而且,该预测性能的验证表示出不仅适用于在一个设施中测量出的脑活动,还能够在某种程度上通用于在其它设施中测量出的脑活动。
并且,对于这样的“诊断生物标记物”,还进行了用于进一步提高通用化性能的技术改进(专利文献7)。
另外,最近,如美国的人类连接组项目(human connectome project)那样获得大规模的脑图像数据并共享这些数据被认为对于填补基础神经科学研究与如精神疾病的诊断及治疗那样的临床应用之间的缺口具有重要的意义(非专利文献2)。
在2013年,日本的国立研究开发法人日本医疗研究开发机构组织了如下的解码神经反馈(DecNef)项目:8个研究所收集包括2,239个样本和5种疾病在内的多个地点的静息态的功能性磁共振(静息态的功能MRI)数据,并通过SRPBS(Strategic Research Programfor Brain Sciences(脑科学研究战略研究项目)https://www.amed.go.jp/program/list/01/04/001_nopro.html)的多个地点的多种疾病的数据库(https://bicr-resource.atr.jp/decnefpro/)来公开共享这些数据。该项目鉴定了能够通用于完全独立的队列(cohort)的、若干种精神疾病的基于静息态的功能连接性(静息态的功能连接MRI)的生物标记物。
像这样,对于健康群和疾病群的诊断,取得了一定的成果。另外,已知的是,疾病群中的例如一般被诊断为“抑郁症”的患者群实际上还被分为多个亚型。例如,已知存在通过服用通常的“抗抑郁药”而得到缓解的患者群但也存在难以缓解的“难治性”的患者群等。
对于这样的“抑郁症”的患者,也存在还尝试针对如上所述的“脑功能连接参数”应用基于数据驱动型人工智能的聚类来进行分类并表示出存在一定的倾向的文献(非专利文献3、4)。
但是,为了将这种对疾病群的亚型进行分类的手法实用化,需要该疾病群的大规模数据。可是,关于大规模地收集脑图像数据,对于健康者而言都不容易,而且对于患者特别不容易。
因此,当为了进行大规模的数据收集而实施多个地点处的测量时,各测量地点处的测量数据的地点间差异成为问题。在上述的非专利文献4中,也提到了针对多设施的大量的测量数据的聚类的“通用化(generalization)”是将来的课题。
例如,在上述的非专利文献3中,指出了抑郁患者被分层为4个亚型且对于TMS(transcranial magnetic stimulation:经颅磁刺激)的治疗反应性存在差异等。可是,在其它文献中指出,在发现脑功能连接指标的过程中,两次使用了抑郁症状数据,由于过度学习而无法确认与抑郁症状的关联性的统计显著性,分层的稳定性也差(非专利文献5)。
因而,例如,关于抑郁症,现状是未实施独立的验证数据中的分层的精度确认。
另一方面,例如,为了评价在多个测量地点处进行了MRI测量的情况下的测量数据的地点间差异,还作出了通过采用大量的参加者前往多个地点接受测定这样的所谓“多设施受检者(traveling subject,旅行受验者)”来调查测定偏倚对于静息态的功能连接性的效应的尝试(非专利文献6、非专利文献7)。
总之,在根据fMRI数据进行受验者的属性的分类的情况下,在机器学习中,为了避免过度学习的问题,多数情况下使用去除一个受验者而用作验证用的交叉验证法:留一交叉验证(leave-one-subject-out cross validation)、将数据分成10份、用十分之九进行学习并用余下的十分之一进行验证的十折交叉验证(10-fold cross validation)来进行分类器的评价。但是,在精神病学领域中,近年来也认识到了当对从单个设施获得的少量的样本应用机器学习时会引起预测膨胀的危险。
在对于少量的数据的机器学习中,针对学习用数据中的、特定设施的fMRI装置、测定方法、实验者、参加者群等中所存在的特定倾向、或者噪声进行过度学习的可能性高。
例如,还存在报告了根据大脑的解剖图像判别自闭谱症的分类器对于开发所使用的英国的学习用数据表现出灵敏度和特异度均为90%以上的高性能、但对于日本人的数据变成了50%的例子。由此可以说,没有用由与学习用数据完全不同的设施和受验者群构成的独立验证队列来进行验证的分类器无论是在科学上还是在实用上意义都很小。
关于用于补偿如上所述的测量地点间的地点间差异的“协调化法”,本案的申请人也有作出报告(非专利文献8)。
将专利文献1至专利文献7以及非专利文献1至非专利文献8各自的记载全部通过参照引用于此处。
现有技术文献
专利文献
专利文献1:日本再表2018/147193号公报(国际公开WO2018/147193)
专利文献2:日本特开2019-198376号公报
专利文献3:日本特开2020-024139号公报
专利文献4:日本特表2019-516950号公报(国际公开WO2017/162773)
专利文献5:日本再表2005/025421号公报(国际公开WO2005/025421)
专利文献6:日本特开2015-62817号公报
专利文献7:日本特开2017-196523号公报
非专利文献
非专利文献1:国立研究开发法人日本医疗研究开发机构平成30年12月10日新闻公告“AIを搭載した内視鏡診断支援プログラムが承認―医師の診断補助に活用へ―(搭载有AI的内窥镜诊断辅助程序被批准-有效利用于医生的诊断辅助-)”https://www.amed.go.jp/news/release_20181210.html
非专利文献2:Glasser MF,et al.The Human Connectome Project'sneuroimaging approachh(人类连接组项目的神经影像学方法).Nat Neurosci 19,1175-1187(2016).
非专利文献3:Andrew T Drysdale,Logan Grosenick,Jonathan Downar,Katharine Dunlop,Farrokh Mansouri,Yue Meng1,Robert N Fetcho,Benjamin Zebley,Desmond J Oathes,Amit Etkin,Alan F Schatzberg,Keith Sudheimer,JenniferKeller,Helen S Mayberg,Faith M Gunning,George S Alexopoulos,Michael D Fox,Alvaro Pascual-Leone,Henning U Voss,BJ Casey,Marc J Dubin&Conor Liston,“Resting-state connectivity biomarkers define neurophysiological subtypes ofdepression(静息状态连接性生物标记物定义了抑郁症的神经生理学亚型)”,naturemedicine,VOLU ME 23,NUMBER 1,JANUARY 2017
非专利文献4:Tomoki Tokuda,Junichiro Yoshimoto,,Yu Shimizu,Go Okada,Masahiro Takamura,Yasumasa Okamoto,Shigeto Yamawaki,Kenji Doya,“Identification of depression subtypes and relevant brain regions using adata-driven approach(使用数据驱动方法识别抑郁亚型和相关大脑区域)”,SCIENTIFICREPORTS│(2018)8:14082│DOI:10.1038/s41598-018-32521-z
非专利文献5:Richard Dinga,Lianne Schmaal,Brenda W.J.H.Penninx,MarieJosevan Tol,Dick J.Veltman,Laura van Velzen,Maarten Mennes,Nic J.A.van derWee,Andre F.Marquand,“Evaluating the evidence for biotypes of depression:Methodological replication and extension of Drysdale et al.(评估抑郁症生物型的证据:Drysdale等人进行的方法的复制和扩展)(2017)”,NeuroImage:Clinical 22(2019)101796
非专利文献6:Noble S,et al.Multisite reliability of MR-basedfunctional connectivity(基于MR的功能连接的多站点可靠性).Neuroimage 146,959-970(2017).
非专利文献7:Pearlson G.Multisite collaborations and large databasesin psychiatric neuroimaging advantages,problems,and challenges(多站点协作和大型数据库在精神科神经影像学方面的优势、问题以及挑战).Schizophr Bull 35,1-2(2009).
非专利文献8:Ayumu Yamashita,Noriaki Yahata,Takashi Itahashi,GiuseppeLisi,Takashi Yamada,Naho Ichikawa,Masahiro Takamura,Yujiro Yoshihara,AkiraKunimatsu,Naohiro Okada,Hirotaka Yamagata,KojiMatsuo,Ryuichiro Hashimoto,GoOkada,Yuki Sakai,Jun Morimoto,Jin Narumoto,Yasuhiro Shimada,Kiyoto Kasai,Nobumasa Kato,Hidehiko Takahashi,Yasumasa Okamoto,Saori C Tanaka,MitsuoKawato,Okito Yamashita,and Hiroshi Imamizu,“Harmonization of resting-statefunctional MRI data across multiple imaging sites via the separation of sitedifferences into sampling bias and measurement bias(通过将部位差异分离为采样偏倚和测量偏倚来协调多个成像部位的静息状态功能MRI数据).”,PLOS Biology.DOI:10.1371/journal.pbio.3000042,http://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3000042
发明内容
发明要解决的问题
如以上那样,在考虑将基于功能性磁共振图像法等脑功能图像法对脑活动的解析应用于神经/精神疾病的治疗的情况下,例如,作为如上所述的生物标记物的基于脑功能图像法对脑活动的解析还被期待作为非侵入式的功能标记物而应用于面向诊断法的开发、用于实现根本治疗的药物研发的靶分子的搜索和鉴定等。
例如,目前为止,对于精神疾病,还未完成使用了遗传基因的实用性的生物标记物,因此,药物的效果判定等较难,因此治疗用药的开发也较难。
为了通过机器学习基于脑活动的测量数据生成作为诊断标记物的判别器(识别器)、作为分层标记物的分类器并将其作为生物标记物来实际使用,需要提高通过机器学习针对在一个设施中测量出的脑活动生成的生物标记物的预测精度。另外,需要能够还将通过这样生成的生物标记物通用于在其它设施中测量出的脑活动。
即,在通过机器学习基于脑活动的测量数据构建用于识别疾病的判别器、将疾病分类为亚型的分类器时,主要存在两个课题。
第一课题是样本量小的问题。
作为受验者的人数的数据量N远小于测量出的脑活动测量数据的维数M,因此判别器的参数容易与训练数据过拟合。
由于该过拟合,构建出的判别器对于新采样到的测试数据呈现出非常差的性能。这是由于这些测试数据未被使用于判别器的训练。
因而,对于判别器的期望的通用化,需要适当地导入特征量选择、维数削减以仅识别并利用本质的特征量。
第二课题是只有在构建出的判别器对于在与收集训练数据的地点不同的拍摄地点处扫描得到的MRI数据也维持高性能的情况下,判别器才是在临床上有用且在科学上可靠的。
这是涉及所有拍摄地点的所谓的通用化能力。
在收集与精神疾病相关联的大规模的脑图像数据时,脑图像由于在一个地点处能够获取的数据的量存在限制,因此需要从多个地点进行获取。
然而,在获取多个地点处的脑图像数据的情况下,地点间差异成为最大的障碍。
即,在临床应用中,经常观测到无法将使用在特定的地点处获取到的数据而训练出的判别器通用到在不同的地点处拍摄到的数据。
因此,在上述的人类连接组项目中,目前为止是假设在单一地点使用单一的扫描仪进行测量。
本发明是为了解决如上所述的问题点而完成的,其目的在于提供一种基于从多个设施获取到的脑测量数据来执行具有规定的属性的受验者的聚类的脑功能连接相关值的聚类装置、脑功能连接相关值的聚类系统、脑功能连接相关值的聚类方法以及脑功能连接相关值的聚类分类器模型。
本发明的其它目的在于提供一种用于实现基于脑活动测量的分类器标记物的脑功能连接相关值的分类器程序以及脑活动标记物分类系统。
用于解决问题的方案
按照本发明的一个方面,一种脑功能连接相关值的聚类装置,用于基于对象者的脑活动的测量结果,来在对象者中执行对具有至少一个规定的属性的对象者的聚类,脑功能连接相关值的聚类装置具备计算处理系统,计算处理系统用于针对包括具有规定的属性的第一受验者群和不具有规定的属性的第二受验者群的多个受验者,基于脑活动的测量值来执行聚类的处理,计算处理系统包括存储装置和运算装置,运算装置构成为:i)针对多个受验者的各受验者,将基于分别表示规定的多个脑区域对之间的脑活动的时间相关性的多个脑功能连接相关值的特征量保存到存储装置中;ii)基于存储装置中所保存的特征量,以有监督学习来执行生成用于判别属性的有无的识别器模型的机器学习,运算装置在生成识别器模型的机器学习中进行以下处理:根据第一受验者群和第二受验者群,执行欠采样和下采样,从而生成多个学习用子样本;针对学习用子样本的各个学习用子样本,从在通过机器学习生成识别器时使用的特征量的并集中,根据属于并集的特征量的重要度,来选择用于聚类的特征量,运算装置还进行以下处理:基于所选择出的用于聚类的特征量,通过无监督学习的多重共聚类法对第一受验者群进行聚类,来生成簇的分类器。
优选的是,脑功能连接相关值的聚类装置从分别设置于多个测量地点的多个脑活动测量装置,接受表现多个受验者的各受验者的规定的多个脑区域对之间的脑活动的时间相关性的信息,计算处理系统包括协调化计算单元,协调化计算单元对多个受验者的各受验者的多个脑功能连接相关值进行校正,以去除测量地点的测定偏倚,从而将校正得到的调整值作为特征量保存到存储装置中。
优选的是,通过机器学习生成识别器的处理是如下的集成学习:针对多个学习用子样本分别生成多个识别器子模型,对多个识别器子模型进行整合而生成识别器模型。
优选的是,属性以是规定的精神疾病这一诊断结果的标签来表现,聚类是通过基于数据驱动的机器学习来将第一受验者群分类到至少一个亚型簇的处理。
优选的是,运算装置在通过机器学习生成识别器时进行以下处理:i)将调整值分割为机器学习用的训练数据集和验证用的测试数据集;ii)对训练数据集执行规定数量的欠采样和下采样,来生成规定数量的学习用子样本;iii)针对每个学习用子样本生成识别器子模型;iv)对识别器子模型的输出进行整合而生成针对属性的有无的识别器模型。
优选的是,通过机器学习生成识别器的处理是具有外侧的交叉验证和内侧的交叉验证的嵌套构造的交叉验证,运算装置在嵌套构造的交叉验证的处理中进行以下处理:i)将外侧的交叉验证设为K折交叉验证,来将调整值分割为机器学习用的训练数据集和验证用的测试数据集;ii)对训练数据集执行规定数量的欠采样和下采样,来生成规定数量的学习用子样本;iii)在K折交叉验证的各循环中,通过内侧的交叉验证调整超参数,来针对每个学习用子样本生成识别器子模型;iv)基于识别器子模型,来生成针对属性的有无的识别器模型。
优选的是,通过机器学习生成识别器的处理是伴有特征量选择的机器学习法,在对用于聚类的特征量的选择中,根据在生成识别器子模型时属于并集的特征量被选择的频度的排序,来决定特征量的重要度。
优选的是,通过机器学习生成识别器的处理是随机森林法,在对用于聚类的特征量的选择中,属于并集的特征量的重要度是在随机森林法中基于基尼不纯度针对各特征量计算出的重要度。
优选的是,通过机器学习生成识别器的处理是基于L2正则化的机器学习法,在对用于聚类的特征量的选择中,根据基于通过L2正则化计算出的识别器子模型中的特征量的权重进行的排序,来决定属于并集的特征量的重要度。
优选的是,存储装置针对在多个测量地点处共同地成为测量对象的多个旅行受验者,预先保存有对各旅行受验者的预先决定的多个脑区域测量脑活动所得到的结果,运算装置进行以下处理:对于各旅行受验者计算脑功能连接阵列的规定的元素,脑功能连接阵列表示多个脑区域对的脑活动的时间相关性;通过使用一般线性混合模型法,针对功能连接阵列的每个规定的元素计算测定偏倚,来作为各测量地点处的相对于涉及多个测量地点和多个旅行受验者的该元素的平均而言的固定效应。
优选的是,运算装置基于对象者在除多个测量地点以外的测量地点被测量出的测量数据,来执行向亚型的分类处理。
按照本发明的另一方面,一种脑功能连接相关值的聚类系统,用于基于对象者的脑活动的测量结果,来在对象者中执行对具有至少一个规定的属性的对象者的聚类,脑功能连接相关值的聚类系统包括:多个脑活动测量装置,多个脑活动测量装置分别设置于多个测量地点,以按时间序列测量多个受验者的脑活动,多个受验者包括具有规定的属性的第一受验者群和不具有规定的属性的第二受验者群;以及计算处理系统,其用于基于脑活动的测量值,来对多个受验者执行聚类的处理,计算处理系统包括存储装置和运算装置,运算装置构成为:i)针对多个受验者的各受验者,将基于表示规定的多个脑区域对之间的脑活动的时间相关性的多个脑功能连接相关值的特征量保存到存储装置中;ii)基于存储装置中所保存的特征量,以有监督学习来执行生成用于判别属性的有无的识别器模型的机器学习,运算装置在生成识别器模型的机器学习中进行以下处理:根据第一受验者群和第二受验者群,执行欠采样和下采样,从而生成多个学习用子样本;针对学习用子样本的各个学习用子样本,从在通过机器学习生成识别器时使用的特征量的并集中,根据属于并集的特征量的重要度,来选择用于聚类的特征量,运算装置还进行以下处理:基于所选择出的用于聚类的特征量,通过无监督学习的多重共聚类法对第一受验者群进行聚类,来生成簇的分类器。
优选的是,计算处理系统从分别设置于多个测量地点的多个脑活动测量装置,接受表现多个受验者的各受验者的规定的多个脑区域对之间的脑活动的时间相关性的信息,计算处理系统包括协调化计算单元,协调化计算单元对多个受验者的各受验者的多个脑功能连接相关值进行校正,以去除测量地点的测定偏倚,从而将校正得到的调整值作为特征量保存到存储装置中。
优选的是,属性以是规定的精神疾病这一诊断结果的标签来表现,聚类是通过基于数据驱动的机器学习来将第一受验者群分类到至少一个亚型簇的处理。
按照本发明的又一方面,一种脑功能连接相关值的聚类方法,用于由计算处理系统基于对象者的脑活动的测量结果,来在对象者中执行对具有至少一个规定的属性的对象者的聚类处理,计算处理系统包括存储装置和运算装置,脑功能连接相关值的聚类方法包括以下步骤:运算装置针对多个受验者的各个受验者,将基于分别表示规定的多个脑区域对之间的脑活动的时间相关性的脑功能连接相关值的特征量保存到存储装置中,多个受验者包括具有规定的属性的第一受验者群和不具有规定的属性的第二受验者群;以及运算装置基于存储装置中所保存的特征量,以有监督学习来执行生成用于判别属性的有无的识别器模型的机器学习,执行生成识别器模型的机器学习的步骤包括以下步骤:根据第一受验者群和第二受验者群,执行欠采样和下采样,从而生成多个学习用子样本;以及针对学习用子样本的各个学习用子样本,从在通过机器学习生成识别器时使用的特征量的并集中,根据属于并集的特征量的重要度,来选择用于聚类的特征量,脑功能连接相关值的聚类方法还包括以下步骤:运算装置基于所选择出的用于聚类的特征量,通过无监督学习的多重共聚类法对第一受验者群进行聚类,来生成簇的分类器。
按照本发明的又一方面,一种脑功能连接相关值的分类器程序,是通过由计算处理系统基于对象者的脑活动的测量结果在对象者中执行对具有至少一个规定的属性的对象者的聚类处理而生成的,脑功能连接相关值的分类器程序用于由计算机对输入数据进行向与聚类处理的结果对应的各簇的分类,分类器程序具有如下的分类功能:计算机基于各簇的概率分布的模型,来将输入数据分类到具有最大后验概率的簇,计算处理系统包括存储装置和运算装置,计算处理系统在基于聚类处理生成分类器程序的生成处理中执行以下步骤:运算装置针对多个受验者的各个受验者,将基于表示规定的多个脑区域对之间的脑活动的时间相关性的脑功能连接相关值的特征量保存到存储装置中,多个受验者包括具有规定的属性的第一受验者群和不具有规定的属性的第二受验者群;以及运算装置基于存储装置中所保存的特征量,以有监督学习来执行生成用于判别属性的有无的识别器模型的机器学习,执行生成识别器模型的机器学习的步骤包括以下步骤:根据第一受验者群和第二受验者群,执行欠采样和下采样,从而生成多个学习用子样本;以及针对学习用子样本的各个学习用子样本,从在通过机器学习生成识别器时使用的特征量的并集中,根据属于并集的特征量的重要度,来选择用于聚类的特征量,运算装置还执行以下步骤:基于所选择出的用于聚类的特征量,通过无监督学习的多重共聚类法对第一受验者群进行聚类,来生成簇的分类器。
优选的是,计算处理系统执行以下步骤:从分别设置于多个测量地点的多个脑活动测量装置,接收表现多个受验者的各受验者的规定的多个脑区域对之间的脑活动的时间相关性的信息;以及执行协调化,协调化用于对多个受验者的各受验者的多个脑功能连接相关值进行校正,以去除测量地点的测定偏倚,从而将校正得到的调整值作为特征量保存到存储装置中。
优选的是,属性以是规定的精神疾病这一诊断结果的标签来表现,聚类是通过基于数据驱动的机器学习来将第一受验者群分类到至少一个亚型的簇的处理。
按照本发明的又一方面,一种脑活动标记物分类系统,是通过由计算处理系统基于对象者的脑活动的测量结果在对象者中执行对具有至少一个规定的属性的对象者的聚类处理而生成的,脑活动标记物分类系统用于由计算机对输入数据进行向与聚类处理的结果对应的各簇的分类,脑活动标记物分类系统具有如下的分类功能:计算机基于各簇的概率分布的模型,将输入数据分类到具有最大后验概率的簇,计算处理系统包括存储装置和运算装置,计算处理系统在基于聚类处理生成脑活动标记物分类系统的生成处理中执行以下步骤:运算装置针对多个受验者的各个受验者,将基于表示规定的多个脑区域对之间的脑活动的时间相关性的脑功能连接相关值的特征量保存到存储装置中,多个受验者包括具有规定的属性的第一受验者群和不具有规定的属性的第二受验者群;以及运算装置基于存储装置中所保存的特征量,以有监督学习来执行生成用于判别属性的有无的识别器模型的机器学习,执行生成识别器模型的机器学习的步骤包括以下步骤:根据第一受验者群和第二受验者群,执行欠采样和下采样,从而生成多个学习用子样本;以及针对学习用子样本的各个学习用子样本,从在通过机器学习生成识别器时使用的特征量的并集中,根据属于并集的特征量的重要度,来选择用于聚类的特征量,运算装置还执行以下步骤:基于所选择出的用于聚类的特征量,通过无监督学习的多重共聚类法对第一受验者群进行聚类,来生成簇的分类器。
优选的是,计算处理系统执行以下步骤:从分别设置于多个测量地点的多个脑活动测量装置,接收表现多个受验者的各受验者的规定的多个脑区域对之间的脑活动的时间相关性的信息;以及执行协调化,协调化用于对多个受验者的各受验者的表示脑活动的时间相关性的多个脑功能连接相关值进行校正,以去除测量地点的测定偏倚,从而将校正得到的调整值作为特征量保存到存储装置中。
优选的是,属性以是规定的精神疾病这一诊断结果的标签来表现,聚类是通过基于数据驱动的机器学习来将第一受验者群分类到至少一个亚型簇的处理。
按照本发明的又一方面,一种脑功能连接相关值的聚类分类器模型,是通过由计算处理系统基于对象者的脑活动的测量结果在对象者中执行对具有至少一个规定的属性的对象者的聚类处理而生成的,脑功能连接相关值的聚类分类器模型用于由计算机对输入数据进行向与聚类处理的结果对应的各簇的分类,聚类分类器模型具有如下的功能:针对将学习数据中所包含的表征对象者的特征量群分割所得到的各个视图,根据基于各视图中包含的特征量的信息和用于确定各视图的对象者的各个簇的概率密度函数的信息来对输入数据计算出的概率密度函数的值,将输入数据分类到具有最大后验概率的簇,计算处理系统包括存储装置和运算装置,计算处理系统在基于聚类处理生成聚类分类器模型的生成处理中执行以下步骤:运算装置针对多个受验者的各个受验者,将基于表示规定的多个脑区域对之间的脑活动的时间相关性的脑功能连接相关值的特征量保存到存储装置中,多个受验者包括具有规定的属性的第一受验者群和不具有规定的属性的第二受验者群;以及运算装置基于存储装置中所保存的特征量,以有监督学习来执行生成用于判别属性的有无的识别器模型的机器学习,执行生成识别器模型的机器学习的步骤包括以下步骤:根据第一受验者群和第二受验者群,执行欠采样和下采样,从而生成多个学习用子样本;以及针对学习用子样本的各个学习用子样本,从在通过机器学习生成识别器时使用的特征量的并集中,根据属于并集的特征量的重要度,来选择用于聚类的特征量,运算装置还执行以下步骤:基于所选择出的用于聚类的特征量,通过无监督学习的多重共聚类法来对第一受验者群进行聚类,将特征量分割为视图,生成各视图中的对象者的各个簇的概率密度函数。
发明的效果
根据本发明,能够针对在多个设施测量出的大脑的活动的测量数据调整和校正各设施的测定偏倚。由此,能够基于多个设施处的测量数据调整脑功能连接相关值并进行聚类。
另外,根据本发明,能够实现能够对在多个设施处测量出的大脑的活动的测量数据进行协调来客观地判断疾病群的亚型的脑功能连接相关值的聚类装置、脑功能连接相关值的聚类系统、脑功能连接相关值的聚类方法、脑功能连接相关值的分类器程序以及脑活动标记物分类系统。
附图说明
图1是用于针对由设置于多个测量地点处的MRI测量系统测量出的数据来说明协调化处理的概念图。
图2A是示出针对受验者的大脑的关心区域(ROI:Region of Interest)提取表示静息态的功能连接的相关性的相关阵列的过程的概念图,是示出rsfMRI的时间序列数据的图。
图2B是示出针对受验者的大脑的关心区域提取表示静息态的功能连接的相关性的相关阵列的过程的概念图,是示出相关阵列的图。
图3A是示出“测定参数”的内容的例子的概念图。
图3B是示出“受验者属性数据”的内容的例子的概念图。
图4是示出设置于各测量地点处的MRI装置100.i(1≤i≤Ns)的整体结构的示意图。
图5是数据处理部32的硬件框图。
图6是对根据相关阵列生成成为诊断标记物的判别器的过程和聚类处理进行说明的概念图。
图7是用于说明计算处理系统300的结构的功能框图。
图8是用于说明计算处理系统300的结构的功能框图。
图9是用于说明用于通过集成学习生成疾病识别器的机器学习的过程的流程图。
图10是示出学习用的数据集(数据集1)的人群特性的图。
图11是示出独立验证的数据集(数据集2)的人群特性的图。
图12是示出关于全部拍摄地点的对于学习用数据集的MDD的预测性能(输出的概率分布)的图。
图13是示出关于各拍摄地点的对于学习用数据集的MDD的预测性能(识别器的输出的概率分布)的图。
图14是示出独立的验证数据集中的MDD的识别器的输出的概率分布的图。
图15是示出关于各拍摄地点的、MDD的识别器对于独立验证数据集的输出的概率分布的图。
图16是用于说明选择特征量并通过无监督学习进行聚类的处理的流程图。
图17是示出在存在多个(例如Nch个)特征量的情况下通过“伴有特征量选择的学习处理”来实施特征量的选择的概念的图。
图18是示出通过伴有特征量选择的学习处理在生成一个识别器时最终选择的特征量的概念图。
图19是示出在多次实施欠采样和下采样的处理而生成识别器时选择特征量的情形的概念图。
图20是用于说明依据特征量而存在簇的多种划分方式的情况的概念图。
图21A是用于说明用多个特征量表征多个对象的情况下的聚类的概念的概念图。
图21B是用于说明用多个特征量表征多个对象的情况下的聚类的概念的概念图。
图22A是用于说明多重聚类的概念图。
图22B是用于说明多重共聚类的概念图。
图23是示出在“多重共聚类”中在一个视图中设想了不同种类的概率分布的概率模型的情况的概念图。
图24是用于说明多重共聚类的学习方法的概要的流程图。
图25是示出多重共聚类的学习方法中的贝叶斯估计的图形表现的图。
图26A是示出被分割为两个的数据集中的数据集1的图。
图26B是示出被分割为两个的数据集中的数据集2的图。
图27是说明在各数据集中实施聚类的概念的概念图。
图28是示出针对受验者数据的多重共聚类的例子的概念图。
图29是示出对数据集1和数据集2实际实施多重共聚类处理所得到的结果的图。
图30是示出对数据集1和数据集2中的各个视图分配的脑功能连接(FC)的个数的表。
图31是用于说明聚类的相似度(分层的通用化性能)的评价手法的概念图。
图32A是用于说明ARI的概念图。
图32B是用于说明ARI的概念图。
图33A是以表形式示出针对数据集1和数据集2各自的视图计算ARI所得到的结果的图。
图33B是示出聚类1与聚类1′之间、以及聚类2与聚类2′之间的相似度的评价结果的图,是示出与图33A对应的置换检验(Permutation Test)的结果的图。
图34是示出对聚类1和聚类1′各自的视图1的各簇分配的受验者数的分布的表。
图35是用于说明在地点间移动来接受测量的移动受验者的地点间差异的评价手法的概念图。
图36是用于说明受验者a的第b个功能连接性的表现的概念图。
图37是用于说明计算用于协调化的测量偏倚的处理的流程图。
图38是用于说明追加了新的测量地点的情况下的用于协调化处理的测定偏倚的计算处理的概念图。
图39A是示出协调化处理中使用的多疾病数据库的数据集的概念图。
图39B是示出协调化处理中使用的多设施受检者的数据集的概念图。
图40是示出SRPBS的多疾病数据集的内容的图。
图40A是示出SRPBS的多疾病数据集的内容的图。
图40B是示出SRPBS的多疾病数据集的内容的图。
图40C是示出SRPBS的多疾病数据集的内容的图。
图40D是示出SRPBS的多疾病数据集的内容的图。
图41是示出各测量地点处的拍摄协议的图。
图41A是示出各测量地点处的拍摄协议的图。
图41B是示出各测量地点处的拍摄协议的图。
图41C是示出各测量地点处的拍摄协议的图。
图41D是示出各测量地点处的拍摄协议的图。
图42是示出通过主成分分析得到的地点间差异和疾病效应的视觉化的图表。
图43是基于分层聚类分析的树状图。
图44是示出关于各因素的贡献大小的图。
图45是使协调化过程的影响视觉化的图,是与图42进行对比的图。
图46是示出分散地进行数据收集、估计处理以及对象者的脑活动测量的情况下的一例的功能框图。
图47是示出多设施受检者的巡回方式的图。
图48是示出聚类分类器的结构的概念图。
具体实施方式
下面,为了对本发明的“脑功能连接相关值的聚类装置”、“脑功能连接相关值的聚类方法”等进行说明,以利用人工智能技术对通过由多个脑活动测量装置构成的测量系统测量出的受验者(包括精神疾病的患者)的脑功能连接图像数据进行的“聚类”为例进行说明。
因此,下面按照附图来说明本发明的实施方式的测量系统、更具体地说MRI测量系统的结构。此外,在下面的实施方式中,标注有相同附图标记的构成要素和处理工序是相同或相当的构成要素和处理工序,在不必要的情况下,不重复对其进行说明。
另外,在本实施方式中,将本发明设为如下来进行说明:通过设置于多个设施处的“脑活动测量装置”、更具体地说“MRI装置”按时间序列测量大脑的多个区域间的脑活动,并基于这些区域间的时间相关性(称为“脑功能连接”)的图案,来以能够通用于多个设施的方式将特定的疾病的受验者进一步分类为多个组(子组)。
此外,虽然没有特别限定,但是对于“特定的疾病”,以“重性抑郁症”为例进行说明。但是,也如下面的说明所示,本发明涉及以数据驱动方式对受验者的“脑功能连接相关值”进行分类的技术,受验者的疾病不限于“重性抑郁症”,也可以是其它疾病。另外,只要是根据受验者的“脑功能连接相关值”的图案而分类的受验者的属性即可,未必一定是疾病,也可以是其它属性。
而且,对于这种“MRI测量系统”,将多个“MRI装置”设置于多个不同的设施处,如后述的那样,针对这些测量设施(测量地点)间的对于测量而言的地点间差异,独立地评价因测定设备而引起的测定偏倚和因测量地点处的受验者的数量而引起的差异(抽样偏倚)。在此基础上,通过对于各测量地点处的测量值实施去除测定偏倚的效应以校正地点间差异的处理,由此实现对于测量地点间的测定结果的调和处理(协调化)。而且,设为如下来进行说明:对于协调化后的脑功能连接值,使用将特定疾病的诊断标签作为训练数据的集成学习来进行“特征量选择”,之后通过无监督学习执行聚类,从而执行受验者属性(例如,精神疾病的亚型)的分类。
[实施方式1]
图1是用于说明针对由设置于多个测量地点处的MRI测量系统测量出的数据进行的聚类(分层)处理的概念图。
参照图1,设为在测量地点MS.1~MS.Ns(Ns:地点数量)处分别设置了MRI装置100.1~100.Ns。
另外,在测量地点MS.1~MS.Ns处,分别对受验者群PA.1~PA.Ns进行测量。设为受验者群PA.1~PA.Ns各自包含被分类为至少两个以上的群、例如患者群和健康者群。另外,作为患者群,虽然没有特别限定,但是例如相当于有精神疾病的患者、更确定地说“重性抑郁症的患者”的群的群。
而且,在各测量地点处,原则上按照MRI装置的规格而在可能的范围内以统一的测量协议对受验者实施测量。
在此,虽然没有特别限定,但是作为测量协议,例如设为规定了下面那样的内容。
1)执行头部的扫描的方向
例如,需要规定按从头部的后侧(posterior:下面简写为“P”)朝向前侧(anterior:下面简写为“A”)的方向(下面称为“P→A方向”)、以及相反的方向即从前侧朝向后侧的方向(下面称为“A→P方向”)中的哪一个方向进行扫描。根据状况的不同,也可能规定进行两个方向的扫描。
根据MRI装置的不同,也可能存在默认的方向不同、或者无法任意地对两个方向进行设定的情况。
扫描的方向例如可能规定作为图像而言的“变形方式”,从而将条件设定为协议。
2)脑构造图像的拍摄条件
设定用于通过所谓的自旋回波法拍摄“T1增强图像”、“T2增强图像”中的任一方或两方的条件。
3)脑功能图像的拍摄条件
设定用于通过fMRI(functional Magnetic Resonance Imaging:功能性磁共振成像)法拍摄“静息态”的受验者的脑功能图像的条件。
4)扩散增强图像的拍摄条件
设定是否拍摄扩散增强图像(DWI:diffusion(weighted)image(扩散加权成像)),而且设定该拍摄的条件。
扩散增强图像是MRI拍摄序列的一种,是使水分子的扩散运动图像化而得到的。扩散增强图像是利用如下的情况的图像:在通常使用的自旋回波法的脉冲系列中,能够忽略因扩散所致的信号的衰减,但是当长时间连续施加大的倾斜磁场时,由于该期间的各磁化向量的移动而产生的相位偏移无法再忽略,扩散越活跃的区域表现为越低信号。
5)用于通过图像处理来校正EPI畸变的拍摄
例如,作为用于通过图像处理来校正EPI畸变的一个方法,已知有“场图法”,针对空间畸变的校正来设定拍摄的条件。
场图法是根据多重回波时间来收集EPI图像,基于这些EPI图像计算EPI畸变的量。能够应用场图法来校正新的图像中包含的EPI畸变。能够以根据不同的回波时间对同一解剖学构造获得的一组图像为前提,计算EPI畸变,来校正图像的畸变。
例如,在下面的公知文献1中公开了“场图法”。将公知文献1的记载全部通过参照引用于此处。
公知文献1:日本特开2015-112474号说明书
此外,对于测量协议,可以从上述的条件中适当地提取需要的序列部分,也可以根据需要而追加其它序列、该其它序列的条件。
再次参照图1,将采用为在各测量地点MS.1~MS.Ns处进行测量的受验者称为“对受验者进行采样”,由于各测量地点处的采样的不均而产生的测量值的地点间差异的原因称为“抽样偏倚”。
例如,在上述的例子中,已知的是,在按以往的诊断基准被诊断为“重性抑郁症”的患者中实际包括一些亚型患者。
典型的是,存在“忧郁症性”、“非典型”、“季节性”、“产后”抑郁症等。另外,还报告有:“用作用机制不同的两种以上的抗抑郁药充分治疗而没有充分改善并持续中症以上的症状的情况”被称为“难治型抑郁症”,并且被估计为抑郁症的10%~20%。即,已知通常被诊断为“重性抑郁症”的患者群绝不是同质性的患者。但是,基于客观的测量数据对这样的亚型进行分类的手法目前为止并未实现实用化。
在各测量地点处,由于前往该测量地点的医院就诊的患者的因地域性而引起的性质的偏颇、该医院中的诊断的倾向等各种因素,即使总体上说是“重性抑郁症”的患者,但该患者群中包括的亚型的分布也未必是均匀的。其结果是,各测量地点的患者群的亚型分布通常会产生不均,其结果被认为产生上述的“抽样偏倚”。
另外,即使是被称为“健康群”的受验者的群,在该群中也通常存在多个亚型,在这一点上,“健康群”也存在“抽样偏倚”。
另外,MRI装置100.1~100.Ns也不能说是在各测量地点使用了具有绝对相同的测量特性的MRI装置。
例如,能够与MRI装置的制造商、MRI装置的型号、MRI装置的静磁场强度、MRI装置中的(发送)接收线圈的线圈数(通道数)等MRI装置的条件、MRI装置的测量条件等测定条件相应地产生测量数据的地点间差异。将由于这种测定条件而产生的地点间差异称为“测定偏倚”。
即使是相同的MRI装置的制造商的相同型号的MRI装置,也由于装置的固有的独特性而不能说一定实现完全相同的测量特性。
在此,(发送)接收线圈一般来说为了提高测量出的信号的SN比而采用“多阵列线圈”。“接收线圈的线圈数”是指构成多阵列线圈的“元件线圈”的个数。通过提高各个元件线圈的灵敏度,并捆绑其输出,由此实现接收灵敏度的提高。
而且,虽然没有特别限定,但是在本实施方式中,能够通过如后面说明的协调化手法来独立地评价“抽样偏倚”和“测定偏倚”。
再次参照图1,来自各测量地点MS.1~MS.Ns的每一个测量地点的测量关联数据DA100.1~DA100.Ns被累积并保存到数据中心200内的存储装置210。
在此,在“测量关联数据”中包含各测量地点处的“测定参数”以及在各测量地点处测量出的“患者群数据”和“健康群数据”。
并且,在“患者群数据”和“健康群数据”中分别与各个受验者对应地包含“患者的MRI测量数据”和“健康者的MRI测量数据”。
下面,对这种“测量关联数据”进行说明。
图2A和图2B是示出针对受验者的大脑的关心区域提取表示静息态的功能连接的相关性的相关阵列的过程的概念图。图2A是示出rsfMRI的时间序列数据的图,图2B是示出其相关阵列的图。
在此,在图1中,在“患者群数据”和“健康群数据”中的“患者的MRI测量数据”和“健康者的MRI测量数据”中至少包含如下的数据。
i)用于计算相关阵列的数据的按时间序列的“脑功能图像数据”,和/或相关阵列的数据本身
即,图1中的计算处理系统300将这些数据用作成为在基于存储装置210内保存的数据计算如后述那样的脑活动生物标记物时的基础的数据。
在此,能够设为如下的结构:在各测量地点处基于按时间序列的“脑功能图像数据”计算出相关阵列的数据之后,将相关阵列的数据保存到存储装置210内,计算处理系统300基于该存储装置210内的相关阵列的数据来计算脑活动生物标记物。
或者,也能够设为如下的结构:将按时间序列的“脑功能图像数据”保存到存储装置210内,计算处理系统300基于该存储装置210内的“脑功能图像数据”来计算相关行例的数据,再计算脑活动生物标记物。
因而,关于“患者的MRI测量数据”和“健康者的MRI测量数据”的各个数据,至少包含用于计算相关阵列的数据的按时间序列的“脑功能图像数据”和相关阵列的数据本身中的任一方。
ii)受验者的构造图像数据和扩散增强图像数据
此外,虽然没有特别限定,但是关于通过图像处理来校正EPI畸变的处理,能够设为在各测量地点处进行了运算处理之后将数据保存到存储装置210内的结构。
另外,虽然没有特别限定,但是从个人信息保护的观点出发,能够设为在将数据保存到存储装置210内之前在各测量地点处执行匿名加工处理的结构。其中,关于匿名加工处理,可以设为在运营计算处理系统300的主体被合法授权处理个人信息等情况下在计算处理系统300中执行匿名加工处理的结构。
返回图2A和图2B,如图2A所示,根据实时测定出的静息态的fMRI的n个(n:自然数)时刻的fMRI数据计算各关心区域的平均的“活动度”,如图2B所示,计算脑区域间(关心区域间)的功能连接性(“活动度的相关值”)的相关阵列。
(脑区域的划分(分割:Parcellation))
计算功能连接性,来作为依赖于各参加者的两个脑区域间的静息态的功能MRI的血中氧浓度的、(BOLD)信号的时间上的相关性。
在此,作为关心区域,由于如上述那样考虑Nr区域,因此当考虑对称性时,相关阵列中的独立的非对角成分为
Nr×(Nr-1)/2(个)。
作为关心区域的设定的方法,假定如下那样的方法。
方法1)“基于解剖学上的脑区域来定义关心区域。”
在此,对于脑活动生物标记物,例如采用140个区域作为关心区域。
也就是说,在该方法中,关于ROI,除了使用脑沟图谱(Brain Sulci Atlas:BAL)中包含的137个ROI以外,还使用自动解剖标记图集(Automated Anatomical LabelingAtlas)的小脑(左右)和蚓部的ROI。将这些共140个ROI间的功能连接FC用作特征量。
在此,脑沟图谱(Brain Sulci Atlas:BAL)和自动解剖标记图集(AutomatedAnatomical Labeling Atlas)在下面中有公开。将下面的公知文献2和公知文献3各自的记载全部通过参照引用于此处。
公知文献2:Perrot et al.,Med Image Anal,15(4),2011
公知文献3:Tzourio-Mazoyer et al.,Neuroimage,15(1),2002
作为这样的关心区域,例如是如下的区域。
背内侧前额叶皮层(DMPFC)、
腹内侧前额叶皮质(VMPFC)、
前扣带皮层(ACC)、
小脑蚓部、
左丘脑、
右下顶叶、
右尾状核、
右枕中叶、
右中扣带皮层。
其中,采用的大脑的区域不限定于这样的区域。
例如,也可以与设为对象的神经/精神疾病相应地变更要选择的区域。
方法2)“基于覆盖整个大脑的功能大脑地图的脑区域来定义功能连接性。”
在此,关于这种功能大脑地图的脑区域,在如下的文献中也进行了公开,虽然没有特别限定,但是例如能够设为由268个节点(脑区域)构成这样的结构。将下面的公知文献4至公知文献7各自的记载全部通过参照引用于此处。
公知文献4:Noble S,et al.Multisite reliability of MR-based functionalconnectivity(基于MR的功能连接的多站点可靠性).Neuroimage 146,959-970(2017).
公知文献5:Finn ES,et al.Functional connectome fingerprinting:identifying individuals using patterns of brain connectivity(功能连接组指纹图谱:利用大脑连接图案识别个体).Nat Neurosci 18,1664-1671(2015).
公知文献6:Rosenberg MD,et al.A neuromarker of sustained attentionfrom whole-brain functional connectivity(从全脑功能连接看持续注意的神经标志物).Nat Neurosci 19,165-171(2016).
公知文献7:Shen X,Tokoglu F,Papademetris X,Constable RT.Groupwisewhole-brain parcellation from resting-state fMRI data for network nodeidentification(从静止状态的fMRI数据中进行全脑分组解析,用于网络节点识别).Neuroimage 82,403-415(2013).
方法3)基于表面的方法
关于脑区域的分割,通过使用人类连接组项目(HCP)型的多模式生物成像(髓鞘任务态功能(myelin task functional)),也能够利用基于将大脑变换为沿着脑沟的薄片状而制作出的大脑地图的“基于表面的方法”来分析数据。
对于这样的分割法,能够使用如下面的站点中公开的工具箱(ciftify工具箱2.0.2版)。https://edickie.github.io/ciftify/#/
该工具箱使得(例如即使在缺少HCP管线所需要的T2增强图像的情况下也)能够在类似HCP的基于表面的管线中对使用的数据进行分析。
而且,在方法3的解析中,作为关心区域(ROI),使用下面的公知文献8中公开的379个基于表面的分区(皮层的360个分区+皮层下的19个分区)。将下面的公知文献8的记载全部通过参照引用于此处。
公知文献8:Glasser,M.F.,Coalson,T.S.,Robinson,E.C.,Hacker,C.D.,Harwell,J.,Yacoub,E.,et al.(2016).A multi-modal parcellation of humancerebral cortex(人类大脑皮层的多模态分割).Nature 536(7615),171-178.doi:10.1038/nature18933.
因而,从这些379个关心区域(ROI)提取BOLD信号的时间变化。
并且,能够通过使用如下面的公知文献9中公开的解剖学自动标记(AAL)以及Neurosynth(http://neurosynth.org/locations/),来确定重要的ROI的解剖学名称以及包含ROI在内的固有脑网络的名称。将下面的公知文献9的记载全部通过参照引用于此处。
公知文献9:Tzourio-Mazoyer,N.,Landeau,B.,Papathanassiou,D.,Crivello,F.,Etard,O.,Delcroix,N.,et al.(2002).Automated anatomical labeling ofactivations in SPM using a macroscopic anatomical parcellation of the MNI MRIsingle-subject brain(使用MNI MRI单体脑的宏观解剖解析,对SPM中的激活进行自动解剖标记).Neuroimage 15(1),273-289.doi:10.1006/nimg.2001.0978.
方法4)以数据驱动的方式确定大脑的区域的方法
如下述的公知文献10中所公开的那样,是在没有先验信息(大脑地图)的情况下根据相位一致的体素新鉴定网络的手法,是被称为“Canonical ICA”、“词典学习”等的手法。将下面的公知文献10的记载全部通过参照引用于此处。
公知文献10:Kamalaker Dadi,Mehdi Rahim,Alexandre Abraham,DaryaChyzhyk,Michael Milham,Bertrand Thirion,Gael Varoquaux,“Benchmarkingfunctional connectome-based predictive models for resting-state fMRI(基于功能连接组的静息态fMRI预测模型的基准测试)”,Preprint submitted to NeuroImage,October 31,2018.
下面,设为基本上使用基于“方法3”的基于表面的大脑地图的脑区域定义功能连接性的方法来进行说明。
另外,作为相关值的计算,对于功能连接性的测量存在若干个候选,例如切线法、局部相关法。
然而,下面,虽然没有特别限定,但是设为使用皮尔逊相关系数来进行说明。
关于被预处理后的BOLD信号的每个可能的节点组的时间经过的期间,计算fisher-z变换后的皮尔逊相关系数,并使用于构建379×379的对称的脑功能连接矩阵,该脑功能连接矩阵的元素分别表示两个节点间的连接性的强度。
图3A和图3B是分别示出“测定参数”和“受验者属性数据”的内容的例子的概念图。
“受验者属性数据”设为在图1的“患者群数据”或“健康群数据”中被与“患者的MRI测量数据”及“健康者的MRI测量数据”分别进行关联来保存。
如图3A所示,包含用于识别测量地点的地点ID、地点名称、用于识别测定参数的条件ID、与测量装置有关的信息以及与测量条件有关的信息。
“测定参数”包含“与测量装置有关的信息”以及“与测量条件有关的信息”。
在“与测量装置有关的信息”中包含在各测量地点处用于测量受验者的脑活动的MRI装置的制造商名称、型号以及(发送)接收线圈数。
此外,“与测量装置有关的信息”不限于这些,例如也可以包含静磁场强度、匀场(shimming)调整后的磁场的均匀性等其它的表示测量装置的性能的指标等。
在“与测量条件有关的信息”中包含图像重构时的相位编码的方向(P→A或A→P)、图像种类(T1增强、T2增强、扩散增强等)、拍摄序列(自旋回波等)、拍摄中的受验者的睁眼/闭眼等信息。
“与测量条件有关的信息”也不限于这些。
如图3B所示,“受验者属性数据”包含以不能识别出受验者的方式进行了匿名控制的受验者临时ID、表示对该受验者进行测量时的测定条件的条件ID、受验者的属性信息。
而且,作为“受验者的属性信息”,包含受验者的性别、年龄、表示健康和疾病中的任一者的标签、由医生对受验者诊断出的诊断病名称、给受验者用药的用药历史记录、诊断历史记录等信息。
此外,“受验者的属性信息”设为根据需要而例如在测量地点处被进行了匿名加工处理。
例如,关于年龄、性别等,能够以维持“k-匿名性”的方式进行加工,“k-匿名性”是通过进行以使准标识符(相同属性)的数据为k件以上的方式转换数据等处理来将个人被确定出的概率降低为k分之一以下从而难以进行确定。在此,“准标识符”是指虽然无法以“年龄”、“性别”、“居住地”等单个信息进行确定但是能够通过将它们进行组合来确定出个人的属性。
另外,用药历史记录、诊断历史记录根据需要而被进行用于匿名化的处理,例如随机生成日期、调整(相对改变)日期等。
而且,下面,对于“患者的MRI测量数据”和“健康者的MRI测量数据”,将作为经时的各受验者的脑区域间的活动的相关性而通过上述的方法计算出的功能连接统称为各区域间的“功能连接性(Connectivity)”(在省略时表述为“FC”)。在需要对各脑区域区分功能连接性的情况下,设为如后述那样附加后缀来进行区分。
[MRI装置的结构]
图4是示出设置于各测量地点处的MRI装置100.i(1≤i≤Ns)的整体结构的示意图。
在图4中,例示性地详细说明了第一个测量地点处的MRI装置100.1。关于其它的MRI装置100.2~100.Ns,基本结构也是相同的。
如图4所示,MRI装置100.1具备:磁场施加机构11,其对受验者2的关心区域施加受到控制的磁场并照射RF波;接收线圈20,其接收来自该受验者2的响应波(NMR信号)并输出模拟信号;驱动部21,其对施加给该受验者2的磁场进行控制,并且控制RF波的发送和接收;以及数据处理部32,其用于设定该驱动部21的控制序列,并且对各种数据信号进行处理来生成图像。
此外,在此,将用于载置受验者2的圆筒形状的腔(bore)的中心轴取为Z轴,将X轴定义为与Z轴正交的水平方向,将Y轴定义为与Z轴正交的铅直方向。
MRI装置100.1由于是这样的结构,因此构成受验者2的原子核的核自旋通过由磁场施加机构11施加的静磁场而被取向为磁场方向(Z轴),并且在该原子核固有的拉莫尔频率下进行以该磁场方向为轴的岁差运动。
而且,当照射与该拉莫尔频率相同的RF脉冲时,原子进行共振,吸收能量而被激励,产生磁共振现象(NMR现象;核磁共振(Nuclear Magnetic Resonance))。在该共振后,当停止RF脉冲照射时,原子在释放能量而恢复为原始的稳定状态的弛豫过程中输出与拉莫尔频率相同的频率的电磁波(NMR信号)。
通过接收线圈20接收所输出的该NMR信号作为来自受验者2的响应波,在数据处理部32中将受验者2的关心区域进行图像化。
磁场施加机构11具备静磁场产生线圈12、倾斜磁场产生线圈14、RF照射部16以及用于将受验者2置于腔内的卧具18。
受验者2例如仰卧在卧具18上。虽然没有特别限定,但是受验者2例如能够利用棱镜眼镜4观看与Z轴垂直设置的显示器6上显示的画面。也能够根据需要来通过该显示器6的图像对受验者2施加视觉刺激。此外,给予受验者2的视觉刺激也可以是通过投影仪将图像投影于受验者2的眼前的结构。
在对受验者进行神经反馈的情况下这样的视觉刺激相当于反馈信息的呈现。
驱动部21具备静磁场电源22、倾斜磁场电源24、信号发送部26、信号接收部28以及将卧具18移动到Z轴方向上的任意位置的卧具驱动部30。
数据处理部32具备:输入部40,其受理由操作者(省略图示)进行的各种操作、信息输入;显示部38,其将与受验者2的关心区域有关的各种图像及各种信息显示于画面;显示控制部34,其对显示部34的显示进行控制;存储部36,其存储用于执行各种处理的程序/控制参数/图像数据(构造图像等)以及其它的电子数据;控制部42,其对各功能部的动作、例如产生用于使驱动部21进行驱动的控制序列等进行控制;接口部44,其与驱动部21之间执行各种信号的发送接收;数据收集部46,其收集由源自关心区域的一组NMR信号构成的数据;图像处理部48,其基于该NMR信号的数据来形成图像;以及网络接口50,其用于与网络之间执行通信。
另外,数据处理部32除了是专用计算机的情况以外,还包含是执行用于使各功能部动作的功能、并且基于安装在存储部36中的程序来进行指定的运算、数据处理、控制序列的产生的通用计算机的情况。下面,设数据处理部32为通用计算机来进行说明。
静磁场产生线圈12通过被静磁场电源22供给的电流流过绕Z轴卷绕的螺旋线圈而产生感应磁场,在腔内产生Z轴方向的静磁场。将受验者2的关心区域设定于该腔内形成的静磁场的均匀性高的区域。在此,更详细地说,静磁场产生线圈12例如由4个空芯线圈构成,通过该组合来在内部生成均匀的磁场,对受验者2的体内的规定的原子核、更确定地说氢原子核的自旋赋予取向性。
倾斜磁场产生线圈14由X线圈、Y线圈以及Z线圈(省略图示)构成,设置于呈圆筒形状的静磁场产生线圈12的内周面。
此外,为了提高倾斜磁场的均匀性而设置了匀场线圈(未图示),实施“匀场调整”。
这些X线圈、Y线圈以及Z线圈分别一边依次切换X轴方向、Y轴方向以及Z轴方向一边对腔内的均匀磁场叠加倾斜磁场,来对静磁场赋予强度梯度。Z线圈在激励时使磁场强度向Z方向倾斜来限定共振面,Y线圈紧接着Z方向的磁场施加之后给予短时间的倾斜来对检测信号施加与Y坐标成比例的相位调制(相位编码),X线圈接下来在数据提取时给予倾斜来对检测信号施加与X坐标成比例的频率调制(频率编码)。
通过按照控制序列从倾斜磁场电源向X线圈、Y线圈以及Z线圈分别输出不同的脉冲信号来实现该被叠加的倾斜磁场的切换。由此,能够确定被发现NMR现象的受验者2的位置,提供形成受验者2的图像所需要的三维坐标上的位置信息。
在此,如上所述,能够使用三组正交的倾斜磁场,并对各个倾斜磁场分配层面选择方向、相位编码方向以及频率编码方向,通过它们的组合来从各种角度进行摄影。例如,除了与一般通过X射线CT装置拍摄的图像相同方向的横断层面以外,还能够对与横断层面正交的弧矢层面、冠状层面、以及垂直于面的方向不与三组正交的倾斜磁场的轴平行的倾斜层面等进行拍摄。
RF照射部16按照控制序列,基于从信号发送部26发送的高频信号,来向受验者2的关心区域照射RF(Radio Frequency:射频)脉冲。
此外,RF照射部16在图1中被内置于磁场施加机构11,但是也可以设置于卧具18,或者与接收线圈20一体化来构成为发送接收线圈。
接收线圈20用于检测来自受验者2的响应波(NMR信号),为了高灵敏度地检测该NMR信号而被配置为接近受验者2。
在此,在接收线圈20中,当NMR信号的电磁波切割接收线圈20的线圈线材时,基于电磁感应产生微弱电流。该微弱电流在信号接收部28中被放大,并且被从模拟信号变换为数字信号后发送到数据处理部32。
关于(发送)接收线圈20,如上述那样为了提高SN比而使用多阵列线圈。
即,当通过RF照射部16对在静磁场中施加了Z轴倾斜磁场的状态下的受验者2施加共振频率的高频电磁场时,磁场强度为共振条件的部分的规定原子核、例如氢原子核被选择性地激励而开始共振。满足共振条件的部分(例如受验者2的规定厚度的断层)内的规定原子核被激励,(在传统的图像绘制中)自旋轴同时进行旋转。当使激励脉冲停止时,在接收线圈20中,此时旋转着的自旋轴辐射的电磁波感应出信号,并在一段时间内检测到该信号。通过该信号,来观察受验者2的体内的含有规定原子的组织。而且,为了获知信号的发出位置,构成为施加X和Y的倾斜磁场来探测信号。
图像处理部48基于存储部36中所构建出的数据,来重复施加激励信号并对检测信号进行测定,通过第一次的傅立叶变换计算将共振的频率还原为X坐标并通过第二次的傅立叶变换还原Y坐标来获得图像,并在显示部38中显示对应的图像。
例如,通过这样的MRI系统,实时地拍摄上述的BOLD信号,通过控制部42对按时间序列拍摄的图像进行后面说明的那样的解析处理,由此能够进行静息态功能连接的MRI(rs-fcMRI)的拍摄。
在图4中,来自MRI装置100.1和其它测量地点处的MRI装置100.2~100.Ns的测量数据、测定参数、受验者属性数据经由数据中心200内的通信接口202被累积并保存在存储装置210中。并且,计算处理系统300构成为经由通信接口204访问存储装置210内的数据。
图5是数据处理部32的硬件框图。
作为数据处理部32的硬件,如上述那样,虽然没有特别限定,但是能够使用通用计算机。
在图5中,数据处理部32的计算机主体2010除了包括存储器驱动器2020、磁盘驱动器2030以外,还包括运算装置2040、与磁盘驱动器2030及存储器驱动器2020连接的总线2050、用于存储启动程序等程序的ROM 2060、用于临时存储应用程序的命令并且提供临时存储空间的RAM 2070、用于存储应用程序、系统程序及数据的非易失性存储装置2080、以及通信接口2090。通信接口2090相当于用于与驱动部21等进行信号的发送接收的接口部44以及用于经由未图示的网络来与其它计算机进行通信的网络接口50。此外,作为非易失性存储装置2080,能够使用硬盘(HDD)、固态硬盘(SSD:Solid State Drive)等。非易失性存储装置2080相当于存储部36。
运算装置2040通过基于程序执行的运算处理,来实现数据处理部32的各功能、例如控制部42、数据收集部46、图像处理部48的各功能。
用于使数据处理部32执行上述实施方式的功能的程序也可以被存储于DVD-ROM2200或存储器介质2210中,通过插入到磁盘驱动器2030或存储器驱动器2020中来被进一步传输到非易失性存储装置2080。程序在执行时被加载到RAM 2070中。
数据处理部32还具备作为输入装置的键盘2100和鼠标2110、以及作为输出装置的显示器2120。键盘2100和鼠标2110相当于输入部40,显示器2120相当于显示部38。
用于作为如上所述的数据处理部32来发挥功能的程序也可以不必一定包括用于使计算机主体2010执行信息处理装置等的功能的操作系统(OS)。程序只要仅包括使得以受到控制的方式调用适当的功能(模块)来获得期望的结果的命令的部分即可。数据处理部32如何进行动作是周知的,省略详细的说明。
另外,执行上述程序的计算机可以为单个,也可以为多个。即,可以进行集中处理,或者也可以进行分散处理。
另外,计算处理系统300内的硬件虽然也可能存在使运算处理装置并行化、或者将GPGPU(General-purpose computing on graphics processing units:通用计算图形处理单元)加以使用等结构上的差异,但是基本结构与图5所示的结构是相同的。
(基于脑功能连接的、疾病/健康的判别器的生成处理和聚类处理)
图6是对根据如图2B中所说明的相关阵列生成成为诊断标记物的判别器的过程和聚类处理进行说明的概念图。
作为机器学习的处理,关于判别器的生成,执行所谓的“有监督学习”的处理,关于聚类处理,执行“无监督学习”的处理。
而且,聚类处理本身是“无监督学习”,并不使用医生的诊断等信息,因此进行聚类处理的结果所得到的各个簇是以数据驱动方式得到的患者的组,在患者被划分为亚型的情况下,成为将脑功能连接作为特征量的“患者的分层”的基础。
如图6所示,首先,在多个MRI装置中,对于健康群、患者群拍摄静息态的fMRI图像数据,计算处理系统300对这样的fMRI图像数据实施后述那样的“预处理”。接着,计算处理系统300根据测定出的静息态功能连接的MRI的数据,来针对各个受验者进行脑区域的分割处理,导出脑区域间(关注区域间)的活动度的相关阵列。
接着,关于相关阵列的非对角成分,如后述那样事先导出对应的测定偏倚,计算处理系统300通过从相关行例的元素的值减去该测定偏倚来执行协调化处理。
并且,在进行协调化处理后的相关阵列的元素值与关于各受验者的疾病标签(表示疾病或健康的标签)之间,计算处理系统300抑制过度学习,将伴有特征选择的识别器的生成作为后述那样的“基于集成学习的识别器生成处理”来实施,从而生成为能够预测受验者的疾病或健康的疾病识别器(诊断标记物)。
另一方面,计算处理系统300在集成学习中实施从在针对疾病标签生成识别器的生成处理中确定出的特征量(脑功能连接)中选择后述那样的用于聚类的特征量的特征量选择处理,之后通过“无监督学习”执行多重共聚类处理。
下面,更详细地说明图6中的各处理。
[从预处理到疾病识别的生成和聚类处理为止的概要]
(静息态功能连接FC矩阵的预处理和计算)
测量出的fMRI数据的例如最初10秒因考虑T1平衡而被废弃。
在预处理的步骤中,计算处理系统300实施时间层的校正、用于对头部能够观察到的身体运动伪像进行校正的重校准处理、脑功能图像(EPI图像)与形态图像的共配准(co-registration)、畸变校正、T1增强构造图像的分割、向蒙特利尔神经研究所(MNI)空间的归一化、以及使用例如6mm半值全宽的各向同性的高斯核进行的空间的平滑化等处理。
关于这种预处理的管线处理,例如在下面的站点中有公开。
http://fmriprep.readthedocs.io/en/latest/workflows.html
(脑区域的划分(分割:Parcellation))
关于脑区域的分割,虽然没有特别限定,但是能够按照上述的“方法3”,通过“基于表面的方法”来实施。
(生理噪声回归)
生理噪声回归是应用下面的文献11中公开的CompCor来执行的。将公知文献11的记载全部通过参照引用于此处。
公知文献11:Behzadi,Y.,Restom,K.,Liau,J.,and Liu,T.T.(2007).Acomponentbased noise correction method(CompCor)for BOLD and perfusion based fMRI(基于BOLD和灌注的fMRI的基于分量的噪声校正方法(CompCor)).Neuroimage 37(1),90-101.doi:10.1016/j.neuroimage.2007.04.042.
为了去除一些杂散源(多余的信号源),使用了具备6个运动参数、全脑等回归总体参数的直线回归。
(时间滤波)
计算处理系统300使用具备例如0.01Hz与0.08Hz之间的通带的巴特沃斯滤波器作为时间带通滤波器,对时间序列数据应用该巴特沃斯滤波器,来将分析限定为作为BOLD活动的特性的低频的变动。
(头部运动)
在各个功能会话中计算框架位移(FD:Frame-wise displacement),为了减少因头部运动而引起的功能连接FC的杂散变化,例如去除FD>0.5mm的体积(volume)。
FD作为标量(也就是说,平移运动和旋转中的绝对位移的相加)而表示时间上连续的两个体积间的头部运动。
例如,在后述的具体例中,在如上所述的具体的数据集中,在清理后去除的体积的比率超过(平均±3×标准偏差)的情况下,该参加者的数据被排除于分析之外。其结果是,在数据集整体中去除了35名参加者。因而,在学习用数据集中使用683名参加者(545名HC、138名MDD),在独立的验证数据集中使用444名参加者(263名HC、181名MDD的患者)的数据进行下面的分析。
(功能连接(FC)矩阵的计算)
在本实施方式的具体例中,在通过如上所述的分割法进行区域的分割之后,对于各参加者,涉及379个关心区域(ROI)地计算功能连接FC来作为BOLD信号的时间相关性。
在功能连接的计算中,虽然没有特别限定,但是在此使用皮尔逊相关系数。
在各个可能的组的ROI的预处理后的BOLD信号的时间经过期间内计算fisher-z变换后的皮尔逊相关系数,构建元素分别表示两个ROI间的连接强度的379行×379列的对称连接矩阵。
并且,为了进行分析,使用连接矩阵的下三角阵列的71,631(=(379×378)/2)的功能连接FC的值。
(用于脑活动生物标记物的协调化处理)
在收集与精神疾病相关联的大数据时,如上述那样,在一个地点收集大规模的脑图像数据(与人的疾病有关的连接组)几乎是不可能的,因此需要从多个地点收集图像数据。
完全地控制MRI装置(扫描仪)的类型、协议以及患者层是很难的。因而,对所收集的数据进行解析要使用在不同条件下拍摄到的脑图像数据。
特别是,疾病因素存在与地点因素交织的倾向,因此在通过对这种不同条件下的数据应用机器学习技术来提取疾病因素的情况下,地点间差异成为最大的障碍。
一个地点(或医院)往往采样很少的几种精神疾病(例如,从地点A主要采样精神分裂症,从地点B主要采样自闭症,从地点C主要采样重性抑郁症等),因此产生交织。
为了适当地管理这种不同条件下的数据,需要对地点间的数据进行协调(调和)。
地点间差异本质上包括两种类型的偏倚。
是技术上的偏倚(也就是测定偏倚)和生物学上的偏倚(也就是抽样偏倚)。
测定偏倚包括拍摄参数、电场的强度、MRI装置制造商以及扫描仪的类型那样的MRI扫描仪的特性的差异,抽样偏倚与地点间的受验者的组的差异进行关联。
因此,需要用于补偿这种地点间差异的“协调化处理”。在上述非专利文献8(AyumuYamashita等)中记载了该协调化处理的详细内容,该内容在后面记述。
(基于集成学习的疾病识别器)
在本说明书中,设为“集成学习”这一术语是指如下的处理:从原学习数据中进行重置抽样来制作K组学习数据,对于各个学习数据,独立地通过机器学习处理来生成K个识别器,对这K个识别器进行整合而生成判别器。
特别是,在此是以对于特定疾病而根据某受验者的脑功能连接图案来判别该受验者是患有疾病还是健康为目的,因此各个识别器是针对两类识别问题的识别器。
而且,在从原学习数据中进行重置抽样而制作K组学习数据时,如后述那样执行“欠采样”和“下采样”。
在此,也能够使用如基于L1正则化的识别器(LASSO(Least Absolute Shrinkageand Selection Operator:最小绝对收缩与选择算子)法)那样的“基于伴有特征量选择的学习处理的识别器”、使用脊正则化法(L2正则化)等的正则化学习法。
在此,“正则化学习法”是指如下的学习方法:虽然将原来的训练数据的特征量整体作为学习的对象,但是在学习算法中,在使模型学习时,设置对于复杂度增加的惩罚,求出使该惩罚与训练误差相加的量最小的学习模型,从而想要提高通用化性能。而且,L1正则化使用学习模型的(与特征量对应的)参数的绝对值的总和作为惩罚,L2正则化使用学习模型的参数的平方的总和作为惩罚。此外,也可能存在利用模型中所使用的特征量的个数本身作为惩罚的L0正则化。
另外,LASSO法(L1正则化)是能够进行所谓的稀疏估计的手法,作为其派生形式,有Elastic Net法、Group Lasso法、Fused Lasso法、Adaptive Lasso法、Graphical Lasso法等。
另一方面,作为“基于伴有特征量选择的学习处理的识别器”,也能够利用如“随机森林法”那样在识别器的生成中进行特征量的选择并同时得到特征量的重要度的手法。
此外,作为这样的“通过集成学习生成识别器的生成手法”,虽然以后以LASSO法为中心进行说明,但是该手法并不限定于如上所述的手法。例如,也可以是如下的集成学习法等:作为分割法而使用词典学习(Dictionary Learning)的手法来以存在数据依赖性的方式设定解析对象脑区域,作为脑功能连接的值,使用切线法(tangent-space covariance:切线空间协方差),并使用后述的ComBat法对数据集内的脑功能连接FC进行设施间校正,通过脊正则化来生成识别器。分割法、脑功能连接的计算方法、协调化法、识别器的生成方法等也可以是其它组合。例如,作为脑功能连接的计算方法,也能够使用距离相关性。在此,“距离相关性”是指不像皮尔逊相关法那样将脑区域内的活动图案平均化而是计算活动图案的相似度的方法,在下面的公知文献12和公知文献13中有公开。将公知文献12和公知文献13各自的记载全部通过参照引用于此处。
公知文献12:G.J.Szekely,M.L.Rizzo,N.K.Bakirov,Measuring and testingindependence by correlation of distances(通过距离相关性测量和测试独立性),Ann.Statist.,35(6)(2007),pp.2769-2794
公知文献13:https://en.wikipedia.org/wiki/Distance_correlation
如后述那样,在本实施方式中,在这样的集成学习中,在使识别器学习时,确定用于实现各特征量的识别这样的功能的“重要度”。
(用于聚类的特征量选择和聚类)
作为“集成学习”,针对K组学习数据执行用于在生成K个识别器的过程中从在生成各个识别器所使用的“第一特征量”的并集中进一步确定通过“无监督学习”执行聚类时的第二特征量的集合的处理。
虽然没有特别限定,但是例如下面那样来决定“重要度”。
i)在通过集成学习来生成K个识别器的学习手法为“伴有特征量选择的学习处理”的情况下,在生成识别器所选择的“第一特征量”的并集中,根据在生成K个识别器时被使用的频度来对特征量进行排序。
ii)在通过集成学习来生成K个识别器的学习手法为如“随机森林法”那样在识别器的生成中能够得到特征量的重要度的手法的情况下,能够设为按照这样的重要度来生成特征量的排序列表的结构。
iii)在通过集成学习来生成K个识别器的学习手法为(不一定伴有特征量选择的)“脊正则化法(L2正则化)”且为将特征量的加权和作为自变量的识别器的生成手法的情况下,将涉及K个识别器地对各个识别器中的各特征量的权重系数的绝对值进行合计所得到的中央值作为重要度而生成特征量的排序列表。此外,作为重要度,并不限定于这样的“中央值”,例如也可以使用“涉及K个识别器地累计得到的累计值”等其它统计性的代表值。
能够设为将通过如i)~iii)那样生成的排序列表中的高位起的规定个数的特征量作为“第二特征量”这样的结构。
此外,作为确定“第二特征量”的条件,不限于排序列表的高位起的规定个数,例如,也可以将排序列表中的特征量被使用的频度为规定频度以上(使用在K个识别器的生成中以某比例以上被选择的频度本身)作为条件。
如上所述,基于所选择的特征量,如后述的那样通过作为无监督学习的“多重共聚类法”来执行聚类处理(患者分层)。
[用于分类成两类的识别器生成处理]
下面,更详细地说明图6所说明的处理中的基于集成学习的识别器生成。
即,以用于分类成两类的分类器生成处理、更确定地说是将学习用数据集用作疾病识别器(对于“健康”或“疾病”的两类分类器)的训练数据来构建用于MDD的生物标记物的处理为例进行说明。
在此,以精神疾病中的重性抑郁障碍为例、即以医生通过以往的基于症状的诊断手法诊断为重性抑郁障碍的患者群为例来说明生成分类器的处理。而且,说明图8所示的疾病识别器生成部3008为了生成输出用于判别患者群和健康群的诊断的辅助信息那样的分类器而执行的处理的例子。
因此,下面,说明基于功能连接FC来构建用于识别健康群(HC)和MDD患者的MDD识别器的过程。
下面,作为用于制作疾病识别器(MDD识别器)的“基于伴有特征量选择的学习处理的识别器”,作为例示而设为使用基于L1正则化的识别器的学习方法(LASSO法)来进行说明。
而且,如后述那样,为了确定与MDD诊断有关的功能连接FC,根据各功能连接FC对于构建疾病识别器而言的“重要度”,来选择在聚类中使用的特征量。
图7和图8是用于说明基于数据中心200的存储装置210中保存的数据来执行协调化处理、疾病识别器生成处理、聚类分类器生成处理、判别处理的计算处理系统300的结构的功能框图。
此外,在此,设为在“判别处理”中包括疾病的判别(疾病或健康的判别)、以及判断作为对象的受验者属于哪个“簇”(亚型)的分类处理。
参照图7,计算处理系统300包括:存储装置2080,其用于保存来自存储装置210的数据和在计算中途生成的数据;以及运算装置2040,其对存储装置2080内的数据执行运算处理。作为运算装置2040,例如CPU适当。
运算装置2040包括:相关阵列计算部3002,其用于通过执行程序来针对患者群和健康群的MRI测定数据3102计算相关阵列的元素,并将相关阵列的元素作为相关阵列数据3106保存到存储装置2080中;协调化计算部3020,其执行协调化处理;以及学习及判别处理部3000,其基于协调化处理的结果,来执行疾病识别器的生成处理、聚类分类器的生成处理以及利用所生成的疾病识别器或聚类分类器的判别处理。
图8是更详细地说明图7的结构的功能框图。
另外,图9是用于说明用于生成基于集成学习的疾病识别器的机器学习的过程的流程图。
因此,首先,如图6所示,参照图8和图9来说明到协调化处理、通过集成学习来生成识别器(疾病识别器)的生成处理为止的处理。
首先,以在数据中心200的存储装置210中从各测量地点收集了受验者(健康者和患者)的fMRI测量数据、受验者的属性数据、测定参数来作为“学习用数据集”为前提。
参照图8和图9,将这样的学习用数据集用作疾病识别器(对于“健康”或“疾病”的两类分类器)的训练数据,来构建用于MDD判别的生物标记物。也就是说,该生物标记物用于基于71,631个功能连接FC的值来识别健康群(诊断为健康(HC)的诊断标签的个体群)以及MDD患者群(诊断为重性抑郁障碍的诊断标签的个体群)。
如下面说明的那样,在用于生成对于MDD的识别器(下面称为“MDD识别器”)的学习处理中,使用基于L1正则化(LASSO法)的逻辑回归分析(稀疏建模法之一),从71,631个功能连接FC中选择功能连接FC的最佳的子集合。
一般地,当使用L1正则化时,能够将若干个参数(在下面的说明中为权重元素)设为0。也就是说,进行了特征选择,从而得到稀疏模型。
其中,作为稀疏建模的手法,不限定于LASSO法,如后述那样,也能够使用其它手法,例如使用将变分贝叶斯法应用于逻辑回归的稀疏逻辑回归(SLR:Sparse LogisticRegression)等。
参照图9,当开始对MDD识别器的学习处理时(S100),使用预先准备(保存于存储装置2080中)的学习数据集(S102),相关阵列计算部3002计算连接矩阵的成分。
接着,协调化计算部3020使用计算出的测定偏倚来实施协调化处理(S104)。
如后述那样,期望协调化处理是使用多设施受检者的方法,但也可以是其它方法。
例如,也能够设为在发现数据集与独立验证数据集之间使用后述那样的combat法进行数据集间的协调化的结构。
接着,疾病识别器生成部3008通过所谓的“集成学习的手法”、即对“嵌套构造的交叉验证(Nested Cross Validation)”的手法进行了修正的方法来对学习用数据生成MDD识别器。
首先,疾病识别器生成部3008为了使用“K折交叉验证”(K:自然数)(外侧的交叉验证)来对学习用数据执行学习处理,例如设为K=10来将学习用数据分成10份(S106)。
即,疾病识别器生成部3008将K份(10份)之一的一部分数据集作为验证用的“测试数据集”,将其余的(K-1)份(9份)的数据设定为训练数据集(training dataset)(S108、S110)。
接着,疾病识别器生成部3008对训练数据集执行“欠采样处理”和“下采样处理”(S112)。
在此,“欠采样处理”是指下面的处理:在训练数据集中,在与成为分类对象的特定的属性数据(两种以上)分别对应的数据的数量不一致的情况下,为了使该数量一致,去除数量较多的属性的数据来变为相同数量。
在此,相当于如下的情况:在训练数据集中,由于MDD患者群的受验者数与健康群的受验者数不相等,因此进行用于使它们一致的处理。
并且,“下采样处理”是指从训练数据集随机地提取规定数量的样本的处理。
即,经过步骤S108~S118、S122来重复进行K次的交叉验证中,在各交叉验证中,训练数据集在MDD患者和健康者HC的数量上是不均衡的,因此设为进行用于构建分类器的欠采样方法,并且,作为下采样处理,从训练数据集随机地采样规定数量、例如130名MDD患者和相同数量的130名健康者。
此外,130名这个数值不限定于这样的值,以如下方式决定:能够根据学习数据集中的数据数量(在后述的“数据集1”中为683人)、折数K(在此,例如为K=10)、以及成为分类对象的特定属性中包含的数据数量的不均衡的程度,适当地进行如上所述的欠采样。
执行这样的下采样处理是由于,在欠采样中,在识别器无法再使用被排除的数据进行学习的方面是不利的。是为了去除该不利而重复进行M次(M:自然数、例如M=10)的随意提取过程(也就是下采样)的处理。
此外,如后述那样,为了生成用于“分层”的“分类器”时的“特征量选择”,执行这样的欠采样处理和下采样处理也是存在技术意义的,因此关于这一点,在后面进行叙述。
接着,疾病识别器生成部3008对下采样到的子样本1~10分别执行超参数的调整处理(S114.1~S114.10)。
在此,在各子样本中,通过使用如下的逻辑函数来生成识别器子模型。这种逻辑函数是为了如下定义子样本内属于MDD类的参加者的可能性而使用的。
[数1]
Figure BDA0003880850840000461
其中,ysub表示参加者的类标签(MDD,y=1;HC,y=0),csub表示给定的参加者的FC向量,w表示权重向量。
权重向量w以使下面的评价函数(成本函数)最小化的方式决定(LASSO计算)。
[数2]
在设置为tj=Pj(yj=1|cj;ω)时
Figure BDA0003880850840000462
Figure BDA0003880850840000463
在LASSO计算中,在成本函数中,存在权重向量的各元素的绝对值(1次)的总和(L1范数)作为第二项。
在此,λ表示超参数,对应用于评价的收缩量进行控制。
在各子样本中,虽然没有特别限定,但是疾病识别器生成部3008将规定数量的数据作为超参数调整用数据,使用其余的数据(例如,n=250人或248人的数据)来决定权重向量w。此时,虽然没有特别限定,但是疾病识别器生成部3008例如设为超参数λ为0<λ≤1.0,使用将该区间进行P等分(P:自然数)、例如25等分得到的各值的λ,通过如上所述的LASSO计算来决定权重向量w。
此时,如上所述,作为“嵌套构造的交叉验证”,将超参数的调整以“内侧的交叉验证”的形式来执行。在内侧的交叉验证中,不使用外侧的交叉验证的“测试数据集”。
在此基础上,疾病识别器生成部3008通过与所生成的各λ的值对应的逻辑函数来对超参数调整用数据比较判别性能(例如,准确度),决定与判别性能最高的λ对应的逻辑函数(超参数的调整处理)。
接着,疾病识别器生成部3008将“识别器子模型”设定为输出在当前的交叉验证的循环中生成的与各子样本对应的逻辑函数的输出值的平均(S116)。在根据在各子样本中计算出的识别器的输出值的平均来判定识别性能这一点上,也能够将其称为“集成学习”的一种。
疾病识别器生成部3008将在步骤S110中准备的测试数据集作为输入来执行在当前的交叉验证的循环中生成的识别器子模型的验证(S118)。
此外,作为通过欠采样和下采样来生成子样本并在各子样本中执行特征选择来生成识别器子模型的方法,除了利用执行如上所述的LASSO法和超参数的调整的方法以外,还可以利用其它稀疏建模的手法。
疾病识别器生成部3008当判断为K次(在此为10次)的交叉验证的循环未结束时(S122:“否”),将分为K份的数据中的与目前为止的循环中使用过的数据不同的其它部分数据集设定为测试数据集,将其余的部分数据集设定为训练数据集(S108、S110),来重复进行处理。
另一方面,疾病识别器生成部3008在K次(10次)的交叉验证的循环结束的情况下(S122:“是”),对于输入数据而输出K×M个(在该情况下,为10×10=100个)逻辑函数(识别器)的输出的平均,生成对于MDD的识别器模型(MDD识别器)(S120)。
结果是,MDD识别器将K×M个识别器的输出的平均作为其识别输出的意义可以说是作为“集成学习”的结果所得到的“识别器”。
在MDD识别器的输出(诊断的概率值)超过0.5时,能够视为表示MDD患者的指标。
并且,在本实施方式中,作为通过这样生成的MDD识别器的性能的评价指标,使用马修斯相关系数(MCC:Matthews correlation coefficients)、关于ROC曲线(ReceiverOperatorating Characteristic curve、接收者动作特性曲线)的ROC曲线下面积(AUC:area under the curve)、准确度(Accuracy)、灵敏度(Sensitivity)、特异度(Specificity)。
此外,使用各个子样本中进行特征选择而选择出的特征量(在该情况下,为对测定偏倚进行协调化处理后的相关阵列的元素)来生成对象疾病(例如MDD)的识别器的手法不限于基于这种多个识别器子模型的输出的平均处理的手法,也可以设为基于多数决定的处理、或者对于进行特征选择而选择出的特征量使用其它建模手法、特别是其它稀疏建模手法来生成识别器的结构。
(MDD识别器中使用的数据的例子和性能)
如已经记述的那样,关于使用机器学习算法的可靠的分类器和回归模型的构建,需要使用从大量的拍摄地点收集的大规模样本量的数据。
因此,下面,使用从四个不同的拍摄地点收集的包含MDD患者的约700名参加者的学习用的静息态fMRI数据集进行研究。
图10是示出像这样的学习用的数据集(数据集1)的人群特性的图。
数据集1是上述的SRPBS中的数据。
图11是示出独立验证的数据集(数据集2)的人群特性的图。
数据集2基本上也是上述的SRPBS中的数据。
即,在下面的分析中,使用两个静息态功能的MRI(rs-fMRI)数据集。
(1)如图10所示,数据集1包含有713名参加者的数据(来自4个地点的564人的健康群HC、来自3个地点的149人的MDD患者群)。
(2)如图11所示,数据集2包含有449名参加者的数据(来自4个地点的264人的健康群HC、来自4个地点的185人的MDD患者群)。
另外,同时使用从各数据集的大部分参加者获得的贝克抑郁自评量表(BDI:BeckDepression Inventory)II来评价“抑郁症状”。
数据集1是“学习用数据集”,被使用于构建MDD的识别器和聚类的分类器。
参加者的测量分别是在10分钟的单个静息态功能的MRI(rs-fMRI)会话中执行的。
在此,也是在统一的拍摄协议下获取了静息态功能的MRI数据(http://www.cns.atr.jp/rs-fmri-protocol-2/)。
但是,实际上很难保证在全部的地点处使用相同的参数进行了图像摄影,在测量中使用了两个相位调制方式的方向(P→A和A→P)、两个MRI装置制造商(西门子和GE)、三种不同的线圈数量(12、24、32)以及三个型号的扫描仪。
在静息态功能的MRI的扫描中,原则上如下那样指示参加者。
“请放松。请保持清醒。请注视中央的十字线标记且不要思考具体的事情。”
数据集内的“人群特性”是所谓的“人口统计学”中使用的特性,除了包含年龄、性别等以外,还包含诊断名称那样的表中的属性。
此外,在图10和图11中,括号中的人数表示具有BDI得分的数据的参加者的数量。
人群分布在全部的学习用数据集中在MDD与HC的个体群间没有统计上的显著差异(p>0.05)。
数据集2是“独立的验证数据集”,被使用于测试MDD的分类器和聚类的分类器。
拍摄得到数据集2的地点不包含于数据集1中。
年龄的人群分布在独立的验证数据集中在MDD与HC的个体群间是一致的(p>0.05),但是性比的人群分布在独立的验证数据集中在MDD与HC的个体群间是不一致的(p<0.05)。
(地点效应的控制)
另外,下面,设为为了控制功能连接FC上的地点效应而使用如后述那样的对学习用数据集进行的多设施受检者的协调化方法来进行说明。
其中,作为协调化方法,不限定于该方法,例如其也可以使用ComBat法等其它方法。
此外,关于ComBat法,例如在下面的公知文献14中有公开。将公知文献14的记载全部通过参照引用于此处。
公知文献14:Johnson WE,Li C,Rabinovic A.“Adjusting batch effects inmicroarray expression data using empirical Bayes methods(利用经验贝叶斯方法调整微阵列表达数据中的批次效应).”Biostatistics 8,118-127(2007).
通过使用多设施受检者的协调化方法,能够去除单纯的地点间差异(测定偏倚)。
此外,对于独立的验证数据集中包含的地点,不存在多设施受检者的数据集,因此为了控制独立的验证数据集中的地点效应,使用了基于ComBat法的协调化方法。
图12是示出关于全部拍摄地点的对于学习用数据集的MDD的预测性能(输出的概率分布)的图。
对于学习用数据集,在来自识别器模型的输出中,与MDD患者及健康者的个体群对应的两个诊断的概率分布通过阈值0.5被清楚地分离为右(MDD)和左(HC)。
识别器模型将MDD患者以66%的准确度分离于HC个体群。
对应的AUC为0.77,呈现出高的识别力。
另外,MCC约为0.33。
图13是示出关于各拍摄地点的对于学习用数据集的MDD的预测性能(识别器的输出的概率分布)的图。
从图13可知,不只是全部数据集,对于三个拍摄地点(地点1、地点2、地点4)的各个数据集,也达成了几乎相同程度的高分类精度。
此外,虽然在地点3(SWA)的数据集中只有健康者群,但是其概率分布相当于其它地点的健康者群的概率分布。
(识别器的通用化性能)
图14是示出独立的验证数据集中的MDD的识别器的输出的概率分布的图。
即,使用独立的验证数据集来测试识别器模型的通用化性能。
对于MDD,在图12的处理中通过机器学习生成了100个(10折×10个下采样)逻辑函数的识别器,将独立的验证数据集输入到所生成的全部100个识别器(作为识别器的集合的识别器模型)。
然后,关于各参加者取得100个识别器的输出的平均(诊断的概率),在进行平均而得到的诊断的概率值>0.5的情况下,作为该参加者的诊断标签,设为符合重性抑郁障碍。
在独立的验证数据集中,所生成的识别器模型以约70%的精度将MDD个体群分离于HC个体群。
对应的AUC为0.75,呈现出高识别能力(置换检验p<0.01)。
对于独立验证数据集,在来自识别器模型的输出中,与MDD患者及健康者的个体群对应的两个诊断的概率分布通过阈值0.5被清楚地分离为右(MDD)和左(HC)。
灵敏度为68%,特异度为71%。这使得成为0.38这样的较高的MCC值(置换检验p<0.01)。
图15是示出关于各拍摄地点的、MDD的识别器对于独立验证数据集的输出的概率分布的图。
可以获知:不只是四个拍摄地点的全部数据集,对于各个数据集也能够达成高的分类精度。
[针对受验者数据的聚类处理]
下面,更详细地说明图6所说明的处理中的用于聚类的特征量选择和基于所选择的特征量的聚类处理。
即,将图6中作为“特征量选择”和“聚类处理”而说明的处理作为图8中的疾病识别器生成部3008和聚类分类器生成部3010执行的处理进行说明。
图16是用于说明选择特征量并通过无监督学习进行聚类的处理的流程图。
下面,对如下的处理进行说明:在如图9所说明的“两类识别器”的学习处理中,对在各识别器子模型的生成中使用的特征量(脑功能连接)进行排序,使用高位起的规定数量的特征量并通过无监督学习进行聚类。
如上所述,脑功能连接是与对于大脑的分割手法相应地超过70000个维数那样的高维数,若是通常的方法则一般难以通过无监督学习来执行聚类处理。在本实施方式的方法中,对于这样的聚类问题,在“利用有监督学习的识别器生成”中,执行与特征量的重要度相应的排序,并组合基于根据该排序所选择出的特征量的“基于无监督学习的聚类”,从而能够进行这样的聚类处理。
此外,下面,为了方便,将聚类处理作为与疾病识别器的生成处理不同的处理而进行说明,但在图16中,步骤S200~S210是与图9中的步骤S100~S120同等的处理,疾病识别器的生成处理和聚类处理能够作为一系列的处理来执行。
参照图16,当开始聚类的学习处理时,疾病识别器生成部3008准备健康群Nh人、抑郁症群Nm人的受验者数据(S202),疾病识别器生成部3008对于受验者的功能脑活动数据执行脑区域的分割(Parcellation)处理、脑功能连接值的计算以及协调化处理(S204)。
接着,疾病识别器生成部3008执行用于Ncv折交叉验证(Ncv:自然数,且Ncv≥2)的数据分割,关于分割出的各数据,准备训练数据集和测试数据集,对各训练数据集执行欠采样和下采样以生成Ns个测试数据的子集(S206)。
并且,疾病识别器生成部3008对于下采样到的各子样本,通过伴有特征量选择的学习方法来生成识别器(S208)。
另外,在此,设为与图9同样地通过L1正则化(LASSO)来执行特征量选择。
对于分割为Ncv个的学习数据集,依次执行训练数据集(分割出的数据集中的(Ncv-1)个)与测试数据集(分割出的数据集中的1个)的重组,并重复进行这样的步骤S206~S208的处理直至实施Ncv次的交叉验证为止。
将以像这样生成的(Ns×Ncv)个识别器的平均为输出的整合得到的识别器生成为疾病识别器(诊断标记物)(S210)。
如上所述,到此为止的处理是与图9中的步骤S100~S120同等的处理。
另一方面,聚类分类器生成部3010在重复进行Ncv次的步骤S206~S208中,在通过伴有特征量选择的学习方法生成识别器时所选择的特征量(脑功能连接)的并集中,虽然没有特别限定,但对该并集中的特征量以被选择的次数来执行排序(S220)。
在此,将“被选择为特征量的次数”称为该排序中的该特征量的重要度。
换言之,例如根据图9所示的例子,通过LASSO法生成100(=10×10)个识别器,对于各识别器中权重不为零的脑功能连接,以+1的方式计数选择次数。按照计数次数从大到小的顺序,排序为重要的连接。
接着,聚类分类器生成部3010为了通过无监督学习对抑郁症患者群实施聚类,根据重要度从上述并集中选择例如规定数量的特征量(S222)。
并且,聚类分类器生成部3010使用后述那样的多重共聚类法作为无监督学习的方法,来实施聚类处理(S224)。
通过上面的处理,聚类分类器生成部3010生成对于抑郁症患者群的聚类分类器(S226)。
具体地说,通过上面的处理,由聚类分类器生成部3010根据观测数据,来针对各簇分别确定用于生成这样的观测数据的概率分布的模型,并将各模型的信息保存到存储装置2080中。而且,判别值计算部3012作为聚类分类器,基于这样的各概率分布的模型,来针对学习数据以外的输入数据计算该输入数据属于各个簇的后验概率,输出该输入数据属于成为最大的后验概率的簇这一分类结果(MAP估计法(Maximum A posteriori Probabilityestimation method:最大后验概率估计法))。
此外,在上面的说明中,设为聚类处理是基于由疾病识别器生成部3008对健康群Nh人、抑郁症群Nm人的受验者数据实施的识别器的生成处理的处理而进行了说明。但是,本实施方式的聚类方法并不限定于这样的情况,也能够使用于“抑郁症患者群”以外的疾病群、例如“精神分裂症的患者群”、“自闭症的患者群”、“强迫症的患者群”等其它精神疾病的患者群的聚类。
或者,更一般地说,对于使得人根据经验分类得到的属性标签(例如该人的性格、该人的擅长领域等)与脑活动的时间变化的区域间的相关性的图案之间具有一定的关系性明确的属性,也能够使用于以数据驱动的方式对根据该属性标签来分类的受验者实施“属于该属性的受验者群的聚类”(向亚型的分类)。
(欠采样和下采样处理)
在上面所说明的处理中,执行了“欠采样和下采样处理”,因此简单地说明其技术意义。
首先,关于“欠采样处理”的效果,列举有适当地设定识别器中的识别的边界。
例如,在考虑两类分类的任务的情况下,在学习数据中,属于各类的数据的数量的偏差越少,则在处理流程中识别器的性能(例如准确度)的评价的精度越高。
在图9中的步骤S114.1~114.10中,在超参数的设定中执行“决定与判别性能最高的λ对应的逻辑函数”的处理,因此需要准确地进行“判别性能”的评价。
作为极端的例子,在对于属于类1的数据数为100个、属于类2的数据数为1个这样的学习数据进行识别器的学习的情况下,即使作为识别器而判别为全部数据为类1,也会产生对准确度等不产生较大影响这样的情况。在这一点上,通过随机的采样来使分别属于两个类的数据数一致是有意义的。
另外,关于下采样,根据下面的理由,其前提原本是与欠采样一并实施多次。
第一,即使假设通过随机采样来实施欠采样和下采样处理,如果只是一次处理则也有可能在数据中产生偏差。
第二,如下面说明的那样,在图9的步骤S108~S122中重复进行的“识别器”的生成如上述那样通过“集成学习”来实施。
此时,在各识别器的生成中,决定特征量对于识别的重要度。
以使得在“伴有特征量选择的学习处理”中该特征量被选择、或者在“不伴有特征量选择的学习处理”中计算出的、该特征量对于识别的权重的方式,根据各特征量对于识别的贡献度来决定重要度。
下面,以“伴有特征量选择的学习处理”为例来说明“欠采样和下采样处理”在像这样的重要度的决定中的意义。此外,即使是L2正则化那样的“不伴有特征量选择的学习处理”,也能够认为“该特征量的权重变大”这样的事件是根据与“被选择为特征量”这样的事件基本相同的技术理由而产生的。
在此,作为“伴有特征量选择的学习处理”,例如列举上述的LASSO法那样的所谓的“稀疏建模”的手法。
在稀疏建模中,稀疏地选择特征量,即,通过使特定的特征量的权重为非零,与此相对,使其它特征量的权重为0,由此选择特征量。作为实现这样的特征量的稀疏选择的理由之一,列举如下情况:存在用于进行学习处理的“与特征量的数量对应的惩罚项”,使得在对于“判别(识别)处理”而存在“对相似作出贡献的特征量的组”的情况下,选择该组中的一个特征,并使该组的其它特征量的权重为0。关于LASSO法,这一倾向特别显著。
也就是说,在“判别处理”中特征量A与特征量B同样地参与、例如特征量A与特征量B的相关性高的情况下,即使仅选择特征量A作为特征量,也能够不降低判别性能地进行判别处理。
然而,例如,在聚类中,设想需要考虑特征量A和特征量B双方的情况。可是,如果执行像这样的“稀疏化”从而仅通过对于一次的识别器的生成过程中的判别处理的贡献度来选择特征量,则作为对于聚类的“特征量选择”而言可能是不充分的。
图17是示出在存在多个(例如Nch个)特征量的情况下通过像这样的“伴有特征量选择的学习处理”来实施特征量的选择的概念的图。
参照图17,设为受验者群包含健康群和患者群。
设为健康群的受验者与标签H相对应,健康群包含亚型h1和亚型h2。
设为患者群的受验者与标签M相对应,患者群包含亚型m1、亚型m2以及亚型m3。
在此,对于观测量,健康群、受验者群被分为几个亚型是未知的,亚型的识别标签没有明确地与受验者建立对应,是潜在的标签。
而且,“聚类”的目的在于以数据驱动方式执行从观察量向这些亚型的聚类。
由于对如上所述的健康群和患者群中的受验者随机地实施“欠采样”和“下采样”,因此如图17的“受验者群”所示那样从健康群和患者群的各个群中分别选择例如虚线所包围的部分的受验者。
另外,为了识别标签M和标签H而能够使用的特征量(脑功能连接的相关值)设为表征各受验者的特征量(共Nch个)的脑功能连接中的、图17中一点划线所示的范围的特征量(图16的步骤S220中的“脑功能连接的并集”)。
而且,作为通过伴有特征量选择的学习处理(在此为基于LASSO法的处理)学习用于识别标签M和标签H的识别器的结果,设为选择图17中的一点划线内的进一步用黑圆点表示的特征量。
图18是示出在欠采样和下采样的处理后通过伴有特征量选择的学习处理生成一个识别器时最终选择的特征量的概念图。
如图18所示,为了识别一点划线内的标签M和标签H而能够使用的特征量进一步如虚线框所示的那样被分为彼此的相关性强的特征量的组。
在LASSO法中,通过针对这样的每个虚线框内的组选择一个特征量,从而实现稀疏化。
图19是示出在多次实施欠采样和下采样的处理而生成识别器时选择特征量的情形的概念图。
如图19所示,当实施例如Ns次的下采样时,在各次中,从健康群和患者群分别下采样到不同的受验者。
然后,作为通过伴有特征量选择的学习处理对于各子样本学习用于识别标签M和标签H的识别器的结果,与各子样本对应地,从作为上述并集的一点划线内的相关性强的各组中,如黑圆点所示那样选择在各个识别器中不同的特征量。
作为结果,通过多次实施欠采样和下采样的处理,从而选择出为了识别标签M和标签H而能够使用的特征量的并集。
在本实施方式中,对于各子样本,通过LASSO法将通过伴有特征量选择的识别器的学习处理所选择的特征量根据被选择的频度进行排序。
然后,使用排序中的高位起的规定个数、例如100个特征量,在图16的步骤S224中,通过后述那样的“多重共聚类”来实施基于无监督学习的聚类。
此外,在上面的说明中,作为“伴有特征量选择的识别器的学习处理”,以LASSO法为例进行说明,构成为以被选择的频度的排序来实施用于聚类的特征量的选择。
但是,如上所述,在本实施方式的聚类处理中,“伴有特征量选择的识别器的学习处理”不限定于这样的方法,例如也可以是随机森林法那样的方法,还能够按照规定的重要度来实施用于聚类的特征量的选择。
例如,如上所述,在随机森林法中,在识别器的学习处理中,基于基尼不纯度(Giniimpurity)、排列重要度(permutation importance)来一并计算特征量的重要度(importance),因此也能够构成为基于该重要度来对特征量进行排序,使用排序中的高位起的规定个数的特征量,通过图16的步骤S224中的“多重共聚类”来实施基于无监督学习的聚类。
此外,在此,排列重要度(permutation importance)是指“用随机化的特征量制作出的模型的误差与原本的模型的误差之差”,用于计算“哪个特征量对于模型的精度的贡献最大、或者对于精度没有贡献”。例如,关于排列重要度(Permutation Importance),在下面的公知文献15中有公开。将公知文献15的记载全部通过参照引用于此处。
公知文献15:Breiman,Leo.“Random forests(随机森林).”Machine learning45.1(2001):5-32.https://link.springer.com/article/10.1023/A:1010933404324
另外,关于“作为集成学习而学习识别器的处理”,也能够使用脊正则化法等,如上述那样按照与将权重系数的绝对值合计得到的中央值对应的重要度来对特征量进行排序,使用排序中的高位起的规定个数的特征量来实施用于聚类的特征量的选择。
[多重共聚类处理]
下面,关于图16的步骤S224中的“多重共聚类”,说明其概念,并进行“多重共聚类”这一术语的定义。
作为前提,“聚类”是指由计算机执行的基于无监督学习的数据分类手法,更确定地说,是指在没有外在基准的情况下自动对所提供的数据进行分类的手法。与此相对,“类分类”一般是指基于“有监督学习”的分类手法。另外,“簇”被定义为具有内连接和外分离的性质的数据的子集。在此,外分离是指不同簇中的对象不相似的性质,内连接是指相同簇内的对象彼此相似的性质。并且,集合的元素之间的距离被定义为“相似”的标准。通常,以满足所谓的“距离的公理”的方式定义距离,作为距离,有时使用欧几里德距离、马哈拉比诺斯距离、城区距离、闵可夫斯基距离等。
另外,通常,作为通过无监督学习进行聚类的手法,已知有如作为非分层型方法的“k-means法”等那样被称为作为搜索使定义簇的优良程度的目标函数为最优的分割的方法的“分割优化聚类”、作为分层聚类手法的“凝聚型分层聚类”、“分割型分层聚类”等的手法。
但是,这样的以往的聚类手法具有如下特征:使用全部的特征量将对象分成簇(组),得到的簇的划分方式为一种。
因而,在依据特征量而存在簇的多种划分方式的情况下,会存在不能很好地处理这样的问题。一般认为,特征量的数量越多,则存在这样的多个簇构造的可能性越高。
此外,作为聚类的手法,不仅是如上所述的手法,还存在设想要实施聚类的多个对象在各个簇中是按照某概率分布而产生的、并且在估计这样的“概率分布”的方向上执行聚类的算法,作为这样的聚类手法,例如已知有“基于高斯混合分布的聚类法”等,已知能够执行更灵活的聚类。
下面,首先,为了说明依据特征量而存在簇的多种划分方式的情况,用多个特征量来表征包含要执行聚类的多个对象的对象群的各对象。
图20是用于说明依据特征量而存在簇的多种划分方式的情况的概念图。
如图20所示,设为成为聚类的对象的数据(下面简称为“对象”)是6个字符“A”、“B”、“C”、“D”、“E”、“F”。
而且,这些字符具有不同的背景图案、不同的字体(字符样式)。
因此,作为表征这些字符的特征量,能够考虑“背景图案”、“字符样式”、“字符所包含的孔洞的数量(由线完全包围的区域的数量)”。
因而,即使在考虑相同的字符的集合的情况下,也根据基于哪一个特征量进行聚类而分为不同的簇。
在图20中,例如,在基于“背景图案”的情况下,分为{A,D}、{B,E}、{C,F}这3个簇,在基于“字符样式”的情况下,分为{A,B,C}、{D,E,F}这2个簇,在基于“孔洞的数量”的情况下,与0个、1个、2个分别对应地分为{C,E,F}、{A,D}、{B}这3个簇。
在图20中,以用一个特征量表征一个簇的情况为例,但一般是用多个特征量来表征一个簇。
图21A和图21B是用于说明用多个特征量来表征多个对象的情况下的聚类的概念的概念图。
首先,如图21A所示,考虑在行方向上配置进行聚类的对象且在列方向上配置表征这些对象的特征量的“数据阵列”。
如图21B所示,与将对象进行聚类(将对象分割为多个对象簇)同时地以与各对象簇相关联的方式对特征量也进行聚类的手法被称为“共聚类”,例如,在下面的公知文献16中公开了该手法。将公知文献16的记载全部通过参照引用于此处。
公知文献16:Madeira SC,Oliveira AL.Biclustering algorithms for biological data analysis:a survey(用于生物数据分析的双聚类算法:调查报告).IEEE/ACM Transactions on Computational Biology and Bioinformatics(TCBB).2004;1(1):24±45.https://doi.org/10.1109/TCBB.2004.2
在“共聚类”中,如图21B所示,通过改换数据阵列的行或列,即,通过根据相似度来将对象和特征量重新排列,从而例如分割为用(i,j)(i=1、2:j=1、2、3)表示的簇块。
此时,假设对于各簇中包含的对象的生成模型(概率模型),来针对观测数据以使其似然度变高的方式决定各概率模型的参数。
像这样,当对于各簇估计概率模型时,能够对于特定的观测数据(测试数据)来判别(分类)该数据属于哪个簇。
图22A和图22B是用于说明多重聚类以及多重共聚类的概念图。
在图21B所示的“共聚类”中,通过改换“数据阵列”的行和列,生成了块构造的簇,因此在特征量被分割为多个特征量簇的情况下,各对象被聚类为在该多个特征量簇中共通地排列的对象。
但是,在设想将特征量分割为多个特征量簇并对于各特征量簇而将对象也分割为对象簇的情况下,设想在各特征量簇中使对象簇中的对象的排列方式(某对象簇中包含的对象的排列方式)也不同的话能够估计似然度更高的概率模型。
在这样的情况下,对于各特征量簇,对象的分割方法(对象的聚类)不同,与其对应地,将特征量簇特别称为“视图(视点)”。
如图22A所示,将如上面那样按特征量的各视点执行不同的对象的聚类称为“多重聚类”。
并且,如图22B所示,能够通过在各视点下改换特征量的列和对象的行并进行聚类来进一步估计对于观测数据的似然度高的概率模型的情况被称为“多重共聚类”。
在此,在只有一个视图的情况、存在多个视图的情况下,还包括在至少一个视图中只有一种特征量簇时在内而称为“多重共聚类”,“共聚类”以及“多重聚类”是“多重共聚类”的下位概念。
此外,在本实施方式中,仅“聚类”这一术语是指生成一个视图中的簇的组,例如,如图22A那样将特征量分割成视图以及进行对象的聚类的情况称为“多重聚类”,如图22B那样在分割成视图的同时执行共聚类的情况称为“多重共聚类”,由此来进行区分。
图23是示出在“多重共聚类”中在一个视图中设想了不同种类的概率分布的概率模型的情况的概念图。
在图23中,示出了在白色块和阴影块中遵循不同种类的概率分布的概率模型的情况。
例如,示出如下情况等:白色块是连续的概率变量的概率分布,与此相对,设想阴影部分为离散的概率变量的概率分布。
如以后说明的那样,在本实施方式的“多重共聚类的学习方法”中,能够像这样对包含不同的分布的分布族执行聚类处理。
图24是用于说明多重共聚类的学习方法的概要的流程图。
当开始多重共聚类的学习方法的处理时(S300),聚类分类器生成部3010对于数据阵列随机地将特征量分割为子群,生成特征量的视图和视图内的特征量簇(S302:与后述的Y的生成(Y的初始化)对应)。
接着,聚类分类器生成部3010与在步骤S302中生成的特征量的视图及特征量簇对应地,生成对象簇的分割并进行优化(步骤S304:与后述的Z的生成对应)。
并且,聚类分类器生成部3010对于所得到的对象簇,将特征量的分割优化(S306:与后述的Y的生成处理对应,使用所生成的Z将Y优化)。
接着,聚类分类器生成单元3010判定目标函数是否满足规定的条件且已收敛(S308)。此外,该目标函数相当于后述那样的函数L(q(φ))。函数L(q(φ))还具有随着更新后述的Y和Z而单调地增加的性质,在判断为其增加变得非常小时,判定为已收敛。如果未收敛(S308:“否”),则聚类分类器生成部3010使处理返回到步骤S304,如果已收敛(S308:“是”),则使处理进入下一步骤。
然后,聚类分类器生成单元3010将目标函数的大小保存到存储装置2080中(S310)。
接着,聚类分类器生成单元3010判定是否实施了规定次数的步骤S302~S310的处理。在未实施规定次数的情况下(S312:“否”),聚类分类器生成部3010使处理返回到步骤S302,在实施了规定次数的情况下(S312:“是”),使处理进入下一步骤。
聚类分类器生成部3010将使目标函数成为最大的特征量分割、簇的划分方式作为最终结果(S314),而结束关于多重共聚类的学习的处理,生成聚类分类器。
图48是示出聚类分类器的结构的概念图。
在图48中,对三个视图执行分割,视图1与特征量群1对应地进行分割,对象被聚类为簇1~3,视图2与特征量群2对应地进行分割,对象被聚类为簇1~4,视图3与特征量群3对应地进行分割,对象被聚类为簇1~2。
因而,聚类分类器生成部3010在存储装置2080的疾病识别器数据3112中保存与各视图对应的特征量的信息、用于确定每个视图的概率密度函数的信息(例如,在概率密度函数为正态分布时,为分布的中心坐标μ和方差σ2)。
如图48所示,当具有特征量群1~3的“新数据”被输入到聚类分类器时,判别值计算部3012基于视图1内的概率密度函数,对于与视图1对应的特征量群1计算属于各簇的后验概率,该“新数据”是未包含在学习数据中的“新数据(新受验者的数据)”。在图48中,属于视图1的簇2的后验概率最高,输出新数据属于视图1的簇2的分类的结果。同样地,会从聚类分类器输出如下的分类的结果:在视图2中新数据属于簇3,在视图3中新数据属于簇1。
(多重共聚类的处理的详情)
下面,更详细地说明图24中所说明的多重共聚类的学习方法。
此外,关于多重共聚类的处理的详情,在下述的公知文献17中有公开,因此下面对其概要进行说明。将公知文献17的记载全部通过参照引用于此处。
公知文献17:Tomoki Tokuda,Junichiro Yoshimoto,Yu Shimizu,Go Okada,Masahiro Takamura,Yasumasa Okamoto,Shigeto Yamawaki,Kenji Doya,“Multiple co-clustering based on nonparametric mixture models with heterogeneous marginaldistributions(基于具有异质边际分布的非参数混合模型的多重共聚类)”,PLOS ONEhttps://doi.org/10.1371/journal.pone.0186 566 October 19,2017
图25是示出图24的多重共聚类的学习方法中的贝叶斯估计的图形表现的图。
多重共聚类模型被汇总为图25的图形模型,该图形模型明确了相关参数与数据阵列之间的因果关系的链接。
(多重共聚类模型)
特征量(脑功能连接值)和受验者(此处为患者群的受验者)表现为如图21A所示的数据阵列。
而且,假设数据阵列X由包括预先获知的M个分布的分布族构成。
作为属于分布族的概率分布,假设能够包括高斯分布、泊松分布、以及类别分布/多项分布等。
聚类分类器生成单元3010对X(m)以各数据大小为n×d(m)的方式如下面那样进行分割。
X={X(1),…,X(m),…,X(M)}
在此,m是表示分布族(m=1,…,M)的指标。并且,将视图(视点)的数量设为V(对于所有分布族是共通的),将视图v和分布族m的特征量簇的数量设为Gν (m),视图v的目标物簇的数量用Kv(对于所有分布族是共通的)表示。
并且,为了简化表述,并为了示出特征的数量和簇的数量,允许存在空的簇,从而表述为G(m)=maxvGv (m)和K=maxvKv
在该表述中,设为针对对于分布族m的独立同分布(i.i.d.)的d(m)维随机向量X1 (m),…,Xn (m)考虑d(m)×V×G(m)的(3阶的)特征量分割张量Y(m),在分布族m的特征量j属于视图v的特征量簇g时,设为Yj,v,g (m)=1(除此以外为0)。
将该特征量分割张量与不同的分布族进行组合而设为Y={Y(m)}m
同样地,考虑n×V×K的目标物分割(3阶)张量Z,在目标物i属于视图v的目标物簇k的情况下,设为Zi、v、k=1。
特征量j属于视图中的一个(Σv,gYj,v,g (m)=1),目标物i属于各视图(即,ΣkZi,v,k (m)=1)。并且,Z对于所有分布族是共通的,这意味着估计的概率模型使用所有分布族的信息来估计受验者聚类解。
首先,如图25所示,对于Y的预生成模型,考虑视图和特征量簇的分层构造,首先生成视图,接着生成特征量簇。因而,通过视图与特征量簇的对的成员来对特征量进行分割,特征量的分割的分配是由视图和特征量簇共同决定的。
另一方面,如图25所示,目标物(对象)被分割为各视图的目标物簇,因此对于Z,仅考虑了目标物簇的一个构造。假设这些生成模型如下面说明的那样都基于“折棍过程”(SBP:Stick Breaking Process)。
(特征量簇Y的生成模型)
假设Yj.. (m)表示通过分层折棍过程生成的、分布族m的特征量j的视图/特征量簇成员向量,则下面的式子成立。
[数3]
wv~Beta(·|1,α1),v=1.2,...
Figure BDA0003880850840000651
Figure BDA0003880850840000652
Figure BDA0003880850840000653
Figure BDA0003880850840000654
Figure BDA0003880850840000655
在此,τ(m)表示1×GV向量(τ1,1 (m),…,τG,V (m))T
Mul(·|π)是具有概率参数π的一个样本量的多项分布。
β(·|a,b)是具有预样本量(a,b)的beta分布。
Yj.. (m)表示1×GV向量(Yj,1,1 (m),…,Yj,V,G (m))T
在此,按照规定的条件,舍去非常大的V的视图的数量和G的特征量簇的数量。
公知文献18:Blei DM,Jordan MI,et al.Variational inference forDirichlet process mixtures(狄利克雷过程混合的变分推理).Bayesiananalysis.2006;1(1):121-143,
https://doi.org/10.1214/06-BA104
在Yj,v,g (m)=1的情况下,特征量j属于视图v的特征量簇g。在默认情况下,作为超参数的集中度参数α1和α2被设定为1。
[对象簇Z的生成模型]
通过下面的式子生成表述为Zi,v.的向量,该向量是视图v的目标物i的受验者簇成员向量。
[数4]
uk,v~Beta(·|1,β),v=1,2,...,k=1,2,...
Figure BDA0003880850840000656
Zi,v~Mul(·|ηv)
在此,Zi,v.是通过Zi,v=(Zi,v,1,…,Zi,v,K)T给出的1×K(K取足够大的值)向量。集中度参数β被设定为1。
(似然度和先验分布)
假设各实例Xi,j (m)在对Y和Z附加条件的情况下独立地遵循特定的分布。将视图v、特征量簇g以及目标物簇k的簇块中的分布族m的参数表示为θv,g,k (m)
并且,表述为Θ={θv,g,k (m)}v,g,k,m,X的似然度的对数遵循下式:
[数5]
Figure BDA0003880850840000661
在此,I(x)为指标函数,在x为真时返回1,除此以外时返回0。似然度不与w={wv}v、w′={w′g,v (m)}g,v以及u={uk,v}k,v直接相关。
如下面那样给出未知变量的连接先验分布φ={Y,Z,w,w′,u,Θ}(即,类的成员变量和模型参数)。
[数6]
p(w)p(w′)p(Y|w,w′)p(u)p(Z|u)p(Θ).
(变分估计)
在Y和Z的MAP(最大后验)估计中使用变分贝叶斯EM算法。
关于这样的变分贝叶斯EM算法,在下面的公知文献19中有公开。将公知文献19的记载全部通过参照引用于此处。
公知文献19:Guan Y,Dy JG,Niu D,Ghahramani Z.Variational inference fornonparametric multiple clustering(非参数多重聚类的变分推理).In:MultiClustWorkshop,KDD-2010;2010.
使用简森不等式如下那样对对数边际似然度p(X)进行近似。
[数7]
Figure BDA0003880850840000662
此外,关于简森不等式,在下面的公知文献20中有公开。将公知文献20的记载全部通过参照引用于此处。
公知文献20:Jensen V.Sur les fonctions convexes et les inegalitesentre lesvaleurs moyennes(论凸函数和均值不等式).Acta Mathematica.1906;30(1):175-193.
https://doi.org/10.1007/BF02418571
在此,q(φ)是参数φ的任意的分布。证明了左边与右边之差通过q(φ)与p(φ)之间的Kullback-Leibler分歧、即KL(q(φ),p(φ|X))给出。因而,选择q(φ)的方法是使KL(q(φ),p(φ|X))最小化,这通常难以进行评价。
在此,对于不同的参数(平均场近似)选择被进行因式分解的q(φ)。
[数8]
q(φ)=qw(w)qw′(w′)qY(Y)qu(u)qZ(Z)qΘ(Θ)
在此,各q(·)被进一步针对参数的子集wv,w′g,v (m),Yj.. (m),uk,v,Zi,v.以及θv,g,k (m)进行因式分解。
通常,使KL(Πl=1 Lqll),p(φ|x))最小化的分布qii)由下式给出。
[数9]
Figure BDA0003880850840000671
在此,
Figure BDA0003880850840000672
表示对于ΠIl=1qll)的平均。
关于该性质,在下面的公知文献21中有公开。将公知文献21的记载全部通过参照引用于此处。
公知文献21:Murphy K.Machine Learning:A Probabilistic Perspective(机器学习:概率视角).Cambridge,Massachusetts:MIT Press;2012.
当将该性质应用于当前正在研究的模型时,能够示出下面的内容。
[数10]
Figure BDA0003880850840000681
Figure BDA0003880850840000682
Figure BDA0003880850840000683
Figure BDA0003880850840000684
Figure BDA0003880850840000685
Figure BDA0003880850840000686
在此,考虑以下面的形式表示的函数。
[数11]
qΘ(Θ)
除上述的式子以外的超参数通过下面的式子来表示。
[数12]
Figure BDA0003880850840000687
Figure BDA0003880850840000688
Figure BDA0003880850840000689
Figure BDA00038808508400006810
Figure BDA00038808508400006811
Figure BDA00038808508400006812
[数13]
Figure BDA0003880850840000691
Figure BDA0003880850840000692
在此,Eq(θ)表示对于θv,g,k (m)所对应的q(θ)的平均。
ψ(·)表示被定义为伽玛函数的对数的一阶导数的双伽玛函数。
τj,g,v (m)遍及各对(j,m)的多个对(g,v)地被进行归一化。另一方面,ηi,v,k在各(i,v)的对中关于k被进行归一化。
观测模型和参数Θ的先验分布将在后面叙述。
(观测模型)
对于观测模型,考虑高斯分布、泊松分布以及类别分布/多项分布。对于每个簇块,以簇块内的特征相独立为前提,对这些家族的单变量分布进行拟合。这些分布族的参数假定为共轭先验分布。
(优化算法)
在超参数的更新方程式中,使用变分贝叶斯EM算法,如下面那样执行计算。
首先,随机地将{τ(m)}m和{ηv}v初始化,更新超参数直至式(1)的下限L(q(φ))收敛为止。这从L(q(φ))的观点出发生成局部最佳的分布q(φ)。多次重复该过程,选择具有最大的下限的最佳解作为近似后验分布q*(φ)。
Y和Z的MAP估计值分别作为argmaxYq* Y(Y)和argmaxZq* Z(Z)来评价。
下限L(q(φ))通过下式给出。
[数14]
Figure BDA0003880850840000701
右边的两项能够以闭合形式导出。随着q(φ)被优化,该值呈现出单调地增加的情形。即,如上所述,函数L(q(φ))具有随着更新Y和Z而单调地增加的性质,在判断为其增加方式变得非常小时(虽未特别限定,但例如是增量为规定值以下等条件成立时),判定为已收敛。
首先,确定各特征的分布族,生成对应的分布族的数据阵列。接着,对于数据阵列的集合,进一步生成Y和Z的MAP估计值,使用Y和Z的估计值来分析各视图中的目标物/特征量簇。
(模型表现)
多重共聚类模型由于通过数据驱动的方法导出视图的数量和特征/目标物簇的数量,因此具有足以表现各种聚类模型的灵活性。例如,在视图的数量为1的情况下,模型与共聚类模型一致。在特征量簇的数量对于所有的视图均为1个的情况下,与多重聚类模型一致。并且,在视图的数量为1、特征量簇的数量与特征的数量相同的情况下,与以往的具有独立的特征的混合模型一致。并且,该模型能够检测不区分目标物簇的无信息特征。在这种情况下,模型生成目标物簇的数量为一个的视图。模型的优点在于自动检测这种成为基础的数据结构。
能够通过上面那样的“多重共聚类法”来实现下面的情况。
1)能够以数据驱动方式鉴定位于数据背后的多个簇的划分方式(不仅包含对象的划分方式,还包含特征量的划分方式)以及与其对应的特征量群。
2)能够通过该手法来鉴定其它手法所不能发现的簇。
3)并且,能够通过特征量对各个簇的划分方式赋予意义,能够容易地进行各个簇的解释。
[对数据集进行聚类的结果的评价]
下面,将从如上所述的作为SRPBS而公开的大量的受验者处收集到的多设施大规模fMRI数据分割成两部分,在如上所述的多重共聚类法中分别使用各个部分,从而验证聚类的通用化性能。
图26A和图26B分别是示出像这样分割为两部分的数据集1和数据集2的图。
图26A所示的数据集1由在设施1~4处获取到的健康者545人、抑郁患者138人的数据构成,图26B所示的数据集2由在设施5~8处获取到的健康者263人、抑郁患者181人的数据构成。基本上对应于图10和图11所示的数据集。
图27是说明对各数据集实施聚类的概念的概念图。
如图27所示,对于数据集1,分别独立地按照图24所示的流程,通过多重共聚类法执行聚类。
在此,成为关心对象的问题是,通过这样对数据集1和数据集2分别独立地执行的基于数据驱动的聚类法所得到的各簇相互以何种程度相似(一致的程度为何种程度)。
如果数据集1和数据集2中的簇能够分类(分组)为具有相同或相似特性的簇(受验者组),则这种基于数据驱动的聚类不依赖于设施、测量装置等,而是在通用性高的状态下被执行。因此,成为问题的是,如何定量地评价被“分类为具有相同或相似特性的簇”。
图28是示出针对受验者数据的多重共聚类的例子的概念图。
如图28的(a)所示,作为成为输入的数据阵列,设为在行方向上排列有受验者并且在列方向上排列有特征量。
当对于该输入的数据阵列执行多重共聚类时,例如,如图28的(b)所示那样,特征量被分割为2个视图,在各视图中,受验者被进行聚类。
图29是示出对数据集1和数据集2实际实施多重共聚类处理所得到的结果的图。
在图29中,作为用于聚类的特征量,数据集1和数据集2均分别被选择99个。
在此基础上,对于数据集1,对138名抑郁患者执行了多重共聚类处理,对于数据集2,对181名抑郁患者执行了多重共聚类处理。
对于数据集1,特征量被分割成视图1和视图2这两个视图。对于视图1,进一步被共聚类为2个特征量簇,受验者被分割为5个受验者簇,对于视图2,受验者也被分割为5个簇。
对于数据集2,特征量也被分割成视图1和视图2这两个视图。对于视图1,进一步被共聚类为2个特征量簇,受验者被分割为4个受验者簇,对于视图2,受验者被分割为5个簇。
图30是示出对数据集1和数据集2中的各个视图分配的脑功能连接(FC)的个数的表。
在数据集1中,对视图1分配92个FC作为特征量,对视图2分配7个FC作为特征量。
在数据集2中,对视图1分配93个FC作为特征量,对视图2分配6个FC作为特征量。
另外,在该表中,对于数据集1和数据集2,在表的对角上记载了所分配的脑功能连接中的一致的个数。可知在数据集1和数据集2中对视图1和视图2分配的脑功能连接大致一致。
(聚类(分层)的通用性(数据集间相似性)验证方法)
下面,定量地评价通过对于数据集1和数据集2分别独立地执行的基于数据驱动的聚类所得到的各簇相互以何种程度相似(一致的程度为何种程度)。
图31是用于说明这样的聚类的相似度(分层的通用化性能)的评价手法的概念图。
首先,如图31的(A)所示,在通过上述那样的多重共聚类法将数据集1和数据集2独立地分割为簇的情况下,受验者在各个数据集的簇中是相互独立的,因此难以比较聚类的相似度。
在此,将利用由数据集1生成的分类器1执行数据集1的受验者的分类得到的结果设为聚类1。另一方面,将利用由数据集2生成的分类器2执行数据集2的受验者的分类得到的结果设为聚类2。
与此相对,如图31的(B)所示,将利用由数据集1生成的分类器1执行数据集2的受验者的分类得到的结果设为聚类1′。另一方面,将利用由数据集2生成的分类器2执行数据集1的受验者的分类得到的结果设为聚类2′。
在该情况下,在聚类1与聚类1′之间以及聚类2与聚类2′之间,分别对共通的受验者进行了分类,因此能够评价各自的相似度。
(测量聚类之间的相似度(再现度)的评估标准)
在此,以数据驱动方式执行了聚类处理,图29中的聚簇索引的值本身(索引的值的顺序)没有意义,因此在对相同的数据集合执行了不同的聚类的情况下,如何评价其相似度成为问题。
例如,在对于相同的数据集合X存在两个聚类结果π和ρ的情况下,作为评价这两个聚类结果的相似性(外在妥当性标准)的标准,已知有兰德指数(Rand index)。
关于数据集合中的全部数据的对(pair){x1,x2}∈X(M=N(N-1)/2个),作为对的种类,有下面的种类,如下面那样定义属于各个种类的对的个数。
[数15]
a11:π和ρ均存在于相同的簇的对的数量
a01:π存在于不同的簇但ρ存在于相同的簇的对的数量
a10:ρ存在于不同的簇但π存在于相同的簇的对的数量
a00:π和ρ均存在于不同的簇的对的数量
此时,作为通过两种聚类而分类出的聚类是否为相同的簇的判定的正确率,通过下面的式子来定义兰德指数。
[数16]
Figure BDA0003880850840000731
但是,例如,已知在数据集合的各簇的元素数存在偏差等情况下,存在“即使在随机地进行了聚类的情况下,兰德指数也成为较高的值”的情况。因此,更严格地说,使用如下的调整兰德指数(ARI:Adjusted Rand Index)。
图32A和图32B是用于说明ARI的概念图。
此外,关于ARI,例如在下面的公知文献22中有公开。将公知文献22的记载全部通过参照引用于此处。
公知文献22:Jorge M.Santos and Mark Embrechts,“On the Use of theAdjusted Rand Index as a Metric for Evaluating Supervised Classification(关于使用调整兰德指数作为评价监督分类的指标)”,ICANN 2009,Part II,LNCS 5769,pp.175-184,2009。
如上所述,在对相同的数据集合分别应用两个聚类结果的情况下,如图32A所示那样存在两次都被分类为相同的簇的情况和两次都被分类为不同的簇的情况,另一方面,如图32B所示那样也存在一次被分类为相同的簇但另一次被分类为不同的簇的情况。
在两种聚类彼此独立的情况下,通过计算数据对在两种聚类中都被分类为相同的簇或都被分类为不同的簇的情况下的期待值,并从兰德指数的分子和分母中分别减去该期待值来计算ARI。因而,在ARI中,在聚类没有相关性的情况下,将其值调整为0。
[数17]
Figure BDA0003880850840000741
在此,A表示对于两种聚类而言[(两次都被分类为相同的簇)+(两次都被分类为不同的簇)]的受验者对的数量,max(A)表示所有对的个数,E表示尽管两次的聚类是独立的但分配结果一致的受验者对的数量。
图33A和图33B分别是示出聚类1与聚类1′之间以及聚类2与聚类2′之间的相似度的评价结果的图。
图33A是针对数据集1和数据集2各自的视图计算ARI所得到的表。
关于数据集1和数据集2,对于视图1,ARI=0.47,对于视图2,ARI=0.51,可以说具有显著的相似性。
图33B示出与图33A对应的置换校验的结果。与对于视图1和视图2进行了元素交换时(用直方图表示)相比可知:在视图1和视图2中,ARI值(用实线表示)成为在统计上显著高的值。
此外,“置换校验”是指在受验者之间随机地交换了受验者的簇属性标签的情况下计算ARI值所得到的结果,在图中,将实施了规定次数的这样的交换时的其分布以直方图的形式示出。如果聚类之间的相似在统计上显著,则与随机交换元素的情况相比,作为比较对象的聚类间的ARI值成为显著高的值。
根据上面的内容,关于数据集间的聚类(分层),能够判断为确认了显著的相似性、即实现了通用化的聚类。
如以上说明的那样,针对数据集1的多重共聚类和针对数据集2的多重共聚类均是通过数据驱动来实现的,因此可以说是以脑功能连接为特征量的“患者的分层”的基础。
图34是示出对聚类1和聚类1′各自的视图1的各簇分配的受验者数的分布的表。
通过适当地对受验者聚类索引进行重排,大多数的受验者能够分布在表的对角的附近,在视觉上也能够确认两种聚类彼此相似的情形。
[协调化处理]
下面,对在下面的文献中公开的、在图6中称为协调化处理的处理的内容进行说明。
[多设施受检者法的协调化]
下面,对上面所说明的“疾病识别器”的生成、用于分层的“聚类处理”所使用的、用于独立于抽样偏倚地评价测定偏倚来协调测量数据的手法进行说明。
图35是用于说明本实施方式的rs-fcMRI法中在地点间移动来接受测量的移动受验者(下面为“多设施受检者:旅行受验者”)的地点间差异的评价手法的概念图。
如下面说明的那样,在本实施方式中,对能够使用多设施受检者的数据集来仅消除测定偏倚那样的协调化法进行说明。
参照图35,为了跨测量地点MS.1~Ms.Ns的地点地评价测定偏倚,而获取多设施受检者TS1(人数:Nts人)的数据集。
健康的Nts名参加者的静息态脑活动设为在Ns个地点的各个地点处进行拍摄,Ns个地点设为包括拍摄到患者数据的全部地点。
获取到的多设施受检者的数据集作为移动受验者数据被保存到数据中心200的存储装置210。
而且,如后述那样,在计算处理系统300中执行用于“脑活动生物标记物的协调方法”的处理。
多设施受检者的数据集只包括健康者群。另外,设为在全部的地点处参加者是相同的。因而,关于多设施受检者,地点间差异仅包含“测定偏倚”。
在下面说明的本实施方式的协调化法中,作为“脑活动生物标记物的协调方法”,对各测量地点处的测量数据进行以下处理:去除“测定偏倚”的影响来进行校正。
也就是说,下面,使用“统计建模”手法中的“一般线性混合模型(GLMM:Generalized Linear Mixed Model)”来评价“测定偏倚”和“抽样偏倚”。
在此,GLM(Generalized Linear Model:一般线性模型)通常是嵌入有用于说明“响应变量”的概率分布的“说明变量”的模型。在GLM中主要存在“概率分布”、“链接函数”、“线性预测器”这三个部件,通过指定该部件的组合方式,能够表现出各种类型的数据。
并且,GLMM(一般线性混合模型)是能够嵌入无法通过GLM说明的“人所无法测定/未测定过的个体差异等”的统计模型。关于GLMM,例如在对象由若干个子集合(例如,测量场所不同的子集合)构成的情况下,也能够将该场所差异嵌入到模型中。换言之,称为将多个概率分布作为部件的(混合而成的)模型。
例如,关于GLMM,在下面的公知文献23中有公开。将公知文献23的记载全部通过参照引用于此处。
公知文献23:久保拓弥著作、“データ解析のための統計モデリング入門(用于数据解析的统计建模入门)”、岩波书店、2012年第1版、2017年第14版
其中,在下面说明的本实施方式的统计模型中,通常是,对于被称为“效应”的“偏倚”和“因素(factor)”这样的术语,“偏倚”使用为“测定偏倚”和“抽样偏倚”,“因素(factor)”使用为其它因素(受验者因素、疾病因素)。
而且,下面的解析与单纯的GLMM的流程不同,不区分为“固定效应”和“随机效应”而进行因素的解析。这是由于,通常当使用GLMM时,关于随机效应仅估计方差,不知道各因素的效应的大小。因此,下面,为了评价各因素的效应的大小,对于各因素,如下面那样变换变量来进行估计以成为平均为0的固定效应。
i)将各地点的测定偏倚定义为与全部地点处的各个功能连接性的相关值的平均之间的偏差。
ii)假定为健康者和精神疾病患者的抽样偏倚互不相同。因而,对于健康者群和具有各疾病的患者群,独立地计算各地点的抽样偏倚。
iii)疾病因素被定义为与健康群的值之间的偏差。
即,下面,针对包括患者在内的数据集以及多设施受检者的数据集,如下面那样应用一般线性混合效应模型。
多设施受检者为Nts人,将Ns个测量地点中的进行了健康者的测量的地点数设为Nsh个,将进行了某种疾病(此处用后缀“dis”表现)的患者的测量的地点的个数设为Nsd个。
通过使回归模型拟合患者的测量结果的数据集以及多设施受检者的数据集中的所有参加者的功能连接性的相关值来评价参加者因素(p)、测定偏倚(m)、抽样偏倚(Shc,Sdis)以及精神疾病因素(d)。
下面,向量用小写字母(例如m)表示,假定向量全部为列向量。
向量元素如mk那样利用后缀来进行表示。
由脑区域间的n个相关值构成的功能连接性向量(设为列向量)的回归模型表示为下面的式子。
[数18]
Connectivity=xm Tm+xShc Tshc+xSdis Tsdis+xd Td+xp Tp+const+e
Figure BDA0003880850840000781
d1(HC)=0
为了表示参加者的特性,而使用1-of-K(哑编码)的二进制代码体系,对于属于地点k的测定偏倚m而言的目标向量(例如xm)除了等于1的元素k以外,其余全部等于零。
如果参加者不属于任何类别(健康者、患者、多设施受检者),则目标向量为所有元素都等于0的向量。
上角标T表示矩阵或向量的置换,xT表示行向量。
在此,m表示测定偏倚(Ns×1的列向量),shc表示健康群的抽样偏倚(Nsh×1的列向量),sdis表示患者的抽样偏倚(Nsd×1的列向量),d表示疾病因素(将2×1的列向量、健康以及疾病作为元素),p表示参加者因素(Nts×1的列向量),const表示涉及来自全部测量地点的全部参加者(包括健康者、患者、多设施受检者)的功能连接性的平均,e~N(0,γ-1)表示噪声。
此外,在此,设为为了简化说明而疾病的种类为一种来进行说明。疾病的种类存在多种的情况在后面记述。
对于各功能连接性的相关值,由于回归模型的设计阵列不满秩,因此使用基于L2归一化的最小二乘回归,来评价各个参数。此外,除了基于L2归一化的最小二乘回归法以外,例如还能够使用贝叶斯估计法等其它评价方法。
在如上所述的回归计算之后,受验者a的第b个连接性能够如下那样描述:
[数19]
Figure BDA0003880850840000791
图36是用于说明受验者a的第b个功能连接性的表现的概念图。
在图36中,示出了第一项和第二项的目标向量的意义以及测定偏倚向量和健康者的抽样偏倚向量。
第三项以后也是同样的。
(协调化处理的流程)
图37是用于说明计算测定偏倚以进行协调化的处理的流程图。
首先,在数据中心200的存储装置210中,从各测量地点收集了受验者(健康者和患者)的fMRI测量数据、受验者的属性数据、测定参数(图37的S402)。
接着,虽然没有特别限定,但是例如以规定的周期(例如以1年为周期)巡回于各测量地点来测量多设施受检者TS1的脑活动,在数据中心200的存储装置210中,从各测量地点收集了多设施受检者的fMRI测量数据、受验者的属性数据、测定参数(图37的S404)。
协调化计算部3020通过使用如上所述的GLMM(一般线性混合模型),来针对功能连接性评价各测量地点的测定偏倚(图37的S406)。
协调化计算部3020将通过这样计算出的各测量地点的测定偏倚作为测定偏倚数据3108保存到存储装置2080中(图37的S408)。
(判别器生成处理中的协调化)
简单地说明判别处理部3000生成关于受验者的疾病或健康标签的疾病识别器的处理中的对于脑功能连接值的协调化。
这种疾病识别器提供用于对受验者进行诊断的辅助信息(援助信息)。
相关值校正处理部3004读出存储装置2080中保存的各测量地点的测定偏倚数据3108,如下面的式子那样对用于疾病识别器生成的机器学习的成为训练对象的各受验者的相关阵列的非对角成分执行协调化处理。
[数20]
Figure BDA0003880850840000792
在此,功能连接性Connectivity表示协调化前的功能连接性向量,Csub表示协调化后的功能连接性向量。另外,m(帽子)(下面,将在字母x的头部带有^表述为“x(帽子)”)表示通过如上所述的基于L2归一化的最小二乘回归进行了评价的测量地点处的测定偏倚。由此,将功能连接性Connectivity减去与被测量出功能连接性Connectivity的测量地点对应的测定偏倚来接受协调化处理。
执行校正处理后的数据作为校正后相关值数据3110而被保存到存储装置2080中。
此外,也如下面的公知文献24中记载的那样,假定为疾病因素并非与整个大脑的连接性有关而是与连接性的特定子集合有关是妥当的。将公知文献24的记载全部通过参照引用于此处。
公知文献24:Yahata N,et al.A small number of abnormal brainconnections predicts adult autism spectrum disorder(少量异常的大脑连接预测成人自闭症谱系障碍).Nat Commun 7,112 54(2016).
因此,接着,对于包括关于受验者的疾病/健康标签的受验者的疾病标签和校正处理后的功能连接性,由疾病识别器生成部3008如上述那样通过伴有特征选择的学习处理生成疾病识别器。
此外,作为用于抑制过度学习来执行特征选择和模型化的手法,不限定于利用LASSO的正则化逻辑回归,例如也可以使用如下面的公知文献25中公开的稀疏逻辑回归、其它的稀疏贝叶斯估计法等其它手法。将下面的公知文献25的记载全部通过参照引用于此处。
公知文献25:Okito Yamashita,Masaaki Sato,Taku Yoshioka,Frank Tong,andYukiyasu Kamitani.“Sparse Estimation automatically selects voxels relevantfor the decoding of fMRI activity patterns(稀疏估计自动选择与fMRI活动图案解码相关的体素).”NeuroImage,Vol.42,No.4,pp.1414-1429,2008.
根据以上内容,生成对于疾病识别器(作为用于利用脑活动生物标记物进行诊断的判别器而发挥功能),疾病识别器生成部3008将用于确定判别器的信息作为疾病识别器数据3112保存到存储装置2080中。
以上那样的处理如上述那样没有特别限定,但是可以设为每隔规定的期间(例如1年)来实施。
而且,在某一个测量地点处新执行了关于一名受验者的功能连接性的测量的情况下,能够假定为该测量地点的测定偏倚在规定期间内是固定的,因此判别值计算部3012从输入的关于该受验者的输入数据的相关阵列的元素的值减去在上述的过程中已经计算出的与测量出该输入数据的测量地点对应的“测定偏倚”,由此执行协调化处理。而且,通过上述的过程,由已经制作出的“疾病识别器”输出关于该受验者的判别标签来作为判别结果。
判别结果可以是表示“疾病”、“健康”这二者中的某一个的值,或者也可以是表示“疾病”、“健康”中的至少一方的概率的值。
此外,在判别值计算部3012实施的判别处理时,作为被输入的“输入数据”,可以是表示受验者的脑功能活动的MRI测量数据本身,或者也可以是相关值本身的数据,该相关值是在各测量地点处根据表示受验者的脑功能活动的MRI测量数据计算出相关阵列的值之后的相关阵列的非对角元素。
(追加了新的测量地点的情况下的协调化计算处理)
图38是用于说明在通过图37中所说明的过程执行了用于协调化处理的测定偏倚的计算之后追加了新的测量地点的情况下的用于协调化处理的测定偏倚的计算处理的概念图。
参照图38,在新增加了第(Ns+1)个测量地点MS.Ns+1的情况下,重新使多设施受检者TS1再巡回于该(Ns+1)个测量地点的全部来进行与上述的协调化计算处理同样的过程,能够重新计算测定偏倚。
通过执行以上说明的处理的系统,能够对在多个设施处测量的大脑的活动的测量数据调整和校正各设施处的测定偏倚。由此,能够基于多个设施处的测量数据来调整脑功能连接相关值。
另外,根据执行本实施方式那样的处理的系统,能够实现能够协调在多个设施处测量出的大脑的活动的测量数据来提供用于客观地判断健康或疾病的状态的数据的脑活动分类器的协调方法、脑活动分类器的协调系统、脑活动解析系统以及脑活动解析方法。
或者,根据执行本实施方式那样的处理的系统,能够实现对于在多个设施处测量出的大脑的活动的测量数据的、关于神经/精神疾病的基于脑功能图像法的生物标记物装置、生物标记物装置的程序。
[实施方式1的变形例]
此外,在以上的说明中,以在各测量地点处获取了下面的受验者的数据为前提来对协调化计算处理进行了说明。
i)患者数据
ii)健康者的数据
iii)多设施受检者的数据
其中,如果只是以上述的“测定偏倚”的评价为目的,则也可以设为通过GLMM(一般线性混合模型)基于对多设施受检者测量出的数据来评价“测定偏倚”。
即,设为多设施受检者为Nts人。
通过使回归模型拟合多设施受检者的数据集中的全部参加者的功能连接性的相关值来评价参加者因素(p)、测定偏倚(m)。
在此也是,向量用小写字母(例如m)表示,假定向量全部为列向量。
向量的元素如mk那样通过下角标来表示。
由脑区域间的n个相关值构成的功能连接性向量(设为列向量)的回归模型表示为下面的式子。
[数21]
Connectivity=xm Tm+xp Tp+const+e
Figure BDA0003880850840000831
为了表示参加者的特性,而使用1-of-K(哑编码)的二进制代码体系,对于属于地点k的测定偏倚m而言的目标向量(例如xm)除了等于1的元素k以外,其余全部等于零。
上角标T表示矩阵或向量的置换,xT表示行向量。
通过以上那样的结构,也能够设为计算“测定偏倚”来执行协调化处理的结构。
作为实施方式1的手法与第一实施方式的变形例的手法的不同点,在如实施方式1的变形例的手法那样仅使用多设施受检者的情况下,存在可以不考虑抽样偏倚这样的优点,另一方面,如实施方式1的手法那样包括患者的数据和健康者的数据双方的话,存在在估计中使用的数据数量变多这样的优点。
因而,可以说因不考虑抽样偏倚而产生的测定偏倚的估计精度的提高与因数据数量多而产生的测定偏倚的估计精度的提高具有相互折衷的关系。
因此,虽然没有特别限定,但是例如也能够通过实验来使在现实的运用中在各测量地点处使用的参加者(患者和健康者)的数据数量优化。在该情况下,虽然没有特别限定,但是也可以设为事先分配从各测量地点提取的参加者的人数,在各测量地点处随机地提取该人数量的数据。
[实际的脑活动测量结果的数据及其解析]
下面,说明对实际公开的多疾病数据库的数据执行如上所述的协调化处理而得到的结果。
图39A和图39B分别是示出协调化处理中使用的多疾病数据库的数据和多设施受检者的数据集的概念图。
如图39A所示,使用作为脑科学战略研究计划(SRPBS:Strategic ResearchProgram for Brain Sciences)中的多疾病数据库(https://bicr-resource.atr.jp/decnefpro/)而公开的数据的患者群和健康群的数据集。
作为多疾病数据集,在多个测量地点(在图39A中,典型地示出地点1、地点2、地点3)处测量出的数据包含关于精神疾病患者的采样偏倚、关于健康者的采样偏倚以及测定偏倚来作为地点间差异。
另一方面,如图39B所示,针对关于多设施受检者的数据集,在多个测量地点(在图39B中,典型地示出地点1、地点2、地点3)处测量出的数据仅包含测定偏倚来作为地点间差异。
能够通过数据集的同时分析来将地点间差异分割为测定偏倚和抽样偏倚,将测定偏倚和抽样偏倚在静息态的功能连接性上的效应大小与精神疾病的效应大小进行定量比较。
关于测定偏倚,针对不同的拍摄参数、MRI装置制造商以及各MRI扫描仪中的接收线圈的数量,定量比较了效应的大小。
为了克服与地点间差异相关联的这些限制,使用多设施受检者的数据集来执行能够仅消除测定偏倚那样的协调化法。
基于通过新提出的方法和已有的方法协调后的多个地点的静息态的功能连接MRI数据,构建出受验者的信息(属性)(例如年龄)的回归模型和精神疾病的生物标记物。
对这些预测模型的性能会基于协调化的方法如何变化进行了调查。
(所使用的数据集)
使用了如下的三个静息态的功能MRI数据集:
(1)SRPBS的多个疾病的数据集;
(2)19位多设施受检者数据集;以及
(3)独立的验证用数据集。
(SRPBS的多疾病的数据集)
图40(图40A至图40D)是示出SRPBS的多疾病数据集的内容的图。
在9个地点处诊察得到的包括5种不同的疾病患者和健康的对照群(HC)的该数据集包含有下面的共805名参加者:
来自9个地点的482名健康者的数据;来自5个地点的161名重性抑郁症(MDD)患者的数据;来自1个地点的49名自闭症(ASD)患者的数据;来自1个地点的65名强迫症(OCD)患者的数据;以及来自3个地点的48名精神分裂症(SCZ)患者的数据。
图41(图41A至图41D)是示出各测量地点处的拍摄协议的图。
静息态的功能MRI数据是在3个地点以外的所有地点处使用进行了统一的拍摄协议而得到的。(http://www.cns.atr.jp/rs-fmri-protocol-2/)
该数据集的地点间差异包含有测定偏倚和抽样偏倚双方。
关于偏倚评价,仅使用了使用统一协议获得的数据。
此外,由于使用该统一协议而没有扫描出OCD患者,因此没有对OCD进行疾病因素的评价。
表中的简写符号如下。
ATT:国际电气通信基础技术研究所的西门子TimTrio扫描仪;
ATV:国际电气通信基础技术研究所的西门子Verio扫描仪;
KUT:京都大学的西门子TimTrio扫描仪;
SWA:昭和大学;
HUH:广岛大学医院;
HKH:广岛梶川(Kajikawa)医院;
COI:COI(广岛大学);
KPM:京都府立医科大学;
UTO:东京大学;
ASD:自闭症障害。
MDD:重性抑郁障碍。
OCD:强迫症。
SCZ:精神分裂症。
SIE:西门子fMRI装置。
GE:GE fMRI装置。
PHI:飞利浦fMRI装置。
(多设施受检者的数据集)
为了跨SRPBS数据集中的测量地点地评价测定偏倚,而获取了多设施受检者的数据集。
健康的9名参加者(全部为男性;年龄层:24岁-32岁;平均年龄:27±2.6岁)在12个地点处分别被拍摄,在12个地点中包含有拍摄到SRPBS数据集的9个地点,被实施了共411个操作。
虽然尝试了使用与SRPBS的多个疾病的数据集相同的拍摄协议来获得该数据集,但是由于各地点的参数设置或常规的扫描条件的限制,而地点之间的拍摄协议存在一些差异。
例如,存在两个相位编码方式的方向(P→A和A→P)、3个MRI制造商(西门子、GE以及飞利浦)、4种线圈通道数(8、12、24以及32)以及7种扫描仪类型(TimTrio、Verio、Skyra、光谱、MR750W、SignaHDxt以及Achieva)这样的差异。
由于在12个地点处对相同的9名参加者进行了拍摄,因此该数据集的地点间差异仅包含测定偏倚。
(独立的验证数据集)
为了验证基于静息态的功能连接MRI数据的、精神疾病的分类器和预测参加者的年龄的模型的通用化性能,而获取了覆盖2种疾病以及7个地点的独立的验证队列的数据。
在该数据中包含有共625名参加者。
即,获取了来自6个地点的476名健康群(HCs)、来自2个地点的93名MDD的患者、以及来自1个地点的56名SCZ的患者的数据。
(地点间差异和疾病效应的视觉化)
首先,通过主成分分析(PCA:principal component analysis)将SRPBS的多个疾病的静息态的功能连接MRI数据集中的地点间差异和疾病效应进行了视觉化。
图42是示出使通过这种主成分分析得到的地点间差异和疾病效应视觉化的图表。
此处的主成分分析相当于基于无监督学习的维数约减手法。
受验者的功能连接性如上述那样被计算为依赖于各参加者的两个脑区域间的静息态的功能MRI的血中氧浓度的、(BOLD)信号的时间上的相关性(使用皮尔逊相关系数)。
基于由覆盖整个大脑的268个节点(也就是脑区域)构成的功能大脑地图来定义功能连接性。
使用表示功能连接的相关性的矩阵的下三角阵列的35,778个(也就是说(268×267)/2)的连接强度(连接性)的值。
如图42所示,SRPBS的多个疾病的数据集中的参加者的数据全部被绘制在由最初的两个主成分构成的两个轴上。
即,SRPBS的多个疾病的数据集的全部参加者以通过小的浅色标记来表示的方式被投射到最初的两个主成分(PC)中。
对于主成分1,HUH地点清楚地分离开,这是说明数据中的大部分方差的情形。
ASD的患者仅在SWA地点处被扫描出。因而,该地点处扫描出的ASD(▲)患者和健康群HC(●)的平均被绘制在了几乎相同的位置。
在图42中,示出多个疾病的数据集中的利用PCA的维数约减。
(偏倚评价)
为了定量地调查静息态的功能连接MRI数据的地点间差异,而确定出测定偏倚、抽样偏倚以及诊断的因素。
如上所述,将各地点的测定偏倚定义为与全部地点处的各个功能连接性的相关值的平均之间的偏差。假定为健康者和精神疾病患者的抽样偏倚互不相同。
因而,对于健康者群和具有各疾病的患者群,独立地计算出各地点的抽样偏倚。
疾病因素被定义为与健康群的值之间的偏差。
由于是在多个地点处采样的患者群,因此对MDD和SCZ的患者进行了抽样偏倚的评价。
作为对照,在多设施受检者的数据集中,由于参加者是固定的,因此仅包含有测定偏倚。
通过将多设施受检者与SRPBS的多个疾病的数据集进行组合,由此作为因不同的地点而受到影响的不同的因素,同时对测定偏倚和采样偏倚进行了评价。为了评价两种偏倚和疾病的因素对功能连接性的效应,如下面那样利用了“线性混合效应模型”。
(对于SRPBS的多个疾病的数据集的线性混合效应模型)
在线性混合效应模型中,SRPBS的多个疾病的数据集中的各受验者的连接性的相关值由固定效应和随机效应构成。
固定效应包含作为基线的涉及全部参加者和全部地点的平均相关值、以及测定偏倚、抽样偏倚及疾病因素之和。
参加者的因素(也就是个人差异)以及扫描间的变化结合而产生的效应被视为随机效应。
(偏倚和因素的评价的详细内容)
通过使回归模型拟合SRPBS的多个疾病的数据集和多设施受检者的数据集中的全部参加者的功能连接性的相关值,来对参加者因素(p)、测定偏倚(m)、抽样偏倚(shc、smdd、sscz)以及精神疾病因素(d)进行了评价。
在本例中,向量用小写字母的粗体(例如m)表示,假定向量全部为列向量。
向量的元素如mk那样利用后缀来进行表示。
与上述同样地,为了表示参加者的特性,而使用1-of-K(哑编码)的二进制代码体系,对于属于地点k的测定偏倚m而言的目标向量(例如xm)除了等于1的元素k以外,其余全部等于零。
因而,如果参加者不属于任何类别,则目标向量为所有元素都等于0的向量。
上角标T表示矩阵或向量的置换,xT表示行向量。
关于各连接性,回归模型能够如下面那样表示。
[数22]
Connectivity=xm Tm+xShc Tshc+xSmdd Tsmdd+xSscz Tsscz+xd Td+xp Tp+const+e
Figure BDA0003880850840000891
d1(HC)=0
其中,m表示测定偏倚(12个地点×1),shc表示健康群的抽样偏倚(6个地点×1),smdd表示MDD患者的抽样偏倚(3个地点×1),sscz表示SCZ患者的抽样偏倚(3个地点×1),d表示疾病因素(3种疾病×1),p表示参加者因素(9名多设施受检者×1),const表示来自全部地点的涉及全部参加者的功能连接性的平均,e~N(0,γ-1)表示噪声。
对于各功能连接性的相关值,使用基于L2归一化的标准的通常的最小二乘回归对各个参数进行了评价。
在未应用归一化的情况下,观察到关于健康群的测定偏倚与抽样偏倚之间的杂散去相关性、以及关于健康群的抽样偏倚与关于精神疾病患者的抽样偏倚之间的伪相关性。为了使这些伪相关性的绝对平均最小化而进行了超参数λ的调整。
(对于多设施受检者的数据集的线性混合效应模型)
在对于多设施受检者的数据集的线性混合效应模型中,多设施受检者的数据集中对于特定扫描的各参加者的连接性的相关值包含固定效应和随机效应。
固定效应包含涉及全部参加者和全部地点的平均相关值、参加者因素以及测定偏倚之和。
扫描间的变化被视为随机效应。
对于各参加者,将参加者因素定义为脑功能连接性的相关值相对于涉及全部参加者的平均的偏差。
通过使上述的两个回归模型同时拟合两个不同的数据集的功能连接性的相关值,来对全部的偏倚和因素进行了评价。
总之,偏倚或各因素分别作为包含有反映连接性的相关值的数量(即,35,778个)的维数的向量被进行了评价。
(贡献大小的分析)
为了定量地确认因素间的大小关系,在线性混合效应模型中,计算贡献大小并进行比较,决定出各类型的偏倚和因素以何种程度对数据的方差进行说明。
[数23]
Figure BDA0003880850840000901
例如,在该模型中,如下面那样计算出测定偏倚(也就是第一项)的贡献大小。
[数24]
Figure BDA0003880850840000902
在此,Nm表示各因素的元素的数量,N表示连接性的数量,Ns表示受验者的数量,Contribution sizem表示测定偏倚的贡献大小的程度。
这些式子被使用于对与测定偏倚(例如,相位编码方向、扫描仪、线圈以及fMRI制造商)有关的各个因素的贡献大小进行评价。
特别是,将测定偏倚分解为这些因素,之后对关联的参数进行了评价。
其它参数被固定为与在此以前评价过的参数相同的值。
从贡献大小的评价可以获知下面的内容。
1)测定偏倚对功能连接性的效应大小虽然表示出小于参加者因素的效应但是大部分大于疾病因素的效应,表明测定偏倚成为关于精神疾病的研究中重大的限制。
2)抽样偏倚中的最大的方差显著大于MDD因素的方差,抽样偏倚中的最小的方差为疾病因素的方差的二分之一。
这表明抽样偏倚也成为关于精神疾病的研究中重大的限制。
3)参加者因素的标准偏差为SCZ、MDD以及ASD的疾病因素的标准偏差的约2倍。因而,在考虑全部的功能连接的情况下,健康者的总体内的个人的变动大于SCZ、MDD以及ASD的患者间的变动。
4)并且,测定偏倚的标准偏差大多大于疾病因素的标准偏差,另一方面,采样偏倚的标准偏差是与疾病因素的标准偏差相同的程度。
这种关系性使得针对精神疾病或智力障碍进行基于静息态的功能连接MRI的分类器的开发变得非常困难。仅在能够从大量的连接中选择数量非常少的疾病所特定的、或者测定地点所独立的异常的功能连接的情况下,能够关于多个地点生成鲁棒且能够通用的分类器。
(针对测定偏倚的分层聚类分析)
对于各地点k,计算测定偏倚mk(N×1,在此,N为功能连接性的个数)间的皮尔逊相关系数,基于涉及测定偏倚的相关系数进行了分层聚类分析。
图43是基于分层聚类分析的树状图。
树状图中的各链接(linkage)的高度表示通过该链接来连结的簇间的非相似性(1-r)。
在调查测定偏倚的特性时,针对12个地点调查了被评价的测定偏倚向量的相似性是否反映出相位编码的方向、MRI制造商、线圈类型以及扫描仪类型那样的MRI扫描仪的特定的特性。
为了发现对于测定偏倚的同样模式的簇,使用了分层聚类分析。
其结果是,如图43所示,12个地点的测定偏倚在第一级被分割为相位编码的方向的簇。
测定偏倚在第二级被分割为fMRI制造商的簇,进一步分割为线圈类型簇,而且分割为扫描仪型号簇。
图44是示出各因素的贡献大小的图。
如图44所示,为了对各因素的贡献进行评价,通过使用相同的模型,来定量地确认因素的大小关系。
贡献大小具有如下的关系:相位编码方向(0.0391)是最大的,其次是fMRI制造商(0.0318)、线圈类型(0.0239)以及扫描仪型号(0.0152)。
通过这些示出:对测定偏倚带来影响的主要因素是相位编码方向,其次是fMRI制造商、线圈类型以及扫描仪型号的差异。
(协调化效果的视觉化)
接着,使用多设施受检者的数据集来说明能够仅去除测定偏倚的协调化法。
如上所述,使用线性混合效应模型来独立于抽样偏倚地对测定偏倚进行了评价。
通过该方法,能够从SRPBS的多个疾病的数据集中仅去除测定偏倚,能够维持包含有生物学信息的抽样偏倚。
(多设施受检者的协调化)
为了评价测定偏倚,HKH地点处的相位编码方向在SRPBS的多个疾病的数据集与多设施受检者的数据集之间是不同的,因此,下面设为在式中与测定偏倚分开地包含相位编码因素(paq)。
通过使回归模型拟合将SRPBS的多个疾病的数据集和多设施受检者的数据集结合而成的数据集,来评价测定偏倚和相位编码因素。
回归模型如下面那样。
[数25]
Connectivity=xm Tm+xShcTshc+xSmdd Tsmidd+xSscz Tsscz+xd Td+xp Tp+xpa Tpa+const+e
Figure BDA0003880850840000921
d1(HC)=0,
Figure BDA0003880850840000922
在此,pa表示相位编码因素(两个相位编码方向×1)。
通过基于标准的LS归一化的最小二乘法回归对各功能连接性的相关值执行归一化后使用,来对参数分别进行了评价。
地点间差异是通过减去被评价的地点间差异和相位编码因素而被去除。
因而,抽样偏倚被协调后的功能连接性的相关值如下。
[数26]
Figure BDA0003880850840000931
其中,m表示被评价了的测定偏倚,pa(帽子)表示被评价了的相位编码因素。
图45是使协调化过程的影响视觉化的图,是与图42进行对比的图。
在图45中,在从SRPBS的多个疾病的数据集仅去除测定偏倚之后对数据进行了绘制。
在图42中反映了协调化前的数据,与图42所示的数据进行比较,在图45中,HUH地点大幅移动为更接近原点侧(也就是总体的平均),并且不再大幅地远离其它地点。
图45所示的结果表示:如图42中看到的HUH地点的分离是由测定偏倚带来的,该分离能够通过协调化来被去除。
并且,协调化对于识别在相同的地点处扫描出的患者和健康者群也是有效的。
ASD的患者仅在SWA地点被扫描到,因此在该地点处扫描到的ASD患者(▲)和健康者(○)的平均在图17中被绘制到了几乎相同的位置处。
然而,在图45中,两个符号被相互明显地分离开。
[实施方式2]
在实施方式1中,作为通过脑活动测量装置(fMRI装置)测量在多个测定场所处测量出的脑活动数据、并基于该脑活动数据来进行生物标记物的生成以及利用生物标记物对诊断标签的估计(预测)的结构,说明了通过方差处理来进行的一例的结构。
但是,也能够设为将下面的处理分别分散于不同的设施中来执行的结构:i)用于通过机器学习来训练生物标记物的脑活动数据的测量(数据收集);ii)通过机器学习生成生物标记物的生成处理以及利用生物标记物对特定的受验者进行的诊断标签的估计(预测)的处理(估计处理);iii)关于上述特定的受验者的脑活动数据的测量(对象者的脑活动测量)。
图46是示出分散地进行数据收集、估计处理以及对象者的脑活动测量的情况下的一例的功能框图。
参照图46,地点100.1~100.N是通过脑活动测量装置来测量患者群、健康者群的数据的设施,数据中心200对来自地点100.1~100.Ns的测量数据进行管理。
计算处理系统300根据数据中心200中保存的数据来生成识别器。
另外,设为计算处理系统300的协调化计算部3020将地点100.1~100.Ns以及MRI装置410的地点包含在内来执行协调化处理。
MRI装置410设置于利用计算处理系统300上的识别器的结果的其它地点处,对特定的受验者测量脑活动的数据。
计算机400设置于MRI装置410被设置的其它地点处,根据MRI装置410的测定数据来计算特定受验者的大脑的功能连接的相关数据,将功能连接的相关数据发送到计算处理系统300,并利用返回来的识别器的结果。
数据中心200保存从地点100.1~100.Ns发送来的患者群和健康者群的MRI测量数据3102、以及与MRI测量数据3102相关联的受验者的人属性信息3104,按照由计算处理系统300进行的访问,来将这些数据发送到计算处理系统300。
计算处理系统300经由通信接口2090接收来自数据中心200的MRI测量数据3102和受验者的人属性信息3104。
此外,数据中心200、计算处理系统300、计算机400的硬件的结构基本上与图5中所说明的“数据处理部32”的结构相同,因此不重复其说明。
返回到图46,关于相关阵列计算部3002、相关值校正处理部3004、疾病识别器生成部3008、聚类分类器生成部3010及判别值计算部3012、以及功能连接的相关阵列的数据3106、测定偏倚数据3108、校正后相关值数据3110及识别器数据3112,与实施方式1中所说明的相同,因此不重复其说明。
MRI装置410测量成为诊断标签的估计对象的受验者的脑活动数据,计算机400的处理装置4040将测量出的MRI测量数据4102保存到非易失性存储装置4100中。
并且,计算机400的处理装置4040基于MRI测量数据4102,来与相关阵列计算部3002同样地计算功能连接的相关阵列的数据4106,并保存到非易失性存储装置4100中。
由计算机400的用户指定成为诊断对象的疾病,按照该用户发送的指示,计算机400将功能连接的相关阵列的数据4106发送到计算处理系统300。响应于该发送,计算处理系统300执行与MRI装置410被设置的地点对应的协调化处理,判别值计算部3012计算关于所指定的诊断标签的判别结果、关于亚型的评价结果,计算处理系统300经由通信接口2090发送到计算机400。
在计算机400中,经由未图示的显示装置等向用户通知判别结果。
通过设为这样的结构,能够基于对更多的受验者收集到的数据,来提供由识别器得到的诊断标签的估计结果。
另外,也能够设为由单独的管理者来管理数据中心200和计算处理系统300的方式,在该情况下,通过对能够访问数据中心200的计算机进行限制,还能够提高数据中心200中保存的受验者的信息的安全性。
并且,当从计算处理系统300的运营主体来看时,即使对于“接受识别器进行判别的服务一侧(计算机400)”不提供任何关于识别器的信息、与“测定偏倚”有关的信息,也能够进行“提供判别结果的服务”。
此外,在以上的实施方式1和实施方式2的说明中,作为用于利用脑功能图像法来按时间序列测量脑活动的脑活动检测装置,设为使用实时fMRI进行了说明。但是,作为脑活动检测装置,能够使用上述的fMRI、脑磁图仪、近红外光测量装置(NIRS)、脑电图仪、或它们的组合。例如,在使用它们的组合的情况下,fMRI和NIRS检测与脑内的血流变化相关联的信号,具有高空间分辨率。另一方面,脑磁图仪、脑电图仪具有用于检测与脑活动相伴的电磁场的变化的高时间分辨率的特征。因而,例如,如果将fMRI与脑磁图仪组合,则在空间上和时间上都能够高分辨率地测量脑活动。或者,即使将NIRS与脑电图仪组合,也同样能够以小型且能够携带的大小来构成在空间上和时间上都能够高分辨率地测量脑活动的系统。
通过以上那样的结构,对于神经/精神疾病,能够实现作为基于脑功能图像法的生物标记物来发挥功能的脑活动解析装置和脑活动解析方法。
另外,在以上的说明中,说明了下面的例子:关于包含“诊断标签”来作为受验者的属性的情况,通过机器学习生成识别器来使该识别器作为生物标记物发挥功能,但是,本发明未必限定于这种情况,只要是将作为用于成为机器学习对象的获得测定结果的对象的受验者群事先通过客观的方法划分为多个类,并测定受验者的脑区域间(关心区域间)的活动度的相关性(连接),通过对测定结果进行机器学习,能够生成对于类的识别器即可,也可以使用于其它的判别。
另外,如上所述,这样的判别也可以将属于某属性的可能性显示为概率。
因而,例如采用某“训练”、“行动模式”能够客观地评价是否有助于增进受验者的健康。另外,实际上,即使是没有患上疾病的状态(“尚未患病”),也能够客观地评价某些“食物”、“饮料”等那样的摄取物、某些活动等对于更接近健康状态是否有效。
另外,在尚未患病的状态中,也能够如上述那样,例如只要输出“健康的概率为○○%”那样的显示,则能够向用户显示关于健康状态的客观的数值。此时,输出的不一定是概率,也可以设为显示将“健康程度的连续值、例如健康的概率”转换为得分后的值。通过进行这种显示,除了能够将本实施方式的装置使用于诊断的辅助以外,还能够将其使用为用于用户的健康管理的装置。
[实施方式3]
在以上的说明中,构成为通过多设施受检者同等地移动于全部的测量地点并进行测量来评价测定偏倚。
图47是示出实施方式3的多设施受检者的巡回方式的图。。
如图47所示,以多设施受检者TS1巡回于作为据点的“据点测量地点MS.1~MS.Ns”为前提。
与此相对,例如,关于这些据点测量地点MS.1~MS.Ns中的据点测量地点MS.2,预先设为存在成为下级的MS2.1~MS2.n,在新追加了“测量地点MS.2.n+1”的情况下,多设施受检者TS2巡回于该下级的范围。其它的据点测量地点也是同样的。
即,也能够设为如下结构:据点测量地点MS.2的测定偏倚固定为对多设施受检者TS1评价得到的值,关于测量地点MS.2、MS2.1、MS2.n、MS2.n+1,基于多设施受检者TS2巡回得到的测量结果来决定测定偏倚。
例如,假设“据点测量地点MS.1~MS.Ns”存在于预先决定的各地域,也考虑设为如下结构:在日本内的北海道、东北、关东、…、关西、…九州那样的各地域各设置有一处,下级地点例如为位于该地域之一的关西的测量地点。
或者,“据点测量地点MS.1~MS.Ns”也可以按预先决定的MRI装置的类型来决定。在该情况下,下级的测量地点是指设置有与据点地点相同类型的MRI装置的测量地点。
或者,“据点测量地点MS.1~MS.Ns”也可以按预先决定的地域且按所决定出的MRI装置的类型来决定。在该情况下,下级的测量地点是指在与据点地点相同的地域内设置有相同类型的MRI装置的测量地点。
这样的结构也能够起到与实施方式1同样的效果。
本次公开的实施方式是用于具体地实施本发明的结构的例示,不是对本发明的保护范围进行限制。本发明的保护范围不是实施方式所说明的范围,而是通过权利要求书来表示的范围,意图包含权利要求书的内容上的范围以及均等意义的范围内的变更。
附图标记说明
2:受验者;6:显示器;10:MRI装置;11:磁场施加机构;12:静磁场发生线圈;14:倾斜磁场产生线圈;16:RF照射部;18:卧具;20:接收线圈;21:驱动部;22:静磁场电源;24:倾斜磁场电源;26:信号发送部;28:信号接收部;30:卧具驱动部;32:数据处理部;36:存储部;38:显示部;40:输入部;42:控制部;44:接口部;46:数据收集部;48:图像处理部;50:网络接口。

Claims (22)

1.一种脑功能连接相关值的聚类装置,用于基于对象者的脑活动的测量结果,来在所述对象者中执行对具有至少一个规定的属性的所述对象者的聚类,
所述脑功能连接相关值的聚类装置具备计算处理系统,所述计算处理系统用于针对包括具有所述规定的属性的第一受验者群和不具有所述规定的属性的第二受验者群的多个受验者,基于脑活动的测量值来执行所述聚类的处理,
所述计算处理系统包括存储装置和运算装置,
所述运算装置构成为:
i)针对所述多个受验者的各受验者,将基于分别表示规定的多个脑区域对之间的脑活动的时间相关性的多个脑功能连接相关值的特征量保存到所述存储装置中;
ii)基于所述存储装置中所保存的所述特征量,以有监督学习来执行生成用于判别所述属性的有无的识别器模型的机器学习,
所述运算装置在生成所述识别器模型的机器学习中进行以下处理:
根据所述第一受验者群和所述第二受验者群,执行欠采样和下采样,从而生成多个学习用子样本;
针对所述学习用子样本的各个学习用子样本,从在通过机器学习生成识别器时使用的特征量的并集中,根据属于所述并集的特征量的重要度,来选择用于聚类的特征量,
所述运算装置还进行以下处理:
基于所选择出的用于所述聚类的特征量,通过无监督学习的多重共聚类法对所述第一受验者群进行聚类,来生成簇的分类器。
2.根据权利要求1所述的脑功能连接相关值的聚类装置,其中,
所述脑功能连接相关值的聚类装置从分别设置于多个测量地点的多个脑活动测量装置,接受表现所述多个受验者的各受验者的规定的多个脑区域对之间的脑活动的时间相关性的信息,
所述计算处理系统包括协调化计算单元,所述协调化计算单元对所述多个受验者的各受验者的所述多个脑功能连接相关值进行校正,以去除所述测量地点的测定偏倚,从而将校正得到的调整值作为所述特征量保存到所述存储装置中。
3.根据权利要求1或2所述的脑功能连接相关值的聚类装置,其中,
所述通过机器学习生成识别器的处理是如下的集成学习:针对所述多个学习用子样本分别生成多个识别器子模型,对所述多个识别器子模型进行整合而生成所述识别器模型。
4.根据权利要求1~3中的任一项所述的脑功能连接相关值的聚类装置,其中,
所述属性以是规定的精神疾病这一诊断结果的标签来表现,
所述聚类是通过基于数据驱动的机器学习来将所述第一受验者群分类到至少一个亚型簇的处理。
5.根据权利要求1~4中的任一项所述的脑功能连接相关值的聚类装置,其中,
所述运算装置在所述通过机器学习生成识别器时进行以下处理:
i)将所述调整值分割为机器学习用的训练数据集和验证用的测试数据集;
ii)对所述训练数据集执行规定数量的欠采样和下采样,来生成所述规定数量的学习用子样本;
iii)针对每个所述学习用子样本生成识别器子模型;
iv)对所述识别器子模型的输出进行整合而生成针对所述属性的有无的识别器模型。
6.根据权利要求1~4中的任一项所述的脑功能连接相关值的聚类装置,其中,
所述通过机器学习生成识别器的处理是具有外侧的交叉验证和内侧的交叉验证的嵌套构造的交叉验证,
所述运算装置在所述嵌套构造的交叉验证的处理中进行以下处理:
i)将所述外侧的交叉验证设为K折交叉验证,来将所述调整值分割为机器学习用的训练数据集和验证用的测试数据集;
ii)对所述训练数据集执行规定数量的欠采样和下采样,来生成所述规定数量的学习用子样本;
iii)在所述K折交叉验证的各循环中,通过所述内侧的交叉验证调整超参数,来针对每个所述学习用子样本生成识别器子模型;
iv)基于所述识别器子模型,来生成针对所述属性的有无的识别器模型。
7.根据权利要求3所述的脑功能连接相关值的聚类装置,其中,
所述通过机器学习生成识别器的处理是伴有特征量选择的机器学习法,
在对用于所述聚类的特征量的选择中,根据在生成所述识别器子模型时属于所述并集的特征量被选择的频度的排序,来决定所述特征量的重要度。
8.根据权利要求3所述的脑功能连接相关值的聚类装置,其中,
所述通过机器学习生成识别器的处理是随机森林法,
在对用于所述聚类的特征量的选择中,属于所述并集的特征量的重要度是在所述随机森林法中基于基尼不纯度针对各特征量计算出的重要度。
9.根据权利要求3所述的脑功能连接相关值的聚类装置,其中,
所述通过机器学习生成识别器的处理是基于L2正则化的机器学习法,
在对用于所述聚类的特征量的选择中,根据基于通过L2正则化计算出的所述识别器子模型中的特征量的权重进行的排序,来决定属于所述并集的特征量的重要度。
10.根据权利要求2所述的脑功能连接相关值的聚类装置,其中,
所述存储装置针对在所述多个测量地点处共同地成为测量对象的多个旅行受验者,预先保存有对各所述旅行受验者的预先决定的多个脑区域测量脑活动所得到的结果,
所述运算装置进行以下处理:
对于各所述旅行受验者计算脑功能连接阵列的规定的元素,所述脑功能连接阵列表示所述多个脑区域对的脑活动的时间相关性;
通过使用一般线性混合模型法,针对所述功能连接阵列的每个规定的元素计算所述测定偏倚,来作为各测量地点处的相对于涉及所述多个测量地点和所述多个旅行受验者的该元素的平均而言的固定效应。
11.根据权利要求4所述的脑功能连接相关值的聚类装置,其中,
所述运算装置基于对象者在除所述多个测量地点以外的测量地点被测量出的测量数据,来执行向所述亚型的分类处理。
12.一种脑功能连接相关值的聚类系统,用于基于对象者的脑活动的测量结果,来在所述对象者中执行对具有至少一个规定的属性的所述对象者的聚类,所述脑功能连接相关值的聚类系统包括:
多个脑活动测量装置,所述多个脑活动测量装置分别设置于多个测量地点,以按时间序列测量多个受验者的脑活动,所述多个受验者包括具有所述规定的属性的第一受验者群和不具有所述规定的属性的第二受验者群;以及
计算处理系统,其用于基于脑活动的测量值,来对所述多个受验者执行所述聚类的处理,
所述计算处理系统包括存储装置和运算装置,
所述运算装置构成为:
i)针对所述多个受验者的各受验者,将基于分别表示规定的多个脑区域对之间的脑活动的时间相关性的多个脑功能连接相关值的特征量保存到所述存储装置中;
ii)基于所述存储装置中所保存的所述特征量,以有监督学习来执行生成用于判别所述属性的有无的识别器模型的机器学习,
所述运算装置在生成所述识别器模型的机器学习中进行以下处理:
根据所述第一受验者群和所述第二受验者群,执行欠采样和下采样,从而生成多个学习用子样本;
针对所述学习用子样本的各个学习用子样本,从在通过机器学习生成识别器时使用的特征量的并集中,根据属于所述并集的特征量的重要度,来选择用于聚类的特征量,
所述运算装置还进行以下处理:
基于所选择出的用于所述聚类的特征量,通过无监督学习的多重共聚类法对所述第一受验者群进行聚类,来生成簇的分类器。
13.根据权利要求12所述的脑功能连接相关值的聚类系统,其中,
所述计算处理系统从分别设置于多个测量地点的多个脑活动测量装置,接受表现所述多个受验者的各受验者的规定的多个脑区域对之间的脑活动的时间相关性的信息,
所述计算处理系统包括协调化计算单元,所述协调化计算单元对所述多个受验者的各受验者的所述多个脑功能连接相关值进行校正,以去除所述测量地点的测定偏倚,从而将校正得到的调整值作为所述特征量保存到所述存储装置中。
14.根据权利要求12或13所述的脑功能连接相关值的聚类系统,其中,
所述属性以是规定的精神疾病这一诊断结果的标签来表现,
所述聚类是通过基于数据驱动的机器学习来将所述第一受验者群分类到至少一个亚型簇的处理。
15.一种脑功能连接相关值的聚类方法,用于由计算处理系统基于对象者的脑活动的测量结果,来在所述对象者中执行对具有至少一个规定的属性的所述对象者的聚类处理,
所述计算处理系统包括存储装置和运算装置,
所述脑功能连接相关值的聚类方法包括以下步骤:
所述运算装置针对多个受验者的各个受验者,将基于表示规定的多个脑区域对之间的脑活动的时间相关性的脑功能连接相关值的特征量保存到所述存储装置中,所述多个受验者包括具有所述规定的属性的第一受验者群和不具有所述规定的属性的第二受验者群;以及
所述运算装置基于所述存储装置中所保存的所述特征量,以有监督学习来执行生成用于判别所述属性的有无的识别器模型的机器学习,
执行生成所述识别器模型的机器学习的步骤包括以下步骤:
根据所述第一受验者群和所述第二受验者群,执行欠采样和下采样,从而生成多个学习用子样本;以及
针对所述学习用子样本的各个学习用子样本,从在通过机器学习生成识别器时使用的特征量的并集中,根据属于所述并集的特征量的重要度,来选择用于聚类的特征量,
所述脑功能连接相关值的聚类方法还包括以下步骤:所述运算装置基于所选择出的用于所述聚类的特征量,通过无监督学习的多重共聚类法对所述第一受验者群进行聚类,来生成簇的分类器。
16.一种脑功能连接相关值的分类器程序,是通过由计算处理系统基于对象者的脑活动的测量结果在所述对象者中执行对具有至少一个规定的属性的所述对象者的聚类处理而生成的,所述脑功能连接相关值的分类器程序用于由计算机对输入数据进行向与聚类处理的结果对应的各簇的分类,
所述分类器程序具有如下的分类功能:计算机基于各所述簇的概率分布的模型,来将所述输入数据分类到具有最大后验概率的簇,
所述计算处理系统包括存储装置和运算装置,
所述计算处理系统在基于所述聚类处理生成所述分类器程序的生成处理中执行以下步骤:
所述运算装置针对多个受验者的各个受验者,将基于表示规定的多个脑区域对之间的脑活动的时间相关性的脑功能连接相关值的特征量保存到所述存储装置中,所述多个受验者包括具有所述规定的属性的第一受验者群和不具有所述规定的属性的第二受验者群;以及
所述运算装置基于所述存储装置中所保存的所述特征量,以有监督学习来执行生成用于判别所述属性的有无的识别器模型的机器学习,
执行生成所述识别器模型的机器学习的步骤包括以下步骤:
根据所述第一受验者群和所述第二受验者群,执行欠采样和下采样,从而生成多个学习用子样本;以及
针对所述学习用子样本的各个学习用子样本,从在通过机器学习生成识别器时使用的特征量的并集中,根据属于所述并集的特征量的重要度,来选择用于聚类的特征量,
所述运算装置还执行以下步骤:基于所选择出的用于所述聚类的特征量,通过无监督学习的多重共聚类法对所述第一受验者群进行聚类,来生成簇的分类器。
17.根据权利要求16所述的脑功能连接相关值的分类器程序,其中,
所述计算处理系统执行以下步骤:
从分别设置于多个测量地点的多个脑活动测量装置,接收表现所述多个受验者的各受验者的规定的多个脑区域对之间的脑活动的时间相关性的信息;以及
执行协调化,所述协调化用于对所述多个受验者的各受验者的多个所述脑功能连接相关值进行校正,以去除所述测量地点的测定偏倚,从而将校正得到的调整值作为所述特征量保存到所述存储装置中。
18.根据权利要求16或17所述的脑功能连接相关值的分类器程序,其中,
所述属性以是规定的精神疾病这一诊断结果的标签来表现,
所述聚类是通过基于数据驱动的机器学习来将所述第一受验者群分类到至少一个亚型的簇的处理。
19.一种脑活动标记物分类系统,是通过由计算处理系统基于对象者的脑活动的测量结果在所述对象者中执行对具有至少一个规定的属性的所述对象者的聚类处理而生成的,所述脑活动标记物分类系统用于由计算机对输入数据进行向与聚类处理的结果对应的各簇的分类,
所述脑活动标记物分类系统具有如下的分类功能:计算机基于各所述簇的概率分布的模型,将所述输入数据分类到具有最大后验概率的簇,
所述计算处理系统包括存储装置和运算装置,
所述计算处理系统在基于所述聚类处理生成所述脑活动标记物分类系统的生成处理中执行以下步骤:
所述运算装置针对多个受验者的各个受验者,将基于表示规定的多个脑区域对之间的脑活动的时间相关性的脑功能连接相关值的特征量保存到所述存储装置中,所述多个受验者包括具有所述规定的属性的第一受验者群和不具有所述规定的属性的第二受验者群;以及
所述运算装置基于所述存储装置中所保存的所述特征量,以有监督学习来执行生成用于判别所述属性的有无的识别器模型的机器学习,
执行生成所述识别器模型的机器学习的步骤包括以下步骤:
根据所述第一受验者群和所述第二受验者群,执行欠采样和下采样,从而生成多个学习用子样本;以及
针对所述学习用子样本的各个学习用子样本,从在通过机器学习生成识别器时使用的特征量的并集中,根据属于所述并集的特征量的重要度,来选择用于聚类的特征量,
所述运算装置还执行以下步骤:基于所选择出的用于所述聚类的特征量,通过无监督学习的多重共聚类法对所述第一受验者群进行聚类,来生成簇的分类器。
20.根据权利要求19所述的脑活动标记物分类系统,其中,
所述计算处理系统执行以下步骤:
从分别设置于多个测量地点的多个脑活动测量装置,接收表现所述多个受验者的各受验者的规定的多个脑区域对之间的脑活动的时间相关性的信息;以及
执行协调化,所述协调化用于对所述多个受验者的各受验者的表示所述脑活动的时间相关性的多个脑功能连接相关值进行校正,以去除所述测量地点的测定偏倚,从而将校正得到的调整值作为所述特征量保存到所述存储装置中。
21.根据权利要求19或20所述的脑活动标记物分类系统,其中,
所述属性以是规定的精神疾病这一诊断结果的标签来表现,
所述聚类是通过基于数据驱动的机器学习来将所述第一受验者群分类到至少一个亚型簇的处理。
22.一种脑功能连接相关值的聚类分类器模型,是通过由计算处理系统基于对象者的脑活动的测量结果在所述对象者中执行对具有至少一个规定的属性的所述对象者的聚类处理而生成的,所述脑功能连接相关值的聚类分类器模型用于由计算机对输入数据进行向与聚类处理的结果对应的各簇的分类,
所述聚类分类器模型具有如下的功能:针对将学习数据中所包含的表征所述对象者的特征量群分割所得到的各个视图,根据基于各所述视图中包含的所述特征量的信息和用于确定各所述视图的所述对象者的各个簇的概率密度函数的信息来对所述输入数据计算出的所述概率密度函数的值,将所述输入数据分类到具有最大后验概率的簇,
所述计算处理系统包括存储装置和运算装置,
所述计算处理系统在基于所述聚类处理生成所述聚类分类器模型的生成处理中执行以下步骤:
所述运算装置针对多个受验者的各个受验者,将基于表示规定的多个脑区域对之间的脑活动的时间相关性的脑功能连接相关值的特征量保存到所述存储装置中,所述多个受验者包括具有所述规定的属性的第一受验者群和不具有所述规定的属性的第二受验者群;以及
所述运算装置基于所述存储装置中所保存的所述特征量,以有监督学习来执行生成用于判别所述属性的有无的识别器模型的机器学习,
执行生成所述识别器模型的机器学习的步骤包括以下步骤:
根据所述第一受验者群和所述第二受验者群,执行欠采样和下采样,从而生成多个学习用子样本;以及
针对所述学习用子样本的各个学习用子样本,从在通过机器学习生成识别器时使用的特征量的并集中,根据属于所述并集的特征量的重要度,来选择用于聚类的特征量,
所述运算装置还执行以下步骤:基于所选择出的用于所述聚类的特征量,通过无监督学习的多重共聚类法来对所述第一受验者群进行聚类,将所述特征量分割为所述视图,生成各所述视图中的所述对象者的各个簇的概率密度函数。
CN202180027512.5A 2020-04-06 2021-04-02 脑功能连接相关值的聚类装置、脑功能连接相关值的聚类系统、脑功能连接相关值的聚类方法、脑功能连接相关值的分类器程序、脑活动标记物分类系统以及脑功能连接相关值的聚类分类器模型 Pending CN115484864A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020-068669 2020-04-06
JP2020068669 2020-04-06
PCT/JP2021/014254 WO2021205996A1 (ja) 2020-04-06 2021-04-02 脳機能結合相関値のクラスタリング装置、脳機能結合相関値のクラスタリングシステム、脳機能結合相関値のクラスタリング方法、脳機能結合相関値の分類器プログラム、脳活動マーカー分類システムおよび脳機能結合相関値のクラスタリング分類器モデル

Publications (1)

Publication Number Publication Date
CN115484864A true CN115484864A (zh) 2022-12-16

Family

ID=78022872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180027512.5A Pending CN115484864A (zh) 2020-04-06 2021-04-02 脑功能连接相关值的聚类装置、脑功能连接相关值的聚类系统、脑功能连接相关值的聚类方法、脑功能连接相关值的分类器程序、脑活动标记物分类系统以及脑功能连接相关值的聚类分类器模型

Country Status (5)

Country Link
US (1) US20230107263A1 (zh)
EP (1) EP4134884A4 (zh)
JP (1) JP7365496B2 (zh)
CN (1) CN115484864A (zh)
WO (1) WO2021205996A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116434950A (zh) * 2023-06-05 2023-07-14 山东建筑大学 基于数据分簇和集成学习的孤独症谱系障碍的诊断系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230112160A1 (en) * 2021-10-12 2023-04-13 Omniscient Neurotechnology Pty Limited Mapping brain data to behavior
CN115147417B (zh) * 2022-09-02 2022-11-15 之江实验室 一种基于过滤法特征选择的功能连接矩阵处理系统及装置
CN117876766B (zh) * 2023-12-29 2024-07-23 华南师范大学 一种影像组学模型的训练方法、识别方法、系统、设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9119549B2 (en) * 2007-11-12 2015-09-01 Siemens Aktiengesellschaft Method for developing test for neuropsychiatric disease
US9072496B2 (en) * 2012-02-02 2015-07-07 International Business Machines Corporation Method and system for modeling and processing fMRI image data using a bag-of-words approach
US9632162B2 (en) 2013-12-06 2017-04-25 Toshiba Medical Systems Corporation Method of, and apparatus for, correcting distortion in medical images
EP3381361B1 (en) * 2015-11-24 2023-12-27 Advanced Telecommunications Research Institute International Brain activity analysis device, brain activity analysis method, program, and biomarker device
JP2018089142A (ja) * 2016-12-05 2018-06-14 学校法人同志社 脳機能イメージングデータからヒトの脳活動状態を推定する方法
US11704790B2 (en) * 2017-09-26 2023-07-18 Washington University Supervised classifier for optimizing target for neuromodulation, implant localization, and ablation
JP6722845B2 (ja) * 2017-10-03 2020-07-15 株式会社国際電気通信基礎技術研究所 判別装置、うつ症状の判別方法、うつ症状のレベルの判定方法、うつ病患者の層別化方法、うつ症状の治療効果の判定方法及び脳活動訓練装置
JP2020068669A (ja) 2018-10-29 2020-05-07 井関農機株式会社 作物摘心作業車

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116434950A (zh) * 2023-06-05 2023-07-14 山东建筑大学 基于数据分簇和集成学习的孤独症谱系障碍的诊断系统
CN116434950B (zh) * 2023-06-05 2023-08-29 山东建筑大学 基于数据分簇和集成学习的孤独症谱系障碍的诊断系统

Also Published As

Publication number Publication date
WO2021205996A1 (ja) 2021-10-14
US20230107263A1 (en) 2023-04-06
JP7365496B2 (ja) 2023-10-19
EP4134884A4 (en) 2024-05-01
JPWO2021205996A1 (zh) 2021-10-14
EP4134884A1 (en) 2023-02-15

Similar Documents

Publication Publication Date Title
CN112839577B (zh) 脑功能连接相关值的调整方法、脑功能连接相关值的调整系统、脑活动分类器的协调方法、脑活动分类器的协调系统以及脑活动生物标记物系统
US20210401289A1 (en) Brain functional connectivity correlation value adjustment method, brain functional connectivity correlation value adjustment system, brain activity classifier harmonization method, brain activity classifier harmonization system, and brain activity biomarker system
JP6497687B2 (ja) 脳活動解析システム及び方法
JP6903518B2 (ja) 脳活動解析システム、脳活動解析装置、及び脳活動解析プログラム
Galdi et al. Neonatal morphometric similarity mapping for predicting brain age and characterizing neuroanatomic variation associated with preterm birth
JP7365496B2 (ja) 脳機能結合相関値のクラスタリング装置、脳機能結合相関値のクラスタリングシステム、脳機能結合相関値のクラスタリング方法、脳機能結合相関値の分類器プログラム、脳活動マーカー分類システムおよび脳機能結合相関値のクラスタリング分類器モデル
JP2019155111A (ja) 判別装置、うつ症状の判別方法、うつ症状のレベルの判定方法、うつ病患者の層別化方法、うつ症状の治療効果の判定方法及び脳活動訓練装置
Liu et al. An enhanced multi-modal brain graph network for classifying neuropsychiatric disorders
Sharma et al. Deep-learning-based diagnosis and prognosis of Alzheimer’s disease: A comprehensive review
Li et al. Sparse multivariate autoregressive modeling for mild cognitive impairment classification
Barbará-Morales et al. Evaluation of brain tortuosity measurement for the automatic multimodal classification of subjects with Alzheimer’s disease
Haubold et al. Annual research review: progress in using brain morphometry as a clinical tool for diagnosing psychiatric disorders
Mabrouk et al. A novel approach to perform linear discriminant analyses for a 4-way alzheimer’s disease diagnosis based on an integration of pearson’s correlation coefficients and empirical cumulative distribution function
JP2024003782A (ja) 統合失調スペクトラム障害に関する情報を提供するための診断支援システム、診断支援装置、診断支援方法、及び支援プログラム
WO2022014682A1 (ja) 脳機能結合相関値のクラスタリング装置、脳機能結合相関値のクラスタリングシステム、脳機能結合相関値のクラスタリング方法、脳機能結合相関値の分類器プログラムおよび脳活動マーカー分類システム
KR102599756B1 (ko) 구조적, 확산 및 기능적 신경영상과 apoe 유전형을 포함하는 다중모드 특징을 이용하여 알츠하이머병에 대한 진단정보 제공방법
Ismail A CAD system for early diagnosis of autism using different imaging modalities.
Bhagwat Prognostic Applications for Alzheimer's Disease Using Magnetic Resonance Imaging and Machine-Learning
Koc et al. Autism Spectrum Disorder Detection by Hybrid Convolutional Recurrent Neural Networks from Structural and Resting State Functional MRI Images
Leming Application of deep learning to brain connectivity classification in large mri datasets
Wang Graph-Based Approaches for Multimodal Brain Imaging Data Analysis
Mousavian Machine Learning Methods for Depression Detection Using SMRI and RS-FMRI Images
Yin et al. Introduction to MRI time series image analysis techniques
Hariharan et al. Advances in Deep Learning for the Detection of Alzheimer’s Disease Using MRI—A Review
Patel et al. Classification of schizophrenia from feature-model analysis of bilaterally correlated diagnosis, symptoms, and imaging findings pyramid

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination