CN114903482A - 多视图双聚类方法、相关设备及计算机可读存储介质 - Google Patents
多视图双聚类方法、相关设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114903482A CN114903482A CN202210626287.3A CN202210626287A CN114903482A CN 114903482 A CN114903482 A CN 114903482A CN 202210626287 A CN202210626287 A CN 202210626287A CN 114903482 A CN114903482 A CN 114903482A
- Authority
- CN
- China
- Prior art keywords
- data
- characteristic data
- target user
- gene
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 46
- 201000010099 disease Diseases 0.000 claims abstract description 28
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 28
- 230000002068 genetic effect Effects 0.000 claims abstract description 28
- 230000001575 pathological effect Effects 0.000 claims abstract description 8
- 230000014509 gene expression Effects 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 32
- 210000004556 brain Anatomy 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000004547 gene signature Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 210000001009 nucleus accumben Anatomy 0.000 claims description 10
- 210000002637 putamen Anatomy 0.000 claims description 10
- 208000006096 Attention Deficit Disorder with Hyperactivity Diseases 0.000 claims description 9
- 208000036864 Attention deficit/hyperactivity disease Diseases 0.000 claims description 9
- 208000015802 attention deficit-hyperactivity disease Diseases 0.000 claims description 9
- 210000003710 cerebral cortex Anatomy 0.000 claims description 9
- 210000005153 frontal cortex Anatomy 0.000 claims description 9
- 210000004884 grey matter Anatomy 0.000 claims description 9
- 208000024714 major depressive disease Diseases 0.000 claims description 9
- 208000028173 post-traumatic stress disease Diseases 0.000 claims description 9
- 208000020925 Bipolar disease Diseases 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 8
- 201000000980 schizophrenia Diseases 0.000 claims description 8
- 208000029560 autism spectrum disease Diseases 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 description 13
- 230000009977 dual effect Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 230000001364 causal effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000004138 cluster model Methods 0.000 description 3
- 238000012847 principal component analysis method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000007177 brain activity Effects 0.000 description 2
- 230000003925 brain function Effects 0.000 description 2
- 230000000994 depressogenic effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000006996 mental state Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 208000020401 Depressive disease Diseases 0.000 description 1
- 208000034826 Genetic Predisposition to Disease Diseases 0.000 description 1
- 208000012902 Nervous system disease Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000007321 biological mechanism Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000537 electroencephalography Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011369 optimal treatment Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000007310 pathophysiology Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 230000004797 therapeutic response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/168—Evaluating attention deficit, hyperactivity
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Psychiatry (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Surgery (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Veterinary Medicine (AREA)
- Public Health (AREA)
- Psychology (AREA)
- Developmental Disabilities (AREA)
- Artificial Intelligence (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Social Psychology (AREA)
- Educational Technology (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种多视图双聚类方法、相关设备及计算机可读存储介质,其中,方法可以包括如下步骤:获取目标用户的临床特征数据和基因特征数据;其中,所述临床特征数据用于指示所述目标用户罹患抑郁症的显在病理特征;所述基因特征数据用于指示所述目标用户罹患抑郁症的潜在遗传特征;利用训练好的多视图双聚类模型对所述目标用户的临床特征数据和基因特征数据进行聚类,得到聚类结果。实施本申请,可以准确地识别出用户罹患抑郁症的疾病亚型。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种多视图双聚类方法、相关设备及计算机可读存储介质。
背景技术
作为一种精神和心理方面的病症,抑郁症有着高发病率、高致残性的特点,影响了很多人的健康生活。目前抑郁症的诊断方式主要有量表调查、医师问询等,这些方法往往取决于医生的经验,主观性较大。此外,抑郁个体可能因耻辱感而不愿意寻求帮助,因此有大量的抑郁症患者得不到最佳的治疗。研究方便、高效的诊断方法对促进抑郁症的检测具有重大的意义。
抑郁症是一种精神障碍,临床表现为明显抑郁和思维缓慢,且总是伴随着异常的大脑活动和明显的情感交替。神经科学的研究表明,大部分心理状态和认知行为可由脑电信号(EEG)来反映。EEG与大脑活动和心理状态有着密切的关系,它能够随时反映情感的转变。脑电信号作为一种以非侵入方式获取的生理信号,已经被广泛应用于各种神经系统疾病的研究和诊断。因此,可以通过脑电图来追踪大脑功能和异常的脑电活动。以往人们对抑郁脑电信号使用特征提取结合机器学习相关算法进行检测,这种方法需要大量先验知识寻找脑电信号的相关特征,而且最重要的特征不一定能被找到,这些因素的存在使得分类过程复杂化,也大大降低了识别抑郁症的准确性。因此,如何准确地识别出抑郁症是亟需解决的技术问题。
发明内容
本申请实施例提供一种多视图双聚类方法、相关设备及计算机可读存储介质,可以准确地识别出用户罹患抑郁症的疾病亚型。
第一方面,本申请实施例提供了一种多视图双聚类方法,该方法包括:获取目标用户的临床特征数据和基因特征数据;其中,所述临床特征数据用于指示所述目标用户罹患抑郁症的显在病理特征;所述基因特征数据用于指示所述目标用户罹患抑郁症的潜在遗传特征;
利用训练好的多视图双聚类模型对所述目标用户的临床特征数据和基因特征数据进行聚类,得到聚类结果。
实施本申请实施例,在识别用户是否罹患抑郁症时,综合考虑了用户的临床特征数据和基因特征数据,其中,临床数据可以指示用户罹患抑郁症的显在病例特征,基因特征数据可以指示用户罹患抑郁症的潜在遗传特征,以这种方式,相较于只考虑单一数据来说,可以准确地识别出用户罹患抑郁症的疾病亚型。
在一种可能的实现方式中,所述方法还包括:
通过N个临床特征数据和M个基因特征数据对多视图双聚类模型进行训练,得到所述训练好的多视图双聚类模型;其中,N、M为大于0的整数。
实施本申请实施例,多视图双聚类模型是通过N个临床特征数据和M个基因特征数据训练得到的,以这种方式,可以准确地识别用户是否罹患抑郁症。
在一种可能的实现方式中,所述N、M为利用主成分分析方法PCA计算中累计方差大于预设值时所对应的数值。
在一种可能的实现方式中,所述目标用户的临床特征数据包括至少一个大脑结构特征和多基因风险评分PRS特征。
在一种可能的实现方式中,所述大脑结构特征包括大脑区域的灰质体积;所述多基因风险评分PRS特征包括自闭症谱系障碍、注意力缺陷多动障碍、精神分裂症、双相情感障碍、重度抑郁症和创伤后应激障碍。
在一种可能的实现方式中,所述目标用户的基因特征数据包括大脑皮层基因表达数据、额叶皮层基因表达数据、伏隔核基底节基因表达数据、壳核基底节基因表达数据中的至少一种。
在一种可能的实现方式中,所述利用训练好的多视图双聚类模型对所述目标用户的临床特征数据和基因特征数据进行聚类,得到聚类结果,包括:
基于所述目标用户的临床特征数据和基因特征数据获取不同视图间数据的相似度矩阵;
根据所述相似度矩阵进行聚类,得到所述目标用户对应的抑郁症疾病亚型。
第二方面,本申请实施例提供了一种多视图双聚类装置,该装置包括用于执行上述第一方面的方法的单元。具体地,该装置可以包括:
获取单元,用于获取目标用户的临床特征数据和基因特征数据;其中,所述临床特征数据用于指示所述目标用户罹患抑郁症的显在病理特征;所述基因特征数据用于指示所述目标用户罹患抑郁症的潜在遗传特征;
聚类单元,用于利用训练好的多视图双聚类模型对所述目标用户的临床特征数据和基因特征数据进行聚类,得到聚类结果。
在一种可能的实现方式中,所述装置还包括:
训练单元,用于通过N个临床特征数据和M个基因特征数据对多视图双聚类模型进行训练,得到所述训练好的多视图双聚类模型;其中,N、M为大于0的整数。
在一种可能的实现方式中,所述N、M为利用主成分分析方法PCA计算中累计方差大于预设值时所对应的数值。
在一种可能的实现方式中,所述目标用户的临床特征数据包括至少一个大脑结构特征和多基因风险评分PRS特征。
在一种可能的实现方式中,所述大脑结构特征包括大脑区域的灰质体积;所述多基因风险评分PRS特征包括自闭症谱系障碍、注意力缺陷多动障碍、精神分裂症、双相情感障碍、重度抑郁症和创伤后应激障碍。
在一种可能的实现方式中,所述目标用户的基因特征数据包括大脑皮层基因表达数据、额叶皮层基因表达数据、伏隔核基底节基因表达数据、壳核基底节基因表达数据中的至少一种。
在一种可能的实现方式中,所述聚类单元,具体用于:
基于所述目标用户的临床特征数据和基因特征数据获取不同视图间数据的相似度矩阵;
根据所述相似度矩阵进行聚类,得到所述目标用户对应的抑郁症疾病亚型。
第三方面,本申请实施例提供了一种计算机设备,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储支持计算机设备执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
第五方面,本申请实施例还提供了一种计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的一种识别患者罹患抑郁症的框架示意图图;
图2是本申请实施例提供的一种多视图双聚类的流程示意图;
图3是本申请实施例提供的一种多视图双聚类装置的结构示意图;
图4是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
抑郁症在世界范围内造成了巨大的经济和社会负担。根据全球疾病负担报告,抑郁症是几个年龄组中最主要的致残疾病之一。此外,被诊断患有抑郁症的患者的预期寿命往往比一般人群短得多。将抑郁症患者准确分类为临床和生物学上同质的亚组,有助于我们理解疾病病理生理学,促进更有针对性的治疗和干预策略的发展。具有相同疾病诊断的患者可能具有非常不同的疾病病因,病程和治疗反应。这种异质性可以很容易地在被诊断患有抑郁症等复杂疾病的患者中观察到。传统上,疾病亚型仅基于临床特征,然而,从这种方法中鉴定出的疾病亚型可能并不完全符合潜在的生物学机制。
越来越多的研究表明:许多因素密集地参与这种疾病的发展,包括遗传易感性、大脑功能等。在过去的20年中,人们做出了巨大的努力来揭示这种疾病的遗传基础。尽管有大量的可用基因组数据,但缺乏将这些数据用于患者分层或疾病亚型的转化应用。
基于此,在本发明中,如图1所示,可以通过训练好的多视图双聚类模型对用户的临床特征数据和基因特征数据进行聚类,继而得到用户对应的抑郁症亚型,为后续治疗和提供干预提供可能。
为了便于理解本申请所描述的技术方案,下面先对相关技术术语进行解释:
(1)训练数据集、验证数据集和测试数据集
训练数据集(training data)、验证数据集(validation data)和测试数据集(testing data)。这三个数据集分别有各自的功能,其中训练数据集,用于多视图双聚类模型的训练;验证数据集,用于确定多视图双聚类模型的网络结构或者控制模型复杂程度的参数,测试数据集是用于评估训练好的多视图双聚类模型的好坏和精确度。
(2)多视图聚类
多视图聚类是指,基于多个视图生成一致性表示,再通过聚类过程来产生聚类结果。
在本申请中,多视图可以是指,多个数据视图。例如,多个视图数据可以包括临床特征数据和基因特征数据,其中,临床特征数据可以包括大脑结构特征和多基因风险评分PRS特征;基因特征数据可以包括大脑皮层基因表达数据、额叶皮层基因表达数据、伏隔核基底节基因表达数据、壳核基底节基因表达数据。
下面从模型训练侧和模型应用侧对本申请提供的方法进行描述:
本申请实施例提供的多视图双聚类模型的训练方法,可以应用于数据训练、机器学习、深度学习等方法,对训练数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等,最终得到训练好的多视图双聚类模型。并且,本申请实施例提供的多视图双聚类方法可以运用上述训练好的多视图双聚类模型,将输入数据(如本申请中的音频文件)输入到所述训练好的多视图双聚类模型中,得到输出数据(如,用户对应的抑郁症疾病亚型)。
需要说明的是,本申请实施例提供的多视图双聚类模型的训练方法和多视图双聚类方法是基于同一个构思产生的发明,也可以理解为一个系统中的两个部分,或一个整体流程的两个阶段:模型训练阶段和模型应用阶段。
首先,从模型训练侧对本申请提供的方法进行描述:
本申请实施例提供了一种多视图双聚类模型的训练方法,该训练方法应用于特定任务/预测模型的训练。
首先,获取训练数据,其中,训练数据包括每个用户(又可以称为:患者)各自对应的临床特征数据和基因特征数据。
其次,对训练数据进行插补处理。考虑到聚类分析不允许丢失数据,因此需要对训练数据进行插补。
另,值得注意的是,在本申请中,将采用不同的方法来估算临床特征数据和基因特征数据。对于临床特征数据,可以采用随机森林算法对缺失的数据进行插补。对于基因特征数据,可以采用PrediXcan算法来从基因特征数据中估算相关组织的表达水平。
进一步地,在本申请中,可以基于贝叶斯网络来确定所研究疾病的因果相关基因。其中,贝叶斯网络包括基因-表型因果网络推理模块。
在一些实施例中,可以采用PC-Simple算法,根据推测的表达谱推断基因特征数据与所研究疾病之间的因果关系,这里,所研究疾病包括但不限于抑郁症。具体来说,PC-Simple算法可以看作是一种相关性筛选方式,它利用有序独立筛选算法来估计协变量和响应之间的因果关系。基因与表型之间的因果关系可用于为后续疾病亚型过程的特征选择提供信息。
之后,通过训练数据对多视图双聚类模型进行训练。这里,训练数据可以包括N个临床特征数据和M个基因特征数据,也即:通过N个临床特征数据和M个基因特征数据对多视图双聚类模型进行训练,得到训练好的多视图双聚类模型;其中,N、M为大于0的整数。
在本申请实施例中,患者的子组可以通过在原始矩阵上执行稀疏的一阶近似值Xd(d=1,2,..D,表示同一组患者的不同视图中的数据矩阵)来同时推导出,即,
其中,w是一个大小为n的二元向量,作为一个共同的因素,迫使不同的数据视图对同一组患者达成一致。diag(w)是大小为n*n的对角矩阵,对角项等于w,大小为n的ud和大小为m的分别是一阶近似值。Xd中与diag(w)的非零条目对应的行构成行子组,中的列构成不同视图中的列子组。
在本申请中,可以通过求解以下优化问题,得出基于不同数据视图的患者子组:
其中sw和是需要预先确定的超参数,以加强w和vd的稀疏性,即:相应数据视图的每个子组中的患者数量和所选特征数量D是用于聚类的数据视图数量,Bn是包含长度为n的所有可能二元相连的集合。为了获得后续的子组,需要首先通过排除先前确定的患者来更新数据矩阵,然后求解方程(2)。
在一些实施例中,可以根据主成分分析方法PCA计算中累计方差大于预设值时所对应的数值确定N、M。示例性地,N和M的取值可以相同,也可以不同,此处不多加限定。另,还需要说明的是,确定N、M的过程应理解为确定所选特征的数量。示例性地,可以将每个视图数据中所选特征的数量设置为PCA中累计方差超过90%的数值。
在PCA算法的计算过程中,需要事先指定子组的数量和大小。例如,将子组的数量设置为2-6中的某个数值,并且每个子组中的最小数设置为20。通过网格搜索方法来确定最佳的N、M。在一种可能的实现方式中,可以将均方残差设置为评估指标,来确定最佳的N、M。需要说明的是,均方残差仅评估每个子组内的同质性,而不考虑不同子组之间的异质性。对于分离良好的亚组,同一亚组中的患者应高度同质,而属于不同亚组的患者应高度异质。基于此,可以将双集群群间距离与双集群群内距离比值(BBD/WBD)之和作为评估指标,以确定最佳的N、M。
在多视图双聚类模型中,通过矩阵分解执行双聚类。每个双聚类算法可以通过不同的基因特征数据集来表征。换句话说,允许不同的基因参与不同亚组患者的疾病。以这种方式,可以增加多视图双聚类模型的灵活性,为后续提高识别精度奠定基础。
至此,完成了对多视图双聚类模型的训练。
接下来,从模型应用侧对本申请提供的方法进行描述:
本申请提供了一种多视图双聚类方法,如图2所示,该方法可以包括但不限于如下步骤:步骤S200、获取目标用户的临床特征数据和基因特征数据;其中,所述临床特征数据用于指示所述目标用户罹患抑郁症的显在病理特征;所述基因特征数据用于指示所述目标用户罹患抑郁症的潜在遗传特征。
在一些实施例中,目标用户的临床特征数据包括至少一个大脑结构特征和多基因风险评分PRS特征。
在一些实施例中,大脑结构特征包括大脑区域的灰质体积;所述多基因风险评分PRS特征包括自闭症谱系障碍、注意力缺陷多动障碍、精神分裂症、双相情感障碍、重度抑郁症和创伤后应激障碍。
在一些实施例中,从磁共振成像(MRI,Magnetic Resonance Imaging)结果中直接提取大脑区域的灰质体积。
在一些实施例中,可以基于用户的基因组测序数据计算得到多基因风险评分PRS特征。
在一些实施例中,目标用户的基因特征数据包括大脑皮层基因表达数据、额叶皮层基因表达数据、伏隔核基底节基因表达数据、壳核基底节基因表达数据中的至少一种。
在实际应用中,上述目标用户的基因特征数据可以是根据GWAS(全基因组关联研究)估算得到的。
步骤S201、利用训练好的多视图双聚类模型对所述目标用户的临床特征数据和基因特征数据进行聚类,得到聚类结果。
在本申请实施例中,利用训练好的多视图双聚类模型对目标用户的临床特征数据和基因特征数据进行聚类的实现过程可以包括:基于目标用户的临床特征数据和基因特征数据获取不同视图间数据的相似度矩阵;根据相似度矩阵进行聚类,得到目标用户对应的抑郁症疾病亚型。
实施本申请实施例,在识别用户是否罹患抑郁症时,综合考虑了用户的临床特征数据和基因特征数据,其中,临床数据可以指示用户罹患抑郁症的显在病例特征,基因特征数据可以指示用户罹患抑郁症的潜在遗传特征,以这种方式,相较于只考虑单一数据来说,可以准确地识别出用户罹患抑郁症的疾病亚型。
为了验证本申请提出的技术方案,将多视图双聚类模型应用于英国生物银行中收集的受抑郁症影响的受试者的相关数据(也即,验证数据集)中。对于临床特征数据,保留缺失率较低的患者。进一步地,可以通过随机森林算法对临床特征数据进行插补处理。对于基因特征数据,可以通过PrediXcan算法估计所有具有可用基因型的受试者的大脑皮层基因表达数据、额叶皮层基因表达数据、伏隔核基底节基因表达数据、壳核基底节基因表达数据。在此基础上,还构建了多基因风险评分PRS特征。示例性地,多基因风险评分PRS特征包括(ASD;N=46,350),注意力缺陷多动障碍(注意力缺陷多动障碍;N=53,293),精神分裂症(SCZ;N=105,318),双相情感障碍(BP;N=41,653),重度抑郁症(MDD;N=500,199)和创伤后应激障碍(PTSD;N=200,000)。通过PCA算法确定好的N、M可以如表1所示:
表1每个数据视图的特征数量
之后,执行多视图双聚类模型,其结果可以如表3所示:
表3
从表3可以发现,当抑郁症受试者被分为2个亚组,每个亚组中有20名和332名患者时,表现最佳。
进一步地,还可以发现,2个已确定的亚组之间的128个大脑结构特征的显着差异。换句话说,在128个不同的大脑区域中观察到有关已确定的抑郁症亚组的灰质体积的显著差异。
为了进一步验证已鉴定的亚组,本申请还提出了一种GWAS(Genome-WideAssociation Studies,GWAS)分析方法,以确定选择的基因特征数据是否富集了抑郁症的GWAS。在这一实现方式中,首先,通过FASTBAT转换为基于基因的统计数据。然后,测试了由上述提及的框架选择的基因特征数据是否比其余基因特征数据具有更低的p值。其分析结果可以如表4所示:
表4抑郁症GWAS命中的富集分析结果
从表4可以知道的是,多视图双聚类模型中聚类过程所提取的基因特征数据确实富集了已知的抑郁症基因。
更具体地说,伏隔核基底神经节和壳核基底神经节亚组选择的基因特征数据在GWAS抑郁发作中显著富集。
总的来说,通过本申请提出的多视图双聚类模型,可以准确地识别出用户罹患抑郁症的疾病亚型。
上述详细阐述了本申请实施例的方法,为了便于更好地实施本申请实施例的上述方案,相应地,下面还提供用于配合实施上述方案的相关装置。
参见图3,图3为本申请实施例提供发一种多视图双聚类装置的结构示意图,该装置30至少可以包括:获取单元300和聚类单元302;其中,
获取单元300,用于获取目标用户的临床特征数据和基因特征数据;其中,所述临床特征数据用于指示所述目标用户罹患抑郁症的显在病理特征;所述基因特征数据用于指示所述目标用户罹患抑郁症的潜在遗传特征;
聚类单元302,用于利用训练好的多视图双聚类模型对所述目标用户的临床特征数据和基因特征数据进行聚类,得到聚类结果。
在一种可能的实现方式中,该装置30还可以包括:
训练单元304,用于通过N个临床特征数据和M个基因特征数据对多视图双聚类模型进行训练,得到所述训练好的多视图双聚类模型;其中,N、M为大于0的整数。
在一种可能的实现方式中,所述N、M为利用主成分分析方法PCA计算中累计方差大于预设值时所对应的数值。
在一种可能的实现方式中,所述目标用户的临床特征数据包括至少一个大脑结构特征和多基因风险评分PRS特征。
在一种可能的实现方式中,所述大脑结构特征包括大脑区域的灰质体积;所述多基因风险评分PRS特征包括自闭症谱系障碍、注意力缺陷多动障碍、精神分裂症、双相情感障碍、重度抑郁症和创伤后应激障碍。
在一种可能的实现方式中,所述目标用户的基因特征数据包括大脑皮层基因表达数据、额叶皮层基因表达数据、伏隔核基底节基因表达数据、壳核基底节基因表达数据中的至少一种。
在一种可能的实现方式中,所述聚类单元302,具体用于:
基于所述目标用户的临床特征数据和基因特征数据获取不同视图间数据的相似度矩阵;
根据所述相似度矩阵进行聚类,得到所述目标用户对应的抑郁症疾病亚型。
需要说明的是,本申请实施例中,各个的单元的具体实现可以参见上述实施例中的相关描述,此处不再赘述。
为了便于更好地实施本发明实施例的上述方案,本发明还对应提供了一种计算机设备,下面结合附图来进行详细说明:
如图4示出的本发明实施例提供的计算机设备的结构示意图,设备40可以包括处理器401、存储器404和通信模块405,处理器401、存储器404和通信模块405可以通过总线406相互连接。存储器404可以是高速随机存储记忆体(Random Access Memory,RAM)存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储系统。存储器404用于存储应用程序代码,可以包括操作系统、网络通信模块、用户接口模块以及信息推荐程序,通信模块405用于与外部设备进行信息交互;处理器401被配置用于调用该程序代码,执行以下步骤:
获取目标用户的临床特征数据和基因特征数据;其中,所述临床特征数据用于指示所述目标用户罹患抑郁症的显在病理特征;所述基因特征数据用于指示所述目标用户罹患抑郁症的潜在遗传特征;
利用训练好的多视图双聚类模型对所述目标用户的临床特征数据和基因特征数据进行聚类,得到聚类结果。
其中,处理器401还可以用于:
通过N个临床特征数据和M个基因特征数据对多视图双聚类模型进行训练,得到所述训练好的多视图双聚类模型;其中,N、M为大于0的整数。
其中,所述N、M为利用主成分分析方法PCA计算中累计方差大于预设值时所对应的数值。
其中,所述目标用户的临床特征数据包括至少一个大脑结构特征和多基因风险评分PRS特征。
其中,所述大脑结构特征包括大脑区域的灰质体积;所述多基因风险评分PRS特征包括自闭症谱系障碍、注意力缺陷多动障碍、精神分裂症、双相情感障碍、重度抑郁症和创伤后应激障碍。
其中,所述目标用户的基因特征数据包括大脑皮层基因表达数据、额叶皮层基因表达数据、伏隔核基底节基因表达数据、壳核基底节基因表达数据中的至少一种。
其中,处理器401利用训练好的多视图双聚类模型对所述目标用户的临床特征数据和基因特征数据进行聚类,得到聚类结果,可以包括:
基于所述目标用户的临床特征数据和基因特征数据获取不同视图间数据的相似度矩阵;
根据所述相似度矩阵进行聚类,得到所述目标用户对应的抑郁症疾病亚型。
需要说明的是,本发明实施例中的计算机设备40中处理器的执行步骤可参考上述各方法实施例中图2实施例中的多视图双聚类装置运行的具体实现方式,这里不再赘述。
在具体实现中,计算机设备40可以为终端或者服务器,具体地,其表现形式可以包括移动手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、移动互联网设备(Mobile Internet Device,MID)等各种用户可以使用的设备,本发明实施例不作具体限定。
应理解,本申请实施例提供的方法可以适用的应用场景只是作为一种示例,实际应用中并不限于此。
还应理解,本申请中涉及的第一、第二、第三以及各种数字编号仅仅为描述方便进行的区分,并不用来限制本申请的范围。
应理解,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本申请中字符“/”,一般表示前后关联对象是一种“或”的关系。
此外,在本申请的各个实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚的了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块和单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是物理上分开的,也可以不是物理上分开的,作为单元显示的部件可以是物理单元,也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
此外,在本申请各个实施例中所涉及的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现,本申请对此不作限定。
本发明实施例还提供了一种计算机存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述任一个实施例所述方法中的一个或多个步骤。上述装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在所述计算机可读取存储介质中,基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机产品存储在计算机可读存储介质中。
上述计算机可读存储介质可以是前述实施例所述的服务器的内部存储单元,例如硬盘或内存。上述计算机可读存储介质也可以是上述服务器的外部存储设备,例如配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,上述计算机可读存储介质还可以既包括上述服务器的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述服务器所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可通过计算机程序来指令相关的硬件来完成,该计算机的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (16)
1.一种多视图双聚类方法,其特征在于,包括:
获取目标用户的临床特征数据和基因特征数据;其中,所述临床特征数据用于指示所述目标用户罹患抑郁症的显在病理特征;所述基因特征数据用于指示所述目标用户罹患抑郁症的潜在遗传特征;
利用训练好的多视图双聚类模型对所述目标用户的临床特征数据和基因特征数据进行聚类,得到聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过N个临床特征数据和M个基因特征数据对多视图双聚类模型进行训练,得到所述训练好的多视图双聚类模型;其中,N、M为大于0的整数。
3.根据权利要求2所述的方法,其特征在于,所述N、M为利用主成分分析方法PCA计算中累计方差大于预设值时所对应的数值。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述目标用户的临床特征数据包括至少一个大脑结构特征和多基因风险评分PRS特征。
5.根据权利要求4所述的方法,其特征在于,所述大脑结构特征包括大脑区域的灰质体积;所述多基因风险评分PRS特征包括自闭症谱系障碍、注意力缺陷多动障碍、精神分裂症、双相情感障碍、重度抑郁症和创伤后应激障碍。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述目标用户的基因特征数据包括大脑皮层基因表达数据、额叶皮层基因表达数据、伏隔核基底节基因表达数据、壳核基底节基因表达数据中的至少一种。
7.根据权利要求1所述的方法,其特征在于,所述利用训练好的多视图双聚类模型对所述目标用户的临床特征数据和基因特征数据进行聚类,得到聚类结果,包括:
基于所述目标用户的临床特征数据和基因特征数据获取不同视图间数据的相似度矩阵;
根据所述相似度矩阵进行聚类,得到所述目标用户对应的抑郁症疾病亚型。
8.一种多视图双聚类装置,其特征在于,包括:
获取单元,用于获取目标用户的临床特征数据和基因特征数据;其中,所述临床特征数据用于指示所述目标用户罹患抑郁症的显在病理特征;所述基因特征数据用于指示所述目标用户罹患抑郁症的潜在遗传特征;
聚类单元,用于利用训练好的多视图双聚类模型对所述目标用户的临床特征数据和基因特征数据进行聚类,得到聚类结果。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
训练单元,用于通过N个临床特征数据和M个基因特征数据对多视图双聚类模型进行训练,得到所述训练好的多视图双聚类模型;其中,N、M为大于0的整数。
10.根据权利要求9所述的装置,其特征在于,所述N、M为利用主成分分析方法PCA计算中累计方差大于预设值时所对应的数值。
11.根据权利要求8-10任一项所述的装置,其特征在于,所述目标用户的临床特征数据包括至少一个大脑结构特征和多基因风险评分PRS特征。
12.根据权利要求11所述的装置,其特征在于,所述大脑结构特征包括大脑区域的灰质体积;所述多基因风险评分PRS特征包括自闭症谱系障碍、注意力缺陷多动障碍、精神分裂症、双相情感障碍、重度抑郁症和创伤后应激障碍。
13.根据权利要求8-10任一项所述的装置,其特征在于,所述目标用户的基因特征数据包括大脑皮层基因表达数据、额叶皮层基因表达数据、伏隔核基底节基因表达数据、壳核基底节基因表达数据中的至少一种。
14.根据权利要求8所述的装置,其特征在于,所述聚类单元,具体用于:
基于所述目标用户的临床特征数据和基因特征数据获取不同视图间数据的相似度矩阵;
根据所述相似度矩阵进行聚类,得到所述目标用户对应的抑郁症疾病亚型。
15.一种计算机设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210626287.3A CN114903482A (zh) | 2022-06-02 | 2022-06-02 | 多视图双聚类方法、相关设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210626287.3A CN114903482A (zh) | 2022-06-02 | 2022-06-02 | 多视图双聚类方法、相关设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114903482A true CN114903482A (zh) | 2022-08-16 |
Family
ID=82769788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210626287.3A Pending CN114903482A (zh) | 2022-06-02 | 2022-06-02 | 多视图双聚类方法、相关设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114903482A (zh) |
-
2022
- 2022-06-02 CN CN202210626287.3A patent/CN114903482A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dubois et al. | A distributed brain network predicts general intelligence from resting-state human neuroimaging data | |
JP7160929B2 (ja) | 神経画像処理及び遺伝子発現マッピングデータのコンピュータ生成型予測応用のための方法及びシステム | |
Nichols et al. | Controlling the familywise error rate in functional neuroimaging: a comparative review | |
Rubinov et al. | Fledgling pathoconnectomics of psychiatric disorders | |
McEvoy et al. | Alzheimer disease: quantitative structural neuroimaging for detection and prediction of clinical and structural changes in mild cognitive impairment | |
JP2022507861A (ja) | 脳機能地図のサル-ヒト種間移行に基づいて精神疾患の個別的予測を行う方法およびシステム | |
Lombardi et al. | A robust framework to investigate the reliability and stability of explainable artificial intelligence markers of Mild Cognitive Impairment and Alzheimer’s Disease | |
Jack et al. | A neurogenetic analysis of female autism | |
JP2021518172A (ja) | 次元幾何学的埋め込みにおける神経行動関係(n−bridge)に関するシステムおよび方法 | |
Durieux et al. | Partitioning subjects based on high-dimensional fMRI data: comparison of several clustering methods and studying the influence of ICA data reduction in big data | |
Mirabnahrazam et al. | Predicting time-to-conversion for dementia of Alzheimer's type using multi-modal deep survival analysis | |
Rashid et al. | A framework for linking resting-state chronnectome/genome features in schizophrenia: a pilot study | |
Paldino et al. | Normalization enhances brain network features that predict individual intelligence in children with epilepsy | |
Dear et al. | Cortical gene expression architecture links healthy neurodevelopment to the imaging, transcriptomics and genetics of autism and schizophrenia | |
Sinha et al. | Intracranial EEG structure-function coupling and seizure outcomes after epilepsy surgery | |
Zhao et al. | Identifying boys with autism spectrum disorder based on whole-brain resting-state interregional functional connections using a boruta-based support vector machine approach | |
Siuly et al. | Exploring Rhythms and Channels-Based EEG Biomarkers for Early Detection of Alzheimer's Disease | |
Lam et al. | Collective genomic segments with differential pleiotropic patterns between cognitive dimensions and psychopathology | |
Park et al. | Connectome and microcircuit models implicate atypical subcortico-cortical interactions in autism pathophysiology | |
CN117373650A (zh) | 一种多模态识别早期痴呆人群的方法、系统和设备 | |
Chen et al. | Translational potential of neuroimaging genomic analyses to diagnosis and treatment in mental disorders | |
CN114903482A (zh) | 多视图双聚类方法、相关设备及计算机可读存储介质 | |
Zhao et al. | Deciphering the genetic architecture of human brain structure and function: a brief survey on recent advances of neuroimaging genomics | |
Sheng et al. | Strategies for multivariate analyses of imaging genetics study in Alzheimer’s disease | |
CN113096816B (zh) | 脑疾病发病风险预测模型建立方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |