CN113096816B

CN113096816B - 脑疾病发病风险预测模型建立方法、系统、设备及存储介质

Info

Publication number: CN113096816B
Application number: CN202110292892.7A
Authority: CN
Inventors: 郭燕; 郭婧; 俞可; 董珊珊; 杨铁林
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2023-06-13
Anticipated expiration: 2041-03-18
Also published as: CN113096816A

Abstract

本发明提供一种脑疾病发病风险预测模型建立方法、系统、设备及存储介质：方法包括根据自定义输入的脑成像衍生表型和脑疾病的全基因组关联研究统计数据文件进行预处理从而保证输入数据协调一致；在孟德尔随机化设计思想的基础上，排除混杂因素、弱工具变量偏倚和异质性的干扰，建立以逆方差加权法计算因果效应的预测模型；将选择的显著因果关系的工具变量作为模型评估的输入，依据敏感性分析评估预测风险的稳健性和可靠性。本发明将基因组和脑成像衍生表型的信息结合起来，通过因果推断进行脑疾病发病风险的预测，从而提高了模型预测的精准性，为后续脑疾病早期干预提供了潜在的靶标。

Description

脑疾病发病风险预测模型建立方法、系统、设备及存储介质

技术领域

本发明涉及脑科学或医学领域的脑疾病预防、诊断和预后，具体涉及通过算法与程序实现利用脑结构或功能相关的成像衍生表型全基因组关联信息预测脑疾病的发生风险的方法，特别涉及一种脑疾病发病风险预测模型建立方法、系统、设备及存储介质。

背景技术

大脑是一种棘手的难以直接研究的器官，并且由于伦理限制争议，目前很难对人类大脑进行普遍的活组织检验，所以针对脑疾病的防治尤为艰难。脑疾病可大致分为三类：精神疾病、神经系统疾病和神经认知相关的数量性状。尤其是精神类疾病影响着全球数百万人口，是一类严重的脑功能障碍疾病，此患者在情感、认知或行为上备受干扰，是造成社会负担的主要致残性疾病之一。许多研究已经证明大多数脑疾病具有高遗传力和多基因性。遗传因素虽然是脑疾病在病理机制中的原始驱动因素，但是在临床上却无法直接的预测或者区分多种类型的精神疾病。所以，亟待发现一种更为精准且更易于获得的介质作为早期诊断的重要风险评估因素。

脑磁共振成像广泛的应用于精神疾病及脑功能障碍的早期诊断、治疗和科学研究。通过对磁共振成像数据进行多种算法处理，能够获得多种脑成像的衍生表型，其中包括脑区域各结构和功能，如灰质的体积、面积和厚度，脑区之间的白质中的神经纤维结构连接和静息态的功能连接，这些表型的检测信息已逐渐成为研究神经精神疾病和脑功能障碍的重要手段。此外，基因组在近年来对精准医疗的实现起到了重要的推进作用。精准医疗是以个人基因组信息为基础，结合多种生命组学数据，通过疾病预测做到未病先知，或为患者量身设计最佳治疗方案。所以对精准医学大数据的应用将与人类健康和疾病密切相关。已有研究通过基因组和脑成像数据的联合分析揭示了脑结构和功能的遗传学基础，提示脑成像衍生表型具有遗传性。

为了探讨脑成像衍生表型与脑疾病之间的关系，已开展了大量的观察研究。但是，观察研究是无法判定风险因素和疾病之间的因果关系的。另外，传统观察性研究的结果也不能避免混杂因素的干扰。因此，系统地探讨脑成像衍生表型与脑疾病之间的因果关系至关重要。随机试验比较耗费时间且价格昂贵，因而想要实施设计多个不同干扰因子的随机对照试验不太可行。孟德尔随机化遵循“亲代等位基因随机分配给子代”的孟德尔遗传规律,利用将独立于混杂因子的遗传变异作为工具变量的策略，继而通过基因型将风险因素与疾病关联起来。但是，现有的孟德尔随机化设计方法仍旧存在一定的局限性，如人群分层、弱工具变量的偏倚、混杂因素的多效性、遗传变异的连锁不平衡、低统计学检验效能、生物学复杂性、表型异质性以及反向因果问题。

近年来，随着全基因组关联研究数据库的扩大以及各种组学技术的不断发展,疾病的因果关联预测获得了了很好的数据基础。如英国生物样本库(UK Biobank)和国际精神病基因组学联盟(PGC)公布的部分全基因组关联研究统计数据。英国生物样本库是目前为止世界范围内最大的人群研究数据库之一，其在2006年至2010年间，采集并长期储存了50万名志愿者的血液样本，并且对这些志愿者的健康状况进行多年跟踪。英国生物样本库设立了两个大型项目，分别是提供基因组中的详细DNA序列信息以反映蛋白质信息和大规模的表型数据，其中包括了覆盖到10万人的大脑、心脏和腹部MR成像。牛津大学研究人员通过分析了英国生物样本库中33224人的遗传和磁共振成像脑部扫描数据，系统的探究了基因变异与脑核磁成像的衍生表型之间的关联。然而，针对这些脑成像衍生表型与疾病发生之间的关系，目前并未有系统性的研究、开发和应用。国际精神病基因组学联合会是迄今为止最大规模的针对精神疾病的遗传研究机构，为数据使用了获得权限的10种常见精神类疾病的数据，包括注意力缺乏多动症、神经性厌食症、焦虑症、自闭症、双相障碍、重度抑郁症、强迫症、创伤后应激障碍、精神分裂症和抽动秽语综合征。

综上，现有的关于脑疾病预测的建模方法存在特征值筛选精确性能低的问题，另外观察研究、随机试验和已有的孟德尔随机化设计都存在一定的弊端，以及临床中所使用的成像数据指标不够精细化，然而联合基因组和脑成像衍生表型可以很好的提高脑疾病的风险预测的可靠性。

发明内容

本发明的目的在于提供一种脑疾病发病风险预测模型建立方法、系统、设备及存储介质。本发明是基于脑成像衍生表型的全基因组关联研究统计数据对脑疾病进行因果关系建模与风险预测的方法。

为达到上述目的，本发明采用了以下技术方案：

一种脑疾病发病风险预测模型建立方法，包括以下步骤：

获取脑成像衍生表型的全基因组关联研究数据以及脑部疾病的全基因组关联研究统计数据，并进行协调处理；

利用双样本孟德尔随机化设计理论，筛选与脑成像衍生表型强关联且与脑疾病无关的遗传变异作为工具变量，排除混杂因素、弱工具变量偏倚和异质性干扰，得到筛选后的脑成像-疾病关系数据；

对每个脑成像-疾病关系数据进行逆方差加权法计算，建立因果关系预测模型。

作为本发明的进一步改进，所述协调处理具体包括以下步骤：

随机选择无血缘和遗传相关性的基因组数据作为参考样本，计算参考样本的最小等位基因频率；

以最小等位基因频率作为效应等位基因，校正脑成像衍生表型的全基因组关联研究数据以及脑部疾病的全基因组关联研究统计数据的效应等位基因和效应方向；

并删除回文结构遗传变异数据。

作为本发明的进一步改进，所述工具变量的选择具体包括以下步骤：

利用逐步回归模型对每个脑成像表型的全基因组关联研究统计数据进行条件独立性聚类分析并挑选出显著相关联的遗传变异作为工具变量；以参考样本作为参考，设置连锁不平衡关联系数阈值、基因组窗口大小和全基因组关联值的阈值。

作为本发明的进一步改进，所述排除混杂因素具体包括以下步骤：

排除满足人类基因型-表型相关联数据库和全基因组关联目录数据库中混杂因素工具变量；

排除与目的脑疾病存在遗传关联的混杂因素的工具变量；

排除影响脑结构成像衍生表型的混杂因素。

作为本发明的进一步改进，所述排除弱工具变量偏倚和异质性干扰具体包括以下步骤：

使用回归模型中的F统计量对工具变量和脑成像表型的关联强度进行评估；

剔除工具变量个数不满足要求的脑结构-疾病风险关系的模型测试。

作为本发明的进一步改进，所述因果关系预测模型的因果关系预测结果包括预测的效应值、置信区间和混杂因素值。

作为本发明的进一步改进，还包括：

根据建立的因果关系预测模型，预测脑成像与疾病的因果关系，按照敏感性分析对模型评估，输出脑成像-疾病的易感风险。

一种脑疾病发病风险预测模型建立系统，包括：

数据获取单元，用于获取脑成像衍生表型的全基因组关联研究数据以及脑部疾病的全基因组关联研究统计数据，并进行协调处理；

数据处理单元，用于利用双样本孟德尔随机化设计理论，筛选与脑成像衍生表型强关联且与脑疾病无关的遗传变异作为工具变量，排除混杂因素、弱工具变量偏倚和异质性干扰，得到筛选后的脑成像-疾病关系数据；

模型建立单元，对每个脑成像-疾病关系数据进行逆方差加权法计算，建立因果关系预测模型。

一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述脑疾病发病风险预测模型建立方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述脑疾病发病风险预测模型建立方法的步骤。

本发明的有益效果体现在：

本发明所述的脑疾病预测模型的方法的核心是利用了基因组和脑成像衍生表型的信息联合，即脑成像衍生表型的全基因组关联研究统计数据，将其作为模型的特征值，从而进行更为精准和严谨的脑疾病发病风险预测。本发明将基因组和脑成像衍生表型的信息结合起来，通过因果推断进行脑疾病发病风险的预测，从而提高了模型预测的精准性，为后续脑疾病早期干预提供了潜在的靶标。同时，本发明的方法一定程度上弥补了观察研究、随机试验和已有的孟德尔随机化设计所存在的不足，并解决了临床中所使用的成像数据指标不够精细化等问题。所以，本发明是将脑成像衍生表型作为介于基因型和脑疾病表型之间的中间表型，对脑疾病的发生风险进行更为严谨的预测，更进一步做到防控和诊治。

进一步的，根据本发明的预测模型方法，首次对1345个脑成像衍生表型和10种精神类疾病作了因果关系的风险预测，最终发现了73对脑成像衍生表型-精神类疾病的易感风险。通过文献及临床数据调研，发现在73对脑成像衍生表型-精神类疾病的易感风险中，有47对存在直接或间接的研究依据支持，可靠性可达64％。

进一步的，该方法适用于多种脑成像衍生表型(例如，脑结构、脑结构连接、脑功能连接等)和多种脑疾病或相关特征(例如，智商、性格特征等)，有效的解决了不同脑疾病或功能障碍的风险预测难题。

附图说明

图1为基于脑成像衍生表型预测脑疾病风险建模的流程图；

图2为脑成像衍生表型-精神类疾病易感风险的部分预测结果；

图3实施例的输入文件格式示例；

图4预测模型的中间输出和终端输出文件格式示例；

图5模型评估的输出文件格式示例；

图6为一种脑疾病发病风险预测模型建立系统结构示意图；

图7为电子设备结构示意图。

具体实施方式

本发明一种脑疾病发病风险预测模型建立方法，包括以下步骤：

1)获取脑成像衍生表型的全基因组关联研究数据以及常见脑部疾病的全基因组关联研究数据作为输入文件，并对以上数据集进行协调处理；

所述具体包括以下步骤：

1.1)从牛津脑成像遗传学服务器上下载英国生物样本库中的部分脑结构及连接的全基因组关联研究的统计数据，主要分为脑结构磁共振成像数据和脑白质神经纤维束连接的磁共振扩散加权成像数据。

1.2)脑结构磁共振成像数据包括了3种数据类型，即T1加权像、T2加权像和磁敏感加权成像。不同的图像处理算法生成了新的脑图像特征，涉及脑皮层体积、表面积和厚度以及脑微血管等结构特征，共计670个脑结构表型；

1.3)脑结构连接的磁共振扩散加权成像数据包括了9种白质微结构数据指标，即各向异性分数(FA)，平均弥散率(MD)，各向异性模式(MO)，细胞内体积分数(ICVF)，各向同性体积分数(ISOVF)，神经突方向离散度(OD)，轴向弥散参数(L1)，径向弥散参数(L2和L3)，共计675个脑结构连接表型。

1.4)共收集了10种精神类疾病的全基因组关联研究汇总统计数据。即来自国际精神病基因组学联合会(PGC)的注意力缺乏多动症、神经性厌食症、焦虑症、自闭症、双相障碍、重度抑郁症、强迫症、创伤后应激障碍、精神分裂症和抽动秽语综合征的数据。数据样本量总计177545例患者和317703例健康人，并样本人群皆来源于欧洲血统；

1.5)从英国生物样本库(UK Biobank)中随机选择无血缘和遗传相关性的5万具有欧洲血统人群的基因组做为参考数据，使用Plink软件的--freq参数计算5万欧洲样本的最小等位基因频率，将最小等位基因自定义为效应等位基因。校正步骤1.2)、1.3)和1.4)中所收集数据的效应等位基因和效应大小、方向。删除最小等位基因频率为0.48-0.5的回文结构遗传变异。

所述数据集进行协调处理程序基于Perl程序编译，嵌套Plink软件，编译Shell程序，输出中间结果用于下步分析。

所述数据集进行协调处理程序解决了人群分层的问题。

所述Perl程序、Shell程序运行于Linux操作系统。

2)利用双样本孟德尔随机化设计理论，筛选与脑成像衍生表型强关联且与精神疾病无关的遗传变异作为工具变量，排除混杂因素、弱工具变量偏倚和异质性的干扰，建立以逆方差加权法为主导的因果推断模型；

所述具体包括以下步骤：

2.1)利用PLINK软件的逐步回归模型对每个脑成像表型的全基因组关联研究统计数据进行条件独立性聚类分析并挑选出显著相关联的遗传变异作为工具变量。以步骤1.5)中所选择的5万欧洲人样本数据作为参考，设置连锁不平衡关联系数阈值为0.05，基因组窗口大小为1Mb，全基因组关联p值的阈值为1×10^-5；

所述数据集进行协调处理程序基于Shell程序编译，嵌套Plink软件，输出中间结果用于下步分析。

2.2)建立基于孟德尔随机化原理的工具变量筛选第1程序。挑选条件性独立的遗传变异作为工具变量。具体操作为：

2.21)工具变量需与各自的脑成像表型存在稳健的强相关联性，且在脑结构或连接表型中相互独立，无重叠；

2.22)工具变量必须与影响脑成像表型或精神疾病表型的混杂因素相互独立；

2.23)工具变量及其连锁不平衡的其它遗传变异不能和精神疾病表型存在强关联性；

所述工具变量筛选第1程序基于Perl程序编译，输出中间结果用于下步分析。

2.3)建立工具变量筛选第2程序。去除与混杂因素相关的工具变量，排除混杂因素干扰，具体操作为：

2.31)剔除满足人类基因型-表型相关联数据库(PhenoScanner)和全基因组关联目录数据库(GWAS Catalog)中混杂因素p<5×10^-8的工具变量；

2.32)剔除与精神疾病存在遗传关联的混杂因素的工具变量，此处的混杂因素具体为48种常见脑疾病表型，如帕金森、阿尔兹海默、5种中风亚型、应激反应、认知功能、智商、情绪、个性特征等。

2.33)剔除影响脑结构成像表型的混杂因素的工具变量，此处的混杂因素具体为吸烟、饮酒和身体质量指数；

所述工具变量筛选第2程序基于Perl程序编译，输出中间结果用于下步分析。

2.4)建立工具变量筛选第3程序。排除异质性干扰，具体是指利用Q检验对可疑值进行取舍判断。其中，逆方差加权法是回归时不考虑截距项的存在并且用结局方差的倒数作为权重来进行拟合，而MR-Egger法的不同之处是回归时考虑截距项的存在。所以，逆方差加权法的异质性可以通过Cochran's Q方法进行检测，而MR-Egger法的异质性可以通过进一步衍生而来的Rucker's Q'检验方法进行检测。

所述工具变量筛选第3程序是基于R程序编译，所述R程序预先安装RadialMR包，输出中间结果用于下步分析。

2.5)建立工具变量筛选第4程序。排除弱工具变量偏倚和异质性干扰，具体操作为：

2.51)使用回归模型中的F统计量对工具变量和脑成像表型的关联强度进行评估，工具变量的F统计量应>10；

2.52)剔除工具变量个数小于5的脑成像-疾病关系的测试。

所述工具变量筛选第4程序基于Perl程序编译，输出中间结果用于下步分析。

所述工具变量筛选的第1-4程序，依次改善了混杂因素的多效性、遗传变异的连锁不平衡、表型异质性、弱工具变量偏倚、低统计学检验效能的局限性。

2.6)建立因果关系计算的程序。对每个脑成像-疾病关系进行逆方差加权法计算，得到最终的因果关系预测结果，包括预测的效应值、95％置信区间和P值。

所述因果关系计算的程序是基于R程序编译，所述R程序预先安装TwoSampleMR包，输出中间结果用于下步分析。

所述的以上所有程序，基于Shell程序编译，组装为预测模型。

3)根据建立的模型，预测脑结构-精神类疾病的因果关系，按照敏感性分析判别要求，输出脑结构-精神类疾病的易感风险。

所述具体包括以下步骤：

3.1)进行留一法计算，判断预测模型结果的可靠性。

3.2)进行MR-PRESSO全局测试，排除水平多效性的影响，判断预测模型结果的可靠性。

3.3)进行MR-Egger回归分析，排除垂直多效性的影响，判断预测模型结果的可靠性。

3.4)进行逆向MR分析，排除反向因果问题的影响，判断预测模型结果的可靠性。

所述步骤3)中4种处理方法所使用的程序，基于Perl、Shell和R程序编译，输出最终模型预测结果。

4)基于本发明的方法，首次联合使用了英国生物样本库的1345个脑成像衍生表型和国际精神病基因组学联盟的10种精神类疾病的数据作为输入数据，最终预测得到脑成像衍生表型-精神类疾病的易感风险共73对，见附图2。

下面结合附图和实施例对本发明作进一步详细说明。所述实施例仅用于解释本发明，而非对本发明保护范围的限制。

实施例

本发明所述的一种基于脑成像衍生表型的预测脑疾病发病风险的方法，主要考虑以下两方面：

1)输入数据的选择

随着高通量单核苷酸多态性芯片的发展，基于全基因组芯片分型技术的全基因组关联分析已成为遗传学领域鉴定复杂性易感疾病的热门且有效的策略。基因组在近年对精准医疗实现起到了重要的推进作用。迄今为止，已公开大量的全基因组关联研究数据库可供申请。与此同时，脑成像衍生表型广泛的应用于脑疾病及其功能障碍的早期诊断、治疗和科学研究。例如，精神分裂症领域的研究报道中发现：精神分裂症患者的灰质体积相比于健康人群要小、其前额叶及海马旁灰质体积会随时间缩小、其静息态脑网络的连接出现异常等。另外，基因组和脑成像数据的联合分析揭示了脑结构和功能的遗传学基础，提示脑成像衍生表型具有遗传性。所以，本发明可以将脑成像衍生表型作为介于基因型和脑疾病表型之间的中间表型，对脑疾病的发生、防控和诊治进行更为严谨的预测。

本发明所述的方法以预测1345个脑成像衍生表型与精神类疾病关系作为实施例，发现每种精神类疾病预测得到的风险因素数量为3-13个。然而，随着输入数据个数的增加会一定程度上提高预测结果的精确性和准确性。例如，仅英国生物样本库一家机构就收录了3935个脑成像衍生表型。所以，针对脑成像衍生表型数据的输入可由用户自定义。

2)程序的自动化和性能优化

尽可能简化分析流程，实现一次性定义输入，直接得到最终预测结果。此外，因为涉及大批量预测特征，需要优化内部算法设计，最大化减少程序运算时间。

本发明所述一种基于脑成像衍生表型的脑疾病发病风险预测模型建立方法，主要采用的技术方案为：

1)前期准备

考虑到本发明利用Perl脚本实现，建议采用服务器端linux操作系统，同时安装R软件(https://cran.r-project.org)，加载所需要的R包(https://cran.r-project.org/web/packages/available_packages_by_name.html)，安装Plink软件(https://www.cog-genomics.org/plink2)，大大加快程序运行速度。

2)自定义输入文件

所述输入文件中包含两类数据，即脑成像衍生表型数据集和单独的脑疾病或特征表型数据，由用户自定义，输入格式为ma文件，具体为：

3)用户除了自定义输入文件以外，模型中所需用到的公共数据，本发明程序中已上传，可自行解压下载。补充说明，程序中自带的公开数据，用户也可自行申请下载同功能数据，替换即可。模型中所需公共数据连接如下：

a.人类基因型-表型相关联数据库(PhenoScanner)(http://www.phenoscanner. medschl.cam.ac.uk/)

b.全基因组关联目录数据库(GWAS Catalog)(https://www.ebi.ac.uk/gwas/)

c.英国生物样本库基因型数据(https://www.ukbiobank.ac.uk/)

d.混杂因素的全基因组关联数据(Genome-wide association study,GWAS)

身体质量指数(GIANT)(http://www.broadinstitute.org)

精神心理疾病(PGC)(https://www.med.unc.edu/pgc/results-and-downloads/)

癫痫(ILAE)(http://www.epigad.org/gwas_ilae2014/)

认知相关(CCACE)(http://www.ccace.ed.ac.uk)

性格特征(CNCR)(https://ctg.cncr.nl/software/summary_statistics)

中风(MEGASTROKE)

(http://cerebrovascularportal.org/informational/downloads)

其它脑疾病(GPC)(https://grasp.nhlbi.nih.gov/FullResults.aspx)

4)预测模型的程序分为两大模块，分别是因果关系预测和显著结果的敏感性分析。其中第一模块会生成多个中间数据，并在因果关系计算的程序运行结束，输出所有表型对应的逆方差加权法计算的显著结果，包括预测的效应值、95％置信区间和混杂因素P值。再进行第二模块程序运行时，需要用户将第一模块的输出数据作为第二模块的输入数据，再次运行计算，输出最终结果。

预测得到的脑成像衍生表型-精神类疾病的易感风险共73对，具体包括：

1)左脑中央前回的表面积、左脑额下回岛盖部的厚度、小脑蚓部Crus II区域的体积、小脑蚓部X区域的体积、小脑右侧Crus II区域的体积、右脑伏隔核的兴奋性信号强度、右脑放射冠前部区域的各向异性分数值、右脑失状层的轴向弥散参数值、右脑下纵纤维束的轴向弥散参数值、左脑扣带回的径向弥散参数值、左脑颞叶脉络膜的轴向弥散参数值、胼胝体膝部的径向弥散参数和小脑中脚的细胞内体积分数值，共计13个脑结构，可用于预测注意力缺乏多动症的发病风险。

2)右脑额下回岛盖部的面积、右脑赫氏脑回的体积、左脑枕叶外侧的体积、右脑枕下回和沟的面积、右脑前枕沟的面积、左脑海马体积、右脑海马体积、左脑扣带回后背侧的厚度、全脑标准化后的体积、右脑中央沟厚度和右脑扣带回的海马旁区域的神经突方向离散度值，共计11个脑结构，可用于预测重度抑郁症的发病风险。

3)左脑赫氏脑回的体积、右脑颞叶横回沟的厚度、右脑海马体积、右脑放射冠上方区域的各向异性分数值、左脑丘脑处放射冠后侧区域的各向同性体积分数值、右脑听觉放射冠的细胞内体积分数值、左脑扣带回海马区域的径向弥散参数值、小脑中脚的轴向弥散参数和右脑皮质脊髓束的平均弥散率值，共计9个脑结构，可用于预测创伤后应激障碍的发病风险。

4)小脑右侧IX区域的体积、右脑直回的面积、左脑丘脑处放射冠后侧区域的径向弥散参数、右脑听觉放射冠的平均弥散率值、右脑扣带回的海马旁区域的神经突方向离散度值、左脑穹隆和终纹区域的各向异性分数值、右脑扣带回海马区域的神经突方向离散度值和胼胝体压部的各向同性体积分数值，共计8个脑结构，可用于预测强迫症的发病风险。

5)右脑中央前回的厚度、右脑角型脑回的体积、左脑顶叶下沟的厚度、右脑的脑岛冠状沟前皮层的厚度、小脑右侧VIIb区域的体积、右脑胼胝体周围沟的面积和右脑大脑脚的细胞内体积分数，共计7个脑结构，可用于预测焦虑症的发病风险。

6)右脑颞叶横的表面积、左脑枕中回的厚度、左脑尾侧前扣带的厚度、右脑扣带回和沟中后部的厚度、左脑失状层的各向同性体积分数值、左脑扣带回海马区域的平均弥散率值和左侧小脑下脚的神经突方向离散度值，共计7个脑结构，可用于预测精神分裂症的发病风险。

7)右脑颞梭状皮质后叶的体积、右脑海马的体积、胼胝体膝部的径向弥散参数值、右脑皮质脊髓束的轴向弥散参数值、右侧小脑下脚的细胞内体积分数和右脑皮质脊髓束的神经突方向离散度值，共计6个脑结构，可用于预测双相情感障碍的发病风险。

8)左脑腹侧中部额叶的表面积、右脑中央下回和脑沟的厚度、右脑颞中回的体积、左脑内囊后肢的各向异性模式值和左脑失状层的神经突方向离散度值，共计5个脑结构，可用于预测自闭症的发病风险。

9)右脑顶上回的厚度、右脑脉络丛的体积、右脑听觉放射冠的径向弥散参数值和右脑扣带回的细胞内体积分数值，共计4个脑结构，可用于预测抽动秽语综合征的发病风险。

10)右脑的脑岛冠状沟上皮层的厚度、右脑皮质脊髓束的各向同性体积分数值和右脑内侧丘系的平均弥散率值，共计3个脑结构，可用于预测神经性厌食症的发病风险。

实际进行脑疾病发病风险预测时，具体包括以下步骤：

获取脑成像数据；

根据因果关系预测模型输出脑成像-疾病的易感风险。

下面以左脑中央前回表面积(编号记为I2775)的单个脑成像衍生表型数据对注意力缺乏多动症(ADHD)的疾病发生风险预测为例，叙述一种基于脑成像衍生表型的预测脑疾病发病风险的方法的实现过程。

用户首先根据具体实验需求，自定义输入文件和所需更替的内部公共数据文件。以上所有文件保存在当前工作目录，以下以linux操作系统为例，介绍一种基于脑成像衍生表型的预测脑疾病发病风险的方法流程。

1)假设当前路径中，所有文件已准备好。其中自定义输入文件1为I2775.ma，输入文件2为ADHD.ma(图3)。

2)运行预测模型的第一模块程序，会输出9个中间文件，分别是Plink--clump的条件性独立的遗传变异文件、剔除的混杂因素文件、剔除的连锁不平衡文件、异质性检验文件、F检验文件、工具变量计数文件、IDP的工具变量文件、ADHD的工具变量文件、逆方差加权法计算结果文件。(图4)。

3)用户根据自定义的P阈值，从第一模块程序中生成的最后一个文件(逆方差加权法计算结果文件)中挑选出显著的因果关系。并将此因果关系的IDP的工具变量文件和ADHD的工具变量文件作为第二模块程序的输入文件。

4)运行预测模型的第二模块程序，会输出3个文件，分别是留一法(leave-one-out)检测文件、MR-PRESSO检测文件、MR-Egger回归分析文件(图5)。

5)逆向MR分析，需用户自行将步骤3)中显著的因果关系的初始输入文件调换输入顺序，再次运行步骤2)的第一模块程序，得到逆方差加权法计算结果文件。

6)预测模型的第二模块程序的输出结果是作为预测模型的评价指标，需要用户根据自定义的P阈值对第一模块程序中得到的显著结果进行评估。

以上所述的具体实施例，对其实验结果进行解读，选用的脑成像衍生表型为左脑中央前回的表面积对注意力缺乏多动症疾病风险因果关系的预测，模型预测结果为效应值OR为1.254，表示左脑中央前回的表面积每增加一个单位就会致使注意力缺乏多动症的发病风险增加1.254倍。通过文献资料查询，发现脑中央前回的改变与运动机能亢进有关系，然而此特征正是注意力缺乏多动症的一个主要特征，并且通过本发明方法的预测进一步精确到了左脑中央前回的表面积。所以本发明的方法具备有效性、可靠性、精确性。

如图6所示，本发明的另一目的在于提出一种脑疾病发病风险预测模型建立系统，数据获取单元，用于获取脑成像衍生表型的全基因组关联研究数据以及脑部疾病的全基因组关联研究统计数据，并进行协调处理；

实际预测时，预测系统包括：

获取模块，获取脑成像数据；

预测模块，用于根据因果关系预测模型输出脑成像-疾病的易感风险，具体是根据建立的因果关系预测模型，预测脑成像与疾病的因果关系，按照敏感性分析对模型评估，输出脑成像-疾病的易感风险。

如图7所示，本发明第三个目的是提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述脑疾病发病风险预测模型建立方法的步骤。

本发明第四个目的是提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述脑疾病发病风险预测模型建立方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种脑疾病发病风险预测模型建立方法，其特征在于，包括以下步骤：

对每个脑成像-疾病关系数据进行逆方差加权法计算，建立因果关系预测模型；所述协调处理具体包括以下步骤：

并删除回文结构遗传变异数据。

2.根据权利要求1所述一种脑疾病发病风险预测模型建立方法，其特征在于：所述工具变量的选择具体包括以下步骤：

3.根据权利要求1所述一种脑疾病发病风险预测模型建立方法，其特征在于：所述排除混杂因素具体包括以下步骤：

排除与目的脑疾病存在遗传关联的混杂因素的工具变量；

排除影响脑结构成像衍生表型的混杂因素。

4.根据权利要求1所述一种脑疾病发病风险预测模型建立方法，其特征在于：所述排除弱工具变量偏倚和异质性干扰具体包括以下步骤：

5.根据权利要求1所述一种脑疾病发病风险预测模型建立方法，其特征在于：所述因果关系预测模型的因果关系预测结果包括预测的效应值、置信区间和混杂因素值。

6.根据权利要求1所述一种脑疾病发病风险预测模型建立方法，其特征在于：还包括：

7.一种脑疾病发病风险预测模型建立系统，其特征在于，包括：

数据获取单元，用于获取脑成像衍生表型的全基因组关联研究数据以及脑部疾病的全基因组关联研究统计数据，并进行协调处理；所述协调处理具体包括以下步骤：

并删除回文结构遗传变异数据；

8.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-6任一项所述脑疾病发病风险预测模型建立方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一项所述脑疾病发病风险预测模型建立方法的步骤。