CN116312806A - 跨人种生活习惯与疾病因果关系自动化推断方法及系统 - Google Patents

跨人种生活习惯与疾病因果关系自动化推断方法及系统 Download PDF

Info

Publication number
CN116312806A
CN116312806A CN202310289368.3A CN202310289368A CN116312806A CN 116312806 A CN116312806 A CN 116312806A CN 202310289368 A CN202310289368 A CN 202310289368A CN 116312806 A CN116312806 A CN 116312806A
Authority
CN
China
Prior art keywords
analysis
race
incidence relation
data
randomization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310289368.3A
Other languages
English (en)
Inventor
杨远富
张璐
李泽铭
杨欧洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Arts Changhua Intelligent Technology Co ltd
Original Assignee
Shenzhen Arts Changhua Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Arts Changhua Intelligent Technology Co ltd filed Critical Shenzhen Arts Changhua Intelligent Technology Co ltd
Priority to CN202310289368.3A priority Critical patent/CN116312806A/zh
Publication of CN116312806A publication Critical patent/CN116312806A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种跨人种生活习惯与疾病因果关系自动化推断方法及系统,其中该方法包括:获取大样本人种和小样本人种的相应的关联关系统计量,并对获取到的统计数据进行清洗;对大样本人种的关联关系统计量整体进行配对,以获得多对目标数据对;对多对目标数据对进行孟德尔随机化分析,以获得第一随机化结果;对第一随机化结果进行荟萃分析,以获得第一分析结果;对小样本人种的关联关系统计量进行孟德尔随机化分析,以获得第二随机化结果;当上述各个处理结果均满足预设条件时,输出小样本人种的当前分析的生活习惯与指定疾病有因果关系;上述方法可有效增加小样本人种的生活系统与疾病之间的因果分析的准确度和可解释性。

Description

跨人种生活习惯与疾病因果关系自动化推断方法及系统
技术领域
本发明涉及生物信息学和遗传学的相关因果推断技术领域,尤其涉及一种基于孟德尔随机化的跨人种生活习惯与疾病因果关系自动化推断方法及系统。
背景技术
变量之间的因果推断,是生物学中普遍存在的问题,尤其是生活习惯与复杂疾病之间的因果关系,如果可以获得两者之间的因果联系,人们将可以对某些不良生活习惯进行提前干预,以此来减小疾病风险。
对此,简单的回归分析只能获得变量之间的相关性而无法判断因果联系,这是因为:①相关系数无法确定因果方向是A->B,还是B->A;②可能存在与此两个变量均相关的未观察到的(混杂)因素C,导致A->C->B。
而随机对照试验是一种能够评价因果效应的金标准,它的基础方法是将研究对象随机分组,对不同组实施不同的干预,在这种严格的条件下衡量不同干预的效果。在研究对象充足的情况下,这种方法可以抵消已知和未知的混杂因素对各组的影响。但由于受到伦理学,受试者依从性,研究期限等因素的限制,随机对照试验难以实施。此外,随机对照试验中纳入排除标准的限制可能导致研究样本与真实世界的人群出现异质性,因此得出的结论也有待商榷。
相比之下,观察性研究和非随机对照研究数据更易获得,在样本的选择上也更加接近真实世界的情况。然而观察性或非随机对照研究涉及需借助恰当的计算模型来推断暴露变量与结果变量之间的因果关联,对此,业界普遍采用孟德尔随机化模型。孟德尔随机化是一种以遗传变异作为工具变量的统计模型(常用的遗传变异是单核苷酸多态性),它的基础结果如附图3所示,Z:工具变量;U:混杂变量;X:暴露变量;Y:结果变量。孟德尔随机化模型的工作原理是:如果工具变量与暴露变量相关并与结果变量相关的任何混杂变量无关,工具变量除了通过暴露变量以外,也没有其他途径可以影响到结果变量,则可以估计暴露变量对结果变量的因果影响。
目前存在的孟德尔分析模型有单样本模型和双样本模型。对于单样本模型:这种模型采用单个遗传变异作为工具变量估计暴露变量对结果变量的因果效应;对于双样本模型:这种模型使用遗传变异与暴露变量的关联关系统计量以及遗传变异与结果变量的关联关系统计量,且这两个统计量分别来源于两个独立的、不重叠的样本。在现实情况下,存在小样本的关联关系统计量,直接使用上述提及的模型会导致结果的准确度不可信,可解释性不足。
发明内容
本发明的目的是提供一种利用孟德尔随机化对小样本人种进行分析,以提升找到的生活习惯与疾病之间因果关系的准确性和可解释性的跨人种生活习惯与疾病因果关系自动化推断方法。
为了实现上述目的,本发明公开了一种跨人种生活习惯与疾病因果关系自动化推断方法,其包括:
获取关联关系统计量,所述关联关系数据量包括一份或多份大样本人种的记录单核苷酸多态性与指定生活习惯关联关系的第一关联关系统计量、两份或多份大样本人种的记录单核苷酸多态性与指定疾病关联关系的第二关联关系统计量、一份小样本人种的记录单核苷酸多态性与指定生活习惯关联关系的第三关联关系统计量、一份小样本人种的记录单核苷酸多态性与指定疾病关联关系的第四关联关系统计量;
判断所述第一关联关系统计量和所述第三关联关系统计量中的每一单核苷酸多态性的显著性是否超过预设的阈值,如果是,则将该单核苷酸多态性筛除,如果否,则保留;
对属于大样本人种的第一关联关系统计量和第二关联关系统计量整体进行单对多或多对多的配对,以获得多对目标数据对;
基于孟德尔随机化模型对多对所述目标数据对进行孟德尔随机化分析,以获得多组第一随机化结果;
对多组所述第一随机化结果进行荟萃分析,以获得第一分析结果;
基于所述孟德尔随机化模型对所述第三关联关系统计量和所述第四关联关系统计量进行孟德尔随机化分析,以获得第二随机化结果;
将所述第二随机化结果和所述第一分析结果作为一整体再次进行荟萃分析,以获得第二分析结果;
当多组所述第一随机化结果、所述第一分析结果、所述第二随机化结果以及第二分析结果均满足预设条件时,输出小样本人种的当前分析的生活习惯与指定疾病有因果关系。
较佳地,所述预设条件包括:
对于多组所述第一随机化结果,至少其中一组的显著性小于0.05;
对于所述第一分析结果,固定效应显著性小于0.05,I的平方小于0.05,等效显著性大于0.05;
对于第二随机化结果,显著性小于0.05;
对于第二分析结果,固定效应显著性小于0.05。
较佳地,所述第三关联关系统计量的获取方法:
获取小样本人种的原始生活习惯数据和基因型数据;
筛除掉原始生活习惯数据中偶发性的生活习惯相关数据项;
根据原始生活习惯数据中小样本人种的样本总数,筛除掉缺失数量大于或等于预设值的生活习惯相关数据项,所述缺失数量为当前生活习惯未覆盖的所述样本总数中的人的数量;
对于缺失数量小于预设值的生活习惯,如果该生活习惯属于数值型数据,则采用中位数的方式对相关数据项进行填充,如果该生活习惯属于分类型数据,则采用最高频方式对相关数据项进行填充,以获得目标生活习惯数据;
采用全基因组关联分析工具,对小样本人种的基因型数据和所述目标生活习惯数据进行计算分析,以获得所述第三关联关系统计量。
较佳地,还对所述第一关联关系统计量和所述第三关联关系统计量中的生活习惯做交集,以筛除掉所述第一关联关系统计量和所述第三关联关系统计量中非公共生活习惯相关数据项。
本发明还公开一种跨人种生活习惯与疾病因果关系自动化推断系统,其包括:
基础数据获取模块,其用于获取关联关系统计量,所述关联关系数据量包括一份或多份大样本人种的记录单核苷酸多态性与指定生活习惯关联关系的第一关联关系统计量、两份或多份大样本人种的记录单核苷酸多态性与指定疾病关联关系的第二关联关系统计量、一份小样本人种的记录单核苷酸多态性与指定生活习惯关联关系的第三关联关系统计量、一份小样本人种的记录单核苷酸多态性与指定疾病关联关系的第四关联关系统计量;
数据清洗模块,其用于将所述第一关联关系统计量和所述第三关联关系统计量中显著性超过预设的阈值的单核苷酸多态性筛除;
配对模块,其用于对属于大样本人种的第一关联关系统计量和第二关联关系统计量整体进行单对多或多对多的配对,以获得多对目标数据对;
第一数据处理模块,其用于基于孟德尔随机化模型对多对所述目标数据对进行孟德尔随机化分析,以获得多组第一随机化结果;
第二数据处理模块,其用于对多组所述第一随机化结果进行荟萃分析,以获得第一分析结果;
第三数据处理模块,其用于基于所述孟德尔随机化模型对所述第三关联关系统计量和所述第四关联关系统计量进行孟德尔随机化分析,以获得第二随机化结果;
第四数据处理模块,其用于将所述第二随机化结果和所述第一分析结果作为一整体再次进行荟萃分析,以获得第二分析结果;
确认模块,其用于将多组所述第一随机化结果、所述第一分析结果、所述第二随机化结果以及第二分析结果与预设条件比对,以确认小样本人种的当前分析的生活习惯与指定疾病是否有因果关系。
较佳地,所述预设条件包括:
对于多组所述第一随机化结果,至少其中一组的显著性小于0.05;
对于所述第一分析结果,固定效应显著性小于0.05,I的平方小于0.05,等效显著性大于0.05;
对于第二随机化结果,显著性小于0.05;
对于第二分析结果,固定效应显著性小于0.05。
较佳地,还包括优化模块,所述优化模块用于对所述第一关联关系统计量和所述第三关联关系统计量中的生活习惯做交集,以筛除掉所述第一关联关系统计量和所述第三关联关系统计量中非公共生活习惯相关数据项。
本发明还公开一种跨人种生活习惯与疾病因果关系自动化推断系统,其包括:
一个或多个处理器;
存储器;
以及一个或多个程序,其中一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的跨人种生活习惯与疾病因果关系自动化推断方法的指令。
本发明还公开一种计算机可读存储介质,其包括计算机程序,所述计算机程序可被处理器执行以完成如上所述的跨人种生活习惯与疾病因果关系自动化推断方法。
与现有技术相比,本发明上述技术方案,基于孟德尔随机化模型对获得的统计数据进行分析,基于大样本人种的大量数据获得的荟萃分析结果与小样本人种的孟德尔随机化分析结果融合,进而对融合后的数据进行荟萃分析,并基于预设条件判断当前分析的生活习惯与指定疾病是否有因果关系,由此可知,通过上述方案,由于大样本人种数据的参与,可增加小样本人种因果分析的准确度和可解释性,另外,还根据单核苷酸多态性的显著性对获得的小样本人种的生活习惯相关的关联关系统计量进行清洗,以筛除掉具有多效性的遗传变异,只使用有效的遗传变异进行后续的孟德尔分析,从而进一步提升分析结果的准确性。
附图说明
图1为本发明实施例中因果关系自动化推断原理结构图。
图2为本发明实施例中因果关系自动化推断方法流程图。
图3为孟德尔随机化模型的基本结构图。
具体实施方式
为详细说明本发明的技术内容、构造特征、所实现目的及效果,以下结合实施方式并配合附图详予说明。
本实施例公开了一种基于孟德尔随机化的跨人种生活习惯与疾病因果关系自动化推断方法,也即,采用孟德尔随机化模型对统计到的样本数据进行处理,以找寻与复杂疾病存在因果关系的生活系统。本实施例利用大样本人种的遗传变异与生活习惯的关联和遗传变异与疾病的关联统计量来协助小样本人种,提高结果准确度和可解释性。对此,在本实施例中,假设生活习惯与复杂疾病之间的因果关系在不同人种之间不会存在很大变化。
如图1和图2,本实施例中的推断方法包括如下步骤:
S1:获取关联关系统计量,关联关系数据量包括一份或多份大样本人种的记录单核苷酸多态性与指定生活习惯关联关系的第一关联关系统计量、两份或多份大样本人种的记录单核苷酸多态性与指定疾病关联关系的第二关联关系统计量、一份小样本人种的记录单核苷酸多态性与指定生活习惯关联关系的第三关联关系统计量、一份小样本人种的记录单核苷酸多态性与指定疾病关联关系的第四关联关系统计量。
S2:对获取到的统计数据进行清洗,也即判断第一关联关系统计量和第三关联关系统计量中的每一单核苷酸多态性的显著性是否超过预设的阈值,如果是,则将该单核苷酸多态性筛除,如果否,则保留。
S3:对属于大样本人种的第一关联关系统计量和第二关联关系统计量整体进行单对多或多对多的配对,以获得多对目标数据对。例如,获取到一份第一关联关系统计量,形成文件A,获取到两份第二关联关系统计量,形成文件B、C。那么,配对形成的目标数据对有两对,分别为A&B和A&C。
S4:基于孟德尔随机化模型对多对目标数据对进行孟德尔随机化分析,以获得多份大样本人种的多组(本实施例中为两组)第一随机化结果。
S5:对上述两组第一随机化结果进行荟萃分析,以获得第一分析结果。
S6:基于孟德尔随机化模型对第三关联关系统计量和第四关联关系统计量进行孟德尔随机化分析,以获得一份小样本人种的第二随机化结果。
S7:将第二随机化结果和第一分析结果作为一整体再次进行荟萃分析,以获得第二分析结果。
S8:判断两组第一随机化结果、第一分析结果、第二随机化结果以及第二分析结果是否同时满足预设条件,如果是,则输出小样本人种的当前分析的生活习惯与指定疾病有因果关系,反之,如果第一随机化结果、第一分析结果、第二随机化结果以及第二分析结果中有一个不满足预设条件,则说明小样本人种的当前分析的生活习惯与指定疾病之间的因果关系具有较大可疑性。
进一步地,预设条件包括如下:
对于多组第一随机化结果,至少其中一组的显著性小于0.05;
对于第一分析结果,固定效应显著性小于0.05,I的平方小于0.05,等效显著性大于0.05;
对于第二随机化结果,显著性小于0.05;
对于第二分析结果,固定效应显著性小于0.05。
更进一步地,为所述第三关联关系统计量的获取方法:
(1)获取小样本人种的原始生活习惯数据和基因型数据;
(2)筛除掉原始生活习惯数据中偶发性的生活习惯相关数据项;
(3)根据原始生活习惯数据中小样本人种的样本总数,筛除掉缺失数量大于或等于预设值的生活习惯相关数据项,缺失数量为当前生活习惯未覆盖的样本总数中的人的数量;例如,小样本人种的样本总数为3099,如果当前生活习惯仅有309以下的人具有,那么将筛除掉该生活习惯;
(4)对于缺失数量小于预设值的生活习惯相关数据项,如果该生活习惯属于数值型数据,则采用中位数的方式进行填充,如果该生活习惯属于分类型数据,则采用最高频方式进行填充,以获得目标生活习惯数据。
(5)采用全基因组关联分析工具,对小样本人种的基因型数据和目标生活习惯数据进行计算分析,以获得第三关联关系统计量。
更进一步地,为提升大样本数据与小样本数据的相关性,对第一关联关系统计量和第三关联关系统计量中的生活习惯做交集,以筛除掉第一关联关系统计量和第三关联关系统计量中非公共生活习惯相关数据项。
具体地,下面以一具体实例详细说明上述推断方法的使用,包括数据准备阶段和因果推断阶段。
数据准备阶段包括以下几个步骤:
1.1)、从“https://www.ebi.ac.uk/gwas/home”(GWASCatalog数据库)下载两份大样本欧洲人的单核苷酸多态性与冠状动脉性心脏病关联关系统计量,以及两份大样本欧洲人的单核苷酸多态性与二型糖尿病的关联关系统计量(本实施例中具有两个指定疾病,分别为冠状动脉性心脏病和二型糖尿病),从“https://gwas.mrcieu.ac.uk/”(openGWAS数据库)中下载一份大样本欧洲人的单核苷酸多态性与生活习惯的关联关系统计量(总共下载了268个不同生活习惯数据)。
1.2)、从英国生物银行中提取东亚人的生活习惯数据和基因型数据,并对提取到的生活习惯数据数据进行数据预处理。首先,筛除掉偶发性的生活习惯相关数据项,例如,昨天是否偶然饮酒或吃其他不常吃的食物。然后,由于提取到的东亚人的样本数据为3099,因此,可筛除掉缺失数量大于309的生活习惯相关数据项。其次,对缺失值进行处理,如果是数值型数据则采用中位值方式进行填充,如果是分类型数据则使用最高频方式填充,最终保留了120个生活习惯。
另外,本实施例中,从英国生物银行中提取出来患有冠状动脉性心脏病的东亚人人数是78,患有二型糖尿病的东亚人人数为29。
1.3)、从“https://www.cog-genomics.org/plink/”中下载全基因组关联分析工具(如PLINK软件),使用英国生物银行中的东亚人的基因型数据和上述步骤2)中提取出来的数据计算东亚人的单核苷酸多态性与生活习惯的关联关系统计量以及单核苷酸多态性与冠状动脉性心脏病、单核苷酸多态性与二型糖尿病的关联关系统计量。
1.4)、对从英国生物银行抽取出的东亚人生活习惯和下载的欧洲人生活习惯做交集(共76个),并对交集部分的生活习惯做后续的因果推断。
因果推断阶段,首先,推断芝士摄入频率与冠状动脉性心脏病的因果关系,包括以下几个步骤:
2.1)、将大样本欧洲人和小样本东亚人的单核苷酸多态性与芝士摄入频率的关联关系统计量与单核苷酸多态性与冠状动脉性心脏病的关联关系统计量处理成数据包;
2.2)、对上述步骤2.1)形成的数据包中单核苷酸多态性与芝士摄入频率的关联关系统计量进行数据清洗,清洗方法如下:
提取与暴露变量强相关的单核苷酸多态性,设定显著性P值的阈值,高于该阈值的单核苷酸多态性将被筛除;
使用R语言“TwoSampleMR”包中的“clump_data”方法保证剩余的单核苷酸多态性之间相互独立且筛除掉次要等位基因的频率大于0.01的单核苷酸多态性;
使用R语言“PhenoScanner”包,通过设置显著性P值的阈值,来检测单核苷酸多态性是否与多个暴露变量强相关,如果是,则筛除。
2.3)、首先将欧洲人的一份单核苷酸多态性与芝士摄入量的关联关系统计量与两份单核苷酸多态性与冠状动脉性心脏病的关联关系统计量做配对,以得到两个目标数据对,随后采用孟德尔随机化模型对该两个目标数据对做孟德尔随机化分析,以获得两组第一随机化结果;
然后,对两组第一随机化结果做荟萃分析,以获得第一分析结果;
接下来,对东亚人的单核苷酸多态性与生活习惯的关联关系统计量和单核苷酸多态性与冠状动脉性心脏病的关联关系统计量做孟德尔随机化随机化分析,以获得第二随机化结果;
然后用欧洲人的荟萃分析结果(第一分析结果)和东亚人的孟德尔随机化结果(第二随机化结果)做荟萃分析,以获得第二分析结果。
2.4)、结果判断。判断上述步骤2.3)中的两组第一随机化结果、第一分析结果、第二随机化结果以及第二分析结果是否满足上述预设条件,如果是,则输出确认结果,也即对于东亚人来说,芝士摄入频率与冠状动脉性心脏病有因果联系。
然后,推断家禽摄入频率与二型糖尿病的因果关系,包括以下几个步骤:
3.1)、将大样本欧洲人和小样本东亚人的单核苷酸多态性与家禽摄入频率的关联关系统计量与单核苷酸多态性与二型糖尿病的关联关系统计量处理成数据包;
3.2)、对上述步骤2.1)形成的数据包进行数据清洗,清洗方法如上,在此不再赘述。
3.3)、首先将欧洲人的一份单核苷酸多态性与家禽摄入量的关联关系统计量与两份单核苷酸多态性与二型糖尿病的关联关系统计量做配对,以得到两个目标数据对,随后采用孟德尔随机化模型对该两个目标数据对做孟德尔随机化分析,以获得两组第一随机化结果;
然后,对两份第一随机化结果做荟萃分析,以获得第一分析结果;
接下来,对东亚人的单核苷酸多态性与生活习惯的关联关系统计量和单核苷酸多态性与二型糖尿病的关联关系统计量做孟德尔随机化随机化分析,以获得第二随机化结果;
然后用欧洲人的荟萃分析结果(第一分析结果)和东亚人的孟德尔随机化结果(第二随机化结果)做荟萃分析,以获得第二分析结果。
3.4)、结果判断。判断上述步骤3.3)中的两组第一随机化结果、第一分析结果、第二随机化结果以及第二分析结果是否满足上述预设条件,如果是,则输出确认结果,也即对于东亚人来说,家禽摄入频率与二型糖尿病有因果联系。
以此类推,最终分析出对于东亚人来说,有46个生活习惯与冠状动脉性心脏病有因果关系,有33个生活习惯与二型糖尿病有因果关系。
本发明上述实施例公开的跨人种生活习惯与疾病因果关系自动化推断方法,基于孟德尔随机化模型对获得的统计数据进行分析,并基于大样本人种的大量数据获得的荟萃分析结果与小样本人种的孟德尔随机化分析结果融合,进而对融合后的数据进行荟萃分析,并基于预设条件判断当前分析的生活习惯与指定疾病是否有因果关系。由于大样本人种数据的参与,可增加小样本人种因果分析的准确度和可解释性,另外,还根据单核苷酸多态性的显著性对获得的小样本人种的生活习惯相关的关联关系统计量进行清洗,以筛除掉具有多效性的遗传变异,只使用有效的遗传变异进行后续的孟德尔分析,从而进一步提升分析结果的准确性。
本发明还公开一种跨人种生活习惯与疾病因果关系自动化推断系统,其包括基础数据获取模块、数据清洗模块、配对模块、第一数据处理模块、第二数据处理模块、第三数据处理模块、第四数据处理模块以及确认模块。
基础数据获取模块用于获取关联关系统计量,关联关系数据量包括一份或多份大样本人种的记录单核苷酸多态性与指定生活习惯关联关系的第一关联关系统计量、两份或多份大样本人种的记录单核苷酸多态性与指定疾病关联关系的第二关联关系统计量、一份小样本人种的记录单核苷酸多态性与指定生活习惯关联关系的第三关联关系统计量、一份小样本人种的记录单核苷酸多态性与指定疾病关联关系的第四关联关系统计量。
数据清洗模块用于将所述第一关联关系统计量和所述第三关联关系统计量中显著性超过预设的阈值的单核苷酸多态性筛除。
配对模块用于对属于大样本人种的第一关联关系统计量和第二关联关系统计量整体进行单对多或多对多的配对,以获得多对目标数据对。
第一数据处理模块用于基于孟德尔随机化模型对多对目标数据对进行孟德尔随机化分析,以获得多组第一随机化结果。
第二数据处理模块用于对多组第一随机化结果进行荟萃分析,以获得第一分析结果。
第三数据处理模块用于基于孟德尔随机化模型对第三关联关系统计量和第四关联关系统计量进行孟德尔随机化分析,以获得第二随机化结果。
第四数据处理模块用于将第二随机化结果和第一分析结果作为一整体再次进行荟萃分析,以获得第二分析结果。
确认模块用于将多组第一随机化结果、第一分析结果、第二随机化结果以及第二分析结果与预设条件比对,以确认小样本人种的当前分析的生活习惯与指定疾病是否有因果关系。
具体地,预设条件包括:
对于多组第一随机化结果,至少其中一组的显著性小于0.05;
对于第一分析结果,固定效应显著性小于0.05,I的平方小于0.05,等效显著性大于0.05;
对于第二随机化结果,显著性小于0.05;
对于第二分析结果,固定效应显著性小于0.05。
进一步地,该系统还包括优化模块,优化模块用于对第一关联关系统计量和第三关联关系统计量中的生活习惯做交集,以筛除掉第一关联关系统计量和第三关联关系统计量中非公共生活习惯相关数据项。
本发明还公开另一种因果关系自动化推断系统,其包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的因果关系自动化推断方法的指令。处理器可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),或者一个或多个集成电路,用于执行相关程序,以实现本申请实施例的因果关系自动化推断系统中的模块所需执行的功能,或者执行本申请方法实施例的因果关系自动化推断方法。
本发明还公开一种计算机可读存储介质,其包括计算机程序,所述计算机程序可被处理器执行以完成如上所述的因果关系自动化推断方法。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory,ROM),或随机存取存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD)等。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述因果关系自动化推断方法。
以上所揭露的仅为本发明的优选实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明申请专利范围所作的等同变化,仍属本发明所涵盖的范围。

Claims (9)

1.一种跨人种生活习惯与疾病因果关系自动化推断方法,其特征在于,包括:
获取关联关系统计量,所述关联关系数据量包括一份或多份大样本人种的记录单核苷酸多态性与指定生活习惯关联关系的第一关联关系统计量、两份或多份大样本人种的记录单核苷酸多态性与指定疾病关联关系的第二关联关系统计量、一份小样本人种的记录单核苷酸多态性与指定生活习惯关联关系的第三关联关系统计量、一份小样本人种的记录单核苷酸多态性与指定疾病关联关系的第四关联关系统计量;
判断所述第一关联关系统计量和所述第三关联关系统计量中的每一单核苷酸多态性的显著性是否超过预设的阈值,如果是,则将该单核苷酸多态性筛除,如果否,则保留;
对属于大样本人种的第一关联关系统计量和第二关联关系统计量整体进行单对多或多对多的配对,以获得多对目标数据对;
基于孟德尔随机化模型对多对所述目标数据对进行孟德尔随机化分析,以获得多组第一随机化结果;
对多组所述第一随机化结果进行荟萃分析,以获得第一分析结果;
基于所述孟德尔随机化模型对所述第三关联关系统计量和所述第四关联关系统计量进行孟德尔随机化分析,以获得第二随机化结果;
将所述第二随机化结果和所述第一分析结果作为一整体再次进行荟萃分析,以获得第二分析结果;
当多组所述第一随机化结果、所述第一分析结果、所述第二随机化结果以及第二分析结果均满足预设条件时,输出小样本人种的当前分析的生活习惯与指定疾病有因果关系。
2.根据权利要求1所述的跨人种生活习惯与疾病因果关系自动化推断方法,其特征在于,所述预设条件包括:
对于多组所述第一随机化结果,至少其中一组的显著性小于0.05;
对于所述第一分析结果,固定效应显著性小于0.05,I的平方小于0.05,等效显著性大于0.05;
对于第二随机化结果,显著性小于0.05;
对于第二分析结果,固定效应显著性小于0.05。
3.根据权利要求1所述的跨人种生活习惯与疾病因果关系自动化推断方法,其特征在于,所述第三关联关系统计量的获取方法:
获取小样本人种的原始生活习惯数据和基因型数据;
筛除掉原始生活习惯数据中偶发性的生活习惯相关数据项;
根据原始生活习惯数据中小样本人种的样本总数,筛除掉缺失数量大于或等于预设值的生活习惯相关数据项,所述缺失数量为当前生活习惯未覆盖的所述样本总数中的人的数量;
对于缺失数量小于预设值的生活习惯,如果该生活习惯属于数值型数据,则采用中位数的方式对相关数据项进行填充,如果该生活习惯属于分类型数据,则采用最高频方式对相关数据项进行填充,以获得目标生活习惯数据;
采用全基因组关联分析工具,对小样本人种的基因型数据和所述目标生活习惯数据进行计算分析,以获得所述第三关联关系统计量。
4.根据权利要求1所述的跨人种生活习惯与疾病因果关系自动化推断方法,其特征在于,还对所述第一关联关系统计量和所述第三关联关系统计量中的生活习惯做交集,以筛除掉所述第一关联关系统计量和所述第三关联关系统计量中非公共生活习惯相关数据项。
5.一种跨人种生活习惯与疾病因果关系自动化推断系统,其特征在于,包括:
基础数据获取模块,其用于获取关联关系统计量,所述关联关系数据量包括一份或多份大样本人种的记录单核苷酸多态性与指定生活习惯关联关系的第一关联关系统计量、两份或多份大样本人种的记录单核苷酸多态性与指定疾病关联关系的第二关联关系统计量、一份小样本人种的记录单核苷酸多态性与指定生活习惯关联关系的第三关联关系统计量、一份小样本人种的记录单核苷酸多态性与指定疾病关联关系的第四关联关系统计量;
数据清洗模块,其用于将所述第一关联关系统计量和所述第三关联关系统计量中显著性超过预设的阈值的单核苷酸多态性筛除;
配对模块,其用于对属于大样本人种的第一关联关系统计量和第二关联关系统计量整体进行单对多或多对多的配对,以获得多对目标数据对;
第一数据处理模块,其用于基于孟德尔随机化模型对多对所述目标数据对进行孟德尔随机化分析,以获得多组第一随机化结果;
第二数据处理模块,其用于对多组所述第一随机化结果进行荟萃分析,以获得第一分析结果;
第三数据处理模块,其用于基于所述孟德尔随机化模型对所述第三关联关系统计量和所述第四关联关系统计量进行孟德尔随机化分析,以获得第二随机化结果;
第四数据处理模块,其用于将所述第二随机化结果和所述第一分析结果作为一整体再次进行荟萃分析,以获得第二分析结果;
确认模块,其用于将多组所述第一随机化结果、所述第一分析结果、所述第二随机化结果以及第二分析结果与预设条件比对,以确认小样本人种的当前分析的生活习惯与指定疾病是否有因果关系。
6.根据权利要求5所述的跨人种生活习惯与疾病因果关系自动化推断系统其特征在于,所述预设条件包括:
对于多组所述第一随机化结果,至少其中一组的显著性小于0.05;
对于所述第一分析结果,固定效应显著性小于0.05,I的平方小于0.05,等效显著性大于0.05;
对于第二随机化结果,显著性小于0.05;
对于第二分析结果,固定效应显著性小于0.05。
7.根据权利要求5所述的跨人种生活习惯与疾病因果关系自动化推断系统,其特征在于,还包括优化模块,所述优化模块用于对所述第一关联关系统计量和所述第三关联关系统计量中的生活习惯做交集,以筛除掉所述第一关联关系统计量和所述第三关联关系统计量中非公共生活习惯相关数据项。
8.一种跨人种生活习惯与疾病因果关系自动化推断系统,其特征在于,包括:
一个或多个处理器;
存储器;
以及一个或多个程序,其中一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1至4任一项所述的跨人种生活习惯与疾病因果关系自动化推断方法的指令。
9.一种计算机可读存储介质,其特征在于,包括计算机程序,所述计算机程序可被处理器执行以完成如权利要求1至4任一项所述的跨人种生活习惯与疾病因果关系自动化推断方法。
CN202310289368.3A 2023-03-16 2023-03-16 跨人种生活习惯与疾病因果关系自动化推断方法及系统 Pending CN116312806A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310289368.3A CN116312806A (zh) 2023-03-16 2023-03-16 跨人种生活习惯与疾病因果关系自动化推断方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310289368.3A CN116312806A (zh) 2023-03-16 2023-03-16 跨人种生活习惯与疾病因果关系自动化推断方法及系统

Publications (1)

Publication Number Publication Date
CN116312806A true CN116312806A (zh) 2023-06-23

Family

ID=86779555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310289368.3A Pending CN116312806A (zh) 2023-03-16 2023-03-16 跨人种生活习惯与疾病因果关系自动化推断方法及系统

Country Status (1)

Country Link
CN (1) CN116312806A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116994775A (zh) * 2023-09-25 2023-11-03 深圳市雅士长华智能科技有限公司 基于多源数据的药效预测方法及相关装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116994775A (zh) * 2023-09-25 2023-11-03 深圳市雅士长华智能科技有限公司 基于多源数据的药效预测方法及相关装置
CN116994775B (zh) * 2023-09-25 2023-12-01 深圳市雅士长华智能科技有限公司 基于多源数据的药效预测方法及相关装置

Similar Documents

Publication Publication Date Title
Rice et al. Methods for handling multiple testing
CN113053535B (zh) 一种医疗信息预测系统及医疗信息预测方法
CN111126822B (zh) 一种工业机器人健康评估方法、装置及存储介质
CN107408163B (zh) 用于分析基因的方法及装置
CN116312806A (zh) 跨人种生活习惯与疾病因果关系自动化推断方法及系统
CN112070239B (zh) 基于用户数据建模的分析方法、系统、介质及设备
JP2020030662A (ja) 疾病評価指標算出方法、装置、システム、及び、プログラム、並びに、疾病評価指標を算出するためのモデル作成方法。
JP2020030800A (ja) 疾病評価指標算出方法、装置、システム、及び、プログラム、並びに、疾病評価指標を算出するためのモデル作成方法。
CN116959585B (zh) 基于深度学习的全基因组预测方法
CN113672782A (zh) 一种基于数据查询的物联网设备重要性匹配方法
CN110970089B (zh) 胎儿浓度计算的预处理方法、预处理装置及其应用
CN112447303A (zh) 一种传染病时空聚集性探测分析方法及系统
CN116453588A (zh) 基于全基因组测序的strc基因拷贝数变异检测方法
US10973467B2 (en) Method and system for automated diagnostics of none-infectious illnesses
CN111508559A (zh) 检测目标区域cnv的方法及装置
CN108109675B (zh) 一种实验室质量控制数据管理系统
Ko et al. Novel likelihood ratio tests for screening gene‐gene and gene‐environment interactions with unbalanced repeated‐measures data
CN113344469A (zh) 欺诈识别方法、装置、计算机设备及存储介质
CN113625092A (zh) 一种电子元件性能数据检测方法
Kristensen et al. Is whole-brain functional connectivity a neuromarker of sustained attention? Comment on Rosenberg & al.(2016)
CN117150065B (zh) 一种图像信息的采集方法及系统
CN115407008B (zh) 分析方法和诊断辅助方法
CN118352007B (zh) 一种基于人群队列多组学数据的疾病数据分析方法及系统
EP4297037A1 (en) Device for determining an indicator of presence of hrd in a genome of a subject
Arteaga-Salas 9 Image Processing of Affymetrix Microarrays

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination