CN116994775B - 基于多源数据的药效预测方法及相关装置 - Google Patents
基于多源数据的药效预测方法及相关装置 Download PDFInfo
- Publication number
- CN116994775B CN116994775B CN202311240487.6A CN202311240487A CN116994775B CN 116994775 B CN116994775 B CN 116994775B CN 202311240487 A CN202311240487 A CN 202311240487A CN 116994775 B CN116994775 B CN 116994775B
- Authority
- CN
- China
- Prior art keywords
- target
- data set
- variable
- association
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000000857 drug effect Effects 0.000 title claims abstract description 49
- 239000002773 nucleotide Substances 0.000 claims abstract description 127
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 127
- 230000001364 causal effect Effects 0.000 claims abstract description 39
- 239000003814 drug Substances 0.000 claims description 31
- 230000003285 pharmacodynamic effect Effects 0.000 claims description 31
- 229940079593 drug Drugs 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 26
- 230000000694 effects Effects 0.000 claims description 20
- 238000004820 blood count Methods 0.000 claims description 14
- 102000054765 polymorphisms of proteins Human genes 0.000 claims description 14
- 210000004369 blood Anatomy 0.000 claims description 13
- 239000008280 blood Substances 0.000 claims description 13
- 238000010197 meta-analysis Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000007477 logistic regression Methods 0.000 claims description 5
- 108700028369 Alleles Proteins 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 230000001225 therapeutic effect Effects 0.000 description 6
- 238000002790 cross-validation Methods 0.000 description 5
- 230000003234 polygenic effect Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 description 4
- 210000003979 eosinophil Anatomy 0.000 description 4
- 230000007614 genetic variation Effects 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 102100036475 Alanine aminotransferase 1 Human genes 0.000 description 3
- 108010082126 Alanine transaminase Proteins 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- LEHOTFFKMJEONL-UHFFFAOYSA-N Uric Acid Chemical compound N1C(=O)NC(=O)C2=C1NC(=O)N2 LEHOTFFKMJEONL-UHFFFAOYSA-N 0.000 description 2
- TVWHNULVHGKJHS-UHFFFAOYSA-N Uric acid Natural products N1C(=O)NC(=O)C2NC(=O)NC21 TVWHNULVHGKJHS-UHFFFAOYSA-N 0.000 description 2
- PNNCWTXUWKENPE-UHFFFAOYSA-N [N].NC(N)=O Chemical compound [N].NC(N)=O PNNCWTXUWKENPE-UHFFFAOYSA-N 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 229940109239 creatinine Drugs 0.000 description 2
- RUZYUOTYCVRMRZ-UHFFFAOYSA-N doxazosin Chemical compound C1OC2=CC=CC=C2OC1C(=O)N(CC1)CCN1C1=NC(N)=C(C=C(C(OC)=C2)OC)C2=N1 RUZYUOTYCVRMRZ-UHFFFAOYSA-N 0.000 description 2
- 229960001389 doxazosin Drugs 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 102000054766 genetic haplotypes Human genes 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 210000000440 neutrophil Anatomy 0.000 description 2
- 210000003924 normoblast Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 229940116269 uric acid Drugs 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 102000015779 HDL Lipoproteins Human genes 0.000 description 1
- 108010010234 HDL Lipoproteins Proteins 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 102000007330 LDL Lipoproteins Human genes 0.000 description 1
- 108010007622 LDL Lipoproteins Proteins 0.000 description 1
- 241000208125 Nicotiana Species 0.000 description 1
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 230000006750 UV protection Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000000149 argon plasma sintering Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000010876 biochemical test Methods 0.000 description 1
- 238000004159 blood analysis Methods 0.000 description 1
- 235000008429 bread Nutrition 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 235000013351 cheese Nutrition 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 235000013365 dairy product Nutrition 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000035487 diastolic blood pressure Effects 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000003743 erythrocyte Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000005556 hormone Substances 0.000 description 1
- 229940088597 hormone Drugs 0.000 description 1
- 235000012171 hot beverage Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 235000020938 metabolic status Nutrition 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000009805 platelet accumulation Effects 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 235000020991 processed meat Nutrition 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000001995 reticulocyte Anatomy 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 235000000346 sugar Nutrition 0.000 description 1
- 230000037072 sun protection Effects 0.000 description 1
- 230000035488 systolic blood pressure Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请公开了一种基于多源数据的药效预测方法及相关装置,应用于服务器,该方法包括获取第一关联关系数据集和第二关联关系数据集;根据第一关联关系数据集和第二关联关系数据集,得到目标暴露变量,目标暴露变量为暴露变量中与结果变量存在因果关系的至少一个暴露变量;根据第二关联关系数据集,得到第一药效预测分数,第一药效预测分数为对在单核苷酸多态性的影响下的结果变量的评分;根据目标暴露变量和第一药效预测分数以及结果变量,得到目标药效预测分数。本申请整合多种数据构建药效预测模型,得到目标药效预测分数,能够考虑到多种因素对药效的影响,为个性化治疗提供支撑。
Description
技术领域
本申请涉及药效预测技术领域,具体涉及一种基于多源数据的药效预测方法及相关装置。
背景技术
药效预测对于当前的临床医疗和药物研发是至关重要的。药效预测对于提高药物的治疗效果和安全性,提高药物的开发效率和降低开发成本具有重要意义。
随着技术的快速发展,药效预测方法的数量也急剧增多。有的方法是基于多个特定有效的风险因素变量对药效进行预测。例如,预测治疗心血管疾病的药物的药效时,通常使用总胆固醇、低密度脂蛋白、高密度脂蛋白、收缩压、舒张压等特征来预测药效。有的方法是基于基因组变异情况对药效进行预测,这类预测方法使用的模型通常是基于全基因组关联研究数据找到的风险变异,利用加权求和的方式预测药效。
然而,大部分药物的治疗效果不是只受到单一方面特定因素的影响,通常会受到多种因素的多重影响。因此,只利用单一信息对复杂疾病进行药效预测存在局限性,预测结果不够准确,并且无法支持个性化治疗的要求。如何使药效预测考虑到多种因素的多重影响,提高药效预测的准确性,以及为个性化治疗提供支撑,成为进一步需要解决的技术问题。
发明内容
本申请提出了一种基于多源数据的药效预测方法及相关装置,以解决只利用单一信息对复杂疾病进行药效预测存在局限性,预测结果不够准确,并且无法支持个性化治疗的要求的问题,考虑了多种因素的多重影响,能够提高药效预测的准确性和为个性化治疗提供支撑。
第一方面,本申请实施例提供一种基于多源数据的药效预测方法,用于服务器,所述方法包括:
获取第一关联关系数据集和第二关联关系数据集,所述第一关联关系数据集为单核苷酸多态性与暴露变量的关联关系数据的集合,所述暴露变量包括生活习惯和全血细胞计数结果以及血生化检查结果,所述第二关联关系数据集为所述单核苷酸多态性与结果变量的关联关系数据的集合,所述结果变量包括药物治疗效果;
根据所述第一关联关系数据集和所述第二关联关系数据集,得到目标暴露变量,所述目标暴露变量为所述暴露变量中与所述结果变量存在因果关系的至少一个所述暴露变量;
根据所述第二关联关系数据集,得到第一药效预测分数,所述第一药效预测分数为对在所述单核苷酸多态性的影响下的所述结果变量的评分;
根据所述目标暴露变量和所述第一药效预测分数以及所述结果变量,得到目标药效预测分数,所述目标药效预测分数为对在所述单核苷酸多态性和所述目标暴露变量的影响下的所述结果变量的评分。
第二方面,本申请实施例提供一种服务器,包括处理器、存储器,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如第一方面所述的方法中的步骤的指令。
第三方面,本申请实施例提供一种基于多源数据的药效预测装置,应用于服务器,所述装置包括:
第一接收单元,用于获取第一关联关系数据集和第二关联关系数据集,所述第一关联关系数据集为单核苷酸多态性与暴露变量的关联关系数据的集合,所述暴露变量包括生活习惯和全血细胞计数结果以及血生化检查结果,所述第二关联关系数据集为所述单核苷酸多态性与结果变量的关联关系数据的集合,所述结果变量包括药物治疗效果;
第一处理单元,用于根据所述第一关联关系数据集和所述第二关联关系数据集,得到目标暴露变量,所述目标暴露变量为所述暴露变量中与所述结果变量存在因果关系的至少一个所述暴露变量;以及根据所述第二关联关系数据集,得到第一药效预测分数,所述第一药效预测分数为对在所述单核苷酸多态性的影响下的所述结果变量的评分;
第二处理单元,用于根据所述目标暴露变量和所述第一药效预测分数以及所述结果变量,得到目标药效预测分数,所述目标药效预测分数为对在所述单核苷酸多态性和所述目标暴露变量的影响下的所述结果变量的评分。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序/指令,所述计算机程序/指令被处理器执行时实现第一方面任一项所述方法的步骤。
可以看出,本申请中,服务器首先获取第一关联关系数据集和第二关联关系数据集,第一关联关系数据集为单核苷酸多态性与暴露变量的关联关系数据的集合,暴露变量包括生活习惯和全血细胞计数结果以及血生化检查结果,第二关联关系数据集为单核苷酸多态性与结果变量的关联关系数据的集合,结果变量包括药物治疗效果数据;其次,根据第一关联关系数据集和第二关联关系数据集,得到目标暴露变量,目标暴露变量为暴露变量中与结果变量存在因果关系的至少一个暴露变量;以及,根据第二关联关系数据集,得到第一药效预测分数,第一药效预测分数为对在单核苷酸多态性的影响下的结果变量的评分;最后,根据目标暴露变量和第一药效预测分数以及结果变量,得到目标药效预测分数,目标药效预测分数为对在单核苷酸多态性和目标暴露变量的影响下的结果变量的评分。由于结合了多源数据构建药效预测模型,提高了数据的表达能力,使得最终预测的结果更加有效、准确和可靠,能够满足个性化治疗的要求。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于多源数据的药效预测系统的结构示意图;
图2是本申请实施例提供的一种基于多源数据的药效预测系统中服务器的结构示意图;
图3是本申请实施例提供的另一种基于多源数据的药效预测系统中服务器的结构示意图;
图4是本申请实施例提供的一种基于多源数据的药效预测方法的流程示意图;
图5是本申请实施例提供的多沙唑嗪药效的AUROC评估图;
图6是本申请实施例提供的一种基于多源数据的药效预测装置的功能单元组成框图;
图7是本申请实施例提供的一种基于多源数据的第二药效预测装置的功能单元组成框图;
图8是本申请实施例提供的一种服务器的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例中的“和/或”,描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示如下三种情况:单独存在A;同时存在A和B;单独存在B。其中,A、B可以是单数或者复数。
本申请实施例中,符号“/”可以表示前后关联对象是一种“或”的关系。另外,符号“/”也可以表示除号,即执行除法运算。例如,A/B,可以表示A除以B。
本申请实施例中的“至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合,是指一个或多个,多个指的是两个或两个以上。例如,a、b或c中的至少一项(个),可以表示如下七种情况:a,b,c,a和b,a和c,b和c,a、b和c。其中,a、b、c中的每一个可以是元素,也可以是包含一个或多个元素的集合。
本申请实施例中的“等于”可以与大于连用,适用于大于时所采用的技术方案,也可以与小于连用,适用于与小于时所采用的技术方案。当等于与大于连用时,不与小于连用;当等于与小于连用时,不与大于连用。
为了更好地理解本申请实施例的方案,下面先对本申请实施例可能涉及的终端设备、相关概念和背景进行介绍。
(1)多基因风险分数:Polygenic risk score,简称PRS,一个能够评估个体疾病风险的值,主要针对多基因遗传疾病进行评估,这类疾病可以通过改变环境因素来遏制其发展。
(2)孟德尔随机化:Mendelian Randomization,简称MR,利用孟德尔第二定律,即自由组合定律,在统计学上的本质是利用工具变量来研究因果性,在遗传学领域中,工具变量为基因。如果一个基因变异X,是某个暴露变量Y的因果变量,并且对结果变量Z没有直接因果关系,那么基因变异X与结果变量Z的关联,只能通过暴露变量Y对结果变量Z的因果关系而被观察到。使用孟德尔随机化,可以对暴露变量Y对结果变量Z的因果关系进行判断。
(3)单核苷酸多态性:在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。
(4)全血细胞计数:一种筛选性实验,可以观察到血细胞的增多、减少、被迫坏的情况,得到血液中的细胞的数据,例如,嗜酸性粒细胞计数、嗜酸性粒细胞百分比,有核红细胞计数、中性粒细胞百分比、血小板计数等。
(5)血生化检查:利用生物和化学方法,对人体的代谢状况和重要器官的功能进行检查,得到血液中各种离子、糖类、脂类、蛋白质还有各种酶、激素、机体的代谢产物的含量数据,例如,谷丙转氨酶数值、谷草转氨数值、尿酸水平、尿素氮水平、肌酐水平等数据。
(6)EBI:European Bioinformatics Institute,欧洲生物信息学中心,是一个非盈利性的学术机构。它的主要任务是建立、维护和提供生物学数据库以及信息学服务,从而支持生物学数据的存放和进一步挖掘。
(7)GWAS:Genome-wide association study,全基因组关联分析,是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性,从中筛选出与疾病相关的多个单核苷酸多态性。
(8)网格搜索和交叉验证:GridSearchCV,网格搜索是指在指定的参数范围内,按步长依次调整参数,利用调整的参数进行训练,从所有的参数中找到在验证集上精度最高的参数;交叉验证是指重复地使用数据,把得到的样本数据进行划分,组合为不同的训练集和测试集,可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,用训练集来训练模型,用测试集来评估模型预测的好坏。
目前,药效预测方法只利用单一信息对复杂疾病进行药效预测存在局限性,预测结果不够准确,并且无法支持个性化治疗的要求。
为解决上述问题,本申请实施例提供了一种基于多源数据的药效预测方法及相关装置,该方法应用于服务器。该服务器结合了多源数据构建药效预测模型,提高了数据的表达能力,使得最终预测的结果更加有效、准确和可靠,能够满足个性化治疗的要求。
请参阅图1,图1是本申请实施例提供的一种基于多源数据的药效预测系统的结构示意图。如图1所示,药效预测系统100包括终端设备110和服务器120。终端设备110与服务器120通信连接。其中,所述终端设备可以是手机终端,平板电脑或笔记本电脑等,所述服务器120可以是一台服务器,或者由若干服务器组成的服务器集群,或者是云计算服务中心等。
在基于多源数据的药效预测系统100的日常使用中,由服务器120获取第一关联关系数据集和第二关联关系数据集;根据第一关联关系数据集和第二关联关系数据集,得到目标暴露变量,目标暴露变量为暴露变量中与结果变量存在因果关系的至少一个暴露变量;根据第二关联关系数据集,得到第一药效预测分数,第一药效预测分数为对在单核苷酸多态性的影响下的结果变量的评分;根据目标暴露变量和第一药效预测分数以及结果变量,得到目标药效预测分数,目标药效预测分数为对在单核苷酸多态性和目标暴露变量的影响下的结果变量的评分。
请参阅图2,图2是本申请实施例提供的一种基于多源数据的药效预测系统中服务器的结构示意图。如图2所示,第一服务器200包括第一处理器210和第一存储器220,所述第一处理器210与第一存储器220通信连接。其中,第一存储器220中存储有一个或多个程序,并且该一个或多个程序被配置由第一处理器210执行。该一个或多个程序的功能是负责获取第一关联关系数据集和第二关联关系数据集;根据第一关联关系数据集和第二关联关系数据集,得到目标暴露变量,目标暴露变量为暴露变量中与结果变量存在因果关系的至少一个暴露变量;根据第二关联关系数据集,得到第一药效预测分数,第一药效预测分数为对在单核苷酸多态性的影响下的结果变量的评分;根据目标暴露变量和第一药效预测分数以及结果变量,得到目标药效预测分数,目标药效预测分数为对在单核苷酸多态性和目标暴露变量的影响下的结果变量的评分。所述第一服务器200可以是上述实施例中的服务器120。
请参阅图3,图3是本申请实施例提供的另一种基于多源数据的药效预测系统中服务器的结构示意图。如图3所示,第二服务器300包括特征筛选模块310,多基因风险分数计算模块320,药效分数计算模块330,特征筛选模块310与药效分数计算模块330通信连接,多基因风险分数计算模块320与药效分数计算模块330通信连接。特征筛选模块310用于根据第一关联关系数据集和第二关联关系数据集,得到目标暴露变量,目标暴露变量为暴露变量中与结果变量存在因果关系的至少一个暴露变量。多基因风险分数计算模块320用于根据第二关联关系数据集,得到第一药效预测分数,第一药效预测分数为对在单核苷酸多态性的影响下的结果变量的评分。药效分数计算模块330用于根据目标暴露变量和第一药效预测分数以及结果变量,得到目标药效预测分数,目标药效预测分数为对在单核苷酸多态性和目标暴露变量的影响下的结果变量的评分。所述第二服务器300可以是上述实施例中的服务器120。
下面介绍本申请实施例提供的一种基于多源数据的药效预测方法。
请参阅图4,图4是本申请实施例提供的一种基于多源数据的药效预测方法的流程示意图,应用于如图1所示的药效预测系统100中的服务器120,所述药效预测系统100包括终端设备110和服务器120。终端设备110与服务器120通信连接;如图所示,所述方法包括以下步骤:
步骤S401,获取第一关联关系数据集和第二关联关系数据集,所述第一关联关系数据集为单核苷酸多态性与暴露变量的关联关系数据的集合,所述暴露变量包括生活习惯和全血细胞计数结果以及血生化检查结果,所述第二关联关系数据集为所述单核苷酸多态性与结果变量的关联关系数据的集合,所述结果变量包括药物治疗效果。
其中,所述第一关联关系数据集可以从EBI负责维护的一个收集已发表的GWAS研究的数据库从获取。
其中,所述生活习惯,包括:奶酪摄入量,电脑使用时长,从不食用鸡蛋、乳制品、小麦、糖,从不食用鸡蛋、乳制品、小麦、糖,使用的牛奶类型,家禽摄入量,使用的交通工具类型(不包括工作),在家中接触烟草烟雾的频率,加工肉摄入量,腰围,冬季户外活动时间,面包类型,夏季户外活动时间,探访朋友/家人的频率,热饮温度,右腿阻抗,倾诉,饮酒频率,过去吸烟史,使用防晒/紫外线保护的情况等。
其中,所述全血细胞计数结果,包括:红细胞分布宽度,嗜酸性粒细胞计数,嗜酸性粒细胞百分比,有核红细胞计数,中性粒细胞百分比,高光散式网织红细胞计数,血小板计数,血小板压积等。
其中,所述血生化检查结果,包括:谷丙转氨酶数值、谷草转氨数值、尿酸水平、尿素氮水平、肌酐水平等。
步骤S402,根据所述第一关联关系数据集和所述第二关联关系数据集,得到目标暴露变量,所述目标暴露变量为所述暴露变量中与所述结果变量存在因果关系的至少一个所述暴露变量。
其中,所述目标暴露变量与所述结果变量强相关。
在一个可能的实施例中,所述根据所述第一关联关系数据集和所述第二关联关系数据集,得到目标暴露变量,包括:对所述第一关联关系数据集和第二关联关系数据集进行第一预处理,得到目标第一关联关系数据集和目标第二关联关系数据集;对所述目标第一关联关系数据集和所述目标第二关联关系数据集进行匹配与整合操作,得到目标数据集合,所述目标数据集合中每个目标数据为一对一数据或一对多数据;对所述目标数据集合中每个目标数据进行因果关系分析,得到目标暴露变量。
其中,所述目标第二关联关系数据集包括来自不同数据源的多个所述单核苷酸多态性与所述结果变量的关联关系数据。
其中,所述一对一数据为将所述目标第一关联关系数据集中一个所述单核苷酸多态性与所述暴露变量的关联关系数据与所述目标第二关联关系数据集中一个所述单核苷酸多态性与所述结果变量的关联关系数据整合得到的数据。
其中,所述一对多数据为将所述目标第一关联关系数据集中一个所述单核苷酸多态性与所述暴露变量的关联关系数据与所述目标第二关联关系数据集中多个所述单核苷酸多态性与所述结果变量的关联关系数据整合得到的数据。
其中,所述匹配与整合操作具体包括如下步骤:确定所述目标第一关联关系数据集与所述目标第二关联关系数据集中相同的所述单核苷酸多态性为目标单核苷酸多态性;根据所述目标单核苷酸多态性,确定所述目标第一关联关系数据集中所述目标单核苷酸多态性与所述暴露变量的关联关系数据为第一候选关联关系数据,并确定所述目标第二关联关系数据集中所述目标单核苷酸多态性与所述结果变量的关联关系数据为第二候选关联关系数据;将所述第一候选关联关系数据与所述第二候选关联关系数据进行整合,得到所述目标数据。
其中,所述对所述目标第一关联关系数据集和所述目标第二关联关系数据集进行匹配与整合操作,得到目标数据集合中一个目标数据,该一个目标数据为一对多数据,步骤如下:
请参阅表1,表1为所述第一候选关联关系数据中单核苷酸多态性和与单核苷酸多态性关联的暴露变量,即所述目标第一关联关系数据集中一个单核苷酸多态性与暴露变量的关联关系数据中的单核苷酸多态性和与单核苷酸多态性关联的暴露变量,即单核苷酸多态性1与生活习惯1的关联关系数据;
表1
请参阅表2,表2为所述第二候选关联关系数据中单核苷酸多态性和与单核苷酸多态性关联的结果变量,即所述目标第二关联关系数据集中一个单核苷酸多态性与结果变量的关联关系数据中的单核苷酸多态性和与单核苷酸多态性关联的结果变量,即单核苷酸多态性1与药物A的治疗效果1的关联关系数据;
表2
请参阅表3,表3为另一个所述第二候选关联关系数据中单核苷酸多态性和与单核苷酸多态性关联的结果变量,即所述目标第二关联关系数据集中另一个单核苷酸多态性与结果变量的关联关系数据中的单核苷酸多态性和与单核苷酸多态性关联的结果变量,即单核苷酸多态性1与药物A的治疗效果2的关联关系数据;
表3
表2与表3中的数据来自不同数据源,不同数据源对单核苷酸多态性1与药物A的治疗效果的关联关系的研究数据不同,例如,甲研究机构的研究数据中单核苷酸多态性1与药物A的治疗效果1具有关联关系,乙研究机构的研究数据中单核苷酸多态性1与药物A的治疗效果2具有关联关系。
根据表1、表2、和表3可知,所述目标单核苷酸多态性为单核苷酸多态性1;
将所述第一候选关联关系数据与所述第二候选关联关系数据进行整合,包括将单核苷酸多态性1与生活习惯1的关联关系数据、单核苷酸多态性1与药物A的治疗效果1的关联关系数据以及单核苷酸多态性1与药物A的治疗效果2的关联关系数据进行整合,得到一个目标数据;请参阅表4,表4为得到的一个目标数据中的内容,该一个目标数据为一对多数据,
表4
其中,所述对所述目标第一关联关系数据集和所述目标第二关联关系数据集进行匹配与整合操作,得到目标数据集合中一个目标数据,该目标数据为一对一数据,步骤如下:
请参阅表5,表5为所述第一候选关联关系数据中单核苷酸多态性和与单核苷酸多态性关联的暴露变量,即所述目标第一关联关系数据集中的一个单核苷酸多态性与暴露变量的关联关系数据中单核苷酸多态性和与单核苷酸多态性关联的暴露变量,即单核苷酸多态性2与生活习惯2的关联关系数据;
表5
请参阅表6,表6为所述第二候选关联关系数据中单核苷酸多态性和与单核苷酸多态性关联的结果变量,即所述目标第二关联关系数据集中的一个单核苷酸多态性与结果变量的关联关系数据中单核苷酸多态性和与单核苷酸多态性关联的结果变量,即单核苷酸多态性2与药物B的治疗效果3的关联关系数据;
表6
根据表5和表6可知,所述目标单核苷酸多态性为单核苷酸多态性2;
将所述第一候选关联关系数据与所述第二候选关联关系数据进行整合,包括将单核苷酸多态性2与生活习惯2的关联关系数据和单核苷酸多态性2与药物B的治疗效果3的关联关系数据进行整合,得到一个目标数据;请参阅表7,表7为得到的一个目标数据中的内容,该一个目标数据为一对一数据,
表7
可见,在本示例中,根据单核苷酸多态性将暴露变量与结果变量进行匹配,可以观察到暴露变量与结果变量的因果关系,能够得到生活习惯、全血细胞计数结果、血生化检查结果与药效的因果关系,不仅可以提高药效预测的准确性,并且能够为针对患者的个人情况进行个性化治疗提供支撑。
在一个可能的实施例中,所述对所述第一关联关系数据集和所述第二关联关系数据集进行第一预处理,得到目标第一关联关系数据集和目标第二关联关系数据集,包括:将所述第一关联关系数据集和所述第二关联关系数据集转换为R语言所需的数据格式,得到初始第一关联关系数据集和所述目标第二关联关系数据集;获取预设的第一显著性阈值;根据所述初始第一关联关系数据集和所述第一显著性阈值,得到所述目标第一关联关系数据集,所述目标第一关联关系数据集中的所述单核苷酸多态性相互独立,且所述单核苷酸多态性的次要等位基因频率小于0.01。
其中,所述R语言所需的数据格式包括R语言“TwoSampleMR”包所需的数据格式。
其中,使用R语言“PhenoScanner”包设置所述第一显著性阈值,例如将所述第一显著性阈值设置为0.05。
其中,所述将所述初始第一关联关系数据集中所述单核苷酸多态性的显著性小于所述第一显著性阈值的数据作为所述目标第一关联关系数据集,包括:使用R语言“PhenoScanner”包检测所述初始第一关联关系数据集中所述单核苷酸多态性的显著性阈值是否小于所述第一显著性阈值;若是,则将小于所述第一显著性阈值的数据作为所述目标第一关联关系数据集。
其中,根据所述初始第一关联关系数据集和所述第一显著性阈值,得到所述目标第一关联关系数据集,包括:判断所述初始第一关联关系数据集中所述单核苷酸多态性的显著性是否小于所述第一显著性阈值;若是,则将所述小于所述第一显著性阈值的所述单核苷酸多态性和对应的暴露变量作为所述目标第一关联关系数据集。
其中,使用R语言“TwoSampleMR”包中的“clump_date”方法保证所述目标第一关联关系数据集中的所述单核苷酸多态性相互独立和筛除次要等位基因频率大于0.01的所述单核苷酸多态性。
可见,本示例中,对第一关联关系和第二关联关系进行了数据清洗,得到了单个苷酸多态性与暴露变量强相关的目标第一关联关系数据集,提高了后续进行因果关系分析的准确性,从而提高了药效预测的准确性。
在一个可能的实施例中,所述对目标数据集合中每个目标数据进行因果关系分析,得到目标暴露变量,包括:获取预设的第一预设条件和第二预设条件;对所述每个目标数据进行因果关系分析,将与所述结果变量具有因果关系的至少一个所述暴露变量确定为目标暴露变量,具体包括如下步骤:若所述目标数据为所述一对一数据,则将所述目标数据导入预设的孟德尔随机化模型,得到与所述目标数据的第一孟德尔随机化结果;若所述第一孟德尔随机化结果满足所述第一预设条件,则所述目标数据中的所述暴露变量与所述结果变量具有因果关系;若所述目标数据为所述一对多数据,则将所述目标数据导入预设的孟德尔随机化模型,得到与所述目标数据的多个第二孟德尔随机化结果;对所述多个第二孟德尔随机化结果进行荟萃分析,得到所述目标数据的荟萃分析结果;若所述多个第二孟德尔随机化结果和所述荟萃分析结果满足所述第二预设条件,则所述目标数据中的所述暴露变量与所述结果变量具有因果关系。
其中,孟德尔随机化模型包括“MR Egger”和“IVW”,在使用孟德尔随机化模型的过程中,同时使用“TwoSampleMR”包中的“mr”方法进行孟德尔随机化分析。
其中,所述第一预设条件包括:孟德尔随机化结果的显著性小于0.05,且孟德尔随机化结果的95%置信区间不包含0。
其中,所述第二预设条件包括:孟德尔随机化结果的显著性小于0.05,且荟萃分析结果的固定效应的95%置信区间不包含0,且荟萃分析结果的固定效应的显著性小于0.05,且荟萃分析结果I平方小于0.05,且荟萃分析结果等效性大于0.05。
可见,在本示例中,使用孟德尔随机化模型对暴露变量与结果变量的因果关系进行判断,提高了数据的表达能力,考虑了对药效可能造成影响的多重因素,提高了药效预测结果的准确性和可靠性,能够满足个性化治疗的要求。
步骤S403,根据所述第二关联关系数据集,得到第一药效预测分数,所述第一药效预测分数为对在所述单核苷酸多态性的影响下的所述结果变量的评分。
其中,所述第一药效预测分数越高,基因变异对所述结果变量的影响程度越大。
在一个可能的实施例中,所述根据所述第二关联关系数据集,得到第一药效预测分数,所述第一药效预测分数为对在所述单核苷酸多态性的影响下的所述结果变量的评分,包括:对所述第二关联关系数据集进行第二预处理,得到目标第三关联关系数据集;根据所述目标第三关联关系数据集计算所述单核苷酸多态性的分数;根据所述单核苷酸多态性的分数,得到所述第一药效预测分数。
其中,所述根据所述目标第三关联关系数据集计算所述单核苷酸多态性的分数,包括:使用R语言“PRSPGx”包计算所述单核苷酸多态性的分数。
其中,所述基于所述单核苷酸多态性的分数进行计算,得到所述第一药效预测分数,包括:使用“PLINK”软件的“score”命令和所述单核苷酸多态性的分数计算所述第一药效预测分数
可见,在本示例中,对第一药效预测分数进行计算,提高了数据的表达能力,考虑了对药效可能造成影响的多重因素,提高了药效预测结果的准确性和可靠性,能够满足个性化治疗的要求。
在一个可能的实施例中,所述对所述第二关联关系数据集进行第二预处理,得到目标第三关联关系数据集,包括:将所述第二关联关系数据集转变为目标文件格式,得到初始第二关联关系数据集;获取参考基因型数据;根据所述参考基因型数据判断所述初始第二关联关系数据集中的每一个所述单核苷酸多态性是否准确;若是,则将所述初始第二关联关系数据集中准确的所述单核苷酸多态性与所述结果变量的关联关系确定为目标第三关联关系数据集。
其中,所述目标文件格式包括bed格式,bim格式和fam格式。
其中,所述参考基因型数据可以是国际人类基因组单体图计划中的单核苷酸多态性数据。所述国际人类基因组单体型图计划是个多国参与的合作项目,旨在开发人类基因组的单体型图,以描述人类遗传变异的常见模式,并为不同的人种探索与人类健康、疾病、药物和环境因子的个体反应差异相关的基因。
可见,在本示例中,将第二关联关系数据集的单核苷酸多态性与参考基因型数据进行匹配,保障单核苷酸多态性的准确性,从而提高药效预测结果的准确性和可靠性。
步骤S404,根据所述目标暴露变量和所述第一药效预测分数以及所述结果变量,得到目标药效预测分数,所述目标药效预测分数为对在所述单核苷酸多态性和所述目标暴露变量的影响下的所述结果变量的评分。
其中,所述目标药效预测分数指示药物治疗的效果,所述目标药效预测分数越高,药物治疗效果越好。
在一个可能的实施例中,所述根据所述目标暴露变量和所述第一药效预测分数以及所述结果变量,得到目标药效预测分数,包括:对所述目标暴露变量和所述第一药效预测分数进行整合,得到第一特征集合;获取预设的第二显著性阈值;将所述第一特征集合导入预设的逐步逻辑回归模型进行数据拟合,得到显著性小于所述第二显著性阈值的目标特征集合;将所述目标特征集合和所述结果变量作为训练数据,通过网格搜索和交叉验证得到药效预测模型;将所述目标特征集合输入所述药效预测模型,得到目标药效预测分数。
其中,所述第二显著性阈值例如可以是0.05。
其中,所述对所述目标暴露变量和所述第一药效预测分数进行整合,得到第一特征集合,包括:将所述目标暴露变量与所述第一药效预测分数进行拼接。
其中,所述将所述目标特征集合和所述结果变量作为训练数据,通过网格搜索和交叉验证得到药效预测模型,包括:将所述目标特征集合作为自变量,将所述结果变量作为因变量,训练逻辑回归模型;将得到的逻辑回归模型确定为所述药效预测模型。
其中,所述通过网格搜索和交叉验证得到所述药效预测模型之后,所述方法还包括:使用python语言“Sklearn”包中的“GridSearchCV”,“roc_curve”和“auc”方法去训练所述药效预测模型和评估所述药效预测模型的预测结果。
其中,所述进行网格搜索和交叉验证得到所述药效预测模型之后,所述方法还包括:在输入不同类型的数据的情况下,计算所述药效预测模型的AUROC分数;对比所述在输入不同类型的数据的情况下的AUROC分数,判断预测能力;所述AUROC分数越高,预测能力越好。具体参见图5,图5是本申请实施例提供的多沙唑嗪药效的AUROC评估图。如图5所示,向药效预测模型输入第一药效预测分数、生活习惯、全血细胞计数结果和血生化检查结果时,AUROC=0.594;向药效预测模型输入第一药效预测分数、生活习惯时,AUROC=0.577;向药效预测模型输入第一药效预测分数、全血细胞计数结果时,AUROC=0.552;向药效预测模型输入第一药效预测分数、血生化检查结果时,AUROC=0.521,向药效预测模型输入第一药效预测分数时,AUROC=0.495;可见输入药效预测模型的特征为第一药效预测分数和生活习惯、全血细胞计数结果和血生化检查结果时,即为所述目标特征集合时,所述药效预测模型的预测效果最好。
可见,在本示例中,结合了多源数据构建药效预测模型,提高了数据的表达能力,使得最终预测的结果更加有效、准确和可靠,能够满足个性化治疗的要求。
可以看出,本申请中,服务器首先获取第一关联关系数据集和第二关联关系数据集,第一关联关系数据集为单核苷酸多态性与暴露变量的关联关系数据的集合,暴露变量包括生活习惯和全血细胞计数结果以及血生化检查结果,第二关联关系数据集为单核苷酸多态性与结果变量的关联关系数据的集合,结果变量包括药物治疗效果数据;其次,根据第一关联关系数据集和第二关联关系数据集,得到目标暴露变量,目标暴露变量为暴露变量中与结果变量存在因果关系的至少一个暴露变量;以及,根据第二关联关系数据集,得到第一药效预测分数,第一药效预测分数为对在单核苷酸多态性的影响下的结果变量的评分;最后,根据目标暴露变量和第一药效预测分数以及结果变量,得到目标药效预测分数,目标药效预测分数为对在单核苷酸多态性和目标暴露变量的影响下的结果变量的评分。由于结合了多源数据构建药效预测模型,提高了数据的表达能力,使得最终预测的结果更加有效、准确和可靠,能够满足个性化治疗的要求。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,控制器为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
与上述所示的实施例一致的,请参阅图6,图6是本申请实施例提供的基于多源数据的药效预测装置的功能单元组成框图,如图6所示,所述基于多源数据的药效预测装置600包括:第一接收单元601,用于获取第一关联关系数据集和第二关联关系数据集,所述第一关联关系数据集为单核苷酸多态性与暴露变量的关联关系数据的集合,所述暴露变量包括生活习惯和全血细胞计数结果以及血生化检查结果,所述第二关联关系数据集为所述单核苷酸多态性与结果变量的关联关系数据的集合,所述结果变量包括药物治疗效果;第一处理单元602,用于根据所述第一关联关系数据集和所述第二关联关系数据集,得到目标暴露变量,所述目标暴露变量为所述暴露变量中与所述结果变量存在因果关系的至少一个所述暴露变量;以及根据所述第二关联关系数据集,得到第一药效预测分数,所述第一药效预测分数为对在所述单核苷酸多态性的影响下的所述结果变量的评分;第二处理单元603,用于根据所述目标暴露变量和所述第一药效预测分数以及所述结果变量,得到目标药效预测分数,所述目标药效预测分数为对在所述单核苷酸多态性和所述目标暴露变量的影响下的所述结果变量的评分。
在一个可能的实施例中,在所述根据所述第一关联关系数据集和所述第二关联关系数据集,得到目标暴露变量,所述目标暴露变量为所述暴露变量中与所述结果变量存在因果关系的至少一个暴露变量方面,所述第一处理单元602具体用于:对所述第一关联关系数据集和第二关联关系数据集进行第一预处理,得到目标第一关联关系数据集和目标第二关联关系数据集;对所述目标第一关联关系数据集和所述目标第二关联关系数据集进行匹配与整合操作,得到目标数据集合,所述目标数据集合中每个目标数据为一对一数据或一对多数据;对所述目标数据集合中每个目标数据进行因果关系分析,得到目标暴露变量。
在一个可能的实施例中,在所述对所述第一关联关系数据集和所述第二关联关系数据集进行第一预处理,得到目标第一关联关系数据集和目标第二关联关系数据集方面,所述第一处理单元602具体用于:将所述第一关联关系数据集和所述第二关联关系数据集转换为R语言所需的数据格式,得到初始第一关联关系数据集和所述目标第二关联关系数据集;获取预设的第一显著性阈值;根据所述初始第一关联关系数据集和所述第一显著性阈值,得到所述目标第一关联关系数据集,所述目标第一关联关系数据集中的所述单核苷酸多态性相互独立,且所述单核苷酸多态性的次要等位基因频率小于0.01。
在一个可能的实施例中,在所述对目标数据集合中每个目标数据进行因果关系分析,得到目标暴露变量方面,所述第一处理单元602具体用于:获取预设的第一预设条件和第二预设条件;对所述每个目标数据进行因果关系分析,将与所述结果变量具有因果关系的至少一个所述暴露变量确定为目标暴露变量,具体包括如下步骤:若所述目标数据为所述一对一数据,则将所述目标数据导入预设的孟德尔随机化模型,得到与所述目标数据的第一孟德尔随机化结果;若所述第一孟德尔随机化结果满足所述第一预设条件,则所述目标数据中的所述暴露变量与所述结果变量具有因果关系;若所述目标数据为所述一对多数据,则将所述目标数据导入预设的孟德尔随机化模型,得到与所述目标数据的多个第二孟德尔随机化结果;对所述多个第二孟德尔随机化结果进行荟萃分析,得到所述目标数据的荟萃分析结果;若所述多个第二孟德尔随机化结果和所述荟萃分析结果满足所述第二预设条件,则所述目标数据中的所述暴露变量与所述结果变量具有因果关系。
在一个可能的实施例中,在所述根据所述第二关联关系数据集,得到第一药效预测分数,所述第一药效预测分数为对在所述单核苷酸多态性的影响下的所述结果变量的评分方面,所述第一处理单元602具体用于:对所述第二关联关系数据集进行第二预处理,得到目标第三关联关系数据集;根据所述目标第三关联关系数据集计算所述单核苷酸多态性的分数;根据所述单核苷酸多态性的分数,得到所述第一药效预测分数。
在一个可能的实施例中,在所述对所述第二关联关系数据集进行第二预处理,得到目标第三关联关系数据集方面,所述第一处理单元602具体用于:将所述第二关联关系数据集转变为目标文件格式,得到初始第二关联关系数据集;获取参考基因型数据;根据所述参考基因型数据判断所述初始第二关联关系数据集中的每一个所述单核苷酸多态性是否准确;若是,则将所述初始第二关联关系数据集中准确的所述单核苷酸多态性与所述结果变量的关联关系确定为目标第三关联关系数据集。
在一个可能的实施例中,在所述根据所述目标暴露变量和所述第一药效预测分数以及所述结果变量,得到目标药效预测分数,所述目标药效预测分数为对在所述单核苷酸多态性和所述目标暴露变量的影响下的所述结果变量的评分方面,所述第二处理单元603具体用于:对所述目标暴露变量和所述第一药效预测分数进行整合,得到第一特征集合;获取预设的第二显著性阈值;将所述第一特征集合导入预设的逐步逻辑回归模型进行数据拟合,得到显著性小于所述第二显著性阈值的目标特征集合;获取所述结果变量;将所述目标特征集合和所述结果变量作为训练数据,通过网格搜索和交叉验证得到药效预测模型;将所述目标特征集合输入所述药效预测模型,得到目标药效预测分数。
可以理解的是,由于方法实施例与装置实施例为相同技术构思的不同呈现形式,因此,本申请中方法实施例部分的内容应同步适配于装置实施例部分,此处不再赘述。
在采用集成的单元的情况下,如图7所示,图7是本申请实施例提供的一种基于多源数据的第二药效预测装置的功能单元组成框图。在图7中,基于多源数据的第二药效预测装置710包括:处理模块712和通信模块711。处理模块712用于对基于多源数据的第二药效预测装置710的动作进行控制管理,例如,执行第一接收单元601,第一处理单元602和第二处理单元603的步骤,和/或用于执行本文所描述的技术的其它过程。通信模块711用于支持基于多源数据的第二药效预测装置710与其他设备之间的交互。如图7所示,基于多源数据的第二药效预测装置710还可以包括存储模块713,存储模块713用于存储基于多源数据的第二药效预测装置710的程序代码和数据。
其中,处理模块712可以是处理器或控制器,例如可以是中央处理器(CentralProcessing Unit,CPU),通用处理器,数字信号处理器(Digital Signal Processor,DSP),ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信模块711可以是收发器、RF电路或通信接口等。存储模块713可以是存储器。
其中,上述方法实施例涉及的各场景的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。上述基于多源数据的第二药效预测装置710均可执行上述图4所示的基于多源数据的药效预测方法。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
图8是本申请实施例提供的一种服务器的结构框图。如图8所示,第三服务器800可以包括一个或多个如下部件:第二处理器801、与第二处理器801耦合的第二存储器802,其中第二存储器802可存储有一个或多个计算机程序,一个或多个计算机程序可以被配置为由一个或多个第二处理器801执行时实现如上述各实施例描述的方法。所述第三服务器800可以是上述实施例中的服务器120。
第二处理器801可以包括一个或者多个处理核。第二处理器801利用各种接口和线路连接整个第三服务器800内的各个部分,通过运行或执行存储在第二存储器802内的指令、程序、代码集或指令集,以及调用存储在第二存储器802内的数据,执行第三服务器800的各种功能和处理数据。可选地,第二处理器801可以采用数字信号处理(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。第二处理器801可集成中央处理器(Central Processing Unit,CPU)、图像处理器(GraphicsProcessing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到第二处理器801中,单独通过一块通信芯片进行实现。
第二存储器802可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。第二存储器802可用于存储指令、程序、代码、代码集或指令集。第二存储器802可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等。存储数据区还可以存储第三服务器800在使用中所创建的数据等。
可以理解的是,第三服务器800可包括比上述结构框图中更多或更少的结构元件,在此不进行限定。本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序/指令,所述计算机程序/指令被处理器执行时实现任一项可能的实施例所述方法的步骤。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和系统,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
该作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、磁碟、光盘、易失性存储器或非易失性存储器。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random access memory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(directrambus RAM,DR RAM)等各种可以存储程序代码的介质。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,可轻易想到变化或替换,均可作各种更动与修改,包含上述不同功能、实施步骤的组合,包含软件和硬件的实施方式,均在本发明的保护范围。
Claims (10)
1.一种基于多源数据的药效预测方法,其特征在于,应用于服务器,所述方法包括:
获取第一关联关系数据集和第二关联关系数据集,所述第一关联关系数据集为单核苷酸多态性与暴露变量的关联关系数据的集合,所述暴露变量包括生活习惯和全血细胞计数结果以及血生化检查结果,所述第二关联关系数据集为所述单核苷酸多态性与结果变量的关联关系数据的集合,所述结果变量包括药物治疗效果;
根据所述第一关联关系数据集和所述第二关联关系数据集,得到目标暴露变量,所述目标暴露变量为所述暴露变量中与所述结果变量存在因果关系的至少一个所述暴露变量;
根据所述第二关联关系数据集,得到第一药效预测分数,所述第一药效预测分数为对在所述单核苷酸多态性的影响下的所述结果变量的评分;
根据所述目标暴露变量和所述第一药效预测分数以及所述结果变量,得到目标药效预测分数,所述目标药效预测分数为对在所述单核苷酸多态性和所述目标暴露变量的影响下的所述结果变量的评分。
2.根据权利要求1所述方法,其特征在于,所述根据所述第一关联关系数据集和所述第二关联关系数据集,得到目标暴露变量,包括:
对所述第一关联关系数据集和所述第二关联关系数据集进行第一预处理,得到目标第一关联关系数据集和目标第二关联关系数据集;
对所述目标第一关联关系数据集和所述目标第二关联关系数据集进行匹配与整合操作,得到目标数据集合,所述目标数据集合中每个目标数据为一对一数据或一对多数据;
对所述目标数据集合中每个目标数据进行因果关系分析,得到目标暴露变量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第二关联关系数据集,得到第一药效预测分数,包括:
对所述第二关联关系数据集进行第二预处理,得到目标第三关联关系数据集;
根据所述目标第三关联关系数据集计算所述单核苷酸多态性的分数;
根据所述单核苷酸多态性的分数,得到所述第一药效预测分数。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标暴露变量和所述第一药效预测分数以及所述结果变量,得到目标药效预测分数,包括:
对所述目标暴露变量和所述第一药效预测分数进行整合,得到第一特征集合;
获取预设的第二显著性阈值;
将所述第一特征集合导入预设的逐步逻辑回归模型进行数据拟合,得到显著性小于所述第二显著性阈值的目标特征集合;
将所述目标特征集合和所述结果变量作为训练数据,通过网格搜索和交叉验证得到药效预测模型;
将所述目标特征集合输入所述药效预测模型,得到目标药效预测分数。
5.根据权利要求2所述方法,其特征在于,所述对所述第一关联关系数据集和所述第二关联关系数据集进行第一预处理,得到目标第一关联关系数据集和目标第二关联关系数据集,包括:
将所述第一关联关系数据集和所述第二关联关系数据集转换为R语言所需的数据格式,得到初始第一关联关系数据集和所述目标第二关联关系数据集;
获取预设的第一显著性阈值;
根据所述初始第一关联关系数据集和所述第一显著性阈值,得到所述目标第一关联关系数据集,所述目标第一关联关系数据集中的所述单核苷酸多态性相互独立,且所述单核苷酸多态性的次要等位基因频率小于0.01。
6.根据权利要求2所述方法,其特征在于,所述对所述目标数据集合中每个目标数据进行因果关系分析,得到目标暴露变量,包括:
获取预设的第一预设条件和第二预设条件;
对所述每个目标数据进行因果关系分析,将与所述结果变量具有因果关系的至少一个所述暴露变量确定为目标暴露变量,具体包括如下步骤:
若所述目标数据为所述一对一数据,则将所述目标数据导入预设的孟德尔随机化模型,得到与所述目标数据的第一孟德尔随机化结果;若所述第一孟德尔随机化结果满足所述第一预设条件,则所述目标数据中的所述暴露变量与所述结果变量具有因果关系;
若所述目标数据为所述一对多数据,则将所述目标数据导入预设的孟德尔随机化模型,得到与所述目标数据的多个第二孟德尔随机化结果;对所述多个第二孟德尔随机化结果进行荟萃分析,得到所述目标数据的荟萃分析结果;若所述多个第二孟德尔随机化结果和所述荟萃分析结果满足所述第二预设条件,则所述目标数据中的所述暴露变量与所述结果变量具有因果关系。
7.根据权利要求3所述方法,其特征在于,所述对所述第二关联关系数据集进行第二预处理,得到目标第三关联关系数据集,包括:
将所述第二关联关系数据集转变为目标文件格式,得到初始第二关联关系数据集;
获取参考基因型数据;
根据所述参考基因型数据判断所述初始第二关联关系数据集中的每一个所述单核苷酸多态性是否准确;
若是,则将所述初始第二关联关系数据集中准确的所述单核苷酸多态性与所述结果变量的关联关系的数据集合确定为目标第三关联关系数据集。
8.一种服务器,其特征在于,包括处理器、存储器,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-7任一项所述的方法中的步骤的指令。
9.一种基于多源数据的药效预测装置,其特征在于,应用于服务器,所述装置包括:
第一接收单元,用于获取第一关联关系数据集和第二关联关系数据集,所述第一关联关系数据集为单核苷酸多态性与暴露变量的关联关系数据的集合,所述暴露变量包括生活习惯和全血细胞计数结果以及血生化检查结果,所述第二关联关系数据集为所述单核苷酸多态性与结果变量的关联关系数据的集合,所述结果变量包括药物治疗效果;
第一处理单元,用于根据所述第一关联关系数据集和所述第二关联关系数据集,得到目标暴露变量,所述目标暴露变量为所述暴露变量中与所述结果变量存在因果关系的至少一个所述暴露变量;以及根据所述第二关联关系数据集,得到第一药效预测分数,所述第一药效预测分数为对在所述单核苷酸多态性的影响下的所述结果变量的评分;
第二处理单元,用于根据所述目标暴露变量和所述第一药效预测分数以及所述结果变量,得到目标药效预测分数,所述目标药效预测分数为对在所述单核苷酸多态性和所述目标暴露变量的影响下的所述结果变量的评分。
10.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311240487.6A CN116994775B (zh) | 2023-09-25 | 2023-09-25 | 基于多源数据的药效预测方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311240487.6A CN116994775B (zh) | 2023-09-25 | 2023-09-25 | 基于多源数据的药效预测方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116994775A CN116994775A (zh) | 2023-11-03 |
CN116994775B true CN116994775B (zh) | 2023-12-01 |
Family
ID=88528687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311240487.6A Active CN116994775B (zh) | 2023-09-25 | 2023-09-25 | 基于多源数据的药效预测方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116994775B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112397174A (zh) * | 2019-10-31 | 2021-02-23 | 国家卫生健康委科学技术研究所 | 慢性病用药指导装置和方法 |
CN116312806A (zh) * | 2023-03-16 | 2023-06-23 | 深圳市雅士长华智能科技有限公司 | 跨人种生活习惯与疾病因果关系自动化推断方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013181256A2 (en) * | 2012-05-29 | 2013-12-05 | Assurerx Health, Inc. | Novel pharmacogene single nucleotide polymorphisms and methods of detecting same |
-
2023
- 2023-09-25 CN CN202311240487.6A patent/CN116994775B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112397174A (zh) * | 2019-10-31 | 2021-02-23 | 国家卫生健康委科学技术研究所 | 慢性病用药指导装置和方法 |
CN116312806A (zh) * | 2023-03-16 | 2023-06-23 | 深圳市雅士长华智能科技有限公司 | 跨人种生活习惯与疾病因果关系自动化推断方法及系统 |
Non-Patent Citations (2)
Title |
---|
Falsification of the instrumental variable conditions in Mendelian randomization studies in the UK Biobank;Kelly Guo et.al;European Journal of Epidemiology;921-927 * |
XPC基因单核苷酸多态性与肺癌相关性的研究进展;范晓凡;滕雪;智多;董梅;;中国药房;29(14);2007-2011 * |
Also Published As
Publication number | Publication date |
---|---|
CN116994775A (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10867702B2 (en) | Individual and cohort pharmacological phenotype prediction platform | |
Quazi | Artificial intelligence and machine learning in precision and genomic medicine | |
Stanaway et al. | The eMERGE genotype set of 83,717 subjects imputed to~ 40 million variants genome wide and association with the herpes zoster medical record phenotype | |
Li et al. | Decoding the genomics of abdominal aortic aneurysm | |
Margolin et al. | Systematic analysis of challenge-driven improvements in molecular prognostic models for breast cancer | |
Milanez-Almeida et al. | Cancer prognosis with shallow tumor RNA sequencing | |
Barbeira et al. | Fine‐mapping and QTL tissue‐sharing information improves the reliability of causal gene identification | |
Li et al. | Predicting regulatory variants with composite statistic | |
US20170277826A1 (en) | System, method and software for robust transcriptomic data analysis | |
US20170147743A1 (en) | Rapid identification of pharmacological targets and anti-targets for drug discovery and repurposing | |
EP3822974A1 (en) | Computational platform to identify therapeutic treatments for neurodevelopmental conditions | |
Markowitz et al. | Microbiome-associated human genetic variants impact phenome-wide disease risk | |
Hossain et al. | Application of skew-normal distribution for detecting differential expression to microRNA data | |
CN117936111A (zh) | 肝细胞癌预后评分模型构建方法、装置、设备及存储介质 | |
CN116994775B (zh) | 基于多源数据的药效预测方法及相关装置 | |
US20140089004A1 (en) | Patient cohort laboratory result prediction | |
Jin et al. | CellDrift: inferring perturbation responses in temporally sampled single-cell data | |
CN116543911A (zh) | 一种疾病风险预测模型训练方法及装置 | |
Warmerdam et al. | Idéfix: identifying accidental sample mix-ups in biobanks using polygenic scores | |
Jung et al. | Biomarker detection in association studies: modeling SNPs simultaneously via logistic ANOVA | |
Quillen et al. | Evaluation of estimated genetic values and their application to genome-wide investigation of systolic blood pressure | |
Ahmed et al. | Network centrality approaches used to uncover and classify most influential nodes with their related miRNAs in cardiovascular diseases | |
Seffernick et al. | High-dimensional genomic feature selection with the ordered stereotype logit model | |
Wang et al. | A comprehensive investigation of statistical and machine learning approaches for predicting complex human diseases on genomic variants | |
US20230253115A1 (en) | Methods and systems for predicting in-vivo response to drug therapies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |