CN108172296A - 一种数据库的建立方法和遗传疾病的风险预测方法 - Google Patents

一种数据库的建立方法和遗传疾病的风险预测方法 Download PDF

Info

Publication number
CN108172296A
CN108172296A CN201810065335.XA CN201810065335A CN108172296A CN 108172296 A CN108172296 A CN 108172296A CN 201810065335 A CN201810065335 A CN 201810065335A CN 108172296 A CN108172296 A CN 108172296A
Authority
CN
China
Prior art keywords
data
database
risk
genetic disease
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810065335.XA
Other languages
English (en)
Inventor
王东梅
李奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI GENMINIX INFORMATICS CO Ltd
Original Assignee
SHANGHAI GENMINIX INFORMATICS CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI GENMINIX INFORMATICS CO Ltd filed Critical SHANGHAI GENMINIX INFORMATICS CO Ltd
Priority to CN201810065335.XA priority Critical patent/CN108172296A/zh
Publication of CN108172296A publication Critical patent/CN108172296A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种数据库的建立方法和遗传疾病的风险预测方法,包括,基于第一数据和第二数据建立第一数据库;根据所述第一数据库中的第一属性对所述第一数据库进行分类,选择分类后的第三数据;将所述第二数据与所述第三数据合并,生成整合数据;根据所述整合数据建立第二数据库。本发明的一种数据库的建立方法和遗传疾病的风险预测方法构建了遗传疾病变异数据库,并基于所述遗传疾病变异数据库结合加权GRS方法和贝叶斯公式构建了遗传疾病的风险预测的方法,使得所述遗传疾病变异数据库的记录的信息和文字标准化的同时,实现对遗传疾病的风险的准确预测。

Description

一种数据库的建立方法和遗传疾病的风险预测方法
技术领域
本发明涉及一种生物技术领域,尤其涉及一种数据库的建立方法和遗传疾病的风险预测方法。
背景技术
目前,复杂疾病,如:胃癌、结肠癌等疾病的遗传不遵循孟德尔遗传模式,其发生受多个微效基因及环境因素的影响。复杂疾病在全球范围内广泛流行,严重危害人类的健康,人们迫切希望从根本上找到这些疾病的发病机理,为疾病的诊断、治疗及预防提供基础和保障。过去十年,随着高通量分子检测技术的发展,已经发现了很多疾病相关基因变异位点,尤其是全基因组关联研究(GWAS)技术的发展,加快了人类常见复杂疾病的研究步伐,发现了很多疾病相关的风险位点(SNP),这些信息的发现为预测疾病风险提供了一种可能。通过预测疾病风险,可以提前预警,督促改变(如:生活方式改变),为个性化医疗,个性化健康管理提供了一种策略。从长远角度看,个性化医疗通过更精确的诊断,预测潜在疾病的风险,提供更有效、更有针对性的治疗,预防某种疾病的发生,防患于未然比“治有病”更节约治疗成本。
GWAS被广泛应用于复杂疾病的遗传学研究并取得了一系列成果,但是GWAS的位点信息很多都是通过文献获得,所以,构建一个信息比较全面的复杂疾病数据GWAS数据库尤其显得重要。目前,收集整理GWAS信息的数据库最主有Clinvar和GWAS,Clinvar是一个公开的数据库,其中收集了与疾病相关的遗传变异,包含GWAS中部分重要位点信息。GWAS数据库中收集了与疾病相关的遗传变异。尽管这些数据库收集了大量的疾病相关的位点信息,但是这些信息来源多样,包含着大量的噪音,不能直接用于疾病风险的预测,因为:1,疾病名称没有标准化,由于来源于不同的文献,很多是人工收集,所以,即使是同一种表型,其命名方式也多种多样。2,重要信息不全,数据库信息不全,如进行风险预测的时,需要确定风险等位基因型和OR值。所以,我们对Clinvar数据的疾病名称进行标准化,并对Clinvar数据库中的重要信息进行补充,构建了本地复杂疾病数据库。
复杂疾病GWAS构建好以后,GWAS还面临着一些挑战,比如:复杂疾病相关基因位点数目众多,每一个位点所起到的作用大小不同。GRS(Genetic risk score,遗传风险评分)能整合多个SNPs的综合信息来评价基因序列变异和疾病之间的联系。GRS的构建基于多基因模型,假定疾病的遗传效应等于各个位点的效应之和,算法分两种:简单的GRS和加权的GRS。其中加权GRS更接近于真实事实,该算法认为每个风险等位基因对疾病的影响不同,通过给每个风险等位基因赋予一个相应的权重来显示不同SNPs对疾病的影响程度不同。
鉴于此,目前,还没有很好的信息比较全面的复杂疾病变异数据库,没有针对遗传风险评估方法。
针对现有技术中所存在的问题,提供一种数据库的建立方法和遗传疾病的风险预测方法具有重要意义。
发明内容
为解决上述问题,本发明提供一种数据库的建立方法和遗传疾病的风险预测方法。
为实现上述目的,本发明的一种数据库的建立方法,基于第一数据和第二数据建立第一数据库;根据所述第一数据库中的第一属性对所述第一数据库进行分类,选择分类后的第三数据;将所述第二数据与所述第三数据合并,生成整合数据;根据所述整合数据建立第二数据库;
进一步地,将所述第二数据与所述第三数据合并,生成整合数据之后,还包括:补充所述整合数据中的缺失数据;
进一步地,基于第一数据和第二数据建立第一数据库之后,还包括:对所述第一数据和第二数据进行正则化;
进一步地,所述正则化具体为,用python的正则表达式和文本处理包对数据进行正则化;
进一步地,所述数据库为一种遗传疾病变异数据库,所述第一数据为Clinvar数据,所述第二数据为GWAS数据,所述方法包括:基于Clinvar数据和GWAS数据建立第一数据库;对所述Clinvar数据和所述GWAS数据进行正则化;根据所述Clinvar数据库中的Clinical significance属性对所述第一数据库进行分类,选择分类后的GWAS,riskfactor和protective三类数据作为第三数据;对所述第三数据进行正则化;将所述GWAS数据与所述第三数据合并,生成整合数据;补充所述整合数据中的缺失数据;根据所述整合数据建立所述遗传疾病变异数据库;
本发明还提供了一种遗传疾病的风险预测方法,所述方法基于遗传疾病变异数据库,所述方法包括:筛选风险SNP位点,并获取所述遗传疾病变异数据库中SNP位点集合信息;计算样本的遗传疾病的风险值;
进一步地,所述计算样本的遗传疾病的风险值之后,还包括:用实际数据对计算结果进行评估;
进一步地,所述计算样本的遗传疾病的风险值,具体为:
所述a为疾病的发病率;所述s为基因名称;所述OR为每个SNP位点的比值比;所述WORi(s,OR)为每个SNP位点加权后的比值比;所述为样本的遗传疾病的风险值。
本发明的一种数据库的建立方法和遗传疾病的风险预测方法构建了遗传疾病变异数据库,并基于所述遗传疾病变异数据库结合加权GRS方法和贝叶斯公式构建了遗传疾病的风险预测的方法,使得所述遗传疾病变异数据库的记录的信息和文字标准化的同时,实现对遗传疾病的风险的准确预测。
附图说明
图1为本发明所述数据库的建立方法的流程示意图;
图2为本发明所述遗传疾病的风险预测方法的流程示意图。
具体实施方式
下面,结合附图,对本发明的结构以及工作原理等作进一步的说明。
如图1所示,图1为本发明所述数据库的建立方法的流程示意图,包括:S1基于第一数据和第二数据建立第一数据库;通常地,用mysql基于第一数据和第二数据建立第一数据库。
S2对所述第一数据和第二数据进行正则化;
S3根据所述第一数据库中的第一属性对所述第一数据库进行分类,选择分类后的第三数据;
S4将所述第二数据与所述第三数据合并,生成整合数据;
S5补充所述整合数据中的缺失数据;
在本发明优选的实施例中,所述正则化具体为用python的正则表达式和文本处理包对数据进行正则化。正则表达式是用于处理字符串的工具,通常地,正则表达式的匹配过程是:拿出表达式和文本中的字符比较,若每一个字符都能匹配,则匹配成功;若存在匹配不成功的字符则匹配失败。Python作为一种面向对象的解释型计算机程序设计语言,提供正则表达式模式,并拥有全部的正则表达式功能。Python通过re模块提供对正则表达式的支持。所述文本处理包(Natural Language Toolkit)为在NLP领域中,最常使用的Python库。因此,用所述python的正则表达式和文本处理包能够实现对数据的正则化及标准化。
在本发明的实施例一中,所述数据库的建立方法具体为一种遗传疾病变异数据库的建立方法,所述第一数据为Clinvar数据,所述第二数据为GWAS数据,所述Clinvar是一个以美国医学遗传学与基因组学学会(ACMG),临床药物基因组学实施联盟(CPIC)等为依据的公开的数据库,其中收集了与疾病相关的遗传变异,所述Clinvar数据即为所述Clinvar数据库中的原始数据,所述Clinvar数据库中的原始数据可以通过NCBI下载得到。所述GWAS即全基因组关联分析,是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与疾病相关的SNPs,所述GWAS数据即为GWAS的原始数据,所述GWAS的原始数据可以从GWAS的官网下载得到。所述遗传疾病变异数据库的建立方法具体为:
用mysql基于Clinvar数据和GWAS数据建立第一数据库;解析所述Clinvar数据文本和所述GWAS数据文本,并用python的正则表达式和文本处理包,对所述Clinvar数据和所述GWAS数据进行正则化;所述Clinvar数据作为Clinvar的原始数据,以每个变异作为行记录单元,所以,每行会出现一种变异对应多种表型、疾病的列表,多种临床显著性,即(1个)snp对应(1个或多个)表型对应(1个或多个)临床显著性,在用python的正则表达式和文本处理包进行正则化后,处理成,(1个)snp对应(1个)表型对应(1个)临床显著性。所述GWAS数据的内容中,许多都是自然语言,是非结构化的内容,不易后续的使用,所以,需要对其内容进行规范,因此需要用python的正则表达式和文本处理包对所述GWAS数据进行正则化后,使所述GWAS数据规范化。
根据所述Clinvar数据库中的Clinical significance属性对所述第一数据库进行分类,所述分类后共有9类,分别是Mendelian disorders、Drug response、GWAS、riskfactor、protective、non-disease phenotype、conflict、other、not provided,选择分类后的GWAS,risk factor和protective这三类数据作为第三数据,作为遗传疾病变异数据库的数据源之一。
将所述GWAS数据与所述第三数据合并,生成整合数据。
补充所述整合数据中的缺失数据;根据所述整合数据建立所述遗传疾病变异数据库;在GWAS官网中下载的数据很多都是人工整理的,所以下载数据内容都不全,需要将缺失的数据补充完成。
如图2所示,图2为本发明所述遗传疾病的风险预测方法的流程示意图,本发明还提供了一种遗传疾病的风险预测方法,所述方法基于遗传疾病变异数据库,所述方法包括:
T1筛选风险SNP位点,并获取所述遗传疾病变异数据库中SNP位点集合信息;
T2计算样本的遗传疾病的风险值;
T3用实际数据对所述遗传疾病的风险预测的方法进行评估;
所述计算样本的遗传疾病的风险值,具体为:
所述a为疾病的发病率;所述s为基因名称;所述OR为每个SNP位点的比值比;所述WORi(s,OR)为每个SNP位点加权后的比值比;所述为样本的遗传疾病的风险值。
其中,所述WOR的计算方法,具体为:
所述WORi(s,OR)表示不同情况下的权重后的OR值;所述s为基因名称;所述OR为每个SNP位点的比值比;所述为基因上的SNP加权后的OR值。
其中,所述的计算方法,具体为:
所述为基因上的SNP加权后的OR值,所述P(rs,Nrs)为相同的SNP-phenotype在不同文献中同时出现的次数,所述W(s,Ns)为根据相同的Gene-Phenotype在不同文献中同时出现的次数,确定加权程度,如果文献数目小于10,则W(s,Ns)=1,若所述文献数目大于10,则W(s,Ns)=2,所述OR为每个SNP位点的比值比,所述dwOR为根据自有样本库计算出的OR值;所述自有样本库为根据本公式收集的一些已知临床表型的中国人实测样本,计算dwOR值,将这一值作为加权项,并且可以随着收集的样本量不断调整dwOR值。
其中W(s,Ns)的具体计算方法解释为,所述Gene-Phenotype为根据文献挖掘所构建的数据库,计算变异所属的基因是否在整个pubmed文献中有多篇报道。若有多篇文献报道,则说明该基因对某一表型起更重要的作用,该基因上发生SNP则影响更大,权重也加大。
其中P(rs,Nrs)的具体计算方法解释为,SNP-phenotype为若某一SNP被多篇GWAS文献报道与某一疾病,表型相关,则说明该位点与疾病的关系更可信,所以,相对于文献报道数少的,某一SNP被多篇文献报道,所加的权重更大;
其中,所述dwOR的具体计算方法为:
所述naa,maa为基因型(genotype)是aa,在疾病组和对照组的样本数量;
所述nab,mab为基因型是ab,在疾病组和对照组的样本数量;
所述nbb,mbb为基因型是bb,在疾病组和对照组的样本数量;
所述dwOR为根据自有样本库计算出的OR值,具体为,根据某一疾病的样本和正常样本计算出的OR值,当OR>1时,则表示该因素是一个危险因素,当OR<1时,则表示该因素是一个保护因素。
其中,所述P(a,n,m)的具体计算方法为:
所述naa,maa为基因型是aa,在疾病组和对照组的样本数量;
所述nab,mab为基因型是ab,在疾病组和对照组的样本数量;
所述nbb,mbb为基因型是bb,在疾病组和对照组的样本数量;
所述P(a,n,m)为每种基因型在疾病组和对照组的分布频率之比。
在本发明的技术方案中,所述用实际数据对计算结果进行评估具体为通过对GSR算法进行测试,计算预测的准确性;在预测结果中,样本输入本身带有标签,阳性(positive)或阴性(negative),GSR算法会对每个样本重新分类为阳性或阴性,如果分类结果为阳性且和输入样本标签一致,称为真阳性(Truepositive,TP),如不一致,称为假阳性(Falsepositive,FP);如分类结果为阴性且与输入时标签一致,称为真阴性(Truenegative,TN),不一致则成为假阴性(Falsenegative,FN)。通常地,衡量算法性能的参数基于四个常用的评估指标:准确率,特异性,灵敏性和马修斯相关系数。
其中,所述准确率(Accuracy)为结果中正确预测结果的比例,包括真阳性和真阴性,所述准确率的计算方法为:
所述特异性(Specificity)为得出阴性检验结果的阴性样本占所有阴性样本的比例,所述特异性的计算方法为:
所述灵敏性(Sensitivity)为得出阳性检验结果的阳性样本占所有阳性样本的比例。灵敏性越高,表示检出阳性样本的能力越强,所述灵敏性的计算方法为:
所述马修斯相关系数(Matthews correlation coefficient,MCC)是预测结果和观察结果间的相关性,其取值范围是-1到1,MCC越大,预测性能越好,所述马修斯相关系数的计算方法为:
在本发明的实施例一中,需要检测遗传疾病变异数据库中亚洲人群胃癌的风险,则选取所述遗传疾病变异数据库数据库中亚洲人群的胃癌风险SNP位点,构造sample1,如表1所述:
将表1中的数据代入公式计算可得在预设的评判标准中,GRS>0.997为高风险,因此可以推断该数据库的样本数据中,表2中的样本是胃癌发生的高风险样本。
计算结果如表2所示:
snp_id risk OR pubmed genotype sample score GRS
2294008 T 1.6011111 18488030 1/1 1 3.2022222 0.999124
2976392 A 1.6317167 18488030 1/1 1 3.2634333 0.99914
2920297 G 1.3263245 26701879 1/1 1 2.652649 0.998943
1045531 A 1.5203108 18488030 1/1 1 3.0406215 0.999077
10216533 A 1.5263245 18488030 1/1 1 3.052649 0.999081
2976395 A 1.5263245 18488030 1/1 1 3.052649 0.999081
接下来,用实际数据对所述遗传疾病的风险预测的方法的计算结果进行评估,对30例胃癌样本和203例正常样本进行计算,根据GRS的风险预测结果和实际样本的病理学检测结果进行比较,结果如下表所示:
actual positive actual negative
predicted positive 26 9
predicted negative 4 194
可知,TP为26,TN为194,FP为4,FN为9。
将结果代入公式中可得准确性为,Accuracy=0.994;
代入公式,中可得特异性为,Specificity=0.956;
代入公式,中可得灵敏性为,Sensitivity=0.867;
代入公式,中可得马修斯相关系数为,MCC=0.771;
因此,综合结合准确性、特异性、灵敏性和修斯相关系数这四个数值的计算结果来看,准确率为高。
以上,仅为本发明的示意性描述,本领域技术人员应该知道,在不偏离本发明的工作原理的基础上,可以对本发明作出多种改进,这均属于本发明的保护范围。

Claims (8)

1.一种数据库的建立方法,其特征在于,包括:
基于第一数据和第二数据建立第一数据库;
根据所述第一数据库中的第一属性对所述第一数据库进行分类,选择分类后的第三数据;
将所述第二数据与所述第三数据合并,生成整合数据;
根据所述整合数据建立第二数据库。
2.如权利要求1所述的数据库的建立方法,其特征在于,将所述第二数据与所述第三数据合并,生成整合数据之后,还包括:补充所述整合数据中的缺失数据。
3.如权利要求1所述的数据库的建立方法,其特征在于,基于第一数据和第二数据建立第一数据库之后,还包括:对所述第一数据和第二数据进行正则化。
4.如权利要求2和3所述的数据库的建立方法,其特征在于,所述正则化具体为,用python的正则表达式和文本处理包对数据进行正则化。
5.如权利要求2和3所述的数据库的建立方法,其特征在于,所述数据库为一种遗传疾病变异数据库,所述第一数据为Clinvar数据,所述第二数据为GWAS数据,所述方法包括:
基于Clinvar数据和GWAS数据建立第一数据库;
对所述Clinvar数据和所述GWAS数据进行正则化;
根据所述Clinvar数据库中的Clinical significance属性对所述第一数据库进行分类,选择分类后的GWAS,risk factor和protective三类数据作为第三数据;
对所述第三数据进行正则化;
将所述GWAS数据与所述第三数据合并,生成整合数据;
补充所述整合数据中的缺失数据;
根据所述整合数据建立所述遗传疾病变异数据库。
6.一种遗传疾病的风险预测方法,其特征在于,所述方法基于遗传疾病变异数据库,所述方法包括:
筛选风险SNP位点,并获取所述遗传疾病变异数据库中SNP位点集合信息;
计算样本的遗传疾病的风险值。
7.如权利要求6所述的遗传疾病的风险预测的方法,其特征在于,所述计算样本的遗传疾病的风险值之后,还包括:用实际数据对计算结果进行评估。
8.如权利要求6所述的遗传疾病的风险预测的方法,其特征在于,所述计算样本的遗传疾病的风险值,具体为:所述a为疾病的发病率;所述s为基因名称;所述OR为每个SNP位点的比值比;所述WORi(s,OR)为每个SNP位点加权后的比值比;所述为样本的遗传疾病的风险值。
CN201810065335.XA 2018-01-23 2018-01-23 一种数据库的建立方法和遗传疾病的风险预测方法 Pending CN108172296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810065335.XA CN108172296A (zh) 2018-01-23 2018-01-23 一种数据库的建立方法和遗传疾病的风险预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810065335.XA CN108172296A (zh) 2018-01-23 2018-01-23 一种数据库的建立方法和遗传疾病的风险预测方法

Publications (1)

Publication Number Publication Date
CN108172296A true CN108172296A (zh) 2018-06-15

Family

ID=62515792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810065335.XA Pending CN108172296A (zh) 2018-01-23 2018-01-23 一种数据库的建立方法和遗传疾病的风险预测方法

Country Status (1)

Country Link
CN (1) CN108172296A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354464A (zh) * 2018-12-24 2020-06-30 深圳先进技术研究院 Cad预测模型建立方法、装置以及电子设备
CN111816303A (zh) * 2020-07-08 2020-10-23 深圳承启生物科技有限公司 一种基于机器学习的难治性精神分裂症风险的预测方法
CN112768079A (zh) * 2021-01-24 2021-05-07 武汉东湖大数据交易中心股份有限公司 一种基于机器学习的肝病认知模型构建方法和系统
CN111354464B (zh) * 2018-12-24 2024-05-17 深圳先进技术研究院 Cad预测模型建立方法、装置以及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866732A (zh) * 2014-02-21 2015-08-26 北京协力润华科技有限责任公司 基于单核苷酸多态性和逻辑回归模型计算肺癌发病率的方法及其应用
CN105740243A (zh) * 2014-12-08 2016-07-06 深圳华大基因研究院 生物信息数据库的构建方法和装置
US20160215341A1 (en) * 2013-08-30 2016-07-28 Gendiag.Exe, S.L. Risk markers for cardiovascular disease in patients with chronic kidney disease
CN106636398A (zh) * 2016-12-21 2017-05-10 哈尔滨工业大学 一种改进的阿尔茨海默病发病风险预测方法
CN107169310A (zh) * 2017-03-20 2017-09-15 上海基银生物科技有限公司 一种基因检测知识库构建方法及系统
CN107247863A (zh) * 2017-04-18 2017-10-13 北京水母科技有限公司 整合高通量基因分型与临床医学信息的生物医学本体集成方法
CN107256323A (zh) * 2016-09-05 2017-10-17 云健康基因科技(上海)有限公司 一种ⅱ型糖尿病风险评估模型的构建方法和构建系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160215341A1 (en) * 2013-08-30 2016-07-28 Gendiag.Exe, S.L. Risk markers for cardiovascular disease in patients with chronic kidney disease
CN104866732A (zh) * 2014-02-21 2015-08-26 北京协力润华科技有限责任公司 基于单核苷酸多态性和逻辑回归模型计算肺癌发病率的方法及其应用
CN105740243A (zh) * 2014-12-08 2016-07-06 深圳华大基因研究院 生物信息数据库的构建方法和装置
CN107256323A (zh) * 2016-09-05 2017-10-17 云健康基因科技(上海)有限公司 一种ⅱ型糖尿病风险评估模型的构建方法和构建系统
CN106636398A (zh) * 2016-12-21 2017-05-10 哈尔滨工业大学 一种改进的阿尔茨海默病发病风险预测方法
CN107169310A (zh) * 2017-03-20 2017-09-15 上海基银生物科技有限公司 一种基因检测知识库构建方法及系统
CN107247863A (zh) * 2017-04-18 2017-10-13 北京水母科技有限公司 整合高通量基因分型与临床医学信息的生物医学本体集成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUEYUAN ZHENG ET AL: "m6AVar: a database of functional variants involved in m6A modification", 《NUCLEIC ACIDS RESEARCH》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354464A (zh) * 2018-12-24 2020-06-30 深圳先进技术研究院 Cad预测模型建立方法、装置以及电子设备
CN111354464B (zh) * 2018-12-24 2024-05-17 深圳先进技术研究院 Cad预测模型建立方法、装置以及电子设备
CN111816303A (zh) * 2020-07-08 2020-10-23 深圳承启生物科技有限公司 一种基于机器学习的难治性精神分裂症风险的预测方法
CN111816303B (zh) * 2020-07-08 2024-03-29 深圳承启生物科技有限公司 一种基于机器学习的难治性精神分裂症风险的预测方法
CN112768079A (zh) * 2021-01-24 2021-05-07 武汉东湖大数据交易中心股份有限公司 一种基于机器学习的肝病认知模型构建方法和系统

Similar Documents

Publication Publication Date Title
US11538551B2 (en) Discovering population structure from patterns of identity-by-descent
US7653491B2 (en) Computer systems and methods for subdividing a complex disease into component diseases
Kruppa et al. Risk estimation and risk prediction using machine-learning methods
Garrick et al. Implementing a QTL detection study (GWAS) using genomic prediction methodology
CN105229649B (zh) 用于疾病关联的人类基因组变异分析和报告的系统及方法
US20030171878A1 (en) Methods for the identification of genetic features for complex genetics classifiers
US20050216208A1 (en) Diagnostic decision support system and method of diagnostic decision support
CN106971071A (zh) 一种临床决策支持系统及方法
US20210257060A1 (en) Filtering genetic networks to discover populations of interest
CN101845501A (zh) 一种复杂疾病易感性综合遗传分析方法
Li et al. Estimation of quantitative trait locus effects with epistasis by variational Bayes algorithms
KR20180116309A (ko) 비정상적인 핵형을 검출하기 위한 방법 및 시스템
CN105279369A (zh) 一种基于二代测序的冠心病遗传风险评估方法
CN108256293A (zh) 一种疾病关联基因组合的统计方法及系统
US20150025861A1 (en) Genetic screening computing systems and methods
Bjelland et al. A fast and accurate method for detection of IBD shared haplotypes in genome-wide SNP data
CN105404793A (zh) 基于概率框架和重测序技术快速发现表型相关基因的方法
Miar et al. A comparison of different algorithms for phasing haplotypes using Holstein cattle genotypes and pedigree data
Jung et al. A novel fuzzy set based multifactor dimensionality reduction method for detecting gene–gene interaction
CN108172296A (zh) 一种数据库的建立方法和遗传疾病的风险预测方法
Adeyemo et al. Predicting genetic variance from genomewide marker effects estimated from a diverse panel of maize inbreds
Ayers et al. Identification of grouped rare and common variants via penalized logistic regression
KR20180069651A (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
US9965584B2 (en) Identifying interacting DNA loci using a contingency table, classification rules and statistical significance
Hassan et al. Integrated rules classifier for predicting pathogenic non-synonymous single nucleotide variants in human

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180615

WD01 Invention patent application deemed withdrawn after publication