CN110111890A - 一种基于基因测序技术的个体精准养生方法 - Google Patents

一种基于基因测序技术的个体精准养生方法 Download PDF

Info

Publication number
CN110111890A
CN110111890A CN201910245888.8A CN201910245888A CN110111890A CN 110111890 A CN110111890 A CN 110111890A CN 201910245888 A CN201910245888 A CN 201910245888A CN 110111890 A CN110111890 A CN 110111890A
Authority
CN
China
Prior art keywords
disease
individual
variation
health
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910245888.8A
Other languages
English (en)
Inventor
李明定
马云龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Gaoliubo Biotechnology Co Ltd
Original Assignee
Hangzhou Gaoliubo Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Gaoliubo Biotechnology Co Ltd filed Critical Hangzhou Gaoliubo Biotechnology Co Ltd
Priority to CN201910245888.8A priority Critical patent/CN110111890A/zh
Publication of CN110111890A publication Critical patent/CN110111890A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明的目的在于提供一种基于基因测序技术的个体精准养生方法。为到达上述目的,本发明所采用的技术方案为:一种基于基因测序技术的个体精准养生方法,包括下列步骤:(1)对个体进行全基因测序得到个体全部遗传突变信息;(2)构建遗传突变信息数据库;(3)根据步骤(1)得到的个体全部遗传突变信息和步骤(2)构建的数据库对比,分析预测个体健康的变化趋势;(4)根据步骤(3)分析预测个体的变化趋势采取积极主动的养生措施行为。本发明利用全基因组测序技术可以得到个体全部遗传突变信息,再结合数据库信息,通过综合分析所收集到的信息,筛选有效的致病遗传变异,明确变异导致的生理学变化和潜在的结果。具有时间上超前,行为上主动,措施效果上精准。

Description

一种基于基因测序技术的个体精准养生方法
技术领域
本发明属于保健养生技术领域,尤其涉及一种基于基因测序技术的个体精准养生方法。
背景技术
养生方法的选择和中医的辨证施治一样,每个人的养生方法不尽相同。如何选择合理合适的养生方法,对有效改善身体健康状况很有帮助。一般保健养生是基于保健养生知识的推广或依靠常规临床医学健康指标表征采取的养生措施行为,具有时间上滞后,行为上被动,措施上普适特性。
多年研究证明许多疾病都是由环境因素与遗传因素共同诱发的,其中,遗传诱因涉及到大量异常突变位点导致的基因功能异常。尤其是在肿瘤中,基因突变是肿瘤发生发展的最主要驱动因素。由于基因突变对疾病发生起到重要作用,从长远来看,可以通过鉴定突变使我们有可能使用纠正突变的基因疗法或加大外界干预消除这些突变的生物学效应。因此,找寻及鉴定相关疾病的致病基因及其突变位点不仅是了解、阐明疾病发病的必须途径,而且也是建立个体精准养生方法的先决条件。
随着二代测序技术的进一步发展,以及大数据分析技术的不断革新,使我们能够快速有效地研究并定位出大量与疾病相关的遗传变异。目前,全世界数以万计的科研人员正在不断分析挖掘与人类疾病相关的遗传变异,并对这些遗传变异进行临床上和实验上的功能验证,研究这些遗传变异所导致的生理学变化以及引发疾病的机制。
目前虽然已经有大量的各类疾病相关的遗传变异被报道并提交到公共数据库,但都没有经过全面的总结和分类,还不能为疾病的预防诊断治疗提供有效的参考依据。如何合理挖掘并注释这些大规模及复杂高维度的数据,是当前生物信息学分析的关键。因此,有必要从海量数据库中挖掘出感兴趣疾病相关的基因及遗传变异,作为个体患病风险的预测依据。
发明内容
本发明的目的在于提供一种具有时间上超前,行为上主动,措施效果上精准的基于基因测序技术的个体精准养生方法。
为到达上述目的,本发明所采用的技术方案为:
一种基于基因测序技术的个体精准养生方法,包括下列步骤:
(1)对个体进行全基因测序得到个体全部遗传突变信息;
(2)构建遗传突变信息数据库;
(3)根据步骤(1)得到的个体全部遗传突变信息和步骤(2)构建的数据库对比,分析预测个体健康的变化趋势;
(4)根据步骤(3)分析预测个体的变化趋势采取积极主动的养生措施行为。
优选地,所述的步骤(1)中的全基因测序为:
A.全基因二代测序:使用Covaris仪器对DNA样本进行随机打断,末端补平并加接头,150bp文库构建过程中采用磁珠进行目的片段的筛选,进行cluster制备,最后使用Illumina HiSeq X Ten测序,得到测序原始数据;
B.下机原始数据的质控:利用FastQC软件进行包括测序质量、接头、序列重复水平等多项质控指标的检测,然后使用Trimmomatic等软件去除低质量的Reads、切去接头和低质量序列,得到测序质控数据;
C.序列比对:利用BWA进行片段比对和拼接,包括测序片段覆盖倍数的估计,重复片段标记,将比对到Indel附近的Reads进行局部重新比对,将比对的错误率降到最低,以及将bam文件中Read的碱基质量值进行重新校正,使最后输出的bam文件中Reads中碱基的质量值能够更加接近真实的与参考基因组之间错配的概率;
D.突变位点提取:利用GATK软件中HaplotypeCaller对完成比对的序列进行遗传突变位点提取,包括SNP和Indel两种突变类型,再利用VQSR方法对原始变异检测结果进行过滤,得到高质量检测到遗传突变并保存在VCF文件中。
优选地,所述的步骤(2)中构建遗传突变信息数据库为:
I.确定数据库包含的疾病,找出所有描述该病的关键词作为检索词,在ClinVar数据库以及GWAS-catalog数据库中,通过程序语言编写脚本搜索并提取与该疾病有关的所有易感基因和遗传变异;
II.数据筛选和分类:根据ClinVar中关于每个遗传变异的相关信息筛选易感致病的SNP,并根据多年来遗传研究结果对所有变异进行可靠性分类,根据GWAS-catalog中变异的P-value值以及发表文章报道的人群等信息对变异进行筛选,阅读遗传变异的相关文献以及参考其他数据库中该变异的描述,筛选出有效的致病遗传变异;
III.整理汇总收集的数据,形成疾病的基因panel,以及该panel所包含的所有有效遗传变异信息,用MySQL构建本地数据库。
优选地,所述的疾病包括乳腺癌、卵巢癌、肺癌、结肠直肠癌、白血病、胃癌、前列腺癌、食道癌、肥胖症、糖尿病、高血脂、高血压、冠心病、类风湿性关节炎、白内障、阿尔兹海默症、帕金森氏症、抑郁症、精神分裂症、抽烟成瘾、酒精成瘾和海洛因成瘾。
优选地,所述的步骤(3)中分析预测个体健康的变化趋势为:
利用全基因组测序技术和生物信息分析技术找出个体所包含的疾病相关遗传变异,根据确定好的基因panel以及遗传变异数据库,利用以下公式计算出每一个SNP对疾病的患病风险(Pr(D|Gm)):
Pr(D):某个特定的疾病在特定的人群或种族中的发病率
ORn:某个特定的SNP位点与特定疾病之间的相关性
Pr(D|Gm):一个特定基因型下的该种疾病发病率
再联立以下公式计算疾病患病风险:
odds(X)=Pr(X)/(1-Pr(X))
本发明利用全基因组测序技术可以得到个体全部遗传突变信息,再结合数据库信息,通过综合分析所收集到的信息,筛选有效的致病遗传变异,明确变异导致的生理学变化,作为疾病发生的医学解释,具有时间上超前,行为上主动,措施效果上精准。同时,我们会不断地更新数据库,以增加个体患病风险预测的准确性。因此,本发明的目的在于通过全基因组测序技术检测,并结合权威疾病易感或致病突变数据库进行风险评估,为个体养生提供精准有效的方案。
具体实施方式
以下结合具体实施例对本发明做进一步详细说明。
全基因组测序:
A.全基因二代测序:使用Covaris仪器对DNA样本进行随机打断,末端补平并加接头,150bp文库构建过程中采用磁珠进行目的片段的筛选,进行cluster制备,最后使用Illumina HiSeq X Ten测序,得到测序原始数据;
B.下机原始数据的质控:利用FastQC软件进行包括测序质量、接头、序列重复水平等多项质控指标的检测,然后使用Trimmomatic等软件去除低质量的Reads、切去接头和低质量序列,得到测序质控数据;
C.序列比对:利用BWA进行片段比对和拼接,包括测序片段覆盖倍数的估计,重复片段标记,将比对到Indel附近的Reads进行局部重新比对,将比对的错误率降到最低,以及将bam文件中Read的碱基质量值进行重新校正,使最后输出的bam文件中Reads中碱基的质量值能够更加接近真实的与参考基因组之间错配的概率;
D.突变位点提取:利用GATK软件中HaplotypeCaller对完成比对的序列进行遗传突变位点提取,包括SNP和Indel两种突变类型,再利用VQSR方法对原始变异检测结果进行过滤,得到高质量检测到遗传突变并保存在VCF文件中。
构建遗传突变信息数据库:
I.确定数据库包含的疾病,找出所有描述该病的关键词作为检索词,在ClinVar数据库以及GWAS-catalog数据库中,通过程序语言编写脚本搜索并提取与该疾病有关的所有易感基因和遗传变异;
II.数据筛选和分类:根据ClinVar中关于每个遗传变异的相关信息筛选易感致病的SNP,并根据多年来遗传研究结果对所有变异进行可靠性分类,根据GWAS-catalog中变异的P-value值以及发表文章报道的人群等信息对变异进行筛选,阅读遗传变异的相关文献以及参考其他数据库中该变异的描述,筛选出有效的致病遗传变异;
III.整理汇总收集的数据,形成疾病的基因panel,以及该panel所包含的所有有效遗传变异信息,用MySQL构建本地数据库。
本发明共确定了22种发病率和致死率较高的疾病,包括乳腺癌、卵巢癌、肺癌、结肠直肠癌、白血病、胃癌、前列腺癌、食道癌、肥胖症、糖尿病、高血脂、高血压、冠心病、类风湿性关节炎、白内障、阿尔兹海默症、帕金森氏症、抑郁症、精神分裂症、抽烟成瘾、酒精成瘾、和海洛因成瘾。
相应的基因信息见表1.
表1
分析预测个体健康的变化趋势:
利用全基因组测序技术和生物信息分析技术找出个体所包含的疾病相关遗传变异,根据确定好的基因panel以及遗传变异数据库,利用以下公式计算出每一个SNP对疾病的患病风险(Pr(D|Gm)):
Pr(D):某个特定的疾病在特定的人群或种族中的发病率
ORn:某个特定的SNP位点与特定疾病之间的相关性
Pr(D|Gm):一个特定基因型下的该种疾病发病率
再联立以下公式计算疾病患病风险:
odds(X)=Pr(X)/(1-Pr(X))
一般而言,计算出的患病风险高于群体发病率20%以内,属于低风险,可适当注意生活饮食习惯;高于群体发病率20%~50%,属于中风险,需要引起警惕;高于群体发病率50%以上,则属于高风险,建议尽早进行干预。
本发明利用全基因组测序技术可以得到个体全部遗传突变信息,再结合数据库信息,通过综合分析所收集到的信息,筛选有效的致病遗传变异,明确变异导致的生理学变化,作为疾病发生的医学解释。同时,我们会不断地更新数据库,以增加个体患病风险预测的准确性。因此,本发明的目的在于通过全基因组测序技术检测,并结合权威疾病易感或致病突变数据库进行风险评估,为个体养生提供精准有效的方案。

Claims (5)

1.一种基于基因测序技术的个体精准养生方法,其特征在于,包括下列步骤:
(1)对个体进行全基因测序得到个体全部遗传突变信息;
(2)构建遗传突变信息数据库;
(3)根据步骤(1)得到的个体全部遗传突变信息和步骤(2)构建的数据库对比,分析预测个体健康的变化趋势;
(4)根据步骤(3)分析预测个体的变化趋势采取积极主动的养生措施行为。
2.如权利要求1所述的基于基因测序技术的个体精准养生方法,其特征在于,所述的步骤(1)中的全基因测序为:
A.全基因二代测序:使用Covaris仪器对DNA样本进行随机打断,末端补平并加接头,150bp文库构建过程中采用磁珠进行目的片段的筛选,进行cluster制备,最后使用Illumina HiSeq X Ten测序,得到测序原始数据;
B.下机原始数据的质控:利用FastQC软件进行包括测序质量、接头、序列重复水平等多项质控指标的检测,然后使用Trimmomatic等软件去除低质量的Reads、切去接头和低质量序列,得到测序质控数据;
C.序列比对:利用BWA进行片段比对和拼接,包括测序片段覆盖倍数的估计,重复片段标记,将比对到Indel附近的Reads进行局部重新比对,将比对的错误率降到最低,以及将bam文件中Read的碱基质量值进行重新校正,使最后输出的bam文件中Reads中碱基的质量值能够更加接近真实的与参考基因组之间错配的概率;
D.突变位点提取:利用GATK软件中HaplotypeCaller对完成比对的序列进行遗传突变位点提取,包括SNP和Indel两种突变类型,再利用VQSR方法对原始变异检测结果进行过滤,得到高质量检测到遗传突变并保存在VCF文件中。
3.如权利要求1所述的基于基因测序技术的个体精准养生方法,其特征在于,所述的步骤(2)中构建遗传突变信息数据库为:
I.确定数据库包含的疾病,找出所有描述该病的关键词作为检索词,在ClinVar数据库以及GWAS-catalog数据库中,通过程序语言编写脚本搜索并提取与该疾病有关的所有易感基因和遗传变异;
II.数据筛选和分类:根据ClinVar中关于每个遗传变异的相关信息筛选易感致病的SNP,并根据多年来遗传研究结果对所有变异进行可靠性分类,根据GWAS-catalog中变异的P-value值以及发表文章报道的人群等信息对变异进行筛选,阅读遗传变异的相关文献以及参考其他数据库中该变异的描述,筛选出有效的致病遗传变异;
III.整理汇总收集的数据,形成疾病的基因panel,以及该panel所包含的所有有效遗传变异信息,用MySQL构建本地数据库。
4.如权利要求3所述的基于基因测序技术的个体精准养生方法,其特征在于,所述的疾病包括乳腺癌、卵巢癌、肺癌、结肠直肠癌、白血病、胃癌、前列腺癌、食道癌、肥胖症、糖尿病、高血脂、高血压、冠心病、类风湿性关节炎、白内障、阿尔兹海默症、帕金森氏症、抑郁症和精神分裂症。
5.如权利要求3所述的基于基因测序技术的个体精准养生方法,其特征在于,所述的步骤(3)中分析预测个体健康的变化趋势为:
利用全基因组测序技术和生物信息分析技术找出个体所包含的疾病相关遗传变异,根据确定好的基因panel以及遗传变异数据库,利用以下公式计算出每一个SNP对疾病的患病风险(Pr(D|Gm)):
Pr(D)=Pr(D|G1)Pr(G1)+Pr(D|G2)Pr(G2)+Pr(D|G3)Pr(G3)
Pr(D):某个特定的疾病在特定的人群或种族中的发病率
ORn:某个特定的SNP位点与特定疾病之间的相关性
Pr(D|Gm):一个特定基因型下的该种疾病发病率
再联立以下公式计算疾病患病风险:
odds(X)=Pr(X)/(1-Pr(X))
CN201910245888.8A 2019-03-29 2019-03-29 一种基于基因测序技术的个体精准养生方法 Pending CN110111890A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910245888.8A CN110111890A (zh) 2019-03-29 2019-03-29 一种基于基因测序技术的个体精准养生方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910245888.8A CN110111890A (zh) 2019-03-29 2019-03-29 一种基于基因测序技术的个体精准养生方法

Publications (1)

Publication Number Publication Date
CN110111890A true CN110111890A (zh) 2019-08-09

Family

ID=67484849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910245888.8A Pending CN110111890A (zh) 2019-03-29 2019-03-29 一种基于基因测序技术的个体精准养生方法

Country Status (1)

Country Link
CN (1) CN110111890A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243661A (zh) * 2020-01-13 2020-06-05 北京奇云诺德信息科技有限公司 基于基因数据的基因体检系统
CN115440305A (zh) * 2022-08-29 2022-12-06 新疆碳智干细胞库有限公司 一种人类遗传资源基因数据管理系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093560A (zh) * 2006-06-19 2007-12-26 上海主健生物工程有限公司 应用基因检测技术提供主动健康服务的运行体系和方法
CN108256293A (zh) * 2018-02-09 2018-07-06 哈尔滨工业大学深圳研究生院 一种疾病关联基因组合的统计方法及系统
CN108251520A (zh) * 2018-01-31 2018-07-06 杭州同欣基因科技有限公司 一种基于高通量测序技术的吸烟成瘾风险预测方法及戒烟指导方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093560A (zh) * 2006-06-19 2007-12-26 上海主健生物工程有限公司 应用基因检测技术提供主动健康服务的运行体系和方法
CN108251520A (zh) * 2018-01-31 2018-07-06 杭州同欣基因科技有限公司 一种基于高通量测序技术的吸烟成瘾风险预测方法及戒烟指导方法
CN108256293A (zh) * 2018-02-09 2018-07-06 哈尔滨工业大学深圳研究生院 一种疾病关联基因组合的统计方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243661A (zh) * 2020-01-13 2020-06-05 北京奇云诺德信息科技有限公司 基于基因数据的基因体检系统
CN115440305A (zh) * 2022-08-29 2022-12-06 新疆碳智干细胞库有限公司 一种人类遗传资源基因数据管理系统及方法

Similar Documents

Publication Publication Date Title
Amaratunga et al. Exploration and analysis of DNA microarray and protein array data
CN112048559B (zh) 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用
CN112086129B (zh) 预测肿瘤组织cfDNA的方法及系统
CN109872776B (zh) 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
Wang et al. DeepDRK: a deep learning framework for drug repurposing through kernel-based multi-omics integration
JP2005527904A (ja) 複雑性疾患を構成疾患に細分するコンピュータ・システムおよび方法
JP2003021630A (ja) 臨床診断サービスを提供するための方法
JP2008507993A (ja) 多重プローブターゲット相互作用パターンの自動分析:パターンマッチング及び対立遺伝子同定
EP4260340A1 (en) Predicting fractional flow reserve from electrocardiograms and patient records
Gründner et al. Predicting clinical outcomes in colorectal cancer using machine learning
CN108664769A (zh) 基于癌症基因组和非特异性基因标签的大规模药物重定位方法
CN108531597A (zh) 一种用于口腔鳞癌早期诊断的检测试剂盒
CN113362894A (zh) 一种对协同致死的癌症驱动基因进行预测的方法
CN110111890A (zh) 一种基于基因测序技术的个体精准养生方法
CN114078567A (zh) 一种基于cfDNA的肿瘤负荷检测装置及检测方法
CN113462775A (zh) 用于结直肠癌预后评估的基因标志物
JP2015089364A (ja) 体細胞多重変異によるがん診断方法、がん医薬開発方法及びがん診断装置
CN109033747B (zh) 基于pls多扰动集成基因选择的肿瘤特异基因识别方法
CN117727418A (zh) 基于多重网络相似分析的阿尔兹海默病药物再利用筛选方法
CN117471104A (zh) 血清生物学标志物在帕金森病中的应用
Mauguen et al. Estimating the probability of clonal relatedness of pairs of tumors in cancer patients
CN112863604B (zh) 一种预测肿瘤间质化机制及治疗敏感性的方法
CN114974432A (zh) 一种生物标志物的筛选方法及其相关应用
Zhong et al. Distinguishing kawasaki disease from febrile infectious disease using gene pair signatures
US20160055309A1 (en) A mathematical musical orchestral method for predicting classes of patients for medical treatment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination