CN110364226B - 一种用于辅助生殖供精策略的遗传风险预警方法和系统 - Google Patents

一种用于辅助生殖供精策略的遗传风险预警方法和系统 Download PDF

Info

Publication number
CN110364226B
CN110364226B CN201910758921.7A CN201910758921A CN110364226B CN 110364226 B CN110364226 B CN 110364226B CN 201910758921 A CN201910758921 A CN 201910758921A CN 110364226 B CN110364226 B CN 110364226B
Authority
CN
China
Prior art keywords
variation
genetic
gene
database
pathogenic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910758921.7A
Other languages
English (en)
Other versions
CN110364226A (zh
Inventor
唐淑妍
刘浏
张锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201910758921.7A priority Critical patent/CN110364226B/zh
Publication of CN110364226A publication Critical patent/CN110364226A/zh
Application granted granted Critical
Publication of CN110364226B publication Critical patent/CN110364226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Abstract

本发明提供了一种用于辅助生殖供精策略的遗传风险预警方法和系统。本发明所述方法和系统评估及预测待孕女性常染色体隐性遗传病生育遗传风险,并提供与该名待孕女性基因配对度较优、遗传性疾病风险低的捐精志愿者作为供选择对象,全面地使生育常染色体隐性遗传病的风险评估实现量化与自动化,极大地减少了人工成本和时间成本,且有据可循,并极大的提高了分析准确性。

Description

一种用于辅助生殖供精策略的遗传风险预警方法和系统
技术领域
本发明属于辅助生殖医疗领域,具体涉及一种用于辅助生殖供精策略的遗传风险预警方法和系统。
背景技术
我国是人口大国,也是出生缺陷的高发大国。据2012年政府部门统计,我国出生缺陷发生率在5.6%左右,每年新增出生缺陷数约90万例。出生缺陷的防治历来受到我国政府的高度重视,我国各级卫生部门正在大力推进各项预防与筛查工作,包括婚前医学检查、地中海贫血防控试点、新生儿重大遗传代谢性疾病、听力障碍筛查和产前超声筛查等。虽然遗传病的单一发病率相对较低,但综合发病率大于1%。
出生缺陷与遗传因素密切相关。据多篇文献和多家机构报道,4%~13%的出生缺陷是由于胎儿遗传了父母携带的常染色体隐性致病变异所致,患儿的父母作为携带者表现为健康人。每个健康人平均携带3~10个隐性致病变异。对于常染色体隐性单基因遗传病生育风险而言,如果生育男女双方在相同常染色体隐性遗传基因上均携带致病变异,则其后代有25%患病风险。然而,很多基因变异导致的疾病由于缺乏明显的超声影像学提示、非胎儿期发病等因素,在常规的产检中被遗漏。在人类精子库对外供精时,如果能对志愿者和进行供精辅助生殖的待孕女性进行重大隐性遗传病携带者筛查和配对风险评估,可以尽可能排除在相同常染色体隐性基因上的致病变异携带者的精子供给该女性,从而有效地降低出生缺陷的发生率。
目前国内外人类精子库对外供精策略中仅考虑了捐精志愿者的血型,并未利用近年来发展迅速的基因检测技术进行携带者筛查和配对分析。由于常染色体隐性遗传病多无家族史,且基本上每名健康人都可能是某种隐性遗传病的携带者,通过传统的遗传咨询面谈家族史和染色体核型分析,通常不能准确评估捐精志愿者常染色体隐性遗传病的生育风险。如果某一捐精志愿者与需要供精辅助生殖的待孕女性是相同常染色体隐性致病基因携带者,将该名志愿者的精子供给该待孕女性的话,其后代有25%风险患病,此类患病风险在目前人类精子库的供精策略中并未排除。
发明内容
为了解决上述问题,基于近年来可以高效产生的基因测序信息,本发明通过快速的配对分析技术,实现供精志愿者和待孕女性之间在遗传信息上的风险预警和优化匹配。精子库在对生殖中心的待孕女性进行供精时,经过基因检测,在精子库供精者基因数据中进行配对分析,避免供出与待孕女性相同常染色体隐性致病基因携带者的精子。此外,本发明还对可供捐精志愿者进行生育遗传风险评估打分排序,方便对其进行选择。
本发明通过以下技术方案实现:
第一方面,本发明提供了一种适用于辅助生殖供精策略的遗传风险预警系统的遗传变异致病性证据数据库的构建方法,所述方法包含以下步骤:
(1)赋予遗传变异位点证据定义:PVS,PM,PS,PP,BA,BS,BP为不同大类;
(2)按照分级规则,将步骤(1)所述遗传变异位点进行致病性分级;
上述(1)和(2)构成遗传变异致病性证据数据库。
第二方面,本发明提供了一种适用于辅助生殖供精策略的遗传风险预警系统的数据库的构建方法,所述数据库包含待测样本数据库和遗传变异致病性证据数据库,所述构建方法包含以下步骤:
(1)通过生物学检测方法获取捐精志愿者的遗传信息数据文件;
(2)通过生物学检测方法获取需要供精辅助生殖的待孕女性的遗传信息数据文件;
上述步骤(1)和(2)获得的遗传信息数据文件构成待测样本数据库;
(3)对待测样本数据库中包含的遗传变异位点进行筛选;
(4)对筛选出的遗传变异位点赋予证据定义:PVS,PM,PS,PP,BA,BS,BP为不同大类;
(5)按照分级规则,将步骤(4)获得的遗传变异位点进行致病性分级;
通过上述步骤(3)至(5)获得遗传变异致病性证据数据库;
优选的,在一个具体实施方案中,对待测样本数据库中包含的遗传变异位点进行筛选包含以下步骤:
1)质量控制:满足以下参数且测序深度(depth)大于等于8的遗传变异位点方可通过筛选,否则进入回收环节:SNP:QD<2.0,MQ<40.0,FS>60.0,SOR>3.0,MQ Rank Sum<-12.5,Read Pos Rank Sum<-8.0;Indel:QD<2.0,Read Pos Rank Sum<-20.0,Inbreeding Coeff<-0.8,FS>200.0,SOR>10.0;
2)同源区筛选:步骤1)筛选通过的遗传变异位点前后序列用blast软件进行对比分析,相似度大于90%的比对序列个数即视为同源区的数量,排除同源区数量>10的遗传变异位点;
3)频率筛选:步骤2)筛选通过的遗传变异位点进入频率筛选,频率筛选分为两部分,等位基因频率和纯合子数量;人群数据库的等位基因频率>0.2的遗传变异位点直接排除,0.05~0.2区间进入回收环节,<0.05通过筛选;若人群数据库的等位基因频率<0.2的遗传变异位点的纯合子数量大于5,则该遗传变异位点进入回收环节;所述人群数据库优选自gnomAD、ExAc和/或1000genomes;
4)区域筛选:步骤3)筛选通过的遗传变异位点进入区域筛选,外显子区中排除非翻译区(Untranslated Region,UTR)和同义变异,剪接区仅保留剪接位点,其他区域均不保留,此条件过滤的所有遗传变异位点均进入回收环节;
5)回收环节:所有进入回收环节的遗传变异位点,满足以下三个条件之一,直接通过筛选,进入下一环节的分析:①Clinvar数据库记录为致病或疑似致病的;②HGMD数据库记录为致病(Disease causing mutation,DM)或疑似致病DM?;③dbscSNV_ADA/RF算法认为其影响剪接的。
在一个具体实施方案中,本发明所述赋予遗传变异位点证据定义的规则如下所述:
(1)PVS大类:
PVS1:该遗传变异被标记为功能丧失型变异(优选,起始密码子丢失、无义变异、移码变异),且所在基因被OMIM记录为隐性遗传,或HGMD记录曾出现至少1个功能丧失型变异,或pRec算法预测该基因为隐性遗传;
(2)PS大类:
PS1:该遗传变异为错义变异,且在HGMD或Clinvar等疾病数据库中曾出现过碱基改变不同但氨基酸改变相同的致病或疑似致病变异;
PS4:该变异在拥有疾病和健康人群数据的全基因组关联分析数据库中OR值大于等于5,所述全基因组关联分析数据库优选GWASdb;
(3)PM大类:
PM1:该变异位于热点变异区,或位于重要的功能结构域;所述热点变异区是指在待评级变异位点蛋白质前后曾出现4~6个以上致病或疑似致病变异报道的功能区域;
PM2:若该变异所在基因为隐性基因,其在人群数据库的频率小于等于万分之五,且无纯合子报道;若为非隐性基因,则未见任何人群数据库报道;所述人群数据库优选自gnomAD、ExAc和1000genomes;
PM4:该变异为非移码缺失插入变异或终止密码子丢失,且不在重复区内,且保守性预测软件认为保守;所述保守性预测软件优选自Polyphen-2、MutationTastor和SIFT2;
PM5:该变异为错义变异,且在HGMD或Clinvar等疾病数据库中曾出现相同蛋白质位置但氨基酸种类不同的致病或疑似致病变异;
(4)PP大类:
PP2:该变异为错义变异,且所在基因的常见致病原因是错义变异;所在基因的常见致病原因是错义变异的标准为,该基因曾被报道过的致病性变异至少大于75%、80%或85%均为错义变异;
PP3:Polyphen2,MutationTastor,和/或SIFT等多方面的预测软件均认为该变异有害,且位于保守区;
PP5:该变异在HGMD或Clinvar等疾病数据库中收录为致病或疑似致病变异;
(5)BA大类:
BA1:外部和/或内部人群数据库中等位基因频率大于等于0.05;
(6)BS大类:
BS1:外部和/或内部人群数据库中等位基因频率大于等于0.01,可以用户自定义;
BS2:基因对应疾病为早期发病,该变异在外部和/或内部健康人群数据库中存在纯合子(常染色体隐性遗传或X染色体连锁遗传)、杂合子(常染色体显性遗传)、半合子(X染色体连锁遗传);
(7)BP大类:
BP1:该变异为错义变异,且所在基因的主要致病机制为功能丧失型;所在基因的主要致病机制为功能丧失型的标准为,变异所在基因在HGMD或Clinvar中出现至少5、6、7、8、9、或10个以上的功能丧失型变异,且无错义变异致病的报道;
BP3:位于重复区的非单碱基变异;
BP4:Polyphen2,Mutation Tastor,SIFT等多方面的预测软件均认为该变异无害;
BP6:该变异在Clinvar等疾病数据库中收录为良性或疑似良性变异;
BP7:该变异为同义变异,且位于不保守区域,且机器预测不影响剪接;
其余不能自动化的评级,可由用户自己提供。
在一个具体实施方案中,本发明所述遗传变异位点的致病性分级规则如下:
(1)致病(Pathogenic,P):
1)包含1个PVS1,加上1个以上PS,或加上2个以上PM,或加上1个PM和1个PP,或加上两个以上PP;
2)至少2个PS;或,
3)包含1个PS,加上至少3个PM,或加上2个PM和至少2个PP,或加上1个PM和至少4个PP;
(2)疑似致病(Likely Pathogenic,LP):
1)1个PVS1和1个PM;
2)1个PS,加上1或2个PM,或加上2个PP;
3)至少3个PM;
4)2个PM和至少2个PP;或,
5)1个PM和至少4个PP;
(3)倾向于疑似致病的临床意义未明(VUS-LP):
1)至少包含1个PVS/PS/PM/PP证据,但无任何BA/BS/BP证据,且不足以评上致病或疑似致病;
(4)临床意义未明(VUS,Variant of unknown significance):
1)无任何证据;或,
2)存在冲突的证据,即同时存在PVS/PS/PM/PP和BA/BS/BP两大类证据;
(5)倾向于疑似良性的临床意义未明(VUS-LB):
1)至少包含1个BA/BS/BP证据,但无任何PVS/PS/PM/PP证据,且不足以评上良性或疑似良性;
(6)疑似良性(Likely Benign,LB):
1)1个BS和1个BP;或,
2)至少2个BP;
(7)良性(Benign,B):
1)1个BA1;或,
2)至少2个BS。
第三方面,本发明还提供了一种适用于辅助生殖供精策略的遗传风险预警系统的数据库系统,所述数据库系统包含能够计算处理样本数据的软件、和用于承载上述软件的硬件,所述数据库系统还包含:
(1)所述系统还包含储存有待测样本的遗传变异基因信息的硬件;所述待测样本为捐精志愿者和需要供精辅助生殖的待孕女性,所述样本数据即为待测样本的遗传变异基因信息;
(2)所述软件对样本数据中包含的遗传变异位点进行筛选;优选的,根据本发明前述所述方法进行筛选;
(3)所述软件根据本发明前述所述规则赋予筛选出的遗传变异位点证据定义;
(4)所述软件按照本发明前述规则将步骤(3)获得的遗传变异位点进行致病性分级;
(5)根据步骤(2)至(4)获得致病性分级成功的遗传变异致病性证据数据库;
(6)所述系统还包含储存有步骤(5)所述遗传变异致病性证据数据库的硬件。
第四方面,本发明还提供了一种用于辅助生殖供精策略的遗传风险预警方法,所述方法包含如下步骤:
(1)通过生物学检测方法获取捐精志愿者的遗传信息;
(2)通过生物学检测方法获取需要供精辅助生殖的待孕女性的遗传信息;
(3)根据第二方面所述方法构建适用于辅助生殖供精策略的遗传风险预警系统的数据库;
(4)根据遗传风险预警规则对捐精志愿者的遗传信息和需要供精辅助生殖的待孕女性的遗传信息进行配对,得到配对分数;根据配对分数排序,进行供精策略推荐。
在一个具体的实施方案中,本发明所述遗传风险预警规则为:
(1)根据男女双方分别在同一基因上出现相同或不同的遗传变异时,遗传变异位点和基因保留,其余遗传信息不保留;
(2)基因打分(Sgene):根据步骤(1)保留的遗传变异位点和基因,从OMIM和HPO数据库中抓取遗传模式(SI),发病年龄(SO),疾病严重程度(SE),基因与疾病的关联程度(w)信息,并按照不同程度给予权重,公式如下:
Sinher=max(SIhpo,w*SIomim,)
Sonset=max(SOhpo,w*SOomim)
Ssever=max(SEhpo)
Sgene=Sinher*Sonset*Ssever
优选的,权重设定规则如下:
Figure BDA0002169650070000061
(3)变异打分(Svariant):根据遗传变异位点的致病性分级给予不同权重作为变异打分,当配对的基因上出现多个变异时,取同一个基因中遗传变异位点的致病性分级变异评级最强高的作为该人该基因的变异打分(Vmale或Vfemale);男方与女方的同一个基因的变异打分相加,作为对其后代遗传风险性的评估,公式如下:
Svariant=max(Vmale)+max(Vfemale);
优选的,权重设定规则如下:
遗传变异位点的致病性分级 权重
致病 24-50
疑似致病 10-23
倾向于疑似致病的临床意义未明 1.1-9
临床意义未明 0.01-1
倾向于疑似良性的临床意义未明 -10~-25
疑似良性 -30~-58
良性 -59~-80
(4)基因配对分数(Match Score,Smatch):
最终的配对基因的配对分数为基因打分和变异打分相乘:
Smatch=Sgene*Svariant
(5)排序
每对男女的配对基因都有一个基因配对分数Smatch,在同一男女配对结果中,基因配对分数Smatch最高分为该配对男女的配对分数;
1)若配对结果显示,男女方的配对基因打分Sgene大于1,且一方携带致病(P)或疑似致病(LP)的变异,另一方携带VUS-LB以上的变异(P、LP、VUS-LP或VUS),该配对需要排除;即该对男女生育的后代患严重常染色体隐性遗传病的风险较高,不推荐供精;
2)同一女方,在步骤1)排除后,其余男女配对结果,配对分数越低即后代患严重遗传病风险越低,应优先推荐。
第五方面,本发明还提供了一种用于辅助生殖供精策略的遗传风险预警系统,所述系统包含能够计算处理样本数据的软件、和用于承载上述软件的硬件,另外,
(1)所述系统还包含储存有待测样本的遗传变异基因信息的硬件;所述待测样本为捐精志愿者和需要供精辅助生殖的待孕女性,所述样本数据即为待测样本的遗传变异基因信息;
(2)所述系统还包含储存有遗传变异致病性证据数据库的硬件;
1)所述软件对样本数据中包含的遗传变异位点进行筛选;优选的,根据前述本发明所述对样本数据中包含的遗传变异位点的筛选进行筛选;
2)所述软件根据本发明前述规则赋予筛选出的遗传变异位点证据定义;
3)所述软件按照本发明前述规则将步骤2)获得的遗传变异位点进行致病性分级;
4)获得所述遗传变异致病性证据数据库;和,
(3)所述软件根据本发明前述所述遗传风险预警规则进行遗传风险预警。
在一个具体实施方案中,本发明获取遗传信息的方式选自以下组中的一种或多种的组合:二代基因测序、全外显子组测序、全基因组测序、sanger测序、CNV-seq、
Figure BDA0002169650070000081
Figure BDA0002169650070000082
在一个具体实施方案中,本发明根据待孕女性的意愿选择特定血型的供精志愿者与待孕女性进行分析及配对。
术语及定义:
“vcf”:Variant Call Format,是一种用于记录遗传变异(SNP/InDel)的通用的文件格式。
“NGS”:Next Generation Sequencing,二代测序技术。
“SNP”:Single Nucleotide Polymorphism,单核苷酸多态。
“Indel”:Insertion or Deletion,插入或缺失。
“OMIM”:Online Mendelian Inheritance in Man,在线《人类孟德尔遗传》,是一个持续更新的关于人类基因和遗传紊乱的数据库。https://www.omim.org/。
“Clinvar”:一个与临床表型相关的人类基因组变异数据库。https://www.ncbi.nlm.nih.gov/clinvar/。
“HGMD”:The Human Gene Mutation Database,
Figure BDA0002169650070000083
一个全面收集引起人类遗传疾病或与人类遗传疾病相关的核基因突变信息的数据库。http://www.hgmd.cf.ac.uk/ac/。
“HPO”:Human Phenotype Ontology,人类表型标准用语。一个对人类表型进行术语标准化的数据库。https://hpo.jax.org/。
本发明所述“方法”、“用途”或“应用”,可指诊断或治疗目的的方法、用途或应用,也可指非诊断或治疗目的的方法、用途或应用。
本发明的有益效果:
1)供精策略方面,传统的精子库对外供精策略中仅考虑了捐精志愿者的血型,并未应用近年来发展迅速的基因检测技术进行携带者筛查,对常染色体隐性遗传病的风险控制尚未完善。本发明策略是除了考虑捐精志愿者的血型外,还增加了将该名待孕女性的基因测序数据与精子库志愿者基因测序数据库进行配对分析,评估及预测待孕女性常染色体隐性遗传病生育遗传风险,并提供与该名待孕女性基因配对度较优、遗传性疾病风险低的捐精志愿者作为供选择对象。本发明创造性地针对人类精子库对外供精业务需要更严格的基因筛查需求,利用基因检测信息和配对分析技术,最大程度上避免了常染色体隐性遗传病的出生缺陷风险。
2)基因检测技术策略方面,传统的携带者筛查只针对特定人群进行单个遗传病逐一筛查,或只针对特定的基因列表进行测序,筛查病种范围较小。本发明的数据来源不限定任何测序技术,可以是基于全基因组范围的高通量测序技术,如全外显子组测序(WES)、全基因组测序技术(WGS)等,亦可以是针对基因组特殊区域的特定基因检测技术,如CNV-seq、
Figure BDA0002169650070000091
等。考虑到疾病基因检测覆盖范围及成本,本发明优选将全外显子组测序(WES)技术与其他基因组特殊区域的基因检测技术联合应用于扩展性携带者筛查中。将不在WES检测范围内的中国携带率发病率较高的隐性遗传病,如地中海贫血、脊肌萎缩症等纳入筛查范围。多种检测技术的联合应用能高效地最大程度地检出携带者。本发明创造性地在扩展性携带者筛查策略中利用多种基因检测技术所产生的遗传信息,通过综合数据分析,使得筛查疾病的范围大大扩大。
3)遗传分析自动化。传统的遗传分析依赖于人工分析,耗时较长且不同分析人员分析结果差异可能较大。本发明将数据分析的整个流程实现了量化与自动化。可同时快速准确地分析大量样本,并可直接将变异评级证据及结果呈现出来,大大减少了人工成本和时间成本,且有据可循,并大大提高了分析准确性。
4)生育风险评估量化。传统的携带者筛查仅单独分析个人的变异情况,并未结合生育双方的遗传信息进行风险评估量化,且仅考虑了致病或疑似致病变异的风险,并没有考虑其他变异的可能风险。本发明将生育双方的遗传信息进行配对分析,并在变异评级层面和基因所致疾病层面进行分级给分,从而全面地使生育常染色体隐性遗传病的风险评估实现量化。应用于精子库的供精策略中,实现了可供捐精志愿者的生育风险评估排序,便于待孕女性进行选择。本发明重点筛查已知明确的致病基因和致病或疑似致病变异,但同时也会考虑到那些人类目前认知尚不够明确的基因和变异,较全面性地将常染色体隐性遗传病的生育风险评估实现量化。
5)本发明遗传变异筛选流程中,创造性地增加了回收环节,最大程度地避免了可能致病位点被过滤掉。
附图说明
图1、捐精志愿者与需要供精辅助生殖的待孕女性配对总流程。
图2、遗传变异筛选流程。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
实施例1捐精志愿者遗传信息的获取
获取捐精志愿者的遗传信息,通常包含以下步骤:
1)遗传咨询面谈:排除有遗传病家族史的捐精志愿者。
2)签署知情同意书:知情同意书已通过伦理会批准,工作人员充分告知知情同意书内容,并自愿填写。
3)获取外周血:常规查血时取得外周血1~2ml。
4)抽提DNA:采用QIAGEN公司的QIAamp DNA Blood Mini Kit(250)试剂盒从志愿者的血样中抽提基因组DNA。
5)基因检测:联合应用全外显子组测序(WES)技术与其他基因组特殊区域的基因检测技术(如CNV-seq、
Figure BDA0002169650070000101
等)。如α地中海贫血的致病基因HBA1/HBA2的大片段缺失变异、脊肌萎缩症的致病基因SMN1的大片段缺失变异等几十个中国人群携带率较高的致病变异亦包含在检测范围中。
6)常规生物信息分析流程:通过bwa、gatk软件分别对下机数据进行参考基因组比对、排序、预处理、变异获取等,得到遗传变异信息文件vcf。
实施例2需要供精辅助生殖的待孕女性遗传信息的获取
获取需要供精辅助生殖的待孕女性的遗传信息,通常包含以下步骤:
1)签署知情同意书:知情同意书已通过伦理会批准,工作人员充分告知知情同意书内容,并自愿填写。
2)获取外周血:常规查血时取得外周血1~2ml。
3)抽提DNA:采用QIAGEN公司的QIAamp DNA Blood Mini Kit(250)试剂盒从待孕女性的血样中抽提基因组DNA。
4)基因检测:联合应用全外显子组测序(WES)技术与其他基因组特殊区域的基因检测技术(如CNV-seq、
Figure BDA0002169650070000102
等)。如α地中海贫血的致病基因HBA1/HBA2的大片段缺失变异、脊肌萎缩症的致病基因SMN1的大片段缺失变异等几十个中国人群携带率较高的致病变异亦包含在检测范围中。
5)常规生物信息分析流程:通过bwa、gatk软件分别对下机数据进行参考基因组比对、排序、预处理、变异获取等,得到遗传变异信息文件vcf。
实施例3捐精志愿者与需要供精辅助生殖的待孕女性的配对实验
1.数据准备
1.1根据实施例1、2所述方法获得多位供精者与待孕女性的遗传变异信息vcf文件。
1.2家庭或社会因素选择:如血型信息,待孕女性可选择某种血型的供精者。输入供精者及待孕女性选择的血型信息(可选步骤)。
1.3自动获取与待孕女性选择的血型一致的供精者与女方进行后续分析(可选步骤)。
2.对变异进行初步筛选
2.1质量控制
质量根据GATK推荐的Hard filter参数,对SNP和Indel分别做质量筛选。满足以下参数且测序深度(depth)大于等于8的变异位点方可通过筛选,否则进入回收环节(第2.5步):SNP:QD<2.0,MQ<40.0,FS>60.0,SOR>3.0,MQRankSum<-12.5,ReadPosRankSum<-8.0;Indel:QD<2.0,ReadPosRankSum<-20.0,InbreedingCoeff<-0.8,FS>200.0,SOR>10.0。
2.2同源区筛选
该位点前后序列用blast软件进行对比分析,相似度大于90%的比对序列个数即视为同源区的数量。排除同源区数量>10的变异位点。
2.3频率筛选
本发明可结合外部开源的人群数据库(优选自gnomAD、ExAc或1000genomes)和/或内部健康人群数据库作为分析使用的人群数据库。频率筛选分为两部分,等位基因频率和纯合子数量。人群数据库的等位基因频率>0.2的变异直接滤掉,0.05~0.2区间进入回收环节,<0.05通过筛选。若人群数据库的等位基因频率<0.2的遗传变异位点的纯合子数量大于5,则该遗传变异位点进入回收环节。
2.4区域筛选
主要分为三大区域,外显子区、剪接区和其他区域。外显子区中排除非翻译区(Untranslated Region,UTR)和同义变异,剪接区仅保留剪接位点,其他区域均不保留。此条件过滤的所有变异均进入回收环节。
2.5回收环节
所有进入回收的变异,只要满足以下三个条件之一,直接进入下一环节的分析:①Clinvar数据库记录为致病或疑似致病的;②HGMD数据库记录为致病(Disease causingmutation,DM)或疑似致病DM?;③dbscSNV_ADA/RF算法认为其影响剪接的(Jian,X.,Boerwinkle,E.,&Liu,X.(2014).In silico prediction of splice-altering singlenucleotide variants in the human genome.Nucleic acids research,42(22),13534-13544.)。
3.致病性自动评级
遗传变异评级主要参考美国医学遗传学和基因组学学会(The American Collegeof Medical Genetics and Genomics,ACMG)与美国分子病理协会(Association forMolecular Pathology,AMP)于2015年联合提出的对遗传变异致病性推断的标准和指南,简称ACMG指南。ACMG指南对遗传变异致病性的解释工作主要分为两大部分:根据遗传变异的特征给与不同程度的证据,以及基于证据对遗传变异进行致病性分类。鉴于自动化分析的可实现性和准确性,本发明在ACMG指南的基础上,对证据进行适当的增加、删除和修改,并对其原本的描述性语言进行量化;证据增加、删除和修改,以及量化的标准如下:
3.1自动化证据
PVS,PM,PS,PP,BA,BS,BP为不同大类。
PVS1:该遗传变异被标记为功能丧失型变异(起始密码子丢失、无义变异、移码变异),且所在基因被OMIM记录为隐性遗传,或HGMD记录曾出现至少1个功能丧失型变异,或pRec算法预测该基因为隐性遗传;隐性遗传致病及曾出现过功能丧失型变异的基因基本可以其致病机制至少存在功能丧失型,因此采用以上标准。
PS1:该遗传变异为错义变异,且在HGMD或Clinvar等疾病数据库中曾出现过碱基改变不同但氨基酸改变相同的致病或疑似致病变异。
PS4:与正常人群对照组相比,该变异在患病群体中出现的流行率明显升高。体现为在拥有疾病和健康人群数据的全基因组关联分析数据库(如GWASCatalog等)中OR值大于5。OR值大于1即可表示该因素可能是该疾病的一个风险因子,数值越大,风险性越强。由于数据的波动性,在1上下浮动的OR值准确性较低,因此,本专利采用OR值大于5,表明该因子与该疾病有相对更强的相关关系。
PM1:该变异位于热点变异区,或位于重要的功能结构域;由于某些功能区域未被探究清楚,但由于其重要性,在其上的错义变异会导致蛋白质功能丧失从而致病,因此在报道的数据中会发现某些区域密集出现致病变异,称为热点变异区,在热点变异区新出现的错义变异也很有可能有害。经过对500个以上致病性错义变异的测试发现,大部分普通致病性错义变异附近平均覆盖0~3个其他错义变异。因此本专利对PM1的热点变异区定义为:在待评级变异位点蛋白质前后曾出现4~6个以上致病或疑似致病变异的报道。
PM2:该变异频率极低。由于隐性遗传致病的基因的其中一个等位基因起效即不会发病,因此隐性基因的致病变异可以在人群中流传,所以本专利对隐性基因的变异频率进行适当放宽;通过对500个以上常染色体隐性致病基因致病变异的分析发现,95%以上的致病变异符合人群频率小于万分之五。因此本专利采用的PM2证据的标准为:若该变异所在基因为隐性基因,其在人群数据库的频率需小于万分之五,且无纯合子报道;若为非隐性基因,则未见任何人群数据库报道;
PM4:该变异为非移码缺失插入变异或终止密码子丢失,且不在重复区内,且保守性预测软件认为保守;
PM5:该变异为错义变异,且在HGMD或Clinvar等疾病数据库中曾出现相同蛋白质位置但氨基酸改变不同的致病或疑似致病变异;
PP2:该变异为错义变异,且所在基因的常见致病原因是错义变异;通过对8000个以上基因变异的测试发现,4%~8%的基因常见致病机制是错义变异致病,且该类基因报道过的致病变异中75%~85%以上为错义变异,因此本专利对PP2证据的“所在基因的常见致病原因是错义变异”的标准为该基因曾报道过的致病性变异大于75%~85%均为错义变异;
PP3:Polyphen2,MutationTastor,SIFT等多方面的预测软件均认为该变异有害,且位于保守区;
PP5:该变异曾有可靠的报道认为致病或疑似致病,体现为该变异在HGMD或Clinvar等疾病数据库中收录为致病或疑似致病变异;
BA1:外部和/或内部人群数据库中等位基因频率大于0.05;
BS1:频率大于发病率,因罕见病的发病率平均为1%,因此缺省值为外部和/或内部人群数据库中等位基因频率大于0.01,可以用户自定义;
BS2:基因对应疾病为早期发病,该变异在外部和/或内部健康人群数据库中存在纯合子(常染色体隐性遗传或X染色体连锁遗传)、杂合子(常染色体显性遗传)、半合子(X染色体连锁遗传);
BP1:该变异为错义变异,且所在基因的致病机制为功能丧失型。通过对8000个以上基因变异的测试发现,其中0.2%~0.5%的基因主要已知致病机制是功能丧失型,该类基因上曾报道过的致病性变异绝大部分为功能丧失型变异,且报道个数均在5个以上。因此本专利对BP1证据的“所在基因的主要致病机制为功能丧失型”的标准为变异所在基因在HGMD或Clinvar中出现5~10个以上的功能丧失型变异,且无错义变异致病的报道;
BP3:位于重复区的非单碱基变异;
BP4:Polyphen2,MutationTastor,SIFT等多方面的预测软件均认为该变异无害;
BP6:该变异曾有可靠的报道认为良性或疑似良性,体现为该变异在Clinvar等疾病数据库中收录为良性或疑似良性变异;
BP7:该变异为同义变异,且位于不保守区域,且机器预测不影响剪接;
其余不能自动化的评级,可由用户自己提供。
3.2致病性自动化分级
ACMG指南建议将变异分为五种级别:致病(P)、疑似致病(LP)、临床意义未名(VUS)、疑似良性(LB)、良性(B)。本发明在P,LP,B,LB分类上采取ACMG的分级方法,但对临床意义未名(Variant of Unknown Significance,VUS)进一步细分为VUS-LP、VUS与VUS-LB。
分级规则如下:
(1)致病(Pathogenic,P):
1)包含1个PVS1,加上1个以上PS,或加上2个以上PM,或加上1个PM和1个PP,或加上两个以上PP;
2)至少2个PS;或,
3)包含1个PS,加上至少3个PM,或加上2个PM和至少2个PP,或加上1个PM和至少4个PP。
(2)疑似致病(Likely Pathogenic,LP):
1)1个PVS1和1个PM;
2)1个PS,加上1~2个PM,或加上2个PP;
3)至少3个PM;
4)2个PM和至少2个PP;或,
5)1个PM和至少4个PP。
(3)倾向于疑似致病的临床意义未明(VUS-LP):
1)至少包含1个PVS/PS/PM/PP证据,但无任何BA/BS/BP证据,且不足以评上致病或疑似致病。
(4)临床意义未明(VUS,Variant of unknown significance):
1)无任何证据;或,
2)存在冲突的证据,即同时存在PVS/PS/PM/PP和BA/BS/BP两大类证据。
(5)倾向于疑似良性的临床意义未明(VUS-LB):
1)至少包含1个BA/BS/BP证据,但无任何PVS/PS/PM/PP证据,且不足以评上良性或疑似良性。
(6)疑似良性(Likely Benign,LB):
1)1个BS和1个BP;或,
2)至少2个BP。
(7)良性(Benign,B):
1)1个BA1;或,
2)至少2个BS。
4.配对
男女双方进行一一配对通过筛选后的遗传变异位点,男女方分别在同一基因上出现相同或不同的遗传变异时,变异和基因保留,其余不保留。在获取配对的基因后对遗传变异和基因分别打分,综合两者分数对男女方的后代进行常染色体隐性遗传病生育风险评估。本发明所述方法,打分参考的影响因素为关键要素,权重设置次之。
4.1基因打分(Gene Score,Sgene)
基因打分主要考虑四种影响因素:遗传模式(SI),发病年龄(SO),疾病严重程度(SE),基因与疾病的关联程度(w)。这四种信息从OMIM和HPO数据库中抓取关键字,并按照不同程度给予权重,权重设定规则如下:
Figure BDA0002169650070000151
计算公式如下:
Sinher=max(SIhpo,w*SIomim,)
Sonset=max(SOhpo,w*SOomim)
Ssever=max(SEhpo)
Sgene=Sinher*Sonset*Ssever
4.2变异打分(Variant Score,Svariant)
根据上述致病性评级给予不同权重作为变异打分,致病性评级权重的规则设定如下:
Figure BDA0002169650070000152
Figure BDA0002169650070000161
但由于在配对的基因上同一个人可能会出现多个变异,因此在配对时取同一个基因中变异评级最强的作为该人该基因的变异打分。男方与女方的同一个基因的变异打分相加,作为对其后代遗传风险性的评估。公式如下:
Svariant=max(Vmale)+max(Vfemale)
4.3基因配对分数(Match Score)
在预测后代风险时,基因是否导致严重疾病,以及遗传变异是否影响基因功能都是重要的因素,因此最终的配对基因的配对分数为基因打分和变异打分相乘。
Smatch=Sgene*Svariant
4.4排序
在计算完上述所有分数后,每对男女的配对基因都有一个配对分数,在同一男女配对结果中,对配对基因进行降序排序,最高分为该配对男女的配对分数。
若配对结果显示,男女方的配对基因打分大于1(说明该基因在发育过程中起到重要作用,其功能损失可能导致比较严重后果),且一方携带致病或疑似致病的变异,另一方携带VUS-LB以上的变异,该配对需要排除,即该对男女生育的后代患严重常染色体隐性遗传病的风险较高,不推荐供精。
同一女方,在个别男方排除后,与其余男方配对结果,按照配对分数升序排序,配对分数越低即后代患严重遗传病风险越低,应优先推荐。排名前三的供精者经遗传咨询师核对后可推荐给待孕女性,供其选择。
5.测试数据
为了测试本发明的有效性,募集了20个三口核心家系,其后代被诊断为严重单基因隐性遗传病且致病变异分别来自健康父母双方,已通过伦理委员会批准。取父母双方假设其为配对前的男女方,用本发明的方法分析是否能准确预测出后代患病的风险。健康父母及患病后代均用二代测序技术中的全外显子组测序和常规生信分析后获得vcf文件。然后进入本发明的分析流程,表一为阳性患者父母的配对结果,仅列出每对结果的排名前二的配对基因。表二为阳性患者父母真实传递到后代的致病基因在配对结果中的排名及排除情况。
结果显示,在我们的算法中,所有真实致病基因均在每对夫妇配对结果中排名前二,18对排名第一,2对排名第二。对于这2对没有排名第一,但排在它前面的基因仍有可能会遗传至后代并致病,只是在这些案例中刚好没有遗传至后代。
该结果表明,本发明在预测后代患有严重的单基因隐性遗传病的风险上具有100%灵敏度与准确性。
表1:阳性患者父母配对结果(仅列出风险排名前二的基因)
Figure BDA0002169650070000171
Figure BDA0002169650070000181
表2:真实致病基因在配对结果中的排名及排除情况
配对夫妇 真实致病基因排名 是否排除
1F-1M 1 排除
2F-2M 1 排除
3F-3M 1 排除
4F-4M 1 排除
5F-5M 1 排除
6F-6M 1 排除
7F-7M 1 排除
8F-8M 1 排除
9F-9M 1 排除
10F-10M 2 排除
11F-11M 1 排除
12F-12M 1 排除
13F-13M 1 排除
14F-14M 1 排除
15F-15M 1 排除
16F-16M 1 排除
17F-17M 1 排除
18F-18M 1 排除
19F-19M 2 排除
20F-20M 1 排除
6.实际使用案例
6.1需提供捐精志愿者与待孕女性的血型信息,如表三所示。男女方均提取血液DNA,进行全外显子组测序,和采用覆盖全外显子组测序范围以外的二十种常见疾病的特定基因检测技术。在常规生物信息处理后获得遗传变异位点,合并两种技术的测序结果,成为各自的vcf文件,本发明可自动将血型对应的志愿者与女方一一配对,进入分析流程。
表3:供精志愿者与待孕女性的血型信息
Figure BDA0002169650070000191
Figure BDA0002169650070000201
6.2结果分析
结果如表4所示(每对配对仅列出风险评估排名前二的配对基因)。
在现有的供精者中,与F1女性需求血型相符的供精者有三位,其中M12供精者在COL6A3基因中携带了一个疑似致病变异,而F1女性携带了一个COL6A3基因的VUS(临床意义未名)变异,不能完全排除其影响基因功能的可能性。COL6A3基因的致病变异可导致Bethlem肌病1(Bethlem myopathy 1,BTHLM1,[MIM:158810]),Ullrich先天性肌肉萎缩1(Ullrich congenital muscular dystrophy 1,UCMD1[MIM:254090]),以及肌张力障碍27型(Dystonia 27,[MIM:616411]),均为常染色体隐性遗传,发病年龄在出生、婴儿早期或儿童早期,临床表现主要为肌无力和多处关节挛缩等,严重影响患者生活质量。因此,F1女性与M2供精者的配对被排除。其余两位供精者在与F1女性配对的基因中没有出现致病或疑似致病的变异,因此其后代患上严重的常染色体隐性遗传病的风险较低,可以推荐供精。
与F2女性需求血型相符的供精者有五位,其中M3供精者在FRAS1基因中携带了一个疑似致病变异,而F2女性携带了一个FRAS1基因的VUS-LP(临床意义未明但可能疑似致病)变异,其影响基因功能存在一定的可能性。FRAS1在OMIM数据库中记录其可能导致弗雷泽综合征(Fraser syndrome),一种罕见的常染色体隐性疾病,以隐睾、并指、呼吸系统及泌尿生殖系统异常等为主要特征,25%的患儿为死胎,20%的患儿一岁前致死。因此F2女性与M3供精者的配对被排除。其余四例在与F2女性配对的基因中没有出现致病或疑似致病的变异,因此其后代患上严重的常染色体隐性遗传病的风险较低,可以优选遗传风险更低的前三名推荐供精。
表4:实际案例分析结果(每对配对仅列出风险评估排名前二的配对基因)
Figure BDA0002169650070000202
Figure BDA0002169650070000211
实施例4遗传风险预警系统对比分析研究
专利201810877290.6中也涉及到对变异进行综合性打分,因此本发明随机取三例样本将本发明算法与201810877290.6专利算法对比。表5、表6和表7分别为上述9F/9M,10F/10M,11F/11M夫妇的配对结果。该三对夫妇的配对基因数量分别为82、123和39,其后代真正致病原因的变异和基因在201810877290.6专利中排名分别为68、79和1,而在本发明算法中排名分别为1,2,1。可以看到,201810877290.6专利算法的不稳定性非常强。虽然在11F/11M夫妇中能将致病变异排名第一,但在其余两例的排名非常靠后,很多良性变异都排在致病变异前,错误判断致病变异。其次,201810877290.6专利算法对变异的致病性区分度非常低,根据我们的测试数据,所有变异的Sv在-2到11,Sg在3到17之间,这个区间范围不足以区分在数千个变异中真正的致病变异,在结果中也可以看到大多数变异的评分是一样的。最后,201810877290.6专利算法的Sg除了考虑了变异的严重程度外,仅考虑了基因对疾病的关联性和遗传模式的影响,并没有考虑基因功能损失后造成疾病的症状严重程度。本发明增加了疾病症状严重程度的打分,本发明主要是针对出生缺陷疾病的风险评估,因此对于发病年龄早且症状严重的疾病该项分值较高,而对于成年发病且症状不严重的疾病该项分值较低。
表5:9F,9M夫妇的配对结果
Figure BDA0002169650070000221
Figure BDA0002169650070000231
Figure BDA0002169650070000241
表6:10F,10M夫妇的配对结果
Figure BDA0002169650070000242
Figure BDA0002169650070000251
Figure BDA0002169650070000261
表7:11F,11M的配对结果
Figure BDA0002169650070000262
Figure BDA0002169650070000271

Claims (16)

1.一种适用于辅助生殖供精策略的遗传风险预警系统的数据库的构建方法,所述数据库包含待测样本数据库和遗传变异致病性证据数据库,其特征在于,包含以下步骤:
(1)通过生物学检测方法获取捐精志愿者的遗传信息数据文件;
(2)通过生物学检测方法获取需要供精辅助生殖的待孕女性的遗传信息数据文件;
上述步骤(1)和(2)获得的遗传信息数据文件构成待测样本数据库;
(3)对待测样本数据库中包含的遗传变异位点进行筛选;
(4)对筛选出的遗传变异位点赋予证据定义:PVS,PM,PS,PP,BA,BS,BP为不同大类;
(5)按照分级规则,将步骤(4)获得的遗传变异位点进行致病性分级;
通过上述步骤(3)至(5)获得遗传变异致病性证据数据库;
步骤(3)所述筛选包含以下步骤:
1)质量控制:满足以下参数且测序深度(depth)大于等于8的遗传变异位点方可通过筛选,否则进入回收环节:
SNP:QD<2.0,MQ<40.0,FS>60.0,SOR>3.0,MQRankSum<-12.5,ReadPosRankSum<-8.0;
Indel:QD<2.0,ReadPosRankSum<-20.0,InbreedingCoeff<-0.8,FS>200.0,SOR>10.0;
2)同源区筛选:步骤1)筛选通过的遗传变异位点前后序列用blast软件进行对比分析,相似度大于90%的比对序列个数即视为同源区的数量,排除同源区数量>10的遗传变异位点;
3)频率筛选:步骤2)筛选通过的遗传变异位点进入频率筛选,频率筛选分为两部分,等位基因频率和纯合子数量;人群数据库的等位基因频率>0.2的遗传变异位点直接排除,0.05~0.2区间进入回收环节,<0.05通过筛选;若人群数据库的等位基因频率<0.2的遗传变异位点的纯合子数量大于5,则该遗传变异位点进入回收环节;所述人群数据库选自gnomAD、ExAc和/或1000genomes;
4)区域筛选:步骤3)筛选通过的遗传变异位点进入区域筛选,外显子区中排除非翻译区(UntranslatedRegion,UTR)和同义变异,剪接区仅保留剪接位点,其他区域均不保留,此条件过滤的所有遗传变异位点均进入回收环节;
5)回收环节:所有进入回收环节的遗传变异位点,满足以下三个条件之一,直接通过筛选,进入下一环节的分析:①Clinvar数据库记录为致病或疑似致病的;②HGMD数据库记录为致病(Disease causing mutation,DM)或疑似致病DM;③dbscSNV_ADA/RF算法认为其影响剪接的。
2.根据权利要求1所述方法,其特征在于,证据定义规则如下所述:
(1)PVS大类:
PVS1:该遗传变异被标记为功能丧失型变异,且所在基因被OMIM记录为隐性遗传,或HGMD记录曾出现至少1个功能丧失型变异,或pRec算法预测该基因为隐性遗传;
(2)PS大类:
PS1:该遗传变异为错义变异,且在HGMD或Clinvar疾病数据库中曾出现过致病或疑似致病变异,所述致病或疑似致病变异为碱基改变不同但氨基酸改变相同的变异;
PS4:该变异在拥有疾病和健康人群数据的全基因组关联分析数据库中OR值大于等于5,所述全基因组关联分析数据库为GWASdb;
(3)PM大类:
PM1:该变异位于热点变异区,或位于重要的功能结构域;所述热点变异区是指在待评级变异位点蛋白质前后曾出现4~6个以上致病或疑似致病变异报道的功能区域;
PM2:若该变异所在基因为隐性基因,其在人群数据库的频率小于等于万分之五,且无纯合子报道;若为非隐性基因,则未见任何人群数据库报道;所述人群数据库选自gnomAD、ExAc和1000genomes;
PM4:该变异为非移码缺失插入变异或终止密码子丢失,且不在重复区内,且保守性预测软件认为保守;所述保守性预测软件选自Polyphen-2、MutationTastor和SIFT2;
PM5:该变异为错义变异,且在HGMD或Clinvar疾病数据库中曾出现相同蛋白质位置但氨基酸种类不同的致病或疑似致病变异;
(4)PP大类:
PP2:该变异为错义变异,且所在基因的常见致病原因是错义变异;所在基因的常见致病原因是错义变异的标准为,该基因曾被报道过的致病性变异至少大于75%、80%或85%均为错义变异;
PP3:Polyphen2,MutationTastor,和/或SIFT多方面的预测软件均认为该变异有害,且位于保守区;
PP5:该变异在HGMD或Clinvar疾病数据库中收录为致病或疑似致病变异;
(5)BA大类:
BA1:外部和/或内部人群数据库中等位基因频率大于等于0.05;
(6)BS大类:
BS1:外部和/或内部人群数据库中等位基因频率大于等于0.01,可以用户自定义;
BS2:基因对应疾病为早期发病,该变异在外部和/或内部健康人群数据库中存在纯合子(常染色体隐性遗传或X染色体连锁遗传)、杂合子(常染色体显性遗传)、半合子(X染色体连锁遗传);
(7)BP大类:
BP1:该变异为错义变异,且所在基因的主要致病机制为功能丧失型;所在基因的主要致病机制为功能丧失型的标准为,变异所在基因在HGMD或Clinvar中出现至少5个以上的功能丧失型变异,且无错义变异致病的报道;
BP3:位于重复区的非单碱基变异;
BP4:Polyphen2,MutationTastor,SIFT多方面的预测软件均认为该变异无害;
BP6:该变异在Clinvar疾病数据库中收录为良性或疑似良性变异;
BP7:该变异为同义变异,且位于不保守区域,且机器预测不影响剪接;
其余不能自动化的评级,可由用户自己提供。
3.根据权利要求2所述方法,其特征在于,所述功能丧失型变异为起始密码子丢失、无义变异、移码变异。
4.根据权利要求3所述方法,其特征在于,致病性分级规则如下:
(1)致病(Pathogenic,P):
1)包含1个PVS1,加上1个以上PS,或加上2个以上PM,或加上1个PM和1个PP,或加上两个以上PP;
2)至少2个PS;或,
3)包含1个PS,加上至少3个PM,或加上2个PM和至少2个PP,或加上1个PM和至少4个PP;
(2)疑似致病(Likely Pathogenic,LP):
1)1个PVS1和1个PM;
2)1个PS,加上1或2个PM,或加上2个PP;
3)至少3个PM;
4)2个PM和至少2个PP;或,
5)1个PM和至少4个PP;
(3)倾向于疑似致病的临床意义未明(VUS-LP):
1)至少包含1个PVS/PS/PM/PP证据,但无任何BA/BS/BP证据,且不足以评上致病或疑似致病;
(4)临床意义未明(VUS,Variant of unknown significance):
1)无任何证据;或,
2)存在冲突的证据,即同时存在PVS/PS/PM/PP和BA/BS/BP两大类证据;
(5)倾向于疑似良性的临床意义未明(VUS-LB):
1)至少包含1个BA/BS/BP证据,但无任何PVS/PS/PM/PP证据,且不足以评上良性或疑似良性;
(6)疑似良性(Likely Benign,LB):
1)1个BS和1个BP;或,
2)至少2个BP;
(7)良性(Benign,B):
1)1个BA1;或,
2)至少2个BS。
5.根据权利要求1-4任一项所述数据库的构建方法,其特征在于,获取遗传信息的方式选自以下组中的一种或多种的组合:二代基因测序、全外显子组测序、全基因组测序、sanger测序、CNV-seq、
Figure FDA0002936584290000041
Figure FDA0002936584290000042
6.根据权利要求1-4任一项所述数据库的构建方法,其特征在于,根据待孕女性的意愿选择特定血型的供精志愿者与待孕女性进行分析及配对。
7.一种适用于辅助生殖供精策略的遗传风险预警系统的数据库系统,所述数据库系统包含能够计算处理样本数据的软件、和用于承载上述软件的硬件,其特征在于,
(1)所述系统还包含储存有待测样本的遗传变异基因信息的硬件;所述待测样本为捐精志愿者和需要供精辅助生殖的待孕女性,所述样本数据即为待测样本的遗传变异基因信息;
(2)所述软件对样本数据中包含的遗传变异位点进行筛选;根据权利要求1中步骤(3)所述方法进行筛选;
(3)所述软件根据权利要求2中所述规则赋予筛选出的遗传变异位点证据定义;
(4)所述软件按照权利要求4中所述规则将步骤(3)获得的遗传变异位点进行致病性分级;
(5)根据步骤(2)至(4)获得致病性分级成功的遗传变异致病性证据数据库;
(6)所述系统还包含储存有步骤(5)所述遗传变异致病性证据数据库的硬件。
8.根据权利要求7所述数据库系统,其特征在于,获取遗传信息的方式选自以下组中的一种或多种的组合:二代基因测序、全外显子组测序、全基因组测序、sanger测序、CNV-seq、
Figure FDA0002936584290000051
Figure FDA0002936584290000052
9.根据权利要求7或8所述数据库系统,其特征在于,根据待孕女性的意愿选择特定血型的供精志愿者与待孕女性进行分析及配对。
10.一种用于辅助生殖供精策略的遗传风险预警方法,其特征在于,包含如下步骤:
(1)通过生物学检测方法获取捐精志愿者的遗传信息;
(2)通过生物学检测方法获取需要供精辅助生殖的待孕女性的遗传信息;
(3)根据权利要求1-4任一项所述方法构建适用于辅助生殖供精策略的遗传风险预警系统的数据库;
(4)根据遗传风险预警规则对捐精志愿者的遗传信息和需要供精辅助生殖的待孕女性的遗传信息进行配对,得到配对分数;根据配对分数排序,进行供精策略推荐。
11.根据权利要求10所述方法,其特征在于,步骤(4)所述遗传风险预警规则为:
(1)男女双方分别在同一基因上出现相同或不同的遗传变异时,遗传变异位点和基因保留,其余遗传信息不保留;
(2)基因打分Sgene:根据步骤(1)保留的遗传变异位点和基因,从OMIM和HPO数据库中抓取遗传模式SI,发病年龄SO,疾病严重程度SE,基因与疾病的关联程度w信息,并按照不同程度给予权重,公式如下:
Sinher=max(SIhpo,w*SIomim,)
Sonset=max(SOhpo,w*SOomim)
Ssever=max(SEhpo)
Sgene=Sinher*Sonset*Ssever
(3)变异打分Svariant:根据遗传变异位点的致病性分级给予不同权重作为变异打分,当配对的基因上出现多个变异时,取同一个基因中遗传变异位点的致病性分级最高的作为男方或女方基因的变异打分Vmale或Vfemale;男方与女方的同一个基因的变异打分相加,作为对其后代遗传风险性的评估,公式如下:
Svaiant=max(Vmale)+max(Vfemale);
(4)基因配对分数Match Score,Smatch
最终的配对基因的配对分数为基因打分和变异打分相乘:
Smatch=Sgene*Svariant
(5)排序
每对男女的每个配对基因都有一个基因配对分数Smatch,在同一男女配对结果中,基因配对分数Smatch最高分为该配对男女的配对分数;
1)若配对结果显示,男女方的配对基因打分Sgene大于1,且一方携带致病P或疑似致病LP的变异,另一方携带VUS-LB以上的变异P、LP、VUS-LP或VUS,该配对需要排除;即该对男女生育的后代患严重常染色体隐性遗传病的风险较高,不推荐供精;
2)同一女方,在步骤1)排除后,其余男女配对结果,配对分数越低即后代患严重遗传病风险越低,应优先推荐。
12.根据权利要求10或11所述遗传风险预警方法,其特征在于,获取遗传信息的方式选自以下组中的一种或多种的组合:二代基因测序、全外显子组测序、全基因组测序、sanger测序、CNV-seq、
Figure FDA0002936584290000064
Figure FDA0002936584290000065
13.根据权利要求10或11所述遗传风险预警方法,其特征在于,根据待孕女性的意愿选择特定血型的供精志愿者与待孕女性进行分析及配对。
14.一种用于辅助生殖供精策略的遗传风险预警系统,所述系统包含能够计算处理样本数据的软件、和用于承载上述软件的硬件,其特征在于,
(1)所述系统还包含储存有待测样本的遗传变异基因信息的硬件;所述待测样本为捐精志愿者和需要供精辅助生殖的待孕女性,所述样本数据即为待测样本的遗传变异基因信息;
(2)所述系统还包含储存有遗传变异致病性证据数据库的硬件;
1)所述软件对样本数据中包含的遗传变异位点进行筛选;根据权利要求1中步骤(3)所述方法进行筛选;
2)所述软件根据权利要求2中所述规则赋予筛选出的遗传变异位点证据定义;
3)所述软件按照权利要求4中所述规则将步骤2)获得的遗传变异位点进行致病性分级;
4)获得所述遗传变异致病性证据数据库;和,
(3)所述软件根据权利要求11中所述规则进行遗传风险预警。
15.根据权利要求14所述遗传风险预警系统,其特征在于,获取遗传信息的方式选自以下组中的一种或多种的组合:二代基因测序、全外显子组测序、全基因组测序、sanger测序、CNV-seq、
Figure FDA0002936584290000074
Figure FDA0002936584290000075
16.根据权利要求14或15所述遗传风险预警系统,其特征在于,根据待孕女性的意愿选择特定血型的供精志愿者与待孕女性进行分析及配对。
CN201910758921.7A 2019-08-16 2019-08-16 一种用于辅助生殖供精策略的遗传风险预警方法和系统 Active CN110364226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910758921.7A CN110364226B (zh) 2019-08-16 2019-08-16 一种用于辅助生殖供精策略的遗传风险预警方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910758921.7A CN110364226B (zh) 2019-08-16 2019-08-16 一种用于辅助生殖供精策略的遗传风险预警方法和系统

Publications (2)

Publication Number Publication Date
CN110364226A CN110364226A (zh) 2019-10-22
CN110364226B true CN110364226B (zh) 2021-03-26

Family

ID=68224877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910758921.7A Active CN110364226B (zh) 2019-08-16 2019-08-16 一种用于辅助生殖供精策略的遗传风险预警方法和系统

Country Status (1)

Country Link
CN (1) CN110364226B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270783B (zh) * 2020-09-27 2022-09-16 四川大学华西第二医院 基于三维人脸识别技术的精子库身份核验及流程管理系统
CN113689914B (zh) * 2020-12-17 2024-02-20 武汉良培医学检验实验室有限公司 一种单基因遗传病扩展性携带者筛查方法及芯片
CN112735599A (zh) * 2021-01-26 2021-04-30 河南省人民医院 一种判断罕见遗传性疾病的评估方法
CN112908412A (zh) * 2021-02-10 2021-06-04 北京贝瑞和康生物技术有限公司 用于复合杂合变异致病证据适用性的方法、设备和介质
CN113611361B (zh) * 2021-08-10 2023-08-08 飞科易特(广州)基因科技有限公司 一种用于婚恋匹配的单基因常染色体隐性遗传病的匹配方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086571A (zh) * 2018-08-03 2018-12-25 国家卫生计生委科学技术研究所 一种单基因病遗传变异智能解读及报告的方法和系统
CN109686439A (zh) * 2018-12-04 2019-04-26 东莞博奥木华基因科技有限公司 遗传病基因检测的数据分析方法、系统及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013113326A1 (en) * 2012-01-31 2013-08-08 Curevac Gmbh Pharmaceutical composition comprising a polymeric carrier cargo complex and at least one protein or peptide antigen
US9822418B2 (en) * 2013-04-22 2017-11-21 Icahn School Of Medicine At Mount Sinai Mutations in PDGFRB and NOTCH3 as causes of autosomal dominant infantile myofibromatosis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086571A (zh) * 2018-08-03 2018-12-25 国家卫生计生委科学技术研究所 一种单基因病遗传变异智能解读及报告的方法和系统
CN109686439A (zh) * 2018-12-04 2019-04-26 东莞博奥木华基因科技有限公司 遗传病基因检测的数据分析方法、系统及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Basonuclin 1 deficiency is a cause of primary ovarian insufficiency;Dan Zhang 等;《Human Molecular Genetics》;20181101;第27卷(第21期);第1-2页 *
Efficient Mining of Variants From Trios for Ventricular Septal Defect Association Study;Peng Jiang 等;《COVID-19》;20190808;第1-2页 *
GATK hard filtering: tunable parameters to improve variant calling for next generation sequencing targeted gene panel data;Simona De Summa 等;《BMC Bioinformatics》;20170323;第1-2页 *
男性不育症患者解脲脲原体感染情况与精液检查结果分析;刘浏 等;《中国现代医生》;20180930(第18期);第1-2页 *
精子发生障碍导致男性不育的基础研究及其临床应用;张锋 等;《上海医学》;20190731(第7期);第1-2页 *

Also Published As

Publication number Publication date
CN110364226A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN110364226B (zh) 一种用于辅助生殖供精策略的遗传风险预警方法和系统
Faraone et al. Quantitative models of the genetic transmission of schizophrenia.
Li et al. Predicting mendelian disease-causing non-synonymous single nucleotide variants in exome sequencing studies
Hensiek et al. HLA-DR 15 is associated with female sex and younger age at diagnosis in multiple sclerosis
Freson et al. High‐throughput sequencing approaches for diagnosing hereditary bleeding and platelet disorders
CN110931081A (zh) 一种人单基因遗传疾病检测生物信息分析方法
Shemesh et al. Machine learning analysis of naïve B-cell receptor repertoires stratifies celiac disease patients and controls
Moldin Indicators of liability to schizophrenia: perspectives from genetic epidemiology
Purves et al. The common genetic architecture of anxiety disorders
He et al. The added value of whole-exome sequencing for anomalous fetuses with detailed prenatal ultrasound and postnatal phenotype
Yang et al. Population genetics of marmosets in Asian primate research centers and loci associated with epileptic risk revealed by whole-genome sequencing
Baron Genetic models of schizophrenia
Fischer et al. BRCA1/2 testing: uptake, phenocopies, and strategies to improve detection rates in initially negative families
Gu et al. A suite of automated sequence analyses reduces the number of candidate deleterious variants and reveals a difference between probands and unaffected siblings
Yuan et al. A Rare Novel CLCN2 Variation and Risk of Gilles de la Tourette Syndrome: Whole-Exome Sequencing in a Multiplex Family and a Follow-Up Study in a Chinese Population
Chang et al. Clinical and genetic analysis of familial neuromyelitis optica spectrum disorder in Chinese: associated with ubiquitin-specific peptidase USP18 gene variants
Wang et al. Elongated axial length and myopia-related fundus changes associated with the Arg130Cys mutation in the LIM2 gene in four Chinese families with congenital cataracts
EP3465210B1 (en) Methods and systems using c4 gene copy number and cell-bound complement activation products for identification of lupus and pre-lupus
Zaninetti et al. MYH9-related thrombocytopenia: four novel variants affecting the tail domain of the non-muscle myosin heavy chain IIA associated with a mild clinical evolution of the disorder
Zavarzadeh et al. Whole-exome sequencing analysis in a case of primary congenital glaucoma due to the partial uniparental isodisomy
CN113674860B (zh) 一种难治性iTTP风险预测装置、系统及其应用
Wang et al. Relationship between long non-coding RNA polymorphism and the risk of coronary artery disease: A protocol for systematic review and meta-analysis
Xu et al. Novel SPTB frameshift mutation in a Chinese neonatal case of hereditary spherocytosis type 2: A case report
Harris et al. Detection of genetic heterogeneity between families of insulin-dependent diabetes mellitus patients using linkage analysis.
Wang et al. A novel compound heterozygous mutation of the CLCN7 gene is associated with autosomal recessive osteopetrosis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant