CN112002417B - 一种多基因分子诊断模型、其构建方法及应用 - Google Patents

一种多基因分子诊断模型、其构建方法及应用 Download PDF

Info

Publication number
CN112002417B
CN112002417B CN202010857975.1A CN202010857975A CN112002417B CN 112002417 B CN112002417 B CN 112002417B CN 202010857975 A CN202010857975 A CN 202010857975A CN 112002417 B CN112002417 B CN 112002417B
Authority
CN
China
Prior art keywords
mutation
model
autism spectrum
mutation sites
spectrum disorder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010857975.1A
Other languages
English (en)
Other versions
CN112002417A (zh
Inventor
周家秀
林飞飞
王明帮
林鄞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Childrens Hospital
Original Assignee
Shenzhen Childrens Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Childrens Hospital filed Critical Shenzhen Childrens Hospital
Priority to CN202010857975.1A priority Critical patent/CN112002417B/zh
Publication of CN112002417A publication Critical patent/CN112002417A/zh
Application granted granted Critical
Publication of CN112002417B publication Critical patent/CN112002417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明实施例涉及一种多基因分子诊断模型、其构建方法及应用。其构建方法包括:征集发现阶段和验证阶段的研究对象,所述研究对象为健康人和孤独症谱系障碍患者;在所述发现阶段,统计获得所述健康人和所述孤独症谱系障碍患者之间存在显著差异的突变位点;在所述验证阶段,统计获得所述健康人和所述孤独症谱系障碍患者之间存在显著差异的突变位点;基于在所述发现阶段和所述验证阶段均存在显著差异的突变位点,构建机器学习模型;所述机器学习模型为分类器。该多基因分子诊断模型可以系统的评估ASD儿童免疫应答分子基因突变情况,对于自闭症的诊断很有价值并用以辅助自闭症的早期诊断,提早进行干预。

Description

一种多基因分子诊断模型、其构建方法及应用
【技术领域】
本发明涉及基因诊断技术领域,尤其涉及一种多基因分子诊断模型、其构建方法及应用。
【背景技术】
孤独症谱系障碍(ASD,Autism Spectrum Disorders)是一组影响终生的神经系统发育障碍,影响着超过1%的学龄期儿童,给普通家庭和整个社会造成了严重的经济和社会负担,目前尚缺乏可行的实验室诊断方法和有效的治愈方案。
早期的证据表明免疫系统的失调与ASD相关,孕期感染/孕期免疫激活(maternalimmune activation,MIA)是ASD的一个环境风险因子,MIA小鼠后代常表现出ASD样行为,是目前比较成功的ASD小鼠模型,Choi等研究发现MIA诱导的ASD样行为依赖于Th17细胞和母体IL-17a,通过阻断IL-17a可改善MIA小鼠后代的行为异常;越来越多的证据表明ASD患者存在血清细胞因子异常,Tsilioni等发现血清IL-6和TNF可以定义ASD亚组,其从天然类黄酮木犀草素的治疗中获益最多,Al-Ayadhi等对45名6-12岁自闭症儿童进行的横断面研究显示,IL-17A与自闭症严重程度呈正相关,近50%的自闭症儿童血清IL-17A水平升高,其中67.9%为重度儿童,17%为轻度至中度ASD儿童;同时,ASD患者免疫系统的失调还表现为淋巴细胞数量异常,血清脑特异性自身抗体的存在以及肠道免疫功能异常。
考虑到ASD有很强的遗传背景,对ASD患者进行临床遗传学评估是新近发展的一种实验室诊断方法。但是ASD有很高的遗传异质性,单个变异对ASD的解释度极小,所以进行在ASD临床遗传学评估时,需要采用染色体芯片结合全外显子组/全基因组测序方法,该方法成本较高,数据解读有一定的难度,在一定程度上限制了ASD患者的临床遗传学评估的开展。
因此,如何实现自闭症患者的免疫基因的系统评估,对早期进行自闭症风险评估提供指导,结合临床和观察特征,帮助医生早期诊断出自闭症风险儿童,并进行干预是一个迫切需要解决的问题。
【发明内容】
本发明实施例旨在提供一种多基因分子诊断模型、其构建方法及应用,旨在解决现有ASD临床遗传学评估方式所存在的缺陷。
为解决上述技术问题,本发明实施例提供以下技术方案:一种孤独症谱系障碍的多基因分子诊断模型的构建方法,其特征在于,包括:
征集发现阶段和验证阶段的研究对象,所述研究对象为健康人和孤独症谱系障碍患者;
在所述发现阶段,统计获得所述健康人和所述孤独症谱系障碍患者之间存在显著差异的突变位点;
在所述验证阶段,统计获得所述健康人和所述孤独症谱系障碍患者之间存在显著差异的突变位点;
基于在所述发现阶段和所述验证阶段均存在显著差异的突变位点,构建机器学习模型;所述机器学习模型为分类器。
可选地,所述统计获得所述健康人和所述孤独症谱系障碍患者之间存在显著差异的突变位点,具体包括:
提取研究对象的DNA样本;
通过所述DNA样本,建立小片段测序文库;
基于所述小片段测序文库,捕获目标基因以建立目标区域捕获文库;
对构建完毕的目标区域捕获文库进行高通量测序,获得测序结果;
对所述测序结果进行变异检测;
统计分析所述变异检测结果中,存在显著差异的突变位点。
可选地,所述健康人作为健康对照组,所述孤独症谱系障碍患者作为患者组;所述统计分析所述变异检测结果中,存在显著差异的突变位点,具体包括:
计算健康对照组和患者组中携带的稀有突变位点,所述稀有突变位点包括杂合突变和纯合突变;
使用费舍尔检测计算所述稀有突变位点的P值,并且使用FDR校正;
根据所述FDR校正结果,确定存在显著差异的突变位点。
可选地,所述机器学习模型为随机森林模型,模型条件为所述显著差异的突变位点,模型结果为是否为孤独症谱系障碍患者。
可选地,所述基于在所述发现阶段和所述验证阶段均存在显著差异的突变位点,构建机器学习模型,具体包括:
使用所述发现阶段的数据,通过K-折交叉验证选定目标的模型参数;
以所述发现阶段的数据作为训练数据,训练获得对应的分类器;
通过所述验证阶段的数据,验证所述训练获得的分类器。
可选地,所述K-折交叉验证为6折交叉验证。
可选地,所述方法还包括:计算所述多基因分子诊断模型的ROC曲线和AUC值。
可选地,所述显著差异的突变位点包括如下4个稀有的功能性突变:
LILRB2基因的错义突变p.R322H;
LILRB2基因的剪接突变c.956-4C>T;
HLA-DQB1基因的错义突变p.S229N;
HLA-B基因的错义突变p.A93G。
本发明实施例还提供了一种多基因分子诊断模型。所述多基因分子诊断模型通过如上所述的构建方法构建获得。
本发明实施例还提供了如上所述的多基因分子诊断模型在孤独症谱系障碍临床遗传学评估工具中的应用。
与现有技术相比较,本发明实施例提供的多基因分子诊断模型可以系统的评估ASD儿童免疫应答分子基因突变情况,对于自闭症的诊断很有价值并用以辅助自闭症的早期诊断,提早进行干预。据此还可以进一步的开发新的ASD临床遗传学评估工具,具有良好的应用前景。
【附图说明】
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1为本发明实施例的构建方法的流程图;
图2为本发明实施例分析确定差别显著突变位点的流程图;
图3为本发明实施例的多基因分子诊断模型的回顾性结果的示意图。
【具体实施方式】
为了便于理解本发明,下面结合附图和具体实施例,对本发明进行更详细的说明。需要说明的是,当元件被表述“固定于”另一个元件,它可以直接在另一个元件上、或者其间可以存在一个或多个居中的元件。当一个元件被表述“连接”另一个元件,它可以是直接连接到另一个元件、或者其间可以存在一个或多个居中的元件。本说明书所使用的术语“上”、“下”、“内”、“外”、“底部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本说明书中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本发明实施例提供了一种用于诊断孤独症谱系障碍的多基因分子诊断模型。其基于在健康人和ASD患者之间具有显著差异的突变位点训练构建获得。其是一个机器学习模型,可以根据待检测人的基因型情况,输出相应的判断结果,进行待检测对象的自闭症风险判断。
图1为本发明实施例提供的孤独症谱系障碍的多基因分子诊断模型的构建方法。如图1所示,该构建方法包括如下步骤:
110、征集发现阶段和验证阶段的研究对象,所述研究对象为健康人和孤独症谱系障碍患者。
120、在所述发现阶段,统计获得所述健康人和所述孤独症谱系障碍患者之间存在显著差异的突变位点。
130、在所述验证阶段,统计获得所述健康人和所述孤独症谱系障碍患者之间存在显著差异的突变位点。
其中,所述发现阶段和验证阶段是两个不同的阶段,可以选择征集不同的研究对象,用以发现突变位点并验证突变位点之间的差异。
在一些实施例中,经过检测和筛选,分析确定所述显著差异的突变位点包括如下4个稀有的功能性突变:LILRB2基因的错义突变p.R322H;LILRB2基因的剪接突变c.956-4C>T;HLA-DQB1基因的错义突变p.S229N;HLA-B基因的错义突变p.A93G。
这4个免疫应答因子基因突变存在于44.44%(32/72)的ASD患者中,与健康人的基因型具有显著的差异,可作为ASD临床遗传学评估的新靶标,具有良好的应用前景。
140、基于在所述发现阶段和所述验证阶段均存在显著差异的突变位点,构建机器学习模型。
其中,所述机器学习模型为分类器。该分类器是一个基于机器学习的模型,可以根据发现阶段和验证阶段采集获得的数据进行训练和验证,从而完成多基因分子诊断模型的构建,用于后续的自闭症检测。
具体的,所述机器学习模型可以选择使用随机森林模型。其模型条件为所述显著差异的突变位点,而模型结果为是否为孤独症谱系障碍患者。其具体的构建过程如下:
首先,使用所述发现阶段的数据,通过K-折交叉验证选定目标的模型参数。K值为常数,技术人员可以根据实际情况的需要而确定,例如可以设置为6。然后,以所述发现阶段的数据作为训练数据,训练获得对应的分类器。最后,通过所述验证阶段的数据,验证所述训练获得的分类器。
较佳的是,在训练获得多基因分子诊断模型后,还可以进一步的计算所述多基因分子诊断模型的ROC曲线和AUC值,作为衡量模型性能的指标,确定模型的实际使用效果。
在一些实施例中,如图2所示,所述统计获得所述健康人和所述孤独症谱系障碍患者之间存在显著差异的突变位点,具体包括如下步骤:
210、提取研究对象的DNA样本。
220、通过所述DNA样本,建立小片段测序文库。
230、基于所述小片段测序文库,捕获目标基因以建立目标区域捕获文库。
240、对构建完毕的目标区域捕获文库进行高通量测序,获得测序结果。
250、对所述测序结果进行变异检测。
260、统计分析所述变异检测结果中,存在显著差异的突变位点。
在实际操作过程中,可以将健康人作为健康对照组,所述孤独症谱系障碍患者作为患者组。首先,计算健康对照组和患者组中携带的稀有突变位点,所述稀有突变位点包括杂合突变和纯合突变。然后,使用费舍尔检测计算所述稀有突变位点的P值,并且使用FDR校正。最后,根据所述FDR校正结果,确定存在显著差异的突变位点。
在发现阶段和验证阶段均进行统计分析突变位点的操作,完成对突变位点的验证,从而确保得到突变位点的准确性。
以下结合具体实例,详细描述该多基因分子诊断模型的构建过程并充分说明、验证模型的使用性能。
1、研究对象征集:
所有研究对象对本研究知情并签署知情同意书,本研究经深圳市儿童医院伦理委员会批准。其中,患者组来自深圳市儿童医院心理科ASD患儿。患者组的纳入标准具体如下:
①根据《美国精神障碍诊断与统计手册第5版》,诊断为ASD“需要非常多支持”的患儿;②年龄<14岁;③性别不限。
而患者组的排除标准为:
①患有其他精神疾病(如强迫症,多动症等);
②患有其他神经发育障碍疾病;
③患有遗传代谢性疾病;
④患有严重神经疾病以及颅脑损伤史等重大躯体疾病史;
⑤近2周内有急性躯体疾病及使用过抗生素。
健康人纳入健康对照组的纳入标准为:
①无精神疾病,身体健康;②年龄不限。
2、DNA样本提取和质检:
抽取3-5毫升全血,并储存在-80℃。然后使用PureLink基因组DNA小量提取试剂盒(Thermo Fisher,Foster City,CA)从全血样品中提取DNA,对基因组DNA样品进行质控,利用NanoDrop ND2000(Thermo Fisher,USA)进行定量检测浓度及纯度。
其中,样本的合格标准为:DNA总量在1μg以上,纯度A260/280比值在1.8-2.0范围内。同时结合琼脂糖凝胶电泳的电泳结果辅助判断:即DNA主带清晰可见且片段大小在23K左右,来判断的基因组完整性。
3、小片段库建库:
首先,取1μg的DNA样本,利用Bioruptor打断仪(Diagenode,Belgium),设置参数为:ON 30秒,OFF30秒,共30cycles,将DNA打断成150bp-250bp大小(取对照样品电泳检测条带来判断)。
然后对打断后形成的基因组DNA小片段,进行末端补平(Enzymatics Inc,USA)。具体操作步骤为:ABI 2720型PCR仪(Thermo Fisher,USA),加热模块设置20℃,时间30min,4℃保温,然后利用MagPure A3 XP beads(Magen,China)进行磁珠纯化。
5‘段磷酸基团修复和3’段加A(Enzymatics Inc,USA)。具体操作步骤为:ABI 2720型PCR仪(Thermo Fisher,USA),加热模块设置37℃,时间30min,4℃保温,然后利用MagPureA3 XP beads(Magen,China)进行磁珠纯化。
最后,将适合Illumina Hiseq测序仪(Illumina,San Diego,CA,USA)的合成好的Pare End Adapters接头(Thermo Fisher,USA)进行连接。具体操作步骤为:ABI 2720型PCR仪(Thermo Fisher,USA),加热模块设置20℃,时间20min,4℃hold,然后利用MagPure A3XP beads(Magen,China)进行磁珠纯化。
对纯化后的连接产物,利用ABI 2720PCR仪(Thermo Fisher,USA)进行PCR预扩增(KAPA Biosystems,USA),并引入能区分单个样本的合成好的Index序列(Thermo Fisher,USA),PCR的参数是,95℃持续4分钟,98℃持续20s,65℃持续30s,5个循环,72℃持续30s,72℃持续5min,12℃保温,以得到小片段测序文库。
然后,取1μl小片段文库进行Qubit dsDNA HS Assay Kit(Thermo Fisher,USA)进行定量,并对捕获文库进行浓度检测,文库的合格标准是大于3ng/μl。
4、目标区域捕获:
针对404个免疫应答基因的目标区域捕获参照TargetSeq液相芯片捕获测序试剂盒(iGeneTech,Beijing,China)进行。
首先,在杂交捕获前将小片段库混之以Hyb block,从而对基因组中的重复序列进行封闭,避免基因组中重复序列自我形成杂交体。
然后,将Hyb Buffer(iGeneTech,Beijing,China)置于室温融化,混匀后置于65℃水浴锅内预热,溶液完全溶解后(无沉淀及浑浊物),每个样品取20μl Hyb Buffer(iGeneTech,Beijing,China)置于PCR管内,继续置于65℃水浴锅内孵育。
另外,在杂交前还需准备5μl RNase block(Thermo Fisher,USA),与单链RNA探针混合以防止探针降解。
液相杂交捕获的原理是利用单链DNA片段与单链RNA探针在序列上的互补配对的原则,将单链RNA探针对应的目标DNA形成DNA-RNA杂交体,以实现目标区域的杂交捕获。
杂交捕获在ABI 2720PCR仪(Thermo Fisher,USA)上进行,盖上管盖并盖好PCR仪热盖,65℃孵育过夜(8-16h)。杂交完成后,由于探针上带有的生物素标记,可通过抗生物素标记的磁珠,即Dynabeads MyOne Streptavidin T1 magnetic beads(Thermo Fisher,美国),将DNA-RNA杂交体结合到磁珠上。
在杂交过程中,磁珠-DNA-RNA复合物存在众多非特异性结合,需要通过洗涤液(iGeneTech,Beijing,China)对非特异性结合的磁珠-DNA-RNA复合物进行洗涤,从而去除非特异性结合的DNA。较佳的,可以对杂交捕获得到的目标区域,在ABI 2720PCR仪(ThermoFisher,USA)上进行PCR富集,PCR参数具体如下:95℃维持4mins变性;98℃维持20s 65℃维持30s,16个循环,72℃持续30s,72℃持续5min,12℃保温。
PCR扩增试剂来自KAPA Biosystems,USA;Nextflex primer合成于Invitrogen,China。扩增后及为的目标区域捕获文库利用Qubit dsDNA HS Assay Kit进行质检,文库合格的标准是大于3ng/μl。
5、高通量测序:
对构建好的测序文库,进行HiSeq X-ten测序仪(Illumina,San Diego,CA,USA)PE150上机测序。
6、生物信息分析:
测序原始数据先利用Trimmomatic软件过滤接头序列和低质量序列(接头序列为GATCGGAAGAGCACACGTCT和AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT)。过滤低质量序列的标准是碱基质量值大于20(即正确率大于99%),除去序列中不满足条件的碱基,同时除去碱基过滤后长度低于40bp的序列。
最后采用fastqc软件,对过滤后的数据进行质量评估,使得测序质量值大于30的碱基在95%以上的干净数据(Clean Reads)。对得到的Clean Reads,利用BWA-MEM软件比对到人类参考基因组(Feb.2009,hg19,GRCh37,download from UCSC)上,生成比对的BAM文件。
其中,fastqc软件来自如下网站:
http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/
另外,为了提高最终结果的准确性,去除实验中PCR重复的影响,在比对完成后利用samtools和picard软件(http://broadinstitute.github.io/picard/)将PCR重复序列去除。然后,利用GATK(Genome Analysis Toolkit)从比对的结果中进行SNP和InDel等变异检测。
最后,对检测到的变异出来的结果用ANNOVAR软件[16]进行注释,并进行测序深度,覆盖度评估。
7、统计分析:
首先计算出患者组和健康对照组中,携带稀有突变位点(包括杂合或者纯合突变,参考gnomAD数据库http://gnomad.broadinstitute.org,该数据库整理了各种大规模的外显子和全基因组测序数,其中exome数据集有123136个样本,包括8624个东亚人EAS,EAS次等位基因频率小于0.1,为较稀有的突变)。
然后,利用Fischer’s检测计算各组的P值,结合发现阶段和验证阶段的结果,即考虑发现和验证阶段均显著(P值小于0.05,fisher检验),同时合并两期数据后FDR校正后也显著(fdr值小于0.05,fisher检验)的位点定义为差异显著。
8、构建多基因分子诊断模型:
利用步骤7统计分析得到的,在发现和验证阶段都差异显著的61个位点,使用随机森林模型来构建ASD判断模型。其具体过程包括:首先,使用python包scikit-learn里面的RandomForestClassifier分类器,利用发现阶段的数据,进行6折交叉验证评估挑选合适的模型参数。然后,通过发现阶段的数据训练得到模型。最后,使用验证阶段的数据进行验证,并计算模型判断ASD的ROC曲线和AUC值。
9、实验结果:
在本实施例中,发现阶段共征集了孤独症谱系障碍(ASD)患者37例,同时纳入55例正常人为健康对照(control)组,可捕获404个免疫应答分子的panel进行了超高深度的测序,目标区域大小为~500K,平均覆盖深度>1000X,10x coverage rate(%)>99%,共检测到7526个点突变。其中,发现285个点突变在ASD和对照组差异显著(P值小于0.05,fisher检验)。
而验证阶段共征集孤独症谱系障碍(ASD)患者35例,同时纳入52例正常人为健康对照(control)组,统计分析发现231个突变在ASD和对照组差异显著(P值小于0.05,fisher检验);
结合发现阶段和验证阶段的数据,分析确定共有61个ASD相关的点突变,其中包含4个功能性的稀有突变(即外显子区错义突变,splicing突变等)。
如表格1所示,4个功能性的稀有突变包括:LILRB2基因的错义突变p.R322H和splicing突变c.956-4C>T,HLA-DQB1基因的错义突变p.S229N和HLA-B基因的错义突变p.A93G。其均得到了Sanger验证,同时基因水平分析的结果表明HLA-B,LILRB2基因P值达到了小于1x10-5的水平。
表格1
如图3的分析结果所示,在训练数据集中用6折交叉验证平均AUC值达到了0.84。另外,该多基因分子诊断模型在验证数据集中的AUC值接近1。其说明使用这些发现和验证阶段都具有显著差异的位点构建的分类器,回顾性数据显示效果很好,对于提供辅助诊断具较大的价值。
综上,本发明实施例对免疫应答分子基因进行了系统的评估,包括HLA区域基因和细胞因子及受体基因在孤独症儿童里面的突变情况,
统计分析的结果显示来自HLA Class I的HLA-B基因的错义突变p.A93G是ASD风险因素,也支持了前人的结果(Al-Hakbany等发现HLA-B*07alleles在ASD患者中更常见,Puangpetch等发现HLA-B基因多样性与ASD相关)。
同时,还确认了HLA Class II的HLA-DQB1基因的错义突变p.S229N在ASD比例为(14/72=19.44%),显著高于对照组(4/107=3.73%)。其中,HLA-DQB1是儿童乳糜泻(celiac disease)的易感基因。儿童乳糜泻是一种免疫性肠病,主要表现是对麸质不耐受,症状与ASD普遍存在的肠道功能紊乱有相似之处,分析确认19.44%的ASD患者存在乳糜泻(celiac disease)风险突变,可能为ASD患者无麸质/无酪蛋白(GFCF)饮食干预提供了理论支持。
另外,LILRB2基因,HLA Class I分子的抑制性受体基因的两个紧密连锁的错义突变p.R322H和c.956-4C>T在ASD比例均为20.83%(15/72),而这两个突变在对照组较稀少(2/107=1.87%),研究发现LILRB2基因编码神经元细胞表面受体,可作为β-淀粉样蛋白(β-Amyloid)的受体参与Alzheimer’sdisease的发生,抑制β-淀粉样蛋白(β-Amyloid)与LilrB2的结合已经成为一种治疗阿兹海默病的潜在途径。
上述的4个免疫应答因子基因突变存在于44.44%(32/72)的ASD患者中,可以用于作为ASD临床遗传学评估的新靶标,例如可以后续进一步开发检测这4个点突变的panel,实现ASD临床遗传学初步的筛查。这样可以克服采用染色体芯片结合全外显子组/全基因组测序方法成本较高,数据解读难度大的问题。
而且,基于在发现和验证阶段均为差别显著的突变位点构建获得的自闭症分子诊断模型的回顾性结果良好,说明构建的多基因分子诊断模型在自闭症诊断方面具有很高的应用价值,可以用于开发ASD临床遗传学评估工具。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种孤独症谱系障碍的多基因分子诊断模型的构建方法,其特征在于,包括:
征集发现阶段和验证阶段的研究对象,所述研究对象为健康人和孤独症谱系障碍患者;
在所述发现阶段,统计获得所述健康人和所述孤独症谱系障碍患者之间存在显著差异的突变位点;
在所述验证阶段,统计获得所述健康人和所述孤独症谱系障碍患者之间存在显著差异的突变位点;
基于在所述发现阶段和所述验证阶段均存在显著差异的突变位点,构建机器学习模型;所述机器学习模型为分类器;
所述显著差异的突变位点包括:
LILRB2基因的错义突变p.R322H;
LILRB2基因的剪接突变c.956-4C>T;
HLA-DQB1基因的错义突变p.S229N;
HLA-B基因的错义突变p.A93G。
2.根据权利要求1所述的构建方法,其特征在于,所述统计获得所述健康人和所述孤独症谱系障碍患者之间存在显著差异的突变位点,具体包括:
提取研究对象的DNA样本;
通过所述DNA样本,建立小片段测序文库;
基于所述小片段测序文库,捕获目标基因以建立目标区域捕获文库;
对构建完毕的目标区域捕获文库进行高通量测序,获得测序结果;
对所述测序结果进行变异检测;
统计分析所述变异检测结果中,存在显著差异的突变位点。
3.根据权利要求2所述的构建方法,其特征在于,所述健康人作为健康对照组,所述孤独症谱系障碍患者作为患者组;所述统计分析所述变异检测结果中,存在显著差异的突变位点,具体包括:
计算健康对照组和患者组中携带的稀有突变位点,所述稀有突变位点包括杂合突变和纯合突变;
使用费舍尔检测计算所述稀有突变位点的P值,并且使用FDR校正;
根据所述FDR校正结果,确定存在显著差异的突变位点。
4.根据权利要求1所述的构建方法,其特征在于,所述机器学习模型为随机森林模型,模型条件为所述显著差异的突变位点,模型结果为是否为孤独症谱系障碍患者。
5.根据权利要求2所述的构建方法,其特征在于,所述基于在所述发现阶段和所述验证阶段均存在显著差异的突变位点,构建机器学习模型,具体包括:
使用所述发现阶段的数据,通过K-折交叉验证选定目标的模型参数;
以所述发现阶段的数据作为训练数据,训练获得对应的分类器;
通过所述验证阶段的数据,验证所述训练获得的分类器。
6.根据权利要求5所述的构建方法,其特征在于,所述K-折交叉验证为6折交叉验证。
7.根据权利要求5所述的构建方法,其特征在于,所述方法还包括:
计算所述多基因分子诊断模型的ROC曲线和AUC值。
8.一种多基因分子诊断模型,其特征在于,所述多基因分子诊断模型通过如权利要求1-7任一项所述的构建方法构建获得。
9.如权利要求8所述的多基因分子诊断模型在孤独症谱系障碍临床遗传学评估工具中的应用。
CN202010857975.1A 2020-08-24 2020-08-24 一种多基因分子诊断模型、其构建方法及应用 Active CN112002417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010857975.1A CN112002417B (zh) 2020-08-24 2020-08-24 一种多基因分子诊断模型、其构建方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010857975.1A CN112002417B (zh) 2020-08-24 2020-08-24 一种多基因分子诊断模型、其构建方法及应用

Publications (2)

Publication Number Publication Date
CN112002417A CN112002417A (zh) 2020-11-27
CN112002417B true CN112002417B (zh) 2024-03-12

Family

ID=73470628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010857975.1A Active CN112002417B (zh) 2020-08-24 2020-08-24 一种多基因分子诊断模型、其构建方法及应用

Country Status (1)

Country Link
CN (1) CN112002417B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102918163A (zh) * 2009-09-08 2013-02-06 美国控股实验室公司 用于诊断自闭症谱系障碍的组合物和方法
CN110739070A (zh) * 2019-09-26 2020-01-31 南京工业大学 一种基于3d卷积神经网络的脑疾病诊断方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013066972A1 (en) * 2011-10-31 2013-05-10 Children's Medical Center Corporation Methods and compositions for characterizing autism spectrum disorder based on gene expression patterns

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102918163A (zh) * 2009-09-08 2013-02-06 美国控股实验室公司 用于诊断自闭症谱系障碍的组合物和方法
CN110739070A (zh) * 2019-09-26 2020-01-31 南京工业大学 一种基于3d卷积神经网络的脑疾病诊断方法

Also Published As

Publication number Publication date
CN112002417A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN108676865A (zh) 一种儿童青光眼相关基因芯片及其制备方法和应用
CN104561016B (zh) 先天性白内障pitx3基因新突变
CN106029899B (zh) 确定染色体预定区域中snp信息的方法、系统和计算机可读介质
US20210024999A1 (en) Method of identifying risk for autism
CN103571847B (zh) Foxc1基因突变体及其应用
Zhu et al. Shared genetic susceptibilities for irritable bowel syndrome and depressive disorder in Chinese patients uncovered by pooled whole-exome sequencing
CN106282195A (zh) 基因突变体及其应用
CN106906220A (zh) 一种突变的col4a5基因及其应用
CN117603982A (zh) 肌萎缩侧索硬化症的SQSTM1的p.P374TfsTer18突变致病基因及其应用
CN116083562B (zh) 一种与阿司匹林抵抗辅助诊断相关的snp标志物组合、引物合集及其应用
CN112002417B (zh) 一种多基因分子诊断模型、其构建方法及应用
Li et al. Two novel mutations of COL1A1 in fetal genetic skeletal dysplasia of Chinese
CN109182490B (zh) Lrsam1基因snp突变位点分型引物及其在冠心病预测中的应用
CN105838720B (zh) Ptprq基因突变体及其应用
CN104099338B (zh) Myo15a基因突变体及其应用
CN104073499B (zh) Tmc1基因突变体及其应用
WO2016070550A1 (zh) 肌张力障碍vps16基因的检测引物、方法和试剂盒
EP2459740A2 (en) Processes and methods for diagnosis of alzheimer&#39;s disease
CN112442527B (zh) 孤独症诊断试剂盒、基因芯片、基因靶点筛选方法及应用
CN103627710B (zh) Spg11基因突变体及其应用
CN106868128B (zh) 一组辅助诊断乳腺癌的生物标记物及其应用
CN103509801B (zh) 骨骼肌氯离子通道基因突变体及其应用
CN107385076B (zh) 一种甲状腺功能减退致病基因突变及基于此基因突变的诊断试剂
CN103571846B (zh) Atp6v1b2基因突变体及其应用
CN104774841A (zh) 遗传性癫痫伴热性惊厥附加症scn1a基因新突变

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant