CN104109710B - 使用单核苷酸多型性预测汉人白血球抗原基因型的试剂盒 - Google Patents

使用单核苷酸多型性预测汉人白血球抗原基因型的试剂盒 Download PDF

Info

Publication number
CN104109710B
CN104109710B CN201410154791.3A CN201410154791A CN104109710B CN 104109710 B CN104109710 B CN 104109710B CN 201410154791 A CN201410154791 A CN 201410154791A CN 104109710 B CN104109710 B CN 104109710B
Authority
CN
China
Prior art keywords
nucleotide polymorphism
hla
polymorphism set
leukocyte antigens
human leukocyte
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410154791.3A
Other languages
English (en)
Other versions
CN104109710A (zh
Inventor
范盛娟
张天钧
杨伟勋
陈沛隆
谢瑷如
陈垣崇
朱正中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chen Peilong
Zhu Zhengzhong
Academia Sinica
Original Assignee
Academia Sinica
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academia Sinica filed Critical Academia Sinica
Publication of CN104109710A publication Critical patent/CN104109710A/zh
Application granted granted Critical
Publication of CN104109710B publication Critical patent/CN104109710B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Cell Biology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种使用单核苷酸多型性预测汉人白血球抗原基因型的试剂盒及其应用。针对亚洲人种的人类白血球抗原基因型(HLA‑A、HLA‑B、HLA‑C、HLA‑DPB1、HLA‑DQB1、及HLA‑DRB1)预测模型,且预测结果已达到模型的优化。本发明由单核苷酸多型性基因定型预测亚洲人种典型人类白血球抗原对偶基因型,准确率范围为80.37%(HLA‑B)至95.79%(HLA‑DQB1),可达到高准确率,此外,使用基因型预测白血球抗原对偶基因型的试剂盒可节省可观的时间及花费。

Description

使用单核苷酸多型性预测汉人白血球抗原基因型的试剂盒
技术领域
本发明是关于具有族群专一性的单核苷酸多型性可预测人类白血球抗原对偶基因的试剂盒,特别的是,本发明是关于使用汉人的单核苷酸多型性来预测人类白血球抗原基因型的试剂盒。
背景技术
人类白血球组织抗原基因群位于第6对染色体上,分为主要组织兼容性复合体第I类(HLA-A、HLA-B、及HLA-C)与主要组织兼容性复合体第II类(HLA-DR、HLA-DQ、及HLA-DP)的对偶基因(alleles),而个体单一基因的多种对偶基因的多形性(polymorphism)型态,造成组织或器官移植时的移植物排斥(graft rejection)及移植物排斥宿主疾病(graft-versus-host diseases)。人类白血球抗原对偶基因亦在群体遗传学及免疫相关疾病状态(immune-related disease status)中扮演重要的角色。再者,先前的比较研究显示免疫系统通常有强的选择性压力(selective pressure),其可能由病毒-宿主交互作用所造成。因为这些选择性压力,族群间的比较揭示人类白血球抗原对偶基因的对偶基因分布的连锁不平衡(linkage disequilibrium)及高可变形态(variable patterns)。
人类白血球组织抗原(human leukocyte antigen,HLA)的遗传变异与免疫功能、自体免疫疾病和某些癌症有关。至今,大规模的研究由实验(经由血清学或PCR)取得人类白血球抗原基因的配型依然耗时与昂贵。因此,只需要较低价格的单核苷酸多型性(single-nucleotide polymorphisms,SNPs)被广泛使用于预测白血球抗原的基因型以节省经费与实验时间。然而,大部分的人类白血球抗原基因型预测模型只有高加索人样本,少有研究报导包含非高加索人的样本,而在不同的种族间其人类白血球组织抗原基因类别分布相异。
Zheng等人于2011年BMC genetics期刊中强调,在建构完预测白血球组织抗原预测模型后,此模型不能使用于不同种族的白血球抗原基因型。因此,Ayele等人于2011年于PLOS ONE期刊中,已经针对非洲人建构出其特有白血球组织抗原预测模型;然而,目前尚未有亚洲人的人类白血球组织抗原预测模型。因此,建构出种族独特的白血球组织抗原预测模型有其必要性,尤其是汉人的的白血球组织抗原预测模型更有其需求。
发明内容
缘此,本发明提供一种单核苷酸多型性在制备预测人类白血球抗原对偶基因试剂盒中的应用,其步骤包含:(a)提供一人类核酸样本;(b)判别该人类核酸样本的一单核苷酸多型性集合的基因型,该单核苷酸多型性集合集合包含位于人类白血球抗原基因上的各个不同的单核苷酸多型性;(c)使用一预测模型分析步骤(b)中各单核苷酸多型性的基因型以获得一计算值,其中该预测模型是使用单核苷酸多型性基因型来预测人类白血球抗原对偶基因;以及(d)依据步骤(c)所获得的计算值预测该人类样本的人类白血球抗原对偶基因型;且其中该样本为亚洲人族群,较佳为汉人族群。
本发明的应用中,该单核苷酸多型性集合所包含的各单核苷酸多型性来自(1)HLA-A、(2)HLA-B、(3)HLA-C、(4)HLA-DPB1、(5)HLA-DQB1、以及(6)HLA-DRB1基因,其中该来自(1)HLA-A基因的是选自于一第1单核苷酸多型性集合、一第2单核苷酸多型性集合、一第3单核苷酸多型性集合、及一第4单核苷酸多型性集合;
(i)该第1单核苷酸多型性集合是由rs1633085、rs2254071、rs407238、rs9258881、rs2975046、rs2735096、rs417162、rs9260954、rs6917477、rs6457144、rs9261394、及rs2523990所组成;
(ii)该第2单核苷酸多型性集合是由rs4122198、rs16895757、rs1632973、rs9357086、rs11759549、rs3115628、rs3094165、rs2734925、rs2517755、rs2256919、rs11756025、rs7382061、rs6457144、rs2517646、及rs7744914所组成;
(iii)该第3单核苷酸多型性集合是由rs3094165、rs9258883、rs3132714、rs1611493、rs2524005、rs2860580、rs12665039、rs6457109、rs3869062、rs3893464、rs5009448、rs2571375、rs7758512、及rs9261394所组成;
(iv)该第4单核苷酸多型性集合是由rs2523409、rs1611133、rs3115628、rs2517859、rs1611732、rs2523998、rs2860580、rs12202296、rs2248153、rs2975046、rs6457109、rs5009448、rs9260932、及rs6457144所组成;
该来自(2)HLA-B基因的单核苷酸多型性是选自于一第5单核苷酸多型性集合、一第6单核苷酸多型性集合、一第7单核苷酸多型性集合、及一第8单核苷酸多型性集合,其中
(i)该第5单核苷酸多型性集合是由rs3130944、rs3130532、rs3130534、rs3134762、rs16899207、rs2524089、rs9366778、rs2524166、rs9295984、rs4394275、rs9378249、rs2523534、rs9266406、rs2844558、rs5022119rs3099848、rs4081552、rs2848716、rs2596454、及rs2248462所组成;
(ii)该第6单核苷酸多型性集合是由rs11966319、rs2853948、rs6906846、rs9378228、rs2524051、rs9366778、rs16867947、rs4394274、rs4394275、rs2523591、rs9501572、rs7761068、rs2523535、rs9266406、rs5006724、rs13198903、rs9266669、rs9266689、rs3099849、rs2442749、rs1051796、rs2596464、rs3099836、及rs3131622所组成;
(iii)该第7单核苷酸多型性集合是由rs9264868、rs9264942、rs3094691、rs2156875、rs2523619、rs2442719、rs2596501、rs2523589、rs2523554、rs2844573、rs9266395、rs9266440、rs9295986、rs2442749、rs2596560、rs3128982、rs2284178、及rs7758090所组成;
(iv)该第8单核苷酸多型性集合是由rs3094691、rs7453967、rs4394274、rs4394275、rs2596509、rs2596501、rs1058026、rs2523591、rs2523589、rs2523554、rs2523545、rs9501572、rs2844575、rs9266395、rs9266406、rs5006725、rs9295986、rs6933050、rs4959068、rs5022119、rs13198903、rs9266689、rs2251396、rs1051796、rs3094584、rs9765960、及rs3128982所组成;
该来自(3)HLA-C基因的单核苷酸多型性是选自于一第9单核苷酸多型性集合、一第10单核苷酸多型性集合、一第11单核苷酸多型性集合、及一第12单核苷酸多型性集合,其中
(i)该第9单核苷酸多型性集合是由rs2073724、rs3130713、rs3130531、rs3095250、rs3130532、rs3130534、rs2844615、rs6906846、rs2524067、rs7382297、rs2394963、rs2524095、rs16899203、rs9366778、rs9295970、及rs2523534所组成;
(ii)该第10单核苷酸多型性集合是由rs3130712、rs28480108、rs3134762、rs19966319、rs9264523、rs3132488、rs3134745、rs3130693、rs3132486、rs2853948、rs6906846、rs9378228、rs6457372、rs2394963、rs2524057、rs12191877、及rs9366776所组成;
(iii)该第11单核苷酸多型性集合是由rs2516049、rs2858870、rs660895、rs532098、rs3129763、rs1063355、rs9275141、rs9275184、rs7774434、rs7775228、及rs9275224所组成;
(iv)该第12单核苷酸多型性集合是由rs9263957、rs9263969、rs3134762、rs11966319、rs2248880、rs9264532、rs2524099、rs2074488、rs2395471、rs5010528、rs13207315、rs3132488、rs3130693、rs9391714、rs4386816、rs2524057、rs16899205、及rs9295970所组成;
该来自(4)HLA-DPB1基因的单核苷酸多型性是选自于一第13单核苷酸多型性集合、一第14单核苷酸多型性集合、一第15单核苷酸多型性集合、及一第16单核苷酸多型性集合,其中
(i)该第13单核苷酸多型性集合是由rs3128955、rs3130588、rs9277194、rs9348904、rs9296073、rs2856816、rs3135021、rs1431403、rs3128963、rs3117229、rs7763822、rs2295120、rs3117242、rs6937034、及rs1003979所组成;
(ii)该第14单核苷酸多型性集合是由rs9296068、rs9277183、rs3135402、rs9348904、rs2856830、rs9296073、rs2071350、rs1431402、rs1431403、rs9277550、rs3128963、rs3117229、rs9277567、rs3128918、及rs6937034所组成;
(iii)该第15单核苷酸多型性集合是由rs206769、rs6920606、rs375912、rs1431399、rs987870、rs3135021、rs9277535、rs9277554、rs10484569、rs2281390、rs3128917、rs2281388、rs3130215、及rs2269346所组成;
(iv)该第16单核苷酸多型性集合是由rs2216264、rs423639、rs3097669、rs987870、rs1431402、rs1431403、rs9277378、rs9277535、rs9277550、rs9277554、rs9277565、rs2281390、rs2281388、rs3130215、rs6937034、rs6937061、及rs2395357所组成;
该来自(5)HLA-DQB1基因的单核苷酸多型性是选自于一第17单核苷酸多型性集合、一第18单核苷酸多型性集合、一第19单核苷酸多型性集合、及一第20单核苷酸多型性集合,其中
(i)该第17单核苷酸多型性集合是由rs9269186、rs9270986、rs615672、rs3129768、rs9272219、rs9272346、rs6908943、rs9275134、rs9469220、rs6457617、rs2647046、rs2858308、及rs9275418所组成;
(ii)该第18单核苷酸多型性集合是由rs2647073、rs502055、rs3129768、rs9272535、rs9272723、rs34485459、rs3129716、rs7775228、rs6469219、rs5000634、rs6457617、及rs9275418所组成;
(iii)该第19单核苷酸多型性集合是由rs2516049、rs2858870、rs660895、rs532098、rs3129763、rs1063355、rs9275141、rs9275184、rs7774434、rs7775228、及rs9275224所组成;
(iv)该第20单核苷酸多型性集合是由rs17533090、rs9272219、rs17211510、rs41269947、rs34485459、rs1063355、rs9275141、rs3129716、rs7774434、rs9405119、rs9469219、rs9469220、及rs9275224所组成
该来自(6)HLA-DRB1基因的单核苷酸多型性是选自于一第21单核苷酸多型性集合、一第22单核苷酸多型性集合、一第23单核苷酸多型性集合、及一第24单核苷酸多型性集合,其中
(i)该第21单核苷酸多型性集合是由rs9268831、rs9268861、rs7747521、rs9268877、rs9269186、rs2027852、rs615672、rs3129768、rs9272219、rs9272346、rs9275134、rs7775228、rs9469220、rs6457617、rs2647046、及rs2858308所组成;
(ii)该第22单核苷酸多型性集合是由rs9268877、rs4410767、rs7749092、rs17210980、rs2647073、rs615672、rs674343、rs502771、rs3997872、rs9271367、rs9271720、rs2187668、rs34485459、rs3129716、及rs9405119所组成;
(iii)该第23单核苷酸多型性集合是由rs9405098、rs3129871、rs13209234、rs9268832、rs6903608、rs602875、rs660895、rs9271366、rs3129769、rs17211510、rs2187668、rs9275141、rs9275184、rs9275383、rs2856717、rs2858305、rs13192471、及rs3104405所组成;
(iv)该第24单核苷酸多型性集合是由rs2395175、rs9405035、rs9268831、rs6903608、rs9268877、rs9269186、rs7749092、rs2027852、rs17210980、rs2516049、rs615672、rs660895、rs674313、rs502771、rs3997872、rs9271366、rs2187668、rs34485459、rs9275141、rs7755224、rs3129716、及rs3104404所组成。
本发明的又一目的,是提供一种试剂盒(kit),在各容器中可能包括有一个或多个单核苷酸多型性,包含判别HLA-A基因、HLA-B基因、HLA-C基因、HLA-DPB1基因、HLA-DQB1基因、以及HLA-DRB1基因的本发明表5的单核苷酸多型性。
本发明的另一目的是提供一种预测人类白血球抗原对偶基因的装置,是包含不超过200个核苷酸探针,其中该探针可检测上述单核苷酸多型性;而其中该探针是固定于该装置上。
本发明建构对亚洲人种具有族群专一性的人类白血球抗原基因型预测模型,包含437个具有Affymetrix5.0及Illumina550K单核苷酸多型性的汉人血液样本,其中214个样本亦有在Affymetrix6.0单核苷酸多型性的数据。所有个体均在6个人类白血球抗原基因座(loci)上分型至一4位数分辨率并且用于人类白血球抗原基因型预测模型中作为验证(training)及测试(testing)集。本发明的结果显示较大的样本数与较高的单核苷酸多型性密度通常会导致较准确的预测。此外,与本发明亚洲人种中人类白血球抗原对偶基因有关的的优化的flanking区域(flanking region)通常较高加索人的flanking区域为短。在最准确的模型中,flanking区域为横跨不同芯片数据集的人类白血球抗原对偶基因的20-200kb(中位数为70kb)。当该人类白血球抗原对偶基因较短时,该flanking区域增加,而该人类白血球抗原对偶基因密度上升。本发明的最佳模型在亚洲人种中提供准确的预测。此外,本发明亦提供针对亚洲族群人类白血球抗原基因型预测模型的实际的建议,其是关于对偶基因区域、芯片、及填补(Imputation)。本发明大约只需要20个单核甘酸多型性就可正确的预测一个白血球抗原基因型,因此只需要1/10的价格就可以得到白血球抗原基因型的信息。
以下将配合图式进一步说明本发明的实施方式,以下所列举的实施例是用以阐明本发明,并非用以限定本发明的范围,任何熟习此技艺者,在不脱离本发明的精神和范围内,当可做些许更动与润饰,因此本发明的保护范围当视后附的权利要求书所界定的为准。
附图说明
图1是与不同flanking区域大小相关的测试准确率;就各6个人类白血球抗原对偶基因而言,测试准确率显示随着flanking区域大小增加而提升;图中Affy6.0芯片的数据是以未填补单核苷酸多型性表示。
图2是由各基因定型芯片产生的优化模型的测试准确率;图中显示6个人类白血球抗原对偶基因的测试准确率与判读率(可信度门坎为0);图中显示各3个基因定型芯片及该三个基因定型芯片的合并芯片的填补(A)与未填补(B)单核苷酸多型性。
具体实施方式
定义
本说明书中使用的用语是指在该领域中的一般涵义。下列在本说明书中所讨论到的用语,为了方便起见,某些用语会以特别的字体格式标示,例如使用斜体及/或括号。这些字体格式的使用并不影响到其范围及该用语本身的涵义。无论是否以特别的字体格式标示,其范围及用语本身的涵义是相同的。因此,任何等效用语或同义词的使用,并非用以改变其本身的涵义。使用其中一或多种同义词,并非排除其他同义词的使用。在本发明实施例中所使用的任何用语仅为说明,并非用以限制其范围及涵义。相同地,本发明的范围亦不仅受限于所出现的实施例。
除非有特别予以定义,所有在此出现的技术及科学用语,具有在本领域具有通常知识者所认知的通常涵义。
本发明中所使用的「大约」、「约」等用语,是指在20%的范围内,较佳地是指在10%的范围内,更佳地是指在5%的范围内。在此提供的数字是为近似值,若未明确表达时,即是暗示具有大约或大致的意思。
实施例
本发明所提供的所有单核苷酸多型性(SNPs)的rsID,其序列及所含单核苷酸变异的位置及其变异的碱基是于本发明申请前已公开于美国国家生物技术信息中心(NationalCenter for Biotechnology Information,NCBI)的单核苷酸多型性数据库(SNPdatabase,dbSNP)。
依据下列所述本发明实施例的仪器、装置、方法及其相关结果等,仅为说明之用,并非用以限制本发明的范围。在实施例中的名称或其次名称仅为方便阅读,并非用以限制本发明的范围。进一步地,在此所揭露的理论,无论其是否有误,只要实施例可据以实施,皆不应限制本发明的范围。
研究设计
利用估计等式方法(estimating equation approach),以建立混淆基因型(unphased genotype)的人类白血球抗原基因型预测模型。就各对偶基因而言,该人类白血球抗原基因型预测方法是以二个阶段进行。第一阶段为建构一预测的模型,而第二阶段则是验证由该第一阶段所产生的模型。在该第一阶段中,选择一套混淆基因型来建立一预测模型。该选择是使用一目标函数(objective function)来评估,其为人类白血球抗原对偶基因特定的混淆基因型(基于Akaike Information Criterion)的负对数近似值(negativelog-likelihood)。接着,基因型的选择是以前进选择(forward-selection)及后退淘汰(backward-elimination)的方法进行。以与一人类白血球抗原对偶基因相关的基因型为起始并逐次地增加一个基因型。该第二阶段是使用一套独立的样本来验证第一阶段的预测模型。提供混淆基因型(unphased genotype)及非混淆人类白血球抗原对偶基因(phased HLAalleles)作为该些独立的样本。依照最简化规则(parsimonious rule),最佳的预测模型需使用最小可能性的flanking区域与最少可能性的单核苷酸多型性以产生最精准的预测。本发明所使用的样本,是由台湾地区华人细胞株及基因数据库(Taiwan Han Chinese Celland Genome Bank)取得的437个居住于台湾地区汉人的血液样本。
基因型分析法
本发明使用三种商用芯片:1)Affymetrix Genome-Wide Human SNP Array5.0芯片(Affy5.0);2)Affymetrix Genome-Wide Human SNP Array6.0芯片(Affy6.0);及3)Illumina’s HumanHap550Genotyping BeadChip芯片(Illumina 550),其中使用Affy5.0与Illumina550芯片对437个白血球DNA样本进行基因型分析,而437个样本中的214个样本亦使用Affy6.0芯片进行基因定型。位于第6对染色体短臂上的人类主要组织兼容性复合体(MHC)又称为人类白血球抗原(HLA)基因群区域中,该Affy5.0芯片具有1,406个单核苷酸多型性(SNPs);该Affy6.0芯片具有2,203个单核苷酸多型性;该Illumina550K芯片具有1,939个单核苷酸多型性(如表1所示),而intra-MHC区域是以位于着丝点端(centromeric end)的HLA-A对偶基因(6号染色体上的位置:30,018,310–30,021,632;NCBI build36.3)与位于端粒端(telomeric end)的HLA-DPB1对偶基因(6号染色体上的位置:33,151,738–33,162,954)为界。此区域包括第I类基因座(HLA-A,HLA-B,HLA-C)及第II类基因座(HLA-DRB1,HLA-DQB1)。对于HLA-A、-B、-C、-DQB1及-DRB1的对偶基因,是利用Dynal RELI SSO typing套组(Dynal Biotech Ltd.,英国)进行基因定型;对于HLA-DPB1的对偶基因,是利用Gold SSPHLA-DPB1High Resolution套组(Invitrogen公司,美国加州)进行基因定型。所有的基因定型皆由中央研究院国家基因体医学研究中心执行,该些单核苷酸多型性的判读率(callrate)皆大于98%。
对于全基因体相关研究法(genome-wide association studies,GWASs),本发明以基因型填补(Genotype imputation)评估在建构人类白血球抗原基因型预测模型的实用性。为了数据的连贯性及最佳填补表现,本发明使用MaCH软件及汉人北京(CHB)与日本东京(JPT)的数据组作为参考,此是用来填补本发明单核苷酸多型性之外来自国际人类基因组单体型图计划(HapMap Project)的基因型。本发明检视所有在MHC区域中的单核苷酸多型性,而通常在基因型填补前,采用quality-control评估并筛选单核苷酸多型性以控制其质量,当严重违反Hardy-Weinberg equilibrium(p<10-4)时,该些单核苷酸多型性判读率(callrate)<0.95,少数对偶基因频率(minor-allele frequency)<0.01,则排除该些单核苷酸多型性。再者,本发明的填补的单核苷酸多型性各自具有一由MaCH软件分析结果之贝氏定理事后机率(posterior probability)>0.8、判读率>0.95、且少数对偶基因频率>0.01。
另一方面,为了测试该些芯片间单核苷酸多型性的重复性以及一致性,本发明比较了各两个芯片重迭的单核苷酸多型性数据。判断基因型数据的一致性是以Cohen’skappa coefficient来计算,而Kappa值大于0.9通常表示两个芯片的数据具有高一致性。本发明亦比较各两个芯片在建构人类白血球抗原基因型预测模型过程中所选基因型间的差异,以此判定所选的基因型是否对芯片具有专一性即独特性。该差异定义为其中plati及platj是两个不同的芯片;∪(plati,platj)是两个不同芯片的单核苷酸多型性的联集(union);而∩(plati,platj)是两个不同芯片的单核苷酸多型性的交集(intersection)。不同族群间人类白血球抗原对偶基因频率分布及flanking区域大小差异
不同族群间,人类白血球抗原对偶基因及其对偶分布有实质上的差异,其是反应族群近代的演化历史。再者,人类白血球抗原对偶基因分布于第6对染色体上不同的区域,包括数个单核苷酸多型性。本发明探讨国际人类基因组单体型图计划(HapMap Project)中亚洲人样本及高加索人样本的对偶基因频率分布。对于各人类白血球抗原对偶基因,本发明使用卡方分布(chi-square)及费雪精确性检定(Fisher’s exact test)来决定人类白血球抗原对偶基因在这两个族群中是否有所差异。本发明以延伸±10kb至±400kb的flanking区域来建构该人类白血球抗原基因型预测模型。在汉人种中,各人类白血球抗原对偶基因最适合的flanking区域是由上述最简化规则来决定。此外,本发明亦比较亚洲人的flanking区域大小(Affy5.0芯片)与已知高加索人的flanking区域大小。
交叉验证(Corss-validation)
在开始人类白血球抗原预测分析之前,本发明将数据分成多组进行交叉验证(cross-validation,CV)。以十折(10-fold)交叉验证为例,该数据是分为一验证集(training data set)(数据的9/10)及一测试集(testing data set)(数据的1/10)。就各交叉验证子集(subset)而言,计算该测试集的准确率且定义为其中Tv是正确预测测试集中样本的数量,而Nv是测试集中样本的总数。平均测试准确度是10个交叉验证子集的平均值,表示所建构的模型在预测人类白血球抗原对偶基因上的表现。人类白血球抗原的预测可不经由交叉验证,然而执行交叉验证可避免预测模型的过适(over-fitting)且可节省获得一独立样本组用于评估的时间与成本。本发明是建构人类白血球抗原基因型预测模型,故,使用十折交叉验证。
可信度门坎(Confidence threshold)
就在测试集中的各样本而言,其P值(probability value)是被分配给特定单型的每个可能的人类白血球抗原对偶基因对。这些数值是基于所提供的混淆基因型及非混淆的人类白血球抗原对偶基因对。概率分配后,若该概率超过一预先指定的可信度门坎,则选择具有最大概率的人类白血球抗原对偶基因对。通常来说,可信度门坎设为0,表示判读率(call rate)为100%(即所有样本均会被预测)。若可信度门坎设为0.5(或任何大于0的值),则仅会使用最大预测概率超过可信度门坎的样本。本发明将可信度门坎设为0、0.5、或0.9来评估可信度门坎对建构人类白血球抗原基因型预测模型的影响。
结果
本发明使用214个样本由三个不同芯片(Affy5.0、Affy6.0、及Illumina550K芯片)基因定型的样本来计算6个典型人类白血球抗原(HLA-A,HLA-B,HLA-C,HLA-DRB1,HLA-DQB1,HLA-DPB1)对偶基因的频率分布。本发明亦分析180个从国际人类基因组单体型图计划取得的高加索人样本,然而无该些样本的HLA-DPB1数据。人类白血球抗原基因座最多是为HLA-B。在汉人种中观察到44个对偶基因横跨HLA-B区域,而在国际人类基因组单体型图计划中的高加索人种中观察到32个对偶基因横跨HLA-B区域。如卡方分布及费雪精确性检定所示,在高加索人和汉人间,HLA-A、-B、-C、-DQB1、及-DRB1对偶基因的对偶基因频率分布具有显着的差异(所有p值<0.0001;HLA-A、-B、-C、-DQB1、及-DRB1的自由度(degree offreedom)分别为29、62、23、16、及35),由此可见,人类白血球抗原对偶基因频率分布在不同人种间有很大的差异,也就是说,由一族群的人类白血球抗原对偶基因所建构的人类白血球抗原基因型预测模型,在预测不同族群人种时会产生不良的预测。
未填补的不同的芯片
仅使用单一的基因定型技术可能使得人类白血球抗原对偶基因的预测存在偏见。为了克服此问题,本发明的台湾地区214个汉人样本是以三个芯片来基因定型(Affy5.0、Affy6.0、及Illumina550K)。各芯片的结果及这三个芯片的合并芯片(Union)的结果是被用来建构人类白血球抗原预测的模型。最后,本发明评估由这三个数据集所衍生的预测模型是否产出具有比较性的预测。
各芯片对之间少有数据的重迭(如表1所示)。Affy6.0有最多在人类MHC区域中的单核苷酸多型性,而Affy5.0则为最少(如表1所示)。表2则显示,芯片对之间关于所观察基因型的一致性系数。比较两个Affymetrix数组,同时存在于两个数组的基因型的一致性系数高达0.9926,此高程度的一致性表示高质量的基因定型,其更由比较不同芯片间的基因型获得支持。
表1、国际人类基因组单体型图计划及三个基因定型芯片间在延伸的MHC区域中重迭的单核苷酸多型性1
1该延伸的MHC区域的范围是6号染色体28,799,220–34,204,868。
2北京汉人种的国际人类基因组单体型图计划单核苷酸多型性。
3两个基因定型芯片间重迭的单核苷酸多型性的比例。
4各基因定型芯片中的单核苷酸多型性数量。
表2、在主要组织兼容性复合体区域中观察或填补的单核苷酸多型性基因型的Kappa系数
通常来说,合并芯片较各单独的芯片产生较准确的人类白血球抗原对偶基因预测。当可信度门坎为0,合并芯片的平均测试准确率为89.78%,但就单独的Affy5.0、Affy6.0、及Illumina550K而言,其平均测试准确率分别只有86.92%、88.42%、及88.06%(如图2中A所示),显示较高的单核苷酸多型性密集度使得人类白血球抗原对偶基因的预测准确率提升。
关于三个基因定型芯片间的比较,Affy6.0产生最准确的人类白血球抗原对偶基因预测。举例来说,在HLA-DRB1基因座,Affy6.0较Affy5.0更准确3.52%;而在HLA-DPB1基因座,Affy6.0较Illumina550K更准确2.58%。Affy6.0可能具有在人类主要组织兼容性复合体区域中最高的基因型密度。当可信度门坎为0时,Affy6.0与HLA-DQB1可获得最高的测试准确率(95.79%),而Illumina550K与HLA-B的准确率则为最低(80.37%,如图2中A所示)。藉由使用一可信度门坎为0.9至所有可能的人类白血球抗原对偶基因对的最大概率,HLA-C基因座的最高准确率提升至98.62%(由Illumina55K得到,判读率为77.47%),而HLA-B的最低准确率提升至87.67%(由Affy5.0得到,判读率为64.94%)。基于Illumina550K的预测模型所产生的准确率范围在HLA基因座较在其他基因定型芯片中所观察到的结果显着。当可信度门坎为0时,该Illumina550K预测芯片在HLB-B对偶基因的准确率仅为80.37%,但在HLA-DQB1对偶基因的准确率为95.29%。对于HLA-B及HLA-DPB1对偶基因,Affy5.0的预测是较Ilumina550K分别更准确0.45%及0.96%。对于HLA-A及HLA-DRB1对偶基因,Illumina550K的预测是较Affy6.0分别更准确1.56%及0.27%(如图2所示)。该些结果显示与Affy5.0及Illumina550K相关的些微的优势可能源自于这些芯片上特殊的单核苷酸多型性。总地来说,这些预测模型的准确率通常在基因定型芯片间具有比较性。
进行有效flanking区域(例如:产生最准确人类白血球抗原对偶基因预测的最短侧基因序列延伸)的探讨。使用Illumina550K(±10kb)在HLA-C基因座识别出最短的有效flanking区域。该HLA-C的长度为3,325bp而此有效flanking区域涵盖22个单核苷酸多型性,其中13个单核苷酸多型性包含于HLA-C预测模型中(当可信度门坎为0,测试准确率为92.01%)。当使用Affy6.0数据时,HLA-A最长有效flanking区域为±350kb(如表3所示),在这个区域中为299个单核苷酸多型性,其中16个单核苷酸多型性包含于HLA-A预测模型中(当可信度门坎为0,测试准确率为85.29%)
就各人类白血球抗原对偶基因而言,本发明进一步评估包含在人类白血球抗原基因型预测模型中芯片间重迭的基因型。当比较Affy6.0及合并芯片时,HLA-DRB1的不含填补的单核苷酸多型性数据的最大重迭基因型比率为21.36%,显示不同的芯片使用独特的单核苷酸多型性来选择芯片专一性的基因型,而该些基因型被用于建构不同的人类白血球抗原基因型预测模型。
不同芯片的填补
本发明的合并芯片(可信度门坎为0,平均测试准确率为90.17%)较三个独立的芯片(可信度门坎为0,Affy6.0、Affy5.0、及Illumina550K的平均测试准确率分别为89.90%、88.61%、及89.75%)产生较准确的人类白血球抗原对偶基因预测。较高的单核苷酸多型性密度可增加基因型填补的准确率,而因此增加最终预测的准确性。
关于填补的三个基因定型芯片间的比较,通常Affy6.0对人类白血球抗原对偶基因的预测较准确(在HLA-DPB1基因座较Affy5.0准确高达4.23%且较Illumina550K准确高达4.61%;如图2中B所示)。在这些模型中(可信度门坎为0),HLA-DQB1基因座具有最高的测试准确率(96.75%,由Illumina550K得到)。藉由使用一可信度门坎为0.9至所有可能的人类白血球抗原对偶基因对的最大概率,HLA-C基因座的最高准确率提升至99.09%(由Illumina55K得到,判读率为77.47%)。除了由Affy5.0得到的HLA-B,基于此可信度门坎调整的准确率的进步在HLA-DRB1对偶基因最为显着,当可信度门坎由0改变成0.9时,其准确率从86.67%上升至95.90%。然而,在HLA-A基因座,Affy5.0(可信度门坎为0)产生的预测较Affy6.0准确0.45%。Illumina550K除了在HLA-DPB1较Affy6.0准确4.61%,Illumina550K产生的预测分别较Affy6.0在HLA-A、-B、-C、-DQB1、及-DRB1基因座准确0.27%、1.10%、1.11%、0.05%、及1.19%(如图2所示),结果显示Affy5.0及Illumina550K的预测的优势可能源自于这些芯片上特有的单核苷酸多型性。
本发明亦评估各人类白血球抗原基因座的填补的有效flanking区域。最短的flanking区域之一是在HLA-DPB1基因座(±20kb)并由Affy5.0所识别出来(如表3所示)。此区域涵盖133个单核苷酸多型性,其中的34个被选择用于HLA-DPB1预测模型(可信度门坎为0,测试准确率为88.28%)。另一个最短的flanking区域是在HLA-C基因座(±20kb)并由Affy6.0、Illumina550K、及合并芯片所识别出来。最长的有效flanking区域是在HLA-A(±200kb)并由Illumina550K所得(如表3所示)。在这些区域中有515个单核苷酸多型性,其中的17个是用于HLA-A预测模型(可信度门坎为0,测试准确率为86.93%)。
就各人类白血球抗原对偶基因而言,在不同预测模型间所使用的重迭的基因型最多为60.08%。因此,填补似乎降低不同芯片间的差异。
不同芯片的填补与未填补
本发明预测模型间横跨不同芯片填补与非填补的测试准确率的比较,以填补单核苷酸多型性所建构的预测模型较非填补单核苷酸多型性所建构的预测模型准确(可信度门坎为0,平均准确率分别为89.61%与88.30%)。
就可信度门坎为0而言,填补的合并芯片具有最高的HLA-DQB1对偶基因测试准确率(97.18%),而未填补的Illumina550K则具有最低的HLA-B对偶基因测试准确率(80.37%)。藉由使用一可信度门坎为0.9至所有可能的人类白血球抗原对偶基因对的最大概率,Illumina550K的HLA-C基因座最高准确率提升至99.09%(有填补且判读率为82.40%)。
比较不同芯片间有填补及未填补的测试预测准确率,当使用填补的单核苷酸多型性来建构人类白血球抗原基因型预测模型时,特定的基因型变异通常会降低。就不同芯片间各人类白血球抗原对偶基因而言,填补平均提升25.02%所选用来建构模型的基因型间的重迭比例。这些结果可将不同基因定型芯片间的差异最小化。
在本发明的一方面,还提供预测人类白血球抗原基因型的试剂盒,较佳用于检测样品中的HLA-A基因、HLA-B基因、HLA-C基因、HLA-DPB1基因、HLA-DQB1基因、以及HLA-DRB1基因的基因型。
对于用于检测HLA-A基因的基因型的试剂盒,较佳包含的单核苷酸多型性是选自于一第1单核苷酸多型性集合、一第2单核苷酸多型性集合、一第3单核苷酸多型性集合、及一第4单核苷酸多型性集合所组成的群组,其中(i)该第1单核苷酸多型性集合是由rs1633085、rs2254071、rs407238、rs9258881、rs2975046、rs2735096、rs417162、rs9260954、rs6917477、rs6457144、rs9261394、及rs2523990所组成;(ii)该第2单核苷酸多型性集合是由rs4122198、rs16895757、rs1632973、rs9357086、rs11759549、rs3115628、rs3094165、rs2734925、rs2517755、rs2256919、rs11756025、rs7382061、rs6457144、rs2517646、及rs7744914所组成;(iii)该第3单核苷酸多型性集合是由rs3094165、rs9258883、rs3132714、rs1611493、rs2524005、rs2860580、rs12665039、rs6457109、rs3869062、rs3893464、rs5009448、rs2571375、rs7758512、及rs9261394所组成;以及(iv)该第4单核苷酸多型性集合是由rs2523409、rs1611133、rs3115628、rs2517859、rs1611732、rs2523998、rs2860580、rs12202296、rs2248153、rs2975046、rs6457109、rs5009448、rs9260932、及rs6457144所组成。
对于用于检测HLA-B基因的基因型的试剂盒,较佳包含的单核苷酸多型性是选自于一第5单核苷酸多型性集合、一第6单核苷酸多型性集合、一第7单核苷酸多型性集合、及一第8单核苷酸多型性集合所组成的群组,其中(i)该第5单核苷酸多型性集合是由rs3130944、rs3130532、rs3130534、rs3134762、rs16899207、rs2524089、rs9366778、rs2524166、rs9295984、rs4394275、rs9378249、rs2523534、rs9266406、rs2844558、rs5022119rs3099848、rs4081552、rs2848716、rs2596454、及rs2248462所组成;(ii)该第6单核苷酸多型性集合是由rs11966319、rs2853948、rs6906846、rs9378228、rs2524051、rs9366778、rs16867947、rs4394274、rs4394275、rs2523591、rs9501572、rs7761068、rs2523535、rs9266406、rs5006724、rs13198903、rs9266669、rs9266689、rs3099849、rs2442749、rs1051796、rs2596464、rs3099836、及rs3131622所组成;(iii)该第7单核苷酸多型性集合是由rs9264868、rs9264942、rs3094691、rs2156875、rs2523619、rs2442719、rs2596501、rs2523589、rs2523554、rs2844573、rs9266395、rs9266440、rs9295986、rs2442749、rs2596560、rs3128982、rs2284178、及rs7758090所组成;(iv)该第8单核苷酸多型性集合是由rs3094691、rs7453967、rs4394274、rs4394275、rs2596509、rs2596501、rs1058026、rs2523591、rs2523589、rs2523554、rs2523545、rs9501572、rs2844575、rs9266395、rs9266406、rs5006725、rs9295986、rs6933050、rs4959068、rs5022119、rs13198903、rs9266689、rs2251396、rs1051796、rs3094584、rs9765960、及rs3128982所组成。
对于用于检测HLA-C基因的基因型的试剂盒,较佳包含的单核苷酸多型性是选自于一第9单核苷酸多型性集合、一第10单核苷酸多型性集合、一第11单核苷酸多型性集合、及一第12单核苷酸多型性集合所组成的群组,其中(i)该第9单核苷酸多型性集合是由rs2073724、rs3130713、rs3130531、rs3095250、rs3130532、rs3130534、rs2844615、rs6906846、rs2524067、rs7382297、rs2394963、rs2524095、rs16899203、rs9366778、rs9295970、及rs2523534所组成;(ii)该第10单核苷酸多型性集合是由rs3130712、rs28480108、rs3134762、rs19966319、rs9264523、rs3132488、rs3134745、rs3130693、rs3132486、rs2853948、rs6906846、rs9378228、rs6457372、rs2394963、rs2524057、rs12191877、及rs9366776所组成;(iii)该第11单核苷酸多型性集合是由rs2516049、rs2858870、rs660895、rs532098、rs3129763、rs1063355、rs9275141、rs9275184、rs7774434、rs7775228、及rs9275224所组成;(iv)该第12单核苷酸多型性集合是由rs9263957、rs9263969、rs3134762、rs11966319、rs2248880、rs9264532、rs2524099、rs2074488、rs2395471、rs5010528、rs13207315、rs3132488、rs3130693、rs9391714、rs4386816、rs2524057、rs16899205、及rs9295970所组成。
对于用于检测HLA-DPB1基因的基因型的试剂盒,较佳包含的单核苷酸多型性是选自于一第13单核苷酸多型性集合、一第14单核苷酸多型性集合、一第15单核苷酸多型性集合、及一第16单核苷酸多型性集合所组成的群组,其中(i)该第13单核苷酸多型性集合是由rs3128955、rs3130588、rs9277194、rs9348904、rs9296073、rs2856816、rs3135021、rs1431403、rs3128963、rs3117229、rs7763822、rs2295120、rs3117242、rs6937034、及rs1003979所组成;(ii)该第14单核苷酸多型性集合是由rs9296068、rs9277183、rs3135402、rs9348904、rs2856830、rs9296073、rs2071350、rs1431402、rs1431403、rs9277550、rs3128963、rs3117229、rs9277567、rs3128918、及rs6937034所组成;(iii)该第15单核苷酸多型性集合是由rs206769、rs6920606、rs375912、rs1431399、rs987870、rs3135021、rs9277535、rs9277554、rs10484569、rs2281390、rs3128917、rs2281388、rs3130215、及rs2269346所组成;(iv)该第16单核苷酸多型性集合是由rs2216264、rs423639、rs3097669、rs987870、rs1431402、rs1431403、rs9277378、rs9277535、rs9277550、rs9277554、rs9277565、rs2281390、rs2281388、rs3130215、rs6937034、rs6937061、及rs2395357所组成。
对于用于检测HLA-DQB1基因的基因型的试剂盒,较佳包含的单核苷酸多型性是选自于一第17单核苷酸多型性集合、一第18单核苷酸多型性集合、一第19单核苷酸多型性集合、及一第20单核苷酸多型性集合所组成的群组,其中(i)该第17单核苷酸多型性集合是由rs9269186、rs9270986、rs615672、rs3129768、rs9272219、rs9272346、rs6908943、rs9275134、rs9469220、rs6457617、rs2647046、rs2858308、及rs9275418所组成;(ii)该第18单核苷酸多型性集合是由rs2647073、rs502055、rs3129768、rs9272535、rs9272723、rs34485459、rs3129716、rs7775228、rs6469219、rs5000634、rs6457617、及rs9275418所组成;(iii)该第19单核苷酸多型性集合是由rs2516049、rs2858870、rs660895、rs532098、rs3129763、rs1063355、rs9275141、rs9275184、rs7774434、rs7775228、及rs9275224所组成;(iv)该第20单核苷酸多型性集合是由rs17533090、rs9272219、rs17211510、rs41269947、rs34485459、rs1063355、rs9275141、rs3129716、rs7774434、rs9405119、rs9469219、rs9469220、及rs9275224所组成。
对于用于检测HLA-DRB1基因的基因型的试剂盒,较佳包含的单核苷酸多型性是选自于一第21单核苷酸多型性集合、一第22单核苷酸多型性集合、一第23单核苷酸多型性集合、及一第24单核苷酸多型性集合所组成的群组;其中(i)该第21单核苷酸多型性集合是由rs9268831、rs9268861、rs7747521、rs9268877、rs9269186、rs2027852、rs615672、rs3129768、rs9272219、rs9272346、rs9275134、rs7775228、rs9469220、rs6457617、rs2647046、及rs2858308所组成;(ii)该第22单核苷酸多型性集合是由rs9268877、rs4410767、rs7749092、rs17210980、rs2647073、rs615672、rs674343、rs502771、rs3997872、rs9271367、rs9271720、rs2187668、rs34485459、rs3129716、及rs9405119所组成;(iii)该第23单核苷酸多型性集合是由rs9405098、rs3129871、rs13209234、rs9268832、rs6903608、rs602875、rs660895、rs9271366、rs3129769、rs17211510、rs2187668、rs9275141、rs9275184、rs9275383、rs2856717、rs2858305、rs13192471、及rs3104405所组成;(iv)该第24单核苷酸多型性集合是由rs2395175、rs9405035、rs9268831、rs6903608、rs9268877、rs9269186、rs7749092、rs2027852、rs17210980、rs2516049、rs615672、rs660895、rs674313、rs502771、rs3997872、rs9271366、rs2187668、rs34485459、rs9275141、rs7755224、rs3129716、及rs3104404所组成。
实施例1
利用上述结果,可据此发展出一种单核苷酸多型性在制备预测人类白血球抗原对偶基因试剂盒中的应用,其步骤包括:
(a)提供一人类核酸样本;
(b)识别该人类核酸样本的一单核苷酸多型性集合的基因型,该单核苷酸多型性集合包含位于人类白血球抗原基因上的各个不同单核苷酸多型性;
(c)使用一预测模型分析步骤(b)中各单核苷酸多型性的基因型以获得一计算值,其中该预测模型是使用单核苷酸多型性基因型来预测人类白血球抗原对偶基因;以及
(d)依据步骤(c)所获得的计算值预测该人类样本的人类白血球抗原对偶基因型。
本发明使用汉人族群专一性的单核苷酸多型性并透过一算法来预测各6个人类白血球抗原基因座对偶基因的基因型。各芯片的最佳的单核苷酸多型性数量不同,如表4所示。
表4、不同芯片中最佳的单核苷酸多型性数量
人类白血球抗原基因座 Affy5.0 Affy6.0 Illumina550K 合并芯片
HLA-A 12 15 14 14
HLA-B 20 24 18 27
HLA-C 16 17 11 18
HLA-DPB1 15 15 14 17
HLA-DQB1 13 12 11 13
HLA-DRB1 16 15 18 22
上述三个芯片及其合并芯片的单核苷酸多型性集合的内容是如表5所示。本发明是以该些具族群专一性的单核苷酸多型性集合来预测汉人人类白血球抗原基因座对偶基因。
讨论
因为习知人类白血球抗原基因型的直接定型技术不符经济效益,故,本发明是以人类白血球抗原对偶基因相对应的混淆基因型为基础,识别出特定的人类白血球抗原基因型,并以此建构第I型人类白血球抗原(HLA-A、HLA-B、及HLA-C)及第II型人类白血球抗原(HLA-DRB1、HLA-DQB1、及HLA-DPB1)的预测模型。本发明比较亚洲人(台湾地区汉人)与高加索人种(国际人类基因组单体型图计划)的对偶基因频率分布并识别此不同人种间显着的差异。本发明建构数个具有高预测准确率的人类白血球抗原基因型的预测模型,并验证该些模型相关的重要参数(例如:有效flanking区域、芯片准确率、及填补的影响)。因此,本发明所提供的模型可准确地预测亚洲人种中该些基因型,故,可应用于详细分析人类白血球抗原相关的疾病的直接影响。
本发明判别一较密集的单核苷酸多型性集合是否可产生较准确的人类白血球抗原对偶基因预测。在本发明中,用于填补芯片数据及建构更密集单核苷酸多型性所使用的MaCH软件是以国际人类基因组单体型图计划及/或千人基因组计划(1000Genome Project,http://www.1000genomes.org)的数据作为参考。本发明发现所建构的有填补的人类白血球抗原基因型预测模型典型地提供较高的预测准确率,其强调了使用一较高密度单核苷酸多型性的正面效果。因此,可建构一新颖的客制化单核苷酸多型性数组,其包括人类白血球抗原基因型预测模型的所有组成该些基因定型或填补的单核苷酸多型性,以提升预测准确率。
藉由增加可信度门坎至0.5或0.9,本发明的亚洲人专一性人类白血球抗原基因型预测模型的预测准确率接近100%。
同时,为了产生更准确的预测模型,本发明变更验证集和测试集的样本大小。使用本发明的Affy6.0基因型数据来建构人类白血球抗原基因型预测模型并使用二、四、及十折交叉验证。当可信度门坎为0(即判读率为100%)时,不同的交叉验证得到一致的样本大小。为了排除样本大小的影响,本发明是比较在可信度门坎为0下交叉验证的影响。由使用二、四、及十折交叉验证(可信度门坎为0)所建构的预测模型的评估分析所得到的测试准确率的估计值。十折交叉验证的HLA-DQB1基因座具有最佳的测试准确率(95.55%),而二折交叉验证的HLA-B基因座则具有最低的测试准确率(76.64%)。就二折交叉验证而言,测试准确率的范围是从76.64%(HLA-B)至94.39%(HLA-DQB1)。随着交叉验证增加至10倍,测试准确率的程度接近95.55%(HLA-DQB1)。就HLA-A而言此改善最为明显,因为以二折交叉验证的预测模型其准确率为80.84%,而以十折交叉验证则导致85.29%的准确率。在其他五个人类白血球抗原基因座亦观察到相似的趋势。该些趋势可能反映大的样本大小,其包括在验证集中一充足数量的人类白血球抗原对偶基因,从而提升预测的准确率。虽然交叉验证的程度影响测试准确率,但其变化是极微小的,故,本发明的族群专一性人类白血球抗原基因型预测模型并不受不同的交叉验证影响。
本发明着重于使用214个台湾地区汉人样本产生人类白血球抗原基因型预测模型,模型是各以Affy5.0、Affy6.0、及Illumina550K芯片作核苷酸多型性(SNPs)的基因定型分析(Genotyping)。同时,为了评估样本数量的影响,本发明亦使用437个汉人样本以Illumina550K芯片作基因定型的分析(包含原本的214个样本)产生人类白血球抗原基因型预测模型。以437个样本建构的人类白血球抗原基因型预测模型(平均测试准确率为90.36%)较以214个样本建构的预测模型(平均测试准确率为86.84%)为佳。因此,较大的样本数量可以增加人类白血球抗原预测的准确率。
结论
经过十年的研究,许多人类白血球抗原对偶基因已知具有特定的免疫功能。连结单核苷酸多型性与人类白血球抗原对偶基因的实验方法较人类白血球抗原直接分型技术节省了可观的时间及成本,且使得大规模人类白血球抗原变异的研究可行。虽然人类白血球抗原分布在人类族群间有所差异,大多数现有的人类白血球抗原基因型预测模型是基于高加索人样本。藉由基因定型一大数量的汉人样本,本发明发现许多汉人特有的人类白血球抗原对偶基因并建构族群专一性的人类白血球抗原基因型预测模型。本发明的验证集涵盖人类白血球抗原基因座中许多不常见且族群专一的对偶基因,实质上地增加了预测的准确率。
本发明所使用的特定方法参数(例如:样本大小、单核苷酸多型性密集厉、及填补)是产生对亚洲人种的人类白血球抗原基因型预测模型的因素。本发明在汉人样本中得到良好的HLA-A、-B、-C、-DRB1、-DQB1、及-DPB1对偶基因预测准确率。使用从AffymetrixGenome-Wide Human SNP Array5.0、Affymetrix Genome-Wide Human SNP Array6.0、Illumina HumanHap550BeadChip、或此三个芯片的合并芯片中的单核苷酸多型性数据,本发明产生有效的人类白血球抗原基因型预测模型以辨别亚洲人的人类白血球抗原基因型。本发明新颖的预测工具可帮助识别免疫相关疾病的遗传风险因子(genetic riskfactors),例如:葛瑞夫兹氏病(Grave’s disease)。此外,亦可使本领域具有通常知识者研究广大人种族群中的人类白血球抗原基因型。
本发明所提供的预测方法及其应用装置确实具有产业上的利用价值,惟以上的叙述仅为本发明的较佳实施例说明,凡精于此项技艺者当可依据上述的说明而作其它种种的改良,惟这些改变仍属于本发明的精神及以下所界定的专利范围中。

Claims (2)

1.一种单核苷酸多型性在制备预测人类白血球抗原基因型试剂盒中的应用,其步骤包含:
(a)提供人类核酸样本;该人类核酸样本为亚洲人族群;
(b)判别该人类核酸样本的单核苷酸多型性集合的基因型,该单核苷酸多型性集合包含位于一人类白血球抗原基因上的各个不同的单核苷酸多型性;
(c)使用预测模型分析步骤(b)中各单核苷酸多型性的基因型以获得计算值,其中该预测模型是使用单核苷酸多型性基因型来预测人类白血球抗原对偶基因;
以及
(d)依据步骤(c)所获得的计算值预测该人类核酸样本的人类白血球抗原对偶基因型;
其中,可预测之该人类白血球抗原对偶基因型包括:(1)HLA-A基因、(2)HLA-B基因、(3)HLA-C基因、(4)HLA-DPB1基因、(5)HLA-DQB1基因或(6)HLA-DRB1基因的基因型;
其特征在于,该(1)HLA-A基因的单核苷酸多型性是由第1单核苷酸多型性集合、第2单核苷酸多型性集合、第3单核苷酸多型性集合、及第4单核苷酸多型性集合所组成的群组来预测,其中
(i)该第1单核苷酸多型性集合是由rs1633085、rs2254071、rs407238、rs9258881、rs2975046、rs2735096、rs417162、rs9260954、rs6917477、rs6457144、rs9261394、及rs2523990所组成;
(ii)该第2单核苷酸多型性集合是由rs4122198、rs16895757、rs1632973、rs9357086、rs11759549、rs3115628、rs3094165、rs2734925、rs2517755、rs2256919、rs11756025、rs7382061、rs6457144、rs2517646、及rs7744914所组成;
(iii)该第3单核苷酸多型性集合是由rs3094165、rs9258883、rs3132714、rs1611493、rs2524005、rs2860580、rs12665039、rs6457109、rs3869062、rs3893464、rs5009448、rs2571375、rs7758512、及rs9261394所组成;
(iv)该第4单核苷酸多型性集合是由rs2523409、rs1611133、rs3115628、 rs2517859、rs1611732、rs2523998、rs2860580、rs12202296、rs2248153、rs2975046、rs6457109、rs5009448、rs9260932、及rs6457144所组成;
其中,该(2)HLA-B基因的单核苷酸多型性是由第5单核苷酸多型性集合、第6单核苷酸多型性集合、第7单核苷酸多型性集合、及第8单核苷酸多型性集合所组成的群组来预测,其中
(i)该第5单核苷酸多型性集合是由rs3130944、rs3130532、rs3130534、rs3134762、rs16899207、rs2524089、rs9366778、rs2524166、rs9295984、rs4394275、rs9378249、rs2523534、rs9266406、rs2844558、rs5022119rs3099848、rs4081552、rs2848716、rs2596454、及rs2248462所组成;
(ii)该第6单核苷酸多型性集合是由rs11966319、rs2853948、rs6906846、rs9378228、rs2524051、rs9366778、rs16867947、rs4394274、rs4394275、rs2523591、rs9501572、rs7761068、rs2523535、rs9266406、rs5006724、rs13198903、rs9266669、rs9266689、rs3099849、rs2442749、rs1051796、rs2596464、rs3099836、及rs3131622所组成;
(iii)该第7单核苷酸多型性集合是由rs9264868、rs9264942、rs3094691、rs2156875、rs2523619、rs2442719、rs2596501、rs2523589、rs2523554、rs2844573、rs9266395、rs9266440、rs9295986、rs2442749、rs2596560、rs3128982、rs2284178、及rs7758090所组成;
(iv)该第8单核苷酸多型性集合是由rs3094691、rs7453967、rs4394274、rs4394275、rs2596509、rs2596501、rs1058026、rs2523591、rs2523589、rs2523554、rs2523545、rs9501572、rs2844575、rs9266395、rs9266406、rs5006725、rs9295986、rs6933050、rs4959068、rs5022119、rs13198903、rs9266689、rs2251396、rs1051796、rs3094584、rs9765960、及rs3128982所组成;
其中,该(3)HLA-C基因的单核苷酸多型性是由第9单核苷酸多型性集合、第10单核苷酸多型性集合、第11单核苷酸多型性集合、及第12单核苷酸多型性集合所组成的群组来预测,其中
(i)该第9单核苷酸多型性集合是由rs2073724、rs3130713、rs3130531、rs3095250、rs3130532、rs3130534、rs2844615、rs6906846、rs2524067、rs7382297、rs2394963、rs2524095、rs16899203、rs9366778、rs9295970、及rs2523534所 组成;
(ii)该第10单核苷酸多型性集合是由rs3130712、rs28480108、rs3134762、rs19966319、rs9264523、rs3132488、rs3134745、rs3130693、rs3132486、rs2853948、rs6906846、rs9378228、rs6457372、rs2394963、rs2524057、rs12191877、及rs9366776所组成;
(iii)该第11单核苷酸多型性集合是由rs2516049、rs2858870、rs660895、rs532098、rs3129763、rs1063355、rs9275141、rs9275184、rs7774434、rs7775228、及rs9275224所组成;
(iv)该第12单核苷酸多型性集合是由rs9263957、rs9263969、rs3134762、rs11966319、rs2248880、rs9264532、rs2524099、rs2074488、rs2395471、rs5010528、rs13207315、rs3132488、rs3130693、rs9391714、rs4386816、rs2524057、rs16899205、及rs9295970所组成;
其中,该(4)HLA-DPB1基因的单核苷酸多型性是由第13单核苷酸多型性集合、第14单核苷酸多型性集合、第15单核苷酸多型性集合、及第16单核苷酸多型性集合所组成的群组来预测,其中
(i)该第13单核苷酸多型性集合是由rs3128955、rs3130588、rs9277194、rs9348904、rs9296073、rs2856816、rs3135021、rs1431403、rs3128963、rs3117229、rs7763822、rs2295120、rs3117242、rs6937034、及rs1003979所组成;
(ii)该第14单核苷酸多型性集合是由rs9296068、rs9277183、rs3135402、rs9348904、rs2856830、rs9296073、rs2071350、rs1431402、rs1431403、rs9277550、rs3128963、rs3117229、rs9277567、rs3128918、及rs6937034所组成;
(iii)该第15单核苷酸多型性集合是由rs206769、rs6920606、rs375912、rs1431399、rs987870、rs3135021、rs9277535、rs9277554、rs10484569、rs2281390、rs3128917、rs2281388、rs3130215、及rs2269346所组成;
(iv)该第16单核苷酸多型性集合是由rs2216264、rs423639、rs3097669、rs987870、rs1431402、rs1431403、rs9277378、rs9277535、rs9277550、rs9277554、rs9277565、rs2281390、rs2281388、rs3130215、rs6937034、rs6937061、及rs2395357所组成;
其中,该(5)HLA-DQB1基因的单核苷酸多型性是由第17单核苷酸多型性 集合、第18单核苷酸多型性集合、第19单核苷酸多型性集合、及第20单核苷酸多型性集合所组成的群组来预测,其中
(i)该第17单核苷酸多型性集合是由rs9269186、rs9270986、rs615672、rs3129768、rs9272219、rs9272346、rs6908943、rs9275134、rs9469220、rs6457617、rs2647046、rs2858308、及rs9275418所组成;
(ii)该第18单核苷酸多型性集合是由rs2647073、rs502055、rs3129768、rs9272535、rs9272723、rs34485459、rs3129716、rs7775228、rs6469219、rs5000634、rs6457617、及rs9275418所组成;
(iii)该第19单核苷酸多型性集合是由rs2516049、rs2858870、rs660895、rs532098、rs3129763、rs1063355、rs9275141、rs9275184、rs7774434、rs7775228、及rs9275224所组成;
(iv)该第20单核苷酸多型性集合是由rs17533090、rs9272219、rs17211510、rs41269947、rs34485459、rs1063355、rs9275141、rs3129716、rs7774434、rs9405119、rs9469219、rs9469220、及rs9275224所组成;
其中,该(6)HLA-DRB1基因的单核苷酸多型性是由第21单核苷酸多型性集合、第22单核苷酸多型性集合、第23单核苷酸多型性集合、及第24单核苷酸多型性集合所组成的群组来预测;其中
(i)该第21单核苷酸多型性集合是由rs9268831、rs9268861、rs7747521、rs9268877、rs9269186、rs2027852、rs615672、rs3129768、rs9272219、rs9272346、rs9275134、rs7775228、rs9469220、rs6457617、rs2647046、及rs2858308所组成;
(ii)该第22单核苷酸多型性集合是由rs9268877、rs4410767、rs7749092、rs17210980、rs2647073、rs615672、rs674343、rs502771、rs3997872、rs9271367、rs9271720、rs2187668、rs34485459、rs3129716、及rs9405119所组成;
(iii)该第23单核苷酸多型性集合是由rs9405098、rs3129871、rs13209234、rs9268832、rs6903608、rs602875、rs660895、rs9271366、rs3129769、rs17211510、rs2187668、rs9275141、rs9275184、rs9275383、rs2856717、rs2858305、rs13192471、及rs3104405所组成;
(iv)该第24单核苷酸多型性集合是由rs2395175、rs9405035、rs9268831、 rs6903608、rs9268877、rs9269186、rs7749092、rs2027852、rs17210980、rs2516049、rs615672、rs660895、rs674313、rs502771、rs3997872、rs9271366、rs2187668、rs34485459、rs9275141、rs7755224、rs3129716、及rs3104404所组成。
2.如权利要求1所述的应用,其中该人类核酸样本是为汉人族群。
CN201410154791.3A 2013-04-17 2014-04-17 使用单核苷酸多型性预测汉人白血球抗原基因型的试剂盒 Expired - Fee Related CN104109710B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201361812800P 2013-04-17 2013-04-17
US61/812,800 2013-04-17

Publications (2)

Publication Number Publication Date
CN104109710A CN104109710A (zh) 2014-10-22
CN104109710B true CN104109710B (zh) 2018-02-09

Family

ID=51706698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410154791.3A Expired - Fee Related CN104109710B (zh) 2013-04-17 2014-04-17 使用单核苷酸多型性预测汉人白血球抗原基因型的试剂盒

Country Status (2)

Country Link
CN (1) CN104109710B (zh)
TW (1) TWI518538B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107893113B (zh) * 2017-12-30 2020-12-25 广州博富瑞医学检验有限公司 Hla相关的snp标记及其检测引物对与确定方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005082110A2 (en) * 2004-02-26 2005-09-09 Illumina Inc. Haplotype markers for diagnosing susceptibility to immunological conditions
WO2005108624A2 (en) * 2004-05-06 2005-11-17 University Of Chicago, Uctech Use of hla-g genotyping in immune-mediated conditions
WO2008110206A1 (en) * 2007-03-13 2008-09-18 Genome Diagnostics B.V. Method for determining a hla-dq haplotype in a subject
WO2012068701A2 (zh) * 2010-11-23 2012-05-31 深圳华大基因科技有限公司 Hla基因型别一snp连锁数据库、其构建方法、以及hla分型方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050266410A1 (en) * 2004-05-19 2005-12-01 Emily Walsh Methods of Human Leukocyte Antigen typing by neighboring single nucleotide polymorphism haplotypes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005082110A2 (en) * 2004-02-26 2005-09-09 Illumina Inc. Haplotype markers for diagnosing susceptibility to immunological conditions
WO2005108624A2 (en) * 2004-05-06 2005-11-17 University Of Chicago, Uctech Use of hla-g genotyping in immune-mediated conditions
WO2008110206A1 (en) * 2007-03-13 2008-09-18 Genome Diagnostics B.V. Method for determining a hla-dq haplotype in a subject
WO2012068701A2 (zh) * 2010-11-23 2012-05-31 深圳华大基因科技有限公司 Hla基因型别一snp连锁数据库、其构建方法、以及hla分型方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Predicting HLA genotypes using unphased and flanking single-nucleotide polymorphisms in Han Chinese population;Ai-Ru Hsieh,et al;《BMC Genomics》;20140129;第15卷 *
Predicting Multiallelic Genes Using Unphased and Flanking Single Nucleotide Polymorphisms;Sue Li,et al,;《Genet Epidemiol.》;20110128;第35卷(第2期);85–92 *

Also Published As

Publication number Publication date
TWI518538B (zh) 2016-01-21
CN104109710A (zh) 2014-10-22
TW201441857A (zh) 2014-11-01

Similar Documents

Publication Publication Date Title
CN103221551B (zh) Hla基因型别-snp连锁数据库、其构建方法、以及hla分型方法
CN104232777B (zh) 同时确定胎儿核酸含量和染色体非整倍性的方法及装置
CN103874767B (zh) 对核酸样本中预定区域进行基因分型的方法和系统
CN104232778B (zh) 同时确定胎儿单体型及染色体非整倍性的方法及装置
CN103492589B (zh) 多胎妊娠的分子测试
KR101542529B1 (ko) 대립유전자의 바이오마커 발굴방법
KR101460520B1 (ko) 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
CN108460246B (zh) 一种基于三代测序平台的hla基因分型方法
CN104651488B (zh) 检测染色体非整倍体数目异常的扩增组合物及快速检测试剂盒
CN114891876A (zh) 一种诊断高度近视的功能基因组区生物标志物组合
CN112442542A (zh) 一种胎儿亲子关系鉴定方法
KR20150024232A (ko) 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법
CN104109710B (zh) 使用单核苷酸多型性预测汉人白血球抗原基因型的试剂盒
US20180119210A1 (en) Fetal haplotype identification
CN107977550A (zh) 一种基于压缩的快速分析致病基因算法
CN105200051B (zh) 一种皱纹盘鲍中国和日本群体鉴别用snp标记
CN111690733A (zh) 一种激素性股骨头坏死易感基因panel
CN116287204A (zh) 检测特征基因的突变情况在制备静脉血栓栓塞症风险检测产品中的应用
CN113337598B (zh) 用于孕期维生素b12缺乏风险评估检测试剂盒与应用方法
CN103131788B (zh) 慢性牙周炎相关单核苷酸多态性检测用探针和引物、及其试剂盒
CN106119406A (zh) 多发性肉芽肿血管炎及微小动脉炎的基因分型诊断试剂盒及使用方法
Jiang et al. Application of HLA–DRB1 genotyping by oligonucleotide micro-array technology in forensic medicine
US20180179595A1 (en) Fetal haplotype identification
CN110878359A (zh) 基于9个慢突变y染色体str遗传标记的法医学荧光复合检测试剂盒
CN117778565B (zh) Vte风险评估的检测试剂盒及应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TA01 Transfer of patent application right

Effective date of registration: 20180119

Address after: Taipei City, Taiwan, China

Applicant after: ACADEMIA SINICA

Applicant after: Zhu Zhengzhong

Applicant after: Chen Peilong

Address before: Taipei City, Taiwan, China

Applicant before: Academia Sinica

TA01 Transfer of patent application right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180209

CF01 Termination of patent right due to non-payment of annual fee