JP6491651B2 - 高解像度での対立遺伝子の同定 - Google Patents

高解像度での対立遺伝子の同定 Download PDF

Info

Publication number
JP6491651B2
JP6491651B2 JP2016523227A JP2016523227A JP6491651B2 JP 6491651 B2 JP6491651 B2 JP 6491651B2 JP 2016523227 A JP2016523227 A JP 2016523227A JP 2016523227 A JP2016523227 A JP 2016523227A JP 6491651 B2 JP6491651 B2 JP 6491651B2
Authority
JP
Japan
Prior art keywords
sequence
allele
locus
mapped
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016523227A
Other languages
English (en)
Other versions
JP2016541043A (ja
Inventor
ユ バイ
ユ バイ
ウェン フューリー
ウェン フューリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Regeneron Pharmaceuticals Inc
Original Assignee
Regeneron Pharmaceuticals Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Regeneron Pharmaceuticals Inc filed Critical Regeneron Pharmaceuticals Inc
Publication of JP2016541043A publication Critical patent/JP2016541043A/ja
Application granted granted Critical
Publication of JP6491651B2 publication Critical patent/JP6491651B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P43/00Drugs for specific purposes, not provided for in groups A61P1/00-A61P41/00
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Cell Biology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Physiology (AREA)
  • Ecology (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Materials For Medical Uses (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Steroid Compounds (AREA)

Description

関連出願
本出願は、2013年10月15日出願された米国特許仮出願第61/891,193号に対する優先権による利益を主張するものであり、参照により前述の基礎出願の全体を本願に援用する。
ヒトゲノムの殆どは、本質的に全てのヒト集団において保持されている保存配列により構成されており、ゲノムのうち、わずかではあるものの重要な部分の可変性が高い。これらの配列差は、ゲノムにわたって均一に分散するものではなく、特定のゲノム領域(「遺伝子座」)に他の領域よりも多く配列多様性(「多型」)が含まれる。特定の遺伝子座(すなわち、対立遺伝子が存在する遺伝子座)に特有のヌクレオチド配列を同定することは、生物学的に重要な意義を有し得る。例えば、各個体が特定の遺伝子座に保持している対立遺伝子が、各個体の疾患に対する易罹患性又は治療薬の有効性に影響を及ぼす場合がある。更には、多型性の高い遺伝子座における対立遺伝子の同定に関する知識を利用して、生体試料の民族的及び/又は地理的な起源をたどることもできる。このような追跡は人類学者にとって非常に価値のあるものであり、このような追跡を利用することで、各個体と生体試料とを科学的に紐付けることもできる。利用可能な次世代シーケンシング法が増えれば、対立遺伝子の同定に次世代シーケンシングデータを用いるという見込みは魅力的なものになる。しかしながら、シーケンシングデータを利用して多型性の高い遺伝子座に存在する対立遺伝子を正確かつ効率的に同定することは難しく、特に、シーケンシングデータが、ハイスループットでゲノムワイドなシーケンシング法を利用して生成された場合に難しい。
正確性の高い対立遺伝子予測プロセスが必要とされている多型性の高い遺伝子座セットの1つには、ヒト白血球抗原(HLA)タンパク質をコードする遺伝子座がある。HLAタンパク質は、自己抗原に対する免疫寛容、及び病原体又は腫瘍に対する炎症応答などといった重要な免疫イベントを介在する目的で、リンパ球に対し抗原ペプチドを提示する。クラスI HLAは、全ての有核細胞により広く発現されており、細胞傷害性T細胞に対しサイトゾル抗原を提示する。クラスII HLAは、主に免疫細胞により発現され、ヘルパーT細胞に対し細胞外抗原を提示する。
ヒトは6種類の主要なHLAタンパク質、3種のクラスIタンパク質(HLA−A、HLA−B、及びHLA−C)及び3種のクラスIIタンパク質(HLA−DQ、HLA−DR、及びHLA−DP)を有する。各クラスIタンパク質は、単一のHLA座(例えば、HLA−A座、HLA−B座、及びHLA−C座)によりコードされる。それに対し、クラスIIタンパク質は、α鎖及びβ鎖から構成されるヘテロ二量体であり、これらのそれぞれは、それらの対応するHLA座によりコードされる(例えば、HLA−DQA1座、HLA−DQB1座、HLA−DRA座、HLA−DRB1座、HLA−DRB3座、HLA−DRB4座、HLA−DRB5座、HLA−DPA1座、及びHLA−DPB1座)。ヒトでは、主要なそれぞれのHLA座(クラスI及びクラスIIの両方)は第6番染色体上に存在する。二倍体生物であるヒトは、第6番染色体のコピーを2つ保持しているため、それぞれのHLA座のコピーを2つずつ保持している。
HLA座は多型性が高い。HLA座における多型は、しばしばHLAタンパク質のアミノ酸配列に差異をもたらす。このHLAの多様性により、多様な異なる抗原を群内の免疫細胞に提示することが可能になる。しかしながら、HLA配列におけるこれらの多様性により、外科移植手順を非常に複雑にする、個体間の臓器及び組織の組織不適合性も生じる。移植した臓器又は組織により発現されたHLAタンパク質が、移植レシピエントの免疫システムにより外来分子として認識される場合、臓器拒絶反応が生じ得る。同様にして、移植のレシピエントにおいて細胞により発現されたHLAタンパク質を外来分子として認識する免疫細胞の持ち込みを伴う移植では、移植片対宿主病が生じることになる。可能性のあるドナーのHLA座に対立遺伝子が存在し、レシピエントが適合するHLAタンパク質をコードする場合、移植片対宿主病及び臓器又は組織拒絶反応を可能な限り最小限に抑えることができる。適合するか判断する目的で、ドナー及びレシピエントにおいて、HLAタイピングとして知られるプロセスにより、どのHLA対立遺伝子がHLA座に存在するかを求める必要がある。各個体のHLA座におけるHLA型は、2種のHLA対立遺伝子(又はホモ接合の場合、単一のHLA対立遺伝子の2つのコピー)から構成され、この対立遺伝子は、各個体のHLA座のコピーに存在している。
HLA型は、様々な疾患において重要な機能を果たすという認識も高まっている。例えば、ある種のHLA型と、狼瘡、炎症性腸疾患、多発性硬化症、関節炎、及びI型糖尿病などの自己免疫異常との間には強い相関がある(例えば、Graham et al.,Eur.Hum.Genet.15:823〜830(2007);Fu et al.,J.Autoimmun.37:104〜112(2011);Cassinotti et al,Am.J.Gastroenterol 104:195〜217(2009);Luckey et al.,J.Autoimmun.37:122〜128(2011);Lemire,M.,BMC Proc.7:S33(2009);Noble et al.,Curr.Diab.Rep.11:533〜542(2011),これらの文献のそれぞれは、参照により全体が援用される)。一例として、クラスII HLA DQA1*02:01(DQ2)及びDRB1*03:01(DR3)は、全身性エリテマトーデス患者においてよく見られ、有意に疾患感受性と相関する(Graham et al、Eur.Hum.Genet.15:823〜830(2007))。乳癌及び子宮頸癌に対する耐性又は疾患感受性のいずれかには、その他のクラスII HLAタンパク質の存在も関係する(例えば、Chaudhuri et al.,Proc.Nuc.Acad.Sci.USA 97:11451〜11454(2000);Garcia−Corona et al.,Arch.Dermatol.140:1227〜1231(2004),これらの文献のそれぞれは、参照により全体が援用される)。
HLA分子に関係する病理発生及び治療指標をもとに、正確で効率的なHLAタイピング法が必要とされていることが強調されている。従来、HLA型は、ペプチド結合におけるおおよその血清学的な特異性を示す、「2桁」の抗原基を識別することにより、低解像度で識別されていた。しかしながら、2桁でのHLAタイピングは、数多くの用途で不十分である。例えば、同じ2桁タイプの2種類のHLAタンパク質間で、1箇所のアミノ酸が異なることで、結果として、T細胞の認識特異性及び組織拒絶反応に変化が生じ得る(例えば、Archbold et al.,Trends Immunol.29:220〜226(2008);Tynan et al,Nat.Immunol.6:1114〜1122(2005);Fleischhauer et al,N.Eng.J.Med.323:1818〜1822(1990),これらの文献のそれぞれは、参照により全体が援用される)。結果として、アミノ酸配列レベルの高解像度のHLAタイピング(「4桁」タイピングとして知られる)は決定的なものとなり得る。例えば、高解像度でHLA型を識別することで、非血縁者間の臍帯血移植、及び癌ワクチン接種における臨床成績が実質的に改善される(Nagorson et al.,Cancer Immunol.Immunother.57:1903〜1910(2008);Liao et al.,Bone Marrow Transplant.40:201〜208(2007),これらの文献のそれぞれは、参照により全体が援用される)。
HLA座の多型性が高いことから、正確で高解像度のタイピング、特に高スループットのタイピングは非常に困難なものとなっている。ヒト集団において、主要なクラスI及びクラスII HLA座には、7527超の4桁のHLA対立遺伝子が存在する。解像度4桁でHLA型を識別することのできる既存のHLAタイピング法、例えば、配列特異的プライミング(SSP)及び配列ベースタイピング(SBT)による分特異的PCRは、スループットが低い。その他に提案されているタイピングストラテジーには、PCR増幅後のディープシーケンシングによりHLA座を特異的に標的とするというものがある。この方法では、4桁のHLA対立遺伝子を正確に決定するために、リードを長くし、カバレッジを高くする(深度)必要がある。コスト及び効率の兼ね合いにより、トランスクリプトーム、又は全エクソーム/ゲノム配列決定などのゲノムワイドの配列決定では、概して、リードはかなり短く(100塩基未満)、カバレッジも低い。HLAタイピングにゲノムワイドな配列決定プロセスを用いることを試みる従来法では、これらのリード長及びカバレッジに対する制限により正確性が低下する。特に、リード配列決定の短い従来法では、4桁のHLA型の同定の正確性は32%〜84%であると報告されている(例えば、Boegel et al.,Genome Med.4:102(2013);Kim and Pourmand PLoS One 8:e67885(2013))。
Graham et al.,Eur.Hum.Genet.15:823〜830(2007) Fu et al.,J.Autoimmun.37:104〜112(2011) Cassinotti et al,Am.J.Gastroenterol 104:195〜217(2009) Luckey et al.,J.Autoimmun.37:122〜128(2011) Lemire,M.,BMC Proc.7:S33(2009) Noble et al.,Curr.Diab.Rep.11:533〜542(2011) Graham et al、Eur.Hum.Genet.15:823〜830(2007) Chaudhuri et al.,Proc.Nuc.Acad.Sci.USA 97:11451〜11454(2000) Garcia−Corona et al.,Arch.Dermatol.140:1227〜1231(2004) Archbold et al.,Trends Immunol.29:220〜226(2008) Tynan et al,Nat.Immunol.6:1114〜1122(2005) Fleischhauer et al,N.Eng.J.Med.323:1818〜1822(1990) Nagorson et al.,Cancer Immunol.Immunother.57:1903〜1910(2008) Liao et al.,Bone Marrow Transplant.40:201〜208(2007) Boegel et al.,Genome Med.4:102(2013) Kim and Pourmand PLoS One 8:e67885(2013)
上記を踏まえ、リード長が短い、及び配列カバレッジの低いデータを含む、様々な配列決定データを用い、遺伝子座に存在する対立遺伝子を正確かつ効率的に同定する、新規方法が必要とされている。
本明細書では、いくつかの態様において、遺伝子座に存在する対立遺伝子を正確に判定するための(例えば、HLA座のHLA型を判定するための)、方法(コンピュータに実行される方法を含む)、コンピュータプログラム、及びコンピュータシステムが提供される。本明細書では、臓器、組織、若しくは細胞を移植するための方法、移植片拒絶反応を予防するための方法、及び/又は移植片対宿主病を予防するための方法も提供される。
本明細書では、いくつかの態様において、1つ以上の遺伝子座において(例えば、対象、試料、臓器、組織、及び/又は細胞における遺伝子座)対立遺伝子を判定するため、コンピュータに実装された方法、が提供される。いくつかの実施形態では、遺伝子座はHLA座である。いくつかの実施形態では、遺伝子座は、ミトコンドリアDNAの超可変領域(HV)の遺伝子座(例えば、HV1座、又はHV2座)である。いくつかの実施形態では、遺伝子座は、血液型抗原(BGA)遺伝子座である。いくつかの実施形態では、遺伝子座は、中等度多型を有する遺伝子座(すなわち、平均して、100塩基長につき少なくとも一箇所にSNPが存在する遺伝子座)、高度多型を有する遺伝子座(すなわち、平均して、20塩基長につき少なくとも1箇所にSNPが存在する遺伝子座)、又は超高度多型を有する遺伝子座(すなわち、平均して、10塩基長につき少なくとも1箇所にSNPが存在する遺伝子座)である。
いくつかの実施形態では、遺伝子座は、平均して、100塩基につき:1箇所以上20箇所未満のSNPs、2箇所以上20箇所未満のSNPs、3箇所以上20箇所未満のSNPs、4箇所以上20箇所未満のSNPs、5箇所以上20箇所未満のSNPs、6箇所以上20箇所未満のSNPs、7箇所以上20箇所未満のSNPs、8箇所以上20箇所未満のSNPs、9箇所以上20箇所未満のSNPs、10箇所以上20箇所未満のSNPs、11箇所以上20箇所未満のSNPs、12箇所以上20箇所未満のSNPs、13箇所以上20箇所未満のSNPs、14箇所以上20箇所未満のSNPs、15箇所以上20箇所未満のSNPs、16箇所以上20箇所未満のSNPs、17箇所以上20箇所未満のSNPs、18箇所以上20箇所未満のSNPs、又は19箇所以上20箇所未満のSNPsを含有する。
様々な実施形態において、中等度多型を有する遺伝子座は、平均して、100塩基につき:1箇所以上5箇所未満のSNPs、2箇所以上5箇所未満のSNPs、3箇所以上5箇所未満のSNPs、又は4箇所以上5箇所未満のSNPsを含有する。様々な実施形態において、中等度多型を有する遺伝子座は、平均して、100塩基につき:約1〜2箇所のSNPs、2〜3箇所のSNPs、又は約3〜4箇所のSNPsを含有する。
様々な実施形態において、高度多型を有する遺伝子座は、平均して、100塩基につき:100塩基長につき5箇所以上10箇所未満のSNPs、6箇所以上10箇所未満のSNPs、7箇所以上10箇所未満のSNPs、8箇所以上10箇所未満のSNPs、9箇所以上10箇所未満のSNPsを含有する。様々な実施形態において、高度多型を有する遺伝子座は、平均して、100塩基につき:約5〜6箇所のSNPs、約6〜7箇所のSNPs、約7〜8箇所のSNPs、又は約8〜9箇所のSNPsを含有する。
様々な実施形態において、超高度多型を有する遺伝子座は、平均して、100塩基につき:10箇所以上20箇所未満のSNPs、11箇所以上20箇所未満のSNPs、12箇所以上20箇所未満のSNPs、13箇所以上20箇所未満のSNPs、14箇所以上20箇所未満のSNPs、15箇所以上20箇所未満のSNPs、16箇所以上20箇所未満のSNPs、17箇所以上20箇所未満のSNPs、18箇所以上20箇所未満のSNPs、又は19箇所以上20箇所未満のSNPsを含有する。一実施形態では、超高度多型を有する遺伝子座は、平均して、100塩基につき:約10〜11箇所のSNPs、約11〜12箇所のSNPs、約12〜13箇所のSNPs、約13〜14箇所のSNPs、約14〜15箇所のSNPs、約15〜16箇所のSNPs、約16〜17箇所のSNPs、約17〜18箇所のSNPs、又は約18〜19箇所のSNPsを含有する。一実施形態では、超高度多型を有する遺伝子座は、平均して、100塩基につき約20箇所のSNPsを含有する。
いくつかの実施形態では、コンピュータに実装された方法は:a)コンピュータシステムにおいて、配列データを受信することであって、この配列データが複数のシーケンスリードを含む、データを受信することと;b)このコンピュータシステムにより、遺伝子座の複数の対立遺伝子を含む参照配列に対しシーケンスリードをマッピングして、対立遺伝子候補を同定することと;c)コンピュータシステムにより、遺伝子座に対しマッピングされたシーケンスリードを遺伝子座に存在する対立遺伝子としてみなす尤度が最も高い対立遺伝子候補対を同定することと、を包含する。いくつかの実施形態では、対立遺伝子は、HLAの対立遺伝子、HVの対立遺伝子、又はBGAの対立遺伝子であり、並びに遺伝子座は、HLA座、HV座、又はBGA座である。いくつかの実施形態では、遺伝子座に存在する対立遺伝子は、この遺伝子座にてHLA型を構成する。いくつかの実施形態では、参照配列は、ゲノム配列(例えば、遺伝子座をマスクされた又は除去されたゲノム配列)も包含する。いくつかの実施形態では、対立遺伝子及び配列はヒトのものである。
いくつかの実施形態では、上記方法の工程b)は、コンピュータシステムに実行される工程:i)参照配列に対してシーケンスリードをマッピングする工程であって、この参照配列が、この遺伝子座のゲノム配列及び複数の対立遺伝子配列を含む、マッピングする工程と;ii)シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第1のセットとして同定する工程と;iii)対立遺伝子候補の第1のセットにマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第2のセットとして同定する工程と;iv)遺伝子座に対してマッピングされるシーケンスリードの90%未満が、対立遺伝子候補の第1のセット又は第2のセットの対立遺伝子に対してマッピングされる場合に、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされたリードを除外し、シーケンスリードが最も多数マッピングした対立遺伝子を、対立遺伝子候補の第3のセットとして同定する工程と、を包含する。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。用語「タンパク質群」は、同一のアミノ酸配列を有する同一のタンパク質をコードする一群の対立遺伝子を包含する。いくつかの実施形態では、対立遺伝子候補の第2のセットは、対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子と、遺伝子座に対しマッピングされる配列リードのうち、対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードを除外したものが、対立遺伝子候補の第1のセットに対しマッピングされる配列リードの総数の1%超である場合に、対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードは除外せずに、2番目に多数のシーケンスリードがマッピングされる対立遺伝子と、を包含する。いくつかの実施形態では、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子に対しマッピングされるシーケンスリードの数が、遺伝子座に対しマッピングされるシーケンスリードの総数の少なくとも10%を構成する場合にのみ、対立遺伝子候補の第3のセットは、工程iv)で同定される。
いくつかの実施形態では、上記方法の工程b)は、コンピュータシステムに実行される工程:i)低ストリンジェンシーにて、シーケンスリードを参照配列に対してマッピングする工程であって、この参照配列が、ヒトゲノム配列と、この遺伝子座の複数の対立遺伝子配列とを含む、マッピングする工程と;ii)少なくとも1つの対立遺伝子が、マッピングされる対立遺伝子の上位10%に含まれる4桁のタンパク質ファミリーのそれぞれに由来する全ての対立遺伝子を、対立遺伝子候補として前もって同定する工程と;iii)高ストリンジェンシーにて、シーケンスリードを参照配列に対してマッピングする工程であって、この参照配列が、前もって候補とされた対立遺伝子を含む、マッピングする工程と;iv)シーケンスリードが最も多数マッピングされた、前もって候補とされた対立遺伝子を、対立遺伝子候補の第1のセットとして同定する工程と;v)対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされた、前もって候補とされた対立遺伝子を、対立遺伝子候補の第2のセットとして同定する工程と;vi)遺伝子座に対しマッピングされるシーケンスリードの90%未満が、対立遺伝子候補の第1のセット又は第2のセットの対立遺伝子に対しマッピングされる場合に、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた、前もって候補とされた対立遺伝子を、対立遺伝子候補の第3のセットとして同定する工程と、を包含する。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子候補の第2のセットは、対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子と、遺伝子座に対しマッピングされる配列リードのうち、対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードを除外したものが、対立遺伝子候補の第1のセットに対しマッピングされる配列リードの総数の1%超である場合に、対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードは除外せずに、2番目に多数のシーケンスリードがマッピングされる対立遺伝子と、を包含する。いくつかの実施形態では、対立遺伝子候補の第3のセットは、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされたHLAの対立遺伝子に対しマッピングされるシーケンスリードの数が、HLA座に対しマッピングされるシーケンスリードの総数の少なくとも10%を構成する場合にのみ同定される。
いくつかの実施形態では、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対は、次のもの:i)対立遺伝子候補に対しマッピングされるシーケンスリード中の各一塩基多型(SNPs);及びii)対立遺伝子候補に対しマッピングされるシーケンスリード中に存在するSNPsの配列対、としてみなされる尤度が最も高い対立遺伝子候補対である。いくつかの実施形態では、シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対は、次のもの:i)対立遺伝子候補に対しマッピングされるシーケンスリード中に存在する各SNPs;ii)対立遺伝子候補に対しマッピングされるシーケンスリード中に存在するSNPsの配列対;及びiii)配列データの由来する生物(例えば、ヒト)における、対立遺伝子候補対の頻度、としてみなされる尤度が最も高い対立遺伝子候補対である。
いくつかの実施形態では、シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対は:i)対立遺伝子候補の各対に関し、遺伝子座における各SNPのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、遺伝子座における各SNPのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、SNPに対しマッピングされるシーケンスリード中のそれぞれのSNPに存在する配列としてみなすことができる、対数尤度スコアを求めることと;ii)対立遺伝子候補の各対に関し、遺伝子座におけるSNPsの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、遺伝子座におけるSNPsの各配列対についての対数確率の合計であり、対立遺伝子候補対は、SNPsの配列対に対しマッピングされるシーケンスリード中のSNPsの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めること、から判定され、ここで、対立遺伝子候補のうち、遺伝子型対数尤度スコア及び相対数尤度スコアの合計が最も高いものが、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対であると判定される。
いくつかの実施形態では、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対は:i)対立遺伝子候補の各対に関し、遺伝子座における各SNPのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、遺伝子座における各SNPのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、SNPに対しマッピングされるシーケンスリード中のそれぞれのSNPに存在する配列としてみなすことができる、対数尤度スコアを求めることと;ii)対立遺伝子候補の各対に関し、遺伝子座におけるSNPsの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、遺伝子座におけるSNPsの各配列対についての対数確率の合計であり、対立遺伝子候補対は、SNPsの配列対に対しマッピングされるシーケンスリード中のSNPsの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めることと;iii)対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めることであって、頻度対数尤度スコアは、各対立遺伝子候補がヒト集団において存在する対数頻度の合計である、頻度対数尤度スコアを求めること、から判定され、ここで、対立遺伝子候補のうち、遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高いものが、シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対であると、判定される。
本明細書では、いくつかの態様において、次のもの:a)配列データを受信することであって、この配列データが複数のシーケンスリードを含む、データを受信することと;b)コンピュータシステムにより、シーケンスリードを参照配列に対しマッピングすることであって、参照配列は、ゲノム配列と、その遺伝子座の複数の対立遺伝子配列とを含む、マッピングすることと;d)コンピュータシステムにより、最も多数のシーケンスリードにマッピングされる対立遺伝子を、対立遺伝子候補の第1のセットとして同定することと;e)遺伝子座に対してマッピングされるシーケンスリードの90%未満が、対立遺伝子候補の第1のセット又は第2のセットの対立遺伝子に対してマッピングされる場合、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第3のセットとして同定すること;f)対立遺伝子候補の各対に関し、コンピュータシステムにより、その遺伝子座の各SNPのそれぞれについての遺伝子型対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、遺伝子座における各SNPのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、SNPに対しマッピングされるシーケンスリード中のそれぞれのSNPに存在する配列としてみなされる、遺伝子型対数尤度スコアを求めることと;g)対立遺伝子候補の各対に関し、コンピュータシステムにより、遺伝子座におけるSNPsの各配列対についての相対数尤度スコアを求めることであって、各相対数尤度スコアが、遺伝子座におけるSNPsの各配列対についての対数確率の合計であり、対立遺伝子候補対は、SNPsの配列対に対しマッピングされるシーケンスリード中のSNPsの配列対に存在する配列としてみなすことができる、相対数尤度スコアを求めることと;h)対立遺伝子候補の各対に関し、コンピュータシステムにより、頻度対数尤度スコアを求めることであって、頻度対数尤度スコアは、各対立遺伝子候補対がヒト集団において存在する対数頻度の合計である、頻度対数尤度スコアを求めることと;i)コンピュータシステムにより、遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高い対立遺伝子候補対を、遺伝子座に存在する対立遺伝子として同定することと、を含む、コンピュータに実装された方法が提供される。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子候補の第2のセットは、対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子と、遺伝子座に対しマッピングされる配列リードのうち、対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードを除外したものが、対立遺伝子候補の第1のセットに対しマッピングされる配列リードの総数の1%超である場合に、対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードは除外せずに、2番目に多数のシーケンスリードがマッピングされる対立遺伝子と、を包含する。いくつかの実施形態では、対立遺伝子は、HLAの対立遺伝子、HVの対立遺伝子、又はBGAの対立遺伝子であり、並びに遺伝子座は、HLA座、HV座、又はBGA座である。いくつかの実施形態では、遺伝子座に存在する対立遺伝子は、この遺伝子座にてHLA型を構成する。いくつかの実施形態では、対立遺伝子及び配列はヒトのものである。いくつかの実施形態では、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子に対しマッピングされるシーケンスリードの数が、遺伝子座に対しマッピングされるシーケンスリードの総数の少なくとも10%を構成する場合にのみ、対立遺伝子候補の第3のセットは、工程iv)で同定される。
本明細書では、コンピュータに実装された方法に関するいくつかの実施形態において、配列データは、ゲノムワイドな配列決定データである。いくつかの実施形態では、ゲノムワイドな配列決定データは、トランスクリプトーム配列決定データ、全エクソーム配列決定データ、又は全ゲノム配列決定データである。いくつかの実施形態では、配列データのカバレッジは、60倍、50倍、40倍、30倍、20倍、又は15倍未満である。いくつかの実施形態では、配列データのカバレッジは、60倍超である。いくつかの実施形態では、シーケンスリードの平均長は、100、90、80、70、60、50、45、40、又は35塩基未満である。いくつかの実施形態では、配列リードの長さは、100塩基超である。
本明細書において提供される、コンピュータに実装された方法のある種の実施形態において、参照配列は、ヒトゲノム配列を含む。いくつかの実施形態では、ゲノム配列中の遺伝子座の配列(例えば、HLA座)は除去又はマスクされている。いくつかの実施形態では、ヒトゲノム配列はGRCh37/hg19である。
いくつかの実施形態では、本明細書に記載の方法は、サンプルに対してゲノムワイドな配列決定プロセスを実行して、配列データを生成する工程を包含する。いくつかの実施形態では、本明細書に記載の方法は、遺伝子座の核酸配列を含む増幅産物を産生する核酸増幅プロセスを実施することと、増幅産物に対し配列決定プロセスを実施することと、を包含する。
いくつかの実施形態では、本明細書において提供される方法は、HLA座のHLA型が、レシピエントのHLA座のHLA型と合致する、細胞、組織、又は臓器を、対象に移植する工程、を包含する。いくつかの実施形態では、レシピエントのHLA座のHLA型を判定するために、本明細書において提供されるコンピュータに実装された方法を実施する。いくつかの実施形態では、細胞、組織、又は臓器のHLA座のHLA型を判定するために、本明細書において提供されるコンピュータに実装された方法を実行する。いくつかの実施形態では、細胞、組織、又は臓器、及びレシピエントの両方のHLA座のHLA型を判定するために、本明細書において提供されるコンピュータに実装された方法を実行する。
本明細書では、いくつかの態様において、本明細書において提供されるコンピュータにより実行される方法を実施するためのコンピュータシステムが提供される。いくつかの実施形態では、コンピュータシステムは:少なくとも1つのプロセッサ;少なくとも1つのプロセッサに割り当てられたメモリ;ディスプレイ;及び遺伝子座における対立遺伝子(例えば、HLA座におけるHLA型)を判定するためにメモリでサポートされているプログラムであって、少なくとも1つのプロセッサに実行させるとき、少なくとも1つのプロセッサに対し、本明細書において提供されるコンピュータに実装された方法を実行させる複数の命令を含む、プログラム、を包含する。いくつかの実施形態では、少なくとも1つのプロセッサにより実行されるとき、命令は、少なくとも1つのプロセッサに:a)複数のシーケンスリードを含む配列データを受信させる;b)遺伝子座の複数の対立遺伝子を含む参照配列に対しシーケンスリードをマッピングして、対立遺伝子候補を同定させる;及びc)遺伝子座に対しマッピングされるシーケンスリードとしてみなされる尤度の最も高い対立遺伝子候補対を、遺伝子座に存在する対立遺伝子として同定させる。いくつかの実施形態では、少なくとも1つのプロセッサにより実行されるとき、命令は、少なくとも1つのプロセッサに:a)複数のシーケンスリードを含む配列データを受信させる;b)ヒトゲノム配列と、その遺伝子座の複数の対立遺伝子配列とを含む参照配列に対し、シーケンスリードをマッピングさせる;c)シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第1のセットとして同定させる;d)対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第2のセットとして同定させる;e)遺伝子座に対してマッピングされるシーケンスリードの90%未満が、対立遺伝子候補の第1のセット又は第2のセットの対立遺伝子に対してマッピングされる場合、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第3のセットとして同定させる;f)対立遺伝子候補の各対に関し、その遺伝子座の各SNPのそれぞれについての遺伝子型対数尤度スコアを求めさせる(各遺伝子型の対数尤度スコアは、遺伝子座における各SNPのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、SNPに対しマッピングされるシーケンスリード中のそれぞれのSNPに存在する配列としてみなされ得る);g)対立遺伝子候補の各対に関し、遺伝子座におけるSNPsの各配列対についての相対数尤度スコアを求めさせる(各相対数尤度スコアは、遺伝子座におけるSNPsの各配列対についての対数確率の合計であり、対立遺伝子候補対は、SNPsの配列対に対しマッピングされるシーケンスリード中のSNPsの配列対に存在する配列としてみなされ得る);h)対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めさせる(頻度対数尤度スコアは、各対立遺伝子候補対がヒト集団において存在する対数頻度の合計である);及びi)遺伝子座に存在する対立遺伝子としての、遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高い対立遺伝子候補対を同定させる。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子は、HLAの対立遺伝子、HVの対立遺伝子、又はBGAの対立遺伝子であり、並びに遺伝子座は、HLA座、HV座、又はBGA座である。いくつかの実施形態では、対立遺伝子候補の第2のセットは、対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子と、遺伝子座に対しマッピングされる配列リードのうち、対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードを除外したものが、対立遺伝子候補の第1のセットに対しマッピングされる配列リードの総数の1%超である場合に、対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードは除外せずに、2番目に多数のシーケンスリードがマッピングされる対立遺伝子と、を包含する。いくつかの実施形態では、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子に対しマッピングされるシーケンスリードの数が、遺伝子座に対しマッピングされるシーケンスリードの総数の少なくとも10%を構成する場合にのみ、対立遺伝子候補の第3のセットは、工程iv)で同定される。いくつかの実施形態では、遺伝子座に存在する対立遺伝子は、この遺伝子座にてHLA型を構成する。いくつかの実施形態では、参照配列は、ゲノム配列(例えば、遺伝子座をマスクされた又は除去されたゲノム配列)も包含する。いくつかの実施形態では、対立遺伝子及び配列はヒトのものである。
本明細書では、いくつかの態様において、遺伝子座に存在する対立遺伝子を判定するためのコンピュータプログラム製品が提供される。いくつかの実施形態では、コンピュータプログラム製品は、複数の命令を格納されている、非一時的にコンピュータにより読み取り可能な媒体上に存在し、前述の複数の命令は、コンピュータプロセッサに実行させたときに、本明細書において提供されるコンピュータに実装された方法が実行されるものである。ある種の実施形態では、コンピュータプロセッサにより実行されるとき、この複数の命令は、コンピュータプロセッサに:a)複数のシーケンスリードを含む配列データを受信させる;b)遺伝子座の複数の対立遺伝子を含む参照配列に対しシーケンスリードをマッピングして、対立遺伝子候補を同定させる;及びc)遺伝子座に対しマッピングされるシーケンスリードとしてみなされる尤度の最も高い対立遺伝子候補対を、遺伝子座に存在する対立遺伝子として同定させる。ある種の実施形態では、コンピュータプロセッサにより実行されるとき、複数の命令は、コンピュータプロセッサに:a)複数のシーケンスリードを含む配列データを受信させる;b)ヒトゲノム配列と、その遺伝子座の複数の対立遺伝子配列とを含む参照配列に対し、シーケンスリードをマッピングさせる;c)シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第1のセットとして同定させる;d)対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第2のセットとして同定させる;e)遺伝子座に対してマッピングされるシーケンスリードの90%未満が、対立遺伝子候補の第1のセット又は第2のセットの対立遺伝子に対してマッピングされる場合、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第3のセットとして同定させる;f)対立遺伝子候補の各対に関し、その遺伝子座の各SNPのそれぞれについての遺伝子型対数尤度スコアを求めさせる(各遺伝子型の対数尤度スコアは、遺伝子座における各SNPのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、SNPに対しマッピングされるシーケンスリード中のそれぞれのSNPに存在する配列としてみなされ得る);g)対立遺伝子候補の各対に関し、遺伝子座におけるSNPsの各配列対についての相対数尤度スコアを求めさせる(各相対数尤度スコアは、遺伝子座におけるSNPsの各配列対についての対数確率の合計であり、対立遺伝子候補対は、SNPsの配列対に対しマッピングされるシーケンスリード中のSNPsの配列対に存在する配列としてみなされ得る);h)対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めさせる(頻度対数尤度スコアは、各対立遺伝子候補対がヒト集団において存在する対数頻度の合計である);及びi)遺伝子座に存在する対立遺伝子としての、遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高い対立遺伝子候補対を同定させる。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子候補の第2のセットは、対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子と、遺伝子座に対しマッピングされる配列リードのうち、対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードを除外したものが、対立遺伝子候補の第1のセットに対しマッピングされる配列リードの総数の1%超である場合に、対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードは除外せずに、2番目に多数のシーケンスリードがマッピングされる対立遺伝子と、を包含する。いくつかの実施形態では、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子に対しマッピングされるシーケンスリードの数が、遺伝子座に対しマッピングされるシーケンスリードの総数の少なくとも10%を構成する場合にのみ、対立遺伝子候補の第3のセットは、工程iv)で同定される。
本明細書では、いくつかの態様において、ハプロイドDNAの対象遺伝子座(例えば、ミトコンドリアDNAの超可変領域(HV)遺伝子座)の遺伝子型を判定する、コンピュータに実装された方法が提供される。いくつかの実施形態では、方法は:a)配列データを受信することであって、この配列データが複数のシーケンスリードを含む、データを受信することと;b)このコンピュータシステムにより、遺伝子座の複数の対立遺伝子を含む参照配列に対しシーケンスリードをマッピングして、対立遺伝子候補を同定することと;c)遺伝子座に存在する対立遺伝子として遺伝子座に対しマッピングするシーケンスリードとしてみなされる尤度が最も高い1つ以上の対立遺伝子候補を、コンピュータシステムにより同定することと、を包含する。いくつかの実施形態では、対立遺伝子はHVの対立遺伝子であり、遺伝子座はHV座である。いくつかの実施形態では、遺伝子座に存在する対立遺伝子は、この遺伝子座にて遺伝型を構成する。いくつかの実施形態では、参照配列は、ゲノム配列(例えば、遺伝子座をマスクされた又は除去されたゲノム配列)も包含する。いくつかの実施形態では、対立遺伝子及び配列はヒトのものである。いくつかの実施形態では、方法は、コンピュータシステムに実行される工程:i)参照配列に対してシーケンスリードをマッピングする工程であって、この参照配列が、ヒトゲノム配列及びこの遺伝子座の複数の対立遺伝子配列を含む、マッピングする工程と;ii)シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第1のセットとして同定する工程と;iii)対立遺伝子候補の第1のセットに対してマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第2のセットとして同定する工程と;iv)遺伝子座に対してマッピングされたシーケンスリードの90%未満が、対立遺伝子候補の第1のセット又は第2のセットの対立遺伝子に対してマッピングされる場合に、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされたリードを除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第3のセットとして同定する工程と、を包含する。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子候補の第1のセットに対しマッピングされたシーケンスリードの除外後、遺伝子座に対しマッピングされたシーケンスリードの数が、対立遺伝子候補の第1のセットに対しマッピングされたシーケンスリードの数の1%超である場合、対立遺伝子候補の第1のセットに対しマッピングされたシーケンスリードを除外せずに、2番目に多数のシーケンスリードがマッピングされた対立遺伝子を、対立遺伝子候補の第2のセットのサブセットとして更に同定する。いくつかの実施形態では、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子に対しマッピングされるシーケンスリードの数が、遺伝子座に対しマッピングされるシーケンスリードの総数の少なくとも10%を構成する場合にのみ、対立遺伝子候補の第3のセットは、工程iv)で同定される。
いくつかの実施形態では、シーケンスリードとしてみなされる尤度が最も高い1つ以上の対立遺伝子候補は、次のもの:i)対立遺伝子候補に対しマッピングされるシーケンスリード中の各一塩基多型(SNPs);及びii)対立遺伝子候補に対しマッピングされるシーケンスリード中に存在するSNPsの配列対、としてみなされる尤度が最も高い1つ以上の対立遺伝子候補である。
いくつかの実施形態では、シーケンスリードとしてみなされる尤度が最も高い1つ以上の対立遺伝子候補は、次のもの:i)対立遺伝子候補に対しマッピングされるシーケンスリード中の各一塩基多型(SNPs);ii)対立遺伝子候補に対しマッピングされるシーケンスリード中に存在するSNPsの配列対;及びiii)人において対立遺伝子候補対の頻度、としてみなされる尤度が最も高い1つ以上の対立遺伝子候補である。いくつかの実施形態では、シーケンスリードとしてみなされる尤度が最も高い1つ以上の対立遺伝子候補は:i)各対立遺伝子候補のそれぞれ及び対立遺伝子候補の各組み合わせに関し、遺伝子座における各SNPのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、遺伝子座における各SNPのそれぞれについての対数確率の合計であり、対立遺伝子候補のそれぞれ又は対立遺伝子の組み合わせは、SNPに対しマッピングされるシーケンスリード中のそれぞれのSNPに存在する配列としてみなすことができる、対数尤度スコアを求めることと;ii)各対立遺伝子候補のそれぞれ及び対立遺伝子候補の各組み合わせに関し、遺伝子座におけるSNPsの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、遺伝子座におけるSNPsの各配列対についての対数確率の合計であり、対立遺伝子候補のそれぞれ又は対立遺伝子候補の組み合わせは、SNPsの配列対に対しマッピングされるシーケンスリード中のSNPsの配列対に存在する配列とみなすことができ、対立遺伝子候補又は対立遺伝子候補の組み合わせのうち、遺伝子型対数尤度スコア及び相対数尤度スコアの合計が最も高いものが、シーケンスリードとしてみなされる尤度が最も高い1つ以上の対立遺伝子候補である、相対数尤度スコアを求めることと、により判定される。
いくつかの実施形態では、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対は:i)各対立遺伝子候補のそれぞれ及び対立遺伝子候補の各組み合わせに関し、遺伝子座における各SNPのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、遺伝子座における各SNPのそれぞれについての対数確率の合計であり、それぞれの対立遺伝子候補又は対立遺伝子の組み合わせは、SNPに対しマッピングされるシーケンスリード中のそれぞれのSNPに存在する配列としてみなすことができる、対数尤度スコアを求めることと;ii)各対立遺伝子候補のそれぞれ及び対立遺伝子候補の各組み合わせに関し、遺伝子座におけるSNPsの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、遺伝子座におけるSNPsの各配列対についての対数確率の合計であり、対立遺伝子候補のそれぞれ又は対立遺伝子候補の組み合わせは、SNPsの配列対に対しマッピングされるシーケンスリード中のSNPsの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めることと;iii)各対立遺伝子候補のそれぞれ及び対立遺伝子候補の各組み合わせに関し、頻度対数尤度スコアを求めることであって、頻度対数尤度スコアは、対立遺伝子候補のそれぞれ及び対立遺伝子候補の組み合わせがヒト集団において存在する対数頻度の合計であり、対立遺伝子候補のそれぞれ及び対立遺伝子候補の組み合わせのうち、遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高いものが、シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対である、頻度対数尤度スコアを求めることと、により判定される。
本明細書では、いくつかの態様において、臓器、組織、又は細胞を対象に移植する方法、移植片拒絶反応を予防する方法、及び/又は移植片対宿主病を予防する方法、が提供される。いくつかの実施形態では、本方法は:a)複数のシーケンスリードを含む、対象の配列データを取得することと;b)HLA座の複数のHLA対立遺伝子配列を含む参照配列に対してシーケンスリードをマッピングして、対立遺伝子候補を同定することと;c)シーケンスリードとみなされる尤度が最も高い、HLA座に対しマッピングされる対立遺伝子候補対を、対象のHLA座のHLA型を構成する対立遺伝子として同定することと;d)HLA座のHLA型が、対象のHLA座のHLA型と適合する臓器、組織、又は細胞を、対象に移植することと、を含む。いくつかの実施形態では、本方法は:a)複数のシーケンスリードを含む、臓器、組織、又は細胞の配列データを取得することと;b)HLA座の複数のHLA対立遺伝子配列を含む参照配列に対してシーケンスリードをマッピングして、対立遺伝子候補を同定することと;c)シーケンスリードとみなされる尤度が最も高い、HLA座に対しマッピングされる対立遺伝子候補対を、対象のHLA座のHLA型を構成する対立遺伝子として同定することと;d)HLA座に、臓器、組織、又は細胞のHLA座のHLA型と適合するHLA型を有する対象に、臓器、組織、又は細胞を移植することと、を含む。
いくつかの実施形態では、工程b)は、工程:i)参照配列に対してシーケンスリードをマッピングする工程であって、この参照配列が、ヒトゲノム配列及びHLA座の複数のHLA対立遺伝子配列を含む、マッピングする工程と;ii)最も多数のシーケンスリードに対してマッピングされるHLA対立遺伝子を、対立遺伝子候補の第1のセットとして同定する工程と;iii)対立遺伝子候補の第1のセットに対してマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされたHLA対立遺伝子を、対立遺伝子候補の第2のセットとして同定する工程と;iv)HLA座に対してマッピングされるシーケンスリードの90%未満が、対立遺伝子候補の第1のセット又は第2のセットの対立遺伝子に対してマッピングされる場合に、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされたリードを除外し、シーケンスリードが最も多数マッピングされたHLA対立遺伝子を、対立遺伝子候補の第3のセットとして同定する工程と、を包含する。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子候補の第3のセットは、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされたHLAの対立遺伝子に対しマッピングされるシーケンスリードの数が、HLA座に対しマッピングされるシーケンスリードの総数の少なくとも10%を構成する場合にのみ同定される。
いくつかの実施形態では、工程b)は、工程:i)低ストリンジェンシーにて、シーケンスリードを参照配列に対してマッピングする工程であって、この参照配列が、ヒトゲノム配列と、HLA座の複数のHLA対立遺伝子配列とを含む、マッピングする工程と;ii)少なくとも1つの対立遺伝子が、マッピングされる対立遺伝子の上位10%に含まれる4桁のタンパク質ファミリーのそれぞれに由来する全ての対立遺伝子を、前もって対立遺伝子候補として同定する工程と;iii)高ストリンジェンシーにて、シーケンスリードを参照配列に対しマッピングする工程であって、この参照配列が、前もって候補とされた対立遺伝子を含む、マッピングする工程と;iv)シーケンスリードが最も多数マッピングされた、前もって候補とされた対立遺伝子を、対立遺伝子候補の第1のセットとして同定する工程と;v)対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされた、前もって候補とされた対立遺伝子を、対立遺伝子候補の第2のセットとして同定する工程と;vi)HLA座に対しマッピングされるシーケンスリードの90%未満が、対立遺伝子候補の第1のセット又は第2のセットの対立遺伝子に対しマッピングされる場合に、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた、前もって候補とされた対立遺伝子を、対立遺伝子候補の第3のセットとして同定する工程と、を包含する。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子候補の第3のセットは、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされたHLAの対立遺伝子に対しマッピングされるシーケンスリードの数が、HLA座に対しマッピングされるシーケンスリードの総数の少なくとも10%を構成する場合にのみ同定される。
いくつかの実施形態では、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対は、次のもの:i)対立遺伝子候補に対しマッピングされるシーケンスリード中の各一塩基多型(SNPs);及びii)対立遺伝子候補に対しマッピングされるシーケンスリード中に存在するSNPsの配列対、としてみなされる尤度が最も高い対立遺伝子候補対である。いくつかの実施形態では、シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対は、次のもの:i)対立遺伝子候補に対しマッピングされるシーケンスリード中の各一塩基多型(SNPs);ii)対立遺伝子候補に対しマッピングされるシーケンスリード中に存在するSNPsの配列対;及びiii)ヒトにおける対立遺伝子候補対の頻度、としてみなされる尤度が最も高い対立遺伝子候補対である。
いくつかの実施形態では、シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対は:i)対立遺伝子候補の各対に関し、HLA座における各SNPのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、HLA座における各SNPのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、SNPに対しマッピングされるシーケンスリード中のそれぞれのSNPに存在する配列としてみなすことができる、対数尤度スコアを求めることと;ii)対立遺伝子候補の各対に関し、HLA座におけるSNPsの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、HLA座におけるSNPsの各配列対についての対数確率の合計であり、対立遺伝子候補対は、SNPsの配列対に対しマッピングされるシーケンスリード中のSNPsの配列対に存在する配列とみなすことができ、対立遺伝子候補のうち、遺伝子型対数尤度スコア及び相対数尤度スコアの合計が最も高いものが、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対である、相対数尤度スコアを求めることと、により判定される。
いくつかの実施形態では、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対は:i)対立遺伝子候補の各対に関し、HLA座における各SNPのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、HLA座における各SNPのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、SNPに対しマッピングされるシーケンスリード中のそれぞれのSNPに存在する配列としてみなすことができる、対数尤度スコアを求めることと;ii)対立遺伝子候補の各対に関し、HLA座におけるSNPsの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、HLA座におけるSNPsの各配列対についての対数確率の合計であり、対立遺伝子候補対は、SNPsの配列対に対しマッピングされるシーケンスリード中のSNPsの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めることと;iii)対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めることであって、頻度対数尤度スコアは、各対立遺伝子候補がヒト集団において存在する対数頻度の合計であり、対立遺伝子候補のうち、遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高いものが、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対である、頻度対数尤度スコアを求めることと、により判定される。
いくつかの態様では、臓器、組織、又は細胞を対象に移植して、移植片拒絶反応を予防する及び/又は移植片対宿主病を予防する方法は、a)複数のシーケンスリードを含む対象の配列データを取得することと;b)ヒトゲノム配列と、HLA座の複数のHLA対立遺伝子配列とを含む参照配列に対し、シーケンスリードをマッピングすることと;c)最も多数のシーケンスリードをマッピングするHLA対立遺伝子を、対立遺伝子候補の第1のセットとして同定することと;d)対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされたHLA対立遺伝子を、対立遺伝子候補の第2のセットとして同定することと;e)HLA座に対してマッピングされるシーケンスリードの90%未満が、対立遺伝子候補の第1のセット又は第2のセットの対立遺伝子に対してマッピングされる場合、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされたHLA対立遺伝子を、対立遺伝子候補の第3のセットとして同定することと;f)対立遺伝子候補の各対に関し、HLA座の各SNPのそれぞれについての遺伝子型対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアは、HLA座における各SNPのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、SNPに対しマッピングされるシーケンスリード中のそれぞれのSNPに存在する配列としてみなされ得る、遺伝子型対数尤度スコアを求めることと;g)対立遺伝子候補の各対に関し、HLA座におけるSNPsの各配列対についての相対数尤度スコアを求めることであって、各相対数尤度スコアは、HLA座におけるSNPsの各配列対についての対数確率の合計であり、対立遺伝子候補対は、SNPsの配列対に対しマッピングされるシーケンスリード中のSNPsの配列対に存在する配列としてみなされ得る、相対数尤度スコアを求めることと;h)対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めることであって、頻度対数尤度スコアは、各対立遺伝子候補対がヒト集団において存在する対数頻度の合計であり、対象のHLA座のHLA型は、対立遺伝子候補対のうち遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高いものである、頻度対数尤度スコアを求めることと;i)HLA座のHLA型が、対象のHLA座のHLA型と適合する臓器、組織、又は細胞を、対象に移植することと、を含む。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子候補の第3のセットは、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされたHLAの対立遺伝子に対しマッピングされるシーケンスリードの数が、HLA座に対しマッピングされるシーケンスリードの総数の少なくとも10%を構成する場合にのみ同定される。
いくつかの実施形態では、臓器、組織、又は細胞を対象に移植して、移植片拒絶反応を予防する及び/又は移植片対宿主病を予防する方法は、a)複数のシーケンスリードを含む臓器、組織、又は細胞の配列データを取得することと;b)ヒトゲノム配列と、HLA座の複数のHLA対立遺伝子配列とを含む参照配列に対し、シーケンスリードをマッピングすることと;c)最も多数のシーケンスリードをマッピングするHLA対立遺伝子を、対立遺伝子候補の第1のセットとして同定することと;d)対立遺伝子候補の第1のセットに対しマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされたHLA対立遺伝子を、対立遺伝子候補の第2のセットとして同定することと;e)HLA座に対してマッピングされるシーケンスリードの90%未満が、対立遺伝子候補の第1のセット又は第2のセットの対立遺伝子に対してマッピングされる場合、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされたHLA対立遺伝子を、対立遺伝子候補の第3のセットとして同定することと;f)対立遺伝子候補の各対に関し、HLA座の各SNPのそれぞれについての遺伝子型対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアは、HLA座における各SNPのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、SNPに対しマッピングされるシーケンスリード中のそれぞれのSNPに存在する配列としてみなされ得る、遺伝子型対数尤度スコアを求めることと;g)対立遺伝子候補の各対に関し、HLA座におけるSNPsの各配列対についての相対数尤度スコアを求めることであって、各相対数尤度スコアは、HLA座におけるSNPsの各配列対についての対数確率の合計であり、対立遺伝子候補対は、SNPsの配列対に対しマッピングされるシーケンスリード中のSNPsの配列対に存在する配列としてみなされ得る、相対数尤度スコアを求めることと;h)対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めることであって、頻度対数尤度スコアは、各対立遺伝子候補対がヒト集団において存在する対数頻度の合計であり、対象のHLA座のHLA型は、対立遺伝子候補対のうち遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高いものである、頻度対数尤度スコアを求めることと;i)HLA座に、臓器、組織、又は細胞のHLA座のHLA型と適合するHLAを有する対象に、臓器、組織、又は細胞を移植することと、を含む。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子候補の第3のセットは、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされたHLAの対立遺伝子に対しマッピングされるシーケンスリードの数が、HLA座に対しマッピングされるシーケンスリードの総数の少なくとも10%を構成する場合にのみ同定される。
本明細書で提供される方法のいくつかの実施形態において、配列データは、ゲノムワイドな配列決定データである。いくつかの実施形態では、ゲノムワイドな配列決定データは、トランスクリプトーム配列決定データ、全エクソーム配列決定データ、又は全ゲノム配列決定データである。いくつかの実施形態では、配列データのカバレッジは、60倍、50倍、40倍、30倍、20倍、又は15倍未満である。いくつかの実施形態では、シーケンスリードの平均長は、100、90、80、70、60、50、45、40、又は35塩基未満である。
本明細書において提供される方法のある種の実施形態において、参照配列は、ヒトゲノム配列を更に含む。いくつかの実施形態では、ゲノム配列中のHLA座の配列は除去又はマスクされている。いくつかの実施形態では、ヒトゲノム配列はGRCh37/hg19である。
いくつかの実施形態では、本明細書に記載の方法は、サンプルに対してゲノムワイドな配列決定プロセスを実行して、配列データを生成する工程を包含する。いくつかの実施形態では、本明細書に記載の方法は、HLA座の核酸配列を含む増幅産物を産生する核酸増幅プロセスを実施することと、増幅産物に対し配列決定プロセスを実施することと、を包含する。
本明細書において提供される方法のいくつかの実施形態では、臓器、組織、又は細胞は、皮膚、骨、心臓弁、心臓、肺、腎臓、肝臓、膵臓、腸、胃、精巣、又はこれらの部分を含む。いくつかの実施形態では、臓器、組織、又は細胞は、骨髄、造血幹細胞、又は成体幹細胞を含む。
1つ以上の実施形態に従う方法例を示すワークフローダイアグラムである。方法の各工程には、Bowtie 2により、それぞれの対立遺伝子のゲノム配列により置換されたHLA座を有するヒトゲノムに対するリード配列をマッピングする工程(I)、マッピングされたリード配列数をもとに、対立遺伝子候補のうち上位のものを選別する工程(II〜IV)、及び選択された、対立遺伝子候補対の全てに関し、対数尤度を評点する工程(V)、を含む。 リード長、カバレッジ、及び配列決定プロトコルがHLAタイピングの精度に及ぼす影響を示すグラフである。このプロットは、HapMap RNAseq(リード長37bp)、ゲノムWXS(長さ100bp)、及びHapMap WXS(リード長101bp)のデータセットをもとにしたサンプルを含む。入力データをペアエンド(黒丸及び実線)及びシングルエンド(白丸及び破線)として扱う予測の確度が例示される。これらのシンボルは、HLA座のカバレッジをもとにビン化した、4桁のサンプルの平均確度を表すものであり、ばらつきを示すエラーバーを付している。マッピング後のカバレッジは、対立遺伝子候補に対し準最適なリード、あるいはアラインメントしないリードを除外し、主要なクラスI及びII HLA座のCDS領域に関し算出したものである。シンボルの傾向を示すため、スプライン補間により、なめらかな線を作成した。 HapMap RNAseq、1000Genome WXS、HapMap WXS、及びTargeted amplicon seq のデータセットにおける、PHLAT、HLAminer、HLAforest、seq2HLAの予測確度を示す表である。*HapMapのRNA配列データセットにはHLAminerのリードアラインメントモードを用い、その他の全てのデータセットにはコンティグアセンブリモードを用いた。全てのデータセットにおいて、seq2HLAで予測される確度を算出するとき、seq2HLAでは、これまでに報告されているとおりp値の閾値0.1を設定した場合よりも偽陰性が低い(そのため、確度が高い)ことから、p値の閾値は用いなかった。#この値は刊行物に既報のものであった。 HLAタイピング用にHLA配列データを生成するために実施例3で用いた、目的増幅産物の配列決定ストラテジーを示す、概略図である。 HLAタイピング用にHLA配列データを生成するために実施例3で用いた、目的増幅産物の配列決定ストラテジーにおいて使用したプライマーを示す、表である。 HLA−DQA1(左側のパネル)及びHLA−DQB1(右側のパネル)遺伝子座において誤って同定された対立遺伝子のタイプ(x軸)及び数(y軸)を示す柱状図であり、HapMap RNAseq、1000 Genome WXS、及びHapMap WXSのデータセットを要約している。 1つの典型的な試料においてマッピングしたリードを示す図である。ここでは、HLA−DQA1*03:01の対立遺伝子が、HLA−DQA1*03:03の対立遺伝子であるとして誤って分類されている。マッピングしたリードでは、2つの対立遺伝子を区別する1箇所のSNP部分(chr6:32609965,2本の垂直な破線間でハイライトした)周辺を示す。パネルの下には、HLA−DQA1遺伝子のhg19参照配列を示す。ハイライトしたSNPにおける、A、C、G、T塩基のパイルアップカウント数は、それぞれ141、117、0、及び0であった。 クエリーとして示すHLA−DQA1*03:03対立遺伝子の135塩基断片と、ヒトゲノムhg19中のHLA−DQA2参照配列とのアライメントを示す図である。クエリー配列は、ミスマッチ部分のみを示して、水平な棒図として簡略化した。dbSNPの記録が存在するミスマッチ部分には、赤色の垂直なマーカーを付し、関連する同定番号(例えば、rs62619945)により標識した。主要な塩基配列及び代替的な塩基配列を丸括弧に示す。DQA1*03:01対立遺伝子とDQA1*03:03対立遺伝子とで異なるSNPのアライメントを枠線で囲んだ。 1つ以上の実施形態に従うプロセス例を示すフローチャートである。 1つ以上の実施形態に従うプロセス例を示すフローチャートである。
汎論
本明細書では、いくつかの態様において、遺伝子座(例えば、高度多型遺伝子座)に存在する対立遺伝子を正確に判定するプロセスが提供される。いくつかの実施形態では、本方法は、PAT(Precise Allele Typing)又はPHLAT(Precise HLA Typing)と呼ばれる。用語「PHLAT」及び「PAT」は、本明細書において互換可能に使用される。PATプロセスは、HLA座、BGA座、及びHV座などの高度多型遺伝子座を含む、何らかの遺伝子座に存在する、対立遺伝子の同定に広く使用可能である。PATプロセスのある種の実施形態は、例えば、臓器移植、個別化医療、診断学、法医学、及び人類学などの多様な用途に有用である。例えば、PATプロセスの実施形態は、臓器拒絶反応及び移植片対宿主病の予防、疾患感受性の判定、ワクチン投与計画の最適化、治療有効性の予測、並びに地域的及び又は民族的起源の特定のために使用できる。
いくつかの実施形態では、PATプロセスは、HLA座のHLA型を判定するのに使用される。PATプロセスにより、多様な配列決定データ、更には、リード長の短い及び/又は配列カバレッジの低い配列決定データを利用した正確な4桁及び2桁のHLAタイピングが可能となる。正確なHLA型は、全ゲノムワイドの配列決定法(例えば、トランスクリプトーム配列決定、全エクソーム配列決定、及び全ゲノム配列決定)、並びにHLA特異的配列決定法(例えば、HLA座の核酸を増幅した後、得られた増幅産物を配列決定するもの)などといった、多くの異なる配列決定法を用い生成した配列データデータをもとに、予測することができる。
例えば、適合する又は部分的に適合するHLA型を有するドナー及びレシピエント間の細胞、臓器、又は組織の移植を容易にするため、PATプロセスを使用することができる。いくつかの実施形態では、PATプロセスは、狼瘡、炎症性腸疾患、多発性硬化症、関節炎及びI型糖尿病などの免疫原性の疾患、並びに乳がん又は子宮頸癌などの癌などといった、特定の疾患又は状態に関して予め診断のついた個体の処置を、特定及び/又は促進するために使用される。いくつかの実施形態では、PATプロセスは、腫瘍免疫療法及び/又はがんワクチン療法を用意にするために使用される。ある種の実施形態では、PATプロセスは、対象又は試料の地域的及び/又は民族的起源を特定するために使用される。
ある種の実施形態では、PATプロセスは、2つのパート:1)遺伝子座について可能性のある対立遺伝子から対立遺伝子候補を選別するパート;及び2)対立遺伝子候補対を順位付けして、対立遺伝子候補対の中から、その遺伝子座の対立遺伝子対として最も尤度の高いものを同定するパート、を含む。いくつかの実施形態では、対立遺伝子候補は、リードカウントをもとに選択される。いくつかの実施形態では、対立遺伝子候補対は、観察されたデータをそれぞれの対立遺伝子対とみなすことのできる尤度をもとに順位付けされる。いくつかの実施形態では、最も尤度の高い対立遺伝子は、各位置における配列一致度及び連続する位置間の相一致度の両方をもとに判定される。いくつかの実施形態では、ヒト集団における対立遺伝子の頻度も、対立遺伝子対を順位付けする際の因子とされる。図7及び図8には、1つ以上の実施形態に従うPATプロセスの例を示す、フローチャートを提供する。
いくつかの実施形態では、本明細書に記載の方法は、メジャー又はマイナーなHLA座のHLA型を判定するために使用できる。いくつかの実施形態では、HLA座はクラスI HLA座である。いくつかの実施形態では、HLA座は、HLA−A座、HLA−B座、又はHLA−C座である。いくつかの実施形態では、HLA座はクラスII HLA座である。いくつかの実施形態では、HLA座は、HLA−DQA1座、HLA−DQB1座、HLA−DRA座、HLA−DRB1座、HLA−DRB3座、HLA−DRB4座、HLA−DRB5座、HLA−DPA1座、又はHLA−DPB1座である。いくつかの実施形態では、HLA座は、マイナーなHLA座である。HLAの対立遺伝子の配列は当該技術分野で既知である。例えば、HLAの対立遺伝子のゲノム配列及びDNAのコード配列(CDS)は、IMGT(リリース3.8.0)から得ることができる。
いくつかの実施形態では、本明細書に記載の方法は、HV座[例えば、超可変領域1(HV1)遺伝子座、又は超可変領域2(HV2)遺伝子座]などの、ミトコンドリアDNAの遺伝子領域の遺伝子型を判定するために使用される。二倍体であるため、各遺伝子座のコピーを2つずつ有する核DNAとは異なり、ミトコンドリアDNAは一倍体であるため、理論上、遺伝子座のコピーを1つのみ含有することになる。しかしながら、ミトコンドリアDNAにおいて、遺伝子座はしばしば重複している。したがって、ミトコンドリアDNAは、遺伝子座のコピーを、1つ、2つ、又は複数含有する可能性がある。したがって、本明細書に記載の方法をミトコンドリアDNA(又は生殖系細胞のゲノム、ウイルスゲノム、又は細菌ゲノムなどといったハプロイドゲノムによりコードされる何らかの遺伝子座)に応用するとき、対立遺伝子対として同定されるのではなく、1つ以上の対立遺伝子が遺伝子座に存在するものとして同定され得る。HVの対立遺伝子の配列は当該技術分野で既知である。HV対立遺伝子配列は、例えば、参照によりその全体が本願に援用されるKohl et al,Nucleic Acids Research 34:D700−D704(2006)に記載のとおり、HvrBase++データベース(http://www.hvrbase.org)に見ることができる。
いくつかの実施形態では、本明細書に記載の方法は、BGA座に存在する対立遺伝子を判定するために使用される。BGA座の例としては、ABO座及びRh座が挙げられる。BGA座の対立遺伝子の配列は当該技術分野で既知である。例えば、BGA座配列は、参照によりその全体が本願に援用されるPatnaik et al,Nucleic Acids Research 40:D1023〜D1029(2012)に記載のとおり、NCBE血液型抗原遺伝子変異データベース(http://www.ncbi.nlm.nih.gov/projects/gv/rbc/xslcgi.fcgi?cmd=bgmut)から得ることができる。
ある種の実施形態では、本明細書に記載のプロセスは、コンピュータに実装される。プロセスは、ソフトウェア、ハードウェア、ファームウェア、又はこれらを任意に組み合わせたものに実装することができる。プロセスは、好ましくは、少なくとも1つのプロセッサ、プロセッサにより読み取り可能な記憶媒体(例えば、揮発性及び不揮発性メモリ、及び/又は記憶エレメント)、並びに入力及び出力装置を含む、プログラム可能なコンピュータシステムで実行される、1つ以上のコンピュータプログラムに実装される。コンピュータシステムは、1つ以上の物理的マシン、又は1つ以上の物理的マシン上を走る仮想マシンを含み得る。更に、コンピュータシステムは、コンピュータ・クラスター、又はインターネット又はその他のネットワークにより接続された数多くの分散したコンピュータを含み得る。
それぞれのコンピュータプログラムは、命令又はコンピュータシステムのランダムアクセスメモリに存在するコードモジュール中のプログラムコードのセットとすることができる。コンピュータシステムにより必要とされるまでの間、別のコンピュータメモリ(例えば、ハードディスクドライブに、又は光学ディスク、外部ハードドライブ、メモリーカード、若しくはフラッシュディスクなどのリムーバブルメモリに)、あるいは別のコンピュータシステムに命令のセットを格納し、インターネット又はその他のネットワークを介しダウンロードすることもできる。それぞれのコンピュータプログラムは、例えば、Pythonなどの様々なコンピュータプログラミング言語で実装することができる。
配列決定データ
ある種の実施形態では、本明細書において開示される方法は、配列データを取得又は受信する工程(例えば、図7及び図8の工程10)を含む。いくつかの実施形態では、配列データは、任意の方法により取得又は受信することができる。例えば、配列データは、サンプルに対し配列決定プロセスを実施することにより直接得ることができる。あるいは、配列データは、例えば、サードパーティー、データベース、及び/又は出版物から間接的に得ることができる。いくつかの実施形態では、配列データは、例えば、データ格納デバイス又は別のコンピュータシステムから、コンピュータシステムに受信される。
本明細書に記載の方法は、広範な配列データを用い、遺伝子座に存在する対立遺伝子(例えば、遺伝子座のHLA型)を正確に予測することができる。例えば、いくつかの実施形態では、配列データはゲノムワイドの配列決定データである。いくつかの実施形態では、配列データは、トランスクリプトームの配列決定データである。いくつかの実施形態では、配列データは、全エクソームの配列決定データである。いくつかの実施形態では、配列決定データは、全ゲノムの配列決定データである。いくつかの実施形態では、配列データは、遺伝子座をコードする配列データに富んだものである。いくつかの実施形態では、配列データは、RNA配列のデータである。いくつかの実施形態では、配列データは、DNA配列のデータである。
いくつかの実施形態では、配列データは、複数のシーケンスリードを含む。いくつかの実施形態では、シーケンスリードの平均リード長は、35、36、37、38、39、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、250、300、400、500、600、700、800、900、又は1000塩基未満である。いくつかの実施形態では、シーケンスリードの平均リード長は、少なくとも30、31、32、33、34、35、36、37、38、39、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、又は250塩基である。いくつかの実施形態では、シーケンスリードのカバレッジは、100x、90x、80x、70x、60x、50x、40x、30x、又は20x未満である。いくつかの実施形態では、シーケンスリードのカバレッジは、少なくとも50x、45x、40x、35x、30x、25x、20x、19x、18x、17x、16x、15x、14x、13x、12x、11x、又は10xである。
いくつかの実施形態では、配列データは、当該技術分野で既知である任意の配列決定法により生成することができる。例えば、いくつかの実施形態では、配列決定データは、鎖末端からの配列決定(chain termination sequencing)、ライゲーションによる配列決定、合成による配列決定、パイロシーケンス、イオン半導体による配列決定、一分子リアルタイム配列決定、dilute−‘n’−go sequencing及び/又は454 sequencingを用い生成する。
いくつかの実施形態では、配列データは、核酸増幅プロセスを行い1つ以上のゲノム座又は転写物を少なくとも部分的に増幅し、得られた増幅産物を配列決定するプロセスにより得られたものである。本明細書に開示される方法を実施するのに有用な核酸増幅プロセスの例としては、ポリメラーゼ連鎖反応(PCR)、LATE−PCR、リガーゼ連鎖反応(LCR)、鎖置換型増幅法(strand displacement amplification,SDA)、転写増幅法(TMA)、自家持続配列複製(self−sustained sequence replication,3SR)、Qβ複製遺伝子による増幅法、核酸配列ベースの増幅法(NASBA)、修復鎖反応(repair chain reaction,RCR)、ブーメラン型DNA増幅法(boomerang DNA amplification,BDA)、及び/又はローリングサークル型増幅法(RCA)が挙げられるがこれらに限定されない。
いくつかの実施形態では、試料に対して配列決定プロセスを実施する工程が含まれる。DNA及び/又はRNAを含有するサンプル(例えば、HLA分子をコードするDNA又はRNA)であるならば、どのような試料でも用いることができる。いくつかの実施形態では、サンプルは、臓器、細胞、又は組織のドナーとして見込まれる対象に由来するものである。いくつかの実施形態では、臓器、細胞、又は組織のレシピエントとして見込まれる対象に由来するものである。試料の供給源は、例えば、新鮮、凍結、及び/又は保存臓器、組織試料、生検、又は吸引液に由来するものなどの固形組織;血液又は何らかの血液成分、血清、血液;脳脊髄液、羊水、腹水、又は間質液、尿、唾液、糞便、涙などの体液;あるいは、対象の妊娠又は発育の任意の時点の細胞、とすることができる。
いくつかの実施形態では、当該技術分野で利用可能な任意の配列決定法が実施される。いくつかの実施形態では、配列決定は、鎖末端からの配列決定(chain termination sequencing)、ライゲーションによる配列決定、合成による配列決定、パイロシーケンス、イオン半導体による配列決定、一分子リアルタイム配列決定、dilute−‘n’−go sequencing及び/又は454 sequencingを用い生成する。いくつかの実施形態では、1つ以上のゲノム座又は転写物を少なくとも部分的に増幅し(例えば、HLAゲノム座又は転写物)、得られた増幅産物を配列決定するために、核酸増幅プロセスが実施される。いくつかの実施形態では、実施される核酸増幅法は、ポリメラーゼ連鎖反応(PCR)、LATE−PCR、リガーゼ連鎖反応(LCR)、鎖置換型増幅法(strand displacement amplification,SDA)、転写増幅法(TMA)、自家持続配列複製(self−sustained sequence replication,3SR)、Qβ複製遺伝子による増幅法、核酸配列ベースの増幅法(NASBA)、修復鎖反応(repair chain reaction,RCR)、ブーメラン型DNA増幅法(boomerang DNA amplification,BDA)、及び/又はローリングサークル型増幅法(RCA)である。
対立遺伝子候補の選別
いくつかの実施形態では、本明細書に開示される方法は、対立遺伝子候補を選別する工程を含む(例えば、図7の工程20及び30、並びに図8の工程20、32、34、及び36)。いくつかの実施形態では、対立遺伝子候補の選別は、シーケンスリードを参照配列に対してマッピングした後、リードをカウントする一連の工程により実施される。このマッピングプロセスは、任意の利用可能な配列マッピングソフトウェアを用い実施することができる。ある種の実施形態では、Bowtie 2が使用される。いくつかの実施形態では、Bowtie 2のマッピングパラメーターは、end−to−end modeにてvery−sensitive(すなわち、−D 20−R 3−N 0−L 20−I S,1,0.50)に設定される。いくつかの実施形態では、参照配列は、HLAの対立遺伝子(例えば、人工染色体)などの対立遺伝子を複数含む。いくつかの実施形態では、参照配列は、ヒトゲノム配列(例えば、GRCh37/hg19)を更に含む。いくつかの実施形態では、ヒトゲノム配列中の1つ以上の遺伝子座(例えば、HLA座)は、参照配列から除外又はマスクされる(例えば、遺伝子座の配列をNsで置き換えられる)。
参照配列に含まれる対立遺伝子は、対立遺伝子配列のいかなる供給源からも得ることができる。例えば、参照配列にHLAの対立遺伝子が含まれる場合、IMGT(リリース3.8.0)から対立遺伝子のゲノム配列及びコードしているDNAの配列(CDS)を得て、human genome build 37.1(hg19)上の座標にマッピングすることができる。いくつかの実施形態では、対立遺伝子の転写開始領域から終止コドンまでのゲノム配列を参照配列に含める。参照対立遺伝子のゲノム配列を非コード領域に挿入することにより、CDSのみでゲノムレコードを有さない対立遺伝子を使用することができる(例えば、hg19ゲノムの対応する遺伝子座由来の配列)。理論に束縛されるものではないが、非コード領域における多型はタンパク質レベルのHLA型を変化させないことから、非コード配列のゲノム配列の補完は、HLAタイピングにほとんどあるいは全く影響を及ぼさない。
いくつかの実施形態では、対立遺伝子候補の選別前に、低ストリンジェンシーにて、配列リードを参照配列に対してマッピングして、候補とされる対立遺伝子を前もって選別する。いくつかの実施形態では、対立遺伝子候補のおおまかな予選別には、リードカウントの上位分位数の閾値(例えば、上位95パーセンタイル、90パーセンタイル、85パーセンタイル、80パーセンタイル、75パーセンタイル、70パーセンタイル、65パーセンタイル、60パーセンタイル、55パーセンタイル、又は50パーセンタイル)を利用する。いくつかの実施形態では、上位分位数の閾値は、上位90パーセンタイルである。いくつかの実施形態では、上位分位数の閾値は、上位70パーセンタイルである。いくつかの実施形態では、遺伝子座に多数の対立遺伝子が存在する場合(例えば、対立遺伝子が少なくとも200、300、400、500、600、700、800、900、又は1000個存在する場合)、上位分位数は、上位90パーセンタイルであるものの、遺伝子座に存在する対立遺伝子が少数である場合(例えば、対立遺伝子が200、300、400、500、600、700、800、900、又は1000個未満である場合)、上位分位数の閾値は、上位70パーセンタイルである。いくつかの実施形態では、タンパク質(4桁)ファミリーに由来する全ての対立遺伝子は、ファミリーの少なくとも1つのメンバーが閾値内にあるならば、保持される。ある種の実施形態では、少なくとも1つの対立遺伝子が、マッピングした対立遺伝子の上位5%、10%、15%、20%、25%、又は30%に該当している、4桁の各タンパク質ファミリーに由来する全ての対立遺伝子が、候補とされる対立遺伝子として前もって選別される。いくつかの実施形態では、マッピングした対立遺伝子の上位10%が選別される。いくつかの実施形態では、マッピングした対立遺伝子の上位30%が選別される。いくつかの実施形態では、遺伝子座に多数の対立遺伝子が存在する場合(例えば、対立遺伝子が少なくとも200、300、400、500、600、700、800、900、又は1000個存在する場合)、マッピングした対立遺伝子の上位10%が選別されるものの、遺伝子座に存在する対立遺伝子が少数である場合(例えば、対立遺伝子が200、300、400、500、600、700、800、900、又は1000個未満である場合)、マッピングした対立遺伝子の上位30%が選別される。いくつかの実施形態では、前もって候補とされる対立遺伝子のみが、以降の、候補を選別するプロセスに含められる。いくつかの実施形態では、参照配列における全ての対立遺伝子が、以降の、候補を選別するプロセスに含められる。予め選別するプロセスの実施例を、図1の工程I及びIIに例示する。
いくつかの実施形態では、保持させた対立遺伝子に対しマッピングしたリード数は、ストリンジェントの基準を用い算出される。例えば、いくつかの実施形態では、リードは、リードによりカバーされた対応する遺伝子座内のSNP領域に対する配列同一性をもとに判定された、最良に一致する対立遺伝子(あるいは同点である場合には複数の対立遺伝子)についてのみ算出される。いくつかの実施形態では、リードをカウントするのに、少なくとも99%の配列同一性が必要とされる。いくつかの実施形態では、遺伝子座毎のSNPsは、その遺伝子座に保持される対立遺伝子の多型部位である。いくつかの実施形態では、いずれかの保持される対立遺伝子中の挿入欠失(挿入又は欠失)と一致する部位は除外される。このマッピングプロセスの実施例を、図Iの工程IIIに示す。
ある種の実施形態では、対立遺伝子候補は、リードをカウントする一連の工程(例えば、図8の工程32、34、及び36)を用い選別される。いくつかの実施形態では、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第1のセットとして同定する。いくつかの実施形態では、対立遺伝子候補の第1のセットに対しマッピングされたシーケンスリードを除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第2のセットとして同定する。いくつかの実施形態では、遺伝子座に対しマッピングされるシーケンスリードの95%、90%、85%、又は80%未満が、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされる場合に、対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされたリードは除き、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第3のセットとして同定する。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。
対立遺伝子候補の選別プロセスの実施例を、図1の工程IVに示す。この実施形態では、対立遺伝子は、最初にリードカウントの高いものから低いものへとソートする(図1では、レベル0としている)。リードカウントの最も大きい対立遺伝子(又は同点である場合には複数の対立遺伝子)を選別し、候補として格納する。次に、それまでに選別された対立遺伝子に共有されているリードは除き、残りの対立遺伝子においてリードカウントを調節する。調節したリードカウントは降順にソートし(図1中の順位ではレベル1としている)、新しい上位の対立遺伝子(又は同点である場合には複数の対立遺伝子)を対立遺伝子候補として選別する。上位の対立遺伝子とは異なるリードを無視できない数で保持している場合、リードマッピング及びカウントの不確実性を許容するため、レベル0にて上から2番目に順位した対立遺伝子からの対立遺伝子を、対立遺伝子候補として含める。例えば、いくつかの実施形態では、レベル0のランキングに選別された対立遺伝子に対しマッピングされたリードを除外した後、2番目に多数のシーケンスリードがマッピングする対立遺伝子が、レベル0の順位付けされた対立遺伝子に対しマッピングされたシーケンスリード数の少なくとも1%の配列リード数を保持している場合、対立遺伝子候補の第1のセットに対しマッピングしたシーケンスリードを除外する前に、2番目に多数のシーケンスリードがマッピングする対立遺伝子をレベル1のランキングに含める。レベル0及びレベル1のランキングから選別された対立遺伝子が、遺伝子座に対しマッピングされた対立遺伝子の90%未満であるとみなされる場合、リード数をカウントする手順を繰り返し(図1中では、レベル2のランキングとしている)、遺伝子座にマッピングするシーケンスリードのうち少なくとも10%が新しい上位の対立遺伝子又は新しい上位の複数の対立遺伝子に対しマッピングされる場合、新しく上位となった対立遺伝子(あるいは同点である場合には複数の対立遺伝子)を対立遺伝子候補に含める。
いくつかの実施形態では、以下の基準が満たされる場合、遺伝子座はホモ接合(すなわち、同じ対立遺伝子を含有する遺伝子座のコピーの両方)であるものとして判定される:レベル0に含まれる最上位の対立遺伝子が、リードの少なくとも80%、85%、90%、又は95%を構成し、かつその他の対立遺伝子が、残りのリードの3%、4%、5%、6%、7%、8%、9%又は10%超を構成しない。いくつかの実施形態では、遺伝子座は、以下の基準が満たされる場合、ホモ接合であるものとして判定される:レベル0に含まれる最上位の対立遺伝子が、遺伝子座に対しマッピングされるリードの少なくとも90%を構成し、かつレベル0に含まれる最上位の対立遺伝子に対しマッピングされるリードを除くその他の対立遺伝子が、遺伝子座に対しマッピングされるリードの5%超を構成しない。
尤度順位
ある種の実施形態では、上記の候補を選別するプロセスの性能により、対立遺伝子候補及びそれらに関連するリードのみが以降の解析に含められる。いくつかの実施形態では、対立遺伝子候補には、対立遺伝子候補の全ての組み合わせ(同じ対立遺伝子とのペア形成を含む)の対組み合わせ評価を行い、その遺伝子座に存在する尤度の最も高いペア(例えば、HLA型を肯定する尤度の最も高いペア)を発見する。このプロセスの態様の例を、図7の工程40、及び図9の工程42、44、及び46に示す。
いくつかの実施形態では、本明細書において提供される方法には、対立遺伝子候補対を同定する工程であって、その対立遺伝子が遺伝子座に存在する尤度の最も高いものである、同定する工程、が含まれる。いくつかの実施形態では、同定された、対立遺伝子候補対は、遺伝子座に対しマッピングされるシーケンスリードの配列とみなされる尤度が最も高い遺伝子対である。いくつかの実施形態では、同定された、対立遺伝子候補対は:1)対立遺伝子候補に対しマッピングされるシーケンスリード中の各一塩基多型(SNPs);及び2)対立遺伝子候補に対しマッピングされるシーケンスリード中に存在するSNPsの配列対;とみなされる尤度が最も高い対立遺伝子対である。いくつかの実施形態では、同定された、対立遺伝子候補対は:1)対立遺伝子候補に対しマッピングされるシーケンスリード中の各一塩基多型(SNPs);2)対立遺伝子候補に対しマッピングされるシーケンスリード中に存在するSNPsの配列対;及び3)ヒトにおける対立遺伝子候補対の頻度;とみなされる尤度が最も高い対立遺伝子対である。
いくつかの実施形態では、対立遺伝子候補に対しマッピングされるシーケンスリードの配列としてみなされる尤度の最も高い対立遺伝子候補対は、1)対立遺伝子候補の各対に関し、遺伝子座における各SNPのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、遺伝子座における各SNPのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、SNPに対しマッピングされるシーケンスリード中のそれぞれのSNPに存在する配列としてみなすことができる、対数尤度スコアを求めることと;2)対立遺伝子候補の各対に関し、遺伝子座におけるSNPsの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、遺伝子座におけるSNPsの各配列対についての対数確率の合計であり、対立遺伝子候補対は、SNPsの配列対に対しマッピングされるシーケンスリード中のSNPsの配列対に存在する配列とみなすことができ、対立遺伝子候補のうち、遺伝子型対数尤度スコア及び相対数尤度スコアの合計が最も高いものが、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対である、相対数尤度スコアを求めることと、により判定される。
いくつかの実施形態では、対立遺伝子候補に対しマッピングされるシーケンスリードの配列としてみなされる尤度の最も高い対立遺伝子候補対は、1)対立遺伝子候補の各対に関し、遺伝子座における各SNPのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、遺伝子座における各SNPのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、SNPに対しマッピングされるシーケンスリード中のそれぞれのSNPに存在する配列としてみなすことができる、対数尤度スコアを求めることと;2)対立遺伝子候補の各対に関し、遺伝子座におけるSNPsの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、遺伝子座におけるSNPsの各配列対についての対数確率の合計であり、対立遺伝子候補対は、SNPsの配列対に対しマッピングされるシーケンスリード中のSNPsの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めることと;3)対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めることであって、頻度対数尤度スコアは、各対立遺伝子候補がヒト集団において存在する対数頻度の合計であり、対立遺伝子候補のうち、遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高いものが、シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対である、頻度対数尤度スコアを求めることと、により判定される。
いくつかの実施形態では、対立遺伝子候補対のうち対数尤度スコア(LLtotal)の最も高いものを、遺伝子座に存在する対立遺伝子(例えば、HLA座のHLA型)として同定する。いくつかの実施形態では、LLtotalは、次式1に従い算出される。式1に示すとおり、それぞれの対立遺伝子対の(LLtotal)は、それぞれのSNP部分に観察された遺伝子型の尤度(LLgeno)、及び複数部分に及ぶ相の尤度(LLphase)と、ヒトにおいて対立遺伝子対の存在する確率(LLfreq)との総和である。
遺伝型尤度スコア
いくつかの実施形態では、対数尤度スコア、又は遺伝子座(LLgeno)におけるそれぞれのSNPは、ベイジアンモデルに従って算出される。いくつかの実施形態では、事後対数尤度
は、条件対数尤度logP(Dt│Gt)に比例する。この条件対数尤度は、部位iにて対象とする対立遺伝子対の遺伝子型(Gt)を与える塩基(Dt)のパイルアップを観察する対数確率である。任意の遺伝子型について、境界より前のlogP(Gt)は一定であると仮定され、したがって除外される。P(Dt│Gt)は、部位iにて塩基jを観察するそれぞれの条件下での対数尤度
の算出結果である、(式2)。
jは、塩基jのフレッドスコアから変換されたエラー率である。
相尤度スコア
いくつかの実施形態では、2つの隣接するSNP部位(LLphase)に及ぶ相尤度は、上記の単一のSNP部位の遺伝子型尤度と同様にモデル化され、
は、2つの隣接するSNP部位i及びt+1(Dt,t+1)に及ぶ同じ鎖上の塩基対を観察する対数尤度に比例し、2つの部位(Gt,t+1)にて、対象とされる対立遺伝子対の相配列が与えられる。ここで、2つの部位にわたり、15の可能性のあるミスマッチ(相外(out-of-phase))状態と、1つのマッチ(相内(in-phase))状態とが存在する。P(Dt,t+1│Ht,t+1)は、部位i及びt+1をカバーする全てのリードに由来する条件付き対数尤度の算出結果である(式S1)。qerrは、相外エラー率(0.01)である。
式3は、相内及び相外リードの数をもとに二項確率を算出することにより誘導される不均質な相配列
による対立遺伝子対の選好性の偏りを回避する。不均質な相の相内リードカウントは合計であるため、2つの均質な相
を構成する相内リードカウントよりも常に大きい。したがって、不均質な相の確率は、二項モデルにおいて対応する2つの不均質な相よりも常に高い。対照的に、本明細書に記載のベイジアンモデルは、1相が殆どを占める(結局、均質な相を示す)場合ではなく、おおまかに平衡をとった
リードについてのみ、不均質な相に好都合である。
対立遺伝子の頻度スコア
いくつかの実施形態では、ヒト集団においてそれぞれの対立遺伝子候補対が存在する対数頻度は、対立遺伝子候補対のうち最も尤度の高いものを判定するときに考慮される。主要なクラスI及びII遺伝子座の対立遺伝子頻度は当該技術分野で既知である。例えば、このような対立遺伝子頻度は、Allele Frequency Netからダウンロードすることができる。いくつかの実施形態では、それぞれのタンパク質(4桁)ファミリーについて、確認されている対立遺伝子からの最大頻度を用い、範囲内の全ての対立遺伝子により共有した。いくつかの実施形態では、頻度の判明していないタンパク質ファミリー(及びその対立遺伝子)のバックグラウンド値には0.0001を割り当てた。いくつかの実施形態では、LLfreqは、2つの対立遺伝子の対数頻度の合計として計算する。
移植方法
いくつかの態様では、本明細書に記載のHLAタイピング法を使用して、移植拒絶反応及び/又は移植片対宿主病の尤度を低減することができる。本明細書において、いくつかの態様では、臓器、細胞、又は組織移植を実施する方法が提供される。いくつかの実施形態では、移植方法は、本明細書に記載のHLAタイピング法を実施して、臓器、組織、又は細胞の少なくとも1つのHLA座のHLA型を判定した後、臓器、組織、又は細胞をレシピエントに移植すること、を含む。いくつかの実施形態では、移植方法は、本明細書に記載のHLAタイピング法を実施して、見込まれる移植レシピエントの少なくとも1つのHLA座のHLA型を判定した後、臓器、組織、又は細胞をこのレシピエントに移植すること、を含む。いくつかの実施形態では、移植方法は、本明細書に記載のHLAタイピング法を実施して、臓器、組織、又は細胞の少なくとも1つのHLA座のHLA型を判定すること、並びに本明細書に記載のHLAタイピング法を実施して、見込まれる移植レシピエントの少なくとも1つのHLA座のHLA型を判定した後、臓器、組織、又は細胞をレシピエントに移植すること、を含む。
本明細書において、いくつかの態様では、移植した臓器、組織、又は細胞の拒絶を予防する方法が提供される。いくつかの実施形態では、方法は、本明細書に記載のHLAタイピング法を実施して、臓器、組織、又は細胞の少なくとも1つのHLA座のHLA型を判定した後、臓器、組織、又は細胞をレシピエントに移植すること、を含む。いくつかの実施形態では、方法は、本明細書に記載のHLAタイピング法を実施して、見込まれる移植レシピエントの少なくとも1つのHLA座のHLA型を判定した後、臓器、組織、又は細胞をこのレシピエントに移植すること、を含む。いくつかの実施形態では、方法は、本明細書に記載のHLAタイピング法を実施して、臓器、組織、又は細胞の少なくとも1つのHLA座のHLA型を判定すること、並びに本明細書に記載のHLAタイピング法を実施して、見込まれる移植レシピエントの少なくとも1つのHLA座のHLA型を判定した後、臓器、組織、又は細胞をレシピエントに移植すること、を含む。
本明細書において、いくつかの態様では、移植片対宿主病を予防する方法が提供される。いくつかの実施形態では、方法は、本明細書に記載のHLAタイピング法を実施して、臓器、組織、又は細胞の少なくとも1つのHLA座のHLA型を判定した後、臓器、組織、又は細胞をレシピエントに移植すること、を含む。いくつかの実施形態では、方法は、本明細書に記載のHLAタイピング法を実施して、見込まれる移植レシピエントの少なくとも1つのHLA座のHLA型を判定した後、臓器、組織、又は細胞をこのレシピエントに移植すること、を含む。いくつかの実施形態では、方法は、本明細書に記載のHLAタイピング法を実施して、臓器、組織、又は細胞の少なくとも1つのHLA座のHLA型を判定すること、並びに本明細書に記載のHLAタイピング法を実施して、見込まれる移植レシピエントの少なくとも1つのHLA座のHLA型を判定した後、臓器、組織、又は細胞をレシピエントに移植すること、を含む。いくつかの実施形態では、HLA型は、2桁の解像度で判定される。いくつかの実施形態では、HLA型は、4桁の解像度で判定される。
いくつかの実施形態では、移植の前に試験されるHLA座は、クラスI HLA座である。いくつかの実施形態では、HLA座は、HLA−A座、HLA−B座、又はHLA−C座である。いくつかの実施形態では、HLA座はクラスII HLA座である。いくつかの実施形態では、HLA座は、HLA−DQA1座、HLA−DQB1座、HLA−DRA座、HLA−DRB1座、HLA−DRB3座、HLA−DRB4座、HLA−DRB5座、HLA−DPA1座、又はHLA−DPB1座である。いくつかの実施形態では、HLA型は、複数のHLA座について判定される。例えば、いくつかの実施形態では、HLA型は、少なくとも2、3、4、5、6、7、8、9、10、11、又は12のHLA座について判定される。いくつかの実施形態では、HLA型は、3つの全てのクラスI HLA座(HLA−A、HLA−B、及びHLA−C)について判定される。いくつかの実施形態では、HLA型は、HLA−A、HLA−B、HLA−C、HLA−DQA1、HLA−DQB1、及びHLA−DRB1について判定される。いくつかの実施形態では、HLA型は、HLA−A、HLA−B、及びHLA−DRB1について判定される。
いくつかの実施形態では、臓器、組織、又は細胞のHLAタイプは、レシピエントのHLA座のHLAタイプと適合する。いくつかの実施形態では、HLA座は、HLA−A座、HLA−B座、又はHLA−C座である。いくつかの実施形態では、HLA座は、HLA−DQA1座、HLA−DQB1座、HLA−DRA座、HLA−DRB1座、HLA−DRB3座、HLA−DRB4座、HLA−DRB5座、HLA−DPA1座、又はHLA−DPB1座である。いくつかの実施形態では、臓器、組織、又は細胞のHLAタイプは、少なくとも2、3、4、5、6、7、8、9、10、11、又は12のHLA座で、レシピエントのHLAタイプと適合する。いくつかの実施形態では、臓器、組織、又は細胞のHLA型は、少なくとも2つのクラスI HLA座にてレシピエントのHLA型と適合する。いくつかの実施形態では、臓器、組織、又は細胞のHLA型は、3つ全てのクラスI HLA座にてレシピエントのHLA型と適合する。いくつかの実施形態では、臓器、組織、又は細胞のHLA型は、HLA−A座及びHLA−B座にてレシピエントのHLA型と適合する。いくつかの実施形態では、臓器、組織、又は細胞のHLA型はHLA−A座、HLA−B座、及びHLA−DRB1座にてレシピエントのHLA型と適合する。いくつかの実施形態では、臓器、組織、又は細胞のHLA型は、11、10、9、8、7、6、5、4、3、2、又は1未満のHLA座で、レシピエントのHLA型と適合しない。いくつかの実施形態では、適合は2桁の解像度でのものである。いくつかの実施形態では、適合は4桁の解像度でのものである。
本明細書において提供される方法のいくつかの実施形態では、臓器が移植されるいくつかの実施形態では、移植される臓器は、心臓、肺、腎臓、肝臓、膵臓、腸、胃及び/又は精巣、あるいは前述の臓器のうちのどれかの部分である。いくつかの実施形態では、移植する細胞、組織、又は臓器は、肢(例えば、手、足、腕、又は脚)、角膜、皮膚、顔、ランゲルハンス島、骨髄、造血幹細胞、成体幹細胞(例えば、哺乳動物幹細胞、腸幹細胞、間葉系幹細胞、内皮幹細胞、神経幹細胞、嗅覚幹細胞、心臓幹細胞、肺幹細胞)、血管、心臓弁、及び/又は骨である。移植される臓器、組織、又は細胞は、生きているドナー又は死体ドナーに由来するものであってよい。
本明細書において提供される方法のいくつかの実施形態では、臓器、組織、又は細胞のレシピエントには、移植片拒絶反応の尤度を低減する剤を投与する。いくつかの実施形態では、剤は免疫抑制剤である。ある種の実施形態では、レシピエントには、プレドニストロン(prednistolone)、ヒドロコルチゾン、シクロスポリン、タクロリムス、アザチオプリン、ミコフェノール酸、シロリムス、エベロリムス、バシリキシマブ、ダクリズマブ、抗胸腺細胞グロブリン、抗リンパ球グロブリン、及び/又はリツキシマブを投与する。いくつかの実施形態では、移植する臓器、細胞、又は組織の1つ以上のHLA座のHLA型とレシピエントのHLA型が適合しない場合、レシピエントに剤を投与する。いくつかの実施形態では、移植する臓器、細胞、又は組織の少なくとも1、2、3、4、5、6、7、8、9、10、又は11のHLA座のHLA型とレシピエントのHLA型が適合しない場合、レシピエントに剤を投与する。
本明細書において言及する、特許、出願、及びGenBankアクション番号を含む全ての出版物は、それぞれの個別の出版物又は特許が、参照により援用されるよう明示的にかつ個別に示されているかのように、参照によりその全体が本明細書に援用される。矛盾する場合、本明細書における任意の定義を含む本出願の記載が採られる。
これまでに本発明の概要について記載してきたが、本発明の特定の態様及び実施形態を例示する目的でのみ包含され、本発明を制限することを意図するものではない、以下の実施例を参照することにより、理解がより容易になされるであろう。
実施例1:PHLATプロセスの実施形態を用いるHLAタイピング
Bowtie 2を用いた参照ベースのリードマッピングにより、PHLATワークフローを開始した(図1、工程I)。それぞれが1つのHLA対立遺伝子のゲノムDNA配列として表される人工染色体のコレクションにより、ヒトゲノムGRCh37/hg19を伸長させて、参照ゲノムを構築した。第6番染色体上のHLA−A、B、C、DQA1、DQB1、及びDRB1座の対応するゲノム配列をN’sでマスクして、マッピングが重複するのを回避した。Bowtie 2のマッピングパラメーターは、end−to−endモードでvery−sensitive(すなわち、−D20−R3−N 0−L20−IS,1,0.50)に設定した。各リードに関し、最良のアライメント(又は同等に良好なアライメントのうちの1つ)を記録した。リード長がBowtieに利用可能なものである場合、Bowtieのマッピングエンジンを変えてもPHLATの性能に顕著な変化は生じなかった(データ非掲載)。
主要なクラスI及びII遺伝子座HLA−A(1884)、HLA−B(2489)、HLA−C(1382)、HLA−DQA1(47)、HLA−DQB1(165)、及びHLA−DRB1(1092)について、合計7059の対立遺伝位を参照配列に含めた。対立遺伝子のゲノム配列及びDNAのコード配列(CDS)は、IMGT(リリース3.8.0)から得て、human reference genome build 37/hg19上の座標にマッピングした。Bowtie 2のマッピングには(図1,工程I及び以下を参照のこと)ゲノムDNA配列を使用し、一方、その他の全ての手順にはCDS配列を使用した(図1,工程II〜V)。転写開始点(TSS)から終止コドンまでのゲノム配列のみを保持した。ゲノムレコードではなくCDSのみを備える任意の対立遺伝子に関し、利用可能なデータの中に対立遺伝子のCDS領域外に差異を示すものが存在しない場合、非コード領域には、hg19ゲノムの対応する遺伝子座(例えば、HLA−A座の参照対立遺伝子についてはA*03:01:01:01)に使用した参照対立遺伝子のゲノム配列を挿入した。非コード領域における多型は、タンパク質レベルではHLA型に変化を生じさせなかったことから、HLAタイピングになんらかの影響をもたらす場合であってもゲノム配列の補完はわずかだった。
以降のHLA型の予測は、2つの主要な工程:対立遺伝子候補のうち上位のものを選別する工程(図1中工程II〜IV)、及び尤度に基づき順位付けする工程(図1中工程V)で実施した。対立遺伝子の選別により、評価すべき対立遺伝子を全て組み合わせて尤度を序列づける計算コストは大幅に低減された。続いて、尤度スコア遺伝子型及び相情報に加えそれまでの知見を統合し、相同性の高いHLAの対立遺伝子を高解像度で分離した。
上位の対立遺伝子候補の選別には、リードカウントの反復を含めた。最初に、Bowtie 2のマッピング結果をもとに、それぞれの対立遺伝子に対しマッピングしたリード数をカウントした。対立遺伝子候補のおおまかな予選別に際し、リードカウントには上位分位数の閾値(例えば、90パーセンタイル)を用いた(図1,工程II)。ファミリーメンバーのうち1つが選択された場合には、その1つのペプチド(4桁)ファミリーに由来する全ての対立遺伝子を保持した。次に、より厳密な基準に従って、保持した対立遺伝子に対しリード数をマッピングしたものを再計算した(図1中,工程III)。Bowtie 2により出力されたそれぞれのリードの座標を利用して、再度、リードと、その座標に保持されていた全ての対立遺伝子を比較した。最良に一致した対立遺伝子のリードのみ(又は同率の場合には複数の対立遺伝子のリード)をカウントし、そのときのリードによりカバーされた、対応する遺伝子座内のSNP部分の配列同一性をもとに判定した。最終的に、リードのカウントには少なくとも99%の配列同一性を必要とした。遺伝子座毎のSNPは、その遺伝子座に保持されていた対立遺伝子に由来する多型を合わせたものとした。挿入欠失は不一致としてみなされないことから、アラインメントの偏重を回避するため、保持した対立遺伝子のいずれかの挿入欠失と一致する部位を除外した。タンパク質群毎に非冗長的にリードカウントを要約し(4桁)、連続カウントベースの等級付けによる候補となる上位の対立遺伝子の選別に使用した(図1,工程IV)。特に、所定の遺伝子座に関し、最初にリードカウントをもとに、カウント数の高いものから低いものへとタンパク質群を選別した(レベル0ランキングと呼ぶ)。リードカウント数の最も大きかった群(同率の場合には複数群)を選別し、関係する全ての対立遺伝子を候補遺伝子として格納した。次に、これまでに選別した群と共有されているリードを除外し、残りのタンパク質群のリードカウントを調節した。調節したリードカウントを降順に選別し(レベル1のランキング)、新たなる上位群を選別した。特に、シーケンスカバレッジが制限されている場合、あるいは真及び偽となる対立遺伝子が非常に似ている場合、リードマッピング及びカウントの不確かさを許容するため、最上位群では共有されていない固有のリードを無視されない程度の数(最上位のランキング群に対しマッピングしたリードの1%超)保持しているならば、レベル0のタンパク質群のランキングで2番目に上位の対立遺伝子を含めた。レベル0及びレベル1のランキングから選別される対立遺伝子は、しばしば遺伝子座に対しマッピングされたリードのほとんど(90%以上)を説明可能であった。その他の点では、手順を繰り返し(レベル2のランキング)、その遺伝子座で新しく最上位となったタンパク質群を選別した。
以下の基準が満たされた場合には、解像度4桁のホモ接合の遺伝子型は、この対立遺伝子候補の選別工程で判定することもできた:レベル0の最上位のタンパク質群がリードの大部分(90%超)を説明し、なんらかのその他の群により説明される残りのリードが、大部分により説明されるものと比較して無視できる程度のものである(5%未満)。
選別終了時の、対立遺伝子候補及びそれらの関連するリードのみを、以降の解析に使用した。典型的には、数十の対立遺伝子が残った。この数は、対立遺伝子の全ての組み合わせ(同じ対立遺伝子とのペア形成を含む)の対組み合わせを評価して、最も尤度の高いペアを発見するのに十分に小さい。式1に示すとおり、それぞれの対立遺伝子対の対数尤度スコアの合計(LLtotal)は、それぞれのSNP部位で観察された遺伝子型の尤度(LLgeno)と、複数の部位にわたる相の尤度(LLphase,ヒト(LLfreq)に存在する対立遺伝子対の確率を合わせたもの)との総和である。
ベイジアンモデルに基づき、事後対数尤度
は、候補となる対数尤度logに比例する。logP(Dt│Gt)は、対象とする対立遺伝子対(Gt)の領域iの遺伝子型を与える、塩基(Dt)のパイルアップを観察する対数確率とした。境界より前のlogP(Gt)は、任意の遺伝子型についての定数と仮定し、よって除外した。P(Dt│Gt)は、領域iにて塩基jを観察するそれぞれの条件付き対数尤度、
の算出結果とした(式2)。
1は塩基jのフレッドスコアから変換されるエラー率とした。
2つの隣接するSNP部位にわたる相尤度は、1つのSNP部位についての遺伝子型尤度と同様にモデル化した。1つのSNP部位では3つのミスマッチ状態と1つのマッチ状態とが存在したのに対し、2つのSNP部位では、可能性のある15のミスマッチ(相外(out-of-phase))状態と1つのマッチ(相内(in-phase))状態とが存在した。具体的には、
は、2つの部位で対象とする対立遺伝子対の相配列(Gt,t+1)を与える、2つの隣接するSNP部位i及びi+1(Dt,t+1)にわたり同じ遺伝子鎖上の塩基対に観察される対数確率に比例した。2つの部位にわたり、15の可能性のあるミスマッチ(相外(out-of-phase))状態と、1つのマッチ状態(相内(in-phase))とが存在した。P(Dt,t+1│Ht,t+1)は、部位i及びi+1をカバーする全てのリードをもとにした条件付き対数尤度の計算値とした(式3)。qerrは、相外エラー率とした(0.01)。
式3は、従来研究において、相内及び相外リードの数をもとにした二項確率を算出することにより持ち込まれる、不均一な相配列
を有する選好的な対立遺伝子対に対する偏りを回避した。不均一な相の相内リードカウントは、不均一な相を2つ構成する相内リードカウント(g1 t1 t+1,g1 t1 t+1)及び(g3 t3 t+1,g3 t3 t+1)の合計であり、したがって、常にこれらよりも大きい。
したがって、不均一な相では、対応する2つの均一な相の二項モデルよりも常に確率が高くなる。対照的に、本明細書に記載のベイジアンモデルは、おおまかに調整のとれた
リードを有する不均一な相の場合でのみ好ましいものであり、1つのタイプのものが殆どを占めている場合、すなわち結局は均一な相が示されるような場合には好ましくはない。
主要なクラスI及びII遺伝子座の対立遺伝子頻度は、Allele Frequency Netからダウンロードした。それぞれのタンパク質(4桁)ファミリーに関し、報告されている対立遺伝子の最大頻度を用い、関係する全ての対立遺伝子について共有した。バックグラウンド値は0.0001として、頻度不明のタンパク質ファミリー(及び対立遺伝子)に割り当てた。LLfreqは、2つの対立遺伝子の対数頻度の合計として計算した。
LLtotalの最も高い対立遺伝子対を予測されるHLA型として記録した。通常、LLtotalは、LLgena及びLLphase成分により影響を受ける。LLfreqは、しばしば数桁規模で顕著に小さい。したがって、実装した対立遺伝子の頻度は不確かであったものの、我々は、結果に対し顕著な影響を及ぼすものとして認識した。
実施例2:PHLATはショートリードによりHLA型を正確に判定する
ショートリードによりPHLATを評価するため、HapMapトランスクリプトーム配列決定(RNAseq)データセットを使用した。ペアエンドショートリード(2×37bp)を用い、HapMapプロジェクト(研究アクセッションERP000101)に由来する公共のデータベースから、欧州北部及び西部に起源を持つ60名のユタ在住者のリンパ芽球のトランスクリプトームプロファイリングを得た。これらの50の試料に対し、最初に、Bakker et al.Nat.Genet.Nat.Genet.38:1166〜1172(2006)により、解像度4桁で主要なクラスI及びII HLA座の遺伝子型を判定し、続いてErlich et al,BMC Genomics 12:42(2011)に記載の異なる手法を用い検証した。ヒトゲノムに対するリードのマッピングが非常に低率だったため、1つの試料(アクセッションERR009139)を除外した(10%未満)。残りの49の試料を解析に使用し、この試験で比較した。
HapMap RNAseqデータには、ペアエンドの37bpビーズを利用した。多くの場合、トランスクリプトーム配列決定試験には、同様のリード長(約35bp)のものを用いた。しかしながら、それらは、適用可能なリード長の中でも極端に短いものであった。これまで、従来技術では、このような極めて短いリードを用い遺伝子型を正確に判定するのは困難であった。高度多型HLA座では、この困難さが更に増す。HapMap RNAseqデータセットを用いた、既存のHLAタイピング法による4桁HLA型の予測は、不正確なものであった(図3)。例えば、seq2HLAプロセスは、4桁のHLA型の解像には適さず、精度は32%と低かった(Boegel et al.,Genome Med.4:102(2013))。このデータセットにHLAminerを適用した場合、リード長が短すぎるためにコンティグアセンブリモードが機能しなかったことから、アライメントモードでのプロセスの実行のみが可能であった。得られた精度はわずか39.8%であった(図3)。HLAforestの精度はこれに比べると高かったものの、それでも精度84.2%であり、最適なものではなかった(図3)。
同じHapMap RNAseqデータセットを利用して、実施例1のPHLATプロセスを用いると、クラスI遺伝子座では、4桁のHLA型のうち96.2%が正確に推測され、最終的には、クラスI及びII遺伝子座の両方を合計して92.3%が正確に推測された(図3)。PHLATも、正確にホモ接合な細胞を予測した。解像度4桁で、ホモ接合とされた45の遺伝子座(90の対立遺伝子)のうち、誤分類によりホモ接合であるとされたものはわずか6つのみであった(誤分類された対立遺伝子は計7つであった)。誤分類された対立遺伝子の殆どは、解像度2桁では正確に分類され、真の対立遺伝子と異なっていたのはわずか1又は2塩基であった。
加えて、PHLATにより予測された2桁でのHLA型は、従来法よりも正確であった。このデータセットに関しては、PHLATにより予測された564の2桁の対立遺伝子のうち、不正確であったものはわずか5つのみであったのに対し(精度99.1%)、従来のHLA予測プロセスによる2桁精度は97.3%もなかった(図3)。
PHLATは、Allele Frequency Netで群頻度の記録のない、極稀なHLAの対立遺伝子を除外するという選択肢も提供した。この選択肢により、尤も尤度の高いHLA型の探索は、HLA−A(526)、HLA−B(674)、HLA−C(373)、HLA−DQA1(33)、HLA−DQB1(81)、HLA−DRB1(407)遺伝子座の2094の対立遺伝子に低減された。これらの条件下でPHLATを使用し、稀な対立遺伝子を除外した場合、4桁の解像度では、稀な対立遺伝子を含めた場合の正確度(92.3%,上記を参照)と同程度の93.0%の正確度が得られた。
実施例3:PHLATは、カバレッジの低い配列決定データを使用してHLA型を正確に判定する
欧州北部及び西部、日本、及びナイジェリアに起源を持つユタ州在住者から、HapMap全エクソーム配列決定(WXS)データセット及びそれに伴ってクラスIの4桁のHLA型を集めた。WXSデータは、試験アクセッションSRP004078、SRR004076、及びSRR004074を介し公共のデータベースから得て、HLA遺伝子型は、Warren et al,Genome Med.4:95(2012)及びAbecasis et al.,Nature 467:1061〜1073(2010)から得た。配列決定プロセスは、HLA座のCDS領域に対する中央カバレッジ約60xとし、ペアエンドの101bpリードにより進めた(結果も参照されたい)。
それぞれCEU、JPT、及びYRI群に由来する、HapMapの2×101bpの全エクソーム配列決定(WXS)データを15使用し、PHLAT及びその他のプログラムを評価した。リード長は、HapMapのRNAseqデータよりも明らかに長かった。しかしながら、配列決定深度は低下した。対象とするHLA座に関し、マッピング後深度は約60xであったのに対し、HapMapのRNAseqデータセットでは約330xであった。このカバレッジは、一般的な遺伝子型判定では十分なものとして見なされ得るものの、高多型なHLA座の判定には困難を伴い得る。
WXSデータセットを用いる様々なHLAタイピングプロセスの性能を図3に提供する。おそらく、対立遺伝子との配列アラインメントにおいて、それぞれのリードよりもコンティグのほうが有用であったこと、及びカバレッジの依存度が低かったことから、データセットには、アライメントモードよりも良好な結果が得られたHLAminerのアセンブリモードを利用した。4桁の解像度では、HLAminerの精度は53.3%であった。局所的に、同じデータセットでデフォルト設定によりHLAforestも実行したところ、精度は45.6%であった。WXSデータは十分に長いリード長を有しているのにも関わらず、HLAforestの性能は、WXSデータセットでは、HapMapのRNAseqデータセットと比較して乏しかった。
実施例1に記載のPHLATプロセスにWXSデータを適用すると、4桁タイピングの精度は93.3%になった。加えて、PHLATは2桁の精度で95.6%とseq2HLAよりも高く(p値に対する閾値は用いずに93.3%)、HLAminer(78.9%)及びHLAforest(81.1%)よりも顕著に良好であった。
実施例4:目的増幅産物の配列決定データに対するPHLATの適用
目的増幅産物の配列決定データに対し、実施例1に記載のPHLATプロセスを行った。5系統のヒト細胞株のクラスIのHLA−A座及びHLA−B座をPCRにより増幅させて、データを生成した(図4)。簡単に、一段回目のPCRでは、HLA−A座及びB座のエキソン2及び3(プライマー配列は図5に示す)の増幅産物を産生すると同時に、Illumina配列決定アダプターを添加した。4種の増幅産物を1:1:1:1比で合わせ、二段階目のPCRでバーコード付加した。最後に、合わせた5種の試料を、Illumina MiSeq(Illumina Inc.CA)でマルチプレックス化したペアエンド解析により2×250サイクル配列決定した。MiSeq Reporterソフトウェアにより、5つの試料の非マルチプレックス化FASTQファイルを得た。
5つの試料のHLA−A座及びB座も、以下のとおり、サンガー配列決定法により遺伝型を同定した。上記の5系統の細胞株から、QIAamp(登録商標)DNAミニキット(Qiagen Inc.CA)により15〜30ng/μLの濃度でゲノムDNAを抽出した後、PCR増幅し、SeCore配列決定キット(Life Technologies Inc.,CA)を使用して精製した。配列決定反応は、3730x1の全自動ABI配列決定装置で構成した。配列ファイルの加工及びHLAタイピングレポートの作成には、uTYPE(登録商標)SBTソフトウェア(Invitrogen Inc.CA)を使用した。5試料には、業者(Life Technologies Inc.,CA)に依頼して独立したHLAタイピングを行い、マッチング結果を得た。
実施例1のPHLATプロセスは、リード長の短いもの及び長いものを両方とも扱うことのできるBowtie 2アラインメントソフトウェアを使用する。5試料のペアエンド法による250bpの増幅産物の配列決定データセットでPHLATを試験した。HLA−A座及びHLA−B座において実験的に確認された計20の対立遺伝子に関し、PHLATは、2桁及び4桁の解像度の両方で、精度100%でHLA型を予測した(図3)。HLAminerを除き、これまでに開示されたプロセスでは、この配列データを使用してHLA型を予測することができなかった。HLAminerのアセンブリモデルでは、それぞれ4桁及び2桁の解像度で50%及び95%の精度が得られた。
実施例5:誤分類された対立遺伝子の特性評価
HapMap RNAseq、1000 Genome WXS、及びHapMap WXSのデータセットから、PHLATで誤分類された4桁の対立遺伝子を回収し、対立遺伝子の種類毎に要約した(図6A)。ある種の対立遺伝子が偏って豊富に含まれていたのかを調査し、含まれていた場合には、アルゴリズム又は他の理由のいずれにより持ち込まれたのかを調査した。HLA−A、B、C、及びDRB1座にて、ほとんど全ての対立遺伝子は制限されたサンプル長を有しており(総出現率≦10)、誤分類の発生も抑えられていた(≦2)。したがって、対立遺伝子型は偏って豊富に存在しているわけではなかった。
HLA−DQA1及びHLA−DQB1座では、観察された誤予測は幾つかの特異的な対立遺伝子で占められていた。図6Aに示すとおり、HLA−DQA1でなされた合計20の誤った予測のうち、10は、HLADQA1*03:01対立遺伝子をHLA−DQA1*03:03として分類するものであり、6はHLA−DQA1*05:01対立遺伝子をHLADQA1*05:05として誤るというものである。HLA−DQB1座では、5つのHLA−DQB1*02:01対立遺伝子が、HLA−DQB1*02:02とされる。これらの誤りが、HLA−DQA1及びHLA−DQB1座における全ての誤った予測の80%超を占める。また、この試験では、これらの対立遺伝子の示す予測精度は低い(61.5%〜73.7%)。実際の及び予測された対立遺伝子は非常に配列相同性であるものの(<=3SNPs)、以下のいくつかの観察では、これらの誤りがランダムなものではない可能性が示されている。
他のアルゴリズム、HLAforest及びHLAminerでは、PHLATにより誤分類された同じサンプルにおいて、DQA1*03:01をDQA1*03:03として誤分類する類似の傾向が示される。HLAforestでは、7つの試料でPHLATのものと同じ誤同定がされる。HLAminerからの出力、DQA1*03:01Pは、DQA1*03:01、DQA1*03:03及びその他のいくつかの対立遺伝子を分類するP表記のアノテーションである。PHLATにより誤って分類された全ての試料において、P表記を除いてHLAminerを再実行すると、DQA1*03:03が最も確度の高い予想になる。異なるアライメントを実装するアルゴリズムに同じ間違いが生じるとおり(例えば、PHLATについてはBowtie 2、HLAforestについてはBowtie、及びHLAminerについてはBWA)、誤差は特定のアライメントエンジンによって生じるのではない。加えて、PHLAT中のアライメントソフトウェアをBWAに変更しても、何らかの影響を受けている試料からの出力結果に変化は生じない。これらの結果は、問題が、計算ストラテジー又はアラインメントソフトウェアによるアルゴリズムの選択によるものではないであろうことを示唆する。
全ての場合において、DQA1*03:03の推論は、それなりの量のリードにより支持される。図6Bは、このような誤同定の生じる代表的な試料中のDQA1*03:01及びDQA1*03:03対立遺伝子(chr6:32609965,DQA1*03:03については塩基A及びDQA1*03:01については塩基C)を識別する1つのSNP部位周辺の、リードマッピングの詳細を示す(subject NA12156)。この試料において、第2の対立遺伝子はDQA1*02:01であり、この部分の配列はCである。これらのリードはPHLATパイプラインを通過したものであり、HLA予測に使用される。同じNA12156において、約半分の塩基はA’sである結果として、ACの不均一な遺伝子型が生じている。そのため、DQA1*03:03対立遺伝子と、DQA1*02:01対立遺伝子とを合わせて推測することで、データに説得力がもたらされる。DQA1*03:03の予測されるその他の全てのサンプルについても同様の観察が成り立つ。そのため、誤同定は、単にデータに無作為に生じるノイズに起因するものではないことが示唆される。
リードは、代替的な対立遺伝子がゲノムのどこに由来するかを支持するという可能性がある。HLA−DQA1*03:03対立遺伝子に由来するSNP部位(chr6:32609965)を保持する135塩基のヌクレオチド断片(chr6:32609874−32610008)を利用するBLASTクエリーにより、HLADQA2遺伝子のエキソン3に存在する、上位の完全長の遺伝子が返される。この領域内の2つの対立遺伝子間のまさしくSNPである部分を除き、他に不一致は存在しない(図6C)。この対立遺伝子に関する情報が限られていることから、IMGTデータベースには、HLADQA2のエントリーは存在しない。結果として、全てのこれまでのアルゴリズムは、それらのマッピング参照にHLADQA2配列を有していない。PHLATは、参照ゲノムから全ゲノムに拡大される。hg19ゲノムにおける1つの特異的なHLA−DQA2対立遺伝子の配列のみを含むのではいずれの多型も完全には捕捉されない。配列相同性が高く、HLA−DQA2の対立遺伝子について完全な参照が存在しないことを考慮すると、HLA−DQA1遺伝子リードに対するHLA−DQA2遺伝子リードのミスアライメントは無視できないものである可能性がある。実際に、DQA1*03:03対立遺伝子のSNPについての配列アライメントにおいてマッチングさせる部位である、chr6:32713784のHLA−DQA2遺伝子(rs62619945,〜4%と対立遺伝子頻度の割合は低い,図6C)には、CとAとでミスセンスである共通のSNPが存在している。したがって、対象とする試料が、rs62619945 SNPの特定のHLA−DQA2対立遺伝子を保持している場合、得られるリードは、HLA−DQA1*03:03対立遺伝子として誤って認識され得る。
頻繁に誤分類される他の2つの対立遺伝子、HLA−DQA1*05:01、及びHLA−DQBI*02:01についても同様の観察が存在する。PHLAT、HLAminer及びHLAforest(P表記は除外)はいずれも、5つの試料においてそれらをそれぞれHLA−DQA1*05:05及びHLA−DQB1*02:02として誤同定した。DQA1*05:05により生じる3つのSNPをchr6:32605266、chr6:32610002、及びchr6:32610445と呼ぶ。それぞれのSNPはDQA1*05:05対立遺伝子を支持するリードを多数マッピングされている。更に、それぞれのSNPは、HLA−DQA2遺伝子と相同であるエキソン部分(DQA1*05:05対立遺伝子より取られた配列)に存在する。これらの部分は、72〜116塩基長のヌクレオチドから構成され、染色体の2〜4箇所が、HLA−DQA2配列(hg19ゲノム)とは異なる。HLA−DQA2遺伝子中の位置は全てdbSNPレコードを有しており、代替的な塩基がDQA1*05:05対立遺伝子中の配列に一致する。したがって、これらの領域を考慮すると、HLA−DQA2及びHLA−DQA1座に由来するリードに混乱が生じる可能性がある。同様にして、SNPは、HLA−DQB1*02:01対立遺伝子よりもHLADQB1*02:02対立遺伝子の方が都合がよい(chr6:32629905)。この遺伝子は、HLA−DQB1及びHLA−DQB2遺伝子間の91塩基の相同領域内に存在する。HLA−DQB2対立遺伝子に対する研究は進んでおらず、いずれもIMGTデータベースに記録がない。
上記の結果を総合して考えると、本発明者らは、頻度の高くない遺伝子座HLA−DQA2及びDQB2に由来するリードの、頻度の高いそれぞれの相同性遺伝子座HLA−DQA1及びDQB1に対するミスアライメントにより、対立遺伝子HLA−DQA1及びDQB1の、異常なほど高頻度の誤分類が生じ得るものと考える。この制限はアルゴリズムとは独立している。この問題は、マッピングする参照にHLA−DQA2及びDQB2の対立遺伝子配列を組み込むことで軽減される可能性がある。本明細書で議論される100塩基程度の相同性領域として、100bp以上のペアエンドリードによるデータを用いるとき、対立遺伝子の誤分類についての懸念は低減される。ミスアライメントを減じるために、配列決定のロングリードを相同性の低い領域周辺まで伸ばしてもよい。PHLAT又は他の既存のアルゴリズムのユーザーは、Sanger法又は目的増幅産物の配列決定により、HLADQA1*03:03、HLA−DQA1*05:05及びHLA−DQB1*02:02の対立遺伝子型を検証することができる。
実施例6:HLA推定の制度に影響を与える因子
配列決定パラメータがいかにしてHLAの推定精度に影響を与えたのかを系統的に調査するため、上記のデータセットからPHLATにより得られたHLAの予想結果を蓄積した。基準とするデータセットにより、様々なリード長(37bp〜250bp)及びリード深度(60x未満〜1000x超)に加え、異なる配列決定プロトコル(ペアエンドでのプロトコル又はシングルエンドとして扱うプロトコル)によるテストケースを提供した。
図2は、3つのデータセット:HapMap RNAseq、1000Genome WXS、及びHapMap WXSから得られた結果を示す。HapMap RNAseq及びHapMap WXSのデータセットを実施例2及び3に記載する。
それぞれのデータセットに関し、サンプルは、それらのHLA座(x軸)のマッピング後カバレッジをもとにビン化した。それぞれのシンボルのy座標には、ばらつきを示すエラーバーとともに、各ビンに含まれるサンプルの平均精度(解像度4桁)を表す。それぞれのペアエンドな配列決定データセット(●)に関し、サンプルは、対にしたリード間の関係を無視してシングルエンドによる推定(○)下でも加工した。スプライン補間を行い、シンボルの傾向をなめらかな線で示した。
図2に示すとおり、PHLATプロセスの精度は、カバレッジと正の相関を有した。カバレッジの増加に伴う精度の上昇傾向は、それぞれのデータセット内でのみ生じるものではなく、データセット間でも生じるものであった。例えば、HapMap WXS試料よりも体系的にカバレッジの高い1000Genome WXS試料は、2つのデータセットの他の配列決定パラメータは似たようなものであったのにもかかわらず、一貫してより高い精度を示した。この依存関係は、経験に基づきPHLATのカバレッジ閾値を評価して最適な予想に達する助けとなり得る。ペアエンドでの配列決定において、精度90%以上(水平に記した破線,図2)を達成するには、30x〜50xのカバレッジが適用され、リード長100bp未満では100x超が適用される。
ペアの制限を無視してリードをシングルエンドとして扱った場合、全てのデータセットで、見逃すことができない程度の予想精度のシステマチックな低下が観察された。図2中、HapMap WXSデータの精度は、それぞれ、ペアエンドのリード(2×101bp,下図,●)、シングルエンドのリード(1×101bp,下図,○)に関しては90%超から約85%程度にまで低下した。HapMap RNAseqデータではより顕著に(90〜95%(2×37bp,上図,●)から70〜90%(1×37bp,上図,○))低下した。これらの観察により、HLA型の推測のためのペアエンド式の配列決定の重要性が強調された。対としたリードの平均は、マッピングの曖昧さを低減させるのに有効な二重化リード長に由来した。加えて、末端と末端との間の領域が長い(通常、数百塩基)ということは、SNPsが比較的離間しているということであり、長い範囲にわたるSNP対に由来する相情報がPHLATに利用可能であった。

Claims (24)

  1. 遺伝子座に存在する対立遺伝子を判定する、コンピュータに実装された方法であって:
    数のシーケンスリードを含む、対象の配列データをコンピュータシステムで受信することと;
    記コンピュータシステムにより、前記遺伝子座のゲノム配列と、複数の対立遺伝子配列とを含む参照配列に対して前記複数のシーケンスリードをマッピングして、対立遺伝子候補を同定することと;
    対立遺伝子候補の各対に関し、前記遺伝子座における各SNPのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、前記遺伝子座における各SNPのそれぞれについての対数確率の合計であり、前記対立遺伝子候補対は、前記SNPに対しマッピングされる前記シーケンスリード中のそれぞれのSNPに存在する配列としてみなすことができる、対数尤度スコアを求めることと;
    対立遺伝子候補の各対に関し、前記遺伝子座におけるSNPsの各配列対に対し相対数尤度スコア(phase log-likelihood)を求めることであって、各相対数尤度スコアが、前記遺伝子座におけるSNPsの各配列対についての対数確率の合計であり、前記対立遺伝子候補対は、前記SNPsの配列対に対しマッピングされる前記シーケンスリード中のSNPsの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めることと;
    対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めることであって、前記頻度対数尤度スコアが、前記各対立遺伝子候補がヒト集団において存在する対数頻度の合計である、頻度対数尤度スコアを求めることと;
    前記遺伝子型の対数尤度スコア、前記相対数尤度スコア及び頻度対数尤度スコアの合計が、遺伝子座に存在する対立遺伝子として、最も高い対立遺伝子候補対を選択することと
    を含む、方法。
  2. 前記ゲノム配列がヒトゲノム配列であり、前記複数の対立遺伝子配列がヒト配列である、請求項1に記載の方法。
  3. 前記ゲノム配列中の前記遺伝子座の前記配列が除去又はマスクされている、請求項2に記載の方法。
  4. 前記ヒトゲノム配列がGRCh37/hg19である、請求項2に記載の方法。
  5. マッピングは、更に
    ーケンスリードが最も多数マッピングされた前記対立遺伝子を、対立遺伝子候補の第1のセットとして同定する工程と;
    記対立遺伝子候補の第1のセットに対してマッピングされる前記シーケンスリードを除外し、シーケンスリードが最も多数マッピングされた前記対立遺伝子を、対立遺伝子候補の第2のセットとして同定する工程と;
    記遺伝子座に対してマッピングされた前記シーケンスリードの90%未満が、前記対立遺伝子候補の第1のセット又は第2のセットの対立遺伝子に対してマッピングされる場合に、前記対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされた前記リードを除外し、前記シーケンスリードが最も多数マッピングされた前記対立遺伝子を、前記対立遺伝子候補の第3のセットとして同定する工程とを含む、請求項1に記載の方法。
  6. 複数の対立遺伝子配列が、一群のタンパク質のものから選択される、請求項5に記載の方法。
  7. 前記対立遺伝子候補の第1のセットに対しマッピングされた前記シーケンスリードの除外後、前記遺伝子座に対しマッピングされたシーケンスリードの数が、前記対立遺伝子候補の第1のセットに対しマッピングされたシーケンスリードの数の1%超である場合、前記対立遺伝子候補の第1のセットに対しマッピングされた前記シーケンスリードを除外せずに、2番目に多数のシーケンスリードがマッピングされた前記対立遺伝子を、前記対立遺伝子候補の第2のセットのサブセットとして更に同定する、請求項5に記載の方法。
  8. 前記対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子に対しマッピングされるシーケンスリードの数が、前記遺伝子座に対しマッピングされるシーケンスリードの総数の少なくとも10%を構成する場合にのみ、前記対立遺伝子候補の第3のセットが同定される、請求項5に記載の方法。
  9. 前記配列データが、ゲノムワイドな配列決定データである、請求項1に記載の方法。
  10. 前記ゲノムワイドな配列決定データが、トランスクリプトーム配列決定データ、全エクソーム配列決定データ、又は全ゲノム配列決定データである、請求項に記載の方法。
  11. 前記配列データのカバレッジが少なくとも30倍である、請求項10に記載の方法
  12. 前記配列データのカバレッジが、30倍〜100倍の範囲であり、前記複数のシーケンスリードがDNAに由来するものである、請求項10に記載の方法。
  13. 前記配列データのカバレッジが、100倍〜500倍の範囲であり、前記複数のシーケンスリードがRNAに由来するものである、請求項10に記載の方法。
  14. 前記配列データのカバレッジが少なくとも1000倍であり、前記複数のシーケンスリードが、目的とする配列に由来するものである、請求項10に記載の方法。
  15. 前記複数のシーケンスリードの平均長が、250塩基未満である、請求項1に記載の方法。
  16. 前記複数のシーケンスリードが、ペアエンドリードである、請求項1に記載の方法。
  17. 前記複数のシーケンスリードが、シングルエンドリードである、請求項1に記載の方法。
  18. 前記複数のシーケンスリードの平均長が50塩基未満である、請求項1に記載の方法。
  19. マッピングの前に、対象の遺伝子座の核酸配列を含む増幅産物を産生する核酸増幅プロセスを実施することであって、前記遺伝子座は、1つ以上の一塩基多型(SNP)を含むことと;
    複数のシーケンスリードを生成する増幅産物に対して配列決定プロセスを実行することであって、複数のシーケンスリードは、35から100塩基対のシーケンスリードからなること
    を更に含む、請求項1に記載の方法。
  20. 前記遺伝子座が、高度多型遺伝子座である、請求項1に記載の方法。
  21. 前記遺伝子座がHLA座である、請求項1に記載の方法。
  22. 遺伝子座に存在する対立遺伝子を判定する、コンピュータに実装された方法であって:
    a)コンピュータシステムにて前記対象の配列データを受信することであって、前記配列データが複数のシーケンスリードを含む、データを受信することと;
    b)前記コンピュータシステムにより、ヒトゲノム配列と、前記遺伝子座の複数の対立遺伝子配列とを含む参照配列に対し、前記シーケンスリードをマッピングすること;
    c)前記コンピュータシステムにより、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第1のセットとして同定することと;
    d)前記コンピュータシステムにより、前記対立遺伝子候補の第1のセットに対しマッピングされた前記シーケンスリードを除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第2のセットとして同定することと;
    e)前記遺伝子座に対してマッピングされたシーケンスリードの90%未満が、前記対立遺伝子候補の第1のセット又は第2のセットの対立遺伝子に対してマッピングされる場合に、前記対立遺伝子候補の第1のセット又は第2のセットに対しマッピングされた前記リードを除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、前記コンピュータシステムにより前記対立遺伝子候補の第3のセットとして同定することと;
    f)対立遺伝子候補の各対に関し、前記遺伝子座における各SNPのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、前記各遺伝子型の対数尤度スコアが、前記遺伝子座における各SNPのそれぞれについての対数確率の合計であり、前記対立遺伝子候補対は、前記SNPに対しマッピングされる前記シーケンスリード中のそれぞれの前記SNPに存在する配列としてみなすことができる、対数尤度スコアを求めることと;
    g)対立遺伝子候補の各対に関し、前記遺伝子座におけるSNPsの各配列対に対し相対数尤度スコアを求めることであって、前記各相対数尤度スコアが、前記遺伝子座におけるSNPsの各配列対についての対数確率の合計であり、前記対立遺伝子候補対は、前記SNPsの配列対に対しマッピングされる前記シーケンスリード中の前記SNPsの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めることと;
    h)前記コンピュータシステムにより、対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めることであって、前記頻度対数尤度スコアが、前記各対立遺伝子候補がヒト集団において存在する対数頻度の合計である、頻度対数尤度スコアを求めることと;
    i)前記コンピュータシステムにより、前記遺伝子型対数尤度スコア、前記相対数尤度スコア、及び前記頻度対数尤度スコアの合計が最も高い前記対立遺伝子候補対を、前記遺伝子座に存在する対立遺伝子として同定することと;を含む、方法。
  23. コンピュータシステムであって:
    少なくとも1つのプロセッサと;
    少なくとも1つのプロセッサに割り当てられたメモリと;
    ディスプレイと;
    遺伝子座に存在する対立遺伝子を判定するために前記メモリでサポートされているプログラムであって、前記少なくとも1つのプロセッサに実行させるとき、前記少なくとも1つのプロセッサに対し:
    a)複数のシーケンスリードを含む対象の配列データを受信させること;
    b)前記遺伝子座のゲノム配列と、複数の対立遺伝子配列とを含む参照配列に対して前記シーケンスリードをマッピングさせて、対立遺伝子候補を同定させること;及び
    c)前記コンピュータシステムによって、前記遺伝子座に対しマッピングされた前記シーケンスリードを前記遺伝子座に存在する対立遺伝子としてみなす尤度が最も高い対立遺伝子候補対を同定させること;を実行させる複数の命令を含む、プログラムと;を含
    前記シーケンスリードとみなされる尤度が最も高い前記対立遺伝子候補対が:
    i. 対立遺伝子候補の各対に関し、前記遺伝子座における各SNPのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、前記遺伝子座における各SNPのそれぞれについての対数確率の合計であり、前記対立遺伝子候補対は、前記SNPに対しマッピングされる前記シーケンスリード中のそれぞれのSNPに存在する配列としてみなすことができる、対数尤度スコアを求めることと;
    ii. 対立遺伝子候補の各対に関し、前記遺伝子座におけるSNPsの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、前記遺伝子座におけるSNPsの各配列対についての対数確率の合計であり、前記対立遺伝子候補対は、前記SNPsの配列対に対しマッピングされる前記シーケンスリード中のSNPsの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めることと;
    により判定され、前記対立遺伝子候補のうち、前記遺伝子型の対数尤度スコア、及び前記相対数尤度スコアの合計が最も高いものが、前記シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対である、コンピュータシステム。
  24. 遺伝子座に存在する対立遺伝子を判定するためのコンピュータプログラム製品であって、前記コンピュータプログラム製品が、複数の命令を格納されている、非一時的なコンピュータにより読み取り可能な媒体上に存在しており、前記格納されている複数の命令は、コンピュータプロセッサにより実行されたときに、前記コンピュータプロセッサに:
    a)複数のシーケンスリードを含む対象の配列データを受信させることと;
    b)前記遺伝子座のゲノム配列と、複数の対立遺伝子配列とを含む参照配列に対して前記シーケンスリードをマッピングさせて、対立遺伝子候補を同定させることと;
    c)前記遺伝子座に対しマッピングされた前記シーケンスリードを前記遺伝子座に存在する対立遺伝子としてみなす尤度が最も高い対立遺伝子候補対を同定させることと;を実行させ
    前記シーケンスリードとみなされる尤度が最も高い前記対立遺伝子候補対が:
    i. 対立遺伝子候補の各対に関し、前記遺伝子座における各SNPのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、前記遺伝子座における各SNPのそれぞれについての対数確率の合計であり、前記対立遺伝子候補対は、前記SNPに対しマッピングされる前記シーケンスリード中のそれぞれのSNPに存在する配列としてみなすことができる、対数尤度スコアを求めることと;
    ii. 対立遺伝子候補の各対に関し、前記遺伝子座におけるSNPsの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、前記遺伝子座におけるSNPsの各配列対についての対数確率の合計であり、前記対立遺伝子候補対は、前記SNPsの配列対に対しマッピングされる前記シーケンスリード中のSNPsの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めることと;
    により判定され、前記対立遺伝子候補のうち、前記遺伝子型の対数尤度スコア、及び前記相対数尤度スコアの合計が最も高いものが、前記シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対である、コンピュータプログラム製品。
JP2016523227A 2013-10-15 2014-10-14 高解像度での対立遺伝子の同定 Active JP6491651B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361891193P 2013-10-15 2013-10-15
US61/891,193 2013-10-15
PCT/IB2014/002843 WO2015056103A2 (en) 2013-10-15 2014-10-14 High resolution allele identification

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019037501A Division JP6715977B2 (ja) 2013-10-15 2019-03-01 高解像度での対立遺伝子の同定

Publications (2)

Publication Number Publication Date
JP2016541043A JP2016541043A (ja) 2016-12-28
JP6491651B2 true JP6491651B2 (ja) 2019-03-27

Family

ID=52630401

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016523227A Active JP6491651B2 (ja) 2013-10-15 2014-10-14 高解像度での対立遺伝子の同定
JP2019037501A Active JP6715977B2 (ja) 2013-10-15 2019-03-01 高解像度での対立遺伝子の同定

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2019037501A Active JP6715977B2 (ja) 2013-10-15 2019-03-01 高解像度での対立遺伝子の同定

Country Status (8)

Country Link
US (2) US10162933B2 (ja)
EP (1) EP3058095B1 (ja)
JP (2) JP6491651B2 (ja)
KR (1) KR102386134B1 (ja)
CN (1) CN106103736B (ja)
AU (1) AU2014335877B2 (ja)
CA (1) CA2927319C (ja)
WO (1) WO2015056103A2 (ja)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9898575B2 (en) 2013-08-21 2018-02-20 Seven Bridges Genomics Inc. Methods and systems for aligning sequences
US9116866B2 (en) 2013-08-21 2015-08-25 Seven Bridges Genomics Inc. Methods and systems for detecting sequence variants
KR102386134B1 (ko) 2013-10-15 2022-04-12 리제너론 파마슈티칼스 인코포레이티드 고분별능 대립유전자 동정
AU2014337093B2 (en) 2013-10-18 2020-07-30 Seven Bridges Genomics Inc. Methods and systems for identifying disease-induced mutations
US11049587B2 (en) 2013-10-18 2021-06-29 Seven Bridges Genomics Inc. Methods and systems for aligning sequences in the presence of repeating elements
WO2015058095A1 (en) 2013-10-18 2015-04-23 Seven Bridges Genomics Inc. Methods and systems for quantifying sequence alignment
CN105793689B (zh) 2013-10-18 2020-04-17 七桥基因公司 用于将遗传样本基因分型的方法和系统
US9092402B2 (en) 2013-10-21 2015-07-28 Seven Bridges Genomics Inc. Systems and methods for using paired-end data in directed acyclic structure
ES2827227T3 (es) * 2013-12-10 2021-05-20 Conexio Genomics Pty Ltd Métodos y sondas para identificar alelos génicos
US10867693B2 (en) 2014-01-10 2020-12-15 Seven Bridges Genomics Inc. Systems and methods for use of known alleles in read mapping
US9817944B2 (en) 2014-02-11 2017-11-14 Seven Bridges Genomics Inc. Systems and methods for analyzing sequence data
WO2016141294A1 (en) 2015-03-05 2016-09-09 Seven Bridges Genomics Inc. Systems and methods for genomic pattern analysis
US10793895B2 (en) 2015-08-24 2020-10-06 Seven Bridges Genomics Inc. Systems and methods for epigenetic analysis
MX2018002293A (es) * 2015-08-25 2018-09-05 Nantomics Llc Sistemas y métodos para las llamadas variantes de alta precisión.
US10584380B2 (en) 2015-09-01 2020-03-10 Seven Bridges Genomics Inc. Systems and methods for mitochondrial analysis
US10724110B2 (en) 2015-09-01 2020-07-28 Seven Bridges Genomics Inc. Systems and methods for analyzing viral nucleic acids
US20180268101A1 (en) * 2015-09-28 2018-09-20 Sirona Genomics, Inc. Linkage disequilibrium method and database
US11347704B2 (en) 2015-10-16 2022-05-31 Seven Bridges Genomics Inc. Biological graph or sequence serialization
KR101651817B1 (ko) * 2015-10-28 2016-08-29 대한민국 Ngs 라이브러리 제작용 프라이머 세트 및 이를 이용한 ngs 라이브러리 제작방법 및 키트
US20170199960A1 (en) 2016-01-07 2017-07-13 Seven Bridges Genomics Inc. Systems and methods for adaptive local alignment for graph genomes
US10364468B2 (en) 2016-01-13 2019-07-30 Seven Bridges Genomics Inc. Systems and methods for analyzing circulating tumor DNA
US10262102B2 (en) 2016-02-24 2019-04-16 Seven Bridges Genomics Inc. Systems and methods for genotyping with graph reference
US10790044B2 (en) 2016-05-19 2020-09-29 Seven Bridges Genomics Inc. Systems and methods for sequence encoding, storage, and compression
CN109477143A (zh) * 2016-05-27 2019-03-15 细胞结构公司 人类白细胞抗原分型方法
EP3472356A4 (en) 2016-06-17 2019-07-24 Mayo Foundation for Medical Education and Research METHOD AND MATERIALS FOR EFFECTIVELY USING THE COMBINED TARGET ENRICHMENT OF GENOMEGIONS AND FOR TOTAL GENOME SEQUENCING WITH LOW RANGE
KR101815529B1 (ko) * 2016-07-29 2018-01-30 (주)신테카바이오 휴먼 하플로타이핑 시스템 및 방법
US11289177B2 (en) 2016-08-08 2022-03-29 Seven Bridges Genomics, Inc. Computer method and system of identifying genomic mutations using graph-based local assembly
US11250931B2 (en) 2016-09-01 2022-02-15 Seven Bridges Genomics Inc. Systems and methods for detecting recombination
US11324801B2 (en) 2016-09-02 2022-05-10 University Of Utah Research Foundation NNIF and nNIF-related peptides and related methods
CA3038275A1 (en) * 2016-09-26 2018-03-29 Sirona Genomics, Inc. For human leukocyte antigen genotyping method and determining hla haplotype diversity in a sample population
US10319465B2 (en) 2016-11-16 2019-06-11 Seven Bridges Genomics Inc. Systems and methods for aligning sequences to graph references
KR101936933B1 (ko) * 2016-11-29 2019-01-09 연세대학교 산학협력단 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
WO2018112348A1 (en) * 2016-12-15 2018-06-21 Sirona Genomics, Inc. Genotyping diploid samples with coverage plot of unexplained reads
US10726110B2 (en) 2017-03-01 2020-07-28 Seven Bridges Genomics, Inc. Watermarking for data security in bioinformatic sequence analysis
US11347844B2 (en) 2017-03-01 2022-05-31 Seven Bridges Genomics, Inc. Data security in bioinformatic sequence analysis
RU2020106732A (ru) 2017-07-14 2021-08-16 Дзе Фрэнсиз Крик Инститьют Лимитед Анализ аллелей hla в опухолях и его применения
KR102035615B1 (ko) * 2017-08-07 2019-10-23 연세대학교 산학협력단 유전자 패널에 기초한 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
CN111213210A (zh) * 2017-09-06 2020-05-29 河谷控股Ip有限责任公司 Hla组织匹配及用于其的方法
RU2020124312A (ru) * 2018-02-23 2022-03-23 Дюк Юниверсити Энд Медикал Сентр Трансплантация культуры ткани тимуса способствует донор-специфической толерантности к аллогенным трансплантатам паренхиматозных органов
US11819520B2 (en) 2018-02-23 2023-11-21 Duke University Cultured thymus tissue transplantation promotes donor-specific tolerance to allogeneic solid organ transplants
CN109448789A (zh) * 2018-09-17 2019-03-08 上海派森诺生物科技股份有限公司 一种基于perl语言的种群特异SNP位点的自动化分析方法
CN110942806A (zh) * 2018-09-25 2020-03-31 深圳华大法医科技有限公司 一种血型基因分型方法和装置及存储介质
WO2020235972A1 (ko) * 2019-05-22 2020-11-26 서울대학교산학협력단 Ngs 데이터를 이용하여 유전형을 예측하는 방법 및 장치
CN111312332B (zh) * 2020-02-13 2020-10-30 国家卫生健康委科学技术研究所 基于hla基因的生物信息处理方法、装置及终端
WO2023196925A2 (en) * 2022-04-07 2023-10-12 Guardant Health, Inc. Methods and systems for allele typing
WO2023225607A2 (en) * 2022-05-18 2023-11-23 The University Of North Carolina At Chapel Hill Unique molecular identifier enhanced hla genotyping and transcript quantitation using nanopore technology

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100256917A1 (en) 2007-06-15 2010-10-07 Mcvean Gilean Allelic determination
WO2013040583A2 (en) * 2011-09-16 2013-03-21 Complete Genomics, Inc Determining variants in a genome of a heterogeneous sample
KR102386134B1 (ko) 2013-10-15 2022-04-12 리제너론 파마슈티칼스 인코포레이티드 고분별능 대립유전자 동정

Also Published As

Publication number Publication date
CA2927319A1 (en) 2015-04-23
US11594302B2 (en) 2023-02-28
CN106103736A (zh) 2016-11-09
US20150110754A1 (en) 2015-04-23
AU2014335877B2 (en) 2020-09-17
EP3058095A2 (en) 2016-08-24
JP2019145114A (ja) 2019-08-29
AU2014335877A2 (en) 2016-06-16
AU2014335877A1 (en) 2016-05-05
JP2016541043A (ja) 2016-12-28
US10162933B2 (en) 2018-12-25
CA2927319C (en) 2023-03-28
US20190121940A1 (en) 2019-04-25
KR20160063400A (ko) 2016-06-03
WO2015056103A2 (en) 2015-04-23
EP3058095B1 (en) 2019-12-25
KR102386134B1 (ko) 2022-04-12
CN106103736B (zh) 2020-03-03
WO2015056103A3 (en) 2016-01-21
JP6715977B2 (ja) 2020-07-01

Similar Documents

Publication Publication Date Title
JP6715977B2 (ja) 高解像度での対立遺伝子の同定
US20230203573A1 (en) Methods for detection of donor-derived cell-free dna
Bai et al. Inference of high resolution HLA types using genome-wide RNA or DNA sequencing reads
DK2567226T3 (en) Monitoring the health and disease status using klonotypeprofiler
AU2016293025A1 (en) System and methodology for the analysis of genomic data obtained from a subject
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
JP2022141905A (ja) 移植拒絶リスクを予測する新規の方法
CN116964223A (zh) 用于检测多个器官的移植受体中的供体源性游离dna的方法
CN108504660A (zh) Adcy10基因突变体及其应用
US20220088174A1 (en) Genomic variants in ig gene regions and uses of same
이선호 New Methods for SNV/InDel Calling and Haplotyping from Next Generation Sequencing Data
Claeys Benchmark of NGS-based prediction algorithms for
Larjo et al. Accuracy of programs for the determination of HLA alleles from NGS data
Pineda Sanjuan et al. Novel Non-Histocompatibility Antigen Mismatched Variants Improve the Ability to Predict Antibody-Mediated Rejection Risk in Kidney Transplant
JP2020178556A (ja) 角膜疾患のリスクを判定する方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190301

R150 Certificate of patent or registration of utility model

Ref document number: 6491651

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250