JP6491651B2

JP6491651B2 - 高解像度での対立遺伝子の同定

Info

Publication number: JP6491651B2
Application number: JP2016523227A
Authority: JP
Inventors: ユバイ; ウェンフューリー
Original assignee: Regeneron Pharmaceuticals Inc
Current assignee: Regeneron Pharmaceuticals Inc
Priority date: 2013-10-15
Filing date: 2014-10-14
Publication date: 2019-03-27
Anticipated expiration: 2034-10-14
Also published as: CA2927319A1; US11594302B2; CN106103736A; US20150110754A1; AU2014335877B2; EP3058095A2; JP2019145114A; AU2014335877A2; AU2014335877A1; JP2016541043A; US10162933B2; CA2927319C; US20190121940A1; KR20160063400A; WO2015056103A2; EP3058095B1; KR102386134B1; CN106103736B; WO2015056103A3; JP6715977B2

Description

関連出願
本出願は、２０１３年１０月１５日出願された米国特許仮出願第６１／８９１，１９３号に対する優先権による利益を主張するものであり、参照により前述の基礎出願の全体を本願に援用する。

ヒトゲノムの殆どは、本質的に全てのヒト集団において保持されている保存配列により構成されており、ゲノムのうち、わずかではあるものの重要な部分の可変性が高い。これらの配列差は、ゲノムにわたって均一に分散するものではなく、特定のゲノム領域（「遺伝子座」）に他の領域よりも多く配列多様性（「多型」）が含まれる。特定の遺伝子座（すなわち、対立遺伝子が存在する遺伝子座）に特有のヌクレオチド配列を同定することは、生物学的に重要な意義を有し得る。例えば、各個体が特定の遺伝子座に保持している対立遺伝子が、各個体の疾患に対する易罹患性又は治療薬の有効性に影響を及ぼす場合がある。更には、多型性の高い遺伝子座における対立遺伝子の同定に関する知識を利用して、生体試料の民族的及び／又は地理的な起源をたどることもできる。このような追跡は人類学者にとって非常に価値のあるものであり、このような追跡を利用することで、各個体と生体試料とを科学的に紐付けることもできる。利用可能な次世代シーケンシング法が増えれば、対立遺伝子の同定に次世代シーケンシングデータを用いるという見込みは魅力的なものになる。しかしながら、シーケンシングデータを利用して多型性の高い遺伝子座に存在する対立遺伝子を正確かつ効率的に同定することは難しく、特に、シーケンシングデータが、ハイスループットでゲノムワイドなシーケンシング法を利用して生成された場合に難しい。

正確性の高い対立遺伝子予測プロセスが必要とされている多型性の高い遺伝子座セットの１つには、ヒト白血球抗原（ＨＬＡ）タンパク質をコードする遺伝子座がある。ＨＬＡタンパク質は、自己抗原に対する免疫寛容、及び病原体又は腫瘍に対する炎症応答などといった重要な免疫イベントを介在する目的で、リンパ球に対し抗原ペプチドを提示する。クラスＩＨＬＡは、全ての有核細胞により広く発現されており、細胞傷害性Ｔ細胞に対しサイトゾル抗原を提示する。クラスＩＩＨＬＡは、主に免疫細胞により発現され、ヘルパーＴ細胞に対し細胞外抗原を提示する。

ヒトは６種類の主要なＨＬＡタンパク質、３種のクラスＩタンパク質（ＨＬＡ−Ａ、ＨＬＡ−Ｂ、及びＨＬＡ−Ｃ）及び３種のクラスＩＩタンパク質（ＨＬＡ−ＤＱ、ＨＬＡ−ＤＲ、及びＨＬＡ−ＤＰ）を有する。各クラスＩタンパク質は、単一のＨＬＡ座（例えば、ＨＬＡ−Ａ座、ＨＬＡ−Ｂ座、及びＨＬＡ−Ｃ座）によりコードされる。それに対し、クラスＩＩタンパク質は、α鎖及びβ鎖から構成されるヘテロ二量体であり、これらのそれぞれは、それらの対応するＨＬＡ座によりコードされる（例えば、ＨＬＡ−ＤＱＡ１座、ＨＬＡ−ＤＱＢ１座、ＨＬＡ−ＤＲＡ座、ＨＬＡ−ＤＲＢ１座、ＨＬＡ−ＤＲＢ３座、ＨＬＡ−ＤＲＢ４座、ＨＬＡ−ＤＲＢ５座、ＨＬＡ−ＤＰＡ１座、及びＨＬＡ−ＤＰＢ１座）。ヒトでは、主要なそれぞれのＨＬＡ座（クラスＩ及びクラスＩＩの両方）は第６番染色体上に存在する。二倍体生物であるヒトは、第６番染色体のコピーを２つ保持しているため、それぞれのＨＬＡ座のコピーを２つずつ保持している。

ＨＬＡ座は多型性が高い。ＨＬＡ座における多型は、しばしばＨＬＡタンパク質のアミノ酸配列に差異をもたらす。このＨＬＡの多様性により、多様な異なる抗原を群内の免疫細胞に提示することが可能になる。しかしながら、ＨＬＡ配列におけるこれらの多様性により、外科移植手順を非常に複雑にする、個体間の臓器及び組織の組織不適合性も生じる。移植した臓器又は組織により発現されたＨＬＡタンパク質が、移植レシピエントの免疫システムにより外来分子として認識される場合、臓器拒絶反応が生じ得る。同様にして、移植のレシピエントにおいて細胞により発現されたＨＬＡタンパク質を外来分子として認識する免疫細胞の持ち込みを伴う移植では、移植片対宿主病が生じることになる。可能性のあるドナーのＨＬＡ座に対立遺伝子が存在し、レシピエントが適合するＨＬＡタンパク質をコードする場合、移植片対宿主病及び臓器又は組織拒絶反応を可能な限り最小限に抑えることができる。適合するか判断する目的で、ドナー及びレシピエントにおいて、ＨＬＡタイピングとして知られるプロセスにより、どのＨＬＡ対立遺伝子がＨＬＡ座に存在するかを求める必要がある。各個体のＨＬＡ座におけるＨＬＡ型は、２種のＨＬＡ対立遺伝子（又はホモ接合の場合、単一のＨＬＡ対立遺伝子の２つのコピー）から構成され、この対立遺伝子は、各個体のＨＬＡ座のコピーに存在している。

ＨＬＡ型は、様々な疾患において重要な機能を果たすという認識も高まっている。例えば、ある種のＨＬＡ型と、狼瘡、炎症性腸疾患、多発性硬化症、関節炎、及びＩ型糖尿病などの自己免疫異常との間には強い相関がある（例えば、Ｇｒａｈａｍｅｔａｌ．，Ｅｕｒ．Ｈｕｍ．Ｇｅｎｅｔ．１５：８２３〜８３０（２００７）；Ｆｕｅｔａｌ．，Ｊ．Ａｕｔｏｉｍｍｕｎ．３７：１０４〜１１２（２０１１）；Ｃａｓｓｉｎｏｔｔｉｅｔａｌ，Ａｍ．Ｊ．Ｇａｓｔｒｏｅｎｔｅｒｏｌ１０４：１９５〜２１７（２００９）；Ｌｕｃｋｅｙｅｔａｌ．，Ｊ．Ａｕｔｏｉｍｍｕｎ．３７：１２２〜１２８（２０１１）；Ｌｅｍｉｒｅ，Ｍ．，ＢＭＣＰｒｏｃ．７：Ｓ３３（２００９）；Ｎｏｂｌｅｅｔａｌ．，Ｃｕｒｒ．Ｄｉａｂ．Ｒｅｐ．１１：５３３〜５４２（２０１１），これらの文献のそれぞれは、参照により全体が援用される）。一例として、クラスＩＩＨＬＡＤＱＡ１^*０２：０１（ＤＱ２）及びＤＲＢ１^*０３：０１（ＤＲ３）は、全身性エリテマトーデス患者においてよく見られ、有意に疾患感受性と相関する（Ｇｒａｈａｍｅｔａｌ、Ｅｕｒ．Ｈｕｍ．Ｇｅｎｅｔ．１５：８２３〜８３０（２００７））。乳癌及び子宮頸癌に対する耐性又は疾患感受性のいずれかには、その他のクラスＩＩＨＬＡタンパク質の存在も関係する（例えば、Ｃｈａｕｄｈｕｒｉｅｔａｌ．，Ｐｒｏｃ．Ｎｕｃ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９７：１１４５１〜１１４５４（２０００）；Ｇａｒｃｉａ−Ｃｏｒｏｎａｅｔａｌ．，Ａｒｃｈ．Ｄｅｒｍａｔｏｌ．１４０：１２２７〜１２３１（２００４），これらの文献のそれぞれは、参照により全体が援用される）。

ＨＬＡ分子に関係する病理発生及び治療指標をもとに、正確で効率的なＨＬＡタイピング法が必要とされていることが強調されている。従来、ＨＬＡ型は、ペプチド結合におけるおおよその血清学的な特異性を示す、「２桁」の抗原基を識別することにより、低解像度で識別されていた。しかしながら、２桁でのＨＬＡタイピングは、数多くの用途で不十分である。例えば、同じ２桁タイプの２種類のＨＬＡタンパク質間で、１箇所のアミノ酸が異なることで、結果として、Ｔ細胞の認識特異性及び組織拒絶反応に変化が生じ得る（例えば、Ａｒｃｈｂｏｌｄｅｔａｌ．，ＴｒｅｎｄｓＩｍｍｕｎｏｌ．２９：２２０〜２２６（２００８）；Ｔｙｎａｎｅｔａｌ，Ｎａｔ．Ｉｍｍｕｎｏｌ．６：１１１４〜１１２２（２００５）；Ｆｌｅｉｓｃｈｈａｕｅｒｅｔａｌ，Ｎ．Ｅｎｇ．Ｊ．Ｍｅｄ．３２３：１８１８〜１８２２（１９９０），これらの文献のそれぞれは、参照により全体が援用される）。結果として、アミノ酸配列レベルの高解像度のＨＬＡタイピング（「４桁」タイピングとして知られる）は決定的なものとなり得る。例えば、高解像度でＨＬＡ型を識別することで、非血縁者間の臍帯血移植、及び癌ワクチン接種における臨床成績が実質的に改善される（Ｎａｇｏｒｓｏｎｅｔａｌ．，ＣａｎｃｅｒＩｍｍｕｎｏｌ．Ｉｍｍｕｎｏｔｈｅｒ．５７：１９０３〜１９１０（２００８）；Ｌｉａｏｅｔａｌ．，ＢｏｎｅＭａｒｒｏｗＴｒａｎｓｐｌａｎｔ．４０：２０１〜２０８（２００７），これらの文献のそれぞれは、参照により全体が援用される）。

ＨＬＡ座の多型性が高いことから、正確で高解像度のタイピング、特に高スループットのタイピングは非常に困難なものとなっている。ヒト集団において、主要なクラスＩ及びクラスＩＩＨＬＡ座には、７５２７超の４桁のＨＬＡ対立遺伝子が存在する。解像度４桁でＨＬＡ型を識別することのできる既存のＨＬＡタイピング法、例えば、配列特異的プライミング（ＳＳＰ）及び配列ベースタイピング（ＳＢＴ）による分特異的ＰＣＲは、スループットが低い。その他に提案されているタイピングストラテジーには、ＰＣＲ増幅後のディープシーケンシングによりＨＬＡ座を特異的に標的とするというものがある。この方法では、４桁のＨＬＡ対立遺伝子を正確に決定するために、リードを長くし、カバレッジを高くする（深度）必要がある。コスト及び効率の兼ね合いにより、トランスクリプトーム、又は全エクソーム／ゲノム配列決定などのゲノムワイドの配列決定では、概して、リードはかなり短く（１００塩基未満）、カバレッジも低い。ＨＬＡタイピングにゲノムワイドな配列決定プロセスを用いることを試みる従来法では、これらのリード長及びカバレッジに対する制限により正確性が低下する。特に、リード配列決定の短い従来法では、４桁のＨＬＡ型の同定の正確性は３２％〜８４％であると報告されている（例えば、Ｂｏｅｇｅｌｅｔａｌ．，ＧｅｎｏｍｅＭｅｄ．４：１０２（２０１３）；ＫｉｍａｎｄＰｏｕｒｍａｎｄＰＬｏＳＯｎｅ８：ｅ６７８８５（２０１３））。

Ｇｒａｈａｍｅｔａｌ．，Ｅｕｒ．Ｈｕｍ．Ｇｅｎｅｔ．１５：８２３〜８３０（２００７）Ｆｕｅｔａｌ．，Ｊ．Ａｕｔｏｉｍｍｕｎ．３７：１０４〜１１２（２０１１）Ｃａｓｓｉｎｏｔｔｉｅｔａｌ，Ａｍ．Ｊ．Ｇａｓｔｒｏｅｎｔｅｒｏｌ１０４：１９５〜２１７（２００９）Ｌｕｃｋｅｙｅｔａｌ．，Ｊ．Ａｕｔｏｉｍｍｕｎ．３７：１２２〜１２８（２０１１）Ｌｅｍｉｒｅ，Ｍ．，ＢＭＣＰｒｏｃ．７：Ｓ３３（２００９）Ｎｏｂｌｅｅｔａｌ．，Ｃｕｒｒ．Ｄｉａｂ．Ｒｅｐ．１１：５３３〜５４２（２０１１）Ｇｒａｈａｍｅｔａｌ、Ｅｕｒ．Ｈｕｍ．Ｇｅｎｅｔ．１５：８２３〜８３０（２００７）Ｃｈａｕｄｈｕｒｉｅｔａｌ．，Ｐｒｏｃ．Ｎｕｃ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９７：１１４５１〜１１４５４（２０００）Ｇａｒｃｉａ−Ｃｏｒｏｎａｅｔａｌ．，Ａｒｃｈ．Ｄｅｒｍａｔｏｌ．１４０：１２２７〜１２３１（２００４）Ａｒｃｈｂｏｌｄｅｔａｌ．，ＴｒｅｎｄｓＩｍｍｕｎｏｌ．２９：２２０〜２２６（２００８）Ｔｙｎａｎｅｔａｌ，Ｎａｔ．Ｉｍｍｕｎｏｌ．６：１１１４〜１１２２（２００５）Ｆｌｅｉｓｃｈｈａｕｅｒｅｔａｌ，Ｎ．Ｅｎｇ．Ｊ．Ｍｅｄ．３２３：１８１８〜１８２２（１９９０）Ｎａｇｏｒｓｏｎｅｔａｌ．，ＣａｎｃｅｒＩｍｍｕｎｏｌ．Ｉｍｍｕｎｏｔｈｅｒ．５７：１９０３〜１９１０（２００８）Ｌｉａｏｅｔａｌ．，ＢｏｎｅＭａｒｒｏｗＴｒａｎｓｐｌａｎｔ．４０：２０１〜２０８（２００７）Ｂｏｅｇｅｌｅｔａｌ．，ＧｅｎｏｍｅＭｅｄ．４：１０２（２０１３）ＫｉｍａｎｄＰｏｕｒｍａｎｄＰＬｏＳＯｎｅ８：ｅ６７８８５（２０１３）

上記を踏まえ、リード長が短い、及び配列カバレッジの低いデータを含む、様々な配列決定データを用い、遺伝子座に存在する対立遺伝子を正確かつ効率的に同定する、新規方法が必要とされている。

本明細書では、いくつかの態様において、遺伝子座に存在する対立遺伝子を正確に判定するための（例えば、ＨＬＡ座のＨＬＡ型を判定するための）、方法（コンピュータに実行される方法を含む）、コンピュータプログラム、及びコンピュータシステムが提供される。本明細書では、臓器、組織、若しくは細胞を移植するための方法、移植片拒絶反応を予防するための方法、及び／又は移植片対宿主病を予防するための方法も提供される。

本明細書では、いくつかの態様において、１つ以上の遺伝子座において（例えば、対象、試料、臓器、組織、及び／又は細胞における遺伝子座）対立遺伝子を判定するため、コンピュータに実装された方法、が提供される。いくつかの実施形態では、遺伝子座はＨＬＡ座である。いくつかの実施形態では、遺伝子座は、ミトコンドリアＤＮＡの超可変領域（ＨＶ）の遺伝子座（例えば、ＨＶ１座、又はＨＶ２座）である。いくつかの実施形態では、遺伝子座は、血液型抗原（ＢＧＡ）遺伝子座である。いくつかの実施形態では、遺伝子座は、中等度多型を有する遺伝子座（すなわち、平均して、１００塩基長につき少なくとも一箇所にＳＮＰが存在する遺伝子座）、高度多型を有する遺伝子座（すなわち、平均して、２０塩基長につき少なくとも１箇所にＳＮＰが存在する遺伝子座）、又は超高度多型を有する遺伝子座（すなわち、平均して、１０塩基長につき少なくとも１箇所にＳＮＰが存在する遺伝子座）である。

いくつかの実施形態では、遺伝子座は、平均して、１００塩基につき：１箇所以上２０箇所未満のＳＮＰｓ、２箇所以上２０箇所未満のＳＮＰｓ、３箇所以上２０箇所未満のＳＮＰｓ、４箇所以上２０箇所未満のＳＮＰｓ、５箇所以上２０箇所未満のＳＮＰｓ、６箇所以上２０箇所未満のＳＮＰｓ、７箇所以上２０箇所未満のＳＮＰｓ、８箇所以上２０箇所未満のＳＮＰｓ、９箇所以上２０箇所未満のＳＮＰｓ、１０箇所以上２０箇所未満のＳＮＰｓ、１１箇所以上２０箇所未満のＳＮＰｓ、１２箇所以上２０箇所未満のＳＮＰｓ、１３箇所以上２０箇所未満のＳＮＰｓ、１４箇所以上２０箇所未満のＳＮＰｓ、１５箇所以上２０箇所未満のＳＮＰｓ、１６箇所以上２０箇所未満のＳＮＰｓ、１７箇所以上２０箇所未満のＳＮＰｓ、１８箇所以上２０箇所未満のＳＮＰｓ、又は１９箇所以上２０箇所未満のＳＮＰｓを含有する。

様々な実施形態において、中等度多型を有する遺伝子座は、平均して、１００塩基につき：１箇所以上５箇所未満のＳＮＰｓ、２箇所以上５箇所未満のＳＮＰｓ、３箇所以上５箇所未満のＳＮＰｓ、又は４箇所以上５箇所未満のＳＮＰｓを含有する。様々な実施形態において、中等度多型を有する遺伝子座は、平均して、１００塩基につき：約１〜２箇所のＳＮＰｓ、２〜３箇所のＳＮＰｓ、又は約３〜４箇所のＳＮＰｓを含有する。

様々な実施形態において、高度多型を有する遺伝子座は、平均して、１００塩基につき：１００塩基長につき５箇所以上１０箇所未満のＳＮＰｓ、６箇所以上１０箇所未満のＳＮＰｓ、７箇所以上１０箇所未満のＳＮＰｓ、８箇所以上１０箇所未満のＳＮＰｓ、９箇所以上１０箇所未満のＳＮＰｓを含有する。様々な実施形態において、高度多型を有する遺伝子座は、平均して、１００塩基につき：約５〜６箇所のＳＮＰｓ、約６〜７箇所のＳＮＰｓ、約７〜８箇所のＳＮＰｓ、又は約８〜９箇所のＳＮＰｓを含有する。

様々な実施形態において、超高度多型を有する遺伝子座は、平均して、１００塩基につき：１０箇所以上２０箇所未満のＳＮＰｓ、１１箇所以上２０箇所未満のＳＮＰｓ、１２箇所以上２０箇所未満のＳＮＰｓ、１３箇所以上２０箇所未満のＳＮＰｓ、１４箇所以上２０箇所未満のＳＮＰｓ、１５箇所以上２０箇所未満のＳＮＰｓ、１６箇所以上２０箇所未満のＳＮＰｓ、１７箇所以上２０箇所未満のＳＮＰｓ、１８箇所以上２０箇所未満のＳＮＰｓ、又は１９箇所以上２０箇所未満のＳＮＰｓを含有する。一実施形態では、超高度多型を有する遺伝子座は、平均して、１００塩基につき：約１０〜１１箇所のＳＮＰｓ、約１１〜１２箇所のＳＮＰｓ、約１２〜１３箇所のＳＮＰｓ、約１３〜１４箇所のＳＮＰｓ、約１４〜１５箇所のＳＮＰｓ、約１５〜１６箇所のＳＮＰｓ、約１６〜１７箇所のＳＮＰｓ、約１７〜１８箇所のＳＮＰｓ、又は約１８〜１９箇所のＳＮＰｓを含有する。一実施形態では、超高度多型を有する遺伝子座は、平均して、１００塩基につき約２０箇所のＳＮＰｓを含有する。

いくつかの実施形態では、コンピュータに実装された方法は：ａ）コンピュータシステムにおいて、配列データを受信することであって、この配列データが複数のシーケンスリードを含む、データを受信することと；ｂ）このコンピュータシステムにより、遺伝子座の複数の対立遺伝子を含む参照配列に対しシーケンスリードをマッピングして、対立遺伝子候補を同定することと；ｃ）コンピュータシステムにより、遺伝子座に対しマッピングされたシーケンスリードを遺伝子座に存在する対立遺伝子としてみなす尤度が最も高い対立遺伝子候補対を同定することと、を包含する。いくつかの実施形態では、対立遺伝子は、ＨＬＡの対立遺伝子、ＨＶの対立遺伝子、又はＢＧＡの対立遺伝子であり、並びに遺伝子座は、ＨＬＡ座、ＨＶ座、又はＢＧＡ座である。いくつかの実施形態では、遺伝子座に存在する対立遺伝子は、この遺伝子座にてＨＬＡ型を構成する。いくつかの実施形態では、参照配列は、ゲノム配列（例えば、遺伝子座をマスクされた又は除去されたゲノム配列）も包含する。いくつかの実施形態では、対立遺伝子及び配列はヒトのものである。

いくつかの実施形態では、上記方法の工程ｂ）は、コンピュータシステムに実行される工程：ｉ）参照配列に対してシーケンスリードをマッピングする工程であって、この参照配列が、この遺伝子座のゲノム配列及び複数の対立遺伝子配列を含む、マッピングする工程と；ｉｉ）シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第１のセットとして同定する工程と；ｉｉｉ）対立遺伝子候補の第１のセットにマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第２のセットとして同定する工程と；ｉｖ）遺伝子座に対してマッピングされるシーケンスリードの９０％未満が、対立遺伝子候補の第１のセット又は第２のセットの対立遺伝子に対してマッピングされる場合に、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされたリードを除外し、シーケンスリードが最も多数マッピングした対立遺伝子を、対立遺伝子候補の第３のセットとして同定する工程と、を包含する。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。用語「タンパク質群」は、同一のアミノ酸配列を有する同一のタンパク質をコードする一群の対立遺伝子を包含する。いくつかの実施形態では、対立遺伝子候補の第２のセットは、対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子と、遺伝子座に対しマッピングされる配列リードのうち、対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードを除外したものが、対立遺伝子候補の第１のセットに対しマッピングされる配列リードの総数の１％超である場合に、対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードは除外せずに、２番目に多数のシーケンスリードがマッピングされる対立遺伝子と、を包含する。いくつかの実施形態では、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子に対しマッピングされるシーケンスリードの数が、遺伝子座に対しマッピングされるシーケンスリードの総数の少なくとも１０％を構成する場合にのみ、対立遺伝子候補の第３のセットは、工程ｉｖ）で同定される。

いくつかの実施形態では、上記方法の工程ｂ）は、コンピュータシステムに実行される工程：ｉ）低ストリンジェンシーにて、シーケンスリードを参照配列に対してマッピングする工程であって、この参照配列が、ヒトゲノム配列と、この遺伝子座の複数の対立遺伝子配列とを含む、マッピングする工程と；ｉｉ）少なくとも１つの対立遺伝子が、マッピングされる対立遺伝子の上位１０％に含まれる４桁のタンパク質ファミリーのそれぞれに由来する全ての対立遺伝子を、対立遺伝子候補として前もって同定する工程と；ｉｉｉ）高ストリンジェンシーにて、シーケンスリードを参照配列に対してマッピングする工程であって、この参照配列が、前もって候補とされた対立遺伝子を含む、マッピングする工程と；ｉｖ）シーケンスリードが最も多数マッピングされた、前もって候補とされた対立遺伝子を、対立遺伝子候補の第１のセットとして同定する工程と；ｖ）対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされた、前もって候補とされた対立遺伝子を、対立遺伝子候補の第２のセットとして同定する工程と；ｖｉ）遺伝子座に対しマッピングされるシーケンスリードの９０％未満が、対立遺伝子候補の第１のセット又は第２のセットの対立遺伝子に対しマッピングされる場合に、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた、前もって候補とされた対立遺伝子を、対立遺伝子候補の第３のセットとして同定する工程と、を包含する。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子候補の第２のセットは、対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子と、遺伝子座に対しマッピングされる配列リードのうち、対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードを除外したものが、対立遺伝子候補の第１のセットに対しマッピングされる配列リードの総数の１％超である場合に、対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードは除外せずに、２番目に多数のシーケンスリードがマッピングされる対立遺伝子と、を包含する。いくつかの実施形態では、対立遺伝子候補の第３のセットは、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされたＨＬＡの対立遺伝子に対しマッピングされるシーケンスリードの数が、ＨＬＡ座に対しマッピングされるシーケンスリードの総数の少なくとも１０％を構成する場合にのみ同定される。

いくつかの実施形態では、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対は、次のもの：ｉ）対立遺伝子候補に対しマッピングされるシーケンスリード中の各一塩基多型（ＳＮＰｓ）；及びｉｉ）対立遺伝子候補に対しマッピングされるシーケンスリード中に存在するＳＮＰｓの配列対、としてみなされる尤度が最も高い対立遺伝子候補対である。いくつかの実施形態では、シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対は、次のもの：ｉ）対立遺伝子候補に対しマッピングされるシーケンスリード中に存在する各ＳＮＰｓ；ｉｉ）対立遺伝子候補に対しマッピングされるシーケンスリード中に存在するＳＮＰｓの配列対；及びｉｉｉ）配列データの由来する生物（例えば、ヒト）における、対立遺伝子候補対の頻度、としてみなされる尤度が最も高い対立遺伝子候補対である。

いくつかの実施形態では、シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対は：ｉ）対立遺伝子候補の各対に関し、遺伝子座における各ＳＮＰのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、遺伝子座における各ＳＮＰのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰに対しマッピングされるシーケンスリード中のそれぞれのＳＮＰに存在する配列としてみなすことができる、対数尤度スコアを求めることと；ｉｉ）対立遺伝子候補の各対に関し、遺伝子座におけるＳＮＰｓの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、遺伝子座におけるＳＮＰｓの各配列対についての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰｓの配列対に対しマッピングされるシーケンスリード中のＳＮＰｓの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めること、から判定され、ここで、対立遺伝子候補のうち、遺伝子型対数尤度スコア及び相対数尤度スコアの合計が最も高いものが、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対であると判定される。

いくつかの実施形態では、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対は：ｉ）対立遺伝子候補の各対に関し、遺伝子座における各ＳＮＰのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、遺伝子座における各ＳＮＰのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰに対しマッピングされるシーケンスリード中のそれぞれのＳＮＰに存在する配列としてみなすことができる、対数尤度スコアを求めることと；ｉｉ）対立遺伝子候補の各対に関し、遺伝子座におけるＳＮＰｓの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、遺伝子座におけるＳＮＰｓの各配列対についての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰｓの配列対に対しマッピングされるシーケンスリード中のＳＮＰｓの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めることと；ｉｉｉ）対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めることであって、頻度対数尤度スコアは、各対立遺伝子候補がヒト集団において存在する対数頻度の合計である、頻度対数尤度スコアを求めること、から判定され、ここで、対立遺伝子候補のうち、遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高いものが、シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対であると、判定される。

本明細書では、いくつかの態様において、次のもの：ａ）配列データを受信することであって、この配列データが複数のシーケンスリードを含む、データを受信することと；ｂ）コンピュータシステムにより、シーケンスリードを参照配列に対しマッピングすることであって、参照配列は、ゲノム配列と、その遺伝子座の複数の対立遺伝子配列とを含む、マッピングすることと；ｄ）コンピュータシステムにより、最も多数のシーケンスリードにマッピングされる対立遺伝子を、対立遺伝子候補の第１のセットとして同定することと；ｅ）遺伝子座に対してマッピングされるシーケンスリードの９０％未満が、対立遺伝子候補の第１のセット又は第２のセットの対立遺伝子に対してマッピングされる場合、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第３のセットとして同定すること；ｆ）対立遺伝子候補の各対に関し、コンピュータシステムにより、その遺伝子座の各ＳＮＰのそれぞれについての遺伝子型対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、遺伝子座における各ＳＮＰのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰに対しマッピングされるシーケンスリード中のそれぞれのＳＮＰに存在する配列としてみなされる、遺伝子型対数尤度スコアを求めることと；ｇ）対立遺伝子候補の各対に関し、コンピュータシステムにより、遺伝子座におけるＳＮＰｓの各配列対についての相対数尤度スコアを求めることであって、各相対数尤度スコアが、遺伝子座におけるＳＮＰｓの各配列対についての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰｓの配列対に対しマッピングされるシーケンスリード中のＳＮＰｓの配列対に存在する配列としてみなすことができる、相対数尤度スコアを求めることと；ｈ）対立遺伝子候補の各対に関し、コンピュータシステムにより、頻度対数尤度スコアを求めることであって、頻度対数尤度スコアは、各対立遺伝子候補対がヒト集団において存在する対数頻度の合計である、頻度対数尤度スコアを求めることと；ｉ）コンピュータシステムにより、遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高い対立遺伝子候補対を、遺伝子座に存在する対立遺伝子として同定することと、を含む、コンピュータに実装された方法が提供される。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子候補の第２のセットは、対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子と、遺伝子座に対しマッピングされる配列リードのうち、対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードを除外したものが、対立遺伝子候補の第１のセットに対しマッピングされる配列リードの総数の１％超である場合に、対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードは除外せずに、２番目に多数のシーケンスリードがマッピングされる対立遺伝子と、を包含する。いくつかの実施形態では、対立遺伝子は、ＨＬＡの対立遺伝子、ＨＶの対立遺伝子、又はＢＧＡの対立遺伝子であり、並びに遺伝子座は、ＨＬＡ座、ＨＶ座、又はＢＧＡ座である。いくつかの実施形態では、遺伝子座に存在する対立遺伝子は、この遺伝子座にてＨＬＡ型を構成する。いくつかの実施形態では、対立遺伝子及び配列はヒトのものである。いくつかの実施形態では、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子に対しマッピングされるシーケンスリードの数が、遺伝子座に対しマッピングされるシーケンスリードの総数の少なくとも１０％を構成する場合にのみ、対立遺伝子候補の第３のセットは、工程ｉｖ）で同定される。

本明細書では、コンピュータに実装された方法に関するいくつかの実施形態において、配列データは、ゲノムワイドな配列決定データである。いくつかの実施形態では、ゲノムワイドな配列決定データは、トランスクリプトーム配列決定データ、全エクソーム配列決定データ、又は全ゲノム配列決定データである。いくつかの実施形態では、配列データのカバレッジは、６０倍、５０倍、４０倍、３０倍、２０倍、又は１５倍未満である。いくつかの実施形態では、配列データのカバレッジは、６０倍超である。いくつかの実施形態では、シーケンスリードの平均長は、１００、９０、８０、７０、６０、５０、４５、４０、又は３５塩基未満である。いくつかの実施形態では、配列リードの長さは、１００塩基超である。

本明細書において提供される、コンピュータに実装された方法のある種の実施形態において、参照配列は、ヒトゲノム配列を含む。いくつかの実施形態では、ゲノム配列中の遺伝子座の配列（例えば、ＨＬＡ座）は除去又はマスクされている。いくつかの実施形態では、ヒトゲノム配列はＧＲＣｈ３７／ｈｇ１９である。

いくつかの実施形態では、本明細書に記載の方法は、サンプルに対してゲノムワイドな配列決定プロセスを実行して、配列データを生成する工程を包含する。いくつかの実施形態では、本明細書に記載の方法は、遺伝子座の核酸配列を含む増幅産物を産生する核酸増幅プロセスを実施することと、増幅産物に対し配列決定プロセスを実施することと、を包含する。

いくつかの実施形態では、本明細書において提供される方法は、ＨＬＡ座のＨＬＡ型が、レシピエントのＨＬＡ座のＨＬＡ型と合致する、細胞、組織、又は臓器を、対象に移植する工程、を包含する。いくつかの実施形態では、レシピエントのＨＬＡ座のＨＬＡ型を判定するために、本明細書において提供されるコンピュータに実装された方法を実施する。いくつかの実施形態では、細胞、組織、又は臓器のＨＬＡ座のＨＬＡ型を判定するために、本明細書において提供されるコンピュータに実装された方法を実行する。いくつかの実施形態では、細胞、組織、又は臓器、及びレシピエントの両方のＨＬＡ座のＨＬＡ型を判定するために、本明細書において提供されるコンピュータに実装された方法を実行する。

本明細書では、いくつかの態様において、本明細書において提供されるコンピュータにより実行される方法を実施するためのコンピュータシステムが提供される。いくつかの実施形態では、コンピュータシステムは：少なくとも１つのプロセッサ；少なくとも１つのプロセッサに割り当てられたメモリ；ディスプレイ；及び遺伝子座における対立遺伝子（例えば、ＨＬＡ座におけるＨＬＡ型）を判定するためにメモリでサポートされているプログラムであって、少なくとも１つのプロセッサに実行させるとき、少なくとも１つのプロセッサに対し、本明細書において提供されるコンピュータに実装された方法を実行させる複数の命令を含む、プログラム、を包含する。いくつかの実施形態では、少なくとも１つのプロセッサにより実行されるとき、命令は、少なくとも１つのプロセッサに：ａ）複数のシーケンスリードを含む配列データを受信させる；ｂ）遺伝子座の複数の対立遺伝子を含む参照配列に対しシーケンスリードをマッピングして、対立遺伝子候補を同定させる；及びｃ）遺伝子座に対しマッピングされるシーケンスリードとしてみなされる尤度の最も高い対立遺伝子候補対を、遺伝子座に存在する対立遺伝子として同定させる。いくつかの実施形態では、少なくとも１つのプロセッサにより実行されるとき、命令は、少なくとも１つのプロセッサに：ａ）複数のシーケンスリードを含む配列データを受信させる；ｂ）ヒトゲノム配列と、その遺伝子座の複数の対立遺伝子配列とを含む参照配列に対し、シーケンスリードをマッピングさせる；ｃ）シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第１のセットとして同定させる；ｄ）対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第２のセットとして同定させる；ｅ）遺伝子座に対してマッピングされるシーケンスリードの９０％未満が、対立遺伝子候補の第１のセット又は第２のセットの対立遺伝子に対してマッピングされる場合、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第３のセットとして同定させる；ｆ）対立遺伝子候補の各対に関し、その遺伝子座の各ＳＮＰのそれぞれについての遺伝子型対数尤度スコアを求めさせる（各遺伝子型の対数尤度スコアは、遺伝子座における各ＳＮＰのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰに対しマッピングされるシーケンスリード中のそれぞれのＳＮＰに存在する配列としてみなされ得る）；ｇ）対立遺伝子候補の各対に関し、遺伝子座におけるＳＮＰｓの各配列対についての相対数尤度スコアを求めさせる（各相対数尤度スコアは、遺伝子座におけるＳＮＰｓの各配列対についての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰｓの配列対に対しマッピングされるシーケンスリード中のＳＮＰｓの配列対に存在する配列としてみなされ得る）；ｈ）対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めさせる（頻度対数尤度スコアは、各対立遺伝子候補対がヒト集団において存在する対数頻度の合計である）；及びｉ）遺伝子座に存在する対立遺伝子としての、遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高い対立遺伝子候補対を同定させる。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子は、ＨＬＡの対立遺伝子、ＨＶの対立遺伝子、又はＢＧＡの対立遺伝子であり、並びに遺伝子座は、ＨＬＡ座、ＨＶ座、又はＢＧＡ座である。いくつかの実施形態では、対立遺伝子候補の第２のセットは、対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子と、遺伝子座に対しマッピングされる配列リードのうち、対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードを除外したものが、対立遺伝子候補の第１のセットに対しマッピングされる配列リードの総数の１％超である場合に、対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードは除外せずに、２番目に多数のシーケンスリードがマッピングされる対立遺伝子と、を包含する。いくつかの実施形態では、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子に対しマッピングされるシーケンスリードの数が、遺伝子座に対しマッピングされるシーケンスリードの総数の少なくとも１０％を構成する場合にのみ、対立遺伝子候補の第３のセットは、工程ｉｖ）で同定される。いくつかの実施形態では、遺伝子座に存在する対立遺伝子は、この遺伝子座にてＨＬＡ型を構成する。いくつかの実施形態では、参照配列は、ゲノム配列（例えば、遺伝子座をマスクされた又は除去されたゲノム配列）も包含する。いくつかの実施形態では、対立遺伝子及び配列はヒトのものである。

本明細書では、いくつかの態様において、遺伝子座に存在する対立遺伝子を判定するためのコンピュータプログラム製品が提供される。いくつかの実施形態では、コンピュータプログラム製品は、複数の命令を格納されている、非一時的にコンピュータにより読み取り可能な媒体上に存在し、前述の複数の命令は、コンピュータプロセッサに実行させたときに、本明細書において提供されるコンピュータに実装された方法が実行されるものである。ある種の実施形態では、コンピュータプロセッサにより実行されるとき、この複数の命令は、コンピュータプロセッサに：ａ）複数のシーケンスリードを含む配列データを受信させる；ｂ）遺伝子座の複数の対立遺伝子を含む参照配列に対しシーケンスリードをマッピングして、対立遺伝子候補を同定させる；及びｃ）遺伝子座に対しマッピングされるシーケンスリードとしてみなされる尤度の最も高い対立遺伝子候補対を、遺伝子座に存在する対立遺伝子として同定させる。ある種の実施形態では、コンピュータプロセッサにより実行されるとき、複数の命令は、コンピュータプロセッサに：ａ）複数のシーケンスリードを含む配列データを受信させる；ｂ）ヒトゲノム配列と、その遺伝子座の複数の対立遺伝子配列とを含む参照配列に対し、シーケンスリードをマッピングさせる；ｃ）シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第１のセットとして同定させる；ｄ）対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第２のセットとして同定させる；ｅ）遺伝子座に対してマッピングされるシーケンスリードの９０％未満が、対立遺伝子候補の第１のセット又は第２のセットの対立遺伝子に対してマッピングされる場合、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第３のセットとして同定させる；ｆ）対立遺伝子候補の各対に関し、その遺伝子座の各ＳＮＰのそれぞれについての遺伝子型対数尤度スコアを求めさせる（各遺伝子型の対数尤度スコアは、遺伝子座における各ＳＮＰのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰに対しマッピングされるシーケンスリード中のそれぞれのＳＮＰに存在する配列としてみなされ得る）；ｇ）対立遺伝子候補の各対に関し、遺伝子座におけるＳＮＰｓの各配列対についての相対数尤度スコアを求めさせる（各相対数尤度スコアは、遺伝子座におけるＳＮＰｓの各配列対についての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰｓの配列対に対しマッピングされるシーケンスリード中のＳＮＰｓの配列対に存在する配列としてみなされ得る）；ｈ）対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めさせる（頻度対数尤度スコアは、各対立遺伝子候補対がヒト集団において存在する対数頻度の合計である）；及びｉ）遺伝子座に存在する対立遺伝子としての、遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高い対立遺伝子候補対を同定させる。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子候補の第２のセットは、対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子と、遺伝子座に対しマッピングされる配列リードのうち、対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードを除外したものが、対立遺伝子候補の第１のセットに対しマッピングされる配列リードの総数の１％超である場合に、対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードは除外せずに、２番目に多数のシーケンスリードがマッピングされる対立遺伝子と、を包含する。いくつかの実施形態では、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子に対しマッピングされるシーケンスリードの数が、遺伝子座に対しマッピングされるシーケンスリードの総数の少なくとも１０％を構成する場合にのみ、対立遺伝子候補の第３のセットは、工程ｉｖ）で同定される。

本明細書では、いくつかの態様において、ハプロイドＤＮＡの対象遺伝子座（例えば、ミトコンドリアＤＮＡの超可変領域（ＨＶ）遺伝子座）の遺伝子型を判定する、コンピュータに実装された方法が提供される。いくつかの実施形態では、方法は：ａ）配列データを受信することであって、この配列データが複数のシーケンスリードを含む、データを受信することと；ｂ）このコンピュータシステムにより、遺伝子座の複数の対立遺伝子を含む参照配列に対しシーケンスリードをマッピングして、対立遺伝子候補を同定することと；ｃ）遺伝子座に存在する対立遺伝子として遺伝子座に対しマッピングするシーケンスリードとしてみなされる尤度が最も高い１つ以上の対立遺伝子候補を、コンピュータシステムにより同定することと、を包含する。いくつかの実施形態では、対立遺伝子はＨＶの対立遺伝子であり、遺伝子座はＨＶ座である。いくつかの実施形態では、遺伝子座に存在する対立遺伝子は、この遺伝子座にて遺伝型を構成する。いくつかの実施形態では、参照配列は、ゲノム配列（例えば、遺伝子座をマスクされた又は除去されたゲノム配列）も包含する。いくつかの実施形態では、対立遺伝子及び配列はヒトのものである。いくつかの実施形態では、方法は、コンピュータシステムに実行される工程：ｉ）参照配列に対してシーケンスリードをマッピングする工程であって、この参照配列が、ヒトゲノム配列及びこの遺伝子座の複数の対立遺伝子配列を含む、マッピングする工程と；ｉｉ）シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第１のセットとして同定する工程と；ｉｉｉ）対立遺伝子候補の第１のセットに対してマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第２のセットとして同定する工程と；ｉｖ）遺伝子座に対してマッピングされたシーケンスリードの９０％未満が、対立遺伝子候補の第１のセット又は第２のセットの対立遺伝子に対してマッピングされる場合に、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされたリードを除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第３のセットとして同定する工程と、を包含する。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子候補の第１のセットに対しマッピングされたシーケンスリードの除外後、遺伝子座に対しマッピングされたシーケンスリードの数が、対立遺伝子候補の第１のセットに対しマッピングされたシーケンスリードの数の１％超である場合、対立遺伝子候補の第１のセットに対しマッピングされたシーケンスリードを除外せずに、２番目に多数のシーケンスリードがマッピングされた対立遺伝子を、対立遺伝子候補の第２のセットのサブセットとして更に同定する。いくつかの実施形態では、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子に対しマッピングされるシーケンスリードの数が、遺伝子座に対しマッピングされるシーケンスリードの総数の少なくとも１０％を構成する場合にのみ、対立遺伝子候補の第３のセットは、工程ｉｖ）で同定される。

いくつかの実施形態では、シーケンスリードとしてみなされる尤度が最も高い１つ以上の対立遺伝子候補は、次のもの：ｉ）対立遺伝子候補に対しマッピングされるシーケンスリード中の各一塩基多型（ＳＮＰｓ）；及びｉｉ）対立遺伝子候補に対しマッピングされるシーケンスリード中に存在するＳＮＰｓの配列対、としてみなされる尤度が最も高い１つ以上の対立遺伝子候補である。

いくつかの実施形態では、シーケンスリードとしてみなされる尤度が最も高い１つ以上の対立遺伝子候補は、次のもの：ｉ）対立遺伝子候補に対しマッピングされるシーケンスリード中の各一塩基多型（ＳＮＰｓ）；ｉｉ）対立遺伝子候補に対しマッピングされるシーケンスリード中に存在するＳＮＰｓの配列対；及びｉｉｉ）人において対立遺伝子候補対の頻度、としてみなされる尤度が最も高い１つ以上の対立遺伝子候補である。いくつかの実施形態では、シーケンスリードとしてみなされる尤度が最も高い１つ以上の対立遺伝子候補は：ｉ）各対立遺伝子候補のそれぞれ及び対立遺伝子候補の各組み合わせに関し、遺伝子座における各ＳＮＰのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、遺伝子座における各ＳＮＰのそれぞれについての対数確率の合計であり、対立遺伝子候補のそれぞれ又は対立遺伝子の組み合わせは、ＳＮＰに対しマッピングされるシーケンスリード中のそれぞれのＳＮＰに存在する配列としてみなすことができる、対数尤度スコアを求めることと；ｉｉ）各対立遺伝子候補のそれぞれ及び対立遺伝子候補の各組み合わせに関し、遺伝子座におけるＳＮＰｓの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、遺伝子座におけるＳＮＰｓの各配列対についての対数確率の合計であり、対立遺伝子候補のそれぞれ又は対立遺伝子候補の組み合わせは、ＳＮＰｓの配列対に対しマッピングされるシーケンスリード中のＳＮＰｓの配列対に存在する配列とみなすことができ、対立遺伝子候補又は対立遺伝子候補の組み合わせのうち、遺伝子型対数尤度スコア及び相対数尤度スコアの合計が最も高いものが、シーケンスリードとしてみなされる尤度が最も高い１つ以上の対立遺伝子候補である、相対数尤度スコアを求めることと、により判定される。

いくつかの実施形態では、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対は：ｉ）各対立遺伝子候補のそれぞれ及び対立遺伝子候補の各組み合わせに関し、遺伝子座における各ＳＮＰのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、遺伝子座における各ＳＮＰのそれぞれについての対数確率の合計であり、それぞれの対立遺伝子候補又は対立遺伝子の組み合わせは、ＳＮＰに対しマッピングされるシーケンスリード中のそれぞれのＳＮＰに存在する配列としてみなすことができる、対数尤度スコアを求めることと；ｉｉ）各対立遺伝子候補のそれぞれ及び対立遺伝子候補の各組み合わせに関し、遺伝子座におけるＳＮＰｓの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、遺伝子座におけるＳＮＰｓの各配列対についての対数確率の合計であり、対立遺伝子候補のそれぞれ又は対立遺伝子候補の組み合わせは、ＳＮＰｓの配列対に対しマッピングされるシーケンスリード中のＳＮＰｓの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めることと；ｉｉｉ）各対立遺伝子候補のそれぞれ及び対立遺伝子候補の各組み合わせに関し、頻度対数尤度スコアを求めることであって、頻度対数尤度スコアは、対立遺伝子候補のそれぞれ及び対立遺伝子候補の組み合わせがヒト集団において存在する対数頻度の合計であり、対立遺伝子候補のそれぞれ及び対立遺伝子候補の組み合わせのうち、遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高いものが、シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対である、頻度対数尤度スコアを求めることと、により判定される。

本明細書では、いくつかの態様において、臓器、組織、又は細胞を対象に移植する方法、移植片拒絶反応を予防する方法、及び／又は移植片対宿主病を予防する方法、が提供される。いくつかの実施形態では、本方法は：ａ）複数のシーケンスリードを含む、対象の配列データを取得することと；ｂ）ＨＬＡ座の複数のＨＬＡ対立遺伝子配列を含む参照配列に対してシーケンスリードをマッピングして、対立遺伝子候補を同定することと；ｃ）シーケンスリードとみなされる尤度が最も高い、ＨＬＡ座に対しマッピングされる対立遺伝子候補対を、対象のＨＬＡ座のＨＬＡ型を構成する対立遺伝子として同定することと；ｄ）ＨＬＡ座のＨＬＡ型が、対象のＨＬＡ座のＨＬＡ型と適合する臓器、組織、又は細胞を、対象に移植することと、を含む。いくつかの実施形態では、本方法は：ａ）複数のシーケンスリードを含む、臓器、組織、又は細胞の配列データを取得することと；ｂ）ＨＬＡ座の複数のＨＬＡ対立遺伝子配列を含む参照配列に対してシーケンスリードをマッピングして、対立遺伝子候補を同定することと；ｃ）シーケンスリードとみなされる尤度が最も高い、ＨＬＡ座に対しマッピングされる対立遺伝子候補対を、対象のＨＬＡ座のＨＬＡ型を構成する対立遺伝子として同定することと；ｄ）ＨＬＡ座に、臓器、組織、又は細胞のＨＬＡ座のＨＬＡ型と適合するＨＬＡ型を有する対象に、臓器、組織、又は細胞を移植することと、を含む。

いくつかの実施形態では、工程ｂ）は、工程：ｉ）参照配列に対してシーケンスリードをマッピングする工程であって、この参照配列が、ヒトゲノム配列及びＨＬＡ座の複数のＨＬＡ対立遺伝子配列を含む、マッピングする工程と；ｉｉ）最も多数のシーケンスリードに対してマッピングされるＨＬＡ対立遺伝子を、対立遺伝子候補の第１のセットとして同定する工程と；ｉｉｉ）対立遺伝子候補の第１のセットに対してマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされたＨＬＡ対立遺伝子を、対立遺伝子候補の第２のセットとして同定する工程と；ｉｖ）ＨＬＡ座に対してマッピングされるシーケンスリードの９０％未満が、対立遺伝子候補の第１のセット又は第２のセットの対立遺伝子に対してマッピングされる場合に、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされたリードを除外し、シーケンスリードが最も多数マッピングされたＨＬＡ対立遺伝子を、対立遺伝子候補の第３のセットとして同定する工程と、を包含する。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子候補の第３のセットは、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされたＨＬＡの対立遺伝子に対しマッピングされるシーケンスリードの数が、ＨＬＡ座に対しマッピングされるシーケンスリードの総数の少なくとも１０％を構成する場合にのみ同定される。

いくつかの実施形態では、工程ｂ）は、工程：ｉ）低ストリンジェンシーにて、シーケンスリードを参照配列に対してマッピングする工程であって、この参照配列が、ヒトゲノム配列と、ＨＬＡ座の複数のＨＬＡ対立遺伝子配列とを含む、マッピングする工程と；ｉｉ）少なくとも１つの対立遺伝子が、マッピングされる対立遺伝子の上位１０％に含まれる４桁のタンパク質ファミリーのそれぞれに由来する全ての対立遺伝子を、前もって対立遺伝子候補として同定する工程と；ｉｉｉ）高ストリンジェンシーにて、シーケンスリードを参照配列に対しマッピングする工程であって、この参照配列が、前もって候補とされた対立遺伝子を含む、マッピングする工程と；ｉｖ）シーケンスリードが最も多数マッピングされた、前もって候補とされた対立遺伝子を、対立遺伝子候補の第１のセットとして同定する工程と；ｖ）対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされた、前もって候補とされた対立遺伝子を、対立遺伝子候補の第２のセットとして同定する工程と；ｖｉ）ＨＬＡ座に対しマッピングされるシーケンスリードの９０％未満が、対立遺伝子候補の第１のセット又は第２のセットの対立遺伝子に対しマッピングされる場合に、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた、前もって候補とされた対立遺伝子を、対立遺伝子候補の第３のセットとして同定する工程と、を包含する。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子候補の第３のセットは、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされたＨＬＡの対立遺伝子に対しマッピングされるシーケンスリードの数が、ＨＬＡ座に対しマッピングされるシーケンスリードの総数の少なくとも１０％を構成する場合にのみ同定される。

いくつかの実施形態では、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対は、次のもの：ｉ）対立遺伝子候補に対しマッピングされるシーケンスリード中の各一塩基多型（ＳＮＰｓ）；及びｉｉ）対立遺伝子候補に対しマッピングされるシーケンスリード中に存在するＳＮＰｓの配列対、としてみなされる尤度が最も高い対立遺伝子候補対である。いくつかの実施形態では、シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対は、次のもの：ｉ）対立遺伝子候補に対しマッピングされるシーケンスリード中の各一塩基多型（ＳＮＰｓ）；ｉｉ）対立遺伝子候補に対しマッピングされるシーケンスリード中に存在するＳＮＰｓの配列対；及びｉｉｉ）ヒトにおける対立遺伝子候補対の頻度、としてみなされる尤度が最も高い対立遺伝子候補対である。

いくつかの実施形態では、シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対は：ｉ）対立遺伝子候補の各対に関し、ＨＬＡ座における各ＳＮＰのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、ＨＬＡ座における各ＳＮＰのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰに対しマッピングされるシーケンスリード中のそれぞれのＳＮＰに存在する配列としてみなすことができる、対数尤度スコアを求めることと；ｉｉ）対立遺伝子候補の各対に関し、ＨＬＡ座におけるＳＮＰｓの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、ＨＬＡ座におけるＳＮＰｓの各配列対についての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰｓの配列対に対しマッピングされるシーケンスリード中のＳＮＰｓの配列対に存在する配列とみなすことができ、対立遺伝子候補のうち、遺伝子型対数尤度スコア及び相対数尤度スコアの合計が最も高いものが、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対である、相対数尤度スコアを求めることと、により判定される。

いくつかの実施形態では、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対は：ｉ）対立遺伝子候補の各対に関し、ＨＬＡ座における各ＳＮＰのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、ＨＬＡ座における各ＳＮＰのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰに対しマッピングされるシーケンスリード中のそれぞれのＳＮＰに存在する配列としてみなすことができる、対数尤度スコアを求めることと；ｉｉ）対立遺伝子候補の各対に関し、ＨＬＡ座におけるＳＮＰｓの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、ＨＬＡ座におけるＳＮＰｓの各配列対についての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰｓの配列対に対しマッピングされるシーケンスリード中のＳＮＰｓの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めることと；ｉｉｉ）対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めることであって、頻度対数尤度スコアは、各対立遺伝子候補がヒト集団において存在する対数頻度の合計であり、対立遺伝子候補のうち、遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高いものが、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対である、頻度対数尤度スコアを求めることと、により判定される。

いくつかの態様では、臓器、組織、又は細胞を対象に移植して、移植片拒絶反応を予防する及び／又は移植片対宿主病を予防する方法は、ａ）複数のシーケンスリードを含む対象の配列データを取得することと；ｂ）ヒトゲノム配列と、ＨＬＡ座の複数のＨＬＡ対立遺伝子配列とを含む参照配列に対し、シーケンスリードをマッピングすることと；ｃ）最も多数のシーケンスリードをマッピングするＨＬＡ対立遺伝子を、対立遺伝子候補の第１のセットとして同定することと；ｄ）対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされたＨＬＡ対立遺伝子を、対立遺伝子候補の第２のセットとして同定することと；ｅ）ＨＬＡ座に対してマッピングされるシーケンスリードの９０％未満が、対立遺伝子候補の第１のセット又は第２のセットの対立遺伝子に対してマッピングされる場合、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされたＨＬＡ対立遺伝子を、対立遺伝子候補の第３のセットとして同定することと；ｆ）対立遺伝子候補の各対に関し、ＨＬＡ座の各ＳＮＰのそれぞれについての遺伝子型対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアは、ＨＬＡ座における各ＳＮＰのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰに対しマッピングされるシーケンスリード中のそれぞれのＳＮＰに存在する配列としてみなされ得る、遺伝子型対数尤度スコアを求めることと；ｇ）対立遺伝子候補の各対に関し、ＨＬＡ座におけるＳＮＰｓの各配列対についての相対数尤度スコアを求めることであって、各相対数尤度スコアは、ＨＬＡ座におけるＳＮＰｓの各配列対についての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰｓの配列対に対しマッピングされるシーケンスリード中のＳＮＰｓの配列対に存在する配列としてみなされ得る、相対数尤度スコアを求めることと；ｈ）対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めることであって、頻度対数尤度スコアは、各対立遺伝子候補対がヒト集団において存在する対数頻度の合計であり、対象のＨＬＡ座のＨＬＡ型は、対立遺伝子候補対のうち遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高いものである、頻度対数尤度スコアを求めることと；ｉ）ＨＬＡ座のＨＬＡ型が、対象のＨＬＡ座のＨＬＡ型と適合する臓器、組織、又は細胞を、対象に移植することと、を含む。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子候補の第３のセットは、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされたＨＬＡの対立遺伝子に対しマッピングされるシーケンスリードの数が、ＨＬＡ座に対しマッピングされるシーケンスリードの総数の少なくとも１０％を構成する場合にのみ同定される。

いくつかの実施形態では、臓器、組織、又は細胞を対象に移植して、移植片拒絶反応を予防する及び／又は移植片対宿主病を予防する方法は、ａ）複数のシーケンスリードを含む臓器、組織、又は細胞の配列データを取得することと；ｂ）ヒトゲノム配列と、ＨＬＡ座の複数のＨＬＡ対立遺伝子配列とを含む参照配列に対し、シーケンスリードをマッピングすることと；ｃ）最も多数のシーケンスリードをマッピングするＨＬＡ対立遺伝子を、対立遺伝子候補の第１のセットとして同定することと；ｄ）対立遺伝子候補の第１のセットに対しマッピングされるシーケンスリードを除外し、シーケンスリードが最も多数マッピングされたＨＬＡ対立遺伝子を、対立遺伝子候補の第２のセットとして同定することと；ｅ）ＨＬＡ座に対してマッピングされるシーケンスリードの９０％未満が、対立遺伝子候補の第１のセット又は第２のセットの対立遺伝子に対してマッピングされる場合、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされたＨＬＡ対立遺伝子を、対立遺伝子候補の第３のセットとして同定することと；ｆ）対立遺伝子候補の各対に関し、ＨＬＡ座の各ＳＮＰのそれぞれについての遺伝子型対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアは、ＨＬＡ座における各ＳＮＰのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰに対しマッピングされるシーケンスリード中のそれぞれのＳＮＰに存在する配列としてみなされ得る、遺伝子型対数尤度スコアを求めることと；ｇ）対立遺伝子候補の各対に関し、ＨＬＡ座におけるＳＮＰｓの各配列対についての相対数尤度スコアを求めることであって、各相対数尤度スコアは、ＨＬＡ座におけるＳＮＰｓの各配列対についての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰｓの配列対に対しマッピングされるシーケンスリード中のＳＮＰｓの配列対に存在する配列としてみなされ得る、相対数尤度スコアを求めることと；ｈ）対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めることであって、頻度対数尤度スコアは、各対立遺伝子候補対がヒト集団において存在する対数頻度の合計であり、対象のＨＬＡ座のＨＬＡ型は、対立遺伝子候補対のうち遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高いものである、頻度対数尤度スコアを求めることと；ｉ）ＨＬＡ座に、臓器、組織、又は細胞のＨＬＡ座のＨＬＡ型と適合するＨＬＡを有する対象に、臓器、組織、又は細胞を移植することと、を含む。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。いくつかの実施形態では、対立遺伝子候補の第３のセットは、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされたＨＬＡの対立遺伝子に対しマッピングされるシーケンスリードの数が、ＨＬＡ座に対しマッピングされるシーケンスリードの総数の少なくとも１０％を構成する場合にのみ同定される。

本明細書で提供される方法のいくつかの実施形態において、配列データは、ゲノムワイドな配列決定データである。いくつかの実施形態では、ゲノムワイドな配列決定データは、トランスクリプトーム配列決定データ、全エクソーム配列決定データ、又は全ゲノム配列決定データである。いくつかの実施形態では、配列データのカバレッジは、６０倍、５０倍、４０倍、３０倍、２０倍、又は１５倍未満である。いくつかの実施形態では、シーケンスリードの平均長は、１００、９０、８０、７０、６０、５０、４５、４０、又は３５塩基未満である。

本明細書において提供される方法のある種の実施形態において、参照配列は、ヒトゲノム配列を更に含む。いくつかの実施形態では、ゲノム配列中のＨＬＡ座の配列は除去又はマスクされている。いくつかの実施形態では、ヒトゲノム配列はＧＲＣｈ３７／ｈｇ１９である。

いくつかの実施形態では、本明細書に記載の方法は、サンプルに対してゲノムワイドな配列決定プロセスを実行して、配列データを生成する工程を包含する。いくつかの実施形態では、本明細書に記載の方法は、ＨＬＡ座の核酸配列を含む増幅産物を産生する核酸増幅プロセスを実施することと、増幅産物に対し配列決定プロセスを実施することと、を包含する。

本明細書において提供される方法のいくつかの実施形態では、臓器、組織、又は細胞は、皮膚、骨、心臓弁、心臓、肺、腎臓、肝臓、膵臓、腸、胃、精巣、又はこれらの部分を含む。いくつかの実施形態では、臓器、組織、又は細胞は、骨髄、造血幹細胞、又は成体幹細胞を含む。

１つ以上の実施形態に従う方法例を示すワークフローダイアグラムである。方法の各工程には、Ｂｏｗｔｉｅ２により、それぞれの対立遺伝子のゲノム配列により置換されたＨＬＡ座を有するヒトゲノムに対するリード配列をマッピングする工程（Ｉ）、マッピングされたリード配列数をもとに、対立遺伝子候補のうち上位のものを選別する工程（ＩＩ〜ＩＶ）、及び選択された、対立遺伝子候補対の全てに関し、対数尤度を評点する工程（Ｖ）、を含む。リード長、カバレッジ、及び配列決定プロトコルがＨＬＡタイピングの精度に及ぼす影響を示すグラフである。このプロットは、ＨａｐＭａｐＲＮＡｓｅｑ（リード長３７ｂｐ）、ゲノムＷＸＳ（長さ１００ｂｐ）、及びＨａｐＭａｐＷＸＳ（リード長１０１ｂｐ）のデータセットをもとにしたサンプルを含む。入力データをペアエンド（黒丸及び実線）及びシングルエンド（白丸及び破線）として扱う予測の確度が例示される。これらのシンボルは、ＨＬＡ座のカバレッジをもとにビン化した、４桁のサンプルの平均確度を表すものであり、ばらつきを示すエラーバーを付している。マッピング後のカバレッジは、対立遺伝子候補に対し準最適なリード、あるいはアラインメントしないリードを除外し、主要なクラスＩ及びＩＩＨＬＡ座のＣＤＳ領域に関し算出したものである。シンボルの傾向を示すため、スプライン補間により、なめらかな線を作成した。ＨａｐＭａｐＲＮＡｓｅｑ、１０００ＧｅｎｏｍｅＷＸＳ、ＨａｐＭａｐＷＸＳ、及びＴａｒｇｅｔｅｄａｍｐｌｉｃｏｎｓｅｑのデータセットにおける、ＰＨＬＡＴ、ＨＬＡｍｉｎｅｒ、ＨＬＡｆｏｒｅｓｔ、ｓｅｑ２ＨＬＡの予測確度を示す表である。^*ＨａｐＭａｐのＲＮＡ配列データセットにはＨＬＡｍｉｎｅｒのリードアラインメントモードを用い、その他の全てのデータセットにはコンティグアセンブリモードを用いた。^‡全てのデータセットにおいて、ｓｅｑ２ＨＬＡで予測される確度を算出するとき、ｓｅｑ２ＨＬＡでは、これまでに報告されているとおりｐ値の閾値０．１を設定した場合よりも偽陰性が低い（そのため、確度が高い）ことから、ｐ値の閾値は用いなかった。^#この値は刊行物に既報のものであった。ＨＬＡタイピング用にＨＬＡ配列データを生成するために実施例３で用いた、目的増幅産物の配列決定ストラテジーを示す、概略図である。ＨＬＡタイピング用にＨＬＡ配列データを生成するために実施例３で用いた、目的増幅産物の配列決定ストラテジーにおいて使用したプライマーを示す、表である。ＨＬＡ−ＤＱＡ１（左側のパネル）及びＨＬＡ−ＤＱＢ１（右側のパネル）遺伝子座において誤って同定された対立遺伝子のタイプ（ｘ軸）及び数（ｙ軸）を示す柱状図であり、ＨａｐＭａｐＲＮＡｓｅｑ、１０００ＧｅｎｏｍｅＷＸＳ、及びＨａｐＭａｐＷＸＳのデータセットを要約している。１つの典型的な試料においてマッピングしたリードを示す図である。ここでは、ＨＬＡ−ＤＱＡ１^*０３：０１の対立遺伝子が、ＨＬＡ−ＤＱＡ１^*０３：０３の対立遺伝子であるとして誤って分類されている。マッピングしたリードでは、２つの対立遺伝子を区別する１箇所のＳＮＰ部分（ｃｈｒ６：３２６０９９６５，２本の垂直な破線間でハイライトした）周辺を示す。パネルの下には、ＨＬＡ−ＤＱＡ１遺伝子のｈｇ１９参照配列を示す。ハイライトしたＳＮＰにおける、Ａ、Ｃ、Ｇ、Ｔ塩基のパイルアップカウント数は、それぞれ１４１、１１７、０、及び０であった。クエリーとして示すＨＬＡ−ＤＱＡ１^*０３：０３対立遺伝子の１３５塩基断片と、ヒトゲノムｈｇ１９中のＨＬＡ−ＤＱＡ２参照配列とのアライメントを示す図である。クエリー配列は、ミスマッチ部分のみを示して、水平な棒図として簡略化した。ｄｂＳＮＰの記録が存在するミスマッチ部分には、赤色の垂直なマーカーを付し、関連する同定番号（例えば、ｒｓ６２６１９９４５）により標識した。主要な塩基配列及び代替的な塩基配列を丸括弧に示す。ＤＱＡ１^*０３：０１対立遺伝子とＤＱＡ１^*０３：０３対立遺伝子とで異なるＳＮＰのアライメントを枠線で囲んだ。１つ以上の実施形態に従うプロセス例を示すフローチャートである。１つ以上の実施形態に従うプロセス例を示すフローチャートである。

汎論
本明細書では、いくつかの態様において、遺伝子座（例えば、高度多型遺伝子座）に存在する対立遺伝子を正確に判定するプロセスが提供される。いくつかの実施形態では、本方法は、ＰＡＴ（ＰｒｅｃｉｓｅＡｌｌｅｌｅＴｙｐｉｎｇ）又はＰＨＬＡＴ（ＰｒｅｃｉｓｅＨＬＡＴｙｐｉｎｇ）と呼ばれる。用語「ＰＨＬＡＴ」及び「ＰＡＴ」は、本明細書において互換可能に使用される。ＰＡＴプロセスは、ＨＬＡ座、ＢＧＡ座、及びＨＶ座などの高度多型遺伝子座を含む、何らかの遺伝子座に存在する、対立遺伝子の同定に広く使用可能である。ＰＡＴプロセスのある種の実施形態は、例えば、臓器移植、個別化医療、診断学、法医学、及び人類学などの多様な用途に有用である。例えば、ＰＡＴプロセスの実施形態は、臓器拒絶反応及び移植片対宿主病の予防、疾患感受性の判定、ワクチン投与計画の最適化、治療有効性の予測、並びに地域的及び又は民族的起源の特定のために使用できる。

いくつかの実施形態では、ＰＡＴプロセスは、ＨＬＡ座のＨＬＡ型を判定するのに使用される。ＰＡＴプロセスにより、多様な配列決定データ、更には、リード長の短い及び／又は配列カバレッジの低い配列決定データを利用した正確な４桁及び２桁のＨＬＡタイピングが可能となる。正確なＨＬＡ型は、全ゲノムワイドの配列決定法（例えば、トランスクリプトーム配列決定、全エクソーム配列決定、及び全ゲノム配列決定）、並びにＨＬＡ特異的配列決定法（例えば、ＨＬＡ座の核酸を増幅した後、得られた増幅産物を配列決定するもの）などといった、多くの異なる配列決定法を用い生成した配列データデータをもとに、予測することができる。

例えば、適合する又は部分的に適合するＨＬＡ型を有するドナー及びレシピエント間の細胞、臓器、又は組織の移植を容易にするため、ＰＡＴプロセスを使用することができる。いくつかの実施形態では、ＰＡＴプロセスは、狼瘡、炎症性腸疾患、多発性硬化症、関節炎及びＩ型糖尿病などの免疫原性の疾患、並びに乳がん又は子宮頸癌などの癌などといった、特定の疾患又は状態に関して予め診断のついた個体の処置を、特定及び／又は促進するために使用される。いくつかの実施形態では、ＰＡＴプロセスは、腫瘍免疫療法及び／又はがんワクチン療法を用意にするために使用される。ある種の実施形態では、ＰＡＴプロセスは、対象又は試料の地域的及び／又は民族的起源を特定するために使用される。

ある種の実施形態では、ＰＡＴプロセスは、２つのパート：１）遺伝子座について可能性のある対立遺伝子から対立遺伝子候補を選別するパート；及び２）対立遺伝子候補対を順位付けして、対立遺伝子候補対の中から、その遺伝子座の対立遺伝子対として最も尤度の高いものを同定するパート、を含む。いくつかの実施形態では、対立遺伝子候補は、リードカウントをもとに選択される。いくつかの実施形態では、対立遺伝子候補対は、観察されたデータをそれぞれの対立遺伝子対とみなすことのできる尤度をもとに順位付けされる。いくつかの実施形態では、最も尤度の高い対立遺伝子は、各位置における配列一致度及び連続する位置間の相一致度の両方をもとに判定される。いくつかの実施形態では、ヒト集団における対立遺伝子の頻度も、対立遺伝子対を順位付けする際の因子とされる。図７及び図８には、１つ以上の実施形態に従うＰＡＴプロセスの例を示す、フローチャートを提供する。

いくつかの実施形態では、本明細書に記載の方法は、メジャー又はマイナーなＨＬＡ座のＨＬＡ型を判定するために使用できる。いくつかの実施形態では、ＨＬＡ座はクラスＩＨＬＡ座である。いくつかの実施形態では、ＨＬＡ座は、ＨＬＡ−Ａ座、ＨＬＡ−Ｂ座、又はＨＬＡ−Ｃ座である。いくつかの実施形態では、ＨＬＡ座はクラスＩＩＨＬＡ座である。いくつかの実施形態では、ＨＬＡ座は、ＨＬＡ−ＤＱＡ１座、ＨＬＡ−ＤＱＢ１座、ＨＬＡ−ＤＲＡ座、ＨＬＡ−ＤＲＢ１座、ＨＬＡ−ＤＲＢ３座、ＨＬＡ−ＤＲＢ４座、ＨＬＡ−ＤＲＢ５座、ＨＬＡ−ＤＰＡ１座、又はＨＬＡ−ＤＰＢ１座である。いくつかの実施形態では、ＨＬＡ座は、マイナーなＨＬＡ座である。ＨＬＡの対立遺伝子の配列は当該技術分野で既知である。例えば、ＨＬＡの対立遺伝子のゲノム配列及びＤＮＡのコード配列（ＣＤＳ）は、ＩＭＧＴ（リリース３．８．０）から得ることができる。

いくつかの実施形態では、本明細書に記載の方法は、ＨＶ座［例えば、超可変領域１（ＨＶ１）遺伝子座、又は超可変領域２（ＨＶ２）遺伝子座］などの、ミトコンドリアＤＮＡの遺伝子領域の遺伝子型を判定するために使用される。二倍体であるため、各遺伝子座のコピーを２つずつ有する核ＤＮＡとは異なり、ミトコンドリアＤＮＡは一倍体であるため、理論上、遺伝子座のコピーを１つのみ含有することになる。しかしながら、ミトコンドリアＤＮＡにおいて、遺伝子座はしばしば重複している。したがって、ミトコンドリアＤＮＡは、遺伝子座のコピーを、１つ、２つ、又は複数含有する可能性がある。したがって、本明細書に記載の方法をミトコンドリアＤＮＡ（又は生殖系細胞のゲノム、ウイルスゲノム、又は細菌ゲノムなどといったハプロイドゲノムによりコードされる何らかの遺伝子座）に応用するとき、対立遺伝子対として同定されるのではなく、１つ以上の対立遺伝子が遺伝子座に存在するものとして同定され得る。ＨＶの対立遺伝子の配列は当該技術分野で既知である。ＨＶ対立遺伝子配列は、例えば、参照によりその全体が本願に援用されるＫｏｈｌｅｔａｌ，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ３４：Ｄ７００−Ｄ７０４（２００６）に記載のとおり、ＨｖｒＢａｓｅ＋＋データベース（ｈｔｔｐ：／／ｗｗｗ．ｈｖｒｂａｓｅ．ｏｒｇ）に見ることができる。

いくつかの実施形態では、本明細書に記載の方法は、ＢＧＡ座に存在する対立遺伝子を判定するために使用される。ＢＧＡ座の例としては、ＡＢＯ座及びＲｈ座が挙げられる。ＢＧＡ座の対立遺伝子の配列は当該技術分野で既知である。例えば、ＢＧＡ座配列は、参照によりその全体が本願に援用されるＰａｔｎａｉｋｅｔａｌ，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ４０：Ｄ１０２３〜Ｄ１０２９（２０１２）に記載のとおり、ＮＣＢＥ血液型抗原遺伝子変異データベース（ｈｔｔｐ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｒｏｊｅｃｔｓ／ｇｖ／ｒｂｃ／ｘｓｌｃｇｉ．ｆｃｇｉ？ｃｍｄ＝ｂｇｍｕｔ）から得ることができる。

ある種の実施形態では、本明細書に記載のプロセスは、コンピュータに実装される。プロセスは、ソフトウェア、ハードウェア、ファームウェア、又はこれらを任意に組み合わせたものに実装することができる。プロセスは、好ましくは、少なくとも１つのプロセッサ、プロセッサにより読み取り可能な記憶媒体（例えば、揮発性及び不揮発性メモリ、及び／又は記憶エレメント）、並びに入力及び出力装置を含む、プログラム可能なコンピュータシステムで実行される、１つ以上のコンピュータプログラムに実装される。コンピュータシステムは、１つ以上の物理的マシン、又は１つ以上の物理的マシン上を走る仮想マシンを含み得る。更に、コンピュータシステムは、コンピュータ・クラスター、又はインターネット又はその他のネットワークにより接続された数多くの分散したコンピュータを含み得る。

それぞれのコンピュータプログラムは、命令又はコンピュータシステムのランダムアクセスメモリに存在するコードモジュール中のプログラムコードのセットとすることができる。コンピュータシステムにより必要とされるまでの間、別のコンピュータメモリ（例えば、ハードディスクドライブに、又は光学ディスク、外部ハードドライブ、メモリーカード、若しくはフラッシュディスクなどのリムーバブルメモリに）、あるいは別のコンピュータシステムに命令のセットを格納し、インターネット又はその他のネットワークを介しダウンロードすることもできる。それぞれのコンピュータプログラムは、例えば、Ｐｙｔｈｏｎなどの様々なコンピュータプログラミング言語で実装することができる。

配列決定データ
ある種の実施形態では、本明細書において開示される方法は、配列データを取得又は受信する工程（例えば、図７及び図８の工程１０）を含む。いくつかの実施形態では、配列データは、任意の方法により取得又は受信することができる。例えば、配列データは、サンプルに対し配列決定プロセスを実施することにより直接得ることができる。あるいは、配列データは、例えば、サードパーティー、データベース、及び／又は出版物から間接的に得ることができる。いくつかの実施形態では、配列データは、例えば、データ格納デバイス又は別のコンピュータシステムから、コンピュータシステムに受信される。

本明細書に記載の方法は、広範な配列データを用い、遺伝子座に存在する対立遺伝子（例えば、遺伝子座のＨＬＡ型）を正確に予測することができる。例えば、いくつかの実施形態では、配列データはゲノムワイドの配列決定データである。いくつかの実施形態では、配列データは、トランスクリプトームの配列決定データである。いくつかの実施形態では、配列データは、全エクソームの配列決定データである。いくつかの実施形態では、配列決定データは、全ゲノムの配列決定データである。いくつかの実施形態では、配列データは、遺伝子座をコードする配列データに富んだものである。いくつかの実施形態では、配列データは、ＲＮＡ配列のデータである。いくつかの実施形態では、配列データは、ＤＮＡ配列のデータである。

いくつかの実施形態では、配列データは、複数のシーケンスリードを含む。いくつかの実施形態では、シーケンスリードの平均リード長は、３５、３６、３７、３８、３９、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、１００、１２５、１５０、１７５、２００、２５０、３００、４００、５００、６００、７００、８００、９００、又は１０００塩基未満である。いくつかの実施形態では、シーケンスリードの平均リード長は、少なくとも３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、１００、１２５、１５０、１７５、２００、又は２５０塩基である。いくつかの実施形態では、シーケンスリードのカバレッジは、１００ｘ、９０ｘ、８０ｘ、７０ｘ、６０ｘ、５０ｘ、４０ｘ、３０ｘ、又は２０ｘ未満である。いくつかの実施形態では、シーケンスリードのカバレッジは、少なくとも５０ｘ、４５ｘ、４０ｘ、３５ｘ、３０ｘ、２５ｘ、２０ｘ、１９ｘ、１８ｘ、１７ｘ、１６ｘ、１５ｘ、１４ｘ、１３ｘ、１２ｘ、１１ｘ、又は１０ｘである。

いくつかの実施形態では、配列データは、当該技術分野で既知である任意の配列決定法により生成することができる。例えば、いくつかの実施形態では、配列決定データは、鎖末端からの配列決定（chain termination sequencing）、ライゲーションによる配列決定、合成による配列決定、パイロシーケンス、イオン半導体による配列決定、一分子リアルタイム配列決定、ｄｉｌｕｔｅ−‘ｎ’−ｇｏｓｅｑｕｅｎｃｉｎｇ及び／又は４５４ｓｅｑｕｅｎｃｉｎｇを用い生成する。

いくつかの実施形態では、配列データは、核酸増幅プロセスを行い１つ以上のゲノム座又は転写物を少なくとも部分的に増幅し、得られた増幅産物を配列決定するプロセスにより得られたものである。本明細書に開示される方法を実施するのに有用な核酸増幅プロセスの例としては、ポリメラーゼ連鎖反応（ＰＣＲ）、ＬＡＴＥ−ＰＣＲ、リガーゼ連鎖反応（ＬＣＲ）、鎖置換型増幅法（ｓｔｒａｎｄｄｉｓｐｌａｃｅｍｅｎｔａｍｐｌｉｆｉｃａｔｉｏｎ，ＳＤＡ）、転写増幅法（ＴＭＡ）、自家持続配列複製（ｓｅｌｆ−ｓｕｓｔａｉｎｅｄｓｅｑｕｅｎｃｅｒｅｐｌｉｃａｔｉｏｎ，３ＳＲ）、Ｑβ複製遺伝子による増幅法、核酸配列ベースの増幅法（ＮＡＳＢＡ）、修復鎖反応（ｒｅｐａｉｒｃｈａｉｎｒｅａｃｔｉｏｎ，ＲＣＲ）、ブーメラン型ＤＮＡ増幅法（ｂｏｏｍｅｒａｎｇＤＮＡａｍｐｌｉｆｉｃａｔｉｏｎ，ＢＤＡ）、及び／又はローリングサークル型増幅法（ＲＣＡ）が挙げられるがこれらに限定されない。

いくつかの実施形態では、試料に対して配列決定プロセスを実施する工程が含まれる。ＤＮＡ及び／又はＲＮＡを含有するサンプル（例えば、ＨＬＡ分子をコードするＤＮＡ又はＲＮＡ）であるならば、どのような試料でも用いることができる。いくつかの実施形態では、サンプルは、臓器、細胞、又は組織のドナーとして見込まれる対象に由来するものである。いくつかの実施形態では、臓器、細胞、又は組織のレシピエントとして見込まれる対象に由来するものである。試料の供給源は、例えば、新鮮、凍結、及び／又は保存臓器、組織試料、生検、又は吸引液に由来するものなどの固形組織；血液又は何らかの血液成分、血清、血液；脳脊髄液、羊水、腹水、又は間質液、尿、唾液、糞便、涙などの体液；あるいは、対象の妊娠又は発育の任意の時点の細胞、とすることができる。

いくつかの実施形態では、当該技術分野で利用可能な任意の配列決定法が実施される。いくつかの実施形態では、配列決定は、鎖末端からの配列決定（chain termination sequencing）、ライゲーションによる配列決定、合成による配列決定、パイロシーケンス、イオン半導体による配列決定、一分子リアルタイム配列決定、ｄｉｌｕｔｅ−‘ｎ’−ｇｏｓｅｑｕｅｎｃｉｎｇ及び／又は４５４ｓｅｑｕｅｎｃｉｎｇを用い生成する。いくつかの実施形態では、１つ以上のゲノム座又は転写物を少なくとも部分的に増幅し（例えば、ＨＬＡゲノム座又は転写物）、得られた増幅産物を配列決定するために、核酸増幅プロセスが実施される。いくつかの実施形態では、実施される核酸増幅法は、ポリメラーゼ連鎖反応（ＰＣＲ）、ＬＡＴＥ−ＰＣＲ、リガーゼ連鎖反応（ＬＣＲ）、鎖置換型増幅法（ｓｔｒａｎｄｄｉｓｐｌａｃｅｍｅｎｔａｍｐｌｉｆｉｃａｔｉｏｎ，ＳＤＡ）、転写増幅法（ＴＭＡ）、自家持続配列複製（ｓｅｌｆ−ｓｕｓｔａｉｎｅｄｓｅｑｕｅｎｃｅｒｅｐｌｉｃａｔｉｏｎ，３ＳＲ）、Ｑβ複製遺伝子による増幅法、核酸配列ベースの増幅法（ＮＡＳＢＡ）、修復鎖反応（ｒｅｐａｉｒｃｈａｉｎｒｅａｃｔｉｏｎ，ＲＣＲ）、ブーメラン型ＤＮＡ増幅法（ｂｏｏｍｅｒａｎｇＤＮＡａｍｐｌｉｆｉｃａｔｉｏｎ，ＢＤＡ）、及び／又はローリングサークル型増幅法（ＲＣＡ）である。

対立遺伝子候補の選別
いくつかの実施形態では、本明細書に開示される方法は、対立遺伝子候補を選別する工程を含む（例えば、図７の工程２０及び３０、並びに図８の工程２０、３２、３４、及び３６）。いくつかの実施形態では、対立遺伝子候補の選別は、シーケンスリードを参照配列に対してマッピングした後、リードをカウントする一連の工程により実施される。このマッピングプロセスは、任意の利用可能な配列マッピングソフトウェアを用い実施することができる。ある種の実施形態では、Ｂｏｗｔｉｅ２が使用される。いくつかの実施形態では、Ｂｏｗｔｉｅ２のマッピングパラメーターは、ｅｎｄ−ｔｏ−ｅｎｄｍｏｄｅにてｖｅｒｙ−ｓｅｎｓｉｔｉｖｅ（すなわち、−Ｄ２０−Ｒ３−Ｎ０−Ｌ２０−ＩＳ，１，０．５０）に設定される。いくつかの実施形態では、参照配列は、ＨＬＡの対立遺伝子（例えば、人工染色体）などの対立遺伝子を複数含む。いくつかの実施形態では、参照配列は、ヒトゲノム配列（例えば、ＧＲＣｈ３７／ｈｇ１９）を更に含む。いくつかの実施形態では、ヒトゲノム配列中の１つ以上の遺伝子座（例えば、ＨＬＡ座）は、参照配列から除外又はマスクされる（例えば、遺伝子座の配列をＮｓで置き換えられる）。

参照配列に含まれる対立遺伝子は、対立遺伝子配列のいかなる供給源からも得ることができる。例えば、参照配列にＨＬＡの対立遺伝子が含まれる場合、ＩＭＧＴ（リリース３．８．０）から対立遺伝子のゲノム配列及びコードしているＤＮＡの配列（ＣＤＳ）を得て、ｈｕｍａｎｇｅｎｏｍｅｂｕｉｌｄ３７．１（ｈｇ１９）上の座標にマッピングすることができる。いくつかの実施形態では、対立遺伝子の転写開始領域から終止コドンまでのゲノム配列を参照配列に含める。参照対立遺伝子のゲノム配列を非コード領域に挿入することにより、ＣＤＳのみでゲノムレコードを有さない対立遺伝子を使用することができる（例えば、ｈｇ１９ゲノムの対応する遺伝子座由来の配列）。理論に束縛されるものではないが、非コード領域における多型はタンパク質レベルのＨＬＡ型を変化させないことから、非コード配列のゲノム配列の補完は、ＨＬＡタイピングにほとんどあるいは全く影響を及ぼさない。

いくつかの実施形態では、対立遺伝子候補の選別前に、低ストリンジェンシーにて、配列リードを参照配列に対してマッピングして、候補とされる対立遺伝子を前もって選別する。いくつかの実施形態では、対立遺伝子候補のおおまかな予選別には、リードカウントの上位分位数の閾値（例えば、上位９５パーセンタイル、９０パーセンタイル、８５パーセンタイル、８０パーセンタイル、７５パーセンタイル、７０パーセンタイル、６５パーセンタイル、６０パーセンタイル、５５パーセンタイル、又は５０パーセンタイル）を利用する。いくつかの実施形態では、上位分位数の閾値は、上位９０パーセンタイルである。いくつかの実施形態では、上位分位数の閾値は、上位７０パーセンタイルである。いくつかの実施形態では、遺伝子座に多数の対立遺伝子が存在する場合（例えば、対立遺伝子が少なくとも２００、３００、４００、５００、６００、７００、８００、９００、又は１０００個存在する場合）、上位分位数は、上位９０パーセンタイルであるものの、遺伝子座に存在する対立遺伝子が少数である場合（例えば、対立遺伝子が２００、３００、４００、５００、６００、７００、８００、９００、又は１０００個未満である場合）、上位分位数の閾値は、上位７０パーセンタイルである。いくつかの実施形態では、タンパク質（４桁）ファミリーに由来する全ての対立遺伝子は、ファミリーの少なくとも１つのメンバーが閾値内にあるならば、保持される。ある種の実施形態では、少なくとも１つの対立遺伝子が、マッピングした対立遺伝子の上位５％、１０％、１５％、２０％、２５％、又は３０％に該当している、４桁の各タンパク質ファミリーに由来する全ての対立遺伝子が、候補とされる対立遺伝子として前もって選別される。いくつかの実施形態では、マッピングした対立遺伝子の上位１０％が選別される。いくつかの実施形態では、マッピングした対立遺伝子の上位３０％が選別される。いくつかの実施形態では、遺伝子座に多数の対立遺伝子が存在する場合（例えば、対立遺伝子が少なくとも２００、３００、４００、５００、６００、７００、８００、９００、又は１０００個存在する場合）、マッピングした対立遺伝子の上位１０％が選別されるものの、遺伝子座に存在する対立遺伝子が少数である場合（例えば、対立遺伝子が２００、３００、４００、５００、６００、７００、８００、９００、又は１０００個未満である場合）、マッピングした対立遺伝子の上位３０％が選別される。いくつかの実施形態では、前もって候補とされる対立遺伝子のみが、以降の、候補を選別するプロセスに含められる。いくつかの実施形態では、参照配列における全ての対立遺伝子が、以降の、候補を選別するプロセスに含められる。予め選別するプロセスの実施例を、図１の工程Ｉ及びＩＩに例示する。

いくつかの実施形態では、保持させた対立遺伝子に対しマッピングしたリード数は、ストリンジェントの基準を用い算出される。例えば、いくつかの実施形態では、リードは、リードによりカバーされた対応する遺伝子座内のＳＮＰ領域に対する配列同一性をもとに判定された、最良に一致する対立遺伝子（あるいは同点である場合には複数の対立遺伝子）についてのみ算出される。いくつかの実施形態では、リードをカウントするのに、少なくとも９９％の配列同一性が必要とされる。いくつかの実施形態では、遺伝子座毎のＳＮＰｓは、その遺伝子座に保持される対立遺伝子の多型部位である。いくつかの実施形態では、いずれかの保持される対立遺伝子中の挿入欠失（挿入又は欠失）と一致する部位は除外される。このマッピングプロセスの実施例を、図Ｉの工程ＩＩＩに示す。

ある種の実施形態では、対立遺伝子候補は、リードをカウントする一連の工程（例えば、図８の工程３２、３４、及び３６）を用い選別される。いくつかの実施形態では、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第１のセットとして同定する。いくつかの実施形態では、対立遺伝子候補の第１のセットに対しマッピングされたシーケンスリードを除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第２のセットとして同定する。いくつかの実施形態では、遺伝子座に対しマッピングされるシーケンスリードの９５％、９０％、８５％、又は８０％未満が、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされる場合に、対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされたリードは除き、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第３のセットとして同定する。いくつかの実施形態では、同定される対立遺伝子は、一群のタンパク質のものから選択される。

対立遺伝子候補の選別プロセスの実施例を、図１の工程ＩＶに示す。この実施形態では、対立遺伝子は、最初にリードカウントの高いものから低いものへとソートする（図１では、レベル０としている）。リードカウントの最も大きい対立遺伝子（又は同点である場合には複数の対立遺伝子）を選別し、候補として格納する。次に、それまでに選別された対立遺伝子に共有されているリードは除き、残りの対立遺伝子においてリードカウントを調節する。調節したリードカウントは降順にソートし（図１中の順位ではレベル１としている）、新しい上位の対立遺伝子（又は同点である場合には複数の対立遺伝子）を対立遺伝子候補として選別する。上位の対立遺伝子とは異なるリードを無視できない数で保持している場合、リードマッピング及びカウントの不確実性を許容するため、レベル０にて上から２番目に順位した対立遺伝子からの対立遺伝子を、対立遺伝子候補として含める。例えば、いくつかの実施形態では、レベル０のランキングに選別された対立遺伝子に対しマッピングされたリードを除外した後、２番目に多数のシーケンスリードがマッピングする対立遺伝子が、レベル０の順位付けされた対立遺伝子に対しマッピングされたシーケンスリード数の少なくとも１％の配列リード数を保持している場合、対立遺伝子候補の第１のセットに対しマッピングしたシーケンスリードを除外する前に、２番目に多数のシーケンスリードがマッピングする対立遺伝子をレベル１のランキングに含める。レベル０及びレベル１のランキングから選別された対立遺伝子が、遺伝子座に対しマッピングされた対立遺伝子の９０％未満であるとみなされる場合、リード数をカウントする手順を繰り返し（図１中では、レベル２のランキングとしている）、遺伝子座にマッピングするシーケンスリードのうち少なくとも１０％が新しい上位の対立遺伝子又は新しい上位の複数の対立遺伝子に対しマッピングされる場合、新しく上位となった対立遺伝子（あるいは同点である場合には複数の対立遺伝子）を対立遺伝子候補に含める。

いくつかの実施形態では、以下の基準が満たされる場合、遺伝子座はホモ接合（すなわち、同じ対立遺伝子を含有する遺伝子座のコピーの両方）であるものとして判定される：レベル０に含まれる最上位の対立遺伝子が、リードの少なくとも８０％、８５％、９０％、又は９５％を構成し、かつその他の対立遺伝子が、残りのリードの３％、４％、５％、６％、７％、８％、９％又は１０％超を構成しない。いくつかの実施形態では、遺伝子座は、以下の基準が満たされる場合、ホモ接合であるものとして判定される：レベル０に含まれる最上位の対立遺伝子が、遺伝子座に対しマッピングされるリードの少なくとも９０％を構成し、かつレベル０に含まれる最上位の対立遺伝子に対しマッピングされるリードを除くその他の対立遺伝子が、遺伝子座に対しマッピングされるリードの５％超を構成しない。

尤度順位
ある種の実施形態では、上記の候補を選別するプロセスの性能により、対立遺伝子候補及びそれらに関連するリードのみが以降の解析に含められる。いくつかの実施形態では、対立遺伝子候補には、対立遺伝子候補の全ての組み合わせ（同じ対立遺伝子とのペア形成を含む）の対組み合わせ評価を行い、その遺伝子座に存在する尤度の最も高いペア（例えば、ＨＬＡ型を肯定する尤度の最も高いペア）を発見する。このプロセスの態様の例を、図７の工程４０、及び図９の工程４２、４４、及び４６に示す。

いくつかの実施形態では、本明細書において提供される方法には、対立遺伝子候補対を同定する工程であって、その対立遺伝子が遺伝子座に存在する尤度の最も高いものである、同定する工程、が含まれる。いくつかの実施形態では、同定された、対立遺伝子候補対は、遺伝子座に対しマッピングされるシーケンスリードの配列とみなされる尤度が最も高い遺伝子対である。いくつかの実施形態では、同定された、対立遺伝子候補対は：１）対立遺伝子候補に対しマッピングされるシーケンスリード中の各一塩基多型（ＳＮＰｓ）；及び２）対立遺伝子候補に対しマッピングされるシーケンスリード中に存在するＳＮＰｓの配列対；とみなされる尤度が最も高い対立遺伝子対である。いくつかの実施形態では、同定された、対立遺伝子候補対は：１）対立遺伝子候補に対しマッピングされるシーケンスリード中の各一塩基多型（ＳＮＰｓ）；２）対立遺伝子候補に対しマッピングされるシーケンスリード中に存在するＳＮＰｓの配列対；及び３）ヒトにおける対立遺伝子候補対の頻度；とみなされる尤度が最も高い対立遺伝子対である。

いくつかの実施形態では、対立遺伝子候補に対しマッピングされるシーケンスリードの配列としてみなされる尤度の最も高い対立遺伝子候補対は、１）対立遺伝子候補の各対に関し、遺伝子座における各ＳＮＰのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、遺伝子座における各ＳＮＰのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰに対しマッピングされるシーケンスリード中のそれぞれのＳＮＰに存在する配列としてみなすことができる、対数尤度スコアを求めることと；２）対立遺伝子候補の各対に関し、遺伝子座におけるＳＮＰｓの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、遺伝子座におけるＳＮＰｓの各配列対についての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰｓの配列対に対しマッピングされるシーケンスリード中のＳＮＰｓの配列対に存在する配列とみなすことができ、対立遺伝子候補のうち、遺伝子型対数尤度スコア及び相対数尤度スコアの合計が最も高いものが、シーケンスリードとみなされる尤度が最も高い対立遺伝子候補対である、相対数尤度スコアを求めることと、により判定される。

いくつかの実施形態では、対立遺伝子候補に対しマッピングされるシーケンスリードの配列としてみなされる尤度の最も高い対立遺伝子候補対は、１）対立遺伝子候補の各対に関し、遺伝子座における各ＳＮＰのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、遺伝子座における各ＳＮＰのそれぞれについての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰに対しマッピングされるシーケンスリード中のそれぞれのＳＮＰに存在する配列としてみなすことができる、対数尤度スコアを求めることと；２）対立遺伝子候補の各対に関し、遺伝子座におけるＳＮＰｓの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、遺伝子座におけるＳＮＰｓの各配列対についての対数確率の合計であり、対立遺伝子候補対は、ＳＮＰｓの配列対に対しマッピングされるシーケンスリード中のＳＮＰｓの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めることと；３）対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めることであって、頻度対数尤度スコアは、各対立遺伝子候補がヒト集団において存在する対数頻度の合計であり、対立遺伝子候補のうち、遺伝子型対数尤度スコア、相対数尤度スコア、及び頻度対数尤度スコアの合計が最も高いものが、シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対である、頻度対数尤度スコアを求めることと、により判定される。

いくつかの実施形態では、対立遺伝子候補対のうち対数尤度スコア（ＬＬ_total）の最も高いものを、遺伝子座に存在する対立遺伝子（例えば、ＨＬＡ座のＨＬＡ型）として同定する。いくつかの実施形態では、ＬＬ_totalは、次式１に従い算出される。式１に示すとおり、それぞれの対立遺伝子対の（ＬＬ_total）は、それぞれのＳＮＰ部分に観察された遺伝子型の尤度（ＬＬ_geno）、及び複数部分に及ぶ相の尤度（ＬＬ_phase）と、ヒトにおいて対立遺伝子対の存在する確率（ＬＬ_freq）との総和である。

遺伝型尤度スコア
いくつかの実施形態では、対数尤度スコア、又は遺伝子座（ＬＬ_geno）におけるそれぞれのＳＮＰは、ベイジアンモデルに従って算出される。いくつかの実施形態では、事後対数尤度

は、条件対数尤度ｌｏｇＰ（Ｄ^t│Ｇ^t）に比例する。この条件対数尤度は、部位ｉにて対象とする対立遺伝子対の遺伝子型（Ｇ^t）を与える塩基（Ｄ^t）のパイルアップを観察する対数確率である。任意の遺伝子型について、境界より前のｌｏｇＰ（Ｇ^t）は一定であると仮定され、したがって除外される。Ｐ（Ｄ^t│Ｇ^t）は、部位ｉにて塩基ｊを観察するそれぞれの条件下での対数尤度

の算出結果である、（式２）。

ｑ_jは、塩基ｊのフレッドスコアから変換されたエラー率である。

相尤度スコア
いくつかの実施形態では、２つの隣接するＳＮＰ部位（ＬＬ_phase）に及ぶ相尤度は、上記の単一のＳＮＰ部位の遺伝子型尤度と同様にモデル化され、

は、２つの隣接するＳＮＰ部位ｉ及びｔ＋１（Ｄ^t,t+1）に及ぶ同じ鎖上の塩基対を観察する対数尤度に比例し、２つの部位（Ｇ^t,t+1）にて、対象とされる対立遺伝子対の相配列が与えられる。ここで、２つの部位にわたり、１５の可能性のあるミスマッチ（相外（out-of-phase））状態と、１つのマッチ（相内（in-phase））状態とが存在する。Ｐ（Ｄ^t,t+1│Ｈ^t,t+1）は、部位ｉ及びｔ＋１をカバーする全てのリードに由来する条件付き対数尤度の算出結果である（式Ｓ１）。ｑ_errは、相外エラー率（０．０１）である。

式３は、相内及び相外リードの数をもとに二項確率を算出することにより誘導される不均質な相配列

による対立遺伝子対の選好性の偏りを回避する。不均質な相の相内リードカウントは合計であるため、２つの均質な相

を構成する相内リードカウントよりも常に大きい。したがって、不均質な相の確率は、二項モデルにおいて対応する２つの不均質な相よりも常に高い。対照的に、本明細書に記載のベイジアンモデルは、１相が殆どを占める（結局、均質な相を示す）場合ではなく、おおまかに平衡をとった

リードについてのみ、不均質な相に好都合である。

対立遺伝子の頻度スコア
いくつかの実施形態では、ヒト集団においてそれぞれの対立遺伝子候補対が存在する対数頻度は、対立遺伝子候補対のうち最も尤度の高いものを判定するときに考慮される。主要なクラスＩ及びＩＩ遺伝子座の対立遺伝子頻度は当該技術分野で既知である。例えば、このような対立遺伝子頻度は、ＡｌｌｅｌｅＦｒｅｑｕｅｎｃｙＮｅｔからダウンロードすることができる。いくつかの実施形態では、それぞれのタンパク質（４桁）ファミリーについて、確認されている対立遺伝子からの最大頻度を用い、範囲内の全ての対立遺伝子により共有した。いくつかの実施形態では、頻度の判明していないタンパク質ファミリー（及びその対立遺伝子）のバックグラウンド値には０．０００１を割り当てた。いくつかの実施形態では、ＬＬ_freqは、２つの対立遺伝子の対数頻度の合計として計算する。

移植方法
いくつかの態様では、本明細書に記載のＨＬＡタイピング法を使用して、移植拒絶反応及び／又は移植片対宿主病の尤度を低減することができる。本明細書において、いくつかの態様では、臓器、細胞、又は組織移植を実施する方法が提供される。いくつかの実施形態では、移植方法は、本明細書に記載のＨＬＡタイピング法を実施して、臓器、組織、又は細胞の少なくとも１つのＨＬＡ座のＨＬＡ型を判定した後、臓器、組織、又は細胞をレシピエントに移植すること、を含む。いくつかの実施形態では、移植方法は、本明細書に記載のＨＬＡタイピング法を実施して、見込まれる移植レシピエントの少なくとも１つのＨＬＡ座のＨＬＡ型を判定した後、臓器、組織、又は細胞をこのレシピエントに移植すること、を含む。いくつかの実施形態では、移植方法は、本明細書に記載のＨＬＡタイピング法を実施して、臓器、組織、又は細胞の少なくとも１つのＨＬＡ座のＨＬＡ型を判定すること、並びに本明細書に記載のＨＬＡタイピング法を実施して、見込まれる移植レシピエントの少なくとも１つのＨＬＡ座のＨＬＡ型を判定した後、臓器、組織、又は細胞をレシピエントに移植すること、を含む。

本明細書において、いくつかの態様では、移植した臓器、組織、又は細胞の拒絶を予防する方法が提供される。いくつかの実施形態では、方法は、本明細書に記載のＨＬＡタイピング法を実施して、臓器、組織、又は細胞の少なくとも１つのＨＬＡ座のＨＬＡ型を判定した後、臓器、組織、又は細胞をレシピエントに移植すること、を含む。いくつかの実施形態では、方法は、本明細書に記載のＨＬＡタイピング法を実施して、見込まれる移植レシピエントの少なくとも１つのＨＬＡ座のＨＬＡ型を判定した後、臓器、組織、又は細胞をこのレシピエントに移植すること、を含む。いくつかの実施形態では、方法は、本明細書に記載のＨＬＡタイピング法を実施して、臓器、組織、又は細胞の少なくとも１つのＨＬＡ座のＨＬＡ型を判定すること、並びに本明細書に記載のＨＬＡタイピング法を実施して、見込まれる移植レシピエントの少なくとも１つのＨＬＡ座のＨＬＡ型を判定した後、臓器、組織、又は細胞をレシピエントに移植すること、を含む。

本明細書において、いくつかの態様では、移植片対宿主病を予防する方法が提供される。いくつかの実施形態では、方法は、本明細書に記載のＨＬＡタイピング法を実施して、臓器、組織、又は細胞の少なくとも１つのＨＬＡ座のＨＬＡ型を判定した後、臓器、組織、又は細胞をレシピエントに移植すること、を含む。いくつかの実施形態では、方法は、本明細書に記載のＨＬＡタイピング法を実施して、見込まれる移植レシピエントの少なくとも１つのＨＬＡ座のＨＬＡ型を判定した後、臓器、組織、又は細胞をこのレシピエントに移植すること、を含む。いくつかの実施形態では、方法は、本明細書に記載のＨＬＡタイピング法を実施して、臓器、組織、又は細胞の少なくとも１つのＨＬＡ座のＨＬＡ型を判定すること、並びに本明細書に記載のＨＬＡタイピング法を実施して、見込まれる移植レシピエントの少なくとも１つのＨＬＡ座のＨＬＡ型を判定した後、臓器、組織、又は細胞をレシピエントに移植すること、を含む。いくつかの実施形態では、ＨＬＡ型は、２桁の解像度で判定される。いくつかの実施形態では、ＨＬＡ型は、４桁の解像度で判定される。

いくつかの実施形態では、移植の前に試験されるＨＬＡ座は、クラスＩＨＬＡ座である。いくつかの実施形態では、ＨＬＡ座は、ＨＬＡ−Ａ座、ＨＬＡ−Ｂ座、又はＨＬＡ−Ｃ座である。いくつかの実施形態では、ＨＬＡ座はクラスＩＩＨＬＡ座である。いくつかの実施形態では、ＨＬＡ座は、ＨＬＡ−ＤＱＡ１座、ＨＬＡ−ＤＱＢ１座、ＨＬＡ−ＤＲＡ座、ＨＬＡ−ＤＲＢ１座、ＨＬＡ−ＤＲＢ３座、ＨＬＡ−ＤＲＢ４座、ＨＬＡ−ＤＲＢ５座、ＨＬＡ−ＤＰＡ１座、又はＨＬＡ−ＤＰＢ１座である。いくつかの実施形態では、ＨＬＡ型は、複数のＨＬＡ座について判定される。例えば、いくつかの実施形態では、ＨＬＡ型は、少なくとも２、３、４、５、６、７、８、９、１０、１１、又は１２のＨＬＡ座について判定される。いくつかの実施形態では、ＨＬＡ型は、３つの全てのクラスＩＨＬＡ座（ＨＬＡ−Ａ、ＨＬＡ−Ｂ、及びＨＬＡ−Ｃ）について判定される。いくつかの実施形態では、ＨＬＡ型は、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、ＨＬＡ−Ｃ、ＨＬＡ−ＤＱＡ１、ＨＬＡ−ＤＱＢ１、及びＨＬＡ−ＤＲＢ１について判定される。いくつかの実施形態では、ＨＬＡ型は、ＨＬＡ−Ａ、ＨＬＡ−Ｂ、及びＨＬＡ−ＤＲＢ１について判定される。

いくつかの実施形態では、臓器、組織、又は細胞のＨＬＡタイプは、レシピエントのＨＬＡ座のＨＬＡタイプと適合する。いくつかの実施形態では、ＨＬＡ座は、ＨＬＡ−Ａ座、ＨＬＡ−Ｂ座、又はＨＬＡ−Ｃ座である。いくつかの実施形態では、ＨＬＡ座は、ＨＬＡ−ＤＱＡ１座、ＨＬＡ−ＤＱＢ１座、ＨＬＡ−ＤＲＡ座、ＨＬＡ−ＤＲＢ１座、ＨＬＡ−ＤＲＢ３座、ＨＬＡ−ＤＲＢ４座、ＨＬＡ−ＤＲＢ５座、ＨＬＡ−ＤＰＡ１座、又はＨＬＡ−ＤＰＢ１座である。いくつかの実施形態では、臓器、組織、又は細胞のＨＬＡタイプは、少なくとも２、３、４、５、６、７、８、９、１０、１１、又は１２のＨＬＡ座で、レシピエントのＨＬＡタイプと適合する。いくつかの実施形態では、臓器、組織、又は細胞のＨＬＡ型は、少なくとも２つのクラスＩＨＬＡ座にてレシピエントのＨＬＡ型と適合する。いくつかの実施形態では、臓器、組織、又は細胞のＨＬＡ型は、３つ全てのクラスＩＨＬＡ座にてレシピエントのＨＬＡ型と適合する。いくつかの実施形態では、臓器、組織、又は細胞のＨＬＡ型は、ＨＬＡ−Ａ座及びＨＬＡ−Ｂ座にてレシピエントのＨＬＡ型と適合する。いくつかの実施形態では、臓器、組織、又は細胞のＨＬＡ型はＨＬＡ−Ａ座、ＨＬＡ−Ｂ座、及びＨＬＡ−ＤＲＢ１座にてレシピエントのＨＬＡ型と適合する。いくつかの実施形態では、臓器、組織、又は細胞のＨＬＡ型は、１１、１０、９、８、７、６、５、４、３、２、又は１未満のＨＬＡ座で、レシピエントのＨＬＡ型と適合しない。いくつかの実施形態では、適合は２桁の解像度でのものである。いくつかの実施形態では、適合は４桁の解像度でのものである。

本明細書において提供される方法のいくつかの実施形態では、臓器が移植されるいくつかの実施形態では、移植される臓器は、心臓、肺、腎臓、肝臓、膵臓、腸、胃及び／又は精巣、あるいは前述の臓器のうちのどれかの部分である。いくつかの実施形態では、移植する細胞、組織、又は臓器は、肢（例えば、手、足、腕、又は脚）、角膜、皮膚、顔、ランゲルハンス島、骨髄、造血幹細胞、成体幹細胞（例えば、哺乳動物幹細胞、腸幹細胞、間葉系幹細胞、内皮幹細胞、神経幹細胞、嗅覚幹細胞、心臓幹細胞、肺幹細胞）、血管、心臓弁、及び／又は骨である。移植される臓器、組織、又は細胞は、生きているドナー又は死体ドナーに由来するものであってよい。

本明細書において提供される方法のいくつかの実施形態では、臓器、組織、又は細胞のレシピエントには、移植片拒絶反応の尤度を低減する剤を投与する。いくつかの実施形態では、剤は免疫抑制剤である。ある種の実施形態では、レシピエントには、プレドニストロン（prednistolone）、ヒドロコルチゾン、シクロスポリン、タクロリムス、アザチオプリン、ミコフェノール酸、シロリムス、エベロリムス、バシリキシマブ、ダクリズマブ、抗胸腺細胞グロブリン、抗リンパ球グロブリン、及び／又はリツキシマブを投与する。いくつかの実施形態では、移植する臓器、細胞、又は組織の１つ以上のＨＬＡ座のＨＬＡ型とレシピエントのＨＬＡ型が適合しない場合、レシピエントに剤を投与する。いくつかの実施形態では、移植する臓器、細胞、又は組織の少なくとも１、２、３、４、５、６、７、８、９、１０、又は１１のＨＬＡ座のＨＬＡ型とレシピエントのＨＬＡ型が適合しない場合、レシピエントに剤を投与する。

本明細書において言及する、特許、出願、及びＧｅｎＢａｎｋアクション番号を含む全ての出版物は、それぞれの個別の出版物又は特許が、参照により援用されるよう明示的にかつ個別に示されているかのように、参照によりその全体が本明細書に援用される。矛盾する場合、本明細書における任意の定義を含む本出願の記載が採られる。

これまでに本発明の概要について記載してきたが、本発明の特定の態様及び実施形態を例示する目的でのみ包含され、本発明を制限することを意図するものではない、以下の実施例を参照することにより、理解がより容易になされるであろう。

実施例１：ＰＨＬＡＴプロセスの実施形態を用いるＨＬＡタイピング
Ｂｏｗｔｉｅ２を用いた参照ベースのリードマッピングにより、ＰＨＬＡＴワークフローを開始した（図１、工程Ｉ）。それぞれが１つのＨＬＡ対立遺伝子のゲノムＤＮＡ配列として表される人工染色体のコレクションにより、ヒトゲノムＧＲＣｈ３７／ｈｇ１９を伸長させて、参照ゲノムを構築した。第６番染色体上のＨＬＡ−Ａ、Ｂ、Ｃ、ＤＱＡ１、ＤＱＢ１、及びＤＲＢ１座の対応するゲノム配列をＮ’ｓでマスクして、マッピングが重複するのを回避した。Ｂｏｗｔｉｅ２のマッピングパラメーターは、ｅｎｄ−ｔｏ−ｅｎｄモードでｖｅｒｙ−ｓｅｎｓｉｔｉｖｅ（すなわち、−Ｄ２０−Ｒ３−Ｎ０−Ｌ２０−ＩＳ，１，０．５０）に設定した。各リードに関し、最良のアライメント（又は同等に良好なアライメントのうちの１つ）を記録した。リード長がＢｏｗｔｉｅに利用可能なものである場合、Ｂｏｗｔｉｅのマッピングエンジンを変えてもＰＨＬＡＴの性能に顕著な変化は生じなかった（データ非掲載）。

主要なクラスＩ及びＩＩ遺伝子座ＨＬＡ−Ａ（１８８４）、ＨＬＡ−Ｂ（２４８９）、ＨＬＡ−Ｃ（１３８２）、ＨＬＡ−ＤＱＡ１（４７）、ＨＬＡ−ＤＱＢ１（１６５）、及びＨＬＡ−ＤＲＢ１（１０９２）について、合計７０５９の対立遺伝位を参照配列に含めた。対立遺伝子のゲノム配列及びＤＮＡのコード配列（ＣＤＳ）は、ＩＭＧＴ（リリース３．８．０）から得て、ｈｕｍａｎｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｂｕｉｌｄ３７／ｈｇ１９上の座標にマッピングした。Ｂｏｗｔｉｅ２のマッピングには（図１，工程Ｉ及び以下を参照のこと）ゲノムＤＮＡ配列を使用し、一方、その他の全ての手順にはＣＤＳ配列を使用した（図１，工程ＩＩ〜Ｖ）。転写開始点（ＴＳＳ）から終止コドンまでのゲノム配列のみを保持した。ゲノムレコードではなくＣＤＳのみを備える任意の対立遺伝子に関し、利用可能なデータの中に対立遺伝子のＣＤＳ領域外に差異を示すものが存在しない場合、非コード領域には、ｈｇ１９ゲノムの対応する遺伝子座（例えば、ＨＬＡ−Ａ座の参照対立遺伝子についてはＡ^*０３：０１：０１：０１）に使用した参照対立遺伝子のゲノム配列を挿入した。非コード領域における多型は、タンパク質レベルではＨＬＡ型に変化を生じさせなかったことから、ＨＬＡタイピングになんらかの影響をもたらす場合であってもゲノム配列の補完はわずかだった。

以降のＨＬＡ型の予測は、２つの主要な工程：対立遺伝子候補のうち上位のものを選別する工程（図１中工程ＩＩ〜ＩＶ）、及び尤度に基づき順位付けする工程（図１中工程Ｖ）で実施した。対立遺伝子の選別により、評価すべき対立遺伝子を全て組み合わせて尤度を序列づける計算コストは大幅に低減された。続いて、尤度スコア遺伝子型及び相情報に加えそれまでの知見を統合し、相同性の高いＨＬＡの対立遺伝子を高解像度で分離した。

上位の対立遺伝子候補の選別には、リードカウントの反復を含めた。最初に、Ｂｏｗｔｉｅ２のマッピング結果をもとに、それぞれの対立遺伝子に対しマッピングしたリード数をカウントした。対立遺伝子候補のおおまかな予選別に際し、リードカウントには上位分位数の閾値（例えば、９０パーセンタイル）を用いた（図１，工程ＩＩ）。ファミリーメンバーのうち１つが選択された場合には、その１つのペプチド（４桁）ファミリーに由来する全ての対立遺伝子を保持した。次に、より厳密な基準に従って、保持した対立遺伝子に対しリード数をマッピングしたものを再計算した（図１中，工程ＩＩＩ）。Ｂｏｗｔｉｅ２により出力されたそれぞれのリードの座標を利用して、再度、リードと、その座標に保持されていた全ての対立遺伝子を比較した。最良に一致した対立遺伝子のリードのみ（又は同率の場合には複数の対立遺伝子のリード）をカウントし、そのときのリードによりカバーされた、対応する遺伝子座内のＳＮＰ部分の配列同一性をもとに判定した。最終的に、リードのカウントには少なくとも９９％の配列同一性を必要とした。遺伝子座毎のＳＮＰは、その遺伝子座に保持されていた対立遺伝子に由来する多型を合わせたものとした。挿入欠失は不一致としてみなされないことから、アラインメントの偏重を回避するため、保持した対立遺伝子のいずれかの挿入欠失と一致する部位を除外した。タンパク質群毎に非冗長的にリードカウントを要約し（４桁）、連続カウントベースの等級付けによる候補となる上位の対立遺伝子の選別に使用した（図１，工程ＩＶ）。特に、所定の遺伝子座に関し、最初にリードカウントをもとに、カウント数の高いものから低いものへとタンパク質群を選別した（レベル０ランキングと呼ぶ）。リードカウント数の最も大きかった群（同率の場合には複数群）を選別し、関係する全ての対立遺伝子を候補遺伝子として格納した。次に、これまでに選別した群と共有されているリードを除外し、残りのタンパク質群のリードカウントを調節した。調節したリードカウントを降順に選別し（レベル１のランキング）、新たなる上位群を選別した。特に、シーケンスカバレッジが制限されている場合、あるいは真及び偽となる対立遺伝子が非常に似ている場合、リードマッピング及びカウントの不確かさを許容するため、最上位群では共有されていない固有のリードを無視されない程度の数（最上位のランキング群に対しマッピングしたリードの１％超）保持しているならば、レベル０のタンパク質群のランキングで２番目に上位の対立遺伝子を含めた。レベル０及びレベル１のランキングから選別される対立遺伝子は、しばしば遺伝子座に対しマッピングされたリードのほとんど（９０％以上）を説明可能であった。その他の点では、手順を繰り返し（レベル２のランキング）、その遺伝子座で新しく最上位となったタンパク質群を選別した。

以下の基準が満たされた場合には、解像度４桁のホモ接合の遺伝子型は、この対立遺伝子候補の選別工程で判定することもできた：レベル０の最上位のタンパク質群がリードの大部分（９０％超）を説明し、なんらかのその他の群により説明される残りのリードが、大部分により説明されるものと比較して無視できる程度のものである（５％未満）。

選別終了時の、対立遺伝子候補及びそれらの関連するリードのみを、以降の解析に使用した。典型的には、数十の対立遺伝子が残った。この数は、対立遺伝子の全ての組み合わせ（同じ対立遺伝子とのペア形成を含む）の対組み合わせを評価して、最も尤度の高いペアを発見するのに十分に小さい。式１に示すとおり、それぞれの対立遺伝子対の対数尤度スコアの合計（ＬＬ_total）は、それぞれのＳＮＰ部位で観察された遺伝子型の尤度（ＬＬ_geno）と、複数の部位にわたる相の尤度（ＬＬ_phase，ヒト（ＬＬ_freq）に存在する対立遺伝子対の確率を合わせたもの）との総和である。

ベイジアンモデルに基づき、事後対数尤度

は、候補となる対数尤度ｌｏｇに比例する。ｌｏｇＰ（Ｄ^t│Ｇ^t）は、対象とする対立遺伝子対（Ｇ^t）の領域ｉの遺伝子型を与える、塩基（Ｄ^t）のパイルアップを観察する対数確率とした。境界より前のｌｏｇＰ（Ｇ^t）は、任意の遺伝子型についての定数と仮定し、よって除外した。Ｐ（Ｄ^t│Ｇ^t）は、領域ｉにて塩基ｊを観察するそれぞれの条件付き対数尤度、

の算出結果とした（式２）。

ｑ₁は塩基ｊのフレッドスコアから変換されるエラー率とした。

２つの隣接するＳＮＰ部位にわたる相尤度は、１つのＳＮＰ部位についての遺伝子型尤度と同様にモデル化した。１つのＳＮＰ部位では３つのミスマッチ状態と１つのマッチ状態とが存在したのに対し、２つのＳＮＰ部位では、可能性のある１５のミスマッチ（相外（out-of-phase））状態と１つのマッチ（相内（in-phase））状態とが存在した。具体的には、

は、２つの部位で対象とする対立遺伝子対の相配列（Ｇ^t,t+1）を与える、２つの隣接するＳＮＰ部位ｉ及びｉ＋１（Ｄ^t,t+1）にわたり同じ遺伝子鎖上の塩基対に観察される対数確率に比例した。２つの部位にわたり、１５の可能性のあるミスマッチ（相外（out-of-phase））状態と、１つのマッチ状態（相内（in-phase））とが存在した。Ｐ（Ｄ^t,t+1│Ｈ^t,t+1）は、部位ｉ及びｉ＋１をカバーする全てのリードをもとにした条件付き対数尤度の計算値とした（式３）。ｑ_errは、相外エラー率とした（０．０１）。

式３は、従来研究において、相内及び相外リードの数をもとにした二項確率を算出することにより持ち込まれる、不均一な相配列

を有する選好的な対立遺伝子対に対する偏りを回避した。不均一な相の相内リードカウントは、不均一な相を２つ構成する相内リードカウント（ｇ₁ ^tｇ₁ ^t+1，ｇ₁ ^tｇ₁ ^t+1）及び（ｇ₃ ^tｇ₃ ^t+1，ｇ₃ ^tｇ₃ ^t+1）の合計であり、したがって、常にこれらよりも大きい。

したがって、不均一な相では、対応する２つの均一な相の二項モデルよりも常に確率が高くなる。対照的に、本明細書に記載のベイジアンモデルは、おおまかに調整のとれた

リードを有する不均一な相の場合でのみ好ましいものであり、１つのタイプのものが殆どを占めている場合、すなわち結局は均一な相が示されるような場合には好ましくはない。

主要なクラスＩ及びＩＩ遺伝子座の対立遺伝子頻度は、ＡｌｌｅｌｅＦｒｅｑｕｅｎｃｙＮｅｔからダウンロードした。それぞれのタンパク質（４桁）ファミリーに関し、報告されている対立遺伝子の最大頻度を用い、関係する全ての対立遺伝子について共有した。バックグラウンド値は０．０００１として、頻度不明のタンパク質ファミリー（及び対立遺伝子）に割り当てた。ＬＬ_freqは、２つの対立遺伝子の対数頻度の合計として計算した。

ＬＬ_totalの最も高い対立遺伝子対を予測されるＨＬＡ型として記録した。通常、ＬＬ_totalは、ＬＬ_gena及びＬＬ_phase成分により影響を受ける。ＬＬ_freqは、しばしば数桁規模で顕著に小さい。したがって、実装した対立遺伝子の頻度は不確かであったものの、我々は、結果に対し顕著な影響を及ぼすものとして認識した。

実施例２：ＰＨＬＡＴはショートリードによりＨＬＡ型を正確に判定する
ショートリードによりＰＨＬＡＴを評価するため、ＨａｐＭａｐトランスクリプトーム配列決定（ＲＮＡｓｅｑ）データセットを使用した。ペアエンドショートリード（２×３７ｂｐ）を用い、ＨａｐＭａｐプロジェクト（研究アクセッションＥＲＰ０００１０１）に由来する公共のデータベースから、欧州北部及び西部に起源を持つ６０名のユタ在住者のリンパ芽球のトランスクリプトームプロファイリングを得た。これらの５０の試料に対し、最初に、Ｂａｋｋｅｒｅｔａｌ．Ｎａｔ．Ｇｅｎｅｔ．Ｎａｔ．Ｇｅｎｅｔ．３８：１１６６〜１１７２（２００６）により、解像度４桁で主要なクラスＩ及びＩＩＨＬＡ座の遺伝子型を判定し、続いてＥｒｌｉｃｈｅｔａｌ，ＢＭＣＧｅｎｏｍｉｃｓ１２：４２（２０１１）に記載の異なる手法を用い検証した。ヒトゲノムに対するリードのマッピングが非常に低率だったため、１つの試料（アクセッションＥＲＲ００９１３９）を除外した（１０％未満）。残りの４９の試料を解析に使用し、この試験で比較した。

ＨａｐＭａｐＲＮＡｓｅｑデータには、ペアエンドの３７ｂｐビーズを利用した。多くの場合、トランスクリプトーム配列決定試験には、同様のリード長（約３５ｂｐ）のものを用いた。しかしながら、それらは、適用可能なリード長の中でも極端に短いものであった。これまで、従来技術では、このような極めて短いリードを用い遺伝子型を正確に判定するのは困難であった。高度多型ＨＬＡ座では、この困難さが更に増す。ＨａｐＭａｐＲＮＡｓｅｑデータセットを用いた、既存のＨＬＡタイピング法による４桁ＨＬＡ型の予測は、不正確なものであった（図３）。例えば、ｓｅｑ２ＨＬＡプロセスは、４桁のＨＬＡ型の解像には適さず、精度は３２％と低かった（Ｂｏｅｇｅｌｅｔａｌ．，ＧｅｎｏｍｅＭｅｄ．４：１０２（２０１３））。このデータセットにＨＬＡｍｉｎｅｒを適用した場合、リード長が短すぎるためにコンティグアセンブリモードが機能しなかったことから、アライメントモードでのプロセスの実行のみが可能であった。得られた精度はわずか３９．８％であった（図３）。ＨＬＡｆｏｒｅｓｔの精度はこれに比べると高かったものの、それでも精度８４．２％であり、最適なものではなかった（図３）。

同じＨａｐＭａｐＲＮＡｓｅｑデータセットを利用して、実施例１のＰＨＬＡＴプロセスを用いると、クラスＩ遺伝子座では、４桁のＨＬＡ型のうち９６．２％が正確に推測され、最終的には、クラスＩ及びＩＩ遺伝子座の両方を合計して９２．３％が正確に推測された（図３）。ＰＨＬＡＴも、正確にホモ接合な細胞を予測した。解像度４桁で、ホモ接合とされた４５の遺伝子座（９０の対立遺伝子）のうち、誤分類によりホモ接合であるとされたものはわずか６つのみであった（誤分類された対立遺伝子は計７つであった）。誤分類された対立遺伝子の殆どは、解像度２桁では正確に分類され、真の対立遺伝子と異なっていたのはわずか１又は２塩基であった。

加えて、ＰＨＬＡＴにより予測された２桁でのＨＬＡ型は、従来法よりも正確であった。このデータセットに関しては、ＰＨＬＡＴにより予測された５６４の２桁の対立遺伝子のうち、不正確であったものはわずか５つのみであったのに対し（精度９９．１％）、従来のＨＬＡ予測プロセスによる２桁精度は９７．３％もなかった（図３）。

ＰＨＬＡＴは、ＡｌｌｅｌｅＦｒｅｑｕｅｎｃｙＮｅｔで群頻度の記録のない、極稀なＨＬＡの対立遺伝子を除外するという選択肢も提供した。この選択肢により、尤も尤度の高いＨＬＡ型の探索は、ＨＬＡ−Ａ（５２６）、ＨＬＡ−Ｂ（６７４）、ＨＬＡ−Ｃ（３７３）、ＨＬＡ−ＤＱＡ１（３３）、ＨＬＡ−ＤＱＢ１（８１）、ＨＬＡ−ＤＲＢ１（４０７）遺伝子座の２０９４の対立遺伝子に低減された。これらの条件下でＰＨＬＡＴを使用し、稀な対立遺伝子を除外した場合、４桁の解像度では、稀な対立遺伝子を含めた場合の正確度（９２．３％，上記を参照）と同程度の９３．０％の正確度が得られた。

実施例３：ＰＨＬＡＴは、カバレッジの低い配列決定データを使用してＨＬＡ型を正確に判定する
欧州北部及び西部、日本、及びナイジェリアに起源を持つユタ州在住者から、ＨａｐＭａｐ全エクソーム配列決定（ＷＸＳ）データセット及びそれに伴ってクラスＩの４桁のＨＬＡ型を集めた。ＷＸＳデータは、試験アクセッションＳＲＰ００４０７８、ＳＲＲ００４０７６、及びＳＲＲ００４０７４を介し公共のデータベースから得て、ＨＬＡ遺伝子型は、Ｗａｒｒｅｎｅｔａｌ，ＧｅｎｏｍｅＭｅｄ．４：９５（２０１２）及びＡｂｅｃａｓｉｓｅｔａｌ．，Ｎａｔｕｒｅ４６７：１０６１〜１０７３（２０１０）から得た。配列決定プロセスは、ＨＬＡ座のＣＤＳ領域に対する中央カバレッジ約６０ｘとし、ペアエンドの１０１ｂｐリードにより進めた（結果も参照されたい）。

それぞれＣＥＵ、ＪＰＴ、及びＹＲＩ群に由来する、ＨａｐＭａｐの２×１０１ｂｐの全エクソーム配列決定（ＷＸＳ）データを１５使用し、ＰＨＬＡＴ及びその他のプログラムを評価した。リード長は、ＨａｐＭａｐのＲＮＡｓｅｑデータよりも明らかに長かった。しかしながら、配列決定深度は低下した。対象とするＨＬＡ座に関し、マッピング後深度は約６０ｘであったのに対し、ＨａｐＭａｐのＲＮＡｓｅｑデータセットでは約３３０ｘであった。このカバレッジは、一般的な遺伝子型判定では十分なものとして見なされ得るものの、高多型なＨＬＡ座の判定には困難を伴い得る。

ＷＸＳデータセットを用いる様々なＨＬＡタイピングプロセスの性能を図３に提供する。おそらく、対立遺伝子との配列アラインメントにおいて、それぞれのリードよりもコンティグのほうが有用であったこと、及びカバレッジの依存度が低かったことから、データセットには、アライメントモードよりも良好な結果が得られたＨＬＡｍｉｎｅｒのアセンブリモードを利用した。４桁の解像度では、ＨＬＡｍｉｎｅｒの精度は５３．３％であった。局所的に、同じデータセットでデフォルト設定によりＨＬＡｆｏｒｅｓｔも実行したところ、精度は４５．６％であった。ＷＸＳデータは十分に長いリード長を有しているのにも関わらず、ＨＬＡｆｏｒｅｓｔの性能は、ＷＸＳデータセットでは、ＨａｐＭａｐのＲＮＡｓｅｑデータセットと比較して乏しかった。

実施例１に記載のＰＨＬＡＴプロセスにＷＸＳデータを適用すると、４桁タイピングの精度は９３．３％になった。加えて、ＰＨＬＡＴは２桁の精度で９５．６％とｓｅｑ２ＨＬＡよりも高く（ｐ値に対する閾値は用いずに９３．３％）、ＨＬＡｍｉｎｅｒ（７８．９％）及びＨＬＡｆｏｒｅｓｔ（８１．１％）よりも顕著に良好であった。

実施例４：目的増幅産物の配列決定データに対するＰＨＬＡＴの適用
目的増幅産物の配列決定データに対し、実施例１に記載のＰＨＬＡＴプロセスを行った。５系統のヒト細胞株のクラスＩのＨＬＡ−Ａ座及びＨＬＡ−Ｂ座をＰＣＲにより増幅させて、データを生成した（図４）。簡単に、一段回目のＰＣＲでは、ＨＬＡ−Ａ座及びＢ座のエキソン２及び３（プライマー配列は図５に示す）の増幅産物を産生すると同時に、Ｉｌｌｕｍｉｎａ配列決定アダプターを添加した。４種の増幅産物を１：１：１：１比で合わせ、二段階目のＰＣＲでバーコード付加した。最後に、合わせた５種の試料を、ＩｌｌｕｍｉｎａＭｉＳｅｑ（ＩｌｌｕｍｉｎａＩｎｃ．ＣＡ）でマルチプレックス化したペアエンド解析により２×２５０サイクル配列決定した。ＭｉＳｅｑＲｅｐｏｒｔｅｒソフトウェアにより、５つの試料の非マルチプレックス化ＦＡＳＴＱファイルを得た。

５つの試料のＨＬＡ−Ａ座及びＢ座も、以下のとおり、サンガー配列決定法により遺伝型を同定した。上記の５系統の細胞株から、ＱＩＡａｍｐ（登録商標）ＤＮＡミニキット（ＱｉａｇｅｎＩｎｃ．ＣＡ）により１５〜３０ｎｇ／μＬの濃度でゲノムＤＮＡを抽出した後、ＰＣＲ増幅し、ＳｅＣｏｒｅ配列決定キット（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓＩｎｃ．，ＣＡ）を使用して精製した。配列決定反応は、３７３０ｘ１の全自動ＡＢＩ配列決定装置で構成した。配列ファイルの加工及びＨＬＡタイピングレポートの作成には、ｕＴＹＰＥ（登録商標）ＳＢＴソフトウェア（ＩｎｖｉｔｒｏｇｅｎＩｎｃ．ＣＡ）を使用した。５試料には、業者（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓＩｎｃ．，ＣＡ）に依頼して独立したＨＬＡタイピングを行い、マッチング結果を得た。

実施例１のＰＨＬＡＴプロセスは、リード長の短いもの及び長いものを両方とも扱うことのできるＢｏｗｔｉｅ２アラインメントソフトウェアを使用する。５試料のペアエンド法による２５０ｂｐの増幅産物の配列決定データセットでＰＨＬＡＴを試験した。ＨＬＡ−Ａ座及びＨＬＡ−Ｂ座において実験的に確認された計２０の対立遺伝子に関し、ＰＨＬＡＴは、２桁及び４桁の解像度の両方で、精度１００％でＨＬＡ型を予測した（図３）。ＨＬＡｍｉｎｅｒを除き、これまでに開示されたプロセスでは、この配列データを使用してＨＬＡ型を予測することができなかった。ＨＬＡｍｉｎｅｒのアセンブリモデルでは、それぞれ４桁及び２桁の解像度で５０％及び９５％の精度が得られた。

実施例５：誤分類された対立遺伝子の特性評価
ＨａｐＭａｐＲＮＡｓｅｑ、１０００ＧｅｎｏｍｅＷＸＳ、及びＨａｐＭａｐＷＸＳのデータセットから、ＰＨＬＡＴで誤分類された４桁の対立遺伝子を回収し、対立遺伝子の種類毎に要約した（図６Ａ）。ある種の対立遺伝子が偏って豊富に含まれていたのかを調査し、含まれていた場合には、アルゴリズム又は他の理由のいずれにより持ち込まれたのかを調査した。ＨＬＡ−Ａ、Ｂ、Ｃ、及びＤＲＢ１座にて、ほとんど全ての対立遺伝子は制限されたサンプル長を有しており（総出現率≦１０）、誤分類の発生も抑えられていた（≦２）。したがって、対立遺伝子型は偏って豊富に存在しているわけではなかった。

ＨＬＡ−ＤＱＡ１及びＨＬＡ−ＤＱＢ１座では、観察された誤予測は幾つかの特異的な対立遺伝子で占められていた。図６Ａに示すとおり、ＨＬＡ−ＤＱＡ１でなされた合計２０の誤った予測のうち、１０は、ＨＬＡＤＱＡ１^*０３：０１対立遺伝子をＨＬＡ−ＤＱＡ１^*０３：０３として分類するものであり、６はＨＬＡ−ＤＱＡ１^*０５：０１対立遺伝子をＨＬＡＤＱＡ１^*０５：０５として誤るというものである。ＨＬＡ−ＤＱＢ１座では、５つのＨＬＡ−ＤＱＢ１^*０２：０１対立遺伝子が、ＨＬＡ−ＤＱＢ１^*０２：０２とされる。これらの誤りが、ＨＬＡ−ＤＱＡ１及びＨＬＡ−ＤＱＢ１座における全ての誤った予測の８０％超を占める。また、この試験では、これらの対立遺伝子の示す予測精度は低い（６１．５％〜７３．７％）。実際の及び予測された対立遺伝子は非常に配列相同性であるものの（＜＝３ＳＮＰｓ）、以下のいくつかの観察では、これらの誤りがランダムなものではない可能性が示されている。

他のアルゴリズム、ＨＬＡｆｏｒｅｓｔ及びＨＬＡｍｉｎｅｒでは、ＰＨＬＡＴにより誤分類された同じサンプルにおいて、ＤＱＡ１^*０３：０１をＤＱＡ１^*０３：０３として誤分類する類似の傾向が示される。ＨＬＡｆｏｒｅｓｔでは、７つの試料でＰＨＬＡＴのものと同じ誤同定がされる。ＨＬＡｍｉｎｅｒからの出力、ＤＱＡ１^*０３：０１Ｐは、ＤＱＡ１^*０３：０１、ＤＱＡ１^*０３：０３及びその他のいくつかの対立遺伝子を分類するＰ表記のアノテーションである。ＰＨＬＡＴにより誤って分類された全ての試料において、Ｐ表記を除いてＨＬＡｍｉｎｅｒを再実行すると、ＤＱＡ１^*０３：０３が最も確度の高い予想になる。異なるアライメントを実装するアルゴリズムに同じ間違いが生じるとおり（例えば、ＰＨＬＡＴについてはＢｏｗｔｉｅ２、ＨＬＡｆｏｒｅｓｔについてはＢｏｗｔｉｅ、及びＨＬＡｍｉｎｅｒについてはＢＷＡ）、誤差は特定のアライメントエンジンによって生じるのではない。加えて、ＰＨＬＡＴ中のアライメントソフトウェアをＢＷＡに変更しても、何らかの影響を受けている試料からの出力結果に変化は生じない。これらの結果は、問題が、計算ストラテジー又はアラインメントソフトウェアによるアルゴリズムの選択によるものではないであろうことを示唆する。

全ての場合において、ＤＱＡ１^*０３：０３の推論は、それなりの量のリードにより支持される。図６Ｂは、このような誤同定の生じる代表的な試料中のＤＱＡ１^*０３：０１及びＤＱＡ１^*０３：０３対立遺伝子（ｃｈｒ６：３２６０９９６５，ＤＱＡ１^*０３：０３については塩基Ａ及びＤＱＡ１^*０３：０１については塩基Ｃ）を識別する１つのＳＮＰ部位周辺の、リードマッピングの詳細を示す（ｓｕｂｊｅｃｔＮＡ１２１５６）。この試料において、第２の対立遺伝子はＤＱＡ１^*０２：０１であり、この部分の配列はＣである。これらのリードはＰＨＬＡＴパイプラインを通過したものであり、ＨＬＡ予測に使用される。同じＮＡ１２１５６において、約半分の塩基はＡ’ｓである結果として、ＡＣの不均一な遺伝子型が生じている。そのため、ＤＱＡ１^*０３：０３対立遺伝子と、ＤＱＡ１^*０２：０１対立遺伝子とを合わせて推測することで、データに説得力がもたらされる。ＤＱＡ１^*０３：０３の予測されるその他の全てのサンプルについても同様の観察が成り立つ。そのため、誤同定は、単にデータに無作為に生じるノイズに起因するものではないことが示唆される。

リードは、代替的な対立遺伝子がゲノムのどこに由来するかを支持するという可能性がある。ＨＬＡ−ＤＱＡ１^*０３：０３対立遺伝子に由来するＳＮＰ部位（ｃｈｒ６：３２６０９９６５）を保持する１３５塩基のヌクレオチド断片（ｃｈｒ６：３２６０９８７４−３２６１０００８）を利用するＢＬＡＳＴクエリーにより、ＨＬＡＤＱＡ２遺伝子のエキソン３に存在する、上位の完全長の遺伝子が返される。この領域内の２つの対立遺伝子間のまさしくＳＮＰである部分を除き、他に不一致は存在しない（図６Ｃ）。この対立遺伝子に関する情報が限られていることから、ＩＭＧＴデータベースには、ＨＬＡＤＱＡ２のエントリーは存在しない。結果として、全てのこれまでのアルゴリズムは、それらのマッピング参照にＨＬＡＤＱＡ２配列を有していない。ＰＨＬＡＴは、参照ゲノムから全ゲノムに拡大される。ｈｇ１９ゲノムにおける１つの特異的なＨＬＡ−ＤＱＡ２対立遺伝子の配列のみを含むのではいずれの多型も完全には捕捉されない。配列相同性が高く、ＨＬＡ−ＤＱＡ２の対立遺伝子について完全な参照が存在しないことを考慮すると、ＨＬＡ−ＤＱＡ１遺伝子リードに対するＨＬＡ−ＤＱＡ２遺伝子リードのミスアライメントは無視できないものである可能性がある。実際に、ＤＱＡ１^*０３：０３対立遺伝子のＳＮＰについての配列アライメントにおいてマッチングさせる部位である、ｃｈｒ６：３２７１３７８４のＨＬＡ−ＤＱＡ２遺伝子（ｒｓ６２６１９９４５，〜４％と対立遺伝子頻度の割合は低い，図６Ｃ）には、ＣとＡとでミスセンスである共通のＳＮＰが存在している。したがって、対象とする試料が、ｒｓ６２６１９９４５ＳＮＰの特定のＨＬＡ−ＤＱＡ２対立遺伝子を保持している場合、得られるリードは、ＨＬＡ−ＤＱＡ１^*０３：０３対立遺伝子として誤って認識され得る。

頻繁に誤分類される他の２つの対立遺伝子、ＨＬＡ−ＤＱＡ１^*０５：０１、及びＨＬＡ−ＤＱＢＩ^*０２：０１についても同様の観察が存在する。ＰＨＬＡＴ、ＨＬＡｍｉｎｅｒ及びＨＬＡｆｏｒｅｓｔ（Ｐ表記は除外）はいずれも、５つの試料においてそれらをそれぞれＨＬＡ−ＤＱＡ１^*０５：０５及びＨＬＡ−ＤＱＢ１^*０２：０２として誤同定した。ＤＱＡ１^*０５：０５により生じる３つのＳＮＰをｃｈｒ６：３２６０５２６６、ｃｈｒ６：３２６１０００２、及びｃｈｒ６：３２６１０４４５と呼ぶ。それぞれのＳＮＰはＤＱＡ１^*０５：０５対立遺伝子を支持するリードを多数マッピングされている。更に、それぞれのＳＮＰは、ＨＬＡ−ＤＱＡ２遺伝子と相同であるエキソン部分（ＤＱＡ１^*０５：０５対立遺伝子より取られた配列）に存在する。これらの部分は、７２〜１１６塩基長のヌクレオチドから構成され、染色体の２〜４箇所が、ＨＬＡ−ＤＱＡ２配列（ｈｇ１９ゲノム）とは異なる。ＨＬＡ−ＤＱＡ２遺伝子中の位置は全てｄｂＳＮＰレコードを有しており、代替的な塩基がＤＱＡ１^*０５：０５対立遺伝子中の配列に一致する。したがって、これらの領域を考慮すると、ＨＬＡ−ＤＱＡ２及びＨＬＡ−ＤＱＡ１座に由来するリードに混乱が生じる可能性がある。同様にして、ＳＮＰは、ＨＬＡ−ＤＱＢ１^*０２：０１対立遺伝子よりもＨＬＡＤＱＢ１^*０２：０２対立遺伝子の方が都合がよい（ｃｈｒ６：３２６２９９０５）。この遺伝子は、ＨＬＡ−ＤＱＢ１及びＨＬＡ−ＤＱＢ２遺伝子間の９１塩基の相同領域内に存在する。ＨＬＡ−ＤＱＢ２対立遺伝子に対する研究は進んでおらず、いずれもＩＭＧＴデータベースに記録がない。

上記の結果を総合して考えると、本発明者らは、頻度の高くない遺伝子座ＨＬＡ−ＤＱＡ２及びＤＱＢ２に由来するリードの、頻度の高いそれぞれの相同性遺伝子座ＨＬＡ−ＤＱＡ１及びＤＱＢ１に対するミスアライメントにより、対立遺伝子ＨＬＡ−ＤＱＡ１及びＤＱＢ１の、異常なほど高頻度の誤分類が生じ得るものと考える。この制限はアルゴリズムとは独立している。この問題は、マッピングする参照にＨＬＡ−ＤＱＡ２及びＤＱＢ２の対立遺伝子配列を組み込むことで軽減される可能性がある。本明細書で議論される１００塩基程度の相同性領域として、１００ｂｐ以上のペアエンドリードによるデータを用いるとき、対立遺伝子の誤分類についての懸念は低減される。ミスアライメントを減じるために、配列決定のロングリードを相同性の低い領域周辺まで伸ばしてもよい。ＰＨＬＡＴ又は他の既存のアルゴリズムのユーザーは、Ｓａｎｇｅｒ法又は目的増幅産物の配列決定により、ＨＬＡＤＱＡ１^*０３：０３、ＨＬＡ−ＤＱＡ１^*０５：０５及びＨＬＡ−ＤＱＢ１^*０２：０２の対立遺伝子型を検証することができる。

実施例６：ＨＬＡ推定の制度に影響を与える因子
配列決定パラメータがいかにしてＨＬＡの推定精度に影響を与えたのかを系統的に調査するため、上記のデータセットからＰＨＬＡＴにより得られたＨＬＡの予想結果を蓄積した。基準とするデータセットにより、様々なリード長（３７ｂｐ〜２５０ｂｐ）及びリード深度（６０ｘ未満〜１０００ｘ超）に加え、異なる配列決定プロトコル（ペアエンドでのプロトコル又はシングルエンドとして扱うプロトコル）によるテストケースを提供した。

図２は、３つのデータセット：ＨａｐＭａｐＲＮＡｓｅｑ、１０００ＧｅｎｏｍｅＷＸＳ、及びＨａｐＭａｐＷＸＳから得られた結果を示す。ＨａｐＭａｐＲＮＡｓｅｑ及びＨａｐＭａｐＷＸＳのデータセットを実施例２及び３に記載する。

それぞれのデータセットに関し、サンプルは、それらのＨＬＡ座（ｘ軸）のマッピング後カバレッジをもとにビン化した。それぞれのシンボルのｙ座標には、ばらつきを示すエラーバーとともに、各ビンに含まれるサンプルの平均精度（解像度４桁）を表す。それぞれのペアエンドな配列決定データセット（●）に関し、サンプルは、対にしたリード間の関係を無視してシングルエンドによる推定（○）下でも加工した。スプライン補間を行い、シンボルの傾向をなめらかな線で示した。

図２に示すとおり、ＰＨＬＡＴプロセスの精度は、カバレッジと正の相関を有した。カバレッジの増加に伴う精度の上昇傾向は、それぞれのデータセット内でのみ生じるものではなく、データセット間でも生じるものであった。例えば、ＨａｐＭａｐＷＸＳ試料よりも体系的にカバレッジの高い１０００ＧｅｎｏｍｅＷＸＳ試料は、２つのデータセットの他の配列決定パラメータは似たようなものであったのにもかかわらず、一貫してより高い精度を示した。この依存関係は、経験に基づきＰＨＬＡＴのカバレッジ閾値を評価して最適な予想に達する助けとなり得る。ペアエンドでの配列決定において、精度９０％以上（水平に記した破線，図２）を達成するには、３０ｘ〜５０ｘのカバレッジが適用され、リード長１００ｂｐ未満では１００ｘ超が適用される。

ペアの制限を無視してリードをシングルエンドとして扱った場合、全てのデータセットで、見逃すことができない程度の予想精度のシステマチックな低下が観察された。図２中、ＨａｐＭａｐＷＸＳデータの精度は、それぞれ、ペアエンドのリード（２×１０１ｂｐ，下図，●）、シングルエンドのリード（１×１０１ｂｐ，下図，○）に関しては９０％超から約８５％程度にまで低下した。ＨａｐＭａｐＲＮＡｓｅｑデータではより顕著に（９０〜９５％（２×３７ｂｐ，上図，●）から７０〜９０％（１×３７ｂｐ，上図，○））低下した。これらの観察により、ＨＬＡ型の推測のためのペアエンド式の配列決定の重要性が強調された。対としたリードの平均は、マッピングの曖昧さを低減させるのに有効な二重化リード長に由来した。加えて、末端と末端との間の領域が長い（通常、数百塩基）ということは、ＳＮＰｓが比較的離間しているということであり、長い範囲にわたるＳＮＰ対に由来する相情報がＰＨＬＡＴに利用可能であった。

Claims

遺伝子座に存在する対立遺伝子を判定する、コンピュータに実装された方法であって：
複数のシーケンスリードを含む、対象の配列データをコンピュータシステムで受信することと；
前記コンピュータシステムにより、前記遺伝子座のゲノム配列と、複数の対立遺伝子配列とを含む参照配列に対して前記複数のシーケンスリードをマッピングして、対立遺伝子候補を同定することと；
対立遺伝子候補の各対に関し、前記遺伝子座における各ＳＮＰのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、前記遺伝子座における各ＳＮＰのそれぞれについての対数確率の合計であり、前記対立遺伝子候補対は、前記ＳＮＰに対しマッピングされる前記シーケンスリード中のそれぞれのＳＮＰに存在する配列としてみなすことができる、対数尤度スコアを求めることと；
対立遺伝子候補の各対に関し、前記遺伝子座におけるＳＮＰｓの各配列対に対し相対数尤度スコア（phase log-likelihood）を求めることであって、各相対数尤度スコアが、前記遺伝子座におけるＳＮＰｓの各配列対についての対数確率の合計であり、前記対立遺伝子候補対は、前記ＳＮＰｓの配列対に対しマッピングされる前記シーケンスリード中のＳＮＰｓの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めることと；
対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めることであって、前記頻度対数尤度スコアが、前記各対立遺伝子候補がヒト集団において存在する対数頻度の合計である、頻度対数尤度スコアを求めることと；
前記遺伝子型の対数尤度スコア、前記相対数尤度スコア及び頻度対数尤度スコアの合計が、遺伝子座に存在する対立遺伝子として、最も高い対立遺伝子候補対を選択することと
を含む、方法。
前記ゲノム配列がヒトゲノム配列であり、前記複数の対立遺伝子配列がヒト配列である、請求項１に記載の方法。
前記ゲノム配列中の前記遺伝子座の前記配列が除去又はマスクされている、請求項２に記載の方法。
前記ヒトゲノム配列がＧＲＣｈ３７／ｈｇ１９である、請求項２に記載の方法。
マッピングは、更に
シーケンスリードが最も多数マッピングされた前記対立遺伝子を、対立遺伝子候補の第１のセットとして同定する工程と；
前記対立遺伝子候補の第１のセットに対してマッピングされる前記シーケンスリードを除外し、シーケンスリードが最も多数マッピングされた前記対立遺伝子を、対立遺伝子候補の第２のセットとして同定する工程と；
前記遺伝子座に対してマッピングされた前記シーケンスリードの９０％未満が、前記対立遺伝子候補の第１のセット又は第２のセットの対立遺伝子に対してマッピングされる場合に、前記対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされた前記リードを除外し、前記シーケンスリードが最も多数マッピングされた前記対立遺伝子を、前記対立遺伝子候補の第３のセットとして同定する工程とを含む、請求項１に記載の方法。
複数の対立遺伝子配列が、一群のタンパク質のものから選択される、請求項５に記載の方法。
前記対立遺伝子候補の第１のセットに対しマッピングされた前記シーケンスリードの除外後、前記遺伝子座に対しマッピングされたシーケンスリードの数が、前記対立遺伝子候補の第１のセットに対しマッピングされたシーケンスリードの数の１％超である場合、前記対立遺伝子候補の第１のセットに対しマッピングされた前記シーケンスリードを除外せずに、２番目に多数のシーケンスリードがマッピングされた前記対立遺伝子を、前記対立遺伝子候補の第２のセットのサブセットとして更に同定する、請求項５に記載の方法。
前記対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされるリードは除外し、シーケンスリードが最も多数マッピングされた対立遺伝子に対しマッピングされるシーケンスリードの数が、前記遺伝子座に対しマッピングされるシーケンスリードの総数の少なくとも１０％を構成する場合にのみ、前記対立遺伝子候補の第３のセットが、同定される、請求項５に記載の方法。
前記配列データが、ゲノムワイドな配列決定データである、請求項１に記載の方法。
前記ゲノムワイドな配列決定データが、トランスクリプトーム配列決定データ、全エクソーム配列決定データ、又は全ゲノム配列決定データである、請求項９に記載の方法。
前記配列データのカバレッジが少なくとも３０倍である、請求項１０に記載の方法
前記配列データのカバレッジが、３０倍〜１００倍の範囲であり、前記複数のシーケンスリードがＤＮＡに由来するものである、請求項１０に記載の方法。
前記配列データのカバレッジが、１００倍〜５００倍の範囲であり、前記複数のシーケンスリードがＲＮＡに由来するものである、請求項１０に記載の方法。
前記配列データのカバレッジが少なくとも１０００倍であり、前記複数のシーケンスリードが、目的とする配列に由来するものである、請求項１０に記載の方法。
前記複数のシーケンスリードの平均長が、２５０塩基未満である、請求項１に記載の方法。
前記複数のシーケンスリードが、ペアエンドリードである、請求項１に記載の方法。
前記複数のシーケンスリードが、シングルエンドリードである、請求項１に記載の方法。
前記複数のシーケンスリードの平均長が５０塩基未満である、請求項１に記載の方法。
マッピングの前に、対象の遺伝子座の核酸配列を含む増幅産物を産生する核酸増幅プロセスを実施することであって、前記遺伝子座は、１つ以上の一塩基多型（ＳＮＰ）を含むことと；
複数のシーケンスリードを生成する増幅産物に対して配列決定プロセスを実行することであって、複数のシーケンスリードは、３５から１００塩基対のシーケンスリードからなること
を更に含む、請求項１に記載の方法。
前記遺伝子座が、高度多型遺伝子座である、請求項１に記載の方法。
前記遺伝子座がＨＬＡ座である、請求項１に記載の方法。
遺伝子座に存在する対立遺伝子を判定する、コンピュータに実装された方法であって：
ａ）コンピュータシステムにて前記対象の配列データを受信することであって、前記配列データが複数のシーケンスリードを含む、データを受信することと；
ｂ）前記コンピュータシステムにより、ヒトゲノム配列と、前記遺伝子座の複数の対立遺伝子配列とを含む参照配列に対し、前記シーケンスリードをマッピングすること；
ｃ）前記コンピュータシステムにより、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第１のセットとして同定することと；
ｄ）前記コンピュータシステムにより、前記対立遺伝子候補の第１のセットに対しマッピングされた前記シーケンスリードを除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、対立遺伝子候補の第２のセットとして同定することと；
ｅ）前記遺伝子座に対してマッピングされたシーケンスリードの９０％未満が、前記対立遺伝子候補の第１のセット又は第２のセットの対立遺伝子に対してマッピングされる場合に、前記対立遺伝子候補の第１のセット又は第２のセットに対しマッピングされた前記リードを除外し、シーケンスリードが最も多数マッピングされた対立遺伝子を、前記コンピュータシステムにより前記対立遺伝子候補の第３のセットとして同定することと；
ｆ）対立遺伝子候補の各対に関し、前記遺伝子座における各ＳＮＰのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、前記各遺伝子型の対数尤度スコアが、前記遺伝子座における各ＳＮＰのそれぞれについての対数確率の合計であり、前記対立遺伝子候補対は、前記ＳＮＰに対しマッピングされる前記シーケンスリード中のそれぞれの前記ＳＮＰに存在する配列としてみなすことができる、対数尤度スコアを求めることと；
ｇ）対立遺伝子候補の各対に関し、前記遺伝子座におけるＳＮＰｓの各配列対に対し相対数尤度スコアを求めることであって、前記各相対数尤度スコアが、前記遺伝子座におけるＳＮＰｓの各配列対についての対数確率の合計であり、前記対立遺伝子候補対は、前記ＳＮＰｓの配列対に対しマッピングされる前記シーケンスリード中の前記ＳＮＰｓの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めることと；
ｈ）前記コンピュータシステムにより、対立遺伝子候補の各対に関し、頻度対数尤度スコアを求めることであって、前記頻度対数尤度スコアが、前記各対立遺伝子候補がヒト集団において存在する対数頻度の合計である、頻度対数尤度スコアを求めることと；
ｉ）前記コンピュータシステムにより、前記遺伝子型の対数尤度スコア、前記相対数尤度スコア、及び前記頻度対数尤度スコアの合計が最も高い前記対立遺伝子候補対を、前記遺伝子座に存在する対立遺伝子として同定することと；を含む、方法。
コンピュータシステムであって：
少なくとも１つのプロセッサと；
少なくとも１つのプロセッサに割り当てられたメモリと；
ディスプレイと；
遺伝子座に存在する対立遺伝子を判定するために前記メモリでサポートされているプログラムであって、前記少なくとも１つのプロセッサに実行させるとき、前記少なくとも１つのプロセッサに対し：
ａ）複数のシーケンスリードを含む対象の配列データを受信させること；
ｂ）前記遺伝子座のゲノム配列と、複数の対立遺伝子配列とを含む参照配列に対して前記シーケンスリードをマッピングさせて、対立遺伝子候補を同定させること；及び
ｃ）前記コンピュータシステムによって、前記遺伝子座に対しマッピングされた前記シーケンスリードを前記遺伝子座に存在する対立遺伝子としてみなす尤度が最も高い対立遺伝子候補対を同定させること；を実行させる複数の命令を含む、プログラムと；を含み、
前記シーケンスリードとみなされる尤度が最も高い前記対立遺伝子候補対が：
ｉ．対立遺伝子候補の各対に関し、前記遺伝子座における各ＳＮＰのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、前記遺伝子座における各ＳＮＰのそれぞれについての対数確率の合計であり、前記対立遺伝子候補対は、前記ＳＮＰに対しマッピングされる前記シーケンスリード中のそれぞれのＳＮＰに存在する配列としてみなすことができる、対数尤度スコアを求めることと；
ｉｉ．対立遺伝子候補の各対に関し、前記遺伝子座におけるＳＮＰｓの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、前記遺伝子座におけるＳＮＰｓの各配列対についての対数確率の合計であり、前記対立遺伝子候補対は、前記ＳＮＰｓの配列対に対しマッピングされる前記シーケンスリード中のＳＮＰｓの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めることと；
により判定され、前記対立遺伝子候補のうち、前記遺伝子型の対数尤度スコア、及び前記相対数尤度スコアの合計が最も高いものが、前記シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対である、コンピュータシステム。
遺伝子座に存在する対立遺伝子を判定するためのコンピュータプログラム製品であって、前記コンピュータプログラム製品が、複数の命令を格納されている、非一時的なコンピュータにより読み取り可能な媒体上に存在しており、前記格納されている複数の命令は、コンピュータプロセッサにより実行されたときに、前記コンピュータプロセッサに：
ａ）複数のシーケンスリードを含む対象の配列データを受信させることと；
ｂ）前記遺伝子座のゲノム配列と、複数の対立遺伝子配列とを含む参照配列に対して前記シーケンスリードをマッピングさせて、対立遺伝子候補を同定させることと；
ｃ）前記遺伝子座に対しマッピングされた前記シーケンスリードを前記遺伝子座に存在する対立遺伝子としてみなす尤度が最も高い対立遺伝子候補対を同定させることと；を実行させ、
前記シーケンスリードとみなされる尤度が最も高い前記対立遺伝子候補対が：
ｉ．対立遺伝子候補の各対に関し、前記遺伝子座における各ＳＮＰのそれぞれに対し遺伝子型の対数尤度スコアを求めることであって、各遺伝子型の対数尤度スコアが、前記遺伝子座における各ＳＮＰのそれぞれについての対数確率の合計であり、前記対立遺伝子候補対は、前記ＳＮＰに対しマッピングされる前記シーケンスリード中のそれぞれのＳＮＰに存在する配列としてみなすことができる、対数尤度スコアを求めることと；
ｉｉ．対立遺伝子候補の各対に関し、前記遺伝子座におけるＳＮＰｓの各配列対に対し相対数尤度スコアを求めることであって、各相対数尤度スコアが、前記遺伝子座におけるＳＮＰｓの各配列対についての対数確率の合計であり、前記対立遺伝子候補対は、前記ＳＮＰｓの配列対に対しマッピングされる前記シーケンスリード中のＳＮＰｓの配列対に存在する配列とみなすことができる、相対数尤度スコアを求めることと；
により判定され、前記対立遺伝子候補のうち、前記遺伝子型の対数尤度スコア、及び前記相対数尤度スコアの合計が最も高いものが、前記シーケンスリードとしてみなされる尤度が最も高い対立遺伝子候補対である、コンピュータプログラム製品。