JP2021101629A

JP2021101629A - ゲノム解析および遺伝子解析用のシステム並びに方法

Info

Publication number: JP2021101629A
Application number: JP2019233587A
Authority: JP
Inventors: シュタイン、マルチン; Stein Martin; ボーネルト、レーギナ; Bohnert Regina; リーベル、ノーラ; Rieber Nora
Original assignee: Molecular Health GmbH
Current assignee: Molecular Health GmbH
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2021-07-15

Abstract

【課題】一塩基多様性（ＳＮＶ）、挿入および欠失（ＩｎＤｅｌ）、コピー数多型（ＣＮＶ）、および例えば染色体の転座、逆位、重複、大きな挿入および欠失といった構造変異等のバイオマーカーを見出す方法を提供する。【解決手段】ヒト核酸サンプルのゲノム解析および／または遺伝子解析に関し、複数のヒト基準ゲノムからなるグループを用意するステップと、ヒト核酸サンプルを試験して、性および／または祖先を調べるステップと、前記性および／または祖先を調べる試験の結果に基づいて、前記複数のヒト基準ゲノムからなるグループから一つ以上の集団に特有の基準ゲノムすなわちＰＨＲＥＧを選ぶステップと、前記ヒト核酸サンプルを前記選んだＰＨＲＥＧに位置決めするステップと、前記選んだＰＨＲＥＧと照合して変異の特定を行うステップとを開示する。さらにコンピュータシステムおよびコンピュータプログラムも開示する。【選択図】なし

Description

本特許出願はヒトの核酸サンプルのゲノム解析および遺伝子解析に用いるシステムおよび方法に関する。

＜次世代シーケンシング（以下「ＮＧＳ」ともいう）＞
高スループットシーケンシングとも知られている次世代シーケンシングは、当業者にはよく知られた核酸断片の高スループットかつパラレルシーケンシングのありふれた方法である。次世代シーケンシングの装置およびシステムは様々なサプライヤから商業的に手に入れることができる（www.illumina.com参照）。

次世代シーケンシングは次のシーケンシング技術を含む多くの異なる最新のシーケンシング技術を表すのに用いる意味の広い語である。
・イルミナ（ソレクサ）シーケンシング（登録商標）
・イオントレント：プロトン／ＰＧＭシーケンシング（登録商標）
・ＳＯＬｉＤシーケンシング（登録商標）

ＮＧＳ技術は高品質のＤＮＡ配列（「リード」）を作る。ＮＧＳ技術により作られたリードは、フレデリック・サンガーおよび彼の同僚によって１９７７年に開発されたキャピラリ電気泳動によるサンガーシーケンシング技術で作られるリード（６５０−１０００ｂｐ）よりも短い。サンガーシーケンシング技術は約３０年の間最も広く用いられていた方法であった。サンガーシーケンシング技術により作られるリードはスループットが低くまたコストが高い。一方、ＮＧＳ法に作られるリードはいずれもはるかに短く、そのコストはあまり高くない。しかしながら、ＮＧＳの一回の実行で配列決定される塩基対の全数は数桁大きい。これらの２つの要因により、このような数百万または数十億にものぼる短いＮＧＳリードを処理する能力を含む新しい情報学の課題をもたらす。配列決定された複数のリードは通常二つの方法のうちの一つの方法により処理される。すなわち、これらもリードは既にある主鎖／参照配列の正しい位置にマッピングして、主鎖と必ずしも同一ではないが同様な配列を作るか（「リードマッピング」と呼ぶ）、または、これらのリードを繋いで新しい配列（「デノボ（de novo）アセンブリ」と呼ぶ）にするかである。

デノボアセンブリと比べて基準ゲノムに戻すリードマッピングの主要な利点は、ゲノム推定の工程を極めて単純にすることである。アセンブリによってすべてのゲノム配列を見つける必要があり、多くの唯一にさだまらない点を生じさせるが、参照配列に基づく再配列では参照配列と試料の差を見つければよいだけである。複雑さおよび必要な時間を考えると、デノボアセンブリの場合、マッピングアセンブリに比べて、その処理速度は数桁遅く、より多くのメモリを必要とする。

リードマッピングは、ＮＧＳ解析パイプラインにおける第一のまた最も基本的なステップであり、既に配列決定されたヒトの基準ゲノムを基準として新たに配列決定されたヒトのゲノム（または、エクソームもしくは目標とする遺伝子の小部分のような、新たに配列決定されたヒトのゲノムの断片）の相違部分を見つけることを目的とするステップである。

さらにリードマッピングを用いて数百万または数十億の短いＮＧＳリードを配列して、ＮＧＳの実験およびその実験から得られる結論の重要な品質パラメータであるカバレッジ（特定の位置／遺伝子座にあるリードの数）を決める。

＜ヒト基準ゲノム（以下「ＨＲＧ」ともいう）＞
民間会社であるセレラゲノミクスとの共同のアメリカ合衆国連邦政府の試みである、ヒトゲノムプロジェクトは、２００１年２月に、すべてのヒトゲノムのドラフトを完成した。このドラフトはその後何度か改訂された（Lander et al. 2001, Venter et al. 2001, Church et al. 2011参照）。多年にわたって、ゲノムアセンブリは着実に進歩し、新しいバージョン（「ビルド」）が次々リリースされ、最新のゲノムレファランスコンソーティアム（ＧＲＣ）のヒトゲノムアセンブリであるＧＲＣｈ３８（Schneider et al. 2017参照）が、ほぼ間違いなく、存在するアセンブルされた最もよい哺乳類のゲノムである。ＧＲＣｈ３８の残っているアセンブリのギャップは８７５だけであり、特定されていない「Ｎ」ヌクレオチドは１億６千万より少ない（ＧＲＣｈ３８以降、ｐ８）。一方、最初のバージョンは約１５万のギャップがあった（Editorial (October 2010). "E pluribus unum". Nature Methods. 7 (5): 331. doi:10.1038/nmeth0510-331参照）。

ＨＲＧは今日人間の遺伝学およびゲノミクスにおいても唯一の最も重要な資源である。ＨＲＧは宇宙の座標システムのように働き、そのため空間であり、その中でアノテーション（遺伝子、プロモータ遺伝子等）および遺伝的変異が説明される（Harrow et al. 2012; ENCODE, 2012; 1000 Genomes Project Consortium, 2012参照）。また、ＨＲＧは次世代シーケンシング解析のパイプラインにおけるリード位置決めのステップで基準となり、このマッピングの下流では、ＨＲＧは機能アッセイおよび変異特定処理（バリアントコーリング）パイプライン用に用いられる（Li H & Durbin 2009; DePristo et al., 2011参照）。

ＨＲＧの最初の型はニューヨーク州のバッファローのボランティアの主として欧州人の起源（Snyder et al参照）の匿名の１３人のＤＮＡドナーからなる小さな群からの複数のＤＮＡ配列からなるものであった。ドナーは１９９７年３月２３日（日曜日）のバッファローニュースで募集した。最初の１０人の男性と１０人の女性が招かれてプロジェクトの遺伝カウンセラーと会い、血液を提供し、提供された血液からＤＮＡが抽出された。これらのＤＮＡサンプルが処理された方法によって、基準ゲノムの約８０％は８人の人からのものである。ＲＰ１１と指定された一人の男性のＤＮＡサンプルが全基準ゲノムの６６％を構成する。

より大きな集合の問題、例えば大規模な重複部分と構造的な変位部分を含む複雑な領域を特定し、決定するため、新しいゲノムマッピング技術からの配列データおよび新しいドナーからの単一のハプロタイプの資源を最新のビルドに投入されてきた。本出願の出願時において、ＧＲＣｈ３８は５０人の異なる人間からの配列を含む（http://www.bio-itworld.com/2013/4/22/church-on-reference-genomes-past-present-future.html参照）。

ＨＲＧの限界
１．ＨＲＧは直線状である。
人間のＤＮＡはすべて染色体と呼ばれる物理的に分離された複数のユニットに担持される。人間は２組の遺伝情報を含む２倍体生物であり、一組は母親から受け継ぎ、もう一組は父親から受け継いでいる。その結果、体細胞の各々は２２対の常染色体と呼ばれる染色体（各対の一方の染色体は一方の親からのもの）と２つの性染色体（男性はＸ染色体とＹ染色体を有し、女性は２本のＸ染色体を有する）。各染色体は単一の極めて長い線状のＤＮＡ分子を含む。人間の最小の染色体中のＤＮＡ分子は約５千万のヌクレオチド対からなり、人間の最大の染色体は約２億５千万のヌクレオチド対を含む。

２倍体の人間のゲノムは、このように２４個の異なるタイプからなる４６本の単一ＤＮＡ分子からなる。人間の染色体はほとんど同一の対で存在しているので、代表的な人間のゲノムについての完全な情報を得るには３０億個のヌクレオチド対（ハプロイドゲノム）の配列を決定する必要がある。大部分の人間の細胞６０億個のヌクレオチド対を含むが、このように人間のゲノムは３０億個のヌクレオチド対を含むと言われている。人間のハプロイドゲノムは２２本の常染色体とＹ染色体およびＸ染色体からなる。

すべての染色体のそれぞれは単一のＤＮＡ分子、すなわち連続する数百万のヌクレオチド塩基に相当する。これらのＤＮＡ分子は線状であり、各染色体は単一の連続する／線状の核酸の配列に相当すると考えるかもしれない。残念ながら、これは次の２つの理由により正しくない。
（１）ゲノムＤＮＡの性質および配列決定の限界のため、ゲノムのいくつかの部分の配列は決定されていないままである。
（２）ゲノムの領域の中には個人間での変化が極めて大きいため、単一の連続した配列として表すことができない領域がある。
しかし、ＨＲＧは通常の塩基（Ａ、Ｃ，ＴおよびＧ）からなり、集合体中の間隙の位置を明示する連続する複数の「Ｎ」として表される間隙を有する２４個の線状の配列として表される。

ヒトゲノムプロジェクトの主目標は確定できていない領域はあるものの単一の代表的な配列を作ること、すなわち物理的な染色体の各々に対して単一のスキャフォールドを作ることであった。ヒトゲノムプロジェクトは、さらにアレルの変化（ＳＮＰ遺伝子座に存在する複数の異なる種類のＤＮＡ塩基はアレルと呼ぶ）を表す少量の代わりのスキャフォールドを含んでいた。しかし、これらの代わりのスキャフォールドは主スキャフォールドと形式化された関係を有していなかった。単一の基準配列がいくつかの極めて多様な形を有するヒトゲノムの領域を十分に表していないことがわかると、極めて変化の大きい領域を代表する代わりのスキャフォールドを導入する正式なモデルがＧＲＣｈ３７（Church et al. 2011参照）から始めとして加えられた。千塩基から数百万塩基からなる代わりとなる遺伝子座のスキャフォールドの形の配列が主スキャフォールドの途中の位置に固定されており、「主要な」（単一の）アセンブリに関連して説明された。本出願の出願時におけるこのアセンブリ（ＧＲＣｈ３８、ｐ９）中では、これらの配列が１７８の領域と全部で２６１の線状の配列を占めている（Paten et al. 2017参照）

複雑にしているもう一つの要因は、ＨＲＧは国際的なゲノム配列決定プロジェクトで複数の匿名の個人のＤＮＡの集合から推定されることである。そのため、結果としてできたＨＲＧは、実際はランダムに混ざった集合体、すなわち複数の異なる１倍体のＤＮＡ配列の寄せ集めであり、単一の線状の配列として代表するものとすることができない場合があることである。

2．ＨＲＧは間違いなく病気と無縁ではない
チェンとブッテは１５個の稀な変異（メジャーアレル頻度＜１％）を含むＨＲＧ中に３５５６個の病気にかかりやすくなる変異を特定した（２０１１年）。専門家によって収集された高品質の定量的な人間の病気のＳＮＰに関するデータからなるデータベースを用いて、著者らは基準ゲノムの場合に健康な人々が１０４の病気にかかるリスクが増大する可能性について調べた。その結果、１型の糖尿病、高血圧および他の疾患のリスクが高いことがわかった。このことは、ＨＲＧは普通の人を代表するものではなく、病気と無縁ではないことは間違いないことの証拠である。ＨＲＧはヒトのゲノムの配列決定の成果の分析を著しく加速させたが、基準ゲノムと異なる変異に集中すると稀な変異を含む病気を引き起こす多くの変異を見逃す可能性が高い（Chen & Butte 2011参照）。

３．基準アレルの欧州人の祖先よりのバイアス
従来技術のＮＧＳ解析パイプラインでＨＲＧのアセンブリを用いることの主要な課題は、このようなＨＲＧが欧州人の祖先よりのバイアスを有する比較的少数の匿名のドナーのＤＮＡサンプルから抽出され、そのため人間の遺伝子の多様性からなる大きな群からの少量のサンプルを代表しているという事実である。

大多数のゲノムを表す座標系としての基準ゲノムは比較的有効であり比較的広く存在するものであるが、ＨＲＧを用いてそれにしたがって他のすべてのヒトのゲノムの研究するための用いることは極めて多くの人間の多様性を排除し、広範な基準アレルにバイアスを導入するという懸念が大きい（Petrovski et al. 2016, Paten et al. 2017参照）。基準アレルのバイアスとは、基準ゲノム中に存在するアレルは強調されて報告され、内部に含まれるＤＮＡが基準アレルと合致しない他のアレルは抑制的に報告される傾向である（Degner et al. 2009, Brandt et al. 2015参照）。

このバイアスは主に配列を再決定するときにリードをマッピングして位置決めするステップの時に生じる。マッピングを正しく行うには、複数のリードが基準ゲノム中で表されていて、しかも同じゲノム要素として特定される基準配列と十分に似ているゲノム配列から得られたものでなければならない。これらの条件が満たされない場合、マッピングの誤りによって規則的に真の配列と相違が生じてしまう（Paten et al. 2017参照）。各遺伝子座のバイアスが生じている基準ゲノムの祖先の歴史によるが、基準アレルのバイアスは特定の遺伝的な部分集合の人々には他の人たちに比べて、また特定のゲノムの領域には他の領域に比べて影響する可能性がある（Petrovski et al. 2016, Paten et al. 2017]参照）。ＨＬＡ遺伝子のように極めて多型の領域は、具体的に単一の基準ゲノムがＮＧＳリードを位置決めするためのインデックスとして用いられる場合、特に基準アレルのバイアスの影響を受けやすい（Nielsen et al. 2011参照）。このような場合、真の変異の多くはインデックスとして用いられるゲノムと異なるハプロタイプで存在するので、これらを特定することができない。したがって、このような領域で作られたリードは位置決めされずに失われる（Brandt et al. 2015参照）。

前記したように、基準アレルのバイアスはＨＲＧを用いて変異を見つけるヒトゲノム配列再決定するときの既知の問題であり、基準アレルの修整によって、変異の特定（calling）の精度と解釈を向上させることができる（Fakhro et al. 2016参照）。この問題を緩和させる方法の一つは、基準ゲノムを修整することによってゲノムの解釈工程の初期に変異発生率を修整し、その結果ゲノム中に見つかった変異が集団の中のマイナーアレルになる（Dewey et al., 2011参照）。基準ゲノムに対するこのような修整によって、偽陽性数が減り、解釈しなければならない変異の数が少なくなるので解析ワークフローが簡素化される（Fakhro et al. 2016参照）。

未来：グラフに基づく基準構造／ゲノムグラフ
単一の１倍体の基準ゲノムは人間の多様性のうちのほんの少しの部分しか表していないので、人間の遺伝学およびゲノム研究用の共通の基準として不十分であるという認識が多くなっている。基準ゲノムに関して簡単に説明することができない変異や注釈がある（^Horton et al. 2008, Pei et al. 2012参照）。さらに、単一の１倍体の基準ゲノムをリードマッピングおよびリード解釈の目標とすると、前記したような基準アレルのバイアスを導入してしまう。このような問題を緩和するため、本出願時のヒトゲノムアセンブリ（ＧＲＣｈ３８、ｐ９参照）のような最新の基準ゲノムアセンブリは、「代替遺伝子座」配列（「ａｌｔｓ」）、すなわちヒトゲノムの領域の極めて多様な形となると考えられる余分な複数の配列を含むようにした。これらの配列の両端は「主」（１倍体）基準アセンブリの複数の位置に固定されている。そのような構造は、部分的に重複する配列経路を含み、数学的なグラフの形、すなわちゲノムグラフであると考えることができる（Novak et al. 2017参照）。

グラフは生物学の配列解析の分野で長い間一定の領域を占めており、生物の配列解析ではグラフを用いて可能な配列の集合体」を簡便に表してきた。通常すべての配列はそれら自身をグラフ中の経路として間接的にコード化される。このように配列がコード化されているので、グラフは本来関連する配列の集合体である基準とする集団を表すのに非常に合っている（Paten et al. 2017参照）。グラフはサンプルの概略の配列だけでなく、多くのサンプルの特定の変異を含む。

ゲノムグラフはリードマッピング、変異特定処理およびハプロタイプ決定を向上させるものと考えられる。グラフに基づく基準が複数の人間の間の１次元的な基準や配列決定された複数の個人からなる集団を利用できる用途における１次元的な基準に取って代わることが期待される（Novak et al. 2017参照）。このようなゲノムグラフを作って用いる様々なプロジェクトが進んでいる。ゲノムグラフは現在複数の共通の変異からなるライブラリから作ることができ、まだ実験段階であるが、グラフに基づく方法の可能性が大きいことを示すツールがある。

理論的には有利な点があるものの、ゲノムグラフを用いる変異特定処理の研究はまだその端緒についたばかりである。多くの問題に取り組まなければならない。複製と繰り返しをどのように表すべきか。一致しているか否かはっきりしない複数の短い変異をどのように分類すべきか。グラフを用いてどうやればもっと包括的に多様性を分類することができるか。これらの問題の答えは未来の研究にかかっている。

ゲノムグラフが実使用において役立つには見込まれている基準のバイアスが小さいとことにより、確立された方法よりも客観的に変異特定処理を向上させることにつなげなければいけない。したがって、ゲノムグラフ用の変異特定処理のアルゴリズムを開発すること重要な研究の最先端領域となっている。

カタールゲノム（ＱＴＲＧ）
カタールはペルシャ湾岸の半島であり、その総人口は約３０万人のカタール市民からなる。カタール人の血族結婚の割合は世界で最も高い部類であり、現在もなお上昇している。カタールにおける人種内の結婚の割合はほぼ１００％に近い。大家族であることとともに、このような要因が相まって、カタールの予算の重荷となっている先天的な遺伝病が高い割合で発生している理由である。このような要因があることから、カタール政府は自国民を遺伝病のおそれから守る方策を見つけようとしている（Zayed 2016参照）。

政府の役人は２０１３年にカタールゲノムプロジェクト（QGP、http://www.gulf-times.com/story/374345/Qatarlaunches-genome-project参照）を始めることを決定した。このプロジェクトの主旨は、病気を起こす変異／稀な変異のマッピングをして、個人の治療となる方策としてカタールヒトのゲノムを確定することによって、高い割合でおきる先天的な遺伝病からカタール人を守るため各カタール市民のゲノム配列を決定することである。このプロジェクトの最終的な目標は得られた情報を臨床診療に応用して、この手法をカタールのヘルスケアシステムの通常作業の一部とすることである（Zayed 2016参照）。ＱＧＰの臨床応用を実現するために、変異特定処理を高感度および高精度にすることを含む」いくつかの重要な課題が達成されなければならない（Koboldt 2010参照）。

中東および北アフリカの地域で正確な治療を容易にするため、人口の０．４％を占める１１６１人のカタール人のすべてのゲノム配列決定からのアレルの頻度データを合体させることによってカタールのアラブ先住の地域住民の集団中の病気研究に特化した集団特有のゲノムが組み立てられた（ＱＴＲＧ）。全部で２０９０万個の一塩基多型の多型と３１０万個のＩｎＤｅｌ（挿入と欠失）がカタールで見つかった。この中には、個々のゲノムについて平均で１．７９％の新規の変異が含まれる（Fakhro et al. 2016参照）。

１０００ヒトゲノムプロジェクト（１ｋＧ）
２００８年に世界中の少なくとも１０００ヒトのゲノムの配列を決定し、それらのゲノムからヒトの遺伝的多様性（ＨＲＧＧＲＣｈ３７に関する）とヒトのハプロタイプのカタログを作製する１０００ゲノムプロジェクトができた（そのため名称が１０００ゲノムプロジェクト）。このプロジェクトの現在の第３相解析は２６の地域住民集団とそれぞれが４〜７の地域住民の集団を縫合した範囲を決めた５つのいわゆる超地域住民集団からの２５０４人の個人を含む（1000 Genomes Project Consortium et al. 2015参照）。このより小規模でのハプロタイプの資源によって、ゲノムレベルおよび地理的レベルでの遺伝的多様性を理解するのが容易になる（Baye, 2011参照）。

ＮＧＳ技術の最近の進歩により、ＤＮＡおよびＲＮＡの配列決定を迅速かつ廉価でおこなうことができ、その結果ゲノムおよび分子生物学の学問に革命がおきている。健康な集団と病気の集団のゲノム配列決定プロジェクトによって、機能と結びついたゲノムの変異または病気と結びついたゲノムの変異が特定された。これらのゲノムの変異は新しい臨床応用に用いる治療の目標またはゲノムマーカーについての手がかりを与える。

遺伝子変異特定処理は基準ゲノムに対して複数の未加工の配列のリードを位置決めする（アライメント）ことに基づくものであるのが一般的である（リードマッピング）。このアライメントに基づく手法には、多くの制限がある。そのような制限にはゲノムアセンブリが不完全になること（Meyer, L. R. et al., 2013参照）、正常な個々ヒトのゲノム中にも構造的な変化があること（Sudmant et al., 2015]参照）、リード中に配列決定の誤りがあること、およびリードマッピングによる複数の一塩基多型（ＳＮＰ）の干渉が含まれる。

現在、本願の出願時には線状のＨＲＧに対するリードマッピングは標準的な手法であり、臨床ＮＧＳ解析パイプラインおよび個々のヒトの再配列決定においては標準的な手法である。ＨＲＧが大多数のゲノムの座標系として、比較的有効であり普及しているからである。さらに（ゲノムグラフを用いるゲノムの干渉が発生する状態では相違するが）、線状の基準ゲノムを用いて変異を特定するための方法が多く発表されている（Nielsen et al. 2011）。

しかし、前記したように、一つの大きな問題は種の内部の遺伝子の多様性についての以前の情報を無視するＨＲＧ中のバイアスである。現在、この問題は基準ゲノムを修整し、修整された基準ゲノムと比較して特定した変異が集団中のマイナーアレルとなるようにして解決している。

ＮＧＳ技術を用いる臨床ゲノム研究が成功するには個々ヒトのゲノムの変異を高い精度で矛盾のなく特定することが必要である。このような目的の前提条件となるのはリードマッピング（位置決め）とその後の変異特定処理が正確に行われることである。

本願発明の一つの目的は、新しいバイオマーカーを見つけること、具体的には一塩基多様性（ＳＮＶ）、挿入および欠失（ＩｎＤｅｌ）、コピー数多型（ＣＮＶ）、および例えば染色体の転座、逆位、重複、大きな挿入および欠失といった構造変異等のヒトゲノム研究において次世代シーケンシングをするために用いる遺伝子の変異を見つけることである。

もう一つの目的は、現在のＮＧＳに基づくバイオマーカー、例えばバイオマーカーの技術が癌細胞および癌細胞の損傷したＤＮＡの解析に用いられる癌治療のために用いられるバイオマーカーの精度を上げ、さらに信頼度を上げることである。

本願発明の第１の特徴にしたがう方法は、ヒトの核酸サンプルのゲノム解析および／または遺伝子解析するための方法であって、該方法は次のステップを有する。
ａ）複数のヒト基準ゲノムからなる組を用意する。
ｂ）性および／または祖先を調べるためにヒトの核酸サンプルを試験する。
ｃ）ステップｂ）の前記性および／または祖先を調べる試験の結果に基づいて、前記複数のヒト基準ゲノムからなる組から一つ以上の集団に特有のヒト基準ゲノム（ＰＨＲＥＧ）を選択する。
ｄ）ステップｃ）で選択したＰＨＲＥＧに対して前記ヒトの核酸サンプルを位置決めする。

以下において「集団に特有なヒト基準ゲノム」（ＰＨＲＥＧｓ）は祖先に特有の基準ゲノムおよび性に特有な基準ゲノムとして理解される。ＰＨＲＥＧｓは基準のバイアスを十分に小さくし最小にし、位置決めの精度を向上させ、さらに続いて変異特定処理が行われる場合は変異特定処理の精度も向上させる。位置決めの精度を向上させるだけでなく、計算速度、正しく位置決めされたリードの数および位置決めの計算ステップ数も向上させることは本願発明の優れた点である。ヒトの核酸サンプルをゲノム解析および／または遺伝子解析するときにＰＨＲＥＧｓを用いる利点により、リードカバレッジ深さが向上し、またこの利点は変異特定処理の感度が向上によって評価できる。

本願発明の文脈では、「ヒトの核酸サンプル」という語は人のサンプルから分離された任意の核酸サンプルを通常意味する。このヒトの核酸サンプルは具体的には以下で詳細に定義されるＮＧＳリードを含むものでよい。

ヒトの核酸サンプルは通常、ヒトの核酸サンプルを作製するのに適したあらゆる生化学的手法、分子生物学的手法および細胞生物学的手法からできるサンプルである。そのような手法は、穿刺、生体組織検査、セルフリーＤＮＡキット等を含む。ヒトの核酸サンプルはあらゆる適切なソースから抽出されたものでよく、このようなソースには体液、粘膜、組織、組織からの抽出物もしくは細胞またはこれらの組み合わせたものを含まれる。ヒトの核酸サンプルはあらゆる適切なソースから抽出された比較参照サンプルでもよい。ヒトの核酸サンプルは例えば、血液サンプル、血液プラズマサンプル、尿サンプル、腫瘍サンプルを含むものでよいし、さらに
組織処理手法ＦＦＰＥ（ホルマリン固定されたパラフィン処理された組織またはホルムアルデヒド固定されパラフィン処理された組織）による固化によって生じた好ましくない加工物を含むものでもよい。

ヒトの核酸サンプルは具体的には、ＤＮＡ、ＲＮＡおよび／または完全なＤＮＡまたはＲＮＡをサイズ分画したものでもよい。対象サンプルからのＤＮＡを用意することは、一つ以上の生化学的な精製工程を含むものでよい。このような生化学的な精製工程は、例えば遠心分離、溶解および／または分画ステップ、すなわち機械的または化学的な破壊ステップによる細胞溶解を含むものでよく、この機械的または化学的な破壊ステップには複数回の凍結および／またｈ解凍サイクル、（複数回の）塩処理、フェノールクロロホルム抽出、ドデシル硫酸ナトリウム（ＳＤＳ）処理およびプロテイナーゼＫ消化を含むがこれらに限定されるわけではない。オプションになるが、対象サンプルからのＤＮＡを用意することは、さらに、ポリエチレンまたは塩の存在する状態でたくさんあるリボゾームＲＮＡのような大きなＲＮＡを除くこと、または塩好ましくは塩化カリウム溶液の存在する状態で妨げとなるドデシル硫酸ナトリウム（ＳＤＳ）を沈降させて除くことを含むものでよい。細胞および／または組織から完全なＤＮＡまたはＲＮＡを精製する方法は当業者には周知のものであり、例えばグアニジンチオシアン酸塩−酸性フェノールクロロホルム抽出液（例えば、ＴＲｉｚｏｌ（登録商標）、インヴィトロジェン、アメリカ合衆国）を使用のような標準的な手法を含む。しかし、本明細書で記載している生化学的な沈降および／または精製ステップなしで対象とするＤＮＡを用意することも同じように好ましい。

本願発明の文脈では、「核酸」という語はい一本鎖または二本鎖のディオキシリボヌクレオチドもしくはリボヌクレオチドのいずれか、または両方からなる任意のオリゴヌクレオチド分子を指し、ゲノムＤＮＡ、核ＤＮＡ、ソマティックＤＮＡ、生殖細胞系ＤＮＡおよび／または人工的に設計および／または製造されたＤＮＡが含まれ、人工的に設計および／または製造されたＤＮＡにはメッセンジャーＲＮＡのプロファイルから試験管内で生成したＤＮＡ、好ましくはｃＤＮＡの形のものが含まれるがこれに限定されるものではない。「核酸」という語は通常、同一もしくは同様な長さの、すなわち同一の数のもしくは同様な数のヌクレオチドからなる一本鎖または二本鎖のオリゴヌクレオチド分子を意味する。

ヒトの核酸サンプルはゲノムレベル、転写レベルもしくは転写後のレベルでの所定の突然変異を評価し、分析し、位置決めし、指標付けし、かつ／または概略するのに役立つゲノム配列をゆうするものでよい。そのため、本願発明にしたがうヒトの核酸は任意のコーディング領域、非コーディング領域、エキソン、イントロン、染色体領域および／または染色体内領域、プロモータ領域、エンハンサ領域、小さくかつ／もしくは長い調節ＲＮＡをコード化する領域、活性転写領域および／もしくは非転写領域、トランスポゾン、ホットスポット突然変異領域、フレームシフト突然変異領域等を含むが、これらに限定されるものではない。

「複数のヒト基準ゲノムからなる組」は少なくとも２つのヒト基準ゲノムを有し、好ましくは複数のヒト基準ゲノムを有する。ステップｂ）中の性および／または祖先を調べる試験は、ステップｃ）で前記した複数のヒト基準ゲノムからなる組から最も合致する一つ以上のヒト基準ゲノムを選ぶことである。好ましいケースでは、ステップｂ）の性および／または祖先を調べる試験によって、性および／または祖先が自動分類され、後で行う位置決めステップｄ）で用いる、一つのＰＨＲＥＧを前記複数のヒト基準ゲノムからなる組から選ぶことを可能にする。しかし、後で行う解析で用いるＰＨＲＥＧを余分に一つ以上選ぶことも可能である。

ステップｂ）での性および／または祖先を調べる試験は、専門家によって収集されたデータからなるデータベースから抽出された性および／または祖先に関する配列変異からなる性および／またに特有の部分集合に基づくのが好ましい。このような配列変異は、一塩基多型（ＳＮＰ）および／または一塩基変異（ＳＮＶ）であることが好ましい。性および／または祖先を調べる試験で用いられるこのような配列変異の部分集合は、集団に依存する人の祖先および性のパターン（ＰＨＡＳＰ）ともいう。前記した専門家によって収集されたデータからなるデータベースはすべての集団のあらゆる既知の配列変異を有するものが好ましい。ＰＨＡＳＰデータ集合は前記した専門家によって収集されたデータからなるデータベースからの抜粋したものである。このＰＨＡＳＰデータ集合はＰＨＲＥＧデータ集合よりもはるかに小さいデータ集合であり、分類するときに最も識別力があるデータ集合である。ＰＨＡＳＰを作るのに用いる手法は遺伝子型である特徴量を減少させることを含む機械学習によるコンピュータを使う方法である。このような機械学習を標準的な分類結果と比較し検査してもよい。

性および／または祖先を調べる試験は、前記ヒトの核酸サンプルの個別の配列変異パターンを検出する予備的な位置決めステップを含む。このステップでは、前記ヒトの核酸サンプルを単一のヒト基準ゲノム、例えばＧＲＣｈ３７またはＧＲＣｈ３８に位置決めする。ここでステップｂ）の試験で用いる単一のヒト基準ゲノムは、祖先に特有または性に特有のものではない。サンプルの配列変異パターンをＰＨＡＳＰデータ集合と比較することによって、患者の祖先と性を判別する。

一つの実施形態によれば、ステップｂ）の試験は性を調べる試験を含むものでよい。別の実施形態によれば、ステップｂ）の試験は祖先を調べる試験を含むものでよい。さらに別の実施形態によれば、ステップｂ）の試験は性を調べる試験と祖先を調べる試験を含むものでよい。

一つの代表的な実施形態では、複数のヒト基準ゲノムからなる組は男性基準ゲノムと女性基準ゲノムを両方有する。ステップｂ）の性試験で前記ヒトの核酸サンプルが男性基準ゲノムまたは女性基準ゲノムであると判定されると、ステップｃ）ではそれぞれ対応する男性もしくは女性基準ゲノムまたは両方が、後続するステップｃ）の位置決めで用いるＰＨＲＥＧとして選ばれる。

複数の性染色体は相同の配列を含むので、（男性の場合はＸ染色体とＹ染色体を有し、女性の場合はＹ染色体を有さない）性に合わして修正した基準ゲノムを用いることによりリードの位置決め不良が防げる。そのため、性特有の基準ゲノムを用いることにより、後で偽陽性および偽陰性の変異特定を減らす。

別の代表的な実施形態では、前記複数のヒト基準ゲノムからなる組は多数の祖先特有の基準ゲノムを有している。ステップｂ）の祖先を調べる試験は、多数の祖先特有の基準ゲノムから最も合致する一つ、または複数の基準ゲノムを決める。その後ステップｃ）では、後続のステップｄ）で用いる一つまたは複数のＰＨＲＥＧとして最も近い一つまたは複数の基準ゲノムが選ばれる。ステップｂ）の祖先を調べる試験は、多数の祖先特有の基準ゲノムから最も合致する一つ、または複数の基準ゲノムを決める。その後ステップｃ）では、後続のステップｄ）で用いる一つまたは複数のＰＨＲＥＧとして最も近い一つまたは複数の基準ゲノムが選ばれる。

間違った祖先を選ぶと多くの偽陽性の変異特定や多くの偽陰性の変異の特定をすることになる可能性がある。祖先特有の基準ゲノムを用いることにより、正しく位置決めされたリードの数を増やし、偽陽性の変異の特定および多くの偽陰性の変異の特定を減らすことを効果的にできる。

同様に、前記複数のヒト基準ゲノムからなる組が祖先特有の男性基準ゲノムと祖先特有の女性基準ゲノムを有する場合は、性を調べる試験と祖先を調べる試験を組み合わせることにより間違いがなくなる。

ステップｂ）の「試験する」という語は、ヒトの核酸サンプルの少なくとも一つの遺伝子またはゲノムを試験することを含むこととして理解されなければならない。遺伝子および／またはゲノムについて試験することは、「自己申告」から導かれたいかなる情報よりも信頼性がある。本人が報告し調査員が指定した祖先は通常、行動、文化、社会規範、皮膚の色および他の影響を含む遺伝情報および非遺伝情報の両方の複雑な組み合わせを主観的に解釈することに基づいている。研究参加者または患者が自分の民族性について誤りなく報告するのは稀である。自分の民族性について誤った報告するのにはいろんな理由がある。ある人は自分の真の祖先がわかっていないか、または最近の祖先（もしくは自分の地理的な出自）しか知らない。一方、別の人は入り交じった素性を有しているにもかかわらず、一つ民族グループで自分の民族性を特定する（Mersha & Abebe 2015参照）。文献によれば（Ainsworth, 2015および Mersha & Abebe, 2015参照）、自分で申告する祖先と性は正しくないことが多いことがわかっている。事実、１００人中一人は性発達の異常の影響を受け、そのヒトのゲノムと一致しない身体的な外観になっているという説明までアインスヴォルス（Ainsworth）はしている。

本願発明の方法はさらに性と祖先に基づいてサンプルの取り換えを見つける追加の品質チェックに使えるという利点がある。自分で申告した性および祖先と配列決定の実行により予測される性および祖先の不一致があることにより、例えば、試料の入れ換えがおきたことや他の試験所での処理の誤りがあったことがわかる場合がある。

「位置決め」という語は通常、配列決定されたサンプルを基準配列と比較して、その基準配列の適合する位置に対応させる計算ステップを意味する。この目的のために、作られた配列決定するデータ中の各リードについて、そのリードが対応する基準配列の対応する部分を見つけなければならない。言い換えれば、位置決めまたはリードマッピングは、測定する核酸の配列決定するリードについて、そのリードのソースとなった可能性が最も高いゲノム配列中での部分を決める工程である。代表的な実施形態では、測定する核酸の配列決定するリードはＮＧＳリードであるが、他の配列決定の方法からのリードもまた本願発明の開示内容に包含される。

ヒトの核酸サンプルから得られた位置決めされたリードは、表示され、保存され、印刷され、通信ネットワークを介して送信され、そうでなければさらに処理されてよい。位置決めされたヒトの核酸サンプルの別の応用および使用には具体的には一つ以上の次の事項が含まれる。

１）挿入および欠失（ＩｎＤｅｌ）の周りの局部的な再位置決め
「ＩｎＤｅｌ」という語はゲノム中の塩基対の挿入または欠失であり、代表的には1塩基対から１００００塩基対までの長さの小さい遺伝子の変形を含む。挿入および欠失の周りでの再位置決めにより、後で行うデータ解析、特に変異の特定が改善される。

２）塩基品質スコア補正（ＢＱＳＲ）
「塩基品質スコア」という語は、塩基ごとの誤りの評価値であり配列決定機器により決定された塩基の特定の信頼度を表す。塩基品質スコアは、例えば後で行う変異の特定の証拠を評価するのに用いてもよい。ＢＱＳＲは、配列決定を行う方法の物理または化学による規則的におこる技術誤差を考慮して塩基品質スコアを修正することができる。

３）次世代シーケンシング技術に共通する機械による不自然な結果から真に区別される変形を分離する機械学習

４）可能性のあるあらゆる変異を見つけるための変異の発見と遺伝子型決定。本明細書では変異特定処理ともいう。変異の発見とは、ＳＮＰ／ＳＮＶ、ＩｎＤｅｌ、ＣＮＶおよびＳＶ（染色体の転座、逆位、重複、大きいＩｎＤｅｌ）の発見を含むものでよい。

５）進化の解析による研究
進化の解析による研究は、ヌクレオチドの多様性、集団ごとの相違、連鎖不平衡および一つ以上の集団からの突然変異の頻度スペクトラムを測るツールを含むものでよい。進化の解析は、通常、進化する配列の統計値を計算する計算ツールを含むものでよい。この計算ツールは染色体またはスキャフォールド全体にわたるスラディング・ウィンドウ法による解析を行うものでよい。この計算ツールは例えばヒトの核酸サンプルの系統樹を作るものでよい。

このような進化の解析は、例えばhttps://www.ncbi.nlm.nih.gov/pmc/articles/PMC3767577/ に説明されている、例えば「ＰＯＰＢＡＭ」ソフトウェアによって実行できる。

６）野生型のバイオマーカーを探すための試験
さらに、位置決めされたヒトのゲノムサンプルは野生型のバイオマーカーが存在するかどうかを確認するために試験されてもよい。野生型のバイオマーカーとは、ＰＨＲＥＧ中に含まれるため、変異特定処理の際に検出されないバイオマーカーである。そのため、位置決め後の計算ステップは既知の各バイオマーカーを見つけるための試験を含む。この試験は、対象の位置のＰＨＲＥＧの情報が何であるかにかかわらず、位置決めされたヒトのゲノムサンプル中にバイオマーカーがあるかどうかを示す。

一つの実施形態によれば、本願発明の方法は選択したＰＨＲＥＧを基準として位置決めされたヒトの核酸サンプルの変異特定処理を行うステップをさらに有する。本願発明は、最初に性および／または祖先を調べる試験を導入して、後続する位置決めステップおよび変異特定処理のステップで用いるため正しいＰＨＲＥＧを決定することによって変異特定処理の精度を向上させる利点がある。

位置決めされたヒトの核酸サンプルは、もっと具体的にいえばヒトの核酸サンプルから抽出され位置決めされたＮＧＳリードなので、計算モジュールである一つ以上のいわゆるバリアントコーラーによってさらに処理される。このバリアントコーラーは、任意のタイプの変異（ＳＮＶ、ＩｎＤｅｌ、複製回数変化、構造変異）を検出する複数の異なる変異特定処理のアルゴリズムを有している。後続の方法ステップは変異を解釈することを含むものでよい。変異特定処理および／または変異の解釈は、表示され、保存され、印刷され、通信ネットワークを介して送信され、さもなければさらに処理されるものでよい。本願発明の方法は、用いる基準ゲノムのバイアスを除くことによって以前は見つけられなかったバイオマーカーを検出できる利点がある。具体的には、本願発明の方法は、様々な遺伝子の突然変異を見分けることができ、このような遺伝子の突然変異にはＳＮＶ、複数ヌクレオチド変異（ＭＮＶ）、複雑な事象、並びに大きな変異、具体的にはホットスポット突然変異、フレームシフト突然変異、非サイレント突然変異、終止コドン突然変異、ヌクレオチド挿入、ヌクレオチド欠失、複製回数多型、複製回数変化、および／またはスプライス部位、を含むが、これらに限定されるものではない。

ヒトの核酸サンプルのドナーは患者、すなわち所定の病気にかかっているか、所定の病気にかかっていると考えられる人である。本願発明の方法は、患者だけに適用されるものと考えてはいけない。

変異特定処理および変異の解釈は所定の病気の存在または非存在を示すゲノム配列の解析を含む。変異の解釈に基づいて、患者は所定の治療法が薦められない第1のグループまたは所定の治療法が薦められる第２のグループに分けられる。このように、本願発明の方法は、患者に所定の病気が存在するかしないかを評価して、病気を選別する手順の一部として用いることができる利点がある。

本願発明の方法は、さらに、または代わりに、ヒトの核酸サンプルに関連する、または結びついた所定の病気の症状を見つけ出すステップを含んでもよい。所定の病気の症状は、例えば電子的な健康状態の記録から見つけ出すか、計算デバイスの入力手段を介して患者自身またはかかりつけの医者によって入力されるものでもよい。このような病気の症状は疾患のオントロジ、例えばＩＳＤ−１０、ＭｅＳＨ、またはＭｅＤＲＡにしたがって特定される。所定の分類の病気の症状を見つけるに、病気の症状をより正確に分類するような利点を与える特殊なオントロジがある。腫瘍学では、ＩＣＤ−Ｏ−３および／またはＴＮＭ分類システムを用いることが有益である。

変異特定処理および変異の解釈の結果に基づき、患者の病気を考慮して、本願発明の方法はその患者の治療計画を用意することを含んでもよい。この場合、治療計画は具体的には個人向けの治療計画としてよい。ここで、治療計画とは具体的に患者用の個人向け治療計画であり、このような個人向けの治療計画は患者の遺伝子データに適合させた、具体的には患者の臨床、分子、および／または遺伝子の状態に適合させた治療の選択肢を含むものでよい。

有望な患者の治療法を決定するために、本願発明の方法は、例えば患者に見つかった複数の突然変異、すなわち、例えば患者の腫瘍中または患者の健常な比較組織中に見つかった複数の突然変異である、任意の変異が、患者を治療した結果を示しているかを調べることを含んでもよい。本願発明の方法は、さらに見つかった変異のいずれかに対応するあらゆる治療法を決定することを含んでもよい。本願発明の方法は、決定した複数の治療法を採点し、これらの治療法をその点数にしたがってランク付けして、患者のために治療の選択肢の優先順位付け、または治療の禁忌の優先順位付けをすることを含んでもよい。

本願発明の場合、「治療法」という語は治療効果のある薬または病気の症状に伴う兆候を防ぎ、改善し、治す薬学的に有効な化合物を処方することを含む。「治療法」という語はまた手術、放射線治療および／もしくは化学療法またはこれらの組み合わせを含む。

２つの選択的な治療法、すなわち、病気を選別する方法または個人向けの治療計画を行う場合に、本願発明によれば位置決めおよび変異特定処理が向上するので治療法をより適切に決めることができ、医者はその診断の能力を向上させることができる。

一つの実施形態によれば、位置決めはＰＨＲＥＧに対してメジャーアレルレベルで行われる。メジャーアレルレベルはＰＨＲＥＧ中で唯一に定まるヌクレオチドコード（Ａ，Ｃ，Ｇ，Ｔ）を用いて、所定の集団に合わせて基準配列を修正する。集団中の所定の遺伝子座では、最もよく見られる可能性のある単一のヌクレオチドが選ばれる。アレル頻度が同じ場合は、元の基準配列（例えば、ＧＲＣｈ３７またはＧＲＣｈ３８）中に存在するアレルを用いてもよい。

別の実施形態によれば、位置決めはＰＨＲＥＧに対して非稀少アレルレベルで行われる。非稀少アレルレベルは確立されたＩＵＰＡＣの命名法にしたがう唯一に定まらないヌクレオチドコード、例えば、「Ａ」または「Ｇ」を表す「Ｒ」を用いる（Cornish-Bowden, 1985参照）。非稀少レベルは集団の中の２または３個、好ましくは２個の相当な頻度のアレルをコード化する。相当な頻度とは３０％、２０％、１５％、１０％、５％、３％、１％または０．１％以上、特に５％以上である。ゲノム位置に対して１つより多い変異アレルがＰＨＲＥＧ中に取り込まれているので、より正確なリード位置決めができると考えられる。一つの実施形態では、単一ヌクレオチド変異（ＳＮＶ）のみが非稀少アレルレベルで考慮される。他の実施形態では、挿入および欠失（ＩｎＤｅｌ）並びに他の構造的な変位も考慮される。

一実施形態によれば、ＰＨＲＥＧに対する変異特定処理はメジャーアレルレベルで行われる。所定の実施形態では、位置決めは非稀少アレルレベルで行われ、変異特定処理はメジャーアレルレベルで行われるものでよい。代わりの例では、変異特定処理は非稀少アレルレベルで行われる。

一実施形態によれば、ステップａ）で用意されるヒト基準ゲノムは公表されたヒト基準ゲノムである。公表されたヒト基準ゲノムは特にＨＲＧのビルド、具体的にはＧＲＣｈ３７およびＧＲＣｈ３８のビルドを含むものでよい。さらに、また代わりに、公表されたヒト基準ゲノムはＱＴＲＧを含むものでもよい。さらに、また代わりに、公表されたヒト基準ゲノムは千ゲノム（１ｋＧ）プロジェクトで得られたゲノムを含むものでよい。１ｋＧプロジェクト用のすべての染色体のＶＣＦファイルが１ｋＧＦＴＰのサイト、ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/の最新のリリースからダウンロードして使うことができる。もしも、もっと多くの個人および民族を用いたデータセット（例えば、首長国連邦の人口を調べる千アラブゲノムプロジェクト（Al-Ali, M.et al., 2018参照））が得られれば、本願発明の方法ではそれらを使うことができる。

さらに、または代わりに、ステップａ）で用意するヒト基準ゲノムは公表されたヒト基準ゲノムから得られたものである。ここで「から得られる」とは。誤差補正および／またはヒト基準ゲノムをメジャーアレルレベルまたは非稀少アレルレベルに合わせて修正することを含むものでよい。

誤差補正が行われると、所定の集団の０人の個人に観測される基準のヌクレオチドが対応する高頻度ヌクレオチドで置き換えられる。

一つの実施形態では、ステップａ）は複数のヒト基準ゲノムを所定のコード化レベルに合わせて修正ことを含み、この場合のコード化レベルは唯一に定まるヌクレオチドコードまたは唯一に定まらないヌクレオチドコードのいずれかを含む。唯一に定まるヌクレオチドコードを含むコード化レベルは特にメジャーアレルレベルでＰＨＲＥＧを規定するのに用いられる。一意に定まらないヌクレオチドコードを含むコード化レベルは特に非稀少アレルレベルでＰＨＲＥＧを規定するのに用いられる。

一つの実施形態では、コード化レベルに合わせて修正するために、単一ヌクレオチド変異が考慮される。集団のそれぞれ（または超集団）に対して、すべての報告されているＳＮＶとそれらのアレル頻度を用いる。他の実施形態では、ＩｎＤｅｌ、ＣＮＶおよび／またはＳＶも考慮される。

一つの実施形態によれば、基準の配列を所定の集団に合わせて修正することについて、４つの異なるレベルが提案され、これらの４つのレベルのうちの２つは唯一に定まるヌクレオチドコード（Ａ、Ｃ、Ｇ、Ｔ）に限定され、別の２つはＩＵＰＡＣにしたがう唯一に定まらないヌクレオチドのコード化（Cornish-Bowden, 1985参照）、例えば「Ｒ」が「Ａ」または「Ｇ」を表すコード化を用いる。このようなＰＨＲＥＧのコード化レベルは次のように規定される。

１．最も保守的な誤差補正：集団中でどの１人にも見つからない基準ヌクレオチドは、対応する高頻度で出現するヌクレオチド、例えば対応する１ｋGの高頻度で出現するヌクレオチドで置き換える。

２．メジャーアレル：集団中の所定の遺伝子座で最も高頻度で現れる単一のヌクレオチドを選ぶ（アレル頻度に関係がある場合は、元の基準配列（例えば、ＧＲＣｈ３７またはＧＲＣｈ３８）中に存在するアレルを用いる）。

３．非稀少アレル：集団中で相当な頻度（例えば、５％以上）の２個のアレルまでを、必要ならＩＵＰＡＣコードを用いてエンコードする。

４．観測されたアレルの完全なモデル化：集団中の少なくとも一人について報告されているすべて（４個まで）のアレルを各位置でエンコードする。

しかし、レベル４のＰＨＲＥＧ中の１ｋＧの変異を完全に表すことは、不釣り合いなほど多くのゲノムの修整をすることによってなされるものであるが、このようなゲノムの修整を行えばゲノムが一意に定まらなくなり、そのためリードマッパーによって子孫を見つけることが極めて難しくなる。したがって、一つの実施形態では、レベル３を採用し、ＩＵＰＡＣの一意に定まらないことを承知して行う位置決めアルゴリズムを用いる位置決めを行う。現在最も高性能のバリアントコーラーでも一意に定まらないコードを扱うようにはできていないので、より高性能なＩＵＰＡＣの一意に定まらないことを承知して行う位置決めアルゴリズムができなければ、後続する変異特定処理ではレベル２のＰＨＲＥＧを用いる。

このように本願発明の方法は、目標とする集団により、また後続する解析により、ユーザーが規定するレベルでＰＨＲＥＧを集団のゲノムの変異に合わせて修正することができる利点がある。

一つの実施形態によれば、ステップａ）で用意するヒト基準ゲノムはＰＨＲＥＧである。したがって、ステップａ）は例えばＰＨＲＥＧを公のデータ源からダウンロードすることを含むものでよい。

前記したように、ＰＨＲＥＧはそもそも祖先に特有な基準ゲノムかつ／または性に特有な基準ゲノムとして理解される。一つの実施形態では、ステップａ）で用意するヒト基準ゲノムは集団の祖先および／または性を示すメタデータを含むので、既に集団に特有なものである。例えば、本願の出願時において、１ｋＧプロジェクトの現在の第３相解析は２６の集団および４から７個の集団を統合して形成した５つのいわゆる超集団からの２５０４人の個人を含む。これらの１ｋＧ研究第３相の２６の集団と関連する５個の超集団（ＡＦＲ：アフリカ、ＡＭＲ：混合したアメリカ、ＥＡＳ：東アジア、ＥＵＲ：ヨーロッパ、ＳＡＳ：南アジア）に結果は、http://www.internationalgenome.org/faq/which-populations-are-part-your-studyでわかる。

一つの実施形態では、１ｋＧプロジェクトのデータを用いて前記した３１個の（超）集団と他のすべての集団を含む追加する超集団のそれぞれを表す最適化された集団のそれぞれに特有のゲノムを構築する。

ステップａ）で用意するヒト基準ゲノムである場合、ＰＨＲＥＧのメタデータは例えば公のデータ源からダウンロードすることにより用意することで差し支えない。このようなメタデータは本願発明の品質管理をするのに役立つ。もしも、このメタデータと性クラシファイアのデータおよび祖先クラシファイアのデータが合致するならば、品質管理は成功していると考えてよい。合致していないならば、ソフトウェアがユーザーに対して表示する警報または警告を発してもよいし、さらに、または代わりに、ソフトウェアが例えば位置決めステップの前に一連のステップの進行を停止してもよい。

一つの実施形態によれば、性を調べる試験は次のステップのうちの少なくとも一つを含む。Ｘ染色体および／またはＹ染色体上の性特有の遺伝子中の少なくとも一位置を試験すること、Ｘ染色体および／またはＹ染色体上の複数のヒトゲノムサンプルの位置決めの違いを利用すること、細胞遺伝学的試験、ＦＩＳＨ解析、ＣＧＨ解析、またはヒトの核酸サンプルの性を直接的もしくは関接的に決定すること。

前記したように、性を調べる試験はヒトの核酸サンプルのＦＩＳＨ解析（蛍光in-situハイブリッド形成解析）の副産物の結果としてよい（Gall J. G. 1969参照）。また、性を調べる試験はＣＧＨ解析（比較ゲノムハイブリッド形成法）の副産物の結果としてよい（Kallioniemi A. et al. 1992参照）。

性を調べる試験により男性または女性の核酸サンプルを効率的かつ確実に区別することが可能になる。

一つの祖先または民族からの複数の個人は他の祖先または民族と区別される多くのＳＮＰを共有するので、所定の範囲の祖先を決定する複数のＳＮＰを調べることによってリードマッピングおよび変異特定処理に用いるのに最も適切なＰＨＲＥＧを特定できる。このように祖先紙面の結果に基づいて、複数のヒト基準ゲノムの組からＰＨＲＥＧを選べる。

最もよくマッチするＰＨＲＥＧの基準を決めて誤りを防ぐため、位置決めを進める前に個人の祖先を確かめる上流のゲノム解析パイプラインステップでは複数の異なる実験のセットアップを用いることができる。

１）祖先を調べる試験はヒトの核酸サンプルに対して用いる機械学習アルゴリズム、または祖先に特有の変異を利用する別の分類スキームに基づくものでよい。祖先試験は特に複数のエキソン位置、例えば１００より多い、５００より多い、１０００より多い、２０００より多い、好ましくは５０００より多いエキソン位置の遺伝子型を利用する機械学習に基づくものでよい。

２）適切な遺伝子型を決めることは、ＮＧＳデータまたは代わりの実験手法、例えば法医学的研究で行われるＳＮＰアレイ（Fondevila et al. 2013参照）に基づいて行うことができる。ここで、非コーディングＳＮＰを用いることは民族を決めるのに役立つ。

３）２）の代わりの実験手法からの法医学ＳＮＰアレイ中で試験されるのと同じ非コーディングＳＮＰ（およびその両側の領域）を存在するＮＧＳパネルに加えて適切な遺伝子型を決定することもできる。

特に、祖先を調べる試験は少なくとも一つのゲノム位置の遺伝子型を用いることを含むものでよい。

一つの具体的な実施形態では、祖先を調べる試験は本明細書に含まれる配列プロトコルから選ばれた少なくとも一つの遺伝子を試験することを含むものでよい。正確な結果を出すために本明細書に含まれる配列プロトコルからの２４９の遺伝子が示された。

追加として、または代わりとして、祖先を調べる試験は、複数のＳＮＰアレイおよび／もしくは複数のＳＮＰチップの試験、並びに／またはサンガー配列決定もしくは質量分析からのマーカーの試験、または適切な遺伝子型を決めるための任意の他の実験方法を含むものでよい。

一つの具体的な実施形態では、祖先を調べる試験はＡＢＬ２、ＡＴＰ１Ａ３、ＣＩＣ、ＣＹＰ２Ｃ８、ＣＹＰ２Ｃ９、ＥＰＨＡ３、ＥＰＨＡ７、ＥＲＢＢ３、ＥＲＧ、ＥＴＶ１、Ｆ２、ＦＡＳ、ＨＦＥ、ＩＬ１１ＲＡ、ＩＬ２ＲＡ、ＩＴＧＢ６、ＫＩＦ１１、ＫＩＴ、ＫＬＫ３、ＬＲＰ６、ＭＤＭ４、ＮＡＴ２、ＮＴＲＫ２、ＰＤＧＦＢ、ＰＩＫ３Ｒ１、ＰＬＡ２Ｇ３、ＰＬＡＵ、ＰＲＫＣＢ、ＲＩＣＴＯＲ、ＳＬＣ７Ａ１１、ＳＴＡＴ３、Ｔ、ＴＳＣ１、ＶＣＡＭ１、ＶＤＲ、ＶＥＧＦＢ、ＡＣＶＲＬ１、ＡＸＬ、ＣＡ９、ＣＡＬＣＲ、ＣＡＳＰ９、ＥＮＧ、ＥＰＨＢ１、ＥＲＢＢ４、ＥＳＲ１、ＦＧＦＲ２、ＨＰＳＥ、ＨＳＰ９０ＡＡ１、ＩＴＫ、ＭＲＥ１１Ａ、ＰＬＫ１、ＰＴＰＲＣ、ＳＥＲＰＩＮＥ１、ＳＭＣ４、ＴＥＲＴ、ＴＬＲ３、ＷＩＳＰ３、ＷＴ１、ＸＲＣＣ１、ＡＮＧＰＴ２、ＡＲＩＤ２、ＢＡＲＤ１、ＣＢＲ３、ＣＤＨ２、ＣＹＰ１Ｂ１、ＤＤＲ２、ＤＮＭＴ３Ａ、ＥＰＣＡＭ、ＥＲＣＣ２、ＦＡＮＣＧ、ＦＡＮＣＬ、ＧＳＴＰ１、ＩＲＳ２、ＩＴＧＢ１、ＪＡＫ３、ＬＨＣＧＲ、ＭＳＨ６、ＮＣＦ２、ＲＮＦ４３、ＳＬＣ５Ａ５、ＴＭＰＲＳＳ２、ＴＮＦＲＳＦ８、ＡＫＴ１、ＣＤ２４８、ＣＤ４、ＥＳＲ２、ＥＺＨ２、ＩＧＦ１Ｒ、ＩＴＧＡＶ、ＩＴＧＢ２、ＫＬＨＬ６、ＭＡＰ３Ｋ１、ＭＥＴ、ＭＬＬ、ＭＴＨＦＲ、ＮＦＫＢ１、ＮＵＰ９３、ＰＡＲＰ８、ＲＢ１、ＲＰＥ６５、ＴＳＨＲ、ＡＢＬ１、ＢＬＭ、ＣＹＰ１９Ａ１、ＤＰＰ４、ＥＰＨＡ６、ＥＲＢＢ２、ＥＷＳＲ１、ＦＯＸＰ４、ＩＴＧＡＭ、ＫＤＭ５Ａ、ＬＰＡ、ＬＴＫ、ＭＬＨ１、ＰＢＲＭ１、ＰＨＬＰＰ２、ＳＦ３Ｂ１、ＴＮＦＲＳＦ１０Ａ、ＡＢＣＧ２、ＡＣＰＰ、ＡＤＡＭ１５、ＤＰＹＤ、ＥＰＨＡ５、ＥＰＨＢ６、ＦＯＬＨ１、ＫＤＲ、ＭＳＨ３、ＭＳＴ１Ｒ、ＮＴＲＫ１、ＲＯＣＫ２、ＳＬＣ６Ａ２、ＴＥＴ２、ＴＧＭ２、ＴＨ、ＡＢＣＢ１、ＣＤ２２、ＣＤ４０、ＣＤ４４、ＣＤＨ２０、ＣＹＰ１１Ｂ２、ＥＲＣＣ５、ＧＰＲ１２４、ＩＬ７Ｒ、ＩＴＧＢ３、ＩＴＧＢ５、ＮＣＬ、ＮＯＤ２、ＮＲ４Ａ１、ＰＧＲ、ＰＬＣＧ１、ＰＰＰ２Ｒ１Ａ、ＰＲＡＭＥ、ＰＴＣＨ２、ＲＥＴ、ＳＥＴＤ２、ＸＰＣ、ＡＳＸＬ１、ＥＰＨＢ４、ＰＬＡ２Ｇ６、ＳＹＫ、ＴＥＴ１、ＥＰ３００、ＦＬＴ１、ＩＴＧＡ１、ＬＯＸＬ２、ＰＤＧＦＲＢ、ＰＩＫ３ＣＤ、ＳＳＴＲ５、ＴＥＣ、ＡＰＣ、ＡＴＲ、ＣＬＵ、ＣＲＥＢＢＰ、ＣＹＰ２Ｄ６、ＥＭＬ４、ＭＭＰ２、ＰＡＲＰ２、ＰＤＧＦＲＡ、ＴＲＰＭ８、ＣＳＦ１Ｒ、ＤＯＴ１Ｌ、ＦＧＦＲ３、ＦＧＦＲ４、ＧＬＰ２Ｒ、ＩＫＢＫＥ、ＪＡＫ１、ＮＯＴＣＨ２、ＳＰＥＮ、ＳＰＧ７、ＢＲＣＡ１、ＣＹＰ１１Ｂ１、ＧＮＡＳ、ＩＴＧＡ５、ＬＴＦ、ＮＲＰ２、ＰＴＫ２Ｂ、ＴＮＫＳ、ＡＢＣＣ１、ＣＥＡＣＡＭ５、ＣＹＰ４Ｂ１、ＥＧＦＲ、ＦＬＴ３、ＩＮＳＲ、ＰＴＣＨ１、ＳＭＡＲＣＡ４、ＺＮＦ２１７、ＢＣＲ、ＥＥＦ２、ＳＥＬＰ、ＳＬＣＯ１Ｂ１、ＡＢＣＣ２、ＦＬＴ４、ＭＴＲ、ＩＬ４Ｒ、ＭＴＯＲ、ＲＰＴＯＲ、ＴＥＫ、ＡＴＭ、ＣＡＲＤ１１、ＦＡＮＣＤ２、ＭＥＦＶ、ＮＦ１、ＴＰ７３、ＢＲＣＡ２、ＣＤ１０９、ＰＴＰＲＤ、ＡＢＣＣ６、ＩＧＦ２Ｒ、Ｐ２ＲＸ７、ＲＯＳ１、ＡＣＥ、ＰＡＲＰ１、ＰＲＫＤＣ、ＣＥＮＰＥ、ＴＳＣ２、ＡＬＫ、ＮＯＴＣＨ１、ＴＮＣ、ＮＯＴＣＨ３、ＰＯＬＥ、ＭＬＬ２、ＭＹＨ１１、ＰＯＬＤ１、ＧＲＩＮ３Ｂ、Ｆ５、ＦＡＮＣＡ、ＬＲＰ１Ｂ、ＬＲＰ２、ＶＷＦからなる遺伝子グループから選ばれる少なくとも一つの遺伝子を試験することを含む。

さらに具体的な実施形態では、祖先を調べる試験は別表１に一覧表にした複数のゲノム座標のグループから選ばれた少なくとも一つゲノム座標を試験することを含む。別表１は祖先分類器に用いられる特徴部分のＧＲＣｈ３７に基づくゲノム座標を記載する。最初３列はＢＥＤファイル標準（https://www.ensembl.org/info/website/upload/bed.html参照）にしたがってフォーマットされており、（左から右へ）染色体、特徴部分の左端を０としたときの開始座標、特徴部分の左端を０としたときの終了座標（すなわち、特徴部分の終了位置の後の最初の位置）に対応する。第４列は特徴部分の位置の分類器に適切な塩基を示す。第５列は対応する遺伝子名を示す。

遺伝子名はＨＵＧＯ遺伝子命名法委員会（ＨＧＮＣ、https://www.genenames.org/参照）で認められたものである。ＨＧＮＣはタンパク質をコードする遺伝子、ｎｃＲＮＡ遺伝子および偽遺伝子を含む人の遺伝子座の固有の符号および名前を認可して、科学的な情報伝達が一意的に行えるようにする責を負っている。本明細書中で用いられる遺伝子名は２０１３年８月に読みこんだものである。

他の特別な実施形態では、祖先を調べる試験は別表２（Fondevila et al. 2013参照）に一覧表にした複数のＳＮＰのうちの少なくとも一つを含む。別表２はＳＮＰが位置する染色体の番号（左列）、正確な染色体の位置（真中の列）および対応するｒｓ番号（右列）を示す。ここでｒｓ番号はＳＮＰデータベース（ｄｂＳＮＰ、https://www.ncbi.nlm.nih.gov/projects/SNP/参照）中で、ＮＣＢＩ（アメリカ生物工学情報センター）によって付与された認可番号であり、複数のゲノムデータベースにわたって特定のＳＮＰを指すのに広く用いられている。複数の研究者が一つのＳＮＰを特定すると、彼らは報告書（そのＳＮＰの直ぐ周りの配列を含む）をｄｂＳＮＰデータベースに送る。もしも重複する報告書が送られると、それらは併合されて固有一つの固有のｒｓｉｄが割り当てられた同じ重複のない基準ＳＮＰクラスタになる。さらなる情報がＵＲＬ、http://www.ncbi.nlm.nih.gov/sites/books/NBK44406/で得られる。

このような祖先を調べる試験は複数の祖先のカテゴリの区別を可能にする遺伝子および／またはゲノムの試験を含む。このような複数の祖先のカテゴリは１ｋＧプロジェクトにしたがってＡＦＲ、ＡＭＲ，ＥＡＳ、ＥＵＲ，ＳＡＳとして決められる。しかし、本願発明の方法は、１ｋＧプロジェクトのデータに限定されず、例えばもっと多くの個人／民族によるもっと包括的なデータ組が得られるならば、これらのデータ組を同じ目的のために代わりに用いることもできる。

一つの実施形態によれば、ヒトの核酸サンプルは次世代シーケンシング方法から公表された複数のリードの組を含んでいる。位置決めはこれらのリードを選択したＰＨＲＥＧに対応させる（マップする）ステップを含む。さらに、または代わりにヒトの核酸サンプルはターゲット配列決定方法、例えばパネル配列決定により公表された複数のリードの組を含む。

本願発明の方法をＨＲＧに対して行うリードマッピングに基づく現存するＮＧＳ解析のいずれにも問題なく組み合わせることができるのは有利な点である。

ヒトの核酸サンプルのリードを選択したＰＨＲＥＧに対応させて（マッピングして）そのヒトの核酸サンプルをその選択したＰＨＲＥＧに対して位置決めするには、予めＤＮＡまたはｃＤＮＡサンプルをランダムに切断して、その後５‘−および３’−アダプター結紮を行って配列決定するライブラリを準備することが必要とするものでよい。所定の実施形態では、切断および結紮反応を組み合わせて単一のステップとして行い、その後にアダプター結紮した断片をＰＣＲ増幅する。

ヒトの核酸サンプルのリードを選択したＰＨＲＥＧに対応させて（マッピングして）そのヒトの核酸サンプルをその選択したＰＨＲＥＧに対して位置決めすることには、前記した複数のＤＮＡ短片の組の配列決定をして、約２８塩基対から１０００塩基対の長さの複数のリードを作製すること（Goodwin S. et al. 2016参照）が必要であるとしてよい。このＤＮＡ短片の組は、問われている実験の課題に見合う所定の目標領域の範囲に相当する十分の数のリードを含む（通常数個から数千個）。

一つの実施形態では、次世代シーケンシング方法は全エクソームの配列決定を含む。別の実施形態では、次世代シーケンシング方法はゲノム全体の配列決定を含む。「全エクソームの配列決定」という語は一つのゲノム中のすべてのタンパク質をコーディングする遺伝子（エクソームとして知られる）の配列を決定するための手法を通常意味する。この方法はまずタンパク質をエンコードするＤＮＡ（エキソンとして知られる）の部分集合を選択し、任意の高スループットＤＮＡ配列決定手法を用いてこのＤＮＡの配列を決定することからなる。人はヒトゲノムの１．５％、または約３千万個の塩基対を構成する約１８万個のエキソンを有する。特に、エクソームの配列決定は次世代シーケンシング手法によって行われるものでよい。「全ゲノムの配列決定」（ＷＧＳ、フルゲノム配列決定、完全ゲノム配列決定または全ゲノム配列決定としても知られる）は１回で生命体のゲノムの完全なＤＮＡ配列を決定する実験室プロセスである。このプロセスは生命体の染色体のＤＮＡだけでなくミトコンドリアに含まれるＤＮＡの配列もすべて決定することを必然的に伴う。

本願発明のもう一つの特徴にしたがうのは、ヒトゲノムサンプルの遺伝子解析用のコンピュータシステムであって、このコンピュータシステムは、
ａ）複数のヒト基準ゲノムの組を用意するコンピュータ命令を有する第１のモジュールと、
ｂ）ヒトの核酸サンプルを試験して性および／または祖先を調べる第２のモジュールと、
ｃ）前記性および／または祖先を調べる試験の結果に基づいて前記複数のヒト基準ゲノムの組から集団に特有なヒト基準ゲノムすなわちＰＨＲＥＧを一つ以上選ぶためのコンピュータ命令を有する第３のモジュールと、
ｄ）前記ヒトの核酸サンプルを前記選択した一つ以上のＰＨＲＥＧに対して位置決めするためのコンピュータ命令を有する第４のモジュールと、を含む。

具体的に、前記コンピュータシステムは前記した複数の方法のどれでも、実行できるようになっている、または実行できる構成を有しているものでよい。そのため、前記した複数の方法に関して説明した特徴は前記コンピュータシステムのために開示したものであるし、逆に前記コンピュータシステムに関して説明した特徴は前記した複数の方法のために開示されたものでもある。

前記したモジュールはソフトウェアモジュール、ソフトウェアルーチンまたはソフトウェアサブルーチンでよく、書き換え不能な、もしくは書き換え可能な記憶手段のような機械が読み取り可能な記憶媒体、またはコンピュータ手段に用いられる記憶媒体、例えばＣＤ−ＲＯＭ、ＤＶＤ、ブルーレイディスク、スティックもしくはメモリカードのような携帯型記憶手段に保存される。さらに、または代わりに、このようなモジュールは、例えばインタネットのようなデータネットワークを経由して、または電話回線もしくは無線のような通信回線を経由してダウンロードするサーバーまたはクラウドサーバーに備えられる。

本明細書で開示モジュールはいずれも複数の機能ユニットとしてよく、これらの機能ユニットは必ずしも互いに物理的に別体のものではない。これらのモジュールのユニットのいくつかは、単一の物理ユニットの形態で実現されるものでよく、例えばいくつかの複数の機能が一つのソフトウェアパッケージの中で実装される場合があてはまる。

本明細書で開示する複数のコンピュータモジュールは必ずしも一体化したシステムの一部でなくてもよく、コミュニケーションネットワークを介して互いに作用し合ういくつかの個別システムに分散していてもよい。

一つの実施形態によれば、ヒトの核酸サンプルを試験して性および／または祖先を調べる第２のモジュールは複数のコンピュータ命令を有するコンピュータモジュールである。さらに、または代わりに、第２のモジュールはウェット−ラボ実験、例えばＦＩＳＨ検査を行う実験を含むものでよい。ＦＩＳＨ検査の結果は電気的に、または視覚的に分析して、サンプルの性を判定するものでよい。

本願発明のもう一つの特徴によるコンピュータプログラムは、コンピュータによってそのプログラムが実行されると、該コンピュータが前記した複数の方法うちのどの方法でもその前記複数のステップａ）、ｂ）、ｃ）およびｄ）を実行する複数の命令を含む。

本願発明のさらに別の特徴によるコンピュータ読み取り可能な記憶媒体は、コンピュータによって実行されると、そのコンピュータが前記した複数の方法うちのどの方法でもその前記複数のステップａ）、ｂ）、ｃ）およびｄ）を実行する複数の命令を含む。

既に説明したように、本願発明の方法は所定の病気の指標となる、または患者が所定の治療法に合っていることの指標となる患者のゲノム中の異常を特定するの特に適している。

ここで、「病気」という語は一つ以上のゲノムの異常で特徴づけられる任意の病気を含む。この「病気」という語は、癌、自己免疫病、心臓血管病および任意の遺伝病を含む。患者はいかなる種でもよいが、哺乳類であることが好ましく、人間であることがさらに好ましい。

病気とその治療法により、当業者は患者に有効な個別の治療モードを選択できる。

結果として、本願発明のさらに別の特徴は、患者の病気を診断する方法に関するものであり、該方法は、患者の病気の症状の特定結果を抽出し、前記患者から核酸サンプルを取得し、本明細書に記載されたヒトの核酸サンプルのゲノム解析および／または遺伝子解析の方法にしたがって前記核酸サンプルのゲノム解析および／または遺伝子解析を行い、その解析によって前記患者の病気の状態を判定する。

病気の症状の特定結果は任意の公知の方法によって抽出すればよく、例えばユーザーの入力として、電子健康記録もしくは電子診断記録から、または診断記録を含む患者のデータベースから抽出すればよい。

この本願発明の特徴に関して、「病気の状態」という語は一つの実施形態では患者が病気にかかっていることが確認されたことを意味する。別の実施形態では、この語は病気をより精密に診断すること、すなわち、その病気の亜型のどれに該当するかを特定することを意味する。

本願発明はさらに患者の病気を治療する方法に関し、該方法は、患者の病気の症状の特定結果を抽出し、前記患者から核酸サンプルを取得し、本明細書に記載されたヒトの核酸サンプルのゲノム解析および／または遺伝子解析の方法にしたがって前記核酸サンプルのゲノム解析および／または遺伝子解析を行い、その解析によって前記患者の病気の状態を判定して前記患者を治療する。

本願発明のさらに別の特徴は患者が所定の薬による治療に合っているかどうかを判定する方法に関し、該方法は、患者の病気の症状の特定結果を抽出し、前記患者から核酸サンプルを取得し、本明細書に記載されたヒトの核酸サンプルのゲノム解析および／または遺伝子解析の方法にしたがって前記核酸サンプルのゲノム解析および／または遺伝子解析を行い、前記患者の病気の症状に対する可能な治療法を抽出し、変異特定処理および変異の解釈を行い、さらに前記変異の解釈に基づいて抽出した可能な治療法を分類し、各治療法が前記患者にとって望ましく推奨される治療法として、または患者にとって禁忌となる治療法として分類される。

この方法によって、患者が利用できる治療法または患者に有効な治療法を判定することができる。例えば、所定の治療法が患者に合っているか、または所定の治療法の副作用が許容できると予測されるかを判定できる。

病気の症状の特定結果はここでも任意の公知の方法によって抽出すればよく、例えばユーザーの入力として、電子健康記録もしくは電子診断記録から、または診断記録を含む患者のデータベースから抽出すればよい。

患者の病気の症状に対する可能な治療法は公知の方法、例えばデータベースから抽出すればよい。

本願発明はさらに患者を治療する方法に関し、該方法は、患者の病気の症状の特定結果を抽出し、前記患者から核酸サンプルを取得し、本明細書に記載されたヒトの核酸サンプルのゲノム解析および／または遺伝子解析の方法にしたがって前記核酸サンプルのゲノム解析および／または遺伝子解析を行い、前記患者の病気の症状に対する可能な治療法を抽出し、変異特定および変異の解釈を行い、さらに前記変異の解釈に基づいて抽出した可能な治療法を分類し、各治療法が前記患者にとって望ましく推奨される治療法として、または前記患者にとって禁忌となる治療法として分類し、前記患者にとって望ましく推奨される治療法のうちの一つを選び、その選んだ治療法にしたがって前記患者を治療する。

患者の病気の症状に対する可能な治療法は公知の方法、ここでも例えばデータベースから抽出すればよい。

本明細書の前記した内容並びに他の目的、特徴、特徴づける部分および利点は添付した図面と一緒に以下の発明の詳細な説明を参照することにより一層明らかになり、理解が深まる。
図１は、本願発明にしたがうヒトの核酸サンプルのゲノム解析および／または遺伝子解析する方法を示すフローの略図である。図２は、本願発明にしたがうデータ解析の方法を示すフローの略図である。図３は、複数のリードマッピングのステップを図解するものである。図４は、本願発明にしたがうヒト核酸サンプルのゲノム解析および／または遺伝子解析する方法を示すフローの略図である。図５は、ＭＨパネルについて計算した、性分類器用に選ばれた特徴の分布を表す図である。図６は、２つの性―祖先分類器（性分類器および祖先分類器）とＥｔｈＳＥＱのメモリ使用量と実行時間の箱ひげ図である。

添付した図面の詳細な説明
図１はヒトの核酸サンプルのゲノム解析および／または遺伝子解析のための通常のワークフローを図解し、このワークフローはヒトの核酸サンプルを抽出する工程と、配列ライブラリを用意する工程と、配列を決める工程と、後でデータ解析する工程を含む。本願発明の説明の中では、ヒトの核酸サンプルを抽出する工程と、配列ライブラリを用意する工程と、配列を決める工程とは周知の標準的な工程なので、詳細については説明しない。発明部分であるデータ解析の部分の詳細が図２に示されている。

図２は、図１のデータ解析ステップを示し、このデータ解析ステップは、第１の性および祖先試験ステップと、それに続く位置決め（またはリードマッピング）ステップ、変異特定処理ステップおよび注釈を付けるステップを含む。リードマッピング計算モジュール用の入力ファイルは、例えばＦＡＳＴＱファイルの形式の生の配列データである。リードマッピング計算モジュール用の出力ファイルは、例えば変異特定処理の計算モジュール用の入力ファイルであるＢＡＭファイルである。変異特定処理の計算モジュール用の出力ファイルは、例えばＶＣＦファイルである。後で用いる注釈を付ける計算モジュールは、ＶＣＦファイルからのデータに注釈を付け、注釈の付いたデータを要求されるＰＤＦやＨＴＭＬのような形式にして出力するものでよい。ここで用いるファイルの形式は代表的なものを挙げたにすぎず、異なる形式にしてもよい。例えば、ＢＡＭの代わりにＳＡＭファイル，ＣＲＡＭファイル等を用いることができる。また、図２中のデータ解析パイプラインは入力ファイルまたは出力ファイルを一つの形式から別の形式に変換する複数のコンピュータモジュールを含むものでよい。

図２はさらに従来技術の状況を本願発明の状況と比較している。（図２中で「Ａ」で示される）従来技術の方法は性および祖先を調べる試験を行わない。したがって位置決めおよび変異特定処理は標準的なＨＲＧと比較して行われる。（図２中で「Ｂ」で示される）本願発明にしたがう方法は一つ以上のＰＨＲＥＧの選択を可能にする性および祖先を調べる試験を行う。その後の位置決めおよび変異特定処理はこの選択したＰＨＲＥＧと比較して行われる。

図３は代表的なリードマッピングステップの概略を示している。この例では、ＮＧＳリードは祖先に特有のＳＮＰ「Ａ」を有している。祖先に特有のＳＮＰ「Ａ」は、以前は見つかっていないバイオマーカー変異「Ｇ」から極めて近い範囲に位置している。ここで近い範囲とはリードの長さまでの範囲である。

位置決め工程では、ＮＧＳリードは標準的なＨＲＧと比較され、２つの不一致部分、すなわち祖先に特有なＳＮＰおよびバイオマーカー変異を生じている。しかし、位置決め工程では、同じＮＧＳリードが対応するＰＨＲＥＧと比較されると、このＰＨＲＥＧは祖先に特有な位置で既に変更されていて、祖先に特有なＳＮＰと同一なので、ＮＧＳリードが生じさせる不一致部分、すなわちバイオマーカーは一つだけである。

位置決めアルゴリズムは配列決定されるリードと選択された基準ゲノムの間に不一致部分および／または隙間ができると必ず罰点を与える得点システムを用いる。その結果リードは最も高いスコアの位置に位置決めされる、またはすべての位置で点が低いため、もしくは非常に多くのゲノム位置で位置決め点が同じために、どの位置にも位置決めされない。位置決めのアルゴリズム実施中に判明する不一致部分による罰点のため、リードはＰＨＲＥＧと比較された場合に位置決めされる可能性よりも、ＨＲＧと比較されて位置決めされる可能性は低い。別の変異がリード長の範囲内にあるときは、特にこのようになる。したがって、このリードは捨てられるか、最悪の場合はＨＲＧの誤った位置に位置決めされる。

このように、ＰＨＲＥＧと比較することにより、祖先特有の変異部位の領域に由来するリードを救出できる効果があり、特にリードが祖先に特有な変異に加えてさらに別の変異（例えば、病気をおこさせる変異）を有する場合、この効果がある。これによって、以前は見つからなかったバイオマーカーを検出することが可能になる。

図４は、本願発明によるヒトの核酸サンプルのゲノム解析および／または遺伝子解析をするための方法を示すフローチャートである。

第１ステップでは、複数のヒト基準ゲノムの組を、処理ユニットを有するシステムに提供する。この目的で、前記システムの第１コンピュータモジュールは遠くにある装置、例えばインターネットデータベースから基準ゲノムをダウンロードできる。前記処理ユニットはＲＡＭのような内部メモリを有して命令を保存し実行することを可能にするプロセッサを少なくとも含み、プログラム可能なコンピュータであればいかなるコンピュータでもよい。前記処理ユニットはデータの組、例えば患者の臨床データおよび遺伝子プロフィルだけでなく遺伝子ヒト基準ゲノム、並びにコンピュータファイルを保存できる不揮発性記憶手段にアクセスできる。前記システムはＬＡＮまたはインタネットのような通信ネットワークにアクセスできる。

第２ステップでは、前記システムのコンピュータシステムはヒト基準ゲノムを、好ましくは前記システムのユーザーが決めたコード化レベルに調整する。このコード化レベルは唯一のヌクレオチドコードまたは唯一に定まらないヌクレオチドコードを含むものでよい。所定の実施形態では、ヒト基準ゲノムを調整して母集団に合わせる４つの異なるレベルが提案されている。これらの４つのレベルのうちの二つでは、唯一に定まるヌクレオチドコード（Ａ，Ｃ，Ｇ，Ｔ）のみを用い、他の二つではＩＵＰＡＣの命名法、特に最大限保守的なエラー修正、メジャーアレルレベル、非稀少アレルレベルおよび観測されたすべてのアレルの完全なモデリングによる、唯一に定まらないヌクレオチドコード化、を用いる。

第３ステップでは、患者のヒト核酸サンプルが用意される。この目的で、前記コンピュータシステムのもう一つのコンピュータモジュールが例えばＦＡＳＴＱファイル形式の生の配列データを対象のサンプルの配列決定を遠くにあるプラットホームで行う配列決定をする研究所からダウンロードすることができる。代わりの実施形態では、配列決定は核酸サンプルの解析を行う部門で行ってもよく、その結果を内部で移す。第３ステップに関連して、前記システムは患者の臨床データ、例えば患者が罹患している病気についての情報や現在のその治療法についての情報等を入力ソースから受け取ることができる。患者の臨床データは、例えば患者から直接受け取ってもよい、例えばキーボードでタイプ、またはキーボードでタイプされたテキストから推定してもよく、またはＧＵＩ中の多機能選択型素子から受け取ってもよい。患者の臨床データは、電子健康記録（ＥＨＲ）または電子医療記録（ＥＭＲ）から受け取り、チップカード上にまたは通信ネットワークを介して検索可能なデータベース中に保存してもよい。

第４ステップでは、ヒト核酸サンプルを試験して性および／または祖先を予測する。再び述べるが、この試験は被験者の近くで行ってもよく、または前記システムの別のコンピュータモジュールを使って、通信ネットワークを介して外部のサービスプロバイダから試験の結果を読み取ってもよい。性および／または祖先の試験は、第２の計算モジュールまたは別のウェットラボ実験によって行ってもよい。

第５のステップでは、第４ステップの性および／または祖先の試験の結果に基づいて、一つ以上のＰＨＲＥＧがヒト基準ゲノムの組から選択される。この選択は第３計算モジュールによって行われるものでよい。

第６ステップでは、ヒトの核酸サンプルを選択したＰＨＲＥＧに対して位置決めする。この位置決めは所定のＮＧＳ手法により支給されたリードの組を選択したＰＨＲＥＧにマッピング（位置決め）することを含む。この位置決めは、第４コンピュータモジュールで行われるものでよく、出力ファイルはＢＡＭファイルでよい。

第７ステップでは、位置決めされたヒトの核酸サンプルの変異特定処理は選択したＰＨＲＥＧを基準として行われる。変異特定処理を行う前に、前記システムの所定のコンピュータモジュールがヒト基準ゲノムを再度調整して、好ましくは前記システムのユーザーが設定する所定のコード化レベルにしてもよい。このコード化レベルは唯一に定まるヌクレオチドコードまたは唯一に定まらないヌクレオチドコードを含むものでよく、位置決めステップで用いるコード化レベルと異なるものでよい。変異は最も適した最先端のアルゴリズムを用いて特定される。変異特定処理は第５計算モジュールによって行われ、その出力は変異特定処理形式（ＶＣＦファイル）のＰＨＲＥＧを基準とする変異の形の配列データを含むものでよい。

第８ステップでは、変異の解釈が行われる。前記システムは特定した変異の解析を行うことができるようにした別の処理後計算モジュールを含むものでよい。一つの実施形態では、この処理後計算モジュールは患者中に所定の病気が有る、または無いことを示す遺伝子および／または変異部位の組を解析するものでよい。さらに、または代わりに、この処理後計算モジュールは患者の別の臨床データを考慮してその患者の病気の複数の治療法の組を決め、さらにその患者の遺伝子データ、具体的には特定された遺伝子の変異に基づいて、その患者に最も適した治療法を決めるものでよい。さらに別の実施形態では、この処理後計算モジュールは統計分析を行い、特定された変異から突然変異荷重、ヌクレオチド置換率およびホットスポット突然変異を決める。

見つかった変異は治療の有効性または安全性を予測する分類器または診断または治療法の目的用の分類器として用いることができる。

第９ステップでは、診断および／または治療法の示唆が作られて、提供される。この目的で、第３、第４、第５計算モジュールおよび処理後計算モジュールの結果が出力されるように、これらのモジュールと機能的に接続された出力インタフェースを含むものでよい。この出力インタフェースは処理ユニットが計算した情報が提示されるようにする任意の表示手段またはプリンターと結合するものでよい。さらに、イントラネット用の通信システムとのリンクおよび／または出力インタフェースを介して実現される電子メールの発信および受信用のプログラムのようなインタネットとのリンクがあってもよい。

図５は分類（Ｆ：女性；Ｍ：男性）ごとに選んだ性識別用となる特徴を、ＭＨパネルデータを用いて計算した分布を表す図表である。色の付いた垂直線はクラスの中央値を表す。
（イ）のグラフ：位置決めされたリードのＸ染色体／Ｙ染色体の比
（ロ）のグラフ：Ｘ染色体上の５００個の普通のＳＮＰ位置で調べた０．８〜１．０の範囲のメジャーアレル頻度
（ハ）のグラフ：Ｙ染色体上で正しく対になったリードの割合
図５は以下に記載する実施例に照らして観るべきである。

図６は２つの性―祖先分類器とＥｔｈＳＥＱを３００ＴＣＧＡのすべてのエクソームサンプルのメモリ使用量と実行時間の箱ひげ図である。図６は以下に記載する実施例に照らして観るべきである。

アンセクストリ、すなわちエクソーム配列決定データ全体からリード位置決めを用いてサンプルの性および祖先を求める機械学習に基づくツールを紹介する。両方の形質についての被験者自身の申告は信頼できないことが知られている。アンセクストリの予測はサンプル取り違え検出の観点から、さらに偏見のないゲノム変異部位の解釈に用いるのにも役に立つ。大きな群を扱う場合には特に役に立つ。１３００以上のサンプルについて用いたアンセクストリの性能評価試験は、アンセクストリは高精度であり、時間およびメモリの必要量が低いことを示した。

１．緒言
過去１０年間に観られた急激なコスト低下により、大きな群の次世代シーケンシングはますます普通に行われるようになっており（Cancer Genome Atlas Research Network et al., 2013; Rand et al., 2016参照）、エクソーム全体のアップローチは大規模な研究では主要な役割を果たしている。特に、精密医療や病気の包括的な特徴づけの分野において用いられている。このような状況で、サンプルの祖先および性を正しく知ることにはいろんな利点がある。第１に、サンプルの祖先および性を正しく知ることにより、複雑な手順およびサンプル処理に必要な手作業によって起きるサンプルの取り違えを特定することを支援して品質制御が容易になる。第２に、大部分のゲノム研究で存在する、またヒト基準ゲノム中に存在する強いヨーロッパ系のバイアスを避けるため、さらに様々な祖先を有する人の臨床ケアを改善するため、祖先は変異の影響を解釈する上で極めて重要である（^etrovski et al., 2016; Mersha et al., 2015; Fakhro et al., 2016参照）。最後に、祖先は遺伝との関連を調べる研究で広く用いられ、集団の層別による誤った病気との関連付けを避けている（Wu et al., 2011参照）。性および祖先の自己申告は信頼できないことが多いので（Mersha et al., 2015; Ainsworth, 2015参照）、ゲノム情報を用いた特定が必要である。

「アンセクストリ（ＡｎＳｅｘｔｒｙ）」、すなわちロジスティック回帰分析に基づく機械学習方法は全エクソームを配列決定するペアエンドリードの位置決めから性および祖先を迅速かつ確実に特徴づけるために作られた。このアルゴリズムは標準的なファイルフォーマットに依存しており、現在ある次世代配列解析のワークフローとすぐに一体化することができる。このアルゴリズムはすぐに使えるモデルを提供し、入力として単純なＢＡＭファイルを必要とする。さらに、このアルゴリズムはメモリの必要量が少ないので、デスクトップコンピュータで動く。他の唯一の全エクソームのＢＡＭファイルに基づく祖先推定ツールであるＥｔｈＳＥＱ（Romanel et al., 2017参照）との比較試験は、「アンセクストリ」が精度、実行時間およびメモリ使用量において十分匹敵するものであることを示している。性の予測用の方法として他に公開されたものは現在までない。

２．方法
２．１アルゴリズム
全エクソームを配列決定するペアエンドリードの位置決めに基づいて個人の最も可能性の高い性と祖先を推定する２個の分類器の組を用意した。このツールは予測のためにリードマッピングおよび個々ヒトの遺伝子型の違いを利用する。

性分類器と祖先分類器はパイソン（Python）を用いるロジスティック回帰分析とサイキット・ラーン（Scikit-learn）に基づくものを用いた。これらの両方の分類器に対応する特徴は入力ＢＡＭファイルから求められた。ペアエンドリードは位置決め用に初期設定されたＢＷＡ０．７．１５を用いて位置決めされ、局部再位置決めや重複除去のような後処理ステップは用いなかった。ＧＲＣｈ３７基準ゲノムを用いた。同ゲノムは非染色体のスーパーコンティグはなく、Ｘ染色体およびＹ染色体上での位置決めのずれを避けるためのマスクした偽常染色体領域ＰＡＲ１およびＰＡＲ２を有する。本願発明に関して、「スーパーコンティグ」という語は順番に並べられた複数のコンティグの組、すなわち、複数の塩基の順番が高い信頼度レベルでわかっている連続した長さのゲノム配列として通常理解される。

Ｌ１正則化を用いる２分類ロジスティック回帰分析によって性分類器は働き、各分類の確率を出力した。５分割交差検証を用いて適した正則化強度を決めた。学習用データに対してＰＲ曲線（Precision-Recall Curve）を描いた場合に最も高いエリアを生じさせるモデルを最適モデルとして選んで、試験データの組を評価した。

祖先分類器は、Ｌ２正則化を用いる多項ロジスティック回帰分析と主成分分析（Principal Component Analysis）に基づき、１０００ヒトゲノムプロジェクトで定められた５大陸別の祖先のそれぞれの確率を出力した。５大陸別の祖先は、アフリカ人（ＡＦＲ）、混血アメリカ人（ＡＭＲ）、東アジア人（ＥＡＳ）、欧州人（ＥＵＲ）および南アジア人（ＳＡＳ）である（The 1000 Genomes Project Consortium et al., 2015参照)。５分割交差検証を用いて複数の適したパラメータを決めた。学習用データに対して最も高いＦ１点数をあげるモデルを選んで、そのモデルを試験データに適用して評価した。

２．２特徴
性分類器に用いる特徴としてＸ染色体とＹ染色体の間の位置決めの違いに基づくものを用いた（図５参照）。Ｙ染色体上で正しく対になったリードの割合だけでなくＹ染色体リードに対するＸ染色体リードの比率を用いた。さらに、Ｘ染色体上の５００個のよく知られたエキソン領域のＳＮＰ位置でのメジャーアレルの頻度を組み合わせた。集団のバイアスを除くため、主要な祖先の間で頻度が高いＳＮＰを選んだ。

祖先分類器に用いるために、アジレント社のオールエクソンキット（バージョン５、バージョン６、バージョン６＋コスミック（COSMIC））とモレキュラーヘルス社の全癌種遺伝子パネル（ターゲットサイズ２．９Mbp）の目標領域の共通部分内にゲノム位置を有するすべての常染色体のＳＮＰの遺伝子型を２．３で説明する１０００個のゲノムデータから決定した。特徴の選択によって複数の祖先間で違いを示す有効なＳＮＰを残し、その結果、祖先分類器用の特徴として用いる、５０４０個のゲノム位置に対応する１００００個の遺伝子型が得られた。対応するＢＥＤファイルは別表１に示され、これを用いて任意の目標とする配列決定キットとの重複を決定できる。

２．３データ
多様な祖先からデータを得るために、１０００ヒトゲノムプロジェクト第３段階からの１７３５人の個人からのゲノムデータを用いて祖先分類器を学習させた。大陸別の複数の祖先（ＡＦＲ、ＡＭＲ、ＥＡＳ、ＥＵＲ、ＳＡＳ）を分類に用い、複数の個人を無差別に選んで、各分類を均衡させた。６９４人の個人が試験の組の一部であった。

３種のがん（膀胱癌、肺腺癌／扁平上皮細胞肺癌、胃癌）に対応する、人種と性を自己申告させた３００人の個人からの主要な全エクソームのコントロールデータを試験データとしてＴＣＧＡ（cancergenome.nih.gov参照）からダウンロードした。アジレント社のシュアセレクト・ヒューマン・オール・エキソン（SureSelect Human All Exon）50Mbキットを用いてすべてのサンプルの配列が決定した。無差別にデータを選んで、ＴＣＧＡのカテゴリに対応する均衡した分類のサイズにした。すなわち１５０人の男と１５０人の女で、しかも１００人の白人、１００人のアジア人および１００人の黒人またはアフリカ・アメリカ系人とした。

性を自己申告した９８８人の癌患者からの配列決定用データをモレキュラーヘルス社の全癌種遺伝子パネルを用いて配列決定して、そのデータを用いて性分類器を学習させ、試験した。無差別に個人を選んで、女／男の分類を均衡させた。３９６のケースを性分類器用の試験データとして無差別に選んだ。前記した３００のＴＣＧＡケースを追加の試験の組として用いた。

３．結果
３．１性分類器
モレキュラーヘルス社の全癌種遺伝子パネルによって配列決定した５９２のデータ組を用いて性分類器を学習させた。ペアエンドリードを配列決定し、方法の章で説明したように特徴を計算した。公差検証により方法を調整した後、該方法を2個のデータ組に適用して性能評価をおこなった。用いたデータ組は、前記した遺伝子パネルによって配列決定した３９６人の個人と利用できる全エクソームデータによって配列決定した３００人のＴＣＧＡの個人である。

パネル試験データに基づき、性分類器の平均正確度は９７．５％になっており、１０人の個人（５人の男、５人の女）を誤分類した（表１参照）。誤分類は低いカバレッジとは関係がなかった。

表１は、モレキュラーヘルス社の全癌種遺伝子パネルによって配列決定された個人の詳細なデータである。このデータは予測された性が自己申告した性と一致しなかった場合を示す。すべてのサンプルについてのカバレッジの中央値は２１１６である。すべての誤分類されたサンプルの平均カバレッジは、この中央値に近いか、またはこの中央値よりも大きく、誤分類はカバレッジの中央値よりも低いことに関係していないと考えられる。

普通の人の集団で１％の確率で性の発達の異常がおきると考えられる（Ainsworth, 2015参照）ので、誤分類されたケース中のいくつかは実際には正しく分類されたが、自己申告した性が正しくなかった可能性がある。

ＴＣＧＡ試験データに基づくと、性分類器の正確度は１００％になった。３００人すべてが正しく分類された。実行時間とメモリ使用量に関しても、性予測はすべてのケースで１分かからず、平均のメモリ使用量も５２６ＭＢであった（図６参照）

３．２祖先分類器
祖先分類器は１０００ヒトゲノムプロジェクトからの１０４１個のデータ組で学習させた。２．２で説明したように、個々のヒトの遺伝子型がそれぞれ特徴として用いられた。最高性能のモデルを２つの試験データ組で決めた。２つの試験データ組は、全エクソームが配列決定された３００人のＴＣＧＡの個人と１０００ヒトゲノムプロジェクトからののこりの６９４人の個人である。

１０００ヒトゲノム試験データを分類した祖先分類器の平均正確度は高く、９９％になった。最も高い正確度はアジア系の祖先の場合であり、次に高かったのはアフリカ系と南アメリカ系の祖先であり（９９％の正確度）、その次が欧州系の祖先であった（９８％の正確度）。６９４人中、全部で５人のみが誤分類された。

３００人のＴＣＧＡエクソーム試験データ組について行った祖先分類器の分類結果は、正確度わずかに低く、９６．３３％であり、全部で１１人が誤分類された。これらの結果は、ＥｔｈＳＥＱ（Romanel et al., 2017参照）に匹敵するものである。ＥｔｈＳＥＱは他の既知の祖先予測方法で唯一予め計算された適切なモデルを提供するものであり、単一の全エクソームのＢＡＭファイルにそのまま適用できるものである。これら２つの結果は極めてよく一致しているが、ＥｔｈＳＥＱの正確度はわずかに低く（９４％）、全部で１８人が誤分類された。さらに、ＥｔｈＳＥＱの方が必要な実行時間が長く、必要なメモリも多い。本願発明の祖先分類器の場合、平均実行時間が２８秒で平均メモリ使用量が５４０ＭＢである一方、ＥｔｈＳＥＱの場合、マルチスレッディング（4つのコア）を有しているにもかかわらず、平均で４．８分かかり、平均で１４，７ＧＢを使用した（図６参照）。

結果から言える一つ重要な点として、誤分類されたデータ組に対するこれら二つのアルゴリズムの結果は極めてよく一致していた。ＴＣＧＡによって与えられた種族と一致しなかった１１人のうちの１０人はＥｔｈＳＥＱでも誤分類され、これらの１０人のケースのうち８人については、両方の方法とも同じ祖先を予測した。このことは、これらの誤分類された人についてはＴＣＧＡの分類が間違っていた可能性があり、ここでＴＣＧＡの種族の情報は自己申告に基づくものである。共通に誤分類された１０人のうち6人は、ＡＦＲまたはＡＭＲと予測された。この結果は、自己申告の誤りはアフリカ系アメリカ人およびラテン系の集団では比較的多いと首肯するMershaらの説明と一致する。表２は誤分類された人たちの結果を示す。

表２は（アンセクトリあるいはＥｔｈＳＥＱまたは両方による）予測がＴＣＧＡの自己申告した人種と一致しなかったＴＣＧＡの個人の詳細である。ＴＣＧＡの人種は、「黒人またはアフリカ系アメリカ人（黒人／アフリカ系アメリカ人）、「白人」および「アジア人」を含む。白い行は、アンセクストリおよびＥｔｈＳＥＱのいずれもＴＣＧＡの人種と一致しなかったサンプルに対応した。薄灰色の行はＥｔｈＳＥＱの予測のみがＴＣＧＡと一致しなかったサンプルであった。さらに、濃配色のサンプルはアンセクトリの予測のみがＴＣＧＡと一致しなかったサンプルであった。遺伝子座のカバレッジが不十分な場合、その遺伝子座の遺伝子型はアンセクトリの予測用の基準から推定した。すべてのサンプルのカバレッジの中央値は９１ｘであり、誤分類されたサンプルの大部分のカバレッジはこの中央値以上であり、したがって誤分類が、カバレッジが中央値よりも低いことと関係しているとは考えられなかった。さらに、すべてのサンプルのアンセクストリ分類用の推定された遺伝子型の数の中央値は３９０であり、これは誤分類されたアンセクトリのサンプルの中央値（３９３）に近かった。３００人すべてのＴＣＧＡサンプルの推定された遺伝子型の数は、２２７（最少値）と６９０（最多値）の間でばらついており、１０〜１５％の推定された遺伝子型がアンセクストリの予測に悪影響を与えたとは考えられない。興味深いことに、アンセクストリが誤分類し、ＥｔｈＳＥＱが誤分類しなかった唯一の個人はＴＣＧＡによれば白人に分類されたが、アンセクストリ分類器は実際には混血であると予測し、その確率はＡＭＲ５４．７％およびＥＵＲ４５，１％の確率であった。

４．結論
全エクソームからの位置決めされたペアエンドリードに基づいて、または目標サイズが許すならば、目標とする配列決定の試験に基づいて個人の性および祖先を確実に、かつ容易に判定する新規な方法であるアンセクストリを説明する。このツールはロジスティック回帰分析に依存する２個のパイソン（Python）に基づく分類器を提供し、このツールによる祖先の予測は集団遺伝学の分野で用いられる主にＰＣＡに基づく方法を代替する手法になる。アンセクストリは、そのまますぐに使える基準モデルを提供し、必要とするユーザー入力は最小である。アンセクストリは、速く、正確で、使用するのが容易である。

ディスクレーマ―
本明細書中では、複数の異なる著者が同じ目的で複数の異なる語を用いているため、「祖先に特有の」／「民族に特有の」／「集団に特有の」という語は互いに交換可能に用いられている。

参照文献
1. Lander, E. S. et al. Initial sequencing and analysis of the human genome. Nature 409: 860-921 (2001). [PMID: 11237011]
2. Church, D. M. et al. Modernizing reference genome assemblies. PLoS Biol. 9: e1001091 (2011). [PMID: 21750661]
3. Harrow, J. et al. GENCODE: the reference human genome annotation for The ENCODE Project. Genome Res. 22: 1760-1774 (2012). [PMID 22955987]
4. ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature 489: 57-74 (2012). [PMID: 22955616]
5. 1000 Genomes Project Consortium et al. A global reference for human genetic variation. Nature 526: 68-74 (2015). [PMID: 26432245]
6. Li H & Durbin R. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics 25: 1754-1760 (2009). [PMID: 19451168]
7. DePristo, M. A. et al. A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nat. Genet. 43: 491-498 (2011). [PMID: 21478889]
8. Horton, R. et al. Variation analysis and gene annotation of eight MHC haplotypes: the MHC Haplotype Project. Immunogenetics 60: 1-18 (2008). [PMID: 18193213]
9. Pei, B. et al. The GENCODE pseudogene resource. Genome Biol.13: R51 (2012). [PMID: 22951037]
10. Degner, J. F. et al. Effect of read-mapping biases on detecting allele-specific expression from RNA-sequencing data. Bioinformatics 25: 3207-3212 (2009). [PMID: 19808877]
11. Brandt, D. Y. C. et al. Mapping Bias Overestimates Reference Allele Frequencies at the HLA Genes in the 1000 Genomes Project Phase I Data. G3 5: 931-941 (2015). [PMID: 25787242]
12. Novak A.; Hickey G.; Garrison E.; Blum S.; Connelly A.; Dilthey A; Eizenga J.; Elmohamed M.; Guthrie S.; Kahles A.; Keenan S.;e Kelleher J.; Kural D.; Li H.; Lin M.; Miga K.; Ouyang N.; Rakocevic G.; Smuga-Otto M.; Zaranek A.; Durbin R.; McVean G.; Haussler D.; (https://www.biorxiv.org/content/biorxiv/early/2017/01/18/101378.full.pdf)
13. Paten B, Novak AM, Eizenga JM, Garrison E. Genome graphs and the evolution of genome inference. Genome Res. 5: 665-676 (2017) [PMID: 28360232]
14. Snyder M., et al. Personal genome sequencing: current approaches and challenges. Genes Dev. 5, 423-431 (2010) [PMID: 20194435]
15. Young, A.L. et al. A new strategy for genome assembly using short sequence reads and reduced representation libraries. Genome Res 2: 249-256 (2010) [PMID: 20123915]
16. Flicek, P & Birney, E. Sense from sequence reads: methods for alignment and assembly. Nat Methods. 6: S6-S12 (2009) [PMID 19844229]
17. Chen R . & Butte A.J. The reference human genome demonstrates high risk of type 1 diabetes and other disorders. Pac Symp Biocomput. 2011:231-242 (2011) [PMID: 21121051]
18. International Human Genome Sequencing Consortium. 2001. Initial sequencing and analysis of the human genome. Nature 409: 860-921 (2001) [PMID: 11237011]
19. International Human Genome Sequencing Consortium. 2004. Finishing the euchromatic sequence of the human genome. Nature 431: 931-945 (2004) [PMID: 15496913]
20. Schneider V.A. et al. Evaluation of GRCh38 and de novo haploid genome assemblies demonstrates the enduring quality of the reference assembly. Genome Res. 5:849-864. (2017) [PMID: 28396521]
21. [Editorial (October 2010). "E pluribus unum". Nature Methods. 5: 331. doi:10.1038/nmeth0510-331. (2010) [PMID: 20440876]
22. Nielsen R., Paul J. S., Albrechtsen A., Song Y. S. Genotype and SNP calling from next-generation sequencing data. Nat. Rev. Genet. 12: 443-45. (2011) [PMID: 21587300]
23. Fakhro, K. A., Staudt M. R., Ramstetter M. D., Robay A., Malek J. A., Badii R., et al. The Qatar genome: a population-specific tool for precision medicine in the Middle East. Hum. Genome Var. 3:16016 Human Genome Variation (2016) 3, 16016 doi:10.1038/hgv.2016.16; published online 30 June 2016 (2016) [PMID: 27408750]
24. Zayed H. The Qatar genome project: translation of whole-genome sequencing into clinical practice. Int J Clin Pract. 10: 832-834 doi: 10.1111/ijcp.12871. Epub 2016 Sep (2016) [PMID: 27586018]
25. Sanger F., et al. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74:5463-5467. (1977) [PMID: 271968]
26. Venter, J.C. et al. The Sequence of the Human Genome. Science 291: 1304-1351. (2001) [PMID: 11181995]
27. Petrovski S & Goldstein D.B. Unequal representation of genetic variation across ancestry groups creates healthcare inequality in the application of precision medicine. Genome Biol 2016;17:157.doi: 10.1186/s13059-016-1016-y. (2016) [PMID: 27418169]
28. Koboldt DC, Ding L, Mardis ER, Wilson RK. Challenges of sequencing human genomes. Brief Bioinform. 11:484-498. (2010) [PMID: 20519329]
29. Dewey F.E., Chen R., Cordero S.P., Ormond K.E., Caleshu C., Karczewski K.J. et al. Phased whole-genome genetic risk in a family quartet using a major allele reference sequence. PLoS Genet. 2011 Sep;7(9):e1002280. doi: 10.1371/journal.pgen.1002280. Epub 2011 Sep 15. (2011) [PMID: 21935354]
30. Cao H, Wu H, Luo R, Huang S, Sun Y, Tong X et al. De novo assembly of a haplotype-resolved human genome. Nat Biotechnol 33: 617-622. (2015) [PMID: 26006006]
31. Wu L., Yavas G., Hong H., et al. Direct comparison of performance of single nucleotide variant calling in human genome with alignment-based and assembly-based approaches. Sci Rep. 2017 Sep 8;7(1):10963. doi: 10.1038/s41598-017-10826-9. (2017) [PMID: 28887485]
32. Meyer, L. R. et al. The UCSC Genome Browser database: extensions and updates 2013. Nucleic acids research41: D64-D69 (2013). [PMID: 23155063]
33. Sudmant, P. H. et al. An integrated map of structural variation in 2,504 human genomes. Nature 526: 75-81 (2015). [PMID: 26432246]
34. Iqbal, Z., Caccamo, M., Turner, I., Flicek, P. & McVean, G. De novo assembly and genotyping of variants using colored de Bruijn graphs. Nature genetics 44: 226-232 (2012). [PMID: 22231483]
35. Cornish-Bowden A. (1985). Nomenclature for incompletely specified bases in nucleic acid sequences: recommendations 1984. Nucleic Acids Res. 13: 3021-3030. (1985) [PMID: 2582368]
36. Mersha T. B., & Abebe T. Self-reported race/ethnicity in the age of genomic research: its potential impact on understanding health disparities. Hum. Genomics 9:1. (2015) [PMID: 25563503]
37. Baye T. M. Inter-chromosomal variation in the pattern of human population genetic structure. Hum Genomics 5:220-240. (2011) [PMID: 21712187]
38. Fondevila M. et al. Revision of the SNPforID 34-plex forensic ancestry test: Assay enhancements, standard reference sample genotypes and extended population studies. Forensic Sci Int Genet 7: 63-74. (2013) [PMID: 22749789]
39. Ainsworth C. Sex redefined. Nature518: 288-291. doi: 10.1038/518288a. (2015) [PMID: 25693544]
40. Gall J. G., Pardue M.L. Formation and detection of RNA-DNA hybrid molecules in cytological preparations. Proc. Natl. Acad. Sci. USA 63, Nr. 2, 1969, S. 378-383, [PMID 4895535].
41. Kallioniemi A. et al. Comparative genomic hybridization for molecular cytogenetic analysis of solid tumors. Science Band 258, Nr. 5083, 1992, S. 818-821.
42. Goodwin S., McPherson JD, McCombie WR. Coming of age: ten years of next-generation sequencing technologies. Nat. Rev. Genet. 2016 May 17;17(6):333351
43. Al-Ali M, Osman W., Tay G.K., AlSafar H.S. A 1000 Arab genome project to study the Emirati population. J. Hum. Genet. 63(4): 533-536 (2018). [PMID: 29410509]
44. Cancer Genome Atlas Research Network et al. The Cancer Genome Atlas Pan-Cancer analysis project. Nat. Genet., 45(10), 1113-1120 (2013).
45. Rand,K.A. et al. Whole-exome sequencing of over 4100 men of African ancestry and prostate cancer risk. Hum. Mol. Genet., 25(2), 371-381 (2016).
46. Wu,C. et al. A Comparison of Association Methods Correcting for Popula-tion Stratification in Case-Control Studies. Ann. Hum. Genet., 75(3), 418-427 (2011).
47. Romanel,A. et al. EthSEQ: ethnicity annotation from whole exome sequencing data. Bioinformatics, 33(15), 2402-2404 (2017).

ＮＧＳリードマッピング用の基準としてＰＨＲＥＧを用いることにより、臨床に用いるのに適したバイオマーカーのカバレッジを増やす
発明者らは全エクソーム捕捉イルミナ配列決定を用いて配列決定されたＧＤＣ／ＴＣＧＡ（参考文献１参照）からの７４１個の生殖細胞系列サンプルを用いた。このデータ組は、アフリカ人（ＡＦＲ）祖先の１５５個のサンプル、ラテンアメリカ人／混血アメリカ人（ＡＭＲ）祖先の３３個のサンプル、欧州人（ＥＵＲ）祖先の３５４個のサンプル、および南アジア人（ＳＡＳ）祖先の２０個のサンプルを有していた。ノヴォアライン（Novoalign）４．００．１を用いて、各サンプルは標準ヒト基準ゲノム（ＨＲＧ）ＧＲＣｈ３７（参考文献３参照）に対して、発明者らの祖先分類器が定めたＰＨＲＥＧに対して、さらにＨＳＡＰＨＲＥＧに対して位置決めした。ＨＳＡＰＨＲＥＧはＡＦＲ、ＡＭＲ、ＥＡＳ、ＥＵＲおよびＳＡＳを含むＧｎｏｍｖ２．１の祖先（参考文献４参照）のすべてについて変異データを集めることによって作成された。

これらのリードマッピング戦略を行うために、発明者らは１２８８の遺伝子を対象にするジンコード（Gencode）ｖ３１ＣＤＳエキソン（参考文献６参照）中の１５４８８個の病原性のクリンバー（ClinVar）・バイオマーカー・バージョン２０１９−１２（参考文献６参照）のカバレッジを比較した。ＨＲＧではなくＰＨＲＥＧに対して位置決めした場合にクリンバー・バイオマーカーのカバレッジが増加し、その増加はＡＦＲで２１１個、ＡＭＲで１４７個、ＥＡＳで１２１個、ＥＵＲで１７３個、ＳＡＳで１０５個、さらにＨＳＡで１６２個であった。カバレッジが増加した変異の大部分は集団に特有のヌクレオチドがＰＨＲＥＧ中に埋め込まれたサイトの近傍であった。一つサンプルのリードをそのサンプルに最も近いＰＨＲＥＧにマッピングすれば、位置決めの際に起きる不一致の数は少なくなり、その結果カバレッジは増大し、ＨＲＧに対して位置決めする場合におきるカバレッジの減少がなくなる。

要するに、発明者らの解析は、正しいＰＨＲＥＧによってカバレッジが増え、その結果臨床に用いるのに適したバイオマーカーの検出を改善できることを示している。

表３の簡単な説明(ClinVar_PHREG_coverage_diff_relative.xlsx)
ＨＲＧと比べてＰＨＲＥＧに対して位置決めする場合のカバレッジの違いを示したジンコード（Ｇｅｎｃｏｄｅ）ＣＤＳのエキソン中のクリンバー・バイオマーカーのリスト（遺伝子名|コンティグ|始端|終端）。
ＨＲＧに対する位置決めに基づいて計算したカバレッジに対する、祖先ごとのすべてのケースおよびすべての７４１のケース（ＨＳＡ）についての中央値としての各ＰＨＲＥＧ（ＡＦＲ、ＡＭＲ、ＥＡＳ、ＥＵＲ、ＳＡＳ、ＨＳＡ）のカバレッジの差を与える。
正の数はカバレッジの増大を意味し、負の数はカバレッジの減少を意味する。

実施例２の参考文献
[1] https://portal.gdc.cancer.gov
[2] http://www.novocraft.com/products/novoalign
[3] https://www.ncbi.nlm.nih.gov/grc/human
[4] https://gnomad.broadinstitute.org/faq
[5] https://www.ncbi.nlm.nih.gov/clinvar
[6] https://www.gencodegenes.org/human/release_31lift37.html

別表２
chr1 36768200 rs1573020
chr1 159174683 rs2814778
chr1 204790977 rs2065160
chr2 7149155 rs896788
chr2 109513601 rs3827760
chr2 136616754 rs182549
chr3 168645035 rs1498444
chr4 38803255 rs4540055
chr4 159181963 rs2026721
chr5 33951693 rs16891982
chr7 4457003 rs917118
chr10 17064992 rs7897550
chr10 34755348 rs1978806
chr11 32424389 rs5030240
chr12 29369871 rs10843344
chr12 56603834 rs773658
chr13 20901724 rs1335873
chr13 22374700 rs1886510
chr13 34864240 rs2065982
chr14 36170607 rs10141763
chr14 101142890 rs730570
chr15 28365618 rs12913832
chr15 48426484 rs1426654
chr16 31079371 rs881929
chr16 90105333 rs3785181
chr17 75551667 rs2304925
chr18 75432386 rs1024116
chr19 42410331 rs2303798
chr20 38849642 rs1321333
chr21 16685598 rs722098
chr21 17710424 rs239031
chr21 25672460 rs2572307
chr22 26350103 rs5997008
chr22 47836412 rs2040411

Claims

ヒト核酸サンプルのゲノム解析および／または遺伝子解析をする方法であって、
（ａ）複数のヒト基準ゲノムからなるグループを用意するステップと、
（ｂ）ヒト核酸サンプルを試験して、性および／または祖先を調べるステップと、
（ｃ）前記ステップ（ｂ）の性および／または祖先を調べる試験の結果に基づいて、前記複数のヒト基準ゲノムからなるグループから一つ以上の集団に特有の基準ゲノムすなわちＰＨＲＥＧを選ぶステップと、
（ｄ）前記ヒト核酸サンプルを前記選んだＰＨＲＥＧに位置決めするステップと、
を含む方法。
前記位置決めはメジャーアレルレベルまたは非稀少アレルレベルで行われる請求項１に記載する方法。
（ｅ）前記選んだＰＨＲＥＧを基準として前記位置決めしたヒト核酸サンプルの変異の特定を行うステップを、さらに含む請求項１または２に記載する方法。
前記変異の特定はメジャーアレルレベルまたは非稀少アレルレベルで行われる請求項３に記載する方法。
ステップ（ａ）で用意される前記複数のヒト基準ゲノムは、公表されたヒト基準ゲノムまたは公表されたヒト基準ゲノムから得られたものである請求項１乃至４のいずれかに記載する方法。
ステップ（ａ）は、唯一に定まる塩基コードまたは唯一に定まらない塩基コードのいずれかを有するコード化レベルに合わせて、前記複数のヒト基準ゲノムを修正することを含む請求項１乃至５に記載する請求項１乃至５に記載する方法。
ステップ（ａ）で用意される前記複数のヒト基準ゲノムはＰＨＲＥＧである請求項１乃至６のいずれかに記載する方法。
前記性を調べる試験はＸ染色体および／またはＹ染色体上の性特有の遺伝子中の少なくとも一位置を試験すること、Ｘ染色体および／またはＹ染色体上の複数のヒトゲノムサンプルの位置決めの違いを利用すること、細胞遺伝学的試験、ＦＩＳＨ解析およびＣＧＨ解析のうちの一つ以上を含む請求項１乃至７のいずれかに記載する方法。
前記祖先を調べる試験はヒト核酸サンプルについて用いる機械学習アルゴリズム、または祖先に特有の変異を利用する別の分類スキームに基づく請求項１乃至８のいずれかに記載する方法。
前記祖先を調べる試験は、少なくとも一つのゲノム位置の遺伝子型を用いること、並びに／または複数のＳＮＰアレイもしくは複数のＳＮＰチップを試験すること、および／またはサンガー配列決定もしくは質量分析からのマーカーを試験することを含む請求項１乃至９のいずれかに記載する方法。
前記祖先を調べる試験はＡＢＬ２、ＡＴＰ１Ａ３、ＣＩＣ、ＣＹＰ２Ｃ８、ＣＹＰ２Ｃ９、ＥＰＨＡ３、ＥＰＨＡ７、ＥＲＢＢ３、ＥＲＧ、ＥＴＶ１、Ｆ２、ＦＡＳ、ＨＦＥ、ＩＬ１１ＲＡ、ＩＬ２ＲＡ、ＩＴＧＢ６、ＫＩＦ１１、ＫＩＴ、ＫＬＫ３、ＬＲＰ６、ＭＤＭ４、ＮＡＴ２、ＮＴＲＫ２、ＰＤＧＦＢ、ＰＩＫ３Ｒ１、ＰＬＡ２Ｇ３、ＰＬＡＵ、ＰＲＫＣＢ、ＲＩＣＴＯＲ、ＳＬＣ７Ａ１１、ＳＴＡＴ３、Ｔ、ＴＳＣ１、ＶＣＡＭ１、ＶＤＲ、ＶＥＧＦＢ、ＡＣＶＲＬ１、ＡＸＬ、ＣＡ９、ＣＡＬＣＲ、ＣＡＳＰ９、ＥＮＧ、ＥＰＨＢ１、ＥＲＢＢ４、ＥＳＲ１、ＦＧＦＲ２、ＨＰＳＥ、ＨＳＰ９０ＡＡ１、ＩＴＫ、ＭＲＥ１１Ａ、ＰＬＫ１、ＰＴＰＲＣ、ＳＥＲＰＩＮＥ１、ＳＭＣ４、ＴＥＲＴ、ＴＬＲ３、ＷＩＳＰ３、ＷＴ１、ＸＲＣＣ１、ＡＮＧＰＴ２、ＡＲＩＤ２、ＢＡＲＤ１、ＣＢＲ３、ＣＤＨ２、ＣＹＰ１Ｂ１、ＤＤＲ２、ＤＮＭＴ３Ａ、ＥＰＣＡＭ、ＥＲＣＣ２、ＦＡＮＣＧ、ＦＡＮＣＬ、ＧＳＴＰ１、ＩＲＳ２、ＩＴＧＢ１、ＪＡＫ３、ＬＨＣＧＲ、ＭＳＨ６、ＮＣＦ２、ＲＮＦ４３、ＳＬＣ５Ａ５、ＴＭＰＲＳＳ２、ＴＮＦＲＳＦ８、ＡＫＴ１、ＣＤ２４８、ＣＤ４、ＥＳＲ２、ＥＺＨ２、ＩＧＦ１Ｒ、ＩＴＧＡＶ、ＩＴＧＢ２、ＫＬＨＬ６、ＭＡＰ３Ｋ１、ＭＥＴ、ＭＬＬ、ＭＴＨＦＲ、ＮＦＫＢ１、ＮＵＰ９３、ＰＡＲＰ８、ＲＢ１、ＲＰＥ６５、ＴＳＨＲ、ＡＢＬ１、ＢＬＭ、ＣＹＰ１９Ａ１、ＤＰＰ４、ＥＰＨＡ６、ＥＲＢＢ２、ＥＷＳＲ１、ＦＯＸＰ４、ＩＴＧＡＭ、ＫＤＭ５Ａ、ＬＰＡ、ＬＴＫ、ＭＬＨ１、ＰＢＲＭ１、ＰＨＬＰＰ２、ＳＦ３Ｂ１、ＴＮＦＲＳＦ１０Ａ、ＡＢＣＧ２、ＡＣＰＰ、ＡＤＡＭ１５、ＤＰＹＤ、ＥＰＨＡ５、ＥＰＨＢ６、ＦＯＬＨ１、ＫＤＲ、ＭＳＨ３、ＭＳＴ１Ｒ、ＮＴＲＫ１、ＲＯＣＫ２、ＳＬＣ６Ａ２、ＴＥＴ２、ＴＧＭ２、ＴＨ、ＡＢＣＢ１、ＣＤ２２、ＣＤ４０、ＣＤ４４、ＣＤＨ２０、ＣＹＰ１１Ｂ２、ＥＲＣＣ５、ＧＰＲ１２４、ＩＬ７Ｒ、ＩＴＧＢ３、ＩＴＧＢ５、ＮＣＬ、ＮＯＤ２、ＮＲ４Ａ１、ＰＧＲ、ＰＬＣＧ１、ＰＰＰ２Ｒ１Ａ、ＰＲＡＭＥ、ＰＴＣＨ２、ＲＥＴ、ＳＥＴＤ２、ＸＰＣ、ＡＳＸＬ１、ＥＰＨＢ４、ＰＬＡ２Ｇ６、ＳＹＫ、ＴＥＴ１、ＥＰ３００、ＦＬＴ１、ＩＴＧＡ１、ＬＯＸＬ２、ＰＤＧＦＲＢ、ＰＩＫ３ＣＤ、ＳＳＴＲ５、ＴＥＣ、ＡＰＣ、ＡＴＲ、ＣＬＵ、ＣＲＥＢＢＰ、ＣＹＰ２Ｄ６、ＥＭＬ４、ＭＭＰ２、ＰＡＲＰ２、ＰＤＧＦＲＡ、ＴＲＰＭ８、ＣＳＦ１Ｒ、ＤＯＴ１Ｌ、ＦＧＦＲ３、ＦＧＦＲ４、ＧＬＰ２Ｒ、ＩＫＢＫＥ、ＪＡＫ１、ＮＯＴＣＨ２、ＳＰＥＮ、ＳＰＧ７、ＢＲＣＡ１、ＣＹＰ１１Ｂ１、ＧＮＡＳ、ＩＴＧＡ５、ＬＴＦ、ＮＲＰ２、ＰＴＫ２Ｂ、ＴＮＫＳ、ＡＢＣＣ１、ＣＥＡＣＡＭ５、ＣＹＰ４Ｂ１、ＥＧＦＲ、ＦＬＴ３、ＩＮＳＲ、ＰＴＣＨ１、ＳＭＡＲＣＡ４、ＺＮＦ２１７、ＢＣＲ、ＥＥＦ２、ＳＥＬＰ、ＳＬＣＯ１Ｂ１、ＡＢＣＣ２、ＦＬＴ４、ＭＴＲ、ＩＬ４Ｒ、ＭＴＯＲ、ＲＰＴＯＲ、ＴＥＫ、ＡＴＭ、ＣＡＲＤ１１、ＦＡＮＣＤ２、ＭＥＦＶ、ＮＦ１、ＴＰ７３、ＢＲＣＡ２、ＣＤ１０９、ＰＴＰＲＤ、ＡＢＣＣ６、ＩＧＦ２Ｒ、Ｐ２ＲＸ７、ＲＯＳ１、ＡＣＥ、ＰＡＲＰ１、ＰＲＫＤＣ、ＣＥＮＰＥ、ＴＳＣ２、ＡＬＫ、ＮＯＴＣＨ１、ＴＮＣ、ＮＯＴＣＨ３、ＰＯＬＥ、ＭＬＬ２、ＭＹＨ１１、ＰＯＬＤ１、ＧＲＩＮ３Ｂ、Ｆ５、ＦＡＮＣＡ、ＬＲＰ１Ｂ、ＬＲＰ２、ＶＷＦからなる遺伝子グループから選ばれる少なくとも一つの遺伝子を試験することを含む請求項１乃至１０のいずれかに記載する方法。
前記ヒト核酸サンプルは次世代シーケンシングすなわちＮＧＳから公表された複数のリードからなる組を有し、前記位置決めは前記複数のリードを前記選んだＰＨＲＥＧに対してマッピングすることを含む請求項１乃至１１のいずれかに記載する方法。
ヒト核酸サンプルのゲノム解析または遺伝子解析用のコンピュータシステムであって、
（ａ）複数のヒト基準ゲノムからなるグループを用意するコンピュータ命令を有する第１モジュールと、
（ｂ）ヒト核酸サンプルを試験して、性および／または祖先を調べる第２モジュールと、
（ｃ）前記性および／または祖先を調べる試験の結果に基づいて、前記複数のヒト基準ゲノムからなるグループから一つ以上の集団に特有の基準ゲノムすなわちＰＨＲＥＧを選ぶコンピュータ命令を有する第３モジュールと、
（ｄ）前記ヒト核酸サンプルを前記選んだＰＨＲＥＧに位置決めするコンピュータ命令を有する第４モジュールと、を有するコンピュータシステム。
コンピュータによって実行されると、そのコンピュータが請求項１乃至１２のいずれかの前記ステップ（ａ）〜ステップ（ｄ）を実行する命令を有するコンピュータプログラム。
コンピュータによって実行されると、そのコンピュータが請求項１乃至１２のいずれかの前記ステップ（ａ）〜ステップ（ｄ）を実行する命令を有するコンピュータが読み取り可能な記憶媒体。
患者の治療方法であって、
患者の病気の症状の特定結果を抽出し、
前記患者から核酸サンプルを得て、
請求項１の方法にしたがって前記核酸サンプルのゲノム解析および／または遺伝子解析を行い、
前記患者の前記病気の症状に合った可能な治療法を抽出し、
変異の特定および変異の解釈を行い、
前記変異の解釈に基づいて抽出した可能な治療法を分類し、各治療法が前記患者にとって望ましく推奨される治療法として、または前記患者にとって禁忌となる治療法として分類され、
前記患者にとって望ましく推奨される治療法のうちの一つを選び、
その選んだ治療法にしたがって前記患者を治療する治療方法。