JP2021101629A - ゲノム解析および遺伝子解析用のシステム並びに方法 - Google Patents

ゲノム解析および遺伝子解析用のシステム並びに方法 Download PDF

Info

Publication number
JP2021101629A
JP2021101629A JP2019233587A JP2019233587A JP2021101629A JP 2021101629 A JP2021101629 A JP 2021101629A JP 2019233587 A JP2019233587 A JP 2019233587A JP 2019233587 A JP2019233587 A JP 2019233587A JP 2021101629 A JP2021101629 A JP 2021101629A
Authority
JP
Japan
Prior art keywords
human
genome
nucleic acid
analysis
sex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2019233587A
Other languages
English (en)
Other versions
JP2021101629A5 (ja
Inventor
シュタイン、マルチン
Stein Martin
ボーネルト、レーギナ
Bohnert Regina
リーベル、ノーラ
Rieber Nora
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Molecular Health GmbH
Original Assignee
Molecular Health GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Molecular Health GmbH filed Critical Molecular Health GmbH
Priority to JP2019233587A priority Critical patent/JP2021101629A/ja
Publication of JP2021101629A publication Critical patent/JP2021101629A/ja
Publication of JP2021101629A5 publication Critical patent/JP2021101629A5/ja
Ceased legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

【課題】一塩基多様性(SNV)、挿入および欠失(InDel)、コピー数多型(CNV)、および例えば染色体の転座、逆位、重複、大きな挿入および欠失といった構造変異等のバイオマーカーを見出す方法を提供する。【解決手段】ヒト核酸サンプルのゲノム解析および/または遺伝子解析に関し、複数のヒト基準ゲノムからなるグループを用意するステップと、ヒト核酸サンプルを試験して、性および/または祖先を調べるステップと、前記性および/または祖先を調べる試験の結果に基づいて、前記複数のヒト基準ゲノムからなるグループから一つ以上の集団に特有の基準ゲノムすなわちPHREGを選ぶステップと、前記ヒト核酸サンプルを前記選んだPHREGに位置決めするステップと、前記選んだPHREGと照合して変異の特定を行うステップとを開示する。さらにコンピュータシステムおよびコンピュータプログラムも開示する。【選択図】なし

Description

本特許出願はヒトの核酸サンプルのゲノム解析および遺伝子解析に用いるシステムおよび方法に関する。
<次世代シーケンシング(以下「NGS」ともいう)>
高スループットシーケンシングとも知られている次世代シーケンシングは、当業者にはよく知られた核酸断片の高スループットかつパラレルシーケンシングのありふれた方法である。次世代シーケンシングの装置およびシステムは様々なサプライヤから商業的に手に入れることができる(www.illumina.com参照)。
次世代シーケンシングは次のシーケンシング技術を含む多くの異なる最新のシーケンシング技術を表すのに用いる意味の広い語である。
・ イルミナ(ソレクサ)シーケンシング(登録商標)
・ イオン トレント:プロトン/PGMシーケンシング(登録商標)
・ SOLiDシーケンシング(登録商標)
NGS技術は高品質のDNA配列(「リード」)を作る。NGS技術により作られたリードは、フレデリック・サンガーおよび彼の同僚によって1977年に開発されたキャピラリ電気泳動によるサンガーシーケンシング技術で作られるリード(650−1000 bp)よりも短い。サンガーシーケンシング技術は約30年の間最も広く用いられていた方法であった。サンガーシーケンシング技術により作られるリードはスループットが低くまたコストが高い。一方、NGS法に作られるリードはいずれもはるかに短く、そのコストはあまり高くない。しかしながら、NGSの一回の実行で配列決定される塩基対の全数は数桁大きい。これらの2つの要因により、このような数百万または数十億にものぼる短いNGSリードを処理する能力を含む新しい情報学の課題をもたらす。配列決定された複数のリードは通常二つの方法のうちの一つの方法により処理される。すなわち、これらもリードは既にある主鎖/参照配列の正しい位置にマッピングして、主鎖と必ずしも同一ではないが同様な配列を作るか(「リードマッピング」と呼ぶ)、または、これらのリードを繋いで新しい配列(「デノボ(de novo)アセンブリ」と呼ぶ)にするかである。
デノボアセンブリと比べて基準ゲノムに戻すリードマッピングの主要な利点は、ゲノム推定の工程を極めて単純にすることである。アセンブリによってすべてのゲノム配列を見つける必要があり、多くの唯一にさだまらない点を生じさせるが、参照配列に基づく再配列では参照配列と試料の差を見つければよいだけである。複雑さおよび必要な時間を考えると、デノボアセンブリの場合、マッピングアセンブリに比べて、その処理速度は数桁遅く、より多くのメモリを必要とする。
リードマッピングは、NGS解析パイプラインにおける第一のまた最も基本的なステップであり、既に配列決定されたヒトの基準ゲノムを基準として新たに配列決定されたヒトのゲノム(または、エクソームもしくは目標とする遺伝子の小部分のような、新たに配列決定されたヒトのゲノムの断片)の相違部分を見つけることを目的とするステップである。
さらにリードマッピングを用いて数百万または数十億の短いNGSリードを配列して、NGSの実験およびその実験から得られる結論の重要な品質パラメータであるカバレッジ(特定の位置/遺伝子座にあるリードの数)を決める。
<ヒト基準ゲノム(以下「HRG」ともいう)>
民間会社であるセレラゲノミクスとの共同のアメリカ合衆国連邦政府の試みである、ヒトゲノムプロジェクトは、2001年2月に、すべてのヒトゲノムのドラフトを完成した。このドラフトはその後何度か改訂された(Lander et al. 2001, Venter et al. 2001, Church et al. 2011参照)。多年にわたって、ゲノムアセンブリは着実に進歩し、新しいバージョン(「ビルド」)が次々リリースされ、最新のゲノムレファランスコンソーティアム(GRC)のヒトゲノムアセンブリであるGRCh38(Schneider et al. 2017参照)が、ほぼ間違いなく、存在するアセンブルされた最もよい哺乳類のゲノムである。GRCh38の残っているアセンブリのギャップは875だけであり、特定されていない「N」ヌクレオチドは1億6千万より少ない(GRCh38以降、p8)。一方、最初のバージョンは約15万のギャップがあった(Editorial (October 2010). "E pluribus unum". Nature Methods. 7 (5): 331. doi:10.1038/nmeth0510-331参照)。
HRGは今日人間の遺伝学およびゲノミクスにおいても唯一の最も重要な資源である。HRGは宇宙の座標システムのように働き、そのため空間であり、その中でアノテーション(遺伝子、プロモータ遺伝子等)および遺伝的変異が説明される(Harrow et al. 2012; ENCODE, 2012; 1000 Genomes Project Consortium, 2012参照)。また、HRGは次世代シーケンシング解析のパイプラインにおけるリード位置決めのステップで基準となり、このマッピングの下流では、HRGは機能アッセイおよび変異特定処理(バリアントコーリング)パイプライン用に用いられる(Li H & Durbin 2009; DePristo et al., 2011参照)。
HRGの最初の型はニューヨーク州のバッファローのボランティアの主として欧州人の起源(Snyder et al参照)の匿名の13人のDNAドナーからなる小さな群からの複数のDNA配列からなるものであった。ドナーは1997年3月23日(日曜日)のバッファローニュースで募集した。最初の10人の男性と10人の女性が招かれてプロジェクトの遺伝カウンセラーと会い、血液を提供し、提供された血液からDNAが抽出された。これらのDNAサンプルが処理された方法によって、基準ゲノムの約80%は8人の人からのものである。RP11と指定された一人の男性のDNAサンプルが全基準ゲノムの66%を構成する。
より大きな集合の問題、例えば大規模な重複部分と構造的な変位部分を含む複雑な領域を特定し、決定するため、新しいゲノムマッピング技術からの配列データおよび新しいドナーからの単一のハプロタイプの資源を最新のビルドに投入されてきた。本出願の出願時において、GRCh38は50人の異なる人間からの配列を含む(http://www.bio-itworld.com/2013/4/22/church-on-reference-genomes-past-present-future.html参照)。
HRGの限界
1. HRGは直線状である。
人間のDNAはすべて染色体と呼ばれる物理的に分離された複数のユニットに担持される。人間は2組の遺伝情報を含む2倍体生物であり、一組は母親から受け継ぎ、もう一組は父親から受け継いでいる。その結果、体細胞の各々は22対の常染色体と呼ばれる染色体(各対の一方の染色体は一方の親からのもの)と2つの性染色体(男性はX染色体とY染色体を有し、女性は2本のX染色体を有する)。各染色体は単一の極めて長い線状のDNA分子を含む。人間の最小の染色体中のDNA分子は約5千万のヌクレオチド対からなり、人間の最大の染色体は約2億5千万のヌクレオチド対を含む。
2倍体の人間のゲノムは、このように24個の異なるタイプからなる46本の単一DNA分子からなる。人間の染色体はほとんど同一の対で存在しているので、代表的な人間のゲノムについての完全な情報を得るには30億個のヌクレオチド対(ハプロイドゲノム)の配列を決定する必要がある。大部分の人間の細胞60億個のヌクレオチド対を含むが、このように人間のゲノムは30億個のヌクレオチド対を含むと言われている。人間のハプロイドゲノムは22本の常染色体とY染色体およびX染色体からなる。
すべての染色体のそれぞれは単一のDNA分子、すなわち連続する数百万のヌクレオチド塩基に相当する。これらのDNA分子は線状であり、各染色体は単一の連続する/線状の核酸の配列に相当すると考えるかもしれない。残念ながら、これは次の2つの理由により正しくない。
(1)ゲノムDNAの性質および配列決定の限界のため、ゲノムのいくつかの部分の配列は決定されていないままである。
(2)ゲノムの領域の中には個人間での変化が極めて大きいため、単一の連続した配列として表すことができない領域がある。
しかし、HRGは通常の塩基(A、C,TおよびG)からなり、集合体中の間隙の位置を明示する連続する複数の「N」として表される間隙を有する24個の線状の配列として表される。
ヒトゲノムプロジェクトの主目標は確定できていない領域はあるものの単一の代表的な配列を作ること、すなわち物理的な染色体の各々に対して単一のスキャフォールドを作ることであった。ヒトゲノムプロジェクトは、さらにアレルの変化(SNP遺伝子座に存在する複数の異なる種類のDNA塩基はアレルと呼ぶ)を表す少量の代わりのスキャフォールドを含んでいた。しかし、これらの代わりのスキャフォールドは主スキャフォールドと形式化された関係を有していなかった。単一の基準配列がいくつかの極めて多様な形を有するヒトゲノムの領域を十分に表していないことがわかると、極めて変化の大きい領域を代表する代わりのスキャフォールドを導入する正式なモデルがGRCh37(Church et al. 2011参照)から始めとして加えられた。千塩基から数百万塩基からなる代わりとなる遺伝子座のスキャフォールドの形の配列が主スキャフォールドの途中の位置に固定されており、「主要な」(単一の)アセンブリに関連して説明された。本出願の出願時におけるこのアセンブリ(GRCh38、p9)中では、これらの配列が178の領域と全部で261の線状の配列を占めている(Paten et al. 2017参照)
複雑にしているもう一つの要因は、HRGは国際的なゲノム配列決定プロジェクトで複数の匿名の個人のDNAの集合から推定されることである。そのため、結果としてできたHRGは、実際はランダムに混ざった集合体、すなわち複数の異なる1倍体のDNA配列の寄せ集めであり、単一の線状の配列として代表するものとすることができない場合があることである。
2.HRGは間違いなく病気と無縁ではない
チェンとブッテは15個の稀な変異(メジャーアレル頻度<1%)を含むHRG中に3556個の病気にかかりやすくなる変異を特定した(2011年)。 専門家によって収集された高品質の定量的な人間の病気のSNPに関するデータからなるデータベースを用いて、著者らは基準ゲノムの場合に健康な人々が104の病気にかかるリスクが増大する可能性について調べた。その結果、1型の糖尿病、高血圧および他の疾患のリスクが高いことがわかった。このことは、HRGは普通の人を代表するものではなく、病気と無縁ではないことは間違いないことの証拠である。HRGはヒトのゲノムの配列決定の成果の分析を著しく加速させたが、基準ゲノムと異なる変異に集中すると稀な変異を含む病気を引き起こす多くの変異を見逃す可能性が高い(Chen & Butte 2011参照)。
3.基準アレルの欧州人の祖先よりのバイアス
従来技術のNGS解析パイプラインでHRGのアセンブリを用いることの主要な課題は、このようなHRGが欧州人の祖先よりのバイアスを有する比較的少数の匿名のドナーのDNAサンプルから抽出され、そのため人間の遺伝子の多様性からなる大きな群からの少量のサンプルを代表しているという事実である。
大多数のゲノムを表す座標系としての基準ゲノムは比較的有効であり比較的広く存在するものであるが、HRGを用いてそれにしたがって他のすべてのヒトのゲノムの研究するための用いることは極めて多くの人間の多様性を排除し、広範な基準アレルにバイアスを導入するという懸念が大きい(Petrovski et al. 2016, Paten et al. 2017参照)。基準アレルのバイアスとは、基準ゲノム中に存在するアレルは強調されて報告され、内部に含まれるDNAが基準アレルと合致しない他のアレルは抑制的に報告される傾向である(Degner et al. 2009, Brandt et al. 2015参照)。
このバイアスは主に配列を再決定するときにリードをマッピングして位置決めするステップの時に生じる。マッピングを正しく行うには、複数のリードが基準ゲノム中で表されていて、しかも同じゲノム要素として特定される基準配列と十分に似ているゲノム配列から得られたものでなければならない。これらの条件が満たされない場合、マッピングの誤りによって規則的に真の配列と相違が生じてしまう(Paten et al. 2017参照)。各遺伝子座のバイアスが生じている基準ゲノムの祖先の歴史によるが、基準アレルのバイアスは特定の遺伝的な部分集合の人々には他の人たちに比べて、また特定のゲノムの領域には他の領域に比べて影響する可能性がある(Petrovski et al. 2016, Paten et al. 2017]参照)。HLA遺伝子のように極めて多型の領域は、具体的に単一の基準ゲノムがNGSリードを位置決めするためのインデックスとして用いられる場合、特に基準アレルのバイアスの影響を受けやすい(Nielsen et al. 2011参照)。このような場合、真の変異の多くはインデックスとして用いられるゲノムと異なるハプロタイプで存在するので、これらを特定することができない。したがって、このような領域で作られたリードは位置決めされずに失われる(Brandt et al. 2015参照)。
前記したように、基準アレルのバイアスはHRGを用いて変異を見つけるヒトゲノム配列再決定するときの既知の問題であり、基準アレルの修整によって、変異の特定(calling)の精度と解釈を向上させることができる(Fakhro et al. 2016参照)。この問題を緩和させる方法の一つは、基準ゲノムを修整することによってゲノムの解釈工程の初期に変異発生率を修整し、その結果ゲノム中に見つかった変異が集団の中のマイナーアレルになる(Dewey et al., 2011参照)。基準ゲノムに対するこのような修整によって、偽陽性数が減り、解釈しなければならない変異の数が少なくなるので解析ワークフローが簡素化される(Fakhro et al. 2016参照)。
未来:グラフに基づく基準構造/ゲノムグラフ
単一の1倍体の基準ゲノムは人間の多様性のうちのほんの少しの部分しか表していないので、人間の遺伝学およびゲノム研究用の共通の基準として不十分であるという認識が多くなっている。基準ゲノムに関して簡単に説明することができない変異や注釈がある(Horton et al. 2008, Pei et al. 2012参照)。さらに、単一の1倍体の基準ゲノムをリードマッピングおよびリード解釈の目標とすると、前記したような基準アレルのバイアスを導入してしまう。このような問題を緩和するため、本出願時のヒトゲノムアセンブリ(GRCh38、p9参照)のような最新の基準ゲノムアセンブリは、「代替遺伝子座」配列(「alts」)、すなわちヒトゲノムの領域の極めて多様な形となると考えられる余分な複数の配列を含むようにした。これらの配列の両端は「主」(1倍体)基準アセンブリの複数の位置に固定されている。そのような構造は、部分的に重複する配列経路を含み、数学的なグラフの形、すなわちゲノムグラフであると考えることができる(Novak et al. 2017参照)。
グラフは生物学の配列解析の分野で長い間一定の領域を占めており、生物の配列解析ではグラフを用いて可能な配列の集合体」を簡便に表してきた。通常すべての配列はそれら自身をグラフ中の経路として間接的にコード化される。このように配列がコード化されているので、グラフは本来関連する配列の集合体である基準とする集団を表すのに非常に合っている(Paten et al. 2017参照)。グラフはサンプルの概略の配列だけでなく、多くのサンプルの特定の変異を含む。
ゲノムグラフはリードマッピング、変異特定処理およびハプロタイプ決定を向上させるものと考えられる。グラフに基づく基準が複数の人間の間の1次元的な基準や配列決定された複数の個人からなる集団を利用できる用途における1次元的な基準に取って代わることが期待される(Novak et al. 2017参照)。このようなゲノムグラフを作って用いる様々なプロジェクトが進んでいる。ゲノムグラフは現在複数の共通の変異からなるライブラリから作ることができ、まだ実験段階であるが、グラフに基づく方法の可能性が大きいことを示すツールがある。
理論的には有利な点があるものの、ゲノムグラフを用いる変異特定処理の研究はまだその端緒についたばかりである。多くの問題に取り組まなければならない。複製と繰り返しをどのように表すべきか。一致しているか否かはっきりしない複数の短い変異をどのように分類すべきか。グラフを用いてどうやればもっと包括的に多様性を分類することができるか。これらの問題の答えは未来の研究にかかっている。
ゲノムグラフが実使用において役立つには見込まれている基準のバイアスが小さいとことにより、確立された方法よりも客観的に変異特定処理を向上させることにつなげなければいけない。したがって、ゲノムグラフ用の変異特定処理のアルゴリズムを開発すること重要な研究の最先端領域となっている。
カタールゲノム(QTRG)
カタールはペルシャ湾岸の半島であり、その総人口は約30万人のカタール市民からなる。カタール人の血族結婚の割合は世界で最も高い部類であり、現在もなお上昇している。カタールにおける人種内の結婚の割合はほぼ100%に近い。大家族であることとともに、このような要因が相まって、カタールの予算の重荷となっている先天的な遺伝病が高い割合で発生している理由である。このような要因があることから、カタール政府は自国民を遺伝病のおそれから守る方策を見つけようとしている(Zayed 2016参照)。
政府の役人は2013年にカタールゲノムプロジェクト(QGP、http://www.gulf-times.com/story/374345/Qatarlaunches-genome-project参照)を始めることを決定した。このプロジェクトの主旨は、病気を起こす変異/稀な変異のマッピングをして、個人の治療となる方策としてカタールヒトのゲノムを確定することによって、高い割合でおきる先天的な遺伝病からカタール人を守るため各カタール市民のゲノム配列を決定することである。このプロジェクトの最終的な目標は得られた情報を臨床診療に応用して、この手法をカタールのヘルスケアシステムの通常作業の一部とすることである(Zayed 2016参照)。QGPの臨床応用を実現するために、変異特定処理を高感度および高精度にすることを含む」いくつかの重要な課題が達成されなければならない(Koboldt 2010参照)。
中東および北アフリカの地域で正確な治療を容易にするため、人口の0.4%を占める1161人のカタール人のすべてのゲノム配列決定からのアレルの頻度データを合体させることによってカタールのアラブ先住の地域住民の集団中の病気研究に特化した集団特有のゲノムが組み立てられた(QTRG)。全部で2090万個の一塩基多型の多型と310万個のInDel(挿入と欠失)がカタールで見つかった。この中には、個々のゲノムについて平均で1.79%の新規の変異が含まれる(Fakhro et al. 2016参照)。
1000ヒトゲノムプロジェクト(1kG)
2008年に世界中の少なくとも1000ヒトのゲノムの配列を決定し、それらのゲノムからヒトの遺伝的多様性(HRG GRCh37に関する)とヒトのハプロタイプのカタログを作製する1000ゲノムプロジェクトができた(そのため名称が1000ゲノムプロジェクト)。このプロジェクトの現在の第3相解析は26の地域住民集団とそれぞれが4〜7の地域住民の集団を縫合した範囲を決めた5つのいわゆる超地域住民集団からの2504人の個人を含む(1000 Genomes Project Consortium et al. 2015参照)。このより小規模でのハプロタイプの資源によって、ゲノムレベルおよび地理的レベルでの遺伝的多様性を理解するのが容易になる(Baye, 2011参照)。
NGS技術の最近の進歩により、DNAおよびRNAの配列決定を迅速かつ廉価でおこなうことができ、その結果ゲノムおよび分子生物学の学問に革命がおきている。健康な集団と病気の集団のゲノム配列決定プロジェクトによって、機能と結びついたゲノムの変異または病気と結びついたゲノムの変異が特定された。これらのゲノムの変異は新しい臨床応用に用いる治療の目標またはゲノムマーカーについての手がかりを与える。
遺伝子変異特定処理は基準ゲノムに対して複数の未加工の配列のリードを位置決めする(アライメント)ことに基づくものであるのが一般的である(リードマッピング)。このアライメントに基づく手法には、多くの制限がある。そのような制限にはゲノムアセンブリが不完全になること(Meyer, L. R. et al., 2013参照)、正常な個々ヒトのゲノム中にも構造的な変化があること(Sudmant et al., 2015]参照)、リード中に配列決定の誤りがあること、およびリードマッピングによる複数の一塩基多型(SNP)の干渉が含まれる。
現在、本願の出願時には線状のHRGに対するリードマッピングは標準的な手法であり、臨床NGS解析パイプラインおよび個々のヒトの再配列決定においては標準的な手法である。HRGが大多数のゲノムの座標系として、比較的有効であり普及しているからである。さらに(ゲノムグラフを用いるゲノムの干渉が発生する状態では相違するが)、線状の基準ゲノムを用いて変異を特定するための方法が多く発表されている(Nielsen et al. 2011)。
しかし、前記したように、一つの大きな問題は種の内部の遺伝子の多様性についての以前の情報を無視するHRG中のバイアスである。現在、この問題は基準ゲノムを修整し、修整された基準ゲノムと比較して特定した変異が集団中のマイナーアレルとなるようにして解決している。
NGS技術を用いる臨床ゲノム研究が成功するには個々ヒトのゲノムの変異を高い精度で矛盾のなく特定することが必要である。このような目的の前提条件となるのはリードマッピング(位置決め)とその後の変異特定処理が正確に行われることである。
本願発明の一つの目的は、新しいバイオマーカーを見つけること、具体的には一塩基多様性(SNV)、挿入および欠失(InDel)、コピー数多型(CNV)、および例えば染色体の転座、逆位、重複、大きな挿入および欠失といった構造変異等のヒトゲノム研究において次世代シーケンシングをするために用いる遺伝子の変異を見つけることである。
もう一つの目的は、現在のNGSに基づくバイオマーカー、例えばバイオマーカーの技術が癌細胞および癌細胞の損傷したDNAの解析に用いられる癌治療のために用いられるバイオマーカーの精度を上げ、さらに信頼度を上げることである。
本願発明の第1の特徴にしたがう方法は、ヒトの核酸サンプルのゲノム解析および/または遺伝子解析するための方法であって、該方法は次のステップを有する。
a) 複数のヒト基準ゲノムからなる組を用意する。
b) 性および/または祖先を調べるためにヒトの核酸サンプルを試験する。
c) ステップb)の前記性および/または祖先を調べる試験の結果に基づいて、前記複数のヒト基準ゲノムからなる組から一つ以上の集団に特有のヒト基準ゲノム(PHREG)を選択する。
d) ステップc)で選択したPHREGに対して前記ヒトの核酸サンプルを位置決めする。
以下において「集団に特有なヒト基準ゲノム」(PHREGs)は祖先に特有の基準ゲノムおよび性に特有な基準ゲノムとして理解される。PHREGsは基準のバイアスを十分に小さくし最小にし、位置決めの精度を向上させ、さらに続いて変異特定処理が行われる場合は変異特定処理の精度も向上させる。位置決めの精度を向上させるだけでなく、計算速度、正しく位置決めされたリードの数および位置決めの計算ステップ数も向上させることは本願発明の優れた点である。ヒトの核酸サンプルをゲノム解析および/または遺伝子解析するときにPHREGsを用いる利点により、リードカバレッジ深さが向上し、またこの利点は変異特定処理の感度が向上によって評価できる。
本願発明の文脈では、「ヒトの核酸サンプル」という語は人のサンプルから分離された任意の核酸サンプルを通常意味する。このヒトの核酸サンプルは具体的には以下で詳細に定義されるNGSリードを含むものでよい。
ヒトの核酸サンプルは通常、ヒトの核酸サンプルを作製するのに適したあらゆる生化学的手法、分子生物学的手法および細胞生物学的手法からできるサンプルである。そのような手法は、穿刺、生体組織検査、セルフリーDNAキット等を含む。ヒトの核酸サンプルはあらゆる適切なソースから抽出されたものでよく、このようなソースには体液、粘膜、組織、組織からの抽出物もしくは細胞またはこれらの組み合わせたものを含まれる。ヒトの核酸サンプルはあらゆる適切なソースから抽出された比較参照サンプルでもよい。ヒトの核酸サンプルは例えば、血液サンプル、血液プラズマサンプル、尿サンプル、腫瘍サンプルを含むものでよいし、さらに
組織処理手法FFPE(ホルマリン固定されたパラフィン処理された組織またはホルムアルデヒド固定されパラフィン処理された組織)による固化によって生じた好ましくない加工物を含むものでもよい。
ヒトの核酸サンプルは具体的には、DNA、RNAおよび/または完全なDNAまたはRNAをサイズ分画したものでもよい。対象サンプルからのDNAを用意することは、一つ以上の生化学的な精製工程を含むものでよい。このような生化学的な精製工程は、例えば遠心分離、溶解および/または分画ステップ、すなわち機械的または化学的な破壊ステップによる細胞溶解を含むものでよく、この機械的または化学的な破壊ステップには複数回の凍結および/またh解凍サイクル、(複数回の)塩処理、フェノールクロロホルム抽出、ドデシル硫酸ナトリウム(SDS)処理およびプロテイナーゼK消化を含むがこれらに限定されるわけではない。オプションになるが、対象サンプルからのDNAを用意することは、さらに、ポリエチレンまたは塩の存在する状態でたくさんあるリボゾームRNAのような大きなRNAを除くこと、または塩好ましくは塩化カリウム溶液の存在する状態で妨げとなるドデシル硫酸ナトリウム(SDS)を沈降させて除くことを含むものでよい。細胞および/または組織から完全なDNAまたはRNAを精製する方法は当業者には周知のものであり、例えばグアニジンチオシアン酸塩−酸性フェノールクロロホルム抽出液(例えば、TRizol(登録商標)、インヴィトロジェン、アメリカ合衆国)を使用のような標準的な手法を含む。しかし、本明細書で記載している生化学的な沈降および/または精製ステップなしで対象とするDNAを用意することも同じように好ましい。
本願発明の文脈では、「核酸」という語はい一本鎖または二本鎖のディオキシリボヌクレオチドもしくはリボヌクレオチドのいずれか、または両方からなる任意のオリゴヌクレオチド分子を指し、ゲノムDNA、核DNA、ソマティックDNA、生殖細胞系DNAおよび/または人工的に設計および/または製造されたDNAが含まれ、人工的に設計および/または製造されたDNAにはメッセンジャーRNAのプロファイルから試験管内で生成したDNA、好ましくはcDNAの形のものが含まれるがこれに限定されるものではない。「核酸」という語は通常、同一もしくは同様な長さの、すなわち同一の数のもしくは同様な数のヌクレオチドからなる一本鎖または二本鎖のオリゴヌクレオチド分子を意味する。
ヒトの核酸サンプルはゲノムレベル、転写レベルもしくは転写後のレベルでの所定の突然変異を評価し、分析し、位置決めし、指標付けし、かつ/または概略するのに役立つゲノム配列をゆうするものでよい。そのため、本願発明にしたがうヒトの核酸は任意のコーディング領域、非コーディング領域、エキソン、イントロン、染色体領域および/または染色体内領域、プロモータ領域、エンハンサ領域、小さくかつ/もしくは長い調節RNAをコード化する領域、活性転写領域および/もしくは非転写領域、トランスポゾン、ホットスポット突然変異領域、フレームシフト突然変異領域等を含むが、これらに限定されるものではない。
「複数のヒト基準ゲノムからなる組」は少なくとも2つのヒト基準ゲノムを有し、好ましくは複数のヒト基準ゲノムを有する。ステップb)中の性および/または祖先を調べる試験は、ステップc)で前記した複数のヒト基準ゲノムからなる組から最も合致する一つ以上のヒト基準ゲノムを選ぶことである。好ましいケースでは、ステップb)の性および/または祖先を調べる試験によって、性および/または祖先が自動分類され、後で行う位置決めステップd)で用いる、一つのPHREGを前記複数のヒト基準ゲノムからなる組から選ぶことを可能にする。しかし、後で行う解析で用いるPHREGを余分に一つ以上選ぶことも可能である。
ステップb)での性および/または祖先を調べる試験は、専門家によって収集されたデータからなるデータベースから抽出された性および/または祖先に関する配列変異からなる性および/またに特有の部分集合に基づくのが好ましい。このような配列変異は、一塩基多型(SNP)および/または一塩基変異(SNV)であることが好ましい。性および/または祖先を調べる試験で用いられるこのような配列変異の部分集合は、集団に依存する人の祖先および性のパターン(PHASP)ともいう。前記した専門家によって収集されたデータからなるデータベースはすべての集団のあらゆる既知の配列変異を有するものが好ましい。PHASPデータ集合は前記した専門家によって収集されたデータからなるデータベースからの抜粋したものである。このPHASPデータ集合はPHREGデータ集合よりもはるかに小さいデータ集合であり、分類するときに最も識別力があるデータ集合である。PHASPを作るのに用いる手法は遺伝子型である特徴量を減少させることを含む機械学習によるコンピュータを使う方法である。このような機械学習を標準的な分類結果と比較し検査してもよい。
性および/または祖先を調べる試験は、前記ヒトの核酸サンプルの個別の配列変異パターンを検出する予備的な位置決めステップを含む。このステップでは、前記ヒトの核酸サンプルを単一のヒト基準ゲノム、例えばGRCh37またはGRCh38に位置決めする。ここでステップb)の試験で用いる単一のヒト基準ゲノムは、祖先に特有または性に特有のものではない。サンプルの配列変異パターンをPHASPデータ集合と比較することによって、患者の祖先と性を判別する。
一つの実施形態によれば、ステップb)の試験は性を調べる試験を含むものでよい。別の実施形態によれば、ステップb)の試験は祖先を調べる試験を含むものでよい。さらに別の実施形態によれば、ステップb)の試験は性を調べる試験と祖先を調べる試験を含むものでよい。
一つの代表的な実施形態では、複数のヒト基準ゲノムからなる組は男性基準ゲノムと女性基準ゲノムを両方有する。ステップb)の性試験で前記ヒトの核酸サンプルが男性基準ゲノムまたは女性基準ゲノムであると判定されると、ステップc)ではそれぞれ対応する男性もしくは女性基準ゲノムまたは両方が、後続するステップc)の位置決めで用いるPHREGとして選ばれる。
複数の性染色体は相同の配列を含むので、(男性の場合はX染色体とY染色体を有し、女性の場合はY染色体を有さない)性に合わして修正した基準ゲノムを用いることによりリードの位置決め不良が防げる。そのため、性特有の基準ゲノムを用いることにより、後で偽陽性および偽陰性の変異特定を減らす。
別の代表的な実施形態では、前記複数のヒト基準ゲノムからなる組は多数の祖先特有の基準ゲノムを有している。ステップb)の祖先を調べる試験は、多数の祖先特有の基準ゲノムから最も合致する一つ、または複数の基準ゲノムを決める。その後ステップc)では、後続のステップd)で用いる一つまたは複数のPHREGとして最も近い一つまたは複数の基準ゲノムが選ばれる。ステップb)の祖先を調べる試験は、多数の祖先特有の基準ゲノムから最も合致する一つ、または複数の基準ゲノムを決める。その後ステップc)では、後続のステップd)で用いる一つまたは複数のPHREGとして最も近い一つまたは複数の基準ゲノムが選ばれる。
間違った祖先を選ぶと多くの偽陽性の変異特定や多くの偽陰性の変異の特定をすることになる可能性がある。祖先特有の基準ゲノムを用いることにより、正しく位置決めされたリードの数を増やし、偽陽性の変異の特定および多くの偽陰性の変異の特定を減らすことを効果的にできる。
同様に、前記複数のヒト基準ゲノムからなる組が祖先特有の男性基準ゲノムと祖先特有の女性基準ゲノムを有する場合は、性を調べる試験と祖先を調べる試験を組み合わせることにより間違いがなくなる。
ステップb)の「試験する」という語は、ヒトの核酸サンプルの少なくとも一つの遺伝子またはゲノムを試験することを含むこととして理解されなければならない。遺伝子および/またはゲノムについて試験することは、「自己申告」から導かれたいかなる情報よりも信頼性がある。本人が報告し調査員が指定した祖先は通常、行動、文化、社会規範、皮膚の色および他の影響を含む遺伝情報および非遺伝情報の両方の複雑な組み合わせを主観的に解釈することに基づいている。研究参加者または患者が自分の民族性について誤りなく報告するのは稀である。自分の民族性について誤った報告するのにはいろんな理由がある。ある人は自分の真の祖先がわかっていないか、または最近の祖先(もしくは自分の地理的な出自)しか知らない。一方、別の人は入り交じった素性を有しているにもかかわらず、一つ民族グループで自分の民族性を特定する(Mersha & Abebe 2015参照)。文献によれば(Ainsworth, 2015および Mersha & Abebe, 2015参照)、自分で申告する祖先と性は正しくないことが多いことがわかっている。事実、100人中一人は性発達の異常の影響を受け、そのヒトのゲノムと一致しない身体的な外観になっているという説明までアインスヴォルス(Ainsworth)はしている。
本願発明の方法はさらに性と祖先に基づいてサンプルの取り換えを見つける追加の品質チェックに使えるという利点がある。自分で申告した性および祖先と配列決定の実行により予測される性および祖先の不一致があることにより、例えば、試料の入れ換えがおきたことや他の試験所での処理の誤りがあったことがわかる場合がある。
「位置決め」という語は通常、配列決定されたサンプルを基準配列と比較して、その基準配列の適合する位置に対応させる計算ステップを意味する。この目的のために、作られた配列決定するデータ中の各リードについて、そのリードが対応する基準配列の対応する部分を見つけなければならない。言い換えれば、位置決めまたはリードマッピングは、測定する核酸の配列決定するリードについて、そのリードのソースとなった可能性が最も高いゲノム配列中での部分を決める工程である。代表的な実施形態では、測定する核酸の配列決定するリードはNGSリードであるが、他の配列決定の方法からのリードもまた本願発明の開示内容に包含される。
ヒトの核酸サンプルから得られた位置決めされたリードは、表示され、保存され、印刷され、通信ネットワークを介して送信され、そうでなければさらに処理されてよい。位置決めされたヒトの核酸サンプルの別の応用および使用には具体的には一つ以上の次の事項が含まれる。
1) 挿入および欠失(InDel)の周りの局部的な再位置決め
「InDel」という語はゲノム中の塩基対の挿入または欠失であり、代表的には1塩基対から10000塩基対までの長さの小さい遺伝子の変形を含む。挿入および欠失の周りでの再位置決めにより、後で行うデータ解析、特に変異の特定が改善される。
2) 塩基品質スコア補正(BQSR)
「塩基品質スコア」という語は、塩基ごとの誤りの評価値であり配列決定機器により決定された塩基の特定の信頼度を表す。塩基品質スコアは、例えば後で行う変異の特定の証拠を評価するのに用いてもよい。BQSRは、配列決定を行う方法の物理または化学による規則的におこる技術誤差を考慮して塩基品質スコアを修正することができる。
3) 次世代シーケンシング技術に共通する機械による不自然な結果から真に区別される変形を分離する機械学習
4) 可能性のあるあらゆる変異を見つけるための変異の発見と遺伝子型決定。本明細書では変異特定処理ともいう。変異の発見とは、SNP/SNV、InDel、CNVおよびSV(染色体の転座、逆位、重複、大きいInDel)の発見を含むものでよい。
5) 進化の解析による研究
進化の解析による研究は、ヌクレオチドの多様性、集団ごとの相違、連鎖不平衡および一つ以上の集団からの突然変異の頻度スペクトラムを測るツールを含むものでよい。進化の解析は、通常、進化する配列の統計値を計算する計算ツールを含むものでよい。この計算ツールは染色体またはスキャフォールド全体にわたるスラディング・ウィンドウ法による解析を行うものでよい。この計算ツールは例えばヒトの核酸サンプルの系統樹を作るものでよい。
このような進化の解析は、例えばhttps://www.ncbi.nlm.nih.gov/pmc/articles/PMC3767577/ に説明されている、例えば「POPBAM」ソフトウェアによって実行できる。
6) 野生型のバイオマーカーを探すための試験
さらに、位置決めされたヒトのゲノムサンプルは野生型のバイオマーカーが存在するかどうかを確認するために試験されてもよい。野生型のバイオマーカーとは、PHREG中に含まれるため、変異特定処理の際に検出されないバイオマーカーである。そのため、位置決め後の計算ステップは既知の各バイオマーカーを見つけるための試験を含む。この試験は、対象の位置のPHREGの情報が何であるかにかかわらず、位置決めされたヒトのゲノムサンプル中にバイオマーカーがあるかどうかを示す。
一つの実施形態によれば、本願発明の方法は選択したPHREGを基準として位置決めされたヒトの核酸サンプルの変異特定処理を行うステップをさらに有する。本願発明は、最初に性および/または祖先を調べる試験を導入して、後続する位置決めステップおよび変異特定処理のステップで用いるため正しいPHREGを決定することによって変異特定処理の精度を向上させる利点がある。
位置決めされたヒトの核酸サンプルは、もっと具体的にいえばヒトの核酸サンプルから抽出され位置決めされたNGSリードなので、計算モジュールである一つ以上のいわゆるバリアントコーラーによってさらに処理される。このバリアントコーラーは、任意のタイプの変異(SNV、InDel、複製回数変化、構造変異)を検出する複数の異なる変異特定処理のアルゴリズムを有している。後続の方法ステップは変異を解釈することを含むものでよい。変異特定処理および/または変異の解釈は、表示され、保存され、印刷され、通信ネットワークを介して送信され、さもなければさらに処理されるものでよい。本願発明の方法は、用いる基準ゲノムのバイアスを除くことによって以前は見つけられなかったバイオマーカーを検出できる利点がある。具体的には、本願発明の方法は、様々な遺伝子の突然変異を見分けることができ、このような遺伝子の突然変異にはSNV、複数ヌクレオチド変異(MNV)、複雑な事象、並びに大きな変異、具体的にはホットスポット突然変異、フレームシフト突然変異、非サイレント突然変異、終止コドン突然変異、ヌクレオチド挿入、ヌクレオチド欠失、複製回数多型、複製回数変化、および/またはスプライス部位、を含むが、これらに限定されるものではない。
ヒトの核酸サンプルのドナーは患者、すなわち所定の病気にかかっているか、所定の病気にかかっていると考えられる人である。本願発明の方法は、患者だけに適用されるものと考えてはいけない。
変異特定処理および変異の解釈は所定の病気の存在または非存在を示すゲノム配列の解析を含む。変異の解釈に基づいて、患者は所定の治療法が薦められない第1のグループまたは所定の治療法が薦められる第2のグループに分けられる。このように、本願発明の方法は、患者に所定の病気が存在するかしないかを評価して、病気を選別する手順の一部として用いることができる利点がある。
本願発明の方法は、さらに、または代わりに、ヒトの核酸サンプルに関連する、または結びついた所定の病気の症状を見つけ出すステップを含んでもよい。所定の病気の症状は、例えば電子的な健康状態の記録から見つけ出すか、計算デバイスの入力手段を介して患者自身またはかかりつけの医者によって入力されるものでもよい。このような病気の症状は疾患のオントロジ、例えばISD−10、MeSH、またはMeDRAにしたがって特定される。所定の分類の病気の症状を見つけるに、病気の症状をより正確に分類するような利点を与える特殊なオントロジがある。腫瘍学では、ICD−O−3および/またはTNM分類システムを用いることが有益である。
変異特定処理および変異の解釈の結果に基づき、患者の病気を考慮して、本願発明の方法はその患者の治療計画を用意することを含んでもよい。この場合、治療計画は具体的には個人向けの治療計画としてよい。ここで、治療計画とは具体的に患者用の個人向け治療計画であり、このような個人向けの治療計画は患者の遺伝子データに適合させた、具体的には患者の臨床、分子、および/または遺伝子の状態に適合させた治療の選択肢を含むものでよい。
有望な患者の治療法を決定するために、本願発明の方法は、例えば患者に見つかった複数の突然変異、すなわち、例えば患者の腫瘍中または患者の健常な比較組織中に見つかった複数の突然変異である、任意の変異が、患者を治療した結果を示しているかを調べることを含んでもよい。本願発明の方法は、さらに見つかった変異のいずれかに対応するあらゆる治療法を決定することを含んでもよい。本願発明の方法は、決定した複数の治療法を採点し、これらの治療法をその点数にしたがってランク付けして、患者のために治療の選択肢の優先順位付け、または治療の禁忌の優先順位付けをすることを含んでもよい。
本願発明の場合、「治療法」という語は治療効果のある薬または病気の症状に伴う兆候を防ぎ、改善し、治す薬学的に有効な化合物を処方することを含む。「治療法」という語はまた手術、放射線治療および/もしくは化学療法またはこれらの組み合わせを含む。
2つの選択的な治療法、すなわち、病気を選別する方法または個人向けの治療計画を行う場合に、本願発明によれば位置決めおよび変異特定処理が向上するので治療法をより適切に決めることができ、医者はその診断の能力を向上させることができる。
一つの実施形態によれば、位置決めはPHREGに対してメジャーアレルレベルで行われる。メジャーアレルレベルはPHREG中で唯一に定まるヌクレオチドコード(A,C,G,T)を用いて、所定の集団に合わせて基準配列を修正する。集団中の所定の遺伝子座では、最もよく見られる可能性のある単一のヌクレオチドが選ばれる。アレル頻度が同じ場合は、元の基準配列(例えば、GRCh37またはGRCh38)中に存在するアレルを用いてもよい。
別の実施形態によれば、位置決めはPHREGに対して非稀少アレルレベルで行われる。非稀少アレルレベルは確立されたIUPACの命名法にしたがう唯一に定まらないヌクレオチドコード、例えば、「A」または「G」を表す「R」を用いる(Cornish-Bowden, 1985参照)。非稀少レベルは集団の中の2または3個、好ましくは2個の相当な頻度のアレルをコード化する。相当な頻度とは30%、20%、15%、10%、5%、3%、1% または0.1%以上、特に5%以上である。ゲノム位置に対して1つより多い変異アレルがPHREG中に取り込まれているので、より正確なリード位置決めができると考えられる。一つの実施形態では、単一ヌクレオチド変異(SNV)のみが非稀少アレルレベルで考慮される。他の実施形態では、挿入および欠失(InDel)並びに他の構造的な変位も考慮される。
一実施形態によれば、PHREGに対する変異特定処理はメジャーアレルレベルで行われる。所定の実施形態では、位置決めは非稀少アレルレベルで行われ、変異特定処理はメジャーアレルレベルで行われるものでよい。代わりの例では、変異特定処理は非稀少アレルレベルで行われる。
一実施形態によれば、ステップa)で用意されるヒト基準ゲノムは公表されたヒト基準ゲノムである。公表されたヒト基準ゲノムは特にHRGのビルド、具体的にはGRCh37およびGRCh38のビルドを含むものでよい。さらに、また代わりに、公表されたヒト基準ゲノムはQTRGを含むものでもよい。さらに、また代わりに、公表されたヒト基準ゲノムは千ゲノム(1kG)プロジェクトで得られたゲノムを含むものでよい。1kGプロジェクト用のすべての染色体のVCFファイルが1kGFTPのサイト、ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/の最新のリリースからダウンロードして使うことができる。もしも、もっと多くの個人および民族を用いたデータセット(例えば、首長国連邦の人口を調べる千アラブゲノムプロジェクト(Al-Ali, M.et al., 2018参照))が得られれば、本願発明の方法ではそれらを使うことができる。
さらに、または代わりに、ステップa)で用意するヒト基準ゲノムは公表されたヒト基準ゲノムから得られたものである。ここで「から得られる」とは。誤差補正および/またはヒト基準ゲノムをメジャーアレルレベルまたは非稀少アレルレベルに合わせて修正することを含むものでよい。
誤差補正が行われると、所定の集団の0人の個人に観測される基準のヌクレオチドが対応する高頻度ヌクレオチドで置き換えられる。
一つの実施形態では、ステップa)は複数のヒト基準ゲノムを所定のコード化レベルに合わせて修正ことを含み、この場合のコード化レベルは唯一に定まるヌクレオチドコードまたは唯一に定まらないヌクレオチドコードのいずれかを含む。唯一に定まるヌクレオチドコードを含むコード化レベルは特にメジャーアレルレベルでPHREGを規定するのに用いられる。一意に定まらないヌクレオチドコードを含むコード化レベルは特に非稀少アレルレベルでPHREGを規定するのに用いられる。
一つの実施形態では、コード化レベルに合わせて修正するために、単一ヌクレオチド変異が考慮される。集団のそれぞれ(または超集団)に対して、すべての報告されているSNVとそれらのアレル頻度を用いる。他の実施形態では、InDel、CNVおよび/またはSVも考慮される。
一つの実施形態によれば、基準の配列を所定の集団に合わせて修正することについて、4つの異なるレベルが提案され、これらの4つのレベルのうちの2つは唯一に定まるヌクレオチドコード(A、C、G、T)に限定され、別の2つはIUPACにしたがう唯一に定まらないヌクレオチドのコード化(Cornish-Bowden, 1985参照)、例えば「R」が「A」または「G」を表すコード化を用いる。このようなPHREGのコード化レベルは次のように規定される。
1. 最も保守的な誤差補正:集団中でどの1人にも見つからない基準ヌクレオチドは、対応する高頻度で出現するヌクレオチド、例えば対応する1kGの高頻度で出現するヌクレオチドで置き換える。
2. メジャーアレル:集団中の所定の遺伝子座で最も高頻度で現れる単一のヌクレオチドを選ぶ(アレル頻度に関係がある場合は、元の基準配列(例えば、GRCh37またはGRCh38)中に存在するアレルを用いる)。
3. 非稀少アレル:集団中で相当な頻度(例えば、5%以上)の2個のアレルまでを、必要ならIUPACコードを用いてエンコードする。
4. 観測されたアレルの完全なモデル化:集団中の少なくとも一人について報告されているすべて(4個まで)のアレルを各位置でエンコードする。
しかし、レベル4のPHREG中の1kGの変異を完全に表すことは、不釣り合いなほど多くのゲノムの修整をすることによってなされるものであるが、このようなゲノムの修整を行えばゲノムが一意に定まらなくなり、そのためリードマッパーによって子孫を見つけることが極めて難しくなる。したがって、一つの実施形態では、レベル3を採用し、IUPACの一意に定まらないことを承知して行う位置決めアルゴリズムを用いる位置決めを行う。現在最も高性能のバリアントコーラーでも一意に定まらないコードを扱うようにはできていないので、より高性能なIUPACの一意に定まらないことを承知して行う位置決めアルゴリズムができなければ、後続する変異特定処理ではレベル2のPHREGを用いる。
このように本願発明の方法は、目標とする集団により、また後続する解析により、ユーザーが規定するレベルでPHREGを集団のゲノムの変異に合わせて修正することができる利点がある。
一つの実施形態によれば、ステップa)で用意するヒト基準ゲノムはPHREGである。したがって、ステップa)は例えばPHREGを公のデータ源からダウンロードすることを含むものでよい。
前記したように、PHREGはそもそも祖先に特有な基準ゲノムかつ/または性に特有な基準ゲノムとして理解される。一つの実施形態では、ステップa)で用意するヒト基準ゲノムは集団の祖先および/または性を示すメタデータを含むので、既に集団に特有なものである。例えば、本願の出願時において、1kGプロジェクトの現在の第3相解析は26の集団および4から7個の集団を統合して形成した5つのいわゆる超集団からの2504人の個人を含む。これらの1kG研究第3相の26の集団と関連する5個の超集団(AFR:アフリカ、AMR:混合したアメリカ、EAS:東アジア、EUR:ヨーロッパ、SAS:南アジア)に結果は、http://www.internationalgenome.org/faq/which-populations-are-part-your-studyでわかる。
一つの実施形態では、1kGプロジェクトのデータを用いて前記した31個の(超)集団と他のすべての集団を含む追加する超集団のそれぞれを表す最適化された集団のそれぞれに特有のゲノムを構築する。
ステップa)で用意するヒト基準ゲノムである場合、PHREGのメタデータは例えば公のデータ源からダウンロードすることにより用意することで差し支えない。このようなメタデータは本願発明の品質管理をするのに役立つ。もしも、このメタデータと性クラシファイアのデータおよび祖先クラシファイアのデータが合致するならば、品質管理は成功していると考えてよい。合致していないならば、ソフトウェアがユーザーに対して表示する警報または警告を発してもよいし、さらに、または代わりに、ソフトウェアが例えば位置決めステップの前に一連のステップの進行を停止してもよい。
一つの実施形態によれば、性を調べる試験は次のステップのうちの少なくとも一つを含む。X染色体および/またはY染色体上の性特有の遺伝子中の少なくとも一位置を試験すること、X染色体および/またはY染色体上の複数のヒトゲノムサンプルの位置決めの違いを利用すること、細胞遺伝学的試験、FISH解析、CGH解析、またはヒトの核酸サンプルの性を直接的もしくは関接的に決定すること。
前記したように、性を調べる試験はヒトの核酸サンプルのFISH解析(蛍光in-situハイブリッド形成解析)の副産物の結果としてよい(Gall J. G. 1969参照)。また、性を調べる試験はCGH解析(比較ゲノムハイブリッド形成法)の副産物の結果としてよい(Kallioniemi A. et al. 1992参照)。
性を調べる試験により男性または女性の核酸サンプルを効率的かつ確実に区別することが可能になる。
一つの祖先または民族からの複数の個人は他の祖先または民族と区別される多くのSNPを共有するので、所定の範囲の祖先を決定する複数のSNPを調べることによってリードマッピングおよび変異特定処理に用いるのに最も適切なPHREGを特定できる。このように祖先紙面の結果に基づいて、複数のヒト基準ゲノムの組からPHREGを選べる。
最もよくマッチするPHREGの基準を決めて誤りを防ぐため、位置決めを進める前に個人の祖先を確かめる上流のゲノム解析パイプラインステップでは複数の異なる実験のセットアップを用いることができる。
1) 祖先を調べる試験はヒトの核酸サンプルに対して用いる機械学習アルゴリズム、または祖先に特有の変異を利用する別の分類スキームに基づくものでよい。祖先試験は特に複数のエキソン位置、例えば100より多い、500より多い、1000より多い、2000より多い、好ましくは5000より多いエキソン位置の遺伝子型を利用する機械学習に基づくものでよい。
2) 適切な遺伝子型を決めることは、NGSデータまたは代わりの実験手法、例えば法医学的研究で行われるSNPアレイ(Fondevila et al. 2013参照)に基づいて行うことができる。ここで、非コーディングSNPを用いることは民族を決めるのに役立つ。
3) 2)の代わりの実験手法からの法医学SNPアレイ中で試験されるのと同じ非コーディングSNP(およびその両側の領域)を存在するNGSパネルに加えて適切な遺伝子型を決定することもできる。
特に、祖先を調べる試験は少なくとも一つのゲノム位置の遺伝子型を用いることを含むものでよい。
一つの具体的な実施形態では、祖先を調べる試験は本明細書に含まれる配列プロトコルから選ばれた少なくとも一つの遺伝子を試験することを含むものでよい。正確な結果を出すために本明細書に含まれる配列プロトコルからの249の遺伝子が示された。
追加として、または代わりとして、祖先を調べる試験は、複数のSNPアレイおよび/もしくは複数のSNPチップの試験、並びに/またはサンガー配列決定もしくは質量分析からのマーカーの試験、または適切な遺伝子型を決めるための任意の他の実験方法を含むものでよい。
一つの具体的な実施形態では、祖先を調べる試験はABL2、ATP1A3、CIC、CYP2C8、CYP2C9、EPHA3、EPHA7、ERBB3、ERG、ETV1、F2、FAS、HFE、IL11RA、IL2RA、ITGB6、KIF11、KIT、KLK3、LRP6、MDM4、NAT2、NTRK2、PDGFB、PIK3R1、PLA2G3、PLAU、PRKCB、RICTOR、SLC7A11、STAT3、T、TSC1、VCAM1、VDR、VEGFB、ACVRL1、AXL、CA9、CALCR、CASP9、ENG、EPHB1、ERBB4、ESR1、FGFR2、HPSE、HSP90AA1、ITK、MRE11A、PLK1、PTPRC、SERPINE1、SMC4、TERT、TLR3、WISP3、WT1、XRCC1、ANGPT2、ARID2、BARD1、CBR3、CDH2、CYP1B1、DDR2、DNMT3A、EPCAM、ERCC2、FANCG、FANCL、GSTP1、IRS2、ITGB1、JAK3、LHCGR、MSH6、NCF2、RNF43、SLC5A5、TMPRSS2、TNFRSF8、AKT1、CD248、CD4、ESR2、EZH2、IGF1R、ITGAV、ITGB2、KLHL6、MAP3K1、MET、MLL、MTHFR、NFKB1、NUP93、PARP8、RB1、RPE65、TSHR、ABL1、BLM、CYP19A1、DPP4、EPHA6、ERBB2、EWSR1、FOXP4、ITGAM、KDM5A、LPA、LTK、MLH1、PBRM1、PHLPP2、SF3B1、TNFRSF10A、ABCG2、ACPP、ADAM15、DPYD、EPHA5、EPHB6、FOLH1、KDR、MSH3、MST1R、NTRK1、ROCK2、SLC6A2、TET2、TGM2、TH、ABCB1、CD22、CD40、CD44、CDH20、CYP11B2、ERCC5、GPR124、IL7R、ITGB3、ITGB5、NCL、NOD2、NR4A1、PGR、PLCG1、PPP2R1A、PRAME、PTCH2、RET、SETD2、XPC、ASXL1、EPHB4、PLA2G6、SYK、TET1、EP300、FLT1、ITGA1、LOXL2、PDGFRB、PIK3CD、SSTR5、TEC、APC、ATR、CLU、CREBBP、CYP2D6、EML4、MMP2、PARP2、PDGFRA、TRPM8、CSF1R、DOT1L、FGFR3、FGFR4、GLP2R、IKBKE、JAK1、NOTCH2、SPEN、SPG7、BRCA1、CYP11B1、GNAS、ITGA5、LTF、NRP2、PTK2B、TNKS、ABCC1、CEACAM5、CYP4B1、EGFR、FLT3、INSR、PTCH1、SMARCA4、ZNF217、BCR、EEF2、SELP、SLCO1B1、ABCC2、FLT4、MTR、IL4R、MTOR、RPTOR、TEK、ATM、CARD11、FANCD2、MEFV、NF1、TP73、BRCA2、CD109、PTPRD、ABCC6、IGF2R、P2RX7、ROS1、ACE、PARP1、PRKDC、CENPE、TSC2、ALK、NOTCH1、TNC、NOTCH3、POLE、MLL2、MYH11、POLD1、GRIN3B、F5、FANCA、LRP1B、LRP2、VWFからなる遺伝子グループから選ばれる少なくとも一つの遺伝子を試験することを含む。
さらに具体的な実施形態では、祖先を調べる試験は別表1に一覧表にした複数のゲノム座標のグループから選ばれた少なくとも一つゲノム座標を試験することを含む。別表1は祖先分類器に用いられる特徴部分のGRCh37に基づくゲノム座標を記載する。最初3列はBEDファイル標準(https://www.ensembl.org/info/website/upload/bed.html参照)にしたがってフォーマットされており、(左から右へ)染色体、特徴部分の左端を0としたときの開始座標、特徴部分の左端を0としたときの終了座標(すなわち、特徴部分の終了位置の後の最初の位置)に対応する。第4列は特徴部分の位置の分類器に適切な塩基を示す。第5列は対応する遺伝子名を示す。
遺伝子名はHUGO遺伝子命名法委員会(HGNC、https://www.genenames.org/参照)で認められたものである。HGNCはタンパク質をコードする遺伝子、ncRNA遺伝子および偽遺伝子を含む人の遺伝子座の固有の符号および名前を認可して、科学的な情報伝達が一意的に行えるようにする責を負っている。本明細書中で用いられる遺伝子名は2013年8月に読みこんだものである。
他の特別な実施形態では、祖先を調べる試験は別表2(Fondevila et al. 2013参照)に一覧表にした複数のSNPのうちの少なくとも一つを含む。別表2はSNPが位置する染色体の番号(左列)、正確な染色体の位置(真中の列)および対応するrs番号(右列)を示す。ここでrs番号はSNPデータベース(dbSNP、https://www.ncbi.nlm.nih.gov/projects/SNP/参照)中で、NCBI(アメリカ生物工学情報センター)によって付与された認可番号であり、複数のゲノムデータベースにわたって特定のSNPを指すのに広く用いられている。複数の研究者が一つのSNPを特定すると、彼らは報告書(そのSNPの直ぐ周りの配列を含む)をdbSNPデータベースに送る。もしも重複する報告書が送られると、それらは併合されて固有一つの固有のrsidが割り当てられた同じ重複のない基準SNPクラスタになる。さらなる情報がURL、http://www.ncbi.nlm.nih.gov/sites/books/NBK44406/で得られる。
このような祖先を調べる試験は複数の祖先のカテゴリの区別を可能にする遺伝子および/またはゲノムの試験を含む。このような複数の祖先のカテゴリは1kGプロジェクトにしたがってAFR、AMR,EAS、EUR,SASとして決められる。しかし、本願発明の方法は、1kGプロジェクトのデータに限定されず、例えばもっと多くの個人/民族によるもっと包括的なデータ組が得られるならば、これらのデータ組を同じ目的のために代わりに用いることもできる。
一つの実施形態によれば、ヒトの核酸サンプルは次世代シーケンシング方法から公表された複数のリードの組を含んでいる。位置決めはこれらのリードを選択したPHREGに対応させる(マップする)ステップを含む。さらに、または代わりにヒトの核酸サンプルはターゲット配列決定方法、例えばパネル配列決定により公表された複数のリードの組を含む。
本願発明の方法をHRGに対して行うリードマッピングに基づく現存するNGS解析のいずれにも問題なく組み合わせることができるのは有利な点である。
ヒトの核酸サンプルのリードを選択したPHREGに対応させて(マッピングして)そのヒトの核酸サンプルをその選択したPHREGに対して位置決めするには、予めDNAまたはcDNAサンプルをランダムに切断して、その後5‘−および3’−アダプター結紮を行って配列決定するライブラリを準備することが必要とするものでよい。所定の実施形態では、切断および結紮反応を組み合わせて単一のステップとして行い、その後にアダプター結紮した断片をPCR増幅する。
ヒトの核酸サンプルのリードを選択したPHREGに対応させて(マッピングして)そのヒトの核酸サンプルをその選択したPHREGに対して位置決めすることには、前記した複数のDNA短片の組の配列決定をして、約28塩基対から1000塩基対の長さの複数のリードを作製すること(Goodwin S. et al. 2016参照)が必要であるとしてよい。このDNA短片の組は、問われている実験の課題に見合う所定の目標領域の範囲に相当する十分の数のリードを含む(通常数個から数千個)。
一つの実施形態では、次世代シーケンシング方法は全エクソームの配列決定を含む。別の実施形態では、次世代シーケンシング方法はゲノム全体の配列決定を含む。「全エクソームの配列決定」という語は一つのゲノム中のすべてのタンパク質をコーディングする遺伝子(エクソームとして知られる)の配列を決定するための手法を通常意味する。この方法はまずタンパク質をエンコードするDNA(エキソンとして知られる)の部分集合を選択し、任意の高スループットDNA配列決定手法を用いてこのDNAの配列を決定することからなる。人はヒトゲノムの1.5%、または約3千万個の塩基対を構成する約18万個のエキソンを有する。特に、エクソームの配列決定は次世代シーケンシング手法によって行われるものでよい。「全ゲノムの配列決定」(WGS、フルゲノム配列決定、完全ゲノム配列決定または全ゲノム配列決定としても知られる)は1回で生命体のゲノムの完全なDNA配列を決定する実験室プロセスである。このプロセスは生命体の染色体のDNAだけでなくミトコンドリアに含まれるDNAの配列もすべて決定することを必然的に伴う。
本願発明のもう一つの特徴にしたがうのは、ヒトゲノムサンプルの遺伝子解析用のコンピュータシステムであって、このコンピュータシステムは、
a) 複数のヒト基準ゲノムの組を用意するコンピュータ命令を有する第1のモジュールと、
b) ヒトの核酸サンプルを試験して性および/または祖先を調べる第2のモジュールと、
c) 前記性および/または祖先を調べる試験の結果に基づいて前記複数のヒト基準ゲノムの組から集団に特有なヒト基準ゲノムすなわちPHREGを一つ以上選ぶためのコンピュータ命令を有する第3のモジュールと、
d) 前記ヒトの核酸サンプルを前記選択した一つ以上のPHREGに対して位置決めするためのコンピュータ命令を有する第4のモジュールと、を含む。
具体的に、前記コンピュータシステムは前記した複数の方法のどれでも、実行できるようになっている、または実行できる構成を有しているものでよい。そのため、前記した複数の方法に関して説明した特徴は前記コンピュータシステムのために開示したものであるし、逆に前記コンピュータシステムに関して説明した特徴は前記した複数の方法のために開示されたものでもある。
前記したモジュールはソフトウェアモジュール、ソフトウェアルーチンまたはソフトウェアサブルーチンでよく、書き換え不能な、もしくは書き換え可能な記憶手段のような機械が読み取り可能な記憶媒体、またはコンピュータ手段に用いられる記憶媒体、例えばCD−ROM、DVD、ブルーレイディスク、スティックもしくはメモリカードのような携帯型記憶手段に保存される。さらに、または代わりに、このようなモジュールは、例えばインタネットのようなデータネットワークを経由して、または電話回線もしくは無線のような通信回線を経由してダウンロードするサーバーまたはクラウドサーバーに備えられる。
本明細書で開示モジュールはいずれも複数の機能ユニットとしてよく、これらの機能ユニットは必ずしも互いに物理的に別体のものではない。これらのモジュールのユニットのいくつかは、単一の物理ユニットの形態で実現されるものでよく、例えばいくつかの複数の機能が一つのソフトウェアパッケージの中で実装される場合があてはまる。
本明細書で開示する複数のコンピュータモジュールは必ずしも一体化したシステムの一部でなくてもよく、コミュニケーションネットワークを介して互いに作用し合ういくつかの個別システムに分散していてもよい。
一つの実施形態によれば、ヒトの核酸サンプルを試験して性および/または祖先を調べる第2のモジュールは複数のコンピュータ命令を有するコンピュータモジュールである。さらに、または代わりに、第2のモジュールはウェット−ラボ実験、例えばFISH検査を行う実験を含むものでよい。FISH検査の結果は電気的に、または視覚的に分析して、サンプルの性を判定するものでよい。
本願発明のもう一つの特徴によるコンピュータプログラムは、コンピュータによってそのプログラムが実行されると、該コンピュータが前記した複数の方法うちのどの方法でもその前記複数のステップa)、b)、c)およびd)を実行する複数の命令を含む。
本願発明のさらに別の特徴によるコンピュータ読み取り可能な記憶媒体は、コンピュータによって実行されると、そのコンピュータが前記した複数の方法うちのどの方法でもその前記複数のステップa)、b)、c)およびd)を実行する複数の命令を含む。
既に説明したように、本願発明の方法は所定の病気の指標となる、または患者が所定の治療法に合っていることの指標となる患者のゲノム中の異常を特定するの特に適している。
ここで、「病気」という語は一つ以上のゲノムの異常で特徴づけられる任意の病気を含む。この「病気」という語は、癌、自己免疫病、心臓血管病および任意の遺伝病を含む。患者はいかなる種でもよいが、哺乳類であることが好ましく、人間であることがさらに好ましい。
病気とその治療法により、当業者は患者に有効な個別の治療モードを選択できる。
結果として、本願発明のさらに別の特徴は、患者の病気を診断する方法に関するものであり、該方法は、患者の病気の症状の特定結果を抽出し、前記患者から核酸サンプルを取得し、本明細書に記載されたヒトの核酸サンプルのゲノム解析および/または遺伝子解析の方法にしたがって前記核酸サンプルのゲノム解析および/または遺伝子解析を行い、その解析によって前記患者の病気の状態を判定する。
病気の症状の特定結果は任意の公知の方法によって抽出すればよく、例えばユーザーの入力として、電子健康記録もしくは電子診断記録から、または診断記録を含む患者のデータベースから抽出すればよい。
この本願発明の特徴に関して、「病気の状態」という語は一つの実施形態では患者が病気にかかっていることが確認されたことを意味する。別の実施形態では、この語は病気をより精密に診断すること、すなわち、その病気の亜型のどれに該当するかを特定することを意味する。
本願発明はさらに患者の病気を治療する方法に関し、該方法は、患者の病気の症状の特定結果を抽出し、前記患者から核酸サンプルを取得し、本明細書に記載されたヒトの核酸サンプルのゲノム解析および/または遺伝子解析の方法にしたがって前記核酸サンプルのゲノム解析および/または遺伝子解析を行い、その解析によって前記患者の病気の状態を判定して前記患者を治療する。
本願発明のさらに別の特徴は患者が所定の薬による治療に合っているかどうかを判定する方法に関し、該方法は、患者の病気の症状の特定結果を抽出し、前記患者から核酸サンプルを取得し、本明細書に記載されたヒトの核酸サンプルのゲノム解析および/または遺伝子解析の方法にしたがって前記核酸サンプルのゲノム解析および/または遺伝子解析を行い、前記患者の病気の症状に対する可能な治療法を抽出し、変異特定処理および変異の解釈を行い、さらに前記変異の解釈に基づいて抽出した可能な治療法を分類し、各治療法が前記患者にとって望ましく推奨される治療法として、または患者にとって禁忌となる治療法として分類される。
この方法によって、患者が利用できる治療法または患者に有効な治療法を判定することができる。例えば、所定の治療法が患者に合っているか、または所定の治療法の副作用が許容できると予測されるかを判定できる。
病気の症状の特定結果はここでも任意の公知の方法によって抽出すればよく、例えばユーザーの入力として、電子健康記録もしくは電子診断記録から、または診断記録を含む患者のデータベースから抽出すればよい。
患者の病気の症状に対する可能な治療法は公知の方法、例えばデータベースから抽出すればよい。
本願発明はさらに患者を治療する方法に関し、該方法は、患者の病気の症状の特定結果を抽出し、前記患者から核酸サンプルを取得し、本明細書に記載されたヒトの核酸サンプルのゲノム解析および/または遺伝子解析の方法にしたがって前記核酸サンプルのゲノム解析および/または遺伝子解析を行い、前記患者の病気の症状に対する可能な治療法を抽出し、変異特定および変異の解釈を行い、さらに前記変異の解釈に基づいて抽出した可能な治療法を分類し、各治療法が前記患者にとって望ましく推奨される治療法として、または前記患者にとって禁忌となる治療法として分類し、前記患者にとって望ましく推奨される治療法のうちの一つを選び、その選んだ治療法にしたがって前記患者を治療する。
病気の症状の特定結果はここでも任意の公知の方法によって抽出すればよく、例えばユーザーの入力として、電子健康記録もしくは電子診断記録から、または診断記録を含む患者のデータベースから抽出すればよい。
患者の病気の症状に対する可能な治療法は公知の方法、ここでも例えばデータベースから抽出すればよい。
本明細書の前記した内容並びに他の目的、特徴、特徴づける部分および利点は添付した図面と一緒に以下の発明の詳細な説明を参照することにより一層明らかになり、理解が深まる。
図1は、本願発明にしたがうヒトの核酸サンプルのゲノム解析および/または遺伝子解析する方法を示すフローの略図である。 図2は、本願発明にしたがうデータ解析の方法を示すフローの略図である。 図3は、複数のリードマッピングのステップを図解するものである。 図4は、本願発明にしたがうヒト核酸サンプルのゲノム解析および/または遺伝子解析する方法を示すフローの略図である。 図5は、MHパネルについて計算した、性分類器用に選ばれた特徴の分布を表す図である。 図6は、2つの性―祖先分類器(性分類器および祖先分類器)とEthSEQのメモリ使用量と実行時間の箱ひげ図である。
添付した図面の詳細な説明
図1はヒトの核酸サンプルのゲノム解析および/または遺伝子解析のための通常のワークフローを図解し、このワークフローはヒトの核酸サンプルを抽出する工程と、配列ライブラリを用意する工程と、配列を決める工程と、後でデータ解析する工程を含む。本願発明の説明の中では、ヒトの核酸サンプルを抽出する工程と、配列ライブラリを用意する工程と、配列を決める工程とは周知の標準的な工程なので、詳細については説明しない。発明部分であるデータ解析の部分の詳細が図2に示されている。
図2は、図1のデータ解析ステップを示し、このデータ解析ステップは、第1の性および祖先試験ステップと、それに続く位置決め(またはリードマッピング)ステップ、変異特定処理ステップおよび注釈を付けるステップを含む。リードマッピング計算モジュール用の入力ファイルは、例えばFASTQファイルの形式の生の配列データである。リードマッピング計算モジュール用の出力ファイルは、例えば変異特定処理の計算モジュール用の入力ファイルであるBAMファイルである。変異特定処理の計算モジュール用の出力ファイルは、例えばVCFファイルである。後で用いる注釈を付ける計算モジュールは、VCFファイルからのデータに注釈を付け、注釈の付いたデータを要求されるPDFやHTMLのような形式にして出力するものでよい。ここで用いるファイルの形式は代表的なものを挙げたにすぎず、異なる形式にしてもよい。例えば、BAMの代わりにSAMファイル,CRAMファイル等を用いることができる。また、図2中のデータ解析パイプラインは入力ファイルまたは出力ファイルを一つの形式から別の形式に変換する複数のコンピュータモジュールを含むものでよい。
図2はさらに従来技術の状況を本願発明の状況と比較している。(図2中で「A」で示される)従来技術の方法は性および祖先を調べる試験を行わない。したがって位置決めおよび変異特定処理は標準的なHRGと比較して行われる。(図2中で「B」で示される)本願発明にしたがう方法は一つ以上のPHREGの選択を可能にする性および祖先を調べる試験を行う。その後の位置決めおよび変異特定処理はこの選択したPHREGと比較して行われる。
図3は代表的なリードマッピングステップの概略を示している。この例では、NGSリードは祖先に特有のSNP「A」を有している。祖先に特有のSNP「A」は、以前は見つかっていないバイオマーカー変異「G」から極めて近い範囲に位置している。ここで近い範囲とはリードの長さまでの範囲である。
位置決め工程では、NGSリードは標準的なHRGと比較され、2つの不一致部分、すなわち祖先に特有なSNPおよびバイオマーカー変異を生じている。しかし、位置決め工程では、同じNGSリードが対応するPHREGと比較されると、このPHREGは祖先に特有な位置で既に変更されていて、祖先に特有なSNPと同一なので、NGSリードが生じさせる不一致部分、すなわちバイオマーカーは一つだけである。
位置決めアルゴリズムは配列決定されるリードと選択された基準ゲノムの間に不一致部分および/または隙間ができると必ず罰点を与える得点システムを用いる。その結果リードは最も高いスコアの位置に位置決めされる、またはすべての位置で点が低いため、もしくは非常に多くのゲノム位置で位置決め点が同じために、どの位置にも位置決めされない。位置決めのアルゴリズム実施中に判明する不一致部分による罰点のため、リードはPHREGと比較された場合に位置決めされる可能性よりも、HRGと比較されて位置決めされる可能性は低い。別の変異がリード長の範囲内にあるときは、特にこのようになる。したがって、このリードは捨てられるか、最悪の場合はHRGの誤った位置に位置決めされる。
このように、PHREGと比較することにより、祖先特有の変異部位の領域に由来するリードを救出できる効果があり、特にリードが祖先に特有な変異に加えてさらに別の変異(例えば、病気をおこさせる変異)を有する場合、この効果がある。これによって、以前は見つからなかったバイオマーカーを検出することが可能になる。
図4は、本願発明によるヒトの核酸サンプルのゲノム解析および/または遺伝子解析をするための方法を示すフローチャートである。
第1ステップでは、複数のヒト基準ゲノムの組を、処理ユニットを有するシステムに提供する。この目的で、前記システムの第1コンピュータモジュールは遠くにある装置、例えばインターネットデータベースから基準ゲノムをダウンロードできる。前記処理ユニットはRAMのような内部メモリを有して命令を保存し実行することを可能にするプロセッサを少なくとも含み、プログラム可能なコンピュータであればいかなるコンピュータでもよい。前記処理ユニットはデータの組、例えば患者の臨床データおよび遺伝子プロフィルだけでなく遺伝子ヒト基準ゲノム、並びにコンピュータファイルを保存できる不揮発性記憶手段にアクセスできる。前記システムはLANまたはインタネットのような通信ネットワークにアクセスできる。
第2ステップでは、前記システムのコンピュータシステムはヒト基準ゲノムを、好ましくは前記システムのユーザーが決めたコード化レベルに調整する。このコード化レベルは唯一のヌクレオチドコードまたは唯一に定まらないヌクレオチドコードを含むものでよい。 所定の実施形態では、ヒト基準ゲノムを調整して母集団に合わせる4つの異なるレベルが提案されている。これらの4つのレベルのうちの二つでは、唯一に定まるヌクレオチドコード(A,C,G,T)のみを用い、他の二つではIUPACの命名法、特に最大限保守的なエラー修正、メジャーアレルレベル、非稀少アレルレベルおよび観測されたすべてのアレルの完全なモデリングによる、唯一に定まらないヌクレオチドコード化、を用いる。
第3ステップでは、患者のヒト核酸サンプルが用意される。この目的で、前記コンピュータシステムのもう一つのコンピュータモジュールが例えばFASTQファイル形式の生の配列データを対象のサンプルの配列決定を遠くにあるプラットホームで行う配列決定をする研究所からダウンロードすることができる。代わりの実施形態では、配列決定は核酸サンプルの解析を行う部門で行ってもよく、その結果を内部で移す。第3ステップに関連して、前記システムは患者の臨床データ、例えば患者が罹患している病気についての情報や現在のその治療法についての情報等を入力ソースから受け取ることができる。患者の臨床データは、例えば患者から直接受け取ってもよい、例えばキーボードでタイプ、またはキーボードでタイプされたテキストから推定してもよく、またはGUI中の多機能選択型素子から受け取ってもよい。患者の臨床データは、電子健康記録(EHR)または電子医療記録(EMR)から受け取り、チップカード上にまたは通信ネットワークを介して検索可能なデータベース中に保存してもよい。
第4ステップでは、ヒト核酸サンプルを試験して性および/または祖先を予測する。再び述べるが、この試験は被験者の近くで行ってもよく、または前記システムの別のコンピュータモジュールを使って、通信ネットワークを介して外部のサービスプロバイダから試験の結果を読み取ってもよい。性および/または祖先の試験は、第2の計算モジュールまたは別のウェットラボ実験によって行ってもよい。
第5のステップでは、第4ステップの性および/または祖先の試験の結果に基づいて、一つ以上のPHREGがヒト基準ゲノムの組から選択される。この選択は第3計算モジュールによって行われるものでよい。
第6ステップでは、ヒトの核酸サンプルを選択したPHREGに対して位置決めする。この位置決めは所定のNGS手法により支給されたリードの組を選択したPHREGにマッピング(位置決め)することを含む。この位置決めは、第4コンピュータモジュールで行われるものでよく、出力ファイルはBAMファイルでよい。
第7ステップでは、位置決めされたヒトの核酸サンプルの変異特定処理は選択したPHREGを基準として行われる。変異特定処理を行う前に、前記システムの所定のコンピュータモジュールがヒト基準ゲノムを再度調整して、好ましくは前記システムのユーザーが設定する所定のコード化レベルにしてもよい。このコード化レベルは唯一に定まるヌクレオチドコードまたは唯一に定まらないヌクレオチドコードを含むものでよく、位置決めステップで用いるコード化レベルと異なるものでよい。変異は最も適した最先端のアルゴリズムを用いて特定される。変異特定処理は第5計算モジュールによって行われ、その出力は変異特定処理形式(VCFファイル)のPHREGを基準とする変異の形の配列データを含むものでよい。
第8ステップでは、変異の解釈が行われる。前記システムは特定した変異の解析を行うことができるようにした別の処理後計算モジュールを含むものでよい。一つの実施形態では、この処理後計算モジュールは患者中に所定の病気が有る、または無いことを示す遺伝子および/または変異部位の組を解析するものでよい。さらに、または代わりに、この処理後計算モジュールは患者の別の臨床データを考慮してその患者の病気の複数の治療法の組を決め、さらにその患者の遺伝子データ、具体的には特定された遺伝子の変異に基づいて、その患者に最も適した治療法を決めるものでよい。さらに別の実施形態では、この処理後計算モジュールは統計分析を行い、特定された変異から突然変異荷重、ヌクレオチド置換率およびホットスポット突然変異を決める。
見つかった変異は治療の有効性または安全性を予測する分類器または診断または治療法の目的用の分類器として用いることができる。
第9ステップでは、診断および/または治療法の示唆が作られて、提供される。この目的で、第3、第4、第5計算モジュールおよび処理後計算モジュールの結果が出力されるように、これらのモジュールと機能的に接続された出力インタフェースを含むものでよい。この出力インタフェースは処理ユニットが計算した情報が提示されるようにする任意の表示手段またはプリンターと結合するものでよい。さらに、イントラネット用の通信システムとのリンクおよび/または出力インタフェースを介して実現される電子メールの発信および受信用のプログラムのようなインタネットとのリンクがあってもよい。
図5は分類(F:女性;M:男性)ごとに選んだ性識別用となる特徴を、MHパネルデータを用いて計算した分布を表す図表である。色の付いた垂直線はクラスの中央値を表す。
(イ)のグラフ:位置決めされたリードのX染色体/Y染色体の比
(ロ)のグラフ:X染色体上の500個の普通のSNP位置で調べた0.8〜1.0の範囲のメジャーアレル頻度
(ハ)のグラフ:Y染色体上で正しく対になったリードの割合
図5は以下に記載する実施例に照らして観るべきである。
図6は2つの性―祖先分類器とEthSEQを300TCGAのすべてのエクソームサンプルのメモリ使用量と実行時間の箱ひげ図である。図6は以下に記載する実施例に照らして観るべきである。
アンセクストリ、すなわちエクソーム配列決定データ全体からリード位置決めを用いてサンプルの性および祖先を求める機械学習に基づくツールを紹介する。両方の形質についての被験者自身の申告は信頼できないことが知られている。アンセクストリの予測はサンプル取り違え検出の観点から、さらに偏見のないゲノム変異部位の解釈に用いるのにも役に立つ。大きな群を扱う場合には特に役に立つ。1300以上のサンプルについて用いたアンセクストリの性能評価試験は、アンセクストリは高精度であり、時間およびメモリの必要量が低いことを示した。
1. 緒言
過去10年間に観られた急激なコスト低下により、大きな群の次世代シーケンシングはますます普通に行われるようになっており(Cancer Genome Atlas Research Network et al., 2013; Rand et al., 2016参照)、エクソーム全体のアップローチは大規模な研究では主要な役割を果たしている。特に、精密医療や病気の包括的な特徴づけの分野において用いられている。このような状況で、サンプルの祖先および性を正しく知ることにはいろんな利点がある。第1に、サンプルの祖先および性を正しく知ることにより、複雑な手順およびサンプル処理に必要な手作業によって起きるサンプルの取り違えを特定することを支援して品質制御が容易になる。第2に、大部分のゲノム研究で存在する、またヒト基準ゲノム中に存在する強いヨーロッパ系のバイアスを避けるため、さらに様々な祖先を有する人の臨床ケアを改善するため、祖先は変異の影響を解釈する上で極めて重要である(etrovski et al., 2016; Mersha et al., 2015; Fakhro et al., 2016参照)。最後に、祖先は遺伝との関連を調べる研究で広く用いられ、集団の層別による誤った病気との関連付けを避けている(Wu et al., 2011参照)。性および祖先の自己申告は信頼できないことが多いので(Mersha et al., 2015; Ainsworth, 2015参照)、ゲノム情報を用いた特定が必要である。
「アンセクストリ(AnSextry)」、すなわちロジスティック回帰分析に基づく機械学習方法は全エクソームを配列決定するペアエンドリードの位置決めから性および祖先を迅速かつ確実に特徴づけるために作られた。このアルゴリズムは標準的なファイルフォーマットに依存しており、現在ある次世代配列解析のワークフローとすぐに一体化することができる。このアルゴリズムはすぐに使えるモデルを提供し、入力として単純なBAMファイルを必要とする。さらに、このアルゴリズムはメモリの必要量が少ないので、デスクトップコンピュータで動く。他の唯一の全エクソームのBAMファイルに基づく祖先推定ツールであるEthSEQ(Romanel et al., 2017参照)との比較試験は、「アンセクストリ」が精度、実行時間およびメモリ使用量において十分匹敵するものであることを示している。性の予測用の方法として他に公開されたものは現在までない。
2. 方法
2.1 アルゴリズム
全エクソームを配列決定するペアエンドリードの位置決めに基づいて個人の最も可能性の高い性と祖先を推定する2個の分類器の組を用意した。このツールは予測のためにリードマッピングおよび個々ヒトの遺伝子型の違いを利用する。
性分類器と祖先分類器はパイソン(Python)を用いるロジスティック回帰分析とサイキット・ラーン(Scikit-learn)に基づくものを用いた。これらの両方の分類器に対応する特徴は入力BAMファイルから求められた。ペアエンドリードは位置決め用に初期設定されたBWA0.7.15を用いて位置決めされ、局部再位置決めや重複除去のような後処理ステップは用いなかった。GRCh37基準ゲノムを用いた。同ゲノムは非染色体のスーパーコンティグはなく、X染色体およびY染色体上での位置決めのずれを避けるためのマスクした偽常染色体領域PAR1およびPAR2を有する。本願発明に関して、「スーパーコンティグ」という語は順番に並べられた複数のコンティグの組、すなわち、複数の塩基の順番が高い信頼度レベルでわかっている連続した長さのゲノム配列として通常理解される。
L1正則化を用いる2分類ロジスティック回帰分析によって性分類器は働き、各分類の確率を出力した。5分割交差検証を用いて適した正則化強度を決めた。学習用データに対してPR曲線(Precision-Recall Curve)を描いた場合に最も高いエリアを生じさせるモデルを最適モデルとして選んで、試験データの組を評価した。
祖先分類器は、L2正則化を用いる多項ロジスティック回帰分析と主成分分析(Principal Component Analysis)に基づき、1000ヒトゲノムプロジェクトで定められた5大陸別の祖先のそれぞれの確率を出力した。5大陸別の祖先は、アフリカ人(AFR)、混血アメリカ人(AMR)、東アジア人(EAS)、欧州人(EUR)および南アジア人(SAS)である(The 1000 Genomes Project Consortium et al., 2015参照)。5分割交差検証を用いて複数の適したパラメータを決めた。学習用データに対して最も高いF1点数をあげるモデルを選んで、そのモデルを試験データに適用して評価した。
2.2 特徴
性分類器に用いる特徴としてX染色体とY染色体の間の位置決めの違いに基づくものを用いた(図5参照)。Y染色体上で正しく対になったリードの割合だけでなくY染色体リードに対するX染色体リードの比率を用いた。さらに、X染色体上の500個のよく知られたエキソン領域のSNP位置でのメジャーアレルの頻度を組み合わせた。集団のバイアスを除くため、主要な祖先の間で頻度が高いSNPを選んだ。
祖先分類器に用いるために、アジレント社のオールエクソンキット(バージョン5、バージョン6、バージョン6+コスミック(COSMIC))とモレキュラーヘルス社の全癌種遺伝子パネル(ターゲットサイズ2.9Mbp)の目標領域の共通部分内にゲノム位置を有するすべての常染色体のSNPの遺伝子型を2.3で説明する1000個のゲノムデータから決定した。特徴の選択によって複数の祖先間で違いを示す有効なSNPを残し、その結果、祖先分類器用の特徴として用いる、5040個のゲノム位置に対応する10000個の遺伝子型が得られた。対応するBEDファイルは別表1に示され、これを用いて任意の目標とする配列決定キットとの重複を決定できる。
2.3 データ
多様な祖先からデータを得るために、1000ヒトゲノムプロジェクト第3段階からの1735人の個人からのゲノムデータを用いて祖先分類器を学習させた。大陸別の複数の祖先(AFR、AMR、EAS、EUR、SAS)を分類に用い、複数の個人を無差別に選んで、各分類を均衡させた。694人の個人が試験の組の一部であった。
3種のがん(膀胱癌、肺腺癌/扁平上皮細胞肺癌、胃癌)に対応する、人種と性を自己申告させた300人の個人からの主要な全エクソームのコントロールデータを試験データとしてTCGA(cancergenome.nih.gov参照)からダウンロードした。アジレント社のシュアセレクト・ヒューマン・オール・エキソン(SureSelect Human All Exon)50Mbキットを用いてすべてのサンプルの配列が決定した。無差別にデータを選んで、TCGAのカテゴリに対応する均衡した分類のサイズにした。すなわち150人の男と150人の女で、しかも100人の白人、100人のアジア人および100人の黒人またはアフリカ・アメリカ系人とした。
性を自己申告した988人の癌患者からの配列決定用データをモレキュラーヘルス社の全癌種遺伝子パネルを用いて配列決定して、そのデータを用いて性分類器を学習させ、試験した。無差別に個人を選んで、女/男の分類を均衡させた。396のケースを性分類器用の試験データとして無差別に選んだ。前記した300のTCGAケースを追加の試験の組として用いた。
3. 結果
3.1 性分類器
モレキュラーヘルス社の全癌種遺伝子パネルによって配列決定した592のデータ組を用いて性分類器を学習させた。ペアエンドリードを配列決定し、方法の章で説明したように特徴を計算した。公差検証により方法を調整した後、該方法を2個のデータ組に適用して性能評価をおこなった。用いたデータ組は、前記した遺伝子パネルによって配列決定した396人の個人と利用できる全エクソームデータによって配列決定した300人のTCGAの個人である。
パネル試験データに基づき、性分類器の平均正確度は97.5%になっており、10人の個人(5人の男、5人の女)を誤分類した(表1参照)。誤分類は低いカバレッジとは関係がなかった。
Figure 2021101629
表1は、モレキュラーヘルス社の全癌種遺伝子パネルによって配列決定された個人の詳細なデータである。このデータは予測された性が自己申告した性と一致しなかった場合を示す。すべてのサンプルについてのカバレッジの中央値は2116である。すべての誤分類されたサンプルの平均カバレッジは、この中央値に近いか、またはこの中央値よりも大きく、誤分類はカバレッジの中央値よりも低いことに関係していないと考えられる。
普通の人の集団で1%の確率で性の発達の異常がおきると考えられる(Ainsworth, 2015参照)ので、誤分類されたケース中のいくつかは実際には正しく分類されたが、自己申告した性が正しくなかった可能性がある。
TCGA試験データに基づくと、性分類器の正確度は100%になった。300人すべてが正しく分類された。実行時間とメモリ使用量に関しても、性予測はすべてのケースで1分かからず、平均のメモリ使用量も526MBであった(図6参照)
3.2 祖先分類器
祖先分類器は1000ヒトゲノムプロジェクトからの1041個のデータ組で学習させた。2.2で説明したように、個々のヒトの遺伝子型がそれぞれ特徴として用いられた。最高性能のモデルを2つの試験データ組で決めた。2つの試験データ組は、全エクソームが配列決定された300人のTCGAの個人と1000ヒトゲノムプロジェクトからののこりの694人の個人である。
1000ヒトゲノム試験データを分類した祖先分類器の平均正確度は高く、99%になった。最も高い正確度はアジア系の祖先の場合であり、次に高かったのはアフリカ系と南アメリカ系の祖先であり(99%の正確度)、その次が欧州系の祖先であった(98%の正確度)。694人中、全部で5人のみが誤分類された。
300人のTCGAエクソーム試験データ組について行った祖先分類器の分類結果は、正確度わずかに低く、96.33%であり、全部で11人が誤分類された。これらの結果は、EthSEQ(Romanel et al., 2017参照)に匹敵するものである。EthSEQは他の既知の祖先予測方法で唯一予め計算された適切なモデルを提供するものであり、単一の全エクソームのBAMファイルにそのまま適用できるものである。これら2つの結果は極めてよく一致しているが、EthSEQの正確度はわずかに低く(94%)、全部で18人が誤分類された。さらに、EthSEQの方が必要な実行時間が長く、必要なメモリも多い。本願発明の祖先分類器の場合、平均実行時間が28秒で平均メモリ使用量が540MBである一方、EthSEQの場合、マルチスレッディング(4つのコア)を有しているにもかかわらず、平均で4.8分かかり、平均で14,7GBを使用した(図6参照)。
結果から言える一つ重要な点として、誤分類されたデータ組に対するこれら二つのアルゴリズムの結果は極めてよく一致していた。TCGAによって与えられた種族と一致しなかった11人のうちの10人はEthSEQでも誤分類され、これらの10人のケースのうち8人については、両方の方法とも同じ祖先を予測した。このことは、これらの誤分類された人についてはTCGAの分類が間違っていた可能性があり、ここでTCGAの種族の情報は自己申告に基づくものである。共通に誤分類された10人のうち6人は、AFRまたはAMRと予測された。この結果は、自己申告の誤りはアフリカ系アメリカ人およびラテン系の集団では比較的多いと首肯するMershaらの説明と一致する。表2は誤分類された人たちの結果を示す。
Figure 2021101629
Figure 2021101629
表2は(アンセクトリあるいはEthSEQまたは両方による)予測がTCGAの自己申告した人種と一致しなかったTCGAの個人の詳細である。TCGAの人種は、「黒人またはアフリカ系アメリカ人(黒人/アフリカ系アメリカ人)、「白人」および「アジア人」を含む。白い行は、アンセクストリおよびEthSEQのいずれもTCGAの人種と一致しなかったサンプルに対応した。薄灰色の行はEthSEQの予測のみがTCGAと一致しなかったサンプルであった。さらに、濃配色のサンプルはアンセクトリの予測のみがTCGAと一致しなかったサンプルであった。遺伝子座のカバレッジが不十分な場合、その遺伝子座の遺伝子型はアンセクトリの予測用の基準から推定した。すべてのサンプルのカバレッジの中央値は91xであり、誤分類されたサンプルの大部分のカバレッジはこの中央値以上であり、したがって誤分類が、カバレッジが中央値よりも低いことと関係しているとは考えられなかった。さらに、すべてのサンプルのアンセクストリ分類用の推定された遺伝子型の数の中央値は390であり、これは誤分類されたアンセクトリのサンプルの中央値(393)に近かった。300人すべてのTCGAサンプルの推定された遺伝子型の数は、227(最少値)と690(最多値)の間でばらついており、10〜15%の推定された遺伝子型がアンセクストリの予測に悪影響を与えたとは考えられない。興味深いことに、アンセクストリが誤分類し、EthSEQが誤分類しなかった唯一の個人はTCGAによれば白人に分類されたが、アンセクストリ分類器は実際には混血であると予測し、その確率はAMR54.7%およびEUR45,1%の確率であった。
4. 結論
全エクソームからの位置決めされたペアエンドリードに基づいて、または目標サイズが許すならば、目標とする配列決定の試験に基づいて個人の性および祖先を確実に、かつ容易に判定する新規な方法であるアンセクストリを説明する。このツールはロジスティック回帰分析に依存する2個のパイソン(Python)に基づく分類器を提供し、このツールによる祖先の予測は集団遺伝学の分野で用いられる主にPCAに基づく方法を代替する手法になる。 アンセクストリは、そのまますぐに使える基準モデルを提供し、必要とするユーザー入力は最小である。アンセクストリは、速く、正確で、使用するのが容易である。
ディスクレーマ―
本明細書中では、複数の異なる著者が同じ目的で複数の異なる語を用いているため、「祖先に特有の」/「民族に特有の」/「集団に特有の」という語は互いに交換可能に用いられている。
参照文献
1. Lander, E. S. et al. Initial sequencing and analysis of the human genome. Nature 409: 860-921 (2001). [PMID: 11237011]
2. Church, D. M. et al. Modernizing reference genome assemblies. PLoS Biol. 9: e1001091 (2011). [PMID: 21750661]
3. Harrow, J. et al. GENCODE: the reference human genome annotation for The ENCODE Project. Genome Res. 22: 1760-1774 (2012). [PMID 22955987]
4. ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature 489: 57-74 (2012). [PMID: 22955616]
5. 1000 Genomes Project Consortium et al. A global reference for human genetic variation. Nature 526: 68-74 (2015). [PMID: 26432245]
6. Li H & Durbin R. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics 25: 1754-1760 (2009). [PMID: 19451168]
7. DePristo, M. A. et al. A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nat. Genet. 43: 491-498 (2011). [PMID: 21478889]
8. Horton, R. et al. Variation analysis and gene annotation of eight MHC haplotypes: the MHC Haplotype Project. Immunogenetics 60: 1-18 (2008). [PMID: 18193213]
9. Pei, B. et al. The GENCODE pseudogene resource. Genome Biol.13: R51 (2012). [PMID: 22951037]
10. Degner, J. F. et al. Effect of read-mapping biases on detecting allele-specific expression from RNA-sequencing data. Bioinformatics 25: 3207-3212 (2009). [PMID: 19808877]
11. Brandt, D. Y. C. et al. Mapping Bias Overestimates Reference Allele Frequencies at the HLA Genes in the 1000 Genomes Project Phase I Data. G3 5: 931-941 (2015). [PMID: 25787242]
12. Novak A.; Hickey G.; Garrison E.; Blum S.; Connelly A.; Dilthey A; Eizenga J.; Elmohamed M.; Guthrie S.; Kahles A.; Keenan S.;e Kelleher J.; Kural D.; Li H.; Lin M.; Miga K.; Ouyang N.; Rakocevic G.; Smuga-Otto M.; Zaranek A.; Durbin R.; McVean G.; Haussler D.; (https://www.biorxiv.org/content/biorxiv/early/2017/01/18/101378.full.pdf)
13. Paten B, Novak AM, Eizenga JM, Garrison E. Genome graphs and the evolution of genome inference. Genome Res. 5: 665-676 (2017) [PMID: 28360232]
14. Snyder M., et al. Personal genome sequencing: current approaches and challenges. Genes Dev. 5, 423-431 (2010) [PMID: 20194435]
15. Young, A.L. et al. A new strategy for genome assembly using short sequence reads and reduced representation libraries. Genome Res 2: 249-256 (2010) [PMID: 20123915]
16. Flicek, P & Birney, E. Sense from sequence reads: methods for alignment and assembly. Nat Methods. 6: S6-S12 (2009) [PMID 19844229]
17. Chen R . & Butte A.J. The reference human genome demonstrates high risk of type 1 diabetes and other disorders. Pac Symp Biocomput. 2011:231-242 (2011) [PMID: 21121051]
18. International Human Genome Sequencing Consortium. 2001. Initial sequencing and analysis of the human genome. Nature 409: 860-921 (2001) [PMID: 11237011]
19. International Human Genome Sequencing Consortium. 2004. Finishing the euchromatic sequence of the human genome. Nature 431: 931-945 (2004) [PMID: 15496913]
20. Schneider V.A. et al. Evaluation of GRCh38 and de novo haploid genome assemblies demonstrates the enduring quality of the reference assembly. Genome Res. 5:849-864. (2017) [PMID: 28396521]
21. [Editorial (October 2010). "E pluribus unum". Nature Methods. 5: 331. doi:10.1038/nmeth0510-331. (2010) [PMID: 20440876]
22. Nielsen R., Paul J. S., Albrechtsen A., Song Y. S. Genotype and SNP calling from next-generation sequencing data. Nat. Rev. Genet. 12: 443-45. (2011) [PMID: 21587300]
23. Fakhro, K. A., Staudt M. R., Ramstetter M. D., Robay A., Malek J. A., Badii R., et al. The Qatar genome: a population-specific tool for precision medicine in the Middle East. Hum. Genome Var. 3:16016 Human Genome Variation (2016) 3, 16016 doi:10.1038/hgv.2016.16; published online 30 June 2016 (2016) [PMID: 27408750]
24. Zayed H. The Qatar genome project: translation of whole-genome sequencing into clinical practice. Int J Clin Pract. 10: 832-834 doi: 10.1111/ijcp.12871. Epub 2016 Sep (2016) [PMID: 27586018]
25. Sanger F., et al. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74:5463-5467. (1977) [PMID: 271968]
26. Venter, J.C. et al. The Sequence of the Human Genome. Science 291: 1304-1351. (2001) [PMID: 11181995]
27. Petrovski S & Goldstein D.B. Unequal representation of genetic variation across ancestry groups creates healthcare inequality in the application of precision medicine. Genome Biol 2016;17:157.doi: 10.1186/s13059-016-1016-y. (2016) [PMID: 27418169]
28. Koboldt DC, Ding L, Mardis ER, Wilson RK. Challenges of sequencing human genomes. Brief Bioinform. 11:484-498. (2010) [PMID: 20519329]
29. Dewey F.E., Chen R., Cordero S.P., Ormond K.E., Caleshu C., Karczewski K.J. et al. Phased whole-genome genetic risk in a family quartet using a major allele reference sequence. PLoS Genet. 2011 Sep;7(9):e1002280. doi: 10.1371/journal.pgen.1002280. Epub 2011 Sep 15. (2011) [PMID: 21935354]
30. Cao H, Wu H, Luo R, Huang S, Sun Y, Tong X et al. De novo assembly of a haplotype-resolved human genome. Nat Biotechnol 33: 617-622. (2015) [PMID: 26006006]
31. Wu L., Yavas G., Hong H., et al. Direct comparison of performance of single nucleotide variant calling in human genome with alignment-based and assembly-based approaches. Sci Rep. 2017 Sep 8;7(1):10963. doi: 10.1038/s41598-017-10826-9. (2017) [PMID: 28887485]
32. Meyer, L. R. et al. The UCSC Genome Browser database: extensions and updates 2013. Nucleic acids research41: D64-D69 (2013). [PMID: 23155063]
33. Sudmant, P. H. et al. An integrated map of structural variation in 2,504 human genomes. Nature 526: 75-81 (2015). [PMID: 26432246]
34. Iqbal, Z., Caccamo, M., Turner, I., Flicek, P. & McVean, G. De novo assembly and genotyping of variants using colored de Bruijn graphs. Nature genetics 44: 226-232 (2012). [PMID: 22231483]
35. Cornish-Bowden A. (1985). Nomenclature for incompletely specified bases in nucleic acid sequences: recommendations 1984. Nucleic Acids Res. 13: 3021-3030. (1985) [PMID: 2582368]
36. Mersha T. B., & Abebe T. Self-reported race/ethnicity in the age of genomic research: its potential impact on understanding health disparities. Hum. Genomics 9:1. (2015) [PMID: 25563503]
37. Baye T. M. Inter-chromosomal variation in the pattern of human population genetic structure. Hum Genomics 5:220-240. (2011) [PMID: 21712187]
38. Fondevila M. et al. Revision of the SNPforID 34-plex forensic ancestry test: Assay enhancements, standard reference sample genotypes and extended population studies. Forensic Sci Int Genet 7: 63-74. (2013) [PMID: 22749789]
39. Ainsworth C. Sex redefined. Nature518: 288-291. doi: 10.1038/518288a. (2015) [PMID: 25693544]
40. Gall J. G., Pardue M.L. Formation and detection of RNA-DNA hybrid molecules in cytological preparations. Proc. Natl. Acad. Sci. USA 63, Nr. 2, 1969, S. 378-383, [PMID 4895535].
41. Kallioniemi A. et al. Comparative genomic hybridization for molecular cytogenetic analysis of solid tumors. Science Band 258, Nr. 5083, 1992, S. 818-821.
42. Goodwin S., McPherson JD, McCombie WR. Coming of age: ten years of next-generation sequencing technologies. Nat. Rev. Genet. 2016 May 17;17(6):333351
43. Al-Ali M, Osman W., Tay G.K., AlSafar H.S. A 1000 Arab genome project to study the Emirati population. J. Hum. Genet. 63(4): 533-536 (2018). [PMID: 29410509]
44. Cancer Genome Atlas Research Network et al. The Cancer Genome Atlas Pan-Cancer analysis project. Nat. Genet., 45(10), 1113-1120 (2013).
45. Rand,K.A. et al. Whole-exome sequencing of over 4100 men of African ancestry and prostate cancer risk. Hum. Mol. Genet., 25(2), 371-381 (2016).
46. Wu,C. et al. A Comparison of Association Methods Correcting for Popula-tion Stratification in Case-Control Studies. Ann. Hum. Genet., 75(3), 418-427 (2011).
47. Romanel,A. et al. EthSEQ: ethnicity annotation from whole exome sequencing data. Bioinformatics, 33(15), 2402-2404 (2017).
NGSリードマッピング用の基準としてPHREGを用いることにより、臨床に用いるのに適したバイオマーカーのカバレッジを増やす
発明者らは全エクソーム捕捉イルミナ配列決定を用いて配列決定されたGDC/TCGA(参考文献1参照)からの741個の生殖細胞系列サンプルを用いた。このデータ組は、アフリカ人(AFR)祖先の155個のサンプル、ラテンアメリカ人/混血アメリカ人(AMR)祖先の33個のサンプル、欧州人(EUR)祖先の354個のサンプル、および南アジア人(SAS)祖先の20個のサンプルを有していた。ノヴォアライン(Novoalign)4.00.1を用いて、各サンプルは標準ヒト基準ゲノム(HRG)GRCh37(参考文献3参照)に対して、発明者らの祖先分類器が定めたPHREGに対して、さらにHSA PHREGに対して位置決めした。HSA PHREGはAFR、AMR、EAS、EURおよびSASを含むGnom v2.1の祖先(参考文献4参照)のすべてについて変異データを集めることによって作成された。
これらのリードマッピング戦略を行うために、発明者らは1288の遺伝子を対象にするジンコード(Gencode) v31CDSエキソン(参考文献6参照)中の15488個の病原性のクリンバー(ClinVar)・バイオマーカー・バージョン2019−12(参考文献6参照)のカバレッジを比較した。HRGではなくPHREGに対して位置決めした場合にクリンバー・バイオマーカーのカバレッジが増加し、その増加はAFRで211個、AMRで147個、EASで121個、EURで173個、SASで105個、さらにHSAで162個であった。カバレッジが増加した変異の大部分は集団に特有のヌクレオチドがPHREG中に埋め込まれたサイトの近傍であった。一つサンプルのリードをそのサンプルに最も近いPHREGにマッピングすれば、位置決めの際に起きる不一致の数は少なくなり、その結果カバレッジは増大し、HRGに対して位置決めする場合におきるカバレッジの減少がなくなる。
要するに、発明者らの解析は、正しいPHREGによってカバレッジが増え、その結果臨床に用いるのに適したバイオマーカーの検出を改善できることを示している。
表3の簡単な説明(ClinVar_PHREG_coverage_diff_relative.xlsx)
HRGと比べてPHREGに対して位置決めする場合のカバレッジの違いを示したジンコード(Gencode) CDSのエキソン中のクリンバー・バイオマーカーのリスト(遺伝子名|コンティグ|始端|終端)。
HRGに対する位置決めに基づいて計算したカバレッジに対する、祖先ごとのすべてのケースおよびすべての741のケース(HSA)についての中央値としての各PHREG(AFR、AMR、EAS、EUR、SAS、HSA)のカバレッジの差を与える。
正の数はカバレッジの増大を意味し、負の数はカバレッジの減少を意味する。
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
実施例2の参考文献
[1] https://portal.gdc.cancer.gov
[2] http://www.novocraft.com/products/novoalign
[3] https://www.ncbi.nlm.nih.gov/grc/human
[4] https://gnomad.broadinstitute.org/faq
[5] https://www.ncbi.nlm.nih.gov/clinvar
[6] https://www.gencodegenes.org/human/release_31lift37.html
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629
Figure 2021101629


別表2
chr1 36768200 rs1573020
chr1 159174683 rs2814778
chr1 204790977 rs2065160
chr2 7149155 rs896788
chr2 109513601 rs3827760
chr2 136616754 rs182549
chr3 168645035 rs1498444
chr4 38803255 rs4540055
chr4 159181963 rs2026721
chr5 33951693 rs16891982
chr7 4457003 rs917118
chr10 17064992 rs7897550
chr10 34755348 rs1978806
chr11 32424389 rs5030240
chr12 29369871 rs10843344
chr12 56603834 rs773658
chr13 20901724 rs1335873
chr13 22374700 rs1886510
chr13 34864240 rs2065982
chr14 36170607 rs10141763
chr14 101142890 rs730570
chr15 28365618 rs12913832
chr15 48426484 rs1426654
chr16 31079371 rs881929
chr16 90105333 rs3785181
chr17 75551667 rs2304925
chr18 75432386 rs1024116
chr19 42410331 rs2303798
chr20 38849642 rs1321333
chr21 16685598 rs722098
chr21 17710424 rs239031
chr21 25672460 rs2572307
chr22 26350103 rs5997008
chr22 47836412 rs2040411

Claims (16)

  1. ヒト核酸サンプルのゲノム解析および/または遺伝子解析をする方法であって、
    (a) 複数のヒト基準ゲノムからなるグループを用意するステップと、
    (b) ヒト核酸サンプルを試験して、性および/または祖先を調べるステップと、
    (c) 前記ステップ(b)の性および/または祖先を調べる試験の結果に基づいて、前記複数のヒト基準ゲノムからなるグループから一つ以上の集団に特有の基準ゲノムすなわちPHREGを選ぶステップと、
    (d) 前記ヒト核酸サンプルを前記選んだPHREGに位置決めするステップと、
    を含む方法。
  2. 前記位置決めはメジャーアレルレベルまたは非稀少アレルレベルで行われる請求項1に記載する方法。
  3. (e) 前記選んだPHREGを基準として前記位置決めしたヒト核酸サンプルの変異の特定を行うステップを、さらに含む請求項1または2に記載する方法。
  4. 前記変異の特定はメジャーアレルレベルまたは非稀少アレルレベルで行われる請求項3に記載する方法。
  5. ステップ(a)で用意される前記複数のヒト基準ゲノムは、公表されたヒト基準ゲノムまたは公表されたヒト基準ゲノムから得られたものである請求項1乃至4のいずれかに記載する方法。
  6. ステップ(a)は、唯一に定まる塩基コードまたは唯一に定まらない塩基コードのいずれかを有するコード化レベルに合わせて、前記複数のヒト基準ゲノムを修正することを含む請求項1乃至5に記載する請求項1乃至5に記載する方法。
  7. ステップ(a)で用意される前記複数のヒト基準ゲノムはPHREGである請求項1乃至6のいずれかに記載する方法。
  8. 前記性を調べる試験はX染色体および/またはY染色体上の性特有の遺伝子中の少なくとも一位置を試験すること、X染色体および/またはY染色体上の複数のヒトゲノムサンプルの位置決めの違いを利用すること、細胞遺伝学的試験、FISH解析およびCGH解析のうちの一つ以上を含む請求項1乃至7のいずれかに記載する方法。
  9. 前記祖先を調べる試験はヒト核酸サンプルについて用いる機械学習アルゴリズム、または祖先に特有の変異を利用する別の分類スキームに基づく請求項1乃至8のいずれかに記載する方法。
  10. 前記祖先を調べる試験は、少なくとも一つのゲノム位置の遺伝子型を用いること、並びに/または複数のSNPアレイもしくは複数のSNPチップを試験すること、および/またはサンガー配列決定もしくは質量分析からのマーカーを試験することを含む請求項1乃至9のいずれかに記載する方法。
  11. 前記祖先を調べる試験はABL2、ATP1A3、CIC、CYP2C8、CYP2C9、EPHA3、EPHA7、ERBB3、ERG、ETV1、F2、FAS、HFE、IL11RA、IL2RA、ITGB6、KIF11、KIT、KLK3、LRP6、MDM4、NAT2、NTRK2、PDGFB、PIK3R1、PLA2G3、PLAU、PRKCB、RICTOR、SLC7A11、STAT3、T、TSC1、VCAM1、VDR、VEGFB、ACVRL1、AXL、CA9、CALCR、CASP9、ENG、EPHB1、ERBB4、ESR1、FGFR2、HPSE、HSP90AA1、ITK、MRE11A、PLK1、PTPRC、SERPINE1、SMC4、TERT、TLR3、WISP3、WT1、XRCC1、ANGPT2、ARID2、BARD1、CBR3、CDH2、CYP1B1、DDR2、DNMT3A、EPCAM、ERCC2、FANCG、FANCL、GSTP1、IRS2、ITGB1、JAK3、LHCGR、MSH6、NCF2、RNF43、SLC5A5、TMPRSS2、TNFRSF8、AKT1、CD248、CD4、ESR2、EZH2、IGF1R、ITGAV、ITGB2、KLHL6、MAP3K1、MET、MLL、MTHFR、NFKB1、NUP93、PARP8、RB1、RPE65、TSHR、ABL1、BLM、CYP19A1、DPP4、EPHA6、ERBB2、EWSR1、FOXP4、ITGAM、KDM5A、LPA、LTK、MLH1、PBRM1、PHLPP2、SF3B1、TNFRSF10A、ABCG2、ACPP、ADAM15、DPYD、EPHA5、EPHB6、FOLH1、KDR、MSH3、MST1R、NTRK1、ROCK2、SLC6A2、TET2、TGM2、TH、ABCB1、CD22、CD40、CD44、CDH20、CYP11B2、ERCC5、GPR124、IL7R、ITGB3、ITGB5、NCL、NOD2、NR4A1、PGR、PLCG1、PPP2R1A、PRAME、PTCH2、RET、SETD2、XPC、ASXL1、EPHB4、PLA2G6、SYK、TET1、EP300、FLT1、ITGA1、LOXL2、PDGFRB、PIK3CD、SSTR5、TEC、APC、ATR、CLU、CREBBP、CYP2D6、EML4、MMP2、PARP2、PDGFRA、TRPM8、CSF1R、DOT1L、FGFR3、FGFR4、GLP2R、IKBKE、JAK1、NOTCH2、SPEN、SPG7、BRCA1、CYP11B1、GNAS、ITGA5、LTF、NRP2、PTK2B、TNKS、ABCC1、CEACAM5、CYP4B1、EGFR、FLT3、INSR、PTCH1、SMARCA4、ZNF217、BCR、EEF2、SELP、SLCO1B1、ABCC2、FLT4、MTR、IL4R、MTOR、RPTOR、TEK、ATM、CARD11、FANCD2、MEFV、NF1、TP73、BRCA2、CD109、PTPRD、ABCC6、IGF2R、P2RX7、ROS1、ACE、PARP1、PRKDC、CENPE、TSC2、ALK、NOTCH1、TNC、NOTCH3、POLE、MLL2、MYH11、POLD1、GRIN3B、F5、FANCA、LRP1B、LRP2、VWFからなる遺伝子グループから選ばれる少なくとも一つの遺伝子を試験することを含む請求項1乃至10のいずれかに記載する方法。
  12. 前記ヒト核酸サンプルは次世代シーケンシングすなわちNGSから公表された複数のリードからなる組を有し、前記位置決めは前記複数のリードを前記選んだPHREGに対してマッピングすることを含む請求項1乃至11のいずれかに記載する方法。
  13. ヒト核酸サンプルのゲノム解析または遺伝子解析用のコンピュータシステムであって、
    (a) 複数のヒト基準ゲノムからなるグループを用意するコンピュータ命令を有する第1モジュールと、
    (b) ヒト核酸サンプルを試験して、性および/または祖先を調べる第2モジュールと、
    (c) 前記性および/または祖先を調べる試験の結果に基づいて、前記複数のヒト基準ゲノムからなるグループから一つ以上の集団に特有の基準ゲノムすなわちPHREGを選ぶコンピュータ命令を有する第3モジュールと、
    (d) 前記ヒト核酸サンプルを前記選んだPHREGに位置決めするコンピュータ命令を有する第4モジュールと、を有するコンピュータシステム。
  14. コンピュータによって実行されると、そのコンピュータが請求項1乃至12のいずれかの前記ステップ(a)〜ステップ(d)を実行する命令を有するコンピュータプログラム。
  15. コンピュータによって実行されると、そのコンピュータが請求項1乃至12のいずれかの前記ステップ(a)〜ステップ(d)を実行する命令を有するコンピュータが読み取り可能な記憶媒体。
  16. 患者の治療方法であって、
    患者の病気の症状の特定結果を抽出し、
    前記患者から核酸サンプルを得て、
    請求項1の方法にしたがって前記核酸サンプルのゲノム解析および/または遺伝子解析を行い、
    前記患者の前記病気の症状に合った可能な治療法を抽出し、
    変異の特定および変異の解釈を行い、
    前記変異の解釈に基づいて抽出した可能な治療法を分類し、各治療法が前記患者にとって望ましく推奨される治療法として、または前記患者にとって禁忌となる治療法として分類され、
    前記患者にとって望ましく推奨される治療法のうちの一つを選び、
    その選んだ治療法にしたがって前記患者を治療する治療方法。
JP2019233587A 2019-12-24 2019-12-24 ゲノム解析および遺伝子解析用のシステム並びに方法 Ceased JP2021101629A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019233587A JP2021101629A (ja) 2019-12-24 2019-12-24 ゲノム解析および遺伝子解析用のシステム並びに方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019233587A JP2021101629A (ja) 2019-12-24 2019-12-24 ゲノム解析および遺伝子解析用のシステム並びに方法

Publications (2)

Publication Number Publication Date
JP2021101629A true JP2021101629A (ja) 2021-07-15
JP2021101629A5 JP2021101629A5 (ja) 2022-08-23

Family

ID=76754409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019233587A Ceased JP2021101629A (ja) 2019-12-24 2019-12-24 ゲノム解析および遺伝子解析用のシステム並びに方法

Country Status (1)

Country Link
JP (1) JP2021101629A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112662645A (zh) * 2021-01-19 2021-04-16 华南理工大学 一种鞘磷脂酶d突变体及其应用
CN113793641A (zh) * 2021-09-29 2021-12-14 苏州赛美科基因科技有限公司 一种从fastq文件中快速判断样本性别的方法
WO2023042703A1 (ja) 2021-09-17 2023-03-23 A・Tコミュニケーションズ株式会社 暗号化装置及び暗号化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130190321A1 (en) * 2012-01-23 2013-07-25 West Chester University Of Pennsylvania Methods and compositions relating to proliferative disorders of the prostate
US20140067280A1 (en) * 2012-08-28 2014-03-06 Inova Health System Ancestral-Specific Reference Genomes And Uses Thereof
JP2017510892A (ja) * 2013-12-07 2017-04-13 シーケンシング.コム 個人のゲノムデータを使用するリアルタイムパーソナライズシステムおよび方法
JP2018516577A (ja) * 2015-05-29 2018-06-28 アルターゴン エスアー 高感度cgh解析のための方法、支持体及びキット

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130190321A1 (en) * 2012-01-23 2013-07-25 West Chester University Of Pennsylvania Methods and compositions relating to proliferative disorders of the prostate
US20140067280A1 (en) * 2012-08-28 2014-03-06 Inova Health System Ancestral-Specific Reference Genomes And Uses Thereof
JP2017510892A (ja) * 2013-12-07 2017-04-13 シーケンシング.コム 個人のゲノムデータを使用するリアルタイムパーソナライズシステムおよび方法
JP2018516577A (ja) * 2015-05-29 2018-06-28 アルターゴン エスアー 高感度cgh解析のための方法、支持体及びキット

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112662645A (zh) * 2021-01-19 2021-04-16 华南理工大学 一种鞘磷脂酶d突变体及其应用
CN112662645B (zh) * 2021-01-19 2022-04-22 华南理工大学 一种鞘磷脂酶d突变体及其应用
WO2023042703A1 (ja) 2021-09-17 2023-03-23 A・Tコミュニケーションズ株式会社 暗号化装置及び暗号化方法
CN113793641A (zh) * 2021-09-29 2021-12-14 苏州赛美科基因科技有限公司 一种从fastq文件中快速判断样本性别的方法
CN113793641B (zh) * 2021-09-29 2023-11-28 苏州赛美科基因科技有限公司 一种从fastq文件中快速判断样本性别的方法

Similar Documents

Publication Publication Date Title
JP6854272B2 (ja) 遺伝子の変異の非侵襲的な評価のための方法および処理
US11972841B2 (en) Machine learning system and method for somatic mutation discovery
US20200258601A1 (en) Targeted-panel tumor mutational burden calculation systems and methods
US20180119230A1 (en) Systems and methods for analyzing nucleic acid
US20200270707A1 (en) Methylation pattern analysis of haplotypes in tissues in a dna mixture
US11164655B2 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
US20220367006A1 (en) Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211144B2 (en) Methods and systems for refining copy number variation in a liquid biopsy assay
AU2016293025A1 (en) System and methodology for the analysis of genomic data obtained from a subject
WO2021168146A1 (en) Methods and systems for a liquid biopsy assay
JP2021101629A (ja) ゲノム解析および遺伝子解析用のシステム並びに方法
US11211147B2 (en) Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
JP2021101629A5 (ja)
WO2019025004A1 (en) METHOD FOR NON-INVASIVE PRENATAL DETECTION OF FETUS SEX CHROMOSOMAL ABNORMALITY AND FETUS SEX DETERMINATION FOR SINGLE PREGNANCY AND GEEMELLAR PREGNANCY
EP3588506B1 (en) Systems and methods for genomic and genetic analysis
CN113053460A (zh) 用于基因组和基因分析的系统和方法
US20210202037A1 (en) Systems and methods for genomic and genetic analysis
JP2023526441A (ja) 複合遺伝子バリアントの検出およびフェージングのための方法およびシステム
Hassouneh Is Next-Generation Sequencing Appropriate for the Clinic?

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220524

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220729

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20220815

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221129

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20230309

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230309

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20230328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230322

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230407

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230411

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230613

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20231031