JP6384930B2

JP6384930B2 - がん遺伝子変異の機能確認におけるｒｎａ解析のためのシステムおよび方法

Info

Publication number: JP6384930B2
Application number: JP2016574903A
Authority: JP
Inventors: ザカリーサンボーン，ジョン
Original assignee: Five3 Genomics LLC
Current assignee: Five3 Genomics LLC
Priority date: 2014-03-25
Filing date: 2015-03-25
Publication date: 2018-09-05
Anticipated expiration: 2035-03-25
Also published as: US20190121937A1; US10192027B2; IL260314A; AU2020201237A1; KR20170054324A; AU2015236054A1; CA2946289C; CN109979526B; EP3129908A4; AU2015236054B2; EP3129908B1; CA2946289A1; JP2019003667A; KR101890792B1; IL248021B; JP2017522661A; EP3129908A1; WO2015148689A1; IL260314B; US20150278435A1

Description

本出願は、２０１４年３月２５日に出願された出願番号第６１/９７００５４の米国仮出願の利益を主張する２０１５年３月２５日に出願された米国特許出願第１４/６６８５１８号の利益を主張する。この文献および本明細書中で引用されるすべての他の外部文献は、参照によってその全てが組み込まれる。また、組み込まれた文献の中の用語の定義または使用が、本明細書中に規定された用語の定義に一致しないまたは反する場合、本明細書中で規定されたその用語の定義が適用され、参照文献中の用語の定義は適用されない。

発明の技術分野
本発明の技術分野は、オミックス解析であり、特に、がんの診断および治療におけるＲＮオミックスに関するオミックス解析である。

背景技術の記載は本発明を理解するために有益であるかもしれない情報を含む。本明細書中で提供されるどの情報も、本発明に対する先行技術であるもしくは本発明に関連するということを認めるものではなく、また、明示的もしくは暗示的に参照されたいずれの刊行物も先行技術であるということを認めるものではない。

安価かつ比較的迅速な全ゲノムシーケンシングの到来とともに、ＤＮＡレベルでのかなりな量の詳細な知識が利用できるようになっている。しかし、データの有意義な解析は、ほとんどの場合、その圧倒的な情報量ならびにインフラストラクチャーおよび計算アルゴリズムの欠如によって妨げられてきた。このような困難さは、追加的なオミックス情報、および特には組織およびさらには細胞レベルでのＲＮオミックスおよびプロテオミクスが解析に利用可能である場合、さらにいっそうひどくなる。したがって、このような追加のデータの統合が、多くの予後の、診断上のおよび治療上のアプローチ方法における律速段階となってきた。

近年、ならびに例えば米国特許出願公開第２０１２／００５９６７０号および米国特許出願公開第２０１２／００６６００１号に記載されているように、ゲノミクスデータのためのハイスループット配列解析が、患者の腫瘍とそれに対応する健康な組織との差分アライメントおよび比較により、はるかに効率的になってきた。このような情報は、その後、国際公開第２０１１／１３９３４５号および国際公開第２０１３／０６２５０５号にも既に記載されているようなパスウェイ認識アルゴリズムを使用してさらに解析され得る。しかし、これらの高度なツールをもってしても、がんゲノムにおける特定の突然変異群の存在は、必ずしも、変異した遺伝子が実際に発現されていること、およびその場合であっても、その変異がどのような効果を有しているのかを予測するものではない。ＲＮオミックスからの発見それ自体が有益である可能性がある一方で、そのような孤立した結果は、典型的には、ゲノミクスおよびプロテオミクスからの文脈的な追加のデータなしでは高い情報価値のあるものにはならないであろう。

したがって、オミックスデータを分析するための多数のシステムおよび方法は当該技術分野において公知であるが、オミックス解析および様々なオミックスプラットフォームから収集された情報の統合を向上させる必要性が依然として存在する。

本発明の主題は、様々な解析システム、および特にはゲノミクス解析とＲＮオミックス情報とを統合する、ならびに、腫瘍性疾患のための様々なマーカーの識別のためのシステムおよび方法に関する。より特には、発明者らは、ゲノムまたはエクソームレベルにおける患者および腫瘍特異的な変異が、特に変異が悪性腫瘍との既知の関連を有している選択された遺伝子におけるナンセンス突然変異である場合、対応するＲＮＡに関する転写レベルの解析を用いて文脈的に説明され得ることを発見した。

本発明の主題のある態様において、オミックスデータを処理するための方法は、データベースを解析エンジンに情報的に関連付ける工程を含み、ここでデータベースは、ゲノムデータセットおよびトランスクリプトミクスデータセットを記憶する。総体的に考慮される方法において、ゲノムデータセットは、患者の疾患組織（例えば、がん組織など）の少なくとも１つの遺伝子における変異であって、患者の正常組織と比べた変異を表すものであり、ならびに、トランスクリプトミクスデータセットは、患者の疾患組織の前記少なくとも１つの遺伝子における変異およびその発現レベルであって、患者の正常組織と比べた変異および発現レベルを表すものである。考慮される方法の別の工程において、配列解析エンジンは、変異を用いて（例えば変異が同じ位置にあるときなどに）トランスクリプトミクスデータセットをゲノムデータセットと関連付けるために、および、変異をナンセンス突然変異として識別するために使用される。変異のナンセンス突然変異としての識別により、配列解析エンジンは、さらに、少なくとも１つの遺伝子の３'末端部分内における変異の位置を同定するために、および、少なくとも１つの遺伝子の発現レベルを同定するために使用される。考慮される方法のさらに別の工程において、解析エンジンは、変異および発現レベルを使用してオミックスデータベース内のオミックスレコードを更新、または作製する。

発明の主題を限定することなく、さらなる考慮される方法は、配列データベースまたはシーケンシング装置を配列解析エンジンに情報的に関連付ける工程、ならびに、トランスクリプトミクスデータセットおよびゲノムデータセットを作製するために配列解析エンジンを使用する別の工程を含んでいてもよい。最も典型的には、しかし必然的な訳ではないが、トランスクリプトミクスデータセットおよびゲノムデータセットは、配列差異オブジェクトである。さらに一般的には、トランスクリプトミクスデータは、ｃＤＮＡまたはｐｏｌｙＡ^＋ＲＮＡから取得されると考えられる。

考慮される方法の別の態様において、オミックスレコードは、識別された位置が遺伝子の３’末端部分（例えば、末端の３個のエクソン、末端の２個のエクソンなど）中の位置内にある場合、および/または、識別された発現レベルが正常組織に呼応する発現レベルを超えている場合に更新されるであろう。考慮される他の遺伝子の中で、適切な遺伝子の典型例としては例えば、ＣＤＫＮ２Ａ、ＡＲＩＤ１Ａ、ＦＡＴ１、ＴＰ５３、ＰＴＥＮ、ＡＨＮＡＫ、ＳＲＲＭ２、ＲＡＳＡ１、ＰＩＫ３Ｒ１およびＭＲＰＬ３２などが挙げられる。

したがって、および別の観点から見ると、オミックスレコードコンピューターシステムは、少なくとも１つのプロセッサー、ならびに、プロセッサーと連結されておりかつ（１）患者の疾患組織の少なくとも１つの遺伝子における変異であって、患者の正常組織と比べた変異を表すゲノムデータセット、および（２）患者の疾患組織の少なくとも１つの遺伝子における変異およびその発現レベルであって、患者の正常組織と比べた変異および発現レベルを表すトランスクリプトミクスデータセットを記憶するように構成されている少なくとも１つのメモリーを備えるであろう。考慮されるシステムは、さらに、オミックスデータベースに情報的に関連付けられる解析エンジンであって、少なくとも１つのメモリーに保存されるソフトウェア命令に従って少なくとも１つのプロセッサー上で実行され、ならびに、（ａ）変異を用いてゲノムデータセットとトランスクリプトミクスデータセットとを関連付ける、（ｂ）変異をナンセンス突然変異として識別し、そしてその変異のナンセンス突然変異としての識別により、少なくとも１つの遺伝子の３’末端部分内における変異の位置を同定し、および少なくとも１つの遺伝子の発現レベルを同定する、（ｃ）オミックスデータベース内のオミックスレコードを更新するために同定された位置および発現レベルを使用する、ようにプロセッサーを構成する解析エンジンを備える。

考慮されるコンピューターシステムのさらなる態様において、少なくとも１つのトランスクリプトミクスデータセットおよびゲノムデータセットは配列差異オブジェクトであり、および/または、疾患組織は、がん組織である。最も典型的には、トランスクリプトミクスデータセットは、ｐｏｌｙＡ^＋ＲＮＡまたはｃＤＮＡの解析に基づく。すでに前述されたように、オミックスレコードは、同定された位置が遺伝子の３’末端部分中の位置内にある場合、および/または、同定された発現レベルが正常組織に呼応する発現レベルを超えている場合に更新され得る。

遺伝子が、がん関連遺伝子、例えば、ＣＤＫＮ２Ａ、ＡＲＩＤ１Ａ、ＦＡＴ１、ＴＰ５３、ＰＴＥＮ、ＡＨＮＡＫ、ＳＲＲＭ２、ＲＡＳＡ１、ＰＩＫ３Ｒ１および/またはＭＲＰＬ３２などであることもまた意図される。したがって、オミックスレコードは、（例えば腫瘍性疾患であるという）診断を確定するため、または、（例えば腫瘍性疾患のための）治療上のオプションを提案するために更新されてもよい。

発明の主題の様々な目的、特徴、態様および優位点は、添付の図面、ここで図面中、類似の番号は類似の構成要素を示している、とともに、以下の好ましい実施形態の詳細な説明からより明らかになるであろう。

図１は、本発明の主題によるオミックスレコードコンピューターシステムの例示的な概略図である。図２は、選択されたがんに関する身体の体細胞変異プロファイルを図示するグラフである。図３−１から図３−４は、特定のがんに関する選択された遺伝子における変異の型および発生の詳細図を提供しているグラフである。図４は、すべての突然変異に対するサイレント突然変異についての突然変異対立遺伝子頻度（ＤＮＡ対ＲＮＡ）を示す散布図である。図５は、すべての突然変異に対するミスセンス突然変異についての突然変異対立遺伝子頻度（ＤＮＡ対ＲＮＡ）を示す散布図である。図６は、すべての突然変異に対するナンセンス突然変異についての突然変異対立遺伝子頻度（ＤＮＡ対ＲＮＡ）を示す散布図である。図７は、サイレント突然変異に関する変異位置の関数としての発現レベルを図示しているグラフである。図８は、ミスセンス突然変異に関する変異位置の関数としての発現レベルを図示しているグラフである。図９は、ナンセンス突然変異に関する変異位置の関数としての発現レベルを図示しているグラフである。図１０は、ＣＤＫＮ２Ａ遺伝子中のナンセンス突然変異の位置に対して、高い割合で発現されたナンセンス変異を有するＲＮＡをプロットしたグラフである。図１１は、ＡＲＩＤ１Ａ遺伝子中のナンセンス突然変異の位置に対して、高い割合で発現されたナンセンス変異を有するＲＮＡをプロットしたグラフである。図１２は、ＦＡＴ１遺伝子中のナンセンス突然変異の位置に対して、高い割合で発現されたナンセンス変異を有するＲＮＡをプロットしたグラフである。図１３は、ＴＰ５３遺伝子中のナンセンス突然変異の位置に対して、高い割合で発現されたナンセンス変異を有するＲＮＡをプロットしたグラフである。図１４は、ＰＴＥＮ遺伝子中のナンセンス突然変異の位置に対して、高い割合で発現されたナンセンス変異を有するＲＮＡをプロットしたグラフである。

発明者らは、がん組織におけるゲノム変異は、ＲＮＡに同等には転写されないが、がん関連遺伝子における選択された変異型、および特にはナンセンス突然変異は、とりわけその変異ががん関連遺伝子の３’末端部分内に位置されている場合、より高い確率で転写されることを発見した。さらに注目すべきことには、そのような高い確率で転写される遺伝子は、２つ以上のがんの型に関連していることが判明した。その結果、発明者らは、ゲノムおよびトランスクリプトームの情報の統合に基づいた様々ながんの診断および処置のための分子マーカーを検出するためのシステムおよび方法を課題としている。別の観点からは、患者特異的である高い確率で転写される変異ＲＮＡ（および特にはナンセンス突然変異されたＲＮＡ）が、同定され得、および/または、様々ながんの存在、処置、および/または予防のための診断用ツールとして使用され得る。この結果、オミックスデータを処理するための様々な方法および様々なオミックスレコードコンピュータシステムが意図され、および、以下により詳細に説明される。

コンピュータと関連する任意の用語は、演算装置、例えばサーバー、インターフェース、システム、データベース、エージェント、ピア、エンジン、コントローラー、モジュールなどの任意の適切な組み合わせ、または、個々にもしくは集合的に作動する他のタイプの演算装置を含むものとして理解されるべきであることが留意されるべきである。演算装置は、実体的な非一時的なコンピュータ可読記憶媒体（例えば、ハードドライブ、ＦＰＧＡ、ＰＬＡ、ソリッドステートドライブ、ＲＡＭ、フラッシュ、ＲＯＭなど）上に記憶されているソフトウェア命令を実行するように構成されているプロセッサーを備えることが理解されるべきである。ソフトウェア命令は、演算装置が、開示される装置に関して以下で記載される役割、責任、または他の機能を提供するように構成、あるいはプログラムされる。さらに、記載されるテクノロジーは、コンピュータによるアルゴリズム、プロセス、方法、または他の命令の実行と関連付けられる記載の工程をプロセッサーに実行させるソフトウェア命令を記憶している非一時的なコンピュータ可読媒体を含むコンピュータープログラム製品として具現化され得る。いくつかの実施形態において、様々なサーバー、システム、データベース、またはインターフェースは、標準化されたプロトコルまたはアルゴリズムを用いて、あるいはＨＴＴＰ、ＨＴＴＰＳ、ＡＥＳ、ウェブサービスＡＰＩ、公開−秘密鍵交換、既知の金融取引プロトコル、または他の電子情報交換方法に基づいて、データを交換する。デバイスの間のデータ交換は、パケット交換ネットワーク、インターネット、ＬＡＮ、ＷＡＮ、ＶＰＮ、もしくは他のパケット交換ネットワーク；回線交換ネットワーク；セル交換ネットワーク；または他の種類のネットワークを通して実行され得る。

本明細書中の説明においておよび以下のクレーム全体を通して使用されるように、システム、エンジン、サーバー、デバイス、モジュール、またはその他の演算要素がメモリー中のデータ上の機能を行うまたは実行するように構成されると記載されている場合、「構成される（configured to）」または「プログラムされる（programmed to）」の意味は、演算要素のメモリー中に記憶されたソフトウェア命令のセットによってプログラムされている演算要素の一またはそれ以上のプロセッサーまたはコアがファンクションのセットを実行する、または、メモリー中に記憶された標的データまたはデータオブジェクトを操作することとして定義される。

例えば、オミックスレコードコンピューターシステムおよびオミックスデータを処理するための方法に関する意図される一実施が、図１に示されている。ここで、オミックスレコードコンピューターシステム１００は、メモリー１１０およびメモリーに連結されたプロセッサー１４０を備える。メモリー１１０に記憶されるものは、ゲノムデータセット１２０およびトランスクリプトミクスデータセット１３０である。代替的にまたは追加で、ゲノムおよび/またはトランスクリプトミクスデータセットもまた、解析エンジン１５０のデータセットジェネレーター１５１から提供されてもよい。その場合、生の配列データが、配列データベースおよび/またはオミックスデータを作製するシーケンシング装置１７０から提供され得る。ゲノムデータセット１２０およびトランスクリプトミクスデータセット１３０のソースにかかわらず、ソフトウェア命令１１２は、プロセッサーを解析エンジン１５０として作動するように構成させるためにプロセッサー１４０上での実行のためメモリー中に記憶されることが意図され、これによってデータセットに様々な機能および操作が提供される。例えば、解析エンジン１５０は、ゲノムデータセットとトランスクリプトミクスデータセットとを変異を使用して関連づける（例えば、データセットをゲノムの中の共通の位置における変異とペアリングする、あるいは関連付ける）ためのデータセット関連づけのためのモジュール１５２を備える。解析エンジンは、さらに、変異型を識別する（例えば、サイレントまたはナンセンス突然変異としてなど）ための変異識別モジュール１５４、遺伝子または転写物内の変異の位置を同定するための位置同定モジュール１５６、および変異した転写物の発現レベルを同定する（例えば、同じ患者の一致する変異していない転写物と比較して）発現レベル同定モジュール１５８を備えていてもよい。変異のナンセンス突然変異としての識別により、変異の位置が同定され（例えば、遺伝子の３’末端部分内に位置しているなど）、および、遺伝子の発現レベルが同定される。最終的に、同定された位置および発現レベルがその後、オミックスデータベース１６０中のオミックスレコードを更新するために使用される。

本明細書中で考慮されるゲノムデータセットは、様々な情報を含んでいてもよく、様々な方法でフォーマットされ得る。したがって、適切なゲノムデータセットは、シーケンシング装置または生データストレージ装置からの生データを含んでいてもよい。当然ながら、生データは、いくつかの方法で前処理されていてもよいことが理解されるべきである。例えば、生データは、改善されたデータ伝達のために前処理されてもよく（例えば、ＰＣＴ/ＵＳ１４/６５５６２に記載されるように）、および/または、端末側での処理を容易にするようにフォーマットされていてもよい。特に好ましいフォーマットとしては、例えば、ＢＡＭ、ＳＡＭおよびＦＡＳＴＡフォーマットが挙げられる。生データまたは前処理されたデータが提供される場合に、データセットジェネレーターが、そのようなデータを前述の適切なフォーマットへと変換してもよい。いくつかの態様において、ゲノムデータセットは、疾患組織および健康な組織の両方で一致するＤＮＡ配列情報を含むデータセットである。そのようなデータセット中の特定の配列長は、発明の主題を制限するものではないが、データセットは、相対的に小さなセグメント（例えば、３０〜１００、３０〜３００、３０〜５００、３０〜７００など）、または比較的長いセグメント（例えば、１ｋｂ〜１０ｋｂ、１０ｋｂ〜１００ｋｂ、１００ｋｂ〜５００ｋｂ、５００ｋｂ〜２ｍｂ、２ｍｂ〜１０ｍｂなど）のアライメントを含んでいてもよいことが留意されるべきである。別の態様において、ゲノムデータセットは、配列差異オブジェクトであり、典型的には米国特許出願公開第２０１２／００５９６７０号明細書および米国特許出願公開第２０１２／００６６００１号明細書で記載されるようなＢＡＭファイルの同期的およびインクリメンタルなアライメントから得られる。特に考慮される配列差異オブジェクトとしては、例えば、典型的にはゲノムまたはエクソーム中の特定の位置に関する（例えば、染色体上の塩基位置、特定の遺伝子内における位置、特定のエクソン内における位置に関連する）、変異（例えば、トランジション、トランスバージョン、欠損、挿入、再構成など）の同定が挙げられ、ここで変異は、同じ患者からの一致した対応するサンプルとの比較である（例えば、変異は、同じドナーからの疾患組織と対応する健康な組織との比較である）。ゲノムデータセットは、多数のソース材料から作製され得ることがさらに認識されるべきであり、例えば好ましいソース材料としては、全ゲノム配列およびエクソームに富んだゲノム配列（またはインシリコ（in silico）で計算されたエクソーム配列）を含む。ソース材料とは関係なく、意図されるゲノムデータセットは、少なくとも１つの、およびより典型的には少なくとも２つの配列情報、位置情報、遺伝子情報、参照ゲノムの参照情報、コピー数、読み込みサポートおよび品質スコアを含むであろう。ゲノムデータセットは、好ましくは、一致した配列に関する、すなわち疾患組織の配列および健康な組織の対応する配列に関する、そのような情報を含むであろう。別の観点からは、ゲノムデータセットは、同じ患者の健康なおよび疾患の組織から取得されるＤＮＡ配列の差異に関する特定の差異情報を提供するであろう。

同様に、トランスクリプトミクスデータセットは、かなり異なっていてもよく、および、シーケンシング装置からの生データまたはストレージデバイスからの生データを含んでいてもよい。前述のとおり、そのようなデータは、ＰＣＴ/ＵＳ１４/６５５６２に記載されるようにグルーピングのために前処理されるかまたは端末側での処理を容易にするためにフォーマットされる得る。特に好ましいフォーマットとしては、ＢＡＭ、ＳＡＭおよびＦＡＳＴＡフォーマットが挙げられる。生データまたは前処理されたデータが提供される場合には、データセットジェネレーターは、そのようなデータを前述の適切なフォーマットへと変換し得る。いくつかの態様において、トランスクリプトミクスデータセットは、疾患組織および健康な組織の両方で一致するＲＮＡ配列情報を含むデータセットである。そのようなデータセット中の特定の配列長は、発明の主題を制限するものではないが、データセットは、相対的に小さなセグメント（例えば、３０〜１００、３０〜３００、３０〜５００、３０〜７００など）、または比較的長いセグメント（例えば、１ｋｂ〜１０ｋｂ、１０ｋｂ〜１００ｋｂ、１００ｋｂ〜５００ｋｂ、５００ｋｂ〜２ｍｂ、２ｍｂ〜１０ｍｂなど）のアライメントを含んでいてもよいことが留意されるべきである。別の態様において、ゲノムデータセットは、配列差異オブジェクトであり、典型的には米国特許出願公開第２０１２／００５９６７０号明細書および米国特許出願公開第２０１２／００６６００１号明細書で記載されるようなＢＡＭファイルの同期的およびインクリメンタルなアライメントから得られる。前述のとおり、特に考慮される配列差異オブジェクトとしては、例えば、典型的にはＲＮＡ、ｍＲＮＡまたは一次ＲＮＡ転写物中の特定の位置に関する（例えば、染色体または一次転写物上の塩基位置、特定の遺伝子内における位置、特定のエクソン、特定のスプライスバリアント内における位置に関連する）、変異（例えば、トランジション、トランスバージョン、欠損、挿入、再構成など）の同定が挙げられ、ここで変異は、同じ患者からの一致した対応するサンプルとの比較である（例えば、変異は、同じドナーの疾患組織と対応する健康な組織との比較である）。トランスクリプトミクスデータセットは、多数のソース材料から作製され得、好ましい材料は、ｍＲＮＡ（好ましくは逆転写ｍＲＮＡ）および一次転写物（ｈｎＲＮＡ）である。ＲＮＡ配列情報は、逆転写されたｐｏｌｙＡ^＋ＲＮＡから取得され、これは同様に、同じ患者の腫瘍サンプル、および一致する正常な（健康な）サンプルから取得される。追加で、同じ患者のサンプルはまた、ＤＮＡ分析および組織または細胞ベースのプロテオミクス解析のために使用されてもよいことが留意されるべきある。同様に、ｐｏｌｙＡ^＋ＲＮＡがトランスクリプトームの代表として好ましい一方、ＲＮＡの他の形（ｈｎ−ＲＮＡ、非ポリアデニル化ＲＮＡ、ｓｉＲＮＡ、ｍｉＲＮＡなど）もまた本明細書中での使用のために適切であると考えらることに留意されるべきである。材料とは関係なく、トランスクリプトミクスデータセットは、少なくとも、配列情報、位置情報、遺伝子情報、参照ゲノムへの参照情報、転写レベル、読み込みサポートおよび/または品質スコアなどを含むであろう。さらに、トランスクリプトミクスデータセットは、典型的には、一致した配列に関する、すなわち同じ患者の疾患組織の配列および健康な組織の対応する配列に関する、そのような情報を含むであろう。

さらなる考慮される態様において、ゲノムデータセットおよびトランスクリプトミクスデータセットは、疾患組織および対応する健康な組織（典型的には同じドナー／患者から）のＤＮＡおよびＲＮＡ配列情報を含む１つのデータセットへと合体され得る。このような場合、合体されたオミックスデータセットが、疾患および一致する健康な組織のＤＮＡおよびＲＮＡの両方に関して特定の配列または遺伝子における少なくとも配列、変異位置、コピー数、発現レベルなどに関する差異を含む配列差異オブジェクトを作製する、位置同期されたインクリメンタルなアライメントにおけるＤＮＡおよびＲＮＡのそれぞれのＢＡＭファイルから作成されているものであることが特に好ましい。

ゲノムおよび/またはトランスクリプトミクスデータセットを作製するための特に意図される様態に関して、腫瘍および一致するＲＮＡの同時の解析が、米国特許出願公開第２０１２／００５９６７０号明細書および米国特許出願公開第２０１２／００６６００１号明細書に記載されるアルゴリズムおよび方法を使用して好ましくは実行されることが、したがって意図され、ここで両文献は、参照によって本明細書中に組み込まれる。追加で、腫瘍および一致するＤＮＡの解析が、同じ患者のサンプルを使用して行われてもよく、したがってこれは同じ患者に関するおよび同じサンプルからのゲノムおよびトランスクリプトミクス（ＲＮオミック）データを提供していることが理解されるべきである。これらのデータはその後、国際公開第２０１１／１３９３４５号および国際公開第２０１３／０６２５０５号に記載されるシステムおよび方法を使用してパスウェイ関連データを取得するためにさらに処理され得、ここで両文献もまた、参照によって本明細書中に組み込まれる。したがって、患者に関する１つのパスウェイ解析が、１つの患者試料および一致する対照から実行され得、これは１回のオミックス解析と比較して解析データを顕著に向上および精緻化するであろうことが留意されるべきである。追加で、同じ解析方法は、追加のオミックスデータ（例えばプロテオミクスデータなど）および/または患者特異的な履歴データ（例えば、以前のオミックスデータ、現在または過去の薬物療法など）を用いてさらに精緻化され得る。追加で、さらなるデータが様々な商業用のシーケンシングセンターおよび/または学術研究機関などを含む様々な他のソースからも取得され得ることが留意されるべきである。これらのデータに基づき、より正確な診断または予測、および精緻化されたパスウェイ解析に基づいている治療選択が行なわれ得る。

本明細書中のシステムおよび方法において使用される対応する組織に関し、少なくとも２つの別個の組織がゲノムおよびトランスクリプトミクスデータセットの作成に使用されることが一般的に考慮される。例えば、第１の組織が疾患組織（例えば、新生物、がん、感染、外傷など）である場合、第２の組織は非疾患組織であって、これは同じ器官または組織型由来であってもよく、またそうでなくともよい。代替的には、または追加で、第１および第２の組織が両方とも疾患組織であって、かつ、治療効果、疾患の進行または回復などを同定するまたは特徴づけることができるように、異なる時点からの組織であってもよい。

意図される解析エンジンは、典型的には、ゲノムデータセットとトランスクリプトミクスデータセットとを変異を使用して関連付ける（例えば、ゲノムおよびトランスクリプトミクスデータセットをゲノムの中の共通の位置における変異とペアリングする、あるいは関連付ける）データセット関連づけのためのモジュールを備えているであろう。別の観点からは、ゲノムおよびトランスクリプトミクスデータセットは、対応する配列または位置がゲノムデータセットおよびトランスクリプトミクスデータセットの間で比較され得るように、ならびに、ゲノムおよびトランスクリプトミクスデータセットが共通の変異を含むように、整列される。したがって、関連づけモジュールは、典型的には疾患組織および健康な組織の両方に関して、ＤＮＡ情報を対応するＲＮＡ情報と共に並べ、または、配列差異オブジェクトが提供されている場合、関連づけモジュールは、疾患および健康な組織のＤＮＡの間の配列差異オブジェクト中の対応する変異を、疾患および健康な組織の対応するＲＮＡ配列の間の配列差異オブジェクトと共に並べる。この方法では、特定の位置における特異的な変異に関する、関連する全ての情報（例えば、変異型、変異の配列情報、コピー数情報、転写物レベル情報など）が、さらなる解析のために関連付けられ得ることが理解されるべきである。

意図される解析エンジンは、さらに、ゲノムおよびトランスクリプトミクスデータセットの中の任意の変異を同定および/または分類する変異同定のためのモジュールをさらに備えていてもよく、ここで、同定および分類は、少なくともナンセンス突然変異の同定を含み、およびさらには、ミスセンス突然変異および/またはサイレント突然変異の同定を含む。当然ながら、変異に関連付けられる追加の情報もまた同定および/または分類され得ることが留意されるべきであり、このような追加の情報の典型的な例としては、フレームシフト情報、転座情報、選択的スプライシング情報、再構成情報などが挙げられる。

本発明の主題のさらなる意図される態様において、解析エンジンは、変異による影響を受けている遺伝子内の同定された変異の位置を同定するように構成されるモジュール、および、変異を含む遺伝子の発現（転写）レベルを同定する（典型的には、トランスクリプトミクスデータセットにおいて提供される情報を用いて）ように構成されるさらなるモジュールを備えるであろう。例えば、および以下にさらに詳しく説明されるように、位置同定は、ナンセンス突然変異である変異の重要性を評価するのに適切であり得る。そのため、位置情報は、遺伝子および/または転写物の３'末端部分内に位置しているものとしての変異の同定または確認を含み得る。本明細書中で使用される場合、「３'末端部分内（within the 3'-end portion）」という用語は、配列の３'末端側の５０％、または３'末端側の４０％、または３'末端側の３０％、または３'末端側の２０％、または３'末端側の１０％である位置を意味する。異なる観点から見ると、「３'末端部分内」という用語はまた、３'末端エクソン、または３'末端側の２つのエクソン、もしくは３'末端側の３つのエクソンを意味していてもよい。

発明者による以下の発見に基づいて、患者に関するオミックスレコードが、統合されたゲノミクス/トランスクリプトミクス解析から得られる情報に基づいて更新または作製されてもよい。例えば、オミックスレコードは、ゲノムおよびトランスクリプトームにおける変異が遺伝子中のナンセンス突然変異である場合に、および、その遺伝子の転写レベルが対応する非変異遺伝子の転写レベルより大きい場合に、更新され得る。適切なオミックスデータベースは、典型的には、複数の患者からのオミックスレコードを含み得、そして、オミックス生データまたは加工データ、ゲノムデータセット、トランスクリプトミクスデータセット、配列差異オブジェクト、ＢＡＭファイルなどを保存するために使用され得る。

その結果、上記、および後に続く例に鑑み、意図されるシステムおよび方法は、ゲノムおよびトランスクリプトームの情報に基づいたがんの治療および診断のための潜在的な分子マーカーの同定に関する新しいアプローチの道筋を容易に提供するであろうということが、認識されるべきである。異なる観点から見ると、本発明者らは、ゲノム変異および対応するＲＮＡ発現レベルの患者特異的な識別によって、高い確率で転写される変異ＲＮＡ（および特にはナンセンス突然変異ＲＮＡ）が、様々ながんの存在、処置または予防のための診断ツールとして証明されるおよび/または使用されるであろうことを意図している。

例えば、例示的に表１に示されるように、ＴＣＧＡは、１３の異なるがんの種類について、顕著な数のエクソンペアのデータ（合計５０００を超える）および対応するＲＮＡ配列（合計３９００を超える）を提供する。これらのデータを使用して、ＤＮＡ／一致するＲＮＡの多くの解析が、以下により詳細に説明されるように実施された。

ＴＣＧＡからのデータのさらなる解析は、上の表１に挙げたがんについての様々な体細胞変異のプロファイルを提供し、および、Ｍｂ当たりの変異頻度が図２に例示的に示されている。示されているように、大部分の変異頻度は、１桁以内であり、および、実質的に類似のシグモイド型分布パターンを有している。図３は、がん型内での、選択された遺伝子に関する体細胞変異プロファイルのより詳細な図を例示的に示しており、ヒストグラムには、それぞれの変異型（ミスセンス、ナンセンス、フレームシフト、インフレーム）を有する、がん型において最も影響を受けている遺伝子が挙げられている。さらに、図３はまた、最も影響を受けている遺伝子のあいだの、１つの腫瘍型における変異型の潜在的な関連性を図示している。示されているように、すべての腫瘍型にわたって、実質的な傾向または特定の関連性は見られない。

転写に関して、本発明者らは、以下の表２から理解されるように、ゲノム中の相当な数の（８０％を超える）変異がまた、特定の型の（例えば、サイレント、ミスセンス、ナンセンス）変異に多いまたは少ないという明示的な実質的傾向なく、トランスクリプトーム中に発現／発見されたことに気付いた。表２から理解されるように、ナンセンス突然変異の全頻度は、すべての検出された変異のおよそ５％、サイレント突然変異の全頻度は、すべての検出された変異のおよそ２８％、およびミスセンス突然変異の全頻度は、すべての検出された変異の６７％であった。本明細書中で使用される「検出（detected）」という用語は、変異対立遺伝子を支持する少なくとも１つのリードがＲＮＡ配列データ中に発見されたことを意味し、一方、「非存在（absent）」という用語は、変異対立遺伝子がＲＮＡ配列データ中で検出されなかったことを意味する。さらに、表２中のデータは、少なくとも２０個のリードが２０以上の信頼度でＲＮＡ配列における位置を網羅している変異のみが考慮された。

図４〜６は、サイレント突然変異（図４）、ミスセンス突然変異（図５）およびナンセンス変異（図６）に関するＤＮＡ突然変異対立遺伝子頻度（ＭＡＦ）対ＲＮＡについてのゲノム全域の解析を提示しており、すべての変異と比較して、サイレントおよびミスセンス突然変異における転写に有意な傾向がないことを示している。しかし、上記の表２に反映されているように、変異ＤＮＡの一部は、図５にも具体的に示されるように、ＲＮＡには転写されないことが留意されるべきである。図６は明白に、変異ＤＮＡの、より低い割合での転写／転写されない方向へと向かう緩やかな傾向を示し、これは、発明者らを、このような明白な傾向についての考えられる機序を解析することへと導いた。驚くことに、転写率がそれぞれの変異型における変異の位置に対してプロットされたところ、発明者らは、図７〜９から明らかであるようにサイレントおよびミスセンス突然変異においては類似の実質的な傾向の欠如が観測されたが、ナンセンス突然変異の場合、図９に示されるように、ナンセンス突然変異は遺伝子の３'末端部分内に、および特には末端側の２つのエクソン内で顕著に高い割合で発現されることを発見した。

より綿密な研究に際し、およびゲノム全域の転写に関連する変異型の傾向の明白な欠如とは対照的に、がん試料における選択されたいくつかの遺伝子は、以下の表３に挙げられているように、遺伝子がナンセンス突然変異を有していた場合に明確な高い割合で発現されるパターンをまさに示した。

興味深いことに、大部分のこれらの変異遺伝子は、扁平上皮悪性腫瘍に関連付けられた。図１０〜１４は、転写率が通常より高く、およびそのような高い発現が遺伝子／転写物の３'末端部分に位置するナンセンス突然変異に関連付けられた、選択された遺伝子の解析を例示的に示している。これらの図において、点線は、高い割合で発現されている遺伝子（すなわち、変異読み取りサポートが参照値の５０％より上に位置する）に対する閾値を示す。これらのデータに基づき、前述の変異遺伝子が関連するがんに対する予知または診断用マーカーとして容易に機能するであろうことが理解されるべきである。結果的に、高い割合で転写されるナンセンス突然変異は（特に、変異が遺伝子の３'末端部分中に位置している場合）、様々ながんの診断および処置のための分子マーカーを検出するためのシステムおよび方法において使用され得ることが理解されるべきである。

したがって、オミックス解析の方法の具体的な実施形態および応用が開示されてきた。当業者であるならば、すでに記載されたもの以外のはるかに多くの改変が、本明細書中の発明的概念から逸脱することなく可能であることは明白であるべきである。発明の主題は、したがって、添付された特許請求の範囲内であること以外は制限されない。さらに、明細書および特許請求の範囲の両方の解釈において、すべての用語は、文脈と一致する可能な限り最も幅広い方法で解釈されるべきである。特に、用語「含む（comprises）」および「含んでいる（comprising）」は、非制限的な様式で構成要素、構成成分または工程を言及していると解釈されるべきであり、これは、言及された構成要素、構成成分または工程が、明示的には言及されていない構成要素、構成成分または工程と共に存在し、または利用され、または組み合わされてもよいことを示している。明細書の特許請求の範囲が、Ａ、Ｂ、Ｃ、…およびＮからなる群より選択される、少なくとも１つの何かに言及している場合、その文章は、Ａに加えてＮ、またはＢに加えてＮなどではなく、群からの唯一つの構成要素を必要としていると解釈されるべきである。

Claims

オミックスデータを処理するための方法であって、
ゲノムデータセットおよびトランスクリプトミクスデータセットを記憶するデータベースを解析エンジンによって呼び出す工程であって、
前記ゲノムデータセットが、患者の疾患組織の少なくとも１つの遺伝子における変異を表し、および、前記変異は前記患者の正常組織と比べた変異であり、
前記トランスクリプトミクスデータセットが、前記患者の疾患組織の前記少なくとも１つの遺伝子における変異およびその発現レベルを表し、および、前記変異および発現レベルは前記患者の正常組織と比べたものである工程と、
前記解析エンジンを
（ａ）変異を用いて、前記トランスクリプトミクスデータセットを前記ゲノムデータセットとペアリングする、
（ｂ）前記変異の変異型を識別し、そして前記変異の変異型をナンセンス突然変異として識別すると、
（ｃ）前記少なくとも１つの遺伝子の３’末端部分内における変異の位置を同定する、および
（ｄ）前記少なくとも１つの遺伝子の発現レベルを同定する、
ために使用する工程と、
前記解析エンジンによって、前記発現レベルが予め定められた閾値よりも高いときに、前記少なくとも１の遺伝子が癌の分子マーカーとして同定されて、前記オミックスデータベース内のオミックスレコードを更新または作製する工程と、
を含む方法。
前記解析エンジンを使用して作成された、追加の配列データベース及び／またはトランスクリプトミクスデータセットを呼び出す工程をさらに含む請求項１記載の方法。
前記トランスクリプトミクスデータセットおよび前記ゲノムデータセットが、配列差異オブジェクトである請求項１記載の方法。
前記疾患組織が、がん組織である請求項１記載の方法。
前記変異が同じ位置にある場合、前記トランスクリプトミクスデータセットが前記ゲノムデータセットと関連付けられる請求項１記載の方法。
前記トランスクリプトミクスデータが、ｃＤＮＡまたはｐｏｌｙＡ^＋ＲＮＡから取得される請求項１記載の方法。
同定された前記位置が前記遺伝子の３’末端部分中の位置である場合、前記オミックスレコードが更新される請求項１記載の方法。
同定された前記発現レベルが正常組織に呼応する発現レベルを超えている場合、前記オミックスレコードが更新される請求項１記載の方法。
前記予め定められた閾値が、参照値の５０％より上である請求項７記載の方法。
前記遺伝子が、ＣＤＫＮ２Ａ、ＡＲＩＤ１Ａ、ＦＡＴ１、ＴＰ５３、ＰＴＥＮ、ＡＨＮＡＫ、ＳＲＲＭ２、ＲＡＳＡ１、ＰＩＫ３Ｒ１およびＭＲＰＬ３２からなる群より選択される請求項１記載の方法。
少なくとも１つのプロセッサーと、
少なくとも１つのメモリーであって、前記プロセッサーと連結されており、かつ
患者の疾患組織の少なくとも１つの遺伝子における変異であって前記患者の正常組織と比べた変異を表しているゲノムデータセットと、
前記患者の疾患組織の前記少なくとも１つの遺伝子における変異およびその発現レベルであって前記患者の正常組織と比べた変異およびその発現レベルを表しているトランスクリプトミクスデータセットと、
を記憶するように構成されている少なくとも１つのメモリーと、
解析エンジンであって、オミックスデータベースを情報処理するために、前記少なくとも１つのメモリーに保存されるソフトウェア命令に従って少なくとも１つのプロセッサー上で実行され、
前記変異を用いて前記ゲノムデータセットと前記トランスクリプトミクスデータセットとをペアリングし、
前記変異の変異型を識別し、そして前記変異がナンセンス突然変異として識別されると、
（ａ）少なくとも１つの遺伝子の３’末端部分内における変異の位置を同定し、
（ｂ）少なくとも１つの遺伝子の発現レベルを同定し、および
（ｃ）同定された前記位置および発現レベルを使用して、前記発現レベルが予め定められた閾値よりも高いときに、前記少なくとも１の遺伝子が癌の分子マーカーとして同定されて、オミックスデータベース内のオミックスレコードを更新する、
ようにプロセッサーを動かす解析エンジンと、
を備えるオミックスレコードコンピューターシステム。
少なくとも１つの前記トランスクリプトミクスデータセットおよび前記ゲノムデータセットが、配列差異オブジェクトである請求項１１記載のコンピューターシステム。
前記疾患組織が、がん組織である請求項１１記載のコンピューターシステム。
前記トランスクリプトミクスデータセットが、ｐｏｌｙＡ^＋ＲＮＡまたはｃＤＮＡの解析に基づいている請求項１１記載のコンピューターシステム。
同定された前記位置が前記遺伝子の３’末端部分中の位置である場合、前記オミックスレコードが更新される請求項１１記載のコンピューターシステム。
同定された前記発現レベルが正常組織に呼応する発現レベルを超えている場合、前記オミックスレコードが更新される請求項１１記載のコンピューターシステム。
前記予め定められた閾値が、参照値の５０％より上である請求項１５記載のコンピューターシステム。
前記遺伝子が、がん関連遺伝子である請求項１１記載のコンピューターシステム。
前記遺伝子が、ＣＤＫＮ２Ａ、ＡＲＩＤ１Ａ、ＦＡＴ１、ＴＰ５３、ＰＴＥＮ、ＡＨＮＡＫ、ＳＲＲＭ２、ＲＡＳＡ１、ＰＩＫ３Ｒ１およびＭＲＰＬ３２からなる群より選択される請求項１１記載のコンピューターシステム。
前記オミックスレコードが、診断を確定するため、または、治療上の選択肢を提案するために更新される請求項１１記載のコンピューターシステム。