JP2020501240A

JP2020501240A - 汎がんゲノムにおけるｄｎａアクセシビリティを予測するための方法及びシステム

Info

Publication number: JP2020501240A
Application number: JP2019526482A
Authority: JP
Inventors: ウヌク，カミル; スドル，ジェレミ; ラビザデー，シャールーツ; スン−シオン，パトリック; スゼト，クリストファー; ヴァスケ，チャールズ
Original assignee: ナントミクス，エルエルシー; ナントホールディングスアイピー，エルエルシー
Priority date: 2016-11-18
Filing date: 2017-11-20
Publication date: 2020-01-16
Also published as: US10748056B2; WO2018094360A2; EP3542296A4; KR20190101966A; CA3044254A1; US20190392288A1; AU2017362569A1; WO2018094360A9; US10467523B2; US20180144261A1; AU2017362569B2; IL266692A; EP3542296A2; WO2018094360A3; EP3542296B1

Abstract

DNAアクセシビリティを予測するための技術が提供される。複数の細胞型のDNase-seqデータファイル及びRNA-seqデータファイルを、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより対にする。ニューラルネットワークは、対のデータファイルのバッチを用いて訓練されるように構成され、ここでニューラルネットワークを構成することは、畳み込み層を、対のデータファイルに由来するDNA配列データを含む第1入力を処理して畳み込み出力を生成するように構成し、上記畳み込み層に続く全結合層を、上記畳み込み出力を上記対のデータファイルに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結し、上記連結を処理してDNAアクセシビリティ予測出力を生成するように構成することを含む。訓練済みニューラルネットワークは、新規な細胞型のRNA-seqデータ及び全ゲノムシークエンシングを含むゲノムサンプル入力におけるDNAアクセシビリティを予測するために用いられる。【選択図】図１

Description

本開示は、一般的に、ゲノムサンプルにおけるDNAアクセシビリティを予測することに関し、より具体的には、ニューラルネットワークを使用してゲノムサンプルにおけるDNAアクセシビリティを予測することに関する。

DNAアクセシビリティは、クロマチン制御及びゲノムメチル化と共に、腫瘍増殖を促進させる可能性があるDNA転写事象の調節機構において重要な役割を果たす。ヌクレオソーム中でDNAがきつく結合していない位置(DNase I高感受性部位(DHS)として検出可能)は、DNA配列を、他のDNA結合タンパク質(例えば広範囲の転写因子(TF)など)にアクセス可能とし得る。DHS部位は細胞特異的であり、細胞選択的転写事象の決定において極めて重要な役割を果たす。

さらに、ゲノムワイド関連研究(GWAS)は、多くの疾患及び形質に有意に関連する遺伝子変異体の大多数が非コーディング領域に位置していることを明らかにした。このような非コーディング単一ヌクレオチド多型(SNP)の中で、優に半分以上がDHS部位に影響を与える。従って、DNA調節エレメントに対する可変的なアクセスは、通常の細胞の発達においてのみならず、病態に関連する発現プロファイルの変化においても重要な役割を果たす。

しかし、特にゲノムの非コーディング領域において、DNA配列データが遺伝子発現の転写調節に与える影響を理解することは挑戦である。

ゲノムワイド関連研究を超えて、DNA配列データにおける変化がどのように転写調節に影響を与えるかについてより深い洞察を得ようと、複数の細胞型におけるDNAアクセシビリティを予測するためのニューラルネットワークモデルが開発された。理論上、これらのモデルは、変異がDNAアクセシビリティ及び転写調節に与える影響を探索することを可能とし得る。

DNAアクセシビリティを予測するためのニューラルネットワークの広範な適用性を制限する1つの一般的な問題は、根底にある生物学的機構(例えばDHS部位)の多くの細胞型特異的な性質である。ニューラルネットワークモデルの現在の例は、各細胞型に対して別々のモデルを訓練するか、又は単一のモデルに複数の細胞型特異的(マルチタスク)予測を出力させることにより、この問題に対処している。しかし、これらの制約は、現在のニューラルネットワークモデルを新規なデータに適用することを困難にし、これらのデータがより広範囲の経路モデルに組み込まれることを制限する。従って、細胞特異的現象に起因して広範な適用性を妨げる現在の障害を克服するニューラルネットワークソリューションに対する必要性が残されている。

本明細書中には、ゲノムサンプルにおけるDNAアクセシビリティを予測するニューラルネットワークの使用に関連するシステム、方法及び製品が記載される。様々な実施形態は、細胞型のクラスタリング及び分類用のシグナルとしてのRNA-seqデータの有用性に基づく。対のRNA-seq入力データ及びDNase-seq入力データが与えられると、ニューラルネットワークは、個別の訓練済みモデル又は細胞型毎の固有の出力が不要となるように、その予測を適切に調整することを学習するように構成される。このようにして、初めて、その遺伝子発現が訓練データにおけるサンプルと類似するが固有である、以前には観測されていない細胞型についての正確なDNAアクセシビリティ予測を行うことが可能となる。

一実施形態において、複数の細胞型のDNase-seqデータファイル及びRNA-seqデータファイルを含むゲノムサンプルデータが取得される。対のデータファイルは、上記ゲノムサンプルデータから、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより作成される。ニューラルネットワークは、複数バッチの対のデータファイルを用いてRNA-seqデータに基づきDNAアクセシビリティを予測するように訓練されるように構成され、ここでニューラルネットワークを構成することは、上記ニューラルネットワークの畳み込み層を、上記対のデータファイルの1つに由来するDNA配列データを含む第1入力を処理して畳み込み出力を生成するように構成し、上記畳み込み層に続くニューラルネットワークの全結合層を、上記畳み込み出力を対のデータファイルの1つに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結し、この連結を処理してDNAアクセシビリティ予測出力を生成するように構成することを含む。上記第1入力は600塩基対セグメントのDNAを含み得、遺伝子発現レベルは、選択された遺伝子のサブセットに対応し得る。DNAアクセシビリティ予測出力は単一予測であり得る。ニューラルネットワークは複数バッチの対のデータファイルを用いて訓練され、コンピューティングデバイスは、ゲノムサンプルデータに対して新規な細胞型のRNA-seqデータ及び全ゲノムシークエンシングを含むゲノムサンプル入力におけるDNAアクセシビリティを予測する訓練済みニューラルネットワークを使用するように構成される。ゲノムサンプル入力は、The Cancer Genome Atlas(TCGA)由来のがんコホート又は腫瘍に関連し得る。

一部の実施形態において、ゲノムサンプルデータは、ENCODEプロジェクトデータ及びRoadmap Epigenomicsプロジェクトデータの少なくとも1つから得ることができる。RNA-seqデータファイルは、RNA-seq、ポリA mRNA、ポリA枯渇、及び単一細胞ENCODEラベルの1つ以上を有するデータファイルを含み得、ゲノムサンプルデータ由来のエラー監査フラグを含むRNA-seqデータファイルは除去され得る。対のデータファイルは、一致する生体サンプル受入番号、あるいは同一組織サンプル、同一細胞系、又は同一患者の少なくとも1つに由来することに基づいて、DNase-seqデータファイルをRNA-seqデータファイルに割り当てることにより作成され得る。また対のデータファイルは、DNase-seqデータファイルを同一バイオタイプ内にあると決定された複数のRNA-seqデータファイルの1つにランダムに割り当てることにより作成することもできる。

一部の実施形態において、ニューラルネットワークは、それぞれ最大プーリング層が続く複数の畳み込み層の階層構造を含み得、この階層構造は、少なくとも3つの畳み込み層を含み得る。ニューラルネットワークは、上記階層構造に続く少なくとも2つの全結合層をさらに含み得る。

一部の実施形態において、ニューラルネットワークを訓練することは、バッチ正規化のため移動平均が更新される場合に訓練過程で動的減衰率を増加させること、及び適応モーメント推定(Adam)最適化アルゴリズムを用いてニューラルネットワークの1つ以上のネットワークパラメータを最適化することを含み得る。

一部の実施形態において、ニューラルネットワークは、深層畳み込みニューラルネットワーク、又は密に結合した畳み込みニューラルネットワークを含み得る。

一実施形態において、畳み込みニューラルネットワークシステムは、それぞれ最大プーリング層が続く複数の畳み込み層の階層構造を含むニューラルネットワーク層のシーケンスを含む。階層構造は、対のデータファイルに由来するDNA配列データを含む第1入力を受け取り、第1入力を処理して畳み込み出力を生成するように構成される。対のデータファイルは、複数の細胞型のゲノムサンプルデータから、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより作成される。階層構造は、少なくとも3つの畳み込み層を含み得る。少なくとも2つの全結合層が階層構造に続き、この少なくとも2つの全結合層は、上記畳み込み出力を、対のデータファイルに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結し、この連結を処理してDNAアクセシビリティ予測出力(単一予測であり得る)を生成するように構成される。ニューラルネットワーク層のシーケンスは、複数バッチの対のデータファイルを用いてRNA-seqデータに基づきDNAアクセシビリティを予測するように訓練され得る。バッチ正規化のため移動平均が更新される場合、ニューラルネットワーク層のシーケンスの動的減衰率は訓練過程で増加するように構成され得、ニューラルネットワーク層のシーケンスの1つ以上のネットワークパラメータは、適応モーメント推定(Adam)最適化アルゴリズムに基づき最適化されるように構成され得る。

一部の実施形態において、ニューラルネットワーク層のシーケンスは、深層畳み込みニューラルネットワーク又は密に結合した畳み込みニューラルネットワークを含み得る。

以下の説明から、添付の図面(同様の数字は同様のコンポーネントを表す)と共に、本発明の主題の様々な目的、特徴、態様及び利点がより明らかになるだろう。

図1は、一実施形態による、RNA-seqデータを用いてDNAアクセシビリティを予測するためのオペレーション例の概略フロー図を示す。図2は、一実施形態による、RNA-seqデータを用いてDNAアクセシビリティを予測するためのシステムのブロック図を示す。図3は、一実施形態による、ゲノムサンプルにおけるDNAアクセシビリティを予測するためのオペレーション例のフロー図を示す。図4は、一実施形態による、ゲノムサンプルにおけるDNAアクセシビリティを予測するための畳み込みニューラルネットワークシステムのブロック図を示す。図5は、一実施形態による、畳み込みニューラルネットワークシステムを用いて複数の細胞型のゲノムサンプルデータを処理する方法のフロー図を示す。図6は、一実施形態による、検証データセットの全ROC AUC結果のグラフ表示を示す。図7は、一実施形態による、最後のデータセットリビジョン後の検証データセットの全ROC AUC結果のグラフ表示を示す。図8は、一実施形態による、全ゲノムサンプル毎のテストデータセットのPR AUC結果及びROC AUC結果のグラフ表示を示す。図9は、一実施形態による、全ゲノムサンプル毎のテストデータセットのPR AUC結果のグラフ表示を示す。図10は、一実施形態による、全ゲノムサンプル毎のテストデータセットについてのプロモーター及び隣接のPR AUC及びROC AUCの結果のグラフ表示を示す。図11は、一実施形態による、テストデータセットの全PR AUC及びROC AUC結果のグラフ表示を示す。図12は、一実施形態による、1コホート当たり分析された患者数毎に正規化された変異プロモーター及び隣接部位のグラフ表示を示す。図13は、一実施形態による、変異が600塩基対のプロモーター及び隣接部位における予測アクセシビリティスコアに与える影響を示すボックスプロットの視覚的表示を示す。図14は、一実施形態による、hg19参照ゲノムと比較してフリップして終了する特定のカテゴリーの変異内の変異部位の割合のグラフ表示を示す。図15は、一実施形態による、DNAアクセシビリティの特徴の視覚的表示を示す。図16は、様々な実施形態の1つ以上の態様を実行するために使用し得る例示的なクライアント-サーバ関係のブロック図を示す。図17は、様々な実施形態の1つ以上の態様を実行するために使用し得る分配されたコンピュータシステムのブロック図を示す。

本発明は上記の図面に関して記載されるが、この図面は例示を意図するものであり、他の実施形態は本発明の精神と一致し、且つ本発明の範囲内である。

明細
様々な実施形態が、本明細書の一部を形成し且つ例示として本実施形態を実施する具体例を示す添付の図面を参照して、本明細書中以降さらに完全に記載される。しかし、この明細書は多くの異なる形態で具体化され、本明細書中に示される実施形態に限定されると解されるべきではなく、むしろこれらの実施形態は、この明細書が完璧且つ完全であり、且つ本発明の範囲を当業者に完全に伝達するように提供される。とりわけ、この明細書は方法又はデバイスとして具体化することができる。従って、本明細書中の様々な実施形態はいずれも、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、又はソフトウェア態様とハードウェア態様とを組み合わせた実施形態の形を採り得る。このため以下の明細書は、限定的な意味で解されるべきではない。

本明細書及び特許請求の範囲全体を通して、以下の用語は、文脈が明らかに別段の指示をしない限り、本明細書中で明確に関連した意味をとる：

本明細書中で使用される「一実施形態において」という表現は、同一実施形態を指す場合もあるが、必ずしも同一実施形態を指すものではない。従って、以下に記載されるとおり、本発明の様々な実施形態は、本発明の範囲及び精神から逸脱することなく容易に組み合わせることができる。

本明細書中で使用される用語「又は(or)」は、包括的な「又は(or)」演算子であり、文脈が明らかに別段の指示をしない限り、用語「及び/又は(and/or)」と同等である。

用語「・・・に基づき」は排他的ではなく、文脈が明らかに別段の指示をしない限り、記載されていないさらなる因子に基づくことを許容する。

文脈が別段に指示しない限り、本明細書中で使用される用語「・・・に連結される」は、直接連結(相互に連結されている2つのエレメントが相互に接触している)及び間接連結(少なくとも1つのさらなるエレメントが2つのエレメント間に位置している)の両方を包含することが意図される。従って、用語「・・・に連結される」及び「・・・と連結される」は同義的に用いられる。2つ以上のコンポーネント又はデバイスがデータを交換し得るネットワーク環境の文脈の範囲内で、用語「・・・に連結される」及び「・・・と連結される」は、場合によって1つ以上の中間デバイスを介して「・・・と通信可能に連結される」を意味するためにも使用される。

さらに、明細書全体にわたって、「a」、「an」、及び「the」の意味は複数形を包含し、「・・・中(in)」の意味は、「・・・中(in)」及び「・・・上(on)」を包含する。

本明細書中に示される様々な実施形態の一部は発明エレメントの単一の組み合わせを構成するが、本発明の主題は、開示されるエレメントの全ての可能な組み合わせを包含すると考えられることが理解されるべきである。従って、1つの実施形態がエレメントA、B、及びCを含み、別の実施形態がエレメントB及びDを含む場合、本発明の主題は、本明細書中で明確に論じられていなくても、A、B、C又はDの他の残りの組み合わせを包含するとも考えられる。さらに、移行的用語(transitonal term)「含む(comprising)」は、一部若しくは一員として有すること、又はこれらの一部若しくは一員であることを意味する。本明細書中で使用される移行的用語「含む(comprising)」は包括的であるか又はオープンエンドであり、付加的な言及されていないエレメント又は方法ステップを排除しない。

以下の考察全体を通して、サーバ、サービス、インターフェース、エンジン、モジュール、クライアント、ピア、ポータル、プラットフォーム、又はコンピューティングデバイスから形成される他のシステムに関して多くの言及がなされるだろう。かかる用語の使用は、コンピュータ読み取り可能な有形の非一過性媒体(例えば、ハードドライブ、ソリッドステートドライブ、RAM、フラッシュ、ROM、等)上に保存されたソフトウェア命令を実行するように構成された少なくとも1つのプロセッサ(例えば、ASIC、FPGA、DSP、x86、ARM、ColdFire、GPU、マルチコアプロセッサ等)を有する1つ以上のコンピューティングデバイスを表すとみなされることが理解されるべきである。例えば、サーバは、ウェブサーバ、データベースサーバ、又は他のタイプのコンピュータサーバとして、記載される役割、責任、又は機能を満たすような様式でオペレートする1つ以上のコンピュータを包含し得る。開示されるコンピュータベースのアルゴリズム、処理、方法、又は他のタイプの命令セットは、プロセッサに開示されるステップを実行させる命令を保存する非一過性の、有形のコンピュータ読み取り可能な媒体を含むコンピュータプログラム製品として具体化され得ることをさらに理解すべきである。様々なサーバ、システム、データベース、又はインターフェースは、場合によってHTTP、HTTPS、AES、官民キー交換、ウェブサービスAPI、公知の金融取引プロトコル、又は他の電子的情報交換方法に基づく標準化プロトコル又はアルゴリズムを用いてデータを交換することができる。データ交換は、パケットスイッチドネットワーク、サーキットスイッチドネットワーク、インターネット、LAN、WAN、VPN、又は他のタイプのネットワーク上で行うことができる。

本明細書中の説明及びそれに続く特許請求の範囲全体にわたって用いられるとおり、システム、エンジン、サーバ、デバイス、モジュール、又は他のコンピューティングエレメントが、メモリ中のデータに関数を実施又は実行するように構成されると記載される場合、「・・・するように構成される」又は「・・・するようにプログラムされる」の意味は、コンピューティングエレメントの1つ以上のプロセッサ又はコアが、コンピューティングエレメントのメモリ中に保存されている一連のソフトウェア命令により、メモリ中に保存されているターゲットデータ又はデータオブジェクトに一連の関数を実行するようにプログラムされると定義される。

任意のコンピュータを対象とする言葉は、例えばサーバ、インターフェース、システム、データベース、エージェント、ピア、エンジン、コントローラ、モジュールなどのコンピューティングデバイス、又は個別に又は集合的にオペレートする他のタイプのコンピューティングデバイスの任意の好適な組み合わせを包含するように読まれるべきであることに留意すべきである。コンピューティングデバイスは、有形、非一過性のコンピュータ読み取り可能な保存媒体(例えば、ハードドライブ、FPGA、PLA、ソリッドステートドライブ、RAM、フラッシュ、ROM等)上に保存されたソフトウェア命令を実行するように構成されたプロセッサを含むことを理解すべきである。上記のソフトウェア命令は、コンピューティングデバイスを、開示される装置に関して以下に論じられる役割、責任、又は他の機能を提供するように構成又はプログラムする。さらに、開示される技術は、コンピュータベースのアルゴリズム、処理、方法、又は他の命令の実行に関連する開示されるステップをプロセッサに実行させるソフトウェア命令を保存する非一過性のコンピュータ読み取り可能な媒体を含むコンピュータプログラム製品として具体化され得る。一部の実施形態において、様々なサーバ、システム、データベース、又はインターフェースは、場合によってはHTTP、HTTPS、AES、官民キー交換、ウェブサービスAPI、公知の金融取引プロトコル、又は他の電子的情報交換方法に基づく標準化プロトコル又はアルゴリズムを用いてデータを交換する。デバイス間のデータ交換は、パケットスイッチドネットワーク、インターネット、LAN、WAN、VPN、又は他のタイプのパケットスイッチドネットワーク；サーキットスイッチドネットワーク；セルスイッチドネットワーク；又は他のタイプのネットワーク上で行うことができる。

開示される本発明の主題の焦点は、例えばゲノムサンプルにおけるDNAアクセシビリティの予測などの目的のため、ヒトの能力を超える大量のデジタルデータをオペレートするコンピューティングデバイスの構築又は構成を可能とすることである。

開示される技術は、例えばニューラルネットワークを用いたゲノムサンプルにおけるDNAアクセシビリティの予測の範囲、正解率、コンパクト性、効率及びスピードの改善などの多くの有利な技術的効果を提供することを理解すべきである。以下の明細書は広範な概説として意図されるものではなく、従って、概念が明確性及び簡潔性の目的で単純化され得ることも理解されるべきである。

RNA-seqデータを用いてDNAアクセシビリティを予測する
細胞型特異的DNAアクセシビリティのニューラルネットワークモデルにおいて、遭遇する(encountered)それぞれの新型のゲノムサンプル(例えば、所与のバイオタイプの生物学的細胞又は組織)は、ニューラルネットワークが、最初に、任意のDNAアクセシビリティ予測を行い得る前に、新型のゲノムサンプルから測定されるDNase I高感受性部位シークエンシング(DNase-seq)ピークを用いて訓練されることを必要とする。Bassetニューラルネットワークモデルは、DNAアクセシビリティを予測するための細胞型特異的モデルの一つの例である。Bassetニューラルネットワークモデルは、ゲノムサンプルタイプと、潜在的にアクセス可能なゲノム部位の汎用リストとしてのそれらの各DNAアクセシビリティとの2値マトリクスを使用する。Bassetニューラルネットワークモデルを訓練する前に、全ゲノムサンプルにわたる全ての重複するDNase-seqピークを凝集的にクラスタリングすることによって汎用リストが作成される。Bassetニューラルネットワークモデルの最終層は、各バイオタイプについての別個の予測ユニット(出力)によるマルチタスク出力である。

しかし、この細胞型特異的DNAアクセシビリティ予測モデルの制約(すなわち細胞型の離散化)は、細胞及び組織を特徴付ける補足的な数値シグネチャ(supplementary numerical signature)を用いることにより回避することができる。このような細胞シグネチャを平行入力とすることは、ニューラルネットワークが、細胞型の空間における類似性及び構造を利用して、DNAアクセシビリティがどのように調節されるのかをより一般的な方法で(すなわち細胞シグネチャ空間におけるゲノムサンプルの座標により)学習することを可能とし得る。

このような補足的シグネチャの1つの候補が、例えばTCGAプロジェクト及び遺伝子型-組織発現(GTEx)プロジェクトなどの研究における目的の大データソースにわたって一般的に利用可能なRNAシークエンシング(RNA-seq)データ(すなわち所与の時点における生物学的サンプル中のRNAの存在及び量)であることが決定された。幾つかの研究は、RNA-seqデータから推定又は導出される遺伝子発現レベルが、DNAアクセシビリティを予測するためのニューラルネットワークに入力される補足的シグネチャ入力として使用し得ることを示している。例えば、マッチドサンプルに由来するDNase-seq及びマイクロアレイベースの遺伝子発現レベルは、生物学的関係に従って類似してクラスタ化することが見出されており、多くのDNase I高感受性(DHS)部位は、遺伝子発現と有意に相関することが見出されている。類似の生物学的に有意義な隣接関係もまた、ENCODEプロジェクトから収集されたDNase-seqデータとRNA-seqデータの両方に現れている。さらに、DNAアクセシビリティは、遺伝子発現をRNA-seqのレベルで究極的に決定する多くの複合的な因子の1つであることが観察されており、このことは、DNAアクセシビリティとRNA-seqデータとの間の関係を非自明的に可逆性にする。遺伝子発現レベルの知識はDHS部位のパターンを一意的に規定しないが、最も可能性の高い、潜在的なDHS部位の直ぐ周囲のDNA配列がそのアクセシビリティを決定する機構は、観察される遺伝子発現レベルの文脈において学習され得る。従って、RNA-seqデータを用いて決定されるDNAアクセシビリティ予測が全ゲノムにわたり適用される場合、この適用は、遺伝子発現を反転させて、局所配列情報によってのみ限定される、最も可能性の高いDHS部位を取得する方法とみなすことができる。

図1は、一実施形態による、RNA-seqデータを用いてDNAアクセシビリティを予測するためのオペレーションの例の概略フロー図を示す。フロー図100において、複数の細胞型のRNA-seq発現データファイル102、全DNase I高感受性部位(DHS)のDNA配列データ104、及びDNase-seqデータファイル106を含むゲノムサンプルデータの訓練データセットは、ニューラルネットワーク108を、RNA-seqデータに基づきDNAアクセシビリティを予測するように訓練するために用いられる。以下にさらに詳細に記載されるとおり、ニューラルネットワーク108は、DNA配列データを含む第1入力及び RNA-seqデータから導出される遺伝子発現レベルを含む第2入力を処理するように構成され、ここで入力DNase-seqデータファイル及びRNA-seqデータファイルは、同一バイオタイプに基づいて対にされる。本明細書中の実施形態によれば、複数バッチの対のDNase-seqデータファイル及びRNA-seqデータファイルが、ニューラルネットワーク108を訓練するために用いられる。訓練が完了すると、DNAアクセシビリティを予測するために訓練されたニューラルネットワーク110は、訓練データセットに対して新規なゲノムサンプル入力のRNA-seqデータ112及び全ゲノムシークエンシング114を受け取り、新規なゲノムサンプル入力116におけるDNAアクセシビリティを予測するように構成され得る。

図2は、一実施形態による、RNA-seqデータを用いてDNAアクセシビリティを予測するためのシステムのブロック図を示す。ブロック図200において、ゲノムサンプルにおけるDNAアクセシビリティを予測するためのエレメントは、訓練エンジン210、予測エンジン220、持続性記憶デバイス230、及びメインメモリデバイス240を含む。一実施形態において、訓練エンジン210は、持続性記憶デバイス230及びメインメモリデバイス240のいずれか1つ又は両方から、RNA-seq発現データファイル102、全DNase I高感受性部位(DHS)のDNA配列データ104、及びDNase-seqデータファイル106を含む、複数の細胞型に関連するゲノムサンプルデータを取得するように構成され得る。次いで訓練エンジン210は、ゲノムサンプルデータを用いて、持続性記憶デバイス230及びメインメモリデバイス240のいずれか1つ又は両方に保存され得るニューラルネットワーク108を構成して訓練し、予測エンジン220を、訓練済みニューラルネットワークを用いてゲノムサンプルデータに対して新規な細胞型のRNA-seqデータ及び全ゲノムシークエンシングを含むゲノムサンプル入力におけるDNAアクセシビリティを予測するように構成することができる。例えば、予測エンジン220は、新規ゲノムサンプル入力のためのRNA-seqデータ112及び全ゲノムシークエンシング114を取得して、持続性記憶デバイス230及びメインメモリデバイス240のいずれか1つ又は両方に保存され得る、DNAアクセシビリティを予測するために訓練されたニューラルネットワーク110を用いて、ゲノムサンプル入力におけるDNAアクセシビリティ116を予測することができる。

しかし、図2におけるエレメント、及びこれらのエレメントのそれぞれによる様々な機能は、例示的であるが、理解を容易にする目的のためにのみそのように記載されていることに留意すべきである。当業者であれば、様々なエレメントに帰する機能の1つ以上が、他のエレメントのいずれか1つにより、及び/又は様々な機能の組み合わせを実施するように構成されたエレメント(示されず)により実施され得ることを理解するであろう。従って、訓練エンジン210、予測エンジン220、持続性記憶デバイス230及びメインメモリデバイス240を対象とする任意の言葉は、サーバ、インターフェース、システム、データベース、エージェント、ピア、エンジン、コントローラ、モジュール、又は様々なエレメントに帰せられる機能を実施するために個別に又は集合的にオペレートする他のタイプのコンピューティングデバイスを含む、コンピューティングデバイスの任意の好適な組み合わせを包含するように読まれるべきであることに留意すべきである。さらに、当業者であれば、本明細書中に記載される図2のシステムの機能の1つ以上が、例えば1つ以上のサーバ、1つ以上のクライアントデバイス(例えば、1つ以上のユーザーデバイス)により、及び/又は1つ以上のサーバ及びクライアントデバイスの組み合わせにより、クライアント-サーバ関係の文脈の範囲内で実施され得ることを理解するであろう。

図3は、さらに、一実施形態による、ゲノムサンプルにおけるDNAアクセシビリティを予測するためのオペレーションの例のフロー図を示す。フロー図300において、訓練エンジン210は、複数の細胞型のDNase-seqデータファイル及びRNA-seqデータファイルを含むゲノムサンプルデータを取得する。

遺伝子発現レベルに関連してDNAアクセシビリティを予測するためのニューラルネットワークを訓練するため、異なる細胞型の大きく且つ多種多様なコレクションについてDNase-seq及びRNA-seqの両方が利用可能なゲノムサンプルデータセットを構築することが必要である。ゲノムサンプルデータは、例えば、Encyclopedia of DNA Elements (ENCODE)プロジェクトコンソーシアムのデータベース又は米国国立衛生研究所ロードマップエピゲノミクスマッピング(National Institutes of Health Roadmap Epigenomics mapping)コンソーシアムのデータベースなどの任意のヒトゲノムデータソースから入手することができる。例えば、生体サンプルタイプのより大きな多様性を得るため、ENCODEプロジェクトデータベースから選択されるRNA-seqデータファイルは、「RNA-seq」、「ポリA mRNA」、「ポリA枯渇」、及び「単一細胞」のENCODEラベルの1つ以上を有するファイルを含み得る。一部の実施形態において、ENCODEの「ERROR」監査フラグを含むRNA-seqデータファイルは、サンプルデータから除去され得る。しかし、「不十分なリード深度」及び「不十分なリード長」の警告を有するファイルは保持され得る。警告ファイルがENCODEプロジェクト基準を下回ると特徴付けられても、警告状況における利用可能なリード深度及びリード長は、細胞型の区別に関して言えばさほど問題とならない場合がある。さらに、特定の例において、サンプルタイプのより大きな多様性を支持する可能性の高いノイズを許容することが望ましい場合がある。

一実施形態において、RNA-seqデータに基づきDNAアクセシビリティを予測するニューラルネットワークを訓練するため、一連の対のデータファイルを作成することによりゲノムサンプルデータセットが作成される。ステップ302において、対のデータファイルは、ゲノムサンプルデータから、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより作成される。例えば、対のデータファイルは、DNase-seqデータファイルを、一致する生体サンプル受入番号に基づいてRNA-seqデータファイルに割り当てることにより作成することができる。また対のデータファイルは、例えばDNase-seqデータファイルが幾つかのRNA-seqデータファイルと一致すると決定される場合、DNase-seqデータファイルを、同一バイオタイプ内にあると決定された複数のRNA-seqデータファイルの1つにランダムに割り当てることにより作成することも可能である。2つのファイルタイプ間に、複数の生体サンプル受入番号の完全一致が存在する場合、関連付けを、このような完全一致に限定することができる。しかし、完全一致生体サンプル受入番号が存在しない場合、RNA-seqファイルとDNase-seqファイルを、例えば、同一組織サンプル、同一細胞系、又は同一患者の少なくとも1つに由来することに基づいて関連付けることができる。このような対応関係が存在しないバイオタイプは、サンプルデータから除去され得る。さらに、ニューラルネットワーク上の非自明的に可逆的な態様のノイズを学習する目的のため、例えばテスト中に、技術的複製物及び生物学的複製物の両方を、同一バイオタイプの独立サンプルとして取り扱うことができる。当業者であれば、例えば、品質問題による改良及びデータセットに対する様々なアップデート(例えば、ENCODEコンソーシアムのアップデート)などの、対データセットのさらなる改良が可能であることを理解するであろう。

ステップ304において、ニューラルネットワークは、複数バッチの対のデータファイルを用いてRNA-seqデータに基づきDNAアクセシビリティを予測するように訓練されるように構成される。本明細書中に記載され、以下にさらに記載される実施形態のため、RNA-seqデータに基づきDNAアクセシビリティを予測するためのニューラルネットワークは、それぞれ最大プーリング層が続く複数の畳み込み層を含む階層構造を含む。ニューラルネットワークは、階層構造に続く少なくとも2つの全結合層をさらに含む。例えば、ニューラルネットワークは、深層畳み込みニューラルネットワーク、又は密に結合した畳み込みニューラルネットワークを含み得る。

一実施形態において、ニューラルネットワークを構成することは、畳み込み層を、対のデータファイルの1つに由来するDNA-seqデータを含む第1入力を処理して畳み込み出力を生成するように構成し、上記畳み込み層に続く全結合層を、上記畳み込み出力を、対のデータファイルの1つに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結し、この連結を処理してDNAアクセシビリティ予測出力を生成するように構成することを含む。RNA-seqデータから導出される遺伝子発現レベルのために用いられる遺伝子のサブセットを選択するための多くの可能な戦略が存在する。例示的実施形態において、ライブラリ統合ネットワークベースの細胞シグネチャ(Library of Integrated Network-based Cellular Signatures)(LINCS)精選L1000データセットを、遺伝子のサブセットとして使用することができる。しかし、遺伝子のサブセットは、例えば、手動で精選したサブセット(例えばL1000データセット)の代わりに利用し得る、より完全な遺伝子のセットを利用するオートエンコーダなどの他の手段を用いて選択することもできる。

ニューラルネットワークは、ステップ306において複数バッチの対のデータファイルを用いて訓練される。例えば、訓練中に、陰性訓練例と陽性訓練例の選択された比により、バッチ毎にデータのバランスをとることができる。各バッチは、等量の、置換を有さないアクセス可能部位及び非アクセス可能部位を、全ての利用可能な陰性訓練例を通過する部位が、全陽性訓練例を通過する複数のランダムに順序を変更されたパスを構成するようにサンプリングすることができる。1つのDNase-seqファイルが複数の一致するRNA-seqファイルを有する状況において、DNase-seqファイルに由来する部位を、これらが訓練バッチ用に選択されるたびに、複数の対応するRNA-seq発現ベクトル(遺伝子発現レベルを導出した)の1つにランダムに割り当てることができる。

一実施形態において、対のデータファイルのバッチは、訓練のプロセスを評価するための検証セットを含み得る。例えば、複数のランダムサンプルを、検証DNase-seqファイル毎にアクセス可能部位及び非アクセス可能部位のそれぞれから選択し、訓練全体を通した受信者動作特性曲線下面積(Area Under the Receiver Operating Characteristics curve)(ROC AUC)を推定するために使用することができる。全検証サンプルの全ゲノム(すなわち、全ての潜在的DHS部位)にわたる予測性能も評価することができる。複数のRNA-seqファイル一致が存在する場合、全ての可能なDNase-seq及びRNA-seqファイル対につき一回、全ゲノムにわたる予測を評価して、例えば、データ不均衡の存在下でのミスリーディングの可能性が低い、適合率・再現率曲線下面積(Precision Recall area under curve (PR AUC))により捕捉される性能を特徴付けることができる。テストセットについての結果は、同じ手順に従って、全ゲノムにわたり評価することができる。

例示的訓練実施形態において、対のデータファイルは、複数の固有のバイオタイプを含んでいてよく、表1に示されるとおり、訓練セット、検証セット、及びテストセットに区分することができる。

表1に示される区分について、検証セットは一定に保持され得るが、訓練セットとテストセットは複数のバリエーションを含み得る。例えば、第1テストセットはランダムにホールドアウトされたサンプルを含み得るが、他方、第2テストセットは、例えば本明細書中の様々な実施形態において記載されるニューラルネットワークの適用を正確にシミュレートするため、テストセット中の全サンプルが、訓練データ又は検証データ中には現れないバイオタイプに由来するように選択され得る。

一実施形態において、訓練セット中の全DNase-seqサンプルに欲張りな併合法(greedy merge methodlogy)を使用して、一連の、全ゲノムに沿った全てのアクセス可能なDNAの潜在的な部位を取得することができる。例えば、固定された長さ(例えば、DHSピークを中心とする600塩基対)を用いて各部位を規定することができる。ブラックリストされた部位(すなわち、測定値が信頼できないとみなされた部位)は除外され得る。各ゲノム部位の配列は、ヒトゲノムデータベース(例えばゲノム参照コンソーシアム(Genome Reference Consortium)のヒトゲノムアセンブリhg19)から入手することができる。

一実施形態において、バッチ正規化のため移動平均が更新される場合、ニューラルネットワーク層のシーケンスの動的減衰率は訓練過程で増加するように構成され得、ニューラルネットワーク層のシーケンスの1つ以上のネットワークパラメータは、適応モーメント推定(Adam)最適化アルゴリズムに基づき最適化されるように構成され得る。

ステップ308において、コンピューティングデバイス(例えば予測エンジン220)は、ゲノムサンプル(訓練)データに対して新規な細胞型のRNA-seqデータに基づきゲノムサンプル入力におけるDNAアクセシビリティを予測する訓練済みニューラルネットワークを使用するように構成される。一実施形態において、ゲノムサンプル入力は、The Cancer Genome Atlas(TCGA)由来のがんコホート又は腫瘍に関連し得る。例えば、がんコホートは、肺腺がん(LUAD)、肺扁平上皮がん(LUSC)、腎臓嫌色素性細胞(KICH)、腎臓明細胞がん(KIRC)、腎臓乳頭細胞がん(KIRP)、及び乳がん(BRCA)の1つ以上を含み得る。一旦構成されると、オペレーションにおける予測エンジン220は、ゲノムサンプルデータに対して新規な細胞型のRNA-seqデータ及び全ゲノムシークエンシングを含むゲノムサンプル入力を取得し、ステップ310において、訓練済みニューラルネットワークを用いてゲノムサンプル入力におけるDNAアクセシビリティを予測し得る。

図4は、一実施形態による、ゲノムサンプルにおけるDNAアクセシビリティを予測するための畳み込みニューラルネットワークシステムのブロック図を示す。畳み込みニューラルネットワークシステム400は、それぞれ最大プーリング層が続く複数の畳み込み層を含む階層構造402を含むニューラルネットワーク層のシーケンスを包含する。

階層構造402は、対のデータファイルに由来するDNA配列データを含む第1入力404を受け取り、第1入力を処理して畳み込み出力を生成するように構成される。一実施形態において、第1入力404は、ワンホットコード(単一のハイ(「1」)ビット及び全ての他の値ロー(「0」)を有するコード)として表される600塩基対セグメントのDNAであり得る。上記のとおり、対のデータファイルは、複数の細胞型のゲノムサンプルデータから、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより作成される。一実施形態において、階層構造402は、少なくとも3つの畳み込み層(示されるとおり)を含み得、これらの畳み込み層は、特定数の畳み込みフィルタをデータに適用し、データの各サブ領域に対して一連の数学的演算を実施し、出力における単一値を生成する。さらに、第1畳み込み層及び第2畳み込み層を分解し、システム40の学習率及び最終正解率を改善することができる。

少なくとも2つの全結合層406が階層構造402の後に続き、畳み込み層により抽出されてプーリング層によりダウンサンプルされた特徴の分類を実施する。一実施形態において、少なくとも2つの全結合層406は、階層構造402により生成された畳み込み出力を、対のデータファイルに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力408と連結し、この連結を処理して単一のDNAアクセシビリティ予測出力410を生成するように構成される。

上記のとおり、ニューラルネットワーク層のシーケンスは、複数バッチの対のデータファイルを用いてRNA-seqデータに基づきDNAアクセシビリティを予測するように訓練され得る。例えば、全層においてバッチ正規化を利用することが可能であり、訓練過程中の全重みの正則化のため、最大ノルム制約(max norm constraint)を適用することができる。さらに、固定減衰率より速く競合的性能を達成する目的のため、ニューラルネットワーク層のシーケンスに動的減衰率を用いることができる。例えば、バッチ正規化のため移動平均が更新される場合、動的減衰率は、訓練過程で増加するように構成され得る。さらに、適応モーメント推定(Adam)最適化アルゴリズム、又は1つ以上の他の最適化アルゴリズム(例えば、RMSProp)を使用して、ニューラルネットワーク層のシーケンスの1つ以上のネットワークパラメータを最適化することができる。

図4に示されるニューラルネットワークシステムは、本明細書中の実施形態を実行するための例示となるが、当業者であれば、様々な他のニューラルネットワークアーキテクチャ(例えば、密に結合した畳み込みネットワーク及び長・短期記憶ユニット(Long Short-Term Memory Units)(LSTM))並びに付加層(例えば注意機構)を利用し得ることを理解するであろう。従って、ニューラルネットワークシステム400は、本明細書中に記載される実施形態に厳密に限定されると解されるべきではない。

図5は、図4のニューラルネットワークを用いて複数の細胞型のゲノムサンプルデータを処理する方法のフロー図を示す。例えば、ニューラルネットワークシステム400は、複数の細胞型のDNase-seqデータファイル及びRNA-seqデータファイルを含むゲノムサンプルデータを受け取ることができるか、又は訓練された場合、上記ゲノムサンプルデータに対して新規な細胞型のRNA-seqデータ及び全ゲノムシークエンシングを含むゲノムサンプル入力を受け取ることができる。

ステップ502において、対のデータファイルに由来するDNA配列データを含む第1入力を、それぞれ最大プーリング層(例えば、初期表現のサブ領域にダウンサンプリング最大フィルタが適用される層)が続く複数の畳み込み層(例えば、特定数の畳み込みフィルタをデータ、及びデータの各サブ領域に適用して一連の数学的演算を実施し、出力における単一値を生成する層)を含む階層構造を用いて処理し、畳み込み出力を生成する。一実施形態において、対のデータファイルは、ゲノムサンプルから、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより作成される。

ステップ504において、少なくとも2つの全結合層(すなわち、層における全てのノードが先行する層における全てのノードに接続されている層)は、上記畳み込み出力を、対のデータファイルに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結するように構成される。ステップ506において、少なくとも2つの全結合層が、この連結を処理して単一のDNAアクセシビリティ予測出力を生成する。

テスト結果
テストする目的で、ニューラルネットワークシステム400の幾つかの代替版を訓練した。比較目的のため、Bassetニューラルネットワークの手順の後に、細胞特異的モデルを訓練して評価した。ENCODEプロジェクト及びロードマップエピゲノミクスプロジェクトから入手した164個のサンプルタイプに由来するDNase-seqピークデータを細胞特異的モデルの訓練に使用し、全DNase-seqデータサンプルにわたる重複ピークの欲張りな併合により、潜在的アクセシビリティ部位の汎用セットを作成した。各部位について、2値ベクトルを用いて、164個の細胞型のそれぞれにおけるそのアクセシビリティ状態をラベルした。その後、このデータをゲノム部位により分割して、70,000個のピーク位置を検証用にホールドアウトし、71,886個のピーク位置をテスト用にホールドアウトして、残りの180万個の部位を訓練用に使用した。

図6は、RNA-seq入力を用いる様々なモデルアーキテクチャの全陽性例(陽性エポック)を通過するパス数にわたる小検証セットの全ROC AUCを示す。グラフ600は、遺伝子発現を畳み込み層からの出力と連結する前に深さ500の全結合(FC)層を追加した実験から得られた結果を示す。しかし、バッチサイズを増加させ、最後の細胞特異的モデルからの重みで畳み込み層を初期化すること(転移学習)が最も性能を高めた。セット1で訓練されたモデルは、同じハイパーパラメータを有するセット2で訓練されたモデルと類似の検証性能を示した。この評価は、幾つかの疑わしい低品質のサンプルを無効化した最終データセットリビジョンの前に行われたが、依然としてモデル選択のための有用なフィードバックを提供した。

図7は、最終データセットリビジョン後に訓練されたモデルの陽性訓練エポックにわたる小検証セットの全ROC AUCを示す。グラフ700は、バッチサイズのさらなる増加並びに学習率の低減が、さらなる有意な改善をもたらしたことを示す。また、訓練バッチ当たりの陽性サンプルの割合の変化(0.5から0.25へ)もまた、全ゲノム検証においてROC AUC並びにPR AUCの両方をわずかに改善した。最後のデータの無効化の前に学習された重みの転移(図6)は、最後の細胞特異的モデルからの転移学習より有効な初期化であった。同一のハイパーパラメータが、両訓練区分にわたり優れた検証性能をもたらしたことも確認された。

図6及び図7の検証結果において報告されるとおり、訓練過程で、RNA-seqデータを畳み込み層からの出力に連結する前に全結合層を追加すると、全結合層を有しない直接連結より一貫して性能が劣ることが見出された。さらに、転移学習は、モデル変形(複数)にわたり一貫して訓練時間を短縮した。しかし、最も影響のある変更としては、例えばバッチサイズの増加(128から512へ、そして最終的には2048まで)、及び学習率の低減(0.001から0.0001へ)などが挙げられた。

細胞特異的モデルはマルチタスク出力を有していたため、各訓練サンプルは、複数の逆伝搬用ラベルに基づく情報豊富な勾配を与えた。しかし、ニューラルネットワークシステム400においてRNA-seq入力を用いるとマルチタスク出力は不要となり、このため各サンプルは単一出力に基づく勾配フィードバックのみを与えた。従って、バッチサイズの増加は、この出力次元における変更を補正し、各バッチについてより有用な勾配を生成することを意図していた。

他方、学習率の低減は、単一の完全パスが全陰性訓練例を通過する前でも、訓練が徐々に改善する点に達しつつあったという観察により導かれた。また新規なデータセットも、細胞特異的モデルを訓練するために用いられたデータセットより著しく大きかった。対応するデータから学習された重みを用いた転移学習において、無効化ファイルの最終クリーンアップ前の分割は、最良の細胞特異的モデルに由来する畳み込み層の重みの転移よりも、最終データに対して有効であった。一部の無効化サンプルは極めて高い割合のDHSピークを特徴としていたため、無効化前のデータセットは、多くのさらなる目的部位(270万個)を含んでいた。このことは、多くの付加的な陰性例に加えて、相当数の潜在的にアクセス可能な部位もまた、中心の異なるピークを有していたことを意味していた。しかし、この追加された位置ノイズが、モデルのロバスト性を高めた可能性がある。

図4に示されるとおり、ニューラルネットワークシステム400は、最終無効化ファイルが除去される前に、前のデータセットの反復から学習された重みで初期化された。次に、これらのモデルを、最良性能の細胞特異的モデルに由来する畳み込み層パラメータで初期化した。訓練には有効バッチサイズの2048を使用し(2つのGPUが別個のの1024のバッチを処理する)、全バッチにおいて、Adam学習率は0.0001、陰性サンプルに対する陽性サンプルの割合は0.25であった。

表2は、検証セットに対する最終的なニューラルネットワークシステムの性能が、全体及びバイオタイプ毎のいずれも、2つの訓練区分のそれぞれにわたってROC AUC並びにPR AUCの両方について一貫していたことを示す。

表3及び表4は、全ての潜在的なDHS部位で、ニューラルネットワークシステム400を全ゲノムにわたり適用した結果についてまとめる。テストセットにおいて2つ以上のファイル対を有するバイオタイプについて、各サンプルの結果が列挙される。

当然のことながら、システム性能は完全に新規なバイオタイプにより損なわれたが、しかし、このより挑戦的なシナリオを考慮しても、全PR AUCは、既知のバイオタイプを用いて評価された最良の細胞特異的モデルより高かった。表4における結果の幾つかは、サンプルタイプが訓練と重複している予測と類似の範囲内であったことに留意されたい。

ニューラルネットワークシステム400の性能特性及び限界をよりよく理解するため、ENCODEの検証及びテストの結果をゲノム部位型毎に分類した。エクソン、タンパク質コーディングエクソン、遺伝子内領域及び遺伝子間領域はGENCODE v19により定義されるアノテーションに由来し、プロモーター及び隣接領域のアノテーションはENSEMBLから得た。

表5は、ホールドアウトされたバイオタイプ訓練セットにおいて検討された171万個の部位に適用されたアノテーションの分布、並びに各アノテーションタイプの範囲内にある全陽性サンプルの割合について詳述する。単一の部位が2つ以上のアノテーションと重複し得ること、また表5は、ホールドアウトされたバイオタイプ区分(訓練/テストセット2)の詳細についてのみ報告することに留意されたい。

図8、9、及び10は、システムを全体的に上手く実施できなかったサンプルについても、プロモーター及び隣接領域の範囲内の予測が一貫して高レベルの正解率を達成し、全てのホールドアウトされたバイオタイプ(テストセット2)わたりPR AUC = 0:838、またランダムにホールドアウトされたサンプル(検証セット)にわたりPR AUC = 0:908を達成したことを示す。

図8において、グラフ800は、全ゲノムサンプル毎にホールドアウトされたバイオタイプのテストセット(セット2)についてのPR AUC及びROC AUCの結果を示す。ROC AUCはデータ不均衡により影響を受けるため、PR AUCメトリックは、全ゲノム性能のより優れた評価である。

図9において、グラフ900は、全ゲノムサンプル毎に区分され且つゲノム部位型により分類された、ホールドアウトされたバイオタイプのテストセット(セット2)についてのPR AUC結果を示す。図示されるとおり、プロモーター及び隣接領域についての性能は、全体的な結果が最も低かったサンプルについても一貫して高かった。グラフの色付けは、図8の説明文において定義されるものと同一であることに留意されたい。

図10及び11は、これらの予測の正解率が、プロモーター及び隣接部位が発明者らのRNA-seq入力ベクトルにおいて用いられた遺伝子の領域と重複していたか否かとは無関係であったことを確認する。

図10において、グラフ1000は、全ゲノムサンプル毎に区分され且つ入力遺伝子セット(L1000)メンバーシップにより分類された、ホールドアウトされたバイオタイプのテストセット(セット2)についてのプロモーター及び隣接PR AUCの結果を示す。プロモーター及び隣接領域を、RNA-seq入力遺伝子セットと重複する領域と重複しない領域とに区分した場合、明らかな性能差は観察されなかった。グラフの色付けは、図8の説明文において定義されるものと同一であることに留意されたい。

図11において、グラフ1100は、部位型及びL1000遺伝子セットメンバーシップにより分類された、ホールドアウトされたバイオタイプのテストデータセット(セット2)についての全体的な結果を示す。

図10及び11に示されるとおり、プロモーター及び隣接部位のみの分類のための閾値を、ホールドアウトされたバイオタイプのテストセットについて適合率が80%(20%偽発見率)であるように選択すると、訓練済みシステムは、偽陽性率10%で、65.3%のアクセス可能なプロモーター領域を再現する。さらに、このシステムは、この同じ閾値が、バイオタイプが訓練セットと重複している検証セットに適用される場合、適合率93.4%を達成し、偽陽性率わずか3.5%で、62.6%のアクセス可能なプロモーター領域を再現する。

汎がんゲノムへの適用
図１に示されるとおり、一旦訓練されると、本明細書中の様々な実施形態に記載されるDNAアクセシビリティを予測するためのニューラルネットワークは、RNA-seq112及び全ゲノム配列情報114が利用可能な新規なデータセットに適用され得る。

上記のニューラルネットワークシステムの1つの適用例は、汎がんゲノムにおけるサンプルのDNAアクセシビリティを予測することである。各TCGAサンプルについて予測アクセシビリティプロファイルを構築するため、全体細胞SNP、挿入(INS)変異、及び欠失(DEL)変異を任意の関係部位に適用した。しかし、グローバルスコープを見てアクセシビリティプロファイルを比較する前に、目的のゲノム領域のセットに対する変異の影響を理解することが有用である。

図12において、グラフ1200は、各コホートの患者数により正規化される、1コホート当たりのSNP1202、INDEL1204、及びSNP+INDEL1206変異の総数を示す。全ゲノムデータが利用可能な上記コホート中の全サンプルにわたり、3172の目的領域が単一SNPを有し、78の目的領域が2個のSNPを有し、9つの領域のみが3〜5個のSNPを有していた。合計465個の部位が挿入又は欠失(INDEL)変異を含み、SNP変異とINDEL変異の両方が共に生じたのは7つの部位(BRCAにおいては4つの部位、LUSCにおいては2つの部位、LUADにおいては1つの部位)のみであった。従って、これらはこのプロット中でほとんど見えない。

少なくとも1つの変異による影響を受けた各サンプル部位について、各タイプの変異を適用する前及び後に、予測アクセシビリティにおける変化をコンピュータ計算した。図13は、一実施形態による、600塩基対のプロモーター及び隣接部位における変異が予測アクセシビリティスコアに与える影響を示すボックスプロットの視覚的表示を示す。

図13において、プロット1300は、全サンプルにわたって適用されたSNPのみ1302、INDELのみ1304、及び全変異1306による変化の分布を示す。INDEL変異1304は、それらがアクセシビリティスコアにどのくらい影響を与えたか(INDEL変異は典型的にはより多くの塩基対に影響を与えるため、アクセシビリティスコアに影響を与えることが予想される)において、比較的大きな分散を示した。

図14は、一実施形態による、hg19参照ゲノムを用いた場合と比較してフリップして終了する特定のカテゴリーの変異の範囲内の変異部位の割合のグラフ表示1400を示す。グラフ1400について、80%の適合率閾値を適用して、各タイプの変異がどれだけ頻繁にアクセシビリティ決定の変化を引き起こしたか調査した。分類INS変異及び分類DEL変異において変化をもたらした全ての変異の中でも特に、最も多い決定の理由はフリップであった。特に、INDEL1402により影響を受ける全てのプロモーター及び隣接部位の中で、5.46%が分類転帰の変化をもたらした。

全変異を適用した後、全プロモーター及び隣接部位からの予測をサンプル毎に単一ベクトルにスタックし、6つのTCGAコホート中の全てのサンプルについてアクセシビリティプロファイルを形成した。図15は、一実施形態によるアクセシビリティ特性の視覚的表示1500を示す。図15において、本明細書中に記載されるニューラルネットワークシステムを、TCGA由来の6つのがんコホート：肺腺がん(LUAD)、肺扁平上皮がん(LUSC)、腎臓嫌色素性細胞(KICH)、腎臓明細胞がん(KIRC)、腎臓乳頭細胞がん(KIRP)、及び乳がん(BRCA)に適用した。TCGAサンプルについての予測は、これらの予測についての性能が全テストにわたって高かったため、プロモーター及び隣接のアノテーションと重複する潜在的にアクセス可能な部位のサブセットに限定された。上記に示される分析との整合性のため、全てのTCGA結果は、セット2(ホールドアウトされたバイオタイプ)について訓練された最良のモデルを適用することにより取得した。図15は、6つのTCGAコホートに由来するサンプルにおける80％適合率閾値適用後の、RNA-seqデータ1502、生予測アクセシビリティプロファイル値1502、及び2値化アクセシビリティプロファイルデータ1504に由来する、ライブラリ統合ネットワークベースの細胞シグネチャ(LINCS)L1000遺伝子発現プラットフォーム遺伝子発現レベルベクトルのt分布型確率的近傍埋め込み法(t-Distributed Stochastic Neighbor Embedding)(t-SNE)可視化を示す。RNA-seq空間1506において、基底様乳がんと管腔A/B乳がん及びHER2富化乳がん(BRCA)との間には明確な差異が見られる。予測アクセシビリティ空間(1504及び1506)において、肺がん(LUAD、LUSC)サンプル及び乳がん(BRCA)サンプルは、幾つかの共通のアクセシビリティの特徴を有するように見える。従って、図15におけるt-SNEを用いて可視化されたTCGAアクセシビリティプロファイル間の関係は、がんをDNAアクセシビリティの観点から見ることが、RNA-seqから見る場合とは異なる関係及びサブカテゴリを提供することを示唆している。

従って、DNA配列データをオペレートする予測的ニューラルネットワークシステムは、再訓練することなく新規なサンプルタイプへの適用を可能とするように細胞特異的挙動を取り扱うことを学習することができる。本明細書中の実施形態は、平均受信者動作特性(ROC)曲線下面積(AUC) = 0:910及び平均適合率・再現率(PR) AUC = 0:605を取得し、以前の平均ROC AUC = 0:895及び平均PR AUC = 0:561と比較すると、前の細胞特異的アクセシビリティ予測を改善する。

さらに、本明細書中の実施形態は、再訓練用の細胞型特異的DNase-seqデータを必要とすることなく、RNA-seqデータが利用可能な任意の新規なサンプルについてのアクセシビリティ予測を可能とする。この新たなニューラルネットワークシステムは、バイオタイプが訓練からホールドアウトされた新規なサンプルの全ゲノムにわたり適用された場合には、全PR AUC = 0:621及びROC AUC = 0:897を取得し、バイオタイプが訓練と重複していてもよいランダムにホールドアウトされた新規なサンプルについては、PR AUC = 0:725及びROC AUC = 0:913を取得した。さらに、ゲノムのプロモーター及び隣接領域については、ニューラルネットワークシステムは、アクセシビリティを高信頼度に予測し、ホールドアウトされたバイオタイプにおいてはPR AUC = 0:838、またランダムにホールドアウトされたサンプルにおいてはPR AUC = 0:908を達成する。この性能は、プロモーター及び隣接領域が入力RNA-seq発現ベクトルにおいて用いられた遺伝子の範囲内にあるか否かについて影響を受けない。

従って、RNA-seqからの遺伝子発現を、機械学習が細胞型類似を利用することを可能にするシグネチャ入力として追加することができる。RNA-seqデータを用いてDNAアクセシビリティを予測するためのニューラルネットワークシステムは、ゲノムのプロモーター及び隣接領域における予測について一貫して高い性能を達成することが可能であり、このようにして異なる細胞型及び組織型にわたる腫瘍ゲノムの分析のための新たなツールを利用可能とし、The Cancer Genome Atlas(TCGA)由来の幾つかのコホートにわたるDNAアクセシビリティ(例えば、モーターアクセシビリティパターン)の最初の知見を提供した。

本明細書中に記載されるシステム、装置、及び方法は、デジタル回路を用いて、又は周知のコンピュータプロセッサ、メモリユニット、記憶デバイス、コンピュータソフトウェア、及び他のコンポーネントを使用する1つ以上のコンピュータを用いて実行することができる。典型的には、コンピュータは、命令を実行するためのプロセッサと、命令及びデータを保存するための1つ以上のメモリとを含む。またコンピュータは、1つ以上の大容量記憶デバイス(例えば1つ以上の磁気ディスク、内臓ハードディスク及びリムーバブルディスク、光磁気ディスク、光ディスク等)も含み得るか、又はこれらに連結され得る。

本明細書中に記載されるシステム、装置、及び方法は、クライアント-サーバ関係においてオペレートするコンピュータを用いて実行することができる。典型的には、このようなシステムにおいて、クライアントコンピュータはサーバコンピュータから遠隔に位置し、ネットワークを介して相互作用する。クライアント-サーバ関係は、各クライアントコンピュータコンピュータ及びサーバコンピュータ上で走るコンピュータプログラムにより定義及び制御され得る。

本明細書中に記載されるシステム、装置及び方法を実行するために使用され得る例示的なクライアント-サーバ関係の高次ブロック図は、図16に示される。クライアント-サーバ関係1600は、ネットワーク1630を介してサーバ1620と通信するクライアント1610を含み、クライアント1610とサーバ1620間の、DNAアクセシビリティ予測タスクの1つの可能な分割を示す。例えば、上記の様々な実施形態によれば、クライアント1610は、複数の細胞型のDNase-seqデータファイル及びRNA-seqデータファイルを含むゲノムサンプルデータを取得し、ゲノムサンプルデータをサーバ1620に送ることができる。次に、サーバ1620は、DNAアクセシビリティニューラルネットワークの訓練及び予測のためにゲノムサンプルデータ/ゲノムサンプル入力をクライアントから受け取り、ゲノムサンプルデータから、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより対のデータファイルを作成し、ニューラルネットワークを、複数バッチの対のデータファイルを用いてRNA-seqデータに基づきDNAアクセシビリティを予測するように訓練されるように構成し、複数バッチの対のデータファイルを用いてRNA-seqデータに基づきDNAアクセシビリティを予測するようにニューラルネットワークを訓練することができる。クライアント1610は、上記のゲノムサンプルデータに対して新規な細胞型のRNA-seqデータ及び全ゲノムシークエンシングを含むゲノムサンプル入力をサーバ1620にさらに送ることが可能であり、このサーバ1620は、ゲノムサンプル入力を受け取り、訓練済みニューラルネットワークを用いてゲノムサンプル入力におけるDNAアクセシビリティを予測し、ゲノムサンプル入力についてのDNAアクセシビリティ予測結果をクライアント1610に送ることができる。当業者であれば、図16に示される例示的なクライアント-サーバ関係が、本明細書中に記載されるシステム、装置、及び方法を実行するために可能な多くのクライアント-サーバ関係の1つに過ぎないことを理解するであろう。従って、図16に示されるクライアント-サーバ関係は、決して限定するものと解されるべきではない。クライアントデバイス1610としては、携帯スマートフォン、キオスク端末、携帯データ端末、タブレット、ロボット、乗り物、ウェブカメラ、又は他のタイプのコンピューティングデバイスなどが挙げられる。

本明細書中に記載されるシステム、装置、及び方法は、プログラム可能なプロセッサによる実行のための情報担体中(例えば、非一過性の機械で読み取り可能な記憶デバイス中)に有形に埋め込まれたコンピュータプログラム製品を用いて実行することが可能であり、図3及び図5のステップの1つ以上を含む、本明細書中に記載される方法ステップは、このようなプロセッサにより実行可能な1つ以上のコンピュータプログラムを用いて実行することができる。コンピュータプログラムは、ある特定の活動を実施するか又はある特定の結果をもたらすためのコンピュータ中で直接的に又は間接的に使用し得る一連のコンピュータプログラム命令である。コンピュータプログラムは、例えばコンパイラ型言語又はインタープリタ型言語などの任意の形態のプログラミング言語で書かれていてよく、スタンドアロンプログラムとして、又はモジュール、コンポーネント、サブルーチンとして、あるいはコンピューティング環境における使用に適した他のユニットなどの任意の形態で配置され得る。

本明細書中に記載されるシステム、装置及び方法を実行するために使用し得る例示的装置の高次ブロック図は、図17に示される。装置1700は、持続性記憶デバイス1720及びメインメモリデバイス1730に機能的に連結されたプロセッサ1710を含む。プロセッサ1710は、装置1700の全体的なオペレーションを定義するコンピュータプログラム命令を実行することにより、かかるオペレーションを制御する。コンピュータプログラム命令は、持続性記憶デバイス1720、又は他のコンピュータ可読媒体中に保存され、コンピュータプログラム命令の実行が望ましい場合、メインメモリデバイス1730に搭載され得る。例えば、訓練エンジン210及び予測エンジン220は、コンピュータ1700の1つ以上のコンポーネントを含み得る。従って、図3及び5の方法ステップは、メインメモリデバイス1730及び/又は持続性記憶デバイス1720に保存され、コンピュータプログラム命令を実行するプロセッサ1710により制御されるコンピュータプログラム命令により定義することができる。例えば、コンピュータプログラム命令は、図3及び5の方法ステップにより定義されるアルゴリズムを実施するために当業者によりプログラムされた、コンピュータが実行可能なコードとして実行することができる。従って、コンピュータプログラム命令を実行することにより、プロセッサ1710は、図3及び5の方法ステップにより定義されるアルゴリズムを実行する。装置1700は、ネットワークを介して他のデバイスと通信するための1つ以上のネットワークインターフェース1780も含む。また装置1700は、ユーザーが装置1700(例えば、ディスプレイ、キーボード、マウス、スピーカー、ボタン等)とインタラクトすることを可能とする1つ以上の入力/出力デバイス1790も含む。

プロセッサ1710は、汎用マイクロプロセッサ及び専用マイクロプロセッサの両方を含んでいてよく、装置1700の単独のプロセッサであってもよく、又は装置1700の複数のプロセッサの1つであってもよい。プロセッサ1710は、例えば本明細書中に記載される様々な深層学習及び分析アプリケーションのため、1つ以上の中央処理装置(CPU)、及び例えば1つ以上のCPUとは別に及び/又は1つ以上のCPUとマルチタスクで機能して処理を加速する1つ以上の画像処理装置(GPU)を含み得る。プロセッサ1710、持続性記憶デバイス1720、及び/又はメインメモリデバイス1730は、1つ以上の特定用途向け集積回路(ASIC)及び/又は1つ以上のフィールドプログラマブルゲートアレイ(FPGA)を含み得るか、これらにより補完され得るか、又はこれらに組み込まれ得る。

持続性記憶デバイス1720及びメインメモリデバイス1730はそれぞれ、有形の非一過性のコンピュータ読み取り可能な保存媒体を含む。持続性記憶デバイス1720、及びメインメモリデバイス1730としては、それぞれ、高速ランダムアクセスメモリ、例えばダイナミックランダムアクセスメモリ(DRAM)、静的ランダムアクセスメモリ(SRAM)、ダブルデータレートシンクロナスダイナミックランダムアクセスメモリ(DDR RAM)、又は他のランダムアクセス固体メモリデバイスなどが挙げられ、また不揮発性メモリ、例えば、1つ以上の磁気ディスク記憶デバイス(例えば内臓ハードディスク及びリムーバブルディスク)、光磁気ディスク記憶デバイス、光ディスク記憶デバイス、フラッシュメモリデバイス、半導体メモリデバイス(例えば消去書き込み可能リードオンリーメモリ(EPROM)、電気的消去書き込み可能リードオンリーメモリ(EEPROM)、コンパクトディスクリードオンリーメモリ(CD-ROM)、デジタル多用途ディスクリードオンリーメモリ(DVD-ROM)ディスク))、又は他の不揮発性固体記憶デバイスなども挙げられる。

入力/出力デバイス1790は、例えばプリンター、スキャナー、ディスプレイスクリーン等の周辺機器を含み得る。例えば、入力/出力デバイス1790は、ユーザーに対して情報(例えば、DNAアクセシビリティ予測結果)を表示するための陰極線管(CRT)、プラズマディスプレイ又は液晶ディスプレイ(LCD)モニターなどのディスプレイデバイス、ユーザーが装置1700に対して入力を提供し得るキーボード、及びポインティングデバイス(例えばマウス又はトラックボール)を含み得る。

訓練エンジン210及び予測エンジン220などの、本明細書中で論じられるシステム及び装置のいずれか又は全ては、装置1700などの装置により実施することが可能であり、及び/又はこれらに組み込むことができる。

当業者であれば、実際のコンピュータ又はコンピュータシステムの実行は他の構造を有していてもよく、また他のコンポーネントも含み得ること、及び図17は、例示の目的のための、かかるコンピュータのコンポーネントの一部の高次表現であることを認識するであろう。

前述の明細書は、あらゆる点で説明的且つ例示的に理解されるが限定的には理解されず、本明細書中に開示される発明の範囲は、本明細書からは決定されないが、特許請求の範囲から、特許法により認められる全幅に従って解釈されるとおりに決定される。本明細書中に示され且つ記載される実施形態は、本発明の原理の例示にすぎず、本発明の範囲及び精神から逸脱することなく当業者が様々な改変を行い得ることが理解される。当業者であれば、本発明の範囲及び精神から逸脱することなく様々な他の特徴の組み合わせを実行し得るであろう。

前述の明細書は、あらゆる点で説明的且つ例示的に理解されるが限定的には理解されず、本明細書中に開示される発明の範囲は、本明細書からは決定されないが、特許請求の範囲から、特許法により認められる全幅に従って解釈されるとおりに決定される。本明細書中に示され且つ記載される実施形態は、本発明の原理の例示にすぎず、本発明の範囲及び精神から逸脱することなく当業者が様々な改変を行い得ることが理解される。当業者であれば、本発明の範囲及び精神から逸脱することなく様々な他の特徴の組み合わせを実行し得るであろう。
本発明の様々な実施形態を以下に示す。
１．ゲノムサンプルにおけるDNAアクセシビリティを予測するための方法であって：
訓練エンジンにより、複数の細胞型のDNase-seqデータファイル及びRNA-seqデータファイルを含むゲノムサンプルデータを取得すること；
訓練エンジンにより、前記ゲノムサンプルデータから、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより対のデータファイルを作成すること；
ニューラルネットワークを、複数バッチの前記対のデータファイルを用いてRNA-seqデータに基づきDNAアクセシビリティを予測するように訓練されるように構成することであって、前記ニューラルネットワークを構成することは：
前記ニューラルネットワークの畳み込み層を、前記対のデータファイルの1つに由来するDNA配列データを含む第1入力を処理して畳み込み出力を生成するように構成し、
前記畳み込み層に続くニューラルネットワークの全結合層を、前記畳み込み出力を、前記対のデータファイルの1つに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結し、該連結を処理してDNAアクセシビリティ予測出力を生成するように構成することを含み；
複数バッチの前記対のデータファイルを用いてニューラルネットワークを訓練すること；及び
コンピューティングデバイスを、前記訓練済みニューラルネットワークを用いて、前記ゲノムサンプルデータに対して新規な細胞型のRNA-seqデータ及び全ゲノムシークエンシングを含むゲノムサンプル入力におけるDNAアクセシビリティを予測するように構成すること
を含む、前記方法。
２．ゲノムサンプルデータが、ENCODEプロジェクトデータ及びロードマップエピゲノミクスプロジェクトデータの少なくとも1つから得られる、上記１に記載の方法。
３．RNA-seqデータファイルが、RNA-seq、ポリA mRNA、ポリA枯渇、及び単一細胞ENCODEラベルの1つ以上を有するデータファイルを含む、上記２に記載の方法。
４．ゲノムサンプルデータからエラー監査フラグを含むRNA-seqデータファイルを除去することをさらに含む、上記３に記載の方法。
５．対のデータファイルを作成することが、一致する生体サンプル受入番号に基づきDNase-seqデータファイルをRNA-seqデータファイルに割り当てることを含む、上記１に記載の方法。
６．対のデータファイルを作成することが、同一組織サンプル、同一細胞系、又は同一患者の少なくとも1つに由来することに基づいてDNase-seqデータファイルをRNA-seqデータファイルに割り当てることを含む、上記１に記載の方法。
７．対のデータファイルを作成することが、DNase-seqデータファイルを、同一バイオタイプ内にあると決定された複数のRNA-seqデータファイルの1つにランダムに割り当てることを含む、上記１に記載の方法。
８．ニューラルネットワークが、それぞれ最大プーリング層が続く複数の畳み込み層の階層構造を含む、上記１に記載の方法。
９．階層構造が、少なくとも3つの畳み込み層を含む、上記８に記載の方法。
１０．ニューラルネットワークが、階層構造に続く少なくとも2つの全結合層を含む、上記８に記載の方法。
１１．バッチ正規化のため移動平均が更新される場合、ニューラルネットワークを訓練することが、訓練過程で動的減衰率を増加させることを含む、上記１に記載の方法。
１２．ニューラルネットワークを訓練することが、適応モーメント推定(Adam)最適化アルゴリズムを用いて、ニューラルネットワークの1つ以上のネットワークパラメータを最適化することを含む、上記１に記載の方法。
１３．ニューラルネットワークが、深層畳み込みニューラルネットワークを含む、上記１に記載の方法。
１４．ニューラルネットワークが、密に結合した畳み込みニューラルネットワークを含む、上記１に記載の方法。
１５．第1入力が600塩基対セグメントのDNAを含む、上記１に記載の方法。
１６．遺伝子発現レベルが、選択された遺伝子のサブセットに対応する、上記１に記載の方法。
１７．DNAアクセシビリティ予測出力が単一予測である、上記１に記載の方法。
１８．ゲノムサンプル入力が、The Cancer Genome Atlas(TCGA)由来のがんコホートに関連する、上記１に記載の方法。
１９．ゲノムサンプル入力が腫瘍に関連する、上記１に記載の方法。
２０．ゲノムサンプルにおけるDNAアクセシビリティを予測するためのシステムであって：
プロセッサ；
メインメモリデバイス；
持続性記憶デバイス；
前記メインメモリデバイス及び前記持続性記憶デバイスの1つに保存されるソフトウェア命令によりプロセッサ上で実行可能な訓練エンジンであって：
複数の細胞型のDNase-seqデータファイル及びRNA-seqデータファイルを含むゲノムサンプルデータを取得し；
ゲノムサンプルデータから、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより対のデータファイルを作成し；
ニューラルネットワークを、複数バッチの前記対のデータファイルを用いてRNA-seqデータに基づきDNAアクセシビリティを予測するように訓練されるように構成し、ここで前記ニューラルネットワークを構成することは：
前記ニューラルネットワークの畳み込み層を、前記対のデータファイルの1つに由来するDNA配列データを含む第1入力を処理して畳み込み出力を生成するように構成し、
前記畳み込み層に続くニューラルネットワークの全結合層を、前記畳み込み出力を、前記対のデータファイルの1つに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結し、該連結を処理してDNAアクセシビリティ予測出力を生成するように構成することを含み；
複数バッチの前記対のデータファイルを用いてニューラルネットワークを訓練するように構成される、前記訓練エンジン；及び
前記訓練エンジンと通信する予測エンジンであって：
前記ゲノムサンプルデータに対して新規な細胞型のRNA-seqデータ及び全ゲノムシークエンシングを含むゲノムサンプル入力を取得し；
訓練済みニューラルネットワークを用いてゲノムサンプル入力におけるDNAアクセシビリティを予測するように構成される、前記予測エンジン
を含む、前記システム。
２１．ゲノムサンプルにおけるDNAアクセシビリティを予測するためのコンピュータプロセッサにより実行可能な命令を含む非一過性コンピュータ可読媒体に埋め込まれたコンピュータプログラム製品であって、プロセッサにより実行される場合、該プロセッサに、以下：
複数の細胞型のDNase-seqデータファイル及びRNA-seqデータファイルを含むゲノムサンプルデータを取得すること；
前記ゲノムサンプルデータから、DNase-seqデータファイルと少なくとも同一バイオタイプ内のRNA-seqデータファイルとを関連付けることにより対のデータファイルを作成すること；
ニューラルネットワークを、複数バッチの前記対のデータファイルを用いてRNA-seqデータに基づきDNAアクセシビリティを予測するように訓練されるように構成することであって、前記ニューラルネットワークを構成することは、
前記ニューラルネットワークの畳み込み層を、対のデータファイルの1つに由来するDNA配列データを含む第1入力を処理して畳み込み出力を生成するように構成し、
前記畳み込み層に続くニューラルネットワークの全結合層を、前記畳み込み出力を、前記対のデータファイルの1つに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結し、該連結を処理してDNAアクセシビリティ予測出力を生成するように構成することを含み；
複数バッチの前記対のデータファイルを用いてニューラルネットワークを訓練すること；及び
コンピューティングデバイスを、前記訓練済みニューラルネットワークを用いて、前記ゲノムサンプルデータに対して新規な細胞型のRNA-seqデータ及び全ゲノムシークエンシングを含むゲノムサンプル入力におけるDNAアクセシビリティを予測するように構成すること
を含む1つ以上のステップを実施させる、前記コンピュータプログラム製品。
２２．畳み込みニューラルネットワークシステムであって：
ニューラルネットワーク層のシーケンスを含み、前記ニューラルネットワーク層のシーケンスが：
それぞれ最大プーリング層が続く複数の畳み込み層を含む階層構造であって、前記階層構造が、対のデータファイルに由来するDNA配列データを含む第1入力を受け取り、前記第1入力を処理して畳み込み出力を生成するように構成され、前記対のデータファイルは、複数の細胞型のゲノムサンプルデータから、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより作成される、前記階層構造；及び
前記階層構造に続く少なくとも2つの全結合層であって、前記少なくとも2つの全結合層が、前記畳み込み出力を、前記対のデータファイルに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結し、該連結を処理してDNAアクセシビリティ予測出力を生成するように構成される、前記少なくとも2つの全結合層
を含む、前記畳み込みニューラルネットワークシステム。
２３．階層構造が、少なくとも3つの畳み込み層を含む、上記２２に記載のシステム。
２４．DNAアクセシビリティ予測出力が単一予測である、上記２２に記載のシステム。
２５．ニューラルネットワーク層のシーケンスが、複数バッチの対のデータファイルを用いてRNA-seqデータに基づきDNAアクセシビリティを予測するように訓練される、上記２２に記載のシステム。
２６．バッチ正規化のため移動平均が更新される場合、ニューラルネットワーク層のシーケンスの動的減衰率が訓練過程で増加するように構成される、上記２２に記載のシステム。
２７．ニューラルネットワーク層のシーケンスの1つ以上のネットワークパラメータが、適応モーメント推定(Adam)最適化アルゴリズムに基づき最適化されるように構成される、上記２２に記載のシステム。
２８．ニューラルネットワーク層のシーケンスが、深層畳み込みニューラルネットワークを含む、上記２２に記載のシステム。
２９．ニューラルネットワーク層のシーケンスが、密に結合した畳み込みニューラルネットワークを含む、上記２２に記載のシステム。
３０．ニューラルネットワーク層のシーケンスを含む畳み込みニューラルネットワークシステムを用いて複数の細胞型のゲノムサンプルデータを処理する方法であって、該方法が：
それぞれ最大プーリング層が続く複数の畳み込み層を含む階層構造を用いて対のデータファイルに由来するDNA配列データを含む第1入力を処理すること、ここで前記階層構造は、第1入力を受け取り、前記第1入力を処理して畳み込み出力を生成するように構成され、前記対のデータファイルは、複数の細胞型のゲノムサンプルデータから、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより作成される；及び
前記階層構造に続く少なくとも2つの全結合層を処理すること、ここで前記少なくとも2つの全結合層は、前記畳み込み出力を、前記対のデータファイルに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結し、該連結を処理してDNAアクセシビリティ予測出力を生成するように構成される、
を含む、前記方法。
３１．畳み込みニューラルネットワークシステムを用いて複数の細胞型のゲノムサンプルデータを処理するためのコンピュータプロセッサにより実行可能な命令を含む非一過性コンピュータ可読媒体に埋め込まれたコンピュータプログラム製品であって、プロセッサにより実行される場合、該プロセッサに、以下：
それぞれ最大プーリング層が続く複数の畳み込み層を含む階層構造を用いて対のデータファイルに由来するDNA配列データを含む第1入力を処理すること、ここで前記階層構造は、第1入力を受け取り、該第1入力を処理して畳み込み出力を生成するように構成され、前記対のデータファイルは、複数の細胞型のゲノムサンプルデータから、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより作成される；及び
前記階層構造に続く少なくとも2つの全結合層を処理すること、ここで前記少なくとも2つの全結合層は、前記畳み込み出力を、前記対のデータファイルに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結し、該連結を処理してDNAアクセシビリティ予測出力を生成するように構成される、
を含む1つ以上のステップを実施させる、前記コンピュータプログラム製品。

Claims

ゲノムサンプルにおけるDNAアクセシビリティを予測するための方法であって：
訓練エンジンにより、複数の細胞型のDNase-seqデータファイル及びRNA-seqデータファイルを含むゲノムサンプルデータを取得すること；
訓練エンジンにより、前記ゲノムサンプルデータから、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより対のデータファイルを作成すること；
ニューラルネットワークを、複数バッチの前記対のデータファイルを用いてRNA-seqデータに基づきDNAアクセシビリティを予測するように訓練されるように構成することであって、前記ニューラルネットワークを構成することは：
前記ニューラルネットワークの畳み込み層を、前記対のデータファイルの1つに由来するDNA配列データを含む第1入力を処理して畳み込み出力を生成するように構成し、
前記畳み込み層に続くニューラルネットワークの全結合層を、前記畳み込み出力を、前記対のデータファイルの1つに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結し、該連結を処理してDNAアクセシビリティ予測出力を生成するように構成することを含み；
複数バッチの前記対のデータファイルを用いてニューラルネットワークを訓練すること；及び
コンピューティングデバイスを、前記訓練済みニューラルネットワークを用いて、前記ゲノムサンプルデータに対して新規な細胞型のRNA-seqデータ及び全ゲノムシークエンシングを含むゲノムサンプル入力におけるDNAアクセシビリティを予測するように構成すること
を含む、前記方法。
ゲノムサンプルデータが、ENCODEプロジェクトデータ及びロードマップエピゲノミクスプロジェクトデータの少なくとも1つから得られる、請求項１に記載の方法。
RNA-seqデータファイルが、RNA-seq、ポリA mRNA、ポリA枯渇、及び単一細胞ENCODEラベルの1つ以上を有するデータファイルを含む、請求項２に記載の方法。
ゲノムサンプルデータからエラー監査フラグを含むRNA-seqデータファイルを除去することをさらに含む、請求項３に記載の方法。
対のデータファイルを作成することが、一致する生体サンプル受入番号に基づきDNase-seqデータファイルをRNA-seqデータファイルに割り当てることを含む、請求項１に記載の方法。
対のデータファイルを作成することが、同一組織サンプル、同一細胞系、又は同一患者の少なくとも1つに由来することに基づいてDNase-seqデータファイルをRNA-seqデータファイルに割り当てることを含む、請求項１に記載の方法。
対のデータファイルを作成することが、DNase-seqデータファイルを、同一バイオタイプ内にあると決定された複数のRNA-seqデータファイルの1つにランダムに割り当てることを含む、請求項１に記載の方法。
ニューラルネットワークが、それぞれ最大プーリング層が続く複数の畳み込み層の階層構造を含む、請求項１に記載の方法。
階層構造が、少なくとも3つの畳み込み層を含む、請求項８に記載の方法。
ニューラルネットワークが、階層構造に続く少なくとも2つの全結合層を含む、請求項８に記載の方法。
バッチ正規化のため移動平均が更新される場合、ニューラルネットワークを訓練することが、訓練過程で動的減衰率を増加させることを含む、請求項１に記載の方法。
ニューラルネットワークを訓練することが、適応モーメント推定(Adam)最適化アルゴリズムを用いて、ニューラルネットワークの1つ以上のネットワークパラメータを最適化することを含む、請求項１に記載の方法。
ニューラルネットワークが、深層畳み込みニューラルネットワークを含む、請求項１に記載の方法。
ニューラルネットワークが、密に結合した畳み込みニューラルネットワークを含む、請求項１に記載の方法。
第1入力が600塩基対セグメントのDNAを含む、請求項１に記載の方法。
遺伝子発現レベルが、選択された遺伝子のサブセットに対応する、請求項１に記載の方法。
DNAアクセシビリティ予測出力が単一予測である、請求項１に記載の方法。
ゲノムサンプル入力が、The Cancer Genome Atlas(TCGA)由来のがんコホートに関連する、請求項１に記載の方法。
ゲノムサンプル入力が腫瘍に関連する、請求項１に記載の方法。
ゲノムサンプルにおけるDNAアクセシビリティを予測するためのシステムであって：
プロセッサ；
メインメモリデバイス；
持続性記憶デバイス；
前記メインメモリデバイス及び前記持続性記憶デバイスの1つに保存されるソフトウェア命令によりプロセッサ上で実行可能な訓練エンジンであって：
複数の細胞型のDNase-seqデータファイル及びRNA-seqデータファイルを含むゲノムサンプルデータを取得し；
ゲノムサンプルデータから、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより対のデータファイルを作成し；
ニューラルネットワークを、複数バッチの前記対のデータファイルを用いてRNA-seqデータに基づきDNAアクセシビリティを予測するように訓練されるように構成し、ここで前記ニューラルネットワークを構成することは：
前記ニューラルネットワークの畳み込み層を、前記対のデータファイルの1つに由来するDNA配列データを含む第1入力を処理して畳み込み出力を生成するように構成し、
前記畳み込み層に続くニューラルネットワークの全結合層を、前記畳み込み出力を、前記対のデータファイルの1つに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結し、該連結を処理してDNAアクセシビリティ予測出力を生成するように構成することを含み；
複数バッチの前記対のデータファイルを用いてニューラルネットワークを訓練するように構成される、前記訓練エンジン；及び
前記訓練エンジンと通信する予測エンジンであって：
前記ゲノムサンプルデータに対して新規な細胞型のRNA-seqデータ及び全ゲノムシークエンシングを含むゲノムサンプル入力を取得し；
訓練済みニューラルネットワークを用いてゲノムサンプル入力におけるDNAアクセシビリティを予測するように構成される、前記予測エンジン
を含む、前記システム。
ゲノムサンプルにおけるDNAアクセシビリティを予測するためのコンピュータプロセッサにより実行可能な命令を含む非一過性コンピュータ可読媒体に埋め込まれたコンピュータプログラム製品であって、プロセッサにより実行される場合、該プロセッサに、以下：
複数の細胞型のDNase-seqデータファイル及びRNA-seqデータファイルを含むゲノムサンプルデータを取得すること；
前記ゲノムサンプルデータから、DNase-seqデータファイルと少なくとも同一バイオタイプ内のRNA-seqデータファイルとを関連付けることにより対のデータファイルを作成すること；
ニューラルネットワークを、複数バッチの前記対のデータファイルを用いてRNA-seqデータに基づきDNAアクセシビリティを予測するように訓練されるように構成することであって、前記ニューラルネットワークを構成することは、
前記ニューラルネットワークの畳み込み層を、対のデータファイルの1つに由来するDNA配列データを含む第1入力を処理して畳み込み出力を生成するように構成し、
前記畳み込み層に続くニューラルネットワークの全結合層を、前記畳み込み出力を、前記対のデータファイルの1つに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結し、該連結を処理してDNAアクセシビリティ予測出力を生成するように構成することを含み；
複数バッチの前記対のデータファイルを用いてニューラルネットワークを訓練すること；及び
コンピューティングデバイスを、前記訓練済みニューラルネットワークを用いて、前記ゲノムサンプルデータに対して新規な細胞型のRNA-seqデータ及び全ゲノムシークエンシングを含むゲノムサンプル入力におけるDNAアクセシビリティを予測するように構成すること
を含む1つ以上のステップを実施させる、前記コンピュータプログラム製品。
畳み込みニューラルネットワークシステムであって：
ニューラルネットワーク層のシーケンスを含み、前記ニューラルネットワーク層のシーケンスが：
それぞれ最大プーリング層が続く複数の畳み込み層を含む階層構造であって、前記階層構造が、対のデータファイルに由来するDNA配列データを含む第1入力を受け取り、前記第1入力を処理して畳み込み出力を生成するように構成され、前記対のデータファイルは、複数の細胞型のゲノムサンプルデータから、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより作成される、前記階層構造；及び
前記階層構造に続く少なくとも2つの全結合層であって、前記少なくとも2つの全結合層が、前記畳み込み出力を、前記対のデータファイルに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結し、該連結を処理してDNAアクセシビリティ予測出力を生成するように構成される、前記少なくとも2つの全結合層
を含む、前記畳み込みニューラルネットワークシステム。
階層構造が、少なくとも3つの畳み込み層を含む、請求項２２に記載のシステム。
DNAアクセシビリティ予測出力が単一予測である、請求項２２に記載のシステム。
ニューラルネットワーク層のシーケンスが、複数バッチの対のデータファイルを用いてRNA-seqデータに基づきDNAアクセシビリティを予測するように訓練される、請求項２２に記載のシステム。
バッチ正規化のため移動平均が更新される場合、ニューラルネットワーク層のシーケンスの動的減衰率が訓練過程で増加するように構成される、請求項２２に記載のシステム。
ニューラルネットワーク層のシーケンスの1つ以上のネットワークパラメータが、適応モーメント推定(Adam)最適化アルゴリズムに基づき最適化されるように構成される、請求項２２に記載のシステム。
ニューラルネットワーク層のシーケンスが、深層畳み込みニューラルネットワークを含む、請求項２２に記載のシステム。
ニューラルネットワーク層のシーケンスが、密に結合した畳み込みニューラルネットワークを含む、請求項２２に記載のシステム。
ニューラルネットワーク層のシーケンスを含む畳み込みニューラルネットワークシステムを用いて複数の細胞型のゲノムサンプルデータを処理する方法であって、該方法が：
それぞれ最大プーリング層が続く複数の畳み込み層を含む階層構造を用いて対のデータファイルに由来するDNA配列データを含む第1入力を処理すること、ここで前記階層構造は、第1入力を受け取り、前記第1入力を処理して畳み込み出力を生成するように構成され、前記対のデータファイルは、複数の細胞型のゲノムサンプルデータから、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより作成される；及び
前記階層構造に続く少なくとも2つの全結合層を処理すること、ここで前記少なくとも2つの全結合層は、前記畳み込み出力を、前記対のデータファイルに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結し、該連結を処理してDNAアクセシビリティ予測出力を生成するように構成される、
を含む、前記方法。
畳み込みニューラルネットワークシステムを用いて複数の細胞型のゲノムサンプルデータを処理するためのコンピュータプロセッサにより実行可能な命令を含む非一過性コンピュータ可読媒体に埋め込まれたコンピュータプログラム製品であって、プロセッサにより実行される場合、該プロセッサに、以下：
それぞれ最大プーリング層が続く複数の畳み込み層を含む階層構造を用いて対のデータファイルに由来するDNA配列データを含む第1入力を処理すること、ここで前記階層構造は、第1入力を受け取り、該第1入力を処理して畳み込み出力を生成するように構成され、前記対のデータファイルは、複数の細胞型のゲノムサンプルデータから、DNase-seqデータファイルを少なくとも同一バイオタイプ内のRNA-seqデータファイルに割り当てることにより作成される；及び
前記階層構造に続く少なくとも2つの全結合層を処理すること、ここで前記少なくとも2つの全結合層は、前記畳み込み出力を、前記対のデータファイルに由来するRNA-seqデータから導出される遺伝子発現レベルを含む第2入力と連結し、該連結を処理してDNAアクセシビリティ予測出力を生成するように構成される、
を含む1つ以上のステップを実施させる、前記コンピュータプログラム製品。