個人の生物学的ステータスを予測するために使用し得る、ロバストな遺伝子シグネチャを特定するための、演算システムおよび方法を本明細書に記載する。特に、生物学的ステータスは、個人の喫煙曝露反応ステータスに対応してもよい。本明細書に記載する遺伝子シグネチャは、現在喫煙している対象を、喫煙したことがない対象、または喫煙をやめた対象と区別することができる。本明細書に記載する実施例は、主に喫煙者ステータスまたは喫煙曝露反応ステータスに関係する一方、当業者は、本開示のシステムおよび方法は、個人の生物学的ステータスを予測するため遺伝子シグネチャを特定するように、クラウドソーシング手法の使用に適用できることを理解するであろうし、生物学的ステータスは、喫煙曝露反応ステータス、喫煙者ステータス、疾患ステータス、生理学的状態、化学物質への曝露状態、または個人の生物学的データと関連付けられる、個人のいかなる他の好適なステータスもしくは状態を指してもよい。
本明細書で使用する通り、個人の生物学的ステータスは、疾病で、または一つ以上の毒物、薬物、環境変化(例えば、温度、微小重力、圧力および放射など)、もしくはそれらのいかなる好適な組み合わせへの曝露に応じて生成されてもよい、様々な分子変化を表してもよい。基準は、予測分類モデルに対して定義され、予測分類モデルの開発および訓練のために、コンピュータ分析で使用される。クラスを識別する特徴が抽出され、クラス予測用の分類モデルに埋め込まれる。本明細書に使用される通り、分類子は、クラス予測に使用される、判別特徴および規則を含む。
本明細書に記載するクラウドソーシング手法は、個人の一つ以上の化学物質への曝露ステータスを予測するよう、ロバストな遺伝子シグネチャを特定するのに使用されてもよい。下の実施例1に関して記載する研究は、個人の煙への曝露を予測するために、遺伝子シグネチャを特定する一つのそのようなクラウドソーシング手法の例示的図解を伴う。下に記載する実施例1の研究では、集団(例えば、複数のチャレンジ参加者)から取得される、ヒトの血液を基とする喫煙曝露反応遺伝子シグネチャの遺伝子リスト、および集団から取得される、種に依存しない血液を基とする喫煙曝露反応遺伝子シグネチャの遺伝子リストの両方を特定する。本明細書に記載する遺伝子シグネチャは、個人が煙に曝露されていたか否かを予測するように、新規の人(ヒトシグネチャ)またはヒトおよび齧歯類(種に依存しないシグネチャ)の血液遺伝子発現サンプルデータに適用されてもよい、一つ以上の分類モデルに適用されてもよい。本明細書に記載するシステムおよび方法は、個人が一つ以上の化学物質に曝露されてきたか否かを予測するために、遺伝子シグネチャおよび一つ以上の分類モデルを特定するよう拡張されてもよい。下の実施例1に関して記載する研究は、血液を基とする遺伝子シグネチャの特定に関係する一方、当業者は、本開示のシステムおよび方法が、血液のみに基づかない遺伝子シグネチャを特定するように、クラウドソーシング手法の使用に適用可能であることを理解するであろう。代わりに、本開示は、例えば、タンパク質およびメチル化変化など、組織および他の特徴に基づく、遺伝子シグネチャの特定に適用可能である。
本開示のシステムおよび方法は、毒物への曝露を予測できるマーカーを特定するように使用されてもよい。実際に、新規サンプルに適用される、ロバストなマーカーに基づく分類モデルによって、(i)対象が化学物質に曝露していたか、またはしていなかったかの予測が可能になり、(ii)製品の試験または離脱中に、曝露反応の大きさを経過観察することが可能になってもよい。
本明細書で使用する通り、「ロバスト」な遺伝子シグネチャは、研究、臨床検査、サンプル源および他の人口統計学的因子にわたって、強い性能を維持するものである。ロバストなシグネチャは、大きな個人差を含む母集団データの1セットであってさえも検出可能であるべきことが重要である。データセットにわたるロバスト性は、シグネチャの性能についての過度の楽観的な報告を避けるためにも、適切に検査されるべきである。
システム生物学は、生物システムが、外部刺激(例えば、薬物、栄養および温度)および遺伝子改変(例えば、変異、エピジェネティック修飾)に反応または適応する、メカニズムの詳細な理解を生み出すことを目的とする。新しいメカニズムに関する洞察は、オミクスまたはハイコンテントスクリーニングなど、先進技術を使用して生成する、大量の分子および機能データの分析および統合を通じて獲得される。毒性学の分野に適用される場合、システム毒性学と呼ばれる全体手法によって、生体異物(例えば、農薬、化学物質)によりトリガーされる生物システムの動揺を定量化し、毒性作用様式を解明し、関連するリスクを検討することが可能になる。システム毒性学は、短期的な知見から長期的な成果を推定し、実験系より特定される潜在的リスクをヒトへ翻訳する将来性を有し、それを応用することがリスク評価および意思決定の新しい標準になり得ると示唆する。予測される毒物学的成果およびリスク見積に対する推定および翻訳だけでなく、システム毒性学データの分析も、先進的な演算方法論の開発に必要とされる。新規演算手法の性能および信頼性の向上を実証するために、研究者は、それらの技法を最先端の方法に対して評価するが、偏った検討をもたらす、いわゆる「自己評価の罠」に陥る場合がしばしばある。さらに、システム生物学/毒性学で生成し分析するデータの氾濫が、公表される結果および結論の審査を、査読者にとって退屈なものにする。再評価者は、原則として公共のリポジトリに記憶されている未加工データにアクセスし得るものの、自身で全体の分析を再現するのはしばしば困難である。そのため、外部の第三者が関与する、方法およびデータの独立した客観的検討または検証の必要性が明確に存在する。本開示のシステムおよび方法は、この必要性に対処し、研究者からの提出を受け取り、優良技法を特定し、生物学的ステータスを予測するため、ロバストな遺伝子シグネチャを作り出すように、それらの成果を集約するクラウドソーシング手法を提供する。
図1は、本明細書に開示するシステムおよび方法を実装するために使用される場合がある、コンピュータネットワークおよびデータベース構造の例を描写する。図1は、図解の実装に従い、クラウドソーシングを使用して、遺伝子シグネチャの特定を遂行するための、コンピュータ化したシステム100のブロック図である。システム100は、サーバ104と、コンピュータネットワーク102上でサーバ104に接続される二つのユーザー装置108aおよび108b(概して、ユーザー装置108)とを含む。サーバ104はプロセッサ105を含み、各ユーザー装置108は、プロセッサ110aまたは110bおよびユーザーインターフェース112aまたは112bを含む。本明細書で使用する通り、「プロセッサ」または「コンピューティング装置」という用語は、本明細書に記載するコンピュータ化された技法のうちの一つ以上を実施するために、ハードウェア、ファームウェアおよびソフトウェアで構成される、一つ以上のコンピュータ、マイクロプロセッサ、論理装置、サーバまたは他の装置を指す。プロセッサおよび処理装置はまた、入力、出力および現在処理しているデータを記憶するための一つ以上のメモリ装置を含んでもよい。本明細書に記載するプロセッサおよびサーバのうちのいずれかを実装するように使用されてもよい、図解のコンピューティング装置200について、図2を参照して下に詳細に記載する。本明細書で使用する通り、「ユーザーインターフェース」は、一つ以上の入力装置(例えば、キーパッド、タッチスクリーン、トラックボール、音声認識システムなど)および/または一つ以上の出力装置(例えば、視覚表示、スピーカ、触覚ディスプレイ、印刷装置など)のいかなる好適な組み合わせを含むが、これらに限定されない。本明細書で使用する通り、「ユーザー装置」は、本明細書に記載する、一つ以上のコンピュータ化された作用または技法を実施するためのハードウェア、ファームウェアおよびソフトウェアで構成される、一つ以上の装置のいかなる好適な組み合わせを含むが、これらに限定されない。ユーザー装置の例としては、パーソナルコンピュータ、ノートパソコンおよびモバイルデバイス(例えば、スマートフォン、タブレットコンピュータなど)を含むが、これらに限定されない。図面を複雑にするのを避けるために、一つのサーバ、一つのデータベースおよび二つのユーザー装置のみを図1に示すが、当業者は、システム100が複数のサーバ、および任意の数のデータベースまたはユーザー装置をサポートする場合があることを理解するであろう。
コンピュータ化したシステム100は、個人の生物学的ステータスを予測するために遺伝子シグネチャを特定するとき、クラウドの英知を活用するように使用されてもよい。上に記載した通り、システム生物学を研究する科学者は、偏った検討をもたらす自己評価の罠にしばしば陥る。本明細書に記載するクラウドソーシング手法は、チャレンジを設計し、科学界へ公開し(例えば、遺伝子発現に関するデータ、および既知の生物学的ステータスデータベース106を、ユーザー装置108で利用可能にすることによって)、独立した科学者またはグループから提出を受け取り(例えば、ユーザー装置108aおよび108bから)、優良な結果または予測を集約することによって、これらのバイアスを避けるのに役立つ。幅広い参加を保証するために、チャレンジは、個人の生物学的ステータスまたは喫煙者ステータスを予測するために、血液を基とする遺伝子シグネチャを特定するなど、共通の関心である科学的諸問題に関係する論題に対処することを目的とする。
チャレンジによって、個体群から取得された血液サンプルデータと関連付けられるあるデータが、科学界で利用可能になる。特に、遺伝子発現および既知の生物学的ステータスデータベース106(概して、データベース106)は、個人のセットの既知の生物学的ステータスを表すデータ、および遺伝子発現データ(患者のセットからの血液サンプルから取得される)を含む、データベースである。個人(その血液サンプルデータがデータベース106に記憶されている)のセットの中の各個人は、無作為に訓練サンプルまたは試験サンプルとして割り当てられてもよい。一部の実装では、個人の訓練または試験サンプルとしての割り当ては、完全には無作為でなくてもよい。この場合、異なる生物学的ステータスを持つ、類似の数の個人が、訓練および試験データセットの各々の中にあることを保証するなど、一つ以上の基準が、割り当て中に使用されてもよい。概して、いかなる好適な方法が、個人を訓練または試験サンプルとして割り当てるように使用されてもよく、一方で、生物学的ステータスの分布が、訓練データセットおよび試験データセットにおいて少々類似していることを保証する。
各訓練サンプルおよび試験サンプルは、既知である個人の生物学的ステータス(例えば、既知である個人の喫煙者ステータス)だけでなく、個人の血液サンプルから測定される遺伝子発現レベルも含む。訓練サンプルは訓練データセットを構成し、試験サンプルは試験データセットを構成する。全体の訓練データセットが、データベース106からユーザー装置108へ提供され、一方試験データセットの一部分のみがユーザー装置108へ提供される。特に、試験サンプルから測定される遺伝子発現レベルは、ユーザー装置108へ提供されるが、試験サンプルに対応する既知の生物学的ステータスは、ユーザー装置108から隠されたままである。
ユーザー装置108にいる科学者は、測定される遺伝子発現レベルと、訓練データセットの中の個人の生物学的ステータスとの間のいかなる依存性、関連または相関を特定するよう試みるように、訓練サンプルを分析してもよい。特定される相関は、候補遺伝子シグネチャおよび分類子の形態を有してもよい。候補遺伝子シグネチャは、異なる生物学的ステータス(例えば、現喫煙者対現非喫煙者)と関連付けられるサンプルに対して、異なった形で発現される遺伝子のリストを含む。科学者は、フィルター、ラッパーおよび埋め込み法など、いかなる特徴選択技法を使用して候補遺伝子シグネチャを特定するように、いかなる好適な演算技法を使用してもよい。抽出される特徴は、判別分析、サポートベクターマシン、線形回帰、ロジスティック回帰、決定木、ナイーブベイズ、k最近傍、K平均、ランダムフォレストまたはいかなる他の好適な技法など、機械学習の手法を使用して訓練される分類モデルに組み合わされる。分類子は、サンプルをクラスに割り当てるように、候補遺伝子シグネチャの中の遺伝子の発現レベルを使用する、決定規則またはマッピングを含み、個人の予測される生物学的ステータスを指してもよい。このように、各ユーザー装置108にいる各科学者は、訓練データセットに基づいて、候補遺伝子シグネチャおよび分類子を特定する。
ユーザー装置108にいる科学者は、それらの候補遺伝子シグネチャおよび分類子を使用して、試験データセットの中の試験サンプルの生物学的ステータスを予測する。各試験サンプルに対して取得される結果だけでなく候補遺伝子シグネチャも、ユーザー装置108からネットワーク102を介してサーバ104へ提供される。科学者からの提出は匿名であってもよい。一例では、各試験サンプルの結果は、対応する試験サンプルが、予測される生物学的ステータスの資格があるという、尤度または確率に対応する信頼水準を含む。信頼水準については、図3の工程308に関係して詳細に記載する。別の例では、結果は、信頼水準ではなくむしろ、各試験サンプルに対して予測される生物学的ステータスのみを含む。
サーバ104はその後、各試験サンプルに対して取得された結果と、各試験サンプルの既知の生物学的ステータスとを比較することによって、最良の候補遺伝子シグネチャを特定してもよい。概して、優良候補遺伝子シグネチャは、既知の生物学的ステータスにぴったり合致する結果を有する。サーバ104はその後、個人の生物学的ステータスを予測するのに使用されてもよい、ロバストな遺伝子シグネチャを取得するように、優良候補遺伝子シグネチャを集約する。このプロセスについては、図3の工程314、316および318に関係してより詳細に記載する。
図1のシステム100の構成要素は、いくつものやり方のうちのいずれかで配設され、分散され、組み合わされてもよい。例えば、ネットワーク102を介して接続される複数の処理装置および記憶装置に渡って、システム100の構成要素を分散するコンピュータ化したシステムが使用されてもよい。そのような実装が、共通のネットワークリソースへのアクセスを共有する、無線および有線通信システムを含む複数の通信システ渡る、分散コンピューティングに適切である場合がある。一部の実装では、システム100は、構成要素のうちの一つ以上が、インターネットまたは他の通信システムを介して接続される、異なる処理および記憶サービスによって提供される、クラウドコンピューティング環境に実装される。サーバ104は、例えば、クラウドコンピューティング環境でインスタンス化された、一つ以上の仮想サーバであってもよい。一部の実装では、サーバ104は、データベース106と組み合わされて、一つの構成要素となる。
図3は、個人の生物学的ステータスを予測するため、遺伝子シグネチャを特定するように、クラウドソーシングを使用する方法300のフローチャートである。方法300は、サーバ104によって実行されてもよく、遺伝子発現データおよび既知の生物学的ステータスを含む訓練データセットを、ユーザー装置のセットへ提供し(工程302)、遺伝子発現データを含む試験データセットを、ユーザー装置のセットへ提供し(工程304)、訓練データセットの中の異なる生物学的ステータスを判別するように決定される、遺伝子のセットを含む候補遺伝子シグネチャを受け取り(工程306)、各候補遺伝子シグネチャに対して、試験データセットの中の各サンプルに対する信頼水準を受け取る(工程308)工程を含む。方法300は更に、信頼水準と試験データセットの中の既知の生物学的ステータスとの比較に基づいて、第一性能測定基準に従い補遺伝子シグネチャをランク付けること(工程310)と、各候補遺伝子シグネチャに対して、試験データセットの中の各サンプルを、予測される生物学的ステータスに割り当てるように、信頼水準を使用すること(工程312)と、予測される生物学的ステータスが、試験データセットの中の既知の生物学的ステータスに合致するかに基づいて、第二性能測定基準に従い候補遺伝子シグネチャをランク付けること(工程314)と、工程310および314で割り当てられたランクに基づいて、第三性能測定基準に従い候補遺伝子シグネチャをランク付けること(工程316)と、最上位にランク付けられた候補遺伝子シグネチャにおける、少なくとも閾値数の候補遺伝子シグネチャに含まれる遺伝子を特定すること(工程318)とを含む。
工程302で、遺伝子発現データを含む訓練データセット、および訓練サンプルのセットに対する既知の生物学的ステータスが、ユーザー装置108のセットへ提供される。図1に関係して記載するように、工程302で提供される訓練データセットは、個人の既知の生物学的ステータスだけでなく、個人の血液サンプルから測定される遺伝子発現レベルを含む、訓練サンプルを含む。ユーザー装置108にいる科学者が、訓練データセットを受け取り、測定された遺伝子発現レベルと、既知の生物学的ステータスとの間にマッピングを提供する分類子を訓練するように、訓練データセットを使用する。工程304で、遺伝子発現データを含む試験データセットが、ユーザー装置108のセットへ提供される。図1に関係して記載するように、工程304で提供される試験データセットは、個人の血液サンプルから測定される遺伝子発現レベルを含むのみの試験サンプルを含むが、個人の既知の生物学的ステータスは含まない。換言すれば、試験サンプルの既知の生物学的ステータスは、ユーザー装置108にいる科学者には隠されたままである。
工程306で、訓練データセットの中の異なる生物学的ステータスを判別するように決定される、遺伝子のセットを含む候補遺伝子シグネチャを受け取る。ユーザー装置108にいる各科学者または科学者の各チームは、候補遺伝子シグネチャをサーバ104へ提供してもよく、科学者は、候補遺伝子シグネチャの中の遺伝子発現レベルの組み合わせが、一つ以上の基準(訓練データセットの中の生物学的ステータス、またはサンプルの曝露反応ステータスなど)の判別点であると決定してきた。訓練データセットを提供するユーザー装置は、科学者が候補遺伝子シグネチャを提供するユーザー装置と同じであってもよく、または異なってもよい。
工程308で、各候補遺伝子シグネチャに対して、試験データセットの中の各試験サンプルに対する信頼水準を受け取る。信頼水準は、0と1との間の値であってもよく、対応する試験サンプルがある特定の生物学的ステータスに属する尤度を表す。一例では、二つの生物学的ステータス(例えば、第一生物学的ステータスおよび第二生物学的ステータス)が存在するとき、信頼水準は、ある特定の試験サンプルが第一生物学的ステータスに属するという尤度を指す、値pに対応してもよい。この場合、値1-pは、ある特定の試験サンプルが第二生物学的ステータスに属するという尤度を指してもよい。概して、二つより多い生物学的ステータスが存在するとき、複数の信頼水準が、各試験サンプルおよび各候補遺伝子シグネチャに提供されてもよい。
工程310で、サーバ104は、信頼水準(工程308で受信した)と試験データセットの中の既知の生物学的ステータスとの比較に基づく第一性能測定基準に従い、候補遺伝子シグネチャ(工程306で受信した)をランク付ける。工程310で遂行したランク付けで、各候補遺伝子シグネチャを一位の値に割り当てさせる。
候補遺伝子シグネチャの性能を検討する一手段は、行に予測される生物学的ステータス、および列に実際の生物学的ステータスを含む表に、予測結果を表示することである。下に示す表1は、予測結果を表示するための一手段の例である。表の第一行は、第一生物学的ステータスを実際に有する個人(例えば、真の現喫煙者)の数、およびサンプルが第一生物学的ステータス(例えば、予測される現喫煙者)と関連付けられると予測された、第二生物学的ステータスを実際に有する個人(例えば、現非喫煙者)の数を示す。表の第二行は、第一生物学的ステータスを実際に有する個人(例えば、真の現喫煙者)の数、およびサンプルが第二生物学的ステータス(例えば、予測される非喫煙者)と関連付けられると予測された、第二生物学的ステータスを実際に有する個人(例えば、現非喫煙者)の数を示す。
表1
完璧な予測子は、第一生物学的ステータスを実際に有する個人のすべてを、第一生物学的ステータス(真陽性が100%で、偽陰性が0%であろう)を有すると正確に予測するであろうし、第二生物学的ステータスを実際に有するすべての個人が、第二生物学的ステータス(真陰性が100%で、偽陽性が0%であろう)を有すると正確に予測されるであろう。本明細書に記載する通り、個人は、喫煙ステータス(例えば、現喫煙者、現非喫煙者、喫煙経験者、喫煙未経験者など)など、複数の生物学的ステータスに分類されてもよいが、概して、当業者は、本明細書に記載するシステムおよび方法が、いかなる分類スキームにも適用可能であることを理解するであろう。
予測子(例えば、分類子および候補遺伝子シグネチャ)の強さを検討するために、予測結果表の中の値に基づく様々な測定基準が使用されてもよい。第一例では、一つの測定基準は、「感度」または「再現率」と本明細書で称され、第一生物学的ステータスを実際に有する個人のセットのうち、第一生物学的ステータス(例えば、現喫煙者)と正確に分類された個人の割合である。換言すれば、感度(または再現率)測定基準は、真陽性の数を真陽性と偽陰性との合計で割り算したもの、すなわち、TP/(TP+FN)に等しい。1という感度値は、第一生物学的ステータスに実際に属する全サンプルが、第一生物学的ステータスに属すると正しく予測されたことを示すが、他のサンプルが何個、第一生物学的ステータスに属すると誤って予測されたか(FP)に関する情報は提供しない。
第二例では、一つの測定基準は、「特異性」と本明細書で称され、第二生物学的ステータスを実際に有する個人のセットのうち、第二生物学的ステータス(例えば、現非喫煙者)と正確に分類された個人の割合である。換言すれば、特異性測定基準は、真陰性の数を真陰性と偽陽性との合計で割り算したもの、すなわち、TN/(TN+FP)に等しい。1という特異性値は、第二生物学的ステータスに実際に属する全サンプルが、第二生物学的ステータスに属すると正しく予測されたことを示すが、第二生物学的ステータスを有すると誤って予測された、第一生物学的ステータスを有するサンプルの数(FN)に関する情報は提供しない。
第三例では、一つの測定基準は、「適合率」と本明細書で称され、第一生物学的ステータスを有すると予測された個人のセットのうち、第一生物学的ステータス(例えば、現喫煙者)と正確に分類された個人の割合である。換言すれば、適合率測定基準は、真陽性の数を真陽性と偽陰性との合計で割り算したもの、すなわち、TP/(TP+FP)に等しい。1という適合率値は、ある特定のクラス(例えば、生物学的ステータス)に属すると予測された全サンプルが、実際にそのクラスに属することを示すが、第二生物学的ステータスを有すると誤って予測された、第一生物学的ステータスを有するサンプルの数(FN)に関する情報は提供しない。
強力な予測子とみなされるには、感度および特異性の両方、感度および適合率の両方、または感度、特異性および適合率において高い値が望ましい場合がある。本明細書では、候補遺伝子シグネチャの性能を検討するために、感度、特異性および精度測定基準が使用されてもよい一方、概して、陰性試験の予測値(TN/(TN+FN))など、本開示の範囲を逸脱することなく、いかなる他の測定基準がまた使用されてもよい。
例では、第一性能測定基準は、曲線下面積(area under a curve:AUC)測定基準に関係している。特に、曲線は、受信者動作特性(ROC)曲線または適合率-再現率(precision-recall:PR)曲線に対応してもよい。ROC曲線の軸は、感度(または真陽性率:TP/(TP+FN))および偽陽性率(FP/(FP+TN))に対応する。PR曲線の軸は、感度(TP/(TP+FN))および適合率(TP/(TP+FP))に対応する。一例では、PR曲線下面積(AUPR)は、ある特定の候補遺伝子シグネチャに一位を取得させるように、第一性能測定基準として使用される。別の例では、ROC曲線下面積が、第一性能測定基準として使用される。PR曲線および/またはROC曲線が連続してもよい一方、本開示は離散値を使用してもよく(閾値が異なるため)、一つ以上の補間法が曲線下面積を演算するのに使用されてもよい。
工程312で、各候補遺伝子シグネチャに対して、サーバ104は、試験データセットの中の各サンプルを、予測される生物学的ステータスへ割り当てるように、信頼水準を使用する。特に、科学者からの各提出に対して、各試験サンプルは、提出の中にある信頼水準に基づいて、予測される生物学的ステータスに割り当てられる。一例では、二つの生物学的ステータス(第一生物学的ステータスおよび第二生物学的ステータス)が存在するとき、信頼水準は、試験サンプルが第一生物学的ステータスに属するという尤度である、値pを有してもよい。その上に、値1-pは、試験サンプルが第二生物学的ステータスに属するという尤度に対応してもよい。概して、科学者は、複数の生物学的ステータスが存在するとき、複数の信頼水準を提出してもよく、ある特定の候補遺伝子シグネチャに対する予測される生物学的ステータスは、最高の信頼水準を有する生物学的ステータスに対応してもよい。
工程314で、サーバは、予測される生物学的ステータス(工程312で取得した)が、試験データセットの中の既知の生物学的ステータスに合致するかに基づく第二性能測定基準に従い、候補遺伝子シグネチャをランク付ける。工程314で遂行したランク付けで、各候補遺伝子シグネチャを二位の値に割り当てさせる。
別の例では、第二性能測定基準は、マシューズ相関係数(MCC)測定基準に対応してもよい。MCC測定基準は、すべての真/偽陽性率と真/偽陰性率とを組み合わせ、それゆえ単一の値である妥当な測定基準を提供する。MCCは、複合性能スコアとして使用されてもよい、性能測定基準である。MCCは、-1と+1との間の値であり、本質的に既知の二項分類と予測される二項分類との間の相関係数である。MCCは、以下の式を使用して演算される場合がある。
式中、TPは真陽性、FPは偽陽性、TNは真陰性、FNは偽陰性である。しかしながら、概して、性能測定基準のセットに基づいて、複合性能測定基準を生成するためのいかなる好適な技法が、候補遺伝子シグネチャの性能およびその対応する予測を評価するために、使用されてもよい。+1というMCC値は、モデルが完全な予測を取得することを示し、0というMCC値は、モデル予測が無作為と何ら変わらず遂行されることを示し、-1というMCC値は、モデル予測が完全に不正確であることを示す。MCCは、クラス予測のみが可能なやり方で、分類子機能をコード化すると、容易に演算することができる利点を有する。概して、TP、FP、TNおよびFNは、本開示に従って第二性能測定基準として使用されてもよい。
工程316で、サーバ104は、工程310および314で割り当てたランクに基づく第三性能測定基準に従い、候補遺伝子シグネチャをランク付ける。特に、工程310の一位は、未加工の信頼水準と試験サンプルの既知の生物学的ステータスとの比較に基づいて取得され、工程314の二位は、予測される生物学的ステータス(信頼水準から評価された)と試験サンプルの既知の生物学的ステータスとの比較に基づいて取得される。一位および二位は、第三性能測定基準を取得するように、平均化され(または何らかの手段で組み合わせられ)てもよい。
工程318で、サーバ104は、最上位にランク付けられたN個の候補遺伝子シグネチャのうち、少なくとも閾値数(例えば、M)の候補遺伝子シグネチャに含まれる、遺伝子のセットを特定する。例では、第三性能測定基準に従い最高位にランク付けられたN個の候補遺伝子シグネチャが決定される。これらN個の候補遺伝子シグネチャのうちの少なくともM個に現れるいずれかの遺伝子が、工程318で特定される遺伝子に含まれ、MはNより小さい。一部の実装では、(N,M)=(3,2)、(4,3)、(4,2)、(5,4)、(5,3)、(5,2)、(6,5)、(6,4)、(6,3)、(6,2)、またはNおよびMに対するいかなる他の好適な組み合わせであり、式中、Nは2から候補遺伝子シグネチャの総数に及ぶ整数であり、Mは2からNに及ぶ整数である。
実施例1-はじめに
個人の喫煙者ステータスを正確に予測するために、ロバストな遺伝子シグネチャを取得するようクラウドソーシング方法が使用される、実施例の研究について本明細書に記載する。実施例の研究の一つの目的は、喫煙および禁煙ステータスを予測する、ヒトおよび種に依存しない血液曝露反応マーカーおよびモデルを特定するための演算方法を基準に従って評価することによって、血液中で化学物質への曝露反応のマーカーを特定することである。
実施例1-研究対象母集団およびデザイン
全血サンプルは、臨床研究および生体内研究中にPAXgene(商標)チューブに収集するか、またはバイオバンクのリポジトリから購入する。異なる研究に対するサンプル群/クラス、サイズおよび特性は、図6に示す表に要約する。手短に言えば、ヒトの血液サンプルは、(i)英国ロンドンのQueen Ann Street Medical Center(QASMC)で行われ、識別子NCT01780298でClinicalTrials.govに登録された臨床症例対照研究、(ii)バイオバンクのリポジトリ(米国メリーランド州ベルツビルのBioServe Biotechnologies Ltd.)(データセットBLD-SMK-01)から取得される。これら両方の出所からのサンプルは、よく定義された組み入れ基準で選択された喫煙者(S)、喫煙経験者(FS)および喫煙未経験者(NS)(図6)、ならびに(iii)無作為化、対照、非盲検、3並行群間および単一施設研究に対応する、臨床のZRHR曝露低減(Reduced exposure:REX)C-03-EUおよび-04-JP研究を含む。REX研究は、5日間閉じ込められて従来のたばこを使用し続ける(喫煙者)のと比較して、喫煙する健康な対象が、候補のリスク低減たばこ製品(「MRTP(modified risk tobacco product)」)または禁煙(「Cess(cessation)」)へ切り替えるときの、選択した煙成分への曝露の減少を実証するのを目的とする。概して、MRTPは加熱式たばこ製品であってもよい。本明細書で使用する通り、加熱式たばこ製品は、使用中にたばこを燃焼させず、たばこまたはたばこを含む混合物を加熱することにより、エアロゾルを発生する製品を含む。マウスの血液サンプルは、メスのC57BL/6およびApoE-/-マウスでそれぞれ7か月および8か月間行った、二つの独立したたばこの煙(「CS」)吸引研究から取得される。研究は、以下、偽(空気に曝露)、3R4F(基準のたばこ3R4FからのCSに曝露)、試作品/候補MRTP(ニコチン濃度が3R4Fに合致する、試作品/候補MRTPからの主流エアロゾルに曝露)、禁煙(Cess)、および2か月の3R4Fへの曝露後に試作品/候補MRTPへ切り替え(Switch)の五つの群に無作為化されたマウスを含む。血液サンプルは異なる時点で収集される。
実施例1-血液トランスクリプトミクスデータセット
トランスクリプトミクスデータセットは、PAXgene(商標)チューブの中に収集される全血サンプルから生成される。
ヒトおよびマウスの血液サンプルからのデータ生成
全RNAは、PAXgene Bloodキットを使用して分離する。RNAサンプルの濃度および純度は、UV分光光度計(米国マサチューセッツ州ウォルサムにあるThermo Fisher ScientificのNanoDrop(登録商標)1000またはNanodrop 8000)を使用して、230nm、260nmおよび280nmにおける吸光度を測定することによって決定される。RNAの完全性は更に、Agilent 2100 Bioanalyzer(米国カリフォルニア州サンタクララのAgilent Technologies)を使用して調べる。6つより多いRNA完全性番号を持つRNAのみが、更なる分析のために処理される。
全RNAは、製造業者の説明書(Qiagen)に従い、PAXgene(商標)チューブの中でサンプルから分離される。抽出されるRNAの品質と、Ovation(登録商標)Whole Blood ReagentおよびOvation RNA Amplification System V2(オランダ、AC LeekのNuGEN)を使用するターゲット調製、および断片化(例えば、断片化しビオチン化した最終製品のサイズ分布を、電気泳動図を使用して監視)の後のcDNAの品質とを、Agilent 2100 Bioanalyzer(米国カリフォルニア州サンタクララ)を使用して調べる。cDNAの品質を、SpectraMax(登録商標)384Plusマイクロプレートリーダー(米国カリフォルニア州サニーベールのMolecular Devices)で測定する。cDNA品質を、Fragment Analyzer(米国アイオワ州アンケニーのAdvanced Analytical)を使用して、断片化されていないcDNAのサイズを評価することによって決定する。断片化およびラベリングの後、製造業者のガイドラインに従い、cDNA断片をGeneChip(登録商標)Human Genome U133 Plus 2.0 Array(Affymetrix)にハイブリダイズする。未加工のトランスクリプトミクスデータを、マイクロアレイ画像分析から取得する。QASMC研究のために、血液トランスクリプトミクスデータがAROS Applied Biotechnology AS(デンマーク、オルフス)によって生み出される。
データ処理
各データセットからの未加工データ(CELファイル)は、凍結のロバストマイクロアレイ分析であるfRMA v1.1を使用して、R環境(v3.1.2)で処理および正規化される。凍結したパラメータベクトルのヒト(hgu133plus2frmavecs v1.3.0)を、frmaおよびGNUSE機能が使用する。brainarrayのヒト用特注cdfファイル(hgu133plus2hsentrezgcdf v16.0.0)を、アフィメトリクスプローブからentrez遺伝子IDまでが、マッピングし、一つの遺伝子の関係性に一つのプローブセットをもたらすために使用する。
データは、本明細書に記載する基準に対する次のカットオフのうちの一つを通さなかった、全CELファイルを除去する、品質検査工程を通過する。第一に、所与のプローブセットjに対して、正規化非スケール化標準誤差(Normalized Unscaled Standard Error:NUSE)は、他のアレイと比べて、所与のアレイi上への発現見積りの適合率の尺度を提供する。問題のあるアレイは、標準誤差(SE)中央値よりも高いSEとなる。NUSE中央値が1を超える、またはアレイが広い四分位範囲(IQR)を有するいずれかの場合、アレイは品質が低いと疑われる。1.05より高いNUSE値を持つアレイは除去される。第二に、相対対数発現(Relative Log Expression:RLE)は、各アレイについて、すべてのjアレイ上の所与のプローブに対する強度レベルの中央値に対して、そのプローブの強度レベルを比較する。アレイ特有のRLE分布は、ある特定のアレイが、優勢的に低くまたは高度に発現された特徴を有するかを決定するのに使用される。ゼロに近くないRLE中央値は、上方制御される遺伝子の数が、下方制御される遺伝子の数とおおよそ等しくはならないことを示し、RLEの広いIQRは、遺伝子の大部分が異なった形で発現することを示す。RLE中央値>0.1(絶対値で)を持つアレイを、外れ値とみなし除去する。第三に、すべてのアレイデータセットの絶対RLE中央値(Median Absolute RLEs:MARLEs)の絶対偏差中央値を0.01の平方根で割り算したものよりも大きい、MARLE(または中央値(MARLE)/(1.4826*mad(MARLEs))>1/sqrt(0.01))を持つアレイを、品質の悪いチップを有するとみなし除去する。
Brainarrayの特注のマウスおよびヒト用CDFファイルを、Entrez Gene IDマッピングへのAffymetrixプローブに使用し、一つの遺伝子関係に対して一つのプローブセットがもたらされる(それぞれHGU133Plus2_Hs_ENTREZG v16.0、Mouse4302_Mm_ENTREZG v16.0)。品質検査で、最低限の品質基準に合格しない、CELファイルを除外する。データセットの取り扱いを促進するために、ヒトおよびマウスの遺伝子発現データセットには、両方にヒト遺伝子記号が提供される。マウス遺伝子は、NCBI/HCOPマッピングファイルを使用して、ヒト遺伝子に対応付けられる。マウス遺伝子が複数のヒト遺伝子に位置する場合、大文字で書かれたマウス遺伝子に合致するヒト遺伝子のみが保持される。
実施例1-チャレンジ概要
チャレンジのために、喫煙者(S)および現非喫煙者(NCS)の対象血液からの遺伝子発現プロフィールを、図1に関係して記載するネットワーク102上などで、科学界へ提供する。遺伝子発現プロフィールのセットは、均等に訓練セットおよび試験セットに分割される。訓練データセット(喫煙者、喫煙経験者、喫煙未経験者クラスという対象の生物学的ステータスについて完全な情報を持つ)は、試験データセット(対象の生物学的ステータスについての情報は持たない)を公開する前に公開される。135名の登録科学者を、61チームのグループに分ける。61チーム中の23チームがチャレンジ規則に一致した提出を行い、23チーム中の12チームが適格な提出を行っている。図7Aは、チャレンジの目的が、ヒトおよびマウスの全血遺伝子発現データから、化学物質への曝露反応マーカーを特定し、新規血液サンプルを曝露または非曝露群の一部として予測分類するために、これらのマーカーを演算モデルでシグネチャとして活用することであることを示す。
データは、ヒトおよび齧歯類におけるCS曝露および禁煙に関係する、独立した臨床研究および生体内研究で収集される、血液サンプルから取得される。実験群はまた、試作品//候補MRTPに曝露される個人、または一定期間CSに曝露された後、試作品//候補MRTPに切り替える個人も含む。参加者には、血液サンプルから生成される対象の遺伝子発現プロフィールに基づいて、喫煙曝露を予測するモデルを開発するように依頼する。具体的には、以下の二つの課題を解決するよう、参加者に依頼する。(1)喫煙者の対象対現非喫煙者の対象を特定する。(2)現非喫煙者と予測される各対象に対して、対象が喫煙経験者(FS)または喫煙未経験者(NS)のどちらの対象かを特定する。スコアリングに対して適格であるためには、チームは、両方の課題に対して、予測(例えば、各試験サンプルに対する信頼水準)および候補遺伝子シグネチャ(最大40個の遺伝子を含む)の提出を要する。チャレンジが終了すると、匿名化された予測を、専門家の外部委員会で確立されるパイプラインに従ってスコア化する。チャレンジにおける最高の遂行者は、喫煙者と現非喫煙者とを識別するように、ほぼ完ぺきな予測を実現した。
チャレンジの目標および規則
参加者には、(i)喫煙者と現非喫煙者とを識別(課題1)し、続いて(ii)現非喫煙者を、喫煙経験者および喫煙未経験者として分類する(図7Bの課題2)、ロバストでスパースなヒト(サブチャレンジ1、SC1)および種に依存しない(サブチャレンジ2、SC2)血液を基にした遺伝子シグネチャ分類モデルを開発するように依頼する。第一の制約として、予測モデルは、モデルを再訓練/洗練させる必要も、サンプルクラスを予測するように、訓練および試験データセットを組み合わせる半教師付き手法を使用する必要もなく、単一の個人血液サンプルがどのクラスに属するかを予測する能力によって、誘導的(伝達的とは対照的に)であるように要求される。第二の制約として、シグネチャは40個以下の遺伝子を含み得る。
訓練、試験および検証データセットとして公開されるデータ
図8は、血液遺伝子発現データの訓練データセット、試験データセットおよび検証データセットを公開する方法を示す。血液サンプル処理および遺伝子発現データ生成の後、独立した研究からのデータを、訓練、試験および検証データセットに分割する。訓練データセットからのデータおよびクラスラベルを、血液を基とする遺伝子シグネチャ分類モデルの開発および訓練に提供する。血液サンプルのクラス予測のために、訓練済みモデルを、無作為化された試験および検証遺伝子発現データセットに盲検的に適用する。
具体的には、QASMC臨床(図7BのデータセットH1)研究、およびマウスC57BL/6の吸引(図7BのデータセットM1a)研究からの正規化された遺伝子発現データおよびクラスラベルを、訓練データセットとして提供する。ヒトBLD-SMK-01およびマウスApoE-/-データ(それぞれ図7BのデータセットH2およびM2a)を、試験データセットとして使用する。REX C-03-EU(図7BのデータセットH3)/-04-JP(図7BのデータセットH4)臨床研究、ならびにマウスC57BL/6(図7BのデータセットM1b)およびApoE-/-(図7BのデータセットM2b)吸引研究からのデータを、検証データセットとして公開する。試験および検証セットからのサンプルデータを完全に無作為化し、クラスラベル予測のために順次公開された、クラスのバランスが取れた二つのサブセットに分ける(図8)。試験データセットからのサンプルは、参加者の予測をスコア化し、各サブチャレンジにおけるチーム成績を評価するのに使用する。検証セットは、参加者がサンプルを、喫煙者または現非喫煙者のどちらにより近いと予測したかを検討するのに使用する。ヒトデータのみ、ならびにヒトおよびマウスのデータを、SC1およびSC2それぞれのために公開する(図7B)。
予測遺伝子シグネチャ分類モデル
選択バイアスを避けるために、または全体のアレイに基づく遺伝子シグネチャの性能に通常影響する、次元の呪いを低減するために、二つの公の独立したデータセットを、フィルタリングおよび遺伝子選択を導くように使用する。独立した研究からの最高倍率変化の遺伝子を合同で、二つの研究のうちのN個の最高倍率変化(絶対値で)の交点における、遺伝子に基づく線形判別モデルの検討(各々N≧1)で使用する。最高のNは、5重交差検証(100回繰り返される)によって選ばれ、11遺伝子シグネチャにつながる。
チャレンジのために、参加者は、際立った特徴(遺伝子)を特定し、サンプルを分類するように、様々な特徴選択手法および機械学習手法を使用する。ランダムフォレスト、部分最小二乗判別分析、線形判別分析(LDA)およびロジスティック回帰は、両方のサブチャレンジにおける上位三つの優良なチームが使用する分類方法である。試験および検証データセットからの各サンプルについて、参加者には、サンプルがクラス1(例えば、喫煙者)に属していた信頼値P(0と1との間)と、サンプルがクラス2(例えば、現非喫煙者)に属していた信頼値に対応する、信頼値1-Pとを提供するように要求する。Pおよび1-Pは不等であることが要求される。
性能評価のスコアリング
試験データセットに存在し、検証データセットに存在しないサンプルは、各サブチャレンジにおけるチーム成績を評価するのに使用する。匿名化された参加者のクラス予測を、マシューズ相関係数および適合率-再現率曲線下面積測定基準を使用して、スコア化する。全体のチーム成績は、測定基準および課題(課題1:喫煙者対現非喫煙者、課題2:喫煙経験者対喫煙未経験者)に渡って演算される平均ランクに基づく。スコアリング結果および最終ランク付けは、当該分野の専門家から成る外部の独立したスコアリング審査委員会によって審査され、承認される。本公表用の検証データセットに関するチーム成績を検討するために、REX研究からの喫煙者および喫煙経験者(Cess)サンプルを使用して、同じスコアリング方式が適用される。
チャレンジ後分析
血液サンプルが喫煙者群または3R4F群のどちらに属するかに対応する信頼値を、対数オッズ(log(P/(1-P)))として変換する。個々の上位3チームに対する(検証データセットを使用して再スコア化される)、または資格のある全チームの中央値として集約される、対数オッズの分布を、クラスごとに箱ひげ図に可視化する。対を成す(長軸方向のREX研究の0日目対5日目)ウェルチのt検定を、主要な比較(すなわち、対応する喫煙者/3R4F群と比較されるすべての群)に対して遂行した。すべての統計および図式の視覚化は、Rソフトウェアv3.1.2を使用して行われる。
実施例1-結果
本実施例の事例研究では、MRTP評価に関係するシステム毒性学における、方法およびデータの独立検証の結果を報告する。研究の一つの目的は、喫煙曝露ステータスまたは禁煙ステータスを予測する能力を持つ、血液を基とするヒトおよび種に依存しない遺伝子発現シグネチャ分類モデルの開発のために、演算方法を検討することである(図7)。参加者は、喫煙者/3R4Fおよび現非喫煙者(喫煙経験者/Cessおよび喫煙未経験者/Sham)のデータと、試作品/候補MRTPに曝露されたマウス、または従来のCSへの曝露後に、候補MRTPに切り替えたヒト対象およびマウスからのデータとを含む、独立した遺伝子発現データセットに、訓練済みモデルを盲検的に適用した。各サンプルに対して、参加者は、煙に曝露された群、または現在煙に曝露されていない群のどちらに、サンプルが属するかの信頼値を提出する。
ヒト喫煙曝露遺伝子シグネチャ分類モデルの使用時、5日間禁煙して候補MRTPに切り替えた群のサンプルと、喫煙者(S)群のサンプルとの関連が減少
ヒト喫煙曝露反応遺伝子シグネチャ分類モデルを、喫煙者、喫煙経験者および喫煙未経験者を含んだ、QASMCデータセットで訓練する。特定されたシグネチャは、以下の11遺伝子 LRRN3、SASH1、TNFRSF17、DDX43、RGL1、DST、PALLD、CDKN1C、IFI44L、IGJおよびLPAR1のセットを含む。喫煙者と現非喫煙者とを識別する、シグネチャの能力を試験するために、モデルを試験データセット(BLD-SMK-01)に適用し、サンプルが喫煙者群に属していた可能性を持つLDAスコアを、各サンプルに対して演算する。サンプルと喫煙者群または現非喫煙者群との関連を定量化するように、サンプルが喫煙者群(P)およびNCS群(1-P)に属する可能性を演算し、対数オッズ(P/(1-P))として変換する。群/クラスごとの対数オッズ分布を、箱ひげ図に可視化する(図9A、ウェルチのt検定により、p-値3*<0.001対S群)。喫煙者クラスに対する対数オッズ分布の中央値は、おおよそ+3.0であり、一方、喫煙経験者クラスおよび喫煙未経験者クラスに対して、中央値はそれぞれおおよそ-3.8および-5.8である。喫煙者クラスと現非喫煙者クラスとの中央値の差が大きくなればなるほど、遺伝子シグネチャ分類モデルはより判別可能になる。箱ひげ図は、片側の喫煙者と、他方側の現非喫煙者として定義される喫煙経験者および喫煙未経験者との間に、明確な分別を示す(図9A)。
同じモデルおよび手順を、SwitchまたはCess対象のデータが、喫煙者または現非喫煙者どちらにより近いと分類されたかを決定するように、検証データセット(REX C-03-EUおよびREX C-04-JP)に直接適用する(図9A)。特に、Switchは候補MRTPに切り替えた対象であり、Cessは5日間閉じ込められて喫煙をやめた対象である。5日間のみの禁煙または切り替えの後、これらの群に関係する対数オッズは、喫煙者群と比較すると有意に減少し、一方、Cess群とSwitch群との間には差異が見られない(図9A)。喫煙群に対して、0日と5日との間に有意な差(対数オッズ比)は見られず、一方、Cess群およびSwitch群について、0日目のそれぞれのベースラインと比較すると、有意な減少が観察された(図9B、対となるt-試験p-値3*<0.001)。
クラウドソーシングによるデータ検証で、5日の禁煙群および候補MRTPへの切り替え群の血液サンプルが喫煙者群に属するという、信頼低下の予測を確認
ヒト喫煙曝露反応遺伝子シグネチャ分類モデルを訓練した後、参加者は、無作為化された試験および検証データセットにモデルを適用し、対象が喫煙者群に属する信頼値(確率)を、各対象に対して演算した。チャレンジが終了した後、喫煙者、喫煙経験者および喫煙未経験者のみを含む試験データセット上で、スコアリングを遂行した。参加者の予測提出物が、検証コホートのみに対して再度スコア化され、チーム225、264および257を、SC1の上位3チームとして特定する(図10に示す表)。クラス予測用の遺伝子シグネチャ分類モデルのクラス予測性能を、喫煙者およびCess(性能評価では喫煙経験者とみなされる)の真のクラスラベルを、至適基準として使用して評価し、AUPR曲線値は、優良な上位3チームに対して、少なくとも0.90であると判明する(図10に示す表)。
図11 は、試験および検証データセットに対する、参加者によるヒトおよびマウスの血液サンプルクラス予測を示す。特に、参加者は、煙に曝露される(ヒトはSまたはマウスは3R4F)ヒト対象およびマウスと、現在煙に曝露されていない(NCS)(喫煙経験者FS/Cessおよび喫煙未経験者NS/Sham)ヒト対象およびマウスとを識別するように、ヒト(図11A)および種に依存しない(図11B)血液を基とする喫煙曝露遺伝子シグネチャを訓練した。各サンプルについて、参加者に、サンプルがS/3R4F群に属するという信頼値P、およびサンプルがNCS群に属するという信頼値1-Pを提供するように依頼する。信頼値を、対数オッズ(log(P/(1-P)))として変換し、参加資格のある全12チームに対する各サンプルの中央値を演算することによって集約し、箱ひげ図のようなクラスごとの分布として表示する(図11A)。全ての結果が、試験データセットに対して、喫煙者と現非喫煙者(喫煙経験者および喫煙未経験者)との明確な識別を示す。検証データセットについて、モデルを使用して取得された、5日間のCessおよびSwitch群と喫煙者群とのサンプルの関連が低減するという知見が、類似の結果を生み出した、個々のまたは集約された参加者の予測によって明白に確認された(図11A)。ウェルチのt検定のp-値は、S/3R4F群に対して、*<0.05、2*<0.01、3*<0.001である。経験者/未経験者クラスへのこの信頼値の低下は、シグネチャ遺伝子発現に改変が生じたこと、および5日間の禁煙または候補MRTPへの切り替え後に、血球の中で既に改変が検出可能であることを反映している。
ヒトおよび齧歯類種にかかわらず、血液サンプルクラス予測に対して特定された最優良の喫煙曝露モデルを基準に従って評価する、クラウドソーシングによる技法
SC2では、参加者に、ヒトおよび齧歯類データの両方に直接適用可能であったクラス予測のために、種に依存しない喫煙曝露反応遺伝子シグネチャモデルを開発するように依頼する。検証データセットを使用する、参加者の予測提出の再スコアリングによって、チーム219、250および264を、SC2の上位3チームとして特定する(図10の表)。SC1に対して、優良チームによってまたは全チームの値の集約後に取得される信頼値を、クラスごとに対数オッズ分布として可視化する(図11B)。CS/3R4Fに曝露されるコホートと、曝露されない(喫煙未経験者/Shamおよび喫煙経験者/Cess)コホートとの明確な分別が、箱ひげ図上でヒトおよびマウスの両方に対して観察でき、モデルは、種とかかわりなく血液サンプルを分類できることを示している(図10、図11Bに示す表)。独立した二つのマウスの生体内研究からの検証サンプルに、モデルを盲検的に適用するとき、試作品MRTP(pMRTP)または候補MRTPに曝露される群に対応するサンプルは、マウスおよびヒトのデータセットに対して、Shamおよび喫煙未経験者対照群それぞれに類似するレベルを持つ、対数オッズ値を有する(図11B)。
図12 は、検証データセットに対する、閉じ込められた0日目と5日目との間の、集団の対数オッズ比を示す。対数オッズ比は、Cess群およびSwitch群に対して、0日目と5日目との間で有意に異なるが、予想通り、喫煙者群に対しては有意に異なるとはいえない(対となるt-試験のp-値3*<0.001)。
図13は、群/クラスごと、およびpMRTPもしくは候補MRTPへの曝露時、またはpMRTPもしくは候補MRTPへの切り替え後ごとに分けられた集団の対数オッズ分布を示す。具体的には、2か月のCS曝露からpMRTPへ切り替わった後、クラスを各時点で分けると、対数オッズ値の斬新的減少が、時間と共に観察され(例えば、pMRTPへの1か月、3か月および4か月の曝露に対応するSwitch3、Switch5およびSwitch7)、時間と共に血球の中に生じる漸進的な遺伝子発現の変化を示す。
喫煙曝露ステータスを示す、血液中のヒトおよび種に依存しない応答マーカーは、共有性を示し、チーム全体で高度に不変であった、コア遺伝子サブセットを含んでいた。
喫煙曝露コア遺伝子サブセットは、上位3チームおよびPMIシグネチャで、少なくとも二つの共起を持つ遺伝子を抽出することで特定される(図4)。サイクリン依存性キナーゼ阻害因子1C(CDKN1C)、ロイシンリッチリピート神経3型(LRRN3)、ならびにSAMおよびSH3ドメイン含有1(SASH1)をコードする遺伝子は、ヒトシグネチャに最も頻繁に出現する遺伝子であり(図4A)、アリール炭化水素受容体リプレッサー(AHRR)、P2Y6受容体(pyrimidinergic receptor:P2RY6)をコードする遺伝子は、種に依存しないシグネチャで最も高い共起を有する(図4B)。両方のコア遺伝子サブセット間の比較により、LRRN3、SASH1、AHRRおよびP2RY6をコードする四つの遺伝子の共通セットが明らかになる(図4)。
実施例1-上位6チームのヒトを基とする喫煙曝露コンセンサスシグネチャからの遺伝子の全組み合わせの性能分析、遺伝子シグネチャの長さ、遺伝子発現の共線性レベルおよび分類方法の影響
方法
コンセンサスシグネチャからの遺伝子の可能な全組み合わせを考慮する。18個の遺伝子を基とするヒトの喫煙曝露コンセンサスシグネチャの抽出は、この分析に要するコンピュータを利用した計算により課される限定のため、上位6チーム(資格のある12チームではなく)に限定される。DSC2、FSTL1、GPR63、GSE1、GUCY1A3、RGL1、CTTNBP2、F2R、SEMA6B、CDKN1C、CLEC10A、GPR15、LINC00599、P2RY6、PID1、SASH1、AHRRおよびLRRN3を含んでいた、血液中の18個の遺伝子を基とするコンセンサスシグネチャを、上位6チームのシグネチャに少なくとも二つの共起を持つ遺伝子の選択によって特定する。遺伝子シグネチャのサイズおよび共線性レベルの分類性能への影響を調査する。五重交差検証による訓練(10回の繰り返しによる)、およびSC1からの試験データセットをそれぞれ使用して、分析を行う。チャレンジで最も幅広く適用される機械学習(ML)方法は、ランダムフォレスト(RF)、線形カーネル(svmLinear)によるサポートベクターマシン、部分最小二乗判別分析(PLS)、ナイーブベイズ(NB)、k最近傍(kNN)、線形判別分析(LDA)およびロジスティック回帰(LR)を含む。長さ2から18の18個の遺伝子の可能な全組み合わせ(すなわち、262,125の遺伝子セット)が生成される。七つのML方法の各々を各遺伝子セットに適用すると、総計1,834,875の試験済み分類戦略をもたらす。遺伝子セット内における遺伝子の共線性レベルは、その遺伝子セットに制限される発現マトリクスの第一主成分の相違率として反映される。1,834,875個の遺伝子セット-ML予測(「上位」と呼ぶ)の性能は、MCCおよびAUPRスコアの演算によって検討する。これら「上位」遺伝子セットの性能を、異なった形で発現する遺伝子(differentially expressed gene:DEG、つまり偽陽性率(false discovery rate)、すなわちFDR<=0.5)、またはHG-U133_Plus_2チップ上に表される全遺伝子の中から無作為に選択される遺伝子セット(2~18個の遺伝子)の性能と比較する。サンプリングプロセスを、各遺伝子セットサイズに対して1,000回繰り返し、総計17,000個の無作為「DEG」または「全遺伝子」の遺伝子セットをもたらす。
結果:上位6チームからの18個の遺伝子を基とするコンセンサスシグネチャの遺伝子セットの組み合わせは、情報価値があり、喫煙曝露ステータスのクラス予測については、「DEG」および「全遺伝子」由来の遺伝子セットをしのぐ。
遺伝子シグネチャサイズおよび共線性レベルの、喫煙曝露ステータスのクラス予測性能への影響は、上位6チームの予測からの18個の遺伝子を基とするコンセンサスシグネチャを使用して探求する。MCCおよびAUPRスコアを、MLを基にしたクラス予測で、長さ2から18のシグネチャの可能な全組み合わせの性能を検討するように計算する(図14および15)。図14および15は、MCCスコア(図14)およびAUPRスコア(図15)の結果を表示する。両図面で、パネルAは、交差検証および試験データセットに対する、スコア対遺伝子シグネチャサイズを描写する。特徴は、(i)「上位」遺伝子(すなわち、シグネチャの一部として、参加者が頻繁に選択する遺伝子、(ii)「DEG」、つまり、異なった形で発現する遺伝子のリスト、(iii)「全遺伝子」、つまり、測定された全遺伝子のリストより選択される。両図面で、パネルBは、スコア対シグネチャの中の遺伝子間の類似性の係数を描写する。以下の七つの異なる機械学習、ランダムフォレスト(RF)、線形カーネル(svmLinear)によるサポートベクターマシン、部分最小二乗判別分析(PLS)、ナイーブベイズ(NB)、k近傍(kNN)、線形判別分析(LDA)およびロジスティック回帰(LR)の分類子を試験する。両図面で、パネルCは、CVおよび試験セットデータにおけるスコアの分布に加えて、「上位」(上)、「DEG」(中間)および「全遺伝子」(下)の選択に対する差異の分布を描写する。
図14および15でデータが示す通り、予測性能は、訓練セット(交差検証、CV)(CVでは、サイズ2に対してMCC=0.57、およびサイズ18に対してMCC=0.91)、および試験セット(試験では、サイズ2に対してMCC=0.42、およびサイズ18に対してMCC=0.77)の両方で、最大18個の遺伝子を含め、遺伝子セットサイズと共に増大し、よりセットが長くなると共に徐々に安定した(図14A)。「上位」遺伝子セットの中の遺伝子の共線性レベル(遺伝子セットの発現マトリクスから演算される第一主成分により表わされる相違率が反映される)が、50%から60%の間で動いたとき、予測性能は最大に到達し、その後、共線性の増大と共に減少した(図14B)。「上位」遺伝子セットが、異なるチームからのシグネチャ遺伝子から構成され、既に非常に多様であったことを考慮すると、ある程度共線的な遺伝子を組み合わせることで、予測が強化される場合がある。DEGからの遺伝子セット内の遺伝子の共線性が増加すると共に、性能は低下した(図14B)。概して、「上位」、「DEG」および「全遺伝子」からの遺伝子セットにより、それぞれ最高、中程度および最低の性能が与えられた(図14)。加えて、CVに由来する性能は、試験セットに対して演算された性能をしのいだ(図14)。様々なML方法により取得された性能測定基準は、類似のパターンを示し(図14B)、そのため、結果の可視化を促進するように集約された(図14Aおよび図14C)。全体として、18個の遺伝子を基とするコンセンサスシグネチャからの血液遺伝子は、組み合わせると、情報価値があり、喫煙曝露ステータスに対して高い予測力を有したと、結果は示した。
実施例1-議論
本実施例の研究で取得された結果によって、候補MRTPに曝露された対象、または従来のCS曝露に続き、候補MRTPに切り替えた対象からの血液サンプルが、煙に曝露される群、または現在煙に曝露されていない群に属するという、予測通りの信頼がもたらされる。
結果により、喫煙者および現非喫煙者は明確に分別される。チャレンジ参加者は、ヒトおよびマウス種にかかわらず、喫煙曝露ステータス予測に対して非常に良い性能を示す、種に依存しない血液を基とする遺伝子シグネチャモデルの開発に成功した。ヒトの試験データセットでは、喫煙経験者群は、喫煙未経験者群に非常に近いものの、喫煙者群と喫煙未経験者群との中間に残り、喫煙経験者の遺伝子シグネチャの中の遺伝子発現は、喫煙未経験者の発現レベルに戻るほど、完全には反転しない場合があることを示した。変化の復帰は、対象一人ひとりで異なる、喫煙歴および禁煙期間に依存する可能性があり、この群に対する予測のより高い可変性も説明している。喫煙経験者の血球については、DNAメチル化レベル(例えば、F2RL3遺伝子)が、生涯喫煙量(pack year)および止めてからの時間に依存する場合がある。
マウスデータセットでは、Cess群の発現レベルが、Sham群のレベルに到達し、シグネチャ遺伝子発現の復帰が、より遺伝的かつ実験的に均質である、マウス株の血球で変化することを示唆している。興味深いことに、この復帰は、禁煙期間に基づいて群を分けるときに観察されるように、時間と共に徐々に生じる。これは、遺伝子シグネチャ分類手法が、二項分類に有用であるだけでなく、製品試験または使用中止時に血液中で生じる変化の大きさおよび動態に従うように、より定量的(例えば、LDAスコアまたは関連する信頼値など、モデルパラメータの大きさ)にも使用され得ることを示唆する。実際に、これは、検証用のヒトのREXデータセットからのSwitch群およびCess群の場合であり、有意な対数オッズは、喫煙者群と比較すると、喫煙未経験者群の値の方へと減少する。この知見は、喫煙曝露シグネチャ遺伝子により反映される分子変化が、候補MRTPへ切り替えるか、または従来のたばこを止めてたった5日後に、血球の中に生じることを示す。これらの結果は、臨床の「たばこ一日当たり削減」閉じ込め研究において一週間後に測定した、曝露の用量反応性のバイオマーカーの減少と一致する。マウスの検証データセットについて、切り替え後の候補MRTPまたはpMRTPへのより長い(数か月)曝露により説明することができ、従来のCSと比較して、MRTPの血球へのより低い生物学的効果を反映していたため、3R4F群と、試作品/候補MRTP群またはSwitch群(Shamに類似のレベル)との間の対数オッズの差は、より一層重要である。
血液を基とする喫煙曝露反応分類モデルを、開発および訓練するのに使用する演算方法が異なるとしても、成績上位チームによって取得されるサンプル分類性能は高い。チームに渡り高度に一致するコア遺伝子シグネチャが特定され、ヒトのみ、またはヒトおよびマウス(種に依存しないシグネチャ)において、喫煙曝露ステータスを予測する、特定のロバストな血液マーカーを共に構成した遺伝子を選択するのに、煙曝露により誘導される遺伝子発現の変化は、充分に情報価値があり、一致していることを示す。
喫煙者および非喫煙者からの細胞特有の白血球の報告済みDNAメチル化分析に類似する、血液細胞型特有のトランスクリプトーム分析は、各血液細胞型の喫煙曝露反応シグネチャへの寄与をより良く理解するのに役立つ場合がある。一部の遺伝子は、特定の血液細胞亜集団に関係してもよい。全体として、コアシグネチャの一部である、これらの喫煙曝露関連遺伝子は、従来のたばこの影響と比較して、候補MRTPなどの新製品の影響を監視し、場合により定量化するように活用され得る、ロバストな血液マーカーのセットを構成する。
実施例1に関係して記載する研究は、クラウドの力が、システム毒性学において、演算方法を検討し、データを検証するのに活用されてもよいことを示す。古典的な査読プロセスを補完するのに加えて、製品リスク評価データの独立した公平な検討は、科学的な結論の中で信頼を確認し提供するように使用されてもよく、意思決定する規制当局を支援する場合がある。本明細書に記載する例は、大部分が、個人の喫煙者ステータスを予測するために、ロバストな遺伝子シグネチャを特定するクラウドソーシング手法の使用に関する一方、本開示のシステムおよび方法が、喫煙者ステータス、疾患ステータス、生理学的状態、曝露状態、または個人の生物学的状態と関連付けられる、個人のいかなる他の好適なステータスもしくは状態を含め、個人の生物学的ステータスを予測するために、遺伝子シグネチャを取得するように適用されてもよいことを、当業者は理解するであろう。
下の表2は、実施例1に従って行われた研究からの結果を含む。特に、表2に示す結果は、ヒトの喫煙シグネチャから引き出され、第一列に遺伝子のセットを一覧として示す。第二列は、そのシグネチャの中に対応する遺伝子を含んでいた、チームまたは参加者の数(全12中)を一覧として示す。第三列は、そのシグネチャの中に対応する遺伝子を含んでいた、上位3チーム(試験データセットに従い評価)の数を一覧として示す。第四列は、そのシグネチャの中に対応する遺伝子を含んでいた、上位3チーム(検証データセットに従い評価)の数を一覧として示す。第五列は、第三列および第四列の値の平均を一覧として示す。
表2
一部の実施形態では、喫煙曝露反応ステータスを決定するのに使用される遺伝子シグネチャは、成績上位三つの遺伝子シグネチャのうちの少なくとも二つに現れる遺伝子に対応する、表2に一覧として示す遺伝子を含む。試験データセット(例えば、表2の第三列に示す)に従って評価するとき、これは、LRRN3、AHRR、CDKN1C、PID1、SASH1、GPR15、P2RY6、LINC00599、CLEC10A、SEMA6B、F2R、CTTNBP2およびGPR63を含む。検証データセット(例えば、表2の第四列に示す)に従って評価するとき、これは、LRRN3、AHRR、CDKN1C、PID1、SASH1、GPR15、P2RY6、LINC00599、CLEC10A、SEMA6B、F2R、RGL1およびCTTNBP2を含む。試験および検証データセットの平均(例えば、表2の第五列に示す)に従って評価するとき、これは、LRRN3、AHRR、CDKN1C、PID1、SASH1、GPR15、P2RY6、LINC00599、CLEC10A、SEMA6B、F2RおよびCTTNBP2を含む。
一部の実施形態では、喫煙曝露反応ステータスを決定するのに使用される遺伝子シグネチャは、12個の候補遺伝子シグネチャのうちの少なくともM個に現れる遺伝子に対応する、表2に一覧として示す遺伝子を含み、Mは1、2、3、4、5、6、7、8または9である。例えば、Mが9のとき、遺伝子シグネチャは、第二列に少なくとも9の値を持つそれらの遺伝子、すなわち、LRRN3、AHRRおよびCDKN1Cを含む。別の例として、Mが8のとき、遺伝子シグネチャは、第二列に少なくとも8の値を持つそれらの遺伝子、すなわち、LRRN3、AHRR、CDKN1CおよびPID1を含む。別の例として、Mが7のとき、遺伝子シグネチャは、第二列に少なくとも7の値を持つそれらの遺伝子、すなわち、LRRN3、AHRR、CDKN1C、PID1、SASH1およびGPR15を含む。別の例として、Mが6のとき、遺伝子シグネチャは、第二列に少なくとも6の値を持つそれらの遺伝子、すなわち、LRRN3、AHRR、CDKN1C、PID1、SASH1、GPR15、P2RY6、LINC00599およびCLEC10Aを含む。別の例として、Mが5のとき、遺伝子シグネチャは、第二列に少なくとも5の値を持つそれらの遺伝子、すなわち、LRRN3、AHRR、CDKN1C、PID1、SASH1、GPR15、P2RY6、LINC00599、CLEC10A、SEMA6B、F2R、DSC2およびTLR5を含む。別の例として、Mが4のとき、遺伝子シグネチャは、第二列に少なくとも4の値を持つそれらの遺伝子、すなわち、LRRN3、AHRR、CDKN1C、PID1、SASH1、GPR15、P2RY6、LINC00599、CLEC10A、SEMA6B、F2R、DSC2、TLR5、RGL1、FSTL1、VSIG4およびAK8を含む。別の例として、Mが3のとき、遺伝子シグネチャは、第二列に少なくとも3の値を持つそれらの遺伝子、すなわち、LRRN3、AHRR、CDKN1C、PID1、SASH1、GPR15、P2RY6、LINC00599、CLEC10A、SEMA6B、F2R、DSC2、TLR5、RGL1、FSTL1、VSIG4、AK8、CTTNBP2、GUCY1A3、GSE1、MIR4697HG、PTGFRN、LOC200772、FANK1、C15orf54およびMARC2を含む。別の例として、Mが2のとき、遺伝子シグネチャは、第二列に少なくとも2の値を持つそれらの遺伝子、すなわち、LRRN3、AHRR、CDKN1C、PID1、SASH1、GPR15、P2RY6、LINC00599、CLEC10A、SEMA6B、F2R、DSC2、TLR5、RGL1、FSTL1、VSIG4、AK8、CTTNBP2、GUCY1A3、GSE1、MIR4697HG、PTGFRN、LOC200772、FANK1、C15orf54、MARC2、GPR63、TPPP3、ZNF618、PTGFR、GUCY1B3、P2RY1、TMEM163、ST6GALNAC1、SH2D1B、CYP4F22、PF4、FUCA1、MB21D2、NLK、B3GALT2、ASGR2およびNR4A1を含む。別の例として、Mが1のとき、遺伝子シグネチャは、上の表2に一覧として示すすべての遺伝子を含む。
下の表3は、実施例1に従って行われた研究からの結果を含む。特に、表2に示す結果は、種に依存しない喫煙シグネチャから引き出され、第一列に遺伝子のセットを一覧として示す。第二列は、そのシグネチャの中に対応する遺伝子を含んでいた、チームまたは参加者の数(全12中)を一覧として示す。第三列は、そのシグネチャの中に対応する遺伝子を含んでいた、上位3チーム(試験データセットに従い評価)の数を一覧として示す。第四列は、そのシグネチャの中に対応する遺伝子を含んでいた、上位3チーム(検証データセットに従い評価)の数を一覧として示す。第五列は、第三列および第四列の値の平均を一覧として示す。
表3
一部の実施形態では、喫煙曝露反応ステータスを決定するのに使用される遺伝子シグネチャは、成績上位三つの遺伝子シグネチャのうちの少なくとも二つに現れる遺伝子に対応する、表3に一覧として示す遺伝子を含む。表3に示すように、これが試験データセット(例えば、表3の第三列に示す)、検証データセット(例えば、表3の第四列に示す)、または試験データセットおよび検証データセットの平均(例えば、表3の第五列に示す)に従って評価されるかにかかわらず、これは、AHRR、P2RY6、COX6B2、DSC2、KLRG1、LRRN3、SASH1およびTBX21を含む。
一部の実施形態では、喫煙曝露反応ステータスを決定するのに使用される遺伝子シグネチャは、12個の提出された遺伝子シグネチャのうちの少なくともM個に現れる遺伝子に対応する、表3に一覧として示す遺伝子を含み、Mは1、2、3、4または5である。例えば、Mが5のとき、遺伝子シグネチャは、第二列に少なくとも5の値を持つそれらの遺伝子、すなわち、AHRRを含む。別の例として、Mが4のとき、遺伝子シグネチャは、第二列に少なくとも4の値を持つそれらの遺伝子、すなわち、AHRRおよびP2RY6を含む。別の例として、Mが3のとき、遺伝子シグネチャは、第二列に少なくとも3の値を持つそれらの遺伝子、すなわち、AHRR、P2RY6、KLRG1およびLRRN3を含む。別の例として、Mが2のとき、遺伝子シグネチャは、第二列に少なくとも2の値を持つそれらの遺伝子、すなわち、AHRR、P2RY6、KLRG1、LRRN3、COX6B2、DSC2、SASH1、TBX21、CTTNBP2、F2R、GUCY1B3、MT2、NGFRAP1およびREEP6を含む。別の例として、Mが1のとき、遺伝子シグネチャは、上の表3に一覧として示すすべての遺伝子を含む。
一部の実施形態では、本明細書に記載する遺伝子シグネチャは、10、11、12、13、14、15、20、25、30、35、40、または全ゲノムの中の遺伝子の数より少ない、いかなる他の好適な数など、遺伝子の最大数を有するように制限される。本明細書に記載する遺伝子シグネチャは、全ゲノムと比較して、比較的少数の遺伝子に制限される。より長い遺伝子シグネチャが、訓練データセットに過剰適合する場合、より長い遺伝子シグネチャは、より短い遺伝子シグネチャよりうまく機能しない場合がある。この場合、より長い遺伝子シグネチャは、訓練データセットに偶発誤差またはノイズを記述する場合がある。より短い遺伝子シグネチャは、試験データセットでクラスを予測するように使用されるとき、過剰適合したより長い遺伝子シグネチャをしのぐ場合がある。表2および3に関係して記載する遺伝子シグネチャを含む、本明細書に記載する遺伝子シグネチャのいずれも、ある特定の最大数の遺伝子を有するように制限されてもよい。
図5は、本開示の図解の実施形態に従って、対象から取得したサンプルを評価するためのプロセス500のフローチャートである。プロセス500は、サンプルと関連付けられるデータセットを受け取る工程であって、データセットは、LRRN3、AHHR、CDKN1C、PID1、SASH1、GPR15、LINC00599、P2RY6、CLEC10A、SEMA6B、F2R、CTTNBP2およびGPR63に対する定量的な発現データを含む、工程(工程502)と、受け取ったデータセットに基づいてスコアを生成する工程であって、スコアが、対象の予測される喫煙ステータスを示す、工程(工程504)とを含む。一部の実施形態では、工程502で受け取ったデータセットは更に、次のDSC2、TLR5、RGL1、FSTL1、VSIG4、AK8、GUCY1A3、GSE1、MIR4697HG、PTGFRN、LOC200772、FANK1、C15orf54、MARC2、TPPP3、ZNF618、PTGFR、P2RY1、TMEM163、ST6GALNAC1、SH2D1B、CYP4F22、PF4、FUCA1、MB21D2、NLK、B3GALT2、ASGR2、NR4A1およびGUCY1B3のうちのいずれの数に対する定量的な発現データも含む。一部の実施形態では、工程502で受け取ったデータセットは更に、上の表2および3に関係して記載した遺伝子シグネチャのうちのいずれか、または本明細書に記載するいかなる他の遺伝子シグネチャに対する、定量的な発現データを含む。
工程504で生成するスコアは、データセットに適用される分類スキームの結果であり、分類スキームは、データセットの中の定量的な発現データに基づいて決定される。特に、本明細書に記載する例では、個人に対して予測される分類を決定するように、機械学習技法を使用して訓練された分類子が、502で受け取られたデータセットに適用されてもよい。
本明細書に記載する遺伝子シグネチャは、対象から取得したサンプルを評価するための、コンピュータ実装された方法で使用されてもよい。特に、サンプルと関連付けられるデータセットが取得されてもよく、データセットは、コア遺伝子シグネチャのために、LRRN3、AHHR、CDKN1C、PID1、SASH1、GPR15、LINC00599、P2RY6、CLEC10A、SEMA6B、F2R、CTTNBP2およびGPR63に対する定量的な発現データを含んでもよい。概して、表2および3に関係して記載した遺伝子シグネチャのうちのいずれも、コア遺伝子シグネチャとして使用されてもよい。コア遺伝子シグネチャは、ゲノム全体における遺伝子の数より少ない、いくつかの遺伝子を含み、全体として共にみなされるとき、喫煙ステータスなど、生物学的状態の予測について情報価値のある遺伝子のセットを含む。受け取ったデータセットの中の遺伝子シグネチャに基づいて、スコアを生成してもよく、スコアは対象の予測される喫煙ステータスを示す。特に、スコアは、本明細書に記載するクラウドソーシング手法を使用して構築された、分類子に基づいてもよい。データセットは更に、追加マーカーDSC2、TLR5、RGL1、FSTL1、VSIG4、AK8、GUCY1A3、GSE1、MIR4697HG、PTGFRN、LOC200772、FANK1、C15orf54、MARC2、TPPP3、ZNF618、PTGFR、P2RY1、TMEM163、ST6GALNAC1、SH2D1B、CYP4F22、PF4、FUCA1、MB21D2、NLK、B3GALT2、ASGR2、NR4A1およびGUCY1B3のいかなる好適な組み合わせに対して、定量的な発現データを含んでもよく、拡張遺伝子シグネチャに含まれてもよい。データセットは更に、上の表2および3に関係して記載した遺伝子シグネチャのうちのいずれに対する、定量的な発現データを含んでもよい。
一部の実施形態では、データセットは、マーカーLRRN3、AHHR、CDKN1C、PID1、SASH1、GPR15、LINC00599、P2RY6、CLEC10A、SEMA6B、F2R、CTTNBP2およびGPR63のセットのいかなる数のいかなるサブセットも含む。サブセットは、これらの特定される遺伝子のすべてより少ない数を含んでもよい。一つ以上の基準が、コアセットの中のマーカー:LRRN3、AHHR、CDKN1C、PID1、SASH1、GPR15、LINC00599、P2RY6、CLEC10A、SEMA6B、F2R、CTTNBP2およびGPR63のうちの少なくとも三つ(または4、5、6、7、8、9、10、11もしくは12など、いかなる他の好適な数)、ならびに表2または3に関係して記載した遺伝子シグネチャの中のマーカーのいずれかのうちの少なくとも二つ(または2、3、4、5、6、7、8、9、10、11もしくは12など、いかなる他の好適な数)を含むなど、シグネチャの中に含まれるようにマーカーに適用されてもよい。上に記載した通り、一部の実施形態では、シグネチャは、ゲノム全体の中の遺伝子の数より少ない、いくつかの遺伝子に限定され、10、11、12、13、14、15、20、25、30、35、40、または全ゲノムの中の遺伝子の数より少ない、いかなる他の好適な数など、遺伝子の最大数に限定されてもよい。概して、これらのマーカーの組み合わせを使用するいかなるシグネチャも、本開示の範囲を逸脱することなく、喫煙ステータスなど、対象の生物学的ステータスを予測するために使用されてもよい。
一部の実施形態では、本明細書に記載するシグネチャ中の遺伝子は、個人の喫煙者ステータスを予測するためのキットを組み立てる際に使用される。特に、キットは、試験サンプル中の遺伝子シグネチャの遺伝子発現レベルを検出する試薬のセットと、個人の喫煙者ステータスを予測するキットを使用するための説明書とを含む。キットは、禁煙、または、HTPなど、喫煙製品の代替品の個人への効果を評価するように使用されてもよい。
図2は、図1および図2に関係して記載するプロセスなど、本明細書に記載するプロセスのいずれかを遂行する、またはコア遺伝子シグネチャ、拡張遺伝子シグネチャ、もしくは本明細書に記載するいかなる他の遺伝子シグネチャを記憶する、コンピューティング装置のブロック図である。特に、コンピュータ可読媒体上に記憶された遺伝子シグネチャは、LRRN3、AHHR、CDKN1C、PID1、SASH1、GPR15、LINC00599、P2RY6、CLEC10A、SEMA6B、F2R、CTTNBP2およびGPR63に対する発現データを含む。別の実施形態では、コンピュータ可読媒体は、LRRN3、AHHR、CDKN1C、PID1、SASH1、GPR15、LINC00599、P2RY6、CLEC10A、SEMA6B、F2R、CTTNBP2およびGPR63から成る群より選択される、少なくとも4つ、5つ、6つ、7つ、8つ、9つ、10個、11個または12個のマーカーに対する発現データを含む、遺伝子シグネチャを含む。別の例では、コンピュータ可読媒体は、本明細書に記載する遺伝子シグネチャ、またはマーカーのセットのいずれかに関係するデータを含む。
ある実装では、構成要素およびデータベースは、いくつかのコンピューティング装置200上に実装されてもよい。コンピューティング装置200は、少なくとも一つの通信インターフェースユニットと、入力/出力コントローラー210と、システムメモリと、一つ以上のデータ記憶装置とを備える。システムメモリは、少なくとも一つのランダムアクセスメモリ(RAM202)と、少なくとも一つの読み取り専用メモリ(ROM204)とを含む。これら要素のすべては、コンピューティング装置200の動作を促進するように、中央処理装置(CPU206)と通信する。コンピューティング装置200は、多くの異なるやり方で構成されてもよい。例えば、コンピューティング装置200は、従来のスタンドアローンコンピュータであってもよく、または代替的に、コンピューティング装置200の機能が、複数のコンピュータシステムおよびアーキテクチャにわたって分散してもよい。コンピューティング装置200は、モデリング動作、スコアリング動作および集約動作のうちの一部またはすべてを遂行するように構成されてもよい。図2では、コンピューティング装置200は、ネットワークまたはローカルネットワークを介して、他のサーバまたはシステムにリンクされる。
コンピューティング装置200は、分散アーキテクチャで構成されてもよく、データベースおよびプロセッサは、別個のユニットまたは場所に収容される。いくつかのそのようなユニットは、主要な処理機能を遂行し、最低でも汎用コントローラーまたはプロセッサ、およびシステムメモリを包含する。そのような態様では、これらのユニットの各々は、通信インターフェースユニット208を介して、他のサーバ、クライアントまたはユーザーのコンピュータ、および他の関係する装置との主要通信リンクとして機能を果たす、通信ハブまたは通信ポート(図示せず)に取り付けられる。通信ハブまたは通信ポートは、それ自体最低限の処理能力を有してもよく、主に通信ルーターとして機能を果たす。様々な通信プロトコルが、システムの一部であってもよく、Ethernet(登録商標)、SAP、SAS(商標)、ATP、BLUETOOTH(登録商標)、GSM(登録商標)およびTCP/IPを含むが、これらに限定されない。
CPU206は、一つ以上の従来のマイクロプロセッサなどのプロセッサ、およびCPU206からの作業負荷をオフロードするための数値演算コプロセッサなど、一つ以上の補助コプロセッサを備える。CPU206は、通信インターフェースユニット208および入力/出力コントローラー210と通信し、CPU206は、これらを通して他のサーバ、ユーザー端末またはユーザー装置などの他の装置と通信する。通信インターフェースユニット208および入力/出力コントローラー210は、例えば、他のプロセッサ、サーバまたはクライアント端末との同時通信のために、複数の通信チャネルを含んでもよい。相互に通信する装置は、継続的に相互に送信する必要はない。それどころか、そのような装置は、必要に応じて相互に送信することのみが必要であり、実際には大部分の時間でデータの交換を止めてもよく、装置間の通信リンクを確立するために、いくつかの工程の遂行を要してもよい。
CPU206はまた、データ記憶装置と通信もする。データ記憶装置は、磁気、光学または半導体メモリの適切な組み合わせを備えてもよく、例えば、RAM202、ROM204、フラッシュドライブ、コンパクトディスクなどの光学ディスク、またはハードディスクもしくはハードドライブを含んでもよい。CPU206およびデータ記憶装置は各々、例えば、単一のコンピュータ内、もしくは他のコンピューティング装置内に完全に位置していてもよく、またはUSBポート、シリアルポートケーブル、同軸ケーブル、Ethernet(登録商標)タイプのケーブル、電話線、無線周波数トランシーバー、もしくは他の類似の無線もしくは有線媒体、もしくは前述の組み合わせなどの通信媒体によって相互に接続されてもよい。例えば、CPU206は、通信インターフェースユニット208を介して、データ記憶装置に接続されてもよい。CPU206は、一つ以上のある特定の処理機能を遂行するように構成されてもよい。
データ記憶装置は、例えば、(i)コンピューティング装置200のためのオペレーティングシステム212、(ii)本明細書に記載するシステムおよび方法に従って、かつ特にCPU206に関して詳細に記載するプロセスに従って、CPU206に指示するように適合された、一つ以上のアプリケーション214(例えば、コンピュータプログラムコード、またはコンピュータプログラム製品)、または(iii)プログラムが必要とする情報を記憶するように利用される場合がある、情報を記憶するように適合するデータベース(複数可)216を記憶してもよい。一部の態様では、データベース(複数可)は、実験データおよび発行された文献モデルを記憶するデータベースを含む。
オペレーティングシステム212およびアプリケーション214は、例えば、圧縮され未コンパイルで暗号化されたフォーマットで記憶されてもよく、コンピュータプログラムコードを含んでもよい。プログラムの命令は、ROM204からまたはRAM202からなど、データ記憶装置ではなくコンピュータ可読媒体から、プロセッサの主メモリへと読み込まれてもよい。プログラム中で命令シーケンスを実行することによって、CPU206に本明細書に記載するプロセス工程を遂行させる一方、本開示のプロセスの実施のために、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて配線で接続された回路が使用されてもよい。それゆえ、記載するシステムおよび方法は、ハードウェアとソフトウェアとのいかなる特定の組み合わせにも限定されない。
好適なコンピュータプログラムコードが、本明細書に記載する通りの、一つ以上の機能を遂行するために提供されてもよい。プログラムはまた、オペレーティングシステム212、データベース管理システム、および入力/出力コントローラー210を介して、プロセッサが、コンピュータ周辺装置(例えば、ビデオディスプレー、キーボード、コンピュータマウスなど)と連動することが可能になる「装置ドライバー」などのプログラム要素を含んでもよい。
「コンピュータ可読媒体」という用語は、本明細書で使用する場合、実行のために、コンピューティング装置200のプロセッサ(または本明細書に記載する装置のいかなる他のプロセッサ)に命令を提供する、またはその提供に関与する任意の非一時的媒体を指す。そのような媒体は、不揮発性媒体および揮発性媒体を含むが、これらに限定されない、多くの形態を取ってもよい。不揮発性媒体としては、例えば、光学、磁気もしくは光磁気ディスク、またはフラッシュメモリなどの集積回路メモリが挙げられる。揮発性媒体としては、通常主メモリを構成する、ダイナミックランダムアクセスメモリ(DRAM)が挙げられる。コンピュータ可読媒体のよくある形態としては、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、いかなる他の磁気媒体、CD-ROM、DVD、いかなる他の光学媒体、パンチカード、紙テープ、いかなる他の孔パターン付きの物理的媒体、RAM、PROM、EPROMもしくはEEPROM(電気的消去可能なプログラマブル読み取り専用メモリ)、FLASH-EEPROM、いかなる他のメモリチップもしくはカートリッジ、またはコンピュータが読み取ることができるいかなる他の非一時的媒体が挙げられる。
様々な形態のコンピュータ可読媒体が、実行のために、一つ以上の命令の一つ以上のシーケンスを、CPU206(または、本明細書に記載する装置のいかなる他のプロセッサ)に運ぶのに関与してもよい。例えば、命令は最初、リモートコンピュータ(図示せず)の磁気ディスク上に置かれてもよい。リモートコンピュータは、命令をそのダイナミックメモリへロードし、Ethernet(登録商標)接続、ケーブル回線、またはモデムを使用する電話線さえも通して、命令を送る場合がある。コンピューティング装置200(例えば、サーバ)に対してローカルである通信装置は、それぞれの通信回線上でデータを受け取り、プロセッサ用のシステムバス上にデータを位置付けてもよい。システムバスは、プロセッサが命令を取得し実行する主メモリに、データを運ぶ。主メモリが受け取った命令は、任意選択により、プロセッサによって実行の前または後のいずれかに、メモリに記憶されてもよい。加えて、命令は、ワイヤレス通信または様々なタイプの情報を運ぶデータストリームの例示的な形態である、電気信号、電気磁気信号または光学信号として、通信ポートを介して受け取られてもよい。
本明細書で参照する各参考文献は、参照することによって、そのそれぞれの全体が本明細書に組み込まれる。
本開示の実装を、特定の実施例を参照して具体的に示し記載してきたが、本開示の範囲を逸脱することなく、添付の特許請求の範囲によって定義される通り、形態および詳細の様々な変更が本開示の実装になされてもよいことは、当業者によって理解されるべきである。よって、本開示の範囲は、添付の特許請求の範囲によって示され、したがって、特許請求の範囲の均等物の意味および範囲内に入る、すべての変化を受け入れることが意図される。