JP2020072741A

JP2020072741A - 個人の喫煙ステータスを予測するためのシステムおよび方法

Info

Publication number: JP2020072741A
Application number: JP2020017791A
Authority: JP
Inventors: マルティンフロリアン; Martin Florian; タリッカマリヤ; Talikka Marja
Original assignee: Philip Morris Products SA
Current assignee: Philip Morris Products SA
Priority date: 2013-12-16
Filing date: 2020-02-05
Publication date: 2020-05-14
Also published as: EP3084664B8; CA2932649A1; JP2017505932A; HK1232312A1; CN111540410A; EP3084664A1; EP3084664B1; PL3084664T3; US11127486B2; US20160314244A1; CN106415563B; CN111540410B; CA2932649C; JP6703479B2; CN106415563A; WO2015091225A1

Abstract

【課題】個人の喫煙ステータスを予測するためのシステムおよび方法の提供。【解決手段】被験者から取得したサンプルを評価するためのシステムおよび方法が提供される。コンピュータ化した方法は、受け取る回路によって、サンプルに関連付けられたデータセットを受け取ることを含み、このデータセットは、ＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、およびＴＮＦＲＳＦ１７に対する定量的な発現データを含む。この方法は、受け取ったデータセットに基づいてプロセッサによって、予測される被験者の喫煙ステータスを示すスコアを発生することを更に含む。被験者の予測される喫煙ステータスは、現在喫煙している者として、または現在喫煙していない者として被験者を分類する場合がある。【選択図】なし

Description

関連出願の相互参照
本出願は、合衆国法典第３５編米国特許法第１１９条の下で、２０１３年１２月１６日出願の「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＰｒｅｄｉｃｔｉｎｇａＳｍｏｋｉｎｇＳｔａｔｕｓｏｆａｎＩｎｄｉｖｉｄｕａｌ」と題する米国仮特許出願第６１／９１６，４４３号の優先権を主張するものであり、その全体が参照により本明細書に組み込まれる。

全ゲノム発現レベルを測定し、そして様々な条件に対する生物学的洞察を得るために、全ゲノムマイクロアレイを実用的な手段として使用する。このアプローチは、活性物質への曝露に対する身体の応答を評価し、そして結果として得られる表現型を予測するためにも使用される。組織学的異常が見られない時でさえ、煙への曝露に応答した喫煙者の太い気道の細胞のトランスクリプトームの分子変化を検出することができる。この観察は、様々な物質の曝露に対する生物系の応答を評価するためにトランスクリプトームデータを使用することができる可能性があることを示す。

数多くの製品リスク評価研究では、所望の原発部位（気道などの）からのサンプルの取得は侵襲的であり、不便でもある。別の方法としての末梢血サンプリングは、侵襲性が最低限であり、一般的な母集団で広く使用される。従って、代理の組織として機能する末梢血を信頼して使用することができるバイオマーカーを見出し、かつ確立することには利益がある。

以前に、ケース母集団と対照母集団との間で差次的に発現される遺伝子の特定に焦点を当てた分子バイオマーカーの発見が試みられた。最近の方法により、ますます予想性の高い新しいケースに遭遇することができ、これによって診断の強化、予後の改善、個人向け医療の進化がもたらされる。しかしながら、臨床用途のためのロバストでかつ多目的な演算方法論の開発は、まだ困難なままである。喫煙に関連する疾病については、末梢血サンプル内の診断シグネチャが特定されてきた。少なくとも２つの研究は、差次的に発現される遺伝子が、対照被験者または非悪性肺疾患を有する被験者から初期の非小細胞肺がんを有する被験者を判別することができることを示した（Ｒｏｔｕｎｎｏ，Ｍ．，Ｈｕ，Ｎ．，Ｓｕ，Ｈ．，Ｗａｎｇ，Ｃ．，Ｇｏｌｄｓｔｅｉｎ，Ａ．Ｍ．，Ｂｅｒｇｅｎ，Ａ．Ｗ．，Ｃｏｎｓｏｎｎｉ，Ｄ．，Ｐｅｓａｔｏｒｉ，Ａ．Ｃ．，Ｂｅｒｔａｚｚｉ，Ｐ．Ａ．，Ｗａｃｈｏｌｄｅｒ，Ｓ．，ｅｔａｌ．（２０１１）．ＡｇｅｎｅｅｘｐｒｅｓｓｉｏｎｓｉｇｎａｔｕｒｅｆｒｏｍｐｅｒｉｐｈｅｒａｌｗｈｏｌｅｂｌｏｏｄｆｏｒｓｔａｇｅＩｌｕｎｇａｄｅｎｏｃａｒｃｉｎｏｍａ．ＣａｎｃｅｒＰｒｅｖＲｅｓ（Ｐｈｉｌａ）４，１５９９−１６０８；Ｓｈｏｗｅ，Ｍ．Ｋ．，Ｖａｃｈａｎｉ，Ａ．，Ｋｏｓｓｅｎｋｏｖ，Ａ．Ｖ．，Ｙｏｕｓｅｆ，Ｍ．，Ｎｉｃｈｏｌｓ，Ｃ．，Ｎｉｋｏｎｏｖａ，Ｅ．Ｖ．，Ｃｈａｎｇ，Ｃ．，Ｋｕｃｈａｒｃｚｕｋ，Ｊ．，Ｔｒａｎ，Ｂ．，Ｗａｋｅａｍ，Ｅ．，ｅｔａｌ．（２００９）．Ｇｅｎｅｅｘｐｒｅｓｓｉｏｎｐｒｏｆｉｌｅｓｉｎｐｅｒｉｐｈｅｒａｌｂｌｏｏｄｍｏｎｏｎｕｃｌｅａｒｃｅｌｌｓｃａｎｄｉｓｔｉｎｇｕｉｓｈｐａｔｉｅｎｔｓｗｉｔｈｎｏｎ−ｓｍａｌｌｃｅｌｌｌｕｎｇｃａｎｃｅｒｆｒｏｍｐａｔｉｅｎｔｓｗｉｔｈｎｏｎｍａｌｉｇｎａｎｔｌｕｎｇｄｉｓｅａｓｅ．ＣａｎｃｅｒＲｅｓ６９，９２０２−９２１０）。

Ｒｏｔｕｎｎｏ，Ｍ．，Ｈｕ，Ｎ．，Ｓｕ，Ｈ．，Ｗａｎｇ，Ｃ．，Ｇｏｌｄｓｔｅｉｎ，Ａ．Ｍ．，Ｂｅｒｇｅｎ，Ａ．Ｗ．，Ｃｏｎｓｏｎｎｉ，Ｄ．，Ｐｅｓａｔｏｒｉ，Ａ．Ｃ．，Ｂｅｒｔａｚｚｉ，Ｐ．Ａ．，Ｗａｃｈｏｌｄｅｒ，Ｓ．，ｅｔａｌ．（２０１１）ＡｇｅｎｅｅｘｐｒｅｓｓｉｏｎｓｉｇｎａｔｕｒｅｆｒｏｍｐｅｒｉｐｈｅｒａｌｗｈｏｌｅｂｌｏｏｄｆｏｒｓｔａｇｅＩｌｕｎｇａｄｅｎｏｃａｒｃｉｎｏｍａ．ＣａｎｃｅｒＰｒｅｖＲｅｓ（Ｐｈｉｌａ）４，１５９９−１６０８；Ｓｈｏｗｅ，Ｍ．Ｋ．，Ｖａｃｈａｎｉ，Ａ．，Ｋｏｓｓｅｎｋｏｖ，Ａ．Ｖ．，Ｙｏｕｓｅｆ，Ｍ．，Ｎｉｃｈｏｌｓ，Ｃ．，Ｎｉｋｏｎｏｖａ，Ｅ．Ｖ．，Ｃｈａｎｇ，Ｃ．，Ｋｕｃｈａｒｃｚｕｋ，Ｊ．，Ｔｒａｎ，Ｂ．，Ｗａｋｅａｍ，Ｅ．，ｅｔａｌ．（２００９）Ｇｅｎｅｅｘｐｒｅｓｓｉｏｎｐｒｏｆｉｌｅｓｉｎｐｅｒｉｐｈｅｒａｌｂｌｏｏｄｍｏｎｏｎｕｃｌｅａｒｃｅｌｌｓｃａｎｄｉｓｔｉｎｇｕｉｓｈｐａｔｉｅｎｔｓｗｉｔｈｎｏｎ−ｓｍａｌｌｃｅｌｌｌｕｎｇｃａｎｃｅｒｆｒｏｍｐａｔｉｅｎｔｓｗｉｔｈｎｏｎｍａｌｉｇｎａｎｔｌｕｎｇｄｉｓｅａｓｅ．ＣａｎｃｅｒＲｅｓ６９，９２０２−９２１０）

個人の喫煙者ステータスを予測するために使用することができるロバストな血液に基づく遺伝子シグネチャを特定するための演算システムおよび方法が提供される。本明細書に記述される遺伝子シグネチャは、現在喫煙している被験者を、喫煙したことがない被験者または喫煙をやめた被験者と区別できるようにすることによって、個人の喫煙者ステータスを正確に予測する能力を有する。

特定の態様では、本開示のシステムおよび方法は、被験者から取得したサンプルを評価するためのコンピュータ化した方法を提供する。コンピュータ化した方法は、受け取る回路によって、サンプルに関連付けられたデータセットを受け取ることを含み、このデータセットは、ＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、およびＴＮＦＲＳＦ１７に対する定量的な発現データを含む。プロセッサは、受け取ったデータセットに基づいて、予測される被験者の喫煙ステータスを示すスコアを発生する。予測される喫煙ステータスは、現在喫煙している者として、または現在喫煙していない者として被験者を分類する場合がある。

特定の実施では、データセットは、ＩＧＪ、ＲＲＭ２、ＳＥＲＰＩＮＧ１、ＦＵＣＡ１、およびＩＤ３に対する定量的な発現データを更に含む。特定の実施では、スコアは、データセットに適用される分類スキームの結果であり、分類スキームはデータセット内の定量的な発現データに基づいて決定される。

特定の実施では、この方法は、ＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、およびＴＮＦＲＳＦ１７の各々に対してフォールド変化値を演算し、少なくとも１つの基準を満たす各フォールド変化値を決定することを更に含む。基準は、少なくとも２つの独立した母集団データセットに対してそれぞれの演算されたフォールド変化値が各々所定の閾値を超えることを必要とする場合がある。

特定の態様では、本開示のシステムおよび方法は、被験者から取得したサンプルを評価するためのコンピュータ化した方法を提供する。１つの装置は、試験サンプル内のＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、およびＴＮＦＲＳＦ１７を含む遺伝子シグネチャ内の前記遺伝子の発現レベルを検出するための手段を含む。この装置は、発現レベルを喫煙者ステータスの分類と相関するための手段、および被験者の喫煙者ステータスの予測として喫煙者ステータスの分類を出力するための手段も含む。

特定の態様では、本開示のシステムおよび方法は、個人の喫煙者ステータスを予測するためのキットを提供する。このキットは、試験サンプル内のＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、およびＴＮＦＲＳＦ１７を含む遺伝子シグネチャ内の遺伝子の発現レベルを検出する一組の試薬と、個人の喫煙者ステータスを予測するためのキットを使用するための説明書とを含む。

特定の態様では、本開示のシステムおよび方法は、喫煙製品の代替品の個人に対する効果を評価するためのキットを提供する。このキットは、試験サンプル内のＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、およびＴＮＦＲＳＦ１７を含む遺伝子シグネチャ内の遺伝子の発現レベルを検出する一組の試薬と、代替品の個人に対する効果を評価するための前記キットを使用するための説明書とを含む。喫煙製品の代替品は、加熱たばこ製品（ＨＴＰ）であってもよく、そして代替品の個人に対する効果は、その個人を非喫煙者として分類することであってもよい。

特定の態様では、本開示のシステムおよび方法は、被験者から取得したサンプルを評価するための方法を提供する。この方法は、受け取る回路によって、サンプルに関連付けられたデータセットを受け取ることを含む。このデータセットは、ＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、ＴＮＦＲＳＦ１７、ＩＧＪ、ＲＲＭ２、ＳＥＲＰＩＮＧ１、ＦＵＣＡ１、およびＩＤ３から成る群から選択される少なくとも５つのマーカーに対する定量的な発現データを含む。この方法は、受け取ったデータセットに基づいてプロセッサによって、予測される被験者の喫煙ステータスを示すスコアを発生することを更に含む。被験者の予測される喫煙ステータスは、現在喫煙している者として、または現在喫煙していない者として被験者を分類する場合がある。

このスコアは、このデータセットに適用される分類スキームの結果である場合があり、分類スキームはデータセット内の定量的な発現データに基づいて決定される。この方法は、ＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、およびＴＮＦＲＳＦ１７の各々に対してフォールド変化値を演算し、少なくとも１つの基準を満たす各フォールド変化値を決定することを更に含む場合がある。基準は、少なくとも２つの独立した母集団データセットに対してそれぞれの演算されたフォールド変化値が各々所定の閾値を超えることを必要とする場合がある。

特定の態様では、本開示のシステムおよび方法は、被験者から取得したサンプルを評価するための装置を提供する。この装置は、ＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、ＴＮＦＲＳＦ１７、ＩＧＪ、ＲＲＭ２、ＳＥＲＰＩＮＧ１、ＦＵＣＡ１、およびＩＤ３から成る群から選択される少なくとも５つのマーカーを含む遺伝子シグネチャ内の遺伝子の発現レベルを検出するための手段を含む。この装置は、発現レベルを喫煙者ステータスの分類と相関するための手段、および被験者の喫煙者ステータスの予測として喫煙者ステータスの分類を出力するための手段を更に含む。

特定の態様では、本開示のシステムおよび方法は、個人の喫煙者ステータスを予測するためのキットを提供する。このキットは、試験サンプル中のＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、ＴＮＦＲＳＦ１７、ＩＧＪ、ＲＲＭ２、ＳＥＲＰＩＮＧ１、ＦＵＣＡ１、およびＩＤ３から成る群から選択される少なくとも５つのマーカーを含む遺伝子シグネチャ内の遺伝子の発現レベルを検出する一組の試薬と、個人の喫煙者ステータスを予測するための前記キットを使用するための説明書とを備える。

特定の態様では、本開示のシステムおよび方法は、喫煙製品の代替品の個人に対する効果を評価するためのキットを提供する。このキットは、試験サンプル中のＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、ＴＮＦＲＳＦ１７、ＩＧＪ、ＲＲＭ２、ＳＥＲＰＩＮＧ１、ＦＵＣＡ１、およびＩＤ３から成る群から選択される少なくとも５つのマーカーを含む遺伝子シグネチャ内の遺伝子の発現レベルを検出する一組の試薬と、代替品の個人に対する効果を評価するための前記キットを使用するための説明書とを含む。喫煙製品に対する代替品は、ＨＴＰであってもよく、そして代替品の個人に対する効果は、その個人を非喫煙者として分類することであってもよい。
本発明は、例えば、以下を提供する。
（項目１）
被験者から取得したサンプルを評価するためのコンピュータ実装された方法であって、
受け取る回路によって前記サンプルに関連付けられたデータセットを受け取ることであって、前記データセットがＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、およびＴＮＦＲＳＦ１７に対する定量的な発現データを含むことと、
プロセッサによって前記受け取ったデータセットに基づいてスコアを発生することであって、前記スコアが前記被験者の予測される喫煙ステータスを示すことと、を含む、コンピュータ実装された方法。
（項目２）
前記データセットが、ＩＧＪ、ＲＲＭ２、ＳＥＲＰＩＮＧ１、ＦＵＣＡ１、およびＩＤ３に対する定量的な発現データを更に含む、項目１に記載のコンピュータ実装された方法。
（項目３）
前記スコアが前記データセットに適用される分類スキームの結果であって、前記分類スキームが前記データセット内の前記定量的な発現データに基づいて決定される、項目１または２のいずれか１項に記載のコンピュータ実装された方法。
（項目４）
ＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、およびＴＮＦＲＳＦ１７の各々に対してフォールド変化値を演算することを更に含む、項目１〜３のいずれか１項に記載のコンピュータ実装された方法。
（項目５）
各演算されたフォールド変化値のそれぞれが少なくとも２つの独立した母集団データセットに対する所定の閾値を超えることを要する少なくとも１つの基準を、各フォールド変化値が満たすことを決定することを更に含む、項目４に記載のコンピュータ実装された方法。
（項目６）
個人の喫煙者ステータスを予測するためのキットであって、
試験サンプル内のＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、およびＴＮＦＲＳＦ１７を含む遺伝子シグネチャ内の前記遺伝子の発現レベルを検出する一組の試薬と、
前記個人の喫煙者ステータスを予測するための前記キットを使用するための説明書と、を備えるキット。
（項目７）
喫煙製品の代替品の個人に対する効果を評価するために前記キットが使用される、項目６に記載のキット。
（項目８）
前記喫煙製品の前記代替品が加熱式たばこ製品である、項目７に記載のキット。
（項目９）
前記個人による前記加熱式たばこ製品の使用開始後０〜５日の間にＬＲＲＮ３発現の減少が検出される、項目８に記載のキット。
（項目１０）
前記代替品の前記個人に対する前記効果が、前記個人を非喫煙者として分類するものである、項目７〜９のいずれか１項に記載のキット。
（項目１１）
前記遺伝子シグネチャが、ＩＧＪ、ＲＲＭ２、ＳＥＲＰＩＮＧ１、ＦＵＣＡ１、およびＩＤ３のうちの少なくとも１つを更に含む、項目６〜１０のいずれか１項に記載のキット。
（項目１２）
個人の喫煙者ステータスを予測するためのキットであって、
試験サンプル中のＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、ＴＮＦＲＳＦ１７、ＩＧＪ、ＲＲＭ２、ＳＥＲＰＩＮＧ１、ＦＵＣＡ１、およびＩＤ３から成る群から選択される少なくとも５つのマーカーを含む遺伝子シグネチャ内の前記遺伝子の発現レベルを検出する一組の試薬と、
前記個人の喫煙者ステータスを予測するための前記キットを使用するための説明書と、を備えるキット。
（項目１３）
喫煙製品の代替品の個人に対する効果を評価するために使用されるキットであって、前記喫煙製品の前記代替品が加熱式たばこ製品である、項目１２に記載のキット。
（項目１４）
前記個人による前記加熱式たばこ製品の使用開始後０〜５日の間にＬＲＲＮ３発現の減少が検出される、項目１３に記載のキット。
（項目１５）
コンピュータ可読指示を含むコンピュータプログラム製品であって、少なくとも１つのプロセッサを備えるコンピュータ化したシステムで実行した時、項目１〜５のいずれか１項に記載の前記方法の１つ以上の工程を前記プロセッサに実施させる、コンピュータプログラム製品。

本開示の更なる特徴、その性質、および様々な利点は、全体を通して同様の参照文字が同様の部分を指す添付の図面と併せて、以下の発明を実施するための形態を考慮することにより明らかになるであろう。

遺伝子の集合を特定し、遺伝子の集合に基づいて分類モデルを取得するためのプロセスのフローチャートである。被験者から取得したサンプルを評価するためのプロセスのフローチャートである。本明細書に記載されるコンピュータ化したシステムのいずれかの中に構成要素のいずれかを実装するために使用される場合がある例示的なコンピューティング装置のブロック図である。サンプルのデータセットで差次的に発現される遺伝子に対するボルケーノプロットである。異なる研究に対する分類スキームを示す様々なボックスプロットである。

（詳細な説明）
個人の喫煙者ステータスを予測するために使用することができるロバストな血液に基づく遺伝子シグネチャを特定するための演算システムおよび方法を本明細書に記述する。特に、本明細書に記述する遺伝子シグネチャは、現在喫煙している被験者を喫煙したことがない被験者または喫煙をやめた被験者特別する能力を有する。

本明細書で使用する場合、「ロバスト」な遺伝子シグネチャは、研究、研究期間、サンプル源、および他の人口統計学的因子にわたって強い特性を維持するものを指す。ロバストシグネチャは、大きい個人差を含む母集団データの集合であってさえも検出可能であるべきことが重要である。データセットにわたるロバスト性は、シグネチャの特性の過度の楽観的な報告を避けるためにも適切に認証されるべきである。

本開示の１つの目的は、個人の喫煙者ステータスを正確に予測することができる遺伝子シグネチャを取得することである。遺伝子シグネチャの特性を見積もるために、本明細書に予測の結果を表に示す。この表では、予測されるステータスを横列に示し、実際のステータスを縦列に示す。以下に示す表１は、予測結果を表示するための１つのやり方の実施例である。この表の第１の横列は、現在喫煙している者の実際の数および現在喫煙していない者の実際の数を示し、これらの者のサンプルは現在喫煙している者と関連付けられることが予測されており、この表の第２の横列は、実際に現在喫煙している者の数および実際に現在喫煙していない者の数を示し、これらの者のサンプルは現在喫煙していない者と関連付けられることが予測されている。
完全な予測子は、すべての現在喫煙している者を現在喫煙している者として正確に予測し（真陽性が１００％となり、偽陰性が０％となる）、そしてすべての現在喫煙していない者を現在喫煙していない者として正確に予測する（真陰性が１００％となり、偽陽性が０％となる）。本明細書に記述するように、個人は、喫煙ステータス（例えば、現在喫煙している者、現在喫煙していない者、以前喫煙していた者、喫煙したことがない者、等々）に従って分類されるが、一般に、当業者であれば本明細書に記述されるシステムおよび方法が任意の分類スキームに適用可能であることを理解するであろう。

予測子の強さを見積もるために、予測結果表内の値に基づく様々な評価基準が使用される場合がある。本明細書では、現在喫煙している者の集合の中から現在喫煙している者として正確に分類される個人の割合である１つの評価基準が「感受性」として参照される。換言すれば、感受性評価基準は、真陽性の数を真陽性と偽陰性との合計で割り算したもの、すなわちとＴＰ／（ＴＰ＋ＦＮ）に等しい。感受性値が１であるということは、現在喫煙している者についての完全な分類を示す。本明細書では、現在喫煙していない者の集合の中から現在喫煙していない者として正確に分類される個人の割合である１つの別の評価基準が「特異性」として参照される。換言すれば、特異性評価基準は、真陰性の数を真陰性と偽陽性との合計で割り算したもの、すなわちとＴＮ／（ＴＮ＋ＦＰ）に等しい。特異性値が１であるということは、現在喫煙していない者についての完全な分類を示す。強い予測子であると考えられるためには、感受性と特異性との両方の値が高いことが望ましい。本明細書では、予測子の特性を見積もるために感受性評価基準および特異性評価基準が使用されるが、一般には、陽性試験の予測値（ＴＰ／（ＴＰ＋ＦＰ））または陰性試験の予測値（ＴＮ／（ＴＮ＋ＦＮ））などの任意の他の評価基準も本開示の範囲を逸脱することなく使用される場合がある。

本明細書に記述されるシステムおよび方法は、先ず異なる訓練データセットからその発現レベルが高いフォールド変化を呈する遺伝子を特定することによって予測モデルを構築する。次いで、独立したデータセットを用いて特定された遺伝子の集合が認証される。認証の後、既知の喫煙者ステータスを持つ被験者の血液トランスクリプトームを見積もり、１つの喫煙者ステータスを有する個人の特定された遺伝子集合からの発現レベルを、別の喫煙者ステータスを有する個人と比較することで、遺伝子集合が試験された。結果として得られる、順調に認証されかつ試験された遺伝子の集合は、本明細書では「遺伝子シグネチャ」と称される。

遺伝子シグネチャは、個人を特定の予測される喫煙者ステータス群へと正確に分類するために使用することができる。更に、個人の喫煙者ステータスを正確に予測することができることで、遺伝子シグネチャは、ＨＴＰを使用する個人と従来の紙巻たばこを喫煙する個人の結果を比較することによって様々なＨＴＰの使用を検出することができるようになる。遺伝子シグネチャは、喫煙行動に関する適合性が要求される状況で使用されてもよい。一例では、個人の予測される喫煙者ステータス（遺伝子シグネチャによって決定される）は、個人がＨＴＰに切り替えた後、生物学的に変化するかどうか、またはいつ生物学的に変化するかを特定するために、ＨＴＰに対する臨床試験で使用されてもよい。一般に、遺伝子シグネチャは、紙巻たばこ喫煙、禁煙、またはＨＴＰへの切り替えをモニターする、任意の健康に関係する研究に使用される場合がある。

一例では、いくつかの公的に入手可能な遺伝子発現データセットから、現在喫煙している者および非喫煙者または以前喫煙していた者からの血液サンプルをプロファイリングしたいくつかのデータを取得した。様々な独立した研究からのフォールド変化の高い遺伝子に基づいて遺伝子を予め選択することは有利である。そうすることによってシグネチャのロバスト性を異なる研究にわたって強化し、かつ単一のデータセットによって予測モデルにバイアスがないようにするためである。ＣＯＰＤに対する新規なバイオマーカーを発見することを目的とした臨床的な研究から誘導された独立したデータセットによって、認証が遂行される。更に、別の臨床研究から、従来の紙巻たばこ（たばこを燃焼する）からＨＴＰ（たばこを燃焼しない、本明細書ではたばこ加熱システム（ＴＨＳ）２．１と称する）に連続５日間切り替えた喫煙者の血液トランスクリプトームが見積もられ、従来の紙巻たばこを継続的に喫煙している喫煙者の血液トランスクリプトームと比較された。本明細書に記述されるシグネチャは、独立したデータセットを使用したその特性によって実証されるように、現在喫煙している者と現在喫煙していない者との分類を顕著に良好に行う。更に、５日間のＴＨＳ２．１への切り替えの影響は、血液トランスクリプトーム内で検出可能であり、ＴＨＳ２．１に切り替えた被験者は現在喫煙していない者に分類された。これは、本明細書の遺伝子シグネチャ並びにシステムおよび方法が、喫煙者ステータスを決定するためだけでなく、紙巻たばこ喫煙の短期的な影響を見積もる上でも有用である場合があることを示唆する。

限られた数の遺伝子に基づくシグネチャを使用することは、コストおよび作業負荷を低減するという点で全トランスクリプトームを使用することと比較して有利である。解析は、最終的には定量的逆転写酵素ポリメラーゼ連鎖反応（ｑＲＴ−ＰＣＲ）測定に基づくからである。ｑＲＴ−ＰＣＲを使用するための装置への投資および試薬代などのランニングコストは、マイクロアレイの使用よりも好ましいものである。

一実施例では、遺伝子シグネチャを特定するために、最初の工程で異なる訓練データセットが取得される。具体的には、本明細書では２つの訓練データセット、すなわちＢＬＤ−ＳＭＫ−０１およびＱＡＳＭＣが使用される。しかしながら、一般に、本開示の範囲を逸脱することなく、任意の数の任意の組み合わせの訓練データセットが使用されてもよい。

ＢＬＤ−ＳＭＫ−０１用にＰＡＸｇｅｎｅ血液ＤＮＡキット（Ｑｉａｇｅｎ）を使用して収集した血液サンプルを、保存レポジトリ（ＢｉｏＳｅｒｖｅＢｉｏｔｅｃｈｎｏｌｏｇｉｅｓＬｔｄ，（米国メリーランド州、Ｂｅｌｔｓｖｉｌｌｅ、２０７０５））から取得した。サンプリングのとき、被験者の年齢は、２３歳〜６５歳であった。病歴のない被験者および処方薬を服用している被験者は除外された。現在喫煙している者は、少なくとも１日につき１０本の紙巻たばこを少なくとも３年間喫煙していた。以前喫煙していた者は、少なくともサンプリングの２年前に喫煙をやめていて、少なくとも１日につき１０本の紙巻たばこを少なくとも３年間喫煙していた。現在喫煙している者と非喫煙者とは、年齢および性別を一致させた。現在喫煙している者から合計で３１個の血液サンプルを取得し、喫煙したことがない者から３０個の血液サンプルを取得し、そして以前喫煙していた者から３０個の血液サンプルを取得した。

ＱｕｅｅｎＡｎｎＳｔｒｅｅｔＭｅｄｉｃａｌＣｅｎｔｅｒ（ＱＡＳＭＣ）の臨床研究からも血液サンプルを取得した。これは、ＴｈｅＨｅａｒｔａｎｄＬｕｎｇＣｅｎｔｒｅ（英国、Ｌｏｎｄｏｎ）においてＧｏｏｄＣｌｉｎｉｃａｌＰｒａｃｔｉｃｅ（ＧＣＰ）に従って行われ、そしてこれは識別子、ＮＣＴ０１７８０２９８でＣｌｉｎｉｃａｌＴｒｉａｌｓ．ｇｏｖに登録されている。ＱＡＳＭＣの研究は、バイオマーカーまたはバイオマーカーのパネルを特定することを目的とするものだが、これらのバイオマーカーはＣＯＰＤを患う被験者（現在喫煙している者、≧１０パック年の喫煙履歴のある、ＧＯＬＤＳｔａｇｅ１または２）と一致させた非喫煙被験者の３つの対照群（喫煙したことがない者、以前喫煙していた者、および現在喫煙している者）との間の区別を可能にすることになる。６０人の被験者からのサンプルを４つの群の各々で取得した（合計被験者２４０人）。４０〜７０歳の男性および女性の被験者が含まれた。すべての被験者は、研究で採用されたＣＯＰＤ被験者と人種、性別、および年齢（５年以内）を一致させた。血液サンプルをＡＲＯＳＡｐｐｌｉｅｄＢｉｏｔｅｃｈｎｏｌｏｇｙＡＳ（デンマーク、Ａａｒｈｕｓ）に送付し、ここで血液サンプルを更に処理し、次いで以下に記述するように、ＡｆｆｙｍｅｔｒｉｘＨｕｍａｎＧｅｎｏｍｅＵ１３３Ｐｌｕｓ２．０ＧｅｎｅＣｈｉｐｓと交配した。

製造業者の説明書に従ってＰＡＸｇｅｎｅＢｌｏｏｄｍｉＲＮＡＫｉｔ（ｃａｔａｌｏｇｎｕｍｂｅｒ，７６３１３４、Ｑｉａｇｅｎ）を使用して、全ＲＮＡ（ｍｉｃｒｏＲＮＡを含む）を分離した。ＲＮＡサンプルの濃度および純度は、ＵＶ分光光度計（ＮａｎｏＤｒｏｐＮＤ１０００、ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ（米国マサチューセッツ州Ｗａｌｔｈａｍ））を使用して、２３０、２６０、および２８０ｎｍにおける吸光度を測定することによって決定された。ＲＮＡの完全性は、Ａｇｉｌｅｎｔ２１００Ｂｉｏａｎａｌｙｚｅｒを使用して更に確認された。上記６つのＲＮＡ完全性番号（ＲＩＮ）を有するＲＮＡのみが更なる解析のために処理された。

ＲＮＡの調製およびＡｆｆｙｍｅｔｒｉｘ交配。５０ｎｇのＲＮＡから、ＮｕＧＥＮ（商標）Ｏｖａｔｉｏｎ（商標）全血試薬およびＮｕＧＥＮ（商標）Ｏｖａｔｉｏｎ（商標）ＲＮＡＡｍｐｌｉｆｉｃａｔｉｏｎＳｙｓｔｅｍＶ２を使用して転写の３’終止部を標的としたＡｆｆｙｍｅｔｒｉｘプローブセットを調製した。ｃＤＮＡの量はＮａｎｏｄｒｏｐ１０００または８０００、分光光度計（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ）、またはＳｐｅｃｔｒａＭａｘ３８４Ｐｌｕｓ（ＭｏｌｅｃｕｌａｒＤｅｖｉｃｅｓ）を用いて測定された。ｃＤＮＡの質は、断片化していないｃＤＮＡのサイズをＡｇｉｌｅｎｔ２１００Ｂｉｏａｎａｌｙｚｅｒ使用して評価することによって決定された。最終的な断片化およびビオチン化した生成物のサイズ分布も、エレクトロフェログラムを使用してモニターされた。ｃＤＮＡをラベリングした後、製造業者のガイドラインに従って、断片をＧｅｎｅＣｈｉｐＨｕｍａｎＧｅｎｏｍｅＵ１３３Ｐｌｕｓ２．０Ａｒｒａｙに交配した。標的の調製のサンプルは、Ａｆｆｙｍｅｔｒｉｘ遺伝子発現マイクロアレイのために完全にランダム化された。

ＴａｑｍａｎｑＲＴ−ＰＣＲアッセイ。逆転写反応を、ｉＳｃｒｉｐｔ（商標）ｃＤＮＡＳｙｎｔｈｅｓｉｓＫｉｔ（カタログ番号１７０−８８９０、Ｂｉｏ−Ｒａｄ（米国カリフォルニア州Ｈｅｒｃｕｌｅｓ））を使用して、製造業者の説明書に従って５００ｎｇの開始ＲＮＡを用いて遂行した。次いで、このｃＤＮＡを希釈して厳密に１０ｎｇ／μＬにした。市販のヒトユニバーサルＲＮＡ（ＵＨＲ）参照（Ｃａｔ＃７４００００、ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ（米国カリフォルニア州ＳａｎｔａＣｌａｒａ））を、複数の実験および機器にわたって信頼性のあるデータの比較を行うために較正用としてサンプルに加えた。Ｔａｑｍａｎアッセイ中で使用されたプローブはエクソンをスパニングし、そしてデータの正規化工程のために５つのハウスキーピング遺伝子（Ｂ２Ｍ、ＧＡＰＤＨ、ＦＡＲＰ１、Ａ４ＧＡＬＴ、ＧＩＮＳ２）が選択された。ｑＰＣＲ工程は、Ｔａｑｍａｎ（登録商標）アッセイおよびＴａｑＭａｎ（登録商標）ＦａｓｔＡｄｖａｎｃｅｄＭａｓｔｅｒＭｉｘ（ｃａｔ：４４４９６３）を使用して実施された。簡潔に述べると、ｃＤＮＡを希釈して、３８４ウェルプレートで、ウェルにつき１．２５ｎｇで適用できるようにした。並行して、各Ｔａｑｍａｎアッセイ用にマスターミックス（Ｔａｑｍａｎアッセイ試薬およびＴａｑｍａｎＡｄｖａｎｃｅｄＭｉｘのミックス）を調製した。最終的な反応容積は１０ μＬであった。Ｖｉｉａ７機器（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）を使用してｑＰＣＲを実行し、そして結果を解析するために自動ベースラインおよびデフォルトＣ_ｔ閾値設定を適用した。ユニバーサルヒト参照（ＵＨＲ）サンプルを追加すると、各々の遺伝子用に（サブトラクションによって）Ｃ_ｔ値がＵＨＲＣ_ｔ値に関して正規化され、次いでＧＡＰＤＨハウスキーピング遺伝子値（いわゆるΔΔＣ_ｔ値をもたらす）に関して正規化された。

ＴａｑｍａｎプライマーをＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ（米国カリフォルニア州）から取得した。下記の表２にｑＲＴ−ＰＣＲを遂行するために使用されるプライマー配列を一覧表示する。

マイクロアレイ解析−データ品質の確認および正規化。チップスキャン上のアーチファクトを検出するためのチップ画像の調査後、標準的な品質管理パイプラインを通してデータを処理した。簡潔に述べると、ａｆｆｙパッケージのＲｅａｄＡｆｆｙ機能（Ｇａｕｔｉｅｒ，Ｌ．，Ｃｏｐｅ，Ｌ．，Ｂｏｌｓｔａｄ，Ｂ．Ｍ．，ａｎｄＩｒｉｚａｒｒｙ，Ｒ．Ａ．（２００４）．ａｆｆｙ−−−ａｎａｌｙｓｉｓｏｆＡｆｆｙｍｅｔｒｉｘＧｅｎｅＣｈｉｐｄａｔａａｔｔｈｅｐｒｏｂｅｌｅｖｅｌ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２０，３０７−３１５）を使用して、マイクロアレイ解析ツールのＢｉｏｃｏｎｄｕｃｔｏｒｓｕｉｔｅ（Ｇｅｎｔｌｅｍａｎ，Ｒ．Ｃ．，Ｃａｒｅｙ，Ｖ．Ｊ．，Ｂａｔｅｓ，Ｄ．Ｍ．，Ｂｏｌｓｔａｄ，Ｂ．，Ｄｅｔｔｌｉｎｇ，Ｍ．，Ｄｕｄｏｉｔ，Ｓ．，Ｅｌｌｉｓ，Ｂ．，Ｇａｕｔｉｅｒ，Ｌ．，Ｇｅ，Ｙ．，Ｇｅｎｔｒｙ，Ｊ．，ｅｔａｌ．（２００４）．Ｂｉｏｃｏｎｄｕｃｔｏｒ：ｏｐｅｎｓｏｆｔｗａｒｅｄｅｖｅｌｏｐｍｅｎｔｆｏｒｃｏｍｐｕｔａｔｉｏｎａｌｂｉｏｌｏｇｙａｎｄｂｉｏｉｎｆｏｒｍａｔｉｃｓ．ＧｅｎｏｍｅＢｉｏｌ５，Ｒ８０）から（Ｒ統計的環境用（ＲＤｅｖｅｌｏｐｍｅｎｔＣｏｒｅＴｅａｍ（２００７）．Ｒ：ＡＬａｎｇｕａｇｅａｎｄＥｎｖｉｒｏｎｍｅｎｔｆｏｒＳｔａｔｉｓｔｉｃａｌＣｏｍｐｕｔｉｎｇ）に入手可能）、生データファイルを読み込んだ。ＲＮＡ分解プロット（ａｆｆｙパッケージのＡｆｆｙＲＮＡｄｅｇ機能）、［０９：４２：２９］正規化したスケーリングしていない標準誤差プロット、相対ログ発現プロット（ａｆｆｙＰＬＭパッケージ（Ｂｒｅｔｔｓｃｈｎｅｉｄｅｒ，Ｊ．，Ｃｏｌｌｉｎｓ，Ｆ．，ａｎｄＢｏｌｓｔａｄ，Ｂ．Ｍ．（２００８）．ＱｕａｌｉｔｙＡｓｓｅｓｓｍｅｎｔｆｏｒＳｈｏｒｔＯｌｉｇｏｎｕｃｌｅｏｔｉｄｅＭｉｃｒｏａｒｒａｙＤａｔａ．Ｔｅｃｈｎｏｍｅｔｒｉｃｓ５０，２４１−２６４））、および相対ログ発現値の平均を発生しかつ試験することによって品質が管理された。更に、空間的影響が存在していないことを確認するために、擬似画像（プローブレベルモデルの残像）の肉眼による確認を行った。品質管理確認上で閾値の集合以下に下げられたアレイは、更なる解析から除外した。

母集団レベル解析（すなわち、平均フォールド変化の研究）のために、データを引き続きＧＣ−ロバストマイクロアレイ解析（ＧＣ−ＲＭＡ）を使用して正規化した。品質管理確認に合格したすべてのアレイからマイクロアレイ発現値（Ｉｒｉｚａｒｒｙ，Ｒ．Ａ．，Ｈｏｂｂｓ，Ｂ．，Ｃｏｌｌｉｎ，Ｆ．，Ｂｅａｚｅｒ−Ｂａｒｃｌａｙ，Ｙ．Ｄ．，Ａｎｔｏｎｅｌｌｉｓ，Ｋ．Ｊ．，Ｓｃｈｅｒｆ，Ｕ．，ａｎｄＳｐｅｅｄ，Ｔ．Ｐ．（２００３）．Ｅｘｐｌｏｒａｔｉｏｎ，ｎｏｒｍａｌｉｚａｔｉｏｎ，ａｎｄｓｕｍｍａｒｉｅｓｏｆｈｉｇｈｄｅｎｓｉｔｙｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅａｒｒａｙｐｒｏｂｅｌｅｖｅｌｄａｔａ．Ｂｉｏｓｔａｔｉｓｔｉｃｓ４，２４９−２６４）を発生するために、バックグラウンド補正および分位点正規化を使用した。個人シグネチャ予測モデルとしては、このデータはＭＡＳ５（Ａｆｆｙｍｅｔｒｉｘ，Ｉ．（２００２）．Ｓｔａｔｉｓｔｉｃａｌａｌｇｏｒｉｔｈｍｓｄｅｓｃｒｉｐｔｉｏｎｄｏｃｕｍｅｎｔ．Ｔｅｃｈｎｉｃａｌｐａｐｅｒ）で正規化された。

統計的モデリング−母集団レベル解析。各々の比較については、全体的な線形モデルは、中程度のｔ統計量に基づいて、発現アレイ上の各プローブ集合に対して生のｐ値を発生するように適合した。多数の遺伝子が見積もられるときに起こる多重検定効果に対する補正のためにベンジャミニ−ホッホバーグの偽発見率（ＦＤＲ）法を使用した。

統計的モデリング−個別サンプル予測モデリング。予測モデルのロバスト性を達成するために、血液（ＧＳＥ１５２８９）およびＰＢＭＣ（ＧＳＥ４２０５７）からの独立した遺伝子発現データセットをＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎＧｅｎｅＥｘｐｒｅｓｓｉｏｎＯｍｎｉｂｕｓ（ＧＥＯ）（ｈｔｔｐ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｇｄｓ／？ｔｅｒｍ＝ＧＥＯ）から取得し、処理した。ＮＯＷＡＣ研究（ＧＳＥ１５２８９）からのデータセット（Ｄｕｍｅａｕｘ，Ｖ．，Ｏｌｓｅｎ，Ｋ．Ｓ．，Ｎｕｅｌ，Ｇ．，Ｐａｕｌｓｓｅｎ，Ｒ．Ｈ．，Ｂoｒｒｅｓｅｎ−Ｄａｌｅ，Ａ．−Ｌ．，ａｎｄＬｕｎｄ，Ｅ．（２０１０ａ）．Ｄｅｃｉｐｈｅｒｉｎｇｎｏｒｍａｌｂｌｏｏｄｇｅｎｅｅｘｐｒｅｓｓｉｏｎｖａｒｉａｔｉｏｎ−ＴｈｅＮＯＷＡＣｐｏｓｔｇｅｎｏｍｅｓｔｕｄｙ．ＰＬｏＳｇｅｎｅｔｉｃｓ６，ｅ１０００８７３）は、２１１人の喫煙したことがない者と７４人の現在喫煙している者を含む、２８５人の４８〜６３歳の閉経後の女性からの全血サンプルを含んだ。Ｂａｈｒらのデータセット（ＧＳＥ４２０５７）（Ｂａｈｒ，Ｔ．Ｍ．，Ｈｕｇｈｅｓ，Ｇ．Ｊ．，Ａｒｍｓｔｒｏｎｇ，Ｍ．，Ｒｅｉｓｄｏｒｐｈ，Ｒ．，Ｃｏｌｄｒｅｎ，Ｃ．Ｄ．，Ｅｄｗａｒｄｓ，Ｍ．Ｇ．，Ｓｃｈｎｅｌｌ，Ｃ．，Ｋｅｄｌ，Ｒ．，ＬａＦｌａｍｍｅ，Ｄ．Ｊ．，ａｎｄＲｅｉｓｄｏｒｐｈ，Ｎ．（２０１３）．ＰｅｒｉｐｈｅｒａｌＢｌｏｏｄＭｏｎｏｎｕｃｌｅａｒＣｅｌｌＧｅｎｅＥｘｐｒｅｓｓｉｏｎｉｎＣｈｒｏｎｉｃＯｂｓｔｒｕｃｔｉｖｅＰｕｌｍｏｎａｒｙＤｉｓｅａｓｅ．Ａｍｅｒｉｃａｎｊｏｕｒｎａｌｏｆｒｅｓｐｉｒａｔｏｒｙｃｅｌｌａｎｄｍｏｌｅｃｕｌａｒｂｉｏｌｏｇｙ）は、３６人の現在喫煙している者（そのうち２２がＣＯＰＤを患い、１４人が健常者）と１００人の以前喫煙していた者（そのうち７２人がＣＯＰＤを患い、２８人が健常者）とから収集した末梢血単核細胞（ＰＢＭＣ）サンプルから誘導された。すべての被験者は、非ヒスパニック系の白人であった。

ＧＳＥ１５２８９およびＧＳＥ４２０５７データセットの被験者からサンプリングされたデータを、喫煙者のサンプルと喫煙したことがない（または以前喫煙していた）者のサンプルとの間で平均発現の大きい変化を示した遺伝子を各データセットで特定するために使用した。Ｌ_１とＬ_２をＭ（ここでは、Ｍ＝１０００だが、一般にＭは任意の値とすることができる）個の２つの独立したデータセット（ＧＳＥ１５２８９およびＧＳＥ４２０５７）からのフォールド変化が最も高い遺伝子の集合とした。リストＬ_１を取得するために、データセットＧＳＥ１５２８９を喫煙者ステータス（現在喫煙している者および喫煙したことがない者）に従ってソーティングし、そして各群について平均遺伝子発現レベルを取得した。現在喫煙している者の群と喫煙したことがない者の群との間の平均遺伝子発現レベルの差異は、本明細書ではフォールド変化と称され、そしてフォールド変化が最も高いＭ遺伝子は集合Ｌ_１に含まれる。リストＬ_２は、現在喫煙している者と以前喫煙していた者について同様に取得した。

図１は、遺伝子の集合を特定し、そして遺伝子の集合に基づいて分類モデルを取得するためのプロセス１００のフローチャートである。特に、プロセス１００は、カウンターパラメータＮを初期化して１にする工程（工程１０２）と、Ｍａｔｔｈｅｗｓの相関係数（ＭＣＣ（Ｎ））を演算することによって線形判別解析（ＬＤＡ）モデルの特性を見積もる工程（工程１０４）と、カウンターパラメータが最大カウンター値Ｍと等しいかどうかを決定する工程（決定ブロック１０６）とを含む。ＮがＭ未満である場合、プロセス１００は工程１０８に進みＮをインクリメントし、そして次の係数ＭＣＣ（Ｎ）を演算することによってＬＤＡモデルの特性を見積もるために工程１０４に戻る。ＮがＭに達すると（決定ブロック１０６）、最大ＭＣＣ値の結果として得られるＮの値（Ｎ_ＭＡＸ）が見積もられ（工程１１０）、そして２つの遺伝子集合Ｌ_１［１：Ｎ］とＬ_２［１：Ｎ］との積集合としてコア遺伝子リストが画定される（工程１１２）。コア遺伝子リストが特定された後、コア遺伝子リストに基づいてＬＤＡモデルが演算される（工程１１４）。

工程１０２では、カウンターパラメータＮは初期化されて１になる。カウンターパラメータＮは、１から最大値Ｍまで変化し、そして判断ブロック１０６でＮがＭに達するまで、工程１０８でインクリメントされる。

工程１０４では、ＬＤＡモデルの特性は、係数ＭＣＣ（Ｎ）を演算することによって見積もられる。特に、集合Ｌ_１内のＮ個の最大フォールド変化と集合Ｌ_２内のＮ個の最大フォールド変化との積集合である、Ｌ_１［１：Ｎ］∩Ｌ_２［１：Ｎ］を５分割交差検証（１００回）を使用して、ＬＤＡモデルの特性が見積もられる場合がある。ＬＤＡモデルは、ＭＣＣ（Ｎ）を演算することによって見積もられる。ＭＣＣ評価基準は、すべての真陽性／偽陽性と陰性との比を組み合わせ、そしてひいては単一の値である妥当な評価基準を提供する。ＭＣＣは、複合特性スコアとして使用されてもよい特性評価基準である。ＭＣＣは、−１と＋１との間の値であり、本質的に既知の２項分類と予測される２項分類との間の相関係数である。ＭＣＣは、以下の式を使用して演算される場合がある。
式中、ＴＰは真陽性、ＦＰは偽陽性、ＴＮは真陰性、ＦＮは偽陰性である。しかしながら、一般に、ＬＤＡモデルの特性を評価するために、特性評価基準の集合に基づいて複合特性評価基準を発生するための任意の好適な技法が使用されてもよい。＋１のＭＣＣ値は、モデルが完全な予測を取得することを示し、０のＭＣＣ値は、ランダムと何ら変わらないモデル予測が遂行することを示し、そして−１のＭＣＣ値は完全に不適格なモデル予測を示す。ＭＣＣは、分類分けの予測のみが可能なやり方で分類子機能をコード化すると容易に演算することができる、という利点を有する。対照的に、曲線下面積（ＡＵＣ）の演算については、分類子機能は数値的なスコアの提供を必要とする。しかしながら、一般に、ＴＰ、ＦＰ、ＴＮ、およびＦＮを説明するいずれかの評価基準が、本開示に従って使用されてもよい。

ＭＣＣを演算するためには、まず分類の集合を選択しなければならない。喫煙したことがない者、以前喫煙していた者、および現在喫煙している者からＢＬＤ−ＳＭＫ−０１データセットを取る。図４Ａ、図４Ｂ、および図４Ｃは、ＢＬＫ−ＳＭＫ−０１サンプルで差次的に発現される遺伝子に対するボルケーノプロットを示す。各々のボルケーノプロットは、−ｌｏｇ１０（調整したＰ値）に対して見積もったｌｏｇ２（フォールド変化）を示す。中程度のｔ統計に基づいてＰ値を演算し、そしてベンジャミニ−ホッホバーグ法によって調整した。特に、図４Ａは現在喫煙している者と非喫煙者との間で遺伝子発現プロファイルを比較し、図４Ｂは現在喫煙している者と以前喫煙していた者との間で遺伝子発現プロファイルを比較し、そして図４Ｃは以前喫煙していた者と喫煙したことがない者との間で遺伝子発現プロファイルを比較する。図４Ｃに示すボルケーノプロットは喫煙したことがない者と以前喫煙していた者との間の差次的な遺伝子発現を示さない（すなわち、図４Ｃでは傾向が見られない）が、図４Ａおよび図４Ｂは、現在喫煙している者と喫煙したことがない者との間（図４Ａ）、および現在喫煙している者と以前喫煙していた者との間（図４Ｂ）に数多くの差次的な遺伝子発現の変化が見られることを示す。

従って、ＢＬＤ−ＳＭＫ−０１サンプルの母集団レベルのトランスクリプトーム解析は、全血では喫煙したことがない者と以前喫煙していた者との間に差次的な遺伝子発現の変化がないことを示し、従って血液トランスクリプトームに基づいて以前喫煙していた者と喫煙したことがない者とを区別するのは極めて困難であることになる。これとは逆に、現在喫煙している者と喫煙したことがない者および以前喫煙していた者との間にはそれぞれ数多くの差次的に発現される遺伝子がある（図４Ａおよび図４Ｂ）。喫煙したことがない者の母集団と以前喫煙していた者の母集団との間には差が見られないので、工程１０４でモデルを見積もるためには２つの分類、すなわち現在喫煙している者および現在喫煙していない者のみが使用された。

特に、工程１０４では、遺伝子の集合Ｌ_１［１：Ｎ］∩Ｌ_２［１：Ｎ］は、２つの独立したデータセットＧＳＥ１５２８９およびＧＳＥ４２０５７からのフォールド変化が最も大きいＮの積集合に対応する。Ｌ_１［１：Ｎ］、Ｌ_２［１：Ｎ］のいずれかに基づく各々の予測モデルは、ＬＤＡモデルの結果が独立したデータセットに対して一般化可能かどうかを評価するために交差検証される。一実施例では、Ｌ_１［１：Ｎ］遺伝子集合に対して５分割交差検証の一事例を遂行するために、Ｌ_１［１：Ｎ］集合は、ランダムに５つの部分集合Ａ、Ｂ、Ｃ、Ｄ、およびＥに分けられた。ＬＤＡ技法を使用して分類子を訓練するために、４つの部分集合（Ａ、Ｂ、Ｃ、およびＤ）が使用され、そして他の４つの部分集合上で訓練された分類子をテストするために第５の部分集合（Ｅ）が使用された。他の部分集合（Ａ、Ｂ、Ｃ、およびＤ）の各々を、その他の４つの部分集合に対して訓練された分類子をテストするためのテスト部分集合として用いて、この訓練およびテストプロセスが更に４回繰り返された。

一般に、ＬＤＡ技法の基準は、特徴を分類ｙの中に記述する入力ベクトルｘを分類することである。分類は、観察された特徴の線形結合である機能に基づく。線形結合の係数は、訓練部分集合に基づいて見積もられる。具体的には、ＬＤＡ技法を使用して分類子を訓練するために、４つの訓練部分集合からのデータでの遺伝子発現レベルの線形結合が特定される。本明細書では、線形結合は分類子と称され、そして予測される喫煙者ステータスと予測される非喫煙者ステータスとの間に境界を画定する。分類子は、テスト部分集合内で各々の個人に対して予測されるステータスを取得するために使用される。このプロセスは、更に４回繰り返され、これによって５つの部分集合の各々が１回はテスト部分集合として処理される。５つの部分集合の各々は１回テスト部分集合となった後、５分割交差検証のうちの１つの事例が完了し、そして訓練データの観察値（Ｌ_１［１：Ｎ］∩Ｌ_２［１：Ｎ］集合の特徴を有する）を、５つの新しい部分集合Ａ’、Ｂ’、Ｃ’、Ｄ’、およびＥ’に分割し、５分割交差検証の第２の事例を開始する。

本明細書に記述される実施例は、５分割交差検証の１００個の事例の結果であるが、当業者であれば、一般に、本開示の範囲を逸脱することなく任意の数のｋ分割交差検証の事例を使用してもよいことを理解するであろう。更に、本明細書に記述される実施例は、遺伝子発現レベルの線形結合に基づいて分類子を形成するＬＤＡ技法の結果である。しかしながら、当業者であれば、一般に、分類子を形成するために、Ｒ∧Ｎで一次元マニフォールドを形成する場合がある遺伝子発現レベルの任意の関数（二次関数、多項式関数、対数関数、または任意の他の好適な関数などの）を使用して、分類子を画定してもよいことを理解するであろう。

工程１１０では、Ｎが最大数Ｍに達した後、ＭＣＣのＭ値の集合が考慮され、そしてＮ_ｍａｘ＝ａｒｇｍａｘ_Ｎ（ＭＣＣ（Ｎ））としてＭＣＣ最大値に対応するＮの値が見積もられる。図１に示すように、Ｎ_ｍａｘを見積もる工程は、ＭＣＣのすべてのＭ値が演算された後遂行される。しかしながら、当業者であれば、一般に、代替的に次の値ＭＣＣ（Ｎ＋１）を見積もる前に工程１０４で演算されたＭＣＣ（Ｎ）の値をいずれかの所定の閾値と比較する場合があることを理解するであろう。この場合、ＭＣＣの値が所定の閾値を超えることが判明した場合、プロセス１００は直ちに工程１１０に進み、残りの値Ｎ＝Ｎ_ｍａｘ＋１をＭに対して考慮することなく、Ｎ_ｍａｘの値に現在のＮの値を割り当てる場合がある。

工程１１２では、シグネチャに対するコア遺伝子リストは、Ｌ_１［１：Ｎ_ｍａｘ］∩Ｌ_２［１：Ｎ_ｍａｘ］で表される積集合、すなわちＬ_１［１：Ｎ_ｍａｘ］とＬ_２［１：Ｎ_ｍａｘ］との両方の中にある遺伝子の集合によって画定される。この例で記述されるように、Ｌ_１およびＬ_２の２つのデータセットのみが使用される。しかしながら、当業者であれば、一般に、ＭＣＣ値を演算するため、および遺伝子シグネチャを画定する遺伝子のコア集合を特定するために任意の数のデータセットを使用してもよいことを当業者は理解するであろう。特に、ｍデータセットの積集合、または対になった積集合の和集合が使用されてもよい。

工程１１４では、ＬＤＡモデルを演算するために工程１１２で決定されたコア遺伝子リストが使用される。特に、コア遺伝子リストに基づいて演算したＬＤＡモデルを、５分割交差検証または任意の数のｎ分割交差検証を１００回遂行することによって演算してもよい。

一例では、工程１０２〜１１４に関連して記述される統計的モデリング方法論を適用することによって、以下の６つの遺伝子、すなわちＬＲＲＮ３、ＳＡＳＨ１、ＰＡＬＬＤ、ＲＧＬ１、ＴＮＦＲＳＦ１７、およびＣＤＫＮ１Ｃを含むコア遺伝子シグネチャが特定される。このモデルの５分割交差検証（１００回）ＭＣＣは、現在喫煙している者から取得したサンプルを喫煙したことがない者に対して分類する時に０．７７（感受性スコア（Ｓｅ）が０．９１であり、かつ特異性スコア（Ｓｐ）が０．８５）である。方法論の設計によって、シグネチャ内のコア遺伝子は、ＮＯＷＡＣ（ＧＳＥ１５２８９）およびＢａｈｒら（ＧＳＥ４２０５７）の両方の研究での高分割変化遺伝子の中にあり、そしてこれらの２つのＧＳＥ研究（Ｓｅ＝０．７３、Ｓｐ＝０．８１）の間で共通の７７個の遺伝子すべてに基づいてＬＤＡモデルの特性について予測が改善した。６つの遺伝子ＬＲＲＮ３、ＳＡＳＨ１、ＰＡＬＬＤ、ＲＧＬ１、ＴＮＦＲＳＦ１７、およびＣＤＫＮ１Ｃが、本明細書ではコア遺伝子シグネチャとして参照されているとしても、６つの遺伝子のうちの３つ、４つ、または５つなどの任意の組み合わせなどのように、６つの遺伝子の任意の組み合わせがコア遺伝子シグネチャとして使用されてもよいことを、当業者であれば理解するであろう。

一部の実施形態では、シグネチャ内の遺伝子は、高い特異性スコアおよび感受性スコアに関連付けられたコア集合に含まれていない追加的な遺伝子を含む、遺伝子の拡張集合を含むように広げられた。特に、フォールド変化の高い遺伝子の各々のリストを個々に活用することによって取得された予測的なモデルを研究する時、ＩＧＪ、ＲＲＭ２、ＩＤ３、ＳＥＲＰＩＮＧ１、およびＦＵＣＡ１は、特異性および感受性の高いシグネチャ内の潜在的な候補として繰返し特定される。これらの５つの遺伝子も、ＮＯＷＡＣ（現在喫煙している者対喫煙したことがない者）およびＢａｈｒら（現在喫煙している者対以前喫煙していた者）の両方の研究の血液トランスクリプトーム中のフォールド変化の高い遺伝子の中にあり、かつコア遺伝子シグネチャを拡張シグネチャへと拡張するために使用される。拡張シグネチャ（ＬＲＲＮ３、ＳＡＳＨ１、ＰＡＬＬＤ、ＲＧＬ１、ＴＮＦＲＳＦ１７、ＣＤＫＮ１Ｃ、ＩＧＪ、ＲＲＭ２、ＩＤ３、ＳＥＲＰＩＮＧ１、およびＦＵＣＡ１）に基づくモデルの交差検証ＭＣＣは、現在喫煙している者対喫煙したことがない者を分類すると、０．７３（Ｓｅ＝０．８８、Ｓｐ＝０．８４）であった。１１個の遺伝子ＬＲＲＮ３、ＳＡＳＨ１、ＰＡＬＬＤ、ＲＧＬ１、ＴＮＦＲＳＦ１７、ＣＤＫＮ１Ｃ、ＩＧＪ、ＲＲＭ２、ＩＤ３、ＳＥＲＰＩＮＧ１、およびＦＵＣＡ１のすべてが本明細書で拡張遺伝子シグネチャとして引用されているが、１１個の遺伝子のうちの５つ、６つ、７つ、８つ、９つ、または１０個などの任意の組み合わせなどのように、１１個の遺伝子の任意の組み合わせがコア遺伝子シグネチャとして使用されてもよいことを、当業者であれば理解するであろう。更に、この組み合わせは、コア遺伝子シグネチャ内の６つの遺伝子のうちの３つ、４つ、または５つの組み合わせ、および拡張遺伝子シグネチャ内の追加的な遺伝子内の５つの遺伝子のうちの２つ、３つ、または４つを含んでもよい。

工程１１４で演算されたＬＤＡモデルの結果を、ＢＬＤ−ＳＭＫ−０１単独（すなわち、２つの公表されているデータセットＧＳＥ１５２８９およびＧＳＥ４２０５７を使用しない）からわずかなシグネチャを学習する時に取得したモデルの予測交差検証結果と比較した。喫煙者対非喫煙者を予測する上でのこのモデルの５分割交差検証特性の結果としてＳｐ＝０．９６およびＳｅ＝０．９３が得られ、これはコアシグネチャおよび拡張シグネチャに基づくモデルの特性よりわずかに高い。本明細書に記述される方法論を用いて誘導される予測モデルの交差検証の特異性および感受性（Ｓｐ＝０．８８、Ｓｅ＝０．８４）が、結果として独立したデータセット（Ｓｐ＝０．９６、Ｓｅ＝０．９３）を使用せずに取得したモデルよりわずかに低い特性をもたらすものの、本明細書で誘導される予測モデルは、より広い範囲の用途に関連付けられるために有利である。特に、本開示の方法に従って誘導される予測モデルは、工程１１６と関連して詳細に記述されるようにモデルが認証された時に、ロバストである。

工程１１６では、工程１１４で演算されたＬＤＡモデルが認証される。ＬＤＡモデルの認証は、ＢＬＤ−ＳＭＫ−０１研究からの以前喫煙していた者の群、およびＱＡＳＭＣ研究からの血液データセットを使用することによって遂行される。ＱＡＳＭＣトランスクリプトームのサンプルを品質確認した後、５２人のＣＯＰＤ罹患者、５８人の現在喫煙している者、５８人の以前喫煙していた者、および５９人の喫煙したことがない者のＣＥＬファイルが予測のために利用可能だった。コアシグネチャおよび拡張シグネチャの予測特性を見積もるために、ＱＡＳＭＣサンプルを２つの群、すなわち、現在喫煙している者（ＣＯＰＤ罹患者および健常者）と以前喫煙していた者および喫煙したことがない者を含む現在喫煙していない者とへ層化した。これらの群により、ＣＯＰＤステータスに関してシグネチャのロバスト性を見積もることができた。各々の中心データセットは、コア遺伝子シグネチャまたは拡張シグネチャを基に構築されたモデルを使用して予測された。

表３は、独立したデータセット上で様々なシグネチャに対してＬＤＡモデルを使用して予測結果を示す。表３の書式は表１の書式に従い、予測される分類を異なる横列に示し、かつ実際の分類を異なる縦列に示す。特に、表３に示す予測結果は、コア遺伝子シグネチャ（最初の３つの横列）、拡張遺伝子シグネチャ（中間の３つの横列）、ＢＬＤ−ＳＭＫ−０１サンプル単独から誘導されたシグネチャ（最後から２番目の横列）、およびＢｅｉｎｅｋｅら（Ｂｅｉｎｅｋｅ、Ｐ．、Ｆｉｔｃｈ、Ｋ．、Ｔａｏ、Ｈ．、Ｅｌａｓｈｏｆｆ、Ｍ．Ｒ．、Ｒｏｓｅｎｂｅｒｇ、Ｓ．、Ｋｒａｕｓ、Ｗ．Ｅ．、およびＷｉｎｇｒｏｖｅ、Ｊ．Ａ．（２０１２）Ａｗｈｏｌｅｂｌｏｏｄｇｅｎｅｅｘｐｒｅｓｓｉｏｎ−ｂａｓｅｄｓｉｇｎａｔｕｒｅｆｏｒｓｍｏｋｉｎｇｓｔａｔｕｓ．ＢＭＣｍｅｄｉｃａｌｇｅｎｏｍｉｃｓ５、５８．）に記述される遺伝子の集合に基づくシグネチャ（一番下の横列）に対するものを含む。表３に示すように、コアシグネチャと拡張シグネチャとの両方は、ＢＬＤ−ＳＭＫ−０１サンプル単独およびＢｅｉｎｅｋｅによって特定されたシグネチャから誘導されるシグネチャより高い感受性スコアおよび特異性スコアをもたらす。
ＱＡＳＭＣ研究に対するシグネチャの分類特性は、ＣＯＰＤステータスにかかわらずモデルがロバストであることを確認した（コアシグネチャに対してＳｅ＝０．９、Ｓｐ＝０．９、拡張シグネチャに対してＳｅ＝０．９１、Ｓｐ＝０．９０）。

更に、図５Ａ、図５Ｂ、図５Ｄ、および図５Ｅは、異なる研究に対する分類スキームを示す様々なボックスプロットを示す。特に、図５Ａおよび図５Ｂは、ＢＬＤ−ＳＭＫ−０１研究およびＱＡＳＭＣ研究それぞれに対して、ＬＤＡモデルから現在喫煙している者に分類されるサンプルの事後確率のボックスプロットをプロットする。図５Ｄおよび図５Ｅは、ＢＬＤ−ＳＭＫ−０１研究およびＱＡＳＭＣ研究それぞれに対して、線形判別関数からの予測スコアのボックスプロットをプロットする。特に、負のスコアを有するサンプルは、現在喫煙している者として分類され、そして正のスコアを有するサンプルは、現在喫煙していない者として分類される。

性別および年齢などの追加的な共変動の影響も検討された。ＢＬＤ−ＳＭＫ−０１およびＱＡＳＭＣ研究は、性別および年齢に関してはバランスの取れたものであった。年齢または性別と喫煙ステータスとの間の統計的関連性は、統計的なカイ二乗検定（ＢＬＤ−ＳＭＫ−０１に対してχ^２（性別、喫煙ステータス）Ｐ値＝１、およびＱＡＳＭＣに対してχ^２（性別、喫煙ステータス）Ｐ値＝０．９）、ならびに統計的ｔ検定（ＢＬＤ−ＳＭＫ−０１に対してｔ検定（年齢対喫煙ステータス）Ｐ値＝０．８、およびＱＡＳＭＣに対してｔ検定（年齢対喫煙ステータス）Ｐ値＝０．４６）によって示されるように、存在しなかった。

更に、シグネチャ内の各遺伝子は、ＢＬＤ−ＳＭＫ−０１での性別および年齢との関連性、およびＡＮＯＶＡＰ値について、性別の影響をあまり示さないＰＡＬＬＤ遺伝子を除くいずれの遺伝子についても０．０５を下回ることがないことが試験された。以前に特定された遺伝子シグネチャには性別および／または年齢の影響が見られ、そしてかかる因子に対して調整が必要であることが決定された。Ｂｅｉｎｅｋｅら、２０１２。特に、喫煙者は、平均して喫煙したことがない者または以前喫煙していた者より年齢が高く、ＢＬＤ−ＳＭＫ−０１研究では喫煙ステータスと統計的関連性がなかったため、この共変動は予測子に含まれなかったため、年齢は公開されている２つのデータセット（ＧＳＥ１５２８９およびＧＳＥ４２０５７）では重要な共変動であった。しかしながら、特異性および感受性のスコアによって画定されたより良好な特性に加えて、本明細書に記述される遺伝子シグネチャは、一般的に性別または年齢と相関しない。このことは、これらの因子に対する調整が不要で、これによって演算プロセスを単純化するという点で、本明細書に記述されるコアシグネチャおよび拡張シグネチャが既知の遺伝子シグネチャに優る利点を提供することを示唆する。

発見したシグネチャをｑＲＴ−ＰＣＲをベースにした曝露バイオマーカーへと変換できるかどうかを決定するために、２０個の無作為に選択したサンプル（１０人の現在喫煙している者および１０人の喫煙したことがない者）の部分集合を、拡張シグネチャ内の遺伝子の発現レベルを測定するためにｑＲＴ−ＰＣＲの対象とした。ＬＤＡモデルは、正規化したｑＲＴ−ＰＣＲデータ上で拡張シグネチャ内の遺伝子に基づいて訓練され、１０分割交差検証（１０００回、サンプルサイズが小さいため１０分割が選択された）によって評価され、０．８５の特異性および０．９６の感受性がもたらされた（表４）。同一のものをコアシグネチャに適用した場合は、０．６２の特異性および０．８０のより低い感受性が得られた（表４）。

本開示の１つの目標は、コア遺伝子シグネチャおよび拡張遺伝子シグネチャを適用して、このシグネチャを使用して加熱式たばこ製品（ＨＴＰ）への切換えの影響を検出することができるかどうかを決定することである。この目標を容易にするために、ＲＥＸ−ＥＸ−０１研究からデータを取得した。ＲＥＸ−ＥＸ−０１研究は、両方の性別の２３〜６５歳の４２人の健常喫煙者を採用した非盲検、無作為化、対照、並行２群間研究であった。この研究は従来の紙巻たばこの喫煙者を最近連続して５日間以上ＨＴＰ（本明細書ではたばこ加熱システム２．１（ＴＨＳ２．１）と称する）に切り換えた喫煙者と比較するために実施した。この研究は医薬品の臨床試験の実施基準（ＧｏｏｄＣｌｉｎｉｃａｌＰｒａｃｔｉｃｅｓ、ＧＣＰ）に従って実施され、また識別番号ＮＣＴ０１７８０７１４でＣｌｉｎｉｃａｌＴｒｉａｌｓ．ｇｏｖに登録した。血液サンプルをＰＡＸｇｅｎｅ採血管の中に保存し、そしてＡＲＯＳＡｐｐｌｉｅｄＢｉｏｔｅｃｈｎｏｌｏｇｙＡＳ（デンマーク、Ａａｒｈｕｓ）に送付し、そこで更に処理され、かつＡｆｆｙｍｅｔｒｉｘＨｕｍａｎＧｅｎｏｍｅＵ１３３Ｐｌｕｓ２．０ＧｅｎｅＣｈｉｐで交配された。

この本明細書で特定された遺伝子シグネチャが、臨床試験で曝露−応答を評価するための感応性がありかつ非侵襲的なツールを提供するかどうかを試験する目的で、５日後の全血トランスクリプトームでＨＴＰへの切替えを検出することができるかどうかを決定するために、このシグネチャをＴＨＳ２．１データに適用した。この研究の仮説は、ＴＨＳ２．１に切り替えた喫煙者の全血トランスクリプトームが、現在喫煙している者よりも以前喫煙していた者の全血トランスクリプトームに類似していることである。５日間切り換えている特定のＨＴＰ使用者の遺伝子発現プロファイルを特徴付ける（例えば、ＲＥＸ−ＥＸ−０１研究データからシグネチャを抽出することによって）よりも、より長期間の切り替えパターンの指示計として機能することができる、トランスクリプトームに基づく曝露応答シグネチャを特定するのが望ましい。これは、現在喫煙している者のサンプルと現在喫煙していない者のサンプルの両方を区別することができる、コア遺伝子シグネチャおよび拡張遺伝子シグネチャを確立することによって達成された。

ＲＥＸ−ＥＸ−０１研究のＣＥＬファイルの品質確認を遂行した後、５日目において従来の紙巻たばこ喫煙者およびＴＨＳ２．１の使用者に対してそれぞれ１６個および１８個のファイルが残った。以下の表５は、コア遺伝子シグネチャ（上の３つの横列）と拡張遺伝子シグネチャ（下の３つの横列）に対するＲＥＸ−ＥＸ−０１サンプルの予測結果を示す。拡張遺伝子シグネチャについては、従来の紙巻たばこを使用し続けている個人（現在喫煙している者）は主として現在喫煙している者に分類され（６９％）、一方でＴＨＳ２．１に切り替えた被験者はほとんどが現在喫煙していない者として分類された（８９％）。コアシグネチャについては、現在喫煙している者に対する真のレートは同一（６９％）で、そしてＴＨＳ２．１に切り替えた被験者の７８％は現在喫煙していない者として分類された。従って、コア遺伝子シグネチャおよび拡張遺伝子シグネチャの両方が、ＨＴＰ使用者から取得したサンプルが現在喫煙していない者のサンプルであることを予測する。
表５に示す結果は、ニコチンおよびコチニン曝露ではＴＨＳ２．１と従来の紙巻たばことの間に顕著な違いがない（データ不表示）という事実にもかかわらず、ＨＴＰに切り換えた被験者の血液トランスクリプトームが現在喫煙している者ではなく以前喫煙していた者に類似してくるという当初の仮説と一致する。

更に、図５Ｃは、ＲＥＸ−ＥＸ−０１データ上のＬＤＡモデルから現在喫煙している者として分類されるサンプルの事後確率のボックスプロットをプロットし、そして図５Ｆは、ＲＥＸ−ＥＸ−０１データ上の線形判別関数からの予測スコアのボックスプロットをプロットする。負の予測スコアを有するサンプルは現在喫煙している者として分類され、一方で正の予測スコアは現在喫煙していない者のステータスを示す。

単一の遺伝子の測定による遺伝子シグネチャと比較すると、通常のそして病理学的な状況で、遺伝子発現プロファイリングは生物学的プロセスのより完全な全体像を提供する。複数の遺伝子の発現の傾向を総合すると、疾病状態に対する曝露応答から所与の生理学的な状態についてのシグネチャまたは分類子を誘導することも可能である。主として罹患している組織は、正常な状態、曝露された状態、または病的な状態をより正確に示すサンプルを提供するが、多くの場合は組織生検を使用して被験者を分類するのは現実的でない。最低限の侵襲的な技法を使用して血液をサンプリングするのは容易なため、血液を基にしたシグネチャはバイオマーカー発見に対してかなり有望である。この研究では、２組の全血に基づくバイオマーカーが特定された。これらのどちらも、身体の喫煙への応答に対するシグネチャとして機能することができ、従って個人の喫煙ステータスに対する強い予測子として使用することができる。

この研究で強く強調されている遺伝子は、ＬＲＲＮ３である。ＬＲＲＮ３の発現は、現在喫煙していない者と比較すると、現在喫煙している者では増加した。ＲＥＸ−ＥＸ−０１研究では、発現はＨＴＰに切り替えた被験者の血液では０日目と５日目との間で著しく減少し、そして従来の紙巻たばこのままだった被験者の血液では一定のままだった。従って、コアシグネチャと拡張シグネチャとの両方で、従来の紙巻たばこからＨＴＰへの切り換えの効果を測定するためにＬＲＲＮ３は重要な遺伝子であるように思われる。一実施例では、記述されるように遺伝子シグネチャは、ＬＲＲＮ３のみを含みいかなる他の遺伝子も含まないか、または任意の他の遺伝子と組み合わせてＬＲＲＮ３を含む。特に、ＬＲＲＮ３を含む遺伝子シグネチャは、切り替え後０日目と５日目との間のＬＲＲＮ３発現の減少を実証することによって、従来の紙巻たばこの喫煙からＨＴＰの使用への切り替えを検出することができる。

本明細書に記述されるシステム薬理学アプローチは、現在喫煙している者を現在喫煙していない者と区別することができる１つ以上のロバストな全血に基づく喫煙者遺伝子シグネチャの構築を可能にする。本明細書に記述されるコア遺伝子シグネチャは、６つの遺伝子に基づき、そして拡張遺伝子シグネチャはコア遺伝子シグネチャに加えて追加的な５つの遺伝子に基づく。両方の遺伝子シグネチャは、感受性スコアおよび特異性スコアの両方によって評価されるように、個人の喫煙者ステータスを予測する点で並外れた精度を有する。ＲＥＸ−ＥＸ−０１研究からのサンプルに適用すると、全血トランスクリプトームデータに基づいて、シグネチャはＴＨＳ２．１を５日間使用した後の被験者を現在喫煙していない者として特定した。従って、最小限の侵襲性サンプリングを使用して曝露応答を評価するために、本明細書に記述されるシグネチャは、感応性がありかつ特異的なツールを提供する。

図２は、本開示の例示的な実施形態に従って被験者から取得したサンプルを評価するためのプロセス２００のフローチャートである。プロセス２００は、サンプルと関連付けられたデータセットであって、ＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、およびＴＮＦＲＳＦ１７に対する定量的な発現データを含むデータセットを受け取る工程（工程２０２）と、受け取ったデータセットに基づいてスコアを発生する工程であって、このスコアが被験者の予測される喫煙ステータスを示す工程（工程２０４）とを含む。一部の実施形態では、工程２０２において受け取ったデータセットは、ＩＧＪ、ＲＲＭ２、ＳＥＲＰＩＮＧ１、ＦＵＣＡ１、およびＩＤ３に対する定量的な発現データを更に含む。一部の実施形態では、工程２０２において受け取ったデータセットは、ＣＬＤＮＤ１、ＭＵＣ１、ＧＯＰＣ、およびＬＥＦ１のうちの１つ以上に対する定量的な発現データを更に含む。

工程２０４で発生したスコアは、このデータセットに適用される分類スキームの結果であり、分類スキームはデータセット内の定量的な発現データに基づいて決定される。特に、本明細書に記述される実施例では、個人に対して予測される分類を決定するために、ＬＤＡモデル上で訓練された分類子が２０２で受け取られたデータセットに適用されてもよい。

本明細書に記述される遺伝子シグネチャは、被験者から取得したサンプルを評価するために、コンピュータ実装された方法で使用されてもよい。特に、サンプルに関連付けられたデータセットが取得されてもよく、そしてデータセットは、コア遺伝子シグネチャのために、ＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、およびＴＮＦＲＳＦ１７に対する定量的な発現データを含んでもよい。受け取ったデータセットに基づいてスコアを発生してもよく、このスコアは被験者の予測される喫煙ステータスを示す。特に、スコアは、本明細書に記述されるＬＤＡモデルアプローチを使用して構築された分類子に基づいてもよい。データセットは、拡張遺伝子シグネチャに含まれる追加的なマーカーＩＧＪ、ＲＲＭ２、ＳＥＲＰＩＮＧ１、ＦＵＣＡ１、およびＩＤ３に対する定量的な発現データを更に含んでもよい。データセットは、ＣＬＤＮＤ１、ＭＵＣ１、ＧＯＰＣ、およびＬＥＦ１のうちの１つ以上に対する定量的な発現データを更に含んでもよい。

一部の実施形態では、データセットは、マーカーの集合ＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、ＴＮＦＲＳＦ１７、ＩＧＪ、ＲＲＭ２、ＳＥＲＰＩＮＧ１、ＦＵＣＡ１、ＩＤ３、ＣＬＤＮＤ１、ＭＵＣ１、ＧＯＰＣ、およびＬＥＦ１の任意の数の任意の部分集合を含む。シグネチャに含まれるマーカーには、ＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、およびＴＮＦＲＳＦ１７のうち少なくとも３つ（または任意の他の好適な数）、ＩＧＪ、ＲＲＭ２、ＳＥＲＰＩＮＧ１、ＦＵＣＡ１、およびＩＤ３のうちの少なくとも２つ（または任意の他の好適な数）、およびＣＬＤＮＤ１、ＭＵＣ１、ＧＯＰＣ、およびＬＥＦ１のうちの少なくとも１つ（または任意の他の好適な数）などの１つ以上の基準が適用されてもよい。一般に、本開示の範囲を逸脱することなくこれらのマーカーの組み合わせを使用する任意のシグネチャを使用してもよい。

一部の実施形態では、本明細書に記述されるシグネチャ中の遺伝子は、個人の喫煙者のステータスを予測するキットを組み立てる上で使用される。特に、キットは、試験サンプル内の遺伝子シグネチャ内の遺伝子の発現レベルを検出する一組の試薬と、個人の喫煙者ステータスを予測するためのキットを使用する上での説明書とを備える。このキットは、禁煙または喫煙製品の代替品（ＨＴＰなど）の個人に対する効果を評価するために使用されてもよい。

図３は、図１および図２に関連して記述されるプロセス、または本明細書に記述される、コア遺伝子シグネチャ、拡張遺伝子シグネチャ、または任意の他の遺伝子シグネチャを保存するプロセスなどの本明細書に記述されるいずれかのプロセスを遂行するためのコンピューティング装置のブロック図である。特に、コンピュータ可読媒体上に保存された遺伝子シグネチャは、ＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、およびＴＮＦＲＳＦ１７に対する発現データを含む。別の実施形態では、コンピュータ可読媒体は、ＬＲＲＮ３、ＣＤＫＮ１Ｃ、ＰＡＬＬＤ、ＳＡＳＨ１、ＲＧＬ１、ＴＮＦＲＳＦ１７、ＩＧＪ、ＲＲＭ２、ＳＥＲＰＩＮＧ１、ＦＵＣＡ１、およびＩＤ３から成る群から選択される少なくとも５つのマーカーに対する発現データを含む、遺伝子シグネチャを含む。

特定の実装では、構成要素およびデータベースはいくつかのコンピューティング装置３００にわたって実装される場合がある。コンピューティング装置３００は、少なくとも１つの通信インターフェースユニットと、入力／出力コントローラー３１０と、システムメモリと、１つ以上のデータ保存装置と、を備える。システムメモリは、少なくとも１つのランダムアクセスメモリ（ＲＡＭ３０２）と、少なくとも１つの読み取り専用メモリ（ＲＯＭ３０４）とを含む。これらのすべての要素は、コンピューティング装置３００の動作を容易にするために中央処理装置（ＣＰＵ３０６）と通信する。コンピューティング装置３００は、数多くの異なるやり方で構成される場合がある。例えば、コンピューティング装置３００は、従来のスタンドアローンコンピュータであってもよく、または代替的に、コンピューティング装置３００の機能が複数のコンピュータシステムおよびアーキテクチャにわたって分散していてもよい。コンピューティング装置３００は、モデリング動作、スコアリング動作、および集計動作のうちのいくつかまたはすべてを遂行するように構成されていてもよい。図３では、コンピューティング装置３００は、ネットワークまたはローカルネットワークを介して、他のサーバーまたはシステムにリンクされる。

コンピューティング装置３００は、分散したアーキテクチャで構成される場合があり、データベースおよびプロセッサは、別個のユニットまたは場所に収容される。いくつかのかかるユニットは、主要な処理機能を遂行し、かつ最低でも一般的なコントローラーまたはプロセッサ、およびシステムメモリを含む。かかる態様では、これらのユニットの各々は、通信インターフェースユニット３０８を介して、他のサーバー、クライアントまたはユーザーのコンピュータ、および他の関連した装置との主要通信リンクとして作用する通信ハブまたは通信ポート（図示せず）に取り付けられる。通信ハブまたは通信ポートは、それ自体最低限の処理能力を有してもよく、主に通信ルーターとして作用する。様々な通信プロトコルが、システムの一部であってもよい。通信プロトコルとしては、Ｅｔｈｅｒｎｅｔ（登録商標）、ＳＡＰ、ＳＡＳ（商標）、ＡＴＰ、ＢＬＵＥＴＯＯＴＨ（登録商標）、ＧＳＭ（登録商標）、およびＴＣＰ／ＩＰが挙げられるが、これに限定されない。

ＣＰＵ３０６は、１つ以上の従来のマイクロプロセッサなどのプロセッサ、およびＣＰＵ３０６からの作業負荷を除去するための数値計算コプロセッサなどの１つ以上の補助コプロセッサ、を備える。ＣＰＵ３０６は、通信インターフェースユニット３０８および入力／出力コントローラー３１０と通信し、ＣＰＵ３０６は、これを通して他のサーバー、ユーザー端子、またはユーザー装置などの他の装置と通信する。通信インターフェースユニット３０８および入力／出力コントローラー３１０は、例えば他のプロセッサ、サーバー、またはクライアント端子などとの同時通信のために複数の通信チャネルを含む場合がある。相互に通信する装置は、継続的に相互に送信する必要はない。それどころか、かかる装置は必要に応じて相互に送信することのみが必要であり、実際にはほとんどの時間でデータの交換をやめてもよく、および装置間の通信リンクを確立するために、いくつかのステップを遂行する必要がある場合がある。

ＣＰＵ３０６は、データ保存装置とも通信する。データ保存装置は、磁気、光学、または半導体メモリの適切な組み合わせを含んでもよく、例えばＲＡＭ３０２、ＲＯＭ３０４、フラッシュドライブ、コンパクトディスクなどの光学ディスク、またはハードディスクもしくはハードドライブを含んでもよい。ＣＰＵ３０６およびデータ保存装置はそれぞれ、例えば、単一のコンピュータ内、もしくは他のコンピューティング装置内に完全に位置していてもよく、またはＵＳＢポート、シリアルポートケーブル、同軸ケーブル、Ｅｔｈｅｒｎｅｔ（登録商標）タイプのケーブル、電話線、無線周波数トランシーバー、または他の類似の無線もしくは有線媒体、あるいはこれらの組み合わせなどの通信媒体によって相互に接続されていてもよい。例えば、ＣＰＵ３０６は、通信インターフェースユニット３０８を介してデータ保存装置に接続されていてもよい。ＣＰＵ３０６は、１つ以上の特定の処理機能を遂行するように構成されていてもよい。

データ保存装置は、例えば（ｉ）コンピューティング装置３００のためのオペレーティングシステム３１２、（ｉｉ）本明細書に記述されるシステムおよび方法に従って、および特にＣＰＵ３０６について詳細に記述されるプロセスに従って、ＣＰＵ３０６を導くように適合された、１つ以上のアプリケーション３１４（例えば、コンピュータプログラムコード、またはコンピュータプログラム製品）、または（ｉｉｉ）プログラムによって要求される情報を保存するように利用される場合がある、情報を保存するように適合されたデータベース（複数可）３１６、を保存してもよい。いくつかの態様では、データベース（複数可）は、実験データおよび発行された文献モデルを保存するデータベースを含む。

オペレーティングシステム３１２およびアプリケーション３１４は、例えば圧縮された、未コンパイルの、そして暗号化されたフォーマットで保存される場合があり、かつコンピュータプログラムコードを含む場合がある。プログラムの命令は、データ保存装置ではなくコンピュータ可読媒体から（例えばＲＯＭ３０４から、またはＲＡＭ３０２からなど）プロセッサの主メモリ内へと読み込まれる場合がある。プログラム内の命令のシーケンスの実行は、本明細書に記述されるプロセスのステップをＣＰＵ３０６に遂行させるが、本開示のプロセスの実施のために、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて有線回路が使用されてもよい。従って、記述されるシステムおよび方法は、ハードウェアとソフトウェアとのいかなる特定の組み合わせにも限定されない。

好適なコンピュータプログラムコードは、本明細書に記述されるように、１つ以上の機能を遂行するために提供される場合がある。プログラムは、オペレーティングシステム３１２、データベース管理システム、および入力／出力コントローラー３１０を介してプロセッサがコンピュータ周辺装置（例えば、ビデオディスプレー、キーボード、コンピュータマウスなど）とインターフェースすることができるようにする「装置ドライバー」などのプログラム要素も含む場合がある。

「コンピュータ可読媒体」という用語は本明細書で使用される場合、実行のために、コンピューティング装置３００のプロセッサ（または本明細書に記述される装置の任意の他のプロセッサ）に命令を提供する、またはその提供に関与する任意の非一時的媒体を指す。かかる媒体は、不揮発性媒体、および揮発性媒体を含むがこれに限定されない、数多くの形態をとる場合がある。不揮発性媒体としては、例えば、光学、磁気、もしくは光磁気ディスク、またはフラッシュメモリなどの集積回路メモリが挙げられる。揮発性媒体としては、典型的には主メモリを構成する、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）が挙げられる。コンピュータ可読媒体の一般的な形態としては、例えばフロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤ、任意の他の光学媒体、パンチカード、紙テープ、任意の他の孔パターン付きの物理的媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、もしくはＥＥＰＲＯＭ（電気的消去可プログラマブル読み取り専用メモリ）、ＦＬＡＳＨ−ＥＥＰＲＯＭ、任意の他のメモリチップまたはカートリッジ、あるいはコンピュータが読み取ることができる任意の他の非一時的媒体が挙げられる。

実行のために、１つ以上の命令の１つ以上のシーケンスを、ＣＰＵ３０６（または、本明細書に記述される、装置の任意の他のプロセッサ）に搬送するために、様々な形態のコンピュータ可読媒体が関与する場合がある。例えば、命令は当初、リモートのコンピュータ（図示せず）の磁気ディスク上に置かれる場合がある。リモートのコンピュータは、命令をそのダイナミックメモリ内にロードし、Ｅｔｈｅｒｎｅｔ（登録商標）接続、ケーブルライン、またはモデムを使用する電話線を通してさえも、その命令を送る場合がある。コンピューティング装置３００に対してローカルの通信装置（例えば、サーバー）は、それぞれの通信ライン上のデータを受け取り、かつプロセッサのためにデータをシステムバス上に位置付ける場合がある。システムバスはデータを主メモリに搬送し、プロセッサは、そこから命令を取得し、かつ実行する。主メモリによって受け取られた命令は、任意選択により、プロセッサによって実行の前または後のいずれかに、メモリ内に保存される場合がある。加えて、命令は通信ポートを介して、電気的信号、電気磁気的信号、または光学的信号として受け取られる場合があり、これはワイヤレス通信または様々なタイプの情報を搬送するデータストリームの例示的な形態である。

本明細書で参照した各々の参照は、そのそれぞれの全体が参照により本明細書に組み込まれる。

本開示の実装が、特定の実施例を参照して特に示され、かつ記述されてきたが、その中で形態および詳細の様々な変更が、本開示の範囲を逸脱することなく、添付の特許請求の範囲によって定義されるように、なされる場合があることが当業者によって理解されるべきである。よって、本開示の範囲は、添付の特許請求の範囲によって示され、従って特許請求の範囲の均等物の意味および範囲内に入るすべての変化が含まれることが意図される。

Claims

本明細書に記載の発明。