JP5279505B2

JP5279505B2 - 末梢血白血球の転写プロファイルのモジュールレベル分析

Info

Publication number: JP5279505B2
Application number: JP2008544529A
Authority: JP
Inventors: シヨサベル，ダミアン; バンシユロ，ジヤツク・エフ
Original assignee: Baylor Research Institute
Current assignee: Baylor Research Institute
Priority date: 2005-12-09
Filing date: 2006-12-09
Publication date: 2013-09-04
Anticipated expiration: 2026-12-09
Also published as: JP2009518041A; CA2633832A1; JP2013223501A; EP1968610A2; EP1963533A2; JP2013143948A; WO2007067734A3; EP1963533A4; WO2007070376A3; JP5670615B2; WO2007070376A8; WO2007067734A2; US20070238094A1; EP2416270A3; CA2633815A1; EP2416270A2; EP1968610A4; WO2007070376A2; JP2009518040A

Description

本発明の技術分野
本発明は一般的には細胞の転写プロファイリングに関し、そしてより詳細には白血球の転写発現プロファイルから疾患の診断および予知に関する。

長い表
本発明には長い表を含み、その全内容は引用により本明細書に編入する。このファイルを含む２枚のＣＤのコピーを横長の方向で添付する。

発明の背景

遺伝子発現マイクロアレイの広く知られた用途により、生物医学的調査に大きな望みがもたれる。この技術は癌患者に予知の確立（非特許文献１、２、３、４）、そして病原に関与する遺伝子または経路の同定（例えば若年性突発性関節炎の全身的発生の病因におけるインターロイキン−１（ＩＬ−１）の役割の発見）を導いた（非特許文献５）。しかしこれら重大な進歩にもかかわらず、遺伝子発現マイクロアレイ技術は、その初期の騒ぎの期待に添えず、そしてマイクロアレイ平板（ｐｌａｔｆｏｒｍ）から派生した結果は最近、鋭い批判の対象となった（非特許文献６）。中でも主な関心はマイクロアレイのデータが特にノイズの影響をうけ易く、そして拡大解釈する場合、懐疑的結果の生成を生む恐れがあるという事実である（非特許文献７）。この疑念はまた、異なる研究室により、およびすべての平板にわたって得られたマイクロアレイデータの評判の悪い再現性からも生じる（非特許文献８、９、１０、１１、１２）。最後にゲノムの全内容における実験結果を解釈するための能力に限界があることも、マイクロアレイ調査における別の障害を構成している（非特許文献１３）。

参考文献

Ｇｏｌｕｂ，Ｔ．Ｒ．ｅｔａｌ．癌の分子的分類：遺伝子発現のモニタリングによるクラスの発見およびクラスの予想（Ｍｏｌｅｃｕｌａｒｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｃａｎｃｅｒ：ｃｌａｓｓｄｉｓｃｏｖｅｒｙａｎｄｃｌａｓｓｐｒｅｄｉｃｔｉｏｎｂｙｇｅｎｅｅｘｐｒｅｓｓｉｏｎｍｏｎｉｔｏｒｉｎｇ）．Ｓｃｉｅｎｃｅ２８６，５３１−７，１９９９Ａｌｉｚａｄｅｈ，Ａ．Ａ．ｅｔａｌ．遺伝子発現プロファイリングにより同定された拡散大型Ｂ細胞リンパ腫（ＤｉｓｔｉｎｃｔｔｙｐｅｓｏｆｄｉｆｆｕｓｅｌａｒｇｅＢ−ｃｅｌｌｌｙｍｐｈｏｍａｉｄｅｎｔｉｆｉｅｄｂｙｇｅｎｅｅｘｐｒｅｓｓｉｏｎｐｒｏｆｉｌｉｎｇ）．Ｎａｔｕｒｅ４０３，５０３−１１，２０００．Ｇａｒｂｅｒ，Ｋ．ゲノム創薬。遺伝子発現試験は乳癌の予後を予測する（Ｇｅｎｏｍｉｃｍｅｄｉｃｉｎｅ．Ｇｅｎｅｅｘｐｒｅｓｓｉｏｎｔｅｓｔｓｆｏｒｅｔｅｌｌｂｒｅａｓｔｃａｎｃｅｒ’ｓｆｕｔｕｒｅ）．Ｓｃｉｅｎｃｅ３０３，１７５４−５，２００４ｖａｎｄｅＶｉｊｖｅｒ，Ｍ．Ｊ．ｅｔａｌ．乳癌における生存の予測としての遺伝子発現兆候（Ａｇｅｎｅ−ｅｘｐｒｅｓｓｉｏｎｓｉｇｎａｔｕｒｅａｓａｐｒｅｄｉｃｔｏｒｏｆｓｕｒｖｉｖａｌｉｎｂｒｅａｓｔｃａｎｃｅｒ）．ＮＥｎｇｌＪＭｅｄ３４７，１９９９−２００９，２００２Ｐａｓｃｕａｌ，Ｖ．，Ａｌｌａｎｔａｚ，Ｆ．，Ａｒｃｅ，Ｅ．，Ｐｕｎａｒｏ，Ｍ．＆Ｂａｎｃｈｅｒｅａｕ，Ｊ．若年性突発性関節炎の全身的発生の病因におけるインターロイキン−１（ＩＬ−１）の役割およびＩＬ−１遮断に対する臨床的応答（Ｒｏｌｅｏｆｉｎｔｅｒｌｅｕｋｉｎ−１（ＩＬ−１）ｉｎｔｈｅｐａｔｈｏｇｅｎｅｓｉｓｏｆｓｙｓｔｅｍｉｃｏｎｓｅｔｊｕｖｅｎｉｌｅｉｄｉｏｐａｔｈｉｃａｒｔｈｒｉｔｉｓａｎｄｃｌｉｎｉｃａｌｒｅｓｐｏｎｓｅｔｏＩＬ−１ｂｌｏｃｋａｄｅ）．ＪＥｘｐＭｅｄ２０１，１４７９−８６，２００５Ｍｉｃｈｉｅｌｓ，Ｓ．，Ｋｏｓｃｉｅｌｎｙ，Ｓ．＆Ｈｉｌｌ，Ｃ．マイクロアレイを用いた癌の結果の予測：多数の無作為な検証法（Ｐｒｅｄｉｃｔｉｏｎｏｆｃａｎｃｅｒｏｕｔｃｏｍｅｗｉｔｈｍｉｃｒｏａｒｒａｙｓ：ａｍｕｌｔｉｐｌｅｒａｎｄｏｍｖａｌｉｄａｔｉｏｎｓｔｒａｔｅｇｙ）．Ｌａｎｃｅｔ３６５，４８８−９２，２００５Ｉｏａｎｎｉｄｉｓ，Ｊ．Ｐ．マイクロアレイおよび分子調査：ノイズ発見？（Ｍｉｃｒｏａｒｒａｙｓａｎｄｍｏｌｅｃｕｌａｒｒｅｓｅａｒｃｈ：ｎｏｉｓｅｄｉｓｃｏｖｅｒｙ？）Ｌａｎｃｅｔ３６５，４５４−５，２００５Ｊａｒｖｉｎｅｎ，Ａ．Ｋ．ｅｔａｌ．異なる遺伝子マイクロアレイ平板からのデータは比較可能か？（Ａｒｅｄａｔａｆｒｏｍｄｉｆｆｅｒｅｎｔｇｅｎｅｅｘｐｒｅｓｓｉｏｎｍｉｃｒｏａｒｒａｙｐｌａｔｆｏｒｍｓｃｏｍｐａｒａｂｌｅ？）Ｇｅｎｏｍｉｃｓ８３，１１６４−８，２００４．Ｔａｎ，Ｐ．Ｋ．ｅｔａｌ．市販されているマイクロアレイ平板からの遺伝子発現測定の評価（Ｅｖａｌｕａｔｉｏｎｏｆｇｅｎｅｅｘｐｒｅｓｓｉｏｎｍｅａｓｕｒｅｍｅｎｔｓｆｒｏｍｃｏｍｍｅｒｃｉａｌｍｉｃｒｏａｒｒａｙｐｌａｔｆｏｒｍｓ）．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ３１，５６７６−８４，２００３Ｂａｍｍｌｅｒ，Ｔ．ｅｔａｌ．研究室間および平板全体の全体的遺伝子発現分析の標準化（Ｓｔａｎｄａｒｄｉｚｉｎｇｇｌｏｂａｌｇｅｎｅｅｘｐｒｅｓｓｉｏｎａｎａｌｙｓｉｓｂｅｔｗｅｅｎｌａｂｏｒａｔｏｒｉｅｓａｎｄａｃｒｏｓｓｐｌａｔｆｏｒｍｓ）．ＮａｔＭｅｔｈｏｄｓ２，３５１−６，２００５Ｉｒｉｚａｒｒｙ，Ｒ．Ａ．ｅｔａｌ．マイクロアレイ平板の多数の研究室による比較（Ｍｕｌｔｉｐｌｅ−ｌａｂｏｒａｔｏｒｙｃｏｍｐａｒｉｓｏｎｏｆｍｉｃｒｏａｒｒａｙｐｌａｔｆｏｒｍｓ）．ＮａｔＭｅｔｈｏｄｓ２，３４５−５０，２００５Ｌａｒｋｉｎ，Ｊ．Ｅ．，Ｆｒａｎｋ，Ｂ．Ｃ．，Ｇａｖｒａｓ，Ｈ．，Ｓｕｌｔａｎａ，Ｒ．＆Ｑｕａｃｋｅｎｂｕｓｈ，Ｊ．マイクロアレイ平版をわたる独立性および再現性（Ｉｎｄｅｐｅｎｄｅｎｃｅａｎｄｒｅｐｒｏｄｕｃｉｂｉｌｉｔｙａｃｒｏｓｓｍｉｃｒｏａｒｒａｙｐｌａｔｆｏｒｍｓ）．ＮａｔＭｅｔｈｏｄｓ２，３３７−４４（２００５）．Ｃｈａｕｓｓａｂｅｌ，Ｄ．生物医学的文献調査：‘ｏｍｉｃｓ’時代における挑戦および解決（Ｂｉｏｍｅｄｉｃａｌｌｉｔｅｒａｔｕｒｅｍｉｎｉｎｇ：ｃｈａｌｌｅｎｇｅｓａｎｄｓｏｌｕｔｉｏｎｓｉｎｔｈｅ ‘ｏｍｉｃｓ’ｅｒａ）．ＡｍＪＰｈａｒｍａｃｏｇｅｎｏｍｉｃｓ４，３８３−９３（２００４）．

発明の要約
ゲノム調査は、評判の悪いノイズ、解釈が難しく、しかも研究室および平板全体を十分に比較しない転写データの分析で重大な困難に直面している。本発明者は分析の初期段階で生物学的に関連する遺伝子の選択を強調する分析法を開発し、これはマイクロアレイ平板間の矛盾を克服する分析モジュールに統合される。開発された転写モジュールは、膨大な遺伝子発現データベースの分析に使用することができる。この分析から派生する結果は、容易に解釈でき、そして市販のマイクロアレイ平板全体で観察される高い再現性の程度により証明されるように特に強固（ｒｏｂｕｓｔ）である。

この分析法に関する応用は、大きな組のＰＢＭＣ転写プロファイルを調査することを介して具体的に説明される。４７４２遺伝子に再度グループ分けされる２８の転写モジュールが同定された。本発明を使用することにより、疾患はモジューラーレベルで測定される例えば血中白血球における転写の変化の組み合わせにより独自に特徴付けられることを証明することが可能である。実際、血中白血球の転写レベルにおけるモジュール−レベルの変化は、疾患またはサンプルの分子指紋を構成する。

本発明は、広い範囲の応用を有する。本発明は任意の生物学系（例えば末梢血単核細胞（ＰＢＭＣ）、血液細胞、糞細胞、腹膜細胞、固体の臓器生検材料、切開した腫瘍、一次細胞、細胞株、細胞クローン等）のモジュラー転写成分を特徴付けるために使用することができる。この取り組みを介して集められたモジュラーＰＢＭＣ転写データは、疾患の重篤度の分子診断的、予知的評価、薬剤処置に対する応答、薬剤毒性等に使用することができる。この取り組みを使用して処理した他のデータは、例えば薬剤化合物の機械作用的実験またはスクリーニングに使用することができる。実際に、データ分析法およびマイニングアルゴリズムは、一般的な遺伝子発現データ分析ソフトウェアで実施することができ、そしてさらに新たな疾患または状態に特異的なモジュールを見いだし、開発し、そして試験するために使用することができる。また本発明は薬理遺伝学、分子診断、バイオインフォマティックス等にも使用することができ、ここで詳細な発現データを使用して臨床試験中に得ることができる結果を改善することができる（例えばサンプル群を改善し、またはそれからさらに選択することにより）。

さらに詳細には本発明は、患者のトランスクリプトームを得：疾患または状態の指標となる１もしくは複数の転写モジュールに基づきトランスクリプトームを分析し：そして患者の疾患または状態を、１もしくは複数の転写モジュールのトランスクリプトーム内の遺伝子発現の存在、不存在またはレベルに基づき決定する、疾患または状態を診断するためのアレイ、装置、システムおよび方法を含む。転写モジュールは：疾患または状態毎に合う各クラスターからそのモジュールについての遺伝子を選択し；選択した遺伝子を分析から除き；そして疾患または状態の亜分画中に集まる遺伝子について遺伝子発現値を選択する工程を繰り返すことにより１もしくは複数の転写モジュールに関する遺伝子発現を反復して選択し；そしてすべての遺伝子クラスターが使用し尽されるまで、各クラスターについてモジュールの作成を繰り返し反復することにより得ることができる。

本発明と共に使用するために選択されるクラスターの例には、限定するわけではないが発現値クラスター、キーワードクラスター、代謝クラスター、疾患クラスター、感染クラスター、移植クラスター、シグナル伝達クラスター、転写クラスター、複製クラスター、細胞サイクルクラスター、ｓｉＲＮＡクラスター、ｍｉＲＮＡクラスター、ミトコンドリアクラスター、Ｔ細胞クラスター、Ｂ細胞クラスター、サイトカインクラスター、リンホカインクラスター、熱ショッククラスターおよびその組み合わせを含む。本発明を使用して分析するため疾患または状態の例には、例えば自己免疫疾患、ウイルス感染バクテリア感染、癌および移植拒絶がある。さらに詳細には、分析のための疾患は１もしくは複数の以下の状態：全身型若年性特発性関節炎、全身性エリテマトーデス、Ｉ型糖尿病、肝移植受容者、黒色腫患者および大腸菌、黄色ブドウ球菌のようなバクテリアに感染している患者、インフルエンザＡのようなウイルスに感染している患者、およびそれらの組み合わせから選択され得る。特異的アレイはさらに、バイオテロ物質に関連する特異的な疾患または状態を検出するために作成することができる。

本発明を使用して分析することができる細胞には、例えば末梢血単核細胞（ＰＢＭＣ）、血液細胞、胎児細胞、腹膜細胞、固体の臓器生検材料、切除腫瘍、一次細胞、細胞株、細胞クローンおよびそれらの組み合わせを含む。細胞は単一細胞、細胞の集合、組織、細
胞培養物、例えば血液のような体液中の細胞でよい。細胞は組織生検材料、１もしくは複数の分類された細胞群、細胞培養物、細胞クローン、形質転換細胞、生検材料または単一細胞から得ることができる。細胞のタイプは例えば脳、肝臓、心臓、腎臓、肺、脾臓、網膜、骨、ニューロンの、リンパ節、内分泌腺、生殖器官、血液、神経、血管組織および臭覚上皮細胞でよい。細胞が単離された後、これら細胞からのこれらｍＲＮＡを得、そして個々の遺伝子発現レベルの分析を例えばプローブアレイ、ＰＣＲ、定量的ＰＣＲ、ビーズに基づくアッセイおよびそれらの組み合わせを使用して行う。個々の遺伝子発現レベルの分析はさらに、逆転写酵素用の鋳型として細胞から集めたｍＲＮＡから作成したｃＤＮＡを使用して、固体支持体上の核酸のハイブリダイゼーションを使用して行うことができる。

別の態様では、本発明は転写モジュールを同定する方法を含み、この方法は疾患または状態がある１もしくは複数の患者から得た細胞から個々の遺伝子発現レべルを得；クラスターに分割されている表中の各遺伝子について発現値を記録し；各疾患または状態に合う各クラスターからそのモジュールについての遺伝子を選択し；選択した遺伝子を分析から除き；そして疾患または状態の亜分画中に集まる遺伝子について遺伝子発現値を選択する工程を繰り返すことにより１もしくは複数の転写モジュールに関する遺伝子発現を反復して選択し；そしてすべての遺伝子クラスターが使用し尽されるまで、各クラスターについてモジュールの作成を繰り返し反復することによる。本発明で使用するための転写モジュールの例は、以下から選択することができる：

ならびにそれらの組み合わせから選択され、ここでサンプル中の遺伝子の発現レベルが、疾患または状態を決定するためにモジュールに対してランク付けされる。

本発明は、例えば

からなる群から選択される１もしくは複数の遺伝子モジュールを含み、自己免疫疾患、ウイルス感染バクテリア感染、癌および移植拒絶の間を識別するために十分である疾患分析ツールを含む。

１つの態様では、選択されるモジュールが
形質細胞：免疫グロブリン鎖（ＩＧＨＭ，ＩＧＪ，ＩＧＬＬ１，ＩＧＫＣ，ＩＧＨＤ）および形質細胞マーカーＣＤ３８をコードする遺伝子を含む；および
血小板：血小板糖タンパク質（ＩＴＧＡ２Ｂ，ＩＴＧＢ３，ＧＰ６，ＧＰ１Ａ／Ｂ）、およびＰＰＰＢ（プロ−血小板塩基性タンパク質）およびＰＦ４（血小板因子４）のような血小板由来免疫メディエーターをコードする遺伝子を含む；
から選択され、そしてこのモジュールがこれら２つのモジュールに陽性ベクトルを有することにより全身性エリテマトーデスを同定するために使用される。

別の態様では、選択されるモジュールが：
形質細胞：免疫グロブリン鎖（ＩＧＨＭ，ＩＧＪ，ＩＧＬＬ１，ＩＧＫＣ，ＩＧＨＤ）および形質細胞マーカーＣＤ３８をコードする遺伝子を含み；および
血小板：血小板糖タンパク質（ＩＴＧＡ２Ｂ，ＩＴＧＢ３，ＧＰ６，ＧＰ１Ａ／Ｂ）、およびＰＰＰＢ（プロ−血小板塩基性タンパク質）およびＰＦ４（血小板因子４）のような血小板由来免疫メディエーターをコードする遺伝子を含む；
から選択されることができ、そしてこのモジュールがこれら２つのモジュールに陽性ベクトルも陰性ベクトルも持たないことによりインフルエンザ感染を同定するために使用される。

別の態様では、選択されるモジュールが：
形質細胞：免疫グロブリン鎖（ＩＧＨＭ，ＩＧＪ，ＩＧＬＬ１，ＩＧＫＣ，ＩＧＨＤ）および形質細胞マーカーＣＤ３８をコードする遺伝子を含み；および
血小板：血小板糖タンパク質（ＩＴＧＡ２Ｂ，ＩＴＧＢ３，ＧＰ６，ＧＰ１Ａ／Ｂ）、およびＰＰＰＢ（プロ−血小板塩基性タンパク質）およびＰＦ４のような（血小板因子４）血小板由来免疫メディエーターをコードする遺伝子を含む；
から選択され、そしてこのモジュールが形質細胞マーカーに陰性ベクトルを、そして血小板マーカーに陽性ベクトルを有することにより黒色腫を同定するために使用される。

別の態様では、選択されるモジュールが：
形質細胞：免疫グロブリン鎖（ＩＧＨＭ，ＩＧＪ，ＩＧＬＬ１，ＩＧＫＣ，ＩＧＨＤ）および形質細胞マーカーＣＤ３８をコードする遺伝子を含む；および
血小板：血小板糖タンパク質（ＩＴＧＡ２Ｂ，ＩＴＧＢ３，ＧＰ６，ＧＰ１Ａ／Ｂ）、およびＰＰＰＢ（プロ−血小板塩基性タンパク質）およびＰＦ４（血小板因子４）のような血小板由来免疫メディエーターをコードする遺伝子を含む；
から選択され、そしてこのモジュールがこれら２つのモジュールに陰性ベクトルを有することにより移植拒絶を同定するために使用される。

別の態様では、選択されるモジュールが：
形質細胞：免疫グロブリン鎖（ＩＧＨＭ，ＩＧＪ，ＩＧＬＬ１，ＩＧＫＣ，ＩＧＨＤ）および形質細胞マーカーＣＤ３８をコードする遺伝子を含む；および
血小板：血小板糖タンパク質（ＩＴＧＡ２Ｂ，ＩＴＧＢ３，ＧＰ６，ＧＰ１Ａ／Ｂ）、およびＰＰＰＢ（プロ−血小板塩基性タンパク質）およびＰＦ４（血小板因子４）のような血小板由来免疫メディエーターをコードする遺伝子を含む；
から選択され、そしてこのモジュールがこれら２つのモジュールに陰性ベクトルを有することによりインフルエンザ感染を同定するために使用される。

さらに別の態様では、本発明は１もしくは複数の転写モジュールの代表である遺伝子の組み合わせを有するカスタマイズされた遺伝子アレイを含む予知遺伝子アレイであり、ここでカスタマイズされた遺伝子アレイと接触する患者のトランスクリプトームは、転写モジュールに合った１もしくは複数の疾患または状態の予知である。１例では、疾患または状態に対する患者の免疫応答が、転写モジュールと特異的疾患または状態との相関に基づきトランスクリプトームの遺伝子発現の存在、不存在またはレベルに基づき決定される。このアレイは自己免疫疾患、ウイルス感染バクテリア感染、癌および移植拒絶の間を識別することができる。このアレイハ２以上の転写モジュールに組織化され得る。例えばアレイは：

から選択される１もしくは複数のサブモジュールを含んでなる３つの転写モジュールに組織化されることができ、ここで各々から１もしくは複数のプローブがモジュールの１もしくは複数の遺伝子に特異的に結合する。

さらに別の本発明には、

を含んでなる左カラムから選択される１グループ、および右カラムから選択される１グループの組み合わせ、およびその組み合わせから選択される１もしくは複数の遺伝子モジュールを含む遺伝子分析ツールを含み、ここで疾患または状態を決定するためにモジュールに対してサンプル中の遺伝子発現のレベルがランク付けされる。

本発明のアレイ、方法およびシステムは：予想される患者のトランスクリプトームを得；トランスクリプトームを、臨床試験で処置される疾患または状態の指標となる１もしくは複数の転写モジュールに対して比較し；そして患者が臨床試験の良い候補となる見込を、臨床試験での成功と相関する１もしくは複数の転写モジュール内の患者のトランスクリプトームで発現される１もしくは複数の遺伝子の存在、不存在またはレベルに基づき決定することにより、臨床試験の患者を選択するために使用することができる。一般に各モジュールについて、サンプル中の転写産物の比率の和と相関するベクトルを使用することができ、例えば各モジュールがベクトルを含んでなり、そしてここで１もしくは複数の疾患または状態がこの１もしくは複数のベクトルと関連する。したがって各モジュールは、各モジュール内の１もしくは複数の遺伝子の発現レベルと相関するベクトルを含んでなることができる。

また本発明は、１もしくは複数の疾患の間を識別するために差次的に発現される遺伝子の十分な比率を提供するために、１もしくは複数のモジュールから十分なプローブを含む固体支持体上に固定化された核酸プローブを含むアレイ、例えばカスタムマイクロアレイを含み、このプローブは表３から選択される。例えば固体支持体上に固定化された核酸プローブのアレイ、ここでアレイは；

から選択される少なくとも２組のプローブモジュールを含み、ここで第１組のプローブが、１もしくは複数の疾患にそれぞれ対応する１もしくは複数の質問位置を有する。アレイは１００から１００，０００個のプローブを有することができ、そして各プローブは例えば９〜２１ヌクレオチド長である。組織化されたプローブの組に分離された場合、これらは別個に質問され得る。

また本発明は、固体支持体に固定化され、少なくとも１対の第１および第２プローブ群を含むアレイを形成する１もしくは複数の核酸プローブを含み、各群が表３により定められる１もしくは複数のプローブを有する。プローブ群は、マイクロアレイ平板全体に一貫した複合転写マーカーベクトルを提供するように選択される。実際に、プローブ群はマイクロアレイ平板全体に一貫した複合転写マーカーベクトルを提供し、そして調節承認に関する要約を表示するために使用され得る。当業者は、本発明のモジュールを使用して、異なる疾患および／または状態の間を迅速に診断し、または識別するために使用できる１もしくは複数の疾患特異的アレイを迅速に開発することが可能であると考える。

発明の詳細な説明
本発明の様々な態様を作成し、そして使用することを以下で詳細に検討するが、本発明は広い様々な特定の内容で具現化され得る多くの応用可能な革新的概念を提供すると考えるべきである。本明細書で検討する特別な態様は、本発明を作成し、そして使用するための特定の方法の単に具体的説明であり、本発明の範囲に限界を定めるものではない。

本発明の理解を容易にするために、多くの用語を以下に定義する。本明細書で定義する用語は、本発明に関する当業者が一般に理解している意味を有する。“ａ”、“ａｎ”および“ｔｈｅ”のような用語は、単数の物体を指すことのみを意図するのではなく、特定例の具体的説明に使用できる一般的種類を含む。本明細書の用語法は、本発明の具体的態様を説明するために使用されるが、それらの用途は特許請求の範囲で境界を定めることを除き、本発明を限定しない。他に定義しない限り、本明細書で使用するすべての技術的および科学的用語は、本発明が属する当業者に通常に理解されている意味を有する。以下の参照は、本発明で使用する多くの用語の一般的定義を用いて技術の１つを提供する：Ｓｉｎｇｌｅｔｏｎｅｔａｌ．，微生物学および分子生物学辞典（ＤＩＣＴＩＯＮＡＲＹ
ＯＦＭＩＣＲＯＢＩＯＬＯＧＹＡＮＤＭＯＬＥＣＵＬＡＲＢＩＯＬＯＧＹ（２ｄｅｄ．１９９４）；科学および技術のゲンブリッジ辞書（ＴＨＥＣＡＭＢＲＩＤＧＥＤＩＣＴＩＯＮＡＲＹＯＦＳＣＩＥＮＣＥＡＮＤＴＥＣＨＮＯＬＯＧＹ）（Ｗａｌｋｅｒｅｄ．，１９８８）；遺伝学の用語解説（ＴＨＥＧＬＯＳＳＡＲＹＯＦＧＥＮＥＴＩＣＳ），５ＴＨＥＤ．，Ｒ．Ｒｉｅｇｅｒｅｔａｌ．（ｅｄｓ．），ＳｐｒｉｎｇｅｒＶｅｒｌａｇ（１９９１）；ａｎｄＨａｌｅ＆Ｍａｒｈａｍ，ＴＨＥＨＡＲＰＥＲＣＯＬＬＩＮＳＤＩＣＴＩＯＮＡＲＹＯＦＢＩＯＬＯＧＹ（１９９１）．

様々な生化学的および分子生物学的方法が当該技術分野では知られている。例えば核酸の分離および精製法は、国際公開第９７／１０３６５号、同第９７／２７３１７明細書、生物学および分子生物学の研究室技術：核酸プローブでのハイブリダイゼーション（ＬａｂｏｒａｔｏｒｙＴｅｃｈｎｉｑｕｅｓｉｎＢｉｏｃｈｅｍｉｓｔｒｙａｎｄＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ：ＨｙｂｒｉｄｉｚａｔｉｏｎＷｉｔｈＮｕｃｌｅｉｃＡｃｉｄＰｒｏｂｅｓ）の第３章、Ｉ部、理論および核酸の調製（ＴｈｅｏｒｙａｎｄＮｕｃｌｅｉｃＡｃｉｄＰｒｅｐａｒａｔｉｏｎ），（Ｐ．Ｔｉｊｓｓｅｎ，ｅｄ．）エルセビア（Ｅｌｓｅｖｉｅｒ），Ｎ．Ｙ．（１９９３）；生物学および分子生物学の研究室技術：核酸プローブでのハイブリダイゼーション（ＬａｂｏｒａｔｏｒｙＴｅｃｈｎｉｑｕｅｓｉｎＢｉｏｃｈｅｍｉｓｔｒｙａｎｄＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ：ＨｙｂｒｉｄｉｚａｔｉｏｎＷｉｔｈＮｕｃｌｅｉｃＡｃｉｄＰｒｏｂｅｓ）の第３章、Ｉ部，理論および核酸の調製（ＴｈｅｏｒｙａｎｄＮｕｃｌｅｉｃＡｃｉｄＰｒｅｐａｒａｔｉｏｎ），（Ｐ．Ｔｉｊｓｓｅｎ，ｅｄ．）エルセビア（Ｅｌｓｅｖｉｅｒ），Ｎ．Ｙ．（１９９３）；およびＳａｍｂｒｏｏｋｅｔａｌ．，モレキュラークローニング：アラボラトリーマニュアル（ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ），コールドスプリングハーバー出版（ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＰｒｅｓｓ），Ｎ．Ｙ．，（１９８９）；および分子生物学の現在の手法（ＣｕｒｒｅｎｔＰｒｏｔｏｃｏｌｓｉｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ），（Ａｕｓｕｂｅｌ，Ｆ．Ｍ．ｅｔ
ａｌ．，ｅｄｓ．）ジョンウィリー＆サンズ社（ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．），ニューヨーク（１９８７−１９９９）（追補４６（１９９９年４月のよ
うな追補を含む）に詳細に記載されている。

バイオインフォマティクスの定義
本明細書で使用する「オブジェクト（ｏｂｊｅｃｔ）」は、問題とする任意の項目または情報を称する（一般に原文どおり、名詞、動詞、形容詞、副詞、句、文、記号、数字等を含む）。したがってオブジェクトは関係を形成することができる任意のもであり、また供給源から得られ、同定され、かつ／または調査される任意のものである。「オブジェクト」には限定するわけではないが、遺伝子、タンパク質、疾患、表現型、メカニズム、薬剤等のような問題の実態を含む。幾つかの観点では、オブジェクトは以下にさらに記載するようなデータでよい。

本明細書で使用する「関係」とは、同じ単位（例えば、句、文、明細書中の２以上の行、段落、ウェップページの章、ページ、雑誌、新聞、本等の欄）内でのオブジェクトの共起を指す。これはテキスト、記号、数字およびその組み合わせでよい。

本明細書で使用する「メタデータコンテンツ（ｍｅｔａｄａｔａｃｏｎｔｅｎｔ）」とは、データソース（ｄａｔａｓｏｕｒｃｅ）におけるテキストの組織化に関する情報を指す。メタデータは、ダブリンコア（ＤｕｂｌｉｎＣｏｒｅ）メタデータのような標準的メタデータを含んでなることができ、あるいはコレクション−スペシフィック（ｃｏｌｌｅｃｔｉｏｎ−ｓｐｅｃｉｆｉｃ）であることができる。メタデータ形式の例には限定するわけではないが、ライブラリータカログに使用されるマシーンリーダブル
カタログ（ＭａｃｈｉｎｅＲｅａｄａｂｌｅＣａｔａｌｏｇ：ＭＡＲＣ）レコード、リソースディスクリプションフォーマット（ＲｅｓｏｕｒｃｅＤｅｓｃｒｉｐｔｉｏｎＦｏｒｍａｔ：ＲＤＦ）およびエクステンシブルマークアップラングィッジ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ：ＸＭＬ）がある。メタデータオブジェクトはマニュアルで、または自動化情報抽出アルゴリズムを介して作成することができる。

本明細書で使用する「エンジン」は、他のプログラムの中心または本質的機能を行うプログラムを指す。例えばエンジンは、他のプログラムの全体的操作を調整する操作システムまたはアプリケーションプログラムの中心的プログラムであり得る。また用語「エンジン」は、変更することができるアルゴリズムを含むプログラムも指すことができる。例えば関係を同定することに対するそのアプローチを変更するために、知識発見エンジンを設計し、同定およびランキングの関係の新規法則を反映させることができる。

本明細書で使用する「意味分析（ｓｅｍａｎｔｉｃａｎａｌｙｓｉｓ）」とは、例えば接尾辞の除去またはステミング（ｓｔｅｍｍｉｎｇ）を介して、またはシソーラスを採用することにより同じ概念を表す言葉の間の関係の確認を指す。「統計分析」とは各用語（言葉、語源、語幹、ｎ−グラム、句等）の発生数の計数に基づく技術を指す。主題に対して無制限に集めると、異なる内容で使用される同じ句は、異なる概念を表すか可能性がある。同時に存在する句の統計的分析は、言葉の意味の曖昧さを解決するために役立ち得る。「シンタックス分析（Ｓｙｎｔａｃｔｉｃａｎａｌｙｓｉｓ）」は、品詞分析によりさらに曖昧さを減らすために使用することができる。本明細書で使用するように、１もしくは複数のそのような分析は、さらに一般的に「字句解析（ｌｅｘｉｃａｌａｎａｌｙｓｉｓ）」と呼ばれる。「人工知能（ＡＩ）」は、コンピューターのような人間以外のデバイスにより、ヒトが価値があると、または「知的」であると見なす作業を行う方法を指す。例には絵を識別すること、会話または書かれた内容を理解すること、および問題を解決することを含む。

様々な情報ファセットをデーターフィールド内に見いだすことができる場合でも、本明
細書で使用する用語「データベース」は、生の、またはコンパイルされたデータに関する貯蔵所を指す。データベースは典型的にはその内容にアクセスでき、管理でき、そして更新できるように組織化される（例えばデータベースは動的である）。また用語「データベース」および「ソース」は、データおよび情報の主な供給源がデーターベースであるので、本発明では互換的に使用される。しかし「ソースデーターベース」または「ソースデータ」は一般にデータ、例えばオブジェクトを同定し、そして関係を決定するためにシステムに入力される非構造テキストおよび／または構造データを指す。ソースデーターベースはリレーショナル（ｒｅｌａｔｉｏｎａｌ）データーベースであってもなくてもよい。しかしシステムデーターベースは通常、リレーショナルデーターベースまたは同じ均等なタイプのデーターベースを含み、これらはオブジェクト間の関係を関連づける値を保存する。

本明細書で使用する「システムデーターベース」および「リレーショナルデーターベース」は、互換的に使用され、そして予め定義されたカテゴリーに合うデータを含む１組の表として組織化されたデータの１もしくは複数の集合を称する。例えばデーターベースの表は、カラム（例えば属性）に定められる１もしくは複数のカテゴリーを含んでなることができ、同時にデーターベースの横行はカラムにより定まるカテゴリーについて、独自なオブジェクトを含むことができる。すなわち遺伝子の同定のようなオブジェクトはその存在、不存在および／または遺伝子発現のレベルについてのカラムを有する。またリレーショナルデーターベースの横行は「組」とも呼ばれ、そして一般にそのカラムの値により定められる。リレーショナルデーターベースの内容における「ドメイン」は有効な値の範囲であり、カラムのような場を含むことができる。

本明細書で使用する「知識のドメイン」は、システムが作動する実験のエリア、例えばすべての生物医学データを指す。この多様なデータは、１つの分野または調査／研究にのみ精通している（１ドメイン）標準的な人が、一緒にすることはできない事柄を時折、連結することができるので、幾つかのドメインからデータ（例えば生物医学データおよびエンジニアリングデータ）を組み合わせることは有利であると指摘すべきである。「分散データーベース」とはネットワークの異なる点に分散または複製され得るデーターベースを指す。

「データ」および「情報」のような用語は、「情報」および「知識」のようにしばしば互換的に使用される。本明細書で使用する「データ」は、経験的測定値または測定値の組である最も基本的な単位である。データは情報の一助となるように処理されるが、基本的には情報から独立している。対照的に情報は興味から派生し、例えばデータ（単位）は、心血管疾患の危険性と相関し得る変数を見いだす目的で、民族性、性別、身長、体重、および食事について集めることができる。しかし同じデータを使用して式を開発するか、または食事の嗜好についての「情報」、すなわち特定の製品がスーパーマーケットでより良く売れる高い見込みを作成することができる。

本明細書で使用するように「情報」にはデータの組から生じるまたは引き出される数、文字、数の組、文字の組または結果を含むことができる。次いで「データ」は、情報の測定値または統計および基準単位である。また「情報」は、言葉、記号のような他の種類のデータ、非構造フリーテキストのようなテキスト、コード等を含むことができる。「知識」は、原因および効果をモデル化するために系に十分な理解を与える情報の組として大雑把に定義される。以前の例を拡大するために、人口統計学、性別およびこれまでの買い物に関する情報を使用して、食品販売に関する地域的マーケッティング戦略を開発し、一方、購買者による民族性に関する情報を製品の輸入のための指針として使用することができる。データ、情報および知識の間には厳密な境界が無いことに注目することは重要である：３つの用語は時折、等価と考えられる。一般に、データは調査から生じ、情報は相関か
ら生じ、そして知識はモデル化から生じる。

本明細書で使用する「プログラム」または「コンピュータープログラム」とは、一般に特定のプログラミング言語の規則に従わせる統辞論単位を指し、そしてそれは特定の機能、作業または問題を解決または実行するために必要な「コードセグメント」に分けることができる宣言（ｄｅｃｌａｒａｔｉｏｎ）および文（ｓｔａｔｅｍｅｎｔ）またはインストラクション（ｉｎｓｔｒｕｃｔｉｏｎ）からなる。プログラミング言語は一般にプログラムを記述する人工言語である。

本明細書で使用する「システム」または「コンピューターシステム」は、一般に１もしくは複数のコンピューター、端末装置およびデータ処理を行うソフトウェアを指す。「ユーザー」または「システムオペレーター」は一般に、データ処理および情報交換の目的で「ユーザーデバイス」（例えばコンピューター、無線デバイス等）を介してコンピューターネットワークを使用する人を含む。「コンピューター」は一般に、人の介入無しに膨大な数の計算操作および論理操作を含む実質的なコンピューター処理を行うことができる基本単位である。

本明細書で使用する「アプリケーションソフトウェア」または「アプリケーションプログラム」は、一般にアプリケーションのトラブルの解決に特異的なソフトウェアまたはプログラムを指す。「アプリケーションの問題」は、一般にエンドユーザーにより提起され、そしてその解決のための情報処理を必要とする問題である。

本明細書で使用する「自然言語」は、規則が特殊に記載されない現行使用に基づく、例えば英語、スペイン語または中国語を指す。本明細書で使用する「人工言語」は、規則がその使用前に実験的に確立された言語、例えばＣ、Ｃ＋＋、Ｊａｖａ、ＢＡＳＩＣ、ＦＯＲＴＲＡＮまたはＣＯＢＯＬのようなコンピュータープログラム言語を指す。

本明細書で使用する「統計的関連性」は、１もしくは複数のランキングスキームを使用することを指し（Ｏ／Ｅ比、強度等）、ここで関連性はそれが無作為の機会により期待されるよりも有意に頻繁に起こる場合に、統計的に関連性があると定められる。

本明細書で使用する「調和して（ｃｏｏｒｄｉｎａｔｅｌｙ）調節される遺伝子」または「転写モジュール」という用語は互換的に使用され、特異的遺伝子のグループ分けされた遺伝子発現プロファイル（例えば特異的遺伝子配列と関連したシグナル値）を指す。各転写モジュールは２つの重要なデータ部分（ｐｉｅｃｅ）、文献調査部分、および遺伝子マイクロアレイから得た実際の経験的な遺伝子発現値データと相関する。転写モジュールに選択された遺伝子の組は、遺伝子発現データの分析に基づく（上記のモジュール抽出アルゴリズム）。さらなる工程はＣｈａｕｓｓａｂｅｌ，Ｄ．＆Ｓｈｅｒ，文献のプロファイリングによるマイクロアレイ発現データのマイニング（Ａ．Ｍｉｎｉｎｇｍｉｃｒｏａｒｒａｙｅｘｐｒｅｓｓｉｏｎｄａｔａｂｙｌｉｔｅｒａｔｕｒｅｐｒｏｆｉｌｉｎｇ）．ＧｅｎｏｍｅＢｉｏｌ３，ＲＥＳＥＡＲＣＨ００５５（２００２），（ｈｔｔｐ：／／ｇｅｎｏｍｅｂｉｏｌｏｇｙ．ｃｏｍ／２００２／３／１０／ｒｅｓｅａｒｃｈ／００５５）により教示され、関連の部分は引用により本明細書に編入され、そして発現データは目的の疾患または状態、例えば全身性エリテマトーデス、関節炎、リンパ腫、悪性腫瘍、黒色腫、急性感染、自己免疫障害、自己炎症障害等から得られる。

以下の表は文献調査部分、または転写モジュールへの貢献を開発するために使用されたキーワードの例を列挙する。当業者は他の用語を他の状態、例えば特異的な癌、特異的な感染性疾患、移植等に選択できると認識する。例えばＴ細胞活性化に関連する遺伝子およびこれらの遺伝子に関するシグナルを以下にモジュールＩＤ“Ｍ２．８”と記載し、ここ
で特定のキーワード（例えばリンパ腫、Ｔ細胞、ＣＤ４、ＣＤ８、ＴＣＲ、胸腺、リンパ系、ＩＬ２）は、重要なＴ細胞関連遺伝子、例えばＴ細胞表面マーカー（ＣＤ５、ＣＤ６、ＣＤ７，ＣＤ２６，ＣＤ２８，ＣＤ９６）；リンパ系細胞により発現される分子（リンホトキシンベータ、ＩＬ−２誘導性Ｔ細胞キナーゼ、ＴＣＦ７；およびＴ細胞分化タンパク質ｍａｌ、ＧＡＴＡ３、ＳＴＡＴ５Ｂ）を同定するために使用された。次に完全なモジュールは、患者群からのデータをこれらの遺伝子と相関させることにより開発されて（平板、存在／不存在および／またはアップもしくはダウンレギュレーションにかかわらず）、転写モジュールが作成される。場合により、遺伝子プロファイルはこれらの疾患状態およびデータについていかなる特定の遺伝子クラスターとも合わないことがある（この時点で）が、特定の生理学的経路（例えばｃＡＭＰシグナル伝達、亜鉛フィンガータンパク質、細胞表面マーカー等）が「未決定」モジュール内に見いだされる。実際に、遺伝子発現データ組は、キーワードの調査と合わせる前に発現が調整された遺伝子を抽出するために使用でき、すなわちいずれかのデータ組を第２のデータ組と相互参照する前に相関させることができる。

生物学的定義
本明細書で使用する「アレイ」という用語は、支持体に１もしくは複数のペプチドまたは核酸プローブが結合した固体支持体または基体を指す。アレイは、異なる既知の位置の基体表面にカップリングされた典型的には１もしくは複数の異なる核酸またはペプチドプローブを有する。これらのアレイは、既知のゲノム、例えばヒトゲノムに基づき１０，０００；２０，０００、３０，０００または４０，０００種の異なる同定可能な遺伝子を有することができる「マイクロアレイ」または「遺伝子チップ」とも記載される。これらのパン−アレイ（ｐａｎ−ａｒｒａｙ）は、サンプル中で発現、または見いだされる全「トランスクリプトーム」または遺伝子の転写プール、例えばＤＮＡレプリコンの相補的組を作成するためにＲＴおよび／またはＲＴ−ＰＣＲにかけることができるＲＮＡ、ｍＲＮＡ等として発現される核酸を検出するために使用される。アレイは、非リトグラフおよび／またはフォトリトグラフ法および固相合成法の組み合わせを包含する機械的合成法、光直接合成法等を使用して製造することができる。

これら核酸アレイの合成のための様々な技術がこれまで記載されており、例えば事実上任意の形状の表面上またはさらに多表面上でも作成された。アレイはビーズ、ゲル、ポリマー表面、光ファイバーのようなファイバー、ガラスまたは任意の他の適切な基体上のペプチドまたは核酸であることができる。アレイは診断またはすべてを含むデバイスの他の操作を可能とする様式で包装されることができ、例えば本明細書に編入する米国特許第６，９５５，７８８号明細書、関連部分を参照にされたい。

本明細書で使用する用語「疾患」とは、細胞に任意の異常な生物学的状態がある生物の生理学的状態を指す。疾患には限定するわけではないが、遺伝的な、遺伝した、感染により生じた、異常な細胞機能、異常な細胞分裂等により生じた細胞、組織、身体機能、系または臓器の妨害、休止または障害を含む。「疾患状態」を導く疾患は、一般に生物系、すなわち疾患の宿主に対して有害である。本発明に関して、疾患または障害と関連する感染（例えばウイルス、バクテリア、真菌、寄生虫等）、炎症、自己炎症、自己免疫、アナフィラキシー、アレルギー、前悪性、悪性、外科的、移植、生理学的等のような任意の生物学的状態は、疾患状態と考えられる。病的状態は一般に疾患状態と等価である。

また疾患状態は、異なるレベルの疾患状態に分類することもできる。本明細書で使用するように、疾患または疾患状態のレベルは、疾患または疾患状態の進行、ならびに処置時、最中および後の生理学的応答を反映する任意の尺度である。一般に疾患または疾患状態はレベルまたは段階を通して進行し、ここで疾患の影響は次第に重篤になる。疾患状態のレベルはサンプル中の細胞の生理学的状態により影響を受け得る。

本明細書で使用する用語「治療」または「治療計画」は、疾患状態を緩和または改変するために取る医学的段階、例えば薬理学的、外科的、食事的および／または他の技術を使用して疾患の影響または症状を下げるか、または排除することを意図した過程を指す。治療計画には１もしくは複数の薬剤または外科治療の処方された投与を含むことができる。治療の多くは有益であり、そして疾患状態を下げるが、多くの場合、治療の効果は望ましくない作用、すなわち副作用を有する。また治療の効果は宿主の生理学的状態、例えば年齢、性別、遺伝子、体重、他の疾患状態等により影響され得る。

本明細書で使用する「薬理学的状態（ｓｔａｔｅ）」または「薬理学的状況（ｓｔａｔｕｓ）」という用語は、サンプル中の１もしくは複数の核酸の薬理学的状態に影響を及ぼすことができる１もしくは複数の薬剤、外科医術等で処置される、および／またはされたサンプル、例えば薬理学的介入により新たに転写、安定化かつ／または脱安定化されたサンプルを指す。サンプルの薬理学的状態は、薬剤処置の前、最中および／または後の生物学的状態の変化に関連し、そして本明細書に教示する診断的または予知的機能に役立つことができる。薬剤処置または外科的治療後の幾つかの変化は、疾患状態と関連するかもしれないし、かつ／または無関係な副作用であるかもしれない。薬理学的状態の変化は、治療期間、処方した薬剤の種類および用量、与える治療過程のコンプライアンスの程度、および／または摂取した処方以外の薬剤の結果であろう。

本明細書で使用する「生物学的状態」という用語は、発現の変化を分析するために単離および精製した細胞サンプルのトランスクリプトーム（すなわちＲＮＡ転写産物の全集合）の状態を指す。生物学的状態は、細胞成分の量および／または活性の測定、形態学的表現型の特性決定、または転写産物の検出法の組み合わせによりサンプル中の細胞の生理学的状態を反映する。

本明細書で使用する「発現プロファイル」という用語は、ＲＮＡ、ＤＮＡまたはタンパク質の量（ａｂｕｎｄａｎｃｅ）または活性レベルの相対的量を指す。発現プロファイルは、例えば任意の数の方法による、および任意の数の遺伝子チップ、遺伝子アレイ、ビーズ、マルチプレックスＰＣＲ、定量的ＰＣＲ、ラン−オンアッセイ、ノーザンブロット分析、ウエスタンブロット分析、タンパク質発現、蛍光活性化細胞ソーティング（ＦＡＣＳ）、酵素結合免疫吸着アッセイ（ＥＬＩＳＡ）、化学発光実験、酵素アッセイ、増殖実験または市販されているものから容易に入手可能な遺伝子発現の測定および／または分析用の他の方法、装置および系を使用した、転写状態または翻訳状態の測定値であることができる。

本明細書で使用するサンプルの「転写状態」という用語には、サンプル中に存在するＲＮＡ種、特にｍＲＮＡの同一性および相対的量を含む。サンプルの全転写状態、すなわちＲＮＡの同一性および存在量ノ組み合わせを本明細書ではトランスクリプトームと呼ぶ。一般にサンプル中のＲＮＡ種の全組の全相対的成分の実質的画分が測定される。

本明細書で使用する「モジュラー転写ベクトル」という用語は、「差次的に発現される遺伝子の比率」を反映する転写発現データを指す。例えば各モジュールについて、少なくとも２つの群（例えば健康な個体対患者）間で差次的に発現される転写産物の比率。このベクトルは２つの群のサンプルの比較により引き出される。第１の分析工程は、各モジュール内で疾患に特異的な転写産物の組の選択に使用される。次いで「発現レベル」がある。所定の疾患に関する群の比較により、各モジュールについて差次的に発現される転写産物のリストが提供される。異なる疾患が異なるサブセットのモジュール転写産物を生じることが見いだされた。この発現レベルを用いて、次に差次的に発現されると同定された遺伝子の疾患特異的サブセットの発現値を平均することにより、１つのサンプルについて各モジュール（１もしくは複数）に関するベクトルを算出することが可能である。この取り組みにより１つのサンプルについて、モジュール発現ベクトルのマップ、例えば本明細書に開示するモジュールマップを作成することが可能となる。これらのベクトルモジュールマップは、各サンプルについて誘導され得る各モジュールの平均化発現レベルを表す（差次的に発現される遺伝子の比に代わり）。

本発明を使用して、モジュールレベルだけでなく、遺伝子レベルでも疾患を同定し、そして識別することが可能であり；すなわち２つの疾患は同じベクトルを有することができるが（同一比の差次的に発現される転写産物、同一「極性」）、それでもベクトルの遺伝子組成は疾患特異的となり得る。遺伝子レベルの発現は、分析の解像度を大きく上げる明白な利点を提供する。

さらに本発明は複合転写マーカーを利用する。本明細書で使用する「複合転写マーカー」という用語は、マーカーとして個別の遺伝子を使用することに比べて、複数の遺伝子（モジュールのサブセット）の平均発現値を指す（そしてこれらマーカーの組成は、疾患特異的であることができる）。複合転写マーカー法は、使用者が例えばＳＬＥ患者の疾患重篤度を評価するために、または本明細書に開示する発現ベクトルを得るために多変量マイクロアレイスコアを開発できるので独自である。最も重要であるのは、本発明の複合モジュール転写マーカーを使用して、本明細書で見いだされた結果がマイクロアレイ平板全体で再現性があり、これにより調節承認の大きな信頼性を提供することが見いだされた点である。

本発明と一緒に使用するための遺伝子発現モニタリングシステムには、１もしくは複数の標的疾患に特異的および／またはカスタマイズされた限定数および／または基本数の遺伝子を有するカスタマイズされた遺伝子アレイを含むことができる。通常使用されている一般的なパン−ゲノムアレイとは異なり、本発明は特異的平板を使用することを必要としない過去の遺伝子およびゲノム分析用の一般的パン−アレイの使用を提供するだけでなく、より重要なことは、数千もの他の無関係遺伝子を必要としない分析に最適な遺伝子組を提供するカスタマイズされたアレイの開発を提供する。既存の技術に優る本発明の至適化されたアレイおよびモジュールの１つの明らかな利点は、経費の削減（例えばアッセイ毎の、材料、装置、時間、人的、訓練等の経費）であり、そしてさらに重要なことは、ほとんどのデータが無関係であるパン−アレイを製造するための環境的経費の削減である。本発明のモジュールは、単純な設計、シグナル対ノイズ比を最大にすると同時に最少数のプローブで最適なデータを提供するカスタムアレイを初めて可能にする。分析のための遺伝子総数を削減することにより、例えばほとんど無関係な膨大な量のデータを提供するパン−遺伝子チップの製造中に、フォトリトグラフィー用の数千もの高価な白金マスクを製造
する必要性を削減することが可能である。本発明を使用して、本発明の限定されたプローブ組（１もしくは複数）はデジタル光化学アレイ、ボールビーズアレイ、ビーズ（例えばＬｕｍｉｎｅｘ）、マルチプレックスＰＣＲ、定量的ＰＣＲ、ラン−オンアッセイ、ノーザンブロット分析、あるいはさらにタンパク質の分析は例えばウエスタンブロット分析、２Ｄおよび３Ｄゲルタンパク質発現、ＭＡＬＤＩ、ＭＡＬＤＩ−ＴＯＦ、蛍光活性化細胞ソーティング（ＦＡＣＳ）（細胞表面または細胞内）、酵素連結免疫吸着アッセイ（ＥＬＩＳＡ）、化学発光実験、酵素アッセイ、増殖実験または市販されているものから容易に入手可能な遺伝子発現の測定および／または分析用の任意の他の方法、装置および系と一緒に使用されれば、マイクロアレイの必要性を完全に回避することが可能である。

本発明の「分子のフィンガープリンティング系」は、異なる細胞または組織、同じ細胞または組織の異なる部分集合、同じ細胞または組織の異なる生理学的状態、同じ細胞または組織の異なる発達段階、あるいは同じ組織の異なる細胞群における発現を、他の疾患および／または正常な細胞対照に対して比較分析することを容易にし、そして行うために使用することができる。幾つかの場合では、正常または野生型発現データは、同時もしくはほぼ同時に分析したサンプルに由来してよく、あるいはそれは既存の遺伝子アレイ発現データベース、例えばＮＣＢＩ遺伝子発現多目的データベースのような公的なデータベースから得た、または集めた発現データでよい。

本明細書で使用するように、用語「差次的に発現する」とは、２以上のサンプル、例えば疾患のサンプルと正常サンプルとの間で変動する細胞の構成成分（例えば核酸、タンパク質、酵素活性等）の測定値を指す。細胞の構成成分はオンもしくはオフ（存在もしくは不存在）、参照に対してアップレギュレートされるか、または参照に対してダウンレギュレートされることができる。遺伝子チップまたは遺伝子アレイを用いた使用には、核酸、例えばｍＲＮＡまたは他のＲＮＡ（ｍｉＲＮＡ、ｓｉＲＮＡ、ｈｎＲＮＡ、ｒＲＮＡ、ｔＲＮＡ等）の差次的遺伝子発現を使用して、細胞型または核酸間を識別することができる。最も普通には、細胞の転写状態の測定は、定量的逆転写酵素（ＲＴ）および／または定量的逆転写ポリメラーゼ連鎖反応（ＲＴ−ＰＣＲ）、ゲノム発現分析、翻訳後分析、ゲノムＤＮＡに対する修飾、トランスロケーション、ｉｎｓｉｔｕハイブリダイゼーション等によりなされる。

幾つかの疾患状態には、特に疾患状態の初期レベルで細胞または形態学的差異を同定することが可能である。本発明は、細胞そのもの自体の遺伝子のモジュールを調べることにより、さらに重要なことには細胞の通常の生理学的内容、すなわち免疫賦活化、免疫寛容またはさらに免疫アネルギーで作用している免疫エフェクター細胞に由来する遺伝子の細胞性ＲＮＡの発現を調べることにより、それら特異的変異または１もしくは複数の遺伝子を同定する必要性を回避する。遺伝的変異は遺伝子群の発現レベルに劇的な変化を生じることができるが、生物系はしばしば他の遺伝子の発現を改変することにより変化を補償する。これらの内部補償応答の結果として、多くの混乱（ｐｅｒｔｕｒｂａｔｉｏｎ）は系において観察可能な表現型の効果が最少かもしれないが、細胞の構成成分の組成には顕著な効果を有する可能性がある。同様に、遺伝子転写産物の実際のコピーは増加も減少もしないかもしれないが、転写産物の寿命もしくは半減期が影響を受けて、タンパク質生産を大きく増加させる可能性がある。本発明は１つの態様では、１つのメッセージおよび／または変異よりもむしろエフェクター細胞（例えば白血球、リンパ球および／またはそれらの亜群）に注目することにより、実際のメッセージを検出する必要を排除する。

当業者は、サンプルが例えば単一細胞、細胞集団、組織、細胞培養物等を含む様々な供給源から得ることができると直ちに考えるだろう。特定の場合、例えば尿、血液、唾液、組織または生検サンプル等に見いだされる細胞から十分なＲＮＡを単離することさえ可能となり得る。特定の状況では、十分な細胞および／またはＲＮＡを：粘膜分泌物、糞、涙
、血漿、腹腔液、間質液、硬膜液、脳脊髄液、汗または他の体液から得ることができる。核酸供給源、例えば組織もしくは細胞の供給源には、組織生検サンプル、１もしくは複数の分類した細胞群、細胞培養物、細胞クローン、形質転換細胞、生検材料または単一細胞を含む。組織供給源には、例えば脳、肝臓、心臓、腎臓、肺、脾臓、網膜、骨、神経系、リンパ節、内分泌腺、生殖器、血液、神経、脈管組織および臭覚上皮を含むことができる。

本発明は、単独または組み合わせて使用できる以下の基本的構成要素、すなわち１もしくは複数のデータマイニングアルゴリズム：１もしくは複数のモジュール−レベルの分析プロセス；血中白血球の転写モジュールの特性決定；ヒトの疾患の分子的診断／予知のための多変数分析における総（ａｇｇｒｅｇａｔｅｄ）モジュールデータの使用；および／またはモジュール−レベルのデータおよび結果の視覚化を含む。本発明を使用して、さらに１つの多変数スコアに集めることができる複合転写マーカーを開発および分析することも可能である。

データ獲得速度の爆発的急増も、マイクロアレイデータおよび生物医学的知識を活用するためのマイニングツールおよびアルゴリズムの開発に拍車をかけた。転写系のモジュラー組織および機能を暴露する目的の取り組みは、疾患の強固な分子的兆候の同定に有望な方法を構成する（１４−１６，１７）。実際にそのような分析は、大規模な転写実験の概念を、個々の遺伝子のレベルまたは遺伝子のリストを越えたマイクロアレイデータの概念化を取ることにより転換することができる。

本発明者は、現在のマイクロアレイに基づく調査が、評判の悪い「ノイズが高い」データ分析、すなわちデータは解釈が難しく、そして研究室および平板全体で十分に比較できないという重大な難題に直面していることを認識した。マイクロアレイデータの分析に広く受け入れられている取り組みは、実験群の間で差次的に発現する遺伝子のサブセットの同定から始まる。次いで使用者は引き続き、パターン発見アルゴリズムおよび既存の科学的知識を使用して生じた遺伝子リストに「意味を見いだす」。

平板全体で膨大な変数を扱うというよりは、むしろ本発明者は分析の初期段階で生物学的に関連する遺伝子の選択を強調する方法を開発した。簡単に説明すると、この方法は所定の生物学的系を特徴付ける転写成分の同定を含み、このために改善されたデータマイニングアルゴリズムが開発され、大きなデータの集合から調和して発現される遺伝子または転写モジュールの群を分析、そして抽出した。

１例では、４７４２個のプローブ組にさらにグループ分けされる２８個の転写モジュールが２３９個の血中白血球転写プロファイルから得られた。これらのモジュールを形成する遺伝子間の機能的収束（ｆｕｎｃｔｉｏｎａｌｃｏｎｖｅｒｇｅｎｃｅ）は、文献のプロファイリングを介して証明された。第２段階は、モジュール基準つ転写系の混乱（ｐｅｒｔｕｒｂａｔｉｏｎ）を実験することからなる。この概念を具体的に説明するために、健康な有志および患者から得た白血球転写プロファイルを得、比較し、そして分析した。さらにこの遺伝子フィンガープリンティング法の検証は、公開されているマイクロアレイのデータセットの分析を介して得た。注目すべきは、既存のデータを使用した本発明のモジュラー転写装置、システムおよび方法が、２つの市販されているマイクロアレイ平板全体で高度な再現性を示した点である。

本発明は転写系のモジュラー分析用に設計された広い応用性の２段階のマイクロアレイデータマイニング法の実行を含む。この新規取り組みは、血中白血球の転写的兆候を特徴付けるために使用され、これは臨床的に関連性のある情報の最もアクセス可能な供給源を構成する。

本明細書で証明するように、たとえベクトルが２つの疾患について同一（＋／＋）（例えばＳＬＥおよびＦＬＵの両方についてＭ１．３＝５３％低下）でも、各ベクトルの組成はそれらを区別するために使用できるので、２つのベクトルに基づき２つの疾患の間を測定し、示差し、かつ／またはそれらを識別することが可能である。例えば差次的に発現される転写産物の比率および極性がＭ１．３の２つの疾患の間で同一であっても、遺伝子組成は疾患特異的となり得る。遺伝子レベルおよびモジュールレベルの分析を組み合わせることにより、解像度がかなり上昇する。さらに２、３、４、５、１０、１５、２０、２５、２８以上のモジュールを使用して、疾患を区別することが可能である。

材料および方法。血液の処理。すべての血液サンプルはクエン酸デキストロース管（ＢＤバキュテイナー：Ｖａｃｕｔａｉｎｅｒ）に集め、そして処理するために直ちに室温でテキサス州、ダラスのバイロール免疫調査研究所（ＢａｙｌｏｒＩｎｓｔｉｔｕｔｅｆｏｒＩｍｍｕｎｏｌｏｇｙＲｅｓｅａｒｃｈ）に運んだ。３〜４ｍｌの血液から末梢血単核細胞（ＰＢＭＣ）をＦｉｃｏｌｌ勾配を介して単離し、そして直ちにベータ−メルカプトエタノールを含むＲＬＴ試薬中（キアゲン：Ｑｉａｇｅｎ、バレンシア、カリフォルニア州）で溶解し、そしてＲＮＡ抽出工程前に−８０℃で保存した。

マイクロアレイ分析。全ＲＮＡはＲＮｅａｓｙキット（キアゲン）を使用して、製造元の使用説明に従い単離し、そしてＲＮＡの完全性をアギレント（Ａｇｉｌｅｎｔ）２１００バイオアナライザー（Ｂｉｏａｎａｌｙｚｅｒ）（アギレント、パロアルト、カリフォルニア州）を使用して評価した。

アフィメトリックス（Ａｆｆｙｍｅｔｒｉｘ）ＧｅｎｅＣｈｉｐｓ：これらのマイクロアレイは、石英ウェーハー上のその場で成された短いオリゴヌクレオチドプローブ組を含む。標的の標識化は製造元の標準プロトコールに従い行った（アフィメトリックス社、サンタクララ、カリフォルニア州）。ビオチン化ｃＲＮＡ標的を精製し、そして引き続きアフィメトリックスのＨＧ−Ｕ１３３ＡおよびＵ１３３ＢＧｅｎｅＣｈｉｐｓ（＞４４，０００プローブ組）にハイブリダイズさせた。アレイはアフィメトリックスの共焦点レーザースキャナーを使用して走査した。ＭｉｃｒｏａｒｒａｙＳｕｉｔｅ、バージョン５．０（ＭＡＳ５．０；アフィメトリックス）ソフトウェアを使用して蛍光ハイブリダイゼーションシグナルを評価し、シグナルを標準化し、そしてシグナル検出コールを評価した。チップあたりのシグナル値の標準化は、ＧｅｎｅＣｈｉｐあたり５００の標的強度値に対するＭＡＳ５．０のグローバルなスケーリング法を使用して達成された。遺伝子発現分析ソフトウェアプログラムであるＧｅｎｅＳｐｒｉｎｇ、バージョン７．１（アギレント）を使用して、統計分析および階層的クラスタリングを行った。

イルミナ（Ｉｌｌｕｍｉｎａ）ＢｅａｄＣｈｉｐ：これらのマイクロアレイは、３μｍビーズに結合した５０ｍｅｒのオリゴヌクレオチドプローブを含み、これらはマイクロウェルにガラススライドの表面上で付けられた。サンプルを処理し、そしてサービス契約に基づきイルミナ社（サンディエゴ、カリフォルニア州）により得た。標的はイルミナのＲＮＡ増幅キット（アンビオン：Ａｍｂｉｏｎ、オースチン、テキサス州）を使用して調製した。ｃＲＮＡ標的をＳｅｎｔｒｉｘＨｕｍａｎＲｅｆ８ＢｅａｄＣｈｉｐ（＞２５，０００プローブ）にハイブリダイズし、これをイルミナのＢｅａｄＳｔａｔｉｏｎ５００で走査した。イルミナのＢｅａｄｓｔｕｄｉｏソフトウェアを使用して蛍光ハイブリダイゼーションシグナルを評価した。

文献プロファイリング。この実験で使用した文献プロファイリングアルゴリズムは、以前に詳細に記載された（１８）。この取り組みは類似のキーワードを共有する遺伝子を連結する。これは階層的クラスタリング、一般的なアンスーパーバイズドパターンディスカ
バリーアルゴリズム（ｐｏｐｕｌａｒｕｎｓｕｐｅｒｖｉｓｅｄｐａｔｔｅｒｎｄｉｓｃｏｖｅｒｙａｌｇｏｒｉｔｈｍ）を使用して、文献の要約中に存在する用語のパターンを分析する。工程１：遺伝子：各遺伝子に関して直接関係する公報を同定する文献索引を作成する。工程２：用語が存在する頻度をテキストプロセッサーにより計算する。工程３：厳密なフィルター基準を使用して関連するキーワードを選択する（すなわち、すべての遺伝子をわたり高いかまたは低い頻度の用語を排除し、そしてわずかな遺伝子についてのみ高い存在のパターンに特徴付けられるいくつかの違いが分かる用語を残す）。工程４：２方向の階層クラスタリングが、存在パターンに基づき遺伝子および関連するキーワードをグループ分けし、遺伝子のグループ間に存在する機能的関連性の視覚的表示を提供する。

モジュラーデータマイニングアルゴリズム。最初に、単一遺伝子のレベルを越えて生物系の特徴付けを可能にする１もしくは複数の転写成分が同定される。協調して調節される遺伝子の組、または転写モジュールが新規マイニングアルゴリズムを使用して抽出され、これは血中白血球マイクロアレイプロファイルの大きな組に適用された（図１）。全部で２３９種の末梢血単核細胞（ＰＢＭＣ）サンプルからの遺伝子発現プロファイルを、ＡｆｆｙｍｅｔｒｉｘＵ１３３Ａ＆ＢＧｅｎｅＣｈｉｐ（＞４４，０００プローブ組）を使用して作成した。転写データを８つの実験群（全身型若年性特発性関節炎、全身性エリテマトーデス、Ｉ型糖尿病、肝移植受容者、黒色腫患者および急性感染の患者：大腸菌、黄色ブドウ球菌およびインフルエンザＡ）について得た。各群に関して、すべての状態をわたりフラッグコールが無い（ａｂｓｅｎｔｆｌａｇｃａｌｌ）転写産物にフィルターをかけた。残る遺伝子は階層的クラスタリングにより３０に分布した（クラスターＣ１からＣ３０）。各遺伝子に関するクラスターの割り当ては表に記録され、そして分布パターンはすべての遺伝子間で比較された。モジュールは、すべての実験群中、同じクラスターに属する大きな遺伝子組（すなわち８つの実験群中の８つで同じクラスターに見いだされた遺伝子）から始めて反復プロセスを使用して選択された。次いでこの選択をこの中心参照パターンから、７／８、６／８そして５／８対の遺伝子を含むように拡大した。生じた遺伝子の組は転写モジュールを形成し、そして選択プールから引き抜かれた。次いでこのプロセスを２番目に大きい遺伝子群から始めて繰り返し、進めるにしたがって厳密度のレベルを下げた。この分析により２８のモジュールに分布した５３４８の転写産物の同定が導かれた（完全なリストは追補資料に提供する）。各モジュールは、選択回数および順序を示す独自の識別名に割り当てられる（すなわちＭ３．１は第３回目の選択で最初に同定される）。

モジュールは明確な「転写挙動」を提示する。同時発現遺伝子が機能的に連結していることは広く想定されている。この「関連によるギルト（ｇｕｉｌｔｂｙａｓｓｏｃｉａｔｉｏｎ）」という概念は、遺伝子が多くのサンプルにわたり複雑な発現パターンに従う場合に特に強要される。本発明者は、転写モジュールが整合的な生物単位を形成することを見いだし、したがって我々の最初のデータセットで同定される同時発現特性は、独立したサンプルの組で保存されると予想した。データは、２１名の健康な有志の血液から単離されたＰＢＭＣについて得た。これらのサンプルは上記のモジュール選択プロセスでは使用されなかった。

図２は、４種のモジュールに関する遺伝子発現プロファイルを示す（図２：Ｍ１．２、Ｍ１．７、Ｍ２．１１およびＭ２．１）。図２のグラフでは、各線が多数のサンプル全体で１つの遺伝子の発現レベル（ｙ−軸）を表す（ｘ−軸は２１サンプル）。この例における遺伝子発現の差異は、「健康」な個体間の個体間変動を表す。各モジュール内で遺伝子は整合的な「転写挙動」を表すことが分かった。実際に遺伝子発現の変動は、すべてのサンプルにわたり一貫していると思われた（同じサンプルに関して、すべての遺伝子の発現が上昇し、そしてピークを形成する一方、下降（ｄｉｐ）を形成するすべての遺伝子につ
いて他はレベルが低かった）。重要なことは、ピークおよび下降がＭ１．２、Ｍ２．１１およびＭ２．１の異なるサンプルについて形成するので、個体間変動はモジュール特異的となるようである。さらに変動の幅も各モジュールで特徴的であり、発現レベルはＭ２．１、そして特にＭ１．７よりもＭ１．２およびＭ２．１１で変動性であった。すなわち我々は転写モジュールが独立的な生物学変数を構成することを見いだす。

転写モジュールの機能的特性決定。次いでモジュールを機能的レベルで特性決定した。テキストマイニング法を使用して、各遺伝子について集めた生物医学文献からキーワードを抽出した（１８に記載）。分析した４つのモジュールに関連するキーワードの分布は、明らかに異なる（図３）。以下は、特定のモジュールに関連し得るキーワードのリストである。

Ｍ１．２に高度に特異的なキーワードは血小板、凝固または血栓症を含み、そしてＩＴＧＡ２Ｂ（インテグリンアルファ２ｂ、血小板糖タンパク質ＩＩｂ）、ＰＦ４（血小板因子４）、ＳＥＬＰ（セレクチンＰ）およびＧＰ６（血小板糖タンパク質６）のような遺伝子に関連した。

Ｍ１．３に高度に特異的なキーワードはＢ細胞、免疫グロブリンまたはＩｇＧを含み、そしてＣＤ１９、ＣＤ２２、ＣＤ７２Ａ、ＢＬＮＫ（Ｂ細胞リンカータンパク質）、ＢＬＫ（Ｂリンパ系チロシンキナーゼ）、およびＰＡＸ５（ペアードボックス遺伝子５、Ｂ細胞系特異的アクチベーターのような遺伝子に関連した。

Ｍ１．５に高度に特異的なキーワードは、単球、樹状細胞、ＣＤ１４またはＴｏｌｌ様を含み、そしてＭＹＤ８８（ミエロイド分化１次応答遺伝子８８）、ＣＤ８６、ＴＬＲ２（Ｔｏｌｌ様受容体２）、ＬＩＬＲＢ２（白血球免疫グロブリン様受容体Ｂ２）およびＣＤ１６３のような遺伝子に関連した。

Ｍ３．１に高度に特異的なキーワードは、インターフェロン、ＩＦＮ−アルファ、抗ウイルスまたはＩＳＲＥを含み、そしてＳＴＡＴ１（シグナル伝達および転写１の活性化）、ＣＸＣＬ１０（ＣＸＣケモカインリガンド１０、ＩＰ−１０）、ＯＡＳ２（オリゴアデニレートシンテターゼ２）およびＭＸ２（ミクソウイルス耐性２）のような遺伝子に関連した。

この用語の存在の対比パターンは、各モジュールの驚くべき機能的整合性を表す。同定されたすべてのモジュールに関して文献から抽出した情報は、転写レベルでのＰＢＭＣ系の包括的な機能的特性決定を可能とする。２８種のサンプルの各ＰＢＭＣ転写モジュールについて、同定された機能的関連の記載を表２に提供する。

モジュールに基づくマイクロアレイデータマイニング法。「従来の」マイクロアレイ分析からの結果は、よく知られているようにノイズが高く、そして解釈が難しい。マイクロアレイデータ分析に関して広く受け入れられている取り組みには、３つの基礎段階を含む：１）実験群の間で差次的に発現される遺伝子を選択するための統計的試験の使用；２）得られた遺伝子リストの間の兆候を同定するために、パターン発見アルゴリズムの適用する；および３）文献またはオントロジーデータベースからの知識を使用してデータを解釈する。

本発明は分析の初期段階で生物学的に関連する転写産物の選択を強調する新規マイクロアレイデータマイニング法を使用する。この第１段階は、例えば上記のモジュラーマイニングアルゴリズムを、詳細な各転写モジュールの徹底的な特性決定に使用する機能的マイニングツールと組み合わせて使用して行うことができる（図４；上パネル、工程１）。分析は群間の遺伝子発現レベルの差を考慮しない。むしろ代わりに本発明は生物学的変動（例えば患者集団の中の個体間の変動）により生じる複雑な遺伝子発現パターンに注目する。所定の生物学的系に関連する転写成分を定めた後、分析の第２段階には異なる実験群の比較を介して遺伝子発現における変化の分析を含む（図４：下パネル、工程２）。群比較分析は、各モジュールについて独立して行われる。モジュールレベルでの変化は、有意な基準を満たす遺伝子の比率として表される（図５のパイチャートまたは図６のスポットとして表される）。モジュールレベルでの比較を行うことは、数千の試験を「無作為」な遺伝子の集合について行う場合により生成するノイズの回避を可能とすることに注目されたい。

ヒト疾患におけるモジュラーＰＢＭＣ転写プロファイルの混乱。上記のマイクロアレイデータマイニング法の第２段階を具体的に説明するために（図４）、全身性エリテマトーデス（ＳＬＥ）の１８名の児童および急性インフルエンザＡ感染の１６名の児童からなる２つの小児科の患者集団から得たＰＢＭＣサンプルに関する遺伝子発現データを得、比較し、そして分析した。各患者の一団はその各々の対照群と合っていた（健康な有志：１１および１０名の供与体がそれぞれＳＬＥおよびインフルエンザ群と合った）。図４に示す分析的スキームの後、各個別のモジュールについて患者と健康群との間で、および各モジュールで有意に変化した遺伝子の測定比率の間で統計的な群の比較（図５）を行った。統計的な群の比較法では使用者はノイズを最少量で含む遺伝子の十分定められた群についての分析に集中でき、そして同定可能な生物学的意味をもつことが可能となる。これらの結果のグラフ表示に対する要点を、図４に提供する。

以下の知見がなされた：（１）Ｍ３．１の遺伝子の大きな集団（「インターフェロン関連」）は、ＦｌｕおよびＳＬＥ群の両方で有意なレベルを満たした（それぞれ８４％および９４％）。この考察ではＳＬＥ患者（１９）での以前の研究が確認され、そして急性インフルエンザ感染の患者にインターフェロン兆候の存在を同定する。（２）Ｍ１．３における均等比の遺伝子（「Ｂ−細胞関連」）は、両群（５３％）で有意に変化し、５０％を越えて２つのリスト間で重複する。今度は遺伝子は健康な群に比べて患者でかなり発現が抑えられた。（３）またモジュールは、２つの疾患を区別することも分かった。モジュール１．１で有意に変化した遺伝子の比率は、ＳＬＥ患者で３９％に達し、そしてＦｌｕ患者ではわずか７％であり、これは０．０５の有意レベルで、偶然に差次的に発現されるだけであると予想される遺伝子群に大変近い。興味深いことに、このモジュールはほぼ排他的に免疫グロブリン鎖をコードする遺伝子からなり、そして形質細胞と関連した。しかしこのモジュールは明らかにＢ細胞関連モジュール（Ｍ１．３）とは遺伝子発現レベルおよびパターンの両方の意味で異なる（示さず）。（４）モジュールＭ１．５により具体的に説明されるように、個々のモジュールの遺伝子レベルの分析を使用して、２つの疾患をさらに区別することができる。これもまたＭ１．３の場合に、ここではモジュールレベルでの差異が存在しないにもかかわらず（図４：５３％の発現を抑えられた転写産物）、ＦｌｕとＳＬＥ群との間の差異は遺伝子レベルで同定できた（Ｍ１．３ではわずかに５１％の抑えて発現された転写産物が、２つの疾患群で共通した）。これらの例は、モジュラー構造の使用が分析およびマイクロアレイの結果の解釈を簡素化することを具体的に説明している。

モジュールレベルでの遺伝子発現の変化におけるマッピング。データの視覚化は複雑なデータセットの解釈に最高であり、そして我々はモジュールレベルで起こる変化の包括的
なグラフによる説明を提供するために調査した。異なる疾患により生じた遺伝子発現レベルでの変化が、２８種のＰＢＭＣ転写モジュールについて表示された（図６）。各疾患群は、年齢および性別が合った健康な供与体からなるその各対照群と比較される（１８名のＳＬＥ患者、１６名の急性インフルエンザ感染、１６名の転移性黒色腫、および免疫抑制薬剤処置を受けている１６名の肝臓移植受容者が、１０から１１名の健康な個体からなる対照群と比較された）。モジュールレベルのデータは、格子上に並んだスポットによりグラフで表示され、各位置は異なるモジュールに対応する（各モジュールに関する機能的注釈に関しては表１を参照にされたい）。

スポットの強度は、各モジュールについて有意に変化した遺伝子の比を示す。スポットの色は、変化の極性を示す（赤：過剰発現した遺伝子の比、青：抑えて発現された遺伝子の比；過剰および抑制して発現された両遺伝子を含有するモジュールは紫から無色となる有意な比で観察された）。この表示はＰＢＭＣ転写系の混乱の迅速な評価を可能とする。そのような「モジュールマップ」を各疾患について作成した。４つのマップを比較する時、我々は疾患が独自なモジュールの組み合わせにより特徴付けられることが分かった。実際に、Ｍ１．１およびＭ１．２に関する結果だけで４種のすべての疾患を識別するに十分であった（Ｍ１．１／Ｍ１．２：ＳＬＥ＝＋／＋；ＦＬＵ＝０／０；黒色腫＝−／＋；移植＝−／−）。Ｍ３．２（「炎症」）の多数の遺伝子がすべての疾患で過剰に発現され（特に移植群で過剰）、一方、Ｍ３．１の遺伝子（インターフェロン）は、ＳＬＥ患者、インフルエンザ感染およびある程度の移植受容者で過剰に発現された。「リボゾームタンパク質」モジュール遺伝子（Ｍ１．７およびＭ２．４）は、ＳＬＥおよびＦｌｕ群の両方で抑制されて発現した。これら遺伝子の発現レベルは最近、ＳＬＥ患者での疾患活性に逆相関するようになることが分かった（Ｂｅｎｎｅｔｔｅｔａｌ．，提出）。Ｍ２．８は、Ｔ細胞を標的とする免疫抑制剤で処置したリンパ球減少ＳＬＥ患者および移植受容体で抑制して発現されるＴ細胞転写産物を含む。

興味深いことに、各モジュール中の差次的に発現される遺伝子は、主に抑制されて発現されるか、または過剰に発現されるかのいずれかであった（図５および図６）。さらにモジュールは群間の発現レベルにおける変化ではなく、遺伝子発現プロファイルの類似性に基づき純粋に選択された。遺伝子発現の変化は各モジュール内で高度に分極するらしいという事実は、モジュールデータの機能的関連性を表す。このように、本発明は患者の血中白血球転写プロファイルのモジュール分析により疾患のフィンガープリンティングを可能にする。

公開されたデータセットにおけるＰＢＭＣモジュールの検証。次いで「第３団」のデータセットにおける上記ＰＢＭＣ転写モジュールの有効性を試験した。ヒトＰＢＭＣ（２０）を対象として、運動が遺伝子発現に及ぼす効果を調査したＣｏｎｎｏｌｌｙ，ｅｔａｌ．，からの実験を試験した。

簡単に説明すると、サンプルは１５名の健康な男性から、３０分間の一定の作業速度サイクルのエルゴメトリーを行う前および直後、そして運動が終了してから１時間後に得た。転写プロファイルはアフィメトリックスＵ１３３Ａ遺伝子チップを使用して、各々３名の個体の５個のＲＮＡプールについて作成した。生の発現データはＮＣＢＩ遺伝子発現オムニバスウェッブサイト（２１）からダウンロードし、そしてモジュール対モジュール基準で遺伝子発現の変化を分析した。図７はモジュールＭ１．１（「形質細胞」）、Ｍ１．７（「リボゾームタンパク質」）およびＭ２．１（「細胞傷害性細胞」）の転写プロファイルを表す。これら各モジュールの転写挙動は、明らかに異なった。興味深いことに、個体プール（Ｍ１．１）、実験条件（Ｍ２．１）間に差異が見いだされ、または差異が無かった（Ｍ１．７）。これらのデータは、運動直後の細胞傷害性細胞に関連する遺伝子（Ｍ２．１）の発現に上昇を、これに続いて回復後のベースラインに匹敵するレベルへの低下
を明らかに示す。この知見は、座っている個体を対象として運動後に観察された循環しているナチュラルキラー細胞における上昇と一致する（２２、２３）。Ｍ２．１に含まれる遺伝子の幾つかは、Ｃｏｎｎｏｌｌｙ，ｅｔａｌ．，により「炎症応答」の基準に列挙されるが、この著者は細胞組成における変化の可能性と結び付けなかった。「炎症」モジュール（Ｍ３．２、Ｍ３．３）に属するほんの少数の遺伝子しか、広い範囲の疾患でこれらのモジュールを含んでなる遺伝子の発現レベルが上昇することはないという事実にもかかわらず、運動後に変化することが分かった（Ｃｈａｕｓｓａｂｅｌｅｔａｌ．，提出）。しかし興味深いことに、第ＩＶ段階の黒色腫患者および移植患者で特異的に過剰発現する免疫抑制分子は（Ｃｈａｕｓｓａｂｅｌｅｔａｌ．，提出）、運動後、一時的に増加することが分かった（示さず、Ｍ１．４；例えばＴＣＦ８、ＣＲＥＭ、ＲＧＳ１、ＴＮＦＡＩＰ３）。

この分析からの結果を合わせると、独立した調査群により作成されたデータの内容で、提案されたモジュラーマイニング法の有効性が示される。本発明を使用して、モジュールの転写データはマイクロアレイ平板全体で再現性があることが分かった。

最初に、２種類の市販されているマイクロアレイ平板を使用して得たモジュール転写プロファイルを比較した。ＰＢＭＣは４名の健康な有志および１０名の肝移植受容者から供与された１４個のサンプルから単離した。同じ起源の全ＲＮＡから始めて、標的は独立して作成され、そしてアフィメトリックスＵ１３３ＧｅｎｅＣｈｉｐｓ（バイロール免疫調査研究所で）、およびイルミナＨｕｍａｎＲｅｆ８ＢｅａｄＣｈｉｐ（イルミナサービスコアで）を使用して分析された。２つのマイクロアレイ技術の間には基本的な差異が存在する（詳細については方法を参照にされたい）。各製造元により提供されるプローブＩＤは、遺伝子発現プロファイルに合わせるために使用した独自のＩＤ（ＮＣＢＩＥｎｔｒｅｚ遺伝子ＩＤ）に転換された。モジュールＭ１．２（「血小板」）、Ｍ３．１（「インターフェロン」）およびＭ３．２（「炎症」）に関して共有する遺伝子組について得たデータは、図８に示される。イルミナのビーズチップで得られたデータから引き出されたプロファイルは、各モジュール内の遺伝子間で大変高レベルの同時発現を示す。この観察は、転写モジュールの選択がアフィメトリックスのＧｅｎｅＣｈｉｐｓを使用して作成された遺伝子発現データにほとんど基づいていたので、特に意味がある。さらに各モジュールについて平均化された遺伝子発現値は、マイクロアレイ平板全体で再現性が高かった（図８）。

これらの結果は、モジュールの転写兆候の強さを証明し、そしてモジュールレベルの分析が異なる場所および異なる平板で作成されたマイクロアレイデータの再現性に関して、関心を傾ける潜在能力があることを明らかに示す。

マイクロアレイ遺伝子発現データは生物学的系の包括的な、しかし組織化されていない観点を作り出す。マイクロアレイに基づく調査が直面する課題には３つの部分がある：（１）ノイズ、（２）データ解釈および（３）再現性。ノイズに関して、本発明は成功裏に何万もの遺伝子を比較し、これは従来技術の方法では大きな比率のノイズを含む結果を必ず生じる（２４）。データ解釈に関しては、本発明は情報の過負荷の問題を克服する。実際に、マイクロアレイのデータを解釈するには調査者が既存の生物医学知識の内容で実験データをゲノム全域の規模で調査する必要があることが多い（１３）。さらに不安になることは、ノイズが多いデータの解釈を通して偽の結果が生じる恐れである（７）。最後に再現性に関して、既存の技術の重大な問題は、異なる研究室および平板全体により得られるマイクロアレイの結果の良くない再現性が混乱を起こし続けていることが詳細に記録され、今日まで主要な関心事として残っている（６，７，１０〜１２）。

主流のマイクロアレイ分析法は、幾つかの理由によりこの３つの論点の取り組みに限定
的に成功しただけであった。まず第１に、統計的試験が分析の初期段階の先行条件と考えられるからである。その結果、いったん差次的に発現された遺伝子のリストが生成されるだけで、生物学的考察が効果を示すようになる。しかし何万もの変数を試験することから生じるデータのサブセットは必ずノイズを含み、したがって解釈することは特に難しい。本発明の系および方法は、モジュールの特徴を決定する場合、細胞の細胞および分子生物学を考慮する。本発明では、第１段階は分析の極めて初期の段階で系の生物学を考慮することであり、これにより数百ものサンプル全体で調和して発現されると判明した機能に連結している遺伝子の組を選択する。次いで統計的試験を生物学的に意味のある遺伝子がかなり濃縮しているモジュールのデータセットに適用する。この取り組みのさらなる利点は、基本単位として転写モジュールを使用することにより、遺伝子レベルの分析を越える点である。転写モジュールは、定めた生物学的系の内容で起こる混乱の分析に関する骨格を構成する。このモジュールデータ形式は、マイクロアレイ実験の解釈の簡素化に役立つ。しかしこれには、膨大な範囲の生物学的変数、例えば異なる実験条件、個体間の変動の下での各実験系の予備的特性決定が必要となり、そして生物材料の経費および入手も限定され得る。

興味深いことに、モジュールレベルの分析からのデータは、２つの市販されているマイクロアレイ平板をわたって得られる優れた再現性により示されるように、特に確固としていることが示された。さらにＰＢＭＣ転写モジュールの多変数分析は、「ゲノムスコア」の確立を導き、これは全身性エリテマトーデスの患者において疾患の重篤度に正確な評価を提供した（Ｂｅｎｎｅｔｔｅｔａｌ．，提出）。信頼性のある血中白血球転写マーカーの同定は、臨床的状況におけるマイクロアレイの応用に向けた重要な段階を構成する。

多くの細胞型により形成されるサンプルでの作業は、マイクロアレイ遺伝子発現データの分析に複雑性レベルを加える。実際、遺伝子発現レベルの差異は転写活性の変化だけでなく、細胞組成の変化によっても説明され得る。ＰＢＭＣサンプルを分析することにより得られるモジュールの兆候はこの事実を反映し、そして細胞成分（血小板−Ｍ１．２、赤血球−Ｍ２．３またはＴ細胞−Ｍ２．８に関連する遺伝子）を活性化に関連する成分（インターフェロン−Ｍ３．１、炎症Ｍ３．２またはシグナル伝達−Ｍ２．１１に関連する遺伝子）と区別できるようにする。この種の考察は、この内容で行われるマイクロアレイ分析の大半が多細胞サンプルを含むので、患者に基づく調査に関連する。

アフィメトリックスおよびイルミナの平板により作成されるモジュール発現データは、高度に比較可能である（図９：移植群のピアソン相関係数はＭ１．２、Ｍ３．１およびＭ３．２についてそれぞれＲ^２＝０．８３，０．９８および０．９３：ｐ＜０．０００１）。合わせると、これらの結果はモジュール転写データがマイクロアレイ平板全体で再生できることを証明している。この知見は、「モジュールのマイクロアレイスコア」が使用したマイクロアレイ平板から独立して引き出された患者の疾患重篤度を評価するために使用できることを示すので、重要である。

この実験で記載したモジュールレベルマイニング法は、広い範囲の生物学的系に使用することができ、そして腫瘍または固体臓器生検材料のような他の臨床的に関連するサンプルの分析にも良く適している。

発現レベルベクトルは、表３に提供する１もしくは複数のモジュールおよび／または１もしくは複数の遺伝子から得ることができる。さらに本発明に基づき、当業者には明白であるように、疾患発現プロファイルに依存して、および本発明の方法を使用することにより、モジュールおよびモジュール内の遺伝子を開発し、そしてさらに洗練させることが可能である。例えば必要とされる特異性のレベル、データセットの数、患者の数等に依存して、所定の疾患の内容で差次的に発現する遺伝子を異なる比率で含む１もしくは複数の異なる新規モジュールを使用して、新たなデータに基づく新規モジュールを開発し、転写産物の新たなサブセットに基づくアレイを形成し、そして組織することができ、これは平均発現レベルを表す新規ベクトルを定める。

表１、２および３は長い表である。本特許出願は長い表の章を含む。表のコピーはＵＳＰＴＯウェッブサイトから電子形式で利用可能である。また表の電子コピーは要求すればＵＳＰＴＯから３７ＣＦＲ１．１９（ｂ）（３）に説明されている料金で入手することもでき、これにはＥＦＳファイルが付いており、そして表１、２および３は全部、参照により包含されている。

本明細書に記載する特定の態様は、具体的説明の目的で示し、本発明を限定するものでないと理解される。本発明の主な特徴は本発明の範囲から逸脱せずに様々な態様で採用することができる。当業者は日常的な実験だけで、本明細書に記載する特異的手順の多くの等価物を認識し、または確認することができる。そのような等価物は本発明の範囲内にあると考えられ、そして特許請求の範囲により網羅される。

本明細書に挙げたすべての公報および特許出願は、本発明が関連する当業者の技術レベルの指標である。すべての公報および特許出願は、各公報または特許出願が引用により具体的に、そして個別に編入されることが示されれば、同程度まで参照により編入する。

特許請求の範囲では、「含んでなる」、「含む」、「持つ」、「有する」、「含有する」、「含む」等のようなすべての移行句は広く解釈され、すなわち含むが限定はしないことを意味する。「からなる」および「から本質的になる」という移行句のみ、それぞれ排他的、または半排他的な移行句となる。

本明細書に開示し、そして特許請求するすべての組成物および／または方法は、本開示に照らして過度な実験を行わずに作成し、そして実行することができる。本発明の組成物および方法は、好適な態様という意味で記載してきたが、当業者には本発明の概念、精神および範囲から逸脱せずに本明細書に記載する組成物、および／または方法、および方法の段階または段階の順序に変化を適用できることは明らかである。さらに詳細には、化学的および生理学的の両方に関連する特定の作用物質を、本明細書に記載する作用物質と置き換えても、同じまたは類似の結果を達成できることは明らかである。当業者には明白であるすべてのそのような類似の置換および修飾は、添付する特許請求の範囲により定められる本発明の精神、範囲および概念の中にあるものと見なす。

参考文献
１．Ｇｏｌｕｂ，Ｔ．Ｒ．ｅｔａｌ．Ｍｏｌｅｃｕｌａｒｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｃａｎｃｅｒ：ｃｌａｓｓｄｉｓｃｏｖｅｒｙａｎｄｃｌａｓｓ
ｐｒｅｄｉｃｔｉｏｎｂｙｇｅｎｅｅｘｐｒｅｓｓｉｏｎｍｏｎｉｔｏｒｉｎｇ．Ｓｃｉｅｎｃｅ２８６，５３１−７（１９９９）．
２．Ａｌｉｚａｄｅｈ，Ａ．Ａ．ｅｔａｌ．Ｄｉｓｔｉｎｃｔｔｙｐｅｓｏｆ
ｄｉｆｆｕｓｅｌａｒｇｅＢ−ｃｅｌｌｌｙｍｐｈｏｍａｉｄｅｎｔｉｆｉｅｄｂｙｇｅｎｅｅｘｐｒｅｓｓｉｏｎｐｒｏｆｉｌｉｎｇ．Ｎａｔｕｒｅ４０３，５０３−１１（２０００）．
３．Ｇａｒｂｅｒ，Ｋ．Ｇｅｎｏｍｉｃｍｅｄｉｃｉｎｅ．Ｇｅｎｅｅｘｐｒｅｓｓｉｏｎｔｅｓｔｓｆｏｒｅｔｅｌｌｂｒｅａｓｔｃａｎｃｅｒ’ｓｆｕｔｕｒｅ．Ｓｃｉｅｎｃｅ３０３，１７５４−５（２００４）．
４．ｖａｎｄｅＶｉｊｖｅｒ，Ｍ．Ｊ．ｅｔａｌ．Ａｇｅｎｅ−ｅｘｐｒｅｓｓｉｏｎｓｉｇｎａｔｕｒｅａｓａｐｒｅｄｉｃｔｏｒｏｆｓｕｒｖｉｖ
ａｌｉｎｂｒｅａｓｔｃａｎｃｅｒ．ＮＥｎｇｌＪＭｅｄ３４７，１９９９−２００９（２００２）．
５．Ｐａｓｃｕａｌ，Ｖ．，Ａｌｌａｎｔａｚ，Ｆ．，Ａｒｃｅ，Ｅ．，Ｐｕｎａｒｏ，Ｍ．＆Ｂａｎｃｈｅｒｅａｕ，Ｊ．Ｒｏｌｅｏｆｉｎｔｅｒｌｅｕｋｉｎ−１（ＩＬ−１）ｉｎｔｈｅｐａｔｈｏｇｅｎｅｓｉｓｏｆｓｙｓｔｅｍｉｃｏｎｓｅｔｊｕｖｅｎｉｌｅｉｄｉｏｐａｔｈｉｃａｒｔｈｒｉｔｉｓａｎｄｃｌｉｎｉｃａｌｒｅｓｐｏｎｓｅｔｏＩＬ−１ｂｌｏｃｋａｄｅ．ＪＥｘｐＭｅｄ２０１，１４７９−８６（２００５）．
６．Ｍｉｃｈｉｅｌｓ，Ｓ．，Ｋｏｓｃｉｅｌｎｙ，Ｓ．＆Ｈｉｌｌ，Ｃ．Ｐｒｅｄｉｃｔｉｏｎｏｆｃａｎｃｅｒｏｕｔｃｏｍｅｗｉｔｈｍｉｃｒｏａｒｒａｙｓ：ａｍｕｌｔｉｐｌｅｒａｎｄｏｍｖａｌｉｄａｔｉｏｎｓｔｒａｔｅｇｙ．Ｌａｎｃｅｔ３６５，４８８−９２（２００５）．
７．Ｉｏａｎｎｉｄｉｓ，Ｊ．Ｐ．Ｍｉｃｒｏａｒｒａｙｓａｎｄｍｏｌｅｃｕｌａｒｒｅｓｅａｒｃｈ：ｎｏｉｓｅｄｉｓｃｏｖｅｒｙ？Ｌａｎｃｅｔ３６５，４５４−５（２００５）．
８．Ｊａｒｖｉｎｅｎ，Ａ．Ｋ．ｅｔａｌ．Ａｒｅｄａｔａｆｒｏｍｄｉｆｆｅｒｅｎｔｇｅｎｅｅｘｐｒｅｓｓｉｏｎｍｉｃｒｏａｒｒａｙｐｌａｔｆｏｒｍｓｃｏｍｐａｒａｂｌｅ？Ｇｅｎｏｍｉｃｓ８３，１１６４−８（２００４）．
９．Ｔａｎ，Ｐ．Ｋ．ｅｔａｌ．Ｅｖａｌｕａｔｉｏｎｏｆｇｅｎｅｅｘｐｒｅｓｓｉｏｎｍｅａｓｕｒｅｍｅｎｔｓｆｒｏｍｃｏｍｍｅｒｃｉａｌｍｉｃｒｏａｒｒａｙｐｌａｔｆｏｒｍｓ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ３１，５６７６−８４（２００３）．
１０．Ｂａｍｍｌｅｒ，Ｔ．ｅｔａｌ．Ｓｔａｎｄａｒｄｉｚｉｎｇｇｌｏｂａｌｇｅｎｅｅｘｐｒｅｓｓｉｏｎａｎａｌｙｓｉｓｂｅｔｗｅｅｎｌａｂｏｒａｔｏｒｉｅｓａｎｄａｃｒｏｓｓｐｌａｔｆｏｒｍｓ．ＮａｔＭｅｔｈｏｄｓ
２，３５１−６（２００５）．
１１．Ｉｒｉｚａｒｒｙ，Ｒ．Ａ．ｅｔａｌ．Ｍｕｌｔｉｐｌｅ−ｌａｂｏｒａｔｏｒｙｃｏｍｐａｒｉｓｏｎｏｆｍｉｃｒｏａｒｒａｙｐｌａｔｆｏｒｍｓ．ＮａｔＭｅｔｈｏｄｓ２，３４５−５０（２００５）．
１２．Ｌａｒｋｉｎ，Ｊ．Ｅ．，Ｆｒａｎｋ，Ｂ．Ｃ．，Ｇａｖｒａｓ，Ｈ．，Ｓｕｌｔａｎａ，Ｒ．＆Ｑｕａｃｋｅｎｂｕｓｈ，Ｊ．Ｉｎｄｅｐｅｎｄｅｎｃｅａｎｄ
ｒｅｐｒｏｄｕｃｉｂｉｌｉｔｙａｃｒｏｓｓｍｉｃｒｏａｒｒａｙｐｌａｔｆｏｒｍｓ．ＮａｔＭｅｔｈｏｄｓ２，３３７−４４（２００５）．
１３．Ｃｈａｕｓｓａｂｅｌ，Ｄ．Ｂｉｏｍｅｄｉｃａｌｌｉｔｅｒａｔｕｒｅｍｉｎｉｎｇ：ｃｈａｌｌｅｎｇｅｓａｎｄｓｏｌｕｔｉｏｎｓｉｎｔｈｅ ‘ｏｍｉｃｓ’ ｅｒａ．ＡｍＪＰｈａｒｍａｃｏｇｅｎｏｍｉｃｓ４，３８３−９３（２００４）．
１４．Ｒｈｏｄｅｓ，Ｄ．Ｒ．ｅｔａｌ．Ｍｉｎｉｎｇｆｏｒｒｅｇｕｌａｔｏｒｙｐｒｏｇｒａｍｓｉｎｔｈｅｃａｎｃｅｒｔｒａｎｓｃｒｉｐｔｏｍｅ．ＮａｔＧｅｎｅｔ３７，５７９−８３（２００５）．
１５．Ｓｅｇａｌ，Ｅ．，Ｆｒｉｅｄｍａｎ，Ｎ．，Ｋｏｌｌｅｒ，Ｄ．＆Ｒｅｇｅｖ，Ａ．Ａｍｏｄｕｌｅｍａｐｓｈｏｗｉｎｇｃｏｎｄｉｔｉｏｎａｌａｃｔｉｖｉｔｙｏｆｅｘｐｒｅｓｓｉｏｎｍｏｄｕｌｅｓｉｎｃａｎｃｅｒ．ＮａｔＧｅｎｅｔ３６，１０９０−８（２００４）．
１６．Ｍｏｏｔｈａ，Ｖ．Ｋ．ｅｔａｌ．ＰＧＣ−１ａｌｐｈａ−ｒｅｓｐｏｎｓｉｖｅｇｅｎｅｓｉｎｖｏｌｖｅｄｉｎｏｘｉｄａｔｉｖｅｐｈｏｓｐｈｏｒｙｌａｔｉｏｎａｒｅｃｏｏｒｄｉｎａｔｅｌｙｄｏｗｎｒｅｇｕｌａｔｅｄｉｎｈｕｍａｎｄｉａｂｅｔｅｓ．ＮａｔＧｅｎｅｔ３４，２６７−７３（２００３）．
１７．Ｓｅｇａｌ，Ｅ．，Ｆｒｉｅｄｍａｎ，Ｎ．，Ｋａｍｉｎｓｋｉ，Ｎ．，Ｒｅｇｅｖ，Ａ．＆Ｋｏｌｌｅｒ，Ｄ．Ｆｒｏｍｓｉｇｎａｔｕｒｅｓｔｏｍｏｄｅｌｓ：ｕｎｄｅｒｓｔａｎｄｉｎｇｃａｎｃｅｒｕｓｉｎｇｍｉｃｒｏａｒｒａｙｓ．ＮａｔＧｅｎｅｔ３７Ｓｕｐｐｌ，Ｓ３８−４５（２００５）．
１８．Ｃｈａｕｓｓａｂｅｌ，Ｄ．＆Ｓｈｅｒ，Ａ．Ｍｉｎｉｎｇｍｉｃｒｏａｒｒａｙｅｘｐｒｅｓｓｉｏｎｄａｔａｂｙｌｉｔｅｒａｔｕｒｅｐｒｏｆｉｌｉｎｇ．ＧｅｎｏｍｅＢｉｏｌ３，ＲＥＳＥＡＲＣＨ００５５（２００２）．
１９．Ｂｅｎｎｅｔｔ，Ｌ．ｅｔａｌ．Ｉｎｔｅｒｆｅｒｏｎａｎｄｇｒａｎｕｌｏｐｏｉｅｓｉｓｓｉｇｎａｔｕｒｅｓｉｎｓｙｓｔｅｍｉｃｌｕｐｕｓｅｒｙｔｈｅｍａｔｏｓｕｓｂｌｏｏｄ．ＪＥｘｐＭｅｄ１９７，７１１−２３（２００３）．
２０．Ｃｏｎｎｏｌｌｙ，Ｐ．Ｈ．ｅｔａｌ．Ｅｆｆｅｃｔｓｏｆｅｘｅｒｃｉｓｅｏｎｇｅｎｅｅｘｐｒｅｓｓｉｏｎｉｎｈｕｍａｎｐｅｒｉｐｈｅｒａｌｂｌｏｏｄｍｏｎｏｎｕｃｌｅａｒｃｅｌｌｓ．ＪＡｐｐｌＰｈｙｓｉｏｌ９７，１４６１−９（２００４）．
２１．Ｂａｒｒｅｔｔ，Ｔ．ｅｔａｌ．ＮＣＢＩＧＥＯ：ｍｉｎｉｎｇｍｉｌｌｉｏｎｓｏｆｅｘｐｒｅｓｓｉｏｎｐｒｏｆｉｌｅｓ−−ｄａｔａｂａｓｅａｎｄｔｏｏｌｓ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ３３，Ｄ５６２−６（２００５）．
２２．Ｏｇａｗａ，Ｋ．，Ｏｋａ，Ｊ．，Ｙａｍａｋａｗａ，Ｊ．＆Ｈｉｇｕｃｈｉ，Ｍ．Ａｓｉｎｇｌｅｂｏｕｔｏｆｅｘｅｒｃｉｓｅｉｎｆｌｕｅｎｃｅｓ
ｎａｔｕｒａｌｋｉｌｌｅｒｃｅｌｌｓｉｎｅｌｄｅｒｌｙｗｏｍｅｎ，ｅｓｐｅｃｉａｌｌｙｔｈｏｓｅｗｈｏａｒｅｈａｂｉｔｕａｌｌｙａｃｔｉｖｅ．ＪＳｔｒｅｎｇｔｈＣｏｎｄＲｅｓ１９，４５−５０（２００５）．
２３．Ｗｏｏｄｓ，Ｊ．Ａ．，Ｅｖａｎｓ，Ｊ．Ｋ．，Ｗｏｌｔｅｒｓ，Ｂ．Ｗ．，Ｃｅｄｄｉａ，Ｍ．Ａ．＆ＭｃＡｕｌｅｙ，Ｅ．Ｅｆｆｅｃｔｓｏｆｍａｘｉｍａｌｅｘｅｒｃｉｓｅｏｎｎａｔｕｒａｌｋｉｌｌｅｒ（ＮＫ）ｃｅｌｌｃｙｔｏｔｏｘｉｃｉｔｙａｎｄｒｅｓｐｏｎｓｉｖｅｎｅｓｓｔｏｉｎｔｅｒｆｅｒｏｎ−ａｌｐｈａｉｎｔｈｅｙｏｕｎｇａｎｄｏｌｄ．ＪＧｅｒｏｎｔｏｌ
ＡＢｉｏｌＳｃｉＭｅｄＳｃｉ５３，Ｂ４３０−７（１９９８）．
２４．Ｔｕｍａ，Ｒ．Ｓ．Ｅｆｆｏｒｔｓａｉｍｅｄａｔｒｅｄｕｃｉｎｇｎｏｉｓｅ，ｄａｔａｏｖｅｒｌｏａｄｉｎｍｉｃｒｏａｒｒａｙｓ．ＪＮａｔｌＣａｎｃｅｒＩｎｓｔ９７，１１７３−５（２００５）。

本発明の特徴および利点をさらに完全に理解するために、添付する図面と一緒に本発明の詳細な説明が参照される。

図１Ａ〜１Ｃは、受けた遺伝子レベルのマイクロアレイデータ分析に含まれる基本的なマイクロアレイデータマイニング法の工程（図１Ａ）、本発明のモジュールマイニング法図１ｂおよびモジュール抽出アルゴリズムの完全なサイズ表示図１Ｃを表す。図１Ｃはモジュール抽出アルゴリズムのさらに詳細な観点を提供し、ここで工程（ａ）はデータ例が定めた実験系の内容で生成されることを示す（例えばエクスビボのＰＢＭＣ）；工程（ｂ）は、転写プロファイルが幾つかの実験群（例えばＳ１〜８）に関して得られることを表し；工程（ｃ）は各群について、遺伝子が類似の発現プロファイルに基づきｘクラスター（例えばｘ＝３０）に分布することを表し（Ｋ−平均クラスタリングアルゴリズムを使用して）；工程（ｄ）は異なる実験群にわたる各遺伝子のクラスター分布が表に記録され、そして分布パターンが合うことを表し；そして工程（ｅ）は、モジュールがすべての実験群をわたり同じクラスターに分布する最大の遺伝子組から始めて、反復プロセスを介して選択されることを示し（８群のうちの８つについて同じクラスター内に見いだされる）。選択はこのコア参照パターンから７／８、６／８および５／８の対合を持つ遺伝子へと拡大される。いったんモジュールが形成されれば、遺伝子は選択プールから引き出される。次いでこのプロセスを、遺伝子の２番目に大きい群から始めて、厳密度のレベルを漸次下げながら進めて繰り返す。独立したサンプル群全体のモジュールの遺伝子発現プロファイル。モジュール間の転写挙動の差異は、２１名の健康な有志から得た１組のサンプルで具体的に説明される。サンプルはモジュール選択工程で使用されなかった。グラフは転写プロファイルを表し、各線は多くの条件にわたり１つの転写産物の発現レベル（ｙ−軸）を示す（サンプル、ｘ−軸）。モジュール１．２、１．７、２．１および２．１１の転写プロファイルを示す。各遺伝子の発現は、すべてのサンプルをわたり得た測定値の中央値に対して標準化される。文献中、キーワードの存在の分布は、４組の調和して発現される遺伝子について得た。要約中、用語の存在レベルは少なくとも１０の公報に関連してＭ３．１、Ｍ１．５、Ｍ１．３およびＭ１．２内のすべての遺伝子についてコンピューターで計算した（２６，０００以上の要約を表す）。キーワードプロファイルは各モジュールについて抽出し、そして選択を使用してこの図を生成した。要約中、キーワードの存在のレベルは色付きの尺度で示し、黄色は高い存在を示す。Ｍ３．１はインターフェロンに関連し、Ｍ１．５は病原体認識モジュール／ミエロイド系細胞に関連し、Ｍ１．３はＢ細胞に関連し、そしてＭ１．２は血小板に関連する。モジュールのマイクロアレイ分析法。提案されたマイクロアレイデータ分析法には、２つの基本的段階を含む：１．転写系の特性決定：転写成分は、教示なしの（ｕｎｓｕｐｅｒｖｉｓｅｄ）「クラスタリングメタ分析」）を介して抽出する（図１）。各モジュール（独自のＩＤ、例えばＭ１．１により命名される）を形成する遺伝子は、定めた実験系についてすべての条件にわたり一貫した転写挙動を有する。転写モジュールは２つのデジタルＩＤ（例えば１．１）により同定される。グラフは多くの条件にわたってモジュールを形成する遺伝子の発現プロファイルを表す（サンプル）。次いで各モジュールは機能的に特徴付けられる（例えば文献プロファイルの分析を介して）。この結果は生物学的に意味がある転写決定基の集合である。２．系の混乱を研究する：実験群間の比較は、各モジュールについて独立して行う。この分析により、異なる条件について発現レベルの変化を同定することが可能となった（例えば患者および健康な対照からのサンプルを比較する）。各モジュールについて得られた結果をグラフに表す。有意な基準を満たす遺伝子の比率（クラス比較）を丸で示し、赤色は有意に過剰発現した遺伝子の比率であり、そして青色は有意に抑制されて発現した遺伝子の比率である。この理論的例では、ｐ＜０．０５の３／４の遺伝子（７５％）がでグラフ上に表された。これら遺伝子の２つが過剰に発現し（５０％−赤）、そして１つが抑制されて発現した（２５％−青）。患者の血中白血球転写プロファイルの分析である。ａ）遺伝子レベルの分析。上パネルはＳＬＥまたは急性インフルエンザ感染の患者およびそれらの各対照との間で差次的に発現される転写産物を同定した統計的比較を表す（ｐ＜０．００１、マンホイットニーＵ検定、ベンジャミンおよびホックバーグの誤発見率（ＢｅｎｊａｍｉｎｉａｎｄＨｏｃｈｂｅｒｇＦａｌｓｅＤｉｓｃｏｖｅｒｙＲａｔｅ）：ＳＬＥ＝７３３転写産物、ＦＬＵ＝２３４転写産物）。クラスタリング分析は遺伝子を発現パターンに基づきグループ分けし、そして結果がヒートマップにより表される。下のパネルはモジュールレベルの分析である。各モジュールについて、患者（ＳＬＥまたはＦＬＵ）および各々の健康な有志のＰＢＭＣについて得られた遺伝子発現レベルを比較した（ｐ＜０．０５、マン−ホイットニーの順位検定）。パイチャートは、有意に変化した遺伝子の比率を示す。グラフは有意に変化した遺伝子の転写プロファイルを表し、各線は多くの条件（サンプル、ｘ−軸）をわたり１つの転写産物の発現レベル（ｙ−軸）を示す。各遺伝子の発現は、すべてのサンプル全体で得られた測定値の中央値に対して標準化される。２８個のＰＢＭＣ転写モジュールについて得られた結果を格子中に表す。座標はモジュールのＩＤ（例えばＭ２．８は行Ｍ２、カラム８）を示すために使用する。スポットは各モジュールについて有意に変化した遺伝子の比率を表す。赤点：過剰発現した遺伝子の比率、青点：抑制されて発現した遺伝子の比率。機能的解釈は色付きコードにより格子中に示す。疾患により生じる転写の変化のモジュールマップ。各モジュールについて、患者および彼らの健康な対照群に由来する単離したＰＢＭＣで測定された発現レベルを比較した（マン−ホイットニー順位検定、ｐ＜０．０５：ＳＬＥの１８名の患者と１１名の健康な有志との間；１６名の急性インフルエンザ感染の患者と１０名の有志との間；１６名の転移性黒色腫患者と１０名の有志との間；および１６名の肝移植受容体対１０名の有志との間）。スポットは各モジュールについて有意に変化した遺伝子の比率を表す。赤点：過剰発現した遺伝子の比率、青点：抑制されて発現した遺伝子の比率。２８個のＰＢＭＣ転写モジュールについて得た結果は、格子中に示す。座標はモジュールＩＤを示すために使用する（例えばＭ２．８は行Ｍ２、カラム８）。第３団のデータセットの分析。モジュールマイクロアレイデータ分析は、公開されたＰＢＭＣ遺伝子発現データセットについて行った。実験では運動が遺伝子発現に及ぼす効果を調査した。血液サンプルは１５名の個体、運動前（Ｐｒｅ）、運動終了時（Ｅｎｄ）および６０分の回復（Ｒｅ）について得た。転写プロファイルは、３名の個体の５個のプールそれぞれについて作成した。発現プロファイルは３つの転写モジュールについて示す。各遺伝子の発現は、すべてのサンプル全体で得られた測定値の中央値に対して標準化する。文献からのキーワード抽出は緑で示す。平板の相互的（Ｃｒｏｓｓ−ｐｌａｔｆｏｒｍ）検証。健康な供与体および肝臓移植受容体からのＰＢＭＣサンプルを、２つの異なるマイクロアレイ平板で分析した。アフィメトリックスＵ１３３Ａ＆ＢＧｅｎｅＣｈｉｐｓおよびイルミナＳｅｎｔｒｉｘＨｕｍａｎＲｅｆ８ＢｅａｄＣｈｉｐｓ。同じ全ＲＮＡのプールを使用して、ビオチン−標識化ｃＲＮＡ標的を別個に調製した。結果は２つの平板により共有される１組の転写産物について表す（アフィメトリックス：上パネル；イルミナ；中段パネル）。各遺伝子の発現は、すべてのサンプル全体から得られた測定値の中央値に対して標準化される。各転写モジュールを形成するすべての遺伝子について、平均化された発現値をアフィメトリックスおよびイルミナの平板の両方について下のパネルに示す。マイクロアレイ平板をわたるモジュールレベルの発現データの再現性を含む３つのグラフ。健康な供与体および肝移植受容体からのＰＢＭＣサンプルを、２つの異なるマイクロアレイ平板で分析した：アフィメトリックスＵ１３３Ａ＆ＢＧｅｎｅＣｈｉｐｓおよびイルミナＳｅｎｔｒｉｘＨｕｍａｎＲｅｆ８ＢｅａｄＣｈｉｐｓ。同じ起源の全ＲＮＡを使用して、ビオチン−標識ｃＲＮＡ標的を別個に調製した。標準化された「モジュール発現レベル」は、各モジュールを形成する遺伝子の発現値を平均することにより各サンプルについて得た。アフィメトリックスおよびイルミナの平板により生成されたデータに由来するモジュールの発現レベルは、高度に比較可能であった：Ｍ１．２、Ｍ３．１およびＭ３．２についてそれぞれピアソン相関係数Ｒ２＝０．８３、０．９８および０．９３；ｐ＜０．０００１）。

Claims

以下のステップを含む、疾患分析ツールのためのデータを取得する方法；
からなる群から１又は複数の遺伝子モジュールを選択するステップ、及び、自己免疫疾患、ウイルス感染、バクテリア感染、癌および移植拒絶を識別するために、患者から、モジュール内の前記各遺伝子のデータを取得するステップであって、
前記の選択されるモジュールが：
形質細胞：免疫グロブリン鎖（ＩＧＨＭ，ＩＧＪ，ＩＧＬＬ１，ＩＧＫＣ，ＩＧＨＤ）および形質細胞マーカーＣＤ３８をコードする遺伝子；および
血小板：血小板糖タンパク質（ＩＴＧＡ２Ｂ，ＩＴＧＢ３，ＧＰ６，ＧＰ１Ａ／Ｂ）、および血小板由来免疫メディエーターＰＰＰＢ（プロ−血小板塩基性タンパク質）およびＰＦ４（血小板因子４）をコードする遺伝子；
から選択され、そしてこのモジュールがこれら２つのモジュールに陽性ベクトルを有することにより患者から全身性エリテマトーデスを同定するために使用される方法。
以下のステップを含む、疾患分析ツールのためのデータを取得する方法；
からなる群から１又は複数の遺伝子モジュールを選択するステップ、及び、自己免疫疾患、ウイルス感染、バクテリア感染、癌および移植拒絶を識別するために、患者から、モジュール内の前記各遺伝子のデータを取得するステップであって、
前記の選択されるモジュールが：
形質細胞：免疫グロブリン鎖（ＩＧＨＭ，ＩＧＪ，ＩＧＬＬ１，ＩＧＫＣ，ＩＧＨＤ）および形質細胞マーカーＣＤ３８をコードする遺伝子；および
血小板：血小板糖タンパク質（ＩＴＧＡ２Ｂ，ＩＴＧＢ３，ＧＰ６，ＧＰ１Ａ／Ｂ）、および血小板由来免疫メディエーターＰＰＰＢ（プロ−血小板塩基性タンパク質）およびＰＦ４（血小板因子４）をコードする遺伝子；
から選択され、そしてこのモジュールがこれら２つのモジュールに陽性ベクトルも陰性ベクトルも持たないことにより患者からインフルエンザ感染を同定するために使用される方法。
以下のステップを含む、疾患分析ツールのためのデータを取得する方法；
からなる群から１又は複数の遺伝子モジュールを選択するステップ、及び、自己免疫疾患、ウイルス感染、バクテリア感染、癌および移植拒絶を識別するために、患者から、モジュール内の前記各遺伝子のデータを取得するステップであって、
前記の選択されるモジュールが：
形質細胞：免疫グロブリン鎖（ＩＧＨＭ，ＩＧＪ，ＩＧＬＬ１，ＩＧＫＣ，ＩＧＨＤ）および形質細胞マーカーＣＤ３８をコードする遺伝子；および
血小板：血小板糖タンパク質（ＩＴＧＡ２Ｂ，ＩＴＧＢ３，ＧＰ６，ＧＰ１Ａ／Ｂ）、およびＰＰＰＢ（プロ−血小板塩基性タンパク質）およびＰＦ４（血小板因子４）のような血小板由来免疫メディエーターをコードする遺伝子；
から選択され、そしてこのモジュールが形質細胞マーカーに陰性ベクトルを、そして血小板マーカーに陽性ベクトルを有することにより患者から黒色腫を同定するために使用される方法。
以下のステップを含む、疾患分析ツールのためのデータを取得する方法；
からなる群から１又は複数の遺伝子モジュールを選択するステップ、及び、自己免疫疾患、ウイルス感染、バクテリア感染、癌および移植拒絶を識別するために、患者から、モジュール内の前記各遺伝子のデータを取得するステップであって、
前記の選択されるモジュールが：
形質細胞：免疫グロブリン鎖（ＩＧＨＭ，ＩＧＪ，ＩＧＬＬ１，ＩＧＫＣ，ＩＧＨＤ）および形質細胞マーカーＣＤ３８をコードする遺伝子；および
血小板：血小板糖タンパク質（ＩＴＧＡ２Ｂ，ＩＴＧＢ３，ＧＰ６，ＧＰ１Ａ／Ｂ）、および血小板由来免疫メディエーターＰＰＰＢ（プロ−血小板塩基性タンパク質）およびＰＦ４（血小板因子４）をコードする遺伝子；
から選択され、そしてこのモジュールがこれら２つのモジュールに陰性ベクトルを有することにより患者から移植拒絶を同定するために使用される方法。
以下のステップを含む、疾患分析ツールのためのデータを取得する方法；
からなる群から１又は複数の遺伝子モジュールを選択するステップ、及び、自己免疫疾患、ウイルス感染、バクテリア感染、癌および移植拒絶を識別するために、患者から、モジュール内の前記各遺伝子のデータを取得するステップであって、
前記の選択されるモジュールが：
形質細胞：免疫グロブリン鎖（ＩＧＨＭ，ＩＧＪ，ＩＧＬＬ１，ＩＧＫＣ，ＩＧＨＤ）および形質細胞マーカーＣＤ３８をコードする遺伝子；および
血小板：血小板糖タンパク質（ＩＴＧＡ２Ｂ，ＩＴＧＢ３，ＧＰ６，ＧＰ１Ａ／Ｂ）、および血小板由来免疫メディエーターＰＰＰＢ（プロ−血小板塩基性タンパク質）およびＰＦ４（血小板因子４）をコードする遺伝子；
から選択され、そしてこのモジュールがこれら２つのモジュールに陰性ベクトルを有することにより患者からインフルエンザ感染を同定するために使用される方法。
１又は複数の転写モジュールの代表である遺伝子の組み合わせを含んでなるカスタマイズされた遺伝子アレイを含んでなる予知遺伝子アレイであって、前記カスタマイズされた遺伝子アレイと接触する患者のトランスクリプトームが、前記転写モジュールに合った１又は複数の疾患または状態の予知であり、
前記転写モジュールが、
疾患または状態毎に合う各クラスターからそのモジュールについての遺伝子を選択し；
前記選択した遺伝子を分析から除き；そして
疾患の遺伝子について、遺伝子発現値を選択する工程を繰り返すことにより、１又は複数の転写モジュールに関する遺伝子発現値を反復して選択し；そして
すべての遺伝子クラスターが使用し尽されるまで、各クラスターについてモジュールの作成を繰り返し反復する、ことにより事前に得られる
上記予知遺伝子アレイであって、
から選択される１又は複数のサブモジュールを含んでなる３つの転写モジュールに組織化され、そしてモジュールの１又は複数の遺伝子に特異的に結合するプローブを含むアレイ。