JP4726177B2

JP4726177B2 - ニューラルネットワークを使用して治療薬耐性を予測し、そして薬剤耐性の遺伝的基礎を定めるための方法およびシステム

Info

Publication number: JP4726177B2
Application number: JP2002502695A
Authority: JP
Inventors: ラーダー，ブレンダン; ワング，デチヤオ
Original assignee: ビルコ・ビーブイビーエイ
Priority date: 2000-06-08
Filing date: 2001-06-01
Publication date: 2011-07-20
Anticipated expiration: 2021-06-01
Also published as: US20030190603A1; ES2334011T3; ATE445883T1; CA2415832C; WO2001095230A3; EP1352356B1; EP1352356A2; AU6752001A; DE60140211D1; CA2415832A1; WO2001095230A2; JP2004523725A; AU785353B2

Description

【０００１】
（技術分野）
本発明はニューラルネットワークに遺伝子型および表現型耐性情報を応用することにより、治療薬に対する疾患の耐性を予測する方法およびシステムに関する。さらに本発明は疾患に罹っている患者の遺伝子型に基づき、患者の治療薬処置による養生法を設計するための方法およびシステムに関する。本発明の別の観点下では、患者が遺伝子疾患を発症する確率を予測するための方法およびシステムを提供する。さらに別の本発明の観点では、治療薬耐性の遺伝的基礎を定めるためにニューラルネットワークを使用する方法およびシステムを提供する。より具体的には本発明はそのような方法およびシステムにおける生物情報科学、分子生物学および生化学的道具の使用に関する。
【０００２】
ウイルス耐性の発生と臨床的進行との間の相関を示唆する最初の報告の発行から、治療薬に対する病原体または癌細胞の耐性を決定するための技術が治療薬の処方の臨床的研究に益々取り込まれるようになった。引用により本明細書に編入するBrendan Larder et al.,治療に関するHIV 耐性および連座（HIV Resistance and Implication for Therapy)(1998)。しかし治療薬耐性の複雑性は、治療薬耐性を決定または正確に予測することを難しくする。より多くの薬剤および治療が選択できるようになると、治療薬耐性の試験は病原体感染または癌の管理および処置に重要な役割を果たすと期待される。
【０００３】
これらすべての方法は、治療薬耐性を測定するために２つの一般的な方法、すなわち表現型試験および遺伝子型試験を使用する。表現型試験は特定の治療薬に対する患者の病原体または癌細胞の実際の感度を直接測定し、一方遺伝子型の耐性試験は特定の治療薬（１つまたは複数）に対して耐性を付与する病原体または癌細胞中の特異的な遺伝的突然変異または突然変異のパターンの存在を調べる。表現型試験は遺伝子型試験よりも治療薬耐性の包括的かつ正確な評価となると考えられているが、表現型試験は遺伝子型試験よりも時間がかかり、そして一般に経費がかかる。表現型試験に比べ遺伝子型試験には利点があり、それらには試験を比較的簡便に、低コストで、そして速く行うことができるということを含む。しかし現在、治療薬耐性に関する意味のある結論を提供するための遺伝子型試験の結果を解釈することは依然として困難である。例えばTim Horn and Spencer Cox、HIV 薬剤耐性試験に対する現実的ガイド（No-Nonsense Guide to HIV Drug Resistance Testing)(Douglas Richman,M.D.編集、カリフォルニア大学、サンディエゴ）を参照にされたい。
【０００４】
遺伝子型試験を解釈するために多数の異なる取りセットみを現在利用でき、それらには以下を含む：
Ａ．医師による解釈
医師は各治療薬および患者の最近の処置歴に関して、主な耐性突然変異の知識に基づく最適な処置について解釈し、そして判断することができる。医師のこれらの判断を補助するために、様々な専門家のオピニオン−パネルが集められ、そして指針が公開された。例えば耐性協力グループ（Resistance Collaborative Group）はHIV-1に関するそのような指針を公開した。例えば引用により本明細書に編入するCarpenter et al.,JAMA 283(3):381-390(2000)を参照にされたい。明らかにこの種の方法は高度に主観的である。
Ｂ．規則に基づくアルゴリズム
規則に基づくアルゴリズムは、各治療薬に対する耐性に関係する突然変異を与える表を用いた上記に確認した解釈法を本質的には公式化したものである。これらは単純な印刷された表であることができ、または情報を使用して規則に基づくコンピューターアルゴリズムを開発することができる。そのような解釈システムの例は、VircoGEN(商標)Iシステム（ヴィルコ:Vircoから入手可能）であり、その技法は国際公開第97/27480号明細書に開示されている。
Ｃ．統計分析
統計分析を使用して表現型と遺伝子型を比較し、そして関連させることができた。Harrigan et al.、「多剤救済療法を処方した患者における薬剤耐性および短期ウイルス応答」；Hammer et al.,「インジナビル(ACTG372)を受容したウイルス不全患者におけるアバカビル、ネルフィナビル、エファビレンズおよびアデホビルジピボキシルの試験におけるウイルス学的成果に対する表現型および遺伝子型耐性プロフィールの関係」；Zolopa et al.、「診療所に基づくコーホートにおけるサキナビル／リトナビル救済療法に対するウイルス応答の表現型、遺伝子型および臨床／処置歴予測変数の比較」；Vingerhotes et al.,「EN45001およびCLIA認定標識下で、高い処理量の遺伝子型および表現型HIV-1耐性試験の精度および再現性」；Anton et al.,「消化管および血漿におけるHIV-1遺伝子型および表現型耐性プロフィールの比較パターン」；Hertogs et al.,「２つの遺伝子型を提供する研究所の盲検的比較分析：HIV-1プロテアーゼおよび逆転写酵素の完全配列分析」、すべてHIV薬剤耐性および処置法に関する第３回国際ワークショップ、米国、サンディエゴ、1999年6月23〜26日、これらすべては引用により本明細書に編入する。これらの方法は、表現型データが対応する遺伝子型に相関するかどうかについての情報を提供する。しかし直面する難しさは、任意の具体的サンプルの遺伝子型をその表現型と定量的に関連させることにある。HIV-1薬剤耐性突然変異パターンを解釈することは、大規模な表現型−遺伝子型データベースを使用する表現型の予測により向上した。「試験」遺伝子型を表現型耐性情報に関連させるために、一連の遺伝子型パターンを具体的な薬剤と関連させた。これらのパターンはデータベース中のすべての遺伝子型サンプルに付けられ、これにより迅速な調査を行うことができる。次いで特定の遺伝子型と合うデータベース中のサンプルの表現型を引き出し、そして各薬剤に対する耐性または感受性の比率として表すことができる。引用により本明細書に編入するLarder et al.、大規模表現型−遺伝子型関連データベースを使用した遺伝子型からのHIV-1表現型耐性の予測、HIV薬剤耐性および処置法に関する第３回国際ワークショップ、米国、サンディエゴ、1999年6月23〜26日。このシステムは実質的に保管された表現型データを突然変異パターンと合わせることにより遺伝子型が決定されたサンプルの表現型の見込みの迅速な表示を得ることを可能とする。
【０００５】
しかし遺伝子型と表現型間の関係の関数的形式はほとんど知られていないので、このことがパラメーター的モデルの取りセットみの利用を難しくしている。さらに遺伝子型突然変異パターン中の非−独立的突然変異が関与するかもしれない。これにより常法を突然変異パターンと薬剤耐性の程度との間の関数的マッピングに応用することを困難とする。
【０００６】
しかし現在、パターン認識および表現型の対合を利用した改善された合理的なデータベースが存在し、これは表現型耐性の予測において90％より高い正確さを示した。パターン認識および表現型対合システムは、ソフトウェアおよび患者のサンプル中に見いだされた突然変異の使用を通して、数千のサンプルから遺伝子型および表現型のデータベース中の対合に関する調査を実行する。サーチエンジンを使用して表現型−遺伝子型データベースを走査する。次いで特定の遺伝子型と合うデータベース中のサンプルの表現型を検索し、そして各治療薬に対する耐性または感受性の比率として表示する。この種のシステムにより実質的に保管されている表現型データを突然変異パターンと合わせることにより、遺伝子型が決定されたサンプルの表現型の見込みを迅速に得ることが可能となる。そのようなソフトウェアの例は、VirtualPhenotype(商標)(PCT/EP01/04445)である。
【０００７】
本発明は次世代のソフトウェア実行パターン認識および表現型対合システムを提供し、そしてニューラルネットワークを使用して遺伝子型および表現型情報に基づく治療薬の耐性または感受性の発生を正確に予測し、そして治療薬耐性の遺伝的基礎を正確に定める。ニューラルネットワークは多くの応用でパターン選別機として成功裏に利用された。例えば引用により開示内容を全部本明細書に編入するChristopher M.Bishop、「パターン認識のためのニューラルネットワーク」、クラレンドン（Clarendon）出版、オックスフォード、(1995)；Subirrazzuoli and Brunel,Neural Comput & Applic.5:20-32(1997)；Chow and Cho,Neural Comput & Applic.5:66-75(1997)を参照にされたい。しかし現在まで、ニューラルネットワークは治療薬の耐性または感受性を予測するために使用されたことはなかった。合理的なデータベースおよび仮想の表現型決定のような取りセットみに関して、ニューラルネットワークは正確な分析に必要な多数のサンプルについての利点、計算時間に関する利点、および特定の重要な突然変異を持たない薬剤の耐性プロフィールの予測に利点を提供することができる。
【０００８】
これらのおよび他の利点を達成するために、そして本明細書に具現し、そして広く記載する本発明の原理に従い、本発明は１つの観点においてニューラルネットワークを使用した治療薬耐性を予測するための方法およびシステムを提供する。１つの観点によれば、本発明は治療薬に対する病原体の耐性を予測する方法を提供し、この方法は；（ａ）処理された（trained）ニューラルネットワークを提供し；（ｂ）病原体に由来する定めた遺伝子配列を提供し；そして（ｃ）定めた遺伝子配列および処理されたニューラルネットワークを使用して治療薬に対する病原体の耐性を予測することを含んで成る。
【０００９】
さらに本発明は治療薬に対する疾患の耐性を予測する方法を提供し、この方法は：（ａ）処理されたニューラルネットワークを提供し；（ｂ）疾患に由来する定めた遺伝子配列を提供し；そして（ｃ）定めた遺伝子配列および処理されたニューラルネットワークを使用して治療薬に対する疾患の耐性を予測することを含んで成る。
【００１０】
さらに本発明て提供するのは、治療薬に対する病原体の耐性を予測する方法であり、この方法は：（ａ）ニューラルネットワークを提供し；（ｂ）処理データセットでニューラルネットワークを処理し、ここで処理データセットの各メンバーは、治療薬耐性における変化に相関する遺伝子突然変異に対応し；（ｃ）病原体に由来する定めた遺伝子配列を提供し；そして（ｄ）病原体の定めた遺伝子配列および処理されたニューラルネットワークを使用して、治療薬に対する病原体の耐性を予測することを含んで成る。
【００１１】
また本発明は、治療薬に対する疾患の耐性を予測することができる処理されたニューラルネットワークを提供し、ここで処理されたニューラルネットワークは：（ａ）１セットの入力ノード（ここで入力ノードのセットの各メンバーは、疾患のゲノム中の突然変異に対応し）；（ｂ）１セットの出力ノード（ここで出力ノードのセットの各メンバーは疾患を処置するために使用する治療薬に対応する）を含んで成る。
【００１２】
別の態様では本発明は、疾患に罹っている患者のための治療薬処置による養生法の設計法を提供し、この方法は：（ａ）疾患に由来する定めた遺伝子配列を提供し；（ｂ）定めた遺伝子配列を処理されたニューラルネットワークに入力し；（ｃ）定めた遺伝子配列および処理されたニューラルネットワークを使用して治療薬に対する疾患の耐性を予測し；そして（ｄ）予測された薬剤耐性を使用して、疾患に罹っている患者を処置するために治療薬処置による養生法を設計することを含んで成る。
【００１３】
さらなる態様下では本発明は、患者が遺伝子疾患を発症する確率を予測する方法を提供し、この方法は：（ａ）ニューラルネットワークを提供し；（ｂ）患者サンプルに由来する定めた遺伝子配列を提供し；そして（ｃ）定めた遺伝子配列および処理されたニューラルネットワークを使用して、患者が遺伝子疾患を発症する確率を測定することを含んで成る。
【００１４】
本発明の別の態様は、治療薬に対する耐性を付与する新規突然変異の同定法を提供し、この方法は：（ａ）第１の処理されたニューラルネットワークを提供し、ここで第１の処理されたニューラルネットワークの入力ノードの数は、治療薬に対して治療的耐性を付与することが知られている突然変異の数に等しく；（ｂ）第２の処理されたニューラルネットワークを提供し、ここで該第２の処理されたニューラルネットワークの入力ノードの数は、治療薬に対して治療的耐性を付与することが知られている突然変異に加えて少なくとも１つの突然変異を含んで成り；（ｃ）試験データセットを提供し；（ｄ）試験データセットを第１および第２の処理されたニューラルネットワークに入力し；（ｅ）第１および第２の処理されたニューラルネットワークの出力を比較して、さらなる突然変異が疾患に対する治療薬耐性を付与するかどうかを定めることを含んで成る。上記の態様は例として役立ち、網構造は新規な突然変異または突然変異プロフィールの同定に２つの異なるニューラルネットワークを必ずしも必要としないと考えるべきである。
【００１５】
本発明の別の態様は、治療薬耐性を研究する方法を提供し、この方法は：（ａ）野生型遺伝子を突然変異させて本発明のニューラルネットワークを使用して同定される突然変異を含む突然変異体を作成し；（ｂ）治療薬の存在下で突然変異体遺伝子を培養し；（ｃ）治療薬の存在下で野生型遺伝子を培養し；（ｄ）野生型遺伝子の成長に対して突然変異体遺伝子の成長を比較することを含んで成る。
【００１６】
本発明の別の態様は、治療薬耐性を研究する方法を提供し、この方法は：（ａ）野生型ウイルスまたは細菌を突然変異させて本発明のニューラルネットワークを使用して同定される突然変異を含む突然変異体ウイルスまたは細菌を作成し；（ｂ）治療薬の存在下で突然変異体ウイルスまたは細菌を培養し；（ｃ）治療薬の存在下で野生型ウイルスまたは細菌を培養し；（ｄ）野生型ウイルスまたは細菌の成長に対して突然変異体ウイルスまたは細菌の成長を比較することを含んで成る。
【００１７】
さらなる態様では本発明は、処理されたニューラルネットワークを使用して治療薬に対する疾患の耐性を予測する方法をコンピューターに行わせるための指令を含むコンピューターが読み取り可能な媒体を提供し、その方法は：疾患に由来する少なくとも１つの定めた遺伝子配列を受け取り；そして少なくとも定めた１つの遺伝子配列および処理されたニューラルネットワークを使用して、治療薬に対する疾患の耐性を予測することを含んで成る。
【００１８】
また本発明は、治療薬に対する疾患の耐性を予測する方法を行うためのニューラルネットワークをコンピューターに提供させるための１セットのプログラム指令を含むコンピューターが読み取り可能な媒体も提供し、１セットのプログラム指令が：疾患に由来する少なくとも１つの定めた遺伝子配列を受け取るための手段；および少なくとも１つの定めた遺伝子配列および処理されたニューラルネットワークを使用して、治療薬に対する疾患の耐性を予測する手段を含んで成る。
【００１９】
前述の一般的説明および以下の詳細な説明の両方は、例および説明のためのみであり、そして特許請求するように本発明を限定するものではないと理解すべきである。さらなる特徴および／または変更を、本明細書に記載したものに加えて提供することができる。例えば本発明は開示した特徴の種々のセットみ合わせおよびセットみ合わせの一部、および／または以下の詳細な説明に開示するさらなる特徴のセットみ合わせまたはセットみ合わせの一部を対象とすることができる。
【００２０】
発明の詳細な説明
長年、多くの患者が処置の失敗または効力の低下を経験している。多くの場合で、これは病原体または悪性または炎症細胞のような病んだ細胞のゲノム中の突然変異によるものであり、これは治療薬に対する耐性の発生をもたらす。別の場合では、治療薬による選択が治療薬に対して既に存在する耐性を有する病原体または癌細胞の変異体の蓄積または増殖をもたらす。したがって患者の疾患状態を監視し、そして処置の失敗または効力の低下が生じた時には治療的養生法を変える必要がある。本明細書で使用する用語「疾患」または「疾患を生じる作用物質」は両方とも、例えば病原体の感染または癌細胞の複製から生物に病理的状を引き起こす核酸、タンパク質、病原体、または例えば癌細胞、増殖性細胞、炎症細胞および突然変異した神経細胞のような任意の突然変異した細胞のような病んだ細胞を称する。
【００２１】
本発明は治療薬に対する病原体または癌細胞の耐性を予測する遺伝的枠セットを記載する。本発明の遺伝的枠セットをさらに使用して、治療薬に対して耐性を付与する挿入および欠失を含む突然変異または突然変異パターンを同定することができる。突然変異という用語の使用には、遺伝的多形も含むと理解される。遺伝子型の決定法および表現型の決定法に対するバイオインフォマティックツールを使用することにより、本発明は病原体または癌細胞における遺伝子型の突然変異に基づき、治療薬に対する患者の病原体または癌細胞の耐性を正確に予測する。最初に治療耐性が予測される疾患が選択される。疾患を選択した後、治療耐性の遺伝子型−表現型データベースが配置または作成される。この情報を使用して、ニューラルネットワークが形成され、そして処理される。処理された網を使用して、患者の疾患に由来する遺伝子情報に基づき治療薬耐性を予測することが可能である。
【００２２】
本発明の１つの態様では、タンパク質または核酸の発現レベルを使用する。
【００２３】
応用の幅およびその耐性試験に関する可能な用途の観点において、薬剤プロファイリング、診断、突然変異の異なる形態が説明されるべきである。これらの突然変異の型は遺伝的または後成的な突然変異を含む。遺伝的変化には、（i）１ヌクレオチド多形、塩基の転位、転換、置換のような塩基の置換、および（ii）挿入、反復および欠失のようなフレームシフト突然変異を包含する。さらにこれに対して、マイクロサテライトは本発明を実施するために有用である。癌の病因に及ぼす突然変異の影響は、腫瘍抑制遺伝子p53（他の腫瘍抑制遺伝子は、TGF-ベータ、NF-1、WT-1、Rbである）の効果に影響を及ぼす突然変異により例示することができる。あるいは癌遺伝子（１つの癌遺伝子の例はRasであり、他の癌遺伝子はc-myc、c-raf、neu、IL-2）、修復遺伝子（例えばメチルグアノシルメチルトランスフェラーゼ）中に存在する突然変異は、表現型および／または薬剤効果に変化を生じることができる。
【００２４】
外遺伝的変化（epigenetic change）には核酸の改変、例えば核酸のメチル化を包含する。疾患および健康におけるメチル化の法則は、Fragile X およびRett症候群のような種々の症候群におけるメチル化の影響により最近示された。メチル化は疾患状態に影響を与えるだけでなく、薬剤のプロファイリングにも影響を及ぼすと考えるべきである（Esteller M.et al.New England Journal of Medicine,2000、Vol343:19、p1350−1354.「DNA修復遺伝子MGMTの不活性化およびアルキル化剤に対するグリオーマの臨床的応答」）。
【００２５】
別の態様では、本発明の遺伝的枠セットを使用して患者における遺伝子疾患の発症を予測することができる。本明細書で使用する「遺伝子疾患」という用語は、遺伝子突然変異に直接的または間接的に相関する任意の病理的状態を称する。この態様下で、遺伝子疾患の発症に相関する遺伝子突然変異の表現型−遺伝子型データベースが配置または作成される。このデータベースからのデータを使用して、ニューラルネットワークが処理される。患者の遺伝子情報からサンプルの遺伝子型を決定する。患者の定めた遺伝子情報を処理されたニューラルネットワークに入力することにより、上記疾患を発症する患者の確率について予測をすることができる。本発明のこの態様を使用して、遺伝子突然変異に関係する任意の遺伝子疾患の発症の確率を測定することができる。
【００２６】
したがって本発明は臨床医が患者の疾患状態を監視し、そして病原体のまたは癌細胞の既存の、または発生した治療薬耐性に基づき、治療薬または治療薬のセットみ合わせを正しく処方するための能力においてパラダイムシフトを表し、これにより最も効果的に患者の疾患状態を処置する。
【００２７】
本発明は標的配列が既知であるならば、任意の病原体または癌細胞の治療薬耐性を予測することができる。本明細書で使用する病原体は、任意の疾患を生じる微生物を称し、それらには細菌、ウイルス、藻類、菌類、酵母および原生動物を含む。本明細書で使用する癌細胞は、退生、浸潤および転移の特性を有する細胞を称する。
【００２８】
本発明は疾患を生じるウイルスの治療薬耐性の予測に特に応用を有する。具体的には、本発明は１および２型ヒト免疫不全ウイルス（HIV）、１および２型単純ヘルペスウイルス（HSV）、ヒトパピローマウイルス、Ｂ型肝炎ウイルス（HBV）、Ｃ型肝炎ウイルス（HCV）、サイトメガロウイルス（CMV）、ラウス肉腫ウイルス（RSV）およびエプスタイン−バーウイルス（EBV）の耐性を予測することができる。本発明はさらに、マイコバクテリア種（mycobacterium sp.）、サルモネラ種（salmonella sp.）、エシェリキア種（eschericia sp.)およびストレプトコッカス種（streptococcus sp.)のような疾患を生じる細菌における治療薬耐性の予測に応用を有する。
【００２９】
処置設計の中には１つの治療薬を使用するものもあるが、今日、より典型的には上記の疾患状態を処置するために治療薬の併用を使用する。本明細書で使用する「治療薬」は病原体または癌細胞を処置するために使用される任意の動物、植物、鉱物または医薬的物質を称する。「医薬的物質」という用語は、医薬的化合物、タンパク質、DNA（アンチセンスDNAを含む）、RNAを称すると考えられる。核酸およびペプチド化合物は、当業者には既知の非天然アミノ酸または塩基を含むことができると理解される。核酸およびペプチド化合物に加えて、当該技術分野では既知な非天然の塩基結合またはペプチドを含むことができる。治療薬の併用を使用し、そして耐性が発生した時、臨床医はどの治療薬が疾患状態を処置するためにもはや効果的でないのか分からないことが多い。治療薬耐性は既存であるか、または１以上の治療薬への長期暴露により発生し得る。したがって、治療薬は異なる化合物の併用も含んで成ると考えるべきである。
【００３０】
今日でも臨床医は上記の病原体または癌細胞を処置するために利用できる限られた数の治療薬しか持たないので、治療薬耐性の発生は特に問題となる。すなわち臨床医は現在投与しているすべての治療薬を新たな治療薬のセットに単に代えることはできない。例えば、完全に新たな処置設計に現行の処置設計を置き換えることにより、臨床医は効果的な治療薬を捨てるかもしれない。また臨床医は併用療法で投与している各治療薬を連続的に置き換えることはできない。さらに特定の治療薬に耐性を表す病原体または癌細胞は、他の治療薬に対して変動する交差耐性を表すことが普通である。
【００３１】
さらにすべの突然変異が耐性を生じるわけではない。例えば突然変異は病原体まは癌細胞が所定の治療薬に対してより感受性となることを生じる可能性がある。また突然変異は以前は耐性であった治療薬に対する病原体または癌細胞に対して薬剤感受性を回復することができる。
【００３２】
疾患状態を連続して監視することにより、臨床医はより効果的な治療薬を処方して患者を処置できるかどうかも評価することができるだろう。本発明は病原体または癌細胞における治療薬感受性の発生を検出するためにも等しく使用することができると考えられる。治療薬耐性という用語を使用することにより、この用語は治療薬に対する病原体または癌細胞の感受性の上昇および低下の両方を含むと理解される。
【００３３】
したがって本発明は、併用治療薬処置による養生法の効果を監視することに特に応用を有する。病原体または癌細胞の遺伝子型情報を監視することにより、臨床医はより正確に本処置養生法の効果を評価することができ、そして耐性または感受性が発生すれば適切な代替治療薬（１つまたは複数）を処方することができる。
【００３４】
本発明はしばしばヒト患者の処置という意味で述べるが、本発明は任意の動物に疾患状態を生じる病原体または癌細胞の治療薬耐性を測定するために応用することができると考えられる。
【００３５】
いったん本発明のニューラルネットワークを使用して新規な突然変異（１つまたは複数）または突然変異パターンが同定されれば、当業者は野生型の疾患の突然変異体の形を構築することができる。次いで当業者は野生型の疾患の突然変異体の形を使用して治療薬耐性を研究することができる。本態様を限定するわけではないが例として、当業者は通常は治療薬に対して感受性のウイルスまたは細菌の野生型株上に部位特異的な突然変異を誘発させて、その突然変異が治療薬耐性に及ぼす効果を研究することができる。部位特異的突然変異誘発法は、本発明のニューラルネットワークを使用して同定する少なくとも１つの突然変異を、野生型ウイルスまたは細菌に作成することができるだろう。次いで突然変異体ウイルスまたは細菌を治療薬の存在下で培養し、そして突然変異体ウイルスまたは細菌の成長を、治療薬の存在下での野生型ウイルスまたは細菌の成長に対して測定する。次いで成長率における任意の差異は、ニューラルネットワークにより同定される突然変異に起因し得る。
Ａ．遺伝子型の決定法
遺伝子型の決定法は、サンプル中の遺伝子情報の中に挿入および欠失を含む特別な遺伝子の変化または突然変異を検出する。本発明の１つの態様下では、遺伝子型の決定法を使用して治療薬耐性に関連することが知られている病原体または癌細胞中の挿入および欠失を含む特別な遺伝子の変化または突然変異を検出する。本明細書で使用するように「ゲノム」という用語は、病原体または癌細胞から単離された任意のDNAまたはRNAを称する。すなわちゲノムという用語には、例えば染色体DNA、染色体外DNA（プラスミドDNA、ミクロサテライトDNAおよびミトコンドリアDNAを含む）、メッセンジャーRNA（mRNA）、ウイルスがコードするDNAまたはRNA等を含む。これらの突然変異は病原体または癌細胞を治療薬に対してより感受性またはより耐性とすることができる。
【００３６】
本発明の別の態様下では、遺伝子型の決定法を使用して患者のゲノム中の挿入および欠失を含む特別な遺伝子の変化または突然変異を検出する。好ましくは本発明の遺伝子型の決定法を使用して、遺伝子疾患の発症と相関する突然変異を検出する。すべての突然変異が遺伝子疾患と直接相関するわけではないと考えられる。鎌状細胞貧血は、遺伝子疾患と直接相関する遺伝子突然変異の例である。しかしほとんどの突然変異は、遺伝子疾患と間接的に相関している。これらの突然変異は一般に、患者が突然変異に関係する遺伝子疾患を発症する罹患率を上昇させるが、中の突然変異の存在およびそれ自体が遺伝子疾患の発症に決定的ではない。本発明は突然変異（１つまたは複数）に間接的に相関する遺伝子疾患の発症の予測にも特別な応用を有すると考える。
【００３７】
遺伝子型の決定は、表現型の決定を行うよりも簡便であり、しかも経費が低い。１つの欠点は結果を解釈することが困難な点である。遺伝子型の決定はそれ自体に関する耐性の測定ではなく−耐性は遺伝子型の情報から推定することができるが、これには本明細書に記載するような方法を使用して洗練された解釈が必要であるということに注目することが重要である。
【００３８】
遺伝子型の解釈は難しく、しかも洗練された取りセットみを要する。統計的方法は、解決すべき問題、すなわち突然変異（１つまたは複数）と薬剤の効力との関係が複雑になれば、精度が下がる難点がある。そのような問題は、例えば感染性疾患および悪性の処置中の場合のように、複雑な遺伝子型パターンが単剤療法または併用療法に関連している場合によく遭遇する。処置時または処置を受けていない条件のいずれであっても疾患を生じる原因に見いだされる遺伝子型プロフィールと、可能な治療との間の複雑な関連性は、ニューラルネットワークにより達成することができる。ニューラルネットワークは通例の統計的分析よりも正確に耐性の計算を可能とする。
【００３９】
遺伝子変化を検出することができる任意の方法を本発明では使用することができると考えられる。さらにこれらの遺伝子変化はサンプルから単離した任意のDNAまたはRNA中に検出することができる。加えて、遺伝子変化はサンプルから調製したcDNA中に検出することができる。
【００４０】
サンプルは、任意の多数の「侵入的（invasive）」または「非侵入的（non-invasive）」サンプリング手段を使用して分析すべき種の個体から得ることができると考える。サンプリング手段は、血液採取、精液採取、針生検、胸膜吸引等のような患者の皮膚または器官内からのサンプル採取が関与する場合、「侵入的」と言う。対照的に「非侵入的」サンプリング手段は、サンプルが綿棒で採取され、涙、唾液、尿、便材料、汗または呼気、導管洗浄液の採取のような患者の内または外表面から回収する手段である。
【００４１】
本発明の１態様下では、サンプルが回収された後、サンプルに含まれる病原体または癌細胞からDNAまたはRNAが単離される。患者のサンプルからDNAまたはRNAを単離する技法は当業者には既知であり、そして引用により本明細書に編入するSambrook et al.、モレキュラークローニング：アラボラトリーマニュアル（Molecular Cloning ： A Laboratory Manual）、第１〜３巻、第２版、コールドスプリングハーバーラボラトリー出版(1989)に完全に記載されている。次いで遺伝子型情報が単離されたDNAまたはRNAから決定される。あるいは遺伝子型情報は、サンプル内に含まれる病原体または癌細胞から直接決定することができる。本明細書で使用する定めた遺伝子配列とは、配列が全部または一部、好ましくは本発明の遺伝子型の決定法の１つを使用して決定されたサンプルから得た任意のDNAまたはRNAを称する。遺伝子配列を決定するために適する２つの好適な技法は、ハイブリダイゼーションに基づく点突然変異アッセイおよびDNAシークエンシングである。
【００４２】
ハイブリダイゼーションに基づく点突然変異アッセイは、個々の既知の突然変異について調査する。これらの方法は高度に特異的であるが、点突然変異アッセイはこれらの既知の突然変異の画分のみを検出すると報告されている。例えばStuyver et al.,Antimicrob.Agents Chemotherap.41:284-291(1997)を参照にされたい、したがって耐性図の小さい選択された部分を提供できるだけである。本発明での使用に適する通常の点突然変異アッセイには、限定するわけではないが、プライマー−特異的ポリメラーゼ連鎖反応（PCR)(例えばLarder et al.,AIDS 5:137-144(1991)を参照にされたい）；ディファレノシャルハイブリダイゼーション（例えばEastman et al.,J.Acquir.Immune Defic.Syndr.Human Retrovirol.9:264-273(1995)を参照にされたい)；ラインプローブアッセイ（LiPA(商標)、イノジェネティックス（Innogenetics）(Larder et al.,AIDS 5:137-144(1991)；Stuyver et al.,Antimicrob.Agents Chemother.41:284-291(1997)、および遺伝子チップシークエンシング（例えばFodor,Nature 227:393-395(1997)；米国特許第5,925,525号、同第5,861,242号および同第5,834,758号明細書を参照にされたい）を含む。これらすべての参考文献は、引用により本明細書に編入する。突然変異を決定するための他のアッセイも利用できるようになった、例えばInvader(商標)アッセイ（サードウェイブテクノロジーズ社：Third Wave Technologies Inc.)、WAVE(商標)DNAアッセイ（トランスジェノミック社：Transgenomic Inc.)、マススペトクロメトリー（Jackson P.,et al.,Molecular Medicine Today 6,271-276,(2000))および表面プラズモン共鳴（Nakatani,K.et al.,Nature Biotechnology 19(1),18-19,(2001)。ゲルに基づくおよび非ゲルに基づく分析を含んで成る現在利用される突然変異法の概観は、Shi,M.Clin,Chem.2001,(47:2)164-172に調査されている。
【００４３】
DNAシークエンシングは、配列決定したRNAまたはDNAの領域中のすべてのヌクレオチドに関する情報を提供する。２つの主な種類のDNAシークエンシング法、いわゆるチェーン−ターミネーション法および化学的シークエンシングが存在する（例えばSanger and Coulson,J.Mol.Bio.94:441-448(1975)、Maxam and Gilbert,Methods Enzymol.65:499-560(1980)を参照にされたい、両方とも引用により本明細書に編入する）。別のシークエンシング法、例えば質量分析が開発された。好ましくはサンプルに由来する遺伝情報のセグメントまたは部分のみを使用して突然変異を検出する。しかしサンプルの全ゲノムを使用して突然変異を検出することができると理解される。本明細書で使用する「突然変異」という句は、限定するわけではないが挿入および欠失を含む、野生型サンプル中の同じ位置または場所の遺伝子配列と比較して、サンプル中のヌクレオチド配列の特別な遺伝子変化を言う。遺伝子突然変異は通常、野生型に対して記入され、すなわちK101Nはコドン101のリシンのアスパラギンへの置換を称する。しかし本発明の突然変異は本発明の実施内にあるために、挙げた野生型の例には依存しない。例えば突然変異101Nは、突然変異前に101にリシンがあるかどうかに拘わらず、101コドンでのアスパラギンを称する。
【００４４】
本発明の１態様下では、薬剤耐性をもたらす突然変異を蓄積することが知られている、または考えられている遺伝子情報のセグメントまたは部分を選択することが好ましい。別の態様の下では、疾患の発症に相関する突然変異を蓄積することが知られている、または考えられている患者のサンプルから遺伝子情報のセグメントまたは部分を選択することが好ましい。一般にこれらのセグメントは酵素またはタンパク質をコードする遺伝子の遺伝子またはフラグメントである。一般にこれらのタンパク質は細胞膜と会合している。例えばHIVでは、薬剤耐性をもたらす突然変異を蓄積することが知られている遺伝子には、例えばポリメラーゼ遺伝子、プロテアーゼ遺伝子、包膜タンパク質および逆転写酵素遺伝子を含む。本発明の実施について興味深いさらなるHIV遺伝子は、例えばTAT、ref、nef、インテグラーゼgp41、gp120である。Ｂ型肝炎から、DNAポリメラーゼコアのような以下の遺伝子。Ｃ型肝炎から、コア、E1、E2、p7、NS2、NS3、NS4A、NS4B、NS5A、NS5Bとしての遺伝子。腫瘍生物学から、HER2、EGF-受容体、raf、p53、Bcr-Abl、Bcl2およびAPCのような疾患状態に関連した種々の遺伝子がすでに同定された。遺伝子中の突然変異の効果は、例えばraf、p53、Bcl2およびAPCについて記載されている。
【００４５】
どの方法を使用するかに依存して、生じる突然変異の幾つかまたはすべてを同定する。しかし種々の治療薬に対する病原体または癌細胞群の感受性に及ぼすこれらの突然変異の正味の効果が何であるかの予測には洗練された解釈を要する。例えばインビボまたはインビトロ選択を通して生成した耐性ウイルス単離物の徹底的な遺伝子分析により、耐性は一般にゲノムの幾つかの特異的部位（１つまたは複数）でヌクレオチド配列を改変させる突然変異により生じることが明らかとなった。それから医師によりこの情報が患者に関する他のすべての情報とセットみ合わせられ、そしてこれらすべてがそれら個々の患者の処置のための薬剤の選択という意味で何を意味するのかが決定される。
【００４６】
HIV-1に関して観察され、そして報告され、そして薬剤耐性と相関する突然変異のパターンは大変多様である：幾つかの抗レトロウイルス剤には１つの遺伝子変化のみが必要であり、一方他には耐性が現れるために多数の突然変異を要する。HIV-1では、HIV-1治療薬耐性の発生に関与すると考えられている現在約100の突然変異がある。そのような１例はN88Sであり、これはインビトロでアンプレナビルに対する過敏症を引き起こす。例えばZiermann et al.,J.Virol.74(9):4414-9(2000)を参照にされたい。薬剤耐性に相関するHIVゲノム中の突然変異のまとめが報告された。引用により本明細書に編入するSchinazi et al.,Int.Antiviral News.5:129-142(1997)。さらに突然変異を含む電子的一覧も、http://hiv-wwb.lanl.gov;http://hivdb.stanford.edu/hiv/;またはhttp://www.viral-resistance.com.で利用できるようになった。
【００４７】
これらの点突然変異、欠失および挿入と実際の治療薬に対するHIV-1の感受性との間の関係は大変複雑であり、そして相互作用性である。例えばHIV-1中のM184V突然変異は3TCに対する耐性を付与しAZT耐性を逆転する。例えば引用により本明細書に編入するLarder et al.,Science 269:696-699(1995)を参照にされたい。しかし333D/E突然変異はこの効果を逆転し、そして二重AZT/3TC耐性を導くことができる。例えば引用により本明細書に編入するKemp et al.J.Virol.72(6):5093-5098(1998)を参照にされたい。
【００４８】
HIV-1の遺伝子型を決定した時、好適な遺伝子型の決定法はVircoGEN(商標)遺伝子型試験（ヴィルコ）である。VircoGEN(商標)は、シークエンシング法を使用して患者のHIV-1ウイルス群のプロテアーゼ−逆転写酵素(PR-RT)で起ったすべての既知の耐性突然変異を同定する、遺伝子型を決定するアッセイである。これは治療薬耐性の遺伝的指標に基づく間接的測定である。
【００４９】
遺伝子型データの解釈は、複雑であり、しかも理論的に重要である。より多くの治療薬が開発され、そしてより多くの突然変異が治療薬耐性の発生と相関すると、この複雑さは増すだろう。
Ｂ．表現型の決定法
表現型の決定法は、研究室で病原体または癌細胞が種々の治療薬（１つまたは複数）の存在下で成長する能力を測定する。これは通常、IC₅₀またはIC₉₀値における倍率の変化（hold-change）として表される（IC₅₀またはIC₉₀値は、それぞれ50％または90 ％の群の複製を阻止する治療薬濃度である）。高度に耐性な病原体または癌細胞は、例えばIC50において50または100-倍の上昇を示すかもしれない。
【００５０】
表現型の決定は感受性の直接測定であり、既知または未知のすべての突然変異が治療薬の存在下で病原体または癌細胞の挙動に及ぼす効果および相互作用を反映する。病原体または癌細胞が種々の治療薬（１つまたは複数）の存在下で成長する能力における変化を測定できる任意の方法を本発明で使用することができる。病原体または癌細胞の表現型を決定するそのような方法は、当業者には知られている。
【００５１】
例えば細菌の表現型を決定する方法は、すべて引用により本明細書に編入されるGuoming et al.,Sex/Transm.Dis.27(2):115-8(2000)、Lozano-Chiu et al.,Diagn.Microbiol.Infect.Dis.31(3):417-24(1998)、Iwen et al.,J.Clin.Microbiol.34(7):1779-83(1996)に記載されている。
【００５２】
さらなる具体的例としてウイルスの表現型を決定する方法には、限定するわけではないが、プラーク減少アッセイ、PBMC p24成長阻害アッセイ（例えばJapour et al.,Antimicrob.Agents Chemother.37:1095-1101(1993)；Kusumi et al.,J.Virol.66:875-885(1992)を参照にされたい）、セット換えウイルスアッセイ（例えばKellam & Larder,Antimicrob.Agents Chemother.38:23-30(1994)；Hertogs et al.,Antimicrob.Agents Chemother.42:269-276(1998)を参照にされたい）、すべて引用により本明細書に編入する：抗-ウイルスインヒビターの感度を評価するためのマーカーとしてGFPの使用（Marschall et al.,臨床および分子ウイルス学研究所（Institute of Clin.and Mol.Virol)、アーランガー−ニュルンベルグ大学、シュロブガルテン、独国）；および細胞培養アッセイ（Hayden et al.,N.Eng.J.Med.321:1696-702(1989)、引用により本明細書に編入する）を含む。
【００５３】
さらに別の具体的説明例として、癌細胞の表現型を決定する方法には限定するわけではないが、フローサイトメトリーアッセイ（例えば両方とも引用により本明細書に編入するPallis et al.,Br.J.Haematol.1042(2):307-12(1999)；Huet et al.,Cytometry 34(6):248-56(1998)を参照にされたい）、蛍光顕微鏡（例えば引用により本明細書に編入するNelson et al.,Cancer Chemother.Pharmacol.42(4):292-9(1998)を参照にされたい）、カルシウム蓄積法（引用により本明細書に編入する例えばHomolya et al.,,Br.J.Cancer.73(7):849-55(1996)を参照にされたい）、およびATP発光アッセイ（引用により本明細書に編入する例えばAndreotti et al.,Cancer Res.55(22):5276-82(1995)を参照にされたい）を含む。
【００５４】
１つの好適態様下では、本発明で採用する表現型の決定法は、検出エンハンサーを使用する。本明細書で使用する「検出エンハンサー」またはドメインは、共鳴、着色、発色、免疫原性、蛍光、発光または放射性プローブであることができる。１つの態様では、検出部分には引用により本明細書に編入する米国特許第5,776,675号明細書に記載されているヘテロロガスなレポーターシステムのような転写調節物質を包含する。
【００５５】
本発明の１態様では、検出エンハンサーは蛍光共鳴エネルギー転移（FRET）システムの１以上の成分を含んで成ることができる。そのような観点を使用して、高処理量スクリーニングアッセイを設計してもよい。FRETは励起したフルオロホア（共鳴供与体）がその励起状態エネルギーを光吸収分子（吸収受容体）に移すプロセスである。検出エンハンサーはHIV-1の表現型の決定に成功裏に使用されてきた。すべて引用により本明細書に編入するPauwels et al.,J.Virol..Methods 20:309-321(1998):Paulous et al.,HIVの薬剤耐性、処置法および根絶に関する国際ワークショップ（International Workshop on HIV Drug Resistance,Treatment Strategies and Eradication)、セントペテルスブルグ、フロリダ、米国。要約46(1997)；およびDeeks et al.,HIVの薬剤耐性および処置法に関する第２回国際ワークショップ（2nd International Workshop on HIV Drug Resistance and Treatment Strategies)、マジョーレ湖、イタリア。要約53(1998)。
【００５６】
１つの好適な態様下では、既知の各遺伝子型突然変異を病原体または癌細胞の表現型の薬剤耐性における変化と相関させるために、表現型−遺伝子型データベースを作成する。そのようなデータベースを作成することにより、ニューラルネットワークのための初期セットアップ時間が実質的に減少され、そのようなデータベースからの情報を使用して本発明のニューラルネットワークを処理および試験する。特定の状況では、そのような表現型−遺伝子型データベースはすでに作成された。しかし本発明は現在、ニューラルネットワークの樹立および処理を含む表現型−遺伝子型データベースを確立することにより実施することができると考えられる。
【００５７】
本発明の別の好適な態様下では、既知の遺伝子型突然変異を遺伝子疾患の発症と相関させる表現型−遺伝子型データベースを開発する。好ましくは遺伝子型突然変異は、遺伝子疾患の発症と間接的に相関している。遺伝子疾患の発症と相関する遺伝子型突然変異は、一般に当業者には知られている。例えばp53遺伝子中の突然変異は、多数の遺伝子疾患の発症と相関する（Gallagher et al.,Ann.Oncol.10:139-50(1999)；Lenz et al.,Clin.Cancer Res.4:1243-50(1998)；Trepel et al.,Leukemia 11:1842-1849(1997)；Iwadate et al.,Int.J.Cancer 69:236-40(1996)、すべて引用により本明細書に編入する）。同様に、そして具体的説明として、多くの疾患が遺伝子突然変異と関連し、それらには甲状腺疾患（引用により本明細書に編入するFinke,Exp.Clin.Endocrinol.Diabetes 104 Suppl.4:92097(1996))；アルツハイマー病（引用により本明細書に編入するRoses,Neurogenetics 1:3-11(1997))；子宮内膜症（引用により本明細書に編入するBischoff et al.,Hum.Reprod.Update 6:37-44(2000))；遺伝性の骨腫瘍（引用により本明細書に編入するMcCormic et al.,Mol.Med.Today 5:481-486(1999))；胸部癌（両方とも引用により本明細書に編入するChen et al.,J.Cell Physiol.181:385-92(1999)；Beckmann et al.,J.Mol.Med.75:429-39(1997)）；および頸部癌腫（引用により本明細書に編入するLazo,Br.J.Cancer 80:2008-18(1999)）を含む。
【００５８】
本発明の１つの態様下では、新規な突然変異（１つまたは複数）または突然変異パターンを表現型−遺伝子型データベースに加えると考える。すなわち本発明の使用により、１つを表現型−遺伝子型データベースに加えることができ、これにより本発明のニューラルネットワークの知識および能力がさらに拡大する。さらに本発明のニューラルネットワークを通して同定された新規突然変異（１つまたは複数）または突然変異パターンは、レポートに出力されると考えられる。そのようなレポートは患者の遺伝子プロフィールをスクリーニングするために当業者により使用され、疾患の耐性パターンを決定することができる。
【００５９】
表現型試験に付随する時間および経費により、これらのアッセイは一般に日常的な臨床スクリーニングには適さない。同様にゲノム情報を意味のあるデータに翻訳することの難しさから、遺伝子型による遺伝子型スクリーニングは日常的な臨床スクリーニングには適さない。しかし本発明はニューラルネットワークを使用することを通して、表現型試験から得られるより意味のあるデータと遺伝子型試験からより容易に得られるデータとの間のギャップの橋渡しをする。
Ｃ．ニューラルネットワーク
ニューラルネットワークはどうのように出力が入力に依存しているのという仮定も、入力が独立的であるという仮定もしない。代わりに、ニューラルネットワークは１セットの入力変数から別のセットの出力変数への非−線形マッピングを表す大変有力かつ全体的な枠セットを提供する。さらにニューラルネットワークは信号変数の非−線形関数の重ね合わせという意味で、多くの変数の非−線形関数を表す。１つの変数のこれら非−線形関数は、それら自体が処理プロセスの一部としてデータに適応させられるので、そのような関数の数は問題自体が成長する複雑さのように成長する必要はなく、そしてディメンショナリティ（dimensionality）が成長するように単純ではない。非−線形関数とは別に、入力および出力層のみに関する線形関数も本発明を実施するために使用できると考える。さらにこのシステムに隠れ層を加えることは、問題の解決に非−線形関数を必要とする。
【００６０】
本発明のニューラルネットワークは：（１）ニューロン間のその連結パターン（その構造とも言う）；および（２）連結の加重値により示される知識、が特徴である。図３は３−層ニューラルネットワークの例示的枠セットを表す。
１．ニューラルネットワーク構造
本発明の観点によれば、ニューラルネットワークを使用して治療薬耐性試験に関する遺伝子型と表現型との間の関係のモデルを作る。本発明の別の観点によれば、ニューラルネットワークを使用して、治療薬に対する耐性を付与する挿入および欠失を含む突然変異（１つまたは複数）または突然変異パターンを同定する。本発明の別の観点下では、ニューラルネットワークを使用して治療薬耐性の遺伝的基礎を定める。この観点の１態様下では、ニューラルネットワークを使用して治療薬耐性に関係する新規突然変異を同定する。
【００６１】
好ましくは本発明のニューラルネットワークは管理された多−層知覚（MPL）構造で実行されるバック−プロパゲーションおよびモメンタムターム学習アルゴリズムを使用する。しかし他の形態のニューラルネットワークを本発明に使用できると考える。例えばアダラインネットワーク、適合共鳴理論ネットワーク、二方向連合記憶ネットワーク、バックプロパゲーションネットワーク、カウンタープロパゲーションネットワーク、Hammingネットワーク、Hopfieldネットワーク、Madalineネットワーク、蓋然論的ニューラルネットワーク、再循環化ネットワーク、空間−時間パターン認識ネットワークおよび他の種類のニューラルネットワークを使用して本発明の目的を達成することができる。
【００６２】
ニューラルネットワークはニューロン（ノードとも呼ばれる）と呼ばれる多数の単純な処理要素から成る。ニューロンの層への配列および層内および間の連結パターンは、網構造または構造と呼ばれる。各ニューロンは、関連加重値で指令された通信リンクにより他のニューロンに連結される。各ニューロンはその活性レベルで呼ばれる内部状態を有し、これはそれが受信した入力の関数である。本発明の１つの態様下では、活性化レベルは０と１の間の範囲である。別の態様下では、活性化レベルは−１と１の間の範囲である。
【００６３】
本発明のニューラルネットワークは例えばフィードフォワード網であることができ、ここで信号は進行方向で入力装置から出力装置へ流れる。本発明のフィードフォワード網は、１以上の隠れ層を有する多レベルのフィードフォワード網である。１つの態様下では、本発明のニューラルネットワークは１つの隠れ層を使用する。
【００６４】
１つの態様下では、本発明のフィードフォワード網は完全に連結され、ここで網の各層中の各ノードは隣接する前層中の他の各ノードに連結される。しかし部分的に連結された網を本発明に使用することもできると考えられる。部分的に連結された網は、網に多すぎる突然変異または多形入力データが適用される場合に使用できる。あるいは枝切り（pruning）法を適用することができる。部分的に連結された網では、通信リンクの幾つかが網から失われていると考えられる。
【００６５】
フィードフォワード網の作動は２つの事柄により決定される−−構造および加重の値である。入力および出力ノードの数は関与する突然変異の数および検討される治療薬の数により定められるので、固定されると考えられる。最初は加重の値および偏向が無作為化される。以下により詳細に記載する処理が始まると、加重が調整されて誤差関数を下げる。
【００６６】
図３は３層ニューラルネットワークに関する例示的枠セットを表す。網はI入力、Ｊ隠れ装置およびＫ出力装置、および２つの偏向装置（両方とも１の入力信号を有する（すなわちｘ₀およびｚ₀））を有する。好ましくは入力数Ｉは、評価する疾患に関して、表現型の治療薬耐性に関連することが知られている突然変異の数に等しい。しかし別の態様下では、入力装置の数Iは、評価する疾患に存在する遺伝子に関して、表現型の治療薬耐性に関連することが知られている突然変異の数に等しい。例えばHIV-1では、入力ＩはHIVに対して治療薬耐性を付与することが知られている既知のすべての突然変異に等しいか、あるいはプロテアーゼ遺伝子中の治療薬耐性を付与することが知られているすべての既知の突然変異に等しい。さらに一部の態様下では、既知の突然変異のサブ−セットのみを本発明のニューラルネットワークに入力する。
【００６７】
各隠れ層Ｊは複数の隠れノードを含む。隠れノードの数ｊは、良好な性能を達成するために調整することができる変数であると考えられる。実際には、隠れノードの最適数は経験的に定められる。ノードの最適数を決定するための手段は当業者には周知であり、そして遺伝子型／表現型情報の複雑さおよび解決すべき疾患に依存する。隠れ層の数と同様に、隠れ装置の数もニューラルネットワークの複雑さに影響を及ぼす。隠れ装置の数は、確認および試験セットに関するニューラルネットワークの性能の評価により決定される。
【００６８】
出力装置の数Ｋは、既知の突然変異が治療薬に対して耐性を付与する治療薬の数に等しい。しかし出力装置の数Ｋは、既知の突然変異が耐性を付与する治療薬のサブ−セットであることもできる。例えば出力装置の数は、プロテアーゼインヒビター等のような特殊な種類の治療薬に限定することもできる。
【００６９】
図３の例示的な３層ニューラルネットワークは、２層の適応加重（w_jiおよびw_jk）を有し、これらはそれぞれ入力信号ｘ_iに関連する第ｊ番目の隠れ装置の加重、および隠れ信号ｚ_jに関連する第ｋ番目の出力装置の加重である。これら加重の値は以下に記載するようにニューラルネットワークの処理中に至適化される。
【００７０】
突然変異（１つまたは複数）および／または突然変異パターン（１つまたは複数）が治療薬に対する耐性を付与すると同定された本発明の態様下では、入力の数が治療薬に対して耐性を付与することに相関すると知られている突然変異の数と等しいことが好ましい。出力数は、突然変異の同定に関して本発明のニューラルネットワークにより試験される治療薬の数に等しい。
【００７１】
本発明が疾患の発症の確率を予想するために使用される場合、入力数は遺伝子疾患（１つまたは複数）の発症と相関することが知られている突然変異の数に等しいことが好ましい。別の態様下では、入力数は与えられた遺伝子疾患の発症と相関することが知られている突然変異の数に等しい。出力数は好ましくは、ニューラルネットワークにより評価される遺伝子疾患（１つまたは複数）の数に等しい。
【００７２】
本発明の１つの態様下では、ニューラルネットワークは活性化関数としてシグモイド曲線を使用する。このシグモイド曲線は２方向性（０、１）または二極性（−１、１）であることができる。使用することができる他の活性化関数は、線形、双曲線、正接、対数、閾値およびガウス関数である。
２．ニューラルネットワークの処理
入力ノードにデータを入力する前に、前−処理しなければならない。前−処理とはニューラルネットワークに入力することができる入力ベクターに分子データを転換するプロセスを称する。本発明の１つの態様下では、与えられたサンプルに関する突然変異パターンxはｘ＝（ｘ₁，ｘ₂，．．．．ｘ_n）により表され、ここでｘ₁（ｉ＝１、２、．．．．ｎ）は０または１の値を有し、１は位置ｉで突然変異が生じたことを表し、そして０は位置ｉで突然変異が無いことを表し、そしてｎは試験サンプル中の突然変異の数である。同様に出力データは、ニューラルネットワークデータを意味のあるデータに転換するために前−処理されることが必要である。本発明の１態様の下では、カット−オフ（cut-off）（これは薬剤毎に異なる）の４倍以下の倍率耐性は「感受性」と考え、そして４カット−オフよりも大きく、そして耐性カット−オフ（これは薬剤毎に異なる）未満は「中間」と考え、そして値が１０カット−オフより大きければ「耐性」と考える。生物学的カット−オフは、Larder BA & Harrigan PR.AIDS,2000,14(追補4):S111,要約 P327およびポスターに記載されている。例えば（薬剤−カット−オフ）；ジドブジン 4.0、ネビラピン 8.0、デラビルジン 10.0、エファビレンズ 6.0、ラミブジン 4.5、ジダノシン 2.0、ザルシタビン 2.0、スタブジン 1.75、アバカビル 3.0、インジナビル 3.0、リトナビル 3.5、ネルフィナビル 4.0、サキナビル 2.5、アンプレナビル 2.0、ロピナビル 2.5。
【００７３】
１つの態様下では、本発明のニューラルネットワークはバック−プロパゲーションおよびモメンタムターム（BPM）学習則を使用する。BPM学習則は、例えば引用により本明細書に編入するChauvin and Rumelhart、バックプロパゲーション：理論、構造および応用（Backpropagation:Theory,Architectures and Applications)、ローレンスエルバームアソシエイツ（Lawrence Erbaum Assoc.)、ヒルスダーレ、ニュージャージー州(1995)により総説された。BPMアルゴリズムは、異なる活性化関数を用いてフィードフォワード網で加重を変えるためのコンピューターによる効率的な方法を提供する。
【００７４】
BPM処理には３段階を含む：入力処理パターンのフィードフォワード；関連する誤差の計算およびバック−プロパゲーション；および加重の調整。このフィードフォワード相では、加重は網全体を通して無変化のままであり、そして関数信号はニューロン毎の基準でコンピューター処理される。バック−プロパゲーション相では、誤差信号が出力層で出発する各ニューロンについて帰納的にコンピューター処理され、そして網を通って後ろに進み、層毎に隠れ装置の誤差を引き出す。加重は対応して調整されて、網の出力と標的の出力との間の差異を減少させる。処理後、ニューラルネットワークのみがフィード−フォワード相で計算する。
【００７５】
フリーパラメーターの値（加重および偏向）は、誤差関数を最小にすることにより決定できると考えられる。本発明で採用できる１つの好適な誤差関数は、２乗平均平方根誤差関数であり、これは処理ファイルをわたるすべてのパターンから算出された平方誤差の和の平方根である。他の誤差関数は当業者には既知である。
【００７６】
別の態様下では、本発明のニューラルネットワークはカウンター−プロパゲーション（CP）プログラムを使用する。引用により本明細書に編入するWu and Shivakumar,Nucleic Acids Res.22:4291-4299(1994)を参照にされたい。CPプログラムは自動照合表を適応させながら構築することにより、処理する入力ベクター対を近似する。この様式では、多数の処理データ点をより管理可能な自動照合表登録数に圧縮することができる。近似の精度は、自動照合表の登録数により決定される。
【００７７】
本発明の１つの態様下では、BPおよびCPアルゴリズムをセットみ合わせて使用する。２つのアルゴリズムをセットみ合わせて使用する網は、いずれか１つのアルゴリズムのみを採用する網よりも正確に系統発生論的分類を予測したと報告された。例えば引用により本明細書に編入されるWu and Shivakumar,Nucleic Acids Res.22:4291-4299(1994)を参照にされたい。
【００７８】
BP処理に加えて、別の処理アルゴリズムを本発明に使用することができる。例えばポケットアルゴリズム、デルタルール、Hebbルール、Hopfieldルール、Window-Hoffルール、アダラインルール、およびKohonenルールを使用して、本発明のニューラルネットワークを処理することができる。
【００７９】
新しいデータについて最高の性能を有する網を作成するために、最も簡単な取りセットみは処理に使用するものとは無関係なデータを使用して異なる網の誤差関数を比較することである。異なる網を比較することにより、網パラメーター修飾の効果は容易に測定することができる。
【００８０】
ニューラルネットワークパラメーターは試験データセットについて最高の性能をサーチすことにより決定する。これらのパラメーターを用いて、遺伝子型と表現型との間に75％よりも大きい一致率を達成することができる。１つの態様では、90％よりも大きい一致率が達成されるような85％よりも大きい一致率が達成される。しかし95％より大きい一致を本発明を通して達成することができる。
【００８１】
本発明の網の幾つかの内部パラメーターは、実験結果および経験の助けにより微細に調節することができる。例えば学習率η（最小化プロセスのサイズステップ）を至適化することができる。ニューラルネットワークの収束速度は学習パラメーターに直接関連する。小さすぎる学習率度は処理プロセスを遅くするだろう、一方大きすぎる学習率は、悪いソルーション（solution)の間で振動を生じるかもしれない。一般に、サーチポイントが最小からはるか離れている時には、サーチがその最小に達するような減少ステップを用いて大きなステップを採用することができる。適切な学習率を選択するための適当な取りセットみは、例えば引用により本明細書に編入されるHassoun、人工ニューラルネットワークの基礎(Fundamentals of Artificial Neural Networks)、MIT出版、ケンブリッジ、マサチューセッツ州（1995）を参照にされたい。学習率ηは０〜１、好ましくは0.1〜0.9の間で選択される。学習率は、ニューラルネットワークにより分析される遺伝子型−表現型情報に依存すると考えられる。
【００８２】
本発明で至適化することができる別の内部パラメーターは、モメンタムタームαである。モメンタムは、補正が幾つかのパターンに関して同じ全体的方向にある限り、網が合理的に大きな加重調整を作ることを可能とするが、より小さい学習率を使用して任意の処理パターンからの誤差に対する大きな応答を防止することを可能とする。ニューラルネットワークがローカルな極小値を表す加重を見いだす見込みも減げる。モメンタムタームは通常、０と１との間で選択される。好ましくはモメンタムαは0.9に設定される。
【００８３】
１つの態様下では、遺伝子型および表現型のデータセットが集められる。例えばデータセットは表現型および遺伝子型のデータベースから集めることができる。本発明の１つの態様下では、データセットの各メンバーは治療薬耐性における表現型の変化に相関する遺伝子突然変異に対応する。好ましくはデータセットを処理データセットおよび試験データセットに分割する。大きな処理データセットを有する必要は無い。処理データセット中のサンプルが統計的に十分な有意性を持ってすべての可能な事例を表すならば、新たなサンプルを加えることは一般に処理サンプルにおける情報の量を増やさない。代わりにサンプル中のノイズ比に対する有用な情報量を減らすかもしれない。一方、小さすぎる処理データセットは一般に群中のすべての可能な変動を網羅しないだろう。生じる網はしばしば処理データセットのデータを単に記憶するだけで、そして正しく一般化しない。
【００８４】
処理中、処理データセットの各メンバーは好ましくはある時点で１つの既知数をニューラルネットワークに提示する。処理データセットの各メンバーについて、網は処理された値を使用して予測量を予想し、次いでこれを突然変異の実際の耐性と比較する。網の予測値が正しい場合、網内の連結強度（connection strength)および閾は変化せず、そして次の既知数が提示される。予測量の予想が正しくない場合、隠れ層および出力層の両方の中の連結加重および閾が誤差関数のサイズを下げるように調整される。調整が行われた後、次の既知数が提示される。処理は誤差が実際にその最小値に合うまで続ける必要はない。処理はいったん誤差関数に関する閾値（許容度と呼ぶ）に到達すれば、または処理の反復（iteration）数について固定した上限（エポックと呼ぶ）に到達すれば、停止することができる。誤差許容度を使用して処理の終点を決定する場合、誤差許容度γは0.1から0.0001の間の値を有することが好ましい。別の態様下では、処理はいったん約10,000エポックが起これば停止される。
【００８５】
本発明の１つの態様下では、処理ステップは反復様式で行われる。換言すると、処理のために第１の処理データセットが表現型−遺伝子型データベースから選択される。次いでこのデータセットを使用してニューラルネットワークを処理する。網が処理された後、網の予測率または一致率を試験データセットから決定する。正しくない予測を与えるサンプルは試験データセットから取り出し、そして第２の処理データセットに配置する。第２の処理データセットは、第１の処理データセットに加えて試験データセットから正しくない予測を与えた任意のサンプルを含んで成る。次いで第２の処理データセットを使用して、ニューラルネットワークを再度処理する。必要ならば、このプロセスは所望の性能レベルに達するまで繰り返すことができる。この様式でニューラルネットワークを再処理することにより、ニューラルネットワークの性能を上げることが可能である。
【００８６】
場合により、網を処理し、そして試験が始まった後、入力装置の数が過剰であることを決定する。入力装置の数が過剰である時、網の処理を遅くすることができ、そして良くない一般化を生じ得る。入力の過剰数が幾つかを決定することは主観的な決定であり、そして具体的な網に依存する。しかし入力装置の数が過剰であると決定されれば、入力装置の数を減らすことが好ましい。したがって１つの態様の下では、入力トリミングを使用して入力データのディメンショナリティを下げる。
【００８７】
本発明の１つの態様下では、ニューラルネットワークに提示する前に入力データから特徴を抽出する特徴検出器を使用する。例えばデータ分配アルゴリズムを使用して、非−スペアデータをえり分けることができ、これから試験セットを無作為に選択することができる。１つのそのような分配アルゴリズムは以下のように定められる：
【００８８】
【数１】

【００８９】
このアルゴリズムは、任意の２つの突然変異パターン（ｘおよびＺ）間の距離（ｄ）を計算し、そしてスペアデータおよびノイズデータをえり分け、そして試験メンバーとしてそれらが選択されることを回避することを可能とする。変数−ｎ−は、入力装置の数に等しい。ニューラルネットワークが処理データセット中のサンプルの大部分を正しく分類できないことが続く場合、処理アルゴリズムパラメーターに繰り返し調節した後でも、ニューラルネットワークの複雑性は増加するはずである。一方、ニューラルネットワークが高率で処理セットの正しい分類を達成するが、試験データセット中の多数のサンプルを正しく分類できないならば、神経構造は恐らく問題を解決するために複雑すぎると思われる。この場合、隠れ層（１つまたは複数）中のノードの数を次第に減らすか、または多数の隠れ層がある場合、隠れ層の数を減らすべきである。
【００９０】
いったんニューラルネットワークが処理されれば、網は疾患の定めた遺伝子配列に基づき治療薬に対する疾患の耐性を予測する準備ができ、そして予測することができる。この予測を行うために、疾患のサンプルを含有する患者サンプルを単離し、そして疾患の遺伝子情報を決定する。次いでこの定めた遺伝子情報を前−処理し、そして処理したニューラルネットワークにロードする。次いで処理したニューラルネットワークは治療薬に対して予測される疾患の耐性を計算する。別の態様下では、本発明のニューラルネットワークを使用して治療薬に対する耐性を付与する挿入および欠失を含むさらなる突然変異（１つまたは複数）および／または突然変異パターン（１つまたは複数）を同定する。この態様に従い、第１セットの遺伝子突然変異が同定される。第１セットの遺伝子突然変異は、治療薬耐性を付与することが知られている遺伝子突然変異から成る。そのような突然変異はしばしば当業者には知られており、そしてインターネットおよび同等の総説された雑誌の両方から得ることができる。例えばスタンフォードデータベース＜http://hivb.stanford.edu/hiv/＞＞は、HIV-1に対する治療薬耐性を付与することが知られている突然変異のデータベースを提供する。しかし適当なデータベースが利用できない範囲では、データベースは当業者により容易に作成することができる。
【００９１】
さらに治療薬に対して耐性である疾患において比較的高い頻度で存在する遺伝子突然変異から成る第２セットの遺伝子突然変異を同定する。第２セットの遺伝子突然変異は、第１セットのすべての遺伝子突然変異に少なくとも１つのさらなる突然変異（１つまたは複数）を加えたものを含む。これらのさらなる突然変異は疾患に関連する任意の突然変異および／または多形であることができる。しばしばこれらの突然変異は治療薬耐性と関連すると知られているが、突然変異が実際に耐性を付与するかどうかは分からない。１つの態様下では、余分な突然変異を治療薬に対して耐性である疾患に比較的高い頻度で存在する突然変異から選択する。第２セットに含めるために、突然変異が疾患で見いだされる頻度の閾レベルを使用者が設定する。一般にこの頻度の閾レベルは、１％〜85％の範囲であることができる。しかし好適な態様下では、この閾レベルは５〜25％のような５〜50％の間に設定する。別の態様では第２セットの遺伝子突然変異は、第１セットの遺伝子突然変異および耐性に関係する次の５〜100個の最も頻度が高い突然変異から成る。しかし突然変異が統計的に有意な率で起こる限り、任意の数のさらなる突然変異を第２セットに含むことができる。
【００９２】
第１ニューラルネットワークおよび第２ニューラルネットワークを作成し、ここで各ニューラルネットワークに関する入力数は試験する遺伝子突然変異の数に等しい。すなわち第１ニューラルネットワークに関する入力数は、第１セットの遺伝子突然変異中の突然変異の数に等しい。各ニューラルネットワークの出力は、評価する倍率耐性に等しい。例えば第１および第２ニューラルネットワークは同じ処理データセットを使用して処理される。
【００９３】
２つのニューラルネットワークが十分に処理された後、ニューラルネットワークは治療薬に対する疾患の耐性に及ぼす突然変異の表現型の影響について予測することができる。１つの態様下では、試験データセットを第１および第２の処理されたニューラルネットワークに流す。各ニューラルネットワークについて、出力、「仮想」表現型を、試験データセットの各メンバーについて、「真」の表現型と比較し、「真」と「仮想」の表現型と間の差異を決定する。試験データセットの各メンバーはデータベースから引き出されるので、「真」の表現型（試験した治療薬に対する倍率耐性）は既知である。第１および第２セットの処理されたニューラルネットワークの表現型の予測間の差異を比較することにより、疾患に対して治療薬耐性を付与すると予想される新規な遺伝子突然変異が同定される。予想が改善されたサンプル（「仮想」と「真」の表現型の間のより小さい差異）が観察され、そして改善されたサンプルを呼ぶ。これらの改善されたサンプル中に含まれるすべての余分な突然変異を調べ出す。改善されたサンプル中に見いだされる突然変異の頻度を、ニューラルネットワーク中で評価された全サンプル中に見いだされた突然変異の頻度と比較する。改善されたサンプル中に含まれる突然変異は、より大きな差異が２つの頻度の間で観察される時、与えられた治療薬に対して耐性を付与していると考えられる。頻度の差異の閾は、使用者により特定される。一般に差異の閾は１〜50％の範囲、好ましくは少なくとも５％であることができる。好適な態様下で、閾の差異は少なくとも９％である。別の好適な態様の下で差異の閾レベルは、少なくとも12％である。使用者は部位特異的突然変異誘発法のようなさらなる実験を行い、突然変異が表現型の薬剤耐性を付与することを確認することができる。
【００９４】
本態様の処理されたニューラルネットワークは、１つの治療薬に対する耐性とすでに関連する突然変異が別の治療薬に対してさらに耐性を付与することも同定することができる。
【００９５】
システムの出力は、もともとIC50における倍率の変化を提供する連続変数であり、次いで使用するカット−オフに従い、サンプルをさらに特定の薬剤に対して感受性、中間または耐性と分類することができる。
【００９６】
本発明を使用して患者における遺伝子疾患の発症を予測する場合、遺伝子疾患の発症と相関する既知の突然変異の表現型−遺伝子型データベースから得た処理データセットを使用するこれらの方法に従いニューラルネットワークを処理する。いったんニューラルネットワークが処理されれば、患者のサンプルからの遺伝子情報を決定する。遺伝子突然変異はこのサンプルから同定し、そしてこれらの遺伝子突然変異を処理されたニューラルネットワークに入力する。次いで処理されたニューラルネットワークはこれらの遺伝子突然変異が患者に遺伝子疾患の発症を引き起こす見込みを予測することができる。
【００９７】
以下の実施例は本発明の具体的説明の目的のみに提供され、そして本発明を限定することを意図するものではない。
【００９８】
【実施例】
実施例１．１型HIV（ヒト免疫不全ウイルス）薬剤耐性に関する遺伝子型と表現型との間の関係のモデリング
Ａ．遺伝子型の決定実験
HIV-1 RNAは、200μlの患者血漿からQIAamp（商標）ウイルスRNA抽出キット（キアジェン：Qiagen、サンタクラリタ、カリフォルニア州）を使用して、製造元の指示に従い抽出した。pol遺伝子の一部を包含するcDNAは、Expand RT(商標)を使用して生成した。次いでプロテアーゼおよび逆転写酵素(RT)領域をコードする2.2kbのフラグメントは、ネスティッド(nestid)PCRにより増幅した。この遺伝子材料を続いて表現型の決定および遺伝子型の決定実験の両方に使用した。例えば引用により本明細書に編入するLarder et al.,Antimicrob.Agents Chemother.43(8):196-1967(1999)を参照にされたい。患者の血漿サンプルから得たPCR産物は、ジデオキシヌクレオチド−に基づく配列分析により、Big Dye(商標)ターミネーター（アプライドバイオシステムズ：Applied Biosystems）を使用して遺伝子型を決定し、そしてABI377 DNAシークエンサーで解析した。例えばLarder et al.,Antimicrob.Agents Chemother.43(8):196-1967(1999)を参照にされたい。
Ｂ．表現型の決定実験
表現型の感受性は、MT-4細胞のウイルス細胞変性効果保護アッセイを使用して決定した。引用により本明細書に編入するKashiwase et al.,Chemotherapy 45(1):48-55(1999)；Larder et al.,Antimicrob.Agents Chemother.43(8):1961-1967(1999)を参照にされたい。倍率耐性値は、患者のセット換えウイルスに関する平均50％阻止濃度(IC₅₀）を、野生型対照ウイルスに関する平均IC₅₀で除算することにより算出する。この手順は、国際公開第97/27480号明細書にも記載されている。
Ｃ．データの前−処理
全172サンプルからの遺伝子型および表現型のデータは、表現型-遺伝子型データベースから集めた。データセットの各メンバーは、治療薬耐性における表現型の変化に相関する遺伝子突然変異に対応する。これらのサンプル中から20個を試験データセットのメンバーとして無作為に選択し、そして残りの152サンプルを処理データセットとして選択した。表１および表２に示すように全部で90個の突然変異位置が、30個はプロテアーゼコード領域に、そして60個は逆転写酵素中に同定された。
【００９９】
【表１】

【０１００】
【表２】

【０１０１】
与えれたサンプルについて、その突然変異パターンｘはｘ＝（ｘ₁，ｘ₂，．．．．．ｘ₉₀）により表され、ここでｘ_i（ｉ＝１，２，．．．．．90）は０または１の値を有し、１は位置ｉで突然変異が生じていることを表し、そして０は位置ｉで突然変異が無いことを表す。
【０１０２】
出力変数ｙはｙ＝（ｙ₁，ｙ₂，．．．．．．ｙ₁₅）により表され、ｙ_k（ｋ＝１，２．．．．．．15）は薬剤ｋに対する倍率耐性を示す。それらは規模の次数が幾つか異なるかもしれない。前−処理により、それらはすべての出力について統一された次数になるように整えられる。各変数について、処理および試験データセットの両方に関する最大値ｙⁱ _maxおよび最小値ｙⁱ _minが算出された。１セットの設定し直された変数は：
【０１０３】
【数２】

【０１０４】
により与えられる。
【０１０５】
この式に従い、ｙ_iは薬剤ｉに対する倍率耐性を示し、ｙⁱ _minは全サンプル中ｙ_iの最小値を示し、ｙⁱ _maxは全サンプル中ｙ_iの最大値を示し、ｎは具体的サンプルの指数を示し、ｙⁿ _iは前−処理前の具体的サンプルの倍率耐性を示し、
【０１０６】
【外１】

【０１０７】
として取る倍率耐性値が標準化される間隔である。
【０１０８】
Ｄ．ニューラルネットワークの実施
この実施例では、入力装置から隠れ装置への完全な相互連結および隠れ装置から出力装置への完全な相互連結を含む３層のフィードフォワードニューラルネットワーク構造を使用した。入力ノードを使用して遺伝子型の突然変異を表し、そして出力ノードは治療薬に対する耐性の程度を表し、それらの値は各治療薬に対する倍率耐性を表した。隠れノードを使用して適当なモデルの次数を決定し、そして良好な性能を達成した。バック−プロパゲーションモメンタムアルゴリズム(BPアルゴリズム）も使用した。BPアルゴリズムには誤差関数を最小にするための反復手順が含まれ、バック−プロパゲーションが網中の各加重に関して誤差中の勾配または変化を帰納的に計算し、そしてこれらの値を使用して網装置間の加重を調節した。
【０１０９】
90個の入力装置、15個の出力装置および８〜26個で変動する装置数を含む１つの隠れ層から成る３層のニューラルネットワーク予測機を処理し、そして試験した。学習率ηを0.1〜0.9に設定し、モメンタムαを0.9に設定し、そして誤差許容度γを0.0〜0.0001に設定した。処理は誤差許容度に到達した時、または10,000回のエポックが起こった時に、いずれか先に起こった場合でも終了した。
【０１１０】
処理および試験結果は、図４（ａ）に示すように不十分な隠れ装置を持つニューラルネットワークの予測機が新たなデータに関して良くない予測を与え、そして多すぎる隠れ装置を持つ予測機も良くない一般化を与えたことを示した。この結果は図４（ｂ）に示すように、性能は誤差許容度が低下した時にも良くならなかったことを示す。図４（ｂ）では、誤差許容度指数はインデックス１については0.1であり、インデックス２については0.05、インデックス３については0.01であり、インデックス４については0.005、インデックス５については0.001、インデックス６については0.0005であり、そしてインデックス７については0.0001であった。これは良好な一般化が処理を早い段階で終わることにより達成されたことを意味する。これらの３層化ニューラルネットワーク予測機では、関連する網のパラメーターはｈ（隠れ装置の数）、η、αおよびγであった。パラメーター空間内のサーチは、ｈ、η、αおよびγの最適値がそれぞれ、12、0.45、0.9および0.01であることを示した。これらのニューラルネットワークパラメーターを用いて、ニューラルネットワークの性能を20個の試験サンプルに基づき評価し（それぞれについて15種の薬剤を用いて）、これらは処理サンプルと同じデータベースから無作為に選択した。試験サンプルからの結果を表３にまとめる。
【０１１１】
【表３】

【０１１２】
表３では、Ｒは耐性を表し、Ｓは感受性を表し、そしてＩは中間を表す。４以下の倍率耐性は「感受性」と考えられ、４より大きく10未満は「中間」と考えられ、そして値が10より大きければ「耐性」と考えられる。表４の記号“R/I"は、サンプルが表現型データからの薬剤に対しては耐性であり、そしてニューラルネットワークモデルにより中間と予測されたことを意味する。
【０１１３】
AZT（3'-アジド-3'-デオキシチミジン)、ddI（2',3'-ジデオキシイノシン）、PMEA（アデホビルとしても知られている、そして9-(2-ホスホニルメトキシエチル)アデニン）、VX-478（アンプレナビル、アゲネラーゼおよび141-W94としても知られている）は、多数のウイルスの有力なインヒビターとして認められている。
【０１１４】
シュミレーション実験も異なる突然変異パターンをセットみ合わせることにより行った。表４に示すように全部で12の突然変異パターンを、試験データセットに加えた。シュミレーションした耐性の規模は表４に示し、そして図５にプロットする。このシュミレーション結果から、もし41Lおよび215Yの突然変異がHIV-1のRTにすでに存在する場合、184V突然変異の発生が、AZT−耐性ウイルスを再度感受性にすることができることが分かる。これは41L、67N、70R、215Yおよび219QのようなAZT耐性のバックグラウンドに184Vの突然変異を含有するセット換えウイルスは、AZT感度に対して逆転をもたらす抑制効果を引き起こすという生物学的考察を確認するものである。この結果は、184V突然変異が他のどのような突然変異が含まれていても3TC耐性を付与する強い効果を有することも示す。
【０１１５】
【表４】

【０１１６】
実施例２：PI遺伝子型からHIV-1プロテアーゼインヒビター（PI）表現型耐性の予測
この実施例では、1162HIV-1 PIサンプルに由来する遺伝子型および表現型のデータを、遺伝子型−表現型データベースから集めた。PI遺伝子型とは、プロテアーゼインヒビターに耐性を付与すると考えられる、プロテアーゼコード領域に突然変異または多形を含む遺伝子型を称する。表１に示すように全30個の突然変異をプロテアーゼコード領域中に同定した。与えられたサンプルについて、その突然変異パターンｘはｘ＝（ｘ₁，ｘ₂，．．．．．ｘ₃₀）により表され、ここでｘ_i（ｉ＝１，２，．．．．．30）は０または１の値を有し、１は位置ｉで突然変異が生じていることを表し、そして０は位置ｉで突然変異が無いことを表す。
【０１１７】
【表５】

【０１１８】
突然変異パターンｘと突然変異パターンｚとの間の距離（ｄ）は、以下のように定めた：
【０１１９】
【数３】

【０１２０】
任意の２つの突然変異パターンの間の距離を計算することにより、空間中のサンプルの分布を推定した。これによりスペアデータおよびノイズデータをえり分け、そして試験メンバーとしてそれらを選択することを回避することが可能となる。
【０１２１】
30個の入力装置、５個の出力装置（５PI薬剤に対応する）および変動する装置数を含む１つの隠れ層から成る３層のニューラルネットワーク予測機を処理し、そして試験した。処理セットの中に含まれるノイズデータ有り、または無しで処理したニューラルネットワークの性能を表６および図７に示する。ノイズデータ有りで処理した網について、一致率はアンプレナビル（APV）について76％からリトナビル（RTV）について93％であり、平均82％であった。ノイズデータ無しでの一致率はアンプレナビルについて79％からネルフィナビル（NFV）について91％であり、平均86％であった。このようにより良い性能はノイズデータを処理セットおよび試験セットの両方から取られた時に達成された。
【０１２２】
【表６】

【０１２３】
後のニューラルネットワークに関して、試験結果を表５および６に示す。同じ網を使用したシュミレーション実験は、異なる突然変異パターンをセットみ合わせることにより行った。シュミレーションした耐性の規模は表７に示す。シュミレーションの結果は、ネルフィナビルが唯一含まれる突然変異30Nまたは二重突然変異により耐性を表すことを示す。これにより他のPIインヒビターとは異なる。インジナビル（IDV）、リトナビルおよびサキナビル（SQV）に対する耐性には通常、３個の突然変異よりも多くの突然変異が関与しるが、アンプレナビルに対する耐性には少なくとも４個の突然変異が必要である。
【０１２４】
【表７】

【０１２５】
実施例３：HIV-1プロテアーゼインヒビターに関する遺伝子型からの表現型耐性の予測におけるニューラルネットワークの応用
この実施例では、３層のニューラルネットワークモデルはプロテアーゼコード領域中の30個の突然変異に対応する30個の入力ノード、および５個のプロテアーゼインヒビターに関する倍率耐性値を表す５個の出力ノードを用いて構築した。全部で1068サンプルをHIV-1表現型−遺伝子型データベースから選択した。これらのサンプルの中で210個を試験データセットとして選択し、残りのサンプルは処理データセットとした。ニューラルネットワークモデルの性能は、試験データセットにおける予測率（一致率）を算出することにより評価した。これらのデータセットに関して５種のプロテアーゼインヒビターについて76％の平均予測率が達成された。この予測率を改善するために、誤った予測を与えたサンプルは試験データセットから処理データセットへ除去して、そしてニューラルネットワークモデルを再度処理した（1015サンプルの処理データセットおよび53サンプルの試験データセットを用いて）。再度処理したニューラルネットワークを用いて、新たな試験データセットにおいて87％の平均予測率および全データセットにおいて88％の平均一致率を得た。
【０１２６】
次にさらに60個のプロテアーゼ遺伝子多形を、同じ処理および試験データセットを使用してニューラルネットワークモデルの入力層に加えた。処理後、ニューラルネットワークは同じ新たな試験データセットを使用して91％の平均予測率、および全データセットにおいて92％の平均一致率を与えた。予測対実際の倍率耐性の線形回帰分析は、試験データセットについて0.85のｒ²値を与えた。このデータセットの分析は、予測における改善が13V、55R、57Kおよび93Lのようなモデルに加えた新たな多形によるものであったことを示す。
実施例４：ニューラルネットワークを使用したスタブジン（d4T）に関する遺伝子型と表現型との間の関係のモデリング
この実施例では分析のために、４より大きい倍率d4T耐性を持つ全部で1182サンプルを表現型−遺伝子型データベースから選択した。105個のサンプルを試験データセットとして無作為に選択し、残りを処理データセットとして使用した。スタブジン耐性に関連するデータベース中、最も頻度の高いRT突然変異について調査することにより57個のRT突然変異を同定し、そしてニューラルネットワークモデルに関する入力変数として使用した。処理後、試験データセットにおいて72％の予測率が達成された。この予測率を向上するために、誤った予測を与えたサンプルは試験データセットから処理データセットへ除去して、そしてニューラルネットワークモデルを再度処理した（1041サンプルの処理データセットおよび41サンプルの試験データセットを用いて）。結果として、新たな試験データセットにおいて85％の平均予測率が達成された。これらの予測の中で、84％が中間／中間（スタブジン感度において、４倍の変化より大きく10倍の変化より低い）の正しい予測を与え、そして89％の正しい耐性／耐性（＞10倍率耐性）の予測を与えた。16％のサンプルが誤った中間／耐性の予測を与え、そして11％が耐性／中間の予測を与えた。試験データセットについて予測対実際の倍率耐性の線形回帰分析は、0.67のｒ²値を与えた。これらの結果はニューラルネットワークモデルの性能は、処理データセットのサイズが増すと改善できることを示す。
【０１２７】
この実施例に従い準備したニューラルネットワークは、スタブジンに対して耐性を付与する突然変異パターンを同定するためにも使用できた。151Mおよび“69挿入"ファミリーのようなスタブジン耐性を付与することが事前に知られている突然変異がこの分析により強調された。AZT耐性突然変異を含むさらなる突然変異パターンもスタブジンに対する耐性を付与するとしてニューラルネットワークにより同定された。これらの結果から、多−ヌクレオシド耐性以外の経路がスタブジン耐性を付与できると思われる。
実施例５：HIV-1プロテアーゼインヒビターに関する遺伝子型からの表現型耐性の予測におけるニューラルネットワークの別の応用
この実施例では、HIV-1薬剤耐性突然変異パターンの解釈が、大きな表現型−遺伝子型データベースを使用した表現型の予測により改善した。遺伝子型から表現型を予測するために、データベースを調査し、そして遺伝子型と合うサンプルの表現型を検索する。「仮想表現型」は、合う群における各薬剤について倍率耐性における平均上昇を計算することにより得られる。新規な突然変異パターンを決定するために、ニューラルネットワーク法を適合させて５種のHIV-1プロテアーゼインヒビターに関して遺伝子型と表現型との間の関係を決定した。３層のニューラルネットワークモデルは、プロテアーゼコード領域において30個の突然変異に対応する30個の入力ノード、および５個の出力ノードを用いて構築し、５種のプロテアーゼインヒビターについて倍率耐性を表す。全部で1068サンプルをHIV-1に関する表現型−遺伝子型データベースから選択した。これらのサンプル中、210を試験データセットとして、そして残りを処理データセットとして選択した。ニューラルネットワークモデルの性能は、試験データセットにおける予測率を計算することにより算出した。５種のプロテアーゼインヒビターに対して76％の平均予測率がこれらのデータベースについて達成された。この予測率を上げるために、誤った予測を与えたサンプルは試験データセットから処理データセットへ除去して、そしてニューラルネットワークモデルを再度処理した（1015サンプルの処理データセットおよび53サンプルの試験データセットを用いて）。ここで新たな試験データセットにおいて87％の平均予測率、そして全データセットにおいて88％の平均一致率が得られた。次にさらに60種のプロテアーゼ遺伝子多形を、同じ処理および試験データセットを使用してニューラルネットワークモデルの入力層に加えた。処理後、ニューラルネットワークは同じ新たな試験データセットを使用して92％の平均予測率を与え、そして全データセットにおいて93％の平均一致率を与えた。試験データセットについて予測対実際の倍率耐性の線形回帰分析は、0.85のｒ²値を与えた。このデータセットの分析は、予測における改善(有意性ｐ＝0.036）が、13V、55R、57Kおよび93Lのようなモデルに加えたさらなる多形によるものであることを示した。
【０１２８】
この実施例では、HIV-1薬剤耐性に関する遺伝子型と表現型との間の関係をモデリングする遺伝的枠セットを開発した。30個の同定された突然変異および90個の突然変異／多形を含むニューラルネットワークモデルを処理し、そして試験した。予測率の改善が観察され、そして改善を導く対応するさらなる多形がえり分けられた。試験データセットおよび全データセットの両方で予測の比較を行った。このデータセットの分析は、予測における改善が、13V、55R、57Kおよび93Lのようなモデルに加えたさらなる多形によるものであることを示した。
Ａ．ニューラルネットワークモデル
図１に示すように、HIV-1薬剤耐性の遺伝子型と表現型との間の関係をモデリングする遺伝的枠セットを開発した。これは以下の相から成る：NN構造の決定、データの収集、突然変異／多形および薬剤の選択、データの分配、NN処理および試験、統計分析。
【０１２９】
ニューラルネットワークモデル構造：
第１段階は特別な網構造を設計することであり、各々が特定数の「ニューロン」から成る特別な数の「層」を含む。ニューラルネットワークのサイズおよび構造は、HIV-1薬剤耐性の性質に合うことが必要である。しかしこの性質は明らかにこの初期段階では十分によく分からない。適当な網構造を決定するために、固定数の隠れ層および異なる数の隠れ装置を含む種々の網を処理データセットを使用して処理した。次いでニューラルネットワークの性能は試験データセットを使用して評価し、そして比較した。ニューラルネットワーク構造は、試験セットに関して最高の性能を有する網を選択することにより最終的に決定した。
【０１３０】
ニューラルネットワークに関するデータ収集：
ニューラルネットワークは既存のデータから学習する。NNを使用してHIV-1薬剤耐性の遺伝子型と表現型との間の関係を調査するために、処理および試験目的にデータを集める必要がある。サンプルの遺伝子型および表現型の両方をデータベースからExcelファイルにエクスポートした。プログラムは個々のサンプルについて、これらの遺伝子型データおよび表現型データを抽出した。表現型データは試験したすべての薬剤に対する倍率耐性から成る。遺伝子型データは、gag、逆転写酵素およびプロテアーゼコード領域中のすべての多形を含む。
【０１３１】
入力および出力変数：
処理セットおよび試験セットには多数の事例(case)を含み、各々が一定範囲の入力および出力変数の値を含む。出力変数の選択は単純であり、幾つの、およびどの薬剤がニューラルネットワークモデル中で考えられるかによる。入力変数を選択するための最も簡単な方法は、たとえすべての配列が一続きでも入力変数としてすべての多形を考えることである。しかしこれは何が「ディメンショナリティのカース（curse)」として知られているかという問題を導く。入力変数の数が増えると、必要となる事例の数が非線形的に増す。この実施例では、入力変数の決定は最初は直感により示された。HIV-1薬剤耐性において熟練すると、どの変数が影響があるかという幾らかの考えが得られた。例えば入力変数として、同定された突然変異およびより高い頻度の多形を選択することが合理的である。
【０１３２】
データ選択および分配：
ニューラルネットワーク処理のために必要とされるデータを選択し、そして事例の数を決定することは困難であった。ニューラルネットワーク法は、処理および試験データが下にあるシステムを表さなければならないという重要な仮定に依存する。ニューラルネットワークは存在する事例から学習することができるだけである。感受性の表現型が処理セットに含まれない場合は、ニューラルネットワークは感受性の表現型に関係する遺伝子型に会った時に正しい決定を下すと期待されない。すなわち予測を期待する事例の型は処理セットに網羅されなければならない。ニューラルネットワークは全体的な誤りを最小にするので、セットの中のデータの型の比率も重要である。バランスのとれていないデータセットで処理された網は、その決定がより高い比率の型に偏る。型の比率の表示が真の群とは異なる場合、網は良い決定を与えないかもしれない。一般に言ってデータ選択の最高の取りセットみは、異なる事例の一様な表示を確実とし、そしてそれに応じて網の決定を解釈することである。この実施例では、1162の事例をデータベースから選択し、各々の事例が少なくとも1つの薬剤に対して10より大きい倍率耐性を有する。事例と矛盾することを示すデータ分析が、エクスポートしたサンプル中に存在した。これらの事例はニューラルネットワークの性能を改善することを難しくし、そして次いでサンプルから取り出された。データ分析は、データがサンプル中に一様に分布されていないことも示した。より高いディメンショナリティの問題と比較して、処理セットのサイズはまだ小さいと思われる。この場合、散在する事例を試験セットとして選択するのは適当ではない。この結果を得るために、データ分配アルゴリズムを設計して、非−散在データをえり分け、そこから試験セットを無作為に選択した。残りの事例は処理セットとして採用した。
【０１３３】
統計分析：
結果を合理的に解釈するために、統計分析を予測される表現型と実際の表現型との間の相関の評価に応用し、そして種々の統計的有意性を試験した。ゼロから離れた相関係数は、予測される表現型と実際の表現型との間の関係について４つの可能な説明を提供した。結論は：予測された表現型が実際の表現型の値を決定することを助ける；別の変数が予測される表現型の外に実際の表現型にも影響を与え得る；予測される表現型と実際の表現型は全く相関しない；またはこの場合のように強い相関が観察された、となり得る。ｐ−値はどのくらいの頻度でこれが起こるかを決定する。結果のｐ−値は純粋な見込みにより起こるサンプル中で観察される関係の確率、およびそのような関係が存在しないサンプルが引き抜かれた群における確率である。ｒの２乗は、予測と実際の表現型との間にどのくらい分散の割合が占有されるかについての情報を提供する。
【０１３４】
【表８】

【０１３５】
試験データセットについての予測結果を、表８および９にまとめ、ここでＲは耐性を表し、Ｓは感受性を表し、そしてＩは中間を表す。４以下の倍率耐性は「感受性」と考えられ、４より大きく10未満は「中間」と考えられ、そして値が10より大きければ「耐性」と考えられる。カット−オフ値は、例えばLarder BA & Harrigan PR.AIDS,2000,14(追補４):S111,要約 P327に記載されているような生物学的カット−オフについて定めることができる。
【０１３６】
表８および９の記号“R/I"は、サンプルが表現型データからの薬剤に対しては耐性であり、そしてデルにより中間と予測されたことを意味する。
【０１３７】
【表９】

【０１３８】
５種のプロテアーゼインヒビターに対して87％の平均予測率が、新たな試験データセットで得られた。表10に示すようなさらに60種のプロテアーゼ遺伝子多形をニューラルネットワークモデルの入力層に加えた時、再処理したニューラルネットワークモデルは、同じ試験データセットにおいて92％の平均予測率を与えた。90個の突然変異／多形を使用した予測結果を表11および12にまとめる。
【０１３９】
【表１０】

【０１４０】
表８、９および表１１、１２を比較することにより、表１３に掲げるように試験データセット中の表現型予測の改善が53サンプル中23個で起こったことが分かり、ここで第１文字は実際の表現型を、第２は30個の突然変異を使用して予測された表現型を、そして第３は90個の突然変異／多形を使用して予測した表現型を示す。対応する遺伝子型の差異は、表１４にまとめる。
【０１４１】
予測された表現型および実際の表現型の回帰分析を、図８および９に示す。改善が有意であるか否かを試験するために、両方の場合において試験データセットに関して予測された分布を表１５および１６にまとめ、そしてｐ−値を以下のように計算する、S/S（0.187）、I/I（0.382）およびR/R（0.036）。Ｒ対Ｒからの予測された表現型の改善は有意であるが、Ｓ対ＳおよびＩ対Ｉからの有意な改善は示されないことが分かる。類似の分析をこの実験で使用した全サンプルでも行った。この結果は、13Ｖ、55R、57Kおよび93Lのようなモデルに加えたさらなる多形が予測の改善を導くことを示した。
【０１４２】
【表１１】

【０１４３】
【表１２】

【０１４４】
【表１３】

【０１４５】
【表１４】

【０１４６】
【表１５】

【０１４７】
【表１６】

【０１４８】
新たな多形を加えることによる予測における改善は、NNモデルが新しい突然変異を同定する能力を有することを示した。統計的分析は予測された表現型が実際の表現型と相関し、そしてこの実施例の結果においても遺伝子型の突然変異に基づくプロテアーゼインヒビターに対する耐性の規模の予測においてNNの正確さを証明した。ニューラルネットワークモデルの性能は、使用する処理サンプルのサイズがむしろ小さいならば、そしてNNは処理サンプル数が増加するほどよりよく「分かる」ようになるので、改善すると期待される。
実施例６：d4Tに対するHIV-1耐性の遺伝的基礎を定めるためのニューラルネットワークの使用
この実施例はニューラルネットワークを使用して突然変異パターンと対応する表現型耐性との間の関係を調査するために使用した系統的方法を記載する。最初に実験のための治療薬、この場合d4Tを選択した。突然変異パターンがd4T耐性にどのように影響を及ぼすかを調査するために、３つのニューラルネットワークモデル（9RT、26RTおよび60RTモデル）を開発した。9RTモデルは、d4T耐性に関連するスタンフォードの配列データベース（http://www.hivb.stanford.edu）に掲げられた９つの突然変異（62V、69D、69N、69SXX、75I、75T、77L、116Yおよび151M）に基づいた。他のモデルはd4T耐性サンプルに存在する次に最も頻度の高い17または51のいずれかのRT突然変異を加えることに基づいた。すなわち26RT突然変異モデルは9RT突然変異モデルにd4T耐性サンプル中で17の最も頻度の高い突然変異を加えたものを含んだ。これら17の突然変異は、41L、44D、67N、70R、75A、75M、115F、118I、184V、208Y、210W、214F、215F、215Y、219E、219Nおよび219Qであった。60RT突然変異モデルは26RT突然変異モデルにd4T耐性サンプル中で次に最も頻度の高い34の突然変異を加えたものから成った。これら34の突然変異は、20R、35I、39A、43E、60I、65R、122K、123E、135T、162C、177E、196E、200A、207E、211K、228H、272A、277K、286A、293V、297K、329L、356K、357T、358K、359S、360T、371V、375V、376A、386I、390R、399Dおよび400Aであった。
【０１４９】
この実施例では、３層のニューラルネットワークを使用した。入力ノードを使用して遺伝子突然変異を表した。すなわち9RTモデルは９個の入力ノードを有し、26RTモデルは26個の入力ノードを有し、そして60RTモデルは60個の入力ノードを有した。出力ノードを使用してd4Tに対する耐性の程度を表した。隠れノードを使用して適当なモデルの次数を決定し、そして良好な性能を達成した。各モデルについて最高の構造は隠れノードの数により決定し、これを用いて独立した試験データセットに関して最高の性能が達成された。バック−プロパゲーションモメンタムアルゴリズムも採用した。学習率は9-モデル、26-モデルおよび60-モデルに関してそれぞれ0.01、0.01および0.03に設定した。３つのすべてのモデルについてエポックは10,000に設定し、誤差許容度は0.0001に設定し、そしてモメンタムタームは0.1に設定する。
【０１５０】
これらのニューラルネットワークモデルを処理し、そして試験するために、全部で2286サンプルを使用し、その188を試験データセットとして無作為に選択した。2286サンプルの中で、これらの1040がd4T IC50＜３-倍（平均＝1.2）を有し、これらの1246がd4T IC50＞３-倍（平均＝9.0）を有した。188の試験サンプル（2286から無作為に選択した）の中で、これらのうちの92がd4T IC50＜３-倍（平均＝1.1）を有し、そしてこれらの96がd4T IC50＞３-倍（平均＝7.7）を有した。各モデルについて最適なソルーションは、同じ処理セットおよび試験データセットを使用して得られた。しかし各モデルの複雑さは、使用した異なる数の突然変異により変わり、これはニューラルネットワークモデルの構造により影響を受けた。各ニューラルネットワークを処理した後、試験データセットを各ニューラルネットワークを通して流した。結果は９-突然変異モデルが独立の試験データセットを使用して低い耐性予測率（46％）を、そして処理セットにおいて低い一致率（42％）を与えたことを示した。しかし26-および60-突然変異モデルは十分に処理することができ、そして試験データセットを使用して耐性に関してより高い予測率（それぞれ80％および72％）を提供した（感受性対照に関して３−倍より高いと定められた）。
【０１５１】
どの突然変異がこの改善された予測に貢献したのかを見いだすために、改善されたサンプルIS9-26およびIS9-60は、9-モデルと26-モデルの表現型出力を、そして試験セットについて9-モデルと60-モデルを比較することにより同定した。改善されたサンプルの対応する遺伝子型を集め、そして分析し、改善されたサンプル中に含まれたすべての過剰な突然変異をえり分け、そしてIS9-26およびIS9-60に見いだされた各突然変異の頻度を計算し、そして全サンプル中に見いだされる突然変異の頻度と比較した。２つの頻度のより高い差を持つすべての突然変異を同定し、そしてd4Tに対する耐性の付与に役割を果たすと考えた。
【０１５２】
この実施例では、閾頻度を９％に設定した。以下の突然変異が９-および26-モデルから同定された：41L（44％〜79％）、44D（13％〜26％）、67N（36％〜56％）、70R（21％〜30％）、181I（21％〜36％）、210W（34％〜65％）および215Y（44％〜73％）（図１１）。以下の突然変異を９-および60-モデルから同定した：41L（44％〜73％）、67N（36％〜56％）、181I（21％〜32％）、210W（34％〜62％）、211K（49％〜59％）および215Y（44％〜74％）（図１２）。ｎ結論、これらの結果は少なくとも17RT突然変異（ここで同定された８個にスタンフォードデータベースから上記で同定された９個の加えた）が、AZT耐性突然変異を含むd4T耐性を付与できることを示す。これらの結果は耐性を付与できる10個の他の突然変異も同定した：184V（36％〜42％）、214F（88％〜94％）、75A（0.7％〜0.6％）、75M（４％〜８％）、115F（１％〜0.2％）、208Y（13％〜21％）、215F（９％〜11％）、219E（５％〜４％）、219N（４％〜11％）および219Q（12％〜16％）。
実施例７：ロピナビル（LPV）に対する表現型耐性を正確に予測する28-突然変異ニューラルネットワークモデル
HIV-1プロテアーゼ中の11コドンの突然変異（10、20、24、46、53、54、63、71、82、84、90)がLPV耐性およびロピナビルを含む治療に対する臨床的失敗に関与し得ることが報告された。LPV耐性の定量的予測について突然変異の最適なセットを本発明の方法を使用して確立し、そして11コドンのセットにより作られた予測と比較した。
【０１５３】
ニューラルネットワーク（NN）モデルは、1322の遺伝子型および表現型が決定されたサンプルを使用して構築した。これらのうちの80％がLPV感受性（＜2.5−倍）であり、そして11％が「高レベル」耐性（＞10-倍）であった。117/1322サンプルを確認セットとして無作為に選択し、そして残りの1205サンプルを処理に使用した。２つのNNモデルを構築した；１つは11個の事前に報告されたコドンに基づき（全部で54個の多形）、そして２番目は突然変異の普及率（prevalence）分析およびNN枝切り(pruning)法のセットみ合わせにより選択した28個の突然変異に基づいた。
【０１５４】
28-突然変異モデルは、予測された倍率-耐性と実際の感受性値との間に高い相関を与えた（確認および処理セットにおいてｒ²＝0.88）。11-コドンモデルは確認セットについて類似の相関係数を与えた（ｒ²＝0.84）。しかし予測値を実際の倍率耐性と直接比較する時、28-突然変異モデルは11-コドンモデルに比較してLPV耐性の予測で有意により良かった（ｐ＜0.001）。サンプルについての突然変異数に関する感受性、低-レベルおよび高-レベル耐性の比率は、28-突然変異モデル（ｎ＝11x1000）を使用してシュミレーションした。このモデルはわずか３〜４PI突然変異を含むサンプルが高-レベルのLPV耐性を有することができたことを示した。
【０１５５】
これらの結果は、LPV耐性がHIV-1プロテアーゼにおける28個の突然変異のセットにより説明でき（10I、18V、24I、32I、33F/M、43T、45T、46I/L、48V、53L、54A/S/V、55R、58E、71V、72Y、73S/T、74S、82A、84V、85V、90M、95F/L）、そしてニューラルネットワークモデルを使用して遺伝子型に基づくLPV耐性を正確に定量できることを示す。
実施例８：ニューラルネットワークの確認および処理
ニューラルネットワークの開発および処理。HIV-1薬剤耐性の遺伝子型と表現型との間の関係をモデリングする遺伝的枠セットを開発した。これは７つの相から成った：ニューラルネットワーク構造の確立；データの収集；PI耐性と相関することが知られている突然変異の選択、データの分配；システムの処理および試験；および統計分析。ニューラルネットワーク構造は、３つの「層」を含んで成った：入力層（遺伝型耐性データ）；隠れ層（データ処理）；および出力層（予測される表現型耐性）。網はＩ入力、Ｊ隠れ装置、Ｋ出力装置、および両方とも１の出力信号（すなわちｘ₀およびｚ₀）を有する２つの偏向装置、ならびに１の入力信号を有する入力層中の偏向装置（すなわちｘ₀）を有した。このモデルはPI耐性に関連する39個の突然変異に基づいた。これらの突然変異は、それらがPI感受性サンプルに関する我々のデータベースからPI耐性サンプル中に最も頻繁に遺伝的多形が観察されたので選択された（データは示さず）。全部で1015サンプル(データベースから無作為に選択した)を使用してニューラルネットワークモデルを処理し、そして53個の無作為に選択した独立したサンプルを試験データセットとして使用し；このモデルに関する最適なソルーションは、処理および試験データセットについてニューラルネットワークモデルの性能を評価することにより得た。このモデルに関する入力数Ｉは、39に等しかった。各隠れ層Ｊは、網の高い予測性能を達成するために調整された複数の隠れノードを含んだ。このモデルについて、隠れノードの最適数は27であった。これは経験的に定めた。網は、それぞれ入力信号ｘ_iに関連する第ｊ番目の隠れ装置の加重、および隠れ信号ｚ_jに関連する第ｋ番目の出力装置の加重である２つの層の適応加重（ｗ_jiおよびｗ_jk）を有した。これら加重値は、処理段階中に至適化された。このモデルに関する出力単位Ｋは、プロテアーゼインヒビター：インジナビル、リトナビル、ネルフィナビル、サキナビルおよびアンプレナビルに対して予測される表現型耐性（感受性対照に対してIC₅₀において＞４倍より高い増加と定めた）であった。
【０１５６】
全部で108個の個々の異なるアミノ酸変化を調査手順で使用した（全部で56個の独自な位置）。これはプロテアーゼ中に39個の変化およびRT中に69個の変化（非−ヌクレオシドRTインヒビターに関して32、そしてヌクレオシド同族体に関して37）に分けた。薬剤の種類により群に分けた以下の突然変異をサーチエンジンに含んだ。
【０１５７】
【表１７】

【０１５８】
ニューラルネットワークを使用した耐性突然変異の確認
パターン認識に使用する突然変異の調査基準は大変分かりやすく、そして定期的に更新して表現型の薬剤耐性に影響を及ぼす新たな突然変異および多形を含める。幾つかの突然変異または耐性表現型の影響は比較的簡単で、多くの場合（例えばプロテアーゼインヒビター（PI）耐性）で遺伝的突然変異と生じた表現型との間に大変複雑な関係があるか、またはこの関係に関して公開されている情報が無いかのいずれかである。これに取りセットむために、我々はニューラルネットワークを処理して薬剤感受性に影響する新規突然変異および突然変異のセットみ合わせを同定し易くする。ニューラルネットワークは、入力層としてPI耐性株に頻繁に現れる39個の突然変異を用いて、バックプロパゲーション学習アルゴリズムを使用して処理された。処理セットとして広範なPI表現型耐性を持つ1015個の臨床サンプルを使用し、そして試験セットとして53個の独立したサンプルを使用した。ニューラルネットワークは５種の臨床的に認められたPIに対する耐性の予測に関して87％の正しい割合を有した。さらに表現型アッセイにより決定されるように耐性の予測された規模と実際の耐性との間に優れた相関があった。この分析に関する全相関係数（ｒ値）は、0.91であった。結局、我々はPI耐性を持つ臨床的サンプルを同定するために、サーチエンジン中にこの39個の突然変異群を使用した。さらに我々は、特別なRT突然変異をd4T耐性と関連させることが困難なことが多かったので、ニューラルネットワークを処理してスタブジン(d4T）耐性突然変異の同定も可能とした。
【０１５９】
すべての特許および特許出願は全部、引用により本明細書に編入する。
【０１６０】
本発明の他の態様はここに開示する本発明の明細書および実施を考慮すれば当業者には明らかとなるだろう。明細書および実施例は具体的例示のみであると考え、本発明の真の範囲および精神は前記の特許請求の範囲により示されることを意図する。
【図面の簡単な説明】
本明細書に包含し、そして一部を構成する添付図面は、本明細書の種々の態様および／または特徴を具体的に説明し、そして説明と一緒に本発明の原理を説明するために役立つ。この図面では：
【図１】遺伝子型と表現型耐性との間の関係を補足する例示的枠セットを表す。
【図２】本発明に従いニューラルネットワークを使用した遺伝子型情報に基づき表現型耐性を予測するための例示的流れ図を表す。
【図３】３層のニューラルネットワークに関する例示的枠セットを表す。この例の網はＩ入力、Ｊ隠れ装置およびＫ出力装置、および２つの偏向装置（両方が１の入力信号を有する（すなわちｘ₀およびｚ₀）を有する。この例の３層ニューラルネットワークは適応加重（ｗ_jiおよびｗ_jk）の２層を有し、これはそれぞれ入力信号ｘ_iに関連する第ｊ番目の隠れ装置の加重、および隠れ信号ｚ_jに関連する第ｋ番目の出力装置の加重である。
【図４】図４（ａ）は、隠れノードの数に対する処理と試験誤差との間の例示的比較であり、図４（ｂ）は、誤差許容指数に対する処理数と試験誤差との間の例示的比較である。
【図５】 12個の突然変異パターンに関する耐性の規模の例示的プロットである。
【図６】処理セットに含まれるノイズデータを持つニューラルネットワークからのPI遺伝子型と表現型との間の一致率を具体的に説明するグラフである。
【図７】処理セットにノイズデータを含まないニューラルネットワークからの一致率をを具体的に説明するグラフである。
【図８】 30個の突然変異を使用して、予測される表現型と実際の表現型との間の回帰分析を提供する。
【図９】 90個の突然変異／多形を使用して、予測される表現型と実際の表現型との間の回帰分析を提供する。
【図１０】表現型（phenos）治療薬耐性を付与する新規な遺伝子型（genos）突然変異を同定するための例示的枠セットを提供する。この枠セットでは、ｘおよびｙはニューラルネットワークにより試験される突然変異の数を称し、ｘ-VPはｘ-突然変異モデルに関する「仮想」の表現型を称し、そしてｘ-DPVPは「真」の表現型と「仮想」の表現型との間の差異を称する。
【図１１】９-から26-モデルへニューラルネットワークの予測を改善した突然変異の棒グラフの具体的説明である。
【図１２】９-から60-モデルへニューラルネットワークの予測を改善した突然変異の棒グラフの具体的説明である。

Claims

ヒト免疫不全ウイルス（ＨＩＶ）の治療薬への耐性を予測するための方法であって、
（ａ）ｉ）ＨＩＶの治療薬への耐性の変化を引き起こす表現型変化に相関する遺伝子突然変異に対応するメンバーを含んでなる処理データセットを使用し、
ｉｉ）フィードフォワード様式で処理データセットを増殖し、
ｉｉｉ）関連する誤差を計算し、
ｉｖ）該誤差をバック−プロパゲーションし、
ｖ）ニューラルネットワークによって決定された加重を調整し、
ｖｉ）工程ｉｉ）、ｉｉｉ）、ｉｖ）ｖ）を繰り返すことにより誤差関数を最小にし、
ｖｉｉ）適当な処理を確保するために、ＨＩＶの治療薬への耐性の変化を引き起こす表現型変化に相関する遺伝子突然変異に対応するメンバーを含んでなり且つ処理データセットとは異なる、試験データセットを使用すること、
によって処理された、処理されたニューラルネットワークを提供し、
（ｂ）ｉ）該ＨＩＶのサンプルを得ること、
ｉｉ）該サンプルからの遺伝子配列を得ること、
によって、決定されたＨＩＶからの遺伝子配列を提供すること、
（ｃ）該決定された遺伝子配列及び該処理されたニューラルネットワークを使用してＨＩＶの治療薬への耐性を予測すること、
を含んで成る、上記方法。
ＨＩＶの治療薬への耐性を予測するための方法であって、
（ａ）ニューラルネットワークを提供し、
（ｂ）該ニューラルネットワークを、処理データセットの各々のメンバーがＨＩＶの治療薬への耐性の変化を引き起こす表現型変化に相関する遺伝子突然変異に対応する、処理データセットで処理し、
該処理が、
ｉ）フィードフォワード様式で処理データセットを増殖し、
ｉｉ）関連する誤差を計算し、
ｉｉｉ）該誤差をバック−プロパゲーションし、
ｉｖ）ニューラルネットワークによって決定された加重を調整し、
ｖ）工程ｉ）、ｉｉ）、ｉｉｉ）ｉｖ）を繰り返すことにより誤差関数を最小にし、
ｖｉ）適当な処理を確保するために、ＨＩＶの治療薬への耐性の変化を引き起こす表現型変化に相関する遺伝子突然変異に対応するメンバーを含んでなり且つ処理データセットとは異なる、試験データセットを使用すること、によって行われ、
（ｃ）ｉ）該ＨＩＶのサンプルを得ること、
ｉｉ）該サンプルからの遺伝子配列を得ること、
によって、決定されたＨＩＶからの遺伝子配列を提供すること、
（ｄ）該決定された遺伝子配列及び該処理されたニューラルネットワークを使用してＨＩＶの治療薬への耐性を予測すること、
を含んで成る上記方法。
ＨＩＶの治療薬への耐性を予測することが可能な処理されたニューラルネットワークであって、
（ａ）入力ノードのセットの各メンバーがＨＩＶのゲノム中の突然変異に対応する、入力ノードのセット；
（ｂ）場合により複数の１セット以上の隠れノード；
（ｃ）出力ノードのセットの各メンバーがＨＩＶを処置するために使用する治療薬に対応する、１セットの出力ノード；
を含んでなり、
（ｄ）そして、処理されたニューラルネットワークが、
適当な処理を確保するために、ＨＩＶの治療薬への耐性の変化を引き起こす表現型変化に相関する遺伝子突然変異に対応するメンバーを含んでなり且つ処理データセットとは異なる、試験データセットを使用して、
ｉ）ＨＩＶの治療薬への耐性の変化を引き起こす表現型変化に相関する遺伝子突然変異に対応するメンバーを含んでなる処理データセットを使用し、
ｉｉ）フィードフォワード様式で処理データセットを増殖し、
ｉｉｉ）関連する誤差を計算し、
ｉｖ）該誤差をバック−プロパゲーションし、
ｖ）ニューラルネットワークによって決定された加重を調整し、
ｖｉ）工程ｉｉ）、ｉｉｉ）、ｉｖ）、ｖ）を繰り返すことにより誤差関数を最小にすること、
によって処理されている、
上記処理されたニューラルネットワーク。
該耐性が治療薬のIC ₅₀ またはIC ₉₀ 値における倍率の変化として表される、請求項１に記載のＨヒト免疫不全ウイルス（ＨＩＶ）の治療薬への耐性を予測するための方法。
該ニューラルネットワークが３層フィードフォワードニューラルネットワークである、請求項１に記載の方法。