JP2003530651A - 生物学的/製薬学的スクリーニング実験においてアウトライヤーを検出する方法および装置 - Google Patents

生物学的/製薬学的スクリーニング実験においてアウトライヤーを検出する方法および装置

Info

Publication number
JP2003530651A
JP2003530651A JP2001575353A JP2001575353A JP2003530651A JP 2003530651 A JP2003530651 A JP 2003530651A JP 2001575353 A JP2001575353 A JP 2001575353A JP 2001575353 A JP2001575353 A JP 2001575353A JP 2003530651 A JP2003530651 A JP 2003530651A
Authority
JP
Japan
Prior art keywords
chemical
candidate
data set
activity
descriptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001575353A
Other languages
English (en)
Inventor
ウータース,ルシアン・ジヨセフ・マリア・ロザリア
エンゲルス,ミヒヤエル・フランツ・マルタン
ベツグス,マーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Janssen Pharmaceutica NV
Original Assignee
Janssen Pharmaceutica NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Janssen Pharmaceutica NV filed Critical Janssen Pharmaceutica NV
Publication of JP2003530651A publication Critical patent/JP2003530651A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 管理されたラーニング技術と合わせて化学記述子方法論を利用する、製薬学的大量スクリーニング実験においてアウトライヤー、より具体的にはフォールスネガティブおよび/またはフォールスポジティブを検出する新規な方法および装置が提供される。この方法は、そのようなアウトライヤーの検出のために、化学化合物と生物学的活性との間の潜在的な構造−活性関係を用いる。本方法は、個々の化合物ならびに化合物のプールまたは混合物に応用することができる。

Description

【発明の詳細な説明】
【0001】 本発明は、改良されたスクリーニング技術の使用による新規な化学組成物およ
び化合物の開発、ならびに本方法を実施するために適当な装置に関する。本発明
は、特に化学化合物ライブラリーのハイスループットスクリーニングにおいて有
利な用途を見い出す。
【0002】 技術的背景 化学化合物ライブラリーのハイスループットスクリーニング(HTS)は、多
数の製薬会社においてリード同定過程のキー構成要素とみなされており、そして
また、多数の他の技術分野における化学組成物の同定のため、例えば除草剤、殺
バクテリア剤、殺虫剤、殺菌・殺カビ剤、殺蠕虫剤の同定のために使用されても
よい。そのような会社は、構造的に明確な化合物の大コレクション確立していて
、これが薬物標的のリード同定プログラムのための出発点として働いている。典
型的な企業の化合物コレクションは、今や100,000〜1,000,000
個の区別される化学的実体を含有している。チャレンジは、特定の生物学的標的
に対して活性を示すそれらの化合物を迅速に同定することである。適当な活性を
示す化合物は、究極的には、化学構造の改変によって生物学的活性の最適化を目
指したリード最適化プログラムの基礎を形成するであろう。
【0003】 過去2,3年間、1日当たりおよび1アッセイ当たり2,3千の化合物のスル
ープットが十分であると考えられていたが、今日では、製薬会社は1週当たり数
十万の化合物を試験する超ハイスループットスクリーニング技術を目指している
。このゴールは、スクリーニング過程の中にロボットシステム、小型化およびデ
ータ処理ソフトウェアを広範に導入することによって達成された。特殊化された
グループが、これらの種々のタイプの技術を利用するために設立された。これは
、スクリーニングが科学研究の焦点よりもむしろ工業的な生産工程に好ましいと
いう見解をもたらした。
【0004】 種々の動作/測定は、低中等度スループットスクリーニングにおいて伝統的に
用いられたものに較べて、これらの莫大な数の化合物の試験を可能にすることが
求められる。例えば、伝統的な低中等度スループットの実験は、試験化合物を複
数の並列サンプルとしてスクリーニングすることによって実施される。この選択
は、しばしば、費用、資源および時間という理由でHTS実験には当てはまらな
い。典型的な企業の化合物コレクションは、各化合物が単一サンプルによって表
される1000〜5000個の96穴マイクロプレート内に含められるであろう
。スクリーニングコストは、典型的には、1化合物および1アッセイ当たり$0
.50〜$2.00である。2並列および3並列においてこのサイズの化合物コ
レクションを試験するために要求される時間および金銭におけるさらなる間接費
が、これを非現実的な提案にさせる。さらに、組み換えタンパク質のような生化
学物質の限られた資源が、多くの測定を絶対的な最小量に限定するさらなるパラ
メーターとなる。これらの制約の外に、用いられる高レベルの自動化は、スクリ
ーニングオペレーターが、彼らが手動でスクリーニングを実施している場合には
気づくであろうエラーまたはシステムの機能不全について気付かないという結果
も有している。高速自動試薬ディスペンサーおよびロボットピペッティング機器
の広範な使用は、例えば、試薬がマイクロタイタープレートの全ウェル中に分配
されたか否かを人間のオペレーターがチェックできないという結末を有している
。この種のエラーは、1個以上のマイクロタイタープレートを横断する系統的な
エラーの出現をもたらす。近年、稼働しているシステムの挙動をオンラインでモ
ニターするか、あるいはスクリーニングの一部の完結後に誤差を含んだ測定値を
スクリーニングオペレーターが特定するのを助ける、ソフトウェアパッケージが
開発された。これらのソフトウェアパッケージは、1個のマイクロプレート内か
、または一連の隣接するマイクロプレート内で生じる系統的エラーを明確にする
。これらの開発の結果として、HTSデータセットからの、例えば、機能不全の
試薬ディスペンサーまたはシグナル検出の失敗より生じる系統的なエラーを排除
することが今や可能である。
【0005】 これらのシステムの組み入れにもかかわらず、アウトライヤー(outlie
r)の検出は、スクリーニングプロセスの品質管理における重要な問題をなお提
示する。本発明の文脈上アウトライヤーは、記録された活性状態がそれらの実際
の活性状態とは異なっている試験サンプルとして定義される。例えば、フォール
スポジティブのアウトライヤーは、フォールスヒットもしくはフォールスアクテ
ィブとも呼ばれ、活性があるとして最初に記録されたが、実際には不活性な試験
サンプルであると同定された試験サンプルである。他方、フォールスネガティブ
は、実際には活性があるが最初のスクリーニング実験によってはピックアップさ
れなかった試験サンプルである。両タイプのアウトライヤーは、スクリーニング
キャンペインの成功と効率に大きな影響をもつことができる。高率のフォールス
ポジティブは無益なヒット確認試行において重要な化学および生物資源を浪費す
る。しかしながら、フォールスネガティブは、そのようなスクリーニングの結果
のために、作業している化学者に対して固有の構造−活性関係の誤った像を与え
る。最終的に、フォールスネガティブは、機会の喪失そして究極的には可能性の
ある薬物リードを失うことを意味する。
【0006】 アウトライヤーの存在は、広範囲の物質起源に関係するであろう。第1に、ス
クリーニングそれ自体の本質的な違い、すなわち、生物調製物は、生物系がより
複雑になるほどアウトライヤーの生成に対して一層敏感になる傾向をもつ第1の
起源を構成する。第2に、スクリーニングシステムの物理的構成要素、ディスペ
ンサー、ロボットピペッティング器具およびシグナル検出ユニットにおけるラン
ダムな変化が、アウトライヤーの出現に寄与する。第3に、単独のシステム構成
要素の突発的機能不全のような単独事象の発生が、スクリーニング操作における
もっとも深刻な脅威を形成する。
【0007】 アウトライヤーの検出のための多数の理論的処理が、統計学文献において見い
出すことができる。しかしながら、製薬学上の大量スクリーニングに関しては、
迅速であり、そして高度の自動化を可能にするそのような方法のみが応用されて
きた。Lutzらによる文献”Statistical Considerat
ions in High Throughput Screening”、 etwork Sci. 1996[electronic publicati
ons]は、当該技術の現状の良好な説明を提供している。アウトライヤーを発
見するためにもっともしばしば応用される方法は、Hawkins and B
radu、Rocke and Woodruff、またはAtkinsonに
よるものである。しかしながら、並列体の使用は、前述のように費用と時間の制
約により常に選択肢になるとは限らない。
【0008】 総括すれば、すべての先行技術アプローチは、可能性のあるアウトライヤー候
補の検出のために、測定される応答値、すなわち生物学的活性のみを使用する。
すなわち、それらは、データ中に系統的な相関関係エラーが存在するか否かを決
定するために標準の統計学的技術を使用した。
【0009】 次の文献は、本発明を理解する際に有用であろう:
【0010】
【表1】
【0011】 本発明の1つの目的は、スクリーニング試験においてアウトライヤーの検出を
改良すること、特に、フォールスポジティブおよび/またはフォールスネガティ
ブの改良された検出である。
【0012】 発明の概要 本発明の1つの態様では、潜在的なフォールスポジティブ(false positive)お
よび/または潜在的なフォールスネガティブ(false negative)である、アウトラ
イヤー候補を検出するために、被検化合物の化学構造に存在する情報のさらなる
使用が行われる。さらなる段階では、これらの候補は、それらが真のフォールス
ポジティブかまたはネガティブであるか否かを決定するために再試験されてもよ
い。
【0013】 本発明は、1組の候補化学対象物のスクリーニングアッセイの結果における定
量的な構造−活性関係を用いてアウトライヤー候補を同定する方法であって、 候補化学対象物について生物学的または化学的活性値について類別(categorized
)データセットを作成し; 被検候補化学対象物について構造−活性関係(SAR)データセットを作成し;
そして SARデータセットを分析して類別データセットにおいて間違って類別されてい
る少なくとも1種のアウトライヤー候補を決定すること: を含む方法を提供する。
【0014】 本発明は、一連の分子のすべては関心のある生物系において何らかの活性を示
すので、それらの化学構造は、活性にとって重要である共通の外観または構造を
有するという事実を使用する。本発明は、生物活性と構造的または物理化学的パ
ラメーターとの間の関係を表す定量的モデルを開発し、そしてこのモデルを使用
して低い確率で正しいことが期待されるこれらの試験結果を検出することによっ
て、構造的および/または物理化学的特徴と新規の方法における活性との間のこ
の固有であるが場合によっては潜在的な関係を使用する。
【0015】 本発明は、生物学的活性化合物のスクリーニングアッセイにおいて、少なくと
も1種のアウトライヤー候補、例えば、類別が単純な二者択一のものである場合
の、潜在的なフォールスポジティブまたは潜在的なフォールスネガティブの同定
のための定量的構造−活性関係の使用を含む。構造−活性関係は、好ましくは、
試験される各化合物を記述するために使用される分子モデルに基づいている。構
造−活性関係は、好ましくは、試験されるべき各化合物を記述するために使用さ
れる複数の同定子(identifier)または記述子(descripto
r)であって、関連化合物またはその組み合わせ物の測定されるかまたは計算さ
れる特性に関係する各同定子または記述子を含む。活性を分析するための好適な
方法は、コンセプトラーニング(concept learning)システム
に基づく。回帰、判別分析、決定トリー(decision tree)および
神経(neural)ネットワークが、被検化合物および分子モデルの活性の分
析のために使用されてもよい。回帰分析は、2項分布またはBernouill
i分布に基づく論理的(logistic)回帰分析のように、一般化線形モデルに基づい
てもよい。 また本発明は、複数の候補化学対象物の生物活性のスクリーニングアッセイに
おいて、アッセイで試験された各化学対象物の測定された活性から決定される少
なくとも1種のアウトライヤー候補の同定方法であって、 各化学対象物の構造の分子モデルに関する1組のパラメーターによってアッセイ
において試験される各化学対象物を定義し;そして 特定の化学対象物に伴う活性レベルが予め決定された確率の外にあるか否かを、
各化学対象物について決定するために、活性値およびパラメーターセットの分析
を実施すること: の段階を含む方法を提供する。定義段階は: a)スクリーニングアッセイにおいて試験された各化学対象物についての1組の
記述子を計算し、そしてアセンブリング(assembling)し; b)段階a)の結果を各化学対象物についてのベクトル(vector)中に集
合させ、続いて、段階: c)化学対象物に関するすべてのベクトルを、化学対象物に対応するマトリック
スの各行および記述子に対応する各列、またはその逆を有するマトリックス中に
アセンブリングすること: を含んでもよい。場合によっては、化学対象物またはそれらの統計的関連性によ
る記述子の数は、例えば主成分分析(principal component analysis)または因子
分析(factor analysis)によって減少されてもよい。
【0016】 また方法は、複数のクラス、好ましくは、いずれか生物学的に活性かまたは不
活性の化学対象物である2つのクラス中に測定された活性を定量化し、そしてク
ラスの1つを各化学対象物に指定する段階を含む。アウトライヤー候補を同定す
るために、各化学対象物が活性クラスの1つに属する確率の値が計算される。確
率の計算段階は、例えば、回帰、判別分析、決定トリーの使用および神経ネット
ワークの使用の1つであってもよい。回帰段階は、最小平均平方および線形論理
回帰の1つを含んでもよい。最後に、化学対象物が活性クラスに属している確率
が、その化学対象物について測定された活性クラスと比較され、そして化学対象
物が測定された活性クラスに属していない高い確率が存在すればアウトライヤー
候補としてマークされる。例えば、化学対象物は、測定された活性クラスに属し
ていない確率が閾値以上であればアウトライヤー候補としてマークされる。
【0017】 方法は、ソフトウェアコードをもつコンピュータープログラムにおいて実行さ
れ、そしてコンピューター読み取り可能な媒体に保存されてもよく、そしてコン
ピューターシステムにおいて実施されてもよい。
【0018】 また本発明は、複数の候補化学対象物の生物活性についてのスクリーニングア
ッセイの結果から少なくとも1種のアウトライヤー候補を同定するための装置で
あって、 アッセイにおいて決定された化学対象物の活性をインプットし、そして各化学対
象物の構造の分子モデルに関係する1組のパラメーターを含む、アッセイにおい
て試験された各化学対象物の定義をインプットするためのインプット機器;およ
び 特定の化学対象物に伴う活性レベルが予め決定された確率の外にあるか否かを各
化学対象物について決定するために、活性値およびパラメーターセットの分析を
実施するための処理機: を含有する装置を提供する。
【0019】 本発明は、複数の候補化学対象物の生物活性についてのスクリーニングアッセ
イにおいて、アッセイにおいて試験された各化学対象物の測定された活性から決
定される少なくとも1種のアウトライヤー候補を同定する方法であって、 複数の化学対象物の記述および各化学対象物のアッセイの活性結果を1地点の端
末中に負荷し; 本発明による方法を実施するために遠隔地点に記述および活性結果を伝達し、そ
して少なくとも1種のアウトライヤー候補の定義を1地点において受け取ること
: の段階を含む方法を包含する。
【0020】 本発明のさらなる態様では、複数の化学化合物についてのスクリーニングアッ
セイの結果において、少なくとも1種のアウトライヤー候補を同定する方法であ
って、 (a)スクリーニングアッセイの被検物(subject)であった複数の化学
化合物各々の少なくとも1つの特徴を表す1組の記述子を作成し; (b)複数の化学化合物各々について、それぞれの記述子によって表される特徴
の予測値を各々定義するデータポイントを含む、記述子マトリックスを作成し;
(c)アッセイにおける各化学化合物の性能について類別された値を含む、スク
リーニングアッセイの被検物であった化学化合物に関する対応する実験データセ
ットを作成し; (d)構造活性(SAR)データセットを作成するために、実験データセットを
記述子マトリックスと合併させ; (e)SARデータセットに統計学的分析を適用し;そして (f)SARデータセットの統計学的分析に基づいて、そこに不正確に類別され
た実験データセットにおける、対応する少なくとも1種の化学化合物を表す少な
くとも1種のアウトライヤー候補を同定すること: の段階を含む方法が提供される。
【0021】 なおさらに、本発明は、複数の化学化合物についてのスクリーニングアッセイ
の結果において、少なくとも1種のアウトライヤー候補を同定する方法であって
、 (a)第1の遠隔地点において、スクリーニングアッセイの被検物であった複数
の化学化合物各々の少なくとも1つの特徴を表す1組の記述子を作成し; (b)第2の1地点において、複数の化学化合物各々について、それぞれの記述
子によって表される特徴の予測値を各々定義するデータポイントを含む、記述子
マトリックスを作成し; (c)重複(redundant)かまたは1次(linearly)依存性で
あることが決定される記述子マトリックスのそれらの要素を除去し; (d)アッセイにおける各化学化合物の性能について2元フォーマットにおいて
類別された値を含む、スクリーニングアッセイの被検物であった化学化合物につ
いての対応する実験データセットを作成し; (e)定量化された構造活性(QSAR)データセットを作成するために、実験
データセットを記述子マトリックスと合併させ; (f)QSARデータセットに対して、回帰分析、判別分析、決定トリーおよび
神経ネットワークの1つを含む、コンセプトラーニング分析を適用し;そして (g)QSARデータセットのコンセプトラーニング分析に基づいて、そこに不
正確に類別された実験データセットにおける、対応する少なくとも1種の化学化
合物を表す少なくとも1種のアウトライヤー候補を同定すること: の段階を含む方法を提供する。
【0022】 本発明のなおその他の態様では、複数の化学化合物についてのスクリーニング
アッセイの結果において、少なくとも1種のアウトライヤー候補を同定するため
の装置であって、 スクリーニングアッセイの被検物であった複数の化学化合物各々の少なくとも1
つの特徴を表す1組の記述子を作成するための第1のプロセッサー; 複数の化学化合物各々について、それぞれの記述子によって表される特徴の予測
値を各々定義するデータポイントを含む、記述子マトリックスを作成し、そして
アッセイにおける各化学化合物の性能について類別された値を含む、スクリーニ
ングアッセイの被検物であった化学化合物に関する対応する実験データセットを
作成するための第2のプロセッサー; 構造活性(SAR)データセットを作成するために、実験データセットを記述子
マトリックスと合併させるための手段を含む装置; SARデータセットに統計学的分析を適用するための手段;および SARデータセットの統計学的分析に基づいて、そこに不正確に類別された実験
データセットにおける、対応する少なくとも1種の化学化合物を表す少なくとも
1種のアウトライヤー候補を同定するための手段: を含む装置が提供される。
【0023】 本発明のさらなる態様では、複数の化学化合物についてのスクリーニングアッ
セイの結果において、少なくとも1種のアウトライヤー候補を同定するための装
置であって、 遠隔地点において、スクリーニングアッセイの被検物であった複数の化学化合物
各々の少なくとも1つの特徴を表す1組の記述子を作成するための第1のプロセ
ッサー; 第2の1地点において、複数の化学化合物各々について、それぞれの記述子によ
って表される特徴の予測値を各々定義するデータポイントを含む、記述子マトリ
ックスを作成し、重複かまたは1次依存性であることが決定される記述子マトリ
ックスのそれらの要素を除去し、そしてアッセイにおける各化学化合物の性能に
ついて2元フォーマットにおいて類別された値を含む、スクリーニングアッセイ
の被検物であった化学化合物についての対応する実験データセットを作成するた
めの第2のプロセッサー; 定量化された構造活性(QSAR)データセットを作成するために、実験データ
セットを記述子マトリックスと合併させ;QSARデータセットに対して、回帰
分析、判別分析、決定トリーおよび神経ネットワークの1つを含む、コンセプト
ラーニング分析を適用し;そしてQSARデータセットのコンセプトラーニング
分析に基づいて、そこに不正確に類別された実験データセットにおける、対応す
る少なくとも1種の化学化合物を表す少なくとも1種のアウトライヤー候補を同
定するために、さらに配置されている装置: を含む装置が提供される。
【0024】 本発明のさらなる実施態様は、添付される請求項において定義される。本発明
は、ここに、次に示す図面に関して記述される。
【0025】 [定義] アウトライアー:本発明の範疇の真のアウトライアーは、その記録され、測定
された活性クラスがその実際の活性クラスに対応しない候補化学物質(もしくは
試験試料)である。
【0026】 アウトライアー候補物は本発明に記載の方法により可能なアウトライアーとし
て示唆された化学物質(もしくは試験試料)である。
【0027】 候補化学物質:候補化学物質は、そこで化学物質が別々の化合物、すなわち化
学分子および/または化合物の貯留物もしくは混合物、を含んで成ることができ
る、アッセイで試験された化学物質すべてを表わす。
【0028】 活性クラスに属する確率:候補のアウトライアーを識別する段階において、候
補の化学物質がある活性クラスに属する確率が前記化学物質の測定活性クラスに
比較され、その化学物質が与えられた活性クラスに属さない確率が高い場合に、
アウトライアー候補物とマークされる。《高い》は閾値を表わすことができる。
【0029】 活性クラスを決定するための統計的決定基準:これらは百分位数、X−o−ル
ール、仮説試験法(例えば、スチューデントt−テスト)等のような方法に基づ
くことができる。
【0030】 記述子:本発明の範疇の記述子は候補化学物質の測定されたおよび/もしくは
計算された特徴の組み合わせに関し、前記の計算された特徴はClogP、Al
ogP、CMRもしくはMACCS−キー、等のようなコンピューターに基づく
方法を使用して得ることができる、logP、電気位相学的インデックスおよび
構造キーのような物理化学的および構造的特徴を含んで成り、そして前記の測定
された特徴は、溶解度、融点、分子質量、pKa、既知の治療クラス、例えば、
pIC50、pKi等と表わされた1種もしくはそれ以上の標的物に対する結合親
和性のような物理化学的、薬物運搬的および構造的特徴を含んで成る。
【0031】 [具体的態様の説明] 本発明は複数の候補化学物質の活性のためのアッセイにおいて少なくとも1種
のアウトライアー候補物を識別するための方法および装置に関する。候補化学物
質の活性値の分類されたデータセットを作成し、アッセイで試験された化学物質
の記述子マトリックスを規定する。記述子マトリックスを分類されたデータセッ
トとともに構造−活性相関(SAR)データセット中に合わせ、このSARデー
タセットを分析して、アウトライアー候補物を識別する。分類されたデータセッ
トの作成は、候補の化学物質の活性値の、統計的決定基準に基づいて自動的に適
用された閾値を使用して数々の別な活性クラスへの分類もしくは使用者に規定さ
れた閾値を使用して、候補の化学物質の活性値の数々の別な活性クラスへの分類
の段階を含んで成ることができる。記述子マトリックスの規定はベクトル化記述
子データセットから、アッセイにおいて試験された各候補化学物質に対してベク
トル化記述子データを選択し、そしてアッセイで試験された化学物質に対応する
マトリックスの各列および記述子に対応する各行またはその反対、を有するマト
リックス中に、アッセイで試験された候補の化学物質に関連したすべてのベクト
ルを集める段階を含んで成ることができる。場合によっては、作成された記述子
マトリックスは、主成分および因子分析のような多変量分析法を使用して冗長性
および線形相関に対して最適化することができる。主要素分析は所望されない複
雑さを導入することができる冗長性を伴なわずに、多次元空間を表わすためのベ
クトルを識別する方法を提供する。
【0032】 候補の化学物質に対するベクトル化記述データセットは、化学構造の属性、生
物学的属性および/もしくは物理化学提供情報のような化学物質のデータを記述
子作成機関中に入れることにより作成することができ、前記記述子作成機関が入
力された物質の1組の記述子を計算する。ClogP、CMR、MACCS−キ
ーもしくは電気位相学的インデックスのようなコンピューターに基づく方法を使
用することができる。各化学物質に対する記述子プログラムの結果はコンピュー
ターの検索可能なフォーマット中に保存され、場合によっては、Informa
x、SAS Warehouse Administratorのような1組の
異なるデータベースもしくはデータ倉庫中に、ORACLE、ODR、Micr
osoft Accessのような標準データベースシステムに保存される。ア
ウトライアー候補物を識別するためのSAR−データセットの分析は、候補の各
化学物質に対して、関連する候補の化学物質がある活性クラスに属する確率値を
計算し、そして予想データセット中に前記の確率値を保存する段階を含んで成る
ことができる。活性クラスの数は2に制限することができる。誤って分類された
アウトライアー候補物、例えば、誤った正のもしくは負のアウトライアー候補物
は予測データセットから決定することができる。前以て規定された活性クラスに
対するアウトライアー候補物は予測データセットを前以て規定された活性クラス
に属する測定された活性をもつ候補化学物質に縮小し、この縮小された予測デー
タセットから、この前以て規定された活性クラスに属さない最高の確率をもつア
ウトライアー候補物を選択することにより、予測データセットから識別すること
ができる。例えば、誤った正のアウトライアーに対しては、最初に不活性と記録
された候補の化学物質を予測データセットから除去し、この縮小された予測デー
タセットから、不活性である最高の確率をもつアウトライアー候補物を選択され
る。誤った負のアウトライアー候補物は、予測データセットから、最初は活性で
あると記録された候補の化合物を除去し、この縮小された予測データセットから
活性である最高の確率をもつアウトライアー候補物を選択することにより予測デ
ータセットから識別することができる。
【0033】 確率値は例えば、回帰分析、判別子分析、決定木もしくは神経回路ネットワー
クのような概念学習システムを使用して計算することができる。本発明の更なる
アスペクトにおいて、回帰分析法は、logitリンク関数、probit、補
数対数−対数ンク関数もしくは他のリンク関数を使用する2項分布もしくはベル
ヌーイ分布に基づくロジスティック回帰のような一般化された線形モデルおよび
ポアソン分布に基づく対数−線形モデルである。アウトライアー候補物の選択は
使用者の規定された閾値に基づいて、もしくは前以て規定された数を、関連活性
クラスに属さない最高の確率をもつ候補化合物質を採用することにより実施する
ことができる。
【0034】 本発明はまた、複数の候補化学物質の活性に対するアッセイにおける少なくと
も1種のアウトライアー候補物の識別のための装置を提供することができ、その
装置は分類されたデータセットを作成するための作成装置、記述子マトリックス
作成装置、SAR−データセット作成装置およびアウトライアー評価装置、を含
んで成る。分類されたデータセット作成装置は候補化学物質の活性データを入力
するための手段(前記活性データは場合によっては活性データ保存装置上に保存
される)、候補化学物質の活性データを分類するための手段(前記活性データは
場合によっては、本発明に従う方法を使用して、活性データ保存装置から分類さ
れたデータセット中に、読み取られ、そこで前記の分類されたデータセットは場
合によっては、分類されたデータ保存装置中に保存される)を含んで成ることが
できる。記述子マトリックス作成装置は候補化学物質の化学物質データを入力す
るための手段(前記化学物質のデータは場合によっては、化学物質のデータの保
存手段上に保存される)、候補の化学物質に対するベクトル化された記述子マト
リックスを作成するための手段(ここで、化学物質のデータは記述子作成機関中
にアップロードされ、本発明の方法に従って各化学物質につきベクトル化記述子
マトリックスを計算し、前記ベクトル化記述子マトリックスは場合によっては、
ベクトル化記述子マトリックス保存手段上に保存される)を含んで成ることがで
きる。SARデータセット作成装置は候補の化学物質のベクトル化記述子マトリ
ックスおよび候補化学物質の分類データを構造−活性相関(SAR)データセッ
ト作成機関中にアップロードし、候補化学物質のアップロードされたベクトル化
記述子マトリックスを候補化学物質の分類データとともにSAR−データセット
中に合わせるための手段を含んで成ることができ、前記SAR−データセットは
場合によっては、SAR−データセット保存手段上に保存される。アウトライア
ー評価装置は、SAR−データセット中の各候補化学物質に対して確率値を指定
するための手段(前記SAR−データセットは場合によっては、SAR−データ
セット保存手段から、前記候補化学物質が活性クラスの1種に属することを読み
取られ、そこで確率値は場合によっては出力手段上に表示されそして/もしくは
保存手段上に保存される)、活性クラス中に誤って識別されるそれらの確率に従
って候補の化学物質を順位付けする手段、活性クラスの少なくとも1種を選択す
るための入力装置、および候補化学物質の数の関数として、選択された活性クラ
ス中のアウトライアー候補物の期待数sに対する出力手段、を含んで成ることが
できる。
【0035】 本発明に使用された方法および装置は化合物当たりの経費が各化合物に対する
複製試料の使用を禁ずるような高処理スクリーニング(HTS)のような大量ス
クリーニング実験におけるアウトライアーの確認および検出に特に有利な応用を
見いだす。第1の好ましい態様において、本方法は化合物が単独物質としてもし
くは混合物中でのいずれかで試験される(超)−高処理スクリーニングの結果と
して作成された大量のデータにその方法を適用することができる。HTSデータ
セットのサイズ、その複雑性並びにその構造の多様性が、部分的最小二乗分析(
PLS)もしくは複数線形回帰分析(MLR)のような量子的構造−活性相関(
QSAR)法の適用はあまり好ましくないことを意味する。これらのタイプの方
法は、本発明から排除はされないが、限定された、構造的に類似の化合物の組み
合わせの測定された活性を相関させる時に良好な結果を示す。しかし、それらは
概括的に、HTS実験で通常遭遇されるような大規模な構造的に多岐にわたるデ
ータセットの量子的構造−活性相関をモデル化することはできない。更に、高処
理スクリーニングにおいて試験された試験化合物の生物学的活性は最も頻繁に2
進活性ベクトルの形態で表わされ、すなわち化合物は活性もしくは不活性のいず
れかであると考えられる。これは更なる複雑さを与え、これらのQSAR法の使
用を更に有用でなくさせる。
【0036】 機械の学習における概念学習システム(Weiss & Kulikowsk
iを参照されたい)は1組の属性/記述子に基づいた観察物の分類および予測の
ための1群の監督された学習システムを包含する。典型的な概念学習システムは
決定木、判別子関数もしくは神経回路網のようなある全体的モデルにより作業す
るようになっている。概念学習システムの様々な具現が化学に存在するが(Zu
pan & Gasteigerを参照されたい)、広範な、大規模な化合物の
組み合わせにおいてアウトライアーを検出する具体的な問題に適合されたものは
なかった。本発明はスクリーニング実験におけるアウトライアーを検出するため
に、概念学習システム(もしくは監督学習システム)と組み合わせて活性−構造
相関を使用する装置のみならず、好ましくは、コンピューターに基づいた新規の
方法を特徴とする。1種の適切な活性−構造相関は化学記述子法である。
【0037】 本発明に従う方法は、製薬学的−化学的データセットに特徴的な隠れた構造−
活性相関の新規の利用に依存する。生物学的活性は量子化スケール、例えば、2
進スケールで表現される。本方法の一アスペクトは概念学習システムの使用であ
る。HTSデータセット中の分子は位相学的および物理化学的もしくは医薬運搬
的特徴の双方を含む多様な異なる化学的特徴を捕捉することができる1組の化学
記述子により表わされる。化学記述子および最初に測定された生物学的活性に基
づいて、活性もしくは不活性化合物のいずれかの群に対して1と0の間の確率値
で表わされた、データセット中の各化合物に対する親和度を予測する分類モデル
が開発される。計算された確率と実測反応間の偏りが高い場合は、分子は可能な
アウトライアーとして示される。この手順を使用して、数百もしくは数千すらの
分子を一緒に群に分類し、可能に正そして/もしくは誤った負のアウトライアー
であるそれらの可能性に従って順位付けすることができる。
【0038】 本発明は1種もしくはそれ以上のコンピューターもしくはコンピューターシス
テム中に充填され、それらの上で実行される、複数のコンピュータープログラム
により具体的な態様において実行することができる。例えば、コンピューターは
SGI Octaneのようなワークステーションであることができる。コンピ
ュータープログラムはコンピューターもしくはコンピューターシステム上での実
行のためのソフトウェアコードを含むことができる。ソフトウェアコードはコン
ピューターのハードディスク上もしくは1種もしくはそれ以上のCD−ROM上
のような適切な媒体上に保存することができる。本発明に従う方法は、LAN、
WAN上に配置されたまたはInternetもしくはIntranetのよう
な電話通信リンクによる近位端末に連結されたサーバー上で実施することができ
る。アウトライアーのリストは遠隔サーバー上でそれらの計算後、近位端末で受
信することができる。本発明はスクリーニング実験においてアウトライアー候補
物を決定するための強力な手段もしくは方法を提供し、高処理量のスクリーニン
グのための具体的な有用性を有する。
【0039】 本発明の更なる目的は、 スクリーニングアッセイを受ける化学物質の訓練セットのための生物学的もし
くは化学的活性値に対する分類された訓練データセットを形成し、試験された化
学物質に対する構造活性相関データセットを作成し、そしてSARデータセット
を分析して、分類されたデータセット中の誤って分類された化学物質の予測装置
のモデルを決定する、 同一のスクリーニングアッセイを受ける異なる化学物質の第2組に対する生物
学的もしくは化学的活性値に対して分類された第2のデータセットを形成し並び
に 前記予測装置モデルを使用して前記の分類された第2のデータセット中の少な
くとも1種の誤って分類された化学物質を決定すること、 の段階を含んで成る、スクリーニングアッセイの誤って分類された結果を予測す
るための方法を提供することである。
【0040】 予測装置モデルが第2のスクリーニングアッセイで試験された具体的な化学物
質に対する記述子を使用することより成る前記に従う方法は、訓練セットの結果
の基づいた具体的な活性クラス中にあるその確率を決定し、第2のスクリーニン
グアッセイ中の具体的な化学物質の測定された活性を、この活性クラス中に入る
これらの記述子をもつ化学物質の確率と比較し、この比較に基づいて、測定され
た活性クラスが誤りであることが可能であるか否かを決定する。
【0041】 図において、そしてとりわけ、図1において、化学記述子法と一緒に概念学習
システムを使用して、スクリーニング実験における可能なアウトライアーを検出
するための方法が開示されている。
【0042】 最初に(図1を参照されたい)、1組の記述子をスクリーニング実験の主題で
ある各分子に対して作成する(段階1)。本発明における記述子は、化学の範疇
において、化学的に説明可能で、それらが有用な化学構造的および/もしくは物
理化学情報を捕捉することができる十分な詳細を有するあらゆる種類の記述的表
現と定義される。本発明のための入力を形成することができる具体的な記述子の
例は、異なる種類の2進の指紋法もしくは構造キー、ClogP、CMRもしく
は分子量のような物理化学的パラメーターの1D記述子、または医薬運搬もしく
は立体情報をコードする記述子である。選択された記述子は好ましくは、段階3
において外部で計算されて(図1を参照されたい)、本発明の使用において極め
て高度な柔軟性を可能にする。
【0043】 外部の段階において記述子の計算を実施する幾つかの理由がある。第1に、新
規の記述子が開発される速度を考慮すると、本発明に従う方法は性能および精度
を適応させ、改善するために新種の記述子を含むことを可能にするために十分柔
軟である。第2に、本発明は1種の具体的なコンピュータープラットフォームに
限定されないので、数種の記述子が異なるプラットフォーム上ですら平行に作成
され、本方法の性能および柔軟性を増加することができる。
【0044】 外部記述子プログラムの出力は構文解析され、計算の結果はデータ三重体の形
態で保存される。各三重体は化合物の化合物識別装置、計算に使用された記述子
の種類およびその記述子の種類に対する計算値より成る。データ三重体は急速な
検索および処理のために異なる種類のデータベースシステム上に容易に保存する
ことができる。
【0045】 外部の計算を一旦完了すると、記述子を組み合わせて、それぞれの化合物に作
図する(図1の段階2)。この作図手順の結果として、マトリックスの各p行が
具体的な記述子のタイプを表わし、各n列が最初のデータセット中の1分子を表
わす記述子のn×pマトリックスが形成される。マトリックスは各分子と関連し
た化合物IDにより拡張される(augmented)。
【0046】 本発明の次の段階、図1の段階4において、化学記述子のn×pマトリックス
は冗長性および線形依存性につきチェックされる。マトリックスから冗長な行、
すなわち、例えば、2進コード記述子データに対してすべて0もしくは1である
行のような、各要素中で同一の行、を除去するための簡単な試験手順を使用する
。次に、最初の入力変数の線形組み合わせ物である1組の直交説明変数(主成分
)を識別するために、標準主成分分析もしくは特異値分解法を適用する。主成分
はそれらが最初の記述子空間の偏差から捕捉する偏差の百分率に従って順位付け
する。記述子の最初の入力マトリックスの偏差の100%を表わす最小の主成分
の1組が保存される。あるいはまた、記述子マトリックスが2進コードデータの
みより成る場合は、クロス生成物のマトリックスに対する初歩的列操作を使用し
て、行間の線形依存性を排除することができる。更に、2コード記述子データに
対しては、反応データとの単一変数変化結合(以下を参照されたい)を依存性に
対するカイ−二乗検定により予備試験することができる。0.2のように低いp
−値を有する化学記述子は本発明の次の段階に対する候補の予測子と考えられる
。示唆された手順のいずれかの結果の変換マトリックスは最初の記述子マトリッ
クスに等しいかもしくはそれより小さいサイズであろう。
【0047】 その間に、スクリーニング実験における各化合物の効力の経験的データベース
を収集する(段階5)。化合物の効力がインターバルスケールで表わされると、
効力の値の多数の別々のクラスへの、例えば、2種の異なるクラスへの量子化(
段階6)が誤って実施される。分割基準としては概括的に効力値の一定の百分位
数が使用される。生成されたベクトルYは2進フォーマットにコードされた測定
化合物のすべての活性を含有する、すなわち、活性化合物は「1」により、不活
性化合物は「0」により表わされる。誤った閾値は、その場合、2進量子化に対
して適用される異なる分割基準を入力することができるオペレーターにより上書
きされることができる。次に、2値化された効力値のベクトルYを記述子の変換
マトリックスとともにQSAR表に合わせる。
【0048】 次の段階(図1の段階7、8)において、QSAR表上で統計分析プログラム
を実施して、アッセイ内の類似化合物もしくは化学薬品群の他の結果と一致しな
い測定活性を識別する。この分析は概念学習システムで実施することができる。
例えば、統計的に有意なレベルで、推定された固有の構造−活性相関の外側に存
在する結果を決定するために記述子と活性レベル間に回帰分析を実施する。1種
の好ましい回帰分析法はロジスティック回帰分析法である。ロジスティック回帰
(ロジスティック判別分析)はカテゴリーデータの分析のための統計的方法であ
る。Yiは化合物の2分された反応を表わす。活性であると認められた化合物に
対する可能な結果は1により表わし、不活性と分類された化合物に対しては0に
より表わされる。Yiはベルヌーイ分布されていると仮定する。次に、i番目の
化合物が活性であると認められる確率は
【0049】
【数1】
【0050】 [ここで、β0…βpはモデルの未知パラメーターであり、x1…xpは前段階で保
持された化合物のp説明変数である] としてモデル化することができる。この応用の場合のような重複決定されたモデ
ルに対してはインターセプトβ0を省くことがしばしば必要である。モデル[等
式1]はまた、2項分布およびlogitリンク関数を有する一般化された線形
モデルと呼ばれる。これも本発明の一部である代替のモデルはprobit(n
ormit)および相補対数−対数リンク関数を使用して2項もしくはベルヌー
イ分布に基づくモデルである。説明変数が本明細書における事例のように分類さ
れる時は、ポアソン分布に基づいた対数−線形モデル(ポアソン回帰)はlog
itモデルに等しく、本発明の一部でもある。
【0051】 モデル[1]は標準統計パッケージを使用するデータに適合されて、パラメー
【外1】
【0052】 次の段階において(段階9)、研究者は彼もしくは彼女が再試験したい誤った
負のn1および誤った正のn2化合物の数の閾値を設定するかあるいはまた、前以
て決定された値もしくは誤った値が推定される。次に化合物のリストを活性であ
る予測確率の減少順序で検索する(段階10)。最初は不活性であると分類され
たリストの最初の化合物n1は負の偽物としての再試験の候補物である。その反
対に、最初は活性であると見なされた最後の化合物n2は正の偽物と考えられる
【0053】 個別の化合物のみならずまた、化合物の貯留体もしくは混合物も本発明の主題
であることができることを理解することは重要である。概念的には、化合物、異
性体、配座異性体、等の混合物もしくは貯留体をその貯留体中の記述子の線形補
間体として考えることができ、単一の物質と極めて同様に分析することができる
。広範に言えば、別個の化合物もしくは個体はデータ物質(それ自体は混合物で
はない物質)であるがそのような貯留体もまたそれぞれ、それら自体1個のデー
タ物質であり、それはより明瞭なために混合物物質(すなわち、それ自体混合物
である物質)と称される。物質がデータ物質であろうと混合物物質であろうと、
物質は記述子収集体およびロジスティック回帰分析を使用して同様に分析される
【0054】
【実施例】
(実施例1) 第1の実施例は典型的なHTS実験の結果における負の偽物の検出のためのM
ACCSキーと一緒のロジスティック回帰分析の使用に関する。
【0055】 誤った負の化合物を検出する際の本発明の有効性を表わすためにチロシンキナ
ーゼスクリーニングを使用した。スクリーニング実験内で、89,539の化合
物をそれらのキナーゼ阻害活性につき試験された。スクリーニングは96ウェル
のミクロ滴定皿上のシンチレーション近接法を使用し、試験化合物のウェル濃度
は均一に10-5Mであった。スクリーニングにおける試験化合物の生物学的効力
は対照値の百分率として表わした。試験化合物の濃度はゼロ値により表わす。1
00%抑制値は不活性効力状態を表わし、0%抑制値は化合物が活性であること
を意味する。重複測定値は採取しなかった。
【0056】 図2は実施例スクリーニング中の測定効力の分布のヒストグラムを示す。分布
の平均は、99.0%抑制において起こり、標準偏差は16.6%抑制であり、
最大および最小抑制百分率はそれぞれ394.4および−22.1%である。生
物学的活性は以下の基準に基づいて2分された、50%未満の抑制の生物学的活
性をもつ試験化合物はQSAR表中で「1」により表わされて活性と考えられ(
図3A)、残りのすべての化合物は「0」により表わされて、不活性と考えられ
た。この基準に基づき、653種の化合物が0.73%のヒット率に対応して活
性であった。
【0057】 構造もしくは物理化学的特性に関連のキーはデータセット中の各化合物につき
計算された。これらのキーの例は例えば、Ajay,et al. ”Dist
inguishing between drugs and non−dru
gs”,J.Med.Chem.,1998,vol.41(18)による記事
中、とりわけページ3316の表1およびページ3315の関連説明に記載され
たMACCSキーである。この記事中に説明されたように、一般にISIS指紋
(SSKEYS,MDL Information Systems Inc.
,San Leandro,California,USAから市販)として知
られている166個のキーが使用される。各キーは関連化合物中の構造フラグメ
ントの存在(1)もしくは不在(0)を記述し、フラグメントはフラグメント辞
書中に定義されている。
【0058】 計算量を減少するために、統計的関連を示すキーのみを選択するかもしくは低
い統計的関連を示すキーを排除することにより、試験下の化合物を記述する手順
を採用してキー数を減少することができる。従って、本発明の1アスペクトは、
あらゆる具体的な問題を重複決定し、次に高い関連をもたないキーを除去するた
めの最適化段階を実施するキーセットを使用することである。これは本発明の柔
軟性を増加し、その方法を特定の図書館−アッセイ組み合わせ物に、使用された
分子モデルを適応させる。適用することができる1つのこのような最適化手順は
主成分分析である。主成分分析は複数次元のデータを操作する当業者に知られた
方法である。主成分分析において、統計的に弱い関連を有する成分が除去される
。この手順は89,539*166記述子マトリックスに適用された。この分析
に従うと、最初の記述子マトリックスの内容は(図3B)158の主成分により
表わすことができ、従って最終の変換記述子マトリックスは89530列および
158行より成る。行は主成分を表わす。主成分マトリックスを2分の生物学的
活性のベクトルと合わせて、最終QSAR表中にもたらされた(図3Cはその表
の最初の10列を示す)。
【0059】 続いて、ロジスティック回帰分析を89539化合物のこの組に適用した。予
測確率およびアッセイの容量に基づいて、最初に不活性と分類された1586化
合物を可能な負の偽物と考え、スクリーニングオペレーターに示唆した。ストッ
クの制限により、1586の候補物のうち1536を最終的に再試験した。15
36の最初の不活性化合物のうち、261化合物、すなわち17%が活性である
ことが示された。次に活性を用量−反応実験において更に確証した。261の負
の偽物の観察数は適用法および記述子セットの有効性を示す、図6に示した25
4の負の偽物の期待数と密接に一致する。1536化合物の予測確率は0.06
〜0.86の範囲にあった。活性である平均確率は0.17の最終ヒット率に近
い0.16である。誤って負であるとされた化合物に対する強力な表示として、
0.5より大きい、活性であるための予測確率を考慮すると、表1に要約された
データをもたらした。活性であることに対する高い予測確率をもつ63化合物か
らは、35(56%)が実際再試験において活性であり、他方、活性であること
に対し≦0.05の予測確率をもつ1474化合物からは、226(15%)が
再試験で活性であると分類された。表1のデータに対し、活性であることに対す
る予測確率とスクリーニングの第2の実施の結果との間の相関は著しく有意であ
った(カイ二乗69.4、p<0.001)。活性の予測確率が実際予測力を有
するという事実は第2の実施からの原始抑制%データと第1の実施から得た活性
の予測確率との間のSpearman階級相関を計算することにより確証された
。1536化合物に対する階級相関は0.36であり、著しく有意であった(p
<0.001)。図6から負の偽物の可能な最大数について幾らかの統計を推定
することもできる。それによると、アウトライアーの数は500の次元であると
期待される。
【0060】
【表2】
【0061】 (実施例2) 第2の実施例は第2のHTS実験において負の偽物の検出のための記述子とし
ての原子の種類と一緒の神経回路ネットワークの使用に関する。
【0062】 この第2のアッセイにおいては、98138のR−化合物をもう1種のタンパ
ク質標的に対するそれらの阻害作用について試験した。試験化合物の濃度は生検
において10-5Mであった。図7はこのアッセイにおいて対照値に対する効果の
パーセントの分布を示す。上から1%の最も活性な化合物が活性であると考えら
れ、残りすべては不活性であると考えられた。データセット中の化合物はWil
dman & Crippenにより最近紹介された72種の原子のタイプによ
り特徴付けられた(WILDMAN,S.A.and Crippen,G.M
.”Prediction of physicochemical para
meters by atomic contribution”J.Chem
.Inf.Comput.Sci.1999,39,868−873)。MAC
CSキーと対照的に、その存在もしくは不在を示す代りに、具体的な原子タイプ
の存在が計数される。
【0063】 線形分離ネットワーク、具体的なタイプの人工神経回路ネットワーク(Wei
ss,S.M.and Kulikowski,C.A.Computer S
ystems that Learn.Morgan Kaufmaan Pu
blishers,1991を参照されたい)。神経回路ネットワークは2層よ
り成る。入力層は72ニューロン(記述子数に対応する)プラス1バイアスより
成り、出力層は1ニューロンより成る(C.M.Bishop,Neural
Netwoks for Pattern Recognition,Oxfo
rd University Press,1999を参照されたい)。2層は
全体的に連結されている。神経回路ネットワークは入力値として記述子そして出
力値として活性クラスに属する確率により訓練された。ネットワークは組み合わ
せ関数およびロジスティック活性化関数として入力物の線形組み合わせを使用し
た。
【0064】 誤った負のアウトライアー候補物を引き出すために、第1のスクリーニング実
験において活性であると認められた化合物すべてをデータセットから除去した。
残りの化合物を減少順位の活性であるそれらの計算確率に従って検索される。1
0%以上の活性である予測確率をもつ化合物は再試験を示唆された。これは階級
リストの上位730の最も可能性の高い化合物に相当する。次にこれらの誤った
負の候補物を最初のHTSプロトコールに従い再試験した。図8は再試験後のこ
れら730の誤った負のアウトライアー候補物の抑制%プロファイルを示す。最
初の実験におけるすべての化合物の分布を示す図7に比較して、平均測定生物学
的活性が全母集団においてより高いことを示す、より低い抑制値%への強力な移
動が認められる。用量−反応曲線をすべての活性化合物並びに730の誤った負
のアウトライアー候補物について測定した。次に化合物を3種の活性クラス、高
度に活性、中程度に活性、および不活性クラス、に熟練の薬理学者により分類さ
れた。完全なスクリーニング実験−第1の実施のスクリーニング、確認、および
アウトライアー候補物の試験−において認められた高度に活性な化合物745中
、42が本発明に従うアウトライアー検出法により得られた。
【0065】 最後に、アウトライアー候補物が一旦決定されると、それらは指定された活性
クラスをチェックするために再試験することができる。特に誤った負のアウトラ
イアーに対しては、それらが実際に正の活性を示す時に、これらの候補化合物を
更なる研究の対象であると考える機会が生ずる。本発明は治療的使用のための具
体的な生物学的活性を得るために調製された製薬学的調製物中への、これらの誤
った負のアウトライアーの使用を含む。しかし、本発明は医薬の最終的使用に限
定されず、生物学および/もしくは化学の他の分野における適切なそして有利な
使用を見いだすことができる。
【図面の簡単な説明】
【図1】 化学記述子の使用、作成および処理、生物学的活性データの量子化、QSAR
表の両タイプの情報の組み合わせ、このQSAR表の概念学習システムによる分
析、および最後にその後の有効性実験のために候補物アウトライアーを階級付け
るために学習システム分析の出力の後処理、を伴なうスクリーニング実験におけ
る、アウトライアー候補物の検出法のフロー図である。
【図2】 実験データセットにおける89,539の化合物に対する10-5Mにおける対
照に対する抑制%として表わした測定生物学的活性の分布を示す。
【図3】 ロジスティック回帰分析に対する最終インプットを形成するQSAR表がイン
プットされた構造および生物学的データから例のデータセットに対していかに作
成されたかを表わす。図3Aは2種の活性のカテゴリーへの、数値による生物学
的反応(抑制%)の量子化を示す(1は活性に当り、0は不活性に相当する)。
図3BおよびCは、化合物当たり166キーより成る最初のキーマトリックス(
図3B)が、化合物が158主成分により表わされるマトリックス(図3C)に
主成分分析により変換される方法を示す。説明のために、最初の30化合物のみ
が各手順段階につき示されている。最後に、キーとして化合物識別子を使用して
2種のマトリックスを1表(図示されていない)に合わせる。
【図4】 ロジスティック回帰分析の出力の図である。行1は化合物識別子を表わし、行
2は第1のスクリーニング実験で測定された最初の抑制%値を示し、行3は抑制
%値および前以て規定された閾値から据え置かれた活性状態を示し、行4および
行5は不活性(P(0))もしくは活性(P(1))である計算確率を示す。秘
密のために、化合物は任意の化合物名を与えられた。
【図5】 誤った負のアウトライアー候補物の検出に使用された最後の表を示す。ヘッダ
ーは図4に記載のものに対応する。図4に示した出力表を使用して、測定カテゴ
リー「1」をもつ化合物を除去し、検索キーとしてP(1)を使用して増加する
確率に従って表を検索した。そのリスト中の上位1586化合物が有力な誤った
負のアウトライアーであることが示唆された。候補物の数は追跡および有効性ス
クリーニングの容量に基づいて選択された。
【図6】 セグメントサイズの関数として実施例のデータセットにつき計算された誤った
負のアウトライアーの期待数を示す。セグメントサイズはそれらの活性である確
率に従って順位付けられた最初は不活性な化合物の順位のリストを表わしている
。例えば、このプロットに従うと順位のリストの上位1586の化合物を試験す
ることにより誤った負のアウトライアーの期待数は254である。
【図7】 第2の実施例のデータセットにおいて98138化合物すべてに対する10-5 Mにおける、対照に対する抑制%として表わした、測定生物学的活性の分布を示
す。
【図8】 第2のデータセットの730の最も確率の大きい誤った負のアウトライアー候
補物に対する10-5Mにおける、対照に対する抑制%として表わした、測定生物
学的活性の分布を示す。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE,TR),OA(BF ,BJ,CF,CG,CI,CM,GA,GN,GW, ML,MR,NE,SN,TD,TG),AP(GH,G M,KE,LS,MW,MZ,SD,SL,SZ,TZ ,UG,ZW),EA(AM,AZ,BY,KG,KZ, MD,RU,TJ,TM),AE,AG,AL,AM, AT,AU,AZ,BA,BB,BG,BR,BY,B Z,CA,CH,CN,CO,CR,CU,CZ,DE ,DK,DM,DZ,EE,ES,FI,GB,GD, GE,GH,GM,HR,HU,ID,IL,IN,I S,JP,KE,KG,KP,KR,KZ,LC,LK ,LR,LS,LT,LU,LV,MA,MD,MG, MK,MN,MW,MX,MZ,NO,NZ,PL,P T,RO,RU,SD,SE,SG,SI,SK,SL ,TJ,TM,TR,TT,TZ,UA,UG,US, UZ,VN,YU,ZA,ZW (72)発明者 ウータース,ルシアン・ジヨセフ・マリ ア・ロザリア ベルギー・ビー−2340ビールセ・トウルン ホウトセベーク30・ジヤンセン・フアーマ シユーチカ・ナームローゼ・フエンノート シヤツプ (72)発明者 エンゲルス,ミヒヤエル・フランツ・マル タン ベルギー・ビー−2340ビールセ・トウルン ホウトセベーク30・ジヤンセン・フアーマ シユーチカ・ナームローゼ・フエンノート シヤツプ (72)発明者 ベツグス,マーク ベルギー・ビー−2340ビールセ・トウルン ホウトセベーク30・ジヤンセン・フアーマ シユーチカ・ナームローゼ・フエンノート シヤツプ Fターム(参考) 2G045 AA40 DA12 DA13 DA14 DA36 5B075 ND20 UU19

Claims (29)

    【特許請求の範囲】
  1. 【請求項1】 1組の候補化学対象物のスクリーニングアッセイの結果にお
    ける定量的な構造−活性関係を用いてアウトライヤー候補を同定する方法であっ
    て、 候補化学対象物の活性値について類別データセットを作成し; 被検候補化学対象物について構造−活性関係(SAR)データセットを作成し;
    そして SARデータセットを分析して類別データセットにおいて間違って類別されてい
    る少なくとも1種のアウトライヤー候補を決定すること: の段階を含む方法。
  2. 【請求項2】 作成段階が、 被検候補化学対象物について記述子マトリックスを定義し;そして 記述子マトリックスを類別されたデータセットとともにSARデータセット中に
    合併させること: を含む、請求項1記載の方法。
  3. 【請求項3】 構造−活性関係が、試験される各化合物を記述するために使
    用される分子モデルを含む、請求項1もしくは2記載の方法。
  4. 【請求項4】 アウトライヤー候補が、潜在的なフォールスネガティブまた
    は潜在的なフォールスポジティブである、いずれかの先行する請求項記載の方法
  5. 【請求項5】 構造−活性関係が、試験されるべき各化合物を記述するため
    に使用され、そして関連化合物の構造フラグメントまたは物理化学的性質の存在
    または不在に関係する各々複数の記述子を含む、いずれかの先行請求項記載の方
    法。
  6. 【請求項6】 分析段階がコンセプトラーニングスキームを含む、いずれか
    の先行する請求項記載の方法。
  7. 【請求項7】 コンセプトラーニングスキームが回帰、判別分析、決定トリ
    ーおよび神経ネットワークの1つを含む、請求項6記載の方法。
  8. 【請求項8】 回帰分析が論理的回帰分析である、請求項7記載の方法。
  9. 【請求項9】 作成段階が、少なくとも1つの閾値を用いて候補化学対象物
    の活性値を多数の個別のクラスに類別することを含む、いずれかの先行する請求
    項記載の方法。
  10. 【請求項10】 類別段階が、統計学的決定法則に基づき少なくとも1つの
    閾値を自動的に適用する段階を含む、請求項9記載の方法。
  11. 【請求項11】 定義段階が、 ベクトル化された記述子データセットから各被検候補化学対象物についてのベク
    トル化された記述子データを選択し;そして 被検候補化学対象物に関するすべてのベクトルを、化学対象物に対応するマトリ
    ックスの各行および記述子に対応する各列を有するマトリックス中にアセンブリ
    ングすること: を含む、請求項2〜10のいずれかに記載の方法。
  12. 【請求項12】 分析段階が、候補化学対象物がある類に属している確率が
    、予め決定された確率の外にあるか否かを決定することを含む、いずれかの先行
    する請求項記載の方法。
  13. 【請求項13】 候補化学対象物またはそれらの統計的関連性によって決ま
    る記述子の数を減少させる段階をさらに含む、請求項12記載の方法。
  14. 【請求項14】 減少させる段階が主成分分析および因子分析の1つを含む
    、請求項12記載の方法。
  15. 【請求項15】 化学対象物が、化学化合物、1群の化学化合物または化学
    化合物の混合物である、いずれかの先行する請求項記載の方法。
  16. 【請求項16】 複数の候補化学対象物の生物活性についてのスクリーニン
    グアッセイの結果から少なくとも1種のアウトライヤー候補を同定するための装
    置であって、 候補化学対象物の生物学的または化学的活性値の類別されたデータセットをイン
    プットするためのインプット機器; 構造−活性関係(SAR)データセット作成機; 類別データセットにおいて間違って類別されている候補化学対象物であるアウト
    ライヤー候補を決定するためのSARデータセットの分析機: を含む装置。
  17. 【請求項17】 インプット機器が類別データセットを作成するための作成
    機を含む、請求項16記載の装置。
  18. 【請求項18】 記述子マトリックス作成機が、候補化学対象物の化学対象
    物データをインプットするための手段、および候補化学対象物についてのベクト
    ル化された記述子マトリックスを作成するための手段を含む、請求項16もしく
    は17記載の装置。
  19. 【請求項19】 SARデータセット作成機が、候補化学対象物のベクトル
    化された記述子マトリックスを候補化学対象物の類別されたデータとともにSA
    R−データセット中に合併させるための構造−活性関係(SAR)データセット
    作成機を含む、請求項18記載の装置。
  20. 【請求項20】 分析機が、候補化学対象物が1つの活性クラスに属してい
    るSAR−データセット中の該候補化学対象物の各々に確率値を指定するための
    手段を含む、請求項19記載の装置。
  21. 【請求項21】 候補化学対象物を、ある活性クラスにおいて不正確に同定
    されているそれらの確率にしたがってランキングする手段をさらに含む、請求項
    20記載の装置。
  22. 【請求項22】 コンピュータープログラムプロダクトがコンピューターに
    おいて作動される場合、請求項1〜15のいずれかの段階を実施するためのソフ
    トウェアコード部分を有するコンピュータープログラムプロダクト。
  23. 【請求項23】 請求項22において定義されるようなコンピュータープロ
    グラムプロダクトを保存するコンピューター読み取り可能な保存媒体。
  24. 【請求項24】 請求項22のコンピュータープログラムプロダクトを担持
    している電磁シグナル。
  25. 【請求項25】 請求項1〜15のいずれかの方法段階を実施するためのコ
    ンピューターシステム。
  26. 【請求項26】 複数の候補化学対象物の生物活性についてのスクリーニン
    グアッセイにおいて、アッセイにおいて試験された各化学対象物の測定された活
    性から決定される少なくとも1種のアウトライヤー候補を同定する方法であって
    、複数の化学対象物の記述および各化学対象物のアッセイの活性結果を1地点の
    端末中に負荷し; 請求項1〜15のいずれかの方法段階を実施するために遠隔地点に記述および活
    性結果を伝達し;そして 少なくとも1種のアウトライヤー候補の定義を1地点において受け取ること: の段階を含む方法。
  27. 【請求項27】 請求項1〜15のいずれか1つに記載の方法にしたがって
    、アウトライヤー候補として選択された化学対象物を含む製薬学的組成物。
  28. 【請求項28】 複数の化学化合物についてのスクリーニングアッセイの結
    果において、少なくとも1種のアウトライヤー候補を同定する方法であって、 (h)スクリーニングアッセイの被検物であった複数の化学化合物各々の少なく
    とも1つの特徴を表す1組の記述子を作成し; (i)複数の化学化合物各々について、それぞれの記述子によって表される特徴
    の予測値を各々定義するデータポイントを含む記述子マトリックスを作成し;(
    j)アッセイにおける各化学化合物の性能について類別された値を含む、スクリ
    ーニングアッセイの被検物であった化学化合物に関する対応する実験データセッ
    トを作成し; (d)構造活性(SAR)データセットを作成するために、実験データセットを
    記述子マトリックスと合併させ; (e)SARデータセットに統計学的分析を適用し;そして (f)SARデータセットの統計学的分析に基づいて、そこに不正確に類別され
    た実験データセットにおける、対応する少なくとも1種の化学化合物を表す少な
    くとも1種のアウトライヤー候補を同定すること: の段階を含む方法。
  29. 【請求項29】 複数の化学化合物についてのスクリーニングアッセイの結
    果において、少なくとも1種のアウトライヤー候補を同定するための装置であっ
    て、 スクリーニングアッセイの被検物であった複数の化学化合物各々の少なくとも1
    つの特徴を表す1組の記述子を作成するための第1のプロセッサー; 複数の化学化合物各々について、それぞれの記述子によって表される特徴の予測
    値を各々定義するデータポイントを含む、記述子マトリックスを作成し、そして
    アッセイにおける各化学化合物の性能について類別された値を含む、スクリーニ
    ングアッセイの被検物であった化学化合物に関する対応する実験データセットを
    作成するための第2のプロセッサー; 構造−活性(SAR)データセットを作成するために、実験データセットを記述
    子マトリックスと合併させるための手段を含む装置; SARデータセットに統計学的分析を適用するための手段;および SARデータセットの統計学的分析に基づいて、そこに不正確に類別された実験
    データセットにおける、対応する少なくとも1種の化学化合物を表す少なくとも
    1種のアウトライヤー候補を同定するための手段: を含む装置。
JP2001575353A 2000-04-12 2001-04-11 生物学的/製薬学的スクリーニング実験においてアウトライヤーを検出する方法および装置 Withdrawn JP2003530651A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP00201319.1 2000-04-12
EP00201319 2000-04-12
PCT/EP2001/004126 WO2001077979A1 (en) 2000-04-12 2001-04-11 Method and apparatus for detecting outliers in biological/pharmaceutical screening experiments

Publications (1)

Publication Number Publication Date
JP2003530651A true JP2003530651A (ja) 2003-10-14

Family

ID=8171341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001575353A Withdrawn JP2003530651A (ja) 2000-04-12 2001-04-11 生物学的/製薬学的スクリーニング実験においてアウトライヤーを検出する方法および装置

Country Status (8)

Country Link
US (1) US20030078738A1 (ja)
EP (1) EP1277160A1 (ja)
JP (1) JP2003530651A (ja)
AU (2) AU2001263849B2 (ja)
CA (1) CA2404817A1 (ja)
IL (1) IL152198A0 (ja)
NO (1) NO20024897L (ja)
WO (1) WO2001077979A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008150360A (ja) * 2006-11-22 2008-07-03 Shiseido Co Ltd 安全性評価方法、安全性評価システム及び安全性評価プログラム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6810333B2 (en) * 2002-02-12 2004-10-26 General Electric Company Method, system, storage medium, and data signal for supplying a multi-component composition
US8014991B2 (en) * 2003-09-30 2011-09-06 Tokyo Electron Limited System and method for using first-principles simulation to characterize a semiconductor manufacturing process
US8296687B2 (en) * 2003-09-30 2012-10-23 Tokyo Electron Limited System and method for using first-principles simulation to analyze a process performed by a semiconductor processing tool
US8036869B2 (en) * 2003-09-30 2011-10-11 Tokyo Electron Limited System and method for using first-principles simulation to control a semiconductor manufacturing process via a simulation result or a derived empirical model
US8032348B2 (en) * 2003-09-30 2011-10-04 Tokyo Electron Limited System and method for using first-principles simulation to facilitate a semiconductor manufacturing process
US8073667B2 (en) * 2003-09-30 2011-12-06 Tokyo Electron Limited System and method for using first-principles simulation to control a semiconductor manufacturing process
US8544064B2 (en) * 2007-02-09 2013-09-24 Sony Corporation Techniques for automatic registration of appliances
WO2015063535A1 (en) * 2013-10-31 2015-05-07 Commissariat A L'energie Atomique Et Aux Energies Alternatives Direct neural interface system and method
US10049128B1 (en) * 2014-12-31 2018-08-14 Symantec Corporation Outlier detection in databases
RU2744982C2 (ru) * 2017-04-21 2021-03-17 Зенимакс Медиа Инк. Системы и способы для отложенных процессов постобработки при кодировании видеоинформации
CN108920889B (zh) * 2018-06-28 2021-08-03 中国科学院生态环境研究中心 化学品健康危害筛查方法
WO2020180424A1 (en) 2019-03-04 2020-09-10 Iocurrents, Inc. Data compression and communication using machine learning

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9803466D0 (en) * 1998-02-19 1998-04-15 Chemical Computing Group Inc Discrete QSAR:a machine to determine structure activity and relationships for high throughput screening
SE9804127D0 (sv) * 1998-11-27 1998-11-27 Astra Ab New method
CA2379515A1 (en) * 1999-07-23 2001-02-01 Richard D. Hull Text influenced molecular indexing system and computer-implemented and/or computer-assisted method for same

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008150360A (ja) * 2006-11-22 2008-07-03 Shiseido Co Ltd 安全性評価方法、安全性評価システム及び安全性評価プログラム

Also Published As

Publication number Publication date
NO20024897L (no) 2002-12-12
US20030078738A1 (en) 2003-04-24
EP1277160A1 (en) 2003-01-22
IL152198A0 (en) 2003-05-29
WO2001077979A1 (en) 2001-10-18
AU6384901A (en) 2001-10-23
NO20024897D0 (no) 2002-10-10
AU2001263849B2 (en) 2006-10-19
CA2404817A1 (en) 2001-10-18

Similar Documents

Publication Publication Date Title
US7243112B2 (en) Multidimensional biodata integration and relationship inference
Talevi et al. Machine learning in drug discovery and development part 1: a primer
JP2003530651A (ja) 生物学的/製薬学的スクリーニング実験においてアウトライヤーを検出する方法および装置
KR102316989B1 (ko) 신약 후보 물질의 발굴 시스템 및 그 방법
Hong et al. An in silico ensemble method for lead discovery: decision forest
KR102228552B1 (ko) 랜덤 포레스트 모델을 활용한 약물의 다중 표적 예측 방법
CN110120267B (zh) 一种智能药学创新管理服务系统及方法
Erdal et al. A time series analysis of microarray data
Horvath et al. Do Not Hesitate to Use Tversky and Other Hints for Successful Active Analogue Searches with Feature Count Descriptors
Ljoncheva et al. Cheminformatics in MS-based environmental exposomics: Current achievements and future directions
US20040117164A1 (en) Method and system for artificial intelligence directed lead discovery in high throughput screening data
Gorse et al. Functional diversity of compound libraries
AU2001263849A1 (en) Method and apparatus for detecting outliers in biological/pharmaceutical screening experiments
Winkler et al. Application of neural networks to large dataset QSAR, virtual screening, and library design
Vigneshwari et al. A study on the application of machine learning algorithms using R
Truong et al. Learning a complex metabolomic dataset using random forests and support vector machines
US20230335228A1 (en) Active Learning Using Coverage Score
CN113392086B (zh) 基于物联网的医疗数据库构建方法、装置及设备
Agrafiotis et al. Multidimensional scaling of combinatorial libraries without explicit enumeration
Huyn Data analysis and mining in the life sciences
CN117037950B (zh) 基于贝叶斯和药效团模型的靶向rna小分子筛选及试验方法
Banos et al. Quality control of national genetic evaluation results using data-mining techniques; a progress report
Liyaqat et al. A machine learning strategy with clustering under sampling of majority instances for predicting drug target interactions
Taluja AUTHENTICATED SUBGRAPH SIMILARITY SEARCH IN OUTSOURCED GRAPH DATABASES
Welsh et al. Toxicoinformatics: an introduction

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080202

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080701