JP5075362B2

JP5075362B2 - 化合物の生理活性の定量的予測方法

Info

Publication number: JP5075362B2
Application number: JP2006167002A
Authority: JP
Inventors: 弘之平野; 登辻河; 智久石川
Original assignee: Individual
Current assignee: Individual
Priority date: 2005-07-05
Filing date: 2006-06-16
Publication date: 2012-11-21
Anticipated expiration: 2026-06-16
Also published as: WO2007004546A1; JP2007039437A

Description

本発明は、医薬、農薬などの生理活性物質など有益な化合物、また毒性や環境影響など有害な化合物を避けるための構造を調査、設計するために有用な化合物の生理活性の定量的予測方法に関するものである。

医薬農薬をはじめとする有用な性質をもつ化合物の検索手段として、化合物の系統的命名法(IUPAC命名法など)や、部分構造のキーワード、また部分構造ごとに系統的に分類されたコード(ケミカルフラグメンテーションコード、CPIマニュアルコードなど)を付与(インデキシング)して分類、調査する方法がとられていた。このインデキシングをテキスト検索ができるデータベースシステム(DIALOG、STNなど)に登録し、検索する方法に移行し、さらにこれらのテキストデータベースに加え、現在では化合物の構造や一般式を化学結合グラフ(結合表)で登録し、部分構造や完全に一致すべき構造式、一般式で表現される構造の範囲をグラフィカルに指定して検索できるシステム(STN CAS registry file、MARPAT、Questel.Orbit Merged Markush Service(MMS)など)が使用されている。化合物に関するデータベースでは、化合物の構造に加え物性や生理活性の実測値、化合物が記載される文献などの情報を調べることができる。さらに近年は化合物の構造から物性や生理活性を予測、推算する構造活性相関(SAR)、構造物性相関(QPR)の技術が使用され、実測値に加え推算値も登録されるようになっている。

有用な性質をもつ化合物を得ようとするとき、既存の化合物が登録されているデータベースを用いて化合物に関連する文献情報を調査する。しかしながら既存の化合物に対して求める物性や生理活性の実測値がすべて登録されてはおらず、また化合物の構造からの推算値もシステムが提供する構造活性相関(SAR)、構造物性相関(QPR)の方法に限られており、検索システムのユーザーが求める物性や生理活性を予測、推算する検索手段は実現されていなかった。

従って、本発明は、既存化合物の構造や一般式構造を登録した化合物データベースシステムから、当該データベースに実測値、推算値として登録されていない化合物の物性、生理活性を定量的に予測、推算する方法を提供することを課題としている。

本発明は上記課題を、化合物の構造や一般式構造を登録したデータベースから生理活性を定量的に予測する方法であって、検索システムに使用される部分構造インデックスを生理活性を測定した化合物に付与するステップと、当該部分構造インデックスを、構造特性成分ごとに集計して数値化する記述子とするステップと、当該記述子を使用し、生理活性を測定した化合物の定量的構造活性相関の解析を行うステップと、当該定量的構造活性相関の解析で求められた生理活性への記述子の寄与結果から定量的に生理活性を予測した検索結果を得るための検索式を組み立てるステップとを含むことを特徴とする化合物の生理活性の定量的予測方法により解決したものである。

本発明によれば、既存の化合物が登録されているデータベースを用いて、データベースに実測値、推算値として登録されていない化合物の物性、生理活性を定量的に予測、推算した検索結果を得ることができるので、有益な化合物を創製することが可能となる。

物性、生理活性などを定量的に予測、推算する手法には定量的構造活性(物性)相関解析が用いられるが、本発明は、解析を実施してその結果を化合物データベースシステムで使用するために、当該の検索システムが化合物登録に使用している部分構造インデックスを記述子に変換するステップと、記述子を部分構造インデックスに変換し検索式とするステップを重要なステップとしてコンピュータ処理することで解決を図るものである。

以下本発明方法を、そのフローを示す図１と共に説明する。

まず化学構造とその生理活性(物性)が測定された一群の化合物群(以下「トレーニングセット」と云う)を準備する。
次に、当該トレーニングセットの各化合物に対して検索システムが使用している化合物の系統的命名法(IUPAC命名法など)や、部分構造のキーワード、また部分構造ごとに系統的に分類されたコード(ケミカルフラグメンテーションコード、CPIマニュアルコードなど)等を使用して部分構造インデックスの付与(インデキシング)を行う（INDEXステップ）。付与するためのルールは公表されているインデキシングガイドを用いることで可能である。ケミカルフラグメンテーションコードと CPIマニュアルコードのインデキシングルールはThomson Derwent社、Thomson Scientific社の下記ホームページで公開されている。
http://thomsonderwent.com/media/support/userguides/chemindguide.pdf
http://www.thomsonscientific.jp/support/code/mc/cpi/index.shtml
化合物の系統的命名法としては、名称からその構造や組成がわかるような方式として国際純正および応用化学連合(IUPAC)の規則が定められており、解説書 (裳華房化学新シリーズ化合物命名法中原勝儼・稲本直樹共著など)が数多くある。
化合物構造をグラフィカルに入力すると上述のインデキシングを自動的に行うソフトウェアも使用できる。ケミカルフラグメンテーションコードは市販されているソフトウェアであるMarkush Topfragを用いることができる(http://thomsonscientific.jp/products/mtf/index.shtml)、命名法についてはChembridgeSoft社のChemDraw Ultraを用いることができる。

次に、当該部分構造インデックスを記述子とするために、構造特性成分ごとに集計して数値化を行う（DESCステップ）。構造特性成分には階層的特性と数値指定があり、それぞれに部分構造インデックスと記述子として集計する項目の変換表を設定することができる。本発明において集計とは、変換表のケミカルフラグメンテーションコードごとに設定した集計数値の加算、上限数値での切り捨て、最大値、平均値、最小値の選択、平方根、対数、べき乗など演算後の加算、加算した数値に対する演算処理を含むものである。
ケミカルフラグメンテーションコードを例として階層的なものでは、上位のコードとしてハロゲン原子C0があり、下位には個々のハロゲン原子種のコードがある。

コード−記述子の変換表としては、例えば下記表１のように設定できる。

環の構造成分では、環のサイズを優先した変換表を設定すると、下記表２のようになる。

また、ヘテロ原子を優先すると変換表は下記表３のように設定でき、Ｆ４は窒素を含むヘテロ環のサイズに応じて変化する記述子となる。

このように変換表は、インデキシングされる部分構造が複数の構造成分を持つ場合それぞれの成分に応じて作成し、DESCステップで使用することができる。環系はさまざまな成分を含んでおり、例えば単一環か縮合環、環の員数、環の芳香属性、ヘテロ環か炭素環、ヘテロ原子の種類・個数などが挙げられる。

特定の置換基の置換数など数値指定を意味するケミカルフラグメンテーションコードでは、置換基の数を集計するための数値を指定した下記表４のような変換表ができる。

ケミカルフラグメンテーションコードの有無だけを用いると、記述子の値はすべて０か１というダミー変数となってしまうため、置換基の数など数値に応じた記述子の寄与、また上位概念でまとめられる構造成分の効果は解析できない。DESCステップでは上述されたように部分構造インデキシングに含まれる構造成分を置換基の数など数値的な情報、環構造についてはヘテロ原子の種別、縮合の状態など階層化された構造情報を抽出集計した記述子とすることで、置換基の数や階層的に整理された構造の数え上げなど数値的な変化に応じて、生物活性に対する寄与を解析できるようになっている。

次に、当該記述子を使用し、生理活性の定量的構造活性(物性)相関解析を行う（QSARステップ）。このQSARステップでは、トレーニングセットの各化合物の記述子と生物活性(物性)の値を、重回帰法、PLS法、判別分析法、ニューラルネットワークなどの方法で相関付けることができる。特に重回帰では、目的変数である生理活性(物性)を説明変数である記述子の重み(係数)付の総和と定数項として次式のように表わされる。

生理活性(物性)=Σ( 係数 × 記述子)+定数項 (モデル式)

重回帰法のプログラムについては、日科技連出版社統計解析プログラム講座第２巻「回帰分析と主成分分析」芳賀敏郎/橋本茂司著に詳しく記載されている。重回帰によってモデル式を構築するためには、DESCステップによって作成された記述子の中から記述子間で相関性の高いものはモデル式を構成する記述子から除かなければならない。さらに残った記述子を候補として、モデル式に使用する記述子の選択(変数増加減少法など)を行いモデル式を構築する。定量的構造活性(物性)相関解析で使用する記述子の数は、定法としてトレーニングセット化合物数の１／５〜１／１０とされている。このようにQSARステップは、DESCステップによる記述子が作成されれば定法に従ってモデル式を構築することができる。

次に、当該定量的構造活性(物性)相関(QSARステップ)で求められたモデル式に基づいて、記述子の寄与(係数の符合と絶対値)から定量的に生理活性(物性)を予測した検索式を組み立てる（QUERYステップ）。モデル式の記述子をその係数の符号と値の順に整理し、記述子をDESCステップで使用している変換表を用いて部分構造インデックスに変換すると下記表５となる。部分構造インデックスの設定の状況で、記述子がとり得る値が決定されるため、モデル式に基づいて検索条件に応じた推算値が求められる。検索ユーザーが検索の目的とする生理活性(物性)の閾値を設定すれば、閾値以上(または閾値以下)の化合物を検索する部分構造インデックスの検索条件を設定することができる。

以下実施例を挙げて本発明方法をさらに説明する。

実施例１
医薬品の創製、開発において薬物動態は重要な位置をしめる。薬物動態に影響する生体内分子として薬物輸送を行うトランスポーターが注目されており、薬物動態に優れた医薬品を創製するためには薬物トランスポーターの基質特異性を知る事が重要である。市販されている医薬品から構造が多様な36化合物をトレーニングセット化合物として選択し、Ｐ−糖蛋白質の基質特異性をATPaseスクリーニング法で解析した。
まず、その構造式のケミカルフラグメンテーションコードをインデキシングルールに従い次のとおり付与した。

ケミカルフラグメンテーションコードとCPIマニュアルコードは、ThomsonDerwent社が作成している国際特許データベースWPIの構造検索のためにインデキシングされており、Derwent Inovation index、DIALOG、STN、Questel.Orbitなどの商用データベースシステムで利用できる。
ケミカルフラグメンテーションコードと CPIマニュアルコードのインデキシングルールは前記のようにホームページで公開されている。

次に、ケミカルフラグメンテーションコードの内容に従い数値的な指定のコードを集計するための変換表を作成した。
さらにこの変換表に基づき記述子を作成するパーソナルコンピュータ上のプログラムを作成した。ケミカルフラグメンテーションコードの集計の結果137個の記述子が作成され、記述子相互の相関性をスピアマンの順位相関係数で計算し、相関性の高いもの同士を重回帰モデルに含まれないよう除いた。また、化合物数の6％である3個以下の発生頻度の少ない記述子を除き、計算に使用する126個の候補記述子を得た。薬物濃度１０μMにおけるATPaseの相対的活性（verapamilに対する比活性）を目的変数とし、線形重回帰を行い、下記表６のモデル式が得られた。数値的な指定のケミカルフラグメンテーションの集計によって創出された記述子を用いて、トレーニングセット化合物のＰ−糖蛋白質基質性を良い相関性で識別するモデル式が作成された。

実施例２
医薬品の創薬段階では、既に合成された多様な構造の化合物ライブラリーを使用している。市販されている化合物ライブラリーから多様な構造の60化合物をトレーニングセット化合物として選択し、Ｐ−糖蛋白質の基質特異性をATPaseスクリーニング法で解析した。解析に使用する記述子には階層的に整理されたケミカルフラグメンテーションコードを用い、上位の構造成分ことに、下位のケミカルフラグメンテーションコードを集計する方法を用いた、このための変換表を作成した。ケミカルフラグメンテーションコードの付与と記述子の発生は実施例1と同じ操作を行った。階層的に集計した記述子を作成し、相関性の高い記述子を同時に使用する条件を除いた159個の候補記述子として解析を行った。
薬物濃度１０μMにおけるATPaseの相対的活性（verapamilに対する比活性）を目的変数とし、線形重回帰を行い、下記表7のモデル式が得られた。階層的な指定のケミカルフラグメンテーションの集計によって創出された記述子を用いて、トレーニングセット化合物のＰ−糖蛋白質基質性を良い相関性で識別するモデル式が作成された。

モデル式の記述子からケミカルフラグメンテーションコードへの変換と閾値以上の検索条件を求めるプログラムを作成した。
Ｐ−糖蛋白質の基質性としてverapamilに対する相対的活性110%以上の検索式として

S (F014 F553)/M0,M2,M3,M4
S L1(NOTP) (H103 or H600 or H601 or H602 or H603 or H604 or H641 or L910 or M113 or M142)/M2,M3,M4
を得た。

この検索式により既存化合物データベースを検索した結果、次の化合物が得られた。

この検索式によって得られた集合中の化合物GleevecのＰ−糖蛋白質の基質性は、データベース中には記載がなく、報告によると高い基質性を示す化合物であることが確認された。これは本発明の方法により、定量的な活性(物性)を予測した検索ができていることを意味する。多様な構造をもつ化合物ライブラリーを収集し、目的とする生理活性を評価するには多額の費用を要するが、本発明の方法を用いることによって特許などのデータベースに保存された膨大な化合物のなかから多額の費用をかけずに評価すべき化合物を選択収集することができる。

本発明方法のフローチャート。

Claims

化合物の構造や一般式構造を登録したデータベースから生理活性を定量的に予測する方法であって、
化学構造とその生理活性測定値が示された一群の化合物の各化合物に、部分構造インデックスとしてケミカルフラグメンテーションコードを付与するステップと、
当該付与されたケミカルフラグメンテーションコードが、構造特性成分で階層化されている場合、当該構造特性成分について、それぞれ上位の構造特性成分を集計項目とすると共に、当該集計項目に属する下位のケミカルフラグメンテーションコードごとに集計数値として１を設定したコード・数値の変換表をそれぞれ作成し、当該変換表を用いて、各化合物について当該集計項目に含まれるケミカルフラグメンテーションコードの集計数値の集計を行ない、それぞれその総集計値を当該階層化されている構造特性成分の情報を表わす記述子とするステップと、
当該記述子の中から当該一群の化合物数の１／５〜１／１０の数の記述子を選択し、その選択した記述子と当該化合物の生理活性測定値をそれぞれ重回帰法により相関解析して、当該生理活性の推算値を表わす下記の式（１）で示されるモデル式を得るステップと、
前記変換表を用いて、当該モデル式中の記述子に対応する集計項目からケミカルフラグメンテーションコードを選択変換すると共に、検索の目的とする生理活性の閾値を設定し、当該閾値以上又は閾値以下の化合物を検索するために、当該変換したケミカルフラグメンテーションコードに対応する集計数値とモデル式中の係数の積を寄与結果とし、当該寄与結果とモデル式中の定数項の総和を前記閾値と比較することにより、当該閾値以上又は閾値以下の条件に合致しているケミカルフラグメンテーションコードをキーワードとして選択組み合せて、定量的に生理活性を予測した検索結果を得るための検索式を組み立てるステップを
含むことを特徴とする化合物の生理活性の定量的予測方法。
式（１）：生理活性（物質）＝Σ（係数×記述子）＋定数項
化合物の構造や一般式構造を登録したデータベースから生理活性を定量的に予測する方法であって、
化学構造とその生理活性測定値が示された一群の化合物の各化合物に、部分構造インデックスとしてケミカルフラグメンテーションコードを付与するステップと、
当該付与されたケミカルフラグメンテーションコードが、階層化されている構造特性成分以外の構造特性成分で階層化が可能な場合、階層化を行ない、それぞれ上位の構造特性成分を集計項目とすると共に、当該集計項目に属する下位のケミカルフラグメンテーションコードごとに集計数値として１を設定したコード・数値の変換表をそれぞれ作成し、当該変換表を用いて、各化合物について当該集計項目に含まれるケミカルフラグメンテーションの集計数値の集計を行ない、それぞれその総集計値を当該階層化されている構造特性成分の情報を表わす記述子とするステップと、
当該記述子の中から当該一群の化合物数の１／５〜１／１０の数の記述子を選択し、その選択した記述子と当該化合物の生理活性測定値をそれぞれ重回帰法により相関解析して、当該生理活性の推算値を表わす下記の式（１）で示されるモデル式を得るステップと、
前記変換表を用いて、当該モデル式中の記述子に対応する集計項目からケミカルフラグメンテーションコードを選択変換すると共に、検索の目的とする生理活性の閾値を設定し、当該閾値以上又は閾値以下の化合物を検索するために、当該変換したケミカルフラグメンテーションコードに対応する集計数値とモデル式中の係数の積を寄与結果とし、当該寄与結果とモデル式中の定数項の総和を前記閾値と比較することにより、当該閾値以上又は閾値以下の条件に合致しているケミカルフラグメンテーションコードをキーワードとして選択組み合せて、定量的に生理活性を予測した検索結果を得るための検索式を組み立てるステップを
含むことを特徴とする化合物の生理活性の定量的予測方法。
式（１）：生理活性（物質）＝Σ（係数×記述子）＋定数項
化合物の構造や一般式構造を登録したデータベースから生理活性を定量的に予測する方法であって、
化学構造とその生理活性測定値が示された一群の化合物の各化合物に、部分構造インデックスとしてケミカルフラグメンテーションコードを付与するステップと、
当該付与されたケミカルフラグメンテーションコードが数値的な指定をしている場合、当該数値的な指定をしている部分構造に対応する構造特性成分を集計項目とすると共に、当該集計項目に属するケミカルフラグメンテーションコードごとに当該指定された数値に基づき集計数値を設定したコード・数値の変換表をそれぞれ作成し、当該変換表を用いて、各化合物について当該集計項目に含まれるケミカルフラグメンテーションの集計数値の集計を行ない、それぞれその総集計値を当該階層化されている構造特性成分の情報を表わす記述子とするステップと、
当該記述子の中から当該一群の化合物の数１／５〜１／１０の数の記述子を選択し、その選択した記述子と当該化合物の生理活性測定値をそれぞれ重回帰法により相関解析して、当該生理活性の推算値を表わす下記の式（１）で示されるモデル式をそれぞれ得るステップと、
前記変換表を用いて、当該モデル式中の記述子に対応する集計項目からケミカルフラグメンテーションコードを選択変換すると共に、検索の目的とする生理活性の閾値を設定し、当該閾値以上又は閾値以下の化合物を検索するために、当該変換したケミカルフラグメンテーションコードに対応する集計数値とモデル式中の係数の積を寄与結果とし、当該寄与結果とモデル式中の定数項の総和を前記閾値と比較することにより、当該閾値以上又は閾値以下の条件に合致しているケミカルフラグメンテーションコードをキーワードとして選択組み合せて、定量的に生理活性を予測した検索結果を得るための検索式を組み立てるステップを
含むことを特徴とする化合物の生理活性の定量的予測方法。
式（１）：生理活性（物質）＝Σ（係数×記述子）＋定数項