JP2004118594A - 化学構造式処理による有用知識獲得方法ならびにシステム - Google Patents
化学構造式処理による有用知識獲得方法ならびにシステム Download PDFInfo
- Publication number
- JP2004118594A JP2004118594A JP2002282047A JP2002282047A JP2004118594A JP 2004118594 A JP2004118594 A JP 2004118594A JP 2002282047 A JP2002282047 A JP 2002282047A JP 2002282047 A JP2002282047 A JP 2002282047A JP 2004118594 A JP2004118594 A JP 2004118594A
- Authority
- JP
- Japan
- Prior art keywords
- mcsg
- equivalent
- chemical structure
- candidates
- compounds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】従来、高度に洗練された研究者の人海戦術に頼っていた等価変換の知識抽出を自動化し、社会的に有益な化合物、例えば生理活性物質を創製することを支援する。
【解決手段】グラフによって表現された化学構造を入力するプロセス(S1)と、それらの化学構造を比較して最大共通部分グラフ(MCSG)を探索するプロセス(S2)と、該MCSGのサイズが閾値以上の場合に、もとの化学構造を等価変換の事例ないしその候補であると判定するプロセス(S3)と、該プロセス(S3)にて等価変換の事例ないしその候補であると判定されたもとの各化学構造において、MCSG以外の部分構造を抽出し、MCSGに基づいて対応づけることにより、差異部分構造を等価変換のルールないしその候補として抽出するプロセス(S4)とを含むことを特徴とする等価な部分化学構造の変換に関する知識を獲得する方法。
【選択図】 なし
【解決手段】グラフによって表現された化学構造を入力するプロセス(S1)と、それらの化学構造を比較して最大共通部分グラフ(MCSG)を探索するプロセス(S2)と、該MCSGのサイズが閾値以上の場合に、もとの化学構造を等価変換の事例ないしその候補であると判定するプロセス(S3)と、該プロセス(S3)にて等価変換の事例ないしその候補であると判定されたもとの各化学構造において、MCSG以外の部分構造を抽出し、MCSGに基づいて対応づけることにより、差異部分構造を等価変換のルールないしその候補として抽出するプロセス(S4)とを含むことを特徴とする等価な部分化学構造の変換に関する知識を獲得する方法。
【選択図】 なし
Description
【0001】
【発明の属する技術分野】
本発明は、医薬、農薬などの生理活性物質や機能材料、触媒など社会的に有益な化学化合物を設計することに関するものである。
【0002】
【従来の技術】
有機化合物の性質は化学構造に由来しており、例えば、発色団(クロモフォア)、薬理作用団(ファーマコフォア)のように部分構造が性質の大部分を担っている場合も存在する。性質が化学構造に由来するものである以上、原理的には全ての性質はシミュレーションによって説明されるはずであるが、実際的には量子力学、分子力場計算ともに、定量的な精度に限界があり、探索合成と評価の試行錯誤を完全に排除するレベルには到達していない。
【0003】
そこで経験的な知識を活用して試行錯誤を効率化する試みが存在する。類縁体ともみなすことの出来る一群の化合物の間では、発色団、薬理作用団などの中心部分に位置しない部分構造の変化は、中心に摂動をもたらすものとして捉えられ、直線的自由エネルギー関係(LFER)などによって解析される。例えば、ハメットの電子効果やタフトの立体効果などがLFERの代表的な説明変数であり、化合物(A)の性能はそれら説明変数Iの重み付き総和として表現される。
【0004】
Property(A) = Σ weight(I) x parameter(A,I)
生理活性物質の探索においては、LFERには疎水性効果も組み込まれて、定量的構造活性相関(QSAR)と呼ばれて普及してきた。QSARは非常に有効な方法論であるにもかかわらず、解析が構造的に一様性の高い類縁化合物に限られているなどの点で限界がある。
【0005】
LFERやQSARの研究が示してきたことは、異なる部分構造であっても、物理化学的性質が類似しておれば、機能発現の物理化学的過程において同様の挙動が期待されるということである。そこで同等の性質をもたらすかまたは興味深い性質の変化をもたらす一対またはそれ以上の部分構造を等価体(アイソスター)と呼び、それらに関する情報を整理して活用しようとする試みが存在する。生理活性物質の探索においては、等価体は生物学的等価体(バイオアイソスターまたはバイオアナローグ)と呼ばれて特に普及しており、創薬研究者にとって最も馴染み深い概念のひとつとなっている。生物学的等価体の例として、SO2NHR(スルフォンアミド)とCOOH(カルボン酸)とを引用することができる。両者が生物学的等価体であるのは電子吸引性や酸解離定数が類似しているためにタンパク質などの生体分子との相互作用という物理化学的過程において、代用物になりえるからであり、事実そのような等価変換を行なった事例が知られているからである。つまり等価体であるための根拠は2つあり、物理化学的性質と等価変換の事例である。
【0006】
等価体の知識を収集し、蓄積しておくことは、生理活性物質や機能材料などをデザインする際に有用である。近年では、情報技術の発達に伴い、等価変換の知識をコンピューターに蓄えて、それを活用することで分子設計に応用するシステムが構築されるに至っている。例えばEMILシステム(T. Fujita, In Trends in QSAR and Molecular Modeling 92; Wermuth, C.G., Ed.; ESCOM: Leiden, 1993; pp143−159)は等価変換の事例やルールなどの知識をコンピューターに格納し、表示し、検索し、知識を応用してコンピューターで分子設計を行なうシステムである。
【0007】
【発明が解決しようとする課題】
上記のように等価変換の概念ならびに有用性が普及し、それを活用するシステムが登場していることは、等価変換の具体的な知識を収集することの必要性を増大させている。しかしながら現状では等価変換の知識獲得は、高度に熟練した研究者の洞察力を必要とする過程であることが、解決すべき課題として指摘されている(藤田稔夫; CICSJ Bulletin 14(1), pp6−8, 1996)。例えば、一人の研究者がある骨格構造の一連の化合物について1つあるいは一連の文献を収集し、それぞれの文献を査読し、その文献に記載された化合物の由来をその文献内あるいは他の文献に記載された他の化合物との関係で理解し、更には物理化学的な根拠まで掘り下げて解析することによって初めて一つまたは数個の等価変換の事例を抽出することができる。ここでは(1) 薬剤の骨格に関する知識 (2) その関連の文献収集力 (3) 各文献の理解力 (4) 物理化学や構造活性相関に関する知識、(5)生体と薬剤の相互作用に関する知識などの高度な専門的知識が必要とされている。等価変換の知識を蓄積するためにはこのような高度な作業を、長時間、手間をかけながら繰り返して、逐次、知識を登録していくしか方法がないのが現状である。このような困難が、結果として獲得された知識の量的不足をまねき、ひいては等価変換を活用する分子設計システムのボトルネックになっている。したがって等価変換の知識獲得を簡略化し、一部ないし全部を自動化する方法は、分子設計を支援し、ひいては社会的に有用な化合物を見出すために非常に渇望されているものである。
【0008】
【課題を解決するための手段】
本発明は等価変換の知識獲得における高度な長時間作業のボトルネックを解消するために、知識獲得プロセスを別の方法によって形式化し、コンピューター処理におきかえることで解決を図るものである。形式化とは具体的には、複数の化学構造情報から、最大共通部分グラフ(MCSG)を求めることをキーステップとして等価変換に関する知識を自動獲得することを意味する。本発明と従来技術の比較の模式図を図1にまとめた。従来の知識獲得は、研究者たる人間が行なってきた。上述のように等価体は物理化学的な類似性と変換の事例を根拠としているので、研究者は両側面についての考察を進めながら文献を解析した結果、等価変換の事例やルールを得るのである。一方、本発明ではある2ないしそれ以上の化学構造のMCSGが一定の大きさになる場合にそれら化学構造の間の関係を等価変換の候補と見なし、異なっている部分構造の間の関係を等価変換のルールの候補と見なすのである。場合によっては、本発明の結果を研究者が精査して知識獲得結果をより精緻なものにすることもできるが、必ずしも必須ではない。また場合によっては物理化学的性質をルール候補獲得の際の判断指標に追加することもできるが、必ずしも必須ではない。このように、従来の等価変換の知識獲得と、本発明の知識獲得とは全く異なるアプローチである。
【0009】
即ち、本発明は、
1.等価な部分化学構造の変換に関する知識を獲得する方法において、グラフによって表現された2ないしそれ以上の化合物の化学構造を入力するプロセス(S1)と、それら2ないしそれ以上の化合物の化学構造を比較して最大共通部分グラフ(MCSG)を探索するプロセス(S2)と、該MCSGのサイズが閾値以上の場合に、もとの2ないしそれ以上の化合物の化学構造を等価変換の事例ないしその候補であると判定するプロセス(S3)と、該プロセス(S3)にて等価変換の事例ないしその候補であると判定されたもとの2ないしそれ以上の化合物の各化学構造において、MCSG以外の部分構造を抽出し、MCSGに基づいて対応づけることにより、2ないしそれ以上の差異部分構造を等価変換のルールないしその候補として抽出するプロセス(S4)とを含むことを特徴とする知識獲得方法、
2.判定するプロセス(S3)における判定の閾値が、もとの2ないしそれ以上の親グラフのサイズの50%以上100%未満であると定めた前記1.項に記載の知識獲得方法、
3.化学構造を入力するプロセス(S1)で入力する化合物の化学構造が、生理活性物質もしくは生理活性が測定された化合物の化学構造を入力する前記1.又は2.項に記載の知識獲得方法、
4.等価な部分化学構造の変換に関する知識を獲得するシステムにおいて、グラフによって表現された2ないしそれ以上の化合物の化学構造を入力する手段(M1)と、それら2ないしそれ以上の化合物の化学構造を比較して最大共通部分グラフ(MCSG)を探索する手段(M2)と、該MCSGのサイズと、もとの2ないしそれ以上の化合物の化学構造のサイズとを比較し、前者が後者に対して一定の比率を占めた場合に、もとの2ないしそれ以上の化合物の化学構造を等価変換の事例ないしその候補であると判定する手段(M3)と、該手段(M3)にて等価変換の事例ないしその候補であると判定されたもとの2ないしそれ以上の化合物の各化学構造において、MCSG以外の部分構造を抽出し、MCSGに基づいて対応づけることにより、2ないしそれ以上の差異部分構造を等価変換のルールないしその候補として抽出する手段(M4)とを含むことを特徴とする知識獲得システム、
5.判定する手段(M3)における判定の閾値が、もとの2ないしそれ以上の親グラフのサイズの50%以上100%未満であると定めた前記4.項に記載の知識獲得システム、
6.化学構造を入力する手段(M1)で入力する化合物の化学構造が、生理活性物質もしくは生理活性が測定された化合物の化学構造を入力する前記4.又は5.項に記載の知識獲得システム、
7.前記1.または4.項のプロセス(S4)または手段(M4)において、等価変換のルールないしその候補として抽出された2ないしそれ以上の部分構造を出力し、データベースとするプロセス(S6)または手段(M6)を含む方法またはシステムから得られることを特徴とする等価変換のルールデータベース、
8.等価な部分化学構造の変換に関する知識を獲得する方法またはシステムにおいて、グラフによって表現された2ないしそれ以上の化合物の化学構造を入力するプロセス(S1)または手段(M1)と、それら2ないしそれ以上の化合物の化学構造を比較して最大共通部分グラフ(MCSG)を探索するプロセス(S2)または手段(M2)と、該MCSGのサイズと、もとの2ないしそれ以上の化合物の化学構造のサイズとを比較し、前者が後者に対して一定の比率を占めた場合に、もとの2ないしそれ以上の化合物の化学構造を等価変換の事例ないしその候補であると判定するプロセス(S3)または手段(M3)とからなる知識獲得方法または知識獲得システム、
9.前記8.項のプロセス(S3)または手段(M3)において、等価変換の事例ないしその候補であると判定された2ないしそれ以上の化学構造を出力し、データベースとするプロセス(S5)または手段(M5)を含む方法またはシステムから得られることを特徴とする等価変換の事例データベース、
10.前記7.項のプロセス(S6)または手段(M6)において、等価変換のルールないしその候補として抽出された2ないしそれ以上の部分構造の重複を確認し除去するプロセス(S7)または手段(M7)を含む方法またはシステムから得られることを特徴とする等価変換のルールデータベース、
11.前記7.項のプロセス(S4)または手段(M4)において、等価変換のルールないしその候補として抽出された2ないしそれ以上の部分構造の性質に関する情報をデータベースまたは推算方法を参照して等価変換のルールに付加するプロセス(S8)または手段(M8)を含む方法またはシステムから得られることを特徴とする等価変換のルールデータベース、
12.前記1.または4.項のプロセス(S4)または手段(M4)において、等価変換のルールないしその候補として抽出された2ないしそれ以上の部分構造を出力し、データベースとするプロセス(S6)または手段(M6)を含むことを特徴とする等価変換のルールデータベース構築方法、
13.前記8.項のプロセス(S3)または手段(M3)において、等価変換の事例ないしその候補であると判定された2ないしそれ以上の化学構造を出力し、データベースとするプロセス(S5)または手段(M5)を含むことを特徴とする等価変換の事例データベース構築方法、
14.前記7.項のプロセス(S6)または手段(M6)において、等価変換のルールないしその候補として抽出された2ないしそれ以上の部分構造の重複を確認し除去するプロセス(S7)または手段(M7)を含むことを特徴とする等価変換のルールデータベース構築方法、及び
15.前記7.項のプロセス(S4)または手段(M4)において、等価変換のルールないしその候補として抽出された2ないしそれ以上の部分構造の性質に関する情報をデータベースまたは推算方法を参照して等価変換のルールに付加するプロセス(S8)または手段(M8)を含むことを特徴とする等価変換のルールデータベース構築方法である。
【0010】
本発明における等価変換は必ずしも生物学的等価変換に限定されるものではなく、機能材料分野、高分子分野などでも、それぞれ目的とする機能を指標として、同等の性質をもたらすかまたは興味深い性質の量的または質的な変化をもたらす一対またはそれ以上の部分構造をさすものである。
【0011】
大量の化学構造式の情報は、等価変換に関する知識と比較して高度な知識を必要とすることなく、文献などより獲得可能である。あるいは市販のデータベースを購入することで数万件以上の化学構造の情報を入手することもできる。したがって、化学構造情報を情報源として等価変換に関する知識を自動獲得する方法はボトルネックの解消策として大いに渇望される技術である。
【0012】
コンピューター上で化学構造をグラフ表現して取り扱う技術はonline検索システムを中心に蓄積がある。化学構造のグラフ表現の方法は幾つか存在する。例えば、水素を除いた原子がグラフのノードとして表わされ、それらを繋ぐ化学結合をエッジとして表わす表現方法がある。また別の例では原子、化学結合ともにノードとして表現し、ある化学結合の一端がある原子である時、その原子を表すノードとその結合を表すノードの間をエッジで繋ぐという表現方法もある。またそれら以外に特定の官能基や部分構造(例えば、CF3、ベンゼン環、NH2など)や特定の性質を有する官能基群や部分構造群(例えば、電子吸引基、ハロアルキル、疎水基など)あるいは特定の性質を有する原子群(例えば、ハロゲン、NまたはOなど)をノードとする抽象化したグラフ表現が考えられる。このような方法のいづれに対しても本発明は適用可能であるが、本発明を含む多くの場合、計算量やコンピューター資源を節約するためにはできるだけ簡素な表現であることが好ましい。
ある化学構造Aのグラフ表現が別の化学構造Bのグラフ表現のエッジとノードを全て含み、それらのグラフとしての関係を保持しているとき、BはAの部分グラフであるといい、AはBの親グラフという。本発明でいう、最大共通部分グラフ(MCSG)とは、一対またはそれ以上の化学構造式のグラフ表現においてそれら全ての親グラフに共通して含まれる部分グラフの中でもっともサイズの大きいものを意味する。ここでサイズとは例えば部分グラフに含まれるエッジの数で表わすことも可能であるが、結合次数や両端の元素種、あるいは環構造であるか否かによってその重み付けを行なう別の定義も可能であり、一般には部分グラフより親グラフで大きくなるように定義された数値指標を意味する。
【0013】
最大共通部分構造自動探索(MCSG探索)は化学構造のグラフ表現を取り扱う要素技術を組み合わせて実現されるものであり、具体的なMCSG探索のアルゴリズムとしてはTakahashiらのMAXFIT(Y. Takahashi, Y. Satoh, H. Suzuki & S. Sasaki;Analytical Sciences, 3, pp23−28, 1987)や猪口らの方法(猪口明博, 鷲尾隆, 元田浩, 熊澤公平 & 荒井尚英; 人工知能学会誌, 15, pp1052−63, 2000)が発表されており、これらの文献を参考にプログラムを作成することで、MCSG探索は実行可能である。しかしMCSG探索を等価変換の知識獲得に応用した研究は知られていない。MCSG探索は複数の化学構造の間の共通部分を抽出することで、それらが共通して示す機能にとって必須の部分構造や物理化学的相互作用を洞察するための研究手法であり続けた。生理活性物質の探索においてはMCSG探索は薬理作用団を特定するための手法として用いられる。
【0014】
生物学的等価変換もMCSG探索も共にコンピューターによる創薬支援研究(Computer Aided Drug Design)分野の重要な概念ないし方法論であるにもかかわらず我々の発明以前にはMCSG探索をキーステップとして等価変換の知識を自動獲得することを実現した技術は存在しなかった。熟練した研究者による等価変換の知識獲得の情報処理工程は、薬剤の化学構造の系統分類や分類された系統についての構造活性相関情報、生体物質との物理化学的相互作用に関する知識など多くの専門知識を動員しながら行われる作業であるために、それ自体の自動化は困難であった。しかし我々は一対またはそれ以上の化学構造の間でMCSGを自動探索し、そのサイズが一定以上であれば等価変換の事例ないしその候補であると自動的に判定して、共通とならなかった部分に処理を施して等価変換のルールないしその候補を抽出することを種々試み、結果として等価変換に関する知識が良好に獲得できることを見出した。
【0015】
発明の内容を限定するものではないが、代表的な処理フローを図2に示す。まず(S1)では知識源となる化合物の構造がグラフ表現されて格納されているデータファイルないしデータベースから任意の2つあるいはそれ以上の化学構造を読み込む。データファイルとしてはSdfile, Rdfile, Molfileなどの形式が考えられるがそれ以外であってもよい。また本ステップは画面からの入力であってもよい。次に(S2)でこれら2つあるいはそれ以上の化学構造の間のMCSGを探索する。MCSG探索のアルゴリズムとしてはMAXFITや猪口のアルゴリズムが知られているが、代替アルゴリズムでもよい。(S3)では、MCSGのサイズが閾値以上の場合には等価変換の事例ないしその候補と判定する。閾値を求める方法としては親グラフを参照しながら決定する方法が考えられる。親グラフのサイズの関数として求めることが考えられ、例えば、親グラフのサイズのうち最小のものの一定比率や親グラフのサイズの2乗根に定数をかけたものなどがある。例えば、グラフ表現のエッジ(例えば化学構造式の結合)やノード(例えば化学構造式の原子)の数やあるいは原子、結合次数、環境などを考慮して重みづけしたエッジやノードの数を化学構造のサイズとし、MCSGが親グラフの一定比率を占める場合、例えば75%以上を占める場合に等価変換の事例ないしその候補と判定するなどの方法はアルゴリズムによって実行可能である。
(S4)ではMCSG以外の部位を互いに対応づけ、それを基にして等価変換のルールないしその候補を獲得する。共通部分の対応づけは、MSCGを元の2つあるいはそれ以上の化学構造内で部分構造検索し、それぞれMSCGの同じ原子に対応する元の2つあるいはそれ以上の化学構造内の原子の間に対応をつけることにより可能である。また非共通部分については、それが結合している共通部分を付け根原子とし、付け根原子間の対応付けを参照することによって対応をつけることが可能である。一つの付け根原子に複数の非共通部分構造が結合している場合にそれらを合体させると共に付け根原子を非共通部分構造に移し替えるなどの操作もアルゴリズム的に可能であり、そのような操作によってルールをより分かりやすいものに整形できる場合もある。こうして得られた等価変換の事例ないしその候補ならびに等価変換のルールないしその候補は、(S5),(S6)にてデータベースなどに出力される。
【0016】
本方法においてMCSG探索は2つの役割を演じていることに注目する必要がある。ひとつは2あるいはそれ以上の化学構造の間の関係を等価変換の事例ないしその候補とみなすことができるかどうかの判定条件としてであり、もうひとつは等価変換の事例ないしその候補とみなされた場合、それら化学構造の間の対応する差違部分を等価変換のルールないしその候補として切り出す際のいわば足場としてである。判定条件としてはMCSGのサイズが親グラフのサイズの50%以上100%未満の一定比率であるとすることで、アルゴリズムが実行される。この比率が高いほど、選抜される等価変換の事例は類似度の高い化学構造となり、「ノイズ」は減少するものの「漏れ」が増加する。エッジの数が50%以上100%未満、望ましくは60%以上90%未満、更に望ましくは70%以上80%未満、例えば75%を比率の閾値とした場合に効率よく等価変換の事例ないしその候補を選抜することができた。化学構造式のグラフでは通常、エッジ数とノード数は概ね一致するので、上記の経験は、エッジ数をノード数で代用しても、あるいは他のサイズの定義の場合にも同様の結果が得られると期待される。MSCG探索が判定条件としてだけ用いられているものであれば、それは別の類似性計算方法、例えばフラグメント超空間内の距離(PETER WILLETT,”SIMILANITY AND CLUSTERING IN CHEMICAL INFORMATION SYSTEMS”, JOHN WILEY & SONS, ISBN:0471914630)などで強いて言えば、代用可能である。しかし差違部分を切り出す際の足場としての役割は、フラグメント超空間内の距離で代用することはできない。
抽象化したグラフ表現では、MCSG探索および対応付けの際にノードが一致しているか否かを判定する必要がある。例えば2つの官能基、例えばNO2を表すノードとCF3を表すノードが一致しているかどうかを判定する際に、電子吸引性の物理化学パラメータをデータベースもしくは推算方法を参照しながら決定するなどの方法が考えられる。またあるいは別の判定方法としてSO2NHRを表すノードとCOOHを表すノードが一致しているかどうかを判定する際に、既に作成されたあるいは作成途上の等価変換のルールデータベースに登録されているかどうかを判定基準にもちいることも考えられる。
抽象化したグラフ表現では、サイズ計算に際にデータベースや推算方法を参照する特別の方法を採用することもできる。例えば、NO2を表すノードとCF3を表すノードが一致した場合に、それのサイズへの寄与を物理化学パラメータの類似度に比例すると定義したり、SO2NHRを表すノードとCOOHを表すノードが一致した場合に、それのサイズへの寄与をルールデータベースに登録された出現頻度に比例すると定義することにより、抽象化したグラフ表現にふさわしいサイズを求めることが期待される。
【0017】
ルール出力の際に、重複ルールの除去やルール出現頻度をカウントする(S7)などのステップを必要に応じて付加すると、ルールデータベースの価値がより一層高まることがある。また、(S7)の処理と(S6)の処理との前後関係は必ずしも図2に記載した順序で行なう必要はなく、例えば、処理を短時間で終了するために (S6)までの処理を複数台のコンピューターで分担し、一時的なルールデータベースに出力した後、結果を重複チェックする場合には、(S6)が(S7)に先行する。しかし記憶容量を節約するために、処理途上で出力されるルールの量を減らそうとする場合には(S7)を(S6)に先行させることが望ましい。このように(S1)〜(S8)の望ましい処理順序は、処理を実施する際のコンピューター資源そのほかの制約条件によって変わりうるものである。
【0018】
ルール抽出(S4)の際に、物理化学パラメータないしその他の性質のデータベースないし推算システムなどを参照するステップを必要に応じて付加すると、そのルールがもたらす物理化学的効果や意味付けなどが付与でき、その結果得られるルールデータベースの価値はより一層高まることがある。
【0019】
これらの出力は等価変換に関する知識を利用した、例えばEMILなどの分子設計システムに応用することが出来る。
【0020】
【発明の実施の形態】
【実施例】
実施例1
農薬活性物質の生物学的等価変換の知識の抽出を試みた。MCSG探索にはMAXFITアルゴリズムを採用し、エッジの結合次数およびノードの元素を区別することとした。構造グラフのサイズとしてエッジの数を用い、得られたMCSGのサイズが15エッジ以上でかつ親グラフのサイズの75%以上の場合に等価変換の事例とみなすこととし、パーソナルコンピューター上で稼動するプログラムを作成した。図3の右側の2つの構造をChemdraw (CambridgeSoft社)で作画し、作成したMolfileを入力してプログラムを実行した。
【0021】
図3では得られたMCSGのサイズは5エッジであり、条件を満足しないため、等価変換の事例とは見なされなかった。この例では一方の化合物が除草剤、他方が殺虫剤であり、しかも両者は全く関連のない化合物である。このような例が等価変換の候補とならなかったことは、本発明がノイズを正しく除外できていることを意味する。
【0022】
実施例2
実施例1と同様の方法で別のデータについて生物学的等価変換の知識の抽出を試みた。図4では23のサイズのMCSGが得られ、それぞれ29,27のサイズの親グラフの75%以上を占め、条件を満足するので等価変換の事例と判定した。MCSGを親グラフ内に部分構造検索し、非共通部分を対応づけて図5を得た。複数の非共通部分が同一の付け根原子(図5のXで表示)原子に結合しているので、それを非共通部分に付け加えることで統合し、図6の分かりやすいルールを獲得するに至った。この例は両化合物が同系統の殺虫剤であると考えられる例である。このような例が等価変換の候補として抽出されたことは、本発明が変換の事例を正しく抽出できていることを意味する。また得られたルールは興味深いものである。従来、あまり報告のないルールであるが、図6の2つの部分構造は弱い電子吸引性や4つの化学結合をもつ原子をもつなどの嵩高さなどの共通点を読み取ることが可能であり、本発明の知識獲得方法で、新規な等価変換のルールが獲得されうることを示す例である。
【0023】
実施例3
実施例1と同様の方法で別のデータについて生物学的等価変換の知識の抽出を試みた。図7では一つの等価変換の事例より複数の等価変換のルールが抽出された。
【0024】
実施例4
実施例1と同様の方法で別のデータについて生物学的等価変換の知識の抽出を試みた。図8では複数の等価変換の事例より同一の等価変換のルールが抽出された。
【0025】
実施例5
実施例1と同様の方法で別のデータについて生物学的等価変換の知識の抽出を試みた。合計2144件の構造が記載されたSdfileを入力して逐次構造を読み込んで全てのペアに同様の処理を行なうプログラムを作成し実行した結果、1243件の事例と重複を除いた943件のルールを得ることができた。このような処理は一人一人の研究者の能力を超えたものであり、本発明による自動化によって初めて可能となったことである。また得られたルール件数もEMILの1500−2000件に既に匹敵するものであり、より多くの化学構造が登録された構造データベースを用いることで、ルール件数が飛躍的に増大することが期待される。
実施例6
図9〜12は抽象化したグラフ表現の実行例である。図9の2つの抽象化したグラフ表現において、電子吸引性のCF3とNO2が一致してサイズに2の寄与、ハロゲンのClとBrが一致してサイズに0の寄与、疎水性のC6H13とOPhとは一致してサイズに6の寄与、その他は結合が一致すればサイズに1の寄与と定義した場合に、13エッジからなるサイズ21の図10のMCSGが得られ、親グラフの少ないほうの19エッジでサイズ27の75%を超えるため等価変換の事例として摘出され、実施例2と同様の整形処理を経て図11のルールが摘出された。実施例1〜5と同様のグラフ表現の図12ではこのような摘出は行えなかった。
【0026】
【発明の効果】
本発明は従来、高度に洗練された研究者の人海戦術に頼っていた等価変換の知識抽出を自動化し、社会的に有益な化合物、例えば生理活性物質を創製することを助けるものである。
【図面の簡単な説明】
【図1】図1は本発明の代表的な等価変換の知識自動抽出のフローを表わす。
【図2】図2は従来技術と本発明に係る技術との比較を模式的に示す。
【図3】図3は化合物対が等価変換の事例と判定されなかった例である。
【図4】図4は化合物対が等価変換の事例と判定された例である。
【図5】図5は図4の等価変換の事例より抽出された非共通部分である。
【図6】図6は図4の等価変換の事例より抽出された等価変換のルールである。
【図7】図7は1つの等価変換の事例より複数の等価変換のルールが抽出された事例である。
【図8】図8は複数の等価変換の事例より同一の等価変換のルールが抽出された事例である。
【図9】図9は抽象化したグラフ表現である。
【図10】図10は抽象化したグラフ表現であって、図9から得られたMCSGである。
【図11】図11は抽象化したグラフ表現であって、摘出されたルールである。
【図12】図12は抽象化したグラフ表現であって、ルール摘出が行なえなかった例である。
【発明の属する技術分野】
本発明は、医薬、農薬などの生理活性物質や機能材料、触媒など社会的に有益な化学化合物を設計することに関するものである。
【0002】
【従来の技術】
有機化合物の性質は化学構造に由来しており、例えば、発色団(クロモフォア)、薬理作用団(ファーマコフォア)のように部分構造が性質の大部分を担っている場合も存在する。性質が化学構造に由来するものである以上、原理的には全ての性質はシミュレーションによって説明されるはずであるが、実際的には量子力学、分子力場計算ともに、定量的な精度に限界があり、探索合成と評価の試行錯誤を完全に排除するレベルには到達していない。
【0003】
そこで経験的な知識を活用して試行錯誤を効率化する試みが存在する。類縁体ともみなすことの出来る一群の化合物の間では、発色団、薬理作用団などの中心部分に位置しない部分構造の変化は、中心に摂動をもたらすものとして捉えられ、直線的自由エネルギー関係(LFER)などによって解析される。例えば、ハメットの電子効果やタフトの立体効果などがLFERの代表的な説明変数であり、化合物(A)の性能はそれら説明変数Iの重み付き総和として表現される。
【0004】
Property(A) = Σ weight(I) x parameter(A,I)
生理活性物質の探索においては、LFERには疎水性効果も組み込まれて、定量的構造活性相関(QSAR)と呼ばれて普及してきた。QSARは非常に有効な方法論であるにもかかわらず、解析が構造的に一様性の高い類縁化合物に限られているなどの点で限界がある。
【0005】
LFERやQSARの研究が示してきたことは、異なる部分構造であっても、物理化学的性質が類似しておれば、機能発現の物理化学的過程において同様の挙動が期待されるということである。そこで同等の性質をもたらすかまたは興味深い性質の変化をもたらす一対またはそれ以上の部分構造を等価体(アイソスター)と呼び、それらに関する情報を整理して活用しようとする試みが存在する。生理活性物質の探索においては、等価体は生物学的等価体(バイオアイソスターまたはバイオアナローグ)と呼ばれて特に普及しており、創薬研究者にとって最も馴染み深い概念のひとつとなっている。生物学的等価体の例として、SO2NHR(スルフォンアミド)とCOOH(カルボン酸)とを引用することができる。両者が生物学的等価体であるのは電子吸引性や酸解離定数が類似しているためにタンパク質などの生体分子との相互作用という物理化学的過程において、代用物になりえるからであり、事実そのような等価変換を行なった事例が知られているからである。つまり等価体であるための根拠は2つあり、物理化学的性質と等価変換の事例である。
【0006】
等価体の知識を収集し、蓄積しておくことは、生理活性物質や機能材料などをデザインする際に有用である。近年では、情報技術の発達に伴い、等価変換の知識をコンピューターに蓄えて、それを活用することで分子設計に応用するシステムが構築されるに至っている。例えばEMILシステム(T. Fujita, In Trends in QSAR and Molecular Modeling 92; Wermuth, C.G., Ed.; ESCOM: Leiden, 1993; pp143−159)は等価変換の事例やルールなどの知識をコンピューターに格納し、表示し、検索し、知識を応用してコンピューターで分子設計を行なうシステムである。
【0007】
【発明が解決しようとする課題】
上記のように等価変換の概念ならびに有用性が普及し、それを活用するシステムが登場していることは、等価変換の具体的な知識を収集することの必要性を増大させている。しかしながら現状では等価変換の知識獲得は、高度に熟練した研究者の洞察力を必要とする過程であることが、解決すべき課題として指摘されている(藤田稔夫; CICSJ Bulletin 14(1), pp6−8, 1996)。例えば、一人の研究者がある骨格構造の一連の化合物について1つあるいは一連の文献を収集し、それぞれの文献を査読し、その文献に記載された化合物の由来をその文献内あるいは他の文献に記載された他の化合物との関係で理解し、更には物理化学的な根拠まで掘り下げて解析することによって初めて一つまたは数個の等価変換の事例を抽出することができる。ここでは(1) 薬剤の骨格に関する知識 (2) その関連の文献収集力 (3) 各文献の理解力 (4) 物理化学や構造活性相関に関する知識、(5)生体と薬剤の相互作用に関する知識などの高度な専門的知識が必要とされている。等価変換の知識を蓄積するためにはこのような高度な作業を、長時間、手間をかけながら繰り返して、逐次、知識を登録していくしか方法がないのが現状である。このような困難が、結果として獲得された知識の量的不足をまねき、ひいては等価変換を活用する分子設計システムのボトルネックになっている。したがって等価変換の知識獲得を簡略化し、一部ないし全部を自動化する方法は、分子設計を支援し、ひいては社会的に有用な化合物を見出すために非常に渇望されているものである。
【0008】
【課題を解決するための手段】
本発明は等価変換の知識獲得における高度な長時間作業のボトルネックを解消するために、知識獲得プロセスを別の方法によって形式化し、コンピューター処理におきかえることで解決を図るものである。形式化とは具体的には、複数の化学構造情報から、最大共通部分グラフ(MCSG)を求めることをキーステップとして等価変換に関する知識を自動獲得することを意味する。本発明と従来技術の比較の模式図を図1にまとめた。従来の知識獲得は、研究者たる人間が行なってきた。上述のように等価体は物理化学的な類似性と変換の事例を根拠としているので、研究者は両側面についての考察を進めながら文献を解析した結果、等価変換の事例やルールを得るのである。一方、本発明ではある2ないしそれ以上の化学構造のMCSGが一定の大きさになる場合にそれら化学構造の間の関係を等価変換の候補と見なし、異なっている部分構造の間の関係を等価変換のルールの候補と見なすのである。場合によっては、本発明の結果を研究者が精査して知識獲得結果をより精緻なものにすることもできるが、必ずしも必須ではない。また場合によっては物理化学的性質をルール候補獲得の際の判断指標に追加することもできるが、必ずしも必須ではない。このように、従来の等価変換の知識獲得と、本発明の知識獲得とは全く異なるアプローチである。
【0009】
即ち、本発明は、
1.等価な部分化学構造の変換に関する知識を獲得する方法において、グラフによって表現された2ないしそれ以上の化合物の化学構造を入力するプロセス(S1)と、それら2ないしそれ以上の化合物の化学構造を比較して最大共通部分グラフ(MCSG)を探索するプロセス(S2)と、該MCSGのサイズが閾値以上の場合に、もとの2ないしそれ以上の化合物の化学構造を等価変換の事例ないしその候補であると判定するプロセス(S3)と、該プロセス(S3)にて等価変換の事例ないしその候補であると判定されたもとの2ないしそれ以上の化合物の各化学構造において、MCSG以外の部分構造を抽出し、MCSGに基づいて対応づけることにより、2ないしそれ以上の差異部分構造を等価変換のルールないしその候補として抽出するプロセス(S4)とを含むことを特徴とする知識獲得方法、
2.判定するプロセス(S3)における判定の閾値が、もとの2ないしそれ以上の親グラフのサイズの50%以上100%未満であると定めた前記1.項に記載の知識獲得方法、
3.化学構造を入力するプロセス(S1)で入力する化合物の化学構造が、生理活性物質もしくは生理活性が測定された化合物の化学構造を入力する前記1.又は2.項に記載の知識獲得方法、
4.等価な部分化学構造の変換に関する知識を獲得するシステムにおいて、グラフによって表現された2ないしそれ以上の化合物の化学構造を入力する手段(M1)と、それら2ないしそれ以上の化合物の化学構造を比較して最大共通部分グラフ(MCSG)を探索する手段(M2)と、該MCSGのサイズと、もとの2ないしそれ以上の化合物の化学構造のサイズとを比較し、前者が後者に対して一定の比率を占めた場合に、もとの2ないしそれ以上の化合物の化学構造を等価変換の事例ないしその候補であると判定する手段(M3)と、該手段(M3)にて等価変換の事例ないしその候補であると判定されたもとの2ないしそれ以上の化合物の各化学構造において、MCSG以外の部分構造を抽出し、MCSGに基づいて対応づけることにより、2ないしそれ以上の差異部分構造を等価変換のルールないしその候補として抽出する手段(M4)とを含むことを特徴とする知識獲得システム、
5.判定する手段(M3)における判定の閾値が、もとの2ないしそれ以上の親グラフのサイズの50%以上100%未満であると定めた前記4.項に記載の知識獲得システム、
6.化学構造を入力する手段(M1)で入力する化合物の化学構造が、生理活性物質もしくは生理活性が測定された化合物の化学構造を入力する前記4.又は5.項に記載の知識獲得システム、
7.前記1.または4.項のプロセス(S4)または手段(M4)において、等価変換のルールないしその候補として抽出された2ないしそれ以上の部分構造を出力し、データベースとするプロセス(S6)または手段(M6)を含む方法またはシステムから得られることを特徴とする等価変換のルールデータベース、
8.等価な部分化学構造の変換に関する知識を獲得する方法またはシステムにおいて、グラフによって表現された2ないしそれ以上の化合物の化学構造を入力するプロセス(S1)または手段(M1)と、それら2ないしそれ以上の化合物の化学構造を比較して最大共通部分グラフ(MCSG)を探索するプロセス(S2)または手段(M2)と、該MCSGのサイズと、もとの2ないしそれ以上の化合物の化学構造のサイズとを比較し、前者が後者に対して一定の比率を占めた場合に、もとの2ないしそれ以上の化合物の化学構造を等価変換の事例ないしその候補であると判定するプロセス(S3)または手段(M3)とからなる知識獲得方法または知識獲得システム、
9.前記8.項のプロセス(S3)または手段(M3)において、等価変換の事例ないしその候補であると判定された2ないしそれ以上の化学構造を出力し、データベースとするプロセス(S5)または手段(M5)を含む方法またはシステムから得られることを特徴とする等価変換の事例データベース、
10.前記7.項のプロセス(S6)または手段(M6)において、等価変換のルールないしその候補として抽出された2ないしそれ以上の部分構造の重複を確認し除去するプロセス(S7)または手段(M7)を含む方法またはシステムから得られることを特徴とする等価変換のルールデータベース、
11.前記7.項のプロセス(S4)または手段(M4)において、等価変換のルールないしその候補として抽出された2ないしそれ以上の部分構造の性質に関する情報をデータベースまたは推算方法を参照して等価変換のルールに付加するプロセス(S8)または手段(M8)を含む方法またはシステムから得られることを特徴とする等価変換のルールデータベース、
12.前記1.または4.項のプロセス(S4)または手段(M4)において、等価変換のルールないしその候補として抽出された2ないしそれ以上の部分構造を出力し、データベースとするプロセス(S6)または手段(M6)を含むことを特徴とする等価変換のルールデータベース構築方法、
13.前記8.項のプロセス(S3)または手段(M3)において、等価変換の事例ないしその候補であると判定された2ないしそれ以上の化学構造を出力し、データベースとするプロセス(S5)または手段(M5)を含むことを特徴とする等価変換の事例データベース構築方法、
14.前記7.項のプロセス(S6)または手段(M6)において、等価変換のルールないしその候補として抽出された2ないしそれ以上の部分構造の重複を確認し除去するプロセス(S7)または手段(M7)を含むことを特徴とする等価変換のルールデータベース構築方法、及び
15.前記7.項のプロセス(S4)または手段(M4)において、等価変換のルールないしその候補として抽出された2ないしそれ以上の部分構造の性質に関する情報をデータベースまたは推算方法を参照して等価変換のルールに付加するプロセス(S8)または手段(M8)を含むことを特徴とする等価変換のルールデータベース構築方法である。
【0010】
本発明における等価変換は必ずしも生物学的等価変換に限定されるものではなく、機能材料分野、高分子分野などでも、それぞれ目的とする機能を指標として、同等の性質をもたらすかまたは興味深い性質の量的または質的な変化をもたらす一対またはそれ以上の部分構造をさすものである。
【0011】
大量の化学構造式の情報は、等価変換に関する知識と比較して高度な知識を必要とすることなく、文献などより獲得可能である。あるいは市販のデータベースを購入することで数万件以上の化学構造の情報を入手することもできる。したがって、化学構造情報を情報源として等価変換に関する知識を自動獲得する方法はボトルネックの解消策として大いに渇望される技術である。
【0012】
コンピューター上で化学構造をグラフ表現して取り扱う技術はonline検索システムを中心に蓄積がある。化学構造のグラフ表現の方法は幾つか存在する。例えば、水素を除いた原子がグラフのノードとして表わされ、それらを繋ぐ化学結合をエッジとして表わす表現方法がある。また別の例では原子、化学結合ともにノードとして表現し、ある化学結合の一端がある原子である時、その原子を表すノードとその結合を表すノードの間をエッジで繋ぐという表現方法もある。またそれら以外に特定の官能基や部分構造(例えば、CF3、ベンゼン環、NH2など)や特定の性質を有する官能基群や部分構造群(例えば、電子吸引基、ハロアルキル、疎水基など)あるいは特定の性質を有する原子群(例えば、ハロゲン、NまたはOなど)をノードとする抽象化したグラフ表現が考えられる。このような方法のいづれに対しても本発明は適用可能であるが、本発明を含む多くの場合、計算量やコンピューター資源を節約するためにはできるだけ簡素な表現であることが好ましい。
ある化学構造Aのグラフ表現が別の化学構造Bのグラフ表現のエッジとノードを全て含み、それらのグラフとしての関係を保持しているとき、BはAの部分グラフであるといい、AはBの親グラフという。本発明でいう、最大共通部分グラフ(MCSG)とは、一対またはそれ以上の化学構造式のグラフ表現においてそれら全ての親グラフに共通して含まれる部分グラフの中でもっともサイズの大きいものを意味する。ここでサイズとは例えば部分グラフに含まれるエッジの数で表わすことも可能であるが、結合次数や両端の元素種、あるいは環構造であるか否かによってその重み付けを行なう別の定義も可能であり、一般には部分グラフより親グラフで大きくなるように定義された数値指標を意味する。
【0013】
最大共通部分構造自動探索(MCSG探索)は化学構造のグラフ表現を取り扱う要素技術を組み合わせて実現されるものであり、具体的なMCSG探索のアルゴリズムとしてはTakahashiらのMAXFIT(Y. Takahashi, Y. Satoh, H. Suzuki & S. Sasaki;Analytical Sciences, 3, pp23−28, 1987)や猪口らの方法(猪口明博, 鷲尾隆, 元田浩, 熊澤公平 & 荒井尚英; 人工知能学会誌, 15, pp1052−63, 2000)が発表されており、これらの文献を参考にプログラムを作成することで、MCSG探索は実行可能である。しかしMCSG探索を等価変換の知識獲得に応用した研究は知られていない。MCSG探索は複数の化学構造の間の共通部分を抽出することで、それらが共通して示す機能にとって必須の部分構造や物理化学的相互作用を洞察するための研究手法であり続けた。生理活性物質の探索においてはMCSG探索は薬理作用団を特定するための手法として用いられる。
【0014】
生物学的等価変換もMCSG探索も共にコンピューターによる創薬支援研究(Computer Aided Drug Design)分野の重要な概念ないし方法論であるにもかかわらず我々の発明以前にはMCSG探索をキーステップとして等価変換の知識を自動獲得することを実現した技術は存在しなかった。熟練した研究者による等価変換の知識獲得の情報処理工程は、薬剤の化学構造の系統分類や分類された系統についての構造活性相関情報、生体物質との物理化学的相互作用に関する知識など多くの専門知識を動員しながら行われる作業であるために、それ自体の自動化は困難であった。しかし我々は一対またはそれ以上の化学構造の間でMCSGを自動探索し、そのサイズが一定以上であれば等価変換の事例ないしその候補であると自動的に判定して、共通とならなかった部分に処理を施して等価変換のルールないしその候補を抽出することを種々試み、結果として等価変換に関する知識が良好に獲得できることを見出した。
【0015】
発明の内容を限定するものではないが、代表的な処理フローを図2に示す。まず(S1)では知識源となる化合物の構造がグラフ表現されて格納されているデータファイルないしデータベースから任意の2つあるいはそれ以上の化学構造を読み込む。データファイルとしてはSdfile, Rdfile, Molfileなどの形式が考えられるがそれ以外であってもよい。また本ステップは画面からの入力であってもよい。次に(S2)でこれら2つあるいはそれ以上の化学構造の間のMCSGを探索する。MCSG探索のアルゴリズムとしてはMAXFITや猪口のアルゴリズムが知られているが、代替アルゴリズムでもよい。(S3)では、MCSGのサイズが閾値以上の場合には等価変換の事例ないしその候補と判定する。閾値を求める方法としては親グラフを参照しながら決定する方法が考えられる。親グラフのサイズの関数として求めることが考えられ、例えば、親グラフのサイズのうち最小のものの一定比率や親グラフのサイズの2乗根に定数をかけたものなどがある。例えば、グラフ表現のエッジ(例えば化学構造式の結合)やノード(例えば化学構造式の原子)の数やあるいは原子、結合次数、環境などを考慮して重みづけしたエッジやノードの数を化学構造のサイズとし、MCSGが親グラフの一定比率を占める場合、例えば75%以上を占める場合に等価変換の事例ないしその候補と判定するなどの方法はアルゴリズムによって実行可能である。
(S4)ではMCSG以外の部位を互いに対応づけ、それを基にして等価変換のルールないしその候補を獲得する。共通部分の対応づけは、MSCGを元の2つあるいはそれ以上の化学構造内で部分構造検索し、それぞれMSCGの同じ原子に対応する元の2つあるいはそれ以上の化学構造内の原子の間に対応をつけることにより可能である。また非共通部分については、それが結合している共通部分を付け根原子とし、付け根原子間の対応付けを参照することによって対応をつけることが可能である。一つの付け根原子に複数の非共通部分構造が結合している場合にそれらを合体させると共に付け根原子を非共通部分構造に移し替えるなどの操作もアルゴリズム的に可能であり、そのような操作によってルールをより分かりやすいものに整形できる場合もある。こうして得られた等価変換の事例ないしその候補ならびに等価変換のルールないしその候補は、(S5),(S6)にてデータベースなどに出力される。
【0016】
本方法においてMCSG探索は2つの役割を演じていることに注目する必要がある。ひとつは2あるいはそれ以上の化学構造の間の関係を等価変換の事例ないしその候補とみなすことができるかどうかの判定条件としてであり、もうひとつは等価変換の事例ないしその候補とみなされた場合、それら化学構造の間の対応する差違部分を等価変換のルールないしその候補として切り出す際のいわば足場としてである。判定条件としてはMCSGのサイズが親グラフのサイズの50%以上100%未満の一定比率であるとすることで、アルゴリズムが実行される。この比率が高いほど、選抜される等価変換の事例は類似度の高い化学構造となり、「ノイズ」は減少するものの「漏れ」が増加する。エッジの数が50%以上100%未満、望ましくは60%以上90%未満、更に望ましくは70%以上80%未満、例えば75%を比率の閾値とした場合に効率よく等価変換の事例ないしその候補を選抜することができた。化学構造式のグラフでは通常、エッジ数とノード数は概ね一致するので、上記の経験は、エッジ数をノード数で代用しても、あるいは他のサイズの定義の場合にも同様の結果が得られると期待される。MSCG探索が判定条件としてだけ用いられているものであれば、それは別の類似性計算方法、例えばフラグメント超空間内の距離(PETER WILLETT,”SIMILANITY AND CLUSTERING IN CHEMICAL INFORMATION SYSTEMS”, JOHN WILEY & SONS, ISBN:0471914630)などで強いて言えば、代用可能である。しかし差違部分を切り出す際の足場としての役割は、フラグメント超空間内の距離で代用することはできない。
抽象化したグラフ表現では、MCSG探索および対応付けの際にノードが一致しているか否かを判定する必要がある。例えば2つの官能基、例えばNO2を表すノードとCF3を表すノードが一致しているかどうかを判定する際に、電子吸引性の物理化学パラメータをデータベースもしくは推算方法を参照しながら決定するなどの方法が考えられる。またあるいは別の判定方法としてSO2NHRを表すノードとCOOHを表すノードが一致しているかどうかを判定する際に、既に作成されたあるいは作成途上の等価変換のルールデータベースに登録されているかどうかを判定基準にもちいることも考えられる。
抽象化したグラフ表現では、サイズ計算に際にデータベースや推算方法を参照する特別の方法を採用することもできる。例えば、NO2を表すノードとCF3を表すノードが一致した場合に、それのサイズへの寄与を物理化学パラメータの類似度に比例すると定義したり、SO2NHRを表すノードとCOOHを表すノードが一致した場合に、それのサイズへの寄与をルールデータベースに登録された出現頻度に比例すると定義することにより、抽象化したグラフ表現にふさわしいサイズを求めることが期待される。
【0017】
ルール出力の際に、重複ルールの除去やルール出現頻度をカウントする(S7)などのステップを必要に応じて付加すると、ルールデータベースの価値がより一層高まることがある。また、(S7)の処理と(S6)の処理との前後関係は必ずしも図2に記載した順序で行なう必要はなく、例えば、処理を短時間で終了するために (S6)までの処理を複数台のコンピューターで分担し、一時的なルールデータベースに出力した後、結果を重複チェックする場合には、(S6)が(S7)に先行する。しかし記憶容量を節約するために、処理途上で出力されるルールの量を減らそうとする場合には(S7)を(S6)に先行させることが望ましい。このように(S1)〜(S8)の望ましい処理順序は、処理を実施する際のコンピューター資源そのほかの制約条件によって変わりうるものである。
【0018】
ルール抽出(S4)の際に、物理化学パラメータないしその他の性質のデータベースないし推算システムなどを参照するステップを必要に応じて付加すると、そのルールがもたらす物理化学的効果や意味付けなどが付与でき、その結果得られるルールデータベースの価値はより一層高まることがある。
【0019】
これらの出力は等価変換に関する知識を利用した、例えばEMILなどの分子設計システムに応用することが出来る。
【0020】
【発明の実施の形態】
【実施例】
実施例1
農薬活性物質の生物学的等価変換の知識の抽出を試みた。MCSG探索にはMAXFITアルゴリズムを採用し、エッジの結合次数およびノードの元素を区別することとした。構造グラフのサイズとしてエッジの数を用い、得られたMCSGのサイズが15エッジ以上でかつ親グラフのサイズの75%以上の場合に等価変換の事例とみなすこととし、パーソナルコンピューター上で稼動するプログラムを作成した。図3の右側の2つの構造をChemdraw (CambridgeSoft社)で作画し、作成したMolfileを入力してプログラムを実行した。
【0021】
図3では得られたMCSGのサイズは5エッジであり、条件を満足しないため、等価変換の事例とは見なされなかった。この例では一方の化合物が除草剤、他方が殺虫剤であり、しかも両者は全く関連のない化合物である。このような例が等価変換の候補とならなかったことは、本発明がノイズを正しく除外できていることを意味する。
【0022】
実施例2
実施例1と同様の方法で別のデータについて生物学的等価変換の知識の抽出を試みた。図4では23のサイズのMCSGが得られ、それぞれ29,27のサイズの親グラフの75%以上を占め、条件を満足するので等価変換の事例と判定した。MCSGを親グラフ内に部分構造検索し、非共通部分を対応づけて図5を得た。複数の非共通部分が同一の付け根原子(図5のXで表示)原子に結合しているので、それを非共通部分に付け加えることで統合し、図6の分かりやすいルールを獲得するに至った。この例は両化合物が同系統の殺虫剤であると考えられる例である。このような例が等価変換の候補として抽出されたことは、本発明が変換の事例を正しく抽出できていることを意味する。また得られたルールは興味深いものである。従来、あまり報告のないルールであるが、図6の2つの部分構造は弱い電子吸引性や4つの化学結合をもつ原子をもつなどの嵩高さなどの共通点を読み取ることが可能であり、本発明の知識獲得方法で、新規な等価変換のルールが獲得されうることを示す例である。
【0023】
実施例3
実施例1と同様の方法で別のデータについて生物学的等価変換の知識の抽出を試みた。図7では一つの等価変換の事例より複数の等価変換のルールが抽出された。
【0024】
実施例4
実施例1と同様の方法で別のデータについて生物学的等価変換の知識の抽出を試みた。図8では複数の等価変換の事例より同一の等価変換のルールが抽出された。
【0025】
実施例5
実施例1と同様の方法で別のデータについて生物学的等価変換の知識の抽出を試みた。合計2144件の構造が記載されたSdfileを入力して逐次構造を読み込んで全てのペアに同様の処理を行なうプログラムを作成し実行した結果、1243件の事例と重複を除いた943件のルールを得ることができた。このような処理は一人一人の研究者の能力を超えたものであり、本発明による自動化によって初めて可能となったことである。また得られたルール件数もEMILの1500−2000件に既に匹敵するものであり、より多くの化学構造が登録された構造データベースを用いることで、ルール件数が飛躍的に増大することが期待される。
実施例6
図9〜12は抽象化したグラフ表現の実行例である。図9の2つの抽象化したグラフ表現において、電子吸引性のCF3とNO2が一致してサイズに2の寄与、ハロゲンのClとBrが一致してサイズに0の寄与、疎水性のC6H13とOPhとは一致してサイズに6の寄与、その他は結合が一致すればサイズに1の寄与と定義した場合に、13エッジからなるサイズ21の図10のMCSGが得られ、親グラフの少ないほうの19エッジでサイズ27の75%を超えるため等価変換の事例として摘出され、実施例2と同様の整形処理を経て図11のルールが摘出された。実施例1〜5と同様のグラフ表現の図12ではこのような摘出は行えなかった。
【0026】
【発明の効果】
本発明は従来、高度に洗練された研究者の人海戦術に頼っていた等価変換の知識抽出を自動化し、社会的に有益な化合物、例えば生理活性物質を創製することを助けるものである。
【図面の簡単な説明】
【図1】図1は本発明の代表的な等価変換の知識自動抽出のフローを表わす。
【図2】図2は従来技術と本発明に係る技術との比較を模式的に示す。
【図3】図3は化合物対が等価変換の事例と判定されなかった例である。
【図4】図4は化合物対が等価変換の事例と判定された例である。
【図5】図5は図4の等価変換の事例より抽出された非共通部分である。
【図6】図6は図4の等価変換の事例より抽出された等価変換のルールである。
【図7】図7は1つの等価変換の事例より複数の等価変換のルールが抽出された事例である。
【図8】図8は複数の等価変換の事例より同一の等価変換のルールが抽出された事例である。
【図9】図9は抽象化したグラフ表現である。
【図10】図10は抽象化したグラフ表現であって、図9から得られたMCSGである。
【図11】図11は抽象化したグラフ表現であって、摘出されたルールである。
【図12】図12は抽象化したグラフ表現であって、ルール摘出が行なえなかった例である。
Claims (8)
- 等価な部分化学構造の変換に関する知識を獲得する方法において、グラフによって表現された2ないしそれ以上の化合物の化学構造を入力するプロセス(S1)と、それら2ないしそれ以上の化合物の化学構造を比較して最大共通部分グラフ(MCSG)を探索するプロセス(S2)と、該MCSGのサイズが閾値以上の場合に、もとの2ないしそれ以上の化合物の化学構造を等価変換の事例ないしその候補であると判定するプロセス(S3)と、該プロセス(S3)にて等価変換の事例ないしその候補であると判定されたもとの2ないしそれ以上の化合物の各化学構造において、MCSG以外の部分構造を抽出し、MCSGに基づいて対応づけることにより、2ないしそれ以上の差異部分構造を等価変換のルールないしその候補として抽出するプロセス(S4)とを含むことを特徴とする知識獲得方法。
- 判定するプロセス(S3)における判定の閾値が、もとの2ないしそれ以上の親グラフのサイズの50%以上100%未満であると定めた請求項1に記載の知識獲得方法。
- 化学構造を入力するプロセス(S1)で入力する化合物の化学構造が、生理活性物質もしくは生理活性が測定された化合物の化学構造を入力する請求項1又は2に記載の知識獲得方法。
- 等価な部分化学構造の変換に関する知識を獲得するシステムにおいて、グラフによって表現された2ないしそれ以上の化合物の化学構造を入力する手段(M1)と、それら2ないしそれ以上の化合物の化学構造を比較して最大共通部分グラフ(MCSG)を探索する手段(M2)と、該MCSGのサイズと、もとの2ないしそれ以上の化合物の化学構造のサイズとを比較し、前者が後者に対して一定の比率を占めた場合に、もとの2ないしそれ以上の化合物の化学構造を等価変換の事例ないしその候補であると判定する手段(M3)と、該手段(M3)にて等価変換の事例ないしその候補であると判定されたもとの2ないしそれ以上の化合物の各化学構造において、MCSG以外の部分構造を抽出し、MCSGに基づいて対応づけることにより、2ないしそれ以上の差異部分構造を等価変換のルールないしその候補として抽出する手段(M4)とを含むことを特徴とする知識獲得システム。
- 判定する手段(M3)における判定の閾値が、もとの2ないしそれ以上の親グラフのサイズの50%以上100%未満であると定めた請求項4に記載の知識獲得システム。
- 化学構造を入力する手段(M1)で入力する化合物の化学構造が、生理活性物質もしくは生理活性が測定された化合物の化学構造を入力する請求項4又は5に記載の知識獲得システム。
- 請求項1のプロセス(S4)において、等価変換のルールないしその候補として抽出された2ないしそれ以上の部分構造を出力し、データベースとするプロセス(S6)を含む方法から得られることを特徴とする等価変換のルールデータベース。
- 請求項4の手段(M4)において、等価変換のルールないしその候補として抽出された2ないしそれ以上の部分構造を出力し、データベースとする手段(M6)を含むシステムから得られることを特徴とする等価変換のルールデータベース。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002282047A JP2004118594A (ja) | 2002-09-26 | 2002-09-26 | 化学構造式処理による有用知識獲得方法ならびにシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002282047A JP2004118594A (ja) | 2002-09-26 | 2002-09-26 | 化学構造式処理による有用知識獲得方法ならびにシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004118594A true JP2004118594A (ja) | 2004-04-15 |
Family
ID=32276306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002282047A Pending JP2004118594A (ja) | 2002-09-26 | 2002-09-26 | 化学構造式処理による有用知識獲得方法ならびにシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004118594A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011102384A1 (ja) * | 2010-02-16 | 2011-08-25 | 学校法人関西文理総合学園 | 分子間の類似度を評価するための高速グラフマッチ検索装置及び方法 |
JP2021077159A (ja) * | 2019-11-11 | 2021-05-20 | 富士通株式会社 | 化学物質探索方法、化学物質探索装置、及び化学物質探索プログラム |
-
2002
- 2002-09-26 JP JP2002282047A patent/JP2004118594A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011102384A1 (ja) * | 2010-02-16 | 2011-08-25 | 学校法人関西文理総合学園 | 分子間の類似度を評価するための高速グラフマッチ検索装置及び方法 |
JP2011170444A (ja) * | 2010-02-16 | 2011-09-01 | Kansai Bunri Sogo Gakuen | 分子間の類似度を評価するための高速グラフマッチ検索装置及び方法 |
JP2021077159A (ja) * | 2019-11-11 | 2021-05-20 | 富士通株式会社 | 化学物質探索方法、化学物質探索装置、及び化学物質探索プログラム |
JP7358924B2 (ja) | 2019-11-11 | 2023-10-11 | 富士通株式会社 | 化学物質探索方法、化学物質探索装置、及び化学物質探索プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6966657B2 (ja) | 異種グラフ、分子空間構造特性の識別を実現する方法、その装置、コンピュータ装置及びコンピュータプログラム | |
JP2002539563A (ja) | データベースから情報を抽出するための方法 | |
CN103608812A (zh) | 业务智能系统的查询优化技术 | |
CN105117618B (zh) | 一种基于牵连犯罪原则和网络拓扑结构特征的药物‑靶标相互作用识别方法 | |
Guzzi et al. | Biological network analysis: Trends, approaches, graph theory, and algorithms | |
Bernardes et al. | Evaluation and improvements of clustering algorithms for detecting remote homologous protein families | |
Akutsu et al. | Comparison and enumeration of chemical graphs | |
Duesbury et al. | Maximum common subgraph isomorphism algorithms | |
Xu et al. | From function to interaction: A new paradigm for accurately predicting protein complexes based on protein-to-protein interaction networks | |
CN109545283A (zh) | 一种基于序列模式挖掘算法的系统发生树构建方法 | |
Naseem et al. | Euclidean space based hierarchical clusterers combinations: an application to software clustering | |
Liu et al. | Persistent path-spectral (PPS) based machine learning for protein–ligand binding affinity prediction | |
Grebner et al. | Artificial intelligence in compound design | |
Czech | Invariants of distance k-graphs for graph embedding | |
JP2004118594A (ja) | 化学構造式処理による有用知識獲得方法ならびにシステム | |
Ji et al. | MAE-FMD: multi-agent evolutionary method for functional module detection in protein-protein interaction networks | |
Choi et al. | Using formal concept analysis for microarray data comparison | |
Liu et al. | SATMargin: Practical Maximal Frequent Subgraph Mining via Margin Space Sampling | |
Keller et al. | PHoS: persistent homology for virtual screening | |
Lane et al. | Eyeing the patterns: Data visualization using doubly-seriated color heatmaps | |
Kheirkhahzadeh et al. | Community detection in social networks using consensus clustering | |
Sheng et al. | Framework to Mine XML Format Event Logs | |
Stöcker et al. | 2.6 Protein Complex Similarity | |
CN109634967A (zh) | 一种面向非连通图的Top-K相似匹配方法 | |
Singh et al. | Diabetes classification using K-Means |