JPH0792804B2 - 分子検索方法およびシステム - Google Patents

分子検索方法およびシステム

Info

Publication number
JPH0792804B2
JPH0792804B2 JP3261950A JP26195091A JPH0792804B2 JP H0792804 B2 JPH0792804 B2 JP H0792804B2 JP 3261950 A JP3261950 A JP 3261950A JP 26195091 A JP26195091 A JP 26195091A JP H0792804 B2 JPH0792804 B2 JP H0792804B2
Authority
JP
Japan
Prior art keywords
molecular
molecule
graph
database
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP3261950A
Other languages
English (en)
Other versions
JPH0628409A (ja
Inventor
ルイジ、ディ、パチエ
フィリッポ、ファブロチニ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH0628409A publication Critical patent/JPH0628409A/ja
Publication of JPH0792804B2 publication Critical patent/JPH0792804B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はコンピュータ支援分子設
計(Computer Aided Molecular Design(CAMD))
の分野に関し、詳細には分子データベースに予め記憶さ
れている分子の検索を自動的に許可するシステムおよび
方法に関する。特に、本発明は任意のデータベース内の
任意の分子構造を評価しうる構造および特性上の類似度
を照会しうるようにする知識ベース型分子検索システム
および方法に関する。本発明は分子データベースに化学
および物理特性の知識ベースを関連づけて使用するもの
である。そのような知識ベースとデータベースの結合は
最終的には標準技術ではアクセス不能な情報の検索とな
るような単純でない照会を処理しうるようにする。
【0002】
【従来の技術】分子設計プロセスは一般に一つの最適な
分子を合成するに数百回の実験を必要とするハードタス
クと考えられている。それ故、化学および医薬産業はそ
のようなプロセスにおいて科学者を援助するに有効な新
しいコンピュータツールを待ち望んでいる。分子データ
ベースは他のツールの中でも最も広く用いられているも
のである。多数の分子データベースが現在市販されてい
る。そのようなデータベースは異った実験から集められ
た多量の分子の集積である。分子データベースは一つの
クラスの分子をそれ以上の実験を行うことなく研究しう
るようにするために入力分子に或る点で類似する一群の
ターゲット分子を検索するために頻繁に使用される。
【0003】
【発明が解決しようとする課題】現在の分子検索システ
ムでは下位構造(substructure)のサーチ、すなわち原
子および結合性について記述される与えられた下位構造
を含む分子のサーチをユーザが行いうるにすぎない。ご
く最近モレキュラーデザイン社(MolecularDesign Limi
ted)は分子の類似度についての照会を許可する検索シ
ステムを発売している。それでもそのような類似度はデ
ータベースに各分子についての熟練者により予め記憶さ
れた共通の特徴(同一の値をもつ属性)の評価にのみも
とづいている。実際にはそのような方法は、データベー
ス内の分子の夫々を誰かが分析しそしてそれらの夫々に
ついて分子全体としてそしてユーザから入る任意の種類
の照会を満足させるに充分な分子(すべての考えられる
もの)の下位構造についての多数の特徴を記述する必要
があるため実用的でない。
【0004】更に、データベース内の夫々の分子には1
0乃至20種の特徴のみしか関連づけられていない。そ
のため、研究者はそのデータベース内でサーチすべき分
子の副部分(subset)を得るために一群の複雑な照会を
考えなくてはならない。しかしながらそのような手順で
は抄約および検索のための大きな負担がユーザにかかる
ことになる。しかもこの場合には、照合の結果として極
めて多数の分子が出されるのが普通であり、その殆んど
はユーザーの目的に合わないものである。他方、研究者
のアクティビティを遂行するために必要な他の分子はこ
の照会では捕えることが出来ず、それ故、システムによ
り無視されてしまう。
【0005】
【課題を解決するための手段及び作用】本発明はより強
力な分子検索ツールを必要とする研究者のこの問題を解
決し、分子の類似度を簡単に反映しそしてデータベース
に記憶された情報を有効に使用しうるように選択的に照
会を行いうるようにするものである。
【0006】本発明の他の利点は分子の事前の分析とデ
ータベースへの類似度特性の記憶が不要であるというこ
とである。本発明は次の多数の照会を満足させるもので
ある。 1. 入力分子に構造的に類似する分子。 2. ユーザ定義の化学および物理特性の組合せを検査
する特性領域(property region )を含む分子。 3. 特性領域と分子フラグメントを関係づける一般分
子構造として考えられるユーザ定義モデルと整合する分
子。
【0007】一群の分子を選択すると、それらについて
システムが例えば構造上の差が最も小くそして活性度
(activity)の差が最大である分子対を選択するような
他の操作を行うことも出来る。ここで活性度は与えられ
た特性に関係した値である(それらフラグメントを所望
の活性度の主たる増大した状態にするために構造活性度
関係(Structure Activity Relationship )問題を扱う
とき非常に有効な機構である)。
【0008】
【実施例】図1はこの分子検索システムのハードウェア
を示し、これは動作の制御用の命令を含む記憶機構12
と通信を行う汎用CPU11を含む。更に、CPU11
は多数の化学および物理特性が一群の分子フラグメント
に関連づけられている知識ベースを含む記憶機構13と
通信を行う。そのようなフラグメントは三つのディクシ
ョナリ、すなわち残留ディクショナリ(RS−ディクシ
ョナリ)、官能基ディクショナリ(FG−ディクショナ
リ)、原子型ディクショナリ(AT−ディクショナリ)
に区分けされている。命令記憶手段12と知識ベース記
憶手段13は読取専用記憶装置またはランダムアクセス
記憶装置である。CPU11は図2のソースデータベー
ス22とターゲットデータベース23の両方を記憶する
ためのランダムアクセス型の主記憶手段14とも通信を
行う。入力記憶手段15は図1には示さないソースから
入る照会を記憶する。出力記憶装置16は照会の結果を
記憶する。
【0009】本発明のこの実施例では一群のプログラム
が入力照会を扱って類似度マッチングによりサーチされ
る分子の検索を行う。このシステムの論理アーキテクチ
ャーを図2に示す。モジュール21,22,23,24
からなるサブシステム2aをまず説明する。サブシステ
ム2aは、ソースデータベースが、検索中に有効に利用
されるデータベースであるターゲットデータベースを発
生するように本発明の検索システムと関連づけられると
きに使用される。ターゲットデータベース23の発生は
1回限りの再組織化(reformulation )プロセスとみな
ければならない。分子フラグメント認識モジュール21
は主記憶機構14に記憶されたソースデータベース22
およびターゲットデータベース23と通信を行う。モジ
ュール21は記憶機構13に記憶された知識ベース24
とも通信を行う。
【0010】分子フラグメント認識モジュール21は1
以上のソース分子を分析してそのソース分子の階層記述
を出力として出す(後述)。モジュール22はソースデ
ータベースすなわち情報検索システムと関連づけられる
べきデータベースである。ソースデータベース22内の
分子は原子と結合性により記述される。ターゲットデー
タベース23はソースデータベース22に記憶される分
子の夫々の階層的表示を含むデータベースである。その
ような表示は三つの記述レベルすなわち、残基(residu
e )で記述される分子、官能基で記述される分子、およ
び原子エンティティ(atomic entities )で記述される
分子を含む。知識ベース24は多数の既知の化学および
物理特性を関連づけたフラグメントのディクショナリで
ある。特に、このシステムは上記の表示レベル(24
a,24b,24c)の数に対応する多数のディクショ
ナリを使用する。
【0011】システム2aの動作を次に述べる。特にモ
ジュール21はソースデータベース22に原子エンティ
ティで記憶された分子の夫々を読取る。次に知識ベース
24に組込まれたRS−ディクショナリ24aとFG−
ディクショナリ24bを用いてその分子の内側の対応す
るフラグメントを認識する。最終結果として、各分子の
三レベル記述が発生されてターゲットデータベース23
に記憶される。このプロセス中、フラグメントが残基と
しても官能基としても認識されないときには原子による
式を用いてその分子の残り部分を記述する。知識ベース
24は、システムがそのような段階を、各レベルにおい
て関連する分子の異る表示をもつ階層的エンティティと
して分子の“認識(perception)”をもつことが出来る
限りにおいて行いうるようにさせる。
【0012】図3はこの段階後に得られる一つの分子の
階層表示を示す。分子はノードがすべて残基またはすべ
て官能基またはすべて原子でありうるグラフにより記述
され、そしてアーク(arc)がそれら分子フラグメント間
の結合を示す。特に、原子は下位レベルで分子を表示す
るために用いられる(AT−グラフ)。次のものでは分
子は例えばカルボキシル基のような官能基であるより大
きいフラグメントで表示される(FG−グラフ)。その
上のレベルではこの分子は例えばペプチド内のアミノ酸
のような残基で記述される(RS−グラフ)。最後に例
えば分子量のような分子に関連する或る特性で分子を全
体的に表わすことは常に可能である。図3は左から右に
みてまずAT−グラフを、次にFG−グラフをそして次
にRS−グラフを示しており、夫々の円形領域が次の階
層レベルの円形領域に1対1の対応をしている。この階
層表示はT.E.フェリン他によりジャーナル・オブ・
モレキュラー・グラフィックス、第6巻、1988年3
月、pp.1−12に与えられたMIDASデータベー
スシステムに用いられる表示の延長線上にある。
【0013】ターゲットデータベース23が発生されて
しまうと、分子検索プロセスは、ユーザインターフェー
ス28が図1には示さない入力手段(キーボード、磁気
テープリーダ、ディスケットドライブ等)から処理され
るべき照会を受けるとスタートする。ユーザーインター
フェース28はその照会の分析のために照会アナライザ
25と通信を行う。アナライザ25は構造マッチングモ
ジュール26とモデルマッチングモジュール27に接続
する。構造マッチングモジュール26はグラフマッチン
グモジュール29にも接続する。照会アナライザ25は
サブシステム2aに共通なサブシステム2bの唯一のモ
ジュールである知識ベース24と通信を行う。
【0014】照会アナライザ25は制御モジュールであ
ってシステムに入れられた照会のタイプに従って適正な
サブルーチンを選ぶ。知識ベース24はサブシステム2
aの説明において部分的に示してある。特にモジュール
24は上記の表示レベルの数に対応する多数のディクシ
ョナリを含む。各ディクショナリは夫々に関連する多数
の化学および物理特性を有する一群のフラグメントから
なる。このように例えばヒドロキシル基は電子ドナーで
ある水と親和性のある基で記述されるFG−ディクショ
ナリ24bに入る。表1、2、3はモジュール24c,
24bおよび24aに入ると現在考えられている特性の
リストを夫々示している。
【0015】構造マッチングモジュール26とモデルマ
ッチングモジュール27は共にユーザ照会を満足させ
る、ターゲットデータベース23に入る1以上の分子が
あるかどうかを検査するために用いられる。それらの夫
々はユーザにより入れられる照会タイプに従って選ばれ
る(後述)。グラフマッチングモジュール29は任意の
表示レベルで記述される分子を整合させるために用いら
れるグラフマッチングルーチンである。
【0016】モジュール24,25,26,27,2
8,29からなるサブシステム2bの動作を次に述べ
る。照会がモジュール28に入ると、それを標準フォー
ムに再編成(照会ステートメント)するため処理され
る。そのような段階はユーザが通常図形モードでその照
会を入れるために必要である(例えば図4)。この照会
ステートメントは照会アナライザ25に与えられてユー
ザ照会を満足させるためのルーチンを活性化する。ま
ず、アナライザ25は入力照会に従って与えられた照会
を扱うための多数のサブルーチンを選択する。モジュー
ル25は4つの照会タイプを扱うように設計されてい
る。この検索システムの動作を各照会タイプについて説
明する。
【0017】1. 入力分子と構造的に類似する分子に
ついての照会。類似度は差をつくる最大数の原子により
きまる。エンドユーザは照会において、差が適当なとこ
ろにある1からNまでの接続した領域でなくてはならな
いことを指定しうる。この照会タイプではモジュール2
5はフラグメント認識モジュール21を活性化させて入
力分子を分析しそれを図3について述べたように表示す
る。RS−グラフとFG−グラフが入力分子の表示(A
F−グラフ)と関連づけるように発生される。次にモジ
ュール25は構造マッチングモジュール26を呼び出し
てターゲットデータベース23に記憶された分子に対し
入力分子の階層記述を整合させる。アナライザ25で行
われる照会の分析によりこのマッチング処理の複雑さを
下げることが出来る。例えば、ユーザが1つの領域につ
いてのみ入力分子と異る分子を問題にしているものとす
ると、モジュール26はこのマッチングプロセス中に入
力分子に対し異った一つの接続した領域をつくらない2
以上の残基をもつすべての分子を排除する。このよう
に、残基レベルでの高レベルマッチングにより問題の照
会に対する応答には意味のない多数の分子を排除するこ
とが出来る。特に、構造マッチングモジュール26は入
力として前述した階層レベルで表わされる2つの分子ま
たは化合物C1とC2を採用し、そして出力としてもし
あればC1とC2のノード間の関連を発生する。表4は
構造マッチングルーチンの機能の詳細である。図6はこ
のルーチンのフローチャートである。その動作におい
て、モジュール26はまずRS−グラフをそして次にF
G−グラフを、最後にAT‐グラフを整合させるためグ
ラフマッチングモジュール29は入力として2つのグラ
フG1とG2をとる。ここにおいて、各ノードは例えば
H1のようなラベルおよび例えばHのようなタイプで識
別され、そして各アークは例えばarc(H1,H2)
のような一対のノードラベルで識別される。このフォー
マットではH1はHの一例である。出力はG1とG2の
同一のタイプのノードとG1とG2の異るノード(領
域)群の関連である。特に、グラフマッチングルーチン
は、対応するターミナルノードが同一タイプであるとき
G1のアークがG2のアークに整合されうるマッチング
系ユニットとして“アーク”の表記を用いる。 表 4 構造マッチングルーチン 1. CALL GRAPHMATCHING(C1のRS−グラフ、 C2のRS−グラフ) RESULTS: *同一タイプと識別されるC1とC2の対応する残基群; *異なるタイプと識別されるC1とC2の対応する残基群。 2. FOREACH C1とC2の異る各残基対: a. C1とC2の記述を用いてFG−グラフにより残基を再編成; b. CALL GRAPHMATCHING(FG−グラフでの C1とC2の単一の差) RESULTS: *同一タイプと識別されるC1とC2の部分における対応する 官能基群; *異タイプと識別されるC1とC2の部分における対応する 官能基群。 c. FOREACH 異る官能基C1とC2の対: 1) C1とC2の記述を用いてAT−グラフで両官能基を再編成; 2) CALL GRAPHMATCHING(AT−グラフでの C1とC2の単一の差)。 RESULTS: *C1とC2の部分での対応する原子タイプ群; *C1とC2の部分での対応する異る原子タイプ群。
【0018】表5はグラフマッチングサブルーチンの詳
細である。 表 5 グラフマッチングサブルーチン 1. DETERMINE 各ノードの度合を。 ノードXの度合はターミ ナルノードとしてXを含むアークの数である。 2. CONSIDER 最大度合を有するグラフG1におけるノードN1 を。 3. FIND グラフG2にN1と同一タイプで最大度合のノードN2を。 STORE matchinglistに対(N1,N2)を。 4. FOREACH N1を含むG1内のアーク、FIND N2を含 むG2内の対応するアークを。 IF G1とG2内のこれら二つのア ークのターミナルノードが同一タイプ、THEN STORE matchi nglistに新しい整合したノード対を、そしてG1とG2からのアーク を削除。 5. FOREACH 整合したノード(N1,N2)の新しい対、反復 時にFIND N1とN2を含むこれら新しいアークのすべてについて マッチングを: GOTO 4。 6. WHEN G1のアークの接続された領域がG2と最大限に整合する (段階4と5にはそれ以外のマッチングアークはありえない)、THE N GOTO 2(グラフG1とG2はこのときすでに整合したアーク から減算される)。 7. WHEN マッチング可能なアークがG1とG2にそれ以上ない、T HEN FINDALL G1とG2内の不整合アークの接続した領 域を、そしてDETERMINE G1の各不整合領域とG2の不整合 領域間のマッチングを。
【0019】図5はグラフマッチングサブルーチンへの
呼出し出力を示す。円内のフラグメントは入力分子と構
造的にそれに類似するものとの間の共通でない領域を示
す。上記の照会タイプにより、構造についての差が最小
で任意の与えられた特性についての差が最大である分子
対についてのサーチが可能となる。そのような照会は所
望の活性度の主たる向上をフラグメントに義務づけるた
めの構造活性度関係を扱うとき非常に有効である。ユー
ザがここに述べた照会タイプの一つを用いてターゲット
データベース23に記憶される分子の副部分からそのサ
ーチをスタートするとする。この時点で照会アナライザ
25は構造マッチングモジュール26を呼び出して所望
の特性については最大の差を有しそして一つの残基につ
いてのみ異るそのような副部分内のすべての対を選択す
る(この与えられた特性についての活性度値は例えば分
子量のような分子の全体としての特性と考えられる)。
そのような分子が識別されれば、構造マッチングモジュ
ール26はそれ自体を反復的に呼び出してそのような差
を官能基で再編成する。この再編成段階はその差を実際
につくる官能基が一つの接続された領域をもつくるとい
う条件を満足するときにのみ行われる。これは官能基レ
ベルについても同じである。この場合、差がせいぜい一
つの官能基で表わされるとき、モジュール26は再びそ
れ自体を反復して呼び出して上記の条件により原子タイ
プでそのような差を再編成する。
【0020】2. 一つの与えられた特性領域すなわち
ユーザ定義の化学および物理特性の組合せを検査する分
子の下位構造を含む分子の照会。例えばそのような照会
は40cm3 /モルより小さく、20cm3 /モルより大き
い分子容をもつ疎水性領域を含むすべての分子を必要と
する。まず、照会アナライザ25は知識ベース24内の
各ディクショナリをみてユーザ定義の化学および物理特
性の組合せを満足するフラグメント(残基、官能基、原
子タイプ)を選ぶ。その後、モジュール25は構造マッ
チングモジュール26を呼び出してそのようなフラグメ
ントの一つを含むすべての分子についてターゲットデー
タベース23をサーチする。分子容がその領域を限定す
るために用いられる特性の一つとして認識されると、ア
ナライザ25は予め選ばれたフラグメントのすべての組
合せを発生して照会の範囲に入るものを識別する。溶液
の数が多すぎない場合には構造マッチングモジュール2
6は予め選ばれたフラグメントまたはそれらの組合せの
内の一つを含むすべての分子についてターゲットデータ
ベース23をサーチする。溶液の数が多すぎるときには
照会アナライザ25がモデルマッチングモジュール27
を呼び出してユーザ照会を満足するすべての分子につい
てターゲットデータベース23をサーチする。(次を参
照のこと)。
【0021】3. フラグメント(すなわち残基、官能
基、原子)と特性領域の少なくとも1つにより表わされ
るユーザ定義モデルと整合する分子の照会。特にモデル
Mは次のノードを有するグラフで表わされる。 *残基 *官能基 *原子 *特性領域
【0022】図4はユーザ定義モデルの一例である。各
Riは関連する特性の数を備えたユーザ定義特性領域で
ある。記号“*”はフラグメントを表わす。ユーザは結
合の数により分子のサブユニット(subunit )間の距離
を定義してもよい。そのような目安はユーザ定義インタ
ーバルにわたることが出来る。モデルマッチングモジュ
ール27のタスクはモデルMのノードと照会アナライザ
25によりターゲットデータベース23から選ばれた化
合物Cのノートとの間の関連を、もしそれがあれば、見
つけることである。特に、モデルMの各ノードは化合物
Cの対応するノードに合わせるために好適な順(まず残
基、次に官能基、それから原子、最後に特性領域)で選
ばれる。モデルマッチングモジュール27はその入力と
して前述のように階層的に表わされるモデルMと化合物
Cを受けそしてMとCの同一タイプのノード間の関連を
出力として出す。モデルMの特性領域ノードを整合させ
るために、モジュール27は知識ベースモジュール24
を呼び出して化合物Cの対応するフラグメントがモデル
Mのノードに付される特性を検査するかどうかをチェッ
クする。表6はモデルマッチングルーチンの詳細であ
る。図7はモデルマッチングルーチンのフローチャート
である。 表 6 モデルマッチングルーチン 1. FIND 化合物C内の同一タイプのノードに整合しうるモデルのR S−ノード、FG−ノードまたはAT−ノードを。 2. DETERMINE モデルMと化合物Cの接近したノード、すなわ ち一つの与えられたアークによりモデルと化合物のそのとき整合したノ ードに結合されるノード群を。化合物CのRS−グラフ、FG−グラフ およびAT−グラフのすべてが、これら接近ノードの抽出に用いられる。 3. FOREACH このモデルの接近ノードN: *IF Nが残基ノード、THEN FIND 化合物CのRS接近ノ ード内の対応する接近ノードを。 *IF Nが官能基ノード、THEN FIND 化合物CのFG接近 ノード内の対応する接近ノードを。 *IF Nが原子タイプノード、THEN FIND 化合物CのAT 接近ノード内の対応する接近ノードを。 *IF Nが特性領域ノード、THEN FIND 化合物CのRS− ノード、FG−ノードおよびAT接近ノードのすべてにおいて特性領 域Nを特徴づける特性を検査する一つのノード(または一つのノード 群)を。この場合、化学および物理特性のKBに当り、化合物のノー ドの特性を分析する。 4. IF モデルMが完全には整合しない、THEN、GOTO ステッ プ2。
【0023】前述のすべての照会タイプについてその照
会への応答は照会アナライザ25からユーザインターフ
ェース28に出される。本発明は特定のコンピュータ言
語については説明していない。それ故、本発明は任意の
コンピュータ言語を用いて実施可能である。
【0024】
【発明の効果】本発明によれば、分子の類似度を簡単に
反映しそしてデータベースに記憶された情報を有効に使
用しうるように選択的に照会を行いうる
【図面の簡単な説明】
【図1】本検索システムのハードウェアアーキテクチャ
である。
【図2】本検索システムのソフトウェアアーキテクチャ
である。
【図3】分子を記述するために用いられる階層表示を示
す図である。
【図4】ユーザ定義モデルの一例を示す図である。
【図5】2つの分子間のグラフマッチングモジュールに
より得られる部分的マッチングの結果を示す図である。
【図6】構造マッチングルーチンのフローチャートであ
る。
【図7】モデルマッチングルーチンのフローチャートで
ある。
【符号の説明】
11 CPU 12,13,14,15,16 記憶機構 2a サブシステム 21 分子フラグメント認識モジュール 22 ソースデータベース 23 ターゲットデータベース 24 知識ベース 25 照会アナライザ 26 構造マッチングモジュール 27 モデルマッチングモジュール 28 ユーザインターフェース 29 グラフマッチングモジュール

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】分子データベースに記憶されると共に、ユ
    ーザ定義入力基準との間に要求される類似度を有する、
    分子構造を検索する、という目的を持つ分子類似度照会
    に応答するための、下記段階を含む分子検索方法: a) 全体分子、残基、官能基、原子という異なる構造
    レベルの記述のそれぞれにおいて、複数の分子表示の1
    つの階層を限定する段階; b) 上記段階a)の各構造レベルで分子フラグメント
    を識別しそして各構造レベルについての上記分子フラグ
    メントのディクショナリを構成する段階; c) 上記ディクショナリの夫々の分子フラグメントの
    化学的および物理的特性を集めそして知識ベースを構成
    する段階; d) 上記類似度照会を分析しそして上記入力基準に対
    する上記要求された類似度にもとづき適正な分子表示レ
    ベルを選択する段階; e) 上記知識ベースを用いて上記分子データベースに
    記憶されたすべての構造の、段階d)で見い出されたレ
    ベルにおける分子表示に対する上記入力基準の表示のマ
    ッチングを行う段階; f) 上記要求された類似度にもとづき上記入力基準と
    類似するすべての分子構造を選択する段階; g) 段階f)で選択されたすべての分子構造を出力す
    る段階。
  2. 【請求項2】前記入力基準は一つの与えられた分子であ
    り、前記類似度照会は前記入力分子に構造的に類似する
    すべての分子を照会する段階を含んでおり、更に前記段
    階e)が下記段階から成る請求項1の方法: − 前記分子データベースに記憶される分子の第1レベ
    ル表示に対する前記入力分子のそのレベル表示の第一の
    マッチングを行う段階; − その下の構造レベルに表示される上記入力分子の、
    上記第一のマッチングで得られた異る分子フラグメント
    と、上記分子データベースに記憶されそしてそれと同一
    のレベルで表示される分子構造との、第二のマッチング
    を行う段階; − 上記入力分子と前段階で選ばれた分子の間に最少構
    造差が見い出されるまで最下構造レベルまでマッチング
    をくり返す段階。
  3. 【請求項3】前記入力基準はユーザ定義分子モデルであ
    って特性領域と分子フラグメントでありうるノードを有
    するグラフとして表示され、前記類似度照会は上記ユー
    ザ定義モデルを検査するすべての分子を求める段階を含
    み、更に前記段階e)が下記段階から成る請求項1の方
    法: − ユーザ定義の化学および物理特性の組合せを検査す
    る任意の分子構造として一つの特性領域を予め定義する
    段階; − 前記知識ベースを用いて前記ユーザ定義モデルの前
    記ノードの順序を識別する段階; − 上記知識ベースを用いて、上記モデルの第1ノード
    と前記分子データベースに記憶されたすべての分子との
    第一のマッチングを行う段階; − 上記モデルに定義づけられるすべてのノードと整合
    する上記分子データベースの分子を識別するまで上記マ
    ッチングを弁別するようにくり返す段階。
  4. 【請求項4】データベース(22)に記憶されると共
    に、入力基準との間に要求される類似度を有する、分子
    構造を検索する、という目的を持つ分子類似度照会に応
    答するための、下記要件を含む分子検索システム: − AT−グラフ、FG−グラフおよびRS−グラフに
    おいて階層的に記述される上記分子構造を記憶するため
    の記憶機構(23); − 異る記述レベルとしてのAT−グラフ、FG−グラ
    フおよびRS−グラフにおいて既知の分子フラグメント
    を記憶するための、且つ、そしてそれらフラグメントの
    夫々に関連する一組の物理および化学特性を記憶するた
    めの、記憶機構(24); − 上記入力基準に生じる上記フラグメントを、それら
    を階層的にRS−グラフ、FG−グラフおよびAT−グ
    ラフとして表示するように認識するための認識手段(2
    1); − 上記類似度照会を分析し、上記入力基準に対する要
    求される類似度にもとづき適正な分子表示レベルを選択
    するための分析手段(25); − 上記分析手段(25)により呼び出されるとき、上
    記分子表示レベルで上記記憶手段(23)に記憶された
    分子構造の表示に対する上記入力基準の表示のマッチン
    グを行うマッチング手段(26,27,29)。
  5. 【請求項5】前記入力基準は一つの与えられた分子構造
    であり、更に前記手段(26,29)は上記入力分子構
    造と前記データベースから選ばれた一つの分子構造との
    間の差が最小となるまで両者のマッチングをくり返す請
    求項4のシステム。
  6. 【請求項6】前記入力基準はユーザ定義モデルであり、
    前記手段(24)が上記モデルを限定する前記ノードの
    順位を識別し、前記手段(27)が、上記モデルに定義
    されるすべてのノードと整合する分子群を識別するまで
    前記データベースに記憶された分子の分子表示と、上記
    モデルを定義するノードの夫々とのマッチングをくり返
    して行う請求項4のシステム。
JP3261950A 1991-01-26 1991-10-09 分子検索方法およびシステム Expired - Lifetime JPH0792804B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP91101016A EP0496902A1 (en) 1991-01-26 1991-01-26 Knowledge-based molecular retrieval system and method
IT91101016.3 1991-01-26
US07/824,629 US5418944A (en) 1991-01-26 1992-01-23 Knowledge-based molecular retrieval system and method using a hierarchy of molecular structures in the knowledge base

Publications (2)

Publication Number Publication Date
JPH0628409A JPH0628409A (ja) 1994-02-04
JPH0792804B2 true JPH0792804B2 (ja) 1995-10-09

Family

ID=26128699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3261950A Expired - Lifetime JPH0792804B2 (ja) 1991-01-26 1991-10-09 分子検索方法およびシステム

Country Status (3)

Country Link
US (1) US5418944A (ja)
EP (1) EP0496902A1 (ja)
JP (1) JPH0792804B2 (ja)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5995908A (en) * 1990-09-20 1999-11-30 Margaret I. Pullen Integrated field modeling system
US5615112A (en) * 1993-01-29 1997-03-25 Arizona Board Of Regents Synthesized object-oriented entity-relationship (SOOER) model for coupled knowledge-base/database of image retrieval expert system (IRES)
US5577239A (en) * 1994-08-10 1996-11-19 Moore; Jeffrey Chemical structure storage, searching and retrieval system
US5657255C1 (en) * 1995-04-14 2002-06-11 Interleukin Genetics Inc Hierarchic biological modelling system and method
AU7398796A (en) * 1995-10-13 1997-04-30 Terrapin Technologies, Inc. Identification of common chemical activity through comparison of substructural fragments
US5752019A (en) * 1995-12-22 1998-05-12 International Business Machines Corporation System and method for confirmationally-flexible molecular identification
AU1847997A (en) * 1996-01-26 1997-08-20 Robert D. Clark Method of creating and searching a molecular virtual library using validated molecular structure descriptors
US6185506B1 (en) * 1996-01-26 2001-02-06 Tripos, Inc. Method for selecting an optimally diverse library of small molecules based on validated molecular structural descriptors
US5880972A (en) * 1996-02-26 1999-03-09 Pharmacopeia, Inc. Method and apparatus for generating and representing combinatorial chemistry libraries
US5989835A (en) 1997-02-27 1999-11-23 Cellomics, Inc. System for cell-based screening
US5751605A (en) * 1996-08-15 1998-05-12 Tripos, Inc. Molecular hologram QSAR
US6189013B1 (en) 1996-12-12 2001-02-13 Incyte Genomics, Inc. Project-based full length biomolecular sequence database
US6023659A (en) * 1996-10-10 2000-02-08 Incyte Pharmaceuticals, Inc. Database system employing protein function hierarchies for viewing biomolecular sequence data
US6519583B1 (en) * 1997-05-15 2003-02-11 Incyte Pharmaceuticals, Inc. Graphical viewer for biomolecular sequence data
JPH10221728A (ja) * 1997-02-07 1998-08-21 Canon Inc ぶれ補正光学手段付きレンズ鏡筒
WO1998047087A1 (en) * 1997-04-17 1998-10-22 Glaxo Group Ltd. Statistical deconvoluting of mixtures
US6611828B1 (en) 1997-05-15 2003-08-26 Incyte Genomics, Inc. Graphical viewer for biomolecular sequence data
US6182016B1 (en) 1997-08-22 2001-01-30 Jie Liang Molecular classification for property prediction
JP2001521042A (ja) * 1997-10-24 2001-11-06 ユニバーシティ・オブ・ユタ・リサーチ・ファウンデーション アルファ−コノトキシンペプチドとニューロンニコチン性アセチルコリン受容体との相互作用
US6051029A (en) * 1997-10-31 2000-04-18 Entelos, Inc. Method of generating a display for a dynamic simulation model utilizing node and link representations
US6078739A (en) * 1997-11-25 2000-06-20 Entelos, Inc. Method of managing objects and parameter values associated with the objects within a simulation model
US6069629A (en) * 1997-11-25 2000-05-30 Entelos, Inc. Method of providing access to object parameters within a simulation model
GB9800462D0 (en) * 1998-01-09 1998-03-04 Everett Richard S H Apparatus and method for use in the manufacture of chemical compounds
US6408308B1 (en) * 1998-01-29 2002-06-18 Incyte Pharmaceuticals, Inc. System and method for generating, analyzing and storing normalized expression datasets from raw expression datasets derived from microarray includes nucleic acid probe sequences
WO2000003336A1 (en) * 1998-07-13 2000-01-20 Glaxo Group Limited Chemical compound information system
US6654736B1 (en) * 1998-11-09 2003-11-25 The United States Of America As Represented By The Secretary Of The Army Chemical information systems
IL142765A0 (en) 1998-11-13 2002-03-10 Cellomics Inc Methods and system for efficient collection and storage of experimental data
US6434545B1 (en) * 1998-12-16 2002-08-13 Microsoft Corporation Graphical query analyzer
US6323852B1 (en) 1999-01-04 2001-11-27 Leadscope, Inc. Method of analyzing organizing and visualizing chemical data with feature hierarchy
US7912689B1 (en) 1999-02-11 2011-03-22 Cambridgesoft Corporation Enhancing structure diagram generation through use of symmetry
US7295931B1 (en) * 1999-02-18 2007-11-13 Cambridgesoft Corporation Deriving fixed bond information
WO2000062251A1 (en) * 1999-04-09 2000-10-19 Merck & Co., Inc. Chemical structure similarity ranking system and computer-implemented method for same
US7219020B1 (en) 1999-04-09 2007-05-15 Axontologic, Inc. Chemical structure similarity ranking system and computer-implemented method for same
EP1173814A2 (en) 1999-04-16 2002-01-23 Entelos, Inc. Method and apparatus for conducting linked simulation operations utilizing a computer-based system model
US6665685B1 (en) * 1999-11-01 2003-12-16 Cambridge Soft Corporation Deriving database interaction software
CA2396495A1 (en) 2000-01-25 2001-08-02 Cellomics, Inc. Method and system for automated inference creation of physico-chemical interaction knowledge from databases of co-occurrence data
US6907350B2 (en) * 2000-03-13 2005-06-14 Chugai Seiyaku Kabushiki Kaisha Method, system and apparatus for handling information on chemical substances
US7272509B1 (en) * 2000-05-05 2007-09-18 Cambridgesoft Corporation Managing product information
US7356419B1 (en) 2000-05-05 2008-04-08 Cambridgesoft Corporation Deriving product information
DE10043853A1 (de) * 2000-09-06 2002-03-14 Merck Patent Gmbh Verfahren zur Erstellung von Synthesepfaden
US6813615B1 (en) 2000-09-06 2004-11-02 Cellomics, Inc. Method and system for interpreting and validating experimental data with automated reasoning
GB0028157D0 (en) * 2000-11-17 2001-01-03 Amedis Pharm Ltd Method for predicting a biological target characteristic of a molecule
US7330793B2 (en) * 2001-04-02 2008-02-12 Cramer Richard D Method for searching heterogeneous compound databases using topomeric shape descriptors and pharmacophoric features
US7155453B2 (en) * 2002-05-22 2006-12-26 Agilent Technologies, Inc. Biotechnology information naming system
KR20030019681A (ko) * 2001-08-29 2003-03-07 바이오인포메틱스 주식회사 웹 기반 프로테옴 분석 및 관리 시스템 및 그 방법
AUPR981002A0 (en) * 2002-01-02 2002-01-31 Proteome Systems Ltd 2 Dimensional structure queries
EP1721268A1 (en) * 2004-03-05 2006-11-15 Applied Research Systems ARS Holding N.V. Method for fast substructure searching in non-enumerated chemical libraries
US7496593B2 (en) 2004-09-03 2009-02-24 Biowisdom Limited Creating a multi-relational ontology having a predetermined structure
US20060053171A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for curating one or more multi-relational ontologies
US7493333B2 (en) * 2004-09-03 2009-02-17 Biowisdom Limited System and method for parsing and/or exporting data from one or more multi-relational ontologies
US7505989B2 (en) 2004-09-03 2009-03-17 Biowisdom Limited System and method for creating customized ontologies
US20060053382A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for facilitating user interaction with multi-relational ontologies
US20060074833A1 (en) * 2004-09-03 2006-04-06 Biowisdom Limited System and method for notifying users of changes in multi-relational ontologies
US20060053174A1 (en) * 2004-09-03 2006-03-09 Bio Wisdom Limited System and method for data extraction and management in multi-relational ontology creation
US20060053175A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for creating, editing, and utilizing one or more rules for multi-relational ontology creation and maintenance
US20060053172A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for creating, editing, and using multi-relational ontologies
US20060053173A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for support of chemical data within multi-relational ontologies
US20090228445A1 (en) * 2008-03-04 2009-09-10 Systems Biology (1) Pvt. Ltd. Automated molecular mining and activity prediction using xml schema, xml queries, rule inference and rule engines

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60107554A (ja) * 1983-11-16 1985-06-13 Ube Ind Ltd 未知物質の化学構造を決定する方法および装置
US4642762A (en) * 1984-05-25 1987-02-10 American Chemical Society Storage and retrieval of generic chemical structure representations
JPS61223941A (ja) * 1985-03-29 1986-10-04 Kagaku Joho Kyokai 化学構造の検索方法

Also Published As

Publication number Publication date
JPH0628409A (ja) 1994-02-04
EP0496902A1 (en) 1992-08-05
US5418944A (en) 1995-05-23

Similar Documents

Publication Publication Date Title
JPH0792804B2 (ja) 分子検索方法およびシステム
CN112487140B (zh) 问答对话评测方法、装置、设备及存储介质
EP0481907A2 (en) Method and system for processing a multilevel bill of material
CN110209828B (zh) 案件查询方法及案件查询装置、计算机设备和存储介质
US5893094A (en) Method and apparatus using run length encoding to evaluate a database
JPH0228725A (ja) エキスパートシステムにおける問題認識方式
Popescul et al. Statistical relational learning for document mining
JPH0950372A (ja) 宣言的言語の仕様を自動変換する方法およびシステム
EP1099171B1 (en) Accessing a semi-structured database
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
JP2007025939A (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
JPH05324719A (ja) 文書検索システム
JPH1078969A (ja) 情報検索装置
Armitage et al. Automatic detection of structural similarities among chemical compounds
JP2859771B2 (ja) 動的概念辞書を用いた類似検索方法及びその装置
JPH11272709A (ja) ファイル検索方式
Lynch et al. Information retrieval research in the Department of Information Studies, University of Sheffield: 1965-1985
JP3222193B2 (ja) 情報検索装置
Wang et al. A tool for tree pattern matching
AU2020104033A4 (en) CDM- Separating Items Device: Separating Items into their Corresponding Class using Iris Dataset Machine Learning Classification Device
JP3718328B2 (ja) データ変換装置、データ変換方法及びデータ変換プログラムを記録した媒体
JPH07262199A (ja) 検索結果分類装置
JPH0765020A (ja) 検索文生成方法
JPS60247756A (ja) デ−タベ−ス装置
JPH09101951A (ja) 文書検索装置