JPH0228879A - 化学構造式の完全一致検索方式 - Google Patents

化学構造式の完全一致検索方式

Info

Publication number
JPH0228879A
JPH0228879A JP63179698A JP17969888A JPH0228879A JP H0228879 A JPH0228879 A JP H0228879A JP 63179698 A JP63179698 A JP 63179698A JP 17969888 A JP17969888 A JP 17969888A JP H0228879 A JPH0228879 A JP H0228879A
Authority
JP
Japan
Prior art keywords
chemical structural
molecular formula
structural formula
compound
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63179698A
Other languages
English (en)
Other versions
JP2758609B2 (ja
Inventor
Yoshimi Mizobe
溝部 吉巳
Motoji Yoshida
吉田 元二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Sumitomo Chemical Co Ltd
Original Assignee
NEC Corp
Sumitomo Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Sumitomo Chemical Co Ltd filed Critical NEC Corp
Priority to JP17969888A priority Critical patent/JP2758609B2/ja
Publication of JPH0228879A publication Critical patent/JPH0228879A/ja
Application granted granted Critical
Publication of JP2758609B2 publication Critical patent/JP2758609B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は多量の化合物データの中から特定の化合物を検
索する方式に関するものであり、特に化学構造式が完全
に一致するものを高速に検索する方式に関する。
〔従来の技術〕
従来、この種の化合物検索は化合物の構造をマトリック
スで表現したコネクションテーブル(CT)と呼ばれる
データを作成し、このコネクションテーブルに対して配
列演算を繰り返し、−意な配列に変換してそれを記号列
で表し、蓄積された化合物データの記号列と同じかどう
かを比較・判別することにより化学構造式を特定するよ
うにしていた。
すなわち、第5図(alの如き化学構造式のコネクショ
ンテーブルを作成する場合、第5図(blのように各原
子に■、■、・・・・・・というように順に番号を付け
、第5図(C)のように各原子間の結合状態を示せばよ
い。なお、*は1重粘合、**は2重粘合を示している
。そして、第51g(C)のコネクションテーブルに配
列演算を繰り返し、第5図(81に示す一意なコネクシ
ョンテーブルを見つけ出す。これは、第5図(blの各
原子の番号を第5図(d)のように付は変えることと同
じである。そして、第5図(e)のコネクションテーブ
ルを所定の規則に従って記号列にし、比較用のデータを
得ていた。
〔発明が解決しようとする課題〕
ところで、上述した従来の化合物検索にあっては、化学
構造式に対応させて自由な原子の番号付けに基づいて作
成したコネクションテーブルから一意な番号イ」けのコ
ネクションテーブルを見つけ出す作業が必要であり、そ
の組め合わせは原子の数をnとすると最大で01組だけ
あることから、原子の数が多くなると長時間の演算が必
要になり、検索全体に要する時間が長くなるという欠点
があった。
本発明は上記の点に鑑み提案されたものであり、その目
的とするところは、高速に検索が行える化学構造式の完
全一致検索方弐を提供することにある。
〔課題を解決するための手段〕 本発明は上記の目的を達成するため、検索する化学構造
式から分子式等を生成する分子式等生成部と、化学構造
式の中に特定の部分構造が存在するかどうかを示すフラ
グメントコード列を抽出する部分構造抽出部と、生成、
抽出した分子式、フラグメントコード列等を用いてデー
タの索引を探す検索部と、検索されたデフータを1件単
位で読み取って原子を1対1で対応させて同じものかど
うかを判定する構造判定部とを有している。
〔作用〕
本発明の化学構造式の完全一致検索方式にあっては、検
索する化学構造式から分子式等生成部が分子式等を生成
し、部分構造抽出部が化学構造式の中に特定の部分構造
が存在するかどうかを示すフラグメントコード列を抽出
し、これらの生成抽出された分子式、フラグメントコー
ド列等を用いて検索部がデータの索引を探し、候補が絞
られた状態で構造判定部が検索されたデータを1件単位
で読み取り、原子を1対1で対応させて同じものかどう
かを判定し、化合物を特定する。
〔実施例〕
次に、本発明の実施例について図面を参照して説明する
第1図は本発明の化学構造式の完全一致検索方式の一実
施例を示す構成図であり、機能部(大枠で示すブロック
)とデータおよび処理の流れをいっしょに示しである。
第1図において、分子式等抽出部1は検索する化学構造
式から原子、ポンド(結合)の種別、数等を抽出して分
子式や識別コードを生成する機能を存している。また、
部分構造抽出部2は色々な部分構造を示すフラグメント
コード列を化学構造式から抽出する機能を有している。
そして、検索部3は分子式等抽出部1および部分構造抽
出部2により生成、抽出された分子式、識別コード、フ
ラグメントコード列等を索引として索引データの中から
該当するものを探す機能を有し、構造判定部4は検索部
3で見つけた類似化学構造式にかかるデータを1件単位
で読み込み、原子を1つずつ対応させて同じものかどう
かを詳細に判定して最終的に化合物を特定する機能を有
している。
以下、具体例を交えて動作を説明する。
第1121においで、検索する化学構造式が例えばコネ
クションテーブルの形で与えられると、分子式等抽出部
1は化学構造式から原子種別毎の数を求め、原子名とそ
の数を所定の規則で並べて分子式(例えばC4,H6)
を生成する。なお、同じ分子式であっても異なる化学構
造式がいくつか存在することもあるので、ボンド種別毎
の数等を並べた識別コードを生成し、更に細かく識別で
きるようにする。第2図は分子式がC4H6である化学
構造式の例を(a)〜(glの如く7つ示し、各々の化
学構造式に対応して識別コードとしての結合数列を示し
である。なお、結合数列は以下の数をスラッシュ「/」
で区切って順番に並べたものである。
・2重ボンドの数 ・3重ボンドの数 ・環内の1重ポンドの数 ・環内の2重ボンドの数 ・結合相手が3つの原子の数 ・結合相手が4つの原子の数 第2図の例で示す識別コードでは、fc)と(d+とは
同し識別コード(0/l101010/2)になり識別
できないが、他の5つは完全に1つを識別することがで
きる。なお、第2図の識別コードに+イオンや一イオン
の数等を付加すると、更に細かく識別することかできる
次いで、第1図において、検索部3は分子式等抽出部1
で作られた分子式、識別コードを使用して索引データか
ら検索を行い、通常はこの段階で該当する化合物が複数
検索される。なお、この検索段階で該当する化合物が0
件であれば、同一化学構造式は蓄積されたデータ中にば
ないと判定でき、検索は終了する。また、該当する化合
物が1件の場合は、次の部分構造抽出部2および検索部
3による処理を経由せずに、直接に構造判定部4の処理
に移行さセるようにしてもよい。
さて、分子式等抽出部1の分子式、識別コードを用いた
検索で該当する化合物が検索された場合、処理は部分構
造抽出部2に進め、コード中の各文字が部分構造の有無
または数を示すフラグメントコード列が抽出される。す
なわち、分子式やボンドの数等の情報からなる識別コー
トだけでは第2図の(C1と(diのように識別できな
い場合があるので、より細かく識別するためにフラグメ
ントコード列が作成される。第3図はフラグメントコー
ド列の例を示しており、各文字目」は対応する部分構造
の数を示し、例えばi=Qの場合は該当する部分構造が
ないことを示し、i=1の場合は該当する部分構造が1
個存在することを示し、i=nの場合は該当する部分構
造がn個以上存在することを示す。なお、通常はnを1
として簡略化する。
そして、化学構造式の識別のためにフラグメントコード
列全体を1つの識別コードとして扱う。
次いで、第1図において、検索部3は部分構造抽出部2
で作られたフラグメントコード列を使用して、前回の分
子式等抽出部1の分子式、識別コードにより検索された
複数の索引データがら再度検索を行い、該当する化合物
を検索する。なお、この検索段階で該当する化合物が0
件であれば、同一化学構造式は蓄積されたデータ中には
ないと判定でき、検索は終了する。なお、分子式等抽出
部1の分子式、識別コードによる検索と部分構造抽出部
2のフラグメントコート列による検索とは図示の例に限
られず、2〜3段階に分けて行うことも可能である。
しかして、検索部3で最後まで類似化学構造式であると
判定されたものは通常数件以下になり、構造判定部4は
それらの化学構造式のデータを1件華位で読み取り、1
原子栄位で対応を取って同一化合物かどうかを最終的に
判定し、化合物を特定する。
このように、予め分子式、識別コード、フラグメントコ
ード列等を用いて蓄積された化合物データの中から候補
を絞り、それらに対して1原子単位で比較を行うため、
高速に正確な検索が行えるものである。また、第6図(
al、 (blに示すように化学構造式は異なるが同じ
化合物(この例は芳香環)を表すものや、異性体、同位
体原子、配位結合等を含む化合物のように1つの化合物
で2通りの書き方があるもの、および、第6図′c)の
ように1つの書き方で第6図Fd1. (elのような
2つの化合物の混合物を表すもの等は、1つのものを必
ず一意な記号列にしなければならない従来の化合物検索
では取り扱えないという欠点があったが、本発明では最
終的に1原子単位で比較を行うため、そのような不都合
はない。
次に、第4図は本発明の応用例を示したちのあり、新し
い化学構造式をデータとして蓄積する時に、同一化合物
が蓄積済みであることによる2重蓄積を防ぐようにした
ものである。なお、第4図における分子式等抽出部11
部分構造抽出部2検索部3.構造判定部4は前述の実施
例と同じものであり、検索部3は分子式等抽出部1と部
分構造抽出部2に対して共・通して示してあ・るが動作
は同様である。新たな構成としては、構造式蓄積部5と
索引蓄積部6とが加わっている。
動作にあっては、分子式等抽出部Iと部分構造抽出部2
は、蓄積しようとする化合物から索引データを作成する
ため、および既に蓄積済みの同一化合物があるかどうか
を調べるために、分子式。
フラグメントコ−F列等を抽出する。検索部3は分子式
やフラグメントコード列等を用いて索引デ−タを探し、
該当する化合物が見つからなければよいが、見つかった
場合は完全に同じものかどうかを構造判定部4で判定す
る。そして、同じものがなければ構造式蓄積部5は新規
の化合物として構造判定部4で使用したその化合物の構
造式データを蓄積する。次いで、索引蓄積部6はこの化
合物の索引データとして、分子式等抽出部1と部分構造
抽出部2とで抽出した分子式、フラグメン1へコード列
等を蓄積する。なお、これらの蓄積された構造式データ
と索引データは、その後の検索や蓄積時の2重登録チエ
ツクで使用される。
〔発明の効果〕
以上説明したように、本発明の化学構造式の完全一致検
索方式にあっては、分子式等抽出部と部分構造抽出部と
で生成、抽出される分子式、識別コート5フラグメント
コード列等を用いて大まかな検索を行い、次いで該当す
るデータから1原子単位で判定を行うため、正確な検索
が高速で行える効果がある。
【図面の簡単な説明】
第1図は本発明の化学構造式の完全一致検索方式の一実
施例を示す構成図、 第2図は分子式等抽出部で生成される分子式。 識別コードの例を示す図、 第3図は部分構造抽出部で抽出されるフラグメントコー
ド列の例を示す図、 第4図は本発明の応用例を示す図、 第5図はコネクションテーブルの例を示す図および、 第6図は従来では識別できなかった化学構造式%式% 図において、1・・・分子式等抽出部、2・・・部分構
造抽出部、3・・・検索部、4・・・構造判定部、5・
・・構造式蓄積部、6・・・索引蓄積部

Claims (1)

  1. 【特許請求の範囲】 検索する化学構造式から分子式等を生成する分子式等生
    成部と、 化学構造式の中に特定の部分構造が存在するかどうかを
    示すフラグメントコード列を抽出する部分構造抽出部と
    、 生成、抽出した分子式、フラグメントコード列等を用い
    てデータの索引を探す検索部と、 検索されたデータを1件単位で読み取って原子を1対1
    で対応させて同じものかどうかを判定する構造判定部と
    を有してなることを特徴とした化学構造式の完全一致検
    索方式。
JP17969888A 1988-07-19 1988-07-19 化学構造式の完全一致検索方式 Expired - Lifetime JP2758609B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17969888A JP2758609B2 (ja) 1988-07-19 1988-07-19 化学構造式の完全一致検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17969888A JP2758609B2 (ja) 1988-07-19 1988-07-19 化学構造式の完全一致検索方式

Publications (2)

Publication Number Publication Date
JPH0228879A true JPH0228879A (ja) 1990-01-30
JP2758609B2 JP2758609B2 (ja) 1998-05-28

Family

ID=16070310

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17969888A Expired - Lifetime JP2758609B2 (ja) 1988-07-19 1988-07-19 化学構造式の完全一致検索方式

Country Status (1)

Country Link
JP (1) JP2758609B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0465770A (ja) * 1990-07-05 1992-03-02 Fujitsu Ltd 化合物データの表示方式及び装置
JPH0465769A (ja) * 1990-07-05 1992-03-02 Fujitsu Ltd 化合物データ編集装置のデータ処理方式及び編集装置
JPH0498464A (ja) * 1990-08-10 1992-03-31 Fujitsu Ltd 化学構造のデータ表現方式
JPH04127380A (ja) * 1990-09-19 1992-04-28 Fujitsu Ltd 化学構造データの処理装置及び処理方法
WO2001027052A1 (fr) * 1999-10-08 2001-04-19 Riken Procede de codage stereochimique d'une molecule
USRE37803E1 (en) 1990-07-05 2002-07-23 Fujitsu Limited Chemical data handling system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62145417A (ja) * 1985-12-20 1987-06-29 Fujitsu Ltd 分子情報検索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62145417A (ja) * 1985-12-20 1987-06-29 Fujitsu Ltd 分子情報検索方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0465770A (ja) * 1990-07-05 1992-03-02 Fujitsu Ltd 化合物データの表示方式及び装置
JPH0465769A (ja) * 1990-07-05 1992-03-02 Fujitsu Ltd 化合物データ編集装置のデータ処理方式及び編集装置
USRE37803E1 (en) 1990-07-05 2002-07-23 Fujitsu Limited Chemical data handling system
JPH0498464A (ja) * 1990-08-10 1992-03-31 Fujitsu Ltd 化学構造のデータ表現方式
JPH04127380A (ja) * 1990-09-19 1992-04-28 Fujitsu Ltd 化学構造データの処理装置及び処理方法
WO2001027052A1 (fr) * 1999-10-08 2001-04-19 Riken Procede de codage stereochimique d'une molecule

Also Published As

Publication number Publication date
JP2758609B2 (ja) 1998-05-28

Similar Documents

Publication Publication Date Title
EP1360616B1 (en) Database system and query optimiser
US7464101B2 (en) Fuzzy alphanumeric search apparatus and method
US7305391B2 (en) System and method for determining the start of a match of a regular expression
Razinger et al. Structural selectivity of topological indexes in alkane series
Balaban et al. Unique description of chemical structures based on hierarchically ordered extended connectivities (HOC procedures). I. algorithms for finding graph orbits and canonical numbering of atoms
AU2002229734A1 (en) Database system and query optimiser
JPH06103497B2 (ja) レコード検索方法及びデータベース・システム
JPH08255176A (ja) データベースのテーブルを比較する方法及びシステム
CN1613073A (zh) 改进型多路基数树
JPH0228879A (ja) 化学構造式の完全一致検索方式
JP2693914B2 (ja) 検索システム
JP3534471B2 (ja) マージソート方法及びマージソート装置
JPH0773187A (ja) 検索システム
JP2740570B2 (ja) 半導体プロセス支援システム
JPH05135102A (ja) 文書検索方式
JP3104893B2 (ja) 情報検索方式
JPH0363876A (ja) 検索装置
JPH11143749A (ja) リレーショナルデータベースマネジメントシステムおよびデータ管理方法
JP2827658B2 (ja) 図形解析装置及び図形検索装置
JPS61141036A (ja) デ−タ検索方式
JP2835065B2 (ja) 文字列検索方法
JPH03177971A (ja) 略語による検索方法
JPH09330322A (ja) データ検索装置
JPH0738195B2 (ja) 拡張項のための重ね合わせ符号を用いた検索方法
JPH05313971A (ja) リレーショナル・データベースにおけるキーワード管理方式