JP5484946B2 - Fast graph match search apparatus and method for evaluating similarity between molecules - Google Patents

Fast graph match search apparatus and method for evaluating similarity between molecules Download PDF

Info

Publication number
JP5484946B2
JP5484946B2 JP2010031526A JP2010031526A JP5484946B2 JP 5484946 B2 JP5484946 B2 JP 5484946B2 JP 2010031526 A JP2010031526 A JP 2010031526A JP 2010031526 A JP2010031526 A JP 2010031526A JP 5484946 B2 JP5484946 B2 JP 5484946B2
Authority
JP
Japan
Prior art keywords
atoms
molecule
atom
pair
graph match
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010031526A
Other languages
Japanese (ja)
Other versions
JP2011170444A (en
Inventor
剛 白井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EDUCATIONAL CORP KANSAI BUNRI SOUGOUGAKUEN
Original Assignee
EDUCATIONAL CORP KANSAI BUNRI SOUGOUGAKUEN
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EDUCATIONAL CORP KANSAI BUNRI SOUGOUGAKUEN filed Critical EDUCATIONAL CORP KANSAI BUNRI SOUGOUGAKUEN
Priority to JP2010031526A priority Critical patent/JP5484946B2/en
Priority to PCT/JP2011/053280 priority patent/WO2011102384A1/en
Publication of JP2011170444A publication Critical patent/JP2011170444A/en
Application granted granted Critical
Publication of JP5484946B2 publication Critical patent/JP5484946B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data

Landscapes

  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、高速グラフマッチ検索アルゴリズムを利用して、2分子間の原子対応を求め対応に基づいて2分子を仮想的に重ね合わせ、2分子間の類似度を求めて評価する、高速グラフマッチ検索装置及び方法に関する。   The present invention uses a fast graph match search algorithm to find an atomic correspondence between two molecules, virtually superimpose two molecules based on the correspondence, and obtain and evaluate a similarity between the two molecules. The present invention relates to a search apparatus and method.

医薬や農薬の分子設計において、2つの分子に係る分子構造を仮想空間にて重ね合わせすることが頻繁に行われる。図13は、そのような、2つの分子(Cholic acid[CHD]とCorticosteron[COR])を仮想空間にて重ね合わせすることを模式的に示す図である。しかしながら、2つの分子についての最適な重ね合わせを探索し決定することは非常に困難な問題である。   In molecular design of medicines and agricultural chemicals, it is frequently performed to superimpose molecular structures related to two molecules in a virtual space. FIG. 13 is a diagram schematically showing superposition of two such molecules (Cholic acid [CHD] and Corticosteron [COR]) in a virtual space. However, it is a very difficult problem to search and determine the optimal superposition for two molecules.

例えば、分子Aと分子Bとの重ね合わせの問題について、片方の分子Aを『CMP』とした場合に、それに基づき重ね合わせにて探索可能な重ね合わせの対象の分子Bを求める場合を検討する。ここで「探索可能な」というのは、全探査を8時間労働・週休2日の労働時間で50年程度行って、探索が解決され得ると想定される、という程の意味である。例えば、人手による計算による場合では、分子BがCysteinである場合、1.3×10通り程度の重ね合わせの計算を行い、最適な重ね合わせを求めることが可能となる(図14(a))。同様に、デスクトップコンピュータによる場合では、分子BがDiaminopimelateである場合、1.5×1015通り程度の重ね合わせの計算を行い、最適な重ね合わせを求めることが可能となる(図14(b))。更に同様に、超高速度電子計算機による場合でも、分子BがAMPである場合、8.3×1021通りの重ね合わせの計算を行い、最適な重ね合わせを求めることが可能となる(図14(c))。このように、分子Aと分子Bの最適な重ね合わせを全探索に拠ることは、膨大な時間が掛かるため、必ずしも現実的な方法ではない。 For example, regarding the problem of superposition of molecule A and molecule B, when one molecule A is set to “CMP”, the case of obtaining the target molecule B to be superposed that can be searched by superposition based on it is examined. . Here, “searchable” means that it is assumed that the search can be solved by performing the entire exploration for about 50 years with working hours of 8 hours and 2 days a week. For example, in the case of calculation by hand, when the molecule B is Cystein, it is possible to calculate about 1.3 × 10 7 superpositions to obtain the optimum superposition (FIG. 14A). ). Similarly, in the case of using a desktop computer, when the molecule B is Diaminoprimate, it is possible to calculate about 1.5 × 10 15 superpositions to obtain an optimum superposition (FIG. 14B). ). Similarly, even in the case of using an ultra high speed computer, when the molecule B is AMP, it is possible to calculate 8.3 × 10 21 superpositions to obtain the optimum superposition (FIG. 14). (C)). As described above, it is not necessarily a practical method because it takes an enormous amount of time to search for an optimal superposition of the molecule A and the molecule B by full search.

よって、2分子間の原子対応を求め該対応に基づいて2分子の最適な重ね合わせを実現するグラフマッチにおいて、多少の間違いを許容しつつも発見的に高速に行うことが求められている。   Therefore, it is required to perform an heuristically high speed while allowing some mistakes in a graph match that obtains an atomic correspondence between two molecules and realizes an optimal superposition of two molecules based on the correspondence.

なお、化合物検索のアルゴリズムに関する先行技術文献として、以下のような6件が挙げられる。   In addition, as the prior art documents relating to the compound search algorithm, there are the following six cases.

特許第4001657号Japanese Patent No. 4001657 特許第3928000号Patent No. 3928000 国際出願01/097094号International Application 01/097094 国際出願02/41184号International Application No. 02/41184 国際出願2007/004643号International Application 2007/004643

J.Computer-Aided Molecular Design, 13:499-512, 1999 Estimation of active confirmations of drugs by a new molecular superposing procedureJ. Computer-Aided Molecular Design, 13: 499-512, 1999 Estimation of active confirmations of drugs by a new molecular superposing procedure

本発明は、原子をノード、化学結合をエッジとして表現した分子グラフに関して、2分子間の原子対応を求め該対応に基づいて2分子を重ね合わせする方法を高速に実現する、グラフマッチ検索装置及び方法を提供することを目的とする。   The present invention relates to a molecular match search device that expresses an atomic correspondence between two molecules and superimposes two molecules based on the correspondence with respect to a molecular graph expressing atoms as nodes and chemical bonds as edges. It aims to provide a method.

本発明は、上記の目的を達成するために為されたものである。本発明に係る請求項1に記載の、分子間の類似度を評価するための高速グラフマッチ検索装置は、
第1の分子Aを構成する原子(Ai,Aj,・・・)の各々に係る座標データと第2の分子Bを構成する原子(Bk,Bl,・・・)の各々に係る座標データを記憶部から入力し、演算部にロードされるコンピュータプログラムに従って、演算部及び記憶部に構築される仮想メモリ空間において第1の分子Aの夫々の原子(Ai,Aj,・・・)と第2の分子Bの夫々の原子(Bk,Bl,・・・)との対応付け(m(Ai)=Bk)を求めて重ね合わせを行い(i,j,k,lはいずれも自然数)、第1の分子Aと第2の分子Bの間の最適な原子間対応、及び第1の分子Aと第2の分子Bの類似度に係るデータを出力部に出力する、第1の分子Aと第2の分子Bとの類似度を評価するための高速グラフマッチ検索装置において、
第1の分子Aの全ての原子Aiと第2の分子Bの全ての原子Bkとで形成される、原子Aiと原子Bkの組の全てに関して、原子Ai、Bkの対の各原子からみて、周囲の環境が相互にどれだけ似ているかを示す第1の類似指標S1(Ai、Bk)を求める第1の算出手段と、
第1の分子Aの全ての原子Aiと第2の分子Bの全ての原子Bkとで形成される、原子Aiと原子Bkの組の全てに関して、原子Ai、Bkの対の各原子からみて、等しい結合距離にある周囲の原子Aj、Blの全ての組につき、第1の類似指標S1(Aj,Bl)を積算して算出する第2の類似指標S2(Ai、Bk)を求める算出手段であって、その原子Ai、Bkの対の各原子から等しい結合距離にある周囲の原子Aj、Blが同じ元素であれば、更に第1の類似指標S1(Aj,Bl)に係数を掛けた上で積算する、第2の類似指標S2(Ai、Bk)を求める第2の算出手段と、
第1の分子Aの全ての原子Aiと第2の分子Bの全ての原子Bkとで形成される、原子Aiと原子Bkの組の全てに関して、原子Ai、Bkの対を始点とし、第1の分子Aの原子と第2の分子Bの原子とを順次対応付けして全体の対応を作成し、そのときに算出されるグラフマッチスコアM(A,B)を値とする第3の類似指標S3(Ai、Bk)を求める算出手段であって、対応付け作成時には、既に対応付け済みの原子に直接結合する原子を次に選択すること、及び第2の類似指標S2が高い対を選択することを優先することを、条件とする、第3の類似指標S3(Ai、Bk)を求める第3の算出手段と、
第3の算出手段にて最大のS3(Ai,Bk)を算出した際の、始点の原子(Ai,Bk)の対から開始して、未対応の原子の対の中で最大のS3(Aj,Bl)を持つものを対応させることを、対応可能原子の組が無くなるまで続けたときの、全体の対応におけるグラフマッチスコアM(A,B)を求める第4の算出手段と、
第4の算出手段におけるグラフマッチスコアM(A、B)が閾値より大きいならば、第1の分子Aと第2の分子Bにつき第4の算出手段で算出した原子間対応及びグラフマッチスコアM(A,B)を出力する第5の出力手段と
を含むことを特徴とする。
The present invention has been made to achieve the above object. The fast graph match search apparatus for evaluating similarity between molecules according to claim 1 of the present invention,
Coordinate data relating to each of the atoms (Ai, Aj,...) Constituting the first molecule A and coordinate data relating to each of the atoms (Bk, B1,...) Constituting the second molecule B. Each atom (Ai, Aj,...) And second of the first molecule A in the virtual memory space constructed in the calculation unit and the storage unit according to the computer program input from the storage unit and loaded into the calculation unit. Are associated with each atom (Bk, B1,...) (M (Ai) = Bk) and superposed (i, j, k, l are all natural numbers), The first molecule A, which outputs to the output unit data relating to the optimal interatomic correspondence between one molecule A and the second molecule B and the similarity between the first molecule A and the second molecule B; In the fast graph match search device for evaluating the similarity with the second molecule B,
Regarding all the pairs of atoms Ai and Bk formed by all atoms Ai of the first molecule A and all atoms Bk of the second molecule B, as seen from each atom of the pair of atoms Ai and Bk, First calculation means for obtaining a first similarity index S1 (Ai, Bk) indicating how similar the surrounding environment is;
Regarding all the pairs of atoms Ai and Bk formed by all atoms Ai of the first molecule A and all atoms Bk of the second molecule B, as seen from each atom of the pair of atoms Ai and Bk, A calculation means for obtaining a second similarity index S2 (Ai, Bk) that is calculated by integrating the first similarity index S1 (Aj, B1) for all pairs of surrounding atoms Aj, B1 having the same bond distance. If the surrounding atoms Aj and B1 that are at the same bond distance from each atom of the pair of atoms Ai and Bk are the same element, the first similarity index S1 (Aj, B1) is further multiplied by a coefficient. A second calculating means for calculating a second similarity index S2 (Ai, Bk),
For all pairs of atoms Ai and Bk formed by all atoms Ai of the first molecule A and all atoms Bk of the second molecule B, the first pair of atoms Ai and Bk is used as the starting point. A third similarity having a value corresponding to the graph match score M (A, B) calculated at that time by creating an overall correspondence by sequentially associating the atoms of the molecule A and the atoms of the second molecule B Computation means for obtaining the index S3 (Ai, Bk), and at the time of creating the correspondence, next select an atom that directly binds to an already associated atom, and select a pair having a high second similarity index S2 Third calculation means for obtaining a third similarity index S3 (Ai, Bk), on the condition that priority is given to
Starting from the pair of starting atoms (Ai, Bk) when the maximum S3 (Ai, Bk) is calculated by the third calculating means, the largest S3 (Aj , B1), the fourth calculation means for obtaining the graph match score M (A, B) in the overall correspondence when the correspondence is continued until there is no pair of atoms that can be handled,
If the graph match score M (A, B) in the fourth calculation means is greater than the threshold value, the correspondence between atoms and the graph match score M calculated by the fourth calculation means for the first molecule A and the second molecule B And fifth output means for outputting (A, B).

本発明により、原子をノード、化学結合をエッジとして表現した分子グラフに関して、2分子間の原子を対応させ該対応に基づいて2分子を重ね合わせするにあたり、最適な重ね合わせを高速に且つ精度よく求めることができる。   According to the present invention, when a molecule graph in which atoms are represented as nodes and chemical bonds are represented as edges, the atoms between the two molecules are made to correspond and two molecules are superposed on each other based on the correspondence. Can be sought.

本発明の実施形態に係るグラフマッチによる分子構造の高速アルゴリズムを実現するコンピュータシステムの構成の例を示す図である。It is a figure which shows the example of a structure of the computer system which implement | achieves the high-speed algorithm of the molecular structure by the graph matching which concerns on embodiment of this invention. 本発明の実施形態に係る高速グラフマッチ探索アルゴリズムによる分子構造の重ね合わせ及びその表示のためのプログラムのフローチャートである。It is a flowchart of the program for superimposition and the display of the molecular structure by the fast graph match search algorithm which concerns on embodiment of this invention. 分子Aと分子Bの、原子(ノード)及び結合(エッジ)を模式的に示す図(図3(1))と、図3(1)に示す分子Aと分子Bに基づいて算出された分子グラフマッチスコアの例(図3(2))である。A diagram schematically showing atoms (nodes) and bonds (edges) of molecules A and B (FIG. 3 (1)), and molecules calculated based on molecules A and B shown in FIG. 3 (1) It is an example (FIG. 3 (2)) of a graph match score. 図2に示すステップS10において、分子Aと分子Bの間の原子対応関係{m(Ai)}とグラフマッチスコアM(A、B)を求める高速グラフマッチ探索アルゴリズムのフローチャートである。3 is a flowchart of a fast graph match search algorithm for obtaining an atomic correspondence {m (Ai)} between a molecule A and a molecule B and a graph match score M (A, B) in step S10 shown in FIG. 分子Aの一部及び分子Bの一部を示す図であって、原子Aiと原子Bkに関する指標S1の算出を説明するための図である。It is a figure which shows a part of molecule | numerator A and a part of molecule | numerator B, Comprising: It is a figure for demonstrating calculation of parameter | index S1 regarding the atom Ai and the atom Bk. 分子Aの一部及び分子Bの一部を示す図であって、原子Aiと原子Bkに関する指標S2の算出を説明するための図である。It is a figure which shows a part of molecule | numerator A and a part of molecule | numerator B, Comprising: It is a figure for demonstrating calculation of parameter | index S2 regarding the atom Ai and the atom Bk. 分子Aの一部及び分子Bの一部を示す図であって、原子Aiと原子Bkに関する指標S3の算出を説明するための図である。It is a figure which shows a part of molecule | numerator A and a part of molecule | numerator B, Comprising: It is a figure for demonstrating calculation of parameter | index S3 regarding the atom Ai and the atom Bk. 分子Aの一部及び分子Bの一部を示す図であって、図4のステップS1008におけるグラフマッチスコアM0の算出を説明するための図である。It is a figure which shows a part of molecule | numerator A and a part of molecule | numerator B, Comprising: It is a figure for demonstrating calculation of the graph match score M0 in step S1008 of FIG. 分子Aの一部及び分子Bの一部を示す図であって、図4のステップS1012における微調整を説明するための図である。It is a figure which shows a part of molecule | numerator A and a part of molecule | numerator B, Comprising: It is a figure for demonstrating the fine adjustment in step S1012 of FIG. ねじれ角を調整して、分子Aと分子Bをより重ね合わせて表示することを模式的に示す図である。It is a figure which shows typically adjusting the twist angle and displaying the molecule | numerator A and the molecule | numerator B more superimposed. クエリの原子{Ai}に対応した{m(Ai)}の組で、重ね合わせを行い原子座標を出力した図(図11(a))と、クエリ構造から共通骨格にあたる原子座標を出力した図(図11(b))である。A diagram (Fig. 11 (a)) in which atomic coordinates are output by superimposing a set of {m (Ai)} corresponding to a query atom {Ai}, and a diagram in which atomic coordinates corresponding to a common skeleton are output from the query structure. (FIG. 11B). 総組み合わせ数1012以下の問題に対して、全探査により最大スコアを求め、本発明の実施形態に係る高速グラフマッチ探索アルゴリズムによる解と比較を行った際の、全探査組み合わせ数に対する計算時間をグラフ化したもの(図12(1))と、全探査組み合わせ数に対する正解率をグラフ化したもの(図12(2))と、正解スコア差と累積正解率の関係をグラフ化したもの(図12(3))である。For a problem with a total number of combinations of 10 12 or less, the maximum score is obtained by full search, and the calculation time for the total search combination number when compared with the solution by the fast graph match search algorithm according to the embodiment of the present invention is calculated. A graph (Fig. 12 (1)), a graph of the correct answer rate for the total number of exploration combinations (Fig. 12 (2)), and a graph of the relationship between the correct score difference and the cumulative correct rate (Fig. 12 (3)). 2つの分子(Cholic acid[CHD]とCorticosteron[COR])を仮想空間にて重ね合わせすることを模式的に示す図である。It is a figure which shows typically superimposing two molecules (Cholic acid [CHD] and Corticosteron [COR]) in virtual space. 分子Aと分子Bとの重ね合わせの問題について、片方の分子Aを『CMP』とした場合に、それに基づき重ね合わせにて探索可能な重ね合わせの対象の分子Bの例を示した図である。FIG. 5 is a diagram showing an example of a molecule B to be superposed that can be searched by superposition based on the case where one molecule A is “CMP” regarding the problem of superposition of molecule A and molecule B. .

以下、図面を参照して本発明に係る好適な実施の形態を説明する。   DESCRIPTION OF THE PREFERRED EMBODIMENTS Preferred embodiments according to the present invention will be described below with reference to the drawings.

本実施形態に係るグラフマッチによる分子構造の高速アルゴリズムは、コンピュータを用いて行われるものであり、C言語などの適切なプログラム言語によって記述されたプログラムをコンピュータで実行し、(後で説明する)様々な分子を構成する原子に関する座標データをコンピュータ上で構築される仮想メモリ空間に展開することにより、実現されるものである。   The high-speed algorithm for molecular structure based on graph matching according to the present embodiment is performed using a computer, and a program described in an appropriate program language such as C language is executed on the computer (described later). This is realized by expanding coordinate data relating to atoms constituting various molecules in a virtual memory space constructed on a computer.

図1は、本実施形態に係るグラフマッチによる分子構造の高速アルゴリズムを実現するコンピュータシステム2の構成の例を示す図である。コンピュータシステム2は、ディスプレイ等の出力部12、キーボード16やマウス18などの入力部、並びに、演算部、記憶部及び通信制御部等を含む中央処理部14から構成される。中央処理部14は、インターネット4等の外部ネットワークを介して、外部サーバ8や外部データベース10と接続しそれら外部サーバ8や外部データベース10とデータを送受信することができるように、構成されている。   FIG. 1 is a diagram showing an example of the configuration of a computer system 2 that implements a high-speed molecular structure algorithm based on graph matching according to the present embodiment. The computer system 2 includes an output unit 12 such as a display, an input unit such as a keyboard 16 and a mouse 18, and a central processing unit 14 including a calculation unit, a storage unit, a communication control unit, and the like. The central processing unit 14 is configured to be connected to the external server 8 and the external database 10 via an external network such as the Internet 4 and transmit / receive data to / from the external server 8 and the external database 10.

本実施形態で利用される、様々な分子についての原子座標に係るデータは、PDB(プロテインデータバンク;蛋白質構造データバンク)フォーマットのデータであり、通常、外部の商用及び公開データベース10等から提供される。例えば、PDBフォーマットの様々な分子についての原子座標に係るデータは、外部ネットワーク4を介して外部の商用及び公開データベース10からダウンロードされ、コンピュータシステム2に付属する記憶部に格納される。これらのデータは、図2に示すフローチャートに係る処理を実行する際、記憶部から読み出されて利用される。   Data relating to atomic coordinates for various molecules used in the present embodiment is data in a PDB (protein data bank; protein structure data bank) format, and is usually provided from an external commercial or public database 10 or the like. The For example, data relating to atomic coordinates for various molecules in the PDB format is downloaded from an external commercial and public database 10 via the external network 4 and stored in a storage unit attached to the computer system 2. These data are read from the storage unit and used when executing the processing according to the flowchart shown in FIG.

1.高速グラフマッチ探索アルゴリズムによる分子構造の重ね合わせ処理
図2は、本実施形態に係る高速グラフマッチ探索アルゴリズムによる分子構造の重ね合わせ及びその処理のフローチャートである。図2を参照して本実施形態に係る分子構造の重ね合わせ処理を説明する。まず、重ね合わせの一方の分子(分子Aとする)についてのPDBフォーマットの原子座標を読み込む(ステップS02)。読み込んだPDBフォーマットの原子座標に基づいて、分子Aの結合距離・結合次数・回転可能結合の設定を行う(ステップS04)。分子の結合距離・結合次数・回転可能結合の設定については後で説明する。
1. FIG. 2 is a flowchart of molecular structure superimposition and processing performed by the high-speed graph match search algorithm according to the present embodiment. With reference to FIG. 2, the superposition process of the molecular structure according to the present embodiment will be described. First, the atomic coordinates in the PDB format for one of the superimposed molecules (referred to as molecule A) are read (step S02). Based on the read atomic coordinates in the PDB format, the bond distance, bond order, and rotatable bond of molecule A are set (step S04). The setting of the molecular bond distance, bond order, and rotatable bond will be described later.

ステップS02及びステップS04と並行して、重ね合わせのもう一方の分子(分子Bとする)についてのPDBフォーマットの原子座標を読み込む(ステップS06)。なお、分子Bは複数であることがある。次に、分子Bの一つについて結合距離・結合次数・回転可能結合の設定を行う(ステップS08)。   In parallel with step S02 and step S04, the atomic coordinates in the PDB format for the other molecule of superposition (molecule B) are read (step S06). There may be a plurality of molecules B. Next, the bond distance, bond order, and rotatable bond are set for one of the molecules B (step S08).

続いて、高速グラフマッチ探索アルゴリズムを行い、分子Aの原子(Ai)から分子B(Bk)への対応関係{m(Ai)}及びそのときのグラフマッチスコアM(A、B)を求める(i、kはいずれも自然数)(ステップS10)。ここで、グラフマッチスコアM(A、B)とは、2分子間の原子対応を求め該対応に基づいて2分子の最適な重ね合わせを実現するグラフマッチにおいて、最適さの程度を示す指標である。なお、グラフマッチスコアM(A、B)、対応関係{m(Ai)}、及び高速グラフマッチ探索アルゴリズムの、夫々の詳細については、後で説明する。   Subsequently, a high-speed graph match search algorithm is performed to obtain the correspondence {m (Ai)} from the atom (Ai) of the molecule A to the molecule B (Bk) and the graph match score M (A, B) at that time ( i and k are both natural numbers) (step S10). Here, the graph match score M (A, B) is an index indicating the degree of optimization in a graph match that obtains an atomic correspondence between two molecules and realizes an optimal superposition of two molecules based on the correspondence. is there. Details of the graph match score M (A, B), the correspondence {m (Ai)}, and the fast graph match search algorithm will be described later.

グラフマッチスコアM(A、B)が閾値より大きいかどうか確認される(ステップS12)。閾値より大きいということは、そのグラフマッチスコアM(A、B)を実現する重ね合わせのための対応関係(m(Ai))が十分に適切であることを意味する(ステップS12のYes)。このとき、分子Aに対する分子Bのねじれ角が調節され(ステップS14)、分子Aと分子Bにつき原子アラインメント及び構造重ね合わせが出力される(ステップS16)。ねじれ角の調節、並びに、原子アラインメント及び構造重ね合わせの出力についても、後述する。   It is confirmed whether or not the graph match score M (A, B) is larger than the threshold (step S12). That it is larger than the threshold means that the correspondence (m (Ai)) for superimposition that realizes the graph match score M (A, B) is sufficiently appropriate (Yes in step S12). At this time, the twist angle of the molecule B with respect to the molecule A is adjusted (step S14), and the atomic alignment and superposition of the molecules A and B are output (step S16). The adjustment of the twist angle, and the output of atomic alignment and structure superposition will also be described later.

更に、次の分子Bがあるかどうか判断される(ステップS18)。次の分子Bがあれば(ステップS18のYes)、次の分子Bについての結合距離・結合次数・回転可能結合の設定(ステップS08)以降の処理が繰り返される。   Further, it is determined whether there is a next molecule B (step S18). If there is the next molecule B (Yes in step S18), the processing after the setting of the bond distance, bond order, and rotatable bond (step S08) for the next molecule B is repeated.

分子Bが無くなれば(ステップS18・No)、出力部12に基本骨格(又は共通骨格)を出力して(ステップS20)処理を終了する。   If the molecule B disappears (No at Step S18), the basic skeleton (or common skeleton) is output to the output unit 12 (Step S20), and the process is terminated.

2.結合距離・結合次数・回転可能結合の設定
図2のステップS04及びS08で行われる「結合距離・結合次数・回転可能結合の設定」について説明する。
2. Setting of Bonding Distance, Bonding Order, and Rotatable Bonding “Setting of bond distance, bond order, and rotatable bond” performed in steps S04 and S08 in FIG. 2 will be described.

(2.1)結合距離
PDBフォーマットに係るデータが示す分子構造では、原子間の結合が定義されていないことがある。そこで本実施形態では、一つの分子において、原子iと原子jの間の原子間距離が2.00Åより短い場合は化学結合が存在するものとしてデータ上、化学結合を設定する(i、jはいずれも自然数)。この「原子間距離」は、PDBから読み込まれる原子座標に基づいて計算される。更に、一つの分子において二つの原子を取り上げたとき、それら2原子を繋ぐ化学結合の数を「結合距離」とする。それら2原子を繋ぐ経路が複数存在するときは最小のものを取る。結合を一つずつ延長することで、一つの分子内の全ての原子間に結合距離が設定される。
(2.1) Bond distance In the molecular structure indicated by the data related to the PDB format, bonds between atoms may not be defined. Therefore, in this embodiment, when the interatomic distance between atom i and atom j is shorter than 2.00 mm in one molecule, the chemical bond is set on the data assuming that a chemical bond exists (i and j are Both are natural numbers). This “interatomic distance” is calculated based on atomic coordinates read from the PDB. Furthermore, when two atoms are taken up in one molecule, the number of chemical bonds connecting these two atoms is defined as “bond distance”. If there are multiple paths connecting these two atoms, take the smallest one. By extending the bonds one by one, the bond distance is set between all atoms in one molecule.

(2.2)結合次数
PDBフォーマットに係るデータが示す分子構造では、原子間の結合次数が定義されておらず、且つ、一般に水素原子を含んでいない。そこで、以下の表1の示すルールに従い、原子間距離に基づき結合次数を求める。

Figure 0005484946
(2.2) Bond Order In the molecular structure indicated by the data related to the PDB format, the bond order between atoms is not defined and generally does not contain a hydrogen atom. Therefore, the bond order is determined based on the interatomic distance according to the rules shown in Table 1 below.
Figure 0005484946

(2.3)回転可能結合
直接結合する原子の対(原子iと原子j)の全てについて、上記「(2.1)結合距離」の定義プロセスを、原子の対間の結合が存在しないものとして実行する。その結果、原子の対(原子iと原子j)間に結合距離が設定されず、且つ、原子iと原子jの間の結合が単結合である場合は、原子iと原子jの対の間の結合は「回転可能結合」であると設定する。
(2.3) Rotatable bond For all of the directly coupled atom pairs (atom i and atom j), the definition process of “(2.1) Bond distance” above is the one where there is no bond between the pair of atoms. Run as. As a result, when the bond distance is not set between the atom pair (atom i and atom j) and the bond between atom i and atom j is a single bond, between the atom i and atom j pair Is set to be “rotatable connection”.

3.分子グラフマッチスコア定義
本実施形態に係るグラフマッチによる分子構造の高速アルゴリズムでは、分子グラフマッチスコアM(A,B)を定義している。なお{M(A,B)}は、分子Aと分子Bとの間の分子グラフマッチスコアであることを示す。図3(1)は、分子Aと分子Bの、原子(ノード)及び結合(エッジ)を模式的に示す図である。
以下に、本実施形態で利用する分子グラフマッチスコアM(A,B)の定義((定義1)、(定義2)、(定義3)及び(定義4))について説明する。
3. Molecular Graph Match Score Definition The molecular graph match score M (A, B) is defined in the high-speed molecular structure algorithm based on graph matching according to the present embodiment. Note that {M (A, B)} indicates a molecular graph match score between the molecule A and the molecule B. FIG. 3A is a diagram schematically showing atoms (nodes) and bonds (edges) of the molecules A and B. FIG.
Hereinafter, the definitions ((Definition 1), (Definition 2), (Definition 3) and (Definition 4)) of the molecular graph match score M (A, B) used in the present embodiment will be described.

(定義1);「Ai」は、分子Aのi番目の原子であることを示す。「Ai−Aj」は、AiとAjの結合を示す。 (Definition 1); “Ai” indicates the i-th atom of the molecule A. “Ai-Aj” indicates a connection between Ai and Aj.

(定義2);分子Aの原子i(Ai)が、分子Bの原子k(Bk)に対応することを、「 m(Ai)=Bk 」と表すものとする。即ち、m(Ai)=Bkとは、分子Aの原子iが対応する分子Bの原子kを示す。 (Definition 2); The fact that the atom i (Ai) of the molecule A corresponds to the atom k (Bk) of the molecule B is expressed as “m (Ai) = Bk”. That is, m (Ai) = Bk indicates the atom k of the molecule B to which the atom i of the molecule A corresponds.

(定義3)
分子グラフマッチスコアM(A,B)は以下の式(数1)で定義される

Figure 0005484946
数1の各項は、以下の通り定義される。なおE(Ai,Aj)は、実行modeにより異なる値を持つ。この実行modeは、図1に示す入力部等を介して事後的に外部から設定され得るものである。
Figure 0005484946
(Definition 3)
The molecular graph match score M (A, B) is defined by the following formula (Equation 1).
Figure 0005484946
Each term of Equation 1 is defined as follows. Note that E (Ai, Aj) has a different value depending on the execution mode. This execution mode can be set later from the outside via the input unit shown in FIG.
Figure 0005484946

図3(2)は、上述の定義に従い、図3(1)に示す分子Aと分子Bに基づいて算出された分子グラフマッチスコアの例である。模様が同じであれば同じ元素であり、エッジは全て単結合であるとしているので、実行modeに関わり無く、図3(2)に示す値(特に、M(A、B)=14)となる。   FIG. 3B is an example of a molecular graph match score calculated based on the molecule A and the molecule B shown in FIG. If the patterns are the same, the elements are the same, and the edges are all single bonds. Therefore, the values shown in FIG. 3B (particularly M (A, B) = 14) are obtained regardless of the execution mode. .

4.高速グラフマッチ探索アルゴリズム
図4は、図2に示すステップS10において、分子Aと分子Bの間の、原子の対応関係{m(Ai)}とグラフマッチスコアM(A、B)を求める高速グラフマッチ探索アルゴリズムのフローチャートである。以下、このフローチャートを参照し、高速グラフマッチ探索アルゴリズムを具体的に説明する。
4). High-Speed Graph Match Search Algorithm FIG. 4 is a high-speed graph for obtaining the atomic correspondence {m (Ai)} and the graph match score M (A, B) between the molecule A and the molecule B in step S10 shown in FIG. It is a flowchart of a match search algorithm. Hereinafter, the fast graph match search algorithm will be described in detail with reference to this flowchart.

[ステップS1002];まず、分子Aを構成する原子と、分子Bを構成する原子との全ての組み合わせ(Ai,Bk)について、以下の数2及び表3で定義される「S1(Ai,Bk)」を求める。

Figure 0005484946
Figure 0005484946
[Step S1002]; First, for all combinations (Ai, Bk) of the atoms constituting the molecule A and the atoms constituting the molecule B, “S1 (Ai, Bk) defined in the following Equation 2 and Table 3 ) ”.
Figure 0005484946
Figure 0005484946

S1(Ai,Bk)は、原子Aiと原子Bkの対において、周囲の環境(同じ結合距離に同じ種類の原子があるか)がどれだけ似ているかを示す指標である。   S1 (Ai, Bk) is an index indicating how similar the surrounding environment (whether there are atoms of the same type at the same bond distance) in the pair of atoms Ai and Bk.

例えば、図5に示される分子Aの一部、及び分子Bの一部において、原子Aiから2の結合距離にある原子Ajと、原子Aiに対応する原子Bkから2の結合距離にある原子Blとが同一元素であれば、s1(Aj,Bl)の値は“1”になる。原子Aiと原子Bkの対を中心として、同じ結合距離にある、分子Aの原子と分子Bの原子が同じかどうか、全{j,l}の組について確認し、“1”又は“0”を設定して積算する。上記のS1(Ai,Bk)は、対応する原子Ai,Bkからみて、同じ結合距離の位置に同じ元素がある、という場合が多い程、大きくなる。   For example, in a part of the molecule A and a part of the molecule B shown in FIG. 5, the atom Aj at a bond distance of 2 from the atom Ai and the atom Bl at a bond distance of 2 from the atom Bk corresponding to the atom Ai Is the same element, the value of s1 (Aj, Bl) is “1”. Whether the atom of the molecule A and the atom of the molecule B, which are at the same bond distance around the pair of the atom Ai and the atom Bk, is the same for all {j, l} pairs, “1” or “0” Set to integrate. The above-mentioned S1 (Ai, Bk) becomes larger as there are many cases where the same element is present at the same bond distance as viewed from the corresponding atoms Ai, Bk.

[ステップS1004];次に、以下の数3及び表4で定義される「S2(Ai,Bk)」を、全ての{i,k}の組について求める。

Figure 0005484946
Figure 0005484946
[Step S1004]; Next, “S2 (Ai, Bk)” defined in the following Equation 3 and Table 4 is obtained for all sets of {i, k}.
Figure 0005484946
Figure 0005484946

S2(Ai,Bk)は、対応する原子Ai、Bkの対の夫々において、その対の各原子から等しい結合距離にある周囲の原子Aj、Blの全ての組について、上記の、周囲の環境がどれだけ似ているかを示す指標であるS1(Aj,Bl)を積算する指標であるが、その対の各原子から等しい結合距離にある周囲の原子Aj、Blが同じものであれば、更にS1(Aj,Bl)に係数(上記表では12)を掛けて積算される。従って、対応する原子Ai、Bkの対の各原子について、周囲の環境が類似し、更に周囲の環境のその周囲の環境が類似すれば、大きくなる指標である。   S2 (Ai, Bk) is the above-mentioned surrounding environment for all pairs of surrounding atoms Aj, B1 that are at equal bond distances from each atom of the pair of corresponding atoms Ai, Bk. This is an index for accumulating S1 (Aj, B1), which is an index indicating how much they are similar. Multiply (Aj, Bl) by a coefficient (12 in the above table). Therefore, for each atom of the corresponding pair of atoms Ai and Bk, if the surrounding environment is similar and the surrounding environment is similar, it is an index that increases.

例えば、図6に示される、原子Aiを含む分子Aの一部、及び原子Bkを含む分子Bの一部において、S2(Ai,Bk)を検討する。原子Aiからある結合距離(図6では2)にある原子Ajと、原子Bkからそれと等しい結合距離にある原子Blとの全ての対につき、s2(Aj,Bl)、即ちS1(Aj,Bl)、又はS1(Aj,Bl)×12を積算する。特に、AjとBlが同じ元素であれば、S1(Aj,Bl)は所定数倍(ここでは12倍)されて積算されて、S2が求められる。原子Ai及び原子Bkからの結合距離は、1から最大値(即ち、原子Ai又は原子Bkから最も遠い原子までの結合距離)まで変動することが想定される。上述のとおり、S1(Aj,Bl)は、原子Aj,Blの対において、(図6のAm、Bnなどの)周囲の環境がどれだけ似ているかを示す指標である。   For example, S2 (Ai, Bk) is examined in a part of the molecule A including the atom Ai and a part of the molecule B including the atom Bk shown in FIG. For every pair of an atom Aj at a certain bond distance from the atom Ai (2 in FIG. 6) and an atom B1 at an equal bond distance from the atom Bk, s2 (Aj, B1), that is, S1 (Aj, B1) Or S1 (Aj, Bl) × 12 is integrated. In particular, if Aj and Bl are the same element, S1 (Aj, Bl) is multiplied by a predetermined number (here, 12 times) and integrated to obtain S2. It is assumed that the bond distance from atom Ai and atom Bk varies from 1 to the maximum value (that is, bond distance from atom Ai or atom Bk to the farthest atom). As described above, S1 (Aj, B1) is an index indicating how similar the surrounding environment (Am, Bn, etc. in FIG. 6) is in the pair of atoms Aj, B1.

上記のS2(Ai,Bk)では、対応する2つの原子Ai,Bkに関して、同じ結合距離の位置の原子の対(Aj,Bl)のS1(Aj,Bl)が積算されるが、(Aj,Bl)が同じ元素であれば、S1(Aj,Bl)が所定数倍(12倍)されて積算されるから、周囲の原子の構成が近似するように対応付けされていると、やはりS2(Ai,Bk)は大きくなる。なお、係数「12」は別の数値であってもよい。   In the above S2 (Ai, Bk), S1 (Aj, B1) of the atom pair (Aj, B1) at the same bond distance position is integrated with respect to the corresponding two atoms Ai, Bk. If B1) is the same element, S1 (Aj, B1) is multiplied by a predetermined number (12 times) and integrated. Ai, Bk) increases. The coefficient “12” may be another numerical value.

[ステップS1006];次に、以下の数4及び表5で定義される「S3(Ai,Ak)」を、全ての{i,k}の組について求める。

Figure 0005484946
Figure 0005484946
[Step S1006]; Next, “S3 (Ai, Ak)” defined in the following Equation 4 and Table 5 is obtained for all {i, k} pairs.
Figure 0005484946
Figure 0005484946

S3(Ai,Bk)は、原子Ai、Bkの対を始点とし、次々に分子Aの原子と分子Bの原子を対応付けして全体の対応を作成し、そのときのグラフマッチスコアM(A,B)を値とする指標である。ここで、対応付け作成時には、既に対応付け済みの原子に直接結合する原子を次に選択すること、及び指標S2が高い対を選択するのを優先することを、条件としている。   S3 (Ai, Bk) starts from a pair of atoms Ai and Bk, and successively creates an overall correspondence by associating the atoms of molecule A and atoms of molecule B, and the graph match score M (A , B). Here, when creating a correspondence, it is a condition that priority is given to the next selection of an atom that directly binds to an already associated atom, and the selection of a pair having a high index S2.

例えば、図7に示される、原子Aiを含む分子Aの一部、及び原子Bkを含む分子Bの一部において、S3(Ai,Bk)を検討する。始点は、原子Ai、Bkの対である。原子Aiには、原子Aj、Ap、Arが直接結合する。原子Bkには、原子Bl、Bq、Bsが直接結合する。{Aj、Ap、Ar}と{Bl、Bq、Bs}とから形成され得る原子同士の(3×3=9通りの)対のうちから、(Aj、Bl)の対のS2が最大であるとすると、原子Ajと原子Blを対応付けすることになる。   For example, S3 (Ai, Bk) is examined in a part of the molecule A including the atom Ai and a part of the molecule B including the atom Bk shown in FIG. The starting point is a pair of atoms Ai and Bk. The atoms Aj, Ap, and Ar are directly bonded to the atom Ai. The atoms Bk, Bq, and Bs are directly bonded to the atom Bk. Of the (3 × 3 = 9) pairs of atoms that can be formed from {Aj, Ap, Ar} and {Bl, Bq, Bs}, S2 of the pair (Aj, Bl) is the largest. Then, the atom Aj and the atom Bl are associated with each other.

次に、分子Aにおいて対応付けが済んだAi−Ajには、原子Ap、Ar、At、Avが直接結合する。分子Bにおいて対応付けが済んだBk−Blには、原子Bq、Bs、Bu、Bwが直接結合する。{Ap、Ar、At、Av}と{Bq、Bs、Bu、Bw}とから形成され得る原子同士の(4×4=16通りの)対のうちから、(Ap、Bq)の対のS2が最大であるとすると、原子Apと原子Bqを対応付けすることになる。これにより、分子Aにおいては、原子Ai、Aj、Apの対応付けが完了し、分子Bにおいては、原子Bk、Bl、Bqの対応付けが完了する。   Next, atoms Ap, Ar, At, and Av are directly bonded to Ai-Aj that has been associated in molecule A. The atoms Bq, Bs, Bu, and Bw are directly bonded to Bk-Bl that has been associated in the molecule B. Among the (4 × 4 = 16) pairs of atoms that can be formed from {Ap, Ar, At, Av} and {Bq, Bs, Bu, Bw}, S2 of the pair (Ap, Bq) Is the maximum, the atom Ap and the atom Bq are associated with each other. Thereby, in the molecule A, the association of the atoms Ai, Aj, and Ap is completed, and in the molecule B, the association of the atoms Bk, B1, and Bq is completed.

このような対応付けを、対応可能原子の対が無くなるまで、順次繰り返して行う。対応付けが終われば、その対応付けの下でのグラフマッチスコアMを求める。このような対応付け及びグラフマッチスコアM算出が、全ての{i,k}の組について行われる。   Such association is sequentially repeated until there are no corresponding atom pairs. When the association is completed, a graph match score M under the association is obtained. Such association and graph match score M calculation are performed for all {i, k} pairs.

上記のS3(Ai,Bk)では、全ての{Ai,Bk}の組み合わせの各々において、原子の対の始点{Ai,Bk}の周囲から徐々に、S2(対応する原子Ai、Bkの対について、周囲の環境が類似し、更に周囲の環境のその周囲の環境が類似すれば、大きくなる指標)の大きさに着目して、分子Aの原子と分子Bの原子とが対応付けされ、グラフマッチスコアが計算されることになる。   In the above S3 (Ai, Bk), for each combination of all {Ai, Bk}, S2 (for the corresponding pair of atoms Ai, Bk) is gradually increased from the periphery of the starting point {Ai, Bk} of the pair of atoms. If the surrounding environment is similar, and if the surrounding environment is similar to that of the surrounding environment, the atom of the molecule A and the atom of the molecule B are associated with each other, focusing on the size of the index) A match score will be calculated.

[ステップS1008];次に、ステップS1006にて最大のS3(Ai,Bk)を算出した際の、始点の原子(Ai,Bk)の対応から開始して、未対応の原子の対の中で最大のS3(Aj,Bl)を持つものを対応させることを、対応可能原子の対が無くなるまで続け、全体の対応におけるグラフマッチスコアM0(A,B)を求める。このとき、途中、原子の対応の対と、次の原子の対応の対とにおいて、分子Aの原子は直接結合していなくてもよく、同様に、分子Bの原子も直接結合していなくてもよい。   [Step S1008]; Next, starting from the correspondence of the starting atom (Ai, Bk) when the maximum S3 (Ai, Bk) is calculated in Step S1006, The correspondence with the one having the maximum S3 (Aj, Bl) is continued until there is no pair of atoms that can be handled, and the graph match score M0 (A, B) in the whole correspondence is obtained. At this time, the atom of the molecule A may not be directly bonded in the corresponding pair of atoms and the corresponding pair of the next atom, and similarly, the atom of the molecule B is not directly bonded. Also good.

例えば、図8に示される、原子Aiを含む分子Aの一部、及び原子Bkを含む分子Bの一部において、ステップS1008で行われる原子の対の対応付けを検討する。まず、分子Aを構成する(例えば、a個の)全ての原子と、分子Bを構成する(例えば、b個の)全ての原子とから形成され得る原子同士の(a×b通りの)対のうち、原子Ai、Bkの対において、(ステップS1006で求めた)S3が、他のどの対よりも大きい、即ち最大であるとする。そうすると、まず原子Ai、Bkの対が対応付けされる。
次に、Aiを除いた分子Aを構成する(a−1)個の原子と、Bkを除いた分子Bを構成する(b−1)個の原子とから、形成され得る原子同士の(a−1)×(b−1)通りの対のうち、原子Aj、Blの対において、S3が、他のどの対よりも大きいとする。そうするとそこで原子Aj、Blの対が対応付けされる。このとき、AjはAiと直接結合しているとは限らず、BlはBjと直接結合しているとは限らない(このことは以下、同様である)。
For example, for the part of the molecule A including the atom Ai and the part of the molecule B including the atom Bk shown in FIG. 8, the association of the atom pairs performed in step S1008 is examined. First, a pair of atoms (a × b) that can be formed from all the atoms constituting the molecule A (for example, a) and all the atoms constituting the molecule B (for example, b). Of these, in the pair of atoms Ai and Bk, S3 (obtained in step S1006) is greater than any other pair, that is, the maximum. Then, first, a pair of atoms Ai and Bk is associated.
Next, (a-1) atoms constituting the molecule A excluding Ai and (b-1) atoms constituting the molecule B excluding Bk are formed as (a -1) Among the pairs of (b-1), it is assumed that S3 is larger than any other pair in the pair of atoms Aj and Bl. Then, a pair of atoms Aj and Bl is associated therewith. At this time, Aj is not necessarily directly coupled to Ai, and Bl is not necessarily directly coupled to Bj (the same applies hereinafter).

次に、AiとAjを除いた分子Aを構成する(a−2)個の原子と、BkとBlを除いた分子Bを構成する(b−2)個の原子とから、形成され得る原子同士の(a−2)×(b−2)通りの対のうち、原子Aj2、Bl2の対において、S3が、他のどの対よりも大きいとする。そうするとそこで原子Aj2、Bl2の対が対応付けされる。
更に次に、AiとAjとAj2を除いた分子Aを構成する(a−3)個の原子と、BkとBlとBl2を除いた分子Bを構成する(b−3)個の原子とから、形成され得る原子同士の(a−3)×(b−3)通りの対のうち、原子Aj3、Bl3の対において、S3が、他のどの対よりも大きいとする。そうするとそこで原子Aj3、Bl3の対が対応付けされる。
更に次に、AiとAjとAj2とAj3を除いた分子Aを構成する(a−4)個の原子と、BkとBlとBl2とBl3を除いた分子Bを構成する(b−4)個の原子とから、形成され得る原子同士の(a−4)×(b−4)通りの対のうち、原子Aj4、Bl4の対において、S3が、他のどの対よりも大きいとする。そうするとそこで原子Aj4、Bl4の対が対応付けされる。
Next, atoms that can be formed from (a-2) atoms constituting molecule A excluding Ai and Aj and (b-2) atoms constituting molecule B excluding Bk and Bl Of the (a-2) × (b-2) pairs of each other, in the pair of atoms Aj2 and B12, S3 is greater than any other pair. Then, a pair of atoms Aj2 and B12 is associated therewith.
Next, from (a-3) atoms constituting molecule A excluding Ai, Aj, and Aj2, and (b-3) atoms constituting molecule B excluding Bk, Bl, and Bl2. Suppose that among the (a-3) × (b-3) pairs of atoms that can be formed, S3 is larger than any other pair in the pair of atoms Aj3 and B13. Then, a pair of atoms Aj3 and B13 is associated therewith.
Next, (a-4) atoms constituting molecule A excluding Ai, Aj, Aj2, and Aj3, and (b-4) atoms constituting molecule B excluding Bk, Bl, Bl2, and Bl3. Among the (a-4) × (b-4) pairs of atoms that can be formed with each other atom, the pair of atoms Aj4 and B14 is assumed to have S3 larger than any other pair. Then, a pair of atoms Aj4 and B14 is associated therewith.

このような対応付けを、対応可能原子の対が無くなるまで、順次繰り返して行う。対応付けが終われば、その対応付けの下でのグラフマッチスコアM0を求める。   Such association is sequentially repeated until there are no corresponding atom pairs. When the association is completed, a graph match score M0 under the association is obtained.

ステップS1008では、ステップS1006で求めた多数の(例えば、a×b通りの)S3、即ちM(A、B)に基づいて、最終候補となり得る対応付け、及びその対応付けの下でのグラフマッチスコアM0の算出が行われる。   In step S1008, based on a large number of (eg, a × b) S3 obtained in step S1006, that is, M (A, B), an association that can be a final candidate, and a graph match under the association A score M0 is calculated.

[ステップS1010];算出したM0(A,B)が、想定され得る最大値であるか否かが確認される。具体的には、M0(A,B)が、M(A,A)又はM(B,B)に等しいかどうか、確認される。図3(2)に示すように、M(A,A)(又はM(B,B))は、最大値であると考えられるから、このステップS1010はこれ以上、グラフマッチスコアを算出する必要がないのかどうかを確認するために行われる。   [Step S1010]; It is confirmed whether or not the calculated M0 (A, B) is the maximum value that can be assumed. Specifically, it is confirmed whether M0 (A, B) is equal to M (A, A) or M (B, B). As shown in FIG. 3B, since M (A, A) (or M (B, B)) is considered to be the maximum value, this step S1010 needs to calculate the graph match score any more. It is done to see if there is no.

等しければ(ステップS1010・Yes)、ステップS1016にて原子対応{m(Ai)}とグラフマッチスコアM0(A、B)を出力して終了する。等しくなければ(ステップS1010・No)、ステップS1012に移行する。   If they are equal (step S1010 / Yes), the atom correspondence {m (Ai)} and the graph match score M0 (A, B) are output in step S1016, and the process ends. If they are not equal (step S1010 · No), the process proceeds to step S1012.

[ステップS1012];ステップS1012では、最終候補となり得る対応付けの微調整が行われる。   [Step S1012]; In step S1012, the fine adjustment of the association that can be the final candidate is performed.

分子Aにおけるひとつの結合した{Ai,Aj}の組に対応する、分子Bの{Bk,Bl}において、一方を他の原子Bnと入れ換え、入れ換えた原子についてのみ、分子Aにおける原子の対応を変更して、グラフマッチスコアM1(A,B)を求める。なお、原子Bnが分子Aにおいて対応する原子を持たない場合であってもよい。   In {Bk, B1} of molecule B corresponding to one bonded {Ai, Aj} pair in molecule A, one is replaced with the other atom Bn, and the correspondence of atoms in molecule A is changed only for the replaced atom. The graph match score M1 (A, B) is obtained by changing. The case where the atom Bn does not have a corresponding atom in the molecule A may be used.

例えば、図9に示される、原子Ai、Aj、Amを含む分子Aの一部、及び、原子Bk、Bl、Bnを含む分子Bの一部において、ステップS1012で行われる原子の対の対応付けの変更の例を、説明する。AiとBk、AjとBl、及び、AmとBnが、対応付けられており、AiとAjが結合しているとする。ここで、{Bk、Bl}のうちの一方であるBlと、Bnとを入れ換え、AjとBnを対応付け、同時に、AmとBlを対応付ける。即ち、m(Aj)=Blであったものをm(Aj)=Bnとし、m(Am)=Bnであったものをm(Am)=Blとする。その他の原子に係る対応付けは動かされない。この一部のみ変更された対応付けに基づいて、グラフマッチスコアM1(A,B)を求める。   For example, in the part of the molecule A including atoms Ai, Aj, and Am and the part of the molecule B including atoms Bk, B1, and Bn shown in FIG. An example of the change will be described. It is assumed that Ai and Bk, Aj and Bl, and Am and Bn are associated with each other, and Ai and Aj are combined. Here, B1, which is one of {Bk, B1}, and Bn are exchanged, Aj and Bn are associated, and Am and B1 are associated at the same time. That is, m (Aj) = Bl is m (Aj) = Bn, and m (Am) = Bn is m (Am) = Bl. Other atom mappings are not moved. The graph match score M1 (A, B) is obtained based on the association that is only partially changed.

図9の例における原子Bkを(図示しない)Bpと入れ替える、というような対応付けの変更であってもよい。   The association may be changed such that the atom Bk in the example of FIG. 9 is replaced with Bp (not shown).

[ステップS1014];算出したM1(A,B)が、M0(A,B)より大きいかどうか、確認される。即ち、ステップS1012にて、微調整を施した原子対応付けから算出されるグラフマッチスコアM1(A,B)の変動が確認される。算出したM1(A,B)が、M0(A,B)より大きければ(ステップS1014・Yes)、M1(A,B)の値がM0(A,B)に上書きされ(ステップS1015)、S1012にて更に微調整が施された原子対応付けから算出されるグラフマッチスコアM1(A,B)が求められる。   [Step S1014]; It is confirmed whether or not the calculated M1 (A, B) is larger than M0 (A, B). That is, in step S1012, the fluctuation of the graph match score M1 (A, B) calculated from the atom adjustment with fine adjustment is confirmed. If the calculated M1 (A, B) is larger than M0 (A, B) (Yes in step S1014), the value of M1 (A, B) is overwritten on M0 (A, B) (step S1015), and S1012 The graph match score M1 (A, B) calculated from the atom correspondence further fine-tuned in is obtained.

[ステップS1016];算出したM1(A,B)が、M0(A,B)より大きくなければ(ステップS1014・No)、原子対応付けとグラフマッチスコアM0(A、B)を出力して終了する。   [Step S1016]; If the calculated M1 (A, B) is not greater than M0 (A, B) (No at Step S1014), output the atom correspondence and the graph match score M0 (A, B) and end To do.

5.分子の構造重ね合わせ
図4及び図2に示すフローチャートにより求めた原子対応に基づく、構造重ね合わせの表示について説明する。分子Aと分子Bの分子構造の重ね合わせにおいて、分子Aの原子{Ai}に対応した原子{m(Ai)}は適宜、重ね合わせられて表示される。このとき、Kabschの方法(McLachlan , AD. Gene duplications in the structural evolution of chymotrypsin. Journal of Molecular Biology, 128, 49-79, 1979. Kabsch, W. A solution for the best rotation to relate two sets of vectors. Acta Crystallographica, 32A, 922-923, 1976. )が用いられてもよい。
5. Structure superimposition of molecule The structure superposition display based on the atomic correspondence obtained by the flowcharts shown in FIGS. 4 and 2 will be described. In superimposing the molecular structures of the molecule A and the molecule B, the atom {m (Ai)} corresponding to the atom {Ai} of the molecule A is appropriately superimposed and displayed. Kabsch's method (McLachlan, AD. Gene duplications in the structural evolution of chymotrypsin.Journal of Molecular Biology, 128, 49-79, 1979.Kabsch, W. A solution for the best rotation to relate two sets of vectors. Acta Crystallographica, 32A, 922-923, 1976.) may be used.

このとき、2分子間で対応するねじれ角は、以下の方法でそろえられる。
(1) グラフマッチにより結合した分子Aの原子{Ai,Aj,Ak,Al}が、同様に結合した分子Bの原子{m(Ai),m(Aj),m(Ak),m(Al)}に対応し、かつ、結合Aj−Akと、m(Aj)−m(Ak)がいずれも回転可能結合であれば、分子Bのねじれ角{m(Ai),m(Aj),m(Ak), m(Al)}を、分子Aの対応するねじれ角{Ai,Aj,Ak,Al}と同値にする。
At this time, the corresponding twist angles between the two molecules are aligned by the following method.
(1) Atoms {Ai, Aj, Ak, Al} of molecules A bonded by graph matching are similarly bonded to atoms {m (Ai), m (Aj), m (Ak), m (Al )} And the bonds Aj-Ak and m (Aj) -m (Ak) are both rotatable bonds, the twist angle {m (Ai), m (Aj), m of the molecule B Let (Ak), m (Al)} be equivalent to the corresponding twist angle {Ai, Aj, Ak, Al} of molecule A.

上記(1)の様子を模式的に表現したのが、図6である。「回転可能結合」であるか否かの判断においては、図2におけるステップS04及びS08や、「(2.3)回転可能結合」にて設定されるデータが利用される。   FIG. 6 schematically represents the state of (1) above. In determining whether or not it is “rotatable coupling”, data set in steps S04 and S08 in FIG. 2 and “(2.3) rotatable coupling” is used.

6.高速グラフマッチ探索アルゴリズムによる分子構造の重ね合わせ及びその処理の実施例。
図2に示される高速グラフマッチ探索アルゴリズムによる分子構造の重ね合わせ及びその処理のためのフローチャートを実現するプログラムを実装し、クエリ(分子A)をG39(タフミル)とし、探索ターゲットデータベースをPDBの全リガンド(9445種)として、計算を行った。動作周波数2.4GHzのデスクトップコンピュータを利用した。計算時間は、8分56秒であった。
6). Example of superposition of molecular structure by high-speed graph match search algorithm and its processing.
The program for realizing the superposition of the molecular structure by the high-speed graph match search algorithm shown in FIG. 2 and the flowchart for its processing is implemented, the query (molecule A) is G39 (Tough Mill), and the search target database is the entire PDB. Calculations were performed as ligands (9445 species). A desktop computer with an operating frequency of 2.4 GHz was used. The calculation time was 8 minutes 56 seconds.

以下の表6で、上述の計算によりクエリの原子{Ai}に対応した{m(Ai)}を、下に並べて表示している。左端カラムには、クエリ(分子A)及び探索対象分子(分子B)の例を示している。左端から2番目のカラムには、原子数を示している。左端から3番目のカラムには、分子A(G39(タフミル))と分子Bとのグラフマッチスコアを示している。左端から4番目のカラムには、自己(自己の分子)とのグラフマッチスコアを示している。そして、右部には原子アラインメントを示している。各カラム(縦)に並んだ原子種が一致する場合は共通骨格に当たる。ここで、各カラム(縦)に並んだ原子種が90%以上一致すれば最下行に“**”を、50%以上一致すれば最下行に“++”を、示している。

Figure 0005484946
In Table 6 below, {m (Ai)} corresponding to the query atom {Ai} by the above calculation is displayed side by side. The leftmost column shows examples of a query (molecule A) and a search target molecule (molecule B). The number of atoms is shown in the second column from the left end. In the third column from the left end, the graph match score between molecule A (G39 (Tough Mill)) and molecule B is shown. The fourth column from the left shows the graph match score with self (self molecule). The right part shows atomic alignment. When the atomic species arranged in each column (vertical) match, it corresponds to a common skeleton. Here, if the atomic species arranged in each column (vertical) match 90% or more, “**” is shown in the bottom row, and if 50% or more matches, “++” is shown in the bottom row.
Figure 0005484946

図11は、クエリの原子クエリの原子{Ai}に対応した{m(Ai)}の組で、重ね合わせを行い原子座標を出力した図(図11(a))と、クエリ構造から共通骨格にあたる原子座標を出力した図(図11(b))である。   FIG. 11 is a diagram (FIG. 11A) in which atomic coordinates are output by superimposing a set of {m (Ai)} corresponding to an atom {Ai} of the query atomic query, and a common skeleton from the query structure. It is the figure (FIG.11 (b)) which output the atomic coordinate which corresponds.

7.アルゴリズム性能評価
本実施形態に係る高速グラフマッチ探索アルゴリズムの性能評価を行った。
7). Algorithm Performance Evaluation Performance evaluation of the fast graph match search algorithm according to the present embodiment was performed.

(7.1 アルゴリズム性能評価(1))
本実施形態は、多項式時間アルゴリズム未知のNP困難問題に近似解を与えるものである。総組み合わせ数1012以下の問題に対して、全探査により最大スコア(=正解)を求め、本実施形態に係る高速グラフマッチ探索アルゴリズムによる解と比較を行った。図12(1)は、全探査組み合わせ数に対する計算時間をグラフ化したものであり、下方から本実施形態による計算時間、全探査による計算時間、及び、本実施形態による計算時間に対する全探査による計算時間の比を示している。本実施形態に係るアルゴリズムは、グラフの探査範囲では10-4〜10-3秒で計算が可能である。全探査による場合は、10-4〜106秒を要するものである。
(7.1 Algorithm performance evaluation (1))
In this embodiment, an approximate solution is given to an NP difficult problem with an unknown polynomial time algorithm. For a problem with a total number of combinations of 10 12 or less, a maximum score (= correct answer) was obtained by all searches, and compared with a solution by the fast graph match search algorithm according to the present embodiment. FIG. 12A is a graph of the calculation time for the total number of search combinations. From the bottom, the calculation time according to the present embodiment, the calculation time according to the total search, and the calculation according to the total search with respect to the calculation time according to the present embodiment. Shows the time ratio. The algorithm according to this embodiment can be calculated in 10 −4 to 10 −3 seconds in the graph search range. In the case of full exploration, it takes 10 -4 to 10 6 seconds.

図12(2)は、全探査組み合わせ数に対する正解率をグラフ化したものである。グラフの探査範囲では、平均97%の割合で正解を発見した。更に、図12(3)は、正解スコア差と累積正解率の関係をグラフ化したものである。誤答した場合でも、正解とのスコア差は最大2点であった。これら図12(1)〜(3)に示すグラフ及び数値から、本実施形態に係る高速グラフマッチ探索アルゴリズムは、高い性能を持つと考えられる。   FIG. 12 (2) is a graph showing the correct answer rate with respect to the total number of search combinations. In the exploration range of the graph, correct answers were found at an average rate of 97%. Further, FIG. 12 (3) is a graph showing the relationship between the correct score difference and the cumulative correct rate. Even in the case of an incorrect answer, the score difference from the correct answer was a maximum of two points. From the graphs and numerical values shown in FIGS. 12 (1) to 12 (3), the fast graph match search algorithm according to this embodiment is considered to have high performance.

(7.2 アルゴリズム性能評価(2))
ブロンのクリーク探索アルゴリズム(Bron C. & Kerbosch J. Algorithm 457: Finding all cliques of an undirected graph. Communications of the Association for Computing Machinery, 16, 575-577, 1973)を用いて発見的にグラフマッチを行う方法であるsimcompの方法(Hattori, M., Okuno, Y., Goto, S. & Kanehisa, M. Development of a chemical structure comparison method for integrated analysis of chemical and genomic information in the metabolic pathways. Journal of American Chemical Society,125,11853-11865, 2003)と、成績比較を行った。
(7.2 Algorithm performance evaluation (2))
Perform heuristic graph matching using Bron's clique search algorithm (Bron C. & Kerbosch J. Algorithm 457: Finding all cliques of an undirected graph. Communications of the Association for Computing Machinery, 16, 575-577, 1973) Simcomp method (Hattori, M., Okuno, Y., Goto, S. & Kanehisa, M. Development of a chemical structure comparison method for integrated analysis of chemical and genomic information in the metabolic pathways.Journal of American Chemical Society, 125, 11853-11865, 2003).

ランダムに選んだ同じ50種の分子集合に対し総当たりグラフマッチを行い、全比較1225例(all)、及びいずれかの方法が部分グラフ(確実に正解である)を発見した136例(partial)について、本実施形態の定義によるスコアと実行時間(グラフマッチに要した実時間)を比較した。simcompの方法における最大試行回数(Rmax)を、1.5×10(デフォルト値)〜10で変化させた。 A round-robin graph match was performed for the same 50 molecular groups selected at random, and all comparisons were performed in 1225 cases (all), and 136 cases in which any method found a subgraph (which is definitely correct) (partial) For, the score according to the definition of the present embodiment and the execution time (actual time required for the graph match) were compared. The maximum number of trials (Rmax) in the simcomp method was varied from 1.5 × 10 4 (default value) to 10 8 .

その結果(以下、表7参照)、本実施形態に係る高速グラフマッチ探索アルゴリズムは、136の部分グラフ(partial)をすべて発見したのに対し、simcompの方法は10例(7%)で失敗した。実行時間は一例を除いて本法が高速で、平均48ミリ秒高速であった。Rmaxを増大させても発見できる部分グラフに逆転はなく、simcompの方法の実行時間が増大するだけであった。また全比較(all)においても、Rmax=1.5×10で本実施形態に係る高速グラフマッチ探索アルゴリズムが96ミリ秒遅い(但し、発見したグラフマッチのスコアは高い)以外は、どのRmaxにおいても、より高速により高スコアのグラフマッチを発見した。これらの数値から、本実施形態に係る高速グラフマッチ探索アルゴリズムは高い性能を持つと考えられる。

Figure 0005484946
As a result (see Table 7 below), the fast graph match search algorithm according to the present embodiment found all 136 partial graphs (partials), whereas the simcomp method failed in 10 cases (7%). . The execution time was fast in this method except for one example, and the average was 48 milliseconds. There was no reversal in the subgraphs that could be found by increasing Rmax, only the execution time of the simcomp method increased. Also, in all comparisons (all), any Rmax except Rmax = 1.5 × 10 4 and the fast graph match search algorithm according to the present embodiment is 96 milliseconds late (however, the score of the found graph match is high). I found a high-scoring graph match at a faster speed. From these numerical values, the fast graph match search algorithm according to the present embodiment is considered to have high performance.
Figure 0005484946

2・・・コンピュータシステム、4・・・インターネット、8・・・外部サーバ、10・・・外部データベース、12・・・出力部、14・・・中央処理部、16・・・キーボード、18・・・マウス。 2 ... computer system, 4 ... internet, 8 ... external server, 10 ... external database, 12 ... output unit, 14 ... central processing unit, 16 ... keyboard, 18. ··mouse.

Claims (7)

第1の分子Aを構成する原子(Ai,Aj,・・・)の各々に係る座標データと第2の分子Bを構成する原子(Bk,Bl,・・・)の各々に係る座標データを記憶部から入力し、演算部にロードされるコンピュータプログラムに従って、演算部及び記憶部に構築される仮想メモリ空間において第1の分子Aの夫々の原子(Ai,Aj,・・・)と第2の分子Bの夫々の原子(Bk,Bl,・・・)との対応付け(m(Ai)=Bk)を求めて重ね合わせを行い(i,j,k,lはいずれも自然数)、第1の分子Aと第2の分子Bの間の最適な原子間対応、及び第1の分子Aと第2の分子Bの類似度に係るデータを出力部に出力する、第1の分子Aと第2の分子Bとの類似度を評価するための高速グラフマッチ検索装置において、
第1の分子Aの全ての原子Aiと第2の分子Bの全ての原子Bkとで形成される、原子Aiと原子Bkの組の全てに関して、原子Ai、Bkの対の各原子からみて、周囲の環境が相互にどれだけ似ているかを示す第1の類似指標S1(Ai、Bk)を求める第1の算出手段と、
第1の分子Aの全ての原子Aiと第2の分子Bの全ての原子Bkとで形成される、原子Aiと原子Bkの組の全てに関して、原子Ai、Bkの対の各原子からみて、等しい結合距離にある周囲の原子Aj、Blの全ての組につき、第1の類似指標S1(Aj,Bl)を積算して算出する第2の類似指標S2(Ai、Bk)を求める算出手段であって、その原子Ai、Bkの対の各原子から等しい結合距離にある周囲の原子Aj、Blが同じ元素であれば、更に第1の類似指標S1(Aj,Bl)に係数を掛けた上で積算する、第2の類似指標S2(Ai、Bk)を求める第2の算出手段と、
第1の分子Aの全ての原子Aiと第2の分子Bの全ての原子Bkとで形成される、原子Aiと原子Bkの組の全てに関して、原子Ai、Bkの対を始点とし、第1の分子Aの原子と第2の分子Bの原子とを順次対応付けして全体の対応を作成し、そのときに算出されるグラフマッチスコアM(A,B)を値とする第3の類似指標S3(Ai、Bk)を求める算出手段であって、対応付け作成時には、既に対応付け済みの原子に直接結合する原子を次に選択すること、及び第2の類似指標S2が高い対を選択することを優先することを、条件とする、第3の類似指標S3(Ai、Bk)を求める第3の算出手段と、
第3の算出手段にて最大のS3(Ai,Bk)を算出した際の、始点の原子(Ai,Bk)の対から開始して、未対応の原子の対の中で最大のS3(Aj,Bl)を持つものを対応させることを、対応可能原子の組が無くなるまで続けたときの、全体の対応におけるグラフマッチスコアM(A,B)を求める第4の算出手段と、
第4の算出手段におけるグラフマッチスコアM(A、B)が閾値より大きいならば、第1の分子Aと第2の分子Bにつき第4の算出手段で算出した原子間対応及びグラフマッチスコアM(A,B)を出力する第5の出力手段と
を含む、分子間の類似度を評価するための高速グラフマッチ検索装置。
Coordinate data relating to each of the atoms (Ai, Aj,...) Constituting the first molecule A and coordinate data relating to each of the atoms (Bk, B1,...) Constituting the second molecule B. Each atom (Ai, Aj,...) And second of the first molecule A in the virtual memory space constructed in the calculation unit and the storage unit according to the computer program input from the storage unit and loaded into the calculation unit. Are associated with each atom (Bk, B1,...) (M (Ai) = Bk) and superposed (i, j, k, l are all natural numbers), The first molecule A, which outputs to the output unit data relating to the optimal interatomic correspondence between one molecule A and the second molecule B and the similarity between the first molecule A and the second molecule B; In the fast graph match search device for evaluating the similarity with the second molecule B,
Regarding all the pairs of atoms Ai and Bk formed by all atoms Ai of the first molecule A and all atoms Bk of the second molecule B, as seen from each atom of the pair of atoms Ai and Bk, First calculation means for obtaining a first similarity index S1 (Ai, Bk) indicating how similar the surrounding environment is;
Regarding all the pairs of atoms Ai and Bk formed by all atoms Ai of the first molecule A and all atoms Bk of the second molecule B, as seen from each atom of the pair of atoms Ai and Bk, A calculation means for obtaining a second similarity index S2 (Ai, Bk) that is calculated by integrating the first similarity index S1 (Aj, B1) for all pairs of surrounding atoms Aj, B1 having the same bond distance. If the surrounding atoms Aj and B1 that are at the same bond distance from each atom of the pair of atoms Ai and Bk are the same element, the first similarity index S1 (Aj, B1) is further multiplied by a coefficient. A second calculating means for calculating a second similarity index S2 (Ai, Bk),
For all pairs of atoms Ai and Bk formed by all atoms Ai of the first molecule A and all atoms Bk of the second molecule B, the first pair of atoms Ai and Bk is used as the starting point. A third similarity having a value corresponding to the graph match score M (A, B) calculated at that time by creating an overall correspondence by sequentially associating the atoms of the molecule A and the atoms of the second molecule B Computation means for obtaining the index S3 (Ai, Bk), and at the time of creating the correspondence, next select an atom that directly binds to an already associated atom, and select a pair having a high second similarity index S2 Third calculation means for obtaining a third similarity index S3 (Ai, Bk), on the condition that priority is given to
Starting from the pair of starting atoms (Ai, Bk) when the maximum S3 (Ai, Bk) is calculated by the third calculating means, the largest S3 (Aj , B1), the fourth calculation means for obtaining the graph match score M (A, B) in the overall correspondence when the correspondence is continued until there is no pair of atoms that can be handled,
If the graph match score M (A, B) in the fourth calculation means is greater than the threshold value, the correspondence between atoms and the graph match score M calculated by the fourth calculation means for the first molecule A and the second molecule B A high-speed graph match search device for evaluating similarity between molecules, including a fifth output means for outputting (A, B).
更に、
上記第4の算出手段によりグラフマッチスコアM(A,B)を算出した後に、第1の分子Aにおけるひとつの結合した{Ai,Aj}の組に対応する、第2の分子Bの{Bk,Bl}において、一方を他の原子Bnと入れ換え、入れ換えた原子についてのみ、第1の分子Aにおける原子の対応を変更して、微調整されたグラフマッチスコアM(A,B)を求める第6の算出手段を含み、
上記第6の算出手段にて算出された、微調整されたグラフマッチスコアM(A,B)が、上記第3の算出手段にて算出されたグラフマッチスコアM(A,B)より大きければ、上記第5の出力手段が、微調整されたグラフマッチスコアM(A,B)をグラフマッチスコアM(A,B)に上書きして出力を行う
ことを特徴とする請求項1に記載の高速グラフマッチ検索装置。
Furthermore,
After calculating the graph match score M (A, B) by the fourth calculating means, {Bk of the second molecule B corresponding to one combined {Ai, Aj} pair in the first molecule A , B1}, one of the atoms is replaced with another atom Bn, and only for the replaced atom, the correspondence of the atoms in the first molecule A is changed to obtain a finely adjusted graph match score M (A, B). Including 6 calculation means,
If the finely adjusted graph match score M (A, B) calculated by the sixth calculation means is larger than the graph match score M (A, B) calculated by the third calculation means The fifth output means performs output by overwriting the finely adjusted graph match score M (A, B) on the graph match score M (A, B). Fast graph match search device.
グラフマッチスコアM(A,B)が、下記の数1で定義され、下記数1の各項は、下記の表1で定義され、下記表1の実行modeの値は入力手段を介して外部から設定されることを特徴とする
請求項1又は2に記載の高速グラフマッチ検索装置。
Figure 0005484946
Figure 0005484946
The graph match score M (A, B) is defined by the following formula 1, each term of the following formula 1 is defined by the following table 1, and the value of the execution mode in the following table 1 is externally input via the input means. The high-speed graph match search device according to claim 1, wherein the high-speed graph match search device is set.
Figure 0005484946
Figure 0005484946
上記第1の算出手段における第1の類似指標「S1(Ai,Bk)」が、下記の数2及び表2で定義され、
上記第2の算出手段における第2の類似指標「S2(Ai,Bk)」が、下記の数3及び表3で定義され、
上記第3の算出手段における第3の類似指標「S3(Ai、Bk)」が、下記の数4及び表4で定義される
ことを特徴とする請求項1乃至3のうちのいずれか一に記載の高速グラフマッチ検索装置。
Figure 0005484946
Figure 0005484946
Figure 0005484946
Figure 0005484946
Figure 0005484946
Figure 0005484946
The first similarity index “S1 (Ai, Bk)” in the first calculating means is defined by the following Equation 2 and Table 2,
The second similarity index “S2 (Ai, Bk)” in the second calculating means is defined by the following Equation 3 and Table 3,
The third similarity index “S3 (Ai, Bk)” in the third calculation means is defined by the following Equation 4 and Table 4 as claimed in any one of claims 1 to 3: The described high-speed graph match search device.
Figure 0005484946
Figure 0005484946
Figure 0005484946
Figure 0005484946
Figure 0005484946
Figure 0005484946
上記表3における係数が、12であることを特徴とする請求項4に記載の高速グラフマッチ検索装置。   5. The fast graph match search device according to claim 4, wherein the coefficient in Table 3 is 12. 記憶部に格納される第1の分子Aを構成する原子(Ai,Aj,・・・)の各々に係る座標データと第2の分子Bを構成する原子(Bk,Bl,・・・)の各々に係る座標データを入力し、演算部にロードされる所与のコンピュータプログラムに従って、コンピュータ上に構築される仮想メモリ空間において第1の分子Aの夫々の原子(Ai,Aj,・・・)と第2の分子Bの夫々の原子(Bk,Bl,・・・)との対応付け(m(Ai)=Bk)を求めて重ね合わせを行い(i,j,k,lはいずれも自然数)、第1の分子Aと第2の分子Bの間の最適な原子間対応、及び第1の分子Aと第2の分子Bの類似度を出力部に出力する、コンピュータを用いて第1の分子Aと第2の分子Bとの類似度を評価するための高速グラフマッチ検索方法において、
第1の分子Aの全ての原子Aiと第1の分子Bの全ての原子Bkとで形成される、原子Aiと原子Bkの組の全てに関して、原子Ai、Bkの対の各原子からみて、周囲の環境が相互にどれだけ似ているかを示す第1の類似指標S1(Ai、Bk)を求める第1の工程と、
第1の分子Aの全ての原子Aiと第2の分子Bの全ての原子Bkとで形成される、原子Aiと原子Bkの組の全てに関して、原子Ai、Bkの対の各原子からみて、等しい結合距離にある周囲の原子Aj、Blの全ての組につき、第1の類似指標S1(Aj,Bl)を積算する第2の類似指標S2(Ai、Bk)を求める工程であって、そのAi、Bkの対の各原子から等しい結合距離にある周囲の原子Aj、Blが同じ元素であれば、更に第1の類似指標S1(Aj,Bl)に係数を掛けた上で積算する、第2の類似指標S2(Ai、Bk)を求める第2の工程と、
第1の分子Aの全ての原子Aiと第2の分子Bの全ての原子Bkとで形成される、原子Aiと原子Bkの組の全てに関して、原子Ai、Bkの対を始点とし、第1の分子Aの原子と第2の分子Bの原子とを順次対応付けして全体の対応を作成し、そのときに算出されるグラフマッチスコアM(A,B)を値とする第3の類似指標S3(Ai、Bk)を求める工程であって、対応付け作成時には、既に対応付け済みの原子に直接結合する原子を次に選択すること、及び第2の類似指標S2が高い対を選択することを優先することを、条件とする、第3の類似指標S3(Ai、Bk)を求める第3の工程と、
第3の工程にて最大のS3(Ai,Bk)を算出した際の、始点の原子(Ai,Bk)の対から開始して、未対応の原子の対の中で最大のS3(Aj,Bl)を持つものを対応させることを、対応可能原子の組が無くなるまで続けたときの、全体の対応におけるグラフマッチスコアM(A,B)を求める第4の工程と、
第4の工程におけるグラフマッチスコアM(A、B)が閾値より大きいならば、第1の分子Aと第2の分子Bにつき第4の工程で算出した原子間対応及びグラフマッチスコアM(A,B)を出力する第5の工程と
を含む、分子間の類似度を評価するための高速グラフマッチ検索方法。
Coordinate data relating to each of the atoms (Ai, Aj,...) Constituting the first molecule A and the atoms (Bk, Bl,...) Constituting the second molecule B stored in the storage unit. Each coordinate data (Ai, Aj,...) Of the first molecule A is input in a virtual memory space constructed on the computer according to a given computer program loaded with coordinate data relating to each and loaded into the arithmetic unit. And the corresponding atoms (Bk, B1,...) Of the second molecule B (m (Ai) = Bk) are overlapped (i, j, k, l are all natural numbers) ), An optimal interatomic correspondence between the first molecule A and the second molecule B, and the similarity between the first molecule A and the second molecule B are output to the output unit using the computer. Fast graph match search method for evaluating the similarity between molecule A and second molecule B Oite,
Regarding all the pairs of atoms Ai and Bk formed by all atoms Ai of the first molecule A and all atoms Bk of the first molecule B, as seen from each atom of the pair of atoms Ai and Bk, A first step of obtaining a first similarity index S1 (Ai, Bk) indicating how similar the surrounding environment is;
Regarding all the pairs of atoms Ai and Bk formed by all atoms Ai of the first molecule A and all atoms Bk of the second molecule B, as seen from each atom of the pair of atoms Ai and Bk, A step of obtaining a second similarity index S2 (Ai, Bk) that integrates the first similarity index S1 (Aj, B1) for all pairs of surrounding atoms Aj, B1 having the same bond distance, If the surrounding atoms Aj and B1 that are at the same bond distance from each atom of the pair of Ai and Bk are the same element, the first similarity index S1 (Aj, B1) is further multiplied by a coefficient and integrated. A second step of obtaining a similarity index S2 (Ai, Bk) of 2;
For all pairs of atoms Ai and Bk formed by all atoms Ai of the first molecule A and all atoms Bk of the second molecule B, the first pair of atoms Ai and Bk is used as the starting point. A third similarity having a value corresponding to the graph match score M (A, B) calculated at that time by creating an overall correspondence by sequentially associating the atoms of the molecule A and the atoms of the second molecule B In the step of obtaining the index S3 (Ai, Bk), at the time of creating the correspondence, the atom that directly binds to the already associated atom is selected next, and the pair having the second second similarity index S2 is selected. A third step for obtaining a third similarity index S3 (Ai, Bk), on the condition that priority is given to
Starting from the pair of starting atoms (Ai, Bk) when calculating the maximum S3 (Ai, Bk) in the third step, the largest S3 (Aj, Bk) among the unsupported pairs of atoms A fourth step of determining a graph match score M (A, B) in the overall correspondence when the correspondence with those having (Bl) is continued until there are no pairs of atoms that can be handled;
If the graph match score M (A, B) in the fourth step is larger than the threshold value, the interatomic correspondence calculated in the fourth step and the graph match score M (A) for the first molecule A and the second molecule B , B) and a fifth step of outputting a high-speed graph match search method for evaluating similarity between molecules.
記憶部に格納される第1の分子Aを構成する原子(Ai,Aj,・・・)の各々に係る座標データと第2の分子Bを構成する原子(Bk,Bl,・・・)の各々に係る座標データを入力し、コンピュータ上に構築される仮想メモリ空間において、第1の分子Aの夫々の原子(Ai,Aj,・・・)と第2の分子Bの夫々の原子(Bk,Bl,・・・)との対応付け(m(Ai)=Bk)を求めて重ね合わせを行い(i,j,k,lはいずれも自然数)、第1の分子Aと第2の分子Bの間の最適な原子間対応、及び第1の分子Aと第2の分子Bとの類似度を評価する処理を、コンピュータに実行させるコンピュータプログラムにおいて、
第1の分子Aの全ての原子Aiと第2の分子Bの全ての原子Bkとで形成される、原子Aiと原子Bkの組の全てに関して、原子Ai、Bkの対の各原子からみて、周囲の環境が相互にどれだけ似ているかを示す第1の類似指標S1(Ai、Bk)を求める第1の算出ステップと、
第1の分子Aの全ての原子Aiと第2の分子Bの全ての原子Bkとで形成される、原子Aiと原子Bkの組の全てに関して、原子Ai、Bkの対の各原子からみて、等しい結合距離にある周囲の原子Aj、Blの全ての組につき、第1の類似指標S1(Aj,Bl)を積算する第2の類似指標S2(Ai、Bk)を求める算出ステップであって、そのAi、Bkの対の各原子から等しい結合距離にある周囲の原子Aj、Blが同じ元素であれば、更に第1の類似指標S1(Aj,Bl)に係数を掛けた上で積算する、第2の類似指標S2(Ai、Bk)を求める第2の算出ステップと、
第1の分子Aの全ての原子Aiと第2の分子Bの全ての原子Bkとで形成される、原子Aiと原子Bkの組の全てに関して、原子Ai、Bkの対を始点とし、第1の分子Aの原子と第2の分子Bの原子とを順次対応付けして全体の対応を作成し、そのときに算出されるグラフマッチスコアM(A,B)を値とする第3の類似指標S3(Ai、Bk)を求める算出ステップであって、対応付け作成時には、既に対応付け済みの原子に直接結合する原子を次に選択すること、及び第2の類似指標S2が高い対を選択するのを優先することを、条件とする、第3の類似指標S3(Ai、Bk)を求める第3の算出ステップと、
第3の算出ステップにて最大のS3(Ai,Bk)を算出した際の、始点の原子(Ai,Bk)の対から開始して、未対応の原子の対の中で最大のS3(Aj,Bl)を持つものを対応させることを、対応可能原子の組が無くなるまで続けたときの、全体の対応におけるグラフマッチスコアM(A,B)を求める第4の算出ステップと、
第4の算出ステップにおけるグラフマッチスコアM(A、B)が閾値より大きいならば、第1の分子Aと第2の分子Bにつき第4の工程で算出した原子間対応及びグラフマッチスコア(A,B)を出力する第5の出力ステップとを
コンピュータに実行させるコンピュータプログラム。
Coordinate data relating to each of the atoms (Ai, Aj,...) Constituting the first molecule A and the atoms (Bk, Bl,...) Constituting the second molecule B stored in the storage unit. Coordinate data relating to each is input, and in the virtual memory space constructed on the computer, each atom (Ai, Aj,...) Of the first molecule A and each atom (Bk) of the second molecule B , Bl,...) (M (Ai) = Bk) to perform superposition (i, j, k, l are all natural numbers), and the first molecule A and the second molecule In a computer program that causes a computer to execute an optimal interatomic correspondence between B and a process of evaluating the similarity between the first molecule A and the second molecule B,
Regarding all the pairs of atoms Ai and Bk formed by all atoms Ai of the first molecule A and all atoms Bk of the second molecule B, as seen from each atom of the pair of atoms Ai and Bk, A first calculation step for obtaining a first similarity index S1 (Ai, Bk) indicating how similar the surrounding environments are;
Regarding all the pairs of atoms Ai and Bk formed by all atoms Ai of the first molecule A and all atoms Bk of the second molecule B, as seen from each atom of the pair of atoms Ai and Bk, A calculation step for obtaining a second similarity index S2 (Ai, Bk) for integrating the first similarity index S1 (Aj, B1) for all pairs of surrounding atoms Aj, B1 having an equal bond distance, If the surrounding atoms Aj and B1 that are at the same bond distance from each atom of the pair of Ai and Bk are the same element, the first similarity index S1 (Aj, B1) is further multiplied by a coefficient and integrated. A second calculation step for obtaining a second similarity index S2 (Ai, Bk);
For all pairs of atoms Ai and Bk formed by all atoms Ai of the first molecule A and all atoms Bk of the second molecule B, the first pair of atoms Ai and Bk is used as the starting point. A third similarity having a value corresponding to the graph match score M (A, B) calculated at that time by creating an overall correspondence by sequentially associating the atoms of the molecule A and the atoms of the second molecule B This is a calculation step for obtaining the index S3 (Ai, Bk), and at the time of creating the correspondence, the atom that directly binds to the already associated atom is selected next, and the pair that has a high second similarity index S2 is selected. A third calculation step for obtaining a third similarity index S3 (Ai, Bk), on the condition that priority is given to
Starting from the pair of starting atoms (Ai, Bk) when calculating the maximum S3 (Ai, Bk) in the third calculation step, the maximum S3 (Aj , B1), the fourth calculation step for obtaining the graph match score M (A, B) in the overall correspondence when the correspondence is continued until there is no pair of atoms that can be handled,
If the graph match score M (A, B) in the fourth calculation step is larger than the threshold value, the inter-atomic correspondence and the graph match score (A) calculated in the fourth step for the first molecule A and the second molecule B , B) is a computer program that causes a computer to execute a fifth output step.
JP2010031526A 2010-02-16 2010-02-16 Fast graph match search apparatus and method for evaluating similarity between molecules Active JP5484946B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010031526A JP5484946B2 (en) 2010-02-16 2010-02-16 Fast graph match search apparatus and method for evaluating similarity between molecules
PCT/JP2011/053280 WO2011102384A1 (en) 2010-02-16 2011-02-16 Device and method for high speed graph matching search to determine similarity between molecules

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010031526A JP5484946B2 (en) 2010-02-16 2010-02-16 Fast graph match search apparatus and method for evaluating similarity between molecules

Publications (2)

Publication Number Publication Date
JP2011170444A JP2011170444A (en) 2011-09-01
JP5484946B2 true JP5484946B2 (en) 2014-05-07

Family

ID=44482969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010031526A Active JP5484946B2 (en) 2010-02-16 2010-02-16 Fast graph match search apparatus and method for evaluating similarity between molecules

Country Status (2)

Country Link
JP (1) JP5484946B2 (en)
WO (1) WO2011102384A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7302297B2 (en) * 2019-05-30 2023-07-04 富士通株式会社 Material property prediction device, material property prediction method, and material property prediction program
JP7388217B2 (en) 2020-02-05 2023-11-29 富士通株式会社 Crystal material analysis equipment, crystal material analysis method, and crystal material analysis program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004118594A (en) * 2002-09-26 2004-04-15 Ishihara Sangyo Kaisha Ltd Useful knowledge acquiring method and system by chemical structure formula processing

Also Published As

Publication number Publication date
JP2011170444A (en) 2011-09-01
WO2011102384A1 (en) 2011-08-25

Similar Documents

Publication Publication Date Title
Conn et al. Use of quadratic models with mesh-adaptive direct search for constrained black box optimization
Adam et al. Improved numerical integration for locking treatment in isogeometric structural elements, Part I: Beams
JP5034941B2 (en) Computer readable medium, system and method
US20160371333A1 (en) System and method for computational planningin a data-dependent constraint management system
Huang et al. Riemannian optimization for registration of curves in elastic shape analysis
Lv et al. The distance sinh transformation for the numerical evaluation of nearly singular integrals over curved surface elements
Horn et al. First investigations on noisy model-based multi-objective optimization
Zheng et al. RMalign: an RNA structural alignment tool based on a novel scoring function RMscore
Xie et al. Visualization and outlier detection for multivariate elastic curve data
Peñuñuri et al. Synthesis of spherical 4R mechanism for path generation using differential evolution
de Gooijer et al. Evaluation of POD based surrogate models of fields resulting from nonlinear FEM simulations
JP5484946B2 (en) Fast graph match search apparatus and method for evaluating similarity between molecules
Azam et al. Binding pattern analysis and structural insight into the inhibition mechanism of Sterol 24-C methyltransferase by docking and molecular dynamics approach
Colombo et al. The fine structure of the spectral theory on the S-spectrum in dimension five
JP2011154439A (en) Optimization processing program, method, and apparatus
Butnaru et al. Towards high-dimensional computational steering of precomputed simulation data using sparse grids
Gao et al. Protein2vec: Aligning multiple ppi networks with representation learning
Rapin et al. Exploring the MLDA benchmark on the nevergrad platform
Bonelli et al. Gauge theories on compact toric manifolds
US10339458B2 (en) System and method for rapid and robust uncertainty management during multidisciplinary analysis
Barrera et al. Test function generators for assessing the performance of PSO algorithms in multimodal optimization
Li et al. Two algorithms for group decision making based on the consistency of intuitionistic multiplicative preference relation
Praing et al. Efficient implementation techniques for topological predicates on complex spatial objects
US6782323B2 (en) Method and program for evaluating molecular similarity
Lichtenberg et al. Analyzing residue surface proximity to interpret molecular dynamics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140219

R150 Certificate of patent or registration of utility model

Ref document number: 5484946

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250