JP4280831B2 - Compound group display device, compound group display method, program, and computer-readable recording medium - Google Patents

Compound group display device, compound group display method, program, and computer-readable recording medium Download PDF

Info

Publication number
JP4280831B2
JP4280831B2 JP2005137690A JP2005137690A JP4280831B2 JP 4280831 B2 JP4280831 B2 JP 4280831B2 JP 2005137690 A JP2005137690 A JP 2005137690A JP 2005137690 A JP2005137690 A JP 2005137690A JP 4280831 B2 JP4280831 B2 JP 4280831B2
Authority
JP
Japan
Prior art keywords
compound
functional
hierarchical
compounds
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005137690A
Other languages
Japanese (ja)
Other versions
JP2006318048A (en
Inventor
富義 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyoto University
Original Assignee
Kyoto University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyoto University filed Critical Kyoto University
Priority to JP2005137690A priority Critical patent/JP4280831B2/en
Priority to AU2006244962A priority patent/AU2006244962A1/en
Priority to PCT/JP2006/309346 priority patent/WO2006121057A1/en
Publication of JP2006318048A publication Critical patent/JP2006318048A/en
Application granted granted Critical
Publication of JP4280831B2 publication Critical patent/JP4280831B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、複数の化合物を分類して表示する化合物群表示装置及び化合物群表示方法と、この装置を実現するためのプログラム、さらには、このプログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。   The present invention relates to a compound group display device and a compound group display method for classifying and displaying a plurality of compounds, a program for realizing the device, and a computer-readable recording medium on which the program is recorded. is there.

医薬品、農薬、化粧品、及びその他の化学工業の分野では、活性や物性等の機能特性が優れた化合物を探索する研究が常に行われている。最近では、例えば、コンビナトリアルケミストリー技術とハイスループットスクリーニング法との組み合わせが頻繁に利用されている。これにより、多数の化合物を同時にかつ高速に合成し、評価することが可能となり、化合物の機能特性に関する大規模なスクリーニングデータが蓄積されるようになった。   In the fields of pharmaceuticals, agricultural chemicals, cosmetics, and other chemical industries, research is constantly being conducted to search for compounds having excellent functional properties such as activity and physical properties. Recently, for example, a combination of combinatorial chemistry technology and high-throughput screening methods is frequently used. As a result, a large number of compounds can be synthesized and evaluated simultaneously and rapidly, and large-scale screening data relating to the functional properties of the compounds can be accumulated.

このようにして蓄積されたスクリーニングデータを基に、さらに機能特性の優れた新規化合物を合成展開するためには、得られたスクリーニングデータを化合物の構造と対応付けて整理することが不可欠である。   In order to synthesize and develop a new compound having further excellent functional characteristics based on the screening data accumulated in this way, it is essential to arrange the obtained screening data in association with the structure of the compound.

化合物の構造とスクリーニングデータとの関係を整理するためには、まず、化合物の構造を数量的に表現する手法が必要である。この手法として、これまでに数多くの分子記述子が考案されている。その代表的なものとしては、構造キー(Daylight Chemical Infomation Systems社、MDL Information Systems社)、Molconn-Zディスクリプタ(Hall Associate Consulting社)、ClogP(Biobyte社)、ACD/LogD(ACD Labs社)等が挙げられる。   In order to sort out the relationship between the structure of the compound and the screening data, first, a method for expressing the structure of the compound quantitatively is necessary. A number of molecular descriptors have been devised so far. Typical examples include structural keys (Daylight Chemical Infomation Systems, MDL Information Systems), Molconn-Z descriptors (Hall Associate Consulting), ClogP (Biobyte), ACD / LogD (ACD Labs), etc. Can be mentioned.

一方、これらの分子記述子を用いてスクリーニングデータを管理する方法についても、これまで多くの方法が提案されている。その方法は以下の二つに大別される。   On the other hand, many methods have been proposed for managing screening data using these molecular descriptors. The method is roughly divided into the following two.

一つは、スクリーニングデータを目的変数、分子記述子を説明変数として多変量解析を行い、それらの関係を定量的に表現するモデル式として管理する方法である(例えば、非特許文献1)。これにより、未知化合物についても、化学構造から分子記述子を計算し、これをモデル式に適用することによって機能特性を予測することが可能となる。   One is a method of performing multivariate analysis using screening data as an objective variable and molecular descriptor as an explanatory variable, and managing them as a model expression that quantitatively represents the relationship (for example, Non-Patent Document 1). This makes it possible to predict the functional characteristics of unknown compounds by calculating molecular descriptors from the chemical structure and applying them to model equations.

もう一つの方法は、各化合物の分子記述子とスクリーニングデータ(機能特性)とを対応付けたデータベースを構築するする方法である(例えば、非特許文献2)。構造的に類似すれば機能特性も類似することが予想されるため、未知化合物と構造的に類似する化合物をデータベースから検索すれば、検索した化合物のスクリーニングデータに基づいて未知化合物の機能特性を予測することが可能となる。この場合、類似性/非類似性の評価は、分子記述子に基づいて行われる。   Another method is a method of constructing a database in which molecular descriptors and screening data (functional properties) of each compound are associated (for example, Non-Patent Document 2). If structurally similar, functional characteristics are expected to be similar, so if you search a database for compounds that are structurally similar to unknown compounds, you can predict the functional characteristics of unknown compounds based on the screening data of the searched compounds It becomes possible to do. In this case, the similarity / dissimilarity evaluation is performed based on the molecular descriptor.

上記の各方法は、何れも統計学又は推計学的なアプローチに基づくものであり、化合物における分子記述子と機能特性との関係を経験的に予測するものである。従って、これらの方法では、機構論に基づく理論的な予測に比して計算結果の妥当性が問われることが多く、妥当性を客観的に評価しうる表現方法が望まれている。これを解決する極めて有効な方法がデータの可視化である。データを可視化すれば、人間が経験によって培った高度な分析能力を活用して適切な判定を行うことができる。また、可視化技術により、大規模な情報リソースを共有することが容易になるため、プロジェクト研究において意思の統一を図り、プロジェクトを効率よく推進することも可能になる。   Each of the above methods is based on a statistical or stochastic approach, and empirically predicts the relationship between molecular descriptors and functional properties in a compound. Therefore, in these methods, the validity of the calculation result is often asked as compared with the theoretical prediction based on the mechanism theory, and an expression method that can objectively evaluate the validity is desired. Data visualization is a very effective method for solving this problem. By visualizing the data, it is possible to make appropriate judgments by utilizing the advanced analytical capabilities cultivated by humans through experience. In addition, since visualization technology makes it easy to share large-scale information resources, it is possible to unify intentions in project research and promote projects efficiently.

従来、化合物の機能特性を構造情報と関連付けて可視化する方法として、(a)単一の分子記述子、又は(b)複数の分子記述子に基づく総合特性値、を軸とする3次元以下の特性空間に化合物をマッピングする方法が採用されてきた(例えば、非特許文献3、特許文献1)。これにより、データベースに収載される化合物群について、機能特性と構造情報とを対応付けて表示することができる。そして、特性の評価を行いたい未知化合物があれば、構造情報に基づいて未知化合物を特性空間上にプロットすることによって、データベースに蓄積された化合物の機能特性から未知化合物の特性を視覚的に評価することができる。
特公2002−531894(平成14年(2002)9月24日公開) C. Hansch et al., Chem-bioinformatics: comparative QSAR at the interface between chemistry and biology. Chem. Rev., 102: 783-812, 2002 R.P. Sheridan and S. K. Kearsley, Why do we need so many chemical similarity search methods? Drug Discovery Today, 7: 903-911, 2002 Y. Takahashi et al., MolSpace: a computer desktop tool for visualization of massive molecular data. J. Mol. Graph Model., 21: 333-339, 2003
Conventionally, as a method of visualizing the functional properties of a compound in association with structural information, (a) a single molecular descriptor or (b) an overall characteristic value based on a plurality of molecular descriptors is used as a three-dimensional or lower axis. A method of mapping a compound in a characteristic space has been employed (for example, Non-Patent Document 3 and Patent Document 1). Thereby, it is possible to display the functional properties and the structural information in association with each other for the compound group listed in the database. If there is an unknown compound whose characteristics are to be evaluated, the unknown compounds are visually evaluated from the functional characteristics of the compounds stored in the database by plotting the unknown compounds on the characteristic space based on the structural information. can do.
JP2002-53894 (Released on September 24, 2002) C. Hansch et al., Chem-bioinformatics: comparative QSAR at the interface between chemistry and biology. Chem. Rev., 102: 783-812, 2002 RP Sheridan and SK Kearsley, Why do we need so many chemical similarity search methods? Drug Discovery Today, 7: 903-911, 2002 Y. Takahashi et al., MolSpace: a computer desktop tool for visualization of massive molecular data.J. Mol. Graph Model., 21: 333-339, 2003

しかしながら、上記従来の方法には以下の問題がある。   However, the conventional method has the following problems.

まず、従来の方法では、特性空間における各座標軸が間隔尺度を表すものであるため、プロットされた化合物の配置が離散的になったり、偏在したりする。これにより、ディスプレイの表示領域の一部に化合物の存在しない空白部分ができたり、それとは逆に、一部に化合物が密集して重複部分ができたりするおそれがある。このように、従来の方法では、化合物を特性空間内にプロットする際に、ディスプレイの表示領域を有効に利用できない。   First, in the conventional method, since each coordinate axis in the characteristic space represents an interval scale, the arrangement of the plotted compounds becomes discrete or unevenly distributed. As a result, there is a possibility that a blank portion where the compound does not exist is formed in a part of the display area of the display, or conversely, the compound is concentrated in a part and an overlapping portion is formed. Thus, the conventional method cannot effectively use the display area of the display when plotting the compound in the characteristic space.

また、ディスプレイの表示領域では、3次元の特性空間を表示するのが限界であり、4次元以上の特性空間を表示することはできない。これは、化合物の構造情報として、4つ以上の構造情報を同時に取り扱えないことを意味する。よって、構造情報を何らかの形で3つ以下に減少させる必要があり、このときに、化合物の構造情報の一部が失われてしまう。このように、従来の方法では、化合物について、多数の構造情報からなる構造特性と機能特性との関係を包括的に評価することができない。   Further, in the display area of the display, it is the limit to display a three-dimensional characteristic space, and a four-dimensional or higher characteristic space cannot be displayed. This means that four or more pieces of structure information cannot be handled simultaneously as the structure information of the compound. Therefore, it is necessary to reduce the structural information to 3 or less in some form, and at this time, a part of the structural information of the compound is lost. As described above, the conventional method cannot comprehensively evaluate the relationship between the structural characteristics and the functional characteristics composed of a large amount of structural information for a compound.

本発明は上記課題に鑑みてなされたものであり、その目的は、複数の化合物について、例えば構造特性及び機能特性のような、第1の特性と第2の特性とを関連付けて効率的に表示できる化合物群表示装置であって、第1の特性として多数の特性情報をも同時に取り扱うことのできる化合物群表示装置を提供することにある。   The present invention has been made in view of the above problems, and an object of the present invention is to efficiently display a plurality of compounds by associating a first characteristic and a second characteristic such as a structural characteristic and a functional characteristic. An object of the present invention is to provide a compound group display device capable of simultaneously handling a large amount of characteristic information as a first characteristic.

上記課題を解決するために、本発明に係る化合物群表示装置は、複数の化合物について、当該各化合物の第1の特性を表す第1の特性情報と第2の特性を表す第2の特性情報とに基づいて、第1の特性と第2の特性との関係を表示する化合物群表示装置であって、上記化合物を、第1の特性情報に基づいて複数の階層的なクラスターに分類する階層分類手段と、上記階層分類手段によって分類された階層的なクラスターに基づいた再帰的な入れ子構造となるように、上記化合物のアイコンの2次元平面内における配置を決定する化合物配置手段と、上記化合物配置手段によって決定された配置で、第2の特性情報に基づいた色、模様、及び/又は形状によって上記化合物のアイコンが描画された画像データを生成する画像データ生成手段と、上記画像データ生成手段によって生成された画像データに基づいた画像を表示する表示部とを備えていることを特徴とする。   In order to solve the above-described problem, the compound group display device according to the present invention provides, for a plurality of compounds, first characteristic information representing the first characteristic of each compound and second characteristic information representing the second characteristic. The compound group display device that displays the relationship between the first characteristic and the second characteristic based on the above, wherein the compound is classified into a plurality of hierarchical clusters based on the first characteristic information A classifying unit, a compound arranging unit that determines the arrangement of the icon of the compound in a two-dimensional plane so as to have a recursive nested structure based on the hierarchical cluster classified by the hierarchical classifying unit, and the compound Image data generating means for generating image data in which the icon of the compound is drawn with the color, pattern, and / or shape based on the second characteristic information in the arrangement determined by the arrangement means; Characterized in that it comprises a display unit for displaying an image based on image data generated by the serial image data generating means.

なお、第1の特性としては、例えば、化合物の構造特性等が挙げられ、第2の特性としては、例えば、化合物の機能特性等が挙げられる。   In addition, as a 1st characteristic, the structural characteristic etc. of a compound are mentioned, for example, As a 2nd characteristic, the functional characteristic etc. of a compound are mentioned, for example.

上記構成によれば、階層分類手段が化合物を第1の特性情報に基づいて階層的なクラスターに分類する。そして、化合物配置手段及び画像データ生成手段が、分類したクラスターに基づいた入れ子構造ととなるように化合物を2次元平面内に表示する。これにより、各化合物は、アイコンの含まれる入れ子構造によって第1の特性が表現され、アイコンの色、模様、及び/又は形状によって第2の特性が表現される。以上のように、本発明の化合物群表示装置は、化合物群を、第1の特性と第2の特性とを関連付けて表示することができる。なお、上記の色には、モノクロ及びグレースケールも含まれるものとする。   According to the above configuration, the hierarchical classifying unit classifies the compounds into hierarchical clusters based on the first characteristic information. Then, the compound placement unit and the image data generation unit display the compound in a two-dimensional plane so as to have a nested structure based on the classified clusters. Thereby, each compound expresses the first characteristic by the nested structure including the icon, and expresses the second characteristic by the color, pattern, and / or shape of the icon. As described above, the compound group display device of the present invention can display a compound group in association with the first characteristic and the second characteristic. Note that the above colors include monochrome and gray scale.

ここで、階層的なクラスターに分類するにあたって、第1の特性情報に含まれる変数の個数は複数であってもよい。すなわち、第1の特性情報が多次元ベクトルからなるものであっても、化合物を階層的なクラスターに分類することができる。よって、化合物群表示装置は、第1の特性として多数の特性情報をも同時に取り扱うことができる。   Here, when classifying into hierarchical clusters, the number of variables included in the first characteristic information may be plural. That is, even if the first characteristic information is composed of multidimensional vectors, the compounds can be classified into hierarchical clusters. Therefore, the compound group display device can simultaneously handle a large amount of characteristic information as the first characteristic.

また、化合物は、第1の特性情報を座標軸とする特性空間における点によって表現されるのではなく、第1の特性情報に基づいた再帰的な入れ子構造におけるアイコンによって表現される。ここで、各アイコンの位置は、第1の特性情報の数値に基づいて一点に決定されるわけではなく、類似する化合物のアイコン同士は近隣に存在する、という風に相対的な位置関係が大まかに決定される。よって、アイコンの配置が離散的になったり、偏在したりしないように、なるべく一様な間隔になるように配置することができる。このように、ディスプレイの表示領域を有効に利用できる。   In addition, the compound is not represented by a point in the characteristic space with the first characteristic information as a coordinate axis, but is represented by an icon in a recursive nested structure based on the first characteristic information. Here, the position of each icon is not determined at a single point based on the numerical value of the first characteristic information, but the relative positional relationship is roughly such that icons of similar compounds exist in the vicinity. To be determined. Therefore, it is possible to arrange the icons so as to be as uniform as possible so that the icons are not discretely arranged or unevenly distributed. Thus, the display area of the display can be used effectively.

また、第1の特性情報は、n個(ただし、nは自然数)の量的変数からなるものであり、上記階層分類手段が、上記化合物を、各量的変数を座標軸とするn次元空間における点として扱い、各化合物間又は各クラスター間の距離に基づいて、上記化合物を分類してもよい。   The first characteristic information is composed of n (where n is a natural number) quantitative variables, and the hierarchical classifying means uses the compound as a coordinate axis in an n-dimensional space with each quantitative variable as a coordinate axis. You may classify the said compound based on the distance between each compound or each cluster, treating as a point.

上記構成によれば、化合物の座標やクラスターの重心などの座標から算出した距離を非類似度の尺度として、化合物を分類することができる。   According to the above configuration, the compounds can be classified using the distance calculated from the coordinates of the compound and the center of gravity of the cluster as a measure of dissimilarity.

また、上記階層分類手段は、第1の特性情報を説明変数、第2の特性情報を目的変数として、決定木を作成することによって上記化合物を分類してもよい。   The hierarchy classification means may classify the compound by creating a decision tree using the first characteristic information as an explanatory variable and the second characteristic information as an objective variable.

上記構成によれば、第1の特性情報に基づいて決定木を作成することによって分類されたクラスター内の化合物同士は、第2の特性情報が一様になる傾向にある。よって、第1の特性と第2の特性との対応関係が明確になり、未知の化合物がどのような第2の特性を有するかを、その化合物の第1の特性情報に基づいて容易に推定できるようになる。なお、決定木には回帰木も含まれるものとする。   According to the above configuration, the second characteristic information tends to be uniform among the compounds in the cluster classified by creating the decision tree based on the first characteristic information. Accordingly, the correspondence relationship between the first characteristic and the second characteristic is clarified, and what kind of second characteristic the unknown compound has is easily estimated based on the first characteristic information of the compound. become able to. Note that the decision tree includes a regression tree.

また、上記化合物群表示装置は、第2の特性情報に基づいて上記化合物を非階層的なクラスターに分類する非階層分類手段をさらに備え、上記階層分類手段が、第1の特性情報を説明変数、上記非階層分類手段によって形成されたクラスターに対応するカテゴリ変数を目的変数として、決定木を作成することによって上記化合物を分類してもよい。   The compound group display device further includes non-hierarchical classification means for classifying the compound into a non-hierarchical cluster based on the second characteristic information, and the hierarchical classification means uses the first characteristic information as an explanatory variable. The compound may be classified by creating a decision tree using the categorical variable corresponding to the cluster formed by the non-hierarchical classification means as an objective variable.

上記構成によれば、第2の特性情報が複数の変数からなるものであっても、非階層分類手段が化合物を第2の特性情報に基づいて非階層的なクラスターに分類するので、化合物が有する第2の特性情報を、クラスター数と同数の値を取り得るカテゴリ変数として扱うことができるようになる。これにより、決定木の各クラスターにおける化合物の第2の特性を明確にすることが可能になる。   According to the above configuration, even if the second characteristic information is composed of a plurality of variables, the non-hierarchical classification means classifies the compounds into non-hierarchical clusters based on the second characteristic information. The second characteristic information possessed can be handled as a categorical variable that can take the same number of values as the number of clusters. This makes it possible to clarify the second property of the compound in each cluster of the decision tree.

また、上記化合物群表示装置は、第2の特性情報に基づいて上記化合物を非階層的なクラスターに分類する非階層分類手段をさらに備え、上記画像データ生成手段が、上記非階層分類手段によって形成された各クラスターに対応する色、模様、及び/又は形状によって上記化合物のアイコンが描画された画像データを生成するものであってもよい。   The compound group display device further includes non-hierarchical classification means for classifying the compounds into non-hierarchical clusters based on second characteristic information, and the image data generating means is formed by the non-hierarchical classification means. Image data in which an icon of the compound is drawn by a color, pattern, and / or shape corresponding to each cluster may be generated.

上記構成によれば、第2の特性情報が複数の変数からなるものであっても、非階層分類手段が化合物を第2の特性情報に基づいて非階層的なクラスターに分類するので、各化合物が有する第2の特性を、分類したクラスターに基づいた色、模様、及び/又は形状によって表現することができる。   According to the above configuration, even if the second characteristic information includes a plurality of variables, the non-hierarchical classification unit classifies the compounds into non-hierarchical clusters based on the second characteristic information. The second characteristic possessed by can be expressed by a color, pattern, and / or shape based on the classified cluster.

また、第2の特性情報が複数の量的変数からなるものであり、上記非階層分類手段が、上記第2の特性情報をパターンベクトルとした自己組織化マップ法によって、上記化合物を非階層的なクラスターに分類してもよい。   Further, the second characteristic information is composed of a plurality of quantitative variables, and the non-hierarchical classification means converts the compound into a non-hierarchical structure by a self-organizing map method using the second characteristic information as a pattern vector. May be classified into different clusters.

自己組織化マップ法によれば、多次元のベクトルにより表されたデータを、その特徴を残し他のデータとの相互関係を保ったまま、2次元のマップに写像することが出来る。この2次元のマップ上では、類似する多次元データを有するノードが近接して配置され、データの関係が視覚的に容易に理解できる。   According to the self-organizing map method, data represented by a multi-dimensional vector can be mapped to a two-dimensional map while maintaining its correlation with other data while leaving its features. On this two-dimensional map, nodes having similar multidimensional data are arranged close to each other, and the relationship between the data can be easily understood visually.

また、第1の特性情報が、(a)化合物の分子構造の構造フラグメントもしくは構造トポロジーを表す1つ以上の分子記述子;(b)計算もしくは実験によって求められた物理化学的性質に対応する1つ以上の分子記述子、の少なくとも何れか一方を含んでいてもよい。   The first characteristic information includes (a) one or more molecular descriptors representing a structural fragment or structural topology of the molecular structure of the compound; (b) 1 corresponding to a physicochemical property obtained by calculation or experiment. It may contain at least one of two or more molecular descriptors.

また、第2の特性情報が、上記化合物の生物活性、毒性、物理化学的性質、薬物動態学的性質の少なくとも何れかのパラメータであってもよい。   The second property information may be a parameter of at least one of the biological activity, toxicity, physicochemical property, and pharmacokinetic property of the compound.

また、第2の特性情報がカテゴリ変数からなるものであってもよい。   The second characteristic information may be a categorical variable.

ところで、上記化合物群表示装置における各手段は、ハードウェアで実現してもよいし、プログラムをコンピュータに実行させることによって実現してもよい。具体的には、本発明に係るプログラムは、上記各手段としてコンピュータを動作させるプログラムであり、本発明に係る記録媒体は、当該プログラムが記録されたものである。   By the way, each means in the said compound group display apparatus may be implement | achieved by hardware, and may be implement | achieved by making a computer run a program. Specifically, a program according to the present invention is a program that causes a computer to operate as each of the above-described means, and a recording medium according to the present invention records the program.

これらのプログラムがコンピュータによって実行されると、当該コンピュータは、上記化合物群表示装置の各手段として動作する。したがって、上記化合物群表示装置と同様の効果が得られる
上記課題を解決するために、本発明に係る化合物群表示方法は、複数の化合物について、当該各化合物の第1の特性を表す第1の特性情報と第2の特性を表す第2の特性情報とに基づいて、第1の特性と第2の特性との関係を表示する化合物群表示装置における化合物群表示方法であって、上記化合物群表示装置が、階層分類手段、化合物配置手段、画像データ生成手段、及び表示部を備え、上記階層分類手段が第1の特性情報に基づいて複数の階層的なクラスターに分類する階層分類工程と、上記化合物配置手段が上記階層分類工程において分類された階層的なクラスターに基づいた再帰的な入れ子構造となるように、上記化合物のアイコンの2次元平面内における配置を決定する化合物配置工程と、上記画像データ生成手段が上記化合物配置工程において決定された配置で、第2の特性情報に基づいた色、模様、及び/又は形状によって上記化合物のアイコンが描画された画像データを生成する画像データ生成工程と、上記表示部が上記画像データ生成工程において生成された画像データに基づいた画像を表示する表示工程とを備えていることを特徴とする。
When these programs are executed by a computer, the computer operates as each unit of the compound group display device. Therefore, the same effect as the above compound group display device can be obtained. In order to solve the above problem, the compound group display method according to the present invention provides a first property that represents the first characteristic of each compound for a plurality of compounds. A compound group display method in a compound group display device that displays a relationship between a first characteristic and a second characteristic based on characteristic information and second characteristic information representing a second characteristic, the compound group A display device includes a hierarchy classification unit, a compound arrangement unit, an image data generation unit, and a display unit, and the hierarchy classification unit classifies into a plurality of hierarchical clusters based on the first characteristic information; The arrangement of the icons of the compounds in the two-dimensional plane is determined so that the compound arranging means has a recursive nested structure based on the hierarchical cluster classified in the hierarchical classification step. Image data in which the icon of the compound is drawn with the color, pattern, and / or shape based on the second characteristic information in the arrangement determined by the compound arrangement step and the image data generating means determined in the compound arrangement step The image data generating step for generating the image data and the display unit for displaying an image based on the image data generated in the image data generating step.

なお、第1の特性としては、例えば、化合物の構造特性等が挙げられ、第2の特性としては、例えば、化合物の機能特性等が挙げられる。   In addition, as a 1st characteristic, the structural characteristic etc. of a compound are mentioned, for example, As a 2nd characteristic, the functional characteristic etc. of a compound are mentioned, for example.

上記構成によれば、階層分類工程において化合物を第1の特性情報に基づいて階層的なクラスターに分類する。そして、化合物配置工程及び画像データ生成工程において、分類したクラスターに基づいた入れ子構造ととなるように化合物を2次元平面内に表示する。これにより、各化合物は、アイコンの含まれる入れ子構造によって第1の特性が表現され、アイコンの色、模様、及び/又は形状によって第2の特性が表現される。以上のように、本発明の化合物群表示方法は、化合物群を、第1の特性と第2の特性とを関連付けて表示することができる。なお、上記の色には、モノクロ及びグレースケールも含まれるものとする。   According to the above configuration, the compounds are classified into hierarchical clusters based on the first characteristic information in the hierarchical classification step. In the compound placement step and the image data generation step, the compound is displayed in a two-dimensional plane so as to have a nested structure based on the classified clusters. Thereby, each compound expresses the first characteristic by the nested structure including the icon, and expresses the second characteristic by the color, pattern, and / or shape of the icon. As described above, the compound group display method of the present invention can display a compound group in association with the first characteristic and the second characteristic. Note that the above colors include monochrome and gray scale.

ここで、階層的なクラスターに分類するにあたって、第1の特性情報に含まれる変数の個数は複数であってもよい。すなわち、第1の特性情報が多次元ベクトルからなるものであっても、化合物を階層的なクラスターに分類することができる。よって、本方法は、第1の特性として4つ以上の特性をも同時に取り扱うことができる。   Here, when classifying into hierarchical clusters, the number of variables included in the first characteristic information may be plural. That is, even if the first characteristic information is composed of multidimensional vectors, the compounds can be classified into hierarchical clusters. Therefore, this method can simultaneously handle four or more characteristics as the first characteristics.

また、化合物は、第1の特性情報を座標軸とする特性空間における点によって表現されるのではなく、第1の特性情報に基づいた再帰的な入れ子構造におけるアイコンによって表現される。ここで、各アイコンの位置は、第1の特性情報の数値に基づいて一点に決定されるわけではなく、類似する化合物のアイコン同士は近隣に存在する、という風に相対的な位置関係が大まかに決定される。よって、アイコンの配置が離散的になったり、偏在したりしないように、なるべく一様な間隔になるように配置することができる。このように、ディスプレイの表示領域を有効に利用できる。   In addition, the compound is not represented by a point in the characteristic space with the first characteristic information as a coordinate axis, but is represented by an icon in a recursive nested structure based on the first characteristic information. Here, the position of each icon is not determined at a single point based on the numerical value of the first characteristic information, but the relative positional relationship is roughly such that icons of similar compounds exist in the vicinity. To be determined. Therefore, it is possible to arrange the icons so as to be as uniform as possible so that the icons are not discretely arranged or unevenly distributed. Thus, the display area of the display can be used effectively.

本発明に係る化合物群表示装置は、以上のように、化合物を第1の特性情報に基づいて複数の階層的なクラスターに分類する階層分類手段と、階層分類手段によって分類された階層的なクラスターに基づいた再帰的な入れ子構造となるように、化合物のアイコンの2次元平面内における配置を決定する化合物配置手段と、化合物配置手段によって決定された配置で、第2の特性情報に基づいた色、模様、及び/又は形状によって化合物のアイコンが描画された画像データを生成する画像データ生成手段と、画像データ生成手段によって生成された画像データに基づいた画像を表示する表示部とを備えた構成となっている。   As described above, the compound group display device according to the present invention includes a hierarchical classification unit that classifies a compound into a plurality of hierarchical clusters based on the first characteristic information, and a hierarchical cluster classified by the hierarchical classification unit. A compound arrangement means for determining the arrangement of the icon of the compound in the two-dimensional plane so as to have a recursive nested structure based on the color, and the color based on the second characteristic information in the arrangement determined by the compound arrangement means A configuration comprising: image data generating means for generating image data in which an icon of a compound is drawn according to a pattern, and / or shape; and a display unit for displaying an image based on the image data generated by the image data generating means It has become.

また、本発明に係る化合物群表示方法は、階層分類手段が第1の特性情報に基づいて複数の階層的なクラスターに分類する階層分類工程と、化合物配置手段が階層分類工程において分類された階層的なクラスターに基づいた再帰的な入れ子構造となるように、化合物のアイコンの2次元平面内における配置を決定する化合物配置工程と、画像データ生成手段が化合物配置工程において決定された配置で、第2の特性情報に基づいた色、模様、及び/又は形状によって上記化合物のアイコンが描画された画像データを生成する画像データ生成工程と、表示部が画像データ生成工程において生成された画像データに基づいた画像を表示する表示工程とを備えた構成となっている。   Further, the compound group display method according to the present invention includes a hierarchical classification step in which the hierarchical classification means classifies into a plurality of hierarchical clusters based on the first characteristic information, and a hierarchy in which the compound placement means is classified in the hierarchical classification step. A compound arrangement step for determining the arrangement of the icon of the compound in the two-dimensional plane so as to form a recursive nested structure based on a typical cluster, and an arrangement in which the image data generating means is determined in the compound arrangement step. An image data generation step for generating image data in which the icon of the compound is drawn with a color, pattern, and / or shape based on the characteristic information of 2, and a display unit based on the image data generated in the image data generation step And a display process for displaying the image.

よって、上述したように、複数の化合物について第1の特性と第2の特性とを関連付けて効率的に表示でき、さらに、第1の特性として多数の特性情報をも同時に取り扱うこともできるという効果を奏する。   Therefore, as described above, it is possible to efficiently display the first characteristic and the second characteristic in association with each other for a plurality of compounds, and it is also possible to simultaneously handle a large amount of characteristic information as the first characteristic. Play.

〔実施形態1〕
本発明の一実施形態について図1から図5に基づいて説明すると以下の通りである。本実施形態の化合物群表示装置1は、複数の化合物について、第1の特性と第2の特性とを関連付けて表示するものである。第1の特性の種類としては特に限定されるものではないが、本実施形態では、一例として構造特性が用いられ、これを表す構造情報として分子記述子が用いられている。なお、構造情報は、単一の分子記述子であってもよいし、n個の分子記述子、すなわち、各分子記述子の値を成分とするn次元ベクトルとして表現されていてもよい。また、分子記述子としては、化合物の分子構造の構造フラグメントもしくは構造トポロジーを表すものであってもよいし、計算もしくは実験によって求められた物理化学的性質に対応するものであってもよいし、これらの組み合わせであってもよい。
Embodiment 1
An embodiment of the present invention will be described below with reference to FIGS. The compound group display device 1 of the present embodiment displays the first characteristic and the second characteristic in association with each other for a plurality of compounds. Although the type of the first characteristic is not particularly limited, in the present embodiment, a structural characteristic is used as an example, and a molecular descriptor is used as structural information representing this. The structural information may be a single molecular descriptor or may be expressed as an n-dimensional vector having n molecular descriptors, that is, values of each molecular descriptor as components. Further, the molecular descriptor may represent a structural fragment or structural topology of the molecular structure of the compound, or may correspond to a physicochemical property obtained by calculation or experiment, A combination of these may also be used.

また、第2の特性についても、第1の特性情報と同様に特に限定されるものではなく、例えば、化合物の生物活性、毒性、物理化学的性質、又は薬物動態学的性質等の機能特性等を用いることができ、これを表す機能特性情報として各種パラメータを用いることができる。また、これらのパラメータを適宜組み合わせてもよい。本明細書では、これらのパラメータについて以下「機能特性情報」という。   The second property is not particularly limited as in the case of the first property information. For example, functional properties such as biological activity, toxicity, physicochemical properties, or pharmacokinetic properties of the compound, etc. And various parameters can be used as the functional characteristic information representing this. Further, these parameters may be appropriately combined. In this specification, these parameters are hereinafter referred to as “functional characteristic information”.

なお、本実施形態において、機能特性情報は、1次元ベクトルで表される量的変数、カテゴリ変数の何れであってもよい。量的変数とは、例えば、化合物の活性値等の間隔尺度で測られる変数であり、離散変数などであってもよく、また、カテゴリ変数とは、例えば、化合物の活性の種類(A活性、B活性、又はC活性)等の複数の値を取りうる変数をいう。   In the present embodiment, the functional characteristic information may be a quantitative variable or a categorical variable represented by a one-dimensional vector. The quantitative variable is a variable measured on an interval scale such as an activity value of a compound, for example, and may be a discrete variable, and the categorical variable is, for example, a type of activity (A activity, A variable that can take a plurality of values, such as B activity or C activity.

このような構成により、本実施形態の化合物群表示装置は、化合物の構造と機能特性とを関連付けて表示することができる。よって、ユーザは、未知の化合物の機能特性を知りたい場合、構造情報から未知の化合物がどこに表示されるかを知ることによって、構造が類似する化合物の機能特性情報から未知の化合物の機能特性を推測することができる。また、表示されている既知の化合物の分布から、構造と機能特性とがどのように関係しているかを、視覚的に判断することもできる。   With such a configuration, the compound group display device of the present embodiment can display the structure and functional characteristics of the compound in association with each other. Therefore, when the user wants to know the functional characteristics of an unknown compound, the functional characteristics of the unknown compound can be determined from the functional characteristic information of the compound having a similar structure by knowing where the unknown compound is displayed from the structural information. Can be guessed. It is also possible to visually determine how the structure and functional properties are related from the displayed distribution of known compounds.

図1は、本実施形態の化合物群表示装置1の機能ブロック図である。化合物群表示装置1は、図1に示すように、記述子入力部11、機能特性入力部12、階層分類部(階層分類手段)13、化合物配置部(化合物配置手段)14、画像データ生成部(画像データ生成手段)15、及び表示部16を備えている。   FIG. 1 is a functional block diagram of the compound group display device 1 of the present embodiment. As shown in FIG. 1, the compound group display device 1 includes a descriptor input unit 11, a functional property input unit 12, a hierarchy classification unit (hierarchy classification unit) 13, a compound arrangement unit (compound arrangement unit) 14, and an image data generation unit. (Image data generating means) 15 and a display unit 16 are provided.

記述子入力部(第1の入力部)11は、ユーザ又は他の装置等から、表示する化合物の分子記述子(第1の特性情報)を取得するためのものである。記述子入力部11のハードウェア構成としては、例えばキーボード、マウス、タッチパネル、又はタブレット等のようにユーザからの入力を受け付けるものであってもよいし、各種入出力インターフェース等のように外部記憶装置や他のコンピュータからの入力を受け付けるものであってもよい。   The descriptor input unit (first input unit) 11 is for acquiring a molecular descriptor (first characteristic information) of a compound to be displayed from a user or another device. The hardware configuration of the descriptor input unit 11 may be one that accepts input from the user, such as a keyboard, mouse, touch panel, or tablet, or an external storage device such as various input / output interfaces. Or an input from another computer.

また、機能特性入力部(第2の入力部)12は、ユーザ又は他の装置等から、表示する化合物の機能特性情報(第2の特性情報)を取得するためのものである。機能特性入力部12のハードウェア構成については、記述子入力部11と同様である。   The functional property input unit (second input unit) 12 is for acquiring functional property information (second property information) of a compound to be displayed from a user or another device. The hardware configuration of the functional characteristic input unit 12 is the same as that of the descriptor input unit 11.

階層分類部13は、化合物を分子記述子(第1の特性情報)に基づいて複数の階層的なクラスターに分類するためのものである。より具体的には、分子記述子に基づいて、各種アルゴリズムによって化合物を階層的に分類する。   The hierarchical classification unit 13 is for classifying compounds into a plurality of hierarchical clusters based on molecular descriptors (first characteristic information). More specifically, the compounds are hierarchically classified by various algorithms based on the molecular descriptor.

化合物配置部14は、階層分類部13によって分類された階層的なクラスターに基づいた再帰的な入れ子構造となるように、化合物の2次元平面内における配置を決定する。より具体的には、化合物配置部14は、階層的に分類された化合物を葉ノードとして、子ノードが親ノードに順次含まれた入れ子構造となるように、各化合物を2次元平面内に配置する。なお、このように配置するためのアルゴリズムとしては、例えば、平安京ビュー(「平安京ビュー 〜 階層型データを碁盤上に配置する視覚化手法」、伊藤貴之、小山田耕二、可視化情報学会第9回ビジュアリゼーションカンファレンス抄録、2003年発行)を用いることができる。平安京ビューでは、まず階層型データ中の葉ノード群を格子状に配列する。続いてこれらの葉ノードの親にあたる枝ノードを画面上に効率よく配置することで、限られた画面空間上に大量の情報を表現する。   The compound arrangement unit 14 determines the arrangement of the compounds in the two-dimensional plane so as to have a recursive nested structure based on the hierarchical cluster classified by the hierarchy classification unit 13. More specifically, the compound placement unit 14 places each compound in a two-dimensional plane so that the hierarchically classified compounds are leaf nodes and the child nodes are sequentially included in the parent node. To do. As an algorithm for this arrangement, for example, Heiankyo View ("Heiankyo View-Visualization Method for Arranging Hierarchical Data on a Board", Takayuki Ito, Koji Koyamada, Visualization Society of Japan 9th Visualization Conference Abstract, published in 2003). In Heiankyo view, leaf nodes in the hierarchical data are first arranged in a grid. Subsequently, a large amount of information is expressed in a limited screen space by efficiently arranging branch nodes corresponding to the leaf nodes on the screen.

画像データ生成部15は、化合物配置部14によって決定された配置で、第2の特性情報に基づいた色によって化合物のアイコンが描画された画像データを生成する。より具体的には、画像データ生成部15は、化合物配置部14によって決定された位置に化合物が配置された画像データを生成する。このとき、葉ノードに相当する各化合物は、例えば、円形、正方形、又は点等の簡単な図形で表現してもよいし、化合物の種類が分かるようなシンボルによって表現してもよい。以下、葉ノードを表現する図形又はシンボルをアイコンと称する。また、このとき、各化合物(葉ノード)に相当するアイコンを、第2の特性情報に基づいて色分けする。さらに、画像データ生成部15は、葉ノードである各化合物が属する親ノードを枠で囲み、枠で囲んだ各ノードが属するさらなる親ノードを枠で囲み…、といった風に、順次、ノードを枠で囲んでいく。これにより、葉ノードである各化合物が、どのような階層構造のどのノードに属しているかが表現される。   The image data generation unit 15 generates image data in which the icon of the compound is drawn with the color based on the second characteristic information in the arrangement determined by the compound arrangement unit 14. More specifically, the image data generation unit 15 generates image data in which the compound is arranged at the position determined by the compound arrangement unit 14. At this time, each compound corresponding to the leaf node may be expressed by a simple figure such as a circle, a square, or a point, or may be expressed by a symbol that indicates the type of the compound. Hereinafter, a graphic or symbol representing a leaf node is referred to as an icon. At this time, the icons corresponding to the respective compounds (leaf nodes) are color-coded based on the second characteristic information. Further, the image data generation unit 15 sequentially encloses the nodes in a frame such as surrounding a parent node to which each compound that is a leaf node belongs, enclosing a further parent node to which each node enclosed in the frame belongs, and so on. Enclose with. Thereby, it is expressed to which node of what hierarchical structure each compound which is a leaf node belongs.

なお、上記の色分けに用いられる色は必ずしもカラーである必要はなく、モノトーンの濃淡(グレースケール)等でもよい。また、化合物の機能特性を色によって表現する代わりに、網掛け等の模様や、アイコンの形状によって表現してもよい。もちろん、これらを適宜組み合わせて用いてもよい。   Note that the color used for the above color classification does not necessarily have to be a color, and may be a monotone shade (gray scale). Further, instead of expressing the functional characteristics of the compound by color, it may be expressed by a pattern such as shading or the shape of an icon. Of course, these may be used in appropriate combination.

表示部16は、画像データ生成部15によって生成された画像データに基づいた画像を表示するためのものである。表示部16のハードウェア構成としては、画像をカラー表示できるものであれば特に限定されるものではなく、例えば、カラー表示可能な液晶ディスプレイやCRT(Cathode Ray Tube)ディスプレイ等の各種ディスプレイを備えていてもよいし、カラープリンタを備えていてもよい。これにより、表示部16は、画像データ生成部15によって生成された画像データによって表現された画像を表示することができる。   The display unit 16 is for displaying an image based on the image data generated by the image data generation unit 15. The hardware configuration of the display unit 16 is not particularly limited as long as an image can be displayed in color. For example, the display unit 16 includes various displays such as a liquid crystal display capable of color display and a CRT (Cathode Ray Tube) display. Alternatively, a color printer may be provided. Thereby, the display unit 16 can display an image represented by the image data generated by the image data generation unit 15.

なお、上記の階層分類部13、化合物配置部14、及び画像データ生成部15は、CPU等の演算装置がROMやRAM等の記憶装置に格納されたプログラムコードを実行することで実現される機能ブロックである。   The hierarchy classification unit 13, the compound arrangement unit 14, and the image data generation unit 15 are functions realized by an arithmetic device such as a CPU executing a program code stored in a storage device such as a ROM or a RAM. It is a block.

次に、本実施形態の化合物群表示装置の動作について説明する。図2は、本実施形態の化合物群表示方法の工程図である。   Next, the operation of the compound group display device of this embodiment will be described. FIG. 2 is a process diagram of the compound group display method of the present embodiment.

まず、ステップS10において、機能特性入力部12が機能特性情報を取得する。取得する機能特性情報は、本実施形態では、1次元ベクトルで表される量的変数、カテゴリ変数の何れであってもよい。表1は、取得した機能特性情報の例を示すテーブルである。   First, in step S10, the functional characteristic input unit 12 acquires functional characteristic information. In the present embodiment, the function characteristic information to be acquired may be either a quantitative variable or a categorical variable represented by a one-dimensional vector. Table 1 is a table showing an example of the acquired functional characteristic information.

取得した機能特性情報は、画像データ生成部15に送信される。   The acquired function characteristic information is transmitted to the image data generation unit 15.

次に、ステップS11において、記述子入力部11が分子記述子を取得する。取得する分子記述子は一種類のみでもよいが、本実施形態ではn種類とする。これらの分子記述子は、化合物と対応付けられている。表2は、取得した分子記述子の例を示すテーブルである。   Next, in step S11, the descriptor input unit 11 acquires a molecular descriptor. Although only one type of molecular descriptor may be acquired, n types are used in the present embodiment. These molecular descriptors are associated with compounds. Table 2 is a table showing an example of the acquired molecular descriptor.

なお、表2では、各化合物に対応付けられた分子記述子の種類は3つであるが、本発明はこれに限定されるものではなく、任意の個数の分子記述子を取り扱うことができる。   In Table 2, there are three types of molecular descriptors associated with each compound, but the present invention is not limited to this, and an arbitrary number of molecular descriptors can be handled.

そして、取得した分子記述子は階層分類部13に送信される。   Then, the acquired molecular descriptor is transmitted to the hierarchy classification unit 13.

次に、ステップS12において、階層分類部13が、受信した分子記述子に基づいて化合物を階層的なクラスターに分類する。なお、本ステップにおいて、特に記述しない場合は、階層分類部13が各処理を行っているものとする。   Next, in step S12, the hierarchical classification unit 13 classifies the compounds into hierarchical clusters based on the received molecular descriptor. In this step, unless otherwise specified, it is assumed that the hierarchy classification unit 13 performs each process.

説明変数が上述の分子記述子のような量的変数である場合、階層分類部13は、各化合物をn次元空間内の点として取り扱う。すなわち、表1の場合、分子記述子の種類が3つであるので、化合物1は、3次元空間内の点(0.5,2,0)となる。また同様に、化合物2は、点(0.9,4,1)となる。なお、このとき、分子記述子に対して標準化処理を行ってもよい。具体的には、例えば、各分子記述子の化合物間における平均値が0となり、標準偏差値が1となるように標準化すること等が挙げられる。   When the explanatory variable is a quantitative variable such as the molecular descriptor described above, the hierarchical classification unit 13 treats each compound as a point in the n-dimensional space. That is, in the case of Table 1, since there are three types of molecular descriptors, Compound 1 is a point (0.5, 2, 0) in the three-dimensional space. Similarly, the compound 2 becomes a point (0.9, 4, 1). At this time, standardization processing may be performed on the molecular descriptor. Specifically, for example, standardization is performed such that the average value between compounds of each molecular descriptor is 0 and the standard deviation value is 1.

また、構造情報が複数の分子記述子を要素とする多次元ベクトルからなる場合、構造情報について主成分分析を行い、構造情報の次元(変数の数)を縮約してもよい。   In addition, when the structure information is composed of a multidimensional vector having a plurality of molecular descriptors as elements, a principal component analysis may be performed on the structure information to reduce the dimension (number of variables) of the structure information.

そして、各化合物がこのように配置される空間において、化合物間の距離から化合物間の非類似度を算出する。すなわち、化合物間の距離の遠いものほど化合物間の類似度が小さいものとして扱い、同一クラスターに分類されないようにする。なお、非類似度を算出する際の距離としては、例えば、ユークリッド距離、マンハッタン距離、及びべき乗距離等のうち好適な距離を利用することができる。   And the dissimilarity between compounds is computed from the distance between compounds in the space where each compound is arranged in this way. That is, as the distance between the compounds is longer, the degree of similarity between the compounds is considered to be smaller, so that they are not classified into the same cluster. As the distance for calculating the dissimilarity, for example, a suitable distance among the Euclidean distance, the Manhattan distance, the power distance, and the like can be used.

なお、変形例としては、距離に基づく非類似度の代わりに類似度を算出してもよい。類似度を算出する方法としては、例えば、ピアソン相関係数、Tanimoto係数、コサイン関数等を利用することができる。   As a modification, the similarity may be calculated instead of the dissimilarity based on the distance. As a method for calculating the similarity, for example, a Pearson correlation coefficient, a Tanimoto coefficient, a cosine function, or the like can be used.

また、距離に基づいて階層的なクラスターに分類するアルゴリズムとしては、例えば、最近隣法、群平均法、又はWard法等の公知のものを用いることができる。   Moreover, as an algorithm for classifying into hierarchical clusters based on the distance, a known algorithm such as nearest neighbor method, group average method, or Ward method can be used.

以上の処理により、例えば図3のようなデンドログラムを表現できる各クラスター間の非類似度(距離)及び階層構造の情報が得られる。なお、図3における階層構造及び距離は正確なものではない。得られた情報のうち、階層構造の情報が、化合物配置部14に送信される。表3は、階層構造を示すデータ(階層構造テーブル)の一例である。   Through the above processing, for example, information on the dissimilarity (distance) and hierarchical structure between clusters that can represent a dendrogram as shown in FIG. 3 is obtained. Note that the hierarchical structure and distance in FIG. 3 are not accurate. Of the obtained information, hierarchical information is transmitted to the compound placement unit 14. Table 3 is an example of data indicating a hierarchical structure (hierarchical structure table).

表3に示すように、階層構造テーブルには、枝ノードのIDと、その枝ノードに含まれる子ノード及び葉ノードのIDが対応付けられて格納されている。   As shown in Table 3, in the hierarchical structure table, branch node IDs and IDs of child nodes and leaf nodes included in the branch nodes are stored in association with each other.

次に、ステップS13において、化合物配置部14が、上記階層構造テーブルによって表現される階層構造に基づいて、2次元平面内に各化合物(葉ノード)を配置する。このとき、同一の枝ノードに含まれる葉ノード同士が近接するように、かつ、隣接する葉ノード同士の間隔が葉ノード間の距離にかかわらず略一定の間隔になるように、各葉ノードを配置する。   Next, in step S13, the compound placement unit 14 places each compound (leaf node) in the two-dimensional plane based on the hierarchical structure expressed by the hierarchical structure table. At this time, each leaf node is set so that the leaf nodes included in the same branch node are close to each other and the interval between the adjacent leaf nodes is substantially constant regardless of the distance between the leaf nodes. Deploy.

図4は、2次元平面内における化合物の配置の一例を示す図である。なお、図中、各葉ノードは、黒塗りの正方形で表現されている。また、各葉ノードを囲む枠は、階層構造を視覚的に認識できるように付記したものであり、化合物配置部14によって作成される配置データには含まれていない。すなわち、化合物配置部14によって生成される配置データには、化合物(葉ノード)とその化合物の表示位置(例えば、図中の正方形における左上の座標)の情報とが対応付けて含まれている。生成された配置データは、画像データ生成部15に送信される。   FIG. 4 is a diagram showing an example of the arrangement of compounds in a two-dimensional plane. In the figure, each leaf node is represented by a black square. The frame surrounding each leaf node is added so that the hierarchical structure can be visually recognized, and is not included in the arrangement data created by the compound arrangement unit 14. That is, the arrangement data generated by the compound arrangement unit 14 includes information on the compound (leaf node) and the display position of the compound (for example, the upper left coordinates in the square in the figure) in association with each other. The generated arrangement data is transmitted to the image data generation unit 15.

次に、ステップS14において、画像データ生成部15が、受信した配置データに基づいて、画像データを生成する。なお、生成された画像データでは、各化合物(葉ノード)が枝ノードを示す枠によって囲まれ、枠に囲まれた枝ノードがさらにその親ノードを示す枠によって囲まれ、再帰的な入れ子構造となっている。また、各化合物(葉ノード)のアイコンは、ステップS10で取得した機能特性情報に基づいて、色分けされる。   In step S14, the image data generation unit 15 generates image data based on the received arrangement data. In the generated image data, each compound (leaf node) is surrounded by a frame indicating a branch node, and the branch node surrounded by the frame is further surrounded by a frame indicating its parent node. It has become. Further, the icon of each compound (leaf node) is color-coded based on the functional characteristic information acquired in step S10.

例えば、入力された機能特性情報がカテゴリ変数である場合、画像データ生成部15は、各カテゴリ変数と色とが対応付けられたテーブル等に基づいて、化合物の色を決定する。すなわち、画像データ生成部15は、同じカテゴリ変数を有する化合物が同じ色となるように、各化合物の色を決定する。図5は、化合物1と化合物2、化合物3と化合物4が、それぞれ同じカテゴリ変数からなる機能特性情報を有している場合の色分けの一例である。   For example, when the input functional characteristic information is a categorical variable, the image data generation unit 15 determines the color of the compound based on a table or the like in which each categorical variable is associated with a color. That is, the image data generation unit 15 determines the color of each compound so that compounds having the same categorical variable have the same color. FIG. 5 is an example of color coding when compound 1 and compound 2, compound 3 and compound 4 each have functional characteristic information composed of the same categorical variable.

また、入力された機能特性情報が量的変数である場合、画像データ生成部15は、各機能特性情報の値を、変換式によって色情報(例えば、R,G,Bの何れか1つの色における明度等)に変換して、アイコンの色が機能特性情報の値に応じて連続的に変化するように、化合物の色を決定してもよい。   When the input functional characteristic information is a quantitative variable, the image data generation unit 15 converts the value of each functional characteristic information into color information (for example, any one color of R, G, and B by a conversion formula). The color of the compound may be determined so that the color of the icon changes continuously according to the value of the functional property information.

このようにして生成された画像データは、表示部16に送信される。なお、ステップS14において、画像データ生成部15は、平面内に配置された各化合物(葉ノード)を示すアイコンに対して、高さを与えてもよい。例えば、各化合物が1次元ベクトルで表現される第3の特性情報を有している場合、第3の特性情報の値を高さに変換し、各化合物のアイコンが高さを有するように立体的に描画された画像データを生成してもよい。これにより、化合物群表示装置1は、第1から第3の特性情報を関連付けて表示することができる。   The image data generated in this way is transmitted to the display unit 16. In step S14, the image data generation unit 15 may give a height to an icon indicating each compound (leaf node) arranged in the plane. For example, when each compound has the third characteristic information represented by a one-dimensional vector, the value of the third characteristic information is converted into a height, and the icon of each compound has a height. Drawn image data may be generated. Thereby, the compound group display device 1 can display the first to third characteristic information in association with each other.

最後に、ステップS15において、表示部16が、受信した画像データに対応する画像を表示する。図5は表示部16による表示の一例である。なお、化合物群表示装置1では、表示部16によって表示された画像における各化合物をポインタで指定すると、化合物の分子記述子や機能特性情報が表示されることが好ましい。   Finally, in step S15, the display unit 16 displays an image corresponding to the received image data. FIG. 5 is an example of display by the display unit 16. In the compound group display device 1, when each compound in the image displayed by the display unit 16 is designated with a pointer, it is preferable to display the molecular descriptor and functional property information of the compound.

〔実施形態2〕
本発明の別の実施形態について図6及び図7に基づいて説明すると以下の通りである。なお、上述した実施形態1と同一の機能を有する部材については、実施形態1と同一の番号を付記し、説明を省略する。
[Embodiment 2]
Another embodiment of the present invention will be described with reference to FIGS. 6 and 7 as follows. In addition, about the member which has the same function as Embodiment 1 mentioned above, the same number as Embodiment 1 is attached, and description is abbreviate | omitted.

本実施形態の化合物群表示装置2は、複数の化合物について、第1の特性情報と第2の特性情報とを関連付けて表示するものである。   The compound group display device 2 of the present embodiment displays the first characteristic information and the second characteristic information in association with each other for a plurality of compounds.

第1の特性情報の種類としては特に限定されるものではなく、量的変数、カテゴリ変数の何れであってもよく、また、それらの変数の数は、単一であっても複数であってもよい。なお、本実施形態では、実施形態1と同様に複数の分子記述子が用いられるものとする。   The type of the first characteristic information is not particularly limited, and may be either a quantitative variable or a categorical variable, and the number of these variables may be single or plural. Also good. In the present embodiment, a plurality of molecular descriptors are used as in the first embodiment.

また、第2の特性情報についても、第1の特性情報と同様に特に限定されるものではなく、例えば、化合物の生物活性、毒性、物理化学的性質、又は薬物動態学的性質等のパラメータを用いることができる。また、これらのパラメータを適宜組み合わせてもよい。本明細書では、これらのパラメータについて以下「機能特性情報」という。   Further, the second characteristic information is not particularly limited as in the case of the first characteristic information. For example, parameters such as the biological activity, toxicity, physicochemical properties, or pharmacokinetic properties of the compound are set. Can be used. Further, these parameters may be appropriately combined. In this specification, these parameters are hereinafter referred to as “functional characteristic information”.

なお、本実施形態の化合物群表示装置2は、化合物を階層的なクラスターに分類する際に、分子記述子を説明変数、機能特性情報を目的変数として、決定木を作成する点が実施形態1と異なっている。これにより、階層的に分類された化合物が、クラスター内において一様な機能特性を示すようになる。よって、構造と機能特性との関係が明確になり、未知の化合物がどのような機能特性を有するかを、その分子記述子に基づいて容易に推定できるようになる。   Note that the compound group display device 2 of the present embodiment creates a decision tree by using molecular descriptors as explanatory variables and functional property information as objective variables when classifying compounds into hierarchical clusters. Is different. As a result, the hierarchically classified compounds show uniform functional properties within the cluster. Therefore, the relationship between the structure and the functional characteristics is clarified, and the functional characteristics of the unknown compound can be easily estimated based on the molecular descriptor.

また、機能特性情報が、1次元ベクトルで表される量的変数、カテゴリ変数に加えて、n次元ベクトル(n≧2)で表される量的変数であってもよい点も実施形態1と異なっている。すなわち、本実施形態の化合物群表示装置2は、機能特性情報がn次元で表されるような化合物についても、化合物の構造と機能特性とを関連付けて表示することができる。   Further, the feature characteristic information may be a quantitative variable represented by an n-dimensional vector (n ≧ 2) in addition to the quantitative variable and categorical variable represented by a one-dimensional vector, as in the first embodiment. Is different. That is, the compound group display device 2 of the present embodiment can display the compound structure and the functional characteristics in association with each other even for compounds whose functional characteristic information is expressed in n dimensions.

図6は、本実施形態の化合物群表示装置2の機能ブロック図である。化合物群表示装置2は、図6に示すように、記述子入力部11、機能特性入力部12、階層分類部(階層分類手段)23、非階層分類部(非階層分類手段)27、化合物配置部(化合物配置手段)14、画像データ生成部(画像データ生成手段)15、及び表示部16を備えている。   FIG. 6 is a functional block diagram of the compound group display device 2 of the present embodiment. As shown in FIG. 6, the compound group display device 2 includes a descriptor input unit 11, a functional property input unit 12, a hierarchy classification unit (hierarchy classification unit) 23, a non-hierarchy classification unit (non-hierarchy classification unit) 27, a compound arrangement A unit (compound arrangement unit) 14, an image data generation unit (image data generation unit) 15, and a display unit 16.

機能特性入力部12は、実施形態1と基本的に同様であるが、本実施形態では、n個の特性値(量的変数)を取得するものとする。   The functional characteristic input unit 12 is basically the same as that of the first embodiment, but in this embodiment, n characteristic values (quantitative variables) are acquired.

非階層分類部27は、機能特性入力部12に入力されたn個の特性値(量的変数)に基づいて化合物を非階層的なクラスターに分類するためのものである。   The non-hierarchical classification unit 27 is for classifying compounds into non-hierarchical clusters based on n characteristic values (quantitative variables) input to the functional characteristic input unit 12.

階層分類部23は、化合物を分子記述子(第1の特性情報)に基づいて複数の階層的なクラスターに分類するためのものである。より具体的には、分子記述子を説明変数、非階層分類部27によって形成されたクラスターをカテゴリとして、決定木を作成する。   The hierarchical classification unit 23 is for classifying compounds into a plurality of hierarchical clusters based on molecular descriptors (first characteristic information). More specifically, a decision tree is created with the molecular descriptor as an explanatory variable and the cluster formed by the non-hierarchical classification unit 27 as a category.

なお、第2の特性情報が単一の量的変数からなる場合は、階層分類部23は、分子記述子を説明変数、第2の特性情報を目的変数として決定木(回帰木)を作成することによって、化合物を階層的に分類してもよい。   When the second characteristic information is composed of a single quantitative variable, the hierarchy classification unit 23 creates a decision tree (regression tree) using the molecular descriptor as an explanatory variable and the second characteristic information as an objective variable. Thus, the compounds may be classified hierarchically.

画像データ生成部25は、基本的には実施形態1と同様であるが、色分けを行う際に、非階層分類部27によって形成されたクラスターに基づいた色によって化合物のアイコンが描画された画像データを生成する点が、実施形態1と異なっている。   The image data generation unit 25 is basically the same as that of the first embodiment, but image data in which the icon of the compound is drawn with a color based on the cluster formed by the non-hierarchical classification unit 27 when performing color coding. Is different from the first embodiment.

記述子入力部11、化合物配置部14、及び表示部16については、実施形態1と同様である。   The descriptor input unit 11, the compound arrangement unit 14, and the display unit 16 are the same as those in the first embodiment.

なお、上記の非階層分類部27、階層分類部23、化合物配置部14、及び画像データ生成部25は、CPU等の演算装置がROMやRAM等の記憶装置に格納されたプログラムコードを実行することで実現される機能ブロックである。   The non-hierarchical classification unit 27, the hierarchical classification unit 23, the compound arrangement unit 14, and the image data generation unit 25 execute program codes stored in a storage device such as a ROM or RAM by an arithmetic device such as a CPU. It is a functional block realized by this.

次に、本実施形態の化合物群表示装置の動作について説明する。図7は、本実施形態の化合物群表示方法の工程図である。   Next, the operation of the compound group display device of this embodiment will be described. FIG. 7 is a process diagram of the compound group display method of the present embodiment.

まず、ステップS20において、機能特性入力部12が機能特性情報を取得する。取得する機能特性情報は、本実施形態では、一例としてn次元ベクトルで表される量的変数であるものとする。表4は、取得した機能特性情報の一例である。   First, in step S20, the functional characteristic input unit 12 acquires functional characteristic information. In the present embodiment, the acquired function characteristic information is assumed to be a quantitative variable represented by an n-dimensional vector as an example. Table 4 is an example of the acquired functional characteristic information.

なお、表4では、各化合物に対応付けられた機能特性情報(活性値)の種類は3つであるが、本発明はこれに限定されるものではなく、任意の個数の機能特性情報を取り扱うことができる。   In Table 4, there are three types of functional property information (activity values) associated with each compound, but the present invention is not limited to this, and any number of functional property information is handled. be able to.

そして、取得した機能特性情報は非階層分類部27に送信される。   Then, the acquired function characteristic information is transmitted to the non-hierarchical classification unit 27.

次に、ステップS21において、記述子入力部11が分子記述子を取得する。このステップについては、実施形態1のステップS11と同様である。取得した分子記述子は階層分類部23に送信される。   Next, in step S21, the descriptor input unit 11 acquires a molecular descriptor. This step is the same as step S11 of the first embodiment. The acquired molecular descriptor is transmitted to the hierarchical classification unit 23.

次に、ステップS22において、非階層分類部27が、受信した機能特性情報に基づいて化合物を非階層的なクラスターに分類する。以下、機能特性情報に基づいて分類したクラスターのことを機能クラスターともいう。ここで、非階層的なクラスターに分類する方法としては、公知のものを利用することができる。一般的なものとしては、k−means法等が挙げられる。また、ニューラルネットワークモデル、例えば、コホネン(Kohonen)の自己組織化マップ法を用いてもよい。さらに、複数の方法を組み合わせてもよい。   Next, in step S22, the non-hierarchical classification unit 27 classifies the compounds into non-hierarchical clusters based on the received functional characteristic information. Hereinafter, clusters classified based on functional characteristic information are also referred to as functional clusters. Here, as a method for classifying into a non-hierarchical cluster, a known method can be used. As a general thing, k-means method etc. are mentioned. Further, a neural network model, for example, Kohonen's self-organizing map method may be used. Further, a plurality of methods may be combined.

これにより、各化合物の所属する機能クラスターと、各機能クラスターの平均的な機能特性とが得られる。換言すれば、各化合物が、どのような機能特性を有するどのクラスターに所属するのかが決定される。なお、各クラスターの機能特性は、例えばk−means法の場合は、クラスターの重心位置の座標として得られ、自己組織化マップ法の場合は、ノードのパターンベクトルとして得られる。   Thereby, the functional cluster to which each compound belongs and the average functional characteristics of each functional cluster can be obtained. In other words, it is determined to which cluster each compound has what functional characteristics. The functional characteristics of each cluster are obtained, for example, as coordinates of the center of gravity of the cluster in the case of the k-means method, and as the pattern vector of the node in the case of the self-organizing map method.

表5は、分類によって得られた、化合物の所属する機能クラスターが示されたテーブルの一例である。   Table 5 is an example of a table showing functional clusters to which compounds belong, obtained by classification.

表5に示すように、上記テーブルでは、化合物と機能クラスターのIDとが対応付けられている。   As shown in Table 5, in the above table, the compound and the ID of the functional cluster are associated with each other.

分類によって得られた、化合物の所属する機能クラスターの情報は、階層分類部23及び画像データ生成部25に送信される。   Information on the functional cluster to which the compound belongs obtained by classification is transmitted to the hierarchical classification unit 23 and the image data generation unit 25.

次に、ステップS23において、階層分類部23が、記述子入力部11から受信した分子記述子に基づいて、化合物を階層的なクラスターに分類する。ここで、本実施形態では、クラスターに分類する際に、各クラスター内の化合物の有する機能特性がなるべく一様になるように分類する。具体的には、化合物の分子記述子を説明変数、非階層分類部27から受信した化合物の所属する機能クラスターを目的変数として、決定木を作成する。このときの分岐ルールとしては、公知のものを用いることができ、例えば、クインラン(Quinlan)によるC5.0、C&RT、QUEST、CHAID又は実施例に示すミッチェルらによる情報利得Gを用いる手法等が挙げられる。   Next, in step S <b> 23, the hierarchical classification unit 23 classifies the compounds into hierarchical clusters based on the molecular descriptor received from the descriptor input unit 11. Here, in this embodiment, when classifying into clusters, the functional properties of the compounds in each cluster are classified as uniform as possible. Specifically, a decision tree is created using the molecular descriptor of the compound as an explanatory variable and the function cluster to which the compound received from the non-hierarchical classification unit 27 belongs as an objective variable. As a branching rule at this time, a known rule can be used, for example, a method using C5.0, C & RT, QUEST, CHAID by Quinlan or an information gain G by Mitchell et al. It is done.

これにより、実施形態1の表3のような階層構造の情報が得られる。得られた階層構造の情報は、化合物配置部14に送信される。   Thereby, information having a hierarchical structure as shown in Table 3 of the first embodiment is obtained. Information on the obtained hierarchical structure is transmitted to the compound placement unit 14.

次に、ステップS24において、化合物配置部14が、階層分類部23によって形成された階層構造の情報に基づいて、2次元平面内に各化合物(葉ノード)を配置する。このステップは、実施形態1のステップS13と同様である。   Next, in step S24, the compound placement unit 14 places each compound (leaf node) in the two-dimensional plane based on the hierarchical structure information formed by the hierarchy classification unit 23. This step is the same as step S13 of the first embodiment.

次に、ステップS25において、画像データ生成部25が、受信した配置データに基づいて、画像データを生成する。このステップは、各化合物(葉ノード)がステップS23で決定された機能クラスターに基づいて色分けされる点を除いて、実施形態1のステップS14と同様である。   Next, in step S25, the image data generation unit 25 generates image data based on the received arrangement data. This step is the same as Step S14 of Embodiment 1 except that each compound (leaf node) is color-coded based on the functional cluster determined in Step S23.

最後に、ステップS26において、表示部16が、受信した画像データに対応する画像を表示する。このステップは、実施形態1のステップS15と同様である。   Finally, in step S26, the display unit 16 displays an image corresponding to the received image data. This step is the same as step S15 of the first embodiment.

以上のように、本実施形態の化合物群表示装置2は、化合物を階層的なクラスターに分類する際に、分子記述子を説明変数、機能特性情報を目的変数として、決定木を作成する。これにより、階層的に分類された化合物が、クラスター内において一様な機能特性を示すようになる。よって、構造と機能特性との関係が明確になり、未知の化合物がどのような機能特性を有するかを、その分子記述子に基づいて容易に推定できるようになる。   As described above, the compound group display device 2 according to the present embodiment creates a decision tree using molecular descriptors as explanatory variables and functional characteristic information as objective variables when classifying compounds into hierarchical clusters. As a result, the hierarchically classified compounds show uniform functional properties within the cluster. Therefore, the relationship between the structure and the functional characteristics is clarified, and the functional characteristics of the unknown compound can be easily estimated based on the molecular descriptor.

また、本実施形態の化合物群表示装置2は、各化合物に関する機能特性情報が複数個の特性値からなるような場合であっても、化合物を機能特性情報に基づいて非階層的なクラスター(機能クラスター)に分類し、所属する機能クラスターをその化合物の機能特性情報として扱う。そして、画像データ生成部25がアイコンの色分けをする際に、この機能クラスターに応じて色分けすることによって、化合物の機能特性を表現している。   In addition, the compound group display device 2 of the present embodiment allows the compounds to be classified into non-hierarchical clusters (functions) based on the functional property information even when the functional property information about each compound is composed of a plurality of property values. Cluster), and the functional cluster to which it belongs is treated as the functional property information of the compound. When the image data generation unit 25 performs color coding of the icon, the functional characteristics of the compound are expressed by color coding according to the functional cluster.

なお、上記各実施形態では、化合物群表示装置を構成する階層分類部、非階層分類部、化合物配置部、及び画像データ生成部が、「CPUなどの演算装置がROMやRAMなどの記憶装置に格納されたプログラムコードを実行することで実現される機能ブロックである」場合を例にして説明したが、同様の処理を行うハードウェアで実現してもよい。また、処理の一部を行うハードウェアと、当該ハードウェアの制御や残余の処理を行うプログラムコードを実行する上記演算手段とを組み合わせても実現することもできる。さらに、上記各部材のうち、ハードウェアとして説明した部材であっても、処理の一部を行うハードウェアと、当該ハードウェアの制御や残余の処理を行うプログラムコードを実行する上記演算手段とを組み合わせても実現することもできる。なお、上記演算手段は、単体であってもよいし、装置内部のバスや種々の通信路を介して接続された複数の演算手段が共同してプログラムコードを実行してもよい。   In each of the above-described embodiments, the hierarchical classification unit, the non-hierarchical classification unit, the compound arrangement unit, and the image data generation unit that constitute the compound group display device indicate that “an arithmetic device such as a CPU is in a storage device such as a ROM or a RAM. In the above description, the function block realized by executing the stored program code is described as an example. However, the function block may be realized by hardware that performs similar processing. Further, it can also be realized by combining hardware that performs a part of the processing and the above-described calculation means that executes the program code for controlling the hardware and the remaining processing. Further, even among the members described above as hardware, the hardware for performing a part of the processing and the arithmetic means for executing the program code for performing the control of the hardware and the remaining processing It can also be realized by combining them. The arithmetic means may be a single unit, or a plurality of arithmetic means connected via a bus inside the apparatus or various communication paths may execute the program code jointly.

上記演算手段によって直接実行可能なプログラムコード自体、または、後述する解凍などの処理によってプログラムコードを生成可能なデータとしてのプログラムは、当該プログラム(プログラムコードまたは上記データ)を記録媒体に格納し、当該記録媒体を配付したり、あるいは、上記プログラムを、有線または無線の通信路を介して伝送するための通信手段で送信したりして配付され、上記演算手段で実行される。   The program code itself that can be directly executed by the computing means, or a program as data that can be generated by a process such as decompression described later, stores the program (program code or the data) in a recording medium, A recording medium is distributed, or the program is distributed by being transmitted by a communication means for transmitting via a wired or wireless communication path, and is executed by the arithmetic means.

なお、通信路を介して伝送する場合、通信路を構成する各伝送媒体が、プログラムを示す信号列を伝搬し合うことによって、当該通信路を介して、上記プログラムが伝送される。また、信号列を伝送する際、送信装置が、プログラムを示す信号列により搬送波を変調することによって、上記信号列を搬送波に重畳してもよい。この場合、受信装置が搬送波を復調することによって信号列が復元される。一方、上記信号列を伝送する際、送信装置が、デジタルデータ列としての信号列をパケット分割して伝送してもよい。この場合、受信装置は、受信したパケット群を連結して、上記信号列を復元する。また、送信装置が、信号列を送信する際、時分割/周波数分割/符号分割などの方法で、信号列を他の信号列と多重化して伝送してもよい。この場合、受信装置は、多重化された信号列から、個々の信号列を抽出して復元する。いずれの場合であっても、通信路を介してプログラムを伝送できれば、同様の効果が得られる。   In addition, when transmitting via a communication path, each transmission medium which comprises a communication path propagates the signal sequence which shows a program, and the said program is transmitted via the said communication path. Further, when transmitting the signal sequence, the transmission device may superimpose the signal sequence on the carrier by modulating the carrier with the signal sequence indicating the program. In this case, the signal sequence is restored by the receiving apparatus demodulating the carrier wave. On the other hand, when transmitting the signal sequence, the transmission device may divide and transmit the signal sequence as a digital data sequence. In this case, the receiving apparatus concatenates the received packet groups and restores the signal sequence. Further, when the transmission apparatus transmits a signal sequence, the signal sequence may be multiplexed with another signal sequence and transmitted by a method such as time division / frequency division / code division. In this case, the receiving apparatus extracts and restores individual signal sequences from the multiplexed signal sequence. In any case, the same effect can be obtained if the program can be transmitted via the communication path.

ここで、プログラムを配付する際の記録媒体は、取外し可能である方が好ましいが、プログラムを配付した後の記録媒体は、取外し可能か否かを問わない。また、上記記録媒体は、プログラムが記憶されていれば、書換え(書き込み)可能か否か、揮発性か否か、記録方法および形状を問わない。記録媒体の一例として、磁気テープやカセットテープなどのテープ、あるいは、フロッピー(登録商標)ディスクやハードディスクなどの磁気ディスク、または、CD−ROMや光磁気ディスク(MO)、ミニディスク(MD)やデジタルビデオディスク(DVD)などのディスクが挙げられる。また、記録媒体は、ICカードや光カードのようなカード、あるいは、マスクROMやEPROM、EEPROMまたはフラッシュROMなどのような半導体メモリであってもよい。あるいは、CPUなどの演算手段内に形成されたメモリであってもよい。   Here, it is preferable that the recording medium for distributing the program is removable, but it does not matter whether the recording medium after distributing the program is removable. In addition, the recording medium may be rewritten (writeable), volatile, or the recording method and shape as long as a program is stored. Examples of recording media include tapes such as magnetic tapes and cassette tapes, magnetic disks such as floppy (registered trademark) disks and hard disks, CD-ROMs, magneto-optical disks (MO), mini-discs (MD) and digital A disk such as a video disk (DVD) may be mentioned. The recording medium may be a card such as an IC card or an optical card, or a semiconductor memory such as a mask ROM, EPROM, EEPROM, or flash ROM. Or the memory formed in calculating means, such as CPU, may be sufficient.

なお、上記プログラムコードは、上記各処理の全手順を上記演算手段へ指示するコードであってもよいし、所定の手順で呼び出すことで、上記各処理の一部または全部を実行可能な基本プログラム(例えば、オペレーティングシステムやライブラリなど)が既に存在していれば、当該基本プログラムの呼び出しを上記演算手段へ指示するコードやポインタなどで、上記全手順の一部または全部を置き換えてもよい。   The program code may be a code for instructing the arithmetic means of all the procedures of the processes, or a basic program capable of executing a part or all of the processes by calling according to a predetermined procedure. If (for example, an operating system or a library) already exists, a part or all of the entire procedure may be replaced with a code or a pointer that instructs the arithmetic means to call the basic program.

また、上記記録媒体にプログラムを格納する際の形式は、例えば、実メモリに配置した状態のように、演算手段がアクセスして実行可能な格納形式であってもよいし、実メモリに配置する前で、演算手段が常時アクセス可能なローカルな記録媒体(例えば、実メモリやハードディスクなど)にインストールした後の格納形式、あるいは、ネットワークや搬送可能な記録媒体などから上記ローカルな記録媒体にインストールする前の格納形式などであってもよい。また、プログラムは、コンパイル後のオブジェクトコードに限るものではなく、ソースコードや、インタプリトまたはコンパイルの途中で生成される中間コードとして格納されていてもよい。いずれの場合であっても、圧縮された情報の解凍、符号化された情報の復号、インタプリト、コンパイル、リンク、または、実メモリへの配置などの処理、あるいは、各処理の組み合わせによって、上記演算手段が実行可能な形式に変換可能であれば、プログラムを記録媒体に格納する際の形式に拘わらず、同様の効果を得ることができる。   The format for storing the program in the recording medium may be a storage format that can be accessed and executed by the arithmetic means, for example, as in a state where the program is stored in the real memory, or is stored in the real memory. Installed in the local recording medium from the storage format after being installed in a local recording medium (for example, real memory or hard disk) that is always accessible by the computing means, or from a network or a transportable recording medium The previous storage format may be used. Further, the program is not limited to the compiled object code, but may be stored as source code or intermediate code generated during interpretation or compilation. In any case, the above calculation is performed by a process such as decompression of compressed information, decoding of encoded information, interpretation, compilation, linking, allocation to real memory, or a combination of processes. If the means can be converted into an executable format, the same effect can be obtained regardless of the format in which the program is stored in the recording medium.

〔実施例1〕
本発明の一実施例について以下に説明する。なお、本発明はこれに限定されるものではない。本実施例は、化合物の水に対する溶解度の測定結果の表示に関するものである。具体的には、化合物の構造と溶解度とを関係付けて表示した。
[Example 1]
One embodiment of the present invention will be described below. Note that the present invention is not limited to this. This example relates to the display of the measurement results of the solubility of a compound in water. Specifically, the structure and solubility of the compound were related and displayed.

本実施例では、第2の特性情報(機能特性情報)として、文献(Y. Ran、 et al., Prediction of aqueous solubility of organic compounds by the general solubility equation (GSE). J. Chem. Inf. Comput. Sci., 41: 1208-1217、 2001; G. Yan, et al., Prediction of the aqueous solubility: comparison of the general solubility equation and the method using an amended solvation energy relationship. J. Pharm. Sci., 91: 517-533, 2002)より収集した化合物の溶解度データを用いた。収集した溶解度データの総数、すなわち、本実施例で扱った化合物の総数は908個であった。なお、溶解度のデータは、化合物と対応付けられたテーブルとして取得した。   In this example, as the second characteristic information (functional characteristic information), a document (Y. Ran, et al., Prediction of aqueous solubility of organic compounds by the general solubility equation (GSE). J. Chem. Inf. Comput Sci., 41: 1208-1217, 2001; G. Yan, et al., Prediction of the aqueous solubility: comparison of the general solubility equation and the method using an amended solvation energy relationship.J. Pharm. Sci., 91 : 517-533, 2002) was used. The total number of solubility data collected, that is, the total number of compounds handled in this example was 908. The solubility data was obtained as a table associated with the compound.

また、第1の特性情報(構造情報)としては、Lipinskiら(C.A. Lipinski, et al., Experimental and computational approaches to estimate solubility and permeability in drug discovery and development settings. Adv. Drug Deliv. Rev. 23: 3-25, 1997)が薬剤様化合物を識別するために提示している4つの分子記述子、具体的にはClogP、分子量、水素結合供与基数、及び水素結合受容基数を用いた。これらの分子記述子のデータは、化合物と対応付けられたテーブルとして取得した。この対応テーブルの一部を表6に示す。   Moreover, as the first characteristic information (structure information), Lipinski et al. (CA Lipinski, et al., Experimental and computational approaches to estimate solubility and permeability in drug discovery and development settings. Adv. Drug Deliv. Rev. 23: 3 -25, 1997) used four molecular descriptors presented to identify drug-like compounds, specifically ClogP, molecular weight, number of hydrogen bond donating groups, and number of hydrogen bond accepting groups. These molecular descriptor data were acquired as a table associated with the compound. A part of this correspondence table is shown in Table 6.

そして、これらの各分子記述子について、化合物間で平均が0、かつ、標準偏差が1となるような標準化を行った。標準化を行った後の各分子記述子の対応テーブルを表7に示す。   For each of these molecular descriptors, standardization was performed such that the average between compounds was 0 and the standard deviation was 1. Table 7 shows the correspondence table of each molecular descriptor after standardization.

次に、標準化後の分子記述子に基づいて、908個の化合物を階層的なクラスターに分類した。分類するアルゴリズムには、Ward法(J.H. Ward, Hierarchical Grouping to Optimize an Objective Function. J. Am. Stat. Assoc., 58: 236-244、 1963)を用いた。Ward法は、初期状態(未結合状態)における情報の欠損を0とし、クラスター合併における各結合のステップで情報欠損ΔSpqの増加を最小にするようなクラスターの組を選ぶ方法であり、情報欠損ΔSpqは次式で与えられる。 Next, 908 compounds were classified into hierarchical clusters based on the normalized molecular descriptor. As the classification algorithm, the Ward method (JH Ward, Hierarchical Grouping to Optimize an Objective Function. J. Am. Stat. Assoc., 58: 236-244, 1963) was used. The Ward method is a method of selecting a set of clusters that sets the information loss in the initial state (unconnected state) to 0 and minimizes the increase in information loss ΔS pq at each connection step in cluster merger. ΔS pq is given by:

ただし、バーのついたxpm、xqmは、それぞれ結合前のクラスターp、クラスターqの重心におけるm番目の分子記述子の値であり、np、nqはクラスターp、qに属するクラスター又は化合物の数である。また、Lは、本実施例では分子記述子の種類数、すなわち4である。 Where x pm and x qm with bars are the values of the m-th molecular descriptor at the center of gravity of cluster p and cluster q before binding, respectively, and n p and n q are the clusters belonging to clusters p and q or The number of compounds. In this embodiment, L is the number of types of molecular descriptors, that is, four.

この方法に基づき、クラスター数が1になるまで、クラスターの合併を繰り返した。そして、情報欠損ΔSpqの閾値を1.0に設定し、それ以下のものは同一階層とみなして908個の化合物を分類した。 Based on this method, cluster merging was repeated until the number of clusters was 1. Then, the threshold of information deficiency ΔS pq was set to 1.0, and those below it were regarded as the same hierarchy, and 908 compounds were classified.

次に、階層的に分類した化合物について、階層的なクラスターに基づいた再帰的な入れ子構造となるように、2次元平面内における配置を決定した。この配置を決定するアルゴリズムには、平安京ビュー(「平安京ビュー 〜 階層型データを碁盤上に配置する視覚化手法」、伊藤貴之、小山田耕二、可視化情報学会第9回ビジュアリゼーションカンファレンス抄録、2003年発行)を用いた。   Next, the arrangement in a two-dimensional plane was determined so that the compound classified hierarchically might become a recursive nested structure based on a hierarchical cluster. Heiankyo View ("Heiankyo View-Visualization Method for Arranging Hierarchical Data on the Board", Takayuki Ito, Koji Koyamada, Visualization Society of Japan 9th Visualization Conference Abstract, 2003) Was used.

そして、908個の化合物について、決定された配置で、溶解度の対数値を色相とした色でアイコンを描画した画像データを作成した。この画像データに基づく画像を図8に示す。なお、図中、化合物を示すアイコンはカラー表示されている。   And about 908 compounds, the image data which drew the icon by the color which made the logarithm value of solubility the hue by the arrangement | positioning determined was produced. An image based on this image data is shown in FIG. In the figure, the icon indicating the compound is displayed in color.

図8に示すように、比較的溶解度の高いもののみ、もしくは、低いもののみが集まっているクラスターが認められ、化学構造が類似する化合物は比較的良く似た溶解度を有することが示された。   As shown in FIG. 8, clusters in which only those having relatively high solubility or only low solubility were observed, indicating that compounds having similar chemical structures have relatively similar solubility.

また、各化合物を示すアイコンに高さを与えたものを図9(a)、図9(b)に示す。図9(a)は、各化合物のClogPをバーの高さによって表したものである。一方、図9(b)は、ClogPの代わりに分子量をバーの高さによって表したものである。このように、908個もの化合物に関する非常に大規模なデータであるにもかかわらず、ClogPの値が小さいほど、また分子量が小さいほど水に対して溶けやすいことを視覚的に容易に捉えることができた。   Moreover, what gave height to the icon which shows each compound is shown to Fig.9 (a) and FIG.9 (b). FIG. 9A shows ClogP of each compound by the height of the bar. On the other hand, FIG.9 (b) represents molecular weight with the height of the bar instead of ClogP. In this way, it is possible to easily grasp visually that the smaller the ClogP value and the smaller the molecular weight, the easier it is to dissolve in water, even though the data is as large as 908 compounds. did it.

〔実施例2〕
本発明の一実施例について以下に説明する。本実施例は、薬物代謝酵素チトクロムP450(CYP)による化合物(薬物)の代謝パターンの分類に関するものであり、化合物の構造と代謝パターンとを関連付けて表示した。
[Example 2]
One embodiment of the present invention will be described below. This example relates to the classification of the metabolic pattern of a compound (drug) by the drug-metabolizing enzyme cytochrome P450 (CYP), and the structure of the compound and the metabolic pattern are displayed in association with each other.

なお、CYPは、生体の物質代謝や異物解毒に関わる重要な薬物代謝酵素群の一つであり、ヒトでは約20種類の分子種が同定されている。生体にとって異物である薬物の多くはCYPによる代謝を受けて消失するため、CYPによる代謝は薬物の有効性や安全性と深く関わっているといえる。CYPスーパーファミリーの中でも、CYP1A2、CYP2C9、CYP2C19、CYP2D6、CYP3A4の5つは薬物代謝に関わる主要な分子種であり、薬物代謝の約90%がこれらによって説明できると言われている。したがって、これら5つのCYPによる薬物の代謝を評価・予測することは創薬研究において非常に重要な課題となっている。   CYP is an important group of drug metabolizing enzymes related to biological substance metabolism and foreign body detoxification, and about 20 molecular species have been identified in humans. Many of the drugs that are foreign to the living body are lost due to metabolism by CYP, so it can be said that metabolism by CYP is deeply related to the effectiveness and safety of the drug. Among the CYP superfamily, five of CYP1A2, CYP2C9, CYP2C19, CYP2D6, and CYP3A4 are major molecular species involved in drug metabolism, and it is said that about 90% of drug metabolism can be explained by these. Therefore, evaluation and prediction of drug metabolism by these five CYPs is a very important issue in drug discovery research.

本実施例では、第2の特性情報(機能特性情報)として、ボナブリーらが調査した、161個の薬物についての、上記の5つのCYPによる代謝感受性のデータ(P. Bonnabry, et al., Quantitative drug interactions prediction system (Q-DIPS): a dynamic computer-based method to assist in the choice of clinically relevant in vivo studies. Clin. Pharmacokinet., 40: 631-640, 2001)を用いた。なお、CYPによる代謝感受性のデータは、3段階で評価されている。代謝感受性のデータは、化合物と対応付けられたテーブルとして取得した。実施例1と同様に標準化した後の代謝感受性のデータの一部を表8に示す。   In this example, as the second characteristic information (functional characteristic information), the data on metabolic sensitivity by the above five CYPs for 161 drugs investigated by Bonaburi et al. (P. Bonnabry, et al., Quantitative) drug interactions prediction system (Q-DIPS): a dynamic computer-based method to assist in the choice of clinically relevant in vivo studies. Clin. Pharmacokinet., 40: 631-640, 2001). Incidentally, metabolic sensitivity data by CYP is evaluated in three stages. Metabolic susceptibility data was obtained as a table associated with the compounds. Table 8 shows a part of metabolic sensitivity data after standardization in the same manner as in Example 1.

また、第1の特性情報(構造情報)として、Molconn-Zによって計算される220個の分子記述子(Molconn-Zディスクリプタ)のうち、パス長が7以上のもの、及びデータセット内での分散が0となる分子記述子を除いた計115個の分子記述子を用いた。なお、各薬物のMolconn-Zディスクリプタは、Molconn-Z(商標、Hall Associate Consulting社製)を用いて化学構造から算出した。各化合物のMolconn-Zディスクリプタの一部を表9に示す。   In addition, as the first characteristic information (structure information), among 220 molecular descriptors (Molconn-Z descriptors) calculated by Molconn-Z, those having a path length of 7 or more and dispersion in the data set A total of 115 molecular descriptors were used, excluding molecular descriptors with a zero. The Molconn-Z descriptor of each drug was calculated from the chemical structure using Molconn-Z (trademark, manufactured by Hall Associate Consulting). Table 9 shows a part of the Molconn-Z descriptor of each compound.

次に、本実施例では、各化合物の機能特性情報(代謝パターン)が5つの量的変数(5次元ベクトル)からなるため、化合物を機能特性情報に基づいて非階層的な機能クラスターに分類した。機能クラスターに分類するアルゴリズムには、コホネンの自己組織化マップ法(T. Kohonen, “Self-Organizing Maps”, Springer, Berlin, Heidelberg, 1995)とk−means法とを組み合わせたものを用いた。これらについて以下に詳細に説明する。   Next, in this example, since the functional property information (metabolic pattern) of each compound is composed of five quantitative variables (5-dimensional vectors), the compounds are classified into non-hierarchical functional clusters based on the functional property information. . As an algorithm for classifying into functional clusters, a combination of Kohonen's self-organizing map method (T. Kohonen, “Self-Organizing Maps”, Springer, Berlin, Heidelberg, 1995) and the k-means method was used. These will be described in detail below.

まず、各CYPによる代謝強度を属性とする5次元のパターンベクトルを考え、取得したCYPによる代謝感受性のデータを用いて自己組織化マップ(7×9=63ノード)の学習を行った。学習によって得られた各ノードのパターンベクトルを示すテーブルの一部を表10に示す。   First, a five-dimensional pattern vector having an attribute of metabolic strength by each CYP was considered, and a self-organizing map (7 × 9 = 63 nodes) was learned using the obtained metabolic sensitivity data by CYP. Table 10 shows a part of a table indicating pattern vectors of each node obtained by learning.

また、上記の表10を可視化したものを図10に示す。図10では、自己組織化マップの各ノードが有するパターンベクトルの各成分を色相によって表示している。図10において、CYP3A4に対応する要素については広範囲のノードが高い値を示すことから、多くの薬物がCYP3A4によって代謝されることが視覚的に捉えられた。また、CYP1A2とCYP2C9あるいはCYP2C19との間ではほとんどオーバーラップがないことから、CYP1A2はCYP2C9やCYP2C19とは大きく異なった基質選択性を示すことが明らかとなった。   Moreover, what visualized said Table 10 is shown in FIG. In FIG. 10, each component of the pattern vector possessed by each node of the self-organizing map is displayed by hue. In FIG. 10, since a wide range of nodes showed high values for elements corresponding to CYP3A4, it was visually perceived that many drugs are metabolized by CYP3A4. In addition, since there was almost no overlap between CYP1A2 and CYP2C9 or CYP2C19, it was revealed that CYP1A2 exhibits a substrate selectivity significantly different from CYP2C9 and CYP2C19.

次に、自己組織化マップにおけるノード数は63個であり、機能クラスターとしてそのまま用いるには数が多いため、ノードをk−means法によって最適なクラスター数にさらに分類することにした。ここで、最適なクラスター数を求める指標として、次式で表されるDavies-Bouldin Index(DB)を用いた。   Next, since the number of nodes in the self-organizing map is 63, and there are a large number to use as a functional cluster as it is, the nodes are further classified into the optimum number of clusters by the k-means method. Here, the Davies-Bouldin Index (DB) represented by the following equation was used as an index for obtaining the optimum number of clusters.

ただし、Sn(Qi)はクラスターQiにおけるクラスター中心と各クラスター要素とのユークリッド距離の平均値を表し、S(Qi,Qj)はクラスターQiとQjの中心間のユークリッド距離を表す。 However, S n (Q i) represents the average value of the Euclidean distance between the cluster center and the cluster element in a cluster Q i, S (Q i, Q j) is the Euclidean distance between the centers of clusters Q i and Q j Represents.

DBにより、最適なクラスター数は6であることが求められた。   The optimal number of clusters was determined to be 6 by DB.

次に、自己組織化マップにおける63個のノードをk−means法によって6つのクラスターに分類し、これを機能クラスターとした。これにより、自己組織化マップにおける各ノードが6つのうちのどのクラスターに属するかを示すテーブルが得られた。そのテーブルの一部を表11に示す。   Next, 63 nodes in the self-organizing map were classified into 6 clusters by the k-means method, and these were defined as functional clusters. As a result, a table indicating which of the six clusters each node in the self-organizing map belongs to was obtained. A part of the table is shown in Table 11.

また、表11を可視化したものを図11に示す。図11において、各ノードが所属するクラスターは、色相によって表現されている。   Moreover, what visualized Table 11 is shown in FIG. In FIG. 11, the cluster to which each node belongs is represented by a hue.

次に、各薬物の代謝のパターンベクトルと自己組織化マップの各ノードのパターンベクトルとの距離から薬物の帰属するノード(ベストマッチノード)を決定し、そのノードが上記の6つのクラスターの何れに帰属するかに応じて、薬物を機能クラスターに分類した。表12は各機能クラスターに分類された薬物のCYPによる代謝感受性の平均スコアを示したものである。   Next, the node to which the drug belongs (best match node) is determined from the distance between the pattern vector of metabolism of each drug and the pattern vector of each node of the self-organizing map, and the node is assigned to any of the above six clusters. Drugs were classified into functional clusters according to whether they belonged. Table 12 shows the average score of metabolic sensitivity by CYP of drugs classified into each functional cluster.

表12から、機能クラスター1はCYP3A4及びCYP2C9による代謝が、機能クラスター2はCYP2C19による代謝が有意に高く、機能クラスター3はCYP2C9でのみ、機能クラスター4はCYP3A4でのみ、機能クラスター5はCYP2D6によって、機能クラスター6はCYP1A2によって代謝される薬物の集合であることがわかる。   From Table 12, the functional cluster 1 is significantly metabolized by CYP3A4 and CYP2C9, the functional cluster 2 is significantly metabolized by CYP2C19, the functional cluster 3 is only CYP2C9, the functional cluster 4 is only CYP3A4, and the functional cluster 5 is CYP2D6. It can be seen that functional cluster 6 is a collection of drugs that are metabolized by CYP1A2.

次に、構造情報に基づいて化合物を階層的に分類するために、二分木を作成した。二分木を作成するにあたって、説明変数としてMolconn-Zディスクリプタ、目的変数として機能クラスターを用い、分岐ルールには次に示す情報利得G(T.M. Mitchell, “Machine Learning”, McGraw-Hill, Singapore, 1997)を用いた。   Next, binary trees were created to classify compounds hierarchically based on structural information. When creating a binary tree, a Molconn-Z descriptor is used as the explanatory variable, a functional cluster is used as the objective variable, and the following information gain G is used as the branch rule (TM Mitchell, “Machine Learning”, McGraw-Hill, Singapore, 1997) Was used.

ただし、Nは薬物を機能クラスターに分類した際のクラスター数(=6)を示し、sは分割前の集合における薬物の総数を、ciは機能クラスターiに属する薬物数を示し、s1及びs2は二分割されたそれぞれの集合における薬物の総数を、c1,i及びc2,iは二分割されたそれぞれの集合における、機能クラスターiに属する薬物数を示す。 However, N is the indicated number of clusters when the classification of drugs function clusters (= 6), s is the total number of drug in the set before the division, c i represents the drug number belonging to functional cluster i, s 1 and s 2 indicates the total number of drugs in each of the two divided sets, and c 1, i and c 2, i indicate the number of drugs belonging to the functional cluster i in each of the two divided sets.

ここで、二分木の各分割ステップにおいて、最大の情報利得Gが得られる条件(分割の判定に用いるMolconn-Zディスクリプタの種類及び閾値)を決定し、得られる最大の情報利得Gの値が0.25以下になるまで再帰的に分割を繰り返した。二分木の作成によって得られたデータの一部を表13に示す。   Here, in each division step of the binary tree, a condition (type and type of Molconn-Z descriptor used for determination of division) and a condition for obtaining the maximum information gain G are determined, and the value of the maximum information gain G obtained is 0. The division was repeated recursively until it was 25 or less. A part of the data obtained by creating the binary tree is shown in Table 13.

表13に示すように、ルートノード(ノード1)では、Molconn-ZディスクリプタのSHCsatsが4.80369未満か否かで薬物を2つの子ノード(ノード2及びノード3)に分割している。そして、同様に、ノード2では、Molconn-ZディスクリプタのSHHBAが31.98136未満か否かで薬物を2つの子ノード(ノード30及びノード31)に分割している。   As shown in Table 13, in the root node (node 1), the drug is divided into two child nodes (node 2 and node 3) depending on whether or not the SHCsats of the Molconn-Z descriptor is less than 4.80369. Similarly, in node 2, the drug is divided into two child nodes (node 30 and node 31) depending on whether or not the SHHBA of the Molconn-Z descriptor is less than 31.98136.

次に、階層的に分類した薬物について、階層的なクラスターに基づいた再帰的な入れ子構造となるように、2次元平面内における配置を決定した。この配置を決定するアルゴリズムには、平安京ビューを用いた。   Next, the arrangement | positioning in a two-dimensional plane was determined so that it might become a recursive nested structure based on a hierarchical cluster about the drug classified hierarchically. Heiankyo View was used as the algorithm for determining this arrangement.

そして、161個の薬物について、決定された配置で、機能クラスターの種類を色相とした色でアイコンを描画した画像データを作成した。この画像データに基づく画像を図12に示す。なお、画像中において、薬物を示すアイコンはカラー表示されており、アイコンの色は、代謝パターンに基づいて分類した際に帰属した機能クラスターに応じた色となっている。   Then, for 161 drugs, image data was created in which the icons were drawn with the determined arrangement and the color of the function cluster type as a hue. An image based on this image data is shown in FIG. In the image, an icon indicating a drug is displayed in color, and the color of the icon is a color corresponding to the functional cluster to which the icon belongs when classified based on the metabolic pattern.

図12に示すように、表示された画像では、共通の構造的特徴を有している薬物が同じ代謝パターンを示すように分類されている。このように、161個もの大規模な数の薬物について、構造と代謝パターンとの関係を効果的に視覚化できることが示された。   As shown in FIG. 12, in the displayed image, drugs having common structural features are classified so as to show the same metabolic pattern. Thus, it was shown that the relationship between structure and metabolic pattern can be effectively visualized for a large number of 161 drugs.

また、図13は、チトクロムP450の各分子種CYP1A2、CYP2C9、CYP2C19、CYP2D6、CYP3A4による代謝感受性を個別の画像で示したものである。画像中において、代謝感受性(3段階)はアイコンの色で表現されている。このように、表示された画像を一望するだけで各薬物代謝酵素の感受性を包括的に理解することができ、本発明の有用性が示された。   FIG. 13 shows the metabolic sensitivity of cytochrome P450 by each molecular species CYP1A2, CYP2C9, CYP2C19, CYP2D6, and CYP3A4 as individual images. In the image, metabolic sensitivity (3 levels) is represented by the color of the icon. As described above, the sensitivity of each drug-metabolizing enzyme can be comprehensively understood only by looking at the displayed image, and the usefulness of the present invention was shown.

なお、本発明は上述した実施形態及び実施例のみに限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態及び実施例にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。   The present invention is not limited only to the above-described embodiments and examples, and various modifications are possible within the scope of the claims, and technical means disclosed in different embodiments and examples, respectively. Embodiments obtained by appropriately combining the above are also included in the technical scope of the present invention.

本発明は、スクリーニングデータの全体像を効果的に視覚化できるので、候補化合物の選択を支援するとともに、機能的にさらに優れた化合物の合成展開を行う方向性を示すことができる。したがって、医薬品、農薬に限らず、その他の機能性化学物質の探索研究を行う化学工業分野一般において利用可能であり、非常に有用性が高いと考えられる。   Since the present invention can effectively visualize the entire screen of screening data, it can assist in the selection of candidate compounds, and can show the direction of synthesizing and developing functionally superior compounds. Therefore, it can be used not only for pharmaceuticals and agricultural chemicals but also in the chemical industry in general for exploratory research of other functional chemical substances, and is considered to be very useful.

本発明の一実施形態を示すものであり、化合物群表示装置の機能ブロック図である。1 is a functional block diagram of a compound group display device, showing an embodiment of the present invention. 本発明の一実施形態を示すものであり、化合物群表示装置の処理工程を示す工程図である。BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1, showing an embodiment of the present invention, is a process diagram showing processing steps of a compound group display device. 階層的な分類によって得られたデンドログラムの一例を示す図である。It is a figure which shows an example of the dendrogram obtained by hierarchical classification. 化合物配置部による化合物の配置の一例を示す図である。It is a figure which shows an example of arrangement | positioning of the compound by a compound arrangement | positioning part. 画像データ生成部によって生成された画像データの一例を示す図である。It is a figure which shows an example of the image data produced | generated by the image data production | generation part. 本発明の別の実施形態を示すものであり、化合物群表示装置の機能ブロック図である。Another embodiment of this invention is shown and it is a functional block diagram of a compound group display apparatus. 本発明の別の実施形態を示すものであり、化合物群表示装置の処理工程を示す工程図である。FIG. 5 is a process diagram showing another embodiment of the present invention and showing a treatment process of a compound group display device. 本発明の一実施例を示すものであり、化合物群表示装置によって表示された画像を示す図である。BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1, showing an example of the present invention, is a diagram showing an image displayed by a compound group display device. 本発明の一実施例を示すものであり、化合物群表示装置によって表示された画像を示す図である。BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1, showing an example of the present invention, is a diagram showing an image displayed by a compound group display device. 本発明の別の実施例を示すものであり、自己組織化マップにおける各ノードのパターンベクトルの各成分を色相で示した図である。FIG. 10 is a diagram showing another embodiment of the present invention, and showing each component of the pattern vector of each node in the self-organizing map in hue. 本発明の別の実施例を示すものであり、自己組織化マップにおける各ノードが帰属する機能クラスターを色相で示した図である。It is a figure which shows another Example of this invention and showed the functional cluster to which each node in a self-organization map belongs by the hue. 本発明の別の実施例を示すものであり、化合物群表示装置によって表示された画像を示す図である。It is a figure which shows another Example of this invention and shows the image displayed by the compound group display apparatus. 本発明の別の実施例を示すものであり、化合物群表示装置によって表示された画像を示す図である。It is a figure which shows another Example of this invention and shows the image displayed by the compound group display apparatus.

符号の説明Explanation of symbols

1,2 化合物群表示装置
13,23 階層分類部(階層分類手段)
14 化合物配置部(化合物配置手段)
15,25 画像データ生成部(画像データ生成手段)
16 表示部
1, 2 Compound group display device 13, 23 Hierarchy classification unit (hierarchy classification means)
14 Compound arrangement part (compound arrangement means)
15, 25 Image data generation unit (image data generation means)
16 Display section

Claims (7)

複数の化合物それぞれについて、当該各化合物の構造を示す構造情報、および、当該各化合物の機能特性を示す機能特性情報を取得する取得手段と、
上記各化合物を、複数の階層的なクラスターに分類する階層分類手段と、
上記階層分類手段によって分類された階層的なクラスターに基づいた再帰的な入れ子構造となるように、上記化合物それぞれを示すアイコンを重なりがないように2次元平面内における配置を決定する化合物配置手段と、
上記化合物配置手段によって決定された配置で、上記機能特性情報に基づいた色、模様、及び/又は形状によって上記化合物のアイコンが描画された画像データを生成する画像データ生成手段と、
上記画像データ生成手段によって生成された画像データに基づいた画像を表示する表示部とを備え、
上記階層分類手段は、
各化合物がその構造に基づいて階層的なクラスターに分類されるとともに、それぞれのクラスター内の化合物の有する機能特性が一様になるように、上記取得した構造情報および機能特性情報に基づいて所定のアルゴリズムを用いて上記分類を行い、
さらに、
上記機能特性情報に基づいて上記化合物を非階層的な機能クラスターに分類する非階層分類手段をさらに備え、
上記階層分類手段が、上記構造情報を説明変数、上記非階層分類手段によって形成された上記機能クラスターに対応するカテゴリ変数を目的変数として、決定木を作成することによって上記化合物を分類することを特徴とする化合物群表示装置。
For each of the plurality of compounds, acquisition means for acquiring structural information indicating the structure of each compound, and functional property information indicating the functional properties of each compound,
Hierarchical classification means for classifying each of the above compounds into a plurality of hierarchical clusters;
Compound placement means for determining placement in a two-dimensional plane so that icons representing each of the compounds do not overlap so as to have a recursive nested structure based on a hierarchical cluster classified by the hierarchy classification means ,
Image data generating means for generating image data in which an icon of the compound is drawn with a color, pattern, and / or shape based on the functional property information in an arrangement determined by the compound arranging means;
A display unit for displaying an image based on the image data generated by the image data generation means,
The hierarchical classification means is
Each compound is classified into a hierarchical cluster based on its structure, and predetermined functionalities are determined based on the acquired structural information and functional property information so that the functional properties of the compounds in each cluster are uniform. Perform the above classification using an algorithm ,
further,
Non-hierarchical classification means for classifying the compound into a non-hierarchical functional cluster based on the functional property information,
The hierarchical classification means classifies the compounds by creating a decision tree using the structural information as explanatory variables and the categorical variables corresponding to the functional clusters formed by the non-hierarchical classification means as objective variables. A compound group display device.
上記機能特性情報が複数の量的変数からなるものであり、The functional characteristic information is composed of a plurality of quantitative variables,
上記非階層分類手段が、上記機能特性情報をパターンベクトルとした自己組織化マップ法によって、上記化合物を非階層的な機能クラスターに分類することを特徴とする請求項1に記載の化合物群表示装置。2. The compound group display device according to claim 1, wherein the non-hierarchical classification means classifies the compounds into non-hierarchical functional clusters by a self-organizing map method using the functional property information as a pattern vector. .
上記構造情報が、The above structural information
(a)化合物の分子構造の構造フラグメントもしくは構造トポロジーを表す1つ以上の分子記述子;(a) one or more molecular descriptors representing structural fragments or structural topologies of the molecular structure of the compound;
(b)計算もしくは実験によって求められた物理化学的性質に対応する1つ以上の分子記述子、(b) one or more molecular descriptors corresponding to the physicochemical properties determined by calculation or experiment;
の少なくとも何れか一方を含んでいることを特徴とする請求項1又は2に記載の化合物群表示装置。3. The compound group display device according to claim 1, comprising at least one of the following.
上記機能特性情報が、上記化合物の生物活性、毒性、物理化学的性質、薬物動態学的性質の少なくとも何れかのパラメータであることを特徴とする請求項1から3の何れか1項に記載の化合物群表示装置。The functional property information is at least one parameter of biological activity, toxicity, physicochemical property, and pharmacokinetic property of the compound, according to any one of claims 1 to 3. Compound group display device. 上記機能特性情報がカテゴリ変数からなることを特徴とする請求項1から4の何れか1項に記載の化合物群表示装置。The compound group display device according to any one of claims 1 to 4, wherein the functional property information includes categorical variables. 請求項1から5の何れか1項に記載の各手段として、コンピュータを動作させるためのプログラム。The program for operating a computer as each means of any one of Claim 1 to 5. 請求項6に記載のプログラムが記録されたコンピュータ読み取り可能な記録媒体。A computer-readable recording medium on which the program according to claim 6 is recorded.
JP2005137690A 2005-05-10 2005-05-10 Compound group display device, compound group display method, program, and computer-readable recording medium Active JP4280831B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005137690A JP4280831B2 (en) 2005-05-10 2005-05-10 Compound group display device, compound group display method, program, and computer-readable recording medium
AU2006244962A AU2006244962A1 (en) 2005-05-10 2006-05-09 Compound group display, compound group displaying method, program, and computer readable recording medium
PCT/JP2006/309346 WO2006121057A1 (en) 2005-05-10 2006-05-09 Compound group display, compound group displaying method, program, and computer readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005137690A JP4280831B2 (en) 2005-05-10 2005-05-10 Compound group display device, compound group display method, program, and computer-readable recording medium

Publications (2)

Publication Number Publication Date
JP2006318048A JP2006318048A (en) 2006-11-24
JP4280831B2 true JP4280831B2 (en) 2009-06-17

Family

ID=37396565

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005137690A Active JP4280831B2 (en) 2005-05-10 2005-05-10 Compound group display device, compound group display method, program, and computer-readable recording medium

Country Status (3)

Country Link
JP (1) JP4280831B2 (en)
AU (1) AU2006244962A1 (en)
WO (1) WO2006121057A1 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5062556B2 (en) * 2007-05-29 2012-10-31 国立大学法人お茶の水女子大学 Program for executing image generation method for visualizing database and database display device
JP7425047B2 (en) * 2018-09-13 2024-01-30 サイクリカ インコーポレイテッド Methods and systems for predicting properties of chemical structures
WO2020100310A1 (en) * 2018-11-16 2020-05-22 良徳 若林 Compound design assistance method, compound design assistance device, and program
CN117043779A (en) * 2021-03-18 2023-11-10 日本电气株式会社 Mapped image generating apparatus, control method, and non-transitory computer readable medium
US20240161354A1 (en) * 2021-03-18 2024-05-16 Nec Corporation Physical property map image generation apparatus, control method, and non-transitory computer readable medium
JPWO2023074239A1 (en) 2021-10-28 2023-05-04

Also Published As

Publication number Publication date
AU2006244962A1 (en) 2006-11-16
JP2006318048A (en) 2006-11-24
WO2006121057A1 (en) 2006-11-16

Similar Documents

Publication Publication Date Title
US6768982B1 (en) Method and system for creating and using knowledge patterns
Bazan et al. The rough set exploration system
Wu et al. GAP: A graphical environment for matrix visualization and cluster analysis
JP4280831B2 (en) Compound group display device, compound group display method, program, and computer-readable recording medium
Emmert-Streib et al. Exploring statistical and population aspects of network complexity
US20020087275A1 (en) Visualization and manipulation of biomolecular relationships using graph operators
WO2002021336A2 (en) Method and system for interpreting and validating experimental data with automated reasoning
Sarlin Self-organizing time map: An abstraction of temporal multivariate patterns
Dharmarajan et al. Lung cancer data analysis by k-means and farthest first clustering algorithms
Manipur et al. Community detection in protein-protein interaction networks and applications
Balakrishnan et al. A novel control factor and Brownian motion-based improved Harris Hawks Optimization for feature selection
Wu et al. Sega: Structural entropy guided anchor view for graph contrastive learning
Silva et al. Exploring time-series motifs through DTW-SOM
Ketkar et al. A decision support system for selecting the most suitable machine learning in healthcare using user parameters and requirements
Shen et al. Methodology development for predicting subcellular localization and other attributes of proteins
Smalter et al. Gpm: A graph pattern matching kernel with diffusion for chemical compound classification
Acharjya et al. Swarm intelligence in solving bio-inspired computing problems: Reviews, perspectives, and challenges
Dehmer et al. Entropy bounds for hierarchical molecular networks
Adetiba et al. Experimental investigation of frequency chaos game representation for in silico and accurate classification of viral pathogens from genomic sequences
Adebayo et al. Developing a Model for Predicting Lung Cancer Using Variational Quantum-Classical Algorithm: A Survey
Carbone et al. Flexible formulation of value for experiment interpretation and design
Aldakheel et al. Detection and identification of plant leaf diseases using YOLOv4
New et al. Dynamic visualization of coexpression in systems genetics data
Vinodhini et al. Literature survey on DNA sequence by using machine learning algorithms and image registration technique
Sathyajit et al. Visual analysis of genetic algorithms while solving 0-1 knapsack problem

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080708

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081125

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090217

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150