JP4578201B2 - Gene estimation apparatus, gene estimation method and program thereof - Google Patents

Gene estimation apparatus, gene estimation method and program thereof Download PDF

Info

Publication number
JP4578201B2
JP4578201B2 JP2004296916A JP2004296916A JP4578201B2 JP 4578201 B2 JP4578201 B2 JP 4578201B2 JP 2004296916 A JP2004296916 A JP 2004296916A JP 2004296916 A JP2004296916 A JP 2004296916A JP 4578201 B2 JP4578201 B2 JP 4578201B2
Authority
JP
Japan
Prior art keywords
compound
information
gene
partial path
compounds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004296916A
Other languages
Japanese (ja)
Other versions
JP2006107394A (en
Inventor
大亮 西川
公徳 嶋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NS Solutions Corp
Original Assignee
NS Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NS Solutions Corp filed Critical NS Solutions Corp
Priority to JP2004296916A priority Critical patent/JP4578201B2/en
Publication of JP2006107394A publication Critical patent/JP2006107394A/en
Application granted granted Critical
Publication of JP4578201B2 publication Critical patent/JP4578201B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、特定の化合物の薬理活性に関連がある遺伝子を推定する遺伝子推定装置、遺伝子推定方法及びそのプログラムに関するものである。   The present invention relates to a gene estimation apparatus, a gene estimation method and a program for estimating a gene related to the pharmacological activity of a specific compound.

ある化合物がどのような遺伝子に対して薬理活性を有するかを推定する手法として、化合物構造情報と、標的タンパクの探索からそのタンパクを生成する遺伝子を推定する技術が開示されている。また、NCI(National Cancer Institute)が公開しているデータベースとして、癌細胞の化合物に対する薬理活性値に関する情報であるA−Matirx、癌細胞の遺伝子発現パターンに関する情報であるT−Matrixがある。このA−Matirx及びT−Matirxのクラスタリング結果や、A−Matirx、T−Matrixから相関行列(AT−Matrix)を求めて既知となっている化合物と遺伝子の関係をAT−Matrixから見出す技術が開示されている(例えば、非特許文献1を参照。)。   As a technique for estimating which gene a compound has pharmacological activity, a technique for estimating a gene that generates the protein from compound structure information and searching for a target protein is disclosed. As databases published by NCI (National Cancer Institute), there are A-Matrix, which is information on pharmacological activity values for compounds of cancer cells, and T-Matrix, which is information on gene expression patterns of cancer cells. Disclosure results of A-Matrix and T-Matrix clustering and techniques for finding correlation matrix (AT-Matrix) from AT-Matrix from A-Matrix and T-Matrix and finding the relationship from AT-Matrix (For example, see Non-Patent Document 1).

Uwe Scherf、他16名、「a gene expression database for the molecular pharmacology of cancer」、Nature Genetics、第24巻、第3号、2000年3月1日、p.236−244Uwe Scherf and 16 others, “a gene expression database for the molecular pharmacology of cancer”, Nature Genetics, Vol. 24, No. 3, March 1, 2000, p.236-244.

しかし、上述した手法では、標的タンパクが必要となるため、標的タンパクが不明であるときには遺伝子の推定ができないという問題がある。また、非特許文献1の手法では、薬理活性が未知の化合物と遺伝子の関係については推定ができないという問題がある。   However, since the above-described method requires a target protein, there is a problem that a gene cannot be estimated when the target protein is unknown. Further, the method of Non-Patent Document 1 has a problem that it is impossible to estimate the relationship between a gene with unknown pharmacological activity and a gene.

本発明は、上述した事情を考慮してなされたもので、標的タンパクや対象化合物の薬理活性が不明であっても、対象化合物の薬理活性に関連があると期待できる遺伝子を推定することができる遺伝子推定装置、遺伝子推定方法及びそのプログラムを提供することを目的とする。   The present invention has been made in consideration of the above-mentioned circumstances, and even if the pharmacological activity of the target protein or the target compound is unknown, a gene that can be expected to be related to the pharmacological activity of the target compound can be estimated. It is an object to provide a gene estimation device, a gene estimation method, and a program thereof.

この発明は、上述した課題を解決すべくなされたもので、本発明による遺伝子推定装置においては、複数種類の細胞の各々に対する複数種類の第1の化合物の薬理活性の活性値に関する情報である化合物情報、及び前記第1の化合物の化学構造に関する情報である化合物構造情報を格納する化合物情報格納手段と、前記複数種類の細胞の各々に対する複数種類の各遺伝子の発現量を含む発現情報を格納する発現情報格納手段と、種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報格納手段と、前記化合物情報格納手段から参照する前記化合物情報と前記部分パス情報格納手段から参照する前記部分パスに関する情報とを基に、前記第1の化合物と薬理活性が未知である第2の化合物とに対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出手段と、前記部分パス有無情報の類似する前記第1の化合物をまとめてクラスタとして分類し、分類後のクラスタの中から、前記部分パス有無情報に基づいて前記第2の化合物に化学構造が最も類似している前記第1の化合物が属するクラスタを類似クラスタとして特定し、特定した前記類似クラスタに属する前記第1の化合物の各々と前記第2の化合物との類似度を算出する分類処理手段と、前記類似クラスタに属する全ての前記第1の化合物について、前記類似度で重み付けされた前記細胞に対する前記薬理活性の活性値の加重平均を、前記第2の化合物の前記細胞に対する薬理活性の推定活性値として算出する活性値推定手段と、前記各遺伝子について、前記各細胞に対する薬理活性の前記推定活性値と前記発現量との積算値の平均値を推定ポイントとして算出する遺伝子推定手段とを具備することを特徴とする。 The present invention has been made to solve the above-described problems, and in the gene estimation apparatus according to the present invention, a compound that is information on the activity value of the pharmacological activity of a plurality of types of first compounds for each of a plurality of types of cells. Compound information storage means for storing information and compound structure information that is information relating to the chemical structure of the first compound, and expression information including expression levels of a plurality of types of genes for each of the plurality of types of cells. Expression information storage means, partial path information storage means for storing information on partial paths obtained by extracting connections of some elements in various compound structures, and the compound information and partial paths referred to by the compound information storage means Based on the information on the partial path referenced from the information storage means, the first compound and the second compound whose pharmacological activity is unknown, And calculating means for calculating partial path presence / absence information indicating whether or not the partial path is included, and classifying the first compounds having similar partial path presence / absence information together as a cluster. To identify a cluster to which the first compound having the most similar chemical structure to the second compound belongs as a similar cluster based on the partial path presence / absence information, and the first cluster belonging to the identified similar cluster Classification processing means for calculating the similarity between each of the compounds and the second compound, and the activity of the pharmacological activity on the cells weighted by the similarity for all the first compounds belonging to the similar cluster An activity value estimating means for calculating a weighted average of values as an estimated activity value of the pharmacological activity of the second compound with respect to the cells, and for each of the genes, Characterized by comprising a gene estimating means for calculating an average value of the integrated value of the estimated activity value and the expression level of pharmacological activity against cells as estimated point.

これにより、本発明による遺伝子推定装置は、薬理活性が未知である対象化合物に対して、対象化合物の薬理活性に関連があると期待できる遺伝子を推定することができる。   Thereby, the gene estimation apparatus by this invention can estimate the gene which can be anticipated with respect to the pharmacological activity of a target compound with respect to the target compound whose pharmacological activity is unknown.

また、本発明による遺伝子推定方法においては、複数種類の細胞の各々に対する複数種類の第1の化合物の薬理活性の活性値に関する情報である化合物情報、及び前記第1の化合物の化学構造に関する情報である化合物構造情報を格納する化合物情報格納手段と、前記複数種類の細胞の各々に対する複数種類の各遺伝子の発現量を含む発現情報を格納する発現情報格納手段と、種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報格納手段と、算出手段と、分類処理手段と、活性値推定手段と、遺伝子推定手段とを具備する遺伝子推定装置を用いた遺伝子推定方法であって、前記算出手段が、前記化合物情報格納手段から参照する前記化合物情報と前記部分パス情報格納手段から参照する前記部分パスに関する情報とを基に、前記第1の化合物と薬理活性が未知である第2の化合物とに対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出ステップと、前記分類処理手段が、前記部分パス有無情報の類似する前記第1の化合物をまとめてクラスタとして分類し、分類後のクラスタの中から、前記部分パス有無情報に基づいて前記第2の化合物に化学構造が最も類似している前記第1の化合物が属するクラスタを類似クラスタとして特定し、特定した前記類似クラスタに属する前記第1の化合物の各々と前記第2の化合物との類似度を算出する分類処理ステップと、前記活性値推定手段が、前記類似クラスタに属する全ての前記第1の化合物について、前記類似度で重み付けされた前記細胞に対する前記薬理活性の活性値の加重平均を、前記第2の化合物の前記細胞に対する薬理活性の推定活性値として算出する活性値推定ステップと、前記遺伝子推定手段が、前記各遺伝子について、前記各細胞に対する薬理活性の前記推定活性値と前記発現量との積算値の平均値を推定ポイントとして算出する遺伝子推定ステップとを有することを特徴とする。 In the gene estimation method according to the present invention , the compound information which is information on the activity value of the pharmacological activity of the plurality of types of first compounds for each of the plurality of types of cells, and the information on the chemical structure of the first compound. Compound information storage means for storing certain compound structure information, expression information storage means for storing expression information including expression levels of a plurality of types of genes for each of the plurality of types of cells, and a part of the structures of various compounds A gene using a gene estimation device comprising: partial path information storage means for storing information on partial paths from which element connections are extracted, calculation means, classification processing means, activity value estimation means, and gene estimation means In the estimation method, the calculation means refers to the compound information referred from the compound information storage means and the partial path information storage means. A calculation step of calculating partial path presence / absence information indicating whether or not the partial path is included in the first compound and the second compound whose pharmacological activity is unknown based on the information regarding the partial path; The classification processing unit collectively classifies the first compounds having similar partial path presence / absence information as clusters, and selects the second compound from the classified clusters based on the partial path presence / absence information. The cluster to which the first compound having the most similar chemical structure belongs is specified as a similar cluster, and the similarity between each of the first compounds belonging to the specified similar cluster and the second compound is calculated. The pharmacology for the cells weighted by the similarity for all the first compounds belonging to the similar cluster, wherein the classification step and the activity value estimation means An activity value estimation step for calculating a weighted average of sex activity values as an estimated activity value of the pharmacological activity of the second compound for the cells; and the gene estimation means for each gene, the pharmacological activity for each cell. And a gene estimation step of calculating an average value of integrated values of the estimated activity value and the expression level as an estimation point .

また、本発明によるプログラムは、コンピュータを、複数種類の細胞の各々に対する複数種類の第1の化合物の薬理活性の活性値に関する情報である化合物情報、及び前記第1の化合物の化学構造に関する情報である化合物構造情報を格納する化合物情報格納手段と、前記複数種類の細胞の各々に対する複数種類の各遺伝子の発現量を含む発現情報を格納する発現情報格納手段と、種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報格納手段と、前記化合物情報格納手段から参照する前記化合物情報と前記部分パス情報格納手段から参照する前記部分パスに関する情報とを基に、前記第1の化合物と薬理活性が未知である第2の化合物とに対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出手段と、前記部分パス有無情報の類似する前記第1の化合物をまとめてクラスタとして分類し、分類後のクラスタの中から、前記部分パス有無情報に基づいて前記第2の化合物に化学構造が最も類似している前記第1の化合物が属するクラスタを類似クラスタとして特定し、特定した前記類似クラスタに属する前記第1の化合物の各々と前記第2の化合物との類似度を算出する分類処理手段と、前記類似クラスタに属する全ての前記第1の化合物について、前記類似度で重み付けされた前記細胞に対する前記薬理活性の活性値の加重平均を、前記第2の化合物の前記細胞に対する薬理活性の推定活性値として算出する活性値推定手段と、前記各遺伝子について、前記各細胞に対する薬理活性の前記推定活性値と前記発現量との積算値の平均値を推定ポイントとして算出する遺伝子推定手段として機能させるプログラムである。
In addition, the program according to the present invention allows a computer to store compound information that is information on the activity value of the pharmacological activity of a plurality of types of first compounds for each of a plurality of types of cells, and information about the chemical structure of the first compound. Compound information storage means for storing certain compound structure information, expression information storage means for storing expression information including expression levels of a plurality of types of genes for each of the plurality of types of cells, and a part of the structures of various compounds Based on the partial path information storage means for storing information on the partial path from which the element connections are extracted, the compound information referenced from the compound information storage means, and the information on the partial path referenced from the partial path information storage means. A portion indicating whether or not the partial path is included for the first compound and the second compound whose pharmacological activity is unknown And classifying the first compounds having similar partial path presence / absence information together as a cluster, and classifying the second compound based on the partial path presence / absence information from the classified clusters. A cluster to which the first compound having the most similar chemical structure to the compound of 1 belongs is identified as a similar cluster, and the similarity between each of the first compounds belonging to the identified similar cluster and the second compound A weighting average of the activity values of the pharmacological activities for the cells weighted by the similarity for all the first compounds belonging to the similar cluster, and a classification processing means for calculating An activity value estimating means for calculating an estimated activity value of pharmacological activity against cells; and for each gene, the estimated activity value of pharmacological activity against each cell and The average value of the integrated value of the expression level is a program to function as a gene estimating means for calculating as the estimated point.

本発明による遺伝子推定装置、遺伝子推定方法及びそのプログラムによれば、薬理活性が未知である対象化合物に対して、対象化合物の薬理活性に関連があると期待できる遺伝子を推定することができる。   According to the gene estimation apparatus, gene estimation method, and program thereof according to the present invention, a gene that can be expected to be related to the pharmacological activity of a target compound can be estimated for a target compound whose pharmacological activity is unknown.

以下、本発明の実施の形態を説明する。
本発明の一実施形態における遺伝子推定装置は、薬理活性が未定の化合物(どのような細胞に対する効き目があるか未定の化合物)に対して、その化合物の薬理活性に関連があると期待できる遺伝子を推定する処理を行う装置であり、以下にその概略構成について説明を行う。図1は、本実施形態における遺伝子推定装置の概略構成を示す図である。
Embodiments of the present invention will be described below.
The gene estimation apparatus according to one embodiment of the present invention provides a gene that can be expected to be related to a pharmacological activity of a compound with an undetermined pharmacological activity (a compound that has no effect on the cell). This is a device for performing the estimation process, and the schematic configuration will be described below. FIG. 1 is a diagram illustrating a schematic configuration of a gene estimation device according to the present embodiment.

図1において、1は、遺伝子推定装置であり、例えば癌細胞に対する薬理活性が未定の化合物を対象化合物(第2の化合物)として、その対象化合物の薬理活性に関連があると期待できる遺伝子(以下、関連遺伝子とする)を推定する処理を行う。2は、ネットワークであり、例えばインターネットなどの通信網である。3は、NCI(National Cancer Institute)データベースであり、本実施形態で利用するNICが公開しているデータベースである。具体的には、NCIデータベース3は、癌細胞の遺伝子発現パターンに関する情報である発現情報と、癌細胞に対する化合物の薬理活性値に関する情報である化合物情報とが少なくとも格納されているデータベースである。   In FIG. 1, reference numeral 1 denotes a gene estimation device. For example, a compound whose pharmacological activity against cancer cells is undetermined is regarded as a target compound (second compound), and a gene that can be expected to be related to the pharmacological activity of the target compound (hereinafter referred to as “the target compound”). , A related gene) is estimated. Reference numeral 2 denotes a network, for example, a communication network such as the Internet. Reference numeral 3 denotes an NCI (National Cancer Institute) database, which is a database published by the NIC used in this embodiment. Specifically, the NCI database 3 is a database that stores at least expression information that is information on gene expression patterns of cancer cells and compound information that is information on pharmacological activity values of compounds against cancer cells.

遺伝子推定装置1は、ネットワーク2を介してNCIデータベース3から、上述した発現情報及び化合物情報を取得して利用することで、対象化合物の関連遺伝子を推定する処理を行う。尚、遺伝子推定装置1は、図示していないが、マウスやキーボードなどの入力装置及び、CRT(Cathode Ray Tube)や液晶ディスプレイなどの表示装置を具備する。   The gene estimation apparatus 1 performs processing for estimating the relevant gene of the target compound by acquiring and using the above-described expression information and compound information from the NCI database 3 via the network 2. Although not shown, the gene estimation device 1 includes an input device such as a mouse or a keyboard and a display device such as a CRT (Cathode Ray Tube) or a liquid crystal display.

ここで、発現情報における、癌細胞の遺伝子発現パターンとは、複数種類の癌細胞毎に複数種類の遺伝子別の発現量(遺伝子が機能しているか否かを示す量)に関する情報である。すなわち、特定の癌細胞においては、特定の遺伝子の組合せ(遺伝子パターン)が発現している。また、以下の説明において、化合物情報とは、複数種類の癌細胞毎に複数種類の化合物別の薬理活性値を示す情報であり、化合物構造情報とは、化合物の構造に関する情報であると定義する。尚、発現情報及び化合物情報については具体例を後述する。   Here, the gene expression pattern of cancer cells in the expression information is information relating to the expression level (amount indicating whether or not a gene is functioning) for each of a plurality of types of cancer cells. That is, specific gene combinations (gene patterns) are expressed in specific cancer cells. In the following description, compound information is information indicating the pharmacological activity value for each of a plurality of types of compounds for each of a plurality of types of cancer cells, and the compound structure information is defined as information relating to the structure of the compound. . Specific examples of expression information and compound information will be described later.

次に、遺伝子推定装置1の機能構成について説明する。11は、制御部であり、遺伝子推定装置1内の各処理部やデータの流れの制御を行う。12は、データベースであり、上述した発現情報を格納する発現情報データベース12aと、上述した化合物情報及び化合物構造情報を格納する化合物情報データベース12bと、種々の化合物の一部のパス(元素のつながり)を抽出した部分パスにID(識別子)を付与した情報を格納する部分パス情報データベース12cと、上記発現情報と化合物情報を基に紐付けられる遺伝子の発現パターンと化合物の関連に関する情報である関連情報を格納する関連情報データベース12dから構成される。   Next, the functional configuration of the gene estimation device 1 will be described. Reference numeral 11 denotes a control unit that controls each processing unit and data flow in the gene estimation apparatus 1. Reference numeral 12 denotes a database, an expression information database 12a for storing the above-described expression information, a compound information database 12b for storing the above-described compound information and compound structure information, and some paths (element connections) of various compounds. A partial path information database 12c for storing information obtained by assigning an ID (identifier) to the partial path from which the information is extracted, and related information that is information on the relationship between the expression pattern of the gene linked to the expression information and the compound information and the compound The related information database 12d is stored.

13は、情報登録処理部であり、後述する送受信処理部20及びネットワーク2を介してNCIデータベース3から発現情報を取得して発現情報データベース12aに登録する処理と、NCIデータベース3から化合物情報を取得して化合物情報データベース12bに登録する処理を行う。本実施形態における情報登録処理部13は、NCIデータベース3から癌細胞の遺伝子発現パターンに関する情報であるT−Matrix(発現情報)を取得して、必要な情報を発現情報データベース12aに登録する。また、情報登録処理部13は、NCIデータベース3から癌細胞の化合物に対する薬理活性値に関する情報であるA−Matrix(化合物情報)を取得して、必要な情報を化合物情報データベース12bに登録する。   Reference numeral 13 denotes an information registration processing unit, which acquires expression information from the NCI database 3 via the transmission / reception processing unit 20 and the network 2 described later and registers them in the expression information database 12a, and acquires compound information from the NCI database 3. Then, a process of registering in the compound information database 12b is performed. The information registration processing unit 13 in the present embodiment acquires T-Matrix (expression information) that is information related to gene expression patterns of cancer cells from the NCI database 3, and registers necessary information in the expression information database 12a. In addition, the information registration processing unit 13 acquires A-Matrix (compound information), which is information relating to the pharmacological activity value for compounds of cancer cells, from the NCI database 3 and registers necessary information in the compound information database 12b.

ここで、上述した発現情報データベース12a及び化合物情報データベース12bに格納する発現情報及び化合物情報のデータ構成例を図2及び図3を用いて説明する。図2は、図1に示した発現情報データベース12aのデータ構成例を示す図である。図2において、CLIDはClone IDから接頭辞“IMAGE:”を抜いた数値であり、各遺伝子に固有の数値である。NAMEはClone IDのcDNA(Type)に紐付く遺伝子名称ある。また、「ME:MALME−3M」や「ME:SK−MEL−28」は、癌細胞の名称である。また、癌細胞の名称の下には各遺伝子に対する発現量が示されている。尚、これらのCLIDやNAMEはNCIデータベース3から参照するT−Matrix(発現情報)で規定されている。また、図2に示す各遺伝子の発現量は、NCIデータベース3において60種の中から代表的な7種の癌細胞を抜き出し、その平均と分散値で正規化した値である。   Here, a data configuration example of the expression information and the compound information stored in the expression information database 12a and the compound information database 12b described above will be described with reference to FIGS. FIG. 2 is a diagram showing a data configuration example of the expression information database 12a shown in FIG. In FIG. 2, CLID is a numerical value obtained by removing the prefix “IMAGE:” from Clone ID, and is a numerical value unique to each gene. NAME is a gene name associated with Clone ID cDNA (Type). “ME: MALME-3M” and “ME: SK-MEL-28” are names of cancer cells. Moreover, the expression level with respect to each gene is shown under the name of a cancer cell. Note that these CLIDs and NAMEs are defined by T-Matrix (expression information) referenced from the NCI database 3. In addition, the expression level of each gene shown in FIG. 2 is a value obtained by extracting seven typical cancer cells from 60 types in the NCI database 3 and normalizing them with the average and variance value.

図3は、図1に示した化合物情報データベース12bに格納される化合物情報のデータ構成例を示す図である。
図3において、“NSC No.”は、化合物を特定する数値である。また、図2と同様に、「ME−MALME−3M」や「ME−SK−MEL−28」などは、癌細胞の名称である。また、癌細胞の名称の下には各化合物に対する薬理活性値が示されている。この薬理活性値は、例えば化合物δの細胞ωに対する薬理活性値a(ω,δ)は以下の式1で算出される。
FIG. 3 is a diagram showing a data configuration example of compound information stored in the compound information database 12b shown in FIG.
In FIG. 3, “NSC No.” is a numerical value that identifies a compound. Similarly to FIG. 2, “ME-MALME-3M”, “ME-SK-MEL-28”, and the like are names of cancer cells. Moreover, the pharmacological activity value with respect to each compound is shown under the name of a cancer cell. As for this pharmacological activity value, for example, the pharmacological activity value a (ω, δ) of the compound δ with respect to the cell ω is calculated by the following formula 1.

Figure 0004578201
Figure 0004578201

上述した式1において、GI50とは増殖抑制濃度であり、ここでは、癌細胞ωの増殖が50%の確率で抑制される化合物δの濃度を意味する。aaverageとasdはそれぞれ指定された化合物に対する癌細胞群の薬理活性値の平均と分散である。これにより、式1で求まる薬理活性値a(ω,δ)は、癌細胞ωに対する化合物δの増殖抑制の効果を意味し、化合物毎に正規化された値となる。また、化合物情報データベース12bには、化合物構造情報として、化合物の名称、構造情報(化学記号及びその接続関係の情報)、構造図(2次元又は3次元の分子構造図)などの情報が“NSC No.”に関連付けられて格納されている。 In the above-described formula 1, GI 50 is a growth inhibitory concentration, and here means the concentration of compound δ at which the growth of cancer cells ω is inhibited with a probability of 50%. a average and a sd are the mean and variance of the pharmacological activity value of the cancer cell group for the specified compound, respectively. Thus, the pharmacological activity value a (ω, δ) obtained by Formula 1 means the effect of inhibiting the growth of compound δ on cancer cells ω, and is a value normalized for each compound. In the compound information database 12b, as compound structure information, information such as compound names, structure information (chemical symbols and their connection relations), structure diagrams (two-dimensional or three-dimensional molecular structure diagrams), and the like are displayed. No. "is stored in association with it.

また、情報登録処理部13は、部分パス情報データベース12cに対する情報登録処理も行う。具体的には、情報登録処理部13は、実存する化合物の集団において、9パス以下の連結パスであって出現頻度1.0〜0.002までのパスを部分パスとして算出し、部分パス情報データベース12cに登録する。これにより、図4に示すようなデータ構成の部分バス情報データベース12cが構成される。図4は、図1に示した部分バス情報データベース12cのデータ構成例を示す図である。図2に示すように、各部分パスに対してID(識別番号)が付与されている。尚、本実施形態において化合物情報データベース12bに格納されている化合物は約4000種類の化合物であり、部分パス情報データベース12cには、約1万個の部分パスに関する情報が格納されている。尚、情報登録処理部13における部分パスの算出時には水素原子についてのパスを除外している。   The information registration processing unit 13 also performs information registration processing for the partial path information database 12c. Specifically, the information registration processing unit 13 calculates, as a partial path, a path having an appearance frequency of 1.0 to 0.002 that is a connected path of 9 paths or less in a group of existing compounds. Register in the database 12c. Thus, a partial bus information database 12c having a data structure as shown in FIG. 4 is configured. FIG. 4 is a diagram showing a data configuration example of the partial bus information database 12c shown in FIG. As shown in FIG. 2, an ID (identification number) is assigned to each partial path. In the present embodiment, there are about 4000 types of compounds stored in the compound information database 12b, and information about about 10,000 partial paths is stored in the partial path information database 12c. Note that the path for hydrogen atoms is excluded when calculating the partial path in the information registration processing unit 13.

14は、関連解析処理部であり、発現情報データベース12aから発現情報、化合物情報データベース12bから化合物情報を参照して、同じ癌細胞における遺伝子発現パターンと薬理活性を有する化合物の関連に関する情報である関連情報を生成して、関連情報データベース12dに登録する。具体的には、関連解析処理部14は、上述した発現情報の癌細胞名と化合物情報の癌細胞名が同じものをキーに遺伝子発現パターンと薬理活性値を紐付けて、関連情報データベース12dに登録する。この際、関連解析処理部14は、薬理活性値の下限値εを設け、その下限値ε以下の薬理活性値を有する化合物については紐付け処理及び登録処理を行わない。本実施形態では、下限値ε=−10.0とする。   Reference numeral 14 denotes an association analysis processing unit, which refers to expression information from the expression information database 12a and compound information from the compound information database 12b, and is information relating to a relationship between a gene expression pattern and a compound having pharmacological activity in the same cancer cell. Information is generated and registered in the related information database 12d. Specifically, the association analysis processing unit 14 associates the gene expression pattern and the pharmacological activity value with the same cancer cell name in the expression information and the cancer cell name in the compound information as a key, and stores them in the associated information database 12d. sign up. At this time, the related analysis processing unit 14 sets a lower limit value ε of the pharmacological activity value, and does not perform the linking process and the registration process for a compound having a pharmacological activity value equal to or lower than the lower limit value ε. In the present embodiment, the lower limit value ε = −10.0.

15は、FP算出処理部であり、化合物情報データベース12bに格納されている全化合物の化合物構造情報を参照して、部分パス情報データベース12cから参照する各部分パスを含むか否かを「1」、「0」で示した数字の羅列であるFP(Finger Print)を算出する。具体的には、FP算出処理部15は、化合物δのFP(部分パス有無情報)として、構造特徴であるベクトル変数f(δ)(=FP)を以下に示す式2、3を計算することにより算出する。   Reference numeral 15 denotes an FP calculation processing unit that refers to the compound structure information of all the compounds stored in the compound information database 12b and determines whether or not each partial path referred to from the partial path information database 12c is included. , FP (Finger Print), which is a sequence of numbers indicated by “0”, is calculated. Specifically, the FP calculation processing unit 15 calculates the following formulas 2 and 3 as vector variables f (δ) (= FP), which are structural features, as the FP (partial path presence / absence information) of the compound δ. Calculated by

Figure 0004578201
Figure 0004578201

ここで、式2、3に示したθ、Θ、Π(δ)について説明する。本実施形態では、化合物を無向グラフと考え、原子を点、結合を辺とみなし、f(δ)の各要素を特定のパスθ(以下、部分パスθとする)を含むか否かの2値として扱う。図2に示したように、部分パスθは例えば「C−C=O」といった形で表現できる。ベクトル変数f(δ)の各要素に対応する部分パスθの集合Θを部分パス情報データベース12cに格納される全部分パスの集合とする。また、化合物δの全パスの内、集合Θに含まれるパス集合をΠ(δ)とすると、以下の式4、5が成り立つ。尚、本実施形態の部分パスθの個数(約1万個)と、FPであるベクトル変数f(δ)に含まれる「1」及び「0」の個数は同数となる。   Here, θ, Θ, and Π (δ) shown in Expressions 2 and 3 will be described. In this embodiment, a compound is considered as an undirected graph, atoms are regarded as points, bonds are regarded as edges, and whether each element of f (δ) includes a specific path θ (hereinafter referred to as a partial path θ) or not Treat as binary. As shown in FIG. 2, the partial path θ can be expressed in a form such as “C−C = O”, for example. A set Θ of partial paths θ corresponding to each element of the vector variable f (δ) is set as a set of all partial paths stored in the partial path information database 12c. Further, if the path set included in the set Θ among all paths of the compound δ is Π (δ), the following expressions 4 and 5 are established. In this embodiment, the number of partial paths θ (about 10,000) and the number of “1” and “0” included in the vector variable f (δ) that is FP are the same.

Figure 0004578201
Figure 0004578201

16は、FP分類処理部であり、化合物情報データベース12bに格納される化合物のクラスタリング処理や、クラスタリング後のクラスタの中から対象化合物に最も類似する化合物を含むクラスタを特定する処理や、特定したクラスタに属する化合物と対象化合物の類似度を算出する処理などを行う。   Reference numeral 16 denotes an FP classification processing unit, which is a clustering process of compounds stored in the compound information database 12b, a process of specifying a cluster including a compound most similar to the target compound from the clusters after clustering, and a specified cluster A process of calculating the similarity between the compound belonging to and the target compound is performed.

まず、FP分類処理部16は、化合物情報データベース12bに格納される化合物δ1、δ2間のFPの類似度を算出してクラスタリングを行うことで、化合物情報データベース12bに格納される化合物のFPを分類する。具体的には、FP分類処理部16は、化合物δ1、δ2間の類似度t(δ1、δ2)を、以下の「Tanimoto measure」である式6に基づいて算出する。 First, the FP classification processing unit 16 calculates the FP similarity between the compounds δ 1 and δ 2 stored in the compound information database 12b and performs clustering to thereby perform the FP of the compounds stored in the compound information database 12b. Classify. Specifically, the FP classification processing unit 16 calculates the similarity t (δ 1 , δ 2 ) between the compounds δ 1 and δ 2 based on the following “Tanimoto measure”, which is Equation 6.

Figure 0004578201
Figure 0004578201

ここでFP分類処理部16が式6により求める類似度t(δ1、δ2)の値域は0≦t(δ1、δ2)≦1であり、二つの化合物がFP上で同一の構造特徴を持つ場合に類似度tの値は1となる。 Here, the range of the similarity t (δ 1 , δ 2 ) obtained by the FP classification processing unit 16 according to Equation 6 is 0 ≦ t (δ 1 , δ 2 ) ≦ 1, and the two compounds have the same structure on the FP. The value of similarity t is 1 when it has a feature.

次に、FP分類処理部16は、式6で求めた類似度tに基づくクラスタリングを行う。具体的には、FP分類処理部16は、類似度t(δ1、δ2)に基づいて化合物の集合(以下、集合Ψとする)をクラスタリングする。本実施形態のFP分類処理部16が、クラスタリングに用いるアルゴリズムは例えば「Hieratical nearest neighborロジック」である。このロジックでは、集合Ψの要素間における類似度tの最大値である最大距離Tの半分以下の類似度となる要素群を一つのクラスタとして扱う。 Next, the FP classification processing unit 16 performs clustering based on the similarity t obtained by Expression 6. Specifically, the FP classification processing unit 16 clusters a set of compounds (hereinafter referred to as a set Ψ) based on the similarity t (δ 1 , δ 2 ). The algorithm used for clustering by the FP classification processing unit 16 of the present embodiment is, for example, “Hierarchical nearest neighbor logic”. In this logic, an element group having a degree of similarity equal to or less than half of the maximum distance T, which is the maximum value of the degree of similarity t between elements of the set Ψ, is treated as one cluster.

次に、FP分類処理部16は、対象化合物をδtargetとすると、細胞ωが持つ化合物のクラスタの中から対象化合物δtargetと構造上最も類似した化合物δが属するクラスタψを以下の式7〜9を用いて決定する。尚、式7に示すように、細胞ωに活性があるとみなされている全化合物の集団をΨとする。 Next, assuming that the target compound is δ target , the FP classification processing unit 16 selects a cluster ψ to which the compound δ structurally similar to the target compound δ target belongs among the clusters of compounds possessed by the cell ω, as shown in the following formulas 7 to 7. 9 to determine. In addition, as shown in Formula 7, the group of all compounds that are considered to be active in the cell ω is denoted by Ψ.

Figure 0004578201
Figure 0004578201

次に、FP分類処理部16は、自身が決定したクラスタψに属する全化合物δに対して上述した式6を用いて対象化合物δtargetとの類似度t(δ,δtarget)を求める。 Next, the FP classification processing unit 16 obtains the similarity t (δ, δ target ) with the target compound δ target using the above-described formula 6 for all the compounds δ belonging to the cluster ψ determined by itself.

17は、活性値推定処理部であり、細胞ωに対する対象化合物の薬理活性値を、その対象化合物に類似する化合物の薬理活性値に基づいて推定する。具体的には、活性値推定処理部17は、FP分類処理部16が決定したクラスタψに属する全化合物に対して、以下の式10の計算を行うことにより、細胞ωに対する対象化合物δtargetの推定活性値h(ω,δtarget)を算出する。この式10に示すように、活性値推定処理部17は、決定したクラスタψに属する全化合物に対して、上述したFP分類処理部16が求めた類似度t(δ,δtarget)と式1で求めた薬理活性値aの積算値を求めて、それを類似度t(δ,δtarget)の総和で割ることで推定活性値h(ω,δtarget)を算出する。 Reference numeral 17 denotes an activity value estimation processing unit that estimates the pharmacological activity value of the target compound for the cell ω based on the pharmacological activity value of a compound similar to the target compound. Specifically, the activity value estimation processing unit 17 calculates the following equation 10 for all the compounds belonging to the cluster ψ determined by the FP classification processing unit 16 to obtain the target compound δ target for the cell ω. The estimated activity value h (ω, δ target ) is calculated. As shown in Expression 10, the activity value estimation processing unit 17 calculates the similarity t (δ, δ target ) obtained by the above-described FP classification processing unit 16 and Expression 1 for all the compounds belonging to the determined cluster ψ. The estimated activity value h (ω, δ target ) is calculated by obtaining the integrated value of the pharmacological activity value a obtained in (1) and dividing it by the sum of the similarities t (δ, δ target ).

Figure 0004578201
Figure 0004578201

上述した式10において、λは、パラメータであり、このλの値を大きくとると、化合物間の類似度をより厳しく評価することができる。本実施形態ではλ=4.0とする。   In Equation 10 described above, λ is a parameter, and when the value of λ is increased, the similarity between compounds can be evaluated more strictly. In this embodiment, λ = 4.0.

18は、ポイント算出処理部であり、活性値推定処理部17が算出した推定活性値hを基に、遺伝子毎に対象化合物δtargetに対する関連性の高さを示す推定ポイントを算出する。具体的には、ポイント算出処理部18は、以下の式11を利用して、活性値推定処理部17が算出した推定活性値h(ω,δtarget)と、ある遺伝子γの発現量(T−Matrixで正規化後の値)cの積算値の平均値を、遺伝子γの対象化合物δtargetに対する推定ポイントp(δtarget,γ)として算出する。 Reference numeral 18 denotes a point calculation processing unit that calculates an estimated point indicating a high degree of relevance to the target compound δ target for each gene based on the estimated activity value h calculated by the activity value estimation processing unit 17. Specifically, the point calculation processing unit 18 uses the following equation 11 to calculate the estimated activity value h (ω, δ target ) calculated by the activity value estimation processing unit 17 and the expression level (T -The average value of the integrated values of c) after normalization with Matrix) is calculated as an estimated point p (δ target , γ) for the target compound δ target of the gene γ.

Figure 0004578201
Figure 0004578201

19は、遺伝子推定処理部であり、ポイント算出処理部18が算出した各遺伝子の推定ポイントpの絶対値をとり降順に並べ替えたものを遺伝子推定結果として出力する。すなわち、推定ポイントpが高い遺伝子ほど、対象化合物の薬理活性に関連があると期待できる遺伝子(関連遺伝子)であると推定している。推定ポイントpは、正規化された推定活性値hと発現量cの積から算出するため、推定活性値hが小さい(すなわち負に大きい)対象化合物であっても、発現量cの絶対値が大きい場合には最終的な推定ポイントpに大きく影響を与える。   Reference numeral 19 denotes a gene estimation processing unit that outputs the absolute values of the estimated points p of each gene calculated by the point calculation processing unit 18 and rearranges them in descending order as a gene estimation result. That is, it is estimated that a gene having a higher estimated point p is a gene (related gene) that can be expected to be related to the pharmacological activity of the target compound. Since the estimated point p is calculated from the product of the normalized estimated activity value h and the expression level c, the absolute value of the expression level c is the target compound even if the estimated activity value h is small (that is, negatively large). If it is larger, it will greatly affect the final estimated point p.

20は、送受信処理部であり、ネットワーク2を介してNCIデータベース3と通信を行う。尚、本実施形態の遺伝子推定装置1においては、外部にあるNCIデータベース3に格納されるデータを利用するため、ネットワーク2に接続する機能を有しているが、この限りではなく、外部のデータベースを利用することなく、例えば入力手段から内部のデータベース12に予め発現情報や化合物情報を登録して格納していてもよい。この場合には、遺伝子推定装置1は、ネットワーク2に接続するための機能を必要としない。   A transmission / reception processing unit 20 communicates with the NCI database 3 via the network 2. In addition, in the gene estimation apparatus 1 of this embodiment, in order to use the data stored in the external NCI database 3, it has the function to connect to the network 2, but it is not limited to this. For example, expression information and compound information may be registered and stored in advance in the internal database 12 from the input means. In this case, the gene estimation device 1 does not need a function for connecting to the network 2.

次に、図1に示した遺伝子推定装置1における対象化合物の関連遺伝子を推定する処理について、具体例を示して説明する。図5は、図1に示した遺伝子推定装置1における対象化合物の関連遺伝子を推定する処理を示すフロー図である。   Next, the process of estimating the relevant gene of the target compound in the gene estimation apparatus 1 shown in FIG. 1 will be described with a specific example. FIG. 5 is a flowchart showing a process of estimating the relevant gene of the target compound in the gene estimation apparatus 1 shown in FIG.

図5に示すように、ステップS1において、情報登録処理部13は、ネットワーク2を介してNCIデータベース3から発現情報及び化合物情報を取得し、それぞれ発現情報データベース12a及び化合物情報データベース12bに登録する。具体的には、情報登録処理部13は、NCIデータベース3から発現情報として60種の癌細胞に対する4463種の化合物(データが存在するのは4444種)の薬理活性値を含むデータテーブルであるA−Matrixを取得して、発現情報データベース12aに登録する。   As shown in FIG. 5, in step S1, the information registration processing unit 13 acquires expression information and compound information from the NCI database 3 via the network 2, and registers them in the expression information database 12a and the compound information database 12b, respectively. Specifically, the information registration processing unit 13 is a data table including the pharmacological activity values of 4463 compounds (data is present 4444) against 60 types of cancer cells as expression information from the NCI database 3. -Obtain Matrix and register it in the expression information database 12a.

また、情報登録処理部13は、60種の癌細胞に対する9704種の遺伝子(データが存在するのは9073種)の発現量を含むデータテーブルであるT−Matrixを取得して、化合物情報データベース12bに登録する。但し、情報登録処理部13は、T−Matrixと上記A−Matrixとでは同一の癌細胞における細胞名の表記法が異なるのでどちらかの細胞名に統一する変換を行う(例:ME:MALME−3M → MEL−MALME−3M)。   Further, the information registration processing unit 13 acquires T-Matrix, which is a data table including the expression levels of 9704 genes (9073 types for which data exists) for 60 types of cancer cells, and obtains the compound information database 12b. Register with. However, since the notation of the cell name in the same cancer cell is different between the T-Matrix and the A-Matrix, the information registration processing unit 13 performs conversion to unify either cell name (for example, ME: MALME- 3M → MEL-MALME-3M).

また、情報登録処理部13は、NCIデータベース3から4463種の化合物構造情報を取得して、化合物情報データベース12bに登録する。また、情報登録処理部13は、部分パス情報データベース12cに対して部分パスに関する情報を登録する。   Further, the information registration processing unit 13 acquires 4463 types of compound structure information from the NCI database 3 and registers them in the compound information database 12b. Further, the information registration processing unit 13 registers information related to the partial path in the partial path information database 12c.

次に、ステップS2において、関連解析処理部14は、上述した発現情報の癌細胞名と化合物情報の癌細胞名が同じものをキーに遺伝子発現パターンと薬理活性値を紐付けて、関連情報データベース12dに登録する。この時、関連解析処理部14は、薬理活性値の下限値ε=−10.0を設け、その下限値ε以下の薬理活性値を有する化合物については紐付け処理及び登録処理を行わない。   Next, in step S2, the association analysis processing unit 14 associates the gene expression pattern and the pharmacological activity value with the same cancer cell name in the expression information and the cancer cell name in the compound information as a key, and the associated information database. Register to 12d. At this time, the related analysis processing unit 14 sets the lower limit value ε = −10.0 of the pharmacological activity value, and does not perform the linking process and the registration process for compounds having a pharmacological activity value equal to or lower than the lower limit value ε.

次に、ステップS3において、FP算出処理部15は、化合物情報データベース12bに格納されている全化合物の化合物構造情報を参照して、部分パス情報データベース12cから参照する各部分パスを含むか否かを示すFPを算出する。次に、同ステップS3において、FP分類処理部16は、FP算出処理部15が算出したFPの類似度(化合物間における)を算出してクラスタリングを行い、対象化合物に類似する化合物を含むクラスタを特定する。また、FP分類処理部16は、特定したクラスタ(化合物群)に属する化合物δと対象化合物δtargetの類似度t(δ,δtarget)についても算出する。 Next, in step S3, the FP calculation processing unit 15 refers to the compound structure information of all the compounds stored in the compound information database 12b and includes each partial path referred to from the partial path information database 12c. Is calculated. Next, in step S3, the FP classification processing unit 16 calculates the FP similarity (between compounds) calculated by the FP calculation processing unit 15, performs clustering, and selects a cluster including a compound similar to the target compound. Identify. The FP classification processing unit 16 also calculates the similarity t (δ, δ target ) between the compound δ belonging to the specified cluster (compound group) and the target compound δ target .

次に、ステップS4において、活性値推定処理部17は、細胞ωに対する対象化合物の薬理活性値を、ステップ3で特定したクラスタに属する化合物の薬理活性値と類似度t(δ,δtarget)に基づいて、細胞ωに対する対象化合物δtargetの推定活性値h(ω,δtarget)を算出する。尚、上記類似度t(δ,δtarget)は、FP分類処理部16がステップS3で算出した類似度である。 Next, in step S4, the activity value estimation processing unit 17 sets the pharmacological activity value of the target compound with respect to the cell ω to the similarity t (δ, δ target ) with the pharmacological activity value of the compound belonging to the cluster specified in step 3. Based on this, an estimated activity value h (ω, δ target ) of the target compound δ target for the cell ω is calculated. The similarity t (δ, δ target ) is the similarity calculated by the FP classification processing unit 16 in step S3.

次に、ステップS5において、ポイント算出処理部18は、活性値推定処理部17が算出した推定活性値hを基に、遺伝子毎に対象化合物δtargetに対する関連性の高さを示す推定ポイントpを算出する。次に、ステップS6において、遺伝子推定処理部19は、ポイント算出処理部18が算出した各遺伝子の推定ポイントpの絶対値をとり降順に並べ替えた遺伝子群を遺伝子推定結果(ランキング)として出力する。 Next, in step S5, the point calculation processing unit 18 calculates an estimated point p indicating the degree of relevance to the target compound δ target for each gene based on the estimated activity value h calculated by the activity value estimation processing unit 17. calculate. Next, in step S6, the gene estimation processing unit 19 outputs, as gene estimation results (ranking), gene groups obtained by taking the absolute values of the estimated points p of the genes calculated by the point calculation processing unit 18 and rearranging them in descending order. .

以上に示したように、本実施形態の遺伝子推定装置1によれば、例えば癌細胞に対する薬理活性が未定の化合物を対象化合物として、その対象化合物の薬理活性に関連があると期待できる遺伝子を推定することができる。また、従来のように標的タンパクに関する情報を必要としない。   As described above, according to the gene estimation device 1 of the present embodiment, for example, a compound having an undetermined pharmacological activity against cancer cells is used as a target compound, and a gene that can be expected to be related to the pharmacological activity of the target compound is estimated. can do. Moreover, the information regarding a target protein is not required unlike the past.

[実証実験]
上述した遺伝子の推定方法を実データにより実験シミュレーションした結果について以下に説明する。まず、利用した対象データについて説明する。この実験シミュレーションにおいては、対象データは結果の確認が行いやすいよう、あらかじめ文献情報として化合物と遺伝子の関連性が示されているものを扱う。
[Demonstration experiment]
The results of an experimental simulation of the gene estimation method described above using actual data will be described below. First, the target data used will be described. In this experimental simulation, the target data are those in which the relationship between the compound and the gene is shown in advance as document information so that the result can be easily confirmed.

図6は、実験シミュレーションの対象データとなった対象化合物と期待される関連遺伝子の一覧を示す図である。すなわち、図6に示した化合物を対象化合物として、図6の各化合物へ関連するとして示されている関連遺伝子を推定することができれば、本実施形態における遺伝子の推定方法の有効性を示すことができる。   FIG. 6 is a diagram showing a list of target compounds that are the target data of the experimental simulation and expected related genes. That is, if the related gene shown as related to each compound in FIG. 6 can be estimated using the compound shown in FIG. 6 as a target compound, the effectiveness of the gene estimation method in this embodiment can be shown. it can.

図6において、右端の符号(+及び−)は、化合物の薬理活性と遺伝子の発現量の相関の方向性を示している。(+)であれば遺伝子の発現量が多い細胞ほど化合物に対する薬理活性が高く、遺伝子の発現量が少ないほど化合物の薬理活性が低いことを意味する。また、(−)であれば遺伝子の発現量が少ない細胞ほど化合物に対する薬理活性が高く、遺伝子の発現量が高いほど薬理活性が低いことを意味する。また、( )のように空白の場合は遺伝子の発現量の多寡と化合物の薬理活性に関連がないことを意味している。   In FIG. 6, the symbols (+ and −) at the right end indicate the direction of the correlation between the pharmacological activity of the compound and the expression level of the gene. If it is (+), it means that the higher the gene expression level, the higher the pharmacological activity for the compound, and the lower the gene expression level, the lower the pharmacological activity of the compound. Moreover, if it is (-), it will mean that the pharmacological activity with respect to a compound is so high that the expression level of a gene is small, and pharmacological activity is so low that the expression level of a gene is high. In addition, a blank as in () means that there is no relation between the gene expression level and the pharmacological activity of the compound.

一般に大半の遺伝子と化合物の間には関連がないと考えられるが、図6に示す化合物5−fluorouracilが、関連遺伝子Tymidylate synthaseを標的タンパクとしながら、左記タンパクを生成する遺伝子TYMSの発現量と活性が無関係であると指摘されているので対象遺伝子として採用している。   Although it is generally considered that there is no association between most genes and compounds, the expression level and activity of the gene TYMS that produces the protein shown on the left in the compound 5-fluorouracil shown in FIG. 6 while the related gene thymidylate synthase is the target protein Since it is pointed out that it is irrelevant, it is adopted as a target gene.

以下、本実験において用いた対象データの詳細について説明する。NCIがA−Matrixとして公開している60種の癌細胞に対する4463種の化合物(データが存在するのは4444種)の薬理活性値の内、以下に示す図6に示した対象化合物の内の2つの化合物を取り除いたデータを用いる。図6に示した対象化合物の内の2つは、「NSC NO.656238」と「Doxorubicin (NSC NO.123127)」である。尚、今回は、図6に示した対象化合物の内の他の2つの化合物「5−fluorouracil」と「CPT−11」についてはA−Matrixからデータを除外していないが、好ましくは除外した方がよい。   The details of the target data used in this experiment will be described below. Among the pharmacological activity values of 4463 compounds (4444 types for which data exists) against 60 types of cancer cells published by NCI as A-Matrix, among the target compounds shown in FIG. Data excluding two compounds is used. Two of the target compounds shown in FIG. 6 are “NSC NO. 656238” and “Doxorubicin (NSC NO. 123127)”. In this case, the data for the other two compounds “5-fluorouracil” and “CPT-11” of the target compounds shown in FIG. 6 are not excluded from A-Matrix, but preferably excluded. Is good.

また、本実験ではNICが公開している4463種の化合物の化合物構造情報を利用する。以降ではこの化合物構造情報全体を化合物の母集団と称する。また、発現情報と化合物情報の紐付け処理においては、上述したように下限値ε=−10.0とすることで、各細胞に活性値を持つ全ての化合物を解析対象として採用した。これは、化合物からの遺伝子推定においては、活性の低い化合物であっても結果に影響を与えるためである。   In this experiment, compound structure information of 4463 kinds of compounds published by NIC is used. Hereinafter, the entire compound structure information is referred to as a compound population. Further, in the process of associating the expression information with the compound information, as described above, by setting the lower limit value ε = −10.0, all compounds having an activity value in each cell were employed as the analysis target. This is because, in gene estimation from a compound, even a compound with low activity affects the result.

以上の対象データを基に、上述した遺伝子推定手法により推定を行った結果について以下に説明する。図7は、実験シミュレーションの結果を示す図である。図7において、順位Aは、全遺伝子集合(母集団)における順位(全9365種)を示す。また、順位BはEST(Expressed Sequence TAG)を除いた遺伝子集合における順位(全4845種)を示す。ここで、ESTとは、機能がわかっていないが、構造が解明されている遺伝子の断片をデータベース化したものである。また、順位CはデータセットのDescriptionにESTと記載されているレコードを除き、10種以上の癌細胞に対して発現情報がある遺伝子集合の順位(全4134種)を意味する。   Based on the above target data, the result of estimation by the gene estimation method described above will be described below. FIG. 7 is a diagram showing the results of an experimental simulation. In FIG. 7, the rank A indicates the rank (total of 9365 species) in the entire gene set (population). Rank B indicates the rank (4845 species in total) in the gene set excluding EST (Expressed Sequence TAG). Here, the EST is a database of gene fragments whose functions are not known but whose structures are elucidated. In addition, the rank C means the rank of gene sets (4134 types in total) having expression information for 10 or more types of cancer cells, except for the record described as EST in the description of the data set.

また、図7において、「推定」の列の値は推定ポイント値であり、順位A〜Cの列においてカッコ内のパーセント値はランキングを遺伝子数で割った比率である。図7の推定ポイント値から明らかなように、「NSC NO.656238」の化合物に関連する遺伝子群及び、「5−fluorouracil」のDPYDに関連する遺伝子については、遺伝子に対する推定ポイントの絶対値が相対的に高く、その遺伝子がランキングの上位に現れている。これらの「NSC NO.656238」及び「5−fluorouracil」のDPYDに関連する遺伝子群は、データセットを公開しているNCIが出している論文中で関連があるとされているデータであり、本実施形態における遺伝子推定装置1が推定する推定ポイント及びランキングが有効なものであるといえる。   In FIG. 7, the values in the “estimated” column are estimated point values, and the percent values in parentheses in the ranks A to C are ratios obtained by dividing the ranking by the number of genes. As is clear from the estimated point value of FIG. 7, the absolute value of the estimated point relative to the gene is related to the gene group related to the compound of “NSC NO. 656238” and the gene related to DPYD of “5-fluorouracil”. The gene is high, and the gene appears at the top of the ranking. These gene groups related to DPYD of “NSC NO. 656238” and “5-fluorouracil” are data that are considered to be related in the papers published by NCI that publishes the data set. It can be said that the estimation points and rankings estimated by the gene estimation device 1 in the embodiment are effective.

図7に示すように、全体として比率が順位A≒順位B>順位Cとなっている。つまり10種以下の癌細胞にしか発現情報が存在しない遺伝子を、本実施形態における遺伝子推定装置1は選択的に上位に選んでいることを意味する。そこで、順位Cでは、10種以下の癌細胞にしか発現情報が存在しない遺伝子を除いた遺伝子集合に対して遺伝子の推定を行った。この順位Cのランキングを見て分かるように、データセットを公開しているNCIが出している論文中で関連があるとされているデータ(「NSC NO.656238」及び「5−fluorouracil」のDPYDのデータ)については、かなり上位のランキングで遺伝子を推定できた(比率では3%未満)。このように、本実施形態の遺伝子推定装置1は、10種以下の癌細胞にしか発現情報が存在しない遺伝子を除いた遺伝子集合に対して遺伝子の推定を行うことで、推定の精度を向上することができる。   As shown in FIG. 7, the overall ratio is rank A≈rank B> rank C. That is, it means that the gene estimation apparatus 1 in the present embodiment selectively selects a gene whose expression information exists only in 10 or less types of cancer cells. Therefore, in rank C, genes were estimated for a gene set excluding genes whose expression information exists only in 10 or less types of cancer cells. As can be seen from the ranking of the ranking C, the data (NSC NO. The data were estimated at a fairly high ranking (the ratio was less than 3%). Thus, the gene estimation apparatus 1 of the present embodiment improves the accuracy of estimation by estimating genes for a gene set excluding genes whose expression information exists only in 10 or less types of cancer cells. be able to.

それに対してNCIのデータセットとは無関係な論文で関係があるとされる化合物と遺伝子の組合せについては、図7に示すように、ある程度推定ができたもの(比率で15%未満)とできなかったもの(比率で15%以上)があった。   On the other hand, as shown in FIG. 7, the combination of a compound and a gene that is considered to be related in a paper unrelated to the NCI data set can be estimated to a certain extent (less than 15% in proportion). (A ratio of 15% or more).

また、上記の実験で遺伝子推定装置1が、図6に示していない遺伝子であって上位にランキングした遺伝子と化合物の関連について述べている論文がないか検索したところ、化合物「5−fluorouracil」と順位Cでランキング35(0.8%)の遺伝子や、化合物「5−fluorouracil」と順位Cでランキング42(1.0%)の遺伝子について関連がある旨を記載している論文や文献が各々1つずつ見つかっている。同様に、化合物「CTP−11」と順位Cでランキング75(1.8%)の遺伝子について関連がある旨を記載している論文や文献が3つ見つかっている。更に、化合物「CTP−11」と順位Cでランキング82(2.0%)の遺伝子について関連がある旨を記載している論文や文献が4つ見つかっている。   Further, in the above experiment, when the gene estimation device 1 searches for a paper that is not shown in FIG. 6 and describes a relation between a gene ranked higher and a compound, the compound “5-fluorouracil” is obtained. Articles and documents describing that there is a relationship between genes ranked 35 (0.8%) in rank C and the compound "5-fluorouracil" and genes ranked 42 (1.0%) in rank C. One by one is found. Similarly, three papers and literatures describing that there is a relation between the compound “CTP-11” and the gene ranked 75 (1.8%) in rank C have been found. Furthermore, four papers and literatures have been found that state that there is a relationship between the compound “CTP-11” and the gene of ranking 82 (2.0%) in rank C.

このように、本実施形態の遺伝子推定装置1が上位のランキングと推定した関連遺伝子と化合物の関連性を裏付けるような論文や文献が発見されたことも、本実施形態の遺伝子推定装置1における遺伝子の推定手法が有効であることを示しているといえる。   As described above, the discovery of papers and documents that support the relationship between the related gene and the compound estimated by the gene estimation device 1 of the present embodiment as the highest ranking is also the gene in the gene estimation device 1 of the present embodiment. It can be said that this estimation method is effective.

また、上述した実施形態において、図1に示した遺伝子推定装置1の各処理部は、ハードウェアとしてはメモリ及びCPU(中央演算装置)により構成され、各処理部の機能を実現する為のプログラムをメモリに読み込んでCPUが実行することによりその機能を実現させるものである。また、これに限定されるものではなく、各処理部の一部の処理又は全部の処理を専用のハードウェアにより実現されるものであってもよい。   Further, in the above-described embodiment, each processing unit of the gene estimation device 1 shown in FIG. 1 includes a memory and a CPU (central processing unit) as hardware, and a program for realizing the functions of each processing unit Is loaded into the memory and executed by the CPU to realize its function. In addition, the present invention is not limited to this, and part or all of the processing of each processing unit may be realized by dedicated hardware.

また、上記メモリは、ハードディスク装置や光磁気ディスク装置、フラッシュメモリ等の不揮発性のメモリや、CD−ROM等の読み出しのみが可能な記録媒体、RAM(Random Access Memory)のような揮発性のメモリ、あるいはこれらの組合せによるコンピュータ読み取り、書き込み可能な記録媒体より構成されるものとする。   The memory includes a nonvolatile memory such as a hard disk device, a magneto-optical disk device, and a flash memory, a recording medium such as a CD-ROM that can only be read, and a volatile memory such as a RAM (Random Access Memory). Or a computer-readable / writable recording medium based on a combination thereof.

また、図1に示した遺伝子推定装置1の各処理部は、上述したようにコンピュータがプログラムを実行することによって実現しているが、そのプログラムをコンピュータに供給するための手段、例えばかかるプログラムを記録したコンピュータ読み取り可能な記録媒体又はかかるプログラムを伝送する伝送媒体も本発明の実施形態として適用することができる。また、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体等のプログラムプロダクトも本発明の実施形態として適用することができる。上記のプログラム、記録媒体、伝送媒体及びプログラムプロダクトは、本発明の範疇に含まれる。   Further, each processing unit of the gene estimation apparatus 1 shown in FIG. 1 is realized by the computer executing the program as described above, but means for supplying the program to the computer, for example, such a program is provided. A recorded computer-readable recording medium or a transmission medium for transmitting such a program can also be applied as an embodiment of the present invention. A program product such as a computer-readable recording medium in which the above program is recorded can also be applied as an embodiment of the present invention. The above program, recording medium, transmission medium, and program product are included in the scope of the present invention.

また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。   The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system serving as a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding a program for a certain period of time are also included.

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。   The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.

また、上記プログラムは、前述した機能の一部を実現する為のものであっても良い。さらに、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。   The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.

本実施形態における遺伝子推定装置の概略構成を示す図である。It is a figure which shows schematic structure of the gene estimation apparatus in this embodiment. 図1に示した発現情報データベース12aのデータ構成例を示す図である。It is a figure which shows the data structural example of the expression information database 12a shown in FIG. 図1に示した化合物情報データベース12bに格納される化合物情報のデータ構成例を示す図である。It is a figure which shows the data structural example of the compound information stored in the compound information database 12b shown in FIG. 図1に示した部分バス情報データベース12cのデータ構成例を示す図である。It is a figure which shows the data structural example of the partial bus information database 12c shown in FIG. 図1に示した遺伝子推定装置1における対象化合物の関連遺伝子を推定する処理を示すフロー図である。It is a flowchart which shows the process which estimates the related gene of the target compound in the gene estimation apparatus 1 shown in FIG. 実験シミュレーションの対象データとなった対象化合物と期待される関連遺伝子の一覧を示す図である。It is a figure which shows the list | wrist of the target gene used as the object data of experiment simulation, and the related gene expected. 実験シミュレーションの結果を示す図である。It is a figure which shows the result of experiment simulation.

符号の説明Explanation of symbols

1 遺伝子推定装置
2 ネットワーク
3 NCIデータベース
11 制御部
12 データベース
12a 発現情報データベース
12b 化合物情報データベース
12c 部分パス情報データベース
12d 関連情報データベース
13 情報登録処理部
14 関連解析処理部
15 FP算出処理部
16 FP分類処理部
17 活性値推定処理部
18 ポイント算出処理部
19 遺伝子推定処理部
20 送受信処理部
DESCRIPTION OF SYMBOLS 1 Gene estimation apparatus 2 Network 3 NCI database 11 Control part 12 Database 12a Expression information database 12b Compound information database 12c Partial path information database 12d Related information database 13 Information registration process part 14 Related analysis process part 15 FP calculation process part 16 FP classification process Unit 17 activity value estimation processing unit 18 point calculation processing unit 19 gene estimation processing unit 20 transmission / reception processing unit

Claims (6)

複数種類の細胞の各々に対する複数種類の第1の化合物の薬理活性の活性値に関する情報である化合物情報、及び前記第1の化合物の化学構造に関する情報である化合物構造情報を格納する化合物情報格納手段と、
前記複数種類の細胞の各々に対する複数種類の各遺伝子の発現量を含む発現情報を格納する発現情報格納手段と、
種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報格納手段と、
前記化合物情報格納手段から参照する前記化合物情報と前記部分パス情報格納手段から参照する前記部分パスに関する情報とを基に、前記第1の化合物と薬理活性が未知である第2の化合物とに対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出手段と、
前記部分パス有無情報の類似する前記第1の化合物をまとめてクラスタとして分類し、分類後のクラスタの中から、前記部分パス有無情報に基づいて前記第2の化合物に化学構造が最も類似している前記第1の化合物が属するクラスタを類似クラスタとして特定し、特定した前記類似クラスタに属する前記第1の化合物の各々と前記第2の化合物との類似度を算出する分類処理手段と、
前記類似クラスタに属する全ての前記第1の化合物について、前記類似度で重み付けされた前記細胞に対する前記薬理活性の活性値の加重平均を、前記第2の化合物の前記細胞に対する薬理活性の推定活性値として算出する活性値推定手段と、
前記各遺伝子について、前記各細胞に対する薬理活性の前記推定活性値と前記発現量との積算値の平均値を推定ポイントとして算出する遺伝子推定手段とを具備することを特徴とする遺伝子推定装置。
Compound information storage means for storing compound information, which is information regarding the activity value of the pharmacological activity of the plurality of types of first compounds for each of a plurality of types of cells, and compound structure information, which is information about the chemical structure of the first compound. When,
Expression information storage means for storing expression information including expression levels of each of a plurality of types of genes for each of the plurality of types of cells;
Partial path information storage means for storing information on partial paths extracted from the connection of some elements in the structures of various compounds;
Based on the compound information referenced from the compound information storage means and the information on the partial path referenced from the partial path information storage means, the first compound and the second compound whose pharmacological activity is unknown Calculating means for calculating partial path presence / absence information indicating whether or not the partial path is included;
The first compounds having similar partial path presence / absence information are collectively classified as clusters, and the chemical structure of the second compound is most similar to the second compound based on the partial path presence / absence information from the classified clusters. Classification processing means for identifying a cluster to which the first compound belongs as a similar cluster, and calculating a similarity between each of the first compounds belonging to the identified similar cluster and the second compound;
For all the first compounds belonging to the similar cluster, the weighted average of the activity values of the pharmacological activity for the cells weighted by the similarity is calculated as the estimated activity value of the pharmacological activity of the second compound for the cells. Activity value estimation means to calculate as
A gene estimation device comprising: a gene estimation unit that calculates an average value of an integrated value of the estimated activity value of the pharmacological activity for each cell and the expression level for each gene as an estimated point .
前記分類処理手段は、前記第1の化合物をδ 1 とし、前記第2の化合物をδ 2 とし、化合物δに対する前記部分パス有無情報をベクトル変数f(δ)としたときに、式1により前記類似度を算出することを特徴とする請求項1に記載の遺伝子推定装置。
Figure 0004578201
When the first compound is δ 1 , the second compound is δ 2, and the partial path presence / absence information for the compound δ is a vector variable f (δ), The gene estimation apparatus according to claim 1, wherein similarity is calculated .
Figure 0004578201
前記活性値推定手段は、前記細胞をωとし、前記細胞ωに対する前記第1の化合物δ 1 の薬理活性値をa(ω、δ 1 )とし、前記第1の化合物δ 1 と前記第2の化合物δ 2 との前記類似度をt(δ 1 、δ 2 )とし、クラスタをψとし、λをパラメータとしたときに、式2により前記推定活性値を算出することを特徴とする請求項2に記載の遺伝子推定装置。
Figure 0004578201
The activity value estimating means sets the cell to ω, sets the pharmacological activity value of the first compound δ 1 for the cell ω to a (ω, δ 1 ), and sets the first compound δ 1 and the second compound 3. The estimated activity value is calculated by Equation 2 when the similarity with the compound δ 2 is t (δ 1 , δ 2 ), the cluster is ψ, and λ is a parameter. The gene estimation apparatus according to 1.
Figure 0004578201
前記遺伝子推定手段は、前記遺伝子をγとし、前記細胞ωに対する前記第2の化合物δThe gene estimation means sets the gene as γ, and the second compound δ for the cell ω. 22 の前記推定活性値をh(ω、δThe estimated activity value of h (ω, δ 22 )とし、前記遺伝子γの発現量をcγとし、前記細胞の集合をΩとしたときに、式3により前記推定ポイントを算出することを特徴とする請求項3に記載の遺伝子推定装置。The gene estimation apparatus according to claim 3, wherein the estimation point is calculated by Equation 3 when the expression level of the gene γ is cγ and the set of cells is Ω.
Figure 0004578201
Figure 0004578201
複数種類の細胞の各々に対する複数種類の第1の化合物の薬理活性の活性値に関する情報である化合物情報、及び前記第1の化合物の化学構造に関する情報である化合物構造情報を格納する化合物情報格納手段と、前記複数種類の細胞の各々に対する複数種類の各遺伝子の発現量を含む発現情報を格納する発現情報格納手段と、種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報格納手段と、算出手段と、分類処理手段と、活性値推定手段と、遺伝子推定手段とを具備する遺伝子推定装置を用いた遺伝子推定方法であって、Compound information storage means for storing compound information, which is information regarding the activity value of the pharmacological activity of the plurality of types of first compounds for each of a plurality of types of cells, and compound structure information, which is information about the chemical structure of the first compound. And expression information storage means for storing expression information including expression levels of each of the plurality of types of genes for each of the plurality of types of cells, and information on partial paths from which connections of some elements in the structures of various compounds are extracted A gene estimation method using a gene estimation apparatus comprising a partial path information storage means, a calculation means, a classification processing means, an activity value estimation means, and a gene estimation means,
前記算出手段が、前記化合物情報格納手段から参照する前記化合物情報と前記部分パス情報格納手段から参照する前記部分パスに関する情報とを基に、前記第1の化合物と薬理活性が未知である第2の化合物とに対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出ステップと、A second pharmacological activity that is unknown to the first compound based on the compound information referenced from the compound information storage means and the information on the partial path referenced from the partial path information storage means; A calculation step of calculating partial path presence / absence information indicating whether the partial path is included with respect to the compound of
前記分類処理手段が、前記部分パス有無情報の類似する前記第1の化合物をまとめてクラスタとして分類し、分類後のクラスタの中から、前記部分パス有無情報に基づいて前記第2の化合物に化学構造が最も類似している前記第1の化合物が属するクラスタを類似クラスタとして特定し、特定した前記類似クラスタに属する前記第1の化合物の各々と前記第2の化合物との類似度を算出する分類処理ステップと、The classification processing unit collectively classifies the first compounds having similar partial path presence / absence information as clusters, and chemically classifies the second compounds from the classified clusters based on the partial path presence / absence information. Classification that specifies a cluster to which the first compound having the most similar structure belongs as a similar cluster, and calculates a similarity between each of the first compounds belonging to the specified similar cluster and the second compound Processing steps;
前記活性値推定手段が、前記類似クラスタに属する全ての前記第1の化合物について、前記類似度で重み付けされた前記細胞に対する前記薬理活性の活性値の加重平均を、前記第2の化合物の前記細胞に対する薬理活性の推定活性値として算出する活性値推定ステップと、The activity value estimation means calculates the weighted average of the activity values of the pharmacological activity for the cells weighted by the similarity for all the first compounds belonging to the similar cluster, and the cells of the second compound An activity value estimation step for calculating an estimated activity value of pharmacological activity against
前記遺伝子推定手段が、前記各遺伝子について、前記各細胞に対する薬理活性の前記推定活性値と前記発現量との積算値の平均値を推定ポイントとして算出する遺伝子推定ステップとを有することを特徴とする遺伝子推定方法。The gene estimation means includes a gene estimation step for calculating an average value of an integrated value of the estimated activity value of the pharmacological activity for each cell and the expression level for each gene as an estimated point. Gene estimation method.
コンピュータを、Computer
複数種類の細胞の各々に対する複数種類の第1の化合物の薬理活性の活性値に関する情報である化合物情報、及び前記第1の化合物の化学構造に関する情報である化合物構造情報を格納する化合物情報格納手段と、Compound information storage means for storing compound information, which is information regarding the activity value of the pharmacological activity of the plurality of types of first compounds for each of a plurality of types of cells, and compound structure information, which is information about the chemical structure of the first compound. When,
前記複数種類の細胞の各々に対する複数種類の各遺伝子の発現量を含む発現情報を格納する発現情報格納手段と、Expression information storage means for storing expression information including expression levels of each of a plurality of types of genes for each of the plurality of types of cells;
種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報格納手段と、Partial path information storage means for storing information on partial paths extracted from the connection of some elements in the structures of various compounds;
前記化合物情報格納手段から参照する前記化合物情報と前記部分パス情報格納手段から参照する前記部分パスに関する情報とを基に、前記第1の化合物と薬理活性が未知である第2の化合物とに対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出手段と、Based on the compound information referenced from the compound information storage means and the information on the partial path referenced from the partial path information storage means, the first compound and the second compound whose pharmacological activity is unknown Calculating means for calculating partial path presence / absence information indicating whether or not the partial path is included;
前記部分パス有無情報の類似する前記第1の化合物をまとめてクラスタとして分類し、分類後のクラスタの中から、前記部分パス有無情報に基づいて前記第2の化合物に化学構造が最も類似している前記第1の化合物が属するクラスタを類似クラスタとして特定し、特定した前記類似クラスタに属する前記第1の化合物の各々と前記第2の化合物との類似度を算出する分類処理手段と、The first compounds having similar partial path presence / absence information are collectively classified as clusters, and the chemical structure of the second compound is most similar to the second compound based on the partial path presence / absence information from the classified clusters. Classification processing means for identifying a cluster to which the first compound belongs as a similar cluster, and calculating a similarity between each of the first compounds belonging to the identified similar cluster and the second compound;
前記類似クラスタに属する全ての前記第1の化合物について、前記類似度で重み付けされた前記細胞に対する前記薬理活性の活性値の加重平均を、前記第2の化合物の前記細胞に対する薬理活性の推定活性値として算出する活性値推定手段と、For all the first compounds belonging to the similar cluster, the weighted average of the activity values of the pharmacological activity for the cells weighted by the similarity is calculated as the estimated activity value of the pharmacological activity of the second compound for the cells. Activity value estimation means to calculate as
前記各遺伝子について、前記各細胞に対する薬理活性の前記推定活性値と前記発現量との積算値の平均値を推定ポイントとして算出する遺伝子推定手段として機能させるプログラム。A program for causing each gene to function as gene estimation means for calculating an average value of integrated values of the estimated activity value and the expression level of pharmacological activity for each cell as an estimated point.
JP2004296916A 2004-10-08 2004-10-08 Gene estimation apparatus, gene estimation method and program thereof Expired - Fee Related JP4578201B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004296916A JP4578201B2 (en) 2004-10-08 2004-10-08 Gene estimation apparatus, gene estimation method and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004296916A JP4578201B2 (en) 2004-10-08 2004-10-08 Gene estimation apparatus, gene estimation method and program thereof

Publications (2)

Publication Number Publication Date
JP2006107394A JP2006107394A (en) 2006-04-20
JP4578201B2 true JP4578201B2 (en) 2010-11-10

Family

ID=36377025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004296916A Expired - Fee Related JP4578201B2 (en) 2004-10-08 2004-10-08 Gene estimation apparatus, gene estimation method and program thereof

Country Status (1)

Country Link
JP (1) JP4578201B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009025045A1 (en) * 2007-08-22 2009-02-26 Fujitsu Limited Compound property prediction apparatus, property prediction method and program for executing the method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004185473A (en) * 2002-12-05 2004-07-02 Konica Minolta Holdings Inc Chemical substance database, chemical substance management system having it, chemical substance information usage, and data analogy program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004185473A (en) * 2002-12-05 2004-07-02 Konica Minolta Holdings Inc Chemical substance database, chemical substance management system having it, chemical substance information usage, and data analogy program

Also Published As

Publication number Publication date
JP2006107394A (en) 2006-04-20

Similar Documents

Publication Publication Date Title
Erisoglu et al. A new algorithm for initial cluster centers in k-means algorithm
Lange et al. Stability-based validation of clustering solutions
Phuong et al. Choosing SNPs using feature selection
Miele et al. Spatially constrained clustering of ecological networks
JP4578201B2 (en) Gene estimation apparatus, gene estimation method and program thereof
Ashtiani et al. Bandit-based local feature subset selection
Bannai et al. Efficiently finding regulatory elements using correlation with gene expression
Islamaj et al. A feature generation algorithm for sequences with application to splice-site prediction
US10409785B2 (en) Method for storing and presenting sequence data
Guénoche Clustering by vertex density in a graph
Pique-Regi et al. Sequential diagonal linear discriminant analysis (seqdlda) for microarray classification and gene identification
Meher et al. Evaluating the performance of sequence encoding schemes and machine learning methods for splice sites recognition
Prathibha et al. Feature selection for mining SNP from Leukaemia cancer using Genetic Algorithm with BCO
Islam et al. RESTRAC: reference sequence based space transformation for clustering
Ma et al. Clustering and re-clustering for pattern discovery in gene expression data
Truong et al. A repeated local search algorithm for biclustering of gene expression data
Dragomir et al. SOM‐based class discovery exploring the ICA‐reduced features of microarray expression profiles
Sarmah et al. An effective density-based hierarchical clustering technique to identify coherent patterns from gene expression data
Singh et al. Review of existing methods for finding initial clusters in K-means algorithm
JP4576194B2 (en) Compound structure estimation apparatus, compound structure estimation method and program thereof
EP4354444A1 (en) Method and system for identifying candidate genome sequecnces by estimating coverage
Mahdevar et al. Transcription factor binding sites detection by using alignment-based approach
Zhou et al. Ant-MST: An ant-based minimum spanning tree for gene expression data clustering
Karabulut et al. Assessment of clustering algorithms for unsupervised transcription factor binding site discovery
Peterson et al. Ga-facilitated knowledge discovery and pattern recognition optimization applied to the biochemistry of protein solvation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100810

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100824

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees