JP4578201B2 - Gene estimation apparatus, gene estimation method and program thereof - Google Patents
Gene estimation apparatus, gene estimation method and program thereof Download PDFInfo
- Publication number
- JP4578201B2 JP4578201B2 JP2004296916A JP2004296916A JP4578201B2 JP 4578201 B2 JP4578201 B2 JP 4578201B2 JP 2004296916 A JP2004296916 A JP 2004296916A JP 2004296916 A JP2004296916 A JP 2004296916A JP 4578201 B2 JP4578201 B2 JP 4578201B2
- Authority
- JP
- Japan
- Prior art keywords
- compound
- information
- gene
- partial path
- compounds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 108090000623 proteins and genes Proteins 0.000 title claims description 154
- 238000000034 method Methods 0.000 title claims description 34
- 150000001875 compounds Chemical class 0.000 claims description 271
- 230000014509 gene expression Effects 0.000 claims description 84
- 230000000144 pharmacologic effect Effects 0.000 claims description 75
- 238000012545 processing Methods 0.000 claims description 73
- 230000000694 effects Effects 0.000 claims description 58
- 238000004364 calculation method Methods 0.000 claims description 16
- 239000000126 substance Substances 0.000 claims description 12
- 229940126214 compound 3 Drugs 0.000 claims 1
- 206010028980 Neoplasm Diseases 0.000 description 33
- 201000011510 cancer Diseases 0.000 description 33
- 239000011159 matrix material Substances 0.000 description 17
- 230000005540 biological transmission Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 102000004169 proteins and genes Human genes 0.000 description 8
- GHASVSINZRGABV-UHFFFAOYSA-N Fluorouracil Chemical compound FC1=CNC(=O)NC1=O GHASVSINZRGABV-UHFFFAOYSA-N 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 229960002949 fluorouracil Drugs 0.000 description 6
- 238000004088 simulation Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 108091060211 Expressed sequence tag Proteins 0.000 description 4
- 238000012098 association analyses Methods 0.000 description 3
- 102100022334 Dihydropyrimidine dehydrogenase [NADP(+)] Human genes 0.000 description 2
- AOJJSUZBOXZQNB-TZSSRYMLSA-N Doxorubicin Chemical compound O([C@H]1C[C@@](O)(CC=2C(O)=C3C(=O)C=4C=CC=C(C=4C(=O)C3=C(O)C=21)OC)C(=O)CO)[C@H]1C[C@H](N)[C@H](O)[C@H](C)O1 AOJJSUZBOXZQNB-TZSSRYMLSA-N 0.000 description 2
- 101000902632 Homo sapiens Dihydropyrimidine dehydrogenase [NADP(+)] Proteins 0.000 description 2
- WKPZKRWOIZKCDN-WAQYZQTGSA-N ctp-11 Chemical compound Cl.C=1C=C2C(CC)=C3CN(C(C4=C([C@@](C(=O)OC4)(O)CC)C=4)=O)C=4C3=NC2=CC=1OC(=O)N(CC1)CCC1N1CCCCC1 WKPZKRWOIZKCDN-WAQYZQTGSA-N 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 101150084750 1 gene Proteins 0.000 description 1
- 101150040471 19 gene Proteins 0.000 description 1
- 229940126062 Compound A Drugs 0.000 description 1
- NLDMNSXOCDLTTB-UHFFFAOYSA-N Heterophylliin A Natural products O1C2COC(=O)C3=CC(O)=C(O)C(O)=C3C3=C(O)C(O)=C(O)C=C3C(=O)OC2C(OC(=O)C=2C=C(O)C(O)=C(O)C=2)C(O)C1OC(=O)C1=CC(O)=C(O)C(O)=C1 NLDMNSXOCDLTTB-UHFFFAOYSA-N 0.000 description 1
- 101000809797 Homo sapiens Thymidylate synthase Proteins 0.000 description 1
- 108010022394 Threonine synthase Proteins 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 125000004429 atom Chemical group 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000005907 cancer growth Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 229960004679 doxorubicin Drugs 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- UWKQSNNFCGGAFS-XIFFEERXSA-N irinotecan Chemical compound C1=C2C(CC)=C3CN(C(C4=C([C@@](C(=O)OC4)(O)CC)C=4)=O)C=4C3=NC2=CC=C1OC(=O)N(CC1)CCC1N1CCCCC1 UWKQSNNFCGGAFS-XIFFEERXSA-N 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、特定の化合物の薬理活性に関連がある遺伝子を推定する遺伝子推定装置、遺伝子推定方法及びそのプログラムに関するものである。 The present invention relates to a gene estimation apparatus, a gene estimation method and a program for estimating a gene related to the pharmacological activity of a specific compound.
ある化合物がどのような遺伝子に対して薬理活性を有するかを推定する手法として、化合物構造情報と、標的タンパクの探索からそのタンパクを生成する遺伝子を推定する技術が開示されている。また、NCI(National Cancer Institute)が公開しているデータベースとして、癌細胞の化合物に対する薬理活性値に関する情報であるA−Matirx、癌細胞の遺伝子発現パターンに関する情報であるT−Matrixがある。このA−Matirx及びT−Matirxのクラスタリング結果や、A−Matirx、T−Matrixから相関行列(AT−Matrix)を求めて既知となっている化合物と遺伝子の関係をAT−Matrixから見出す技術が開示されている(例えば、非特許文献1を参照。)。 As a technique for estimating which gene a compound has pharmacological activity, a technique for estimating a gene that generates the protein from compound structure information and searching for a target protein is disclosed. As databases published by NCI (National Cancer Institute), there are A-Matrix, which is information on pharmacological activity values for compounds of cancer cells, and T-Matrix, which is information on gene expression patterns of cancer cells. Disclosure results of A-Matrix and T-Matrix clustering and techniques for finding correlation matrix (AT-Matrix) from AT-Matrix from A-Matrix and T-Matrix and finding the relationship from AT-Matrix (For example, see Non-Patent Document 1).
しかし、上述した手法では、標的タンパクが必要となるため、標的タンパクが不明であるときには遺伝子の推定ができないという問題がある。また、非特許文献1の手法では、薬理活性が未知の化合物と遺伝子の関係については推定ができないという問題がある。
However, since the above-described method requires a target protein, there is a problem that a gene cannot be estimated when the target protein is unknown. Further, the method of Non-Patent
本発明は、上述した事情を考慮してなされたもので、標的タンパクや対象化合物の薬理活性が不明であっても、対象化合物の薬理活性に関連があると期待できる遺伝子を推定することができる遺伝子推定装置、遺伝子推定方法及びそのプログラムを提供することを目的とする。 The present invention has been made in consideration of the above-mentioned circumstances, and even if the pharmacological activity of the target protein or the target compound is unknown, a gene that can be expected to be related to the pharmacological activity of the target compound can be estimated. It is an object to provide a gene estimation device, a gene estimation method, and a program thereof.
この発明は、上述した課題を解決すべくなされたもので、本発明による遺伝子推定装置においては、複数種類の細胞の各々に対する複数種類の第1の化合物の薬理活性の活性値に関する情報である化合物情報、及び前記第1の化合物の化学構造に関する情報である化合物構造情報を格納する化合物情報格納手段と、前記複数種類の細胞の各々に対する複数種類の各遺伝子の発現量を含む発現情報を格納する発現情報格納手段と、種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報格納手段と、前記化合物情報格納手段から参照する前記化合物情報と前記部分パス情報格納手段から参照する前記部分パスに関する情報とを基に、前記第1の化合物と薬理活性が未知である第2の化合物とに対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出手段と、前記部分パス有無情報の類似する前記第1の化合物をまとめてクラスタとして分類し、分類後のクラスタの中から、前記部分パス有無情報に基づいて前記第2の化合物に化学構造が最も類似している前記第1の化合物が属するクラスタを類似クラスタとして特定し、特定した前記類似クラスタに属する前記第1の化合物の各々と前記第2の化合物との類似度を算出する分類処理手段と、前記類似クラスタに属する全ての前記第1の化合物について、前記類似度で重み付けされた前記細胞に対する前記薬理活性の活性値の加重平均を、前記第2の化合物の前記細胞に対する薬理活性の推定活性値として算出する活性値推定手段と、前記各遺伝子について、前記各細胞に対する薬理活性の前記推定活性値と前記発現量との積算値の平均値を推定ポイントとして算出する遺伝子推定手段とを具備することを特徴とする。 The present invention has been made to solve the above-described problems, and in the gene estimation apparatus according to the present invention, a compound that is information on the activity value of the pharmacological activity of a plurality of types of first compounds for each of a plurality of types of cells. Compound information storage means for storing information and compound structure information that is information relating to the chemical structure of the first compound, and expression information including expression levels of a plurality of types of genes for each of the plurality of types of cells. Expression information storage means, partial path information storage means for storing information on partial paths obtained by extracting connections of some elements in various compound structures, and the compound information and partial paths referred to by the compound information storage means Based on the information on the partial path referenced from the information storage means, the first compound and the second compound whose pharmacological activity is unknown, And calculating means for calculating partial path presence / absence information indicating whether or not the partial path is included, and classifying the first compounds having similar partial path presence / absence information together as a cluster. To identify a cluster to which the first compound having the most similar chemical structure to the second compound belongs as a similar cluster based on the partial path presence / absence information, and the first cluster belonging to the identified similar cluster Classification processing means for calculating the similarity between each of the compounds and the second compound, and the activity of the pharmacological activity on the cells weighted by the similarity for all the first compounds belonging to the similar cluster An activity value estimating means for calculating a weighted average of values as an estimated activity value of the pharmacological activity of the second compound with respect to the cells, and for each of the genes, Characterized by comprising a gene estimating means for calculating an average value of the integrated value of the estimated activity value and the expression level of pharmacological activity against cells as estimated point.
これにより、本発明による遺伝子推定装置は、薬理活性が未知である対象化合物に対して、対象化合物の薬理活性に関連があると期待できる遺伝子を推定することができる。 Thereby, the gene estimation apparatus by this invention can estimate the gene which can be anticipated with respect to the pharmacological activity of a target compound with respect to the target compound whose pharmacological activity is unknown.
また、本発明による遺伝子推定方法においては、複数種類の細胞の各々に対する複数種類の第1の化合物の薬理活性の活性値に関する情報である化合物情報、及び前記第1の化合物の化学構造に関する情報である化合物構造情報を格納する化合物情報格納手段と、前記複数種類の細胞の各々に対する複数種類の各遺伝子の発現量を含む発現情報を格納する発現情報格納手段と、種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報格納手段と、算出手段と、分類処理手段と、活性値推定手段と、遺伝子推定手段とを具備する遺伝子推定装置を用いた遺伝子推定方法であって、前記算出手段が、前記化合物情報格納手段から参照する前記化合物情報と前記部分パス情報格納手段から参照する前記部分パスに関する情報とを基に、前記第1の化合物と薬理活性が未知である第2の化合物とに対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出ステップと、前記分類処理手段が、前記部分パス有無情報の類似する前記第1の化合物をまとめてクラスタとして分類し、分類後のクラスタの中から、前記部分パス有無情報に基づいて前記第2の化合物に化学構造が最も類似している前記第1の化合物が属するクラスタを類似クラスタとして特定し、特定した前記類似クラスタに属する前記第1の化合物の各々と前記第2の化合物との類似度を算出する分類処理ステップと、前記活性値推定手段が、前記類似クラスタに属する全ての前記第1の化合物について、前記類似度で重み付けされた前記細胞に対する前記薬理活性の活性値の加重平均を、前記第2の化合物の前記細胞に対する薬理活性の推定活性値として算出する活性値推定ステップと、前記遺伝子推定手段が、前記各遺伝子について、前記各細胞に対する薬理活性の前記推定活性値と前記発現量との積算値の平均値を推定ポイントとして算出する遺伝子推定ステップとを有することを特徴とする。 In the gene estimation method according to the present invention , the compound information which is information on the activity value of the pharmacological activity of the plurality of types of first compounds for each of the plurality of types of cells, and the information on the chemical structure of the first compound. Compound information storage means for storing certain compound structure information, expression information storage means for storing expression information including expression levels of a plurality of types of genes for each of the plurality of types of cells, and a part of the structures of various compounds A gene using a gene estimation device comprising: partial path information storage means for storing information on partial paths from which element connections are extracted, calculation means, classification processing means, activity value estimation means, and gene estimation means In the estimation method, the calculation means refers to the compound information referred from the compound information storage means and the partial path information storage means. A calculation step of calculating partial path presence / absence information indicating whether or not the partial path is included in the first compound and the second compound whose pharmacological activity is unknown based on the information regarding the partial path; The classification processing unit collectively classifies the first compounds having similar partial path presence / absence information as clusters, and selects the second compound from the classified clusters based on the partial path presence / absence information. The cluster to which the first compound having the most similar chemical structure belongs is specified as a similar cluster, and the similarity between each of the first compounds belonging to the specified similar cluster and the second compound is calculated. The pharmacology for the cells weighted by the similarity for all the first compounds belonging to the similar cluster, wherein the classification step and the activity value estimation means An activity value estimation step for calculating a weighted average of sex activity values as an estimated activity value of the pharmacological activity of the second compound for the cells; and the gene estimation means for each gene, the pharmacological activity for each cell. And a gene estimation step of calculating an average value of integrated values of the estimated activity value and the expression level as an estimation point .
また、本発明によるプログラムは、コンピュータを、複数種類の細胞の各々に対する複数種類の第1の化合物の薬理活性の活性値に関する情報である化合物情報、及び前記第1の化合物の化学構造に関する情報である化合物構造情報を格納する化合物情報格納手段と、前記複数種類の細胞の各々に対する複数種類の各遺伝子の発現量を含む発現情報を格納する発現情報格納手段と、種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報格納手段と、前記化合物情報格納手段から参照する前記化合物情報と前記部分パス情報格納手段から参照する前記部分パスに関する情報とを基に、前記第1の化合物と薬理活性が未知である第2の化合物とに対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出手段と、前記部分パス有無情報の類似する前記第1の化合物をまとめてクラスタとして分類し、分類後のクラスタの中から、前記部分パス有無情報に基づいて前記第2の化合物に化学構造が最も類似している前記第1の化合物が属するクラスタを類似クラスタとして特定し、特定した前記類似クラスタに属する前記第1の化合物の各々と前記第2の化合物との類似度を算出する分類処理手段と、前記類似クラスタに属する全ての前記第1の化合物について、前記類似度で重み付けされた前記細胞に対する前記薬理活性の活性値の加重平均を、前記第2の化合物の前記細胞に対する薬理活性の推定活性値として算出する活性値推定手段と、前記各遺伝子について、前記各細胞に対する薬理活性の前記推定活性値と前記発現量との積算値の平均値を推定ポイントとして算出する遺伝子推定手段として機能させるプログラムである。
In addition, the program according to the present invention allows a computer to store compound information that is information on the activity value of the pharmacological activity of a plurality of types of first compounds for each of a plurality of types of cells, and information about the chemical structure of the first compound. Compound information storage means for storing certain compound structure information, expression information storage means for storing expression information including expression levels of a plurality of types of genes for each of the plurality of types of cells, and a part of the structures of various compounds Based on the partial path information storage means for storing information on the partial path from which the element connections are extracted, the compound information referenced from the compound information storage means, and the information on the partial path referenced from the partial path information storage means. A portion indicating whether or not the partial path is included for the first compound and the second compound whose pharmacological activity is unknown And classifying the first compounds having similar partial path presence / absence information together as a cluster, and classifying the second compound based on the partial path presence / absence information from the classified clusters. A cluster to which the first compound having the most similar chemical structure to the compound of 1 belongs is identified as a similar cluster, and the similarity between each of the first compounds belonging to the identified similar cluster and the second compound A weighting average of the activity values of the pharmacological activities for the cells weighted by the similarity for all the first compounds belonging to the similar cluster, and a classification processing means for calculating An activity value estimating means for calculating an estimated activity value of pharmacological activity against cells; and for each gene, the estimated activity value of pharmacological activity against each cell and The average value of the integrated value of the expression level is a program to function as a gene estimating means for calculating as the estimated point.
本発明による遺伝子推定装置、遺伝子推定方法及びそのプログラムによれば、薬理活性が未知である対象化合物に対して、対象化合物の薬理活性に関連があると期待できる遺伝子を推定することができる。 According to the gene estimation apparatus, gene estimation method, and program thereof according to the present invention, a gene that can be expected to be related to the pharmacological activity of a target compound can be estimated for a target compound whose pharmacological activity is unknown.
以下、本発明の実施の形態を説明する。
本発明の一実施形態における遺伝子推定装置は、薬理活性が未定の化合物(どのような細胞に対する効き目があるか未定の化合物)に対して、その化合物の薬理活性に関連があると期待できる遺伝子を推定する処理を行う装置であり、以下にその概略構成について説明を行う。図1は、本実施形態における遺伝子推定装置の概略構成を示す図である。
Embodiments of the present invention will be described below.
The gene estimation apparatus according to one embodiment of the present invention provides a gene that can be expected to be related to a pharmacological activity of a compound with an undetermined pharmacological activity (a compound that has no effect on the cell). This is a device for performing the estimation process, and the schematic configuration will be described below. FIG. 1 is a diagram illustrating a schematic configuration of a gene estimation device according to the present embodiment.
図1において、1は、遺伝子推定装置であり、例えば癌細胞に対する薬理活性が未定の化合物を対象化合物(第2の化合物)として、その対象化合物の薬理活性に関連があると期待できる遺伝子(以下、関連遺伝子とする)を推定する処理を行う。2は、ネットワークであり、例えばインターネットなどの通信網である。3は、NCI(National Cancer Institute)データベースであり、本実施形態で利用するNICが公開しているデータベースである。具体的には、NCIデータベース3は、癌細胞の遺伝子発現パターンに関する情報である発現情報と、癌細胞に対する化合物の薬理活性値に関する情報である化合物情報とが少なくとも格納されているデータベースである。
In FIG. 1,
遺伝子推定装置1は、ネットワーク2を介してNCIデータベース3から、上述した発現情報及び化合物情報を取得して利用することで、対象化合物の関連遺伝子を推定する処理を行う。尚、遺伝子推定装置1は、図示していないが、マウスやキーボードなどの入力装置及び、CRT(Cathode Ray Tube)や液晶ディスプレイなどの表示装置を具備する。
The
ここで、発現情報における、癌細胞の遺伝子発現パターンとは、複数種類の癌細胞毎に複数種類の遺伝子別の発現量(遺伝子が機能しているか否かを示す量)に関する情報である。すなわち、特定の癌細胞においては、特定の遺伝子の組合せ(遺伝子パターン)が発現している。また、以下の説明において、化合物情報とは、複数種類の癌細胞毎に複数種類の化合物別の薬理活性値を示す情報であり、化合物構造情報とは、化合物の構造に関する情報であると定義する。尚、発現情報及び化合物情報については具体例を後述する。 Here, the gene expression pattern of cancer cells in the expression information is information relating to the expression level (amount indicating whether or not a gene is functioning) for each of a plurality of types of cancer cells. That is, specific gene combinations (gene patterns) are expressed in specific cancer cells. In the following description, compound information is information indicating the pharmacological activity value for each of a plurality of types of compounds for each of a plurality of types of cancer cells, and the compound structure information is defined as information relating to the structure of the compound. . Specific examples of expression information and compound information will be described later.
次に、遺伝子推定装置1の機能構成について説明する。11は、制御部であり、遺伝子推定装置1内の各処理部やデータの流れの制御を行う。12は、データベースであり、上述した発現情報を格納する発現情報データベース12aと、上述した化合物情報及び化合物構造情報を格納する化合物情報データベース12bと、種々の化合物の一部のパス(元素のつながり)を抽出した部分パスにID(識別子)を付与した情報を格納する部分パス情報データベース12cと、上記発現情報と化合物情報を基に紐付けられる遺伝子の発現パターンと化合物の関連に関する情報である関連情報を格納する関連情報データベース12dから構成される。
Next, the functional configuration of the
13は、情報登録処理部であり、後述する送受信処理部20及びネットワーク2を介してNCIデータベース3から発現情報を取得して発現情報データベース12aに登録する処理と、NCIデータベース3から化合物情報を取得して化合物情報データベース12bに登録する処理を行う。本実施形態における情報登録処理部13は、NCIデータベース3から癌細胞の遺伝子発現パターンに関する情報であるT−Matrix(発現情報)を取得して、必要な情報を発現情報データベース12aに登録する。また、情報登録処理部13は、NCIデータベース3から癌細胞の化合物に対する薬理活性値に関する情報であるA−Matrix(化合物情報)を取得して、必要な情報を化合物情報データベース12bに登録する。
ここで、上述した発現情報データベース12a及び化合物情報データベース12bに格納する発現情報及び化合物情報のデータ構成例を図2及び図3を用いて説明する。図2は、図1に示した発現情報データベース12aのデータ構成例を示す図である。図2において、CLIDはClone IDから接頭辞“IMAGE:”を抜いた数値であり、各遺伝子に固有の数値である。NAMEはClone IDのcDNA(Type)に紐付く遺伝子名称ある。また、「ME:MALME−3M」や「ME:SK−MEL−28」は、癌細胞の名称である。また、癌細胞の名称の下には各遺伝子に対する発現量が示されている。尚、これらのCLIDやNAMEはNCIデータベース3から参照するT−Matrix(発現情報)で規定されている。また、図2に示す各遺伝子の発現量は、NCIデータベース3において60種の中から代表的な7種の癌細胞を抜き出し、その平均と分散値で正規化した値である。
Here, a data configuration example of the expression information and the compound information stored in the expression information database 12a and the
図3は、図1に示した化合物情報データベース12bに格納される化合物情報のデータ構成例を示す図である。
図3において、“NSC No.”は、化合物を特定する数値である。また、図2と同様に、「ME−MALME−3M」や「ME−SK−MEL−28」などは、癌細胞の名称である。また、癌細胞の名称の下には各化合物に対する薬理活性値が示されている。この薬理活性値は、例えば化合物δの細胞ωに対する薬理活性値a(ω,δ)は以下の式1で算出される。
FIG. 3 is a diagram showing a data configuration example of compound information stored in the
In FIG. 3, “NSC No.” is a numerical value that identifies a compound. Similarly to FIG. 2, “ME-MALME-3M”, “ME-SK-MEL-28”, and the like are names of cancer cells. Moreover, the pharmacological activity value with respect to each compound is shown under the name of a cancer cell. As for this pharmacological activity value, for example, the pharmacological activity value a (ω, δ) of the compound δ with respect to the cell ω is calculated by the following
上述した式1において、GI50とは増殖抑制濃度であり、ここでは、癌細胞ωの増殖が50%の確率で抑制される化合物δの濃度を意味する。aaverageとasdはそれぞれ指定された化合物に対する癌細胞群の薬理活性値の平均と分散である。これにより、式1で求まる薬理活性値a(ω,δ)は、癌細胞ωに対する化合物δの増殖抑制の効果を意味し、化合物毎に正規化された値となる。また、化合物情報データベース12bには、化合物構造情報として、化合物の名称、構造情報(化学記号及びその接続関係の情報)、構造図(2次元又は3次元の分子構造図)などの情報が“NSC No.”に関連付けられて格納されている。
In the above-described
また、情報登録処理部13は、部分パス情報データベース12cに対する情報登録処理も行う。具体的には、情報登録処理部13は、実存する化合物の集団において、9パス以下の連結パスであって出現頻度1.0〜0.002までのパスを部分パスとして算出し、部分パス情報データベース12cに登録する。これにより、図4に示すようなデータ構成の部分バス情報データベース12cが構成される。図4は、図1に示した部分バス情報データベース12cのデータ構成例を示す図である。図2に示すように、各部分パスに対してID(識別番号)が付与されている。尚、本実施形態において化合物情報データベース12bに格納されている化合物は約4000種類の化合物であり、部分パス情報データベース12cには、約1万個の部分パスに関する情報が格納されている。尚、情報登録処理部13における部分パスの算出時には水素原子についてのパスを除外している。
The information
14は、関連解析処理部であり、発現情報データベース12aから発現情報、化合物情報データベース12bから化合物情報を参照して、同じ癌細胞における遺伝子発現パターンと薬理活性を有する化合物の関連に関する情報である関連情報を生成して、関連情報データベース12dに登録する。具体的には、関連解析処理部14は、上述した発現情報の癌細胞名と化合物情報の癌細胞名が同じものをキーに遺伝子発現パターンと薬理活性値を紐付けて、関連情報データベース12dに登録する。この際、関連解析処理部14は、薬理活性値の下限値εを設け、その下限値ε以下の薬理活性値を有する化合物については紐付け処理及び登録処理を行わない。本実施形態では、下限値ε=−10.0とする。
15は、FP算出処理部であり、化合物情報データベース12bに格納されている全化合物の化合物構造情報を参照して、部分パス情報データベース12cから参照する各部分パスを含むか否かを「1」、「0」で示した数字の羅列であるFP(Finger Print)を算出する。具体的には、FP算出処理部15は、化合物δのFP(部分パス有無情報)として、構造特徴であるベクトル変数f(δ)(=FP)を以下に示す式2、3を計算することにより算出する。
ここで、式2、3に示したθ、Θ、Π(δ)について説明する。本実施形態では、化合物を無向グラフと考え、原子を点、結合を辺とみなし、f(δ)の各要素を特定のパスθ(以下、部分パスθとする)を含むか否かの2値として扱う。図2に示したように、部分パスθは例えば「C−C=O」といった形で表現できる。ベクトル変数f(δ)の各要素に対応する部分パスθの集合Θを部分パス情報データベース12cに格納される全部分パスの集合とする。また、化合物δの全パスの内、集合Θに含まれるパス集合をΠ(δ)とすると、以下の式4、5が成り立つ。尚、本実施形態の部分パスθの個数(約1万個)と、FPであるベクトル変数f(δ)に含まれる「1」及び「0」の個数は同数となる。
Here, θ, Θ, and Π (δ) shown in
16は、FP分類処理部であり、化合物情報データベース12bに格納される化合物のクラスタリング処理や、クラスタリング後のクラスタの中から対象化合物に最も類似する化合物を含むクラスタを特定する処理や、特定したクラスタに属する化合物と対象化合物の類似度を算出する処理などを行う。
まず、FP分類処理部16は、化合物情報データベース12bに格納される化合物δ1、δ2間のFPの類似度を算出してクラスタリングを行うことで、化合物情報データベース12bに格納される化合物のFPを分類する。具体的には、FP分類処理部16は、化合物δ1、δ2間の類似度t(δ1、δ2)を、以下の「Tanimoto measure」である式6に基づいて算出する。
First, the FP
ここでFP分類処理部16が式6により求める類似度t(δ1、δ2)の値域は0≦t(δ1、δ2)≦1であり、二つの化合物がFP上で同一の構造特徴を持つ場合に類似度tの値は1となる。
Here, the range of the similarity t (δ 1 , δ 2 ) obtained by the FP
次に、FP分類処理部16は、式6で求めた類似度tに基づくクラスタリングを行う。具体的には、FP分類処理部16は、類似度t(δ1、δ2)に基づいて化合物の集合(以下、集合Ψとする)をクラスタリングする。本実施形態のFP分類処理部16が、クラスタリングに用いるアルゴリズムは例えば「Hieratical nearest neighborロジック」である。このロジックでは、集合Ψの要素間における類似度tの最大値である最大距離Tの半分以下の類似度となる要素群を一つのクラスタとして扱う。
Next, the FP
次に、FP分類処理部16は、対象化合物をδtargetとすると、細胞ωが持つ化合物のクラスタの中から対象化合物δtargetと構造上最も類似した化合物δが属するクラスタψを以下の式7〜9を用いて決定する。尚、式7に示すように、細胞ωに活性があるとみなされている全化合物の集団をΨとする。
Next, assuming that the target compound is δ target , the FP
次に、FP分類処理部16は、自身が決定したクラスタψに属する全化合物δに対して上述した式6を用いて対象化合物δtargetとの類似度t(δ,δtarget)を求める。
Next, the FP
17は、活性値推定処理部であり、細胞ωに対する対象化合物の薬理活性値を、その対象化合物に類似する化合物の薬理活性値に基づいて推定する。具体的には、活性値推定処理部17は、FP分類処理部16が決定したクラスタψに属する全化合物に対して、以下の式10の計算を行うことにより、細胞ωに対する対象化合物δtargetの推定活性値h(ω,δtarget)を算出する。この式10に示すように、活性値推定処理部17は、決定したクラスタψに属する全化合物に対して、上述したFP分類処理部16が求めた類似度t(δ,δtarget)と式1で求めた薬理活性値aの積算値を求めて、それを類似度t(δ,δtarget)の総和で割ることで推定活性値h(ω,δtarget)を算出する。
上述した式10において、λは、パラメータであり、このλの値を大きくとると、化合物間の類似度をより厳しく評価することができる。本実施形態ではλ=4.0とする。 In Equation 10 described above, λ is a parameter, and when the value of λ is increased, the similarity between compounds can be evaluated more strictly. In this embodiment, λ = 4.0.
18は、ポイント算出処理部であり、活性値推定処理部17が算出した推定活性値hを基に、遺伝子毎に対象化合物δtargetに対する関連性の高さを示す推定ポイントを算出する。具体的には、ポイント算出処理部18は、以下の式11を利用して、活性値推定処理部17が算出した推定活性値h(ω,δtarget)と、ある遺伝子γの発現量(T−Matrixで正規化後の値)cの積算値の平均値を、遺伝子γの対象化合物δtargetに対する推定ポイントp(δtarget,γ)として算出する。
19は、遺伝子推定処理部であり、ポイント算出処理部18が算出した各遺伝子の推定ポイントpの絶対値をとり降順に並べ替えたものを遺伝子推定結果として出力する。すなわち、推定ポイントpが高い遺伝子ほど、対象化合物の薬理活性に関連があると期待できる遺伝子(関連遺伝子)であると推定している。推定ポイントpは、正規化された推定活性値hと発現量cの積から算出するため、推定活性値hが小さい(すなわち負に大きい)対象化合物であっても、発現量cの絶対値が大きい場合には最終的な推定ポイントpに大きく影響を与える。
20は、送受信処理部であり、ネットワーク2を介してNCIデータベース3と通信を行う。尚、本実施形態の遺伝子推定装置1においては、外部にあるNCIデータベース3に格納されるデータを利用するため、ネットワーク2に接続する機能を有しているが、この限りではなく、外部のデータベースを利用することなく、例えば入力手段から内部のデータベース12に予め発現情報や化合物情報を登録して格納していてもよい。この場合には、遺伝子推定装置1は、ネットワーク2に接続するための機能を必要としない。
A transmission /
次に、図1に示した遺伝子推定装置1における対象化合物の関連遺伝子を推定する処理について、具体例を示して説明する。図5は、図1に示した遺伝子推定装置1における対象化合物の関連遺伝子を推定する処理を示すフロー図である。
Next, the process of estimating the relevant gene of the target compound in the
図5に示すように、ステップS1において、情報登録処理部13は、ネットワーク2を介してNCIデータベース3から発現情報及び化合物情報を取得し、それぞれ発現情報データベース12a及び化合物情報データベース12bに登録する。具体的には、情報登録処理部13は、NCIデータベース3から発現情報として60種の癌細胞に対する4463種の化合物(データが存在するのは4444種)の薬理活性値を含むデータテーブルであるA−Matrixを取得して、発現情報データベース12aに登録する。
As shown in FIG. 5, in step S1, the information
また、情報登録処理部13は、60種の癌細胞に対する9704種の遺伝子(データが存在するのは9073種)の発現量を含むデータテーブルであるT−Matrixを取得して、化合物情報データベース12bに登録する。但し、情報登録処理部13は、T−Matrixと上記A−Matrixとでは同一の癌細胞における細胞名の表記法が異なるのでどちらかの細胞名に統一する変換を行う(例:ME:MALME−3M → MEL−MALME−3M)。
Further, the information
また、情報登録処理部13は、NCIデータベース3から4463種の化合物構造情報を取得して、化合物情報データベース12bに登録する。また、情報登録処理部13は、部分パス情報データベース12cに対して部分パスに関する情報を登録する。
Further, the information
次に、ステップS2において、関連解析処理部14は、上述した発現情報の癌細胞名と化合物情報の癌細胞名が同じものをキーに遺伝子発現パターンと薬理活性値を紐付けて、関連情報データベース12dに登録する。この時、関連解析処理部14は、薬理活性値の下限値ε=−10.0を設け、その下限値ε以下の薬理活性値を有する化合物については紐付け処理及び登録処理を行わない。
Next, in step S2, the association
次に、ステップS3において、FP算出処理部15は、化合物情報データベース12bに格納されている全化合物の化合物構造情報を参照して、部分パス情報データベース12cから参照する各部分パスを含むか否かを示すFPを算出する。次に、同ステップS3において、FP分類処理部16は、FP算出処理部15が算出したFPの類似度(化合物間における)を算出してクラスタリングを行い、対象化合物に類似する化合物を含むクラスタを特定する。また、FP分類処理部16は、特定したクラスタ(化合物群)に属する化合物δと対象化合物δtargetの類似度t(δ,δtarget)についても算出する。
Next, in step S3, the FP
次に、ステップS4において、活性値推定処理部17は、細胞ωに対する対象化合物の薬理活性値を、ステップ3で特定したクラスタに属する化合物の薬理活性値と類似度t(δ,δtarget)に基づいて、細胞ωに対する対象化合物δtargetの推定活性値h(ω,δtarget)を算出する。尚、上記類似度t(δ,δtarget)は、FP分類処理部16がステップS3で算出した類似度である。
Next, in step S4, the activity value
次に、ステップS5において、ポイント算出処理部18は、活性値推定処理部17が算出した推定活性値hを基に、遺伝子毎に対象化合物δtargetに対する関連性の高さを示す推定ポイントpを算出する。次に、ステップS6において、遺伝子推定処理部19は、ポイント算出処理部18が算出した各遺伝子の推定ポイントpの絶対値をとり降順に並べ替えた遺伝子群を遺伝子推定結果(ランキング)として出力する。
Next, in step S5, the point
以上に示したように、本実施形態の遺伝子推定装置1によれば、例えば癌細胞に対する薬理活性が未定の化合物を対象化合物として、その対象化合物の薬理活性に関連があると期待できる遺伝子を推定することができる。また、従来のように標的タンパクに関する情報を必要としない。
As described above, according to the
[実証実験]
上述した遺伝子の推定方法を実データにより実験シミュレーションした結果について以下に説明する。まず、利用した対象データについて説明する。この実験シミュレーションにおいては、対象データは結果の確認が行いやすいよう、あらかじめ文献情報として化合物と遺伝子の関連性が示されているものを扱う。
[Demonstration experiment]
The results of an experimental simulation of the gene estimation method described above using actual data will be described below. First, the target data used will be described. In this experimental simulation, the target data are those in which the relationship between the compound and the gene is shown in advance as document information so that the result can be easily confirmed.
図6は、実験シミュレーションの対象データとなった対象化合物と期待される関連遺伝子の一覧を示す図である。すなわち、図6に示した化合物を対象化合物として、図6の各化合物へ関連するとして示されている関連遺伝子を推定することができれば、本実施形態における遺伝子の推定方法の有効性を示すことができる。 FIG. 6 is a diagram showing a list of target compounds that are the target data of the experimental simulation and expected related genes. That is, if the related gene shown as related to each compound in FIG. 6 can be estimated using the compound shown in FIG. 6 as a target compound, the effectiveness of the gene estimation method in this embodiment can be shown. it can.
図6において、右端の符号(+及び−)は、化合物の薬理活性と遺伝子の発現量の相関の方向性を示している。(+)であれば遺伝子の発現量が多い細胞ほど化合物に対する薬理活性が高く、遺伝子の発現量が少ないほど化合物の薬理活性が低いことを意味する。また、(−)であれば遺伝子の発現量が少ない細胞ほど化合物に対する薬理活性が高く、遺伝子の発現量が高いほど薬理活性が低いことを意味する。また、( )のように空白の場合は遺伝子の発現量の多寡と化合物の薬理活性に関連がないことを意味している。 In FIG. 6, the symbols (+ and −) at the right end indicate the direction of the correlation between the pharmacological activity of the compound and the expression level of the gene. If it is (+), it means that the higher the gene expression level, the higher the pharmacological activity for the compound, and the lower the gene expression level, the lower the pharmacological activity of the compound. Moreover, if it is (-), it will mean that the pharmacological activity with respect to a compound is so high that the expression level of a gene is small, and pharmacological activity is so low that the expression level of a gene is high. In addition, a blank as in () means that there is no relation between the gene expression level and the pharmacological activity of the compound.
一般に大半の遺伝子と化合物の間には関連がないと考えられるが、図6に示す化合物5−fluorouracilが、関連遺伝子Tymidylate synthaseを標的タンパクとしながら、左記タンパクを生成する遺伝子TYMSの発現量と活性が無関係であると指摘されているので対象遺伝子として採用している。 Although it is generally considered that there is no association between most genes and compounds, the expression level and activity of the gene TYMS that produces the protein shown on the left in the compound 5-fluorouracil shown in FIG. 6 while the related gene thymidylate synthase is the target protein Since it is pointed out that it is irrelevant, it is adopted as a target gene.
以下、本実験において用いた対象データの詳細について説明する。NCIがA−Matrixとして公開している60種の癌細胞に対する4463種の化合物(データが存在するのは4444種)の薬理活性値の内、以下に示す図6に示した対象化合物の内の2つの化合物を取り除いたデータを用いる。図6に示した対象化合物の内の2つは、「NSC NO.656238」と「Doxorubicin (NSC NO.123127)」である。尚、今回は、図6に示した対象化合物の内の他の2つの化合物「5−fluorouracil」と「CPT−11」についてはA−Matrixからデータを除外していないが、好ましくは除外した方がよい。 The details of the target data used in this experiment will be described below. Among the pharmacological activity values of 4463 compounds (4444 types for which data exists) against 60 types of cancer cells published by NCI as A-Matrix, among the target compounds shown in FIG. Data excluding two compounds is used. Two of the target compounds shown in FIG. 6 are “NSC NO. 656238” and “Doxorubicin (NSC NO. 123127)”. In this case, the data for the other two compounds “5-fluorouracil” and “CPT-11” of the target compounds shown in FIG. 6 are not excluded from A-Matrix, but preferably excluded. Is good.
また、本実験ではNICが公開している4463種の化合物の化合物構造情報を利用する。以降ではこの化合物構造情報全体を化合物の母集団と称する。また、発現情報と化合物情報の紐付け処理においては、上述したように下限値ε=−10.0とすることで、各細胞に活性値を持つ全ての化合物を解析対象として採用した。これは、化合物からの遺伝子推定においては、活性の低い化合物であっても結果に影響を与えるためである。 In this experiment, compound structure information of 4463 kinds of compounds published by NIC is used. Hereinafter, the entire compound structure information is referred to as a compound population. Further, in the process of associating the expression information with the compound information, as described above, by setting the lower limit value ε = −10.0, all compounds having an activity value in each cell were employed as the analysis target. This is because, in gene estimation from a compound, even a compound with low activity affects the result.
以上の対象データを基に、上述した遺伝子推定手法により推定を行った結果について以下に説明する。図7は、実験シミュレーションの結果を示す図である。図7において、順位Aは、全遺伝子集合(母集団)における順位(全9365種)を示す。また、順位BはEST(Expressed Sequence TAG)を除いた遺伝子集合における順位(全4845種)を示す。ここで、ESTとは、機能がわかっていないが、構造が解明されている遺伝子の断片をデータベース化したものである。また、順位CはデータセットのDescriptionにESTと記載されているレコードを除き、10種以上の癌細胞に対して発現情報がある遺伝子集合の順位(全4134種)を意味する。 Based on the above target data, the result of estimation by the gene estimation method described above will be described below. FIG. 7 is a diagram showing the results of an experimental simulation. In FIG. 7, the rank A indicates the rank (total of 9365 species) in the entire gene set (population). Rank B indicates the rank (4845 species in total) in the gene set excluding EST (Expressed Sequence TAG). Here, the EST is a database of gene fragments whose functions are not known but whose structures are elucidated. In addition, the rank C means the rank of gene sets (4134 types in total) having expression information for 10 or more types of cancer cells, except for the record described as EST in the description of the data set.
また、図7において、「推定」の列の値は推定ポイント値であり、順位A〜Cの列においてカッコ内のパーセント値はランキングを遺伝子数で割った比率である。図7の推定ポイント値から明らかなように、「NSC NO.656238」の化合物に関連する遺伝子群及び、「5−fluorouracil」のDPYDに関連する遺伝子については、遺伝子に対する推定ポイントの絶対値が相対的に高く、その遺伝子がランキングの上位に現れている。これらの「NSC NO.656238」及び「5−fluorouracil」のDPYDに関連する遺伝子群は、データセットを公開しているNCIが出している論文中で関連があるとされているデータであり、本実施形態における遺伝子推定装置1が推定する推定ポイント及びランキングが有効なものであるといえる。
In FIG. 7, the values in the “estimated” column are estimated point values, and the percent values in parentheses in the ranks A to C are ratios obtained by dividing the ranking by the number of genes. As is clear from the estimated point value of FIG. 7, the absolute value of the estimated point relative to the gene is related to the gene group related to the compound of “NSC NO. 656238” and the gene related to DPYD of “5-fluorouracil”. The gene is high, and the gene appears at the top of the ranking. These gene groups related to DPYD of “NSC NO. 656238” and “5-fluorouracil” are data that are considered to be related in the papers published by NCI that publishes the data set. It can be said that the estimation points and rankings estimated by the
図7に示すように、全体として比率が順位A≒順位B>順位Cとなっている。つまり10種以下の癌細胞にしか発現情報が存在しない遺伝子を、本実施形態における遺伝子推定装置1は選択的に上位に選んでいることを意味する。そこで、順位Cでは、10種以下の癌細胞にしか発現情報が存在しない遺伝子を除いた遺伝子集合に対して遺伝子の推定を行った。この順位Cのランキングを見て分かるように、データセットを公開しているNCIが出している論文中で関連があるとされているデータ(「NSC NO.656238」及び「5−fluorouracil」のDPYDのデータ)については、かなり上位のランキングで遺伝子を推定できた(比率では3%未満)。このように、本実施形態の遺伝子推定装置1は、10種以下の癌細胞にしか発現情報が存在しない遺伝子を除いた遺伝子集合に対して遺伝子の推定を行うことで、推定の精度を向上することができる。
As shown in FIG. 7, the overall ratio is rank A≈rank B> rank C. That is, it means that the
それに対してNCIのデータセットとは無関係な論文で関係があるとされる化合物と遺伝子の組合せについては、図7に示すように、ある程度推定ができたもの(比率で15%未満)とできなかったもの(比率で15%以上)があった。 On the other hand, as shown in FIG. 7, the combination of a compound and a gene that is considered to be related in a paper unrelated to the NCI data set can be estimated to a certain extent (less than 15% in proportion). (A ratio of 15% or more).
また、上記の実験で遺伝子推定装置1が、図6に示していない遺伝子であって上位にランキングした遺伝子と化合物の関連について述べている論文がないか検索したところ、化合物「5−fluorouracil」と順位Cでランキング35(0.8%)の遺伝子や、化合物「5−fluorouracil」と順位Cでランキング42(1.0%)の遺伝子について関連がある旨を記載している論文や文献が各々1つずつ見つかっている。同様に、化合物「CTP−11」と順位Cでランキング75(1.8%)の遺伝子について関連がある旨を記載している論文や文献が3つ見つかっている。更に、化合物「CTP−11」と順位Cでランキング82(2.0%)の遺伝子について関連がある旨を記載している論文や文献が4つ見つかっている。
Further, in the above experiment, when the
このように、本実施形態の遺伝子推定装置1が上位のランキングと推定した関連遺伝子と化合物の関連性を裏付けるような論文や文献が発見されたことも、本実施形態の遺伝子推定装置1における遺伝子の推定手法が有効であることを示しているといえる。
As described above, the discovery of papers and documents that support the relationship between the related gene and the compound estimated by the
また、上述した実施形態において、図1に示した遺伝子推定装置1の各処理部は、ハードウェアとしてはメモリ及びCPU(中央演算装置)により構成され、各処理部の機能を実現する為のプログラムをメモリに読み込んでCPUが実行することによりその機能を実現させるものである。また、これに限定されるものではなく、各処理部の一部の処理又は全部の処理を専用のハードウェアにより実現されるものであってもよい。
Further, in the above-described embodiment, each processing unit of the
また、上記メモリは、ハードディスク装置や光磁気ディスク装置、フラッシュメモリ等の不揮発性のメモリや、CD−ROM等の読み出しのみが可能な記録媒体、RAM(Random Access Memory)のような揮発性のメモリ、あるいはこれらの組合せによるコンピュータ読み取り、書き込み可能な記録媒体より構成されるものとする。 The memory includes a nonvolatile memory such as a hard disk device, a magneto-optical disk device, and a flash memory, a recording medium such as a CD-ROM that can only be read, and a volatile memory such as a RAM (Random Access Memory). Or a computer-readable / writable recording medium based on a combination thereof.
また、図1に示した遺伝子推定装置1の各処理部は、上述したようにコンピュータがプログラムを実行することによって実現しているが、そのプログラムをコンピュータに供給するための手段、例えばかかるプログラムを記録したコンピュータ読み取り可能な記録媒体又はかかるプログラムを伝送する伝送媒体も本発明の実施形態として適用することができる。また、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体等のプログラムプロダクトも本発明の実施形態として適用することができる。上記のプログラム、記録媒体、伝送媒体及びプログラムプロダクトは、本発明の範疇に含まれる。
Further, each processing unit of the
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。 The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system serving as a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding a program for a certain period of time are also included.
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。 The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
また、上記プログラムは、前述した機能の一部を実現する為のものであっても良い。さらに、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
1 遺伝子推定装置
2 ネットワーク
3 NCIデータベース
11 制御部
12 データベース
12a 発現情報データベース
12b 化合物情報データベース
12c 部分パス情報データベース
12d 関連情報データベース
13 情報登録処理部
14 関連解析処理部
15 FP算出処理部
16 FP分類処理部
17 活性値推定処理部
18 ポイント算出処理部
19 遺伝子推定処理部
20 送受信処理部
DESCRIPTION OF
Claims (6)
前記複数種類の細胞の各々に対する複数種類の各遺伝子の発現量を含む発現情報を格納する発現情報格納手段と、
種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報格納手段と、
前記化合物情報格納手段から参照する前記化合物情報と前記部分パス情報格納手段から参照する前記部分パスに関する情報とを基に、前記第1の化合物と薬理活性が未知である第2の化合物とに対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出手段と、
前記部分パス有無情報の類似する前記第1の化合物をまとめてクラスタとして分類し、分類後のクラスタの中から、前記部分パス有無情報に基づいて前記第2の化合物に化学構造が最も類似している前記第1の化合物が属するクラスタを類似クラスタとして特定し、特定した前記類似クラスタに属する前記第1の化合物の各々と前記第2の化合物との類似度を算出する分類処理手段と、
前記類似クラスタに属する全ての前記第1の化合物について、前記類似度で重み付けされた前記細胞に対する前記薬理活性の活性値の加重平均を、前記第2の化合物の前記細胞に対する薬理活性の推定活性値として算出する活性値推定手段と、
前記各遺伝子について、前記各細胞に対する薬理活性の前記推定活性値と前記発現量との積算値の平均値を推定ポイントとして算出する遺伝子推定手段とを具備することを特徴とする遺伝子推定装置。 Compound information storage means for storing compound information, which is information regarding the activity value of the pharmacological activity of the plurality of types of first compounds for each of a plurality of types of cells, and compound structure information, which is information about the chemical structure of the first compound. When,
Expression information storage means for storing expression information including expression levels of each of a plurality of types of genes for each of the plurality of types of cells;
Partial path information storage means for storing information on partial paths extracted from the connection of some elements in the structures of various compounds;
Based on the compound information referenced from the compound information storage means and the information on the partial path referenced from the partial path information storage means, the first compound and the second compound whose pharmacological activity is unknown Calculating means for calculating partial path presence / absence information indicating whether or not the partial path is included;
The first compounds having similar partial path presence / absence information are collectively classified as clusters, and the chemical structure of the second compound is most similar to the second compound based on the partial path presence / absence information from the classified clusters. Classification processing means for identifying a cluster to which the first compound belongs as a similar cluster, and calculating a similarity between each of the first compounds belonging to the identified similar cluster and the second compound;
For all the first compounds belonging to the similar cluster, the weighted average of the activity values of the pharmacological activity for the cells weighted by the similarity is calculated as the estimated activity value of the pharmacological activity of the second compound for the cells. Activity value estimation means to calculate as
A gene estimation device comprising: a gene estimation unit that calculates an average value of an integrated value of the estimated activity value of the pharmacological activity for each cell and the expression level for each gene as an estimated point .
前記算出手段が、前記化合物情報格納手段から参照する前記化合物情報と前記部分パス情報格納手段から参照する前記部分パスに関する情報とを基に、前記第1の化合物と薬理活性が未知である第2の化合物とに対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出ステップと、A second pharmacological activity that is unknown to the first compound based on the compound information referenced from the compound information storage means and the information on the partial path referenced from the partial path information storage means; A calculation step of calculating partial path presence / absence information indicating whether the partial path is included with respect to the compound of
前記分類処理手段が、前記部分パス有無情報の類似する前記第1の化合物をまとめてクラスタとして分類し、分類後のクラスタの中から、前記部分パス有無情報に基づいて前記第2の化合物に化学構造が最も類似している前記第1の化合物が属するクラスタを類似クラスタとして特定し、特定した前記類似クラスタに属する前記第1の化合物の各々と前記第2の化合物との類似度を算出する分類処理ステップと、The classification processing unit collectively classifies the first compounds having similar partial path presence / absence information as clusters, and chemically classifies the second compounds from the classified clusters based on the partial path presence / absence information. Classification that specifies a cluster to which the first compound having the most similar structure belongs as a similar cluster, and calculates a similarity between each of the first compounds belonging to the specified similar cluster and the second compound Processing steps;
前記活性値推定手段が、前記類似クラスタに属する全ての前記第1の化合物について、前記類似度で重み付けされた前記細胞に対する前記薬理活性の活性値の加重平均を、前記第2の化合物の前記細胞に対する薬理活性の推定活性値として算出する活性値推定ステップと、The activity value estimation means calculates the weighted average of the activity values of the pharmacological activity for the cells weighted by the similarity for all the first compounds belonging to the similar cluster, and the cells of the second compound An activity value estimation step for calculating an estimated activity value of pharmacological activity against
前記遺伝子推定手段が、前記各遺伝子について、前記各細胞に対する薬理活性の前記推定活性値と前記発現量との積算値の平均値を推定ポイントとして算出する遺伝子推定ステップとを有することを特徴とする遺伝子推定方法。The gene estimation means includes a gene estimation step for calculating an average value of an integrated value of the estimated activity value of the pharmacological activity for each cell and the expression level for each gene as an estimated point. Gene estimation method.
複数種類の細胞の各々に対する複数種類の第1の化合物の薬理活性の活性値に関する情報である化合物情報、及び前記第1の化合物の化学構造に関する情報である化合物構造情報を格納する化合物情報格納手段と、Compound information storage means for storing compound information, which is information regarding the activity value of the pharmacological activity of the plurality of types of first compounds for each of a plurality of types of cells, and compound structure information, which is information about the chemical structure of the first compound. When,
前記複数種類の細胞の各々に対する複数種類の各遺伝子の発現量を含む発現情報を格納する発現情報格納手段と、Expression information storage means for storing expression information including expression levels of each of a plurality of types of genes for each of the plurality of types of cells;
種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報格納手段と、Partial path information storage means for storing information on partial paths extracted from the connection of some elements in the structures of various compounds;
前記化合物情報格納手段から参照する前記化合物情報と前記部分パス情報格納手段から参照する前記部分パスに関する情報とを基に、前記第1の化合物と薬理活性が未知である第2の化合物とに対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出手段と、Based on the compound information referenced from the compound information storage means and the information on the partial path referenced from the partial path information storage means, the first compound and the second compound whose pharmacological activity is unknown Calculating means for calculating partial path presence / absence information indicating whether or not the partial path is included;
前記部分パス有無情報の類似する前記第1の化合物をまとめてクラスタとして分類し、分類後のクラスタの中から、前記部分パス有無情報に基づいて前記第2の化合物に化学構造が最も類似している前記第1の化合物が属するクラスタを類似クラスタとして特定し、特定した前記類似クラスタに属する前記第1の化合物の各々と前記第2の化合物との類似度を算出する分類処理手段と、The first compounds having similar partial path presence / absence information are collectively classified as clusters, and the chemical structure of the second compound is most similar to the second compound based on the partial path presence / absence information from the classified clusters. Classification processing means for identifying a cluster to which the first compound belongs as a similar cluster, and calculating a similarity between each of the first compounds belonging to the identified similar cluster and the second compound;
前記類似クラスタに属する全ての前記第1の化合物について、前記類似度で重み付けされた前記細胞に対する前記薬理活性の活性値の加重平均を、前記第2の化合物の前記細胞に対する薬理活性の推定活性値として算出する活性値推定手段と、For all the first compounds belonging to the similar cluster, the weighted average of the activity values of the pharmacological activity for the cells weighted by the similarity is calculated as the estimated activity value of the pharmacological activity of the second compound for the cells. Activity value estimation means to calculate as
前記各遺伝子について、前記各細胞に対する薬理活性の前記推定活性値と前記発現量との積算値の平均値を推定ポイントとして算出する遺伝子推定手段として機能させるプログラム。A program for causing each gene to function as gene estimation means for calculating an average value of integrated values of the estimated activity value and the expression level of pharmacological activity for each cell as an estimated point.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004296916A JP4578201B2 (en) | 2004-10-08 | 2004-10-08 | Gene estimation apparatus, gene estimation method and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004296916A JP4578201B2 (en) | 2004-10-08 | 2004-10-08 | Gene estimation apparatus, gene estimation method and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006107394A JP2006107394A (en) | 2006-04-20 |
JP4578201B2 true JP4578201B2 (en) | 2010-11-10 |
Family
ID=36377025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004296916A Expired - Fee Related JP4578201B2 (en) | 2004-10-08 | 2004-10-08 | Gene estimation apparatus, gene estimation method and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4578201B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009025045A1 (en) * | 2007-08-22 | 2009-02-26 | Fujitsu Limited | Compound property prediction apparatus, property prediction method and program for executing the method |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004185473A (en) * | 2002-12-05 | 2004-07-02 | Konica Minolta Holdings Inc | Chemical substance database, chemical substance management system having it, chemical substance information usage, and data analogy program |
-
2004
- 2004-10-08 JP JP2004296916A patent/JP4578201B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004185473A (en) * | 2002-12-05 | 2004-07-02 | Konica Minolta Holdings Inc | Chemical substance database, chemical substance management system having it, chemical substance information usage, and data analogy program |
Also Published As
Publication number | Publication date |
---|---|
JP2006107394A (en) | 2006-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Erisoglu et al. | A new algorithm for initial cluster centers in k-means algorithm | |
Lange et al. | Stability-based validation of clustering solutions | |
Phuong et al. | Choosing SNPs using feature selection | |
Miele et al. | Spatially constrained clustering of ecological networks | |
JP4578201B2 (en) | Gene estimation apparatus, gene estimation method and program thereof | |
Ashtiani et al. | Bandit-based local feature subset selection | |
Bannai et al. | Efficiently finding regulatory elements using correlation with gene expression | |
Islamaj et al. | A feature generation algorithm for sequences with application to splice-site prediction | |
US10409785B2 (en) | Method for storing and presenting sequence data | |
Guénoche | Clustering by vertex density in a graph | |
Pique-Regi et al. | Sequential diagonal linear discriminant analysis (seqdlda) for microarray classification and gene identification | |
Meher et al. | Evaluating the performance of sequence encoding schemes and machine learning methods for splice sites recognition | |
Prathibha et al. | Feature selection for mining SNP from Leukaemia cancer using Genetic Algorithm with BCO | |
Islam et al. | RESTRAC: reference sequence based space transformation for clustering | |
Ma et al. | Clustering and re-clustering for pattern discovery in gene expression data | |
Truong et al. | A repeated local search algorithm for biclustering of gene expression data | |
Dragomir et al. | SOM‐based class discovery exploring the ICA‐reduced features of microarray expression profiles | |
Sarmah et al. | An effective density-based hierarchical clustering technique to identify coherent patterns from gene expression data | |
Singh et al. | Review of existing methods for finding initial clusters in K-means algorithm | |
JP4576194B2 (en) | Compound structure estimation apparatus, compound structure estimation method and program thereof | |
EP4354444A1 (en) | Method and system for identifying candidate genome sequecnces by estimating coverage | |
Mahdevar et al. | Transcription factor binding sites detection by using alignment-based approach | |
Zhou et al. | Ant-MST: An ant-based minimum spanning tree for gene expression data clustering | |
Karabulut et al. | Assessment of clustering algorithms for unsupervised transcription factor binding site discovery | |
Peterson et al. | Ga-facilitated knowledge discovery and pattern recognition optimization applied to the biochemistry of protein solvation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070829 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100707 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100810 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100824 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130903 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |