JP2020025471A - Toxicity learning device, toxicity learning method, learned model, toxicity prediction device, and program - Google Patents
Toxicity learning device, toxicity learning method, learned model, toxicity prediction device, and program Download PDFInfo
- Publication number
- JP2020025471A JP2020025471A JP2018150286A JP2018150286A JP2020025471A JP 2020025471 A JP2020025471 A JP 2020025471A JP 2018150286 A JP2018150286 A JP 2018150286A JP 2018150286 A JP2018150286 A JP 2018150286A JP 2020025471 A JP2020025471 A JP 2020025471A
- Authority
- JP
- Japan
- Prior art keywords
- toxicity
- expression data
- data
- compound
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、毒性学習装置、毒性学習方法、学習済みモデル、毒性予測装置およびプログラムに関する。 The present invention relates to a toxicity learning device, a toxicity learning method, a learned model, a toxicity prediction device, and a program.
医薬品開発には、莫大な開発費用と長い研究開発期間がかかる一方で、医薬品が無事に上市される成功確率は決して高いものではない。この原因の一つがヒトに対する安全性を十分に確保できないことである。医薬品開発の早期の段階でその毒性を見極めることができれば、医薬品開発の成功率が向上すると考えられる。そこで、従来から、医薬品の安全性を予測する研究が行われていた。 While drug development involves enormous development costs and long research and development periods, the success rate of successfully launching a drug is by no means high. One of the causes is that human safety cannot be sufficiently ensured. If the toxicity can be determined at an early stage of drug development, the success rate of drug development will increase. Therefore, studies for predicting the safety of pharmaceuticals have been conducted.
非特許文献1では、初代肝細胞を用いたスフェロイド培養系に着目し、肝細胞3次元培養系を用いたアセトアミノフェンの肝毒性評価を行うことが開示されている。また、構造活性相関(QSAR)に基づいて毒性を予測するソフトウェアも販売されている(非特許文献2)。また、化合物の構造に着目して、その化合物の毒性をディープラーニングで求めようとする研究も発表されている(非特許文献3)。
Non-Patent
本発明は、化合物の毒性を予測する新しい方法を提供することを目的とする。 The present invention aims to provide a new method for predicting the toxicity of a compound.
本発明は、化合物の毒性を予測するために、化合物を曝露したサンプルの発現データを用いる。本発明では、機械学習を用いてあらかじめ学習した学習済みモデルを用いて毒性の予測を行う。ここで問題となるのが、モデルの学習に用いる教師データをどのようにして準備するかである。非特許文献3は、化合物の構造に着目しているが、本発明はこれとは異なる方法を採用する。
The present invention uses expression data from samples exposed to a compound to predict the toxicity of the compound. In the present invention, toxicity prediction is performed using a learned model that has been learned in advance using machine learning. The problem here is how to prepare the teacher data used for learning the model. Non-Patent
本発明の毒性学習装置は、化合物を曝露したサンプルの発現データとコントロールの発現データを入力する入力部と、前記サンプルと前記コントロールの発現データを所定の遺伝子ごとに比較する比較部と、前記発現データの違いに基づいて、前記遺伝子の発現データを符号化する符号化部と、符号化された発現データに前記化合物の毒性のラベルを付与するラベル付与部と、前記ラベルが付与された教師データを用いて、遺伝子の発現データから化合物の毒性を予測するモデルの学習を行うモデル学習部とを備える。 The toxicity learning device of the present invention includes an input unit for inputting expression data of a sample exposed to a compound and expression data of a control, a comparing unit for comparing the sample and the expression data of the control for each predetermined gene, An encoding unit that encodes the expression data of the gene based on a difference between the data, a labeling unit that labels the encoded expression data with a toxicity label of the compound, and teacher data to which the label is added. And a model learning unit for learning a model for predicting the toxicity of the compound from the gene expression data using
このように化合物を曝露したサンプルとコントロールの発現データの比較から、遺伝子ごとの発現データの違いを符号化すると共に、当該化合物の毒性についての知見を利用してラベルを付与することで教師データを生成できる。この教師データを用いて発現データから化合物の毒性を推論するためのモデルを生成できる。 From the comparison of the expression data of the sample exposed to the compound and the control in this way, the difference in expression data for each gene is encoded, and the labeling is applied using knowledge about the toxicity of the compound to generate teacher data. Can be generated. A model for inferring the toxicity of the compound from the expression data can be generated using the teacher data.
本発明の毒性学習装置において、前記符号化部は、前記発現データの違いに基づいて前記遺伝子に順位を付け、前記順位が上位の所定数の遺伝子に「1」、下位の所定数の遺伝子に「−1」、それ以外の所定数に「0」を付与してもよい。所定数は任意の数である。例えば、遺伝子の全体数のパーセントによって定めてもよく、好ましくは5%、さらに好ましくは1〜2%である。 In the toxicity learning device of the present invention, the encoding unit ranks the genes based on the difference in the expression data, and the rank is “1” for a predetermined number of genes in an upper rank and “1” in a predetermined number of genes in a lower rank. “−1” and “0” may be added to other predetermined numbers. The predetermined number is an arbitrary number. For example, it may be defined by the percentage of the total number of genes, preferably 5%, more preferably 1-2%.
このように発現データを1,0,−1で符号化することにより、機械学習による学習を行いやすくなる。また、本発明では、上位と下位について同じ所定数を0以外の数値としているので、上下で0以外の数値をとる範囲が対称であり、モデルの学習を適切に行える。 By encoding the expression data with 1, 0, -1 in this manner, learning by machine learning becomes easy. Further, in the present invention, since the same predetermined number is set to a numerical value other than 0 for the upper order and the lower order, the range in which the numerical value other than 0 is taken in the upper and lower parts is symmetrical, so that the model can be appropriately learned.
本発明の毒性学習装置において、前記比較部は、次の(i)〜(iii)の方法で、前記発現データを遺伝子ごとに比較して複数の比較結果を得てもよい。
(i)前記サンプルと前記コントロールの発現データの差をとる。
(ii)前記サンプルと前記コントロールの発現データの比をとる。
(iii)前記サンプルと前記コントロールの発現データを正規化して差をとる。
In the toxicity learning device of the present invention, the comparing unit may obtain a plurality of comparison results by comparing the expression data for each gene by the following methods (i) to (iii).
(I) Take the difference between the expression data of the sample and the control.
(Ii) Take the ratio of the expression data of the sample and the control.
(Iii) Normalize the expression data of the sample and the control and take the difference.
生物を対象とした実験(実測値)によるデータをベースにした機械学習の研究では、大量の教師データを取得することが困難である。本発明では、発現データを取得する手法(例えば、マイクロアレイによる解析手法)による揺らぎを利用し、(i)〜(iii)の異なる計算手法で比較することにより、比較結果のデータ量を増やすことができ、適切な学習を行える。 In machine learning research based on data from experiments (actual measurements) on living things, it is difficult to obtain a large amount of teacher data. In the present invention, it is possible to increase the data amount of the comparison result by making use of fluctuations caused by a method of acquiring expression data (for example, an analysis method using a microarray) and performing comparisons using different calculation methods (i) to (iii). Can do appropriate learning.
本発明の毒性学習装置において、前記ラベル付与部は、前記既存の化合物の毒性を記憶したデータベースから読み出した毒性のデータを前記ラベルとして用いてもよい。また、本発明の毒性学習装置は、前記既存の化合物の副作用を記憶したデータベースから化合物の副作用のデータを読み出し、読み出した副作用のデータに基づいて化合物の毒性のデータを求めるラベル生成部を備え、前記ラベル付与部は、求めた毒性のデータを前記ラベルとして用いてもよい。 In the toxicity learning device of the present invention, the labeling unit may use toxicity data read from a database storing the toxicity of the existing compound as the label. Further, the toxicity learning device of the present invention includes a label generation unit that reads data on the side effects of the compound from the database storing the side effects of the existing compound, and obtains data on the toxicity of the compound based on the read side effect data, The labeling unit may use the obtained toxicity data as the label.
本発明の毒性学習方法は、化合物を曝露したサンプルの発現データとコントロールの発現データを入力するステップと、前記サンプルと前記コントロールの発現データを遺伝子ごとに比較するステップと、前記発現データの違いに基づいて、前記遺伝子の発現データを符号化するステップと、符号化された発現データに前記化合物の毒性のラベルを付して教師データを生成するステップと、前記教師データを用いて、遺伝子の発現データから化合物の毒性を予測するモデルの学習を行うステップとを備える。本発明の毒性学習方法は、上述した毒性学習装置の各種の特徴を有してもよい。 The toxicity learning method of the present invention comprises the steps of: inputting expression data of a sample exposed to a compound and expression data of a control; comparing the expression data of the sample and the control for each gene; Encoding the expression data of the gene, generating the teacher data by labeling the encoded expression data with the toxicity of the compound, and using the teacher data to express the gene. Learning a model for predicting the toxicity of the compound from the data. The toxicity learning method of the present invention may have various features of the toxicity learning device described above.
本発明の毒性学習方法は、前記入力するステップでは、既知の一の化合物を曝露した複数のサンプルの発現データを入力し、前記比較するステップでは、前記複数のサンプルと前記コントロールの発現データを遺伝子ごとに比較し、前記一の化合物について複数の比較結果を得てもよい。生物を対象とした実験では、実験による揺らぎを低減するため、複数の実測データの平均を取るのが通常であるが、本発明の構成によれば、複数の実測データを独立した実験のデータと考えて、教師データのデータ量を増やすことができる。 In the toxicity learning method of the present invention, in the inputting step, expression data of a plurality of samples to which a known compound has been exposed are input, and in the comparing step, the expression data of the plurality of samples and the control are expressed by a gene. And a plurality of comparison results may be obtained for the one compound. In experiments on living organisms, it is usual to take an average of a plurality of actually measured data in order to reduce fluctuations caused by the experiment.However, according to the configuration of the present invention, a plurality of actually measured data are compared with independent experiment data. Considering this, the data amount of the teacher data can be increased.
本発明の毒性予測装置は、上記した毒性学習方法によって学習された学習済みモデルを用いて、化合物の毒性を推論する装置であって、未知の化合物を曝露したサンプルの発現データを入力する入力部と、前記サンプルの発現データとコントロールの発現データを所定の遺伝子ごとに比較する比較部と、前記発現データの違いに基づいて、前記遺伝子の発現データを符号化する符号化部と、前記符号化された発現データを学習済みモデルに適用して、前記化合物の毒性を推論する推論部と、前記推論部による推論結果を出力する出力部とを備える。この構成により、化合物を曝露した発現データを用いて化合物の毒性を予測することができる。 The toxicity prediction device of the present invention is a device for inferring the toxicity of a compound using a learned model learned by the above-described toxicity learning method, and an input unit for inputting expression data of a sample exposed to an unknown compound. A comparing unit that compares the expression data of the sample with the expression data of the control for each predetermined gene; an encoding unit that encodes the expression data of the gene based on a difference between the expression data; and the encoding unit. An inference unit that infers the toxicity of the compound by applying the obtained expression data to the learned model, and an output unit that outputs an inference result by the inference unit. With this configuration, the toxicity of the compound can be predicted using the expression data to which the compound has been exposed.
本発明の学習済みモデルは、化合物を曝露したときの発現データに基づいて、化合物の毒性を定量化した値を出力するよう、コンピュータを機能させるための学習済みモデルであって、ニューラルネットワークの入力層に、コントロールとの発現データの違いに基づいて符号化された発現データが入力され、入力された符号化データに基づいて前記ニューラルネットワークの学習済みの重み付け係数に基づく演算を行い、出力層から前記化合物の毒性を定量化した値を出力するよう、コンピュータを機能させる。 The trained model of the present invention is a trained model for operating a computer so as to output a value quantifying the toxicity of a compound based on expression data upon exposure of the compound, and is an input of a neural network. In the layer, expression data encoded based on the difference between the expression data with the control is input, and based on the input encoded data, perform a calculation based on the learned weighting coefficients of the neural network, and from the output layer The computer is operated to output a value quantifying the toxicity of the compound.
本発明によれば、このように化合物を曝露したサンプルの発現データから当該化合物の毒性を推論するためのモデルを学習させるための教師データを生成できる。 According to the present invention, it is possible to generate teacher data for learning a model for inferring the toxicity of the compound from the expression data of the sample exposed to the compound in this way.
以下、本発明の実施の形態の毒性学習装置および毒性予測装置について、図面を参照して説明する。以下に説明する実施の形態では、未知の化合物の肝毒性を判別する毒性予測装置および当該毒性予測装置で用いるモデルを学習する毒性学習装置を例として説明する。なお、本発明の毒性学習装置および毒性予測装置は、肝毒性以外の毒性を判別する毒性予測装置にも適用することができる。 Hereinafter, a toxicity learning device and a toxicity prediction device according to an embodiment of the present invention will be described with reference to the drawings. In the embodiment described below, a toxicity prediction device that discriminates hepatotoxicity of an unknown compound and a toxicity learning device that learns a model used in the toxicity prediction device will be described as examples. Note that the toxicity learning device and the toxicity prediction device of the present invention can be applied to a toxicity prediction device for determining toxicity other than hepatotoxicity.
(第1の実施の形態)
図1は、本実施の形態の毒性学習装置10および毒性予測装置20による肝毒性判別の全体の枠組みを示す図である。図1(a)に示すように、学習段階では、毒性学習装置10が多数の教師データを用いてモデルの学習を行い、学習済みモデルを生成する。ここで、教師データとして何を用いればよいのか、ということが問題であった。推論段階では、図1(b)に示すように、毒性予測装置20が、学習済みモデルを用いて、新規化合物の肝毒性の判別を行う。本実施の形態では、「Most」「Less」「Non」の3段階で肝毒性を判別する。「Most」が肝毒性が最も高く、「Non」は肝毒性がないことを表している。
(First Embodiment)
FIG. 1 is a diagram showing an overall framework of hepatotoxicity discrimination by the
なお、学習済みモデルとしては、ニューラルネットワークのモデルを用いる。ニューラルネットワークの構造を何層とするか、畳込み層及びプーリング層を設けるかどうか等は任意であるが、発明者らの実験によれば、畳込みニューラルネットワークを用いると、精度良く推論を行えるモデルを構成することができることが分かった。 Note that a neural network model is used as the learned model. The number of layers of the structure of the neural network and whether or not to provide a convolutional layer and a pooling layer are arbitrary. However, according to experiments by the inventors, inference can be performed with high accuracy by using a convolutional neural network. It turns out that the model can be constructed.
図2は、第1の実施の形態の毒性学習装置10の構成を示す図である。毒性学習装置10は、発現データを入力する入力部11と、入力されたデータから教師データを生成する教師データ生成部12と、教師データを用いてモデルの学習を行うモデル学習部16とを有している。
FIG. 2 is a diagram illustrating a configuration of the
入力部11は、化合物を曝露したサンプルの発現データとコントロールの発現データの入力を受け付ける。ここでサンプルの発現データが曝露される化合物は既知の化合物である。発現データは、遺伝子の発現データでもよいし、タンパク質の発現データでもよい。本実施の形態では、発現データは、マイクロアレイで取得されたデータである。
The
教師データ生成部12は、比較部13と、符号化部14と、ラベル付与部15を有している。比較部13は、サンプルの発現データとコントロールの発現データとを比較する機能を有する。比較部13は、比較部13は、次の(i)〜(iii)の方法で、前記発現データを遺伝子ごとに比較して複数の比較結果を得る。
(i)サンプルの発現データとコントロールの発現データの差をとる。
(ii)サンプルの発現データとコントロールの発現データの比をとる。
(iii)サンプルの発現データとコントロールの発現データをそれぞれ正規化した上で差をとる。
The teacher
(I) Take the difference between the expression data of the sample and the expression data of the control.
(Ii) Take the ratio between the expression data of the sample and the expression data of the control.
(Iii) Normalize the expression data of the sample and the expression data of the control, and then take the difference.
このように3通りの方法で比較と行うことにより、サンプルとコントロールの比較結果のデータ量は、元のサンプルのデータの3倍になる。毒性学習装置10、入力されたデータの3倍の量のデータを学習に用いることができる。
As described above, by performing the comparison using the three methods, the data amount of the comparison result between the sample and the control becomes three times the data amount of the original sample. The
図3は、サンプルとコントロールの発現量の比較を行った結果の一例を示す図である。「Diff」は発現データの差をとった結果であり(上記(i))、「Ratio」は発現データの比をとった結果であり(上記(ii))、「CR(Change Ratioの意味)」正規化した上で差をとった結果である(上記(iii))。 FIG. 3 is a diagram showing an example of the result of comparing the expression levels of a sample and a control. “Diff” is the result of the difference between the expression data ((i) above), “Ratio” is the result of the ratio of the expression data ((ii)), and “CR” (meaning Change Ratio) "This is the result of taking the difference after normalization ((iii) above).
縦軸に記載された「Probe」はマイクアレイのプローブ番号を示し、横軸のDrugは、サンプルに曝露させた化合物を示す。例えば、「Drug1」を曝露したサンプルでは、Probe1の差は10、Probe2の差は1253、Probe3の差は
324、・・・であることを示している。
“Probe” described on the vertical axis indicates the probe number of the microphone array, and Drug on the horizontal axis indicates the compound exposed to the sample. For example, in the sample exposed to “Drug1”, the difference of Probe1 is 10, the difference of Probe2 is 1253, the difference of Probe3 is 324, and so on.
図3に示す例において、縦軸の「Probe」は発現データを取得したマイクロアレイのプローブを意味するが、本実施の形態の比較部13は、遺伝子ごとにサンプルとコントロールの比較を行う。つまり、「Probe」ごとの比較結果を遺伝子ごとの比較結果に変える。本実施の形態では、一つの遺伝子に複数のProbeが対応する場合には、複数のProbeの発現データの平均値を、その遺伝子の発現データの代表値とする。これにより、ヒトの遺伝子であれば約2万個の遺伝子の比較結果に絞り込むことができる。比較部13は、遺伝子の中でも一般的に重要であると考えられている約1000個程度のランドマーク遺伝子に絞りこんでもよい。このように比較結果を絞り込むことにより、機械学習による計算を可能にできる。
In the example shown in FIG. 3, “Probe” on the vertical axis indicates a probe of a microarray from which expression data has been acquired, but the
図4は、遺伝子ごとに発現データの比較を行った例を示す図である。例えば、「Drug1」を曝露したサンプルでは、GeneID1の遺伝子の差は101、GeneID2の遺伝子の差は5387、GeneID3の遺伝子の差は324である。 FIG. 4 is a diagram showing an example in which expression data is compared for each gene. For example, in the sample exposed to “Drug1”, the difference between GeneID1 genes is 101, the difference between GeneID2 genes is 5387, and the difference between GeneID3 genes is 324.
符号化部14は、図4に示すように求めた発現データの差(または比)に基づいて、遺伝子の発現データを符号化する。具体的には、符号化部14は、発現データの差(または比)に基づいて遺伝子IDに順位をつける。符号化部14は、付与した順位が上位の所定数の遺伝子に「1」、順位が下位の所定数の遺伝子に「−1」、それ以外の所定数に「0」を付与して、発現データを符号化する。
The
図5は、遺伝子に与えて順位に従って、「1」「0」「−1」を付与した例を示す図である。GeneID1の遺伝子は発現データの差が大きく順位が高いので、発現データが「1」に符号化され、GeneID3の遺伝子は発現データの差が小さく(またはマイナスの値が大きく)順位が低いので、発現データが「−1」に符号化されている。このように符号化部14が発現データのデータ変換を行うことにより、機械学習を適切に行える。
FIG. 5 is a diagram illustrating an example in which “1”, “0”, and “−1” are assigned to genes according to the order. Since the gene ID1 gene has a large difference in expression data and has a high rank, the expression data is coded as "1", and the GeneID3 gene has a small difference (or a large negative value) in the expression data and has a low rank. Data is encoded as "-1". By performing the data conversion of the expression data by the
本実施の形態では、順位の上位2%の遺伝子の発現データを「1」にし、下位2%の遺伝子の発現データを「−1」とし、それ以外の遺伝子の発現データを「0」にする。ここでは、上位と下位の2%をそれぞれ「1」と「−1」にしているが、どの程度までを「1」「−1」とするかによって、学習済みモデルを使った推論の精度が変わるので、学習済みモデルの評価に基づいて調整することが好ましい。 In the present embodiment, the expression data of the top 2% of the genes is set to “1”, the expression data of the bottom 2% of the genes is set to “−1”, and the expression data of the other genes are set to “0”. . Here, the upper and lower 2% are set to “1” and “−1”, respectively, but the accuracy of the inference using the trained model depends on the degree of “1” and “−1”. Since it changes, it is preferable to adjust based on the evaluation of the trained model.
ラベル付与部15は、化合物に対応する毒性を表すラベルを付与する。毒性学習装置10は、肝毒性データベース(以下、「肝毒性DB」という)30と接続されており、肝毒性DB30に記憶された化合物の毒性のデータに基づいて、化合物に対して「Most」「Less」「Non」のラベルを付与する。肝毒性DB30の一例は、アメリカ食品医薬品局(FDA)が提供しているLiver Toxicity Konwledge Base(LTKB)である。ラベル付与部15は、LTKBを参照して化合物にラベルを付与する。
The
図6(a)は、ラベル付与部15によって各化合物にラベルを付与した例を示す図である。なお、図6(a)は、図4,図5と比べて、縦軸と横軸を入れ替えて記載しているので留意されたい。例えば、Drug1の化合物は毒性が「Most」、Drug2の化合物は毒性がMost、Drug3の化合物は毒性が「Less」であるというラベルが付与されている。これにより、遺伝子の発現データの符号化データとラベルとがセットとなった教師データが得られる。なお、教師データとしては、既存の化合物が何であるか(図6(a)における「Drug1」等の名称)ということは重要ではない。必要なのは、図6(b)に示すような、発現データを符号化したデータである。つまり、遺伝子の発現データとそれに対応する毒性のラベルが教師データとなる。
FIG. 6A is a diagram illustrating an example in which a label is assigned to each compound by the
モデル学習部16は、教師データ生成部12にて生成された教師データを用いてモデルの学習を行う。ニューラルネットワークの入力層に教師データの発現データを入力し、出力層から対応するラベルが得られるようにニューラルネットワークの重み係数を学習する。モデル学習部16は、大量の教師データを用いてモデルの学習を行うことにより、発現データから毒性を推論するためのモデルを生成する。モデル学習部16は、学習によって得られたモデルを学習済みモデル記憶部17に記憶する。
The
図7は、第1の実施の形態の毒性学習装置10の動作を示すフローチャートである。毒性学習装置10は、化合物を曝露したサンプルの発現データとコントロールの発現データを入力する(S10)。毒性学習装置10は、入力されたサンプルとコントロールの発現データを比較する(S11)。ここでは、上述したように、発現データの差、比、および正規化した上で差をとる。
FIG. 7 is a flowchart illustrating the operation of the
次に、毒性学習装置10はデータを圧縮する(S12)。すなわち、マイクロアレイのプローブのデータを遺伝子のデータに変換し、データ数を圧縮する。この際、ヒトの遺伝子(約2万個)を用いてもよいし、肝毒性に関連のありそうな1000個程度の遺伝子を用いてもよい。
Next, the
毒性学習装置10は、発現データの比較結果に基づいて遺伝子を順位付けし(S13)、付与した順位に基づいて発現データを符号化データに変換する(S14)。具体的には、順位が上位2%の遺伝子の発現データを「1」とし、順位が下位2%の遺伝子の発現データを「−1」とし、それ以外の遺伝子の発現データを「0」とする。続いて、毒性学習装置10は、肝毒性DB30のデータを参照して、化合物にラベルを付与し、教師データを生成する(S15)。
The
毒性学習装置10は、処理を行っていないサンプルデータがあるか否かを判定し(S16)、他のサンプルデータがある場合には(S16でYES)、上述した処理を繰り返す(S11〜S15)。他のサンプルデータがない場合(S16でNO)、毒性学習装置10は、生成した大量の教師データを用いて、モデルの学習を行い、学習によって得られたモデルを学習済みモデル記憶部17に記憶する(S17)。
The
図8は、毒性予測装置20の構成を示す図である。毒性予測装置20は、毒性学習装置10での学習によって生成した学習済みモデルを記憶した学習済みモデル記憶部28を有している。毒性予測装置20は、肝毒性を調べたい新規化合物の発現データを入力する入力部21と、入力された発現データに前処理を行う前処理部22と、前処理された発現データを用いて肝毒性の有無を推論する推論部25と、推論結果を出力する出力部26とを有している。
FIG. 8 is a diagram showing a configuration of the
前処理部22は、比較部23、符号化部24を有しており、入力部21に入力された新規化合物の発現データに対して、毒性学習装置10の比較部13、符号化部14で行った処理と同じ処理を行って、発現データを符号化データに変換する。なお、前処理部22には、コントロールデータ記憶部27が接続されており、コントロールデータ記憶部27から読み出したコントロールの発現データと、新規化合物の発現データとの比較を行う。これにより、毒性予測装置20に対して、コントロールの発現データを入力しなくてもよい。前処理部22は、発現データの符号化データを推論部25に渡す。
The preprocessing
推論部25は、学習済みモデル記憶部28から学習済みモデルを読み出し、読み出した学習済みモデルの入力層に、前処理部22から入力された符号化データを適用する。これにより、推論部25は、学習済みモデルの出力層から出力される肝毒性を求める。
The
以上、本実施の形態の毒性学習装置10および毒性予測装置20の構成について説明したが、上記した毒性学習装置10および毒性予測装置20のハードウェアの例は、CPU、RAM、ROM、ハードディスク、ディスプレイ、キーボード、マウス、通信インターフェース等を備えたコンピュータである。上記した各機能を実現するモジュールを有するプログラムをRAMまたはROMに格納しておき、CPUによって当該プログラムを実行することによって、上記した毒性学習装置10および毒性予測装置20が実現される。このようなプログラムも本発明の範囲に含まれる。
The configuration of the
本実施の形態の毒性学習装置10は、化合物を曝露したサンプルの発現データとコントロールの発現データを比較した結果に基づいて、遺伝子ごとの発現データの違いを符号化すると共に、当該化合物の毒性についてのラベルを付与することで教師データを生成できる。この教師データを用いて発現データから化合物の毒性を推論するためのモデルを生成できる。
The
(第2の実施の形態)
図9は、第2の実施の形態の毒性学習装置10の構成を示す図である。第2の実施の形態の毒性学習装置10は、肝毒性DB30に加えて、副作用データベース(以下、「副作用DB」という)31に記憶された副作用のデータを用いる。第2の実施の形態の毒性学習装置10の基本的な構成は、第1の実施の形態の毒性学習装置10と同じであるが、副作用DB31から読み出したデータから、化合物の肝毒性に関するラベルを生成するラベル生成部18をさらに備えている。ラベル付与部15は、肝毒性DB30に記憶された肝毒性のデータに基づくラベルに加えて、ラベル生成部18にて生成されたラベルも用いる。
(Second embodiment)
FIG. 9 is a diagram illustrating a configuration of the
副作用DB31の一例は、アメリカ食品医薬品局(FDA)が提供しているFDA Adverse Event Reporting System(FARES)である。FARESは、副作用レポートの自発的報告システムであり、医療専門家、患者、製薬企業など様々な報告者による膨大なレポートデータが含まれている。ただし、化合物の肝毒性のデータが体系的にまとめられているわけではないので、本実施の形態の毒性学習装置10は、副作用DB31のデータを利用するために、副作用DB31に記憶された多様なデータに基づいて、肝毒性に関するラベルを生成する。
One example of the
図10(a)は、副作用DB31に記憶されているデータの例を示す図である。図10(a)に示す例では、医薬品1〜医薬品kについて、副作用1〜副作用mが記憶されている。医薬品と副作用の交差するマトリックスに記載されているx11等のデータは、当該医薬品に副作用があるか否かを示すデータである。
FIG. 10A is a diagram illustrating an example of data stored in the
ラベル生成部18は、副作用DB31に記憶された医薬品を、毒性学習装置10に入力するサンプルに使った対象の医薬品とその他の医薬品に分類すると共に、副作用DB31に記憶された副作用を、注目している副作用(つまり肝毒性の副作用)とその他の副作用に分類し、それぞれの医薬品で副作用が生じている件数nをカウントする。
The
図10(b)に、副作用DB31に記憶されたデータを加工した例を示す図である。図10(b)に示す例では、対象の医薬品で注目している副作用が生じた件数はn11であり、その他の医薬品で注目している副作用が生じた件数はn21であり、注目している副作用の合計はn+1である。また、対象の医薬品でその他の副作用が生じた件数はn12であり、その他の医薬品でその他の副作用が生じた件数はn22であり、その他の副作用の合計はn+2である。
FIG. 10B is a diagram showing an example in which data stored in the
ラベル生成部18は、対象の医薬品に肝毒性があるか否かを判定するため、特定事象の報告のオッズ比(Reporting Odds Ratio:ROR)を計算する。具体的には、次の式(1)で計算する。
ROR=(n11/n21)/(n12/n22)・・・(1)
The
ROR = (n 11 / n 21 ) / (n 12 / n 22 ) (1)
分子の(n11/n21)は、注目している副作用が対象の医薬品でどの程度の割合で起こったか、その他の医薬品に対する割合で表している。分母の(n12/n22)は、その他の副作用が対象の医薬品でどの程度の割合で起こったか、その他の医薬品に対する割合で表している。分子と分母の比をとった値が「1」に近ければ、注目している副作用についての報告も偶然になされたものであると解釈でき、この比が「1」よりかなり大きい場合には、対象の医薬品に対してなされた注目している副作用の報告が偶然ではないと解釈できる。ラベル生成部18は、RORの95%信頼区間の下限が1より大きい場合に、対象の医薬品で注目している副作用があったと判定する。
The (n 11 / n 21 ) of the molecule indicates the proportion of the side effect of interest occurring in the target drug, as a percentage of other drugs. The denominator (n 12 / n 22 ) represents the ratio of other side effects that occurred in the target drug and the ratio to the other drugs. If the value of the ratio of the numerator to the denominator is close to “1”, it can be interpreted that the report of the side effect of interest is also made by accident, and if this ratio is much larger than “1”, It can be construed that the report of the noted side effect made on the drug in question is not accidental. When the lower limit of the 95% confidence interval of the ROR is greater than 1, the
また、ラベル生成部18は、副作用DB31に記憶されたデータ(図10(a)参照)から、注目している副作用の報告件数をカウントする際に、オントロジーや医学用語集(MedDRA)を用いて、副作用の報告内容の集約をしてもよい。
When counting the number of reported side effects of interest from the data (see FIG. 10A) stored in the
第2の実施の形態の毒性学習装置10は、副作用DB31に記憶されたデータを用いて肝毒性のラベルを生成するので、多くの化合物のデータを用いて教師データを生成することができる。なお、本実施の形態では、肝毒性のシグナルがあるか否かを判定するために、RORを計算する例を用いたが、次の式(2)で計算される特定事象の報告割合の比(Proportional Reporting Rations:PRR)を用いてもよい。
PRR=(n11/n1+)/(n21/n2+)・・・(2)
Since the
PRR = (n 11 / n 1+ ) / (
また、副作用DB31に記憶されたデータから、対象医薬品が注目する副作用を有するかどうかを判定する方法としては、上記の方法以外にも、例えば、主成分分析、因子分析、SVM等の手法を用いてもよい。
As a method of determining whether or not the target drug has a noticeable side effect from the data stored in the
以上、本発明の毒性学習装置および毒性予測装置について実施の形態を挙げて詳細に説明したが、本発明の毒性学習装置は上記した実施の形態に限定されるものではない。例えば、上記した実施の形態では、サンプルの発現データを順位付けし、上位と下位のそれぞれ2%を「1」「−1」としたが、上位2%を「1」とし、それ以外を「0」としてもよい。 As described above, the toxicity learning device and the toxicity prediction device of the present invention have been described in detail with reference to the embodiments. However, the toxicity learning device of the present invention is not limited to the above embodiments. For example, in the above-described embodiment, the expression data of the sample is ranked, and the upper and lower 2% are respectively set to “1” and “−1”. However, the upper 2% is set to “1” and the other 2% is set to “1”. It may be “0”.
上記した実施の形態では、毒性学習装置10と毒性予測装置20を別装置として構成する例を挙げて説明したが、毒性学習装置10と毒性予測装置20を一つの装置で構成してもよい。毒性学習装置10と毒性予測装置20を一つの装置で構成すると、毒性予測装置20による推論結果に基づいて、学習済みモデルの修正を行うことが容易である。学習済みモデルの推論の精度が良くない場合には、例えば、符号化部14による符号化を行う際に、「1」「−1」に変換する発現データの順位(上位〇%、下位〇%)を変更してもよい。
In the above-described embodiment, an example has been described in which the
上記した実施の形態では、教師データのデータ量を増幅させるため、比較部13は、サンプルの発現データとコントロールの発現データとを3通りの方法で比較し、3倍の教師データを生成する例を説明したが、本発明の毒性学習方法は、サンプルの発現データを入力する際に、取得した生のデータを入力することで、教師データの量を増やしてもよい。すなわち、通常は、生物を対象とした実験では、実験による揺らぎを低減するため、複数の実測データの平均を取るが、このような平均化を行うことなく、複数の実測データを独立した実験のデータと考えて、それぞれを教師データとすることにより、データ量を増やすことができる。
In the embodiment described above, in order to amplify the data amount of the teacher data, the comparing
本発明は、未知の化合物の毒性を判別する毒性予測装置で用いられるモデルの毒性学習装置等として有用である。 INDUSTRIAL APPLICABILITY The present invention is useful as a toxicity learning device for a model used in a toxicity prediction device for determining the toxicity of an unknown compound.
10 毒性学習装置
11 入力部
12 教師データ生成部
13 比較部
14 符号化部
15 ラベル付与部
16 モデル学習部
17 学習済みモデル記憶部
18 ラベル生成部
20 毒性予測装置
21 入力部
22 前処理部
23 比較部
24 符号化部
25 推論部
26 出力部
27 コントロールデータ記憶部
28 学習済みモデル記憶部
30 肝毒性データベース
Claims (14)
前記サンプルと前記コントロールの発現データを所定の遺伝子ごとに比較する比較部と、
前記発現データの違いに基づいて、前記遺伝子の発現データを符号化する符号化部と、
符号化された発現データに前記化合物の毒性のラベルを付与するラベル付与部と、
前記ラベルが付与された教師データを用いて、遺伝子の発現データから化合物の毒性を予測するモデルの学習を行うモデル学習部と、
を備える毒性学習装置。 An input unit for inputting expression data of a sample to which the compound is exposed and expression data of a control,
A comparison unit that compares the expression data of the sample and the control for each predetermined gene,
An encoding unit that encodes the expression data of the gene based on the difference in the expression data,
A labeling unit for labeling the encoded expression data with a toxicity label of the compound,
Using the labeled teacher data, a model learning unit for learning a model for predicting the toxicity of the compound from the expression data of the gene,
Toxicity learning device equipped with.
前記発現データの違いに基づいて前記遺伝子に順位を付け、前記順位が上位の所定数の遺伝子に「1」、順位が下位の所定数の遺伝子に「−1」、それ以外の遺伝子に「0」を付与する請求項1に記載の毒性学習装置。 The encoding unit includes:
The genes are ranked based on the difference in the expression data, and the rank is determined to be “1” for a predetermined number of genes with a higher rank, “−1” for a predetermined number of genes with a lower rank, and “0” for other genes. The toxicity learning device according to claim 1, wherein
(i)前記サンプルと前記コントロールの発現データの差をとる;
(ii)前記サンプルと前記コントロールの発現データの比をとる;
(iii)前記サンプルと前記コントロールの発現データを正規化して差をとる。 The toxicity learning device according to claim 1, wherein the comparing unit obtains a plurality of comparison results by comparing the expression data for each gene by the following methods (i) to (iii).
(I) taking the difference between the expression data of the sample and the control;
(Ii) taking the expression data of the sample and the control;
(Iii) Normalize the expression data of the sample and the control and take the difference.
前記ラベル付与部は、求めた毒性のデータを前記ラベルとして用いる請求項1乃至3のいずれかに記載の毒性学習装置。 Reads the data of the side effects of the compound from the database that stores the side effects of the existing compound, comprising a label generating unit that obtains the data of the toxicity of the compound based on the data of the read side effects,
The toxicity learning device according to claim 1, wherein the labeling unit uses the obtained toxicity data as the label.
前記サンプルと前記コントロールの発現データを遺伝子ごとに比較するステップと、
前記発現データの違いに基づいて、前記遺伝子の発現データを符号化するステップと、
符号化された発現データに前記化合物の毒性のラベルを付して教師データを生成するステップと、
前記教師データを用いて、遺伝子の発現データから化合物の毒性を予測するモデルの学習を行うステップと、
を備える毒性学習方法。 Inputting expression data of a sample exposed to a known compound and expression data of a control,
Comparing the expression data of the sample and the control for each gene,
Encoding the expression data of the gene based on the difference in the expression data,
Generating teacher data by labeling the encoded expression data with the toxicity of the compound;
Using the teacher data, learning a model to predict the toxicity of the compound from the expression data of the gene,
Toxicity learning method comprising.
前記発現データの違いに基づいて、前記遺伝子に順位を付けるステップと、
前記順位が上位の所定数の遺伝子に「1」、順位が下位の所定数の遺伝子に「−1」、それ以外の遺伝子に「0」を付与するステップと、
を備える請求項6に記載の毒性学習方法。 The encoding step includes:
Ranking the genes based on the difference in the expression data;
A step of assigning “1” to a predetermined number of genes whose rank is higher, “−1” to a predetermined number of genes whose rank is lower, and “0” to other genes;
The toxicity learning method according to claim 6, comprising:
(i)前記サンプルと前記コントロールの発現データの差をとる;
(ii)前記サンプルと前記コントロールの発現データの比をとる;
(iii)前記サンプルと前記コントロールの発現データを正規化して差をとる。 8. The toxicity learning method according to claim 6, wherein the comparing step obtains a plurality of comparison results by comparing the expression data for each gene by the following methods (i) to (iii).
(I) taking the difference between the expression data of the sample and the control;
(Ii) taking the expression data of the sample and the control;
(Iii) Normalize the expression data of the sample and the control and take the difference.
前記比較するステップでは、前記複数のサンプルと前記コントロールの発現データを遺伝子ごとに比較し、前記一の化合物について複数の比較結果を得る、
請求項6または7に記載の毒性学習方法。 In the inputting step, input expression data of a plurality of samples exposed to a known compound,
In the comparing step, the expression data of the plurality of samples and the control are compared for each gene, and a plurality of comparison results are obtained for the one compound.
The toxicity learning method according to claim 6.
前記既存の化合物の毒性を記憶したデータベースから読み出した毒性のデータを前記ラベルとして用いる請求項6乃至9のいずれかに記載の毒性学習方法。 In the step of generating the teacher data,
10. The toxicity learning method according to claim 6, wherein toxicity data read from a database storing the toxicity of the existing compound is used as the label.
前記既存の化合物の副作用を記憶したデータベースから読み出した副作用のデータに基づいて化合物の毒性のデータを求め、求めた毒性のデータを前記ラベルとして用いる請求項6乃至9のいずれかに記載の毒性学習方法。 In the step of generating the teacher data,
10. The toxicity learning according to any one of claims 6 to 9, wherein toxicity data of the compound is obtained based on side effect data read from a database storing the side effects of the existing compound, and the obtained toxicity data is used as the label. Method.
化合物を曝露したサンプルの発現データとコントロールの発現データを入力するステップと、
前記サンプルと前記コントロールの発現データを遺伝子ごとに比較するステップと、
前記発現データの違いに基づいて、前記遺伝子の発現データを符号化するステップと、
符号化された発現データに前記化合物の毒性のラベルを付して教師データを生成するステップと、
前記教師データを用いて、遺伝子の発現データから化合物の毒性を予測するモデルの学習を行うステップと、
を実行させるプログラム。 A program for generating a model used to infer toxicity of a compound based on expression data of a sample to which the compound has been exposed, comprising:
Inputting expression data of a sample to which the compound is exposed and expression data of a control;
Comparing the expression data of the sample and the control for each gene,
Encoding the expression data of the gene based on the difference in the expression data,
Generating teacher data by labeling the encoded expression data with the toxicity of the compound;
Using the teacher data, learning a model to predict the toxicity of the compound from the expression data of the gene,
A program that executes
未知の化合物を曝露したサンプルの発現データを入力する入力部と、
前記サンプルの発現データとコントロールの発現データを所定の遺伝子ごとに比較する比較部と、
前記発現データの違いに基づいて、前記遺伝子の発現データを符号化する符号化部と、
前記符号化された発現データを学習済みモデルに適用して、前記化合物の毒性を推論する推論部と、
前記推論部による推論結果を出力する出力部と、
を備える毒性予測装置。 An apparatus for inferring the toxicity of a compound by using a learned model learned by the toxicity learning method according to claim 6,
An input unit for inputting expression data of a sample exposed to an unknown compound,
A comparison unit that compares the expression data of the sample and the expression data of the control for each predetermined gene,
An encoding unit that encodes the expression data of the gene based on the difference in the expression data,
Applying the encoded expression data to the trained model, an inference unit for inferring the toxicity of the compound,
An output unit that outputs an inference result by the inference unit;
A toxicity prediction device comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018150286A JP2020025471A (en) | 2018-08-09 | 2018-08-09 | Toxicity learning device, toxicity learning method, learned model, toxicity prediction device, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018150286A JP2020025471A (en) | 2018-08-09 | 2018-08-09 | Toxicity learning device, toxicity learning method, learned model, toxicity prediction device, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020025471A true JP2020025471A (en) | 2020-02-20 |
Family
ID=69619560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018150286A Pending JP2020025471A (en) | 2018-08-09 | 2018-08-09 | Toxicity learning device, toxicity learning method, learned model, toxicity prediction device, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020025471A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114694770A (en) * | 2020-12-30 | 2022-07-01 | 中国人民解放军军事科学院军事医学研究院 | Method for constructing drug hepatotoxicity prediction model and application thereof |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008022762A (en) * | 2006-07-20 | 2008-02-07 | Miyazakiken Sangyo Shien Zaidan | Method, program and apparatus for evaluating high throughput function |
JP2008518598A (en) * | 2004-10-29 | 2008-06-05 | ノバルティス アクチエンゲゼルシャフト | Drug toxicity assessment |
WO2012147800A1 (en) * | 2011-04-25 | 2012-11-01 | 東レ株式会社 | Composition for predicting sensitivity to trastuzumab therapy in breast cancer patients and method using same |
JP2016099674A (en) * | 2014-11-18 | 2016-05-30 | 国立研究開発法人産業技術総合研究所 | Medicament search device, medicament search method and program |
JP2016105296A (en) * | 2011-02-22 | 2016-06-09 | ザ プロクター アンド ギャンブル カンパニー | Method of identifying cosmetic agents for producing skin care compositions |
JP2016148604A (en) * | 2015-02-13 | 2016-08-18 | 国立研究開発法人産業技術総合研究所 | Biomarker retrieval method, biomarker retrieval apparatus, and program |
-
2018
- 2018-08-09 JP JP2018150286A patent/JP2020025471A/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008518598A (en) * | 2004-10-29 | 2008-06-05 | ノバルティス アクチエンゲゼルシャフト | Drug toxicity assessment |
JP2008022762A (en) * | 2006-07-20 | 2008-02-07 | Miyazakiken Sangyo Shien Zaidan | Method, program and apparatus for evaluating high throughput function |
JP2016105296A (en) * | 2011-02-22 | 2016-06-09 | ザ プロクター アンド ギャンブル カンパニー | Method of identifying cosmetic agents for producing skin care compositions |
WO2012147800A1 (en) * | 2011-04-25 | 2012-11-01 | 東レ株式会社 | Composition for predicting sensitivity to trastuzumab therapy in breast cancer patients and method using same |
JP2016099674A (en) * | 2014-11-18 | 2016-05-30 | 国立研究開発法人産業技術総合研究所 | Medicament search device, medicament search method and program |
JP2016148604A (en) * | 2015-02-13 | 2016-08-18 | 国立研究開発法人産業技術総合研究所 | Biomarker retrieval method, biomarker retrieval apparatus, and program |
Non-Patent Citations (2)
Title |
---|
NUCLEIC ACIDS RESEARCH, vol. 44, JPN6022021584, 2016, pages 5515 - 5528, ISSN: 0004785860 * |
統計数理, vol. 54, JPN6022021588, 2006, pages 405 - 423, ISSN: 0004785859 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114694770A (en) * | 2020-12-30 | 2022-07-01 | 中国人民解放军军事科学院军事医学研究院 | Method for constructing drug hepatotoxicity prediction model and application thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pyrkov et al. | Extracting biological age from biomedical data via deep learning: too much of a good thing? | |
Antonelli et al. | Statistical workflow for feature selection in human metabolomics data | |
Kruse et al. | Machine learning principles can improve hip fracture prediction | |
Stanfill et al. | A systematic literature review of automated clinical coding and classification systems | |
Lakkis et al. | A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation | |
Paul et al. | Bias investigation in artificial intelligence systems for early detection of Parkinson’s disease: a narrative review | |
US20140278130A1 (en) | Method of predicting toxicity for chemical compounds | |
Seccia et al. | Machine learning use for prognostic purposes in multiple sclerosis | |
Hijazi et al. | Wearable devices, smartphones, and interpretable artificial intelligence in combating COVID-19 | |
Vourganas et al. | Individualised responsible artificial intelligence for home-based rehabilitation | |
Kaswan et al. | AI-based natural language processing for the generation of meaningful information electronic health record (EHR) data | |
Varsou et al. | toxFlow: a web-based application for read-across toxicity prediction using omics and physicochemical data | |
Wu et al. | Estimation and prediction for Nadarajah-Haghighi distribution under progressive type-II censoring | |
McBroome et al. | Identifying SARS-CoV-2 regional introductions and transmission clusters in real time | |
He | Ontology-based vaccine and drug adverse event representation and theory-guided systematic causal network analysis toward integrative pharmacovigilance research | |
Zhang et al. | An explainable machine learning platform for pyrazinamide resistance prediction and genetic feature identification of Mycobacterium tuberculosis | |
Truong et al. | Repurposing drugs via network analysis: opportunities for psychiatric disorders | |
Ghnemat et al. | Explainable Artificial Intelligence (XAI) for deep learning based medical imaging classification | |
Narayanan et al. | IntelliGenes: Interactive and user-friendly multimodal AI/ML application for biomarker discovery and predictive medicine | |
KR101067352B1 (en) | System and method comprising algorithm for mode-of-action of microarray experimental data, experiment/treatment condition-specific network generation and experiment/treatment condition relation interpretation using biological network analysis, and recording media having program therefor | |
Tsamatsoulis | Comparing the Robustness of Statistical Estimators of Proficiency Testing Schemes for a Limited Number of Participants | |
JP2020025471A (en) | Toxicity learning device, toxicity learning method, learned model, toxicity prediction device, and program | |
Lan et al. | Bayesian network feature finder (BANFF): an R package for gene network feature selection | |
Deelder et al. | Geographical classification of malaria parasites through applying machine learning to whole genome sequence data | |
Mihaljevic et al. | Evaluating the within-host dynamics of Ranavirus infection with mechanistic disease models and experimental data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210520 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220727 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20221122 |