JP2020025471A - Toxicity learning device, toxicity learning method, learned model, toxicity prediction device, and program - Google Patents

Toxicity learning device, toxicity learning method, learned model, toxicity prediction device, and program Download PDF

Info

Publication number
JP2020025471A
JP2020025471A JP2018150286A JP2018150286A JP2020025471A JP 2020025471 A JP2020025471 A JP 2020025471A JP 2018150286 A JP2018150286 A JP 2018150286A JP 2018150286 A JP2018150286 A JP 2018150286A JP 2020025471 A JP2020025471 A JP 2020025471A
Authority
JP
Japan
Prior art keywords
toxicity
expression data
data
compound
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018150286A
Other languages
Japanese (ja)
Inventor
勝久 堀本
Katsuhisa Horimoto
勝久 堀本
福井 一彦
Kazuhiko Fukui
一彦 福井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2018150286A priority Critical patent/JP2020025471A/en
Publication of JP2020025471A publication Critical patent/JP2020025471A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To provide a novel method for predicting toxicity of a compound.SOLUTION: A toxicity learning device 10 comprises: an input part 11 which inputs expression data of a sample on which a compound is exposed and expression data of a control; a comparison part 13 which compares the expression data of the sample and the control by each predetermined gene; an encoding part 14 which encodes the expression data of a gene on the basis of a difference of the expression data; a label imparting part 15 which imparts a toxicity label of the compound to the encoded expression data; and a model learning part 16 which performs learning of a model in which toxicity of the compound is predicted from the expression data of the gene by using teacher data to which the label is imparted.SELECTED DRAWING: Figure 2

Description

本発明は、毒性学習装置、毒性学習方法、学習済みモデル、毒性予測装置およびプログラムに関する。   The present invention relates to a toxicity learning device, a toxicity learning method, a learned model, a toxicity prediction device, and a program.

医薬品開発には、莫大な開発費用と長い研究開発期間がかかる一方で、医薬品が無事に上市される成功確率は決して高いものではない。この原因の一つがヒトに対する安全性を十分に確保できないことである。医薬品開発の早期の段階でその毒性を見極めることができれば、医薬品開発の成功率が向上すると考えられる。そこで、従来から、医薬品の安全性を予測する研究が行われていた。   While drug development involves enormous development costs and long research and development periods, the success rate of successfully launching a drug is by no means high. One of the causes is that human safety cannot be sufficiently ensured. If the toxicity can be determined at an early stage of drug development, the success rate of drug development will increase. Therefore, studies for predicting the safety of pharmaceuticals have been conducted.

非特許文献1では、初代肝細胞を用いたスフェロイド培養系に着目し、肝細胞3次元培養系を用いたアセトアミノフェンの肝毒性評価を行うことが開示されている。また、構造活性相関(QSAR)に基づいて毒性を予測するソフトウェアも販売されている(非特許文献2)。また、化合物の構造に着目して、その化合物の毒性をディープラーニングで求めようとする研究も発表されている(非特許文献3)。   Non-Patent Document 1 discloses that hepatotoxicity evaluation of acetaminophen using a three-dimensional hepatocyte culture system is performed, focusing on a spheroid culture system using primary hepatocytes. In addition, software for predicting toxicity based on structure-activity relationship (QSAR) is also available (Non-Patent Document 2). In addition, a study has been published that seeks to determine the toxicity of a compound by deep learning, focusing on the structure of the compound (Non-Patent Document 3).

佐能正剛「ヒトにおける医薬品の肝毒性及び代謝物の in vitro, in vivo 予測評価系の構築に関する研究」YAKUGAKU ZASSHI 135(11) 1273―1279 (2015)Masanobu Sano, "Study on in vitro and in vivo prediction evaluation system for hepatotoxicity and metabolites of pharmaceuticals in humans" YAKUGAKU ZASSHI 135 (11) 1273-1279 (2015) QSAR毒性予測ソフトウェア Leadscope(R) Model Applier Genetic Toxicity Suite 伊藤忠テクノソリューションズ株式会社、2017年、インターネット<URL:http://ls.ctc-g.co.jp/products/leadscope/files/LeadscopeModelApplier_2017.pdf>QSAR Toxicity Prediction Software Leadscope (R) Model Applier Genetic Toxicity Suite ITOCHU Techno Solutions Co., Ltd., 2017, Internet <URL: http://ls.ctc-g.co.jp/products/leadscope/files/LeadscopeModelApplier_2017.pdf> Andreas Mayr他「Deep Tox: Toxicity Prediction using Deep Learning」Frontiers in Environment Science, February 2016Andreas Mayr et al. `` Deep Tox: Toxicity Prediction using Deep Learning '' Frontiers in Environment Science, February 2016

本発明は、化合物の毒性を予測する新しい方法を提供することを目的とする。   The present invention aims to provide a new method for predicting the toxicity of a compound.

本発明は、化合物の毒性を予測するために、化合物を曝露したサンプルの発現データを用いる。本発明では、機械学習を用いてあらかじめ学習した学習済みモデルを用いて毒性の予測を行う。ここで問題となるのが、モデルの学習に用いる教師データをどのようにして準備するかである。非特許文献3は、化合物の構造に着目しているが、本発明はこれとは異なる方法を採用する。   The present invention uses expression data from samples exposed to a compound to predict the toxicity of the compound. In the present invention, toxicity prediction is performed using a learned model that has been learned in advance using machine learning. The problem here is how to prepare the teacher data used for learning the model. Non-Patent Document 3 focuses on the structure of a compound, but the present invention employs a different method.

本発明の毒性学習装置は、化合物を曝露したサンプルの発現データとコントロールの発現データを入力する入力部と、前記サンプルと前記コントロールの発現データを所定の遺伝子ごとに比較する比較部と、前記発現データの違いに基づいて、前記遺伝子の発現データを符号化する符号化部と、符号化された発現データに前記化合物の毒性のラベルを付与するラベル付与部と、前記ラベルが付与された教師データを用いて、遺伝子の発現データから化合物の毒性を予測するモデルの学習を行うモデル学習部とを備える。   The toxicity learning device of the present invention includes an input unit for inputting expression data of a sample exposed to a compound and expression data of a control, a comparing unit for comparing the sample and the expression data of the control for each predetermined gene, An encoding unit that encodes the expression data of the gene based on a difference between the data, a labeling unit that labels the encoded expression data with a toxicity label of the compound, and teacher data to which the label is added. And a model learning unit for learning a model for predicting the toxicity of the compound from the gene expression data using

このように化合物を曝露したサンプルとコントロールの発現データの比較から、遺伝子ごとの発現データの違いを符号化すると共に、当該化合物の毒性についての知見を利用してラベルを付与することで教師データを生成できる。この教師データを用いて発現データから化合物の毒性を推論するためのモデルを生成できる。   From the comparison of the expression data of the sample exposed to the compound and the control in this way, the difference in expression data for each gene is encoded, and the labeling is applied using knowledge about the toxicity of the compound to generate teacher data. Can be generated. A model for inferring the toxicity of the compound from the expression data can be generated using the teacher data.

本発明の毒性学習装置において、前記符号化部は、前記発現データの違いに基づいて前記遺伝子に順位を付け、前記順位が上位の所定数の遺伝子に「1」、下位の所定数の遺伝子に「−1」、それ以外の所定数に「0」を付与してもよい。所定数は任意の数である。例えば、遺伝子の全体数のパーセントによって定めてもよく、好ましくは5%、さらに好ましくは1〜2%である。   In the toxicity learning device of the present invention, the encoding unit ranks the genes based on the difference in the expression data, and the rank is “1” for a predetermined number of genes in an upper rank and “1” in a predetermined number of genes in a lower rank. “−1” and “0” may be added to other predetermined numbers. The predetermined number is an arbitrary number. For example, it may be defined by the percentage of the total number of genes, preferably 5%, more preferably 1-2%.

このように発現データを1,0,−1で符号化することにより、機械学習による学習を行いやすくなる。また、本発明では、上位と下位について同じ所定数を0以外の数値としているので、上下で0以外の数値をとる範囲が対称であり、モデルの学習を適切に行える。   By encoding the expression data with 1, 0, -1 in this manner, learning by machine learning becomes easy. Further, in the present invention, since the same predetermined number is set to a numerical value other than 0 for the upper order and the lower order, the range in which the numerical value other than 0 is taken in the upper and lower parts is symmetrical, so that the model can be appropriately learned.

本発明の毒性学習装置において、前記比較部は、次の(i)〜(iii)の方法で、前記発現データを遺伝子ごとに比較して複数の比較結果を得てもよい。
(i)前記サンプルと前記コントロールの発現データの差をとる。
(ii)前記サンプルと前記コントロールの発現データの比をとる。
(iii)前記サンプルと前記コントロールの発現データを正規化して差をとる。
In the toxicity learning device of the present invention, the comparing unit may obtain a plurality of comparison results by comparing the expression data for each gene by the following methods (i) to (iii).
(I) Take the difference between the expression data of the sample and the control.
(Ii) Take the ratio of the expression data of the sample and the control.
(Iii) Normalize the expression data of the sample and the control and take the difference.

生物を対象とした実験(実測値)によるデータをベースにした機械学習の研究では、大量の教師データを取得することが困難である。本発明では、発現データを取得する手法(例えば、マイクロアレイによる解析手法)による揺らぎを利用し、(i)〜(iii)の異なる計算手法で比較することにより、比較結果のデータ量を増やすことができ、適切な学習を行える。   In machine learning research based on data from experiments (actual measurements) on living things, it is difficult to obtain a large amount of teacher data. In the present invention, it is possible to increase the data amount of the comparison result by making use of fluctuations caused by a method of acquiring expression data (for example, an analysis method using a microarray) and performing comparisons using different calculation methods (i) to (iii). Can do appropriate learning.

本発明の毒性学習装置において、前記ラベル付与部は、前記既存の化合物の毒性を記憶したデータベースから読み出した毒性のデータを前記ラベルとして用いてもよい。また、本発明の毒性学習装置は、前記既存の化合物の副作用を記憶したデータベースから化合物の副作用のデータを読み出し、読み出した副作用のデータに基づいて化合物の毒性のデータを求めるラベル生成部を備え、前記ラベル付与部は、求めた毒性のデータを前記ラベルとして用いてもよい。   In the toxicity learning device of the present invention, the labeling unit may use toxicity data read from a database storing the toxicity of the existing compound as the label. Further, the toxicity learning device of the present invention includes a label generation unit that reads data on the side effects of the compound from the database storing the side effects of the existing compound, and obtains data on the toxicity of the compound based on the read side effect data, The labeling unit may use the obtained toxicity data as the label.

本発明の毒性学習方法は、化合物を曝露したサンプルの発現データとコントロールの発現データを入力するステップと、前記サンプルと前記コントロールの発現データを遺伝子ごとに比較するステップと、前記発現データの違いに基づいて、前記遺伝子の発現データを符号化するステップと、符号化された発現データに前記化合物の毒性のラベルを付して教師データを生成するステップと、前記教師データを用いて、遺伝子の発現データから化合物の毒性を予測するモデルの学習を行うステップとを備える。本発明の毒性学習方法は、上述した毒性学習装置の各種の特徴を有してもよい。   The toxicity learning method of the present invention comprises the steps of: inputting expression data of a sample exposed to a compound and expression data of a control; comparing the expression data of the sample and the control for each gene; Encoding the expression data of the gene, generating the teacher data by labeling the encoded expression data with the toxicity of the compound, and using the teacher data to express the gene. Learning a model for predicting the toxicity of the compound from the data. The toxicity learning method of the present invention may have various features of the toxicity learning device described above.

本発明の毒性学習方法は、前記入力するステップでは、既知の一の化合物を曝露した複数のサンプルの発現データを入力し、前記比較するステップでは、前記複数のサンプルと前記コントロールの発現データを遺伝子ごとに比較し、前記一の化合物について複数の比較結果を得てもよい。生物を対象とした実験では、実験による揺らぎを低減するため、複数の実測データの平均を取るのが通常であるが、本発明の構成によれば、複数の実測データを独立した実験のデータと考えて、教師データのデータ量を増やすことができる。   In the toxicity learning method of the present invention, in the inputting step, expression data of a plurality of samples to which a known compound has been exposed are input, and in the comparing step, the expression data of the plurality of samples and the control are expressed by a gene. And a plurality of comparison results may be obtained for the one compound. In experiments on living organisms, it is usual to take an average of a plurality of actually measured data in order to reduce fluctuations caused by the experiment.However, according to the configuration of the present invention, a plurality of actually measured data are compared with independent experiment data. Considering this, the data amount of the teacher data can be increased.

本発明の毒性予測装置は、上記した毒性学習方法によって学習された学習済みモデルを用いて、化合物の毒性を推論する装置であって、未知の化合物を曝露したサンプルの発現データを入力する入力部と、前記サンプルの発現データとコントロールの発現データを所定の遺伝子ごとに比較する比較部と、前記発現データの違いに基づいて、前記遺伝子の発現データを符号化する符号化部と、前記符号化された発現データを学習済みモデルに適用して、前記化合物の毒性を推論する推論部と、前記推論部による推論結果を出力する出力部とを備える。この構成により、化合物を曝露した発現データを用いて化合物の毒性を予測することができる。   The toxicity prediction device of the present invention is a device for inferring the toxicity of a compound using a learned model learned by the above-described toxicity learning method, and an input unit for inputting expression data of a sample exposed to an unknown compound. A comparing unit that compares the expression data of the sample with the expression data of the control for each predetermined gene; an encoding unit that encodes the expression data of the gene based on a difference between the expression data; and the encoding unit. An inference unit that infers the toxicity of the compound by applying the obtained expression data to the learned model, and an output unit that outputs an inference result by the inference unit. With this configuration, the toxicity of the compound can be predicted using the expression data to which the compound has been exposed.

本発明の学習済みモデルは、化合物を曝露したときの発現データに基づいて、化合物の毒性を定量化した値を出力するよう、コンピュータを機能させるための学習済みモデルであって、ニューラルネットワークの入力層に、コントロールとの発現データの違いに基づいて符号化された発現データが入力され、入力された符号化データに基づいて前記ニューラルネットワークの学習済みの重み付け係数に基づく演算を行い、出力層から前記化合物の毒性を定量化した値を出力するよう、コンピュータを機能させる。   The trained model of the present invention is a trained model for operating a computer so as to output a value quantifying the toxicity of a compound based on expression data upon exposure of the compound, and is an input of a neural network. In the layer, expression data encoded based on the difference between the expression data with the control is input, and based on the input encoded data, perform a calculation based on the learned weighting coefficients of the neural network, and from the output layer The computer is operated to output a value quantifying the toxicity of the compound.

本発明によれば、このように化合物を曝露したサンプルの発現データから当該化合物の毒性を推論するためのモデルを学習させるための教師データを生成できる。   According to the present invention, it is possible to generate teacher data for learning a model for inferring the toxicity of the compound from the expression data of the sample exposed to the compound in this way.

(a)肝毒性判別の全体の枠組みの中の学習段階を示す図である。(b)肝毒性判別の全体の枠組みの中の推論段階を示す図である。(A) is a figure which shows the learning stage in the whole framework of hepatotoxicity discrimination. (B) It is a figure which shows the inference stage in the whole framework of hepatotoxicity discrimination. 第1の実施の形態の毒性学習装置の構成を示す図である。It is a figure showing composition of a toxicity learning device of a 1st embodiment. サンプルとコントロールの発現量の比較を行った結果の一例を示す図である。It is a figure showing an example of the result of having compared the expression level of a sample and a control. 遺伝子ごとに発現データの比較を行った例を示す図である。It is a figure showing the example which compared expression data for every gene. 遺伝子に与えた順位に従って、発現データを符号化した例を示す図である。FIG. 7 is a diagram showing an example in which expression data is encoded according to the order given to genes. (a)ラベル付与部によって各化合物にラベルを付与した例を示す図である。(b)発現データを符号化したデータを示す図である。(A) It is a figure which shows the example which attached the label to each compound by the label provision part. (B) It is a figure which shows the data which encoded the expression data. 第1の実施の形態の毒性学習装置の動作を示す図である。It is a figure showing operation of a toxicity learning device of a 1st embodiment. 第1の実施の形態の毒性予測装置の構成を示す図である。It is a figure showing the composition of the toxicity prediction device of a 1st embodiment. 第2の実施の形態の毒性学習装置の構成を示す図である。It is a figure showing composition of a toxicity learning device of a 2nd embodiment. (a)副作用DBに記憶されたデータの例を示す図である。(b)副作用DBに記憶されたデータを加工した例を示す図である。(A) is a diagram showing an example of data stored in a side effect DB. (B) It is a figure which shows the example which processed the data memorize | stored in the side effect DB.

以下、本発明の実施の形態の毒性学習装置および毒性予測装置について、図面を参照して説明する。以下に説明する実施の形態では、未知の化合物の肝毒性を判別する毒性予測装置および当該毒性予測装置で用いるモデルを学習する毒性学習装置を例として説明する。なお、本発明の毒性学習装置および毒性予測装置は、肝毒性以外の毒性を判別する毒性予測装置にも適用することができる。   Hereinafter, a toxicity learning device and a toxicity prediction device according to an embodiment of the present invention will be described with reference to the drawings. In the embodiment described below, a toxicity prediction device that discriminates hepatotoxicity of an unknown compound and a toxicity learning device that learns a model used in the toxicity prediction device will be described as examples. Note that the toxicity learning device and the toxicity prediction device of the present invention can be applied to a toxicity prediction device for determining toxicity other than hepatotoxicity.

(第1の実施の形態)
図1は、本実施の形態の毒性学習装置10および毒性予測装置20による肝毒性判別の全体の枠組みを示す図である。図1(a)に示すように、学習段階では、毒性学習装置10が多数の教師データを用いてモデルの学習を行い、学習済みモデルを生成する。ここで、教師データとして何を用いればよいのか、ということが問題であった。推論段階では、図1(b)に示すように、毒性予測装置20が、学習済みモデルを用いて、新規化合物の肝毒性の判別を行う。本実施の形態では、「Most」「Less」「Non」の3段階で肝毒性を判別する。「Most」が肝毒性が最も高く、「Non」は肝毒性がないことを表している。
(First Embodiment)
FIG. 1 is a diagram showing an overall framework of hepatotoxicity discrimination by the toxicity learning device 10 and the toxicity prediction device 20 of the present embodiment. As shown in FIG. 1A, in the learning stage, the toxicology learning device 10 learns a model using a large number of teacher data, and generates a learned model. Here, there is a problem as to what should be used as teacher data. In the inference stage, as shown in FIG. 1B, the toxicity prediction device 20 determines the hepatotoxicity of the new compound using the learned model. In the present embodiment, hepatotoxicity is determined in three stages of “Most”, “Less”, and “Non”. “Most” indicates the highest hepatotoxicity, and “Non” indicates no hepatotoxicity.

なお、学習済みモデルとしては、ニューラルネットワークのモデルを用いる。ニューラルネットワークの構造を何層とするか、畳込み層及びプーリング層を設けるかどうか等は任意であるが、発明者らの実験によれば、畳込みニューラルネットワークを用いると、精度良く推論を行えるモデルを構成することができることが分かった。   Note that a neural network model is used as the learned model. The number of layers of the structure of the neural network and whether or not to provide a convolutional layer and a pooling layer are arbitrary. However, according to experiments by the inventors, inference can be performed with high accuracy by using a convolutional neural network. It turns out that the model can be constructed.

図2は、第1の実施の形態の毒性学習装置10の構成を示す図である。毒性学習装置10は、発現データを入力する入力部11と、入力されたデータから教師データを生成する教師データ生成部12と、教師データを用いてモデルの学習を行うモデル学習部16とを有している。   FIG. 2 is a diagram illustrating a configuration of the toxicity learning device 10 according to the first embodiment. The toxicity learning device 10 includes an input unit 11 for inputting expression data, a teacher data generating unit 12 for generating teacher data from the input data, and a model learning unit 16 for learning a model using the teacher data. are doing.

入力部11は、化合物を曝露したサンプルの発現データとコントロールの発現データの入力を受け付ける。ここでサンプルの発現データが曝露される化合物は既知の化合物である。発現データは、遺伝子の発現データでもよいし、タンパク質の発現データでもよい。本実施の形態では、発現データは、マイクロアレイで取得されたデータである。   The input unit 11 receives input of expression data of a sample to which the compound has been exposed and expression data of a control. Here, the compound to which the expression data of the sample is exposed is a known compound. The expression data may be gene expression data or protein expression data. In the present embodiment, the expression data is data obtained by a microarray.

教師データ生成部12は、比較部13と、符号化部14と、ラベル付与部15を有している。比較部13は、サンプルの発現データとコントロールの発現データとを比較する機能を有する。比較部13は、比較部13は、次の(i)〜(iii)の方法で、前記発現データを遺伝子ごとに比較して複数の比較結果を得る。
(i)サンプルの発現データとコントロールの発現データの差をとる。
(ii)サンプルの発現データとコントロールの発現データの比をとる。
(iii)サンプルの発現データとコントロールの発現データをそれぞれ正規化した上で差をとる。
The teacher data generation unit 12 includes a comparison unit 13, an encoding unit 14, and a label assignment unit 15. The comparing unit 13 has a function of comparing the expression data of the sample with the expression data of the control. The comparing unit 13 obtains a plurality of comparison results by comparing the expression data for each gene by the following methods (i) to (iii).
(I) Take the difference between the expression data of the sample and the expression data of the control.
(Ii) Take the ratio between the expression data of the sample and the expression data of the control.
(Iii) Normalize the expression data of the sample and the expression data of the control, and then take the difference.

このように3通りの方法で比較と行うことにより、サンプルとコントロールの比較結果のデータ量は、元のサンプルのデータの3倍になる。毒性学習装置10、入力されたデータの3倍の量のデータを学習に用いることができる。   As described above, by performing the comparison using the three methods, the data amount of the comparison result between the sample and the control becomes three times the data amount of the original sample. The toxicology learning device 10 can use three times the amount of input data for learning.

図3は、サンプルとコントロールの発現量の比較を行った結果の一例を示す図である。「Diff」は発現データの差をとった結果であり(上記(i))、「Ratio」は発現データの比をとった結果であり(上記(ii))、「CR(Change Ratioの意味)」正規化した上で差をとった結果である(上記(iii))。   FIG. 3 is a diagram showing an example of the result of comparing the expression levels of a sample and a control. “Diff” is the result of the difference between the expression data ((i) above), “Ratio” is the result of the ratio of the expression data ((ii)), and “CR” (meaning Change Ratio) "This is the result of taking the difference after normalization ((iii) above).

縦軸に記載された「Probe」はマイクアレイのプローブ番号を示し、横軸のDrugは、サンプルに曝露させた化合物を示す。例えば、「Drug1」を曝露したサンプルでは、Probe1の差は10、Probe2の差は1253、Probe3の差は
324、・・・であることを示している。
“Probe” described on the vertical axis indicates the probe number of the microphone array, and Drug on the horizontal axis indicates the compound exposed to the sample. For example, in the sample exposed to “Drug1”, the difference of Probe1 is 10, the difference of Probe2 is 1253, the difference of Probe3 is 324, and so on.

図3に示す例において、縦軸の「Probe」は発現データを取得したマイクロアレイのプローブを意味するが、本実施の形態の比較部13は、遺伝子ごとにサンプルとコントロールの比較を行う。つまり、「Probe」ごとの比較結果を遺伝子ごとの比較結果に変える。本実施の形態では、一つの遺伝子に複数のProbeが対応する場合には、複数のProbeの発現データの平均値を、その遺伝子の発現データの代表値とする。これにより、ヒトの遺伝子であれば約2万個の遺伝子の比較結果に絞り込むことができる。比較部13は、遺伝子の中でも一般的に重要であると考えられている約1000個程度のランドマーク遺伝子に絞りこんでもよい。このように比較結果を絞り込むことにより、機械学習による計算を可能にできる。   In the example shown in FIG. 3, “Probe” on the vertical axis indicates a probe of a microarray from which expression data has been acquired, but the comparison unit 13 of the present embodiment compares a sample with a control for each gene. That is, the comparison result for each “Probe” is changed to the comparison result for each gene. In the present embodiment, when a plurality of Probes correspond to one gene, the average value of the expression data of the plurality of Probes is used as the representative value of the expression data of the gene. As a result, in the case of human genes, it is possible to narrow down the comparison results of about 20,000 genes. The comparison unit 13 may narrow down to about 1000 landmark genes that are generally considered to be important among the genes. By narrowing down the comparison results in this way, calculations by machine learning can be made possible.

図4は、遺伝子ごとに発現データの比較を行った例を示す図である。例えば、「Drug1」を曝露したサンプルでは、GeneID1の遺伝子の差は101、GeneID2の遺伝子の差は5387、GeneID3の遺伝子の差は324である。   FIG. 4 is a diagram showing an example in which expression data is compared for each gene. For example, in the sample exposed to “Drug1”, the difference between GeneID1 genes is 101, the difference between GeneID2 genes is 5387, and the difference between GeneID3 genes is 324.

符号化部14は、図4に示すように求めた発現データの差(または比)に基づいて、遺伝子の発現データを符号化する。具体的には、符号化部14は、発現データの差(または比)に基づいて遺伝子IDに順位をつける。符号化部14は、付与した順位が上位の所定数の遺伝子に「1」、順位が下位の所定数の遺伝子に「−1」、それ以外の所定数に「0」を付与して、発現データを符号化する。   The encoding unit 14 encodes the expression data of the gene based on the difference (or ratio) of the expression data obtained as shown in FIG. Specifically, the encoding unit 14 ranks gene IDs based on the difference (or ratio) of the expression data. The encoding unit 14 assigns “1” to a predetermined number of genes with higher ranks, “−1” to a predetermined number of genes with lower ranks, and “0” to other predetermined numbers. Encode the data.

図5は、遺伝子に与えて順位に従って、「1」「0」「−1」を付与した例を示す図である。GeneID1の遺伝子は発現データの差が大きく順位が高いので、発現データが「1」に符号化され、GeneID3の遺伝子は発現データの差が小さく(またはマイナスの値が大きく)順位が低いので、発現データが「−1」に符号化されている。このように符号化部14が発現データのデータ変換を行うことにより、機械学習を適切に行える。   FIG. 5 is a diagram illustrating an example in which “1”, “0”, and “−1” are assigned to genes according to the order. Since the gene ID1 gene has a large difference in expression data and has a high rank, the expression data is coded as "1", and the GeneID3 gene has a small difference (or a large negative value) in the expression data and has a low rank. Data is encoded as "-1". By performing the data conversion of the expression data by the encoding unit 14 in this manner, machine learning can be appropriately performed.

本実施の形態では、順位の上位2%の遺伝子の発現データを「1」にし、下位2%の遺伝子の発現データを「−1」とし、それ以外の遺伝子の発現データを「0」にする。ここでは、上位と下位の2%をそれぞれ「1」と「−1」にしているが、どの程度までを「1」「−1」とするかによって、学習済みモデルを使った推論の精度が変わるので、学習済みモデルの評価に基づいて調整することが好ましい。   In the present embodiment, the expression data of the top 2% of the genes is set to “1”, the expression data of the bottom 2% of the genes is set to “−1”, and the expression data of the other genes are set to “0”. . Here, the upper and lower 2% are set to “1” and “−1”, respectively, but the accuracy of the inference using the trained model depends on the degree of “1” and “−1”. Since it changes, it is preferable to adjust based on the evaluation of the trained model.

ラベル付与部15は、化合物に対応する毒性を表すラベルを付与する。毒性学習装置10は、肝毒性データベース(以下、「肝毒性DB」という)30と接続されており、肝毒性DB30に記憶された化合物の毒性のデータに基づいて、化合物に対して「Most」「Less」「Non」のラベルを付与する。肝毒性DB30の一例は、アメリカ食品医薬品局(FDA)が提供しているLiver Toxicity Konwledge Base(LTKB)である。ラベル付与部15は、LTKBを参照して化合物にラベルを付与する。   The label assignment unit 15 assigns a label indicating toxicity corresponding to the compound. The toxicity learning device 10 is connected to a hepatotoxicity database (hereinafter, referred to as “hepatotoxicity DB”) 30, and based on the toxicity data of the compound stored in the hepatotoxicity DB 30, “Most” “ Labels “Less” and “Non” are given. One example of the hepatotoxicity DB 30 is the Liver Toxicity Knowledge Base (LTKB) provided by the U.S. Food and Drug Administration (FDA). The labeling unit 15 labels the compound with reference to the LTKB.

図6(a)は、ラベル付与部15によって各化合物にラベルを付与した例を示す図である。なお、図6(a)は、図4,図5と比べて、縦軸と横軸を入れ替えて記載しているので留意されたい。例えば、Drug1の化合物は毒性が「Most」、Drug2の化合物は毒性がMost、Drug3の化合物は毒性が「Less」であるというラベルが付与されている。これにより、遺伝子の発現データの符号化データとラベルとがセットとなった教師データが得られる。なお、教師データとしては、既存の化合物が何であるか(図6(a)における「Drug1」等の名称)ということは重要ではない。必要なのは、図6(b)に示すような、発現データを符号化したデータである。つまり、遺伝子の発現データとそれに対応する毒性のラベルが教師データとなる。   FIG. 6A is a diagram illustrating an example in which a label is assigned to each compound by the label assigning unit 15. It should be noted that FIG. 6A shows the vertical axis and the horizontal axis interchanged as compared with FIGS. 4 and 5. For example, a compound of Drug 1 is labeled with a toxicity of "Most", a compound of Drug 2 is labeled with a toxicity of Most, and a compound of Drug 3 is labeled with a toxicity of "Less". As a result, teacher data in which encoded data of gene expression data and labels are set is obtained. Note that it is not important what the existing compound is (name of “Drug1” in FIG. 6A) as the teacher data. What is needed is data obtained by encoding expression data as shown in FIG. In other words, the gene expression data and the corresponding toxicity label serve as the teacher data.

モデル学習部16は、教師データ生成部12にて生成された教師データを用いてモデルの学習を行う。ニューラルネットワークの入力層に教師データの発現データを入力し、出力層から対応するラベルが得られるようにニューラルネットワークの重み係数を学習する。モデル学習部16は、大量の教師データを用いてモデルの学習を行うことにより、発現データから毒性を推論するためのモデルを生成する。モデル学習部16は、学習によって得られたモデルを学習済みモデル記憶部17に記憶する。   The model learning unit 16 learns a model using the teacher data generated by the teacher data generation unit 12. The expression data of the teacher data is input to the input layer of the neural network, and the weight coefficient of the neural network is learned so that the corresponding label can be obtained from the output layer. The model learning unit 16 generates a model for inferring toxicity from the expression data by learning the model using a large amount of teacher data. The model learning unit 16 stores the model obtained by the learning in the learned model storage unit 17.

図7は、第1の実施の形態の毒性学習装置10の動作を示すフローチャートである。毒性学習装置10は、化合物を曝露したサンプルの発現データとコントロールの発現データを入力する(S10)。毒性学習装置10は、入力されたサンプルとコントロールの発現データを比較する(S11)。ここでは、上述したように、発現データの差、比、および正規化した上で差をとる。   FIG. 7 is a flowchart illustrating the operation of the toxicity learning device 10 according to the first embodiment. The toxicity learning device 10 inputs the expression data of the sample to which the compound was exposed and the expression data of the control (S10). The toxicity learning device 10 compares the input sample and the expression data of the control (S11). Here, as described above, the difference, ratio, and normalization of the expression data are used to obtain the difference.

次に、毒性学習装置10はデータを圧縮する(S12)。すなわち、マイクロアレイのプローブのデータを遺伝子のデータに変換し、データ数を圧縮する。この際、ヒトの遺伝子(約2万個)を用いてもよいし、肝毒性に関連のありそうな1000個程度の遺伝子を用いてもよい。   Next, the toxicity learning device 10 compresses the data (S12). That is, the data of the probe of the microarray is converted into the data of the gene, and the number of data is compressed. At this time, human genes (about 20,000) may be used, or about 1000 genes likely to be related to hepatotoxicity.

毒性学習装置10は、発現データの比較結果に基づいて遺伝子を順位付けし(S13)、付与した順位に基づいて発現データを符号化データに変換する(S14)。具体的には、順位が上位2%の遺伝子の発現データを「1」とし、順位が下位2%の遺伝子の発現データを「−1」とし、それ以外の遺伝子の発現データを「0」とする。続いて、毒性学習装置10は、肝毒性DB30のデータを参照して、化合物にラベルを付与し、教師データを生成する(S15)。   The toxicity learning apparatus 10 ranks the genes based on the comparison result of the expression data (S13), and converts the expression data into encoded data based on the assigned rank (S14). Specifically, the expression data of the gene with the higher rank of 2% is “1”, the expression data of the gene with the lower rank of 2% is “−1”, and the expression data of the other genes are “0”. I do. Subsequently, the toxicity learning device 10 refers to the data in the hepatotoxicity DB 30 and assigns a label to the compound to generate teacher data (S15).

毒性学習装置10は、処理を行っていないサンプルデータがあるか否かを判定し(S16)、他のサンプルデータがある場合には(S16でYES)、上述した処理を繰り返す(S11〜S15)。他のサンプルデータがない場合(S16でNO)、毒性学習装置10は、生成した大量の教師データを用いて、モデルの学習を行い、学習によって得られたモデルを学習済みモデル記憶部17に記憶する(S17)。   The toxicology learning device 10 determines whether there is any sample data that has not been processed (S16). If there is another sample data (YES in S16), the above process is repeated (S11 to S15). . If there is no other sample data (NO in S16), the toxicity learning device 10 performs model learning using the generated large amount of teacher data, and stores the model obtained by learning in the learned model storage unit 17. (S17).

図8は、毒性予測装置20の構成を示す図である。毒性予測装置20は、毒性学習装置10での学習によって生成した学習済みモデルを記憶した学習済みモデル記憶部28を有している。毒性予測装置20は、肝毒性を調べたい新規化合物の発現データを入力する入力部21と、入力された発現データに前処理を行う前処理部22と、前処理された発現データを用いて肝毒性の有無を推論する推論部25と、推論結果を出力する出力部26とを有している。   FIG. 8 is a diagram showing a configuration of the toxicity prediction device 20. The toxicity prediction device 20 has a learned model storage unit 28 that stores a learned model generated by learning in the toxicity learning device 10. The toxicity prediction device 20 includes an input unit 21 for inputting expression data of a new compound whose hepatotoxicity is to be examined, a pre-processing unit 22 for performing pre-processing on the input expression data, and a liver processing unit using the pre-processed expression data. It has an inference unit 25 for inferring the presence or absence of toxicity and an output unit 26 for outputting an inference result.

前処理部22は、比較部23、符号化部24を有しており、入力部21に入力された新規化合物の発現データに対して、毒性学習装置10の比較部13、符号化部14で行った処理と同じ処理を行って、発現データを符号化データに変換する。なお、前処理部22には、コントロールデータ記憶部27が接続されており、コントロールデータ記憶部27から読み出したコントロールの発現データと、新規化合物の発現データとの比較を行う。これにより、毒性予測装置20に対して、コントロールの発現データを入力しなくてもよい。前処理部22は、発現データの符号化データを推論部25に渡す。   The preprocessing unit 22 includes a comparison unit 23 and an encoding unit 24. The comparison unit 13 and the encoding unit 14 of the toxicology learning device 10 apply the expression data of the new compound input to the input unit 21 to the data. The same processing as that performed is performed to convert the expression data into encoded data. Note that a control data storage unit 27 is connected to the preprocessing unit 22, and compares the expression data of the control read from the control data storage unit 27 with the expression data of the new compound. Thereby, it is not necessary to input control expression data to the toxicity prediction device 20. The preprocessing unit 22 passes the encoded data of the expression data to the inference unit 25.

推論部25は、学習済みモデル記憶部28から学習済みモデルを読み出し、読み出した学習済みモデルの入力層に、前処理部22から入力された符号化データを適用する。これにより、推論部25は、学習済みモデルの出力層から出力される肝毒性を求める。   The inference unit 25 reads the learned model from the learned model storage unit 28, and applies the encoded data input from the preprocessing unit 22 to the input layer of the read learned model. Thereby, the inference unit 25 obtains the hepatotoxicity output from the output layer of the learned model.

以上、本実施の形態の毒性学習装置10および毒性予測装置20の構成について説明したが、上記した毒性学習装置10および毒性予測装置20のハードウェアの例は、CPU、RAM、ROM、ハードディスク、ディスプレイ、キーボード、マウス、通信インターフェース等を備えたコンピュータである。上記した各機能を実現するモジュールを有するプログラムをRAMまたはROMに格納しておき、CPUによって当該プログラムを実行することによって、上記した毒性学習装置10および毒性予測装置20が実現される。このようなプログラムも本発明の範囲に含まれる。   The configuration of the toxicity learning device 10 and the toxicity prediction device 20 according to the present embodiment has been described above. Examples of the hardware of the toxicity learning device 10 and the toxicity prediction device 20 include a CPU, a RAM, a ROM, a hard disk, and a display. , A keyboard, a mouse, a communication interface, and the like. By storing a program having modules for realizing the above-described functions in a RAM or a ROM and executing the program by the CPU, the above-described toxicity learning device 10 and toxicity prediction device 20 are realized. Such a program is also included in the scope of the present invention.

本実施の形態の毒性学習装置10は、化合物を曝露したサンプルの発現データとコントロールの発現データを比較した結果に基づいて、遺伝子ごとの発現データの違いを符号化すると共に、当該化合物の毒性についてのラベルを付与することで教師データを生成できる。この教師データを用いて発現データから化合物の毒性を推論するためのモデルを生成できる。   The toxicity learning device 10 of the present embodiment encodes the difference in the expression data for each gene based on the result of comparing the expression data of the sample to which the compound was exposed and the expression data of the control, and also describes the toxicity of the compound. The teacher data can be generated by giving the label of. A model for inferring the toxicity of the compound from the expression data can be generated using the teacher data.

(第2の実施の形態)
図9は、第2の実施の形態の毒性学習装置10の構成を示す図である。第2の実施の形態の毒性学習装置10は、肝毒性DB30に加えて、副作用データベース(以下、「副作用DB」という)31に記憶された副作用のデータを用いる。第2の実施の形態の毒性学習装置10の基本的な構成は、第1の実施の形態の毒性学習装置10と同じであるが、副作用DB31から読み出したデータから、化合物の肝毒性に関するラベルを生成するラベル生成部18をさらに備えている。ラベル付与部15は、肝毒性DB30に記憶された肝毒性のデータに基づくラベルに加えて、ラベル生成部18にて生成されたラベルも用いる。
(Second embodiment)
FIG. 9 is a diagram illustrating a configuration of the toxicity learning device 10 according to the second embodiment. The toxicity learning device 10 according to the second embodiment uses side effect data stored in a side effect database (hereinafter, referred to as “side effect DB”) 31 in addition to the hepatotoxicity DB 30. The basic configuration of the toxicology learning device 10 according to the second embodiment is the same as that of the toxicology learning device 10 according to the first embodiment, but a label related to the hepatotoxicity of the compound is obtained from the data read from the side effect DB 31. It further includes a label generation unit 18 for generating. The labeling unit 15 uses the label generated by the label generation unit 18 in addition to the label based on the hepatotoxicity data stored in the hepatotoxicity DB 30.

副作用DB31の一例は、アメリカ食品医薬品局(FDA)が提供しているFDA Adverse Event Reporting System(FARES)である。FARESは、副作用レポートの自発的報告システムであり、医療専門家、患者、製薬企業など様々な報告者による膨大なレポートデータが含まれている。ただし、化合物の肝毒性のデータが体系的にまとめられているわけではないので、本実施の形態の毒性学習装置10は、副作用DB31のデータを利用するために、副作用DB31に記憶された多様なデータに基づいて、肝毒性に関するラベルを生成する。   One example of the side effect DB 31 is FDA Advertise Event Reporting System (FARES) provided by the U.S. Food and Drug Administration (FDA). FARES is a voluntary reporting system for side effects reports, and contains a huge amount of report data from various reporters, such as medical professionals, patients, and pharmaceutical companies. However, since the hepatotoxicity data of the compounds is not systematically compiled, the toxicity learning device 10 of the present embodiment uses various data stored in the side effect DB 31 in order to use the data of the side effect DB 31. Generate a label for hepatotoxicity based on the data.

図10(a)は、副作用DB31に記憶されているデータの例を示す図である。図10(a)に示す例では、医薬品1〜医薬品kについて、副作用1〜副作用mが記憶されている。医薬品と副作用の交差するマトリックスに記載されているx11等のデータは、当該医薬品に副作用があるか否かを示すデータである。 FIG. 10A is a diagram illustrating an example of data stored in the side effect DB 31. In the example shown in FIG. 10A, the side effects 1 to m are stored for the medicines 1 to k. Data such as x 11 listed in the matrix at the intersection of drugs and side effects is data indicating whether or not there is a side effect said medicament.

ラベル生成部18は、副作用DB31に記憶された医薬品を、毒性学習装置10に入力するサンプルに使った対象の医薬品とその他の医薬品に分類すると共に、副作用DB31に記憶された副作用を、注目している副作用(つまり肝毒性の副作用)とその他の副作用に分類し、それぞれの医薬品で副作用が生じている件数nをカウントする。   The label generation unit 18 classifies the medicines stored in the side effect DB 31 into target medicines and other medicines used for the sample input to the toxicity learning device 10, and pays attention to the side effects stored in the side effect DB 31. It is classified into the side effects (ie, hepatotoxic side effects) and other side effects, and the number n of side effects occurring with each drug is counted.

図10(b)に、副作用DB31に記憶されたデータを加工した例を示す図である。図10(b)に示す例では、対象の医薬品で注目している副作用が生じた件数はn11であり、その他の医薬品で注目している副作用が生じた件数はn21であり、注目している副作用の合計はn+1である。また、対象の医薬品でその他の副作用が生じた件数はn12であり、その他の医薬品でその他の副作用が生じた件数はn22であり、その他の副作用の合計はn+2である。 FIG. 10B is a diagram showing an example in which data stored in the side effect DB 31 has been processed. In the example shown in FIG. 10 (b), the number of side effects caused of interest in the pharmaceutical of interest is n 11, the number of side effects of interest in other drugs occurs is n 21, attention The sum of the side effects is n + 1 . Further, the number of other side effects drugs caused the subject is n 12, the number of other side effects caused by other medicines is n 22, the sum of the other side effect is n +2.

ラベル生成部18は、対象の医薬品に肝毒性があるか否かを判定するため、特定事象の報告のオッズ比(Reporting Odds Ratio:ROR)を計算する。具体的には、次の式(1)で計算する。
ROR=(n11/n21)/(n12/n22)・・・(1)
The label generator 18 calculates a reporting odds ratio (ROR) for reporting a specific event in order to determine whether or not the target drug has hepatotoxicity. Specifically, it is calculated by the following equation (1).
ROR = (n 11 / n 21 ) / (n 12 / n 22 ) (1)

分子の(n11/n21)は、注目している副作用が対象の医薬品でどの程度の割合で起こったか、その他の医薬品に対する割合で表している。分母の(n12/n22)は、その他の副作用が対象の医薬品でどの程度の割合で起こったか、その他の医薬品に対する割合で表している。分子と分母の比をとった値が「1」に近ければ、注目している副作用についての報告も偶然になされたものであると解釈でき、この比が「1」よりかなり大きい場合には、対象の医薬品に対してなされた注目している副作用の報告が偶然ではないと解釈できる。ラベル生成部18は、RORの95%信頼区間の下限が1より大きい場合に、対象の医薬品で注目している副作用があったと判定する。 The (n 11 / n 21 ) of the molecule indicates the proportion of the side effect of interest occurring in the target drug, as a percentage of other drugs. The denominator (n 12 / n 22 ) represents the ratio of other side effects that occurred in the target drug and the ratio to the other drugs. If the value of the ratio of the numerator to the denominator is close to “1”, it can be interpreted that the report of the side effect of interest is also made by accident, and if this ratio is much larger than “1”, It can be construed that the report of the noted side effect made on the drug in question is not accidental. When the lower limit of the 95% confidence interval of the ROR is greater than 1, the label generation unit 18 determines that there is a side effect of interest in the target drug.

また、ラベル生成部18は、副作用DB31に記憶されたデータ(図10(a)参照)から、注目している副作用の報告件数をカウントする際に、オントロジーや医学用語集(MedDRA)を用いて、副作用の報告内容の集約をしてもよい。   When counting the number of reported side effects of interest from the data (see FIG. 10A) stored in the side effect DB 31, the label generation unit 18 uses an ontology or a medical glossary (MedDRA). Alternatively, the report contents of side effects may be aggregated.

第2の実施の形態の毒性学習装置10は、副作用DB31に記憶されたデータを用いて肝毒性のラベルを生成するので、多くの化合物のデータを用いて教師データを生成することができる。なお、本実施の形態では、肝毒性のシグナルがあるか否かを判定するために、RORを計算する例を用いたが、次の式(2)で計算される特定事象の報告割合の比(Proportional Reporting Rations:PRR)を用いてもよい。
PRR=(n11/n1+)/(n21/n2+)・・・(2)
Since the toxicity learning device 10 of the second embodiment generates a hepatotoxicity label using the data stored in the side effect DB 31, it is possible to generate teacher data using data of many compounds. In the present embodiment, an example of calculating the ROR is used to determine whether there is a signal of hepatotoxicity, but the ratio of the report rate of the specific event calculated by the following equation (2) is used. (Proportional Reporting Rations: PRR) may be used.
PRR = (n 11 / n 1+ ) / (n 21 / n 2+) ··· (2)

また、副作用DB31に記憶されたデータから、対象医薬品が注目する副作用を有するかどうかを判定する方法としては、上記の方法以外にも、例えば、主成分分析、因子分析、SVM等の手法を用いてもよい。   As a method of determining whether or not the target drug has a noticeable side effect from the data stored in the side effect DB 31, for example, a method such as principal component analysis, factor analysis, or SVM may be used in addition to the above method. You may.

以上、本発明の毒性学習装置および毒性予測装置について実施の形態を挙げて詳細に説明したが、本発明の毒性学習装置は上記した実施の形態に限定されるものではない。例えば、上記した実施の形態では、サンプルの発現データを順位付けし、上位と下位のそれぞれ2%を「1」「−1」としたが、上位2%を「1」とし、それ以外を「0」としてもよい。   As described above, the toxicity learning device and the toxicity prediction device of the present invention have been described in detail with reference to the embodiments. However, the toxicity learning device of the present invention is not limited to the above embodiments. For example, in the above-described embodiment, the expression data of the sample is ranked, and the upper and lower 2% are respectively set to “1” and “−1”. However, the upper 2% is set to “1” and the other 2% is set to “1”. It may be “0”.

上記した実施の形態では、毒性学習装置10と毒性予測装置20を別装置として構成する例を挙げて説明したが、毒性学習装置10と毒性予測装置20を一つの装置で構成してもよい。毒性学習装置10と毒性予測装置20を一つの装置で構成すると、毒性予測装置20による推論結果に基づいて、学習済みモデルの修正を行うことが容易である。学習済みモデルの推論の精度が良くない場合には、例えば、符号化部14による符号化を行う際に、「1」「−1」に変換する発現データの順位(上位〇%、下位〇%)を変更してもよい。   In the above-described embodiment, an example has been described in which the toxicity learning device 10 and the toxicity prediction device 20 are configured as separate devices. However, the toxicity learning device 10 and the toxicity prediction device 20 may be configured as a single device. If the toxicity learning device 10 and the toxicity prediction device 20 are configured as one device, it is easy to correct the learned model based on the inference result by the toxicity prediction device 20. If the accuracy of the inference of the trained model is not good, for example, when encoding is performed by the encoding unit 14, the order of the expression data to be converted to “1” and “−1” (upper%, lower%) ) May be changed.

上記した実施の形態では、教師データのデータ量を増幅させるため、比較部13は、サンプルの発現データとコントロールの発現データとを3通りの方法で比較し、3倍の教師データを生成する例を説明したが、本発明の毒性学習方法は、サンプルの発現データを入力する際に、取得した生のデータを入力することで、教師データの量を増やしてもよい。すなわち、通常は、生物を対象とした実験では、実験による揺らぎを低減するため、複数の実測データの平均を取るが、このような平均化を行うことなく、複数の実測データを独立した実験のデータと考えて、それぞれを教師データとすることにより、データ量を増やすことができる。   In the embodiment described above, in order to amplify the data amount of the teacher data, the comparing unit 13 compares the expression data of the sample and the expression data of the control by three methods and generates three times the teacher data. However, the toxicity learning method of the present invention may increase the amount of teacher data by inputting the obtained raw data when inputting the expression data of the sample. That is, usually, in experiments on living organisms, an average of a plurality of measured data is averaged in order to reduce fluctuations caused by the experiment. By considering them as data and using them as teacher data, the data amount can be increased.

本発明は、未知の化合物の毒性を判別する毒性予測装置で用いられるモデルの毒性学習装置等として有用である。   INDUSTRIAL APPLICABILITY The present invention is useful as a toxicity learning device for a model used in a toxicity prediction device for determining the toxicity of an unknown compound.

10 毒性学習装置
11 入力部
12 教師データ生成部
13 比較部
14 符号化部
15 ラベル付与部
16 モデル学習部
17 学習済みモデル記憶部
18 ラベル生成部
20 毒性予測装置
21 入力部
22 前処理部
23 比較部
24 符号化部
25 推論部
26 出力部
27 コントロールデータ記憶部
28 学習済みモデル記憶部
30 肝毒性データベース
Reference Signs List 10 Toxicity learning device 11 Input unit 12 Teacher data generation unit 13 Comparison unit 14 Encoding unit 15 Label assignment unit 16 Model learning unit 17 Trained model storage unit 18 Label generation unit 20 Toxicity prediction device 21 Input unit 22 Preprocessing unit 23 Comparison Unit 24 encoding unit 25 inference unit 26 output unit 27 control data storage unit 28 trained model storage unit 30 hepatotoxicity database

Claims (14)

化合物を曝露したサンプルの発現データとコントロールの発現データを入力する入力部と、
前記サンプルと前記コントロールの発現データを所定の遺伝子ごとに比較する比較部と、
前記発現データの違いに基づいて、前記遺伝子の発現データを符号化する符号化部と、
符号化された発現データに前記化合物の毒性のラベルを付与するラベル付与部と、
前記ラベルが付与された教師データを用いて、遺伝子の発現データから化合物の毒性を予測するモデルの学習を行うモデル学習部と、
を備える毒性学習装置。
An input unit for inputting expression data of a sample to which the compound is exposed and expression data of a control,
A comparison unit that compares the expression data of the sample and the control for each predetermined gene,
An encoding unit that encodes the expression data of the gene based on the difference in the expression data,
A labeling unit for labeling the encoded expression data with a toxicity label of the compound,
Using the labeled teacher data, a model learning unit for learning a model for predicting the toxicity of the compound from the expression data of the gene,
Toxicity learning device equipped with.
前記符号化部は、
前記発現データの違いに基づいて前記遺伝子に順位を付け、前記順位が上位の所定数の遺伝子に「1」、順位が下位の所定数の遺伝子に「−1」、それ以外の遺伝子に「0」を付与する請求項1に記載の毒性学習装置。
The encoding unit includes:
The genes are ranked based on the difference in the expression data, and the rank is determined to be “1” for a predetermined number of genes with a higher rank, “−1” for a predetermined number of genes with a lower rank, and “0” for other genes. The toxicity learning device according to claim 1, wherein
前記比較部は、次の(i)〜(iii)の方法で、前記発現データを遺伝子ごとに比較して複数の比較結果を得る請求項1または2に記載の毒性学習装置:
(i)前記サンプルと前記コントロールの発現データの差をとる;
(ii)前記サンプルと前記コントロールの発現データの比をとる;
(iii)前記サンプルと前記コントロールの発現データを正規化して差をとる。
The toxicity learning device according to claim 1, wherein the comparing unit obtains a plurality of comparison results by comparing the expression data for each gene by the following methods (i) to (iii).
(I) taking the difference between the expression data of the sample and the control;
(Ii) taking the expression data of the sample and the control;
(Iii) Normalize the expression data of the sample and the control and take the difference.
前記ラベル付与部は、前記既存の化合物の毒性を記憶したデータベースから読み出した毒性のデータを前記ラベルとして用いる請求項1乃至3のいずれかに記載の毒性学習装置。   The toxicity learning device according to any one of claims 1 to 3, wherein the labeling unit uses toxicity data read from a database storing the toxicity of the existing compound as the label. 前記既存の化合物の副作用を記憶したデータベースから化合物の副作用のデータを読み出し、読み出した副作用のデータに基づいて化合物の毒性のデータを求めるラベル生成部を備え、
前記ラベル付与部は、求めた毒性のデータを前記ラベルとして用いる請求項1乃至3のいずれかに記載の毒性学習装置。
Reads the data of the side effects of the compound from the database that stores the side effects of the existing compound, comprising a label generating unit that obtains the data of the toxicity of the compound based on the data of the read side effects,
The toxicity learning device according to claim 1, wherein the labeling unit uses the obtained toxicity data as the label.
既知の化合物を曝露したサンプルの発現データとコントロールの発現データを入力するステップと、
前記サンプルと前記コントロールの発現データを遺伝子ごとに比較するステップと、
前記発現データの違いに基づいて、前記遺伝子の発現データを符号化するステップと、
符号化された発現データに前記化合物の毒性のラベルを付して教師データを生成するステップと、
前記教師データを用いて、遺伝子の発現データから化合物の毒性を予測するモデルの学習を行うステップと、
を備える毒性学習方法。
Inputting expression data of a sample exposed to a known compound and expression data of a control,
Comparing the expression data of the sample and the control for each gene,
Encoding the expression data of the gene based on the difference in the expression data,
Generating teacher data by labeling the encoded expression data with the toxicity of the compound;
Using the teacher data, learning a model to predict the toxicity of the compound from the expression data of the gene,
Toxicity learning method comprising.
前記符号化するステップは、
前記発現データの違いに基づいて、前記遺伝子に順位を付けるステップと、
前記順位が上位の所定数の遺伝子に「1」、順位が下位の所定数の遺伝子に「−1」、それ以外の遺伝子に「0」を付与するステップと、
を備える請求項6に記載の毒性学習方法。
The encoding step includes:
Ranking the genes based on the difference in the expression data;
A step of assigning “1” to a predetermined number of genes whose rank is higher, “−1” to a predetermined number of genes whose rank is lower, and “0” to other genes;
The toxicity learning method according to claim 6, comprising:
前記比較するステップは、次の(i)〜(iii)の方法で、前記発現データを遺伝子ごとに比較して複数の比較結果を得る請求項6または7に記載の毒性学習方法:
(i)前記サンプルと前記コントロールの発現データの差をとる;
(ii)前記サンプルと前記コントロールの発現データの比をとる;
(iii)前記サンプルと前記コントロールの発現データを正規化して差をとる。
8. The toxicity learning method according to claim 6, wherein the comparing step obtains a plurality of comparison results by comparing the expression data for each gene by the following methods (i) to (iii).
(I) taking the difference between the expression data of the sample and the control;
(Ii) taking the expression data of the sample and the control;
(Iii) Normalize the expression data of the sample and the control and take the difference.
前記入力するステップでは、既知の一の化合物を曝露した複数のサンプルの発現データを入力し、
前記比較するステップでは、前記複数のサンプルと前記コントロールの発現データを遺伝子ごとに比較し、前記一の化合物について複数の比較結果を得る、
請求項6または7に記載の毒性学習方法。
In the inputting step, input expression data of a plurality of samples exposed to a known compound,
In the comparing step, the expression data of the plurality of samples and the control are compared for each gene, and a plurality of comparison results are obtained for the one compound.
The toxicity learning method according to claim 6.
前記教師データを生成するステップでは、
前記既存の化合物の毒性を記憶したデータベースから読み出した毒性のデータを前記ラベルとして用いる請求項6乃至9のいずれかに記載の毒性学習方法。
In the step of generating the teacher data,
10. The toxicity learning method according to claim 6, wherein toxicity data read from a database storing the toxicity of the existing compound is used as the label.
前記教師データを生成するステップでは、
前記既存の化合物の副作用を記憶したデータベースから読み出した副作用のデータに基づいて化合物の毒性のデータを求め、求めた毒性のデータを前記ラベルとして用いる請求項6乃至9のいずれかに記載の毒性学習方法。
In the step of generating the teacher data,
10. The toxicity learning according to any one of claims 6 to 9, wherein toxicity data of the compound is obtained based on side effect data read from a database storing the side effects of the existing compound, and the obtained toxicity data is used as the label. Method.
化合物を曝露したサンプルの発現データに基づいて化合物の毒性を推論するために用いられるモデルを生成するためのプログラムであって、コンピュータに、
化合物を曝露したサンプルの発現データとコントロールの発現データを入力するステップと、
前記サンプルと前記コントロールの発現データを遺伝子ごとに比較するステップと、
前記発現データの違いに基づいて、前記遺伝子の発現データを符号化するステップと、
符号化された発現データに前記化合物の毒性のラベルを付して教師データを生成するステップと、
前記教師データを用いて、遺伝子の発現データから化合物の毒性を予測するモデルの学習を行うステップと、
を実行させるプログラム。
A program for generating a model used to infer toxicity of a compound based on expression data of a sample to which the compound has been exposed, comprising:
Inputting expression data of a sample to which the compound is exposed and expression data of a control;
Comparing the expression data of the sample and the control for each gene,
Encoding the expression data of the gene based on the difference in the expression data,
Generating teacher data by labeling the encoded expression data with the toxicity of the compound;
Using the teacher data, learning a model to predict the toxicity of the compound from the expression data of the gene,
A program that executes
請求項6乃至11に記載された毒性学習方法によって学習された学習済みモデルを用いて、化合物の毒性を推論する装置であって、
未知の化合物を曝露したサンプルの発現データを入力する入力部と、
前記サンプルの発現データとコントロールの発現データを所定の遺伝子ごとに比較する比較部と、
前記発現データの違いに基づいて、前記遺伝子の発現データを符号化する符号化部と、
前記符号化された発現データを学習済みモデルに適用して、前記化合物の毒性を推論する推論部と、
前記推論部による推論結果を出力する出力部と、
を備える毒性予測装置。
An apparatus for inferring the toxicity of a compound by using a learned model learned by the toxicity learning method according to claim 6,
An input unit for inputting expression data of a sample exposed to an unknown compound,
A comparison unit that compares the expression data of the sample and the expression data of the control for each predetermined gene,
An encoding unit that encodes the expression data of the gene based on the difference in the expression data,
Applying the encoded expression data to the trained model, an inference unit for inferring the toxicity of the compound,
An output unit that outputs an inference result by the inference unit;
A toxicity prediction device comprising:
化合物を曝露したときの発現データに基づいて、化合物の毒性を定量化した値を出力するよう、コンピュータを機能させるための学習済みモデルであって、ニューラルネットワークの入力層に、コントロールとの発現データの違いに基づいて符号化された発現データが入力され、入力された符号化データに基づいて前記ニューラルネットワークの学習済みの重み付け係数に基づく演算を行い、出力層から前記化合物の毒性を定量化した値を出力するよう、コンピュータを機能させるための学習済みモデル。   A trained model for operating a computer to output a value quantifying the toxicity of a compound based on the expression data when the compound is exposed. Expression data encoded based on the difference is input, and based on the input encoded data, an operation based on the learned weighting factors of the neural network is performed, and the toxicity of the compound is quantified from the output layer. A trained model that lets a computer function to output values.
JP2018150286A 2018-08-09 2018-08-09 Toxicity learning device, toxicity learning method, learned model, toxicity prediction device, and program Pending JP2020025471A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018150286A JP2020025471A (en) 2018-08-09 2018-08-09 Toxicity learning device, toxicity learning method, learned model, toxicity prediction device, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018150286A JP2020025471A (en) 2018-08-09 2018-08-09 Toxicity learning device, toxicity learning method, learned model, toxicity prediction device, and program

Publications (1)

Publication Number Publication Date
JP2020025471A true JP2020025471A (en) 2020-02-20

Family

ID=69619560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018150286A Pending JP2020025471A (en) 2018-08-09 2018-08-09 Toxicity learning device, toxicity learning method, learned model, toxicity prediction device, and program

Country Status (1)

Country Link
JP (1) JP2020025471A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694770A (en) * 2020-12-30 2022-07-01 中国人民解放军军事科学院军事医学研究院 Method for constructing drug hepatotoxicity prediction model and application thereof

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008022762A (en) * 2006-07-20 2008-02-07 Miyazakiken Sangyo Shien Zaidan Method, program and apparatus for evaluating high throughput function
JP2008518598A (en) * 2004-10-29 2008-06-05 ノバルティス アクチエンゲゼルシャフト Drug toxicity assessment
WO2012147800A1 (en) * 2011-04-25 2012-11-01 東レ株式会社 Composition for predicting sensitivity to trastuzumab therapy in breast cancer patients and method using same
JP2016099674A (en) * 2014-11-18 2016-05-30 国立研究開発法人産業技術総合研究所 Medicament search device, medicament search method and program
JP2016105296A (en) * 2011-02-22 2016-06-09 ザ プロクター アンド ギャンブル カンパニー Method of identifying cosmetic agents for producing skin care compositions
JP2016148604A (en) * 2015-02-13 2016-08-18 国立研究開発法人産業技術総合研究所 Biomarker retrieval method, biomarker retrieval apparatus, and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008518598A (en) * 2004-10-29 2008-06-05 ノバルティス アクチエンゲゼルシャフト Drug toxicity assessment
JP2008022762A (en) * 2006-07-20 2008-02-07 Miyazakiken Sangyo Shien Zaidan Method, program and apparatus for evaluating high throughput function
JP2016105296A (en) * 2011-02-22 2016-06-09 ザ プロクター アンド ギャンブル カンパニー Method of identifying cosmetic agents for producing skin care compositions
WO2012147800A1 (en) * 2011-04-25 2012-11-01 東レ株式会社 Composition for predicting sensitivity to trastuzumab therapy in breast cancer patients and method using same
JP2016099674A (en) * 2014-11-18 2016-05-30 国立研究開発法人産業技術総合研究所 Medicament search device, medicament search method and program
JP2016148604A (en) * 2015-02-13 2016-08-18 国立研究開発法人産業技術総合研究所 Biomarker retrieval method, biomarker retrieval apparatus, and program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NUCLEIC ACIDS RESEARCH, vol. 44, JPN6022021584, 2016, pages 5515 - 5528, ISSN: 0004785860 *
統計数理, vol. 54, JPN6022021588, 2006, pages 405 - 423, ISSN: 0004785859 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694770A (en) * 2020-12-30 2022-07-01 中国人民解放军军事科学院军事医学研究院 Method for constructing drug hepatotoxicity prediction model and application thereof

Similar Documents

Publication Publication Date Title
Pyrkov et al. Extracting biological age from biomedical data via deep learning: too much of a good thing?
Antonelli et al. Statistical workflow for feature selection in human metabolomics data
Kruse et al. Machine learning principles can improve hip fracture prediction
Stanfill et al. A systematic literature review of automated clinical coding and classification systems
Lakkis et al. A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation
Paul et al. Bias investigation in artificial intelligence systems for early detection of Parkinson’s disease: a narrative review
US20140278130A1 (en) Method of predicting toxicity for chemical compounds
Seccia et al. Machine learning use for prognostic purposes in multiple sclerosis
Hijazi et al. Wearable devices, smartphones, and interpretable artificial intelligence in combating COVID-19
Vourganas et al. Individualised responsible artificial intelligence for home-based rehabilitation
Kaswan et al. AI-based natural language processing for the generation of meaningful information electronic health record (EHR) data
Varsou et al. toxFlow: a web-based application for read-across toxicity prediction using omics and physicochemical data
Wu et al. Estimation and prediction for Nadarajah-Haghighi distribution under progressive type-II censoring
McBroome et al. Identifying SARS-CoV-2 regional introductions and transmission clusters in real time
He Ontology-based vaccine and drug adverse event representation and theory-guided systematic causal network analysis toward integrative pharmacovigilance research
Zhang et al. An explainable machine learning platform for pyrazinamide resistance prediction and genetic feature identification of Mycobacterium tuberculosis
Truong et al. Repurposing drugs via network analysis: opportunities for psychiatric disorders
Ghnemat et al. Explainable Artificial Intelligence (XAI) for deep learning based medical imaging classification
Narayanan et al. IntelliGenes: Interactive and user-friendly multimodal AI/ML application for biomarker discovery and predictive medicine
KR101067352B1 (en) System and method comprising algorithm for mode-of-action of microarray experimental data, experiment/treatment condition-specific network generation and experiment/treatment condition relation interpretation using biological network analysis, and recording media having program therefor
Tsamatsoulis Comparing the Robustness of Statistical Estimators of Proficiency Testing Schemes for a Limited Number of Participants
JP2020025471A (en) Toxicity learning device, toxicity learning method, learned model, toxicity prediction device, and program
Lan et al. Bayesian network feature finder (BANFF): an R package for gene network feature selection
Deelder et al. Geographical classification of malaria parasites through applying machine learning to whole genome sequence data
Mihaljevic et al. Evaluating the within-host dynamics of Ranavirus infection with mechanistic disease models and experimental data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220727

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221122