JP7421475B2 - 学習方法、混合率予測方法及び学習装置 - Google Patents
学習方法、混合率予測方法及び学習装置 Download PDFInfo
- Publication number
- JP7421475B2 JP7421475B2 JP2020527651A JP2020527651A JP7421475B2 JP 7421475 B2 JP7421475 B2 JP 7421475B2 JP 2020527651 A JP2020527651 A JP 2020527651A JP 2020527651 A JP2020527651 A JP 2020527651A JP 7421475 B2 JP7421475 B2 JP 7421475B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- virtual
- expression level
- cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 46
- 239000000203 mixture Substances 0.000 title description 49
- 230000014509 gene expression Effects 0.000 claims description 92
- 108090000623 proteins and genes Proteins 0.000 claims description 31
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000010801 machine learning Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000003559 RNA-seq method Methods 0.000 claims description 4
- 238000000018 DNA microarray Methods 0.000 claims description 2
- 210000004027 cell Anatomy 0.000 description 160
- 238000012545 processing Methods 0.000 description 17
- 238000007796 conventional method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 210000002865 immune cell Anatomy 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000003622 mature neutrocyte Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 210000003979 eosinophil Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 210000004698 lymphocyte Anatomy 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000001616 monocyte Anatomy 0.000 description 1
- 210000000663 muscle cell Anatomy 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Urology & Nephrology (AREA)
- Hematology (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Description
続いて、本発明の実施の形態における混合率予測装置10の機能構成について、図4を参照しながら説明する。図4は、本発明の実施の形態における混合率予測装置10の機能構成の一例を示す図である。
次に、本発明の実施の形態における混合率予測装置10のハードウェア構成について、図5を参照しながら説明する。図5は、本発明の実施の形態における混合率予測装置10のハードウェア構成の一例を示す図である。
以降では、学習用データセット作成処理について、図6を参照しながら説明する。図6は、学習用データセット作成処理の一例を示すフローチャートである。
以降では、学習処理について、図7を参照しながら説明する。図7は、学習処理の一例を示すフローチャートである。なお、上記の学習用データセット作成処理で複数の学習用データセットが作成された場合、例えば、学習用データセット毎に、以降のステップS201~ステップS203が実行されれば良い。
以降では、予測処理について、図8を参照しながら説明する。図8は、予測処理の一例を示すフローチャートである。
ここで、従来手法と、本発明の実施の形態の手法との予測精度の比較例について、図9を参照しながら説明する。図9は、従来手法との比較例を示す図である。図9に示す例では、バルク細胞発現量データyとして、GSE20300データセットを使用した。
以上のように、本発明の実施の形態における混合率予測装置10は、学習済みのニューラルネットワークにより実現される予測器によって、バルク細胞における遺伝子発現量を示すデータから、このバルク細胞に含まれる細胞種毎の混合率を予測することができる。この予測器を学習するにあたり、本発明の実施の形態における混合率予測装置10では、細胞種毎の遺伝子発現量を示すデータを用いて、仮想的なバルク細胞の遺伝子発現量を示すデータと、この仮想的なバルク細胞に含まれる細胞種毎の混合率を示すデータとの組である学習データを生成する。
101 データセット作成部
102 学習部
103 予測部
111 混合率生成部
112 バルク細胞作成部
113 学習データ作成部
Claims (26)
- 少なくとも1台のコンピュータが、
各種類の細胞における遺伝子の発現量に関するデータと仮想の混合度合いとに基づいて、前記仮想の混合度合いと仮想の遺伝子発現量との組を含む学習用データセットを作成するステップと、
細胞群の遺伝子の発現量に関するデータが入力されると、前記細胞群に含まれる所定の種類の細胞の混合度合いに関する情報を出力するように、前記学習用データセットを用いて機械学習モデルを学習するステップと、
を実行する学習方法。 - 前記仮想の遺伝子発現量は、前記仮想の混合度合いと、個々の細胞の前記遺伝子の発現量に関するデータとの積により算出された値である、
請求項1に記載の学習方法。 - 前記仮想の混合度合いは、乱数を用いて決定された値である、請求項1又は2に記載の学習方法。
- 前記仮想の遺伝子発現量は、前記仮想の混合度合いに対して所定のノイズを掛けるとともに正規化して得られた新たな仮想の混合度合いと、個々の細胞の前記遺伝子の発現量に関するデータとを用いて求められた値である、
請求項1乃至3のいずれか1に記載の学習方法。 - 前記少なくとも1台のコンピュータが、
前記仮想の遺伝子発現量を前記機械学習モデルに入力することで出力される出力データと、前記仮想の混合度合いとの誤差を用いて、前記機械学習モデルを学習する、
請求項1乃至4のいずれか1に記載の学習方法。 - 前記機械学習モデルは、ニューラルネットワークである、
請求項1乃至5のいずれか1に記載の学習方法。 - 前記混合度合いに関する情報は、少なくとも前記所定の種類の細胞の比率又は割合のいずれかに関する情報である、
請求項1乃至6のいずれか1に記載の学習方法。 - 前記細胞群はバルク細胞である、
請求項1乃至7のいずれか1に記載の学習方法。 - 前記遺伝子の発現量に関するデータは、少なくとも既存のデータセット又はRNA-Seq解析のいずれかを用いて測定されたデータである、
請求項1乃至8のいずれか1に記載の学習方法。 - 前記学習用データセットを作成するステップは、第1のコンピュータが実行し、
前記学習するステップは、前記第1のコンピュータとは異なる第2のコンピュータが実行する、
請求項1乃至9のいずれか1に記載の学習方法。 - 記憶装置にアクセス可能なプロセッサを含む少なくとも1台のコンピュータが実行するモデル生成方法であって、
請求項1乃至10のいずれか1に記載の学習方法を用いて、機械学習モデルを生成する、モデル生成方法。 - 少なくとも1台のコンピュータに、請求項1乃至10のいずれか1の学習方法を実行させる、
学習プログラム。 - 少なくとも1台のコンピュータが、
細胞群の遺伝子の発現量に関するデータを取得するステップと、
前記細胞群に含まれる所定の種類の細胞の混合度合いに関する情報を出力するように予め学習された機械学習モデルに前記発現量に関するデータを入力して、前記混合度合いに関する情報を予測するステップと、を実行し、
前記機械学習モデルは、学習を実行する装置が仮想のデータを用いて学習したモデルである、
予測方法。 - 前記機械学習モデルは、ニューラルネットワークである、
請求項13に記載の予測方法。 - 前記混合度合いに関する情報は、少なくとも前記所定の種類の細胞の比率又は割合のいずれかに関する情報である、
請求項13又は14に記載の予測方法。 - 前記細胞群はバルク細胞である、
請求項13乃至15のいずれか1に記載の予測方法。 - 前記発現量に関するデータは、少なくともDNAマイクロアレイによる解析又はRNA-Seq解析のいずれかを用いて測定されたデータである、
請求項13乃至16のいずれか1に記載の予測方法。 - 前記少なくとも1台のコンピュータが前記学習を実行する装置を含む、
請求項13乃至17のいずれか1に記載の予測方法。 - 前記仮想のデータは、データ作成を実行する装置が各種類の細胞における遺伝子の発現量に関するデータと仮想の混合度合いとに基づいて生成した、仮想の遺伝子発現量を含む学習データである、
請求項13乃至18のいずれか1に記載の予測方法。 - 前記少なくとも1台のコンピュータが前記データ作成を実行する装置を含む、
請求項19に記載の予測方法。 - 記憶装置にアクセス可能なプロセッサを含む学習を実行する装置であって、
前記プロセッサが、細胞群の遺伝子の発現量に関するデータが入力されると、前記細胞群に含まれる所定の種類の細胞の混合度合いに関する情報を出力するように、学習用データセットを用いて機械学習モデルを学習し、
前記学習用データセットは、少なくとも1台のコンピュータが各種類の細胞における遺伝子の発現量に関するデータと仮想の混合度合いとに基づいて作成した、前記仮想の混合度合いと仮想の遺伝子発現量との組を含む、
装置。 - 前記混合度合いに関する情報は、少なくとも前記所定の種類の細胞の比率又は割合のいずれかに関する情報である、
請求項21記載の装置。 - 前記少なくとも1台のコンピュータが前記学習を実行する装置を含む、
請求項21又は22に記載の装置。 - 記憶装置にアクセス可能なプロセッサを含む予測を実行する装置であって、
前記プロセッサが、細胞群の遺伝子の発現量に関するデータを取得し、前記細胞群に含まれる所定の種類の細胞の混合度合いに関する情報を出力するように予め学習された機械学習モデルに前記発現量に関するデータを入力して、前記混合度合いに関する情報を予測し、
前記機械学習モデルは、少なくとも1台のコンピュータが仮想のデータを用いて学習したモデルである、
装置。 - 前記混合度合いに関する情報は、少なくとも前記所定の種類の細胞の比率又は割合のいずれかに関する情報である、
請求項24に記載の装置。 - 前記少なくとも1台のコンピュータが前記予測を実行する装置を含む、
請求項24又は25に記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018124385 | 2018-06-29 | ||
JP2018124385 | 2018-06-29 | ||
PCT/JP2019/025676 WO2020004575A1 (ja) | 2018-06-29 | 2019-06-27 | 学習方法、混合率予測方法及び学習装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2020004575A1 JPWO2020004575A1 (ja) | 2021-08-12 |
JPWO2020004575A5 JPWO2020004575A5 (ja) | 2022-07-06 |
JP7421475B2 true JP7421475B2 (ja) | 2024-01-24 |
Family
ID=68984915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020527651A Active JP7421475B2 (ja) | 2018-06-29 | 2019-06-27 | 学習方法、混合率予測方法及び学習装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210151128A1 (ja) |
JP (1) | JP7421475B2 (ja) |
WO (1) | WO2020004575A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4118657B1 (en) * | 2020-03-12 | 2024-05-01 | BostonGene Corporation | Systems and methods for deconvolution of expression data |
WO2023153413A1 (ja) * | 2022-02-08 | 2023-08-17 | テルモ株式会社 | 2種類以上の細胞を含む培養細胞における目的細胞の割合を予測するためのシステム、プログラム及び方法 |
CN115831259B (zh) * | 2022-12-12 | 2023-09-05 | 华东理工大学 | 聚氰酸酯的性能预测方法及其应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017530693A (ja) | 2014-08-08 | 2017-10-19 | ナノストリング テクノロジーズ,インコーポレイティド | 遺伝子発現データを使用した混成細胞集団のデコンボリューション方法 |
WO2018012601A1 (ja) | 2016-07-14 | 2018-01-18 | 大日本印刷株式会社 | 画像解析システム、培養管理システム、画像解析方法、培養管理方法、細胞群製造方法及びプログラム |
US20180057859A1 (en) | 2016-05-06 | 2018-03-01 | Craig E. Nelson | Method for identifying rare cell types by single cell assisted deconvolution of population gene expression data |
JP2018512071A (ja) | 2015-01-22 | 2018-05-10 | ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー | 異なる細胞サブセットの比率の決定方法およびシステム |
-
2019
- 2019-06-27 WO PCT/JP2019/025676 patent/WO2020004575A1/ja active Application Filing
- 2019-06-27 JP JP2020527651A patent/JP7421475B2/ja active Active
-
2020
- 2020-12-28 US US17/134,802 patent/US20210151128A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017530693A (ja) | 2014-08-08 | 2017-10-19 | ナノストリング テクノロジーズ,インコーポレイティド | 遺伝子発現データを使用した混成細胞集団のデコンボリューション方法 |
JP2018512071A (ja) | 2015-01-22 | 2018-05-10 | ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー | 異なる細胞サブセットの比率の決定方法およびシステム |
US20180057859A1 (en) | 2016-05-06 | 2018-03-01 | Craig E. Nelson | Method for identifying rare cell types by single cell assisted deconvolution of population gene expression data |
WO2018012601A1 (ja) | 2016-07-14 | 2018-01-18 | 大日本印刷株式会社 | 画像解析システム、培養管理システム、画像解析方法、培養管理方法、細胞群製造方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2020004575A1 (ja) | 2020-01-02 |
US20210151128A1 (en) | 2021-05-20 |
JPWO2020004575A1 (ja) | 2021-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mbatchou et al. | Computationally efficient whole-genome regression for quantitative and binary traits | |
JP7421475B2 (ja) | 学習方法、混合率予測方法及び学習装置 | |
JP7312173B2 (ja) | 量子古典コンピューティングハードウェア用いた量子コンピューティング対応の第一原理分子シミュレーションのための方法とシステム | |
Simpson | Exploring genome characteristics and sequence quality without a reference | |
Lewis et al. | What evidence is there for the homology of protein-protein interactions? | |
CA2773650C (en) | Thermodynamic phase equilibrium analysis based on a reduced composition domain | |
Köhler et al. | Flexible Bayesian additive joint models with an application to type 1 diabetes research | |
CN105874460B (zh) | 识别靶序列的至少一个碱基的方法、可读介质及设备 | |
WO2020116211A1 (ja) | 推定装置、最適化装置、推定方法、最適化方法、及びプログラム | |
Xie et al. | Improved metabolite prediction using microbiome data-based elastic net models | |
Wang et al. | A two‐sample robust Bayesian Mendelian Randomization method accounting for linkage disequilibrium and idiosyncratic pleiotropy with applications to the COVID‐19 outcomes | |
Rodero et al. | Calibration of cohorts of virtual patient heart models using Bayesian history matching | |
Zwaenepoel et al. | Model-based detection of whole-genome duplications in a phylogeny | |
CN114446393B (zh) | 用于预测肝癌特征类型的方法、电子设备和计算机存储介质 | |
Arjas et al. | Estimation of dynamic SNP-heritability with Bayesian Gaussian process models | |
Holland et al. | Contact prediction is hardest for the most informative contacts, but improves with the incorporation of contact potentials | |
Huynh-Thu et al. | Gene regulatory network inference from systems genetics data using tree-based methods | |
Du et al. | IQSeq: integrated isoform quantification analysis based on next-generation sequencing | |
Yi et al. | Feature screening with large-scale and high-dimensional survival data | |
Fujita et al. | The impact of measurement errors in the identification of regulatory networks | |
JP7420148B2 (ja) | 学習装置、学習方法及びプログラム | |
LeBlanc et al. | Extreme regression | |
JP7224263B2 (ja) | モデル生成方法、モデル生成装置及びプログラム | |
WO2024105736A1 (ja) | 予測モデル評価装置、方法およびプログラム | |
WO2022059189A1 (ja) | データ算出装置、データ算出方法および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220627 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220627 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7421475 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |