JP7421475B2

JP7421475B2 - 学習方法、混合率予測方法及び学習装置

Info

Publication number: JP7421475B2
Application number: JP2020527651A
Authority: JP
Inventors: 幹阿部; 大輔岡野原; 健太大野; 瑞貴武本
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2018-06-29
Filing date: 2019-06-27
Publication date: 2024-01-24
Anticipated expiration: 2039-06-27
Also published as: WO2020004575A1; US20210151128A1; JPWO2020004575A1

Description

本開示は、学習方法、混合率予測方法及び学習装置に関する。

免疫療法等の開発において、疾病における免疫状態の変化を把握することは重要な課題である。これに対して、近年、免疫細胞の遺伝子毎の発現量（遺伝子発現量）を示すデータを用いて、組織中の細胞種（細胞の種類）毎の混合率を予測する手法が研究されている。このような研究では、例えば、複数の種類の細胞が混合された細胞群（以降、「バルク細胞」と表す。）を用いて、このバルク細胞に含まれる細胞種毎の混合率を予測することが行われている。

しかしながら、従来の手法では、バルク細胞に含まれる細胞種毎の混合率を高精度かつ迅速に予測することが困難な場合があった。

例えば、或る細胞種の混合率が低い場合、この細胞種の混合率を高精度に予測することが困難であった。また、予測手法によっては、バルク細胞に含まれる細胞種毎の混合率（又は或る細胞種の混合率）を予測するために、それぞれのバルク細胞をモデル化する必要があり、混合率の予測に時間を要することがあった。

本発明の実施の形態は、上記の点に鑑みてなされたものであり、細胞群に含まれる細胞種毎の混合率を高精度かつ迅速に予測することを目的とする。

上記目的を達成するため、本発明の実施の形態は、予測対象とする細胞群の遺伝子毎の発現量を示す細胞群発現量データが入力されると、細胞群に含まれる細胞の混合率を出力するように機械学習モデルを学習させるステップを含み、学習させるステップは、複数の学習データの間で互いに異なる仮想の混合率である仮想混合率を任意に設定し、各種類の細胞における遺伝子発現量を示す元データに基づいて、学習データ毎に、仮想混合率に対応する仮想の遺伝子発現量である仮想発現量を求めることで生成されたデータを含む、学習用データセットを用いる。

細胞群に含まれる細胞種毎の混合率を高精度かつ迅速に予測することができる。

本発明の実施の形態における混合率予測装置の予測の概念を説明する図である。本発明の実施の形態における混合率予測装置で使用する学習データを説明する図である。本発明の実施の形態における混合率予測装置の学習データの生成を示す図である。本発明の実施の形態における混合率予測装置の機能構成の一例を示す図である。本発明の実施の形態における混合率予測装置のハードウェア構成の一例を示す図である。学習用データセット作成処理の一例を示すフローチャートである。学習処理の一例を示すフローチャートである。予測処理の一例を示すフローチャートである。従来手法との比較例を示す図である。

以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。本発明の実施の形態では、バルク細胞に含まれる細胞種毎の混合率を高精度かつ迅速に予測することが可能な混合率予測装置１０について説明する。まず、図１～３を用いて、混合率予測の概念について説明し、続いて、図４を用いて、混合率予測装置１０の構成を具体的に説明する。ここで、混合率とは、バルク細胞に含まれる細胞種の割合のことである。また、バルク細胞とは、複数の種類の細胞が混合された細胞群のことである。混合率は、含有率や存在比率等と称されても良い。

なお、本発明の実施の形態では、一例として、複数の種類の免疫細胞を混合したサンプル細胞をバルク細胞とする。ただし、バルク細胞には、免疫細胞以外の種々の細胞（例えば、がん細胞、筋細胞、神経細胞等）が含まれていても良い。

本発明の実施の形態における混合率予測装置１０は、図１に示すように、例えば学習済みのニューラルネットワークにより実現される予測器に対して、バルク細胞の遺伝子発現量を示すデータ（以降、「バルク細胞発現量データ」とも表す。）を入力することで、このバルク細胞に含まれる細胞種毎の混合率を示すデータ（以降、「混合率予測データ」とも表す。）を出力する。

図２に示すように、混合率予測装置１０は、『仮想混合率』及び『仮想発現量』を含む複数の学習データからなる学習用データセットにより、機械学習モデルを学習させる。図２に示すように、各学習データは、それぞれ１の仮想バルクに関して生成された仮想のデータである。図２に示す例は、学習データ用セットは、学習データ１～３を含むが、学習用データセットが含む学習データの数は限定されない。

図３に混合率予測装置１０における学習データの生成の概念を示す。混合率予測装置１０は、まず、バルク細胞に含まれる細胞種の混合率を予測するため、複数の細胞の遺伝子発現量を用いて、仮想のバルク細胞である仮想バルク細胞を生成する。具体的には、図３は、『細胞１』、『細胞２』及び『細胞３』を用いて、『仮想バルク細胞１』、『仮想バルク細胞２』及び『仮想バルク細胞３』を生成する一例である。ここで、「仮想バルク細胞」は、実際に存在するものではなく、後述する混合率予測に利用する学習データを生成するために演算で得られた仮想のものである。

図３に示す例では、各細胞は、それぞれ『遺伝子Ａ』、『遺伝子Ｂ』及び『遺伝子Ｃ』によって構成される。具体的には、「細胞１」は、遺伝子Ａの遺伝子発現量が「Ａ１」、遺伝子Ｂの遺伝子発現量が「Ｂ１」、遺伝子Ｃの遺伝子発現量が「Ｃ１」であるとする。また、「細胞２」は、遺伝子Ａの遺伝子発現量が「Ａ２」、遺伝子Ｂの遺伝子発現量が「Ｂ２」、遺伝子Ｃの遺伝子発現量が「Ｃ２」であるとする。さらに、「細胞３」は、遺伝子Ａの遺伝子発現量が「Ａ３」、遺伝子Ｂの遺伝子発現量が「Ｂ３」、遺伝子Ｃの遺伝子発現量が「Ｃ３」であるとする。なお、細胞１～３及び遺伝子Ａ～Ｃは、説明のため、簡略化した名称である。また、実際の細胞を構成する遺伝子の数および種類も異なる。

まず、混合率予測装置１０は、各細胞について、仮想混合率を設定する。図３の例では、仮想混合率として、（１）『細胞１：８０％、細胞２：１０％、細胞３：１０％』、（２）『細胞１：５０％、細胞２：３０％、細胞３：２０％』、（３）『細胞１：２０％、細胞２：４０％、細胞３：４０％』が設定された。

その後、混合率予測装置１０は、仮想混合率（１）により『細胞１』を８０％、『細胞２』を１０％、『細胞３』を１０％の各割合で混合し、『仮想バルク細胞１』を生成する。そして、混合率予測装置１０は、細胞１～３を構成する各遺伝子Ａ～Ｃの割合Ａ１～Ｃ１をそれぞれ用いて、『仮想バルク細胞１』を構成する各遺伝子Ａ～Ｃの仮想の遺伝子発現量である仮想発現量Ａ４～Ｃ４を求める。

同様に、混合率予測装置１０は、仮想混合率（２）で『仮想バルク細胞２』を生成し、各遺伝子Ａ～Ｃの仮想発現量Ａ５～Ｃ５を求める。また、混合率予測装置１０は、仮想混合率（３）で『仮想バルク細胞３』を生成し、各遺伝子Ａ～Ｃの仮想発現量Ａ６～Ｃ６を求める。

このように、本発明に係る混合率予測装置１０では、学習データとして十分な量のバルク細胞の情報が得られない場合であっても、仮想混合率及び仮想発現量を学習データとして用いることが可能となり、バルク細胞の遺伝子発現量から細胞の混合率を予測することが可能となる。すなわち、混合率予測装置１０では、計測等によって得られたデータではなく、生成の処理によって得られた仮想の情報である学習データを用いて、予測を実現することができる。換言すると、混合率予測装置１０では、従来の学習処理ではなく、仮想データで学習するという新しい方法を利用する。

以下では、予測器の学習に用いるデータセット（学習用データセット）を作成する「学習用データセット作成処理」と、学習用データセットを用いて予測器を学習する「学習処理」と、予測器によりバルク細胞に含まれる細胞種毎の混合率を予測する「予測処理」とを説明する。

なお、本発明の実施の形態では、一例として、予測器が学習済みのニューラルネットワークにより実現される場合について説明する。ただし、予測器は、学習済みのニューラルネットワークに限られず、決定木や、サポートベクターマシン等の種々の機械学習モデルにより実現されていても良い。

＜機能構成＞
続いて、本発明の実施の形態における混合率予測装置１０の機能構成について、図４を参照しながら説明する。図４は、本発明の実施の形態における混合率予測装置１０の機能構成の一例を示す図である。

図４に示すように、本発明の実施の形態における混合率予測装置１０は、データセット作成部１０１と、学習部１０２と、予測部１０３とを有する。また、混合率予測装置１０は、記憶装置において、遺伝子発現量データ２１１、仮想混合率データ２１２、仮想発現量データ（以降、「仮想バルク細胞発現量データ」とも表す。）２１３及び学習データ２１４等の各種のデータを記憶し、利用することができる。図４に示す記憶装置は、ＲＡＭ２０５、ＲＯＭ２０６及び補助記憶装置２０８等の記憶手段であって、各データは、いずれかの記憶手段に記憶されうる。

データセット作成部１０１は、学習用データセット作成処理を実行する。すなわち、データセット作成部１０１は、細胞種毎の遺伝子発現量データ２１１を入力として、学習用データセット２１５を作成する。ここで、データセット作成部１０１には、混合率生成部１１１と、バルク細胞作成部１１２と、学習データ作成部１１３とが含まれる。

混合率生成部１１１は、バルク細胞に含まれる細胞種毎の仮想的な混合率を示す仮想混合率データ２１２を生成する。このとき、混合率生成部１１１は、複数の仮想混合率データ２１２を生成する。

バルク細胞作成部１１２は、仮想混合率データ２１２毎に、細胞種毎の遺伝子発現量データ２１１と、当該仮想混合率データ２１２とを用いて、仮想的なバルク細胞の遺伝子発現量を示す仮想バルク細胞発現量データ２１３を作成する。

学習データ作成部１１３は、仮想混合率データ２１２毎に、仮想バルク細胞発現量データ２１３と、当該仮想混合率データ２１２との組を学習データ２１４として作成する。これにより、複数の学習データ２１４によって構成される学習用データセット２１５が作成される。なお、図４の例では、学習用データセット２１５は、３つの学習データ２１４で構成されるが、上述したように、学習用データセット２１５が含む学習データ２１４の数は限定されない。

学習部１０２は、学習処理を実行する。すなわち、学習部１０２は、学習用データセット２１５に含まれる各学習データ２１４を用いて、ニューラルネットワークのパラメータを更新する。これにより、ニューラルネットワークが学習され、予測器が実現される。

予測部１０３は、学習済みのニューラルネットワークにより実現される予測器であり、予測処理を実行する。すなわち、予測部１０３は、バルク細胞の遺伝子発現量を示すバルク細胞発現量データを入力として、このバルク細胞に含まれる細胞種毎の混合率の予測値を示す混合率予測データを出力する。

なお、図４に示す例では、データセット作成部１０１と、学習部１０２と、予測部１０３との３つの機能部を１台の混合率予測装置１０が有している場合を示しているが、これらの各機能部は複数の装置が分散して有していても良い。例えば、本発明の実施の形態における混合率予測装置１０は、データセット作成部１０１を有するデータセット作成装置と、学習部１０２及び予測部１０３を有する予測装置とで構成されていても良い。また、更に、この予測装置は、学習処理のみを行う装置と、予測処理のみを行う装置とで構成されていても良い。

＜ハードウェア構成＞
次に、本発明の実施の形態における混合率予測装置１０のハードウェア構成について、図５を参照しながら説明する。図５は、本発明の実施の形態における混合率予測装置１０のハードウェア構成の一例を示す図である。

図５に示すように、本発明の実施の形態における混合率予測装置１０は、入力装置２０１と、表示装置２０２と、外部Ｉ／Ｆ２０３と、通信Ｉ／Ｆ２０４と、ＲＡＭ（Random Access Memory）２０５と、ＲＯＭ（Read Only Memory）２０６と、プロセッサ２０７と、補助記憶装置２０８とを有する。これら各ハードウェアは、それぞれがバス２０９により相互に接続されている。

入力装置２０１は、例えばキーボードやマウス、タッチパネル等であり、ユーザが各種操作を入力するのに用いられる。表示装置２０２は、例えばディスプレイ等であり、混合率予測装置１０の各種の処理結果を表示する。なお、混合率予測装置１０は、入力装置２０１及び表示装置２０２のうちの少なくとも一方を有していなくても良い。

外部Ｉ／Ｆ２０３は、外部装置とのインタフェースである。外部装置には、記録媒体２０３ａ等がある。混合率予測装置１０は、外部Ｉ／Ｆ２０３を介して、記録媒体２０３ａ等の読み取りや書き込み等を行うことができる。記録媒体２０３ａには、混合率予測装置１０が有する各機能部（すなわち、データセット作成部１０１、学習部１０２及び予測部１０３）を実現する１以上のプログラム等が記録されていても良い。

記録媒体２０３ａには、例えば、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

通信Ｉ／Ｆ２０４は、混合率予測装置１０を通信ネットワークに接続するためのインタフェースである。混合率予測装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ２０４を介して、所定のサーバ装置等から取得（ダウンロード）されても良い。

ＲＡＭ２０５は、プログラムやデータを一時保持する揮発性の半導体メモリである。ＲＯＭ２０６は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ＲＯＭ２０６には、例えば、ＯＳ（Operating System）に関する設定や通信ネットワークに関する設定等が格納されている。

プロセッサ２０７は、例えばＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等であり、ＲＯＭ２０６や補助記憶装置２０８等からプログラムやデータをＲＡＭ２０５上に読み出して処理を実行する演算装置である。混合率予測装置１０が有する各機能部は、例えば補助記憶装置２０８に格納されている１以上のプログラムがプロセッサ２０７に実行させる処理により実現される。なお、混合率予測装置１０は、プロセッサ２０７として、ＣＰＵとＧＰＵとの両方を有していても良いし、ＣＰＵ又はＧＰＵのいずれか一方のみを有していても良い。

補助記憶装置２０８は、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置２０８には、例えば、ＯＳ、各種アプリケーションソフトウェア、混合率予測装置１０が有する各機能部を実現する１以上のプログラム等がある。

本発明の実施の形態における混合率予測装置１０は、図５に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。なお、図５に示す例では、本発明の実施の形態における混合率予測装置１０が１台の装置（コンピュータ）で実現されている場合について説明したが、これに限られない。本発明の実施の形態における混合率予測装置１０は、複数台の装置（コンピュータ）で実現されていても良い。

＜学習用データセット作成処理＞
以降では、学習用データセット作成処理について、図６を参照しながら説明する。図６は、学習用データセット作成処理の一例を示すフローチャートである。

まず、データセット作成部１０１は、細胞種毎の遺伝子発現量データを取得する（ステップＳ１０１）。ここで、遺伝子の種類の総数をＭ、細胞種の総数をＮで表した場合、細胞種ｎ（１≦ｎ≦Ｎ）の遺伝子発現量データｘ_ｎは、Ｍ次元ベクトルで表される。すなわち、細胞種ｎにおける遺伝子Ｍ（１≦ｍ≦Ｍ）の発現量をｘ_ｍｎとして、ｘ_ｎ＝（ｘ_１ｎ，・・・，ｘ_Ｍｎ）^ｔと表される。なお、ｔは転置を表す。

このような細胞種毎の遺伝子発現量データとしては、例えば、ＬＭ２２データセットを用いることができる。ＬＭ２２データセットは、均一な集団に分画された２２種類の各免疫細胞における５４７種類の遺伝子の発現量を計測したデータのセットである。ＬＭ２２データセットの詳細は、例えば、上記の非特許文献１を参照されたい。また、ＬＭ２２データセット以外にも、例えば、シングルセルＲＮＡ－Ｓｅｑ解析により、細胞種毎の遺伝子発現量データを得ることもできる。

以降では、Ｎ種類の細胞種におけるＭ種類の遺伝子の発現量をそれぞれＭ次元ベクトルで表した遺伝子発現量データｘ_１，・・・，ｘ_Ｎが入力されたものとして説明を続ける。

データセット作成部１０１の混合率生成部１１１は、複数の仮想混合率データを生成する（ステップＳ１０２）。ここで、仮想混合率データの生成数をＰで表した場合、ｐ（１≦ｐ≦Ｐ）番目の仮想混合率データａ_ｐは、Ｎ次元ベクトル（つまり、細胞種の総数を次元数とするベクトル）で表される。すなわち、バルク細胞に含まれる細胞種ｎ（１≦ｎ≦Ｎ）の混合率をａ_ｎｐとして、ａ_ｐ＝（ａ_１ｐ，・・・，ａ_Ｎｐ）^ｔと表される。したがって、混合率生成部１１１は、ｐ毎に、ａ_１ｐ＋・・・＋ａ_Ｎｐ＝１を満たし、かつ、０以上１以下の値の乱数ａ_１ｐ，・・・，ａ_Ｎｐを生成することで、Ｐ個の仮想混合率データａ_１，・・・，ａ_Ｐを生成する。なお、Ｐとしては、ユーザによって任意の自然数を設定することができる。

次に、データセット作成部１０１のバルク細胞作成部１１２は、仮想混合率データ毎に、細胞種毎の遺伝子発現量データと、当該仮想混合率データとを用いて、仮想バルク細胞発現量データを作成する（ステップＳ１０３）。ここで、バルク細胞作成部１１２は、例えば、細胞種毎の遺伝子発現量データｘ_１，・・・，ｘ_Ｎを列ベクトルする行列をＸ＝（ｘ_１，・・・，ｘ_Ｎ）として、行列Ｘと、仮想混合率データａ_ｐとの行列積を計算することで、仮想バルク細胞発現量データｙ_ｐを作成する。すなわち、バルク細胞作成部１１２は、ｐ＝１，・・・，Ｐに対して、ｙ_ｐ＝Ｘａ_ｐを計算する。これにより、Ｍ次元ベクトルｙ_１，・・・，ｙ_Ｐが得られる。これら各ｙ_ｐは、仮想的なバルク細胞ｐにおけるＭ種類の遺伝子の発現量を表している。

なお、バルク細胞作成部１１２は、仮想混合率データａ_ｐに対して所定のノイズを掛けた上で、正規化した仮想混合率データｂ_ｐを用いて、ｙ_ｐ＝Ｘｂ_ｐを計算し、仮想バルク細胞発現量データｙ_ｐを作成しても良い。仮想混合率データｂ_ｐは、例えば、ａ_ｐの各要素ａ_ｎｐ（１≦ｎ≦Ｎ）に対して所定のノイズ（例えば、ｓａｌｔｐｅｐｐｅｒｎｏｉｓｅやｌｏｇｎｏｒｍａｌｎｏｉｓｅ等）を掛けた上で、これらノイズを掛けた各要素ａ_ｎｐ（１≦ｎ≦Ｎ）の和が１となるように正規化することで作成される。

なお、上述した仮想混合率データｂ_ｐを用いた仮想バルク細胞発現量データｙ_ｐ＝Ｘｂ_ｐが作成された場合は、学習データ作成部１１３は、ｐ＝１，・・・，Ｐに対して、仮想バルク細胞発現量データｙ_ｐ＝Ｘｂ_ｐと、ノイズを掛ける前の仮想混合率データａ_ｐとの組（ｙ_ｐ，ａ_ｐ）を学習データとする。

以上により、本発明の実施の形態における混合率予測装置１０では、実際の計測として得られた細胞種毎の遺伝子発現量データ（例えば、ＬＭ２２データセット等）を用いて、学習用データセットＤ＝｛（ｙ_ｐ，ａ_ｐ）｜ｐ＝１，・・・，Ｐ｝が作成される。ここで、上述したように、ｙ_ｐは仮想的なバルク細胞の遺伝子発現量を示すデータであり、ａ_ｐはこの仮想バルク細胞に含まれる細胞種毎の混合率を示すデータ（すなわち、正解データ）である。後述するように、この学習用データセットＤを用いて、予測器を実現するニューラルネットワークの学習が行われる。

なお、上記のステップＳ１０１では、同一の細胞種の遺伝子発現量データが複数入力されても良い。例えば、細胞種ｉの遺伝子発現量データｘ_ｉとｘ_ｉ´とが入力されても良い。この場合、遺伝子発現量データｘ_１，・・・，ｘ_ｉ，・・・，ｘ_Ｎと、遺伝子発現量データｘ_１，・・・，ｘ_ｉ´，・・・，ｘ_Ｎとに対して、上記のステップＳ１０３～ステップＳ１０４をそれぞれ実行すれば良い。これにより、学習用データセットＤ＝｛（ｙ_ｐ，ａ_ｐ）｜ｐ＝１，・・・，Ｐ｝と、Ｄ´＝｛（ｙ_ｐ´，ａ_ｐ）｜ｐ＝１，・・・，Ｐ｝とが作成される。したがって、この場合、これらの学習用データセットＤ及びＤ´を用いて、予測器を実現するニューラルネットワークの学習を行えば良い。同一の細胞種の遺伝子発現量データが３以上入力された場合も同様である。

＜学習処理＞
以降では、学習処理について、図７を参照しながら説明する。図７は、学習処理の一例を示すフローチャートである。なお、上記の学習用データセット作成処理で複数の学習用データセットが作成された場合、例えば、学習用データセット毎に、以降のステップＳ２０１～ステップＳ２０３が実行されれば良い。

まず、学習部１０２は、学習用データセットＤ＝｛（ｙ_ｐ，ａ_ｐ）｜ｐ＝１，・・・，Ｐ｝を入力する（ステップＳ２０１）。

次に、学習部１０２は、学習用データセットＤに含まれる各学習データ（ｙ_ｐ，ａ_ｐ）を用いて、所定の誤差関数による誤差を計算する（ステップＳ２０２）。すなわち、学習部１０２は、仮想バルク細胞発現量データｙ_ｐを予測部１０３（すなわち、学習済みでないニューラルネットワーク）に入力して、仮想バルク細胞ｐに含まれる細胞種毎の混合率を示す出力データａ_ｐ＾を得る。そして、学習部１０２は、出力データａ_ｐ＾と、正解データａ_ｐとの誤差を所定の誤差関数により計算する。ここで、誤差関数としては、例えば、ｓｏｆｔｍａｘｃｒｏｓｓｅｎｔｒｏｐｙやｍｅａｎｓｑｕａｒｅｄｅｒｒｏｒ等が用いられる。

次に、学習部１０２は、上記のステップＳ２０２で計算された誤差を用いて、ニューラルネットワークのパラメータを更新する（ステップＳ２０３）。すなわち、学習部１０２は、例えば、誤差逆伝播法等を用いて、誤差が最小となるようにパラメータを更新する。これにより、予測器を実現するニューラルネットワークが学習される。

以上により、本発明の実施の形態における混合率予測装置１０では、予測器を実現する学習済みニューラルネットワークを得ることができる。

＜予測処理＞
以降では、予測処理について、図８を参照しながら説明する。図８は、予測処理の一例を示すフローチャートである。

予測部１０３は、バルク細胞発現量データｙを入力する（ステップＳ３０１）。なお、バルク細胞発現量データｙは、例えば、バルク細胞の遺伝子発現量を既知の手法（例えば、ＤＮＡマイクロアレイによる解析やＲＮＡ－Ｓｅｑ解析等）で測定することで得られる。

次に、予測部１０３は、予測器により、バルク細胞発現量データｙに対応するバルク細胞に含まれる細胞種毎の混合率を予測して、この予測値を示す混合率予測データａを出力する（ステップＳ３０２）。これにより、Ｎ種類の細胞種の混合率をＮ次元ベクトルで表した混合率予測データａが得られる。

以上により、本発明の実施の形態における混合率予測装置１０では、バルク細胞発現量データｙから混合率予測データａが得ることができる。このように、本発明の実施の形態における混合率予測装置１０では、従来の手法と異なり、バルク細胞の遺伝子発現量から、このバルク細胞に含まれる細胞種毎の混合率を直接予測することができる。しかも、本発明の実施の形態における混合率予測装置１０では、従来の手法と異なり、混合率の予測のためにバルク細胞をモデル化する必要がないため、バルク細胞に含まれる細胞種毎の混合率を迅速に予測することができる。

＜従来手法との比較例＞
ここで、従来手法と、本発明の実施の形態の手法との予測精度の比較例について、図９を参照しながら説明する。図９は、従来手法との比較例を示す図である。図９に示す例では、バルク細胞発現量データｙとして、ＧＳＥ２０３００データセットを使用した。

図９（ａ）は、従来手法として、上記の非特許文献１に記載されているＣＩＢＥＲＳＯＲＴを用いた場合における混合率の実測値と予測値との関係を点としてプロットした図である。一方で、図９（ｂ）は、本発明の実施の形態の手法を用いた場合における混合率の実測値と予測値との関係を点としてプロットした図である。なお、図９（ａ）及び（ｂ）では、比較を容易にするため、２２種類の細胞種のうち、１９種の細胞種をまとめて「ＰＭＮｓ」として、この「ＰＭＮｓ」と、細胞種「Ｌｙｍｐｈｏｃｙｔｅｓ」と、細胞種「ｍｏｎｏｃｙｔｅｓ」とをプロットした。また、この２２種類に含まれる細胞種の１つである細胞種「Ｅｏｓｉｎｏｐｈｉｌｓ」については対象外とした。

図９（ａ）に示す例では、プロットした各点から得られる回帰直線はｙ＝０．４８ｘ＋１５．６０で表され、相関係数はｒ＝０．７７である。一方で、図９（ｂ）に示す例では、各点から得られる回帰直線はｙ＝１．０７ｘ－１．８４で表され、相関係数はｒ＝０．９３である。なお、回帰直線がｙ＝ｘに近い程、予測精度が高いことを表す。

これにより、本発明の実施の形態における混合率予測装置１０では、ＣＩＢＥＲＳＯＲＴ等の従来手法と比較して、高い精度で混合率が予測できていることがわかる。

＜まとめ＞
以上のように、本発明の実施の形態における混合率予測装置１０は、学習済みのニューラルネットワークにより実現される予測器によって、バルク細胞における遺伝子発現量を示すデータから、このバルク細胞に含まれる細胞種毎の混合率を予測することができる。この予測器を学習するにあたり、本発明の実施の形態における混合率予測装置１０では、細胞種毎の遺伝子発現量を示すデータを用いて、仮想的なバルク細胞の遺伝子発現量を示すデータと、この仮想的なバルク細胞に含まれる細胞種毎の混合率を示すデータとの組である学習データを生成する。

このため、本発明の実施の形態における混合率予測装置１０によれば、バルク細胞における遺伝子発現量と、このバルク細胞に含まれる細胞種毎の混合率とを実験等によって測定することが困難な場合であっても、学習用データセットを容易に作成することができる。

また、本発明の実施の形態における混合率予測装置１０では、上記のように学習された予測器を用いることで、例えば、遺伝子発現量に線形性を仮定できないような場合であっても、高い精度で混合率を予測することができる。ここで、遺伝子発現量に線形性を仮定できる場合とは、バルク細胞の遺伝子発現量が、各細胞種の遺伝子発現量と、当該細胞種の混合率との積の総和で表現できる場合（更に、この総和と、ノイズを表す項との和で表現できる場合も含む）のことである。

なお、本発明の実施の形態では、バルク細胞に含まれる細胞種毎の混合率を予測する場合について説明したが、これに限られず、例えば、未知の化学物質に含まれる成分毎の混合率を予測する場合等にも応用可能である。また、本発明の実施の形態は、純粋なもの（又は要素）の信号が得られるような問題設定において、未知の信号毎の混合率を推定する任意のタスクに応用可能である。

また、上述の実施の形態では、混合率予測装置１０内にデータセット作成部１０１を備えることとしたが、これに限られない。つまり、データセット作成部１０１と、学習部１０２または予測部１０３は、それぞれデータセット作成装置、学習装置、予測装置として、異なる装置として設けられてもよい。

本発明は、具体的に開示された上記の実施の形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。

１０混合率予測装置
１０１データセット作成部
１０２学習部
１０３予測部
１１１混合率生成部
１１２バルク細胞作成部
１１３学習データ作成部

Claims

少なくとも１台のコンピュータが、
各種類の細胞における遺伝子の発現量に関するデータと仮想の混合度合いとに基づいて、前記仮想の混合度合いと仮想の遺伝子発現量との組を含む学習用データセットを作成するステップと、
細胞群の遺伝子の発現量に関するデータが入力されると、前記細胞群に含まれる所定の種類の細胞の混合度合いに関する情報を出力するように、前記学習用データセットを用いて機械学習モデルを学習するステップと、
を実行する学習方法。
前記仮想の遺伝子発現量は、前記仮想の混合度合いと、個々の細胞の前記遺伝子の発現量に関するデータとの積により算出された値である、
請求項１に記載の学習方法。
前記仮想の混合度合いは、乱数を用いて決定された値である、請求項１又は２に記載の学習方法。
前記仮想の遺伝子発現量は、前記仮想の混合度合いに対して所定のノイズを掛けるとともに正規化して得られた新たな仮想の混合度合いと、個々の細胞の前記遺伝子の発現量に関するデータとを用いて求められた値である、
請求項１乃至３のいずれか１に記載の学習方法。
前記少なくとも１台のコンピュータが、
前記仮想の遺伝子発現量を前記機械学習モデルに入力することで出力される出力データと、前記仮想の混合度合いとの誤差を用いて、前記機械学習モデルを学習する、
請求項１乃至４のいずれか１に記載の学習方法。
前記機械学習モデルは、ニューラルネットワークである、
請求項１乃至５のいずれか１に記載の学習方法。
前記混合度合いに関する情報は、少なくとも前記所定の種類の細胞の比率又は割合のいずれかに関する情報である、
請求項１乃至６のいずれか１に記載の学習方法。
前記細胞群はバルク細胞である、
請求項１乃至７のいずれか１に記載の学習方法。
前記遺伝子の発現量に関するデータは、少なくとも既存のデータセット又はＲＮＡ－Ｓｅｑ解析のいずれかを用いて測定されたデータである、
請求項１乃至８のいずれか１に記載の学習方法。
前記学習用データセットを作成するステップは、第１のコンピュータが実行し、
前記学習するステップは、前記第１のコンピュータとは異なる第２のコンピュータが実行する、
請求項１乃至９のいずれか１に記載の学習方法。
記憶装置にアクセス可能なプロセッサを含む少なくとも１台のコンピュータが実行するモデル生成方法であって、
請求項１乃至１０のいずれか１に記載の学習方法を用いて、機械学習モデルを生成する、モデル生成方法。
少なくとも１台のコンピュータに、請求項１乃至１０のいずれか１の学習方法を実行させる、
学習プログラム。
少なくとも１台のコンピュータが、
細胞群の遺伝子の発現量に関するデータを取得するステップと、
前記細胞群に含まれる所定の種類の細胞の混合度合いに関する情報を出力するように予め学習された機械学習モデルに前記発現量に関するデータを入力して、前記混合度合いに関する情報を予測するステップと、を実行し、
前記機械学習モデルは、学習を実行する装置が仮想のデータを用いて学習したモデルである、
予測方法。
前記機械学習モデルは、ニューラルネットワークである、
請求項１３に記載の予測方法。
前記混合度合いに関する情報は、少なくとも前記所定の種類の細胞の比率又は割合のいずれかに関する情報である、
請求項１３又は１４に記載の予測方法。
前記細胞群はバルク細胞である、
請求項１３乃至１５のいずれか１に記載の予測方法。
前記発現量に関するデータは、少なくともＤＮＡマイクロアレイによる解析又はＲＮＡ－Ｓｅｑ解析のいずれかを用いて測定されたデータである、
請求項１３乃至１６のいずれか１に記載の予測方法。
前記少なくとも１台のコンピュータが前記学習を実行する装置を含む、
請求項１３乃至１７のいずれか１に記載の予測方法。
前記仮想のデータは、データ作成を実行する装置が各種類の細胞における遺伝子の発現量に関するデータと仮想の混合度合いとに基づいて生成した、仮想の遺伝子発現量を含む学習データである、
請求項１３乃至１８のいずれか１に記載の予測方法。
前記少なくとも１台のコンピュータが前記データ作成を実行する装置を含む、
請求項１９に記載の予測方法。
記憶装置にアクセス可能なプロセッサを含む学習を実行する装置であって、
前記プロセッサが、細胞群の遺伝子の発現量に関するデータが入力されると、前記細胞群に含まれる所定の種類の細胞の混合度合いに関する情報を出力するように、学習用データセットを用いて機械学習モデルを学習し、
前記学習用データセットは、少なくとも１台のコンピュータが各種類の細胞における遺伝子の発現量に関するデータと仮想の混合度合いとに基づいて作成した、前記仮想の混合度合いと仮想の遺伝子発現量との組を含む、
装置。
前記混合度合いに関する情報は、少なくとも前記所定の種類の細胞の比率又は割合のいずれかに関する情報である、
請求項２１記載の装置。
前記少なくとも１台のコンピュータが前記学習を実行する装置を含む、
請求項２１又は２２に記載の装置。
記憶装置にアクセス可能なプロセッサを含む予測を実行する装置であって、
前記プロセッサが、細胞群の遺伝子の発現量に関するデータを取得し、前記細胞群に含まれる所定の種類の細胞の混合度合いに関する情報を出力するように予め学習された機械学習モデルに前記発現量に関するデータを入力して、前記混合度合いに関する情報を予測し、
前記機械学習モデルは、少なくとも１台のコンピュータが仮想のデータを用いて学習したモデルである、
装置。
前記混合度合いに関する情報は、少なくとも前記所定の種類の細胞の比率又は割合のいずれかに関する情報である、
請求項２４に記載の装置。
前記少なくとも１台のコンピュータが前記予測を実行する装置を含む、
請求項２４又は２５に記載の装置。