JP7421475B2 - 学習方法、混合率予測方法及び学習装置 - Google Patents

学習方法、混合率予測方法及び学習装置 Download PDF

Info

Publication number
JP7421475B2
JP7421475B2 JP2020527651A JP2020527651A JP7421475B2 JP 7421475 B2 JP7421475 B2 JP 7421475B2 JP 2020527651 A JP2020527651 A JP 2020527651A JP 2020527651 A JP2020527651 A JP 2020527651A JP 7421475 B2 JP7421475 B2 JP 7421475B2
Authority
JP
Japan
Prior art keywords
data
learning
virtual
expression level
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020527651A
Other languages
English (en)
Other versions
JPWO2020004575A1 (ja
JPWO2020004575A5 (ja
Inventor
幹 阿部
大輔 岡野原
健太 大野
瑞貴 武本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Preferred Networks Inc
Original Assignee
Preferred Networks Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Preferred Networks Inc filed Critical Preferred Networks Inc
Publication of JPWO2020004575A1 publication Critical patent/JPWO2020004575A1/ja
Publication of JPWO2020004575A5 publication Critical patent/JPWO2020004575A5/ja
Application granted granted Critical
Publication of JP7421475B2 publication Critical patent/JP7421475B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

本開示は、学習方法、混合率予測方法及び学習装置に関する。
免疫療法等の開発において、疾病における免疫状態の変化を把握することは重要な課題である。これに対して、近年、免疫細胞の遺伝子毎の発現量(遺伝子発現量)を示すデータを用いて、組織中の細胞種(細胞の種類)毎の混合率を予測する手法が研究されている。このような研究では、例えば、複数の種類の細胞が混合された細胞群(以降、「バルク細胞」と表す。)を用いて、このバルク細胞に含まれる細胞種毎の混合率を予測することが行われている。
しかしながら、従来の手法では、バルク細胞に含まれる細胞種毎の混合率を高精度かつ迅速に予測することが困難な場合があった。
例えば、或る細胞種の混合率が低い場合、この細胞種の混合率を高精度に予測することが困難であった。また、予測手法によっては、バルク細胞に含まれる細胞種毎の混合率(又は或る細胞種の混合率)を予測するために、それぞれのバルク細胞をモデル化する必要があり、混合率の予測に時間を要することがあった。
本発明の実施の形態は、上記の点に鑑みてなされたものであり、細胞群に含まれる細胞種毎の混合率を高精度かつ迅速に予測することを目的とする。
上記目的を達成するため、本発明の実施の形態は、予測対象とする細胞群の遺伝子毎の発現量を示す細胞群発現量データが入力されると、細胞群に含まれる細胞の混合率を出力するように機械学習モデルを学習させるステップを含み、学習させるステップは、複数の学習データの間で互いに異なる仮想の混合率である仮想混合率を任意に設定し、各種類の細胞における遺伝子発現量を示す元データに基づいて、学習データ毎に、仮想混合率に対応する仮想の遺伝子発現量である仮想発現量を求めることで生成されたデータを含む、学習用データセットを用いる。
細胞群に含まれる細胞種毎の混合率を高精度かつ迅速に予測することができる。
本発明の実施の形態における混合率予測装置の予測の概念を説明する図である。 本発明の実施の形態における混合率予測装置で使用する学習データを説明する図である。 本発明の実施の形態における混合率予測装置の学習データの生成を示す図である。 本発明の実施の形態における混合率予測装置の機能構成の一例を示す図である。 本発明の実施の形態における混合率予測装置のハードウェア構成の一例を示す図である。 学習用データセット作成処理の一例を示すフローチャートである。 学習処理の一例を示すフローチャートである。 予測処理の一例を示すフローチャートである。 従来手法との比較例を示す図である。
以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。本発明の実施の形態では、バルク細胞に含まれる細胞種毎の混合率を高精度かつ迅速に予測することが可能な混合率予測装置10について説明する。まず、図1~3を用いて、混合率予測の概念について説明し、続いて、図4を用いて、混合率予測装置10の構成を具体的に説明する。ここで、混合率とは、バルク細胞に含まれる細胞種の割合のことである。また、バルク細胞とは、複数の種類の細胞が混合された細胞群のことである。混合率は、含有率や存在比率等と称されても良い。
なお、本発明の実施の形態では、一例として、複数の種類の免疫細胞を混合したサンプル細胞をバルク細胞とする。ただし、バルク細胞には、免疫細胞以外の種々の細胞(例えば、がん細胞、筋細胞、神経細胞等)が含まれていても良い。
本発明の実施の形態における混合率予測装置10は、図1に示すように、例えば学習済みのニューラルネットワークにより実現される予測器に対して、バルク細胞の遺伝子発現量を示すデータ(以降、「バルク細胞発現量データ」とも表す。)を入力することで、このバルク細胞に含まれる細胞種毎の混合率を示すデータ(以降、「混合率予測データ」とも表す。)を出力する。
図2に示すように、混合率予測装置10は、『仮想混合率』及び『仮想発現量』を含む複数の学習データからなる学習用データセットにより、機械学習モデルを学習させる。図2に示すように、各学習データは、それぞれ1の仮想バルクに関して生成された仮想のデータである。図2に示す例は、学習データ用セットは、学習データ1~3を含むが、学習用データセットが含む学習データの数は限定されない。
図3に混合率予測装置10における学習データの生成の概念を示す。混合率予測装置10は、まず、バルク細胞に含まれる細胞種の混合率を予測するため、複数の細胞の遺伝子発現量を用いて、仮想のバルク細胞である仮想バルク細胞を生成する。具体的には、図3は、『細胞1』、『細胞2』及び『細胞3』を用いて、『仮想バルク細胞1』、『仮想バルク細胞2』及び『仮想バルク細胞3』を生成する一例である。ここで、「仮想バルク細胞」は、実際に存在するものではなく、後述する混合率予測に利用する学習データを生成するために演算で得られた仮想のものである。
図3に示す例では、各細胞は、それぞれ『遺伝子A』、『遺伝子B』及び『遺伝子C』によって構成される。具体的には、「細胞1」は、遺伝子Aの遺伝子発現量が「A1」、遺伝子Bの遺伝子発現量が「B1」、遺伝子Cの遺伝子発現量が「C1」であるとする。また、「細胞2」は、遺伝子Aの遺伝子発現量が「A2」、遺伝子Bの遺伝子発現量が「B2」、遺伝子Cの遺伝子発現量が「C2」であるとする。さらに、「細胞3」は、遺伝子Aの遺伝子発現量が「A3」、遺伝子Bの遺伝子発現量が「B3」、遺伝子Cの遺伝子発現量が「C3」であるとする。なお、細胞1~3及び遺伝子A~Cは、説明のため、簡略化した名称である。また、実際の細胞を構成する遺伝子の数および種類も異なる。
まず、混合率予測装置10は、各細胞について、仮想混合率を設定する。図3の例では、仮想混合率として、(1)『細胞1:80%、細胞2:10%、細胞3:10%』、(2)『細胞1:50%、細胞2:30%、細胞3:20%』、(3)『細胞1:20%、細胞2:40%、細胞3:40%』が設定された。
その後、混合率予測装置10は、仮想混合率(1)により『細胞1』を80%、『細胞2』を10%、『細胞3』を10%の各割合で混合し、『仮想バルク細胞1』を生成する。そして、混合率予測装置10は、細胞1~3を構成する各遺伝子A~Cの割合A1~C1をそれぞれ用いて、『仮想バルク細胞1』を構成する各遺伝子A~Cの仮想の遺伝子発現量である仮想発現量A4~C4を求める。
同様に、混合率予測装置10は、仮想混合率(2)で『仮想バルク細胞2』を生成し、各遺伝子A~Cの仮想発現量A5~C5を求める。また、混合率予測装置10は、仮想混合率(3)で『仮想バルク細胞3』を生成し、各遺伝子A~Cの仮想発現量A6~C6を求める。
このように、本発明に係る混合率予測装置10では、学習データとして十分な量のバルク細胞の情報が得られない場合であっても、仮想混合率及び仮想発現量を学習データとして用いることが可能となり、バルク細胞の遺伝子発現量から細胞の混合率を予測することが可能となる。すなわち、混合率予測装置10では、計測等によって得られたデータではなく、生成の処理によって得られた仮想の情報である学習データを用いて、予測を実現することができる。換言すると、混合率予測装置10では、従来の学習処理ではなく、仮想データで学習するという新しい方法を利用する。
以下では、予測器の学習に用いるデータセット(学習用データセット)を作成する「学習用データセット作成処理」と、学習用データセットを用いて予測器を学習する「学習処理」と、予測器によりバルク細胞に含まれる細胞種毎の混合率を予測する「予測処理」とを説明する。
なお、本発明の実施の形態では、一例として、予測器が学習済みのニューラルネットワークにより実現される場合について説明する。ただし、予測器は、学習済みのニューラルネットワークに限られず、決定木や、サポートベクターマシン等の種々の機械学習モデルにより実現されていても良い。
<機能構成>
続いて、本発明の実施の形態における混合率予測装置10の機能構成について、図4を参照しながら説明する。図4は、本発明の実施の形態における混合率予測装置10の機能構成の一例を示す図である。
図4に示すように、本発明の実施の形態における混合率予測装置10は、データセット作成部101と、学習部102と、予測部103とを有する。また、混合率予測装置10は、記憶装置において、遺伝子発現量データ211、仮想混合率データ212、仮想発現量データ(以降、「仮想バルク細胞発現量データ」とも表す。)213及び学習データ214等の各種のデータを記憶し、利用することができる。図4に示す記憶装置は、RAM205、ROM206及び補助記憶装置208等の記憶手段であって、各データは、いずれかの記憶手段に記憶されうる。
データセット作成部101は、学習用データセット作成処理を実行する。すなわち、データセット作成部101は、細胞種毎の遺伝子発現量データ211を入力として、学習用データセット215を作成する。ここで、データセット作成部101には、混合率生成部111と、バルク細胞作成部112と、学習データ作成部113とが含まれる。
混合率生成部111は、バルク細胞に含まれる細胞種毎の仮想的な混合率を示す仮想混合率データ212を生成する。このとき、混合率生成部111は、複数の仮想混合率データ212を生成する。
バルク細胞作成部112は、仮想混合率データ212毎に、細胞種毎の遺伝子発現量データ211と、当該仮想混合率データ212とを用いて、仮想的なバルク細胞の遺伝子発現量を示す仮想バルク細胞発現量データ213を作成する。
学習データ作成部113は、仮想混合率データ212毎に、仮想バルク細胞発現量データ213と、当該仮想混合率データ212との組を学習データ214として作成する。これにより、複数の学習データ214によって構成される学習用データセット215が作成される。なお、図4の例では、学習用データセット215は、3つの学習データ214で構成されるが、上述したように、学習用データセット215が含む学習データ214の数は限定されない。
学習部102は、学習処理を実行する。すなわち、学習部102は、学習用データセット215に含まれる各学習データ214を用いて、ニューラルネットワークのパラメータを更新する。これにより、ニューラルネットワークが学習され、予測器が実現される。
予測部103は、学習済みのニューラルネットワークにより実現される予測器であり、予測処理を実行する。すなわち、予測部103は、バルク細胞の遺伝子発現量を示すバルク細胞発現量データを入力として、このバルク細胞に含まれる細胞種毎の混合率の予測値を示す混合率予測データを出力する。
なお、図4に示す例では、データセット作成部101と、学習部102と、予測部103との3つの機能部を1台の混合率予測装置10が有している場合を示しているが、これらの各機能部は複数の装置が分散して有していても良い。例えば、本発明の実施の形態における混合率予測装置10は、データセット作成部101を有するデータセット作成装置と、学習部102及び予測部103を有する予測装置とで構成されていても良い。また、更に、この予測装置は、学習処理のみを行う装置と、予測処理のみを行う装置とで構成されていても良い。
<ハードウェア構成>
次に、本発明の実施の形態における混合率予測装置10のハードウェア構成について、図5を参照しながら説明する。図5は、本発明の実施の形態における混合率予測装置10のハードウェア構成の一例を示す図である。
図5に示すように、本発明の実施の形態における混合率予測装置10は、入力装置201と、表示装置202と、外部I/F203と、通信I/F204と、RAM(Random Access Memory)205と、ROM(Read Only Memory)206と、プロセッサ207と、補助記憶装置208とを有する。これら各ハードウェアは、それぞれがバス209により相互に接続されている。
入力装置201は、例えばキーボードやマウス、タッチパネル等であり、ユーザが各種操作を入力するのに用いられる。表示装置202は、例えばディスプレイ等であり、混合率予測装置10の各種の処理結果を表示する。なお、混合率予測装置10は、入力装置201及び表示装置202のうちの少なくとも一方を有していなくても良い。
外部I/F203は、外部装置とのインタフェースである。外部装置には、記録媒体203a等がある。混合率予測装置10は、外部I/F203を介して、記録媒体203a等の読み取りや書き込み等を行うことができる。記録媒体203aには、混合率予測装置10が有する各機能部(すなわち、データセット作成部101、学習部102及び予測部103)を実現する1以上のプログラム等が記録されていても良い。
記録媒体203aには、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等がある。
通信I/F204は、混合率予測装置10を通信ネットワークに接続するためのインタフェースである。混合率予測装置10が有する各機能部を実現する1以上のプログラムは、通信I/F204を介して、所定のサーバ装置等から取得(ダウンロード)されても良い。
RAM205は、プログラムやデータを一時保持する揮発性の半導体メモリである。ROM206は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ROM206には、例えば、OS(Operating System)に関する設定や通信ネットワークに関する設定等が格納されている。
プロセッサ207は、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等であり、ROM206や補助記憶装置208等からプログラムやデータをRAM205上に読み出して処理を実行する演算装置である。混合率予測装置10が有する各機能部は、例えば補助記憶装置208に格納されている1以上のプログラムがプロセッサ207に実行させる処理により実現される。なお、混合率予測装置10は、プロセッサ207として、CPUとGPUとの両方を有していても良いし、CPU又はGPUのいずれか一方のみを有していても良い。
補助記憶装置208は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置208には、例えば、OS、各種アプリケーションソフトウェア、混合率予測装置10が有する各機能部を実現する1以上のプログラム等がある。
本発明の実施の形態における混合率予測装置10は、図5に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。なお、図5に示す例では、本発明の実施の形態における混合率予測装置10が1台の装置(コンピュータ)で実現されている場合について説明したが、これに限られない。本発明の実施の形態における混合率予測装置10は、複数台の装置(コンピュータ)で実現されていても良い。
<学習用データセット作成処理>
以降では、学習用データセット作成処理について、図6を参照しながら説明する。図6は、学習用データセット作成処理の一例を示すフローチャートである。
まず、データセット作成部101は、細胞種毎の遺伝子発現量データを取得する(ステップS101)。ここで、遺伝子の種類の総数をM、細胞種の総数をNで表した場合、細胞種n(1≦n≦N)の遺伝子発現量データxは、M次元ベクトルで表される。すなわち、細胞種nにおける遺伝子M(1≦m≦M)の発現量をxmnとして、x=(x1n,・・・,xMnと表される。なお、tは転置を表す。
このような細胞種毎の遺伝子発現量データとしては、例えば、LM22データセットを用いることができる。LM22データセットは、均一な集団に分画された22種類の各免疫細胞における547種類の遺伝子の発現量を計測したデータのセットである。LM22データセットの詳細は、例えば、上記の非特許文献1を参照されたい。また、LM22データセット以外にも、例えば、シングルセルRNA-Seq解析により、細胞種毎の遺伝子発現量データを得ることもできる。
以降では、N種類の細胞種におけるM種類の遺伝子の発現量をそれぞれM次元ベクトルで表した遺伝子発現量データx,・・・,xが入力されたものとして説明を続ける。
データセット作成部101の混合率生成部111は、複数の仮想混合率データを生成する(ステップS102)。ここで、仮想混合率データの生成数をPで表した場合、p(1≦p≦P)番目の仮想混合率データaは、N次元ベクトル(つまり、細胞種の総数を次元数とするベクトル)で表される。すなわち、バルク細胞に含まれる細胞種n(1≦n≦N)の混合率をanpとして、a=(a1p,・・・,aNpと表される。したがって、混合率生成部111は、p毎に、a1p+・・・+aNp=1を満たし、かつ、0以上1以下の値の乱数a1p,・・・,aNpを生成することで、P個の仮想混合率データa,・・・,aを生成する。なお、Pとしては、ユーザによって任意の自然数を設定することができる。
次に、データセット作成部101のバルク細胞作成部112は、仮想混合率データ毎に、細胞種毎の遺伝子発現量データと、当該仮想混合率データとを用いて、仮想バルク細胞発現量データを作成する(ステップS103)。ここで、バルク細胞作成部112は、例えば、細胞種毎の遺伝子発現量データx,・・・,xを列ベクトルする行列をX=(x,・・・,x)として、行列Xと、仮想混合率データaとの行列積を計算することで、仮想バルク細胞発現量データyを作成する。すなわち、バルク細胞作成部112は、p=1,・・・,Pに対して、y=Xaを計算する。これにより、M次元ベクトルy,・・・,yが得られる。これら各yは、仮想的なバルク細胞pにおけるM種類の遺伝子の発現量を表している。
なお、バルク細胞作成部112は、仮想混合率データaに対して所定のノイズを掛けた上で、正規化した仮想混合率データbを用いて、y=Xbを計算し、仮想バルク細胞発現量データyを作成しても良い。仮想混合率データbは、例えば、aの各要素anp(1≦n≦N)に対して所定のノイズ(例えば、salt pepper noiseやlognormal noise等)を掛けた上で、これらノイズを掛けた各要素anp(1≦n≦N)の和が1となるように正規化することで作成される。
なお、上述した仮想混合率データbを用いた仮想バルク細胞発現量データy=Xbが作成された場合は、学習データ作成部113は、p=1,・・・,Pに対して、仮想バルク細胞発現量データy=Xbと、ノイズを掛ける前の仮想混合率データaとの組(y,a)を学習データとする。
以上により、本発明の実施の形態における混合率予測装置10では、実際の計測として得られた細胞種毎の遺伝子発現量データ(例えば、LM22データセット等)を用いて、学習用データセットD={(y,a)|p=1,・・・,P}が作成される。ここで、上述したように、yは仮想的なバルク細胞の遺伝子発現量を示すデータであり、aはこの仮想バルク細胞に含まれる細胞種毎の混合率を示すデータ(すなわち、正解データ)である。後述するように、この学習用データセットDを用いて、予測器を実現するニューラルネットワークの学習が行われる。
なお、上記のステップS101では、同一の細胞種の遺伝子発現量データが複数入力されても良い。例えば、細胞種iの遺伝子発現量データxとx´とが入力されても良い。この場合、遺伝子発現量データx,・・・,x,・・・,xと、遺伝子発現量データx,・・・,x´,・・・,xとに対して、上記のステップS103~ステップS104をそれぞれ実行すれば良い。これにより、学習用データセットD={(y,a)|p=1,・・・,P}と、D´={(y´,a)|p=1,・・・,P}とが作成される。したがって、この場合、これらの学習用データセットD及びD´を用いて、予測器を実現するニューラルネットワークの学習を行えば良い。同一の細胞種の遺伝子発現量データが3以上入力された場合も同様である。
<学習処理>
以降では、学習処理について、図7を参照しながら説明する。図7は、学習処理の一例を示すフローチャートである。なお、上記の学習用データセット作成処理で複数の学習用データセットが作成された場合、例えば、学習用データセット毎に、以降のステップS201~ステップS203が実行されれば良い。
まず、学習部102は、学習用データセットD={(y,a)|p=1,・・・,P}を入力する(ステップS201)。
次に、学習部102は、学習用データセットDに含まれる各学習データ(y,a)を用いて、所定の誤差関数による誤差を計算する(ステップS202)。すなわち、学習部102は、仮想バルク細胞発現量データyを予測部103(すなわち、学習済みでないニューラルネットワーク)に入力して、仮想バルク細胞pに含まれる細胞種毎の混合率を示す出力データa^を得る。そして、学習部102は、出力データa^と、正解データaとの誤差を所定の誤差関数により計算する。ここで、誤差関数としては、例えば、softmax cross entropyやmean squared error等が用いられる。
次に、学習部102は、上記のステップS202で計算された誤差を用いて、ニューラルネットワークのパラメータを更新する(ステップS203)。すなわち、学習部102は、例えば、誤差逆伝播法等を用いて、誤差が最小となるようにパラメータを更新する。これにより、予測器を実現するニューラルネットワークが学習される。
以上により、本発明の実施の形態における混合率予測装置10では、予測器を実現する学習済みニューラルネットワークを得ることができる。
<予測処理>
以降では、予測処理について、図8を参照しながら説明する。図8は、予測処理の一例を示すフローチャートである。
予測部103は、バルク細胞発現量データyを入力する(ステップS301)。なお、バルク細胞発現量データyは、例えば、バルク細胞の遺伝子発現量を既知の手法(例えば、DNAマイクロアレイによる解析やRNA-Seq解析等)で測定することで得られる。
次に、予測部103は、予測器により、バルク細胞発現量データyに対応するバルク細胞に含まれる細胞種毎の混合率を予測して、この予測値を示す混合率予測データaを出力する(ステップS302)。これにより、N種類の細胞種の混合率をN次元ベクトルで表した混合率予測データaが得られる。
以上により、本発明の実施の形態における混合率予測装置10では、バルク細胞発現量データyから混合率予測データaが得ることができる。このように、本発明の実施の形態における混合率予測装置10では、従来の手法と異なり、バルク細胞の遺伝子発現量から、このバルク細胞に含まれる細胞種毎の混合率を直接予測することができる。しかも、本発明の実施の形態における混合率予測装置10では、従来の手法と異なり、混合率の予測のためにバルク細胞をモデル化する必要がないため、バルク細胞に含まれる細胞種毎の混合率を迅速に予測することができる。
<従来手法との比較例>
ここで、従来手法と、本発明の実施の形態の手法との予測精度の比較例について、図9を参照しながら説明する。図9は、従来手法との比較例を示す図である。図9に示す例では、バルク細胞発現量データyとして、GSE20300データセットを使用した。
図9(a)は、従来手法として、上記の非特許文献1に記載されているCIBERSORTを用いた場合における混合率の実測値と予測値との関係を点としてプロットした図である。一方で、図9(b)は、本発明の実施の形態の手法を用いた場合における混合率の実測値と予測値との関係を点としてプロットした図である。なお、図9(a)及び(b)では、比較を容易にするため、22種類の細胞種のうち、19種の細胞種をまとめて「PMNs」として、この「PMNs」と、細胞種「Lymphocytes」と、細胞種「monocytes」とをプロットした。また、この22種類に含まれる細胞種の1つである細胞種「Eosinophils」については対象外とした。
図9(a)に示す例では、プロットした各点から得られる回帰直線はy=0.48x+15.60で表され、相関係数はr=0.77である。一方で、図9(b)に示す例では、各点から得られる回帰直線はy=1.07x-1.84で表され、相関係数はr=0.93である。なお、回帰直線がy=xに近い程、予測精度が高いことを表す。
これにより、本発明の実施の形態における混合率予測装置10では、CIBERSORT等の従来手法と比較して、高い精度で混合率が予測できていることがわかる。
<まとめ>
以上のように、本発明の実施の形態における混合率予測装置10は、学習済みのニューラルネットワークにより実現される予測器によって、バルク細胞における遺伝子発現量を示すデータから、このバルク細胞に含まれる細胞種毎の混合率を予測することができる。この予測器を学習するにあたり、本発明の実施の形態における混合率予測装置10では、細胞種毎の遺伝子発現量を示すデータを用いて、仮想的なバルク細胞の遺伝子発現量を示すデータと、この仮想的なバルク細胞に含まれる細胞種毎の混合率を示すデータとの組である学習データを生成する。
このため、本発明の実施の形態における混合率予測装置10によれば、バルク細胞における遺伝子発現量と、このバルク細胞に含まれる細胞種毎の混合率とを実験等によって測定することが困難な場合であっても、学習用データセットを容易に作成することができる。
また、本発明の実施の形態における混合率予測装置10では、上記のように学習された予測器を用いることで、例えば、遺伝子発現量に線形性を仮定できないような場合であっても、高い精度で混合率を予測することができる。ここで、遺伝子発現量に線形性を仮定できる場合とは、バルク細胞の遺伝子発現量が、各細胞種の遺伝子発現量と、当該細胞種の混合率との積の総和で表現できる場合(更に、この総和と、ノイズを表す項との和で表現できる場合も含む)のことである。
なお、本発明の実施の形態では、バルク細胞に含まれる細胞種毎の混合率を予測する場合について説明したが、これに限られず、例えば、未知の化学物質に含まれる成分毎の混合率を予測する場合等にも応用可能である。また、本発明の実施の形態は、純粋なもの(又は要素)の信号が得られるような問題設定において、未知の信号毎の混合率を推定する任意のタスクに応用可能である。
また、上述の実施の形態では、混合率予測装置10内にデータセット作成部101を備えることとしたが、これに限られない。つまり、データセット作成部101と、学習部102または予測部103は、それぞれデータセット作成装置、学習装置、予測装置として、異なる装置として設けられてもよい。
本発明は、具体的に開示された上記の実施の形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
10 混合率予測装置
101 データセット作成部
102 学習部
103 予測部
111 混合率生成部
112 バルク細胞作成部
113 学習データ作成部

Claims (26)

  1. 少なくとも1台のコンピュータが、
    各種類の細胞における遺伝子の発現量に関するデータと仮想の混合度合いとに基づいて、前記仮想の混合度合いと仮想の遺伝子発現量との組を含む学習用データセットを作成するステップと、
    細胞群の遺伝子の発現量に関するデータが入力されると、前記細胞群に含まれる所定の種類の細胞の混合度合いに関する情報を出力するように、前記学習用データセットを用いて機械学習モデルを学習するステップと、
    を実行する学習方法。
  2. 前記仮想の遺伝子発現量は、前記仮想の混合度合いと、個々の細胞の前記遺伝子の発現量に関するデータとの積により算出された値である、
    請求項1に記載の学習方法。
  3. 前記仮想の混合度合いは、乱数を用いて決定された値である、請求項1又は2に記載の学習方法。
  4. 前記仮想の遺伝子発現量は、前記仮想の混合度合いに対して所定のノイズを掛けるとともに正規化して得られた新たな仮想の混合度合いと、個々の細胞の前記遺伝子の発現量に関するデータとを用いて求められた値である、
    請求項1乃至3のいずれか1に記載の学習方法。
  5. 前記少なくとも1台のコンピュータが、
    前記仮想の遺伝子発現量を前記機械学習モデルに入力することで出力される出力データと、前記仮想の混合度合いとの誤差を用いて、前記機械学習モデルを学習する、
    請求項1乃至4のいずれか1に記載の学習方法。
  6. 前記機械学習モデルは、ニューラルネットワークである、
    請求項1乃至5のいずれか1に記載の学習方法。
  7. 前記混合度合いに関する情報は、少なくとも前記所定の種類の細胞の比率又は割合のいずれかに関する情報である、
    請求項1乃至6のいずれか1に記載の学習方法。
  8. 前記細胞群はバルク細胞である、
    請求項1乃至7のいずれか1に記載の学習方法。
  9. 前記遺伝子の発現量に関するデータは、少なくとも既存のデータセット又はRNA-Seq解析のいずれかを用いて測定されたデータである、
    請求項1乃至8のいずれか1に記載の学習方法。
  10. 前記学習用データセットを作成するステップは、第1のコンピュータが実行し、
    前記学習するステップは、前記第1のコンピュータとは異なる第2のコンピュータが実行する、
    請求項1乃至9のいずれか1に記載の学習方法。
  11. 記憶装置にアクセス可能なプロセッサを含む少なくとも1台のコンピュータが実行するモデル生成方法であって、
    請求項1乃至10のいずれか1に記載の学習方法を用いて、機械学習モデルを生成する、モデル生成方法。
  12. 少なくとも1台のコンピュータに、請求項1乃至10のいずれか1の学習方法を実行させる、
    学習プログラム。
  13. 少なくとも1台のコンピュータが、
    細胞群の遺伝子の発現量に関するデータを取得するステップと、
    前記細胞群に含まれる所定の種類の細胞の混合度合いに関する情報を出力するように予め学習された機械学習モデルに前記発現量に関するデータを入力して、前記混合度合いに関する情報を予測するステップと、を実行し、
    前記機械学習モデルは、学習を実行する装置が仮想のデータを用いて学習したモデルである、
    予測方法。
  14. 前記機械学習モデルは、ニューラルネットワークである、
    請求項13に記載の予測方法。
  15. 前記混合度合いに関する情報は、少なくとも前記所定の種類の細胞の比率又は割合のいずれかに関する情報である、
    請求項13又は14に記載の予測方法。
  16. 前記細胞群はバルク細胞である、
    請求項13乃至15のいずれか1に記載の予測方法。
  17. 前記発現量に関するデータは、少なくともDNAマイクロアレイによる解析又はRNA-Seq解析のいずれかを用いて測定されたデータである、
    請求項13乃至16のいずれか1に記載の予測方法。
  18. 前記少なくとも1台のコンピュータが前記学習を実行する装置を含む、
    請求項13乃至17のいずれか1に記載の予測方法。
  19. 前記仮想のデータは、データ作成を実行する装置が各種類の細胞における遺伝子の発現量に関するデータと仮想の混合度合いとに基づいて生成した、仮想の遺伝子発現量を含む学習データである、
    請求項13乃至18のいずれか1に記載の予測方法。
  20. 前記少なくとも1台のコンピュータが前記データ作成を実行する装置を含む、
    請求項19に記載の予測方法。
  21. 記憶装置にアクセス可能なプロセッサを含む学習を実行する装置であって、
    前記プロセッサが、細胞群の遺伝子の発現量に関するデータが入力されると、前記細胞群に含まれる所定の種類の細胞の混合度合いに関する情報を出力するように、学習用データセットを用いて機械学習モデルを学習し、
    前記学習用データセットは、少なくとも1台のコンピュータが各種類の細胞における遺伝子の発現量に関するデータと仮想の混合度合いとに基づいて作成した、前記仮想の混合度合いと仮想の遺伝子発現量との組を含む、
    装置。
  22. 前記混合度合いに関する情報は、少なくとも前記所定の種類の細胞の比率又は割合のいずれかに関する情報である、
    請求項21記載の装置。
  23. 前記少なくとも1台のコンピュータが前記学習を実行する装置を含む、
    請求項21又は22に記載の装置。
  24. 記憶装置にアクセス可能なプロセッサを含む予測を実行する装置であって、
    前記プロセッサが、細胞群の遺伝子の発現量に関するデータを取得し、前記細胞群に含まれる所定の種類の細胞の混合度合いに関する情報を出力するように予め学習された機械学習モデルに前記発現量に関するデータを入力して、前記混合度合いに関する情報を予測し、
    前記機械学習モデルは、少なくとも1台のコンピュータが仮想のデータを用いて学習したモデルである、
    装置。
  25. 前記混合度合いに関する情報は、少なくとも前記所定の種類の細胞の比率又は割合のいずれかに関する情報である、
    請求項24に記載の装置。
  26. 前記少なくとも1台のコンピュータが前記予測を実行する装置を含む、
    請求項24又は25に記載の装置。
JP2020527651A 2018-06-29 2019-06-27 学習方法、混合率予測方法及び学習装置 Active JP7421475B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018124385 2018-06-29
JP2018124385 2018-06-29
PCT/JP2019/025676 WO2020004575A1 (ja) 2018-06-29 2019-06-27 学習方法、混合率予測方法及び学習装置

Publications (3)

Publication Number Publication Date
JPWO2020004575A1 JPWO2020004575A1 (ja) 2021-08-12
JPWO2020004575A5 JPWO2020004575A5 (ja) 2022-07-06
JP7421475B2 true JP7421475B2 (ja) 2024-01-24

Family

ID=68984915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020527651A Active JP7421475B2 (ja) 2018-06-29 2019-06-27 学習方法、混合率予測方法及び学習装置

Country Status (3)

Country Link
US (1) US20210151128A1 (ja)
JP (1) JP7421475B2 (ja)
WO (1) WO2020004575A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4118657B1 (en) * 2020-03-12 2024-05-01 BostonGene Corporation Systems and methods for deconvolution of expression data
WO2023153413A1 (ja) * 2022-02-08 2023-08-17 テルモ株式会社 2種類以上の細胞を含む培養細胞における目的細胞の割合を予測するためのシステム、プログラム及び方法
CN115831259B (zh) * 2022-12-12 2023-09-05 华东理工大学 聚氰酸酯的性能预测方法及其应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017530693A (ja) 2014-08-08 2017-10-19 ナノストリング テクノロジーズ,インコーポレイティド 遺伝子発現データを使用した混成細胞集団のデコンボリューション方法
WO2018012601A1 (ja) 2016-07-14 2018-01-18 大日本印刷株式会社 画像解析システム、培養管理システム、画像解析方法、培養管理方法、細胞群製造方法及びプログラム
US20180057859A1 (en) 2016-05-06 2018-03-01 Craig E. Nelson Method for identifying rare cell types by single cell assisted deconvolution of population gene expression data
JP2018512071A (ja) 2015-01-22 2018-05-10 ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー 異なる細胞サブセットの比率の決定方法およびシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017530693A (ja) 2014-08-08 2017-10-19 ナノストリング テクノロジーズ,インコーポレイティド 遺伝子発現データを使用した混成細胞集団のデコンボリューション方法
JP2018512071A (ja) 2015-01-22 2018-05-10 ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー 異なる細胞サブセットの比率の決定方法およびシステム
US20180057859A1 (en) 2016-05-06 2018-03-01 Craig E. Nelson Method for identifying rare cell types by single cell assisted deconvolution of population gene expression data
WO2018012601A1 (ja) 2016-07-14 2018-01-18 大日本印刷株式会社 画像解析システム、培養管理システム、画像解析方法、培養管理方法、細胞群製造方法及びプログラム

Also Published As

Publication number Publication date
WO2020004575A1 (ja) 2020-01-02
US20210151128A1 (en) 2021-05-20
JPWO2020004575A1 (ja) 2021-08-12

Similar Documents

Publication Publication Date Title
Mbatchou et al. Computationally efficient whole-genome regression for quantitative and binary traits
JP7421475B2 (ja) 学習方法、混合率予測方法及び学習装置
JP7312173B2 (ja) 量子古典コンピューティングハードウェア用いた量子コンピューティング対応の第一原理分子シミュレーションのための方法とシステム
Simpson Exploring genome characteristics and sequence quality without a reference
Lewis et al. What evidence is there for the homology of protein-protein interactions?
CA2773650C (en) Thermodynamic phase equilibrium analysis based on a reduced composition domain
Köhler et al. Flexible Bayesian additive joint models with an application to type 1 diabetes research
CN105874460B (zh) 识别靶序列的至少一个碱基的方法、可读介质及设备
WO2020116211A1 (ja) 推定装置、最適化装置、推定方法、最適化方法、及びプログラム
Xie et al. Improved metabolite prediction using microbiome data-based elastic net models
Wang et al. A two‐sample robust Bayesian Mendelian Randomization method accounting for linkage disequilibrium and idiosyncratic pleiotropy with applications to the COVID‐19 outcomes
Rodero et al. Calibration of cohorts of virtual patient heart models using Bayesian history matching
Zwaenepoel et al. Model-based detection of whole-genome duplications in a phylogeny
CN114446393B (zh) 用于预测肝癌特征类型的方法、电子设备和计算机存储介质
Arjas et al. Estimation of dynamic SNP-heritability with Bayesian Gaussian process models
Holland et al. Contact prediction is hardest for the most informative contacts, but improves with the incorporation of contact potentials
Huynh-Thu et al. Gene regulatory network inference from systems genetics data using tree-based methods
Du et al. IQSeq: integrated isoform quantification analysis based on next-generation sequencing
Yi et al. Feature screening with large-scale and high-dimensional survival data
Fujita et al. The impact of measurement errors in the identification of regulatory networks
JP7420148B2 (ja) 学習装置、学習方法及びプログラム
LeBlanc et al. Extreme regression
JP7224263B2 (ja) モデル生成方法、モデル生成装置及びプログラム
WO2024105736A1 (ja) 予測モデル評価装置、方法およびプログラム
WO2022059189A1 (ja) データ算出装置、データ算出方法および記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240112

R150 Certificate of patent or registration of utility model

Ref document number: 7421475

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150