JP2019150018A - 細胞判定装置、細胞判定方法及びプログラム - Google Patents

細胞判定装置、細胞判定方法及びプログラム Download PDF

Info

Publication number
JP2019150018A
JP2019150018A JP2019034684A JP2019034684A JP2019150018A JP 2019150018 A JP2019150018 A JP 2019150018A JP 2019034684 A JP2019034684 A JP 2019034684A JP 2019034684 A JP2019034684 A JP 2019034684A JP 2019150018 A JP2019150018 A JP 2019150018A
Authority
JP
Japan
Prior art keywords
cell
data
cells
determination
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019034684A
Other languages
English (en)
Inventor
光一郎 西野
Koichiro Nishino
光一郎 西野
良和 新井
Yoshikazu Arai
良和 新井
明弘 梅澤
Akihiro Umezawa
明弘 梅澤
英憲 阿久津
Hidenori Akutsu
英憲 阿久津
岡村 浩司
Koji Okamura
浩司 岡村
慎一 堀家
Shinichi Horiie
慎一 堀家
博之 犬塚
Hiroyuki Inuzuka
博之 犬塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tohoku University NUC
Kanazawa University NUC
University of Miyazaki NUC
National Center for Child Health and Development
Original Assignee
Tohoku University NUC
Kanazawa University NUC
University of Miyazaki NUC
National Center for Child Health and Development
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tohoku University NUC, Kanazawa University NUC, University of Miyazaki NUC, National Center for Child Health and Development filed Critical Tohoku University NUC
Publication of JP2019150018A publication Critical patent/JP2019150018A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】細胞の状態を簡便かつ正確に判定することができる細胞判定装置、細胞判定方法及びプログラムを提供する。【解決手段】細胞判定装置100は、判定対象である細胞のDNAメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データからなる群から選択される少なくとも1つを含むオミクスデータに基づく教師あり学習で構築されたモデルによって細胞の状態を判定する判定部2を備える。【選択図】図1

Description

本発明は、細胞判定装置、細胞判定方法及びプログラムに関する。
胚性幹細胞(ES細胞)、人工多能性幹細胞(iPS細胞)、胚性がん細胞(EC細胞)及び間葉系幹細胞等の幹細胞が生物学及び医療分野において使用される。幹細胞は、株ごとの特性が異なる。幹細胞については、特に分化誘導効率の株間による違いが指摘されている。分化誘導効率の違いは、幹細胞の再生医療実現への障壁となっている。幹細胞を医療分野で用いる場合、幹細胞の特性を正確に評価することが有効性及び安全性を保証するうえで必要不可欠である。
多能性幹細胞株の機能性及び適切性を予測するための方法が特許文献1に開示されている。特許文献1に開示された方法では、所定の標的遺伝子セットに関するDNAメチル化に基づいて多能性幹細胞株が選択される。
特開2017−104105号公報
特許文献1に開示された方法のように、従来の幹細胞の特性の評価は、数〜1000個程度のマーカーとなる遺伝子又はタンパク質の検討にとどまっている。現状のマーカーの検討では、分化誘導前の未分化状態の細胞の分化指向性は判定できない。現時点では、ES細胞及びiPS細胞において、分化誘導前に分化指向性を判定するマーカー又は基準は存在しない。そのため、実際に分化誘導実験を行わない限り、ES細胞及びiPS細胞の分化指向性及び分化誘導効率は確定できず、時間と費用の浪費に繋がっている。
細胞内では数万個の遺伝子それぞれが活性又は不活性のパターンを形成している。さらに遺伝子の活性又は不活性のパターンの基盤となるエピジェネティックパターン、つまり、DNAメチル化、ヒストン修飾、クロマチンの高次構造及びユビキチン修飾等の膨大な因子の相互作用が細胞内では営まれている。細胞の特性を規定するのはそれら膨大な因子間の相互作用により形成されるネットワークである。特許文献1に開示された方法のような1000個程度の遺伝子又はタンパク質に関する情報のみでは、細胞の特性を正確に判定することは不可能である。
実際、EC細胞のマーカー遺伝子の発現は、ES細胞とほぼ同一であり、マーカー遺伝子の発現状態のみでは、両者を判別することはできない。また、iPS細胞では、形態及びマーカー遺伝子の発現からもES細胞と識別することは困難である。
細胞に関しては、細胞の由来種、細胞の由来組織又は多能性、分化能及びがん化等の性質で規定される細胞の種類、分化指向性、分化誘導効率及び培養継代数等の細胞の状態を簡便かつ正確に判定する方法が求められている。
本発明は、上記実情に鑑みてなされたものであり、細胞の状態を簡便かつ正確に判定することができる細胞判定装置、細胞判定方法及びプログラムを提供することを目的とする。
本発明の第1の観点に係る細胞判定装置は、
判定対象である細胞のDNAメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データからなる群から選択される少なくとも1つを含むオミクスデータに基づく教師あり学習で構築されたモデルによって前記細胞の状態を判定する判定部を備える。
この場合、上記本発明の第1の観点に係る細胞判定装置は、
学習用の細胞から取得される前記オミクスデータ及び該細胞の状態を示す情報をそれぞれ説明変数に対応する情報及び目的変数に対応する情報とした学習用データを用いて教師あり学習を実行することにより、前記モデルを構築するモデル構築部をさらに備える、
こととしてもよい。
また、前記判定部は、
前記判定対象である細胞の状態として、前記細胞が胚性幹細胞、人工多能性幹細胞、胚性がん細胞及び体細胞のいずれであるかを、前記オミクスデータに基づく教師あり学習で構築された線形分類モデルによって判定する、
こととしてもよい。
また、前記判定部は、
前記判定対象である細胞の状態として、iPS細胞の培養継代数又は未分化のiPS細胞の分化誘導効率を、前記DNAメチル化データに基づく教師あり学習で構築された線形回帰モデルによって判定する、
こととしてもよい。
本発明の第2の観点に係る細胞判定方法は、
判定対象である細胞のDNAメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データからなる群から選択される少なくとも1つを含むオミクスデータに基づく教師あり学習で構築されたモデルによって前記細胞の状態を判定する判定ステップを含む。
本発明の第3の観点に係るプログラムは、
コンピュータを、
判定対象である細胞のDNAメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データからなる群から選択される少なくとも1つを含むオミクスデータに基づく教師あり学習で構築されたモデルによって前記細胞の状態を判定する判定部として機能させる。
本発明によれば、細胞の状態を簡便かつ正確に判定することができる。
実施の形態に係る細胞判定装置の構成を示す図である。 図1に示す細胞判定装置による判定処理のフローチャートを示す図である。 DNAメチル化データから構築した線形回帰モデルによる細胞の培養継代数の予測結果を示す図である。 DNAメチル化データから構築した線形回帰モデルによるiPS細胞の神経幹細胞への分化誘導効率の予測結果を示す図である。
本発明に係る実施の形態について説明する。なお、本発明は下記の実施の形態によって限定されるものではない。
(実施の形態)
本実施の形態に係る細胞判定装置100は、細胞の状態を判定するための装置である。細胞の状態とは、例えば、細胞の種類、幹細胞の分化指向性及び分化誘導効率、並びに細胞の管理状態等である。細胞の種類としては、細胞の性質で規定される初代培養細胞、株化細胞、幹細胞、ES細胞、iPS細胞、EC細胞及びがん細胞、細胞の由来種で規定される動物細胞及び植物細胞、並びに細胞の由来組織で規定される肝細胞、脳細胞、血液細胞及び血管内皮細胞等が挙げられる。細胞の管理状態とは、例えば、培養継代数及びウイルス感染の有無等である。細胞判定装置100が判定対象とする細胞は、ヒトの細胞に限らず、非ヒト動物の細胞であってもよいし、植物細胞であってもよい。
細胞判定装置100は、オミクスデータに基づいて細胞の状態を判定する。オミクスデータとは、ゲノミクス、エピゲノミクス、トランスクリプトミクス及びプロテオミクス等の分野で生体内の特定の機能分子を網羅的に解析して得られるデータをいう。例えば、オミクスデータには、遺伝子発現データ、microRNA(miRNA)発現データ、SNP(Single Nucleotide Polymorphism)解析データ、aCGH(Array−based Comparative Genomic Hybridization)解析データ、DNAメチル化データ、ヒストン修飾データ、核内クロマチン高次構造データ、ユビキチン化タンパク質データ、及びレクチンアレイ等の糖鎖修飾データ等が含まれる。好適には、オミクスデータは、DNAメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データからなる群から選択される少なくとも1つを含む。
オミクスデータは、公知の方法で取得できる。例えば、遺伝子発現データは、DNAマイクロアレイ又はRNAシークエンシング(RNA−Seq)で取得できる。DNAメチル化データは、BeadChipアレイ又はバイサルファイトシーケンシングで取得できる。ヒストン修飾データは、クロマチン免疫沈降(Chromatin immunoprecipitation:ChIP)アッセイと配列解析とを組み合わせたChIP−Seq法で取得できる。糖鎖修飾データは、例えばレクチン等の糖結合タンパク質が配置された市販のレクチンマイクロアレイ等を用いて取得できる。また、オミクスデータは、標的分子に特異的な抗体、LC−MS/MS(Liquid Chromatography−tandem Mass Spectrometry)、Hi−C(Chromatin conformation capture sequencing)又は次世代シーケンサー等を用いて細胞を評価することで取得できる。
オミクスデータは、公共のデータベースからも取得できる。データベースとしては、米国国立生物工学情報センター(NCBI)のGene Expression Omnibus(GEO)、Sequence Read Archive(SRA)、及び米国国立衛生研究所(NIH)のEpigenomics Roadmap等が挙げられる。
好ましくは、上記のオミクスデータは、ゲノム又はヌクレオームを解析対象としたデータを含む。好適には、オミクスデータは、バイオインフォマティクス分野で通常行われるオミクスデータの前処理で除外されるデータを除いて、標的とする分子の網羅的なデータを選別なく含む。例えば、オミクスデータとしてDNAメチル化データを用いる場合、オミクスデータは1つの細胞について300,000箇所以上、350,000箇所以上、好ましくは400,000箇所以上又は800,000箇所以上のDNAメチル化率を含む。オミクスデータとして遺伝子発現データを用いる場合、オミクスデータは1つの細胞について30,000以上、40,000以上、50,000以上、又は好ましくは60,000以上のプローブのシグナル値を含む。オミクスデータとしてヒストン修飾データを用いる場合、オミクスデータは1つの細胞について10,000以上、12,000以上、又は好ましくは15,000以上のピークデータを含む。オミクスデータとして糖鎖修飾データを用いる場合、オミクスデータは1つの細胞について30〜100種類、40〜90種類又は40〜50種類、好ましくは45種類の糖結合タンパク質に関するシグナル値を含む。
図1は、細胞判定装置100の構成を示す機能ブロック図である。細胞判定装置100は、入力部1と、判定部2と、記憶部3と、モデル構築部4と、出力部5と、を備える。細胞判定装置100は、CPU(Central Processing Unit)と、外部記憶装置と、RAM(Random Access Memory)と、を備える。細胞判定装置100では、CPUが外部記憶装置に記憶されたソフトウェアプログラムをRAMに読み出して、ソフトウェアプログラムを実行制御することにより、以下に説明する機能を実現する。
入力部1は、キーボード等を備え、ユーザーの操作によって入力されたデータを判定部2及び記憶部3に入力する。入力部1は、判定対象である細胞のオミクスデータを判定部2に入力する。
判定部2は、判定対象である細胞のオミクスデータに基づく教師あり学習で構築されたモデルによって細胞の状態を判定する。一般に、教師あり学習とは、説明変数とそれに付随する目的変数との組み合わせの集合を学習用データとして、学習用データに対するフィッティングを行うことにより学習を行う機械学習の一手法である。フィッティングは、学習用データに含まれる説明変数の特徴量を抽出して目的変数ごとの特徴量を選んだり、その目的変数に属するデータの特徴を抽出したり、目的変数を識別する判断基準を生成したりすることで行う。
フィッティングによって、入力された説明変数からその説明変数に対応するべき目的変数を出力するモデルが構築される。モデルによって、学習用データに含まれない新たな説明変数に対応する目的変数を出力することができる。
判定部2が用いるモデルは、学習用の細胞から取得される、説明変数としてのオミクスデータと、目的変数としての当該細胞の状態を示す情報との組み合わせの集合を学習用データとして構築されたモデルである。
例えば、遺伝子発現データから細胞の種類を判定するためのモデルを構築する場合の学習用データについて説明する。細胞における遺伝子G、G、G・・・Gそれぞれの発現量がv、v、v・・・vである遺伝子発現データであれば、v〜vが説明変数である。目的変数は、細胞の種類それぞれを示す情報、例えば各細胞の種類に対応する識別可能なラベルである。好ましくは、当該学習用データは、異なる細胞の種類の間で統計的に有意な差があるとして抽出される遺伝子の発現量のみを説明変数として含むのではなく、例えば、学習用データに含まれるすべての細胞に共通して取得可能な遺伝子の発現量を選別なく含む。
判定部2は、判定対象の細胞から取得されたオミクスデータを、あらかじめ構築されたモデルに入力することで、判定対象の細胞の状態を示す情報を出力として得る。これにより、判定部2は、判定対象の細胞の状態を判定することができる。
教師あり学習の方法には、公知の任意の方法を採用すればよい。教師あり学習の方法としては、例えば、線形回帰、線形分類、ロジスティック回帰、サポートベクターマシーン、決定木、ニューラルネットワーク、畳み込みニューラルネットワーク、パーセプトロン及びk近傍法等が挙げられる。教師あり学習には、Jubatus、Theano及びTensorFlow等、種々のフレームワークを利用できる。
好ましくは、上記モデルは、線形回帰モデル又は線形分類モデルである。線形回帰モデル及び線形分類モデルは、説明変数とそれに対応するべき目的変数とを写像する関数である。線形回帰モデルの場合、目的変数として連続値を予測することができる。線形分類モデルでは、目的変数としてラベル(カテゴリ)を判定することができる。目的変数を細胞の種類を示すラベルとする場合、学習用の細胞には、判定され得る種類の細胞が含まれる。種類ごとの細胞株の数は特に限定されないが、判定の精度を高めるために、種類ごとにより多くの細胞株のオミクスデータを学習用データに使用したほうがよい。
好適には、モデルとして線形分類モデルを用いることで、判定部2は、判定対象の細胞の状態として、該細胞がES細胞、iPS細胞、EC細胞及び体細胞のいずれであるかを判定する。
また、任意の上記モデルによって、判定部2は、判定対象である細胞の状態として、iPS細胞の培養継代数又は未分化のiPS細胞の分化誘導効率を判定してもよい。ここでの分化誘導効率とは、iPS細胞を所定の細胞又は組織に誘導した場合に当該細胞又は組織へ分化する効率である。分化誘導効率は、例えば、分化を誘導した全細胞の個数に対する所定の細胞の個数の割合(連続値)で示される。分化誘導された所定の細胞の個数は、当該細胞に特異的に発現するマーカーの有無又は活性等を指標に計数できる。
例えば、判定部2は、未分化のiPS細胞の外胚葉、中胚葉又は内胚葉への分化誘導効率を判定してもよいし、外胚葉、中胚葉又は内胚葉からさらに分化した骨格筋細胞、心筋細胞、脂肪細胞、免疫系細胞及び血液細胞等の各種細胞への分化誘導効率を判定してもよい。好ましくは、判定部2は、判定対象である細胞の状態として、iPS細胞の培養継代数又は未分化のiPS細胞の分化誘導効率を、DNAメチル化データに基づく教師あり学習で構築された線形回帰モデルによって判定する。
上記モデルはモデル構築部4によって構築される。モデル構築部4は、入力部1が記憶部3に記憶させた学習用データを用いた教師あり学習によってモデルを構築する。より詳細には、モデル構築部4は、学習用の細胞から取得されるオミクスデータ及び該細胞の状態を示す情報をそれぞれ説明変数に対応する情報及び目的変数に対応する情報とした学習用データを用いて教師あり学習を実行する。
モデル構築部4は、構築したモデルを記憶部3に記憶させる。入力部1によって判定対象である細胞のオミクスデータが判定部2に入力されると、判定部2は、記憶部3を参照し、モデルにより細胞の状態を判定する。判定部2は、判定された細胞の状態を示す情報を出力部5に出力する。
出力部5は、ディスプレイを備える。出力部5は、判定部2によって入力された細胞の状態を示す情報をディスプレイに表示する。
続いて、細胞判定装置100による判定処理を図2に示すフローチャートを参照して説明する。記憶部3には、あらかじめ学習用データが記憶されているものとする。ユーザーが入力部1を介してモデルの構築を指示すると、判定処理が開始される。
モデル構築部4は、記憶部3を参照し、学習用データを用いてモデルを構築する(ステップS1)。モデルが構築されると、判定部2は、入力部1によって判定対象である細胞のオミクスデータが入力されるのを待つ(ステップS2;No)。判定対象である細胞のオミクスデータが入力されると(ステップS2;Yes)、判定部2は、細胞の状態を判定する(ステップS3)。次に、判定部2は、判定された細胞の状態を示す情報を、出力部5を介して出力する(ステップS4)。これにより、細胞の状態を示す情報がディスプレイに表示される。そして、判定部2は判定処理を終了する。
以上詳細に説明したように、本実施の形態に係る細胞判定装置100は、細胞の状態を規定する膨大な因子間の相互作用により形成されるネットワークを反映するオミクスデータに基づく教師あり学習で構築されたモデルによって細胞の状態を判定する。このため、細胞の状態を正確に判定することができる。オミクスデータは判定対象である細胞から比較的容易に取得でき、分化誘導実験等の煩雑で時間のかかる実験が不要であるため、本実施の形態に係る細胞判定装置100によれば、細胞の状態を簡便に判定できる。
また、判定部2は、判定対象である細胞の状態として、細胞がES細胞、iPS細胞、EC細胞及び体細胞のいずれであるかを、前記オミクスデータに基づく教師あり学習で構築された線形分類モデルによって判定してもよいこととした。ES細胞、iPS細胞、EC細胞及び体細胞を判定できることで、医療分野でこれら細胞を用いる場合の有効性及び安全性の確保に貢献できる。
また、判定部2は、判定対象である細胞の状態として、iPS細胞の培養継代数又は未分化のiPS細胞の分化誘導効率を、DNAメチル化データに基づく教師あり学習で構築された線形回帰モデルによって判定してもよいこととした。iPS細胞の培養継代数を判定することによって、iPS細胞の品質管理等に有用な情報が得られる。iPS細胞の分化誘導効率を判定することによって、分化誘導実験の実施にかかる時間と費用を抑制できる点で、細胞判定装置100は再生医療の実現に寄与する。
なお、オミクスデータには、DNAメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データから選択される2つ以上が含まれてもよい。例えば、判定部2は、DNAメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖データから選択される少なくとも2つを含むオミクスデータに基づく教師あり学習で構築されたモデルによって細胞の状態を判定するようにしてもよい。複数の種類のデータを組み合わせたオミクスデータに基づいて構築されたモデルを用いて判定することで、細胞の状態を規定するより多くの因子を判定に考慮することができるため、細胞の状態をさらに正確に判定することができる。
また、がん細胞を判定対象とする場合、判定部2が判定する細胞の状態としては、悪性度、浸潤能、転移能、増殖率、薬剤耐性及び薬剤応答性等が挙げられる。
なお、細胞判定装置100は、モデル構築部4を備えるようにしたが、モデル構築部4を備えなくてもよい。細胞判定装置100がモデル構築部4を備えない場合、判定部2は、記憶部3にあらかじめ記憶されたモデルにより細胞の状態を判定すればよい。また、モデルは、必ずしも記憶部3にあらかじめ記憶される必要はなく、入力部1によって判定対象である細胞のオミクスデータとともに判定部2に入力されてもよい。
以下の実施例により、本発明をさらに具体的に説明するが、本発明は実施例によって限定されるものではない。
実施例1:DNAメチル化データを利用した線形分類モデルによる細胞の種類の判定
(細胞培養)
以下のすべての実施例で使用する細胞を次のように培養した。なお、細胞はすべてヒトの細胞である。体細胞及びEC細胞は、各細胞の提供元であるCell Bankによって指定されている方法で培養した。体細胞(UtE1104、Edom22及びMRC−5)及びEC細胞(1177N Rpmet及びNTERA−2)の培養液には、10%ウシ胎児血清(FBS)、55μM 2−メルカプトエタノール、1%ペニシリン及びストレプトマイシンを含むDMEM(Dulbecco’s Modified Eagle Medium)を用いた。
EC細胞(NCCIT−A3、NEC8及びNEC14)の培養液には、10%FBS、55μM 2−メルカプトエタノール、1%ペニシリン及びストレプトマイシンを含むRPMI1640を使用した。EC細胞(PA−1)の培養液には、10%FBS、55μM 2−メルカプトエタノール、1%ペニシリン及びストレプトマイシン、1%非必須アミノ酸を含むMEM(Minimum Essential Media)を使用した。
iPS細胞を次のように作製した。まず、ヒトの外科検体の組織から子宮内膜、羊膜、胎盤動脈内皮及び月経血の細胞を採取した。これらの細胞から子宮内膜(UtE1104)、羊膜(AM936EP)、胎盤動脈内皮(PAE551)及び月経血(Edom22)の細胞株を樹立した。AM936EP、Edom22及びMRC−5は、POWEREDBY10培地(MED SHIROTORI社製)で維持した。PAE551は、5%FBSを含むEGM−2MV BulletKit(Lonza社製)で培養した。
iPS細胞は、山中らの方法(Takahashi K、外6名、「Induction of pluripotent stem cells from adult human fibroblasts by defined factors」、2007年、Cell、131(5)、p.861−872)に基づいて、ヒトOCT3/4、SOX2、KLF4及びc−MYCの4個の遺伝子のcDNAをコードするレトロウイルスベクターpMXsから産生されたレトロウイルスを各体細胞に感染させて、各体細胞からiPS細胞を複数の細胞株として作製した。MRC−5、AM936EP、UtE1104、PAE551及びEdom22由来のiPS細胞を、それぞれRetro−MRC−iPS細胞、Retro−AM−iPS細胞、Retro−UtE−iPS細胞及びRetro−PAE−iPS細胞として樹立した。iPS細胞は、10ng/mLのヒト組み換え塩基性線維芽細胞成長因子(bFGF、和光純薬工業社製)を添加したiPSellon培地(Cardio社製)を用いて、放射線照射したマウス胚性線維芽細胞上で培養した。また、上記レトロウイルスを用いてヒト皮膚線維芽細胞から作製したiPS細胞である201B7は、RIKEN BRC Cell Bankより入手した。
また、西村らの方法(Nishimura K、外17名、「Development of defective and persistent Sendai virus vector:a unique gene delivery/expression system ideal for cell reprogramming.」、2011年、Journal of Biological CHemistry、286(6)、p.4760−4771)に基づいて、ヒトOCT3/4、SOX2、KLF4、c−MYCの4個の遺伝子のcDNAをコードするセンダイウイルスベクターpSeVdpから産生されたセンダイウイルスをEdom22に感染させ、複数の細胞株のSendai−Edom−iPS細胞を樹立した。
さらに、沖田らの方法(Okita K、外15名、「A more efficient method to generate integration−free human iPS cells」、2011年、Nature Method、8(5)、p.409−412)に基づいて、ヒトOCT3/4、SOX2、KLF4、L−MYC、LIN28及びTP53 shRNAの6個の遺伝子のcDNAをコードするpCXLEベクターをリポフェクション法によりEdom22に導入し、複数の細胞株のEpisomal−Edom−iPS細胞を樹立した。
ES細胞を次のように作製した。Cryotop Safety Thawing Kit(#VT602、北里バイオファルマ社製)をマニュアルに従って用いて、凍結ヒト胚を解凍し、BlastAssist System培地(#12150010、MediCult社製)で胚盤胞に達するまで培養した。胚盤胞から内細胞塊(ICM)を、ウサギ抗血清(#109−4139、Rockland Immunochemicals社製)及びモルモット血清補体(#S−1639、Sigma−Aldrich社製)を用いた免疫手術によって単離した。次に、胎齢12.5日目のICR胚から単離されたマウス胎児線維芽細胞(MEF)を2回継代後、MEFにγ線(30Gy)を照射し、作製したMEFフィーダー層上にICMを播いた。
ヒトES細胞標準培地は、20%ノックアウトSerum Replacement(KO−SR;#10828−028)、2mM GlutaMAX−I(#35050−079)、0.1mM非必須アミノ酸(#11140−076)、50U/mLペニシリン及び50μg/mLストレプトマイシン(#15070−063)、0.055mMベータ−メルカプトエタノール(#21985−023)並びに10ng/mL組み換えヒト全長bFGF(#PHG0261)を含むノックアウトDMEM(KO−DMEM;#10829−018、以上すべてLife Technologies社製)である。ICMを播いてから7〜14日後、微細に延伸されたガラスパスツールピペットを用いて、ICMを小さい塊に機械的に分け、新しいMEFフィーダー層上に移した。継代後、増殖したコロニーを同様に分散させ、新しいMEFフィーダー層上に播き、2〜4回継代した。以降、継代時には、増殖したコロニーを、Stem Cell Cutting Tool(#14601、Vitrolife社製)及びDispase II(#GD81070、Eidia社製)を用いて分散させ継代培養を継続し、各ES細胞ペレットを凍結保存した。
また、別のES細胞を以下のように作製した。Cryotop Safety Thawing Kitをマニュアルに従って用いて、凍結ヒト胚を解凍し、BlastAssist System培地で胚盤胞に達するまで培養した。次に、ヒト皮膚組織からXeno−Free条件下で単離及び培養された間葉系幹細胞(MSC)にγ線(30Gy)を照射し、作成したMSCフィーダー層上に胚盤胞を播いた。
培養培地の組成は、85%KO−DMEM、15%KO−SR Xeno−Free CTS(KO−SR XF;#12618−013、Life Technologies社製)、2mM GlutaMAX−I、0.1mM非必須アミノ酸、50U/mLペニシリン及び50μg/mLストレプトマイシン、50μg/mL L−アスコルビン酸(#A4544、Sigma−Aldrich社製)、ヘレグリン−β1(EGF domein)(#396−HB−050/CF、R&B Systems社製)、200ng/mL LONG R−IGF1(#85580C、Sigma−Aldrich社製)、並びに20ng/mL組み換えヒト全長bFGFである。
37℃、3%〜5%O、5%CO、90〜92%Nの条件で胚盤胞を培養し、7日以内の培養で胚盤胞が拡張増殖したことを確認した。XYClone Laser System(Hamiltone Thorene Biosciences社製)を用いて、レーザーで栄養外胚葉部分を除去し、ICMのみを残した。2週間後、ICMはヒトES細胞様のコロニーを形成したので、ハンドピッキング法で継代した。継代後、増殖したコロニーを、組換えトリプシン(#06369880103、Roche Applies Science社製)を用いて分散させ、新しいMSCフィーダー層上に播いた。以降、増殖したコロニーを同様に分散させ継代培養を継続し、各ES細胞ペレットを凍結保存した。
(ゲノムDNAの抽出)
1×10〜5×10個の細胞を凍結保存した細胞ペレットからQIAamp DNA Mini Kit(Qiagen社製)を用いて、ゲノムDNAを抽出した。抽出液をNanoDrop200c(Thermo Fisher Scientific社製)を用いてゲノムDNA濃度を測定した。
各細胞のゲノムDNAに対し、EZ−DNA Methylation Kit(ZYMO RESEARCH社製)を用いてバイサルファイト処理を行った。バイサルファイト処理済みの検体を、HumanMethylation450 BeadChip(Illumina社製)にハイブリダイゼーションさせた。HumanMethylation450 BeadChipは約450,000箇所のCpG部位のメチル化を検出するプローブを搭載している。ハイブリダイゼーション後、各プローブのシグナルをiScanシステム(Illumina社製)により検出した。なお、ハイブリダイゼーション及びシグナルの検出に関するすべての手順はIllumina社が提供するプロトコールに従った。
(データの前処理)
DNAメチル化解析ソフトウェアであるGenomeStudio(Illumina社製)を用いてiScanにより得られたシグナルデータを解析した。シグナルデータのバックグラウンド補正及びノーマライゼーション補正を行い、各CpG箇所のDNAメチル化率を算出した。
(公共データベースからのDNAメチル化データの取得)
NCBI GEOデータベースよりHumanMethylation450 BeadChipを用いて得られたヒト体細胞、ES細胞及びiPS細胞のDNAメチル化データを取得し、上記データの前処理を同様に行った。NCBI GEOデータベースからDNAメチル化データを取得した細胞のデータベースにおけるIDを表1に示す。
(線形分類モデルの構築)
ヒト体細胞、ES細胞、iPS細胞及びEC細胞の合計136検体のDNAメチル化データにおいて、有効なプローブ数は452,832個であった。452,832個のプローブのうち、人種間で多型が報告されており、かつ、DNAメチル化率の算出に不適とされるプローブ7,319個を除いた445,513個のプローブのDNAメチル化データを機械学習に使用した。機械学習のフレームワークとしては、オープンソースプロダクトであるJubatus(http://jubat.us/ja/)を用い、アルゴリズムとしてClassifier AROWを使用した。136検体のうち、81検体(ES細胞19検体、iPS細胞39検体、EC細胞5検体、体細胞18検体)を学習用検体とした。各学習用検体のDNAメチル化データ(445,513箇所のCpG部位のメチル化率)及び対応する学習用検体の細胞の種類(体細胞、ES細胞、iPS細胞及びEC細胞のいずれか)を示すラベルを、それぞれ説明変数及び目的変数のセットとして学習用データとした。
81個の学習用データをランダムにJubatusに入力し学習を行った。すなわち、81個の学習用データのうち、ランダムに1個の学習用データを選び、Jubatusに入力後、次は残り80個の学習用データのうち、ランダムに1個の学習用データを選び、Jubatusに入力した。これを繰り返し、合計81回の入力と学習を行った。81個の学習用データの入力と学習とを1エポックと定義した。1エポックの終了後、同様にエポックを繰り返し、線形分類モデルの学習回数を重ねた。10エポックごとに線形分類モデルを記録した。200エポックによって、最終的に20個の線形分類モデルを得た。
(最適線形分類モデルの選択)
20個の線形分類モデルに対し、81個の学習用データのDNAメチル化データのみを入力し、細胞の種類を判定した。20個の線形分類モデルの中で正答率が最も高い100%で、かつ、最も学習回数の少ない50エポックで得られた線形分類モデルを最適線形分類モデルとして選択した。
(最適線形分類モデルの検定)
テストデータとして、テスト検体である55検体(ES細胞19検体、iPS細胞22検体、EC細胞4検体、体細胞10検体)のDNAメチル化データを用いた。この55検体は、136検体のうち、学習用データとして用いた81検体を除いたものである。最適線形分類モデルに対して、各テスト検体の遺伝子発現データを入力し、最適線形分類モデルによってテスト検体の細胞の種類を判定した。
(結果)
各テスト検体に対して、ES細胞、iPS細胞、EC細胞及び体細胞の4つの判定スコアが提示された。4つのうち最も高いスコアを示した細胞の種類が当該テスト検体の細胞の種類として最適線形分類モデルによって判定された細胞の種類である。表2にDNAメチル化データから構築した最適線形分類モデルによる細胞の種類の判定結果を示す。EC細胞及び体細胞に関してはすべて正しく判定できた。ES細胞及びiPS細胞でもそれぞれ94.7%及び95.5%の正答率が得られた。
実施例2:DNAメチル化データを利用した線形回帰モデルによる培養継代数の予測
(線形回帰モデルの構築)
実施例1におけるiPS細胞61検体のうち、50検体に関して実施例1と同様に、445,513個のプローブのDNAメチル化データを取得した。50検体のうち、39検体を学習用検体とした。フレームワークとしては、Jubatusを用い、アルゴリズムとしてRegression AROWを使用した。各学習用検体のDNAメチル化データ及び対応する学習用検体の培養継代数を、それぞれ説明変数及び目的変数のセットとした学習用データについて、実施例1と同様にエポックを繰り返し、800エポックによって、最終的に80個の線形回帰モデルを得た。
(最適線形回帰モデルの選択)
80個の線形回帰モデルに対し、39個の学習用データのDNAメチル化データのみを入力し、培養継代数を予測した。80個の線形回帰モデルの中で正答率が最も高い100%で、かつ、最も学習回数の少ない660エポックで得られた線形回帰モデルを最適線形回帰モデルとして選択した。
(最適線形回帰モデルの検定)
テストデータとして、テスト検体である11検体のiPS細胞のDNAメチル化データを用いた。この11検体は、全50検体のうち、学習用データとして用いた39検体を除いたものである。最適線形回帰モデルに対し、各テスト検体のDNAメチル化データを入力し、最適線形回帰モデルによってテスト検体の培養継代数を予測した。
(結果)
各テスト検体に対して、培養継代数の予測値が提示された。図3にDNAメチル化データから構築した最適線形回帰モデルによる培養継代数の予測結果を示す。培養継代数10前後のテスト検体は、実際の培養継代数より高めに予測されたが、培養継代数20〜40のテスト検体では、予測された培養継代数と実際の培養継代数との間に高い相関が認められた。
実施例3:遺伝子発現データを利用した線形分類モデルによる細胞の種類の判定
(Total RNAの抽出)
1×10〜5×10個の細胞を凍結保存した細胞ペレットからRNeasy Mini Kit(Qiagen社製)を用いて、Total RNAを抽出した。NanoDrop200c(Thermo Fisher Scientific社製)を用いて抽出液におけるTotal RNA濃度を測定した。
(cRNAのラベル化と精製)
Low Input Quick Amp Labeling Kit(Agilent社製)及びRNA Spike−In Kit(Agilent社製)を用いて、cRNAをラベル化した。ラベル化したcRNAを、RNeasy Mini Kit(Qiagen社製)を用いて精製した。
(遺伝子発現シグナルの検出)
ラベル化し精製したcRNAを用いてSurePrint G3 Human GE マイクロアレイ 8×60K(Agilent社製)とハイブリダイゼーションを行った。SurePrint G3 Human GE マイクロアレイ 8×60Kは、約60,000個のプローブを搭載している。ハイブリダイゼーションにはGene Expression Hybridization Kit(Agilent社製)を、ハイブリダイゼーション後の洗浄にはGene Expression Wash Pack(Agilent社製)を使用した。洗浄後、各プローブのシグナルをAgilent DNAマイクロアレイスキャナシステム(Agilent社製)により評価し、シグナルデータを取得した。ハイブリダイゼーション及びシグナルの検出に関するすべての手順は、Agilent社が提供するプロトコールに従った。
(データの前処理)
Rパッケージ limaを用いてシグナルデータを解析した。シグナルのバックグラウンド補正を行い、サンプル間の正規化補正は行わず、各プローブのシグナル値を算出した。
(公共データベースからの遺伝子発現データの取得)
NCBI GEOデータベースよりSurePrint G3 Human GE マイクロアレイ 8×60Kを用いて得られたヒト体細胞、ES細胞及びiPS細胞の遺伝子発現データを取得し、上記データの前処理を同様に行った。NCBI GEOデータベースから遺伝子発現データを取得した細胞のデータベースにおけるIDを表3に示す。体細胞、ES細胞、iPS細胞及びEC細胞の合計75検体の遺伝子発現データにおいて、有効なプローブ数は60,901個であった。
(線形分類モデルの構築)
フレームワークとしては、Jubatusを用い、アルゴリズムとしてClassifier AROWを使用した。75検体のうち、49検体(ES細胞6検体、iPS細胞17検体、EC細胞3検体、体細胞23検体)を学習用検体とした。各学習用検体の遺伝子発現データ(60,901個のプローブのシグナル値)及び対応する学習用検体の細胞の種類を示すラベルを、それぞれ説明変数及び目的変数のセットとして学習用データとした。
学習用データについて、実施例1と同様にエポックを繰り返し、200エポックによって、最終的に20個の線形分類モデルを得た。
(最適線形分類モデルの選択)
20個の線形分類モデルに対し、49個の学習用データの遺伝子発現データのみを入力し、細胞の種類を判定した。20個の線形分類モデルの中で正答率が最も高い100%で、かつ、最も学習回数の少ない110エポックで得られた線形分類モデルを最適線形分類モデルとして選択した。
(最適線形分類モデルの検定)
テストデータとして、テスト検体である26検体(ES細胞4検体、iPS細胞10検体、EC細胞2検体、体細胞10検体)の遺伝子発現データを用いた。この26検体は、75検体のうち、学習用データとして用いた49検体を除いたものである。最適線形分類モデルに対して各テスト検体の遺伝子発現データを入力し、最適線形分類モデルによってテスト検体の細胞の種類を判定した。
(結果)
表4に遺伝子発現データから構築した最適線形分類モデルによる細胞の種類の判定結果を示す。ES細胞を除くiPS細胞、EC細胞及び体細胞に関してはすべて正しく判定できた。ES細胞でも75%の正答率が得られた。
実施例4:ヒストン修飾データを利用した線形分類モデルによる細胞の種類の判定
(サンプル調製)
ChIP−Seq法により、ゲノムDNAにおけるヒストンH3のリジン4トリメチル(H3K4me3)化の局在を評価できる。まず、3×10〜5×10個の細胞を含む培養皿から培養液を取り除き、ホルムアルデヒド溶液を加えることで、細胞内のゲノムDNAとヒストンをクロスリンクさせた後、細胞を回収した。
回収した細胞に対し、サンプル密閉式超音波破砕装置Bioruptor(コスモバイオ社製)を用いて4℃条件下で細胞懸濁液を全量ソニケーションした後、遠心分離し、上清を回収した。上清をインプット分画とクロマチン分画に分けた。クロマチン分画に対し抗H3K4me3抗体を用い、遠心分離により複合体を沈降させることにより親和精製した。インプット分画及びクロマチン分画の両方に対して、加熱インキュベーションによりクロスリンクを解除した(脱クロスリンク)。両分画に対し、プロテアーゼKを用いてタンパク質成分を消化した後、断片化されたゲノムDNAを精製した。
(次世代シークエンサーによるH3K4me3ゲノム領域の検出)
両分画に対し、HiSeqプラットフォーム(Illumina社製)におけるペアエンド全ゲノムシークエンシングのためのライブラリを作製した。両分画に対し、HiSeqプラットフォームを用いて、片側150塩基のペアエンドシークエンシングを行い、1サンプルあたり合計45Gb以上の塩基配列データをFASTQとして取得した。
(FASTQデータの処理)
FASTQに対し、3’側読み抜けアダプタ配列の除去、末端の低品質塩基の除去及びリード長の短いリード対の除去といったトリミングを行った。マッピングソフトウェアBWA0.7.15を用いて、ヒトゲノム参照配列GRCh37(hg19)に、これらリード対をマッピングしSAM形式のデータを作成した。SAMtools1.5を用いて、SAM形式からBAM形式のデータを作成した。ピークコールを行うソフトウェアMACS2 バージョン2.1.1を用いて、インプット分画及びクロマチン分画それぞれのデータに対し、H3K4me3修飾領域候補をリスト化した。
次に、インプット分画と比べたリード数が8倍以下の領域、及びコールされた際に得られたp値が10−8よりも大きな領域を除外した。さらに、隣の領域との距離が500bp以下の複数領域は1つにまとめ、性染色体及びミトコンドリアDNAは除いた。この結果、インプット分画及びクロマチン分画を合わせてゲノム全体に渡り16,267個のピークを得た。遺伝子GAPDHのプロモータに存在するピークのリード深度の値を0.5とし、それぞれのピークにおけるリード深度を0から1までの値に正規化した。なお、正規化により1を超えるリード深度は1とした。
(公共データベースからのH3K4me3 ChIP−Seqデータの取得)
NCBI SRAデータベースよりH3K4me3 ChIP−SeqのFASTQデータを収集した。NCBI SRAデータベースからFASTQデータを取得した細胞のデータベースにおけるIDを表5に示す。
NCBI SRAデータベースに登録されているデータでは、インプット分画のデータが利用できないことが多いため、インプット分画のデータを除外した。NCBI SRAデータベースに登録されているデータには、リード長が短いものも含まれているので、36塩基以上のものを解析対象とした。NCBI SRAデータベースに登録されているデータのうち、ペアエンドデータは対を解いてまとめ、全てシングルエンドのデータとしてマッピングした。以上の処理を施したうえで、NCBI SRAデータベースから取得したデータに関して、上記16,267個についてピークのリード深度を算出した。
(線形分類モデルの構築)
フレームワークとして、Jubatusを用いた。使用したアルゴリズムはClassifier AROWである。88検体のうち、51検体(ES細胞15検体、iPS細胞18検体、EC細胞3検体、体細胞15検体)を学習用検体とした。各学習用検体のピークデータ(16,267ピークのリード深度)及び対応する学習用検体の細胞の種類を示すラベルを、それぞれ説明変数及び目的変数のセットとして学習用データとした。
学習用データについて、実施例1と同様にエポックを繰り返し、100エポックによって、最終的に10個の線形分類モデルを得た。
(最適線形分類モデルの選択)
10個の線形分類モデルに対し、51個の学習用データのピークデータのみを入力し、細胞の種類を判定した。10個の線形分類モデルの中で正答率が最も高い100%で、かつ、最も学習回数の少ない50エポックで得られた線形分類モデルを最適線形分類モデルとして選択した。
(最適線形分類モデルの検定)
テストデータとして、テスト検体である37検体(ES細胞12検体、iPS細胞12検体、EC細胞1検体、体細胞12検体)のピークデータを用いた。この37検体は、88検体のうち、学習用データとして用いた51検体を除いたものである。最適線形分類モデルに対して各テスト検体のピークデータを入力し、最適線形分類モデルによってテスト検体の細胞の種類を判定した。
(結果)
表6にピークデータから構築した最適線形分類モデルによる細胞の種類の判定結果を示す。ES細胞を除くiPS細胞、EC細胞及び体細胞に関してはすべて正しく判定できた。
実施例5:レクチンアレイデータを利用した線形分類モデルによる細胞の種類の判定
(膜タンパク質の抽出)
1×10〜5×10個の細胞を凍結保存した細胞ペレットから、CelLytic MEM protein extraction kit(Sigma−Aldrich社製)を用いて、膜タンパク質を含む疎水性画分を分離抽出した。Micro BCA protein assay kit(Thermo Fisher Scientific社製)を用いて抽出液のタンパク質濃度を測定した。
なお、本実施例に用いた体細胞には、ヒトの外科検体の骨髄間質、耳介軟骨及び過剰指骨髄から採取した細胞からそれぞれ樹立した細胞株H4−1、Mim1508E及びYub636BMを含む。H4−1、Mim1508E及びYub636BMは、POWEREDBY10培地(MED SHIROTORI社製)で維持した。
(膜タンパク質のラベル化)
疎水性画分に含まれるタンパク質に、Cy3−NHS(GEヘルスケア社製)を反応させ、蛍光標識を行った。反応後、Sephadex G−25カラム(GEヘルスケア社製)を用いて反応液から未反応の蛍光標識試薬を除去した。
(蛍光ラベル化タンパク質とレクチンマイクロアレイとの反応)
レクチンマイクロアレイとしてLecChipレクチンアレイ(GPバイオサイエンス社製)を用いた。当該レクチンマイクロアレイには45種類のレクチンが固定化されている。蛍光ラベル化タンパク質を最終濃度0.5μg/mL又は0.25μg/mLになるよう、1%Triton X−100、0.5M Glycine、1mM CaCl、1mM MnClを含むTBSで調製し、レクチンマイクロアレイ上に載せ、4℃で一晩反応させた。これによりサンプル中の蛍光標識糖タンパク質は、それぞれが有する糖とレクチンの特異性に応じて結合する。
(レクチンマイクロアレイの測定)
反応液を取り除き、1%Triton X−100含有TBSで洗浄した後、エバネッセント場励起型スキャナー(GlycoStation Reader、GPバイオサイエンス社製)でレクチンマイクロアレイの蛍光を測定した。
(データ前処理)
データの前処理には、GlycoStation Tools Pro(GPバイオサイエンス社製)を使用した。各レクチンの測定値に対してバックグラウンド補正及びノーマライゼーション補正を行ってシグナル値を算出した。体細胞、ES細胞、iPS細胞及びEC細胞の合計106検体について、有効なプローブ数が45個であるシグナル値が得られた。
(線形分類モデルの構築)
フレームワークとして、Jubatusを用いた。使用したアルゴリズムはClassifier AROWである。106検体のうち、66検体(ES細胞6検体、iPS細胞25検体、EC細胞10検体、体細胞25検体)を学習用検体とした。各学習用検体のレクチンデータ(45個のプローブのシグナル値)及び対応する学習用検体の細胞の種類を示すラベルを、それぞれ説明変数及び目的変数のセットとして学習用データとした。
学習用データについて、実施例1と同様にエポックを繰り返し、200エポックによって、最終的に20個の線形分類モデルを得た。
(最適線形分類モデルの選択)
20個の線形分類モデルに対し、66個の学習用データのレクチンデータのみを入力し、細胞の種類を判定した。20個の線形分類モデルの中で正答率が最も高い100%で、かつ、最も学習回数の少ない50エポックで得られた線形分類モデルを最適線形分類モデルとして選択した。
(最適線形分類モデルの検定)
テストデータとして、テスト検体である40検体(ES細胞5検体、iPS細胞15検体、EC細胞5検体、体細胞15検体)のレクチンデータを用いた。この40検体は、106検体のうち、学習用データとして用いた66検体を除いたものである。最適線形分類モデルに対して各テスト検体のレクチンデータを入力し、最適線形分類モデルによってテスト検体の細胞の種類を判定した。
(結果)
表7にレクチンデータから構築した最適線形分類モデルによる細胞の種類の判定結果を示す。ES細胞を除くiPS細胞、EC細胞及び体細胞に関してはすべて正しく判定できた。ES細胞でも80%の正答率が得られた。
実施例6:DNAメチル化データを利用した線形回帰モデルによる神経幹細胞への分化誘導効率の予測
(iPS細胞の作製)
上記実施例1で樹立したEpisomal−Edom−iPS細胞の3細胞株、Retro−Edom−iPS細胞の1細胞株、Retro−MRC−iPS細胞の1細胞株及びRetro−UtE−iPS細胞の1細胞株に加え、次のようにRNA法で作製したiPS細胞を本実施例で使用した。
体細胞MRC−5、DFM1、DFM2、DFMF1及びIMRからiPS細胞を作製した。DFM1、DFM2、DFMF1及びIMRの培養液には、10%FBS、55μM 2−メルカプトエタノール、1%ペニシリン及びストレプトマイシン、1%非必須アミノ酸を含むMEM(Minimum Essential Media)を用いた。Stemgent StemRNA−NM Reprogramming Kit(リプロセル社製)をマニュアルに従って用いて、MRC−5、DFM1、DFM2、DFMF1及びIMRからそれぞれRNA−MRC−iPS細胞、RNA−DFM1−iPS細胞、RNA−DFM2−iPS細胞、RNA−DFMF1−iPS細胞及びRNA−IMR−iPS細胞を樹立した。樹立したRNA−MRC−iPS細胞は3細胞株、RNA−DFM1−iPS細胞は1細胞株、RNA−DFM2−iPS細胞は2細胞株、RNA−DFMF1−iPS細胞は3細胞株、RNA−IMR−iPS細胞は3細胞株である。これらiPS細胞の培養方法は、上記実施例1と同様である。
(線形回帰モデルの構築)
上記の18細胞株の未分化状態のiPS細胞について、実施例1と同様にゲノムDNAを抽出し、抽出したゲノムDNAに対してバイサルファイト処理を行った。HumanMethylation450 BeadChipに代えて約870,000箇所のCpG部位のメチル化を検出するプローブを搭載しているHumanMethylationEPIC BeadChip(Illumina社製)を用いる点を除いて、実施例1と同様にして各プローブのシグナルを検出した。各細胞に関して865,859個のプローブのDNAメチル化データを取得した。
10μM Y−27632を添加したiPS培地において、検体としての上記18細胞株のiPS細胞を、37℃、5%CO下で2時間培養した後、iPS細胞を細胞分散液(Gentle Cell Dissociation Reagent)にて分散し、セルストレーナー(40μm)に通して回収した。回収したiPS細胞を、神経分化培地(STEMdiff(商標) Neural Induction Medium、10μM SB431542及び100nM LDN193189)に懸濁し、Matrigelコート済みの6ウェルプレートに、1.0×10細胞/cmとなるように播種した。神経分化培地は毎日全量交換し、37℃、5%CO下で7日間培養した。
7日間の分化誘導を終えた細胞に対し、抗PAX6抗体で免疫染色を行った。抗PAX6抗体で免疫染色後、フローサイトメーターで解析し、PAX6陽性細胞を計数した。全細胞の個数に対するPAX6陽性細胞の個数の割合を神経幹細胞への分化誘導効率とした。18検体のうち、14検体を学習用検体とした。学習用検体1検体につき独立して3回の分化誘導を行い、3つの分化誘導効率の平均値を実測値として得た。
フレームワークとしては、Jubatusを用い、アルゴリズムとしてRegression AROWを使用した。各学習用検体のDNAメチル化データ及び対応する学習用検体の分化誘導効率の実測値を、それぞれ説明変数及び目的変数のセットとした学習用データについて、実施例1と同様にエポックを繰り返し、500エポックによって、最終的に50個の線形回帰モデルを得た。
(最適線形回帰モデルの選択)
50個の線形回帰モデルに対し、14個の学習用データのDNAメチル化データのみを入力し、分化誘導効率を予測した。50個の線形回帰モデルの中で実測値から予測値を減じた数値の標準偏差が最も小さい、480エポックで得られた線形回帰モデルを最適線形回帰モデルとして選択した。
(最適線形回帰モデルの検定)
全18検体のうち学習用データとして用いた14検体を除いたテスト検体である4検体のiPS細胞(Episomal−Edom−iPS細胞、Retro−Edom−iPS細胞、RNA−DFMF1−iPS細胞及びRNA−IMR−iPS細胞)の上記DNAメチル化データを、テストデータとして用いた。最適線形回帰モデルに対し、各テスト検体のDNAメチル化データを入力し、最適線形回帰モデルによってテスト検体の分化誘導効率を予測した。
(結果)
各テスト検体について分化誘導効率の予測値が得られた。テスト検体1検体に関して独立した3回の分化誘導における実際の分化誘導効率と、DNAメチル化データから構築した最適線形回帰モデルによって予測された分化誘導効率とを図4に示す。実際の分化誘導効率と予測された分化誘導効率との間に高い相関が認められた。
本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、本発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等な発明の意義の範囲内で施される様々な変形が、本発明の範囲内とみなされる。
本発明は、細胞の状態の判定又は予測に好適である。
1 入力部
2 判定部
3 記憶部
4 モデル構築部
5 出力部
100 細胞判定装置

Claims (6)

  1. 判定対象である細胞のDNAメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データからなる群から選択される少なくとも1つを含むオミクスデータに基づく教師あり学習で構築されたモデルによって前記細胞の状態を判定する判定部を備える、
    細胞判定装置。
  2. 学習用の細胞から取得される前記オミクスデータ及び該細胞の状態を示す情報をそれぞれ説明変数に対応する情報及び目的変数に対応する情報とした学習用データを用いて教師あり学習を実行することにより、前記モデルを構築するモデル構築部をさらに備える、
    請求項1に記載の細胞判定装置。
  3. 前記判定部は、
    前記判定対象である細胞の状態として、前記細胞が胚性幹細胞、人工多能性幹細胞、胚性がん細胞及び体細胞のいずれであるかを、前記オミクスデータに基づく教師あり学習で構築された線形分類モデルによって判定する、
    請求項1又は2に記載の細胞判定装置。
  4. 前記判定部は、
    前記判定対象である細胞の状態として、iPS細胞の培養継代数又は未分化のiPS細胞の分化誘導効率を、前記DNAメチル化データに基づく教師あり学習で構築された線形回帰モデルによって判定する、
    請求項1から3のいずれか一項に記載の細胞判定装置。
  5. 判定対象である細胞のDNAメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データからなる群から選択される少なくとも1つを含むオミクスデータに基づく教師あり学習で構築されたモデルによって前記細胞の状態を判定する判定ステップを含む、
    細胞判定方法。
  6. コンピュータを、
    判定対象である細胞のDNAメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データからなる群から選択される少なくとも1つを含むオミクスデータに基づく教師あり学習で構築されたモデルによって前記細胞の状態を判定する判定部として機能させる、
    プログラム。
JP2019034684A 2018-02-28 2019-02-27 細胞判定装置、細胞判定方法及びプログラム Pending JP2019150018A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018034579 2018-02-28
JP2018034579 2018-02-28

Publications (1)

Publication Number Publication Date
JP2019150018A true JP2019150018A (ja) 2019-09-12

Family

ID=67946176

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019034684A Pending JP2019150018A (ja) 2018-02-28 2019-02-27 細胞判定装置、細胞判定方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2019150018A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487208A (zh) * 2021-07-16 2021-10-08 支付宝(杭州)信息技术有限公司 风险评估方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487208A (zh) * 2021-07-16 2021-10-08 支付宝(杭州)信息技术有限公司 风险评估方法及装置

Similar Documents

Publication Publication Date Title
Paik et al. Single-cell RNA sequencing in cardiovascular development, disease and medicine
Liu et al. Modelling human blastocysts by reprogramming fibroblasts into iBlastoids
Paull et al. Automated, high-throughput derivation, characterization and differentiation of induced pluripotent stem cells
Rugg-Gunn et al. Cell-surface proteomics identifies lineage-specific markers of embryo-derived stem cells
Gafni et al. Derivation of novel human ground state naive pluripotent stem cells
Lujan et al. Early reprogramming regulators identified by prospective isolation and mass cytometry
Letourneau et al. Domains of genome-wide gene expression dysregulation in Down’s syndrome
Shao et al. Induced pluripotent mesenchymal stromal cell clones retain donor-derived differences in DNA methylation profiles
Baghbaderani et al. Detailed characterization of human induced pluripotent stem cells manufactured for therapeutic applications
Laurent et al. Comprehensive microRNA profiling reveals a unique human embryonic stem cell signature dominated by a single seed sequence
Strzelecka et al. Dissecting human disease with single-cell omics: application in model systems and in the clinic
Parrotta et al. Two sides of the same coin? Unraveling subtle differences between human embryonic and induced pluripotent stem cells by Raman spectroscopy
Dimitriadou et al. Single cell segmental aneuploidy detection is compromised by S phase
Thong et al. Hybrid stem cell states: insights into the relationship between mammary development and breast cancer using single-cell transcriptomics
US20240043919A1 (en) Method for traceable medium-throughput single-cell copy number sequencing
CN116391046A (zh) 通过寡杂交和基于pcr扩增进行核酸检测的方法
Van Hoof et al. Proteomics and human embryonic stem cells
JP2019150018A (ja) 細胞判定装置、細胞判定方法及びプログラム
Nestor et al. Standardization of human stem cell pluripotency using bioinformatics
Diaferia et al. The science of stem cell biobanking: investing in the future
Pandey et al. A CRISPR/Cas9-based enhancement of high-throughput single-cell transcriptomics
Chowdhury et al. STAU2 binds a complex RNA cargo that changes temporally with production of diverse intermediate progenitor cells during mouse corticogenesis
Molugu et al. Tracking and predicting human somatic cell reprogramming using nuclear characteristics
Müller et al. Human ESC/iPSC-based ‘omics’ and bioinformatics for translational research
WO2011101550A1 (en) Method of detecting the differentiation status of a stem cell population

Legal Events

Date Code Title Description
AA64 Notification of invalidation of claim of internal priority (with term)

Free format text: JAPANESE INTERMEDIATE CODE: A241764

Effective date: 20190319

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190322