JP2019150018A

JP2019150018A - 細胞判定装置、細胞判定方法及びプログラム

Info

Publication number: JP2019150018A
Application number: JP2019034684A
Authority: JP
Inventors: 光一郎西野; Koichiro Nishino; 良和新井; Yoshikazu Arai; 明弘梅澤; Akihiro Umezawa; 英憲阿久津; Hidenori Akutsu; 岡村　浩司; Koji Okamura; 浩司岡村; 慎一堀家; Shinichi Horiie; 博之犬塚; Hiroyuki Inuzuka
Original assignee: Tohoku University NUC; Kanazawa University NUC; University of Miyazaki NUC; National Center for Child Health and Development
Current assignee: Tohoku University NUC; Kanazawa University NUC; University of Miyazaki NUC; National Center for Child Health and Development
Priority date: 2018-02-28
Filing date: 2019-02-27
Publication date: 2019-09-12

Abstract

【課題】細胞の状態を簡便かつ正確に判定することができる細胞判定装置、細胞判定方法及びプログラムを提供する。【解決手段】細胞判定装置１００は、判定対象である細胞のＤＮＡメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データからなる群から選択される少なくとも１つを含むオミクスデータに基づく教師あり学習で構築されたモデルによって細胞の状態を判定する判定部２を備える。【選択図】図１

Description

本発明は、細胞判定装置、細胞判定方法及びプログラムに関する。

胚性幹細胞（ＥＳ細胞）、人工多能性幹細胞（ｉＰＳ細胞）、胚性がん細胞（ＥＣ細胞）及び間葉系幹細胞等の幹細胞が生物学及び医療分野において使用される。幹細胞は、株ごとの特性が異なる。幹細胞については、特に分化誘導効率の株間による違いが指摘されている。分化誘導効率の違いは、幹細胞の再生医療実現への障壁となっている。幹細胞を医療分野で用いる場合、幹細胞の特性を正確に評価することが有効性及び安全性を保証するうえで必要不可欠である。

多能性幹細胞株の機能性及び適切性を予測するための方法が特許文献１に開示されている。特許文献１に開示された方法では、所定の標的遺伝子セットに関するＤＮＡメチル化に基づいて多能性幹細胞株が選択される。

特開２０１７−１０４１０５号公報

特許文献１に開示された方法のように、従来の幹細胞の特性の評価は、数〜１０００個程度のマーカーとなる遺伝子又はタンパク質の検討にとどまっている。現状のマーカーの検討では、分化誘導前の未分化状態の細胞の分化指向性は判定できない。現時点では、ＥＳ細胞及びｉＰＳ細胞において、分化誘導前に分化指向性を判定するマーカー又は基準は存在しない。そのため、実際に分化誘導実験を行わない限り、ＥＳ細胞及びｉＰＳ細胞の分化指向性及び分化誘導効率は確定できず、時間と費用の浪費に繋がっている。

細胞内では数万個の遺伝子それぞれが活性又は不活性のパターンを形成している。さらに遺伝子の活性又は不活性のパターンの基盤となるエピジェネティックパターン、つまり、ＤＮＡメチル化、ヒストン修飾、クロマチンの高次構造及びユビキチン修飾等の膨大な因子の相互作用が細胞内では営まれている。細胞の特性を規定するのはそれら膨大な因子間の相互作用により形成されるネットワークである。特許文献１に開示された方法のような１０００個程度の遺伝子又はタンパク質に関する情報のみでは、細胞の特性を正確に判定することは不可能である。

実際、ＥＣ細胞のマーカー遺伝子の発現は、ＥＳ細胞とほぼ同一であり、マーカー遺伝子の発現状態のみでは、両者を判別することはできない。また、ｉＰＳ細胞では、形態及びマーカー遺伝子の発現からもＥＳ細胞と識別することは困難である。

細胞に関しては、細胞の由来種、細胞の由来組織又は多能性、分化能及びがん化等の性質で規定される細胞の種類、分化指向性、分化誘導効率及び培養継代数等の細胞の状態を簡便かつ正確に判定する方法が求められている。

本発明は、上記実情に鑑みてなされたものであり、細胞の状態を簡便かつ正確に判定することができる細胞判定装置、細胞判定方法及びプログラムを提供することを目的とする。

本発明の第１の観点に係る細胞判定装置は、
判定対象である細胞のＤＮＡメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データからなる群から選択される少なくとも１つを含むオミクスデータに基づく教師あり学習で構築されたモデルによって前記細胞の状態を判定する判定部を備える。

この場合、上記本発明の第１の観点に係る細胞判定装置は、
学習用の細胞から取得される前記オミクスデータ及び該細胞の状態を示す情報をそれぞれ説明変数に対応する情報及び目的変数に対応する情報とした学習用データを用いて教師あり学習を実行することにより、前記モデルを構築するモデル構築部をさらに備える、
こととしてもよい。

また、前記判定部は、
前記判定対象である細胞の状態として、前記細胞が胚性幹細胞、人工多能性幹細胞、胚性がん細胞及び体細胞のいずれであるかを、前記オミクスデータに基づく教師あり学習で構築された線形分類モデルによって判定する、
こととしてもよい。

また、前記判定部は、
前記判定対象である細胞の状態として、ｉＰＳ細胞の培養継代数又は未分化のｉＰＳ細胞の分化誘導効率を、前記ＤＮＡメチル化データに基づく教師あり学習で構築された線形回帰モデルによって判定する、
こととしてもよい。

本発明の第２の観点に係る細胞判定方法は、
判定対象である細胞のＤＮＡメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データからなる群から選択される少なくとも１つを含むオミクスデータに基づく教師あり学習で構築されたモデルによって前記細胞の状態を判定する判定ステップを含む。

本発明の第３の観点に係るプログラムは、
コンピュータを、
判定対象である細胞のＤＮＡメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データからなる群から選択される少なくとも１つを含むオミクスデータに基づく教師あり学習で構築されたモデルによって前記細胞の状態を判定する判定部として機能させる。

本発明によれば、細胞の状態を簡便かつ正確に判定することができる。

実施の形態に係る細胞判定装置の構成を示す図である。図１に示す細胞判定装置による判定処理のフローチャートを示す図である。ＤＮＡメチル化データから構築した線形回帰モデルによる細胞の培養継代数の予測結果を示す図である。ＤＮＡメチル化データから構築した線形回帰モデルによるｉＰＳ細胞の神経幹細胞への分化誘導効率の予測結果を示す図である。

本発明に係る実施の形態について説明する。なお、本発明は下記の実施の形態によって限定されるものではない。

（実施の形態）
本実施の形態に係る細胞判定装置１００は、細胞の状態を判定するための装置である。細胞の状態とは、例えば、細胞の種類、幹細胞の分化指向性及び分化誘導効率、並びに細胞の管理状態等である。細胞の種類としては、細胞の性質で規定される初代培養細胞、株化細胞、幹細胞、ＥＳ細胞、ｉＰＳ細胞、ＥＣ細胞及びがん細胞、細胞の由来種で規定される動物細胞及び植物細胞、並びに細胞の由来組織で規定される肝細胞、脳細胞、血液細胞及び血管内皮細胞等が挙げられる。細胞の管理状態とは、例えば、培養継代数及びウイルス感染の有無等である。細胞判定装置１００が判定対象とする細胞は、ヒトの細胞に限らず、非ヒト動物の細胞であってもよいし、植物細胞であってもよい。

細胞判定装置１００は、オミクスデータに基づいて細胞の状態を判定する。オミクスデータとは、ゲノミクス、エピゲノミクス、トランスクリプトミクス及びプロテオミクス等の分野で生体内の特定の機能分子を網羅的に解析して得られるデータをいう。例えば、オミクスデータには、遺伝子発現データ、ｍｉｃｒｏＲＮＡ（ｍｉＲＮＡ）発現データ、ＳＮＰ（ＳｉｎｇｌｅＮｕｃｌｅｏｔｉｄｅＰｏｌｙｍｏｒｐｈｉｓｍ）解析データ、ａＣＧＨ（Ａｒｒａｙ−ｂａｓｅｄＣｏｍｐａｒａｔｉｖｅＧｅｎｏｍｉｃＨｙｂｒｉｄｉｚａｔｉｏｎ）解析データ、ＤＮＡメチル化データ、ヒストン修飾データ、核内クロマチン高次構造データ、ユビキチン化タンパク質データ、及びレクチンアレイ等の糖鎖修飾データ等が含まれる。好適には、オミクスデータは、ＤＮＡメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データからなる群から選択される少なくとも１つを含む。

オミクスデータは、公知の方法で取得できる。例えば、遺伝子発現データは、ＤＮＡマイクロアレイ又はＲＮＡシークエンシング（ＲＮＡ−Ｓｅｑ）で取得できる。ＤＮＡメチル化データは、ＢｅａｄＣｈｉｐアレイ又はバイサルファイトシーケンシングで取得できる。ヒストン修飾データは、クロマチン免疫沈降（Ｃｈｒｏｍａｔｉｎｉｍｍｕｎｏｐｒｅｃｉｐｉｔａｔｉｏｎ：ＣｈＩＰ）アッセイと配列解析とを組み合わせたＣｈＩＰ−Ｓｅｑ法で取得できる。糖鎖修飾データは、例えばレクチン等の糖結合タンパク質が配置された市販のレクチンマイクロアレイ等を用いて取得できる。また、オミクスデータは、標的分子に特異的な抗体、ＬＣ−ＭＳ／ＭＳ（ＬｉｑｕｉｄＣｈｒｏｍａｔｏｇｒａｐｈｙ−ｔａｎｄｅｍＭａｓｓＳｐｅｃｔｒｏｍｅｔｒｙ）、Ｈｉ−Ｃ（Ｃｈｒｏｍａｔｉｎｃｏｎｆｏｒｍａｔｉｏｎｃａｐｔｕｒｅｓｅｑｕｅｎｃｉｎｇ）又は次世代シーケンサー等を用いて細胞を評価することで取得できる。

オミクスデータは、公共のデータベースからも取得できる。データベースとしては、米国国立生物工学情報センター（ＮＣＢＩ）のＧｅｎｅＥｘｐｒｅｓｓｉｏｎＯｍｎｉｂｕｓ（ＧＥＯ）、ＳｅｑｕｅｎｃｅＲｅａｄＡｒｃｈｉｖｅ（ＳＲＡ）、及び米国国立衛生研究所（ＮＩＨ）のＥｐｉｇｅｎｏｍｉｃｓＲｏａｄｍａｐ等が挙げられる。

好ましくは、上記のオミクスデータは、ゲノム又はヌクレオームを解析対象としたデータを含む。好適には、オミクスデータは、バイオインフォマティクス分野で通常行われるオミクスデータの前処理で除外されるデータを除いて、標的とする分子の網羅的なデータを選別なく含む。例えば、オミクスデータとしてＤＮＡメチル化データを用いる場合、オミクスデータは１つの細胞について３００,０００箇所以上、３５０,０００箇所以上、好ましくは４００,０００箇所以上又は８００，０００箇所以上のＤＮＡメチル化率を含む。オミクスデータとして遺伝子発現データを用いる場合、オミクスデータは１つの細胞について３０,０００以上、４０，０００以上、５０，０００以上、又は好ましくは６０,０００以上のプローブのシグナル値を含む。オミクスデータとしてヒストン修飾データを用いる場合、オミクスデータは１つの細胞について１０,０００以上、１２，０００以上、又は好ましくは１５，０００以上のピークデータを含む。オミクスデータとして糖鎖修飾データを用いる場合、オミクスデータは１つの細胞について３０〜１００種類、４０〜９０種類又は４０〜５０種類、好ましくは４５種類の糖結合タンパク質に関するシグナル値を含む。

図１は、細胞判定装置１００の構成を示す機能ブロック図である。細胞判定装置１００は、入力部１と、判定部２と、記憶部３と、モデル構築部４と、出力部５と、を備える。細胞判定装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、外部記憶装置と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）と、を備える。細胞判定装置１００では、ＣＰＵが外部記憶装置に記憶されたソフトウェアプログラムをＲＡＭに読み出して、ソフトウェアプログラムを実行制御することにより、以下に説明する機能を実現する。

入力部１は、キーボード等を備え、ユーザーの操作によって入力されたデータを判定部２及び記憶部３に入力する。入力部１は、判定対象である細胞のオミクスデータを判定部２に入力する。

判定部２は、判定対象である細胞のオミクスデータに基づく教師あり学習で構築されたモデルによって細胞の状態を判定する。一般に、教師あり学習とは、説明変数とそれに付随する目的変数との組み合わせの集合を学習用データとして、学習用データに対するフィッティングを行うことにより学習を行う機械学習の一手法である。フィッティングは、学習用データに含まれる説明変数の特徴量を抽出して目的変数ごとの特徴量を選んだり、その目的変数に属するデータの特徴を抽出したり、目的変数を識別する判断基準を生成したりすることで行う。

フィッティングによって、入力された説明変数からその説明変数に対応するべき目的変数を出力するモデルが構築される。モデルによって、学習用データに含まれない新たな説明変数に対応する目的変数を出力することができる。

判定部２が用いるモデルは、学習用の細胞から取得される、説明変数としてのオミクスデータと、目的変数としての当該細胞の状態を示す情報との組み合わせの集合を学習用データとして構築されたモデルである。

例えば、遺伝子発現データから細胞の種類を判定するためのモデルを構築する場合の学習用データについて説明する。細胞における遺伝子Ｇ_１、Ｇ_２、Ｇ_３・・・Ｇ_ｎそれぞれの発現量がｖ_１、ｖ_２、ｖ_３・・・ｖ_ｎである遺伝子発現データであれば、ｖ_１〜ｖ_ｎが説明変数である。目的変数は、細胞の種類それぞれを示す情報、例えば各細胞の種類に対応する識別可能なラベルである。好ましくは、当該学習用データは、異なる細胞の種類の間で統計的に有意な差があるとして抽出される遺伝子の発現量のみを説明変数として含むのではなく、例えば、学習用データに含まれるすべての細胞に共通して取得可能な遺伝子の発現量を選別なく含む。

判定部２は、判定対象の細胞から取得されたオミクスデータを、あらかじめ構築されたモデルに入力することで、判定対象の細胞の状態を示す情報を出力として得る。これにより、判定部２は、判定対象の細胞の状態を判定することができる。

教師あり学習の方法には、公知の任意の方法を採用すればよい。教師あり学習の方法としては、例えば、線形回帰、線形分類、ロジスティック回帰、サポートベクターマシーン、決定木、ニューラルネットワーク、畳み込みニューラルネットワーク、パーセプトロン及びｋ近傍法等が挙げられる。教師あり学習には、Ｊｕｂａｔｕｓ、Ｔｈｅａｎｏ及びＴｅｎｓｏｒＦｌｏｗ等、種々のフレームワークを利用できる。

好ましくは、上記モデルは、線形回帰モデル又は線形分類モデルである。線形回帰モデル及び線形分類モデルは、説明変数とそれに対応するべき目的変数とを写像する関数である。線形回帰モデルの場合、目的変数として連続値を予測することができる。線形分類モデルでは、目的変数としてラベル（カテゴリ）を判定することができる。目的変数を細胞の種類を示すラベルとする場合、学習用の細胞には、判定され得る種類の細胞が含まれる。種類ごとの細胞株の数は特に限定されないが、判定の精度を高めるために、種類ごとにより多くの細胞株のオミクスデータを学習用データに使用したほうがよい。

好適には、モデルとして線形分類モデルを用いることで、判定部２は、判定対象の細胞の状態として、該細胞がＥＳ細胞、ｉＰＳ細胞、ＥＣ細胞及び体細胞のいずれであるかを判定する。

また、任意の上記モデルによって、判定部２は、判定対象である細胞の状態として、ｉＰＳ細胞の培養継代数又は未分化のｉＰＳ細胞の分化誘導効率を判定してもよい。ここでの分化誘導効率とは、ｉＰＳ細胞を所定の細胞又は組織に誘導した場合に当該細胞又は組織へ分化する効率である。分化誘導効率は、例えば、分化を誘導した全細胞の個数に対する所定の細胞の個数の割合（連続値）で示される。分化誘導された所定の細胞の個数は、当該細胞に特異的に発現するマーカーの有無又は活性等を指標に計数できる。

例えば、判定部２は、未分化のｉＰＳ細胞の外胚葉、中胚葉又は内胚葉への分化誘導効率を判定してもよいし、外胚葉、中胚葉又は内胚葉からさらに分化した骨格筋細胞、心筋細胞、脂肪細胞、免疫系細胞及び血液細胞等の各種細胞への分化誘導効率を判定してもよい。好ましくは、判定部２は、判定対象である細胞の状態として、ｉＰＳ細胞の培養継代数又は未分化のｉＰＳ細胞の分化誘導効率を、ＤＮＡメチル化データに基づく教師あり学習で構築された線形回帰モデルによって判定する。

上記モデルはモデル構築部４によって構築される。モデル構築部４は、入力部１が記憶部３に記憶させた学習用データを用いた教師あり学習によってモデルを構築する。より詳細には、モデル構築部４は、学習用の細胞から取得されるオミクスデータ及び該細胞の状態を示す情報をそれぞれ説明変数に対応する情報及び目的変数に対応する情報とした学習用データを用いて教師あり学習を実行する。

モデル構築部４は、構築したモデルを記憶部３に記憶させる。入力部１によって判定対象である細胞のオミクスデータが判定部２に入力されると、判定部２は、記憶部３を参照し、モデルにより細胞の状態を判定する。判定部２は、判定された細胞の状態を示す情報を出力部５に出力する。

出力部５は、ディスプレイを備える。出力部５は、判定部２によって入力された細胞の状態を示す情報をディスプレイに表示する。

続いて、細胞判定装置１００による判定処理を図２に示すフローチャートを参照して説明する。記憶部３には、あらかじめ学習用データが記憶されているものとする。ユーザーが入力部１を介してモデルの構築を指示すると、判定処理が開始される。

モデル構築部４は、記憶部３を参照し、学習用データを用いてモデルを構築する（ステップＳ１）。モデルが構築されると、判定部２は、入力部１によって判定対象である細胞のオミクスデータが入力されるのを待つ（ステップＳ２；Ｎｏ）。判定対象である細胞のオミクスデータが入力されると（ステップＳ２；Ｙｅｓ）、判定部２は、細胞の状態を判定する（ステップＳ３）。次に、判定部２は、判定された細胞の状態を示す情報を、出力部５を介して出力する（ステップＳ４）。これにより、細胞の状態を示す情報がディスプレイに表示される。そして、判定部２は判定処理を終了する。

以上詳細に説明したように、本実施の形態に係る細胞判定装置１００は、細胞の状態を規定する膨大な因子間の相互作用により形成されるネットワークを反映するオミクスデータに基づく教師あり学習で構築されたモデルによって細胞の状態を判定する。このため、細胞の状態を正確に判定することができる。オミクスデータは判定対象である細胞から比較的容易に取得でき、分化誘導実験等の煩雑で時間のかかる実験が不要であるため、本実施の形態に係る細胞判定装置１００によれば、細胞の状態を簡便に判定できる。

また、判定部２は、判定対象である細胞の状態として、細胞がＥＳ細胞、ｉＰＳ細胞、ＥＣ細胞及び体細胞のいずれであるかを、前記オミクスデータに基づく教師あり学習で構築された線形分類モデルによって判定してもよいこととした。ＥＳ細胞、ｉＰＳ細胞、ＥＣ細胞及び体細胞を判定できることで、医療分野でこれら細胞を用いる場合の有効性及び安全性の確保に貢献できる。

また、判定部２は、判定対象である細胞の状態として、ｉＰＳ細胞の培養継代数又は未分化のｉＰＳ細胞の分化誘導効率を、ＤＮＡメチル化データに基づく教師あり学習で構築された線形回帰モデルによって判定してもよいこととした。ｉＰＳ細胞の培養継代数を判定することによって、ｉＰＳ細胞の品質管理等に有用な情報が得られる。ｉＰＳ細胞の分化誘導効率を判定することによって、分化誘導実験の実施にかかる時間と費用を抑制できる点で、細胞判定装置１００は再生医療の実現に寄与する。

なお、オミクスデータには、ＤＮＡメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データから選択される２つ以上が含まれてもよい。例えば、判定部２は、ＤＮＡメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖データから選択される少なくとも２つを含むオミクスデータに基づく教師あり学習で構築されたモデルによって細胞の状態を判定するようにしてもよい。複数の種類のデータを組み合わせたオミクスデータに基づいて構築されたモデルを用いて判定することで、細胞の状態を規定するより多くの因子を判定に考慮することができるため、細胞の状態をさらに正確に判定することができる。

また、がん細胞を判定対象とする場合、判定部２が判定する細胞の状態としては、悪性度、浸潤能、転移能、増殖率、薬剤耐性及び薬剤応答性等が挙げられる。

なお、細胞判定装置１００は、モデル構築部４を備えるようにしたが、モデル構築部４を備えなくてもよい。細胞判定装置１００がモデル構築部４を備えない場合、判定部２は、記憶部３にあらかじめ記憶されたモデルにより細胞の状態を判定すればよい。また、モデルは、必ずしも記憶部３にあらかじめ記憶される必要はなく、入力部１によって判定対象である細胞のオミクスデータとともに判定部２に入力されてもよい。

以下の実施例により、本発明をさらに具体的に説明するが、本発明は実施例によって限定されるものではない。

実施例１：ＤＮＡメチル化データを利用した線形分類モデルによる細胞の種類の判定
（細胞培養）
以下のすべての実施例で使用する細胞を次のように培養した。なお、細胞はすべてヒトの細胞である。体細胞及びＥＣ細胞は、各細胞の提供元であるＣｅｌｌＢａｎｋによって指定されている方法で培養した。体細胞（ＵｔＥ１１０４、Ｅｄｏｍ２２及びＭＲＣ−５）及びＥＣ細胞（１１７７ＮＲｐｍｅｔ及びＮＴＥＲＡ−２）の培養液には、１０％ウシ胎児血清（ＦＢＳ）、５５μＭ２−メルカプトエタノール、１％ペニシリン及びストレプトマイシンを含むＤＭＥＭ（Ｄｕｌｂｅｃｃｏ’ｓＭｏｄｉｆｉｅｄＥａｇｌｅＭｅｄｉｕｍ）を用いた。

ＥＣ細胞（ＮＣＣＩＴ−Ａ３、ＮＥＣ８及びＮＥＣ１４）の培養液には、１０％ＦＢＳ、５５μＭ２−メルカプトエタノール、１％ペニシリン及びストレプトマイシンを含むＲＰＭＩ１６４０を使用した。ＥＣ細胞（ＰＡ−１）の培養液には、１０％ＦＢＳ、５５μＭ２−メルカプトエタノール、１％ペニシリン及びストレプトマイシン、１％非必須アミノ酸を含むＭＥＭ（ＭｉｎｉｍｕｍＥｓｓｅｎｔｉａｌＭｅｄｉａ）を使用した。

ｉＰＳ細胞を次のように作製した。まず、ヒトの外科検体の組織から子宮内膜、羊膜、胎盤動脈内皮及び月経血の細胞を採取した。これらの細胞から子宮内膜（ＵｔＥ１１０４）、羊膜（ＡＭ９３６ＥＰ）、胎盤動脈内皮（ＰＡＥ５５１）及び月経血（Ｅｄｏｍ２２）の細胞株を樹立した。ＡＭ９３６ＥＰ、Ｅｄｏｍ２２及びＭＲＣ−５は、ＰＯＷＥＲＥＤＢＹ１０培地（ＭＥＤＳＨＩＲＯＴＯＲＩ社製）で維持した。ＰＡＥ５５１は、５％ＦＢＳを含むＥＧＭ−２ＭＶＢｕｌｌｅｔＫｉｔ（Ｌｏｎｚａ社製）で培養した。

ｉＰＳ細胞は、山中らの方法（ＴａｋａｈａｓｈｉＫ、外６名、「Ｉｎｄｕｃｔｉｏｎｏｆｐｌｕｒｉｐｏｔｅｎｔｓｔｅｍｃｅｌｌｓｆｒｏｍａｄｕｌｔｈｕｍａｎｆｉｂｒｏｂｌａｓｔｓｂｙｄｅｆｉｎｅｄｆａｃｔｏｒｓ」、２００７年、Ｃｅｌｌ、１３１（５）、ｐ．８６１−８７２）に基づいて、ヒトＯＣＴ３／４、ＳＯＸ２、ＫＬＦ４及びｃ−ＭＹＣの４個の遺伝子のｃＤＮＡをコードするレトロウイルスベクターｐＭＸｓから産生されたレトロウイルスを各体細胞に感染させて、各体細胞からｉＰＳ細胞を複数の細胞株として作製した。ＭＲＣ−５、ＡＭ９３６ＥＰ、ＵｔＥ１１０４、ＰＡＥ５５１及びＥｄｏｍ２２由来のｉＰＳ細胞を、それぞれＲｅｔｒｏ−ＭＲＣ−ｉＰＳ細胞、Ｒｅｔｒｏ−ＡＭ−ｉＰＳ細胞、Ｒｅｔｒｏ−ＵｔＥ−ｉＰＳ細胞及びＲｅｔｒｏ−ＰＡＥ−ｉＰＳ細胞として樹立した。ｉＰＳ細胞は、１０ｎｇ／ｍＬのヒト組み換え塩基性線維芽細胞成長因子（ｂＦＧＦ、和光純薬工業社製）を添加したｉＰＳｅｌｌｏｎ培地（Ｃａｒｄｉｏ社製）を用いて、放射線照射したマウス胚性線維芽細胞上で培養した。また、上記レトロウイルスを用いてヒト皮膚線維芽細胞から作製したｉＰＳ細胞である２０１Ｂ７は、ＲＩＫＥＮＢＲＣＣｅｌｌＢａｎｋより入手した。

また、西村らの方法（ＮｉｓｈｉｍｕｒａＫ、外１７名、「ＤｅｖｅｌｏｐｍｅｎｔｏｆｄｅｆｅｃｔｉｖｅａｎｄｐｅｒｓｉｓｔｅｎｔＳｅｎｄａｉｖｉｒｕｓｖｅｃｔｏｒ：ａｕｎｉｑｕｅｇｅｎｅｄｅｌｉｖｅｒｙ／ｅｘｐｒｅｓｓｉｏｎｓｙｓｔｅｍｉｄｅａｌｆｏｒｃｅｌｌｒｅｐｒｏｇｒａｍｍｉｎｇ．」、２０１１年、ＪｏｕｒｎａｌｏｆＢｉｏｌｏｇｉｃａｌＣＨｅｍｉｓｔｒｙ、２８６（６）、ｐ．４７６０−４７７１）に基づいて、ヒトＯＣＴ３／４、ＳＯＸ２、ＫＬＦ４、ｃ−ＭＹＣの４個の遺伝子のｃＤＮＡをコードするセンダイウイルスベクターｐＳｅＶｄｐから産生されたセンダイウイルスをＥｄｏｍ２２に感染させ、複数の細胞株のＳｅｎｄａｉ−Ｅｄｏｍ−ｉＰＳ細胞を樹立した。

さらに、沖田らの方法（ＯｋｉｔａＫ、外１５名、「Ａｍｏｒｅｅｆｆｉｃｉｅｎｔｍｅｔｈｏｄｔｏｇｅｎｅｒａｔｅｉｎｔｅｇｒａｔｉｏｎ−ｆｒｅｅｈｕｍａｎｉＰＳｃｅｌｌｓ」、２０１１年、ＮａｔｕｒｅＭｅｔｈｏｄ、８（５）、ｐ．４０９−４１２）に基づいて、ヒトＯＣＴ３／４、ＳＯＸ２、ＫＬＦ４、Ｌ−ＭＹＣ、ＬＩＮ２８及びＴＰ５３ｓｈＲＮＡの６個の遺伝子のｃＤＮＡをコードするｐＣＸＬＥベクターをリポフェクション法によりＥｄｏｍ２２に導入し、複数の細胞株のＥｐｉｓｏｍａｌ−Ｅｄｏｍ−ｉＰＳ細胞を樹立した。

ＥＳ細胞を次のように作製した。ＣｒｙｏｔｏｐＳａｆｅｔｙＴｈａｗｉｎｇＫｉｔ（＃ＶＴ６０２、北里バイオファルマ社製）をマニュアルに従って用いて、凍結ヒト胚を解凍し、ＢｌａｓｔＡｓｓｉｓｔＳｙｓｔｅｍ培地（＃１２１５００１０、ＭｅｄｉＣｕｌｔ社製）で胚盤胞に達するまで培養した。胚盤胞から内細胞塊（ＩＣＭ）を、ウサギ抗血清（＃１０９−４１３９、ＲｏｃｋｌａｎｄＩｍｍｕｎｏｃｈｅｍｉｃａｌｓ社製）及びモルモット血清補体（＃Ｓ−１６３９、Ｓｉｇｍａ−Ａｌｄｒｉｃｈ社製）を用いた免疫手術によって単離した。次に、胎齢１２．５日目のＩＣＲ胚から単離されたマウス胎児線維芽細胞（ＭＥＦ）を２回継代後、ＭＥＦにγ線（３０Ｇｙ）を照射し、作製したＭＥＦフィーダー層上にＩＣＭを播いた。

ヒトＥＳ細胞標準培地は、２０％ノックアウトＳｅｒｕｍＲｅｐｌａｃｅｍｅｎｔ（ＫＯ−ＳＲ；＃１０８２８−０２８）、２ｍＭＧｌｕｔａＭＡＸ−Ｉ（＃３５０５０−０７９）、０．１ｍＭ非必須アミノ酸（＃１１１４０−０７６）、５０Ｕ／ｍＬペニシリン及び５０μｇ／ｍＬストレプトマイシン（＃１５０７０−０６３）、０．０５５ｍＭベータ−メルカプトエタノール（＃２１９８５−０２３）並びに１０ｎｇ／ｍＬ組み換えヒト全長ｂＦＧＦ（＃ＰＨＧ０２６１）を含むノックアウトＤＭＥＭ（ＫＯ−ＤＭＥＭ；＃１０８２９−０１８、以上すべてＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ社製）である。ＩＣＭを播いてから７〜１４日後、微細に延伸されたガラスパスツールピペットを用いて、ＩＣＭを小さい塊に機械的に分け、新しいＭＥＦフィーダー層上に移した。継代後、増殖したコロニーを同様に分散させ、新しいＭＥＦフィーダー層上に播き、２〜４回継代した。以降、継代時には、増殖したコロニーを、ＳｔｅｍＣｅｌｌＣｕｔｔｉｎｇＴｏｏｌ（＃１４６０１、Ｖｉｔｒｏｌｉｆｅ社製）及びＤｉｓｐａｓｅＩＩ（＃ＧＤ８１０７０、Ｅｉｄｉａ社製）を用いて分散させ継代培養を継続し、各ＥＳ細胞ペレットを凍結保存した。

また、別のＥＳ細胞を以下のように作製した。ＣｒｙｏｔｏｐＳａｆｅｔｙＴｈａｗｉｎｇＫｉｔをマニュアルに従って用いて、凍結ヒト胚を解凍し、ＢｌａｓｔＡｓｓｉｓｔＳｙｓｔｅｍ培地で胚盤胞に達するまで培養した。次に、ヒト皮膚組織からＸｅｎｏ−Ｆｒｅｅ条件下で単離及び培養された間葉系幹細胞（ＭＳＣ）にγ線（３０Ｇｙ）を照射し、作成したＭＳＣフィーダー層上に胚盤胞を播いた。

培養培地の組成は、８５％ＫＯ−ＤＭＥＭ、１５％ＫＯ−ＳＲＸｅｎｏ−ＦｒｅｅＣＴＳ（ＫＯ−ＳＲＸＦ；＃１２６１８−０１３、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ社製）、２ｍＭＧｌｕｔａＭＡＸ−Ｉ、０．１ｍＭ非必須アミノ酸、５０Ｕ／ｍＬペニシリン及び５０μｇ／ｍＬストレプトマイシン、５０μｇ／ｍＬＬ−アスコルビン酸（＃Ａ４５４４、Ｓｉｇｍａ−Ａｌｄｒｉｃｈ社製）、ヘレグリン−β１（ＥＧＦｄｏｍｅｉｎ）（＃３９６−ＨＢ−０５０／ＣＦ、Ｒ＆ＢＳｙｓｔｅｍｓ社製）、２００ｎｇ／ｍＬＬＯＮＧＲ^３−ＩＧＦ１（＃８５５８０Ｃ、Ｓｉｇｍａ−Ａｌｄｒｉｃｈ社製）、並びに２０ｎｇ／ｍＬ組み換えヒト全長ｂＦＧＦである。

３７℃、３％〜５％Ｏ_２、５％ＣＯ_２、９０〜９２％Ｎ_２の条件で胚盤胞を培養し、７日以内の培養で胚盤胞が拡張増殖したことを確認した。ＸＹＣｌｏｎｅＬａｓｅｒＳｙｓｔｅｍ（ＨａｍｉｌｔｏｎｅＴｈｏｒｅｎｅＢｉｏｓｃｉｅｎｃｅｓ社製）を用いて、レーザーで栄養外胚葉部分を除去し、ＩＣＭのみを残した。２週間後、ＩＣＭはヒトＥＳ細胞様のコロニーを形成したので、ハンドピッキング法で継代した。継代後、増殖したコロニーを、組換えトリプシン（＃０６３６９８８０１０３、ＲｏｃｈｅＡｐｐｌｉｅｓＳｃｉｅｎｃｅ社製）を用いて分散させ、新しいＭＳＣフィーダー層上に播いた。以降、増殖したコロニーを同様に分散させ継代培養を継続し、各ＥＳ細胞ペレットを凍結保存した。

（ゲノムＤＮＡの抽出）
１×１０^６〜５×１０^６個の細胞を凍結保存した細胞ペレットからＱＩＡａｍｐＤＮＡＭｉｎｉＫｉｔ（Ｑｉａｇｅｎ社製）を用いて、ゲノムＤＮＡを抽出した。抽出液をＮａｎｏＤｒｏｐ２００ｃ（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ社製）を用いてゲノムＤＮＡ濃度を測定した。

各細胞のゲノムＤＮＡに対し、ＥＺ−ＤＮＡＭｅｔｈｙｌａｔｉｏｎＫｉｔ（ＺＹＭＯＲＥＳＥＡＲＣＨ社製）を用いてバイサルファイト処理を行った。バイサルファイト処理済みの検体を、ＨｕｍａｎＭｅｔｈｙｌａｔｉｏｎ４５０ＢｅａｄＣｈｉｐ（Ｉｌｌｕｍｉｎａ社製）にハイブリダイゼーションさせた。ＨｕｍａｎＭｅｔｈｙｌａｔｉｏｎ４５０ＢｅａｄＣｈｉｐは約４５０，０００箇所のＣｐＧ部位のメチル化を検出するプローブを搭載している。ハイブリダイゼーション後、各プローブのシグナルをｉＳｃａｎシステム（Ｉｌｌｕｍｉｎａ社製）により検出した。なお、ハイブリダイゼーション及びシグナルの検出に関するすべての手順はＩｌｌｕｍｉｎａ社が提供するプロトコールに従った。

（データの前処理）
ＤＮＡメチル化解析ソフトウェアであるＧｅｎｏｍｅＳｔｕｄｉｏ（Ｉｌｌｕｍｉｎａ社製）を用いてｉＳｃａｎにより得られたシグナルデータを解析した。シグナルデータのバックグラウンド補正及びノーマライゼーション補正を行い、各ＣｐＧ箇所のＤＮＡメチル化率を算出した。

（公共データベースからのＤＮＡメチル化データの取得）
ＮＣＢＩＧＥＯデータベースよりＨｕｍａｎＭｅｔｈｙｌａｔｉｏｎ４５０ＢｅａｄＣｈｉｐを用いて得られたヒト体細胞、ＥＳ細胞及びｉＰＳ細胞のＤＮＡメチル化データを取得し、上記データの前処理を同様に行った。ＮＣＢＩＧＥＯデータベースからＤＮＡメチル化データを取得した細胞のデータベースにおけるＩＤを表１に示す。

（線形分類モデルの構築）
ヒト体細胞、ＥＳ細胞、ｉＰＳ細胞及びＥＣ細胞の合計１３６検体のＤＮＡメチル化データにおいて、有効なプローブ数は４５２，８３２個であった。４５２，８３２個のプローブのうち、人種間で多型が報告されており、かつ、ＤＮＡメチル化率の算出に不適とされるプローブ７，３１９個を除いた４４５，５１３個のプローブのＤＮＡメチル化データを機械学習に使用した。機械学習のフレームワークとしては、オープンソースプロダクトであるＪｕｂａｔｕｓ（ｈｔｔｐ：／／ｊｕｂａｔ．ｕｓ／ｊａ／）を用い、アルゴリズムとしてＣｌａｓｓｉｆｉｅｒＡＲＯＷを使用した。１３６検体のうち、８１検体（ＥＳ細胞１９検体、ｉＰＳ細胞３９検体、ＥＣ細胞５検体、体細胞１８検体）を学習用検体とした。各学習用検体のＤＮＡメチル化データ（４４５，５１３箇所のＣｐＧ部位のメチル化率）及び対応する学習用検体の細胞の種類（体細胞、ＥＳ細胞、ｉＰＳ細胞及びＥＣ細胞のいずれか）を示すラベルを、それぞれ説明変数及び目的変数のセットとして学習用データとした。

８１個の学習用データをランダムにＪｕｂａｔｕｓに入力し学習を行った。すなわち、８１個の学習用データのうち、ランダムに１個の学習用データを選び、Ｊｕｂａｔｕｓに入力後、次は残り８０個の学習用データのうち、ランダムに１個の学習用データを選び、Ｊｕｂａｔｕｓに入力した。これを繰り返し、合計８１回の入力と学習を行った。８１個の学習用データの入力と学習とを１エポックと定義した。１エポックの終了後、同様にエポックを繰り返し、線形分類モデルの学習回数を重ねた。１０エポックごとに線形分類モデルを記録した。２００エポックによって、最終的に２０個の線形分類モデルを得た。

（最適線形分類モデルの選択）
２０個の線形分類モデルに対し、８１個の学習用データのＤＮＡメチル化データのみを入力し、細胞の種類を判定した。２０個の線形分類モデルの中で正答率が最も高い１００％で、かつ、最も学習回数の少ない５０エポックで得られた線形分類モデルを最適線形分類モデルとして選択した。

（最適線形分類モデルの検定）
テストデータとして、テスト検体である５５検体（ＥＳ細胞１９検体、ｉＰＳ細胞２２検体、ＥＣ細胞４検体、体細胞１０検体）のＤＮＡメチル化データを用いた。この５５検体は、１３６検体のうち、学習用データとして用いた８１検体を除いたものである。最適線形分類モデルに対して、各テスト検体の遺伝子発現データを入力し、最適線形分類モデルによってテスト検体の細胞の種類を判定した。

（結果）
各テスト検体に対して、ＥＳ細胞、ｉＰＳ細胞、ＥＣ細胞及び体細胞の４つの判定スコアが提示された。４つのうち最も高いスコアを示した細胞の種類が当該テスト検体の細胞の種類として最適線形分類モデルによって判定された細胞の種類である。表２にＤＮＡメチル化データから構築した最適線形分類モデルによる細胞の種類の判定結果を示す。ＥＣ細胞及び体細胞に関してはすべて正しく判定できた。ＥＳ細胞及びｉＰＳ細胞でもそれぞれ９４．７％及び９５．５％の正答率が得られた。

実施例２：ＤＮＡメチル化データを利用した線形回帰モデルによる培養継代数の予測
（線形回帰モデルの構築）
実施例１におけるｉＰＳ細胞６１検体のうち、５０検体に関して実施例１と同様に、４４５，５１３個のプローブのＤＮＡメチル化データを取得した。５０検体のうち、３９検体を学習用検体とした。フレームワークとしては、Ｊｕｂａｔｕｓを用い、アルゴリズムとしてＲｅｇｒｅｓｓｉｏｎＡＲＯＷを使用した。各学習用検体のＤＮＡメチル化データ及び対応する学習用検体の培養継代数を、それぞれ説明変数及び目的変数のセットとした学習用データについて、実施例１と同様にエポックを繰り返し、８００エポックによって、最終的に８０個の線形回帰モデルを得た。

（最適線形回帰モデルの選択）
８０個の線形回帰モデルに対し、３９個の学習用データのＤＮＡメチル化データのみを入力し、培養継代数を予測した。８０個の線形回帰モデルの中で正答率が最も高い１００％で、かつ、最も学習回数の少ない６６０エポックで得られた線形回帰モデルを最適線形回帰モデルとして選択した。

（最適線形回帰モデルの検定）
テストデータとして、テスト検体である１１検体のｉＰＳ細胞のＤＮＡメチル化データを用いた。この１１検体は、全５０検体のうち、学習用データとして用いた３９検体を除いたものである。最適線形回帰モデルに対し、各テスト検体のＤＮＡメチル化データを入力し、最適線形回帰モデルによってテスト検体の培養継代数を予測した。

（結果）
各テスト検体に対して、培養継代数の予測値が提示された。図３にＤＮＡメチル化データから構築した最適線形回帰モデルによる培養継代数の予測結果を示す。培養継代数１０前後のテスト検体は、実際の培養継代数より高めに予測されたが、培養継代数２０〜４０のテスト検体では、予測された培養継代数と実際の培養継代数との間に高い相関が認められた。

実施例３：遺伝子発現データを利用した線形分類モデルによる細胞の種類の判定
（ＴｏｔａｌＲＮＡの抽出）
１×１０^６〜５×１０^６個の細胞を凍結保存した細胞ペレットからＲＮｅａｓｙＭｉｎｉＫｉｔ（Ｑｉａｇｅｎ社製）を用いて、ＴｏｔａｌＲＮＡを抽出した。ＮａｎｏＤｒｏｐ２００ｃ（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ社製）を用いて抽出液におけるＴｏｔａｌＲＮＡ濃度を測定した。

（ｃＲＮＡのラベル化と精製）
ＬｏｗＩｎｐｕｔＱｕｉｃｋＡｍｐＬａｂｅｌｉｎｇＫｉｔ（Ａｇｉｌｅｎｔ社製）及びＲＮＡＳｐｉｋｅ−ＩｎＫｉｔ（Ａｇｉｌｅｎｔ社製）を用いて、ｃＲＮＡをラベル化した。ラベル化したｃＲＮＡを、ＲＮｅａｓｙＭｉｎｉＫｉｔ（Ｑｉａｇｅｎ社製）を用いて精製した。

（遺伝子発現シグナルの検出）
ラベル化し精製したｃＲＮＡを用いてＳｕｒｅＰｒｉｎｔＧ３ＨｕｍａｎＧＥマイクロアレイ８×６０Ｋ（Ａｇｉｌｅｎｔ社製）とハイブリダイゼーションを行った。ＳｕｒｅＰｒｉｎｔＧ３ＨｕｍａｎＧＥマイクロアレイ８×６０Ｋは、約６０，０００個のプローブを搭載している。ハイブリダイゼーションにはＧｅｎｅＥｘｐｒｅｓｓｉｏｎＨｙｂｒｉｄｉｚａｔｉｏｎＫｉｔ（Ａｇｉｌｅｎｔ社製）を、ハイブリダイゼーション後の洗浄にはＧｅｎｅＥｘｐｒｅｓｓｉｏｎＷａｓｈＰａｃｋ（Ａｇｉｌｅｎｔ社製）を使用した。洗浄後、各プローブのシグナルをＡｇｉｌｅｎｔＤＮＡマイクロアレイスキャナシステム（Ａｇｉｌｅｎｔ社製）により評価し、シグナルデータを取得した。ハイブリダイゼーション及びシグナルの検出に関するすべての手順は、Ａｇｉｌｅｎｔ社が提供するプロトコールに従った。

（データの前処理）
Ｒパッケージｌｉｍａを用いてシグナルデータを解析した。シグナルのバックグラウンド補正を行い、サンプル間の正規化補正は行わず、各プローブのシグナル値を算出した。

（公共データベースからの遺伝子発現データの取得）
ＮＣＢＩＧＥＯデータベースよりＳｕｒｅＰｒｉｎｔＧ３ＨｕｍａｎＧＥマイクロアレイ８×６０Ｋを用いて得られたヒト体細胞、ＥＳ細胞及びｉＰＳ細胞の遺伝子発現データを取得し、上記データの前処理を同様に行った。ＮＣＢＩＧＥＯデータベースから遺伝子発現データを取得した細胞のデータベースにおけるＩＤを表３に示す。体細胞、ＥＳ細胞、ｉＰＳ細胞及びＥＣ細胞の合計７５検体の遺伝子発現データにおいて、有効なプローブ数は６０，９０１個であった。

（線形分類モデルの構築）
フレームワークとしては、Ｊｕｂａｔｕｓを用い、アルゴリズムとしてＣｌａｓｓｉｆｉｅｒＡＲＯＷを使用した。７５検体のうち、４９検体（ＥＳ細胞６検体、ｉＰＳ細胞１７検体、ＥＣ細胞３検体、体細胞２３検体）を学習用検体とした。各学習用検体の遺伝子発現データ（６０，９０１個のプローブのシグナル値）及び対応する学習用検体の細胞の種類を示すラベルを、それぞれ説明変数及び目的変数のセットとして学習用データとした。

学習用データについて、実施例１と同様にエポックを繰り返し、２００エポックによって、最終的に２０個の線形分類モデルを得た。

（最適線形分類モデルの選択）
２０個の線形分類モデルに対し、４９個の学習用データの遺伝子発現データのみを入力し、細胞の種類を判定した。２０個の線形分類モデルの中で正答率が最も高い１００％で、かつ、最も学習回数の少ない１１０エポックで得られた線形分類モデルを最適線形分類モデルとして選択した。

（最適線形分類モデルの検定）
テストデータとして、テスト検体である２６検体（ＥＳ細胞４検体、ｉＰＳ細胞１０検体、ＥＣ細胞２検体、体細胞１０検体）の遺伝子発現データを用いた。この２６検体は、７５検体のうち、学習用データとして用いた４９検体を除いたものである。最適線形分類モデルに対して各テスト検体の遺伝子発現データを入力し、最適線形分類モデルによってテスト検体の細胞の種類を判定した。

（結果）
表４に遺伝子発現データから構築した最適線形分類モデルによる細胞の種類の判定結果を示す。ＥＳ細胞を除くｉＰＳ細胞、ＥＣ細胞及び体細胞に関してはすべて正しく判定できた。ＥＳ細胞でも７５％の正答率が得られた。

実施例４：ヒストン修飾データを利用した線形分類モデルによる細胞の種類の判定
（サンプル調製）
ＣｈＩＰ−Ｓｅｑ法により、ゲノムＤＮＡにおけるヒストンＨ３のリジン４トリメチル（Ｈ３Ｋ４ｍｅ３）化の局在を評価できる。まず、３×１０^６〜５×１０^６個の細胞を含む培養皿から培養液を取り除き、ホルムアルデヒド溶液を加えることで、細胞内のゲノムＤＮＡとヒストンをクロスリンクさせた後、細胞を回収した。

回収した細胞に対し、サンプル密閉式超音波破砕装置Ｂｉｏｒｕｐｔｏｒ（コスモバイオ社製）を用いて４℃条件下で細胞懸濁液を全量ソニケーションした後、遠心分離し、上清を回収した。上清をインプット分画とクロマチン分画に分けた。クロマチン分画に対し抗Ｈ３Ｋ４ｍｅ３抗体を用い、遠心分離により複合体を沈降させることにより親和精製した。インプット分画及びクロマチン分画の両方に対して、加熱インキュベーションによりクロスリンクを解除した（脱クロスリンク）。両分画に対し、プロテアーゼＫを用いてタンパク質成分を消化した後、断片化されたゲノムＤＮＡを精製した。

（次世代シークエンサーによるＨ３Ｋ４ｍｅ３ゲノム領域の検出）
両分画に対し、ＨｉＳｅｑプラットフォーム（Ｉｌｌｕｍｉｎａ社製）におけるペアエンド全ゲノムシークエンシングのためのライブラリを作製した。両分画に対し、ＨｉＳｅｑプラットフォームを用いて、片側１５０塩基のペアエンドシークエンシングを行い、１サンプルあたり合計４５Ｇｂ以上の塩基配列データをＦＡＳＴＱとして取得した。

（ＦＡＳＴＱデータの処理）
ＦＡＳＴＱに対し、３’側読み抜けアダプタ配列の除去、末端の低品質塩基の除去及びリード長の短いリード対の除去といったトリミングを行った。マッピングソフトウェアＢＷＡ０．７．１５を用いて、ヒトゲノム参照配列ＧＲＣｈ３７（ｈｇ１９）に、これらリード対をマッピングしＳＡＭ形式のデータを作成した。ＳＡＭｔｏｏｌｓ１．５を用いて、ＳＡＭ形式からＢＡＭ形式のデータを作成した。ピークコールを行うソフトウェアＭＡＣＳ２バージョン２．１．１を用いて、インプット分画及びクロマチン分画それぞれのデータに対し、Ｈ３Ｋ４ｍｅ３修飾領域候補をリスト化した。

次に、インプット分画と比べたリード数が８倍以下の領域、及びコールされた際に得られたｐ値が１０^−８よりも大きな領域を除外した。さらに、隣の領域との距離が５００ｂｐ以下の複数領域は１つにまとめ、性染色体及びミトコンドリアＤＮＡは除いた。この結果、インプット分画及びクロマチン分画を合わせてゲノム全体に渡り１６，２６７個のピークを得た。遺伝子ＧＡＰＤＨのプロモータに存在するピークのリード深度の値を０．５とし、それぞれのピークにおけるリード深度を０から１までの値に正規化した。なお、正規化により１を超えるリード深度は１とした。

（公共データベースからのＨ３Ｋ４ｍｅ３ＣｈＩＰ−Ｓｅｑデータの取得）
ＮＣＢＩＳＲＡデータベースよりＨ３Ｋ４ｍｅ３ＣｈＩＰ−ＳｅｑのＦＡＳＴＱデータを収集した。ＮＣＢＩＳＲＡデータベースからＦＡＳＴＱデータを取得した細胞のデータベースにおけるＩＤを表５に示す。

ＮＣＢＩＳＲＡデータベースに登録されているデータでは、インプット分画のデータが利用できないことが多いため、インプット分画のデータを除外した。ＮＣＢＩＳＲＡデータベースに登録されているデータには、リード長が短いものも含まれているので、３６塩基以上のものを解析対象とした。ＮＣＢＩＳＲＡデータベースに登録されているデータのうち、ペアエンドデータは対を解いてまとめ、全てシングルエンドのデータとしてマッピングした。以上の処理を施したうえで、ＮＣＢＩＳＲＡデータベースから取得したデータに関して、上記１６，２６７個についてピークのリード深度を算出した。

（線形分類モデルの構築）
フレームワークとして、Ｊｕｂａｔｕｓを用いた。使用したアルゴリズムはＣｌａｓｓｉｆｉｅｒＡＲＯＷである。８８検体のうち、５１検体（ＥＳ細胞１５検体、ｉＰＳ細胞１８検体、ＥＣ細胞３検体、体細胞１５検体）を学習用検体とした。各学習用検体のピークデータ（１６，２６７ピークのリード深度）及び対応する学習用検体の細胞の種類を示すラベルを、それぞれ説明変数及び目的変数のセットとして学習用データとした。

学習用データについて、実施例１と同様にエポックを繰り返し、１００エポックによって、最終的に１０個の線形分類モデルを得た。

（最適線形分類モデルの選択）
１０個の線形分類モデルに対し、５１個の学習用データのピークデータのみを入力し、細胞の種類を判定した。１０個の線形分類モデルの中で正答率が最も高い１００％で、かつ、最も学習回数の少ない５０エポックで得られた線形分類モデルを最適線形分類モデルとして選択した。

（最適線形分類モデルの検定）
テストデータとして、テスト検体である３７検体（ＥＳ細胞１２検体、ｉＰＳ細胞１２検体、ＥＣ細胞１検体、体細胞１２検体）のピークデータを用いた。この３７検体は、８８検体のうち、学習用データとして用いた５１検体を除いたものである。最適線形分類モデルに対して各テスト検体のピークデータを入力し、最適線形分類モデルによってテスト検体の細胞の種類を判定した。

（結果）
表６にピークデータから構築した最適線形分類モデルによる細胞の種類の判定結果を示す。ＥＳ細胞を除くｉＰＳ細胞、ＥＣ細胞及び体細胞に関してはすべて正しく判定できた。

実施例５：レクチンアレイデータを利用した線形分類モデルによる細胞の種類の判定
（膜タンパク質の抽出）
１×１０^６〜５×１０^６個の細胞を凍結保存した細胞ペレットから、ＣｅｌＬｙｔｉｃＭＥＭｐｒｏｔｅｉｎｅｘｔｒａｃｔｉｏｎｋｉｔ（Ｓｉｇｍａ−Ａｌｄｒｉｃｈ社製）を用いて、膜タンパク質を含む疎水性画分を分離抽出した。ＭｉｃｒｏＢＣＡｐｒｏｔｅｉｎａｓｓａｙｋｉｔ（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ社製）を用いて抽出液のタンパク質濃度を測定した。

なお、本実施例に用いた体細胞には、ヒトの外科検体の骨髄間質、耳介軟骨及び過剰指骨髄から採取した細胞からそれぞれ樹立した細胞株Ｈ４−１、Ｍｉｍ１５０８Ｅ及びＹｕｂ６３６ＢＭを含む。Ｈ４−１、Ｍｉｍ１５０８Ｅ及びＹｕｂ６３６ＢＭは、ＰＯＷＥＲＥＤＢＹ１０培地（ＭＥＤＳＨＩＲＯＴＯＲＩ社製）で維持した。

（膜タンパク質のラベル化）
疎水性画分に含まれるタンパク質に、Ｃｙ３−ＮＨＳ（ＧＥヘルスケア社製）を反応させ、蛍光標識を行った。反応後、ＳｅｐｈａｄｅｘＧ−２５カラム（ＧＥヘルスケア社製）を用いて反応液から未反応の蛍光標識試薬を除去した。

（蛍光ラベル化タンパク質とレクチンマイクロアレイとの反応）
レクチンマイクロアレイとしてＬｅｃＣｈｉｐレクチンアレイ（ＧＰバイオサイエンス社製）を用いた。当該レクチンマイクロアレイには４５種類のレクチンが固定化されている。蛍光ラベル化タンパク質を最終濃度０．５μｇ／ｍＬ又は０．２５μｇ／ｍＬになるよう、１％ＴｒｉｔｏｎＸ−１００、０．５ＭＧｌｙｃｉｎｅ、１ｍＭＣａＣｌ_２、１ｍＭＭｎＣｌ_２を含むＴＢＳで調製し、レクチンマイクロアレイ上に載せ、４℃で一晩反応させた。これによりサンプル中の蛍光標識糖タンパク質は、それぞれが有する糖とレクチンの特異性に応じて結合する。

（レクチンマイクロアレイの測定）
反応液を取り除き、１％ＴｒｉｔｏｎＸ−１００含有ＴＢＳで洗浄した後、エバネッセント場励起型スキャナー（ＧｌｙｃｏＳｔａｔｉｏｎＲｅａｄｅｒ、ＧＰバイオサイエンス社製）でレクチンマイクロアレイの蛍光を測定した。

（データ前処理）
データの前処理には、ＧｌｙｃｏＳｔａｔｉｏｎＴｏｏｌｓＰｒｏ（ＧＰバイオサイエンス社製）を使用した。各レクチンの測定値に対してバックグラウンド補正及びノーマライゼーション補正を行ってシグナル値を算出した。体細胞、ＥＳ細胞、ｉＰＳ細胞及びＥＣ細胞の合計１０６検体について、有効なプローブ数が４５個であるシグナル値が得られた。

（線形分類モデルの構築）
フレームワークとして、Ｊｕｂａｔｕｓを用いた。使用したアルゴリズムはＣｌａｓｓｉｆｉｅｒＡＲＯＷである。１０６検体のうち、６６検体（ＥＳ細胞６検体、ｉＰＳ細胞２５検体、ＥＣ細胞１０検体、体細胞２５検体）を学習用検体とした。各学習用検体のレクチンデータ（４５個のプローブのシグナル値）及び対応する学習用検体の細胞の種類を示すラベルを、それぞれ説明変数及び目的変数のセットとして学習用データとした。

（最適線形分類モデルの選択）
２０個の線形分類モデルに対し、６６個の学習用データのレクチンデータのみを入力し、細胞の種類を判定した。２０個の線形分類モデルの中で正答率が最も高い１００％で、かつ、最も学習回数の少ない５０エポックで得られた線形分類モデルを最適線形分類モデルとして選択した。

（最適線形分類モデルの検定）
テストデータとして、テスト検体である４０検体（ＥＳ細胞５検体、ｉＰＳ細胞１５検体、ＥＣ細胞５検体、体細胞１５検体）のレクチンデータを用いた。この４０検体は、１０６検体のうち、学習用データとして用いた６６検体を除いたものである。最適線形分類モデルに対して各テスト検体のレクチンデータを入力し、最適線形分類モデルによってテスト検体の細胞の種類を判定した。

（結果）
表７にレクチンデータから構築した最適線形分類モデルによる細胞の種類の判定結果を示す。ＥＳ細胞を除くｉＰＳ細胞、ＥＣ細胞及び体細胞に関してはすべて正しく判定できた。ＥＳ細胞でも８０％の正答率が得られた。

実施例６：ＤＮＡメチル化データを利用した線形回帰モデルによる神経幹細胞への分化誘導効率の予測
（ｉＰＳ細胞の作製）
上記実施例１で樹立したＥｐｉｓｏｍａｌ−Ｅｄｏｍ−ｉＰＳ細胞の３細胞株、Ｒｅｔｒｏ−Ｅｄｏｍ−ｉＰＳ細胞の１細胞株、Ｒｅｔｒｏ−ＭＲＣ−ｉＰＳ細胞の１細胞株及びＲｅｔｒｏ−ＵｔＥ−ｉＰＳ細胞の１細胞株に加え、次のようにＲＮＡ法で作製したｉＰＳ細胞を本実施例で使用した。

体細胞ＭＲＣ−５、ＤＦＭ１、ＤＦＭ２、ＤＦＭＦ１及びＩＭＲからｉＰＳ細胞を作製した。ＤＦＭ１、ＤＦＭ２、ＤＦＭＦ１及びＩＭＲの培養液には、１０％ＦＢＳ、５５μＭ２−メルカプトエタノール、１％ペニシリン及びストレプトマイシン、１％非必須アミノ酸を含むＭＥＭ（ＭｉｎｉｍｕｍＥｓｓｅｎｔｉａｌＭｅｄｉａ）を用いた。ＳｔｅｍｇｅｎｔＳｔｅｍＲＮＡ−ＮＭＲｅｐｒｏｇｒａｍｍｉｎｇＫｉｔ（リプロセル社製）をマニュアルに従って用いて、ＭＲＣ−５、ＤＦＭ１、ＤＦＭ２、ＤＦＭＦ１及びＩＭＲからそれぞれＲＮＡ−ＭＲＣ−ｉＰＳ細胞、ＲＮＡ−ＤＦＭ１−ｉＰＳ細胞、ＲＮＡ−ＤＦＭ２−ｉＰＳ細胞、ＲＮＡ−ＤＦＭＦ１−ｉＰＳ細胞及びＲＮＡ−ＩＭＲ−ｉＰＳ細胞を樹立した。樹立したＲＮＡ−ＭＲＣ−ｉＰＳ細胞は３細胞株、ＲＮＡ−ＤＦＭ１−ｉＰＳ細胞は１細胞株、ＲＮＡ−ＤＦＭ２−ｉＰＳ細胞は２細胞株、ＲＮＡ−ＤＦＭＦ１−ｉＰＳ細胞は３細胞株、ＲＮＡ−ＩＭＲ−ｉＰＳ細胞は３細胞株である。これらｉＰＳ細胞の培養方法は、上記実施例１と同様である。

（線形回帰モデルの構築）
上記の１８細胞株の未分化状態のｉＰＳ細胞について、実施例１と同様にゲノムＤＮＡを抽出し、抽出したゲノムＤＮＡに対してバイサルファイト処理を行った。ＨｕｍａｎＭｅｔｈｙｌａｔｉｏｎ４５０ＢｅａｄＣｈｉｐに代えて約８７０，０００箇所のＣｐＧ部位のメチル化を検出するプローブを搭載しているＨｕｍａｎＭｅｔｈｙｌａｔｉｏｎＥＰＩＣＢｅａｄＣｈｉｐ（Ｉｌｌｕｍｉｎａ社製）を用いる点を除いて、実施例１と同様にして各プローブのシグナルを検出した。各細胞に関して８６５，８５９個のプローブのＤＮＡメチル化データを取得した。

１０μＭＹ−２７６３２を添加したｉＰＳ培地において、検体としての上記１８細胞株のｉＰＳ細胞を、３７℃、５％ＣＯ_２下で２時間培養した後、ｉＰＳ細胞を細胞分散液（ＧｅｎｔｌｅＣｅｌｌＤｉｓｓｏｃｉａｔｉｏｎＲｅａｇｅｎｔ）にて分散し、セルストレーナー（４０μｍ）に通して回収した。回収したｉＰＳ細胞を、神経分化培地（ＳＴＥＭｄｉｆｆ（商標）ＮｅｕｒａｌＩｎｄｕｃｔｉｏｎＭｅｄｉｕｍ、１０μＭＳＢ４３１５４２及び１００ｎＭＬＤＮ１９３１８９）に懸濁し、Ｍａｔｒｉｇｅｌコート済みの６ウェルプレートに、１．０×１０^５細胞／ｃｍ^２となるように播種した。神経分化培地は毎日全量交換し、３７℃、５％ＣＯ_２下で７日間培養した。

７日間の分化誘導を終えた細胞に対し、抗ＰＡＸ６抗体で免疫染色を行った。抗ＰＡＸ６抗体で免疫染色後、フローサイトメーターで解析し、ＰＡＸ６陽性細胞を計数した。全細胞の個数に対するＰＡＸ６陽性細胞の個数の割合を神経幹細胞への分化誘導効率とした。１８検体のうち、１４検体を学習用検体とした。学習用検体１検体につき独立して３回の分化誘導を行い、３つの分化誘導効率の平均値を実測値として得た。

フレームワークとしては、Ｊｕｂａｔｕｓを用い、アルゴリズムとしてＲｅｇｒｅｓｓｉｏｎＡＲＯＷを使用した。各学習用検体のＤＮＡメチル化データ及び対応する学習用検体の分化誘導効率の実測値を、それぞれ説明変数及び目的変数のセットとした学習用データについて、実施例１と同様にエポックを繰り返し、５００エポックによって、最終的に５０個の線形回帰モデルを得た。

（最適線形回帰モデルの選択）
５０個の線形回帰モデルに対し、１４個の学習用データのＤＮＡメチル化データのみを入力し、分化誘導効率を予測した。５０個の線形回帰モデルの中で実測値から予測値を減じた数値の標準偏差が最も小さい、４８０エポックで得られた線形回帰モデルを最適線形回帰モデルとして選択した。

（最適線形回帰モデルの検定）
全１８検体のうち学習用データとして用いた１４検体を除いたテスト検体である４検体のｉＰＳ細胞（Ｅｐｉｓｏｍａｌ−Ｅｄｏｍ−ｉＰＳ細胞、Ｒｅｔｒｏ−Ｅｄｏｍ−ｉＰＳ細胞、ＲＮＡ−ＤＦＭＦ１−ｉＰＳ細胞及びＲＮＡ−ＩＭＲ−ｉＰＳ細胞）の上記ＤＮＡメチル化データを、テストデータとして用いた。最適線形回帰モデルに対し、各テスト検体のＤＮＡメチル化データを入力し、最適線形回帰モデルによってテスト検体の分化誘導効率を予測した。

（結果）
各テスト検体について分化誘導効率の予測値が得られた。テスト検体１検体に関して独立した３回の分化誘導における実際の分化誘導効率と、ＤＮＡメチル化データから構築した最適線形回帰モデルによって予測された分化誘導効率とを図４に示す。実際の分化誘導効率と予測された分化誘導効率との間に高い相関が認められた。

本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、本発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等な発明の意義の範囲内で施される様々な変形が、本発明の範囲内とみなされる。

本発明は、細胞の状態の判定又は予測に好適である。

１入力部
２判定部
３記憶部
４モデル構築部
５出力部
１００細胞判定装置

Claims

判定対象である細胞のＤＮＡメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データからなる群から選択される少なくとも１つを含むオミクスデータに基づく教師あり学習で構築されたモデルによって前記細胞の状態を判定する判定部を備える、
細胞判定装置。
学習用の細胞から取得される前記オミクスデータ及び該細胞の状態を示す情報をそれぞれ説明変数に対応する情報及び目的変数に対応する情報とした学習用データを用いて教師あり学習を実行することにより、前記モデルを構築するモデル構築部をさらに備える、
請求項１に記載の細胞判定装置。
前記判定部は、
前記判定対象である細胞の状態として、前記細胞が胚性幹細胞、人工多能性幹細胞、胚性がん細胞及び体細胞のいずれであるかを、前記オミクスデータに基づく教師あり学習で構築された線形分類モデルによって判定する、
請求項１又は２に記載の細胞判定装置。
前記判定部は、
前記判定対象である細胞の状態として、ｉＰＳ細胞の培養継代数又は未分化のｉＰＳ細胞の分化誘導効率を、前記ＤＮＡメチル化データに基づく教師あり学習で構築された線形回帰モデルによって判定する、
請求項１から３のいずれか一項に記載の細胞判定装置。
判定対象である細胞のＤＮＡメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データからなる群から選択される少なくとも１つを含むオミクスデータに基づく教師あり学習で構築されたモデルによって前記細胞の状態を判定する判定ステップを含む、
細胞判定方法。
コンピュータを、
判定対象である細胞のＤＮＡメチル化データ、遺伝子発現データ、ヒストン修飾データ及び糖鎖修飾データからなる群から選択される少なくとも１つを含むオミクスデータに基づく教師あり学習で構築されたモデルによって前記細胞の状態を判定する判定部として機能させる、
プログラム。