JP2017091277A

JP2017091277A - 細胞を分類可能な遺伝子の選出方法

Info

Publication number: JP2017091277A
Application number: JP2015221656A
Authority: JP
Inventors: 法親緒方; Norichika Ogata
Original assignee: Chitose Bio Evolution Pte Ltd
Current assignee: Chitose Bio Evolution Pte Ltd
Priority date: 2015-11-11
Filing date: 2015-11-11
Publication date: 2017-05-25
Anticipated expiration: 2035-11-11
Also published as: JP6788961B2

Abstract

【課題】個別細胞トランスクリプトームデータの分類を可能とする方法を提供する。【解決手段】複数の細胞のトランスクリプトームデータから，複数の遺伝子について複数の個別細胞の発現量分布を求める発現量分布算出工程と，前記複数の個別細胞の発現量分布が複数の分布の山を有するか判定する分布分析工程と，を含み，前記分布分析工程で複数の分布の山を有すると判定された遺伝子を，細胞を分類可能な遺伝子の初期候補として選出する，分類可能遺伝子初期候補選出工程とを含む，細胞を分類可能な遺伝子の選出方法。【選択図】図１

Description

本発明は，細胞を分類可能な遺伝子の選出方法に関する。

特開２０１２−３９９９４号公報には，主成分算出方法及びトランスクリプトーム解析方法が開示されている。

特開２０１４−０７５９９５号公報には，トランスクリプトームを用いた発現変動遺伝子抽出又はパスウェイ解析にかける実験区の選定方法が開示されている。

上記のように，個別細胞トランスクリプトームデータを取得することができ，様々な用途に利用されている。これにより個別の細胞の特徴を解析することが容易になった。この場合，個別の細胞の特徴は，別の細胞間のトランスクリプトームデータを比較することによって識別されうることとなる。そのため，個々の細胞を識別するためには、比較対象となる細胞、又は個別の細胞間の比較による分類が必要である。個別細胞トランスクリプトームデータについて個別の細胞間の比較による分類を実施するために、これまで細胞周期、あるいはマーカー遺伝子によって定義される既知の分類に基づいて予め個別の細胞が分類され、それらの分類に基づいて個別細胞トランスクリプトームデータが分類されてきた。

しかしながら，例えば，チャイニーズハムスター卵巣由来樹立細胞系（ＣＨＯ−Ｋ１）は，治療用タンパク質製造用樹立細胞であるが，非モデル生物であることから既知のマーカー遺伝子が少なく，予め個別の細胞の分類が困難であり，個別細胞トランスクリプトームデータの分類が不可能であった。

特開２０１２−３９９９４号公報特開２０１４−０７５９９５号公報

本発明は，個別細胞トランスクリプトームデータの分類を可能とする方法を提供することを目的とする。

本発明は，基本的には，複数の遺伝子についての発現量分布を求めて，分布を解析し，主成分分析を行うことで，対象となる細胞を分類するための候補を選出することにより，個別細胞のトランスクリプトームデータの分類が可能となるという知見に基づく。

この発明の第１の側面は，細胞を分類可能な遺伝子の選出方法に関する。
この方法は，発現量分布算出工程（Ｓ１０１）と，分布分析工程（Ｓ１０２）と，分類可能遺伝子初期候補選出工程（Ｓ１０３）とを含む。
発現量分布算出工程（Ｓ１０１）は，複数の細胞のトランスクリプトームデータから，複数の遺伝子について複数の個別細胞の発現量分布を求める工程である。
分布分析工程（Ｓ１０２）は，複数の個別細胞の発現量分布が複数の分布の山を有するか判定する工程である。
分類可能遺伝子初期候補選出工程（Ｓ１０３）は，分布分析工程で複数の分布の山を有すると判定された遺伝子を，細胞を分類可能な遺伝子の初期候補として選出する工程である。

この発明の第１の側面の好ましい態様は，分類可能遺伝子候補選出工程（Ｓ１０４）を更に含むものである。分類可能遺伝子候補選出工程（Ｓ１０４）は，細胞を分類可能な遺伝子の初期候補の定量的分類を行い，複数の分布の山に含まれる第１の山と第２の山とが定量的分類において分離可能か否か判定し，分離可能なものを，細胞を分類可能な遺伝子の候補として選出するものである。定量的分類は，主成分分析を含むものが好ましい。

この発明の第１の側面の好ましい態様は，複数の分布の山に含まれる第１の山と第２の山に含まれる細胞群をそれぞれ主成分１及び主成分２としたときに，主成分１及び主成分２のＭＡプロットにおいて，Ａの所定値以上の位置において，主成分１及び主成分２を分離することができるか否か判定し，分離可能なものを，細胞を分類可能な遺伝子として選出する工程（Ｓ１０５）を含むものである。

本発明の第２の側面は，上記の方法を実現するコンピュータやプログラムに関する。
この選出装置は，コンピュータを含む細胞を分類可能な遺伝子の選出装置である。そして，コンピュータは，発現量分布算出手段１１と，分布分析手段１３と，分類可能遺伝子初期候補選出手段１５とを含む。
発現量分布算出手段１１は，複数の細胞のトランスクリプトームデータから，複数の遺伝子について複数の個別細胞の発現量分布を求めるための手段である。
分布分析手段１３は，複数の個別細胞の発現量分布が複数の分布の山を有するか判定するための手段である。
分類可能遺伝子初期候補選出手段は，分布分析手段が複数の分布の山を有すると判定した遺伝子を，細胞を分類可能な遺伝子の初期候補として選出するための手段である。

この発明の第２の側面の好ましい態様は，細胞を分類可能な遺伝子の初期候補の定量的分類を行い，前記複数の分布の山に含まれる第１の山と第２の山とが前記定量的分類において分離可能か否か判定する手段１７と，
前記第１の山と第２の山とが分離可能な場合は，前記遺伝子を細胞を分類可能な遺伝子の候補として選出する，分類可能遺伝子候補選出手段１９を更に含むものである。

この発明の第２の側面の好ましい態様は，複数の分布の山に含まれる第１の山と第２の山に含まれる細胞群をそれぞれ主成分１及び主成分２としたときに，主成分１及び主成分２のＭＡプロットにおいて，主成分１及び主成分２を分離することができるか否か判定し，分離可能なものを，細胞を分類可能な遺伝子として選出する手段２１を更に有するものである。

この発明の第２の側面の上記とは別の態様は，プログラムに関する。このプログラムは，コンピュータを，発現量分布算出手段１１と，分布分析手段１３と，分類可能遺伝子初期候補選出手段１５を含むように機能させるものである。またこのプログラムは更に，上記したコンピュータのように機能させるものであってもよい。プログラムは通常ＣＤ−ＲＯＭなどの記録媒体に記憶されるか，インターネットによりダウンロード可能にされており，コンピュータにインストールされることで，各種手段や機能を実装できるようにされている。

本発明のよれば，個別細胞トランスクリプトームデータの分類を可能とする方法やそのための装置を提供できる。

図１は，細胞を分類可能な遺伝子の選出方法を行うための処理装置のブロック図である。図２は，細胞を分類可能な遺伝子の選出方法の工程図である。図３は，あるｍＲＮＡ（エノラーゼ）の個別細胞での発現量分布を示すヒストグラムである。図４は，主成分分析の結果を示す図面に替わるグラフである。図５は，ＭＡプロットを示す図面に替わるグラフである。

以下，図面を用いて本発明を実施するための形態について説明する。本発明は，以下に説明する形態に限定されるものではなく，以下の形態から当業者が自明な範囲で適宜修正したものも含む。図１は，細胞を分類可能な遺伝子の選出方法を行うための処理装置のブロック図であり，図２は，細胞を分類可能な遺伝子の選出方法の工程図である。

この発明の第１の側面は，細胞を分類可能な遺伝子の選出方法に関する。
この方法は，発現量分布算出工程と，分布分析工程と，分類可能遺伝子初期候補選出工程とを含む。
発現量分布算出工程は，複数の細胞のトランスクリプトームデータから，複数の遺伝子について複数の個別細胞の発現量分布を求める工程である。
分布分析工程は，複数の個別細胞の発現量分布が複数の分布の山を有するか判定する工程である。
分類可能遺伝子初期候補選出工程は，分布分析工程で複数の分布の山を有すると判定された遺伝子を，細胞を分類可能な遺伝子の初期候補として選出する工程である。

この発明の第１の側面の好ましい態様は，分類可能遺伝子候補選出工程を更に含むものである。細胞を分類可能な遺伝子の初期候補の定量的分類を行い，複数の分布の山に含まれる第１の山と第２の山とが定量的分類において分離可能か否か判定し，分離可能なものを，細胞を分類可能な遺伝子の候補として選出するものである。定量的分類は，主成分分析を含むものが好ましい。

この発明の第１の側面の好ましい態様は，複数の分布の山に含まれる第１の山と第２の山に含まれる細胞群をそれぞれ主成分１及び主成分２としたときに，主成分１及び主成分２のＭＡプロットにおいて，Ａの所定値以上の位置において，主成分１及び主成分２を分離することができるか否か判定し，分離可能なものを，細胞を分類可能な遺伝子として選出するものである。

上記の遺伝子の選出方法は，ヒトが手計算を行って求めても良いし，コンピュータを用いて自動的に行っても良い。すなわち，本発明は，上記した方法を実行するためのコンピュータや，コンピュータを上記した方法を実現するようにするためのプログラム，及びそのようなプログラムを記憶したコンピュータが読み取り可能な情報記録媒体をも提供する。

本発明の第２の側面は，コンピュータを含む細胞を分類可能な遺伝子の選出装置に関する。そして，コンピュータは，発現量分布算出手段（１１）と，分布分析手段（１３）と，分類可能遺伝子初期候補選出手段（１５）を含む。このコンピュータは，入出力部，記憶部，制御部，及び演算部が存在し，情報の授受を行うことができるように各要素が接続されている。そして，制御部は，記憶部に記憶した制御プログラムからの指令を受け，記憶部に記憶された各種情報を読み出して，演算部に所定の演算を行わせ，演算結果を記憶部に記憶し，適宜入出力部から出力する。

発現量分布算出手段（１１）は，複数の細胞のトランスクリプトームデータから，複数の遺伝子について複数の個別細胞の発現量分布を求めるための手段である。分布分析手段（１３）は，複数の個別細胞の発現量分布が複数の分布の山を有するか判定するための手段である。分類可能遺伝子初期候補選出手段（１５）は，分布分析手段が複数の分布の山を有すると判定した遺伝子を，細胞を分類可能な遺伝子の初期候補として選出するための手段である。

このコンピュータは，定量的分類において分離可能か否か判定する手段（１７）と，分類可能遺伝子候補選出手段（１９）を更に含むものが好ましい。定量的分類において分離可能か否か判定する手段は，細胞を分類可能な遺伝子の初期候補の定量的分類を行い，複数の分布の山に含まれる第１の山と第２の山とが定量的分類において分離可能か否か判定するための手段である。
分類可能遺伝子候補選出手段は，第１の山と第２の山とが分離可能な場合に，その遺伝子を，細胞を分類可能な遺伝子の候補として選出するための手段である。

このコンピュータは，細胞を分類可能な遺伝子として選出する手段（２１）を更に有するものが好ましい。細胞を分類可能な遺伝子として選出する手段を更に有するは，複数の分布の山に含まれる第１の山と第２の山に含まれる細胞群をそれぞれ主成分１及び主成分２としたときに，主成分１及び主成分２のＭＡプロットにおいて，主成分１及び主成分２を分離することができるか否か判定し，分離可能なものを，細胞を分類可能な遺伝子として選出するための手段である。

以下，上記のコンピュータを用いた例を用いて，細胞を分類可能な遺伝子の選出方法を説明する。このコンピュータは，記録媒体に記憶された制御プログラム又はインターネットからダウンロードすることにより入手可能な制御プログラムをインストールしたものであることが好ましい。この制御プログラムは，コンピュータに細胞を分類可能な遺伝子の選出方法を実現するための各種手段を実装させるためのものである。記録媒体の例は，ＣＤ−ＲＯＭ，ＤＶＤ，ＵＳＢ，及びメモリーカードであり，プログラムを記憶することができる媒体であれば，どのようなものであっても構わない。

コンピュータは，その記憶部に複数の細胞のトランスクリプトームデータを記憶している。トランスクリプトームデータは，特定の状況下において細胞中に存在する全てのｍＲＮＡ（又は一次転写産物）の総体を指す。トランスクリプトームは，特開２０１２−３９９９４号公報（主成分算出方法及びトランスクリプトーム解析方法），特開２０１４−０７５９９５号公報（トランスクリプトームを用いた発現変動遺伝子抽出又はパスウェイ解析にかける実験区の選定方法），及び特許第５７１４３２６号（新規に進行中の心不全における個人のリスク評価のためのトランスクリプトームのバイオマーカー）に開示されているとおり，公知のデータである。また，このトランスクリプトームデータを用いた主成分解析などの解析技術についてもこれらの文献に開示されるとおり公知のものである。

入出力部から，実行指令を受けたコンピュータは，発現量分布算出手段（１１）に，複数の細胞のトランスクリプトームデータから，複数の遺伝子について複数の個別細胞の発現量分布を求めさせる（Ｓ１０１）。この複数の遺伝子について複数の個別細胞の発現量分布を求める工程（Ｓ１０１）は，記憶部に記憶される対象個体の複数の細胞のトランスクリプトームデータを読み出して，複数の遺伝子について複数の個別細胞の発現量分布を求める演算を行うものである。演算の例として，横軸がＲＰＭ値とし，この階級幅を適宜設定できるようにしており，それらの階級幅に含まれる細胞の数を頻度として求めるようにするものがあげられる。これは，リード数の総数が１００万になるように正規化するものである。このコンピュータは，ＲＰＭ値による正規化を行うためのプログラムがインストールされていることが好ましい。そのようなプログラムの例は，公開ソフトウェアであるＲを用いたプログラムである。このようにして発現変動遺伝子を検出する（後述する図３を参照。）。

分布分析手段（１３）により分布分析工程（Ｓ１０２）が行われる。分布分析手段（１３）は，複数の個別細胞の発現量分布が複数の分布の山を有するか判定するための手段である。分布分析手段（１３）の例は，個別遺伝子の細胞での発現分布を示すヒストグラムにおいて，分布の山が存在するか否かを，複数の遺伝子について分析するものである。分布分析手段（１３）の別の例は，記憶部から各階級における頻度を読み出し，次の階級の頻度と比較することで，頻度が増加又は減少していることを求め，増加又は減少が所定値以上（たとえば，２階級以上，又は３階級以上）続いている場合に，分布の連続増加又は連続減少があったと解析するものである。そして，連続増加から連続減少があった場合に，山があり，連続減少から連続増加があった場合に谷があったと判断する。この場合，山には，仮想的な峰が存在することとなる。この峰（従って山）が２つ以上ある場合に，複数の個別細胞の発現量分布が複数の分布の山を有すると判断される。分布分析手段（１３）は，発現分布の変曲点を求めて，それにより峰の数を求めるものであっても良い。

ある遺伝子について，発現量分布が複数の分布の山を有する場合は，個別細胞のトランスクリプトームデータの分類が可能である可能性がある。

さらに好ましい例では，分類可能遺伝子初期候補選出手段（１５）により分類可能遺伝子初期候補選出工程（Ｓ１０３）が行われる。分類可能遺伝子初期候補選出手段（１５）は，分布分析手段が複数の分布の山を有すると判定した遺伝子を，細胞を分類可能な遺伝子の初期候補として選出するための手段である。分布分析手段（１３）が，個別細胞の発現量分布が複数の分布の山を有すると判断した場合，分類可能遺伝子初期候補選出手段（１５）は，その細胞を分類可能な遺伝子の初期候補として選出し，記憶部に記憶する。この情報は，インターフェイス，モニタ，プリンタといった出力部により，上記の遺伝子を，細胞を分類可能な遺伝子として出力してもよい。

さらに好ましい例では，分離可能性判定手段（１７）と，分類可能遺伝子候補選出手段（１９）により，分類可能遺伝子候補選出工程（Ｓ１０４）が行われる。
定量的分類において分離可能か否か判定する手段（１７）が，細胞を分類可能な遺伝子の初期候補の定量的分類を行い，複数の分布の山に含まれる第１の山と第２の山とが定量的分類において分離可能か否か判定する。定量的分類の例は，主成分分析，回帰分析，及び因子分析である。これらは，たとえば，ソフトウェアＲを用いることで容易に行うことができる。また，トランスクリプトームデータにおける主成分分析は公知であり，公知のプログラムを用いて主成分分析を行うことができる。トランスクリプトームデータにおける主成分分析の例は，たとえば，以下の文献に記載されている。
Ｊａｃｋｓｏｎ，Ｊ．Ｅｄｗａｒｄ（１９９１），ＡＵｓｅｒ’ｓＧｕｉｄｅｔｏＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔｓ（ＮｅｗＹｏｒｋ：ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ），
Ｓｈａｗ，ＰｅｔｅｒＪ．Ａ．（２００３），ＭｕｌｔｉｖａｒｉａｔｅＳｔａｔｉｓｔｉｃｓｆｏｒｔｈｅＥｎｖｉｒｏｎｍｅｎｔａｌＳｃｉｅｎｃｅｓ（Ｌｏｎｄｏｎ：ＨｏｄｄｅｒＡｒｎｏｌｄ）．
主成分分析では行列の次元をあらわす軸を新しく設定する。それらの新たな軸はそれぞれ直交している。また第一の軸は要素群の中心に添い，また第二の軸は第一の軸で表されなかった残渣の中心に沿う。こうすることで，それぞれの新しく設定された軸はオリジナルの行列よりも少ない次元でデータを効率よく近似することとなる。

このコンピュータは，複数の分布の山に含まれる第１の山と第２の山とが定量的分類において分離可能か否か判定するための閾値を記憶部に記憶していることが好ましい。主成分分析を行う場合は，主成分プロットにおいて，個別細胞の発現量分布のそれぞれの山に帰属した細胞が，分離できているか否か判定する。この場合，分離具合を示す閾値と，記憶部に記憶されている閾値とを比較することで，複数の分布の山に含まれる第１の山と第２の山に含まれる細胞が分離可能であると判断すればよい。この分類は，たとえば，第１の山に由来する細胞群（又はこれらのうち所定の割合が含まれる細胞群）と，第２の山に由来する細胞群（又はこれらのうち所定の割合が含まれる細胞群）による主成分分析の主成分プロットにおける領域面積を求めるとともに，これらの領域が重複している面積も求めて，重複部分の面積と，第１又は第２の領域の面積との比較の値を用いて，第１の山と第２の山とが定量的分類において分離可能か否か判定してもよい。

たとえば，分類可能遺伝子候補選出手段（１９）が，第１の山と第２の山とが分離可能な場合に，その遺伝子を，細胞を分類可能な遺伝子の候補として選出する。このコンピュータは，上記のとおり，第１の山と第２の山とが定量的分類において分離可能である場合，上記の遺伝子を，細胞を分類可能な遺伝子として出力してもよい。

細胞を分類可能な遺伝子として選出する手段（２１）により，分類可能遺伝子選出工程（Ｓ１０５）が行われる。細胞を分類可能な遺伝子として選出する手段（２１）は，複数の分布の山に含まれる第１の山と第２の山に含まれる細胞群をそれぞれ主成分１及び主成分２としたときに，主成分１及び主成分２のＭＡプロットにおいて，主成分１及び主成分２を分離することができるか否か判定し，分離可能なものを，細胞を分類可能な遺伝子として選出する。ＭＡプロットは，横軸を２群間の平均発現量，縦軸を２群間の発現量の比としてプロットした散布図である。ＭＡプロットにおいて，主成分１及び主成分２が分離可能か否かは先に説明したと同様の方法を用いてもよい。ＭＡプロット自体は公知でありたとえばソフトウェアＲを用いても行うことができる。また，あらかじめ閾値を決めておき，ソフトウェアＲを用いてその閾値とＭＡプロットに関する数値とを比較することで，主成分１及び主成分２が分離可能か否かを判定できる。

無血清浮遊順化させたＣＨＯ−Ｋ１細胞をＴ−２５フラスコで撹拌培養した。ソニー製のＳＨ８００セルソーターを用いて，ＣＨＯ−Ｋ１細胞を９６穴プレートに単細胞分取した。それぞれの細胞を，０．４μＬの培地に静置した。Ｑｕａｒｔｚ−ｓｅｑのプロトコルに従って，シークエンシングライブラリを調製した。Ｉｌｌｕｍｉｎａ社製のＮｅｘｔＳｅｑ５００を用いてシーケンシングを実施した。得られたリードを，Ｂｏｗｔｉｅプログラムを用いて，ＲｅｆＳｅｑに登録されているＣＨＯ−Ｋ１細胞トランスクリプトームリファレンスにマップした（ｂｏｗｔｉｅｏｐｔｉｏｎ:−ｌ７５ −ｎ２）。Ｓｈｅｌｌプログラムを用いて，各サンプルの全てのメッセンジャーＲＮＡの相対発現量としてのトランスクリプトームデータを取得した。Ｒソフトウェアとｓｔａｔｓパッケージを用いて主成分分析を実施した。全てのメッセンジャーＲＮＡについてＲソフトウェアを用いてＲＰＭ（Ｒｅａｄｓｐｅｒｍｉｌｌｉｏｎｍａｐｐｅｄｒｅａｄｓによる正規化）を算出した。全てのメッセンジャーＲＮＡについて，個別細胞での発現量分布を描画した。全てのメッセンジャーＲＮＡについての個別細胞での発現量分布を観察し，多峰性を持つメッセンジャーＲＮＡ情報を得た。

図３は，あるｍＲＮＡ（エノラーゼ）の個別細胞での発現量分布を示すヒストグラムである。横軸はＲＰＭ値であり，縦軸は頻度（ＲＰＭの階級に含まれる細胞の数）を示す。図３において，階級の幅を自由に設定することができ，図３では１７０となっている。図３は，横軸の最小が３００，最大が４２００である。図３から，エノラーゼのＲＰＭが１８００未満である細胞群と，１８００以上である細胞群とが存在することがわかる。

図３の示されるヒストグラムは，ＲＰＭが１８００未満と１８００以降において２つの山が存在する。このようなヒストグラムを，多峰性を持つメッセンジャーＲＮＡの発現量とする。この例では，例えば，頻度の増加又は減少が所定階級以上（例えば２階級以上や３階級以上）続いた場合に，分布が増加傾向又は現象傾向にあると判断しても良い。そして，増加傾向及びそれに続く減少傾向が一つの山を構成し，いずれかに峰が存在する。また，減少傾向及びそれに続く増加傾向が谷を構成し，それに続く減少傾向があれば更なる峰が存在することとなる。

多峰性を持つメッセンジャーＲＮＡの発現量に基づいて、個別細胞の分類を行なった。多峰性を持つメッセンジャーＲＮＡの発現量に基づいて得られた個別細胞の分類に基づいて主成分分析の結果として得られた主成分１と主成分２からなるプロットに含まれる個別細胞のプロットを識別した。その結果を図４に示す。図３においてエノラーゼ遺伝子のＲＰＭが１８００未満の細胞群を細胞群Aとし，図３においてＲＰＭが１８００以上の細胞群を細胞群Bとするである。

図４は，実施例における主成分分析の結果を示す。横軸は主成分１の主成分スコアを示し，縦軸は主成分２の主成分スコアを示す。主成分分析により，細胞群Aと細胞群Bとが分類可能な候補と成りうることがわかる。なお，図４における各ポイントは，それぞれ１つの細胞に対応する。このように，多峰性を持つメッセンジャーＲＮＡの発現量に基づいて得られた個別細胞の分類に基づいて主成分分析の結果として得られた主成分１と主成分２からなるプロットに含まれる個別細胞のプロットを識別し，主成分１と主成分２からなるプロットが２つ以上のクラスターに分類可能となる多峰性を持つメッセンジャーＲＮＡ情報として，エノラーゼを得た。

エノラーゼの発現量によって個別細胞が分類されていることを確かめるため，エノラーゼの発現量によって分類された個別細胞クラスター間（細胞群Aと細胞群B）で発現変動遺伝子解析を行なった。発現変動遺伝子解析にはＲソフトウェアとＴＣＣパッケージを用いた。統計処理により，ＦａｌｓｅＤｉｓｃｏｖｅｒｙＲａｔｅ５%以下のメッセンジャーＲＮＡとして１９９個を得た。それら１９９個の遺伝子はＭＡプロットにおいて明確なクラスターを形成した（図５）。ＭＡプロットは，２群間比較用のデータに対して，横軸を２群間の発現量の積の対数，縦軸を２群間の発現量の比の対数としてプロットした散布図である。ＭＡプロットにおいては，１つの遺伝子が１つの点としてプロットされる。図５の例では，Ｇ１群及びＧ２群は，それぞれ細胞群A及び細胞群Bを表す。Ｇ１群及びＧ２群において変動のないものが縦軸の値が０の付近に現れる。Ｇ１群又はＧ２群のみで高く発現しているものが，縦軸の値が０から離れた位置に現れる。図５から以上より、ＣＨＯ−Ｋ１細胞に含まれる小集団を検出した。

本発明は，バイオテクノロジーや医薬産業において利用されうる。

１１発現量分布算出手段
１３分布分析手段
１５分類可能遺伝子初期候補選出手段
１７分離可能か否か判定する手段
１９分類可能遺伝子候補選出手段
２１分類可能遺伝子選出手段

Claims

複数の細胞のトランスクリプトームデータから，複数の遺伝子について複数の個別細胞の発現量分布を求める発現量分布算出工程と，
前記複数の個別細胞の発現量分布が複数の分布の山を有するか判定する分布分析工程と，
を含み，前記分布分析工程で複数の分布の山を有すると判定された遺伝子を，細胞を分類可能な遺伝子の初期候補として選出する，分類可能遺伝子初期候補選出工程とを含む，
細胞を分類可能な遺伝子の選出方法。
請求項１に記載の方法であって，
細胞を分類可能な遺伝子の初期候補の定量的分類を行い，前記複数の分布の山に含まれる第１の山と第２の山とが前記定量的分類において分離可能か否か判定し，分離可能なものを，細胞を分類可能な遺伝子の候補として選出する，分類可能遺伝子候補選出工程を更に含む，
細胞を分類可能な遺伝子の選出方法。
請求項２に記載の方法であって，
前記定量的分類は，主成分分析を含む，方法。
請求項１又は２に記載の方法であって，
前記複数の分布の山に含まれる第１の山と第２の山に含まれる細胞群をそれぞれ主成分１及び主成分２としたときに，主成分１及び主成分２のＭＡプロットにおいて，Ａの所定値以上の位置において，主成分１及び主成分２を分離することができるか否か判定し，分離可能なものを，細胞を分類可能な遺伝子として選出する，方法。
コンピュータを含む細胞を分類可能な遺伝子の選出装置であって，
前記コンピュータは，
複数の細胞のトランスクリプトームデータから，複数の遺伝子について複数の個別細胞の発現量分布を求める発現量分布算出手段１１と，
前記複数の個別細胞の発現量分布が複数の分布の山を有するか判定する分布分析手段１３と，
前記分布分析手段が複数の分布の山を有すると判定した遺伝子を，細胞を分類可能な遺伝子の初期候補として選出する，分類可能遺伝子初期候補選出手段１５を含む，
装置。
請求項５に記載の装置であって，
細胞を分類可能な遺伝子の初期候補の定量的分類を行い，前記複数の分布の山に含まれる第１の山と第２の山とが前記定量的分類において分離可能か否か判定する手段１７と，
前記第１の山と第２の山とが分離可能な場合は，前記遺伝子を細胞を分類可能な遺伝子の候補として選出する，分類可能遺伝子候補選出手段１９を更に含む
装置。
請求項５に記載の装置であって，
前記複数の分布の山に含まれる第１の山と第２の山に含まれる細胞群をそれぞれ主成分１及び主成分２としたときに，主成分１及び主成分２のＭＡプロットにおいて，主成分１及び主成分２を分離することができるか否か判定し，分離可能なものを，細胞を分類可能な遺伝子として選出する手段２１を更に有する装置。
コンピュータを，
複数の細胞のトランスクリプトームデータから，複数の遺伝子について複数の個別細胞の発現量分布を求める発現量分布算出手段１１と，
前記複数の個別細胞の発現量分布が複数の分布の山を有するか判定する分布分析手段１３と，
前記分布分析手段が複数の分布の山を有すると判定した遺伝子を，細胞を分類可能な遺伝子の初期候補として選出する，分類可能遺伝子初期候補選出手段１５を含む，
ように機能させるプログラム。