JP2017091277A - 細胞を分類可能な遺伝子の選出方法 - Google Patents

細胞を分類可能な遺伝子の選出方法 Download PDF

Info

Publication number
JP2017091277A
JP2017091277A JP2015221656A JP2015221656A JP2017091277A JP 2017091277 A JP2017091277 A JP 2017091277A JP 2015221656 A JP2015221656 A JP 2015221656A JP 2015221656 A JP2015221656 A JP 2015221656A JP 2017091277 A JP2017091277 A JP 2017091277A
Authority
JP
Japan
Prior art keywords
gene
distribution
principal component
cells
expression level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015221656A
Other languages
English (en)
Other versions
JP6788961B2 (ja
Inventor
法親 緒方
Norichika Ogata
法親 緒方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chitose Bio Evolution Pte Ltd
Original Assignee
Chitose Bio Evolution Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chitose Bio Evolution Pte Ltd filed Critical Chitose Bio Evolution Pte Ltd
Priority to JP2015221656A priority Critical patent/JP6788961B2/ja
Publication of JP2017091277A publication Critical patent/JP2017091277A/ja
Application granted granted Critical
Publication of JP6788961B2 publication Critical patent/JP6788961B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】個別細胞トランスクリプトームデータの分類を可能とする方法を提供する。【解決手段】複数の細胞のトランスクリプトームデータから,複数の遺伝子について複数の個別細胞の発現量分布を求める発現量分布算出工程と,前記複数の個別細胞の発現量分布が複数の分布の山を有するか判定する分布分析工程と,を含み,前記分布分析工程で複数の分布の山を有すると判定された遺伝子を,細胞を分類可能な遺伝子の初期候補として選出する,分類可能遺伝子初期候補選出工程とを含む,細胞を分類可能な遺伝子の選出方法。【選択図】図1

Description

本発明は,細胞を分類可能な遺伝子の選出方法に関する。
特開2012−39994号公報には,主成分算出方法及びトランスクリプトーム解析方法が開示されている。
特開2014−075995号公報には,トランスクリプトームを用いた発現変動遺伝子抽出又はパスウェイ解析にかける実験区の選定方法が開示されている。
上記のように,個別細胞トランスクリプトームデータを取得することができ,様々な用途に利用されている。これにより個別の細胞の特徴を解析することが容易になった。この場合,個別の細胞の特徴は,別の細胞間のトランスクリプトームデータを比較することによって識別されうることとなる。そのため,個々の細胞を識別するためには、比較対象となる細胞、又は個別の細胞間の比較による分類が必要である。個別細胞トランスクリプトームデータについて個別の細胞間の比較による分類を実施するために、これまで細胞周期、あるいはマーカー遺伝子によって定義される既知の分類に基づいて予め個別の細胞が分類され、それらの分類に基づいて個別細胞トランスクリプトームデータが分類されてきた。
しかしながら,例えば,チャイニーズハムスター卵巣由来樹立細胞系(CHO−K1)は,治療用タンパク質製造用樹立細胞であるが,非モデル生物であることから既知のマーカー遺伝子が少なく,予め個別の細胞の分類が困難であり,個別細胞トランスクリプトームデータの分類が不可能であった。
特開2012−39994号公報 特開2014−075995号公報
本発明は,個別細胞トランスクリプトームデータの分類を可能とする方法を提供することを目的とする。
本発明は,基本的には,複数の遺伝子についての発現量分布を求めて,分布を解析し,主成分分析を行うことで,対象となる細胞を分類するための候補を選出することにより,個別細胞のトランスクリプトームデータの分類が可能となるという知見に基づく。
この発明の第1の側面は,細胞を分類可能な遺伝子の選出方法に関する。
この方法は,発現量分布算出工程(S101)と,分布分析工程(S102)と,分類可能遺伝子初期候補選出工程(S103)とを含む。
発現量分布算出工程(S101)は,複数の細胞のトランスクリプトームデータから,複数の遺伝子について複数の個別細胞の発現量分布を求める工程である。
分布分析工程(S102)は,複数の個別細胞の発現量分布が複数の分布の山を有するか判定する工程である。
分類可能遺伝子初期候補選出工程(S103)は,分布分析工程で複数の分布の山を有すると判定された遺伝子を,細胞を分類可能な遺伝子の初期候補として選出する工程である。
この発明の第1の側面の好ましい態様は,分類可能遺伝子候補選出工程(S104)を更に含むものである。分類可能遺伝子候補選出工程(S104)は,細胞を分類可能な遺伝子の初期候補の定量的分類を行い,複数の分布の山に含まれる第1の山と第2の山とが定量的分類において分離可能か否か判定し,分離可能なものを,細胞を分類可能な遺伝子の候補として選出するものである。定量的分類は,主成分分析を含むものが好ましい。
この発明の第1の側面の好ましい態様は,複数の分布の山に含まれる第1の山と第2の山に含まれる細胞群をそれぞれ主成分1及び主成分2としたときに,主成分1及び主成分2のMAプロットにおいて,Aの所定値以上の位置において,主成分1及び主成分2を分離することができるか否か判定し,分離可能なものを,細胞を分類可能な遺伝子として選出する工程(S105)を含むものである。
本発明の第2の側面は,上記の方法を実現するコンピュータやプログラムに関する。
この選出装置は,コンピュータを含む細胞を分類可能な遺伝子の選出装置である。そして,コンピュータは,発現量分布算出手段11と,分布分析手段13と,分類可能遺伝子初期候補選出手段15とを含む。
発現量分布算出手段11は,複数の細胞のトランスクリプトームデータから,複数の遺伝子について複数の個別細胞の発現量分布を求めるための手段である。
分布分析手段13は,複数の個別細胞の発現量分布が複数の分布の山を有するか判定するための手段である。
分類可能遺伝子初期候補選出手段は,分布分析手段が複数の分布の山を有すると判定した遺伝子を,細胞を分類可能な遺伝子の初期候補として選出するための手段である。
この発明の第2の側面の好ましい態様は,細胞を分類可能な遺伝子の初期候補の定量的分類を行い,前記複数の分布の山に含まれる第1の山と第2の山とが前記定量的分類において分離可能か否か判定する手段17と,
前記第1の山と第2の山とが分離可能な場合は,前記遺伝子を細胞を分類可能な遺伝子の候補として選出する,分類可能遺伝子候補選出手段19を更に含むものである。
この発明の第2の側面の好ましい態様は,複数の分布の山に含まれる第1の山と第2の山に含まれる細胞群をそれぞれ主成分1及び主成分2としたときに,主成分1及び主成分2のMAプロットにおいて,主成分1及び主成分2を分離することができるか否か判定し,分離可能なものを,細胞を分類可能な遺伝子として選出する手段21を更に有するものである。
この発明の第2の側面の上記とは別の態様は,プログラムに関する。このプログラムは,コンピュータを,発現量分布算出手段11と,分布分析手段13と,分類可能遺伝子初期候補選出手段15を含むように機能させるものである。またこのプログラムは更に,上記したコンピュータのように機能させるものであってもよい。プログラムは通常CD−ROMなどの記録媒体に記憶されるか,インターネットによりダウンロード可能にされており,コンピュータにインストールされることで,各種手段や機能を実装できるようにされている。
本発明のよれば,個別細胞トランスクリプトームデータの分類を可能とする方法やそのための装置を提供できる。
図1は,細胞を分類可能な遺伝子の選出方法を行うための処理装置のブロック図である。 図2は,細胞を分類可能な遺伝子の選出方法の工程図である。 図3は,あるmRNA(エノラーゼ)の個別細胞での発現量分布を示すヒストグラムである。 図4は,主成分分析の結果を示す図面に替わるグラフである。 図5は,MAプロットを示す図面に替わるグラフである。
以下,図面を用いて本発明を実施するための形態について説明する。本発明は,以下に説明する形態に限定されるものではなく,以下の形態から当業者が自明な範囲で適宜修正したものも含む。図1は,細胞を分類可能な遺伝子の選出方法を行うための処理装置のブロック図であり,図2は,細胞を分類可能な遺伝子の選出方法の工程図である。
この発明の第1の側面は,細胞を分類可能な遺伝子の選出方法に関する。
この方法は,発現量分布算出工程と,分布分析工程と,分類可能遺伝子初期候補選出工程とを含む。
発現量分布算出工程は,複数の細胞のトランスクリプトームデータから,複数の遺伝子について複数の個別細胞の発現量分布を求める工程である。
分布分析工程は,複数の個別細胞の発現量分布が複数の分布の山を有するか判定する工程である。
分類可能遺伝子初期候補選出工程は,分布分析工程で複数の分布の山を有すると判定された遺伝子を,細胞を分類可能な遺伝子の初期候補として選出する工程である。
この発明の第1の側面の好ましい態様は,分類可能遺伝子候補選出工程を更に含むものである。細胞を分類可能な遺伝子の初期候補の定量的分類を行い,複数の分布の山に含まれる第1の山と第2の山とが定量的分類において分離可能か否か判定し,分離可能なものを,細胞を分類可能な遺伝子の候補として選出するものである。定量的分類は,主成分分析を含むものが好ましい。
この発明の第1の側面の好ましい態様は,複数の分布の山に含まれる第1の山と第2の山に含まれる細胞群をそれぞれ主成分1及び主成分2としたときに,主成分1及び主成分2のMAプロットにおいて,Aの所定値以上の位置において,主成分1及び主成分2を分離することができるか否か判定し,分離可能なものを,細胞を分類可能な遺伝子として選出するものである。
上記の遺伝子の選出方法は,ヒトが手計算を行って求めても良いし,コンピュータを用いて自動的に行っても良い。すなわち,本発明は,上記した方法を実行するためのコンピュータや,コンピュータを上記した方法を実現するようにするためのプログラム,及びそのようなプログラムを記憶したコンピュータが読み取り可能な情報記録媒体をも提供する。
本発明の第2の側面は,コンピュータを含む細胞を分類可能な遺伝子の選出装置に関する。そして,コンピュータは,発現量分布算出手段(11)と,分布分析手段(13)と,分類可能遺伝子初期候補選出手段(15)を含む。このコンピュータは,入出力部,記憶部,制御部,及び演算部が存在し,情報の授受を行うことができるように各要素が接続されている。そして,制御部は,記憶部に記憶した制御プログラムからの指令を受け,記憶部に記憶された各種情報を読み出して,演算部に所定の演算を行わせ,演算結果を記憶部に記憶し,適宜入出力部から出力する。
発現量分布算出手段(11)は,複数の細胞のトランスクリプトームデータから,複数の遺伝子について複数の個別細胞の発現量分布を求めるための手段である。分布分析手段(13)は,複数の個別細胞の発現量分布が複数の分布の山を有するか判定するための手段である。分類可能遺伝子初期候補選出手段(15)は,分布分析手段が複数の分布の山を有すると判定した遺伝子を,細胞を分類可能な遺伝子の初期候補として選出するための手段である。
このコンピュータは,定量的分類において分離可能か否か判定する手段(17)と,分類可能遺伝子候補選出手段(19)を更に含むものが好ましい。定量的分類において分離可能か否か判定する手段は,細胞を分類可能な遺伝子の初期候補の定量的分類を行い,複数の分布の山に含まれる第1の山と第2の山とが定量的分類において分離可能か否か判定するための手段である。
分類可能遺伝子候補選出手段は,第1の山と第2の山とが分離可能な場合に,その遺伝子を,細胞を分類可能な遺伝子の候補として選出するための手段である。
このコンピュータは,細胞を分類可能な遺伝子として選出する手段(21)を更に有するものが好ましい。細胞を分類可能な遺伝子として選出する手段を更に有するは,複数の分布の山に含まれる第1の山と第2の山に含まれる細胞群をそれぞれ主成分1及び主成分2としたときに,主成分1及び主成分2のMAプロットにおいて,主成分1及び主成分2を分離することができるか否か判定し,分離可能なものを,細胞を分類可能な遺伝子として選出するための手段である。
以下,上記のコンピュータを用いた例を用いて,細胞を分類可能な遺伝子の選出方法を説明する。このコンピュータは,記録媒体に記憶された制御プログラム又はインターネットからダウンロードすることにより入手可能な制御プログラムをインストールしたものであることが好ましい。この制御プログラムは,コンピュータに細胞を分類可能な遺伝子の選出方法を実現するための各種手段を実装させるためのものである。記録媒体の例は,CD−ROM,DVD,USB,及びメモリーカードであり,プログラムを記憶することができる媒体であれば,どのようなものであっても構わない。
コンピュータは,その記憶部に複数の細胞のトランスクリプトームデータを記憶している。トランスクリプトームデータは,特定の状況下において細胞中に存在する全てのmRNA(又は一次転写産物)の総体を指す。トランスクリプトームは,特開2012−39994号公報(主成分算出方法及びトランスクリプトーム解析方法),特開2014−075995号公報(トランスクリプトームを用いた発現変動遺伝子抽出又はパスウェイ解析にかける実験区の選定方法),及び特許第5714326号(新規に進行中の心不全における個人のリスク評価のためのトランスクリプトームのバイオマーカー)に開示されているとおり,公知のデータである。また,このトランスクリプトームデータを用いた主成分解析などの解析技術についてもこれらの文献に開示されるとおり公知のものである。
入出力部から,実行指令を受けたコンピュータは,発現量分布算出手段(11)に,複数の細胞のトランスクリプトームデータから,複数の遺伝子について複数の個別細胞の発現量分布を求めさせる(S101)。この複数の遺伝子について複数の個別細胞の発現量分布を求める工程(S101)は,記憶部に記憶される対象個体の複数の細胞のトランスクリプトームデータを読み出して,複数の遺伝子について複数の個別細胞の発現量分布を求める演算を行うものである。演算の例として,横軸がRPM値とし,この階級幅を適宜設定できるようにしており,それらの階級幅に含まれる細胞の数を頻度として求めるようにするものがあげられる。これは,リード数の総数が100万になるように正規化するものである。このコンピュータは,RPM値による正規化を行うためのプログラムがインストールされていることが好ましい。そのようなプログラムの例は,公開ソフトウェアであるRを用いたプログラムである。このようにして発現変動遺伝子を検出する(後述する図3を参照。)。
分布分析手段(13)により分布分析工程(S102)が行われる。分布分析手段(13)は,複数の個別細胞の発現量分布が複数の分布の山を有するか判定するための手段である。分布分析手段(13)の例は,個別遺伝子の細胞での発現分布を示すヒストグラムにおいて,分布の山が存在するか否かを,複数の遺伝子について分析するものである。分布分析手段(13)の別の例は,記憶部から各階級における頻度を読み出し,次の階級の頻度と比較することで,頻度が増加又は減少していることを求め,増加又は減少が所定値以上(たとえば,2階級以上,又は3階級以上)続いている場合に,分布の連続増加又は連続減少があったと解析するものである。そして,連続増加から連続減少があった場合に,山があり,連続減少から連続増加があった場合に谷があったと判断する。この場合,山には,仮想的な峰が存在することとなる。この峰(従って山)が2つ以上ある場合に,複数の個別細胞の発現量分布が複数の分布の山を有すると判断される。分布分析手段(13)は,発現分布の変曲点を求めて,それにより峰の数を求めるものであっても良い。
ある遺伝子について,発現量分布が複数の分布の山を有する場合は,個別細胞のトランスクリプトームデータの分類が可能である可能性がある。
さらに好ましい例では,分類可能遺伝子初期候補選出手段(15)により分類可能遺伝子初期候補選出工程(S103)が行われる。分類可能遺伝子初期候補選出手段(15)は,分布分析手段が複数の分布の山を有すると判定した遺伝子を,細胞を分類可能な遺伝子の初期候補として選出するための手段である。分布分析手段(13)が,個別細胞の発現量分布が複数の分布の山を有すると判断した場合,分類可能遺伝子初期候補選出手段(15)は,その細胞を分類可能な遺伝子の初期候補として選出し,記憶部に記憶する。この情報は,インターフェイス,モニタ,プリンタといった出力部により,上記の遺伝子を,細胞を分類可能な遺伝子として出力してもよい。
さらに好ましい例では,分離可能性判定手段(17)と,分類可能遺伝子候補選出手段(19)により,分類可能遺伝子候補選出工程(S104)が行われる。
定量的分類において分離可能か否か判定する手段(17)が,細胞を分類可能な遺伝子の初期候補の定量的分類を行い,複数の分布の山に含まれる第1の山と第2の山とが定量的分類において分離可能か否か判定する。定量的分類の例は,主成分分析,回帰分析,及び因子分析である。これらは,たとえば,ソフトウェアRを用いることで容易に行うことができる。また,トランスクリプトームデータにおける主成分分析は公知であり,公知のプログラムを用いて主成分分析を行うことができる。トランスクリプトームデータにおける主成分分析の例は,たとえば,以下の文献に記載されている。
Jackson, J. Edward (1991), A User’s Guide to Principal Components (New York: John Wiley & Sons, Inc),
Shaw, Peter J. A. (2003), Multivariate Statistics for the Environmental Sciences (London: Hodder Arnold).
主成分分析では行列の次元をあらわす軸を新しく設定する。それらの新たな軸はそれぞれ直交している。また第一の軸は要素群の中心に添い,また第二の軸は第一の軸で表されなかった残渣の中心に沿う。こうすることで,それぞれの新しく設定された軸はオリジナルの行列よりも少ない次元でデータを効率よく近似することとなる。
このコンピュータは,複数の分布の山に含まれる第1の山と第2の山とが定量的分類において分離可能か否か判定するための閾値を記憶部に記憶していることが好ましい。主成分分析を行う場合は,主成分プロットにおいて,個別細胞の発現量分布のそれぞれの山に帰属した細胞が,分離できているか否か判定する。この場合,分離具合を示す閾値と,記憶部に記憶されている閾値とを比較することで,複数の分布の山に含まれる第1の山と第2の山に含まれる細胞が分離可能であると判断すればよい。この分類は,たとえば,第1の山に由来する細胞群(又はこれらのうち所定の割合が含まれる細胞群)と,第2の山に由来する細胞群(又はこれらのうち所定の割合が含まれる細胞群)による主成分分析の主成分プロットにおける領域面積を求めるとともに,これらの領域が重複している面積も求めて,重複部分の面積と,第1又は第2の領域の面積との比較の値を用いて,第1の山と第2の山とが定量的分類において分離可能か否か判定してもよい。
たとえば,分類可能遺伝子候補選出手段(19)が,第1の山と第2の山とが分離可能な場合に,その遺伝子を,細胞を分類可能な遺伝子の候補として選出する。このコンピュータは,上記のとおり,第1の山と第2の山とが定量的分類において分離可能である場合,上記の遺伝子を,細胞を分類可能な遺伝子として出力してもよい。
細胞を分類可能な遺伝子として選出する手段(21)により,分類可能遺伝子選出工程(S105)が行われる。細胞を分類可能な遺伝子として選出する手段(21)は,複数の分布の山に含まれる第1の山と第2の山に含まれる細胞群をそれぞれ主成分1及び主成分2としたときに,主成分1及び主成分2のMAプロットにおいて,主成分1及び主成分2を分離することができるか否か判定し,分離可能なものを,細胞を分類可能な遺伝子として選出する。MAプロットは,横軸を2群間の平均発現量,縦軸を2群間の発現量の比としてプロットした散布図である。MAプロットにおいて,主成分1及び主成分2が分離可能か否かは先に説明したと同様の方法を用いてもよい。MAプロット自体は公知でありたとえばソフトウェアRを用いても行うことができる。また,あらかじめ閾値を決めておき,ソフトウェアRを用いてその閾値とMAプロットに関する数値とを比較することで,主成分1及び主成分2が分離可能か否かを判定できる。
無血清浮遊順化させたCHO−K1細胞をT−25フラスコで撹拌培養した。ソニー製のSH800セルソーターを用いて,CHO−K1細胞を96穴プレートに単細胞分取した。それぞれの細胞を,0.4μLの培地に静置した。Quartz−seqのプロトコルに従って,シークエンシングライブラリを調製した。Illumina社製のNextSeq500を用いてシーケンシングを実施した。得られたリードを,Bowtieプログラムを用いて,RefSeqに登録されているCHO−K1細胞トランスクリプトームリファレンスにマップした(bowtie option:−l 75 −n 2)。Shellプログラムを用いて,各サンプルの全てのメッセンジャーRNAの相対発現量としてのトランスクリプトームデータを取得した。Rソフトウェアとstatsパッケージを用いて主成分分析を実施した。全てのメッセンジャーRNAについてRソフトウェアを用いてRPM(Reads per million mapped readsによる正規化)を算出した。全てのメッセンジャーRNAについて,個別細胞での発現量分布を描画した。全てのメッセンジャーRNAについての個別細胞での発現量分布を観察し,多峰性を持つメッセンジャーRNA情報を得た。
図3は,あるmRNA(エノラーゼ)の個別細胞での発現量分布を示すヒストグラムである。横軸はRPM値であり,縦軸は頻度(RPMの階級に含まれる細胞の数)を示す。図3において,階級の幅を自由に設定することができ,図3では170となっている。図3は,横軸の最小が300,最大が4200である。図3から,エノラーゼのRPMが1800未満である細胞群と,1800以上である細胞群とが存在することがわかる。
図3の示されるヒストグラムは,RPMが1800未満と1800以降において2つの山が存在する。このようなヒストグラムを,多峰性を持つメッセンジャーRNAの発現量とする。この例では,例えば,頻度の増加又は減少が所定階級以上(例えば2階級以上や3階級以上)続いた場合に,分布が増加傾向又は現象傾向にあると判断しても良い。そして,増加傾向及びそれに続く減少傾向が一つの山を構成し,いずれかに峰が存在する。また,減少傾向及びそれに続く増加傾向が谷を構成し,それに続く減少傾向があれば更なる峰が存在することとなる。
多峰性を持つメッセンジャーRNAの発現量に基づいて、個別細胞の分類を行なった。多峰性を持つメッセンジャーRNAの発現量に基づいて得られた個別細胞の分類に基づいて主成分分析の結果として得られた主成分1と主成分2からなるプロットに含まれる個別細胞のプロットを識別した。その結果を図4に示す。図3においてエノラーゼ遺伝子のRPMが1800未満の細胞群を細胞群Aとし,図3においてRPMが1800以上の細胞群を細胞群Bとするである。
図4は,実施例における主成分分析の結果を示す。横軸は主成分1の主成分スコアを示し,縦軸は主成分2の主成分スコアを示す。主成分分析により,細胞群Aと細胞群Bとが分類可能な候補と成りうることがわかる。なお,図4における各ポイントは,それぞれ1つの細胞に対応する。このように,多峰性を持つメッセンジャーRNAの発現量に基づいて得られた個別細胞の分類に基づいて主成分分析の結果として得られた主成分1と主成分2からなるプロットに含まれる個別細胞のプロットを識別し,主成分1と主成分2からなるプロットが2つ以上のクラスターに分類可能となる多峰性を持つメッセンジャーRNA情報として,エノラーゼを得た。
エノラーゼの発現量によって個別細胞が分類されていることを確かめるため,エノラーゼの発現量によって分類された個別細胞クラスター間(細胞群Aと細胞群B)で発現変動遺伝子解析を行なった。発現変動遺伝子解析にはRソフトウェアとTCCパッケージを用いた。統計処理により,False Discovery Rate5%以下のメッセンジャーRNAとして199個を得た。それら199個の遺伝子はMAプロットにおいて明確なクラスターを形成した(図5)。MAプロットは,2群間比較用のデータに対して,横軸を2群間の発現量の積の対数,縦軸を2群間の発現量の比の対数としてプロットした散布図である。MAプロットにおいては,1つの遺伝子が1つの点としてプロットされる。図5の例では,G1群及びG2群は,それぞれ細胞群A及び細胞群Bを表す。G1群及びG2群において変動のないものが縦軸の値が0の付近に現れる。G1群又はG2群のみで高く発現しているものが,縦軸の値が0から離れた位置に現れる。図5から以上より、CHO−K1細胞に含まれる小集団を検出した。
本発明は,バイオテクノロジーや医薬産業において利用されうる。
11 発現量分布算出手段
13 分布分析手段
15 分類可能遺伝子初期候補選出手段
17 分離可能か否か判定する手段
19 分類可能遺伝子候補選出手段
21 分類可能遺伝子選出手段

Claims (8)

  1. 複数の細胞のトランスクリプトームデータから,複数の遺伝子について複数の個別細胞の発現量分布を求める発現量分布算出工程と,
    前記複数の個別細胞の発現量分布が複数の分布の山を有するか判定する分布分析工程と,
    を含み,前記分布分析工程で複数の分布の山を有すると判定された遺伝子を,細胞を分類可能な遺伝子の初期候補として選出する,分類可能遺伝子初期候補選出工程とを含む,
    細胞を分類可能な遺伝子の選出方法。
  2. 請求項1に記載の方法であって,
    細胞を分類可能な遺伝子の初期候補の定量的分類を行い,前記複数の分布の山に含まれる第1の山と第2の山とが前記定量的分類において分離可能か否か判定し,分離可能なものを,細胞を分類可能な遺伝子の候補として選出する,分類可能遺伝子候補選出工程を更に含む,
    細胞を分類可能な遺伝子の選出方法。
  3. 請求項2に記載の方法であって,
    前記定量的分類は,主成分分析を含む,方法。
  4. 請求項1又は2に記載の方法であって,
    前記複数の分布の山に含まれる第1の山と第2の山に含まれる細胞群をそれぞれ主成分1及び主成分2としたときに,主成分1及び主成分2のMAプロットにおいて,Aの所定値以上の位置において,主成分1及び主成分2を分離することができるか否か判定し,分離可能なものを,細胞を分類可能な遺伝子として選出する,方法。
  5. コンピュータを含む細胞を分類可能な遺伝子の選出装置であって,
    前記コンピュータは,
    複数の細胞のトランスクリプトームデータから,複数の遺伝子について複数の個別細胞の発現量分布を求める発現量分布算出手段11と,
    前記複数の個別細胞の発現量分布が複数の分布の山を有するか判定する分布分析手段13と,
    前記分布分析手段が複数の分布の山を有すると判定した遺伝子を,細胞を分類可能な遺伝子の初期候補として選出する,分類可能遺伝子初期候補選出手段15を含む,
    装置。
  6. 請求項5に記載の装置であって,
    細胞を分類可能な遺伝子の初期候補の定量的分類を行い,前記複数の分布の山に含まれる第1の山と第2の山とが前記定量的分類において分離可能か否か判定する手段17と,
    前記第1の山と第2の山とが分離可能な場合は,前記遺伝子を細胞を分類可能な遺伝子の候補として選出する,分類可能遺伝子候補選出手段19を更に含む
    装置。
  7. 請求項5に記載の装置であって,
    前記複数の分布の山に含まれる第1の山と第2の山に含まれる細胞群をそれぞれ主成分1及び主成分2としたときに,主成分1及び主成分2のMAプロットにおいて,主成分1及び主成分2を分離することができるか否か判定し,分離可能なものを,細胞を分類可能な遺伝子として選出する手段21を更に有する装置。
  8. コンピュータを,
    複数の細胞のトランスクリプトームデータから,複数の遺伝子について複数の個別細胞の発現量分布を求める発現量分布算出手段11と,
    前記複数の個別細胞の発現量分布が複数の分布の山を有するか判定する分布分析手段13と,
    前記分布分析手段が複数の分布の山を有すると判定した遺伝子を,細胞を分類可能な遺伝子の初期候補として選出する,分類可能遺伝子初期候補選出手段15を含む,
    ように機能させるプログラム。

JP2015221656A 2015-11-11 2015-11-11 細胞を分類可能な遺伝子の選出方法 Active JP6788961B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015221656A JP6788961B2 (ja) 2015-11-11 2015-11-11 細胞を分類可能な遺伝子の選出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015221656A JP6788961B2 (ja) 2015-11-11 2015-11-11 細胞を分類可能な遺伝子の選出方法

Publications (2)

Publication Number Publication Date
JP2017091277A true JP2017091277A (ja) 2017-05-25
JP6788961B2 JP6788961B2 (ja) 2020-11-25

Family

ID=58770534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015221656A Active JP6788961B2 (ja) 2015-11-11 2015-11-11 細胞を分類可能な遺伝子の選出方法

Country Status (1)

Country Link
JP (1) JP6788961B2 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003028862A (ja) * 2001-07-12 2003-01-29 Pharma Design Inc Dnaマイクロアレイデータの補正方法
JP2006101733A (ja) * 2004-10-01 2006-04-20 Canon Inc 遺伝子の転写に起因するmRNA量の変動現象の確率論的モデル化手法と、該モデル化手法を利用し、生細胞群中におけるmRNA量を高い確度で推定する方法
JP2007140694A (ja) * 2005-11-15 2007-06-07 Nippon Steel Corp 製造プロセスにおける操業と品質の関連解析装置、方法、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
JP2007156721A (ja) * 2005-12-02 2007-06-21 Yamaguchi Univ 有効因子抽出システム
JP2012039994A (ja) * 2010-07-21 2012-03-01 Akita Prefectural Univ 主成分算出方法、トランスクリプトーム解析方法、遺伝子、老化判定方法、コンピュータプログラム、記憶媒体、及び解析装置
JP2014075995A (ja) * 2012-10-09 2014-05-01 Norichika Ogata トランスクリプトームを用いた、発現変動遺伝子抽出又はパスウェイ解析にかける実験区の選定方法
JP2015049681A (ja) * 2013-08-30 2015-03-16 Kddi株式会社 類似移動経路をとるユーザを検索する装置、プログラム及び方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003028862A (ja) * 2001-07-12 2003-01-29 Pharma Design Inc Dnaマイクロアレイデータの補正方法
JP2006101733A (ja) * 2004-10-01 2006-04-20 Canon Inc 遺伝子の転写に起因するmRNA量の変動現象の確率論的モデル化手法と、該モデル化手法を利用し、生細胞群中におけるmRNA量を高い確度で推定する方法
JP2007140694A (ja) * 2005-11-15 2007-06-07 Nippon Steel Corp 製造プロセスにおける操業と品質の関連解析装置、方法、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
JP2007156721A (ja) * 2005-12-02 2007-06-21 Yamaguchi Univ 有効因子抽出システム
JP2012039994A (ja) * 2010-07-21 2012-03-01 Akita Prefectural Univ 主成分算出方法、トランスクリプトーム解析方法、遺伝子、老化判定方法、コンピュータプログラム、記憶媒体、及び解析装置
JP2014075995A (ja) * 2012-10-09 2014-05-01 Norichika Ogata トランスクリプトームを用いた、発現変動遺伝子抽出又はパスウェイ解析にかける実験区の選定方法
JP2015049681A (ja) * 2013-08-30 2015-03-16 Kddi株式会社 類似移動経路をとるユーザを検索する装置、プログラム及び方法

Also Published As

Publication number Publication date
JP6788961B2 (ja) 2020-11-25

Similar Documents

Publication Publication Date Title
Dernoncourt et al. Analysis of feature selection stability on high dimension and small sample data
Cano et al. Automatic selection of molecular descriptors using random forest: Application to drug discovery
Gudyś et al. HuntMi: an efficient and taxon-specific approach in pre-miRNA identification
JP5454827B1 (ja) 文書評価装置、文書評価方法、及びプログラム
JP2008546046A (ja) マハラノビスの距離の遺伝的アルゴリズムの方法及びシステム
US8812503B2 (en) Information processing device, method and program
CN109891508A (zh) 单细胞类型检测方法、装置、设备和存储介质
JP2017004123A (ja) 判定装置、判定方法および判定プログラム
Famili et al. Evaluation and optimization of clustering in gene expression data analysis
Moussa et al. Locality sensitive imputation for single cell RNA-seq data
Lusa The class-imbalance problem for high-dimensional class prediction
CN107832584B (zh) 宏基因组的基因分析方法、装置、设备及存储介质
Zehnder et al. Predicting enhancers in mammalian genomes using supervised hidden Markov models
JP5873764B2 (ja) 欠陥画像の提示方法
CN106610977A (zh) 一种数据聚类方法和装置
JP2016031629A (ja) 特徴選択装置、特徴選択システム、特徴選択方法、および、特徴選択プログラム
Chuang et al. A two-stage feature selection method for gene expression data
KR102543757B1 (ko) 이종 플랫폼의 dna 메틸레이션 데이터를 이용한 암의 예후 예측용 바이오마커 발굴 방법 및 장치
WO2008007630A1 (fr) Méthode et appareil de recherche de protéine
KR100734430B1 (ko) 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법및 저장 매체
JP6788961B2 (ja) 細胞を分類可能な遺伝子の選出方法
CN115527610B (zh) 一种单细胞组学数据的聚类分析方法
WO2013075000A1 (en) Clustering copy-number values for segments of genomic data
Feng et al. Sequence repetitiveness quantification and de novo repeat detection by weighted k-mer coverage
Alexander et al. Capturing discrete latent structures: choose LDs over PCs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200205

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201027

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201102

R150 Certificate of patent or registration of utility model

Ref document number: 6788961

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250