JP6979280B2 - トランスクリプトームデータの解析方法 - Google Patents

トランスクリプトームデータの解析方法 Download PDF

Info

Publication number
JP6979280B2
JP6979280B2 JP2017078563A JP2017078563A JP6979280B2 JP 6979280 B2 JP6979280 B2 JP 6979280B2 JP 2017078563 A JP2017078563 A JP 2017078563A JP 2017078563 A JP2017078563 A JP 2017078563A JP 6979280 B2 JP6979280 B2 JP 6979280B2
Authority
JP
Japan
Prior art keywords
data
transcriptome
size
transcriptome data
binary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017078563A
Other languages
English (en)
Other versions
JP2018180867A (ja
Inventor
法親 緒方
Original Assignee
株式会社日本バイオデータ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日本バイオデータ filed Critical 株式会社日本バイオデータ
Priority to JP2017078563A priority Critical patent/JP6979280B2/ja
Publication of JP2018180867A publication Critical patent/JP2018180867A/ja
Application granted granted Critical
Publication of JP6979280B2 publication Critical patent/JP6979280B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

本発明は,生物学的な意義を分析するためのトランスクリプトームデータの解析方法に関する。
細胞は,環境の変化に応じて遺伝子発現を変化させる。環境の変化の大きさは,細胞の遺伝子発現の変化の大きさと関係がある。しかしながら,トランスクリプトームデータは数千を超える遺伝子発現量の測定結果に基づくため,トランスクリプトームの変化の大きさを測ることは困難であった。
例えば,特許5854346号公報には,トランスクリプトーム解析方法が記載されている。
トランスクリプトームデータの情報エントロピーを測定する方法は,トランスクリプトームデータをひとつの値で表現することを可能にし,また,主成分分析やt−SNEといった他のデータ次元削減手法と比べて得られる値の生物学上の意義が解釈しやすい利点があった。過去の事例では,トランスクリプトームの情報エントロピーを用いて細胞の脱分化の度合いを定量することができた他,細胞のヒステリシスを捉えることができた。情報エントロピーは下記の式で定義される。
Figure 0006979280
RNA−seq法に基づくトランスクリプトームデータは0カウントデータを含む。しかしながら,情報エントロピーの枠組みでは,0カウントデータはlog0が成立しないために扱うことができない。トランスクリプトームデータ中の0カウントデータは生物学上の意義を持つと考えられ,特に情報エントロピーでは類似したトランスクリプトームデータの分離がうまくいかない場合があった。
特許5854346号公報
本発明は,トランスクリプトームデータを用い簡易な方法により,対象への影響を解析できるトランスクリプトームデータの解析方法を提供することを目的とする。
本発明の好ましい利用方法は,トランスクリプトームデータのコルモゴロフ複雑性を推定することで,0カウントデータを含めたデータ次元削減手法を提供することを目的とする。
本発明は,基本的には,トランスクリプトームデータの各データサイズを統一したうえで,圧縮処理を施せば,対象への影響を容易に解析できるという実施例による知見に基づくものである。
本発明のトランスクリプトームデータの解析方法は,
サイズ統一工程(S1)と,圧縮工程(S2)と,サイズ測定工程(S3)を含む。
サイズ統一工程(S1)は,複数のトランスクリプトームデータに含まれる各データのサイズを統一する工程である。
圧縮工程(S2)は,サイズ統一工程を経た複数のトランスクリプトームデータを圧縮する工程である。
サイズ測定工程(S3)は,圧縮工程を経た複数のトランスクリプトームデータのファイルサイズを測定する工程である。
サイズ統一工程(S1)の例は,あらかじめ設定された桁数となるように,各データを2進法で表現する工程である。この例において好ましいものは,あらかじめ設定された桁数が,20〜22のいずれかの整数となるものである。
サイズ統一工程(S1)は,
複数のトランスクリプトームデータに含まれるデータの最大数を求める工程と,
最大数を2進法で表した場合の桁数を求める工程と,
最大数を2進法で表した場合の桁数となるように各データを2進法で表現する工程を含むものであってもよい。
圧縮工程(S2)の例は,zip方式,tar方式,gzip方式,LZH方式,bzip2方式,tbz方式,tar.xz方式,7−zip方式,rar方式,taz方式,SIT方式,GCA方式,CAB方式,SEA方式,HQX方式,BIN方式,IMG方式,SMI方式,CPT方式,compress(z) 方式,ARJ方式,または,cab方式により,サイズ統一工程を経た複数のトランスクリプトームデータを圧縮するものである。
複数のトランスクリプトームデータに含まれるトランスクリプトームデータは,それぞれテキスト形式,ワード形式,バイナリー形式,又はテーブルの行又は列データであってもよい。
ファイルサイズを測定する工程について,ファイルサイズは,通常プロパティをみると表示されるものである。すなわち,コンピュータは,通常ファイルサイズを自動的に測定している。この例では,コンピュータが,圧縮後の複数のトランスクリプトームデータのファイルサイズを測定すればよい。
本発明は,トランスクリプトームデータを用い,データの正規化(規格化),圧縮及びサイズ測定という簡易な方法により,対象への影響を解析できるトランスクリプトームデータの解析方法を提供できる。
本発明の好ましい態様は,トランスクリプトームデータのコルモゴロフ複雑性を推定することで,0カウントデータを含めたデータ次元削減手法を提供できる。
図1は,細胞に与えた薬剤の濃度と情報エントロピーを比較した図面に替るグラフである。 図2は,細胞に与えた薬剤の濃度とコルモゴロフ複雑性を比較した図面に替るグラフである。
以下,図面を用いて本発明を実施するための形態について説明する。本発明は,以下に説明する形態に限定されるものではなく,以下の形態から当業者が自明な範囲で適宜修正したものも含む。
本発明のトランスクリプトームデータの解析方法は,サイズ統一工程(S1)と,圧縮工程(S2)と,サイズ測定工程(S3)を含む。トランスクリプトームは,所定の条件における細胞内の総合的なmRNA(messenger RNA,transcripts)の発現量の状態等を示す。生物は,通常,同一個体内で同一の遺伝情報(ゲノム)を備えているものの,トランスクリプトームは,組織の細胞の差,分化状態,年齢,細胞外からの刺激等に対する応答により異なっている。トランスクリプトームに係る複数のmRNAの発現量は,例えば高速シークエンサー又はDNAアレイ(マイクロアレイ)を用いて測定できる。
本発明のトランスクリプトームデータの解析方法は,コンピュータを用いて行われることが好ましい。コンピュータは,入出力部,記憶部,制御部及び演算部を有し,各要素はバスなどで情報の授受を行うことができるようにされている。コンピュータは,記憶部に記憶された制御プログラムを読み出し,各種演算を行うようにされていればよい。また,コンピュータは,インターネットなどでサーバと接続され,サーバが各種データを記憶し,所定の演算を行ってもよい。
本発明は,コンピュータを用いたトランスクリプトームデータの解析方法であって,
そのコンピュータが,
複数のトランスクリプトームデータに含まれる各データのサイズを統一するサイズ統一工程と,
サイズ統一工程を経た複数のトランスクリプトームデータを圧縮する圧縮工程と,
圧縮工程を経た複数のトランスクリプトームデータのファイルサイズを測定する工程と,
を行うものであってもよい。
また,本発明は,複数のトランスクリプトームデータに含まれる各データのサイズを統一するサイズ統一手段と,
サイズ統一手段によりサイズが統一された複数のトランスクリプトームデータを圧縮する圧縮手段と,
圧縮手段により圧縮された複数のトランスクリプトームデータのファイルサイズを測定するサイズ測定手段と,
を有するコンピュータをも提供する。
また,本発明は,コンピュータを,複数のトランスクリプトームデータに含まれる各データのサイズを統一するサイズ統一手段と,
サイズ統一手段によりサイズが統一された複数のトランスクリプトームデータを圧縮する圧縮手段と,
圧縮手段により圧縮された複数のトランスクリプトームデータのファイルサイズを測定するサイズ測定手段と,
して機能させるためのプログラムや,そのプログラムを格納したコンピュータが読み取ることができる記録媒体をも提供する。
サイズ統一工程(S1)は,複数のトランスクリプトームデータに含まれる各データのサイズを統一する工程である。
サイズ統一工程(S1)の例は,あらかじめ設定された桁数となるように,各データを2進法で表現する工程である。この例において好ましいものは,あらかじめ設定された桁数が,20〜22のいずれかの整数となるものである。
サイズ統一工程(S1)は,
複数のトランスクリプトームデータに含まれるデータの最大数を求める工程と,
最大数を2進法で表した場合の桁数を求める工程と,
最大数を2進法で表した場合の桁数となるように各データを2進法で表現する工程を含むものであってもよい。
この場合,コンピュータの制御部は,記憶部からトランスクリプトームを読み出す。そして,制御部は,演算部に,読み出したトランスクリプトームに含まれる複数のトランスクリプトームデータのうち最大数を求める演算を行わせる。制御部は,求めた最大数を記憶部に記憶させる。制御部は,演算部に,求めた最大数を2進法で表現させ,その桁数を求める演算を行わせる。そして,制御部は,記憶部に最大数を2進法で表現した場合の桁数を記憶させる。なお,トランスクリプトームに含まれるトランスクリプトームデータがもともと2進法で表現されていれば,制御部が演算部にトランスクリプトームデータのうち最大桁数のものを求めさせるものであってもよい。次に,制御部は,演算部に対し,複数のトランスクリプトームデータを最大桁数で表現させ,それを記憶部に記憶させる。トランスクリプトームデータを最大桁数で表現させるためには,存在しない桁の部分に0を置けばよい。
次に,サイズ統一工程(S1)を,例を用いて説明する。
対照試料,試料A,試料B,試料Cを対象に投与した場合の,複数のmRNA(遺伝子1〜と表記)の発現量を求めてトランスクリプトームデータとする。求めたトランスクリプトームデータは,記憶部に記憶され,以下の表1のような状態で表示部に表示される(実際は桁数がもっと大きくてもよい)。表1は,トランスクリプトームデータの表示例である。
Figure 0006979280
各トランスクリプトームデータは10進法で表示されている。これを2進法で表示すると以下のようになる。表2は,トランスクリプトームデータの各データを2進法で表示したものである。
Figure 0006979280
各トランスクリプトームデータを2進法で表した場合,桁数が異なるので,各トランスクリプトームデータのデータサイズがばらばらである。なお,記憶部において記憶されたウ各トランスクリプトームデータはもともと2進法のデータとして記憶されている場合が多い。記憶部に10進法により記憶されている場合は,制御部は記憶部からデータを読み出し,演算部に各データを2進法で表現された形式に変換する演算を行わせ,演算結果を記憶部に記憶すればよい。一方,単に各データが2進法で表現されている場合,桁数が大きいデータの方がデータサイズが大きくなる。そこで,制御部は,記憶部から2進法で表現された各トランスクリプトームデータを読み出して,演算部に桁数の統一演算を行わせ,適宜記憶部に記憶する。桁数を統一したトランスクリプトームデータの例は,以下の表3のとおりである。つまり存在しない桁部分には0を置く演算を行えばよい。
Figure 0006979280
上記の例では,トランスクリプトームデータの各データが,5ケタにそろえられ,5ビットにデータサイズが統一されている。
ある数列のコルモゴロフ複雑性は,その数列を示すことができる最小のプログラムの複雑性として定義される。本当に最小のプログラムは未知なので,正しく計算することができない関数である。そこで実際にコルモゴロフ複雑性を評価する場合には,その数列を保存した電子ファイルを圧縮して圧縮したときのファイルサイズを評価することが考えられる。例えば,扱う対象のデータが(0,0,0,0,0,1,2,3)であった場合,先に説明した情報エントロピーではlog(0)が成立しないので(1,2,3)の情報エントロピーを求めることになり,これでは0カウントデータが無視される。
一方,0という記述はテキストデータ上で0バイトではないので,0カウントデータも(0,0,0,0,0,1,2,3)を保存したファイルのデータサイズとして扱うことができることとなる。つまり,本発明によれば,0カウントデータも扱えるようになる。
圧縮工程(S2)は,サイズ統一工程を経た複数のトランスクリプトームデータを圧縮する工程である。
圧縮工程(S2)の例は,zip方式,tar方式,gzip方式,LZH方式,bzip2方式,tbz方式,tar.xz方式,7−zip方式,rar方式,taz方式,SIT方式,GCA方式,CAB方式,SEA方式,HQX方式,BIN方式,IMG方式,SMI方式,CPT方式,compress(z) 方式,ARJ方式,または,cab方式により,サイズ統一工程を経た複数のトランスクリプトームデータを圧縮するものである。
例えば,表3の状態の桁数を統一したトランスクリプトームデータは記憶部に記憶されている。制御部は,記憶部から桁数を統一したトランスクリプトームデータを読み出すとともに,記憶部から圧縮演算プログラムを読み出す。そして,制御部は,演算部に,読み出したデータを,圧縮演算プログラムの指令に基づいて圧縮演算を行うように指令を出す。演算部は,受け取ったデータに対して,圧縮演算を行う。このようにして,複数のトランスクリプトームデータを圧縮できる。この場合,例えば,対照試料,試料Aといった,項目ごとにファイルを作成し,ファイルごと圧縮処理を行うようにしてもよい。この場合,圧縮前の各ファイルは,遺伝子1,遺伝子2.....に関するデータサイズが統一されたデータを有することとなり,ファイルのデータサイズは同じである。圧縮された複数のトランスクリプトームデータは,記憶部に記憶される。
複数のトランスクリプトームデータに含まれるトランスクリプトームデータは,それぞれテキスト形式,ワード形式,バイナリー形式,又はテーブルの行又は列データであってもよい。
サイズ測定工程(S3)は,圧縮工程を経た複数のトランスクリプトームデータのファイルサイズを測定する工程である。ファイルサイズを測定する工程について,ファイルサイズは,通常プロパティをみると表示されるものである。すなわち,コンピュータは,通常ファイルサイズを自動的に測定している。この例では,コンピュータが,圧縮後の複数のトランスクリプトームデータのファイルサイズを測定すればよい。制御部は,記憶部に記憶された圧縮された複数のトランスクリプトームデータを読み出す。そして,制御部は,演算部に対し,項目ごと(対照試料,試料A,試料B...)に複数のトランスクリプトームデータのデータサイズを測定するよう指令を出す。すると,演算部は,項目ごとにデータサイズを測定し,記憶部に記憶する。また,項目ごとにファイル化され,記憶部に記憶されている場合は,制御部は各項目に応じたファイルを読み出し,演算部に各ファイルのファイルサイズを測定させる。そして,測定したファイルサイズを,項目ごとのデータサイズとして記憶部に記憶させる。このデータサイズは,項目ごとの特徴を反映している。例えば,ある試料を1mg投与した群,10mg投与した群,1mgを1日1回投与した群,1mgを1日3回投与した群,5mgを1日3回投与した群について,データサイズが得られれば,ある投与量及び投与頻度が最も適していることを容易に把握することができる。
トランスクリプトームシークエンスデータはDNA Data Bank of Japan (DDBJ)のShort Read Archive より取得した。プロジェクトIDはDRA002853であった。トランスクリプトームシークエンスデータは先行研究で示された通りに解析した。解析によって得たトランスクリプトームデータの例を表4に示す。
Figure 0006979280
トランスクリプトームのコルモゴロフ複雑性の定量にあたっては,UNIX環境とR 3.0.2 環境を用いた。まず,R環境下において,前述のトランスクリプトームデータを編集する。トランスクリプトームデータの名称を”for_R_count.txt”として,以下のコードにより処理した。
Figure 0006979280
UNIX環境下で,前述のデータを編集した。
Figure 0006979280
UNIX環境下で,前述のデータについて10進数で記述された値を22桁の2進数にコンバートした。
Figure 0006979280
上記の処理により,トランスクリプトームデータのファイルサイズの正規化が実施された。引き続いて,正規化後のトランスクリプトームデータを圧縮し,コルモゴロフ複雑性を定量する。
Figure 0006979280
出力を表8として示す。
Figure 0006979280
同一のトランスクリプトームデータセットより求めた情報エントロピーとコルモゴロフ複雑性の比較を図1及び図2に示す。図1は,細胞に与えた薬剤の濃度と情報エントロピーを比較したものであり,図2は,細胞に与えた薬剤の濃度とコルモゴロフ複雑性を比較したものである。図中の”o”は薬剤濃度が0である環境の細胞を用いた薬剤添加試験であるのに対し,図中の”+”は薬剤濃度が1.0mMであった環境の細胞を用いた薬剤除去試験である。図中,薬剤濃度が0.25mMである時,情報エントロピーを用いて描画した図1では”o”と”+”とが十分に分離されなかった一方で,情報エントロピーを用いて描画した図2では”o”と”+”とを分離することができた。
本発明は,情報解析産業や医薬産業において利用されうる。

Claims (6)

  1. コンピュータを用いたトランスクリプトームデータの解析方法であって,
    前記コンピュータが,複数のトランスクリプトームデータに含まれる各データを2進数に変換し,変換した2進数におけるビットデータの桁数をそろえることにより前記各データのサイズを統一するサイズ統一工程と,
    前記コンピュータが,前記サイズ統一工程を経た複数のトランスクリプトームデータを圧縮する圧縮工程と,
    前記コンピュータが,前記圧縮工程を経た複数のトランスクリプトームデータのファイルサイズを測定する工程と,
    を含む,トランスクリプトームデータの解析方法。
  2. 請求項1に記載の方法であって,
    前記サイズ統一工程は,あらかじめ設定された桁数となるように,前記各データを2進法で表現する工程である,方法。
  3. 請求項2に記載の方法であって,
    前記あらかじめ設定された桁数は,20〜22のいずれかの整数である,方法。
  4. 請求項1に記載の方法であって,
    前記サイズ統一工程は,
    前記コンピュータが,前記複数のトランスクリプトームデータに含まれるデータの最大数を求める工程と,
    前記コンピュータが,前記最大数を2進法で表した場合の桁数を求める工程と,
    前記コンピュータが,前記最大数を2進法で表した場合の桁数となるように前記各データを2進法で表現する工程を含む,方法。
  5. 請求項1に記載の方法であって,
    前記圧縮工程は,zip方式,tar方式,gzip方式,LZH方式,bzip2方式,tbz方式,tar.xz方式,7−zip方式,rar方式,taz方式,SIT方式,GCA方式,CAB方式,SEA方式,HQX方式,BIN方式,IMG方式,SMI方式,CPT方式,compress(z) 方式,ARJ方式,または,cab方式により,前記サイズ統一工程を経た複数のトランスクリプトームデータを圧縮する,方法。
  6. 請求項1に記載の方法であって,
    前記複数のトランスクリプトームデータに含まれるトランスクリプトームデータは,それぞれテキスト形式,ワード形式,バイナリー形式,又はテーブルの行又は列データである,方法。
JP2017078563A 2017-04-11 2017-04-11 トランスクリプトームデータの解析方法 Active JP6979280B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017078563A JP6979280B2 (ja) 2017-04-11 2017-04-11 トランスクリプトームデータの解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017078563A JP6979280B2 (ja) 2017-04-11 2017-04-11 トランスクリプトームデータの解析方法

Publications (2)

Publication Number Publication Date
JP2018180867A JP2018180867A (ja) 2018-11-15
JP6979280B2 true JP6979280B2 (ja) 2021-12-08

Family

ID=64275539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017078563A Active JP6979280B2 (ja) 2017-04-11 2017-04-11 トランスクリプトームデータの解析方法

Country Status (1)

Country Link
JP (1) JP6979280B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024034621A1 (ja) * 2022-08-08 2024-02-15 株式会社日本バイオデータ 対象生物を分析する方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153255A1 (en) * 2003-02-03 2004-08-05 Ahn Tae-Jin Apparatus and method for encoding DNA sequence, and computer readable medium
JP5854346B2 (ja) * 2010-07-21 2016-02-09 公立大学法人秋田県立大学 トランスクリプトーム解析方法、疾病判定方法、コンピュータプログラム、記憶媒体、及び解析装置
IL289974B (en) * 2013-10-04 2022-09-01 Sequenom Inc Methods and processes for non-invasive evaluation of genetic variations

Also Published As

Publication number Publication date
JP2018180867A (ja) 2018-11-15

Similar Documents

Publication Publication Date Title
Stuart et al. Single-cell chromatin state analysis with Signac
Lytal et al. Normalization methods on single-cell RNA-seq data: an empirical survey
Keegan et al. MG-RAST, a metagenomics service for analysis of microbial community structure and function
Förstner et al. READemption—a tool for the computational analysis of deep-sequencing–based transcriptome data
Karst et al. Mmgenome: a toolbox for reproducible genome extraction from metagenomes
Rohlfs et al. Modeling gene expression evolution with an extended Ornstein–Uhlenbeck process accounting for within-species variation
Cox et al. Integrating gene and protein expression data: pattern analysis and profile mining
JP6313757B2 (ja) 統合デュアルアンサンブルおよび一般化シミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
Dowton et al. A preliminary framework for DNA barcoding, incorporating the multispecies coalescent
Russel et al. DAtest: a framework for choosing differential abundance or expression method
CN113822440A (zh) 用于确定机器学习样本的特征重要性的方法及系统
CN110910982A (zh) 自编码模型训练方法、装置、设备及存储介质
CN107818824A (zh) 一种用于健康评估的健康模型构建方法及终端
US20210151128A1 (en) Learning Method, Mixing Ratio Prediction Method, and Prediction Device
Pratas et al. On the approximation of the Kolmogorov complexity for DNA sequences
Zhou et al. Classifying next-generation sequencing data using a zero-inflated Poisson model
CN104508670A (zh) 用于生成生物标志物签名的系统和方法
JP6979280B2 (ja) トランスクリプトームデータの解析方法
McGee et al. Compositional Data Analysis is necessary for simulating and analyzing RNA-Seq data
Charlebois et al. An algorithm for the stochastic simulation of gene expression and heterogeneous population dynamics
Marti et al. Aging causes changes in transcriptional noise across a diverse set of cell types
Alexander et al. Capturing discrete latent structures: choose LDs over PCs
JP6623774B2 (ja) パスウェイ解析プログラム、パスウェイ解析方法、及び、情報処理装置
Deorowicz et al. AGC: Compact representation of assembled genomes
CN110504006B (zh) 一种处理扩增子数据的方法、系统、平台及存储介质

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200407

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200407

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210430

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210922

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211115

R150 Certificate of patent or registration of utility model

Ref document number: 6979280

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150