JP2017068521A - 新規転写産物抽出装置、及び新規転写産物抽出プログラム - Google Patents
新規転写産物抽出装置、及び新規転写産物抽出プログラム Download PDFInfo
- Publication number
- JP2017068521A JP2017068521A JP2015192288A JP2015192288A JP2017068521A JP 2017068521 A JP2017068521 A JP 2017068521A JP 2015192288 A JP2015192288 A JP 2015192288A JP 2015192288 A JP2015192288 A JP 2015192288A JP 2017068521 A JP2017068521 A JP 2017068521A
- Authority
- JP
- Japan
- Prior art keywords
- rna
- sequence
- alignment
- information
- base sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
【課題】新規転写産物を抽出する手間を低減する。
【解決手段】新規転写産物抽出装置は、判定対象のRNAの塩基配列がDNAの塩基配列にアライメントされた結果を示すアライメント結果情報を判定対象のRNAの塩基配列毎に取得する取得部と、DNAの塩基配列に含まれる塩基の数に対応する要素を有するアライメント配列に、アライメント結果情報が示すDNAの塩基配列上の位置に対応する位置の要素の値を、アライメント毎、かつ一塩基毎に更新する更新部と、更新部がアライメント配列を更新前と、更新後の要素の差を算出する算出部と、要素のうち、算出部が算出した差が生じる要素の位置に基づいて、アライメントされた位置を示す位置情報をに生成する生成部と、既知のRNAの塩基配列が予め複数登録されているRNA配列情報と、生成部が生成する位置情報とに基づいて、位置情報がRNA配列情報に含まれるか否かを判定する登録有無判定部とを備える。
【選択図】図10
【解決手段】新規転写産物抽出装置は、判定対象のRNAの塩基配列がDNAの塩基配列にアライメントされた結果を示すアライメント結果情報を判定対象のRNAの塩基配列毎に取得する取得部と、DNAの塩基配列に含まれる塩基の数に対応する要素を有するアライメント配列に、アライメント結果情報が示すDNAの塩基配列上の位置に対応する位置の要素の値を、アライメント毎、かつ一塩基毎に更新する更新部と、更新部がアライメント配列を更新前と、更新後の要素の差を算出する算出部と、要素のうち、算出部が算出した差が生じる要素の位置に基づいて、アライメントされた位置を示す位置情報をに生成する生成部と、既知のRNAの塩基配列が予め複数登録されているRNA配列情報と、生成部が生成する位置情報とに基づいて、位置情報がRNA配列情報に含まれるか否かを判定する登録有無判定部とを備える。
【選択図】図10
Description
本発明は、新規転写産物抽出装置、及び新規転写産物抽出プログラムに関する。
従来、DNAシーケンサーを用いてシーケンシングを行うことにより、生体サンプル内から既知のRNAの塩基配列を網羅的に解析し、データベースとして抽出する方法が知られている。
しかしながら、従来の方法では、生体サンプルに含まれる既知のRNAの塩基配列を抽出することができても、未知のRNAの塩基配列である新規転写産物を抽出することが困難であるという問題があった。本発明は上記の点に鑑みてなされたものであり、新規転写産物を抽出する手間を低減することができる新規転写産物抽出装置を提供する。
本発明の一実施形態は、判定対象のRNAの塩基配列がDNAの塩基配列にアライメントされた結果を示すアライメント結果情報を前記判定対象のRNAの塩基配列毎に取得する取得部と、前記DNAの塩基配列に含まれる塩基の数に対応する要素を有するアライメント配列に、アライメント結果情報が示すDNAの塩基配列上の位置に対応する位置の要素の値を、アライメント毎、かつ一塩基毎に更新する更新部と、前記更新部が前記アライメント配列を更新する前の前記要素の値と、更新した後の当該要素の値との差を算出する算出部と、前記要素のうち、前記算出部が算出した差が生じる要素のアライメント配列上の位置に基づいて、アライメントされた位置を示す位置情報をアライメント毎に生成する生成部と、既知のRNAの塩基配列が予め複数登録されているRNA配列情報と、前記生成部が生成する前記位置情報とに基づいて、前記位置情報によって示されるRNAの塩基配列が前記RNA配列情報に含まれるか否かを判定する登録有無判定部とを備えることを特徴とする新規転写産物抽出装置である。
また、本発明の一実施形態の新規転写産物抽出装置の前記登録有無判定部は、前記位置情報によって示されるRNAの塩基配列のうち、少なくとも一部が前記RNA配列情報に含まれない場合、前記位置情報によって示されるRNAの塩基配列が前記RNA配列情報に含まれないと判定し、前記登録有無判定部の判定結果に基づいて、前記位置情報によって示されるRNAの塩基配列の優先度を判定する優先度判定部を更に備え、前記優先度判定部が判定した優先度に基づいて、前記位置情報によって示されるRNAの塩基配列を出力する判定結果出力部を更に備える。
また、本発明の一実施形態の新規転写産物抽出装置の前記優先度判定部は、前記位置情報によって示されるRNAの塩基配列のうち、すべてが前記RNA配列情報に含まれない場合、前記優先度が高いと判定し、前記位置情報によって示されるRNAの塩基配列のうち、すべてが前記RNA配列情報に含まれる場合、前記優先度が低いと判定する。
また、本発明の一実施形態の新規転写産物抽出装置は、検体は複数のRNAの塩基配列を含み、検体に含まれる複数のRNAの塩基配列のアライメント結果が前記複数のRNAの塩基配列毎に蓄積されたRNA分布配列を前記検体毎に生成するRNA分布配列生成部を更に備える。
また、本発明の一実施形態は、コンピュータに、判定対象のRNAの塩基配列がDNAの塩基配列にアライメントされた結果を示すアライメント結果情報を前記判定対象のRNAの塩基配列毎に取得する取得ステップと、前記DNAの塩基配列に含まれる塩基の数に対応する要素を有するアライメント配列に、アライメント結果情報が示すDNAの塩基配列上の位置に対応する位置の要素の値を、アライメント毎、かつ一塩基毎に更新する更新ステップと、前記更新ステップが前記アライメント配列を更新する前の前記要素の値と、更新した後の当該要素の値との差を算出する算出ステップと、前記要素のうち、前記算出ステップが算出した差が生じる要素のアライメント配列上の位置に基づいて、アライメントされた位置を示す位置情報をアライメント毎に生成する生成ステップと、既知のRNAの塩基配列が予め複数登録されているRNA配列情報と、前記生成ステップが生成する前記位置情報とに基づいて、前記位置情報によって示されるRNAの塩基配列が前記RNA配列情報に含まれるか否かを判定する登録有無判定ステップとを実行させるための新規転写産物抽出プログラムである。
本発明によれば、新規転写産物を抽出する手間を低減することができる。
[新規転写産物について]
細胞内の核に存在するDNAには、生物の遺伝情報が含まれている。DNAは、糖とリン酸と塩基から構成されたヌクレオチドが、鎖状に連結されたポリマーである。DNAの塩基はATGCの4種類が知られており、これら塩基の組み合わせによって表された配列は、DNAの塩基配列と呼ばれる。
DNAからは、DNAの一部を鋳型として、DNAの塩基配列と相補的な塩基配列を有するRNAが合成される。この合成工程は転写と呼ばれ、転写されたRNAは転写産物と呼ばれる。ヒトゲノムは、約30億塩基対からなるといわれ、ヒトなどの生物では、ゲノムDNAの塩基配列が既に決定されている。ゲノムDNAのうち、どの箇所のDNAがRNAの鋳型となったのかは、シーケンサーを用いて判定対象のRNAの塩基配列を解読して決定した後に、RNAの塩基配列とDNAの塩基配列とを照らし合わせればよい。このような配列比較はアラインメントと呼ばれる。
なお、RNAの塩基配列を決定する際には、RNAが逆転写されたcDNAが合成されることがある。cDNAの塩基配列等の、判定対象のRNAの塩基配列に対応する核酸の塩基配列は、元の転写産物であるRNAの塩基配列として扱う。
細胞内の核に存在するDNAには、生物の遺伝情報が含まれている。DNAは、糖とリン酸と塩基から構成されたヌクレオチドが、鎖状に連結されたポリマーである。DNAの塩基はATGCの4種類が知られており、これら塩基の組み合わせによって表された配列は、DNAの塩基配列と呼ばれる。
DNAからは、DNAの一部を鋳型として、DNAの塩基配列と相補的な塩基配列を有するRNAが合成される。この合成工程は転写と呼ばれ、転写されたRNAは転写産物と呼ばれる。ヒトゲノムは、約30億塩基対からなるといわれ、ヒトなどの生物では、ゲノムDNAの塩基配列が既に決定されている。ゲノムDNAのうち、どの箇所のDNAがRNAの鋳型となったのかは、シーケンサーを用いて判定対象のRNAの塩基配列を解読して決定した後に、RNAの塩基配列とDNAの塩基配列とを照らし合わせればよい。このような配列比較はアラインメントと呼ばれる。
なお、RNAの塩基配列を決定する際には、RNAが逆転写されたcDNAが合成されることがある。cDNAの塩基配列等の、判定対象のRNAの塩基配列に対応する核酸の塩基配列は、元の転写産物であるRNAの塩基配列として扱う。
判定対象のRNAは、タンパク質に翻訳されるRNAと、タンパク質に翻訳されないRNAとの2種に分類できる。タンパク質に翻訳されるRNAとしてはmRNAである。タンパク質に翻訳されないRNAは、ノンコーディングRNAと呼ばれる。近年、ヒトゲノム中には、ノンコーディングRNAを発現する遺伝子が多数存在することが明らかとなった。細胞内で、どのような転写産物が、どのくらいの量で転写されて発現しているかは、遺伝子の機能を知るうえでも、重要な情報である。
近年、次世代シーケンサーの登場により、遺伝子発現解析にもシーケンサー及び解析ソフトが用いられている。また、次世代シーケンサー等を用いた解析によって既に解読された判定対象のRNAの配列情報は、既知のRNAの塩基配列として、データベースに登録されている。
従来の解析ソフトは、シーケンサーの解析結果と、データベースとに基づいて、mRNAの発現を解析することを目的としている場合があった。すなわち、従来の解析ソフトでは、予め発現が知られた判定対象のRNA以外の、新規判定対象のRNAである新規転写産物の発現解析をすることができない場合があった。
本発明の新規転写産物抽出装置1は、新規転写産物を解析する手間を低減することを目的とする。
以下、本発明の新規転写産物抽出装置1の実施形態について説明する。
近年、次世代シーケンサーの登場により、遺伝子発現解析にもシーケンサー及び解析ソフトが用いられている。また、次世代シーケンサー等を用いた解析によって既に解読された判定対象のRNAの配列情報は、既知のRNAの塩基配列として、データベースに登録されている。
従来の解析ソフトは、シーケンサーの解析結果と、データベースとに基づいて、mRNAの発現を解析することを目的としている場合があった。すなわち、従来の解析ソフトでは、予め発現が知られた判定対象のRNA以外の、新規判定対象のRNAである新規転写産物の発現解析をすることができない場合があった。
本発明の新規転写産物抽出装置1は、新規転写産物を解析する手間を低減することを目的とする。
以下、本発明の新規転写産物抽出装置1の実施形態について説明する。
[第1実施形態]
以下、図を参照して本発明の第1実施形態について説明する。図1は、第1実施形態における新規転写産物抽出装置1の一例を示す模式図である。図1に示す通り、新規転写産物抽出装置1は、制御部100と、記憶部300とを備える。記憶部300には、DNA塩基配列情報DIと、既知RNA配列情報KRIとが記憶される。
以下、図を参照して本発明の第1実施形態について説明する。図1は、第1実施形態における新規転写産物抽出装置1の一例を示す模式図である。図1に示す通り、新規転写産物抽出装置1は、制御部100と、記憶部300とを備える。記憶部300には、DNA塩基配列情報DIと、既知RNA配列情報KRIとが記憶される。
図2を参照してDNA塩基配列情報DIについて説明する。図2は、本実施形態におけるDNA塩基配列情報DIの一例を示す表である。図2に示す通り、DNA塩基配列情報DIには、DNAの塩基配列が示される。
図3を参照して既知RNA配列情報KRIについて説明する。図3は、本実施形態における既知RNA配列情報KRIの一例を示す模式図である。図3に示す通り、既知RNA配列情報KRIには、既知のRNAの塩基配列を示す既知RNA塩基配列KRAが複数含まれる。この一例では、既知RNA配列情報KRIに既知RNA塩基配列KRA1、既知RNA塩基配列KRA2、及び既知RNA塩基配列KRA3が含まれる場合について説明する。また、この一例では、既知RNA塩基配列KRA1とは、「ACCTGCGGAAGG」である。また、既知RNA塩基配列KRA2とは、「TTCCTAGCGAGC」である。また、既知RNA塩基配列KRA3とは、「CTCCCACCCGTG」である。既知RNA塩基配列KRAは、DNA塩基配列情報DIに示されるDNAの塩基配列の一部を鋳型として、DNAの塩基配列と相補的な塩基配列を有する。
以下、図4を参照して、既知RNA塩基配列KRAの具体例について説明する。図4は、本実施形態における既知RNA塩基配列KRAの一例を示す模式図である。図4に示す通り、既知RNA塩基配列KRAは、DNAの塩基配列の一部を鋳型とする転写産物である。
以下、図4を参照して、既知RNA塩基配列KRAの具体例について説明する。図4は、本実施形態における既知RNA塩基配列KRAの一例を示す模式図である。図4に示す通り、既知RNA塩基配列KRAは、DNAの塩基配列の一部を鋳型とする転写産物である。
図1に戻り、制御部100は、取得部110と、更新部120と、算出部130と、生成部140と、登録有無判定部150とをその機能部として備える。
を備える。
を備える。
取得部110は、次世代シーケンサーSQが検体SPに含まれる判定対象のRNAの塩基配列を抽出した結果であるアライメント結果情報ARIを取得する。この検体SPには判定対象のRNAの塩基配列が複数含まれる。取得部110は、次世代シーケンサーSQが検体SPに含まれる複数の判定対象のRNAを抽出する解析を行い、抽出した判定対象のRNAの塩基配列毎のアライメント結果情報ARIを取得する。
このアライメント結果情報ARIとは、判定対象のRNAの塩基配列がDNAの塩基配列にアライメントされた結果を示す情報である。この一例では、アライメント結果情報ARIには、開始要素番号BEと、終了要素番号TEとが含まれる。開始要素番号BEとは、DNAの塩基配列の先頭から末尾まで順に番号が付された場合、アライメントされた位置の先頭のDNAの塩基配列の要素番号である。また、終了要素番号TEとは、アライメントされた位置の最後尾のDNAの塩基配列の要素番号である。取得部110は、取得したアライメント結果情報ARIを更新部120へ供給する。以降の説明において、判定対象のRNAの塩基配列を単に判定対象のRNAとも記載する。
このアライメント結果情報ARIとは、判定対象のRNAの塩基配列がDNAの塩基配列にアライメントされた結果を示す情報である。この一例では、アライメント結果情報ARIには、開始要素番号BEと、終了要素番号TEとが含まれる。開始要素番号BEとは、DNAの塩基配列の先頭から末尾まで順に番号が付された場合、アライメントされた位置の先頭のDNAの塩基配列の要素番号である。また、終了要素番号TEとは、アライメントされた位置の最後尾のDNAの塩基配列の要素番号である。取得部110は、取得したアライメント結果情報ARIを更新部120へ供給する。以降の説明において、判定対象のRNAの塩基配列を単に判定対象のRNAとも記載する。
以下、図5を参照してアライメント結果情報ARIの詳細について説明する。図5は、本実施形態におけるアライメント結果情報ARIの一例を示す模式図である。
この一例では、次世代シーケンサーSQが抽出した判定対象のRNAの塩基配列が「CCGAG」である場合について説明する。図5に示す通り、DNAの塩基配列のうち、判定対象のRNAの塩基配列であるCCGAGがアライメントされる箇所は、DNAの塩基配列の先頭から末尾まで順に番号が付された場合、20番目から24番目である。すなわち、取得部110は、アライメント結果情報ARIのうち、開始要素番号BEとして20を次世代シーケンサーSQから取得する。また、取得部110は、アライメント結果情報ARIのうち終了要素番号TEとして24を次世代シーケンサーSQから取得する。
この一例では、次世代シーケンサーSQが抽出した判定対象のRNAの塩基配列が「CCGAG」である場合について説明する。図5に示す通り、DNAの塩基配列のうち、判定対象のRNAの塩基配列であるCCGAGがアライメントされる箇所は、DNAの塩基配列の先頭から末尾まで順に番号が付された場合、20番目から24番目である。すなわち、取得部110は、アライメント結果情報ARIのうち、開始要素番号BEとして20を次世代シーケンサーSQから取得する。また、取得部110は、アライメント結果情報ARIのうち終了要素番号TEとして24を次世代シーケンサーSQから取得する。
図1に戻り、更新部120は、取得部110からアライメント結果情報ARIを取得する。更新部120は、取得したアライメント結果情報ARIに基づいて、アライメント配列AAを更新する。アライメント配列AAとは、DNAの塩基配列に含まれる塩基と同数の要素Eを有する配列である。また、DNAの塩基配列の先頭から順に末尾まで番号を付した場合、この番号と、アライメント配列AAの要素Eの要素番号ENとは、対応付けられている。更新部120は、取得したアライメント結果情報ARIに含まれる開始要素番号BEと、終了要素番号TEとに基づいて、アライメント配列AAを更新する。具体的には、更新部120は、開始要素番号BEによって示されるアライメント配列AAの要素番号ENの要素Eから、終了要素番号TEによって示されるアライメント配列AAの要素番号ENの要素Eまでの要素Eの値Vを更新する。
以降、開始要素番号BEによって示されるアライメント配列AAの要素番号ENの要素Eから、終了要素番号TEによって示されるアライメント配列AAの要素番号ENの要素Eまでの要素Eを更新対象要素EARと記載する。
以降、開始要素番号BEによって示されるアライメント配列AAの要素番号ENの要素Eから、終了要素番号TEによって示されるアライメント配列AAの要素番号ENの要素Eまでの要素Eを更新対象要素EARと記載する。
以下、図6を参照して更新部120によるアライメント配列AAの更新の詳細について説明する。図6は、本実施形態における更新部120による更新結果の一例を示す模式図である。
図6に示す通り、この一例では、開始要素番号BEが20であって、終了要素番号TEが24である場合について説明する。この場合、更新対象要素EARは、要素番号EN20から要素番号EN24までの要素Eである。より具体的には、更新対象要素EARは、要素番号EN20、要素番号EN21、要素番号EN22、要素番号EN23、及び要素番号EN24の要素Eである。
更新部120は、更新対象要素EARによって示される要素Eの値Vを更新する。つまり、更新部120は、アライメント配列AAの要素番号EN20、要素番号EN21、要素番号EN22、要素番号EN23、及び要素番号EN24の要素Eの値Vを更新する。
以降の説明において、要素Eの値Vを単に値Vとも記載する。すなわち、更新部120は、アライメント配列AAの要素番号EN20の値Vと、要素番号EN21の値Vと、要素番号EN22の値Vと、要素番号EN23の値Vと、及び要素番号EN24の値Vとを更新する。
また、この一例では、更新部120は、更新対象要素EARの値Vに1を加えることにより、アライメント配列AAを更新する。これにより、更新部120は、アライメント配列AAをアライメント結果情報ARI毎、かつアライメント配列AAの要素Eが示す一塩基毎に更新する。更新部120は、更新したアライメント配列AAを算出部130へ供給する。
図6に示す通り、この一例では、開始要素番号BEが20であって、終了要素番号TEが24である場合について説明する。この場合、更新対象要素EARは、要素番号EN20から要素番号EN24までの要素Eである。より具体的には、更新対象要素EARは、要素番号EN20、要素番号EN21、要素番号EN22、要素番号EN23、及び要素番号EN24の要素Eである。
更新部120は、更新対象要素EARによって示される要素Eの値Vを更新する。つまり、更新部120は、アライメント配列AAの要素番号EN20、要素番号EN21、要素番号EN22、要素番号EN23、及び要素番号EN24の要素Eの値Vを更新する。
以降の説明において、要素Eの値Vを単に値Vとも記載する。すなわち、更新部120は、アライメント配列AAの要素番号EN20の値Vと、要素番号EN21の値Vと、要素番号EN22の値Vと、要素番号EN23の値Vと、及び要素番号EN24の値Vとを更新する。
また、この一例では、更新部120は、更新対象要素EARの値Vに1を加えることにより、アライメント配列AAを更新する。これにより、更新部120は、アライメント配列AAをアライメント結果情報ARI毎、かつアライメント配列AAの要素Eが示す一塩基毎に更新する。更新部120は、更新したアライメント配列AAを算出部130へ供給する。
図1に戻り、算出部130は、更新部120からアライメント配列AAを取得する。算出部130は、取得したアライメント配列AAと、更新前アライメント配列BAAとの差を算出する。更新前アライメント配列BAAとは、更新部120が更新する前のアライメント配列AAである。
以下、図7を参照して、算出部130の差の算出の詳細について説明する。図7は、本実施形態における算出部130の算出の一例を示す模式図である。図7は、アライメント配列AAに含まれる複数の要素Eのうち、要素番号EN19から要素番号EN26までの値Vを示す。また、図7には、更新前アライメント配列BAAに含まれる複数の要素Eのうち、要素番号EN19から要素番号EN26までの値Vを示す。
この一例では、更新部120が、アライメント結果情報ARIに基づいて、アライメント配列AAの要素番号EN20の値Vと、要素番号EN21の値Vと、要素番号EN22の値Vと、要素番号EN23の値Vと、要素番号EN24の値Vとをいずれも1に更新する。
また、図7に示す通り、この一例では、更新前アライメント配列BAAの要素番号EN19から要素番号EN26までの各値Vが、いずれも0である。
以下、図7を参照して、算出部130の差の算出の詳細について説明する。図7は、本実施形態における算出部130の算出の一例を示す模式図である。図7は、アライメント配列AAに含まれる複数の要素Eのうち、要素番号EN19から要素番号EN26までの値Vを示す。また、図7には、更新前アライメント配列BAAに含まれる複数の要素Eのうち、要素番号EN19から要素番号EN26までの値Vを示す。
この一例では、更新部120が、アライメント結果情報ARIに基づいて、アライメント配列AAの要素番号EN20の値Vと、要素番号EN21の値Vと、要素番号EN22の値Vと、要素番号EN23の値Vと、要素番号EN24の値Vとをいずれも1に更新する。
また、図7に示す通り、この一例では、更新前アライメント配列BAAの要素番号EN19から要素番号EN26までの各値Vが、いずれも0である。
算出部130は、アライメント配列AAと、更新前アライメント配列BAAとの差を算出する。具体的には、算出部130は、アライメント配列AAと、更新前アライメント配列BAAとのうち、同じ要素番号ENの値Vの差を算出する。
例えば、算出部130は、アライメント配列AAの要素番号EN1の値Vと、更新前アライメント配列BAAの要素番号EN1の値Vとの差を算出する。図7に示す通り、この一例の場合、算出部130の算出結果は、要素番号EN20から要素番号EN24までの値Vがいずれも1である。
算出部130は、アライメント配列AAと、更新前アライメント配列BAAとの値Vに差が生じる要素番号ENを算出結果情報CRIとして算出する。図7に示す通り、この一例では、算出結果情報CRIとは、20、21、22、23、及び24である。
算出部130は、算出結果情報CRIを生成部140へ供給する。
例えば、算出部130は、アライメント配列AAの要素番号EN1の値Vと、更新前アライメント配列BAAの要素番号EN1の値Vとの差を算出する。図7に示す通り、この一例の場合、算出部130の算出結果は、要素番号EN20から要素番号EN24までの値Vがいずれも1である。
算出部130は、アライメント配列AAと、更新前アライメント配列BAAとの値Vに差が生じる要素番号ENを算出結果情報CRIとして算出する。図7に示す通り、この一例では、算出結果情報CRIとは、20、21、22、23、及び24である。
算出部130は、算出結果情報CRIを生成部140へ供給する。
図1に戻り、生成部140は、算出部130から算出結果情報CRIを取得する。生成部140は、取得した算出結果情報CRIと、DNA塩基配列情報DIとに基づいて、生成RNA配列ERAを生成する。生成RNA配列ERAとは、アライメントされたRNAの塩基配列を示す配列である。具体的には、DNA塩基配列情報DIに示されるDNAの塩基配列の先頭から順に末尾まで番号を付した場合、生成部140は、算出結果情報CRIと、DNAの塩基配列に付した番号とが対応する塩基配列を生成する。ここで、生成部140が生成する算出結果情報CRIと、DNAの塩基配列に付した番号とが対応する塩基配列とは、生成RNA配列ERAである。
ここで、算出結果情報CRIとは、算出部130が算出した差が生じる要素Eのアライメント配列AA上の位置を示す情報の一例である。また、生成RNA配列ERAとは、位置情報の一例である。すなわち、生成部140は、算出部130が算出した差が生じる要素Eのアライメント配列AA上の位置に基づいて、アライメントされた位置を示す位置情報をアライメント毎に生成する。
ここで、算出結果情報CRIとは、算出部130が算出した差が生じる要素Eのアライメント配列AA上の位置を示す情報の一例である。また、生成RNA配列ERAとは、位置情報の一例である。すなわち、生成部140は、算出部130が算出した差が生じる要素Eのアライメント配列AA上の位置に基づいて、アライメントされた位置を示す位置情報をアライメント毎に生成する。
以下、図8を参照して生成部140が生成RNA配列ERAを生成する詳細について説明する。図8は、本実施形態における生成部140の生成の一例を示す模式図である。
この一例では、図8に示す通り、算出結果情報CRIが20、21、22、23、及び24である。この場合、生成部140が生成する塩基配列とは、算出結果情報CRIと、DNAの塩基配列に付した番号とが対応する「CCGAG」である。つまり、生成部140は、「CCGAG」を生成RNA配列ERA1として生成する。生成部140は、判定対象のRNA毎に生成RNA配列ERAを生成する。図8に示す通り、この一例では、生成部140は、生成RNA配列ERA1、生成RNA配列ERA2、及び生成RNA配列ERA3を生成する。この一例では、生成RNA配列ERA1とは、「CCGAG」である。また、生成RNA配列ERA2とは、「TGTAGG」である。また、生成RNA配列ERA3とは、「TTCCTAGCGAGC」である。
この一例では、図8に示す通り、算出結果情報CRIが20、21、22、23、及び24である。この場合、生成部140が生成する塩基配列とは、算出結果情報CRIと、DNAの塩基配列に付した番号とが対応する「CCGAG」である。つまり、生成部140は、「CCGAG」を生成RNA配列ERA1として生成する。生成部140は、判定対象のRNA毎に生成RNA配列ERAを生成する。図8に示す通り、この一例では、生成部140は、生成RNA配列ERA1、生成RNA配列ERA2、及び生成RNA配列ERA3を生成する。この一例では、生成RNA配列ERA1とは、「CCGAG」である。また、生成RNA配列ERA2とは、「TGTAGG」である。また、生成RNA配列ERA3とは、「TTCCTAGCGAGC」である。
生成部140は、ある検体SPに含まれる生成RNA配列ERAを判定対象のRNA毎に生成する。生成部140は、ある検体SPに含まれる判定対象のRNA毎に生成した生成RNA配列ERAを登録有無判定部150へ供給する。以降の説明において、ある検体SPに含まれる判定対象のRNA毎に生成した複数の生成RNA配列ERAを互いに区別しない場合には、これらを総称して生成RNA配列ERAとも記載する。
以下、図9を参照して生成RNA配列ERAについて説明する。図9は、本実施形態における生成RNA配列ERAの一例を示す表である。図9に示す通り、この一例では、生成RNA配列ERAには、生成RNA配列ERA1、生成RNA配列ERA2、及び生成RNA配列ERA3が含まれる。
以下、図9を参照して生成RNA配列ERAについて説明する。図9は、本実施形態における生成RNA配列ERAの一例を示す表である。図9に示す通り、この一例では、生成RNA配列ERAには、生成RNA配列ERA1、生成RNA配列ERA2、及び生成RNA配列ERA3が含まれる。
図1に戻り、登録有無判定部150は、生成部140から生成RNA配列ERAを取得する。また、登録有無判定部150は、記憶部300から既知RNA配列情報KRIを読み出す。登録有無判定部150は、生成RNA配列ERAと、既知RNA配列情報KRIとに基づいて、生成RNA配列ERAに含まれる生成RNA配列ERAが、既知RNA配列情報KRIに含まれる既知RNA塩基配列KRAと一致するか否かを判定する。
以下、図10を参照して登録有無判定部150の判定の詳細について説明する。図10は、本実施形態における、登録有無判定部150による判定の一例を示す模式図である。
図10に示す通り、登録有無判定部150は、生成部140から生成RNA配列ERAを取得する。また、登録有無判定部150は、記憶部300から既知RNA配列情報KRIを読み出す。登録有無判定部150は、生成RNA配列ERAに含まれる生成RNA配列ERA毎に、当該生成RNA配列ERAが既知RNA配列情報KRIに含まれるか否かを検索する。具体的には、登録有無判定部150は、生成RNA配列ERAが示す塩基配列が既知RNA配列情報KRIに含まれる既知RNA塩基配列KRAが示す塩基配列と一致するか否かを、生成RNA配列ERA毎に判定する。
図10に示す通り、登録有無判定部150は、生成部140から生成RNA配列ERAを取得する。また、登録有無判定部150は、記憶部300から既知RNA配列情報KRIを読み出す。登録有無判定部150は、生成RNA配列ERAに含まれる生成RNA配列ERA毎に、当該生成RNA配列ERAが既知RNA配列情報KRIに含まれるか否かを検索する。具体的には、登録有無判定部150は、生成RNA配列ERAが示す塩基配列が既知RNA配列情報KRIに含まれる既知RNA塩基配列KRAが示す塩基配列と一致するか否かを、生成RNA配列ERA毎に判定する。
図10に示す一例では、登録有無判定部150は、複数の生成RNA配列ERAのうち、いずれかの生成RNA配列ERAを検索キーにして、既知RNA配列情報KRIを検索する。
図10に示す一例では、登録有無判定部150は、生成RNA配列ERAのうち、生成RNA配列ERA1を検索キーにして、既知RNA配列情報KRIを検索する。登録有無判定部150は、生成RNA配列ERA1について、既知RNA配列情報KRIを検索した場合に、検索ヒットするか否かを判定する。ここで、検索ヒットとは、生成RNA配列ERA1が、既知RNA配列情報KRIに含まれる複数の既知RNA塩基配列KRAのうち、いずれかの既知RNA塩基配列KRAと一致することである。すなわち、登録有無判定部150は、生成RNA配列ERA1が、既知RNA配列情報KRIに含まれる複数の既知RNA塩基配列KRAのうち、いずれかの既知RNA塩基配列KRAと一致するか否かを判定する。登録有無判定部150は、検索ヒットした場合には、「生成RNA配列ERA1が既に既知RNA配列情報KRIに含まれる」と判定する。
登録有無判定部150は、生成RNA配列ERA2以降の生成RNA配列ERAについても、生成RNA配列ERA1と同様に、既知RNA配列情報KRIを検索して、検索ヒットしたか否かを判定する。
ここで、既知RNA配列情報KRIに含まれるRNAの塩基配列は、既知のRNAの塩基配列である。また、既知RNA配列情報KRIに含まれていないRNAの塩基配列は、未知のRNAの塩基配列である。つまり、生成部140が生成したRNAの塩基配列が、既知RNA配列情報KRIに含まれていない場合には、生成部140が生成したRNAの塩基配列が、未知のRNAの塩基配列であることを示している。
ここで、RNAの塩基配列とは、転写産物のことであり、また、未知のRNAの塩基配列とは、新規転写産物である。つまり、登録有無判定部150は、生成RNA配列ERAが、既知RNA配列情報KRIに含まれているか否かによって、生成RNA配列ERAが、既知の転写産物であるか、新規転写産物であるかを判定する。
図10に示す一例では、登録有無判定部150は、生成RNA配列ERAのうち、生成RNA配列ERA1を検索キーにして、既知RNA配列情報KRIを検索する。登録有無判定部150は、生成RNA配列ERA1について、既知RNA配列情報KRIを検索した場合に、検索ヒットするか否かを判定する。ここで、検索ヒットとは、生成RNA配列ERA1が、既知RNA配列情報KRIに含まれる複数の既知RNA塩基配列KRAのうち、いずれかの既知RNA塩基配列KRAと一致することである。すなわち、登録有無判定部150は、生成RNA配列ERA1が、既知RNA配列情報KRIに含まれる複数の既知RNA塩基配列KRAのうち、いずれかの既知RNA塩基配列KRAと一致するか否かを判定する。登録有無判定部150は、検索ヒットした場合には、「生成RNA配列ERA1が既に既知RNA配列情報KRIに含まれる」と判定する。
登録有無判定部150は、生成RNA配列ERA2以降の生成RNA配列ERAについても、生成RNA配列ERA1と同様に、既知RNA配列情報KRIを検索して、検索ヒットしたか否かを判定する。
ここで、既知RNA配列情報KRIに含まれるRNAの塩基配列は、既知のRNAの塩基配列である。また、既知RNA配列情報KRIに含まれていないRNAの塩基配列は、未知のRNAの塩基配列である。つまり、生成部140が生成したRNAの塩基配列が、既知RNA配列情報KRIに含まれていない場合には、生成部140が生成したRNAの塩基配列が、未知のRNAの塩基配列であることを示している。
ここで、RNAの塩基配列とは、転写産物のことであり、また、未知のRNAの塩基配列とは、新規転写産物である。つまり、登録有無判定部150は、生成RNA配列ERAが、既知RNA配列情報KRIに含まれているか否かによって、生成RNA配列ERAが、既知の転写産物であるか、新規転写産物であるかを判定する。
以下、図11を参照して登録有無判定部150の判定結果の詳細について説明する。図11は、本実施形態における登録有無判定部150の判定結果の一例を示す表である。
登録有無判定部150は、既知RNA配列情報KRIに含まれる生成RNA配列ERA毎に当該生成RNA配列ERAが既知RNA配列情報KRIに含まれるか否かを判定する。
図11に示す通り、この一例の場合、生成RNA配列ERA3が既知RNA塩基配列KRA1と一致する。このため、登録有無判定部150は、生成RNA配列ERA3が既知RNA配列情報KRIに含まれると判定する。すなわち、この一例の場合、生成RNA配列ERA1と、生成RNA配列ERA2とは、新規転写産物である。また、この一例の場合、生成RNA配列ERA3とは既知の転写産物である。
登録有無判定部150は、既知RNA配列情報KRIに含まれる生成RNA配列ERA毎に当該生成RNA配列ERAが既知RNA配列情報KRIに含まれるか否かを判定する。
図11に示す通り、この一例の場合、生成RNA配列ERA3が既知RNA塩基配列KRA1と一致する。このため、登録有無判定部150は、生成RNA配列ERA3が既知RNA配列情報KRIに含まれると判定する。すなわち、この一例の場合、生成RNA配列ERA1と、生成RNA配列ERA2とは、新規転写産物である。また、この一例の場合、生成RNA配列ERA3とは既知の転写産物である。
以下、図12を参照して新規転写産物抽出装置1の動作について説明する。図12は、本実施形態における新規転写産物抽出装置1の動作の一例を示す流れ図である。
取得部110は、次世代シーケンサーSQからアライメント結果情報ARIを取得する(ステップS100)。取得部110は、取得したアライメント結果情報ARIを更新部120へ供給する(ステップS110)。
更新部120は、取得部110からアライメント結果情報ARIを取得する(ステップS120)。更新部120は、取得したアライメント結果情報ARIに基づいて、アライメント配列AAを更新する(ステップS130)。更新部120は、更新したアライメント配列AAを算出部130へ供給する(ステップS140)。
取得部110は、次世代シーケンサーSQからアライメント結果情報ARIを取得する(ステップS100)。取得部110は、取得したアライメント結果情報ARIを更新部120へ供給する(ステップS110)。
更新部120は、取得部110からアライメント結果情報ARIを取得する(ステップS120)。更新部120は、取得したアライメント結果情報ARIに基づいて、アライメント配列AAを更新する(ステップS130)。更新部120は、更新したアライメント配列AAを算出部130へ供給する(ステップS140)。
算出部130は、更新部120からアライメント配列AAを取得する(ステップS150)。算出部130は、アライメント配列AAと、更新前アライメント配列BAAとに基づいて、算出結果情報CRIを算出する(ステップS160)。算出部130は、算出した算出結果情報CRIを生成部140へ供給する(ステップS170)。
生成部140は、算出部130から算出結果情報CRIを取得する(ステップS180)。生成部140は、記憶部300からDNA塩基配列情報DIを読み出す(ステップS190)。生成部140は、算出結果情報CRIと、DNA塩基配列情報DIとに基づいて、生成RNA配列ERAを生成する(ステップS200)。生成部140は、ある検体SPに含まれる判定対象のRNA毎の生成RNA配列ERAが含まれる生成RNA配列ERAを登録有無判定部150へ供給する(ステップS210)。
生成部140は、算出部130から算出結果情報CRIを取得する(ステップS180)。生成部140は、記憶部300からDNA塩基配列情報DIを読み出す(ステップS190)。生成部140は、算出結果情報CRIと、DNA塩基配列情報DIとに基づいて、生成RNA配列ERAを生成する(ステップS200)。生成部140は、ある検体SPに含まれる判定対象のRNA毎の生成RNA配列ERAが含まれる生成RNA配列ERAを登録有無判定部150へ供給する(ステップS210)。
登録有無判定部150は、生成部140から生成RNA配列ERAを取得する(ステップS220)。登録有無判定部150は、生成RNA配列ERAに含まれる生成RNA配列ERAの判定が終了するまでの間、ステップS240からステップS270までの処理を繰り返す(ステップS230)。登録有無判定部150は、記憶部300から既知RNA配列情報KRIを読み出す(ステップS240)。登録有無判定部150は、生成RNA配列ERAに含まれる生成RNA配列ERAが、既知RNA配列情報KRIに含まれるか否かを判定する(ステップS250)。生成RNA配列ERAに含まれる生成RNA配列ERAが、既知RNA配列情報KRIに含まれる場合(ステップS250;YES)、登録有無判定部150は、生成RNA配列ERAが含まれると判定する(ステップS260)。生成RNA配列ERAに含まれる生成RNA配列ERAが、既知RNA配列情報KRIに含まれない場合(ステップS250;NO)、登録有無判定部150は、生成RNA配列ERAが含まれないと判定する(ステップS270)。以降、新規転写産物抽出装置1は、ステップS100からステップS270までの処理を検体SP毎に繰り返す。
以上説明したように、新規転写産物抽出装置1は、制御部100と、記憶部300とを備える。制御部100は、取得部110と、更新部120と、算出部130と、生成部140と、登録有無判定部150とをその機能部として備える。
取得部110は、判定対象のRNAの塩基配列がDNAの塩基配列にアライメントされた結果を示すアライメント結果情報ARIを判定対象のRNAの塩基配列毎に取得する。更新部120は、DNAの塩基配列に含まれる塩基の数に対応する要素Eを有するアライメント配列AAに、アライメント結果情報ARIが示すDNAの塩基配列上の位置に対応する位置の要素Eの値Vを、アライメント毎、かつ一塩基毎に更新する。算出部130は、更新部120がアライメント配列AAを更新する前の要素Eの値Vと、更新した後の更新前アライメント配列BAAの要素Eの値Vとの差を算出する。生成部140は、要素Eのうち、算出部130が算出した算出結果情報CRIに基づいて、アライメントされた位置を示す位置情報をアライメント毎に生成する。登録有無判定部150は、既知のRNAの塩基配列が予め複数登録されている既知RNA配列情報KRIと、生成部140が生成する位置情報とに基づいて、位置情報が既知RNA配列情報KRIに含まれるか否かを判定する。
取得部110は、判定対象のRNAの塩基配列がDNAの塩基配列にアライメントされた結果を示すアライメント結果情報ARIを判定対象のRNAの塩基配列毎に取得する。更新部120は、DNAの塩基配列に含まれる塩基の数に対応する要素Eを有するアライメント配列AAに、アライメント結果情報ARIが示すDNAの塩基配列上の位置に対応する位置の要素Eの値Vを、アライメント毎、かつ一塩基毎に更新する。算出部130は、更新部120がアライメント配列AAを更新する前の要素Eの値Vと、更新した後の更新前アライメント配列BAAの要素Eの値Vとの差を算出する。生成部140は、要素Eのうち、算出部130が算出した算出結果情報CRIに基づいて、アライメントされた位置を示す位置情報をアライメント毎に生成する。登録有無判定部150は、既知のRNAの塩基配列が予め複数登録されている既知RNA配列情報KRIと、生成部140が生成する位置情報とに基づいて、位置情報が既知RNA配列情報KRIに含まれるか否かを判定する。
ここで、従来の技術では、検体SPに含まれる判定対象のRNAの塩基配列が膨大な量であるため、データベース化されている既知のRNAの塩基配列である既知転写産物の発現量を正規化された分布値として出力する解析方法が主であった。しかしながら、従来の技術では、発現量が非常に少ない既知のRNAの塩基配列以外の新規転写産物は、発現を検出することができない場合があった。
本実施形態の新規転写産物抽出装置1は、次世代シーケンサーSQが抽出した判定対象のRNAの塩基配列が、既知のRNAの塩基配列であるか否かを判定する。すなわち、新規転写産物抽出装置1は、次世代シーケンサーSQが抽出した判定対象のRNAの塩基配列が、新規転写産物であるか否かを判定することができる。すなわち、新規転写産物抽出装置1によれば、新規転写物を抽出する手間を低減することができる。
本実施形態の新規転写産物抽出装置1は、次世代シーケンサーSQが抽出した判定対象のRNAの塩基配列が、既知のRNAの塩基配列であるか否かを判定する。すなわち、新規転写産物抽出装置1は、次世代シーケンサーSQが抽出した判定対象のRNAの塩基配列が、新規転写産物であるか否かを判定することができる。すなわち、新規転写産物抽出装置1によれば、新規転写物を抽出する手間を低減することができる。
[第2実施形態]
以下、本発明の第2実施形態について図を参照して説明する。なお、上述した第1実施形態と同様の構成及び動作については、同一の符号を付してその説明を省略する。
以下、本発明の第2実施形態について図を参照して説明する。なお、上述した第1実施形態と同様の構成及び動作については、同一の符号を付してその説明を省略する。
以下、図13を参照して第2実施形態における新規転写産物抽出装置11について説明する。図13は、第2実施形態における新規転写産物抽出装置11の一例を示す模式図である。図13に示す通り、本実施形態では、制御部1100が、制御部100が備える各部に加えて優先度判定部160と、判定結果出力部170とをその機能部として更に備える場合ついて説明する。
本実施形態では、登録有無判定部150は、既知のRNAの塩基配列が予め複数登録されている既知RNA配列情報KRIと、生成部140が生成する位置情報とに基づいて、位置情報によって示される生成RNA配列ERAが既知RNA配列情報KRIに含まれるか否かを判定した、判定結果情報JIを優先度判定部160へ供給する。
また、本実施形態では、登録有無判定部150は、位置情報によって示される生成RNA配列ERAのうち、少なくとも一部が既知RNA配列情報KRIに含まれない場合、位置情報によって示される生成RNA配列ERAが既知RNA配列情報KRIに含まれないと判定する。
本実施形態では、登録有無判定部150は、既知のRNAの塩基配列が予め複数登録されている既知RNA配列情報KRIと、生成部140が生成する位置情報とに基づいて、位置情報によって示される生成RNA配列ERAが既知RNA配列情報KRIに含まれるか否かを判定した、判定結果情報JIを優先度判定部160へ供給する。
また、本実施形態では、登録有無判定部150は、位置情報によって示される生成RNA配列ERAのうち、少なくとも一部が既知RNA配列情報KRIに含まれない場合、位置情報によって示される生成RNA配列ERAが既知RNA配列情報KRIに含まれないと判定する。
以下、図14を参照して登録有無判定部150の判定について説明する。図14は、本実施形態における登録有無判定部150の判定の一例を示す模式図である。
図14に示す通り、DNA塩基配列情報DIに示すDNAの塩基配列のうち、既知RNA配列情報KRIに含まれる既知RNA塩基配列KRAの鋳型である塩基と、既知RNA配列情報KRIに含まれる既知RNA塩基配列KRAの鋳型でない塩基とが存在する。この一例では、図14に示す通り、DNAの塩基配列の先頭から順に末尾まで番号を付した場合、1から18までと、30から66までとが既知RNA配列情報KRIに含まれる既知RNA塩基配列KRAの鋳型である塩基である。また、図14に示す通り、DNAの塩基配列の先頭から順に末尾まで番号を付した場合、19から29までと、67から72までとが既知RNA配列情報KRIに含まれる既知RNA塩基配列KRAの鋳型でない塩基である。
以降の説明において、DNA塩基配列情報DIに示すDNAの塩基配列のうち、既知RNA配列情報KRIに含まれる既知RNA塩基配列KRAの鋳型である塩基が示す塩基配列の範囲を、既知塩基範囲KEと記載する。また、DNA塩基配列情報DIに示すDNAの塩基配列のうち、既知RNA配列情報KRIに含まれる既知RNA塩基配列KRAの鋳型でない塩基が示す塩基配列の範囲を未知塩基範囲UKEと記載する。
登録有無判定部150は、生成RNA配列ERAが示す塩基配列の各塩基が既知塩基範囲KEに含まれるか、含まれないか、又は一部が含まれるかを判定する。
図14に示す通り、DNA塩基配列情報DIに示すDNAの塩基配列のうち、既知RNA配列情報KRIに含まれる既知RNA塩基配列KRAの鋳型である塩基と、既知RNA配列情報KRIに含まれる既知RNA塩基配列KRAの鋳型でない塩基とが存在する。この一例では、図14に示す通り、DNAの塩基配列の先頭から順に末尾まで番号を付した場合、1から18までと、30から66までとが既知RNA配列情報KRIに含まれる既知RNA塩基配列KRAの鋳型である塩基である。また、図14に示す通り、DNAの塩基配列の先頭から順に末尾まで番号を付した場合、19から29までと、67から72までとが既知RNA配列情報KRIに含まれる既知RNA塩基配列KRAの鋳型でない塩基である。
以降の説明において、DNA塩基配列情報DIに示すDNAの塩基配列のうち、既知RNA配列情報KRIに含まれる既知RNA塩基配列KRAの鋳型である塩基が示す塩基配列の範囲を、既知塩基範囲KEと記載する。また、DNA塩基配列情報DIに示すDNAの塩基配列のうち、既知RNA配列情報KRIに含まれる既知RNA塩基配列KRAの鋳型でない塩基が示す塩基配列の範囲を未知塩基範囲UKEと記載する。
登録有無判定部150は、生成RNA配列ERAが示す塩基配列の各塩基が既知塩基範囲KEに含まれるか、含まれないか、又は一部が含まれるかを判定する。
以下、図15を参照して登録有無判定部150の判定結果について説明する。図15は、本実施形態における登録有無判定部150の判定結果の一例を示す模式図である。
図15に示す通り、この一例では、登録有無判定部150は、生成RNA配列ERA11と、生成RNA配列ERA12と、生成RNA配列ERA13とについて判定する。
図15に示す通り、生成RNA配列ERA11が示す塩基配列を構成する各塩基は、いずれも未知塩基範囲UKEの塩基である。また、生成RNA配列ERA12が示す塩基配列を構成する各塩基は、いずれも既知塩基範囲KEの塩基である。また、生成RNA配列ERA13が示す塩基配列を構成する各塩基は、一部が既知塩基範囲KEの塩基であって、一部が未知塩基範囲UKEの塩基である。
図15に示す通り、この一例では、登録有無判定部150は、生成RNA配列ERA11と、生成RNA配列ERA12と、生成RNA配列ERA13とについて判定する。
図15に示す通り、生成RNA配列ERA11が示す塩基配列を構成する各塩基は、いずれも未知塩基範囲UKEの塩基である。また、生成RNA配列ERA12が示す塩基配列を構成する各塩基は、いずれも既知塩基範囲KEの塩基である。また、生成RNA配列ERA13が示す塩基配列を構成する各塩基は、一部が既知塩基範囲KEの塩基であって、一部が未知塩基範囲UKEの塩基である。
以下、図16を参照して、登録有無判定部150の判定結果を示す判定結果情報JIについて説明する。図16は、本実施形態における登録有無判定部150の判定結果を示す判定結果情報JIの一例を示す表である。図16に示す通り、登録有無判定部150は、生成RNA配列ERA11を、既知RNA配列情報KRIの示す既知塩基範囲KEの範囲に含まれないと判定する。また、登録有無判定部150は、生成RNA配列ERA12を、既知RNA配列情報KRIの示す既知塩基範囲KEの範囲に含まれると判定する。また、登録有無判定部150は、生成RNA配列ERA13を、既知RNA配列情報KRIの示す既知塩基範囲KEの範囲に一部含まれると判定する。
以降の説明において、生成RNA配列ERAに示す塩基配列の各塩基が未知塩基範囲UKEであるか、既知塩基範囲KEであるかを登録有無判定部150が判定した結果を塩基範囲判定BAJと記載する。
登録有無判定部150は、生成RNA配列ERA毎に塩基範囲判定BAJを判定した判定結果情報JIを優先度判定部160へ供給する。
以降の説明において、生成RNA配列ERAに示す塩基配列の各塩基が未知塩基範囲UKEであるか、既知塩基範囲KEであるかを登録有無判定部150が判定した結果を塩基範囲判定BAJと記載する。
登録有無判定部150は、生成RNA配列ERA毎に塩基範囲判定BAJを判定した判定結果情報JIを優先度判定部160へ供給する。
図13に戻り、優先度判定部160は、登録有無判定部150から判定結果情報JIを取得する。優先度判定部160は、判定結果情報JIに基づいて、生成RNA配列ERAに含まれる生成RNA配列ERA毎に優先度Pを判定する。
具体的には、優先度判定部160は、生成RNA配列ERAが示す塩基配列を構成する各塩基が、いずれも未知塩基範囲UKEの塩基である場合、優先度Pが高いと判定する。また、優先度判定部160は、生成RNA配列ERAが示す塩基配列を構成する各塩基が、いずれも既知塩基範囲KE塩基である場合、優先度Pが低いと判定する。
優先度判定部160は、判定結果情報JIに基づいて、生成RNA配列ERAに含まれる生成RNA配列ERA毎に優先度Pを判定した結果である優先度判定結果情報PJIを判定結果出力部170へ供給する。
具体的には、優先度判定部160は、生成RNA配列ERAが示す塩基配列を構成する各塩基が、いずれも未知塩基範囲UKEの塩基である場合、優先度Pが高いと判定する。また、優先度判定部160は、生成RNA配列ERAが示す塩基配列を構成する各塩基が、いずれも既知塩基範囲KE塩基である場合、優先度Pが低いと判定する。
優先度判定部160は、判定結果情報JIに基づいて、生成RNA配列ERAに含まれる生成RNA配列ERA毎に優先度Pを判定した結果である優先度判定結果情報PJIを判定結果出力部170へ供給する。
以下、図17を参照して、優先度判定部160の判定結果を示す優先度判定結果情報PJIについて説明する。図17は、本実施形態における優先度判定部160の判定結果を示す優先度判定結果情報PJIの一例を示す表である。図17に示す通り、この一例では、生成RNA配列ERA11の塩基範囲判定BAJが既知塩基範囲KEの範囲に含まれないことを示す。この場合、優先度判定部160は、生成RNA配列ERA11の優先度Pが高いと判定する。また、この一例では、生成RNA配列ERA12の塩基範囲判定BAJが既知塩基範囲KEの範囲に含まれることを示す。この場合、優先度判定部160は、生成RNA配列ERA12の優先度Pを低いと判定する。また、この一例では、生成RNA配列ERA13の塩基範囲判定BAJが既知塩基範囲KEの範囲に一部含まれることを示す。この場合、優先度判定部160は、生成RNA配列ERA13の優先度Pを中であると判定する。
図13に戻り、判定結果出力部170は、優先度判定部160から優先度判定結果情報PJIを取得する。判定結果出力部170は、優先度判定結果情報PJIに基づいて、生成RNA配列ERAに含まれる生成RNA配列ERAが示す塩基配列を出力する。
この一例では、判定結果出力部170は、優先度判定結果情報PJIが高い生成RNA配列ERAが示す塩基配列を出力する。
この一例では、判定結果出力部170は、優先度判定結果情報PJIが高い生成RNA配列ERAが示す塩基配列を出力する。
以上説明したように、新規転写産物抽出装置11は、優先度判定部160と、判定結果出力部170とを更に備える。
登録有無判定部150は、位置情報である生成RNA配列ERAによって示される生成RNA配列ERAの塩基配列のうち、少なくとも一部が既知RNA配列情報KRIに含まれない未知塩基範囲UKEである場合、位置情報によって示される生成RNA配列ERAが既知RNA配列情報KRIに含まれないと判定する。登録有無判定部150は、判定した判定結果情報JIを優先度判定部160へ供給する。優先度判定部160は、取得した判定結果情報JIに基づいて、位置情報によって示される生成RNA配列ERAの優先度Pを判定する。優先度判定部160は、判定した優先度判定結果情報PJIを判定結果出力部170へ供給する。判定結果出力部170は、取得した優先度判定結果情報PJIに基づいて、位置情報によって示される生成RNA配列ERAを出力する。
これにより、新規転写産物抽出装置11は、次世代シーケンサーSQが抽出した判定対象のRNAの塩基配列が、新規転写産物であるか否か、又は新規転写産物が含まれるかに基づいて、結果を出力することができる。すなわち、新規転写産物抽出装置11は、既知の転写産物、及び新規転写産物の抽出結果を互いに区別して出力することができる。
登録有無判定部150は、位置情報である生成RNA配列ERAによって示される生成RNA配列ERAの塩基配列のうち、少なくとも一部が既知RNA配列情報KRIに含まれない未知塩基範囲UKEである場合、位置情報によって示される生成RNA配列ERAが既知RNA配列情報KRIに含まれないと判定する。登録有無判定部150は、判定した判定結果情報JIを優先度判定部160へ供給する。優先度判定部160は、取得した判定結果情報JIに基づいて、位置情報によって示される生成RNA配列ERAの優先度Pを判定する。優先度判定部160は、判定した優先度判定結果情報PJIを判定結果出力部170へ供給する。判定結果出力部170は、取得した優先度判定結果情報PJIに基づいて、位置情報によって示される生成RNA配列ERAを出力する。
これにより、新規転写産物抽出装置11は、次世代シーケンサーSQが抽出した判定対象のRNAの塩基配列が、新規転写産物であるか否か、又は新規転写産物が含まれるかに基づいて、結果を出力することができる。すなわち、新規転写産物抽出装置11は、既知の転写産物、及び新規転写産物の抽出結果を互いに区別して出力することができる。
また、優先度判定部160は、位置情報によって示される生成RNA配列ERAのうち、すべてが既知RNA配列情報KRIに含まれない場合、優先度Pが高いと判定し、位置情報によって示される生成RNA配列ERAのうち、すべてが既知RNA配列情報KRIに含まれる場合、優先度Pが低いと判定する。
これにより、新規転写産物抽出装置11は、次世代シーケンサーSQが抽出した判定対象のRNAの塩基配列が、新規転写産物である場合、優先度Pが高いと判定され、優先度Pが高いものから結果を出力することができる。すなわち、新規転写産物抽出装置11は、優先度Pに基づいて、新規転写産物の抽出結果を優先して出力することができる。
これにより、新規転写産物抽出装置11は、次世代シーケンサーSQが抽出した判定対象のRNAの塩基配列が、新規転写産物である場合、優先度Pが高いと判定され、優先度Pが高いものから結果を出力することができる。すなわち、新規転写産物抽出装置11は、優先度Pに基づいて、新規転写産物の抽出結果を優先して出力することができる。
[第3実施形態]
以下、本発明の第3実施形態及について図を参照して説明する。なお、上述した第1実施形態及び第2実施形態と同様の構成及び動作については、同一の符号を付してその説明を省略する。
以下、本発明の第3実施形態及について図を参照して説明する。なお、上述した第1実施形態及び第2実施形態と同様の構成及び動作については、同一の符号を付してその説明を省略する。
以下、図18を参照して第3実施形態における新規転写産物抽出装置12について説明する。図18は、第3実施形態における新規転写産物抽出装置12の一例を示す模式図である。図18に示す通り、本実施形態では、制御部1200が、制御部100が備える各部に加えてRNA分布配列生成部180をその機能部として更に備える。
RNA分布配列生成部180は、検体SPに含まれる複数の判定対象のRNAの塩基配列が、判定対象のRNAの塩基配列毎に蓄積されたRNA分布配列DAを検体SP毎に生成する。
具体的には、RNA分布配列生成部180は、ある検体SPに含まれる判定対象のRNAの塩基配列のアライメント結果情報ARIに基づいて、更新部120が更新したアライメント配列AAを取得する。RNA分布配列生成部180は、取得したアライメント配列AAをRNA分布配列DAに加算する。RNA分布配列DAとは、アライメント配列AAと同数の要素Eを有する配列である。また、DNAの塩基配列の先頭から順に末尾まで番号を付した場合、この番号と、RNA分布配列DAの要素Eの要素番号ENとは、対応付けられている。
RNA分布配列生成部180は、検体SP毎にRNA分布配列DAを生成する。
RNA分布配列生成部180は、検体SPに含まれる複数の判定対象のRNAの塩基配列が、判定対象のRNAの塩基配列毎に蓄積されたRNA分布配列DAを検体SP毎に生成する。
具体的には、RNA分布配列生成部180は、ある検体SPに含まれる判定対象のRNAの塩基配列のアライメント結果情報ARIに基づいて、更新部120が更新したアライメント配列AAを取得する。RNA分布配列生成部180は、取得したアライメント配列AAをRNA分布配列DAに加算する。RNA分布配列DAとは、アライメント配列AAと同数の要素Eを有する配列である。また、DNAの塩基配列の先頭から順に末尾まで番号を付した場合、この番号と、RNA分布配列DAの要素Eの要素番号ENとは、対応付けられている。
RNA分布配列生成部180は、検体SP毎にRNA分布配列DAを生成する。
以下、図19を参照してRNA分布配列DAの詳細について説明する。図19は、本実施形態におけるRNA分布配列DAの一例を示す表である。
図19に示す通り、アライメント配列AAの値Vが蓄積されることにより、RNA分布配列DAの各要素Eの値Vには、ある検体SPに含まれる判定対象のRNAの塩基配列がアライメントされた塩基毎の回数が示される。例えば、図19に示す通り、この一例では、RNA分布配列DAの要素番号EN3の値Vが1である。つまり、ある検体SPに含まれる複数の判定対象のRNAの塩基配列の塩基が、RNA分布配列DAの要素番号EN3に対応するDNAの塩基配列の塩基の位置に1回アライメントされたことを示す。RNA分布配列DAの各値Vも同様に、ある検体SPに含まれる複数の判定対象のRNAの塩基配列の塩基がアライメントされた回数を示す。
これにより、RNA分布配列DAには、検体SP毎にアライメントされる塩基の分布が示される。
図19に示す通り、アライメント配列AAの値Vが蓄積されることにより、RNA分布配列DAの各要素Eの値Vには、ある検体SPに含まれる判定対象のRNAの塩基配列がアライメントされた塩基毎の回数が示される。例えば、図19に示す通り、この一例では、RNA分布配列DAの要素番号EN3の値Vが1である。つまり、ある検体SPに含まれる複数の判定対象のRNAの塩基配列の塩基が、RNA分布配列DAの要素番号EN3に対応するDNAの塩基配列の塩基の位置に1回アライメントされたことを示す。RNA分布配列DAの各値Vも同様に、ある検体SPに含まれる複数の判定対象のRNAの塩基配列の塩基がアライメントされた回数を示す。
これにより、RNA分布配列DAには、検体SP毎にアライメントされる塩基の分布が示される。
以上説明したように、新規転写産物抽出装置12は、RNA分布配列生成部180を更に備える。
RNA分布配列生成部180は、検体SPに含まれる複数の判定対象のRNA塩基配列のアライメント結果情報ARIが複数のRNAの塩基配列毎に蓄積されたRNA分布配列DAを検体SP毎に生成する。
これにより、新規転写産物抽出装置12は、検体SP毎にRNA分布配列DAを生成する。例えば、病体である検体SPのRNA分布配列DAと、健康体の検体SPのRNA分布配列DAとを比較することにより、病体である検体SPの転写産物の分布の傾向を確認することができる。
RNA分布配列生成部180は、検体SPに含まれる複数の判定対象のRNA塩基配列のアライメント結果情報ARIが複数のRNAの塩基配列毎に蓄積されたRNA分布配列DAを検体SP毎に生成する。
これにより、新規転写産物抽出装置12は、検体SP毎にRNA分布配列DAを生成する。例えば、病体である検体SPのRNA分布配列DAと、健康体の検体SPのRNA分布配列DAとを比較することにより、病体である検体SPの転写産物の分布の傾向を確認することができる。
なお、上記の各実施形態における新規転写産物抽出装置1、新規転写産物抽出装置12及び新規転写産物抽出装置13が備える各部は、専用のハードウェアにより実現されるものであってもよく、また、メモリおよびマイクロプロセッサにより実現させるものであってもよい。
なお、新規転写産物抽出装置1、新規転写産物抽出装置12及び新規転写産物抽出装置13が備える各部は、メモリおよびCPU(中央演算装置)により構成され、新規転写産物抽出装置1、新規転写産物抽出装置12及び新規転写産物抽出装置13が備える各部の機能を実現するためのプログラムをメモリにロードして実行することによりその機能を実現させるものであってもよい。
また、新規転写産物抽出装置1、新規転写産物抽出装置12及び新規転写産物抽出装置13が備える各部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
以上、本発明の実施形態を、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることができる。上述した各実施形態に記載の構成を組み合わせてもよい。
1,12,13…新規転写産物抽出装置、100,1100,1200…制御部、110…取得部、120…更新部、130…算出部、140…生成部、150…登録有無判定部、160…優先度判定部、170…判定結果出力部、180…RNA分布配列生成部、ARI…アライメント結果情報、AA…アライメント配列、BAA…更新前アライメント配列、KRI…既知RNA配列情報、KRA…既知RNA塩基配列、ERA…生成RNA配列
Claims (5)
- 判定対象のRNAの塩基配列がDNAの塩基配列にアライメントされた結果を示すアライメント結果情報を前記判定対象のRNAの塩基配列毎に取得する取得部と、
前記DNAの塩基配列に含まれる塩基の数に対応する要素を有するアライメント配列に、アライメント結果情報が示すDNAの塩基配列上の位置に対応する位置の要素の値を、アライメント毎、かつ一塩基毎に更新する更新部と、
前記更新部が前記アライメント配列を更新する前の前記要素の値と、更新した後の当該要素の値との差を算出する算出部と、
前記要素のうち、前記算出部が算出した差が生じる要素のアライメント配列上の位置に基づいて、アライメントされた位置を示す位置情報をアライメント毎に生成する生成部と、
既知のRNAの塩基配列が予め複数登録されているRNA配列情報と、前記生成部が生成する前記位置情報とに基づいて、前記位置情報によって示されるRNAの塩基配列が前記RNA配列情報に含まれるか否かを判定する登録有無判定部と
を備えることを特徴とする新規転写産物抽出装置。 - 前記登録有無判定部は、
前記位置情報によって示されるRNAの塩基配列のうち、少なくとも一部が前記RNA配列情報に含まれない場合、前記位置情報によって示されるRNAの塩基配列が前記RNA配列情報に含まれないと判定し、
前記登録有無判定部の判定結果に基づいて、前記位置情報によって示されるRNAの塩基配列の優先度を判定する優先度判定部
を更に備え、
前記優先度判定部が判定した優先度に基づいて、前記位置情報によって示されるRNAの塩基配列を出力する判定結果出力部
を更に備える
ことを特徴とする請求項1に記載の新規転写産物抽出装置。 - 前記優先度判定部は、
前記位置情報によって示されるRNAの塩基配列のうち、すべてが前記RNA配列情報に含まれない場合、前記優先度が高いと判定し、前記位置情報によって示されるRNAの塩基配列のうち、すべてが前記RNA配列情報に含まれる場合、前記優先度が低いと判定する
ことを特徴とする請求項2に記載の新規転写産物抽出装置。 - 検体は複数のRNAの塩基配列を含み、
検体に含まれる複数のRNAの塩基配列のアライメント結果が前記複数のRNAの塩基配列毎に蓄積されたRNA分布配列を前記検体毎に生成するRNA分布配列生成部
を更に備える
ことを特徴とする請求項1から請求項3のいずれか一項に記載の新規転写産物抽出装置。 - コンピュータに、
判定対象のRNAの塩基配列がDNAの塩基配列にアライメントされた結果を示すアライメント結果情報を前記判定対象のRNAの塩基配列毎に取得する取得ステップと、
前記DNAの塩基配列に含まれる塩基の数に対応する要素を有するアライメント配列に、アライメント結果情報が示すDNAの塩基配列上の位置に対応する位置の要素の値を、アライメント毎、かつ一塩基毎に更新する更新ステップと、
前記更新ステップが前記アライメント配列を更新する前の前記要素の値と、更新した後の当該要素の値との差を算出する算出ステップと、
前記要素のうち、前記算出ステップが算出した差が生じる要素のアライメント配列上の位置に基づいて、アライメントされた位置を示す位置情報をアライメント毎に生成する生成ステップと、
既知のRNAの塩基配列が予め複数登録されているRNA配列情報と、前記生成ステップが生成する前記位置情報とに基づいて、前記位置情報によって示されるRNAの塩基配列が前記RNA配列情報に含まれるか否かを判定する登録有無判定ステップと
を実行させるための新規転写産物抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015192288A JP2017068521A (ja) | 2015-09-29 | 2015-09-29 | 新規転写産物抽出装置、及び新規転写産物抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015192288A JP2017068521A (ja) | 2015-09-29 | 2015-09-29 | 新規転写産物抽出装置、及び新規転写産物抽出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017068521A true JP2017068521A (ja) | 2017-04-06 |
Family
ID=58492614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015192288A Pending JP2017068521A (ja) | 2015-09-29 | 2015-09-29 | 新規転写産物抽出装置、及び新規転写産物抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017068521A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7164767B1 (ja) * | 2020-12-23 | 2022-11-01 | 株式会社トクヤマ | 次亜塩素酸水 |
-
2015
- 2015-09-29 JP JP2015192288A patent/JP2017068521A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7164767B1 (ja) * | 2020-12-23 | 2022-11-01 | 株式会社トクヤマ | 次亜塩素酸水 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schlötterer | Genes from scratch–the evolutionary fate of de novo genes | |
US20210398616A1 (en) | Methods and systems for aligning sequences in the presence of repeating elements | |
CA2925335C (en) | Methods and systems for detecting sequence variants | |
Ward et al. | Strategies for transcriptome analysis in nonmodel plants | |
Thompson et al. | Decoding human regulatory circuits | |
KR20160047506A (ko) | 서열 정렬 방법 및 시스템 | |
Herbig et al. | nocoRNAc: characterization of non-coding RNAs in prokaryotes | |
Ioannidis et al. | Extensively duplicated and transcriptionally active recent lateral gene transfer from a bacterial Wolbachia endosymbiont to its host filarial nematode Brugia malayi | |
Gowda et al. | Genome analysis of rice-blast fungus Magnaporthe oryzae field isolates from southern India | |
Yendrek et al. | The bench scientist's guide to statistical analysis of RNA-Seq data | |
Mennigen et al. | MicroTrout: A comprehensive, genome-wide miRNA target prediction framework for rainbow trout, Oncorhynchus mykiss | |
JP5946149B2 (ja) | 二次代謝系遺伝子を含む遺伝子クラスタの予測方法、予測プログラム及び予測装置 | |
Warren et al. | Insights into the development and evolution of exaggerated traits using de novo transcriptomes of two species of horned scarab beetles | |
US9323889B2 (en) | System and method for processing reference sequence for analyzing genome sequence | |
Pérez‐Porro et al. | A NGS approach to the encrusting Mediterranean sponge C rella elegans (Porifera, Demospongiae, Poecilosclerida): transcriptome sequencing, characterization and overview of the gene expression along three life cycle stages | |
Flassig et al. | An effective framework for reconstructing gene regulatory networks from genetical genomics data | |
Vasconcelos et al. | In silico identification of conserved intercoding sequences in Leishmania genomes: unraveling putative cis-regulatory elements | |
Omoru et al. | A Putative long-range RNA-RNA interaction between ORF8 and Spike of SARS-CoV-2 | |
CN106947817B (zh) | 一种用于蛸科物种鉴定的dna条形码 | |
JP2017068521A (ja) | 新規転写産物抽出装置、及び新規転写産物抽出プログラム | |
JP7208230B2 (ja) | 核酸配列を特性決定するための単一分子シーケンシング及び固有の分子識別子 | |
Andersen et al. | iMSAT: a novel approach to the development of microsatellite loci using barcoded Illumina libraries | |
CN115762628A (zh) | 生物种群间基因渐进性渗入检测方法和检测装置 | |
Min et al. | Survey of programs used to detect alternative splicing isoforms from deep sequencing data in silico | |
Shaw et al. | Transcriptomic complexity of the human malaria parasite Plasmodium falciparum revealed by long-read sequencing |