JP2017068521A

JP2017068521A - 新規転写産物抽出装置、及び新規転写産物抽出プログラム

Info

Publication number: JP2017068521A
Application number: JP2015192288A
Authority: JP
Inventors: 賢司山岸; Kenji Yamagishi; 大樹見越; Daiki Mikoshi; 寧博権; Yasuhiro Gon; 橋本　修; Osamu Hashimoto; 橋本　　修
Original assignee: Nihon University
Current assignee: Nihon University
Priority date: 2015-09-29
Filing date: 2015-09-29
Publication date: 2017-04-06

Abstract

【課題】新規転写産物を抽出する手間を低減する。
【解決手段】新規転写産物抽出装置は、判定対象のＲＮＡの塩基配列がＤＮＡの塩基配列にアライメントされた結果を示すアライメント結果情報を判定対象のＲＮＡの塩基配列毎に取得する取得部と、ＤＮＡの塩基配列に含まれる塩基の数に対応する要素を有するアライメント配列に、アライメント結果情報が示すＤＮＡの塩基配列上の位置に対応する位置の要素の値を、アライメント毎、かつ一塩基毎に更新する更新部と、更新部がアライメント配列を更新前と、更新後の要素の差を算出する算出部と、要素のうち、算出部が算出した差が生じる要素の位置に基づいて、アライメントされた位置を示す位置情報をに生成する生成部と、既知のＲＮＡの塩基配列が予め複数登録されているＲＮＡ配列情報と、生成部が生成する位置情報とに基づいて、位置情報がＲＮＡ配列情報に含まれるか否かを判定する登録有無判定部とを備える。
【選択図】図１０

Description

本発明は、新規転写産物抽出装置、及び新規転写産物抽出プログラムに関する。

従来、ＤＮＡシーケンサーを用いてシーケンシングを行うことにより、生体サンプル内から既知のＲＮＡの塩基配列を網羅的に解析し、データベースとして抽出する方法が知られている。

特開２００９−１１６５５９号公報

しかしながら、従来の方法では、生体サンプルに含まれる既知のＲＮＡの塩基配列を抽出することができても、未知のＲＮＡの塩基配列である新規転写産物を抽出することが困難であるという問題があった。本発明は上記の点に鑑みてなされたものであり、新規転写産物を抽出する手間を低減することができる新規転写産物抽出装置を提供する。

本発明の一実施形態は、判定対象のＲＮＡの塩基配列がＤＮＡの塩基配列にアライメントされた結果を示すアライメント結果情報を前記判定対象のＲＮＡの塩基配列毎に取得する取得部と、前記ＤＮＡの塩基配列に含まれる塩基の数に対応する要素を有するアライメント配列に、アライメント結果情報が示すＤＮＡの塩基配列上の位置に対応する位置の要素の値を、アライメント毎、かつ一塩基毎に更新する更新部と、前記更新部が前記アライメント配列を更新する前の前記要素の値と、更新した後の当該要素の値との差を算出する算出部と、前記要素のうち、前記算出部が算出した差が生じる要素のアライメント配列上の位置に基づいて、アライメントされた位置を示す位置情報をアライメント毎に生成する生成部と、既知のＲＮＡの塩基配列が予め複数登録されているＲＮＡ配列情報と、前記生成部が生成する前記位置情報とに基づいて、前記位置情報によって示されるＲＮＡの塩基配列が前記ＲＮＡ配列情報に含まれるか否かを判定する登録有無判定部とを備えることを特徴とする新規転写産物抽出装置である。

また、本発明の一実施形態の新規転写産物抽出装置の前記登録有無判定部は、前記位置情報によって示されるＲＮＡの塩基配列のうち、少なくとも一部が前記ＲＮＡ配列情報に含まれない場合、前記位置情報によって示されるＲＮＡの塩基配列が前記ＲＮＡ配列情報に含まれないと判定し、前記登録有無判定部の判定結果に基づいて、前記位置情報によって示されるＲＮＡの塩基配列の優先度を判定する優先度判定部を更に備え、前記優先度判定部が判定した優先度に基づいて、前記位置情報によって示されるＲＮＡの塩基配列を出力する判定結果出力部を更に備える。

また、本発明の一実施形態の新規転写産物抽出装置の前記優先度判定部は、前記位置情報によって示されるＲＮＡの塩基配列のうち、すべてが前記ＲＮＡ配列情報に含まれない場合、前記優先度が高いと判定し、前記位置情報によって示されるＲＮＡの塩基配列のうち、すべてが前記ＲＮＡ配列情報に含まれる場合、前記優先度が低いと判定する。

また、本発明の一実施形態の新規転写産物抽出装置は、検体は複数のＲＮＡの塩基配列を含み、検体に含まれる複数のＲＮＡの塩基配列のアライメント結果が前記複数のＲＮＡの塩基配列毎に蓄積されたＲＮＡ分布配列を前記検体毎に生成するＲＮＡ分布配列生成部を更に備える。

また、本発明の一実施形態は、コンピュータに、判定対象のＲＮＡの塩基配列がＤＮＡの塩基配列にアライメントされた結果を示すアライメント結果情報を前記判定対象のＲＮＡの塩基配列毎に取得する取得ステップと、前記ＤＮＡの塩基配列に含まれる塩基の数に対応する要素を有するアライメント配列に、アライメント結果情報が示すＤＮＡの塩基配列上の位置に対応する位置の要素の値を、アライメント毎、かつ一塩基毎に更新する更新ステップと、前記更新ステップが前記アライメント配列を更新する前の前記要素の値と、更新した後の当該要素の値との差を算出する算出ステップと、前記要素のうち、前記算出ステップが算出した差が生じる要素のアライメント配列上の位置に基づいて、アライメントされた位置を示す位置情報をアライメント毎に生成する生成ステップと、既知のＲＮＡの塩基配列が予め複数登録されているＲＮＡ配列情報と、前記生成ステップが生成する前記位置情報とに基づいて、前記位置情報によって示されるＲＮＡの塩基配列が前記ＲＮＡ配列情報に含まれるか否かを判定する登録有無判定ステップとを実行させるための新規転写産物抽出プログラムである。

本発明によれば、新規転写産物を抽出する手間を低減することができる。

第１実施形態における新規転写産物抽出装置の一例を示す模式図である。本実施形態におけるＤＮＡ塩基配列情報の一例を示す表である。本実施形態における既知ＲＮＡ配列情報の一例を示す模式図である。本実施形態における既知ＲＮＡ塩基配列の一例を示す模式図である。本実施形態におけるアライメント結果情報の一例を示す模式図である。本実施形態における更新部による更新結果の一例を示す模式図である。本実施形態における算出部の算出の一例を示す模式図である。本実施形態における生成部の生成の一例を示す模式図である。本実施形態における生成ＲＮＡ配列情報の一例を示す表である。本実施形態における、登録有無判定部による判定の一例を示す模式図である。本実施形態における登録有無判定部の判定結果の一例を示す表である。本実施形態における新規転写産物抽出装置の動作の一例を示す流れ図である。第２実施形態における新規転写産物抽出装置の一例を示す模式図である。本実施形態における登録有無判定部の判定の一例を示す模式図である。本実施形態における登録有無判定部の判定結果の一例を示す模式図である。本実施形態における登録有無判定部の判定結果を示す判定結果情報の一例を示す表である。本実施形態における優先度判定部の判定結果を示す優先度判定結果情報の一例を示す表である。第３実施形態における新規転写産物抽出装置の一例を示す模式図である。本実施形態におけるＲＮＡ分布配列の一例を示す表である。

［新規転写産物について］
細胞内の核に存在するＤＮＡには、生物の遺伝情報が含まれている。ＤＮＡは、糖とリン酸と塩基から構成されたヌクレオチドが、鎖状に連結されたポリマーである。ＤＮＡの塩基はＡＴＧＣの４種類が知られており、これら塩基の組み合わせによって表された配列は、ＤＮＡの塩基配列と呼ばれる。
ＤＮＡからは、ＤＮＡの一部を鋳型として、ＤＮＡの塩基配列と相補的な塩基配列を有するＲＮＡが合成される。この合成工程は転写と呼ばれ、転写されたＲＮＡは転写産物と呼ばれる。ヒトゲノムは、約３０億塩基対からなるといわれ、ヒトなどの生物では、ゲノムＤＮＡの塩基配列が既に決定されている。ゲノムＤＮＡのうち、どの箇所のＤＮＡがＲＮＡの鋳型となったのかは、シーケンサーを用いて判定対象のＲＮＡの塩基配列を解読して決定した後に、ＲＮＡの塩基配列とＤＮＡの塩基配列とを照らし合わせればよい。このような配列比較はアラインメントと呼ばれる。
なお、ＲＮＡの塩基配列を決定する際には、ＲＮＡが逆転写されたｃＤＮＡが合成されることがある。ｃＤＮＡの塩基配列等の、判定対象のＲＮＡの塩基配列に対応する核酸の塩基配列は、元の転写産物であるＲＮＡの塩基配列として扱う。

判定対象のＲＮＡは、タンパク質に翻訳されるＲＮＡと、タンパク質に翻訳されないＲＮＡとの２種に分類できる。タンパク質に翻訳されるＲＮＡとしてはｍＲＮＡである。タンパク質に翻訳されないＲＮＡは、ノンコーディングＲＮＡと呼ばれる。近年、ヒトゲノム中には、ノンコーディングＲＮＡを発現する遺伝子が多数存在することが明らかとなった。細胞内で、どのような転写産物が、どのくらいの量で転写されて発現しているかは、遺伝子の機能を知るうえでも、重要な情報である。
近年、次世代シーケンサーの登場により、遺伝子発現解析にもシーケンサー及び解析ソフトが用いられている。また、次世代シーケンサー等を用いた解析によって既に解読された判定対象のＲＮＡの配列情報は、既知のＲＮＡの塩基配列として、データベースに登録されている。
従来の解析ソフトは、シーケンサーの解析結果と、データベースとに基づいて、ｍＲＮＡの発現を解析することを目的としている場合があった。すなわち、従来の解析ソフトでは、予め発現が知られた判定対象のＲＮＡ以外の、新規判定対象のＲＮＡである新規転写産物の発現解析をすることができない場合があった。
本発明の新規転写産物抽出装置１は、新規転写産物を解析する手間を低減することを目的とする。
以下、本発明の新規転写産物抽出装置１の実施形態について説明する。

［第１実施形態］
以下、図を参照して本発明の第１実施形態について説明する。図１は、第１実施形態における新規転写産物抽出装置１の一例を示す模式図である。図１に示す通り、新規転写産物抽出装置１は、制御部１００と、記憶部３００とを備える。記憶部３００には、ＤＮＡ塩基配列情報ＤＩと、既知ＲＮＡ配列情報ＫＲＩとが記憶される。

図２を参照してＤＮＡ塩基配列情報ＤＩについて説明する。図２は、本実施形態におけるＤＮＡ塩基配列情報ＤＩの一例を示す表である。図２に示す通り、ＤＮＡ塩基配列情報ＤＩには、ＤＮＡの塩基配列が示される。

図３を参照して既知ＲＮＡ配列情報ＫＲＩについて説明する。図３は、本実施形態における既知ＲＮＡ配列情報ＫＲＩの一例を示す模式図である。図３に示す通り、既知ＲＮＡ配列情報ＫＲＩには、既知のＲＮＡの塩基配列を示す既知ＲＮＡ塩基配列ＫＲＡが複数含まれる。この一例では、既知ＲＮＡ配列情報ＫＲＩに既知ＲＮＡ塩基配列ＫＲＡ１、既知ＲＮＡ塩基配列ＫＲＡ２、及び既知ＲＮＡ塩基配列ＫＲＡ３が含まれる場合について説明する。また、この一例では、既知ＲＮＡ塩基配列ＫＲＡ１とは、「ＡＣＣＴＧＣＧＧＡＡＧＧ」である。また、既知ＲＮＡ塩基配列ＫＲＡ２とは、「ＴＴＣＣＴＡＧＣＧＡＧＣ」である。また、既知ＲＮＡ塩基配列ＫＲＡ３とは、「ＣＴＣＣＣＡＣＣＣＧＴＧ」である。既知ＲＮＡ塩基配列ＫＲＡは、ＤＮＡ塩基配列情報ＤＩに示されるＤＮＡの塩基配列の一部を鋳型として、ＤＮＡの塩基配列と相補的な塩基配列を有する。
以下、図４を参照して、既知ＲＮＡ塩基配列ＫＲＡの具体例について説明する。図４は、本実施形態における既知ＲＮＡ塩基配列ＫＲＡの一例を示す模式図である。図４に示す通り、既知ＲＮＡ塩基配列ＫＲＡは、ＤＮＡの塩基配列の一部を鋳型とする転写産物である。

図１に戻り、制御部１００は、取得部１１０と、更新部１２０と、算出部１３０と、生成部１４０と、登録有無判定部１５０とをその機能部として備える。
を備える。

取得部１１０は、次世代シーケンサーＳＱが検体ＳＰに含まれる判定対象のＲＮＡの塩基配列を抽出した結果であるアライメント結果情報ＡＲＩを取得する。この検体ＳＰには判定対象のＲＮＡの塩基配列が複数含まれる。取得部１１０は、次世代シーケンサーＳＱが検体ＳＰに含まれる複数の判定対象のＲＮＡを抽出する解析を行い、抽出した判定対象のＲＮＡの塩基配列毎のアライメント結果情報ＡＲＩを取得する。
このアライメント結果情報ＡＲＩとは、判定対象のＲＮＡの塩基配列がＤＮＡの塩基配列にアライメントされた結果を示す情報である。この一例では、アライメント結果情報ＡＲＩには、開始要素番号ＢＥと、終了要素番号ＴＥとが含まれる。開始要素番号ＢＥとは、ＤＮＡの塩基配列の先頭から末尾まで順に番号が付された場合、アライメントされた位置の先頭のＤＮＡの塩基配列の要素番号である。また、終了要素番号ＴＥとは、アライメントされた位置の最後尾のＤＮＡの塩基配列の要素番号である。取得部１１０は、取得したアライメント結果情報ＡＲＩを更新部１２０へ供給する。以降の説明において、判定対象のＲＮＡの塩基配列を単に判定対象のＲＮＡとも記載する。

以下、図５を参照してアライメント結果情報ＡＲＩの詳細について説明する。図５は、本実施形態におけるアライメント結果情報ＡＲＩの一例を示す模式図である。
この一例では、次世代シーケンサーＳＱが抽出した判定対象のＲＮＡの塩基配列が「ＣＣＧＡＧ」である場合について説明する。図５に示す通り、ＤＮＡの塩基配列のうち、判定対象のＲＮＡの塩基配列であるＣＣＧＡＧがアライメントされる箇所は、ＤＮＡの塩基配列の先頭から末尾まで順に番号が付された場合、２０番目から２４番目である。すなわち、取得部１１０は、アライメント結果情報ＡＲＩのうち、開始要素番号ＢＥとして２０を次世代シーケンサーＳＱから取得する。また、取得部１１０は、アライメント結果情報ＡＲＩのうち終了要素番号ＴＥとして２４を次世代シーケンサーＳＱから取得する。

図１に戻り、更新部１２０は、取得部１１０からアライメント結果情報ＡＲＩを取得する。更新部１２０は、取得したアライメント結果情報ＡＲＩに基づいて、アライメント配列ＡＡを更新する。アライメント配列ＡＡとは、ＤＮＡの塩基配列に含まれる塩基と同数の要素Ｅを有する配列である。また、ＤＮＡの塩基配列の先頭から順に末尾まで番号を付した場合、この番号と、アライメント配列ＡＡの要素Ｅの要素番号ＥＮとは、対応付けられている。更新部１２０は、取得したアライメント結果情報ＡＲＩに含まれる開始要素番号ＢＥと、終了要素番号ＴＥとに基づいて、アライメント配列ＡＡを更新する。具体的には、更新部１２０は、開始要素番号ＢＥによって示されるアライメント配列ＡＡの要素番号ＥＮの要素Ｅから、終了要素番号ＴＥによって示されるアライメント配列ＡＡの要素番号ＥＮの要素Ｅまでの要素Ｅの値Ｖを更新する。
以降、開始要素番号ＢＥによって示されるアライメント配列ＡＡの要素番号ＥＮの要素Ｅから、終了要素番号ＴＥによって示されるアライメント配列ＡＡの要素番号ＥＮの要素Ｅまでの要素Ｅを更新対象要素ＥＡＲと記載する。

以下、図６を参照して更新部１２０によるアライメント配列ＡＡの更新の詳細について説明する。図６は、本実施形態における更新部１２０による更新結果の一例を示す模式図である。
図６に示す通り、この一例では、開始要素番号ＢＥが２０であって、終了要素番号ＴＥが２４である場合について説明する。この場合、更新対象要素ＥＡＲは、要素番号ＥＮ２０から要素番号ＥＮ２４までの要素Ｅである。より具体的には、更新対象要素ＥＡＲは、要素番号ＥＮ２０、要素番号ＥＮ２１、要素番号ＥＮ２２、要素番号ＥＮ２３、及び要素番号ＥＮ２４の要素Ｅである。
更新部１２０は、更新対象要素ＥＡＲによって示される要素Ｅの値Ｖを更新する。つまり、更新部１２０は、アライメント配列ＡＡの要素番号ＥＮ２０、要素番号ＥＮ２１、要素番号ＥＮ２２、要素番号ＥＮ２３、及び要素番号ＥＮ２４の要素Ｅの値Ｖを更新する。
以降の説明において、要素Ｅの値Ｖを単に値Ｖとも記載する。すなわち、更新部１２０は、アライメント配列ＡＡの要素番号ＥＮ２０の値Ｖと、要素番号ＥＮ２１の値Ｖと、要素番号ＥＮ２２の値Ｖと、要素番号ＥＮ２３の値Ｖと、及び要素番号ＥＮ２４の値Ｖとを更新する。
また、この一例では、更新部１２０は、更新対象要素ＥＡＲの値Ｖに１を加えることにより、アライメント配列ＡＡを更新する。これにより、更新部１２０は、アライメント配列ＡＡをアライメント結果情報ＡＲＩ毎、かつアライメント配列ＡＡの要素Ｅが示す一塩基毎に更新する。更新部１２０は、更新したアライメント配列ＡＡを算出部１３０へ供給する。

図１に戻り、算出部１３０は、更新部１２０からアライメント配列ＡＡを取得する。算出部１３０は、取得したアライメント配列ＡＡと、更新前アライメント配列ＢＡＡとの差を算出する。更新前アライメント配列ＢＡＡとは、更新部１２０が更新する前のアライメント配列ＡＡである。
以下、図７を参照して、算出部１３０の差の算出の詳細について説明する。図７は、本実施形態における算出部１３０の算出の一例を示す模式図である。図７は、アライメント配列ＡＡに含まれる複数の要素Ｅのうち、要素番号ＥＮ１９から要素番号ＥＮ２６までの値Ｖを示す。また、図７には、更新前アライメント配列ＢＡＡに含まれる複数の要素Ｅのうち、要素番号ＥＮ１９から要素番号ＥＮ２６までの値Ｖを示す。
この一例では、更新部１２０が、アライメント結果情報ＡＲＩに基づいて、アライメント配列ＡＡの要素番号ＥＮ２０の値Ｖと、要素番号ＥＮ２１の値Ｖと、要素番号ＥＮ２２の値Ｖと、要素番号ＥＮ２３の値Ｖと、要素番号ＥＮ２４の値Ｖとをいずれも１に更新する。
また、図７に示す通り、この一例では、更新前アライメント配列ＢＡＡの要素番号ＥＮ１９から要素番号ＥＮ２６までの各値Ｖが、いずれも０である。

算出部１３０は、アライメント配列ＡＡと、更新前アライメント配列ＢＡＡとの差を算出する。具体的には、算出部１３０は、アライメント配列ＡＡと、更新前アライメント配列ＢＡＡとのうち、同じ要素番号ＥＮの値Ｖの差を算出する。
例えば、算出部１３０は、アライメント配列ＡＡの要素番号ＥＮ１の値Ｖと、更新前アライメント配列ＢＡＡの要素番号ＥＮ１の値Ｖとの差を算出する。図７に示す通り、この一例の場合、算出部１３０の算出結果は、要素番号ＥＮ２０から要素番号ＥＮ２４までの値Ｖがいずれも１である。
算出部１３０は、アライメント配列ＡＡと、更新前アライメント配列ＢＡＡとの値Ｖに差が生じる要素番号ＥＮを算出結果情報ＣＲＩとして算出する。図７に示す通り、この一例では、算出結果情報ＣＲＩとは、２０、２１、２２、２３、及び２４である。
算出部１３０は、算出結果情報ＣＲＩを生成部１４０へ供給する。

図１に戻り、生成部１４０は、算出部１３０から算出結果情報ＣＲＩを取得する。生成部１４０は、取得した算出結果情報ＣＲＩと、ＤＮＡ塩基配列情報ＤＩとに基づいて、生成ＲＮＡ配列ＥＲＡを生成する。生成ＲＮＡ配列ＥＲＡとは、アライメントされたＲＮＡの塩基配列を示す配列である。具体的には、ＤＮＡ塩基配列情報ＤＩに示されるＤＮＡの塩基配列の先頭から順に末尾まで番号を付した場合、生成部１４０は、算出結果情報ＣＲＩと、ＤＮＡの塩基配列に付した番号とが対応する塩基配列を生成する。ここで、生成部１４０が生成する算出結果情報ＣＲＩと、ＤＮＡの塩基配列に付した番号とが対応する塩基配列とは、生成ＲＮＡ配列ＥＲＡである。
ここで、算出結果情報ＣＲＩとは、算出部１３０が算出した差が生じる要素Ｅのアライメント配列ＡＡ上の位置を示す情報の一例である。また、生成ＲＮＡ配列ＥＲＡとは、位置情報の一例である。すなわち、生成部１４０は、算出部１３０が算出した差が生じる要素Ｅのアライメント配列ＡＡ上の位置に基づいて、アライメントされた位置を示す位置情報をアライメント毎に生成する。

以下、図８を参照して生成部１４０が生成ＲＮＡ配列ＥＲＡを生成する詳細について説明する。図８は、本実施形態における生成部１４０の生成の一例を示す模式図である。
この一例では、図８に示す通り、算出結果情報ＣＲＩが２０、２１、２２、２３、及び２４である。この場合、生成部１４０が生成する塩基配列とは、算出結果情報ＣＲＩと、ＤＮＡの塩基配列に付した番号とが対応する「ＣＣＧＡＧ」である。つまり、生成部１４０は、「ＣＣＧＡＧ」を生成ＲＮＡ配列ＥＲＡ１として生成する。生成部１４０は、判定対象のＲＮＡ毎に生成ＲＮＡ配列ＥＲＡを生成する。図８に示す通り、この一例では、生成部１４０は、生成ＲＮＡ配列ＥＲＡ１、生成ＲＮＡ配列ＥＲＡ２、及び生成ＲＮＡ配列ＥＲＡ３を生成する。この一例では、生成ＲＮＡ配列ＥＲＡ１とは、「ＣＣＧＡＧ」である。また、生成ＲＮＡ配列ＥＲＡ２とは、「ＴＧＴＡＧＧ」である。また、生成ＲＮＡ配列ＥＲＡ３とは、「ＴＴＣＣＴＡＧＣＧＡＧＣ」である。

生成部１４０は、ある検体ＳＰに含まれる生成ＲＮＡ配列ＥＲＡを判定対象のＲＮＡ毎に生成する。生成部１４０は、ある検体ＳＰに含まれる判定対象のＲＮＡ毎に生成した生成ＲＮＡ配列ＥＲＡを登録有無判定部１５０へ供給する。以降の説明において、ある検体ＳＰに含まれる判定対象のＲＮＡ毎に生成した複数の生成ＲＮＡ配列ＥＲＡを互いに区別しない場合には、これらを総称して生成ＲＮＡ配列ＥＲＡとも記載する。
以下、図９を参照して生成ＲＮＡ配列ＥＲＡについて説明する。図９は、本実施形態における生成ＲＮＡ配列ＥＲＡの一例を示す表である。図９に示す通り、この一例では、生成ＲＮＡ配列ＥＲＡには、生成ＲＮＡ配列ＥＲＡ１、生成ＲＮＡ配列ＥＲＡ２、及び生成ＲＮＡ配列ＥＲＡ３が含まれる。

図１に戻り、登録有無判定部１５０は、生成部１４０から生成ＲＮＡ配列ＥＲＡを取得する。また、登録有無判定部１５０は、記憶部３００から既知ＲＮＡ配列情報ＫＲＩを読み出す。登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡと、既知ＲＮＡ配列情報ＫＲＩとに基づいて、生成ＲＮＡ配列ＥＲＡに含まれる生成ＲＮＡ配列ＥＲＡが、既知ＲＮＡ配列情報ＫＲＩに含まれる既知ＲＮＡ塩基配列ＫＲＡと一致するか否かを判定する。

以下、図１０を参照して登録有無判定部１５０の判定の詳細について説明する。図１０は、本実施形態における、登録有無判定部１５０による判定の一例を示す模式図である。
図１０に示す通り、登録有無判定部１５０は、生成部１４０から生成ＲＮＡ配列ＥＲＡを取得する。また、登録有無判定部１５０は、記憶部３００から既知ＲＮＡ配列情報ＫＲＩを読み出す。登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡに含まれる生成ＲＮＡ配列ＥＲＡ毎に、当該生成ＲＮＡ配列ＥＲＡが既知ＲＮＡ配列情報ＫＲＩに含まれるか否かを検索する。具体的には、登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡが示す塩基配列が既知ＲＮＡ配列情報ＫＲＩに含まれる既知ＲＮＡ塩基配列ＫＲＡが示す塩基配列と一致するか否かを、生成ＲＮＡ配列ＥＲＡ毎に判定する。

図１０に示す一例では、登録有無判定部１５０は、複数の生成ＲＮＡ配列ＥＲＡのうち、いずれかの生成ＲＮＡ配列ＥＲＡを検索キーにして、既知ＲＮＡ配列情報ＫＲＩを検索する。
図１０に示す一例では、登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡのうち、生成ＲＮＡ配列ＥＲＡ１を検索キーにして、既知ＲＮＡ配列情報ＫＲＩを検索する。登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡ１について、既知ＲＮＡ配列情報ＫＲＩを検索した場合に、検索ヒットするか否かを判定する。ここで、検索ヒットとは、生成ＲＮＡ配列ＥＲＡ１が、既知ＲＮＡ配列情報ＫＲＩに含まれる複数の既知ＲＮＡ塩基配列ＫＲＡのうち、いずれかの既知ＲＮＡ塩基配列ＫＲＡと一致することである。すなわち、登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡ１が、既知ＲＮＡ配列情報ＫＲＩに含まれる複数の既知ＲＮＡ塩基配列ＫＲＡのうち、いずれかの既知ＲＮＡ塩基配列ＫＲＡと一致するか否かを判定する。登録有無判定部１５０は、検索ヒットした場合には、「生成ＲＮＡ配列ＥＲＡ１が既に既知ＲＮＡ配列情報ＫＲＩに含まれる」と判定する。
登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡ２以降の生成ＲＮＡ配列ＥＲＡについても、生成ＲＮＡ配列ＥＲＡ１と同様に、既知ＲＮＡ配列情報ＫＲＩを検索して、検索ヒットしたか否かを判定する。
ここで、既知ＲＮＡ配列情報ＫＲＩに含まれるＲＮＡの塩基配列は、既知のＲＮＡの塩基配列である。また、既知ＲＮＡ配列情報ＫＲＩに含まれていないＲＮＡの塩基配列は、未知のＲＮＡの塩基配列である。つまり、生成部１４０が生成したＲＮＡの塩基配列が、既知ＲＮＡ配列情報ＫＲＩに含まれていない場合には、生成部１４０が生成したＲＮＡの塩基配列が、未知のＲＮＡの塩基配列であることを示している。
ここで、ＲＮＡの塩基配列とは、転写産物のことであり、また、未知のＲＮＡの塩基配列とは、新規転写産物である。つまり、登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡが、既知ＲＮＡ配列情報ＫＲＩに含まれているか否かによって、生成ＲＮＡ配列ＥＲＡが、既知の転写産物であるか、新規転写産物であるかを判定する。

以下、図１１を参照して登録有無判定部１５０の判定結果の詳細について説明する。図１１は、本実施形態における登録有無判定部１５０の判定結果の一例を示す表である。
登録有無判定部１５０は、既知ＲＮＡ配列情報ＫＲＩに含まれる生成ＲＮＡ配列ＥＲＡ毎に当該生成ＲＮＡ配列ＥＲＡが既知ＲＮＡ配列情報ＫＲＩに含まれるか否かを判定する。
図１１に示す通り、この一例の場合、生成ＲＮＡ配列ＥＲＡ３が既知ＲＮＡ塩基配列ＫＲＡ１と一致する。このため、登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡ３が既知ＲＮＡ配列情報ＫＲＩに含まれると判定する。すなわち、この一例の場合、生成ＲＮＡ配列ＥＲＡ１と、生成ＲＮＡ配列ＥＲＡ２とは、新規転写産物である。また、この一例の場合、生成ＲＮＡ配列ＥＲＡ３とは既知の転写産物である。

以下、図１２を参照して新規転写産物抽出装置１の動作について説明する。図１２は、本実施形態における新規転写産物抽出装置１の動作の一例を示す流れ図である。
取得部１１０は、次世代シーケンサーＳＱからアライメント結果情報ＡＲＩを取得する（ステップＳ１００）。取得部１１０は、取得したアライメント結果情報ＡＲＩを更新部１２０へ供給する（ステップＳ１１０）。
更新部１２０は、取得部１１０からアライメント結果情報ＡＲＩを取得する（ステップＳ１２０）。更新部１２０は、取得したアライメント結果情報ＡＲＩに基づいて、アライメント配列ＡＡを更新する（ステップＳ１３０）。更新部１２０は、更新したアライメント配列ＡＡを算出部１３０へ供給する（ステップＳ１４０）。

算出部１３０は、更新部１２０からアライメント配列ＡＡを取得する（ステップＳ１５０）。算出部１３０は、アライメント配列ＡＡと、更新前アライメント配列ＢＡＡとに基づいて、算出結果情報ＣＲＩを算出する（ステップＳ１６０）。算出部１３０は、算出した算出結果情報ＣＲＩを生成部１４０へ供給する（ステップＳ１７０）。
生成部１４０は、算出部１３０から算出結果情報ＣＲＩを取得する（ステップＳ１８０）。生成部１４０は、記憶部３００からＤＮＡ塩基配列情報ＤＩを読み出す（ステップＳ１９０）。生成部１４０は、算出結果情報ＣＲＩと、ＤＮＡ塩基配列情報ＤＩとに基づいて、生成ＲＮＡ配列ＥＲＡを生成する（ステップＳ２００）。生成部１４０は、ある検体ＳＰに含まれる判定対象のＲＮＡ毎の生成ＲＮＡ配列ＥＲＡが含まれる生成ＲＮＡ配列ＥＲＡを登録有無判定部１５０へ供給する（ステップＳ２１０）。

登録有無判定部１５０は、生成部１４０から生成ＲＮＡ配列ＥＲＡを取得する（ステップＳ２２０）。登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡに含まれる生成ＲＮＡ配列ＥＲＡの判定が終了するまでの間、ステップＳ２４０からステップＳ２７０までの処理を繰り返す（ステップＳ２３０）。登録有無判定部１５０は、記憶部３００から既知ＲＮＡ配列情報ＫＲＩを読み出す（ステップＳ２４０）。登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡに含まれる生成ＲＮＡ配列ＥＲＡが、既知ＲＮＡ配列情報ＫＲＩに含まれるか否かを判定する（ステップＳ２５０）。生成ＲＮＡ配列ＥＲＡに含まれる生成ＲＮＡ配列ＥＲＡが、既知ＲＮＡ配列情報ＫＲＩに含まれる場合（ステップＳ２５０；ＹＥＳ）、登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡが含まれると判定する（ステップＳ２６０）。生成ＲＮＡ配列ＥＲＡに含まれる生成ＲＮＡ配列ＥＲＡが、既知ＲＮＡ配列情報ＫＲＩに含まれない場合（ステップＳ２５０；ＮＯ）、登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡが含まれないと判定する（ステップＳ２７０）。以降、新規転写産物抽出装置１は、ステップＳ１００からステップＳ２７０までの処理を検体ＳＰ毎に繰り返す。

以上説明したように、新規転写産物抽出装置１は、制御部１００と、記憶部３００とを備える。制御部１００は、取得部１１０と、更新部１２０と、算出部１３０と、生成部１４０と、登録有無判定部１５０とをその機能部として備える。
取得部１１０は、判定対象のＲＮＡの塩基配列がＤＮＡの塩基配列にアライメントされた結果を示すアライメント結果情報ＡＲＩを判定対象のＲＮＡの塩基配列毎に取得する。更新部１２０は、ＤＮＡの塩基配列に含まれる塩基の数に対応する要素Ｅを有するアライメント配列ＡＡに、アライメント結果情報ＡＲＩが示すＤＮＡの塩基配列上の位置に対応する位置の要素Ｅの値Ｖを、アライメント毎、かつ一塩基毎に更新する。算出部１３０は、更新部１２０がアライメント配列ＡＡを更新する前の要素Ｅの値Ｖと、更新した後の更新前アライメント配列ＢＡＡの要素Ｅの値Ｖとの差を算出する。生成部１４０は、要素Ｅのうち、算出部１３０が算出した算出結果情報ＣＲＩに基づいて、アライメントされた位置を示す位置情報をアライメント毎に生成する。登録有無判定部１５０は、既知のＲＮＡの塩基配列が予め複数登録されている既知ＲＮＡ配列情報ＫＲＩと、生成部１４０が生成する位置情報とに基づいて、位置情報が既知ＲＮＡ配列情報ＫＲＩに含まれるか否かを判定する。

ここで、従来の技術では、検体ＳＰに含まれる判定対象のＲＮＡの塩基配列が膨大な量であるため、データベース化されている既知のＲＮＡの塩基配列である既知転写産物の発現量を正規化された分布値として出力する解析方法が主であった。しかしながら、従来の技術では、発現量が非常に少ない既知のＲＮＡの塩基配列以外の新規転写産物は、発現を検出することができない場合があった。
本実施形態の新規転写産物抽出装置１は、次世代シーケンサーＳＱが抽出した判定対象のＲＮＡの塩基配列が、既知のＲＮＡの塩基配列であるか否かを判定する。すなわち、新規転写産物抽出装置１は、次世代シーケンサーＳＱが抽出した判定対象のＲＮＡの塩基配列が、新規転写産物であるか否かを判定することができる。すなわち、新規転写産物抽出装置１によれば、新規転写物を抽出する手間を低減することができる。

［第２実施形態］
以下、本発明の第２実施形態について図を参照して説明する。なお、上述した第１実施形態と同様の構成及び動作については、同一の符号を付してその説明を省略する。

以下、図１３を参照して第２実施形態における新規転写産物抽出装置１１について説明する。図１３は、第２実施形態における新規転写産物抽出装置１１の一例を示す模式図である。図１３に示す通り、本実施形態では、制御部１１００が、制御部１００が備える各部に加えて優先度判定部１６０と、判定結果出力部１７０とをその機能部として更に備える場合ついて説明する。
本実施形態では、登録有無判定部１５０は、既知のＲＮＡの塩基配列が予め複数登録されている既知ＲＮＡ配列情報ＫＲＩと、生成部１４０が生成する位置情報とに基づいて、位置情報によって示される生成ＲＮＡ配列ＥＲＡが既知ＲＮＡ配列情報ＫＲＩに含まれるか否かを判定した、判定結果情報ＪＩを優先度判定部１６０へ供給する。
また、本実施形態では、登録有無判定部１５０は、位置情報によって示される生成ＲＮＡ配列ＥＲＡのうち、少なくとも一部が既知ＲＮＡ配列情報ＫＲＩに含まれない場合、位置情報によって示される生成ＲＮＡ配列ＥＲＡが既知ＲＮＡ配列情報ＫＲＩに含まれないと判定する。

以下、図１４を参照して登録有無判定部１５０の判定について説明する。図１４は、本実施形態における登録有無判定部１５０の判定の一例を示す模式図である。
図１４に示す通り、ＤＮＡ塩基配列情報ＤＩに示すＤＮＡの塩基配列のうち、既知ＲＮＡ配列情報ＫＲＩに含まれる既知ＲＮＡ塩基配列ＫＲＡの鋳型である塩基と、既知ＲＮＡ配列情報ＫＲＩに含まれる既知ＲＮＡ塩基配列ＫＲＡの鋳型でない塩基とが存在する。この一例では、図１４に示す通り、ＤＮＡの塩基配列の先頭から順に末尾まで番号を付した場合、１から１８までと、３０から６６までとが既知ＲＮＡ配列情報ＫＲＩに含まれる既知ＲＮＡ塩基配列ＫＲＡの鋳型である塩基である。また、図１４に示す通り、ＤＮＡの塩基配列の先頭から順に末尾まで番号を付した場合、１９から２９までと、６７から７２までとが既知ＲＮＡ配列情報ＫＲＩに含まれる既知ＲＮＡ塩基配列ＫＲＡの鋳型でない塩基である。
以降の説明において、ＤＮＡ塩基配列情報ＤＩに示すＤＮＡの塩基配列のうち、既知ＲＮＡ配列情報ＫＲＩに含まれる既知ＲＮＡ塩基配列ＫＲＡの鋳型である塩基が示す塩基配列の範囲を、既知塩基範囲ＫＥと記載する。また、ＤＮＡ塩基配列情報ＤＩに示すＤＮＡの塩基配列のうち、既知ＲＮＡ配列情報ＫＲＩに含まれる既知ＲＮＡ塩基配列ＫＲＡの鋳型でない塩基が示す塩基配列の範囲を未知塩基範囲ＵＫＥと記載する。
登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡが示す塩基配列の各塩基が既知塩基範囲ＫＥに含まれるか、含まれないか、又は一部が含まれるかを判定する。

以下、図１５を参照して登録有無判定部１５０の判定結果について説明する。図１５は、本実施形態における登録有無判定部１５０の判定結果の一例を示す模式図である。
図１５に示す通り、この一例では、登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡ１１と、生成ＲＮＡ配列ＥＲＡ１２と、生成ＲＮＡ配列ＥＲＡ１３とについて判定する。
図１５に示す通り、生成ＲＮＡ配列ＥＲＡ１１が示す塩基配列を構成する各塩基は、いずれも未知塩基範囲ＵＫＥの塩基である。また、生成ＲＮＡ配列ＥＲＡ１２が示す塩基配列を構成する各塩基は、いずれも既知塩基範囲ＫＥの塩基である。また、生成ＲＮＡ配列ＥＲＡ１３が示す塩基配列を構成する各塩基は、一部が既知塩基範囲ＫＥの塩基であって、一部が未知塩基範囲ＵＫＥの塩基である。

以下、図１６を参照して、登録有無判定部１５０の判定結果を示す判定結果情報ＪＩについて説明する。図１６は、本実施形態における登録有無判定部１５０の判定結果を示す判定結果情報ＪＩの一例を示す表である。図１６に示す通り、登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡ１１を、既知ＲＮＡ配列情報ＫＲＩの示す既知塩基範囲ＫＥの範囲に含まれないと判定する。また、登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡ１２を、既知ＲＮＡ配列情報ＫＲＩの示す既知塩基範囲ＫＥの範囲に含まれると判定する。また、登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡ１３を、既知ＲＮＡ配列情報ＫＲＩの示す既知塩基範囲ＫＥの範囲に一部含まれると判定する。
以降の説明において、生成ＲＮＡ配列ＥＲＡに示す塩基配列の各塩基が未知塩基範囲ＵＫＥであるか、既知塩基範囲ＫＥであるかを登録有無判定部１５０が判定した結果を塩基範囲判定ＢＡＪと記載する。
登録有無判定部１５０は、生成ＲＮＡ配列ＥＲＡ毎に塩基範囲判定ＢＡＪを判定した判定結果情報ＪＩを優先度判定部１６０へ供給する。

図１３に戻り、優先度判定部１６０は、登録有無判定部１５０から判定結果情報ＪＩを取得する。優先度判定部１６０は、判定結果情報ＪＩに基づいて、生成ＲＮＡ配列ＥＲＡに含まれる生成ＲＮＡ配列ＥＲＡ毎に優先度Ｐを判定する。
具体的には、優先度判定部１６０は、生成ＲＮＡ配列ＥＲＡが示す塩基配列を構成する各塩基が、いずれも未知塩基範囲ＵＫＥの塩基である場合、優先度Ｐが高いと判定する。また、優先度判定部１６０は、生成ＲＮＡ配列ＥＲＡが示す塩基配列を構成する各塩基が、いずれも既知塩基範囲ＫＥ塩基である場合、優先度Ｐが低いと判定する。
優先度判定部１６０は、判定結果情報ＪＩに基づいて、生成ＲＮＡ配列ＥＲＡに含まれる生成ＲＮＡ配列ＥＲＡ毎に優先度Ｐを判定した結果である優先度判定結果情報ＰＪＩを判定結果出力部１７０へ供給する。

以下、図１７を参照して、優先度判定部１６０の判定結果を示す優先度判定結果情報ＰＪＩについて説明する。図１７は、本実施形態における優先度判定部１６０の判定結果を示す優先度判定結果情報ＰＪＩの一例を示す表である。図１７に示す通り、この一例では、生成ＲＮＡ配列ＥＲＡ１１の塩基範囲判定ＢＡＪが既知塩基範囲ＫＥの範囲に含まれないことを示す。この場合、優先度判定部１６０は、生成ＲＮＡ配列ＥＲＡ１１の優先度Ｐが高いと判定する。また、この一例では、生成ＲＮＡ配列ＥＲＡ１２の塩基範囲判定ＢＡＪが既知塩基範囲ＫＥの範囲に含まれることを示す。この場合、優先度判定部１６０は、生成ＲＮＡ配列ＥＲＡ１２の優先度Ｐを低いと判定する。また、この一例では、生成ＲＮＡ配列ＥＲＡ１３の塩基範囲判定ＢＡＪが既知塩基範囲ＫＥの範囲に一部含まれることを示す。この場合、優先度判定部１６０は、生成ＲＮＡ配列ＥＲＡ１３の優先度Ｐを中であると判定する。

図１３に戻り、判定結果出力部１７０は、優先度判定部１６０から優先度判定結果情報ＰＪＩを取得する。判定結果出力部１７０は、優先度判定結果情報ＰＪＩに基づいて、生成ＲＮＡ配列ＥＲＡに含まれる生成ＲＮＡ配列ＥＲＡが示す塩基配列を出力する。
この一例では、判定結果出力部１７０は、優先度判定結果情報ＰＪＩが高い生成ＲＮＡ配列ＥＲＡが示す塩基配列を出力する。

以上説明したように、新規転写産物抽出装置１１は、優先度判定部１６０と、判定結果出力部１７０とを更に備える。
登録有無判定部１５０は、位置情報である生成ＲＮＡ配列ＥＲＡによって示される生成ＲＮＡ配列ＥＲＡの塩基配列のうち、少なくとも一部が既知ＲＮＡ配列情報ＫＲＩに含まれない未知塩基範囲ＵＫＥである場合、位置情報によって示される生成ＲＮＡ配列ＥＲＡが既知ＲＮＡ配列情報ＫＲＩに含まれないと判定する。登録有無判定部１５０は、判定した判定結果情報ＪＩを優先度判定部１６０へ供給する。優先度判定部１６０は、取得した判定結果情報ＪＩに基づいて、位置情報によって示される生成ＲＮＡ配列ＥＲＡの優先度Ｐを判定する。優先度判定部１６０は、判定した優先度判定結果情報ＰＪＩを判定結果出力部１７０へ供給する。判定結果出力部１７０は、取得した優先度判定結果情報ＰＪＩに基づいて、位置情報によって示される生成ＲＮＡ配列ＥＲＡを出力する。
これにより、新規転写産物抽出装置１１は、次世代シーケンサーＳＱが抽出した判定対象のＲＮＡの塩基配列が、新規転写産物であるか否か、又は新規転写産物が含まれるかに基づいて、結果を出力することができる。すなわち、新規転写産物抽出装置１１は、既知の転写産物、及び新規転写産物の抽出結果を互いに区別して出力することができる。

また、優先度判定部１６０は、位置情報によって示される生成ＲＮＡ配列ＥＲＡのうち、すべてが既知ＲＮＡ配列情報ＫＲＩに含まれない場合、優先度Ｐが高いと判定し、位置情報によって示される生成ＲＮＡ配列ＥＲＡのうち、すべてが既知ＲＮＡ配列情報ＫＲＩに含まれる場合、優先度Ｐが低いと判定する。
これにより、新規転写産物抽出装置１１は、次世代シーケンサーＳＱが抽出した判定対象のＲＮＡの塩基配列が、新規転写産物である場合、優先度Ｐが高いと判定され、優先度Ｐが高いものから結果を出力することができる。すなわち、新規転写産物抽出装置１１は、優先度Ｐに基づいて、新規転写産物の抽出結果を優先して出力することができる。

［第３実施形態］
以下、本発明の第３実施形態及について図を参照して説明する。なお、上述した第１実施形態及び第２実施形態と同様の構成及び動作については、同一の符号を付してその説明を省略する。

以下、図１８を参照して第３実施形態における新規転写産物抽出装置１２について説明する。図１８は、第３実施形態における新規転写産物抽出装置１２の一例を示す模式図である。図１８に示す通り、本実施形態では、制御部１２００が、制御部１００が備える各部に加えてＲＮＡ分布配列生成部１８０をその機能部として更に備える。
ＲＮＡ分布配列生成部１８０は、検体ＳＰに含まれる複数の判定対象のＲＮＡの塩基配列が、判定対象のＲＮＡの塩基配列毎に蓄積されたＲＮＡ分布配列ＤＡを検体ＳＰ毎に生成する。
具体的には、ＲＮＡ分布配列生成部１８０は、ある検体ＳＰに含まれる判定対象のＲＮＡの塩基配列のアライメント結果情報ＡＲＩに基づいて、更新部１２０が更新したアライメント配列ＡＡを取得する。ＲＮＡ分布配列生成部１８０は、取得したアライメント配列ＡＡをＲＮＡ分布配列ＤＡに加算する。ＲＮＡ分布配列ＤＡとは、アライメント配列ＡＡと同数の要素Ｅを有する配列である。また、ＤＮＡの塩基配列の先頭から順に末尾まで番号を付した場合、この番号と、ＲＮＡ分布配列ＤＡの要素Ｅの要素番号ＥＮとは、対応付けられている。
ＲＮＡ分布配列生成部１８０は、検体ＳＰ毎にＲＮＡ分布配列ＤＡを生成する。

以下、図１９を参照してＲＮＡ分布配列ＤＡの詳細について説明する。図１９は、本実施形態におけるＲＮＡ分布配列ＤＡの一例を示す表である。
図１９に示す通り、アライメント配列ＡＡの値Ｖが蓄積されることにより、ＲＮＡ分布配列ＤＡの各要素Ｅの値Ｖには、ある検体ＳＰに含まれる判定対象のＲＮＡの塩基配列がアライメントされた塩基毎の回数が示される。例えば、図１９に示す通り、この一例では、ＲＮＡ分布配列ＤＡの要素番号ＥＮ３の値Ｖが１である。つまり、ある検体ＳＰに含まれる複数の判定対象のＲＮＡの塩基配列の塩基が、ＲＮＡ分布配列ＤＡの要素番号ＥＮ３に対応するＤＮＡの塩基配列の塩基の位置に１回アライメントされたことを示す。ＲＮＡ分布配列ＤＡの各値Ｖも同様に、ある検体ＳＰに含まれる複数の判定対象のＲＮＡの塩基配列の塩基がアライメントされた回数を示す。
これにより、ＲＮＡ分布配列ＤＡには、検体ＳＰ毎にアライメントされる塩基の分布が示される。

以上説明したように、新規転写産物抽出装置１２は、ＲＮＡ分布配列生成部１８０を更に備える。
ＲＮＡ分布配列生成部１８０は、検体ＳＰに含まれる複数の判定対象のＲＮＡ塩基配列のアライメント結果情報ＡＲＩが複数のＲＮＡの塩基配列毎に蓄積されたＲＮＡ分布配列ＤＡを検体ＳＰ毎に生成する。
これにより、新規転写産物抽出装置１２は、検体ＳＰ毎にＲＮＡ分布配列ＤＡを生成する。例えば、病体である検体ＳＰのＲＮＡ分布配列ＤＡと、健康体の検体ＳＰのＲＮＡ分布配列ＤＡとを比較することにより、病体である検体ＳＰの転写産物の分布の傾向を確認することができる。

なお、上記の各実施形態における新規転写産物抽出装置１、新規転写産物抽出装置１２及び新規転写産物抽出装置１３が備える各部は、専用のハードウェアにより実現されるものであってもよく、また、メモリおよびマイクロプロセッサにより実現させるものであってもよい。

なお、新規転写産物抽出装置１、新規転写産物抽出装置１２及び新規転写産物抽出装置１３が備える各部は、メモリおよびＣＰＵ（中央演算装置）により構成され、新規転写産物抽出装置１、新規転写産物抽出装置１２及び新規転写産物抽出装置１３が備える各部の機能を実現するためのプログラムをメモリにロードして実行することによりその機能を実現させるものであってもよい。

また、新規転写産物抽出装置１、新規転写産物抽出装置１２及び新規転写産物抽出装置１３が備える各部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

以上、本発明の実施形態を、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることができる。上述した各実施形態に記載の構成を組み合わせてもよい。

１，１２，１３…新規転写産物抽出装置、１００，１１００，１２００…制御部、１１０…取得部、１２０…更新部、１３０…算出部、１４０…生成部、１５０…登録有無判定部、１６０…優先度判定部、１７０…判定結果出力部、１８０…ＲＮＡ分布配列生成部、ＡＲＩ…アライメント結果情報、ＡＡ…アライメント配列、ＢＡＡ…更新前アライメント配列、ＫＲＩ…既知ＲＮＡ配列情報、ＫＲＡ…既知ＲＮＡ塩基配列、ＥＲＡ…生成ＲＮＡ配列

Claims

判定対象のＲＮＡの塩基配列がＤＮＡの塩基配列にアライメントされた結果を示すアライメント結果情報を前記判定対象のＲＮＡの塩基配列毎に取得する取得部と、
前記ＤＮＡの塩基配列に含まれる塩基の数に対応する要素を有するアライメント配列に、アライメント結果情報が示すＤＮＡの塩基配列上の位置に対応する位置の要素の値を、アライメント毎、かつ一塩基毎に更新する更新部と、
前記更新部が前記アライメント配列を更新する前の前記要素の値と、更新した後の当該要素の値との差を算出する算出部と、
前記要素のうち、前記算出部が算出した差が生じる要素のアライメント配列上の位置に基づいて、アライメントされた位置を示す位置情報をアライメント毎に生成する生成部と、
既知のＲＮＡの塩基配列が予め複数登録されているＲＮＡ配列情報と、前記生成部が生成する前記位置情報とに基づいて、前記位置情報によって示されるＲＮＡの塩基配列が前記ＲＮＡ配列情報に含まれるか否かを判定する登録有無判定部と
を備えることを特徴とする新規転写産物抽出装置。
前記登録有無判定部は、
前記位置情報によって示されるＲＮＡの塩基配列のうち、少なくとも一部が前記ＲＮＡ配列情報に含まれない場合、前記位置情報によって示されるＲＮＡの塩基配列が前記ＲＮＡ配列情報に含まれないと判定し、
前記登録有無判定部の判定結果に基づいて、前記位置情報によって示されるＲＮＡの塩基配列の優先度を判定する優先度判定部
を更に備え、
前記優先度判定部が判定した優先度に基づいて、前記位置情報によって示されるＲＮＡの塩基配列を出力する判定結果出力部
を更に備える
ことを特徴とする請求項１に記載の新規転写産物抽出装置。
前記優先度判定部は、
前記位置情報によって示されるＲＮＡの塩基配列のうち、すべてが前記ＲＮＡ配列情報に含まれない場合、前記優先度が高いと判定し、前記位置情報によって示されるＲＮＡの塩基配列のうち、すべてが前記ＲＮＡ配列情報に含まれる場合、前記優先度が低いと判定する
ことを特徴とする請求項２に記載の新規転写産物抽出装置。
検体は複数のＲＮＡの塩基配列を含み、
検体に含まれる複数のＲＮＡの塩基配列のアライメント結果が前記複数のＲＮＡの塩基配列毎に蓄積されたＲＮＡ分布配列を前記検体毎に生成するＲＮＡ分布配列生成部
を更に備える
ことを特徴とする請求項１から請求項３のいずれか一項に記載の新規転写産物抽出装置。
コンピュータに、
判定対象のＲＮＡの塩基配列がＤＮＡの塩基配列にアライメントされた結果を示すアライメント結果情報を前記判定対象のＲＮＡの塩基配列毎に取得する取得ステップと、
前記ＤＮＡの塩基配列に含まれる塩基の数に対応する要素を有するアライメント配列に、アライメント結果情報が示すＤＮＡの塩基配列上の位置に対応する位置の要素の値を、アライメント毎、かつ一塩基毎に更新する更新ステップと、
前記更新ステップが前記アライメント配列を更新する前の前記要素の値と、更新した後の当該要素の値との差を算出する算出ステップと、
前記要素のうち、前記算出ステップが算出した差が生じる要素のアライメント配列上の位置に基づいて、アライメントされた位置を示す位置情報をアライメント毎に生成する生成ステップと、
既知のＲＮＡの塩基配列が予め複数登録されているＲＮＡ配列情報と、前記生成ステップが生成する前記位置情報とに基づいて、前記位置情報によって示されるＲＮＡの塩基配列が前記ＲＮＡ配列情報に含まれるか否かを判定する登録有無判定ステップと
を実行させるための新規転写産物抽出プログラム。