JP2008146538A - マイクロrna検出装置、方法およびプログラム - Google Patents

マイクロrna検出装置、方法およびプログラム Download PDF

Info

Publication number
JP2008146538A
JP2008146538A JP2006335470A JP2006335470A JP2008146538A JP 2008146538 A JP2008146538 A JP 2008146538A JP 2006335470 A JP2006335470 A JP 2006335470A JP 2006335470 A JP2006335470 A JP 2006335470A JP 2008146538 A JP2008146538 A JP 2008146538A
Authority
JP
Japan
Prior art keywords
base
microrna
model
mirna
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006335470A
Other languages
English (en)
Inventor
Goro Terai
悟朗 寺井
Daishin Kin
大真 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Intec Web and Genome Informatics
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Intec Web and Genome Informatics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST, Intec Web and Genome Informatics filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2006335470A priority Critical patent/JP2008146538A/ja
Publication of JP2008146538A publication Critical patent/JP2008146538A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】塩基配列情報をバイオインフォマティクス技術により処理したときの塩基配列上のマイクロRNA領域の検出精度を向上する。
【解決手段】マイクロRNA検出装置1は、入力された検出処理対象の塩基配列情報から生成した塩基ベクトル列データと、既知マイクロRNAの確率モデルであるマイクロRNAモデルとを用いて、塩基配列上でマイクロRNAモデルに適合する領域を求める。塩基ベクトル列データは、塩基配列の各塩基に対応する塩基ベクトルの列であり、各塩基ベクトルは、マイクロRNAの特徴である進化的保存度のパラメータと、安定ヘアピン構造を特徴付ける2次構造のパラメータを含んでいる。塩基ベクトルは、2次構造に関しては、、最小自由エネルギーのパラメータに加えて、ステムパラメータおよびループパラメータを含む。マイクロRNAモデルとしては隠れマルコフモデルが使われる。
【選択図】 図1

Description

本発明は、マイクロRNA検出装置に関し、特に、バイオインフォマティクス技術によってゲノム等の塩基配列情報を解析してマイクロRNA領域を検出する装置に関する。
マイクロRNA(以下、miRNA)はノンコーディングRNAの中で最もよく研究されたファミリーである。miRNAはmRNAの3’UTRに結合し、翻訳阻害やmRNA分解を引き起こすことで遺伝子の発現を制御することができる。これまでに数百のmiRNAがヒトゲノム内に発見されている。また、最近の計算機解析で、数千ものヒト遺伝子がmiRNAに制御を受けていることが示唆されている。哺乳類の細胞分化や発生におけるmiRNAの重要性もいくつかの研究により示されている。多くのmiRNAは癌に関連した染色体不安定部位に存在し、癌細胞では異なる発現制御を受けている。このことは、miRNAと癌には関連性があることを示唆している。したがって、新規のmiRNAを発見することは生物学的にも医学的にも大きな意義がある。
miRNAは、pri−miRNAと呼ばれる長いRNA分子として転写される。そして、pri−miRNAがプロセシングされてpre−miRNAと呼ばれる70〜100bp程度のヘアピン構造になる。最後に、19〜23bpの成熟miRNAがpre−miRNAからDicerという酵素により切り出される。以後、本明細書では、pre−miRNAを単に“miRNA(マイクロRNA)”と記述する。
miRNAは安定したヘアピン構造をとる傾向があり、その多くは脊椎動物内で高度に保存されているので、2次構造の安定性と進化的な保存を利用したmiRNA検出方法がいくつか開発されている。
従来技術としては、相同性検索と2次構造予測を段階的に組み合わせたパイプラインが提案されている。まず、1段階目で、保存されたヘアピン構造が遺伝子間領域内で同定される。次に、2段階目で、そのヘアピン構造の中から、miRNAに典型的な突然変異パターンを持つものが選択される。あるいは、2段階目では、対称なバルジや、ヘアピンループ付近の高度に保存されたステムなど、miRNAに特異的な特徴を持つものが同定される。
また、miRNAだけでなくその周辺領域の保存パターンを考慮に入れた方法も開発されている。まず相同性の高い遺伝子間領域が同定される。次にその中からmiRNAに典型的な保存パターンをもち、かつ安定した2次構造をとりそうな領域を抽出する。
また、最近、新しいmiRNAの候補がデータベースにより公開されている。このデータベースでは、プログラムを用いて予測されたnon−coding RNAの中から安定したヘアピン構造をとりそうなものをmiRNA候補とみなしている。また、マルチプルアライメントにあらわれるいくつかのタイプの2次構造と保存度の特徴を統合したSVMに基づく方法も報告されている。
これらとは違ったタイプのmiRNA予測手法もある。相同性に基づく手法が提案されており、この手法では既知のmiRNAに対する配列と構造の相同性が評価される。また、ターゲット配列駆動型のアプローチが報告されており、そこでは保存された3’UTRに頻出する配列断片を持つヘアピン構造がmiRNA候補とみなされる。配列の保存性を利用しない手法も提案されており、そこでは塩基頻度、予測されたステムの長さ、対称なループの大きさなどの、構造と配列上の詳細な特徴が機械学習アルゴリズムの特徴量として使用されている。
従来のmiRNAの検出技術は例えば非特許文献1に開示されている。
Lim,L.P. et al. "The microRNAs of Caenorhabditis elegans," "GENES & DEVELOPMENT," Cold Spring Harbor Laboratory Press, April 2, 2003, vol.17, pp991-1008, www.genesdev.org
上記のように、従来よりマイクロRNAを検出するための幾つかの技術が提案されているが、マイクロRNAが注目を集める中で、マイクロRNAを高精度で検出できるさらなる技術の提供が望まれている。特に、ヒトゲノム配列などから新規のマイクロRNAを網羅的に検出するといった実用的用途に耐え得るようなマイクロRNA検出技術の提供が望まれる。
そこで、本発明は上記背景の下でなされたものであり、その目的は、マイクロRNAの検出精度を向上できるマイクロRNA検出装置を提供することにある。
本発明の一態様は、塩基配列情報からマイクロRNA領域を検出するマイクロRNA検出装置であって、検出処理対象の塩基配列情報を入力する入力部と、前記検出処理対象の塩基配列情報から、配列中に含まれる複数の塩基にそれぞれ対応する複数の塩基ベクトルで構成され、マイクロRNAを特徴付ける複数種類のパラメータが各塩基ベクトルに含まれる塩基ベクトル列データを生成する塩基ベクトル列生成部と、既知マイクロRNA群から生成され、前記既知マイクロRNA群の中の複数の既知マイクロRNAにそれぞれ対応する複数の前記塩基ベクトル列データを含む塩基ベクトル列群の確率モデルであるマイクロRNAモデルを記憶するマイクロRNAモデル記憶部と、前記塩基ベクトル列生成部により生成された前記塩基ベクトル列データと前記マイクロRNAモデル記憶部の前記マイクロRNAモデルに基づき、前記検出処理対象の塩基配列上で前記マイクロRNAモデルに適合する領域をマイクロRNA領域として検出するマイクロRNA検出部と、を備え、前記塩基ベクトル列データを構成する前記各塩基ベクトルの複数種類のパラメータは、前記各塩基ベクトルの対応塩基における進化的保存度を表す保存度パラメータと安定ヘアピン構造を特徴付ける2次構造パラメータとを含み、前記2次構造パラメータは、前記対応塩基の周辺領域の最小自由エネルギーを表すエネルギーパラメータと、塩基配列中の2つの塩基が塩基対を作る塩基対確率に基づいて前記対応塩基が前記ヘアピン構造のステム部に位置する可能性の高さを表すステムパラメータと、前記塩基対確率に基づいて前記対応塩基が前記ヘアピン構造のループ部に位置する可能性の高さを表すループパラメータとを含む。ステムパラメータおよびループパラメータは、各対応塩基がステム部およびループ部に位置する確率の大きさを表してよい。
上記のように、本発明によれば、検出処理対象の塩基配列情報から生成した塩基ベクトル列データと、既知マイクロRNAの確率モデルであるマイクロRNAモデルとを用いて、塩基配列上でマイクロRNAモデルに適合する領域を求めることにより、マイクロRNA領域を検出することができる。本発明では、塩基ベクトル列データを構成する各塩基ベクトルが、マイクロRNAの特徴である進化的保存度のパラメータと安定ヘアピン構造のパラメータを含んでおり、特に、安定ヘアピン構造に関して、最小自由エネルギーのパラメータに加えて、上記のように各塩基がステムおよびループに相当する可能性を塩基対確率に基づいて表すパラメータを含んでおり、このようなベクトル表現を採用することによりマイクロRNAの検出精度を向上できる。
前記マイクロRNAモデルは隠れマルコフモデルであってよく、前記マイクロRNA検出部は、前記隠れマルコフモデルを用いて可変長のマイクロRNA領域検出を行ってよい。
前記マイクロRNAモデルは、配列長さが一定でない既知マイクロRNA群から生成されてよい。
前記マイクロRNAモデルの前記隠れマルコフモデルは、塩基配列の各塩基に各状態が対応する状態遷移モデルであってよく、状態遷移経路が通過可能な状態数が所定の範囲に制限されてよい。
前記マイクロRNAモデルの前記隠れマルコフモデルは、塩基配列の各塩基に各状態が対応する状態遷移モデルであってよく、状態遷移経路に拘わらず、状態遷移経路上の状態遷移確率の積が同じになるようにモデル各部の状態遷移確率が設定されていてよい。
前記ループパラメータは、塩基対確率行列に基いた、前記対応塩基を中心として順次外側に位置する塩基対に対応する塩基対確率の合計である塩基対確率合計を含んでよい。
前記ループパラメータの前記塩基対確率合計は、前記ループ部の塩基数が偶数である場合を想定し、前記対応塩基とその隣の塩基を最初の塩基対としたときに順次外側に位置する塩基対に対応する塩基対確率の合計も含んでよい。
前記ループパラメータは、前記対応塩基の周囲の所定範囲における複数の塩基にそれぞれ対応する複数の前記塩基対確率合計の重み付け平均値であってよい。
前記マイクロRNAモデル記憶部は、さらに、マイクロRNAに該当しないことが既知である非マイクロRNA群から生成される確率モデルである非マイクロRNAモデルを記憶してよく、前記マイクロRNA検出部は、前記マイクロRNAモデルに適合し前記非マイクロRNAモデルに非適合の領域をマイクロRNA領域として検出してよい。
前記マイクロRNAモデル記憶部は、進化的保存度が異なる複数の非マイクロRNA群からそれぞれ生成された複数の非マイクロRNAモデルを記憶していてよい。
前記ステムパラメータは、前記対応塩基が5’側のステム部に位置する確率を表すパラメータと、前記対応塩基が3’側のステム部に位置する確率を表すパラメータとを含んでよい。
本発明の別の態様は、塩基配列情報をコンピュータで処理することによってマイクロRNA領域を検出するマイクロRNA検出方法であって、検出処理対象の塩基配列情報を入力し、前記検出処理対象の塩基配列情報から、配列中に含まれる複数の塩基にそれぞれ対応する複数の塩基ベクトルで構成され、マイクロRNAを特徴付ける複数種類のパラメータが各塩基ベクトルに含まれる塩基ベクトル列データを生成し、既知マイクロRNA群の中の複数の既知マイクロRNAにそれぞれ対応する複数の前記塩基ベクトル列データを含む塩基ベクトル列群の確率モデルであるマイクロRNAモデルを用いて、前記検出処理対象の塩基配列上で前記マイクロRNAモデルに適合する領域をマイクロRNA領域として検出する処理を行い、前記塩基ベクトル列データを構成する前記各塩基ベクトルの複数種類のパラメータは、前記各塩基ベクトルの対応塩基における進化的保存度を表す保存度パラメータと安定ヘアピン構造を特徴付ける2次構造パラメータとを含み、前記2次構造パラメータは、前記対応塩基の周辺領域の最小自由エネルギーを表すエネルギーパラメータと、塩基配列中の2つの塩基が塩基対を作る塩基対確率に基づいて前記対応塩基が前記ヘアピン構造のステム部に位置する可能性の高さを表すステムパラメータと、前記塩基対確率に基づいて前記対応塩基が前記ヘアピン構造のループ部に位置する可能性の高さを表すループパラメータとを含む。この態様によっても上述の本発明の利点が得られる。
本発明の別の態様は、塩基配列情報からマイクロRNA領域を検出するマイクロRNA検出処理をコンピュータに実行させるマイクロRNA検出プログラムであって、入力された検出処理対象の塩基配列情報から、配列中に含まれる複数の塩基にそれぞれ対応する複数の塩基ベクトルで構成され、マイクロRNAを特徴付ける複数種類のパラメータが各塩基ベクトルに含まれる塩基ベクトル列データを生成し、既知マイクロRNA群の中の複数の既知マイクロRNAにそれぞれ対応する複数の前記塩基ベクトル列データを含む塩基ベクトル列群の確率モデルであるマイクロRNAモデルを用いて、前記検出処理対象の塩基配列上で前記マイクロRNAモデルに適合する領域をマイクロRNA領域として検出する処理を前記コンピュータに実行させ、前記塩基ベクトル列データを構成する前記各塩基ベクトルの複数種類のパラメータは、前記各塩基ベクトルの対応塩基における進化的保存度を表す保存度パラメータと安定ヘアピン構造を特徴付ける2次構造パラメータとを含み、前記2次構造パラメータは、前記対応塩基の周辺領域の最小自由エネルギーを表すエネルギーパラメータと、塩基配列中の2つの塩基が塩基対を作る塩基対確率に基づいて前記対応塩基が前記ヘアピン構造のステム部に位置する可能性の高さを表すステムパラメータと、前記塩基対確率に基づいて前記対応塩基が前記ヘアピン構造のループ部に位置する可能性の高さを表すループパラメータとを含む。この態様によっても上述の本発明の利点が得られる。
本発明は、マイクロRNA検出装置以外の別の態様で表されてよく、例えば上記の方法またはプログラムの態様で表されてよく、また、同プログラムを記録したコンピュータ読取可能な記録媒体でもよい。また、本発明の別の態様は、例えば、上記のマイクロRNAモデル作成装置、方法、プログラムまたは記録媒体でもよく、マイクロRNAモデルに加えて非マイクロRNAモデルも作成されてよい。また、本発明の別の態様も、マイクロRNA検出装置の態様に関して述べられた各種の付加的特徴を含んでよい。
上記のように、本発明によれば、上述のマイクロRNAモデルを用いてマイクロRNAの検出精度を向上することができる。
以下、本発明の好適な実施の形態に係るマイクロRNA検出装置について、図面を用いて説明する。本実施の形態では、マイクロRNAとして、pre−miRNAが検出される。以下では、検出されるpre−miRNAを、miRNAと記述する。
概要としては、隠れマルコフモデル(HMM)を用いた新しいmiRNA予測技術が提案される。この技術は、miRNAとその周辺領域の保存性と2次構造の特徴を、多次元の連続値ベクトル列で表現する。そして、Continuous HMMと呼ばれる連続値を出力するHMMを使って、miRNA周辺の特徴がモデル化される。2つのタイプの2次構造情報、つまり最小自由エネルギーのZ−SCOREと塩基対確立行列を利用した。それらを組み合わせることで予測精度が向上した。また、miRNAは、複数の特徴を統合することにより得られる尤度という一つの指標を使って予測される。それゆえ、従来の複数段階からなるパイプラインで用いられるような、それぞれの段階に割り当てられる恣意的な閾値を導入する影響を最小限にすることができる。その上、miRNAの長さのバリエーションをモデル化することができる。これは固定長の窓幅が使われるSVMに基づく方法に対する利点である。
図1は、本実施の形態に係るmiRNA検出装置の構成を示すブロック図である。図1において、miRNA検出装置1はコンピュータ装置であり、演算装置であるCPUと、RAM、ROM等の記憶装置と、キーボードおよびポインティングデバイス等の入力装置と、ディスプレイおよびプリンタ等の出力装置と、ハードディスク等の外部記憶装置を備えている。miRNA検出装置1はネットワーク等との通信機能を備え、この通信機能が情報の入出力部として機能してもよい。
miRNA検出装置1は、検出処理対象の塩基配列情報を入力し、記憶されているプログラムを実行することにより塩基配列情報を処理してmiRNA領域を検出し、検出結果を出力するように構成される。図1に示されるように、miRNA検出装置1は、入力部3、塩基ベクトル列生成部5、miRNAモデル記憶部7、miRNA検出部9および出力部11で構成されている。
入力部3は、miRNA検出装置1の入力装置によって実現され、検出処理対象の塩基配列情報を入力する。塩基配列情報は例えば記録媒体からmiRNA検出装置1に読み込まれてよく、この場合は記録媒体の読書手段が入力装置として機能する。検出処理対象の塩基配列情報は、miRNAの検出元(検出源)の塩基配列情報であり、例えば、ヒトゲノムのデータである。
塩基ベクトル列生成部5は、入力部3により入力された塩基配列情報から塩基ベクトル列データを生成する。塩基ベクトル列生成部5は、miRNA検出装置1の演算機能で実現され、miRNA検出装置1に記憶されたプログラムを実行して塩基ベクトル列データを求める。塩基ベクトル列データは、検出対象の塩基配列情報に含まれる複数の塩基にそれぞれ対応する複数の塩基ベクトルの列であり、各塩基ベクトルにはmiRNAを特徴付ける複数種類のパラメータが含まれる。それら複数のパラメータについては後述する。
miRNAモデル記憶部7は、miRNA検出装置1の記憶装置で構成され、既知miRNA群から生成されたmiRNAモデルを記憶する。miRNAモデルは、既知miRNA群の中の複数の既知miRNAにそれぞれ対応する複数の塩基ベクトル列データからなる塩基ベクトル列群の特徴を表す確率モデルである。本実施の形態では、miRNAは隠れマルコフモデル(以下、HMMモデルという)である。
miRNAモデル記憶部7は、さらに、miRNAに該当しないことが既知である非miRNA群から生成された非miRNAモデルも記憶している。非miRNAモデルもHMMモデルである。そして、miRNAモデルと非miRNAモデルはHMM内で状態遷移可能に連結されている。
miRNA検出部9は、miRNA検出装置1の演算機能で実現され、miRNA検出装置1に記憶されたプログラムを実行することでmiRNA領域を検出する。miRNA検出部9は、塩基ベクトル列生成部5により生成された塩基ベクトル列データとmiRNAモデル記憶部7のmiRNAモデルに基づき、検出処理対象の塩基配列上でmiRNAモデルに適合する領域をmiRNA領域として検出する。より詳細には、miRNA検出部9は、miRNAモデルに適合し非miRNAモデルに非適合の領域をmiRNA領域として検出する。
出力部11は、miRNA検出部9により検出されたmiRNA領域の情報を出力する。出力部11は、miRNA検出装置1の出力装置で実現される。検出結果はディスプレイまたはプリンタに出力されてよい。検出結果は記録媒体へと書き込まれてよく、この場合は記録媒体の読書手段が出力装置として機能する。
上記のmiRNA検出装置1は、単独のコンピュータで構成されてもよく、複数のコンピュータで構成されてもよい。それら複数のコンピュータは分散して配置されてもよい。
また、検出処理対象の塩基配列情報は、外部の端末装置等からmiRNA検出装置1の通信機能を利用して入力されてもよい。同様に、検出結果のmiRNAの情報は、通信機能を利用して外部に出力されてもよい。この場合、通信機能が入出力部として機能する。miRNA検出装置1は通信機能を利用してネットワークとデータの送受を行ってもよい。この場合に、miRNA検出装置1はインターネットを介して塩基配列情報を入力し、検出結果の情報を返してもよい。
次に、miRNA検出装置1についてより詳細に説明する。ここでは、まず、本実施の形態に特徴的な塩基ベクトル列データについて説明し、そして、HMMを用いて塩基ベクトル列データをモデル化することにより得られるmiRNAモデルについて説明する。
図2は、塩基ベクトル列データを示す図である。図示のように、塩基配列の各塩基biに対応して塩基ベクトルVBiが得られる。塩基ベクトルVBiは、miRNAを特徴づける複数種類のパラメータをベクトル要素として有する複数次元のベクトルである。そして、塩基ベクトル列データは、塩基ベクトルの列のデータである。本実施の形態では、塩基ベクトルが、5種類のパラメータ(CS、Z−SCORE、PL、PR、V’)からなる5次元ベクトルであり、塩基ベクトル列データは5次元ベクトル列のデータである。
塩基ベクトルの5つのパラメータは、保存度パラメータと2次構造パラメータに大きく分けられる。保存度パラメータは、各塩基周辺の進化的保存度を表すパラメータである。2次構造パラメータは、安定へピン構造を特徴付けるパラメータであり、安定したヘアピン構造が持つ特性に基づいて設定されている。CSが保存度パラメータに該当し、Z−SCORE、PL、PR、V’は2次構造パラメータに該当する。miRNAは、脊椎動物(哺乳類、鳥類、魚類など)で進化的に強く保存されており、かつ、非常に安定したヘアピン構造を有するので、上記のパラメータによってmiRNAの特徴が表される。以下、各パラメータについて詳細に説明する。
「パラメータCS」
図3は、一つのmiRNAに沿ったパラメータCSの値を模式的に示している。パラメータCSは、conserbation scoreの略であり、phastConsプログラムにより計算することができる進化的保存度のパラメータであり、本発明の保存度パラメータに相当する。CSは0〜1の間の値であり、CSが大きいほど保存度が高い。
図3の下方に示すように、miRNAはステム部とループ部からなるヘアピン構造を有している。配列上では、5’側のステム部、ループ部、3’側のステム部が並ぶ。そして、5’側のステム部と3’側のステム部が図示のように連結される。以下では、図3のように、5’側を左に配置し、3’側を右側に配置し、5’側のステム部を左ステム部と呼び、3’側のステム部を右ステム部と呼ぶ。
miRNAでは上記のように左ステム部、ループ部、右ステム部が順に並ぶ。一般にステム部では突然変異が少なく、ループ部では突然変異が多い。したがって、miRNAの場合、図示のように、左ステム部でCSが高く、ループ部でCSが低く、右ステム部でCSが再び高くなる傾向がある。
保存度についてさらに説明すると、保存度は、各種の生物種のDNAを比較することによって求められる。哺乳類、鳥類、魚類などの脊椎動物のDNAが好適に比較される。保存度が高い領域では、生物種間での配列の類似度が高い。保存度が低い領域では、生物種間での配列の類似度が低い。このような観点で保存度についての各種の研究が既になされている。
本実施の形態の場合には、上述のように、phastConsプログラムにより計算したCSを保存度パラメータとして使用している。検出対象の塩基配列のCSのデータが入力されて記憶され、このCSのデータが使われてよい。CSのデータはネットワークを通じてダウンロード等によって入力されてよい。本実施の形態では、対象の塩基配列が例えばヒトゲノムでる。この場合、ヒトゲノム全域にわたるCSが既に計算され、ネットワーク上で公開されている。このCSがダウンロードされて、miRNA検出装置1に記憶され、使われてよい。
また、保存度の計算プログラムがmiRNA検出装置1に記憶されており、塩基ベクトル列生成部5により実行され、塩基配列からCSが算出されてもよい。この場合、入力された検索対象の塩基配列が他生物種のゲノムと比較されて、相同な領域が得られる。そして、相同な領域を集めてきて、マルチプルアライメントが作成される。このマルチプルアライメントが計算プログラムの入力として与えられて、CSが算出される。
「パラメータZ−SCORE」
図4は、一つのmiRNAに沿ったパラメータZ−SCOREの値を模式的に示している。パラメータZ−SCOREは、2次構造に関するパラメータの一つであり、最小自由エネルギーの大きさを表すパラメータである。本実施の形態では特にZ−SCOREが各塩基の周辺領域における最小自由エネルギーの大きさを表すパラメータであって、本発明のエネルギーパラメータに該当する。
最小自由エネルギーとは、ある塩基配列がとりうる2次構造の中で最も低い自由エネルギーを持つ2次構造の自由エネルギーであり、安定した構造体では小さくなる。したがって、最小自由エネルギーが小さい程、塩基配列の構造が安定している。最小自由エネルギーはZukerのアルゴリズムで計算することができる。このアルゴリズムの計算プログラムが本実施の形態ではmiRNA検出装置1に記憶されており、塩基ベクトル列生成部5により実行され、塩基配列からZ−SCOREが算出される。
最小自由エネルギーのZ−SCOREは、下の式で表すことができる。
Z = (E − 〈E〉)/σ
ここで、Eは、与えられた配列の最小自由エネルギーである。〈E〉,σは、与えられた配列と同じ塩基組成を持つランダム配列の最小自由エネルギーの平均と標準偏差である。
上記の式では、ランダム配列の平均値および標準偏差を用いて、Z−SCOREが偏差値で表されている。このように偏差値を用いることにより、塩基対a、tと塩基対g、cの結合強度の差の影響を低減でき、構造安定性を適切に表すことができる。
図4を参照すると、本実施の形態においては、各塩基のZ−SCOREとして、着目塩基周辺の所定範囲の配列から得られるZ−SCOREが計算される。この所定範囲は、着目塩基を中心とした100bpの範囲に設定されている。要するに、1塩基ずつずらしながら、100bpのZ−SCOREが次々と求められる。
miRNAのZ−SCOREを求めた場合、図示のように、Z−SOCREがmiRNAの周辺から中心に近づくにしたがって小さくなる。これは、miRNAでは構造が安定しており、自由エネルギーが小さくなるからである。例えば、miRNAの端部では、Z−SCOREを求める100塩基配列の半分が、miRNAの外にある。これに対して、miRNAの中心では、100塩基配列の殆どがmiRNAの中にある(miRNAの長さは一般に100塩基程度である)。したがって、miRNAの中心部の方がZ−SCOREが小さくなる。
「パラメータPL、PR」
図5は、一つのmiRNAに沿ったパラメータPL、PRの値を模式的に示している。パラメータPL、PRは、2次構造に関するパラメータの一つであり、特に、各塩基がmiRNAのヘアピン構造のステム部に位置する可能性の高さを表すパラメータであり、塩基対確率に基づいて表され、本発明のステムパラメータに相当する。本実施の形態では具体的にはパラメータPL、PRは各塩基がステム部に位置する確率の大きさを表しており、パラメータPL、PRは、それぞれ、各塩基が左ステム部(5’側ステム部)および右ステム部(3’側ステム部)に位置する確率を表す。言い換えれば、パラメータPLは、右側に位置する相補塩基と塩基対を作る確率であり、パラメータPRは、左側に位置する相補塩基と塩基対を作る確率である。本実施の形態では、パラメータPL、PRは以下のようにして求められる。
図6は、パラメータPLを求める処理を示す図である。パラメータPLは、図示のように塩基対確率行列を用いて求められる。塩基対確率行列では、周知のように、2本の配列が行方向および列方向に配置される。そして、2つの配列から得られる任意のすべての塩基対の確率が行列で表される。この確率が塩基対確率である。確率は例えば図のように点の大きさで表される。実際の塩基対確率行列データは、行列上の各点に対応する確率値のテーブルである。
本実施の形態では、同じ塩基配列が2方向に配置されて、図6に示す塩基対確率が求められ、この塩基対確率からパラメータPLが算出される。
図6において、塩基iのパラメータPLをPLiとすると、PLiは、塩基iから右方向に進んだときの確率最大値である。これは、塩基iと、塩基iより右側(3’側)の任意の塩基とにより作られる塩基対の確率の最大値である。図の例では、塩基iが左ステム部内に位置している。このように、塩基iが左ステム部内に位置していれば、右側のいずれかの塩基と対を作るので、パラメータPLiが大きくなる。その結果、図5に示したように、パラメータPLは左ステム部で大きくなる。
図7は、パラメータPRを求める処理を示す図である。パラメータPRも、図6と同じ塩基対確率行列を用いて求められる。
図7において、塩基iのパラメータPRをPRiとすると、PRiは、塩基iから上方向に進んだときの確率最大値である。これは、塩基iと、塩基iより左側(5’側)の任意の塩基とにより作られる塩基対の確率の最大値である。図の例では、塩基iが右ステム部内に位置している。このように、塩基iが右ステム部内に位置していれば、左側のいずれかの塩基と対を作るので、パラメータPRiが大きくなる。その結果、図5に示したように、パラメータPRは右ステム部で大きくなる。
上述したパラメータPLi、PRiは下記の式で表される。
Figure 2008146538
ここで、pij は、塩基iと塩基jの塩基対確率である。
本実施の形態では、上記の塩基対確率行列の計算プログラムがmiRNA検出装置1に記憶されており、この計算プログラムが塩基ベクトル列生成部5により実行される。そして塩基対確率行列から塩基ベクトル列生成部5により上記の式を使ってパラメータPL、PRが求められる。
「パラメータV’」
図8は、一つのmiRNAに沿ったパラメータV’の値を模式的に示している。パラメータV’は、2次構造に関するパラメータの一つである。パラメータV’は、特に、各塩基がmiRNAのヘアピン構造のループ部に位置する可能性の高さを表すパラメータであり、塩基対確率に基づいて表され、本発明のループパラメータに相当する。より具体的にはパラメータV’は塩基がループ部に位置する確率の大きさの表す。このパラメータV’も、下記のようにパラメータPL、PRの算出で使われたのと同じ塩基対確率行列を用いて求められる。
本実施の形態では、塩基iのパラメータV’をV’iとすると、V’iは、下式で表される。
Figure 2008146538
ここで、pkl は、塩基kと塩基lの塩基対確率である。Int( ) は、小数点を切り捨てる関数である。また、Wnは、重み係数であり、W−4・・・+5={1/30,2/30,3/30,4/30,5/30,5/30,4/30,3/30,2/30,1/30}である。
上記の式に示されるように、パラメータV’iはパラメータViの加重平均値である。ここではまず、パラメータViを求める処理を説明する。
図9は、塩基iのパラメータViを求めるための処理を説明する図である。上記の式のパラメータViは、加算対象のPの指定に小数点を切り捨てる関数Intを使っている。これにより、パラメータViは、具体的には図9の左半部に示されるように、下記の“合計S1”“合計S2”の和に相当する値になっている。
“合計S1”:塩基iを中心として順次外側に位置する塩基対の確率の合計。具体的には、P(k,l)=P(i−1,i+1)、P(i−2,i+2)、P(i−3,i+3)・・・の合計。
“合計S2”:塩基i、i+1を最初の塩基対(中心)として順次外側に位置する塩基対の確率の合計。具体的には、P(k,l)=P(i,i+1)、P(i−1,i+2)、P(i−2,i+3)・・・の合計。
また、パラメータVは、図9の右半部に示されるように、塩基対確率行列上では、対角線上で塩基iに対応する位置から斜め右上方向に並ぶ塩基対確率の和に相当し、より詳細には上記“合計S2”が加わるので図9に示すような枠F内に含まれる塩基対確率の和に相当する。枠Fは、行列上で塩基iの位置から斜め右上方向に並んだ点と、それらから右側に1つずれた点とを囲んでいる。
次に、パラメータViからパラメータV’iを求める処理を説明する。上記の式に示したように、パラメータV’iは、塩基iとその周辺塩基のパラメータViの重み付け平均値である。塩基iを中心とした10個の塩基のパラメータVi−4〜Vi+5が使われる。重み係数は、概略的には中央の塩基iに近づくほど大きくなり、具体的には(1/30,2/30,3/30,4/30,5/30,5/30,4/30,3/30,2/30,1/30)であって、三角形状の重みがかけられる。
以上にパラメータV’を求める処理を説明した。このようなパラメータV’を用いることにより、以下に説明するように、ループ部分の長さが奇数の場合も偶数の場合も考慮されてループ部の特徴が適切に表される。
まず、miRNAのヘアピン構造において、ループ部の塩基数が奇数であったとする。この場合、ループ部中央の塩基iの両側には、左ステム部および右ステム部が対象に位置しており、それらの塩基対確率は非常に大きい。したがって、ループ部中央の塩基iにて上記“合計S1”が大きくなり、その結果、パラメータV’iが大きくなる。
また、ループ部の塩基数が偶数であったとする。この場合は、ループ部中央に2つの塩基がある。そして、これら2つの塩基のうちの左側の塩基iについて、上記“合計S2”が大きくなり、その結果、パラメータV’iが大きくなる。このように、本実施の形態では、“合計S2”を使うことで、ループ部の塩基数が偶数の場合にもループ部中央の塩基のパラメータV’iが大きくなり、したがって、ループ部の塩基数が偶数の場合にも好適に対処できている。
さらに、本実施の形態は、加重平均を行うことで、図10に示すバルジ部がステム部に含まれる場合に好適に対処できている。バルジ部があった場合、バルジ部から先の部分では、ループ部を中心としたステム部の対象性が崩れる。そのため、パラメータVを単純に計算しても、バルジ部から先のステム部の塩基対確率がパラメータVには上手く反映されない。しかしながら、本実施の形態では、周辺領域のパラメータVを加重平均して最終的にパラメータV’が算出される。この加重平均により、バルジ部から先のステム部における塩基対確率の大きさもパラメータV’に反映することができ、したがって、バルジがある場合にも好適に対処することができている。
上記のようにして得られるパラメータV’は、ループ部中央の塩基にて大きくなる。またループ部中央の周辺の塩基でも、上記の加重平均を行っているので、パラメータV’が大きくなる。これに対して、ループ部中央から離れるとパラメータV’は小さくなる。その結果、図示のように、miRNAにおけるパラメータV’は、ステム部では小さく、ループ部中央に近づくと大きくなり、ループ部中央付近で最大になる。
パラメータV’は、図1の構成では、塩基ベクトル列生成部5により算出される。塩基対確率行列が計算され、そして、上述の式に従ってパラメータV’が求められる。塩基対確率行列は、パラメータPL、PRを求めるために使われたものと同じでよい。
上記のパラメータV’を用いることは、本実施の形態の利点の一つである。これまでのmiRNA検出技術では、ステム部が主に着目されており、ループ部に着目した適当なパラメータは用いられていなかった。これに対して、本実施の形態では、ループ部を特徴づける新たなパラメータV’が提案され、この好適なパラメータV’を用いることによりmiRNAの検出精度が向上する。
以上に、本実施の形態における塩基ベクトルに含まれる5つのパラメータについて説明した。図11は、一つのmiRNAとその周辺領域における上記5つのパラメータの例を示している。このように、本実施の形態では、塩基配列の各塩基に対応する5つのパラメータが求められ、これにより各塩基の塩基ベクトルが求められる。そして、塩基ベクトルを配列することにより塩基ベクトル列データが得られ、塩基ベクトル列データがmiRNAモデルの作成とそれを使ったmiRNA検出処理に使われる。
「miRNAモデルおよび非miRNAモデル」
次に、上述の塩基ベクトル列データを用いて作られるmiRNAモデルおよび非miRNAモデルについて説明する。概略的には、既知のmiRNAが集められて、各miRNAから塩基ベクトル列データが生成され、それら塩基ベクトル列データが隠れマルコフモデル(以下、HMM)を用いてモデル化されて、miRNAモデルが生成される。同様に、miRNA以外の配列群から非miRNAモデルが生成される。
図12は、miRNAモデルおよび非miRNAモデルの作成方法を示している。図12において、既知miRNA群21は、既知のmiRNAの集合である。miRNAの長さは固定されなくてよい。既知miRNA群の各miRNAから塩基ベクトル列データが生成され、これにより、塩基ベクトル列群31が得られる。そして、塩基ベクトル列群31から、HMMであるmiRNAモデル41が生成される。モデル生成過程ではHMMの学習処理が行われて、確率モデルが生成される。
ここで、図11を再び参照すると、前述のように、同図の例の場合、miRNAとその両側の周辺領域を含む領域から、5つのパラメータが求められている。両側に付加される領域は、図の例では50bpの領域である。miRNAの長さが一般に100bp程度であることを考慮すると、周辺領域を含む全長は200bp程度になる。本発明の範囲内で、実際に塩基ベクトル列を作りモデル化するときは、上記のようなmiRNAとその周辺部分を含む領域から塩基ベクトル列が生成され、この塩基ベクトル列からmiRNAモデルが生成されてよい。
このように、本発明の範囲内で、miRNAとその周辺部分を含む領域が、マイクロRNAの領域として処理されてよい。そして、周辺部分を含むmiRNAから得られた塩基ベクトル列データが、miRNAモデルに対応する塩基ベクトル列データとして用いられてよい。
図12戻り、次に、非miRNAモデルについて説明する。非miRNAモデルも、miRNAモデルと同様にHMMモデルである。非miRNAモデルに関しては、図12に示すように3つのモデルが生成される。
図12において、非miRNA群23、25、27は非miRNA配列の集合であり、非miRNA配列は、miRNAに該当しないと考えられる配列である。非miRNA群23、25、27では配列の進化的保存度が異なっている。非miRNA群23では保存度が低く(非保存クラス)、非miRNA群25では保存度が中程度であり(中保存クラス)、非miRNA群27では保存度が高い(高保存クラス)。非miRNA群23、25、27から、それぞれ、塩基ベクトル列群33、35、37が生成される。ここでも、miRNAモデルの場合と同様に、各配列から塩基ベクトル列データが生成される。そして、塩基ベクトル列群33、35、37から、HMMである非miRNAモデル43、45、47がそれぞれ生成される。
本実施の形態では、図1には示されていないが、miRNA検出装置1にモデル作成部が好適に設けられてよく、このモデル作成部が上述したモデル作成処理を行ってmiRNAモデル41および非miRNAモデル43、45、47を作成してよい。モデル作成部は、HMMの学習機能やモデル作成機能によってHMMを作成する構成であり、miRNA検出装置1に記憶されたHMMのプログラムを実行することによってモデル作成部が実現される。そして、図12を用いて説明したモデル作成方法が実行されて、これにより本実施の形態でのモデル作成部の機能が実現されて、miRNAモデル41および非miRNAモデル43、45、47が作成される。なお、変形例としては、モデル作成は外部で行われて、作成後のモデルがmiRNA検出装置1に入力され、記憶され、使用されてもよい。
本実施の形態の具体例では、464個の既知miRNAの中から、保存度が高い290個のmiRNAを選択して、既知miRNA群21とした。そして、それら290個のmiRNAからmiRNAモデル41を作成した。また、ヒトゲノム上でmiRNAでないと思われる3000箇所の領域を選択し、非miRNA群23、25、27を作成した。その際、保存度の指標としてパラメータCSを用いて、各群に1000箇所の配列を選択した。非保存クラスのCSは0.4未満に設定し、中保存クラスのCSは0.4以上に設定し、高保存クラスのCSは0.6以上に設定した。また、非miRNAの配列長さはすべて200bpとした。このような設定例を用いると高い精度で検出結果が得られることが分かった。
ここで、上記の例では、中保存クラスのCSは0.4以上に設定されており、上限値は設けられていない。したがって、保存度が高い領域も中保存クラスに含まれ得る。すなわち、CSが0.6以上の領域が、中保存クラスに混ざることがある。しかし、一般に、中保存クラスの領域と比べて高保存クラスの領域の数に少ない。したがって、保存度の高い領域は、わずかしか中保存クラスに混ざらない。上記の例のようにCSが0.4以上の1000個の領域を集めたとき、保存度が0.6以上の領域は幾つか混ざる程度である。したがって、上記のように中保存クラスのCSの上限値が規定されていなくても、中保存クラスとして十分に適当な非miRNA群25を作ることができる。
これらmiRNAモデルおよび非miRNAモデルは、以下のようにしてmiRNA検出に使用される。miRNAモデルおよび非miRNAは、図1のmiRNAモデル記憶部7に記憶される。miRNA検出部9は、検出処理対象の塩基ベクトル列とmiRNAモデル記憶部7のモデルを用いて、検出処理対象の塩基配列上のmiRNA領域を検出する。その際、miRNAモデルに適合し、かつ、非miRNAモデルに適合しない領域が検出される。
HMMを処理する検出のアルゴリズムとしては、“Viterbi decoding”を行うビタビアルゴリズム(Viterbi algorithm)が好適に用いられる。ビタビアルゴリズムは、観測された文字列から状態列を推定するアルゴリズムであり、構文解析に利用される他、同様の原理を塩基等の配列解析にも利用でき、配列のどの部分がどの状態に対応するのかといったことを求められる。そこで、ビタビアルゴリズムにより、検出対象配列のどの部分が上記のHMMの確率モデルのどの内部状態に対応するかを計算する。
検出処理では、検出元の塩基配列に含まれる任意の位置の任意の長さの領域を候補領域とする。HMMにより候補領域が処理されて、候補領域をHMMに適用したときの尤度が計算される。miRNAモデル41と3つの非miRNAモデル43、45、47の各々を用いて、尤度が計算される。それら4つの尤度に基づき、候補領域が適合するモデルが分かる。概念的には、候補領域は、尤度が最大になるモデルに適合し、その他のモデルに非適合と判断される。候補領域がmiRNAモデルに適合すれば、候補領域はmiRNAであると予測される。このような処理が、候補領域の位置と長さを変えながら行われて、塩基配列上の任意の位置の任意の長さのmiRNAが検出される(ただし、miRNAの長さは後述のように適当な範囲に制限されている)。
本実施の形態では、HMMを用いることにより、miRNAの領域長を固定する必要が無く、各種の長さのmiRNA領域を検出でき、つまり、可変長のmiRNA検出を好適に行える。そして、本実施の形態では、このような処理を行うビタビアルゴリズムの計算プログラムがmiRNA検出装置1に記憶されており、miRNA検出部9により実行されて、塩基配列上でmiRNAモデルに適合する領域が求められる。
本実施の形態では、上記のように、非保存クラス、中保存クラス、高保存クラスといった保存度が異なる複数種類の非miRNAモデルを用いている。このことは以下の点で有利である。
周知のようにゲノム上の殆どの部分では保存度が低い。したがって、仮に単にランダムに非miRNA配列群を作成すると、非miRNA配列群の殆どを保存度の低い配列が占めてしまうことになる。このような配列群から作った非miRNAモデルを上述のmiRNAモデルと共に使ったとする。この場合、miRNAの候補領域がmiRNAモデルと非miRNAモデルのどちらに適合するかの判断において、保存度の寄与度が大きくなり、構造安定性の寄与度が相対的に低くなってしまう。
これに対して、本実施の形態では、保存度が高い非miRNA群からも非miRNAモデルを作っている。これにより、上記のように保存度の寄与度が大きくなり過ぎるのを避けて、保存度と構造安定性の両方に基づく検出を好適に行うことができる。
図13は、本実施の形態で使用されるHMMの全体的なアーキテクチャを示している。HMMにはモジュール性があり、モデル間を状態遷移可能に連結できる。このことを利用して、実際のシステムでは、miRNAモデル41と、非miRNAモデル43、45、47が図示のように連結されてよい。このような合体モデルがmiRNAモデル記憶部7に記憶され、miRNA検出部9に処理される。こうして、miRNAモデル41に適合し、非miRNAモデル43、45、47に非適合の領域が検出される。
図13のHMMをさらに説明すると、miRNAを検出する際は、塩基配列上で位置と長さを変えながら多数の候補領域が処理される。miRNAモデル41と非miRNAモデル43、45、47の各々に各候補領域が属する尤度が計算される。すなわち、1つの候補領域に対して、4つのモデルから4つの尤度がそれぞれ計算される。そして、概念的には4つのモデルが尤度を基準に候補領域を取り合り、尤度が最大のモデルに候補領域が取られる。複数の候補領域が順次処理される過程で、モデル間の遷移が生じたとする。非miRNAモデル43、45、47のいずれかからmiRNAモデル41への遷移が発生すると、候補領域がmiRNA領域として検出される。このとき、候補領域はmiRNAモデル41に適合し、非miRNAモデル43、45、47に非適合である。逆に、miRNAモデル41から非miRNAモデル43、45、47への遷移が発生すると、候補領域は非miRNA配列である。
次に、図14は、miRNAモデルのアーキテクチャの好適な例を示している。miRNAでは、スタートステート(開始状態)sとエンドステート(終了状態)eの間に、複数のステートグループ(状態群)が配置される。本実施の形態ではステートグループの数は50である。スタートステートsは配列の5’側であり、エンドステートeは配列の3’側である。
各ステートグループでは、複数のステート(状態)が遷移可能に連結されている。また、図示のように、2番目以降の各ステートが、次のステートグループの先頭ステートに遷移可能に連結される。本実施の形態では、各ステートグループのステートの数は6である。そして、2番目から6番目のステートが、次のステートグループの先頭ステートに遷移可能に連結される。
各ステートグループでは、6つのステートに同じ確率分布が貼り付けられる。確率分布は混合正規分布であり、具体的には平均値と分散と混合分布の重みが割り当てられてよい。ステートグループ間では確率分布が異なっていてよい。
また、各々のステートグループでは、ステート間の遷移確率が図示のように設定されている。6個のステート間の遷移確率は、順に、1、4/5、3/4、2/3、1/2である。また、2〜6番目のステートから次グループへの遷移確率は、それぞれ、1/5、1/4、1/3、1/2、1である。
上記miRNAモデルを用いて、例えばmiRNAの候補領域Xの尤度を計算するとする。この場合、候補領域X中の複数の塩基ベクトルが、スタートステートsからエンドステートeへの遷移経路に沿った複数のステートにそれぞれ割り当てられ、各ステートでの確率が各塩基ベクトルの関数として計算され、遷移経路に沿った確率の積が計算され、これにより尤度が求められる。そして、ビタビアルゴリズムでは、候補領域Xに関して、どの経路を通ると尤度が最も高くなるかが計算され、その最高値が候補領域Xの尤度となる。この尤度が、非miRNAモデルで算出される尤度と比べられることになる。
本実施の形態のmiRNAモデルでは、各ステートグループにて、最小で2個、最大で6個のステートが経路上に存在する。両端のスタートステートsとエンドステートeの間には50個のステートグループが設けられているので、スタートステートsからエンドステートeへ至るどのような経路を採用したとしても、最小低で100、最大で300のステートが経路上に存在する。尤度も最小で100、最大で300のステートを通る経路から計算される。
このようにして、本実施の形態ではHMMの状態遷移の長さ制限が行われている。この長さ制限は、検出するmiRNAの配列長さを100bp以上、300bp以下に制限していることを意味しており、これにより、検出するmiRNAの長さを妥当な所定の範囲に制限することができる。
この長さ制限について説明を補足する。既に述べたように、一般のmiRNAの長さは100bp程度と考えられる。既に説明したように、図11の例においては、既知miRNAをモデル化する際に、miRNAとその両側の50bpを含む領域がmiRNAとして処理されており、したがって、200bp程度の領域がモデル化されてmiRNAが作成されている。このようなHMMモデルに適合する領域を検出すると、検出される領域の長さも標準的には200bp程度になる。したがって、上記の長さ制限(100bp〜300bp)は、検出される標準のmiRNA領域を中心とした適当な範囲に設定されている。
また、miRNAモデルに関しては図示のように状態遷移確率が予め設定されている。miRNAのサンプル数が比較的少ないことを考慮し、学習で状態遷移確率を求めるのでなく、予め積極的に状態遷移確率が設定されている。
この際、本実施の形態では、図示のように状態遷移確率が設定されており、一つのステートグループをどの経路で通過したとしても、一つのステートグループでの確率の積が1/5であり、つまり同じ値になる。例えば、1番目と2番目のステートのみを通って、2番目のステートから次のステートグループへ遷移したとすると、確率の積は、1×1/5=1/5である。また、1番目から6番目までの全ステートを通ってから次のステートグループへ遷移したとすると、確率の積は、1×4/5×3/4×2/3×1/2×1=1/5である。このように、本実施の形態では、状態遷移経路に拘わらず状態遷移確率の積が同じになる。
上記のように状態遷移確率を設定することにより、miRNAの検出精度を向上できるが、この理由は以下のように考えられる。上記の設定によれば、検出されるmiRNAの長さが異なっても状態遷移確率の積が同じになる。これにより、miRNAの候補配列の長さの相違の影響が適当に制御されて、これにより、可変長のマイクロRNA検出を好適に行うことができる。
図15は、非miRNAモデルのアーキテクチャを示している。図15に示すように、非miRNAモデルは自己ループを有しており、同じ確率分布が複数回にわたって使われる。また、図14のmiRNAモデルでは状態遷移確率が図示のように予め設定されていたのに対して、図15の非miRNAモデルでは、状態遷移確率pはHMMの学習処理によって求められる。図15のアーキテクチャに従い候補領域の尤度が計算され、図14のアーキテクチャから得られる尤度と共に処理されて、候補領域の適合するモデルが求められて、miRNAの検出が行われる。
以上に、本実施の形態に係るmiRNA検出装置1の各部構成について説明した。次に、miRNA検出装置1の全体的な動作について説明する。検出処理対象の塩基配列情報は、入力部3からmiRNA検出装置1へ入力される。配列情報は記録媒体から読み込まれてもよく、通信でネットワークから取得されてもよい。塩基配列情報は例えば塩基配列のテキストデータでもよい。塩基配列情報は、塩基ベクトル列生成部5により塩基ベクトル列データに変換される。そして、miRNA検出部9により、塩基ベクトル列生成部5にて生成された塩基ベクトル列データとmiRNAモデル記憶部7のモデルを用いてmiRNA領域が検出される。miRNA検出部9は、上述したHMMとビタビアルゴリズムに基づき、miRNA領域として、配列上でmiRNAモデルに適合し非miRNAモデルに適合しない領域を検出する。そして、検出されたmiRNA領域の情報が出力部11から出力される。例えば、miRNAの情報はディスプレイに表示されてよく、また、プリンタに出力されてよく、記録媒体に書き込まれてよく、通信で外部に出力されてよい。
検出処理対象の塩基配列は例えばヒトゲノムである。本実施の形態のmiRNA検出装置1を用いると、ヒトゲノムから新規のmiRNAを網羅的に検出するといったことを好適に行うことができる。
以上に、本発明の実施の形態に係るmiRNA検出装置1について説明した。上記のように、本発明によれば、検出処理対象の塩基配列情報から生成した塩基ベクトル列データと、既知マイクロRNAの確率モデルであるマイクロRNAモデルとを用いて、塩基配列上でマイクロRNAモデルに適合する領域を求めることにより、マイクロRNA領域を検出することができる。本発明では、塩基ベクトル列データを構成する各塩基ベクトルが、マイクロRNAの特徴である進化的保存度のパラメータと安定ヘアピン構造のパラメータを含んでおり、特に、安定ヘアピン構造に関して、最小自由エネルギーのパラメータに加えて、上記のように各塩基がステムおよびループに相当する可能性を塩基対確率に基づいて表すパラメータを含んでおり、このようなベクトル表現を採用することによりマイクロRNAの検出精度を向上できる。
本発明の利点についてさらに説明すると、従来のマイクロRNA検出技術においては、既に説明したように、相同性検索と2次構造予測を段階的に組み合わせたパイプラインが提案されている。このような複数段階のパイプラインでは、各段階に恣意的な閾値などを設定することができ、それにより検出結果が影響を受ける。これに対して、本発明では、2段階のパイプライン構造によらずに、保存度と2次構造の両方のパラメータをもつ塩基ベクトルを用いたモデルからマイクロRNAを予測しており、より詳細には尤度という一つの指標を用いており、従来技術よりも客観的な評価ができる。しかも、上記のように、塩基ベクトルが、保存度パラメータおよび2次構造安定性を示すエネルギーパラメータに加えて、ステムやループの可能性を表すパラメータも含んでおり、これらパラメータを一緒に含むことによりマイクロRNAの特徴を精度よく表すベクトル表現が用いられる。このようにして、本発明によれば高い予測精度でマイクロRNAを検出可能になる。
また、本発明では、マイクロRNAモデルは隠れマルコフモデルであってよく、マイクロRNA検出部は、隠れマルコフモデルを用いて可変長のマイクロRNA領域検出を行うように構成されてよい。このように、隠れマルコフモデルを用いることで、配列長さを固定することなくマイクロRNA領域を検出できる。したがって、ゲノム等の配列を入力して種々の長さのマイクロRNAを検出するといったことができる。
また、マイクロRNAモデルは、配列長さが一定でない既知マイクロRNA群から生成されてよい。このように、隠れマルコフモデルを使うことで、既知マイクロRNA群の配列長さが揃っていなくてもマイクロRNAモデルを好適に作成できる。
また、マイクロRNAモデルの隠れマルコフモデルは、塩基配列の各塩基に各状態が対応する状態遷移モデルであってよく、状態遷移経路が通過可能な状態数が所定の範囲に制限されてよい。これにより、上述したように隠れマルコフモデルを使って好適にマイクロRNAを検出できる。遷移状態数を所定の範囲に制限することで、検出されるマイクロRNAの長さを妥当な範囲に制限することができ、検出精度を向上できる。
また、マイクロRNAモデルの隠れマルコフモデルは、塩基配列の各塩基に各状態が対応する状態遷移モデルであってよく、状態遷移経路に拘わらず、状態遷移経路上の状態遷移確率の積が同じになるようにモデル各部の状態遷移確率が設定されていてよい。このように状態遷移確率を設定することにより、miRNA検出への配列長さの影響を適当に制御でき、可変長のマイクロRNA検出を好適に行える。
また、ループパラメータは、塩基対確率行列に基いた、対応塩基を中心として順次外側に位置する塩基対に対応する塩基対確率の合計である塩基対確率合計を含んでよい。これにより、塩基対を作るステム部分に両側から挟まれるというループ部分の特徴を利用して、各塩基がループ部分に該当する可能性を適切に表したパラメータを求めることができ、マイクロRNAの検出精度を向上できる。
また、ループパラメータの塩基対確率合計は、ループ部の塩基数が偶数である場合を想定し、対応塩基とその隣の塩基を最初の塩基対としたときに順次外側に位置する塩基対に対応する塩基対確率の合計も含んでよい。これにより、ループ部の塩基数が偶数である場合も考慮したループパラメータを求めることができ、マイクロRNAの検出精度を向上できる。
また、ループパラメータは、対応塩基の周囲の所定範囲における複数の塩基にそれぞれ対応する複数の塩基対確率合計の重み付け平均値であってよい。これにより、ステム部のバルジも考慮してループパラメータを求めることができ、マイクロRNAの検出精度を向上できる。
また、マイクロRNAモデル記憶部は、さらに、マイクロRNAに該当しないことが既知である非マイクロRNA群から生成される確率モデルである非マイクロRNAモデルを記憶してよく、マイクロRNA検出部は、マイクロRNAモデルに適合し非マイクロRNAモデルに非適合の領域をマイクロRNA領域として検出してよい。これにより、マイクロRNAモデルと共に非マイクロRNAモデルも用いることにより、マイクロRNAの検出精度を向上できる。隠れマルコフモデルを用いる場合、マイクロRNAモデルと非マイクロRNAモデルが状態遷移可能に連結されて、マイクロRNAモデルに適合する領域が検出されてよい。
また、本発明によれば、マイクロRNAモデル記憶部は、進化的保存度が異なる複数の非マイクロRNA群からそれぞれ生成された複数の非マイクロRNAモデルを記憶していてよい。これにより、進化的保存度を考慮して非マイクロRNAモデルを用意することで検出精度を向上できる。この点に関し、仮に単純に非マイクロRNAの配列を集めた場合、集まった配列群の大部分を保存度が低い配列が占めることになる。そのような保存度が低い配列群から非マイクロRNAモデルを作り、マイクロRNAモデルと共に使ったとする。その場合、マイクロRNAの予測における進化的保存度の寄与度が大きくなり、安定ヘアピン構造の指標の寄与度が低くなってしまう。このような事態を本発明によれば回避でき、進化的保存度とヘアピン構造としての安定性の両方を評価してマイクロRNAを高精度に検出できる。
また、ステムパラメータは、対応塩基が5’側のステム部に位置する確率を表すパラメータと、対応塩基が3’側のステム部に位置する確率を表すパラメータとを含んでよい。これにより、各塩基がヘアピン構造の両側のステム部に位置する場合を考慮してマイクロRNAを検出でき、検出精度を向上できる。
以上に本発明の好適な実施の形態を説明した。しかし、本発明は上述の実施の形態に限定されず、当業者が本発明の範囲内で上述の実施の形態を変形可能なことはもちろんである。
以上のように、本発明にかかるマイクロRNA検出装置は、塩基配列情報からマイクロRNAを検出でき、生物学的に有用な情報を提供できる。
本発明の実施の形態にかかるマイクロRNA検出装置のブロック図である。 塩基ベクトル列データを示す図である。 一つのmiRNAに沿ったパラメータCSの値を模式的に示す図である。 一つのmiRNAに沿ったパラメータZ−SCOREの値を模式的に示す図である。 一つのmiRNAに沿ったパラメータPL、PRの値を模式的に示す図である。 パラメータPLを求める処理を示す図である。 パラメータPRを求める処理を示す図である。 一つのmiRNAに沿ったパラメータV’の値を模式的に示す図である。 パラメータV’を求めるための処理を示す図である。 パラメータV’を求める処理で考慮されるステム中のバルジを示す図である。 一つのmiRNAに沿った5種のパラメータの例を示す図である。 miRNAモデルおよび非miRNAモデルの作成方法を示す図である。 本実施の形態におけるHMMの全体的なアーキテクチャを示す図である。 miRNAモデルのアーキテクチャの例を示す図である。 非miRNAモデルのアーキテクチャの例を示す図である。
符号の説明
1 miRNA検出装置
3 入力部
5 塩基ベクトル列生成部
7 miRNAモデル記憶部
9 miRNA検出部
11 出力部
21 既知miRNA群
23 非miRNA群(非保存クラス)
25 非miRNA群(中保存クラス)
27 非miRNA群(高保存クラス)
31、33、35、37 塩基ベクトル列群
41 miRNAモデル
43 非miRNAモデル(非保存クラス)
45 非miRNAモデル(中保存クラス)
47 非miRNAモデル(高保存クラス)

Claims (13)

  1. 塩基配列情報からマイクロRNA領域を検出するマイクロRNA検出装置であって、
    検出処理対象の塩基配列情報を入力する入力部と、
    前記検出処理対象の塩基配列情報から、配列中に含まれる複数の塩基にそれぞれ対応する複数の塩基ベクトルで構成され、マイクロRNAを特徴付ける複数種類のパラメータが各塩基ベクトルに含まれる塩基ベクトル列データを生成する塩基ベクトル列生成部と、
    既知マイクロRNA群から生成され、前記既知マイクロRNA群の中の複数の既知マイクロRNAにそれぞれ対応する複数の前記塩基ベクトル列データを含む塩基ベクトル列群の確率モデルであるマイクロRNAモデルを記憶するマイクロRNAモデル記憶部と、
    前記塩基ベクトル列生成部により生成された前記塩基ベクトル列データと前記マイクロRNAモデル記憶部の前記マイクロRNAモデルに基づき、前記検出処理対象の塩基配列上で前記マイクロRNAモデルに適合する領域をマイクロRNA領域として検出するマイクロRNA検出部と、
    を備え、
    前記塩基ベクトル列データを構成する前記各塩基ベクトルの複数種類のパラメータは、前記各塩基ベクトルの対応塩基における進化的保存度を表す保存度パラメータと安定ヘアピン構造を特徴付ける2次構造パラメータとを含み、
    前記2次構造パラメータは、前記対応塩基の周辺領域の最小自由エネルギーを表すエネルギーパラメータと、塩基配列中の2つの塩基が塩基対を作る塩基対確率に基づいて前記対応塩基が前記ヘアピン構造のステム部に位置する可能性の高さを表すステムパラメータと、前記塩基対確率に基づいて前記対応塩基が前記ヘアピン構造のループ部に位置する可能性の高さを表すループパラメータとを含むことを特徴とするマイクロRNA検出装置。
  2. 前記マイクロRNAモデルは隠れマルコフモデルであって、前記マイクロRNA検出部は、前記隠れマルコフモデルを用いて可変長のマイクロRNA領域検出を行うことを特徴とする請求項1に記載のマイクロRNA検出装置。
  3. 前記マイクロRNAモデルは、配列長さが一定でない既知マイクロRNA群から生成されていることを特徴とする請求項2に記載のマイクロRNA検出装置。
  4. 前記マイクロRNAモデルの前記隠れマルコフモデルは、塩基配列の各塩基に各状態が対応する状態遷移モデルであり、状態遷移経路が通過可能な状態数が所定の範囲に制限されていることを特徴とする請求項2または3に記載のマイクロRNA検出装置。
  5. 前記マイクロRNAモデルの前記隠れマルコフモデルは、塩基配列の各塩基に各状態が対応する状態遷移モデルであり、状態遷移経路に拘わらず、状態遷移経路上の状態遷移確率の積が同じになるようにモデル各部の状態遷移確率が設定されていることを特徴とする請求項2または3に記載のマイクロRNA検出装置。
  6. 前記ループパラメータは、塩基対確率行列に基いた、前記対応塩基を中心として順次外側に位置する塩基対に対応する塩基対確率の合計である塩基対確率合計を含むことを特徴とする請求項1〜5のいずれかに記載のマイクロRNA検出装置。
  7. 前記ループパラメータの前記塩基対確率合計は、前記ループ部の塩基数が偶数である場合を想定し、前記対応塩基とその隣の塩基を最初の塩基対としたときに順次外側に位置する塩基対に対応する塩基対確率の合計も含むことを特徴とする請求項6に記載のマイクロRNA検出装置。
  8. 前記ループパラメータは、前記対応塩基の周囲の所定範囲における複数の塩基にそれぞれ対応する複数の前記塩基対確率合計の重み付け平均値であることを特徴とする請求項6または7に記載のマイクロRNA検出装置。
  9. 前記マイクロRNAモデル記憶部は、さらに、マイクロRNAに該当しないことが既知である非マイクロRNA群から生成される確率モデルである非マイクロRNAモデルを記憶しており、
    前記マイクロRNA検出部は、前記マイクロRNAモデルに適合し前記非マイクロRNAモデルに非適合の領域をマイクロRNA領域として検出することを特徴とする請求項1〜8のいずれかに記載のマイクロRNA検出装置。
  10. 前記マイクロRNAモデル記憶部は、進化的保存度が異なる複数の非マイクロRNA群からそれぞれ生成された複数の非マイクロRNAモデルを記憶していることを特徴とする請求項9に記載のマイクロRNA検出装置。
  11. 前記ステムパラメータは、前記対応塩基が5’側のステム部に位置する確率を表すパラメータと、前記対応塩基が3’側のステム部に位置する確率を表すパラメータとを含むことを特徴とする請求項1〜10のいずれかに記載のマイクロRNA検出装置。
  12. 塩基配列情報をコンピュータで処理することによってマイクロRNA領域を検出するマイクロRNA検出方法であって、
    検出処理対象の塩基配列情報を入力し、
    前記検出処理対象の塩基配列情報から、配列中に含まれる複数の塩基にそれぞれ対応する複数の塩基ベクトルで構成され、マイクロRNAを特徴付ける複数種類のパラメータが各塩基ベクトルに含まれる塩基ベクトル列データを生成し、
    既知マイクロRNA群の中の複数の既知マイクロRNAにそれぞれ対応する複数の前記塩基ベクトル列データを含む塩基ベクトル列群の確率モデルであるマイクロRNAモデルを用いて、前記検出処理対象の塩基配列上で前記マイクロRNAモデルに適合する領域をマイクロRNA領域として検出する処理を行い、
    前記塩基ベクトル列データを構成する前記各塩基ベクトルの複数種類のパラメータは、前記各塩基ベクトルの対応塩基における進化的保存度を表す保存度パラメータと安定ヘアピン構造を特徴付ける2次構造パラメータとを含み、
    前記2次構造パラメータは、前記対応塩基の周辺領域の最小自由エネルギーを表すエネルギーパラメータと、塩基配列中の2つの塩基が塩基対を作る塩基対確率に基づいて前記対応塩基が前記ヘアピン構造のステム部に位置する可能性の高さを表すステムパラメータと、前記塩基対確率に基づいて前記対応塩基が前記ヘアピン構造のループ部に位置する可能性の高さを表すループパラメータとを含むことを特徴とするマイクロRNA検出方法。
  13. 塩基配列情報からマイクロRNA領域を検出するマイクロRNA検出処理をコンピュータに実行させるマイクロRNA検出プログラムであって、
    入力された検出処理対象の塩基配列情報から、配列中に含まれる複数の塩基にそれぞれ対応する複数の塩基ベクトルで構成され、マイクロRNAを特徴付ける複数種類のパラメータが各塩基ベクトルに含まれる塩基ベクトル列データを生成し、
    既知マイクロRNA群の中の複数の既知マイクロRNAにそれぞれ対応する複数の前記塩基ベクトル列データを含む塩基ベクトル列群の確率モデルであるマイクロRNAモデルを用いて、前記検出処理対象の塩基配列上で前記マイクロRNAモデルに適合する領域をマイクロRNA領域として検出する処理を前記コンピュータに実行させ、
    前記塩基ベクトル列データを構成する前記各塩基ベクトルの複数種類のパラメータは、前記各塩基ベクトルの対応塩基における進化的保存度を表す保存度パラメータと安定ヘアピン構造を特徴付ける2次構造パラメータとを含み、
    前記2次構造パラメータは、前記対応塩基の周辺領域の最小自由エネルギーを表すエネルギーパラメータと、塩基配列中の2つの塩基が塩基対を作る塩基対確率に基づいて前記対応塩基が前記ヘアピン構造のステム部に位置する可能性の高さを表すステムパラメータと、前記塩基対確率に基づいて前記対応塩基が前記ヘアピン構造のループ部に位置する可能性の高さを表すループパラメータとを含むことを特徴とするマイクロRNA検出プログラム。
JP2006335470A 2006-12-13 2006-12-13 マイクロrna検出装置、方法およびプログラム Pending JP2008146538A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006335470A JP2008146538A (ja) 2006-12-13 2006-12-13 マイクロrna検出装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006335470A JP2008146538A (ja) 2006-12-13 2006-12-13 マイクロrna検出装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2008146538A true JP2008146538A (ja) 2008-06-26

Family

ID=39606621

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006335470A Pending JP2008146538A (ja) 2006-12-13 2006-12-13 マイクロrna検出装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2008146538A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010087409A1 (ja) * 2009-01-29 2010-08-05 エーザイ・アール・アンド・ディー・マネジメント株式会社 核酸の検出方法
WO2017179581A1 (en) * 2016-04-11 2017-10-19 Quantum Biosystems Inc. Systems and methods for biological data management
US10202644B2 (en) 2010-03-03 2019-02-12 Quantum Biosystems Inc. Method and device for identifying nucleotide, and method and device for determining nucleotide sequence of polynucleotide
US10261066B2 (en) 2013-10-16 2019-04-16 Quantum Biosystems Inc. Nano-gap electrode pair and method of manufacturing same
US10413903B2 (en) 2014-05-08 2019-09-17 Osaka University Devices, systems and methods for linearization of polymers
US10438811B1 (en) 2014-04-15 2019-10-08 Quantum Biosystems Inc. Methods for forming nano-gap electrodes for use in nanosensors
US10557167B2 (en) 2013-09-18 2020-02-11 Quantum Biosystems Inc. Biomolecule sequencing devices, systems and methods
CN113077849A (zh) * 2021-03-16 2021-07-06 华南农业大学 一种大肠杆菌β-内酰胺类获得性耐药表型预测复合工具
CN113643758A (zh) * 2021-09-22 2021-11-12 华南农业大学 面向肠杆科细菌获得抗β-内酰胺类耐药性基因的预测方法
US12091712B2 (en) 2016-04-27 2024-09-17 Illumina Cambridge, Ltd. Systems and methods for measurement and sequencing of bio-molecules

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006054788A1 (ja) * 2004-11-19 2006-05-26 Takeda Pharmaceutical Company Limited 特定のmRNAの翻訳を制御する化合物のスクリーニング方法
JP2006235750A (ja) * 2005-02-22 2006-09-07 Institute Of Physical & Chemical Research 遺伝子構造予測方法および遺伝子構造予測プログラム
JP2007226700A (ja) * 2006-02-27 2007-09-06 National Institute Of Advanced Industrial & Technology Rna配列情報処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006054788A1 (ja) * 2004-11-19 2006-05-26 Takeda Pharmaceutical Company Limited 特定のmRNAの翻訳を制御する化合物のスクリーニング方法
JP2006235750A (ja) * 2005-02-22 2006-09-07 Institute Of Physical & Chemical Research 遺伝子構造予測方法および遺伝子構造予測プログラム
JP2007226700A (ja) * 2006-02-27 2007-09-06 National Institute Of Advanced Industrial & Technology Rna配列情報処理装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010087409A1 (ja) * 2009-01-29 2010-08-05 エーザイ・アール・アンド・ディー・マネジメント株式会社 核酸の検出方法
US10876159B2 (en) 2010-03-03 2020-12-29 Quantum Biosystems Inc. Method and device for identifying nucleotide, and method and device for determining nucleotide sequence of polynucleotide
US10202644B2 (en) 2010-03-03 2019-02-12 Quantum Biosystems Inc. Method and device for identifying nucleotide, and method and device for determining nucleotide sequence of polynucleotide
US10557167B2 (en) 2013-09-18 2020-02-11 Quantum Biosystems Inc. Biomolecule sequencing devices, systems and methods
US10261066B2 (en) 2013-10-16 2019-04-16 Quantum Biosystems Inc. Nano-gap electrode pair and method of manufacturing same
US10466228B2 (en) 2013-10-16 2019-11-05 Quantum Biosystems Inc. Nano-gap electrode pair and method of manufacturing same
US10438811B1 (en) 2014-04-15 2019-10-08 Quantum Biosystems Inc. Methods for forming nano-gap electrodes for use in nanosensors
US10413903B2 (en) 2014-05-08 2019-09-17 Osaka University Devices, systems and methods for linearization of polymers
CN109937426A (zh) * 2016-04-11 2019-06-25 量子生物有限公司 用于生物数据管理的系统和方法
WO2017179581A1 (en) * 2016-04-11 2017-10-19 Quantum Biosystems Inc. Systems and methods for biological data management
US12091712B2 (en) 2016-04-27 2024-09-17 Illumina Cambridge, Ltd. Systems and methods for measurement and sequencing of bio-molecules
CN113077849A (zh) * 2021-03-16 2021-07-06 华南农业大学 一种大肠杆菌β-内酰胺类获得性耐药表型预测复合工具
CN113643758A (zh) * 2021-09-22 2021-11-12 华南农业大学 面向肠杆科细菌获得抗β-内酰胺类耐药性基因的预测方法

Similar Documents

Publication Publication Date Title
JP2008146538A (ja) マイクロrna検出装置、方法およびプログラム
Vaishnav et al. The evolution, evolvability and engineering of gene regulatory DNA
Chen et al. Interpretable RNA foundation model from unannotated data for highly accurate RNA structure and function predictions
Jensen et al. Computational discovery of gene regulatory binding motifs: a Bayesian perspective
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
Wexler et al. A study of accessible motifs and RNA folding complexity
CN113066527B (zh) 一种siRNA敲减mRNA的靶点预测方法和系统
CN111429970B (zh) 基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统
Sahraeian et al. PicXAA-R: efficient structural alignment of multiple RNA sequences using a greedy approach
CN106446601B (zh) 一种大规模标注lncRNA功能的方法
CN112885405A (zh) 疾病关联miRNA的预测方法和系统
CN116705142A (zh) 基于二进制量子粒子群优化算法与通量平衡分析混合算法的代谢产物优化方法
Suleman et al. PseU-Pred: an ensemble model for accurate identification of pseudouridine sites
Agüero-Chapin et al. Exploring the adenylation domain repertoire of nonribosomal peptide synthetases using an ensemble of sequence-search methods
US20100100366A1 (en) Microrna detecting apparatus, method, and program
CN108595910A (zh) 一种基于多样性指标的群体蛋白质构象空间优化方法
Zhang et al. 3dDNAscoreA: A scoring function for evaluation of DNA 3D structures
Martin et al. Choosing the optimal hidden Markov model for secondary-structure prediction
WO2022084696A1 (en) Drug optimisation by active learning
Yoon et al. RNA secondary structure prediction using context-sensitive hidden Markov models
US20220246235A1 (en) System and method for gene editing cassette design
CN110706739B (zh) 一种基于多模态内外交叉的蛋白质构象空间采样方法
CN103425900A (zh) 一种基于统计显著性能快速识别基因组转录因子结合位点的系统
Liu et al. An RNA folding algorithm including pseudoknots based on dynamic weighted matching
Schwehn et al. Inferring protein from mRNA concentrations using convolutional neural networks

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090714

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20120207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120612