JPH11169172A - Dna塩基配列上のタンパク質コード領域予測方法及び記録媒体 - Google Patents

Dna塩基配列上のタンパク質コード領域予測方法及び記録媒体

Info

Publication number
JPH11169172A
JPH11169172A JP9336858A JP33685897A JPH11169172A JP H11169172 A JPH11169172 A JP H11169172A JP 9336858 A JP9336858 A JP 9336858A JP 33685897 A JP33685897 A JP 33685897A JP H11169172 A JPH11169172 A JP H11169172A
Authority
JP
Japan
Prior art keywords
region
coding region
predicting
base sequence
dna base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9336858A
Other languages
English (en)
Inventor
Katsuhiko Murakami
勝彦 村上
Toshihisa Takagi
利久 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP9336858A priority Critical patent/JPH11169172A/ja
Publication of JPH11169172A publication Critical patent/JPH11169172A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 本発明の課題は、DNA塩基配列上のタンパ
ク質コード領域を正確に予測するコード領域予測方法を
提供すること。 【解決手段】 異なるアルゴリズムを用いた複数のコー
ド領域予測方法の結果を入力として1、あらためてコー
ド領域を予測するコード領域予測方法であって、各予測
方法から出力されるスコアを予測領域が正解である確率
に変換し2、確率の値を比較する3ことで信頼度の高い
領域を選択して予測する。これによって、各方法に用い
られているアルゴリズムを組み合わせることが容易にで
き、その結果正解率を上げることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はDNA塩基配列の情
報処理、特に配列上のタンパク質コード領域を検出する
方法に関する。
【0002】
【従来の技術】現在、ゲノム解析計画によってDNA配
列が大量に決定されている。何の情報も付加されていな
いDNA塩基配列のデータに対して、その中でタンパク
質がコードされている領域( コード領域) を予測するこ
とは、新しい遺伝子を発見し、医学、薬学的な研究をす
すめる上で重要である。配列を決定した後で情報処理に
より遺伝子領域を推定できれば効率的に新しい遺伝子を
特定することができる。DNA配列中のコード領域を発
見する方法としては、既知の核酸配列データベースに対
して似た配列があるかどうかを検索する方法がある。新
しい配列の中で、既知の遺伝子に似ている配列は遺伝子
である可能性が高いからである。しかし、長い領域にわ
たって問題のDNA配列と似ている遺伝子がデータベー
スにない場合にはこの方法は有効でない。近年、GRA
IL(Proceedings, The Second International Confere
nce on Intelligent Systems for Molecular Biology,
page376-384, 1994, ISBN 0-929280-68-7) という方法
などのように、統計情報をもとにしてコード領域を見つ
ける方法が発展してきた。
【0003】このGRAILで使われるコード領域予測
方法のアルゴリズムは、主にコード領域に現れる数塩基
の配列の統計、すなわち6塩基の短い配列( 以下、6mer
と呼ぶ) がコード領域に出現する頻度に基づいている。
ある6mer (例えば、X=acgttc)がデータベース中の配列
に出現した頻度のうち、コード領域に出て来た頻度Fc
(X) と非コード領域に出て来た頻度Fn(X) の比P
(X)=Fc(X)/Fn(X) をもって、この6merのスコアと
する。さらに、6merでなく、ある程度長い領域がコード
領域であるかどうかを識別するのには、その領域に現れ
た6merすべてについて、上記の6merのスコアを(数1)
にあるように乗じて、この領域のスコアとする。
【0004】
【数1】 この数値をコーディングポテンシャルと言い、その値の
大きさはその領域がコード領域らしい程度を示す。これ
以外にもいくつか類似の指標を計算し、それらをフィー
ドフォワード型のニューラルネットワークに入力するこ
とにより、最終的にその領域に0以上1以下の得点を与
え、一定値以上であればコード領域であると予測する。
【0005】他にも、同様にDNA配列からコード領域
を予測する方法として、FEXH (Nucleic Acid Resea
rch, vol. 22, Num. 24, page 5156-5163, 1994)やGen
eParser (Journal of Molecular Biology, 248, page
1-18, 1995)などがある。FEXHで使われるコード領
域予測方法のアルゴリズムでは、GRAILとは異なる
コーディングポテンシャルを用い、さらにコード領域の
境界のシグナル検出方法を用いている。FEXHでは8m
erのスコアを(数2)によって計算する。
【0006】
【数2】 ここで、Fc(X) は、8merXがデータベース中のコード
領域に出て来た頻度、Fn(X) は、8merXがデータベー
ス中の非コード領域に出て来た頻度である。FEXHに
おけるコーディングポテンシャルの計算は(数2)を用
いて定義される。すなわち、任意の長さの配列につい
て、その配列のコーディングポテンシャルは、(数2)
を考える領域にわたって平均したもの(数3)である。
【0007】
【数3】 FEXHで使われるコード領域予測方法におけるコード
領域の境界のシグナル検出方法について説明するが、そ
の前に境界に関する基本的事柄を述べる。境界から5'側
(左側)の塩基の位置を -1,-2,...と表現し、境界からす
ぐ3'側(右側)の塩基の位置を境界に近いほうから 1,
2,...と表現する。0の位置はない。以下では例えば、-
4から+3までの塩基位置の7文字からなる領域は(-4,3)
と表す。コード領域の境界では、境界からの位置によっ
て使われる塩基の種類に偏りがあり、よく出て来る配列
パターンを境界の「コンセンサス配列」という。コード
領域の境界の種類はいくつかあって、原核生物の場合は
開始コドンとよばれる配列'ATG'で始まるか、終止コ
ドンと呼ばれる配列で終わるが、ヒトを初めとする真核
生物の場合はさらに、コード領域の5'側の境界と3'側の
境界とで2種類あり、この2つはそれぞれアクセプター
サイト, ドナーサイトと呼ばれる。この種類によって、
コンセンサス配列が違う。ほとんどの場合、コード領域
の間に存在する介在配列と呼ばれる領域は、GTの2塩
基で始まり、AGの2塩基で終わるので、配列GTが見
つかればアクセプターサイトの候補であり、配列にAG
が見つかればドナーサイトの候補である。これらのう
ち、実際にはコード領域の境界ではない位置を疑似境界
部位と呼ぶ。
【0008】FEXHにおいては、コード領域のシグナ
ルを検出するために、以下で定義される「3merのスコ
ア」を用いる。まず、領域(L,R)に注目する。L,
Rは領域の境界の位置である。ある3merYk(k=1,...,6
4)が領域(L,R)内の位置iにでてくる頻度を、実際
の境界のデータと疑似部位に対してそれぞれFi s,k,F
i p ,k とおき、「位置iでの3merのスコア」を(数4)
によって定義する。
【0009】
【数4】 この(数4)を領域(L,R)に渡って平均したもの
(数5)が領域(L,R)の「3merのスコア」である。
【0010】
【数5】 ここで、mは領域(L,R)の長さである。さらに、
(数5)の和をとるときに、ある値α=0.65を与えてお
き、P(i) がαよりも大きいP(i) の和をとったときの
スコアを特に、「有意な3merのスコア」と定義する。さ
て、FEXHで使われるコード領域予測方法におけるコ
ード領域の境界のシグナル検出方法について説明する。
ドナーサイトについては、(-30,-5)のコーディングポテ
ンシャル、領域(-4,6)の3merのスコア、領域(-30,-5)の
3merのスコア、領域(7,50)の3merのスコア、領域(-4,6)
の有意な3merのスコア、領域(6,50)のG,GG,GGG
の数などを計算し、統計的手法である判別分析によりこ
れらのスコアを組み合わせて、一つのドナーサイトに対
して一つの統合スコアを計算する。アクセプターサイト
については、領域(-48,-34) の3merのスコア、領域(-3
3,-7)の3merのスコア、領域(-6,5)の3merのスコア、領
域(6,30)の3merのスコア、領域(1,54)の8merのコーディ
ングポテンシャル、領域(-1,-54)の8merのコーディング
ポテンシャル、領域(-33,-7)のT,Cの数を判別分析に
よって組み合わせて、一つのアクセプターサイトに対し
て一つの統合スコアを計算する。
【0011】ある領域がコード領域かどうかを決定する
ためのスコアは、コーディングポテンシャル、ドナーサ
イトのスコア、アクセプターサイトのスコアなどを判別
分析で組み合わせて、統合スコアが閾値より高い領域を
コード領域と予測する。GeneParser で使われるコー
ド領域予測方法のアルゴリズムでは、i 塩基目からj塩
基目までの領域のコーディングポテンシャルを計算する
のに、(数6)を用いている。
【0012】
【数6】 ここでfk は6mer ai+k,ai+k+1,...,ai+k+5(al∈{A,
C,G,T}) が学習データのコード領域に現れた頻度
で、6merの第一番目の文字がコドンの一番目になってい
るときだけ数えたものである。Fk は、その配列と同じ
塩基組成でランダムに配列を生成した場合にその6merが
出て来る頻度の期待値である。
【0013】さらに、(数7)で定義される局所的複雑
度も用いている。
【0014】
【数7】 ここで、Lは考慮している配列の長さで、Nkは塩基k
(kは、A,C,G,Tのいずれか) が長さLの配列に
現れた頻度である。GeneParser では、コード領域の
境界のスコアを以下のように計算する。境界の領域(i,
j) 内の配列sisi+1 ...sj に対してそのスコアS(i,j)
は(数8)で定義する。
【0015】
【数8】 ここで、fb,i は、位置iに塩基b(bはA,C,G,
Tのいずれか)が出てきた頻度であり、pb は塩基bが
その配列に出てくる事前確率である。他にもコード領域
らしいかどうかのスコアや、ドナーサイトのスコア、ア
クセプターサイトのスコアを計算し、それらをフィード
フォワード型のニューラルネットワークで統合して、最
終的にその領域に0以上1以下の得点を与え、一定値以
上であればコード領域と予測結果を出す。GeneParser
は、GRAILと同じくニューラルネットワークを用
いているが、先に述べたように考慮している特徴が異な
り、さらにその学習方法も異なっている。
【0016】このように、これらの予測方法は異なる特
徴検出方法を用いており、それらのスコアを統合化する
方法も異なっている。これらの方法の予測は不正解であ
ることも多く、同じ配列を解析しても、検出しにくいコ
ード領域に対しては方法によって予測結果が異なること
が多い。
【0017】
【発明が解決しようとする課題】これまでは単一の方法
をもとにしていたため、精度が低かった。これは、各予
測方法の捉えている特徴が部分的なものだからである。
したがって、できるだけ多くの特徴をとらえた結果をま
とめて予測をして、正解率を上げることが課題である。
一方、各方法で採用している配列の特徴検出方法を一つ
の方法の中で実装するのは、人的コストがかかる。そこ
で、出来るだけ簡便な方法で多くの特徴をとらえること
が課題である。本発明の目的は、上記の課題を解決し、
信頼性の高いコード領域予測をする方法を提供すること
が目的である。
【0018】
【課題を解決するための手段】上記課題を解決するため
に本発明では、DNA配列上にある遺伝子の様々な特徴
を異なるアルゴリズムよって学習した遺伝子予測方法の
結果を入力に用いて、それらを総合した予測を行う。こ
れによって、一つの予測方法で考慮できない多くの特徴
を考慮した予測結果を容易に得られる。また、異なる予
測方法による予測結果の信頼性を比較したうえで最終予
測を行うために、各予測方法のスコアを正解率に変換
し、正解率を比較することによって、より信頼の高い予
測結果を得る。
【0019】
【発明の実施の形態】図1は本発明の実施の概要で、複
数の予測プログラムの結果を使って、新たな予測をする
方法の流れ図である。各予測方法による予測処理部1
で、入力されたDNA配列データを各コード領域予測方
法で解析し、各々の予測結果を得る。各コード領域予測
プログラムの出力結果の中から、入力配列の何塩基目か
ら何塩基目までがコード領域であるかという情報と、そ
のスコア( 確からしさ) の情報を保持しておく。次に、
スコア変換部2で、各予測された領域のスコアからその
領域が正解である確率を求める。正解であるとは、予測
した領域と実際のコード領域がオーバーラップしている
ことである。この確率は、あらかじめ設定してある変換
関数で得られる。この確率は、以下Pscore と呼ぶ。変
換関数の作成方法については、後述する。
【0020】各予測結果をもとにして、あらためてコー
ド領域を予測する組み合わせ処理3を行い、最終予測結
果を出力して終了である。図2はこの組み合わせ処理3
の詳細についての説明図である。図3は複数の予測方法
によって、異なる領域がコード領域と予測された例であ
る。図3の上部に、3つのコード領域予測方法によって
コード領域と予測された領域を描いた。すなわち、FE
XHによってコード領域と予測された領域21、GenePa
rser によってコード領域と予測された領域22、GRA
ILによってコード領域と予測された領域23である。そ
れぞれのPscore は、0.8 、 0.4、 0.9である。横軸は
入力したDNA配列上での塩基の位置を示す。まず、記
録配列24を用意し、その全領域に整数0を入れて初期化
11を行う。次に、各予測方法で予測された各塩基に対応
する記録配列24の部分に1 を足して予測結果を記録する
処理12を行う。これによってどの場所がいくつの予測方
法によってコード領域と予測されたかが、記録配列24に
記録される。図3では、重なった予測方法の数を四角の
高さで表しているが、実際には0 以上の整数が入ってい
る。
【0021】次に、スキャン処理13によって、記録配列
24をスキャンし、1以上が記録されている重なり領域29
をみつける。重なり領域29がなければ条件式14によって
終了し、あればコード領域の境界を決定する処理15に進
む。境界決定処理15と、最終スコアの決定16に関して、
5つの方法を述べる。1つめの方法では、使用した全て
の予測方法が予測した領域をコード領域の候補とする。
このときの最終スコアは、各方法のPscore の平均とす
る。この例では、最終スコアは(0.8+0.4+0.9)/3 = 0.7
である。以下これを「AND法」と呼ぶ。この方法によ
ってコード領域と予測され得る領域25を図3に示した。
この時点では、まだ候補であって、コード領域と予測さ
れたわけではない。2つめの方法では、使用した予測方
法のいずれかが予測した領域をコード領域の候補とす
る。このときの最終スコアは、各方法のスコアから換算
した各Pscore の平均とする。もし、いくつかの予測方
法がその重なり領域中のどこもコード領域と予測してい
なかった場合の最終スコアは、予測しなかった予測方法
のPscore を0として、計算する。この例では、最終ス
コアは(0.8+0.4+0.9)/3 = 0.7 である。以下これを「O
R法」と呼ぶ。この方法によってコード領域と予測され
得る領域26を図3に示した。
【0022】3つめの方法では、その重なり領域29をコ
ード領域と予測した予測方法のうち、最も高いPscore
を持っている予測方法を選択し、その予測方法が予測し
た領域をコード領域の候補とする。このときの最終スコ
アは、OR法と同様に各Pscore の平均とする。もし、
いくつかの予測方法がその重なり領域中のどこもコード
領域と予測していなかった場合の最終スコアは、予測し
なかった予測方法のPscore を0として、計算する。こ
の例では、最終スコアは(0.8+0.4+0.9)/3 = 0.7 であ
る。以下これを「HIGHEST法」と呼ぶ。この方法
によってコード領域と予測され得る領域27を図3に示し
た。
【0023】4つめの方法では、その重なり領域30をコ
ード領域と予測した予測方法のうち、あらかじめつけて
おいた優先順位の高い予測方法の結果を選択する。その
予測方法が予測した領域をコード領域の候補とする。優
先順位は、あらかじめ各予測方法のテストをしておきそ
の成績の良い順にする。例えば、バーセットらの行った
遺伝子予測プログラムのテスト(Genomics, 34, page 35
3-367, 1996)において、境界も正確に予測したエキソン
( コード領域の単位) の数の割合が高い順に設定すれば
よい。この順は、順位の高いほうからFEXH, Gene
Parser,GRAILである。このときの最終スコアは、
選択した予測方法のPscore とする。この例では、最終
スコアはFEXHのPscore になるので 0.8である。以
下これを「RULE法」と呼ぶ。この方法によってコー
ド領域と予測され得る領域28を図3に示した。
【0024】5つめの方法では、その重なり領域30それ
ぞれに対して、Pscore と境界のタイプを考慮して新し
いスコアEscore を計算する。境界のタイプとは、開始
コドン、ドナーサイト、アクセプターサイト、終止コド
ンのうちのいずれかである。この4つを以下では、i,d,
a,t と表記する。Escore は以下のように計算する。ま
ず、ある予測方法が予測したコード領域のうち、コード
領域のPscore がpsで、境界のタイプtypeにおける正解
率をPe(type,ps)とする。これは、各予測方法毎に学習
データから近似関数を作成しておく。この例では、FE
XHの境界のタイプがa,t でPscore が0.8 であるか
ら、FEXHのP(a,0.8) とP(t,0.8) を計算してお
く。また、GeneParser の境界のタイプがa,d でPsco
re が0.4 であるからGeneParser のP(a,0.4) とP
(d,0.4) を計算しておく。さらに、GRAILの境界の
タイプがi,t でPscore が0.9 であるから、GRAIL
のP(i,0.9) とP(t,0.9) を計算しておく。次に、ある
予測方法が予測した領域の左右の境界のタイプがl及び
rならば(l,r はi,d,a,t のいずれかである)、このと
きのEscore は、(数9)と定義する。
【0025】
【数9】 この例でFEXH、GeneParser 、GRAILのEsco
re は、それぞれ0.72,0.48,0.54である。このEscore
が最も高い予測方法が予測した領域をコード領域の候補
とする。このときの最終スコアは、選択した予測方法の
Escore とする。この例では、最終スコアは0.8*0.9=0.
72である。以下これを「EDGE法」と呼ぶ。この方法
によってコード領域と予測される領域29を図3に示し
た。
【0026】各方法のいずれかで候補の領域と最終スコ
アを決定した後、その候補をコード領域として予測する
かどうかを閾値によって決定する。すなわち、最終スコ
アと閾値とを比較する部分17によって最終スコアが高い
かどうかを判断し、高ければこれをコード領域と予測し
て、領域を出力する処理18を行う。ここで閾値の設定方
法について述べる。閾値を設定するときに高く設定する
と、偽陽性の数は減るが感度が悪くなる。逆に、閾値を
低く設定すると、感度が上がるが偽陽性の数が増えてし
まう。そこで、閾値は何らかの指標が最適になるような
適当な値に決めなければならない。ここでは、多くの配
列データに対して、予測と正解の相関を示すファイ相関
係数の全データに渡っての平均が、最高になるように定
める。このファイ相関係数は、正解の分かっている配
列、すなわち、コード領域の位置が分かっているDNA
配列一つに対して一つの値が求められる。また、このフ
ァイ相関係数の定義は、(数10)である。
【0027】
【数10】 ただし、コード領域という予測を陽性、非コード領域と
いう予測を陰性として、TPは真陽性の塩基数、TNは
真陰性の塩基数、FPは偽陽性の塩基数、FNは偽陰性
の塩基数、PPは陽性の塩基数、PNは陰性の塩基数、
APはコード領域の塩基数、ANは非コード領域の塩基
数とする。−1≦CC≦1であり、完全に正解であれば
CC=1であり、完全に正解と逆の予測をしたときはC
C=−1となる。ランダムな予測に対しては、ファイ相
関係数の期待値は0である。
【0028】閾値の決定に際しては、各方法毎に、多く
の配列データにおいてあらかじめ0から1までのいろい
ろな閾値でファイ相関係数の平均を求めて、CCが最高
値をとるときの閾値を、その方法の閾値と決める。閾値
の決定に関しては、上記の方法の他に第1種の誤り率E
1=FN/APと、第2種の誤り率E2=FP/ANの平
均EAV=(E1+E2)/2 が最低値をとるときの閾値
にする方法も考えられる。あるいは、上記の誤り率を計
算する際に塩基数でなくコード領域の数で計算した誤り
率の平均を最低値にするような閾値を採用する方法も考
えられる。
【0029】ここで、各予測方法のスコアを予測した領
域が正解である確率に変換する関数の作成方法を図4に
沿って述べる。多くのデータを解析する必要があるの
で、はじめにさまざまな条件を満たすデータのみを集め
る処理31を行う。例えば、核酸配列データベースである
GenBank リリース100 (1997 年4 月) の中から、項
目'SOURCE' が'Homo sapiens'であり、一つ以上
の'CDS' を含んでいるDNA配列のエントリーを集
める。これらはコード領域の位置が分かっているDNA
配列データである。また、イントロン領域を含むものに
ついては、イントロン領域がGTで始まるかAGで終る
ことが条件であるので、この条件を満たさないデータは
捨てる。また、pseudo, putative, ORF, alternativ
e, predict,fusionのうちいずれかの記述が項目'CD
S' の中にあれば、それは実験的にコード領域とは確認
されていないか、確実なコード領域がわかっていない可
能性が強いため、これを除く。さらに、各コード領域予
測方法が学習に用いたデータをここで使わないようにす
るため、1996年6月より前に登録されたデータを除く。
【0030】これらの処理31を経てデータセット32を作
成する。データ一つについて各予測方法での解析33を実
行した後、各予測方法のスコアとエラー率の関係を調べ
る処理34をする。実際に調べたFEXHのヒストグラム
を図5に、GeneParser のヒストグラムを図6に、G
RAILのヒストグラムを図7に示す。これらのヒスト
グラムから、各予測方法ごとに(数11)で仮定した変
換関数を求めるため最小自乗法によるパラメータ推定35
を行う。こうして出来た関数が、求める変換関数であ
る。この変換関数は、一次式でなく二次式でもよい。
【0031】
【数11】 本方法によって正解率がどの程度変わるかを示す。DN
A配列データセット32を本方法で解析し、配列一つごと
に以下の正解率(数12)を計算し、これをデータの本
数で割ったものである。なお、この正解率の計算方法は
バーセットらによって提案された正解率であり(Genomic
s, 34, page 353-367, 1996)、広く使われているもので
ある。
【0032】
【数12】 各予測方法単独のときの数6 の値はFEXHが0.64、G
eneParser が0.63、GRAILが0.67であったのに対
し、3方法の組合せを本発明のように行うと、AND法
では 0.53 と低くなったが、OR法で 0.76 、HIGH
EST法で 0.74 、RULE法で 0.71 、EDGE法で
0.74と高くなり、後者4つの方法では正解率が上がっ
た。
【0033】AND法は全体の正解率では、単独の結果
より悪いが実際のコード領域のうち、検出できなかった
コード領域の率をみると、単独では、FEXHが0.47、
GeneParser が0.45、GRAILが0.27であるのに対
し、AND法による3つのコード領域予測方法を組合せ
ると、0.07と低くなり、93%のコード領域を検出するこ
とができた。AND方法は、感度と特定度のバランスで
は、単独のときの正解率におよばないが、特別な場合、
すなわち偽陽性が多くてもコード領域として可能性のあ
る領域を出来るだけ多くリストアップしたい場合には有
効である。
【0034】なお、上記以外にも他のアルゴリズムを用
いたコード領域予測方法が知られているので、(表1)
に例示する。これらの予測方法も任意に選択して用いる
ことができる。
【0035】
【表1】
【0036】
【発明の効果】従来、一つのアルゴリズムによる場合は
少ない指標にもとづいて予測していたため、効率良く多
くのコード領域を得ることができなかった。本発明によ
って、複数のアルゴリズムで多角的に候補を選定できる
ので偽陽性があまり増えずに効率的に多くのコード領域
を検出できる。その結果、全体的に精度が上がる。
【図面の簡単な説明】
【図1】本発明におけるコード領域予測手順
【図2】組合せ処理の説明図
【図3】重なり領域での境界決定方法の説明図
【図4】スコアを確率へ変換する関数を作成する方法の
説明図
【図5】予測方法FEXHのスコアとエラー率の関係を
示す図である。
【図6】予測方法GeneParser のスコアとエラー率の
関係を示す図である。
【図7】予測方法GRAILのスコアとエラー率の関係
を示す図である。
【符号の説明】
1 …DNA配列を各予測方法で解析する処理部 2 …予測方法のスコアを正解である確率に変換する部分 3 …組み合わせ処理部 11…記録配列の初期化 12…各方法の予測領域を記録配列に記録する処理 13…記録配列のスキャン処理 14…重なり領域のチェック 15…境界の決定 16…最終スコアの決定 17…最終スコアと閾値の比較 18…コード領域と判定した領域の出力 21…予測方法FEXHが予測したコード領域 22…予測方法GeneParser が予測したコード領域 23…予測方法GRAILが予測したコード領域 24…DNA配列に対応する記録配列 25…「AND法」によってコード領域と予測される領域 26…「OR法」によってコード領域と予測される領域 27…「HIGHEST法」によってコード領域と予測さ
れる領域 28…「RULE法」によってコード領域と予測される領
域 29…「EDGE法」によってコード領域と予測される領
域 30…各予測方法による予測の重なり領域 31…核酸データベースから条件にあうデータを取得する
処理 32…条件にあうデータの集合 33…各予測方法で解析する部分 34…エラー率とスコアの関係を計算する部分 35…変換関数のパラメータを計算する部分

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 DNA塩基配列データ上でタンパク質を
    コードする領域(これをコード領域と呼ぶ)を検出する
    方法において、異なるアルゴリズムを用いた複数のコー
    ド領域予測方法の予測結果を入力として、あらためてコ
    ード領域を予測することを特徴とするDNA塩基配列上
    のタンパク質コード領域予測方法。
  2. 【請求項2】 請求項1に記載のDNA塩基配列上のタ
    ンパク質コード領域予測方法において、各予測方法が共
    通にコード領域と予測した領域をとり、その領域をコー
    ド領域と予測することを特徴とするDNA塩基配列上の
    タンパク質コード領域予測方法。
  3. 【請求項3】 請求項1に記載のDNA塩基配列上のタ
    ンパク質コード領域予測方法において、各予測方法のい
    ずれかが予測した領域のすべてをとり、その領域をコー
    ド領域と予測することを特徴とするDNA塩基配列上の
    タンパク質コード領域予測方法。
  4. 【請求項4】 請求項1に記載のDNA塩基配列上のタ
    ンパク質コード領域予測方法において、あらかじめ各予
    測方法に優先順位をつけておき、もし、重なる領域を複
    数の予測方法がコード領域と予測した場合、その境界の
    決定については、優先順位の高い予測方法の予測による
    境界を採用してコード領域と予測することを特徴とする
    DNA塩基配列上のタンパク質コード領域予測方法。
  5. 【請求項5】 請求項1乃至4のいずれかに記載のDN
    A塩基配列上のタンパク質コード領域予測方法におい
    て、各コード領域予測方法がコード領域と予測した領域
    に与えられたスコアを、あらかじめ定めた関数によって
    その領域が正しくコード領域である確率に変換し、その
    確率の平均値があらかじめ定めた閾値よりも大きい時に
    その領域をコード領域と予測することを特徴とするDN
    A塩基配列上のタンパク質コード領域予測方法。
  6. 【請求項6】 請求項1に記載のDNA塩基配列上のタ
    ンパク質コード領域予測方法において、もし、重なる領
    域を複数の予測方法がコード領域と予測した場合、その
    境界の決定については各コード領域予測方法がコード領
    域と予測した領域に与えられたスコアをあらかじめ定め
    た関数によってその領域が正しくコード領域である確率
    に変換し、確率が高い予測方法の予測による境界を採用
    してコード領域と予測することを特徴とするDNA塩基
    配列上のタンパク質コード領域予測方法。
  7. 【請求項7】 請求項6に記載のDNA塩基配列上のタ
    ンパク質コード領域予測方法において、その選択したコ
    ード領域予測方法の確率があらかじめ定めた閾値よりも
    大きい時にその領域をコード領域と予測することを特徴
    とするDNA塩基配列上のタンパク質コード領域予測方
    法。
  8. 【請求項8】 請求項6又は7に記載のDNA塩基配列
    上のタンパク質コード領域予測方法において、各コード
    領域予測方法がコード領域と予測した領域に与えたスコ
    アを確率に変換する関数が、コード領域予測方法と、そ
    の方法が与えるスコアと、予測した領域の5'側及び3'側
    の境界の種類の関数であることを特徴とするDNA塩基
    配列上のタンパク質コード領域予測方法。
  9. 【請求項9】 請求項5、7又は8に記載のDNA塩基
    配列上のタンパク質コード領域予測方法において、各予
    測方法の確率の平均値をその領域の最終スコアとするも
    のであって、コード領域という予測を陽性、非コード領
    域という予測を陰性として、TPを真陽性の塩基数、T
    Nを真陰性の塩基数、FPを偽陽性の塩基数、FNを偽
    陰性の塩基数、PPを陽性の塩基数、PNを陰性の塩基
    数、APをコード領域全体の塩基数、ANを非コード領
    域全体の塩基数として、(TP)(TN)−(FP)(FN)
    を(PP)(PN)(AP)(AN)の平方根で割ったものと
    して定義されるファイ相関係数を計算した時に、この相
    関係数が既知の配列データを解析した場合に最大になる
    ようなスコアの閾値をもうけておき、領域の最終スコア
    がこの閾値以上の場合に、その領域をコード領域と予測
    することを特徴とするDNA塩基配列上のタンパク質コ
    ード領域予測方法。
  10. 【請求項10】 請求項5、7又は8に記載のDNA塩
    基配列上のタンパク質コード領域予測方法において、各
    予測方法の確率の平均値をその領域の最終スコアとし
    て、FPを偽陽性の塩基数、FNを偽陰性の塩基数、A
    Pをコード領域の塩基数、ANを非コード領域の塩基数
    とするとき、E=(FN/AP+FP/AN)/2によ
    って定義される平均誤り率が既知のデータを解析した場
    合に最低になるような閾値をもうけ、領域の最終スコア
    がこの閾値以上をコード領域と予測することを特徴とす
    るDNA塩基配列上のタンパク質コード領域予測方法。
  11. 【請求項11】 請求項1乃至10のいずれかに記載さ
    れたDNA塩基配列上のタンパク質コード領域予測方法
    をコンピュータに実行させるためのプログラムを記録し
    たコンピュータ読み取り可能な記録媒体。
JP9336858A 1997-12-08 1997-12-08 Dna塩基配列上のタンパク質コード領域予測方法及び記録媒体 Pending JPH11169172A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9336858A JPH11169172A (ja) 1997-12-08 1997-12-08 Dna塩基配列上のタンパク質コード領域予測方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9336858A JPH11169172A (ja) 1997-12-08 1997-12-08 Dna塩基配列上のタンパク質コード領域予測方法及び記録媒体

Publications (1)

Publication Number Publication Date
JPH11169172A true JPH11169172A (ja) 1999-06-29

Family

ID=18303315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9336858A Pending JPH11169172A (ja) 1997-12-08 1997-12-08 Dna塩基配列上のタンパク質コード領域予測方法及び記録媒体

Country Status (1)

Country Link
JP (1) JPH11169172A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001086003A3 (en) * 2000-02-04 2003-05-22 Aeomica Inc Human genome-derived single exon nucleic acid probes useful for analysis of gene expression in human lung
JP2007265268A (ja) * 2006-03-29 2007-10-11 Fujitsu Ltd 抗原決定基予測プログラム、抗原決定基予測装置、および抗原決定基予測方法
JP2010205206A (ja) * 2009-03-06 2010-09-16 Nippon Software Management Kk 塩基配列決定方法、塩基配列決定装置およびそのプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001086003A3 (en) * 2000-02-04 2003-05-22 Aeomica Inc Human genome-derived single exon nucleic acid probes useful for analysis of gene expression in human lung
JP2007265268A (ja) * 2006-03-29 2007-10-11 Fujitsu Ltd 抗原決定基予測プログラム、抗原決定基予測装置、および抗原決定基予測方法
JP2010205206A (ja) * 2009-03-06 2010-09-16 Nippon Software Management Kk 塩基配列決定方法、塩基配列決定装置およびそのプログラム

Similar Documents

Publication Publication Date Title
Ewing et al. Base-calling of automated sequencer traces using phred. II. Error probabilities
JP4369922B2 (ja) 生体画像照合装置およびその照合方法
JP2501771B2 (ja) 不所望のソフトウェア・エンティティの複数の有効なシグネチャを得る方法及び装置
CN107408163B (zh) 用于分析基因的方法及装置
JP2008511058A (ja) コンピュータシステムを用いるデータ品質および/または部分異数染色体の決定
JP2003271960A (ja) 指紋照合装置および指紋照合方法とプログラム
US6321163B1 (en) Method and apparatus for analyzing nucleic acid sequences
CN110335248B (zh) 医学图像病灶检测方法、装置、计算机设备和存储介质
JP6892606B2 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
US6522768B1 (en) Predicting system behavior of a managed system using pattern recognition techniques
CN115954101A (zh) 一种基于ai舌诊图像处理的健康度管理系统及管理方法
KR20140090296A (ko) 유전 정보를 분석하는 방법 및 장치
JP2004173748A (ja) 類似医用画像データベース作成方法、類似医用画像データベース並びに類似医用画像検索方法及び装置
JPH11169172A (ja) Dna塩基配列上のタンパク質コード領域予測方法及び記録媒体
Grundy Family-based homology detection via pairwise sequence comparison
AU2022218581B2 (en) Sequencing data-based itd mutation ratio detecting apparatus and method
CN113782092B (zh) 一种生存期预测模型的生成方法及装置、存储介质
CN116525108A (zh) 基于snp数据的预测方法、装置、设备及存储介质
CN113539357B (zh) 基因检测方法、模型训练方法、装置、设备及系统
US20050050129A1 (en) Method of estimating a penetrance and evaluating a relationship between diplotype configuration and phenotype using genotype data and phenotype data
US20200105374A1 (en) Mixture model for targeted sequencing
US20200194099A1 (en) Machine learning-based variant calling using sequencing data collected from different subjects
JP3771809B2 (ja) 材料寿命の評価システム
US7917300B2 (en) Method and program for predicting gene network
US20090138209A1 (en) Prognostic apparatus, and prognostic method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060404

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060725