JP4805586B2 - Gene structure prediction method and gene structure prediction program - Google Patents
Gene structure prediction method and gene structure prediction program Download PDFInfo
- Publication number
- JP4805586B2 JP4805586B2 JP2005046149A JP2005046149A JP4805586B2 JP 4805586 B2 JP4805586 B2 JP 4805586B2 JP 2005046149 A JP2005046149 A JP 2005046149A JP 2005046149 A JP2005046149 A JP 2005046149A JP 4805586 B2 JP4805586 B2 JP 4805586B2
- Authority
- JP
- Japan
- Prior art keywords
- region
- expression
- base
- gene
- gene structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、遺伝子構造予測方法および遺伝子構造予測プログラムに関し、特に、ゲノム塩基配列から規則的に抜き出された部分塩基配列をプローブとして配置したタイリングアレイを用いて、当該タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータに基づいて当該ゲノム塩基配列から未知の遺伝子の領域や構造を予測する遺伝子構造予測方法および遺伝子構造予測プログラムに関するものである。 The present invention relates to a gene structure prediction method and a gene structure prediction program, and in particular, is measured with the tiling array using a tiling array in which partial base sequences regularly extracted from genomic base sequences are arranged as probes. Further, the present invention relates to a gene structure prediction method and a gene structure prediction program for predicting an unknown gene region and structure from the genome base sequence based on tiling array data relating to the expression intensity of each probe.
これまで、遺伝子の構造を予測する技術として、例えば非特許文献1〜3が公開されている。非特許文献1〜3に記載の技術によれば、既知の遺伝子に対して、塩基配列データのみで当該遺伝子の構造を予測することができた。
So far, for example,
ここで、DNAマイクロアレイは、多くの遺伝子の発現量を蛍光強度(発現強度)として同時に測定する技術として、非常に有用である。特に、タイリングアレイは、ゲノム塩基配列の全領域の発現量を蛍光強度(発現強度)として同時に測定することができるので、非常に有用である(例えば非特許文献4〜8参照)。タイリングアレイには、複数のプローブが、遺伝子領域であるか否かに関わらず、ゲノムの塩基配列に沿って、非常に密に且つ規則的に配置されている。これにより、タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータのみで未知の遺伝子の存在を発見することができた。なお、タイリングアレイにおいて、平均的な長さの遺伝子領域には、数十個から数百個のプローブが対応している。
Here, the DNA microarray is very useful as a technique for simultaneously measuring the expression levels of many genes as fluorescence intensity (expression intensity). In particular, tiling arrays are very useful because they can simultaneously measure the expression level of the entire region of the genomic base sequence as fluorescence intensity (expression intensity) (see, for example, Non-Patent
しかしながら、タイリングアレイデータには一般にノイズが多く含まれているので、タイリングアレイデータのみでゲノム塩基配列に存在するエクソンとイントロンを明確に区別することはできない。具体的には、タイリングアレイで測定された発現強度が閾値を超えるか否かでエクソンであるか否かを判定する方法の場合、閾値の調整を行っても、エクソン領域内で閾値以下の発現強度が存在したり、エクソン領域外で閾値を超える発現強度が存在したりする。そのため、タイリングアレイデータに基づいて未知の遺伝子の存在を予測することはできても、当該遺伝子の領域や構造を予測することはできなかった、という問題点があった。 However, since tiling array data generally contains a lot of noise, it is not possible to clearly distinguish exons and introns present in the genome base sequence only from tiling array data. Specifically, in the case of a method for determining whether or not an exon is based on whether or not the expression intensity measured by the tiling array exceeds the threshold, even if the threshold is adjusted, it is below the threshold within the exon region. There is an expression intensity, or there is an expression intensity exceeding a threshold outside the exon region. Therefore, there was a problem that even though the presence of an unknown gene could be predicted based on tiling array data, the region and structure of the gene could not be predicted.
また、遺伝子の構造を予測する従来の技術では、予測の過程において、統計的に有意と判定された遺伝子の発現領域であっても遺伝子領域でないと判定されてしまう場合があり、遺伝子の構造を必ずしも十分な精度で予測することができなかった、という問題点があった。 In addition, in the conventional technique for predicting the structure of a gene, even in the prediction process, even a gene expression region that is statistically significant may be determined not to be a gene region. There was a problem that it was not always possible to predict with sufficient accuracy.
本発明は上記問題点に鑑みてなされたもので、タイリングアレイデータに基づいてゲノム塩基配列から未知の遺伝子の領域や構造を精度よく予測することができる遺伝子構造予測方法および遺伝子構造予測プログラムを提供することを目的とする。 The present invention has been made in view of the above problems, and provides a gene structure prediction method and a gene structure prediction program capable of accurately predicting an unknown gene region and structure from a genomic base sequence based on tiling array data. The purpose is to provide.
従来の遺伝子構造予測方法ではマルコフモデルを用いるものがよく使われていた(例えば、「Asai K., Hayamizu, S. and Handa, K., “Prediction of protein secondary structure by the hidden Markov model.”, Computer Applications for Biosciences, 9, p.141−146, 1993」や「Krogh,A., Brown,M., Mian,IS. Sjolander,K., Haussler,D., “Hidden Markov models in computational biology. Applications to protein modeling.”, J.Mol. Biol., 235, p.1501−1531, 1994」、「Tanaka,H., Ishikawa,M., Asai,K., Konagaya, A., “Hidden Markov models and interactive aligners: Study of their equivalence and possibilities.”, International Conference on Intelligent Systems for Molecular Biology, 1, p.395−401, 1993」など参照)。ところが、従来の遺伝子構造予測方法では、例えばタイリングアレイデータから計算された尤度を考慮してマルコフモデルを適用した例はこれまでみられなかった。そもそも、タイリングアレイデータを考慮して遺伝子の構造を予測する試みは成されていなかった。 Conventional gene structure prediction methods that use a Markov model are often used (for example, “Asai K., Hayamizu, S. and Handa, K.,“ Prediction of protein secondary structure by the label ”. “Computer Applications for Biosciences, 9, p. 141-146, 1993” and “Krogh, A., Brown, M., Mian, IS. Sjorander, K., Haussler, D.,“ Hidden Markovel. to protein model ng. ”, J. Mol. Biol., 235, p. 1501-1531, 1994”, “Tanaka, H., Ishikawa, M., Asai, K., Konagaya, A.,“ Hidden Markov model and : Study of the equivalence and possibilities. ", International Conference on Intelligent Systems for Molecular Biology, 1, p. 395-401, 1993"). However, in the conventional gene structure prediction method, for example, no Markov model has been applied in consideration of the likelihood calculated from tiling array data. In the first place, no attempt has been made to predict the structure of a gene in consideration of tiling array data.
そこで、上記目的を達成するために、本発明にかかる遺伝子構造予測方法は、塩基配列に基づいて遺伝子の構造を予測する遺伝子構造予測方法において、ゲノム塩基配列から規則的に抜き出された部分塩基配列をプローブとして配置したタイリングアレイを用いて、当該タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータに基づいて当該ゲノム塩基配列から遺伝子の構造を予測すること、を特徴とする。 Therefore, in order to achieve the above object , the gene structure prediction method according to the present invention includes a partial base regularly extracted from a genome base sequence in the gene structure prediction method for predicting the structure of a gene based on the base sequence. Using a tiling array in which the sequences are arranged as probes, and predicting the structure of the gene from the genomic base sequence based on tiling array data on the expression intensity of each probe measured by the tiling array. To do.
また、本発明にかかる遺伝子構造予測方法は、ゲノム塩基配列から規則的に抜き出された部分塩基配列をプローブとして配置したタイリングアレイを用いて、当該タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータおよびゲノム塩基配列に関するゲノム塩基配列データを取得するデータ取得ステップと、前記データ取得ステップで取得したタイリングアレイデータに基づいて、ゲノム塩基配列の中から遺伝子の発現領域を推定する発現領域推定ステップと、前記発現領域推定ステップで推定した発現領域に対応する塩基を起点として、当該起点の両隣に連なる塩基ごとに、前記タイリングアレイデータおよび前記ゲノム塩基配列データに基づいて遺伝子の構造に関する属性を決定することで、遺伝子の構造を予測する遺伝子構造予測ステップと、を含むことを特徴とする。 The gene structure prediction method according to the present invention uses a tiling array in which partial base sequences regularly extracted from genomic base sequences are arranged as probes, and the expression of each probe measured with the tiling array. Data acquisition step for obtaining tiling array data related to strength and genomic base sequence data related to genomic base sequence, and estimation of gene expression region from genomic base sequence based on tiling array data acquired in the data acquisition step An expression region estimation step and a base corresponding to the expression region estimated in the expression region estimation step as a starting point, for each base that is adjacent to the starting point, a gene based on the tiling array data and the genomic base sequence data By determining attributes related to the structure of the gene, the structure of the gene Characterized in that it comprises a gene structure prediction step of predicting, a.
また、本発明にかかる遺伝子構造予測方法は、前記の遺伝子構造予測方法において、前記発現領域推定ステップは、前記タイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定する発現領域候補決定ステップと、前記発現領域候補決定ステップで決定した発現領域候補が統計的に有意であるか否かを判定する発現領域候補判定ステップと、前記発現領域候補判定ステップで有意であると判定した場合、発現領域候補を前記発現領域として決定する発現領域決定ステップと、をさらに含むことを特徴とする。 Moreover, gene structure prediction method according to the present invention, in the gene structure prediction method, the expression region estimation step, the expression determining the expression region candidate is a candidate for the expression region of the gene based on the tiling array data A region candidate determination step, an expression region candidate determination step for determining whether the expression region candidate determined in the expression region candidate determination step is statistically significant, and a determination that the expression region candidate determination step is significant In that case, the method further includes an expression region determination step of determining an expression region candidate as the expression region.
また、本発明にかかる遺伝子構造予測方法は、前記の遺伝子構造予測方法において、前記発現領域候補決定ステップは、ゲノム塩基配列における所定の長さの領域を対象として、当該領域に含まれるプローブの発現強度の中央値を算出する中央値算出ステップと、前記中央値算出ステップで中央値の算出対象とした領域をゲノム塩基配列に沿って移動する領域移動ステップと、前記中央値算出ステップおよび前記領域移動ステップを繰り返し実行することで蓄積した複数の中央値の中から最大のものを選択し、選択した最大の中央値の算出対象であった領域を前記発現領域候補として選出する発現領域候補選出ステップと、をさらに含むことを特徴とする。 Moreover, gene structure prediction method according to the present invention, in the gene structure prediction method, the expression region candidate determining step, a target region of a predetermined length in the genomic nucleotide sequence, the expression of probes contained in the area A median calculation step for calculating the median value of the intensity; a region moving step for moving the region that is the median calculation target in the median value calculating step along the genome base sequence; the median value calculating step and the region shifting An expression region candidate selection step of selecting a maximum one of a plurality of median values accumulated by repeatedly executing the step, and selecting a region that was a target of calculation of the selected maximum median value as the expression region candidate; , Further included.
また、本発明にかかる遺伝子構造予測方法は、前記の遺伝子構造予測方法において、前記遺伝子構造予測ステップは、前記発現領域推定ステップで推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定する発現領域塩基確率決定ステップと、前記発現領域確率決定ステップで対象とした発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定する隣接塩基確率決定ステップと、前記隣接塩基確率決定ステップをゲノム塩基配列の末端の塩基まで繰り返して実行した後、各塩基の属性に関する尤度を最尤法を用いて決定する尤度決定ステップと、前記確率、前記状態遷移確率および前記尤度に基づいて各塩基の属性の組み合わせを確定する属性確定ステップと、をさらに含むことを特徴とする。 Moreover, gene structure prediction method according to the present invention, in the gene structure prediction method, the gene structure prediction step as a target base in which expression region base corresponding to the expression region estimated by the expression region estimating step, An expression region base probability determination step for determining a probability related to the attribute of the expression region base using a Markov model, and an adjacent base adjacent to the expression region base targeted in the expression region probability determination step An adjacent base probability determination step for determining a state transition probability for an attribute using a Markov model, and the adjacent base probability determination step are repeatedly performed up to the end base of the genome base sequence, and the likelihood for the attribute of each base is maximized. A likelihood determining step that uses a likelihood method, and the probability, the state transition probability, and the likelihood An attribute determination step of determining a combination of the attributes of each base in Zui, characterized in that it further comprises a.
また、本発明にかかる遺伝子構造予測方法は、前記の遺伝子構造予測方法において、前記遺伝子構造予測ステップで予測した遺伝子の構造に含まれるエクソン領域に対応するプローブの発現強度に基づいて、当該遺伝子の発現値を算出する発現値算出ステップ、をさらに含むことを特徴とする。 Moreover, gene structure prediction method according to the present invention, in the gene structure prediction method, based on the expression intensity of the probe corresponding to exon region included in the structure of the gene predicted by the gene structure prediction step, of the gene An expression value calculating step of calculating an expression value;
また、本発明にかかる遺伝子構造予測方法は、前記の遺伝子構造予測方法において、前記遺伝子構造予測ステップで構造が予測された遺伝子の領域を除いたゲノム塩基配列である未予測領域を予測対象領域として決定する予測対象領域決定ステップ、をさらに含み、前記予測対象領域決定ステップで決定した予測対象領域に対して、前記発現領域推定ステップおよび前記遺伝子構造予測ステップを再び実行すること、を特徴とする。 Moreover, the gene structure prediction method according to the present invention is the above-described gene structure prediction method, wherein an unpredicted region that is a genomic base sequence excluding the region of the gene whose structure is predicted in the gene structure prediction step is used as a prediction target region. A prediction target region determination step for determining, wherein the expression region estimation step and the gene structure prediction step are performed again on the prediction target region determined in the prediction target region determination step.
また、本発明にかかる遺伝子構造予測方法は、前記の遺伝子構造予測方法において、前記予測対象領域決定ステップは、前記未予測領域をゲノム塩基配列から抽出する未予測領域抽出ステップと、前記未予測領域抽出ステップで抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長以下であるか否かを判定する塩基長判定ステップと、前記塩基長判定ステップで所定の塩基長以下でないと判定した場合、前記未予測領域抽出ステップで抽出した未予測領域を前記予測対象領域として確定する予測対象領域確定ステップと、をさらに含むことを特徴とする。 Moreover, gene structure prediction method according to the present invention, in the gene structure prediction method, the prediction target region determining step, and the non-prediction region extraction step of extracting the non-prediction region from the genomic nucleotide sequence, wherein the non-prediction region The base length of the unpredicted region extracted in the extraction step is calculated, the base length determination step for determining whether or not the calculated base length is equal to or less than a predetermined base length, and the predetermined base length or less in the base length determination step A non-predicted region extracted in the unpredicted region extraction step, and a prediction target region determining step for determining the unpredicted region as the prediction target region.
また、本発明は遺伝子構造予測プログラムに関するものであり、本発明にかかる遺伝子構造予測方法をコンピュータに実行させる遺伝子構造予測プログラムは、ゲノム塩基配列から規則的に抜き出された部分塩基配列をプローブとして配置したタイリングアレイを用いて、当該タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータおよびゲノム塩基配列に関するゲノム塩基配列データを取得するデータ取得ステップと、前記データ取得ステップで取得したタイリングアレイデータに基づいて、ゲノム塩基配列の中から遺伝子の発現領域を推定する発現領域推定ステップと、前記発現領域推定ステップで推定した発現領域に対応する塩基を起点として、当該起点の両隣に連なる塩基ごとに、前記タイリングアレイデータおよび前記ゲノム塩基配列データに基づいて遺伝子の構造に関する属性を決定することで、遺伝子の構造を予測する遺伝子構造予測ステップと、を含むことを特徴とする。 The present invention also relates to a gene structure prediction program, and a gene structure prediction program that causes a computer to execute the gene structure prediction method according to the present invention uses a partial base sequence regularly extracted from a genomic base sequence as a probe. Using the arranged tiling array, a data acquisition step for acquiring tiling array data related to the expression intensity of each probe measured with the tiling array and a genomic base sequence data regarding the genomic base sequence, and acquiring in the data acquisition step Based on the tiling array data, the expression region estimation step for estimating the expression region of the gene from the genome base sequence, and the base corresponding to the expression region estimated in the expression region estimation step as a starting point, both adjacent to the starting point For each base connected to By determining the attribute about the structure of the gene on the basis of data and the genome sequence data, characterized in that it contains a gene structure prediction step of predicting a structure of the gene, a.
また、本発明にかかる遺伝子構造予測プログラムは、前記の遺伝子構造予測プログラムにおいて、前記発現領域推定ステップは、前記タイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定する発現領域候補決定ステップと、前記発現領域候補決定ステップで決定した発現領域候補が統計的に有意であるか否かを判定する発現領域候補判定ステップと、前記発現領域候補判定ステップで有意であると判定した場合、発現領域候補を前記発現領域として決定する発現領域決定ステップと、をさらに含むことを特徴とする。 Moreover, gene structure prediction program according to the present invention, in the gene structure prediction programs, the expression region estimation step, the expression determining the expression region candidate is a candidate for the expression region of the gene based on the tiling array data A region candidate determination step, an expression region candidate determination step for determining whether the expression region candidate determined in the expression region candidate determination step is statistically significant, and a determination that the expression region candidate determination step is significant In that case, the method further includes an expression region determination step of determining an expression region candidate as the expression region.
また、本発明にかかる遺伝子構造予測プログラムは、前記の遺伝子構造予測プログラムにおいて、前記発現領域候補決定ステップは、ゲノム塩基配列における所定の長さの領域を対象として、当該領域に含まれるプローブの発現強度の中央値を算出する中央値算出ステップと、前記中央値算出ステップで中央値の算出対象とした領域をゲノム塩基配列に沿って移動する領域移動ステップと、前記中央値算出ステップおよび前記領域移動ステップを繰り返し実行することで蓄積した複数の中央値の中から最大のものを選択し、選択した最大の中央値の算出対象であった領域を前記発現領域候補として選出する発現領域候補選出ステップと、をさらに含むことを特徴とする。 Moreover, gene structure prediction program according to the present invention, in the gene structure prediction programs, the expression region candidate determining step, a target region of a predetermined length in the genomic nucleotide sequence, the expression of probes contained in the area A median calculation step for calculating the median value of the intensity; a region moving step for moving the region that is the median calculation target in the median value calculating step along the genome base sequence; the median value calculating step and the region shifting An expression region candidate selection step of selecting a maximum one of a plurality of median values accumulated by repeatedly executing the step, and selecting a region that was a target of calculation of the selected maximum median value as the expression region candidate; , Further included.
また、本発明にかかる遺伝子構造予測プログラムは、前記の遺伝子構造予測プログラムにおいて、前記遺伝子構造予測ステップは、前記発現領域推定ステップで推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定する発現領域塩基確率決定ステップと、前記発現領域確率決定ステップで対象とした発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定する隣接塩基確率決定ステップと、前記隣接塩基確率決定ステップをゲノム塩基配列の末端の塩基まで繰り返して実行した後、各塩基の属性に関する尤度を最尤法を用いて決定する尤度決定ステップと、前記確率、前記状態遷移確率および前記尤度に基づいて各塩基の属性の組み合わせを確定する属性確定ステップと、をさらに含むことを特徴とする。 Moreover, gene structure prediction program according to the present invention, in the gene structure prediction programs, the gene structure prediction step, as the target base at which expression region base corresponding to the expression region estimated by the expression region estimating step, An expression region base probability determination step for determining a probability related to the attribute of the expression region base using a Markov model, and an adjacent base adjacent to the expression region base targeted in the expression region probability determination step An adjacent base probability determination step for determining a state transition probability for an attribute using a Markov model, and the adjacent base probability determination step are repeatedly performed up to the end base of the genome base sequence, and the likelihood for the attribute of each base is maximized. A likelihood determining step determined using a likelihood method, the probability, the state transition probability and the And further comprising a, an attribute determination step of determining a combination of the attributes of each base on the basis of the likelihood.
また、本発明にかかる遺伝子構造予測プログラムは、前記の遺伝子構造予測プログラムにおいて、前記遺伝子構造予測ステップで予測した遺伝子の構造に含まれるエクソン領域に対応するプローブの発現強度に基づいて、当該遺伝子の発現値を算出する発現値算出ステップ、をさらに含むことを特徴とする。 Moreover, gene structure prediction program according to the present invention, in the gene structure prediction program, based on the expression intensity of the probe corresponding to exon region included in the structure of the gene predicted by the gene structure prediction step, of the gene An expression value calculating step of calculating an expression value;
また、本発明にかかる遺伝子構造予測プログラムは、前記の遺伝子構造予測プログラムにおいて、前記遺伝子構造予測ステップで構造が予測された遺伝子の領域を除いたゲノム塩基配列である未予測領域を予測対象領域として決定する予測対象領域決定ステップ、をさらに含み、前記予測対象領域決定ステップで決定した予測対象領域に対して、前記発現領域推定ステップおよび前記遺伝子構造予測ステップを再び実行すること、を特徴とする。 Moreover, gene structure prediction program according to the present invention, in the gene structure prediction programs, the non-predicted area is the genomic nucleotide sequence structure excluding the region of the gene that is predicted by the gene structure prediction step as a prediction target region A prediction target region determination step for determining, wherein the expression region estimation step and the gene structure prediction step are performed again on the prediction target region determined in the prediction target region determination step.
また、本発明にかかる遺伝子構造予測プログラムは、前記の遺伝子構造予測プログラムにおいて、前記予測対象領域決定ステップは、前記未予測領域をゲノム塩基配列から抽出する未予測領域抽出ステップと、前記未予測領域抽出ステップで抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長以下であるか否かを判定する塩基長判定ステップと、前記塩基長判定ステップで所定の塩基長以下でないと判定した場合、前記未予測領域抽出ステップで抽出した未予測領域を前記予測対象領域として確定する予測対象領域確定ステップと、をさらに含むことを特徴とする。 Moreover, gene structure prediction program according to the present invention, in the gene structure prediction program, the predicted target region determining step includes a non-predictive region extraction step of extracting the non-prediction region from the genomic nucleotide sequence, wherein the non-prediction region The base length of the unpredicted region extracted in the extraction step is calculated, the base length determination step for determining whether or not the calculated base length is equal to or less than a predetermined base length, and the predetermined base length or less in the base length determination step A non-predicted region extracted in the unpredicted region extraction step, and a prediction target region determining step for determining the unpredicted region as the prediction target region.
本発明にかかる遺伝子構造予測方法によれば、ゲノム塩基配列から規則的に抜き出された部分塩基配列をプローブとして配置したタイリングアレイを用いて、当該タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータに基づいて当該ゲノム塩基配列から遺伝子の構造を予測するので、タイリングアレイデータに基づいてゲノム塩基配列から未知の遺伝子の領域や構造を精度よく予測することができるという効果を奏する。 According to the gene structure prediction method of the present invention, using a tiling array in which partial base sequences regularly extracted from genomic base sequences are arranged as probes, the expression of each probe measured by the tiling array is used. Since the gene structure is predicted from the genome base sequence based on the tiling array data on the strength, the effect that the region and structure of an unknown gene can be accurately predicted from the genome base sequence based on the tiling array data Play.
また、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムによれば、ゲノム塩基配列から規則的に抜き出された部分塩基配列をプローブとして配置したタイリングアレイを用いて、当該タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータおよびゲノム塩基配列に関するゲノム塩基配列データを取得し、取得したタイリングアレイデータに基づいて、ゲノム塩基配列の中から遺伝子の発現領域を推定し、推定した発現領域に対応する塩基を起点として、当該起点の両隣に連なる塩基ごとに、タイリングアレイデータおよびゲノム塩基配列データに基づいて遺伝子の構造に関する属性を決定することで、遺伝子の構造を予測するので、タイリングアレイデータに基づいてゲノム塩基配列から未知の遺伝子の領域や構造を精度よく予測することができるという効果を奏する。 Further, according to the gene structure prediction method and the gene structure prediction program of the present invention, a tiling array using a partial base sequence regularly extracted from a genomic base sequence as a probe is used. Obtain the tiling array data related to the measured expression intensity of each probe and genomic base sequence data related to the genomic base sequence, and based on the acquired tiling array data, estimate the gene expression region from the genomic base sequence, Predict the structure of a gene by determining the attributes related to the structure of the gene based on the tiling array data and genomic base sequence data for each base that is adjacent to the base corresponding to the estimated expression region. Therefore, based on the tiling array data, An effect that the region and the structure of the gene can be predicted accurately.
また、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムによれば、タイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定し、決定した発現領域候補が統計的に有意であるか否かを判定し、有意であると判定した場合、発現領域候補を発現領域として決定するので、既存の統計手法を用いて発現領域を容易且つ正確に推定することができるという効果を奏する。 In addition, according to the gene structure prediction method and the gene structure prediction program of the present invention, expression region candidates that are gene expression region candidates are determined based on tiling array data, and the determined expression region candidates are statistically determined. If it is determined whether it is significant, and if it is determined to be significant, the expression region candidate is determined as the expression region, so that the expression region can be estimated easily and accurately using existing statistical methods Play.
また、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムによれば、ゲノム塩基配列における所定の長さの領域を対象として、当該領域に含まれるプローブの発現強度の中央値を算出し、中央値の算出対象とした領域をゲノム塩基配列に沿って移動し、これらの処理を繰り返し実行することで蓄積した複数の中央値の中から最大のものを選択し、選択した最大の中央値の算出対象であった領域を発現領域候補として選出するので、タイリングアレイで測定された各プローブの発現強度のばらつきを考慮して適切な発現領域候補を選出することができるという効果を奏する。 Further, according to the gene structure prediction method and the gene structure prediction program according to the present invention, for a region of a predetermined length in the genomic base sequence, the median of the expression intensity of the probes contained in the region is calculated, By moving the region for which the value is to be calculated along the genome base sequence and repeatedly executing these processes, the largest one of the accumulated medians is selected and the selected median is calculated. Since the target region is selected as an expression region candidate, there is an effect that an appropriate expression region candidate can be selected in consideration of variations in expression intensity of each probe measured by the tiling array.
また、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムによれば、推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定し、対象とした発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定し、状態遷移確率を決定する処理をゲノム塩基配列の末端の塩基まで繰り返して実行した後、各塩基の属性に関する尤度を最尤法を用いて決定し、決定した確率、状態遷移確率および尤度に基づいて各塩基の属性の組み合わせを確定するので、遺伝子の領域や構造をさらに精度よく予測することができるという効果を奏する。 Further, according to the gene structure prediction method and the gene structure prediction program according to the present invention, for the expression region base that is the base corresponding to the estimated expression region, the probability relating to the attribute of the expression region base is determined using a Markov model. Determine the state transition probability related to the attribute of the adjacent base using the Markov model for the adjacent base adjacent to the target expression region base, and perform the process of determining the state transition probability at the end of the genome base sequence. After repeatedly executing up to the base, the likelihood regarding the attribute of each base is determined using the maximum likelihood method, and the combination of the attributes of each base is determined based on the determined probability, state transition probability, and likelihood. There is an effect that it is possible to predict the region and structure of the above with higher accuracy.
また、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムによれば、予測した遺伝子の構造に含まれるエクソン領域に対応するプローブの発現強度に基づいて、当該遺伝子の発現値を算出するので、未知の遺伝子の発現量を得ることができるという効果を奏する。 Further, according to the gene structure prediction method and the gene structure prediction program according to the present invention, the expression value of the gene is calculated based on the expression intensity of the probe corresponding to the exon region included in the predicted gene structure. The effect is that an expression level of an unknown gene can be obtained.
また、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムによれば、構造が予測された遺伝子の領域を除いたゲノム塩基配列である未予測領域を予測対象領域として決定し、決定した予測対象領域に対して、発現領域を推定する処理および遺伝子の構造を予測する処理を再び実行するので、ゲノム塩基配列から複数の遺伝子の領域や構造を効率よく予測することができるという効果を奏する。 According to the gene structure prediction method and the gene structure prediction program of the present invention, an unpredicted region that is a genomic base sequence excluding a region of a gene whose structure is predicted is determined as a prediction target region, and the determined prediction target Since the process of estimating the expression area and the process of predicting the gene structure are performed again on the region, there is an effect that the regions and structures of a plurality of genes can be efficiently predicted from the genome base sequence.
また、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムによれば、未予測領域をゲノム塩基配列から抽出し、抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長以下であるか否かを判定し、所定の塩基長(例えば1000塩基長)以下でないと判定した場合、抽出した未予測領域を予測対象領域として確定するので、遺伝子の構造が入り得ない短い領域を除くことができ、その結果、構造予測に相応しい予測対象領域を確定することができるという効果を奏する。 According to the gene structure prediction method and gene structure prediction program of the present invention, the unpredicted region is extracted from the genome base sequence, the base length of the extracted unpredicted region is calculated, and the calculated base length is a predetermined base. If it is determined whether or not the length is equal to or shorter than the predetermined length, and it is determined that the length is not shorter than a predetermined base length (for example, 1000 base length), the extracted unpredicted region is determined as the prediction target region. As a result, it is possible to eliminate the region, and as a result, it is possible to determine the prediction target region suitable for the structure prediction.
以下に、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。 Embodiments of a gene structure prediction method and a gene structure prediction program according to the present invention will be described below in detail with reference to the drawings. Note that the present invention is not limited to the embodiments.
まず、本明細書で用いる用語を定義する。
「遺伝子」とは、成熟したmRNA(メッセンジャーRNA)または当該mRNAに対応するゲノム塩基配列の部分領域(エクソン)の集合である。
「遺伝子領域」とは、ゲノム塩基配列上で、1つの遺伝子に属するエクソンの集合を全て含む最短の部分領域である。
「遺伝子構造」とは、1つの遺伝子領域内において、エクソンとイントロンの領域を示す情報である。
「タイリングアレイ」とは、ゲノム塩基配列から一定長(20〜100塩基長)の塩基配列を一定間隔(1〜200塩基)でずらしつつ抜き出し、抜き出した各塩基配列に対応するオリゴヌクレオチドをプローブとするDNAマイクロアレイである。なお、タイリングアレイには、抜き出した塩基配列と完全に一致するオリゴヌクレオチド(パーフェクトマッチするオリゴヌクレオチド)をプローブとして加えるだけでなく、抜き出した塩基配列と完全に一致しないオリゴヌクレオチド(ミスマッチするオリゴヌクレオチド)を比較用のプローブとして加えてもよい。
「発現強度」とは、生物組織から得られたサンプル中に含まれるmRNAの量に比例する数値データであり、対応するプローブへサンプルがハイブリダイゼイションすることで測定されるものである。
「タイリングアレイデータ」とは、タイリングアレイの全プローブの発現強度に関するデータである。
「有意な発現領域」とは、「ゲノム塩基配列中の一定塩基長(例えば750塩基長)の領域に対応するプローブの発現強度が、ノイズに因り偶然に測定されたものである。」という帰無仮説が統計的検定に基づいて有意なレベルで棄却された場合における当該領域である。なお、有意な発現領域は遺伝子領域の一部であるとする。
First, terms used in this specification are defined.
A “gene” is a set of mature mRNA (messenger RNA) or a partial region (exon) of a genomic base sequence corresponding to the mRNA.
The “gene region” is the shortest partial region including all of the set of exons belonging to one gene on the genome base sequence.
“Gene structure” is information indicating exon and intron regions in one gene region.
“Tiling array” refers to a base sequence of a certain length (20 to 100 bases) extracted from a genome base sequence while shifting it at regular intervals (1 to 200 bases), and probes oligonucleotides corresponding to the extracted base sequences. A DNA microarray. The tiling array not only adds an oligonucleotide that perfectly matches the extracted base sequence (perfectly matched oligonucleotide) as a probe, but also an oligonucleotide that does not completely match the extracted base sequence (mismatched oligonucleotide). ) May be added as a comparative probe.
“Expression intensity” is numerical data proportional to the amount of mRNA contained in a sample obtained from a biological tissue, and is measured by the sample hybridizing to a corresponding probe.
“Tiling array data” is data relating to the expression intensity of all probes in the tiling array.
The “significant expression region” means that “the expression intensity of a probe corresponding to a region of a certain base length (for example, 750 base length) in the genome base sequence was measured by chance due to noise”. This is the region where no hypothesis is rejected at a significant level based on statistical tests. The significant expression region is assumed to be a part of the gene region.
以下で、本発明を実現するための装置である遺伝子構造予測装置100の構成について、図1などを参照して説明する。図1は、遺伝子構造予測装置100の構成を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
Below, the structure of the gene
図1に示すように、遺伝子構造予測装置100は、遺伝子構造予測装置100を統括的に制御するCPU等の制御部102と、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して遺伝子構造予測装置100をネットワーク300に通信可能に接続する通信インターフェース部104と、各種のデータベースやテーブルやファイルなどを格納する記憶部106と、入力装置112や出力装置114に接続する入出力インターフェース部108と、で構成されており、これら各部は任意の通信路を介して通信可能に接続されている。また、ネットワーク300は、遺伝子構造予測装置100と外部システム200とを相互に通信可能に接続する機能を有し、例えばインターネットやLAN等である。また、外部システム200は、ネットワーク300を介して遺伝子構造予測装置100と相互に通信可能に接続され、ゲノム塩基配列データやタイリングアレイデータや各種パラメータなどに関する外部データベースや、外部プログラム等を提供する機能など、を有する。外部システム200の各機能は外部システム200のハードウェア構成中のCPUやディスク装置やメモリ装置や入力装置や出力装置や通信制御装置等およびそれらを制御するプログラム等で実現される。なお、外部システム200はWEBサーバやASPサーバ等として構成してもよく、そのハードウェアは一般に市販されるワークステーションやパーソナルコンピュータ等の情報処理装置およびその付属装置で構成してもよい。
As shown in FIG. 1, the gene
記憶部106は、ストレージ手段であり、具体的には、RAMやROM等のメモリ装置、ハードディスクのような固定ディスク装置、フレキシブルディスク、光ディスク等を用いることができる。記憶部106は、図示の如く、ゲノム塩基配列データファイル106aとタイリングアレイデータファイル106bと発現領域データファイル106cと遺伝子構造データファイル106dと発現値データファイル106eを格納する。ゲノム塩基配列データファイル106aはゲノム塩基配列データを格納する。具体的には、図2に示すように、ゲノム塩基配列における各塩基の位置を一意に識別するための塩基番号と、塩基番号に対応する塩基を表す塩基記号(A、T、G、C)と、を相互に関連付けて格納する。再び図1に戻り、タイリングアレイデータファイル106bはタイリングアレイデータを格納する。具体的には、図3に示すように、タイリングアレイに配置したプローブを一意に識別するためのプローブ番号と、プローブ番号に対応するプローブの発現強度と、プローブ番号に対応するプローブの範囲(ゲノム塩基配列における開始塩基番号と終了塩基番号との組)と、を相互に関連付けて格納する。再び図1に戻り、発現領域データファイル106cは、後述する発現領域推定部102bで推定した発現領域に関するデータを格納する。遺伝子構造ファイル106dは、後述する遺伝子構造予測部102cで予測した遺伝子の領域や構造に関するデータを格納する。発現値データファイル106eは、後述する発現値算出部102dで算出した発現値に関するデータを格納する。
The storage unit 106 is a storage unit. Specifically, a memory device such as a RAM or a ROM, a fixed disk device such as a hard disk, a flexible disk, an optical disk, or the like can be used. The storage unit 106 stores a genomic base sequence data file 106a, a tiling array data file 106b, an expression region data file 106c, a gene
通信インターフェース部104は遺伝子構造予測装置100とネットワーク300(またはルータ等の通信装置)との間における通信を媒介する。すなわち、通信インターフェース部104は他の端末と通信回線を介してデータを通信する機能を有する。
The
入出力インターフェース部108は入力装置112や出力装置114に接続する。ここで、出力装置114には、モニタ(家庭用テレビを含む)の他、スピーカやプリンタを用いることができる(なお、以下で、出力装置114をモニタとして記載する場合がある。)。また、入力装置112には、キーボードやマウスやマイクの他、マウスと協働してポインティングデバイス機能を実現するモニタを用いることができる。
The input /
制御部102は、OS(Operating System)等の制御プログラムや各種の処理手順等を規定したプログラムや所要データを格納するための内部メモリを有し、これらのプログラムに基づいて種々の処理を実行する。そして、制御部102は、大別して、データ取得部102aと発現領域推定部102bと遺伝子構造予測部102cと発現値算出部102dと予測対象領域決定部102eとを備えている。
The
データ取得部102aは、ゲノム塩基配列から規則的に抜き出された部分塩基配列をプローブとして配置したタイリングアレイを用いて、当該タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータおよびゲノム塩基配列に関するゲノム塩基配列データを取得する。
The
発現領域推定部102bは、データ取得部102aで取得したタイリングアレイデータに基づいて、ゲノム塩基配列の中から遺伝子の発現領域を推定する。具体的には、図4に示すように、発現領域推定部102bは、発現領域候補決定部102b1と発現領域候補判定部102b2と発現領域決定部102b3とをさらに備えている。発現領域候補決定部102b1は、タイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定する。具体的には、図5に示すように、発現領域候補決定部102b1は、中央値算出部102b11と領域移動部102b12と発現領域候補選出部102b13とをさらに備えている。中央値算出部102b11は、ゲノム塩基配列における所定の長さの領域を対象として、当該領域に含まれるプローブの発現強度の中央値を算出する。領域移動部102b12は、中央値算出部102b11で中央値の算出対象とした領域をゲノム塩基配列に沿って移動する。発現領域候補選出部102b13は、中央値算出部102b11および領域移動部102b12で行われる処理を繰り返し実行することで蓄積した複数の中央値の中から最大のものを選択し、選択した最大の中央値の算出対象であった領域を発現領域候補として選出する。再び図4に戻り、発現領域候補判定部102b2は、発現領域候補決定部102b1で決定した発現領域候補が統計的に有意であるか否かを判定する。発現領域決定部102b3は、発現領域候補判定部102b2で有意であると判定した場合、発現領域候補を発現領域として決定する。
The expression
再び図1に戻り、遺伝子構造予測部102cは、発現領域推定ステップで推定した発現領域に対応する塩基を起点として、当該起点の両隣に連なる塩基ごとに、タイリングアレイデータおよびゲノム塩基配列データに基づいて遺伝子の構造に関する属性(エクソン・イントロン・その他)を決定することで、遺伝子の構造を予測する。具体的には、図6に示すように、遺伝子構造予測部102cは、発現領域塩基確率決定部102c1と隣接塩基確率決定部102c2と尤度決定部102c3と属性確定部102c4とをさらに備えている。発現領域塩基確率決定部102c1は、発現領域推定部102bで推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定する。隣接塩基確率決定部102c2は、発現領域確率決定部102c1で対象とした発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定する。尤度決定部102c3は、隣接塩基確率決定部102c2をゲノム塩基配列の末端の塩基まで繰り返して実行した後、各塩基の属性に関する尤度を最尤法を用いて決定する。属性確定部102c4は、発現領域塩基確率決定部102c1で決定した確率、隣接塩基確率決定部102c2で決定した状態遷移確率および尤度決定部102c3で決定した尤度に基づいて各塩基の属性の組み合わせを確定する。
Returning to FIG. 1 again, the gene
再び図1に戻り、発現値算出部102dは、遺伝子構造予測部102cで予測した遺伝子の構造に含まれるエクソン領域に対応するプローブの発現強度に基づいて、当該遺伝子の発現値を算出する。
Returning to FIG. 1 again, the expression
予測対象領域決定部102eは、遺伝子構造予測ステップで構造が予測された遺伝子の領域を除いたゲノム塩基配列である未予測領域を予測対象領域として決定する。具体的には、図7に示すように、予測対象領域決定部102eは、未予測領域抽出部102e1と塩基長判定部102e2と予測対象領域確定部102e3とをさらに備えている。ここで、未予測領域抽出部102e1は、未予測領域をゲノム塩基配列から抽出する。塩基長判定部102e2は、未予測領域抽出部102e1で抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長以下であるか否かを判定する。予測対象領域確定部102e3は、塩基長判定部102e2で所定の塩基長以下でないと判定した場合、未予測領域抽出部102e1で抽出した未予測領域を予測対象領域として確定する。
The prediction target
以上の構成において、遺伝子構造予測装置100の制御部102で行われるメイン処理を図8から図11などを参照して説明する。図8はメイン処理の一例を示すフローチャートである。
In the above configuration, main processing performed by the
まず、データ取得部102aで、タイリングアレイデータおよびゲノム塩基配列データを取得し、取得したゲノム塩基配列データを塩基配列データファイル106aに格納し、取得したタイリングアレイデータをタイリングアレイデータファイル106bに格納する(ステップSA−1)。
First, the
つぎに、発現領域推定部102bで、ステップSA−1で取得したタイリングアレイデータに基づいて、ゲノム塩基配列の中から遺伝子の発現領域を推定する(ステップSA−2:発現領域推定処理)。具体的には、発現領域推定部102bで、ステップSA−1で取得したタイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定し、決定した発現領域候補が統計的に有意であるか否かを判定し、有意であると判定した場合、発現領域候補を発現領域として決定する。
Next, the expression
ここで、発現領域推定部102bで行われる発現領域推定処理を図9を参照して説明する。図9は発現領域推定処理の一例を示すフローチャートである。
まず、発現領域候補決定部102b1で、タイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定する(ステップSB−1)。具体的には、以下の手順(1)〜(3)に従って発現領域候補を決定する。
(1)中央値算出部102b11で、ゲノム塩基配列における所定の長さの領域(ウインドウ:例えば750塩基長)を対象として、当該領域に含まれるプローブの発現強度の中央値を算出する。
(2)領域移動部102b12で、中央値算出部102b11で中央値の算出対象とした領域をゲノム塩基配列に沿って移動する。
(3)発現領域候補選出部102b13で、中央値算出部102b11および領域移動部102b12を繰り返し実行することで蓄積した複数の中央値の中から最大のものを選択し、選択した最大の中央値の算出対象であった領域を発現領域候補として選出する。
つまり、以上の手順により、数式1に示すプライマリーポイントkを求める。
First, the expression region candidate determination unit 102b1 determines expression region candidates that are gene expression region candidates based on the tiling array data (step SB-1). Specifically, expression region candidates are determined according to the following procedures (1) to (3).
(1) The median value calculation unit 102b11 calculates a median value of expression intensities of probes included in a region having a predetermined length (window: for example, 750 base length) in the genome base sequence.
(2) The region moving unit 102b12 moves the region for which the median value is calculated by the median value calculating unit 102b11 along the genome base sequence.
(3) In the expression region candidate selection unit 102b13, the median calculation unit 102b11 and the region movement unit 102b12 are repeatedly executed to select the maximum one from the accumulated median values, and the maximum median value selected The region that was the calculation target is selected as an expression region candidate.
That is, the primary point k shown in
ついで、発現領域候補判定部102b2で、発現領域候補決定部102b1で決定した発現領域候補が統計的に有意であるか否かを判定する(ステップSB−2)。具体的には、以下の手順(1)〜(3)に従って判定する。
(1)ステップSB−1で決定したプライマリーポイントkに対応するウインドウに含まれるプローブの発現強度が偶然に観測されたものであるという帰無仮説を設定する。
(2)当該ウインドウに含まれるプローブの総数Mkおよび発現強度が予め設定した閾値θより大きいプローブの数mkに関する確率を算出する。ここで、当該確率は下記の数式2に示す2項分布に従う。
(3)数式2で算出した確率が期待値(Mk×πθ)より有意に大きい場合には、下記の数式6に示す有意水準で帰無仮説を棄却する。つまり、ステップSB−1で決定した発現領域候補が統計的に有意であると判定する。これにより、プライマリーポイントkに対応するウインドウに含まれるプローブの発現強度が偶然に観測されたものでないことが、統計的検定により示された。
(1) A null hypothesis is set that the expression intensity of the probe included in the window corresponding to the primary point k determined in step SB-1 is observed by chance.
(2) The probability relating to the total number M k of probes included in the window and the number m k of probes whose expression intensity is greater than a preset threshold θ is calculated. Here, the probability follows a binomial distribution shown in
(3) If the probability calculated by
ついで、発現領域決定部102b3で、ステップSB−2で有意であると判定した場合、ステップSB−1で決定した発現領域候補を発現領域として決定する(ステップSB−3)。 Next, when the expression region determination unit 102b3 determines that the expression region is significant in Step SB-2, the expression region candidate determined in Step SB-1 is determined as an expression region (Step SB-3).
なお、遺伝子構造予測部102cの処理では、プライマリーポイントkに対応するエクソン領域が実際に発現するという仮定のもとに、プライマリーポイントkを起点として、遺伝子の構造(具体的にはエクソン領域およびイントロン領域)を予測する。
以上、発現領域推定処理の説明を終了する。
In the process of the gene
This is the end of the description of the expression region estimation process.
再び図8に戻り、遺伝子構造予測部102cで、ステップSA−2で推定した発現領域に対応する塩基を起点として、当該起点の両隣に連なる塩基ごとに、タイリングアレイデータおよびゲノム塩基配列データに基づいて遺伝子の構造に関する属性(エクソン・イントロン・その他)を決定することで、遺伝子の構造を予測する(ステップSA−3:遺伝子構造予測処理)。具体的には、遺伝子構造予測部102cで、(1)ステップSA−2で推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定し、(2)当該発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定し、(3)(2)の処理をゲノム塩基配列の末端の塩基まで繰り返して実行した後、各塩基の属性に関する尤度を最尤法を用いて決定し、(4)決定した確率、状態遷移確率および尤度に基づいて各塩基の属性の組み合わせを確定する。より具体的には、遺伝子構造予測部102cで、下記の数式7に示すスコア関数をダイナミックプログラミング(ニュートン法やパウエル法などでもよい)で計算することにより、スコア関数の値を最大にする属性sと閾値θとの組み合わせを決定することで、遺伝子の構造を予測する。ここで、属性sは、図13における「state number」に対応するものである。
ここで、遺伝子構造予測部102cで行われる遺伝子構造予測処理を図10を参照して説明する。図10は遺伝子構造予測処理の一例を示すフローチャートである。
まず、発現領域塩基確率決定部102c1で、ステップSA−2で推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定する(ステップSC−1)。具体的には、プライマリーポイントkを対象として、数式10および数式11に含まれる確率P(xk,sk)およびP(xk,sk(上付き線あり))について、属性skを変えながら、「P(xk,sk)÷P(xk,sk(上付き線あり))」の最大値を決定する。
Here, the gene structure prediction process performed by the gene
First, the expression region base probability determination unit 102c1 determines, using a Markov model, the probability related to the attribute of the expression region base for the expression region base that is the base corresponding to the expression region estimated in step SA-2. Step SC-1). Specifically, for the primary point k, the attribute s k is set for the probabilities P (x k , s k ) and P (x k , s k (with superscript lines)) included in the
ついで、隣接塩基確率決定部102c2で、ステップSC−1で対象とした発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定する(ステップSC−2:図12参照)。具体的には、数式10および数式11に含まれる状態遷移確率P(xk+1,sk+1|xk,sk)およびP(xk+1,sk+1(上付き線あり)|xk,sk(上付き線あり))について、属性sk+1を変えながら、「P(xk+1,sk+1|xk,sk)÷P(xk+1,sk+1(上付き線あり)|xk,sk(上付き線あり))」の最大値を決定する。また、同様に、数式10および数式11に含まれる状態遷移確率P(xk-1,sk-1|xk,sk)およびP(xk-1,sk-1(上付き線あり)|xk,sk(上付き線あり))について、属性sk-1を変えながら、「P(xk-1,sk-1|xk,sk)÷P(xk-1,sk-1(上付き線あり)|xk,sk(上付き線あり))」の最大値を決定する。ここで、図12において、3'endと5'endが状態遷移の終点である。
Next, the adjacent base probability determination unit 102c2 determines the state transition probability related to the attribute of the adjacent base using the Markov model for the adjacent base adjacent to the expression region base targeted in step SC-1 (step SC). -2: See FIG. Specifically, the state transition probabilities P (x k + 1 , s k + 1 | x k , s k ) and P (x k + 1 , s k + 1) (superscript lines included in
そして、ステップSC−2の処理をゲノム塩基配列の末端の塩基まで繰り返して実行する。これにより、数式10および数式11に含まれる状態遷移確率P(xi,si|xi+1,si+1)の積および状態遷移確率P(xi,si(上付き線あり)|xi+1,si+1(上付き線あり))の積について、「P(xi,si|xi+1,si+1)の積÷P(xi,si(上付き線あり)|xi+1,si+1(上付き線あり))の積」の最大値を決定する。また、同様に、数式10および数式11に含まれる状態遷移確率P(xi,si|xi-1,si-1)の積および状態遷移確率P(xi,si(上付き線あり)|xi-1,si-1(上付き線あり))の積について、「P(xi,si|xi-1,si-1)の積÷P(xi,si(上付き線あり)|xi-1,si-1(上付き線あり))の積」の最大値を決定する。なお、図12において、起点から終点への領域の伸長は、例えば、終点の状態(塩基番号0および塩基番号25の状態)が長さL(例えば800塩基長)の連続した塩基配列にわたって各位置で最大のスコアを保つ場合に停止する。
Then, the process of step SC-2 is repeated until the terminal base of the genome base sequence. As a result, the product of the state transition probabilities P (x i , s i | x i + 1 , s i + 1 ) included in the
ついで、尤度決定部102c3で、各塩基の属性に関する尤度を最尤法を用いて決定する(ステップSC−3)。具体的には、数式10および数式11に含まれる尤度P(δi|si,θ)の積および尤度P(δi|si(上付き線あり),θ)の積について、「P(δi|si,θ)の積÷P(δi|si(上付き線あり),θ)の積」の値を決定する。例えば、図12において、塩基番号0から塩基番号25までの領域を対象として、P(δi|si,θ)の値を更新する。ここで、P(δi|si,θ)およびP(δi|si(上付き線あり),θ)は、それぞれ下記の数式12および数式14で定義される。
以上の処理により、予め設定した閾値θにおいて、数式7に含まれるZ(s,θ)の最大値を決定した。
With the above processing, the maximum value of Z (s, θ) included in
そして、下記の数式15に示すエクソン領域を尤もらしい長さに保つための式ZT(s)の値および下記の数式18に示すイントロン領域を尤もらしい長さに保つための式ZU(s)の値を決定することで、最終的に、予め設定した閾値θにおける数式7のスコア関数の値(最大値)を決定し、決定したスコア関数の最大値、当該閾値θおよび当該最大値が得られたときの属性s(s1,・・・sk,・・・sN)を相互に関連付けて、遺伝子構造データファイル106dの所定の領域に格納する。
ついで、閾値θを他の値に設定し直して、以上の処理を同様に行う。 Next, the threshold θ is reset to another value, and the above processing is performed in the same manner.
ついで、属性確定部102c14で、ステップSC−3で決定した確率、状態遷移確率および尤度に基づいて各塩基の属性の組み合わせを確定する(ステップSC−4)。具体的には、遺伝子構造データファイル106dに蓄積された各閾値θにおけるスコア関数の最大値の中から最大のものを決定し、決定した最大値に対応する属性sを最適なものとして確定する。これにより、スコア関数の値を最大にするような閾値θと属性sとの組み合わせが確定され、遺伝子の構造が予測された。
以上、遺伝子構造予測処理の説明を終了する。
Next, the attribute determination unit 102c14 determines the attribute combination of each base based on the probability, state transition probability, and likelihood determined in step SC-3 (step SC-4). Specifically, the maximum value of the score function at each threshold value θ accumulated in the gene
This is the end of the description of the gene structure prediction process.
再び図8に戻り、予測対象領域決定部102eで、ステップSA−3で構造が予測された遺伝子の領域を除いたゲノム塩基配列である未予測領域を予測対象領域として決定する(ステップSA−4:予測対象領域決定処理)。具体的には、予測対象領域決定部102eで、未予測領域をゲノム塩基配列から抽出し、抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長以下であるか否かを判定し、所定の塩基長以下でないと判定した場合、抽出した未予測領域を予測対象領域として確定する。
Returning to FIG. 8 again, the prediction target
ここで、予測対象領域決定部102eで行われる予測対象領域決定処理を、図11を参照して説明する。図11は、予測対象領域決定処理の一例を示すフローチャートである。
まず、未予測領域抽出部102e1で、未予測領域をゲノム塩基配列から抽出する(ステップSD−1)。
ついで、塩基長判定部102e2で、ステップSD−1で抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長(例えば1000塩基長)以下であるか否かを判定する(ステップSD−2)。
ついで、予測対象領域確定部102e3で、ステップSD−2で所定の塩基長以下でないと判定した場合(ステップSD−3:Yes)、ステップSD−1で抽出した未予測領域を予測対象領域として確定する(ステップSD−4)。なお、ステップSD−2で所定の塩基長以下であると判定した場合(ステップSD−3:No)には、所定の塩基長の領域内に入る遺伝子構造はあり得ないと判断して、抽出した未予測領域を構造が予測された領域として扱い、再度ステップSD−1に戻る。
以上、予測対象領域決定処理の説明を終了する。
Here, the prediction target region determination process performed by the prediction target
First, the unpredicted region extraction unit 102e1 extracts the unpredicted region from the genome base sequence (step SD-1).
Next, the base length determination unit 102e2 calculates the base length of the unpredicted region extracted in step SD-1, and determines whether the calculated base length is a predetermined base length (for example, 1000 base lengths) or less. (Step SD-2).
Next, when the prediction target region determination unit 102e3 determines that the length is not less than the predetermined base length in Step SD-2 (Step SD-3: Yes), the unpredicted region extracted in Step SD-1 is determined as the prediction target region. (Step SD-4). When it is determined in step SD-2 that the length is equal to or shorter than the predetermined base length (step SD-3: No), it is determined that there cannot be a gene structure that falls within the region of the predetermined base length, and extracted. The unpredicted area is treated as an area whose structure is predicted, and the process returns to step SD-1.
This is the end of the description of the prediction target region determination process.
再び図8に戻り、ステップSA−4で予測対象領域が決定された場合(ステップSA−5:No)には、再びステップSA−2に戻り、ステップSA−4で予測対象領域が決定されなかった場合(ステップSA−5:Yes)には、メイン処理を終了する。 Returning to FIG. 8 again, when the prediction target area is determined in step SA-4 (step SA-5: No), the process returns to step SA-2 again, and the prediction target area is not determined in step SA-4. If this is the case (step SA-5: Yes), the main process is terminated.
ここで、発現値算出部102dで、ステップSA−3で予測した遺伝子の構造に含まれるエクソン領域に対応するプローブの発現強度に基づいて、当該遺伝子の発現値を算出し、算出した発現値に関するデータを発現値データファイル106eの所定の記憶領域に格納してもよい。
Here, the expression
これにて、メイン処理の説明を終了する。 This completes the description of the main process.
以上説明したように、遺伝子構造予測装置100は、タイリングアレイデータに基づいてゲノム塩基配列から遺伝子の構造を予測する。具体的には、遺伝子構造予測装置100は、タイリングアレイデータおよびゲノム塩基配列データを取得し、取得したタイリングアレイデータに基づいて、ゲノム塩基配列の中から遺伝子の発現領域を推定し、推定した発現領域に対応する塩基を起点として、当該起点の両隣に連なる塩基ごとに、タイリングアレイデータおよびゲノム塩基配列データに基づいて遺伝子の構造に関する属性を決定することで、遺伝子の構造を予測するので、タイリングアレイデータに基づいてゲノム塩基配列から未知の遺伝子の領域や構造を精度よく予測することができる。また、ノンコーディングRNAに対しても本発明を適用することができる。ここで、図14に示すように、予測された遺伝子構造におけるエクソンとイントロンは、cDNA情報に基づく真のエクソン・イントロンと相関が高かった。そして、相関係数は、閾値を超えるか否かでエクソンかイントロンかを判定することにより遺伝子構造を予測する従来の方法における相関係数よりも高かった。さらに、図15に示すように、予測された遺伝子構造(図15におけるMA−3−2に表示した遺伝子構造(オレンジ色はエクソン領域を表し、薄いオレンジ色はイントロン領域を表す。))は、真の遺伝子構造(図15におけるMA−3−1に表示した遺伝子構造(青色はエクソン領域を表し、薄い青色はイントロン領域を表す。))と概ね対応していた。
As described above, the gene
ここで、予測した遺伝子構造と真の遺伝子構造とを比較可能に表示した表示画面である図15について簡単に説明する。図15において、MA−1は、対象としたゲノムのイラストや、予測した遺伝子領域(MA−1における8848876bp〜8865453bp:16557bp)などを表示する表示領域である。MA−2は、後述する表示領域MA−3に表示される遺伝子構造を拡大・縮小するための操作ボタンである。MA−3は、遺伝子構造をゲノム塩基配列に沿って表示するための表示領域である。特に、MA−3−1は、比較対象とする真の遺伝子構造を表示する領域であり、MA−3−2は、予測した遺伝子構造を塩基配列に沿って表示する領域である。なお、MA−3−1において、真の遺伝子構造に含まれるエクソン領域は青色で表し、イントロン領域は薄い青色で表している。また、MA−3−2において、表示した遺伝子構造に含まれるエクソン領域はオレンジ色で表し、イントロン領域は薄いオレンジ色で表している。また、MA−3−2において、塩基配列に沿って、各塩基に対応するプローブの発現強度が、中央値以下の場合には緑色で、中央値を超える場合には赤色で表示されている。MA−3−3は、表示するデータを切り替えるために使用する操作ボタンである。 Here, FIG. 15, which is a display screen displaying the predicted gene structure and the true gene structure so as to be comparable, will be briefly described. In FIG. 15, MA-1 is a display area that displays an illustration of the target genome, a predicted gene region (8884876 bp to 8865453 bp: 16557 bp in MA-1), and the like. MA-2 is an operation button for enlarging / reducing a gene structure displayed in a display area MA-3 described later. MA-3 is a display area for displaying the gene structure along the genome base sequence. In particular, MA-3-1 is a region that displays the true gene structure to be compared, and MA-3-2 is a region that displays the predicted gene structure along the base sequence. In MA-3-1, the exon region included in the true gene structure is represented in blue, and the intron region is represented in light blue. In MA-3-2, exon regions included in the displayed gene structure are shown in orange, and intron regions are shown in light orange. Further, in MA-3-2, along the base sequence, the expression intensity of the probe corresponding to each base is displayed in green when it is equal to or lower than the median, and is displayed in red when it exceeds the median. MA-3-3 is an operation button used for switching data to be displayed.
また、遺伝子構造予測装置100において、発現領域推定部102bは、タイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定し、決定した発現領域候補が統計的に有意であるか否かを判定し、有意であると判定した場合、発現領域候補を発現領域として決定するので、既存の統計手法を用いて発現領域を容易且つ正確に推定することができる。
In the gene
また、遺伝子構造予測装置100において、発現領域候補決定部102b1は、ゲノム塩基配列における所定の長さの領域を対象として、当該領域に含まれるプローブの発現強度の中央値を算出し、中央値の算出対象とした領域をゲノム塩基配列に沿って移動し、これらの処理を繰り返し実行することで蓄積した複数の中央値の中から最大のものを選択し、選択した最大の中央値の算出対象であった領域を発現領域候補として選出するので、タイリングアレイで測定された各プローブの発現強度のばらつきを考慮して適切な発現領域候補を選出することができる。
Further, in the gene
また、遺伝子構造予測装置100において、遺伝子構造予測部102cは、推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定し、対象とした発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定し、状態遷移確率の決定をゲノム塩基配列の末端の塩基まで繰り返して実行した後、各塩基の属性に関する尤度を最尤法を用いて決定し、決定した確率、状態遷移確率および尤度に基づいて各塩基の属性の組み合わせを確定するので、遺伝子の領域や構造をさらに精度よく予測することができる。
Further, in the gene
また、遺伝子構造予測装置100は、予測した遺伝子の構造に含まれるエクソン領域に対応するプローブの発現強度に基づいて、当該遺伝子の発現値を算出するので、未知の遺伝子の発現量を得ることができる。
Moreover, since the gene
また、遺伝子構造予測装置100は、構造が予測された遺伝子の領域を除いたゲノム塩基配列である未予測領域を予測対象領域として決定し、決定した予測対象領域に対して、上述した発現領域推定処理および遺伝子構造予測処理を再び実行するので、ゲノム塩基配列から複数の遺伝子の領域や構造を効率よく予測することができる。
Further, the gene
また、遺伝子構造予測装置100において、予測対象領域決定部102eは、未予測領域をゲノム塩基配列から抽出し、抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長以下であるか否かを判定し、所定の塩基長以下でないと判定した場合、抽出した未予測領域を予測対象領域として確定するので、遺伝子の構造が入り得ない短い領域を除くことができ、その結果、構造予測に相応しい予測対象領域を確定することができる。
In the gene
最後に、上記の数式9を数式10に変形する手順について説明する。なお、数式9において、Pkは下記の数式21で定義され、Pk→Nは下記の数式22で定義され、P1→kは下記の数式23で定義される。
まず、数式21、数式22および数式23は、事後確率の法則により、それぞれ下記の数式24、数式25および数式26に変形することができる。
ついで、δiはsiおよびθに依存しxiの影響を受けないと仮定するのが自然であるので、数式24、数式25および数式26において、P(δk|xk,sk,θ)は下記の数式27に変形することができる。
また、数式24のxiおよびsiの確率は、隣接するxi-1およびsi-1に依存するというマルコフモデルの基本仮説を用いて、数式24のP(xk,sk|θ)は下記の数式28に変形することができる。
同様に、数式25および数式26において、P(xi,si|xi-1,si-1,δi-1,θ)およびP(xi,si|xi+1,si+1,δi+1,θ)は、それぞれ下記の数式29および数式30に変形することができる。
そして、数式21で定義したPkは最終的に下記の数式31に変形することができる。
同様に、数式22で定義したPk→Nは最終的に下記の数式32に変形することができ、数式23で定義したP1→kは最終的に下記の数式33変形することができる。
以上の手順で数式9を変形することにより数式10を導くことができる。
以上のように、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムは、タイリングアレイデータに基づいてゲノム塩基配列から未知の遺伝子の領域や構造を精度よく予測することができ、医療や創薬などの分野において極めて有用である。 As described above, the gene structure prediction method and gene structure prediction program according to the present invention can accurately predict the region and structure of an unknown gene from a genomic base sequence based on tiling array data. It is extremely useful in fields such as medicine.
100 遺伝子構造予測装置
102 制御部
102a データ取得部
102b 発現領域推定部
102b1 発現領域候補決定部
102b11 中央値算出部
102b12 領域移動部
102b13 発現領域候補選出部
102b2 発現領域候補判定部
102b3 発現領域決定部
102c 遺伝子構造予測部
102c1 発現領域塩基確率決定部
102c2 隣接塩基確率決定部
102c3 尤度決定部
102c4 属性確定部
102d 発現値算出部
102e 予測対象領域決定部
102e1 未予測領域抽出部
102e2 塩基長判定部
102e3 予測対象領域確定部
104 通信インターフェース部
106 記憶部
106a ゲノム塩基配列データファイル
106b タイリングアレイデータファイル
106c 発現領域データファイル
106d 遺伝子構造データファイル
106e 発現値データファイル
108 入出力インターフェース部
112 入力装置
114 出力装置
200 外部システム
300 ネットワーク
100 Gene structure prediction device
102 Control unit
102a Data acquisition unit
102b Expression region estimation unit
102b1 expression region candidate determination unit
102b11 median value calculator
102b12 area moving part
102b13 Expression region candidate selection section
102b2 Expression region candidate determination unit
102b3 expression region determining unit
102c Gene structure prediction unit
102c1 expression region base probability determination unit
102c2 Adjacent base probability determination unit
102c3 likelihood determination unit
102c4 attribute determination part
102d Expression value calculation unit
102e Prediction area determination unit
102e1 unpredicted region extraction unit
102e2 base length determination unit
102e3 prediction target region determination unit
104 Communication interface
106 Storage unit
106a Genome sequence data file
106b Tiling array data file
106c Expression region data file
106d gene structure data file
106e Expression value data file
108 Input / output interface
112 Input device
114
Claims (10)
前記データ取得ステップで取得したタイリングアレイデータに基づいて、ゲノム塩基配列の中から遺伝子の発現領域を推定する発現領域推定ステップと、
前記発現領域推定ステップで推定した発現領域に対応する塩基を起点として、当該起点の両隣に連なる塩基ごとに、前記タイリングアレイデータおよび前記ゲノム塩基配列データに基づいて遺伝子の構造に関する属性を決定することで、遺伝子の構造を予測する遺伝子構造予測ステップと、
を含み、
前記発現領域推定ステップは、
前記タイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定する発現領域候補決定ステップと、
前記発現領域候補決定ステップで決定した発現領域候補が統計的に有意であるか否かを判定する発現領域候補判定ステップと、
前記発現領域候補判定ステップで有意であると判定した場合、発現領域候補を前記発現領域として決定する発現領域決定ステップと、
をさらに含み、
前記発現領域候補決定ステップは、
ゲノム塩基配列における所定の長さの領域を対象として、当該領域に含まれるプローブの発現強度の中央値を算出する中央値算出ステップと、
前記中央値算出ステップで中央値の算出対象とした領域をゲノム塩基配列に沿って移動する領域移動ステップと、
前記中央値算出ステップおよび前記領域移動ステップを繰り返し実行することで蓄積した複数の中央値の中から最大のものを選択し、選択した最大の中央値の算出対象であった領域を前記発現領域候補として選出する発現領域候補選出ステップと、
をさらに含むことを特徴とする遺伝子構造予測方法。 Using a tiling array in which partial base sequences regularly extracted from genomic base sequences are arranged as probes, tiling array data relating to the expression intensity of each probe measured with the tiling array and genome relating to the genomic base sequence A data acquisition step for acquiring base sequence data;
Based on the tiling array data acquired in the data acquisition step, an expression region estimation step for estimating a gene expression region from the genomic base sequence;
Starting from the base corresponding to the expression region estimated in the expression region estimation step, the attribute relating to the structure of the gene is determined for each base that is adjacent to the origin on the basis of the tiling array data and the genomic base sequence data. A gene structure prediction step for predicting the structure of the gene,
Only including,
The expression region estimation step includes:
An expression region candidate determination step for determining an expression region candidate which is a candidate for a gene expression region based on the tiling array data;
Expression region candidate determination step for determining whether the expression region candidate determined in the expression region candidate determination step is statistically significant,
When it is determined to be significant in the expression region candidate determination step, an expression region determination step for determining an expression region candidate as the expression region;
Further including
The expression region candidate determination step includes
For a region of a predetermined length in the genomic base sequence, a median calculation step for calculating the median of the expression intensity of the probes contained in the region;
A region moving step of moving the region that is the median calculation target in the median calculation step along the genome base sequence;
The median calculation step and the region movement step are repeatedly executed to select the largest one among the plurality of median values accumulated, and the region that was the target of calculation of the selected maximum median value is selected as the expression region candidate An expression region candidate selection step selected as:
Gene structure prediction method comprising the further contains Mukoto.
前記発現領域推定ステップで推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定する発現領域塩基確率決定ステップと、
前記発現領域確率決定ステップで対象とした発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定する隣接塩基確率決定ステップと、
前記隣接塩基確率決定ステップをゲノム塩基配列の末端の塩基まで繰り返して実行した後、各塩基の属性に関する尤度を最尤法を用いて決定する尤度決定ステップと、
前記確率、前記状態遷移確率および前記尤度に基づいて各塩基の属性の組み合わせを確定する属性確定ステップと、
をさらに含むことを特徴とする請求項1に記載の遺伝子構造予測方法。 The gene structure prediction step includes:
For the expression region base that is the base corresponding to the expression region estimated in the expression region estimation step, the expression region base probability determination step for determining the probability regarding the attribute of the expression region base using a Markov model,
For adjacent bases adjacent to the expression region base targeted in the expression region probability determination step, adjacent base probability determination step for determining a state transition probability related to the attribute of the adjacent base using a Markov model,
A likelihood determination step of determining the likelihood related to the attribute of each base using a maximum likelihood method after repeatedly executing the adjacent base probability determination step up to the terminal base of the genomic base sequence,
An attribute determination step for determining a combination of attributes of each base based on the probability, the state transition probability and the likelihood;
The gene structure prediction method according to claim 1 , further comprising:
をさらに含むことを特徴とする請求項1または2に記載の遺伝子構造予測方法。 Based on the expression intensity of the probe corresponding to the exon region included in the gene structure predicted in the gene structure prediction step, an expression value calculation step for calculating the expression value of the gene,
Gene structure prediction method according to claim 1 or 2, further comprising a.
をさらに含み、
前記予測対象領域決定ステップで決定した予測対象領域に対して、前記発現領域推定ステップおよび前記遺伝子構造予測ステップを再び実行すること、
を特徴とする請求項1から3のいずれか1つに記載の遺伝子構造予測方法。 A prediction target region determination step for determining an unpredicted region that is a genomic base sequence excluding a region of the gene whose structure is predicted in the gene structure prediction step, as a prediction target region;
Further including
Re-execution of the expression region estimation step and the gene structure prediction step on the prediction target region determined in the prediction target region determination step;
The gene structure prediction method according to any one of claims 1 to 3 , wherein:
前記未予測領域をゲノム塩基配列から抽出する未予測領域抽出ステップと、
前記未予測領域抽出ステップで抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長以下であるか否かを判定する塩基長判定ステップと、
前記塩基長判定ステップで所定の塩基長以下でないと判定した場合、前記未予測領域抽出ステップで抽出した未予測領域を前記予測対象領域として確定する予測対象領域確定ステップと、
をさらに含むことを特徴とする請求項4に記載の遺伝子構造予測方法。 The prediction target region determination step includes
An unpredicted region extraction step of extracting the unpredicted region from the genome base sequence;
Calculating the base length of the unpredicted region extracted in the unpredicted region extraction step, and determining whether the calculated base length is equal to or less than a predetermined base length; and
When it is determined that the base length determination step is not less than or equal to a predetermined base length, a prediction target region determination step for determining the unpredicted region extracted in the unpredicted region extraction step as the prediction target region;
The gene structure prediction method according to claim 4 , further comprising:
前記データ取得ステップで取得したタイリングアレイデータに基づいて、ゲノム塩基配列の中から遺伝子の発現領域を推定する発現領域推定ステップと、
前記発現領域推定ステップで推定した発現領域に対応する塩基を起点として、当該起点の両隣に連なる塩基ごとに、前記タイリングアレイデータおよび前記ゲノム塩基配列データに基づいて遺伝子の構造に関する属性を決定することで、遺伝子の構造を予測する遺伝子構造予測ステップと、
を含み、
前記発現領域推定ステップは、
前記タイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定する発現領域候補決定ステップと、
前記発現領域候補決定ステップで決定した発現領域候補が統計的に有意であるか否かを判定する発現領域候補判定ステップと、
前記発現領域候補判定ステップで有意であると判定した場合、発現領域候補を前記発現領域として決定する発現領域決定ステップと、
をさらに含み、
前記発現領域候補決定ステップは、
ゲノム塩基配列における所定の長さの領域を対象として、当該領域に含まれるプローブの発現強度の中央値を算出する中央値算出ステップと、
前記中央値算出ステップで中央値の算出対象とした領域をゲノム塩基配列に沿って移動する領域移動ステップと、
前記中央値算出ステップおよび前記領域移動ステップを繰り返し実行することで蓄積した複数の中央値の中から最大のものを選択し、選択した最大の中央値の算出対象であった領域を前記発現領域候補として選出する発現領域候補選出ステップと、
をさらに含む遺伝子構造予測方法をコンピュータに実行させることを特徴とする遺伝子構造予測プログラム。 Using a tiling array in which partial base sequences regularly extracted from genomic base sequences are arranged as probes, tiling array data relating to the expression intensity of each probe measured with the tiling array and genome relating to the genomic base sequence A data acquisition step for acquiring base sequence data;
Based on the tiling array data acquired in the data acquisition step, an expression region estimation step for estimating a gene expression region from the genomic base sequence;
Starting from the base corresponding to the expression region estimated in the expression region estimation step, the attribute related to the structure of the gene is determined for each base that is adjacent to the origin based on the tiling array data and the genome base sequence data. A gene structure prediction step for predicting the structure of the gene,
Only including,
The expression region estimation step includes:
An expression region candidate determination step for determining an expression region candidate which is a candidate for a gene expression region based on the tiling array data;
Expression region candidate determination step for determining whether the expression region candidate determined in the expression region candidate determination step is statistically significant,
When it is determined to be significant in the expression region candidate determination step, an expression region determination step for determining an expression region candidate as the expression region;
Further including
The expression region candidate determination step includes
For a region of a predetermined length in the genomic base sequence, a median calculation step for calculating the median of the expression intensity of the probes contained in the region;
A region moving step of moving the region that is the median calculation target in the median calculation step along the genome base sequence;
The median calculation step and the region movement step are repeatedly executed to select the largest one among the plurality of median values accumulated, and the region that was the target of calculation of the selected maximum median value is selected as the expression region candidate An expression region candidate selection step selected as:
Further gene structure prediction program characterized by executing the including gene structure prediction methodologies to computers.
前記発現領域推定ステップで推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定する発現領域塩基確率決定ステップと、
前記発現領域確率決定ステップで対象とした発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定する隣接塩基確率決定ステップと、
前記隣接塩基確率決定ステップをゲノム塩基配列の末端の塩基まで繰り返して実行した後、各塩基の属性に関する尤度を最尤法を用いて決定する尤度決定ステップと、
前記確率、前記状態遷移確率および前記尤度に基づいて各塩基の属性の組み合わせを確定する属性確定ステップと、
をさらに含むことを特徴とする請求項6に記載の遺伝子構造予測プログラム。 The gene structure prediction step includes:
For the expression region base that is the base corresponding to the expression region estimated in the expression region estimation step, the expression region base probability determination step for determining the probability regarding the attribute of the expression region base using a Markov model,
For adjacent bases adjacent to the expression region base targeted in the expression region probability determination step, adjacent base probability determination step for determining a state transition probability related to the attribute of the adjacent base using a Markov model,
A likelihood determination step of determining the likelihood related to the attribute of each base using a maximum likelihood method after repeatedly executing the adjacent base probability determination step up to the terminal base of the genomic base sequence,
An attribute determination step for determining a combination of attributes of each base based on the probability, the state transition probability and the likelihood;
The gene structure prediction program according to claim 6 , further comprising:
をさらに含むことを特徴とする請求項6または7に記載の遺伝子構造予測プログラム。 Based on the expression intensity of the probe corresponding to the exon region included in the gene structure predicted in the gene structure prediction step, an expression value calculation step for calculating the expression value of the gene,
The gene structure prediction program according to claim 6 or 7 , further comprising:
をさらに含み、
前記予測対象領域決定ステップで決定した予測対象領域に対して、前記発現領域推定ステップおよび前記遺伝子構造予測ステップを再び実行すること、
を特徴とする請求項6から8のいずれか1つに記載の遺伝子構造予測プログラム。 A prediction target region determination step for determining an unpredicted region that is a genomic base sequence excluding a region of the gene whose structure is predicted in the gene structure prediction step, as a prediction target region;
Further including
Re-execution of the expression region estimation step and the gene structure prediction step on the prediction target region determined in the prediction target region determination step;
The gene structure prediction program according to any one of claims 6 to 8 , wherein:
前記未予測領域をゲノム塩基配列から抽出する未予測領域抽出ステップと、
前記未予測領域抽出ステップで抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長以下であるか否かを判定する塩基長判定ステップと、
前記塩基長判定ステップで所定の塩基長以下でないと判定した場合、前記未予測領域抽出ステップで抽出した未予測領域を前記予測対象領域として確定する予測対象領域確定ステップと、
をさらに含むことを特徴とする請求項9に記載の遺伝子構造予測プログラム。 The prediction target region determination step includes
An unpredicted region extraction step of extracting the unpredicted region from the genome base sequence;
Calculating the base length of the unpredicted region extracted in the unpredicted region extraction step, and determining whether the calculated base length is equal to or less than a predetermined base length; and
When it is determined that the base length determination step is not less than or equal to a predetermined base length, a prediction target region determination step for determining the unpredicted region extracted in the unpredicted region extraction step as the prediction target region;
The gene structure prediction program according to claim 9 , further comprising:
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005046149A JP4805586B2 (en) | 2005-02-22 | 2005-02-22 | Gene structure prediction method and gene structure prediction program |
PCT/JP2006/303526 WO2006090868A1 (en) | 2005-02-22 | 2006-02-21 | Gene structure predicting method and gene structure predicting program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005046149A JP4805586B2 (en) | 2005-02-22 | 2005-02-22 | Gene structure prediction method and gene structure prediction program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006235750A JP2006235750A (en) | 2006-09-07 |
JP4805586B2 true JP4805586B2 (en) | 2011-11-02 |
Family
ID=36927499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005046149A Expired - Fee Related JP4805586B2 (en) | 2005-02-22 | 2005-02-22 | Gene structure prediction method and gene structure prediction program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4805586B2 (en) |
WO (1) | WO2006090868A1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008146538A (en) * | 2006-12-13 | 2008-06-26 | Intec Web & Genome Informatics Corp | Microrna detector, detection method and program |
JP5952480B2 (en) * | 2015-09-29 | 2016-07-13 | 日本ソフトウェアマネジメント株式会社 | Nucleic acid information processing apparatus and processing method thereof |
CN105760711A (en) * | 2016-02-02 | 2016-07-13 | 江南大学 | Method for using KNN calculation and similarity comparison to predict protein subcellular section |
-
2005
- 2005-02-22 JP JP2005046149A patent/JP4805586B2/en not_active Expired - Fee Related
-
2006
- 2006-02-21 WO PCT/JP2006/303526 patent/WO2006090868A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2006090868A1 (en) | 2006-08-31 |
JP2006235750A (en) | 2006-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kan et al. | Selecting for functional alternative splices in ESTs | |
EP2430441B1 (en) | Method and system for calling variations in a sample polynucleotide sequence with respect to a reference polynucleotide sequence | |
CN109642250B (en) | Method for multi-resolution analysis of cell-free nucleic acids | |
Zhang et al. | Bayesian models for detecting epistatic interactions from genetic data | |
KR20180054834A (en) | Molecular quality assurance method for use in sequencing | |
JP4805586B2 (en) | Gene structure prediction method and gene structure prediction program | |
US8140269B2 (en) | Methods, computer-accessible medium, and systems for generating a genome wide haplotype sequence | |
Torkamaneh et al. | Accurate imputation of untyped variants from deep sequencing data | |
CN115762628A (en) | Detection method and detection device for gene progressive infiltration among biological populations | |
EP1630709B1 (en) | Mathematical analysis for the estimation of changes in the level of gene expression | |
WO2019071219A1 (en) | Site-specific noise model for targeted sequencing | |
JP5247009B2 (en) | Sequence extraction device, sequence extraction method, program, and recording medium | |
JP5065694B2 (en) | Method and system for evaluating genotyping results | |
US20200105374A1 (en) | Mixture model for targeted sequencing | |
WO2005022412A1 (en) | A system for analyzing bio chips using gene ontology and a method thereof | |
Mishra | Comparing gnomes | |
US20220284986A1 (en) | Systems and methods for identifying exon junctions from single reads | |
Oloomi | The impact of multi-mappings in short read mapping | |
Jonker et al. | Absence/presence calling in microarray-based CGH experiments with non-model organisms | |
Samanta et al. | In-depth query of large genomes using tiling arrays | |
EP1832992A1 (en) | Genome analysis method | |
Hartmann | Strategies for handling errors in genomic data | |
Frey et al. | Finding novel transcripts in high-resolution genome-wide microarray data using the GenRate model | |
US9798854B2 (en) | Method, computer-accessible medium, and systems for generating a genome wide haplotype sequence | |
KR20070066582A (en) | Determination of the absolute configuration of genomic feature and the coding regions with conserved polar asymmetry in genome |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110802 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110811 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140819 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |