JP4805586B2 - Gene structure prediction method and gene structure prediction program - Google Patents

Gene structure prediction method and gene structure prediction program Download PDF

Info

Publication number
JP4805586B2
JP4805586B2 JP2005046149A JP2005046149A JP4805586B2 JP 4805586 B2 JP4805586 B2 JP 4805586B2 JP 2005046149 A JP2005046149 A JP 2005046149A JP 2005046149 A JP2005046149 A JP 2005046149A JP 4805586 B2 JP4805586 B2 JP 4805586B2
Authority
JP
Japan
Prior art keywords
region
expression
base
gene
gene structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005046149A
Other languages
Japanese (ja)
Other versions
JP2006235750A (en
Inventor
哲郎 豊田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RIKEN Institute of Physical and Chemical Research
Original Assignee
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RIKEN Institute of Physical and Chemical Research filed Critical RIKEN Institute of Physical and Chemical Research
Priority to JP2005046149A priority Critical patent/JP4805586B2/en
Priority to PCT/JP2006/303526 priority patent/WO2006090868A1/en
Publication of JP2006235750A publication Critical patent/JP2006235750A/en
Application granted granted Critical
Publication of JP4805586B2 publication Critical patent/JP4805586B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、遺伝子構造予測方法および遺伝子構造予測プログラムに関し、特に、ゲノム塩基配列から規則的に抜き出された部分塩基配列をプローブとして配置したタイリングアレイを用いて、当該タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータに基づいて当該ゲノム塩基配列から未知の遺伝子の領域や構造を予測する遺伝子構造予測方法および遺伝子構造予測プログラムに関するものである。   The present invention relates to a gene structure prediction method and a gene structure prediction program, and in particular, is measured with the tiling array using a tiling array in which partial base sequences regularly extracted from genomic base sequences are arranged as probes. Further, the present invention relates to a gene structure prediction method and a gene structure prediction program for predicting an unknown gene region and structure from the genome base sequence based on tiling array data relating to the expression intensity of each probe.

これまで、遺伝子の構造を予測する技術として、例えば非特許文献1〜3が公開されている。非特許文献1〜3に記載の技術によれば、既知の遺伝子に対して、塩基配列データのみで当該遺伝子の構造を予測することができた。   So far, for example, Non-Patent Documents 1 to 3 have been disclosed as techniques for predicting the structure of a gene. According to the techniques described in Non-Patent Documents 1 to 3, it was possible to predict the structure of a known gene from only the base sequence data.

ここで、DNAマイクロアレイは、多くの遺伝子の発現量を蛍光強度(発現強度)として同時に測定する技術として、非常に有用である。特に、タイリングアレイは、ゲノム塩基配列の全領域の発現量を蛍光強度(発現強度)として同時に測定することができるので、非常に有用である(例えば非特許文献4〜8参照)。タイリングアレイには、複数のプローブが、遺伝子領域であるか否かに関わらず、ゲノムの塩基配列に沿って、非常に密に且つ規則的に配置されている。これにより、タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータのみで未知の遺伝子の存在を発見することができた。なお、タイリングアレイにおいて、平均的な長さの遺伝子領域には、数十個から数百個のプローブが対応している。   Here, the DNA microarray is very useful as a technique for simultaneously measuring the expression levels of many genes as fluorescence intensity (expression intensity). In particular, tiling arrays are very useful because they can simultaneously measure the expression level of the entire region of the genomic base sequence as fluorescence intensity (expression intensity) (see, for example, Non-Patent Documents 4 to 8). In the tiling array, a plurality of probes are arranged very densely and regularly along the base sequence of the genome regardless of whether or not they are gene regions. As a result, it was possible to discover the presence of an unknown gene using only tiling array data relating to the expression intensity of each probe measured with a tiling array. In the tiling array, a gene region having an average length corresponds to several tens to several hundreds of probes.

Lukashin,AV., Borodovsky,M., “ GeneMark.hmm: new solutions for gene finding.”, Nucleic Acids Res., 26, p.1107−1115, 1998Lukashin, AV. Borodovsky, M .; “GeneMark. Hmm: new solutions for gene finding.”, Nucleic Acids Res. , 26, p. 1107-1115, 1998 Uberbacher,EC., Xu,Y., Mural,RJ., “ Discovering and understanding genes in human DNA sequence using GRAIL”, Methods Enzymol., 266, p.259−281, 1996Uberbacher, EC. , Xu, Y. , Mural, RJ. , “Discovering and understanding genes in human DNA sequence using GRIL”, Methods Enzymol. , 266, p. 259-281, 1996 Snyder,EE., Stormo,GD., “Identification of coding regions in genomic DNA sequences: an application of dynamic programming and neural networks.”, Nucleic Acids Res., 21, p.607−613, 1993Snyder, EE. , Stormo, GD. , “Identification of coding regions in genomic DNA sequences: an application of dynamic programming and neural networks.”, Nucleic Acids Res. , 21, p. 607-613, 1993 Shoemaker D.D. et al., “Experimental annotation of the human genome using microarray technology.”, Nature, 409, p.922, 2001Shomaker D. D. et al. "Experimental annotation of the human genome using microarray technology.", Nature, 409, p. 922, 2001 Kapranov P. et al., “Large−scale transcriptional activity in chromosomes 21 and 22.”, Science, 296, p.916−919, 2002Kaplanov P.M. et al. , “Large-scale transcriptional activity in chromosomes 21 and 22.”, Science, 296, p. 916-919, 2002 Rinn, J.L. et al., “The transcriptional activity of human chromosome 22.”, Genes Dev., 17, p.529−540, 2003Rinn, J.M. L. et al. "The transcribable activity of human chromosome 22.", Genes Dev. , 17, p. 529-540, 2003 Yamada K. et al., “ Empirical Analysis of Transcriptional Activity in the Arabidopsis Genome.”, Science, 302, p.842−845, 2003Yamada K.K. et al. , “Empirical Analysis of Transcriptional Activity in the Arabidopsis Genome.”, Science, 302, p. 842-845, 2003 Stolc V. et al., “ A gene expression map for the euchromatic genome of Drosophila melanogaster.”, Science, 306, p.655−660, 2004Stolc V.E. et al. "A gene expression map for the euchromatic genome of Drosophila melanogaster.", Science, 306, p. 655-660, 2004

しかしながら、タイリングアレイデータには一般にノイズが多く含まれているので、タイリングアレイデータのみでゲノム塩基配列に存在するエクソンとイントロンを明確に区別することはできない。具体的には、タイリングアレイで測定された発現強度が閾値を超えるか否かでエクソンであるか否かを判定する方法の場合、閾値の調整を行っても、エクソン領域内で閾値以下の発現強度が存在したり、エクソン領域外で閾値を超える発現強度が存在したりする。そのため、タイリングアレイデータに基づいて未知の遺伝子の存在を予測することはできても、当該遺伝子の領域や構造を予測することはできなかった、という問題点があった。   However, since tiling array data generally contains a lot of noise, it is not possible to clearly distinguish exons and introns present in the genome base sequence only from tiling array data. Specifically, in the case of a method for determining whether or not an exon is based on whether or not the expression intensity measured by the tiling array exceeds the threshold, even if the threshold is adjusted, it is below the threshold within the exon region. There is an expression intensity, or there is an expression intensity exceeding a threshold outside the exon region. Therefore, there was a problem that even though the presence of an unknown gene could be predicted based on tiling array data, the region and structure of the gene could not be predicted.

また、遺伝子の構造を予測する従来の技術では、予測の過程において、統計的に有意と判定された遺伝子の発現領域であっても遺伝子領域でないと判定されてしまう場合があり、遺伝子の構造を必ずしも十分な精度で予測することができなかった、という問題点があった。   In addition, in the conventional technique for predicting the structure of a gene, even in the prediction process, even a gene expression region that is statistically significant may be determined not to be a gene region. There was a problem that it was not always possible to predict with sufficient accuracy.

本発明は上記問題点に鑑みてなされたもので、タイリングアレイデータに基づいてゲノム塩基配列から未知の遺伝子の領域や構造を精度よく予測することができる遺伝子構造予測方法および遺伝子構造予測プログラムを提供することを目的とする。   The present invention has been made in view of the above problems, and provides a gene structure prediction method and a gene structure prediction program capable of accurately predicting an unknown gene region and structure from a genomic base sequence based on tiling array data. The purpose is to provide.

従来の遺伝子構造予測方法ではマルコフモデルを用いるものがよく使われていた(例えば、「Asai K., Hayamizu, S. and Handa, K., “Prediction of protein secondary structure by the hidden Markov model.”, Computer Applications for Biosciences, 9, p.141−146, 1993」や「Krogh,A., Brown,M., Mian,IS. Sjolander,K., Haussler,D., “Hidden Markov models in computational biology. Applications to protein modeling.”, J.Mol. Biol., 235, p.1501−1531, 1994」、「Tanaka,H., Ishikawa,M., Asai,K., Konagaya, A., “Hidden Markov models and interactive aligners: Study of their equivalence and possibilities.”, International Conference on Intelligent Systems for Molecular Biology, 1, p.395−401, 1993」など参照)。ところが、従来の遺伝子構造予測方法では、例えばタイリングアレイデータから計算された尤度を考慮してマルコフモデルを適用した例はこれまでみられなかった。そもそも、タイリングアレイデータを考慮して遺伝子の構造を予測する試みは成されていなかった。   Conventional gene structure prediction methods that use a Markov model are often used (for example, “Asai K., Hayamizu, S. and Handa, K.,“ Prediction of protein secondary structure by the label ”. “Computer Applications for Biosciences, 9, p. 141-146, 1993” and “Krogh, A., Brown, M., Mian, IS. Sjorander, K., Haussler, D.,“ Hidden Markovel. to protein model ng. ”, J. Mol. Biol., 235, p. 1501-1531, 1994”, “Tanaka, H., Ishikawa, M., Asai, K., Konagaya, A.,“ Hidden Markov model and : Study of the equivalence and possibilities. ", International Conference on Intelligent Systems for Molecular Biology, 1, p. 395-401, 1993"). However, in the conventional gene structure prediction method, for example, no Markov model has been applied in consideration of the likelihood calculated from tiling array data. In the first place, no attempt has been made to predict the structure of a gene in consideration of tiling array data.

そこで、上記目的を達成するために、本発明にかかる遺伝子構造予測方法は、塩基配列に基づいて遺伝子の構造を予測する遺伝子構造予測方法において、ゲノム塩基配列から規則的に抜き出された部分塩基配列をプローブとして配置したタイリングアレイを用いて、当該タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータに基づいて当該ゲノム塩基配列から遺伝子の構造を予測すること、を特徴とする。 Therefore, in order to achieve the above object , the gene structure prediction method according to the present invention includes a partial base regularly extracted from a genome base sequence in the gene structure prediction method for predicting the structure of a gene based on the base sequence. Using a tiling array in which the sequences are arranged as probes, and predicting the structure of the gene from the genomic base sequence based on tiling array data on the expression intensity of each probe measured by the tiling array. To do.

また、本発明にかかる遺伝子構造予測方法は、ゲノム塩基配列から規則的に抜き出された部分塩基配列をプローブとして配置したタイリングアレイを用いて、当該タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータおよびゲノム塩基配列に関するゲノム塩基配列データを取得するデータ取得ステップと、前記データ取得ステップで取得したタイリングアレイデータに基づいて、ゲノム塩基配列の中から遺伝子の発現領域を推定する発現領域推定ステップと、前記発現領域推定ステップで推定した発現領域に対応する塩基を起点として、当該起点の両隣に連なる塩基ごとに、前記タイリングアレイデータおよび前記ゲノム塩基配列データに基づいて遺伝子の構造に関する属性を決定することで、遺伝子の構造を予測する遺伝子構造予測ステップと、を含むことを特徴とする。 The gene structure prediction method according to the present invention uses a tiling array in which partial base sequences regularly extracted from genomic base sequences are arranged as probes, and the expression of each probe measured with the tiling array. Data acquisition step for obtaining tiling array data related to strength and genomic base sequence data related to genomic base sequence, and estimation of gene expression region from genomic base sequence based on tiling array data acquired in the data acquisition step An expression region estimation step and a base corresponding to the expression region estimated in the expression region estimation step as a starting point, for each base that is adjacent to the starting point, a gene based on the tiling array data and the genomic base sequence data By determining attributes related to the structure of the gene, the structure of the gene Characterized in that it comprises a gene structure prediction step of predicting, a.

また、本発明にかかる遺伝子構造予測方法は、前記の遺伝子構造予測方法において、前記発現領域推定ステップは、前記タイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定する発現領域候補決定ステップと、前記発現領域候補決定ステップで決定した発現領域候補が統計的に有意であるか否かを判定する発現領域候補判定ステップと、前記発現領域候補判定ステップで有意であると判定した場合、発現領域候補を前記発現領域として決定する発現領域決定ステップと、をさらに含むことを特徴とする。 Moreover, gene structure prediction method according to the present invention, in the gene structure prediction method, the expression region estimation step, the expression determining the expression region candidate is a candidate for the expression region of the gene based on the tiling array data A region candidate determination step, an expression region candidate determination step for determining whether the expression region candidate determined in the expression region candidate determination step is statistically significant, and a determination that the expression region candidate determination step is significant In that case, the method further includes an expression region determination step of determining an expression region candidate as the expression region.

また、本発明にかかる遺伝子構造予測方法は、前記の遺伝子構造予測方法において、前記発現領域候補決定ステップは、ゲノム塩基配列における所定の長さの領域を対象として、当該領域に含まれるプローブの発現強度の中央値を算出する中央値算出ステップと、前記中央値算出ステップで中央値の算出対象とした領域をゲノム塩基配列に沿って移動する領域移動ステップと、前記中央値算出ステップおよび前記領域移動ステップを繰り返し実行することで蓄積した複数の中央値の中から最大のものを選択し、選択した最大の中央値の算出対象であった領域を前記発現領域候補として選出する発現領域候補選出ステップと、をさらに含むことを特徴とする。 Moreover, gene structure prediction method according to the present invention, in the gene structure prediction method, the expression region candidate determining step, a target region of a predetermined length in the genomic nucleotide sequence, the expression of probes contained in the area A median calculation step for calculating the median value of the intensity; a region moving step for moving the region that is the median calculation target in the median value calculating step along the genome base sequence; the median value calculating step and the region shifting An expression region candidate selection step of selecting a maximum one of a plurality of median values accumulated by repeatedly executing the step, and selecting a region that was a target of calculation of the selected maximum median value as the expression region candidate; , Further included.

また、本発明にかかる遺伝子構造予測方法は、前記の遺伝子構造予測方法において、前記遺伝子構造予測ステップは、前記発現領域推定ステップで推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定する発現領域塩基確率決定ステップと、前記発現領域確率決定ステップで対象とした発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定する隣接塩基確率決定ステップと、前記隣接塩基確率決定ステップをゲノム塩基配列の末端の塩基まで繰り返して実行した後、各塩基の属性に関する尤度を最尤法を用いて決定する尤度決定ステップと、前記確率、前記状態遷移確率および前記尤度に基づいて各塩基の属性の組み合わせを確定する属性確定ステップと、をさらに含むことを特徴とする。 Moreover, gene structure prediction method according to the present invention, in the gene structure prediction method, the gene structure prediction step as a target base in which expression region base corresponding to the expression region estimated by the expression region estimating step, An expression region base probability determination step for determining a probability related to the attribute of the expression region base using a Markov model, and an adjacent base adjacent to the expression region base targeted in the expression region probability determination step An adjacent base probability determination step for determining a state transition probability for an attribute using a Markov model, and the adjacent base probability determination step are repeatedly performed up to the end base of the genome base sequence, and the likelihood for the attribute of each base is maximized. A likelihood determining step that uses a likelihood method, and the probability, the state transition probability, and the likelihood An attribute determination step of determining a combination of the attributes of each base in Zui, characterized in that it further comprises a.

また、本発明にかかる遺伝子構造予測方法は、前記の遺伝子構造予測方法において、前記遺伝子構造予測ステップで予測した遺伝子の構造に含まれるエクソン領域に対応するプローブの発現強度に基づいて、当該遺伝子の発現値を算出する発現値算出ステップ、をさらに含むことを特徴とする。 Moreover, gene structure prediction method according to the present invention, in the gene structure prediction method, based on the expression intensity of the probe corresponding to exon region included in the structure of the gene predicted by the gene structure prediction step, of the gene An expression value calculating step of calculating an expression value;

また、本発明にかかる遺伝子構造予測方法は、前記の遺伝子構造予測方法において、前記遺伝子構造予測ステップで構造が予測された遺伝子の領域を除いたゲノム塩基配列である未予測領域を予測対象領域として決定する予測対象領域決定ステップ、をさらに含み、前記予測対象領域決定ステップで決定した予測対象領域に対して、前記発現領域推定ステップおよび前記遺伝子構造予測ステップを再び実行すること、を特徴とする。 Moreover, the gene structure prediction method according to the present invention is the above-described gene structure prediction method, wherein an unpredicted region that is a genomic base sequence excluding the region of the gene whose structure is predicted in the gene structure prediction step is used as a prediction target region. A prediction target region determination step for determining, wherein the expression region estimation step and the gene structure prediction step are performed again on the prediction target region determined in the prediction target region determination step.

また、本発明にかかる遺伝子構造予測方法は、前記の遺伝子構造予測方法において、前記予測対象領域決定ステップは、前記未予測領域をゲノム塩基配列から抽出する未予測領域抽出ステップと、前記未予測領域抽出ステップで抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長以下であるか否かを判定する塩基長判定ステップと、前記塩基長判定ステップで所定の塩基長以下でないと判定した場合、前記未予測領域抽出ステップで抽出した未予測領域を前記予測対象領域として確定する予測対象領域確定ステップと、をさらに含むことを特徴とする。 Moreover, gene structure prediction method according to the present invention, in the gene structure prediction method, the prediction target region determining step, and the non-prediction region extraction step of extracting the non-prediction region from the genomic nucleotide sequence, wherein the non-prediction region The base length of the unpredicted region extracted in the extraction step is calculated, the base length determination step for determining whether or not the calculated base length is equal to or less than a predetermined base length, and the predetermined base length or less in the base length determination step A non-predicted region extracted in the unpredicted region extraction step, and a prediction target region determining step for determining the unpredicted region as the prediction target region.

また、本発明は遺伝子構造予測プログラムに関するものであり、本発明にかかる遺伝子構造予測方法をコンピュータに実行させる遺伝子構造予測プログラムは、ゲノム塩基配列から規則的に抜き出された部分塩基配列をプローブとして配置したタイリングアレイを用いて、当該タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータおよびゲノム塩基配列に関するゲノム塩基配列データを取得するデータ取得ステップと、前記データ取得ステップで取得したタイリングアレイデータに基づいて、ゲノム塩基配列の中から遺伝子の発現領域を推定する発現領域推定ステップと、前記発現領域推定ステップで推定した発現領域に対応する塩基を起点として、当該起点の両隣に連なる塩基ごとに、前記タイリングアレイデータおよび前記ゲノム塩基配列データに基づいて遺伝子の構造に関する属性を決定することで、遺伝子の構造を予測する遺伝子構造予測ステップと、を含むことを特徴とする。 The present invention also relates to a gene structure prediction program, and a gene structure prediction program that causes a computer to execute the gene structure prediction method according to the present invention uses a partial base sequence regularly extracted from a genomic base sequence as a probe. Using the arranged tiling array, a data acquisition step for acquiring tiling array data related to the expression intensity of each probe measured with the tiling array and a genomic base sequence data regarding the genomic base sequence, and acquiring in the data acquisition step Based on the tiling array data, the expression region estimation step for estimating the expression region of the gene from the genome base sequence, and the base corresponding to the expression region estimated in the expression region estimation step as a starting point, both adjacent to the starting point For each base connected to By determining the attribute about the structure of the gene on the basis of data and the genome sequence data, characterized in that it contains a gene structure prediction step of predicting a structure of the gene, a.

また、本発明にかかる遺伝子構造予測プログラムは、前記の遺伝子構造予測プログラムにおいて、前記発現領域推定ステップは、前記タイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定する発現領域候補決定ステップと、前記発現領域候補決定ステップで決定した発現領域候補が統計的に有意であるか否かを判定する発現領域候補判定ステップと、前記発現領域候補判定ステップで有意であると判定した場合、発現領域候補を前記発現領域として決定する発現領域決定ステップと、をさらに含むことを特徴とする。 Moreover, gene structure prediction program according to the present invention, in the gene structure prediction programs, the expression region estimation step, the expression determining the expression region candidate is a candidate for the expression region of the gene based on the tiling array data A region candidate determination step, an expression region candidate determination step for determining whether the expression region candidate determined in the expression region candidate determination step is statistically significant, and a determination that the expression region candidate determination step is significant In that case, the method further includes an expression region determination step of determining an expression region candidate as the expression region.

また、本発明にかかる遺伝子構造予測プログラムは、前記の遺伝子構造予測プログラムにおいて、前記発現領域候補決定ステップは、ゲノム塩基配列における所定の長さの領域を対象として、当該領域に含まれるプローブの発現強度の中央値を算出する中央値算出ステップと、前記中央値算出ステップで中央値の算出対象とした領域をゲノム塩基配列に沿って移動する領域移動ステップと、前記中央値算出ステップおよび前記領域移動ステップを繰り返し実行することで蓄積した複数の中央値の中から最大のものを選択し、選択した最大の中央値の算出対象であった領域を前記発現領域候補として選出する発現領域候補選出ステップと、をさらに含むことを特徴とする。 Moreover, gene structure prediction program according to the present invention, in the gene structure prediction programs, the expression region candidate determining step, a target region of a predetermined length in the genomic nucleotide sequence, the expression of probes contained in the area A median calculation step for calculating the median value of the intensity; a region moving step for moving the region that is the median calculation target in the median value calculating step along the genome base sequence; the median value calculating step and the region shifting An expression region candidate selection step of selecting a maximum one of a plurality of median values accumulated by repeatedly executing the step, and selecting a region that was a target of calculation of the selected maximum median value as the expression region candidate; , Further included.

また、本発明にかかる遺伝子構造予測プログラムは、前記の遺伝子構造予測プログラムにおいて、前記遺伝子構造予測ステップは、前記発現領域推定ステップで推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定する発現領域塩基確率決定ステップと、前記発現領域確率決定ステップで対象とした発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定する隣接塩基確率決定ステップと、前記隣接塩基確率決定ステップをゲノム塩基配列の末端の塩基まで繰り返して実行した後、各塩基の属性に関する尤度を最尤法を用いて決定する尤度決定ステップと、前記確率、前記状態遷移確率および前記尤度に基づいて各塩基の属性の組み合わせを確定する属性確定ステップと、をさらに含むことを特徴とする。 Moreover, gene structure prediction program according to the present invention, in the gene structure prediction programs, the gene structure prediction step, as the target base at which expression region base corresponding to the expression region estimated by the expression region estimating step, An expression region base probability determination step for determining a probability related to the attribute of the expression region base using a Markov model, and an adjacent base adjacent to the expression region base targeted in the expression region probability determination step An adjacent base probability determination step for determining a state transition probability for an attribute using a Markov model, and the adjacent base probability determination step are repeatedly performed up to the end base of the genome base sequence, and the likelihood for the attribute of each base is maximized. A likelihood determining step determined using a likelihood method, the probability, the state transition probability and the And further comprising a, an attribute determination step of determining a combination of the attributes of each base on the basis of the likelihood.

また、本発明にかかる遺伝子構造予測プログラムは、前記の遺伝子構造予測プログラムにおいて、前記遺伝子構造予測ステップで予測した遺伝子の構造に含まれるエクソン領域に対応するプローブの発現強度に基づいて、当該遺伝子の発現値を算出する発現値算出ステップ、をさらに含むことを特徴とする。 Moreover, gene structure prediction program according to the present invention, in the gene structure prediction program, based on the expression intensity of the probe corresponding to exon region included in the structure of the gene predicted by the gene structure prediction step, of the gene An expression value calculating step of calculating an expression value;

また、本発明にかかる遺伝子構造予測プログラムは、前記の遺伝子構造予測プログラムにおいて、前記遺伝子構造予測ステップで構造が予測された遺伝子の領域を除いたゲノム塩基配列である未予測領域を予測対象領域として決定する予測対象領域決定ステップ、をさらに含み、前記予測対象領域決定ステップで決定した予測対象領域に対して、前記発現領域推定ステップおよび前記遺伝子構造予測ステップを再び実行すること、を特徴とする。 Moreover, gene structure prediction program according to the present invention, in the gene structure prediction programs, the non-predicted area is the genomic nucleotide sequence structure excluding the region of the gene that is predicted by the gene structure prediction step as a prediction target region A prediction target region determination step for determining, wherein the expression region estimation step and the gene structure prediction step are performed again on the prediction target region determined in the prediction target region determination step.

また、本発明にかかる遺伝子構造予測プログラムは、前記の遺伝子構造予測プログラムにおいて、前記予測対象領域決定ステップは、前記未予測領域をゲノム塩基配列から抽出する未予測領域抽出ステップと、前記未予測領域抽出ステップで抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長以下であるか否かを判定する塩基長判定ステップと、前記塩基長判定ステップで所定の塩基長以下でないと判定した場合、前記未予測領域抽出ステップで抽出した未予測領域を前記予測対象領域として確定する予測対象領域確定ステップと、をさらに含むことを特徴とする。 Moreover, gene structure prediction program according to the present invention, in the gene structure prediction program, the predicted target region determining step includes a non-predictive region extraction step of extracting the non-prediction region from the genomic nucleotide sequence, wherein the non-prediction region The base length of the unpredicted region extracted in the extraction step is calculated, the base length determination step for determining whether or not the calculated base length is equal to or less than a predetermined base length, and the predetermined base length or less in the base length determination step A non-predicted region extracted in the unpredicted region extraction step, and a prediction target region determining step for determining the unpredicted region as the prediction target region.

本発明にかかる遺伝子構造予測方法によれば、ゲノム塩基配列から規則的に抜き出された部分塩基配列をプローブとして配置したタイリングアレイを用いて、当該タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータに基づいて当該ゲノム塩基配列から遺伝子の構造を予測するので、タイリングアレイデータに基づいてゲノム塩基配列から未知の遺伝子の領域や構造を精度よく予測することができるという効果を奏する。 According to the gene structure prediction method of the present invention, using a tiling array in which partial base sequences regularly extracted from genomic base sequences are arranged as probes, the expression of each probe measured by the tiling array is used. Since the gene structure is predicted from the genome base sequence based on the tiling array data on the strength, the effect that the region and structure of an unknown gene can be accurately predicted from the genome base sequence based on the tiling array data Play.

また、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムによれば、ゲノム塩基配列から規則的に抜き出された部分塩基配列をプローブとして配置したタイリングアレイを用いて、当該タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータおよびゲノム塩基配列に関するゲノム塩基配列データを取得し、取得したタイリングアレイデータに基づいて、ゲノム塩基配列の中から遺伝子の発現領域を推定し、推定した発現領域に対応する塩基を起点として、当該起点の両隣に連なる塩基ごとに、タイリングアレイデータおよびゲノム塩基配列データに基づいて遺伝子の構造に関する属性を決定することで、遺伝子の構造を予測するので、タイリングアレイデータに基づいてゲノム塩基配列から未知の遺伝子の領域や構造を精度よく予測することができるという効果を奏する。 Further, according to the gene structure prediction method and the gene structure prediction program of the present invention, a tiling array using a partial base sequence regularly extracted from a genomic base sequence as a probe is used. Obtain the tiling array data related to the measured expression intensity of each probe and genomic base sequence data related to the genomic base sequence, and based on the acquired tiling array data, estimate the gene expression region from the genomic base sequence, Predict the structure of a gene by determining the attributes related to the structure of the gene based on the tiling array data and genomic base sequence data for each base that is adjacent to the base corresponding to the estimated expression region. Therefore, based on the tiling array data, An effect that the region and the structure of the gene can be predicted accurately.

また、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムによれば、タイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定し、決定した発現領域候補が統計的に有意であるか否かを判定し、有意であると判定した場合、発現領域候補を発現領域として決定するので、既存の統計手法を用いて発現領域を容易且つ正確に推定することができるという効果を奏する。 In addition, according to the gene structure prediction method and the gene structure prediction program of the present invention, expression region candidates that are gene expression region candidates are determined based on tiling array data, and the determined expression region candidates are statistically determined. If it is determined whether it is significant, and if it is determined to be significant, the expression region candidate is determined as the expression region, so that the expression region can be estimated easily and accurately using existing statistical methods Play.

また、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムによれば、ゲノム塩基配列における所定の長さの領域を対象として、当該領域に含まれるプローブの発現強度の中央値を算出し、中央値の算出対象とした領域をゲノム塩基配列に沿って移動し、これらの処理を繰り返し実行することで蓄積した複数の中央値の中から最大のものを選択し、選択した最大の中央値の算出対象であった領域を発現領域候補として選出するので、タイリングアレイで測定された各プローブの発現強度のばらつきを考慮して適切な発現領域候補を選出することができるという効果を奏する。 Further, according to the gene structure prediction method and the gene structure prediction program according to the present invention, for a region of a predetermined length in the genomic base sequence, the median of the expression intensity of the probes contained in the region is calculated, By moving the region for which the value is to be calculated along the genome base sequence and repeatedly executing these processes, the largest one of the accumulated medians is selected and the selected median is calculated. Since the target region is selected as an expression region candidate, there is an effect that an appropriate expression region candidate can be selected in consideration of variations in expression intensity of each probe measured by the tiling array.

また、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムによれば、推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定し、対象とした発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定し、状態遷移確率を決定する処理をゲノム塩基配列の末端の塩基まで繰り返して実行した後、各塩基の属性に関する尤度を最尤法を用いて決定し、決定した確率、状態遷移確率および尤度に基づいて各塩基の属性の組み合わせを確定するので、遺伝子の領域や構造をさらに精度よく予測することができるという効果を奏する。 Further, according to the gene structure prediction method and the gene structure prediction program according to the present invention, for the expression region base that is the base corresponding to the estimated expression region, the probability relating to the attribute of the expression region base is determined using a Markov model. Determine the state transition probability related to the attribute of the adjacent base using the Markov model for the adjacent base adjacent to the target expression region base, and perform the process of determining the state transition probability at the end of the genome base sequence. After repeatedly executing up to the base, the likelihood regarding the attribute of each base is determined using the maximum likelihood method, and the combination of the attributes of each base is determined based on the determined probability, state transition probability, and likelihood. There is an effect that it is possible to predict the region and structure of the above with higher accuracy.

また、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムによれば、予測した遺伝子の構造に含まれるエクソン領域に対応するプローブの発現強度に基づいて、当該遺伝子の発現値を算出するので、未知の遺伝子の発現量を得ることができるという効果を奏する。 Further, according to the gene structure prediction method and the gene structure prediction program according to the present invention, the expression value of the gene is calculated based on the expression intensity of the probe corresponding to the exon region included in the predicted gene structure. The effect is that an expression level of an unknown gene can be obtained.

また、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムによれば、構造が予測された遺伝子の領域を除いたゲノム塩基配列である未予測領域を予測対象領域として決定し、決定した予測対象領域に対して、発現領域を推定する処理および遺伝子の構造を予測する処理を再び実行するので、ゲノム塩基配列から複数の遺伝子の領域や構造を効率よく予測することができるという効果を奏する。 According to the gene structure prediction method and the gene structure prediction program of the present invention, an unpredicted region that is a genomic base sequence excluding a region of a gene whose structure is predicted is determined as a prediction target region, and the determined prediction target Since the process of estimating the expression area and the process of predicting the gene structure are performed again on the region, there is an effect that the regions and structures of a plurality of genes can be efficiently predicted from the genome base sequence.

また、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムによれば、未予測領域をゲノム塩基配列から抽出し、抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長以下であるか否かを判定し、所定の塩基長(例えば1000塩基長)以下でないと判定した場合、抽出した未予測領域を予測対象領域として確定するので、遺伝子の構造が入り得ない短い領域を除くことができ、その結果、構造予測に相応しい予測対象領域を確定することができるという効果を奏する。 According to the gene structure prediction method and gene structure prediction program of the present invention, the unpredicted region is extracted from the genome base sequence, the base length of the extracted unpredicted region is calculated, and the calculated base length is a predetermined base. If it is determined whether or not the length is equal to or shorter than the predetermined length, and it is determined that the length is not shorter than a predetermined base length (for example, 1000 base length), the extracted unpredicted region is determined as the prediction target region. As a result, it is possible to eliminate the region, and as a result, it is possible to determine the prediction target region suitable for the structure prediction.

以下に、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。   Embodiments of a gene structure prediction method and a gene structure prediction program according to the present invention will be described below in detail with reference to the drawings. Note that the present invention is not limited to the embodiments.

まず、本明細書で用いる用語を定義する。
「遺伝子」とは、成熟したmRNA(メッセンジャーRNA)または当該mRNAに対応するゲノム塩基配列の部分領域(エクソン)の集合である。
「遺伝子領域」とは、ゲノム塩基配列上で、1つの遺伝子に属するエクソンの集合を全て含む最短の部分領域である。
「遺伝子構造」とは、1つの遺伝子領域内において、エクソンとイントロンの領域を示す情報である。
「タイリングアレイ」とは、ゲノム塩基配列から一定長(20〜100塩基長)の塩基配列を一定間隔(1〜200塩基)でずらしつつ抜き出し、抜き出した各塩基配列に対応するオリゴヌクレオチドをプローブとするDNAマイクロアレイである。なお、タイリングアレイには、抜き出した塩基配列と完全に一致するオリゴヌクレオチド(パーフェクトマッチするオリゴヌクレオチド)をプローブとして加えるだけでなく、抜き出した塩基配列と完全に一致しないオリゴヌクレオチド(ミスマッチするオリゴヌクレオチド)を比較用のプローブとして加えてもよい。
「発現強度」とは、生物組織から得られたサンプル中に含まれるmRNAの量に比例する数値データであり、対応するプローブへサンプルがハイブリダイゼイションすることで測定されるものである。
「タイリングアレイデータ」とは、タイリングアレイの全プローブの発現強度に関するデータである。
「有意な発現領域」とは、「ゲノム塩基配列中の一定塩基長(例えば750塩基長)の領域に対応するプローブの発現強度が、ノイズに因り偶然に測定されたものである。」という帰無仮説が統計的検定に基づいて有意なレベルで棄却された場合における当該領域である。なお、有意な発現領域は遺伝子領域の一部であるとする。
First, terms used in this specification are defined.
A “gene” is a set of mature mRNA (messenger RNA) or a partial region (exon) of a genomic base sequence corresponding to the mRNA.
The “gene region” is the shortest partial region including all of the set of exons belonging to one gene on the genome base sequence.
“Gene structure” is information indicating exon and intron regions in one gene region.
“Tiling array” refers to a base sequence of a certain length (20 to 100 bases) extracted from a genome base sequence while shifting it at regular intervals (1 to 200 bases), and probes oligonucleotides corresponding to the extracted base sequences. A DNA microarray. The tiling array not only adds an oligonucleotide that perfectly matches the extracted base sequence (perfectly matched oligonucleotide) as a probe, but also an oligonucleotide that does not completely match the extracted base sequence (mismatched oligonucleotide). ) May be added as a comparative probe.
“Expression intensity” is numerical data proportional to the amount of mRNA contained in a sample obtained from a biological tissue, and is measured by the sample hybridizing to a corresponding probe.
“Tiling array data” is data relating to the expression intensity of all probes in the tiling array.
The “significant expression region” means that “the expression intensity of a probe corresponding to a region of a certain base length (for example, 750 base length) in the genome base sequence was measured by chance due to noise”. This is the region where no hypothesis is rejected at a significant level based on statistical tests. The significant expression region is assumed to be a part of the gene region.

以下で、本発明を実現するための装置である遺伝子構造予測装置100の構成について、図1などを参照して説明する。図1は、遺伝子構造予測装置100の構成を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。   Below, the structure of the gene structure prediction apparatus 100 which is an apparatus for implement | achieving this invention is demonstrated with reference to FIG. FIG. 1 is a block diagram showing a configuration of the gene structure prediction apparatus 100, and conceptually shows only a portion related to the present invention in the configuration.

図1に示すように、遺伝子構造予測装置100は、遺伝子構造予測装置100を統括的に制御するCPU等の制御部102と、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して遺伝子構造予測装置100をネットワーク300に通信可能に接続する通信インターフェース部104と、各種のデータベースやテーブルやファイルなどを格納する記憶部106と、入力装置112や出力装置114に接続する入出力インターフェース部108と、で構成されており、これら各部は任意の通信路を介して通信可能に接続されている。また、ネットワーク300は、遺伝子構造予測装置100と外部システム200とを相互に通信可能に接続する機能を有し、例えばインターネットやLAN等である。また、外部システム200は、ネットワーク300を介して遺伝子構造予測装置100と相互に通信可能に接続され、ゲノム塩基配列データやタイリングアレイデータや各種パラメータなどに関する外部データベースや、外部プログラム等を提供する機能など、を有する。外部システム200の各機能は外部システム200のハードウェア構成中のCPUやディスク装置やメモリ装置や入力装置や出力装置や通信制御装置等およびそれらを制御するプログラム等で実現される。なお、外部システム200はWEBサーバやASPサーバ等として構成してもよく、そのハードウェアは一般に市販されるワークステーションやパーソナルコンピュータ等の情報処理装置およびその付属装置で構成してもよい。   As shown in FIG. 1, the gene structure prediction apparatus 100 includes a control unit 102 such as a CPU that comprehensively controls the gene structure prediction apparatus 100, a communication device such as a router, and a wired or wireless communication line such as a dedicated line. A communication interface unit 104 that connects the gene structure prediction apparatus 100 to the network 300 via a network, a storage unit 106 that stores various databases, tables, files, and the like, and an input / output unit that connects to the input device 112 and the output device 114 The interface unit 108 is configured to be communicable via an arbitrary communication path. The network 300 has a function of connecting the gene structure prediction apparatus 100 and the external system 200 so that they can communicate with each other, and is, for example, the Internet or a LAN. Further, the external system 200 is connected to the gene structure prediction apparatus 100 via the network 300 so as to be able to communicate with each other, and provides an external database, genome programs, and the like regarding genome base sequence data, tiling array data, various parameters, and the like. Functions, etc. Each function of the external system 200 is realized by a CPU, a disk device, a memory device, an input device, an output device, a communication control device, and the like in the hardware configuration of the external system 200 and a program for controlling them. The external system 200 may be configured as a WEB server, an ASP server, or the like, and the hardware may be configured by an information processing apparatus such as a commercially available workstation or personal computer, and an accessory device thereof.

記憶部106は、ストレージ手段であり、具体的には、RAMやROM等のメモリ装置、ハードディスクのような固定ディスク装置、フレキシブルディスク、光ディスク等を用いることができる。記憶部106は、図示の如く、ゲノム塩基配列データファイル106aとタイリングアレイデータファイル106bと発現領域データファイル106cと遺伝子構造データファイル106dと発現値データファイル106eを格納する。ゲノム塩基配列データファイル106aはゲノム塩基配列データを格納する。具体的には、図2に示すように、ゲノム塩基配列における各塩基の位置を一意に識別するための塩基番号と、塩基番号に対応する塩基を表す塩基記号(A、T、G、C)と、を相互に関連付けて格納する。再び図1に戻り、タイリングアレイデータファイル106bはタイリングアレイデータを格納する。具体的には、図3に示すように、タイリングアレイに配置したプローブを一意に識別するためのプローブ番号と、プローブ番号に対応するプローブの発現強度と、プローブ番号に対応するプローブの範囲(ゲノム塩基配列における開始塩基番号と終了塩基番号との組)と、を相互に関連付けて格納する。再び図1に戻り、発現領域データファイル106cは、後述する発現領域推定部102bで推定した発現領域に関するデータを格納する。遺伝子構造ファイル106dは、後述する遺伝子構造予測部102cで予測した遺伝子の領域や構造に関するデータを格納する。発現値データファイル106eは、後述する発現値算出部102dで算出した発現値に関するデータを格納する。   The storage unit 106 is a storage unit. Specifically, a memory device such as a RAM or a ROM, a fixed disk device such as a hard disk, a flexible disk, an optical disk, or the like can be used. The storage unit 106 stores a genomic base sequence data file 106a, a tiling array data file 106b, an expression region data file 106c, a gene structure data file 106d, and an expression value data file 106e as shown in the figure. The genomic base sequence data file 106a stores genomic base sequence data. Specifically, as shown in FIG. 2, a base number for uniquely identifying the position of each base in the genome base sequence and a base symbol (A, T, G, C) representing the base corresponding to the base number Are stored in association with each other. Returning again to FIG. 1, the tiling array data file 106b stores tiling array data. Specifically, as shown in FIG. 3, the probe number for uniquely identifying the probe arranged in the tiling array, the expression intensity of the probe corresponding to the probe number, and the probe range corresponding to the probe number ( A set of a start base number and an end base number in the genome base sequence) are stored in association with each other. Returning to FIG. 1 again, the expression region data file 106c stores data related to the expression region estimated by the expression region estimation unit 102b described later. The gene structure file 106d stores data related to the region and structure of a gene predicted by a gene structure prediction unit 102c described later. The expression value data file 106e stores data relating to expression values calculated by an expression value calculation unit 102d described later.

通信インターフェース部104は遺伝子構造予測装置100とネットワーク300(またはルータ等の通信装置)との間における通信を媒介する。すなわち、通信インターフェース部104は他の端末と通信回線を介してデータを通信する機能を有する。   The communication interface unit 104 mediates communication between the gene structure prediction device 100 and the network 300 (or a communication device such as a router). That is, the communication interface unit 104 has a function of communicating data with other terminals via a communication line.

入出力インターフェース部108は入力装置112や出力装置114に接続する。ここで、出力装置114には、モニタ(家庭用テレビを含む)の他、スピーカやプリンタを用いることができる(なお、以下で、出力装置114をモニタとして記載する場合がある。)。また、入力装置112には、キーボードやマウスやマイクの他、マウスと協働してポインティングデバイス機能を実現するモニタを用いることができる。   The input / output interface unit 108 is connected to the input device 112 and the output device 114. Here, in addition to a monitor (including a home television), a speaker or a printer can be used as the output device 114 (the output device 114 may be described as a monitor below). In addition to the keyboard, mouse, and microphone, the input device 112 can be a monitor that realizes a pointing device function in cooperation with the mouse.

制御部102は、OS(Operating System)等の制御プログラムや各種の処理手順等を規定したプログラムや所要データを格納するための内部メモリを有し、これらのプログラムに基づいて種々の処理を実行する。そして、制御部102は、大別して、データ取得部102aと発現領域推定部102bと遺伝子構造予測部102cと発現値算出部102dと予測対象領域決定部102eとを備えている。   The control unit 102 has an internal memory for storing a control program such as an OS (Operating System), a program that defines various processing procedures, and necessary data, and executes various processes based on these programs. . The control unit 102 roughly includes a data acquisition unit 102a, an expression region estimation unit 102b, a gene structure prediction unit 102c, an expression value calculation unit 102d, and a prediction target region determination unit 102e.

データ取得部102aは、ゲノム塩基配列から規則的に抜き出された部分塩基配列をプローブとして配置したタイリングアレイを用いて、当該タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータおよびゲノム塩基配列に関するゲノム塩基配列データを取得する。   The data acquisition unit 102a uses a tiling array in which partial base sequences regularly extracted from the genomic base sequence are arranged as probes, and tiling array data relating to the expression intensity of each probe measured by the tiling array. And genome base sequence data related to the genome base sequence is acquired.

発現領域推定部102bは、データ取得部102aで取得したタイリングアレイデータに基づいて、ゲノム塩基配列の中から遺伝子の発現領域を推定する。具体的には、図4に示すように、発現領域推定部102bは、発現領域候補決定部102b1と発現領域候補判定部102b2と発現領域決定部102b3とをさらに備えている。発現領域候補決定部102b1は、タイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定する。具体的には、図5に示すように、発現領域候補決定部102b1は、中央値算出部102b11と領域移動部102b12と発現領域候補選出部102b13とをさらに備えている。中央値算出部102b11は、ゲノム塩基配列における所定の長さの領域を対象として、当該領域に含まれるプローブの発現強度の中央値を算出する。領域移動部102b12は、中央値算出部102b11で中央値の算出対象とした領域をゲノム塩基配列に沿って移動する。発現領域候補選出部102b13は、中央値算出部102b11および領域移動部102b12で行われる処理を繰り返し実行することで蓄積した複数の中央値の中から最大のものを選択し、選択した最大の中央値の算出対象であった領域を発現領域候補として選出する。再び図4に戻り、発現領域候補判定部102b2は、発現領域候補決定部102b1で決定した発現領域候補が統計的に有意であるか否かを判定する。発現領域決定部102b3は、発現領域候補判定部102b2で有意であると判定した場合、発現領域候補を発現領域として決定する。   The expression region estimation unit 102b estimates the gene expression region from the genome base sequence based on the tiling array data acquired by the data acquisition unit 102a. Specifically, as shown in FIG. 4, the expression region estimation unit 102b further includes an expression region candidate determination unit 102b1, an expression region candidate determination unit 102b2, and an expression region determination unit 102b3. The expression region candidate determination unit 102b1 determines expression region candidates that are gene expression region candidates based on the tiling array data. Specifically, as shown in FIG. 5, the expression region candidate determination unit 102b1 further includes a median value calculation unit 102b11, a region movement unit 102b12, and an expression region candidate selection unit 102b13. The median value calculation unit 102b11 calculates a median value of the expression intensities of probes included in a region having a predetermined length in the genome base sequence. The region moving unit 102b12 moves the region for which the median value is calculated by the median value calculating unit 102b11 along the genome base sequence. The expression region candidate selection unit 102b13 selects the maximum one from the plurality of median values accumulated by repeatedly executing the processing performed by the median value calculation unit 102b11 and the region movement unit 102b12, and selects the selected maximum median value. The region that was the calculation target is selected as an expression region candidate. Returning to FIG. 4 again, the expression region candidate determination unit 102b2 determines whether or not the expression region candidate determined by the expression region candidate determination unit 102b1 is statistically significant. When the expression region candidate determination unit 102b2 determines that the expression region candidate determination unit 102b3 is significant, the expression region determination unit 102b3 determines the expression region candidate as the expression region.

再び図1に戻り、遺伝子構造予測部102cは、発現領域推定ステップで推定した発現領域に対応する塩基を起点として、当該起点の両隣に連なる塩基ごとに、タイリングアレイデータおよびゲノム塩基配列データに基づいて遺伝子の構造に関する属性(エクソン・イントロン・その他)を決定することで、遺伝子の構造を予測する。具体的には、図6に示すように、遺伝子構造予測部102cは、発現領域塩基確率決定部102c1と隣接塩基確率決定部102c2と尤度決定部102c3と属性確定部102c4とをさらに備えている。発現領域塩基確率決定部102c1は、発現領域推定部102bで推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定する。隣接塩基確率決定部102c2は、発現領域確率決定部102c1で対象とした発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定する。尤度決定部102c3は、隣接塩基確率決定部102c2をゲノム塩基配列の末端の塩基まで繰り返して実行した後、各塩基の属性に関する尤度を最尤法を用いて決定する。属性確定部102c4は、発現領域塩基確率決定部102c1で決定した確率、隣接塩基確率決定部102c2で決定した状態遷移確率および尤度決定部102c3で決定した尤度に基づいて各塩基の属性の組み合わせを確定する。   Returning to FIG. 1 again, the gene structure prediction unit 102c uses the base corresponding to the expression region estimated in the expression region estimation step as a starting point, and adds tiling array data and genomic base sequence data for each base adjacent to the starting point. The gene structure is predicted by determining attributes (exons, introns, etc.) related to the structure of the gene. Specifically, as shown in FIG. 6, the gene structure prediction unit 102c further includes an expression region base probability determination unit 102c1, an adjacent base probability determination unit 102c2, a likelihood determination unit 102c3, and an attribute determination unit 102c4. . The expression region base probability determining unit 102c1 determines, using a Markov model, the probability related to the attribute of the expression region base for the expression region base that is the base corresponding to the expression region estimated by the expression region estimation unit 102b. The adjacent base probability determining unit 102c2 determines the state transition probability related to the attribute of the adjacent base using the Markov model for the adjacent base adjacent to the expression region base targeted by the expression region probability determining unit 102c1. The likelihood determining unit 102c3 repeatedly executes the adjacent base probability determining unit 102c2 up to the terminal base of the genome base sequence, and then determines the likelihood related to the attribute of each base using the maximum likelihood method. The attribute determination unit 102c4 combines the attribute of each base based on the probability determined by the expression region base probability determination unit 102c1, the state transition probability determined by the adjacent base probability determination unit 102c2, and the likelihood determined by the likelihood determination unit 102c3. Confirm.

再び図1に戻り、発現値算出部102dは、遺伝子構造予測部102cで予測した遺伝子の構造に含まれるエクソン領域に対応するプローブの発現強度に基づいて、当該遺伝子の発現値を算出する。   Returning to FIG. 1 again, the expression value calculation unit 102d calculates the expression value of the gene based on the expression intensity of the probe corresponding to the exon region included in the gene structure predicted by the gene structure prediction unit 102c.

予測対象領域決定部102eは、遺伝子構造予測ステップで構造が予測された遺伝子の領域を除いたゲノム塩基配列である未予測領域を予測対象領域として決定する。具体的には、図7に示すように、予測対象領域決定部102eは、未予測領域抽出部102e1と塩基長判定部102e2と予測対象領域確定部102e3とをさらに備えている。ここで、未予測領域抽出部102e1は、未予測領域をゲノム塩基配列から抽出する。塩基長判定部102e2は、未予測領域抽出部102e1で抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長以下であるか否かを判定する。予測対象領域確定部102e3は、塩基長判定部102e2で所定の塩基長以下でないと判定した場合、未予測領域抽出部102e1で抽出した未予測領域を予測対象領域として確定する。   The prediction target region determination unit 102e determines, as a prediction target region, an unpredicted region that is a genomic base sequence excluding the region of the gene whose structure is predicted in the gene structure prediction step. Specifically, as illustrated in FIG. 7, the prediction target region determination unit 102e further includes an unpredicted region extraction unit 102e1, a base length determination unit 102e2, and a prediction target region determination unit 102e3. Here, the unpredicted region extraction unit 102e1 extracts the unpredicted region from the genome base sequence. The base length determination unit 102e2 calculates the base length of the unpredicted region extracted by the unpredicted region extraction unit 102e1, and determines whether the calculated base length is equal to or less than a predetermined base length. When the base length determination unit 102e2 determines that the prediction target region determination unit 102e3 is not less than or equal to the predetermined base length, the prediction target region determination unit 102e3 determines the unpredicted region extracted by the unpredicted region extraction unit 102e1 as the prediction target region.

以上の構成において、遺伝子構造予測装置100の制御部102で行われるメイン処理を図8から図11などを参照して説明する。図8はメイン処理の一例を示すフローチャートである。   In the above configuration, main processing performed by the control unit 102 of the gene structure prediction apparatus 100 will be described with reference to FIGS. FIG. 8 is a flowchart showing an example of the main process.

まず、データ取得部102aで、タイリングアレイデータおよびゲノム塩基配列データを取得し、取得したゲノム塩基配列データを塩基配列データファイル106aに格納し、取得したタイリングアレイデータをタイリングアレイデータファイル106bに格納する(ステップSA−1)。   First, the data acquisition unit 102a acquires tiling array data and genome base sequence data, stores the acquired genome base sequence data in the base sequence data file 106a, and stores the acquired tiling array data in the tiling array data file 106b. (Step SA-1).

つぎに、発現領域推定部102bで、ステップSA−1で取得したタイリングアレイデータに基づいて、ゲノム塩基配列の中から遺伝子の発現領域を推定する(ステップSA−2:発現領域推定処理)。具体的には、発現領域推定部102bで、ステップSA−1で取得したタイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定し、決定した発現領域候補が統計的に有意であるか否かを判定し、有意であると判定した場合、発現領域候補を発現領域として決定する。   Next, the expression region estimation unit 102b estimates the gene expression region from the genome base sequence based on the tiling array data acquired in step SA-1 (step SA-2: expression region estimation process). Specifically, the expression region estimation unit 102b determines expression region candidates that are gene expression region candidates based on the tiling array data acquired in step SA-1, and the determined expression region candidates are statistically determined. It is determined whether or not it is significant, and when it is determined that it is significant, an expression region candidate is determined as an expression region.

ここで、発現領域推定部102bで行われる発現領域推定処理を図9を参照して説明する。図9は発現領域推定処理の一例を示すフローチャートである。
まず、発現領域候補決定部102b1で、タイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定する(ステップSB−1)。具体的には、以下の手順(1)〜(3)に従って発現領域候補を決定する。
(1)中央値算出部102b11で、ゲノム塩基配列における所定の長さの領域(ウインドウ:例えば750塩基長)を対象として、当該領域に含まれるプローブの発現強度の中央値を算出する。
(2)領域移動部102b12で、中央値算出部102b11で中央値の算出対象とした領域をゲノム塩基配列に沿って移動する。
(3)発現領域候補選出部102b13で、中央値算出部102b11および領域移動部102b12を繰り返し実行することで蓄積した複数の中央値の中から最大のものを選択し、選択した最大の中央値の算出対象であった領域を発現領域候補として選出する。
つまり、以上の手順により、数式1に示すプライマリーポイントkを求める。

Figure 0004805586
数式1において、vi(上付き線あり)は塩基番号iの位置において設定されたウインドウに含まれるプローブの発現強度viの中央値である。また、kは、プライマリーポイント(primary point)と呼ばれるものであり、1以上N(ゲノム塩基配列の長さ)以下の整数値である。なお、maxvi(上付き線あり)は推定の発現値(putative expression value)と呼ばれるものである。 Here, the expression region estimation process performed by the expression region estimation unit 102b will be described with reference to FIG. FIG. 9 is a flowchart showing an example of the expression region estimation process.
First, the expression region candidate determination unit 102b1 determines expression region candidates that are gene expression region candidates based on the tiling array data (step SB-1). Specifically, expression region candidates are determined according to the following procedures (1) to (3).
(1) The median value calculation unit 102b11 calculates a median value of expression intensities of probes included in a region having a predetermined length (window: for example, 750 base length) in the genome base sequence.
(2) The region moving unit 102b12 moves the region for which the median value is calculated by the median value calculating unit 102b11 along the genome base sequence.
(3) In the expression region candidate selection unit 102b13, the median calculation unit 102b11 and the region movement unit 102b12 are repeatedly executed to select the maximum one from the accumulated median values, and the maximum median value selected The region that was the calculation target is selected as an expression region candidate.
That is, the primary point k shown in Formula 1 is obtained by the above procedure.
Figure 0004805586
In Equation 1, v i (with superscript line) is the median value of the expression intensity v i of the probe included in the window set at the position of the base number i. Further, k is called a primary point and is an integer value of 1 or more and N (length of genome base sequence). Note that maxv i (with a superscript line) is called an estimated expression value (putty expression value).

ついで、発現領域候補判定部102b2で、発現領域候補決定部102b1で決定した発現領域候補が統計的に有意であるか否かを判定する(ステップSB−2)。具体的には、以下の手順(1)〜(3)に従って判定する。
(1)ステップSB−1で決定したプライマリーポイントkに対応するウインドウに含まれるプローブの発現強度が偶然に観測されたものであるという帰無仮説を設定する。
(2)当該ウインドウに含まれるプローブの総数Mkおよび発現強度が予め設定した閾値θより大きいプローブの数mkに関する確率を算出する。ここで、当該確率は下記の数式2に示す2項分布に従う。

Figure 0004805586
数式2において、Mkはプライマリーポイントkに対応するウインドウに含まれるプローブの総数(例えば30)である。また、mkは、プライマリーポイントkに対応するウインドウに含まれるプローブのうち、発現強度が予め設定した閾値θより大きいプローブの数である。また、πθは、プローブの発現強度が閾値θより大きい確率であり、下記の数式3で定義される。
Figure 0004805586
数式3において、δiは下記の数式4で定義される値である。また、λiは、1塩基あたりのプローブ数であり、下記の数式5で定義される。また、If[condition]は、括弧内が真であれば1を、括弧内が偽であれば0を返す関数である。また、Nはゲノム塩基配列の長さである。
Figure 0004805586
数式4において、viは塩基番号iの塩基に対応するプローブの発現強度である。θは予め定めた閾値である。なお、θの初期値には、全プローブの発現強度の中央値を設定してもよい。
Figure 0004805586
数式5において、niは塩基番号iの塩基に対応するプローブの数である。また、lはプローブの長さ(塩基数)である。
(3)数式2で算出した確率が期待値(Mk×πθ)より有意に大きい場合には、下記の数式6に示す有意水準で帰無仮説を棄却する。つまり、ステップSB−1で決定した発現領域候補が統計的に有意であると判定する。これにより、プライマリーポイントkに対応するウインドウに含まれるプローブの発現強度が偶然に観測されたものでないことが、統計的検定により示された。
Figure 0004805586
数式6において、Miは塩基番号iに対応するウインドウに含まれるプローブの総数である。また、miは、塩基番号iに対応するウインドウに含まれるプローブのうち、発現強度が予め設定した閾値θより大きいプローブの数である。また、πθは、プローブの発現強度が閾値θより大きい確率であり、数式3で定義される。 Next, the expression region candidate determination unit 102b2 determines whether or not the expression region candidate determined by the expression region candidate determination unit 102b1 is statistically significant (step SB-2). Specifically, the determination is made according to the following procedures (1) to (3).
(1) A null hypothesis is set that the expression intensity of the probe included in the window corresponding to the primary point k determined in step SB-1 is observed by chance.
(2) The probability relating to the total number M k of probes included in the window and the number m k of probes whose expression intensity is greater than a preset threshold θ is calculated. Here, the probability follows a binomial distribution shown in Equation 2 below.
Figure 0004805586
In Equation 2, M k is the total number (for example, 30) of probes included in the window corresponding to the primary point k. M k is the number of probes whose expression intensity is greater than a preset threshold θ among probes included in the window corresponding to the primary point k. Further, πθ is a probability that the expression intensity of the probe is larger than the threshold value θ, and is defined by Equation 3 below.
Figure 0004805586
In Equation 3, δ i is a value defined by Equation 4 below. Also, λ i is the number of probes per base and is defined by Equation 5 below. If [condition] is a function that returns 1 if the parentheses are true and returns 0 if the parentheses are false. N is the length of the genome base sequence.
Figure 0004805586
In Equation 4, v i is the expression intensity of the probe corresponding to the base with the base number i. θ is a predetermined threshold value. The median value of the expression intensity of all probes may be set as the initial value of θ.
Figure 0004805586
In Equation 5, n i is the number of probes corresponding to the base with the base number i. L is the length (number of bases) of the probe.
(3) If the probability calculated by Equation 2 is significantly greater than the expected value (M k × πθ), the null hypothesis is rejected at the significance level shown in Equation 6 below. That is, it is determined that the expression region candidate determined in step SB-1 is statistically significant. Thereby, it was shown by the statistical test that the expression intensity of the probe included in the window corresponding to the primary point k was not accidentally observed.
Figure 0004805586
In Equation 6, M i is the total number of probes included in the window corresponding to the base number i. M i is the number of probes whose expression intensity is greater than a preset threshold θ among probes included in the window corresponding to the base number i. Further, πθ is a probability that the expression intensity of the probe is larger than the threshold θ, and is defined by Equation 3.

ついで、発現領域決定部102b3で、ステップSB−2で有意であると判定した場合、ステップSB−1で決定した発現領域候補を発現領域として決定する(ステップSB−3)。   Next, when the expression region determination unit 102b3 determines that the expression region is significant in Step SB-2, the expression region candidate determined in Step SB-1 is determined as an expression region (Step SB-3).

なお、遺伝子構造予測部102cの処理では、プライマリーポイントkに対応するエクソン領域が実際に発現するという仮定のもとに、プライマリーポイントkを起点として、遺伝子の構造(具体的にはエクソン領域およびイントロン領域)を予測する。
以上、発現領域推定処理の説明を終了する。
In the process of the gene structure prediction unit 102c, the gene structure (specifically, the exon region and the intron) is determined based on the assumption that the exon region corresponding to the primary point k is actually expressed. Region).
This is the end of the description of the expression region estimation process.

再び図8に戻り、遺伝子構造予測部102cで、ステップSA−2で推定した発現領域に対応する塩基を起点として、当該起点の両隣に連なる塩基ごとに、タイリングアレイデータおよびゲノム塩基配列データに基づいて遺伝子の構造に関する属性(エクソン・イントロン・その他)を決定することで、遺伝子の構造を予測する(ステップSA−3:遺伝子構造予測処理)。具体的には、遺伝子構造予測部102cで、(1)ステップSA−2で推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定し、(2)当該発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定し、(3)(2)の処理をゲノム塩基配列の末端の塩基まで繰り返して実行した後、各塩基の属性に関する尤度を最尤法を用いて決定し、(4)決定した確率、状態遷移確率および尤度に基づいて各塩基の属性の組み合わせを確定する。より具体的には、遺伝子構造予測部102cで、下記の数式7に示すスコア関数をダイナミックプログラミング(ニュートン法やパウエル法などでもよい)で計算することにより、スコア関数の値を最大にする属性sと閾値θとの組み合わせを決定することで、遺伝子の構造を予測する。ここで、属性sは、図13における「state number」に対応するものである。

Figure 0004805586
数式7において、Z(s,θ)は、下記の数式8で定義されるオッズである。また、ZT(s)は、エクソン領域を尤もらしい長さに保つための式であり、下記の数式15で定義される。また、ZU(s)は、イントロン領域を尤もらしい長さに保つための式であり、下記の数式18で定義される。
Figure 0004805586
数式8において、P(x,s,δ|θ)は、遺伝子である確率であり、下記の数式9で定義される、なお、P(x,s,δ|θ)は、式の変形を行うことで最終的に下記の数式10で表すことができる。また、P(x,s(上付き線あり),δ|θ)は、遺伝子でない確率であり、式の変形を同様に行うことで最終的に下記の数式11で表すことができる。
Figure 0004805586
Figure 0004805586
Figure 0004805586
Returning to FIG. 8 again, the base structure corresponding to the expression region estimated in step SA-2 is used as a starting point in the gene structure prediction unit 102c, and the tiling array data and the genomic base sequence data are obtained for each base that is adjacent to the starting point. Based on the attribute (exon, intron, etc.) related to the structure of the gene, the structure of the gene is predicted (step SA-3: gene structure prediction process). Specifically, in the gene structure prediction unit 102c, (1) using the Markov model for the expression region base that is the base corresponding to the expression region estimated in step SA-2, the probability relating to the attribute of the expression region base is used. (2) For the adjacent bases adjacent to the expression region base, the state transition probability relating to the attribute of the adjacent base is determined using a Markov model, and the processing of (3) (2) is performed as a genomic base sequence After repeatedly executing up to the base of the base, the likelihood regarding the attribute of each base is determined using the maximum likelihood method, and (4) the combination of the attributes of each base based on the determined probability, state transition probability and likelihood Confirm. More specifically, the gene structure prediction unit 102c calculates the score function shown in Equation 7 below by dynamic programming (or may be Newton's method or Powell's method), thereby maximizing the value of the score function. And the threshold θ are determined to predict the gene structure. Here, the attribute s corresponds to “state number” in FIG.
Figure 0004805586
In Equation 7, Z (s, θ) is an odds defined by Equation 8 below. Z T (s) is an expression for keeping the exon region at a reasonable length, and is defined by Expression 15 below. Z U (s) is an expression for maintaining the intron region to have a reasonable length, and is defined by Expression 18 below.
Figure 0004805586
In Equation 8, P (x, s, δ | θ) is a probability of being a gene, and is defined by Equation 9 below, where P (x, s, δ | θ) By doing so, it can be finally expressed by the following formula 10. Further, P (x, s (with superscript line), δ | θ) is a probability that it is not a gene, and can be finally expressed by the following formula 11 by similarly modifying the formula.
Figure 0004805586
Figure 0004805586
Figure 0004805586

ここで、遺伝子構造予測部102cで行われる遺伝子構造予測処理を図10を参照して説明する。図10は遺伝子構造予測処理の一例を示すフローチャートである。
まず、発現領域塩基確率決定部102c1で、ステップSA−2で推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定する(ステップSC−1)。具体的には、プライマリーポイントkを対象として、数式10および数式11に含まれる確率P(xk,sk)およびP(xk,sk(上付き線あり))について、属性skを変えながら、「P(xk,sk)÷P(xk,sk(上付き線あり))」の最大値を決定する。
Here, the gene structure prediction process performed by the gene structure prediction unit 102c will be described with reference to FIG. FIG. 10 is a flowchart showing an example of gene structure prediction processing.
First, the expression region base probability determination unit 102c1 determines, using a Markov model, the probability related to the attribute of the expression region base for the expression region base that is the base corresponding to the expression region estimated in step SA-2. Step SC-1). Specifically, for the primary point k, the attribute s k is set for the probabilities P (x k , s k ) and P (x k , s k (with superscript lines)) included in the equations 10 and 11. While changing, the maximum value of “P (x k , s k ) ÷ P (x k , s k (with superscript line))” is determined.

ついで、隣接塩基確率決定部102c2で、ステップSC−1で対象とした発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定する(ステップSC−2:図12参照)。具体的には、数式10および数式11に含まれる状態遷移確率P(xk+1,sk+1|xk,sk)およびP(xk+1,sk+1(上付き線あり)|xk,sk(上付き線あり))について、属性sk+1を変えながら、「P(xk+1,sk+1|xk,sk)÷P(xk+1,sk+1(上付き線あり)|xk,sk(上付き線あり))」の最大値を決定する。また、同様に、数式10および数式11に含まれる状態遷移確率P(xk-1,sk-1|xk,sk)およびP(xk-1,sk-1(上付き線あり)|xk,sk(上付き線あり))について、属性sk-1を変えながら、「P(xk-1,sk-1|xk,sk)÷P(xk-1,sk-1(上付き線あり)|xk,sk(上付き線あり))」の最大値を決定する。ここで、図12において、3'endと5'endが状態遷移の終点である。 Next, the adjacent base probability determination unit 102c2 determines the state transition probability related to the attribute of the adjacent base using the Markov model for the adjacent base adjacent to the expression region base targeted in step SC-1 (step SC). -2: See FIG. Specifically, the state transition probabilities P (x k + 1 , s k + 1 | x k , s k ) and P (x k + 1 , s k + 1) (superscript lines included in Equations 10 and 11) Yes) | x k , s k (with superscript line)), while changing the attribute s k + 1 , “P (x k + 1 , s k + 1 | x k , s k ) ÷ P (x k +1 , s k + 1 (with superscript line) | x k , s k (with superscript line)) ”is determined. Similarly, the state transition probabilities P (x k−1 , s k−1 | x k , s k ) and P (x k−1 , s k−1 (superscript lines) included in the equations 10 and 11 are used. Yes) | x k , s k (with superscript line)), while changing the attribute s k-1 , “P (x k−1 , s k-1 | x k , s k ) ÷ P (x k −1 , s k-1 (with superscript line) | x k , s k (with superscript line)) ”is determined. Here, in FIG. 12, 3 ′ end and 5 ′ end are the end points of the state transition.

そして、ステップSC−2の処理をゲノム塩基配列の末端の塩基まで繰り返して実行する。これにより、数式10および数式11に含まれる状態遷移確率P(xi,si|xi+1,si+1)の積および状態遷移確率P(xi,si(上付き線あり)|xi+1,si+1(上付き線あり))の積について、「P(xi,si|xi+1,si+1)の積÷P(xi,si(上付き線あり)|xi+1,si+1(上付き線あり))の積」の最大値を決定する。また、同様に、数式10および数式11に含まれる状態遷移確率P(xi,si|xi-1,si-1)の積および状態遷移確率P(xi,si(上付き線あり)|xi-1,si-1(上付き線あり))の積について、「P(xi,si|xi-1,si-1)の積÷P(xi,si(上付き線あり)|xi-1,si-1(上付き線あり))の積」の最大値を決定する。なお、図12において、起点から終点への領域の伸長は、例えば、終点の状態(塩基番号0および塩基番号25の状態)が長さL(例えば800塩基長)の連続した塩基配列にわたって各位置で最大のスコアを保つ場合に停止する。 Then, the process of step SC-2 is repeated until the terminal base of the genome base sequence. As a result, the product of the state transition probabilities P (x i , s i | x i + 1 , s i + 1 ) included in the equations 10 and 11 and the state transition probabilities P (x i , s i (with superscript lines) ) | X i + 1 , s i + 1 (with superscript line)), the product of “P (x i , s i | x i + 1 , s i + 1 ) ÷ P (x i , s i ” (with superscript line) | x i + 1 , s i + 1 (with superscript line))” is determined. Similarly, the state transition probability P (x i, s i | x i-1, s i-1) included in Equation 10 and Equation 11 the product and the state transition probability P (x i, s i (superscript With the line) | x i-1 , s i-1 (with superscript line)), the product of “P (x i , s i | x i-1 , s i-1 ) ÷ P (x i , S i (with superscript line) | x i−1 , s i-1 (with superscript line) ”is determined. In FIG. 12, the extension of the region from the start point to the end point is, for example, at each position over a continuous base sequence in which the end point state (the state of base number 0 and base number 25) is length L (for example, 800 base length). Stop if you keep the maximum score at.

ついで、尤度決定部102c3で、各塩基の属性に関する尤度を最尤法を用いて決定する(ステップSC−3)。具体的には、数式10および数式11に含まれる尤度P(δi|si,θ)の積および尤度P(δi|si(上付き線あり),θ)の積について、「P(δi|si,θ)の積÷P(δi|si(上付き線あり),θ)の積」の値を決定する。例えば、図12において、塩基番号0から塩基番号25までの領域を対象として、P(δi|si,θ)の値を更新する。ここで、P(δi|si,θ)およびP(δi|si(上付き線あり),θ)は、それぞれ下記の数式12および数式14で定義される。

Figure 0004805586
ここで、各遺伝子は、異なる発現レベルをもつので、閾値θおよびP(δi|si,θ)は、各転写単位(TU:Translational Unit)内で局所的に決めるべきである。従って、数式12において、a、b、c、およびdは、それぞれ下記の数式13で定義される。
Figure 0004805586
数式13において、a、b、c、およびdは、5'末端および3'末端間の領域内において決められる。
Figure 0004805586
Next, the likelihood determining unit 102c3 determines the likelihood related to the attribute of each base using the maximum likelihood method (step SC-3). Specifically, regarding the product of likelihood P (δ i | s i , θ) and the product of likelihood P (δ i | s i (with superscript), θ) included in Equation 10 and Equation 11, The value of “product of P (δ i | s i , θ) ÷ product of P (δ i | s i (with superscript), θ)” is determined. For example, in FIG. 12, the value of P (δ i | s i , θ) is updated for the region from base number 0 to base number 25. Here, P (δ i | s i , θ) and P (δ i | s i (with superscript line), θ) are defined by the following equations 12 and 14, respectively.
Figure 0004805586
Here, since each gene has a different expression level, the threshold values θ and P (δ i | s i , θ) should be determined locally within each transcription unit (TU). Therefore, in Expression 12, a, b, c, and d are respectively defined by Expression 13 below.
Figure 0004805586
In Equation 13, a, b, c, and d are determined in the region between the 5 ′ end and the 3 ′ end.
Figure 0004805586

以上の処理により、予め設定した閾値θにおいて、数式7に含まれるZ(s,θ)の最大値を決定した。   With the above processing, the maximum value of Z (s, θ) included in Equation 7 is determined at the preset threshold θ.

そして、下記の数式15に示すエクソン領域を尤もらしい長さに保つための式ZT(s)の値および下記の数式18に示すイントロン領域を尤もらしい長さに保つための式ZU(s)の値を決定することで、最終的に、予め設定した閾値θにおける数式7のスコア関数の値(最大値)を決定し、決定したスコア関数の最大値、当該閾値θおよび当該最大値が得られたときの属性s(s1,・・・sk,・・・sN)を相互に関連付けて、遺伝子構造データファイル106dの所定の領域に格納する。

Figure 0004805586
数式15において、NTはエクソン数である。また、lT,jはエクソン長である。また、PT(l)はエクソン長lに関する確率分布であり、下記の数式16で定義される。また、ETはPT(l)の期待値であり、下記の数式17で定義される。
Figure 0004805586
数式16において、μTはエクソン長の平均値である。σTはエクソン長の標準偏差である。なお、μTおよびσTはトレーニングセットで観測された実測値である。
Figure 0004805586
Figure 0004805586
数式18において、NUはイントロン数である。また、lU,jはイントロン長である。また、PU(l)はイントロン長lに関する確率分布であり、下記の数式19で定義される。また、EUはPU(l)の期待値であり、下記の数式20で定義される。
Figure 0004805586
数式19において、μUはイントロン長の平均値である。σUはイントロン長の標準偏差である。なお、μUおよびσUはトレーニングセットで観測された実測値である。
Figure 0004805586
Then, the value of the expression Z T (s) for keeping the exon region shown in Equation 15 below to have a reasonable length and the equation Z U (s) for keeping the intron region shown in Equation 18 below in a reasonable length. ) Is finally determined, the value (maximum value) of the score function of Equation 7 at the preset threshold θ is determined, and the maximum value of the determined score function, the threshold θ and the maximum value are determined. The obtained attributes s (s 1 ,... S k ,... S N ) are associated with each other and stored in a predetermined area of the gene structure data file 106d.
Figure 0004805586
In Equation 15, N T is the number of exons. L T, j is the length of the exon. P T (l) is a probability distribution with respect to the exon length l and is defined by Equation 16 below. E T is an expected value of P T (l) and is defined by the following Equation 17.
Figure 0004805586
In Equation 16, μ T is an average value of exon lengths. σ T is the standard deviation of the exon length. Μ T and σ T are actually measured values observed in the training set.
Figure 0004805586
Figure 0004805586
In Equation 18, N U is the number of introns. L U, j is the intron length. P U (l) is a probability distribution with respect to the intron length l and is defined by Equation 19 below. E U is an expected value of P U (l), and is defined by the following Equation 20.
Figure 0004805586
In Equation 19, μ U is the average value of the intron length. σ U is the standard deviation of the intron length. Μ U and σ U are actually measured values observed in the training set.
Figure 0004805586

ついで、閾値θを他の値に設定し直して、以上の処理を同様に行う。   Next, the threshold θ is reset to another value, and the above processing is performed in the same manner.

ついで、属性確定部102c14で、ステップSC−3で決定した確率、状態遷移確率および尤度に基づいて各塩基の属性の組み合わせを確定する(ステップSC−4)。具体的には、遺伝子構造データファイル106dに蓄積された各閾値θにおけるスコア関数の最大値の中から最大のものを決定し、決定した最大値に対応する属性sを最適なものとして確定する。これにより、スコア関数の値を最大にするような閾値θと属性sとの組み合わせが確定され、遺伝子の構造が予測された。
以上、遺伝子構造予測処理の説明を終了する。
Next, the attribute determination unit 102c14 determines the attribute combination of each base based on the probability, state transition probability, and likelihood determined in step SC-3 (step SC-4). Specifically, the maximum value of the score function at each threshold value θ accumulated in the gene structure data file 106d is determined, and the attribute s corresponding to the determined maximum value is determined as the optimum value. As a result, the combination of the threshold value θ and the attribute s that maximizes the score function value was determined, and the gene structure was predicted.
This is the end of the description of the gene structure prediction process.

再び図8に戻り、予測対象領域決定部102eで、ステップSA−3で構造が予測された遺伝子の領域を除いたゲノム塩基配列である未予測領域を予測対象領域として決定する(ステップSA−4:予測対象領域決定処理)。具体的には、予測対象領域決定部102eで、未予測領域をゲノム塩基配列から抽出し、抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長以下であるか否かを判定し、所定の塩基長以下でないと判定した場合、抽出した未予測領域を予測対象領域として確定する。   Returning to FIG. 8 again, the prediction target region determination unit 102e determines an unpredicted region, which is a genomic base sequence excluding the region of the gene whose structure is predicted in step SA-3, as a prediction target region (step SA-4). : Prediction target area determination processing). Specifically, the prediction target region determination unit 102e extracts an unpredicted region from the genome base sequence, calculates the base length of the extracted unpredicted region, and whether the calculated base length is equal to or less than a predetermined base length. If it is determined that the length is not less than the predetermined base length, the extracted unpredicted region is determined as the prediction target region.

ここで、予測対象領域決定部102eで行われる予測対象領域決定処理を、図11を参照して説明する。図11は、予測対象領域決定処理の一例を示すフローチャートである。
まず、未予測領域抽出部102e1で、未予測領域をゲノム塩基配列から抽出する(ステップSD−1)。
ついで、塩基長判定部102e2で、ステップSD−1で抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長(例えば1000塩基長)以下であるか否かを判定する(ステップSD−2)。
ついで、予測対象領域確定部102e3で、ステップSD−2で所定の塩基長以下でないと判定した場合(ステップSD−3:Yes)、ステップSD−1で抽出した未予測領域を予測対象領域として確定する(ステップSD−4)。なお、ステップSD−2で所定の塩基長以下であると判定した場合(ステップSD−3:No)には、所定の塩基長の領域内に入る遺伝子構造はあり得ないと判断して、抽出した未予測領域を構造が予測された領域として扱い、再度ステップSD−1に戻る。
以上、予測対象領域決定処理の説明を終了する。
Here, the prediction target region determination process performed by the prediction target region determination unit 102e will be described with reference to FIG. FIG. 11 is a flowchart illustrating an example of the prediction target area determination process.
First, the unpredicted region extraction unit 102e1 extracts the unpredicted region from the genome base sequence (step SD-1).
Next, the base length determination unit 102e2 calculates the base length of the unpredicted region extracted in step SD-1, and determines whether the calculated base length is a predetermined base length (for example, 1000 base lengths) or less. (Step SD-2).
Next, when the prediction target region determination unit 102e3 determines that the length is not less than the predetermined base length in Step SD-2 (Step SD-3: Yes), the unpredicted region extracted in Step SD-1 is determined as the prediction target region. (Step SD-4). When it is determined in step SD-2 that the length is equal to or shorter than the predetermined base length (step SD-3: No), it is determined that there cannot be a gene structure that falls within the region of the predetermined base length, and extracted. The unpredicted area is treated as an area whose structure is predicted, and the process returns to step SD-1.
This is the end of the description of the prediction target region determination process.

再び図8に戻り、ステップSA−4で予測対象領域が決定された場合(ステップSA−5:No)には、再びステップSA−2に戻り、ステップSA−4で予測対象領域が決定されなかった場合(ステップSA−5:Yes)には、メイン処理を終了する。   Returning to FIG. 8 again, when the prediction target area is determined in step SA-4 (step SA-5: No), the process returns to step SA-2 again, and the prediction target area is not determined in step SA-4. If this is the case (step SA-5: Yes), the main process is terminated.

ここで、発現値算出部102dで、ステップSA−3で予測した遺伝子の構造に含まれるエクソン領域に対応するプローブの発現強度に基づいて、当該遺伝子の発現値を算出し、算出した発現値に関するデータを発現値データファイル106eの所定の記憶領域に格納してもよい。   Here, the expression value calculation unit 102d calculates the expression value of the gene based on the expression intensity of the probe corresponding to the exon region included in the structure of the gene predicted in step SA-3, and relates to the calculated expression value. The data may be stored in a predetermined storage area of the expression value data file 106e.

これにて、メイン処理の説明を終了する。   This completes the description of the main process.

以上説明したように、遺伝子構造予測装置100は、タイリングアレイデータに基づいてゲノム塩基配列から遺伝子の構造を予測する。具体的には、遺伝子構造予測装置100は、タイリングアレイデータおよびゲノム塩基配列データを取得し、取得したタイリングアレイデータに基づいて、ゲノム塩基配列の中から遺伝子の発現領域を推定し、推定した発現領域に対応する塩基を起点として、当該起点の両隣に連なる塩基ごとに、タイリングアレイデータおよびゲノム塩基配列データに基づいて遺伝子の構造に関する属性を決定することで、遺伝子の構造を予測するので、タイリングアレイデータに基づいてゲノム塩基配列から未知の遺伝子の領域や構造を精度よく予測することができる。また、ノンコーディングRNAに対しても本発明を適用することができる。ここで、図14に示すように、予測された遺伝子構造におけるエクソンとイントロンは、cDNA情報に基づく真のエクソン・イントロンと相関が高かった。そして、相関係数は、閾値を超えるか否かでエクソンかイントロンかを判定することにより遺伝子構造を予測する従来の方法における相関係数よりも高かった。さらに、図15に示すように、予測された遺伝子構造(図15におけるMA−3−2に表示した遺伝子構造(オレンジ色はエクソン領域を表し、薄いオレンジ色はイントロン領域を表す。))は、真の遺伝子構造(図15におけるMA−3−1に表示した遺伝子構造(青色はエクソン領域を表し、薄い青色はイントロン領域を表す。))と概ね対応していた。   As described above, the gene structure prediction apparatus 100 predicts a gene structure from a genome base sequence based on tiling array data. Specifically, the gene structure prediction apparatus 100 acquires tiling array data and genomic base sequence data, estimates a gene expression region from the genomic base sequence based on the acquired tiling array data, and estimates The structure of the gene is predicted by determining the attributes related to the structure of the gene based on the tiling array data and the genomic base sequence data for each base that is adjacent to the base corresponding to the expressed region. Therefore, the region and structure of an unknown gene can be accurately predicted from the genome base sequence based on the tiling array data. The present invention can also be applied to non-coding RNA. Here, as shown in FIG. 14, the exons and introns in the predicted gene structure were highly correlated with the true exons and introns based on the cDNA information. And the correlation coefficient was higher than the correlation coefficient in the conventional method which predicts a gene structure by determining whether it is an exon or an intron depending on whether a threshold value is exceeded. Furthermore, as shown in FIG. 15, the predicted gene structure (the gene structure indicated by MA-3-2 in FIG. 15 (orange represents an exon region and light orange represents an intron region)). It substantially corresponded to the true gene structure (the gene structure shown in MA-3-1 in FIG. 15 (blue represents an exon region and light blue represents an intron region)).

ここで、予測した遺伝子構造と真の遺伝子構造とを比較可能に表示した表示画面である図15について簡単に説明する。図15において、MA−1は、対象としたゲノムのイラストや、予測した遺伝子領域(MA−1における8848876bp〜8865453bp:16557bp)などを表示する表示領域である。MA−2は、後述する表示領域MA−3に表示される遺伝子構造を拡大・縮小するための操作ボタンである。MA−3は、遺伝子構造をゲノム塩基配列に沿って表示するための表示領域である。特に、MA−3−1は、比較対象とする真の遺伝子構造を表示する領域であり、MA−3−2は、予測した遺伝子構造を塩基配列に沿って表示する領域である。なお、MA−3−1において、真の遺伝子構造に含まれるエクソン領域は青色で表し、イントロン領域は薄い青色で表している。また、MA−3−2において、表示した遺伝子構造に含まれるエクソン領域はオレンジ色で表し、イントロン領域は薄いオレンジ色で表している。また、MA−3−2において、塩基配列に沿って、各塩基に対応するプローブの発現強度が、中央値以下の場合には緑色で、中央値を超える場合には赤色で表示されている。MA−3−3は、表示するデータを切り替えるために使用する操作ボタンである。   Here, FIG. 15, which is a display screen displaying the predicted gene structure and the true gene structure so as to be comparable, will be briefly described. In FIG. 15, MA-1 is a display area that displays an illustration of the target genome, a predicted gene region (8884876 bp to 8865453 bp: 16557 bp in MA-1), and the like. MA-2 is an operation button for enlarging / reducing a gene structure displayed in a display area MA-3 described later. MA-3 is a display area for displaying the gene structure along the genome base sequence. In particular, MA-3-1 is a region that displays the true gene structure to be compared, and MA-3-2 is a region that displays the predicted gene structure along the base sequence. In MA-3-1, the exon region included in the true gene structure is represented in blue, and the intron region is represented in light blue. In MA-3-2, exon regions included in the displayed gene structure are shown in orange, and intron regions are shown in light orange. Further, in MA-3-2, along the base sequence, the expression intensity of the probe corresponding to each base is displayed in green when it is equal to or lower than the median, and is displayed in red when it exceeds the median. MA-3-3 is an operation button used for switching data to be displayed.

また、遺伝子構造予測装置100において、発現領域推定部102bは、タイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定し、決定した発現領域候補が統計的に有意であるか否かを判定し、有意であると判定した場合、発現領域候補を発現領域として決定するので、既存の統計手法を用いて発現領域を容易且つ正確に推定することができる。   In the gene structure prediction apparatus 100, the expression region estimation unit 102b determines expression region candidates that are gene expression region candidates based on the tiling array data, and the determined expression region candidates are statistically significant. If the expression region candidate is determined to be significant, the expression region candidate is determined as the expression region. Therefore, the expression region can be estimated easily and accurately using an existing statistical method.

また、遺伝子構造予測装置100において、発現領域候補決定部102b1は、ゲノム塩基配列における所定の長さの領域を対象として、当該領域に含まれるプローブの発現強度の中央値を算出し、中央値の算出対象とした領域をゲノム塩基配列に沿って移動し、これらの処理を繰り返し実行することで蓄積した複数の中央値の中から最大のものを選択し、選択した最大の中央値の算出対象であった領域を発現領域候補として選出するので、タイリングアレイで測定された各プローブの発現強度のばらつきを考慮して適切な発現領域候補を選出することができる。   Further, in the gene structure prediction apparatus 100, the expression region candidate determination unit 102b1 calculates the median of the expression intensity of the probes included in the region for a region of a predetermined length in the genome base sequence, By moving the region to be calculated along the genome base sequence and repeatedly executing these processes, the largest one is selected from the accumulated medians, and the selected median of the maximum median is selected. Since the selected region is selected as an expression region candidate, an appropriate expression region candidate can be selected in consideration of variations in expression intensity of each probe measured by the tiling array.

また、遺伝子構造予測装置100において、遺伝子構造予測部102cは、推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定し、対象とした発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定し、状態遷移確率の決定をゲノム塩基配列の末端の塩基まで繰り返して実行した後、各塩基の属性に関する尤度を最尤法を用いて決定し、決定した確率、状態遷移確率および尤度に基づいて各塩基の属性の組み合わせを確定するので、遺伝子の領域や構造をさらに精度よく予測することができる。   Further, in the gene structure prediction apparatus 100, the gene structure prediction unit 102c determines, using a Markov model, a probability relating to an attribute of the expression region base for an expression region base that is a base corresponding to the estimated expression region, For neighboring bases adjacent to the target expression region base, the state transition probability related to the attribute of the neighboring base is determined using a Markov model, and the state transition probability is repeatedly determined up to the end base of the genome base sequence. After that, the likelihood regarding the attribute of each base is determined using the maximum likelihood method, and the combination of the attributes of each base is determined based on the determined probability, state transition probability, and likelihood. Further, it can be predicted with high accuracy.

また、遺伝子構造予測装置100は、予測した遺伝子の構造に含まれるエクソン領域に対応するプローブの発現強度に基づいて、当該遺伝子の発現値を算出するので、未知の遺伝子の発現量を得ることができる。   Moreover, since the gene structure prediction apparatus 100 calculates the expression value of the gene based on the expression intensity of the probe corresponding to the exon region included in the predicted gene structure, the expression level of the unknown gene can be obtained. it can.

また、遺伝子構造予測装置100は、構造が予測された遺伝子の領域を除いたゲノム塩基配列である未予測領域を予測対象領域として決定し、決定した予測対象領域に対して、上述した発現領域推定処理および遺伝子構造予測処理を再び実行するので、ゲノム塩基配列から複数の遺伝子の領域や構造を効率よく予測することができる。   Further, the gene structure prediction apparatus 100 determines an unpredicted region, which is a genomic base sequence excluding a region of a gene whose structure is predicted, as a prediction target region, and the above-described expression region estimation for the determined prediction target region Since the process and the gene structure prediction process are executed again, the regions and structures of a plurality of genes can be efficiently predicted from the genome base sequence.

また、遺伝子構造予測装置100において、予測対象領域決定部102eは、未予測領域をゲノム塩基配列から抽出し、抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長以下であるか否かを判定し、所定の塩基長以下でないと判定した場合、抽出した未予測領域を予測対象領域として確定するので、遺伝子の構造が入り得ない短い領域を除くことができ、その結果、構造予測に相応しい予測対象領域を確定することができる。   In the gene structure prediction apparatus 100, the prediction target region determination unit 102e extracts an unpredicted region from the genome base sequence, calculates the base length of the extracted unpredicted region, and the calculated base length is equal to or less than a predetermined base length. When it is determined whether or not it is not less than a predetermined base length, the extracted unpredicted region is determined as a prediction target region, so that a short region where the gene structure cannot enter can be excluded, As a result, a prediction target area suitable for the structure prediction can be determined.

最後に、上記の数式9を数式10に変形する手順について説明する。なお、数式9において、Pkは下記の数式21で定義され、PkNは下記の数式22で定義され、P1kは下記の数式23で定義される。

Figure 0004805586
Figure 0004805586
Figure 0004805586
Finally, a procedure for transforming the above-described Expression 9 into Expression 10 will be described. In Equation 9, P k is defined by Equation 21 below, P kN is defined by Equation 22 below, and P 1k is defined by Equation 23 below.
Figure 0004805586
Figure 0004805586
Figure 0004805586

まず、数式21、数式22および数式23は、事後確率の法則により、それぞれ下記の数式24、数式25および数式26に変形することができる。

Figure 0004805586
Figure 0004805586
Figure 0004805586
First, Equation 21, Equation 22, and Equation 23 can be transformed into Equation 24, Equation 25, and Equation 26, respectively, according to the law of posterior probability.
Figure 0004805586
Figure 0004805586
Figure 0004805586

ついで、δiはsiおよびθに依存しxiの影響を受けないと仮定するのが自然であるので、数式24、数式25および数式26において、P(δk|xk,sk,θ)は下記の数式27に変形することができる。

Figure 0004805586
Next, since it is natural to assume that δ i depends on s i and θ and is not affected by x i , in equations 24, 25 and 26, P (δ k | x k , s k , θ) can be transformed into Equation 27 below.
Figure 0004805586

また、数式24のxiおよびsiの確率は、隣接するxi-1およびsi-1に依存するというマルコフモデルの基本仮説を用いて、数式24のP(xk,sk|θ)は下記の数式28に変形することができる。

Figure 0004805586
Further, using the Markov model basic hypothesis that the probabilities of x i and s i in Equation 24 depend on adjacent x i-1 and s i-1 , P (x k , s k | θ in Equation 24 ) Can be transformed into Equation 28 below.
Figure 0004805586

同様に、数式25および数式26において、P(xi,si|xi-1,si-1,δi-1,θ)およびP(xi,si|xi+1,si+1,δi+1,θ)は、それぞれ下記の数式29および数式30に変形することができる。

Figure 0004805586
Figure 0004805586
Similarly, in Equations 25 and 26, P (x i , s i | x i−1 , s i−1 , δ i−1 , θ) and P (x i , s i | x i + 1 , s i + 1 , δ i + 1 , θ) can be transformed into the following equations 29 and 30, respectively.
Figure 0004805586
Figure 0004805586

そして、数式21で定義したPkは最終的に下記の数式31に変形することができる。

Figure 0004805586
Then, P k defined by Equation 21 can be finally transformed into Equation 31 below.
Figure 0004805586

同様に、数式22で定義したPkNは最終的に下記の数式32に変形することができ、数式23で定義したP1kは最終的に下記の数式33変形することができる。

Figure 0004805586
Figure 0004805586
Similarly, P kN defined by Expression 22 can be finally transformed into the following Expression 32, and P 1k defined by Expression 23 can be finally transformed into the following Expression 33.
Figure 0004805586
Figure 0004805586

以上の手順で数式9を変形することにより数式10を導くことができる。   Equation 10 can be derived by modifying Equation 9 in the above procedure.

以上のように、本発明にかかる遺伝子構造予測方法および遺伝子構造予測プログラムは、タイリングアレイデータに基づいてゲノム塩基配列から未知の遺伝子の領域や構造を精度よく予測することができ、医療や創薬などの分野において極めて有用である。   As described above, the gene structure prediction method and gene structure prediction program according to the present invention can accurately predict the region and structure of an unknown gene from a genomic base sequence based on tiling array data. It is extremely useful in fields such as medicine.

遺伝子構造予測装置100の構成を示すブロック図である。1 is a block diagram showing a configuration of a gene structure prediction apparatus 100. FIG. 塩基配列データファイル106aに格納される情報の一例を示す図である。It is a figure which shows an example of the information stored in the base sequence data file 106a. タイリングアレイデータファイル106bに格納される情報の一例を示す図である。It is a figure which shows an example of the information stored in the tiling array data file 106b. 発現領域推定部102bの構成を示すブロック図である。It is a block diagram which shows the structure of the expression area estimation part 102b. 発現領域候補決定部102b1の構成を示すブロック図である。It is a block diagram which shows the structure of the expression area candidate determination part 102b1. 遺伝子構造予測部102cの構成を示すブロック図である。It is a block diagram which shows the structure of the gene structure estimation part 102c. 予測対象領域決定部102eの構成を示すブロック図である。It is a block diagram which shows the structure of the prediction object area | region determination part 102e. メイン処理の一例を示すフローチャートである。It is a flowchart which shows an example of a main process. 発現領域推定処理の一例を示すフローチャートである。It is a flowchart which shows an example of an expression area estimation process. 遺伝子構造予測処理の一例を示すフローチャートである。It is a flowchart which shows an example of a gene structure prediction process. 予測対象領域決定処理の一例を示すフローチャートである。It is a flowchart which shows an example of a prediction object area | region determination process. 配列データに関するマルコフモデルの一例を示す図である。It is a figure which shows an example of the Markov model regarding arrangement | sequence data. 属性sの定義を示す図である。It is a figure which shows the definition of the attribute s. 予測精度の評価結果の一例を示す図である。It is a figure which shows an example of the evaluation result of prediction accuracy. 予測した遺伝子構造の一例を示す図である。It is a figure which shows an example of the estimated gene structure.

符号の説明Explanation of symbols

100 遺伝子構造予測装置
102 制御部
102a データ取得部
102b 発現領域推定部
102b1 発現領域候補決定部
102b11 中央値算出部
102b12 領域移動部
102b13 発現領域候補選出部
102b2 発現領域候補判定部
102b3 発現領域決定部
102c 遺伝子構造予測部
102c1 発現領域塩基確率決定部
102c2 隣接塩基確率決定部
102c3 尤度決定部
102c4 属性確定部
102d 発現値算出部
102e 予測対象領域決定部
102e1 未予測領域抽出部
102e2 塩基長判定部
102e3 予測対象領域確定部
104 通信インターフェース部
106 記憶部
106a ゲノム塩基配列データファイル
106b タイリングアレイデータファイル
106c 発現領域データファイル
106d 遺伝子構造データファイル
106e 発現値データファイル
108 入出力インターフェース部
112 入力装置
114 出力装置
200 外部システム
300 ネットワーク
100 Gene structure prediction device
102 Control unit
102a Data acquisition unit
102b Expression region estimation unit
102b1 expression region candidate determination unit
102b11 median value calculator
102b12 area moving part
102b13 Expression region candidate selection section
102b2 Expression region candidate determination unit
102b3 expression region determining unit
102c Gene structure prediction unit
102c1 expression region base probability determination unit
102c2 Adjacent base probability determination unit
102c3 likelihood determination unit
102c4 attribute determination part
102d Expression value calculation unit
102e Prediction area determination unit
102e1 unpredicted region extraction unit
102e2 base length determination unit
102e3 prediction target region determination unit
104 Communication interface
106 Storage unit
106a Genome sequence data file
106b Tiling array data file
106c Expression region data file
106d gene structure data file
106e Expression value data file
108 Input / output interface
112 Input device
114 Output device 200 External system 300 Network

Claims (10)

ゲノム塩基配列から規則的に抜き出された部分塩基配列をプローブとして配置したタイリングアレイを用いて、当該タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータおよびゲノム塩基配列に関するゲノム塩基配列データを取得するデータ取得ステップと、
前記データ取得ステップで取得したタイリングアレイデータに基づいて、ゲノム塩基配列の中から遺伝子の発現領域を推定する発現領域推定ステップと、
前記発現領域推定ステップで推定した発現領域に対応する塩基を起点として、当該起点の両隣に連なる塩基ごとに、前記タイリングアレイデータおよび前記ゲノム塩基配列データに基づいて遺伝子の構造に関する属性を決定することで、遺伝子の構造を予測する遺伝子構造予測ステップと、
を含み、
前記発現領域推定ステップは、
前記タイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定する発現領域候補決定ステップと、
前記発現領域候補決定ステップで決定した発現領域候補が統計的に有意であるか否かを判定する発現領域候補判定ステップと、
前記発現領域候補判定ステップで有意であると判定した場合、発現領域候補を前記発現領域として決定する発現領域決定ステップと、
をさらに含み、
前記発現領域候補決定ステップは、
ゲノム塩基配列における所定の長さの領域を対象として、当該領域に含まれるプローブの発現強度の中央値を算出する中央値算出ステップと、
前記中央値算出ステップで中央値の算出対象とした領域をゲノム塩基配列に沿って移動する領域移動ステップと、
前記中央値算出ステップおよび前記領域移動ステップを繰り返し実行することで蓄積した複数の中央値の中から最大のものを選択し、選択した最大の中央値の算出対象であった領域を前記発現領域候補として選出する発現領域候補選出ステップと、
をさらに含むことを特徴とする遺伝子構造予測方法。
Using a tiling array in which partial base sequences regularly extracted from genomic base sequences are arranged as probes, tiling array data relating to the expression intensity of each probe measured with the tiling array and genome relating to the genomic base sequence A data acquisition step for acquiring base sequence data;
Based on the tiling array data acquired in the data acquisition step, an expression region estimation step for estimating a gene expression region from the genomic base sequence;
Starting from the base corresponding to the expression region estimated in the expression region estimation step, the attribute relating to the structure of the gene is determined for each base that is adjacent to the origin on the basis of the tiling array data and the genomic base sequence data. A gene structure prediction step for predicting the structure of the gene,
Only including,
The expression region estimation step includes:
An expression region candidate determination step for determining an expression region candidate which is a candidate for a gene expression region based on the tiling array data;
Expression region candidate determination step for determining whether the expression region candidate determined in the expression region candidate determination step is statistically significant,
When it is determined to be significant in the expression region candidate determination step, an expression region determination step for determining an expression region candidate as the expression region;
Further including
The expression region candidate determination step includes
For a region of a predetermined length in the genomic base sequence, a median calculation step for calculating the median of the expression intensity of the probes contained in the region;
A region moving step of moving the region that is the median calculation target in the median calculation step along the genome base sequence;
The median calculation step and the region movement step are repeatedly executed to select the largest one among the plurality of median values accumulated, and the region that was the target of calculation of the selected maximum median value is selected as the expression region candidate An expression region candidate selection step selected as:
Gene structure prediction method comprising the further contains Mukoto.
前記遺伝子構造予測ステップは、
前記発現領域推定ステップで推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定する発現領域塩基確率決定ステップと、
前記発現領域確率決定ステップで対象とした発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定する隣接塩基確率決定ステップと、
前記隣接塩基確率決定ステップをゲノム塩基配列の末端の塩基まで繰り返して実行した後、各塩基の属性に関する尤度を最尤法を用いて決定する尤度決定ステップと、
前記確率、前記状態遷移確率および前記尤度に基づいて各塩基の属性の組み合わせを確定する属性確定ステップと、
をさらに含むことを特徴とする請求項に記載の遺伝子構造予測方法。
The gene structure prediction step includes:
For the expression region base that is the base corresponding to the expression region estimated in the expression region estimation step, the expression region base probability determination step for determining the probability regarding the attribute of the expression region base using a Markov model,
For adjacent bases adjacent to the expression region base targeted in the expression region probability determination step, adjacent base probability determination step for determining a state transition probability related to the attribute of the adjacent base using a Markov model,
A likelihood determination step of determining the likelihood related to the attribute of each base using a maximum likelihood method after repeatedly executing the adjacent base probability determination step up to the terminal base of the genomic base sequence,
An attribute determination step for determining a combination of attributes of each base based on the probability, the state transition probability and the likelihood;
The gene structure prediction method according to claim 1 , further comprising:
前記遺伝子構造予測ステップで予測した遺伝子の構造に含まれるエクソン領域に対応するプローブの発現強度に基づいて、当該遺伝子の発現値を算出する発現値算出ステップ、
をさらに含むことを特徴とする請求項1または2に記載の遺伝子構造予測方法。
Based on the expression intensity of the probe corresponding to the exon region included in the gene structure predicted in the gene structure prediction step, an expression value calculation step for calculating the expression value of the gene,
Gene structure prediction method according to claim 1 or 2, further comprising a.
前記遺伝子構造予測ステップで構造が予測された遺伝子の領域を除いたゲノム塩基配列である未予測領域を予測対象領域として決定する予測対象領域決定ステップ、
をさらに含み、
前記予測対象領域決定ステップで決定した予測対象領域に対して、前記発現領域推定ステップおよび前記遺伝子構造予測ステップを再び実行すること、
を特徴とする請求項からのいずれか1つに記載の遺伝子構造予測方法。
A prediction target region determination step for determining an unpredicted region that is a genomic base sequence excluding a region of the gene whose structure is predicted in the gene structure prediction step, as a prediction target region;
Further including
Re-execution of the expression region estimation step and the gene structure prediction step on the prediction target region determined in the prediction target region determination step;
The gene structure prediction method according to any one of claims 1 to 3 , wherein:
前記予測対象領域決定ステップは、
前記未予測領域をゲノム塩基配列から抽出する未予測領域抽出ステップと、
前記未予測領域抽出ステップで抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長以下であるか否かを判定する塩基長判定ステップと、
前記塩基長判定ステップで所定の塩基長以下でないと判定した場合、前記未予測領域抽出ステップで抽出した未予測領域を前記予測対象領域として確定する予測対象領域確定ステップと、
をさらに含むことを特徴とする請求項に記載の遺伝子構造予測方法。
The prediction target region determination step includes
An unpredicted region extraction step of extracting the unpredicted region from the genome base sequence;
Calculating the base length of the unpredicted region extracted in the unpredicted region extraction step, and determining whether the calculated base length is equal to or less than a predetermined base length; and
When it is determined that the base length determination step is not less than or equal to a predetermined base length, a prediction target region determination step for determining the unpredicted region extracted in the unpredicted region extraction step as the prediction target region;
The gene structure prediction method according to claim 4 , further comprising:
ゲノム塩基配列から規則的に抜き出された部分塩基配列をプローブとして配置したタイリングアレイを用いて、当該タイリングアレイで測定された各プローブの発現強度に関するタイリングアレイデータおよびゲノム塩基配列に関するゲノム塩基配列データを取得するデータ取得ステップと、
前記データ取得ステップで取得したタイリングアレイデータに基づいて、ゲノム塩基配列の中から遺伝子の発現領域を推定する発現領域推定ステップと、
前記発現領域推定ステップで推定した発現領域に対応する塩基を起点として、当該起点の両隣に連なる塩基ごとに、前記タイリングアレイデータおよび前記ゲノム塩基配列データに基づいて遺伝子の構造に関する属性を決定することで、遺伝子の構造を予測する遺伝子構造予測ステップと、
を含み、
前記発現領域推定ステップは、
前記タイリングアレイデータに基づいて遺伝子の発現領域の候補である発現領域候補を決定する発現領域候補決定ステップと、
前記発現領域候補決定ステップで決定した発現領域候補が統計的に有意であるか否かを判定する発現領域候補判定ステップと、
前記発現領域候補判定ステップで有意であると判定した場合、発現領域候補を前記発現領域として決定する発現領域決定ステップと、
をさらに含み、
前記発現領域候補決定ステップは、
ゲノム塩基配列における所定の長さの領域を対象として、当該領域に含まれるプローブの発現強度の中央値を算出する中央値算出ステップと、
前記中央値算出ステップで中央値の算出対象とした領域をゲノム塩基配列に沿って移動する領域移動ステップと、
前記中央値算出ステップおよび前記領域移動ステップを繰り返し実行することで蓄積した複数の中央値の中から最大のものを選択し、選択した最大の中央値の算出対象であった領域を前記発現領域候補として選出する発現領域候補選出ステップと、
をさらに含む遺伝子構造予測方法をコンピュータに実行させることを特徴とする遺伝子構造予測プログラム。
Using a tiling array in which partial base sequences regularly extracted from genomic base sequences are arranged as probes, tiling array data relating to the expression intensity of each probe measured with the tiling array and genome relating to the genomic base sequence A data acquisition step for acquiring base sequence data;
Based on the tiling array data acquired in the data acquisition step, an expression region estimation step for estimating a gene expression region from the genomic base sequence;
Starting from the base corresponding to the expression region estimated in the expression region estimation step, the attribute related to the structure of the gene is determined for each base that is adjacent to the origin based on the tiling array data and the genome base sequence data. A gene structure prediction step for predicting the structure of the gene,
Only including,
The expression region estimation step includes:
An expression region candidate determination step for determining an expression region candidate which is a candidate for a gene expression region based on the tiling array data;
Expression region candidate determination step for determining whether the expression region candidate determined in the expression region candidate determination step is statistically significant,
When it is determined to be significant in the expression region candidate determination step, an expression region determination step for determining an expression region candidate as the expression region;
Further including
The expression region candidate determination step includes
For a region of a predetermined length in the genomic base sequence, a median calculation step for calculating the median of the expression intensity of the probes contained in the region;
A region moving step of moving the region that is the median calculation target in the median calculation step along the genome base sequence;
The median calculation step and the region movement step are repeatedly executed to select the largest one among the plurality of median values accumulated, and the region that was the target of calculation of the selected maximum median value is selected as the expression region candidate An expression region candidate selection step selected as:
Further gene structure prediction program characterized by executing the including gene structure prediction methodologies to computers.
前記遺伝子構造予測ステップは、
前記発現領域推定ステップで推定した発現領域に対応する塩基である発現領域塩基を対象として、当該発現領域塩基の属性に関する確率をマルコフモデルを用いて決定する発現領域塩基確率決定ステップと、
前記発現領域確率決定ステップで対象とした発現領域塩基に隣接する隣接塩基を対象として、当該隣接塩基の属性に関する状態遷移確率をマルコフモデルを用いて決定する隣接塩基確率決定ステップと、
前記隣接塩基確率決定ステップをゲノム塩基配列の末端の塩基まで繰り返して実行した後、各塩基の属性に関する尤度を最尤法を用いて決定する尤度決定ステップと、
前記確率、前記状態遷移確率および前記尤度に基づいて各塩基の属性の組み合わせを確定する属性確定ステップと、
をさらに含むことを特徴とする請求項に記載の遺伝子構造予測プログラム。
The gene structure prediction step includes:
For the expression region base that is the base corresponding to the expression region estimated in the expression region estimation step, the expression region base probability determination step for determining the probability regarding the attribute of the expression region base using a Markov model,
For adjacent bases adjacent to the expression region base targeted in the expression region probability determination step, adjacent base probability determination step for determining a state transition probability related to the attribute of the adjacent base using a Markov model,
A likelihood determination step of determining the likelihood related to the attribute of each base using a maximum likelihood method after repeatedly executing the adjacent base probability determination step up to the terminal base of the genomic base sequence,
An attribute determination step for determining a combination of attributes of each base based on the probability, the state transition probability and the likelihood;
The gene structure prediction program according to claim 6 , further comprising:
前記遺伝子構造予測ステップで予測した遺伝子の構造に含まれるエクソン領域に対応するプローブの発現強度に基づいて、当該遺伝子の発現値を算出する発現値算出ステップ、
をさらに含むことを特徴とする請求項6または7に記載の遺伝子構造予測プログラム。
Based on the expression intensity of the probe corresponding to the exon region included in the gene structure predicted in the gene structure prediction step, an expression value calculation step for calculating the expression value of the gene,
The gene structure prediction program according to claim 6 or 7 , further comprising:
前記遺伝子構造予測ステップで構造が予測された遺伝子の領域を除いたゲノム塩基配列である未予測領域を予測対象領域として決定する予測対象領域決定ステップ、
をさらに含み、
前記予測対象領域決定ステップで決定した予測対象領域に対して、前記発現領域推定ステップおよび前記遺伝子構造予測ステップを再び実行すること、
を特徴とする請求項からのいずれか1つに記載の遺伝子構造予測プログラム。
A prediction target region determination step for determining an unpredicted region that is a genomic base sequence excluding a region of the gene whose structure is predicted in the gene structure prediction step, as a prediction target region;
Further including
Re-execution of the expression region estimation step and the gene structure prediction step on the prediction target region determined in the prediction target region determination step;
The gene structure prediction program according to any one of claims 6 to 8 , wherein:
前記予測対象領域決定ステップは、
前記未予測領域をゲノム塩基配列から抽出する未予測領域抽出ステップと、
前記未予測領域抽出ステップで抽出した未予測領域の塩基長を算出し、算出した塩基長が所定の塩基長以下であるか否かを判定する塩基長判定ステップと、
前記塩基長判定ステップで所定の塩基長以下でないと判定した場合、前記未予測領域抽出ステップで抽出した未予測領域を前記予測対象領域として確定する予測対象領域確定ステップと、
をさらに含むことを特徴とする請求項に記載の遺伝子構造予測プログラム。
The prediction target region determination step includes
An unpredicted region extraction step of extracting the unpredicted region from the genome base sequence;
Calculating the base length of the unpredicted region extracted in the unpredicted region extraction step, and determining whether the calculated base length is equal to or less than a predetermined base length; and
When it is determined that the base length determination step is not less than or equal to a predetermined base length, a prediction target region determination step for determining the unpredicted region extracted in the unpredicted region extraction step as the prediction target region;
The gene structure prediction program according to claim 9 , further comprising:
JP2005046149A 2005-02-22 2005-02-22 Gene structure prediction method and gene structure prediction program Expired - Fee Related JP4805586B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005046149A JP4805586B2 (en) 2005-02-22 2005-02-22 Gene structure prediction method and gene structure prediction program
PCT/JP2006/303526 WO2006090868A1 (en) 2005-02-22 2006-02-21 Gene structure predicting method and gene structure predicting program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005046149A JP4805586B2 (en) 2005-02-22 2005-02-22 Gene structure prediction method and gene structure prediction program

Publications (2)

Publication Number Publication Date
JP2006235750A JP2006235750A (en) 2006-09-07
JP4805586B2 true JP4805586B2 (en) 2011-11-02

Family

ID=36927499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005046149A Expired - Fee Related JP4805586B2 (en) 2005-02-22 2005-02-22 Gene structure prediction method and gene structure prediction program

Country Status (2)

Country Link
JP (1) JP4805586B2 (en)
WO (1) WO2006090868A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146538A (en) * 2006-12-13 2008-06-26 Intec Web & Genome Informatics Corp Microrna detector, detection method and program
JP5952480B2 (en) * 2015-09-29 2016-07-13 日本ソフトウェアマネジメント株式会社 Nucleic acid information processing apparatus and processing method thereof
CN105760711A (en) * 2016-02-02 2016-07-13 江南大学 Method for using KNN calculation and similarity comparison to predict protein subcellular section

Also Published As

Publication number Publication date
WO2006090868A1 (en) 2006-08-31
JP2006235750A (en) 2006-09-07

Similar Documents

Publication Publication Date Title
Kan et al. Selecting for functional alternative splices in ESTs
EP2430441B1 (en) Method and system for calling variations in a sample polynucleotide sequence with respect to a reference polynucleotide sequence
CN109642250B (en) Method for multi-resolution analysis of cell-free nucleic acids
Zhang et al. Bayesian models for detecting epistatic interactions from genetic data
KR20180054834A (en) Molecular quality assurance method for use in sequencing
JP4805586B2 (en) Gene structure prediction method and gene structure prediction program
US8140269B2 (en) Methods, computer-accessible medium, and systems for generating a genome wide haplotype sequence
Torkamaneh et al. Accurate imputation of untyped variants from deep sequencing data
CN115762628A (en) Detection method and detection device for gene progressive infiltration among biological populations
EP1630709B1 (en) Mathematical analysis for the estimation of changes in the level of gene expression
WO2019071219A1 (en) Site-specific noise model for targeted sequencing
JP5247009B2 (en) Sequence extraction device, sequence extraction method, program, and recording medium
JP5065694B2 (en) Method and system for evaluating genotyping results
US20200105374A1 (en) Mixture model for targeted sequencing
WO2005022412A1 (en) A system for analyzing bio chips using gene ontology and a method thereof
Mishra Comparing gnomes
US20220284986A1 (en) Systems and methods for identifying exon junctions from single reads
Oloomi The impact of multi-mappings in short read mapping
Jonker et al. Absence/presence calling in microarray-based CGH experiments with non-model organisms
Samanta et al. In-depth query of large genomes using tiling arrays
EP1832992A1 (en) Genome analysis method
Hartmann Strategies for handling errors in genomic data
Frey et al. Finding novel transcripts in high-resolution genome-wide microarray data using the GenRate model
US9798854B2 (en) Method, computer-accessible medium, and systems for generating a genome wide haplotype sequence
KR20070066582A (en) Determination of the absolute configuration of genomic feature and the coding regions with conserved polar asymmetry in genome

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110811

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140819

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees