JP2006072861A - Transcription factor analysis program and transcription factor analysis method - Google Patents
Transcription factor analysis program and transcription factor analysis method Download PDFInfo
- Publication number
- JP2006072861A JP2006072861A JP2004257713A JP2004257713A JP2006072861A JP 2006072861 A JP2006072861 A JP 2006072861A JP 2004257713 A JP2004257713 A JP 2004257713A JP 2004257713 A JP2004257713 A JP 2004257713A JP 2006072861 A JP2006072861 A JP 2006072861A
- Authority
- JP
- Japan
- Prior art keywords
- transcription factor
- mutual information
- information
- transcription
- binding probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 108091023040 Transcription factor Proteins 0.000 title claims abstract description 355
- 102000040945 Transcription factor Human genes 0.000 title claims abstract description 355
- 238000000034 method Methods 0.000 title claims description 91
- 238000000556 factor analysis Methods 0.000 title claims description 32
- 230000014509 gene expression Effects 0.000 claims abstract description 62
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 48
- 238000004364 calculation method Methods 0.000 claims description 68
- 238000012545 processing Methods 0.000 claims description 47
- 238000004458 analytical method Methods 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 15
- 239000002773 nucleotide Substances 0.000 claims description 2
- 125000003729 nucleotide group Chemical group 0.000 claims description 2
- 238000011835 investigation Methods 0.000 abstract 1
- 210000001519 tissue Anatomy 0.000 description 50
- 238000003860 storage Methods 0.000 description 44
- 238000010586 diagram Methods 0.000 description 18
- 238000009826 distribution Methods 0.000 description 10
- 238000011144 upstream manufacturing Methods 0.000 description 10
- 230000008520 organization Effects 0.000 description 8
- 238000011160 research Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 229930024421 Adenine Natural products 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- 229960000643 adenine Drugs 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 1
- 108010061414 Hepatocyte Nuclear Factor 1-beta Proteins 0.000 description 1
- 102100022123 Hepatocyte nuclear factor 1-beta Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000013065 commercial product Substances 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004217 heart function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
この発明は、遺伝子の発現と転写因子との関連を分析する転写因子分析プログラムおよび転写因子分析方法に関し、特に、多数の転写因子の組み合わせから遺伝子の発現と関連が深いと予想されるものを効率よく抽出することができる転写因子分析プログラムおよび転写因子分析方法に関するものである。 The present invention relates to a transcription factor analysis program and a transcription factor analysis method for analyzing the relationship between gene expression and a transcription factor, and in particular, the efficiency of what is expected to be deeply related to gene expression from a combination of a large number of transcription factors. The present invention relates to a transcription factor analysis program and a transcription factor analysis method that can be well extracted.
生物は、種毎に固有な遺伝情報をもっている。この遺伝情報は、ゲノム上に存在し、すべての細胞に染色体の形で同じ情報が格納されている。近年の研究により、ヒトのゲノムであるヒトゲノムは、約30億もの塩基対からなることが明らかになっている。 Living organisms have genetic information unique to each species. This genetic information exists on the genome, and all cells store the same information in the form of chromosomes. Recent research has revealed that the human genome, which is the human genome, consists of about 3 billion base pairs.
遺伝子は、染色体を構成するDNA上に点在し、タンパク質の生成に関する制御情報を記憶している。ヒトの場合、遺伝子は3万個程度存在するとされているが、実際には、一つの細胞において全ての遺伝子が発現してタンパク質を生成するわけではない。例えば、心臓の細胞においては、心臓としての活動のために必要なタンパク質を生成する遺伝子のみが機能するようになっている。このように、遺伝子は、生体組織毎にその一部のみが機能するように制御されている。 Genes are scattered on the DNA constituting the chromosome and store control information related to protein production. In the case of humans, there are about 30,000 genes, but in reality, not all genes are expressed in a single cell to produce a protein. For example, in the cells of the heart, only genes that produce proteins necessary for the activity as the heart function. In this way, the gene is controlled so that only a part thereof functions for each living tissue.
生体組織毎に遺伝子の働きを調整する仕組みについては、未だ完全には解明されていない。現状では、転写因子と呼ばれる物質が関与しているということが定説となっており、どの転写因子がどの遺伝子と結びついてどのタンパク質が生成されるのかが盛んに研究されている。転写因子とは、遺伝子の上流部分に結合することによって、遺伝子に発現をおこさせる物質であり、単体で作用する転写因子は、既にある程度の数が見つかっている。 The mechanism for adjusting the function of genes for each living tissue has not yet been fully elucidated. At present, it has become the established theory that a substance called a transcription factor is involved, and it is actively researched which transcription factor is associated with which gene to produce which protein. A transcription factor is a substance that causes expression of a gene by binding to the upstream portion of the gene, and a certain number of transcription factors acting alone are already found.
非特許文献1で紹介されているTRANSFACという商用プロダクトでは、既知の転写因子がどの遺伝子の上流部分に結合するのかをある程度予測できるようになっている。このプロダクトを使用することにより、所定の遺伝子の上流部にどの転写因子が結合するのかを予測することができる。
In a commercial product called TRANSFAC introduced in Non-Patent
しかしながら、遺伝子の上流部にどの転写因子が結合するのかを予測するだけでは、遺伝子の発現と転写因子の関連の研究を効率よく進めることはできない。 However, research on the relationship between gene expression and transcription factors cannot be carried out efficiently simply by predicting which transcription factor binds to the upstream part of the gene.
ほとんどの遺伝子の発現は、単体の転写因子ではなく転写因子の組み合わせによって起こることが知られている。このため、遺伝子の上流部にどの転写因子が結合するのかが分かったならば、次に、それらの転写因子の組み合わせの中から、実際に発現に関係のある組み合わせを特定する作業が必要となる。転写因子の組み合わせは、多数存在するため、この作業は、非常に多くの時間と労力を必要とし、研究の進捗を妨げる要因となっている。 It is known that most genes are expressed not by a single transcription factor but by a combination of transcription factors. For this reason, once it is known which transcription factor binds to the upstream part of the gene, it is necessary to identify a combination that is actually related to expression from the combination of those transcription factors. . Since there are many combinations of transcription factors, this work requires a great deal of time and effort, and hinders the progress of research.
この発明は、上述した従来技術による問題点を解消するためになされたものであり、多数の転写因子の組み合わせから遺伝子の発現と関連が深いと予想されるものを抽出し、効率的に調査をおこなうことを可能にする転写因子分析プログラムおよび転写因子分析方法を提供することを目的とする。 The present invention has been made to solve the above-mentioned problems caused by the prior art, and extracts what is expected to be deeply related to gene expression from a combination of a large number of transcription factors to efficiently investigate. It is an object of the present invention to provide a transcription factor analysis program and a transcription factor analysis method that can be performed.
上述した課題を解決し、目的を達成するため、本発明に係る転写因子分析プログラムは、遺伝子の発現と転写因子との関連を分析する転写因子分析プログラムであって、遺伝子の発現における第1の転写因子と、第2の転写因子と、生体組織との結合確率を計算する結合確率計算手順と、前記結合確率計算手順により算出された結合確率に基づいて第1の転写因子と、第2の転写因子の共起性を表す2事象の相互情報量を計算する2事象相互情報量計算手順手段と、前記結合確率計算手順により算出された結合確率に基づいて第1の転写因子と、第2の転写因子の組織特異性を表す3事象の相互情報量を計算する3事象相互情報量計算手順手段と、共起性を一方の軸にとり、組織特異性をもう一方の軸にとった2次元の座標上に前記2事象相互情報量計算手順手段と前記3事象相互情報量計算手順手段により算出された相互情報量情報をプロットした図表を生成し、この図表を所定の表示手段に表示する分析結果表示処理手順とをコンピュータに実行させることを特徴とする。
In order to solve the above-described problems and achieve the object, a transcription factor analysis program according to the present invention is a transcription factor analysis program for analyzing the relationship between gene expression and transcription factor, and is a first in gene expression. A binding probability calculation procedure for calculating a binding probability between the transcription factor, the second transcription factor, and the biological tissue, a first transcription factor based on the binding probability calculated by the binding probability calculation procedure, A two-event mutual information calculation procedure means for calculating mutual information of two events representing the co-occurrence of transcription factors; a first transcription factor based on the binding probability calculated by the binding probability calculation procedure; 3 event mutual information calculation procedure means to calculate the mutual information of 3 events representing the tissue specificity of the transcription factor, and two dimensions taking the co-occurrence on one axis and the tissue specificity on the
また、本発明に係る転写因子分析方法は、遺伝子の発現と転写因子との関連を分析する転写因子分析方法であって、遺伝子の発現における第1の転写因子と、第2の転写因子と、生体組織との結合確率を計算する結合確率計算工程と、前記結合確率計算工程により算出された結合確率に基づいて第1の転写因子と、第2の転写因子の共起性を表す2事象の相互情報量を計算する2事象相互情報量計算工程手段と、前記結合確率計算工程により算出された結合確率に基づいて第1の転写因子と、第2の転写因子の組織特異性を表す3事象の相互情報量を計算する3事象相互情報量計算工程手段と、共起性を一方の軸にとり、組織特異性をもう一方の軸にとった2次元の座標上に前記2事象相互情報量計算工程手段と前記3事象相互情報量計算工程手段により算出された相互情報量情報をプロットした図表を生成し、この図表を所定の表示手段に表示する分析結果表示処理工程とを有したことを特徴とする。
The transcription factor analysis method according to the present invention is a transcription factor analysis method for analyzing the relationship between gene expression and transcription factor, wherein the first transcription factor, the second transcription factor in gene expression, A connection probability calculation step of calculating a connection probability with a biological tissue, a first transcription factor based on the connection probability calculated by the connection probability calculation step, and two events representing the co-occurrence of the
この発明によれば、2次元の座標上に転写因子の組み合わせの共起性を表す2事象の相互情報量と転写因子の組み合わせの組織特異性を表す3事象の相互情報量を同時に視覚化するように構成したので、組織特異的遺伝子発現と関連の深い転写因子の組み合わせを容易に抽出することができる。 According to this invention, the mutual information of two events representing the co-occurrence of a combination of transcription factors and the mutual information of three events representing the tissue specificity of the combination of transcription factors are simultaneously visualized on two-dimensional coordinates. Thus, a combination of transcription factors closely related to tissue-specific gene expression can be easily extracted.
また、本発明に係る転写因子分析プログラムは、上記の発明において、前記分析結果表示処理手順は、表示手段に表示した図表上の相互情報量の一つが選択されたならば、その相互情報量に係る詳細情報を表示手段に表示することを特徴とする。 The transcription factor analysis program according to the present invention is the above-described invention, wherein the analysis result display processing procedure sets the mutual information amount if one of the mutual information amounts on the chart displayed on the display means is selected. Such detailed information is displayed on the display means.
この発明によれば、選択された転写因子の組み合わせの組織別確率分布等の詳細情報を表示手段に表示するように構成したので、組織特異的遺伝子発現と関連の深いものとして抽出した転写因子の組み合わせが実際にどの組織の遺伝子の発現と関連しているのかを容易に分析することができる。 According to the present invention, since the detailed information such as the probability distribution by tissue of the combination of the selected transcription factors is displayed on the display means, the transcription factors extracted as deeply related to the tissue-specific gene expression are displayed. It is easy to analyze which tissue gene expression the combination is actually associated with.
また、本発明に係る転写因子分析プログラムは、上記の発明において、未知の転写因子の名称および塩基配列情報の登録を受け付ける未知転写因子登録手順をさらにコンピュータに実行させ、前記結合確率計算手順は、前記未知転写因子登録手順により登録された転写因子を第1の転写因子と第2の転写因子の一方、もしくは両方に当てはめた結合確率をさらに計算することを特徴とする。 The transcription factor analysis program according to the present invention, in the above invention, further causes the computer to execute an unknown transcription factor registration procedure for receiving registration of an unknown transcription factor name and base sequence information. It is further characterized in that a binding probability obtained by applying the transcription factor registered by the unknown transcription factor registration procedure to one or both of the first transcription factor and the second transcription factor is further calculated.
この発明によれば、未知の転写因子の情報を登録して、既知の転写因子と同様に分析できるように構成したので、登録した未知の転写因子が組織特異的遺伝子発現と関連しているかどうかを容易に分析することができ、もって当該の未知の転写因子が実際に転写因子であるか否かを予測することができる。 According to the present invention, since information on unknown transcription factors is registered and can be analyzed in the same manner as known transcription factors, whether or not the registered unknown transcription factors are related to tissue-specific gene expression. Thus, it is possible to predict whether or not the unknown transcription factor is actually a transcription factor.
また、本発明に係る転写因子分析プログラムは、上記の発明において、ゲノム情報から未知の転写因子の塩基配列情報を生成する未知転写因子生成手順をさらにコンピュータに実行させ、前記結合確率計算手順は、前記未知転写因子生成手順により生成された転写因子を第1の転写因子と第2の転写因子の一方、もしくは両方に当てはめた結合確率をさらに計算することを特徴とする請求項1または請求項2に記載の転写因子分析プログラムを特徴とする。 The transcription factor analysis program according to the present invention, in the above invention, further causes the computer to execute an unknown transcription factor generation procedure for generating base sequence information of an unknown transcription factor from genomic information, and the binding probability calculation procedure includes: The binding probability obtained by applying the transcription factor generated by the unknown transcription factor generation procedure to one or both of the first transcription factor and the second transcription factor is further calculated. The transcription factor analysis program described in 1. is characterized.
この発明によれば、未知の転写因子の情報を自動生成して、既知の転写因子と同様に分析できるように構成したので、生成された未知の転写因子が組織特異的遺伝子発現と関連しているかどうかを容易に分析することができ、もって当該の未知の転写因子が実際に転写因子であるか否かを予測することができる。 According to the present invention, since information on unknown transcription factors is automatically generated and can be analyzed in the same manner as known transcription factors, the generated unknown transcription factors are related to tissue-specific gene expression. Whether or not the unknown transcription factor is actually a transcription factor can be predicted.
本発明によれば、2次元の座標上に転写因子の組み合わせの共起性を表す2事象の相互情報量と転写因子の組織特異性の組み合わせを表す3事象の相互情報量を同時に視覚化するように構成したので、組織特異的遺伝子発現と関連の深い転写因子の組み合わせを容易に抽出することができるという効果を奏する。 According to the present invention, the mutual information of two events representing the co-occurrence of a combination of transcription factors on two-dimensional coordinates and the mutual information of three events representing a combination of tissue specificities of transcription factors are simultaneously visualized. Since it comprised as mentioned above, there exists an effect that the combination of a transcription factor deeply related with tissue-specific gene expression can be extracted easily.
また、本発明によれば、選択された転写因子の組み合わせの組織別確率分布等の詳細情報を表示手段に表示するように構成したので、組織特異的遺伝子発現と関連の深いものとして抽出した転写因子の組み合わせが実際にどの組織の遺伝子の発現と関連しているのかを容易に分析することができるという効果を奏する。 Further, according to the present invention, the detailed information such as the probability distribution by tissue of the combination of the selected transcription factors is displayed on the display means, so that the transcription extracted as deeply related to the tissue-specific gene expression The effect is that it is possible to easily analyze which tissue gene expression is actually associated with the combination of factors.
また、本発明によれば、未知の転写因子の情報を登録して、既知の転写因子と同様に分析できるように構成したので、登録した未知の転写因子が組織特異的遺伝子発現と関連しているかどうかを容易に分析することができ、もって当該の未知の転写因子が実際に転写因子であるか否かを予測することができるという効果を奏する。 In addition, according to the present invention, since information on unknown transcription factors is registered and can be analyzed in the same manner as known transcription factors, the registered unknown transcription factors are related to tissue-specific gene expression. Whether or not the unknown transcription factor is actually a transcription factor can be predicted.
また、本発明によれば、未知の転写因子の情報を自動生成して、既知の転写因子と同様に分析できるように構成したので、生成された未知の転写因子が組織特異的遺伝子発現と関連しているかどうかを容易に分析することができ、もって当該の未知の転写因子が実際に転写因子であるか否かを予測することができるという効果を奏する。 In addition, according to the present invention, information on unknown transcription factors is automatically generated and can be analyzed in the same manner as known transcription factors, so that the generated unknown transcription factors are related to tissue-specific gene expression. Whether or not the unknown transcription factor is actually a transcription factor can be predicted.
以下に添付図面を参照して、この発明に係る転写因子分析プログラムおよび転写因子分析方法の好適な実施の形態を詳細に説明する。ここでは、この発明に係る転写因子分析プログラムおよび転写因子分析方法をヒトの遺伝子発現に関連する転写因子の分析に用いた場合について説明するが、この発明に係る転写因子分析プログラムおよび転写因子分析方法は、他の生物の遺伝子発現に関連する転写因子の分析にも用いることができる。 Exemplary embodiments of a transcription factor analysis program and a transcription factor analysis method according to the present invention will be explained below in detail with reference to the accompanying drawings. Here, the case where the transcription factor analysis program and the transcription factor analysis method according to the present invention are used for the analysis of a transcription factor related to human gene expression will be described. The transcription factor analysis program and the transcription factor analysis method according to the present invention Can also be used to analyze transcription factors associated with gene expression in other organisms.
まず、本実施例に係る転写因子分析方式が基礎としている情報理論について説明する。本実施例に係る転写因子分析方式では、2事象の相互情報量と3事象の相互情報量という2種類の相互情報量を評価する。 First, the information theory on which the transcription factor analysis method according to this embodiment is based will be described. In the transcription factor analysis method according to the present embodiment, two types of mutual information, that is, a mutual information amount of two events and a mutual information amount of three events are evaluated.
2事象の相互情報量は、2つの因子間の共起性を表すものとされ、前世紀半ばから研究がおこなわれている。たとえば、文章中の単語の共起性の測定に用いられ、漢字変換システムにおける変換候補の優先順位の決定などに応用されている。 The mutual information amount of two events represents the co-occurrence between two factors and has been studied since the middle of the last century. For example, it is used to measure the co-occurrence of words in a sentence and is applied to the determination of the priority order of conversion candidates in a kanji conversion system.
具体的には、2事象の相互情報量I(X;Y)は、下記の数式1で求められる。
Specifically, the mutual information amount I (X; Y) of two events is obtained by the following
ここで、H(X)は、シャノンの情報量と呼ばれ、下記の数式2で表される。
Here, H (X) is called Shannon's information amount and is expressed by the following
一方、3事象の相互情報量は、下記の数式3で算出される。
On the other hand, the mutual information amount of the three events is calculated by
この3事象の相互情報量は、いわゆる「複雑系」の分析に使える可能性が示唆されてきたが、実際に利用されることは少なかった。本実施例に係る転写因子分析方式では、3事象の相互情報量が因子間の関係の特異性を表現することに注目し、2事象の相互情報量と同時に分析に用いることとした。 Although it has been suggested that the mutual information of these three events can be used for analysis of so-called “complex systems”, it has been rarely used in practice. In the transcription factor analysis method according to the present example, attention is paid to the fact that the mutual information amount of the three events expresses the specificity of the relationship between the factors, and it was decided to use it simultaneously with the mutual information amount of the two events.
図1は、本実施例に係る転写因子分析方式の適用例を示すサンプル図である。同図に示すように、本実施例に係る転写因子分析方式では、一方の軸に2事象の相互情報量(共起性)をとり、もう一方の軸に3事象の相互情報量(特異性)をとった座標上に、各種転写因子の組み合わせをプロットする。 FIG. 1 is a sample diagram showing an application example of the transcription factor analysis method according to the present embodiment. As shown in the figure, in the transcription factor analysis method according to this embodiment, the mutual information amount (co-occurrence) of two events is taken on one axis, and the mutual information amount (specificity) of three events is taken on the other axis. Plot the combinations of various transcription factors on the coordinates.
2事象の相互情報量は、2種類の転写因子の組み合わせの共起性の高さを表している。この共起性は、2種類の転写因子が各種遺伝子の上流部に同時に結合する(あるいは、同時に結合しない)ことが多いほど大きな値になる。 The mutual information amount of two events represents the high level of co-occurrence of the combination of two types of transcription factors. This co-occurrence becomes larger as the two types of transcription factors frequently bind to the upstream portions of various genes simultaneously (or do not bind simultaneously).
一方、3事象の相互情報量は、2種類の転写因子と生体組織の組み合わせの特異性の高さを表している。3事象の相互情報量は、一般に、正負いずれの値もとりうる。この例では、負の値をとる場合が示されている。この値は、3つの因子の関係の様々な状態を示すことが数学的に示唆されているが、いずれの場合においても、絶対値が大きいほど第3の因子の影響が大きいと解される。 On the other hand, the mutual information amount of the three events represents the high specificity of the combination of two types of transcription factors and biological tissues. In general, the mutual information of the three events can take either positive or negative values. In this example, a negative value is shown. It is mathematically suggested that this value indicates various states of the relationship between the three factors. In any case, it is understood that the larger the absolute value, the greater the influence of the third factor.
例えば、3事象の相互情報量の値が0であり、第1の因子と第2の因子の共起性が高いのであれば、第3の因子の影響はほとんどないことを示している。逆に、3事象の相互情報量の値が大きい場合は、影響の詳細は不明であるが、第3の因子の影響がそれだけ大きいことを示している。本実施例においては、第3の因子として生体組織の事象を採用していることから、3事象の相互情報量は、生体組織の特異性を示す指標となり、絶対値の大きさが特異性の大きさを示すものと解される。 For example, if the mutual information value of three events is 0 and the co-occurrence of the first factor and the second factor is high, it indicates that there is almost no influence of the third factor. Conversely, when the value of the mutual information amount of the three events is large, the details of the influence are unknown, but the influence of the third factor is so large. In this embodiment, since a biological tissue event is adopted as the third factor, the mutual information amount of the three events serves as an index indicating the specificity of the biological tissue, and the magnitude of the absolute value is specific. It is understood that it shows the size.
なお、3事象の相互情報量に関する参考資料としては、下記のものがある。
[参考文献1]Tsujishita,T., "On Triple Mutual Information", ADVANCED IN APPLIED MATHEMATICS, 1995: p.269-274
The following are reference materials related to the mutual information of the three events.
[Reference 1] Tsujishita, T., "On Triple Mutual Information", ADVANCED IN APPLIED MATHEMATICS, 1995: p.269-274
図1の領域1にプロットされた組み合わせのように、共起性が高く、特異性が低い転写因子の組み合わせは、どの遺伝子に対しても、発現組織によらず転写因子間に同様な関係が存在することを示している。かかる一般的な関係を持つ転写因子の組み合わせは、特定の遺伝子の発現と関連している可能は低いと判断でき、遺伝子配列の相同性による影響が強く表れている可能性が高いと解される。これは、転写因子間の遺伝子の結合判定が転写因子毎におこなわれることから、配列の相同性が高い場合には同じような結合判定がなされやすく、結果として、共起性が高く特異性が低くなる傾向をもつためである。
A combination of transcription factors having high co-occurrence and low specificity, such as the combination plotted in
また、図1の領域2にプロットされた組み合わせのように、特異性の高い転写因子の組み合わせは、特定の生体組織において発現する遺伝子と特異な関連をもつ可能性が高い。かかる特異な関係を持つ転写因子の組み合わせは、特定の遺伝子の発現と関連している可能性が高く、研究対象としての優先順位を上げるのが適当であると判断できる。特に、共起性が低く、特異性が高い因子は、共起性の影響がないことから、特定の遺伝子の発現と関連している可能性が非常に高いと予想される。
Moreover, like the combination plotted in the
このように、共起性と特異性を同時に評価し、両者を軸とする2次元の座標空間上に評価結果をプロットすることにより、多数の転写因子の組み合わせの中から、特定の生体組織と特異な因果関係をもった組み合わせを抽出することができ、研究の効率化を図る上での有用な指標となる。 In this way, by co-occurrence and specificity are evaluated at the same time, and by plotting the evaluation results on a two-dimensional coordinate space with both as axes, a specific biological tissue can be selected from a number of combinations of transcription factors. Combinations with specific causal relationships can be extracted, which is a useful index for improving research efficiency.
次に、本実施例に係る転写因子分析装置の構成について説明する。図2は、本実施例に係る転写因子分析装置の構成を示す機能ブロック図である。同図に示すように、転写因子分析装置200は、ネットワーク等を介してDBサーバ100と接続された構成をとる。
Next, the configuration of the transcription factor analyzer according to this embodiment will be described. FIG. 2 is a functional block diagram showing the configuration of the transcription factor analyzer according to the present embodiment. As shown in the figure, the
DBサーバ100は、転写因子の分析に必要な各種情報を記憶したDBサーバであり、転写因子配列情報DB110と、遺伝子発現情報DB120と、ゲノム配列情報DB130と、遺伝子マッピング情報DB140とを有する。
The
転写因子配列情報DB110は、既知の転写因子の塩基配列情報を記憶したDBである。図3は、図2に示した転写因子配列情報DB110のデータ構成の一例を示すサンプル図であり、XXX1という転写因子の塩基配列情報を示している。
The transcription factor
同図は、XXX1という転写因子が3つの塩基からなる配列であり、それぞれの構成要素における塩基の出現確率が下記の通りであることを示している。
第1の要素:シトシン(C)100%
第2の要素:グアニン(G)50%、アデニン(A)50%
第3の要素:グアニン(G)10%、アデニン(A)10%、チミン(T)80%
The figure shows that the transcription factor XXX1 is a sequence composed of three bases, and the base appearance probability in each component is as follows.
First element: 100% cytosine (C)
Second element: guanine (G) 50%, adenine (A) 50%
Third element: guanine (G) 10%, adenine (A) 10%, thymine (T) 80%
第2と第3の要素で、塩基の出現確率が一定でないのは、転写因子の塩基配列にゆらぎが存在するためである。 The reason why the occurrence probability of bases in the second and third elements is not constant is that there is fluctuation in the base sequence of the transcription factor.
遺伝子発現情報DB120は、実験等により測定された各生体組織毎の遺伝子発現情報を記憶したDBである。図4は、図2に示した遺伝子発現情報DB120のデータ構成の一例を示すサンプル図である。
The gene
この例では遺伝子の種別をcDNAのIDであるHITで識別しているが、遺伝子座を用いて識別するようにしてもよい。また、この例では発現情報を相対値である比率で表しているが、絶対値で表すようにしてもよい。 In this example, the type of gene is identified by HIT which is the ID of cDNA, but it may be identified using a genetic locus. In this example, the expression information is expressed as a ratio that is a relative value, but may be expressed as an absolute value.
ゲノム配列情報DB130は、ゲノム(この実施例の場合ではヒトゲノム)の塩基配列情報を記憶したDBである。また、遺伝子マッピング情報DB140は、ゲノム上のどの位置にどの遺伝子が存在するかを記憶したDBである。
The genome
なお、図2では、全てのDBが1台のDBサーバに格納されるように図示されているが、DBが複数のDBサーバに分散して存在するような構成をとってもよい。また、いずれかもしくは全てのDBを転写因子分析装置200が内蔵するような構成をとってもよい。
In FIG. 2, all DBs are illustrated as being stored in a single DB server, but a configuration in which DBs are distributed among a plurality of DB servers may be employed. Further, the
転写因子分析装置200は、利用者の指定した条件に従って転写因子の組み合わせと生体組織の関連を分析し、分析結果を利用者に提示する装置であり、入力部210と、表示部220と、インターフェース部230と、制御部240と、記憶部250とを有する。
The transcription
入力部210は、利用者の入力を受け付ける装置であり、キーボードやマウスからなる。表示部220は、画像データや文字データ等を画面表示する装置であり、液晶表示装置等がこれにあたる。インターフェース部230は、ネットワーク等を通じてDBサーバ100とデータのやり取りをするためのインターフェースである。
The
制御部240は、転写因子分析装置200を全体制御する制御部であり、条件入力受付部240aと、結合判定処理部240bと、離散化処理部240cと、確率化処理部240dと、結合確率計算部240eと、2事象相互情報量計算部240fと、3事象相互情報量計算部240gと、分析結果表示処理部240hと、情報取得部240iとを有する。
The
条件入力受付部240aは、条件入力画面を表示部220に表示し、利用者から分析のための各種条件の入力を受け付ける処理部である。本実施例に係る転写因子分析では、転写因子の組み合わせの一方を固定して分析をおこなうこととしており、条件入力受付部240aは、条件の一部として、固定して分析する転写因子の種別の指示を受け付ける。
The condition
結合判定処理部240bは、遺伝子マッピング情報DB140に格納された各種遺伝子の上流部に転写因子が結合するか否かを判定処理し、判定結果を記憶部250の結合判定結果記憶部250aに記憶させる処理部である。
The binding
図5は、図2に示した結合判定結果記憶部250aのデータ構成の一例を示すサンプル図である。同図に示すように、結合判定処理部240bは、指定された転写因子がいずれかの遺伝子の上流部に結合すると判定したならば、当該の転写因子と遺伝子の情報をここに記憶させる。
FIG. 5 is a sample diagram illustrating an example of a data configuration of the combination determination
離散化処理部240cは、遺伝子発現情報DB120の発現情報を離散化して階級値化する処理部である。発現情報は、一般的には、標準マーカに対する比として相対値で示され、同一の遺伝子の生体組織別の発現量を比較するために利用されている。このため、異なる遺伝子間において、発現量の大きさを比較することは一般的に困難である。そこで、離散化処理部240cは、遺伝子の発現情報を離散化し、異なる遺伝子間で発現量を比較できるようにし、その結果を記憶部250の離散化結果記憶部250bに記憶させる。
The
図6は、図2に示した離散化結果記憶部250bのデータ構成の一例を示すサンプル図である。この例では、図4で示した発現情報を30%をしきい値として、それ以上を1へ、それ未満を0へと2値化している。なお、しきい値は、任意の大きさに設定することができる。また、複数のしきい値を設けて、3値以上に離散化をおこなうこともできる。
FIG. 6 is a sample diagram illustrating an example of a data configuration of the discretization
確率化処理部240dは、結合判定処理部240bの処理結果と離散化処理部240cを組み合わせて、個々の因子の確率量を算出し、記憶部250の確率化結果記憶部250cへ記憶させる処理部である。具体的には、離散化処理部240cが離散化して作成された生体組織別の遺伝子発現数を、結合判定処理部240bで判明した結合パターン毎に分類して集計し、確率を計算する処理をおこなう。
The
図7は、図2に示した確率化結果記憶部250cのデータ構成の一例を示すサンプル図である。ここでは、固定して分析することを指定されたXXX1という転写因子と、これと組み合わされて分析される転写因子の一つであるYYY1の確率量を格納した部分を抽出している。 FIG. 7 is a sample diagram illustrating an example of a data configuration of the probability result storage unit 250c illustrated in FIG. Here, a portion storing the transcription factor XXX1 designated to be fixedly analyzed and the probability amount of YYY1, which is one of the transcription factors analyzed in combination, is extracted.
結合確率計算部240eは、相互情報量の計算に必要な結合確率を算出し、記憶部250の結合確率記憶部250dへ記憶させる処理部である。具体的には、条件付確率の一般式である。
P(X,Y,Z)=P(Z|X,Y)×P(X,Y)
から、P(X,Y,Z)を求め、このP(X,Y,Z)からP(Y,Z)およびP(Z,X)を算出する。
The connection
P (X, Y, Z) = P (Z | X, Y) × P (X, Y)
From this, P (X, Y, Z) is obtained, and P (Y, Z) and P (Z, X) are calculated from this P (X, Y, Z).
図8は、図2に示した結合確率記憶部250dのデータ構成の一例を示すサンプル図である。ここでは、固定して分析することを指定されたXXX1という転写因子と、これと組み合わされて分析される転写因子の一つであるYYY1と、組織A〜Zの結合確率を格納した部分を抽出している。
FIG. 8 is a sample diagram showing an example of the data configuration of the connection
2事象相互情報量計算部240fは、結合確率計算部240eが算出した情報を基にして2つの転写因子の2事象の相互情報量を計算し、記憶部250の相互情報量記憶部250eへ記憶させる処理部である。また、3事象相互情報量計算部240gは、結合確率計算部240eが算出した情報を基にして2つの転写因子と生体組織の3事象の相互情報量を計算し、記憶部250の相互情報量記憶部250eへ記憶させる処理部である。
The two-event mutual information
相互情報量を計算するには、既に説明したように数式1〜3を用いる。相互情報量を求めるには、数式2を用いてシャノンの情報量を求める必要がある。以下、X:XXX1、Y:YYY1、Z:組織として、図8で示した結合確率を使って相互情報量を算出してみることにする。
In order to calculate the mutual information amount,
Xは、{0,1}2つの値をとるので、H(X)は、
H(X)=−{0.5×Log(0.5)+0.5×Log(0.5)}
=−{−0.34657359−0.34657359}
=0.69314718
と求められる。
Since X takes {0, 1} two values, H (X) is
H (X) = − {0.5 × Log (0.5) + 0.5 × Log (0.5)}
=-{-0.3465657359-0.3465657359}
= 0.69314718
Is required.
H(Y)は、H(X)と同様に求められ、0.69314718となる。Zは、{組織A,組織B,組織C,組織D}という4つの値をとるので、H(Z)は、同様の計算により、1.275038049となる。 H (Y) is obtained in the same manner as H (X) and becomes 0.69314718. Since Z takes four values, {Organization A, Organization B, Organization C, Organization D}, H (Z) is 1.27038049 by the same calculation.
(X,Y)は{(1,1),(1,0),(0,1),(0,0)}の4つの状態をとり、H(X,Y)は、H(X)と同様の計算により、1.386294361となる。(Y,Z)は、Y={0,1}とZ={A,B,C,D}を組み合わせた8つの状態をとり、H(Y,Z)は、1.900225615となる。H(Z,X)は、H(Y,Z)と同様に、1.900225615となる。 (X, Y) takes four states {(1, 1), (1, 0), (0, 1), (0, 0)}, and H (X, Y) is H (X). It becomes 1.386294361 by the same calculation. (Y, Z) takes eight states combining Y = {0, 1} and Z = {A, B, C, D}, and H (Y, Z) is 1.900225615. H (Z, X) becomes 1.900225615 as H (Y, Z).
また、(X,Y,Z)は、図8に示した16の状態があり、H(X,Y,Z)を計算すると、2.319574997となる。 Further, (X, Y, Z) has the 16 states shown in FIG. 8, and when H (X, Y, Z) is calculated, it becomes 2.31957997.
上記のシャノンの情報量を数式1および数式3に当てはめることにより、2事象の相互情報量と3事象の相互情報量が下記のように求められる。
I(X;Y) =0
I(X;Y;Z)=−0.205838184
By applying the Shannon information amount to
I (X; Y) = 0
I (X; Y; Z) = − 0.205831844
図9は、図2に示した相互情報量記憶部250eのデータ構成の一例を示すサンプル図である。同図に示すように、相互情報量記憶部250eには、固定された転写因子の種別と、これと組み合わされた転写因子の種別と、これらの転写因子の関係から求められた2事象の相互情報量と、3事象の相互情報量とが記憶される。 FIG. 9 is a sample diagram illustrating an example of a data configuration of the mutual information storage unit 250e illustrated in FIG. As shown in the figure, the mutual information storage unit 250e includes a fixed transcription factor type, a transcription factor type combined with the fixed transcription factor, and two events obtained from the relationship between these transcription factors. The information amount and the mutual information amount of three events are stored.
分析結果表示処理部240hは、算出した相互情報量や、相互情報量を算出する過程で得られた各種情報を分析結果として表示部220に表示する処理部である。分析結果表示処理部240hが表示する画面については、後述することとする。
The analysis result display processing unit 240h is a processing unit that displays the calculated mutual information and various information obtained in the process of calculating the mutual information on the
情報取得部240iは、インターフェース部230を介して、DBサーバ100から各種情報を取得する処理部である。
The
記憶部250は、結合判定結果記憶部250aと、離散化結果記憶部250bと、確率化結果記憶部250cと、結合確率記憶部250dと、相互情報量記憶部250eとを有する。これらの記憶部については、既に説明済みなので、ここでは説明を省略する。
The
次に、条件入力受付部240aおよび分析結果表示処理部240hが表示部220に表示する画面について説明する。図10は、条件入力画面の一例を示すサンプル図である。この画面は、条件入力受付部240aが利用者から分析のための各種条件の入力を受け付けるための画面である。
Next, screens displayed on the
一番下にある「固定する転写因子の指定」の項目では、転写因子を一つ選択する。本実施例に係る転写因子分析方式では、転写因子の組み合わせの一方を固定して分析をおこなうが、ここで選択した転写因子が、固定して分析をおこなう転写因子となる。 In the "Specify transcription factor to be fixed" item at the bottom, select one transcription factor. In the transcription factor analysis method according to the present embodiment, analysis is performed with one of the combinations of transcription factors fixed, and the transcription factor selected here becomes the transcription factor to be fixed and analyzed.
図11は、分析結果表示画面の一例を示すサンプル図である。この画面は、2事象相互情報量計算部240fおよび3事象相互情報量計算部240gによって算出された相互情報量を、分析結果表示処理部240hが視覚化して表示する画面である。
FIG. 11 is a sample diagram showing an example of the analysis result display screen. This screen is a screen on which the analysis result display processing unit 240h visualizes and displays the mutual information calculated by the two-event mutual
同図に示すように、画面の左上には、画面の大部分を占めるグラフデータの表示領域が存在する。この領域では、共起性(2事象の相互情報量)が横軸にとられ、組織特異性(3事象の相互情報量)が縦軸にとられた座標上に、相互情報量記憶部250eに記憶された相互情報量がプロットされる。 As shown in the figure, a graph data display area occupying most of the screen exists at the upper left of the screen. In this area, the co-occurrence (mutual information amount of two events) is taken on the horizontal axis, and the mutual information storage unit 250e is on the coordinates where the tissue specificity (mutual information amount of three events) is taken on the vertical axis. The mutual information stored in is plotted.
利用者がプロットされた点の一つを選択すると、グラフデータの表示領域の右の領域に当該の転写因子の詳細情報が表示されるようになっている。グラフデータの表示領域の下の領域には、これらの相互情報量を求めるために指定された各種条件が表示される領域が設けられている。 When the user selects one of the plotted points, the detailed information of the transcription factor is displayed in the area to the right of the graph data display area. In the area below the graph data display area, there is provided an area in which various conditions designated for obtaining the mutual information are displayed.
分析結果表示画面で「分布グラフ表示」ボタンを押下すると、分布グラフ表示画面が表示される。図12は、分布グラフ表示画面の一例を示すサンプル図である。同図に示すように、この画面では、分析結果表示画面で選択されていた転写因子と固定された転写因子の組織別の確率分布がグラフとして表示される。 When the “distribution graph display” button is pressed on the analysis result display screen, the distribution graph display screen is displayed. FIG. 12 is a sample diagram illustrating an example of a distribution graph display screen. As shown in the figure, on this screen, the probability distribution for each tissue of the transcription factor selected on the analysis result display screen and the fixed transcription factor is displayed as a graph.
画面上には、2つの転写因子が無相関な場合の期待値が点線で表示され、この点線とグラフとを比較することにより、どの組織において2つの転写因子の間に特異な関連があるのかを容易に判別できるようになっている。また、この画面では、「離散化数」ボタンを押下することにより、確率分布のグラフの代わりに離散化数のグラフを表示させることもできる。 On the screen, the expected value when the two transcription factors are uncorrelated is displayed as a dotted line. By comparing this dotted line with the graph, in which tissue there is a specific relationship between the two transcription factors Can be easily identified. Further, on this screen, by pressing the “discretization number” button, a graph of the discretization number can be displayed instead of the graph of the probability distribution.
分析結果表示画面で「遺伝子リスト表示」ボタンを押下すると、遺伝子リスト表示画面が表示される。図13は、遺伝子リスト表示画面の一例を示すサンプル図である。同図に示すように、この画面では、分析結果表示画面で選択されていた転写因子と固定された転写因子の組織別の離散化数が一覧表として表示される。 When a “gene list display” button is pressed on the analysis result display screen, a gene list display screen is displayed. FIG. 13 is a sample diagram showing an example of a gene list display screen. As shown in the figure, on this screen, the number of discretizations for each organization of the transcription factor selected on the analysis result display screen and the fixed transcription factor is displayed as a list.
分析結果表示画面で「一覧データ表示」ボタンを押下すると、一覧データ表示画面が表示される。図14は、一覧データ表示画面の一例を示すサンプル図である。同図に示すように、この画面では、全ての転写因子の組み合わせの相互情報量と離散化数が表示される。 When the “display list data” button is pressed on the analysis result display screen, the list data display screen is displayed. FIG. 14 is a sample diagram showing an example of a list data display screen. As shown in the figure, on this screen, the mutual information amount and the discretization number of all transcription factor combinations are displayed.
次に、図2に示した転写因子分析装置200の処理手順について説明する。図15は、図2に示した転写因子分析装置200の処理手順を示すフローチャートである。
Next, the processing procedure of the
同図に示すように、分析のための各種条件の入力を受け付けたならば(ステップS101)、全ての遺伝子と転写因子の結合判定をおこない(ステップS102)、遺伝子の発現データの離散化をおこなう(ステップS103)。 As shown in the figure, when input of various conditions for analysis is accepted (step S101), the binding determination of all genes and transcription factors is performed (step S102), and the expression data of the genes is discretized. (Step S103).
続いて、固定すると指定された転写因子と組み合わせる転写因子を一つ選択する(ステップS104)。ここで、転写因子配列情報DB110に登録された全ての転写因子を選択済である場合には(ステップS105肯定)、ステップS110へ遷移する。
Subsequently, one transcription factor to be combined with the designated transcription factor is selected (step S104). If all the transcription factors registered in the transcription factor
転写因子配列情報DB110に登録された全ての転写因子を選択済でない場合には(ステップS105否定)、固定すると指定された転写因子と選択された転写因子の確率化処理をおこない、転写因子の状態別・組織別の確率分布を求め(ステップS106)、これを基にして結合確率を算出する(ステップS107)。
If all the transcription factors registered in the transcription factor
結合確率が算出されたならば、これに基づいて2事象の相互情報量を算出し(ステップS108)、さらに3事象の相互情報量の算出をおこなう(ステップ109)。このようにして、固定すると指定された転写因子と選択された転写因子の相互情報量が求められたならば、ステップS104から処理を再開する。 If the connection probability is calculated, the mutual information amount of two events is calculated based on this (step S108), and the mutual information amount of three events is further calculated (step 109). In this way, when the mutual information amount between the designated transcription factor and the selected transcription factor is determined to be fixed, the processing is restarted from step S104.
ステップS104で、転写因子配列情報DB110に登録された全ての転写因子を選択済である場合には(ステップS105肯定)、求められた全ての相互情報量を分析結果画面上にプロットして視覚化し、この画面を利用者に提示する(ステップS110)。
If all the transcription factors registered in the transcription factor
上述してきたように、本実施例1では、転写因子の組み合わせの共起性を一方の軸にとり、組織特異性をもう一方の軸にとった座標空間上に相互情報量をプロットして視覚化し、転写因子の組み合わせの共起性と組織特異性を同時に分析できるように構成したので、特定の組織の遺伝子発現と関係が深いと予測される転写因子の組み合わせを容易に識別することができ、転写因子研究の効率を向上させることができる。 As described above, in Example 1, the co-occurrence of transcription factor combinations is taken as one axis, and the mutual information is plotted and visualized on a coordinate space where the tissue specificity is taken as the other axis. Because it is configured to simultaneously analyze the co-occurrence and tissue specificity of transcription factor combinations, transcription factor combinations that are predicted to be closely related to gene expression in specific tissues can be easily identified, The efficiency of transcription factor research can be improved.
実施例1では、既知の転写因子の組み合わせと遺伝子発現の関連を分析する例について説明したが、この発明に係る転写因子分析プログラムおよび転写因子分析方法は、未知の転写因子を予測するためにも利用できる。本実施例2では、この発明に係る転写因子分析プログラムおよび転写因子分析方法を未知の転写因子を予測するために利用する場合について説明する。 In Example 1, although the example which analyzes the relationship between the combination of a known transcription factor and gene expression was demonstrated, the transcription factor analysis program and transcription factor analysis method concerning this invention are also in order to predict an unknown transcription factor. Available. In Example 2, a case where the transcription factor analysis program and the transcription factor analysis method according to the present invention are used for predicting an unknown transcription factor will be described.
遺伝子の発現に関連する転写因子はすべて明らかになっているわけではなく、未知のものが存在する。もしも、この発明に係る転写因子分析プログラムおよび転写因子分析方法を用いて、未知の転写因子同士の組み合わせ、もしくは未知の転写因子と既知の転写因子の組み合わせが特定の生体組織における遺伝子の発現と特異的な関連があると判明したとすれば、その未知の転写因子は実際に転写因子である可能性が高い。 Not all transcription factors associated with gene expression are known, and there are unknown ones. If the transcription factor analysis program and the transcription factor analysis method according to the present invention are used, a combination of unknown transcription factors, or a combination of an unknown transcription factor and a known transcription factor is a gene expression and specificity in a specific living tissue. If an unknown transcription factor is found, it is likely that the unknown transcription factor is actually a transcription factor.
このようにして、未知の転写因子を容易に予測することができれば、転写因子の研究の効率を大幅に向上させることができる。 Thus, if an unknown transcription factor can be easily predicted, the efficiency of transcription factor research can be greatly improved.
実施例1で説明した転写因子分析方式は、未知の転写因子の予測に対しても大きな変更を加えることなく対応できる。遺伝子上流部との転写因子の結合判定をおこなうには、転写因子の塩基配列情報さえあればよく、転写因子の塩基配列情報は、未知のものであっても問題ない。その他の処理においても、転写因子が既知のものでなければならない要因はない。 The transcription factor analysis method described in Example 1 can cope with prediction of an unknown transcription factor without making a major change. In order to determine the binding of the transcription factor to the upstream part of the gene, it is sufficient if the base sequence information of the transcription factor is sufficient, and there is no problem even if the base sequence information of the transcription factor is unknown. In other treatments, there is no factor that the transcription factor must be known.
そこで、本実施例2では、実施例1との相違点についてのみ説明することとする。図16は、本実施例に係る転写因子分析装置の構成を示す機能ブロック図である。 Therefore, in the second embodiment, only differences from the first embodiment will be described. FIG. 16 is a functional block diagram showing the configuration of the transcription factor analyzer according to the present embodiment.
同図に示すように、制御部240は、未知転写因子登録部240jをさらに有する。未知転写因子登録部240jは、未知転写因子登録画面を表示部220に表示し、利用者に未知の転写因子の名前と塩基配列情報を入力させ、入力された情報を記憶部250の未知転写因子記憶部fに記憶させる処理部である。
As shown in the figure, the
図17は、未知転写因子登録画面の一例を示すサンプル図である。同図に示すように、未知の転写因子の名前と、各塩基配列における塩基の出現確率を登録できるようになっている。 FIG. 17 is a sample diagram showing an example of the unknown transcription factor registration screen. As shown in the figure, it is possible to register the name of an unknown transcription factor and the appearance probability of a base in each base sequence.
記憶部250は、未知転写因子記憶部fをさらに有する。未知転写因子記憶部fのデータ構成は、図3で説明した転写因子配列情報DB110のデータ構成と同様である。
The
なお、本実施例では、未知の転写因子の塩基配列を利用者が登録するようにしているが、未知の転写因子の塩基配列をプログラムが自動的に生成するように構成することもできる。ゲノム情報から遺伝子の上流部の塩基配列は明らかになっており、転写因子の塩基配列は、この一部を反転させたものになる。 In this embodiment, the user registers the base sequence of an unknown transcription factor. However, the program may automatically generate the base sequence of an unknown transcription factor. From the genome information, the base sequence of the upstream part of the gene has been clarified, and the base sequence of the transcription factor is an inversion of this part.
次に、図16に示した転写因子分析装置201の処理手順について説明する。図18は、図16に示した転写因子分析装置201の処理手順を示すフローチャートである。
Next, the processing procedure of the
ここでも、実施例1との相違点のみ説明することとする。分析の各種条件の入力を受け付ける前に、未知の転写因子の登録を受け付ける(ステップS201)。そして、各種条件の入力を受け付ける際には、固定する側の転写因子を既知の転写因子からだけではなく、ステップS201で入力された転写因子からも選択できるようにする。以降の処理においても、ステップS201で入力された転写因子を既知の転写因子と同様に扱う。 Here, only differences from the first embodiment will be described. Before accepting input of various analysis conditions, registration of an unknown transcription factor is accepted (step S201). When receiving input of various conditions, the transcription factor to be fixed can be selected not only from the known transcription factor but also from the transcription factor input in step S201. Also in the subsequent processing, the transcription factor input in step S201 is handled in the same manner as the known transcription factor.
上述してきたように、本実施例2では、未知の転写因子の塩基配列情報を登録(もしくは、生成)して、この未知の転写因子と遺伝子の発現との関連を分析できるように構成したので、未知の転写因子のなかから実際に転写因子として機能する転写因子を効率的に選別することができる。 As described above, in Example 2, the base sequence information of an unknown transcription factor is registered (or generated), and the relationship between the unknown transcription factor and gene expression can be analyzed. Thus, transcription factors that actually function as transcription factors can be efficiently selected from unknown transcription factors.
なお、実施例1および実施例2において、2事象の相互情報量と3事象の相互情報量を同時に視覚化して分析する方式を、転写因子の分析のために用いた例を説明したが、この分析方法の用途はこれに限定されるものではなく、様々な分析に用いることができる。特に、複数の因子が複雑に関連した事象の中から特異な関係を見出すことが目的の場合に、この分析方式は有用である。 In Example 1 and Example 2, the example in which the method of simultaneously visualizing and analyzing the mutual information amount of two events and the mutual information amount of three events was used for the analysis of transcription factors was described. The use of the analysis method is not limited to this, and can be used for various analyses. This analysis method is particularly useful when the purpose is to find a unique relationship among events in which a plurality of factors are complicatedly related.
(付記1)遺伝子の発現と転写因子との関連を分析する転写因子分析プログラムであって、
遺伝子の発現における第1の転写因子と、第2の転写因子と、生体組織との結合確率を計算する結合確率計算手順と、
前記結合確率計算手順により算出された結合確率に基づいて第1の転写因子と、第2の転写因子の共起性を表す2事象の相互情報量を計算する2事象相互情報量計算手順手段と、
前記結合確率計算手順により算出された結合確率に基づいて第1の転写因子と、第2の転写因子の組織特異性を表す3事象の相互情報量を計算する3事象相互情報量計算手順手段と、
共起性を一方の軸にとり、組織特異性をもう一方の軸にとった2次元の座標上に前記2事象相互情報量計算手順手段と前記3事象相互情報量計算手順手段により算出された相互情報量情報をプロットした図表を生成し、この図表を所定の表示手段に表示する分析結果表示処理手順と
をコンピュータに実行させることを特徴とする転写因子分析プログラム。
(Appendix 1) A transcription factor analysis program for analyzing the relationship between gene expression and transcription factors,
A binding probability calculation procedure for calculating the binding probability of the first transcription factor, the second transcription factor, and the biological tissue in the expression of the gene;
Two-event mutual information calculation procedure means for calculating the mutual information of two events representing the co-occurrence of the first transcription factor and the second transcription factor based on the binding probability calculated by the binding probability calculation procedure; ,
A three-event mutual information calculation procedure means for calculating a mutual information amount of three events representing the tissue specificity of the first transcription factor and the second transcription factor based on the binding probability calculated by the binding probability calculation procedure; ,
Mutually calculated by the two-event mutual information calculation procedure means and the three-event mutual information calculation procedure means on a two-dimensional coordinate taking the co-occurrence as one axis and the tissue specificity as the other axis. A transcription factor analysis program characterized by causing a computer to generate a chart on which information amount information is plotted and to display an analysis result display processing procedure for displaying the chart on a predetermined display means.
(付記2)前記分析結果表示処理手順は、表示手段に表示した図表上の相互情報量の一つが選択されたならば、その相互情報量に係る詳細情報を表示手段に表示することを特徴とする付記1に記載の転写因子分析プログラム。
(Appendix 2) The analysis result display processing procedure is characterized in that if one of the mutual information amounts on the chart displayed on the display means is selected, the detailed information on the mutual information amount is displayed on the display means. The transcription factor analysis program according to
(付記3)未知の転写因子の名称および塩基配列情報の登録を受け付ける未知転写因子登録手順をさらにコンピュータに実行させ、
前記結合確率計算手順は、前記未知転写因子登録手順により登録された転写因子を第1の転写因子と第2の転写因子の一方、もしくは両方に当てはめた結合確率をさらに計算することを特徴とする付記1または2に記載の転写因子分析プログラム。
(付記4)ゲノム情報から未知の転写因子の塩基配列情報を生成する未知転写因子生成手順をさらにコンピュータに実行させ、
前記結合確率計算手順は、前記未知転写因子生成手順により生成された転写因子を第1の転写因子と第2の転写因子の一方、もしくは両方に当てはめた結合確率をさらに計算することを特徴とする付記1または2に記載の転写因子分析プログラム。
(Supplementary Note 3) The computer further executes an unknown transcription factor registration procedure for accepting registration of an unknown transcription factor name and nucleotide sequence information,
The binding probability calculation procedure further calculates a binding probability in which the transcription factor registered by the unknown transcription factor registration procedure is applied to one or both of the first transcription factor and the second transcription factor. The transcription factor analysis program according to
(Appendix 4) The computer further executes an unknown transcription factor generation procedure for generating base sequence information of an unknown transcription factor from genomic information,
The binding probability calculation procedure further calculates a binding probability in which the transcription factor generated by the unknown transcription factor generation procedure is applied to one or both of the first transcription factor and the second transcription factor. The transcription factor analysis program according to
(付記5)遺伝子の発現と転写因子との関連を分析する転写因子分析方法であって、
遺伝子の発現における第1の転写因子と、第2の転写因子と、生体組織との結合確率を計算する結合確率計算工程と、
前記結合確率計算工程により算出された結合確率に基づいて第1の転写因子と、第2の転写因子の共起性を表す2事象の相互情報量を計算する2事象相互情報量計算工程手段と、
前記結合確率計算工程により算出された結合確率に基づいて第1の転写因子と、第2の転写因子の組織特異性を表す3事象の相互情報量を計算する3事象相互情報量計算工程手段と、
共起性を一方の軸にとり、組織特異性をもう一方の軸にとった2次元の座標上に前記2事象相互情報量計算工程手段と前記3事象相互情報量計算工程手段により算出された相互情報量情報をプロットした図表を生成し、この図表を所定の表示手段に表示する分析結果表示処理工程と
を有したことを特徴とする転写因子分析方法。
(Appendix 5) A transcription factor analysis method for analyzing the relationship between gene expression and transcription factors,
A binding probability calculation step of calculating a binding probability of the first transcription factor, the second transcription factor, and the biological tissue in gene expression;
Two-event mutual information calculation step means for calculating a mutual information amount of two events representing the co-occurrence of the first transcription factor and the second transcription factor based on the binding probability calculated by the binding probability calculation step; ,
3-event mutual information calculation step means for calculating the mutual information of the first transcription factor and the three events representing the tissue specificity of the second transcription factor based on the binding probability calculated by the binding probability calculation step; ,
Mutually calculated by the two-event mutual information calculation process means and the three-event mutual information calculation process means on a two-dimensional coordinate taking the co-occurrence on one axis and the tissue specificity on the other axis. A transcription factor analysis method comprising: generating a chart plotting information amount information and displaying the chart on a predetermined display means.
(付記6)前記分析結果表示処理工程は、表示手段に表示した図表上の相互情報量の一つが選択されたならば、その相互情報量に係る詳細情報を表示手段に表示することを特徴とする付記5に記載の転写因子分析方法。
(Appendix 6) The analysis result display processing step is characterized in that, when one of the mutual information amounts on the chart displayed on the display means is selected, detailed information relating to the mutual information amount is displayed on the display means. The transcription factor analysis method according to
(付記7)未知の転写因子の名称および塩基配列情報の登録を受け付ける未知転写因子登録工程をさらに有し、
前記結合確率計算工程は、前記未知転写因子登録工程により登録された転写因子を第1の転写因子と第2の転写因子の一方、もしくは両方に当てはめた結合確率をさらに計算することを特徴とする付記5または6に記載の転写因子分析方法。
(付記8)ゲノム情報から未知の転写因子の塩基配列情報を生成する未知転写因子生成工程をさらに有し、
前記結合確率計算工程は、前記未知転写因子生成工程により生成された転写因子を第1の転写因子と第2の転写因子の一方、もしくは両方に当てはめた結合確率をさらに計算することを特徴とする付記5または6に記載の転写因子分析方法。
(Additional remark 7) It further has the unknown transcription factor registration process which receives registration of the name and base sequence information of an unknown transcription factor,
The binding probability calculating step further calculates a binding probability obtained by applying the transcription factor registered in the unknown transcription factor registration step to one or both of the first transcription factor and the second transcription factor. The transcription factor analysis method according to
(Additional remark 8) It further has the unknown transcription factor production | generation process which produces | generates the base sequence information of an unknown transcription factor from genome information,
The binding probability calculating step further calculates a binding probability obtained by applying the transcription factor generated by the unknown transcription factor generating step to one or both of the first transcription factor and the second transcription factor. The transcription factor analysis method according to
(付記9)遺伝子の発現と転写因子との関連を分析する転写因子分析装置であって、
遺伝子の発現における第1の転写因子と、第2の転写因子と、生体組織との結合確率を計算する結合確率計算手段と、
前記結合確率計算手段により算出された結合確率に基づいて第1の転写因子と、第2の転写因子の共起性を表す2事象の相互情報量を計算する2事象相互情報量計算手段手段と、
前記結合確率計算手段により算出された結合確率に基づいて第1の転写因子と、第2の転写因子の組織特異性を表す3事象の相互情報量を計算する3事象相互情報量計算手段手段と、
共起性を一方の軸にとり、組織特異性をもう一方の軸にとった2次元の座標上に前記2事象相互情報量計算手段手段と前記3事象相互情報量計算手段手段により算出された相互情報量情報をプロットした図表を生成し、この図表を所定の表示手段に表示する分析結果表示処理手段と
を備えたことを特徴とする転写因子分析装置。
(Appendix 9) A transcription factor analyzer for analyzing the relationship between gene expression and transcription factors,
A binding probability calculating means for calculating a binding probability of the first transcription factor, the second transcription factor, and the biological tissue in gene expression;
Two-event mutual information calculation means for calculating the mutual information of two events representing the co-occurrence of the first transcription factor and the second transcription factor based on the binding probability calculated by the binding probability calculation means; ,
Three-event mutual information calculation means for calculating mutual information of three events representing the tissue specificity of the first transcription factor and the second transcription factor based on the binding probability calculated by the binding probability calculation means; ,
The mutual events calculated by the two-event mutual information calculation means and the three-event mutual information calculation means on the two-dimensional coordinates taking the co-occurrence on one axis and the tissue specificity on the other axis. A transcription factor analyzing apparatus comprising: an analysis result display processing means for generating a chart in which information amount information is plotted and displaying the chart on a predetermined display means.
(付記10)前記分析結果表示処理手段は、表示手段に表示した図表上の相互情報量の一つが選択されたならば、その相互情報量に係る詳細情報を表示手段に表示することを特徴とする付記9に記載の転写因子分析装置。 (Supplementary Note 10) The analysis result display processing means, when one of the mutual information amounts on the chart displayed on the display means is selected, displays detailed information on the mutual information amount on the display means. The transcription factor analyzer according to appendix 9.
(付記11)未知の転写因子の名称および塩基配列情報の登録を受け付ける未知転写因子登録手段をさらに備え、
前記結合確率計算手段は、前記未知転写因子登録手段により登録された転写因子を第1の転写因子と第2の転写因子の一方、もしくは両方に当てはめた結合確率をさらに計算することを特徴とする付記9または10に記載の転写因子分析装置。
(付記12)ゲノム情報から未知の転写因子の塩基配列情報を生成する未知転写因子生成手段をさらに備え、
前記結合確率計算手段は、前記未知転写因子生成手段により生成された転写因子を第1の転写因子と第2の転写因子の一方、もしくは両方に当てはめた結合確率をさらに計算することを特徴とする付記9または10に記載の転写因子分析装置。
(Supplementary note 11) An unknown transcription factor registration means for accepting registration of the name and base sequence information of an unknown transcription factor,
The binding probability calculation means further calculates a binding probability in which the transcription factor registered by the unknown transcription factor registration means is applied to one or both of the first transcription factor and the second transcription factor. The transcription factor analyzer according to
(Additional remark 12) The transcription | transfer element production | generation means which produces | generates the base sequence information of an unknown transcription factor from genome information is further provided,
The binding probability calculating means further calculates a binding probability in which the transcription factor generated by the unknown transcription factor generating means is applied to one or both of the first transcription factor and the second transcription factor. The transcription factor analyzer according to
以上のように、本発明にかかる転写因子分析プログラムおよび転写因子分析方法は、転写因子の分析に有用であり、特に、多数の転写因子の組み合わせから遺伝子の発現と関連が深いと予想されるものを抽出して効率的に調査をおこなうことが必要な場合に適している。 As described above, the transcription factor analysis program and the transcription factor analysis method according to the present invention are useful for the analysis of transcription factors, and in particular, those that are expected to be closely related to gene expression from combinations of a large number of transcription factors. It is suitable for the case where it is necessary to extract and efficiently investigate.
100 DBサーバ
110 転写因子配列情報DB
120 遺伝子発現情報DB
130 ゲノム配列情報DB
140 遺伝子マッピング情報DB
200 転写因子分析装置
201 転写因子分析装置
210 入力部
220 表示部
230 インターフェース部
240 制御部
240a 条件入力受付部
240b 結合判定処理部
240c 離散化処理部
240d 確率化処理部
240e 結合確率計算部
240f 2事象相互情報量計算部
240g 3事象相互情報量計算部
240h 分析結果表示処理部
240i 情報取得部
240j 未知転写因子登録部
250 記憶部
250a 結合判定結果記憶部
250b 離散化結果記憶部
250c 確率化結果記憶部
250d 結合確率記憶部
250e 相互情報量記憶部
250f 未知転写因子記憶部
100
120 Gene expression information DB
130 Genome sequence information DB
140 Gene mapping information DB
200
Claims (5)
遺伝子の発現における第1の転写因子と、第2の転写因子と、生体組織との結合確率を計算する結合確率計算手順と、
前記結合確率計算手順により算出された結合確率に基づいて第1の転写因子と、第2の転写因子の共起性を表す2事象の相互情報量を計算する2事象相互情報量計算手順手段と、
前記結合確率計算手順により算出された結合確率に基づいて第1の転写因子と、第2の転写因子の組織特異性を表す3事象の相互情報量を計算する3事象相互情報量計算手順手段と、
共起性を一方の軸にとり、組織特異性をもう一方の軸にとった2次元の座標上に前記2事象相互情報量計算手順手段と前記3事象相互情報量計算手順手段により算出された相互情報量情報をプロットした図表を生成し、この図表を所定の表示手段に表示する分析結果表示処理手順と
をコンピュータに実行させることを特徴とする転写因子分析プログラム。 A transcription factor analysis program for analyzing the relationship between gene expression and transcription factors,
A binding probability calculation procedure for calculating the binding probability of the first transcription factor, the second transcription factor, and the biological tissue in the expression of the gene;
Two-event mutual information calculation procedure means for calculating the mutual information of two events representing the co-occurrence of the first transcription factor and the second transcription factor based on the binding probability calculated by the binding probability calculation procedure; ,
A three-event mutual information calculation procedure means for calculating a mutual information amount of three events representing the tissue specificity of the first transcription factor and the second transcription factor based on the binding probability calculated by the binding probability calculation procedure; ,
Mutually calculated by the two-event mutual information calculation procedure means and the three-event mutual information calculation procedure means on a two-dimensional coordinate taking the co-occurrence as one axis and the tissue specificity as the other axis. A transcription factor analysis program characterized by causing a computer to generate a chart on which information amount information is plotted and to display an analysis result display processing procedure for displaying the chart on a predetermined display means.
前記結合確率計算手順は、前記未知転写因子登録手順により登録された転写因子を第1の転写因子と第2の転写因子の一方、もしくは両方に当てはめた結合確率をさらに計算することを特徴とする請求項1または2に記載の転写因子分析プログラム。 The computer further executes an unknown transcription factor registration procedure for accepting registration of an unknown transcription factor name and nucleotide sequence information,
The binding probability calculation procedure further calculates a binding probability in which the transcription factor registered by the unknown transcription factor registration procedure is applied to one or both of the first transcription factor and the second transcription factor. The transcription factor analysis program according to claim 1 or 2.
前記結合確率計算手順は、前記未知転写因子生成手順により生成された転写因子を第1の転写因子と第2の転写因子の一方、もしくは両方に当てはめた結合確率をさらに計算することを特徴とする請求項1または2に記載の転写因子分析プログラム。 The computer further executes an unknown transcription factor generation procedure for generating base sequence information of an unknown transcription factor from genomic information,
The binding probability calculation procedure further calculates a binding probability in which the transcription factor generated by the unknown transcription factor generation procedure is applied to one or both of the first transcription factor and the second transcription factor. The transcription factor analysis program according to claim 1 or 2.
遺伝子の発現における第1の転写因子と、第2の転写因子と、生体組織との結合確率を計算する結合確率計算工程と、
前記結合確率計算工程により算出された結合確率に基づいて第1の転写因子と、第2の転写因子の共起性を表す2事象の相互情報量を計算する2事象相互情報量計算工程手段と、
前記結合確率計算工程により算出された結合確率に基づいて第1の転写因子と、第2の転写因子の組織特異性を表す3事象の相互情報量を計算する3事象相互情報量計算工程手段と、
共起性を一方の軸にとり、組織特異性をもう一方の軸にとった2次元の座標上に前記2事象相互情報量計算工程手段と前記3事象相互情報量計算工程手段により算出された相互情報量情報をプロットした図表を生成し、この図表を所定の表示手段に表示する分析結果表示処理工程と
を有したことを特徴とする転写因子分析方法。 A transcription factor analysis method for analyzing the relationship between gene expression and transcription factors,
A binding probability calculation step of calculating a binding probability of the first transcription factor, the second transcription factor, and the biological tissue in gene expression;
Two-event mutual information calculation step means for calculating a mutual information amount of two events representing the co-occurrence of the first transcription factor and the second transcription factor based on the binding probability calculated by the binding probability calculation step; ,
3-event mutual information calculation step means for calculating the mutual information of the first transcription factor and the three events representing the tissue specificity of the second transcription factor based on the binding probability calculated by the binding probability calculation step; ,
Mutually calculated by the two-event mutual information calculation process means and the three-event mutual information calculation process means on a two-dimensional coordinate taking the co-occurrence on one axis and the tissue specificity on the other axis. A transcription factor analysis method comprising: generating a chart plotting information amount information and displaying the chart on a predetermined display means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004257713A JP2006072861A (en) | 2004-09-03 | 2004-09-03 | Transcription factor analysis program and transcription factor analysis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004257713A JP2006072861A (en) | 2004-09-03 | 2004-09-03 | Transcription factor analysis program and transcription factor analysis method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006072861A true JP2006072861A (en) | 2006-03-16 |
Family
ID=36153398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004257713A Withdrawn JP2006072861A (en) | 2004-09-03 | 2004-09-03 | Transcription factor analysis program and transcription factor analysis method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006072861A (en) |
-
2004
- 2004-09-03 JP JP2004257713A patent/JP2006072861A/en not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | A comprehensive survey of regulatory network inference methods using single cell RNA sequencing data | |
Palamara et al. | High-throughput inference of pairwise coalescence times identifies signals of selection and enriched disease heritability | |
Turatsinze et al. | Using RSAT to scan genome sequences for transcription factor binding sites and cis-regulatory modules | |
Blanchette et al. | Aligning multiple genomic sequences with the threaded blockset aligner | |
Cheng et al. | SCRATCH: a protein structure and structural feature prediction server | |
Williams et al. | RNA‐seq data: challenges in and recommendations for experimental design and analysis | |
Koh et al. | EVA: evaluation of protein structure prediction servers | |
Doerge | Mapping and analysis of quantitative trait loci in experimental populations | |
Kumar et al. | HELANAL-Plus: a web server for analysis of helix geometry in protein structures | |
Swamidass et al. | A CROC stronger than ROC: measuring, visualizing and optimizing early retrieval | |
Tran et al. | A survey of motif finding Web tools for detecting binding site motifs in ChIP-Seq data | |
Derkach et al. | Power Analysis for Genetic Association Test (PAGEANT) provides insights to challenges for rare variant association studies | |
Samudrala et al. | A comprehensive analysis of 40 blind protein structure predictions | |
Giardine et al. | GALA, a database for genomic sequence alignments and annotations | |
Zhang et al. | ES-ARCNN: Predicting enhancer strength by using data augmentation and residual convolutional neural network | |
Li et al. | A method for scoring the cell type-specific impacts of noncoding variants in personal genomes | |
Wang et al. | FSSA: a novel method for identifying functional signatures from structural alignments | |
Maetschke et al. | A visual framework for sequence analysis using n-grams and spectral rearrangement | |
Chen et al. | CropGS-Hub: a comprehensive database of genotype and phenotype resources for genomic prediction in major crops | |
Liu et al. | Clustering DNA sequences by feature vectors | |
WO2016123472A2 (en) | Analyzing characteristics of genomic regions of a genome | |
KR101684742B1 (en) | Method and system for drug virtual screening and construction of focused screening library | |
Khan et al. | In silico and structure-based assessment to classify VUS identified in the α-helical domain of BRCA2 | |
Holland et al. | Contact prediction is hardest for the most informative contacts, but improves with the incorporation of contact potentials | |
JP2006072861A (en) | Transcription factor analysis program and transcription factor analysis method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20071106 |