JP5453613B2 - Gene clustering apparatus and program - Google Patents

Gene clustering apparatus and program Download PDF

Info

Publication number
JP5453613B2
JP5453613B2 JP2008252353A JP2008252353A JP5453613B2 JP 5453613 B2 JP5453613 B2 JP 5453613B2 JP 2008252353 A JP2008252353 A JP 2008252353A JP 2008252353 A JP2008252353 A JP 2008252353A JP 5453613 B2 JP5453613 B2 JP 5453613B2
Authority
JP
Japan
Prior art keywords
gene
clustering
motif
sequence
expression data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008252353A
Other languages
Japanese (ja)
Other versions
JP2010086142A (en
Inventor
毅 井澤
基広 三原
仁 藤宮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Agrobiological Sciences
Original Assignee
National Institute of Agrobiological Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Agrobiological Sciences filed Critical National Institute of Agrobiological Sciences
Priority to JP2008252353A priority Critical patent/JP5453613B2/en
Publication of JP2010086142A publication Critical patent/JP2010086142A/en
Application granted granted Critical
Publication of JP5453613B2 publication Critical patent/JP5453613B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置およびプログラムに関する。   The present invention relates to a gene clustering apparatus and program for clustering a plurality of genes based on sequence similarity.

機能の分からない遺伝子の働きを推定するには、すでに知られている遺伝子に対する類似性を評価し、配列の類似性に基づいてクラスタリングを行う手法が有効であることが知られている。
従来、遺伝子のクラスタリングには最大節約法、最尤法、近隣結合法などが用いられている。これらの方法は、クラスタリング対象となる遺伝子の配列を直接比較しながら、系統樹を作成する点が共通である。このようなクラスタリングを利用した例として、非特許文献1に開示されたクラスタリングとアラインメントのためのプログラムなどがあげられる。
In order to estimate the function of a gene whose function is unknown, it is known that a technique of evaluating similarity to a known gene and performing clustering based on sequence similarity is effective.
Conventionally, a maximum saving method, a maximum likelihood method, a neighborhood connection method, and the like are used for gene clustering. These methods are common in that a phylogenetic tree is created while directly comparing the sequences of genes to be clustered. As an example using such clustering, a clustering and alignment program disclosed in Non-Patent Document 1 can be cited.

従来の遺伝子クラスタリング方法では、一つひとつの遺伝子の塩基配列に着目し、個々の塩基配列の変異の時期や前後関係を推定することで系統樹を作成している。しかしながら、これらの方法では、遺伝的にかなり離れてしまっているものや、分化したあとに新たに獲得された機能など、大幅に全体の配列が異なるようなもの同士は比較できないという問題があった。従来のクラスタリングは、進化的な過程で発生する程度の配列変化、すなわち比較的変化の少ない遺伝子同士を比較するのには適している。   In the conventional gene clustering method, a phylogenetic tree is created by paying attention to the base sequence of each gene, and estimating the time and context of mutation of each base sequence. However, with these methods, there is a problem that it is not possible to compare things that are significantly different from each other, such as those that are genetically separated or functions that are newly acquired after differentiation. . Conventional clustering is suitable for comparing gene changes that occur in an evolutionary process, that is, genes with relatively little change.

CLUSTAL W:improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice; J.D.Thompson et.al.; Nucleic acids Research, 1994, Vol. 22, No.22 4673-4680.CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice; J.D.Thompson et.al .; Nucleic acids Research, 1994, Vol. 22, No.22 4673-4680.

上述のように、従来のクラスタリング方法のように全ての遺伝子配列をそのまま用いてクラスタリングする方法では、進化的に離れた遺伝子のクラスタリングを行うことは難しかった。また、遺伝子の機能や関係するタンパク質などを絞り込むためには、遺伝子の配列に含まれる情報だけで判断することは非常に難しかった。   As described above, it is difficult to cluster genes that are evolutionarily separated by the method of clustering using all gene sequences as they are, as in the conventional clustering method. In addition, in order to narrow down gene functions and related proteins, it was very difficult to make a judgment based only on information contained in gene sequences.

本発明は、進化的に離れた生物の遺伝子でも、類似した機能を持つ遺伝子を発見できるような遺伝子クラスタリング装置およびプログラムを提供することを目的とする。   An object of the present invention is to provide a gene clustering apparatus and program that can discover genes having similar functions even in genes of evolutionary distant organisms.

また、本発明の第二の目的は、遺伝子の配列情報のみではなく、遺伝子発現データも利用することでさらにそれぞれの機能を類推しやすい情報を提供することである。   The second object of the present invention is to provide not only gene sequence information but also gene expression data to provide information that makes it easier to infer each function.

本発明に係る遺伝子クラスタリング装置は、複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置であって、遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部と、各々の遺伝子の発現データを遺伝子発現データ記憶部から取得する発現データ取得部と、取得した前記各々の遺伝子の発現データを、各々の遺伝子に対応した位置に表示する発現データ表示部とを備える。
本発明では、遺伝子配列に含まれるモチーフを指標として遺伝子の類似度を解析したクラスタと遺伝子発現データの関係を比較するようにした。進化的には離れていても類似した機能を持つ遺伝子は同様のモチーフを持っていることが多いため、本発明は、広い生物種間での機能類似遺伝子の発見や、未知の遺伝子の機能推定等に大変有効である。また、モチーフレベルで類似で同様な機能が期待されながら遺伝子発現の時期などの相違があるものを見出すことで、さらにターゲットとなるタンパク質などの相違などを推定するのに大変有効である。
The gene clustering apparatus according to the present invention is a gene clustering apparatus that clusters a plurality of genes based on sequence similarity, and includes a motif search unit that searches for a motif sequence included in a gene sequence, and each gene sequence A motif score calculation unit for calculating a similarity score between two arbitrary genes by comparing motif sequences to be calculated, and an intergenic distance for calculating an intergenic distance between any two genes using the similarity score A calculation unit, a clustering processing unit that performs clustering of the plurality of genes based on the inter-gene distance, an expression data acquisition unit that acquires expression data of each gene from a gene expression data storage unit, and the acquired each Expression data display section that displays the expression data of each gene at the position corresponding to each gene Equipped with a.
In the present invention, the relationship between the gene expression data and the cluster analyzed for the gene similarity is compared using the motif included in the gene sequence as an index. Since genes that have similar functions even though they are evolutionarily separated often have similar motifs, the present invention can be used to discover functionally similar genes among a wide range of species and to estimate the functions of unknown genes. It is very effective. In addition, it is very effective to estimate the difference in the target protein and the like by finding the similar and similar functions at the motif level but different in the timing of gene expression.

本発明に係る遺伝子クラスタリング装置は、複数の遺伝子を2つ以上の特徴ベクトル量を用いてそれぞれクラスタリングを行った結果を比較する遺伝子クラスタリング装置であって、それぞれの前記特徴ベクトル量を用いてクラスタリングを実行するクラスタリング処理部と、前記クラスタリングの結果に基づいて、それぞれのサブクラスタの距離情報を一次元の階調数列に変換する階調変換部と、それぞれの前記特徴ベクトル量を用いたクラスタリング結果について、前記一次元の階調数列に変換した結果を並列に表示する並列表示部とを備える。   A gene clustering apparatus according to the present invention is a gene clustering apparatus that compares the results of clustering a plurality of genes using two or more feature vector quantities, and performs clustering using each of the feature vector quantities. Clustering processing unit to be executed, tone conversion unit for converting distance information of each sub-cluster into a one-dimensional tone number sequence based on the result of clustering, and clustering result using each feature vector amount And a parallel display unit for displaying in parallel the result of conversion into the one-dimensional gradation sequence.

本発明によれば、それぞれの遺伝子に関する異なるデータに基づいて作成された2つ以上のデンドログラムが、どの程度類似しているかを容易に比較、把握できる。特にモチーフを基にしたデンドログラムから構造的に類似であることが分かっている遺伝子群に対して、発現時期や発現部位などによって発現パターンが異なっていることが容易に把握できる。これらの情報を利用することにより、遺伝子としての機能の違い、つまり、生成されたタンパク質の相互作用する相手が異なっている可能性や、作用するネットワークに相違があることなど、重要な情報を得ることができる。   According to the present invention, it is possible to easily compare and grasp how similar two or more dendrograms created based on different data related to each gene are. In particular, it can be easily understood that the expression pattern differs depending on the expression time, expression site, and the like for gene groups that are known to be structurally similar from the dendrogram based on the motif. By using this information, we obtain important information such as differences in gene function, that is, the partner with which the generated protein interacts and the network in which it interacts. be able to.

本発明に係るコンピュータプログラムは、コンピュータを、複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置として機能させるプログラムであって、遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部と、各々の遺伝子の発現データを遺伝子発現データ記憶部から取得する発現データ取得部と、取得した前記各々の遺伝子の発現データを、各々の遺伝子に対応した位置に表示する発現データ表示部として機能させる。
本発明では、遺伝子配列に含まれるモチーフを指標として遺伝子の類似度を解析したクラスタと遺伝子発現データの関係を比較するようにした。進化的には離れていても類似した機能を持つ遺伝子は同様のモチーフを持っていることが多いため、本発明は、広い生物種間での機能類似遺伝子の発見や、未知の遺伝子の機能推定等に大変有効である。また、モチーフレベルで類似で同様な機能が期待されながら遺伝子発現の時期などの相違があるものを見出すことで、さらにターゲットとなるタンパク質などの相違などを推定するのに大変有効である。
A computer program according to the present invention is a program that causes a computer to function as a gene clustering apparatus that clusters a plurality of genes based on sequence similarity, and a motif search unit that searches for a motif sequence included in a gene sequence; A motif score calculator that calculates the similarity score of any two genes by comparing the motif sequences included in each gene sequence, and the intergenic distance between any two genes using the similarity score An intergene distance calculation unit that calculates a clustering processing unit that clusters the plurality of genes based on the intergene distance, and an expression data acquisition unit that acquires expression data of each gene from a gene expression data storage unit And the obtained expression data of each gene, To function as an expression data display unit for displaying the corresponding positions.
In the present invention, the relationship between the gene expression data and the cluster analyzed for the gene similarity is compared using the motif included in the gene sequence as an index. Since genes that have similar functions even though they are evolutionarily separated often have similar motifs, the present invention can be used to discover functionally similar genes among a wide range of species and to estimate the functions of unknown genes. It is very effective. In addition, it is very effective to estimate the difference in the target protein and the like by finding the similar and similar functions at the motif level but different in the timing of gene expression.

本発明に係るコンピュータプログラムは、コンピュータを、複数の遺伝子を2つ以上の特徴ベクトル量を用いてそれぞれクラスタリングを行った結果を比較する遺伝子クラスタリング装置として機能させるプログラムであって、それぞれの前記特徴ベクトル量を用いてクラスタリングを実行するクラスタリング処理部と、前記クラスタリングの結果に基づいて、それぞれのサブクラスタの距離情報を一次元の階調数列に変換する階調変換部と、それぞれの前記特徴ベクトル量を用いたクラスタリング結果について、前記一次元の階調数列に変換した結果を並列に表示する並列表示部として機能させる。
本発明によれば、それぞれの遺伝子に関する異なるデータに基づいて作成された2つ以上のデンドログラムが、どの程度類似しているかを容易に比較、把握できる。特にモチーフを基にしたデンドログラムから構造的に類似であることが分かっている遺伝子群に対して、発現時期や発現部位などによって発現パターンが異なっていることが容易に把握できる。これらの情報を利用することにより、遺伝子としての機能の違い、つまり、生成されたタンパク質の相互作用する相手が異なっている可能性や、作用するネットワークに相違があることなど、重要な情報を得ることができる。
A computer program according to the present invention is a program that causes a computer to function as a gene clustering apparatus that compares the results of clustering a plurality of genes using two or more feature vector quantities, and each of the feature vectors. A clustering processing unit that performs clustering using a quantity, a tone conversion unit that converts distance information of each sub-cluster into a one-dimensional tone sequence based on the result of the clustering, and each of the feature vector quantities As for the clustering result using, the result converted into the one-dimensional gradation number sequence is made to function as a parallel display unit for displaying in parallel.
According to the present invention, it is possible to easily compare and grasp how similar two or more dendrograms created based on different data related to each gene are. In particular, it can be easily understood that the expression pattern differs depending on the expression time, expression site, and the like for gene groups that are known to be structurally similar from the dendrogram based on the motif. By using this information, we obtain important information such as differences in gene function, that is, the partner with which the generated protein interacts and the network in which it interacts. be able to.

以下、本発明の実施の形態について図面を参照して説明する。
実施の形態1.
図1は、本発明の実施の形態1による、遺伝子クラスタリング装置10の機能構成を示すブロック図である。図に示すように、遺伝子クラスタリング装置10は、入力装置11、ユーザインターフェイス部12、データアクセス部13、遺伝子配列記憶部14、スコア記憶部15、モチーフ記憶部16、遺伝子発現データ記憶部17、モチーフ検索部18、モチーフスコア計算部19、遺伝子間距離計算部20、クラスタリング処理部21、発現データ取得部22、出力装置23、発現データ表示部24を備えている。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a functional configuration of a gene clustering apparatus 10 according to Embodiment 1 of the present invention. As shown in the figure, the gene clustering device 10 includes an input device 11, a user interface unit 12, a data access unit 13, a gene sequence storage unit 14, a score storage unit 15, a motif storage unit 16, a gene expression data storage unit 17, a motif A search unit 18, a motif score calculation unit 19, an intergene distance calculation unit 20, a clustering processing unit 21, an expression data acquisition unit 22, an output device 23, and an expression data display unit 24 are provided.

遺伝子クラスタリング装置10は、例えば汎用的なパーソナルコンピュータに所定のプログラムを実行させたものである。ユーザインターフェイス部12、データアクセス部13、モチーフ検索部18、モチーフスコア計算部19、遺伝子間距離計算部20、クラスタリング処理部21、発現データ取得部22、および発現データ表示部24は、プログラムに従ってコンピュータのプロセッサが行う動作のモジュールを表しており、これらは実際には一体として遺伝子クラスタリング装置10のプロセッサを構成する。   The gene clustering apparatus 10 is obtained by causing a general-purpose personal computer to execute a predetermined program, for example. The user interface unit 12, data access unit 13, motif search unit 18, motif score calculation unit 19, intergene distance calculation unit 20, clustering processing unit 21, expression data acquisition unit 22, and expression data display unit 24 are computers according to programs. The modules of the operations performed by these processors are shown, and these actually constitute the processor of the gene clustering apparatus 10 as a whole.

遺伝子配列記憶部14、スコア記憶部15、モチーフ記憶部16、および発現データ記憶部17は、遺伝子クラスタリング装置10のハードディスク等の記憶装置である。
入力装置11は、例えばキーボード、マウス、タッチパネル等の入力手段であり、ユーザが遺伝子クラスタリング装置10に処理の指示を与えたり、データやパラメータを入力するために用いられる。また、USB(Universal Serial Bus)インターフェイスを介して、メモリ媒体などからデータを読み込むことも可能である。ユーザによる入力装置11を介した操作はユーザインターフェイス部12によって制御される。
出力装置23は、表示装置やプリンタ等である。
The gene sequence storage unit 14, the score storage unit 15, the motif storage unit 16, and the expression data storage unit 17 are storage devices such as a hard disk of the gene clustering device 10.
The input device 11 is input means such as a keyboard, a mouse, and a touch panel, for example, and is used by the user to give processing instructions to the gene clustering device 10 and to input data and parameters. It is also possible to read data from a memory medium or the like via a USB (Universal Serial Bus) interface. The operation through the input device 11 by the user is controlled by the user interface unit 12.
The output device 23 is a display device, a printer, or the like.

次に本実施形態による遺伝子クラスタリング処理ついて説明する。解析対象の遺伝子配列データと、それらの遺伝子発現データはあらかじめ入力装置11より、ユーザインターフェイス部12を経由し、デーアクセス部13を経由し、遺伝子配列記憶部14および遺伝子発現データ記憶部17に格納される。またクラスタリングに必要となる遺伝子配列比較のためのスコアデータは、同様に入力装置11から入力され、スコア記憶部15に格納される。まず、クラスタリングの対象となる遺伝子群の配列情報が遺伝子配列記憶部14からデータアクセス部13を介してモチーフ検索部18に供給される。   Next, the gene clustering process according to the present embodiment will be described. The gene sequence data to be analyzed and the gene expression data are stored in advance in the gene sequence storage unit 14 and the gene expression data storage unit 17 from the input device 11 via the user interface unit 12 and the data access unit 13. Is done. Score data for gene sequence comparison necessary for clustering is similarly input from the input device 11 and stored in the score storage unit 15. First, the sequence information of the gene group to be clustered is supplied from the gene sequence storage unit 14 to the motif search unit 18 via the data access unit 13.

図2は、クラスタリングの対象となる遺伝子群の例を示す図である。ここでは、対象となる遺伝子の遺伝子番号とその生物種を示している。図2に示す例は、トウモロコシ(Zea mays)のID1(indeterminate1)遺伝子をqueryとして、イネ(Oryza Sativa)、シロイヌナズナ(arabidopsis thaliana)、および紅藻のアミノ酸配列に対してblastサーチ(閾値1e-30)を行い、ヒットした遺伝子を示している。   FIG. 2 is a diagram showing an example of gene groups to be clustered. Here, the gene number of the target gene and its species are shown. The example shown in FIG. 2 is a blast search (threshold 1e-30) for amino acid sequences of rice (Oryza Sativa), Arabidopsis thaliana, and red algae using the corn (Zea mays) ID1 (indeterminate1) gene as a query. ) And shows the hit genes.

なお、それぞれの遺伝子配列は、例えば以下のサイトで参照することができる。
イネ: http://rapdb.lab.nig.ac.jp/(RAP1)
シロイヌナズナ: http://mips.gsf.de/proj/thal/db/(MIPS)
紅藻:http://merolae.biol.s.u-tokyo.ac.jp/
Each gene sequence can be referred to, for example, at the following site.
Rice: http://rapdb.lab.nig.ac.jp/ (RAP1)
Arabidopsis: http://mips.gsf.de/proj/thal/db/ (MIPS)
Red algae: http://merolae.biol.su-tokyo.ac.jp/

ID1遺伝子はトウモロコシにおいて花成を制御している遺伝子として単離されたものであり、ジンクフィンガーをもつ転写因子をコードしている。
なお、遺伝子群の選び方は上記の方法に限られず、他の配列解析手法を用いてもよい。
The ID1 gene has been isolated as a gene that controls flowering in maize, and encodes a transcription factor having a zinc finger.
The method for selecting a gene group is not limited to the above method, and other sequence analysis methods may be used.

次に、供給された遺伝子群を対象にモチーフ検索部18においてモチーフ検索を実行する。モチーフは、タンパク質構造中の活性部位や機能領域に対応した配列パターンである。モチーフ検索は、例えばMEME(Bailey and Elkan, 1994)などの手法を用いて行うことができる。図3は、図2にその一部を示した遺伝子群に対してモチーフ検索を行った結果得られるモチーフデータの例を示す図である。図中、番号を付された四角で表されたものが個々のモチーフに対応する。例えば、ID1遺伝子は、5番、2番、3番、1番、7番、6番、18番で表されるモチーフ配列を有していることが分かる。一般に、遺伝的にかなり離れている場合でも、機能的に類似した遺伝子同士は同じモチーフを持っていることが多い。   Next, a motif search is performed in the motif search unit 18 for the supplied gene group. A motif is a sequence pattern corresponding to an active site or a functional region in a protein structure. The motif search can be performed using a technique such as MEME (Bailey and Elkan, 1994). FIG. 3 is a diagram illustrating an example of motif data obtained as a result of a motif search performed on the gene group partially shown in FIG. In the figure, the numbered squares correspond to individual motifs. For example, it is understood that the ID1 gene has a motif sequence represented by No. 5, No. 2, No. 3, No. 1, No. 7, No. 6, No. 18. In general, functionally similar genes often have the same motif even if they are genetically separated.

モチーフ検索を行うことにより、各々の遺伝子の配列の中から、主要な構造・機能を決めるために寄与していると考えられる大小さまざまな部分配列の情報を得ることができる。得られたモチーフデータはモチーフ記憶部16に保存される。   By performing a motif search, it is possible to obtain information on partial sequences of various sizes, which are considered to contribute to determining the main structure / function, from the sequence of each gene. The obtained motif data is stored in the motif storage unit 16.

次に、モチーフスコア計算部19において、クラスタリング対象となる全ての遺伝子同士を比較して、含まれるモチーフ配列でみた類似度を表すスコアを算出する。類似度スコア算出には、アミノ酸相互の置換確率に基づくPAM(Point-Accepted Mutation、In Margaret O. Dayhoff, editor, Atlas of Protein Sequence and Structure, volume 5, pages 345-352. National Biochemical Research Foundation, Washington DC, 1978)やBLOSUM(Blocs Substitution Matrix、Henikoff and Henikoff (1992; PNAS 89:10915-10919))などを用いることができる。スコア記憶部15には、これらの手法で用いられるスコアデータが保存されている。
なお、本実施形態では、モチーフ以外の領域についてはスコア算出を行っていない。これはモチーフ以外の部分をスコア0とみなしていることを意味する。モチーフという配列が保存された部分に絞り、スコアを算出することで高速にクラスタリングを実施している。もし、さらに必要があれば、単に保存された配列モチーフだけでなく、二次構造予測などの機能を加え、αヘリックスやβシートなどを決めている構造部分を抽出し、それらをモチーフとしてスコアを与えることで、機能だけでなく構造類似のクラスタリングを行わせることも可能である。
Next, the motif score calculation unit 19 compares all the genes to be clustered, and calculates a score representing the degree of similarity seen from the included motif sequences. For similarity score calculation, PAM (Point-Accepted Mutation, In Margaret O. Dayhoff, editor, Atlas of Protein Sequence and Structure, volume 5, pages 345-352. National Biochemical Research Foundation, Washington DC, 1978) and BLOSUM (Blocs Substitution Matrix, Henikoff and Henikoff (1992; PNAS 89: 10915-10919)) and the like can be used. The score storage unit 15 stores score data used in these methods.
In the present embodiment, score calculation is not performed for regions other than the motif. This means that the part other than the motif is regarded as score 0. Clustering is performed at high speed by narrowing down to the part where the sequence called motif is stored and calculating the score. If there is a further need, add not only the conserved sequence motif but also a function such as secondary structure prediction to extract the structural part that determines α-helix and β-sheet, and score them as motifs By giving, it is possible to perform not only functions but also structure-like clustering.

類似度スコア算出方法について説明する。
例えば、遺伝子1に含まれるモチーフ1と、遺伝子2に含まれるモチーフ2の配列が下記のとおりとする。
モチーフ1:WKCEKCAK
モチーフ2:WKCDKCN
A similarity score calculation method will be described.
For example, the sequences of motif 1 included in gene 1 and motif 2 included in gene 2 are as follows.
Motif 1: WKCEKCAK
Motif 2: WKCDKCN

モチーフ1とモチーフ2の最初のアミノ酸残基はWなので、図4に示すPAM40のマトリクスのWの行のWの列を参照すると、スコアは13であることが分かる。2番目のアミノ酸残基は両配列ともKであり、スコアは6であることが分かる。このように順にスコアを求めてそれらを加算すると、モチーフ1とモチーフ2のスコアは以下のようになる。
スコア=13+6+9+3+6+9+(−3)=43
このようにして、遺伝子1および遺伝子2に含まれているすべてのモチーフ同士について総当りでスコアを求める。さらに、すべてのモチーフ同士のスコアの和を求め、遺伝子1と遺伝子2の類似度スコアとする。ここで、モチーフ相互に比較するに当たって、アミノ酸残基の欠失や挿入を考慮して最適なスコアを算出する場合は、部分最適並置を求める動的計画法を用いたアルゴリズムSmith-Waterman法(Smith TF, Waterman MS (1981). "Identification of Common Molecular Subsequences". Journal of Molecular Biology 147: 195-197.)を利用している。
Since the first amino acid residue of motif 1 and motif 2 is W, referring to the column of W in the W row of the PAM40 matrix shown in FIG. It can be seen that the second amino acid residue is K for both sequences and the score is 6. When scores are sequentially obtained in this way and added, the scores of motif 1 and motif 2 are as follows.
Score = 13 + 6 + 9 + 3 + 6 + 9 + (− 3) = 43
In this way, a score is obtained for all the motifs included in gene 1 and gene 2 in a round-robin manner. Furthermore, the sum of the scores of all motifs is obtained and used as the similarity score between gene 1 and gene 2. Here, when calculating the optimal score in consideration of deletion and insertion of amino acid residues when comparing motifs, the algorithm Smith-Waterman method (Smith TF, Waterman MS (1981). “Identification of Common Molecular Subsequences”. Journal of Molecular Biology 147: 195-197.).

図5に、上記のようにして求められた遺伝子同士のスコアマトリクスの一部を示す。図5は、4つの遺伝子についての遺伝子相互の類似度スコアを示している。   FIG. 5 shows a part of the score matrix between genes determined as described above. FIG. 5 shows gene similarity scores for the four genes.

次に、遺伝子間距離計算部20において、各遺伝子間の距離を算出する。遺伝子同士の距離はさまざまな定義が可能であるが、本発明では、ピアソンの相関係数を用いる。これは、図5に示すマトリクスの任意の2行のデータを取り出し、相互の要素の相関を求める方法である。相関係数を用いることで、相対的なモチーフ類似度を持つものに対しては相関が高くなり、絶対値の偏りによって離れてしまうことがない。共通モチーフの数が多いものと少ないものなどの差が多少あっても、共通の尺度で補正しながら距離を求めることが可能となる。このほかにコサイン係数を用いることも可能である。   Next, the intergene distance calculation unit 20 calculates the distance between each gene. The distance between genes can be defined in various ways. In the present invention, the Pearson correlation coefficient is used. This is a method of obtaining data of two arbitrary rows of the matrix shown in FIG. 5 and obtaining a correlation between elements. By using the correlation coefficient, the correlation becomes high for those having a relative motif similarity, and the correlation coefficient does not leave due to the bias of the absolute value. Even if there is a slight difference between a large number of common motifs and a small number of common motifs, the distance can be obtained while correcting with a common scale. In addition, a cosine coefficient can be used.

次に、クラスタリング処理部21において、遺伝子間距離計算部20で算出された距離の値を用いてWard法や群平均法などの方法を用いてクラスタリングを実施する。図6にクラスタリング結果のデンドログラムを示す。図6から、トウモロコシのID1遺伝子は、Os10g0419200遺伝子と似た機能を持っていることが示唆される。Os10g0419200遺伝子は、zinc finger proteinをコードしており、Os10g0419200が持つ機能はZinc finger, C2H2 type family proteinと付与されており、実際にID1と類似の機能を持つということが類推できる。   Next, the clustering processing unit 21 performs clustering using a method such as the Ward method or the group average method using the distance value calculated by the intergene distance calculation unit 20. FIG. 6 shows a dendrogram of the clustering result. FIG. 6 suggests that the maize ID1 gene has a function similar to that of the Os10g0419200 gene. The Os10g0419200 gene encodes zinc finger protein, and the function of Os10g0419200 is given as Zinc finger and C2H2 type family protein, and it can be analogized that it actually has a similar function to ID1.

このように、本発明によれば、モチーフの抽出、モチーフの有無と類似度を指標としたクラスタリングという一連の解析が可能となる。モチーフとは、機能ドメインに特徴的な保存配列パターンなどを含み、モチーフを指標として解析することで、遺伝的には離れていても機能的に似た遺伝子を比較解析することができる。アミノ酸配列の置換率を利用した解析はこれまでにも存在しているが、モチーフの有無・類似度を指標とした比較解析の手法は確立されておらず、今後、生物間で保存された機能遺伝子の解析、機能未知遺伝子の機能推定等で利用することが出来る。DNAシーケンシング技術の進歩により、非常に多くの生物種のゲノムの読取が進んできており、必ずしも遺伝的に同祖でない場合でも、機能的に類似なものがクラスタリングにより見出せれば、未知の遺伝子配列の機能を解析するのに非常に有用である。   Thus, according to the present invention, it is possible to perform a series of analyzes of extraction of motifs and clustering using the presence / absence and similarity of motifs as indices. A motif includes a conserved sequence pattern that is characteristic of a functional domain. By analyzing the motif as an index, genes that are functionally similar can be comparatively analyzed even if they are genetically separated. Analyzes using amino acid sequence substitution rates have existed so far, but methods for comparative analysis using the presence or similarity of motifs as indices have not been established, and functions that have been preserved between organisms in the future It can be used for gene analysis, function estimation of unknown function genes, and the like. Advances in DNA sequencing technology have led to the reading of genomes of a large number of species, and even if they are not necessarily genetically homologous, if functionally similar ones can be found by clustering, unknown genes It is very useful for analyzing the function of a sequence.

なお、本発明によるクラスタリング方法は、単に遺伝子のモチーフ情報に限らず、構造的な特徴、つまりαヘリックス、βシート、疎水性、親水性の強いエリアなど種々の指標値に置き換えた数値列パターンを対象に利用することも可能である。また、本発明で説明している遺伝子配列は文字列そのものである。したがって、遺伝子配列はそのまま文字配列のクラスタリングに置き換えることが可能である。あらゆる文字情報あるいは数値情報列に適用可能であることはいうまでもない。文字列ではその一致した文字数をスコアにすることや、単に辞書に存在する単語ごとに一定のスコアを与えるという方法でも問題ない。数字列の場合は、その数値そのものの差やその2乗値を距離として広く適用が可能なことはいうまでもない。   It should be noted that the clustering method according to the present invention is not limited to gene motif information, but a numerical sequence pattern in which structural features are replaced with various index values such as α helix, β sheet, hydrophobic and hydrophilic areas. It can also be used as a target. Further, the gene sequence described in the present invention is a character string itself. Therefore, it is possible to replace the gene sequence as it is with clustering of character sequences. Needless to say, the present invention can be applied to any character information or numerical information sequence. For character strings, there is no problem even if the number of matched characters is used as a score, or a method of simply giving a constant score for each word existing in the dictionary. In the case of a numeric string, it is needless to say that the difference between the numerical values themselves or the square value thereof can be widely applied as a distance.

次に、発現データ取得部22は、これらの遺伝子の各発現データを遺伝子発現データ記憶部17から取り出す。遺伝子発現データとしては、成熟過程別にみた花粉細胞での遺伝子発現量として、減数分裂期、四分子期、一核期、二核期、成熟花粉を、また、タペータムでの遺伝子発現量として、減数分裂期四分子期、一核期の発現データを用いた。発現量の計測は、DNAマイクロアレイを用いた方法や、RT-PCRを用いた方法、または、回収されたmRNAの塩基配列をDNAオートシーケンサで読み取り、mRNAの本数を数えるなどの方法を用いて、細胞内で発現しているmRNAの量を計測可能である。図7にDNAマイクロアレイを用いて計測した結果の例を示す。発現データ表示部24は、出力装置23に、図6に示すクラスタリング結果と併せて発現データを表示する。発現データは、各々のクラスタに対応した位置に表示される。図7に示す例では、各発現データをデンドログラムの各リーフの横方向に並べてある。また、それぞれ2,3個のサンプルを用いていることもあるため、その場合はそれらを密着して並べている。さらに、それぞれの発現量は測定した発現量に応じた濃さの色をつけて、表示している。ここでは、色が濃いほど発現量が多いことを表す。たとえば、植物の花粉の成熟段階の初期(71)には、4サンプル分のデータがあり、四分子期(72)では、発現量はほとんど変わらず3サンプル分のデータが計測されている。それに対し、2核期の後期(73、74)は濃い色で示されており、発現量が増加していることが読み取れる。   Next, the expression data acquisition unit 22 extracts each expression data of these genes from the gene expression data storage unit 17. The gene expression data includes the gene expression level in pollen cells according to the maturation process, meiosis, tetramolecular, mononuclear, binuclear, and mature pollen, and the gene expression in tapetum. Data on the expression of metaphase, quadruple and mononuclear phase were used. The expression level is measured using a method using a DNA microarray, a method using RT-PCR, or a method such as reading the base sequence of the recovered mRNA with a DNA autosequencer and counting the number of mRNAs. The amount of mRNA expressed in the cell can be measured. FIG. 7 shows an example of measurement results using a DNA microarray. The expression data display unit 24 displays the expression data on the output device 23 together with the clustering result shown in FIG. Expression data is displayed at a position corresponding to each cluster. In the example shown in FIG. 7, each expression data is arranged in the horizontal direction of each leaf of the dendrogram. In some cases, two or three samples are used, and in that case, they are closely arranged. Furthermore, each expression level is displayed with a dark color corresponding to the measured expression level. Here, the darker the color, the greater the expression level. For example, in the early stage (71) of the pollen maturation stage of the plant, there are data for 4 samples, and in the tetramolecular period (72), the expression level is hardly changed and data for 3 samples is measured. In contrast, the latter half of the binuclear phase (73, 74) is shown in dark color, indicating that the expression level is increasing.

図7では、クラスタリングによって非常に類似性が高いという結果が得られた遺伝子のグループが、発現量においてもほぼ同じ時期に増加するという例を示している。また、図8には、パラロガス(ある生物種において遺伝子重複によって新たに生じた相同配列)な遺伝子間で発現パターンが保存されていないケース(81)を示している。また、図9には、パラロガスなもので発現時期が微妙にずれている例(91)を示した。このようにモチーフを用いたクラスタリング結果のデンドログラムの横に遺伝子発現データを並列して表示することにより、非常に容易に遺伝子の挙動の違いを確認することができる。   FIG. 7 shows an example in which the group of genes from which the result that clustering is very similar is obtained increases at almost the same time in the expression level. FIG. 8 shows a case (81) in which the expression pattern is not conserved between genes that are paralogous (homologous sequences newly generated by gene duplication in a certain biological species). In addition, FIG. 9 shows an example (91) in which the onset time is slightly shifted due to paralogous material. Thus, by displaying the gene expression data side by side next to the dendrogram of the clustering result using the motif, the difference in gene behavior can be confirmed very easily.

これらの描画の手順を図10に示す。まず、ステップ101において、発現データ取得部22は、各遺伝子の発現データを遺伝子発現データ記憶部17から取得する。次にステップ102において、作成されたデンドログラムの構造を参照しながらサブクラスタごとに、属している遺伝子の発現パターンの表示処理を行う。さらにステップ103において、発現データ表示部24は、デンドログラムの横に発現データを配置して描画する。これらの結果が図7から図9の結果である。これにより、サブクラスタ内の遺伝子の発現パターンを目視によって比較することが可能である。   These drawing procedures are shown in FIG. First, in step 101, the expression data acquisition unit 22 acquires the expression data of each gene from the gene expression data storage unit 17. Next, in step 102, the expression pattern of the gene to which it belongs is displayed for each sub-cluster with reference to the created dendrogram structure. Furthermore, in step 103, the expression data display unit 24 arranges and draws the expression data beside the dendrogram. These results are the results of FIGS. Thereby, it is possible to visually compare the expression patterns of the genes in the subcluster.

以上のように、本実施形態によれば、遺伝子配列に含まれるモチーフを指標として遺伝子の類似度を解析したクラスタと遺伝子発現データの関係を比較するようにした。進化的には離れていても類似した機能を持つ遺伝子は同様のモチーフを持っていることが多いため、本発明は、広い生物種間での機能類似遺伝子の発見や、未知の遺伝子の機能推定等に大変有効である。また、モチーフレベルで類似で同様な機能が期待されながら遺伝子発現の時期などの相違があるものを見出すことで、さらにターゲットとなるタンパク質などの相違などを推定するのに大変有効である。   As described above, according to the present embodiment, the relationship between the gene expression data and the cluster in which the similarity of the genes is analyzed using the motif included in the gene sequence as an index is compared. Since genes that have similar functions even though they are evolutionarily separated often have similar motifs, the present invention can be used to discover functionally similar genes among a wide range of species and to estimate the functions of unknown genes. It is very effective. In addition, it is very effective to estimate the difference in the target protein and the like by finding the similar and similar functions at the motif level but different in the timing of gene expression.

また、遺伝子のモチーフ情報を用いたクラスタリング結果と発現データと合わせて表示することにより、実際の細胞の生の動きの情報を加えて考察することができる。なお、発現データとしては、各組織別に取得したものや、時系列的に取得したデータ、それぞれ系統が異なるものなど、比較する目的に応じて組み合わせることができることは言うまでもない。   Moreover, by displaying together with the clustering result using gene motif information and the expression data, it is possible to consider by adding information on the actual movement of cells. Needless to say, the expression data can be combined according to the purpose of comparison, such as data acquired for each tissue, data acquired in time series, and data of different systems.

実施の形態2.
実施の形態2では、遺伝子のモチーフ情報を用いたクラスタリングに加え、さらに遺伝子の発現データを用いたクラスタリングを行い、両者の結果を比較できるように表示する。
複数のクラスタリング結果を比較する方法について図11を用いて説明する。図11は、クラスタリング処理部21が遺伝子のモチーフ情報を用いて算出したデンドログラムを上部に、遺伝子の発現データを用いてクラスタリングした結果を下部に対向して表示した例である。また、中間位置には、後述するような各クラスタの比較を行うためのヒートマップ領域115a、116a、115b、116bが示されている。
Embodiment 2. FIG.
In the second embodiment, clustering using gene expression data is performed in addition to clustering using gene motif information, and the results are displayed so that the results can be compared.
A method of comparing a plurality of clustering results will be described with reference to FIG. FIG. 11 shows an example in which the dendrogram calculated using the gene motif information by the clustering processing unit 21 is displayed at the top and the result of clustering using the gene expression data is displayed facing the bottom. In addition, heat map regions 115a, 116a, 115b, and 116b for comparing each cluster as described later are shown at the intermediate positions.

また、同図左側111は、両方のクラスタリング結果が、比較的類似している場合である。また、同図右側112は、クラスタリング結果がかなり異なっている結果が得られた例である。まずクラスタ構造が類似している111について説明する。デンドログラム113aは遺伝子A、B、C、Dのモチーフ情報を用いてクラスタリングした結果である。遺伝子AとBの距離は、両者の枝の分岐点下に示してあるとおり“3”である。さらに遺伝子A、Bの重心からCまでの距離は“6”である。さらにA、B、Cの重心とDまでの距離は“11”であることを意味する。   Further, the left side 111 in the figure is a case where both clustering results are relatively similar. Also, the right side 112 in the figure is an example in which the clustering results are considerably different. First, 111 having a similar cluster structure will be described. The dendrogram 113a is the result of clustering using gene A, B, C, and D motif information. The distance between genes A and B is “3” as shown below the branch point of both branches. Furthermore, the distance from the center of gravity of genes A and B to C is “6”. Furthermore, the distance from the center of gravity of A, B, and C to D means “11”.

これらの距離のデータをコンパクトに表現するため、発現データ表示部(階調変換部、並列表示部)24は115aに示すように階調に合わせて距離が遠くなるほど濃くなる色に対応させ、それぞれの遺伝子の下に配色する。各距離と階調の関係は、256階調の表示装置の場合、対象クラスタリング結果の最大の距離を“256”に割り当てるように比例配分することが可能である。また、必要に応じてガンマ補正により、距離の短い側を強調して、距離の遠い側の色の差を小さくするような補正をすることも可能である。本実施例では、最大値114bの距離“17”が最大であるため、これが255となるように、255x(該当する距離/最大の距離)の補正をかけて表示階調算出している。   In order to express the data of these distances in a compact manner, the expression data display unit (gradation conversion unit, parallel display unit) 24 corresponds to a color that becomes darker as the distance increases according to the gradation as shown in 115a. Colors under the gene. The relationship between each distance and gradation can be proportionally distributed so that the maximum distance of the target clustering result is assigned to “256” in the case of a 256 gradation display device. Further, if necessary, it is possible to perform correction so as to emphasize the short side and reduce the color difference on the far side by gamma correction. In this embodiment, since the distance “17” of the maximum value 114b is the maximum, the display gradation is calculated by correcting 255x (corresponding distance / maximum distance) so that the distance becomes 255.

111の場合、ヒートマップ領域115a、116aを比較するとわかるようにデンドログラムが類似している場合、これらのヒートマップ領域もほぼ同じ様な階調パターンとなっている。しかし、112では、クラスタリングの結果が異なっているため、このヒートマップ領域115b、116bの階調パターンが異なっていることが容易に識別できる。   In the case of 111, when the dendrograms are similar as can be seen by comparing the heat map regions 115a and 116a, these heat map regions also have substantially the same gradation pattern. However, since the clustering result is different at 112, it can be easily identified that the tone patterns of the heat map regions 115b and 116b are different.

さらに、本実施例の図中に数値では示していないが、このヒートマップ領域の数字を使い、両者のピアソン相関係数を求めることで、複数のクラスタリングの類似度を求めることも可能である。たとえば、115aは(3,3,6,11)であり、116aは(5,5,7,15)であるから、両者のピアソン相関係数を求めると、0.9990という結果が得られる。一方112では、115bが(2,2,7,11)であり、116bが(17,7,7,10)であるから、ピアソン相関係数は-0.2768と負の相関係数が得られる。クラスタリングの結果が同様なものを選択する場合には、たとえば、相関係数が0.7以上のものといったしきい値を与えることで容易に選択することができる。相関の低いものを選択したい場合は、0に近いものや負の相関のものなどを選択することで、選び出すことができる。単に正の相関から負の相関までを順にソートして、類似のものから順に見られるようにするだけでも全体の状況を整理、把握しやすくできる。   Furthermore, although not shown numerically in the drawing of this embodiment, it is also possible to obtain the similarity of a plurality of clustering by obtaining the Pearson correlation coefficient of both using the numbers in this heat map area. For example, since 115a is (3, 3, 6, 11) and 116a is (5, 5, 7, 15), obtaining the Pearson correlation coefficient of both results in 0.9990. On the other hand, in 112, since 115b is (2, 2, 7, 11) and 116b is (17, 7, 7, 10), a negative correlation coefficient of -0.2768 is obtained as the Pearson correlation coefficient. When selecting a clustering result that is similar, for example, it can be easily selected by giving a threshold value such that the correlation coefficient is 0.7 or more. If it is desired to select one having a low correlation, it can be selected by selecting one having a low correlation or a value close to zero. By simply sorting from positive correlations to negative correlations so that they can be viewed in order from similar ones, the overall situation can be easily organized and grasped.

同図では、2つのデンドログラムを比較しているが、3つ以上であってもヒートマップ領域115aや116aの下に連続して並べて配置するだけで十分視覚的に確認しながら比較が可能である。また、3つ以上のクラスタリング結果のバラツキ具合を数値評価する場合は、ピアソンの相関係数の代わりに遺伝子ごとに、階調の分散を求めることで、ばらつきの多いものやそうでないものをソートして選別することができる。   In the figure, two dendrograms are compared. However, even if there are three or more dendrograms, it is possible to compare them with sufficient visual confirmation by simply arranging them side by side under the heat map regions 115a and 116a. is there. In addition, when numerically evaluating the degree of dispersion of three or more clustering results, the variance of gradations is obtained for each gene instead of Pearson's correlation coefficient, so that those with a large variation and those with no variation are sorted. Can be selected.

例えば、各階調の値をそのまま平均値を求めて、その平均値からのずれ量の2乗の累積値を平均するといった方法である。これらにより、視覚的に見たヒートマップのバラツキ具合をそのまま数値化することができる。以上、本発明によれば、さまざまな情報でクラスタリングした結果を比較して表示でき、それぞれのクラスタリング結果が類似しているものやそうでないものなどを素早く探し出すことができる。これによってモチーフレベルでは類似で機能的に似ている可能性のあるものでありながら、作用するたんぱく質が異なる場合などの識別に役に立てることができる。   For example, the average value of each gradation value is obtained as it is, and the cumulative value of the square of the deviation amount from the average value is averaged. As a result, it is possible to directly quantify the degree of variation in the heat map as viewed visually. As described above, according to the present invention, it is possible to compare and display the results of clustering with various pieces of information, and quickly find out what is similar to each other or what is not. This can be useful for discrimination when the proteins acting on the motif level are similar and possibly functionally similar, but the proteins that act are different.

以上のように、本実施形態によれば、それぞれの遺伝子に関する異なるデータに基づいて作成された2つ以上のデンドログラムが、どの程度類似しているかを容易に比較、把握できる。特にモチーフを基にしたデンドログラムから構造的に類似であることが分かっている遺伝子群に対して、発現時期や発現部位などによって発現パターンが異なっていることが容易に把握できる。これらの情報を利用することにより、遺伝子としての機能の違い、つまり、生成されたタンパク質の相互作用する相手が異なっている可能性や、作用するネットワークに相違があることなど、重要な情報を得ることができる。   As described above, according to this embodiment, it is possible to easily compare and grasp how similar two or more dendrograms created based on different data related to each gene are. In particular, it can be easily understood that the expression pattern differs depending on the expression time, expression site, and the like for gene groups that are known to be structurally similar from the dendrogram based on the motif. By using this information, we obtain important information such as differences in gene function, that is, the partner with which the generated protein interacts and the network in which it interacts. be able to.

本実施例では、モチーフレベルでの類似性を使ったクラスタリングと、遺伝子発現量に関してのクラスタリング結果を示したが、これは、さまざまな別の特徴量に対して適用することも可能である。たとえば、実験条件に関係する様々な数値群(ベクトル量)と、得られた実験結果のベクトル量などをそれぞれクラスタリングして、並べてそれらを比較したい場合などにも用いられることは言うまでもない。   In the present embodiment, clustering using similarity at the motif level and clustering results regarding gene expression levels are shown, but this can also be applied to various other feature quantities. For example, it goes without saying that the present invention is also used when various numerical groups (vector quantities) related to experimental conditions and vector quantities of the obtained experimental results are clustered and compared with each other.

図1は、本発明の実施の形態1による、遺伝子クラスタリング装置の機能構成を示すブロック図である。FIG. 1 is a block diagram showing a functional configuration of a gene clustering apparatus according to Embodiment 1 of the present invention. 図2は、クラスタリングの対象となる遺伝子群の例を示す図である。FIG. 2 is a diagram showing an example of gene groups to be clustered. 図3は、検索により得られるモチーフの例を示す図である。FIG. 3 is a diagram illustrating an example of a motif obtained by a search. 図4は、PAM40のマトリクス表である。FIG. 4 is a matrix table of PAM40. 図5は、遺伝子同士の類似度スコアの例を示す図である。FIG. 5 is a diagram illustrating an example of a similarity score between genes. 図6は、遺伝子のクラスタリング結果のデンドログラム図である。FIG. 6 is a dendrogram of gene clustering results. 図7は、遺伝子のモチーフクラスタリング結果と遺伝子発現パターンが類似している結果の例を示す図である。FIG. 7 is a diagram illustrating an example of a result of similarity of gene motif pattern and gene expression pattern. 図8は、パラロガスな遺伝子間で発現パターンが保存されていないケースを示す図である。FIG. 8 is a diagram showing a case where an expression pattern is not conserved between paralogous genes. 図9は、パラロガスなもので発現時期が微妙にずれている例を示す図である。FIG. 9 is a diagram showing an example in which the onset time is slightly shifted due to paralogous things. 図10は、サブクラスターでの発現パターンの比較処理を行う処理フローを示す図である。FIG. 10 is a diagram showing a processing flow for performing expression pattern comparison processing in sub-clusters. 図11は、ヒートマップ表示をした複数のクラスタリング結果を並べて表示する実施例を示す図である。FIG. 11 is a diagram illustrating an example in which a plurality of clustering results displayed in a heat map are displayed side by side.

符号の説明Explanation of symbols

10 遺伝子クラスタリング装置、11 入力装置、12 ユーザインターフェイス部、13 データアクセス部、14 遺伝子配列記憶部、15 スコア記憶部、16 モチーフ記憶部、17 遺伝子発現データ記憶部、18 モチーフ検索部、19 モチーフスコア計算部、20 遺伝子間距離計算部、21 クラスタリング処理部、22 発現データ取得部、23 出力装置、24 発現データ表示部   10 gene clustering device, 11 input device, 12 user interface unit, 13 data access unit, 14 gene sequence storage unit, 15 score storage unit, 16 motif storage unit, 17 gene expression data storage unit, 18 motif search unit, 19 motif score Calculation unit, 20 Intergene distance calculation unit, 21 Clustering processing unit, 22 Expression data acquisition unit, 23 Output device, 24 Expression data display unit

Claims (6)

複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置であって、
遺伝子配列に含まれ、タンパク質構造中の活性部位や機能領域に対応した配列パターンを含むモチーフ配列を検索するモチーフ検索部と、
クラスタリング対象となる各々の遺伝子配列に含まれるモチーフ配列に基づいて、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、
前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、
前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部と、
各々の遺伝子の発現データを遺伝子発現データ記憶部から取得する発現データ取得部と、
取得した前記各々の遺伝子の発現データを、各々の遺伝子に対応した位置に表示する発現データ表示部とを備え、
前記モチーフスコア計算部は、任意の2つの遺伝子に含まれるすべてのモチーフ配列同士の類似度スコアを算出し、モチーフ配列以外の領域の類似度スコアはゼロとみなし、算出したすべてのモチーフ配列同士の類似度スコアの総和を、当該2つの遺伝子の類似度スコアとする、ことを特徴とする遺伝子クラスタリング装置。
A gene clustering apparatus for clustering a plurality of genes based on sequence similarity,
A motif search unit that searches for a motif sequence that is included in a gene sequence and includes a sequence pattern corresponding to an active site or functional region in a protein structure;
A motif score calculation unit for calculating a similarity score between any two genes based on a motif sequence included in each gene sequence to be clustered ;
An intergenic distance calculation unit for calculating an intergenic distance between any two genes using the similarity score;
A clustering processing unit for clustering the plurality of genes based on the intergenic distance;
An expression data acquisition unit for acquiring the expression data of each gene from the gene expression data storage unit;
An expression data display unit for displaying the acquired expression data of each gene at a position corresponding to each gene;
The motif score calculation unit calculates a similarity score between all motif sequences included in any two genes, assumes that the similarity score of a region other than the motif sequence is zero, and calculates all the calculated motif sequences A gene clustering apparatus characterized in that a sum of similarity scores is used as a similarity score of the two genes .
前記クラスタリング処理部は、さらに、前記遺伝子間距離以外の他の特徴ベクトル量を用いてクラスタリングを実行し、
それぞれのクラスタリングの結果に基づいて、それぞれのサブクラスタの距離情報を一次元の階調数列に変換する階調変換部と、
それぞれのクラスタリング結果について、前記一次元の階調数列に変換した結果を並列に表示する並列表示部とを備えたことを特徴とする、請求項1に記載の遺伝子クラスタリング装置。
The clustering processing unit further performs clustering using a feature vector amount other than the inter-gene distance,
A gradation converter that converts the distance information of each sub-cluster into a one-dimensional gradation sequence based on the result of each clustering;
The gene clustering apparatus according to claim 1, further comprising: a parallel display unit that displays in parallel the results of conversion into the one-dimensional gradation sequence for each clustering result.
前記発現データ表示部は、細胞の成熟過程別に複数のサンプルからそれぞれ取得された複数の発現データを、細胞の成熟過程に沿って、かつ同じ成熟段階での発現データは密着させて並べて表示し、それぞれの発現データに、測定した発現量に応じた濃度の色を付すことを特徴とする請求項1または2に記載の遺伝子クラスタリング装置。The expression data display unit displays a plurality of expression data respectively obtained from a plurality of samples for each cell maturation process, along with the cell maturation process, and the expression data at the same maturation stage are displayed in close contact with each other. The gene clustering apparatus according to claim 1 or 2, wherein each expression data is colored with a concentration corresponding to the measured expression level. コンピュータを、
複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置として機能させるプログラムであって、
遺伝子配列に含まれ、タンパク質構造中の活性部位や機能領域に対応した配列パターンを含むモチーフ配列を検索するモチーフ検索部と、
クラスタリング対象となる各々の遺伝子配列に含まれるモチーフ配列に基づいて、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、
前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、
前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部と、
各々の遺伝子の発現データを遺伝子発現データ記憶部から取得する発現データ取得部と、
取得した前記各々の遺伝子の発現データを、各々の遺伝子に対応した位置に表示する発現データ表示部として機能させ、
前記モチーフスコア計算部は、任意の2つの遺伝子に含まれるすべてのモチーフ配列同士の類似度スコアを算出し、モチーフ配列以外の領域の類似度スコアはゼロとみなし、算出したすべてのモチーフ配列同士の類似度スコアの総和を、当該2つの遺伝子の類似度スコアとする、ことを特徴とするプログラム。
Computer
A program that functions as a gene clustering device that clusters a plurality of genes based on sequence similarity,
A motif search unit that searches for a motif sequence that is included in a gene sequence and includes a sequence pattern corresponding to an active site or functional region in a protein structure;
A motif score calculation unit for calculating a similarity score between any two genes based on a motif sequence included in each gene sequence to be clustered ;
An intergenic distance calculation unit for calculating an intergenic distance between any two genes using the similarity score;
A clustering processing unit for clustering the plurality of genes based on the intergenic distance;
An expression data acquisition unit for acquiring the expression data of each gene from the gene expression data storage unit;
The acquired expression data of each gene is made to function as an expression data display unit that displays it at a position corresponding to each gene ,
The motif score calculation unit calculates a similarity score between all motif sequences included in any two genes, assumes that the similarity score of a region other than the motif sequence is zero, and calculates all the calculated motif sequences A program characterized in that a sum of similarity scores is used as a similarity score of the two genes .
前記クラスタリング処理部は、さらに、前記遺伝子間距離以外の他の特徴ベクトル量を用いてクラスタリングを実行し、
前記コンピュータを、
それぞれのクラスタリングの結果に基づいて、それぞれのサブクラスタの距離情報を一次元の階調数列に変換する階調変換部と、
それぞれのクラスタリング結果について、前記一次元の階調数列に変換した結果を並列に表示する並列表示部として機能させることを特徴とする、請求項に記載のプログラム。
The clustering processing unit further performs clustering using a feature vector amount other than the inter-gene distance,
The computer,
A gradation converter that converts the distance information of each sub-cluster into a one-dimensional gradation sequence based on the result of each clustering;
5. The program according to claim 4 , wherein each of the clustering results is caused to function as a parallel display unit that displays the result of conversion into the one-dimensional gradation number sequence in parallel.
前記発現データ表示部は、細胞の成熟過程別に複数のサンプルからそれぞれ取得された複数の発現データを、細胞の成熟過程に沿って、かつ同じ成熟段階での発現データは密着させて並べて表示し、それぞれの発現データに、測定した発現量に応じた濃度の色を付すことを特徴とする請求項4または5に記載のプログラム。The expression data display unit displays a plurality of expression data respectively obtained from a plurality of samples for each cell maturation process, along with the cell maturation process, and the expression data at the same maturation stage are displayed in close contact with each other. 6. The program according to claim 4 or 5, wherein each expression data is colored with a concentration corresponding to the measured expression level.
JP2008252353A 2008-09-30 2008-09-30 Gene clustering apparatus and program Expired - Fee Related JP5453613B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008252353A JP5453613B2 (en) 2008-09-30 2008-09-30 Gene clustering apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008252353A JP5453613B2 (en) 2008-09-30 2008-09-30 Gene clustering apparatus and program

Publications (2)

Publication Number Publication Date
JP2010086142A JP2010086142A (en) 2010-04-15
JP5453613B2 true JP5453613B2 (en) 2014-03-26

Family

ID=42250065

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008252353A Expired - Fee Related JP5453613B2 (en) 2008-09-30 2008-09-30 Gene clustering apparatus and program

Country Status (1)

Country Link
JP (1) JP5453613B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2759953B1 (en) * 2013-01-28 2022-03-02 Hasso-Plattner-Institut für Softwaresystemtechnik GmbH System and method for genomic data processing with an in-memory database system and real-time analysis
TWI584143B (en) * 2014-10-30 2017-05-21 Toshiba Kk Genotyping devices, methods, and memory media
CN107430824B (en) * 2015-02-06 2021-05-04 意识教育以色列公司 Semi-automatic system and method for evaluating responses

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004512494A (en) * 2000-02-04 2004-04-22 イーオミカ・インコーポレイテッド Method and apparatus for estimating, confirming and displaying functional information derived from a genome sequence
JP3871904B2 (en) * 2001-06-07 2007-01-24 日立ソフトウエアエンジニアリング株式会社 How to display a dendrogram
JP4307807B2 (en) * 2002-08-13 2009-08-05 株式会社エヌ・ティ・ティ・データ Data processing apparatus, method, and computer program
JP2007207113A (en) * 2006-02-03 2007-08-16 Hitachi Software Eng Co Ltd Genealogical tree display system
JP4975334B2 (en) * 2006-02-13 2012-07-11 株式会社日立ソリューションズ Storage area detection system considering evolutionary process
CA2664681C (en) * 2006-10-02 2020-07-07 Sea Lane Biotechnologies, Llc Design and construction of diverse synthetic peptide and polypeptide libraries
EP1914303A1 (en) * 2006-10-09 2008-04-23 Qiagen GmbH Thermus eggertssonii DNA polymerases

Also Published As

Publication number Publication date
JP2010086142A (en) 2010-04-15

Similar Documents

Publication Publication Date Title
Zrimec et al. Deep learning suggests that gene expression is encoded in all parts of a co-evolving interacting gene regulatory structure
Movahedi et al. Comparative co‐expression analysis in plant biology
Wang et al. Seventy million years of concerted evolution of a homoeologous chromosome pair, in parallel, in major Poaceae lineages
Mohammadi-Dehcheshmeh et al. Unified transcriptomic signature of arbuscular mycorrhiza colonization in roots of Medicago truncatula by integration of machine learning, promoter analysis, and direct merging meta-analysis
Julca et al. Toward kingdom-wide analyses of gene expression
Bhattacharya et al. Best practices for multi-ancestry, meta-analytic transcriptome-wide association studies: lessons from the Global Biobank Meta-analysis Initiative
CN111863127A (en) Method for constructing genetic control network of plant transcription factor to target gene
JP5453613B2 (en) Gene clustering apparatus and program
Tadesse et al. Identification of DNA regulatory motifs using Bayesian variable selection
Penev et al. TwinCons: Conservation score for uncovering deep sequence similarity and divergence
Mendoza-Revilla et al. A foundational large language model for edible plant genomes
WO2020115580A1 (en) System and method for promoter prediction in human genome
Qu et al. Deep learning approach to biogeographical ancestry inference
CN106446601B (en) A kind of method of extensive mark lncRNA function
Izuno et al. Demography and selection analysis of the incipient adaptive radiation of a Hawaiian woody species
Cui et al. A combined $ p $-value approach to infer pathway regulations in eQTL mapping
Wisecaver et al. The impact of automated filtering of BLAST-determined homologs in the phylogenetic detection of horizontal gene transfer from a transcriptome assembly
JP5007803B2 (en) Gene clustering apparatus, gene clustering method and program
Bouyioukos et al. Characterisation and analysis of the Aegilops sharonensis transcriptome, a wild relative of wheat in the Sitopsis section
Won et al. EnsemPro: an ensemble approach to predicting transcription start sites in human genomic DNA sequences
Qu et al. Biogeographical Ancestry Inference from Genotype: A Comparison of Ancestral Informative SNPs and Genome-wide SNPs
EP4150624A1 (en) Adjusted polygenic risk scores and calculation process
Raghunath Application of Bioinformatics resources for mining of simple sequence repeats (SSRs) marker in plant genomes: An Overview
Ohyanagi et al. Plant Omics: Advances in Big Data Biology
Kielbasa et al. Prediction of cis-regulatory elements of coregulated genes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100812

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131212

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees