JP4568861B2 - Gene expression profile comparison device - Google Patents

Gene expression profile comparison device Download PDF

Info

Publication number
JP4568861B2
JP4568861B2 JP2005236198A JP2005236198A JP4568861B2 JP 4568861 B2 JP4568861 B2 JP 4568861B2 JP 2005236198 A JP2005236198 A JP 2005236198A JP 2005236198 A JP2005236198 A JP 2005236198A JP 4568861 B2 JP4568861 B2 JP 4568861B2
Authority
JP
Japan
Prior art keywords
gene
expression
sequence data
rank
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005236198A
Other languages
Japanese (ja)
Other versions
JP2007052568A (en
Inventor
ポール ホートン
航 藤渕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2005236198A priority Critical patent/JP4568861B2/en
Publication of JP2007052568A publication Critical patent/JP2007052568A/en
Application granted granted Critical
Publication of JP4568861B2 publication Critical patent/JP4568861B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、データベースに記憶された既知の細胞の遺伝子発現プロファイルと、質問として入力された遺伝子発現プロファイルとの相関を求める装置に関する。   The present invention relates to an apparatus for obtaining a correlation between a gene expression profile of a known cell stored in a database and a gene expression profile inputted as a question.

現在、DNAマイクロアレイを用いた遺伝子発現モニタリングの研究が盛んに行われている。例えば、非特許文献1では遺伝子発現プロファイルデータから違いのあった遺伝子を見つける研究、非特許文献2では遺伝子発現プロファイルから癌を見つける研究が発表されている。   Currently, gene expression monitoring using a DNA microarray has been actively studied. For example, Non-Patent Document 1 discloses a study for finding a gene having a difference from gene expression profile data, and Non-Patent Document 2 discloses a study for finding cancer from a gene expression profile.

さて、DNAマイクロアレイを用いて遺伝子発現プロファイルから、そのプロファイルを有する細胞を特定することができれば、病理解析、犯罪捜査等の分野において非常に有用である。あらゆる細胞を網羅した遺伝子発現プロファイルデータベースから、未知の細胞の遺伝子発現プロファイルに一致する細胞、または類似度の高い細胞を検索することにより、未知の細胞を特定することができる。   If a cell having the profile can be identified from the gene expression profile using a DNA microarray, it is very useful in the fields of pathological analysis, criminal investigation and the like. An unknown cell can be identified by searching a cell that matches a gene expression profile of an unknown cell or a cell having a high degree of similarity from a gene expression profile database covering all cells.

既知の遺伝子発現プロファイルと、未知の遺伝子発現プロファイル(質問プロファイル)とを比較する手法としては、それぞれの遺伝子発現プロファイルに共通して含まれる遺伝子の発現量を比較する手法が知られている。   As a technique for comparing a known gene expression profile with an unknown gene expression profile (question profile), a technique for comparing expression levels of genes included in each gene expression profile is known.

この手法では、まず、遺伝子発現プロファイルおよびその遺伝子発現プロファイルに含まれる遺伝子を特定して、その遺伝子の発現量を求めるクエリをデータベースに送信する。そして、データベースからのレスポンス(発現量のデータ)と、質問プロファイルに含まれる同じ遺伝子の発現量とを比較する。この方法で、比較対象の遺伝子発現プロファイルに含まれる複数の遺伝子について発現量を比較することにより、データベースに記憶された遺伝子発現プロファイルと質問プロファイルとの類似度を求める。
“Tumorclassification and marker gene prediction by feature selection and fuzzyc-means clustering using microarray data.”, Wang J, Bo TH, Jonassen I,Myklebost O, Hovig E, BMC Bioinformatics. 2003 Dec 02;4(1):60. “Multiclasscancer diagnosis using tumor gene expression signatures.”, Ramaswamy S, TamayoP, Rifkin R, Mukherjee S, Yeang CH, Angelo M, Ladd C, Reich M, Latulippe E,Mesirov JP, Poggio T, Gerald W, Loda M, Lander ES, Golub TR, Proc Natl Acad SciU S A. 2001 Dec 18;98(26):15149-54.
In this method, first, a gene expression profile and a gene included in the gene expression profile are specified, and a query for obtaining the expression level of the gene is transmitted to a database. Then, the response from the database (expression level data) is compared with the expression level of the same gene included in the query profile. By this method, the degree of similarity between the gene expression profile stored in the database and the query profile is obtained by comparing the expression levels of a plurality of genes included in the gene expression profile to be compared.
“Tumorclassification and marker gene prediction by feature selection and fuzzyc-means clustering using microarray data.”, Wang J, Bo TH, Jonassen I, Myklebost O, Hovig E, BMC Bioinformatics. 2003 Dec 02; 4 (1): 60. “Multiclasscancer diagnosis using tumor gene expression signatures.”, Ramaswamy S, TamayoP, Rifkin R, Mukherjee S, Yeang CH, Angelo M, Ladd C, Reich M, Latulippe E, Mesirov JP, Poggio T, Gerald W, Loda M, Lander ES, Golub TR, Proc Natl Acad SciU S A. 2001 Dec 18; 98 (26): 15149-54.

しかし、上記の方法では、比較対象の遺伝子発現プロファイルが増えると、計算処理に多大な時間を要し、かつ大きいメモリ領域を要するという問題があった。上記の方法において、遺伝子の発現量を求めるためにデータベースに送信するクエリは汎用の関数を用いるので便利ではあるが、レスポンスに時間を要する。また、指定した遺伝子のデータが欠損している場合には、遺伝子の発現量の問い合わせに要した時間が無駄となる。これらの原因により、計算処理に時間を要していた。   However, the above method has a problem that when the gene expression profile to be compared is increased, the calculation process takes a long time and requires a large memory area. In the above method, the query transmitted to the database for obtaining the expression level of the gene uses a general-purpose function, which is convenient, but it takes time to respond. In addition, when the data of the designated gene is missing, the time required for inquiring the expression level of the gene is wasted. For these reasons, the calculation process takes time.

本発明は上記背景に鑑み、遺伝子発現プロファイルデータを高速に比較できる遺伝子発現プロファイル比較装置を提供することを目的とする。   In view of the above background, an object of the present invention is to provide a gene expression profile comparison apparatus capable of comparing gene expression profile data at high speed.

本発明の遺伝子発現プロファイル比較装置は、遺伝子発現プロファイルを記憶した遺伝子発現プロファイルデータベースと、比較対象の質問プロファイルの入力を受け付ける入力手段と、前記入力手段にて入力された質問プロファイルと前記遺伝子発現プロファイルデータベースに記憶された遺伝子発現プロファイルとの相関を演算する演算手段とを備え、前記演算手段は、前記遺伝子発現プロファイルデータベースに記憶された遺伝子発現プロファイルのプラットフォームを構成する遺伝子の識別子を、その識別子によって定まる順序に従って、連続するメモリ領域に記憶して第1の構成遺伝子配列データを生成し、前記質問プロファイルを構成する遺伝子の識別子を、その識別子によって定まる順序に従って、連続するメモリ領域に記憶して第2の構成遺伝子配列データを生成し、前記第1の構成遺伝子配列データの先頭から順に遺伝子の識別子を読み出すと共に前記第2の構成遺伝子配列データの先頭から順に遺伝子の識別子を読み出し、読み出した遺伝子の識別子を比較し、両遺伝子の識別子が一致した場合には、遺伝子発現プロファイルのプラットフォームと質問プロファイルに共通する共通遺伝子として記憶すると共に前記第1の構成遺伝子配列データおよび前記第2の構成遺伝子配列データから次の遺伝子の識別子を読み出して比較し、両遺伝子の識別子が一致しない場合には、両遺伝子の識別子のうち順序が早い方の識別子が読み出された配列データから次の遺伝子の識別子を読み出して再度比較する処理を、第1の構成遺伝子配列データおよび第2の構成遺伝子配列データのいずれかのデータをすべて読み出すまで繰り返し行って共通遺伝子を抽出し、抽出した共通遺伝子の発現量を比較することによって前記相関を求める。   The gene expression profile comparison apparatus of the present invention includes a gene expression profile database storing gene expression profiles, input means for receiving input of a comparison target question profile, the question profile input by the input means, and the gene expression profile Calculating means for calculating a correlation with the gene expression profile stored in the database, wherein the calculating means determines an identifier of the gene constituting the platform of the gene expression profile stored in the gene expression profile database by the identifier. The first constituent gene sequence data is generated by storing in a continuous memory area according to a predetermined order, and the identifiers of genes constituting the query profile are stored in the continuous memory area according to the order determined by the identifiers. The second constituent gene sequence data is generated, the gene identifiers are read in order from the top of the first constituent gene sequence data, and the gene identifiers are read in order from the top of the second constituent gene sequence data. When the identifiers of the genes are compared and the identifiers of both genes match, the gene expression profile is stored as a common gene in the platform and the query profile, and the first constituent gene sequence data and the second constituent gene are stored. If the identifier of the next gene is read from the sequence data and compared, and the identifiers of both genes do not match, the identifier of the next gene is read from the sequence data from which the identifier of the earlier gene identifier is read Are read out and compared again, the first constituent gene sequence data and the second constituent gene By repeating to read all the data, either the column data to extract the common genes, determining the correlation by comparing the expression level of the extracted common gene.

このように遺伝子発現プロファイルのプラットフォームを構成する遺伝子の識別子を識別子順に記憶した第1の構成遺伝子配列データと、質問プロファイルを構成する遺伝子の識別子を識別子順に記憶した第2の構成遺伝子配列データを生成する。これにより、第1の構成遺伝子配列データを先頭から順に読み出すという簡単な処理により、プラットフォームを構成する遺伝子の識別子を所定の順序に従って(例えば、小さい順に)読み出すことができる。同様に、第2の構成遺伝子配列データを先頭から順に読み出すという簡単な処理により、質問プロファイルを構成する遺伝子の識別子を所定の順序に従って読み出すことができる。第1の構成遺伝子配列データおよび第2の構成遺伝子配列データのそれぞれから所定の順序に従って(例えば、小さい順に)遺伝子の識別子が読み出されるので、読み出された両遺伝子が一致しない場合、識別子の順序が早い方の遺伝子は、他方の配列データに共通する遺伝子を有しないと判断できる。従って、識別子の順序が早い方の遺伝子を読み出した配列データから次の遺伝子(次に識別子の順序が早い遺伝子)を読み出して、再度比較する処理を繰り返し行う。この処理を繰り返すことにより、共通する遺伝子が存在するか否かを、他方の配列データの全遺伝子と比較することなく高速に求めることができる。このようにして求めた共通遺伝子について発現量を比較することにより、遺伝子発現プロファイルデータと質問プロファイルとの相関を求める演算処理の高速化を図ることができる。   As described above, the first constituent gene sequence data storing the identifiers of the genes constituting the gene expression profile platform in the order of the identifiers and the second constituent gene sequence data storing the identifiers of the genes constituting the query profile in the order of the identifiers are generated. To do. Thereby, the identifier of the gene which comprises a platform can be read according to a predetermined order (for example, small order) by the simple process of reading the 1st constituent gene arrangement data in order from the head. Similarly, the identifier of the gene constituting the question profile can be read in a predetermined order by a simple process of reading the second constituent gene sequence data in order from the top. Since the identifiers of the genes are read from each of the first constituent gene sequence data and the second constituent gene sequence data according to a predetermined order (for example, in ascending order), the order of the identifiers is determined when the two read genes do not match. It can be determined that the earlier gene has no gene common to the other sequence data. Accordingly, the next gene (the gene with the next highest identifier order) is read from the sequence data from which the gene with the earlier identifier order is read, and the comparison process is repeated. By repeating this process, it can be determined at high speed whether or not there is a common gene without comparing it with all the genes of the other sequence data. By comparing the expression levels of the common genes obtained in this way, it is possible to speed up the calculation processing for obtaining the correlation between the gene expression profile data and the query profile.

上記遺伝子発現プロファイル比較装置において、前記演算手段は、前記遺伝子発現プロファイルデータベースに記憶された遺伝子発現プロファイルに含まれる遺伝子の識別子を、それぞれの遺伝子の発現順位に従って、連続するメモリ領域に記憶して第1の発現順遺伝子配列データを生成し、前記第1の発現順遺伝子配列データの先頭から順にデータを読み出し、読み出した遺伝子が前記共通遺伝子である場合には、読み出した遺伝子が何個目の共通遺伝子であるかを特定することによって、前記遺伝子発現プロファイルに含まれる共通遺伝子の中での発現順位を求め、前記質問プロファイルに含まれる遺伝子の識別子を、それぞれの遺伝子の発現順位に従って、連続するメモリ領域に記憶して第2の発現順遺伝子配列データを生成し、前記第2の発現順遺伝子配列データの先頭から順にデータを読み出し、読み出した遺伝子が前記共通遺伝子である場合には、読み出した遺伝子が何個目の共通遺伝子であるかを特定することによって、前記質問プロファイルに含まれる共通遺伝子の中での発現順位を求めてもよい。   In the gene expression profile comparison device, the computing means stores the identifiers of the genes included in the gene expression profiles stored in the gene expression profile database in successive memory areas according to the expression order of the respective genes. Gene expression data of one expression order is generated, the data is read in order from the beginning of the first expression order gene sequence data, and when the read gene is the common gene, the read gene is the common number By determining whether the gene is a gene, the expression rank among the common genes included in the gene expression profile is obtained, and the identifier of the gene included in the query profile is stored in a continuous memory according to the expression rank of each gene. Generating the second expression sequence gene sequence data stored in the region, If the read-out gene is the common gene, the query profile is identified by specifying the number of the common gene when the read-out gene is the common gene. The expression order among the common genes contained in may be determined.

このように遺伝子発現プロファイルに含まれる遺伝子の識別子を発現順位に従って記憶した第1の発現順遺伝子配列データの先頭から共通遺伝子を読み出し、読み出した順に順位を付すという簡単な処理により、遺伝子発現プロファイルに含まれる共通遺伝子の中での発現順位を求めることができる。同様にして、質問プロファイルに含まれる共通遺伝子の中での発現順位を、簡単な処理によって求めることができる。   In this way, the common gene is read from the head of the first expression sequence gene sequence data in which the identifiers of the genes included in the gene expression profile are stored in accordance with the expression order, and the order is assigned in the order of reading, so that the gene expression profile is obtained. The expression order among the contained common genes can be determined. Similarly, the order of expression among the common genes included in the query profile can be determined by simple processing.

上記遺伝子発現プロファイル比較装置において、前記演算手段は、前記識別子として、比較対象となり得る遺伝子に連続した識別番号を付与し、前記識別番号が付与された遺伝子数分の発現順位データを書き込むことができる第1の発現順位配列データと第2の発現順位配列データのためのメモリ領域を確保し、前記遺伝子発現プロファイルに含まれる前記共通遺伝子の中での発現順位を、第1の発現順位配列データの中のそれぞれの共通遺伝子の識別番号で示される位置に書き込み、前記質問プロファイルに含まれる前記共通遺伝子の中での発現順位を、第2の発現順位配列データの中のそれぞれの共通遺伝子の識別番号で示される位置に書き込み、前記第1の発現順位配列データおよび前記第2の発現順位配列データから、それぞれの配列データにおいて対応する位置にある発現順位のデータを読み出し、読み出した発現順位の差に基づいて、遺伝子発現プロファイルと質問プロファイルとの順位相関係数を計算してもよい。   In the gene expression profile comparison apparatus, the computing unit can assign consecutive identification numbers to genes that can be compared as the identifier, and write expression rank data for the number of genes to which the identification number is assigned. A memory area for the first expression rank sequence data and the second expression rank sequence data is secured, and the expression rank in the common gene included in the gene expression profile is expressed by the first expression rank sequence data. The common gene identification number is written in the position indicated by the identification number of each common gene, and the expression rank in the common gene included in the query profile is expressed as the identification number of each common gene in the second expression rank sequence data. The first expression rank sequence data and the second expression rank sequence data Reads data of expression rank in the corresponding position in the data, based on the difference between the read expression rank may be calculated rank correlation coefficient between the gene expression profile and questions profile.

このように比較対象となり得る遺伝子に連続した識別番号を付与し、遺伝子の情報をその識別番号で示される位置に書き込んだ配列データによって管理することにより、高速に遺伝子の情報を取得できる。本発明の構成によれば、付与した識別番号と同数の発現順位データを書き込める第1の発現順位配列データのメモリ領域を確保し、それぞれの共通遺伝子の識別番号で示される位置に発現順位データを書き込むことにより、遺伝子の識別番号順に共通遺伝子の発現順位のデータが書き込まれる。従って、第1の発現順位配列データの識別番号で示される位置からデータを読み出すという簡単な処理により、識別番号に対応する遺伝子の発現順位データを読み出すことができる。同様に、質問プロファイルに含まれる共通遺伝子の発現順位データも簡単な処理によって読み出すことができる。   Thus, by assigning consecutive identification numbers to genes that can be compared, and managing the gene information with the sequence data written at the position indicated by the identification number, the gene information can be acquired at high speed. According to the configuration of the present invention, the memory region of the first expression rank sequence data in which the same number of expression rank data as the assigned identification number can be written is secured, and the expression rank data is placed at the position indicated by the identification number of each common gene. By writing, data on the expression order of common genes is written in the order of gene identification numbers. Therefore, the expression rank data of the gene corresponding to the identification number can be read by a simple process of reading data from the position indicated by the identification number of the first expression rank sequence data. Similarly, expression rank data of common genes included in the query profile can be read out by a simple process.

上記遺伝子発現プロファイル比較装置において、前記第1の発現順位配列データおよび前記第2の発現順位配列データからの発現順位データの読み出しは、前記第2の発現順位配列データにおいて発現順位が小さい順に行い、前記第2の発現順位配列データから読み出した発現順位データに対応する前記第1の発現順位配列データの発現順位データが欠損している場合には、欠損値の個数を記憶しておき、前記第1の発現順位配列データおよび前記第2の発現順位配列データから読み出した発現順位の差を計算するときに、前記第2の発現順位配列データから読み出した発現順位からその時点での欠損値の個数を減算してから、発現順位の差を計算してもよい。   In the above gene expression profile comparison device, the reading of the expression rank data from the first expression rank sequence data and the second expression rank sequence data is performed in the order of the low expression rank in the second expression rank sequence data, If the expression rank data of the first expression rank sequence data corresponding to the expression rank data read from the second expression rank sequence data is missing, the number of missing values is stored, and the first When calculating the difference between the expression ranks read from the first expression rank sequence data and the second expression rank sequence data, the number of missing values at that time from the expression rank read from the second expression rank sequence data Then, the difference in the expression order may be calculated.

遺伝子発現プロファイルデータにおいては、プラットフォームに存在する遺伝子であっても、発現量データが必ずしも存在するとは限らず、欠損している場合もある。欠損遺伝子については、質問プロファイルの遺伝子の発現量との比較を行うことができない。本発明によれば、第2の発現順位配列データ(質問プロファイル)の発現順位データに対応する第1の発現順位配列データ(遺伝子発現プロファイル)の発現順位データが欠損している場合には、その遺伝子について発現順位データを比較することができないので、発現順位データの比較の対象から除く。第2の発現順位配列データにおいて発現順位が小さい順に読み出しを行っているので、欠損値が検出された後に読み出される発現順位データから欠損値の個数を減算することにより、欠損値が検出された後の発現順位データを欠損値の個数だけ繰り上げて順位差を計算し、相関を適切に求めることができる。   In gene expression profile data, even if a gene is present on the platform, the expression level data is not always present and may be missing. For the defective gene, comparison with the expression level of the gene in the question profile cannot be performed. According to the present invention, when the expression rank data of the first expression rank sequence data (gene expression profile) corresponding to the expression rank data of the second expression rank sequence data (question profile) is missing, Since expression rank data cannot be compared for a gene, it is excluded from the target of comparison of expression rank data. Since reading is performed in order of increasing expression rank in the second expression rank sequence data, after the missing value is detected by subtracting the number of missing values from the expression rank data read after the missing value is detected. The rank difference is calculated by raising the expression rank data of the number of missing values, and the correlation can be appropriately obtained.

本発明の相関演算装置は、複数の識別子のそれぞれに与えられた順位を示す順位データを記憶した順位データベースと、前記順位データベースに記憶された順位データの比較対象となる順位データの入力を受け付ける入力手段と、前記入力手段にて入力された順位データと前記順位データベースに記憶された順位データとの相関を演算する演算手段とを備え、前記演算手段は、前記順位データベースに記憶された順位データに含まれる識別子を、その識別子によって定まる順序に従って、連続するメモリ領域に記憶して第1の配列データを生成し、前記入力手段に入力された順位データを構成する遺伝子の識別子を、その識別子によって定まる順序に従って、連続するメモリ領域に記憶して第2の配列データを生成し、前記第1の配列データの先頭から順に識別子を読み出すと共に前記第2の配列データの先頭から順に識別子を読み出し、読み出した識別子を比較し、両識別子が一致した場合には、一致した識別子を共通識別子として記憶すると共に前記第1の配列データおよび前記第2の配列データから次の識別子を読み出して比較し、両識別子が一致しない場合には、両識別子のうち順序が早い方の識別子が読み出された配列データから次の識別子を読み出して再度比較する処理を、第1の配列データおよび第2の配列データのいずれかのデータをすべて読み出すまで繰り返し行って共通識別子を抽出し、抽出した共通識別子の順位を比較することによって前記相関を求める。   The correlation calculation device according to the present invention includes a rank database storing rank data indicating ranks assigned to each of a plurality of identifiers, and an input for receiving rank data to be compared with rank data stored in the rank database. Means for calculating the correlation between the rank data input by the input means and the rank data stored in the rank database, and the calculation means adds the rank data stored in the rank database to the rank data stored in the rank database. The identifiers included are stored in a continuous memory area in the order determined by the identifiers to generate the first sequence data, and the identifiers of the genes constituting the rank data input to the input means are determined by the identifiers. According to the order, the second array data is generated by storing in a continuous memory area, and the first array data The identifiers are read in order from the beginning, the identifiers are read in order from the beginning of the second array data, the read identifiers are compared, and if both identifiers match, the matched identifier is stored as a common identifier and the first If the next identifier is read out from the array data and the second array data and compared, and the two identifiers do not match, the next identifier is read out from the array data from which the identifier in the earlier order is read out. The process of reading and comparing again is repeated until all the data of the first array data and the second array data is read, and the common identifier is extracted, and the ranks of the extracted common identifiers are compared with each other. Find the correlation.

この構成により、本発明の遺伝子発現プロファイル比較装置と同様に、第1の配列データと第2の配列データとの相関を求める演算処理を高速に行うことができる。また、本発明の遺伝子発現プロファイル比較装置の各種の構成を本発明の相関演算装置に適用することも可能である。   With this configuration, similar to the gene expression profile comparison apparatus of the present invention, it is possible to perform a calculation process for obtaining the correlation between the first sequence data and the second sequence data at high speed. Various configurations of the gene expression profile comparison apparatus of the present invention can also be applied to the correlation calculation apparatus of the present invention.

本発明のプログラムは、遺伝子発現プロファイルデータベースに記憶された遺伝子発現プロファイルと、比較対象の質問プロファイルとの相関をコンピュータに演算させるコンピュータ読み取り可能なプログラムであって、前記コンピュータに、前記遺伝子発現プロファイルデータベースに記憶された遺伝子発現プロファイルのプラットフォームを構成する遺伝子の識別子を、その識別子によって定まる順序に従って、連続するメモリ領域に記憶して第1の構成遺伝子配列データを生成させ、前記質問プロファイルを構成する遺伝子の識別子を、その識別子によって定まる順序に従って、連続するメモリ領域に記憶して第2の構成遺伝子配列データを生成させ、前記第1の構成遺伝子配列データの先頭から順に遺伝子の識別子を読み出すと共に前記第2の構成遺伝子配列データの先頭から順に遺伝子の識別子を読み出し、読み出した遺伝子の識別子を比較させ、両遺伝子の識別子が一致した場合には、遺伝子発現プロファイルのプラットフォームと質問プロファイルに共通する共通遺伝子として記憶すると共に前記第1の構成遺伝子配列データおよび前記第2の構成遺伝子配列データから次の遺伝子の識別子を読み出して比較し、両遺伝子の識別子が一致しない場合には、両遺伝子の識別子のうち順序が早い方の識別子が読み出された配列データから次の遺伝子の識別子を読み出して再度比較する処理を、第1の構成遺伝子配列データおよび第2の構成遺伝子配列データのいずれかのデータをすべて読み出すまで繰り返し行って共通遺伝子を抽出させ、抽出した共通遺伝子の発現量を比較することによって前記相関を求めさせる。   The program of the present invention is a computer-readable program that causes a computer to calculate a correlation between a gene expression profile stored in a gene expression profile database and a query profile to be compared. The genes constituting the query profile are generated by storing the identifiers of the genes constituting the platform of the gene expression profile stored in the memory in a continuous memory area according to the order determined by the identifiers and generating the first constituent gene sequence data. Are stored in a continuous memory area according to the order determined by the identifiers to generate second constituent gene sequence data, and the gene identifiers are read in order from the top of the first constituent gene sequence data. The gene identifiers are read in order from the top of the second constituent gene sequence data, the identifiers of the read genes are compared, and when the identifiers of both genes match, the common gene expression profile platform and the query profile are common When the identifier of the next gene is read out from the first constituent gene sequence data and the second constituent gene sequence data and compared, and the identifiers of both genes do not match, The process of reading out the identifier of the next gene from the sequence data from which the identifier of the earlier one is read out and comparing it again is performed using either one of the first component gene sequence data and the second component gene sequence data. Repeat until all the data are read out to extract common genes, and the expression level of the extracted common genes Causing obtains the correlation by comparing.

この構成により、本発明の遺伝子発現プロファイル比較装置と同様に、遺伝子発現プロファイルデータと質問プロファイルとの相関を求める演算処理を高速に行うことができる。また、本発明の遺伝子発現プロファイル比較装置の各種の構成を本発明の遺伝子発現プロファイル比較プログラムに適用することも可能である。   With this configuration, similar to the gene expression profile comparison apparatus of the present invention, it is possible to perform a calculation process for obtaining the correlation between the gene expression profile data and the query profile at high speed. Various configurations of the gene expression profile comparison apparatus of the present invention can be applied to the gene expression profile comparison program of the present invention.

本発明によれば、識別子順に構成遺伝子を並べた第1の構成遺伝子配列データおよび第2の構成遺伝子配列データから遺伝子を読み出すことにより、それぞれの配列データから遺伝子の識別子が所定の順序に従って(例えば、小さい順に)読み出されるので、簡単な処理で共通遺伝子を高速に求めることができる。このようにして求めた共通遺伝子を比較することにより、遺伝子発現プロファイルデータと質問プロファイルとの相関を求める演算処理の高速化を図ることができるというすぐれた効果を有する。   According to the present invention, by reading genes from the first constituent gene sequence data and the second constituent gene sequence data in which constituent genes are arranged in the order of identifiers, the identifiers of the genes are determined from the respective sequence data according to a predetermined order (for example, (In ascending order), common genes can be obtained at high speed with simple processing. By comparing the common genes obtained in this way, there is an excellent effect that it is possible to speed up the calculation processing for obtaining the correlation between the gene expression profile data and the query profile.

以下、本発明の実施の形態の遺伝子発現プロファイル比較装置について図面を用いて説明する。   Hereinafter, a gene expression profile comparison apparatus according to an embodiment of the present invention will be described with reference to the drawings.

図1は、本実施の形態の遺伝子発現プロファイル比較装置10の構成を示す図である。遺伝子発現プロファイル比較装置10は、比較対象の遺伝子発現プロファイルを質問プロファイルとして入力する入力部12と、入力された質問プロファイルと遺伝子発現プロファイルデータベース(以下、「遺伝子発現プロファイルDB」という)16に記憶された遺伝子発現プロファイルデータを比較するCPU14と、比較結果を出力する出力部20とを備えている。CPU14には、メモリ18が接続されている。CPU14は、演算を行う際に、メモリ18にデータを書き込み、またメモリ18からデータを読み出す。   FIG. 1 is a diagram illustrating a configuration of a gene expression profile comparison apparatus 10 according to the present embodiment. The gene expression profile comparison apparatus 10 is stored in an input unit 12 that inputs a gene expression profile to be compared as a question profile, and an input question profile and gene expression profile database (hereinafter referred to as “gene expression profile DB”) 16. CPU 14 for comparing the gene expression profile data and an output unit 20 for outputting the comparison result. A memory 18 is connected to the CPU 14. The CPU 14 writes data into the memory 18 and reads data from the memory 18 when performing calculations.

遺伝子発現プロファイル比較装置10は、例えば、パーソナルコンピュータによって構成される。入力部12は、例えば、キーボード、マウス、CD−ROM読取装置などで構成される。出力部20は、例えば、モニタ、プリンタ、CD−ROM書込装置などで構成される。   The gene expression profile comparison apparatus 10 is configured by a personal computer, for example. The input unit 12 includes, for example, a keyboard, a mouse, a CD-ROM reader, and the like. The output unit 20 includes, for example, a monitor, a printer, a CD-ROM writing device, and the like.

遺伝子発現プロファイルDB16には、複数の遺伝子発現プロファイルデータが記憶されている。遺伝子発現プロファイルデータを構成する遺伝子は、識別番号によって特定される。遺伝子発現プロファイル比較装置10で比較対象として取り扱う遺伝子に対し、識別番号を付与しておく。ここで、比較対象として取り扱う遺伝子は、例えば、人間の遺伝子発現プロファイルを解析する場合には、人間が持つ全遺伝子である。また、全遺伝子のデータを持つことが難しい場合には、遺伝子発現プロファイルDB16に記憶された遺伝子発現プロファイルのプラットフォームを構成する遺伝子を、比較対象として取り扱う遺伝子としてもよい。例えば、遺伝子発現プロファイル比較装置10で取り扱う遺伝子に、遺伝子発現プロファイル比較装置10に特有の連続した識別番号を付与する。このとき、遺伝子発現プロファイル比較装置10で用いる識別番号と、一般に用いられる遺伝子の識別子との対応を示すテーブルを使って、一般の識別子と遺伝子発現プロファイル比較装置10に特有の識別番号とを変換してもよい。   The gene expression profile DB 16 stores a plurality of gene expression profile data. Genes constituting the gene expression profile data are specified by an identification number. An identification number is assigned to a gene handled as a comparison target in the gene expression profile comparison apparatus 10. Here, the genes handled as comparison targets are all genes possessed by humans, for example, when analyzing human gene expression profiles. In addition, when it is difficult to have data for all genes, genes constituting the platform of gene expression profiles stored in the gene expression profile DB 16 may be used as genes to be compared. For example, consecutive identification numbers unique to the gene expression profile comparison device 10 are assigned to the genes handled by the gene expression profile comparison device 10. At this time, a general identifier and an identification number peculiar to the gene expression profile comparison device 10 are converted using a table indicating correspondence between the identification numbers used in the gene expression profile comparison device 10 and the identifiers of commonly used genes. May be.

図2(a)は、遺伝子発現プロファイルDB16に記憶されたデータの例を示す図である。以下の説明では、説明の便宜上、遺伝子の識別番号は「〜番」と記載し、識別番号にて特定される遺伝子の発現順位は「〜位」と記載する。なお、実際の遺伝子発現プロファイルデータは、何万個もの遺伝子に関する情報を有するが、本実施の形態では説明の便宜上、1〜11番の遺伝子を対象としている。遺伝子発現プロファイルDB16は、遺伝子の発現量の情報を、遺伝子の発現順位として記憶する。これにより、遺伝子発現プロファイルの比較を容易に行える。図2(a)に示す例では、遺伝子発現プロファイルデータは、発現順位の高い方から、7番、3番、8番、1番、4番、10番、11番の遺伝子によって構成されている。すなわち、遺伝子発現プロファイルDB16に記憶された遺伝子発現プロファイルのプラットフォームは、比較対象となり得る1〜11番の全遺伝子のうち、2番、5番、6番、9番の遺伝子を有しない。遺伝子発現プロファイルDB16には、図2(a)において、発現順位に従って並べた遺伝子の情報(太線で囲った部分)が記憶される。なお、遺伝子発現プロファイル比較装置10は、図2(a)のように発現順位によってソートされた遺伝子発現プロファイルデータの情報を、図2(b)に示すように識別番号順にソートすることができる。   FIG. 2A is a diagram illustrating an example of data stored in the gene expression profile DB 16. In the following description, for convenience of explanation, the gene identification number is described as “˜number”, and the expression rank of the gene specified by the identification number is described as “˜rank”. The actual gene expression profile data has information on tens of thousands of genes, but in the present embodiment, for the convenience of explanation, the first to eleventh genes are targeted. The gene expression profile DB 16 stores information on gene expression levels as gene expression ranks. This makes it easy to compare gene expression profiles. In the example shown in FIG. 2 (a), the gene expression profile data is composed of genes No. 7, No. 3, No. 8, No. 1, No. 4, No. 10, No. 11 from the higher expression rank. . That is, the gene expression profile platform stored in the gene expression profile DB 16 does not have the 2nd, 5th, 6th, and 9th genes among all the 1st to 11th genes that can be compared. The gene expression profile DB 16 stores information on genes arranged in accordance with the expression order in FIG. 2A (portions surrounded by bold lines). In addition, the gene expression profile comparison apparatus 10 can sort the information of the gene expression profile data sorted according to the expression rank as shown in FIG. 2A in the order of the identification numbers as shown in FIG.

次に、本実施の形態の遺伝子発現プロファイル比較装置10によって、遺伝子発現プロファイルDB16に記憶された遺伝子発現プロファイルと、質問プロファイルとを比較する処理について説明する。   Next, a process of comparing the gene expression profile stored in the gene expression profile DB 16 with the question profile by the gene expression profile comparison apparatus 10 of the present embodiment will be described.

まず、入力部12から入力される質問プロファイルの例について説明する。
図3は、質問プロファイルの例を示す図である。質問プロファイルは、遺伝子発現プロファイルと同様に、遺伝子の発現量を発現順位で示す情報である。入力部12は、発現順位に従って並べた遺伝子の情報(太線で囲った部分)の入力を受け付ける。
First, an example of a question profile input from the input unit 12 will be described.
FIG. 3 is a diagram illustrating an example of a question profile. Similar to the gene expression profile, the question profile is information indicating the expression level of the gene in the order of expression. The input unit 12 receives input of gene information (portions surrounded by bold lines) arranged according to the expression order.

遺伝子発現プロファイル比較装置10は、遺伝子発現プロファイルDB16に記憶された遺伝子発現プロファイルと、入力部12より入力された質問プロファイルとの相関を求める。最初に、計算の概略について述べる。   The gene expression profile comparison apparatus 10 obtains a correlation between the gene expression profile stored in the gene expression profile DB 16 and the question profile input from the input unit 12. First, an outline of the calculation will be described.

図4は、遺伝子発現プロファイル比較装置10による計算処理を示すフローチャートである。まず、遺伝子発現プロファイルと質問プロファイルとに共通して含まれる遺伝子を共通遺伝子として求める(S10)。次に、共通遺伝子の中での発現順位を求め(S12)、同じ共通遺伝子における発現順位の差に基づいて順位相関係数を求める(S14)。
以下、図2(a)と図3に示すデータを例として詳しく説明する。
FIG. 4 is a flowchart showing calculation processing by the gene expression profile comparison apparatus 10. First, a gene commonly included in the gene expression profile and the query profile is obtained as a common gene (S10). Next, the expression rank in the common gene is obtained (S12), and the rank correlation coefficient is obtained based on the difference in the expression rank in the same common gene (S14).
Hereinafter, the data shown in FIG. 2A and FIG. 3 will be described in detail as an example.

(共通遺伝子の求め方)
遺伝子発現プロファイル比較装置10のCPU14は、遺伝子発現プロファイルDB16に記憶された遺伝子発現プロファイルのプラットフォームに含まれる遺伝子と、質問プロファイルの含まれる遺伝子との共通遺伝子を求める処理を行う。
(How to find common genes)
The CPU 14 of the gene expression profile comparison apparatus 10 performs a process of obtaining a common gene between the gene included in the gene expression profile platform stored in the gene expression profile DB 16 and the gene included in the question profile.

CPU14は、プラットフォームに含まれる遺伝子の識別番号を、識別番号に従ってソートし、配列データとしてメモリ18に記憶する。この配列データを第1の構成遺伝子配列データという。図5(a)は、遺伝子発現プロファイルデータ(図2(a))を識別番号順に並べた第1の構成遺伝子配列データを示す。同様に、質問プロファイルに含まれる遺伝子の識別番号を、識別番号に従ってソートし、配列データとしてメモリ18に記憶する。この配列データを第2の構成遺伝子配列データという。図5(b)は、質問プロファイル(図3)を識別番号順に並べた第2の構成遺伝子配列データを示す。   The CPU 14 sorts the identification numbers of the genes included in the platform according to the identification numbers and stores them in the memory 18 as sequence data. This sequence data is referred to as first constituent gene sequence data. FIG. 5A shows first constituent gene sequence data in which gene expression profile data (FIG. 2A) is arranged in the order of identification numbers. Similarly, the identification numbers of the genes included in the question profile are sorted according to the identification number and stored in the memory 18 as sequence data. This sequence data is referred to as second constituent gene sequence data. FIG. 5B shows second constituent gene sequence data in which the query profiles (FIG. 3) are arranged in the order of identification numbers.

CPU14は、第1の構成遺伝子配列データおよび第2の構成遺伝子配列データのそれぞれから、先頭から順に読み出したデータを比較して、共通遺伝子を求める。具体的には、まず、プラットフォームの配列データ(図5(a))の先頭からデータを読み出し、「1番」という識別番号のデータを取得する。質問プロファイルの配列データ(図5(b))の先頭からデータを読み出し、「1番」という識別番号のデータを取得する。読み出した両データを比較すると、ともに「1番」で一致していることから、プラットフォームと質問プロファイルとで「1番」の遺伝子が共通していることが分かる。CPU14は、「1番」を共通遺伝子として記憶する。   The CPU 14 obtains a common gene by comparing data read in order from the beginning from each of the first component gene sequence data and the second component gene sequence data. Specifically, first, data is read from the top of the array data of the platform (FIG. 5A), and data with an identification number “No. 1” is acquired. Data is read from the beginning of the array data of the question profile (FIG. 5B), and data with an identification number of “No. 1” is acquired. Comparing both the read data, it is found that the “No. 1” gene is common between the platform and the question profile because both are matched with “No. 1”. The CPU 14 stores “No. 1” as a common gene.

次に、CPU14は、プラットフォームの配列データ(図5(a))の2番目からデータを読み出し、「3番」という識別番号のデータを取得する。質問プロファイルの配列データ(図5(b))の2番目からデータを読み出し、「2番」という識別番号のデータを取得する。読み出された両データを比較すると、両データは一致しないので、小さい方の識別番号を読み出した質問プロファイルの配列データ(図5(b))から次の(3番目の)データを読み出し、「4番」という識別番号のデータを取得する。プラットフォームの配列データから読み出されたデータは「3番」であり、質問プロファイルの配列データから読み出されたデータは「4番」であるので、両データは一致しない。CPU14は、小さい方の識別番号を読み出したプラットフォームの配列データ(図5(a))から次の(配列の3番目)のデータを読み出し、「4番」という識別番号のデータを取得する。読み出したデータを比較すると、ともに「4番」で一致していることから、プラットフォームと質問プロファイルとで「4番」の遺伝子が共通していることが分かる。CPU14は、「4番」を共通遺伝子として記憶する。   Next, the CPU 14 reads data from the second of the array data of the platform (FIG. 5A), and acquires data having an identification number “No. 3”. Data is read from the second of the array data of the question profile (FIG. 5B), and data with an identification number of “No. 2” is acquired. When the read data is compared, the two data do not match, so the next (third) data is read from the query profile array data (FIG. 5B) from which the smaller identification number is read. The data of the identification number “No. 4” is acquired. Since the data read from the array data of the platform is “No. 3” and the data read from the array data of the question profile is “No. 4”, the two data do not match. The CPU 14 reads the next (third in the array) data from the array data (FIG. 5A) of the platform from which the smaller identification number is read out, and obtains data with the identification number “4”. Comparing the read data, since both match with “No. 4”, it is understood that the “No. 4” gene is common to the platform and the question profile. The CPU 14 stores “No. 4” as a common gene.

以下、同様に、第1の構成遺伝子配列データおよび第2の構成遺伝子配列データのそれぞれから順にデータを読み出して比較する処理を、第1の構成遺伝子配列データまたは第2の構成遺伝子配列データのすべてのデータを読み出すまで行い、共通遺伝子を求める。この例では、1番、4番、7番、8番、11番の遺伝子が共通遺伝子として求められる。なお、プラットフォームを構成する遺伝子と質問プロファイルとに共通する共通遺伝子は、遺伝子発現プロファイルDB16に記憶された個々の遺伝子発現プロファイルとの比較を行う前に求めておくことが好ましい。   Hereinafter, similarly, the process of reading and comparing the data in order from each of the first constituent gene sequence data and the second constituent gene sequence data is performed for all of the first constituent gene sequence data or the second constituent gene sequence data. The data is read until the common gene is obtained. In this example, the first, fourth, seventh, eighth and eleventh genes are obtained as common genes. In addition, it is preferable to obtain | require the common gene which is common in the gene which comprises a platform, and a query profile before comparing with each gene expression profile memorize | stored in gene expression profile DB16.

図6は、共通遺伝子を示す配列データ(以下、「共通遺伝子配列データ」という)の例を示す図である。共通遺伝子配列データは、本実施の形態で比較対象としている1〜11番の遺伝子についてのデータを記憶する。共通遺伝子配列データは、11個のデータを記憶できる大きさを有し、共通遺伝子配列データのa番目には、識別番号がa番の遺伝子についてのデータが記憶される。共通遺伝子配列データでは、共通遺伝子に「TRUE」の値を記憶し、共通遺伝子以外の遺伝子の「FALSE」の値を記憶する。例えば、1番は共通遺伝子なので、配列データの1番目に「TRUE」の値が記憶される。2番は共通遺伝子ではないので、配列データの2番目に「FALSE」の値が記憶される。メモリ18にこのような共通遺伝子配列データを記憶しておくことにより、遺伝子の識別番号から、その遺伝子が共通遺伝子であるか否かを簡単にチェックすることができる。例えば、a番の遺伝子が共通遺伝子であるか否かを見る場合には、配列データのa番目のデータを読み出し、TRUEかFALSEかを判定することにより、高速に判定できる。なお、実際のプログラムにおいては、遺伝子の識別番号を配列データの添字として用いることにより、その識別番号の遺伝子の情報を参照できる。   FIG. 6 is a diagram showing an example of sequence data indicating a common gene (hereinafter referred to as “common gene sequence data”). The common gene sequence data stores data on genes 1 to 11 which are comparison targets in the present embodiment. The common gene sequence data has a size capable of storing 11 pieces of data, and the data for the gene with the identification number a is stored in the a-th common gene sequence data. In the common gene sequence data, the value of “TRUE” is stored in the common gene, and the value of “FALSE” of genes other than the common gene is stored. For example, since No. 1 is a common gene, the value of “TRUE” is stored in the first of the sequence data. Since No. 2 is not a common gene, the value of “FALSE” is stored in the second of the sequence data. By storing such common gene sequence data in the memory 18, whether or not the gene is a common gene can be easily checked from the gene identification number. For example, when checking whether or not the a-th gene is a common gene, it can be determined at high speed by reading the a-th data of the sequence data and determining whether it is TRUE or FALSE. In an actual program, by using a gene identification number as a subscript of sequence data, it is possible to refer to the gene information of that identification number.

(共通遺伝子の中での発現順位の求め方)
次に、共通遺伝子の中での発現順位を求める方法について説明する。
CPU14は、図7(a)に示すように、遺伝子発現プロファイルデータを発現順に並べた配列データを生成する。この配列データを、発現順遺伝子配列データという。この配列データでは、共通遺伝子か否かにかかわらず、遺伝子発現プロファイルに含まれる遺伝子に発現順位を付与している。CPU14は、発現順遺伝子配列データの先頭の方から順に共通遺伝子を読み出し、読み出した順に順位を付し、遺伝子発現プロファイルに含まれる共通遺伝子の中での発現順位を求める。遺伝子発現プロファイルデータから共通遺伝子を読み出し、読み出した共通遺伝子の発現順位を記憶するための構成について詳述する。
(How to determine the order of expression among common genes)
Next, a method for obtaining the expression order among common genes will be described.
As shown in FIG. 7A, the CPU 14 generates sequence data in which gene expression profile data is arranged in the order of expression. This sequence data is referred to as expression sequence gene sequence data. In this sequence data, regardless of whether it is a common gene or not, an expression rank is given to genes included in the gene expression profile. The CPU 14 reads the common genes in order from the top of the gene sequence data in the order of expression, assigns the ranks in the order of reading, and obtains the expression rank among the common genes included in the gene expression profile. A configuration for reading the common gene from the gene expression profile data and storing the read expression order of the common gene will be described in detail.

CPU14は、図7(c)に示すように、識別番号と同数のデータを書き込むことができる配列データを生成する。この配列データの値は、最初、すべて「0」としておく。この配列データを発現順位配列データという。図7(b)は、前述した共通遺伝子配列データである。CPU14は、発現順遺伝子配列データの先頭から識別番号のデータを読み出す。ここでは、「7番」という識別番号が読み出される。CPU14は、識別番号で示される位置にある共通遺伝子配列データの値を参照する。図7(b)を参照すると、共通遺伝子配列データの7番目の値は、「TRUE」である。従って、CPU14は、「7番」を共通遺伝子と判定し、発現順位をカウントアップし(この段階では1位)、共通遺伝子の中での発現順位とする。CPU14は、求めた発現順位を発現順位配列データ(図7(c))の中の識別番号で示される位置に書き込む。   As shown in FIG. 7C, the CPU 14 generates array data in which the same number of data as the identification number can be written. All the values of the array data are initially set to “0”. This sequence data is referred to as expression rank sequence data. FIG. 7B is the common gene sequence data described above. CPU14 reads the data of an identification number from the head of expression sequence gene sequence data. Here, an identification number “7” is read out. The CPU 14 refers to the value of the common gene sequence data at the position indicated by the identification number. Referring to FIG. 7B, the seventh value of the common gene sequence data is “TRUE”. Therefore, the CPU 14 determines that “No. 7” is a common gene, counts up the expression rank (first rank at this stage), and sets it as the expression rank among the common genes. The CPU 14 writes the obtained expression rank at the position indicated by the identification number in the expression rank sequence data (FIG. 7C).

次に、CPU14は、発現順遺伝子配列データの次のデータ(2番目のデータ)を読み出す。ここでは、「3番」という識別番号が読み出される。この識別番号で示される位置にある共通遺伝子配列データ(図7(b))の値を参照すると、「FALSE」である。従って、CPU14は、「3番」の遺伝子は共通遺伝子ではないと判断し、次の処理に進む。CPU14は、発現順遺伝子配列データの次のデータ(3番目のデータ)を読み出す。ここでは、「8番」という識別番号が読み出される。この識別番号で示される位置にある共通遺伝子配列データ(図7(b))を参照すると、「TRUE」である。従って、CPU14は、「8番」を共通遺伝子と判定し、発現順位をカウントアップし(この段階では2位)、共通遺伝子の中での発現順位とする。CPU14は、求めた発現順位を、発現順位配列データ(図7(c))の中の識別番号で示される位置に書き込む。以上の処理を発現順遺伝子配列データ(図7(a))の中の全データを読み出すまで繰り返し行い、共通遺伝子の中での発現順位を求める。図7(d)は、共通遺伝子の中での発現順位を記憶した発現順位配列データを示す図である。「0」は、共通遺伝子ではないか、あるいは発現量のデータがないことを示す。同様に、CPU14は、質問プロファイルの共通遺伝子の中での発現順位を求める。   Next, the CPU 14 reads data next to the expression sequence gene sequence data (second data). Here, the identification number “No. 3” is read out. Referring to the value of the common gene sequence data (FIG. 7B) at the position indicated by this identification number, it is “FALSE”. Therefore, the CPU 14 determines that the “No. 3” gene is not a common gene, and proceeds to the next process. The CPU 14 reads data next to the expression sequence gene sequence data (third data). Here, an identification number “8” is read out. Referring to the common gene sequence data (FIG. 7B) at the position indicated by this identification number, it is “TRUE”. Therefore, the CPU 14 determines that “No. 8” is a common gene, counts up the expression rank (second rank at this stage), and sets it as the expression rank among the common genes. The CPU 14 writes the obtained expression rank at the position indicated by the identification number in the expression rank sequence data (FIG. 7C). The above process is repeated until all the data in the expression sequence gene sequence data (FIG. 7A) is read, and the expression rank in the common gene is obtained. FIG. 7 (d) is a diagram showing expression rank sequence data in which expression ranks among common genes are stored. “0” indicates that the gene is not a common gene or there is no expression level data. Similarly, CPU14 calculates | requires the expression order in the common gene of a question profile.

(順位相関係数の求め方)
次に、順位相関係数の求め方について説明する。
図8(a)は遺伝子発現プロファイルデータの共通遺伝子の中での発現順位を示す第1の発現順位配列データを示す図、図8(b)は質問プロファイルの共通遺伝子の中での発現順位を示す第2の発現順位配列データを示す図である。メモリ18に、図8(a)および図8(b)に示す発現順位配列データを記憶しておく。
(How to calculate rank correlation coefficient)
Next, how to obtain the rank correlation coefficient will be described.
FIG. 8A is a diagram showing the first expression rank sequence data indicating the expression rank in the common gene of the gene expression profile data, and FIG. 8B is the expression rank in the common gene of the query profile. It is a figure which shows the 2nd expression order arrangement | sequence data shown. The memory 18 stores the expression rank sequence data shown in FIGS. 8A and 8B.

CPU14は、第1の発現順位配列データと第2の発現順位配列データから同じ識別番号の発現順位データを読み出し、読み出したそれぞれの発現順位データの差に基づいて順位相関係数を求める。CPU14は、それぞれの共通遺伝子の個数n、それぞれの順位の差をDiとして、式(1)によって順位相関係数rを求める。

Figure 0004568861
第1の発現順位配列データと第2の発現順位配列データからのデータ読み出しは、第2の発現順位配列データにおいて発現順位の高い方から順に読み出す。この例では、7番、1番、8番、11番、4番の順で発現順位データを読み出す。これにより、次に説明するように、遺伝子発現プロファイルデータに欠損がある場合にも、適切に順位相関係数を求めることができる。 The CPU 14 reads the expression rank data having the same identification number from the first expression rank sequence data and the second expression rank sequence data, and obtains a rank correlation coefficient based on the difference between the read expression rank data. The CPU 14 obtains the rank correlation coefficient r according to the equation (1), where the number n of each common gene and the difference between the ranks are Di.
Figure 0004568861
Data read from the first expression rank sequence data and the second expression rank sequence data is read in order from the highest expression rank in the second expression rank sequence data. In this example, the expression rank data is read in the order of No. 7, No. 1, No. 8, No. 11, No. 4. As a result, as will be described next, the rank correlation coefficient can be appropriately obtained even when the gene expression profile data is deficient.

(欠損値がある場合の順位相関係数の求め方)
図9(a)は、図8(a)に示す第1の発現順位配列データにおいて、識別番号「1番」の遺伝子のデータが欠損している例を示す図である。図9(a)に示すように、「1番」の遺伝子は欠損によりデータを有しないので、「0」の値となっている。また、これに伴い、「4番」「11番」の共通遺伝子内での発現順位が一つずつ繰り上がっている。
(How to determine the rank correlation coefficient when there are missing values)
FIG. 9A is a diagram showing an example in which the data of the gene with the identification number “No. 1” is missing in the first expression rank sequence data shown in FIG. As shown in FIG. 9 (a), the “No. 1” gene has no data due to deletion, and thus has a value of “0”. Along with this, the expression ranks in the common genes of “No. 4” and “No. 11” are raised one by one.

CPU14は、まず、第2の発現順位配列データにおいて最も順位の高い「7番」の発現順位データを、第1の発現順位配列データおよび第2の発現順位配列データから読み出す。第1の発現順位配列データおよび第2の発現順位配列データの「7番」からは、ともに発現順位データが取得することができ、CPU14は、順位の差Diを求める。   First, the CPU 14 reads out the expression rank data of “No. 7” having the highest rank in the second expression rank sequence data from the first expression rank sequence data and the second expression rank sequence data. Both the expression rank data can be obtained from “No. 7” of the first expression rank sequence data and the second expression rank sequence data, and the CPU 14 obtains the rank difference Di.

次に、CPU14は、第2の発現順位配列データにおいて2番目に順位の高い「1番」の発現順位データを、第1の発現順位配列データおよび第2の発現順位配列データから読み出す。第1の発現順位配列データからは、データがないことを示す「0」が読み出されるので、CPU14は順位の差Diの計算を行わず、欠損値の個数をカウントアップする。この段階では、欠損値の個数は1個となる。   Next, the CPU 14 reads the expression rank data of “No. 1” having the second highest rank in the second expression rank sequence data from the first expression rank sequence data and the second expression rank sequence data. Since “0” indicating no data is read from the first expression rank sequence data, the CPU 14 does not calculate the rank difference Di and counts up the number of missing values. At this stage, the number of missing values is one.

次に、CPU14は、第2の発現順位配列データにおいて3番目に順位の高い「8番」の発現順位データを、第1の発現順位配列データおよび第2の発現順位配列データから読み出す。第1の発現順位配列データおよび第2の発現順位配列データの「8番」からは、ともに発現順位データが取得することができるので、順位の差Diを求める。この際、第2の発現順位配列データから読み出した発現順位データから欠損値の個数を減算する。ここでは、第2の発現順位配列データの「8番」からは、「3位」という発現順位データが読み出されたので、欠損値の個数1個を減算して発現順位を「2位」とした後に、第1の発現順位配列データから読み出した発現順位との差Diを求める。以下、同様の処理を繰り返し、共通遺伝子について順位の差Diを求め、順位相関係数を計算する。
以上、本実施の形態におけるCPU14の処理について説明した。
Next, the CPU 14 reads the expression rank data of “# 8” having the third highest rank in the second expression rank sequence data from the first expression rank sequence data and the second expression rank sequence data. Since both the expression rank data can be obtained from “No. 8” of the first expression rank sequence data and the second expression rank sequence data, the rank difference Di is obtained. At this time, the number of missing values is subtracted from the expression rank data read out from the second expression rank sequence data. Here, since the expression rank data “3rd place” is read from “8” in the second expression rank sequence data, the expression rank is set to “2nd place” by subtracting the number of missing values. After that, the difference Di from the expression order read from the first expression order sequence data is obtained. Thereafter, the same processing is repeated to obtain the rank difference Di for the common gene, and the rank correlation coefficient is calculated.
The processing of the CPU 14 in the present embodiment has been described above.

次に、本実施の形態の遺伝子発現プロファイル比較装置10の効果について説明する。
本実施の形態の遺伝子発現プロファイル比較装置10では、プラットフォームを構成する遺伝子を識別番号順に記憶した第1の構成遺伝子配列データと質問プロファイルを構成する遺伝子を識別番号順に記憶した第2の構成遺伝子配列データを生成し、それぞれの配列データの先頭から順に遺伝子の識別番号を読み出して比較する。第1の構成遺伝子配列データおよび第2の構成遺伝子配列データから、識別番号が小さい順に遺伝子の識別番号が読み出されるので、共通遺伝子を効率良く検索することができる。
Next, the effect of the gene expression profile comparison apparatus 10 of the present embodiment will be described.
In the gene expression profile comparison apparatus 10 of the present embodiment, the first constituent gene sequence data in which the genes constituting the platform are stored in the order of the identification numbers and the second constituent gene sequence in which the genes constituting the question profile are stored in the order of the identification numbers Data is generated, and gene identification numbers are read and compared in order from the top of each sequence data. Since the gene identification numbers are read from the first component gene sequence data and the second component gene sequence data in ascending order of the identification numbers, common genes can be efficiently searched.

共通遺伝子を求める従来方法として、ハッシュ法または木構造を利用した方法が知られていた。しかし、ハッシュ法では、複数のポインタを辿る必要があり、処理に時間を要する。また、ハッシュ法においてはハッシュ表のコマ、木構造を利用する方法においては木構造を表すポインタなどをメモリに記憶する必要がある。これに対し、本実施の形態の方法によれば、単純な配列データを用いるのでポインタを辿る必要がなく、使用するメモリも小さい。これにより、配列データがCPUキャッシュに入り切る可能性が高く、計算処理の高速化を図れる。   As a conventional method for obtaining a common gene, a method using a hash method or a tree structure has been known. However, in the hash method, it is necessary to trace a plurality of pointers, and processing takes time. In the hash method, it is necessary to store a frame of a hash table in a memory, and in a method using a tree structure, a pointer representing the tree structure and the like are stored in a memory. On the other hand, according to the method of the present embodiment, since simple array data is used, it is not necessary to follow the pointer, and the memory used is small. Thereby, there is a high possibility that the array data will completely enter the CPU cache, and the calculation process can be speeded up.

また、本実施の形態では、配列に遺伝子の識別番号順にデータを格納しているので、計算量を低減し、処理速度を高めることができる。図10(a)は、識別番号をランダムに格納した配列データを用いて共通遺伝子を検索した例を説明する図であり、遺伝子発現プロファイルに含まれる「3番」の遺伝子が、質問プロファイルに含まれているかを検索する例を示す。例えば、「3番」の遺伝子を見つけ出すまで、質問プロファイルの全データを検索する必要がある。例えば、1万個の遺伝子を含む遺伝子発現プロファイルと1万個の遺伝子を含む質問プロファイルとに共通する遺伝子を見つけるためには、最大で、1万×1万=1億(回)のデータ読み出しが必要である。これに対し、図10(b)は本実施の形態による共通遺伝子の検索を説明する図である。本実施の形態では、図10(b)に示すように、識別番号を小さい順に記憶しているので、遺伝子発現プロファイルに含まれる「3番」の遺伝子が質問プロファイルに含まれているか否かを検索する際には、質問プロファイルの構成遺伝子配列データから読み出される遺伝子の識別番号が「3番」より大きくなった時点で、質問プロファイルには「3番」の遺伝子が含まれていないと判断できる。従って、質問プロファイルの全データを検索する必要がなくなり、効率良く共通遺伝子を検索できる。遺伝子発現プロファイルまたは質問プロファイルに含まれる遺伝子数が多い場合には、特に大きい効果を発揮する。   In this embodiment, since data is stored in the sequence in the order of gene identification numbers, the calculation amount can be reduced and the processing speed can be increased. FIG. 10 (a) is a diagram for explaining an example in which a common gene is searched using sequence data in which identification numbers are randomly stored. The gene No. 3 included in the gene expression profile is included in the question profile. An example of searching for whether or not For example, it is necessary to search all data of the question profile until the gene “No. 3” is found. For example, in order to find a gene common to a gene expression profile including 10,000 genes and a query profile including 10,000 genes, 10,000 × 10,000 = 100 million (times) data reading is required. On the other hand, FIG. 10B is a diagram for explaining the search for the common gene according to the present embodiment. In the present embodiment, as shown in FIG. 10B, since the identification numbers are stored in ascending order, it is determined whether or not the “No. 3” gene included in the gene expression profile is included in the query profile. When searching, when the identification number of the gene read from the constituent gene sequence data of the question profile becomes larger than “No. 3”, it can be determined that the “No. 3” gene is not included in the question profile. . Therefore, it is not necessary to search all the data of the question profile, and the common gene can be searched efficiently. This is particularly effective when the number of genes included in the gene expression profile or the query profile is large.

また、共通遺伝子の中での発現順位を求めるときには、発現順に並べて記憶した識別番号の発現順遺伝子配列データを生成し、発現順遺伝子配列データの先頭から順に遺伝子の識別番号を読み出して、読み出した遺伝子が共通遺伝子である場合に、発現順位を付与していく。従って、配列データから順次データを読み出すという簡単な処理によって、共通遺伝子の中での発現順位を高速に求めることができる。   In addition, when obtaining the expression order among the common genes, the gene sequence data of the identification numbers stored in the order of expression is generated, the gene identification numbers are read out in order from the beginning of the gene sequence data in the order of expression, and read. When genes are common genes, the order of expression is assigned. Therefore, the order of expression among the common genes can be determined at high speed by a simple process of sequentially reading the data from the sequence data.

また、共通遺伝子か否かの判定においては、識別番号によって指定される位置にその識別番号の遺伝子が共通であるか否かを示す情報を記憶した共通遺伝子配列データを参照するので、所定の識別番号の遺伝子が共通遺伝子であるか否かを高速に判定できる。すなわち、共通遺伝子配列データを記憶したメモリ18には、識別番号に従って、共通遺伝子であるか否かの情報が記憶されているので、所定の識別番号の遺伝子のデータを参照したいときには、識別番号で示される位置のデータを参照すれば、共通遺伝子であるか否かを即座に読み取ることができる。   In determining whether or not a gene is a common gene, the common gene sequence data storing information indicating whether or not the gene of the identification number is common is referenced at the position specified by the identification number. Whether or not the numbered gene is a common gene can be determined at high speed. That is, the memory 18 storing the common gene sequence data stores information on whether or not the gene is a common gene according to the identification number. By referring to the data at the indicated position, it can be read immediately whether or not it is a common gene.

また、相関順位係数を求める際に、遺伝子の発現順位のデータを識別番号順に並べた発現順位配列データを用いているので、所定の遺伝子の発現順位を迅速に求めることができる。図11は、所定の遺伝子の発現順位を読み出す従来方法の例を示す図である。従来の装置では、発現順位のデータは、識別番号に関連付けられてデータベース等に記憶されている。識別番号を指定して発現順位を求める関数をデータベースに送信すると、データベースでは、指定された識別番号に一致する遺伝子を検索し、指定された遺伝子が見つかると、その遺伝子に関連付けられた発現順位のデータを読み出しに行く。つまり、識別番号の情報に、発現順位データが記録された領域のアドレスが付加されており、このアドレスを参照して発現順位データを読み出す。従って、所定の遺伝子の発現順位を検索するには時間を要していた。本実施の形態によれば、発現順位配列データの中で識別番号で指定された位置に記憶されたデータを読み出すだけなので、極めて短時間で発現順位データを取得できる。   Further, since the expression rank sequence data in which the gene expression rank data are arranged in the order of the identification number is used when obtaining the correlation rank coefficient, the expression rank of a predetermined gene can be quickly determined. FIG. 11 is a diagram showing an example of a conventional method for reading the expression order of a predetermined gene. In the conventional apparatus, the expression rank data is stored in a database or the like in association with the identification number. When an identification number is specified and a function for calculating the expression rank is sent to the database, the database searches for a gene that matches the specified identification number, and when the specified gene is found, the expression rank associated with that gene is searched. Go to read data. That is, the address of the area where the expression rank data is recorded is added to the identification number information, and the expression rank data is read with reference to this address. Therefore, it takes time to search for the expression order of a predetermined gene. According to the present embodiment, since the data stored at the position designated by the identification number in the expression rank sequence data is only read, the expression rank data can be acquired in a very short time.

また、順位相関係数を求める際に、質問プロファイルに含まれる共通遺伝子の中での発現順位データを識別番号順に記憶した第2の発現順位配列データの発現順に発現順位を読み出し、対応する発現順位データが欠損している場合には、欠損値をカウントアップする。そして、順位相関係数を計算する際に、第2の発現順位配列データから読み出した発現順位から、その時点での欠損値の個数を減じて新たな発現順位とする処理を行う。これにより、読み出した遺伝子の識別番号より上位に存在する欠損値の個数を発現順位から減じて、欠損遺伝子を除く共通遺伝子の中での発現順位を計算することができる。欠損値が存在する場合にも、順位相関係数を適切に求めることができる。   Further, when calculating the rank correlation coefficient, the expression rank is read in the order of expression of the second expression rank sequence data in which the expression rank data among the common genes included in the query profile is stored in the order of the identification number, and the corresponding expression rank If the data is missing, the missing value is counted up. Then, when calculating the rank correlation coefficient, the number of missing values at that time is subtracted from the expression rank read out from the second expression rank sequence data to obtain a new expression rank. As a result, the number of missing values higher than the read gene identification number is subtracted from the expression rank, and the expression rank among the common genes excluding the defective gene can be calculated. Even when there are missing values, the rank correlation coefficient can be obtained appropriately.

以上、本発明の遺伝子発現プロファイル比較装置10について実施の形態を挙げて詳細に説明したが、本発明は上記した実施の形態に限定されるものではない。   The gene expression profile comparison apparatus 10 of the present invention has been described in detail with reference to the embodiment, but the present invention is not limited to the above-described embodiment.

上記の実施の形態では、遺伝子発現プロファイルを比較する比較装置について説明したが、複数の遺伝子発現プロファイルから質問プロファイルに最も相関の高い遺伝子発現プロファイルを検索する検索装置にも適用することができる。   In the above embodiment, a comparison device that compares gene expression profiles has been described, but the present invention can also be applied to a search device that searches a gene expression profile having the highest correlation with a query profile from a plurality of gene expression profiles.

また、上記の実施の形態では、遺伝子発現プロファイル比較装置10について説明したが、上記したCPU14の処理を実行させるためのプログラムも本発明に含まれる。   In the above embodiment, the gene expression profile comparison apparatus 10 has been described. However, the present invention includes a program for executing the processing of the CPU 14 described above.

また、上記した実施の形態では、遺伝子発現プロファイルを比較する遺伝子発現プロファイル比較装置10について説明したが、一般の順位データを比較する相関演算装置にも適用することができる。   In the above-described embodiment, the gene expression profile comparison apparatus 10 that compares gene expression profiles has been described. However, the present invention can also be applied to a correlation calculation apparatus that compares general rank data.

以上説明したように、本発明は、遺伝子発現プロファイルデータと質問プロファイルとの相関を求める演算処理を高速に行うことができるというすぐれた効果を有し、遺伝子発現プロファイルを比較する遺伝子発現プロファイル比較装置等として有用である。   As described above, the present invention has a superior effect of being able to perform high-speed calculation processing for obtaining a correlation between gene expression profile data and a query profile, and compares gene expression profiles with a gene expression profile comparison apparatus. Useful as such.

実施の形態の遺伝子発現プロファイル比較装置の構成を示す図である。It is a figure which shows the structure of the gene expression profile comparison apparatus of embodiment. (a)は、遺伝子発現プロファイルDBに記憶されたデータの例を示す図である。 (b)は、遺伝子発現プロファイルデータを識別子順にソートしたデータの例を示す図である。(A) is a figure showing an example of data memorized by gene expression profile DB. (B) is a diagram showing an example of data obtained by sorting gene expression profile data in the order of identifiers. 質問プロファイルのデータの例を示す図である。It is a figure which shows the example of the data of a question profile. 遺伝子発現プロファイル比較装置による順位相関係数の計算処理を示す図である。It is a figure which shows the calculation process of the rank correlation coefficient by a gene expression profile comparison apparatus. (a)は、遺伝子発現プロファイルデータの例を示す図である。 (b)は、質問プロファイルの例を示す図である。(A) is a figure showing an example of gene expression profile data. (B) is a figure showing an example of a question profile. 共通遺伝子配列データの例を示す図である。It is a figure which shows the example of common gene arrangement | sequence data. (a)は、遺伝子発現プロファイルデータの例を示す図である。 (b)は、共通遺伝子配列データの例を示す図である。 (c)は、識別番号と同数のデータを書き込むことができる配列データを示す図である。 (d)は、共通遺伝子の中での発現順位を記憶した発現順位配列データを示す図である。(A) is a figure showing an example of gene expression profile data. (B) is a figure which shows the example of common gene arrangement | sequence data. (C) is a figure which shows the arrangement | sequence data which can write in the same number of data as an identification number. (D) is a figure which shows the expression order sequence data which memorize | stored the expression order in the common gene. (a)は、遺伝子発現プロファイルデータの発現順位配列データの例を示す図である。 (b)は、質問プロファイルの発現順位配列データの例を示す図である。(A) is a figure showing an example of expression rank sequence data of gene expression profile data. (B) is a figure which shows the example of the expression order arrangement | sequence data of a question profile. (a)は、遺伝子発現プロファイルデータの発現順位配列データの例を示す図である。 (b)は、質問プロファイルの発現順位配列データの例を示す図である。(A) is a figure showing an example of expression rank sequence data of gene expression profile data. (B) is a figure which shows the example of the expression order arrangement | sequence data of a question profile. (a)は、従来の共通遺伝子の検索を説明する図である。 (b)は、本実施の形態による共通遺伝子の検索を説明する図である。(A) is a figure explaining the search of the conventional common gene. (B) is a figure explaining the search of a common gene by this Embodiment. 所定の遺伝子の発現順位を読み出す従来方法の例を示す図である。It is a figure which shows the example of the conventional method which reads the expression order of a predetermined gene.

符号の説明Explanation of symbols

10 遺伝子発現プロファイル比較装置
12 入力部
14 CPU
16 遺伝子発現プロファイルDB
18 メモリ
20 出力部
DESCRIPTION OF SYMBOLS 10 Gene expression profile comparison apparatus 12 Input part 14 CPU
16 Gene expression profile DB
18 Memory 20 Output section

Claims (3)

遺伝子発現プロファイルを記憶した遺伝子発現プロファイルデータベースと、
比較対象の質問プロファイルの入力を受け付ける入力手段と、
前記入力手段にて入力された質問プロファイルと前記遺伝子発現プロファイルデータベースに記憶された遺伝子発現プロファイルとの相関を演算する演算手段と、を備え、
前記演算手段は、
前記遺伝子発現プロファイルデータベースに記憶された遺伝子発現プロファイルのプラットフォームを構成する遺伝子の識別子を、その識別子によって定まる順序に従って、連続するメモリ領域に記憶して第1の構成遺伝子配列データを生成し、
前記質問プロファイルを構成する遺伝子の識別子を、その識別子によって定まる順序に従って、連続するメモリ領域に記憶して第2の構成遺伝子配列データを生成し、
前記第1の構成遺伝子配列データの先頭から順に遺伝子の識別子を読み出すと共に前記第2の構成遺伝子配列データの先頭から順に遺伝子の識別子を読み出し、読み出した遺伝子の識別子を比較し、
両遺伝子の識別子が一致した場合には、遺伝子発現プロファイルのプラットフォームと質問プロファイルに共通する共通遺伝子として記憶すると共に前記第1の構成遺伝子配列データおよび前記第2の構成遺伝子配列データから次の遺伝子の識別子を読み出して比較し、両遺伝子の識別子が一致しない場合には、両遺伝子の識別子のうち順序が早い方の識別子が読み出された配列データから次の遺伝子の識別子を読み出して再度比較する処理を、第1の構成遺伝子配列データおよび第2の構成遺伝子配列データのいずれかのデータをすべて読み出すまで繰り返し行って共通遺伝子を抽出し、
前記遺伝子発現プロファイルデータベースに記憶された遺伝子発現プロファイルに含まれる遺伝子の識別子を、それぞれの遺伝子の発現順位に従って、連続するメモリ領域に記憶して第1の発現順遺伝子配列データを生成し、
前記第1の発現順遺伝子配列データの先頭から順にデータを読み出し、読み出した遺伝子が前記共通遺伝子である場合には、読み出した遺伝子が何個目の共通遺伝子であるかを特定することによって、前記遺伝子発現プロファイルに含まれる共通遺伝子の中での発現順位を求め、
前記質問プロファイルに含まれる遺伝子の識別子を、それぞれの遺伝子の発現順位に従って、連続するメモリ領域に記憶して第2の発現順遺伝子配列データを生成し、
前記第2の発現順遺伝子配列データの先頭から順にデータを読み出し、読み出した遺伝子が前記共通遺伝子である場合には、読み出した遺伝子が何個目の共通遺伝子であるかを特定することによって、前記質問プロファイルに含まれる共通遺伝子の中での発現順位を求め、
前記識別子として、比較対象となり得る遺伝子に連続した識別番号を付与し、
前記識別番号が付与された遺伝子数分の発現順位データを書き込むことができる第1の発現順位配列データと第2の発現順位配列データのためのメモリ領域を確保し、
前記遺伝子発現プロファイルに含まれる前記共通遺伝子の中での発現順位を、第1の発現順位配列データの中のそれぞれの共通遺伝子の識別番号で示される位置に書き込み、
前記質問プロファイルに含まれる前記共通遺伝子の中での発現順位を、第2の発現順位配列データの中のそれぞれの共通遺伝子の識別番号で示される位置に書き込み、
前記第1の発現順位配列データおよび前記第2の発現順位配列データから、それぞれの配列データにおいて対応する位置にある発現順位のデータを読み出し、読み出した発現順位の差に基づいて、遺伝子発現プロファイルと質問プロファイルとの順位相関係数を計算することによって前記相関を求める遺伝子発現プロファイル比較装置。
A gene expression profile database storing gene expression profiles;
An input means for receiving input of a question profile to be compared;
Calculating means for calculating a correlation between the query profile input by the input means and the gene expression profile stored in the gene expression profile database,
The computing means is
Gene identifiers constituting the gene expression profile platform stored in the gene expression profile database are stored in a continuous memory area according to an order determined by the identifiers, and first component gene sequence data is generated,
Storing identifiers of genes constituting the query profile in a continuous memory region according to an order determined by the identifiers to generate second constituent gene sequence data;
Read the identifier of the gene in order from the beginning of the first constituent gene sequence data and read the identifier of the gene in order from the beginning of the second constituent gene sequence data, compare the identifier of the read gene,
When the identifiers of both genes match, the gene expression profile is stored as a common gene common to the platform and the query profile, and the next gene from the first component gene sequence data and the second component gene sequence data is stored. When the identifier is read and compared, and the identifiers of both genes do not match, the identifier of the next gene is read from the sequence data from which the earlier identifier of the genes is read and compared again Is repeated until all the data of either the first constituent gene sequence data and the second constituent gene sequence data are read, and a common gene is extracted,
Gene identifiers included in gene expression profiles stored in the gene expression profile database are stored in a continuous memory region according to the expression order of each gene to generate first expression sequence gene sequence data,
Reading the data in order from the beginning of the first expression order gene sequence data, if the read gene is the common gene, by specifying the number of the common gene the read gene, Find the expression rank among the common genes included in the gene expression profile,
Gene identifiers included in the query profile are stored in a continuous memory region according to the expression order of each gene to generate second expression sequence gene sequence data,
Reading the data in order from the top of the second expression sequence gene sequence data, if the read gene is the common gene, by specifying the number of the common gene the read gene, Find the expression rank among the common genes included in the question profile,
As the identifier, a continuous identification number is given to genes that can be compared,
Securing a memory area for the first expression rank sequence data and the second expression rank sequence data in which the expression rank data for the number of genes assigned with the identification number can be written;
Write the expression rank among the common genes included in the gene expression profile at the position indicated by the identification number of each common gene in the first expression rank sequence data,
Write the expression rank among the common genes included in the query profile at the position indicated by the identification number of each common gene in the second expression rank sequence data,
From the first expression rank sequence data and the second expression rank sequence data, the expression rank data at the corresponding position in each sequence data is read, and based on the read difference in the expression rank, the gene expression profile and A gene expression profile comparison apparatus for obtaining the correlation by calculating a rank correlation coefficient with a question profile.
前記第1の発現順位配列データおよび前記第2の発現順位配列データからの発現順位データの読み出しは、前記第2の発現順位配列データにおいて発現順位が小さい順に行い、
前記第2の発現順位配列データから読み出した発現順位データに対応する前記第1の発現順位配列データの発現順位データが欠損している場合には、欠損値の個数を記憶しておき、
前記第1の発現順位配列データおよび前記第2の発現順位配列データから読み出した発現順位の差を計算するときに、前記第2の発現順位配列データから読み出した発現順位からその時点での欠損値の個数を減算してから、発現順位の差を計算する請求項1に記載の遺伝子発現プロファイル比較装置。
Reading out the expression rank data from the first expression rank sequence data and the second expression rank sequence data is performed in order of increasing expression rank in the second expression rank sequence data,
If the expression rank data of the first expression rank sequence data corresponding to the expression rank data read from the second expression rank sequence data is missing, the number of missing values is stored,
When calculating the difference between the expression ranks read from the first expression rank sequence data and the second expression rank sequence data, the missing value at that time is calculated from the expression rank read from the second expression rank sequence data. The gene expression profile comparison apparatus according to claim 1, wherein the difference in expression rank is calculated after subtracting the number of the expression numbers.
遺伝子発現プロファイルデータベースに記憶された遺伝子発現プロファイルと、比較対象の質問プロファイルとの相関をコンピュータに演算させるコンピュータ読み取り可能なプログラムであって、
前記コンピュータに、
前記遺伝子発現プロファイルデータベースに記憶された遺伝子発現プロファイルのプラットフォームを構成する遺伝子の識別子を、その識別子によって定まる順序に従って、連続するメモリ領域に記憶して第1の構成遺伝子配列データを生成させ、
前記質問プロファイルを構成する遺伝子の識別子を、その識別子によって定まる順序に従って、連続するメモリ領域に記憶して第2の構成遺伝子配列データを生成させ、
前記第1の構成遺伝子配列データの先頭から順に遺伝子の識別子を読み出すと共に前記第2の構成遺伝子配列データの先頭から順に遺伝子の識別子を読み出し、読み出した遺伝子の識別子を比較させ、
両遺伝子の識別子が一致した場合には、遺伝子発現プロファイルのプラットフォームと質問プロファイルに共通する共通遺伝子として記憶すると共に前記第1の構成遺伝子配列データおよび前記第2の構成遺伝子配列データから次の遺伝子の識別子を読み出して比較し、両遺伝子の識別子が一致しない場合には、両遺伝子の識別子のうち順序が早い方の識別子が読み出された配列データから次の遺伝子の識別子を読み出して再度比較する処理を、第1の構成遺伝子配列データおよび第2の構成遺伝子配列データのいずれかのデータをすべて読み出すまで繰り返し行って共通遺伝子を抽出させ、
前記遺伝子発現プロファイルデータベースに記憶された遺伝子発現プロファイルに含まれる遺伝子の識別子を、それぞれの遺伝子の発現順位に従って、連続するメモリ領域に記憶して第1の発現順遺伝子配列データを生成させ、
前記第1の発現順遺伝子配列データの先頭から順にデータを読み出し、読み出した遺伝子が前記共通遺伝子である場合には、読み出した遺伝子が何個目の共通遺伝子であるかを特定することによって、前記遺伝子発現プロファイルに含まれる共通遺伝子の中での発現順位を求めさせ、
前記質問プロファイルに含まれる遺伝子の識別子を、それぞれの遺伝子の発現順位に従って、連続するメモリ領域に記憶して第2の発現順遺伝子配列データを生成させ、
前記第2の発現順遺伝子配列データの先頭から順にデータを読み出し、読み出した遺伝子が前記共通遺伝子である場合には、読み出した遺伝子が何個目の共通遺伝子であるかを特定することによって、前記質問プロファイルに含まれる共通遺伝子の中での発現順位を求めさせ、
前記識別子として、比較対象となり得る遺伝子に連続した識別番号を付与させ、
前記識別番号が付与された遺伝子数分の発現順位データを書き込むことができる第1の発現順位配列データと第2の発現順位配列データのためのメモリ領域を確保させ、
前記遺伝子発現プロファイルに含まれる前記共通遺伝子の中での発現順位を、第1の発現順位配列データの中のそれぞれの共通遺伝子の識別番号で示される位置に書き込ませ、
前記質問プロファイルに含まれる前記共通遺伝子の中での発現順位を、第2の発現順位配列データの中のそれぞれの共通遺伝子の識別番号で示される位置に書き込ませ、
前記第1の発現順位配列データおよび前記第2の発現順位配列データから、それぞれの配列データにおいて対応する位置にある発現順位のデータを読み出し、読み出した発現順位の差に基づいて、遺伝子発現プロファイルと質問プロファイルとの順位相関係数を計算することによって前記相関を求めさせる遺伝子発現プロファイル比較プログラム。
A computer-readable program for causing a computer to calculate a correlation between a gene expression profile stored in a gene expression profile database and a comparison target query profile,
In the computer,
Gene identifiers constituting the gene expression profile platform stored in the gene expression profile database are stored in a continuous memory area according to an order determined by the identifiers, and first component gene sequence data is generated,
Storing identifiers of genes constituting the query profile in a continuous memory region according to an order determined by the identifiers to generate second constituent gene sequence data;
Read the identifier of the gene in order from the top of the first constituent gene sequence data and read the identifier of the gene in order from the top of the second constituent gene sequence data, and compare the identifier of the read gene,
When the identifiers of both genes match, the gene expression profile is stored as a common gene common to the platform and the query profile, and the next gene from the first component gene sequence data and the second component gene sequence data is stored. When the identifier is read and compared, and the identifiers of both genes do not match, the identifier of the next gene is read from the sequence data from which the earlier identifier of the genes is read and compared again Is repeated until all the data of either the first constituent gene sequence data and the second constituent gene sequence data is read, and the common gene is extracted,
Gene identifiers included in gene expression profiles stored in the gene expression profile database are stored in a continuous memory region according to the expression order of each gene to generate first expression sequence gene sequence data,
Reading the data in order from the beginning of the first expression order gene sequence data, if the read gene is the common gene, by specifying the number of the common gene the read gene, Let the expression rank among the common genes included in the gene expression profile be determined,
Gene identifiers included in the query profile are stored in a continuous memory area according to the expression order of each gene to generate second expression sequence gene sequence data,
Data is read in order from the beginning of the second expression order gene sequence data, and when the read gene is the common gene, by specifying the number of the common gene the read gene, Let the expression rank among the common genes included in the question profile,
As the identifier, a continuous identification number is given to genes that can be compared,
Securing a memory area for the first expression rank sequence data and the second expression rank sequence data in which the expression rank data for the number of genes assigned with the identification number can be written;
Writing the expression rank among the common genes included in the gene expression profile at the position indicated by the identification number of each common gene in the first expression rank sequence data;
Writing the expression rank among the common genes included in the query profile at a position indicated by the identification number of each common gene in the second expression rank sequence data;
From the first expression rank sequence data and the second expression rank sequence data, the data of the expression rank at the corresponding position in each sequence data is read, and based on the read difference in the expression rank, A gene expression profile comparison program for obtaining the correlation by calculating a rank correlation coefficient with a question profile.
JP2005236198A 2005-08-17 2005-08-17 Gene expression profile comparison device Expired - Fee Related JP4568861B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005236198A JP4568861B2 (en) 2005-08-17 2005-08-17 Gene expression profile comparison device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005236198A JP4568861B2 (en) 2005-08-17 2005-08-17 Gene expression profile comparison device

Publications (2)

Publication Number Publication Date
JP2007052568A JP2007052568A (en) 2007-03-01
JP4568861B2 true JP4568861B2 (en) 2010-10-27

Family

ID=37916987

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005236198A Expired - Fee Related JP4568861B2 (en) 2005-08-17 2005-08-17 Gene expression profile comparison device

Country Status (1)

Country Link
JP (1) JP4568861B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010021021A1 (en) * 2008-08-19 2010-02-25 富士通株式会社 Method of extracting gene expression data set and program for extracting gene expression data set

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003021634A (en) * 2001-06-19 2003-01-24 Sumitomo Pharmaceut Co Ltd Method and program for gene expression variation analysis
JP2004178020A (en) * 2002-11-22 2004-06-24 System Biology Kenkyu Kiko Device and method for estimating expression controlling relationship, program, and storage medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003021634A (en) * 2001-06-19 2003-01-24 Sumitomo Pharmaceut Co Ltd Method and program for gene expression variation analysis
JP2004178020A (en) * 2002-11-22 2004-06-24 System Biology Kenkyu Kiko Device and method for estimating expression controlling relationship, program, and storage medium

Also Published As

Publication number Publication date
JP2007052568A (en) 2007-03-01

Similar Documents

Publication Publication Date Title
JP6839342B2 (en) Information processing equipment, information processing methods and programs
US7822700B2 (en) Method for using lengths of data paths in assessing the morphological similarity of sets of data by using equivalence signatures
US20160147867A1 (en) Information matching apparatus, information matching method, and computer readable storage medium having stored information matching program
US7584173B2 (en) Edit distance string search
CN111626346A (en) Data classification method, device, storage medium and device
WO2010056131A1 (en) A method and system for analysing data sequences
JP2013254286A (en) Presentation method of defect image
JP5049965B2 (en) Data processing apparatus and method
JP2016031629A (en) Feature selection device, feature selection system, feature selection method and feature selection program
US8370390B1 (en) Method and apparatus for identifying near-duplicate documents
JP4568861B2 (en) Gene expression profile comparison device
CN103294932A (en) Reference sequence processing system and method for analyzing genome sequence
JP2019212034A5 (en)
JP6152711B2 (en) Information search apparatus and information search method
US9639073B2 (en) Information processing apparatus for discriminating between combined results of plurality of elements, program product and method for same
CN111048145B (en) Method, apparatus, device and storage medium for generating protein prediction model
JP6623774B2 (en) Pathway analysis program, pathway analysis method, and information processing apparatus
JP4461240B2 (en) Gene expression profile search device, gene expression profile search method and program
JP2011191834A (en) Method, device and program for classifying document
JP2017146928A (en) Variant information processing device, method, and program
JP4234841B2 (en) Data analyzer
CN103310128A (en) System and method for processing genome sequence in consideration of seed length
JP2014006613A (en) Neighborhood search method and similar image search method
JP5164876B2 (en) Representative word extraction method and apparatus, program, and computer-readable recording medium
JPWO2014002212A1 (en) Document association method, document retrieval method, document association apparatus, document retrieval apparatus, and program therefor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091222

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100713

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100716

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130820

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130820

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130820

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees