JP2002063175A - Method for detecting disease-related snp - Google Patents

Method for detecting disease-related snp

Info

Publication number
JP2002063175A
JP2002063175A JP2000246469A JP2000246469A JP2002063175A JP 2002063175 A JP2002063175 A JP 2002063175A JP 2000246469 A JP2000246469 A JP 2000246469A JP 2000246469 A JP2000246469 A JP 2000246469A JP 2002063175 A JP2002063175 A JP 2002063175A
Authority
JP
Japan
Prior art keywords
snp
selecting
alignment
sequence
gly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000246469A
Other languages
Japanese (ja)
Inventor
Toshio Furuya
利夫 古谷
Osamu Kanai
理 金井
Hiroyuki Yamazaki
寛之 山崎
Toshiyuki Saito
俊行 斉藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PharmaDesign Inc Japan
Original Assignee
PharmaDesign Inc Japan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PharmaDesign Inc Japan filed Critical PharmaDesign Inc Japan
Priority to JP2000246469A priority Critical patent/JP2002063175A/en
Priority to AU2001277709A priority patent/AU2001277709A1/en
Priority to PCT/JP2001/006764 priority patent/WO2002015048A1/en
Publication of JP2002063175A publication Critical patent/JP2002063175A/en
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Abstract

PROBLEM TO BE SOLVED: To provide a method for efficiently retrieving SNP the relevance of which with disease is high, while storing large amounts of data related with the SNP according to the analysis of all the genome arrays, based on the recent development in the human genome plane. SOLUTION: An SNP, having relevance with an already known or unknown disease, related with an arbitrary gene array, is detected from the gene array, and when plural SNP are present in the gene array, the SNP are sequenced according to the relevance with the disease in this method for detecting the disease related SNP in genes. This method comprises a step (a) for grouping plural basic arrays, according to array similarity, a step (b) for preparing the alignment of the arrays belonging to the same group, a step (c) for selecting the SNP (monobasic multiple type) candidates from the alignment, a step (d) for selecting the SNP on a protein coating area to bring about deformation of amino acid from the selected SNP candidates, and a step (e) for confirming the position relation of the selected SNP accompanying the amino acid change with the motif array and/or the relation of the SNP with the stereoscopic structure.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、疾患関連SNPの検
出方法に関し、より詳細には、種々のデータベース及び
コンピュータプログラムを使用して、任意の遺伝子配列
から、当該遺伝子配列に関連する既知又は未知の疾患と
の関連性のあるSNPを検出し、特に当該遺伝子配列中に
複数のSNPが存在する場合には、疾患との関連性におけ
る順位付けをすることを目的とするものである。
The present invention relates to a method for detecting a disease-related SNP, and more particularly to a method for detecting a known or unknown gene related to a gene sequence from any gene sequence using various databases and computer programs. An object of the present invention is to detect SNPs related to the disease of the present invention, and to rank in relation to the disease particularly when a plurality of SNPs are present in the gene sequence.

【0002】[0002]

【従来の技術】ゲノム研究の流れは単一遺伝子疾患の疾
患遺伝子の同定から、「ありふれた病気(Common Dise
ase)」に代表される多遺伝子性疾患の疾患感受性遺伝
子の同定へと移ってきている。糖尿病や高血圧に代表さ
れる、いわゆる生活習慣病が「ありふれた病気」で、浸
透率の低い複数の発症関連遺伝子の異常と複数の環境因
子との相互作用によって、発症に至るが、そのうちの1
つの異常では、効果が弱く発症に至らないことが特徴で
ある。このような発症関連遺伝子異常は、多型性変異
(Variant)として正常人においても存在し、その頻度
が高い程、患者における保有率も高く、発症に関わる度
合いはより大きいと考えられている。
2. Description of the Related Art Genome research has been based on the identification of disease genes in monogenic diseases, and has been described as "Common Dise
ase) ”to identify disease susceptibility genes for polygenic diseases. The so-called lifestyle-related diseases, such as diabetes and hypertension, are `` common diseases '', and the onset of the disease is caused by the interaction of multiple low-penetration-related genes and multiple environmental factors.
The two abnormalities are characterized by a weak effect and no onset. Such pathogenesis-related gene abnormalities are also present in normal individuals as polymorphic mutations (Variant), and it is thought that the higher the frequency, the higher the prevalence in patients and the greater the degree of onset.

【0003】この発症関連遺伝子の多型の中でも注目さ
れているのがSNP(一塩基多型)である。SNPはDNA塩基
配列の中の一塩基のみの変異を意味する。このような変
異はゲノム上にほぼ均一に分布し、約300から1,000塩基
対に1回出現し、人種、疾患等の集団ごとにその位置や
頻度が異なるとされている。このSNPの中で、エキソン
部分でタンパク質コード領域に含まれるSNPはそれ自体
が疾患の原因となりうる変異であるため、疾患感受性遺
伝子の探索にタンパク質コード領域に存在するSNPの解
析が行なわれている。
[0003] Among the polymorphisms of this onset-related gene, SNP (single nucleotide polymorphism) has attracted attention. SNP means a mutation of only one base in the DNA base sequence. Such mutations are distributed almost uniformly on the genome, appear once every 300 to 1,000 base pairs, and are said to differ in location and frequency for each population such as race or disease. Among these SNPs, the SNP contained in the protein coding region in the exon part itself is a mutation that can cause disease, and therefore the analysis of SNPs present in the protein coding region is being performed to search for disease susceptibility genes .

【0004】[0004]

【発明が解決しようとする課題】しかしながら、塩基配
列上でのSNPが明らかになっても、直ちに疾患との関係
を論じることは難しいのが現状である。一方、近年にお
けるヒトゲノム計画の展開により、全ゲノム配列の解析
と合わせてSNPに関するデータも大量に蓄積しつつあ
る。見出されたSNPと疾患との関連についての研究が始
まりつつある中で、データの処理能力と共に、疾患と関
連性の高いSNPを効率的に検索する方法が求められてい
る。
However, at present, it is difficult to immediately discuss the relationship with a disease even if the SNP on the nucleotide sequence is clarified. On the other hand, with the development of the Human Genome Project in recent years, a large amount of SNP data has been accumulated along with analysis of the entire genome sequence. As research on the relationship between discovered SNPs and diseases is beginning to begin, there is a need for a method of efficiently searching for SNPs highly relevant to diseases, along with data processing capabilities.

【0005】[0005]

【課題を解決するための手段】本発明者等は先に、遺伝
子がコードするタンパク質のアミノ酸変化を伴う変異に
おいて、タンパク質の立体構造におけるアミノ酸変異を
もたらすSNPを調べることにより、疾患のメカニズムの
解明に繋がった例を報告した(文献名:古谷利夫、村上
康文:SNPsとゲノムの多様性解析、実験医学別冊「ゲノ
ム機能研究プロトコール」(辻本豪三、田中利男編、
p.130-137、羊土社、東京(2000))。
MEANS TO SOLVE THE PROBLEMS The present inventors first elucidate the mechanism of a disease by examining SNPs that cause amino acid mutations in the three-dimensional structure of a protein in a mutation involving an amino acid change in a protein encoded by a gene. (Literature names: Toshio Furuya, Yasufumi Murakami: Diversity analysis of SNPs and genomes, Experimental Medicine Supplement “Genome Function Research Protocol” (edited by Gozo Tsujimoto, Toshio Tanaka,
p. 130-137, Youtosha, Tokyo (2000)).

【0006】一つの例として、血中のホモシステイン濃
度が高いことは高血圧の危険因子であることが知られて
おり、この原因としてメチレンテトラヒドロ葉酸還元酵
素(MTHFR)の機能低下が関係していることが同定され
ている(Guenther, B.D.ら, Nature Struct. Biol., 6:
359-365, 1999)。血中ホモシステイン濃度が上昇する
遺伝的な要因はヒトMTHFRのAla222がValに変異(A222
V、塩基配列ではC677→T)していることである。大腸菌
MTHFRのX線構造解析の結果が明らかにされ、ヒトMTHFR
と約33%の相同性があることから、大腸菌MTHFRの立
体構造をもとにメカニズムの解明が可能となった。
[0006] As one example, high levels of homocysteine in blood are known to be a risk factor for hypertension, and this is related to reduced methylenetetrahydrofolate reductase (MTHFR) function. (Guenther, BD et al., Nature Struct. Biol., 6:
359-365, 1999). The genetic factor that raises blood homocysteine concentration is that Ala222 of human MTHFR is mutated to Val (A222
V, C677 → T in the base sequence). E. coli
The results of X-ray structural analysis of MTHFR were revealed, and human MTHFR
Approximately 33% homology with E. coli allowed the elucidation of the mechanism based on the three-dimensional structure of E. coli MTHFR.

【0007】また、糖尿病の患者のインスリン受容体の
変異を調べたところ、インスリン受容体の細胞内ドメイ
ンにあるキナーゼ活性に重要なGly-X-Gly-X-X-Glyとい
うモチーフ部の真中のGlyがValに変異していることがわ
かった(Odawara, M.ら, Science, 245:66-68, 198
9)。ヒトインスリン受容体の細胞内ドメインの立体構
造はATPアナログとの複合体でX線構造解析結果が報告さ
れているので(Hubbard, S.R.ら, EMBO J., 16:5572-55
81, 1997)、その立体構造上に変異部位をマップしてみ
ると、G996V(X線構造解析された細胞内ドメインではG3
6Vに相当)の変異部位は受容体にATPが結合する部位の
近傍に位置することがわかる。コンピュータグラフィッ
クス上で、このG996Vのアミノ酸置換を行なうとGlyの側
鎖がATPアナログと接触してしまうことがわかる。した
がって、G996Vの変異を受けた糖尿病患者では受容体の
キナーゼ活性が低下し、細胞内のシグナル伝達が正常に
機能していないものと考えられる。
[0007] Further, when the mutation of the insulin receptor in a diabetic patient was examined, Gly in the middle of the motif Gly-X-Gly-XX-Gly which is important for the kinase activity in the intracellular domain of the insulin receptor was found. (Odawara, M. et al., Science, 245: 66-68, 198).
9). X-ray structural analysis results have been reported for the three-dimensional structure of the intracellular domain of the human insulin receptor in a complex with an ATP analog (Hubbard, SR et al., EMBO J., 16: 5572-55).
81, 1997), and mapping the mutation site on the three-dimensional structure, G996V (G3V in the intracellular domain analyzed by X-ray structure)
It can be seen that the mutation site (corresponding to 6V) is located near the site where ATP binds to the receptor. On computer graphics, it can be seen that when this G996V amino acid substitution is made, the Gly side chain contacts the ATP analog. Therefore, it is considered that in diabetic patients who have undergone the G996V mutation, receptor kinase activity is reduced, and intracellular signaling is not functioning normally.

【0008】このように、アミノ酸変異をもたらすSNP
情報を立体構造にマップすることにより、疾患との関連
や薬剤への応答性がより明確になる。すなわち、タンパ
ク質の機能を大きく変えるようなSNPや薬物分子が結合
する部位に存在するSNPは、ほかのSNPより重要であるこ
とが予想される。したがって、アミノ酸変化をもたらす
SNPが当該タンパク質の機能に影響を及ぼすと考えられ
る、活性に重要な部位、及びリガンド結合部位からの距
離を、タンパク質の立体構造上で測ること、あるいは、
モチーフ配列上又はその近傍にあるか否かを調べること
により、疾患に関連したSNPや薬剤応答性に関連したSNP
とそうでないSNPを区別することができると考えられ
る。本発明は、これらに関連するSNPを順位付けするこ
とを内容としたものである。
[0008] Thus, SNP causing amino acid mutation
By mapping information into a three-dimensional structure, the association with a disease and the responsiveness to a drug become clearer. In other words, SNPs that significantly alter the function of proteins and SNPs present at sites where drug molecules bind are expected to be more important than other SNPs. Therefore, results in amino acid changes
SNP is thought to affect the function of the protein, the site important for activity, and the distance from the ligand binding site is measured on the three-dimensional structure of the protein, or
By examining whether or not it is on or near the motif sequence, disease-related SNPs or drug-responsive SNPs
It is thought that it is possible to distinguish between SNPs that do not. The present invention is intended to rank SNPs related to these.

【0009】すなわち本発明は、以下の(1)〜(1
2)を提供する。 (1) 以下の(a)〜(e); (a)複数の塩基配列を配列類似性によってグループ化
する段階、(b)同じグループに属する配列のアライメ
ントを作製する段階、(c)アライメントからSNP候補
の塩基を選択する段階、(d)上記選択されたSNP候補
から、タンパク質コーディング領域上にあるSNPであっ
て、かつアミノ酸の変異をもたらすSNPを選択する段
階、及び(e)選択されたSNPとモチーフ配列との位置
関係及び/又は立体構造との関係を確認する段階、を含
む、遺伝子における疾患関連SNPの検出方法。
That is, the present invention provides the following (1) to (1)
2) is provided. (1) the following (a) to (e); (a) the step of grouping a plurality of base sequences by sequence similarity; (b) the step of preparing an alignment of sequences belonging to the same group; and (c) the alignment Selecting a base of the SNP candidate, (d) selecting an SNP present on the protein coding region and causing an amino acid mutation from the selected SNP candidate, and (e) selecting the selected SNP. Confirming the positional relationship between the SNP and the motif sequence and / or the relationship between the SNP and the three-dimensional structure.

【0010】(2) 以下の(a)〜(e); (a)複数の塩基配列を配列類似性によってグループ化
する段階、(b)同じグループに属する配列のアライメ
ントを作製する段階、(c)アライメントからタンパク
質コーディング領域上にあるSNP候補の塩基を選択する
段階、(d)上記選択されたSNP候補から、アミノ酸の
変異をもたらすSNPを選択する段階、及び(e)選択さ
れたSNPとモチーフ配列との位置関係及び/又は立体構
造との関係を確認する段階、を含む、遺伝子における疾
患関連SNPの検出方法。
(2) The following (a) to (e): (a) a step of grouping a plurality of base sequences by sequence similarity, (b) a step of preparing an alignment of sequences belonging to the same group, (c) A) selecting SNP candidate bases on the protein coding region from the alignment, (d) selecting an SNP that causes an amino acid mutation from the selected SNP candidates, and (e) selecting the SNP and motif Confirming the positional relationship with the sequence and / or the relationship with the three-dimensional structure.

【0011】(3) 上記複数の塩基配列がゲノムDN
A、cDNA及び/又はESTデータベースから得られたもので
ある、上記(1)又は(2)に記載の方法。 (4) 上記段階(a)に先立って目的の遺伝子を特定
する、上記(1)又は(2)に記載の方法。 (5) 上記(1)から(4)のいずれかに記載の方法
によって同一の遺伝子に含まれる複数のSNPを検出し、
疾患との関連性における順位を予測する方法。
(3) The plurality of base sequences are genomic DNs
The method according to the above (1) or (2), which is obtained from A, cDNA and / or EST database. (4) The method according to (1) or (2), wherein the target gene is specified prior to the step (a). (5) detecting a plurality of SNPs contained in the same gene by the method according to any one of (1) to (4),
A method of predicting ranking in association with a disease.

【0012】(6) 以下の(a)〜(e); (a)複数の塩基配列を配列類似性によってグループ化
する段階、(b)同じグループに属する配列のアライメ
ントを作製する段階、(c)アライメントからSNP候補
の塩基を選択する段階、(d)上記選択されたSNP候補
から、タンパク質コーディング領域上にあるSNPであっ
て、かつアミノ酸の変異を生じるSNPを選択する段階、
及び(e)選択されたSNPとモチーフ配列との位置関係
及び/又は立体構造との関係を確認する段階、を含む遺
伝子における疾患関連SNPの検出方法をコンピュータに
実行させるためのプログラムを記録したコンピュータ読
み取り可能な記録媒体。
(6) The following (a) to (e): (a) a step of grouping a plurality of base sequences by sequence similarity, (b) a step of preparing an alignment of sequences belonging to the same group, (c) A) selecting SNP candidate bases from the alignment, and (d) selecting SNPs that are on the protein coding region and cause amino acid mutation from the selected SNP candidates.
And (e) confirming the positional relationship between the selected SNP and the motif sequence and / or the relationship with the three-dimensional structure. A computer recording a program for causing the computer to execute a method for detecting a disease-related SNP in a gene. A readable recording medium.

【0013】(7) 以下の(a)〜(e); (a)複数の塩基配列を配列類似性によってグループ化
する段階、(b)同じグループに属する配列のアライメ
ントを作製する段階、(c)アライメントからタンパク
質コーディング領域上にあるSNP候補の塩基を選択する
段階、(d)上記選択されたSNP候補から、アミノ酸の
変異をもたらすSNPを選択する段階、及び(e)選択さ
れたSNPとモチーフ配列との位置関係及び/又は立体構
造との関係を確認する段階、を含む遺伝子における疾患
関連SNPの検出方法をコンピュータに実行させるための
プログラムを記録したコンピュータ読み取り可能な記録
媒体。
(7) The following (a) to (e): (a) a step of grouping a plurality of base sequences by sequence similarity, (b) a step of preparing an alignment of sequences belonging to the same group, (c) A) selecting SNP candidate bases on the protein coding region from the alignment, (d) selecting an SNP that causes an amino acid mutation from the selected SNP candidates, and (e) selecting the SNP and motif A computer-readable recording medium recording a program for causing a computer to execute a method for detecting a disease-related SNP in a gene, the method including a step of confirming a positional relationship with a sequence and / or a relationship with a three-dimensional structure.

【0014】(8) 上記段階(a)がゲノムDNA、cDN
A及び/又はESTデータベースから得られた複数の塩基配
列をグループ化するものである、上記(6)又は(7)
に記載の記録媒体。
(8) The above-mentioned step (a) is performed using genomic DNA, cDN
The above (6) or (7), which groups a plurality of base sequences obtained from the A and / or EST database.
A recording medium according to claim 1.

【0015】(9) 以下の(a)〜(e); (a)複数の塩基配列を配列類似性によってグループ化
する手段、(b)同じグループに属する配列のアライメ
ントを作製する手段、(c)アライメントからSNP候補
の塩基を選択する手段、(d)上記選択されたSNP候補
から、タンパク質コーディング領域上にあるSNPであっ
て、かつアミノ酸の変異をもたらすSNPを選択する手
段、及び(e)選択されたSNPとモチーフ配列との位置
関係及び/又は立体構造との関係を確認する手段、を備
えた、遺伝子における疾患関連SNPの検出システム。
(9) The following (a) to (e); (a) means for grouping a plurality of base sequences by sequence similarity; (b) means for preparing an alignment of sequences belonging to the same group; A) means for selecting bases of SNP candidates from the alignment, (d) means for selecting, from the selected SNP candidates, SNPs which are on the protein coding region and which cause amino acid mutation, and (e) A system for detecting a disease-related SNP in a gene, comprising: means for confirming a positional relationship between a selected SNP and a motif sequence and / or a relationship with a three-dimensional structure.

【0016】(10) 以下の(a)〜(e); (a)複数の塩基配列を配列類似性によってグループ化
する手段、(b)同じグループに属する配列のアライメ
ントを作製する手段、(c)アライメントからタンパク
質コーディング領域上にあるSNP候補の塩基を選択する
手段、(d)上記選択されたSNP候補から、アミノ酸の
変異をもたらすSNPを選択する手段、及び(e)選択さ
れたSNPとモチーフ配列との位置関係及び/又は立体構
造との関係を確認する手段、を備えた、遺伝子における
疾患関連SNPの検出システム。
(10) The following (a) to (e): (a) means for grouping a plurality of base sequences by sequence similarity, (b) means for preparing an alignment of sequences belonging to the same group, (c) A) means for selecting bases of SNP candidates on the protein coding region from the alignment, (d) means for selecting SNPs that cause amino acid mutations from the selected SNP candidates, and (e) selected SNPs and motifs A system for detecting a disease-related SNP in a gene, comprising: means for confirming a positional relationship with a sequence and / or a relationship with a three-dimensional structure.

【0017】(11) 上記手段(a)がゲノムDNA、c
DNA及び/又はESTデータベースから得られた複数の塩基
配列をグループ化する手段である、上記(9)又は(1
0)に記載のシステム。 (12) 更に目的の遺伝子を特定する手段を備えた、
上記(9)又は(10)に記載のシステム。
(11) The means (a) is genomic DNA, c
(9) or (1), which is a means for grouping a plurality of base sequences obtained from the DNA and / or EST database.
The system according to 0). (12) further comprising means for specifying a target gene;
The system according to (9) or (10).

【0018】[0018]

【発明の実施の形態】以下に、本発明に係る方法につい
て、順を追って説明する。目的の遺伝子の特定 本発明は、任意の遺伝子配列から、当該遺伝子配列に関
連する既知または未知の疾患との関連性のあるSNPを検
出し、特に当該遺伝子配列中に複数のSNPが存在する場
合には、疾患との関連性における順位付けをすることを
目的とするものである。従って、本発明の適用は特定の
遺伝子に限定されるものではなく、本発明の方法はデー
タベースに登録されている膨大な塩基配列情報の処理段
階から始めても良いが、場合によっては、疾患関連SNP
の検出が望まれる遺伝子が予め決定されている場合もあ
る。従ってこの場合には、本発明の方法は、目的の遺伝
子の特定から開始する。目的の遺伝子の特定は、その名
称、塩基配列、アミノ酸配列等によって行われる。ま
た、任意の情報として、由来(動物種、組織名等)、そ
の遺伝子が関連する疾患の名称、遺伝子の発現状況と疾
患との関係等が得られる場合もある。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The method according to the present invention will be described below step by step. The present invention detects an SNP associated with a known or unknown disease associated with the gene sequence from an arbitrary gene sequence, particularly when a plurality of SNPs are present in the gene sequence. Is intended to rank in relation to the disease. Therefore, the application of the present invention is not limited to a specific gene, and the method of the present invention may be started from the step of processing a large amount of nucleotide sequence information registered in a database.
In some cases, the gene whose detection is desired is determined in advance. Thus, in this case, the method of the invention starts with the identification of the gene of interest. The target gene is specified by its name, base sequence, amino acid sequence and the like. In addition, the arbitrary information may include the origin (animal species, tissue name, etc.), the name of the disease to which the gene is related, the relationship between the expression status of the gene and the disease, and the like.

【0019】目的の遺伝子の塩基配列が得られている場
合は、この配列を用いて、目的の遺伝子の塩基配列と類
似性を有する塩基配列をグループ化することができる。
塩基配列はセンス配列であっても、これと相補的なアン
チセンス配列であっても良く、また31個以上のヌクレオ
チド長を有する遺伝子断片であっても良い。また、アミ
ノ酸配列が得られている場合には、これをコードする遺
伝子の塩基配列に変換し、これを用いて目的の遺伝子か
ら由来する塩基配列のグループ化を行うことができる。
あるいは、遺伝子の名称が明らかとなっている場合に
は、GenBank(http://www.ncbi.nlm.nih.gov/GenBank/i
ndex.html)等のデータベースを用いて、その塩基配列
を得ることができる。
When the base sequence of the target gene has been obtained, base sequences having similarity to the base sequence of the target gene can be grouped using this sequence.
The base sequence may be a sense sequence, an antisense sequence complementary thereto, or a gene fragment having a length of 31 or more nucleotides. When the amino acid sequence has been obtained, it can be converted into the nucleotide sequence of the gene encoding the amino acid sequence, and can be used to group nucleotide sequences derived from the target gene.
Alternatively, if the name of the gene is known, GenBank (http://www.ncbi.nlm.nih.gov/GenBank/i
The nucleotide sequence can be obtained using a database such as ndex.html).

【0020】目的の遺伝子が関連する疾患が未知である
場合には、OMIM(http://www.ncbi.nlm.nih.gov/omim/)
等の疾患関連遺伝子データベースを検索することによっ
て、関連する可能性のある疾患名を知ることができる。
また、予め目的の遺伝子が特定されていない場合にも、
下記の段階で得られるその塩基配列に対して上記データ
ベースを検索することによって、関連する可能性のある
疾患名を知ることができる。ただしこの段階は任意のも
のであり、また、本発明の方法の任意の段階の前後で、
もしくは本発明の方法とは独立して行うことができる。
If the disease associated with the gene of interest is unknown, OMIM (http://www.ncbi.nlm.nih.gov/omim/)
By searching a disease-related gene database such as that described above, it is possible to know the name of a potentially related disease.
Also, when the target gene is not specified in advance,
By searching the above database for the nucleotide sequence obtained in the following step, a potentially relevant disease name can be known. However, this step is optional, and before and after any step of the method of the invention,
Alternatively, it can be performed independently of the method of the present invention.

【0021】(a)塩基配列のグループ化 遺伝子データベース等の情報を元に、特定生物(Homo s
apience, C.elegansなど)の遺伝子毎に、ゲノムのエキ
ソン部分、cDNA配列、及び/又はESTを配列類似性によ
ってグループ化(クラスタ化)する。本発明の方法によ
りSNPを検出するためには、このグループ化及び次のア
ライメント作製のために、少なくとも5個の塩基配列が
必要である。この場合、先に遺伝子が特定されていれば
当該遺伝子と類似性のある塩基配列のみを選択してグル
ープ化すればよいが、この段階で遺伝子が特定されてい
ない場合には複数のグループ化処理を並行して行い、各
グループについて後の処理を行えばよい。
(A ) Grouping of base sequences Based on information such as a gene database, a specific organism (Homo s
For example, exon parts, cDNA sequences, and / or ESTs of the genome are grouped (clustered) by sequence similarity. In order to detect SNPs by the method of the present invention, at least 5 base sequences are required for this grouping and subsequent alignment preparation. In this case, if the gene has been specified first, only the base sequence having similarity to the gene may be selected and grouped, but if the gene has not been specified at this stage, a plurality of grouping processes will be performed. May be performed in parallel, and the subsequent processing may be performed for each group.

【0022】本発明の方法において使用することができ
る、現在公開されている遺伝子データベースとしては、
ゲノムDNAデータベース(NCBIのHuman Genome Resource
s http://www.ncbi.nlm.nih.gov/genome/guide/な
ど)、cDNAデータベース(NCBIのUnigene Resources,
http://www.ncbi.nlm.nih.gov/UniGene/)、ESTデータ
ベース(NCBIのExpressed Sequence Tags database,db
EST, http://www.ncbi.nlm.nih.gov/dbEST/)があり、
インターネットを介して容易にアクセスすることができ
る。また、任意の私的遺伝子データベースおよび自らが
実験等によって独自に収集した配列も使用可能であり、
単独で、または上記データベースと組み合わせて使用す
ることができる。
[0022] Gene databases that are currently available that can be used in the method of the present invention include:
Genomic DNA Database (NCBI's Human Genome Resource
s http://www.ncbi.nlm.nih.gov/genome/guide/), cDNA database (NCBI's Unigene Resources,
http://www.ncbi.nlm.nih.gov/UniGene/), EST database (Expressed Sequence Tags database of NCBI, db)
EST, http://www.ncbi.nlm.nih.gov/dbEST/)
It can be easily accessed via the Internet. It is also possible to use any private gene database and sequences collected independently by experiments and the like.
It can be used alone or in combination with the above database.

【0023】これらのデータベースおよび独自に収集し
たデータからグループ化の処理を行うが、ゲノムデータ
ベースの場合には、Genscan等の手段によってエキソン
及びイントロンを推定し、エキソン部分を連結して再構
成したcDNA配列を得ることができる。cDNAデータベース
およびcDNA断片に相当するESTのデータベースの場合に
は、登録されている配列をそのまま使用することができ
る。このようにして最初に検索対象とする塩基配列群を
タンパク質コード領域のものに限定すれば、下記の段階
(d)におけるタンパク質コーディング領域上にあるSN
Pを選択する操作の手間を省略することができ、効率的
である。データベースから得たこれらの配列のグループ
化は、配列間の類似性によって行うことができ、具体的
には、blast,D2 clusterなどの配列類似性検索プログラ
ムによって行うことができる。
A grouping process is performed from these databases and independently collected data. In the case of a genomic database, cDNAs reconstructed by estimating exons and introns by means such as Genscan and linking exon portions are used. An array can be obtained. In the case of a cDNA database or an EST database corresponding to a cDNA fragment, the registered sequences can be used as they are. In this way, if the group of base sequences to be searched is first limited to those of the protein coding region, the SNs in the protein coding region in the following step (d) will be described.
The operation of selecting P can be omitted, which is efficient. The grouping of these sequences obtained from the database can be performed based on the similarity between the sequences, and specifically, can be performed using a sequence similarity search program such as blast or D2 cluster.

【0024】(b)同じグループに属する配列のアライ
メントの作製 次いで、グループを構成する配列どうしの一致部分が重
なるように並べる。この配列類似性に基づくマルチプル
アライメントの作製は、公知のソフトウェアを利用すれ
ば良く、ソフトウェアとして具体的にはPhrap(Univers
ity of Washington)および、TIGR Assembler等が挙げ
られる。作製されたマルチプルアライメントはコンピュ
ータのディスプレイ画面上に表示され(図3)、また印
刷することもできる。
(B) Alignment of sequences belonging to the same group
Preparation placement of then arranged as the matching portion of the sequence with each other to form a group overlap. For the preparation of the multiple alignment based on the sequence similarity, known software may be used, and specifically, Phrap (Universal
ity of Washington) and TIGR Assembler. The prepared multiple alignment is displayed on a computer display screen (FIG. 3) and can also be printed.

【0025】上記段階(a)において、配列類似性に基
づくグループ化を行っているが、この段階(b)では、
更に、例えば類似性のある配列の重なりを31塩基の幅で
観察するとき、個々の配列が他の残りの配列と90%以上
の塩基位置で一致した場合に、その配列をSNP候補選択
の対象塩基配列として採用することにすれば、優先順位
の決定の精度が向上し、また決定を効率的に行うことが
できる。
In the above step (a), grouping based on sequence similarity is performed. In this step (b),
Furthermore, for example, when observing the overlap of similar sequences over a width of 31 bases, if each individual sequence matches at least 90% of the base positions with the other remaining sequences, that sequence is selected for SNP candidate selection. If it is adopted as a base sequence, the accuracy of the determination of the priority order is improved, and the determination can be performed efficiently.

【0026】(c)アライメントからのSNP候補塩基の
選択 上記段階(b)で得られたアライメントを比較検討する
ことにより、各配列間の相違を知ることができる。この
操作はマニュアルで行うこともできるが、膨大な配列情
報から迅速かつ効率的に処理するために、この段階もコ
ンピュータプログラムを使用して行うことができる。本
発明の方法においては、例えば以下のような条件を設定
することによって、条件に合ったSNP候補塩基が選択さ
れる。
(C) SNP candidate bases from alignment
Selection By comparing and examining the alignments obtained in the above step (b), differences between the sequences can be known. This operation can be performed manually, but this step can also be performed using a computer program in order to quickly and efficiently process a large amount of sequence information. In the method of the present invention, for example, SNP candidate bases that meet the conditions are selected by setting the following conditions.

【0027】(i)設定するひとつの幅の中に5本以上
の配列が採用されれば、16番目の残基について塩基ごと
の出現回数を比較する。 (ii)出現個数が2番目に多い塩基の数が2個以上であ
れば、その位置における塩基群を互いにSNP候補とす
る。 (iii)2種類の塩基が同一個数となり、かつ最も出
現個数が多い場合は、最も出現個数の多い塩基の数が2
個以上であれば、その位置における塩基群を互いにSNP
候補とする。上記のように、SNP候補をESTデータベース
から探し出す方法等の操作はコンピュータ上で全て行う
ことができる。
(I) If five or more sequences are employed in one set width, the number of appearances of each base is compared for the 16th residue. (Ii) If the number of bases with the second largest number of appearances is two or more, base groups at that position are mutually SNP candidates. (Iii) When the two types of bases have the same number and have the largest number of appearances, the number of bases with the largest number of appearances is 2
If the number of bases is greater than or equal to
Make it a candidate. As described above, all operations such as a method of searching for an SNP candidate from the EST database can be performed on a computer.

【0028】(d)SNPの選択 データベースから得られたSNP候補及び実験的に得た配
列から得られたSNP(確定SNP、以下、SNP候補と確定SNP
をまとめてSNPとする)に対して、タンパク質コーディ
ング領域上にあるSNPであって、かつアミノ酸の変異を
もたらすSNPを選択する。すなわち、SNPであってもタン
パク質コーディング領域上にない場合、またタンパク質
コーディング領域上にあるSNPであってもアミノ酸の変
異をもたらさない場合には、実際に発現されるタンパク
質が野生型の配列と同一になるため、疾患との関連性は
ないということができる。
(D) Selection of SNPs SNP candidates obtained from a database and SNPs obtained from experimentally obtained sequences (determined SNPs, hereinafter referred to as SNP candidates and defined SNPs)
Are collectively referred to as SNPs), which are SNPs on the protein coding region and cause amino acid mutation. In other words, if the SNP is not in the protein coding region, or if the SNP in the protein coding region does not cause amino acid mutation, the actually expressed protein is identical to the wild-type sequence. Therefore, it can be said that there is no association with the disease.

【0029】具体的には、同じグループを構成するすべ
ての配列を、タンパク質コード領域の情報が記載されて
いる特定の配列のタンパク質翻訳枠に基づいてタンパク
質へ翻訳する場合に、SNPである塩基群間で互いに異な
るアミノ酸残基を生じる場合を、アミノ酸変化を伴うSN
Pとする。この段階を経ることによって、上記段階
(c)で選択されたSNP候補の約20〜30%のみが選択さ
れる(本発明者等が行った2000年4月時点での集計によ
れば、マウスにおいて26%、ヒトにおいて32%が選択さ
れた)ため、後の段階、及び疾患との関連性を実際に臨
床的に検討する際の手数が大幅に減少されるため、効率
が更に上昇する。
Specifically, when all the sequences constituting the same group are translated into a protein based on the protein translation frame of the specific sequence in which the information of the protein coding region is described, the base group of SNP When amino acid residues that differ from each other occur, SN with amino acid changes
P. By going through this step, only about 20 to 30% of the SNP candidates selected in step (c) above are selected (according to the tally as of April 2000 performed by the present inventors, mouse , And in humans 32% were selected), further increasing the efficiency, as the number of steps in the later stages and the actual clinical examination of the association with the disease is greatly reduced.

【0030】(e)選択されたアミノ酸変化を伴うSNP
とモチーフ配列との位置関係及び/又は立体構造との関
係の確認 上記段階(d)において選択されたSNP候補を含む塩基
配列に対し、モチーフデータベース(Prosite(http://w
ww.expasy.ch/prosite)、Blocks(http://www.blocks.fh
crc.org/)、Prints(http://www.sanger.ac.uk/Software
/Pfam/など、)等を検索して、配列中に含まれるモチー
フ配列を探すことができる。この際に、アミノ酸変化を
伴うSNPがモチーフ配列中あるいはモチーフ配列の近傍
にあるかどうかを判定し、SNPがモチーフ配列中にある
場合には、そのアミノ酸残基を視覚的に識別できるよう
に他の残基と異なる色でコンピュータディスプレイ上に
表示し、また印刷することができる。
(E) SNPs with selected amino acid changes
Relationship between the motif sequence and / or the three-dimensional structure
Confirmation of the relationship The base sequence containing the SNP candidate selected in the above step (d) is subjected to a motif database (Prosite (http: // w
ww.expasy.ch/prosite), Blocks (http: //www.blocks.fh
crc.org/), Prints (http://www.sanger.ac.uk/Software
/ Pfam /, etc.) to search for a motif sequence contained in the sequence. At this time, it is determined whether or not the SNP with the amino acid change is in the motif sequence or in the vicinity of the motif sequence. If the SNP is in the motif sequence, it is necessary to visually identify the amino acid residue. Can be displayed on a computer display in a color different from that of the residue and printed.

【0031】この段階で明らかになるSNPとモチーフ配
列との位置関係から、そのSNPと疾患との関連性の高さ
が予想される。すなわち、例えばSNPがモチーフ配列上
にある場合をA順位(関連性大)、モチーフ配列の前後
のアミノ酸5残基上にある場合をB順位(関連性中程
度)、それ以外をC順位(関連性小)とする3段階に優先
順位をつけることができる。
From the positional relationship between the SNP and the motif sequence that is clarified at this stage, it is expected that the SNP is highly related to a disease. That is, for example, when the SNP is on the motif sequence, rank A (highly relevant), when it is on 5 amino acids before and after the motif sequence, rank B (moderately relevant), otherwise, rank C (related) The priority can be assigned to the three stages of “Small”.

【0032】また、別の態様として、タンパク質コード
領域について、立体構造データベース(PDB(Protein D
ata Bank,http://www.rcsb.org/pdb/))に登録されて
いる配列との類似性を調べ、30%以上の類似性がある配
列が見出された場合には立体構造の予測が可能(ホモロ
ジーモデリング法)と判断することができる。30%以上
の配列類似性を有するタンパク質が複数あった場合に
は、最も類似性が高いものを採用すれば良いが、類似性
が2番目、3番目のタンパク質について調べることを除外
するものではない。
In another embodiment, a three-dimensional structure database (PDB (Protein D
ata Bank, http://www.rcsb.org/pdb/)) and examine the similarity with the sequence registered in the database. If a sequence with 30% or more similarity is found, It can be determined that prediction is possible (homology modeling method). If there are multiple proteins with 30% or more sequence similarity, the one with the highest similarity may be used, but this does not preclude examining the second and third proteins with similarity. .

【0033】ホモロジーモデリングにより立体構造が予
測できた場合は、立体構造上にSNPに対応するアミノ酸
残基をマップする。この時、上記と同様に、モチーフデ
ータベースを検索して、モチーフ配列を探し、モチーフ
配列も表示しても良い。SNPが複数選択された場合の順
位付けは、例えばSNP由来アミノ酸残基の全ての非水素
原子のうちのいずれかの原子間距離で5Å以内に、タン
パク質の活性部位あるいはモチーフ配列に接触する場合
は最も高いA順位とすることができる。モチーフ配列と
の位置関係において、当該SNPがモチーフ配列上にある
場合は当然最も高いA順位とすることが好ましい。同様
に、SNP由来アミノ酸残基の全ての非水素原子からの距
離で10Å以内に、タンパク質の活性部位あるいはモチー
フ配列が存在する場合、2番目のB順位とすることができ
る。そして、これ以外をその他のC順位とすることがで
きる。
When a three-dimensional structure can be predicted by homology modeling, amino acid residues corresponding to SNPs are mapped on the three-dimensional structure. At this time, similarly to the above, the motif database may be searched for the motif sequence, and the motif sequence may be displayed. In the case where a plurality of SNPs are selected, ranking is performed, for example, when the SNP-derived amino acid residue contacts the active site or motif sequence of the protein within 5 mm of any one of all non-hydrogen atoms of the non-hydrogen atom. The highest A rank can be set. When the SNP is on the motif sequence in the positional relationship with the motif sequence, it is naturally preferable to set the highest A rank. Similarly, when an active site or motif sequence of a protein exists within 10 ° of all SNP-derived amino acid residues from all non-hydrogen atoms, it can be ranked as the second B rank. The other C ranks can be set to other ranks.

【0034】立体構造が予測できない場合は、モチーフ
配列との位置関係から、上記と同様に、例えばモチーフ
配列上にある場合A順位、モチーフ配列の前後のアミノ
酸5残基をB順位、それ以外をC順位とすることができ
る。上記のようにして得られた優先順位を視覚的に容易
に識別できるようにするために、コンピュータディスプ
レイ上で、または印刷された紙面において、優先順位に
応じて異なる色で表示することができる。
If the three-dimensional structure cannot be predicted, from the positional relationship with the motif sequence, for example, in the same manner as described above, for example, when the sequence is on the motif sequence, the A position, the 5 amino acids before and after the motif sequence are the B position, Can be C rank. The priorities obtained as described above can be displayed in different colors according to the priorities on a computer display or on a printed sheet so that the priorities can be easily identified visually.

【0035】また、本発明の別の態様は、以下の(a)
〜(e); (a)複数の塩基配列を配列類似性によってグループ化
する段階、(b)同じグループに属する配列のアライメ
ントを作製する段階、(c)アライメントからSNP候補
の塩基を選択する段階、(d)上記選択されたSNP候補
から、タンパク質コーディング領域上にあるSNPであっ
て、かつアミノ酸の変異をもたらすSNPを選択する段
階、及び(e)選択されたアミノ酸変化を伴うSNPとモ
チーフ配列との位置関係及び/又は立体構造との関係を
確認する段階、を含む遺伝子における疾患関連SNPの検
出方法をコンピュータに実行させるためのプログラムを
記録したコンピュータ読み取り可能な記録媒体である。
Another aspect of the present invention provides the following (a)
To (e); (a) grouping a plurality of base sequences by sequence similarity, (b) preparing an alignment of sequences belonging to the same group, and (c) selecting SNP candidate bases from the alignment. (D) selecting, from the selected candidate SNPs, an SNP that is present on the protein coding region and that results in an amino acid mutation; and (e) selecting the SNP with the selected amino acid change and a motif sequence. A computer-readable recording medium that stores a program for causing a computer to execute a method for detecting a disease-related SNP in a gene, the method including a step of confirming a positional relationship with and / or a relationship with a three-dimensional structure.

【0036】更に、本発明の別の態様は、以下の(a)
〜(e); (a)複数の塩基配列を配列類似性によってグループ化
する段階、(b)同じグループに属する配列のアライメ
ントを作製する段階、(c)アライメントからタンパク
質コーディング領域上にあるSNP候補の塩基を選択する
段階、(d)上記選択されたSNP候補から、アミノ酸の
変異をもたらすSNPを選択する段階、及び(e)選択さ
れたアミノ酸変化を伴うSNPとモチーフ配列との位置関
係及び/又は立体構造との関係を確認する段階、を含む
遺伝子における疾患関連SNPの検出方法をコンピュータ
に実行させるためのプログラムを記録したコンピュータ
読み取り可能な記録媒体である。
Further, another embodiment of the present invention provides the following (a)
To (e); (a) grouping a plurality of base sequences by sequence similarity, (b) preparing an alignment of sequences belonging to the same group, (c) SNP candidates on the protein coding region from the alignment. (D) selecting an SNP that causes an amino acid mutation from the selected SNP candidates, and (e) selecting a positional relationship between the selected SNP with amino acid change and the motif sequence and / or Alternatively, the present invention is a computer-readable recording medium in which a program for causing a computer to execute a method for detecting a disease-related SNP in a gene, including a step of confirming a relationship with a three-dimensional structure, is recorded.

【0037】本発明が適用できる記録媒体としては、当
該分野において通常使用されているものであれば良く、
特に限定されるものではないが、例えばハードディス
ク、CD-ROM、CD-R/RW、ROM、RAM、DVD及びMO等が挙げら
れる。本発明に係る記録媒体は、上記の本発明の方法を
コンピュータに実行させるために使用することができ
る。本発明の方法をコンピュータに実行させるためのプ
ログラムは、特定されるものではないが、図1に示すフ
ローチャートに従って実行されるように構成される。す
なわち、まず塩基配列データベースの検索を行い(10
1)、次いで配列類似性に基づいてグループ化処理(1
02)を行う。グループ化処理のための配列類似性の条
件は適宜選択することができる。ここで、遺伝子が予め
特定されている場合には、当該遺伝子に対して上記の操
作を行う。
The recording medium to which the present invention can be applied may be any recording medium commonly used in the art.
Although not particularly limited, examples include a hard disk, a CD-ROM, a CD-R / RW, a ROM, a RAM, a DVD, and an MO. The recording medium according to the present invention can be used for causing a computer to execute the above-described method of the present invention. A program for causing a computer to execute the method of the present invention is not specified, but is configured to be executed according to the flowchart shown in FIG. That is, first, the base sequence database is searched (10
1) and then grouping based on sequence similarity (1
02). Conditions for sequence similarity for the grouping process can be appropriately selected. Here, when a gene is specified in advance, the above operation is performed on the gene.

【0038】次に、同じグループに属する配列のアライ
メントを作製し(103)、作製されたアライメントの
配列を比較することにより、SNP候補を選択する(10
4)。ここで、SNP候補として選択するか否かの条件は
適宜設定することができ、例えば先に記載したように、
例えば類似性のある配列の重なりを31塩基の幅で観察す
るとき、個々の配列が他の残りの配列と90%以上の塩基
位置で一致した場合に、その配列をSNP候補選択の対象
塩基配列として採用するように設定することができる。
Next, alignments of sequences belonging to the same group are prepared (103), and SNP candidates are selected by comparing the sequences of the prepared alignments (10).
4). Here, the condition of whether or not to be selected as an SNP candidate can be appropriately set, for example, as described above,
For example, when observing the overlap of similar sequences with a width of 31 bases, if each sequence matches at least 90% base positions with the rest of the sequence, that sequence is used as the target base sequence for SNP candidate selection. Can be set to be adopted.

【0039】次いで、選択されたSNP候補から、タンパ
ク質コーディング領域上にあるSNPであって、かつアミ
ノ酸の変異をもたらすSNPを選択する(105)。ある
いは、予めタンパク質コーディング領域上にあるSNPの
みを選択しておけば、この段階(105)をより効率的
に行うことができる。上記のようにして選択された1ま
たは複数のSNPに対し、モチーフ配列との位置関係及び
/又は立体構造との関係を確認する(106)。
Next, from the selected SNP candidates, SNPs which are present on the protein coding region and cause amino acid mutation are selected (105). Alternatively, if only SNPs existing in the protein coding region are selected in advance, this step (105) can be performed more efficiently. With respect to one or a plurality of SNPs selected as described above, the positional relationship with the motif sequence and / or the relationship with the three-dimensional structure is confirmed (106).

【0040】本発明の更に別の態様は、以下の(a)〜
(e); (a)複数の塩基配列を配列類似性によってグループ化
する手段、(b)同じグループに属する配列のアライメ
ントを作製する手段、(c)アライメントからSNP候補
の塩基を選択する手段、(d)上記選択されたSNP候補
から、タンパク質コーディング領域上にあるSNPであっ
て、かつアミノ酸の変異をもたらすSNPを選択する手
段、及び(e)選択されたアミノ酸変化を伴うSNPとモ
チーフ配列との位置関係及び/又は立体構造との関係を
確認する手段、を備えた、遺伝子における疾患関連SNP
の検出システムである。
Still another embodiment of the present invention provides the following (a) to
(E); (a) means for grouping a plurality of base sequences by sequence similarity, (b) means for preparing an alignment of sequences belonging to the same group, (c) means for selecting SNP candidate bases from the alignment, (D) means for selecting, from the selected SNP candidates, SNPs present on the protein coding region and which cause amino acid mutation, and (e) a SNP with the selected amino acid change and a motif sequence A disease-related SNP in a gene, comprising:
Is a detection system.

【0041】本発明の更に別の態様は、以下の(a)〜
(e); (a)複数の塩基配列を配列類似性によってグループ化
する手段、(b)同じグループに属する配列のアライメ
ントを作製する手段、(c)アライメントからタンパク
質コーディング領域上にあるSNP候補の塩基を選択する
手段、(d)上記選択されたSNP候補から、アミノ酸の
変異をもたらすSNPを選択する手段、及び(e)選択さ
れたアミノ酸変化を伴うSNPとモチーフ配列との位置関
係及び/又は立体構造との関係を確認する手段、を備え
た、遺伝子における疾患関連SNPの検出システムであ
る。
Still another embodiment of the present invention provides the following (a) to
(E); (a) means for grouping a plurality of base sequences based on sequence similarity, (b) means for preparing an alignment of sequences belonging to the same group, (c) means for determining SNP candidates on the protein coding region from the alignment. A means for selecting a base, (d) a means for selecting an SNP that causes an amino acid mutation from the selected SNP candidates, and (e) a positional relationship between the SNP with the selected amino acid change and a motif sequence and / or A system for detecting a disease-related SNP in a gene, comprising a means for confirming a relationship with a three-dimensional structure.

【0042】このシステムのハードウェア構成を図2に
示す。主制御部1は、本発明に係るシステムを実行し、
記録媒体2、例えばハードディスク、CD-ROM、CD-R/R
W、ROM、RAM、DVD及びMO等に記録されたプログラムに従
って該システムを制御する。記録媒体2は、本発明の方
法を実行するためのプログラム、すなわち通信部7を介
してインターネット等にアクセスして得られるか、また
は該記録媒体2に保存されているゲノムDNA、cDNA及び
/又はESTデータベースから得た複数の塩基配列を配列
類似性によってグループ化するためのプログラム、配列
のアライメントを作製するためのプログラム、SNP候補
及びアミノ酸の変異をもたらすSNP候補の塩基を選択す
るためのプログラム、通信部7を介してインターネット
等にアクセスして得られるか、又は該記録媒体2に保存
されているモチーフデータベース及び/若しくは立体構
造データベースを検索して得られる関連モチーフ配列及
び/若しくは立体構造との関係を確認するプログラム、
各々の段階で入力装置4から入力されるデータ及び得ら
れた結果を表示装置5に表示させ、出力装置6から出力
するためのプログラム、並びに上記データ及び結果を記
録する。入力装置4はキーボード、マウス等であり、本
発明のシステムを実行するために必要な条件等を入力す
るために使用される。表示装置5は典型的にはディスプ
レイであり、上記本発明に係る方法の実行を確認しなが
ら進めることができる。出力装置6は本発明のシステム
の実行によって得られる結果等を必要に応じて出力する
ことができるプリンター等である。また通信部7は、本
発明のシステムを実行するために外部データベース等に
インターネット等を介してアクセスするために使用され
る。上記の入出力は、入出力制御部3によって制御され
る。
FIG. 2 shows the hardware configuration of this system. The main control unit 1 executes the system according to the present invention,
Recording medium 2, for example, hard disk, CD-ROM, CD-R / R
The system is controlled in accordance with programs recorded in W, ROM, RAM, DVD, MO, and the like. The recording medium 2 is a program for executing the method of the present invention, that is, it is obtained by accessing the Internet or the like via the communication unit 7, or is stored in the recording medium 2 in genomic DNA, cDNA and / or A program for grouping a plurality of base sequences obtained from the EST database by sequence similarity, a program for creating sequence alignment, a program for selecting SNP candidates and bases of SNP candidates that cause amino acid mutation, With a related motif sequence and / or three-dimensional structure obtained by accessing the Internet or the like via the communication unit 7 or by searching a motif database and / or three-dimensional structure database stored in the recording medium 2. Program to check the relationship,
At each stage, the data input from the input device 4 and the obtained result are displayed on the display device 5, and a program for outputting from the output device 6, and the data and the result are recorded. The input device 4 is a keyboard, a mouse, and the like, and is used for inputting conditions necessary for executing the system of the present invention. The display device 5 is typically a display, and the user can proceed while confirming the execution of the method according to the present invention. The output device 6 is a printer or the like that can output a result or the like obtained by executing the system of the present invention as needed. The communication unit 7 is used to access an external database or the like via the Internet or the like to execute the system of the present invention. The above input / output is controlled by the input / output control unit 3.

【0043】本発明のシステムは、更に目的の遺伝子を
特定する手段を備えることができる。この手段は、記録
媒体2に記録された対象とする遺伝子の名称または塩基
配列を、通信部7を介して塩基配列データベースに照会
(検索)し、入出力制御部3で制御された、遺伝子の特
定に関する情報を表示装置5に表示し、必要に応じて出
力装置6から出力するように構成される。
The system of the present invention can further comprise means for specifying a target gene. This means queries (searches) the base sequence database for the name or base sequence of the gene of interest recorded on the recording medium 2 via the communication unit 7, and controls the gene The information related to the specification is displayed on the display device 5 and output from the output device 6 as necessary.

【0044】上記のように、本発明により、疾患と関連
性の高いSNPを、複数ある場合には疾患との関連性の優
先順位をつけて、効率的に検出することができ、臨床的
に得られるデータとの相関性を効率良く検討することが
できる。また、本発明によって検出されたSNPの有無を
被験者から得たサンプルで調べることにより、当該被験
者の疾患への罹患危険性を発症前に診断することが可能
になる他、いわゆるテーラーメイド医療もより容易に行
うことが可能となる。更に、当該疾患に対する治療のタ
ーゲットが特定されると共に、新規な薬剤、例えば検出
された疾患関連SNPに対するアンチセンス核酸等を設計
・開発することが可能である。
As described above, according to the present invention, when there are a plurality of SNPs highly relevant to a disease, the SNPs can be efficiently detected by prioritizing the relevance to the disease, and clinically. The correlation with the obtained data can be efficiently studied. In addition, by examining the presence or absence of the SNP detected by the present invention using a sample obtained from a subject, it is possible to diagnose the risk of suffering from a disease of the subject before the onset, and so-called tailor-made medicine is more easily performed. Can be performed. Further, it is possible to specify a therapeutic target for the disease and to design and develop a novel drug, for example, an antisense nucleic acid against a detected disease-related SNP.

【0045】[0045]

【実施例】以下、実施例を挙げて本発明を更に詳細に説
明するが、本発明は以下の実施例に何ら制限されるもの
ではない。
The present invention will be described in more detail with reference to the following examples, but the present invention is not limited to the following examples.

【0046】実施例1 ヌクレオシドホスホリラーゼ
(配列番号1、OMIM登録番号:164050)における疾患関
連SNPの検出 (1)塩基配列のグループ化とアライメント 疾患関連SNP検出の対象として、ヌクレオシドホスホリ
ラーゼを選択した。ヌクレオシドホスホリラーゼが関連
する疾患は、疾患関連遺伝子データベースOMIMの検索に
より、細胞性免疫不全を伴う運動失調(ataxia with de
ficient cellular immunity)であることが判明した
(図5)。ヌクレオシドホスホリラーゼへは、UniGene
データベース(http://www.ncbi.nlm.nih.gov/UniGene
/)における識別番号としてHs.75514が与えられてい
る。UniGene Hs.75514のクラスタ情報に従い、各クラス
タを構成する配列をNCBI(http://www.ncbi.nlm.nih.go
v/)の nr および Hs.seq.all データ集団から抽出し
た。それらの配列群はphrapプログラムによるアライメ
ントをおこない、コンセンサス配列を作成した。(図
3)。
Example 1 Detection of Disease-Related SNP in Nucleoside Phosphorylase (SEQ ID NO: 1, OMIM Accession Number: 164050) (1) Grouping and Alignment of Nucleotide Sequence Nucleoside phosphorylase was selected as a target for detecting disease-related SNP. For nucleoside phosphorylase-related diseases, ataxia with deoxytaxia with cell-mediated immunodeficiency (ataxia with de
ficient cellular immunity) (FIG. 5). Nucleoside phosphorylase is available from UniGene
Database (http://www.ncbi.nlm.nih.gov/UniGene
Hs.75514 is given as the identification number in /). According to the cluster information of UniGene Hs.75514, NCBI (http: //www.ncbi.nlm.nih.go
v /) from the nr and Hs.seq.all data populations. These sequences were aligned by the phrap program to create a consensus sequence. (FIG. 3).

【0047】(2)SNPの選択 アライメントされた配列群を31塩基の幅で観察すると
き、個々の配列が他の残りの配列と28塩基以上が一致す
れば、その配列をSNP選択の対象塩基配列として採用し
た。設定した31塩基幅の中に5本以上の配列が採用され
た場合に、16番目の塩基について塩基ごとの出現回数を
比較した。出現個数が2番目に多い塩基の数が2個以上で
あれば、その位置における塩基群を互いにSNPとした。2
種類の塩基が同一個数となり、かつもっとも出現個数が
多い場合は、もっとも出現個数の多い塩基の数が2個以
上であれば、その位置における塩基群を互いにSNPとし
た。SNPと認定された塩基については、視覚的に容易に
識別可能とするために、赤色の大文字となるようにした
(図3)。この段階で、塩基配列(配列番号1)におい
て、位置170から1399までの24個のSNPが選択された(図
4)。各SNPにおいて見出された塩基の種類は図4に示
す通りであった。
(2) Selection of SNP When observing the aligned sequence group with a width of 31 bases, if each sequence matches 28 or more bases with the other remaining sequences, the sequence is selected as a base for SNP selection. Adopted as an array. When five or more sequences were adopted within the set 31 base width, the number of appearances of each base was compared for the 16th base. If the number of bases having the second largest number of occurrences is 2 or more, the base groups at that position were regarded as SNPs. Two
When the types of bases are the same and the number of occurrences is the largest, if the number of the bases with the largest number of occurrences is 2 or more, the base groups at that position are regarded as SNP. Bases recognized as SNPs are shown in red uppercase letters so that they can be easily identified visually (FIG. 3). At this stage, in the nucleotide sequence (SEQ ID NO: 1), 24 SNPs from positions 170 to 1399 were selected (FIG. 4). The types of bases found in each SNP were as shown in FIG.

【0048】(3)アミノ酸変化を伴うSNPの選択 上記で得られた24個のSNPについて、タンパク質コーデ
ィング領域上にあるか否か、またコーディング領域上に
ある場合には翻訳されて得られるタンパク質のアミノ酸
配列に変異をもたらすものであるか否かについて検討し
た。具体的には、登録番号NM#000270(GenBank登録番
号)のタンパク質コード領域情報に基づき、その領域内
に存在するSNPすべてをアミノ酸へ翻訳し、アミノ酸と
しての変化を検討した。この段階で、塩基番号170、26
1、281、439、771及び805における6個のSNPがコーディ
ング領域上にあり、そのうち塩基番号261、439、771及
び805における4個のSNPでアミノ酸の変異をもたらすこ
とが明らかになった。これらはそれぞれヌクレオシドホ
スホリラーゼのアミノ酸配列(配列番号2)における残
基番号51、110、221、232のアミノ酸残基位置に相当
し、それぞれSNPによってSerからGlyへの変異、Thrから
Asnへの変異、ThrからProへの変異、GlyからGluへの変
異が生じていた(図5)。
(3) Selection of SNPs with Amino Acid Changes Regarding the 24 SNPs obtained above, whether or not they are on the protein coding region, and if they are on the coding region, the translated SNP It was examined whether the amino acid sequence causes mutation. Specifically, based on the protein coding region information of accession number NM # 000270 (GenBank accession number), all SNPs present in the region were translated into amino acids, and changes as amino acids were examined. At this stage, base numbers 170 and 26
Six SNPs at 1, 281, 439, 771 and 805 were found to be in the coding region, of which four SNPs at bases 261, 439, 771 and 805 resulted in amino acid mutations. These correspond to amino acid residue positions of residues 51, 110, 221, and 232 in the amino acid sequence of nucleoside phosphorylase (SEQ ID NO: 2), respectively.
Mutation to Asn, mutation from Thr to Pro, and mutation from Gly to Glu occurred (FIG. 5).

【0049】(4)選択されたSNPとモチーフ配列との
位置関係及び/または立体構造との関係の確認 モチーフデータベースBlocksから、配列番号2に示すヌ
クレオシドホスホリラーゼのアミノ酸配列中に見出され
るモチーフ配列として、配列番号2における25〜38、10
7〜137、及び189〜230の位置にそれぞれ相当するBL0124
0A(配列番号5)、BL01240B(配列番号6)、及びBL01
240C(配列番号7)が検索され(図5)、上記4個のSN
Pが対応するアミノ酸残基のうち110と221のアミノ酸残
基の2個がモチーフ配列上にあることが明らかとなっ
た。
(4) Confirmation of the positional relationship between the selected SNP and the motif sequence and / or the relationship with the three-dimensional structure As a motif sequence found in the amino acid sequence of the nucleoside phosphorylase shown in SEQ ID NO: 2 from the motif database Blocks, 25 to 38, 10 in SEQ ID NO: 2
BL0124 corresponding to positions 7 to 137 and 189 to 230, respectively
0A (SEQ ID NO: 5), BL01240B (SEQ ID NO: 6), and BL01
240C (SEQ ID NO: 7) was searched (FIG. 5), and the four SNs
It became clear that two of 110 and 221 amino acid residues among the amino acid residues corresponding to P were on the motif sequence.

【0050】SNPとモチーフ配列との位置関係が容易に
識別できるように、モチーフ配列上にあるSNPを赤、そ
の前後5残基にあるSNPをピンク、それ以外の位置にあ
るSNPを青で示した(図5)。また、ヌクレオチドホス
ホリラーゼの塩基配列を立体構造データベースPDBに登
録されている配列に対して検索し、配列類似性が100%
であった1ULA(PDB登録番号)の立体構造をディスプレ
イ上に表示し、上記4個のSNPの位置が容易に識別でき
るように、帯状に示したモチーフ配列に上記と同じ色で
示した(図5)。この結果、最初に見出された24個の
SNPのうち、塩基番号439及び771の位置にあるSNPが疾患
(細胞性免疫不全の伴う運動失調)との関連性が最も高
く、次いで塩基番号805、更に261の位置にあるSNPが関
連する可能性が予測された。
In order to easily identify the positional relationship between the SNP and the motif sequence, the SNPs on the motif sequence are shown in red, the SNPs at the 5 residues before and after it are shown in pink, and the SNPs in other positions are shown in blue. (FIG. 5). The nucleotide sequence of nucleotide phosphorylase was searched against the sequence registered in the three-dimensional structure database PDB, and the sequence similarity was 100%.
The three-dimensional structure of 1ULA (PDB registration number) was displayed on a display, and the motif sequence shown in the shape of a band was shown in the same color as above so that the positions of the four SNPs could be easily identified (Fig. 5). As a result, the first 24
Of the SNPs, SNPs at bases 439 and 771 are most highly associated with the disease (ataxia with cellular immune deficiency), followed by SNPs at bases 805 and 261 Gender was predicted.

【0051】実施例2 プロテイナーゼ3(配列番号
3、OMIM登録番号:177020)における疾患関連SNPの検
出 実施例1と同様にして、GenBank上で見出された配列番
号3(アミノ酸配列は配列番号4)の遺伝子について、
疾患関連SNPを検出した。疾患関連遺伝子データベースO
MIMの検索により、配列番号3の遺伝子はプロテイナー
ゼ3であることが判明した。尚、OMIMデータベース上に
は、プロテイナーゼ3の変異、欠損等による疾患は登録
されていなかった。プロテイナーゼ3はセリンプロテア
ーゼであり、活性部位としてAsp,His,Serを有すること
が知られている。
Example 2 Detection of Disease-Related SNP in Proteinase 3 (SEQ ID NO: 3, OMIM Accession No .: 177020) In the same manner as in Example 1, SEQ ID NO: 3 found on GenBank (the amino acid sequence is SEQ ID NO: 4) )
Disease-related SNPs were detected. Disease-related gene database O
A MIM search revealed that the gene of SEQ ID NO: 3 was proteinase 3. It should be noted that no disease due to mutation, deletion or the like of proteinase 3 was registered in the OMIM database. Proteinase 3 is a serine protease and is known to have Asp, His, and Ser as active sites.

【0052】実施例1と同様にして、塩基配列のグルー
プ化とアライメント、SNP候補塩基の選択、アミノ酸変
化を伴うSNPの選択、選択されたSNPとモチーフ配列との
位置関係及び/または立体構造との関係の確認の各ステ
ップを実施した。その結果、配列番号4に示すプロテイ
ナーゼ3のアミノ酸配列中に見出されるモチーフ配列と
して、配列番号4における残基番号56〜72、197〜220、
及び230〜243の位置にそれぞれ相当するBL00134A(配列
番号8)、BL00134B(配列番号9)、及びBL00134C(配
列番号10)が検索されたが、このモチーフ配列上には
アミノ酸の変異を伴うSNPは見出されなかった。尚、上
記活性部位His及びSerは、それぞれモチーフ配列上にあ
った。
In the same manner as in Example 1, grouping and alignment of nucleotide sequences, selection of SNP candidate bases, selection of SNPs with amino acid changes, positional relationship between the selected SNPs and the motif sequence and / or conformation Each step of confirming the relationship was performed. As a result, as a motif sequence found in the amino acid sequence of proteinase 3 shown in SEQ ID NO: 4, residues Nos. 56 to 72, 197 to 220 in SEQ ID NO.
And BL00134A (SEQ ID NO: 8), BL00134B (SEQ ID NO: 9), and BL00134C (SEQ ID NO: 10) corresponding to positions 230 to 243, respectively. Not found. The active sites His and Ser were on the motif sequence, respectively.

【0053】本実施例では、アミノ酸変異を伴うSNPと
して、アミノ酸残基119にSNPが存在することが明らかと
なり、その変異によってIleがValに変異していた。この
SNPと立体構造との関係を調べるために、立体構造デー
タベースPDBに登録されているプロテイナーゼ3(1FU
J)の立体構造において、活性部位及びこのSNPを空間充
填モデルで示し、活性部位の部分をマジェンダで表現
し、SNPのあったIle119Valを青で示した(図6)。その
結果、Ile119Valはモチーフ配列上には存在していない
が、立体構造的には活性部位に近接して存在しているこ
とが見出され、プロテイナーゼ3の変異、欠損等による
疾患にこのSNPが関連する可能性が示唆された。
In this example, it was clarified that an SNP at amino acid residue 119 was present as an SNP with amino acid mutation, and the mutation turned Ile into Val. this
In order to investigate the relationship between SNP and three-dimensional structure, proteinase 3 (1FU
In the three-dimensional structure of J), the active site and this SNP are shown by a space-filling model, the active site part is represented by magenta, and Ile119Val with SNP is shown in blue (FIG. 6). As a result, it was found that Ile119Val was not present on the motif sequence, but was present close to the active site in terms of three-dimensional structure, and this SNP was used in diseases caused by mutation, deletion, etc. of proteinase 3. The possibility of association was suggested.

【0054】[0054]

【発明の効果】以上詳述したように、本発明は、データ
ベースから得られるSNPに対して疾患との関連性におけ
る優先順位をつけることができる。本発明によって、一
つ一つのSNPに対して綿密な研究を積み重ねるという時
間及び手間を省き、効率的に疾患関連SNPを検出して、
検出されたSNPに関連する疾患の予防及び治療に役立て
ることができる。
As described in detail above, the present invention can prioritize SNPs obtained from a database in relation to disease. According to the present invention, the time and effort of accumulating in-depth research on each SNP can be saved, and disease-related SNPs can be efficiently detected,
It can be used for prevention and treatment of a disease associated with the detected SNP.

【0055】[0055]

【配列表】 SEQUENCE LISTING <110> PharmaDesign, Inc. <120> A method for detecting disease-related SNP <130> P00-0487 <160> 10 <170> PatentIn Ver. 2.0 <210> 1 <211> 1418 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (110)..(976) <400> 1 aactgtgcga accagacccg gcagccttgc tcagttcagc atagcggagc ggatccgatc 60 ggatcggagc acaccggagc aggctcatcg agaaggcgtc tgcgagacc atg gag aac 118 Met Glu Asn 1 gga tac acc tat gaa gat tat aag aac act gca gaa tgg ctt ctg tct 166 Gly Tyr Thr Tyr Glu Asp Tyr Lys Asn Thr Ala Glu Trp Leu Leu Ser 5 10 15 cat act aag cac cga cct caa gtt gca ata atc tgt ggt tct gga tta 214 His Thr Lys His Arg Pro Gln Val Ala Ile Ile Cys Gly Ser Gly Leu 20 25 30 35 gga ggt ctg act gat aaa tta act cag gcc cag atc ttt gac tac agt 262 Gly Gly Leu Thr Asp Lys Leu Thr Gln Ala Gln Ile Phe Asp Tyr Ser 40 45 50 gaa atc ccc aac ttt cct cga agt aca gtg cca ggt cat gct ggc cga 310 Glu Ile Pro Asn Phe Pro Arg Ser Thr Val Pro Gly His Ala Gly Arg 55 60 65 ctg gtg ttt ggg ttc ctg aat ggc agg gcc tgt gtg atg atg cag ggc 358 Leu Val Phe Gly Phe Leu Asn Gly Arg Ala Cys Val Met Met Gln Gly 70 75 80 agg ttc cac atg tat gaa ggg tac cca ctc tgg aag gtg aca ttc cca 406 Arg Phe His Met Tyr Glu Gly Tyr Pro Leu Trp Lys Val Thr Phe Pro 85 90 95 gtg agg gtt ttc cac ctt ctg ggt gtg gac acc ctg gta gtc acc aat 454 Val Arg Val Phe His Leu Leu Gly Val Asp Thr Leu Val Val Thr Asn 100 105 110 115 gca gca gga ggg ctg aac ccc aag ttt gag gtt gga gat atc atg ctg 502 Ala Ala Gly Gly Leu Asn Pro Lys Phe Glu Val Gly Asp Ile Met Leu 120 125 130 atc cgt gac cat atc aac cta cct ggt ttc agt ggt cag aac cct ctc 550 Ile Arg Asp His Ile Asn Leu Pro Gly Phe Ser Gly Gln Asn Pro Leu 135 140 145 aga ggg ccc aat gat gaa agg ttt gga gat cgt ttc cct gcc atg tct 598 Arg Gly Pro Asn Asp Glu Arg Phe Gly Asp Arg Phe Pro Ala Met Ser 150 155 160 gat gcc tac gac cgg act atg agg cag agg gct ctc agt acc tgg aaa 646 Asp Ala Tyr Asp Arg Thr Met Arg Gln Arg Ala Leu Ser Thr Trp Lys 165 170 175 caa atg ggg gag caa cgt gag cta cag gaa ggc acc tat gtg atg gtg 694 Gln Met Gly Glu Gln Arg Glu Leu Gln Glu Gly Thr Tyr Val Met Val 180 185 190 195 gca ggc ccc agc ttt gag act gtg gca gaa tgt cgt gtg ctg cag aag 742 Ala Gly Pro Ser Phe Glu Thr Val Ala Glu Cys Arg Val Leu Gln Lys 200 205 210 ctg gga gca gac gct gtt ggc atg agt aca gta cca gaa gtt atc gtt 790 Leu Gly Ala Asp Ala Val Gly Met Ser Thr Val Pro Glu Val Ile Val 215 220 225 gca cgg cac tgt gga ctt cga gtc ttt ggc ttc tca ctc atc act aac 838 Ala Arg His Cys Gly Leu Arg Val Phe Gly Phe Ser Leu Ile Thr Asn 230 235 240 aag gtc atc atg gat tat gaa agc ctg gag aag gcc aac cat gaa gaa 886 Lys Val Ile Met Asp Tyr Glu Ser Leu Glu Lys Ala Asn His Glu Glu 245 250 255 gtc tta gca gct ggc aaa caa gct gca cag aaa ttg gaa cag ttt gtc 934 Val Leu Ala Ala Gly Lys Gln Ala Ala Gln Lys Leu Glu Gln Phe Val 260 265 270 275 tcc att ctt atg gcc agc att cca ctc cct gac aaa gcc agt 976 Ser Ile Leu Met Ala Ser Ile Pro Leu Pro Asp Lys Ala Ser 280 285 tgacctgcct tggagtcgtc tggcatctcc cacacaagac ccaagtagct gctaccttct 1036 ttggcccctt gctggagtca tgtgcctctg tccttaggtt gtagcagaaa ggaaaagatt 1096 cctgtccttc acctttccca ctttcttcta ccagaccctt ctggtgccag atcctcttct 1156 caaagctggg attacaggtg tgagcatagt gagaccttgg cgctacaaaa taaagctgtt 1216 ctcattcctg ttctttctta cacaagagct ggagcccgtg ccctaccaca catctgtgga 1276 gatgcccagg atttgactcg ggccttagaa ctttgcatag cagctgctac tagctctttg 1336 agataataca ttccgagggg ctcagttctg ccttatctaa atcaccagag accaaacaag 1396 gactaatcca atacctcttg ga 1418 <210> 2 <211> 289 <212> PRT <213> Homo sapiens <400> 2 Met Glu Asn Gly Tyr Thr Tyr Glu Asp Tyr Lys Asn Thr Ala Glu Trp 1 5 10 15 Leu Leu Ser His Thr Lys His Arg Pro Gln Val Ala Ile Ile Cys Gly 20 25 30 Ser Gly Leu Gly Gly Leu Thr Asp Lys Leu Thr Gln Ala Gln Ile Phe 35 40 45 Asp Tyr Ser Glu Ile Pro Asn Phe Pro Arg Ser Thr Val Pro Gly His 50 55 60 Ala Gly Arg Leu Val Phe Gly Phe Leu Asn Gly Arg Ala Cys Val Met 65 70 75 80 Met Gln Gly Arg Phe His Met Tyr Glu Gly Tyr Pro Leu Trp Lys Val 85 90 95 Thr Phe Pro Val Arg Val Phe His Leu Leu Gly Val Asp Thr Leu Val 100 105 110 Val Thr Asn Ala Ala Gly Gly Leu Asn Pro Lys Phe Glu Val Gly Asp 115 120 125 Ile Met Leu Ile Arg Asp His Ile Asn Leu Pro Gly Phe Ser Gly Gln 130 135 140 Asn Pro Leu Arg Gly Pro Asn Asp Glu Arg Phe Gly Asp Arg Phe Pro 145 150 155 160 Ala Met Ser Asp Ala Tyr Asp Arg Thr Met Arg Gln Arg Ala Leu Ser 165 170 175 Thr Trp Lys Gln Met Gly Glu Gln Arg Glu Leu Gln Glu Gly Thr Tyr 180 185 190 Val Met Val Ala Gly Pro Ser Phe Glu Thr Val Ala Glu Cys Arg Val 195 200 205 Leu Gln Lys Leu Gly Ala Asp Ala Val Gly Met Ser Thr Val Pro Glu 210 215 220 Val Ile Val Ala Arg His Cys Gly Leu Arg Val Phe Gly Phe Ser Leu 225 230 235 240 Ile Thr Asn Lys Val Ile Met Asp Tyr Glu Ser Leu Glu Lys Ala Asn 245 250 255 His Glu Glu Val Leu Ala Ala Gly Lys Gln Ala Ala Gln Lys Leu Glu 260 265 270 Gln Phe Val Ser Ile Leu Met Ala Ser Ile Pro Leu Pro Asp Lys Ala 275 280 285 Ser <210> 3 <211> 903 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (49)..(816) <400> 3 gattggctat aagaggagct tgatcgtggg tgcaccctgg accccacc atg gct cac 57 Met Ala His 1 cgg ccc ccc agc cct gcc ctg gcg tcc gtg ctg ctg gcc ttg ctg ctg 105 Arg Pro Pro Ser Pro Ala Leu Ala Ser Val Leu Leu Ala Leu Leu Leu 5 10 15 agc ggt gct gcc cga gct gcg gag atc gtg ggc ggg cac gag gcg cag 153 Ser Gly Ala Ala Arg Ala Ala Glu Ile Val Gly Gly His Glu Ala Gln 20 25 30 35 cca cac tcc cgg ccc tac atg gcc tcc ctg cag atg cgg ggg aac ccg 201 Pro His Ser Arg Pro Tyr Met Ala Ser Leu Gln Met Arg Gly Asn Pro 40 45 50 ggc agc cac ttc tgc gga ggc acc ttg atc cac ccc agc ttc gtg ctg 249 Gly Ser His Phe Cys Gly Gly Thr Leu Ile His Pro Ser Phe Val Leu 55 60 65 acg gcc ccg cac tgc ctg cgg gac ata ccc cag cgc ctg gtg aac gtg 297 Thr Ala Pro His Cys Leu Arg Asp Ile Pro Gln Arg Leu Val Asn Val 70 75 80 gtg ctc gga gcc cac aac gtg cgg acg cag gag ccc acc cag cag cac 345 Val Leu Gly Ala His Asn Val Arg Thr Gln Glu Pro Thr Gln Gln His 85 90 95 ttc tcg gtg gct cag gtg ttt ctg aac aac tac gac gcg gag aac aaa 393 Phe Ser Val Ala Gln Val Phe Leu Asn Asn Tyr Asp Ala Glu Asn Lys 100 105 110 115 ctg aac gac att ctc ctc atc cag ctg agc agc cca gcc aac ctc agt 441 Leu Asn Asp Ile Leu Leu Ile Gln Leu Ser Ser Pro Ala Asn Leu Ser 120 125 130 gcg tcc gtc acc tca gtc cag ctg cca cag cag gac cag cca gtg ccc 489 Ala Ser Val Thr Ser Val Gln Leu Pro Gln Gln Asp Gln Pro Val Pro 135 140 145 cac ggc acc cag tgc ctg gcc atg ggc tgg ggc cgc gtg ggt gcc cac 537 His Gly Thr Gln Cys Leu Ala Met Gly Trp Gly Arg Val Gly Ala His 150 155 160 gac ccc cca gcc cag gtc ctg cag gag ctc aat gtc acc gtg gtg acc 585 Asp Pro Pro Ala Gln Val Leu Gln Glu Leu Asn Val Thr Val Val Thr 165 170 175 ttc ttc tgc cgg cca cat aac att tgc act ttc gtc cct cgc cgc aag 633 Phe Phe Cys Arg Pro His Asn Ile Cys Thr Phe Val Pro Arg Arg Lys 180 185 190 195 gcc ggc atc tgc ttc gga gac tca ggt ggc ccc ctg atc tgt gat ggc 681 Ala Gly Ile Cys Phe Gly Asp Ser Gly Gly Pro Leu Ile Cys Asp Gly 200 205 210 atc atc caa gga ata gac tcc ttc gtg atc tgg gga tgt gcc acc cgc 729 Ile Ile Gln Gly Ile Asp Ser Phe Val Ile Trp Gly Cys Ala Thr Arg 215 220 225 ctt ttc cct gac ttc ttc acg cgg gta gcc ctc tac gtg gac tgg atc 777 Leu Phe Pro Asp Phe Phe Thr Arg Val Ala Leu Tyr Val Asp Trp Ile 230 235 240 cgt tct acg ctg cgc cgt gtg gag gcc aag ggc cgc ccc tgaaccgccc 826 Arg Ser Thr Leu Arg Arg Val Glu Ala Lys Gly Arg Pro 245 250 255 ctcccacagc gctggccggg accccgagcc tggctccaaa ccctcgaggc ggatctttgg 886 acagaagcag ctcttgt 903 <210> 4 <211> 256 <212> PRT <213> Homo sapiens <400> 4 Met Ala His Arg Pro Pro Ser Pro Ala Leu Ala Ser Val Leu Leu Ala 1 5 10 15 Leu Leu Leu Ser Gly Ala Ala Arg Ala Ala Glu Ile Val Gly Gly His 20 25 30 Glu Ala Gln Pro His Ser Arg Pro Tyr Met Ala Ser Leu Gln Met Arg 35 40 45 Gly Asn Pro Gly Ser His Phe Cys Gly Gly Thr Leu Ile His Pro Ser 50 55 60 Phe Val Leu Thr Ala Pro His Cys Leu Arg Asp Ile Pro Gln Arg Leu 65 70 75 80 Val Asn Val Val Leu Gly Ala His Asn Val Arg Thr Gln Glu Pro Thr 85 90 95 Gln Gln His Phe Ser Val Ala Gln Val Phe Leu Asn Asn Tyr Asp Ala 100 105 110 Glu Asn Lys Leu Asn Asp Ile Leu Leu Ile Gln Leu Ser Ser Pro Ala 115 120 125 Asn Leu Ser Ala Ser Val Thr Ser Val Gln Leu Pro Gln Gln Asp Gln 130 135 140 Pro Val Pro His Gly Thr Gln Cys Leu Ala Met Gly Trp Gly Arg Val 145 150 155 160 Gly Ala His Asp Pro Pro Ala Gln Val Leu Gln Glu Leu Asn Val Thr 165 170 175 Val Val Thr Phe Phe Cys Arg Pro His Asn Ile Cys Thr Phe Val Pro 180 185 190 Arg Arg Lys Ala Gly Ile Cys Phe Gly Asp Ser Gly Gly Pro Leu Ile 195 200 205 Cys Asp Gly Ile Ile Gln Gly Ile Asp Ser Phe Val Ile Trp Gly Cys 210 215 220 Ala Thr Arg Leu Phe Pro Asp Phe Phe Thr Arg Val Ala Leu Tyr Val 225 230 235 240 Asp Trp Ile Arg Ser Thr Leu Arg Arg Val Glu Ala Lys Gly Arg Pro 245 250 255 <210> 5 <211> 14 <212> PRT <213> Homo sapiens <400> 5 Pro Gln Val Ala Ile Ile Cys Gly Ser Gly Leu Gly Gly Leu 1 5 10 <210> 6 <211> 31 <212> PRT <213> Homo sapiens <400> 6 Gly Val Asp Thr Leu Val Val Thr Asn Ala Ala Gly Gly Leu Asn Pro 1 5 10 15 Lys Phe Glu Val Gly Asp Ile Met Leu Ile Arg Asp His Ile Asn 20 25 30 <210> 7 <211> 42 <212> PRT <213> Homo sapiens <400> 7 Glu Gly Thr Tyr Val Met Val Ala Gly Pro Ser Phe Glu Thr Val Ala 1 5 10 15 Glu Cys Arg Val Leu Gln Lys Leu Gly Ala Asp Ala Val Gly Met Ser 20 25 30 Thr Val Pro Glu Val Ile Val Ala Arg His 35 40 <210> 8 <211> 17 <212> PRT <213> Homo sapiens <400> 8 Cys Gly Gly Thr Leu Ile His Pro Ser Phe Val Leu Thr Ala Ala His 1 5 10 15 Cys <210> 9 <211> 24 <212> PRT <213> Homo sapiens <400> 9 Gly Ile Cys Phe Gly Asp Ser Gly Gly Pro Leu Ile Cys Asp Gly Ile 1 5 10 15 Ile Gln Gly Ile Asp Ser Phe Val 20 <210> 10 <211> 14 <212> PRT <213> Homo sapiens <400> 10 Pro Asp Phe Phe Thr Arg Val Ala Leu Tyr Val Asp Trp Ile 1 5 10[Sequence List] SEQUENCE LISTING <110> PharmaDesign, Inc. <120> A method for detecting disease-related SNP <130> P00-0487 <160> 10 <170> PatentIn Ver. 2.0 <210> 1 <211> 1418 < 212> DNA <213> Homo sapiens <220> <221> CDS <222> (110) .. (976) <400> gga tac acc tat gaa gat tat aag aac act gca gaa tgg ctt ctg tct 166 Gly Tyr Thr Tyr Glu Asp Tyr Lys Asn Thr Ala Glu Trp Leu Leu Ser 5 10 15 cat act aag cac cga cct caa gtt gca ata atc tgt ggt tct gga tta 214 His Thr Lys His Arg Pro Gln Val Ala Ile Ile Cys Gly Ser Gly Leu 20 25 30 35 gga ggt ctg act gat aaa tta act cag gcc cag atc ttt gac tac agt 262 Gly Gly Leu Thr Asp Lys Leu Thr Gln Ala Gln Ile Phe Asp Tyr Ser 40 45 50 gaa atc ccc aac ttt cct cga agt aca gtg cca ggt cat gct ggc cga 310 Glu Ile Pro Asn Phe Pro Arg Ser Thr Val Pro Gly His Ala Gly Arg 55 60 65 ctg gtg ttt ggg ttc ctg aat ggc agg gcc tgt gtg atg atg cag ggc 358 Leu Val Phe Gly Phe Leu Asn Gly Arg Ala Cys Val Met Met Gln Gly 70 75 80 agg ttc cac atg tat gaa ggg tac cca ctc tgg aag gtg aca ttc cca 406 Arg Phe His Met Gly Tyr Pro Leu Trp Lys Val Thr Phe Pro 85 90 95 gtg agg gtt ttc cac ctt ctg ggt gtg gac acc ctg gta gtc acc aat 454 Val Arg Val Phe His Leu Leu Gly Val Asp Thr Leu Val Val Thr Asn 100 105 110 115 gca gca gga ggg ctg aac ccc aag ttt gag gtt gga gat atc atg ctg 502 Ala Ala Gly Gly Leu Asn Pro Lys Phe Glu Val Gly Asp Ile Met Leu 120 125 130 atc cgt gac cat atc aac cta cct ggt ttc agt ggt cag aac cct ctc 550 Ile Arg Asp His Ile Asn Leu Pro Gly Phe Ser Gly Gln Asn Pro Leu 135 140 145 aga ggg ccc aat gat gaa agg ttt gga gat cgt ttc cct gcc atg tct 598 Arg Gly Pro Asn Asp Glu Arg Phe Gly Asp Arg Phe Pro Ala Met Ser 150 155 160 gat gcc tac gac cgg act atg agg cag agg gct ctc agt acc tgg aaa 646 Asp Ala Tyr Asp Arg Thr Met Arg Gln Arg Ala Leu Ser Thr Trp Lys 165 170 175 caa atg ggg gag caa cgt gag c ta cag gaa ggc acc tat gtg atg gtg 694 Gln Met Gly Glu Gln Arg Glu Leu Gln Glu Gly Thr Tyr Val Met Val 180 185 190 195 gca ggc ccc agc ttt gag act gtg gca gaa tgt cgt gtg ctg cag aag 742 Ala Ser Phe Glu Thr Val Ala Glu Cys Arg Val Leu Gln Lys 200 205 210 ctg gga gca gac gct gtt ggc atg agt aca gta cca gaa gtt atc gtt 790 Leu Gly Ala Asp Ala Val Gly Met Ser Thr Val Pro Glu Val Ile Val 215 220 225 gca cgg cac tgt gga ctt cga gtc ttt ggc ttc tca ctc atc act aac 838 Ala Arg His Cys Gly Leu Arg Val Phe Gly Phe Ser Leu Ile Thr Asn 230 235 240 aag gtc atc atg gat tat gaa agc ctg gag agc aac cat gaa gaa 886 Lys Val Ile Met Asp Tyr Glu Ser Leu Glu Lys Ala Asn His Glu Glu 245 250 255 gtc tta gca gct ggc aaa caa gct gca cag aaa ttg gaa cag ttt gtc 934 Val Leu Ala Ala Gly Lys Gln Ala Gln Lys Leu Glu Gln Phe Val 260 265 270 275 tcc att ctt atg gcc agc att cca ctc cct gac aaa gcc agt 976 Ser Ile Leu Met Ala Ser Ile Pro Leu Pro Asp Lys Ala Ser 280 285 tgacctgcct tggagtcgtc tggctcc cacacaagac ccaagtagct gctaccttct 1036 ttggcccctt gctggagtca tgtgcctctg tccttaggtt gtagcagaaa ggaaaagatt 1096 cctgtccttc acctttccca ctttcttcta ccagaccctt ctggtgccag atcctcttct 1156 caaagctggg attacaggtg tgagcatagt gagaccttgg cgctacaaaa taaagctgtt 1216 ctcattcctg ttctttctta cacaagagct ggagcccgtg ccctaccaca catctgtgga 1276 gatgcccagg atttgactcg ggccttagaa ctttgcatag cagctgctac tagctctttg 1336 agataataca ttccgagggg ctcagttctg ccttatctaa atcaccagag accaaacaag 1396 gactaatcca atacctcttg ga 1418 <210> 2 <211> 289 <212> PRT <213> Homo sapiens <400> 2 Met Glu Asn Gly Tyr Thr Tyr Glu Asp Tyr Lys Asn Thr Ala Glu Trp 1 5 10 15 Leu Leu Ser His Thr Lys His Arg Pro Gln Val Ala Ile Ile Cys Gly 20 25 30 Ser Gly Leu Gly Gly Leu Thr Asp Lys Leu Thr Gln Ala Gln Ile Phe 35 40 45 Asp Tyr Ser Glu Ile Pro Asn Phe Pro Arg Ser Thr Val Pro Gly His 50 55 60 Ala Gly Arg Leu Val Phe Gly Phe Leu Asn Gly Arg Ala Cys Val Met 65 70 75 80 Met Gln Gly Arg Phe His Met Tyr Glu Gly Tyr Pro Leu Trp Lys Val 85 90 95 Thr Phe Pro Val Arg Val Phe His Leu Leu Gly Val Asp Thr Leu Val 100 105 110 Val Thr Asn Ala Ala Gly Gly Leu Asn Pro Lys Phe Glu Val Gly Asp 115 120 125 Ile Met Leu Ile Arg Asp His Ile Asn Leu Pro Gly Phe Ser Gly Gln 130 135 140 Asn Pro Leu Arg Gly Pro Asn Asp Glu Arg Phe Gly Asp Arg Phe Pro 145 150 155 160 Ala Met Ser Asp Ala Tyr Asp Arg Thr Met Arg Gln Arg Ala Leu Ser 165 170 175 Thr Trp Lys Gln Met Gly Glu Gln Arg Glu Leu Gln Glu Gly Thr Tyr 180 185 190 Val Met Val Ala Gly Pro Ser Phe Glu Thr Val Ala Glu Cys Arg Val 195 200 205 Leu Gln Lys Leu Gly Ala Asp Ala Val Gly Met Ser Thr Val Pro Glu 210 215 220 Val Ile Val Ala Arg His Cys Gly Leu Arg Val Phe Gly Phe Ser Leu 225 230 235 240 Ile Thr Asn Lys Val Ile Met Asp Tyr Glu Ser Leu Glu Lys Ala Asn 245 250 255 His Glu Glu Val Leu Ala Ala Gly Lys Gln Ala Ala Gln Lys Leu Glu 260 265 270 Gln Phe Val Ser Ile Leu Met Ala Ser Ile Pro Leu Pro Asp Lys Ala 275 280 285 Ser <210> 3 <211> 903 <212> DNA <213> Homo sapiens <220> < 221> CDS <222> (49) .. (816) <40 0> 3 gattggctat aagaggagct tgatcgtggg tgcaccctgg accccacc atg gct cac 57 Met Ala His 1 cgg ccc ccc agc cct gcc ctg gcg tcc gtg ctg ctg gcc ttg ctg ctg 105 Arg Pro Pro Ser Pro Ala Leu Leu Aula Seru 10 15 agc ggt gct gcc cga gct gcg gag atc gtg ggc ggg cac gag gcg cag 153 Ser Gly Ala Ala Arg Ala Ala Glu Ile Val Gly Gly His Glu Ala Gln 20 25 30 35 cca cac tcc cgg ccc tac atg gcc tcc ctg cag atg cgg ggg aac ccg 201 Pro His Ser Arg Pro Tyr Met Ala Ser Leu Gln Met Arg Gly Asn Pro 40 45 50 ggc agc cac ttc tgc gga ggc acc ttg atc cac ccc agc ttc gtg ctg 249 Gly Ser His Phe Cys Gly Gly Thr Leu Ile His Pro Ser Phe Val Leu 55 60 65 acg gcc ccg cac tgc ctg cgg gac ata ccc cag cgc ctg gtg aac gtg 297 Thr Ala Pro His Cys Leu Arg Asp Ile Pro Gln Arg Leu Val Asn Val 70 75 80 gtg ctc gga gcc cac aac gtg cgg acg cag gag ccc acc cag cag cac 345 Val Leu Gly Ala His Asn Val Arg Thr Gln Glu Pro Thr Gln Gln His 85 90 95 ttc tcg gtg gct cag gtg ttt ctg aac aac tac gac gcg gag aac aaa 3 93 Phe Ser Val Ala Gln Val Phe Leu Asn Asn Tyr Asp Ala Glu Asn Lys 100 105 110 115 ctg aac gac att ctc ctc atc cag ctg agc agc cca gcc aac ctc agt 441 Leu Asn Asp Ile Leu Leu Ile Gln Leu Ser Ser Ala Asn Leu Ser 120 125 130 gcg tcc gtc acc tca gtc cag ctg cca cag cag gac cag cca gtg ccc 489 Ala Ser Val Thr Ser Val Gln Leu Pro Gln Gln Asp Gln Pro Val Pro 135 140 145 cac ggc acc cag tgc ctg gcc atg ggc tgg ggc cgc gtg ggt gcc cac 537 His Gly Thr Gln Cys Leu Ala Met Gly Trp Gly Arg Val Gly Ala His 150 155 160 gac ccc cca gcc cag gtc ctg cag gag ctc aat gtc acc gtg gtg Apro Pro Gln Val Leu Gln Glu Leu Asn Val Thr Val Val Thr 165 170 175 ttc ttc tgc cgg cca cat aac att tgc act ttc gtc cct cgc cgc aag 633 Phe Phe Cys Arg Pro His Asn Ile Cys Thr Phe Val Pro Arg Arg Lys 180 185 190 195 gcc ggc atc tgc ttc gga gac tca ggt ggc ccc ctg atc tgt gat ggc 681 Ala Gly Ile Cys Phe Gly Asp Ser Gly Gly Pro Leu Ile Cys Asp Gly 200 205 210 atc atc caa gga ata gac tcc ttc gtg atc t gt gcc acc cgc 729 Ile Ile Gln Gly Ile Asp Ser Phe Val Ile Trp Gly Cys Ala Thr Arg 215 220 225 ctt ttc cct gac ttc ttc acg cgg gta gcc ctc tac gtg gac tgg atc 777 Leu Phe Pro Asp Phe Phe Thrg Arg Ala Leu Tyr Val Asp Trp Ile 230 235 240 cgt tct acg ctg cgc cgt gtg gag gcc aag ggc cgc ccc tgaaccgccc 826 Arg Ser Thr Leu Arg Arg Val Glu Ala Lys Gly Arg Pro 245 250 255 ctcccacagc gctggccggg accccgagcc tggctccaaa ccctcgaggc ggatctttgg 886 acagaagcag ctcttgt 903 <210> 4 <211> 256 <212> PRT <213> Homo sapiens <400> 4 Met Ala His Arg Pro Pro Ser Pro Ala Leu Ala Ser Val Leu Leu Ala 1 5 10 15 Leu Leu Leu Ser Gly Ala Ala Arg Ala Ala Glu Ile Val Gly Gly His 20 25 30 Glu Ala Gln Pro His Ser Arg Pro Tyr Met Ala Ser Leu Gln Met Arg 35 40 45 Gly Asn Pro Gly Ser His Phe Cys Gly Gly Thr Leu Ile His Pro Ser 50 55 60 Phe Val Leu Thr Ala Pro His Cys Leu Arg Asp Ile Pro Gln Arg Leu 65 70 75 80 Val Asn Val Val Leu Gly Ala His Asn Val Arg Thr Gln Glu Pro Thr 85 90 95 Gln Gln His Phe Ser Val Ala Gln Val Phe Leu Asn Asn Tyr Asp Ala 100 105 110 Glu Asn Lys Leu Asn Asp Ile Leu Leu Ile Gln Leu Ser Ser Pro Ala 115 120 125 Asn Leu Ser Ala Ser Val Thr Ser Val Gln Leu Pro Gln Gln Asp Gln 130 135 140 Pro Val Pro His Gly Thr Gln Cys Leu Ala Met Gly Trp Gly Arg Val 145 150 155 160 Gly Ala His Asp Pro Pro Ala Gln Val Leu Gln Glu Leu Asn Val Thr 165 170 175 Val Val Thr Thr Phe Phe Cys Arg Pro His Asn Ile Cys Thr Phe Val Pro 180 185 190 Arg Arg Lys Ala Gly Ile Cys Phe Gly Asp Ser Gly Gly Pro Leu Ile 195 200 205 Cys Asp Gly Ile Ile Gln Gly Ile Asp Ser Phe Val Ile Trp Gly Cys 210 215 220 Ala Thr Arg Leu Phe Pro Asp Phe Phe Thr Arg Val Ala Leu Tyr Val 225 230 235 240 Asp Trp Ile Arg Ser Thr Leu Arg Arg Val Glu Ala Lys Gly Arg Pro 245 250 255 <210> 5 <211> 14 <212> PRT <213> Homo sapiens < 400> 5 Pro Gln Val Ala Ile Ile Cys Gly Ser Gly Leu Gly Gly Leu 1 5 10 <210> 6 <211> 31 <212> PRT <213> Homo sapiens <400> 6 Gly Val Asp Thr Leu Val Val Thr Asn Ala Ala Gly Gly Leu Asn Pro 1 5 10 15 Lys Phe Glu Val Gly Asp Il e Met Leu Ile Arg Asp His Ile Asn 20 25 30 <210> 7 <211> 42 <212> PRT <213> Homo sapiens <400> 7 Glu Gly Thr Tyr Val Met Val Ala Gly Pro Ser Phe Glu Thr Val Ala 1 5 10 15 Glu Cys Arg Val Leu Gln Lys Leu Gly Ala Asp Ala Val Gly Met Ser 20 25 30 Thr Val Pro Glu Val Ile Val Ala Arg His 35 40 <210> 8 <211> 17 <212> PRT <213> Homo sapiens <400> 8 Cys Gly Gly Thr Leu Ile His Pro Ser Phe Val Leu Thr Ala Ala His 1 5 10 15 Cys <210> 9 <211> 24 <212> PRT <213> Homo sapiens <400> 9 Gly Ile Cys Phe Gly Asp Ser Gly Gly Pro Leu Ile Cys Asp Gly Ile 1 5 10 15 Ile Gln Gly Ile Asp Ser Phe Val 20 <210> 10 <211> 14 <212> PRT <213> Homo sapiens <400> 10 Pro Asp Phe Phe Thr Arg Val Ala Leu Tyr Val Asp Trp Ile 1 5 10

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の方法をコンピュータに実行させるため
のプログラムを説明するフローチャートを示す。
FIG. 1 is a flowchart illustrating a program for causing a computer to execute the method of the present invention.

【図2】本発明のシステムのハードウェア構成を示す。FIG. 2 shows a hardware configuration of the system of the present invention.

【図3】同じグループに属する塩基配列のアライメン
ト、及びアライメント上に見出されるSNP候補塩基の一
例を示す。
FIG. 3 shows an example of an alignment of base sequences belonging to the same group and SNP candidate bases found on the alignment.

【図4】ヌクレオシドホスホリラーゼにおいて検出され
たSNPの位置、及びコーディング領域においてアミノ酸
変化をもたらすSNPを明示したSNPのリストを示す。
FIG. 4 shows the location of SNPs detected in nucleoside phosphorylases and a list of SNPs that define SNPs that result in amino acid changes in the coding region.

【図5】ヌクレオシドホスホリラーゼにおけるアミノ酸
変化をもたらすSNPの位置、及びそのモチーフ配列及び
立体構造との関係、並びに疾患関連情報を示す。
FIG. 5 shows the positions of SNPs that cause amino acid changes in nucleoside phosphorylase, their relation to motif sequences and three-dimensional structures, and disease-related information.

【図6】プロテイナーゼ3におけるアミノ酸変化をもた
らすSNPの位置、及びそのモチーフ配列及び立体構造と
の関係を示す。
FIG. 6 shows the positions of SNPs that cause amino acid changes in proteinase 3, and their relationship with motif sequences and three-dimensional structures.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 斉藤 俊行 千葉県船橋市宮本2−10−1 Fターム(参考) 4B024 AA01 AA11 AA20 CA03 CA04 FA02 HA12 5B075 ND02 NR12 PP02 PP03 PQ02 PQ03 PR06 QM08 UU19  ──────────────────────────────────────────────────続 き Continued on the front page (72) Inventor Toshiyuki Saito 2-10-1 Miyamoto, Funabashi-shi, Chiba F-term (reference) 4B024 AA01 AA11 AA20 CA03 CA04 FA02 HA12 5B075 ND02 NR12 PP02 PP03 PQ02 PQ03 PR06 QM08 UU19

Claims (12)

【特許請求の範囲】[Claims] 【請求項1】 以下の(a)〜(e); (a)複数の塩基配列を配列類似性によってグループ化
する段階、(b)同じグループに属する配列のアライメ
ントを作製する段階、(c)アライメントからSNP(一
塩基多型)候補の塩基を選択する段階、(d)上記選択
されたSNP候補から、タンパク質コーディング領域上に
あるSNPであって、かつアミノ酸の変異をもたらすSNPを
選択する段階、及び(e)選択されたSNPとモチーフ配
列との位置関係及び/又は立体構造との関係を確認する
段階、を含む、遺伝子における疾患関連SNPの検出方
法。
1. The following (a) to (e): (a) a step of grouping a plurality of base sequences by sequence similarity, (b) a step of preparing an alignment of sequences belonging to the same group, (c) Selecting a base of a candidate SNP (single nucleotide polymorphism) from the alignment, (d) selecting an SNP that is an SNP on the protein coding region and causes an amino acid mutation from the selected SNP candidate And (e) confirming the positional relationship between the selected SNP and the motif sequence and / or the relationship with the three-dimensional structure.
【請求項2】 以下の(a)〜(e); (a)複数の塩基配列を配列類似性によってグループ化
する段階、(b)同じグループに属する配列のアライメ
ントを作製する段階、(c)アライメントからタンパク
質コーディング領域上にあるSNP候補の塩基を選択する
段階、(d)上記選択されたSNP候補から、アミノ酸の
変異をもたらすSNPを選択する段階、及び(e)選択さ
れたSNPとモチーフ配列との位置関係及び/又は立体構
造との関係を確認する段階、を含む、遺伝子における疾
患関連SNPの検出方法。
2. The following (a) to (e): (a) a step of grouping a plurality of base sequences by sequence similarity, (b) a step of preparing an alignment of sequences belonging to the same group, and (c) Selecting the bases of the SNP candidates on the protein coding region from the alignment, (d) selecting the SNP that causes an amino acid mutation from the selected SNP candidates, and (e) selecting the SNP and the motif sequence Confirming the positional relationship with and / or the three-dimensional structure.
【請求項3】 上記複数の塩基配列がゲノムDNA、cDNA
及び/又はESTデータベースから得られたものである、
請求項1又は2に記載の方法。
3. The method according to claim 1, wherein the plurality of base sequences are genomic DNA or cDNA.
And / or obtained from the EST database,
The method according to claim 1.
【請求項4】 上記段階(a)に先立って目的の遺伝子
を特定する、請求項1又は2に記載の方法。
4. The method according to claim 1, wherein a gene of interest is specified prior to the step (a).
【請求項5】 請求項1から4のいずれか1項に記載の
方法によって同一の遺伝子に含まれる複数のSNPを検出
し、疾患との関連性における順位を予測する方法。
5. A method for detecting a plurality of SNPs contained in the same gene by the method according to any one of claims 1 to 4, and predicting a rank in relation to a disease.
【請求項6】 以下の(a)〜(e); (a)複数の塩基配列を配列類似性によってグループ化
する段階、(b)同じグループに属する配列のアライメ
ントを作製する段階、(c)アライメントからSNP候補
の塩基を選択する段階、(d)上記選択されたSNP候補
から、タンパク質コーディング領域上にあるSNPであっ
て、かつアミノ酸の変異をもたらすSNPを選択する段
階、及び(e)選択されたSNPとモチーフ配列との位置
関係及び/又は立体構造との関係を確認する段階、を含
む遺伝子における疾患関連SNPの検出方法をコンピュー
タに実行させるためのプログラムを記録したコンピュー
タ読み取り可能な記録媒体。
6. The following (a) to (e): (a) grouping a plurality of base sequences by sequence similarity, (b) preparing an alignment of sequences belonging to the same group, (c) Selecting the bases of the SNP candidates from the alignment, (d) selecting, from the selected SNP candidates, an SNP that is on the protein coding region and that causes an amino acid mutation, and (e) selecting Confirming the positional relationship between the obtained SNP and the motif sequence and / or the relationship with the three-dimensional structure. A computer-readable recording medium recording a program for causing a computer to execute a method for detecting a disease-related SNP in a gene. .
【請求項7】 以下の(a)〜(e); (a)複数の塩基配列を配列類似性によってグループ化
する段階、(b)同じグループに属する配列のアライメ
ントを作製する段階、(c)アライメントからタンパク
質コーディング領域上にあるSNP候補の塩基を選択する
段階、(d)上記選択されたSNP候補から、アミノ酸の
変異をもたらすSNPを選択する段階、及び(e)選択さ
れたSNPとモチーフ配列との位置関係及び/又は立体構
造との関係を確認する段階、を含む遺伝子における疾患
関連SNPの検出方法をコンピュータに実行させるための
プログラムを記録したコンピュータ読み取り可能な記録
媒体。
7. The following (a) to (e): (a) a step of grouping a plurality of base sequences by sequence similarity, (b) a step of preparing an alignment of sequences belonging to the same group, and (c) Selecting the bases of the SNP candidates on the protein coding region from the alignment, (d) selecting the SNP that causes an amino acid mutation from the selected SNP candidates, and (e) selecting the SNP and the motif sequence A computer-readable recording medium storing a program for causing a computer to execute a method for detecting a disease-related SNP in a gene, the method including a step of confirming a positional relationship between the gene and a three-dimensional structure.
【請求項8】 上記段階(a)がゲノムDNA、cDNA及び
/又はESTデータベースから得られた複数の塩基配列を
グループ化するものである、請求項6又は7に記載の記
録媒体。
8. The recording medium according to claim 6, wherein the step (a) groups a plurality of base sequences obtained from a genomic DNA, cDNA and / or EST database.
【請求項9】 以下の(a)〜(e); (a)複数の塩基配列を配列類似性によってグループ化
する手段、(b)同じグループに属する配列のアライメ
ントを作製する手段、(c)アライメントからSNP候補
の塩基を選択する手段、(d)上記選択されたSNP候補
から、タンパク質コーディング領域上にあるSNPであっ
て、かつアミノ酸の変異をもたらすSNPを選択する手
段、及び(e)選択されたSNPとモチーフ配列との位置
関係及び/又は立体構造との関係を確認する手段、を備
えた、遺伝子における疾患関連SNPの検出システム。
9. The following (a) to (e): (a) means for grouping a plurality of base sequences by sequence similarity, (b) means for preparing an alignment of sequences belonging to the same group, (c) Means for selecting SNP candidate bases from the alignment, (d) means for selecting, from the selected SNP candidates, SNPs which are on the protein coding region and which cause amino acid mutation, and (e) selection Means for confirming the positional relationship between the identified SNP and the motif sequence and / or the relationship with the three-dimensional structure.
【請求項10】 以下の(a)〜(e); (a)複数の塩基配列を配列類似性によってグループ化
する手段、(b)同じグループに属する配列のアライメ
ントを作製する手段、(c)アライメントからタンパク
質コーディング領域上にあるSNP候補の塩基を選択する
手段、(d)上記選択されたSNP候補から、アミノ酸の
変異をもたらすSNPを選択する手段、及び(e)選択さ
れたSNPとモチーフ配列との位置関係及び/又は立体構
造との関係を確認する手段、を備えた、遺伝子における
疾患関連SNPの検出システム。
10. The following (a) to (e): (a) means for grouping a plurality of base sequences by sequence similarity, (b) means for preparing an alignment of sequences belonging to the same group, (c) A means for selecting a candidate SNP base on the protein coding region from the alignment, (d) a means for selecting an SNP causing an amino acid mutation from the selected SNP candidates, and (e) a selected SNP and a motif sequence And a means for confirming the positional relationship with and / or the three-dimensional structure.
【請求項11】 上記手段(a)がゲノムDNA、cDNA及
び/又はESTデータベースから得られた複数の塩基配列
をグループ化する手段である、請求項9又は10に記載
のシステム。
11. The system according to claim 9, wherein the means (a) is a means for grouping a plurality of base sequences obtained from a genomic DNA, a cDNA, and / or an EST database.
【請求項12】 更に目的の遺伝子を特定する手段を備
えた、請求項9又は10に記載のシステム。
12. The system according to claim 9, further comprising means for specifying a target gene.
JP2000246469A 2000-08-15 2000-08-15 Method for detecting disease-related snp Pending JP2002063175A (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2000246469A JP2002063175A (en) 2000-08-15 2000-08-15 Method for detecting disease-related snp
AU2001277709A AU2001277709A1 (en) 2000-08-15 2001-08-07 Method of detecting disease-associated snp
PCT/JP2001/006764 WO2002015048A1 (en) 2000-08-15 2001-08-07 Method of detecting disease-associated snp

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000246469A JP2002063175A (en) 2000-08-15 2000-08-15 Method for detecting disease-related snp

Publications (1)

Publication Number Publication Date
JP2002063175A true JP2002063175A (en) 2002-02-28

Family

ID=18736776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000246469A Pending JP2002063175A (en) 2000-08-15 2000-08-15 Method for detecting disease-related snp

Country Status (3)

Country Link
JP (1) JP2002063175A (en)
AU (1) AU2001277709A1 (en)
WO (1) WO2002015048A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017146238A (en) * 2016-02-18 2017-08-24 株式会社東芝 Biomarker search device, method for searching biomarker and program

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021992A (en) * 2015-03-27 2016-10-12 知源生信公司(美国硅谷) Computation pipeline of location-dependent variant calls
CN109961825B (en) * 2019-03-29 2022-12-02 郑州大学 Protein structure local three-dimensional modeling method based on gene SNP site mutation
CN115691662B (en) * 2022-11-08 2023-06-23 温州谱希医学检验实验室有限公司 Method and system for sequencing myopia/high myopia-related SNP risks based on allosteric probability

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017146238A (en) * 2016-02-18 2017-08-24 株式会社東芝 Biomarker search device, method for searching biomarker and program

Also Published As

Publication number Publication date
WO2002015048A1 (en) 2002-02-21
AU2001277709A1 (en) 2002-02-25

Similar Documents

Publication Publication Date Title
Abel et al. Susceptibility to leprosy is linked to the human NRAMP1 gene
Lai et al. The SPCH1 region on human 7q31: genomic characterization of the critical interval and localization of translocations associated with speech and language disorder
Hattori et al. Polymorphisms at the G72/G30 gene locus, on 13q33, are associated with bipolar disorder in two independent pedigree series
Liang et al. A more universal approach to comprehensive analysis of thalassemia alleles (CATSA)
Wang et al. Comprehensive molecular diagnosis of a large Chinese Leber congenital amaurosis cohort
Rope et al. Using VAAST to identify an X-linked disorder resulting in lethality in male infants due to N-terminal acetyltransferase deficiency
Bell et al. Genome-wide linkage analysis for severe obesity in french caucasians finds significant susceptibility locus on chromosome 19q
Mandal et al. Sequencing arrays for screening multiple genes associated with early-onset human retinal degenerations on a high-throughput platform
Gregianin et al. A novel SACS mutation results in non‐ataxic spastic paraplegia and peripheral neuropathy
US7799523B2 (en) Association of polymorphisms in the SOST gene region with bone mineral density
Yang et al. Intronic single nucleotide polymorphisms of engrailed homeobox 2 modulate the disease vulnerability of autism in a han chinese population
Meyer et al. Targeted next generation sequencing approach in patients referred for Silver-Russell syndrome testing increases the mutation detection rate and provides decisive information for clinical management
Shaw et al. EXOME REPORT: Novel mutation in ATP6V1B2 segregating with autosomal dominant epilepsy, intellectual disability and mild gingival and nail abnormalities
Pauli et al. Mutation analysis in a German family identified a new cataract-causing allele in the CRYBB2 gene
Danciger et al. CORD9 a new locus for arCRD: mapping to 8p11, estimation of frequency, evaluation of a candidate gene
JP2002063175A (en) Method for detecting disease-related snp
EP3277836B1 (en) Method of treatment using genetic predictors of a response to treatment with ssr-125543
US20010049586A1 (en) Iterative analysis of non-responding population in the design of pharmacogenetic studies
Mutai et al. Whole exome analysis of patients in Japan with hearing loss reveals high heterogeneity among responsible and novel candidate genes
Tukel et al. A new syndrome, congenital extraocular muscle fibrosis with ulnar hand anomalies, maps to chromosome 21qter
Uziębło-Życzkowska et al. Genetic diversity of SCN5A gene and its possible association with the concealed form of Brugada syndrome development in Polish group of patients
KR102565803B1 (en) Method for providing information for hypertension and kits using the same
Mocci et al. Microsatellites and SNPs linkage analysis in a Sardinian genetic isolate confirms several essential hypertension loci previously identified in different populations
CN110184339B (en) Wolfram syndrome I type new mutation site and application thereof
Cui The role of short tandem repeat genetic variation in myopia and other ocular traits