JP2005190427A - 配列を同定するための変異要素のセット抽出方法 - Google Patents

配列を同定するための変異要素のセット抽出方法 Download PDF

Info

Publication number
JP2005190427A
JP2005190427A JP2003434554A JP2003434554A JP2005190427A JP 2005190427 A JP2005190427 A JP 2005190427A JP 2003434554 A JP2003434554 A JP 2003434554A JP 2003434554 A JP2003434554 A JP 2003434554A JP 2005190427 A JP2005190427 A JP 2005190427A
Authority
JP
Japan
Prior art keywords
elements
calculation
information
sequence
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003434554A
Other languages
English (en)
Other versions
JP2005190427A5 (ja
Inventor
Mamoru Tsukada
護 塚田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003434554A priority Critical patent/JP2005190427A/ja
Priority to US11/015,003 priority patent/US8041512B2/en
Publication of JP2005190427A publication Critical patent/JP2005190427A/ja
Publication of JP2005190427A5 publication Critical patent/JP2005190427A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Abstract

【課題】 同定のための識別要素のセットの候補を、正確且つ効率的に取得する方法を提供する。
【解決手段】 複数の配列データにおいて特定配列を識別可能な要素(配列部位)に関する情報を取得するための情報処理方法であって、類似の配列を持つ共通領域においてアライメントされたデータを取得するステップと、前記アライメントされたデータそれぞれに同一の演算を行い、該演算結果に基づいて識別可能な要素の候補を取得するステップと、を有することを特徴とする情報処理方法。
【選択図】 図1

Description

本発明は複数の配列情報の中から、特定の配列を特徴づけている要素(例えば特定箇所の文字や記号)を取得する情報処理方法に関するものであり、好適には塩基配列やアミノ酸配列などの配列情報を処理する技術に関する。
近年SNPs、多型解析等、異なる核酸配列をハイブリダイゼーションやPCR等の方法によって識別、同定したいというニーズがある。そのためにはまず識別、同定するための要素を抽出し、その要素を含んだプローブ(またはプライマー)を選定しなければならない。
従来こうした場合、例えばまったく違う種類のたんぱく質であるところのアミノ酸配列や塩基配列を比較したいなどといった場合には、核酸配列やアミノ酸配列の数が増えようともさほど問題とはならなかった。つまり個々の配列はお互いを十分に識別するだけの違いを保有していたからである。したがってこれらは一般的なアライメントツールやblastツールを使用することで、手作業でプローブ選定を遂行できた。しかし異種生物間で同じたんぱく質の識別をしたいとか、菌体の属、種、株の識別、人ではHLA領域の多型など、似たもの同士をうまく識別しようとした場合、こうしたツールを使ったとしても作業は次第に鬱陶しく、煩雑なものとなる。
さらに対象となる複数の配列が非常に似た配列同士の場合、たいてい一箇所の変異のみでその配列を同定することは不可能で、アライメント位置の異なる、数箇所にわたる変異のセットをうまく抽出して初めてその配列の同定が可能となることが多い。
しかも対象となる配列が格納されたデータベースにおけるデータ量は年々増大しつつ、従来の方法では上記の変異セットの抽出はますます困難になってきた。
また、たとえば特許文献1のように、既知の生体高分子の塩基配列を、生体高分子の種類によらず同一の配列をとる共通領域と変異を含む変異領域とに分け、決定された共通領域と変異領域に対して別々に補助プローブを設計するアルゴリズムは公開されているが、該プローブ設計のアルゴリズムは、未知の遺伝子(またはDNA断片)を捕獲するための複数の補助プローブを設計するものであり、類似の配列を全て識別しうるプローブセットをできる限り少数の変異箇所の同定によって抽出するものではなかった。
特開2003−038160号公報
本発明は、この様な背景技術に鑑みてなされたものであり、同定のための識別要素のセットの候補を正確かつ効率的に取得する方法を提供する。
すなわち、本発明に係る情報処理方法は、複数の配列データにおいて特定配列を識別可能な要素(配列部位)に関する情報を取得するための情報処理方法であって、
類似の配列を持つ共通領域においてアライメントされたデータを取得するステップと、
前記アライメントされたデータそれぞれに同一の演算を行い、該演算結果に基づいて識別可能な要素の候補を取得するステップと、
を有することを特徴とする。
また、前記演算が、アライメント位置におけるそれぞれの配列情報の要素が同じである場合に、該要素を排除する演算であるとよい。
また、前記演算が、前記排除する演算処理がなされた後に、排除されなかった要素をもつアライメント位置の要素同士をさらに演算するものであるとよい。
また、前記演算が、少なくとも一つ以上の他の配列データとは異なる要素を有するアライメント位置のそれぞれの要素と、選択された要素とを対比し、同じまたは異なる要素を排除する演算と、前記排除する演算により取得された第一のアライメント位置のそれぞれの配列要素と、前記演算により取得された第二のアライメント位置のそれぞれの配列要素と、をさらに対比する演算であるとよい。
また、前記演算が、前記アライメントされた個々の配列情報(bm)を行の情報として配置し、前記アライメント位置情報をn列の情報として配置した行列の集合情報Pとして保持し、該行列における任意に選ばれた二つの列の同一行の要素に対して行われる演算であるとよい。
また上記の方法を用いて導き出される変異要素を少なくとも1つ以上含むプローブまたはプローブセット、方法を実現するためのコンピュータに実行させるための制御プログラム、上記方法をコンピュータに実行させるための制御プログラムを格納した記憶媒体、をも本発明は包含する。
本発明によって、類似する複数の配列における特異部分の取得を例えばコンピューター処理により行なうことが可能となるため、従来は不可能であった多数の類似した配列から特定の配列を同定するための識別要素のセットを正確且つ効率的に抽出することができる。
さらにアライメント処理がなされた複数の配列データに対して演算処理が行なわれるために、同一要素の部位の排除処理が容易であり、処理にかかる時間を短縮することが可能となる。
また、得られた候補の評価を更に行なうことで、より少ない数のセットの抽出や、より正確な同定を可能とするプローブの選定を容易に行なうことが可能となる。
以下、本発明を詳細に説明する。
本発明に係る変異要素のセット抽出方法の1実施形態として、以下のステップを有する。
(1)共通領域においてアライメントされたデータを取得するステップ。
(2)前記アライメントされたデータに所定の演算を行い、該演算結果に基づいて識別可能な要素の候補を取得するステップ。
本発明において、共通領域においてアライメントされたデータとは、後述のアライメント処理を行なった上で得られるデータに基づいて取得されるものである。共通領域とは、対象となる複数配列の所定の領域において、たとえば塩基配列において一般的に用いられる共通領域のような、同じまたは非常に似た配列(相同性の高い配列)を有する領域であるが、異なる部位(要素)をそれぞれが互いに含む領域であることが好ましい。
図2は本発明の一実施形態にかかる情報処理方法(識別可能な要素を抽出する抽出方法)を実現するための情報処理装置の構成を示すブロック図である。
本発明に係る抽出方法は、外部記憶装置9、中央処理装置(CPU)10、メモリ11、入出力装置12から構成される装置において実現される。外部記憶装置9は、本実施形態にかかる抽出方法を実現するプログラムや、配列データを保持する。また、本実施形態によって導かれた抽出結果を保持する機能を持つ。中央処理装置(CPU)10は本発明の抽出方法のプログラムを実行したり、すべての装置の制御を行ったりする。メモリ11は中央処理装置(CPU)10で処理されるプログラム、及びサブルーチンやデータを一時的に記録する。入出力装置12は、ユーザとのインタラクションを行う。また、プログラムの実行トリガーは入出力装置12を介してユーザが入力する。さらに、ユーザは入出力装置12を介して判定結果を見たり、プログラムのパラメータを設定したりすることができる。
上記のシステムを用いて、配列が塩基配列であった場合について、識別可能な要素を抽出する方法を具体例を挙げて説明する。
(1)共通領域においてアライメントされたデータを取得するステップ。
まず、共通領域においてアライメントされたデータを取得する。対象となる複数の配列データに対してそれぞれアライメント処理を行い、共通領域においてアライメント処理がされた配列情報データを取得する。この共通領域は、予め範囲を指定しても良いし、アライメント処理が行なわれた後で、共通領域部分のデータのみを抽出してもよい。
塩基配列のアライメント方法に関しては、すでに公知の技術をそのまま使うことができる。「Elizabeth C.Tyler,Martha R.Horton,and Philip R.Krause 1991.AReview of Algorithms for Molecular Sequence Compalison.COMPUTERS AND BIOMEDICAL RESEARCH 24:72−96」などの文献を参照して自作しても良いし、DNASIS(日立ソフト(株))や、遺伝子解析ソフトGENETYX(ソフトウエア開発(株))などの市販ソフト、ロックフェラー大学のサイトhttp://cs.rockefeller.edu/index.php?page=toolkit−alignにはウェブ上で実行可能なマルチプルアライメントのツールAMAS、BoxShadeなど、いくつかまとめて紹介されているので、本発明でこれらを使用することができる。
また、更に最初に識別しようとする複数の塩基配列を選び出すステップを該アライメントするステップの前に設けても良い。
選びだされた複数の配列に対して上記手段でアライメントすることで、その共通領域は次のように行列を使って表現することが可能となる。
Figure 2005190427
また、この共通領域の範囲は、任意に設定してよい。
(行列の定義方法)
ここでPは、ある任意の塩基配列mをもった文字列の行ベクトルbをたとえば
=(A,T,T,T,C,G,G,T,A,A,……)
のように定義するとき、行m=1,2,3…はそれぞれの塩基配列に対応し、
{P∈b,b,b,……}
このとき定まるアライメント位置iにおける列ベクトルb(列i=1,2,3…)も同じく
{P∈b,b,b,……}
である。なおここでは個々の配列情報を行、アライメント位置情報を列として定義したが、行と列を入れ替えて、以降すべての取り扱いを逆にしても差し支えない。
(要素の抽出方法)
今アライメントされた配列数が4つである場合について、本発明の具体例を示す。次のように、いずれの行から見ても、その行の要素と異なる要素が少なくとも1つ以上、同一列内に含まれるところをわかりやすく□で囲んだ。
Figure 2005190427
それ以外のところは見てのとおり、もともと変異要素が存在しないため、所定の演算を行っても何も変わらない。したがってこの後の演算はこの□で囲んだところを対象に行えば良く、演算処理を簡略化することができる。
次に、抽出された□の列のみに対して、演算処理を行なう。
所定の演算として例えば、b行の配列を演算対象の配列として選び、アライメント位置22の列ベクトルから左方向に順に、定義した演算にしたがって演算結果を得ていくものであると良い。
(より具体的な演算方法)
上記に示した演算方法をより具体的に説明する。本実施形態においては、「異なる要素を識別排除する処理」を行なう。
「異なる要素を識別排除する処理」とは、例えば対象とするアライメント位置において、比較する配列をb行の要素とし、他のb、b、b行の配列を識別排除する処理であり、
Figure 2005190427
とするものである。ここでは排除された要素を記号−を用いて表してある。記号は本来何でも構わない。ここでは、b行の要素(1ではG、2ではA、3ではC)と異なるものは、この演算で識別される。
上記の演算により得られた列ベクトルに対して、他の異なる列ベクトルと演算処理することで、さらに「異なる要素を」を排除していく。
この場合の演算結果は、排除されないのは二つの列ベクトルのb行が、いずれも排除に相当しない(両方とも−でない)ときのみで、
この演算を記号@を使って表すと、
Figure 2005190427
となる。
右辺の演算結果は、4、5式いずれも要素が存続しているか否かを表しているもので、この例では左辺第二項の要素で置き換えて表示しているが、本来どのような記号であってもかまわない。
さて、b行の条件を満たした列ベクトル、列22、列14、列3を逐次選択し、4から5の演算@を順次行った結果、演算結果の要素はただ1つの要素のみが残ることを示す最小値1に達することができた。
この1という値は、同定のための変異要素のセットの抽出に成功した、つまり自ら(b)と同じ配列は存在せずP内のどの配列とも分離同定可能であること意味する。また候補数は演算開始の初期値から最小値に達するまでの間、2(1の処理結果)→2(4の処理結果)→1(5の処理結果)と変化し、候補の数を減少させることのできた列は、初期値を含めると列22と列3であるため、変異要素のセットは列22のGと列3のC、すなわち以下の下線で示されたところとなる。
1−set=(TACTGGACAGATACTTCCATAC)
次に同様に、b行の配列に基づいて識別排除する処理を行なう。
同様に演算@を行うと、
Figure 2005190427
となって最小値が1とならず、2に終わる。そこで要素の存続した行を集め、お互いを比較すると、
2−set=(TACCTGGACAGATCCTTCCATAC)
3−set=(TACCTGGACAGATCCTTCCATAC)
選ばれたこのb、bの領域にはもともとお互いを識別できる要素がなかったことが判定できる。お互いを比較するする方法は、プログラミング言語上では文字列比較関数や、1文字ごとの論理比較を行えばよい。尚演算によって初期値として選択された列22のは少なくともb、bと識別可能なことを示しており、無駄とはならない。
さらに、b行についても同様に演算@を行うと以下のようになり、
Figure 2005190427
Figure 2005190427
ここでもしも一番左にある識別排除されていない列を開始行として、順次右方向にある識別排除されていない列に対して演算を行っていくことにより得られる結果は、
4−set=(TACTGGACAGATACTTCCATGAC)…11
となり、より少ない要素数で変異要素のセットを表現できる。
ちなみに
Figure 2005190427
であるから、右方向に演算を行ったものでも、お互いを識別することは可能である。
即ち演算(及び評価)の実施形態は左右の方向問わない。また隣同士順番に行わなくても、端から行わなくても良い。たとえば一回の演算結果の候補数が、たえず最小であるように選択しながら最小値に達するよう、アルゴリズムを工夫しても良い。
もう少し簡単に、たとえば初期値のみ候補数が最小となるよう、列ベクトルを選んでおき、あとは単純に右または左方向から列ベクトルの演算を行うように工夫しても構わない。
こうした工夫の特徴はなるべく少ない変異要素のセットで、その配列を特徴づけることができる点にある。この点は、DNAチップ用のプローブとして用いる場合、配置プローブ数をなるべく少なくすることができるために好ましい。
逆にこのような工夫をしない特徴は、変異要素のセットがやや多くの要素で表現されるために、
iアッセイのさまざまな条件に対して、やや丈夫であるということ、
ii順番に演算を行えばなるべく狭い範囲に変異要素のセットを探せるかもしれないこと、
iiiアッセイが定量PCR法であれば、3’→5’方向の演算(例では左方向)とすれば5’上流に多くの変異要素を抱えることになりやすいこと(プログラムコーディング上においても有利)などが上げられ、必要に応じて設定することが好ましい。
ゲノムから調整されるサンプルは膨大な似通った配列を多く含み、こうした観点に立つと、両者は一長一短で、本発明の実施形態上、いずれの方法をとっても良い。
(他の演算処理の実施形態)
また「異なる要素を識別排除する処理」とは、次のような形態も可能である。いま行列Pにb行を加え、b行に対して識別排除すると、
Figure 2005190427
いまb行を除いた、Pの小行列に注目する。演算@は、b、b、bについては先ほどと結果が同じなので、bの存続した要素について実施する。
Figure 2005190427
両者は異なるので、b同定のための変異要素のセットは存在し、それは列22のGであることがわかる。先ほど10、11の結果では列22のGはあってもなくてもよく、列3のGが必須の同定要素であった。しかし今回は列22のGが必須の同定要素であることになる。その背景には新しく追加されたbが、列3にGを持っているからである。
したがって、このような「異なる要素を識別排除する処理」であっても本発明は成り立つことがわかる。
このとき追加したbについては変異要素のセットは抽出できないわけではなく、演算@を使ってまったく同様に抽出できる。「異なる要素を識別排除する処理」、すなわち−記号識別とは、単なる論理上の命題に発生する表と裏の問題だからである。したがって行列Pを次のように書き直すことができ、
Figure 2005190427
演算@を実行すればよい。この場合演算を実行するまでもなく、列2、列14、列16、のT、G、Aはいずれも独立にb同定のための変異要素のセットである。
(演算方法の他の形態)
さて、これまでの説明は配列として最も単純なA、C、T、Gの4つの表記をもつ塩基配列について述べてきた。本発明はこれに限らず、単なる文字の羅列であっても抽出が可能である。たとえば行列Pに、よくあるように塩基の欠失を表す記号として、*を一つ加えても適用可能である。(下記参照)
Figure 2005190427
であることは明らかである。
また、記号を一つ追加するにしても、たとえば全く意味のない記号を加えてもよい。下記Pにおいて、記号|はexon境界を表す。このとき記号|はどの行においても異なる要素とならないので、演算上全く意味を持たないが、ゲノム検体の場合exon境界をまたがる配列をプローブに選択することは不可能であるため、プローブ設計ソフトウエアにとっては有意な情報を提供してくれる。
Figure 2005190427
つまり本発明で定義するところの演算は、記号の種類や数に左右されることなく、さらに記号を増やして20個の記号で表現されるアミノ酸一文字表記であっても、また塩基配列のIUB(国際生化学連合)表記であっても全く問題ない。
(演算結果の評価)
本発明においては、取得した識別要素に対して、評価を行なう工程を更に有するとよい。
得られた識別要素からたとえばハイブリダイゼーションのプローブを選定するのであれば、欠失部分を中央部分においた、欠失記号を取り除いた配列をプローブに設定すれば、Tm値が他とは大きく異なるプローブが得られる。
実際このように抽出された、同定のための変異要素のセットは、DNAマイクロアレイ上でのハイブリダイゼーションや、定量PCR法のプローブ選定にとって必要な情報となる。ハイブリダイゼーションの場合、上記同定のための変異要素がほぼプローブの中心部にくるように20塩基前後(1塩基ミスマッチ検出の場合)の配列を切り出したほうが、フルマッチとミスマッチのTm値に大きな差がつきやすく、反応温度をうまく両者の境界に設けることによって、分離、同定がなされやすい。定量PCR法の場合、耐熱性ポリメラーゼが鎖を伸長しないよう、3‘末端側に上記同定のための変異要素がくるよう20塩基前後の配列を切り出したほうが分離、同定がなされやすい。
両方法ともミスマッチをなるべく数多くプローブ内に抱えたほうが、分離同定がなされやすいプローブとなることは言うまでもない。
すなわち、変異要素のセットを求めるにあたって、プローブ内に含まれるミスマッチの個数を規制したり、アミノ酸レベルの変異があることをプローブ候補(または変異要素のセット)の条件としたり、することによって、本発明で定義するところの「所定の評価」で可能である。
本実施形態においては、演算によって存続した(排除されなかった)要素を抽出し、その複数の要素を候補において、その候補数を減少させることを目指して逐次他の列を選択し、演算を行っている。
このときの演算は、前回の演算結果と次選択の列ベクトルを演算する、という具合に、いわば論理的な積のみで候補数を減少させることができる。
(演算結果の評価の他の実施形態)
本実施形態においては、さらに効率的に候補数を減少させるための評価ステップとして、部分的和を考慮して評価をおこなっている。
以下の例は列16から18にかけて、GAT(Asp)がAGC(Ser)に変異している。また見やすいように各行ベクトルをコドン単位でまとめて表記した。
Figure 2005190427
アミノ酸レベルの変異を評価条件にしたいのであれば、この場合アミノ酸1文字コードでベクトルを表示しなおして演算を行えば、変異要素のセットは求まる(ただし例ではb、b、bは識別できない。列9の1塩基変異はアミノ酸が変わるまでには至らない)。
また今までの論理的な積(前回の演算結果に対して次選択の列ベクトルを演算するという過程)のみでは、右から左方向に順次計算するとb、b、bでは列18の要素が選択され、列17、列16では候補数を減少させることができないため、候補には残らない。しかし論理的な和(前回の演算結果に対して次選択の列ベクトルを演算しない、列と列はそれぞれ独立に演算するという過程)を考慮すると、bでは、
Figure 2005190427
列16、列17、列18の演算結果はいずれも等価(残った要素数およびその行位置が同じ)であることがわかる。
この例の場合、「隣合う列の演算結果が三回連続して等価であれば、候補として残す」という評価条件を与えれば、アミノ酸レベルの変異を抽出できることになる。
また同様に「連続する20mer以内に二つの変異を含むこと」を評価条件に与えれば、たとえばbでは
3−set=(GAG CTG GG CGG CCT GC GCC GAG TAC TGG)(右方向へ演算)
となるであろうし、分離同定のためのプローブとして、より優れたものとなるよう、評価条件を設定してなんら問題ない。もしも評価条件によって、最終的に要素数が1にならなくとも、条件を順次緩和して、要素数が1に到達するよう、再帰的アルゴリズムを用意すればよい。
また本発明の18のような形態は、実際にハイブリダイゼーションが行われる検体が、複数の似通った配列の混合物である場合、検体によるアッセイ結果の違いをシミュレートするのに都合がよい。
たとえば実際の例として、人のMHC領域のDRB抗原を分離同定するDNAマイクロアレイを設計して、実検体を用いてのハイブリダイゼーションによって、その設計したアレイのプローブ一つ一つに問題がなかったかどうかを確認する作業は、並大抵でない。現在DRBアレルの数は400種類近く報告され、検体は父方と母方のDNAの混合物として存在する。
しかも運悪い場合、PCR後のサンプルで、たとえばDRB1とDRB3を含む4種類の混合物となることもある。仮に100アレルの2種類の混合物として、100=4950通りとなり、すべての検体において性能はどうかということを、とても実検体では評価しきれない。
しかし18のような形態は、変異要素のセットの表現が
1−set=(−AC−−−−−−−−−−A−T−−−−−G−−)
となるため、自動的に貴重な情報を付加してくれる。たとえば定量PCR用のプローブとして末端にミスマッチを含むものを、Tmが53℃を超えないように選んだとする。bの配列を参照して比較を行い、−記号を塩基に置き換える際に、小文字を使用すると、
Figure 2005190427
ここで、b1−prob内の大文字のAおよびTは、bから見てミスマッチであるものの、変異を識別する要素のセットとはならなかったものである。しかしb1−probプローブ自体には合計3つのミスマッチを含み、1つのミスマッチであった場合に比べると、それほど悪いプローブではないことが読み取れる。さらにbを変更して、検体中に考えられる例えば4種類のアレルについて、同様の検討をしてみる。さらに考え得る種々の検体で、どの検体のとき、どのプローブに起因して、どのアレルの分離同定が難しいか、演算結果を参照して容易に検討することができる。
(実現例)
上述の方法を具体的に実現するシステムについて更に詳細に説明する。図1のフローは本発明の1実施形態を表すもので、インターネット1を介して(またはもともと存在して)遺伝子情報配列のデータベースがネットワークドライブ2上にある。
複数の配列の選択がキーボード3を操作するオペレーターによって行われる。
選択された複数の配列に対して、アライメント処理ルーチン4によってアライメントが行われる。アライメント後、同定のための変異要素セットを探す範囲(アライメント後の共通領域)が、オペレーターのキーボード3入力情報に基づいて行われ、演算ルーチン5によって演算がなされる。このとき演算の評価条件6(同様にオペレーターから与えても、予めプログラムされていてもよい。)に基づいて評価され、所定の結果(最小値)に到達するまで演算が試行される。試行によって存続した要素(評価条件をパスした)について、同じくオペレーターのキーボード3入力情報に基づき、プローブ抽出ルーチン7によってプローブが決定され、決定されたプローブ情報が出力8される。
次に具体的に、人のMHCのDRBにおけるアレルの分離、同定のための変異要素のセットおよびそのプローブセットを抽出する例を挙げる。データベースから選ばれたアレル群は日本人によく見られる認定済みのアレルでその集合をPとすると、
Figure 2005190427
なお、この処理方法の実行条件として、
i 同定のための変異要素セットを探す範囲をexon2の113から345までとする。
ii 3’末端に変異要素をもつプローブとする。
iii iiのプローブはTmが55℃を超えないものとする。
iv DRB1*010101に対する変異を大文字で表す。
とした。次に出力結果を示す。
(出力結果)
Figure 2005190427
Figure 2005190427
Figure 2005190427
Figure 2005190427
Figure 2005190427
(他の実施形態)
なお、本発明は、複数の機器(例えばホストコンピュータ、インタフェイス機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク,ハードディスク,光ディスク,光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明の方法は、配列を同定するための変異要素のセットを効率的に抽出することができるので、人為的なミスがなく、膨大な配列種から特定の要素を抽出することができる。
この結果、DNA分析や診断に使用するDNAプローブの選択に利用することができる。
本発明の1実施形態を表すフロー図である。 本発明の一実施形態にかかる情報処理方法(識別可能な要素を抽出する抽出方法)を実現するための情報処理装置の構成を示すブロック図である。
符号の説明
1 インターネット
2 ネットワークドライブ
3 キーボード
4 アライメント処理ルーチン
5 演算ルーチン
6 演算の評価条件
7 プローブ抽出ルーチン
8 出力
9 外部記憶装置
10 中央処理装置(CPU)
11 メモリ
12 入出力装置

Claims (9)

  1. 複数の配列データにおいて特定配列を識別可能な要素(配列部位)に関する情報を取得するための情報処理方法であって、
    類似の配列を持つ共通領域においてアライメントされたデータを取得するステップと、
    前記アライメントされたデータそれぞれに同一の演算を行い、該演算結果に基づいて識別可能な要素の候補を取得するステップと、
    を有することを特徴とする情報処理方法。
  2. 前記演算が、アライメント位置におけるそれぞれの配列情報の要素が同じである場合に、該要素を排除する演算である請求項1に記載の情報処理方法。
  3. 前記演算が、前記排除する演算処理がなされた後に、排除されなかった要素をもつアライメント位置の要素同士をさらに演算するものである請求項2に記載の情報処理方法。
  4. 前記演算が、少なくとも一つ以上の他の配列データとは異なる要素を有するアライメント位置のそれぞれの要素と、選択された要素とを対比し、同じまたは異なる要素を排除する演算と、
    前記排除する演算により取得された第一のアライメント位置のそれぞれの配列要素と、前記演算により取得された第二のアライメント位置のそれぞれの配列要素と、をさらに対比する演算である請求項1に記載の情報処理方法。
  5. 前記得られた候補の評価を行うステップを更に有することを特徴とする請求項1〜4のいずれかに記載の情報処理方法。
  6. 前記演算が、前記アライメントされた個々の配列情報(b)を行の情報として配置し、前記アライメント位置情報をn列の情報として配置した行列の集合情報Pとして保持し、該行列における任意に選ばれた二つの列の同一行の要素に対して行われる演算である請求項1〜5のいずれかに記載の情報処理方法。
  7. 請求項1〜6の方法を用いて導き出される変異要素を少なくとも1つ以上含むことを特徴とした、プローブまたはプローブセット。
  8. 請求項1〜6のいずれかに記載の方法を実現するためのコンピュータに実行させるための制御プログラム。
  9. 請求項1〜6のいずれかに記載の方法をコンピュータに実行させるための制御プログラムを格納した記憶媒体。
JP2003434554A 2003-12-26 2003-12-26 配列を同定するための変異要素のセット抽出方法 Pending JP2005190427A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003434554A JP2005190427A (ja) 2003-12-26 2003-12-26 配列を同定するための変異要素のセット抽出方法
US11/015,003 US8041512B2 (en) 2003-12-26 2004-12-20 Method of acquiring a set of specific elements for discriminating sequence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003434554A JP2005190427A (ja) 2003-12-26 2003-12-26 配列を同定するための変異要素のセット抽出方法

Publications (2)

Publication Number Publication Date
JP2005190427A true JP2005190427A (ja) 2005-07-14
JP2005190427A5 JP2005190427A5 (ja) 2007-02-08

Family

ID=34697766

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003434554A Pending JP2005190427A (ja) 2003-12-26 2003-12-26 配列を同定するための変異要素のセット抽出方法

Country Status (2)

Country Link
US (1) US8041512B2 (ja)
JP (1) JP2005190427A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004337042A (ja) * 2003-05-14 2004-12-02 Canon Inc 核酸アレイ
US8193331B2 (en) * 2003-12-25 2012-06-05 Canon Kabushiki Kaisha Probe set and method for identifying HLA allele
JP4592060B2 (ja) * 2004-04-26 2010-12-01 キヤノン株式会社 Pcr増幅反応装置、ならびに、該装置を利用するpcr増幅反応方法
JP2008228585A (ja) * 2007-03-16 2008-10-02 Canon Inc 細胞培養容器および細胞培養装置
LU92525B1 (en) * 2014-08-19 2016-02-22 Wurth Paul Sa Blast furnace plant

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002010443A1 (en) * 2000-07-27 2002-02-07 The Australian National University Combinatorial probes and uses therefor
JP2002296279A (ja) * 2001-03-29 2002-10-09 Hitachi Software Eng Co Ltd バイオチップ及びプローブ設計方法
JP2003000280A (ja) * 2001-02-28 2003-01-07 Canon Inc プローブ設計方法及び情報処理装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6040138A (en) * 1995-09-15 2000-03-21 Affymetrix, Inc. Expression monitoring by hybridization to high density oligonucleotide arrays
JP2003038160A (ja) 2001-07-17 2003-02-12 Hitachi Software Eng Co Ltd プローブ設計装置及びプローブ設計方法
JP2004313181A (ja) * 2003-04-02 2004-11-11 Canon Inc 感染症起炎菌検出用プローブ及びプローブセット、ならびに担体及び遺伝子検査方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002010443A1 (en) * 2000-07-27 2002-02-07 The Australian National University Combinatorial probes and uses therefor
JP2003000280A (ja) * 2001-02-28 2003-01-07 Canon Inc プローブ設計方法及び情報処理装置
JP2002296279A (ja) * 2001-03-29 2002-10-09 Hitachi Software Eng Co Ltd バイオチップ及びプローブ設計方法

Also Published As

Publication number Publication date
US8041512B2 (en) 2011-10-18
US20050143930A1 (en) 2005-06-30

Similar Documents

Publication Publication Date Title
US11898206B2 (en) Systems and methods for clonotype screening
JP6314091B2 (ja) Dna配列のデータ分析
CN110257547B (zh) 基于kasp技术开发的玉米核心snp标记及其应用
US20150310165A1 (en) Efficient comparison of polynucleotide sequences
US20050221353A1 (en) Data processing and display method for gene expression analysis system and gene expression analysis system
WO2007119779A1 (ja) 個体識別方法および装置
KR101770962B1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
JP2005190427A (ja) 配列を同定するための変異要素のセット抽出方法
WO2008007630A1 (fr) Méthode et appareil de recherche de protéine
Vai et al. DNA sequencing in cultural heritage
Ludwig et al. The use of rRNA gene sequence data in the classification and identification of prokaryotes
JP2005284964A5 (ja)
WO2014119914A1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
CN110310699A (zh) 基于全基因组序列挖掘目标基因序列的分析工具及应用
KR20170046315A (ko) 차세대 시퀀싱을 이용한 분자마커 개발 방법
KR20190061771A (ko) Geo에 공개된 차세대 염기서열 데이터를 이용한 유전체 분석 방법
AU780824B2 (en) DNA marker profile data analysis
JP2004139254A (ja) 近傍遺伝子情報検索装置及び方法
CN113284552B (zh) 一种微单倍型的筛选方法及装置
US20220076790A1 (en) Incorporating variant information into omics
WO2022168195A1 (ja) 遺伝情報解析システム、及び遺伝情報解析方法
Tammi et al. ReDiT: Repeat Discrepancy Tagger—a shotgun assembly finishing aid
JP2008165375A (ja) 塩基配列を識別する変異セットの選別法
Liu et al. SNP array development, genotyping, data analysis, and applications
US20030187591A1 (en) Method of and apparatus for genomic analysis, and computer product

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061220

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091228

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100823

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110222