JP5090766B2 - 遺伝子情報の処理装置及び表示装置 - Google Patents

遺伝子情報の処理装置及び表示装置 Download PDF

Info

Publication number
JP5090766B2
JP5090766B2 JP2007087642A JP2007087642A JP5090766B2 JP 5090766 B2 JP5090766 B2 JP 5090766B2 JP 2007087642 A JP2007087642 A JP 2007087642A JP 2007087642 A JP2007087642 A JP 2007087642A JP 5090766 B2 JP5090766 B2 JP 5090766B2
Authority
JP
Japan
Prior art keywords
peak
reported
true
increase
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007087642A
Other languages
English (en)
Other versions
JP2008250401A (ja
Inventor
俊子 松本
亮 中重
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2007087642A priority Critical patent/JP5090766B2/ja
Priority to US12/010,599 priority patent/US20090182512A1/en
Priority to EP08001627A priority patent/EP2040187A1/en
Publication of JP2008250401A publication Critical patent/JP2008250401A/ja
Application granted granted Critical
Publication of JP5090766B2 publication Critical patent/JP5090766B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

本発明は、遺伝子情報の処理装置及び表示装置に関し、特に、ゲノム配列のうち個体間に多型が見られる箇所の解析作業に用いる遺伝子情報の処理装置及び表示装置に関し、より詳細には、解析対象の遺伝子が含まれるDNA断片をPCRや電気泳動などにより抽出し検出する際に、解析対象からのシグナルとノイズシグナルとを判別するための処理を行う装置に関する。
ヒトゲノムの完全解読後、遺伝子の機能解析研究が活発に行われている。その中でも、特定の疾患の有無、薬物の効果の程度、副作用の有無などの表現型に関与する遺伝子の探索での基盤となる、遺伝子型決定の自動化技術が特に注目されている。すなわち、遺伝子型の決定処理は、精度を向上させるためには熟練された人間の目視により1つ1つのデータを解析してまとめるのが好ましいが、多くのデータについての解析が必要なため、人手で行われることはない。コンピュータを用いた自動解析が現実的であり、このような手法によって人によるバラツキも減少する。そのためには、コンピュータによる自動解析のアルゴリズムをどのように構築し、例えば、ピークとノイズを自動的に判別して精度の良い結果を効率的に得るかに関する考察が重要である。
以下に、コンピュータによる解析に関する基本的な説明を行う。
マイクロサテライト
通常、同種の生物のゲノムは、ほぼ似通った塩基配列を有しているが、いくつかの個所では異なった塩基配列を有している。例えば、1つの遺伝子座において、ある個体はAを有しており、他の個体はTを有している場合などがある。このように個体間でゲノム上の単一の塩基に多型性が見られることをSNP(Single Nucleotide Polymorphism)と言う。
一方、生物のゲノム中には、2塩基から6塩基までの比較的短い配列パターンが数回から数十回繰り返されて表れる箇所が非常に多く(数万箇所以上)存在する。この特徴的な配列パターンのことをマイクロサテライトと呼んでいる。ゲノム上に現れるマイクロサテライトの一例を図1に示す。マイクロサテライトにおける繰り返し単位をunitと呼び、unitの塩基数をunit長と呼んでいる。例えば、図1(A)、(B)に示すACACACAC...というマイクロサテライト(米国NIHの公共DNAデータベースUniSTSで「D20S910」という名称で登録されている。)では、unitは『AC』であり、unit長は2塩基である。マイクロサテライトでは、個体間でunit及びunit長が同じであっても、図1(A)、(B)に示すように、その繰り返し回数が個体によって異なることがある。
上記したように、SNP及びマイクロサテライトは個体間で異なり得るため、ゲノム上で他の塩基配列と区別がしやすい部分であり、実験的にも検出が容易である。また、生物種によっては、ゲノム上のSNP及びマイクロサテライトが存在するおおよその位置が判っているので、ゲノム上の位置を示す指標として用いることができる。このような性質から、SNPやマイクロサテライトのことをDNAマーカーと呼んでいる。特に、マイクロサテライトは複数の塩基を含んでいるため、SNPよりも多くの情報量を有しており、DNAマーカーとして頻繁に用いられている。
ところで、図1に示すように、多くの生物の個体は、雌性配偶子と雄性配偶子とに由来する1組のゲノム(相同染色体)を有している。1組のゲノム上の互いに対応する部位に存在する遺伝子を、それぞれ対立遺伝子(allele)と言い、これらの組み合わせを遺伝子型(genotype)と言う。上記したように、ゲノム上のSNPやマイクロサテライトは、個体間で塩基配列が異なり得る部分であるので、一般的に、SNPには2つ又は3つの対立遺伝子が存在し、マイクロサテライトには数種類〜20種類以上の対立遺伝子が存在する。
図1(A)に示す例では、個体Aは、『AC』というunitを5回繰り返したものと7回繰り返したものとを有しており、図1(B)に示す例では、個体Bは、『AC』というunitを6回繰り返したものを2つ有している。ここで、個体Aのように、異なる種類の対立遺伝子を1つずつ持っている状態をヘテロ接合と言い、個体Bのように同じ種類の対立遺伝子を2つ持っている状態をホモ接合と言う。
PCR及び電気泳動実験
DNAマーカーとしてマイクロサテライトを用いる場合、ゲノム上のマイクロサテライトが現れている箇所を抽出して検出するための実験としてPCR(Polymerase Chain Reaction)法や電気泳動法などの実験が行われる。PCRは、マイクロサテライトの両端においてプライマー配列と呼ばれる一対の塩基配列を指定することで、それらの間に挟まれるマイクロサテライト部分のみをDNA断片として繰り返し複製することにより、一定量のサンプルを取得する実験技術である。電気泳動には、ゲル電気泳動やキャピラリ電気泳動などの手法があり、増幅したDNA断片を荷電された泳動路で泳動させて、長さの異なるDNA断片を分離する実験技術である。電気泳動は、DNA断片の長さによって泳動路における泳動速度が異なる(長いDNA断片ほど泳動速度が小さい)ことを利用したサンプル分離手法である。
図2は、PCR法及びゲル電気泳動法により、マイクロサテライト部分のDNA断片を抽出し増幅する実験手順を模式的に示した図である。まず、対象となるマイクロサテライトを挟んで一対のプライマー配列200及び201を指定し、マイクロサテライト及びプライマー配列を含んだゲノム領域202がPCR実験により増幅される。図2に示す例では、2本の相同染色体上でのマイクロサテライトの繰り返し数が異なるヘテロ接合であり、それぞれマイクロサテライト部分の長さが異なるため、それぞれから長さの異なる2種類のPCR増幅産物すなわちDNA断片(66塩基および58塩基)が得られる。これらを板状のゲル上で一定時間電気泳動させると、上記2種類のPCR増幅産物はそのDNA断片の長さの違いによって分離されることとなる。各DNA断片には蛍光色素を付しておき、電気泳動後に各DNA断片からの蛍光シグナルの強度及び位置を検出することにより、図2に示すように、横軸にDNA断片の長さ(すなわち泳動した距離)、縦軸に蛍光シグナル強度(すなわちDNA断片の存在量)をプロットしたグラフが得られる。
また、PCR増幅産物とともに、長さがあらかじめ分かっているDNA断片(サイズマーカーと呼ばれる。)を電気泳動させておき、これらの蛍光シグナルも検出することにより、サイズマーカーの検出位置を基準として各PCR増幅産物の長さを知ることができる。
尚、上記においては、ゲル電気泳動法を用いた実験手法を例にして説明したが、キャピラリ電気泳動法によっても同様の実験を行うことができる。キャピラリ電気泳動法では、サンプルにゲルを詰めた細い管の中で泳動させ、各種サンプルが一定距離(通常はキャピラリの終端まで)を泳動し終わるまでに要した時間を計測し、DNA断片の長さを調べる。キャピラリ電気泳動法においては、ゲル中のサンプルからの蛍光シグナルをスキャンするのではなく、キャピラリ終端に備えた蛍光シグナル検出器によりサンプルを検出するのが一般的である。
PCR及び電気泳動実験において生じるノイズ
上記の図2に示したような実験結果は、PCR法及び電気泳動法が理想的な過程で行われた場合に得られるものであり、実際に実験を行ってみると様々なノイズが現れることがある。PCR法及び電気泳動法の実験過程で生じる代表的なノイズである、Stutterピークと+Aピークについて、図3を参照しながら以下に説明する。
簡単のため、図3においては、図2に示した長さ66塩基のDNA断片(『AC』が12回繰り返されたマイクロサテライトを含む。)のみを例に挙げている。
Stutterピークとは、PCR反応の際にslipped-strand mispairingが起こることによって、複製対象のDNA断片のうちマイクロサテライト部分の繰り返し回数が増加し又は減少してしまう現象が原因で生じるノイズであり、蛍光分析において繰り返し回数が増加し又は減少したDNA断片がノイズピークとして観測されるものである。
図3に示すように、『AC』が12回繰り返された正常なマイクロサテライトを含んだDNA断片300の他に、『AC』が11回又は13回繰り返された異常なマイクロサテライトを含んだDNA断片301又は302が生成され、蛍光分析においてStutterピークとして観測されることが多い。さらに多くの繰り返し回数の増減が起こることもある。従って、PCRを行うことにより、複製元のDNA断片と同じ長さのDNA断片(66塩基)の他に、マイクロサテライトのunit長の整数倍だけ長さを増加し又減少したDNA断片が生成される可能性がある。
+Aピークとは、PCR法によりDNA断片を複製する際に、DNA断片に余分な塩基(通常はA)が1つ付加されてしまう現象が原因で生じるノイズであり、蛍光分析において1塩基付加されたDNA断片がノイズピークとして観測される。図3に示すように、正常に複製されたDNA断片300に対して1塩基付加されたDNA断片303が生じるほか、slipped-strand mispairingによりマイクロサテライト部分の繰り返し回数が増加又は減少されてしまった異常なDNA断片301及び302にも1塩基付加されたDNA断片304及び305が生じることがある。これらの1塩基付加されたDNA断片303、304及び305は、蛍光分析においてそれぞれ異なる+Aピークとして観測される。
図3の蛍光分析結果を示すグラフでは、複製元のDNA断片と同じ長さである66塩基のDNA断片が本来観察されるべきピーク(以下、「真のピーク」と呼ぶ)であり、その他のピークは全てノイズピークである。この真のピークに対して、マイクロサテライトのunit長分の間隔を置いて(62塩基、64塩基、68塩基の位置に)Stutterピークが現れていることが分かる。さらに、真のピーク又はStutterピークのそれぞれよりも1塩基長い位置(63塩基、65塩基、67塩基、69塩基の位置)には+Aピークが現れていることが分かる。すなわち、63塩基、65塩基、67塩基、69塩基の位置に現れる+Aピークは、それぞれ、塩基長が62塩基、64塩基、66塩基、68塩基のDNA断片に1塩基付加されたDNA断片に対応していることになる。
以下において、ある+Aピークに対して、その+Aピークが生じる元となった1塩基付加されていないDNA断片に対応する真のピーク又はStutterピークのことを「元のピーク」と呼ぶ。
ところで、1組のゲノム上のマイクロサテライトには、ホモ接合体とヘテロ接合体とがあるが、抽出したDNA断片がいずれであるかによって、蛍光シグナルのグラフ波形が大きく異なってくる。ホモ接合体の場合には、グラフに真のピークが1つだけ現れ、ヘテロ接合体の場合にはグラフに真のピークが2つ現れることになっている。しかしながら、図3の蛍光分析結果を示すグラフからも明らかなように、ホモ接合体であっても多数のピークが現れることがあるため、蛍光シグナルのグラフ波形やピークの数から、抽出したDNA断片がホモ接合体であるかヘテロ接合体であるかを判断する場合に問題が生じる。
PCR法及び電気泳動法の実験過程においては、蛍光分析において観測される複数のピークのうち真のピークを他のノイズピークと識別することが非常に重要である。上記したノイズピークのうち、Stutterピークに関しては、「Stutterピークは真のピークより低い」などの法則性があることを利用して、下記特許文献1〜5、非特許文献1〜4などに開示されている方法により的確な判別が行うことができる。また、Stutterピークを判別し除去する処理を行うソフトウェアとしては、Cybergenetics社のソフトウェア「TrueAllele」、LI-COR社のソフトウェア「SAGA」、Applied Biosystems社のソフトウェア「GenoTyper」、Applied Biosystems社のソフトウェア「GeneMapper」などが知られている(それぞれ、商標名)。また、ノイズピークのうち、+Aピークに関しては、下記非特許文献5などに開示されている方法により、現れ方の傾向をマーカーごとに見積ることができるようになっている。この方法は、同じマーカーを用い、同じ条件下で同時に実験を行った場合は、+Aピークの出方が同程度、すなわち元のピークとそれに対応する+Aピークの高さの比の値が同程度であることを利用している。
図4の符号400のように、各個体において真のピークやstutterピークなどの元のピークとそれらに対応する+Aピークの比がほぼ一定になるようなピークの解釈を調べると共に、図5のように同じマーカーの複数の個体間でこの比が大きくぶれていないかどうかを調べ、比の値として外れ値を持つ個体を除く。このようにして得られた比の値を、そのマーカーにおける+Aピークの出方の見積もり結果として用いている。
米国特許第5,541,067号 米国特許第5,580,728号 米国特許第5,876,933号 米国特許第6,054,268号 米国特許第6,274,317号 Perlin, M. W., et al., "Toward Fully Automated Genotyping: Allele Assignment, Pedigree Construction, Phase Determination, and Recombination Detection in Duchenne Muscular Dystrophy", Am. J. Hum. Genet. 55, 1994, p777-787 Perlin, M. W., et al., "Toward Fully Automated Genotyping: Genotyping Microsatellite Markers by Deconvolution", Am. J. Hum. Genet. 57, 1995, p1199-1210 Palsson, B., et al., "Using Quality Measures to Facilitate Allele Calling in High-Throughput Genotyping", Genome Research 9, 1999, p1002-1012 Stoughton, R., et al., "Data-adaptive algorithms for calling alleles in repeat polymorphisms", Electrophoresis 18, 1997, p1-5 Matsumoto, T., et al., "Novel algorithm for automated genotyping of microsatellites", Nucleic Acids Research 21, 2004, p6069-6077
上記のような既存のノイズピーク判別方法は、一部の実験条件においてはうまく機能するが、以下のようなケースでは、+Aピークの見積もりを適切に行えないという問題がある。
第1のケースは、図6に示すように、符号601で示す蛍光シグナルが強すぎたために、シグナル強度に関して測定限界を超えてしまっている場合である。図6の破線601は、蛍光シグナルを適切に測定できたと仮定した場合の推定波形を示す。図6の縦軸は、検出器が観測した蛍光シグナルの強度であるが、66塩基の断片が試料中に予想よりも多く含まれすぎていたため、蛍光シグナルが強すぎて検出器の測定限界を超えてしまった例を示している。このような場合には、波形データにおけるピークの上部が欠けてしまい、66塩基におけるピークの高さは本来よりも低く測定されてしまうことがある。このようになると、本来は真のピークやstutterピークなどの元のピークと、それらに対応する+Aピークと、の比が、ほぼ一定になるにも関わらず、大きくぶれた比が観測されることになってしまう。
第2のケースは、図7に示すように、ピークが完全には分離できないような観測データが得られたケースである。図7に示す破線は、ピークが完全に分離できたと過程した場合の波形例を示す。電気泳動では、断片長に応じて泳動速度が異なることにより、長さに応じて断片が分離できるはずであるが、分離がうまく行かなかった場合は、破線に示されるような波形が得られることがある。このような場合に、高いピークと低いピークとが塩基長方向に隣接している場合に、低いピークは高いピークのすそのに隠れて正確には観測できなくなってしまうことがある(ここでは、65塩基のピークは、66塩基のピークのために観測できなくなっている)。このため、元のピーク(64塩基のピーク)とその+Aピーク(65塩基のピーク)との高さの比を計算すると、本来の値から離れた値である0(ゼロ)になってしまうケースがある。このため、第一のケースと同様に、本来は真のピークやstutterピークなどの元のピークとそれらに対応する+Aピークの比がほぼ一定になるにも関わらず、大きくぶれた比が観測されることになってしまう。
尚、分離がうまく行かなかったためにピークが観測できなくなってしまう現象に関しては、左右の隣接するピークのうち低い方がより観測できなくなりやすいという傾向がある。図7の例では、66塩基におけるピークの左右の隣接するピークのうち、65塩基におけるピークの方は低く、ほぼ完全に観測できなくなっている。これに対し、67塩基におけるピークはまだ頂上部分がわずかに残っており、ピークとして観測できている。
第三のケースは、実験機器の運用の都合などに起因して、同時に実験を行えないことに起因する問題を含む場合である。+Aピークの出方は、実験室内の気温やPCRの後に電気泳動を行うまでの間にわずかな時間間隔があった場合でも影響を受けるため、このような場合には、同じマーカーであっても+Aピークの出方が変わってしまう可能性がある。例えば、一度目の実験では元のピークの方が+Aピークよりも高く、二度目の実験では低かったとする。既存の+Aピークの見積もり方法に従うと、同じマーカーの複数の個体間で比が大きくぶれていることになってしまい、二度目の実験で得られた個体は+Aピークの出方を見積もるのに適さない外れ値を持つと判断されてしまう。その結果、「全ての個体で元のピークの方が+Aピークよりも高い」という誤った見積もりとなってしまい、この見積もりを用いると二度目の実験の個体では+Aピークを真のピークとして判別してしまうという問題がある。
上記に説明したようなケースでは、既存の方法を用いると、適切にノイズピークで有るか否かを判別することができず、判別結果の目視確認と手作業による修正に時間を要し、解析処理におけるボトルネックとなっているという問題がある。
本発明は、マイクロサテライトマーカーを用いた実験における、ユーザの利便性を向上させることを目的とする。
マイクロサテライトマーカーを用いた実験が行われるにつれて、各マーカーについての知見が蓄積されつつあり、各マーカーにおいて、どのような対立遺伝子が存在するかが分かっているマーカーが増えている。この知見は、以下に述べるように2つの困難さがあるものの、遺伝子型を自動的に判別するための参考情報として利用できる。
1)一つ目の困難さは、各マーカーにおいて得られる知見は、現れ得る対立遺伝子のリストであり、実験者が現在解析対象としているサンプル個体での遺伝子型を直接示すものではない点である。
2)また、二つ目の困難さは、真のピークよりその+Aピークの方が高いマーカーでは、現れ得る対立遺伝子(真のピークの断片長)ではなく、それに1を加えたもの(真のピークの+Aピークの断片長)のリストであるかもしれないという点である。
以降では、現われ得る対立遺伝子のピーク(真のピークとその+Aピークのどちらであるか分からないピーク)を「既報告ピーク」と称する。
本発明では、以下の機能を用いて、上記知見を利用することにより、上記問題を解決するための+Aピークの出方の正確な見積もりを行うことを特徴とする。
(1)機能1:各個体に対して、+Aピークの出方を調べるために適している個体かどうか判断する。
機能1−1:機能1において、一番高いピークとその近傍の既報告ピークの位置関係を調べ、+Aピークの出方を調べるのに適さない個体を除く。一番高いピークの1塩基以内に既報告ピークがない場合には、一番高いピークは真のピークでもその+Aピークでもない偶発的なノイズピークである可能性が高い。従って、この個体は+Aピークの出方を調べるためには適さないと判断する。また、一番高いピークの周辺に、unit長間隔でない既報告ピークがある場合は、+Aピークの出方を調べるためには適さないと判断する。その理由は、unit長間隔でない2つのピークを真のピークとして持つヘテロ接合の個体では、それぞれの対立遺伝子に由来する+Aピークと元のピークとが重なり合っている可能性があり、その場合には比を正確に計算できないためである。
(2)機能2:機能1において+Aピークの出方を調べるのに適すると判断された各個体に対して、一番高いピークとその近傍の既報告ピークの位置関係を調べ、既報告ピークのうちどれを持つと判断するべきか判断する。
図8から図11では、縦縞のピークP1、P3、P6、P8は真のピークであり、横縞のピークP2、P4、P7、P9はその+Aピークであり、灰色の線は既報告アリルを、濃い灰色の線B1〜B4まではその個体が持つと判断した既報告ピークを示す。図8及び図9に示すように、一番高いピークP1、P4が既報告ピークB1、B2と一致する場合、一番高いピークP1、P4がこの個体が持つ既報告ピークであると判断することができる。その理由は、上記背景技術で述べたように、「Stutterは真のピークより低い」こと、及び、「元のピークと+Aピークの高さの比が同程度」であることから、波形の中で最も高いピークは真のピーク又は真のピークの+Aピークであるためである。
また、図10に示すように、一番高いピークP7の一塩基左隣のピークP6が既報告ピークB3と一致し、かつ、一番高いピークP7の一塩基右隣のピークP5は既報告ピークと一致しないか一番高いピークP7の一塩基左隣のピークP6より低い場合は、一番高いピークP7の一塩基左隣のピークP6がこの個体が持つ既報告ピークであると判断することができる。その理由は、unit長が2塩基の場合、一番高いピークの一塩基左隣のピークは真のピークであり、一塩基右隣は真のピークより1unit長いStutterピークと解釈すれば、「Stutterは真のピークより低い」という法則性と合致するためである。unit長が3塩基以上であれば、既報告ピークは3塩基おきに存在するため、一番高いピークの左右両隣のピークが両方とも既報告ピークと一致することはない。従って、左隣の既報告ピークと一致するピークを選べば良い。尚、発明が解決しようとする課題の欄で説明したように、分離がうまく行なえなかったためにピークが観測されなくなってしまう場合、図10では、68塩基におけるピークP5の方が66塩基におけるピークP6よりも先に観測されなくなる。68塩基におけるピークP5が観測されなくなり、66塩基におけるピークP5が観測される場合、66塩基と68塩基とにおけるピークの大小関係は正しく判断することができる。したがって、この手法は、分離がうまく行かなかったためにピークが観測されなくなる問題を解決するのに適した判断方法だということができる。
また、図11のように、一番高いピークP8の一塩基右隣のピークP9が既報告ピークと一致し、かつ、一番高いピークP8の一塩基左隣のピークP10は、既報告ピークと一致しないか一番高いピークP8の一塩基右隣のピークP9より低い場合、一番高いピークP8の一塩基右隣のピークP9が、この個体が持つ既報告ピークであると判断することができる。その理由は、図10の場合と同様に、unit長が2塩基の場合、一番高いピークP8の右隣P9は真のピークの+Aピーク、左隣のピークP10は真のピークより1unit短いStutterの+Aピークと解釈すれば、「Stutterは真のピークより低い」「元のピークと+Aピークの高さの比が同程度」という法則性と合致するためである。分離がうまくいかなかったために、ピークが観測されなくなるという問題に対するのに適した判断方法であることも、図10の場合と同様である。
この方法により、真のピークの方が+Aピークより高い場合(図8および図11の場合)も、低い場合(図9および図10の場合)も、また、既報告ピークが真のピークである場合(図8および図10の場合)も、+Aピークである場合(図9および図11の場合)も、個体が持つ既報告ピークを正しく判断することができる。
(3)機能3:既報告ピークは真のピークと+Aピークのどちらなのか判断する。
(3−1)機能3−1:機能3において、各個体について既報告ピークは真のピークと+Aピークのいずれであるかを判断し、個体間の多数決によりデータ全体の判断を行う。これにより、いくつかの個体で誤って判断することがあっても、データ全体の判断を誤る可能性を低減することができる。
(3−2)機能3−2:機能3−1において、ヘテロ接合体では二つの対立遺伝子それぞれについて既報告ピークは真のピークと+Aピークのどちらなのか判断し、両方の対立遺伝子における判断が一致すればその判断を用い、一致しなければ判断保留とする。
これにより、片方の対立遺伝子の方で誤って判断することがあっても、個体としての判断を誤る可能性を少なくすることができる。ヘテロ接合体であるか否かについては、非特許文献5にも記載されているように、峰が1つのピークの塊が2つ観察された場合および峰が2つのピークの塊が1つ観察された場合は、ヘテロ接合体であると判断することができる。
(3−3)機能3−3:上記機能3−2において、一番高いピークとその近傍の既報告ピークとの位置関係を調べ、既報告ピークは真のピークと+Aピークのどちらなのか判断する。機能2で説明した、図8および図9のように、一番高いピークが既報告ピークと一致する場合、機能3−4で述べる方法に従って判断する。また、図10のように、一番高いピークの一塩基左隣のピークが既報告ピークと一致し、かつ、一番高いピークの一塩基右隣のピークは既報告ピークと一致しないか一番高いピークの一塩基左隣のピークより低い場合には、既報告ピークは真のピークであると判断する。また、図11のように、一番高いピークの一塩基右隣のピークが既報告ピークと一致し、かつ、一番高いピークの一塩基左隣のピークは既報告ピークと一致しないか一番高いピークの一塩基右隣のピークより高い場合は、既報告ピークは+Aピークであると判断する。
(3−4)機能3−4:機能3−3において、図8および図9のように、一番高いピークが既報告ピークと一致する場合に、真のピークの左右一塩基隣のピークの高さを比較することにより、既報告ピークが真のピークと+Aピークのいずれであるかを判断する。
図12において、灰色の線B5〜B10までは既報告ピークを、縦縞のピークP11、P15,P16、P18、P20、P22は真のピークを示し、横縞のピークP12、P14、P17、P19、P23は真のピークの+Aピークを示す。図12の左列の3つの図12(A)、(C)、(E)では、既報告ピークと真のピークとが一致しており(真のピークの方が+Aピークよりも高く)、図12の右列の3つの図12(B)、(D)、(F)では、既報告ピークと真のピークとの+Aピークが一致している(真のピークの方が+Aピークよりも低い)。
図12(A),(B)、すなわち上段の図では、全てのピークの分離が良く、図12(C)、(D)、すなわち中段の図では、一番高いピークと左右のうち低い方のピークとの分離があまり良くない(融合している)。図12(E),(F)の下段の図では、一番高いピークは左右両方のピークと分離が良くない(融合している)。このように、ピークの分離という観点でみた場合に非常に多くの種類の波形が現れ得るが、基本的には、一番高いピークの左右一塩基隣のピークの高さを比較することで左右の波形を識別することができる。
すなわち、上段・中段の左列の二つの波形においてはいずれも、一番高いピークの右一塩基隣のピークは左一塩基隣のピークよりも高く、右列の二つの波形においては逆に低くなっている。下段の波形では左右一塩基のピークはいずれも認識されないため高さは0(ゼロ)として扱われるが、このような場合は、既報告ピークが真のピークか真のピークの+Aピークかという判断は保留する。なぜなら、機能3−1で述べた通り、一部の個体で判断を保留しても、他の個体での判断を用いて全体としての判断を行うことができる可能性があるためである。
機能3−3および機能3−4により、真のピークの方が+Aピークより高い場合(図8および図11)も、低い場合(図9および図10)も、また、既報告ピークが真のピークである場合(図8および図10)も、+Aピークである場合(図9および図11)も、既報告ピークが真のピークと+Aピークのいずれであるかを正しく判断できる。
(3−5)機能3−5:機能3−3および3−4で述べた方法に加えて、一峰性のピークの塊である場合には、以下に述べる通り、unit長ずつ離れたピークの増減関係を調べることにより、既報告ピークが真のピークと+Aピークのどちらなのか判断する。
図13に示すように、縦軸方向に延びる灰色の線は、既報告ピークを中心にunit長間隔の位置を示し、塩基長66の位置に現れている縦縞のピークは真のピークを、その右隣の横縞のピークは真のピークの+Aピークを、符号1300などのようにピークの上にある破線の矢印は既報告ピークからunit長ずつ離れたピーク群の高さの増減関係を、符号1301などのようにピークの上にある点線の矢印は既報告ピークの一塩基右隣からunit長ずつ離れたピーク群の高さの増減関係を示す矢印である。
また、符号1302などの波形の下にある破線の矢印と符号1303などの点線の矢印とは、それぞれ符号1300および符号1301などのピークの上にある矢印の増減関係のみを表したものであり増減量を含まない情報である。符号1304などで示される灰色の楕円形1304−1〜4までは、増減関係がそろうように隣接する矢印を囲んだものである。
例えば、一番上の波形の例では、符号1300は62塩基と64塩基に位置するピークの高さの増減関係を示した矢印であり、右上がりであることは64塩基に位置するピークの方が高いことを示している(尚、図では、62塩基の位置にはピークが存在しないので、高さは0とみなす)。同様に、ピークの上にある破線の矢印は、64塩基と66塩基に位置するピークの高さの増減関係、66塩基と68塩基に位置するピークの高さの増減関係、68塩基と70塩基に位置するピークの高さの増減関係、を示している。符号1302は符号1300と対応し同じことを示しているが、機能3−5ではピークの高さの値そのものではなく増減関係のみに注目することを明示するため示している。符号1304−1の楕円形は、符号1302の破線の矢印と符号1303の点線の矢印とを囲んでおり、これらの縦軸方向に隣接している矢印は、増減関係が一致していること(両方とも右上がりであること)を示している。
ピークの塊から、元のピークだけを取り出したもの(真のピークから左右にunit長間隔のピーク集合)、+Aピークだけを取り出したもの(真のピークの+Aピークから左右にunit間隔のピーク集合)、について考察すると、「元のピークと+Aピークの高さの比が同程度」という法則性により、ピークの高さの増減は揃っているはずである。また、+Aピークは、対応する元のピークより1塩基長い位置にあるため、1塩基だけずれて重なっているはずである。符号1302などの破線の矢印と符号1303などの点線の矢印とが符号1304−1などの略楕円形で、塩基長の増加する方向に順番に囲むことで、増減の揃った二つのピークの塊が1塩基だけずれて重なっていることを意味する。
図13(A)及び図13(B)の波形は、既報告ピークが真のピークの場合であって、図13(C),(D)の二つの波形は、既報告ピークが真のピークの+Aピークの場合である。破線および点線の矢印の増減関係を求め、それに対応するように絵描いた楕円形の向きを一見するだけで、真のピークとその+Aピークのいずれが高いかには関係なく、既報告ピークが真のピークと+Aピークとのいずれであるかを判断することができる。
すなわち、図13(A),(B)に示す2つの波形のように、楕円形の向きが左上がりの場合(左が破線、右が点線の矢印で組を作ったときに増減が一致する場合)、破線の矢印で増減を調べたピークは元のピーク、点線の矢印で増減を調べたピークは+Aピークである。逆に、図13(C)、(D)に示す2つの波形のように、楕円形の向きが右上がりの場合(左が点線、右が破線の矢印で組を作ったときに増減が一致する場合)、点線の矢印で増減を調べたピークは元のピーク、破線の矢印で増減を調べたピークは+Aピークである。
機能3−3と3−4と3−5との判断が一致しなかった場合は、いずれかで誤った判断をしたことになるため、判断保留とする。一峰性のピークの塊は、以下の3つの場合が観察されると考えられる。
1つ目の場合は、ホモ接合体の波形である。2つ目の場合は、2つの対立遺伝子が十分離れたヘテロ接合体で、この場合は一峰性のピークの塊が2つ観察される。3つ目の場合は、2つの対立遺伝子が(1unitしか離れていないなど)非常に近接しているヘテロ接合体である。1つ目および2つ目の場合は、ピークの塊の中には1つしか既報告ピークは含まれないため、比を適切に計算できる。3つ目の場合は、機能1−1を用いてunit長の倍数間隔以外のヘテロ接合体の可能性を除いてあるため、同様に比を適切に計算できる。
すなわち、図4で示した通り、同一個体内では元のピークと+Aピークとの比はほぼ一定であるため、1つ目の真のピークに由来するstutterピークと2つ目の真のピークが重なり合ったピークの高さと、それらの+Aピークが重なり合ったピークとの比を用いることができる。
本発明によれば、既報告ピークの情報を追加の入力として+Aピークの出方をより正確に見積もることが可能になるとともに、+Aの出方を見積もる根拠となった個体の情報を取得し、表示することができる。
以下、添付図面を参照しながら、本発明の実施の形態による遺伝子情報の処理技術について詳細に説明する。図21から図28までは、本実施の形態による遺伝子情報処理装置の一構成例を示す図である。これらの図において、同一の符号を付した部分は同一の構成を表し、基本的な構成及び動作は同様である。
図21は、本実施の形態による遺伝子情報処理装置の内部構造例を概略的に示す機能ブロック図である。この遺伝子情報処理装置は、実験で得られたデータを保存した実験データを格納するデータベース2100と、データを表示するための表示装置2101と、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード2102やマウスなどのポインティングデバイス(操作部)2103と、必要な演算処理、制御処理等を行う中央処理装置(CPU)2104と、中央処理装置2104における処理に必要なプログラム等を格納するプログラムメモリ2105と、中央処理装置2104での処理に必要なデータを格納するデータメモリ2106と、を備えている。表示装置2101とともに、又はそれに代えて、プリンタへの出力、音声出力などを行うようにしてもよい。
プログラムメモリ2105は、上記の機能1を行う個体選択処理部2107と、機能2を行う既報告ピーク選択処理部2108と、機能3を行う既報告ピーク真+A判断処理部2109と、を含んでいる。既報告ピーク真+A判断処理部2109は、機能3−1を行う個体多数決処理部2110と、機能3−2を行う対立遺伝子多数決処理部2111と、機能3−3を行う近傍位置確認処理部2112と、機能3−4を行う左右比較判断処理部2113と、機能3−5を行う増減一致判断処理部2114と、を含んでいる。データメモリ2106は、実験で得られたデータ2115を含んでいる。これらは、一般的なコンピュータシステムとして実現可能である。
図22は、データメモリ2106内に含まれる実験データ2115のデータ構造例を示す図である。このデータ構造体Typing Dataは、マーカー名2200、既報告ピーク2201、個体データ2202、unit長2203を含んでいる。既報告ピーク2201は、既報告ピークの断片長の配列である。個体データ2202については、以下に示すデータ構造体Individual Dataの配列の形でデータを保持する。データ構造体Individual Dataは、i個の個体について、個体ID2204、ピークのデータ2205と、を含んでいる。ピークのデータ2205については、ピークの断片長と高さの組の配列の形でデータを保持する。
次に、上記のように構成された本実施の形態による遺伝子情報処理装置において行われる処理内容について説明する。図23は、遺伝子情報処理方法の処理の流れを概略的に示すフローチャート図である。図23において、まず、実験データDB2100からデータ構造体Typing Dataの形式で実験データを読み込む(ステップ2300)。次に、Typing Dataに含まれる既報告ピーク2201の情報を用いて+Aピークの出方を調べる(ステップ2301)。この処理は、プログラムメモリ2105に含まれる個体選択処理部2107、既報告ピーク選択処理部2108、既報告ピーク真+A判断処理部2109を用いて行うものであり、図24に示す詳細フローで詳しく説明する。その後、ステップ2301で見積もった+Aピークの出方を参照して波形に含まれるノイズピークを除去する(ステップ2302)。この処理の詳細は、非特許文献5で述べられている。
図23における既報告ピーク2201の情報を用いて+Aピークの出方を調べる処理の詳細について、図24に示す詳細フローを参照しながら説明する。まず、個体選択処理部2107を用いて、対象とする個体は+Aピークの出方を調べるのに適しているかどうか調べる(ステップ2400)。この処理は、上記の機能1−1を用いて行うことができる。すなわち、まず、対象となる個体のピークのデータ2205を参照して一番高いピークを調べる。次に、既報告ピーク2201を参照し、上記一番高いピークの一塩基以内に既報告ピークが存在しない場合は、+Aピークの出方を調べるのに適していないと判断する。また、unit長2203を参照し、上記一番高いピークの周辺にunit長間隔でない既報告ピークがある場合も+Aピークの出方を調べるのに適していないと判断する。
この判断の結果は、例えば図14に示すように画面表示される。尚、画面表示に代えて、音声表示、プリンタへの印刷などの出力が行われてもよいし、メモリやHDDなどの記憶部又は光ディスクなどの記憶媒体などに記録させるようにしても良い。すなわち、出力方法は限定しない。
ステップ2400において適していると判断された場合は、既報告ピーク選択処理部2108を用いて、既報告ピークのうちどれを持つのかを調べる(ステップ2401)。この処理は上記の機能2を用いて行うものであり、図25に示す詳細フローで詳しく説明する。この処理の結果を図15に示したように画面表示する。その後、近傍位置確認理部2112および左右比較判断処理部2113を用いて、一番高いピーク周辺の既報告ピークを調べ、既報告ピークが真のピークか+Aピークかを調べる(ステップ2402)。この処理は、上記の機能3−3および機能3−4を用いて行うものであり、図26および図27に示す詳細フローで詳しく説明する。この判断の結果を、図18および図19に示したように画面表示する。次いで、増減一致判断処理部2114を用いて、既報告ピーク周辺のピークの高さの増減を調べ、既報告ピークが真のピークか+Aピークかを調べる(ステップ2403)。この処理は、上記の機能3−5を用いて行うものであり、図28に示す詳細フローで詳しく説明される。この判断の結果を図20に示したように画面表示する。
これらの結果を用いて、真のピークとその+Aピークの高さの比を求める(ステップ2404)。次に、未処理のピークの塊が残っている場合は、ステップ2401から処理をもう一度行う(ステップ2405)。そうでない場合は、既報告ピークを2つ持つか否かを調べる(ステップ2406)。2つ持つ場合は、対立遺伝子多数決処理部2111を用いて、個体全体としての判断結果を得る(ステップ2407)。この処理は、上記の機能3−2を用いて行うことができる。すなわち、2つの既報告ピークでの判断が同じであれば、それを個体としての判断結果とし、不一致であれば個体としては判断保留とする。この判断の結果を図17に示したように画面表示する。その後、未処理の個体が残っているか否かについても調べる(ステップ2408)。未処理の個体が残っている場合は、ステップ2400から処理をもう一度行う。未処理の個体が残っていない場合は、個体多数決処理部2100を用いて、全体としての判断結果を得る(ステップ2409)。この処理は、上記の機能3−1を用いて行うことができる。
すなわち、既報告ピークは真のピークであると判断した個体の数と、既報告ピークは真のピークの+Aピークであると判断した個体の数と、を比較し、個体数が多い方の判断結果を用いる。この判断の結果を図16に示したように画面表示する。
図24における、既報告ピークのうちどれを持つのかを調べる処理の詳細について、図25に示す詳細フローを参照しながら説明する。まず、対象となる個体のピークのデータ2205を参照して一番高いピークPhighestを調べる(ステップ2500)。次に、既報告ピーク2201を参照して、Phighestが既報告ピークのうちの一つと一致するかどうかを調べる(ステップ2501)。一致する場合は(YES)、その個体が持つ既報告ピークとして、Phighestを選ぶ(ステップ2502)。ステップ2501において一致しない場合は(NO)、Phighestの一塩基左のピークが既報告ピークのうちの1つと一致するか否かを調べる(ステップ2503)。一致する場合は(YES)、Phighestの一塩基右のピークは既報告ピークのどれとも一致しないか、または、一塩基右のピークは一塩基左のピークよりも低いかどうかを調べる(ステップ2504)。どちらかが成り立つ場合は(YES)、その個体が持つ既報告ピークとしてPhighestの一塩基左のピークを選ぶ(ステップ2505)。ステップ2503またはステップ2504で条件が成り立たない場合は(NO)、Phighestの一塩基右のピークを選ぶ(ステップ2506)。
図24における、一番高いピーク周辺の既報告ピークを調べ、既報告ピークが真のピークか+Aピークかを調べる処理の詳細について、図26に示す詳細フローを参照しながら説明する。まず、対象となる個体のピークのデータ2205を参照して一番高いピークPhighestを調べる(ステップ2600)。次に、既報告ピーク2201を参照して、Phighestが既報告ピークのうちの一つと一致するか否かについて調べる(ステップ2601)。一致する場合は(YES)、左右比較判断処理部2113を用いて、Phighestの左右一塩基のピークを調べ、既報告ピークが真のピークか+Aピークか判断する(ステップ2602)。この処理は上記の機能3−4を用いて行うものであり、図27に示す詳細フローで詳しく説明する。ステップ2601において一致しない場合は(NO)、Phighestの一塩基左のピークが既報告ピークのうちの1つと一致するか否かを調べる(ステップ2603)。一致する場合は(YES)、Phighestの一塩基右のピークは既報告ピークのどれとも一致しないか、または、一塩基右のピークは一塩基左のピークよりも低いかどうかを調べる(ステップ2604)。どちらかが成り立つ場合は(NO)、既報告ピークは真のピークであると判断する(ステップ2605)。ステップ2603またはステップ2604で条件が成り立たない場合は(NO)、既報告ピークは+Aピークであると判断する(ステップ2606)。
図26における、一番高いピークの左右一塩基のピークを調べ、既報告ピークが真のピークか+Aピークかを判断する処理の詳細について、図27に示す詳細フローを参照しながら説明する。まず、既報告ピークの一塩基右のピークは一塩基左のピークより高いか調べる(ステップ2700)。高い場合は、既報告ピークは真のピークであると判断する(ステップ2701)。そうでない場合は、既報告ピークの一塩基左のピークは一塩基右のピークより高いか調べる(ステップ2702)。高い場合は、既報告ピークは+Aピークであると判断する(ステップ2703)。そうでない場合、すなわち、既報告ピークの一塩基左のピークと一塩基右のピークの高さが等しい場合は、判断を保留する(ステップ2704)。
図24における、既報告ピーク周辺のピークの高さの増減を調べ、既報告ピークが真のピークか+Aピークかを調べる処理の詳細について、図28に示す詳細フローを参照しながら説明する。まず、一峰性のピークの塊を対象としているかどうか調べる(ステップ2800)。その場合は、既報告ピークを中心として左右にunit長ごとのピークの高さの増減を調べる(ステップ2801)。次に、既報告ピークの一塩基右のピークを中心として、左右にunit長ごとのピークの高さの増減を調べる(ステップ2802)。その後、図26および27で示したフローで、既報告ピークは真のピークであると判断されたかどうかを調べる(ステップ2803)。その場合は、ステップ2801で調べた増減は、それぞれ、ステップ2802で調べた増減のうち右隣に位置するものと一致しているかどうかを調べる(ステップ2804)。一致している場合は(YES)矢印の向きを表示する(ステップ2809)。逆に一致していない場合は(NO)、既報告ピークが真のピークと+Aピークのどちらであるかの判断を保留とする(ステップ2805)。その後、図26および図27で示したフローで、既報告ピークは+Aピークであると判断されたかどうかを調べる(ステップ2806)。その場合は、ステップ2801で調べた増減は、それぞれ、ステップ2802で調べた増減のうち左隣に位置するものと一致しているかどうかを調べる(ステップ2807)。一致している場合は(YES)矢印の向きを表示する(ステップ2810)。逆に一致していない場合は(NO)既報告ピークが真のピークと+Aピークのどちらであるかの判断を保留とする(ステップ2808)。
尚、既報告ピークとしては、本明細書で述べたようにデータベースに格納してある値を取り出す方法に加えて、入力データとして用いる波形に含まれるピークをその候補として用いることも可能である。その場合は、既報告ピークとして適切でないものも候補として選ばれ得るため、ユーザの確認により不適切なものを削除することが可能である。そのような場合においても、既報告ピークとして不適切なものを削除する作業は入力データ全体に対して真のピークとその+Aピークとを適切に指定する作業よりは十分に簡便な作業であるため、本実施の形態による技術を用いることにより、ユーザの利便性の大幅な改善が見込まれる。
以上に説明したように、上記の機能により、図14〜20に示すような画面表示が可能となり、既報告ピークの情報を追加の入力として+Aピークの出方をより正確に見積もることが可能になるとともに、+Aの出方を見積もる根拠となった個体の情報を表示できる。図14は機能1−1を用いて、+Aピークの出方を調べるのに適さない個体であると判断した根拠を示す画面例である。1400に示すように、一番高いピークとその近傍の既報告ピークの位置関係を調べ、+Aピークの出方を調べるのに適するかどうかを判断している。図15は機能2を用いて、既報告ピークのうちどれを持つと判断したか根拠を示す画面例である。1500に示すように、一番高いピークとその近傍の既報告ピークの位置関係を調べ、どの既報告ピークを持つかを判断している。図16は機能3−1を用いて、既報告ピークは真のピークとその+Aピークのどちらなのか判断する根拠を示す画面例である。1600に示すように、既報告ピークは真のピークであると判断した個体数と、既報告ピークは+Aピークであると判断した個体数と、判断保留した個体数を表示する。図17は機能3−2を用いて、ヘテロ接合体に対して既報告ピークは真のピークとその+Aピークのどちらなのか判断する根拠を示す画面例である。1700に示すように、それぞれの対立遺伝子での判断結果が一致するかどうかを表示する。図18は機能3−3を用いて、既報告ピークは真のピークと+Aピークのどちらなのか判断する根拠を示す画面例である。1800に示すように、一番高いピークとその近傍の既報告ピークの位置関係を調べ、既報告ピークは真のピークと+Aピークのどちらなのか判断している。図19は機能3−4を用いて、一番高いピークが既報告ピークと一致する場合に既報告ピークが真のピークと+Aピークのどちらなのか判断する根拠を示す画面例である。1900に示すように、真のピークの左右一塩基隣のピークの高さを比較することにより、既報告ピークが真のピークと+Aピークのどちらなのか判断している。図20は機能3−5を用いて、一峰性のピークの塊である場合に、既報告ピークが真のピークと+Aピークのどちらなのか判断する根拠を示す画面例である。2000に示すように、unit長ずつ離れたピークの増減関係を調べることにより、既報告ピークが真のピークと+Aピークのどちらなのか判断している。
以上に説明したように、本実施の形態によれば、既報告ピークの情報を追加の入力として+Aピークの出方をより正確かつ迅速に見積もることが可能になるとともに、+Aの出方を見積もる根拠となった個体の情報を取得し、その結果をわかりやすいように出力することができる。
尚、本実施の形態において説明した上記の機能は、ソフトウェアプログラムによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出すことができるようにすれば良い。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施の形態による機能を実現することになり、そのプログラムコード自体及びそれを記憶した記憶媒体は本発明によるシステムを構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フロッピィ(登録商標)ディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
また、実施の形態の機能を実現するソフトウェアのプログラムコードがネットワークを介して配信されることにより、システム又は装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納され、そのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行することによっても、達成されるようにしてもよい。
本発明は、遺伝子情報の情報処理装置として利用可能である。
ゲノム上に現れるマイクロサテライトについて説明する図である。 PCR法および電気泳動法により、マイクロサテライト部分のDNA断片を抽出し増幅する実験手順を模式的に示す図である。 PCR法及び電気泳動法の実験過程で生じる代表的なノイズである、stutterピークと+Aピークとについて示す図である。 元のピークと+Aピークの高さの比から、どのピークが元のピークであり、+Aピークであるのかを判断する方法を示す図である。 同一マーカーの複数個体について、元のピークと+Aピークの高さの比の外れ値がある様子を示す図である。 蛍光シグナルが強すぎて測定限界を超えた場合について、蛍光分析結果のグラフに現れる波形を示す図である。 ピークが完全には分離していない場合について、蛍光分析結果のグラフに現れる波形を示す図である。 真のピークと+Aピークと既報告ピークの位置関係を示す図である。 真のピークと+Aピークと既報告ピークの位置関係を示す図である。 真のピークと+Aピークと既報告ピークの位置関係および、左右のピークの高さ関係を示す図である。 真のピークと+Aピークと既報告ピークの位置関係および、左右のピークの高さ関係を示す図である。 ピークが分離した場合と完全には分離しなかった場合について、真のピークと+Aピークと既報告ピークの位置関係および、左右のピークの高さ関係を示す図である。 既報告ピーク周辺のピークの増減関係を示す図である。 +Aピークの出方を調べる個体として適しているかどうかの判断結果を表示する画面を示す図である。 既報告ピークのうちどれを持つのかの判断結果を表示する画面を示す図である。 既報告ピークが真のピークか+Aピークかについて、データ全体としての判断結果を示す図である。 既報告ピークが真のピークか+Aピークかについて、個体としての判断結果を示す図である。 既報告ピークが真のピークか+Aピークかについて、判断結果を示す図である。 既報告ピークが真のピークか+Aピークかについて、判断結果を示す図である。 既報告ピークが真のピークか+Aピークかについて、判断結果を示す図である。 本発明の一実施形態として構築される個体の遺伝子型推定方法の内部構成を概略的に示す機能ブロック図である。 図21に示す個体の遺伝子型推定方法のデータメモリ2106に含まれる実験データ2115のデータ構造を示す図である。 本発明の処理の流れを示すフローチャート図である。 既報告ピークの情報を用いて+Aピークの出方を調べる処理の詳細を示すフローチャート図である。 既報告ピークのうちどれを持つのかを調べる処理の詳細を示すフローチャート図である。 一番高いピーク周辺の既報告ピークを調べ、既報告ピークが真のピークか+Aピークかを調べる処理の詳細を示すフローチャート図である。 一番高いピークの左右一塩基のピークを調べ、既報告ピークが真のピークか+Aピークか判断する処理の詳細を示すフローチャート図である。 既報告ピーク周辺のピークの高さの増減を調べ、既報告ピークが真のピークか+Aピークかを調べる処理の詳細を示すフローチャート図である。
符号の説明
2100 実験データDB
2101 表示装置
2102 キーボード
2103 ポインティングデバイス
2104 中央処理装置
2105 プログラムメモリ
2106 データメモリ

Claims (20)

  1. DNA断片のPCR増幅産物について長さを分析した実験結果を各個体について、塩基長と対応するピークの断片長と、ピークの高さと、の組として記憶する記憶部を有し、 該記憶部に記憶されている前記実験結果を入力とし、該分析結果に現れるピークの判別を行う遺伝子情報の処理装置であって、
    各マイクロサテライトマーカーに対して現れ得る対立遺伝子のピークであって、真のピークとそのDNA断片に塩基Aが1つ付加された+Aピークとのいずれであるか分からないピーク(以下、「既報告ピーク」と称する。)のリストを追加入力として、前記各個体について、前記実験結果のデータに関して、+Aピークの出方を調べるのに適した個体であるか否かを判断する処理部と、
    該処理部の判断結果を出力する制御を行う出力制御部と、を有し
    前記処理部は、一番高いピークの1塩基以内に前記既報告ピークがない場合、一番高いピークは真のピークでもその+Aピークでもない偶発的なノイズピークであると判断し、+Aピークの出方を調べるのに適さない個体であると判断することを特徴とする遺伝子情報の処理装置
  2. DNA断片のPCR増幅産物について長さを分析した実験結果を各個体について、塩基長と対応するピークの断片長と、ピークの高さと、の組として記憶する記憶部を有し、 該記憶部に記憶されている前記実験結果を入力とし、該分析結果に現れるピークの判別を行う遺伝子情報の処理装置であって、
    各マイクロサテライトマーカーに対して現れ得る対立遺伝子のピークであって、真のピークとそのDNA断片に塩基Aが1つ付加された+Aピークとのいずれであるか分からないピーク(以下、「既報告ピーク」と称する。)のリストを追加入力として、前記各個体について、前記実験結果のデータに関して、+Aピークの出方を調べるのに適した個体であるか否かを判断する処理部と、
    該処理部の判断結果を出力する制御を行う出力制御部と、を有し
    前記追加入力としてunit長データが付加されており、
    前記処理部は、一番高いピークの周辺に、マイクロサテライトのunit長間隔でない既報告ピークがある場合は、+Aピークの出方を調べるのに適さない個体であると判断することを特徴とする遺伝子情報の処理装置。
  3. 前記処理部は、
    +Aピークの出方を調べるのに適すると判断された個体に関して、一番高いピークとその近傍の既報告ピークの位置関係を調べ、一番高いピークが既報告ピークと一致する場合、一番高いピークがこの個体が持つ既報告ピークであると判断することにより既報告ピークを特定することを特徴とする請求項1又は2に記載の遺伝子情報の処理装置。
  4. 前記処理部は、
    Aピークの出方を調べるのに適すると判断された個体に関して、一番高いピークとその近傍の既報告ピークの位置関係を調べ、一番高いピークの一塩基左隣のピークが既報告ピークと一致し、かつ、一番高いピークの一塩基右隣のピークは既報告ピークと一致しないか一番高いピークの一塩基左隣のピークより低い場合、一番高いピークの一塩基左隣のピークがこの個体が持つ既報告ピークであると判断することにより既報告ピークを特定することを特徴とする請求項1又は2に記載の遺伝子情報の処理装置。
  5. 前記処理部は、
    既報告ピークとして、本来観察されるべき真のピークが列挙されているか、該真のピークの+Aピークが列挙されているか、既報告ピークは真のピークと+Aピークのいずれであるか、を各個体について判断し、個体間の多数決によりデータ全体の判断することを特徴とする請求項1からまでのいずれか1項に記載の遺伝子情報の処理装置。
  6. 前記処理部は、
    ヘテロ接合体では2つの対立遺伝子のそれぞれについて既報告ピークは真のピークと+Aピークのいずれであるかを判断し、両方の対立遺伝子における判断が一致すればその判断結果を用い、一致しなければ判断を保留とすることを特徴とする請求項に記載の遺伝子情報の処理装置。
  7. 前記処理部は、
    一番高いピークとその近傍の既報告ピークの位置関係を調べ、既報告ピークは真のピークと+Aピークのいずれであるかを判断することを特徴とする請求項に記載の遺伝子情報の処理装置。
  8. 前記処理部は、
    一番高いピークの一塩基左隣のピークが既報告ピークと一致し、かつ、一番高いピークの一塩基右隣のピークは既報告ピークと一致しないか、或いは、一番高いピークの一塩基左隣のピークより低い場合、既報告ピークは真のピークであると判断することを特徴とする請求項に記載の遺伝子情報の処理装置。
  9. 前記処理部は、
    一番高いピークの一塩基右隣のピークが既報告ピークと一致し、かつ、一番高いピークの一塩基左隣のピークは既報告ピークと一致しないか、或いは、一番高いピークの一塩基右隣のピークより高い場合、既報告ピークは+Aピークであると判断することを特徴とする請求項記載の遺伝子情報の処理装置。
  10. 前記処理部は、
    一番高いピークが既報告ピークと一致する場合に、真のピークの左右一塩基隣のピークの高さを比較することにより、既報告ピークが真のピークと+Aピークのいずれであるかを判断することを特徴とする請求項7から9までのいずれか1項に記載の遺伝子情報の処理装置。
  11. 前記処理部は、
    一番高いピークの右一塩基隣のピークは左一塩基隣のピークよりも高い場合に、真のピークの方が+Aピークよりも高く既報告ピークと真のピークが一致すると判断することを特徴とする請求項10に記載の遺伝子情報の処理装置。
  12. 前記処理部は、
    一番高いピークの右一塩基隣のピークは左一塩基隣のピークよりも低い場合に、真のピークの方が+Aピークよりも低く既報告ピークと真のピークの+Aピークが一致していると判断することを特徴とする請求項10に記載の遺伝子情報の処理装置。
  13. 前記処理部は、
    左右一塩基のピークはいずれも認識されない場合は既報告ピークが真のピークか真のピークの+Aピークかという判断は保留することを特徴とする請求項10に記載の遺伝子情報の処理装置。
  14. 前記処理部は、
    一峰性のピークの塊である場合には、unit長ずつ離れたピークの増減関係を調べることにより、既報告ピークが真のピークと+Aピークのいずれであるかを判断することを特徴とする請求項に記載の遺伝子情報の処理装置。
  15. 既報告ピークからunit長ずつ離れたピーク群の高さの増減に関する第1の増減関係と、既報告ピークの一塩基右隣からunit長ずつ離れたピーク群の高さの増減に関する第2の増減関係と、を調べ、
    塩基長が短い方を基点とする前記第1の増減関係と塩基長が長い方を基点とする前記第2の増減関係とを組として複数の組について前記第1の増減関係と前記第2の増減関係との増減関係が一致する場合に、第1の増減関係に基づいて増減を調べたピークは真のピークであり、第2の増減関係に基づいて増減を調べたピークは+Aピークであると判断することを特徴とする請求項14に記載の遺伝子情報の処理装置。
  16. 既報告ピークからunit長ずつ離れたピーク群の高さの増減に関する第1の増減関係と、既報告ピークの一塩基左隣からunit長ずつ離れたピーク群の高さの増減に関する第2の増減関係と、を調べ、
    塩基長が短い方を基点とする前記第2の増減関係と塩基長が長い方を基点とする前記第1の増減関係とを組として複数の組について前記第1の増減関係と前記第2の増減関係との増減関係が一致する場合に、第1の増減関係に基づいて増減を調べたピークは+Aピークであり、第2の増減関係に基づいて増減を調べたピークは真のピークであると判断することを特徴とする請求項14に記載の遺伝子情報の処理装置。
  17. 前記判断結果を前記出力制御部の制御に基づいて表示する表示部を有することを特徴とする請求項1から16までのいずれか1項に記載の遺伝子情報の処理装置。
  18. DNA断片のPCR増幅産物について長さを分析した分析結果を入力とし、該分析結果に現れるピークの判別を行う遺伝子情報の処理方法であって、
    各マイクロサテライトマーカーに対して現れ得る対立遺伝子のピークであって、真のピークとそのDNA断片に塩基Aが1つ付加された+Aピークとのいずれであるか分からないピーク(以下、「既報告ピーク」と称する。)のリストを追加入力として、+Aピークの出方を調べるのに適した個体であるか否かを、一番高いピークの1塩基以内に前記既報告ピークがない場合、一番高いピークは真のピークでもその+Aピークでもない偶発的なノイズピークであると判断し、+Aピークの出方を調べるのに適さない個体であると判断するステップを有することを特徴とする遺伝子情報の処理方法。
  19. コンピュータに請求項18に記載の遺伝子情報の処理方法を実行させるためのプログラム。
  20. 請求項19に記載のプログラムを記録するコンピュータ読みとり可能な記録媒体。
JP2007087642A 2007-03-29 2007-03-29 遺伝子情報の処理装置及び表示装置 Expired - Fee Related JP5090766B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007087642A JP5090766B2 (ja) 2007-03-29 2007-03-29 遺伝子情報の処理装置及び表示装置
US12/010,599 US20090182512A1 (en) 2007-03-29 2008-01-28 Gene information processing apparatus and gene information display apparatus
EP08001627A EP2040187A1 (en) 2007-03-29 2008-01-29 Gene information processing apparatus and gene information display apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007087642A JP5090766B2 (ja) 2007-03-29 2007-03-29 遺伝子情報の処理装置及び表示装置

Publications (2)

Publication Number Publication Date
JP2008250401A JP2008250401A (ja) 2008-10-16
JP5090766B2 true JP5090766B2 (ja) 2012-12-05

Family

ID=39975317

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007087642A Expired - Fee Related JP5090766B2 (ja) 2007-03-29 2007-03-29 遺伝子情報の処理装置及び表示装置

Country Status (3)

Country Link
US (1) US20090182512A1 (ja)
EP (1) EP2040187A1 (ja)
JP (1) JP5090766B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112014002045B4 (de) 2013-05-24 2017-05-24 Hitachi High-Technologies Corporation Nucleinsäure-Analysator und Nucleinsäure-Analysenverfahren unter Verwendung des Analysators

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5580728A (en) * 1994-06-17 1996-12-03 Perlin; Mark W. Method and system for genotyping
US5876933A (en) * 1994-09-29 1999-03-02 Perlin; Mark W. Method and system for genotyping
US6274317B1 (en) * 1998-11-02 2001-08-14 Millennium Pharmaceuticals, Inc. Automated allele caller
US20020116135A1 (en) * 2000-07-21 2002-08-22 Pasika Hugh J. Methods, systems, and articles of manufacture for evaluating biological data
JP4468773B2 (ja) * 2004-09-09 2010-05-26 日立ソフトウエアエンジニアリング株式会社 遺伝子情報の表示方法及び表示装置

Also Published As

Publication number Publication date
US20090182512A1 (en) 2009-07-16
JP2008250401A (ja) 2008-10-16
EP2040187A1 (en) 2009-03-25

Similar Documents

Publication Publication Date Title
De Coster et al. Towards population-scale long-read sequencing
Sun et al. SHOREmap v3. 0: fast and accurate identification of causal mutations from forward genetic screens
CN104937598A (zh) 靶向的测序读取值的准确且快速的定位
Muller et al. OutLyzer: software for extracting low-allele-frequency tumor mutations from sequencing background noise in clinical practice
KR20180060764A (ko) 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
EP1635276B1 (en) Display method and display apparatus of gene information
Tanudisastro et al. Sequencing and characterizing short tandem repeats in the human genome
US7783430B2 (en) Genotyping result evaluation method and system
Ahsan et al. A survey of algorithms for the detection of genomic structural variants from long-read sequencing data
KR20180060759A (ko) 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
US20060122791A1 (en) Method and apparatus for displaying gene information
JP5090766B2 (ja) 遺伝子情報の処理装置及び表示装置
KR101882867B1 (ko) 변이 검출 표지의 신뢰도 결정 방법 및 장치
JP4922646B2 (ja) 遺伝子情報の表示方法及び表示装置
JP4414823B2 (ja) 遺伝子情報の表示方法及び表示装置
Willet et al. From the phenotype to the genotype via bioinformatics
JP2017016665A (ja) 配列のデータからの変異情報の選択方法、システム、及び、コンピュータプログラム
Phillips Ancestry informative markers
JP3878503B2 (ja) 核酸塩基配列決定方法
CN110310699A (zh) 基于全基因组序列挖掘目标基因序列的分析工具及应用
CN117672354B (zh) 比较哺乳动物近源物种完整基因组组装质量的方法和装置
JP2008165375A (ja) 塩基配列を識別する変異セットの選別法
TW201323615A (zh) 核酸變異的偵測方法、電腦系統及電腦程式產品
JP2007259847A (ja) 遺伝子型判定結果の評価方法及び評価システム
Shao et al. Leveraging Random Effects in Cistrome‐Wide Association Studies for Decoding the Genetic Determinants of Prostate Cancer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090702

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120911

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120913

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees