JP2007133476A - 遺伝子解析のためのデータ入力支援システム - Google Patents

遺伝子解析のためのデータ入力支援システム Download PDF

Info

Publication number
JP2007133476A
JP2007133476A JP2005323401A JP2005323401A JP2007133476A JP 2007133476 A JP2007133476 A JP 2007133476A JP 2005323401 A JP2005323401 A JP 2005323401A JP 2005323401 A JP2005323401 A JP 2005323401A JP 2007133476 A JP2007133476 A JP 2007133476A
Authority
JP
Japan
Prior art keywords
data
error
input
locus
genotype
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005323401A
Other languages
English (en)
Other versions
JP5144891B2 (ja
Inventor
Toshiko Matsumoto
俊子 松本
Akira Nakashige
亮 中重
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2005323401A priority Critical patent/JP5144891B2/ja
Priority to EP06022934A priority patent/EP1783646A1/en
Priority to US11/593,171 priority patent/US20070106481A1/en
Publication of JP2007133476A publication Critical patent/JP2007133476A/ja
Priority to US12/458,222 priority patent/US20100023271A1/en
Application granted granted Critical
Publication of JP5144891B2 publication Critical patent/JP5144891B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】連鎖不平衡解析等を行うプログラムに対する遺伝子型データの入力の際に、予め特定のエラー原因を除去しておくためのデータ入力支援システムを提供する。
【解決手段】入力データにおいて、遺伝子型データに対する特徴的な制約条件、データセット全体における統計的性質を利用することで、起こり得るエラーを前処理プログラムで検出し、エラーとその原因となる誤記入とを結び付けて指摘し、指摘に対するユーザの入力を受け付けて入力データを修正したものを出力する。
【選択図】図1

Description

本発明は、個体の疾患や外形的特徴などの表現型に関与している遺伝子を特定するための遺伝子解析において、適切な遺伝子型データを解析システムに入力するための支援システムに関するものである。
ヒトや動植物のゲノム解読が進み、遺伝子の機能を解析する研究が活発に行われている。そのなかでも特に注目されているのが、連鎖不平衡解析によって、ゲノムの中から個体の疾患や外形的特徴などの表現型(形質)に関与している遺伝子を探索する研究である。まず、図32を参照しながら、同種の生物の個体A〜Z間でゲノムを比較した場合を考えてみる。通常、同種の生物の個体はほぼ似通った塩基配列を有しているが、いくつかの個所では異なった塩基を有している。図32では、各個体は遺伝子座1及び遺伝子座2において異なる塩基を有している。ここで、遺伝子座(locus)とは、ゲノムの塩基配列における特定の位置のことを言う。
このように個体間でゲノム上の単一の塩基に多型性が見られることをSNP(Single Nucleotide Polymorphism)と言う。通常は、1つの遺伝子座に2種類の塩基(例えばA,T)のうちいずれかが存在しているが、ごくまれに3種類以上の塩基(例えばA,T,G)のうちいずれかが存在していることもある。図32に示す例では、遺伝子座1にTを持つ個体が多いので、遺伝子座1ではTがメジャーでありAがマイナーであると言う。同様に、遺伝子座2では、GがメジャーでありCがマイナーであるということになる。
また、1つの遺伝子座において、ある個体はAを有しており、他の個体は有していない場合などがある。このとき、1つ目の個体から見ると2つ目の個体のゲノムは1塩基Aを欠いている(deletionを持つ)ことになるが、逆に2つ目の個体から見ると1つ目の個体のゲノムには1塩基Aが挿入されていることになる。このように、個体間で1つの遺伝子座において1塩基の有無が異なる多型のことを1塩基のin/del(insertion/deletionの略)と呼ぶ。
ところで、多くの生物の個体は、雌性配偶子と雄性配偶子に由来する1組のゲノム(相同染色体)を有している。1組のゲノム上の互いに対応する部位に存在する遺伝子を、それぞれ対立遺伝子(allele)と言い、これらの組み合わせを遺伝子型(genotype)と言う。上記したように、ゲノム上には個体間で塩基配列が異なる部分が存在するので、2つの対立遺伝子は、同じである場合と異なっている場合がある。特定の部位の遺伝子に着目したとき、同じ種類の対立遺伝子を2つ持っている状態をホモ接合、異なる種類の対立遺伝子を1つずつ持っている状態をヘテロ接合と言う。
染色体が親から子に伝わる際、減数分裂によって1本のゲノムが交叉しながら伝わるため、遺伝子の組換えが起こる。一般的に、ゲノム上で距離が離れた2つの遺伝子は組換えが起こりやすく、ゲノム上で距離が近い2つの遺伝子は組換えが起こりにくいと考えられている。ゲノム上の2つの遺伝子座における遺伝子が繋がったまま親から子に伝わる傾向があるとき、2つの遺伝子座は連鎖(linkage)していると言う。
従来、少数の遺伝子が関与する遺伝性疾患について、患者を含む大家系を入力とするプログラム“LINKAGE”などを用いた連鎖解析により遺伝子探索が行われてきた。
連鎖解析プログラム例:LINKAGE
米国Rockefeller大学開発。患者を含む大家系の遺伝子型データに対し、連鎖解析を行う。
ftp://linkage.rockefeller.edu/software/linkage/
一方で、現在注目されている多因子性疾患(生活習慣病など患者数が多く多数の遺伝子に加え環境因子も関与すると考えられている疾患)に影響を与える遺伝子の探索においては、血縁関係のない一般集団を用いて以下に説明する連鎖不平衡解析が活発に行われている。
雌性配偶子又は雄性配偶子由来の1本のゲノム上において、複数の連鎖する遺伝子座に存在する対立遺伝子の組み合わせをハプロタイプと言う。1組2本の相同ゲノムを有する個体は、常に1組2つのハプロタイプを持つこととなる。
連鎖する複数の遺伝子座において、ある特定のハプロタイプの頻度が、それぞれの遺伝子座における対立遺伝子頻度を掛け合わせて得られる頻度からかけ離れている現象が観察されることがある(複数の遺伝子座間における対立遺伝子の分配が独立でない)。このとき、それらの遺伝子座は連鎖不平衡(linkage disequilibrium)にあると言う。
上記の連鎖不平衡を解析することにより、ゲノムの中から個体の疾患や外形的特徴などの表現型(形質)に関与している遺伝子を探索することができる。その手法を2つ説明する。1つ目の手法は以下の通りである。単一集団で比較的頻度の高い疾患の病因遺伝子の多くは、共通の祖先遺伝子における突然変異に由来すると推定される(common disease common variant hypothesis)。そうすると、その突然変異が起きた遺伝子座の近傍のSNP対立遺伝子も、病因遺伝子とともに一塊として受け継がれていると考えられる。すなわち、病因遺伝子の遺伝子座とその周辺のSNP遺伝子座との間には連鎖不平衡が存在すると考えられる。そこで、ゲノム上のこの領域を連鎖不平衡ブロック、あるいはハプロタイプブロックと呼んでいる。特定の疾患を有する個体が共通して有するハプロタイプブロックを探索することにより、疾患原因となっている遺伝子を特定することができる。2つ目の手法は以下の通りである。上記のcommon disease common variant hypothesisにより、突然変異が起きた遺伝子の近傍のSNP対立遺伝子は病因遺伝子とともに患者集団に受け継がれているとすると、対立遺伝子の頻度が患者集団と健常者集団とで異なることになる。このことから、逆に、対立遺伝子の頻度が患者集団と健常者集団とで異なるSNPの近傍に病因遺伝子があると考えられる。同様に、複数のSNPをまとめて考え、ハプロタイプの頻度を患者集団と健常者集団とで比較する手法も用いられている。
通常、連鎖不平衡解析を用いて表現型に関与する遺伝子を探索する際には、数十〜数百、時には千個体以上の個体サンプルを用いて、数〜数百、時には1万程度の遺伝子座について遺伝子型を調べる。また、遺伝子型データを入力とし、連鎖不平衡解析を行うためのプログラムは、以下に示すように多数開発・提供されている。
連鎖不平衡解析プログラム例1:ARLEQUIN
スイスUniversity of Geneva開発。家系の情報を含まない遺伝子型データに対し、ハーディ・ワインバーグ平衡検定および連鎖不平衡の計算を行う。
Stefan Schneider, David Roessli, and Laurent Excoffier (2000) Arlequin ver. 2.000: A software for population genetics data analysis. Genetics and Biometry Laboratory, University of Geneva, Switzerland.
連鎖不平衡解析プログラム例2:Haploview
米Whitehead Institute開発。家系の情報を含まない遺伝子型データに対し、遺伝子座ごとのmissingサンプル数の確認、ハーディ・ワインバーグ平衡(後述)の確認、遺伝子座間の距離の確認、マイナーな対立遺伝子の頻度の確認、ハプロタイプブロックの計算を行う(非特許文献1参照)。
連鎖不平衡解析プログラム例3:Varia
米Silicon Genetics社開発(出願時現在、米Agilent Technologies社から”GeneSpring GT”として同じソフトウェアが提供されている)。家系の情報を含む遺伝子型データや含まない遺伝子型データに対し、ハプロタイプブロックの計算などの解析を行う。
http://www.silicongenetics.com/cgi/SiG.cgi/Products/Varia/features.smf
連鎖不平衡解析を行うためのプログラムで用いられる、入力データ(遺伝子型データ)の記述形式には、図33に説明するIUBコード形式などがある。IUBコード形式では、1行目には遺伝子座名を並べて記述し(3300)、2行目以降には、個体ごとのデータを記述する(3301)。個体ごとのデータの記述においては、行の冒頭に疾患の有無を記述し(3302)、次に個体識別子を記述し(3303)、その後、その個体が持つ遺伝子型を1行目の遺伝子座の順序で並べて記述する(3304)。疾患の有無については、患者は「Patient」で健常者は「Normal」で記述される。遺伝子型については、図34に示すIUBコードで記述される。図33の例では、個体p001は患者であり、遺伝子座Locus1ではAとTのヘテロ接合、遺伝子座Locus2ではAのホモ接合である。missingとは、実験の失敗などにより遺伝子型データが欠損している場合を指す。また、図34に示す遺伝子型の記述のうち、「-」,「a」,「t」,「g」,「c」はin/del多型において現れる。
また、ハプロタイプブロックを求める際、遺伝子座同士の距離(何塩基離れているか)を考慮して計算するアルゴリズムが提案されている。このため、入力データで各遺伝子座の位置を指定する必要がある。このためのフォーマットとしては、図35に説明する形式などがある。これは、各行に遺伝子座ごとのデータを記述するものであり、行の冒頭に遺伝子座名を記述し(3500)、次に物理位置(染色体の先頭から数えて何塩基目か)を記述する(3501)。
J. C. Barrett, B. Fry, J. Maller and M. J. Daly, "Haploview: analysis and visualization of LD and haplotype maps", Bioinformatics vol. 21 no. 2 (2005), pages 263-265
プログラムを用いて病因遺伝子の探索を行う際、入力データの中に誤記入が混入してしまうことが問題となる。プログラムは、入力データとして完全に正しいデータが与えられると想定している。しかし、実験により得られた遺伝子型データは手作業で電子データ化およびフォーマット変更される場合が多いため、入力データの誤りを完全に防ぐことは難しい。さらに、手作業でのデータ入力の際に生じるエラーに加え、実験の誤りにより生じるエラーも含めると、非常に多くの種類のエラーが起こり得る。
従来行われていた連鎖解析に対しては、VariaおよびCheckfamなど、親子関係を利用して遺伝子型データに矛盾がないか確認する手法が提供されている。
連鎖解析用の、遺伝子型データの矛盾検出プログラム例:Checkfam
東京女子医科大学開発。家系の情報を含む遺伝子型データに対し、対立遺伝子の伝達の矛盾を探す。
http://www.genstat.net/checkfam/index.cgi?lang=ja
しかしながら、連鎖不平衡解析の入力データに関しては、以下に挙げるように様々なエラーが起こり得るにもかかわらず、従来何ら対策がなされていない。
エラー1:遺伝子座の物理位置を必要とするプログラムに対する入力データにおいて、該当入力データが用意されていない
この場合は、入力ファイルが不十分であるため、解析プログラムを実行させることができない。
エラー2:遺伝子座は物理位置の順(染色体上の順序)で並んでいることが想定されているプログラムに対する入力データにおいて、遺伝子座が正しく並んでいない
この場合は、プログラムが途中で異常終了してしまう可能性や、プログラムを実行させることはできても解析結果が意図したものと異なる可能性がある。さらに、見かけ上プログラムが最後まで実行された場合、研究者は解析結果が意図したものと異なることに気づかない危険性も考えられる。
エラー3:遺伝子座の物理位置には重複がないことが想定されているプログラムに対する入力データにおいて、同じ物理位置を持つ遺伝子座が複数ある
染色体のゲノム配列のデータが更新された時の数え直し処理や、in/del多型をどのように数えるかのポリシーにより、一貫性が失われて物理位置の重複が生じる危険性がある。
エラー4:特定の遺伝子座について遺伝子型データがまったく指定されていない・物理位置が指定されていない
SNPの中には発見時の経緯により複数の遺伝子座名を持つSNPがある。また、遺伝子座名を記述する際、ABI社で開発されたSNPの遺伝子座名の末尾に「(ABI)」を付けたり、JSNPプロジェクトで開発されたSNPの遺伝子座名の末尾に「(JSNP)」を付けたりする場合がある。この場合は、手作業で入力データを作成しているうちにこれらの付加文字列が抜け落ちたり、全角文字になったりする危険性がある。これらの原因により遺伝子座名の不整合が生じると、プログラムの処理上は特定のSNPについて遺伝子型データがまったく指定されていない・物理位置が指定されていないかのように扱われてしまい、原因究明・解決までに時間を要する。
エラー5:想定外の文字列が遺伝子型として用いられる
図34に示したIUBコードではmissingデータを「0」で表記することが想定されている。しかし、誤ってmissingデータを「*」(アスタリスク)などの記号で表記してしまったり、AとTのヘテロ接合を「W」ではなく「AT」と2つの対立遺伝子をつなげて表記してしまったりする場合がある。この場合は想定外の文字列が現れたことになるため、プログラムが途中で異常終了してしまう可能性がある。
エラー6:患者集団と健常者集団とを用いて解析を行うことが想定されているプログラムに対する入力データにおいて、想定外の集団に属する個体が用いられている・片方の集団しかない
図33に示した形式では、患者は「Patient」健常者は「Normal」で記述されることが想定されている。しかし、誤って患者を「Case」健常者を「Control」と記述してしまったり、大文字と小文字を間違えて記述してしまったりする場合がある。また、患者の個体識別子は「P」から始まるもの、健常者の個体識別子は「N」から始まるものを指定し、疾患の有無の指定を省略してしまう場合がある。これらの場合は、プログラムが途中で異常終了してしまう可能性がある。
エラー7:対立遺伝子を3つ以上持つ遺伝子座がある
この原因としては次の4つが考えられる。
原因の1つ目は、本当にその遺伝子座に3つ以上の対立遺伝子があった場合で、この場合は誤記入ではない。ただし、塩基配列読み取り実験やDNAマイクロアレイなどを用いた場合は3種類以上の対立遺伝子を識別できるが、TaqManアッセイなどでは2種類しか識別できない場合があるため、実験手法の特性を考慮する必要がある。SNPを対象とするプログラムには各遺伝子座における対立遺伝子は2つであると仮定しているものがあり、そのようなプログラムではこの遺伝子座を解析対象外とするか、または最も頻度が低い対立遺伝子を最も頻度が高い対立遺伝子と併合させなくてはならない。
原因の2つ目は、ヘテロ接合の遺伝子型を誤って記入してしまった場合である。図36の3600において個体P03は遺伝子座Locus2において対立遺伝子GとCを持つ。図34に示すように、GとCのヘテロ接合は「S」と表記されるべきところ、誤って「K」と表記してしまったとする。KはGとTのヘテロ接合を表すので、実際には対立遺伝子を2つ(GとC)しか持たないにも関わらず、3つ(GとCとT)持つと判断されることになってしまう。
原因の3つ目は、missingデータを「0」ではなく空白文字(半角スペース、タブなど)で表記してしまった場合である。図36の個体P02は遺伝子座Locus2の遺伝子型が欠損している。missingデータを「0」で表記するべきところ、3601に示すように半角スペースで表記してしまったとする。連鎖不平衡解析プログラムでは半角スペースは区切り文字として扱われるので、Locus2以降の各遺伝子座における遺伝子型データは1つずつずれてしまい、3602に示すデータであると解釈される。遺伝子座Locus2、3においては、実際のデータ(3601と3602の灰色の太線で結んだ遺伝子型データ)では対立遺伝子を2つしか持たないにも関わらず、連鎖不平衡解析プログラムが解釈した結果(3601と3602の灰色の点線で結んだ遺伝子型データ)では対立遺伝子を3つ以上持つと判断されることになり、終端の遺伝子座Locus4における個体P02の遺伝子型は未指定となってしまう。
原因の4つ目は、ヘテロ接合の遺伝子型を誤って表記してしまった場合である。図36の個体P03の遺伝子座Locus2における遺伝子型は「S」と表記されるべきところ、3603に示すように「G C」と2つの対立遺伝子を半角スペースでつなげて表記してしまったとする。この場合は、Locus3以降の遺伝子型における遺伝子型データは、3601に示した例とは逆の向きに遺伝子型データがずれてしまい、3604に示すデータであると解釈される。遺伝子座Locus3、4においては、実際のデータ(3603と3604の灰色の太線で結んだ遺伝子型データ)では対立遺伝子を2つしか持たないにも関わらず、連鎖不平衡解析プログラムが解釈した結果(3603と3604の灰色の点線で結んだ遺伝子型データ)では対立遺伝子を3つ以上持つと判断されることになり、個体P03は終端の遺伝子座(遺伝子座名は未指定)における遺伝子型が指定されていることになってしまう。
上記の第3、第4の原因の場合においては、誤記入とプログラムの異常終了とを結び付けて考えることが難しいだけでなく、千個体以上のサンプル個体・数百の遺伝子座などの大量データから誤記入を見つけるのは非常に困難で、原因究明・解決までに時間を要する。
エラー8:全ての遺伝子座に多型があることが想定されているプログラムに対する入力データにおいて、多型がない遺伝子座が含まれている
JSNPなどの公共データベースに登録されている遺伝子座を用いた場合は、データベースでは多型があるとして登録されていても研究者が持っているサンプル内では多型がない(単型である)場合がある。連鎖不平衡解析のアルゴリズムによっては、解析に用いる全ての遺伝子座で多型があることを想定して定義されているものがある。例えば、連鎖不平衡係数のD’は対立遺伝子の頻度での割り算を行うため、頻度が0である対立遺伝子を含む遺伝子座においては定義されていない。このようなプログラムの入力データに多型がない遺伝子座が含まれていると、プログラムが途中で異常終了してしまう可能性や、プログラムを実行させることはできても解析結果が意図したものと異なる可能性がある。
エラー9:対立遺伝子としてA・T・G・Cしか現れないと想定しているプログラムに対する入力データにおいて、in/del多型が含まれる遺伝子座がある
この場合は、プログラムが途中で異常終了してしまう可能性や、プログラムを実行させることはできても解析結果が意図したものと異なる可能性がある。
エラー10:ヘテロ接合の個体が極端に多い遺伝子座がある
遺伝子型を調べる実験を行うには、それぞれの遺伝子座ごとにプローブと呼ばれる短い塩基配列を用意することが多い。JSNPやABI社が用意したSNPなどでは、プローブがゲノム上で1箇所だけに反応することが確かめられていると期待できるが、dbSNPなど不特定多数が投稿できる公共データベースに登録されているSNPや研究者が独自に用意したSNPでは、まれに図37の3700に示すように2箇所に反応してしまう場合がある。この場合は、実際には遺伝子座Locus2-1にも遺伝子座Locus2-2にも多型がないにも関わらず、3701に示すように、ほぼ全ての個体がTとCのヘテロ接合である単一の遺伝子座Locus2(点線で囲んだ部分)であるかのような実験結果が得られてしまう。
エラー11:ホモ接合の個体が極端に多い遺伝子座がある
この原因としては次の2つが考えられる。1つ目は、実際にサンプル集団の多くがホモ接合の場合である。病因となる変異をホモ接合で持つとヘテロ接合で持つ場合より発症リスクが大きくなる疾患においては、患者集団でホモ接合の頻度が高くなる場合がある。原因の2つ目は、サンプル集団が2種類の集団が混ざっているものだった場合である。例えば、人種1は全ての個体がCを持ち、人種2は全ての個体がGを持つ遺伝子座Locus3があったとする。サンプル集団が2つの人種を含む場合は、図38に示すように、それぞれの人種では多型がないにも関わらず、この遺伝子座には多型があるかのように思われてしまう。このような複数の集団が混在したサンプルでは適切な解析ができない。
エラー12:ヘテロ接合の遺伝子座が極端に多い個体がいる
実験中に他サンプルのDNAが混入してしまう場合がある。図39の3900に示すような状況において個体P01のサンプルに個体P02のDNAが混入してしまったとすると、実際には遺伝子座Locus1では対立遺伝子としてA、Locus2ではGしか持っていないにも関わらず、3901に示すようにAとTおよびGとCを持っているかのように観測される。このため、多くの遺伝子座でヘテロ接合であるとの実験結果が得られてしまう。
エラー13:ホモ接合の遺伝子座が極端に多い個体がいる
図40に示す例では、個体P03は全ての遺伝子座でホモ接合である。このような個体は、特殊な個体(家系内に近親婚があるなど)である可能性がある。連鎖不平衡解析においては、サンプルは患者集団および健常者集団からランダムに選ばれたと仮定しているため、この個体を除外して解析した方が良い場合が多い。
エラー14:missingデータが多い個体がいる
図41に示すように、特定の個体(ここではP01)において実験を高頻度で失敗し、missingデータが多くなってしまう場合がある。このような場合は、ハプロタイプ推定精度が低くなってしまったり、信頼区間の幅が広がってしまったりする可能性がある。したがって、個体P01を含めた場合と除いた場合で2通り解析してみることが望ましい。
エラー15:missingデータが多い遺伝子座がある
図42に示すように、特定の遺伝子座(ここではLocus2)において実験を高頻度で失敗し、missingデータが多くなってしまう場合がある。また、2つ以上の研究機関で得られた遺伝子型データを合わせて解析する際、Locus2は片方の研究機関でしか実験をしなかったとすると、もう片方の研究機関から得られたデータではLocus2のデータは全てmissingデータとして扱われる。このような場合は、エラー14の場合と同様に、Locus2を含めた場合と除いた場合で2通り解析してみることが望ましい。
エラー16:サンプル集団がハーディ・ワインバーグ平衡からずれている
集団に十分な個体数があり、他集団への個体の移動がなく、集団内での任意婚が成立し、突然変異や自然淘汰がない場合は、その集団はハーディ・ワインバーグ平衡にあると言う。解析に用いたサンプル集団がハーディ・ワインバーグ平衡からずれていた場合は、ランダムサンプリングできなかったのではないかと疑われ、適切な解析ができない可能性がある。
エラー17:解析に用いる遺伝子座の中に、極端に遠く離れたものがある
遺伝子座間の距離が極端に離れている場合は、その遺伝子座間が連鎖不平衡にある(祖先から一塊として受け継がれている)とは考えにくい。したがって、連鎖不平衡解析を行う際、このような遺伝子座を1度に解析するべきではない。
エラー18:極端にまれな対立遺伝子を持つ遺伝子座がある
遺伝統計解析による病因遺伝子探索においては、通常、マイナーな対立遺伝子の頻度が5%以上である遺伝子座のみを解析に用い、望ましくは10%〜30%を下限とした方が良いとされている。これは、対立遺伝子頻度が極端に低い遺伝子座を用いることにより統計的検定の検出力が下がってしまうのを防ぐためである。したがって、この遺伝子座を含めた場合と除いた場合で2通り解析してみることが望ましい。
本発明は、連鎖不平衡解析等を行うプログラムに対する遺伝子型データの入力の際に、予め上記したようなエラー原因を検出し、除去することができるデータ入力支援システムを提供しようとするものである。
上記解決課題に鑑みて鋭意研究の結果、本発明者は、入力される遺伝子型データにおける特徴的な制約条件やデータセット全体における統計的性質に着目して、起こり得るエラーの類型を予め想定しておき、入力データに対する前処理によってこれらのエラーを検出し、検出されたエラーとその原因である誤記入とを結び付けてユーザに指摘するデータ入力支援システムを提案する。このようなデータ入力支援システムにより、適正なデータを用いて連鎖不平衡解析が効率的に行われることとなり、ユーザの意図とは異なる解析結果が出力されてしまうことがなくなる。より具体的には、以下に示す機能1〜15をもって、それぞれ上記のエラー1〜15を解決する手段とする。
機能1:解析プログラムごとに入力データとして遺伝子座の物理位置を必要とするかどうかの情報を保持しておき、ユーザが指定した解析プログラムが遺伝子座の物理位置の指定を必要とするにも関わらず入力データで指定されていない場合は、指摘を行う。
機能2−1:解析プログラムごとに遺伝子座が物理位置の順に並んでいると想定しているかどうかの情報を保持しておき、ユーザが指定した解析プログラムが遺伝子座が物理位置の順に並んでいることを想定しているにも関わらず入力データで並んでいない場合は、指摘を行う。
機能2−2:機能2−1に該当する場合は、遺伝子座を並べ替えた修正版入力データを作成する。
機能3:遺伝子座の物理位置に重複がないか確認し、重複がある場合は指摘を行う。
機能4−1:遺伝子型データがどの個体でも未指定になっている遺伝子座と物理位置が未指定になっている遺伝子座があるか確認する。そのような遺伝子座の組があった場合は、類似した遺伝子座名でないか確認し、類似した遺伝子座名である場合は、遺伝子座名の誤記入の可能性がある旨指摘を行う。
機能4−2:機能4−1に該当する場合は、片方の遺伝子座名で統一した修正版入力データを作成する。
機能5−1:遺伝子型データとして「*」(アスタリスク)などの記号が指定されていないか確認し、そのような遺伝子型があった場合は、missingデータを誤記入している可能性がある旨指摘を行う。
機能5−2:機能5−1に該当する場合は、該当する遺伝子型をmissingデータ「0」で置き換えた修正版入力データを作成する。
機能5−3:遺伝子型データとして「AT」など、対立遺伝子2つをつなげた文字列が指定されていないか確認し、そのような遺伝子型があった場合は、ヘテロ接合の遺伝子型を誤って表記している可能性がある旨指摘を行う。
機能5−4:機能5−3に該当する場合は、該当するヘテロ接合の遺伝子型を置き換えた修正版入力データを作成する。
機能5−5:遺伝子型データとして「N」など想定外の文字列が指定されていないか確認し、そのような遺伝子型があった場合は指摘を行う。
機能6−1:解析プログラムごとに入力データとして患者と健常者を用いることを想定しているかどうかの情報を保持しておき、ユーザが指定した解析プログラムが患者と健常者を用いることを想定しているにも関わらず集団名が指定されていない場合は、指摘を行う。
機能6−2:集団名として「Case」、「Control」または「Patient」と「Normal」の大文字・小文字を間違えたものが指定されていないか確認し、そのような「Patient」または「Normal」の誤記入の可能性がある旨指摘を行う。
機能6−3:機能6−2に該当する場合は、集団名を「Patient」または「Normal」で置き換えた修正版入力データを作成する。
機能6−4:解析プログラムごとに入力データとして患者と健常者を用いることを想定しているかどうかの情報を保持しておき、ユーザが指定した解析プログラムが患者と健常者を用いることを想定しているにも関わらず集団名として「Japanese」など想定外の文字列が指定されている場合は、指摘を行う。
機能7−1:解析プログラムごとの各遺伝子座における対立遺伝子は2つであると仮定しているかどうかの情報と、遺伝子座ごとの実験手法の情報を保持しておき、ユーザが指定した解析プログラムが対立遺伝子は2つであると仮定していたり、2種類の対立遺伝子しか識別できない実験手法を用いていたりするにも関わらず対立遺伝子を3つ以上持つ遺伝子座があった場合は、指摘を行う。
機能7−2:機能7−1に該当する場合は、その遺伝子座を解析対象から除いた修正版入力データを作成する。
機能7−3:機能7−1に該当する場合は、頻度の高さが3番目以降の対立遺伝子を最も頻度が高い対立遺伝子と併合させた修正版入力データを作成する。
機能7−4:対立遺伝子を3つ以上持つ遺伝子座がないか確認する。そのような遺伝子座があった場合は、以下の2つの条件を全て満たすか確認する。2つの条件を両方満たす場合は、頻度が高い2つの対立遺伝子のヘテロ接合の遺伝子型を誤記入している可能性がある旨指摘を行う。1)頻度が高い2つの対立遺伝子はホモ接合としてのみ現れ、頻度が高い2つの対立遺伝子のヘテロ接合の個体はない。2)頻度の高さが3番目以降の対立遺伝子はヘテロ接合としてのみ表れ、頻度の高さが3番目以降の対立遺伝子のホモ接合の個体はない。
機能7−5:機能7−4に該当する場合は、ヘテロ接合の遺伝子型を書き換えた修正版入力データを作成する。
機能7−6:対立遺伝子を3つ以上持つ遺伝子座がないか確認する。そのような遺伝子座があった場合は、以下の4つの条件を全て満たすか確認する。4つの条件をすべて満たす場合は、missingデータを空白文字(半角スペース、タブなど)で表記してしまった可能性がある旨指摘を行う。1)その遺伝子座以降に対立遺伝子を3つ以上持つ遺伝子座が頻発する。2)3つ以上の対立遺伝子を持つそれぞれの遺伝子座において、頻度の高さが3番目以降の対立遺伝子を持つ個体は共通である。3)頻度の高さが3番目以降の対立遺伝子を共通して持つ個体は、終端の遺伝子座における遺伝子型が未指定である。4)3つ以上の対立遺伝子を持つそれぞれの遺伝子座において、頻度の高さが3番目以降の対立遺伝子は、右隣の遺伝子座においては1番目または2番目に頻度の高い対立遺伝子である。
機能7−7:機能7−6に該当する場合は、missingデータを『0』で置き換えた修正版入力データを作成する。
機能7−8:対立遺伝子を三つ以上持つ遺伝子座がないか確認する。そのような遺伝子座があった場合は、以下の4つの条件を全て満たすか確認する。4つの条件をすべて満たす場合は、ヘテロ接合の遺伝子型を2つの対立遺伝子を半角スペースでつなげて表記してしまった可能性がある旨指摘を行う。1)その遺伝子座以降に対立遺伝子を三つ以上持つ遺伝子座が頻発する。2)三つ以上の対立遺伝子を持つそれぞれの遺伝子座において、頻度の高さが3番目以降の対立遺伝子を持つ個体は共通である。3)頻度の高さが3番目以降の対立遺伝子を共通して持つ個体は、遺伝子座名が未指定の終端の遺伝子座における遺伝子型が指定されている。4)三つ以上の対立遺伝子を持つそれぞれの遺伝子座において、頻度の高さが3番目以降の対立遺伝子は、左隣の遺伝子座においては1番目または2番目に頻度の高い対立遺伝子である。
機能7−9:機能7−8に該当する場合は、ヘテロ接合の遺伝子型を書き換えた修正版入力データを作成する。
機能7−10:空白文字(半角スペース、タブなど)が不規則に使われていないか確認する。以下の三つの条件のどちらかを満たす場合は、ユーザの意図と異なる入力データ解釈が行われる可能性がある旨指摘を行う。1)空白文字のうち2種類以上が入力データの区切り文字として使われている。2)複数の空白文字が連続して現れる。3)空白文字と解釈されたりデータと解釈されたりする文字(全角スペースなど)が使われている。
IUBコード形式では、個体識別子と遺伝子座データの間や、遺伝子座データ間は空白文字(半角スペース、タブなど)を用いて区切ることが想定されており、典型的にはタブ区切りで記述される。しかし通常のテキストエディタでは空白文字は画面に表示されないため、複数種類の空白文字を混在させてしまったり、半角スペースのつもりで全角スペースを入力してしまったり、行の末尾に不要な空白文字を入力してしまったりする場合がある。また、通常の表計算ソフトではタブ区切りでデータを解釈して各データ列を縦にそろえて表示するため、遺伝子型データを記入し忘れたり、半角スペースや全角スペースで表記してしまったり、2つの対立遺伝子を半角スペースでつなげて表記してしまったのをユーザが見逃す危険性がある。機能7−10を用いてこれらの不規則な空白文字の使用を指摘することにより、上記エラー7をより確実に防ぐことができる。
機能8−1:解析プログラムごとに全ての遺伝子座で多型があることを想定しているかどうかの情報を保持しておき、ユーザが指定した解析プログラムが多型があることを想定しているにも関わらず単型の遺伝子座があった場合は、指摘を行う。
機能8−2:機能8−1に該当する場合は、その遺伝子座を解析対象から除いた修正版入力データを作成する。
機能9−1:解析プログラムごとに対立遺伝子としてA・T・G・Cしか現れないと想定しているかどうかの情報を保持しておき、ユーザが指定した解析プログラムが対立遺伝子としてA・T・G・Cしか現れないと想定しているにも関わらずin/del多型が含まれる遺伝子座があった場合は、指摘を行う。
機能9−2:機能9−1に該当する場合は、in/del多型が含まれる遺伝子座を除いた修正版入力データを作成する。
機能10−1:ヘテロ接合の個体が極端に多い遺伝子座がないか確認し、そのような遺伝子座があった場合は、ゲノム上の2箇所以上と反応してしまっている可能性がある旨指摘を行う。
機能10−2:機能10−1に該当する場合は、その遺伝子座を解析対象から除いた修正版入力データを作成する。
機能11:ホモ接合の個体が極端に多い遺伝子座がないか確認し、そのような遺伝子座があった場合は、サンプル集団の中に複数の集団が混在している可能性がある旨指摘を行う。
機能12−1:ヘテロ接合の遺伝子座が極端に多い個体がないか確認し、そのような個体があった場合は、サンプルの混入の可能性がある旨指摘を行う。
機能12−2:機能12−1に該当する場合は、その個体を解析対象から除いた修正版入力データを作成する。
機能13−1:ホモ接合の遺伝子座が極端に多い個体がないか確認し、そのような個体があった場合は、特殊な個体である可能性がある旨指摘を行う。
機能13−2:機能13−1に該当する場合は、その個体を解析対象から除いた修正版入力データを作成する。
機能14−1:missingデータが多い個体がないか確認し、そのような個体があった場合は指摘を行う。
機能14−2:機能14−1に該当する場合は、その個体を解析対象から除いた修正版入力データを作成する。
機能15:上記の機能1から機能14−2を用いて指摘を行った項目および修正版入力データを作成した項目についてまとめて表示する。
上記の機能1から機能14−2を用いることにより、それぞれエラー1からエラー14を防ぐことができる。尚、エラー15、16、17、18については、上記したHaploviewやVariaといった既存技術で対応することができる。
以上の機能1〜15を実現したシステムとして、本発明は、連鎖不平衡解析プログラムに入力される遺伝子型データの検査を行うデータ入力支援システムであって、前記連鎖不平衡解析プログラムに対応する遺伝子型データのエラーの類型を保持する記憶部と、入力された遺伝子型データを前記エラーの類型に照合し、エラーを検出するエラー検出部と、前記検出されたエラーを指摘する表示を行うエラー指摘表示部とを備えていることを特徴とするデータ入力支援システムを提供するものである。
本発明のデータ入力支援システムにおいて、前記エラーの類型は、遺伝子座の物理位置に関する遺伝子型データを必要とする連鎖不平衡解析プログラムに対して、入力された遺伝子型データが遺伝子座の物理位置に関するデータを有していないというエラーを含んでいることを特徴とする。これは、上記機能1を実現したものである。
本発明のデータ入力支援システムにおいて、前記エラーの類型は、遺伝子座が物理位置の順に並んでいる遺伝子型データにのみ対応した連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいて遺伝子座が物理位置の順に並んでいないというエラーを含んでいることを特徴とする。これは、上記機能2(枝番号は省略、以下同じ)を実現したものである。
本発明のデータ入力支援システムにおいて、前記エラーの類型は、入力された遺伝子型データにおいて遺伝子座の物理位置に重複があるというエラーを含んでいることを特徴とする。これは、上記機能3を実現したものである。
本発明のデータ入力支援システムにおいて、前記エラーの類型は、入力された遺伝子型データにおいて遺伝子型が指定されていない遺伝子座と物理位置が指定されていない遺伝子座とがあるエラーを含んでいることを特徴とする。これは、上記機能4を実現したものである。
本発明のデータ入力支援システムにおいて、前記エラーの類型は、入力された遺伝子型データにおいて、ホモ接合体、ヘテロ接合体又はmissingデータを示す記号として、前記連鎖不平衡解析プログラムにおける規定とは異なる記号が含まれているというエラーを含んでいることを特徴とする。これは、上記機能5を実現したものである。
本発明のデータ入力支援システムにおいて、前記エラーの類型は、患者及び健常者両方の遺伝子型データを必要とする連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいて、前記連鎖不平衡解析プログラムにおける規定に従って患者及び健常者それぞれの集団が特定されていないというエラーを含んでいることを特徴とする。これは、上記機能6を実現したものである。
本発明のデータ入力支援システムにおいて、前記エラーの類型は、1つの遺伝子座について多くとも2種類の対立遺伝子しか存在しないと規定している連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいて3種類以上の対立遺伝子を持つ遺伝子座が含まれているというエラーを含んでいることを特徴とする。これは、上記機能7を実現したものである。
本発明のデータ入力支援システムにおいて、前記エラーの類型は、入力された遺伝子型データにおいて下記のいずれかの表記が含まれているというエラーを含んでいることを特徴とする。
1)2種類以上の異なる空白文字が入力データの区切り文字として使用されている。
2)複数の空白文字が連続して現れる。
3)連鎖不平衡解析プログラムの種類によって、空白文字及び遺伝子型データのいずれにも解釈され得る文字が使用されている。
これは、上記機能7を実現したものである。
本発明のデータ入力支援システムにおいて、前記エラーの類型は、全ての遺伝子座で多型があると規定している連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいて単型の遺伝子座が含まれているというエラーを含んでいることを特徴とする。これは、上記機能8を実現したものである。
本発明のデータ入力支援システムにおいて、前記エラーの類型は、対立遺伝子としてA・T・G・Cしか現れないと規定している連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいてin/del多型である遺伝子座が含まれているというエラーを含んでいることを特徴とする。これは、上記機能9を実現したものである。
本発明のデータ入力支援システムにおいて、前記エラーの類型は、入力された遺伝子型データにおいて、ヘテロ接合の個体が所定基準より多い遺伝子座、又はホモ接合の個体が所定基準より多い遺伝子座が含まれているというエラーを含んでいることを特徴とする。ここで、所定基準には、個体数の割合や統計的検定のP値などを用いることができる。これは、上記機能10及び11を実現したものである。
本発明のデータ入力支援システムにおいて、これは、前記エラーの類型は、入力された遺伝子型データにおいて、ヘテロ接合の遺伝子座を所定基準より多く有する個体、又はホモ接合の遺伝子座を所定基準より多く有する個体が含まれているというエラーを含んでいることを特徴とする。ここで、所定基準には、個体数の割合や統計的検定のP値などを用いることができる。上記機能12及び13を実現したものである。
本発明のデータ入力支援システムにおいて、これは、前記エラーの類型は、入力された遺伝子型データにおいて、missingデータが所定基準より多い個体が含まれているというエラーを含んでいることを特徴とする。ここで、所定基準には、個体数の割合などを用いることができる。上記機能14を実現したものである。
さらに、本発明のデータ入力支援システムでは、上記機能7に関して、以下のような特徴を有している。
遺伝子型データにおいて対立遺伝子を3つ以上持つ遺伝子座がある場合において、前記エラー指摘表示部は、以下の2つの条件が全て満たされる場合には、入力された遺伝子型データにおいて、前記3つ以上の対立遺伝子のうちの頻度が高い2つの対立遺伝子のヘテロ接合の遺伝子型が誤記入されている可能性がある旨の指摘を表示する。
1)入力された遺伝子型データにおいて、前記3つ以上の対立遺伝子のうちの頻度が高い2つの対立遺伝子のヘテロ接合を含む個体が存在しない。
2)入力された遺伝子型データにおいて、前記3つ以上の対立遺伝子のうちの頻度の高さが3番目以降の対立遺伝子のホモ接合を含む個体が存在しない。
遺伝子型データにおいて対立遺伝子を3つ以上持つ遺伝子座がある場合において、前記エラー指摘表示部は、以下の4つの条件が全て満たされる場合には、入力された遺伝子型データにおいてmissingデータの表記形式が誤記入されている可能性がある旨の指摘を表示する。
1)入力された遺伝子型データにおいて、前記対立遺伝子を3つ以上持つ遺伝子座に後続して対立遺伝子を3つ以上持つ遺伝子座が一定数以上存在する。
2)入力された遺伝子型データにおいて、同一の個体が複数の遺伝子座において3つ以上の対立遺伝子のうち頻度の高さが3番目以降の対立遺伝子を含んでいる。
3)入力された遺伝子型データにおいて、上記2)に該当する個体は、終端の遺伝子座における遺伝子型が指定されていない。
4)入力された遺伝子型データにおいて、3つ以上の対立遺伝子を持つ遺伝子座における頻度の高さが3番目以降の対立遺伝子は、当該遺伝子座の後隣の遺伝子座において頻度の高さが1番目又は2番目の対立遺伝子である。
遺伝子型データにおいて対立遺伝子を3つ以上持つ遺伝子座がある場合において、前記エラー指摘表示部は、以下の4つの条件が全て満たされる場合には、入力された遺伝子型データにおいてヘテロ接合の遺伝子型が誤記入されている可能性がある旨の指摘を表示する。
1)入力された遺伝子型データにおいて、前記対立遺伝子を3つ以上持つ遺伝子座に後続して対立遺伝子を3つ以上持つ遺伝子座が一定数以上存在する。
2)入力された遺伝子型データにおいて、同一の個体が複数の遺伝子座において3つ以上の対立遺伝子のうち頻度の高さが3番目以降の対立遺伝子を含んでいる。
3)入力された遺伝子型データにおいて、上記2)に該当する個体は、終端の遺伝子座における遺伝子型が指定されている。
4)入力された遺伝子型データにおいて、3つ以上の対立遺伝子を持つ遺伝子座における頻度の高さが3番目以降の対立遺伝子は、当該遺伝子座の前隣の遺伝子座において頻度の高さが1番目又は2番目の対立遺伝子である。
本発明のデータ入力支援システムは、また、前記入力された遺伝子型データについて、前記指摘されたエラーを訂正する入力を受け付け、当該入力に基づいて前記遺伝子型データを訂正するエラー訂正手段をさらに備えていることを特徴とする。
本発明のデータ入力支援システムにおいて、前記エラー訂正手段は、前記対立遺伝子を3つ以上持つ遺伝子座について、当該3つ以上の対立遺伝子のうち頻度の高さが3番目以降の対立遺伝子を頻度の高さが1番目以降の対立遺伝子に書き換える訂正入力を受け付け、そのように前記遺伝子型データを訂正することを特徴とする。
本発明のデータ入力支援システムは、また、前記エラー指摘表示部によるエラー指摘内容と、前記エラー訂正手段による前記遺伝子型データの訂正内容とを一覧表示する手段をさらに備えていることを特徴とする。
以上、説明したように、本発明によれば、連鎖不平衡解析等の解析プログラムに入力されるデータに含まれる様々なエラーを検出し、エラーとその原因となる誤記入とを結び付けて表示することができる。これにより、適正なデータを用いて連鎖不平衡解析を効率的に行うことができるようになり、ユーザの意図とは異なる解析結果が出力されるのを防ぐことができる。
以下、添付図面を参照しながら、本発明の遺伝子解析のためのデータ入力支援システムを実施するための最良の形態を詳細に説明する。図1〜図31は、本発明の実施の形態を例示する図であり、これらの図において、同一の符号を付した部分は同一物を表わし、基本的な構成及び動作は同様であるものとする。
遺伝子型データ入力支援システムの構成
図1は、本発明の一実施形態として構築される、遺伝子型データ入力支援システムの内部構成を概略的に示す機能ブロック図である。この遺伝子型データ入力支援システムは、遺伝統計解析で用いられる各種プログラムの特徴を保存したプログラムDB100、入力データとその解釈支援結果を表示するための表示装置101、表示されたデータに対して個体や遺伝子座を選択するなどの操作を行うためのキーボード102とマウスなどのポインティングデバイス103、必要な演算処理、制御処理等を行う中央処理装置104、中央処理装置104での処理に必要なプログラムを格納するプログラムメモリ105、中央処理装置104での処理に必要なデータを格納するデータメモリ106を備えている。
プログラムメモリ105は、上記の機能1を行う物理位置指定指摘処理部107、機能2−1、2−2を行う物理位置順序指摘処理部108、機能3を行う物理位置重複指摘処理部109、機能4−1、4−2を行う類似遺伝子座名指摘処理部110、機能5−1、5−2、5−3、5−4、5−5を行う遺伝子型指摘処理部111、機能6−1、6−2、6−3、6−4を行う集団名指摘処理部112、機能7−1、7−2、7−3、7−4、7−5、7−6、7−7、7−8、7−9、7−10を行う対立遺伝子数指摘処理部113、機能8−1、8−2を行う単型指摘処理部114、機能9−1、9−2を行うin/del指摘処理部115、機能10−1、10―2を行う2箇所反応指摘処理部116、機能11を行う複数集団指摘処理部117、機能12−1、12−2を行うサンプル混入指摘処理部118、機能13−1、13−2を行う特殊な個体指摘処理部119、機能14−1、14−2を行うmissing個体指摘処理部120、機能15を行う指摘・修正項目表示処理部121を含んでいる。また、遺伝子型指摘処理部111は、上記の機能5−1、5−2を行う記号遺伝子型指摘処理部122、機能5−3、5−4を行う文字列遺伝子型指摘処理部123、機能5−5を行う想定外遺伝子型指摘処理部124を含み、集団名指摘処理部112は、上記の機能6−1を行う集団名指定指摘処理部125、機能6−2、6−3を行う集団名誤記入指摘処理部126、機能6−4を行う想定外集団名指摘処理部127を含み、対立遺伝子数指摘処理部113は、上記の機能7−1、7−2、7−3を行う多対立遺伝子指摘処理部128、機能7−4、7−5を行うヘテロ接合誤記入指摘処理部129、機能7−6、7−7を行うmissing空白指摘処理部130、機能7−8、7−9を行うヘテロ接合空白指摘処理部131、機能7−10を行う不規則空白文字指摘処理部132を含んでいる。
データメモリ106は、遺伝統計解析で用いられるプログラムの特徴を含んだプログラムデータ133と、上記プログラムへの入力データとして用いられる入力データ134を含んでいる。
図2は、データメモリ106に含まれるプログラムデータ133のデータ構造を示す図である。このデータ構造体AnalysisProgramは、プログラム名200、入力データとして遺伝子座の物理位置を必要とするかどうかを示す物理位置指定フラグ201、遺伝子座が物理位置の順に並んでいることを想定しているかどうかを示す物理位置順序フラグ202、患者と健常者を用いることを想定しているかどうかを示す患者健常者集団フラグ203、各遺伝子座における対立遺伝子は2つであると仮定しているかどうかを示す多対立遺伝子除外フラグ204、全ての遺伝子座で多型があることを想定しているかどうかを示す単型除外フラグ205、対立遺伝子としてA・T・G・Cしか現れないと想定しているかどうかを示すin/del除外フラグ206を含んでいる。
図3は、データメモリ106に含まれる入力データ134のデータ構造を示す図である。以下では、未指定のデータ項目はNULL値を持つものとする。このデータ構造体InputDataは、入力データ名300、遺伝子座データ301、個体データ302を含んでいる。遺伝子座データ301については、以下に示すデータ構造体LocusDataの配列の形でデータを保持する。個体データ302については、以下に示すデータ構造体IndividualDataの配列の形でデータを保持する。
データ構造体LocusDataは、i個の遺伝子座について、各遺伝子座ごとの遺伝子座名303、物理位置304、その遺伝子座における遺伝子型を調べるのに用いた実験手法305を含んでいる。
データ構造体IndividualDataは、j個体のサンプルについて、各個体ごとの個体識別子306、所属する集団の名称である集団名307、この個体がそれぞれの遺伝子座で持つ遺伝子型である遺伝子型データ308、入力データの元の文字列309を含んでいる。遺伝子型データ308は入力データ309を空白文字で区切って解釈した遺伝子型データが格納された配列であり、その要素数は、遺伝子座データ301の要素数iと等しい。
遺伝子型データ入力支援システムの動作
次に、上記のように構成された本実施形態の遺伝子型データ入力支援システムにおいて行われる処理について説明する。図4は、遺伝子型データ入力支援システムによる処理の流れを概略的に示すフローチャートである。図4において、まず、プログラムDB100からユーザが指定したプログラムに対応するデータを読み込む(ステップ400)。ここで読み込まれたデータはデータメモリ106のプログラムデータ133として保持する。次に、プログラムへの入力データとして用いられる入力データ及びそれぞれの遺伝子座における実験手法を読み込む(ステップ401)。ここで読み込まれたデータはデータメモリ106の入力データ134として保持する。その後、入力データのエラーを確認して指摘し、ユーザ入力を受け付け、修正版入力データを作成する(ステップ402)。この処理はプログラムメモリ105に含まれる処理部107〜132を用いて行うものであり、図5で詳細に説明する。
次に、図4のステップ402で行われる、入力データのエラーを確認して指摘し、ユーザ入力を受け付ける処理の詳細について、図5に示す詳細フローチャートを参照しながら説明する。まず、物理位置指定指摘処理部107を用いて、遺伝子座の物理位置が指定されているか確認して指摘する(ステップ500)。プログラムデータ133における物理位置指定フラグ201がTRUEであり、かつ、入力データ134における遺伝子座データ301の物理位置304が未指定である場合は、エラーであると判断し、図9に示す画面表示を行う。
次に、物理位置順序指摘処理部108を用いて、遺伝子座が物理位置の順に並んで入力されているか確認して指摘・修正する(ステップ501)。プログラムデータ133における物理位置順序フラグ202がTRUEである場合は入力データ134における遺伝子座データ301の物理位置304を順に参照し、物理位置が指定されているものの中に大小関係の逆転が見られたらエラーであると判断し、図10に示す画面表示を行う。ユーザが1000にチェックをした場合は、遺伝子座データ301と遺伝子型データ308及び入力データ309の該当する2つの遺伝子座におけるデータを入れ替えて、修正版の入力データを作成する。
次に、物理位置重複指摘処理部109を用いて、遺伝子座の物理位置に重複がないか確認して指摘する(ステップ502)。入力データ134における遺伝子座データ301の物理位置304を順に参照し、同一の値を持つものがあったらエラーであると判断し、図11に示す画面表示を行う。
次に、類似遺伝子座名指摘処理部110を用いて、遺伝子座名の誤記入がないか確認して指摘・修正する(ステップ503)。上記機能4−1の通り、入力データ134における遺伝子型データ308がどの個体でも未指定になっている遺伝子座と物理位置304が未指定になっている遺伝子座があるか確認する。そのような遺伝子座の組があり、類似した遺伝子座名だったらエラーであると判断し、図12に示す画面表示を行う。ユーザが1100にチェックをした場合は、以下を行って修正版の入力データを作成する。物理位置304が未指定になっている遺伝子座について、遺伝子型データ308が未指定になっている遺伝子座の物理位置304を転記する。その後、遺伝子座データ301と遺伝子型データ308及び入力データ309の、遺伝子型データ308が未指定になっている遺伝子座におけるデータを削除する。
次に、遺伝子型指摘処理部111を用いて、想定外の遺伝子型がないか確認して指摘・修正する(ステップ504)。この処理については、図6で詳細に説明する。
次に、集団名指摘処理部112を用いて、集団名にエラーがないか確認して指摘・修正する(ステップ505) 。この処理については、図7で詳細に説明する。
次に、対立遺伝子数指摘処理部113を用いて、対立遺伝子を三つ以上持つ遺伝子座がないか確認して指摘・修正する(ステップ506)。この処理については、図8で詳細に説明する。
次に、単型指摘処理部114を用いて、単型の遺伝子座がないか確認して指摘・修正する(ステップ507)。プログラムデータ133における単型除外フラグ205がTRUEであり、かつ、入力データ134における遺伝子型データ308において多型がない場合は、エラーであると判断し、図24に示す画面表示を行う。ユーザが2400にチェックをした場合は、遺伝子座データ301と遺伝子型データ308及び入力データ309の該当する遺伝子座におけるデータを削除し、修正版の入力データを作成する。
次に、in/del指摘処理部115を用いて、in/del多型が含まれる遺伝子座がないか確認して指摘・修正する(ステップ508)。プログラムデータ133におけるin/del除外フラグ206がTRUEであり、かつ、入力データ134における遺伝子型データ308においてin/del多型が含まれる場合は、エラーであると判断し、図25に示す画面表示を行う。ユーザが2500にチェックをした場合は、遺伝子座データ301と遺伝子型データ308及び入力データ309の該当する遺伝子座におけるデータを削除し、修正版の入力データを作成する。
次に、2箇所反応指摘処理部116を用いて、ヘテロ接合の個体が極端に多い遺伝子座がないか確認して指摘・修正する(ステップ509)。それぞれの遺伝子座において、全個体数に対するヘテロ接合の個体数の割合(ヘテロ接合度)、または観察されたヘテロ接合度を持つ遺伝子座の出現確率(ハーディ・ワインバーグ平衡検定のP値)などを用いて、ヘテロ接合の個体の多さを評価する。ヘテロ接合の個体が極端に多い遺伝子座があったら、図26に示す画面表示を行う。画面表示の2600は、各個体の遺伝子型データ308から集計した遺伝子型頻度である。ユーザが2601にチェックをした場合は、遺伝子座データ301と遺伝子型データ308及び入力データ309の該当する遺伝子座におけるデータを削除し、修正版の入力データを作成する。
次に、複数集団指摘処理部117を用いて、ホモ接合の個体が極端に多い遺伝子座がないか確認して指摘する(ステップ510)。それぞれの遺伝子座において、全個体数に対するホモ接合の個体数の割合(ホモ接合度)、または観察されたホモ接合度を持つ遺伝子座の出現確率(ハーディ・ワインバーグ平衡検定のP値)などを用いて、ホモ接合の個体の多さを評価する。ホモ接合の個体が極端に多い遺伝子座があったら、図27に示す画面表示を行う。画面表示の2700は、各個体の遺伝子型データ308から集計した遺伝子型頻度である。
次に、サンプル混入指摘処理部118を用いて、ヘテロ接合の遺伝子座が極端に多い個体がないか確認して指摘・修正する(ステップ511)。それぞれの個体において、全遺伝子座数に対するヘテロ接合の遺伝子座数の割合、または観察された割合を持つ個体の出現確率(P値)などを用いて、ヘテロ接合の遺伝子座の多さを評価する。ヘテロ接合の遺伝子座が極端に多い個体がいたら、図28に示す画面表示を行う。画面表示の2800は、遺伝子型データ308から集計したヘテロ接合の遺伝子座の割合である。ユーザが2801にチェックをした場合は、個体データ302の該当する個体におけるデータを削除し、修正版の入力データを作成する。
次に、特殊な個体指摘処理部119を用いて、ホモ接合の遺伝子座が極端に多い個体がないか確認して指摘・修正する(ステップ512)。それぞれの個体において、全遺伝子座数に対するホモ接合の遺伝子座数の割合、または観察された割合を持つ個体の出現確率(P値)などを用いてホモ接合の遺伝子座の多さを評価する。ホモ接合の遺伝子座が極端に多い個体がいたら、図29に示す画面表示を行う。画面表示の2900は、遺伝子型データ308から集計したホモ接合の遺伝子座の割合である。ユーザが2901にチェックをした場合は、個体データ302の該当する個体におけるデータを削除し、修正版の入力データを作成する。
次に、missing個体指摘処理部120を用いて、missingデータが多い個体がないか確認して指摘・修正する(ステップ513)。全遺伝子座数に対するmissingデータの割合を用いてmissingデータの多さを評価し、あらかじめ設定した判定基準に照らし合わせてmissingデータが多すぎる場合は図30に示す画面表示を行う。画面表示の3000は、遺伝子型データ308から集計したmissingデータの割合である。ユーザが3001にチェックをした場合は、個体データ302の該当する個体におけるデータを削除し、修正版の入力データを作成する。
次に、指摘・修正項目表示処理部121を用いて、ステップ500から513までで指摘を行った項目及び修正版入力データを作成した項目について、一覧表にまとめて図31に示す画面表示を行う(ステップ514)。画面表示の3100は、個々の指摘項目の概略とそれに対して修正を行ったかどうかを示す。画面表示の3101は、指摘項目数及び、指摘を行ったが修正版の入力データを作成していない項目数である。
次に、図5のステップ504で行われる、想定外の遺伝子型がないか確認して指摘・修正する処理の詳細について、図6に示す詳細フローチャートを参照しながら説明する。まず、記号遺伝子型指摘処理部122を用いて、遺伝子型データとして、「*」(アスタリスク)などの記号が指定されていないか確認して指摘・修正する(ステップ600)。そのような遺伝子型がある場合は図13に示す画面表示を行う。ユーザが1300にチェックをした場合は、遺伝子型データ308及び入力データ309の該当要素に”0”を記入し、修正版の入力データを作成する。
次に、文字列遺伝子型指摘処理部123を用いて、遺伝子型データとして、対立遺伝子2つをつなげた文字列が指定されていないか確認して指摘・修正する(ステップ601)。そのような遺伝子型がある場合は図14に示す画面表示を行う。ユーザが1400にチェックをした場合は、遺伝子型データ308及び入力データ309の該当要素に適切なヘテロ接合の遺伝子型を記入し、修正版の入力データを作成する。
次に、想定外遺伝子型指摘処理部124を用いて、遺伝子型データとして想定外の文字列が指定されていないか確認して指摘する(ステップ602)。そのような遺伝子型がある場合は図15に示す画面表示を行う。
次に、図5のステップ505で行われる、集団名にエラーがないか確認して指摘・修正する処理の詳細について、図7に示す詳細フローチャートを参照しながら説明する。まず、集団名指定指摘処理部125を用いて、集団名が指定されているか確認して指摘する(ステップ700)。プログラムデータ133における患者健常者集団フラグ203がTRUEであり、かつ、入力データ134における個体データ302の集団名307が未指定である場合は、エラーであると判断し、図16に示す画面表示を行う。
次に、集団名誤記入指摘処理部126を用いて、集団名として「Case」、「Control」または「Patient」と「Normal」の大文字・小文字を間違えたものが指定されていないか確認して指摘・修正する(ステップ701)。そのような集団名が指定されていた個体がいる場合は図17に示す画面表示を行う。ユーザが1700にチェックをした場合は、集団名307に適切な集団名を記入し、修正版の入力データを作成する。
次に、想定外集団名指摘処理部127を用いて、集団名として想定外の文字列が指定されていないか確認して指摘する(ステップ702)。そのような集団名が指定されていた個体がいる場合は図18に示す画面表示を行う。
次に、図5のステップ506で行われる、対立遺伝子を三つ以上持つ遺伝子座がないか確認して指摘・修正する処理の詳細について、図8に示す詳細フローチャートを参照しながら説明する。まず、missing空白指摘処理部130を用いて、機能7−6に説明した通り、missingデータを空白文字(半角スペース、タブなど)で表記してしまっているかどうか確認して指摘・修正する(ステップ800)。そのような表記をしていた場合は、図21に示す画面表示を行う。遺伝子型がずれている様子を強調表示する(2100)。ユーザが2101にチェックをした場合は、以下を行って、修正版の入力データを作成する。ずれを生じる原因となった遺伝子座の遺伝子型データ308には”0”を記入し、以降の遺伝子座それぞれについて、遺伝子型データ308に1つ前の遺伝子座における遺伝子型データ308を転記する。また、入力データ309の該当データに”0”を記入する。
次に、ヘテロ接合空白指摘処理部131を用いて、機能7−8に説明した通り、ヘテロ接合の遺伝子型を2つの対立遺伝子を半角スペースでつなげて表記してしまっているかどうか確認して指摘・修正する(ステップ801)。そのような表記をしていた場合は、図22に示す画面表示を行う。遺伝子型がずれている様子を強調表示する(2200)。ユーザが2201にチェックをした場合は、以下を行って、修正版の入力データを作成する。ずれを生じる原因となった遺伝子座の遺伝子型データ308に正しいヘテロ接合の遺伝子型を記入し、以降の遺伝子座それぞれについて、遺伝子型データ308に1つ後ろの遺伝子座における遺伝子型データ308を転記する。さらに、遺伝子座データ301及び遺伝子型データ308について終端の遺伝子座(遺伝子座名は未指定で、頻度の高さが3番目以降の対立遺伝子を共通して持つ個体のみ遺伝子型が指定されている)を削除する。また、入力データ309の該当データに正しいヘテロ接合の遺伝子型を記入する。
次に、ヘテロ接合誤記入指摘処理部129を用いて、機能7−4に説明した通り、ヘテロ接合の遺伝子型を誤記入していないか確認して指摘・修正する(ステップ802)。ヘテロ接合の遺伝子型を誤記入している遺伝子座があった場合は、図20に示す画面表示を行う。画面表示の2000は、各個体の遺伝子型データ308から集計した遺伝子型頻度である。ユーザが2001をチェックした場合は、遺伝子座データ301と遺伝子型データ308及び入力データ309の該当する遺伝子座におけるデータを削除し、修正版の入力データを作成する。ユーザが2002をチェックした場合は、遺伝子型データ308及び入力データ309に適切なヘテロ接合の遺伝子型を記入し、修正版の入力データを作成する。ユーザが2003をチェックした場合は、何も行わない。2001、2002及び2003のチェックは排他的であり、2つ以上にチェックすることはできない。
次に、多対立遺伝子指摘処理部128を用いて、機能7−1に説明した通り、対立遺伝子を三つ以上持つ遺伝子座がないか確認して指摘・修正する(ステップ803)。プログラムデータ133の多対立遺伝子除外フラグ204がTRUEであるか、または、入力データ134の実験手法305が2種類の対立遺伝子しか識別できないものである場合、入力データ134の遺伝子型データ308において対立遺伝子を三つ以上持つ遺伝子座があるかどうか調べ、そのような遺伝子座があった場合は、図19に示す画面表示を行う。画面表示の1900は、プログラムデータ133の多対立遺伝子除外フラグ204がTRUEである場合に表示する。1901は、各個体の遺伝子型データ308から集計した対立遺伝子頻度である。1902は、入力データ134の実験手法305が2種類の対立遺伝子しか識別できないものである場合に表示する。ユーザが1903をチェックした場合は、遺伝子座データ301と遺伝子型データ308及び入力データ309の該当する遺伝子座におけるデータを削除し、修正版の入力データを作成する。ユーザが1904をチェックした場合は、頻度の高さが3番目以降の対立遺伝子を持つ個体それぞれについて、遺伝子型データ308及び入力データ309の該当する遺伝子座における遺伝子型を最も頻度の高い対立遺伝子を含む遺伝子型で置き換え、修正版の入力データを作成する。ユーザが1905をチェックした場合は、何も行わない。1903、1904、1905のチェックは排他的であり、2つ以上にチェックすることはできない。
次に、不規則空白文字指摘処理部132を用いて、機能7−10に説明したとおり、空白文字が不規則に使われていないか確認して指摘する(ステップ804)。それぞれの個体において入力データ309を参照し、空白文字のうち2種類以上が入力データの区切り文字として使われている、または、複数の空白文字が連続して現れている、または、空白文字と解釈されたりデータと解釈されたりする文字(全角スペースなど)が使われている場合は、空白文字が不規則に使われていると判断する。その場合は図23に示す画面表示を行う。画面表示の2300は、入力データにおける空白文字の種類と使われている場所を明示的に示す。
なお、本明細書ではIUBコード形式の場合についてのみ説明したが、HapMapプロジェクトが公開しているデータの形式においても、物理位置順序指摘処理部108、物理位置重複指摘処理部109、遺伝子型指摘処理部111の記号遺伝子型指摘処理部122、文字列遺伝子型指摘処理部123及び想定外遺伝子型指摘処理部124、対立遺伝子数指摘処理部113のうち多対立遺伝子指摘処理部128及び不規則空白文字指摘処理部132、単型指摘処理部114、in/del指摘処理部115、2箇所反応指摘処理部116、複数集団指摘処理部117、サンプル混入指摘処理部118、特殊な個体指摘処理部119、missing個体指摘処理部120、指摘・修正項目表示処理部121については同様である。
また、ARLEQUINの入力データ形式においても、遺伝子型指摘処理部111のうち記号遺伝子型指摘処理部122及び想定外遺伝子型指摘処理部124、集団名指摘処理部112のうち集団名誤記入指摘処理部126、想定外集団名指摘処理部127、対立遺伝子数指摘処理部113のうち多対立遺伝子指摘処理部128、missing空白指摘処理部130及び不規則空白文字指摘処理部132、単型指摘処理部114、in/del指摘処理部115、2箇所反応指摘処理部116、複数集団指摘処理部117、サンプル混入指摘処理部118、特殊な個体指摘処理部119、missing個体指摘処理部120、指摘・修正項目表示処理部121については同様である。
また、LINKAGEの入力データ形式においても、遺伝子型指摘処理部111のうち記号遺伝子型指摘処理部122及び想定外遺伝子型指摘処理部124、対立遺伝子数指摘処理部113のうち多対立遺伝子指摘処理部128、missing空白指摘処理部130及び不規則空白文字指摘処理部132、単型指摘処理部114、in/del指摘処理部115、2箇所反応指摘処理部116、複数集団指摘処理部117、サンプル混入指摘処理部118、特殊な個体指摘処理部119、missing個体指摘処理部120、指摘・修正項目表示処理部121については同様である。
また、本明細書ではそれぞれの種類のエラーについて、1個体・1遺伝子座で起きた場合の例を示しているが、複数の個体・複数の遺伝子座で起きた場合についても同様である。すなわち、例えば図30ではmissingデータが多い個体が1個体(P07)だけの場合を示しているが、missingデータが多い個体が複数いる場合も起こり得る。このような場合も同様に処理できる。すなわち、図30に示す画面例に、missingデータが多い個体をすべて列挙すれば良い。他の種類のエラーについても同様である。
また、本明細書では単型指摘処理部114、複数集団指摘処理部117について全サンプル集団で確認しているが、集団ごとに確認することも考えられる。すなわち、例えば単型指摘処理部114について、健常者集団では多型があるが患者集団では多型がない遺伝子座が含まれていないかを確認する場合も同様である。
以上、本発明の遺伝子解析のためのデータ入力支援システムについて、具体的な実施の形態を示して説明したが、本発明はこれらに限定されるものではない。当業者であれば、本発明の要旨を逸脱しない範囲内において、上記各実施形態又は他の実施形態にかかる発明の構成及び機能に様々な変更・改良を加えることが可能である。
本発明の遺伝子解析のためのデータ入力支援システムは、記憶手段、入力手段、表示手段等を備えたコンピュータ上で実現され得るものであり、遺伝子型の入力データにおける所定の類型的エラーの検出及びその表示という情報処理が上記の記憶手段、入力手段、表示手段等のハードウェア資源を用いて具体的に実現されるものであるから、自然法則を利用した技術的思想に該当するものであり、連鎖不平衡解析を行う医学・生物学分野の研究機関等において産業的に利用することができるものである。
本発明の遺伝子データ解釈支援システムにおけるシステム構成を概略的に示す機能ブロック図である。 本発明の遺伝子データ解釈支援システムにおいて、データメモリに記憶されているプログラムデータのデータ構成を例示する図である。 本発明の遺伝子データ解釈支援システムにおいて、データメモリに記憶されている入力データのデータ構成を例示する図である。 本発明の遺伝子データ解釈支援システムにおける処理の概要を示すフローチャートである。 本発明の遺伝子データ解釈支援システムにおいて、エラーを検出して指摘し、ユーザ入力を受け付けて修正版の入力データを作成する処理の流れを詳細に示すフローチャートである。 本発明の遺伝子データ解釈支援システムにおいて、想定外の遺伝子型がないか確認して指摘する処理の流れを詳細に示すフローチャートである。 本発明の遺伝子データ解釈支援システムにおいて、集団名にエラーがないか確認して指摘する処理の流れを詳細に示すフローチャートである。 本発明の遺伝子データ解釈支援システムにおいて、対立遺伝子を三つ以上持つ遺伝子座がないか確認して指摘する処理の流れを詳細に示すフローチャートである。 図5に示すフローチャートのステップ500における物理位置指定指摘処理部による表示画面を示す図である。 図5に示すフローチャートのステップ501における物理位置順序指摘処理部による表示画面を示す図である。 図5に示すフローチャートのステップ502における物理位置重複指摘処理部による表示画面を示す図である。 図5に示すフローチャートのステップ503における類似遺伝子座名指摘処理部による表示画面を示す図である。 図6に示すフローチャートのステップ600における記号遺伝子型指摘処理部による表示画面を示す図である。 図6に示すフローチャートのステップ601における文字列遺伝子型指摘処理部による表示画面を示す図である。 図6に示すフローチャートのステップ602における想定外遺伝子型指摘処理部による表示画面を示す図である。 図7に示すフローチャートのステップ700における集団名指定指摘処理部による表示画面を示す図である。 図7に示すフローチャートのステップ701における集団名誤記入指摘処理部による表示画面を示す図である。 図7に示すフローチャートのステップ702における想定外集団名指摘処理部による表示画面を示す図である。 図8に示すフローチャートのステップ803における多対立遺伝子指摘処理部による表示画面を示す図である。 図8に示すフローチャートのステップ802におけるヘテロ接合誤記入指摘処理部による表示画面を示す図である。 図8に示すフローチャートのステップ800におけるmissing空白指摘処理部による表示画面を示す図である。 図8に示すフローチャートのステップ801におけるヘテロ接合空白指摘処理部による表示画面を示す図である。 図8に示すフローチャートのステップ804における不規則空白文字指摘処理部による表示画面を示す図である。 図5に示すフローチャートのステップ507における単型指摘処理部による表示画面を示す図である。 図5に示すフローチャートのステップ508におけるin/del指摘処理部による表示画面を示す図である。 図5に示すフローチャートのステップ509における2箇所反応指摘処理部による表示画面を示す図である。 図5に示すフローチャートのステップ510における複数集団指摘処理部による表示画面を示す図である。 図5に示すフローチャートのステップ511におけるサンプル混入指摘処理部による表示画面を示す図である。 図5に示すフローチャートのステップ512における特殊な個体指摘処理部による表示画面を示す図である。 図5に示すフローチャートのステップ513におけるmissing個体指摘処理部による表示画面を示す図である。 図5に示すフローチャートのステップ514における指摘・修正項目表示処理部による表示画面を示す図である。 ゲノム上に表れるSNPについて説明する図である。 連鎖不平衡解析プログラムへの遺伝子型データを記述した入力ファイルの形式について説明する図である。 IUBコードについて説明する図である。 連鎖不平衡解析プログラムへの遺伝子座ごとの物理位置を記述した入力ファイルの形式について説明する図である。 実際には対立遺伝子を2つしか持たないにも関わらず、三つ以上持つと判断されることになってしまう例を説明する図である。 プローブがゲノム上の2箇所に反応してしまう例を説明する図である。 サンプル集団が2種類の集団が混ざっているものだった場合を説明する図である。 他サンプルのDNAが混入してしまった場合を説明する図である。 特殊な個体の例を示す図である。 missingデータが多い個体の例を示す図である。 missingデータが多い遺伝子座の例を示す図である。
符号の説明
100 プログラムDB
101 表示装置
102 キーボード
103 ポインティングデバイス
104 中央処理装置
105 プログラムメモリ
106 データメモリ
107 物理位置指定指摘処理部
108 物理位置順序指摘処理部
109 物理位置重複指摘処理部
110 類似遺伝子座名指摘処理部
111 遺伝子型指摘処理部
112 集団名指摘処理部
113 対立遺伝子数指摘処理部
114 単型指摘処理部
115 in/del指摘処理部
116 2箇所反応指摘処理部
117 複数集団指摘処理部
118 サンプル混入指摘処理部
119 特殊な個体指摘処理部
120 missing個体指摘処理部
121 指摘・修正項目表示処理部
122 記号遺伝子型指摘処理部
123 文字列遺伝子型指摘処理部
124 想定外遺伝子型指摘処理部
125 集団名指定指摘処理部
126 集団名誤記入指摘処理部
127 想定外集団名指摘処理部
128 多対立遺伝子指摘処理部
129 ヘテロ接合誤記入指摘処理部
130 missing空白指摘処理部
131 ヘテロ接合空白指摘処理部
132 不規則空白文字指摘処理部
133 プログラムデータ
134 入力データ

Claims (20)

  1. 連鎖不平衡解析プログラムに入力される遺伝子型データの検査を行うデータ入力支援システムであって、
    前記連鎖不平衡解析プログラムに対応する遺伝子型データのエラーの類型を保持する記憶部と、
    入力された遺伝子型データを前記エラーの類型に照合し、エラーを検出するエラー検出部と、
    前記検出されたエラーを指摘する表示を行うエラー指摘表示部とを備えていることを特徴とするデータ入力支援システム。
  2. 前記エラーの類型は、遺伝子座の物理位置に関する遺伝子型データを必要とする連鎖不平衡解析プログラムに対して、入力された遺伝子型データが遺伝子座の物理位置に関するデータを有していないというエラーを含んでいることを特徴とする請求項1に記載のデータ入力支援システム。
  3. 前記エラーの類型は、遺伝子座が物理位置の順に並んでいる遺伝子型データにのみ対応した連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいて遺伝子座が物理位置の順に並んでいないというエラーを含んでいることを特徴とする請求項1に記載のデータ入力支援システム。
  4. 前記エラーの類型は、入力された遺伝子型データにおいて遺伝子座の物理位置に重複があるというエラーを含んでいることを特徴とする請求項1に記載のデータ入力支援システム。
  5. 前記エラーの類型は、入力された遺伝子型データにおいて遺伝子型が指定されていない遺伝子座と物理位置が指定されていない遺伝子座とがあるエラーを含んでいることを特徴とする請求項1に記載のデータ入力支援システム。
  6. 前記エラーの類型は、入力された遺伝子型データにおいて、ホモ接合体、ヘテロ接合体又はmissingデータを示す記号として、前記連鎖不平衡解析プログラムにおける規定とは異なる記号が含まれているというエラーを含んでいることを特徴とする請求項1に記載のデータ入力支援システム。
  7. 前記エラーの類型は、患者及び健常者両方の遺伝子型データを必要とする連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいて、前記連鎖不平衡解析プログラムにおける規定に従って患者及び健常者それぞれの集団が特定されていないというエラーを含んでいることを特徴とする請求項1に記載のデータ入力支援システム。
  8. 前記エラーの類型は、1つの遺伝子座について多くとも2種類の対立遺伝子しか存在しないと規定している連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいて3種類以上の対立遺伝子を持つ遺伝子座が含まれているというエラーを含んでいることを特徴とする請求項1に記載のデータ入力支援システム。
  9. 前記エラーの類型は、入力された遺伝子型データにおいて下記のいずれかの表記が含まれているというエラーを含んでいることを特徴とする請求項1に記載のデータ入力支援システム。
    1)2種類以上の異なる空白文字が入力データの区切り文字として使用されている。
    2)複数の空白文字が連続して現れる。
    3)連鎖不平衡解析プログラムの種類によって、空白文字及び遺伝子型データのいずれにも解釈され得る文字が使用されている。
  10. 前記エラーの類型は、全ての遺伝子座で多型があると規定している連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいて単型の遺伝子座が含まれているというエラーを含んでいることを特徴とする請求項1に記載のデータ入力支援システム。
  11. 前記エラーの類型は、対立遺伝子としてA・T・G・Cしか現れないと規定している連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいてin/del多型である遺伝子座が含まれているというエラーを含んでいることを特徴とする請求項1に記載のデータ入力支援システム。
  12. 前記エラーの類型は、入力された遺伝子型データにおいて、ヘテロ接合の個体が所定基準より多い遺伝子座、又はホモ接合の個体が所定基準より多い遺伝子座が含まれているというエラーを含んでいることを特徴とする請求項1に記載のデータ入力支援システム。
  13. 前記エラーの類型は、入力された遺伝子型データにおいて、ヘテロ接合の遺伝子座を所定基準より多く有する個体、又はホモ接合の遺伝子座を所定基準より多く有する個体が含まれているというエラーを含んでいることを特徴とする請求項1に記載のデータ入力支援システム。
  14. 前記エラーの類型は、入力された遺伝子型データにおいて、missingデータが所定基準より多い個体が含まれているというエラーを含んでいることを特徴とする請求項1に記載のデータ入力支援システム。
  15. 遺伝子型データにおいて対立遺伝子を3つ以上持つ遺伝子座がある場合において、
    前記エラー指摘表示部は、
    以下の2つの条件が全て満たされる場合には、入力された遺伝子型データにおいて、前記3つ以上の対立遺伝子のうちの頻度が高い2つの対立遺伝子のヘテロ接合の遺伝子型が誤記入されている可能性がある旨の指摘を表示することを特徴とする請求項8に記載のデータ入力支援システム。
    1)入力された遺伝子型データにおいて、前記3つ以上の対立遺伝子のうちの頻度が高い2つの対立遺伝子のヘテロ接合を含む個体が存在しない。
    2)入力された遺伝子型データにおいて、前記3つ以上の対立遺伝子のうちの頻度の高さが3番目以降の対立遺伝子のホモ接合を含む個体が存在しない。
  16. 遺伝子型データにおいて対立遺伝子を3つ以上持つ遺伝子座がある場合において、
    前記エラー指摘表示部は、
    以下の4つの条件が全て満たされる場合には、入力された遺伝子型データにおいてmissingデータの表記形式が誤記入されている可能性がある旨の指摘を表示することを特徴とする請求項8に記載のデータ入力支援システム。
    1)入力された遺伝子型データにおいて、前記対立遺伝子を3つ以上持つ遺伝子座に後続して対立遺伝子を3つ以上持つ遺伝子座が一定数以上存在する。
    2)入力された遺伝子型データにおいて、同一の個体が複数の遺伝子座において3つ以上の対立遺伝子のうち頻度の高さが3番目以降の対立遺伝子を含んでいる。
    3)入力された遺伝子型データにおいて、上記2)に該当する個体は、終端の遺伝子座における遺伝子型が指定されていない。
    4)入力された遺伝子型データにおいて、3つ以上の対立遺伝子を持つ遺伝子座における頻度の高さが3番目以降の対立遺伝子は、当該遺伝子座の後隣の遺伝子座において頻度の高さが1番目又は2番目の対立遺伝子である。
  17. 遺伝子型データにおいて対立遺伝子を3つ以上持つ遺伝子座がある場合において、
    前記エラー指摘表示部は、以下の4つの条件が全て満たされる場合には、入力された遺伝子型データにおいてヘテロ接合の遺伝子型が誤記入されている可能性がある旨の指摘を表示することを特徴とする請求項8に記載のデータ入力支援システム。
    1)入力された遺伝子型データにおいて、前記対立遺伝子を3つ以上持つ遺伝子座に後続して対立遺伝子を3つ以上持つ遺伝子座が一定数以上存在する。
    2)入力された遺伝子型データにおいて、同一の個体が複数の遺伝子座において3つ以上の対立遺伝子のうち頻度の高さが3番目以降の対立遺伝子を含んでいる。
    3)入力された遺伝子型データにおいて、上記2)に該当する個体は、終端の遺伝子座における遺伝子型が指定されている。
    4)入力された遺伝子型データにおいて、3つ以上の対立遺伝子を持つ遺伝子座における頻度の高さが3番目以降の対立遺伝子は、当該遺伝子座の前隣の遺伝子座において頻度の高さが1番目又は2番目の対立遺伝子である。
  18. 前記入力された遺伝子型データについて、前記指摘されたエラーを訂正する入力を受け付け、当該入力に基づいて前記遺伝子型データを訂正するエラー訂正手段をさらに備えていることを特徴とする請求項1から17のいずれか1項に記載のデータ入力支援システム。
  19. 前記エラー訂正手段は、前記対立遺伝子を3つ以上持つ遺伝子座について、当該3つ以上の対立遺伝子のうち頻度の高さが3番目以降の対立遺伝子を頻度の高さが1番目以降の対立遺伝子に書き換える訂正入力を受け付け、そのように前記遺伝子型データを訂正することを特徴とする請求項8に記載のデータ入力支援システム。
  20. 前記エラー指摘表示部によるエラー指摘内容と、前記エラー訂正手段による前記遺伝子型データの訂正内容とを一覧表示する手段をさらに備えていることを特徴とする請求項1から19のいずれか1項に記載のデータ入力支援システム。
JP2005323401A 2005-11-08 2005-11-08 遺伝子解析のためのデータ入力支援システム Expired - Fee Related JP5144891B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2005323401A JP5144891B2 (ja) 2005-11-08 2005-11-08 遺伝子解析のためのデータ入力支援システム
EP06022934A EP1783646A1 (en) 2005-11-08 2006-11-03 System for detection and correction of errors in input data for genotype analysis
US11/593,171 US20070106481A1 (en) 2005-11-08 2006-11-06 Data input support system for gene analysis
US12/458,222 US20100023271A1 (en) 2005-11-08 2009-07-06 Data input support system for gene analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005323401A JP5144891B2 (ja) 2005-11-08 2005-11-08 遺伝子解析のためのデータ入力支援システム

Publications (2)

Publication Number Publication Date
JP2007133476A true JP2007133476A (ja) 2007-05-31
JP5144891B2 JP5144891B2 (ja) 2013-02-13

Family

ID=37654782

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005323401A Expired - Fee Related JP5144891B2 (ja) 2005-11-08 2005-11-08 遺伝子解析のためのデータ入力支援システム

Country Status (3)

Country Link
US (2) US20070106481A1 (ja)
EP (1) EP1783646A1 (ja)
JP (1) JP5144891B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013008215A (ja) * 2011-06-24 2013-01-10 Nec Corp 情報処理装置、情報処理方法および情報処理プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617221B2 (en) * 2007-02-16 2009-11-10 Microsoft Corporation Rendering database queries with blank space
CN105368923B (zh) * 2014-08-27 2018-09-14 深圳华大基因科技服务有限公司 遗传图谱的构建方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060240A (ja) * 1999-08-24 2001-03-06 Hitachi Ltd フォーマット修正方法およびデータ変換方法
JP2007523600A (ja) * 2003-02-27 2007-08-23 メセクシス ゲノミクス エヌ.ヴイ. 多重配列変異体解析を用いる遺伝子診断

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060257888A1 (en) * 2003-02-27 2006-11-16 Methexis Genomics, N.V. Genetic diagnosis using multiple sequence variant analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060240A (ja) * 1999-08-24 2001-03-06 Hitachi Ltd フォーマット修正方法およびデータ変換方法
JP2007523600A (ja) * 2003-02-27 2007-08-23 メセクシス ゲノミクス エヌ.ヴイ. 多重配列変異体解析を用いる遺伝子診断

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6011041279; O'Connell, J. R.: 'PedCheck: A Program for Identification of Genotype Incompatibilities in Linkage Analysis' The American Journal of Human Genetics Vol.63, No.1, 19980701, p.259-266 *
JPN6011041281; Oosterhout, C.: 'Micro-Checker: Software for Identifying and Correcting Genotyping Errors in Microsatellite Data' Molecular Ecology Notes Vol.4, 2004, p.535-538 *
JPN6011041283; Saito, M.: 'Web-based detection of genotype errors in pedigree data' Journal of human genetics Vol.47, 2002, p.377-379 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013008215A (ja) * 2011-06-24 2013-01-10 Nec Corp 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
JP5144891B2 (ja) 2013-02-13
US20070106481A1 (en) 2007-05-10
US20100023271A1 (en) 2010-01-28
EP1783646A1 (en) 2007-05-09

Similar Documents

Publication Publication Date Title
CA3018186C (en) Genetic variant-phenotype analysis system and methods of use
US7996157B2 (en) Genetic diagnosis using multiple sequence variant analysis
Ziegler et al. Biostatistical aspects of genome‐wide association studies
Kurtz et al. REPuter: the manifold applications of repeat analysis on a genomic scale
EP1869605B1 (en) Genetic diagnosis using multiple sequence variant analysis
Suzuki et al. Rapid and ongoing evolution of repetitive sequence structures in human centromeres
Watson et al. Rapid detection of rare deleterious variants by next generation sequencing with optional microarray SNP genotype data
Kockum et al. Overview of genotyping technologies and methods
WO2013103759A2 (en) Haplotype based pipeline for snp discovery and/or classification
JP5144891B2 (ja) 遺伝子解析のためのデータ入力支援システム
Kothiyal et al. Mendelian inconsistent signatures from 1314 ancestrally diverse family trios distinguish biological variation from sequencing error
Qian et al. PopAlu: population-scale detection of Alu polymorphisms
Barnes Genetic variation analysis for biomedical researchers: a primer
Gymrek et al. Profiling short tandem repeats from short reads
Carr et al. DominantMapper: Rule‐based analysis of SNP data for rapid mapping of dominant diseases in related nuclear families
Al-Chalabi Genome-wide association studies
Speer Use of LINKAGE programs for linkage analysis
Gunasekaran et al. SNP‐SVant: A Computational Workflow to Predict and Annotate Genomic Variants in Organisms Lacking Benchmarked Variants
Sood Bioinformatic analysis of human Next Generation Sequencing data; extracting additional information, optimising mapping and variant calling, and application in a rare disease
Saxena et al. Asian Journal of Biological and Life Sciences Original Research
Dubchak SNP-VISTA: An Interactive SNPs Visualization Tool

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121120

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121126

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees