JP2007133476A

JP2007133476A - 遺伝子解析のためのデータ入力支援システム

Info

Publication number: JP2007133476A
Application number: JP2005323401A
Authority: JP
Inventors: Toshiko Matsumoto; 俊子松本; Akira Nakashige; 亮中重
Original assignee: Hitachi Software Engineering Co Ltd
Current assignee: Hitachi Software Engineering Co Ltd
Priority date: 2005-11-08
Filing date: 2005-11-08
Publication date: 2007-05-31
Anticipated expiration: 2025-11-08
Also published as: JP5144891B2; US20070106481A1; US20100023271A1; EP1783646A1

Abstract

【課題】連鎖不平衡解析等を行うプログラムに対する遺伝子型データの入力の際に、予め特定のエラー原因を除去しておくためのデータ入力支援システムを提供する。
【解決手段】入力データにおいて、遺伝子型データに対する特徴的な制約条件、データセット全体における統計的性質を利用することで、起こり得るエラーを前処理プログラムで検出し、エラーとその原因となる誤記入とを結び付けて指摘し、指摘に対するユーザの入力を受け付けて入力データを修正したものを出力する。
【選択図】図１

Description

本発明は、個体の疾患や外形的特徴などの表現型に関与している遺伝子を特定するための遺伝子解析において、適切な遺伝子型データを解析システムに入力するための支援システムに関するものである。

ヒトや動植物のゲノム解読が進み、遺伝子の機能を解析する研究が活発に行われている。そのなかでも特に注目されているのが、連鎖不平衡解析によって、ゲノムの中から個体の疾患や外形的特徴などの表現型（形質）に関与している遺伝子を探索する研究である。まず、図３２を参照しながら、同種の生物の個体Ａ〜Ｚ間でゲノムを比較した場合を考えてみる。通常、同種の生物の個体はほぼ似通った塩基配列を有しているが、いくつかの個所では異なった塩基を有している。図３２では、各個体は遺伝子座１及び遺伝子座２において異なる塩基を有している。ここで、遺伝子座(locus)とは、ゲノムの塩基配列における特定の位置のことを言う。

このように個体間でゲノム上の単一の塩基に多型性が見られることをＳＮＰ(Single Nucleotide Polymorphism)と言う。通常は、１つの遺伝子座に２種類の塩基（例えばＡ，Ｔ）のうちいずれかが存在しているが、ごくまれに３種類以上の塩基（例えばＡ，Ｔ，Ｇ）のうちいずれかが存在していることもある。図３２に示す例では、遺伝子座１にＴを持つ個体が多いので、遺伝子座１ではＴがメジャーでありＡがマイナーであると言う。同様に、遺伝子座２では、ＧがメジャーでありＣがマイナーであるということになる。

また、１つの遺伝子座において、ある個体はＡを有しており、他の個体は有していない場合などがある。このとき、１つ目の個体から見ると２つ目の個体のゲノムは１塩基Ａを欠いている（deletionを持つ）ことになるが、逆に２つ目の個体から見ると１つ目の個体のゲノムには１塩基Ａが挿入されていることになる。このように、個体間で１つの遺伝子座において１塩基の有無が異なる多型のことを１塩基のin/del（insertion/deletionの略）と呼ぶ。

ところで、多くの生物の個体は、雌性配偶子と雄性配偶子に由来する１組のゲノム（相同染色体）を有している。１組のゲノム上の互いに対応する部位に存在する遺伝子を、それぞれ対立遺伝子(allele)と言い、これらの組み合わせを遺伝子型(genotype)と言う。上記したように、ゲノム上には個体間で塩基配列が異なる部分が存在するので、２つの対立遺伝子は、同じである場合と異なっている場合がある。特定の部位の遺伝子に着目したとき、同じ種類の対立遺伝子を２つ持っている状態をホモ接合、異なる種類の対立遺伝子を１つずつ持っている状態をヘテロ接合と言う。

染色体が親から子に伝わる際、減数分裂によって１本のゲノムが交叉しながら伝わるため、遺伝子の組換えが起こる。一般的に、ゲノム上で距離が離れた２つの遺伝子は組換えが起こりやすく、ゲノム上で距離が近い２つの遺伝子は組換えが起こりにくいと考えられている。ゲノム上の２つの遺伝子座における遺伝子が繋がったまま親から子に伝わる傾向があるとき、２つの遺伝子座は連鎖(linkage)していると言う。

従来、少数の遺伝子が関与する遺伝性疾患について、患者を含む大家系を入力とするプログラム“LINKAGE”などを用いた連鎖解析により遺伝子探索が行われてきた。

連鎖解析プログラム例：LINKAGE
米国Rockefeller大学開発。患者を含む大家系の遺伝子型データに対し、連鎖解析を行う。
ftp://linkage.rockefeller.edu/software/linkage/

一方で、現在注目されている多因子性疾患（生活習慣病など患者数が多く多数の遺伝子に加え環境因子も関与すると考えられている疾患）に影響を与える遺伝子の探索においては、血縁関係のない一般集団を用いて以下に説明する連鎖不平衡解析が活発に行われている。

雌性配偶子又は雄性配偶子由来の１本のゲノム上において、複数の連鎖する遺伝子座に存在する対立遺伝子の組み合わせをハプロタイプと言う。１組２本の相同ゲノムを有する個体は、常に１組２つのハプロタイプを持つこととなる。

連鎖する複数の遺伝子座において、ある特定のハプロタイプの頻度が、それぞれの遺伝子座における対立遺伝子頻度を掛け合わせて得られる頻度からかけ離れている現象が観察されることがある（複数の遺伝子座間における対立遺伝子の分配が独立でない）。このとき、それらの遺伝子座は連鎖不平衡(linkage disequilibrium)にあると言う。

上記の連鎖不平衡を解析することにより、ゲノムの中から個体の疾患や外形的特徴などの表現型（形質）に関与している遺伝子を探索することができる。その手法を２つ説明する。１つ目の手法は以下の通りである。単一集団で比較的頻度の高い疾患の病因遺伝子の多くは、共通の祖先遺伝子における突然変異に由来すると推定される(common disease common variant hypothesis)。そうすると、その突然変異が起きた遺伝子座の近傍のＳＮＰ対立遺伝子も、病因遺伝子とともに一塊として受け継がれていると考えられる。すなわち、病因遺伝子の遺伝子座とその周辺のＳＮＰ遺伝子座との間には連鎖不平衡が存在すると考えられる。そこで、ゲノム上のこの領域を連鎖不平衡ブロック、あるいはハプロタイプブロックと呼んでいる。特定の疾患を有する個体が共通して有するハプロタイプブロックを探索することにより、疾患原因となっている遺伝子を特定することができる。２つ目の手法は以下の通りである。上記のcommon disease common variant hypothesisにより、突然変異が起きた遺伝子の近傍のＳＮＰ対立遺伝子は病因遺伝子とともに患者集団に受け継がれているとすると、対立遺伝子の頻度が患者集団と健常者集団とで異なることになる。このことから、逆に、対立遺伝子の頻度が患者集団と健常者集団とで異なるＳＮＰの近傍に病因遺伝子があると考えられる。同様に、複数のＳＮＰをまとめて考え、ハプロタイプの頻度を患者集団と健常者集団とで比較する手法も用いられている。

通常、連鎖不平衡解析を用いて表現型に関与する遺伝子を探索する際には、数十〜数百、時には千個体以上の個体サンプルを用いて、数〜数百、時には１万程度の遺伝子座について遺伝子型を調べる。また、遺伝子型データを入力とし、連鎖不平衡解析を行うためのプログラムは、以下に示すように多数開発・提供されている。

連鎖不平衡解析プログラム例１：ARLEQUIN
スイスUniversity of Geneva開発。家系の情報を含まない遺伝子型データに対し、ハーディ・ワインバーグ平衡検定および連鎖不平衡の計算を行う。
Stefan Schneider, David Roessli, and Laurent Excoffier (2000) Arlequin ver. 2.000: A software for population genetics data analysis. Genetics and Biometry Laboratory, University of Geneva, Switzerland.

連鎖不平衡解析プログラム例２：Haploview
米Whitehead Institute開発。家系の情報を含まない遺伝子型データに対し、遺伝子座ごとのmissingサンプル数の確認、ハーディ・ワインバーグ平衡（後述）の確認、遺伝子座間の距離の確認、マイナーな対立遺伝子の頻度の確認、ハプロタイプブロックの計算を行う（非特許文献１参照）。

連鎖不平衡解析プログラム例３：Varia
米Silicon Genetics社開発（出願時現在、米Agilent Technologies社から”GeneSpring GT”として同じソフトウェアが提供されている）。家系の情報を含む遺伝子型データや含まない遺伝子型データに対し、ハプロタイプブロックの計算などの解析を行う。
http://www.silicongenetics.com/cgi/SiG.cgi/Products/Varia/features.smf

連鎖不平衡解析を行うためのプログラムで用いられる、入力データ（遺伝子型データ）の記述形式には、図３３に説明するＩＵＢコード形式などがある。ＩＵＢコード形式では、１行目には遺伝子座名を並べて記述し（３３００）、２行目以降には、個体ごとのデータを記述する（３３０１）。個体ごとのデータの記述においては、行の冒頭に疾患の有無を記述し（３３０２）、次に個体識別子を記述し（３３０３）、その後、その個体が持つ遺伝子型を１行目の遺伝子座の順序で並べて記述する（３３０４）。疾患の有無については、患者は「Patient」で健常者は「Normal」で記述される。遺伝子型については、図３４に示すＩＵＢコードで記述される。図３３の例では、個体p001は患者であり、遺伝子座Locus1ではＡとＴのヘテロ接合、遺伝子座Locus2ではＡのホモ接合である。missingとは、実験の失敗などにより遺伝子型データが欠損している場合を指す。また、図３４に示す遺伝子型の記述のうち、「-」，「a」，「t」，「g」，「c」はin/del多型において現れる。

また、ハプロタイプブロックを求める際、遺伝子座同士の距離（何塩基離れているか）を考慮して計算するアルゴリズムが提案されている。このため、入力データで各遺伝子座の位置を指定する必要がある。このためのフォーマットとしては、図３５に説明する形式などがある。これは、各行に遺伝子座ごとのデータを記述するものであり、行の冒頭に遺伝子座名を記述し（３５００）、次に物理位置（染色体の先頭から数えて何塩基目か）を記述する（３５０１）。

J. C. Barrett, B. Fry, J. Maller and M. J. Daly, "Haploview: analysis and visualization of LD and haplotype maps", Bioinformatics vol. 21 no. 2 (2005), pages 263-265

プログラムを用いて病因遺伝子の探索を行う際、入力データの中に誤記入が混入してしまうことが問題となる。プログラムは、入力データとして完全に正しいデータが与えられると想定している。しかし、実験により得られた遺伝子型データは手作業で電子データ化およびフォーマット変更される場合が多いため、入力データの誤りを完全に防ぐことは難しい。さらに、手作業でのデータ入力の際に生じるエラーに加え、実験の誤りにより生じるエラーも含めると、非常に多くの種類のエラーが起こり得る。

従来行われていた連鎖解析に対しては、VariaおよびCheckfamなど、親子関係を利用して遺伝子型データに矛盾がないか確認する手法が提供されている。

連鎖解析用の、遺伝子型データの矛盾検出プログラム例：Checkfam
東京女子医科大学開発。家系の情報を含む遺伝子型データに対し、対立遺伝子の伝達の矛盾を探す。
http://www.genstat.net/checkfam/index.cgi?lang=ja

しかしながら、連鎖不平衡解析の入力データに関しては、以下に挙げるように様々なエラーが起こり得るにもかかわらず、従来何ら対策がなされていない。

エラー１：遺伝子座の物理位置を必要とするプログラムに対する入力データにおいて、該当入力データが用意されていない
この場合は、入力ファイルが不十分であるため、解析プログラムを実行させることができない。

エラー２：遺伝子座は物理位置の順（染色体上の順序）で並んでいることが想定されているプログラムに対する入力データにおいて、遺伝子座が正しく並んでいない
この場合は、プログラムが途中で異常終了してしまう可能性や、プログラムを実行させることはできても解析結果が意図したものと異なる可能性がある。さらに、見かけ上プログラムが最後まで実行された場合、研究者は解析結果が意図したものと異なることに気づかない危険性も考えられる。

エラー３：遺伝子座の物理位置には重複がないことが想定されているプログラムに対する入力データにおいて、同じ物理位置を持つ遺伝子座が複数ある
染色体のゲノム配列のデータが更新された時の数え直し処理や、in/del多型をどのように数えるかのポリシーにより、一貫性が失われて物理位置の重複が生じる危険性がある。

エラー４：特定の遺伝子座について遺伝子型データがまったく指定されていない・物理位置が指定されていない
ＳＮＰの中には発見時の経緯により複数の遺伝子座名を持つＳＮＰがある。また、遺伝子座名を記述する際、ABI社で開発されたＳＮＰの遺伝子座名の末尾に「(ABI)」を付けたり、JＳＮＰプロジェクトで開発されたＳＮＰの遺伝子座名の末尾に「(JＳＮＰ)」を付けたりする場合がある。この場合は、手作業で入力データを作成しているうちにこれらの付加文字列が抜け落ちたり、全角文字になったりする危険性がある。これらの原因により遺伝子座名の不整合が生じると、プログラムの処理上は特定のＳＮＰについて遺伝子型データがまったく指定されていない・物理位置が指定されていないかのように扱われてしまい、原因究明・解決までに時間を要する。

エラー５：想定外の文字列が遺伝子型として用いられる
図３４に示したIUBコードではmissingデータを「0」で表記することが想定されている。しかし、誤ってmissingデータを「*」（アスタリスク）などの記号で表記してしまったり、ＡとＴのヘテロ接合を「Ｗ」ではなく「ＡＴ」と２つの対立遺伝子をつなげて表記してしまったりする場合がある。この場合は想定外の文字列が現れたことになるため、プログラムが途中で異常終了してしまう可能性がある。

エラー６：患者集団と健常者集団とを用いて解析を行うことが想定されているプログラムに対する入力データにおいて、想定外の集団に属する個体が用いられている・片方の集団しかない
図３３に示した形式では、患者は「Patient」健常者は「Normal」で記述されることが想定されている。しかし、誤って患者を「Case」健常者を「Control」と記述してしまったり、大文字と小文字を間違えて記述してしまったりする場合がある。また、患者の個体識別子は「P」から始まるもの、健常者の個体識別子は「N」から始まるものを指定し、疾患の有無の指定を省略してしまう場合がある。これらの場合は、プログラムが途中で異常終了してしまう可能性がある。

エラー７：対立遺伝子を３つ以上持つ遺伝子座がある
この原因としては次の４つが考えられる。

原因の１つ目は、本当にその遺伝子座に３つ以上の対立遺伝子があった場合で、この場合は誤記入ではない。ただし、塩基配列読み取り実験やＤＮＡマイクロアレイなどを用いた場合は３種類以上の対立遺伝子を識別できるが、TaqManアッセイなどでは２種類しか識別できない場合があるため、実験手法の特性を考慮する必要がある。ＳＮＰを対象とするプログラムには各遺伝子座における対立遺伝子は２つであると仮定しているものがあり、そのようなプログラムではこの遺伝子座を解析対象外とするか、または最も頻度が低い対立遺伝子を最も頻度が高い対立遺伝子と併合させなくてはならない。

原因の２つ目は、ヘテロ接合の遺伝子型を誤って記入してしまった場合である。図３６の３６００において個体P03は遺伝子座Locus2において対立遺伝子ＧとＣを持つ。図３４に示すように、ＧとＣのヘテロ接合は「Ｓ」と表記されるべきところ、誤って「Ｋ」と表記してしまったとする。ＫはＧとＴのヘテロ接合を表すので、実際には対立遺伝子を２つ（ＧとＣ）しか持たないにも関わらず、３つ（ＧとＣとＴ）持つと判断されることになってしまう。

原因の３つ目は、missingデータを「0」ではなく空白文字（半角スペース、タブなど）で表記してしまった場合である。図３６の個体P02は遺伝子座Locus2の遺伝子型が欠損している。missingデータを「0」で表記するべきところ、３６０１に示すように半角スペースで表記してしまったとする。連鎖不平衡解析プログラムでは半角スペースは区切り文字として扱われるので、Locus2以降の各遺伝子座における遺伝子型データは１つずつずれてしまい、３６０２に示すデータであると解釈される。遺伝子座Locus2、3においては、実際のデータ（３６０１と３６０２の灰色の太線で結んだ遺伝子型データ）では対立遺伝子を２つしか持たないにも関わらず、連鎖不平衡解析プログラムが解釈した結果（３６０１と３６０２の灰色の点線で結んだ遺伝子型データ）では対立遺伝子を３つ以上持つと判断されることになり、終端の遺伝子座Locus4における個体P02の遺伝子型は未指定となってしまう。

原因の４つ目は、ヘテロ接合の遺伝子型を誤って表記してしまった場合である。図３６の個体P03の遺伝子座Locus2における遺伝子型は「S」と表記されるべきところ、３６０３に示すように「ＧＣ」と２つの対立遺伝子を半角スペースでつなげて表記してしまったとする。この場合は、Locus3以降の遺伝子型における遺伝子型データは、３６０１に示した例とは逆の向きに遺伝子型データがずれてしまい、３６０４に示すデータであると解釈される。遺伝子座Locus3、4においては、実際のデータ（３６０３と３６０４の灰色の太線で結んだ遺伝子型データ）では対立遺伝子を２つしか持たないにも関わらず、連鎖不平衡解析プログラムが解釈した結果（３６０３と３６０４の灰色の点線で結んだ遺伝子型データ）では対立遺伝子を３つ以上持つと判断されることになり、個体P03は終端の遺伝子座（遺伝子座名は未指定）における遺伝子型が指定されていることになってしまう。

上記の第３、第４の原因の場合においては、誤記入とプログラムの異常終了とを結び付けて考えることが難しいだけでなく、千個体以上のサンプル個体・数百の遺伝子座などの大量データから誤記入を見つけるのは非常に困難で、原因究明・解決までに時間を要する。

エラー８：全ての遺伝子座に多型があることが想定されているプログラムに対する入力データにおいて、多型がない遺伝子座が含まれている
JＳＮＰなどの公共データベースに登録されている遺伝子座を用いた場合は、データベースでは多型があるとして登録されていても研究者が持っているサンプル内では多型がない（単型である）場合がある。連鎖不平衡解析のアルゴリズムによっては、解析に用いる全ての遺伝子座で多型があることを想定して定義されているものがある。例えば、連鎖不平衡係数のD’は対立遺伝子の頻度での割り算を行うため、頻度が0である対立遺伝子を含む遺伝子座においては定義されていない。このようなプログラムの入力データに多型がない遺伝子座が含まれていると、プログラムが途中で異常終了してしまう可能性や、プログラムを実行させることはできても解析結果が意図したものと異なる可能性がある。

エラー９：対立遺伝子としてＡ・Ｔ・Ｇ・Ｃしか現れないと想定しているプログラムに対する入力データにおいて、in/del多型が含まれる遺伝子座がある
この場合は、プログラムが途中で異常終了してしまう可能性や、プログラムを実行させることはできても解析結果が意図したものと異なる可能性がある。

エラー１０：ヘテロ接合の個体が極端に多い遺伝子座がある
遺伝子型を調べる実験を行うには、それぞれの遺伝子座ごとにプローブと呼ばれる短い塩基配列を用意することが多い。JＳＮＰやABI社が用意したＳＮＰなどでは、プローブがゲノム上で１箇所だけに反応することが確かめられていると期待できるが、ｄｂＳＮＰなど不特定多数が投稿できる公共データベースに登録されているＳＮＰや研究者が独自に用意したＳＮＰでは、まれに図３７の３７００に示すように２箇所に反応してしまう場合がある。この場合は、実際には遺伝子座Locus2-1にも遺伝子座Locus2-2にも多型がないにも関わらず、３７０１に示すように、ほぼ全ての個体がＴとＣのヘテロ接合である単一の遺伝子座Locus2（点線で囲んだ部分）であるかのような実験結果が得られてしまう。

エラー１１：ホモ接合の個体が極端に多い遺伝子座がある
この原因としては次の２つが考えられる。１つ目は、実際にサンプル集団の多くがホモ接合の場合である。病因となる変異をホモ接合で持つとヘテロ接合で持つ場合より発症リスクが大きくなる疾患においては、患者集団でホモ接合の頻度が高くなる場合がある。原因の２つ目は、サンプル集団が２種類の集団が混ざっているものだった場合である。例えば、人種１は全ての個体がＣを持ち、人種２は全ての個体がＧを持つ遺伝子座Locus3があったとする。サンプル集団が２つの人種を含む場合は、図３８に示すように、それぞれの人種では多型がないにも関わらず、この遺伝子座には多型があるかのように思われてしまう。このような複数の集団が混在したサンプルでは適切な解析ができない。

エラー１２：ヘテロ接合の遺伝子座が極端に多い個体がいる
実験中に他サンプルのＤＮＡが混入してしまう場合がある。図３９の３９００に示すような状況において個体P01のサンプルに個体P02のＤＮＡが混入してしまったとすると、実際には遺伝子座Locus1では対立遺伝子としてＡ、Locus2ではＧしか持っていないにも関わらず、３９０１に示すようにＡとＴおよびＧとＣを持っているかのように観測される。このため、多くの遺伝子座でヘテロ接合であるとの実験結果が得られてしまう。

エラー１３：ホモ接合の遺伝子座が極端に多い個体がいる
図４０に示す例では、個体P03は全ての遺伝子座でホモ接合である。このような個体は、特殊な個体（家系内に近親婚があるなど）である可能性がある。連鎖不平衡解析においては、サンプルは患者集団および健常者集団からランダムに選ばれたと仮定しているため、この個体を除外して解析した方が良い場合が多い。

エラー１４：missingデータが多い個体がいる
図４１に示すように、特定の個体（ここではP01）において実験を高頻度で失敗し、missingデータが多くなってしまう場合がある。このような場合は、ハプロタイプ推定精度が低くなってしまったり、信頼区間の幅が広がってしまったりする可能性がある。したがって、個体P01を含めた場合と除いた場合で２通り解析してみることが望ましい。

エラー１５：missingデータが多い遺伝子座がある
図４２に示すように、特定の遺伝子座（ここではLocus2）において実験を高頻度で失敗し、missingデータが多くなってしまう場合がある。また、２つ以上の研究機関で得られた遺伝子型データを合わせて解析する際、Locus2は片方の研究機関でしか実験をしなかったとすると、もう片方の研究機関から得られたデータではLocus2のデータは全てmissingデータとして扱われる。このような場合は、エラー１４の場合と同様に、Locus2を含めた場合と除いた場合で２通り解析してみることが望ましい。

エラー１６：サンプル集団がハーディ・ワインバーグ平衡からずれている
集団に十分な個体数があり、他集団への個体の移動がなく、集団内での任意婚が成立し、突然変異や自然淘汰がない場合は、その集団はハーディ・ワインバーグ平衡にあると言う。解析に用いたサンプル集団がハーディ・ワインバーグ平衡からずれていた場合は、ランダムサンプリングできなかったのではないかと疑われ、適切な解析ができない可能性がある。

エラー１７：解析に用いる遺伝子座の中に、極端に遠く離れたものがある
遺伝子座間の距離が極端に離れている場合は、その遺伝子座間が連鎖不平衡にある（祖先から一塊として受け継がれている）とは考えにくい。したがって、連鎖不平衡解析を行う際、このような遺伝子座を１度に解析するべきではない。

エラー１８：極端にまれな対立遺伝子を持つ遺伝子座がある
遺伝統計解析による病因遺伝子探索においては、通常、マイナーな対立遺伝子の頻度が5％以上である遺伝子座のみを解析に用い、望ましくは10%〜30%を下限とした方が良いとされている。これは、対立遺伝子頻度が極端に低い遺伝子座を用いることにより統計的検定の検出力が下がってしまうのを防ぐためである。したがって、この遺伝子座を含めた場合と除いた場合で２通り解析してみることが望ましい。

本発明は、連鎖不平衡解析等を行うプログラムに対する遺伝子型データの入力の際に、予め上記したようなエラー原因を検出し、除去することができるデータ入力支援システムを提供しようとするものである。

上記解決課題に鑑みて鋭意研究の結果、本発明者は、入力される遺伝子型データにおける特徴的な制約条件やデータセット全体における統計的性質に着目して、起こり得るエラーの類型を予め想定しておき、入力データに対する前処理によってこれらのエラーを検出し、検出されたエラーとその原因である誤記入とを結び付けてユーザに指摘するデータ入力支援システムを提案する。このようなデータ入力支援システムにより、適正なデータを用いて連鎖不平衡解析が効率的に行われることとなり、ユーザの意図とは異なる解析結果が出力されてしまうことがなくなる。より具体的には、以下に示す機能１〜１５をもって、それぞれ上記のエラー１〜１５を解決する手段とする。

機能１：解析プログラムごとに入力データとして遺伝子座の物理位置を必要とするかどうかの情報を保持しておき、ユーザが指定した解析プログラムが遺伝子座の物理位置の指定を必要とするにも関わらず入力データで指定されていない場合は、指摘を行う。

機能２−１：解析プログラムごとに遺伝子座が物理位置の順に並んでいると想定しているかどうかの情報を保持しておき、ユーザが指定した解析プログラムが遺伝子座が物理位置の順に並んでいることを想定しているにも関わらず入力データで並んでいない場合は、指摘を行う。

機能２−２：機能２−１に該当する場合は、遺伝子座を並べ替えた修正版入力データを作成する。

機能３：遺伝子座の物理位置に重複がないか確認し、重複がある場合は指摘を行う。

機能４−１：遺伝子型データがどの個体でも未指定になっている遺伝子座と物理位置が未指定になっている遺伝子座があるか確認する。そのような遺伝子座の組があった場合は、類似した遺伝子座名でないか確認し、類似した遺伝子座名である場合は、遺伝子座名の誤記入の可能性がある旨指摘を行う。

機能４−２：機能４−１に該当する場合は、片方の遺伝子座名で統一した修正版入力データを作成する。

機能５−１：遺伝子型データとして「*」（アスタリスク）などの記号が指定されていないか確認し、そのような遺伝子型があった場合は、missingデータを誤記入している可能性がある旨指摘を行う。

機能５−２：機能５−１に該当する場合は、該当する遺伝子型をmissingデータ「0」で置き換えた修正版入力データを作成する。

機能５−３：遺伝子型データとして「ＡＴ」など、対立遺伝子２つをつなげた文字列が指定されていないか確認し、そのような遺伝子型があった場合は、ヘテロ接合の遺伝子型を誤って表記している可能性がある旨指摘を行う。

機能５−４：機能５−３に該当する場合は、該当するヘテロ接合の遺伝子型を置き換えた修正版入力データを作成する。

機能５−５：遺伝子型データとして「N」など想定外の文字列が指定されていないか確認し、そのような遺伝子型があった場合は指摘を行う。

機能６−１：解析プログラムごとに入力データとして患者と健常者を用いることを想定しているかどうかの情報を保持しておき、ユーザが指定した解析プログラムが患者と健常者を用いることを想定しているにも関わらず集団名が指定されていない場合は、指摘を行う。

機能６−２：集団名として「Case」、「Control」または「Patient」と「Normal」の大文字・小文字を間違えたものが指定されていないか確認し、そのような「Patient」または「Normal」の誤記入の可能性がある旨指摘を行う。

機能６−３：機能６−２に該当する場合は、集団名を「Patient」または「Normal」で置き換えた修正版入力データを作成する。

機能６−４：解析プログラムごとに入力データとして患者と健常者を用いることを想定しているかどうかの情報を保持しておき、ユーザが指定した解析プログラムが患者と健常者を用いることを想定しているにも関わらず集団名として「Japanese」など想定外の文字列が指定されている場合は、指摘を行う。

機能７−１：解析プログラムごとの各遺伝子座における対立遺伝子は２つであると仮定しているかどうかの情報と、遺伝子座ごとの実験手法の情報を保持しておき、ユーザが指定した解析プログラムが対立遺伝子は２つであると仮定していたり、２種類の対立遺伝子しか識別できない実験手法を用いていたりするにも関わらず対立遺伝子を３つ以上持つ遺伝子座があった場合は、指摘を行う。

機能７−２：機能７−１に該当する場合は、その遺伝子座を解析対象から除いた修正版入力データを作成する。

機能７−３：機能７−１に該当する場合は、頻度の高さが３番目以降の対立遺伝子を最も頻度が高い対立遺伝子と併合させた修正版入力データを作成する。

機能７−４：対立遺伝子を３つ以上持つ遺伝子座がないか確認する。そのような遺伝子座があった場合は、以下の２つの条件を全て満たすか確認する。２つの条件を両方満たす場合は、頻度が高い２つの対立遺伝子のヘテロ接合の遺伝子型を誤記入している可能性がある旨指摘を行う。１）頻度が高い２つの対立遺伝子はホモ接合としてのみ現れ、頻度が高い２つの対立遺伝子のヘテロ接合の個体はない。２）頻度の高さが３番目以降の対立遺伝子はヘテロ接合としてのみ表れ、頻度の高さが３番目以降の対立遺伝子のホモ接合の個体はない。

機能７−５：機能７−４に該当する場合は、ヘテロ接合の遺伝子型を書き換えた修正版入力データを作成する。

機能７−６：対立遺伝子を３つ以上持つ遺伝子座がないか確認する。そのような遺伝子座があった場合は、以下の４つの条件を全て満たすか確認する。４つの条件をすべて満たす場合は、missingデータを空白文字（半角スペース、タブなど）で表記してしまった可能性がある旨指摘を行う。１）その遺伝子座以降に対立遺伝子を３つ以上持つ遺伝子座が頻発する。２）３つ以上の対立遺伝子を持つそれぞれの遺伝子座において、頻度の高さが３番目以降の対立遺伝子を持つ個体は共通である。３）頻度の高さが３番目以降の対立遺伝子を共通して持つ個体は、終端の遺伝子座における遺伝子型が未指定である。４）３つ以上の対立遺伝子を持つそれぞれの遺伝子座において、頻度の高さが３番目以降の対立遺伝子は、右隣の遺伝子座においては１番目または２番目に頻度の高い対立遺伝子である。

機能７−７：機能７−６に該当する場合は、missingデータを『0』で置き換えた修正版入力データを作成する。

機能７−８：対立遺伝子を三つ以上持つ遺伝子座がないか確認する。そのような遺伝子座があった場合は、以下の４つの条件を全て満たすか確認する。４つの条件をすべて満たす場合は、ヘテロ接合の遺伝子型を２つの対立遺伝子を半角スペースでつなげて表記してしまった可能性がある旨指摘を行う。１）その遺伝子座以降に対立遺伝子を三つ以上持つ遺伝子座が頻発する。２）三つ以上の対立遺伝子を持つそれぞれの遺伝子座において、頻度の高さが３番目以降の対立遺伝子を持つ個体は共通である。３）頻度の高さが３番目以降の対立遺伝子を共通して持つ個体は、遺伝子座名が未指定の終端の遺伝子座における遺伝子型が指定されている。４）三つ以上の対立遺伝子を持つそれぞれの遺伝子座において、頻度の高さが３番目以降の対立遺伝子は、左隣の遺伝子座においては１番目または２番目に頻度の高い対立遺伝子である。

機能７−９：機能７−８に該当する場合は、ヘテロ接合の遺伝子型を書き換えた修正版入力データを作成する。

機能７−１０：空白文字（半角スペース、タブなど）が不規則に使われていないか確認する。以下の三つの条件のどちらかを満たす場合は、ユーザの意図と異なる入力データ解釈が行われる可能性がある旨指摘を行う。１）空白文字のうち２種類以上が入力データの区切り文字として使われている。２）複数の空白文字が連続して現れる。３）空白文字と解釈されたりデータと解釈されたりする文字（全角スペースなど）が使われている。

IUBコード形式では、個体識別子と遺伝子座データの間や、遺伝子座データ間は空白文字（半角スペース、タブなど）を用いて区切ることが想定されており、典型的にはタブ区切りで記述される。しかし通常のテキストエディタでは空白文字は画面に表示されないため、複数種類の空白文字を混在させてしまったり、半角スペースのつもりで全角スペースを入力してしまったり、行の末尾に不要な空白文字を入力してしまったりする場合がある。また、通常の表計算ソフトではタブ区切りでデータを解釈して各データ列を縦にそろえて表示するため、遺伝子型データを記入し忘れたり、半角スペースや全角スペースで表記してしまったり、２つの対立遺伝子を半角スペースでつなげて表記してしまったのをユーザが見逃す危険性がある。機能７−１０を用いてこれらの不規則な空白文字の使用を指摘することにより、上記エラー７をより確実に防ぐことができる。

機能８−１：解析プログラムごとに全ての遺伝子座で多型があることを想定しているかどうかの情報を保持しておき、ユーザが指定した解析プログラムが多型があることを想定しているにも関わらず単型の遺伝子座があった場合は、指摘を行う。

機能８−２：機能８−１に該当する場合は、その遺伝子座を解析対象から除いた修正版入力データを作成する。

機能９−１：解析プログラムごとに対立遺伝子としてＡ・Ｔ・Ｇ・Ｃしか現れないと想定しているかどうかの情報を保持しておき、ユーザが指定した解析プログラムが対立遺伝子としてＡ・Ｔ・Ｇ・Ｃしか現れないと想定しているにも関わらずin/del多型が含まれる遺伝子座があった場合は、指摘を行う。

機能９−２：機能９−１に該当する場合は、in/del多型が含まれる遺伝子座を除いた修正版入力データを作成する。

機能１０−１：ヘテロ接合の個体が極端に多い遺伝子座がないか確認し、そのような遺伝子座があった場合は、ゲノム上の２箇所以上と反応してしまっている可能性がある旨指摘を行う。

機能１０−２：機能１０−１に該当する場合は、その遺伝子座を解析対象から除いた修正版入力データを作成する。

機能１１：ホモ接合の個体が極端に多い遺伝子座がないか確認し、そのような遺伝子座があった場合は、サンプル集団の中に複数の集団が混在している可能性がある旨指摘を行う。

機能１２−１：ヘテロ接合の遺伝子座が極端に多い個体がないか確認し、そのような個体があった場合は、サンプルの混入の可能性がある旨指摘を行う。

機能１２−２：機能１２−１に該当する場合は、その個体を解析対象から除いた修正版入力データを作成する。

機能１３−１：ホモ接合の遺伝子座が極端に多い個体がないか確認し、そのような個体があった場合は、特殊な個体である可能性がある旨指摘を行う。

機能１３−２：機能１３−１に該当する場合は、その個体を解析対象から除いた修正版入力データを作成する。

機能１４−１：missingデータが多い個体がないか確認し、そのような個体があった場合は指摘を行う。

機能１４−２：機能１４−１に該当する場合は、その個体を解析対象から除いた修正版入力データを作成する。

機能１５：上記の機能１から機能１４−２を用いて指摘を行った項目および修正版入力データを作成した項目についてまとめて表示する。

上記の機能１から機能１４−２を用いることにより、それぞれエラー１からエラー１４を防ぐことができる。尚、エラー１５、１６、１７、１８については、上記したHaploviewやVariaといった既存技術で対応することができる。

以上の機能１〜１５を実現したシステムとして、本発明は、連鎖不平衡解析プログラムに入力される遺伝子型データの検査を行うデータ入力支援システムであって、前記連鎖不平衡解析プログラムに対応する遺伝子型データのエラーの類型を保持する記憶部と、入力された遺伝子型データを前記エラーの類型に照合し、エラーを検出するエラー検出部と、前記検出されたエラーを指摘する表示を行うエラー指摘表示部とを備えていることを特徴とするデータ入力支援システムを提供するものである。

本発明のデータ入力支援システムにおいて、前記エラーの類型は、遺伝子座の物理位置に関する遺伝子型データを必要とする連鎖不平衡解析プログラムに対して、入力された遺伝子型データが遺伝子座の物理位置に関するデータを有していないというエラーを含んでいることを特徴とする。これは、上記機能１を実現したものである。

本発明のデータ入力支援システムにおいて、前記エラーの類型は、遺伝子座が物理位置の順に並んでいる遺伝子型データにのみ対応した連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいて遺伝子座が物理位置の順に並んでいないというエラーを含んでいることを特徴とする。これは、上記機能２（枝番号は省略、以下同じ）を実現したものである。

本発明のデータ入力支援システムにおいて、前記エラーの類型は、入力された遺伝子型データにおいて遺伝子座の物理位置に重複があるというエラーを含んでいることを特徴とする。これは、上記機能３を実現したものである。

本発明のデータ入力支援システムにおいて、前記エラーの類型は、入力された遺伝子型データにおいて遺伝子型が指定されていない遺伝子座と物理位置が指定されていない遺伝子座とがあるエラーを含んでいることを特徴とする。これは、上記機能４を実現したものである。

本発明のデータ入力支援システムにおいて、前記エラーの類型は、入力された遺伝子型データにおいて、ホモ接合体、ヘテロ接合体又はmissingデータを示す記号として、前記連鎖不平衡解析プログラムにおける規定とは異なる記号が含まれているというエラーを含んでいることを特徴とする。これは、上記機能５を実現したものである。

本発明のデータ入力支援システムにおいて、前記エラーの類型は、患者及び健常者両方の遺伝子型データを必要とする連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいて、前記連鎖不平衡解析プログラムにおける規定に従って患者及び健常者それぞれの集団が特定されていないというエラーを含んでいることを特徴とする。これは、上記機能６を実現したものである。

本発明のデータ入力支援システムにおいて、前記エラーの類型は、１つの遺伝子座について多くとも２種類の対立遺伝子しか存在しないと規定している連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいて３種類以上の対立遺伝子を持つ遺伝子座が含まれているというエラーを含んでいることを特徴とする。これは、上記機能７を実現したものである。

本発明のデータ入力支援システムにおいて、前記エラーの類型は、入力された遺伝子型データにおいて下記のいずれかの表記が含まれているというエラーを含んでいることを特徴とする。
１）２種類以上の異なる空白文字が入力データの区切り文字として使用されている。
２）複数の空白文字が連続して現れる。
３）連鎖不平衡解析プログラムの種類によって、空白文字及び遺伝子型データのいずれにも解釈され得る文字が使用されている。
これは、上記機能７を実現したものである。

本発明のデータ入力支援システムにおいて、前記エラーの類型は、全ての遺伝子座で多型があると規定している連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいて単型の遺伝子座が含まれているというエラーを含んでいることを特徴とする。これは、上記機能８を実現したものである。

本発明のデータ入力支援システムにおいて、前記エラーの類型は、対立遺伝子としてＡ・Ｔ・Ｇ・Ｃしか現れないと規定している連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいてin/del多型である遺伝子座が含まれているというエラーを含んでいることを特徴とする。これは、上記機能９を実現したものである。

本発明のデータ入力支援システムにおいて、前記エラーの類型は、入力された遺伝子型データにおいて、ヘテロ接合の個体が所定基準より多い遺伝子座、又はホモ接合の個体が所定基準より多い遺伝子座が含まれているというエラーを含んでいることを特徴とする。ここで、所定基準には、個体数の割合や統計的検定のＰ値などを用いることができる。これは、上記機能１０及び１１を実現したものである。

本発明のデータ入力支援システムにおいて、これは、前記エラーの類型は、入力された遺伝子型データにおいて、ヘテロ接合の遺伝子座を所定基準より多く有する個体、又はホモ接合の遺伝子座を所定基準より多く有する個体が含まれているというエラーを含んでいることを特徴とする。ここで、所定基準には、個体数の割合や統計的検定のＰ値などを用いることができる。上記機能１２及び１３を実現したものである。

本発明のデータ入力支援システムにおいて、これは、前記エラーの類型は、入力された遺伝子型データにおいて、missingデータが所定基準より多い個体が含まれているというエラーを含んでいることを特徴とする。ここで、所定基準には、個体数の割合などを用いることができる。上記機能１４を実現したものである。

さらに、本発明のデータ入力支援システムでは、上記機能７に関して、以下のような特徴を有している。
遺伝子型データにおいて対立遺伝子を３つ以上持つ遺伝子座がある場合において、前記エラー指摘表示部は、以下の２つの条件が全て満たされる場合には、入力された遺伝子型データにおいて、前記３つ以上の対立遺伝子のうちの頻度が高い２つの対立遺伝子のヘテロ接合の遺伝子型が誤記入されている可能性がある旨の指摘を表示する。
１）入力された遺伝子型データにおいて、前記３つ以上の対立遺伝子のうちの頻度が高い２つの対立遺伝子のヘテロ接合を含む個体が存在しない。
２）入力された遺伝子型データにおいて、前記３つ以上の対立遺伝子のうちの頻度の高さが３番目以降の対立遺伝子のホモ接合を含む個体が存在しない。

遺伝子型データにおいて対立遺伝子を３つ以上持つ遺伝子座がある場合において、前記エラー指摘表示部は、以下の４つの条件が全て満たされる場合には、入力された遺伝子型データにおいてmissingデータの表記形式が誤記入されている可能性がある旨の指摘を表示する。
１）入力された遺伝子型データにおいて、前記対立遺伝子を３つ以上持つ遺伝子座に後続して対立遺伝子を３つ以上持つ遺伝子座が一定数以上存在する。
２）入力された遺伝子型データにおいて、同一の個体が複数の遺伝子座において３つ以上の対立遺伝子のうち頻度の高さが３番目以降の対立遺伝子を含んでいる。
３）入力された遺伝子型データにおいて、上記２）に該当する個体は、終端の遺伝子座における遺伝子型が指定されていない。
４）入力された遺伝子型データにおいて、３つ以上の対立遺伝子を持つ遺伝子座における頻度の高さが３番目以降の対立遺伝子は、当該遺伝子座の後隣の遺伝子座において頻度の高さが１番目又は２番目の対立遺伝子である。

遺伝子型データにおいて対立遺伝子を３つ以上持つ遺伝子座がある場合において、前記エラー指摘表示部は、以下の４つの条件が全て満たされる場合には、入力された遺伝子型データにおいてヘテロ接合の遺伝子型が誤記入されている可能性がある旨の指摘を表示する。
１）入力された遺伝子型データにおいて、前記対立遺伝子を３つ以上持つ遺伝子座に後続して対立遺伝子を３つ以上持つ遺伝子座が一定数以上存在する。
２）入力された遺伝子型データにおいて、同一の個体が複数の遺伝子座において３つ以上の対立遺伝子のうち頻度の高さが３番目以降の対立遺伝子を含んでいる。
３）入力された遺伝子型データにおいて、上記２）に該当する個体は、終端の遺伝子座における遺伝子型が指定されている。
４）入力された遺伝子型データにおいて、３つ以上の対立遺伝子を持つ遺伝子座における頻度の高さが３番目以降の対立遺伝子は、当該遺伝子座の前隣の遺伝子座において頻度の高さが１番目又は２番目の対立遺伝子である。

本発明のデータ入力支援システムは、また、前記入力された遺伝子型データについて、前記指摘されたエラーを訂正する入力を受け付け、当該入力に基づいて前記遺伝子型データを訂正するエラー訂正手段をさらに備えていることを特徴とする。

本発明のデータ入力支援システムにおいて、前記エラー訂正手段は、前記対立遺伝子を３つ以上持つ遺伝子座について、当該３つ以上の対立遺伝子のうち頻度の高さが３番目以降の対立遺伝子を頻度の高さが１番目以降の対立遺伝子に書き換える訂正入力を受け付け、そのように前記遺伝子型データを訂正することを特徴とする。

本発明のデータ入力支援システムは、また、前記エラー指摘表示部によるエラー指摘内容と、前記エラー訂正手段による前記遺伝子型データの訂正内容とを一覧表示する手段をさらに備えていることを特徴とする。

以上、説明したように、本発明によれば、連鎖不平衡解析等の解析プログラムに入力されるデータに含まれる様々なエラーを検出し、エラーとその原因となる誤記入とを結び付けて表示することができる。これにより、適正なデータを用いて連鎖不平衡解析を効率的に行うことができるようになり、ユーザの意図とは異なる解析結果が出力されるのを防ぐことができる。

以下、添付図面を参照しながら、本発明の遺伝子解析のためのデータ入力支援システムを実施するための最良の形態を詳細に説明する。図１〜図３１は、本発明の実施の形態を例示する図であり、これらの図において、同一の符号を付した部分は同一物を表わし、基本的な構成及び動作は同様であるものとする。

遺伝子型データ入力支援システムの構成
図１は、本発明の一実施形態として構築される、遺伝子型データ入力支援システムの内部構成を概略的に示す機能ブロック図である。この遺伝子型データ入力支援システムは、遺伝統計解析で用いられる各種プログラムの特徴を保存したプログラムDB１００、入力データとその解釈支援結果を表示するための表示装置１０１、表示されたデータに対して個体や遺伝子座を選択するなどの操作を行うためのキーボード１０２とマウスなどのポインティングデバイス１０３、必要な演算処理、制御処理等を行う中央処理装置１０４、中央処理装置１０４での処理に必要なプログラムを格納するプログラムメモリ１０５、中央処理装置１０４での処理に必要なデータを格納するデータメモリ１０６を備えている。

プログラムメモリ１０５は、上記の機能１を行う物理位置指定指摘処理部１０７、機能２−１、２−２を行う物理位置順序指摘処理部１０８、機能３を行う物理位置重複指摘処理部１０９、機能４−１、４−２を行う類似遺伝子座名指摘処理部１１０、機能５−１、５−２、５−３、５−４、５−５を行う遺伝子型指摘処理部１１１、機能６−１、６−２、６−３、６−４を行う集団名指摘処理部１１２、機能７−１、７−２、７−３、７−４、７−５、７−６、７−７、７−８、７−９、７−１０を行う対立遺伝子数指摘処理部１１３、機能８−１、８−２を行う単型指摘処理部１１４、機能９−１、９−２を行うin/del指摘処理部１１５、機能１０−１、１０―２を行う２箇所反応指摘処理部１１６、機能１１を行う複数集団指摘処理部１１７、機能１２−１、１２−２を行うサンプル混入指摘処理部１１８、機能１３−１、１３−２を行う特殊な個体指摘処理部１１９、機能１４−１、１４−２を行うmissing個体指摘処理部１２０、機能１５を行う指摘・修正項目表示処理部１２１を含んでいる。また、遺伝子型指摘処理部１１１は、上記の機能５−１、５−２を行う記号遺伝子型指摘処理部１２２、機能５−３、５−４を行う文字列遺伝子型指摘処理部１２３、機能５−５を行う想定外遺伝子型指摘処理部１２４を含み、集団名指摘処理部１１２は、上記の機能６−１を行う集団名指定指摘処理部１２５、機能６−２、６−３を行う集団名誤記入指摘処理部１２６、機能６−４を行う想定外集団名指摘処理部１２７を含み、対立遺伝子数指摘処理部１１３は、上記の機能７−１、７−２、７−３を行う多対立遺伝子指摘処理部１２８、機能７−４、７−５を行うヘテロ接合誤記入指摘処理部１２９、機能７−６、７−７を行うmissing空白指摘処理部１３０、機能７−８、７−９を行うヘテロ接合空白指摘処理部１３１、機能７−１０を行う不規則空白文字指摘処理部１３２を含んでいる。

データメモリ１０６は、遺伝統計解析で用いられるプログラムの特徴を含んだプログラムデータ１３３と、上記プログラムへの入力データとして用いられる入力データ１３４を含んでいる。

図２は、データメモリ１０６に含まれるプログラムデータ１３３のデータ構造を示す図である。このデータ構造体AnalysisProgramは、プログラム名２００、入力データとして遺伝子座の物理位置を必要とするかどうかを示す物理位置指定フラグ２０１、遺伝子座が物理位置の順に並んでいることを想定しているかどうかを示す物理位置順序フラグ２０２、患者と健常者を用いることを想定しているかどうかを示す患者健常者集団フラグ２０３、各遺伝子座における対立遺伝子は２つであると仮定しているかどうかを示す多対立遺伝子除外フラグ２０４、全ての遺伝子座で多型があることを想定しているかどうかを示す単型除外フラグ２０５、対立遺伝子としてＡ・Ｔ・Ｇ・Ｃしか現れないと想定しているかどうかを示すin/del除外フラグ２０６を含んでいる。

図３は、データメモリ１０６に含まれる入力データ１３４のデータ構造を示す図である。以下では、未指定のデータ項目はNULL値を持つものとする。このデータ構造体InputDataは、入力データ名３００、遺伝子座データ３０１、個体データ３０２を含んでいる。遺伝子座データ３０１については、以下に示すデータ構造体LocusDataの配列の形でデータを保持する。個体データ３０２については、以下に示すデータ構造体IndividualDataの配列の形でデータを保持する。

データ構造体LocusDataは、i個の遺伝子座について、各遺伝子座ごとの遺伝子座名３０３、物理位置３０４、その遺伝子座における遺伝子型を調べるのに用いた実験手法３０５を含んでいる。

データ構造体IndividualDataは、j個体のサンプルについて、各個体ごとの個体識別子３０６、所属する集団の名称である集団名３０７、この個体がそれぞれの遺伝子座で持つ遺伝子型である遺伝子型データ３０８、入力データの元の文字列３０９を含んでいる。遺伝子型データ３０８は入力データ３０９を空白文字で区切って解釈した遺伝子型データが格納された配列であり、その要素数は、遺伝子座データ３０１の要素数iと等しい。

遺伝子型データ入力支援システムの動作
次に、上記のように構成された本実施形態の遺伝子型データ入力支援システムにおいて行われる処理について説明する。図４は、遺伝子型データ入力支援システムによる処理の流れを概略的に示すフローチャートである。図４において、まず、プログラムDB１００からユーザが指定したプログラムに対応するデータを読み込む（ステップ４００）。ここで読み込まれたデータはデータメモリ１０６のプログラムデータ１３３として保持する。次に、プログラムへの入力データとして用いられる入力データ及びそれぞれの遺伝子座における実験手法を読み込む（ステップ４０１）。ここで読み込まれたデータはデータメモリ１０６の入力データ１３４として保持する。その後、入力データのエラーを確認して指摘し、ユーザ入力を受け付け、修正版入力データを作成する（ステップ４０２）。この処理はプログラムメモリ１０５に含まれる処理部１０７〜１３２を用いて行うものであり、図５で詳細に説明する。

次に、図４のステップ４０２で行われる、入力データのエラーを確認して指摘し、ユーザ入力を受け付ける処理の詳細について、図５に示す詳細フローチャートを参照しながら説明する。まず、物理位置指定指摘処理部１０７を用いて、遺伝子座の物理位置が指定されているか確認して指摘する（ステップ５００）。プログラムデータ１３３における物理位置指定フラグ２０１がTRUEであり、かつ、入力データ１３４における遺伝子座データ３０１の物理位置３０４が未指定である場合は、エラーであると判断し、図９に示す画面表示を行う。

次に、物理位置順序指摘処理部１０８を用いて、遺伝子座が物理位置の順に並んで入力されているか確認して指摘・修正する（ステップ５０１）。プログラムデータ１３３における物理位置順序フラグ２０２がTRUEである場合は入力データ１３４における遺伝子座データ３０１の物理位置３０４を順に参照し、物理位置が指定されているものの中に大小関係の逆転が見られたらエラーであると判断し、図１０に示す画面表示を行う。ユーザが１０００にチェックをした場合は、遺伝子座データ３０１と遺伝子型データ３０８及び入力データ３０９の該当する２つの遺伝子座におけるデータを入れ替えて、修正版の入力データを作成する。

次に、物理位置重複指摘処理部１０９を用いて、遺伝子座の物理位置に重複がないか確認して指摘する（ステップ５０２）。入力データ１３４における遺伝子座データ３０１の物理位置３０４を順に参照し、同一の値を持つものがあったらエラーであると判断し、図１１に示す画面表示を行う。

次に、類似遺伝子座名指摘処理部１１０を用いて、遺伝子座名の誤記入がないか確認して指摘・修正する（ステップ５０３）。上記機能４−１の通り、入力データ１３４における遺伝子型データ３０８がどの個体でも未指定になっている遺伝子座と物理位置３０４が未指定になっている遺伝子座があるか確認する。そのような遺伝子座の組があり、類似した遺伝子座名だったらエラーであると判断し、図１２に示す画面表示を行う。ユーザが１１００にチェックをした場合は、以下を行って修正版の入力データを作成する。物理位置３０４が未指定になっている遺伝子座について、遺伝子型データ３０８が未指定になっている遺伝子座の物理位置３０４を転記する。その後、遺伝子座データ３０１と遺伝子型データ３０８及び入力データ３０９の、遺伝子型データ３０８が未指定になっている遺伝子座におけるデータを削除する。

次に、遺伝子型指摘処理部１１１を用いて、想定外の遺伝子型がないか確認して指摘・修正する（ステップ５０４）。この処理については、図６で詳細に説明する。

次に、集団名指摘処理部１１２を用いて、集団名にエラーがないか確認して指摘・修正する（ステップ５０５) 。この処理については、図７で詳細に説明する。

次に、対立遺伝子数指摘処理部１１３を用いて、対立遺伝子を三つ以上持つ遺伝子座がないか確認して指摘・修正する（ステップ５０６）。この処理については、図８で詳細に説明する。

次に、単型指摘処理部１１４を用いて、単型の遺伝子座がないか確認して指摘・修正する（ステップ５０７）。プログラムデータ１３３における単型除外フラグ２０５がTRUEであり、かつ、入力データ１３４における遺伝子型データ３０８において多型がない場合は、エラーであると判断し、図２４に示す画面表示を行う。ユーザが２４００にチェックをした場合は、遺伝子座データ３０１と遺伝子型データ３０８及び入力データ３０９の該当する遺伝子座におけるデータを削除し、修正版の入力データを作成する。

次に、in/del指摘処理部１１５を用いて、in/del多型が含まれる遺伝子座がないか確認して指摘・修正する（ステップ５０８）。プログラムデータ１３３におけるin/del除外フラグ２０６がTRUEであり、かつ、入力データ１３４における遺伝子型データ３０８においてin/del多型が含まれる場合は、エラーであると判断し、図２５に示す画面表示を行う。ユーザが２５００にチェックをした場合は、遺伝子座データ３０１と遺伝子型データ３０８及び入力データ３０９の該当する遺伝子座におけるデータを削除し、修正版の入力データを作成する。

次に、２箇所反応指摘処理部１１６を用いて、ヘテロ接合の個体が極端に多い遺伝子座がないか確認して指摘・修正する（ステップ５０９）。それぞれの遺伝子座において、全個体数に対するヘテロ接合の個体数の割合（ヘテロ接合度）、または観察されたヘテロ接合度を持つ遺伝子座の出現確率（ハーディ・ワインバーグ平衡検定のP値）などを用いて、ヘテロ接合の個体の多さを評価する。ヘテロ接合の個体が極端に多い遺伝子座があったら、図２６に示す画面表示を行う。画面表示の２６００は、各個体の遺伝子型データ３０８から集計した遺伝子型頻度である。ユーザが２６０１にチェックをした場合は、遺伝子座データ３０１と遺伝子型データ３０８及び入力データ３０９の該当する遺伝子座におけるデータを削除し、修正版の入力データを作成する。

次に、複数集団指摘処理部１１７を用いて、ホモ接合の個体が極端に多い遺伝子座がないか確認して指摘する（ステップ５１０）。それぞれの遺伝子座において、全個体数に対するホモ接合の個体数の割合（ホモ接合度）、または観察されたホモ接合度を持つ遺伝子座の出現確率（ハーディ・ワインバーグ平衡検定のP値）などを用いて、ホモ接合の個体の多さを評価する。ホモ接合の個体が極端に多い遺伝子座があったら、図２７に示す画面表示を行う。画面表示の２７００は、各個体の遺伝子型データ３０８から集計した遺伝子型頻度である。

次に、サンプル混入指摘処理部１１８を用いて、ヘテロ接合の遺伝子座が極端に多い個体がないか確認して指摘・修正する（ステップ５１１）。それぞれの個体において、全遺伝子座数に対するヘテロ接合の遺伝子座数の割合、または観察された割合を持つ個体の出現確率（P値）などを用いて、ヘテロ接合の遺伝子座の多さを評価する。ヘテロ接合の遺伝子座が極端に多い個体がいたら、図２８に示す画面表示を行う。画面表示の２８００は、遺伝子型データ３０８から集計したヘテロ接合の遺伝子座の割合である。ユーザが２８０１にチェックをした場合は、個体データ３０２の該当する個体におけるデータを削除し、修正版の入力データを作成する。

次に、特殊な個体指摘処理部１１９を用いて、ホモ接合の遺伝子座が極端に多い個体がないか確認して指摘・修正する（ステップ５１２）。それぞれの個体において、全遺伝子座数に対するホモ接合の遺伝子座数の割合、または観察された割合を持つ個体の出現確率（P値）などを用いてホモ接合の遺伝子座の多さを評価する。ホモ接合の遺伝子座が極端に多い個体がいたら、図２９に示す画面表示を行う。画面表示の２９００は、遺伝子型データ３０８から集計したホモ接合の遺伝子座の割合である。ユーザが２９０１にチェックをした場合は、個体データ３０２の該当する個体におけるデータを削除し、修正版の入力データを作成する。

次に、missing個体指摘処理部１２０を用いて、missingデータが多い個体がないか確認して指摘・修正する（ステップ５１３）。全遺伝子座数に対するmissingデータの割合を用いてmissingデータの多さを評価し、あらかじめ設定した判定基準に照らし合わせてmissingデータが多すぎる場合は図３０に示す画面表示を行う。画面表示の３０００は、遺伝子型データ３０８から集計したmissingデータの割合である。ユーザが３００１にチェックをした場合は、個体データ３０２の該当する個体におけるデータを削除し、修正版の入力データを作成する。

次に、指摘・修正項目表示処理部１２１を用いて、ステップ５００から５１３までで指摘を行った項目及び修正版入力データを作成した項目について、一覧表にまとめて図３１に示す画面表示を行う（ステップ５１４）。画面表示の３１００は、個々の指摘項目の概略とそれに対して修正を行ったかどうかを示す。画面表示の３１０１は、指摘項目数及び、指摘を行ったが修正版の入力データを作成していない項目数である。

次に、図５のステップ５０４で行われる、想定外の遺伝子型がないか確認して指摘・修正する処理の詳細について、図６に示す詳細フローチャートを参照しながら説明する。まず、記号遺伝子型指摘処理部１２２を用いて、遺伝子型データとして、「*」（アスタリスク）などの記号が指定されていないか確認して指摘・修正する（ステップ６００）。そのような遺伝子型がある場合は図１３に示す画面表示を行う。ユーザが１３００にチェックをした場合は、遺伝子型データ３０８及び入力データ３０９の該当要素に”0”を記入し、修正版の入力データを作成する。

次に、文字列遺伝子型指摘処理部１２３を用いて、遺伝子型データとして、対立遺伝子２つをつなげた文字列が指定されていないか確認して指摘・修正する（ステップ６０１）。そのような遺伝子型がある場合は図１４に示す画面表示を行う。ユーザが１４００にチェックをした場合は、遺伝子型データ３０８及び入力データ３０９の該当要素に適切なヘテロ接合の遺伝子型を記入し、修正版の入力データを作成する。

次に、想定外遺伝子型指摘処理部１２４を用いて、遺伝子型データとして想定外の文字列が指定されていないか確認して指摘する（ステップ６０２）。そのような遺伝子型がある場合は図１５に示す画面表示を行う。

次に、図５のステップ５０５で行われる、集団名にエラーがないか確認して指摘・修正する処理の詳細について、図７に示す詳細フローチャートを参照しながら説明する。まず、集団名指定指摘処理部１２５を用いて、集団名が指定されているか確認して指摘する（ステップ７００）。プログラムデータ１３３における患者健常者集団フラグ２０３がTRUEであり、かつ、入力データ１３４における個体データ３０２の集団名３０７が未指定である場合は、エラーであると判断し、図１６に示す画面表示を行う。

次に、集団名誤記入指摘処理部１２６を用いて、集団名として「Case」、「Control」または「Patient」と「Normal」の大文字・小文字を間違えたものが指定されていないか確認して指摘・修正する（ステップ７０１）。そのような集団名が指定されていた個体がいる場合は図１７に示す画面表示を行う。ユーザが１７００にチェックをした場合は、集団名３０７に適切な集団名を記入し、修正版の入力データを作成する。

次に、想定外集団名指摘処理部１２７を用いて、集団名として想定外の文字列が指定されていないか確認して指摘する（ステップ７０２）。そのような集団名が指定されていた個体がいる場合は図１８に示す画面表示を行う。

次に、図５のステップ５０６で行われる、対立遺伝子を三つ以上持つ遺伝子座がないか確認して指摘・修正する処理の詳細について、図８に示す詳細フローチャートを参照しながら説明する。まず、missing空白指摘処理部１３０を用いて、機能７−６に説明した通り、missingデータを空白文字（半角スペース、タブなど）で表記してしまっているかどうか確認して指摘・修正する（ステップ８００）。そのような表記をしていた場合は、図２１に示す画面表示を行う。遺伝子型がずれている様子を強調表示する（２１００）。ユーザが２１０１にチェックをした場合は、以下を行って、修正版の入力データを作成する。ずれを生じる原因となった遺伝子座の遺伝子型データ３０８には”0”を記入し、以降の遺伝子座それぞれについて、遺伝子型データ３０８に１つ前の遺伝子座における遺伝子型データ３０８を転記する。また、入力データ３０９の該当データに”0”を記入する。

次に、ヘテロ接合空白指摘処理部１３１を用いて、機能７−８に説明した通り、ヘテロ接合の遺伝子型を２つの対立遺伝子を半角スペースでつなげて表記してしまっているかどうか確認して指摘・修正する（ステップ８０１）。そのような表記をしていた場合は、図２２に示す画面表示を行う。遺伝子型がずれている様子を強調表示する（２２００）。ユーザが２２０１にチェックをした場合は、以下を行って、修正版の入力データを作成する。ずれを生じる原因となった遺伝子座の遺伝子型データ３０８に正しいヘテロ接合の遺伝子型を記入し、以降の遺伝子座それぞれについて、遺伝子型データ３０８に１つ後ろの遺伝子座における遺伝子型データ３０８を転記する。さらに、遺伝子座データ３０１及び遺伝子型データ３０８について終端の遺伝子座（遺伝子座名は未指定で、頻度の高さが３番目以降の対立遺伝子を共通して持つ個体のみ遺伝子型が指定されている）を削除する。また、入力データ３０９の該当データに正しいヘテロ接合の遺伝子型を記入する。

次に、ヘテロ接合誤記入指摘処理部１２９を用いて、機能７−４に説明した通り、ヘテロ接合の遺伝子型を誤記入していないか確認して指摘・修正する（ステップ８０２）。ヘテロ接合の遺伝子型を誤記入している遺伝子座があった場合は、図２０に示す画面表示を行う。画面表示の２０００は、各個体の遺伝子型データ３０８から集計した遺伝子型頻度である。ユーザが２００１をチェックした場合は、遺伝子座データ３０１と遺伝子型データ３０８及び入力データ３０９の該当する遺伝子座におけるデータを削除し、修正版の入力データを作成する。ユーザが２００２をチェックした場合は、遺伝子型データ３０８及び入力データ３０９に適切なヘテロ接合の遺伝子型を記入し、修正版の入力データを作成する。ユーザが２００３をチェックした場合は、何も行わない。２００１、２００２及び２００３のチェックは排他的であり、２つ以上にチェックすることはできない。

次に、多対立遺伝子指摘処理部１２８を用いて、機能７−１に説明した通り、対立遺伝子を三つ以上持つ遺伝子座がないか確認して指摘・修正する（ステップ８０３）。プログラムデータ１３３の多対立遺伝子除外フラグ２０４がTRUEであるか、または、入力データ１３４の実験手法３０５が２種類の対立遺伝子しか識別できないものである場合、入力データ１３４の遺伝子型データ３０８において対立遺伝子を三つ以上持つ遺伝子座があるかどうか調べ、そのような遺伝子座があった場合は、図１９に示す画面表示を行う。画面表示の１９００は、プログラムデータ１３３の多対立遺伝子除外フラグ２０４がTRUEである場合に表示する。１９０１は、各個体の遺伝子型データ３０８から集計した対立遺伝子頻度である。１９０２は、入力データ１３４の実験手法３０５が２種類の対立遺伝子しか識別できないものである場合に表示する。ユーザが１９０３をチェックした場合は、遺伝子座データ３０１と遺伝子型データ３０８及び入力データ３０９の該当する遺伝子座におけるデータを削除し、修正版の入力データを作成する。ユーザが１９０４をチェックした場合は、頻度の高さが３番目以降の対立遺伝子を持つ個体それぞれについて、遺伝子型データ３０８及び入力データ３０９の該当する遺伝子座における遺伝子型を最も頻度の高い対立遺伝子を含む遺伝子型で置き換え、修正版の入力データを作成する。ユーザが１９０５をチェックした場合は、何も行わない。１９０３、１９０４、１９０５のチェックは排他的であり、２つ以上にチェックすることはできない。

次に、不規則空白文字指摘処理部１３２を用いて、機能７−１０に説明したとおり、空白文字が不規則に使われていないか確認して指摘する（ステップ８０４）。それぞれの個体において入力データ３０９を参照し、空白文字のうち２種類以上が入力データの区切り文字として使われている、または、複数の空白文字が連続して現れている、または、空白文字と解釈されたりデータと解釈されたりする文字（全角スペースなど）が使われている場合は、空白文字が不規則に使われていると判断する。その場合は図２３に示す画面表示を行う。画面表示の２３００は、入力データにおける空白文字の種類と使われている場所を明示的に示す。

なお、本明細書ではIUBコード形式の場合についてのみ説明したが、HapMapプロジェクトが公開しているデータの形式においても、物理位置順序指摘処理部１０８、物理位置重複指摘処理部１０９、遺伝子型指摘処理部１１１の記号遺伝子型指摘処理部１２２、文字列遺伝子型指摘処理部１２３及び想定外遺伝子型指摘処理部１２４、対立遺伝子数指摘処理部１１３のうち多対立遺伝子指摘処理部１２８及び不規則空白文字指摘処理部１３２、単型指摘処理部１１４、in/del指摘処理部１１５、２箇所反応指摘処理部１１６、複数集団指摘処理部１１７、サンプル混入指摘処理部１１８、特殊な個体指摘処理部１１９、missing個体指摘処理部１２０、指摘・修正項目表示処理部１２１については同様である。

また、ARLEQUINの入力データ形式においても、遺伝子型指摘処理部１１１のうち記号遺伝子型指摘処理部１２２及び想定外遺伝子型指摘処理部１２４、集団名指摘処理部１１２のうち集団名誤記入指摘処理部１２６、想定外集団名指摘処理部１２７、対立遺伝子数指摘処理部１１３のうち多対立遺伝子指摘処理部１２８、missing空白指摘処理部１３０及び不規則空白文字指摘処理部１３２、単型指摘処理部１１４、in/del指摘処理部１１５、２箇所反応指摘処理部１１６、複数集団指摘処理部１１７、サンプル混入指摘処理部１１８、特殊な個体指摘処理部１１９、missing個体指摘処理部１２０、指摘・修正項目表示処理部１２１については同様である。

また、LINKAGEの入力データ形式においても、遺伝子型指摘処理部１１１のうち記号遺伝子型指摘処理部１２２及び想定外遺伝子型指摘処理部１２４、対立遺伝子数指摘処理部１１３のうち多対立遺伝子指摘処理部１２８、missing空白指摘処理部１３０及び不規則空白文字指摘処理部１３２、単型指摘処理部１１４、in/del指摘処理部１１５、２箇所反応指摘処理部１１６、複数集団指摘処理部１１７、サンプル混入指摘処理部１１８、特殊な個体指摘処理部１１９、missing個体指摘処理部１２０、指摘・修正項目表示処理部１２１については同様である。

また、本明細書ではそれぞれの種類のエラーについて、１個体・１遺伝子座で起きた場合の例を示しているが、複数の個体・複数の遺伝子座で起きた場合についても同様である。すなわち、例えば図３０ではmissingデータが多い個体が１個体（P07）だけの場合を示しているが、missingデータが多い個体が複数いる場合も起こり得る。このような場合も同様に処理できる。すなわち、図３０に示す画面例に、missingデータが多い個体をすべて列挙すれば良い。他の種類のエラーについても同様である。

また、本明細書では単型指摘処理部１１４、複数集団指摘処理部１１７について全サンプル集団で確認しているが、集団ごとに確認することも考えられる。すなわち、例えば単型指摘処理部１１４について、健常者集団では多型があるが患者集団では多型がない遺伝子座が含まれていないかを確認する場合も同様である。

以上、本発明の遺伝子解析のためのデータ入力支援システムについて、具体的な実施の形態を示して説明したが、本発明はこれらに限定されるものではない。当業者であれば、本発明の要旨を逸脱しない範囲内において、上記各実施形態又は他の実施形態にかかる発明の構成及び機能に様々な変更・改良を加えることが可能である。

本発明の遺伝子解析のためのデータ入力支援システムは、記憶手段、入力手段、表示手段等を備えたコンピュータ上で実現され得るものであり、遺伝子型の入力データにおける所定の類型的エラーの検出及びその表示という情報処理が上記の記憶手段、入力手段、表示手段等のハードウェア資源を用いて具体的に実現されるものであるから、自然法則を利用した技術的思想に該当するものであり、連鎖不平衡解析を行う医学・生物学分野の研究機関等において産業的に利用することができるものである。

本発明の遺伝子データ解釈支援システムにおけるシステム構成を概略的に示す機能ブロック図である。本発明の遺伝子データ解釈支援システムにおいて、データメモリに記憶されているプログラムデータのデータ構成を例示する図である。本発明の遺伝子データ解釈支援システムにおいて、データメモリに記憶されている入力データのデータ構成を例示する図である。本発明の遺伝子データ解釈支援システムにおける処理の概要を示すフローチャートである。本発明の遺伝子データ解釈支援システムにおいて、エラーを検出して指摘し、ユーザ入力を受け付けて修正版の入力データを作成する処理の流れを詳細に示すフローチャートである。本発明の遺伝子データ解釈支援システムにおいて、想定外の遺伝子型がないか確認して指摘する処理の流れを詳細に示すフローチャートである。本発明の遺伝子データ解釈支援システムにおいて、集団名にエラーがないか確認して指摘する処理の流れを詳細に示すフローチャートである。本発明の遺伝子データ解釈支援システムにおいて、対立遺伝子を三つ以上持つ遺伝子座がないか確認して指摘する処理の流れを詳細に示すフローチャートである。図５に示すフローチャートのステップ５００における物理位置指定指摘処理部による表示画面を示す図である。図５に示すフローチャートのステップ５０１における物理位置順序指摘処理部による表示画面を示す図である。図５に示すフローチャートのステップ５０２における物理位置重複指摘処理部による表示画面を示す図である。図５に示すフローチャートのステップ５０３における類似遺伝子座名指摘処理部による表示画面を示す図である。図６に示すフローチャートのステップ６００における記号遺伝子型指摘処理部による表示画面を示す図である。図６に示すフローチャートのステップ６０１における文字列遺伝子型指摘処理部による表示画面を示す図である。図６に示すフローチャートのステップ６０２における想定外遺伝子型指摘処理部による表示画面を示す図である。図７に示すフローチャートのステップ７００における集団名指定指摘処理部による表示画面を示す図である。図７に示すフローチャートのステップ７０１における集団名誤記入指摘処理部による表示画面を示す図である。図７に示すフローチャートのステップ７０２における想定外集団名指摘処理部による表示画面を示す図である。図８に示すフローチャートのステップ８０３における多対立遺伝子指摘処理部による表示画面を示す図である。図８に示すフローチャートのステップ８０２におけるヘテロ接合誤記入指摘処理部による表示画面を示す図である。図８に示すフローチャートのステップ８００におけるmissing空白指摘処理部による表示画面を示す図である。図８に示すフローチャートのステップ８０１におけるヘテロ接合空白指摘処理部による表示画面を示す図である。図８に示すフローチャートのステップ８０４における不規則空白文字指摘処理部による表示画面を示す図である。図５に示すフローチャートのステップ５０７における単型指摘処理部による表示画面を示す図である。図５に示すフローチャートのステップ５０８におけるin/del指摘処理部による表示画面を示す図である。図５に示すフローチャートのステップ５０９における２箇所反応指摘処理部による表示画面を示す図である。図５に示すフローチャートのステップ５１０における複数集団指摘処理部による表示画面を示す図である。図５に示すフローチャートのステップ５１１におけるサンプル混入指摘処理部による表示画面を示す図である。図５に示すフローチャートのステップ５１２における特殊な個体指摘処理部による表示画面を示す図である。図５に示すフローチャートのステップ５１３におけるmissing個体指摘処理部による表示画面を示す図である。図５に示すフローチャートのステップ５１４における指摘・修正項目表示処理部による表示画面を示す図である。ゲノム上に表れるＳＮＰについて説明する図である。連鎖不平衡解析プログラムへの遺伝子型データを記述した入力ファイルの形式について説明する図である。ＩＵＢコードについて説明する図である。連鎖不平衡解析プログラムへの遺伝子座ごとの物理位置を記述した入力ファイルの形式について説明する図である。実際には対立遺伝子を２つしか持たないにも関わらず、三つ以上持つと判断されることになってしまう例を説明する図である。プローブがゲノム上の２箇所に反応してしまう例を説明する図である。サンプル集団が２種類の集団が混ざっているものだった場合を説明する図である。他サンプルのＤＮＡが混入してしまった場合を説明する図である。特殊な個体の例を示す図である。 missingデータが多い個体の例を示す図である。 missingデータが多い遺伝子座の例を示す図である。

符号の説明

１００プログラムＤＢ
１０１表示装置
１０２キーボード
１０３ポインティングデバイス
１０４中央処理装置
１０５プログラムメモリ
１０６データメモリ
１０７物理位置指定指摘処理部
１０８物理位置順序指摘処理部
１０９物理位置重複指摘処理部
１１０類似遺伝子座名指摘処理部
１１１遺伝子型指摘処理部
１１２集団名指摘処理部
１１３対立遺伝子数指摘処理部
１１４単型指摘処理部
１１５ in/del指摘処理部
１１６２箇所反応指摘処理部
１１７複数集団指摘処理部
１１８サンプル混入指摘処理部
１１９特殊な個体指摘処理部
１２０ missing個体指摘処理部
１２１指摘・修正項目表示処理部
１２２記号遺伝子型指摘処理部
１２３文字列遺伝子型指摘処理部
１２４想定外遺伝子型指摘処理部
１２５集団名指定指摘処理部
１２６集団名誤記入指摘処理部
１２７想定外集団名指摘処理部
１２８多対立遺伝子指摘処理部
１２９ヘテロ接合誤記入指摘処理部
１３０ missing空白指摘処理部
１３１ヘテロ接合空白指摘処理部
１３２不規則空白文字指摘処理部
１３３プログラムデータ
１３４入力データ

Claims

連鎖不平衡解析プログラムに入力される遺伝子型データの検査を行うデータ入力支援システムであって、
前記連鎖不平衡解析プログラムに対応する遺伝子型データのエラーの類型を保持する記憶部と、
入力された遺伝子型データを前記エラーの類型に照合し、エラーを検出するエラー検出部と、
前記検出されたエラーを指摘する表示を行うエラー指摘表示部とを備えていることを特徴とするデータ入力支援システム。
前記エラーの類型は、遺伝子座の物理位置に関する遺伝子型データを必要とする連鎖不平衡解析プログラムに対して、入力された遺伝子型データが遺伝子座の物理位置に関するデータを有していないというエラーを含んでいることを特徴とする請求項１に記載のデータ入力支援システム。
前記エラーの類型は、遺伝子座が物理位置の順に並んでいる遺伝子型データにのみ対応した連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいて遺伝子座が物理位置の順に並んでいないというエラーを含んでいることを特徴とする請求項１に記載のデータ入力支援システム。
前記エラーの類型は、入力された遺伝子型データにおいて遺伝子座の物理位置に重複があるというエラーを含んでいることを特徴とする請求項１に記載のデータ入力支援システム。
前記エラーの類型は、入力された遺伝子型データにおいて遺伝子型が指定されていない遺伝子座と物理位置が指定されていない遺伝子座とがあるエラーを含んでいることを特徴とする請求項１に記載のデータ入力支援システム。
前記エラーの類型は、入力された遺伝子型データにおいて、ホモ接合体、ヘテロ接合体又はmissingデータを示す記号として、前記連鎖不平衡解析プログラムにおける規定とは異なる記号が含まれているというエラーを含んでいることを特徴とする請求項１に記載のデータ入力支援システム。
前記エラーの類型は、患者及び健常者両方の遺伝子型データを必要とする連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいて、前記連鎖不平衡解析プログラムにおける規定に従って患者及び健常者それぞれの集団が特定されていないというエラーを含んでいることを特徴とする請求項１に記載のデータ入力支援システム。
前記エラーの類型は、１つの遺伝子座について多くとも２種類の対立遺伝子しか存在しないと規定している連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいて３種類以上の対立遺伝子を持つ遺伝子座が含まれているというエラーを含んでいることを特徴とする請求項１に記載のデータ入力支援システム。
前記エラーの類型は、入力された遺伝子型データにおいて下記のいずれかの表記が含まれているというエラーを含んでいることを特徴とする請求項１に記載のデータ入力支援システム。
１）２種類以上の異なる空白文字が入力データの区切り文字として使用されている。
２）複数の空白文字が連続して現れる。
３）連鎖不平衡解析プログラムの種類によって、空白文字及び遺伝子型データのいずれにも解釈され得る文字が使用されている。
前記エラーの類型は、全ての遺伝子座で多型があると規定している連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいて単型の遺伝子座が含まれているというエラーを含んでいることを特徴とする請求項１に記載のデータ入力支援システム。
前記エラーの類型は、対立遺伝子としてＡ・Ｔ・Ｇ・Ｃしか現れないと規定している連鎖不平衡解析プログラムに対して、入力された遺伝子型データにおいてin/del多型である遺伝子座が含まれているというエラーを含んでいることを特徴とする請求項１に記載のデータ入力支援システム。
前記エラーの類型は、入力された遺伝子型データにおいて、ヘテロ接合の個体が所定基準より多い遺伝子座、又はホモ接合の個体が所定基準より多い遺伝子座が含まれているというエラーを含んでいることを特徴とする請求項１に記載のデータ入力支援システム。
前記エラーの類型は、入力された遺伝子型データにおいて、ヘテロ接合の遺伝子座を所定基準より多く有する個体、又はホモ接合の遺伝子座を所定基準より多く有する個体が含まれているというエラーを含んでいることを特徴とする請求項１に記載のデータ入力支援システム。
前記エラーの類型は、入力された遺伝子型データにおいて、missingデータが所定基準より多い個体が含まれているというエラーを含んでいることを特徴とする請求項１に記載のデータ入力支援システム。
遺伝子型データにおいて対立遺伝子を３つ以上持つ遺伝子座がある場合において、
前記エラー指摘表示部は、
以下の２つの条件が全て満たされる場合には、入力された遺伝子型データにおいて、前記３つ以上の対立遺伝子のうちの頻度が高い２つの対立遺伝子のヘテロ接合の遺伝子型が誤記入されている可能性がある旨の指摘を表示することを特徴とする請求項８に記載のデータ入力支援システム。
１）入力された遺伝子型データにおいて、前記３つ以上の対立遺伝子のうちの頻度が高い２つの対立遺伝子のヘテロ接合を含む個体が存在しない。
２）入力された遺伝子型データにおいて、前記３つ以上の対立遺伝子のうちの頻度の高さが３番目以降の対立遺伝子のホモ接合を含む個体が存在しない。
遺伝子型データにおいて対立遺伝子を３つ以上持つ遺伝子座がある場合において、
前記エラー指摘表示部は、
以下の４つの条件が全て満たされる場合には、入力された遺伝子型データにおいてmissingデータの表記形式が誤記入されている可能性がある旨の指摘を表示することを特徴とする請求項８に記載のデータ入力支援システム。
１）入力された遺伝子型データにおいて、前記対立遺伝子を３つ以上持つ遺伝子座に後続して対立遺伝子を３つ以上持つ遺伝子座が一定数以上存在する。
２）入力された遺伝子型データにおいて、同一の個体が複数の遺伝子座において３つ以上の対立遺伝子のうち頻度の高さが３番目以降の対立遺伝子を含んでいる。
３）入力された遺伝子型データにおいて、上記２）に該当する個体は、終端の遺伝子座における遺伝子型が指定されていない。
４）入力された遺伝子型データにおいて、３つ以上の対立遺伝子を持つ遺伝子座における頻度の高さが３番目以降の対立遺伝子は、当該遺伝子座の後隣の遺伝子座において頻度の高さが１番目又は２番目の対立遺伝子である。
遺伝子型データにおいて対立遺伝子を３つ以上持つ遺伝子座がある場合において、
前記エラー指摘表示部は、以下の４つの条件が全て満たされる場合には、入力された遺伝子型データにおいてヘテロ接合の遺伝子型が誤記入されている可能性がある旨の指摘を表示することを特徴とする請求項８に記載のデータ入力支援システム。
１）入力された遺伝子型データにおいて、前記対立遺伝子を３つ以上持つ遺伝子座に後続して対立遺伝子を３つ以上持つ遺伝子座が一定数以上存在する。
２）入力された遺伝子型データにおいて、同一の個体が複数の遺伝子座において３つ以上の対立遺伝子のうち頻度の高さが３番目以降の対立遺伝子を含んでいる。
３）入力された遺伝子型データにおいて、上記２）に該当する個体は、終端の遺伝子座における遺伝子型が指定されている。
４）入力された遺伝子型データにおいて、３つ以上の対立遺伝子を持つ遺伝子座における頻度の高さが３番目以降の対立遺伝子は、当該遺伝子座の前隣の遺伝子座において頻度の高さが１番目又は２番目の対立遺伝子である。
前記入力された遺伝子型データについて、前記指摘されたエラーを訂正する入力を受け付け、当該入力に基づいて前記遺伝子型データを訂正するエラー訂正手段をさらに備えていることを特徴とする請求項１から１７のいずれか１項に記載のデータ入力支援システム。
前記エラー訂正手段は、前記対立遺伝子を３つ以上持つ遺伝子座について、当該３つ以上の対立遺伝子のうち頻度の高さが３番目以降の対立遺伝子を頻度の高さが１番目以降の対立遺伝子に書き換える訂正入力を受け付け、そのように前記遺伝子型データを訂正することを特徴とする請求項８に記載のデータ入力支援システム。
前記エラー指摘表示部によるエラー指摘内容と、前記エラー訂正手段による前記遺伝子型データの訂正内容とを一覧表示する手段をさらに備えていることを特徴とする請求項１から１９のいずれか１項に記載のデータ入力支援システム。