JP2006107396A - Snp遺伝子型分類方法、snp遺伝子型分類装置およびsnp遺伝子型分類プログラム - Google Patents

Snp遺伝子型分類方法、snp遺伝子型分類装置およびsnp遺伝子型分類プログラム Download PDF

Info

Publication number
JP2006107396A
JP2006107396A JP2004296945A JP2004296945A JP2006107396A JP 2006107396 A JP2006107396 A JP 2006107396A JP 2004296945 A JP2004296945 A JP 2004296945A JP 2004296945 A JP2004296945 A JP 2004296945A JP 2006107396 A JP2006107396 A JP 2006107396A
Authority
JP
Japan
Prior art keywords
target information
classification target
information set
classification
fluorescence intensity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004296945A
Other languages
English (en)
Inventor
Naoyuki Kamatani
直之 鎌谷
Toshimasa Yamazaki
敏正 山崎
Masao Yanagisawa
政生 柳澤
Yoichi Mase
洋一 間瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RIKEN Institute of Physical and Chemical Research
Original Assignee
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RIKEN Institute of Physical and Chemical Research filed Critical RIKEN Institute of Physical and Chemical Research
Priority to JP2004296945A priority Critical patent/JP2006107396A/ja
Publication of JP2006107396A publication Critical patent/JP2006107396A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】分類すべきでない2次元蛍光強度情報(例えば相対的に著しく異なる蛍光強度値を持つ2次元蛍光強度情報など)が分類対象のデータ中に含まれる場合でも充分な精度で2次元蛍光強度情報を遺伝子型と対応付けて分類することができるSNP遺伝子型分類方法、SNP遺伝子型分類装置およびSNP遺伝子型分類プログラムを提供することを課題とする。
【解決手段】本発明にかかるSNP遺伝子型分類装置100は、SNP遺伝子型分類装置100を統括的に制御するCPU等の制御部102と、ルータ等の通信装置および専用線等の有線または無線の通信回線を介してSNP遺伝子型分類装置100をネットワーク300に通信可能に接続する通信インターフェース部104と、各種のデータベースやテーブルやファイルなどを格納する記憶部106と、入力装置112や出力装置114に接続する入出力インターフェース部108と、で構成されている。
【選択図】 図1

Description

本発明は、タイピング法で得られたSNP(Single Nucleotide Prolymorphism)の遺伝子型に関する複数の2次元蛍光強度情報を遺伝子型と対応付けて分類するSNP遺伝子型分類方法、SNP遺伝子型分類装置およびSNP遺伝子型分類プログラムに関するものである。
タイピング法で得られたSNPの遺伝子型に関する複数の2次元蛍光強度情報を遺伝子型と対応付けて分類する従来の方法として、非特許文献1に記載の方法が知られている。ここで、非特許文献1に記載の方法では、分類すべき集団の数を3つに限定しており、さらに3つの集団がそれぞれ0°、45°、90°付近に存在することを前提としている。具体的には、非特許文献1に記載の方法では、2次元蛍光強度情報を1次元角度情報に変換し、変換した1次元角度情報を「0°付近」、「45°付近」、「90°付近」のいずれかに分類することで、2次元蛍光強度情報を3つの集団に分類している。
藤澤洋徳,"モデルに基づいたSNP遺伝子型タイピング",統計関連学会連合大会講演報告集,2003,pp.221−222
しかしながら、非特許文献1に記載の方法では、タイピング法に依存した原因で混入することがある分類すべきでない2次元蛍光強度情報(例えば相対的に著しく異なる蛍光強度値を持つ2次元蛍光強度情報など)も他の2次元蛍光強度情報と共に分類するため、分類すべきでない2次元蛍光強度情報が分類対象のデータ中に含まれていた場合には必ずしも期待する精度で2次元蛍光強度情報を遺伝子型と対応付けて分類することができなかった、という問題点があった。
本発明は上記問題点に鑑みてなされたもので、分類すべきでない2次元蛍光強度情報が分類対象のデータ中に含まれる場合でも充分な精度で2次元蛍光強度情報を遺伝子型と対応付けて分類することができるSNP遺伝子型分類方法、SNP遺伝子型分類装置およびSNP遺伝子型分類プログラムを提供することを目的とする。
上記目的を達成するために、本発明にかかる請求項1に記載のSNP遺伝子型分類方法は、SNPの遺伝子型に関する複数の2次元蛍光強度情報を遺伝子型と対応付けて分類するSNP遺伝子型分類方法において、予め取得した前記複数の2次元蛍光強度情報の中から非分類対象の2次元蛍光強度情報である非分類対象情報を選別して、非分類対象情報で構成される非分類対象情報集合を生成する非分類対象情報選別ステップを含むことを特徴とする。
また、本発明にかかる請求項2に記載のSNP遺伝子型分類方法は、請求項1に記載のSNP遺伝子型分類方法において、前記非分類対象情報選別ステップで選別した非分類対象情報以外の2次元蛍光強度情報である分類対象情報を、階層的クラスタリング手法により分類対象情報間の類似度に基づいて集約して、分類対象情報で構成される分類対象情報集合を複数生成する分類対象情報集合生成ステップと、前記分類対象情報集合生成ステップで生成した分類対象情報集合の中に所定数の分類対象情報で構成される分類対象情報集合がある場合、当該分類対象情報集合を前記非分類対象情報集合に含める第1非分類対象情報集合包含ステップと、前記第1非分類対象情報集合包含ステップで前記非分類対象情報集合に含めた分類対象情報集合以外の分類対象情報集合の数が所定の数より多い場合、分類対象情報集合間の類似度に基づいて分類対象情報集合を前記所定の数まで集約する第1分類対象情報集合集約ステップと、をさらに含むことを特徴とする。
また、本発明にかかる請求項3に記載のSNP遺伝子型分類方法は、請求項2に記載のSNP遺伝子型分類方法において、前記第1分類対象情報集合集約ステップで集約した後の分類対象情報集合間の類似度が所定の式を満たす場合、当該式を満たした類似度に関連する分類対象情報集合同士を集約する第2分類対象情報集合集約ステップと、前記第2分類対象情報集合集約ステップで集約した後の各分類対象情報集合の配置と当該分類対象情報集合の角度情報とに基づいて分類対象情報集合に対応する遺伝子型を決定して、各々の分類対象情報の遺伝子型を決定する遺伝子型決定ステップと、前記遺伝子型決定ステップで遺伝子型を決定した分類対象情報集合の数が前記所定の数である場合、ハーディ・ワインバーグ平衡に関する所定の条件を満たさない分類対象情報集合を前記非分類対象情報集合に含める第2非分類対象情報集合包含ステップと、をさらに含むことを特徴とする。
また、本発明にかかる請求項4に記載のSNP遺伝子型分類方法は、請求項3に記載のSNP遺伝子型分類方法において、前記非分類対象情報集合を構成する非分類対象情報に対しMCMC法を実行して各々の2次元蛍光強度情報の遺伝子型を再度決定するMCMC法実行ステップをさらに含むことを特徴とする。
また、本発明はSNP遺伝子型分類装置に関するものであり、本発明にかかる請求項5に記載のSNP遺伝子型分類装置は、SNPの遺伝子型に関する複数の2次元蛍光強度情報を遺伝子型と対応付けて分類するSNP遺伝子型分類装置において、予め取得した前記複数の2次元蛍光強度情報の中から非分類対象の2次元蛍光強度情報である非分類対象情報を選別して、非分類対象情報で構成される非分類対象情報集合を生成する非分類対象情報選別手段を備えたことを特徴とする。
また、本発明にかかる請求項6に記載のSNP遺伝子型分類装置は、請求項5に記載のSNP遺伝子型分類装置において、前記非分類対象情報選別手段で選別した非分類対象情報以外の2次元蛍光強度情報である分類対象情報を、階層的クラスタリング手法により分類対象情報間の類似度に基づいて集約して、分類対象情報で構成される分類対象情報集合を複数生成する分類対象情報集合生成手段と、前記分類対象情報集合生成手段で生成した分類対象情報集合の中に所定数の分類対象情報で構成される分類対象情報集合がある場合、当該分類対象情報集合を前記非分類対象情報集合に含める第1非分類対象情報集合包含手段と、前記第1非分類対象情報集合包含手段で前記非分類対象情報集合に含めた分類対象情報集合以外の分類対象情報集合の数が所定の数より多い場合、分類対象情報集合間の類似度に基づいて分類対象情報集合を前記所定の数まで集約する第1分類対象情報集合集約手段と、をさらに備えたことを特徴とする。
また、本発明にかかる請求項7に記載のSNP遺伝子型分類装置は、請求項6に記載のSNP遺伝子型分類装置において、前記第1分類対象情報集合集約手段で集約した後の分類対象情報集合間の類似度が所定の式を満たす場合、当該式を満たした類似度に関連する分類対象情報集合同士を集約する第2分類対象情報集合集約手段と、前記第2分類対象情報集合集約手段で集約した後の各分類対象情報集合の配置と当該分類対象情報集合の角度情報とに基づいて分類対象情報集合に対応する遺伝子型を決定して、各々の分類対象情報の遺伝子型を決定する遺伝子型決定手段と、前記遺伝子型決定手段で遺伝子型を決定した分類対象情報集合の数が前記所定の数である場合、ハーディ・ワインバーグ平衡に関する所定の条件を満たさない分類対象情報集合を前記非分類対象情報集合に含める第2非分類対象情報集合包含手段と、をさらに備えたことを特徴とする。
また、本発明にかかる請求項8に記載のSNP遺伝子型分類装置は、請求項7に記載のSNP遺伝子型分類装置において、前記非分類対象情報集合を構成する非分類対象情報に対しMCMC法を実行して各々の2次元蛍光強度情報の遺伝子型を再度決定するMCMC法実行手段をさらに備えたことを特徴とする。
また、本発明はSNP遺伝子型分類プログラムに関するものであり、本発明にかかる請求項9に記載のSNP遺伝子型分類プログラムは、SNPの遺伝子型に関する複数の2次元蛍光強度情報を遺伝子型と対応付けて分類するSNP遺伝子型分類方法をコンピュータに実行させるSNP遺伝子型分類プログラムにおいて、予め取得した前記複数の2次元蛍光強度情報の中から非分類対象の2次元蛍光強度情報である非分類対象情報を選別して、非分類対象情報で構成される非分類対象情報集合を生成する非分類対象情報選別ステップを含むことを特徴とする。
また、本発明にかかる請求項10に記載のSNP遺伝子型分類プログラムは、請求項9に記載のSNP遺伝子型分類プログラムにおいて、前記非分類対象情報選別ステップで選別した非分類対象情報以外の2次元蛍光強度情報である分類対象情報を、階層的クラスタリング手法により分類対象情報間の類似度に基づいて集約して、分類対象情報で構成される分類対象情報集合を複数生成する分類対象情報集合生成ステップと、前記分類対象情報集合生成ステップで生成した分類対象情報集合の中に所定数の分類対象情報で構成される分類対象情報集合がある場合、当該分類対象情報集合を前記非分類対象情報集合に含める第1非分類対象情報集合包含ステップと、前記第1非分類対象情報集合包含ステップで前記非分類対象情報集合に含めた分類対象情報集合以外の分類対象情報集合の数が所定の数より多い場合、分類対象情報集合間の類似度に基づいて分類対象情報集合を前記所定の数まで集約する第1分類対象情報集合集約ステップと、をさらに含むことを特徴とする。
また、本発明にかかる請求項11に記載のSNP遺伝子型分類プログラムは、請求項10に記載のSNP遺伝子型分類プログラムにおいて、前記第1分類対象情報集合集約ステップで集約した後の分類対象情報集合間の類似度が所定の式を満たす場合、当該式を満たした類似度に関連する分類対象情報集合同士を集約する第2分類対象情報集合集約ステップと、前記第2分類対象情報集合集約ステップで集約した後の各分類対象情報集合の配置と当該分類対象情報集合の角度情報とに基づいて分類対象情報集合に対応する遺伝子型を決定して、各々の分類対象情報の遺伝子型を決定する遺伝子型決定ステップと、前記遺伝子型決定ステップで遺伝子型を決定した分類対象情報集合の数が前記所定の数である場合、ハーディ・ワインバーグ平衡に関する所定の条件を満たさない分類対象情報集合を前記非分類対象情報集合に含める第2非分類対象情報集合包含ステップと、をさらに含むことを特徴とする。
また、本発明にかかる請求項12に記載のSNP遺伝子型分類プログラムは、請求項11に記載のSNP遺伝子型分類プログラムにおいて、前記非分類対象情報集合を構成する非分類対象情報に対しMCMC法を実行して各々の2次元蛍光強度情報の遺伝子型を再度決定するMCMC法実行ステップをさらに含むことを特徴とする。
本発明にかかる請求項1に記載のSNP遺伝子型分類方法は、SNPの遺伝子型に関する複数の2次元蛍光強度情報を遺伝子型と対応付けて分類するSNP遺伝子型分類方法において、非分類対象情報選別ステップで、予め取得した複数の2次元蛍光強度情報の中から非分類対象の2次元蛍光強度情報である非分類対象情報を選別して、非分類対象情報で構成される非分類対象情報集合を生成する。これにより、分類すべきでない2次元蛍光強度情報(例えば相対的に著しく異なる蛍光強度値を持つ2次元蛍光強度情報など)が分類対象のデータ中に含まれる場合でも充分な精度で2次元蛍光強度情報を遺伝子型と対応付けて分類することができる、という効果を奏する。また、本発明を実施することで、分類結果の修正に費やす時間を短縮することができ、それに費やす労力も軽減することができる。
また、本発明にかかる請求項2に記載のSNP遺伝子型分類方法は、まず、分類対象情報集合生成ステップで、非分類対象情報選別ステップで選別した非分類対象情報以外の2次元蛍光強度情報である分類対象情報を、階層的クラスタリング手法により分類対象情報間の類似度に基づいて集約して、分類対象情報で構成される分類対象情報集合を複数生成する。換言すると、従来のように最初から3つの集団に分類するのではなく、階層的クラスタリング手法(例えば、最短距離法や最長距離法、群平均法など)により分類対象情報間の類似度に基づいて分類対象情報を段階的に集約して、分類対象情報で構成される分類対象情報集合を複数(例えば、下記の所定の数「A」以上の数)生成する。これにより、2次元蛍光強度情報の誤分類の可能性を低減することができるという効果を奏する。つぎに、第1非分類対象情報集合包含ステップで、分類対象情報集合生成ステップで生成した分類対象情報集合の中に所定数(例えば「1」や「2」など)の分類対象情報で構成される分類対象情報集合がある場合、当該分類対象情報集合を非分類対象情報集合に含める。これにより、分類すべきでない2次元蛍光強度情報(例えば相対的に著しく異なる蛍光強度値を持つ2次元蛍光強度情報など)を確実に抽出して分類対象情報集合から除外することができ、よって、分類すべきでない2次元蛍光強度情報が分類対象のデータ中に含まれていた場合でも充分な精度で2次元蛍光強度情報を分類することができるという効果を奏する。つぎに、第1分類対象情報集合集約ステップで、第1非分類対象情報集合包含ステップで非分類対象情報集合に含めた分類対象情報集合以外の分類対象情報集合の数が所定の数「A」(なお、本明細書において、所定の数「A」は、分類する遺伝子型の数である。)より多い場合、分類対象情報集合間の類似度に基づいて分類対象情報集合を所定の数「A」まで集約する。これにより、2次元蛍光強度情報の誤分類の可能性をさらに低減することができるという効果を奏する。
また、本発明にかかる請求項3に記載のSNP遺伝子型分類方法は、まず、第2分類対象情報集合集約ステップで、第1分類対象情報集合集約ステップで集約した後の分類対象情報集合間の類似度が所定の式を満たす場合、当該式を満たした類似度に関連する分類対象情報集合同士を集約する。これにより、例えば分類対象情報集合の数が2つの場合にも対応することができるという効果を奏する。つぎに、遺伝子型決定ステップで、第2分類対象情報集合集約ステップで集約した後の各分類対象情報集合の配置と当該分類対象情報集合の角度情報とに基づいて分類対象情報集合に対応する遺伝子型を決定して、各々の分類対象情報の遺伝子型を決定する。これにより、分類対象情報集合と遺伝子型との対応付けを適切に行うことができるという効果を奏する。つぎに、第2非分類対象情報集合包含ステップで、遺伝子型決定ステップで遺伝子型が決定した分類対象情報集合の数が所定の数「A」である場合、ハーディ・ワインバーグ平衡に関する所定の条件を満たさない(具体的にはハーディ・ワインバーグ平衡からのずれが大きい)分類対象情報集合を非分類対象情報集合に含める。これにより、従来のように3つの集団に固定的に分類するのではなく、例えば分類した集団の数が3の場合はハーディ・ワインバーグ平衡からのずれを考慮して2つの集団に集約することができるという効果を奏する。つまり、2次元蛍光強度情報の誤分類の可能性をさらに低減することができるという効果を奏する。
また、本発明にかかる請求項4に記載のSNP遺伝子型分類方法は、MCMC法実行ステップで、非分類対象情報集合を構成する非分類対象情報に対しMCMC法を実行して各々の2次元蛍光強度情報の遺伝子型を再度決定する。これにより、非分類対象情報が分類対象情報集合に属するか否かをMCMC法で検証することができ、よって、2次元蛍光強度情報の誤分類の可能性をさらに低減することができるという効果を奏する。また、本発明では、MCMC法を実行する際の入力データには精度よく分類された2次元蛍光強度情報を用いるので、MCMC法を効果的に実行することができるという効果を奏する。
本発明にかかる請求項5に記載のSNP遺伝子型分類装置は、SNPの遺伝子型に関する複数の2次元蛍光強度情報を遺伝子型と対応付けて分類するSNP遺伝子型分類装置において、非分類対象情報選別手段で、予め取得した複数の2次元蛍光強度情報の中から非分類対象の2次元蛍光強度情報である非分類対象情報を選別して、非分類対象情報で構成される非分類対象情報集合を生成する。これにより、分類すべきでない2次元蛍光強度情報(例えば相対的に著しく異なる蛍光強度値を持つ2次元蛍光強度情報など)が分類対象のデータ中に含まれる場合でも充分な精度で2次元蛍光強度情報を遺伝子型と対応付けて分類することができる、という効果を奏する。また、本発明を実施することで、分類結果の修正に費やす時間を短縮することができ、それに費やす労力も軽減することができる。
また、本発明にかかる請求項6に記載のSNP遺伝子型分類装置は、まず、分類対象情報集合生成手段で、非分類対象情報選別手段で選別した非分類対象情報以外の2次元蛍光強度情報である分類対象情報を、階層的クラスタリング手法により分類対象情報間の類似度に基づいて集約して、分類対象情報で構成される分類対象情報集合を複数生成する。換言すると、従来のように最初から3つの集団に分類するのではなく、階層的クラスタリング手法(例えば、最短距離法や最長距離法、群平均法など)により分類対象情報間の類似度に基づいて分類対象情報を段階的に集約して、分類対象情報で構成される分類対象情報集合を複数(例えば、下記の所定の数「A」以上の数)生成する。これにより、2次元蛍光強度情報の誤分類の可能性を低減することができるという効果を奏する。つぎに、第1非分類対象情報集合包含手段で、分類対象情報集合生成手段で生成した分類対象情報集合の中に所定数(例えば「1」や「2」など)の分類対象情報で構成される分類対象情報集合がある場合、当該分類対象情報集合を非分類対象情報集合に含める。これにより、分類すべきでない2次元蛍光強度情報(例えば相対的に著しく異なる蛍光強度値を持つ2次元蛍光強度情報など)を確実に抽出して分類対象情報集合から除外することができ、よって、分類すべきでない2次元蛍光強度情報が分類対象のデータ中に含まれていた場合でも充分な精度で2次元蛍光強度情報を分類することができるという効果を奏する。つぎに、第1分類対象情報集合集約手段で、第1非分類対象情報集合包含手段で非分類対象情報集合に含めた分類対象情報集合以外の分類対象情報集合の数が所定の数「A」(なお、本明細書において、所定の数「A」は、分類する遺伝子型の数である。)より多い場合、分類対象情報集合間の類似度に基づいて分類対象情報集合を所定の数「A」まで集約する。これにより、2次元蛍光強度情報の誤分類の可能性をさらに低減することができるという効果を奏する。
また、本発明にかかる請求項7に記載のSNP遺伝子型分類装置は、まず、第2分類対象情報集合集約手段で、第1分類対象情報集合集約手段で集約した後の分類対象情報集合間の類似度が所定の式を満たす場合、当該式を満たした類似度に関連する分類対象情報集合同士を集約する。これにより、例えば分類対象情報集合の数が2つの場合にも対応することができるという効果を奏する。つぎに、遺伝子型決定手段で、第2分類対象情報集合集約手段で集約した後の各分類対象情報集合の配置と当該分類対象情報集合の角度情報とに基づいて分類対象情報集合に対応する遺伝子型を決定して、各々の分類対象情報の遺伝子型を決定する。これにより、分類対象情報集合と遺伝子型との対応付けを適切に行うことができるという効果を奏する。つぎに、第2非分類対象情報集合包含手段で、遺伝子型決定手段で遺伝子型が決定した分類対象情報集合の数が所定の数「A」である場合、ハーディ・ワインバーグ平衡に関する所定の条件を満たさない(具体的にはハーディ・ワインバーグ平衡からのずれが大きい)分類対象情報集合を非分類対象情報集合に含める。これにより、従来のように3つの集団に固定的に分類するのではなく、例えば分類した集団の数が3の場合はハーディ・ワインバーグ平衡からのずれを考慮して2つの集団に集約することができるという効果を奏する。つまり、2次元蛍光強度情報の誤分類の可能性をさらに低減することができるという効果を奏する。
また、本発明にかかる請求項8に記載のSNP遺伝子型分類装置は、MCMC法実行手段で、非分類対象情報集合を構成する非分類対象情報に対しMCMC法を実行して各々の2次元蛍光強度情報の遺伝子型を再度決定する。これにより、非分類対象情報が分類対象情報集合に属するか否かをMCMC法で検証することができ、よって、2次元蛍光強度情報の誤分類の可能性をさらに低減することができるという効果を奏する。また、本発明では、MCMC法を実行する際の入力データには精度よく分類された2次元蛍光強度情報を用いるので、MCMC法を効果的に実行することができるという効果を奏する。
本発明にかかる請求項9に記載のSNP遺伝子型分類プログラムは、SNPの遺伝子型に関する複数の2次元蛍光強度情報を遺伝子型と対応付けて分類するSNP遺伝子型分類方法をコンピュータに実行させるSNP遺伝子型分類プログラムにおいて、非分類対象情報選別ステップで、予め取得した複数の2次元蛍光強度情報の中から非分類対象の2次元蛍光強度情報である非分類対象情報を選別して、非分類対象情報で構成される非分類対象情報集合を生成する。これにより、分類すべきでない2次元蛍光強度情報(例えば相対的に著しく異なる蛍光強度値を持つ2次元蛍光強度情報など)が分類対象のデータ中に含まれる場合でも充分な精度で2次元蛍光強度情報を遺伝子型と対応付けて分類することができる、という効果を奏する。また、本発明を実施することで、分類結果の修正に費やす時間を短縮することができ、それに費やす労力も軽減することができる。
また、本発明にかかる請求項10に記載のSNP遺伝子型分類プログラムは、まず、分類対象情報集合生成ステップで、非分類対象情報選別ステップで選別した非分類対象情報以外の2次元蛍光強度情報である分類対象情報を、階層的クラスタリング手法により分類対象情報間の類似度に基づいて集約して、分類対象情報で構成される分類対象情報集合を複数生成する。換言すると、従来のように最初から3つの集団に分類するのではなく、階層的クラスタリング手法(例えば、最短距離法や最長距離法、群平均法など)により分類対象情報間の類似度に基づいて分類対象情報を段階的に集約して、分類対象情報で構成される分類対象情報集合を複数(例えば、下記の所定の数「A」以上の数)生成する。これにより、2次元蛍光強度情報の誤分類の可能性を低減することができるという効果を奏する。つぎに、第1非分類対象情報集合包含ステップで、分類対象情報集合生成ステップで生成した分類対象情報集合の中に所定数(例えば「1」や「2」など)の分類対象情報で構成される分類対象情報集合がある場合、当該分類対象情報集合を非分類対象情報集合に含める。これにより、分類すべきでない2次元蛍光強度情報(例えば相対的に著しく異なる蛍光強度値を持つ2次元蛍光強度情報など)を確実に抽出して分類対象情報集合から除外することができ、よって、分類すべきでない2次元蛍光強度情報が分類対象のデータ中に含まれていた場合でも充分な精度で2次元蛍光強度情報を分類することができるという効果を奏する。つぎに、第1分類対象情報集合集約ステップで、第1非分類対象情報集合包含ステップで非分類対象情報集合に含めた分類対象情報集合以外の分類対象情報集合の数が所定の数「A」(なお、本明細書において、所定の数「A」は、分類する遺伝子型の数である。)より多い場合、分類対象情報集合間の類似度に基づいて分類対象情報集合を所定の数「A」まで集約する。これにより、2次元蛍光強度情報の誤分類の可能性をさらに低減することができるという効果を奏する。
また、本発明にかかる請求項11に記載のSNP遺伝子型分類プログラムは、まず、第2分類対象情報集合集約ステップで、第1分類対象情報集合集約ステップで集約した後の分類対象情報集合間の類似度が所定の式を満たす場合、当該式を満たした類似度に関連する分類対象情報集合同士を集約する。これにより、例えば分類対象情報集合の数が2つの場合にも対応することができるという効果を奏する。つぎに、遺伝子型決定ステップで、第2分類対象情報集合集約ステップで集約した後の各分類対象情報集合の配置と当該分類対象情報集合の角度情報とに基づいて分類対象情報集合に対応する遺伝子型を決定して、各々の分類対象情報の遺伝子型を決定する。これにより、分類対象情報集合と遺伝子型との対応付けを適切に行うことができるという効果を奏する。つぎに、第2非分類対象情報集合包含ステップで、遺伝子型決定ステップで遺伝子型が決定した分類対象情報集合の数が所定の数「A」である場合、ハーディ・ワインバーグ平衡に関する所定の条件を満たさない(具体的にはハーディ・ワインバーグ平衡からのずれが大きい)分類対象情報集合を非分類対象情報集合に含める。これにより、従来のように3つの集団に固定的に分類するのではなく、例えば分類した集団の数が3の場合はハーディ・ワインバーグ平衡からのずれを考慮して2つの集団に集約することができるという効果を奏する。つまり、2次元蛍光強度情報の誤分類の可能性をさらに低減することができるという効果を奏する。
また、本発明にかかる請求項12に記載のSNP遺伝子型分類プログラムは、MCMC法実行ステップで、非分類対象情報集合を構成する非分類対象情報に対しMCMC法を実行して各々の2次元蛍光強度情報の遺伝子型を再度決定する。これにより、非分類対象情報が分類対象情報集合に属するか否かをMCMC法で検証することができ、よって、2次元蛍光強度情報の誤分類の可能性をさらに低減することができるという効果を奏する。また、本発明では、MCMC法を実行する際の入力データには精度よく分類された2次元蛍光強度情報を用いるので、MCMC法を効果的に実行することができるという効果を奏する。
以下に、本発明にかかるSNP遺伝子型分類方法、SNP遺伝子型分類装置およびSNP遺伝子型分類プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
まず、本実施の形態のSNP遺伝子型分類装置100の構成について、図1を参照して説明する。図1は、SNP遺伝子型分類装置100の構成を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
SNP遺伝子型分類装置100は、SNPの遺伝子型に関する複数の2次元蛍光強度情報を遺伝子型と対応付けて分類する。具体的には、SNP遺伝子型分類装置100では、最終的に、複数の2次元蛍光強度情報を「ホモ1」、「ヘテロ」、「ホモ2」、「分類不可能」のいずれかに分類する。SNP遺伝子型分類装置100は、SNP遺伝子型分類装置100を統括的に制御するCPU等の制御部102と、ルータ等の通信装置および専用線等の有線または無線の通信回線を介してSNP遺伝子型分類装置100をネットワーク300に通信可能に接続する通信インターフェース部104と、各種のデータベースやテーブルやファイルなどを格納する記憶部106と、入力装置112や出力装置114に接続する入出力インターフェース部108と、で構成されており、これら各部は任意の通信路を介して通信可能に接続されている。なお、ネットワーク300は、SNP遺伝子型分類装置100と外部システム200とを相互に通信可能に接続する機能を有し、例えばインターネットやLAN等である。外部システム200は、ネットワーク300を介してSNP遺伝子型分類装置100と相互に通信可能に接続され、2次元蛍光強度情報や各種パラメータ等に関する外部データベースや、2次元蛍光強度情報を遺伝子型と対応付けて分類するための外部プログラム等を提供する機能など、を有する。また、外部システム200はWEBサーバやASPサーバ等として構成してもよく、そのハードウェアは一般に市販されるワークステーションやパーソナルコンピュータ等の情報処理装置およびその付属装置で構成してもよい。また、外部システム200の各機能は外部システム200のハードウェア構成中のCPUやディスク装置やメモリ装置や入力装置や出力装置や通信制御装置等およびそれらを制御するプログラム等で実現される。
記憶部106は、ストレージ手段であり、例えば、RAM、ROM等のメモリ装置や、ハードディスクのような固定ディスク装置や、フレキシブルディスクや、光ディスク等を用いることができる。記憶部106は、図示の如く、2次元蛍光強度情報ファイル106aを格納する。ここで、2次元蛍光強度情報ファイル106aに格納される情報について図2を参照して説明する。図2は、2次元蛍光強度情報ファイル106aに格納される情報の一例を示す図である。図2に示すように、2次元蛍光強度情報ファイル106aは、各2次元蛍光強度情報を一意に識別するための識別情報と、2次元蛍光強度情報のx座標値と、2次元蛍光強度情報のy座標値と、遺伝子型(分類結果)と、を相互に関連付けて格納する。なお、図2における「遺伝子型」の欄には、情報は当初格納されていない。
通信インターフェース部104は、SNP遺伝子型分類装置100とネットワーク300(またはルータ等の通信装置)との間における通信を媒介する。すなわち、通信インターフェース部104は、他の端末と通信回線を介してデータを通信する機能を有する。
入出力インターフェース部108は、入力装置112や出力装置114に接続する。ここで、出力装置114には、モニタ(家庭用テレビを含む)の他、スピーカやプリンタを用いることができる(なお、以下で、出力装置114をモニタとして記載する場合がある。)。また、入力装置112には、キーボードやマウスやマイクの他、マウスと協働してポインティングデバイス機能を実現するモニタを用いることができる。
制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラムおよび所要データを格納するための内部メモリを有し、これらのプログラムに基づいて種々の処理を実行するための情報処理を行う。また、制御部102は、図示の如く、大別して、非分類対象情報選別部102aと、分類対象情報集合生成部102bと、第1非分類対象情報集合包含部102cと、第1分類対象情報集合集約部102dと、第2分類対象情報集合集約部102eと、遺伝子型決定部102fと、第2非分類対象情報集合包含部102gと、MCMC法実行部102hと、を備えている。ここで、非分類対象情報選別部102aは、予め取得した複数の2次元蛍光強度情報の中から非分類対象の2次元蛍光強度情報である非分類対象情報を選別して、非分類対象情報で構成される非分類対象情報集合を生成する。分類対象情報集合生成部102bは、非分類対象情報選別部102aで選別した非分類対象情報以外の2次元蛍光強度情報である分類対象情報を、階層的クラスタリング手法(例えば、最短距離法や最長距離法、群平均法など)により分類対象情報間の類似度に基づいて集約して、分類対象情報で構成される分類対象情報集合を複数(例えば、下記の所定の数「A」以上の数)生成する。第1非分類対象情報集合包含部102cは、分類対象情報集合生成部102bで生成した分類対象情報集合の中に所定数(例えば「1」や「2」など)の分類対象情報で構成される分類対象情報集合がある場合、当該分類対象情報集合を非分類対象情報集合に含める。第1分類対象情報集合集約部102dは、第1非分類対象情報集合包含部102cで非分類対象情報集合に含めた分類対象情報集合以外の分類対象情報集合の数が所定の数「A」(所定の数「A」は、分類する遺伝子型の数であり、本実施の形態では3つの遺伝子型に分類するので、「A」は「3」である(以下同様)。)より多い場合、分類対象情報集合間の類似度に基づいて分類対象情報集合を所定の数「A」まで集約する。第2分類対象情報集合集約部102eは、第1分類対象情報集合集約部102dで集約した後の分類対象情報集合間の類似度が所定の式(例えば、当該類似度の値と所定の閾値とを比較するための不等式)を満たす場合、当該式を満たした類似度に関連する分類対象情報集合同士を集約する。遺伝子型決定部102fは、第2分類対象情報集合集約部102eで集約した後の各分類対象情報集合の配置と当該分類対象情報集合の角度情報とに基づいて分類対象情報集合に対応する遺伝子型を決定して、各々の分類対象情報の遺伝子型を決定する。このとき、対応する遺伝子型がない場合は非分類対象情報集合に含める。第2非分類対象情報集合包含部102gは、遺伝子型決定部102fで遺伝子型が決定した分類対象情報集合の数が所定の数「A」である場合、ハーディ・ワインバーグ平衡に関する所定の条件を満たさない(具体的にはハーディ・ワインバーグ平衡からのずれが大きい)分類対象情報集合を非分類対象情報集合に含める。MCMC法実行部102hは、非分類対象情報集合を構成する非分類対象情報に対しMCMC法を実行して各々の2次元蛍光強度情報の遺伝子型を再度決定する。すなわち、MCMC法実行部102hは、非分類対象情報が遺伝子型の決定した分類対象情報集合に属するか否かをMCMC法で検証し、検証の結果、分類対象情報集合に属すると判定された2次元蛍光強度情報を当該分類対象情報集合の遺伝子型と対応付け、分類対象情報集合に属さないと判定された2次元蛍光強度情報を「分類不可能」な情報として分類する。最終的に2次元蛍光強度情報の帰属先の分類対象情報及び非分類対象情報集合を帰属度から再度決定する。
以上の構成において、SNP遺伝子型分類装置100で行われる処理である「(1)SNP遺伝子型分類処理」および「(2)MCMC法実行処理」を、図3から図6などを参照して順に説明する。
(1)SNP遺伝子型分類処理
図3および図4は、SNP遺伝子型分類装置100で行われるSNP遺伝子型分類処理の一例を示すフローチャートである。
まず、非分類対象情報選別部102aで、予め取得して2次元蛍光強度情報ファイル106aの所定の領域に格納した複数の2次元蛍光強度情報(図14参照)の中から非分類対象の2次元蛍光強度情報である非分類対象情報を選別して、非分類対象情報で構成される非分類対象情報集合を生成する(ステップSA−1)。具体的には、まず、非分類対象情報選別部102aで、予め定められたNTC(No Target Control)を構成する2次元蛍光強度情報(NTC情報)を複数の2次元蛍光強度情報の中から選別して、選別したNTC情報に対応する2次元蛍光強度情報ファイル106aの「遺伝子型」の項に「非分類対象」を格納する。ついで、制御部102で、NTC情報の重心座標(重心x座標値,重心y座標値)を算出して、算出した重心座標を原点に設定し、非分類対象情報選別部102aで、設定した原点のx座標値かつy座標値以下の領域や設定した原点の近傍に存在するNTC情報以外の2次元蛍光強度情報(原点近傍情報)を複数の2次元蛍光強度情報の中から選別して、選別した原点近傍情報に対応する2次元蛍光強度情報ファイル106aの「遺伝子型」の項に「非分類対象」を格納する。換言すると、図9に示すように、原点付近および原点のx座標値かつy座標値以下の領域の2次元蛍光強度情報(図9における点線で囲まれた座標点)は信頼できないデータであるため、「非分類対象」として設定する。これにより、2次元蛍光強度情報ファイル106aの「遺伝子型」の項に「非分類対象」が格納された2次元蛍光強度情報を非分類対象情報とすることで、非分類対象情報集合が生成された。ここで、NTC情報の重心座標(重心x座標値,重心y座標値)は下記数式1で算出してもよい。また、「原点の近傍」とは、例えば「設定した原点を含む所定の楕円領域内」である。
Figure 2006107396
ここで、「xcg」はNTC情報の重心x座標値を示し、「ycg」はNTC情報の重心y座標値を示す。「M」はNTCを構成する2次元蛍光強度情報の総数であり、「N」はNTC情報以外の2次元蛍光強度情報の総数である。「i」はNからN+M−1の値をとる整数である。「xi」は識別情報「i」に対応する2次元蛍光強度情報のx座標値を示し、「yi」は識別情報「i」に対応する2次元蛍光強度情報の重心y座標値を示す。
再び図3に戻り、分類対象情報集合生成部102bで、ステップSA−1で選別した非分類対象情報以外の2次元蛍光強度情報である分類対象情報を、階層的クラスタリング手法(例えば、最短距離法や最長距離法、群平均法など)により分類対象情報間の類似度に基づいて集約して、分類対象情報で構成される分類対象情報集合を複数(例えば、下記の所定の数「A」以上の数)生成する(ステップSA−2)。具体的には、まず、制御部102で、分類対象情報のx座標値およびy座標値を、NTC情報の重心を原点とした座標系における値に変換し(ここで、当該座標系の各軸を正規化してもよい。)、変換後の分類対象情報を、当該座標系のx軸からの角度である角度情報に変換する。角度情報は、複数の2次元蛍光強度情報から算出した重心を原点とする座標系において定義される。なお、NTC情報の重心を原点とすることで、各分類対象情報の角度情報を適切に計算することができる。ついで、分類対象情報集合生成部102bで、階層的クラスタリング手法の中の最短距離法により角度情報の差が近い分類対象情報同士から順に集約することで分類対象情報集合を生成し、分類対象情報集合の数が予め定めた数(具体的には、下記の所定の数「A」以上の数である「5」)になるまで当該集約を繰り返す。そして、分類対象情報集合生成部102bで、生成した各分類対象情報集合を構成する各分類対象情報に対応する2次元蛍光強度情報ファイル106aの「遺伝子型」の項に分類対象情報集合を識別する分類対象情報集合識別情報(例えば、「集合1」や「集合2」など)を格納する。ここで、2次元蛍光強度情報から角度情報への変換は下記数式2で行ってもよい。また、「予め定めた数」は分類対象のデータに応じて適した値に変えてもよい。
Figure 2006107396
ここで、「θi」は識別情報「i」に対応する座標系変換後の2次元蛍光強度情報の角度情報を示す。「xi」および「yi」はそれぞれ、座標系変換前の2次元蛍光強度情報のx座標値、y座標値を示す。「xcg」および「ycg」はそれぞれ、座標系変換前のNTC情報のx座標値、y座標値を示す。
ここで、最短距離法とは、各ノード(座標点の集合)に属する2つの座標点の中から1つずつ非類似度をとった時、最も小さい非類似度をそのノードとノードの非類似度と考える方法である。最短距離法のアルゴリズムは以下の通りである。まず、各座標点それぞれが1つのノードを形成しているとする。なお、座標点の数を「N」とすれば、初期のノード数も「N」である。すなわち、座標点の番号を「i=0、1、・・・、N−1」とすれば、各ノードの初期値(初期番号)も「i=0,1,・・・,N−1」である。ついで、下記手順(手順1〜手順3)で類似度が高い(非類似度が低い)ノード同士を結合する。具体的には、「index1[seq2[i]]>index2[seq2[i]]」の場合、ノードindex1[seq2[i]]に属す全座標点をノードindex2[seq2[i]]の所属に変更し(手順1)、また「index1[seq2[i]]<index2[seq2[i]]」の場合、ノードindex2[seq2[i]]に属す全座標点をノードindex1[seq2[i]]の所属に変更し(手順2)、そして、手順1および手順2を「i=0,1,・・・,N−1」に対して行う(手順3)。ここで、手順1から手順3において、「index1[]」、「index2[]」および「seq2[]」はそれぞれ配列を示す。ここで、各配列のデータ構造について図7および図8を参照して説明する。図7および図8は、本SNP遺伝子型分類処理で用いる各配列のデータ構造の一例を示す図である。まず、「index1[]」とは座標点の識別番号を格納する配列であり、「dif[i]」が座標点mとnとの間の距離である時、座標点mを「index1[i]」に格納する。具体的には図8に示すように、「index1[0]」には、ある座標点の識別番号「0」が格納されている。つぎに、「index2[]」とは座標点の識別番号を格納する配列であり、「dif[i]」が座標点mとnとの間の距離である時、座標点nを「index2[i]」に格納する。具体的には図8に示すように、「index2[0]」には、ある座標点の識別番号「2」が格納されている。なお、「dif[]」とは各座標点間の距離であり、座標点mとnとの間の距離は「abs(arctan[m]−arctan[n])」(角度差の絶対値)で計算する。具体的には図8に示すように、「dif[0]」には識別番号「0」の座標点と識別番号「2」の座標点との間の距離「0.0001」が格納されている。また、「arctan[]」とは各座標点の角度情報であり、具体的には図7に示すように識別情報「0」の座標点の角度情報「0.0001」が格納されている。つぎに、「seq2[]」とは各座標点間の距離に関する昇順順位を格納する配列であり、具体的には図8に示すように、「seq2[0]」には「dif[0]」の値「0.0001」の昇順順位である「0」が格納されている。ちなみに、図7に示す「seq[]」とは各座標点の角度情報に関する昇順順位を格納する配列であり、具体的には図7に示すように、「seq[0]」には「arctan[0]」の値「0.0001」の昇順順位である「0」が格納されている。
再び図3に戻り、第1非分類対象情報集合包含部102cで、ステップSA−2で生成した分類対象情報集合の中に所定数(具体的には「1」)の分類対象情報で構成される分類対象情報集合がある場合(ステップSA−3:Yes)、当該分類対象情報集合を非分類対象情報集合に含める(ステップSA−4)。具体的には、第1非分類対象情報集合包含部102cで、2次元蛍光強度情報ファイル106aの「遺伝子型」の項に格納されている各分類対象情報集合識別情報の個数を算出し、算出した結果、1個のみの分類対象情報集合識別情報がある場合には当該分類対象情報集合識別情報を「非分類対象」に書換えることで、当該分類対象情報集合識別情報に対応する分類対象情報を非分類対象情報集合に含める。これにより、図10に示すように、分類対象情報集合を上記の予め定めた数(具体的には、下記の所定の数「A」以上の数である「5」)になるまで繋げた上で、所定数(具体的には「1」)の分類対象情報で構成される分類対象情報集合(図10に示す点線で囲まれた点)を「非分類対象」として設定することで、外れ値を取り除くことができる。
再び図3に戻り、第1分類対象情報集合集約部102dで、ステップSA−4で非分類対象情報集合に含めた分類対象情報集合以外の分類対象情報集合の数が所定の数「A」(具体的には、「3」)より多い場合(ステップSA−5:Yes)、分類対象情報集合間の類似度に基づいて分類対象情報集合を所定の数「A」まで集約する(ステップSA−6)。具体的には、ステップSA−4で非分類対象情報集合に含めた分類対象情報集合以外の分類対象情報集合の数が「3」より多い場合、まず、制御部102で、各分類対象情報集合の重心座標を算出し、算出した重心座標間の距離を分類対象情報集合間の類似度として算出する。ついで、第1分類対象情報集合集約部102dで、算出した重心座標間の距離が近い分類対象情報集合同士から順に集約し(繋げ)、分類対象情報集合の数が「3」になるまで当該集約を繰り返す。そして、第1分類対象情報集合集約部102dで、集約した後の分類対象情報集合を構成する各分類対象情報に対応する2次元蛍光強度情報ファイル106aの「遺伝子型」の項に格納されている分類対象情報集合識別情報を共通のものに書換える。なお、ステップSA−6が終了した時点での分類対象情報集合の数は当該所定の数「A」(具体的には、「3」)以下である。
ついで、第2分類対象情報集合集約部102eで、ステップSA−6で集約した後の分類対象情報集合間の類似度が所定の式(例えば、当該類似度の値と所定の閾値とを比較するための不等式)を満たす場合(ステップSA−7:Yes)、当該式を満たした類似度に関連する分類対象情報集合同士を集約する(ステップSA−8)。具体的には、まず、制御部102で、ステップSA−6で集約した後の各分類対象情報集合の重心座標を改めて算出して、算出した重心座標間の距離を分類対象情報集合間の類似度として算出する。ついで、第2分類対象情報集合集約部102eで、算出した重心座標間の距離が不等式「距離<閾値」を満たす場合には、当該不等式を満たした距離に関連する分類対象情報集合同士を集約する。そして、第2分類対象情報集合集約部102eで、集約した後の分類対象情報集合を構成する各分類対象情報に対応する2次元蛍光強度情報ファイル106aの「遺伝子型」の項に格納されている分類対象情報集合識別情報を共通のものに書換える。これにより、図11に示すように、分類対象情報集合の数が2つの場合も対応することができる。
ついで図4へ進み、遺伝子型決定部102fで、第2分類対象情報集合集約部102eで集約した後の各分類対象情報集合の配置と当該分類対象情報集合の角度情報とに基づいて分類対象情報集合に対応する遺伝子型を決定して、各々の分類対象情報の遺伝子型を決定する(ステップSA−9)。具体的には、遺伝子型決定部102fで、分類対象情報集合の数や組み合わせによって決まる分類結果の配置から、各分類対象情報集合がどの遺伝子型(本実施の形態では、「ホモ1」、「ヘテロ」、「ホモ2」)および非分類対象情報集合(「分類不可能」)に属するかを角度情報に基づいて決定し、各分類対象情報集合を構成する各分類対象情報に対応する2次元蛍光強度情報ファイル106aの「遺伝子型」の項を、決定した遺伝子型(「ホモ1」、「ヘテロ」、「ホモ2」)に書換える。以上、ステップSA−9までの処理で、2次元蛍光強度情報ファイル106aの「遺伝子型」の項には、遺伝子型(「ホモ1」、「ヘテロ」、「ホモ2」)を識別する情報や「非分類対象」の情報が格納された。
ついで、第2非分類対象情報包含部102gで、遺伝子型決定部102fで遺伝子型が決定した分類対象情報集合の数が上記の所定の数「A」(具体的には「3」)である場合(ステップSA−10:Yes)、ハーディ・ワインバーグ平衡(HWE:Hardy−Weinberg's equilibrium)に関する所定の条件を満たさない(具体的には、ハーディ・ワインバーグ平衡からのずれが大きい)分類対象情報集合を非分類対象情報集合に含める(ステップSA−11)。具体的には、第2非分類対象情報包含部102gで、遺伝子型決定部102fで遺伝子型が決定した分類対象情報集合の数が「3」である(図12において点線で囲んだ3つの分類対象情報集合)場合、ハーディ・ワインハーディ・ワインバーグ平衡からのずれが大きい分類対象情報集合を非分類対象情報集合に含めて、2つの分類対象情報集合(図13において実線で囲んだ2つの分類対象情報集合)に集約する。
以上、「(1)SNP遺伝子型分類処理」の説明を終了する。
(2)MCMC法実行処理
つぎに、SNP遺伝子型分類装置100で行われるMCMC法実行処理を、図5などを参照して説明する。図5は、SNP遺伝子型分類装置100で行われるMCMC法実行処理の一例を示すフローチャートである。
MCMC法実行部102hで、上述したSNP遺伝子型分類処理で決定した非分類対象情報集合を構成する非分類対象情報に対しMCMC法を実行して各々の2次元蛍光強度情報の遺伝子型を再度決定する(ステップSB−1)。具体的には、MCMC法実行部102hで、非分類対象情報が、遺伝子型の決定した分類対象情報集合のいずれに属するか否かをMCMC法で検証し、検証の結果、ある分類対象情報集合に属すると判定された2次元蛍光強度情報を当該分類対象情報集合の遺伝子型と対応付け、いずれの分類対象情報集合にも属さないと判定された2次元蛍光強度情報を最終的に「分類不可能」な情報として分類する(図15参照)。なお、図15では、図14に示す2次元蛍光強度情報が図15に示す点線で囲まれた3つの分類対象情報集合に分類された結果を示している。また、図15における「allele(アレル)1」、「Both」、「allele(アレル)2」、「Undetermined」はそれぞれ、「ホモ1」、「ヘテロ」、「ホモ2」、「非分類対象(または分類不可能)」に対応する。ここで、ステップSB−1で行われるMCMC法実行処理の具体例について、図6を参照して詳細に説明する。なお、図6では、MCMC法の中のギブス抽出法(Gibbs−sampler法)の具体例を説明する。図6は、SNP遺伝子型分類装置100で行われるMCMC法実行処理の具体例を詳細に示すフローチャートである。
まず、MCMC法実行部102hで、内部変数「i」に「0」を代入する(ステップSC−1)。ついで、MCMC法実行部102hで、各遺伝子型に対応する分類対象情報集合に対して2次元正規分布パラメータ(平均、標準偏差、相関係数)を算出し、非分類対象情報集合に対しては確率密度(定数)を与える(ステップSC−2)。ここで、2次元正規分布の密度関数、平均、標準偏差、相関係数はそれぞれ、下記数式3で定義される。また、ステップSC−2では、非分類対象情報集合に対する確率密度も考慮することで、推移候補先が「非分類対象」になる可能性も考えている。
Figure 2006107396
ここで、「f(x,y)」は2次元正規分布の密度関数を示す。「μx(上付き「∧」あり)」および「μy(上付き「∧」あり)」はそれぞれ、x座標およびy座標の標本平均を示す。「σx(上付き「∧」あり)」および「σy(上付き「∧」あり)」はそれぞれ、x座標およびy座標の標本標準偏差を示す。「ρ(上付き「∧」あり)」は標本相関係数を示す。
ついで、MCMC法実行部102hで、非分類対象情報集合から任意に非分類対象情報を選択し、選択した非分類対象情報に対して推移候補先の分類対象情報集合(遺伝子型が決定した分類対象情報集合)を決定する(ステップSC−3)。具体的には、MCMC法実行部102hで、一様乱数を発生させて変化を与える非分類対象情報を選択し、選択した非分類対象情報の推移候補先の分類対象情報集合を、ハーディ・ワインバーグ平衡に基づき、マイナーアレル頻度により決定する。
ついで、MCMC法実行部102hで、ステップSC−3で選択した非分類対象情報の推移確率を算出する(ステップSC−4)。換言すると、MCMC法実行部102hで、ステップSC−3で選択した非分類対象情報について、各分類対象情報集合の帰属度に従ってベイズ(Bayes)の定理により事後確率を算出する。ここで、推移確率(事後確率)は下記数式4で算出される値「α」である。
Figure 2006107396
ここで、「α」は、非分類対象情報(xi,yi)の推移候補先の分類対象情報集合が「j*」である時の推移確率である。
ついで、MCMC法実行部102hで、ステップSC−4で算出した推移確率に基づいて、ステップSC−3で選択した非分類対象情報が推移候補先の分類対象情報集合に推移するか否かを判定し、判定結果が「推移」である場合、ステップSC−3で選択した非分類対象情報を推移候補先の分類対象情報集合に推移させる。具体的には、MCMC法実行部102hで、0以上1以下の間で一様乱数を発生させて、当該一様乱数が推移確率「α」以下である場合(ステップSC−5:Yes)、ステップSC−3で選択した非分類対象情報を推移候補先の分類対象情報集合に推移させる(ステップSC−6)。ただし、ステップSC−6において、ステップSC−3で選択した非分類対象情報を分類対象情報集合に含めても、当該非分類対象情報はステップSC−3では非分類対象情報集合として扱う。
ついで、MCMC法実行部102hで、内部変数「i」に「i+1」を代入する(ステップSC−7)。ついで、MCMC法実行部102hで、内部変数「i」の値が「i≦100000」を満たすか否かを判定し、判定結果が「満たす」である場合(ステップSC−8:Yes)、ステップSC−2の処理に戻り、判定結果が「満たさない」である場合(ステップSC−8:No)、ステップSC−9の処理へ進む。すなわち、予め設定した数値である「100000」まで、ステップSC−2からステップSC−8までの処理を繰り返す。なお、当該「100000」は一例であり、繰り返し回数には任意の値を設定することができる。ステップSC−8までの処理で、非分類対象情報集合を構成する全ての非分類対象情報を、遺伝子型が決定している分類対象情報集合に推移させた。
ついで、MCMC法実行部102hで、各2次元蛍光強度情報に対し各分類対象情報集合への帰属度を算出し、算出した帰属度に基づいて帰属先の分類対象情報集合および非分類対象情報集合をベイズの定理を用いて再度決定する(ステップSC−9)。具体的には、MCMC法実行部102hで、最尤推定された2次元正規分布パラメータを用い、各2次元蛍光強度情報における各分類対象情報集合への帰属度をベイズ(Bayes)の定理により求め、求めた帰属度が予め設定した閾値より大きい場合には2次元蛍光強度情報を分類対象情報集合へ帰属させ、求めた帰属度が全て当該閾値より小さい場合には2次元蛍光強度情報を「分類不可能」な情報として決定する。すなわち、求めた帰属度が予め設定した閾値より大きい場合には2次元蛍光強度情報に対応する2次元蛍光強度情報ファイル106aの「遺伝子型」の項に格納されている情報を帰属先の分類対象情報集合の遺伝子型に書換え、求めた帰属度が全て当該閾値より小さい場合には2次元蛍光強度情報に対応する2次元蛍光強度情報ファイル106aの「遺伝子型」の項に格納されている情報を「分類不可能」に書換える。ここで、識別情報「i」の2次元蛍光強度情報における分類対象情報集合「j」への帰属度は下記数式5で定義される。これにて、SNP遺伝子型分類装置100で行われるMCMC法実行処理の具体例の説明を終了する。
Figure 2006107396
なお、ステップSB−1において、分類対象情報集合間を推移させる方法は、例えばEMアルゴリズムを利用して実現してもよい。具体的には、まず、下記数式6で定義される各分類対象情報集合「j」に関するパラメータを求める。
Figure 2006107396
ついで、数式6で求めたパラメータを代入した確率密度関数「fj (k)(xi,yi)」を使って、2次元蛍光強度情報の分類対象情報集合「j」への帰属度を下記数式7で計算しなおす。
Figure 2006107396
ついで、「非分類対象」以外のいずれかの分類対象情報集合に属すると仮定した場合の確率密度関数が特定の値より小さくなった場合は、どの分類対象情報集合にも属さないと決め、非分類対象情報に対応する2次元蛍光強度情報ファイル106aの「遺伝子型」の項に格納されている「非分類対象」を「分類不可能」に書換える(「非分類対象」への帰属度を「1」、他への帰属度を「0」とする。)。ついで、収束するまで繰り返し、最終的に推定された「mij (k)」を最尤推定値「m^ij」とし、分類対象情報集合「j」への帰属度とする。なお、収束判定条件は、(「Z(k+1)」−「Z(k)」)/「Z(k)」がある定数より小さくなった場合とする(但し、「Z」は数式6で定義した5つのパラメータのいずれかである。)。
以上、「(2)MCMC法実行処理」の説明を終了する。
以上説明したように、SNP遺伝子型分類装置100は、SNPの遺伝子型に関する複数の2次元蛍光強度情報を遺伝子型と対応付けて分類するにあたり、まず、非分類対象情報選別部102aで、予め取得した複数の2次元蛍光強度情報の中から非分類対象の2次元蛍光強度情報である非分類対象情報を選別して、非分類対象情報で構成される非分類対象情報集合を生成する。これにより、分類すべきでない2次元蛍光強度情報(例えば相対的に著しく異なる蛍光強度値を持つ2次元蛍光強度情報など)が分類対象のデータ中に含まれる場合でも充分な精度で2次元蛍光強度情報を遺伝子型と対応付けて分類することができる。また、実験の失敗などにより分類すべきでないと判断されるデータも正確に選別することができる。また、SNP遺伝子型分類装置100を用いることで、分類結果の修正に費やす時間を短縮することができ、それに費やす労力も軽減することができる。また、従来の方法では、各々の実データに応じて例えば原点移動などのデータの前処理を手動で行う必要があるため、自動分類は困難であった。そのため、従来の方法では、SNPが数万、サンプル数が数十万の大量データを分類することは非常に困難であった。しかし、SNP遺伝子型分類装置100では、全ての処理が全自動であるので、大量のデータでも精度よく分類することが可能である。
また、SNP遺伝子型分類装置100は、まず、分類対象情報集合生成部102bで、非分類対象情報選別部102aで選別した非分類対象情報以外の2次元蛍光強度情報である分類対象情報を、階層的クラスタリング手法(例えば、最短距離法や最長距離法、群平均法など)により分類対象情報間の類似度に基づいて集約して、分類対象情報で構成される分類対象情報集合を複数生成する。換言すると、従来の方法ように最初から3つの集団に分類するのではなく、階層的クラスタリング手法(例えば、最短距離法や最長距離法、群平均法など)により分類対象情報間の類似度に基づいて分類対象情報を段階的に集約して、分類対象情報で構成される分類対象情報集合を複数生成する。これにより、2次元蛍光強度情報の誤分類の可能性を低減することができる。つぎに、SNP遺伝子型分類装置100は、第1非分類対象情報集合包含部102cで、分類対象情報集合生成部102bで生成した分類対象情報集合の中に所定数(例えば「1」や「2」など)の分類対象情報で構成される分類対象情報集合がある場合、当該分類対象情報集合を非分類対象情報集合に含める。これにより、分類すべきでない2次元蛍光強度情報(例えば相対的に著しく異なる蛍光強度値を持つ2次元蛍光強度情報など)を確実に抽出して分類対象情報集合から除外することができ、よって、分類すべきでない2次元蛍光強度情報が分類対象のデータ中に含まれていた場合でも充分な精度で2次元蛍光強度情報を分類することができる。つぎに、SNP遺伝子型分類装置100は、第1分類対象情報集合集約部102dで、第1非分類対象情報集合包含部102cで非分類対象情報集合に含めた分類対象情報集合以外の分類対象情報集合の数が所定の数「A」より多い場合、分類対象情報集合間の類似度に基づいて分類対象情報集合を所定の数「A」まで集約する。これにより、2次元蛍光強度情報の誤分類の可能性をさらに低減することができる。
また、SNP遺伝子型分類装置100は、まず、第2分類対象情報集合集約部102eで、第1分類対象情報集合集約部102dで集約した後の分類対象情報集合間の類似度が所定の式を満たす場合、当該式を満たした類似度に関連する分類対象情報集合同士を集約する。これにより、例えば分類対象情報集合の数が2つの場合にも対応することができる。つぎに、SNP遺伝子型分類装置100は、遺伝子型決定部102fで、第2分類対象情報集合集約部102eで集約した後の各分類対象情報集合の配置と当該分類対象情報集合の角度情報とに基づいて分類対象情報集合に対応する遺伝子型を決定して、各々の分類対象情報の遺伝子型を決定する。これにより、分類対象情報集合と遺伝子型との対応付けを適切に行うことができる。つぎに、第2非分類対象情報集合包含部102gで、遺伝子型決定部102fで遺伝子型が決定した分類対象情報集合の数が所定の数である場合、ハーディ・ワインバーグ平衡に関する所定の条件を満たさない(具体的にはハーディ・ワインバーグ平衡からのずれが大きい)分類対象情報集合を非分類対象情報集合に含める。これにより、従来の方法のように3つの集団に固定的に分類するのではなく、例えば分類した集団の数が3の場合はハーディ・ワインバーグ平衡からのずれを考慮して2つの集団に集約することができる。つまり、2次元蛍光強度情報の誤分類の可能性をさらに低減することができる。
また、SNP遺伝子型分類装置100は、MCMC法実行部102hで、上述した「(1)SNP遺伝子型分類処理」で決定した非分類対象情報集合を構成する非分類対象情報に対しMCMC法を実行して各々の2次元蛍光強度情報の遺伝子型を再度決定する。ここで、上述した「(1)SNP遺伝子型分類処理」では、外れ値を除くために、所定数(具体的には「1」)の2次元蛍光強度情報で構成された分類対象情報集合を「非分類対象」として分類している。しかし、外れ値がないデータでは、その2次元蛍光強度情報の近くにある分類対象情報集合に属するようにしたい。また、分類対象情報集合のうち、分散が大きい分類対象情報集合には「非分類対象」として分類するのが適切である2次元蛍光強度情報が含まれている場合がある。そのような場合には、MCMC法を用いることが有効であると考えられる。そこで、SNP遺伝子型分類装置100は、MCMC法実行部102hで、2次元正規分布パラメータ(平均、標準偏差、相関係数)を最尤推定し、各2次元蛍光強度情報の各分類対象情報集合への帰属度を計算して、ある分類対象情報集合への帰属度が所定の閾値より高い場合は当該分類対象情報集合に属すると結論付け、そうでない場合は「分類不可能」と結論付ける。これにより、非分類対象情報がどの分類対象情報集合に属するか否かをMCMC法で検証することができ、よって、2次元蛍光強度情報の誤分類の可能性をさらに低減することができる。また、MCMC法を実行する際の入力データには、上述した「(1)SNP遺伝子型分類処理」で精度よく分類された2次元蛍光強度情報を用いるので、MCMC法を効果的に実行することができる。
以上のように、本発明にかかるSNP遺伝子型分類方法、SNP遺伝子型分類装置およびSNP遺伝子型分類プログラムは、分類すべきでない2次元蛍光強度情報(例えば相対的に著しく異なる蛍光強度値を持つ2次元蛍光強度情報など)が分類対象のデータ中に含まれる場合でも充分な精度で2次元蛍光強度情報を遺伝子型と対応付けて分類することができ、医療や創薬などの分野において極めて有用である。
SNP遺伝子型分類装置100の構成を示すブロック図である。 2次元蛍光強度情報ファイル106aに格納される情報の一例を示す図である。 SNP遺伝子型分類装置100で行われるSNP遺伝子型分類処理の一例を示すフローチャートである。 SNP遺伝子型分類装置100で行われるSNP遺伝子型分類処理の一例を示すフローチャートである。 SNP遺伝子型分類装置100で行われるMCMC法実行処理の一例を示すフローチャートである。 SNP遺伝子型分類装置100で行われるMCMC法実行処理の具体例を詳細に示すフローチャートである。 SNP遺伝子型分類処理で用いる各配列のデータ構造の一例を示す図である。 SNP遺伝子型分類処理で用いる各配列のデータ構造の一例を示す図である。 ステップSA−1で非分類対象情報として選別される2次元蛍光強度情報の一例を示す図である。 ステップSA−4で非分類対象情報集合に含められる2次元蛍光強度情報の一例を示す図である。 ステップSA−8で分類対象情報集合を集約した結果の一例を示す図である。 ステップSA−11の処理を行う前の3つの分類対象情報集合の一例を示す図である。 ステップSA−11の処理を行った後の3つの集合(実線で示す2つの分類対象情報集合と点線で示す1つの非分類対象情報集合)の一例を示す図である。 入力データとして取得した2次元蛍光強度情報ファイル106aの複数の2次元蛍光強度情報の一例を示す図である。 図14に示す2次元蛍光強度情報をSNP遺伝子型分類装置100で処理した結果の一例を示す図である。
符号の説明
100 SNP遺伝子型分類装置
102 制御部
102a 非分類対象情報選別部
102b 分類対象情報集合生成部
102c 第1非分類対象情報集合包含部
102d 第1分類対象情報集合集約部
102e 第2分類対象情報集合集約部
102f 遺伝子型決定部
102g 第2非分類対象情報集合包含部
102h MCMC法実行部
104 通信インターフェース部
106 記憶部
106a 2次元蛍光強度情報ファイル
108 入出力インターフェース部
112 入力装置
114 出力装置
200 外部システム
300 ネットワーク

Claims (12)

  1. SNPの遺伝子型に関する複数の2次元蛍光強度情報を遺伝子型と対応付けて分類するSNP遺伝子型分類方法において、
    予め取得した前記複数の2次元蛍光強度情報の中から非分類対象の2次元蛍光強度情報である非分類対象情報を選別して、非分類対象情報で構成される非分類対象情報集合を生成する非分類対象情報選別ステップ
    を含むことを特徴とするSNP遺伝子型分類方法。
  2. 前記非分類対象情報選別ステップで選別した非分類対象情報以外の2次元蛍光強度情報である分類対象情報を、階層的クラスタリング手法により分類対象情報間の類似度に基づいて集約して、分類対象情報で構成される分類対象情報集合を複数生成する分類対象情報集合生成ステップと、
    前記分類対象情報集合生成ステップで生成した分類対象情報集合の中に所定数の分類対象情報で構成される分類対象情報集合がある場合、当該分類対象情報集合を前記非分類対象情報集合に含める第1非分類対象情報集合包含ステップと、
    前記第1非分類対象情報集合包含ステップで前記非分類対象情報集合に含めた分類対象情報集合以外の分類対象情報集合の数が所定の数より多い場合、分類対象情報集合間の類似度に基づいて分類対象情報集合を前記所定の数まで集約する第1分類対象情報集合集約ステップと、
    をさらに含むことを特徴とする請求項1に記載のSNP遺伝子型分類方法。
  3. 前記第1分類対象情報集合集約ステップで集約した後の分類対象情報集合間の類似度が所定の式を満たす場合、当該式を満たした類似度に関連する分類対象情報集合同士を集約する第2分類対象情報集合集約ステップと、
    前記第2分類対象情報集合集約ステップで集約した後の各分類対象情報集合の配置と当該分類対象情報集合の角度情報とに基づいて分類対象情報集合に対応する遺伝子型を決定して、各々の分類対象情報の遺伝子型を決定する遺伝子型決定ステップと、
    前記遺伝子型決定ステップで遺伝子型を決定した分類対象情報集合の数が前記所定の数である場合、ハーディ・ワインバーグ平衡に関する所定の条件を満たさない分類対象情報集合を前記非分類対象情報集合に含める第2非分類対象情報集合包含ステップと、
    をさらに含むことを特徴とする請求項2に記載のSNP遺伝子型分類方法。
  4. 前記非分類対象情報集合を構成する非分類対象情報に対しMCMC法を実行して各々の2次元蛍光強度情報の遺伝子型を再度決定するMCMC法実行ステップ
    をさらに含むことを特徴とする請求項3に記載のSNP遺伝子型分類方法。
  5. SNPの遺伝子型に関する複数の2次元蛍光強度情報を遺伝子型と対応付けて分類するSNP遺伝子型分類装置において、
    予め取得した前記複数の2次元蛍光強度情報の中から非分類対象の2次元蛍光強度情報である非分類対象情報を選別して、非分類対象情報で構成される非分類対象情報集合を生成する非分類対象情報選別手段
    を備えたことを特徴とするSNP遺伝子型分類装置。
  6. 前記非分類対象情報選別手段で選別した非分類対象情報以外の2次元蛍光強度情報である分類対象情報を、階層的クラスタリング手法により分類対象情報間の類似度に基づいて集約して、分類対象情報で構成される分類対象情報集合を複数生成する分類対象情報集合生成手段と、
    前記分類対象情報集合生成手段で生成した分類対象情報集合の中に所定数の分類対象情報で構成される分類対象情報集合がある場合、当該分類対象情報集合を前記非分類対象情報集合に含める第1非分類対象情報集合包含手段と、
    前記第1非分類対象情報集合包含手段で前記非分類対象情報集合に含めた分類対象情報集合以外の分類対象情報集合の数が所定の数より多い場合、分類対象情報集合間の類似度に基づいて分類対象情報集合を前記所定の数まで集約する第1分類対象情報集合集約手段と、
    をさらに備えたことを特徴とする請求項5に記載のSNP遺伝子型分類装置。
  7. 前記第1分類対象情報集合集約手段で集約した後の分類対象情報集合間の類似度が所定の式を満たす場合、当該式を満たした類似度に関連する分類対象情報集合同士を集約する第2分類対象情報集合集約手段と、
    前記第2分類対象情報集合集約手段で集約した後の各分類対象情報集合の配置と当該分類対象情報集合の角度情報とに基づいて分類対象情報集合に対応する遺伝子型を決定して、各々の分類対象情報の遺伝子型を決定する遺伝子型決定手段と、
    前記遺伝子型決定手段で遺伝子型を決定した分類対象情報集合の数が前記所定の数である場合、ハーディ・ワインバーグ平衡に関する所定の条件を満たさない分類対象情報集合を前記非分類対象情報集合に含める第2非分類対象情報集合包含手段と、
    をさらに備えたことを特徴とする請求項6に記載のSNP遺伝子型分類装置。
  8. 前記非分類対象情報集合を構成する非分類対象情報に対しMCMC法を実行して各々の2次元蛍光強度情報の遺伝子型を再度決定するMCMC法実行手段
    をさらに備えたことを特徴とする請求項7に記載のSNP遺伝子型分類装置。
  9. SNPの遺伝子型に関する複数の2次元蛍光強度情報を遺伝子型と対応付けて分類するSNP遺伝子型分類方法をコンピュータに実行させるSNP遺伝子型分類プログラムにおいて、
    予め取得した前記複数の2次元蛍光強度情報の中から非分類対象の2次元蛍光強度情報である非分類対象情報を選別して、非分類対象情報で構成される非分類対象情報集合を生成する非分類対象情報選別ステップ
    を含むことを特徴とするSNP遺伝子型分類プログラム。
  10. 前記非分類対象情報選別ステップで選別した非分類対象情報以外の2次元蛍光強度情報である分類対象情報を、階層的クラスタリング手法により分類対象情報間の類似度に基づいて集約して、分類対象情報で構成される分類対象情報集合を複数生成する分類対象情報集合生成ステップと、
    前記分類対象情報集合生成ステップで生成した分類対象情報集合の中に所定数の分類対象情報で構成される分類対象情報集合がある場合、当該分類対象情報集合を前記非分類対象情報集合に含める第1非分類対象情報集合包含ステップと、
    前記第1非分類対象情報集合包含ステップで前記非分類対象情報集合に含めた分類対象情報集合以外の分類対象情報集合の数が所定の数より多い場合、分類対象情報集合間の類似度に基づいて分類対象情報集合を前記所定の数まで集約する第1分類対象情報集合集約ステップと、
    をさらに含むことを特徴とする請求項9に記載のSNP遺伝子型分類プログラム。
  11. 前記第1分類対象情報集合集約ステップで集約した後の分類対象情報集合間の類似度が所定の式を満たす場合、当該式を満たした類似度に関連する分類対象情報集合同士を集約する第2分類対象情報集合集約ステップと、
    前記第2分類対象情報集合集約ステップで集約した後の各分類対象情報集合の配置と当該分類対象情報集合の角度情報とに基づいて分類対象情報集合に対応する遺伝子型を決定して、各々の分類対象情報の遺伝子型を決定する遺伝子型決定ステップと、
    前記遺伝子型決定ステップで遺伝子型を決定した分類対象情報集合の数が前記所定の数である場合、ハーディ・ワインバーグ平衡に関する所定の条件を満たさない分類対象情報集合を前記非分類対象情報集合に含める第2非分類対象情報集合包含ステップと、
    をさらに含むことを特徴とする請求項10に記載のSNP遺伝子型分類プログラム。
  12. 前記非分類対象情報集合を構成する非分類対象情報に対しMCMC法を実行して各々の2次元蛍光強度情報の遺伝子型を再度決定するMCMC法実行ステップ
    をさらに含むことを特徴とする請求項11に記載のSNP遺伝子型分類プログラム。
JP2004296945A 2004-10-08 2004-10-08 Snp遺伝子型分類方法、snp遺伝子型分類装置およびsnp遺伝子型分類プログラム Pending JP2006107396A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004296945A JP2006107396A (ja) 2004-10-08 2004-10-08 Snp遺伝子型分類方法、snp遺伝子型分類装置およびsnp遺伝子型分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004296945A JP2006107396A (ja) 2004-10-08 2004-10-08 Snp遺伝子型分類方法、snp遺伝子型分類装置およびsnp遺伝子型分類プログラム

Publications (1)

Publication Number Publication Date
JP2006107396A true JP2006107396A (ja) 2006-04-20

Family

ID=36377028

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004296945A Pending JP2006107396A (ja) 2004-10-08 2004-10-08 Snp遺伝子型分類方法、snp遺伝子型分類装置およびsnp遺伝子型分類プログラム

Country Status (1)

Country Link
JP (1) JP2006107396A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013094149A (ja) * 2011-11-04 2013-05-20 Hitachi Ltd Dna配列解読システム、dna配列解読方法及びプログラム
WO2016157473A1 (ja) * 2015-04-01 2016-10-06 株式会社 東芝 遺伝子型判定装置及び方法
US20170364631A1 (en) * 2014-10-30 2017-12-21 Kabushiki Kaisha Toshiba Genotype estimation device, method, and program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013094149A (ja) * 2011-11-04 2013-05-20 Hitachi Ltd Dna配列解読システム、dna配列解読方法及びプログラム
US20170364631A1 (en) * 2014-10-30 2017-12-21 Kabushiki Kaisha Toshiba Genotype estimation device, method, and program
US11355219B2 (en) 2014-10-30 2022-06-07 Kabushiki Kaisha Toshiba Genotype estimation device, method, and program
WO2016157473A1 (ja) * 2015-04-01 2016-10-06 株式会社 東芝 遺伝子型判定装置及び方法
GB2551091A (en) * 2015-04-01 2017-12-06 Toshiba Kk Genotype determination device and method
JPWO2016157473A1 (ja) * 2015-04-01 2017-12-21 株式会社東芝 遺伝子型判定装置及び方法

Similar Documents

Publication Publication Date Title
KR102307872B1 (ko) 카피수 변이체 검출을 위한 방법 및 시스템
JP5755822B1 (ja) 類似度算出システム、類似度算出方法およびプログラム
US8700548B2 (en) Optimization technique using evolutionary algorithms
US8872828B2 (en) Method for generating a graph lattice from a corpus of one or more data graphs
Cilibrasi et al. A fast quartet tree heuristic for hierarchical clustering
EP2431918B1 (en) Graph lattice method for image clustering, classification, and repeated structure finding
Nguyen et al. People-centric evolutionary system for dynamic production scheduling
Nair et al. Improving gene regulatory network inference using network topology information
JP2005533307A (ja) 高速直接局所探索のための確率的方法を用いたビデオ処理システム設計を最適化する方法及び装置
Shiga et al. A variational bayesian framework for clustering with multiple graphs
Ülker B-Spline curve approximation using Pareto envelope-based selection algorithm-PESA
Brunato et al. R-EVO: A reactive evolutionary algorithm for the maximum clique problem
JP2006107396A (ja) Snp遺伝子型分類方法、snp遺伝子型分類装置およびsnp遺伝子型分類プログラム
JP2009509259A5 (ja)
WO2022183889A1 (zh) 贝叶斯网络结构的生成方法、装置、电子设备和存储介质
CN115292303A (zh) 数据处理方法及装置
CN115168326A (zh) Hadoop大数据平台分布式能源数据清洗方法及系统
Regnier-Coudert et al. Factoradic representation for permutation optimisation
West et al. RFQAmodel: Random Forest Quality Assessment to identify a predicted protein structure in the correct fold
Llorá et al. The χ-ary extended compact classifier system: Linkage learning in Pittsburgh LCS
Ghareghani et al. Gw-call: Accurate genome-wide variant caller
Islam et al. Restrac: Reference sequence based space transformation for clustering
Yu et al. Genetic-based K-means algorithm for selection of feature variables
CN114997278B (zh) 基于计算机算法模型的工程数字化信息分析方法
CN113361055B (zh) 扩展社交网络中的隐私处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20060105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060105