JP5242568B2 - Clustering method, program and apparatus - Google Patents

Clustering method, program and apparatus Download PDF

Info

Publication number
JP5242568B2
JP5242568B2 JP2009525454A JP2009525454A JP5242568B2 JP 5242568 B2 JP5242568 B2 JP 5242568B2 JP 2009525454 A JP2009525454 A JP 2009525454A JP 2009525454 A JP2009525454 A JP 2009525454A JP 5242568 B2 JP5242568 B2 JP 5242568B2
Authority
JP
Japan
Prior art keywords
numerical data
data
function
clustering method
multidimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009525454A
Other languages
Japanese (ja)
Other versions
JPWO2009017204A1 (en
Inventor
哲也 田邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Corp filed Critical Olympus Corp
Priority to JP2009525454A priority Critical patent/JP5242568B2/en
Publication of JPWO2009017204A1 publication Critical patent/JPWO2009017204A1/en
Application granted granted Critical
Publication of JP5242568B2 publication Critical patent/JP5242568B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Description

本発明は、複数のデータをクラスタリングするクラスタリング方法、プログラムおよび装置に関する。   The present invention relates to a clustering method, program, and apparatus for clustering a plurality of data.

同一または異なる生体由来のサンプルに特有の多様な現象や特性等を解析することは、生物学的ないし医学的に重要な評価を可能にする。例えば、遺伝子多型解析では、サンプルの濃度や阻害物質の有無などに応じて多型識別反応の進行の速さがサンプルごとに異なる。このため、遺伝子多型解析では、広い分布を持った数値データ(多型データ)が得られる。   Analyzing various phenomena and characteristics peculiar to samples derived from the same or different living bodies enables biologically and medically important evaluations. For example, in gene polymorphism analysis, the speed of the polymorphism discrimination reaction varies from sample to sample depending on the concentration of the sample and the presence or absence of an inhibitor. For this reason, in the gene polymorphism analysis, numerical data (polymorphism data) having a wide distribution is obtained.

得られた数値データを識別する際には、オペレータが数値データの散布図を目視することによってクラスタリングを行うことがある。しかしながら、オペレータが数値データを識別する場合、オペレータによって識別結果が異なってしまうことがあった。   When the obtained numerical data is identified, the operator may perform clustering by visually observing a scatter diagram of the numerical data. However, when an operator identifies numerical data, the identification result may differ depending on the operator.

このような状況の下、従来より、数値データの識別を自動的に行う様々な試みがなされている。例えば、下記特許文献1では、遺伝子多型解析において、サンプルからのシグナルに対して統計学的な手法を用いる技術が開示されている。ところが、この技術では、数百サンプル中に数サンプルしか存在しないような頻度の少ない遺伝子多型に対応する数値データは統計的に意味をなさないため、そのような数値データの取り扱いが困難であるという問題があった。   Under such circumstances, various attempts have been made to automatically identify numerical data. For example, Patent Document 1 below discloses a technique that uses a statistical technique for a signal from a sample in gene polymorphism analysis. However, with this technique, numerical data corresponding to a low-frequency genetic polymorphism such that there are only a few samples in hundreds of samples is not statistically meaningful, and it is difficult to handle such numerical data. There was a problem.

そこで、遺伝子多型解析において、統計学的な手法に遺伝統計学的な手法を組み入れる技術も開示されている(例えば、特許文献2を参照)。この技術では、遺伝子多型解析で得られた数値データの信頼性を、ハーディー・ワインバーグ平衡を利用して遺伝統計学的に評価している。   Therefore, a technique of incorporating a genetic statistical technique into a statistical technique in gene polymorphism analysis has also been disclosed (see, for example, Patent Document 2). In this technique, the reliability of numerical data obtained by genetic polymorphism analysis is genetically evaluated using the Hardy-Weinberg equilibrium.

特開2004−272350号公報JP 2004-272350 A 特開2006−107396号公報JP 2006-107396 A

しかしながら、遺伝統計学的な手法を取り入れた遺伝子多型解析を行う場合には、ランダムにサンプリングを行う必要がある。このため、家系サンプルや患者サンプルなど偏ったサンプリングによって得られたデータは、遺伝統計学的な解析には不適である。また、統計学的な手法を用いる場合には、多型頻度が少ない場合に信頼できる統計量が得られず、判定を誤ってしまうことがあった。   However, when performing genetic polymorphism analysis incorporating a genetic statistical method, it is necessary to perform random sampling. For this reason, data obtained by biased sampling such as family samples and patient samples are not suitable for genetic statistical analysis. In addition, when a statistical method is used, a reliable statistic is not obtained when the polymorphism frequency is low, and the determination may be wrong.

本発明は、上記に鑑みてなされたものであって、サンプルの選び方によらず、そのサンプルに関連した数値データのクラスタリングを適確に行うことができるクラスタリング方法、プログラムおよび装置を提供することを目的とする。   The present invention has been made in view of the above, and provides a clustering method, a program, and an apparatus capable of accurately performing numerical data clustering related to a sample regardless of how the sample is selected. Objective.

上述した課題を解決し、目的を達成するために、本発明に係るクラスタリング方法は、複数の多次元数値データを記憶する記憶手段を備えたコンピュータが、前記複数の多次元数値データを一または複数のクラスタに分割するクラスタリング方法であって、前記複数の多次元数値データを前記記憶手段から読み出し、この読み出した前記複数の多次元数値データの各々をより低次元の数値データに変換するデータ変換ステップと、前記データ変換ステップで変換した数値データの各々に対応したデータ存在確率を与える複数の確率密度関数を生成する確率密度関数生成ステップと、前記確率密度関数生成ステップで生成した複数の確率密度関数の線形和をとることによって前記複数の多次元数値データの信頼性を数値的に定める信頼性分布関数を生成する信頼性分布関数生成ステップと、前記信頼性分布関数生成ステップで生成した信頼性分布関数に基づいて前記複数の多次元数値データのクラスタ分割を行うクラスタ分割ステップと、を有することを特徴とする。   In order to solve the above-described problems and achieve the object, the clustering method according to the present invention is such that a computer provided with storage means for storing a plurality of multidimensional numerical data stores one or more of the plurality of multidimensional numerical data. A data conversion step of reading the plurality of multidimensional numerical data from the storage means and converting each of the read multidimensional numerical data into lower dimensional numerical data A probability density function generating step for generating a plurality of probability density functions that give data existence probabilities corresponding to each of the numerical data converted in the data conversion step, and a plurality of probability density functions generated in the probability density function generating step A reliability distribution function that numerically determines the reliability of the plurality of multidimensional numerical data by taking a linear sum of A reliability distribution function generation step for generating a multi-dimensional numerical data cluster based on the reliability distribution function generated in the reliability distribution function generation step And

また、本発明に係るクラスタリング方法は、上記発明において、前記データ変換ステップは、前記多次元数値データの異なる成分の比の値を用いることにより、前記複数の多次元数値データの各々を、次元が1次元低い数値データに変換することを特徴とする。   Further, in the clustering method according to the present invention, in the above invention, the data conversion step uses a ratio value of different components of the multidimensional numerical data, so that each of the plurality of multidimensional numerical data has a dimension. It is characterized by being converted into numerical data one dimension lower.

また、本発明に係るクラスタリング方法は、上記発明において、前記多次元数値データの次元数は2であり、前記データ変換ステップで変換した後の1次元数値データの和は1であることを特徴とする。   The clustering method according to the present invention is characterized in that, in the above invention, the number of dimensions of the multi-dimensional numerical data is 2, and the sum of the one-dimensional numerical data after the conversion in the data conversion step is 1. To do.

また、本発明に係るクラスタリング方法は、上記発明において、前記確率密度関数生成ステップで生成する確率密度関数はガウス関数であり、前記ガウス関数の平均は、着目している2次元数値データの各次元の比によって定められ、前記ガウス関数の分散は、複数の2次元数値データの分布を与える2次元平面上において、着目している2次元数値データと当該2次元数値データから所定の範囲にある2次元数値データとの距離を用いて定められることを特徴とする。   In the clustering method according to the present invention, in the above invention, the probability density function generated in the probability density function generation step is a Gaussian function, and the average of the Gaussian function is calculated for each dimension of the two-dimensional numerical data of interest. The variance of the Gaussian function is 2 in a predetermined range from the two-dimensional numerical data of interest and the two-dimensional numerical data on a two-dimensional plane that gives a distribution of a plurality of two-dimensional numerical data. It is characterized by being determined using a distance from the dimension numerical data.

また、本発明に係るクラスタリング方法は、上記発明において、前記2次元数値データは一塩基遺伝子多型のアリルの検出データであり、前記データ変換ステップで変換したデータはアリルの濃度であることを特徴とする。   The clustering method according to the present invention is characterized in that, in the above invention, the two-dimensional numerical data is detection data of an allele of a single nucleotide polymorphism, and the data converted in the data conversion step is an allyl concentration. And

また、本発明に係るクラスタリング方法は、上記発明において、前記クラスタ分割ステップは、前記信頼性分布関数を、前記データ変換ステップで変換した後の数値データに関して微分する信頼性分布関数微分ステップと、前記信頼性分布関数微分ステップで微分した値から前記信頼性分布関数の極小値を算出する極小値算出ステップと、前記極小値算出ステップで算出した極小値を特徴付ける極小値特徴量を算出する極小値特徴量算出ステップと、前記極小値特徴量算出ステップで算出した極小値特徴量を用いて前記多次元数値データが分布する空間におけるクラスタ分割位置を設定するクラスタ分割位置設定ステップと、を含むことを特徴とする。   Further, in the clustering method according to the present invention, in the above invention, the cluster dividing step includes a reliability distribution function differentiation step for differentiating the reliability distribution function with respect to numerical data after being converted in the data conversion step, A minimum value calculation step for calculating a minimum value of the reliability distribution function from a value differentiated in the reliability distribution function differentiation step, and a minimum value feature for calculating a minimum value feature characterizing the minimum value calculated in the minimum value calculation step A quantity calculation step, and a cluster division position setting step for setting a cluster division position in a space in which the multidimensional numerical data is distributed using the minimum value feature quantity calculated in the minimum value feature quantity calculation step. And

また、本発明に係るクラスタリング方法は、上記発明において、前記クラスタ分割ステップにおけるクラスタ分割結果を出力するクラスタ分割結果出力ステップをさらに有することを特徴とする。   Further, the clustering method according to the present invention is characterized in that, in the above invention, the method further includes a cluster division result output step for outputting a cluster division result in the cluster division step.

本発明に係るクラスタリングプログラムは、上記いずれかの発明に係るクラスタリング方法を前記コンピュータに実行させることを特徴とする。   A clustering program according to the present invention causes the computer to execute a clustering method according to any one of the above inventions.

本発明に係るクラスタリング装置は、複数の多次元数値データを一または複数のクラスタに分割するクラスタリング装置であって、前記複数の多次元数値データを記憶する記憶手段と、前記複数の多次元数値データを前記記憶手段から読み出し、この読み出した前記複数の多次元数値データの各々をより低次元の数値データに変換するデータ変換手段と、前記データ変換手段で変換した数値データの各々に対応したデータ存在確率を与える複数の確率密度関数を生成し、この生成した複数の確率密度関数の線形和をとることによって前記複数の多次元数値データの信頼性を数値的に定める信頼性分布関数を生成する関数生成手段と、前記関数生成手段で生成した信頼性分布関数に基づいて前記複数の多次元数値データのクラスタ分割を行うクラスタ分割手段と、を備えたことを特徴とする。   A clustering apparatus according to the present invention is a clustering apparatus that divides a plurality of multidimensional numerical data into one or a plurality of clusters, and a storage unit that stores the plurality of multidimensional numerical data; and the plurality of multidimensional numerical data Data conversion means for converting each of the read multi-dimensional numerical data into lower-dimensional numerical data, and data corresponding to each of the numerical data converted by the data conversion means A function that generates a plurality of probability density functions that give probabilities and generates a reliability distribution function that numerically defines the reliability of the plurality of multidimensional numerical data by taking a linear sum of the generated plurality of probability density functions And a clustering unit that performs cluster division of the plurality of multidimensional numerical data based on a reliability distribution function generated by the generation unit and the function generation unit. Characterized by comprising a static splitting means.

本発明によれば、複数の多次元数値データの各々をより低次元の数値データに変換し、変換後の数値データの各々に対応したデータ存在確率を与える複数の確率密度関数を生成し、それら複数の確率密度関数の線形和をとることによって複数の多次元数値データの信頼性を数値的に定める信頼性分布関数を生成し、この信頼性分布関数に基づいて複数の多次元数値データのクラスタ分割を行うことにより、数値データの特性に左右されない処理を実現することができる。したがって、サンプルの選び方によらず、そのサンプルに関連した数値データのクラスタリングを適確に行うことが可能となる。   According to the present invention, each of a plurality of multidimensional numerical data is converted into lower dimensional numerical data, and a plurality of probability density functions that give data existence probabilities corresponding to each of the converted numerical data are generated, Generate a reliability distribution function that numerically defines the reliability of multiple multidimensional numerical data by taking the linear sum of multiple probability density functions, and then cluster multiple multidimensional numerical data based on this reliability distribution function By performing the division, it is possible to realize processing independent of the characteristics of the numerical data. Therefore, it is possible to accurately perform clustering of numerical data related to the sample regardless of how the sample is selected.

図1は、本発明の一実施の形態に係るクラスタリング装置の構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of a clustering apparatus according to an embodiment of the present invention. 図2は、測定装置の概略構成を示す模式図である。FIG. 2 is a schematic diagram illustrating a schematic configuration of the measurement apparatus. 図3は、本発明の一実施の形態に係るクラスタリング方法の処理の概要を示すフローチャートである。FIG. 3 is a flowchart showing an outline of processing of the clustering method according to the embodiment of the present invention. 図4は、データ変換処理の詳細を示すフローチャートである。FIG. 4 is a flowchart showing details of the data conversion process. 図5は、信頼性分布関数の生成例(第1例)を示す図である。FIG. 5 is a diagram illustrating a generation example (first example) of the reliability distribution function. 図6は、信頼性分布関数の生成例(第2例)を示す図である。FIG. 6 is a diagram illustrating a generation example (second example) of the reliability distribution function. 図7は、クラスタ分割処理の詳細を示すフローチャートである。FIG. 7 is a flowchart showing details of the cluster division processing. 図8は、信頼性分布関数の谷の幅と深さを模式的に示す図である。FIG. 8 is a diagram schematically showing the valley width and depth of the reliability distribution function. 図9は、クラスタ分割結果の表示出力例(第1例)を示す図である。FIG. 9 is a diagram illustrating a display output example (first example) of the cluster division result. 図10は、クラスタ分割結果の表示出力例(第2例)を示す図である。FIG. 10 is a diagram illustrating a display output example (second example) of the cluster division result.

符号の説明Explanation of symbols

1 クラスタリング装置
2、141 送受信部
3 入力部
4、104 制御部
5 記憶部
6 出力部
41 データ変換部
42 関数生成部
43 クラスタ分割部
51 測定データ記憶部
52 変換データ記憶部
53 関数記憶部
54 クラスタ分割結果記憶部
101 測定装置
102 マイクロアレイ
103 蛍光検出器
M1、M2 山
V 谷
DESCRIPTION OF SYMBOLS 1 Clustering apparatus 2,141 Transmission / reception part 3 Input part 4,104 Control part 5 Storage part 6 Output part 41 Data conversion part 42 Function generation part 43 Cluster division part 51 Measurement data storage part 52 Conversion data storage part 53 Function storage part 54 Cluster Division result storage unit 101 Measuring device 102 Microarray 103 Fluorescence detector M1, M2 Mountain V Valley

以下、添付図面を参照して本発明を実施するための最良の形態(以後、「実施の形態」と称する)を説明する。図1は、本発明の一実施の形態に係るクラスタリング装置の構成を示す図である。同図に示すクラスタリング装置1は、測定装置101から送信されてくる複数の測定データ(数値データ)をクラスタリングする装置であり、コンピュータを用いて実現される。   The best mode for carrying out the present invention (hereinafter referred to as “embodiment”) will be described below with reference to the accompanying drawings. FIG. 1 is a diagram showing a configuration of a clustering apparatus according to an embodiment of the present invention. The clustering apparatus 1 shown in FIG. 1 is an apparatus that clusters a plurality of measurement data (numerical data) transmitted from the measurement apparatus 101, and is realized using a computer.

クラスタリング装置1は、測定装置101との間でデータの送受信を行う送受信部2と、キーボードやマウスなどによって実現され、外部から情報が入力される入力部3と、測定データのクラスタリングに関する各種演算を行うとともに、クラスタリング装置1の動作制御を行う制御部4と、測定データや制御部4における演算結果を含む情報を記憶する記憶部5と、制御部4における演算によって得られる測定データのクラスタリング結果を含む情報を出力する出力部6と、を備える。   The clustering device 1 is realized by a transmission / reception unit 2 that transmits / receives data to / from the measurement device 101, a keyboard, a mouse, and the like. A control unit 4 that controls the operation of the clustering apparatus 1, a storage unit 5 that stores information including measurement data and calculation results in the control unit 4, and a clustering result of measurement data obtained by calculation in the control unit 4. And an output unit 6 that outputs information including the output information.

制御部4は、測定装置101から入力された測定データに所定の変換を施すデータ変換部41と、データ変換部41が変換したデータを用いて所定の関数を生成する関数生成部42と、関数生成部42が生成した関数を用いて測定データをクラスタ分割するクラスタ分割部43と、を有する。制御部4は、演算機能および制御機能を有するCPU(Central Processing Unit)などを用いて実現される。なお、データ変換部41は、データ変換手段の少なくとも一部を構成する。また、関数生成部42は関数生成手段の少なくとも一部を構成し、クラスタ分割部43はクラスタ分割手段の少なくとも一部を構成する。   The control unit 4 includes a data conversion unit 41 that performs predetermined conversion on measurement data input from the measurement apparatus 101, a function generation unit 42 that generates a predetermined function using data converted by the data conversion unit 41, a function And a cluster division unit 43 that divides the measurement data into clusters using the function generated by the generation unit 42. The control unit 4 is realized using a CPU (Central Processing Unit) having an arithmetic function and a control function. The data conversion unit 41 constitutes at least part of the data conversion means. The function generation unit 42 constitutes at least a part of the function generation unit, and the cluster division unit 43 constitutes at least a part of the cluster division unit.

記憶部5は、測定データを記憶する測定データ記憶部51と、測定データを変換したデータを記憶する変換データ記憶部52と、変換したデータを用いて生成した関数を記憶する関数記憶部53と、測定データに対するクラスタ分割結果を記憶するクラスタ分割結果記憶部54と、を有する。このような記憶部5は、本実施の形態に係るクラスタリングプログラムや所定のOSを起動するプログラムなどを予め記憶するROM(Read Only Memory)、制御部4が演算を行う際に使用する情報を一時的に記憶するRAM(Random Access Memory)などを用いて実現され、記憶手段の少なくとも一部を構成する。また、記憶部5として、ハードディスクなどの外部記憶装置を具備してもよい。   The storage unit 5 includes a measurement data storage unit 51 that stores measurement data, a conversion data storage unit 52 that stores data obtained by converting measurement data, and a function storage unit 53 that stores functions generated using the converted data. A cluster division result storage unit 54 for storing the cluster division result for the measurement data. Such a storage unit 5 is a ROM (Read Only Memory) that stores in advance a clustering program according to the present embodiment, a program for starting a predetermined OS, and the like, and temporarily stores information used when the control unit 4 performs calculations. This is realized by using a RAM (Random Access Memory) or the like that stores the data, and constitutes at least a part of the storage means. The storage unit 5 may include an external storage device such as a hard disk.

出力部6は、制御部4からの制御信号に基づいて画像を生成し、この生成した画像を表示する機能を有しており、液晶、プラズマ、有機EL等のディスプレイを用いて実現される。   The output unit 6 has a function of generating an image based on a control signal from the control unit 4 and displaying the generated image, and is realized using a display such as liquid crystal, plasma, and organic EL.

図2は、測定装置101の概略構成を示す模式図である。測定装置101は、遺伝子の一塩基遺伝子多型(SNP:Single Nucleotide Polymorphism)を検出するSNPタイピングを行う装置であり、基盤上に複数のスポットSPが形成されたマイクロアレイ102と、マイクロアレイ102の各スポットSPに対し、励起光としてのレーザ光を照射するレーザ光源を有するとともに、この照射したレーザ光によって発生する蛍光の強度を検出する光電子増倍管を有する蛍光検出器103と、蛍光検出器103の動作を制御する制御部104と、を備える。   FIG. 2 is a schematic diagram illustrating a schematic configuration of the measurement apparatus 101. The measuring device 101 is a device that performs SNP typing to detect a single nucleotide polymorphism (SNP) of a gene. A microarray 102 in which a plurality of spots SP are formed on a substrate, and each spot of the microarray 102 A fluorescence detector 103 having a laser light source for irradiating the SP with laser light as excitation light and having a photomultiplier tube for detecting the intensity of fluorescence generated by the irradiated laser light, And a control unit 104 that controls the operation.

制御部104は、クラスタリング装置1との間で測定データを含む情報の送受信を行う送受信部141を有する。   The control unit 104 includes a transmission / reception unit 141 that transmits / receives information including measurement data to / from the clustering apparatus 1.

マイクロアレイ102のスポットSPには、あるサンプルの特定のSNPに対応する遺伝子と相補的な配列を有する遺伝子(プローブ)が点着されている。このようなプローブの中には、測定データの基準となる内部コントロール用のプローブが含まれており、所定のスポットSPに点着されている。以後、この内部コントロール用のプローブを「ハイブリコントロール」という。また、ハイブリコントロール以外のプローブが配置されているスポットSPについては、SNPをmでラベルするとともにサンプルをnでラベルすることによってSPmnと記載する(ここで、m,nは自然数)。   A gene (probe) having a sequence complementary to a gene corresponding to a specific SNP of a sample is spotted on the spot SP of the microarray 102. Such a probe includes a probe for internal control serving as a reference for measurement data, and is spotted on a predetermined spot SP. Hereinafter, the probe for internal control is referred to as “hybrid control”. In addition, a spot SP in which probes other than the hybrid control are arranged is described as SPmn by labeling the SNP with m and labeling the sample with n (where m and n are natural numbers).

測定装置101でSNPタイピングを行う際には、あるサンプル(n)から生成したアリル(対立遺伝子)のcDNAを蛍光色素Cy3(図2で白丸(○)表示)、Cy5(図2で黒丸(●)表示)でそれぞれ標識した標識DNA(タグ)を、マイクロアレイ102の各スポットSPmnに点着したプローブとハイブリダイゼーションさせる。その後、蛍光検出器103は、ハイブリダイゼーションによって発生した蛍光の強度(シグナル輝度)を検出する。蛍光検出器103が一方の蛍光色素に対応する蛍光シグナルを検出した場合、そのSNPのアリルはホモ接合性を有する(図2の○○や●●)。これに対し、蛍光検出器103が2つの蛍光色素にそれぞれ対応する蛍光シグナルを検出した場合、そのSNPのアリルはヘテロ接合性を有する(図2で●○)。   When SNP typing is performed by the measuring apparatus 101, the allyl (allelic) cDNA generated from a sample (n) is expressed by fluorescent dyes Cy3 (indicated by white circles (◯) in FIG. 2) and Cy5 (indicated by black circles (●) in FIG. The labeled DNAs (tags) labeled in () are hybridized with the probes spotted on the spots SPmn of the microarray 102. Thereafter, the fluorescence detector 103 detects the intensity (signal luminance) of the fluorescence generated by the hybridization. When the fluorescence detector 103 detects a fluorescence signal corresponding to one of the fluorescent dyes, the allele of the SNP has homozygosity (○○ and ●● in FIG. 2). On the other hand, when the fluorescence detector 103 detects fluorescence signals corresponding to the two fluorescent dyes, the allele of the SNP has heterozygosity ((in FIG. 2).

制御部104は、蛍光検出器103が検出したスポットSPから発生する蛍光を用いることにより、測定データとしての2次元数値データである蛍光色素Cy3、Cy5にそれぞれ対応したシグナル輝度を算出し、この算出したシグナル輝度を、送受信部141を介してクラスタリング装置1へ送信する。   The control unit 104 uses the fluorescence generated from the spot SP detected by the fluorescence detector 103 to calculate the signal luminances corresponding to the fluorescent dyes Cy3 and Cy5, which are two-dimensional numerical data as measurement data, and this calculation The signal luminance thus transmitted is transmitted to the clustering apparatus 1 via the transmission / reception unit 141.

なお、測定装置101が行うSNPタイピング法の詳細は、以下の文献に記載された方法と本質的に同じである。N. Nishida, T. Tanabe, K. Hashido, K. Hirayasu, M. Takasu, A. Suyama, K. Tokunaga, "DigiTag assay for multipulex single nucleotide polymorphism typing with high success rate", Anal Biochem. 346 (2005) 281-288; N. Nishida, T. Tanabe, M. Takasu, A. Suyama, K. Tokunaga, "Further development of multipulex single nucleotide polymorphism typing method, the DigiTag2 assay", Anal Biochem. 364 (2007) 78-85.   Note that the details of the SNP typing method performed by the measuring apparatus 101 are essentially the same as the methods described in the following documents. N. Nishida, T. Tanabe, K. Hashido, K. Hirayasu, M. Takasu, A. Suyama, K. Tokunaga, "DigiTag assay for multipulex single nucleotide polymorphism typing with high success rate", Anal Biochem. 346 (2005) 281-288; N. Nishida, T. Tanabe, M. Takasu, A. Suyama, K. Tokunaga, "Further development of multipulex single nucleotide polymorphism typing method, the DigiTag2 assay", Anal Biochem. 364 (2007) 78-85 .

図3は、本実施の形態に係るクラスタリング方法の処理の概要を示すフローチャートである。本実施の形態では、クラスタリングを行う際の測定データの信頼性に関して、以下の2点(1−1)、(1−2)を仮定する。
(1−1)シグナル輝度が高い測定データは信頼性が高い。
(1−2)シグナル輝度の測定データの分布を示す図において、別のサンプルの測定データが近傍に分布している測定データは信頼性が高い。
FIG. 3 is a flowchart showing an outline of processing of the clustering method according to the present embodiment. In the present embodiment, the following two points (1-1) and (1-2) are assumed regarding the reliability of measurement data when clustering is performed.
(1-1) Measurement data with high signal luminance is highly reliable.
(1-2) In the figure showing the distribution of measurement data of signal luminance, measurement data in which measurement data of another sample is distributed in the vicinity has high reliability.

上述した前提のもと、クラスタリング装置1のデータ変換部41は、測定データ記憶部51で記憶する測定データとしての蛍光のシグナル輝度を読み出し、この読み出したシグナル輝度を所定の規則にしたがって変換する(ステップS1)。   Under the above-mentioned assumption, the data conversion unit 41 of the clustering apparatus 1 reads the fluorescence signal luminance as measurement data stored in the measurement data storage unit 51, and converts the read signal luminance according to a predetermined rule ( Step S1).

一般に、シグナル輝度は、系に投入したサンプルの濃度、マイクロアレイ102に点着しているプローブの濃度、蛍光検出器103が照射するレーザ光の強度、蛍光検出器103が有する光電子増倍管の感度などの影響によってバラツキを有する。そこで、データ変換部41は、前述した測定系の影響を排除するために、ハイブリコントロールのシグナル輝度を基準として、各スポットSPmnのシグナル輝度を、プローブ点着量や標識DNAの濃度に依存しない量に変換する。このデータ変換処理を行うにあたって、以下の3点(2−1)〜(2−3)を仮定する。
(2−1)シグナル輝度は、マイクロアレイ102への標識DNAの点着量に比例する。
(2−2)蛍光色素の発光効率は蛍光色素にのみ依存し、DNA配列には依存しない。
(2−3)蛍光色素Cy3、Cy5でそれぞれ標識されたハイブリコントロールの標識DNAのモル比は1:1である。
In general, the signal luminance is the concentration of the sample introduced into the system, the concentration of the probe spotted on the microarray 102, the intensity of the laser light emitted by the fluorescence detector 103, and the sensitivity of the photomultiplier tube that the fluorescence detector 103 has. Due to the influence of the Therefore, in order to eliminate the influence of the measurement system described above, the data conversion unit 41 uses the signal luminance of the hybrid control as a reference, and the signal luminance of each spot SPmn is an amount that does not depend on the probe spotting amount or the labeled DNA concentration. Convert to In performing this data conversion processing, the following three points (2-1) to (2-3) are assumed.
(2-1) The signal luminance is proportional to the amount of labeled DNA spotted on the microarray 102.
(2-2) The luminous efficiency of the fluorescent dye depends only on the fluorescent dye and does not depend on the DNA sequence.
(2-3) The molar ratio of the hybrid control labeled DNAs labeled with the fluorescent dyes Cy3 and Cy5, respectively, is 1: 1.

以上の仮定(2−1)〜(2−3)に基づいて、マイクロアレイ102から発生する蛍光のシグナル輝度Iは、

Figure 0005242568
と定義される。ここで、dは対応する蛍光色素の発光効率、SはスポットSPのプローブ点着量に比例する係数、Cは標識DNAの濃度である。以下、発光効率dについては、蛍光色素Cy3の発光効率をdCy3とし、蛍光色素Cy5の発光効率をdCy5とする。Based on the above assumptions (2-1) to (2-3), the signal intensity I of the fluorescence generated from the microarray 102 is
Figure 0005242568
Is defined. Here, d is the luminous efficiency of the corresponding fluorescent dye, S is a coefficient proportional to the amount of spot spot spot SP, and C is the concentration of the labeled DNA. Hereinafter, regarding the luminous efficiency d, the luminous efficiency of the fluorescent dye Cy3 is d Cy3 and the luminous efficiency of the fluorescent dye Cy5 is d Cy5 .

ステップS1においてデータ変換部41が行う具体的な演算について、図4に示すフローチャートを参照して説明する。データ変換部41は、蛍光色素Cy3の発光効率dCy3と蛍光色素Cy5の発光効率dCy5との比(発光効率比)dCy3/dCy5を、ハイブリコントロールの蛍光色素ごとのシグナル輝度IHybriContCy3、IHybriContCy5から求める(ステップS11)。蛍光色素ごとのシグナル輝度IHybriContCy3、IHybriContCy5は、式(1)により、

Figure 0005242568
と表される。ここで、標識DNA濃度Cの添字中のED−1、ED−2は、蛍光色素Cy3、Cy5によってそれぞれ標識される標識DNAを識別するためのものである。A specific calculation performed by the data conversion unit 41 in step S1 will be described with reference to a flowchart shown in FIG. The data conversion unit 41 calculates the ratio of the light emission efficiency d Cy3 of the fluorescent dye Cy3 and the light emission efficiency d Cy5 of the fluorescent dye Cy5 (light emission efficiency ratio) d Cy3 / d Cy5 to the signal luminance I HybriContCy3 for each fluorescent dye of the hybrid control. Obtained from I HybriContCy5 (step S11). The signal intensities I HybriContCy3 and I HybriContCy5 for each fluorescent dye are expressed by the following equation (1).
Figure 0005242568
It is expressed. Here, ED-1 and ED-2 in the subscript of the labeled DNA concentration C are for identifying the labeled DNAs respectively labeled with the fluorescent dyes Cy3 and Cy5.

上述した仮定(2−3)より、標識DNA濃度CHybriContED-1、CHybriContED-2は等しい(CHybriContED-1=CHybriContED-2)。したがって、

Figure 0005242568
が得られ、蛍光色素Cy3と蛍光色素Cy5との発光効率比dCy3/dCy5が、測定データであるハイブリコントロールのシグナル輝度の比IHybriContCy3/IHybriContCy5を用いて表される。From the above assumption (2-3), the labeled DNA concentrations C HybriContED-1 and C HybriContED-2 are equal (C HybriContED-1 = C HybriContED-2 ). Therefore,
Figure 0005242568
Is obtained, luminous efficiency ratio d Cy3 / d Cy5 with a fluorescent dye Cy3 and the fluorescent dye Cy5 are represented using the ratio I HybriContCy3 / I HybriContCy5 signal intensity of hybridization controls the measurement data.

続いて、データ変換部41は、スポットSPmnのシグナル輝度を、対応する蛍光色素の発光効率比dCy3/dCy5を用いて補正する(ステップS12)。スポットSPmnのシグナル輝度ISNPmSAMPLEnCy3、ISNPmSAMPLEnCy5は、

Figure 0005242568
と定義される。ここで、SSNPmSAMPLEnはスポットSPmnのプローブ点着量、CSNPmSAMPLEnED-1、CSNPmSAMPLEnED-2は、スポットSPmnの蛍光色素Cy3、Cy5でそれぞれ標識した標識DNAの濃度である。Subsequently, the data conversion unit 41 corrects the signal luminance of the spot SPmn using the luminous efficiency ratio d Cy3 / d Cy5 of the corresponding fluorescent dye (step S12). The signal brightness I SNPmSAMPLEnCy3 and I SNPmSAMPLEnCy5 of the spot SPmn is
Figure 0005242568
Is defined. Here, S SNPmSAMPLEn is the spot spot amount of spot SPmn, and C SNPmSAMPLEnED-1 and C SNPmSAMPLEnED-2 are the concentrations of labeled DNAs labeled with fluorescent dyes Cy3 and Cy5 of spot SPmn, respectively.

データ変換部41は、蛍光色素Cy3、Cy5の発光効率dCy3、dCy5を用いることにより、シグナル輝度ISNPmSAMPLEnCy3、ISNPmSAMPLEnCy5

Figure 0005242568
と補正する。The data conversion unit 41 uses the luminous efficiencies d Cy3 and d Cy5 of the fluorescent dyes Cy3 and Cy5 to obtain the signal luminances I SNPmSAMPLEnCy3 and I SNPmSAMPLEnCy5 .
Figure 0005242568
And correct.

続いて、データ変換部41は、補正後のシグナル輝度I'SNPmSAMPLEnCy3、I'SNPmSAMPLEnCy5の和を、スポットSPmnのプローブ点着量に比例する係数S'SNPmSAMPLEnとして再定義する(ステップS13)。すなわち、データ変換部41は、スポットSPmnのプローブ点着量に比例する係数を

Figure 0005242568
と再定義する。Subsequently, the data conversion unit 41 redefines the sum of the corrected signal luminances I ′ SNPmSAMPLEnCy3 and I ′ SNPmSAMPLEnCy5 as a coefficient S ′ SNPmSAMPLEn that is proportional to the probe spot amount of the spot SPmn (step S13). That is, the data conversion unit 41 calculates a coefficient proportional to the amount of probe spot landing on the spot SPmn.
Figure 0005242568
And redefine.

この後、データ変換部41は、補正後のシグナル輝度I'SNPmSAMPLEnCy3、I'SNPmSAMPLEnCy5と再定義後のプローブ点着量に比例する係数S'SNPmSAMPLEnとを用いて定義される標識DNA濃度CHybriContED-1、CHybriContED-2の補正値を算出し、変換データ記憶部52に書き込んで記憶する(ステップS14)。このステップS14で算出する標識DNA濃度の補正値C'SNPmSAMPLEnCy3、C'SNPmSAMPLEnCy5は、

Figure 0005242568
と定義される。ここで、式(10)、(11)は、式(5)〜(9)を用いて導出される。例えば、式(10)は、次のように変形することによって導出される。
Figure 0005242568
この導出において、2番目の等号では式(9)を代入し、3番目の等号では式(7)、(8)を代入し、最後の等号では式(5)、(6)を代入した。Thereafter, the data conversion unit 41 uses the corrected signal luminance I ′ SNPmSAMPLEnCy3 and I ′ SNPmSAMPLEnCy5 and the labeled DNA concentration C HybriContED− defined by using the coefficient S ′ SNPmSAMPLEn proportional to the re-defined probe spotting amount. 1 , the correction value of C HybriContED-2 is calculated, and is written and stored in the conversion data storage unit 52 (step S14). Correction values C ′ SNPmSAMPLEnCy3 and C ′ SNPmSAMPLEnCy5 of the labeled DNA concentration calculated in step S14 are:
Figure 0005242568
Is defined. Here, Expressions (10) and (11) are derived using Expressions (5) to (9). For example, equation (10) is derived by transforming as follows.
Figure 0005242568
In this derivation, equation (9) is substituted for the second equal sign, equations (7) and (8) are substituted for the third equal sign, and equations (5) and (6) are substituted for the last equal sign. Substituted.

補正後の標識DNA濃度C'SNPmSAMPLEnCy3、C'SNPmSAMPLEnCy5は、補正前の標識DNA濃度の和によって規格化した値であり、蛍光色素Cy3、Cy5によってそれぞれ標識されたアリルの濃度に対応している。このようにして、データ変換部41は、スポットSPmnにおける二つの測定データISNPmSAMPLEnCy3、ISNPmSAMPLEnCy5を、スポットSPmnのプローブ点着量やサンプルの濃度に依存しない1次元の量に変換する。The corrected labeled DNA concentrations C ′ SNPmSAMPLEnCy3 and C ′ SNPmSAMPLEnCy5 are values normalized by the sum of the labeled DNA concentrations before correction, and correspond to the concentrations of allyl labeled with the fluorescent dyes Cy3 and Cy5, respectively. In this way, the data conversion unit 41 converts the two measurement data I SNPmSAMPLEnCy3 and I SNPmSAMPLEnCy5 at the spot SPmn into a one-dimensional amount that does not depend on the probe spot deposition amount or sample concentration of the spot SPmn.

次に、関数生成部42は、上述したステップS1で1次元上に分布した測定データが真の値として存在するデータ存在確率を与える確率密度関数を生成する(ステップS2)。具体的には、関数生成部42は、1次元に変換後の測定データC'SNPmSAMPLEnCy3、C'SNPmSAMPLEnCy5を変換データ記憶部52から読み出し、各データの測定点を中心とした正規分布を与えるガウス関数

Figure 0005242568
を確率密度関数として生成し、関数記憶部53に書き込んで記憶する。Next, the function generation unit 42 generates a probability density function that gives a data existence probability that the measurement data distributed in one dimension in step S1 described above exists as a true value (step S2). Specifically, the function generation unit 42 reads the measurement data C ′ SNPmSAMPLEnCy3 and C ′ SNPmSAMPLEnCy5 converted into one dimension from the conversion data storage unit 52, and gives a normal distribution centered on the measurement points of each data.
Figure 0005242568
Is generated as a probability density function, and is written and stored in the function storage unit 53.

式(12)において、ガウス関数の面積に対応する係数ISNPmSAMPLEnは、

Figure 0005242568
と定義される量である。In equation (12), the coefficient I SNPmSAMPLEn corresponding to the area of the Gaussian function is
Figure 0005242568
It is an amount defined as

また、式(12)でガウス関数の分散に対応する定数dSNPmSAMPLEnは、シグナル輝度の分布を示す2次元平面(ISNPmSAMPLECy3,ISNPmSAMPLECy5)において、着目しているサンプルから所定の範囲にあるサンプルまでの距離を用いて定められる量(代表距離)であり、

Figure 0005242568
と定義される量である。ここで、Δθ(k) SNPmSAMPLEnは、注目しているサンプルとそのサンプルの近傍に位置するサンプルとの2次元平面(ISNPmSAMPLECy3,ISNPmSAMPLECy5)における角度差である。また、定数a(k) SNPxSAMPLEyは距離の平滑化に関わる数であり、1より大きい値として適宜定められる。なお、式(14)では、近傍の3つのサンプルまでの角度差Δθ(k) SNPmSAMPLEnを用いて代表距離dSNPmSAMPLEnを算出している。In addition, the constant d SNPmSAMPLEn corresponding to the variance of the Gaussian function in Expression (12) is from a sample of interest to a sample within a predetermined range on the two-dimensional plane (I SNPmSAMPLECy3 , I SNPmSAMPLECy5 ) indicating the signal luminance distribution. Is a quantity (representative distance) determined using the distance of
Figure 0005242568
It is an amount defined as Here, Δθ (k) SNPmSAMPLEn is an angle difference in a two-dimensional plane (I SNPmSAMPLECy3 , I SNPmSAMPLECy5 ) between the sample of interest and a sample located in the vicinity of the sample. The constant a (k) SNPxSAMPLEy is a number related to distance smoothing and is appropriately determined as a value larger than 1. In Expression (14), the representative distance d SNPmSAMPLEn is calculated using the angle difference Δθ (k) SNPmSAMPLEn to three neighboring samples.

さらに、式(12)のrSNPmSAMPLEnは、蛍光色素ごとの補正後の標識DNAの濃度比C'SNPmSAMPLEnCy3/C'SNPmSAMPLEnCy5である。Further, r SNPmSAMPLEn in the formula (12) is a concentration ratio C ′ SNPmSAMPLEnCy3 / C ′ SNPmSAMPLEnCy5 of the labeled DNA after correction for each fluorescent dye.

この後、関数生成部42は、測定データの信頼性を数値的に定めた信頼性分布関数として、同じSNPに対する全てのサンプルの確率密度関数の和として定義される関数

Figure 0005242568
を算出し、関数記憶部53に書き込んで記憶する(ステップS3)。図5および図6は、異なるサンプル、SNPの組み合わせに対する信頼性分布関数の生成例を示す図である。これらの図に示す信頼性分布関数GSNPm(x)においては、各サンプルに対するガウス関数gSNPmSAMPLEn(x)が足し合わされ、複数の山と谷のピークが現れている。Thereafter, the function generator 42 is a function defined as the sum of the probability density functions of all samples for the same SNP as a reliability distribution function that numerically defines the reliability of the measurement data.
Figure 0005242568
Is written and stored in the function storage unit 53 (step S3). FIG. 5 and FIG. 6 are diagrams showing examples of generation of reliability distribution functions for combinations of different samples and SNPs. In the reliability distribution function G SNPm (x) shown in these figures, the Gaussian function g SNPmSAMPLEn (x) for each sample is added, and a plurality of peaks and valleys appear.

次に、クラスタ分割部43は、SNPごとに関数記憶部53から読み出した信頼性分布関数GSNPm(x)に基づいて2次元平面上でのクラスタの分割を行う(ステップS4)。以下、図7のフローチャートを参照して、クラスタ分割処理の詳細を説明する。まず、クラスタ分割部43は、信頼性分布関数GSNPm(x)のxに関する数値微分を求める(ステップS41)。Next, the cluster dividing unit 43 divides the cluster on the two-dimensional plane based on the reliability distribution function G SNPm (x) read from the function storage unit 53 for each SNP (step S4). Details of the cluster division process will be described below with reference to the flowchart of FIG. First, the cluster dividing unit 43 obtains a numerical differentiation with respect to x of the reliability distribution function G SNPm (x) (step S41).

この後、クラスタ分割部43は、ステップS41の結果を用いて信頼性分布関数GSNPm(x)の極小値を算出する(ステップS42)。Thereafter, the cluster dividing unit 43 calculates the minimum value of the reliability distribution function G SNPm (x) using the result of Step S41 (Step S42).

続いて、クラスタ分割部43は、ステップS42で算出した極小値を特徴付ける極小値特徴量を算出する(ステップS43)。ここでいう極小値特徴量とは、信頼性分布関数GSNPm(x)の極小値を谷底としたときの谷の幅と深さである。図8は、信頼性分布関数GSNPm(x)の谷の幅と深さを模式的に示す図である。同図に示す谷Vの幅wは、谷Vを挟んで隣接する山M1、M2の頂上間の水平距離である。また、谷Vの深さpは、谷Vの谷底(極小値の位置)から見た山M1の高さp1と谷Vの谷底から見た山M2の高さp2との平均値(p1+p2)/2である。Subsequently, the cluster dividing unit 43 calculates a minimum value feature amount that characterizes the minimum value calculated in step S42 (step S43). The minimum value feature here is the width and depth of the valley when the minimum value of the reliability distribution function G SNPm (x) is the valley bottom. FIG. 8 is a diagram schematically showing the valley width and depth of the reliability distribution function G SNPm (x). The width w of the valley V shown in the figure is the horizontal distance between the peaks of the mountains M1 and M2 adjacent to each other across the valley V. The depth p of the valley V is the average value (p1 + p2) of the height p1 of the mountain M1 seen from the valley bottom (minimum position) of the valley V and the height p2 of the mountain M2 seen from the valley bottom of the valley V. / 2.

次に、クラスタ分割部43は、ステップS43で算出した極小値特徴量を用いてクラスタ分割位置を設定する(ステップS44)。具体的には、クラスタ分割部43は、谷Vの幅wおよび深さp、定数bを用いて定義される評価関数

Figure 0005242568
を谷Vごとに求める。その後、クラスタ分割部43は、式(16)にしたがって求めた全ての谷Vの評価関数QVの中で所定の閾値Qthを超えているものの中から上位2つまでをクラスタ分割点として抽出する。なお、式(16)で定義される谷Vの評価関数QVはあくまでも一例に過ぎず、谷Vの幅wや深さpを用いて定義される関数であれば、式(16)以外の関数でもかまわない。Next, the cluster division unit 43 sets a cluster division position using the minimum value feature amount calculated in step S43 (step S44). Specifically, the cluster dividing unit 43 determines the evaluation function defined using the width w and depth p of the valley V and the constant b.
Figure 0005242568
For each valley V. After that, the cluster dividing unit 43 extracts, from the evaluation functions Q V of all the valleys V obtained according to the equation (16), the upper two of the evaluation functions Q V exceeding the predetermined threshold value Q th as cluster dividing points. To do. Note that the evaluation function Q V of the valley V defined by Expression (16) is merely an example, and any function other than Expression (16) can be used as long as the function is defined using the width w and depth p of the valley V. It can be a function.

この後、出力部6は、ステップS4におけるクラスタ分割結果を出力する(ステップS5)。図9および図10は、異なるサンプルとSNPとの組み合わせに対するクラスタ分割結果(3つのクラスタCr1〜Cr3に分割)の表示出力例を示す図である。このうち、図9は図5に示す信頼性分布関数GSNPm(x)を用いてクラスタリングした結果を示している。また、図10は図6に示す信頼性分布関数GSNPm(x)を用いてクラスタリングした結果を示している。図9および図10において、分割された3つのクラスタCr1〜Cr3は、互いに異なる多型データに対応している。Thereafter, the output unit 6 outputs the cluster division result in step S4 (step S5). FIGS. 9 and 10 are diagrams showing display output examples of cluster division results (divided into three clusters Cr1 to Cr3) for combinations of different samples and SNPs. 9 shows the result of clustering using the reliability distribution function G SNPm (x) shown in FIG. FIG. 10 shows the result of clustering using the reliability distribution function G SNPm (x) shown in FIG. 9 and 10, the three divided clusters Cr1 to Cr3 correspond to different polymorphic data.

なお、クラスタ分割部43は、評価関数QVが閾値Qthを超えるような谷Vが1つしかない場合、クラスタを2つに分割する。この場合、クラスタ分割部43は、谷Vの位置が2次元平面上で縦軸と横軸の値が等しい直線を境界として、この直線と縦軸とによって挟まれた領域に属するか、その直線と横軸とによって挟まれた領域に属するかを判断し、クラスタが属する多型データの種別を判定する。Note that the cluster dividing unit 43 divides the cluster into two when there is only one valley V whose evaluation function Q V exceeds the threshold value Q th . In this case, the cluster dividing unit 43 belongs to a region between the straight line and the vertical axis or a straight line whose valley V is located on a two-dimensional plane with a straight line having the same value on the vertical axis and the horizontal axis as a boundary. And the type of polymorphic data to which the cluster belongs is determined.

以上説明したクラスタリング方法によれば、クラスタの分割を、統計的な値や遺伝統計学的な指標を用いないで行っているため、SNPタイピング結果に関する統計量、遺伝統計学的な指標の信頼性が高めることができる。   According to the clustering method described above, the cluster is divided without using a statistical value or a genetic statistical index. Therefore, the statistic regarding the SNP typing result and the reliability of the genetic statistical index are determined. Can be increased.

以上説明した本発明の一実施の形態によれば、複数の多次元数値データの各々をより低次元の数値データに変換し、変換後の数値データの各々に対応したデータ存在確率を与える複数の確率密度関数を生成し、それら複数の確率密度関数の線形和をとることによって複数の多次元数値データの信頼性を数値的に定める信頼性分布関数を生成し、この信頼性分布関数に基づいて複数の多次元数値データのクラスタ分割を行うため、数値データの特性に左右されない処理を実現することができる。したがって、サンプルの選び方によらず、そのサンプルに関連した数値データのクラスタリングを適確に行うことが可能となる。   According to the embodiment of the present invention described above, each of a plurality of multidimensional numerical data is converted into lower-dimensional numerical data, and a plurality of data existence probabilities corresponding to each of the converted numerical data are provided. Generate a probability density function, and generate a reliability distribution function that numerically defines the reliability of multiple multi-dimensional numerical data by taking the linear sum of the plurality of probability density functions. Based on this reliability distribution function Since a plurality of multidimensional numerical data are divided into clusters, processing independent of the characteristics of the numerical data can be realized. Therefore, it is possible to accurately perform clustering of numerical data related to the sample regardless of how the sample is selected.

また、本実施の形態によれば、信頼性分布関数に基づいたクラスタ分割を行う際、信頼性分布関数の極小値およびこの極小値を特徴付ける極小値特徴量(谷の幅や深さ)を算出し、この算出した極小値特徴量を用いて定義される評価関数を用いたクラスタ分割位置の設定を行うため、所定の条件を満足しない位置でクラスタ分割を行ってしまうことがない。したがって、分割すべきクラスタの数が通常のデータ集合より少ないデータ集合に対して、余分なクラスリングを行わないで済む。   In addition, according to the present embodiment, when performing cluster division based on the reliability distribution function, the minimum value of the reliability distribution function and the minimum value feature amount (valley width and depth) that characterizes the minimum value are calculated. Since the cluster division position is set using the evaluation function defined using the calculated minimum value feature amount, the cluster division is not performed at a position that does not satisfy the predetermined condition. Therefore, it is not necessary to perform extra class ring for a data set in which the number of clusters to be divided is smaller than a normal data set.

なお、上述した一実施の形態では、多次元数値データとしてSNPのアリルの検出データを用いたが、本発明は、それ以外にも、多次元の数値データを分画(または分類)する方法において、多数の数値データのばらつきが多いような生物学的な測定に対しても有効に適用することができる。   In the above-described embodiment, the SNP allele detection data is used as the multidimensional numerical data. However, the present invention is also applicable to a method of fractionating (or classifying) multidimensional numerical data. In addition, the present invention can be effectively applied to biological measurements in which a large number of numerical data varies.

また、上述した一実施の形態では、マイクロアレイ上に固相化ないし不動化された各種サンプルからの蛍光シグナルに基づき解析を行っているが、本発明は、マイクロアレイ以外のビーズやアフィニティカラム等の固相検定(Solid Phase Assay)に対して広く適用可能である。   In the above-described embodiment, analysis is performed based on fluorescence signals from various samples immobilized or immobilized on the microarray. However, the present invention is not limited to beads other than the microarray or affinity columns. Widely applicable to Solid Phase Assays.

また、本発明において、固相検定に拠らない方法として、蛍光等の光学的標識を識別用タグとして用いずに、分子量を異ならせただけの質量分析用タグを用いるMAS(Magic Angle Spinning)等の分類方法を適用してもよい。   Further, in the present invention, as a method not based on the solid phase assay, MAS (Magic Angle Spinning) using a mass spectrometry tag having a different molecular weight without using an optical label such as fluorescence as an identification tag. Such a classification method may be applied.

また、本発明では、光学的標識として、蛍光以外にも、発光(化学発光や生物発光)、吸光(比色や濁度)、散乱光、偏光に関連する標識を適用してもよい。さらに、対象によっては、放射線、磁気、原子間力、電子線、電磁超音波(EMAT)等の電磁エネルギーを標識としてもよい。   In the present invention, in addition to fluorescence, a label related to light emission (chemiluminescence or bioluminescence), light absorption (colorimetric or turbidity), scattered light, or polarization may be applied as an optical label. Furthermore, depending on the object, electromagnetic energy such as radiation, magnetism, atomic force, electron beam, electromagnetic ultrasonic wave (EMAT), or the like may be used as a label.

また、本発明は、各種血球や体細胞のような形状パラメータを光学的ないし電磁学的にイメージングして、画像解析による数値化を行うようなセルベースアッセイにも適している。   The present invention is also suitable for cell-based assays in which shape parameters such as various blood cells and somatic cells are optically or electromagnetically imaged and digitized by image analysis.

また、本発明に係るクラスタリング方法では、データ変換ステップにおいて、一般に多次元数値データをそれよりも低い次元の数値データ変換することができる。   In the clustering method according to the present invention, multidimensional numerical data can generally be converted into numerical data of a lower dimension in the data conversion step.

なお、本発明に係るクラスタリング装置は、インターネット、イントラネット、固定電話網、携帯電話網、専用回線網等の適当な組み合わせによって構成される通信ネットワークを介して測定装置と通信接続した構成としてもよい。   Note that the clustering apparatus according to the present invention may be configured to be connected to the measurement apparatus through a communication network configured by an appropriate combination of the Internet, an intranet, a fixed telephone network, a mobile phone network, a leased line network, and the like.

また、本発明に係るクラスタリングプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、DVD−ROM、フラッシュメモリ、MOディスク等のコンピュータ読み取り可能な記録媒体に記録して広く流通させることも可能である。   Further, the clustering program according to the present invention can be recorded on a computer-readable recording medium such as a hard disk, a flexible disk, a CD-ROM, a DVD-ROM, a flash memory, or an MO disk and widely distributed.

このように、本発明は、ここでは記載していない様々な実施の形態等を含みうるものであり、特許請求の範囲により特定される技術的思想を逸脱しない範囲内において種々の設計変更等を施すことが可能である。   Thus, the present invention can include various embodiments and the like not described herein, and various design changes and the like can be made without departing from the technical idea specified by the claims. It is possible to apply.

本発明に係るクラスタリング方法、プログラムおよび装置は、同一または異なる生体由来のサンプルに特有の多様な現象や特性等を解析するのに適しており、特に遺伝子多型解析に適している。   The clustering method, program and apparatus according to the present invention are suitable for analyzing various phenomena and characteristics peculiar to samples derived from the same or different organisms, and particularly suitable for gene polymorphism analysis.

Claims (9)

複数の多次元数値データを記憶する記憶手段を備えたコンピュータが、前記複数の多次元数値データを一または複数のクラスタに分割するクラスタリング方法であって、
前記複数の多次元数値データを前記記憶手段から読み出し、この読み出した前記複数の多次元数値データの各々をより低次元の数値データに変換するデータ変換ステップと、
前記データ変換ステップで変換した数値データの各々に対応したデータ存在確率を与える複数の確率密度関数を生成する確率密度関数生成ステップと、
前記確率密度関数生成ステップで生成した複数の確率密度関数の線形和をとることによって前記複数の多次元数値データの信頼性を数値的に定める信頼性分布関数を生成する信頼性分布関数生成ステップと、
前記信頼性分布関数生成ステップで生成した信頼性分布関数に基づいて前記複数の多次元数値データのクラスタ分割を行うクラスタ分割ステップと、
を有することを特徴とするクラスタリング方法。
A computer comprising storage means for storing a plurality of multidimensional numerical data is a clustering method for dividing the plurality of multidimensional numerical data into one or a plurality of clusters,
A data conversion step of reading the plurality of multidimensional numerical data from the storage means, and converting each of the read multidimensional numerical data into lower dimensional numerical data;
Probability density function generation step for generating a plurality of probability density functions giving data existence probabilities corresponding to each of the numerical data converted in the data conversion step;
A reliability distribution function generation step for generating a reliability distribution function that numerically defines the reliability of the plurality of multidimensional numerical data by taking a linear sum of the plurality of probability density functions generated in the probability density function generation step; ,
A cluster division step of performing cluster division of the plurality of multidimensional numerical data based on the reliability distribution function generated in the reliability distribution function generation step;
A clustering method characterized by comprising:
前記データ変換ステップは、
前記多次元数値データの異なる成分の比の値を用いることにより、前記複数の多次元数値データの各々を、次元が1次元低い数値データに変換することを特徴とする請求項1記載のクラスタリング方法。
The data conversion step includes
The clustering method according to claim 1, wherein each of the plurality of multidimensional numerical data is converted into numerical data whose dimension is one dimension lower by using a ratio value of different components of the multidimensional numerical data. .
前記多次元数値データの次元数は2であり、
前記データ変換ステップで変換した後の1次元数値データの和は1であること
を特徴とする請求項1または2記載のクラスタリング方法。
The number of dimensions of the multidimensional numerical data is 2,
The clustering method according to claim 1 or 2, wherein the sum of the one-dimensional numerical data after conversion in the data conversion step is 1.
前記確率密度関数生成ステップで生成する確率密度関数はガウス関数であり、
前記ガウス関数の平均は、着目している2次元数値データの各次元の比によって定められ、
前記ガウス関数の分散は、複数の2次元数値データの分布を与える2次元平面上において、着目している2次元数値データと当該2次元数値データから所定の範囲にある2次元数値データとの距離を用いて定められること
を特徴とする請求項3記載のクラスタリング方法。
The probability density function generated in the probability density function generating step is a Gaussian function,
The average of the Gaussian function is determined by the ratio of each dimension of the two-dimensional numerical data of interest,
The variance of the Gaussian function is the distance between the focused two-dimensional numerical data and the two-dimensional numerical data within a predetermined range from the two-dimensional numerical data on a two-dimensional plane that gives a distribution of a plurality of two-dimensional numerical data. The clustering method according to claim 3, wherein the clustering method is defined using
前記2次元数値データは一塩基遺伝子多型のアリルの検出データであり、
前記データ変換ステップで変換したデータはアリルの濃度であること
を特徴とする請求項3または4記載のクラスタリング方法。
The two-dimensional numerical data is detection data for an allele of a single nucleotide polymorphism,
The clustering method according to claim 3 or 4, wherein the data converted in the data conversion step is an allyl concentration.
前記クラスタ分割ステップは、
前記信頼性分布関数を、前記データ変換ステップで変換した後の数値データに関して微分する信頼性分布関数微分ステップと、
前記信頼性分布関数微分ステップで微分した値から前記信頼性分布関数の極小値を算出する極小値算出ステップと、
前記極小値算出ステップで算出した極小値を特徴付ける極小値特徴量を算出する極小値特徴量算出ステップと、
前記極小値特徴量算出ステップで算出した極小値特徴量を用いて前記多次元数値データが分布する空間におけるクラスタ分割位置を設定するクラスタ分割位置設定ステップと、
を含むことを特徴とする請求項1〜5のいずれか一項記載のクラスタリング方法。
The cluster dividing step includes:
A reliability distribution function differentiation step for differentiating the reliability distribution function with respect to the numerical data after being converted in the data conversion step;
A minimum value calculating step for calculating a minimum value of the reliability distribution function from the value differentiated in the reliability distribution function differentiation step;
A minimum value feature quantity calculating step for calculating a minimum value feature quantity characterizing the minimum value calculated in the minimum value calculation step;
A cluster division position setting step for setting a cluster division position in a space in which the multidimensional numerical data is distributed using the minimum value feature quantity calculated in the minimum value feature quantity calculation step;
The clustering method according to claim 1, wherein the clustering method includes:
前記クラスタ分割ステップにおけるクラスタ分割結果を出力するクラスタ分割結果出力ステップをさらに有することを特徴とする請求項1〜6のいずれか一項記載のクラスタリング方法。   The clustering method according to claim 1, further comprising a cluster division result output step for outputting a cluster division result in the cluster division step. 請求項1〜7のいずれか一項記載のクラスタリング方法を前記コンピュータに実行させることを特徴とするクラスタリングプログラム。   A clustering program that causes the computer to execute the clustering method according to claim 1. 複数の多次元数値データを一または複数のクラスタに分割するクラスタリング装置であって、
前記複数の多次元数値データを記憶する記憶手段と、
前記複数の多次元数値データを前記記憶手段から読み出し、この読み出した前記複数の多次元数値データの各々をより低次元の数値データに変換するデータ変換手段と、
前記データ変換手段で変換した数値データの各々に対応したデータ存在確率を与える複数の確率密度関数を生成し、この生成した複数の確率密度関数の線形和をとることによって前記複数の多次元数値データの信頼性を数値的に定める信頼性分布関数を生成する関数生成手段と、
前記関数生成手段で生成した信頼性分布関数に基づいて前記複数の多次元数値データのクラスタ分割を行うクラスタ分割手段と、
を備えたことを特徴とするクラスタリング装置。
A clustering device that divides a plurality of multidimensional numerical data into one or a plurality of clusters,
Storage means for storing the plurality of multidimensional numerical data;
Data conversion means for reading the plurality of multidimensional numerical data from the storage means, and converting each of the read multidimensional numerical data into lower-dimensional numerical data;
A plurality of probability density functions that give data existence probabilities corresponding to each of the numerical data converted by the data converting means are generated, and the plurality of multidimensional numerical data are obtained by taking a linear sum of the generated probability density functions. Function generating means for generating a reliability distribution function that numerically defines the reliability of
Cluster dividing means for performing cluster division of the plurality of multidimensional numerical data based on the reliability distribution function generated by the function generating means;
A clustering apparatus characterized by comprising:
JP2009525454A 2007-08-01 2008-07-31 Clustering method, program and apparatus Active JP5242568B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009525454A JP5242568B2 (en) 2007-08-01 2008-07-31 Clustering method, program and apparatus

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007201209 2007-08-01
JP2007201209 2007-08-01
PCT/JP2008/063799 WO2009017204A1 (en) 2007-08-01 2008-07-31 Clustering method, program, and device
JP2009525454A JP5242568B2 (en) 2007-08-01 2008-07-31 Clustering method, program and apparatus

Publications (2)

Publication Number Publication Date
JPWO2009017204A1 JPWO2009017204A1 (en) 2010-10-21
JP5242568B2 true JP5242568B2 (en) 2013-07-24

Family

ID=40304432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009525454A Active JP5242568B2 (en) 2007-08-01 2008-07-31 Clustering method, program and apparatus

Country Status (2)

Country Link
JP (1) JP5242568B2 (en)
WO (1) WO2009017204A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6280657B2 (en) 2014-10-30 2018-02-14 株式会社東芝 Genotype estimation apparatus, method, and program

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0793159A (en) * 1993-09-21 1995-04-07 Hitachi Ltd Rule generator and method for the same
JP2003256443A (en) * 2002-03-05 2003-09-12 Fuji Xerox Co Ltd Data classification device
JP2004078371A (en) * 2002-08-13 2004-03-11 Ntt Data Corp Data processor, data processing method and computer program
JP2005531853A (en) * 2002-06-28 2005-10-20 アプレラ コーポレイション System and method for SNP genotype clustering
JP2005301789A (en) * 2004-04-14 2005-10-27 Nara Institute Of Science & Technology Cluster analysis device, cluster analysis method and cluster analysis program
JP2006163521A (en) * 2004-12-02 2006-06-22 Research Organization Of Information & Systems Time-series data analysis device, and time-series data analysis program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0793159A (en) * 1993-09-21 1995-04-07 Hitachi Ltd Rule generator and method for the same
JP2003256443A (en) * 2002-03-05 2003-09-12 Fuji Xerox Co Ltd Data classification device
JP2005531853A (en) * 2002-06-28 2005-10-20 アプレラ コーポレイション System and method for SNP genotype clustering
JP2004078371A (en) * 2002-08-13 2004-03-11 Ntt Data Corp Data processor, data processing method and computer program
JP2005301789A (en) * 2004-04-14 2005-10-27 Nara Institute Of Science & Technology Cluster analysis device, cluster analysis method and cluster analysis program
JP2006163521A (en) * 2004-12-02 2006-06-22 Research Organization Of Information & Systems Time-series data analysis device, and time-series data analysis program

Also Published As

Publication number Publication date
JPWO2009017204A1 (en) 2010-10-21
WO2009017204A1 (en) 2009-02-05

Similar Documents

Publication Publication Date Title
US20200302297A1 (en) Artificial Intelligence-Based Base Calling
JP2022526470A (en) Artificial intelligence-based base call
CN110832510A (en) Variant classifier based on deep learning
EP1774323B1 (en) Automated analysis of multiplexed probe-traget interaction patterns: pattern matching and allele identification
US20140220558A1 (en) Methods and Systems for Nucleic Acid Sequence Analysis
US20120015825A1 (en) Analytical systems and methods with software mask
JP2015132615A (en) Apparatus and method for detecting and discriminating molecular object
US11423306B2 (en) Systems and devices for characterization and performance analysis of pixel-based sequencing
US20190114464A1 (en) Method of curvilinear signal detection and analysis and associated platform
US20030143554A1 (en) Method of genotyping by determination of allele copy number
CN101163958B (en) Biological information processing unit and method
US20190073444A1 (en) Method for analyzing a sequence of target regions and detect anomalies
Webb et al. SNPLINK: multipoint linkage analysis of densely distributed SNP data incorporating automated linkage disequilibrium removal
US20180315187A1 (en) Methods and systems for background subtraction in an image
JP5242568B2 (en) Clustering method, program and apparatus
Caputo et al. D4Z4 methylation levels combined with a machine learning pipeline highlight single CpG sites as discriminating biomarkers for FSHD patients
Castleman et al. Classification accuracy in multiple color fluorescence imaging microscopy
Mir Ultrasensitive RNA profiling: counting single molecules on microarrays
KR20140132343A (en) Determination method, determination device, determination system, and program
Kaiser et al. Automated structural variant verification in human genomes using single-molecule electronic DNA mapping
US20030156136A1 (en) Method and system for visualization of results of feature extraction from molecular array data
JP2007017282A (en) Biological data processor, biological data processing method, learning device, learning control method, program and recording medium
JPH09507027A (en) Automatic genotyping
Karim et al. A review of image analysis techniques for gene spot identification in cDNA Microarray images
JP2006300797A (en) Biological data processor, biological data measuring method, program, recording medium and substrate

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110623

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130403

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250