JP5242568B2 - Clustering method, program and apparatus - Google Patents
Clustering method, program and apparatus Download PDFInfo
- Publication number
- JP5242568B2 JP5242568B2 JP2009525454A JP2009525454A JP5242568B2 JP 5242568 B2 JP5242568 B2 JP 5242568B2 JP 2009525454 A JP2009525454 A JP 2009525454A JP 2009525454 A JP2009525454 A JP 2009525454A JP 5242568 B2 JP5242568 B2 JP 5242568B2
- Authority
- JP
- Japan
- Prior art keywords
- numerical data
- data
- function
- clustering method
- multidimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Description
本発明は、複数のデータをクラスタリングするクラスタリング方法、プログラムおよび装置に関する。 The present invention relates to a clustering method, program, and apparatus for clustering a plurality of data.
同一または異なる生体由来のサンプルに特有の多様な現象や特性等を解析することは、生物学的ないし医学的に重要な評価を可能にする。例えば、遺伝子多型解析では、サンプルの濃度や阻害物質の有無などに応じて多型識別反応の進行の速さがサンプルごとに異なる。このため、遺伝子多型解析では、広い分布を持った数値データ(多型データ)が得られる。 Analyzing various phenomena and characteristics peculiar to samples derived from the same or different living bodies enables biologically and medically important evaluations. For example, in gene polymorphism analysis, the speed of the polymorphism discrimination reaction varies from sample to sample depending on the concentration of the sample and the presence or absence of an inhibitor. For this reason, in the gene polymorphism analysis, numerical data (polymorphism data) having a wide distribution is obtained.
得られた数値データを識別する際には、オペレータが数値データの散布図を目視することによってクラスタリングを行うことがある。しかしながら、オペレータが数値データを識別する場合、オペレータによって識別結果が異なってしまうことがあった。 When the obtained numerical data is identified, the operator may perform clustering by visually observing a scatter diagram of the numerical data. However, when an operator identifies numerical data, the identification result may differ depending on the operator.
このような状況の下、従来より、数値データの識別を自動的に行う様々な試みがなされている。例えば、下記特許文献1では、遺伝子多型解析において、サンプルからのシグナルに対して統計学的な手法を用いる技術が開示されている。ところが、この技術では、数百サンプル中に数サンプルしか存在しないような頻度の少ない遺伝子多型に対応する数値データは統計的に意味をなさないため、そのような数値データの取り扱いが困難であるという問題があった。
Under such circumstances, various attempts have been made to automatically identify numerical data. For example,
そこで、遺伝子多型解析において、統計学的な手法に遺伝統計学的な手法を組み入れる技術も開示されている(例えば、特許文献2を参照)。この技術では、遺伝子多型解析で得られた数値データの信頼性を、ハーディー・ワインバーグ平衡を利用して遺伝統計学的に評価している。 Therefore, a technique of incorporating a genetic statistical technique into a statistical technique in gene polymorphism analysis has also been disclosed (see, for example, Patent Document 2). In this technique, the reliability of numerical data obtained by genetic polymorphism analysis is genetically evaluated using the Hardy-Weinberg equilibrium.
しかしながら、遺伝統計学的な手法を取り入れた遺伝子多型解析を行う場合には、ランダムにサンプリングを行う必要がある。このため、家系サンプルや患者サンプルなど偏ったサンプリングによって得られたデータは、遺伝統計学的な解析には不適である。また、統計学的な手法を用いる場合には、多型頻度が少ない場合に信頼できる統計量が得られず、判定を誤ってしまうことがあった。 However, when performing genetic polymorphism analysis incorporating a genetic statistical method, it is necessary to perform random sampling. For this reason, data obtained by biased sampling such as family samples and patient samples are not suitable for genetic statistical analysis. In addition, when a statistical method is used, a reliable statistic is not obtained when the polymorphism frequency is low, and the determination may be wrong.
本発明は、上記に鑑みてなされたものであって、サンプルの選び方によらず、そのサンプルに関連した数値データのクラスタリングを適確に行うことができるクラスタリング方法、プログラムおよび装置を提供することを目的とする。 The present invention has been made in view of the above, and provides a clustering method, a program, and an apparatus capable of accurately performing numerical data clustering related to a sample regardless of how the sample is selected. Objective.
上述した課題を解決し、目的を達成するために、本発明に係るクラスタリング方法は、複数の多次元数値データを記憶する記憶手段を備えたコンピュータが、前記複数の多次元数値データを一または複数のクラスタに分割するクラスタリング方法であって、前記複数の多次元数値データを前記記憶手段から読み出し、この読み出した前記複数の多次元数値データの各々をより低次元の数値データに変換するデータ変換ステップと、前記データ変換ステップで変換した数値データの各々に対応したデータ存在確率を与える複数の確率密度関数を生成する確率密度関数生成ステップと、前記確率密度関数生成ステップで生成した複数の確率密度関数の線形和をとることによって前記複数の多次元数値データの信頼性を数値的に定める信頼性分布関数を生成する信頼性分布関数生成ステップと、前記信頼性分布関数生成ステップで生成した信頼性分布関数に基づいて前記複数の多次元数値データのクラスタ分割を行うクラスタ分割ステップと、を有することを特徴とする。 In order to solve the above-described problems and achieve the object, the clustering method according to the present invention is such that a computer provided with storage means for storing a plurality of multidimensional numerical data stores one or more of the plurality of multidimensional numerical data. A data conversion step of reading the plurality of multidimensional numerical data from the storage means and converting each of the read multidimensional numerical data into lower dimensional numerical data A probability density function generating step for generating a plurality of probability density functions that give data existence probabilities corresponding to each of the numerical data converted in the data conversion step, and a plurality of probability density functions generated in the probability density function generating step A reliability distribution function that numerically determines the reliability of the plurality of multidimensional numerical data by taking a linear sum of A reliability distribution function generation step for generating a multi-dimensional numerical data cluster based on the reliability distribution function generated in the reliability distribution function generation step And
また、本発明に係るクラスタリング方法は、上記発明において、前記データ変換ステップは、前記多次元数値データの異なる成分の比の値を用いることにより、前記複数の多次元数値データの各々を、次元が1次元低い数値データに変換することを特徴とする。 Further, in the clustering method according to the present invention, in the above invention, the data conversion step uses a ratio value of different components of the multidimensional numerical data, so that each of the plurality of multidimensional numerical data has a dimension. It is characterized by being converted into numerical data one dimension lower.
また、本発明に係るクラスタリング方法は、上記発明において、前記多次元数値データの次元数は2であり、前記データ変換ステップで変換した後の1次元数値データの和は1であることを特徴とする。 The clustering method according to the present invention is characterized in that, in the above invention, the number of dimensions of the multi-dimensional numerical data is 2, and the sum of the one-dimensional numerical data after the conversion in the data conversion step is 1. To do.
また、本発明に係るクラスタリング方法は、上記発明において、前記確率密度関数生成ステップで生成する確率密度関数はガウス関数であり、前記ガウス関数の平均は、着目している2次元数値データの各次元の比によって定められ、前記ガウス関数の分散は、複数の2次元数値データの分布を与える2次元平面上において、着目している2次元数値データと当該2次元数値データから所定の範囲にある2次元数値データとの距離を用いて定められることを特徴とする。 In the clustering method according to the present invention, in the above invention, the probability density function generated in the probability density function generation step is a Gaussian function, and the average of the Gaussian function is calculated for each dimension of the two-dimensional numerical data of interest. The variance of the Gaussian function is 2 in a predetermined range from the two-dimensional numerical data of interest and the two-dimensional numerical data on a two-dimensional plane that gives a distribution of a plurality of two-dimensional numerical data. It is characterized by being determined using a distance from the dimension numerical data.
また、本発明に係るクラスタリング方法は、上記発明において、前記2次元数値データは一塩基遺伝子多型のアリルの検出データであり、前記データ変換ステップで変換したデータはアリルの濃度であることを特徴とする。 The clustering method according to the present invention is characterized in that, in the above invention, the two-dimensional numerical data is detection data of an allele of a single nucleotide polymorphism, and the data converted in the data conversion step is an allyl concentration. And
また、本発明に係るクラスタリング方法は、上記発明において、前記クラスタ分割ステップは、前記信頼性分布関数を、前記データ変換ステップで変換した後の数値データに関して微分する信頼性分布関数微分ステップと、前記信頼性分布関数微分ステップで微分した値から前記信頼性分布関数の極小値を算出する極小値算出ステップと、前記極小値算出ステップで算出した極小値を特徴付ける極小値特徴量を算出する極小値特徴量算出ステップと、前記極小値特徴量算出ステップで算出した極小値特徴量を用いて前記多次元数値データが分布する空間におけるクラスタ分割位置を設定するクラスタ分割位置設定ステップと、を含むことを特徴とする。 Further, in the clustering method according to the present invention, in the above invention, the cluster dividing step includes a reliability distribution function differentiation step for differentiating the reliability distribution function with respect to numerical data after being converted in the data conversion step, A minimum value calculation step for calculating a minimum value of the reliability distribution function from a value differentiated in the reliability distribution function differentiation step, and a minimum value feature for calculating a minimum value feature characterizing the minimum value calculated in the minimum value calculation step A quantity calculation step, and a cluster division position setting step for setting a cluster division position in a space in which the multidimensional numerical data is distributed using the minimum value feature quantity calculated in the minimum value feature quantity calculation step. And
また、本発明に係るクラスタリング方法は、上記発明において、前記クラスタ分割ステップにおけるクラスタ分割結果を出力するクラスタ分割結果出力ステップをさらに有することを特徴とする。 Further, the clustering method according to the present invention is characterized in that, in the above invention, the method further includes a cluster division result output step for outputting a cluster division result in the cluster division step.
本発明に係るクラスタリングプログラムは、上記いずれかの発明に係るクラスタリング方法を前記コンピュータに実行させることを特徴とする。 A clustering program according to the present invention causes the computer to execute a clustering method according to any one of the above inventions.
本発明に係るクラスタリング装置は、複数の多次元数値データを一または複数のクラスタに分割するクラスタリング装置であって、前記複数の多次元数値データを記憶する記憶手段と、前記複数の多次元数値データを前記記憶手段から読み出し、この読み出した前記複数の多次元数値データの各々をより低次元の数値データに変換するデータ変換手段と、前記データ変換手段で変換した数値データの各々に対応したデータ存在確率を与える複数の確率密度関数を生成し、この生成した複数の確率密度関数の線形和をとることによって前記複数の多次元数値データの信頼性を数値的に定める信頼性分布関数を生成する関数生成手段と、前記関数生成手段で生成した信頼性分布関数に基づいて前記複数の多次元数値データのクラスタ分割を行うクラスタ分割手段と、を備えたことを特徴とする。 A clustering apparatus according to the present invention is a clustering apparatus that divides a plurality of multidimensional numerical data into one or a plurality of clusters, and a storage unit that stores the plurality of multidimensional numerical data; and the plurality of multidimensional numerical data Data conversion means for converting each of the read multi-dimensional numerical data into lower-dimensional numerical data, and data corresponding to each of the numerical data converted by the data conversion means A function that generates a plurality of probability density functions that give probabilities and generates a reliability distribution function that numerically defines the reliability of the plurality of multidimensional numerical data by taking a linear sum of the generated plurality of probability density functions And a clustering unit that performs cluster division of the plurality of multidimensional numerical data based on a reliability distribution function generated by the generation unit and the function generation unit. Characterized by comprising a static splitting means.
本発明によれば、複数の多次元数値データの各々をより低次元の数値データに変換し、変換後の数値データの各々に対応したデータ存在確率を与える複数の確率密度関数を生成し、それら複数の確率密度関数の線形和をとることによって複数の多次元数値データの信頼性を数値的に定める信頼性分布関数を生成し、この信頼性分布関数に基づいて複数の多次元数値データのクラスタ分割を行うことにより、数値データの特性に左右されない処理を実現することができる。したがって、サンプルの選び方によらず、そのサンプルに関連した数値データのクラスタリングを適確に行うことが可能となる。 According to the present invention, each of a plurality of multidimensional numerical data is converted into lower dimensional numerical data, and a plurality of probability density functions that give data existence probabilities corresponding to each of the converted numerical data are generated, Generate a reliability distribution function that numerically defines the reliability of multiple multidimensional numerical data by taking the linear sum of multiple probability density functions, and then cluster multiple multidimensional numerical data based on this reliability distribution function By performing the division, it is possible to realize processing independent of the characteristics of the numerical data. Therefore, it is possible to accurately perform clustering of numerical data related to the sample regardless of how the sample is selected.
1 クラスタリング装置
2、141 送受信部
3 入力部
4、104 制御部
5 記憶部
6 出力部
41 データ変換部
42 関数生成部
43 クラスタ分割部
51 測定データ記憶部
52 変換データ記憶部
53 関数記憶部
54 クラスタ分割結果記憶部
101 測定装置
102 マイクロアレイ
103 蛍光検出器
M1、M2 山
V 谷DESCRIPTION OF
以下、添付図面を参照して本発明を実施するための最良の形態(以後、「実施の形態」と称する)を説明する。図1は、本発明の一実施の形態に係るクラスタリング装置の構成を示す図である。同図に示すクラスタリング装置1は、測定装置101から送信されてくる複数の測定データ(数値データ)をクラスタリングする装置であり、コンピュータを用いて実現される。
The best mode for carrying out the present invention (hereinafter referred to as “embodiment”) will be described below with reference to the accompanying drawings. FIG. 1 is a diagram showing a configuration of a clustering apparatus according to an embodiment of the present invention. The
クラスタリング装置1は、測定装置101との間でデータの送受信を行う送受信部2と、キーボードやマウスなどによって実現され、外部から情報が入力される入力部3と、測定データのクラスタリングに関する各種演算を行うとともに、クラスタリング装置1の動作制御を行う制御部4と、測定データや制御部4における演算結果を含む情報を記憶する記憶部5と、制御部4における演算によって得られる測定データのクラスタリング結果を含む情報を出力する出力部6と、を備える。
The
制御部4は、測定装置101から入力された測定データに所定の変換を施すデータ変換部41と、データ変換部41が変換したデータを用いて所定の関数を生成する関数生成部42と、関数生成部42が生成した関数を用いて測定データをクラスタ分割するクラスタ分割部43と、を有する。制御部4は、演算機能および制御機能を有するCPU(Central Processing Unit)などを用いて実現される。なお、データ変換部41は、データ変換手段の少なくとも一部を構成する。また、関数生成部42は関数生成手段の少なくとも一部を構成し、クラスタ分割部43はクラスタ分割手段の少なくとも一部を構成する。
The
記憶部5は、測定データを記憶する測定データ記憶部51と、測定データを変換したデータを記憶する変換データ記憶部52と、変換したデータを用いて生成した関数を記憶する関数記憶部53と、測定データに対するクラスタ分割結果を記憶するクラスタ分割結果記憶部54と、を有する。このような記憶部5は、本実施の形態に係るクラスタリングプログラムや所定のOSを起動するプログラムなどを予め記憶するROM(Read Only Memory)、制御部4が演算を行う際に使用する情報を一時的に記憶するRAM(Random Access Memory)などを用いて実現され、記憶手段の少なくとも一部を構成する。また、記憶部5として、ハードディスクなどの外部記憶装置を具備してもよい。
The
出力部6は、制御部4からの制御信号に基づいて画像を生成し、この生成した画像を表示する機能を有しており、液晶、プラズマ、有機EL等のディスプレイを用いて実現される。
The output unit 6 has a function of generating an image based on a control signal from the
図2は、測定装置101の概略構成を示す模式図である。測定装置101は、遺伝子の一塩基遺伝子多型(SNP:Single Nucleotide Polymorphism)を検出するSNPタイピングを行う装置であり、基盤上に複数のスポットSPが形成されたマイクロアレイ102と、マイクロアレイ102の各スポットSPに対し、励起光としてのレーザ光を照射するレーザ光源を有するとともに、この照射したレーザ光によって発生する蛍光の強度を検出する光電子増倍管を有する蛍光検出器103と、蛍光検出器103の動作を制御する制御部104と、を備える。
FIG. 2 is a schematic diagram illustrating a schematic configuration of the
制御部104は、クラスタリング装置1との間で測定データを含む情報の送受信を行う送受信部141を有する。
The control unit 104 includes a transmission / reception unit 141 that transmits / receives information including measurement data to / from the
マイクロアレイ102のスポットSPには、あるサンプルの特定のSNPに対応する遺伝子と相補的な配列を有する遺伝子(プローブ)が点着されている。このようなプローブの中には、測定データの基準となる内部コントロール用のプローブが含まれており、所定のスポットSPに点着されている。以後、この内部コントロール用のプローブを「ハイブリコントロール」という。また、ハイブリコントロール以外のプローブが配置されているスポットSPについては、SNPをmでラベルするとともにサンプルをnでラベルすることによってSPmnと記載する(ここで、m,nは自然数)。
A gene (probe) having a sequence complementary to a gene corresponding to a specific SNP of a sample is spotted on the spot SP of the
測定装置101でSNPタイピングを行う際には、あるサンプル(n)から生成したアリル(対立遺伝子)のcDNAを蛍光色素Cy3(図2で白丸(○)表示)、Cy5(図2で黒丸(●)表示)でそれぞれ標識した標識DNA(タグ)を、マイクロアレイ102の各スポットSPmnに点着したプローブとハイブリダイゼーションさせる。その後、蛍光検出器103は、ハイブリダイゼーションによって発生した蛍光の強度(シグナル輝度)を検出する。蛍光検出器103が一方の蛍光色素に対応する蛍光シグナルを検出した場合、そのSNPのアリルはホモ接合性を有する(図2の○○や●●)。これに対し、蛍光検出器103が2つの蛍光色素にそれぞれ対応する蛍光シグナルを検出した場合、そのSNPのアリルはヘテロ接合性を有する(図2で●○)。
When SNP typing is performed by the measuring
制御部104は、蛍光検出器103が検出したスポットSPから発生する蛍光を用いることにより、測定データとしての2次元数値データである蛍光色素Cy3、Cy5にそれぞれ対応したシグナル輝度を算出し、この算出したシグナル輝度を、送受信部141を介してクラスタリング装置1へ送信する。
The control unit 104 uses the fluorescence generated from the spot SP detected by the fluorescence detector 103 to calculate the signal luminances corresponding to the fluorescent dyes Cy3 and Cy5, which are two-dimensional numerical data as measurement data, and this calculation The signal luminance thus transmitted is transmitted to the
なお、測定装置101が行うSNPタイピング法の詳細は、以下の文献に記載された方法と本質的に同じである。N. Nishida, T. Tanabe, K. Hashido, K. Hirayasu, M. Takasu, A. Suyama, K. Tokunaga, "DigiTag assay for multipulex single nucleotide polymorphism typing with high success rate", Anal Biochem. 346 (2005) 281-288; N. Nishida, T. Tanabe, M. Takasu, A. Suyama, K. Tokunaga, "Further development of multipulex single nucleotide polymorphism typing method, the DigiTag2 assay", Anal Biochem. 364 (2007) 78-85.
Note that the details of the SNP typing method performed by the measuring
図3は、本実施の形態に係るクラスタリング方法の処理の概要を示すフローチャートである。本実施の形態では、クラスタリングを行う際の測定データの信頼性に関して、以下の2点(1−1)、(1−2)を仮定する。
(1−1)シグナル輝度が高い測定データは信頼性が高い。
(1−2)シグナル輝度の測定データの分布を示す図において、別のサンプルの測定データが近傍に分布している測定データは信頼性が高い。FIG. 3 is a flowchart showing an outline of processing of the clustering method according to the present embodiment. In the present embodiment, the following two points (1-1) and (1-2) are assumed regarding the reliability of measurement data when clustering is performed.
(1-1) Measurement data with high signal luminance is highly reliable.
(1-2) In the figure showing the distribution of measurement data of signal luminance, measurement data in which measurement data of another sample is distributed in the vicinity has high reliability.
上述した前提のもと、クラスタリング装置1のデータ変換部41は、測定データ記憶部51で記憶する測定データとしての蛍光のシグナル輝度を読み出し、この読み出したシグナル輝度を所定の規則にしたがって変換する(ステップS1)。
Under the above-mentioned assumption, the
一般に、シグナル輝度は、系に投入したサンプルの濃度、マイクロアレイ102に点着しているプローブの濃度、蛍光検出器103が照射するレーザ光の強度、蛍光検出器103が有する光電子増倍管の感度などの影響によってバラツキを有する。そこで、データ変換部41は、前述した測定系の影響を排除するために、ハイブリコントロールのシグナル輝度を基準として、各スポットSPmnのシグナル輝度を、プローブ点着量や標識DNAの濃度に依存しない量に変換する。このデータ変換処理を行うにあたって、以下の3点(2−1)〜(2−3)を仮定する。
(2−1)シグナル輝度は、マイクロアレイ102への標識DNAの点着量に比例する。
(2−2)蛍光色素の発光効率は蛍光色素にのみ依存し、DNA配列には依存しない。
(2−3)蛍光色素Cy3、Cy5でそれぞれ標識されたハイブリコントロールの標識DNAのモル比は1:1である。In general, the signal luminance is the concentration of the sample introduced into the system, the concentration of the probe spotted on the
(2-1) The signal luminance is proportional to the amount of labeled DNA spotted on the
(2-2) The luminous efficiency of the fluorescent dye depends only on the fluorescent dye and does not depend on the DNA sequence.
(2-3) The molar ratio of the hybrid control labeled DNAs labeled with the fluorescent dyes Cy3 and Cy5, respectively, is 1: 1.
以上の仮定(2−1)〜(2−3)に基づいて、マイクロアレイ102から発生する蛍光のシグナル輝度Iは、
ステップS1においてデータ変換部41が行う具体的な演算について、図4に示すフローチャートを参照して説明する。データ変換部41は、蛍光色素Cy3の発光効率dCy3と蛍光色素Cy5の発光効率dCy5との比(発光効率比)dCy3/dCy5を、ハイブリコントロールの蛍光色素ごとのシグナル輝度IHybriContCy3、IHybriContCy5から求める(ステップS11)。蛍光色素ごとのシグナル輝度IHybriContCy3、IHybriContCy5は、式(1)により、
上述した仮定(2−3)より、標識DNA濃度CHybriContED-1、CHybriContED-2は等しい(CHybriContED-1=CHybriContED-2)。したがって、
続いて、データ変換部41は、スポットSPmnのシグナル輝度を、対応する蛍光色素の発光効率比dCy3/dCy5を用いて補正する(ステップS12)。スポットSPmnのシグナル輝度ISNPmSAMPLEnCy3、ISNPmSAMPLEnCy5は、
データ変換部41は、蛍光色素Cy3、Cy5の発光効率dCy3、dCy5を用いることにより、シグナル輝度ISNPmSAMPLEnCy3、ISNPmSAMPLEnCy5を
続いて、データ変換部41は、補正後のシグナル輝度I'SNPmSAMPLEnCy3、I'SNPmSAMPLEnCy5の和を、スポットSPmnのプローブ点着量に比例する係数S'SNPmSAMPLEnとして再定義する(ステップS13)。すなわち、データ変換部41は、スポットSPmnのプローブ点着量に比例する係数を
この後、データ変換部41は、補正後のシグナル輝度I'SNPmSAMPLEnCy3、I'SNPmSAMPLEnCy5と再定義後のプローブ点着量に比例する係数S'SNPmSAMPLEnとを用いて定義される標識DNA濃度CHybriContED-1、CHybriContED-2の補正値を算出し、変換データ記憶部52に書き込んで記憶する(ステップS14)。このステップS14で算出する標識DNA濃度の補正値C'SNPmSAMPLEnCy3、C'SNPmSAMPLEnCy5は、
補正後の標識DNA濃度C'SNPmSAMPLEnCy3、C'SNPmSAMPLEnCy5は、補正前の標識DNA濃度の和によって規格化した値であり、蛍光色素Cy3、Cy5によってそれぞれ標識されたアリルの濃度に対応している。このようにして、データ変換部41は、スポットSPmnにおける二つの測定データISNPmSAMPLEnCy3、ISNPmSAMPLEnCy5を、スポットSPmnのプローブ点着量やサンプルの濃度に依存しない1次元の量に変換する。The corrected labeled DNA concentrations C ′ SNPmSAMPLEnCy3 and C ′ SNPmSAMPLEnCy5 are values normalized by the sum of the labeled DNA concentrations before correction, and correspond to the concentrations of allyl labeled with the fluorescent dyes Cy3 and Cy5, respectively. In this way, the
次に、関数生成部42は、上述したステップS1で1次元上に分布した測定データが真の値として存在するデータ存在確率を与える確率密度関数を生成する(ステップS2)。具体的には、関数生成部42は、1次元に変換後の測定データC'SNPmSAMPLEnCy3、C'SNPmSAMPLEnCy5を変換データ記憶部52から読み出し、各データの測定点を中心とした正規分布を与えるガウス関数
式(12)において、ガウス関数の面積に対応する係数ISNPmSAMPLEnは、
また、式(12)でガウス関数の分散に対応する定数dSNPmSAMPLEnは、シグナル輝度の分布を示す2次元平面(ISNPmSAMPLECy3,ISNPmSAMPLECy5)において、着目しているサンプルから所定の範囲にあるサンプルまでの距離を用いて定められる量(代表距離)であり、
さらに、式(12)のrSNPmSAMPLEnは、蛍光色素ごとの補正後の標識DNAの濃度比C'SNPmSAMPLEnCy3/C'SNPmSAMPLEnCy5である。Further, r SNPmSAMPLEn in the formula (12) is a concentration ratio C ′ SNPmSAMPLEnCy3 / C ′ SNPmSAMPLEnCy5 of the labeled DNA after correction for each fluorescent dye.
この後、関数生成部42は、測定データの信頼性を数値的に定めた信頼性分布関数として、同じSNPに対する全てのサンプルの確率密度関数の和として定義される関数
次に、クラスタ分割部43は、SNPごとに関数記憶部53から読み出した信頼性分布関数GSNPm(x)に基づいて2次元平面上でのクラスタの分割を行う(ステップS4)。以下、図7のフローチャートを参照して、クラスタ分割処理の詳細を説明する。まず、クラスタ分割部43は、信頼性分布関数GSNPm(x)のxに関する数値微分を求める(ステップS41)。Next, the
この後、クラスタ分割部43は、ステップS41の結果を用いて信頼性分布関数GSNPm(x)の極小値を算出する(ステップS42)。Thereafter, the
続いて、クラスタ分割部43は、ステップS42で算出した極小値を特徴付ける極小値特徴量を算出する(ステップS43)。ここでいう極小値特徴量とは、信頼性分布関数GSNPm(x)の極小値を谷底としたときの谷の幅と深さである。図8は、信頼性分布関数GSNPm(x)の谷の幅と深さを模式的に示す図である。同図に示す谷Vの幅wは、谷Vを挟んで隣接する山M1、M2の頂上間の水平距離である。また、谷Vの深さpは、谷Vの谷底(極小値の位置)から見た山M1の高さp1と谷Vの谷底から見た山M2の高さp2との平均値(p1+p2)/2である。Subsequently, the
次に、クラスタ分割部43は、ステップS43で算出した極小値特徴量を用いてクラスタ分割位置を設定する(ステップS44)。具体的には、クラスタ分割部43は、谷Vの幅wおよび深さp、定数bを用いて定義される評価関数
この後、出力部6は、ステップS4におけるクラスタ分割結果を出力する(ステップS5)。図9および図10は、異なるサンプルとSNPとの組み合わせに対するクラスタ分割結果(3つのクラスタCr1〜Cr3に分割)の表示出力例を示す図である。このうち、図9は図5に示す信頼性分布関数GSNPm(x)を用いてクラスタリングした結果を示している。また、図10は図6に示す信頼性分布関数GSNPm(x)を用いてクラスタリングした結果を示している。図9および図10において、分割された3つのクラスタCr1〜Cr3は、互いに異なる多型データに対応している。Thereafter, the output unit 6 outputs the cluster division result in step S4 (step S5). FIGS. 9 and 10 are diagrams showing display output examples of cluster division results (divided into three clusters Cr1 to Cr3) for combinations of different samples and SNPs. 9 shows the result of clustering using the reliability distribution function G SNPm (x) shown in FIG. FIG. 10 shows the result of clustering using the reliability distribution function G SNPm (x) shown in FIG. 9 and 10, the three divided clusters Cr1 to Cr3 correspond to different polymorphic data.
なお、クラスタ分割部43は、評価関数QVが閾値Qthを超えるような谷Vが1つしかない場合、クラスタを2つに分割する。この場合、クラスタ分割部43は、谷Vの位置が2次元平面上で縦軸と横軸の値が等しい直線を境界として、この直線と縦軸とによって挟まれた領域に属するか、その直線と横軸とによって挟まれた領域に属するかを判断し、クラスタが属する多型データの種別を判定する。Note that the
以上説明したクラスタリング方法によれば、クラスタの分割を、統計的な値や遺伝統計学的な指標を用いないで行っているため、SNPタイピング結果に関する統計量、遺伝統計学的な指標の信頼性が高めることができる。 According to the clustering method described above, the cluster is divided without using a statistical value or a genetic statistical index. Therefore, the statistic regarding the SNP typing result and the reliability of the genetic statistical index are determined. Can be increased.
以上説明した本発明の一実施の形態によれば、複数の多次元数値データの各々をより低次元の数値データに変換し、変換後の数値データの各々に対応したデータ存在確率を与える複数の確率密度関数を生成し、それら複数の確率密度関数の線形和をとることによって複数の多次元数値データの信頼性を数値的に定める信頼性分布関数を生成し、この信頼性分布関数に基づいて複数の多次元数値データのクラスタ分割を行うため、数値データの特性に左右されない処理を実現することができる。したがって、サンプルの選び方によらず、そのサンプルに関連した数値データのクラスタリングを適確に行うことが可能となる。 According to the embodiment of the present invention described above, each of a plurality of multidimensional numerical data is converted into lower-dimensional numerical data, and a plurality of data existence probabilities corresponding to each of the converted numerical data are provided. Generate a probability density function, and generate a reliability distribution function that numerically defines the reliability of multiple multi-dimensional numerical data by taking the linear sum of the plurality of probability density functions. Based on this reliability distribution function Since a plurality of multidimensional numerical data are divided into clusters, processing independent of the characteristics of the numerical data can be realized. Therefore, it is possible to accurately perform clustering of numerical data related to the sample regardless of how the sample is selected.
また、本実施の形態によれば、信頼性分布関数に基づいたクラスタ分割を行う際、信頼性分布関数の極小値およびこの極小値を特徴付ける極小値特徴量(谷の幅や深さ)を算出し、この算出した極小値特徴量を用いて定義される評価関数を用いたクラスタ分割位置の設定を行うため、所定の条件を満足しない位置でクラスタ分割を行ってしまうことがない。したがって、分割すべきクラスタの数が通常のデータ集合より少ないデータ集合に対して、余分なクラスリングを行わないで済む。 In addition, according to the present embodiment, when performing cluster division based on the reliability distribution function, the minimum value of the reliability distribution function and the minimum value feature amount (valley width and depth) that characterizes the minimum value are calculated. Since the cluster division position is set using the evaluation function defined using the calculated minimum value feature amount, the cluster division is not performed at a position that does not satisfy the predetermined condition. Therefore, it is not necessary to perform extra class ring for a data set in which the number of clusters to be divided is smaller than a normal data set.
なお、上述した一実施の形態では、多次元数値データとしてSNPのアリルの検出データを用いたが、本発明は、それ以外にも、多次元の数値データを分画(または分類)する方法において、多数の数値データのばらつきが多いような生物学的な測定に対しても有効に適用することができる。 In the above-described embodiment, the SNP allele detection data is used as the multidimensional numerical data. However, the present invention is also applicable to a method of fractionating (or classifying) multidimensional numerical data. In addition, the present invention can be effectively applied to biological measurements in which a large number of numerical data varies.
また、上述した一実施の形態では、マイクロアレイ上に固相化ないし不動化された各種サンプルからの蛍光シグナルに基づき解析を行っているが、本発明は、マイクロアレイ以外のビーズやアフィニティカラム等の固相検定(Solid Phase Assay)に対して広く適用可能である。 In the above-described embodiment, analysis is performed based on fluorescence signals from various samples immobilized or immobilized on the microarray. However, the present invention is not limited to beads other than the microarray or affinity columns. Widely applicable to Solid Phase Assays.
また、本発明において、固相検定に拠らない方法として、蛍光等の光学的標識を識別用タグとして用いずに、分子量を異ならせただけの質量分析用タグを用いるMAS(Magic Angle Spinning)等の分類方法を適用してもよい。 Further, in the present invention, as a method not based on the solid phase assay, MAS (Magic Angle Spinning) using a mass spectrometry tag having a different molecular weight without using an optical label such as fluorescence as an identification tag. Such a classification method may be applied.
また、本発明では、光学的標識として、蛍光以外にも、発光(化学発光や生物発光)、吸光(比色や濁度)、散乱光、偏光に関連する標識を適用してもよい。さらに、対象によっては、放射線、磁気、原子間力、電子線、電磁超音波(EMAT)等の電磁エネルギーを標識としてもよい。 In the present invention, in addition to fluorescence, a label related to light emission (chemiluminescence or bioluminescence), light absorption (colorimetric or turbidity), scattered light, or polarization may be applied as an optical label. Furthermore, depending on the object, electromagnetic energy such as radiation, magnetism, atomic force, electron beam, electromagnetic ultrasonic wave (EMAT), or the like may be used as a label.
また、本発明は、各種血球や体細胞のような形状パラメータを光学的ないし電磁学的にイメージングして、画像解析による数値化を行うようなセルベースアッセイにも適している。 The present invention is also suitable for cell-based assays in which shape parameters such as various blood cells and somatic cells are optically or electromagnetically imaged and digitized by image analysis.
また、本発明に係るクラスタリング方法では、データ変換ステップにおいて、一般に多次元数値データをそれよりも低い次元の数値データ変換することができる。 In the clustering method according to the present invention, multidimensional numerical data can generally be converted into numerical data of a lower dimension in the data conversion step.
なお、本発明に係るクラスタリング装置は、インターネット、イントラネット、固定電話網、携帯電話網、専用回線網等の適当な組み合わせによって構成される通信ネットワークを介して測定装置と通信接続した構成としてもよい。 Note that the clustering apparatus according to the present invention may be configured to be connected to the measurement apparatus through a communication network configured by an appropriate combination of the Internet, an intranet, a fixed telephone network, a mobile phone network, a leased line network, and the like.
また、本発明に係るクラスタリングプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、DVD−ROM、フラッシュメモリ、MOディスク等のコンピュータ読み取り可能な記録媒体に記録して広く流通させることも可能である。 Further, the clustering program according to the present invention can be recorded on a computer-readable recording medium such as a hard disk, a flexible disk, a CD-ROM, a DVD-ROM, a flash memory, or an MO disk and widely distributed.
このように、本発明は、ここでは記載していない様々な実施の形態等を含みうるものであり、特許請求の範囲により特定される技術的思想を逸脱しない範囲内において種々の設計変更等を施すことが可能である。 Thus, the present invention can include various embodiments and the like not described herein, and various design changes and the like can be made without departing from the technical idea specified by the claims. It is possible to apply.
本発明に係るクラスタリング方法、プログラムおよび装置は、同一または異なる生体由来のサンプルに特有の多様な現象や特性等を解析するのに適しており、特に遺伝子多型解析に適している。 The clustering method, program and apparatus according to the present invention are suitable for analyzing various phenomena and characteristics peculiar to samples derived from the same or different organisms, and particularly suitable for gene polymorphism analysis.
Claims (9)
前記複数の多次元数値データを前記記憶手段から読み出し、この読み出した前記複数の多次元数値データの各々をより低次元の数値データに変換するデータ変換ステップと、
前記データ変換ステップで変換した数値データの各々に対応したデータ存在確率を与える複数の確率密度関数を生成する確率密度関数生成ステップと、
前記確率密度関数生成ステップで生成した複数の確率密度関数の線形和をとることによって前記複数の多次元数値データの信頼性を数値的に定める信頼性分布関数を生成する信頼性分布関数生成ステップと、
前記信頼性分布関数生成ステップで生成した信頼性分布関数に基づいて前記複数の多次元数値データのクラスタ分割を行うクラスタ分割ステップと、
を有することを特徴とするクラスタリング方法。A computer comprising storage means for storing a plurality of multidimensional numerical data is a clustering method for dividing the plurality of multidimensional numerical data into one or a plurality of clusters,
A data conversion step of reading the plurality of multidimensional numerical data from the storage means, and converting each of the read multidimensional numerical data into lower dimensional numerical data;
Probability density function generation step for generating a plurality of probability density functions giving data existence probabilities corresponding to each of the numerical data converted in the data conversion step;
A reliability distribution function generation step for generating a reliability distribution function that numerically defines the reliability of the plurality of multidimensional numerical data by taking a linear sum of the plurality of probability density functions generated in the probability density function generation step; ,
A cluster division step of performing cluster division of the plurality of multidimensional numerical data based on the reliability distribution function generated in the reliability distribution function generation step;
A clustering method characterized by comprising:
前記多次元数値データの異なる成分の比の値を用いることにより、前記複数の多次元数値データの各々を、次元が1次元低い数値データに変換することを特徴とする請求項1記載のクラスタリング方法。The data conversion step includes
The clustering method according to claim 1, wherein each of the plurality of multidimensional numerical data is converted into numerical data whose dimension is one dimension lower by using a ratio value of different components of the multidimensional numerical data. .
前記データ変換ステップで変換した後の1次元数値データの和は1であること
を特徴とする請求項1または2記載のクラスタリング方法。The number of dimensions of the multidimensional numerical data is 2,
The clustering method according to claim 1 or 2, wherein the sum of the one-dimensional numerical data after conversion in the data conversion step is 1.
前記ガウス関数の平均は、着目している2次元数値データの各次元の比によって定められ、
前記ガウス関数の分散は、複数の2次元数値データの分布を与える2次元平面上において、着目している2次元数値データと当該2次元数値データから所定の範囲にある2次元数値データとの距離を用いて定められること
を特徴とする請求項3記載のクラスタリング方法。The probability density function generated in the probability density function generating step is a Gaussian function,
The average of the Gaussian function is determined by the ratio of each dimension of the two-dimensional numerical data of interest,
The variance of the Gaussian function is the distance between the focused two-dimensional numerical data and the two-dimensional numerical data within a predetermined range from the two-dimensional numerical data on a two-dimensional plane that gives a distribution of a plurality of two-dimensional numerical data. The clustering method according to claim 3, wherein the clustering method is defined using
前記データ変換ステップで変換したデータはアリルの濃度であること
を特徴とする請求項3または4記載のクラスタリング方法。The two-dimensional numerical data is detection data for an allele of a single nucleotide polymorphism,
The clustering method according to claim 3 or 4, wherein the data converted in the data conversion step is an allyl concentration.
前記信頼性分布関数を、前記データ変換ステップで変換した後の数値データに関して微分する信頼性分布関数微分ステップと、
前記信頼性分布関数微分ステップで微分した値から前記信頼性分布関数の極小値を算出する極小値算出ステップと、
前記極小値算出ステップで算出した極小値を特徴付ける極小値特徴量を算出する極小値特徴量算出ステップと、
前記極小値特徴量算出ステップで算出した極小値特徴量を用いて前記多次元数値データが分布する空間におけるクラスタ分割位置を設定するクラスタ分割位置設定ステップと、
を含むことを特徴とする請求項1〜5のいずれか一項記載のクラスタリング方法。The cluster dividing step includes:
A reliability distribution function differentiation step for differentiating the reliability distribution function with respect to the numerical data after being converted in the data conversion step;
A minimum value calculating step for calculating a minimum value of the reliability distribution function from the value differentiated in the reliability distribution function differentiation step;
A minimum value feature quantity calculating step for calculating a minimum value feature quantity characterizing the minimum value calculated in the minimum value calculation step;
A cluster division position setting step for setting a cluster division position in a space in which the multidimensional numerical data is distributed using the minimum value feature quantity calculated in the minimum value feature quantity calculation step;
The clustering method according to claim 1, wherein the clustering method includes:
前記複数の多次元数値データを記憶する記憶手段と、
前記複数の多次元数値データを前記記憶手段から読み出し、この読み出した前記複数の多次元数値データの各々をより低次元の数値データに変換するデータ変換手段と、
前記データ変換手段で変換した数値データの各々に対応したデータ存在確率を与える複数の確率密度関数を生成し、この生成した複数の確率密度関数の線形和をとることによって前記複数の多次元数値データの信頼性を数値的に定める信頼性分布関数を生成する関数生成手段と、
前記関数生成手段で生成した信頼性分布関数に基づいて前記複数の多次元数値データのクラスタ分割を行うクラスタ分割手段と、
を備えたことを特徴とするクラスタリング装置。A clustering device that divides a plurality of multidimensional numerical data into one or a plurality of clusters,
Storage means for storing the plurality of multidimensional numerical data;
Data conversion means for reading the plurality of multidimensional numerical data from the storage means, and converting each of the read multidimensional numerical data into lower-dimensional numerical data;
A plurality of probability density functions that give data existence probabilities corresponding to each of the numerical data converted by the data converting means are generated, and the plurality of multidimensional numerical data are obtained by taking a linear sum of the generated probability density functions. Function generating means for generating a reliability distribution function that numerically defines the reliability of
Cluster dividing means for performing cluster division of the plurality of multidimensional numerical data based on the reliability distribution function generated by the function generating means;
A clustering apparatus characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009525454A JP5242568B2 (en) | 2007-08-01 | 2008-07-31 | Clustering method, program and apparatus |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007201209 | 2007-08-01 | ||
JP2007201209 | 2007-08-01 | ||
PCT/JP2008/063799 WO2009017204A1 (en) | 2007-08-01 | 2008-07-31 | Clustering method, program, and device |
JP2009525454A JP5242568B2 (en) | 2007-08-01 | 2008-07-31 | Clustering method, program and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009017204A1 JPWO2009017204A1 (en) | 2010-10-21 |
JP5242568B2 true JP5242568B2 (en) | 2013-07-24 |
Family
ID=40304432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009525454A Active JP5242568B2 (en) | 2007-08-01 | 2008-07-31 | Clustering method, program and apparatus |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5242568B2 (en) |
WO (1) | WO2009017204A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6280657B2 (en) | 2014-10-30 | 2018-02-14 | 株式会社東芝 | Genotype estimation apparatus, method, and program |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0793159A (en) * | 1993-09-21 | 1995-04-07 | Hitachi Ltd | Rule generator and method for the same |
JP2003256443A (en) * | 2002-03-05 | 2003-09-12 | Fuji Xerox Co Ltd | Data classification device |
JP2004078371A (en) * | 2002-08-13 | 2004-03-11 | Ntt Data Corp | Data processor, data processing method and computer program |
JP2005531853A (en) * | 2002-06-28 | 2005-10-20 | アプレラ コーポレイション | System and method for SNP genotype clustering |
JP2005301789A (en) * | 2004-04-14 | 2005-10-27 | Nara Institute Of Science & Technology | Cluster analysis device, cluster analysis method and cluster analysis program |
JP2006163521A (en) * | 2004-12-02 | 2006-06-22 | Research Organization Of Information & Systems | Time-series data analysis device, and time-series data analysis program |
-
2008
- 2008-07-31 JP JP2009525454A patent/JP5242568B2/en active Active
- 2008-07-31 WO PCT/JP2008/063799 patent/WO2009017204A1/en active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0793159A (en) * | 1993-09-21 | 1995-04-07 | Hitachi Ltd | Rule generator and method for the same |
JP2003256443A (en) * | 2002-03-05 | 2003-09-12 | Fuji Xerox Co Ltd | Data classification device |
JP2005531853A (en) * | 2002-06-28 | 2005-10-20 | アプレラ コーポレイション | System and method for SNP genotype clustering |
JP2004078371A (en) * | 2002-08-13 | 2004-03-11 | Ntt Data Corp | Data processor, data processing method and computer program |
JP2005301789A (en) * | 2004-04-14 | 2005-10-27 | Nara Institute Of Science & Technology | Cluster analysis device, cluster analysis method and cluster analysis program |
JP2006163521A (en) * | 2004-12-02 | 2006-06-22 | Research Organization Of Information & Systems | Time-series data analysis device, and time-series data analysis program |
Also Published As
Publication number | Publication date |
---|---|
JPWO2009017204A1 (en) | 2010-10-21 |
WO2009017204A1 (en) | 2009-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200302297A1 (en) | Artificial Intelligence-Based Base Calling | |
JP2022526470A (en) | Artificial intelligence-based base call | |
CN110832510A (en) | Variant classifier based on deep learning | |
EP1774323B1 (en) | Automated analysis of multiplexed probe-traget interaction patterns: pattern matching and allele identification | |
US20140220558A1 (en) | Methods and Systems for Nucleic Acid Sequence Analysis | |
US20120015825A1 (en) | Analytical systems and methods with software mask | |
JP2015132615A (en) | Apparatus and method for detecting and discriminating molecular object | |
US11423306B2 (en) | Systems and devices for characterization and performance analysis of pixel-based sequencing | |
US20190114464A1 (en) | Method of curvilinear signal detection and analysis and associated platform | |
US20030143554A1 (en) | Method of genotyping by determination of allele copy number | |
CN101163958B (en) | Biological information processing unit and method | |
US20190073444A1 (en) | Method for analyzing a sequence of target regions and detect anomalies | |
Webb et al. | SNPLINK: multipoint linkage analysis of densely distributed SNP data incorporating automated linkage disequilibrium removal | |
US20180315187A1 (en) | Methods and systems for background subtraction in an image | |
JP5242568B2 (en) | Clustering method, program and apparatus | |
Caputo et al. | D4Z4 methylation levels combined with a machine learning pipeline highlight single CpG sites as discriminating biomarkers for FSHD patients | |
Castleman et al. | Classification accuracy in multiple color fluorescence imaging microscopy | |
Mir | Ultrasensitive RNA profiling: counting single molecules on microarrays | |
KR20140132343A (en) | Determination method, determination device, determination system, and program | |
Kaiser et al. | Automated structural variant verification in human genomes using single-molecule electronic DNA mapping | |
US20030156136A1 (en) | Method and system for visualization of results of feature extraction from molecular array data | |
JP2007017282A (en) | Biological data processor, biological data processing method, learning device, learning control method, program and recording medium | |
JPH09507027A (en) | Automatic genotyping | |
Karim et al. | A review of image analysis techniques for gene spot identification in cDNA Microarray images | |
JP2006300797A (en) | Biological data processor, biological data measuring method, program, recording medium and substrate |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110623 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130403 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |