JP2013511783A - 多次元データのための密度ベースのクラスタ化 - Google Patents

多次元データのための密度ベースのクラスタ化 Download PDF

Info

Publication number
JP2013511783A
JP2013511783A JP2012540239A JP2012540239A JP2013511783A JP 2013511783 A JP2013511783 A JP 2013511783A JP 2012540239 A JP2012540239 A JP 2012540239A JP 2012540239 A JP2012540239 A JP 2012540239A JP 2013511783 A JP2013511783 A JP 2013511783A
Authority
JP
Japan
Prior art keywords
cluster
data points
density
data
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012540239A
Other languages
English (en)
Other versions
JP5642190B2 (ja
Inventor
ロディンガー,トーマス
アイ. ラリオ,パウラ
Original Assignee
ザイムワークス,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ザイムワークス,インコーポレイテッド filed Critical ザイムワークス,インコーポレイテッド
Publication of JP2013511783A publication Critical patent/JP2013511783A/ja
Application granted granted Critical
Publication of JP5642190B2 publication Critical patent/JP5642190B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】必要な処理時間をかなり短縮し、実用的なコンピューティングシステム上で実行できる方法を提供する。
【解決手段】多次元空間内のデータ点をクラスタ化するための新規の密度ベースのクラスタ化方法を述べる。各点が、事前設定カットオフ半径または距離以内にある全ての点からなる隣接点を有する。各点は、それに隣接する点の数に基づいて密度の尺度を割り当てられる。どの隣接点よりも高い密度を有する点がクラスタの中心であり、一意のクラスタIDを割り当てられる。他のすべての点は、クラスタ中心に達するまで密度ができるだけ急速に増加するように隣接点のグラフを通る経路を辿る。このアルゴリズムの性能を、1次元、2次元、および18次元のデータ集合で実証する。
【選択図】図1

Description

関連出願の相互参照
本出願は、米国特許法第119条(e)の下で、全体を参照により援用する2009年11月24日出願の米国特許出願第61/264,196号の利益を主張するものである。
本発明は、化学的モデリングおよび設計の分野に関する。
生物科学および理論化学によって生成されるデータのボリュームおよびタイプは非常に多い。タンパク質立体配座、化学物質およびタンパク質の構造および活性;遺伝子配列、遺伝子表現、および表現型;ならびに人口と発病率および有病率などの分野は、有用となるように編成して解釈しなければならない大量の相関データを生み出す。
3次元分子形態に関係するデータを含め、大量の技術的データを「クラスタ化」または編成するために、様々な方法が設計されている。
形状データを編成するために必要とされる膨大な数の決定ステップを行うためにアルゴリズムが使用される。それらの例としては、以下のものがある。Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96): 226-231 , in 1996においてMartin Ester、Hans-Peter Kriegel、Jorg Sander、Xiaowei Xuによって提案された「DBSCAN」;Proc. ACM. SIGMOI'99 Int. Conf. on Management of Data, Philadelphia PA, 1999においてM. Ankerst等によって提案された「OPTICS」;“A K-Means Clustering Algorithm” Applied Statistics 28 (1): 100-108, 1979においてJ. A. Hartigan等によって提案された「K-means」;http://en.wikipedia.org/wiki/K-medoidsに挙げられている「K-medoid」;BMC Bioinformatics 2007, 8:3, 2007においてL. Fu等によって提案された「FLAME」;Angew. Chem. Int. Ed. 1999, 38, pp 236-240, 1999においてDaura等によって提案された「G_cluster / grooms」;Proceedings of World Academy of Science, Engineering and Technology, Vol. 35, November 2008においてA. M. Fahim、G. Saake、A. M. Salem、F. A. Torkeyand、M. A. Ramadanによって提案された「DCBOR」;An Efficient Approach to Clustering in Large Multimedia Databases with Noise. Institute of Computer Science University of Halle Germany, 1
998においてAlexander HinneburgおよびDaniel A Keim によって提案された「DENCLUE」;Proc. SIAM Int. Conf. on Data Mining (SDM'04), pp. 246-257, 200, 2004におけるKarin Kailing、Hans-Peter Kriegel、およびPeer Krogerの「SUBCLU」;IBM Almaden Research Center, 1998のRakesh Agrawal、Johannes Gehrke、Dimitrios Gunopulos、およびPrabhakar Raghavanによって提案されたCLIQUE。
これらの方法には様々な限界がある。例えば、ボリュームにわたって密度が変化するデータをクラスタ化することができないこと、入力順序により一貫性のない結果を生み出すこと、密度にではなく形状に基づいてクラスタを生成すること、またはより小さなデータ集合に制約されることである。上記のアルゴリズムのうち、FLAMEとDENCLUEは共に、必要なパラメータを1つだけ有し、任意の形状のクラスタを定義するという利点を備えている。
FLAMEアルゴリズムは、各データ点をそのK最近傍点に関係付けるために近傍グラフを用いることから始まり、K最近傍点に対する近接性に基づいて各オブジェクトごとに密度を評価し、どの隣接点よりも高い密度を有するデータ点が、それ自体に完全なメンバーシップを割り当てられる。残りのデータ点は、定義された全てのクラスタに対して等しいメンバーシップ重み付けを割り当てられ、次いで、メンバーシップ重み付けが、全ての点に関して、その隣接点のメンバーシップ重み付けの一次結合として更新される。このプロセスは、収束するまで繰り返され、収束後には、各オブジェクトは、それが最高のメンバーシップを有するクラスタに割り当てられている。FLAMEは、多数回の反復を必要とし、非効率的であり時間がかかる。
DENCLUEでは、各データ点は、周囲の領域に対するそれ自体の影響を決定する影響関数を割り当てられる。典型的な影響関数は、その点を中心とするガウス分布でよい。アルゴリズムは、全ての点の影響関数を足し合わせ、次いで、この新規の超表面上での極大値を見付けるステップに進む。クラスタ中心は、これらの極大値に位置される。点が属するクラスタは、この超表面上で最急勾配法(steepest ascent procedure)によって見出される。このアルゴリズムの効率的な実装は非常に複雑である。
Siroshによる米国特許第6,226,408号は、詐欺活動に対してクレジットカード取引を分析するのに使用するための教師なし学習ルーチンを開示する。多数のデータタイプが数値に変換され、それに従ってグループ分けされる。
一態様では、本発明は、第1のクラスタ中心を備える第1のクラスタに第1のクエリデータ点をクラスタ化する方法であって、第1のクエリデータ点および第1のクラスタ中心が、空間内の複数のデータ点から選択され、各データ点が密度によって特徴付けられる方法であって、(a)第1のクラスタ中心に対する第1のクエリデータ点の第1のトレースを決定するステップを含み、ここで、第1のトレースが、複数のデータ点から選択されるn個のデータ点を含み、nが整数であり、上記の決定ステップが、(i)第1のクエリデータ点をxとして指定するステップと、(ii)第1のトレースの残りのn−1個のデータ点を決定するステップとを含み、ここで、残りのn−1個のデータ点をx・・・xとして指定し、xが、第1のクラスタ中心を表し、xj+1が、xからカットオフ距離以内にある全てのデータ点のうち最大の密度を有し、jが、1〜n−1から選択される整数であり、方法がさらに、(b)第1のクエリデータ点を第1のクラスタに割り当てるステップを含む方法を提供する。
本発明の方法は、有利には、密度ベースであり、クラスタに対して特定の形状を強制しない。この方法は、ただ1つの調整可能なパラメータ(事前設定半径またはカットオフ距離)を有し、したがって容易に最適化できる。さらに、この方法は、特定の数のクラスタを前提とせず、クラスタは、アルゴリズムによって決定され、特定する必要はない。この方法のさらなる特質は、耐雑音性、および(より複雑な)他のアルゴリズムよりも高速の実行を含む。すなわち、この方法は、雑音によって悪影響を受けず、より複雑な他のアルゴリズムよりも高速である。さらに、この方法は、異なるより低密度の領域によって分けられる異なる密度のクラスタを形成することができる。
本発明の方法は、多量の定量的データを有意なカテゴリーにグループ分けするのに有用である。この方法は、参考文献で一般に行われているタイプの反復処置を使用せずに目的を実現する。これは、必要な処理時間をかなり短縮し、実用的なコンピューティングシステム上でこの方法を実行できるようにする。
1次元(1D)データ集合を示す図である。各点の密度が、点の1D座標値に対してプロットされている。 クラスタ化された1次元データ集合を示す図である。0.5のカットオフパラメータが、データの標準ヒストグラム(ビン幅=0.5)と共に、次のクラスタ化を生み出す。左から右へクラスタの境界を定めるために使用されている記号は、*、×、および+である。 ラマチャンドランプロット(phi/psi角)の形態で設定した2次元データを示す。phi角(x軸)およびpsi角(y軸)は、トリアラニンの長いシミュレーションから抽出して表示した。 カットオフパラメータを15としてクラスタ化した2次元データ集合を示す図である。様々なクラスタは、各点を示すために使用されている影および記号に応じて異なる。 点の密度をphiおよびpsi角に対してプロットした2次元データ集合を示す図である。図5は、図4をpsi角の軸の方向で見た図である。したがって、図5では、x軸はphi角を表し、y軸は密度を表す。 ヒスチジン残渣の立体配座のクラスタ化を示す図である。これは、18次元のデータ集合(6個の原子それぞれに3つの座標)である。使用したカットオフパラメータは2であった。
本発明は、多様な用途において有用なデータ分析の方法を提供する。これらの方法は、以下に述べるように、空間内の複数のデータ点を備えるデータ集合のデータ点を、1つまたは複数の部分集合または「クラスタ」にグループ分けすることを含む。
一態様では、本発明は、第1のクラスタ中心を備える第1のクラスタに第1のクエリデータ点をクラスタ化する方法であって、第1のクエリデータ点および第1のクラスタ中心が、空間内の複数のデータ点から選択され、各データ点が密度によって特徴付けられる方法を提供する。
本出願における「データ点」とは、1つまたは複数の1次元測定可能量の関連付けを意味するものとする。典型的には、これらの量は、いくつかの有意な興味深い形で関係付けられ、または相関される。一例として、x、y、およびz座標などのグループ分けが挙げられ、これらの座標が、物体の位置、タンパク質の立体配座を表すphi/psi角、タンパク質構成、およびタンパク質活性、核酸表現レベルおよび表現型、または任意の他の測定値の組合せを表す。一般に、データ点は、1組の測定量を表すことがある。
「クラスタ」は、部分集合にグループ分けされた1組のデータ点または観察結果を表す。典型的には、同一クラスタ内のデータ点または観察結果は、ある意味では同様である。クラスタ化は、データマイニング、機械学習、パターン認識、画像分析、およびバイオインフォマティックスを含めた多くの分野で言及される統計データ分析に関する技法である。以下で述べるように、クラスタは、典型的には、「クラスタ中心」として知られている少なくとも1つのデータ点によって特徴付けられる。本明細書における方法は、所与のデータ集合の様々なデータ点を1つまたは複数のクラスタに割り当てる手法を表す。
「密度」は、所与の空間がどれだけ多くのデータ点で占められているかを表す尺度である。例えば、100個のデータ点を有する2次元領域または3次元空間は、10個のデータ点を含む同サイズの領域または空間よりも密度が高い。空間の次元数は、所与のデータ集合のデータ点の次元数によって決定されることを当業者は理解されよう。空間は、1次元、2次元、3次元、4次元、またはより高次元の空間でよい。
データ点の密度は、しきい値を基準として決定される。しきい値は、「事前設定半径」、「カットオフ」、または「カットオフ距離」として知られている(これらの用語は交換可能に使用される)。カットオフ距離は、所与のデータ点の周りでの境界を画定するために使用される尺度であり、別のデータ点は、隣接点とみなされるにはその境界内に位置する必要がある。したがって、データ点の密度は、データ点からカットオフ距離以内にある全てのデータ点の数を表すことができる。カットオフ距離は、任意の次元数の空間に関して決定することができる汎用パラメータであることを当業者は理解されよう。
カットオフ距離は、ユーザが予め設定しなければならない。このパラメータは、アルゴリズムが雑音を取り除く方法、したがってアルゴリズムが最終的に検出するクラスタの数に直接的な役割を果たす。値がより大きいと、より平滑化され、データ点はより少数のクラスタにグループ分けされる。より小さな値に設定すると、より多数のクラスタが生じる。カットオフ距離は、雑音を処理するのにちょうど十分な高さに設定すべきであり、正しくは別々であるクラスタを不適切にマージするほど高くすべきではない。カットオフ距離は、データ点と同種の単位(例えば距離)で、ゼロよりも大きい量である。本出願によれば、カットオフ距離は、目下の用途およびデータ集合の質に応じてユーザが容易に調節して最適化することができる。
「雑音」は、任意の形態のランダムな加算、統計的雑音、測定誤差、または他の原因不明の変化、またはデータ点の量の誤差原因を意味するものとする。雑音は、通常、プロット上の散在した点、点密度の局所的な一貫性のなさ、または通常であればゆっくりと変化するデータにおける高振動数の変動として現れる。雑音は、データ集合内の極大値および極小値の正確な位置の識別を困難にし、これはしばしばクラスタ化アルゴリズムを混乱させる。
一実施形態では、本発明による方法は、(a)第1のクラスタ中心に対する第1のクエリデータ点の第1のトレースを決定するステップを含み、ここで、第1のトレースが、複数のデータ点から選択されるn個のデータ点を含み、nが整数であり、方法はさらに、(b)第1のクラスタに第1のクエリデータ点を割り当てるステップとを含む。したがって、この実施形態では、クラスタへの点の割当てを、クラスタのクラスタ中心に対する点のトレースの決定として概念化することができる。「トレース」とは、クエリデータ点、クラスタ中心、および任意選択で1つまたは複数のデータ点を含む1組のデータ点を表す。典型的には、トレースの各データ点は、以下に論じるように、トレース内の別のデータ点に対する何らかの関係によって特徴付けられる。
トレースの各点は、トレースインデックスを使用して表すことができ、すなわち、トレースの各点をx、xなどと呼ぶことができる。トレースの第1の点は、「クエリ」データ点と呼ぶことができ、xとラベル付けできる。クエリデータ点は、ある「クラスタ中心」に関係付けられるものとして使用者が選択したデータ点である。この関係は、クラスタ中心および他のデータ点の密度に関連するものであることがある。クエリデータ点とクラスタ中心の関係は直接的なものでよく、すなわち、クラスタ中心が、クエリデータ点のカットオフ距離以内にある全てのデータ点のうち最大の密度を有することがある。また、この関係は間接的なものでもよく、すなわち、クラスタ中心が、トレースの中間データ点のカットオフ距離以内にある全てのデータ点のうち最大の密度を有することがあり、その中間データ点が、それ自体、クエリデータ点のカットオフ距離以内にある全てのデータ点のうち最大の密度を有する。この間接的な関係は、任意の数の中間データ点に拡張することができる。したがって、一実施形態では、第1のクラスタ中心に対する第1のクエリデータ点の第1のトレースを決定するステップは、(i)第1のクエリデータ点をxとして指定するステップと、(ii)第1のトレースの残りのn−1個のデータ点を決定するステップとを含み、ここで、残りのn−1個のデータ点をx・・・xとして指定し、xが、第1のクラスタ中心を表し、xj+1が、xからカットオフ距離以内にある全てのデータ点のうち最大の密度を有し、jが、1〜n−1から選択される整数である。
一実施形態では、第1のクラスタ中心からカットオフ距離以内にある点はどれも、第1のクラスタ中心の密度よりも高い密度によって特徴付けられることはない。
いくつかの他の実施形態では、第1のトレースの各点は、クエリデータ点として選択することができる。そのような他の実施形態でのクエリデータ点のトレースは、第1のクラスタ中心を含む第1のトレースの部分集合である。したがって、一実施形態では、x・・・xは全て第1のクラスタに割り当てられる。
一実施形態では、xまたはxj+1の密度は、複数のデータ点から選択された、それぞれxまたはxj+1に対する距離がカットオフ距離以下である全てのデータ点の数である。
一実施形態では、xが第1のクラスタ中心である。すなわち、一実施形態では、トレースは、クエリデータ点とクラスタ中心からなることがある。
トレースの各点は、第1のクエリデータ点xから開始して順次に決定することができる。次のデータ点xは、xのカットオフ距離以内にある全てのデータ点のうち最大の密度を有する。したがって、xは、xの局所的な最大密度の隣接点と呼ぶことができる。xがクラスタ中心でない場合、xの局所的な最大密度の隣接点を決定することができる。このプロセスは、クラスタ中心が決定されるまで続けられる。したがって、一実施形態では、残りのn−1個のデータ点を決定するステップは、昇順インデックスに従って、第1のトレースの各データ点の局所的な最大密度の隣接点を順次に決定するステップを含み、ここで、xの局所的な最大密度の隣接点はxj+1である。
本明細書で述べる方法は、所与のデータ集合からの点の順序集合を提供することができる。すなわち、一実施形態では、xj+1の密度はxの密度よりも大きい。
いくつかの例では、複数のデータ点が、所与の点のカットオフ以内で同じ最高密度を有することがある。この状況を解決するために、空間内の複数のデータ点それぞれにグローバルインデックスが割り当てられる。トレースに割り当てられるものとして選択されるデータ点は、最高のグローバルインデックスを有するデータ点である。1つまたは複数の棄却データ点は、トレースに割り当てられる点のグローバルインデックスよりも低いグローバルインデックスを有する。したがって、一実施形態では、第1のトレースの残りのn−1個のデータ点を決定するステップが、複数のデータ点から選択される棄却データ点を棄却するステップをさらに含み、ここで、残りのn−1個のデータ点の1つであるxの密度と棄却データ点の密度は同じであり、xは第1のグローバルインデックスによって特徴付けられ、棄却データ点は第2のグローバルインデックスによって特徴付けられ、第1のグローバルインデックスが第2のグローバルインデックスよりも大きい。
所与の複数のデータ点に関して決定される各クラスタは、データ点の複数のトレースを含むものと考えることができる。すなわち、複数の異なるトレースを、同じクラスタ中心に達するように決定することができる。したがって、一実施形態では、この方法はさらに、第1のクラスタ中心に対する第2のクエリデータ点の第2のトレースを決定するステップと、第1のクラスタに第2のクエリデータ点を割り当てるステップとを含む。一実施形態では、この方法はさらに、第1のクラスタに第2のトレースの各データ点を割り当てるステップを含む。
上述したように、所与の複数のデータ点に関して複数のクラスタを決定することができる。各クラスタは、それ独自のクラスタ中心を備え、番号付けすることができる。したがって、一実施形態では、この方法はさらに、第2のクラスタ中心を備える第2のクラスタに第2のクエリデータ点をクラスタ化するステップと、第1のクラスタに番号付けするステップと、第2のクラスタに番号付けするステップとを含む。
一実施形態では、第1のクラスタおよび第2のクラスタへのクラスタ番号付けおよびデータ点の割当ては、コンピュータ生成グラフによって視覚化される。
一実施形態では、第1のクラスタおよび第2のクラスタは、2次元または3次元で視覚化される。
一実施形態では、カットオフ距離は、第1のクラスタと第2のクラスタの間で散乱される雑音を含む点にアルゴリズムが対処することができる能力に影響を及ぼす唯一の調整可能なパラメータである。一実施形態では、カットオフ距離は、第1のクラスタと第2のクラスタの間で散乱される雑音を含む点にアルゴリズムが対処するように調整されるパラメータである。
本明細書で述べるクラスタ化の方法は、多くの異なる形で概念化して記述することができる。一態様では、データ点の密度に応じて複数のデータ点をクラスタに分割するための方法であって、a)任意に選択したデータ点に関して、事前設定半径以内の全ての隣接するデータ点を識別するステップと、b)半径以内の隣接する点の数をカウントし、これをそのデータ点での密度と呼ぶステップと、c)全てのデータ点に関して密度を計算するために、ステップa〜bを繰り返すステップと、次いで、d)複数のデータ点から任意に選択したデータ点に関して、最高密度を有する事前設定半径以内の隣接データ点を見付けるステップと、e)上記のより高密度のデータ点に関して、最高密度を有する隣接するデータ点を見付けるステップと、f)それ自体よりも高い密度を有する隣接点を有さないデータ点が見付かるまで、ステップd〜eを繰り返し、このデータ点をクラスタの中心としてラベル付けするステップと、g)ステップdの元のデータ点をこのクラスタに割り当てるステップと、h)全てのデータ点がクラスタに割り当てられるまで、ステップd〜gを繰り返すステップとを含む方法が提供される。
上述したように、データ点は、基本的には、測定することができる現象の任意の組合せを表現することができる。
一実施形態では、複数のデータ点は、1次元、2次元、3次元、または任意のより高次元の空間内に存在する。
一実施形態では、複数のデータ点は、アミノ酸構成、タンパク質立体配座座標、タンパク質間の測定可能な相違、核酸表現レベルおよび表現型の質からなる群から選択される定量化可能な現象を表す。
「測定可能なタンパク質の相違」または「タンパク質間の測定可能な相違」とは、タンパク質に関する測定量の相違を表し、例えば以下のものを挙げることができる。異なるカラム保持時間(サイズ排除、親和力、電荷などによって、異なるクロマトグラフィカラムが好適となる);質量分析、円二色性、蛍光、燐光、または標準的な分光技法(異なる波長が異なる特性を測定する:可視光、紫外線、および赤外線)など、生物物理学的な方法によって測定される物理的特性の相違。選択した「カットオフパラメータ」または「カットオフ距離」が測定基準の相違を分解するように物理的特性が正規化される限り(多次元クラスタ化で分解を行うときには、ある程度は、完全な分解は必要ない)、クラスタ化を行うための測定基準を生成するために、物理的特性に関連付けられる数を提供することができる任意の方法を使用することができる。
本発明の方法の用途としては、以下のものが挙げられる。タンパク質の治療活性を改良するための化学的モデリング、病理形態を研究するための化学的モデリング、核酸治療または低分子治療の最適化、農業または他の生物学的目的、化学的分析と活性読み取りとの関連付け、タンパク質の活性と構造の相関、細菌フローラプロファイリングおよび健康診断、ならびに遺伝子配列および表現データ解釈。
一実施形態では、実験から導き出されたタンパク質構造をコンピュータアルゴリズムによってシミュレートすることができ、時間にわたる原子運動を表す理論的な軌跡を導出する。様々な原子の様々な理論的な位置および結合角を反映するために、膨大なデータが生成される。この軌跡からの時間スナップショットを使用して、生じ得るタンパク質「状態」を決定することができる。本発明の方法を使用して、様々な位置またはデータ点を処理して、最も好ましい異なる状態のクラスタとする。
別の実施形態では、タンパク質の時間進化、または立体配座状態間の移動を表す軌跡を、各アミノ酸ごとに個別に分析することができる。二面角、2つの結合間の角度、2面間の角度(各面が3個の原子によって定義される)、原子間の距離など、様々な測定基準を定義することができる。これらの測定基準が、個々に、または任意の組合せでデータ点を形成し、その後、本発明の方法を使用してそれらのデータ点をクラスタ化する。このとき、各クラスタが、アミノ酸の異なる状態を定義する。ここで、状態が列挙され、状態間を遷移するときの複数のアミノ酸の相関および協調運動を見出すことができるようになる。
本発明の一実施形態では、クロマトグラフィデータを編成して解釈することができる。例えば、分子量、蛍光、粒径、帯電表面積、流水力学半径、タンブリング速度は全て、様々なタンパク質、タンパク質アイソフォーム、タンパク質構造状態、および様々な翻訳後修飾を有するタンパク質のクラスタ化および分離に使用することができる特性である。クロマトグラフィデータは、有意な情報を提供するようにクラスタ化することができる。例えば、カラムからの流出液をマルチウェルプレートに時系列的に入れることができ、質量分析計によって分析してサイズデータを生成し、次いで、ウェルに入れた同じ溶液に対して活性アッセイを行って、各ウェルごとに活性データを得ることができる。次いで、生成された3次元データを本発明の方法を使用して分析して、構造−質量−活性の関係のクラスタ化を提供する。
さらなる別の実施形態では、本発明を使用して、タンパク質間相互作用のデータをクラスタ化することができる。例えば、タンパク質は、他のタンパク質に対する結合定数の相違に基づいて分類することができる。
いくつかの実施形態では、この方法はさらに、タンパク質の構造上の相違を検出することができる生化学的方法を行うことを含む。例えば、タンパク質分解のある時点での断片を、例えば質量分析法および活性アッセイを使用したこれらの断片に対する生物物理学的分析から得られた測定基準と組み合わせることができる。
本発明の別の実施形態では、対象のタンパク質に関するmRNAの細胞レベルを追跡することができる。mRNAは、生体外(in vitro)でラベル付けすることができ、または採取してラベル付けすることができる。サイズまたは化学的修飾を決定するために、ラベル付けしたmRNAをゲルにアプライすることができる。同時に、細胞サイズ、運動性、耐熱性、または分泌タンパク質レベルなどの表現型細胞データを測定することができる。サイズ、化学的修飾、および細胞活性のデータ点をクラスタ化することによって、mRNA表現レベルと表現型の関係を把握することができる。この方法は、組織サンプリングを使用して、生体内(in vivo)モデルなど、より大きなシステムに適用することができる。
コンピュータシステムへの実装
上記の方法は、処理装置およびデータ記憶システムを備えるプログラマブルコンピュータ上で実行されるコンピュータプログラムとして実装することができる。コンピュータプログラムは、ある活動を行うために、またはある結果をもたらすためにコンピュータで直接または間接的に使用することができる1組の命令である。コンピュータプログラムは、コンパイル言語または解釈言語を含めた任意の形態のプログラミング言語で書くことができ、例えばスタンドアローンプログラムとして、またはモジュール、コンポーネント、サブルーチン、ファンクション、プロシージャ、もしくは計算環境で使用するのに適した他のユニットとしてなど、任意の形態で展開することができる。
コンピュータプログラムは、コンピュータ可読記憶システムに記憶することができる。記憶システムの例としては、限定はしないが以下のものが挙げられる。CD、DVD、およびブルーレイディスク(BD);光磁気ディスク;磁気テープおよび内部ハードディスクおよびリムーバブルディスクなどの磁気媒体;EPROM、EEPROM、およびフラッシュメモリなどの半導体メモリデバイス;ならびにRAM。
コンピュータ可読記憶システムは、コンピュータプログラムを含むように物理的に変形することができる。本明細書で開示する任意の方法を行うための命令を備えるコンピュータ可読記憶システムは、そのような命令を備えないコンピュータ可読記憶システムとは物理的に異なることを当業者は理解されよう。すなわち、任意の所与のコンピュータ可読記憶システムは、本明細書で開示する任意の方法を行うための命令を備えるように物理的に変形しなければならない。本明細書で開示する任意の方法を行うための命令などコンピュータ実行可能命令を備えるコンピュータ可読記憶システムは、プロセスまたは方法を行うためにコンピュータが記憶システムと対話するように物理的に構成される。汎用コンピュータによってアクセスされて読み取られるとき、本明細書で開示する任意の方法を行うためのコンピュータ実行可能命令を備えるコンピュータ可読記憶システムは、その汎用コンピュータを専用コンピュータに変えることを当業者は理解されよう。
したがって、一態様では、本発明は、本明細書で述べる任意の方法を行うためのコンピュータ実行可能命令を備えるコンピュータ可読記憶システムを提供する。一実施形態では、コンピュータ可読記憶システムが、第1のクラスタ中心を備える第1のクラスタに第1のクエリデータ点をクラスタ化するためのコンピュータ実行可能命令を備え、第1のクエリデータ点および第1のクラスタ中心が、空間内の複数のデータ点から選択され、各データ点が密度によって特徴付けられ、クラスタ化が、(a)第1のクラスタ中心に対する第1のクエリデータ点の第1のトレースを決定するステップを含み、ここで、第1のトレースが、複数のデータ点から選択されるn個のデータ点を含み、nが整数であり、上記の決定ステップが、(i)第1のクエリデータ点をxとして指定するステップと、(ii)第1のトレースの残りのn−1個のデータ点を決定するステップとを含み、ここで、残りのn−1個のデータ点をx・・・xとして指定し、xが、第1のクラスタ中心を表し、xj+1が、xからカットオフ距離以内にある全てのデータ点のうち最大の密度を有し、jが、1〜n−1から選択される整数であり、クラスタ化がさらに、(b)第1のクエリデータ点を第1のクラスタに割り当てるステップを含む。
さらなる態様では、本発明は、本明細書で述べる任意の方法を行うためのコンピュータシステムであって、データ記憶システムと、本明細書で述べる任意の方法を行うための命令を備える処理装置とを備えるコンピュータシステムを提供する。一実施形態では、第1のクラスタ中心を備える第1のクラスタに第1のクエリデータ点をクラスタ化するためのコンピュータシステムであって、第1のクエリデータ点および第1のクラスタ中心が、空間内の複数のデータ点から選択され、各データ点が密度によって特徴付けられるコンピュータシステムが、(1)データ記憶システムと、(2)処理装置とを備え、処理装置が、(a)第1のクラスタ中心に対する第1のクエリデータ点の第1のトレースを決定するステップを含み、ここで、第1のトレースが、複数のデータ点から選択されるn個のデータ点を含み、nが整数であり、上記の決定ステップが、(i)第1のクエリデータ点をxとして指定するステップと、(ii)第1のトレースの残りのn−1個のデータ点を決定するステップとを含み、ここで、残りのn−1個のデータ点をx・・・xとして指定し、xが、第1のクラスタ中心を表し、xj+1が、xからカットオフ距離以内にある全てのデータ点のうち最大の密度を有し、jが、1〜n−1から選択される整数であり、方法がさらに、(b)第1のクエリデータ点を第1のクラスタに割り当てるステップを含む方法を行うための命令を備える。
本明細書で開示する任意の方法を行うための命令を備える処理装置が、そのような命令を備えない処理装置とは物理的に異なることを当業者は理解されよう。すなわち、任意の所与の処理装置は、本明細書で開示する任意の方法を行うための命令を備えるように物理的に変形しなければならない。
処理装置およびデータ記憶システムは、特定用途向け集積回路(ASIC)によって補う、または特定用途向け集積回路に組み込むことができる。そのようにして物理的に変形されたコンピュータの処理装置に読み取られて実行される、または実行前にさらに処理されるとき、プログラムの命令は、本明細書で説明する様々な処理をプログラマブルコンピュータが実施できるようにする。処理装置とデータ記憶システムは、典型的にはバスによって接続される。
ユーザとの対話を可能にするために、本発明は、ユーザに情報を表示するためのディスプレイデバイス、例えば陰極線管(CRT)や液晶ディスプレイ(LCD)モニタなどを備えるコンピュータに実装することができる。ユーザは、例えばキーボード、タッチスクリーン、またはマウスやトラックパッドなどのポインティングデバイスを介して入力を行うことができる。本発明による方法によって生成される様々なデータは、モデリングおよびグラフィックスソフトウェアを使用してグラフィック表示することができる。
本明細書で述べる様々な態様および実施形態は、データサーバなどのバックエンドコンポーネント、アプリケーションサーバやインターネットサーバなどのミドルウェアコンポーネント、またはユーザインターフェースやインターネットブラウザなどを有するクライアントコンピュータなどのフロントエンドコンポーネント、またはそれらの任意の組合せを含むコンピュータシステムに実装することができる。システムのコンポーネントは、任意のデジタルデータ通信形態または媒体によって接続することができる。
本発明による方法は、様々な構成でハードウェアに実装することができる。したがって、いくつかの実施形態では、計算プロセスは、当技術分野で構成が理解されているようにコンピュータクラスタのノード上、分散コンピューティングシステム内、またはグラフィックス処理ユニット上で並列して行われる。
限定を意図せずに、以下の実施例を提示して、本発明の作成および使用法の完全な開示および説明を当業者に与える。これらの実施例は、本発明とみなされるものの範囲を限定する意図はない。使用する数値(例えば量、温度、濃度など)に関して、正確さを期すよう努力はしたが、多少の実験誤差および偏差は許容されたい。
実施例1
1つのデータ集合に対する本発明による方法の実例
3つの重畳したガウス分布からランダムに点を取ることによって生成した1次元データ集合を図1に示す。0.5のカットオフ半径を用いると、図2で目視検査によって確認されるように、正確なクラスタを回復した。
実施例2
タンパク質の様々な状態の同定
トリアラニンの長めのナノ秒長のコンピュータシミュレーションから生成されたphi/psi角のラマチャンドランプロット分布を図3に示す。この2次元データ集合に本発明の方法を適用し、事前設定カットオフを15とすると、図4に示されるクラスタ化の結果が得られる。点の密度とphi/psi角の横からの図(クラスタが影を成している)を図5に示す。これは、本発明による方法の適用の仕方の一例である。
実施例3
アミノ酸レベルでのタンパク質の様々な立体配座の同定
1ナノ秒の軌跡で観察した1つのヒスチジン分子の立体配座に関するクラスタ化の結果を図6に示す。シミュレーションスナップショットを、タンパク質骨格分子(C、Cα、N)に基づいて並べ、側鎖重原子の座標に基づいてクラスタ化した(6個の原子それぞれに関してx、y、z座標−18次元のデータ集合)。カットオフは2に設定した。本発明の方法を使用して、2つの密集したクラスタが明確に区別された。
本明細書で使用するとき、文脈上そうでないことが明らかな場合を除き、単数表記は、その指示対象が複数存在することも除外しない。接続詞「または」は、文脈上そうでないことが明らかな場合を除き、相互に排他的ではない。用語「含む」は、排他的でない例を表すために使用する。
本明細書で引用する全ての参考文献、公開物、特許出願、付与された特許、受理記録(accession records)、およびデータベースは、付録も含め、全体を参照により本明細書に援用する。

Claims (18)

  1. 第1のクラスタ中心を備える第1のクラスタに第1のクエリデータ点をクラスタ化する方法であって、前記第1のクエリデータ点および前記第1のクラスタ中心が、空間内の複数のデータ点から選択され、前記各データ点が密度によって特徴付けられる方法であって、
    (a)前記第1のクラスタ中心に対する前記第1のクエリデータ点の第1のトレースを決定するステップを含み、ここで、前記第1のトレースが、前記複数のデータ点から選択されるn個のデータ点を含み、nが整数であり、前記決定ステップが、
    (i)前記第1のクエリデータ点をxとして指定するステップと、
    (ii)前記第1のトレースの残りのn−1個のデータ点を決定するステップとを含み、ここで、前記残りのn−1個のデータ点をx・・・xとして指定し、xが、前記第1のクラスタ中心を表し、xj+1が、xからカットオフ距離以内にある全てのデータ点のうち最大の密度を有し、jが、1〜n−1から選択される整数であり、方法がさらに、
    (b)前記第1のクエリデータ点を前記第1のクラスタに割り当てるステップ
    を含む方法。
  2. 前記第1のクラスタ中心から前記カットオフ距離以内にある点がどれも、前記第1のクラスタ中心の密度よりも高い密度によって特徴付けられることがない請求項1に記載の方法。
  3. ・・・xが全て前記第1のクラスタに割り当てられる請求項1または2に記載の方法。
  4. またはxj+1の密度が、前記複数のデータ点から選択された、それぞれxまたはxj+1に対する距離が前記カットオフ距離以下である全てのデータ点の数である請求項1〜3のいずれか一項に記載の方法。
  5. が前記第1のクラスタ中心である請求項1〜4のいずれか一項に記載の方法。
  6. 残りのn−1個のデータ点を決定する前記ステップが、昇順インデックスに従って、前記第1のトレースの各データ点の局所的な最大密度の隣接点を順次に決定するステップを含み、ここで、xの局所的な最大密度の隣接点がxj+1である請求項1〜5のいずれか一項に記載の方法。
  7. j+1の密度がxの密度よりも大きい請求項1〜6のいずれか一項に記載の方法。
  8. 前記第1のトレースの残りのn−1個のデータ点を決定する前記ステップが、複数のデータ点から選択される棄却データ点を棄却するステップをさらに含み、ここで、残りのn−1個のデータ点の1つであるxの密度と棄却データ点の密度は同じであり、xは第1のグローバルインデックスによって特徴付けられ、棄却データ点は第2のグローバルインデックスによって特徴付けられ、前記第1のグローバルインデックスが前記第2のグローバルインデックスよりも大きい請求項1〜7のいずれか一項に記載の方法。
  9. 前記第1のクラスタ中心に対する第2のクエリデータ点の第2のトレースを決定するステップと、前記第1のクラスタに前記第2のクエリデータ点を割り当てるステップとをさらに含む請求項1〜8のいずれか一項に記載の方法。
  10. 前記第1のクラスタに前記第2のトレースの各データ点を割り当てるステップをさらに含む請求項9に記載の方法。
  11. 第2のクラスタ中心を備える第2のクラスタに第2のクエリデータ点をクラスタ化するステップと、前記第1のクラスタに番号付けするステップと、前記第2のクラスタに番号付けするステップとをさらに含む請求項1〜10のいずれか一項に記載の方法。
  12. 前記第1のクラスタおよび前記第2のクラスタへのクラスタ番号付けおよびデータ点の割当てが、コンピュータ生成グラフによって視覚化される請求項11に記載の方法。
  13. 前記第1のクラスタおよび前記第2のクラスタが、2次元または3次元で視覚化される請求項11または12に記載の方法。
  14. 前記カットオフ距離が、前記第1のクラスタと第2のクラスタの間で散乱される雑音を含む点にアルゴリズムが対処することができる能力に影響を及ぼす唯一の調整可能なパラメータである請求項1〜13のいずれか一項に記載の方法。
  15. 前記複数のデータ点が、1次元、2次元、3次元、または任意のより高次元の空間内に存在する請求項1〜14のいずれか一項に記載の方法。
  16. 前記複数のデータ点が、アミノ酸構成、タンパク質立体配座座標、タンパク質間の測定可能な相違、核酸表現レベルおよび表現型の質からなる群から選択される定量化可能な現象を表す請求項1〜15のいずれか一項に記載の方法。
  17. 請求項1〜16のいずれか一項に記載の方法を実施するための命令を備えるコンピュータ可読媒体。
  18. データ記憶システムと、請求項1〜16のいずれか一項に記載の方法を行うための命令を備える処理装置とを備えるコンピュータシステム。
JP2012540239A 2009-11-24 2010-11-23 多次元データのための密度ベースのクラスタ化 Active JP5642190B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US26419609P 2009-11-24 2009-11-24
US61/264,196 2009-11-24
PCT/CA2010/001873 WO2011063518A1 (en) 2009-11-24 2010-11-23 Density based clustering for multidimensional data

Publications (2)

Publication Number Publication Date
JP2013511783A true JP2013511783A (ja) 2013-04-04
JP5642190B2 JP5642190B2 (ja) 2014-12-17

Family

ID=44065786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012540239A Active JP5642190B2 (ja) 2009-11-24 2010-11-23 多次元データのための密度ベースのクラスタ化

Country Status (6)

Country Link
US (1) US9165052B2 (ja)
EP (1) EP2504776B1 (ja)
JP (1) JP5642190B2 (ja)
AU (1) AU2010324501B2 (ja)
CA (1) CA2781650C (ja)
WO (1) WO2011063518A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020101893A (ja) * 2018-12-20 2020-07-02 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9193992B2 (en) * 2012-06-05 2015-11-24 Agilent Technologies, Inc. Method for determining ploidy of a cell
US9286350B2 (en) * 2013-06-28 2016-03-15 International Business Machines Corporation Estimating most frequent values for a data set
JP6400037B2 (ja) * 2016-03-17 2018-10-03 ヤフー株式会社 判定装置、および判定方法
US20170286868A1 (en) * 2016-03-31 2017-10-05 Ebay Inc. Preference clustering using distance and angular measurement
KR101995419B1 (ko) * 2016-11-08 2019-07-02 한국전자통신연구원 데이터 분석 시스템 및 그 방법
EP3340107B9 (en) * 2016-12-23 2021-07-21 Cytognos, S.L. Method of digital information classification
US10678888B2 (en) * 2017-11-24 2020-06-09 Vmware, Inc. Methods and systems to predict parameters in a database of information technology equipment
US11030466B2 (en) 2018-02-11 2021-06-08 Nortek Security & Control Llc License plate detection and recognition system
US11664129B2 (en) 2019-08-13 2023-05-30 International Business Machines Corporation Mini-batch top-k-medoids for extracting specific patterns from CGM data
CN112288571B (zh) * 2020-11-24 2022-06-10 重庆邮电大学 一种基于快速构建邻域覆盖的个人信用风险评估方法
CN113537311B (zh) * 2021-06-30 2023-08-04 北京百度网讯科技有限公司 一种空间点的聚类方法、装置及电子设备
CN113779105B (zh) * 2021-08-11 2022-12-13 桂林电子科技大学 分布式轨迹流伴随模式挖掘方法
CN113744405B (zh) * 2021-08-26 2023-06-06 武汉理工大学 一种基于指数函数密度聚类模型的室内目标提取方法
CN114446396A (zh) * 2021-12-17 2022-05-06 广州保量医疗科技有限公司 肠道菌群移植的群组配型方法、系统、设备及存储介质
CN115952426B (zh) * 2023-03-10 2023-06-06 中南大学 基于随机采样的分布式噪音数据聚类方法及用户分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005529382A (ja) * 2002-02-08 2005-09-29 ザ ユニバーシティ オブ クイーンズランド 共通する蛋白質の表面形状およびその使用
JP2008299640A (ja) * 2007-05-31 2008-12-11 Tokyo Institute Of Technology パターン認識装置、パターン認識方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226408B1 (en) 1999-01-29 2001-05-01 Hnc Software, Inc. Unsupervised identification of nonlinear data cluster in multidimensional data
AU6812200A (en) 1999-08-30 2001-03-26 Synes Nv Topographic map and methods and systems for data processing therewith
US6897875B2 (en) * 2002-01-24 2005-05-24 The Board Of The University Of Nebraska Methods and system for analysis and visualization of multidimensional data
US8150795B2 (en) * 2004-12-22 2012-04-03 Wisconsin Alumni Research Foundation Methods and devices for analysis of clustered data, in particular action potentials (i.e. neuron firing signals in the brain)

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005529382A (ja) * 2002-02-08 2005-09-29 ザ ユニバーシティ オブ クイーンズランド 共通する蛋白質の表面形状およびその使用
JP2008299640A (ja) * 2007-05-31 2008-12-11 Tokyo Institute Of Technology パターン認識装置、パターン認識方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200701218013; 櫻井 啓介 他: '競合型ニューラルネットを用いたオンライン準教師付能動学習手法' 電子情報通信学会論文誌 (J90-D) 第11号 , 20071101, pp.3091-3102, 社団法人電子情報通信学会 *
JPN6014008625; 櫻井 啓介 他: '競合型ニューラルネットを用いたオンライン準教師付能動学習手法' 電子情報通信学会論文誌 (J90-D) 第11号 , 20071101, pp.3091-3102, 社団法人電子情報通信学会 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020101893A (ja) * 2018-12-20 2020-07-02 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Also Published As

Publication number Publication date
EP2504776A4 (en) 2015-08-19
US9165052B2 (en) 2015-10-20
EP2504776A1 (en) 2012-10-03
CA2781650C (en) 2020-08-25
US20130013631A1 (en) 2013-01-10
EP2504776B1 (en) 2019-06-26
AU2010324501B2 (en) 2016-05-12
WO2011063518A1 (en) 2011-06-03
JP5642190B2 (ja) 2014-12-17
CA2781650A1 (en) 2011-06-03
AU2010324501A1 (en) 2012-07-12

Similar Documents

Publication Publication Date Title
JP5642190B2 (ja) 多次元データのための密度ベースのクラスタ化
Caicedo et al. Data-analysis strategies for image-based cell profiling
Nikkilä et al. Analysis and visualization of gene expression data using self-organizing maps
Vlasblom et al. Markov clustering versus affinity propagation for the partitioning of protein interaction graphs
Stumpfe et al. Methods for SAR visualization
Lyu et al. Comparison of normalization methods for Hi-C data
Awan et al. MS-REDUCE: an ultrafast technique for reduction of big mass spectrometry data for high-throughput processing
Machné et al. Similarity-based segmentation of multi-dimensional signals
Bonachera et al. Using self-organizing maps to accelerate similarity search
US20090182994A1 (en) Two-level representative workload phase detection method, apparatus, and computer usable program code
US20100198774A1 (en) Systems and Methods for Aligning Multiple Point Sets
Clyde et al. Regression enrichment surfaces: a simple analysis technique for virtual drug screening models
US20170039315A1 (en) Information processing apparatus and simulation method
Liu et al. Are dropout imputation methods for scRNA-seq effective for scATAC-seq data?
Kayastha et al. From bird’s eye views to molecular communities: two-layered visualization of structure–activity relationships in large compound data sets
Rao et al. Partial correlation based variable selection approach for multivariate data classification methods
Wang et al. Hypergraph based geometric biclustering algorithm
Kenidra et al. A partitional approach for genomic-data clustering combined with k-means algorithm
Koizumi et al. BJR-tree: fast skyline computation algorithm using dominance relation-based tree structure
Zheng Relation between weight matrix and substitution matrix: motif search by similarity
Renc et al. EBIC. JL: an efficient implementation of evolutionary biclustering algorithm in Julia
Jayaraj et al. A GPU based virtual screening tool using SOM
Grohmann et al. Upgrading affinity screening experiments by analysis of next-generation sequencing data
Abdul-Jabbar et al. Comparative study for Bi-clustering algorithms: historical and methodological notes
Punitha Extraction of Co-Expressed Degs From Parkinson Disease Microarray Dataset Using Partition Based Clustering Techniques

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140226

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140516

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140523

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140624

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141028

R150 Certificate of patent or registration of utility model

Ref document number: 5642190

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250