JP2005301789A - クラスタ解析装置、クラスタ解析方法、及びクラスタ解析プログラム - Google Patents

クラスタ解析装置、クラスタ解析方法、及びクラスタ解析プログラム Download PDF

Info

Publication number
JP2005301789A
JP2005301789A JP2004118792A JP2004118792A JP2005301789A JP 2005301789 A JP2005301789 A JP 2005301789A JP 2004118792 A JP2004118792 A JP 2004118792A JP 2004118792 A JP2004118792 A JP 2004118792A JP 2005301789 A JP2005301789 A JP 2005301789A
Authority
JP
Japan
Prior art keywords
cluster
clustering
data
scale
density distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004118792A
Other languages
English (en)
Inventor
Makoto Ishii
信 石井
Shigemasa Oba
成征 大羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nara Institute of Science and Technology NUC
Original Assignee
Nara Institute of Science and Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nara Institute of Science and Technology NUC filed Critical Nara Institute of Science and Technology NUC
Priority to JP2004118792A priority Critical patent/JP2005301789A/ja
Publication of JP2005301789A publication Critical patent/JP2005301789A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 信頼性の高いクラスタリングを実現し、生命情報に関するデータの解析を行なう。
【解決手段】 CPU3は、コリレーション族のカーネル関数を用いて、M次元のパターンベクトルに対し、確率密度関数を推定し、推定した確率密度関数を基に、密度分布モード探索アルゴリズムを用いてパターンベクトルのクラスタリングを行なう。以上を複数スケールのカーネルで行い、同時に図示する。
【選択図】 図1

Description

本発明は、生命情報に関する複数のデータをクラスタリングするクラスタ解析装置、クラスタ解析方法、クラスタ解析プログラムに関するものである。
遺伝子発現解析では、サンプル毎に複数の遺伝子の発現量が表された遺伝子発現行列に対し、樹状図を作成してクラスタリングを行なう階層化クラスタリングが広く用いられている。図17は、階層化クラスタリングによる遺伝子発現解析を説明するための図面である。Hは、遺伝子発現行列を示し、各列は遺伝子の種類を示し、各行はサンプルの種類を示している。行列H内にある矩形状の領域は、行列Hの1成分を示し、あるサンプルにおける遺伝子の発現量が色を用いて表示されている。そして、階層化クラスタリングは、この行列Hにおいて、枝Vを用いて類似する遺伝子同士を繋ぎ合わせていき、トーナメント表のような樹状図を作成し、この樹状図を基に、クラスタリングを行っている。
しかしながら、階層化クラスタリングは、データ相互の関係によってボトムアップ的に樹状図を作成するものであるため、母集団中のデータが例えば1個出入りするだけで、全く異なる樹状図が作成されることが頻繁に発生する。そのため、信頼性の高いクラスタリングができないという問題があった。
本発明の目的は、母集団中に小数のデータの出入りがある場合であっても、クラスタリング結果が大きく変動せず、信頼性の高いクラスタリング結果が得られ、高精度に生命情報に関するデータをクラスタリングすることができるクラスタ解析装置、クラスタ解析方法、及びクラスタ解析プログラムを提供することである。
本発明にかかるクラスタ解析装置は、生命情報に関する複数のデータをクラスタリングするクラスタ解析装置であって、カーネル関数を用い、前記データの確率密度分布を推定する推定手段と、推定された確率密度分布を基に、密度分布モード探索アルゴリズムを用いて前記データのクラスタリングを行なうクラスタリング手段とを備えることを特徴とする。
また、前記生命情報に関するデータが、遺伝子発現プロファイルデータであることが好ましい。
また、上記クラスタ解析装置において、前記カーネル関数のスケールを設定するスケール設定手段を更に備え、前記推定手段は、前記スケール毎に、前記データの確率密度分布を推定し、前記クラスタリング手段は、前記スケール毎に前記データのクラスタリングを行なうことが好ましい。
前記クラスタリング手段によるクラスタリング結果を基に、各データが、スケール毎に、どのクラスタに属するかをクラスタ別に色分けして示す画像を作成する画像作成手段を更に備え、
また、上記クラスタ解析装置において、前記画像作成手段は、各クラスタがスケール全域に亘って連続して表示されるように前記画像を作成することが好ましい。
また、前記密度分布モード探索アルゴリズムは、ミーンシフトアルゴリズムであることが好ましい。
また、前記カーネル関数は、式(A)で表され、前記密度分布モードアルゴリズムは、各データの座標ベクトルを始点v1として、式(B)の演算を繰り返し実行し、vi+1のviに対する変化が、ほぼなくなった点を収束点モードとし、前記収束点モードが同一となる始点v1を1つのクラスタとすることが好ましい。
Figure 2005301789
但し、K(xn,x)は、カーネル関数を示し、gはcosθnの増大に応じて出力値が増大する任意の関数を示し、g´はgの微分を示し、un=xn/|xn|を示し、v1=x/|x|を示し、xnは生命情報に関するデータの座標ベクトルを示し、xは生命情報に関するデータxnが配置される空間の任意の点の座標ベクトルを示し、θnはxnとxとがなす角度を示し、|x|はxの大きさを示し、|xn|はxnの大きさを示し、nは1以上の整数を示す。
本発明にかかるクラスタ解析方法は、生命情報に関する複数のデータをコンピュータによりクラスタリングするクラスタ解析方法であって、前記コンピュータが、カーネル関数を用い、前記データの確率密度分布を推定するステップと、前記コンピュータが、推定された確率密度分布を基に、密度分布モード探索アルゴリズムを用いて、前記データのクラスタリングを行なうステップとを備えることを特徴とする。
本発明にかかるクラスタ解析プログラムは、生命情報に関する複数のデータをクラスタリングするクラスタ解析プログラムであって、カーネル関数を用い、前記データの確率密度分布を推定する推定手段と、推定された確率密度分布を基に、密度分布モード探索アルゴリズムを用いて、前記データのクラスタリングを行なうクラスタリング手段としてコンピュータを機能させることを特徴とする。
請求項1、7、及び8記載の発明によれば、カーネル関数を用いて、生命情報に関する複数のデータに対する確率密度分布が推定され、推定された確率密度分布のモード(極大値)を求める密度分布モード探索アルゴリズムによって、各データはクラスタリングされている。この確率密度分布は、カーネル関数を用いて算出されており、母集団中に小数のデータの出入りがあっても大きく変動するものではない。そして、この確率密度分布のモードを求めることでクラスタリングが行なわれているため、母集団中に小数のデータの出入りがある場合であっても、クラスタリング結果は大きく変動せず、信頼性の高いクラスタリングを行なうことができる。
請求項2記載の発明によれば、生命情報に関するデータを遺伝子発現プロファイルデータとしたため、信頼性の高い遺伝子発現解析を行なうことができる。
請求項3記載の発明によれば、カーネル関数のスケールが設定され、設定されたスケール毎にデータのクラスタリングが行なわれているため、スケール毎のクラスタリング結果を一度に得ることができる。カーネル関数を用いてクラスタリングを行なった場合、スケールに応じてクラスタの数が変動する。遺伝子発現解析の分野では、スケールの値を変更し、解析対象となる遺伝子の種類等に応じて好ましいクラスタリング結果を得たいという要望がある。本発明では、スケール毎のクラスタリング結果が一度に算出されているため、ユーザは、この結果を基に、所望するスケールの値を容易に決定することができる。
請求項4記載の発明によれば、同一のクラスタが全スケールに亘って、連続して表示されるような、スケール毎に各クラスタが色分けして表示された画像が作成されるため、この画面を見たユーザは、スケールの決定をより直感的に行なうことができる。
請求項5記載の発明によれば、ミーンシフトアルゴリズムによりクラスタリングが行なわれているため、旧来の勾配法アルゴリズムに比較してモード検出の計算効率を向上させることができる。
請求項6記載の発明によれば、各データxnが配置される空間(データxの要素数がMの場合、M次元の空間)において、原点を中心とし、半径を1とするM次元の球の表面上に、データxnが投影され、投影されたデータv1と、球表面上のある点unとの原点から見た角度の大きさのみに基づいて、データxnの確率密度分布が球表面上において推定される。
そして、投影点v1に対し、式(B)の演算が繰り返し実行されることにより、v1が、球表面上の確率密度分布のモードに向けて移動されていき、vi+1が、viに対して、ほぼ変化しなくなった点が収束点とされ、収束点を同一とするv1が1つのクラスタとされ、クラスタリングが行なわれている。そのため、公知のユークリッド距離に基づくカーネル関数を用いてクラスタリングを行なう場合に比べ、高次元のデータに対するクラスタリングの信頼性を高めることができる。
以下、本発明の一実施の形態によるクラスタ解析装置について図面を参照しながら説明する。図1は、本発明の一実施の形態によるクラスタ解析装置の構成を示すブロック図である。ここでは、例として、マイクロアレイなどによる遺伝子発現プロファイルデータに対する解析について説明する。
図1に示すクラスタ解析装置は、通常のコンピュータ等から構成され、入力装置1、ROM(リードオンリメモリ)2、CPU(中央演算処理装置)3、RAM(ランダムアクセスメモリ)4、外部記憶装置5、表示装置6及び記録媒体駆動装置7を備える。各ブロックは内部のバスに接続され、このバスを介して種々のデータ等が入出力され、CPU3の制御の下、種々の処理が実行される。
入力装置1は、キーボード、マウス等から構成され、操作者が種々のデータ及び操作指令等を入力するために使用される。例えば、入力装置1は、操作者が入力した遺伝子発現プロファイルデータを取得し、CPU3の制御の下、RAM4又は外部記憶装置5に出力する。
ROM2には、BIOS(Basic Input/Output System)等のシステムプログラム等が記憶される。外部記憶装置5は、ハードディスクドライブ等から構成され、外部記憶装置5には所定のOS(Operating System)及びクラスタ解析プログラム等が記憶される。CPU3は、外部記憶装置5からクラスタ解析プログラム等を読み出し、各ブロックの動作を制御する。RAM4は、CPU3の作業領域等として用いられる。
表示装置6は、液晶表示装置等から構成され、CPU3の制御の下に種々の操作画面及び推定結果画面等を表示する。また、必要に応じて推定結果等を印字する印刷装置を付加してもよい。
記録媒体駆動装置7は、CD−ROMドライブ、フレキシブルディスクドライブ等から構成される。なお、クラスタ解析プログラムを、CD−ROM、フレキシブルディスク等のコンピュータ読み取り可能な記録媒体8に記録し、記録媒体駆動装置7により記録媒体8からクラスタ解析プログラムを読み出して外部記憶装置5にインストールして実行するようにしてもよい。また、図1に示すクラスタ解析装置が通信装置等を備え、クラスタ解析プログラムが所定のネットワークを介して図1に示すクラスタ解析装置に接続された他のコンピュータ等に記憶されている場合、当該コンピュータからネットワークを介してクラスタ解析プログラムをダウンロードして実行するようにしてもよい。
本実施の形態では、CPU3がクラスタリング手段、推定手段、スケール設定手段、画像作成手段の一例に相当し、遺伝子発現量を示すパターンベクトル及びサンプルが生命情報に関するデータに相当する。
図2は、クラスタ解析装置の動作を示すフローチャートである。まず、ステップS1において、CPU3は、遺伝子発現プロファイルデータを取得する。図3は、遺伝子発現プロファイルデータのデータ構造を示す模式図である。遺伝子発現プロファイルデータは、(N行×M列)行列Hの形で得られる。この行列Hを発現量行列と呼ぶ。Nは遺伝子の種類の個数を示し、Mはサンプル数を示す。行列Hの第(n,j)成分hnjは、第n遺伝子の第jサンプルにおける発現量を表す数値である。ここで、第n横ベクトルを、パターンベクトルxnと呼ぶ。パターンベクトルxnは、1〜Mのサンプルに対するM個の発現量を表すベクトルである。そのため、1つのパターンベクトルxnは、M次元空間内において、1つの点として表すことができる。本クラスタ解析装置は、M次元空間内にN個のパターンベクトルxnを配置し、これらのパターンベクトルxnをクラスタリングする。
ステップS2において、CPU3は、入力された遺伝子発現プロファイルデータからn個のパターンベクトルxnを生成し、M次元空間に配置する。図4は、2次元空間内に設定されたパターンベクトルxnの確率密度分布を示した図面であり、横軸はサンプル1の発現量を示し、縦軸はサンプル2の発現量を示している。図4に示された複数の点P1,P2が、パターンベクトルxnである。例えば、サンプル1の発現量が3、サンプル2の発現量が5のパターンベクトルxnがあったとすると、このパターンベクトルxnは、横軸が3,縦軸が2の座標にプロットされる。
ステップS3において、CPU3は、カーネル関数のスケールに初期値を設定する。そして、スケールが設定されたカーネル関数を用いて、M次元空間に配置されたパターンベクトルxnの確率密度分布を推定する(ステップS4)。カーネル関数をK(xn,x)とすると、確率密度分布を示す確率密度関数f(x)は、式(1)で表される。xnはパターンベクトルを示し、Nはパターンベクトルxnの数を示し、xは空間内の任意の点を示す。また、K(xn,x)≧0、∫K(xn,x)dxn=1である。
Figure 2005301789
カーネル関数K(xn,x)としては、RBF族のカーネル関数が、公知である。式(2)はRBF族のカーネル関数の一般形を示している。gはxとxnとのユークリッド距離が小さいほど出力値が大きくなる任意の関数である。
ここで、RBF(radial basis function:動径基底関数)族の1次元空間を例に挙げ、スケールと確率密度分布との関係について説明する。図5は、カーネル関数と確率密度分布との関係を説明するための図面であり、(a)は半径がr1のカーネル関数K(xn,x)を示し、(b)は半径がr2(r2<r1)のカーネル関数K(xn,x)を示し、(b)は(a)のカーネル関数を用いて算出された確率密度関数f(x)を示し、(d)は(c)のカーネル関数を用いて算出された確率密度関数f(x)を示している。(b),(d)のx軸上に描かれた複数の単線SLはパターンベクトルxnが存在する座標を示している。このカーネル関数の半径がスケールである。
(a)及び(b)において、x0はカーネル関数の中心を示し、xnはx軸上に存在するあるパターンベクトルxnを示している。RBF族のカーネル関数は、中心x0とパターンベクトルxnとの距離が小さいほど、頂点の高さKHが高くなり、逆の場合、頂点の高さKHが低くなる。また、RBF族のカーネル関数は、x=x0に対して対象な釣鐘状の形状を有している。そして、地点xにカーネル関数の中心x0を当てはめて、全パターンベクトルxnに対するx軸の確率密度分布を求め、さらに、カーネル関数をx軸上にずらしていき、各地点xにカーネル関数の中心x0を当てはめたときのx軸の確率密度分布を算出し、算出した各地点xのx軸の確率密度分布の総和が、確率密度関数f(x)となる。
(b)及び(d)を比較すれば分かるように、カーネル関数のスケールの値が大きい場合、確率密度関数f(x)の形状はなだらかであるが、カーネル関数のスケールの値を小さくすると、確率密度関数f(x)の形状はシャープとなり、その結果、極大値(モード)の数が変動する。つまり、スケールを減少させると、確率密度関数f(x)のモードの数は増大し、一方、スケールを増大させると、確率密度関数f(x)のモードの数は減少する。本実施の形態では、スケールを大きい値から小さい値へ減少させるものとする。したがって、ステップS3においては、初期値としては、スケールの変動範囲の最大値が設定される。
なお、式(2)に示すRBF族のカーネル関数のより具体的な関数として、式(3)で示すガウシアン(Gaussian)カーネル関数が知られており、図4で示す確率密度分布は、式(3)を用いて算出されたものである。式(3)において、hはスケールを示している。図4は、h=0.5のときの確率密度分布である。
Figure 2005301789
図4に示された複数の閉曲線は、確率密度分布の等高線CLを示しており、内側にある閉曲線ほど確率密度が高い。また、M1〜M4は確率密度分布のモードを示している。
ステップS5において、CPU3は、密度分布モード探索アルゴリズムの一例であるミーンシフトアルゴリズムを用いてクラスタリングを行なう。ミーンシフトアルゴリズムは、空間上の任意の点を始点として確率密度分布の勾配に沿って移動していくような点列を生成し、いずれかのモードに到達させ、同一のモードに到達した点を1つのクラスタとして纏めることによりクラスタリングを行なう手法である。図4に示す点P1を確率密度分布の勾配に沿って移動させていくと、モードM1に到達するため、点P1はモードM1に対応するクラスタである。また、点P2を確率密度分布の勾配に沿って移動させていくと、モードM2に到達するため、点P2はモードM2に対応するクラスタとなる。図4に示す点線によって区分けされた4つの領域D1〜D4は、それぞれモードM1〜M4に対応する領域を示しており、領域D1〜D4に属する各点に対してミーンシフトアルゴリズムを適用した場合、これら各点はそれぞれモードM1〜M4に到達する。そして、パターンベクトルxnに対してミーンシフトアルゴリズムが適用され、どのモードに到達したかによって、パターンベクトルxnはクラスタリングされる。
ステップS6において、カーネル関数に設定されたスケールが設定範囲の最終値でない場合(ステップS6でNO)、CPU3は、スケールの再設定を行い(ステップS7)、処理をステップS4に戻す。一方、スケールが設定範囲の最終値である場合(ステップS6でYES)、処理が終了される。CPU3は、カーネル関数として、式(3)に示すガウシアンカーネル関数を用いた場合、例えばスケールhの値を初期値=1、最終値=0として0.1の刻み幅で変化させる。なお、後述するコリレーション族のカーネル関数であるvMFカーネル関数を用いた場合は、スケールの増大に伴って、確率密度関数f(x)の形状はシャープになるため、初期値から最終値に至るまで、スケールの値を増大させる。この場合、スケールの刻み幅をスケールの値に応じて適宜変更してもよい。
図6は、ガウシアンカーネル関数を用いた場合の、2次元のパターンベクトルxnに対する確率密度分布を示しており、(a)はスケール1、(b)はスケール0.7、(c)はスケール0.5、(d)はスケール0.2の場合を示している。
図6(a)の場合、モードの数は1個であり、(b)の場合、モードの数は2個となり、(c)の場合、モードの数は4個となり、(d)に至ってはモード数が9個となっている。そのため、スケールの値が減少するにつれて、等高線CLの数が増大し、確率密度分布の勾配が急峻となり、それに応じてモードの数が増大していることが分かる。
図2に示すステップS4では、RBF族のカーネル関数を用いたものを示したが、これに変えて本発明者によって開発されたコリレーション(correlation)族のカーネル関数を用いてもよい。式(4)はコリレーション族のカーネル関数の一般形を示している。
Figure 2005301789
式(4)に示すθnは、パターンベクトルxnが配置された空間のある地点xの座標ベクトルと、パターンベクトルxnとのなす角度を示している。gはcosθnの値が大きくなるにつれて(θnの値が小さいほど)値が小さくなる任意の関数を示している。
式(4)に示すように、gの引数はcosθnであり、cosθnはxn・x/|xn||x|で表され、xn/|xn|と、x/|x|とはそれぞれ単位ベクトルであるため、gは、パターンベクトルxnと地点xとのなす角度のみに依存する関数となる。その結果、パターンベクトルxnと地点xとは、原点Oを中心とするM次元の球の表面上に配置された点と考えることができる。
2次元空間においては、パターンベクトルxnと地点xとは、図7に示すように、原点をOを中心とする単位円Cの円周上に配置された点と考えることができる。空間内において、地点xの近傍に位置するパターンベクトルx1が地点xとなす角度θ1は、地点xの遠方に位置するパターンベクトルx2が地点xとなす角度θ2よりも小くなることは明白である。また、gは上述したように、θnの値が小さいほど、値が大きくなる関数である。そのため、gの値は、パターンベクトルxnの近傍の地点xの方が、パターンベクトルxnの遠方の地点xよりも大きくなる。そして、式(1)に示すように地点xの確率密度は、パターンベクトルxn毎に算出されたgの総和となるため、パターンベクトルxnが密集する場所の地点xほど、確率密度の値が大きくなる。
このように、コリレーション族のカーネル関数を用いた確率密度分布推定は、距離に依存せず角度のみに依存するものであるため、ユークリッド距離に基づくRBF族のカーネル関数を用いた確率密度分布推定と比べ、高次元空間におけるクラスタリングの信頼性を高めることができる。
さらに、本発明者は、式(4)に示すカーネル関数の一般形に対するより具体的な関数として、式(5)に示すカーネル関数を開発した。
Figure 2005301789
以下、この関数をvMF(von Mises-Fisher)関数と呼ぶ。κはスケールを示している。vMF関数の本質的部分はcosθを含むexp(κu)にあり、Z(M,κ)-1は、exp(κu)を正規化するための係数である。Z(M,κ)は、式(6)によって表される。ここで、Bνは、ν(=M/2−1)次の変形ベッセル関数であり、式(7)によって表される。vMFカーネル関数は、方向ベクトルデータを扱う際にしばしば用いられるvMF分布に基づいて算出されたものである。また、vMF関数は、cosθの増大に伴って単調増大するため、vMFは球面上の自然な窓関数としてふるまう。
図8は、2次元のvMFカーネル関数を示したグラフである。図8から分かるように、vMFカーネル関数は、ほぼ楕円形状を有し、スケールκが増大するにつれて、楕円の長軸が大きくなり、かつ、楕円の中心が縦方向にずれていく関数である。
次に、本発明者が開発したコリレーション族のカーネル関数に基づくミーンシフトアルゴリズムについて説明する。コリレーション族のカーネル関数による確率密度関数f(x)の傾きは、式(8)に示すように、確率密度関数f(x)をxに関して偏微分することよって得られる。そして、f(x)の傾きが0を満たすxがモードとなる。したがって、式(8)に対するモードは、式(8)を0としたときの演算結果から式(9)によって表される。
Figure 2005301789
但し、u=x/|x|、un=xn/|xn|、cosθn=u・unである。
そして、本発明者が開発したコリレーション族のカーネル関数に対するミーンシフトアルゴリズムは、式(10)によって表される。
Figure 2005301789
但し、iは1以上の整数を示し、v1は、M次元の球の表面に設定された始点である。式(10)に示す演算を繰り返し実行し、vi+1の値がviに対してほとんど変化しなくなった時の空間上の地点を当該始点の収束点とする。そして、空間上の各点を始点とし、式(10)に示す演算を繰り返し実行し、収束点がほぼ同じ点となる始点の集合が一つのクラスタとなる。したがって、CPU3は、パターンベクトルxnに対し、式(10)の演算を繰り返し実行することにより、パターンベクトルxnをクラスタリングする。
図9は、CPU3が、2次元のパターンベクトルxnに対し、コリレーション族のカーネル関数によるミーンシフトアルゴリズムを用いてクラスタリングを行なったときの、クラスタリング結果を示した図面であり、(a)はスケールκ=0.1、(b)はスケールκ=1、(c)はスケールκ=10、(d)はスケールκ=100の場合を示している。なお、(a)〜(d)において、同一のパターンベクトルxnが用いられている。点Pはパターンベクトルxnを示している。なお、カーネル関数としてはvMFカーネル関数を用いている。
これらのグラフは、原点Oから見て、0〜360度のどの方向にパターンベクトルxnが多く分布しているかを示しており、グラフGが基準線DLに対して外側にふくらんでいる場合、その方向へのパターンベクトルxnの分布は密となり、グラフGが基準線に対して内側にへこんでいる場合、その方向へのパターンベクトルxnの分布は疎となる。パターンベクトルxnが0〜360度の範囲で均一に存在する場合、グラフGは基準線DLに一致する。(a)及び(b)に示すように、スケールκが小さい場合、グラフGは、基準線DLとほぼ同じ円形となっており、パターンベクトルxnの分布状態を細かく検出することができていない。一方、(c)及び(d)に示すように、スケールκの値を大きくすると、パターンベクトルxnの分布状態がより細かく検出することができる。例えば(c)の場合、グラフGには4個の山が形成されているため、パターンベクトルxnを少なくとも4つのクラスタに分けることができる。(d)の場合、グラフGは8個の山が形成されているため、パターンベクトルxnを少なくとも8個のクラスタに分けることができる。
このように、本実施の形態では、パターンベクトルxnの確率密度分布を算出し、この確率密度分布を基に、クラスタリングを行なっているため、母集団中に小数のデータの出入りがある場合であっても、クラスタリング結果が大きく変動することなく、信頼性の高いクラスタリングを行なうことができる。
また、コリレーション族のカーネル関数を用いたミーンシフトアルゴリズムによるクラスタリングを行なっているため、Mの値が5000を超えるような高次元のパターンベクトルxnを取り扱う場合であっても、より信頼性の高いクラスタリングを行なうことができる。
次に、各スケールに対するクラスタリング結果が描画されたブリックビュー(Brick view)について説明する。図10は、ブリックビューの一例を示した図面である。ブリックビューは縦軸にサンプル、横軸にスケールが設定されている。同一クラスタには、同じ色が付されている。どのクラスタにも属さない孤立点は、例えば黒色(図面では白色)で表示される。このブリックビューによれば、スケール毎にクラスタがどのように分布しているかを一目で理解することができる。また、このブリックビューは、従来の階層化クラスタリングによるクラスタリング結果から作成することもできる。
このブリックビューは、スケール毎に算出されたクラスタリング結果に対し、CPU3が、クラスタリナンバリング処理と、サンプル配列処理とを実行することによって作成される。まず、クラスタリナンバリング処理を説明する。図11は、クラスタリナンバリング処理を示したフローチャートである。図12(a)は、クラスタリナンバリング処理を説明するための図面である。図11及び図12(a)において、iはスケールを示す数値であり、その値は、実際にカーネル関数に代入されるスケール値を大きい順または、小さい順に並べたときの、順序を示す整数値である。Lは、i−1番目のスケールのL番目のクラスタを示す整数値である。kは、i番目のスケールのk番目のクラスタを示す整数値である。また、サンプルは、上記パターンベクトルのことを示す。
CPU3は、iに対し初期値である2を設定し(ステップS11)、Lに対し初期値である1を設定し(ステップS12)、kに対し初期値である1を設定する(ステップS13)。
ステップS14において、CPU3は、i−1番目のスケールのL番目のクラスタと、i番目のスケールのk番目のクラスタとのサンプルのオーバラップ数を算出する。この場合、図12(a)に示すように、クラスタC21は、サンプルS1,S3,S4,S5,S6,S7を含み、クラスタC31は、サンプルS1,S3,S4,S5を含み、両クラスタ共、サンプルS1,S3,S4,S5を含んでいるため、クラスタC21とクラスタC31とのオーバラップ数は4と算出される。また、クラスタC32には、サンプルS2,S5,S6が含まれているため、クラスタC21とクラスタC32とのオーバラップ数は2と算出される。また、クラスタ33には、サンプルS9,S10が含まれているため、クラスタC21と、クラスタC33とのオーバラップ数は0と算出される。
ステップS15において、kが最終値でない場合(ステップS15でNO)、CPU3は、kに1を加算し(ステップS16)、処理をステップS14に戻す。そして、ステップS14〜S16の処理が繰り返され、i―1番目のスケールのL番目のクラスタと、i番目のスケールの全クラスタとのサンプルのオーバラップ数が算出されていく。すなわち、図12(a)に示すクラスタC11に対し、クラスタC21及びC22のそれぞれのオーバラップ数が順次算出され、次に、クラスタC21に対し、クラスタC31,C32,及びC33それぞれのオーバラップ数が順次算出され、次に、クラスタC22に対し、クラスタC31,C32,及びC33のオーバラップ数が順次算出されるというようにして、クラスタ間のオーバラップ数が算出されていく。
一方、ステップS15において、kが最終値である場合(ステップS15でYES)処理がステップS17に進められる。ステップS17において、CPU3は、オーバラップ数が最大のクラスタにL番目のクラスタのクラスタラベルを承継する。この場合、図12(a)に示すように、クラスタC11と、クラスタC21とのオーバラップ数は6であり、クラスタC11とクラスタC22とのオーバラップ数は4であるため、オーバラップ数が大きなクラスタC21に、クラスタC11のクラスタラベル1が承継され、クラスタC22には、新たなクラスタラベル2が与えられる。
また、クラスタC21とクラスタC31とのオーバラップ数は4であり、クラスタC21とクラスタC32とのオーバラップ数は2であり、クラスタC21とクラスタC33とのオーバラップ数は0であるため、オーバラップ数が最大のクラスタであるクラスタC31にクラスタC21のクラスタラベルである1が承継される。
さらに、クラスタC22とクラスタC31とのオーバラップ数は0であり、クラスタC22とクラスタC32とのオーバラップ数は1であり、クラスタC22とクラスタC33とのオーバラップ数は、2であるため、オーバラップ数が最大のクラスタであるクラスタC33にクラスタC22のクラスタラベル2が承継される。そして、クラスタC32には、新たにクラスタラベル3が付与される。
ステップS18において、Lが最終値でない場合(ステップS18でNO)、Lに1が加算され(ステップS22)、処理がステップS13に戻される。一方、Lが最終値である場合(ステップS18でYES)、処理がステップS19に進められる。ステップS19において、i番目のスケール中、クラスタラベルが承継されていないクラスタに対し、新たなクラスタラベルが付与される。この場合、クラスタラベルは、同一スケール内において、数が連続し、かつ、各クラスタ固有のクラスタラベルが付与される。
ステップS20において、iが最終値でない場合(ステップS20でNO)、iに1が加算され(ステップS21)、処理がステップS12に戻される。一方、iが最終値の場合(ステップS20でYES)、処理が終了される。以上によって、図12(a)に示すように、各クラスタにクラスタラベルが付与される。そして、各クラスタラベルに固有の色を割り当てることにより、各クラスタが色分けされる。すなわち、クラスタリナンバリング処理によって、ブリックビューを表示するにあたり、各サンプルに対して、スケール毎に付すべき色が決定されることとなる。
クラスタリナンバリング処理によって、前後するスケール間において、オーバラップするサンプル数が大きいクラスタには、同一の色が付され、この状態でスケール毎のクラスタリング結果を表示すれば、スケール毎のクラスタリング結果を理解することも可能である。しかしながら、このままでは、スケール方向においてクラスタが点在して表示されてしまう。例えば、図12(a)において、クラスタC45に、クラスタC31のクラスタラベル1が承継されたとすると、スケール方向において、同一クラスタが連続して表示されないこととなってしまう。そこで、スケール方向において、同一クラスタが可能な限り連続して表示されるように、各サンプルを配列するサンプル配列処理を実行し、スケール毎のクラスタリング結果を分かりやすく示すブリックビューを作成する。以下、サンプル配列処理について説明する。
図13は、サンプル配列処理を示すフローチャートである。図14〜図16は、A〜Jのサンプル名を有する10個のサンプルに対して、サンプル配列処理を施した時の処理結果を示した表である。以下、図13〜図16を用いて、サンプル配列処理を説明する。図13〜図16において、iはスケールの値を示し、f(i)は、iスケールにける各サンプルが有する得点を示し、その値は実数値をとる。δ(i)は、f(i)に基づくサンプルの順位を示し、得点の高いサンプルほど高い順位が与えられ、その値は、1からサンプルの個数までの連続する整数となる。Δ(i)は、iスケールにおいて、各サンプルがどのクラスタに属するかを示す数値であり、その値は、1から始まりクラスタ数分の整数値をとる。また、サンプルは、上述のパターンベクトルxnを示す。
まず、CPU3は、iに1を設定し(ステップS101)、各サンプルに固有の得点を付与し(ステップS102)、各サンプルを得点の大きい順に並べ替える(ステップS103)。この場合、図14(a)に示すように、サンプルA〜Jに対し、0.81〜0.02まで、各サンプル固有の得点f(1)が付与され、得点の高い順にサンプルA〜Jが配列される。また、図14(b)のδ(1)の列に示すように、サンプルA〜Jに対し、得点f(1)の高い順に、10〜1の順位が与えられる。ここで、得点f(i)は、例えば式(1)及び式(3)又は式(1)及び式(5)によって各スケールに対する確率密度関数を用いて算出される。
ステップS104において、iが最終値でない場合(ステップS104でNO)、CPU3は、iに1を加算する(ステップS105)。
ステップS106において、CPU3は、クラスタ毎に、一つ前のスケールの各サンプルの順位δ(i−1)の平均値を算出し、各クラスタに得点Ac(i)を付与する。cは、クラスタを識別するために便宜上付した数値(仮のクラスタ番号)を示し、以下に示すクラスタの順位Δ(i)とは相違する。図14(b)の場合、クラスタ2の得点A2(2)は、クラスタ2を構成するサンプルのスケール1における順位δ(1)を用いて、A2(2)=(10+9+8+7+5)/5=7.8と算出され、クラスタ1の得点A1(2)は、クラスタ1を構成するスケール1におけるサンプルの順位δ(1)を用いて、A1(2)=(6+4+3+2+1)/5=3.2と算出される。
ステップS107において、CPU3は、クラスタの得点Ac(i)の大きい順に、スケールiにおけるクラスタの順位Δ(i)を決定する。図14(b)例では、Δ(2)の列に示すように、サンプルA,H,B,C,Eからなるクラスタ2(2は便宜上付した数値)は、A2(2)=7.8であり、サンプルD,F,G,I,Jからなるクラスタ1(1は便宜上付した数値)、A1(2)=3.2であり、A2(2)>A1(2)であるため、クラスタ2はクラスタ順位Δ(2)=2が与えられ、クラスタ1はクラスタ順位Δ(2)=1が与えられる。すなわち、クラスタ2は、「2」のクラスタ番号が正式に与えられ、クラスタ1は「1」のクラスタ番号が正式に与えられることとなる。
ステップS108において、CPU3は、式(1)を用いて各サンプルに対する得点f(i)を新たに付与する(ステップS108)。この場合、図14(b)のf(2)の列、あるいは、図15(a)のf(3)の列に示すように、サンプルA〜Jに対し、新たな得点が付与される。
ステップS109において、CPU3は、同一クラスタに属する各サンプルが連続して配置され、且つ、得点f(i)が高い順となるように各サンプルを並べ替える。この場合、図14(b)及び(c)を比較すれば分かるように、クラスタ1の中に孤立して配置されたクラスタ2に属するサンプルEは、得点f(2)が0.4であるため、得点f(2)が0.52であるサンプルCの下の位置に配置されている。また、クラスタ2の中に孤立して配置されたクラスタ1に属するサンプルDは、得点f(2)が0.5であるため、得点f(2)が0.21であるサンプルFの上の位置に配置されている。これによって、サンプルA〜Jは、図14(c)に示すように並べ替えられる。
さらに、図15(a)及び(b)のΔ(3)の列を比較すれば分かるように、クラスタ2の中に孤立して配置されたクラスタ3に属するサンプルEは、得点f(3)が0.4であるため、得点f(3)が0.91であるクラスタ3に属するサンプルBの下の位置に配置される。さらに、クラスタ2に属するサンプルC及びDは、各々、得点(2)が0.52、0.5であるため、サンプルCの下にサンプルDが配置される。
さらに、クラスタ3に属するサンプルA及びHは、得点f(3)が、各々、1.21及び1.42であるため、図15(a)では、サンプルAの下に位置していたサンプルHが、図15(b)では、サンプルAの上に配置される。
さらに、図16(a)及び(b)のΔ(4)の列を比較すれば分かるように、クラスタ4に属するサンプルB及びEは、得点f(4)が、各々、1.2及び1.4であるため、(a)では、サンプルBの下に位置していたサンプルEが、(b)では、サンプルBの下に配置される。
ステップS110において、CPU3は、ステップS109の処理によって並べ替えられた各サンプルに対し、サンプルの順位δ(i)を算出する。この場合、サンプルA〜Jは、例えば図14(c)のδ(2)の列で示される順位を示す数値が与えられ、処理がステップS104に戻される。一方、ステップS104において、iが最終値となった場合(ステップS104でYES)、処理が終了される。
図12(b)を用い、このサンプル配列処理の説明をまとめると、i=1において、各サンプルの得点f(1)が算出され、得点の高い順に、各サンプルが並べ替えられ、各サンプルの順位を示すδ(1)が算出される。次に、i=2において、クラスタを分類するための順位を示すΔ(2)が決定され、各サンプルの得点f(2)が新たに算出され、得点f(2)を基に、同一クラスタに属するサンプルが連続して配置されるように、各サンプルが並べ替えられ、各サンプルの順位δ(2)が決定される。このような処理が全スケールに亘って行なわれ、最終的に得られたδ(n)によって、各サンプルの配列位置が決定される。すなわち、図10に示す縦軸に対する各サンプルの座標が決定される。
そして、サンプル配列処理によって決定された順序で、各サンプルを図10に示す縦軸上に配列し、配列したサンプルに対し、クラスタリナンバリング処理によって、スケール毎に決定された色を用い、各サンプルをスケール毎に色分けして表示すると、図10に示すブリックビューが得られる。
本発明の一実施の形態によるクラスタ解析装置の構成を示すブロック図である。 クラスタ解析装置の動作を示すフローチャートである。 遺伝子発現プロファイルデータのデータ構造を示す模式図である。 2次元空間内に設定されたパターンベクトルxnの確率密度分布を示した図面であり、横軸はサンプル1の発現量を示し、縦軸はサンプル2の発現量を示している。 カーネル関数と確率密度分布との関係を説明するための図面であり、(a)は半径がr1のカーネル関数K(xn,x)を示し、(b)は半径がr2(r2<r1)のカーネル関数(xn,x)を示し、(b)は(a)のカーネル関数を用いて算出された確率密度関数f(x)を示し、(d)は(c)のカーネル関数を用いて算出された確率密度関数f(x)を示している。 ガウシアンカーネル関数を用いて算出された、2次元のパターンベクトルxnに対する確率密度分布を示しており、(a)はスケールh=1、(b)はスケール0.7、(c)はスケール0.5、(d)はスケール0.2の場合を示している。 コリレーション族のカーネル関数を説明するための図面である。 2次元のvMFカーネル関数を示したグラフである。 2次元のパターンベクトルxnに対し、vMFカーネル関数によるミーンシフトアルゴリズムを用いてクラスタリングを行なったときの、クラスタリング結果を示した図面であり、(a)はスケールκ=0.1、(b)はスケールκ=1、(c)はスケールκ=10、(d)はスケールκ=100の場合を示している。 ブリックビューの一例を示した図面である。 クラスタリナンバリング処理を示したフローチャートである。 (a)は、クラスタリナンバリング処理を説明するための図面であり、(b)は、サンプル配列処理を説明するための図面である。 サンプル配列処理を示すフローチャートである。 10個のサンプルに対し、サンプル配列処理を施した時の処理結果を示した表である。 10個のサンプルに対し、サンプル配列処理を施した時の処理結果を示した表である。 10個のサンプルに対し、サンプル配列処理を施した時の処理結果を示した表である。 階層化クラスタリングを説明するための従来図である。
符号の説明
1 入力装置
2 ROM
3 CPU
4 RAM
5 外部記憶装置
6 表示装置
7 記録媒体駆動装置
8 記録媒体

Claims (8)

  1. 生命情報に関する複数のデータをクラスタリングするクラスタ解析装置であって、
    カーネル関数を用い、前記データの確率密度分布を推定する推定手段と、
    推定された確率密度分布を基に、密度分布モード探索アルゴリズムを用いて前記データのクラスタリングを行なうクラスタリング手段とを備えることを特徴とするクラスタ解析装置。
  2. 前記生命情報に関するデータが、遺伝子発現プロファイルデータであることを特徴とする請求項1記載のクラスタ解析装置。
  3. 前記カーネル関数のスケールを設定するスケール設定手段を更に備え、
    前記推定手段は、前記スケール毎に、前記データの確率密度分布を推定し、
    前記クラスタリング手段は、前記スケール毎に前記データのクラスタリングを行なうことを特徴とする請求項1又は2記載のクラスタ解析装置。
  4. 前記クラスタリング手段によるクラスタリング結果を基に、各データが、スケール毎に、どのクラスタに属するかをクラスタ別に色分けして示す画像を作成する画像作成手段を更に備え、
    前記画像作成手段は、各クラスタがスケール全域に亘って連続して表示されるように前記画像を作成することを特徴とする請求項3記載のクラスタ解析装置。
  5. 前記密度分布モード探索アルゴリズムは、ミーンシフトアルゴリズムであることを特徴とする請求項1〜4のいずれかに記載のクラスタ解析装置。
  6. 前記カーネル関数は、式(A)で表され、
    前記密度分布モードアルゴリズムは、各データの座標ベクトルを始点v1として、式(B)の演算を繰り返し実行し、vi+1のviに対する変化が、ほぼなくなった点を収束点モードとし、前記収束点モードが同一となる始点v1を1つのクラスタとすることを特徴とする請求項1〜5のいずれかに記載のクラスタ解析装置。
    Figure 2005301789
    但し、K(xn,x)は、カーネル関数を示し、gはcosθnの増大に応じて出力値が増大する任意の関数を示し、g´はgの微分を示し、un=xn/|xn|を示し、v1=x/|x|を示し、xnは生命情報に関するデータの座標ベクトルを示し、xは前記生命情報に関するデータxnが配置される空間の任意の点の座標ベクトルを示し、θnはxnとxとがなす角度を示し、|x|はxの大きさを示し、|xn|はxnの大きさを示し、nは1以上の整数を示す。
  7. 生命情報に関する複数のデータをコンピュータによりクラスタリングするクラスタ解析方法であって、
    前記コンピュータが、カーネル関数を用い、前記データの確率密度分布を推定するステップと、
    前記コンピュータが、推定された確率密度分布を基に、密度分布モード探索アルゴリズムを用いて、前記データのクラスタリングを行なうステップとを備えることを特徴とするクラスタ解析方法。
  8. 生命情報に関する複数のデータをクラスタリングするクラスタ解析プログラムであって、
    カーネル関数を用い、前記データの確率密度分布を推定する推定手段と、
    推定された確率密度分布を基に、密度分布モード探索アルゴリズムを用いて、前記データのクラスタリングを行なうクラスタリング手段としてコンピュータを機能させることを特徴とするクラスタ解析プログラム。
JP2004118792A 2004-04-14 2004-04-14 クラスタ解析装置、クラスタ解析方法、及びクラスタ解析プログラム Pending JP2005301789A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004118792A JP2005301789A (ja) 2004-04-14 2004-04-14 クラスタ解析装置、クラスタ解析方法、及びクラスタ解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004118792A JP2005301789A (ja) 2004-04-14 2004-04-14 クラスタ解析装置、クラスタ解析方法、及びクラスタ解析プログラム

Publications (1)

Publication Number Publication Date
JP2005301789A true JP2005301789A (ja) 2005-10-27

Family

ID=35333225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004118792A Pending JP2005301789A (ja) 2004-04-14 2004-04-14 クラスタ解析装置、クラスタ解析方法、及びクラスタ解析プログラム

Country Status (1)

Country Link
JP (1) JP2005301789A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272466A (ja) * 2006-03-30 2007-10-18 National Institute Of Advanced Industrial & Technology 画素ベース勾配クラスタリングによる多峰関数セグメンテーション方法
WO2009017204A1 (ja) * 2007-08-01 2009-02-05 Olympus Corporation クラスタリング方法、プログラムおよび装置
JP2010512777A (ja) * 2006-12-19 2010-04-30 ガルデルマ・リサーチ・アンド・デヴェロップメント 差分解析により取得されるトランスクリプトーム実験の結果を処理するための補正方法
JP2012145430A (ja) * 2011-01-12 2012-08-02 Japan Aerospace Exploration Agency 密度勾配の可視化法とその装置
US8560488B2 (en) 2008-08-08 2013-10-15 Nec Corporation Pattern determination devices, methods, and programs
CN109342872A (zh) * 2018-11-21 2019-02-15 陕西电器研究所 一种线缆导通高速检测算法
CN113075648A (zh) * 2021-03-19 2021-07-06 中国舰船研究设计中心 一种无人集群目标定位信息的聚类与滤波方法
CN116797051A (zh) * 2023-08-24 2023-09-22 青岛海洋地质研究所 基于多距离空间聚类分析的海洋碳泄漏点数量的评估方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272466A (ja) * 2006-03-30 2007-10-18 National Institute Of Advanced Industrial & Technology 画素ベース勾配クラスタリングによる多峰関数セグメンテーション方法
JP2010512777A (ja) * 2006-12-19 2010-04-30 ガルデルマ・リサーチ・アンド・デヴェロップメント 差分解析により取得されるトランスクリプトーム実験の結果を処理するための補正方法
WO2009017204A1 (ja) * 2007-08-01 2009-02-05 Olympus Corporation クラスタリング方法、プログラムおよび装置
JP5242568B2 (ja) * 2007-08-01 2013-07-24 オリンパス株式会社 クラスタリング方法、プログラムおよび装置
US8560488B2 (en) 2008-08-08 2013-10-15 Nec Corporation Pattern determination devices, methods, and programs
JP2012145430A (ja) * 2011-01-12 2012-08-02 Japan Aerospace Exploration Agency 密度勾配の可視化法とその装置
CN109342872A (zh) * 2018-11-21 2019-02-15 陕西电器研究所 一种线缆导通高速检测算法
CN113075648A (zh) * 2021-03-19 2021-07-06 中国舰船研究设计中心 一种无人集群目标定位信息的聚类与滤波方法
CN113075648B (zh) * 2021-03-19 2024-05-17 中国舰船研究设计中心 一种无人集群目标定位信息的聚类与滤波方法
CN116797051A (zh) * 2023-08-24 2023-09-22 青岛海洋地质研究所 基于多距离空间聚类分析的海洋碳泄漏点数量的评估方法
CN116797051B (zh) * 2023-08-24 2023-11-14 青岛海洋地质研究所 基于多距离空间聚类分析的海洋碳泄漏点数量的评估方法

Similar Documents

Publication Publication Date Title
US6624821B1 (en) Image texture retrieving method and apparatus thereof
US7653646B2 (en) Method and apparatus for quantum clustering
JP4556120B2 (ja) 情報処理装置および方法、並びにプログラム
WO2019207910A1 (ja) データ分析システム及びデータ分析方法
CN113344113B (zh) 一种基于改进k-means聚类的Yolov3锚框确定方法
JP2019045894A (ja) 検索プログラム、検索方法、及び、検索プログラムが動作する情報処理装置
WO2012102990A2 (en) Method and apparatus for selecting clusterings to classify a data set
JP5873764B2 (ja) 欠陥画像の提示方法
JP2005301789A (ja) クラスタ解析装置、クラスタ解析方法、及びクラスタ解析プログラム
EP2924599A1 (en) Computing program, computing apparatus and computing method
CN111492407B (zh) 用于绘图美化的系统和方法
JP3903613B2 (ja) 検索装置及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体
CN114943674A (zh) 瑕疵检测方法、电子装置及存储介质
CN111753719A (zh) 一种指纹识别方法及装置
CN115331731A (zh) 一种拷贝数变异检测方法、装置、设备和计算机可读介质
CN113343918A (zh) 一种电力设备识别方法、系统、介质及电子设备
JP7252591B2 (ja) 幾何学形状のマッチングによる画像処理方法及び画像処理装置
JP2014006613A (ja) 近傍探索方法および類似画像探索方法
Sosnowski et al. Comparators for compound object identification
JPH1187197A (ja) シミュレーション方法及びこの方法を実施するシミュレーション装置
CN113033593A (zh) 基于深度学习的文本检测训练方法及装置
CN111931119A (zh) 一种组合模式的快速稳定圆最优拟合方法
CN110674860A (zh) 基于邻域搜索策略的特征选择方法、存储介质和终端
JPH0934862A (ja) パターン学習方法および装置
CN111259806A (zh) 一种人脸区域识别方法、装置及存储介质