JP2016218847A - 逐次クラスタリング装置、方法、及びプログラム - Google Patents

逐次クラスタリング装置、方法、及びプログラム Download PDF

Info

Publication number
JP2016218847A
JP2016218847A JP2015104608A JP2015104608A JP2016218847A JP 2016218847 A JP2016218847 A JP 2016218847A JP 2015104608 A JP2015104608 A JP 2015104608A JP 2015104608 A JP2015104608 A JP 2015104608A JP 2016218847 A JP2016218847 A JP 2016218847A
Authority
JP
Japan
Prior art keywords
centroid
feature data
movement amount
new feature
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015104608A
Other languages
English (en)
Other versions
JP6012814B1 (ja
Inventor
潤 島村
Jun Shimamura
潤 島村
大我 吉田
Taiga Yoshida
大我 吉田
行信 谷口
Yukinobu Taniguchi
行信 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015104608A priority Critical patent/JP6012814B1/ja
Application granted granted Critical
Publication of JP6012814B1 publication Critical patent/JP6012814B1/ja
Publication of JP2016218847A publication Critical patent/JP2016218847A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】高速なクラスタリング処理を実現する。【解決手段】逐次クラスタリング装置では、複数の特徴データの各々が、各々のセントロイドが定められた所定個数のクラスタの何れかにクラスタリングされていると共に、新たな特徴データをクラスタリングするための近似近傍探索用インデックスと、近似近傍探索用インデックスの更新要否を判定するためのgap閾値とが予め定められている。新たな特徴データを受信する毎に、受信した新たな特徴データが属するクラスタのセントロイドの移動量を算出し、算出したセントロイドの移動量の累積量であるセントロイド移動量を算出する(68)。算出されたセントロイド移動量がgap閾値を超えているか否かを判定する(70)。算出されたセントロイド移動量がgap閾値を超えていると判定された場合にのみ、近似近傍探索用インデックスを更新する(72)。【選択図】図4

Description

本発明は、逐次的に入力される特徴データをクラスタリングする逐次クラスタリング装置、方法、及び、プログラムに関する。
特徴データ群を似たものでクラスタリングする技術において、逐次クラスタリング技術は、逐次的に入力される特徴データのクラスタリングを可能としている。
例えば、非特許文献1記載の方法では、ある程度の数から成る特徴データ群がK個のセントロイド(重心)を基準にK個のクラスタに既に分けられた状態とする。この状態で新たな特徴データが入力された際に、新たに入力された特徴データとK個のセントロイドとに基づいて、新たに入力された特徴データに対する最近傍のセントロイドをK個のセントロイドの中から決定する。また、決定されたセントロイドを、入力された特徴データを用いて更新する。そして、以上の処理を新たな特徴データが入力される毎に繰返すことで逐次クラスタリングを実現している。
非特許文献1においてK個のセントロイドのうち、新たに入力された特徴データに対する最近傍のセントロイドを決定する処理では、入力された特徴データと各セントロイドとの間の距離を計算して最近接となるセントロイドを決定する。このような各距離を計算する処理には時間を要する。特にKが大きい場合にはその計算量が膨大となる。そのため、非特許文献2記載の方法では、FLANNなどに代表される近似近傍探索処理を用いて近傍探索を行っている。この処理では、高速な探索を実現するために、新たに入力された特徴データがどのセントロイドに最も近いかを判断するための情報である近似近傍探索用インデックスを作成するインデキシング処理を事前に行う。
Pham, Duc Truong, Dimov, Stefan Simeonov and Nguyen著、 「An incremental K-means algorithm」、C. D. 2004. Proceedings of the Institution of Mechanical Engineers, Part C: Journal of Mechanical Engineering Science 218 (7) , pp. 783-795. Marius Muja and David G. Lowe著、「Scalable Nearest Neighbor Algorithms for High Dimensional Data」、Pattern Analysis and Machine Intelligence (PAMI), Vol. 36, 2014.
しかし、近似近傍探索処理におけるインデキシング処理の時間もKが大きい場合には時間を要する。そして、逐次クラスタリング技術のように、更新処理によってセントロイドが変化する毎に近似近傍探索処理用のインデキシング処理を行う必要が生じ、時間が掛かるといった問題があった。
本発明は、上記問題を解決すべくなされたものであり、高速なクラスタリング処理を実現することが可能な逐次クラスタリング装置、方法、及び、プログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る逐次クラスタリング装置は、複数の特徴データの各々が、各々のセントロイドが定められた所定個数のクラスタの何れかにクラスタリングされていると共に、新たな特徴データをクラスタリングするための近似近傍探索用インデックスと、前記近似近傍探索用インデックスの更新要否を判定するための閾値とが予め定められ、新たな特徴データを受信する毎に、受信した前記新たな特徴データを、前記近似近傍探索用インデックスを用いてクラスタリングする逐次クラスタリング装置であって、新たな特徴データを受信する毎に、受信した前記新たな特徴データが属するクラスタのセントロイドの移動量を算出し、算出したセントロイドの移動量の累積量であるセントロイド移動量を算出する算出部と、前記算出されたセントロイド移動量が前記閾値を超えているか否かを判定する判定部と、前記算出されたセントロイド移動量が前記閾値を超えていると判定された場合にのみ、前記近似近傍探索用インデックスを更新する更新部と、を備えている。
本発明に係る逐次クラスタリング方法は、複数の特徴データの各々が、各々のセントロイドが定められた所定個数のクラスタの何れかにクラスタリングされていると共に、新たな特徴データをクラスタリングするための近似近傍探索用インデックスと、前記近似近傍探索用インデックスの更新要否を判定するための閾値とが予め定められ、新たな特徴データを受信する毎に、受信した前記新たな特徴データを、前記近似近傍探索用インデックスを用いてクラスタリングする逐次クラスタリング方法であって、算出部が、新たな特徴データを受信する毎に、受信した前記新たな特徴データが属するクラスタのセントロイドの移動量を算出し、算出したセントロイドの移動量の累積量であるセントロイド移動量を算出し、判定部が、前記算出されたセントロイド移動量が前記閾値を超えているか否かを判定し、更新部が、前記算出されたセントロイド移動量が前記閾値を超えていると判定された場合にのみ、前記近似近傍探索用インデックスを更新することを含む。
本発明によれば、算出部が、新たな特徴データを受信する毎に、受信した前記新たな特徴データが属するクラスタのセントロイドの移動量を算出し、算出したセントロイドの移動量の累積量であるセントロイド移動量を算出する。
判定部が、前記算出されたセントロイド移動量が前記閾値を超えているか否かを判定し、更新部が、前記算出されたセントロイド移動量が前記閾値を超えていると判定された場合にのみ、前記近似近傍探索用インデックスを更新する。
このように、算出されたセントロイド移動量が閾値を超えていると判定された場合にのみ、近似近傍探索用インデックスを更新するので、比較的時間のかかる近似近傍探索用インデックスを更新することを減らすことができ、高速なクラスタリングの処理を実現することができる。
本発明に係るプログラムは、コンピュータを、上記逐次クラスタリング装置の各部として機能させるためのプログラムである。
以上説明したように、本発明の逐次クラスタリング装置、方法、及びプログラムによれば、高速なクラスタリング処理を実現することができる、という効果が得られる。
本実施の形態における逐次クラスタリング装置10の構成を示すブロック図である。 逐次クラスタリング装置10が実行する逐次クラスタリング処理プログラムを示すフローチャートである。 初期セントロイド作成部16が実行する初期セントロイドの作成処理プログラムを示すフローチャートである。 セントロイド更新部18が実行するセントロイドの更新処理を示すフローチャートである。 メモリ14の記憶領域14Aの内容を示す図である。 メモリ14の記憶領域14Bの内容を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
[第1の実施の形態]
以下、本発明の第1の実施の形態に係る逐次クラスタリング装置10について図面を参照して説明する。
図1は、本実施の形態における逐次クラスタリング装置10の構成を示すブロック図である。図5は、メモリ14の記憶領域14Aの内容を示す図である。図1に示すように、逐次クラスタリング装置10は、初期セントロイドが作成済みか否かを判断することなどの前処理を実行する前処理部12を備えている。逐次クラスタリング装置10は、特徴データ、初期セントロイド群、gap閾値、セントロイド移動量、及び近似近傍探索用インデックスを記憶するための各記憶領域80〜88(図5参照)が設けられているメモリ14を備えている。逐次クラスタリング装置10は、初期セントロイドを作成する初期セントロイド作成部16、及びセントロイドを更新するセントロイド更新部18を備えている。
初期セントロイド作成部16は、特徴データをクラスタリングする処理などを実行するクラスタリング部20と、gap閾値を決定することなどを行う決定部22でと、を備えている。セントロイド更新部18は、特徴データを受け取ることなどを行うデータ処理部24と、セントロイド移動量を算出することなどを行う算出部26と、を備える。セントロイド更新部18は、セントロイド移動量がgap閾値より大きいか否かを判定する判定部28と、近似近傍探索用インデックスを更新することなどを行う更新部30と、を備える。
逐次クラスタリング装置10は、図示しないCPU、ROM、及びメモリ14などを備えている。CPUが後述する逐次クラスタリング処理プログラムを実行することにより、CPUが上記各部(12、16(20、22)、18(24〜30))として機能する。
次に、本実施の形態の作用を説明する。図2は、逐次クラスタリング装置10が実行する逐次クラスタリング処理プログラム(メモリ14に記憶されている)を示すフローチャートである。図2で示すように、ステップ32で、逐次クラスタリング装置10の前処理部12は、特徴データを受信する。特徴データは、画像データに基づいて定められた特徴点の画素の輝度と、特徴点の画素の周囲に位置する複数の画素の各々の輝度との変化量の平均値である。特徴点は、隣接する画素間の輝度の変化量などに基づいて定められる画像上でのコーナーなどの画素の位置である。
ステップ34で、前処理部12は、メモリ14のセントロイド群記憶領域82(図5参照)に、初期セントロイド群が記憶されているか否かを判断することにより、初期セントロイドが作成済みかどうかを判断する。初期セントロイドが作成済みと判断されなかった場合には、ステップ36で、前処理部12は、特徴データを、メモリ14の特徴データ記憶領域80に記憶する。ステップ38で、前処理部12は、記憶した特徴データの数が所定数に達したかどうかを判定する。記憶した特徴データの数が所定数に達したと、前処理部12が判断しなかった場合には、逐次クラスタリング処理はステップ32に戻る。記憶した特徴データの数が所定数に達したと、前処理部12が判定した場合には、ステップ40で、前処理部12は、初期セントロイド作成部16を起動する。ステップ42で、初期セントロイド作成部16は、初期セントロイドを作成する。その後、逐次クラスタリング処理はステップ32に戻る。このように、初期セントロイドが作成され、ステップ32で特徴データが受信されると、ステップ34は肯定判定となる。この場合、ステップ44で、前処理部12は、ステップ32で受信された特徴データをセントロイド更新部18に出力する。ステップ46で、セントロイド更新部18は、セントロイドの更新処理を実行する。
図3は、初期セントロイド作成部16が実行する初期セントロイドの作成処理プログラムを示すフローチャートである。図3のステップ52で、初期セントロイド作成部16のクラスタリング部20は、メモリ14の特徴データ記憶領域80(図5参照)から上記所定数の特徴データを読み出す。ステップ54で、クラスタリング部20は、クラスタリング処理を実行する。クラスタリング処理は例えばK−meansクラスタリングなどの処理によって実現できる。クラスタリング処理により、各特徴データが所定個数のクラスタのいずれかに分類されると共に、各クラスタのセントロイド(初期セントロイド)が計算され、各クラスタの初期セントロイドがセントロイド群記憶領域82(図5参照)に記憶される。
ステップ56で、クラスタリング部20は、クラスタリング処理結果の初期セントロイド群を用いて近似近傍探索用インデックスを作成する。近似近傍探索用インデックスは、新たに特徴データが受信されると、この特徴データがどのクラスタに属するのかを判断するための情報である。例えば、各クラスタのセントロイドをA、B、C・・・とした場合、近似近傍探索用インデックスは、位置を基準としたセントロイドA、B、C・・・の木構造で形成される(図5の記憶領域88参照)。具体的には、セントロイドA、B、C・・・を、ある位置(根ノード)を基準に右側に位置するセントロイドのまとまりと、左側に位置するセントロイドのまとまりと、に分ける。各まとまりを更に同様に別の位置を基準に右側及び左側に位置するより小さいまとまりに分ける。新たに特徴データが受信され、新たな特徴データが上記ある位置よりも右側に位置する場合には、左側のまとまりのセントロイドとの関係を考慮しなくてもよいので、より迅速に新たな特徴データがどのクラスタに分類されるのかを探索することができる。この処理はFLANNなどに代表される既存の近似近傍探索処理で実現される。
ステップ58で、決定部22は、近似近傍探索用インデックスの更新要否を判定するためのgap閾値を算出することにより決定する。以下、gap閾値の算出方法について説明する。ここで、セントロイドの数をK、受信した特徴データの数をNとする。この場合、gap閾値は以下のように算出する。
N > 2Kの場合には、gap閾値は(式1)に従い算出する。
[数1]
gTH=(√(e)/N)*K*bias・・・ (式1)
ここで、eはクラスタリング結果のコンパクト尺度であり、(式2)で求められる。
[数2]
e=Σi||samplesi−centerslabelsi||2・・・(式2)
ここで、samplesiはi番目の特徴データを、centerslabelsiはi番目の特徴データがクラスタリングにより属したクラスタのセントロイドを示す。
また(式1)において、biasはインデキシング処理の実施頻度に作用するパラメータである。大きくすると実施頻度が低くなり高速になるが、逐次クラスタリングの精度が下がる。逆に小さくすると、実施頻度が高まり逐次クラスタリングの精度は良くなるが処理時間が掛かるようになる。例えば1.0などの値を用いることができる。
このようにgap閾値は、例えば、全ての特徴データが、対応するセントロイドに位置する場合(最もまとまっている場合)には、gap閾値は0となる。特徴データが、対応するセントロイドからずれに従って、gap閾値は大きくなる。よって、gap閾値は、各特徴データの、対応するセントロイドを基準としたまとまりの度合いを全てのクラスタで総合的に示す値である。
N <= 2Kの場合には、gap閾値は(式3)に従い算出する。
[数3]
gTH=α*bias・・・(式3)
ここで、αは予め与えられる固定値であり、例えば100などの比較的大きな値が用いられる。
ステップ60で、決定部22は、初期セントロイド群、近似近傍探索用インデックス、gap閾値のそれぞれを、対応する記憶領域82、88、84Aに記憶する。
図4は、セントロイド更新部18が実行するセントロイドの更新処理を示すフローチャートである。図4のステップ62で、データ処理部24は、図2のステップ34が肯定判定され、前処理部12がステップ44で出力した特徴データを受け取る。ステップ64で、データ処理部24は、メモリ14から初期セントロイド群、近似近傍探索用インデックス、及びgap閾値を読み出す。
ステップ66で、算出部26は、受け取った特徴データが属するクラスタを決定し、セントロイド位置を再算出して更新する。より詳細に説明すると、まず、算出部26は、受け取った特徴データと読み出した近似近傍探索用インデックスとに基づいて、受け取った特徴データに対して近傍探索を行うことで最近傍距離となるセントロイドを決定し、属するクラスタを決定する。そして、算出部26は、そのセントロイドの位置を、受け取った特徴データと、そのセントロイドのクラスタに属する全ての特徴データとを用いて更新する。これは、新たに特徴データが加わったため、クラスタのセントロイドの位置が移動するからである。ステップ66の処理は従来の方法と同様である。
ステップ68で、算出部26は、更新したセントロイドの移動量をセントロイド移動量に加算して、セントロイド移動量記憶領域86Aに記憶する。
ここで、更新したセントロイドの移動量は、例えば、更新前後のセントロイド間のユークリッド距離を求めることで算出される。
一方、セントロイド移動量は、セントロイドの移動量の累積量である。上記のようにgap閾値が各特徴データの、対応するセントロイドを基準にしたまとまりの度合いを全てのクラスタで総合的に示す値であるので、セントロイド移動量も、全てのクラスタで総合的に示す値である。具体的には、あるセントロイドが更新されて、そのセントロイドの移動量が計算された場合、計算されたセントロイドの移動量がセントロイド移動量に加算される。また、別のセントロイドが更新されて、その別のセントロイドの移動量が計算された場合、計算されたセントロイドの移動量が上記セントロイド移動量に加算される。このようにセントロイド移動量は、全てのセントロイド(クラスタ)について1つ存在する。なお、セントロイド移動量は、逐次クラスタリング装置10が起動した際に0で初期化されているものとする。
ステップ70で、判定部28は、算出したセントロイド移動量が、読み出したgap閾値より大きいかどうかを判断する。セントロイド移動量がgap閾値より大きい場合には、現在の近似近傍探索用インデックスを作成するために用いたセントロイド群が、実際のセントロイド群よりも大きくずれている。このため、現在の近似近傍探索用インデックスでは、新たな特徴データを適正にクランスタリングすることができないと判断することができる。
そこで、ステップ72で、更新部30は、近似近傍探索用インデックスを現在のセントロイド群を用いて更新する。このように、近似近傍探索用インデックスを作成するために用いたセントロイド群が、現在のセントロイド群を基準に作成されたので、ステップ74で、更新部30は、セントロイド移動量を0で初期化する。ステップ76で、更新部30は、現在のセントロイド群をメモリ14のセントロイド群記憶領域82に記憶する。これにより、セントロイドの更新処理が終了する。
一方、算出したセントロイド移動量がgap閾値以下の場合は、ステップ70が否定判定され、セントロイドの更新処理は、ステップ72、74をスキップし、ステップ76に進む。よって、近似近傍探索用インデックスが更新されることなく、ステップ76で、更新部30は、現在のセントロイド群をメモリ14のセントロイド群記憶領域82に記憶して、セントロイドの更新処理が終了する。
以上説明したように、第1の実施の形態に係る逐次クラスタリング装置10によれば、初期クラスタ作成時に生成されたクラスタのコンパクト尺度を用いて、近似近傍探索用インデックスの更新要否を判定するためgap閾値を算出する。gap閾値は、各特徴データのまとまり度合いを全てのクラスタで総合的に示す値である。
更新したセントロイドの移動量の累積値であるセントロイド移動量がgap閾値を超えなければ、特徴データのまとまりの度合いの範囲内でセントロイドが変化したと判断できる。従って、既存の近似近傍探索用インデックスで新たな特徴データのクラスタリング処理を適正に行うことができる。よって、既存の近似近傍探索用インデックスを更新する必要はない。
しかし、セントロイド移動量がgap閾値を超えると、セントロイドが特徴データのまとまりの度合いの範囲を超えて変化したので既存の近似近傍探索用インデックスでは、新たな特徴データのクラスタリング処理を適正に行うことができない。そこで、最新のセントロイド群を用いて近似近傍探索用インデックスを更新する。
ところで、近似近傍探索用インデックスを更新することは、全てのセントロイドを考慮するため、処理時間を要する。しかし、セントロイド移動量がgap閾値を超えた場合にのみ近似近傍探索用インデックスを更新するので、近似近傍探索用インデックスの更新処理の実施回数を減らすことができる。よって、セントロイド数Kが大きい場合でも高速なクラスタリング処理を実現することができる。
[第2の実施の形態]
次に、第2の実施の形態に係る逐次クラスタリング装置10について説明する。なお、第2の実施の形態の逐次クラスタリング装置10は、第1の実施の形態と同様の構成であるので、その説明を省略する。また、第2の実施の形態による逐次クラスタリング装置10の作用は第1の実施の形態の逐次クラスタリング装置10作用とほぼ同様であるので異なる部分についてのみ説明する。
クラスタには、第1に、特徴データが、対応するセントロイドに比較的近い位置に位置するようなまとまりの度合いが比較的大きいコンパクトなクラスタが含まれる。第2に、特徴データが、対応するセントロイドに比較的遠い位置に位置するようなまとわりの度合いが比較的小さいコンパクトでないクラスタが含まれる。
しかし、第1の実施の形態の方法では、gap閾値を全セントロイドに対して1つのみ設定する。このため、コンパクトなクラスタのセントロイドの移動量と、コンパクトでないクラスタのセントロイドの移動量とが同等に扱われることとになる。よって、セントロイド移動量がgap閾値を超えていなくても、コンパクトなクラスタではセントロイドの移動量が大きい場合、近似近傍探索用インデックスが更新されず、新しい特徴データクラスタリング処理の精度が劣化することがある。第2の実施の形態はこの問題を解決するためになされたものである。
第2の実施の形態の初期セントロイド作成部16の決定部22では、図3のステップ58で、gap閾値を以下の処理によりセントロイド毎のgap閾値gTH_cとして算出する。図6は、メモリ14の記憶領域14Bの内容を示す図である。図6に示すようにgap閾値記憶領域84B内の、対応するセントロイドに対応する記憶領域にgap閾値を記憶する。
N > 2Kの場合には、セントロイド毎のgap閾値gTH_c は(式4)に従い算出する。
[数4]
gTH_c=(√(e)/Nc)*K*bias・・・(式4)
ここで、gTH_cは、あるセントロイドcに対するgap閾値、Ncはあるクラスタに属する特徴データの数である。gap閾値gTH_c は、各特徴データの、対応するセントロイドを基準としたまとまりの度合いをクラスタ毎に示す値である。
N <= 2Kの場合には、クラスタ毎のgap閾値gTH_cは(式5)に従い算出する。
[数5]
gTH_c=α*bias・・・(式5)
なお、α、biasは、上記と同様であるが、クラスタ毎に定めてもよい。
第2の実施の形態のセントロイド更新部18の算出部26は、図4のステップ68で、セントロイド移動量を、新しい特徴データが属するクラスタのセントロイドcのCentTrans_cとして加算する。算出部26は、図6に示すように、セントロイド移動量記憶領域86B内の、対応するセントロイドに対応する記憶領域に記憶する。
ここで、セントロイド毎のセントロイド移動量CentTrans_cは、あるセントロイドcの移動量の蓄積量を記憶したものであり、逐次クラスタリング装置10が起動した際に全ての値が0で初期化されているものとする。
図4のステップ70で、セントロイド移動量がgap閾値より大きくなるかどうかを判定する際には、セントロイド移動量CentTrans_cが、セントロイドcにおけるgap閾値gTH_cより大きくなるかどうかが判定される。
セントロイド移動量CentTrans_cがgap閾値gTH_cより大きい場合には、近似近傍探索用インデックスが更新され(ステップ72)、セントロイド移動量CentTrans_cが0で初期化される(ステップ74)。一方、セントロイド移動量CentTrans_cがgap閾値gTH_c以下の場合は、近似近傍探索用インデックスは更新されない。
以上説明した処理により、コンパクトなクラスタのセントロイドと、コンパクトでないクラスタのセントロイドのそれぞれの移動量を別々に扱うことが可能となり、精度を劣化させずに高速なクラスタリング処理を実現することができる。
以上説明した各実施の形態では、逐次クラスタリング装置10が実行する逐次クラスタリング処理プログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、逐次クラスタリング装置10に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、逐次クラスタリング処理プログラムは、逐次クラスタリング処理プログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
なお、特徴データは、例えば、音データのLPCケプストラム係数でもよい。
以上、本発明を実施の形態の例に基づき具体的に説明したが、上述の実施の形態の説明は、本発明を説明するためのものであって、特許請求の範囲に記載の発明を限定しあるいは範囲を減縮するように解すべきではない。また、本発明の各部構成は上述の実施の形態に限らず、特許請求の範囲に記載の技術的範囲内で種々の変形が可能であることは勿論である。
10 逐次クラスタリング装置
12 前処理部
14 メモリ
14A 記憶領域
14B 記憶領域
16 初期セントロイド作成部
18 セントロイド更新部
20 クラスタリング部
22 決定部
24 データ処理部
26 算出部
28 判定部
30 更新部
80 特徴データ記憶領域
82 セントロイド群記憶領域
84A gap閾値記憶領域
84B gap閾値記憶領域
86A セントロイド移動量記憶領域
86B セントロイド移動量記憶領域
88 近似近傍探索用インデックス記憶領域

Claims (7)

  1. 複数の特徴データの各々が、各々のセントロイドが定められた所定個数のクラスタの何れかにクラスタリングされていると共に、新たな特徴データをクラスタリングするための近似近傍探索用インデックスと、前記近似近傍探索用インデックスの更新要否を判定するための閾値とが予め定められ、新たな特徴データを受信する毎に、受信した前記新たな特徴データを、前記近似近傍探索用インデックスを用いてクラスタリングする逐次クラスタリング装置であって、
    新たな特徴データを受信する毎に、受信した前記新たな特徴データが属するクラスタのセントロイドの移動量を算出し、算出したセントロイドの移動量の累積量であるセントロイド移動量を算出する算出部と、
    前記算出されたセントロイド移動量が前記閾値を超えているか否かを判定する判定部と、
    前記算出されたセントロイド移動量が前記閾値を超えていると判定された場合にのみ、前記近似近傍探索用インデックスを更新する更新部と、
    を備えた逐次クラスタリング装置。
  2. 前記閾値は、前記所定個数のクラスタの各々毎に定められ、
    前記セントロイド移動量は、前記所定個数のクラスタの各々毎に算出され、
    前記算出部は、受信した前記新たな特徴データが属するクラスタのセントロイドの移動量を算出し、前記新たな特徴データが属するクラスタの前記セントロイド移動量を算出し、
    前記判定部は、前記算出されたセントロイド移動量が、前記新たな特徴データが属するクラスタに対して定められた前記閾値を超えているか否かを判定する
    請求項1に記載の逐次クラスタリング装置。
  3. 前記特徴データは、画像データに基づいて定められた特徴点の画素の輝度と、前記特徴点の画素の周囲に位置する複数の画素の各々の輝度との変化量の平均値である請求項1又は2記載の逐次クラスタリング装置。
  4. 複数の特徴データの各々が、各々のセントロイドが定められた所定個数のクラスタの何れかにクラスタリングされていると共に、新たな特徴データをクラスタリングするための近似近傍探索用インデックスと、前記近似近傍探索用インデックスの更新要否を判定するための閾値とが予め定められ、新たな特徴データを受信する毎に、受信した前記新たな特徴データを、前記近似近傍探索用インデックスを用いてクラスタリングする逐次クラスタリング方法であって、
    算出部が、新たな特徴データを受信する毎に、受信した前記新たな特徴データが属するクラスタのセントロイドの移動量を算出し、算出したセントロイドの移動量の累積量であるセントロイド移動量を算出し、
    判定部が、前記算出されたセントロイド移動量が前記閾値を超えているか否かを判定し、
    更新部が、前記算出されたセントロイド移動量が前記閾値を超えていると判定された場合にのみ、前記近似近傍探索用インデックスを更新する、
    ことを含む逐次クラスタリング方法。
  5. 前記閾値は、前記所定個数のクラスタの各々毎に定められ、
    前記セントロイド移動量は、前記所定個数のクラスタの各々毎に算出され、
    前記算出部は、受信した前記新たな特徴データが属するクラスタのセントロイドの移動量を算出し、前記新たな特徴データが属するクラスタの前記セントロイド移動量を算出し、
    前記判定部は、前記算出されたセントロイド移動量が、前記新たな特徴データが属するクラスタに対して定められた前記閾値を超えているか否かを判定する
    請求項4に記載の逐次クラスタリング方法。
  6. 前記特徴データは、画像データに基づいて定められた特徴点の画素の輝度と、前記特徴点の画素の周囲に位置する複数の画素の各々の輝度との変化量の平均値である請求項4又は5記載の逐次クラスタリング方法。
  7. コンピュータを、請求項1〜請求項3の何れか1項記載の逐次クラスタリング装置の各部として機能させるためのプログラム。
JP2015104608A 2015-05-22 2015-05-22 逐次クラスタリング装置、方法、及びプログラム Active JP6012814B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015104608A JP6012814B1 (ja) 2015-05-22 2015-05-22 逐次クラスタリング装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015104608A JP6012814B1 (ja) 2015-05-22 2015-05-22 逐次クラスタリング装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP6012814B1 JP6012814B1 (ja) 2016-10-25
JP2016218847A true JP2016218847A (ja) 2016-12-22

Family

ID=57145146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015104608A Active JP6012814B1 (ja) 2015-05-22 2015-05-22 逐次クラスタリング装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6012814B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7353737B2 (ja) 2018-08-17 2023-10-02 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628729B (zh) * 2023-07-25 2023-09-29 天津市城市规划设计研究总院有限公司 根据数据特性差异化提升数据安全的方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4594992B2 (ja) * 2008-03-03 2010-12-08 日本電信電話株式会社 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体
JP2011210111A (ja) * 2010-03-30 2011-10-20 Nippon Telegr & Teleph Corp <Ntt> 画像特徴量生成装置及び方法及びプログラム
JP5265656B2 (ja) * 2010-12-27 2013-08-14 ヤフー株式会社 クラスタリング装置及びクラスタリング方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7353737B2 (ja) 2018-08-17 2023-10-02 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Also Published As

Publication number Publication date
JP6012814B1 (ja) 2016-10-25

Similar Documents

Publication Publication Date Title
CN107102981B (zh) 词向量生成方法和装置
US9251156B2 (en) Information processing devices, method, and recording medium with regard to a distributed file system
US20200410003A1 (en) Building a graph index and searching a corresponding dataset
US20200082026A1 (en) Graph data processing
CN116822422B (zh) 数字逻辑电路的分析优化方法及相关设备
JP6311000B1 (ja) 生成装置、生成方法、及び生成プログラム
JP6012814B1 (ja) 逐次クラスタリング装置、方法、及びプログラム
US20180007384A1 (en) Image block-based matching method and system, and video processing device
US11361195B2 (en) Incremental update of a neighbor graph via an orthogonal transform based indexing
JP2020086662A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
US20170039231A1 (en) Accelerating operations in b+-tree
CN111091001B (zh) 一种词语的词向量的生成方法、装置及设备
KR101991579B1 (ko) Z-함수를 이용한 순위패턴매칭과 순위다중패턴매칭 병렬 계산 방법
CN117009539A (zh) 知识图谱的实体对齐方法、装置、设备及存储介质
Kiran et al. Cost-complexity pruning of random forests
KR102365450B1 (ko) 심층 지표 학습 방법 및 시스템
JP2020027590A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP7121706B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
US11507799B2 (en) Information processing apparatus and method of operating neural network computing device therein
JP6974248B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN110309139B (zh) 高维近邻对搜索方法和系统
KR102289411B1 (ko) 가중치 기반의 피처 벡터 생성 장치 및 방법
JP7239433B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
US20240037439A1 (en) Quantum system selection via coupling map comparison
US20230316113A1 (en) Inference apparatus, inference method, and computer-readable recording medium

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160920

R150 Certificate of patent or registration of utility model

Ref document number: 6012814

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150