JP5912667B2 - クラスタリング装置およびクラスタリング方法 - Google Patents

クラスタリング装置およびクラスタリング方法 Download PDF

Info

Publication number
JP5912667B2
JP5912667B2 JP2012044540A JP2012044540A JP5912667B2 JP 5912667 B2 JP5912667 B2 JP 5912667B2 JP 2012044540 A JP2012044540 A JP 2012044540A JP 2012044540 A JP2012044540 A JP 2012044540A JP 5912667 B2 JP5912667 B2 JP 5912667B2
Authority
JP
Japan
Prior art keywords
data
cluster
representative value
new
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012044540A
Other languages
English (en)
Other versions
JP2013182341A (ja
Inventor
学 川▲崎▼
学 川▲崎▼
康貴 田中
康貴 田中
益巳 谷本
益巳 谷本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SOHGO SECURITY SERVICES CO.,LTD.
Original Assignee
SOHGO SECURITY SERVICES CO.,LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SOHGO SECURITY SERVICES CO.,LTD. filed Critical SOHGO SECURITY SERVICES CO.,LTD.
Priority to JP2012044540A priority Critical patent/JP5912667B2/ja
Publication of JP2013182341A publication Critical patent/JP2013182341A/ja
Application granted granted Critical
Publication of JP5912667B2 publication Critical patent/JP5912667B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、クラスタリング装置およびクラスタリング方法に関する。
従来、クラスタリングの対象となるデータを外的基準を設定することなく、自動的にクラスタリングする手法が知られている。クラスタリングの手法は、樹形図によって表現されるような階層的手法と、クラスタの妥当性を基準とする非階層的手法とに大別される(例えば、非特許文献1参照)。いずれの手法も、クラスタリングの対象となるデータをクラスタリングの前に準備し、類似したデータをグループ化するものである。
また、特許文献1には、過去のクラスタリング結果と、これに付随する確率パラメータを用いて、記述長最小の基準に基づいて、新しくデータを追加する度にクラスタリングを行う技術が開示されている。
特許第3243693号公報
奥野忠一、久米均、芳賀敏郎、吉澤正著 「多変量解析法」 日科技連出版社 p.124−157
特許文献1の技術においては、新しくデータを追加する度にクラスタリングを行うことができるので、クラスタリング前にクラスタリングの対象となるデータをすべて準備する必要がない。しかしながら、特許文献1の技術では、過去にクラスタリングを行ったすべてのデータを見直す必要がないものの、データを追加する毎にクラスタの統合を可能な限り繰り返す必要があり、演算量が多いという問題があった。
本発明は、上記に鑑みてなされたものであって、少ない演算量で、データが追加される度に逐次クラスタリングを行うことのできるクラスタリング装置およびクラスタリング方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、取得データを逐次クラスタリングするクラスタリング装置であって、既にクラスタリングされたデータと、前記データが属するクラスタと、前記データが取得された取得順とを対応付けて記憶するデータ記憶部と、前記クラスタと、前記クラスタに属する前記データの特徴量を代表する代表値とを対応付けて記憶する代表値記憶部と、クラスタリングの対象となる新データを取得するデータ取得部と、前記データ取得部が取得した前記新データの前記特徴量と前記代表値記憶部に記憶されている前記代表値の間のデータ距離を算出するデータ距離算出部と、前記データ距離に基づいて、前記新データが属するクラスタを決定するクラスタ決定部と、前記新データの前記特徴量を少なくとも用いて、前記新データに対して決定された前記クラスタの前記代表値を算出する代表値算出部と、前記新データと、前記新データに対して決定された前記クラスタとを対応付けて前記データ記憶部に書き込み、前記新データに対して決定された前記クラスタに対応付けて、前記代表値算出部で算出された、前記新データに対して決定された前記クラスタの前記代表値を前記代表値記憶部に書き込むデータ更新部と、前記データ取得部が前記新データを取得した場合に、前記新データと前記データ記憶部に記憶されている前記データとを合わせたデータ総数と、予め設定されたデータ数閾値とを比較し、前記データ総数が前記データ数閾値よりも大きい場合に、前記データ記憶部に記憶されている前記データのうち取得順の最も早い前記データを削除する削除部とを備え、前記代表値算出部は、さらに、前記削除部による削除後に前記データ記憶部に記憶されている前記データの前記特徴量に基づいて、削除された前記データが属していた前記クラスタの前記代表値を算出し、前記データ更新部は、さらに、前記代表値記憶部に記憶されている、削除された前記データが属していた前記クラスタの前記代表値を、前記代表値算出部で算出された、削除された前記データが属していた前記クラスタの前記代表値に更新することを特徴とする。
また、本発明は、取得データを逐次クラスタリングするクラスタリング装置で実行されるクラスタリング方法であって、前記クラスタリング装置は、既にクラスタリングされたデータと、前記データが属するクラスタと、前記データが取得された取得順とを対応付けて記憶するデータ記憶部と、前記クラスタと、前記クラスタに属する前記データの特徴量を代表する代表値とを対応付けて記憶する代表値記憶部とを備え、クラスタリングの対象となる新データを取得するデータ取得工程と、前記データ取得工程において取得した前記新データの前記特徴量と前記代表値記憶部に記憶されている前記代表値の間のデータ距離を算出するデータ距離算出工程と、前記データ距離に基づいて、前記新データが属するクラスタを決定するクラスタ決定工程と、前記新データの前記特徴量を少なくとも用いて、前記新データに対して決定された前記クラスタの前記代表値を算出する代表値算出工程と、前記新データと、前記新データに対して決定された前記クラスタとを対応付けて前記データ記憶部に書き込み、前記新データに対して決定された前記クラスタに対応付けて、前記代表値算出工程で算出された、前記新データに対して決定された前記クラスタの前記代表値を前記代表値記憶部に書き込むデータ更新工程と、前記データ取得工程で前記新データを取得した場合に、前記新データと前記データ記憶部に記憶されている前記データとを合わせたデータ総数と、予め設定されたデータ数閾値とを比較し、前記データ総数が前記データ数閾値よりも大きい場合に、前記データ記憶部に記憶されている前記データのうち取得順の最も早い前記データを削除する削除工程とを含み、前記代表値算出工程では、さらに、前記削除工程による削除後に前記データ記憶部に記憶されている前記データの前記特徴量に基づいて、削除された前記データが属していた前記クラスタの前記代表値を算出し、前記データ更新工程では、さらに、前記代表値記憶部に記憶されている、削除された前記データが属していた前記クラスタの前記代表値を、前記代表値算出工程で算出された、削除された前記データが属していた前記クラスタの前記代表値に更新することを特徴とする。
本発明によれば、少ない演算量で、データが追加される度に逐次クラスタリングを行うことができるという効果を奏する。
図1は、実施の形態にかかるクラスタリング装置の構成を示すブロック図である。 図2は、セントロイドを説明するための図である。 図3は、データ記憶部のデータ構成を模式的に示す図である。 図4は、セントロイド記憶部のデータ構成を模式的に示す図である。 図5は、クラスタリング装置によるクラスタリング処理を示すフローチャートである。 図6は、クラスタの生成過程を示す図である。 図7は、音データを取得するのに伴い、古いデータを削除する過程を示す図である。 図8−1は、実施例1にかかるクラスタリング装置によるデータ範囲内のランダムデータに対するクラスタリング結果を示す図である。 図8−2は、比較例1にかかる群平均化法のクラスタリング結果を示す図である。 図9−1は、実施例2にかかるクラスタリング装置によるクラスタリング結果を示す図である。 図9−2は、比較例2にかかる群平均化法のクラスタリング結果を示す図である。 図10は、実施例3において入力されるデータのデータ範囲を示す図である。 図11は、実施例3において入力されるデータの入力順と、クラスタ遷移を示す図である。 図12−1は、距離閾値(D)70に設定された場合のクラスタリング結果を示す図である。 図12−2は、距離閾値(D)80に設定された場合のクラスタリング結果を示す図である。 図13−1は、距離閾値(D)70に設定された場合のクラスタリング結果を示す図である。 図13−2は、距離閾値(D)80に設定された場合のクラスタリング結果を示す図である。 図14−1は、距離閾値(D)70に設定された場合のクラスタリング結果を示す図である。 図14−2は、距離閾値(D)80に設定された場合のクラスタリング結果を示す図である。 図15−1は、距離閾値(D)70に設定された場合のクラスタリング結果を示す図である。 図15−2は、距離閾値(D)80に設定された場合のクラスタリング結果を示す図である。 図16−1は、距離閾値(D)70に設定された場合のクラスタリング結果を示す図である。 図16−2は、距離閾値(D)80に設定された場合のクラスタリング結果を示す図である。 図17−1は、距離閾値(D)70に設定された場合のクラスタリング結果を示す図である。 図17−2は、距離閾値(D)80に設定された場合のクラスタリング結果を示す図である。
以下に添付図面を参照して、クラスタリング装置およびクラスタリング方法の実施の形態を詳細に説明する。
図1は、実施の形態にかかるクラスタリング装置1の構成を示すブロック図である。クラスタリング装置1は、データを取得する度にデータのクラスタリングを逐次行っていく。クラスタリング装置1は、データ取得部10と、特徴パラメータ算出部20と、逐次クラスタリング部30と、データ記憶部40と、セントロイド記憶部50と、データ更新部60とを備えている。
データ取得部10は、クラスタリングの対象となるデータを取得する。特徴パラメータ算出部20は、データ取得部10が取得したデータの特徴量としての特徴パラメータを算出する。なお、本実施の形態のクラスタリング装置1は、クラスタリングの対象データとして音データを取得し、特徴パラメータとして、LPCケプストラム係数を算出することとする。ただし、クラスタリングの対象データの種類および特徴パラメータの種類は実施の形態に限定されるものではない。
データ取得部10は、例えば、16kHz、16bitで量子化された音響信号(以下、音データと称する)をクラスタリングの対象データとして取得する。また、特徴パラメータ算出部20は、例えば、分析フレーム長64msec(1024p)、分析フレーム間隔16msec(256p)で16次のLPCケプストラム係数を算出することにより、音の周波数構造を表す16次元の特徴パラメータを算出する。
なお他の例としては、クラスタリングの対象となる対象データとともに特徴パラメータを外部から取得してもよい。この場合には、クラスタリング装置1は、特徴パラメータ算出部20を備えなくともよい。
逐次クラスタリング部30は、特徴パラメータ算出部20により算出された特徴パラメータに基づいて、データ取得部10がデータを取得する度に、データのクラスタリングを逐次行う。
データ記憶部40は、逐次クラスタリング部30によりクラスタリングされた音データを記憶している。セントロイド記憶部50は、逐次クラスタリング部30により生成されたクラスタのセントロイドの値を記憶している。ここで、セントロイドとは、各クラスタに属する音データの特徴パラメータの重心である。本実施の形態においては、クラスタの特徴を示す代表値としてセントロイドを用いるが、代表値は、クラスタの特徴を示すような値であればよく、例えば、クラスタに属する音データの平均値などセントロイド以外の値を用いてもよい。
図2は、セントロイドを説明するための図である。なお、本実施の形態においては、説明の便宜上、音データの特徴パラメータがx,y座標上の値を有する二次元データである場合を例に説明する。図2に示すように、クラスタAに属するデータa1〜a5の特徴パラメータのxy平面上の位置の重心位置がクラスタAのセントロイドである。
図1に戻り、データ更新部60は、データ取得部10が新たな音データを取得すると、新たな音データに基づいて、データ記憶部40およびセントロイド記憶部50のデータを更新する。なお、本実施の形態のクラスタリング装置1においては、データ取得部10は、クラスタリングの対象となる音データを逐次取得し、データ更新部60は、データ記憶部40に記憶されている音データの数が予め設定された閾値を越えた場合には、最も古い音データを削除し、これに替えて新たな音データをデータ記憶部40に書き込む。すなわち、データ更新部60は、音データを削除する削除部としても機能する。
図3は、データ記憶部40のデータ構成を模式的に示す図である。図3に示すように、データ記憶部40は、データ取得部10が音データを取得した取得順と、音データを識別するデータIDと、音データと、音データに対し特徴パラメータ算出部20により算出された特徴パラメータと、音データが属するクラスタを識別するクラスタIDとを対応付けて記憶している。なお、取得順は、データを取得する度に付与される連続番号などであってもよく、また他の例としては、取得時刻であってもよい。
図4は、セントロイド記憶部50のデータ構成を模式的に示す図である。図4に示すように、セントロイド記憶部50は、逐次クラスタリング部30により生成されたクラスタのクラスタIDと、クラスタのセントロイドとを対応付けて記憶している。
図1に戻り、逐次クラスタリング部30は、データ距離算出部31と、クラスタ決定部32と、セントロイド算出部33とを有している。データ距離算出部31は、データ距離を算出する。ここで、データ距離とは、データ取得部10が新たに取得した音データ(新データ)の特徴パラメータと、既に逐次クラスタリング部30により生成されたクラスタのセントロイドとの距離である。データ距離算出部31は、特徴パラメータ算出部20により算出された特徴パラメータと、セントロイド記憶部50に記憶されているクラスタのセントロイドに基づいて、データ距離を算出する。なお、セントロイド記憶部50に複数のクラスタのセントロイドが記憶されている場合には、データ距離算出部31は、すべてのセントロイドとのデータ距離を算出する。
クラスタ決定部32は、データ距離算出部31により算出されたデータ距離と、予め設定された距離閾値とを比較する。そして、クラスタ決定部32は、所定のクラスタとのデータ距離が距離閾値以下の場合には、距離閾値以下のデータ距離が算出されたクラスタを新データが属するクラスタに決定する。クラスタ決定部32はまた、データ距離が距離閾値よりも大きい場合には、新データの属するクラスタとして新たなクラスタを生成し、これを新データが属するクラスタに決定する。
なお、距離閾値は、クラスタリング装置1に予め設定しておく。なお、距離閾値の値は任意であるが、距離閾値を大きく設定することにより、生成されるクラスタの数を少なくすることができ、特徴量の異なるデータを同一クラスタに所属させることができる。一方で、距離閾値を小さく設定することにおり、比較的多くのクラスタを生成することができ、特徴量が比較的類似するデータのみを同一クラスタに所属させることができる。
セントロイド算出部33は、クラスタ決定部32により決定された新データのクラスタのセントロイドを算出する。セントロイド算出部33はまた、データ更新部60により所定の音データがデータ記憶部40から削除された場合には、削除された音データが属していたクラスタのセントロイドを算出する。すなわち、セントロイド算出部33は、音データの削除後に、削除された音データのクラスタに属する、残りの音データの特徴パラメータに基づいて、削除された音データが属していたクラスタのセントロイドを算出する。
なお、クラスタ決定部32により新データが属するクラスタが決定されると、データ更新部60は、新データと、新データのデータIDと、新データの特徴パラメータと、新データに対して決定されたクラスタのクラスタIDとをデータ記憶部40に書き込む。また、セントロイド算出部33によりセントロイドが算出されると、データ更新部60は、セントロイド算出部33により算出されたセントロイドをクラスタIDに対応付けてセントロイド記憶部50に書き込む。
図5は、クラスタリング装置1によるクラスタリング処理を示すフローチャートである。クラスタリング処理は、クラスタリング装置1のデータ取得部10が音データを取得する度に実行される。クラスタリング処理においては、まずデータ取得部10が音データを取得すると(ステップS100)、特徴パラメータ算出部20は、音データの特徴パラメータを算出する(ステップS101)。次に、データ更新部60は、データ記憶部40を参照し、データ記憶部40にデータが記憶されているか否かを確認する。
データ記憶部40に音データが記憶されておらず、まだクラスタが生成されていない場合には(ステップS102,No)、データ更新部60は、自身が有するデータ配列X[j]のアドレス[j=0]にステップS101において算出された新データの特徴パラメータを格納する(ステップS103)。データ更新部60は、さらにデータ記憶部40に新たなデータ、新たなデータの取得順、データID、特徴パラメータを書き込む。
次に、逐次クラスタリング部30のクラスタ決定部32は、新データが属するクラスタ(新クラスタ)を新たに生成する(ステップS104)。これに対応し、データ記憶部40においては、データ更新部60により、新データに対応付けて、新クラスタのクラスタIDが書き込まれる。
次に、セントロイド算出部33は、新クラスタのセントロイドを算出する(ステップS105)。なお、ステップS104において生成された新クラスタに属するデータは新データのみであるので、ステップS105では、新データの特徴パラメータがクラスタのセントロイドとして算出される。
算出されたセントロイドは、データ更新部60により、新クラスタのクラスタIDに対応付けてセントロイド記憶部50に書き込まれ、以上で、最初の音データを取得した場合のクラスタリング処理が終了する。
一方、ステップS102において、既にデータ記憶部40に音データが記憶されており、クラスタ生成済みである場合には(ステップS102,Yes)、データ更新部60は、データ配列X[j]のアドレス[j]を1だけ進める(ステップS110)。ここで、アドレス[j]がデータ配列X[j]の最終アドレスよりも大きい場合には(ステップS111,Yes)、データ更新部60は、データ配列X[j]のアドレスを[0]に戻す(ステップS112)。なお、ステップS111において、アドレス[j]がデータ配列X[j]の最終アドレス以下である場合には(ステップS111,No)、ステップS113へ進む。
次に、セントロイド算出部33は、データ配列X[j]の各アドレスに格納されている特徴パラメータのうち、アドレス[j]に格納されている特徴パラメータ以外の特徴パラメータに基づいて、アドレス[j]の特徴パラメータが属するクラスタのセントロイドを算出し、データ更新部60は、算出結果に基づいて、セントロイド記憶部50のセントロイドを更新する(ステップS113)。
なお、ここでは、アドレス[j]に格納されている特徴パラメータが除外されるので、アドレス[j]の特徴パラメータが属するクラスタのセントロイドの値が、前回算出されたセントロイドの値と異なる可能性があるが、これ以外のクラスタのセントロイドの値に変更はない。そこで、ステップS113においては、アドレス[j]の特徴パラメータが属するクラスタのセントロイドの算出、更新を行えばよい。
次に、データ距離算出部31は、新データと既に生成済みのすべてのクラスタのセントロイドとの間のデータ距離をそれぞれ算出する(ステップS114)。新データの特徴パラメータx(k=0,1,2…K)とクラスタ[i](i=0,1,2…I)のセントロイドCi,kの間のデータ距離dは、(式1)により算出される。ここで、kは、特徴パラメータの次元であり、Iは、生成済みのクラスタの数である。なお、本実施の形態においては、特徴パラメータは2次元である。

Figure 0005912667
次に、クラスタ決定部32は、複数のクラスタが存在する場合には、複数のクラスタそれぞれに対して算出された新データのデータ距離の最小値と、予め設定された距離閾値(D)とを比較する。なお、1つのクラスタのみ存在する場合には、算出されたデータ距離と距離閾値(D)とを比較する。データ距離の最小値が距離閾値(D)以下である場合には(ステップS115,Yes)、クラスタ決定部32は、データ距離の最小値が得られたクラスタを新データが属するクラスタに決定する(ステップS116)。
次に、セントロイド算出部33は、新データのクラスタのセントロイドを算出し、データ更新部60は、算出結果に基づいて、セントロイド記憶部50のセントロイドを更新する(ステップS117)。具体的には、セントロイド算出部33は、新データと、新データが属するクラスタに属する音データの特徴パラメータに基づいて、新データが属するクラスタのセントロイドを算出する。そして、データ更新部60は、新データが属するクラスタのクラスタIDに対応付けられているセントロイドの値を、セントロイド算出部33により算出されたセントロイドの値、すなわち新データを追加後のクラスタのセントロイドの値に更新する。
次に、データ更新部60は、アドレス[j]に新データの特徴パラメータを格納し、新データ、新データの取得順、データID、特徴パラメータ、クラスタIDをデータ記憶部40に書き込む(ステップS118)。以上で、処理が終了する。
なお、ステップS115において、データ距離の最小値が距離閾値(D)よりも大きい場合には(ステップS115,No)、新データは既に生成済みのいずれのクラスタにも属さないと判断し、ステップS104に進み、新データのみを所属データとする新クラスタを生成する。
以上のように、本実施の形態にかかるクラスタリング装置1は、新データが追加された場合には、新データの特徴パラメータと既に生成されているクラスタのセントロイドのみに基づいて、クラスタを更新する。すなわち、本実施の形態にかかるクラスタリング装置1は、少ない演算量で逐次クラスタリングを行うことができる。
また、データ配列数以上の数のデータを取得した場合には、古い音データから順に削除し、この場合には、削除されたデータが属していたクラスタについてのみクラスタの更新を行えばよいので、時々刻々と変化するデータに対し、少ない演算量で、常に最新の一定期間に得られたデータを適切にクラスタリングすることができる。
さらに、データ配列の数を設定することにより、クラスタリングの対象となるデータの最大数を設定することができるので、利用者は、希望するデータ数、または希望する期間に相当するデータ数を設定するだけで、常に希望するデータ数のデータを対象としたクラスタリング結果を自動的に得ることができる。
図6は、クラスタの生成過程を示す図である。クラスタリング装置1に音データ1〜5が番号順に入力されたとする。この場合、まず、音データ1の入力に対し、データ数1のクラスタAが生成される。クラスタAのセントロイドは、音データ1の特徴パラメータの値となる。
次に、音データ2が入力されると、音データ2とクラスタAのセントロイドとのデータ距離が算出される。音データ2のデータ距離は、距離閾値(D)よりも大きいものとする。この場合、音データ2が属する新たなクラスタBが生成され、クラスタBのセントロイドは、音データ2の特徴パラメータの値となる。
次に、音データ3が入力されると、音データ3とクラスタAのセントロイドとのデータ距離と、音データ3とクラスタBのセントロイドとのデータ距離が算出される。ここで、いずれのデータ距離も距離閾値(D)よりも大きいものとする。この場合、音データ3が属する新たなクラスタC(図中C1)が生成され、クラスタCのセントロイドは音データ3の特徴パラメータの値となる。
次に、音データ4が入力されると、音データ4とクラスタA〜Cのそれぞれのセントロイドとのデータ距離、すなわち3つのデータ距離が算出される。ここで、算出された3つのデータ距離のうちクラスタCとのデータ距離が最小で、かつデータ距離の最小値が距離閾値(D)以下の値であるものとする。この場合には、音データ4の属するクラスタがクラスタCに決定される。さらに、クラスタC(図中C2)の所属データを音データ3および音データ4として、クラスタC(C2)のセントロイドが更新される。
次に、音データ5が入力されると、音データ5と、クラスタA〜クラスタCそれぞれのセントロイドとのデータ距離が算出される。ここで、算出された3つのデータ距離のうちクラスタC(C2)とのデータ距離が最小で、かつデータ距離の最小値が距離閾値(D)以下の値であるものとする。この場合には、音データ5の属するクラスタがクラスタCに決定される。さらに、クラスタC(C3)の所属データを音データ3、音データ4および音データ5として、クラスタC(C3)のセントロイドが更新される。
図7は、音データを取得するのに伴い、古いデータを削除する過程を示す図である。なお、図7の例においては、データ配列X[j]に10個の音データが格納され、これ以上のデータがクラスタリング装置1に入力された場合には、古い音データから順に削除されるものとする。図7のt1のタイミングまでに音データ1〜10がそれぞれクラスタA〜Dにクラスタリングされているものとする。
そして、t1のタイミングでクラスタリング装置1に新データ11が入力される。この場合には、t1のタイミングにおいて、データ配列X[j]に格納されている最も古いデータである音データ1が削除される。そして、t2のタイミングで新データ11が属するクラスタがクラスタCに決定され、クラスタCのセントロイドが更新される。
また、音データ1が削除されたことに伴い、t2のタイミングで、音データ1が属していたクラスタAのセントロイドが更新される。さらに、t2のタイミングにおいて、新データ12が入力されるとする。この場合には、t2のタイミングにおいて、データ配列X[j]に格納されている最も古いデータである音データ2が削除される。そして、t3のタイミングで新データ12が属する新たなクラスタEが生成される。また、音データ2が削除されたことに伴い、音データ2が属していたクラスタBが消滅する。なお、クラスタに属する音データが存在しない場合には、データ更新部60は、セントロイド記憶部50において、所属する音データが存在しないクラスタのクラスタIDに対応付けられているセントロイドの値、またはクラスタIDとセントロイドの値の両方を削除する。
(実施例1)
実施の形態にかかるクラスタリング装置1を用いて、二次元乱数データのクラスタリングを行った。クラスタリング装置1に入力するデータとしては、(式2)
(x,y)=(−50≦x,y≦50)(式2)
のデータ範囲の100個のランダムデータを用いた。データ距離閾値(D)は、50に設定した。図8−1にクラスタリング装置1によるデータ範囲内のランダムデータに対するクラスタリング結果を示す。
(比較例1)
実施例1と同一のデータを用い、従来法としての群平均化法を用いて、クラスタリングを行った。図8−2に群平均化法のクラスタリング結果を示す。
(実施例2)
クラスタリング装置1を用いて、(式2)のデータ範囲の100個のランダムデータに加え、(式2)のデータ範囲外の3個のデータ(特異データと称する)を追加した103個のデータのクラスタリングを行った。データ距離閾値(D)は、50に設定した。図9−1にクラスタリング装置1によるクラスタリング結果を示す。
(比較例2)
実施例2と同一のデータを用い、群平均化法を用いて、クラスタリングを行った。図9−2に群平均化法のクラスタリング結果を示す。
図8−1および図8−2に示すように、本実施の形態にかかるクラスタリング装置1のクラスタリングにより、群平均化法によるクラスタリングと同様の結果を得ることができた。さらに、図9−1に示すように、クラスタリング装置1は、特異データを含むデータ群に対するクラスタリング処理においては、特異データを他のデータと異なるクラスタにクラスタリングすることができた。さらに、図9−1および図9−2に示すように、特異データを含むデータ群に対するクラスタリング装置1のクラスタリングにより、群平均化法によるクラスタリングと同様の結果を得ることができた。
(実施例3)
実施の形態にかかるクラスタリング装置1を用いて、図10に示すデータ範囲の二次元データのクラスタリングを行った。なお、クラスタリング装置1に入力されるデータは、図10に示すようにグループA〜Dの異なるデータ範囲のランダムデータであり、各グループのデータ数は、図10に示す通りである。図11は、データの入力順、データ番号とデータ数、データ範囲およびクラスタの遷移を示している。なお、クラスタの遷移の欄のうち各入力順に対応する上段は距離閾値(D)70の場合、下段は距離閾値(D)80の場合のクラスタ遷移を示している。図11に示す入力順の通り、各データ範囲のデータを順次、クラスタリング装置1に入力した。
図12−1〜図17−2に図11に示す入力順でのデータ入力後のクラスタリング結果を示す。なお、各図の枝番1および枝番2には、それぞれ距離閾値(D)を70および80に設定した場合のクラスタリング結果を示している。
入力順1の100個のデータの入力後には、距離閾値(D)70の場合には、図12−1に示すように4つのクラスタが生成された。一方、距離閾値(D)80の場合には、図12−2に示すように、3つのクラスタが生成された。
続いて入力順2の120個のデータの入力後には、距離閾値(D)70の場合には、図13−1に示すように、クラスタ5が新たに生成された。一方、距離閾値(D)80の場合には、図13−2に示すように、クラスタ4が新たに生成された。
さらに、続いて入力順3の120個のデータの入力後には、距離閾値(D)70の場合には、図14−1に示すように、クラスタ5が消滅し、クラスタ6が新たに生成された。一方、距離閾値(D)80の場合には、図14−2に示すように、クラスタ4が消滅し、クラスタ5が生成された。さらに、距離閾値(D)70および80のいずれの場合も、他のデータと異なるデータ(特異データ)と予測されるデータが、それぞれ他のデータと異なるクラスタであるクラスタ6およびクラスタ5にクラスタリングされていることを確認できた。
続いて、入力順4の140個のデータの入力後には、距離閾値(D)70の場合には、図15−1に示すように、クラスタ7が新たに生成された。一方、距離閾値(D)80の場合には、図15−2に示すように、クラスタ6が生成された。ここでも、特異データと予測されるデータがそれぞれ他のデータと異なるクラスタであるクラスタ7およびクラスタ6にクラスタリングされていることを確認できた。
続いて、入力順5の120個のデータの入力後には、距離閾値(D)70の場合には、図16−1に示すように、クラスタ6,7の2つのクラスタが消滅し、クラスタ8が新たに生成された。一方、距離閾値(D)80の場合には、図16−2に示すように、クラスタ6が消滅し、クラスタ7が新たに生成された。
続いて、入力順6の100個のデータの入力後には、距離閾値(D)70の場合には、図17−1に示すように、クラスタ8が消滅した。一方、距離閾値(D)80の場合には、図17−2に示すように、クラスタ7が消滅した。
以上のように、本実施の形態のクラスタリング装置1により、時間の経過とともに入力されるデータの特徴量が変化するようなデータ群に対し、データの特徴量の変化に追従したクラスタリングが可能であることが確認された。
さらに、距離閾値(D)を異ならせることにより、クラスタ数やクラスタ構造は異なる結果が得られるものの、距離閾値(D)として適切な範囲内の値が設定されている場合には、特異データを精度よく分離することができることが確認された。
なお、データ分散に対して、相対的に小さい距離閾値(D)を設定した場合には、クラスタ数が多くなり、相対的に大きい距離閾値(D)を設定した場合には、クラスタ数は少なくなる。最適な距離閾値(D)は、入力されるデータの特徴量に依存する。したがって、入力されるデータの特徴量や入力データ群のばらつきを予測し、これらの値に基づいて最適な距離閾値(D)を予め設定しておくことが望ましい。
以上のように、本実施の形態にかかるクラスタリング装置1においては、入力されたデータは、すべて記憶され続けるのではなく、古いデータから順次削除されるので、メモリを有効に活用することができる。さらに、本実施の形態にかかるクラスタリング装置1では、比較的新しいデータの傾向のみを反映させたクラスタリングを行うことができる。また、本実施の形態にかかるクラスタリング装置1においては、データ入力時に演算の対象となるのは、新たに入力されたデータと、このデータが属するクラスタに属する他のデータのみであり、また新たなクラスタ生成にかかる繰り返し演算も不要である。すなわち、本実施の形態にかかるクラスタリング装置1においては、新たなデータ入力時の演算量を削減し、処理効率を向上させることができる。
1 クラスタリング装置
10 データ取得部
20 特徴パラメータ算出部
30 逐次クラスタリング部
31 データ距離算出部
32 クラスタ決定部
33 セントロイド算出部
40 データ記憶部
50 セントロイド記憶部
60 データ更新部

Claims (5)

  1. 取得データを逐次クラスタリングするクラスタリング装置であって、
    既にクラスタリングされたデータと、前記データが属するクラスタと、前記データが取得された取得順とを対応付けて記憶するデータ記憶部と、
    前記クラスタと、前記クラスタに属する前記データの特徴量を代表する代表値とを対応付けて記憶する代表値記憶部と、
    クラスタリングの対象となる新データを取得するデータ取得部と、
    前記データ取得部が取得した前記新データの前記特徴量と前記代表値記憶部に記憶されている前記代表値の間のデータ距離を算出するデータ距離算出部と、
    前記データ距離に基づいて、前記新データが属するクラスタを決定するクラスタ決定部と、
    前記新データの前記特徴量を少なくとも用いて、前記新データに対して決定された前記クラスタの前記代表値を算出する代表値算出部と、
    前記新データと、前記新データに対して決定された前記クラスタとを対応付けて前記データ記憶部に書き込み、前記新データに対して決定された前記クラスタに対応付けて、前記代表値算出部で算出された、前記新データに対して決定された前記クラスタの前記代表値を前記代表値記憶部に書き込むデータ更新部と
    前記データ取得部が前記新データを取得した場合に、前記新データと前記データ記憶部に記憶されている前記データとを合わせたデータ総数と、予め設定されたデータ数閾値とを比較し、前記データ総数が前記データ数閾値よりも大きい場合に、前記データ記憶部に記憶されている前記データのうち取得順の最も早い前記データを削除する削除部と
    を備え、
    前記代表値算出部は、さらに、前記削除部による削除後に前記データ記憶部に記憶されている前記データの前記特徴量に基づいて、削除された前記データが属していた前記クラスタの前記代表値を算出し、
    前記データ更新部は、さらに、前記代表値記憶部に記憶されている、削除された前記データが属していた前記クラスタの前記代表値を、前記代表値算出部で算出された、削除された前記データが属していた前記クラスタの前記代表値に更新することを特徴とするクラスタリング装置。
  2. 前記クラスタ決定部は、さらに、前記データ距離算出部により算出された前記データ距離と、距離閾値とを比較し、前記データ距離が前記距離閾値よりも大きい場合に、前記データ記憶部に記憶されているクラスタ以外の新たなクラスタを、前記新データが属するクラスタとして決定し、
    前記代表値算出部は、さらに、前記新データの前記特徴量に基づいて、前記新たなクラスタの前記代表値を算出することを特徴とする請求項1に記載のクラスタリング装置。
  3. 前記クラスタ決定部は、さらに、前記データ距離算出部により算出された前記データ距離と、距離閾値とを比較し、前記データ距離が前記距離閾値以下である場合に、前記距離閾値以下の前記データ距離が算出された前記代表値に対する前記クラスタを前記新データの属するクラスタとして決定し、
    前記代表値算出部は、さらに、前記データ記憶部を参照し、前記新データに対して決定された前記クラスタに属する前記データの前記特徴量及び前記新データの前記特徴量に基づいて、前記新データが属するクラスタの前記代表値を算出し、
    前記データ更新部は、さらに、前記代表値記憶部に記憶されている、前記新データに対して決定された前記クラスタの前記代表値を、前記代表値算出部により算出された、前記新データに対して決定された前記クラスタの前記代表値に更新することを特徴とする請求項1または2に記載のクラスタリング装置。
  4. 前記代表値は、前記クラスタに属する前記データ前記特徴量の重心位置であることを特徴とする請求項1からのいずれか一項に記載のクラスタリング装置。
  5. 取得データを逐次クラスタリングするクラスタリング装置で実行されるクラスタリング方法であって、
    前記クラスタリング装置は、既にクラスタリングされたデータと、前記データが属するクラスタと、前記データが取得された取得順とを対応付けて記憶するデータ記憶部と、
    前記クラスタと、前記クラスタに属する前記データの特徴量を代表する代表値とを対応付けて記憶する代表値記憶部と
    を備え、
    クラスタリングの対象となる新データを取得するデータ取得工程と、
    前記データ取得工程において取得した前記新データの前記特徴量と前記代表値記憶部に記憶されている前記代表値の間のデータ距離を算出するデータ距離算出工程と、
    前記データ距離に基づいて、前記新データが属するクラスタを決定するクラスタ決定工程と、
    前記新データの前記特徴量を少なくとも用いて、前記新データに対して決定された前記クラスタの前記代表値を算出する代表値算出工程と、
    前記新データと、前記新データに対して決定された前記クラスタとを対応付けて前記データ記憶部に書き込み、前記新データに対して決定された前記クラスタに対応付けて、前記代表値算出工程で算出された、前記新データに対して決定された前記クラスタの前記代表値を前記代表値記憶部に書き込むデータ更新工程と
    前記データ取得工程で前記新データを取得した場合に、前記新データと前記データ記憶部に記憶されている前記データとを合わせたデータ総数と、予め設定されたデータ数閾値とを比較し、前記データ総数が前記データ数閾値よりも大きい場合に、前記データ記憶部に記憶されている前記データのうち取得順の最も早い前記データを削除する削除工程と
    を含み、
    前記代表値算出工程では、さらに、前記削除工程による削除後に前記データ記憶部に記憶されている前記データの前記特徴量に基づいて、削除された前記データが属していた前記クラスタの前記代表値を算出し、
    前記データ更新工程では、さらに、前記代表値記憶部に記憶されている、削除された前記データが属していた前記クラスタの前記代表値を、前記代表値算出工程で算出された、削除された前記データが属していた前記クラスタの前記代表値に更新することを特徴とするクラスタリング方法。
JP2012044540A 2012-02-29 2012-02-29 クラスタリング装置およびクラスタリング方法 Active JP5912667B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012044540A JP5912667B2 (ja) 2012-02-29 2012-02-29 クラスタリング装置およびクラスタリング方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012044540A JP5912667B2 (ja) 2012-02-29 2012-02-29 クラスタリング装置およびクラスタリング方法

Publications (2)

Publication Number Publication Date
JP2013182341A JP2013182341A (ja) 2013-09-12
JP5912667B2 true JP5912667B2 (ja) 2016-04-27

Family

ID=49272958

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012044540A Active JP5912667B2 (ja) 2012-02-29 2012-02-29 クラスタリング装置およびクラスタリング方法

Country Status (1)

Country Link
JP (1) JP5912667B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6247613B2 (ja) * 2014-08-14 2017-12-13 日本電信電話株式会社 クラスタリング装置、方法、及びプログラム
US10360276B2 (en) * 2015-07-28 2019-07-23 Expedia, Inc. Disambiguating search queries
JP6829603B2 (ja) * 2017-01-05 2021-02-10 綜合警備保障株式会社 クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
JP6862969B2 (ja) * 2017-03-21 2021-04-21 日本電気株式会社 データ種別を推定するための情報処理方法、情報処理装置および情報処理プログラム
CN111339210B (zh) * 2018-12-18 2023-04-28 杭州海康威视数字技术股份有限公司 数据聚类方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041544A (ja) * 2000-07-25 2002-02-08 Toshiba Corp テキスト情報分析装置
JP2002140350A (ja) * 2000-11-02 2002-05-17 Toshiba Corp 入力データの履歴管理装置及び管理方法及び該管理方法が記憶された情報記憶媒体
JP5127738B2 (ja) * 2009-02-06 2013-01-23 キヤノン株式会社 画像処理方法および画像処理装置およびプログラム

Also Published As

Publication number Publication date
JP2013182341A (ja) 2013-09-12

Similar Documents

Publication Publication Date Title
JP5912667B2 (ja) クラスタリング装置およびクラスタリング方法
JP5427640B2 (ja) 決定木生成装置、決定木生成方法、及びプログラム
WO2017076154A1 (zh) 网络事件预测以及建立网络事件预测模型的方法和装置
CN112699623A (zh) 基于非结构网格规则化重构技术的高精度热流计算方法
CN104679834A (zh) 一种时序数据清洗方法及系统
KR101544457B1 (ko) 최적 설계 파라미터 탐색을 위한 최적화 방법
US10600501B2 (en) System and methods for identifying a base call included in a target sequence
CN108197708A (zh) 一种基于Spark的并行化遗传算法
CN111967696A (zh) 基于神经网络的电动汽车充电需求预测方法、系统及装置
JP2019152567A (ja) 算出プログラム、算出方法、算出装置、及び表示プログラム
CN107361396A (zh) 基于大数据的烟草烘丝水分预测与控制系统
KR101463492B1 (ko) 비정상성 분위 사상을 적용한 전지구 기후모델의 오차보정방법
CN109299778A (zh) 一种基于布谷鸟搜索算法的rcrss救援地图分区的计算方法
CN109460608A (zh) 一种基于模糊时间序列的高陡边坡形变预测的方法
JP5977958B2 (ja) 特異データ検出装置および特異データ検出方法
CN107506572B (zh) 获取目标点的高度的方法和装置
TWI617422B (zh) 塑膠押出製程控制方法及參數調整系統
CN109858816A (zh) 一种采用蚁狮算法进行生产调度的方法
CN110275895B (zh) 一种缺失交通数据的填充设备、装置及方法
CN115665174B (zh) 一种梯度数据的同步方法、系统、设备及存储介质
Pagès et al. Potential and actual root growth variations in root systems: modeling them with a two-step stochastic approach
CN115292971B (zh) 基于贝叶斯的裂缝属性分析方法、装置及存储介质
CN104537279A (zh) 一种序列聚类方法及装置
JP7214672B2 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
CN114492206A (zh) 一种基于破碎岩体节理模型确定隧道开挖进尺量的计算方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160401

R150 Certificate of patent or registration of utility model

Ref document number: 5912667

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250