JP7070093B2

JP7070093B2 - クラスタリング装置、クラスタリング方法及びプログラム

Info

Publication number: JP7070093B2
Application number: JP2018100870A
Authority: JP
Inventors: 一生青山; 正嗣服部
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2022-05-18
Anticipated expiration: 2038-05-25
Also published as: US11971906B2; JP2019204436A; WO2019225274A1; US20210294819A1

Description

本発明は、クラスタリング装置、クラスタリング方法及びプログラムに関する。

膨大な量の情報（オブジェクト）をクラスタリングする手法として、ｋ－ｍｅａｎｓ法が知られている。ｋ－ｍｅａｎｓ法は、例えば、オブジェクトの特徴を表すベクトルデータ（以降、「オブジェクト特徴ベクトル」と表す。）をｘ_ｉとして、データ集合Ｘ＝｛ｘ_１，ｘ_２，・・・，ｘ_ｎ｝と、クラスタ数Ｋとが与えられた場合に、データ集合ＸをＫ個のクラスタに分割する手法である。このｋ－ｍｅａｎｓ法では、クラスタＣ_ｊに属する各ｘ_ｉの平均を表すベクトルμ_ｊ（以降、「ｍｅａｎ特徴ベクトル」と表す。）と、オブジェクト特徴ベクトルｘ_ｉとの距離が最小になるように、各ｘ_ｉが属するクラスタＣ_ｊが決定される。

ｋ－ｍｅａｎｓ法の厳密解を計算するには多くの計算量を要するため、Ｌｌｏｙｄ法と呼ばれる発見的手法がよく用いられる（非特許文献１）。

S. P. Lloyd, Least squares quantization in PCM, IEEE Trans. Inf. Theory, vol. 28, no. 2 (1982), pp. 129-137.

ここで、Ｌｌｏｙｄ法では、各オブジェクト特徴ベクトルｘ_ｉと各ｍｅａｎ特徴ベクトルμ_ｊとの距離を算出するために、これらのベクトルの内積を計算する必要がある。この内積計算では、オブジェクト特徴ベクトルｘ_ｉとｍｅａｎ特徴ベクトルμ_ｊとがどのようなデータ構造で表現されているかによって、必要となるメモリ容量や計算時間等が異なる。

上述したような膨大な量のオブジェクトをクラスタリングする問題においては、オブジェクト特徴ベクトルは疎（スパース）なデータになることが多く、結果として大規模な疎データのクラスタリングを行うことになる場合が多い。これに対して、上記の非特許文献１等の従来技術では、Ｌｌｏｙｄ法を疎データのクラスタリングに適用した場合に、内積計算に必要なメモリ容量や計算時間等の効率化を図ることができなかった。

本発明の実施の形態は、上記の点に鑑みてなされたもので、疎データを効率的にクラスタリングすることを目的とする。

上記目的を達成するため、本発明の実施の形態では、オブジェクトの特徴を表すオブジェクト特徴ベクトルを複数のクラスタにクラスタリングするクラスタリング装置であって、前記特徴を識別する特徴識別子毎に、前記クラスタを識別するクラスタ識別子と該クラスタに属するオブジェクト特徴ベクトルの平均を表すｍｅａｎ特徴ベクトルの第１の非零特徴量とを対応付けた組を格納する配列要素で構成された転置ファイルを記憶部に記憶させる記憶手段と、前記オブジェクト特徴ベクトルの第２の非零特徴量と該第２の非零特徴量の特徴識別子とを対応付けた組で前記オブジェクト特徴ベクトルを表したスパース表現のオブジェクト特徴ベクトルと、各クラスタの前記ｍｅａｎ特徴ベクトルとの距離を計算する計算手段と、前記計算手段により計算された距離に基づいて前記オブジェクト特徴ベクトルを、前記複数のクラスタのうちの一のクラスタに割り当てる割当手段と、を有し、前記計算手段は、前記スパース表現のオブジェクト特徴ベクトルに含まれる第２の非零特徴量と、前記転置ファイルを構成する配列要素のうち、前記第２の非零特徴量に対応する特徴識別子に基づくインデックスの配列要素に格納されている第１の非零特徴量と積を計算することで、前記距離の計算に必要な内積を計算する、ことを特徴とする。

本発明の実施の形態によれば、疎データを効率的にクラスタリングすることができる。

本発明の実施の形態におけるクラスタリング装置の機能構成の一例を示す図である。本発明の実施の形態におけるクラスタリング装置のハードウェア構成の一例を示す図である。本発明の実施の形態における前処理の一例を示すフローチャートである。スパース表現のオブジェクト特徴ベクトルの一例を示す図である。本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート（実施例１）である。完全表現のｍｅａｎ特徴ベクトルの一例を示す図である。Ｋ個の完全表現のｍｅａｎ特徴ベクトルの一例を示す図である。スパース表現のオブジェクト特徴ベクトルと、完全表現のｍｅａｎ特徴ベクトルとの内積計算の一例を示す図（実施例１）である。スパース表現のオブジェクト特徴ベクトルと、Ｋ個の完全表現のｍｅａｎ特徴ベクトルとの内積計算の一例を示す図（実施例１）である。本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート（実施例２）である。スパース表現のｍｅａｎ特徴ベクトルの一例を示す図である。本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート（実施例３）である。ｍｅａｎ転置ファイルの一例を示す図である。スパース表現のオブジェクト特徴ベクトルと、転置ファイル表現のｍｅａｎ特徴ベクトルとの内積計算の一例を示す図（実施例３）である。本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート（実施例４）である。本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート（実施例５）である。本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート（実施例６）である。

以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。本発明の実施の形態では、疎データを効率的にクラスタリングすることが可能なクラスタリング装置１０について説明する。

＜準備＞
まず、本発明の実施の形態の準備として、クラスタリングの対象となるデータとＬｌｏｙｄ法とについて説明する。

（１）クラスタリングの対象となるデータ
本発明の実施の形態では、大規模な疎データをクラスタリングの対象とする。このようなデータの一例としては、文書をオブジェクトとして、大量の文書をクラスタリングする場合に、文書の特徴を表すオブジェクト特徴ベクトル等が挙げられる。

オブジェクトが文書である場合は、ｂａｇ－ｏｆ－ｗｏｒｄｓモデル（以降、「ＢｏＷ」と表す。）を用いて、オブジェクトを特徴空間であるユークリッド空間における点として扱うことがよく行われている。なお、文書はテキストやドキュメント等とも称されるが、これらを総称して「文書」と表す。

ＢｏＷでは、文書をその中に出現する単語（word）に代表される一塊の文字列に分割し、各々の単語を文書の特徴の１つとする。そして、特徴に対応する或る量を特徴量として、文書をこれらの特徴量を要素するベクトルで表現する。なお、単語は語彙（vocabulary）やターム（term）等とも称されるが、以降では、単語、語彙及びタームを総称して、「単語」と表す。

ここで、特徴量は、文書中に或る単語が出現する頻度（term frequency）と、オブジェクト集合（文書集合）の各文書に当該単語が出現する頻度（document frequency）とを入力変数とする関数の値で表される。当該関数としては、例えば、ｔｆ－ｉｄｆ（term-frequency-inverse document frequency）であることが多く、一般的な関数は以下である。

ｔｆ（ｔ_ｈ，ｘ_ｉ；Ｘ）：Ｘが与えられた場合に、ｘ_ｉに出現するｔ_ｈの頻度
ｄｆ（ｔ_ｈ，Ｘ）：Ｘが与えられた場合に、ｔ_ｈを含む文書（オブジェクト）の数ｎ_ｈ
ｉｄｆ（ｔ_ｈ；Ｘ）＝ｌｏｇ（ｎ／ｎ_ｈ）
ｔｆ－ｉｄｆ（ｔ_ｈ，ｘ_ｉ；Ｘ）＝ｔｆ（ｔ_ｈ，ｘ_ｉ；Ｘ）×ｉｄｆ（ｔ_ｈ；Ｘ）
ここで、Ｘはオブジェクト集合（文書集合）に対応するオブジェクト特徴ベクトル集合Ｘ＝｛ｘ_１，ｘ_２，・・・，ｘ_ｎ｝であり、ｘ_ｉ（ｉ＝１，２，・・・，ｎ）はオブジェクト特徴ベクトルである。また、オブジェクト数｜Ｘ｜は｜Ｘ｜＝ｎであり、ｎ_ｈは単語ｔ_ｈを含む文書の数である。なお、ｉｄｆを表す関数のｌｏｇの底は限定されない。

この場合、特徴空間の次元数は、文書集合に含まれる全文書の異なり単語数であり、非常に大きくなる。すなわち、特徴空間は高次元空間となる。

一方で、或るオブジェクト（文書）に出現する単語数が限られているため、オブジェクト特徴ベクトルｘ_ｉは、疎（スパース）なベクトルとなる。すなわち、オブジェクト特徴ベクトルｘ_ｉは、非零要素の数が非常に少ないベクトルとなる。

このように、大量の文書をクラスタリングする場合、クラスタリング対象のデータ（オブジェクト特徴ベクトル）集合は大規模な集合となり、かつ、各オブジェクト特徴ベクトルは高次元で疎なベクトルとなる。以降では、このような高次元かつ疎なデータを「高次元疎データ」、これらの高次元疎データの大規模な集合を「大規模高次元疎データ集合」とも表す。本発明の実施の形態では、このような大規模高次元疎データ集合をクラスタリングの対象とする。

なお、上記以外にも、例えば、購入者（又はユーザ）と購入品（又はアイテム）との関係を表す購買履歴、抽出される特徴がｂａｇ－ｏｆ－ｖｉｓｕａｌｗｏｒｄｓで表される画像等もオブジェクトとして、上記の文書と同様に扱うことができる。すなわち、大量の購買履歴の特徴ベクトルやｂａｇ－ｏｆ－ｖｉｓｕａｌｗｏｒｄｓで表される大量の画像の特徴ベクトル等も大規模高次元疎データ集合となる。

（２）Ｌｌｏｙｄ法
Ｌｌｏｙｄ法の概略は以下の通りである。なお、Ｋは、与えられたクラスタ数である。

Ｓ１：（初期状態設定ステップ）：Ｋ個のｍｅａｎ特徴ベクトルμ_ｊ（ｊ＝１，２，・・・，Ｋ）を適当な値に初期化する。

Ｓ２：（割当ステップ）オブジェクト特徴ベクトルｘ_ｉの各々について、現在のイテレーションのｍｅａｎ特徴ベクトルμ_ｊと、当該オブジェクト特徴ベクトルｘ_ｉとの距離（又はその二乗）を計算し、最も距離が近いｍｅａｎ特徴ベクトルμ_ｊに対応するクラスタＣ_ｊに当該オブジェクト特徴ベクトルｘ_ｉを割り当てる。なお、イテレーションとは、後述するように、Ｓ２及びＳ３の繰り返し回数（又は反復回数）のことである。

ｍｅａｎ特徴ベクトルμ_ｊとオブジェクト特徴ベクトルｘ_ｉとの距離は、例えば、以下の式（１）により計算される。

ここで、Ｔは転置を表す。上記式（１）の右辺における第１項及び第２項はそれぞれｘ_ｉ及びμ_ｊのノルムの二乗であり、第３項のｘ_ｉ ^Ｔμ_ｊは内積（dot product又はinner-product）を表す。

Ｓ３：（更新ステップ）全てのオブジェクト特徴ベクトルｘ_ｉの割り当てが終了した後、各クラスタＣ_ｊに属するオブジェクト特徴ベクトルｘ_ｉによりｍｅａｎ特徴ベクトルμ_ｊを計算及び更新する。

Ｓ４：（終了判定ステップ）所定の終了条件を満たすか否かを判定し、所定の終了条件を満たすと判定された場合は処理を終了する一方で、所定の終了条件を満たさないと判定された場合は上記のＳ２の割当ステップに戻る。これにより、所定の終了条件を満たすまで、Ｓ２及びＳ３が繰り返し実行される。この繰り返しはイテレーションとも称され、現在実行中の繰り返しを「現在のイテレーション」、現在のイテレーションの１つ前に実行した繰り返しを「１つ前のイテレーション」と表す。なお、所定の終了条件としては、例えば、全てのオブジェクト特徴ベクトルｘ_ｉが属するクラスタＣ_ｊが不変になった場合等が挙げられる。

ここで、Ｌｌｏｙｄ法は、上記のＳ２の割当ステップに多くの時間計算量を要する。このため、Ｌｌｏｙｄ法の高速化を図るためには、割当ステップに要する時間、すなわち、全てのオブジェクト特徴ベクトルｘ_ｉと全てのｍｅａｎ特徴ベクトルμ_ｊとの距離計算に要する時間を低減することが必要となる。上述したように、距離計算では、ｘ_ｉ及びμ_ｊのノルムの二乗と、ｘ_ｉ ^Ｔμ_ｊの内積とを計算する必要がある。ノルムの二乗は予め計算することが可能であるため、距離計算に要する時間を低減するためには、内積計算に要する時間を低減することが重要となる。

そこで、本発明の実施の形態では、少なくともオブジェクト特徴ベクトルｘ_ｉを所定のデータ構造で表現することにより、内積計算に要する時間を低減する方法について説明する。また、本発明の実施の形態では、少なくともオブジェクト特徴ベクトルｘ_ｉを所定のデータ構造で表現することにより、内積計算に必要なメモリ容量を削減する方法についても説明する。これらの方法により、本発明の実施の形態におけるクラスタリング装置１０は、大規模高次元疎データ集合を効率的にクラスタリングすることが可能となる。

＜機能構成＞
次に、本発明の実施の形態におけるクラスタリング装置１０の機能構成について、図１を参照しながら説明する。図１は、本発明の実施の形態におけるクラスタリング装置１０の機能構成の一例を示す図である。

図１に示すように、本発明の実施の形態におけるクラスタリング装置１０は、前処理部１１０と、クラスタリング処理部１２０とを有する。前処理部１１０とクラスタリング処理部１２０とは、クラスタリング装置１０にインストールされた１以上のプログラムがＣＰＵ（Central Processing Unit）に実行させる処理により実現される。なお、前処理部１１０とクラスタリング処理部１２０とは、異なるプログラムがＣＰＵに実行させる処理により実現されていても良い。

また、本発明の実施の形態におけるクラスタリング装置１０は、記憶部１３０を有する。記憶部１３０は、例えば、補助記憶装置やＲＡＭ（Random Access Memory）等を用いて実現可能である。

前処理部１１０は、入力されたオブジェクト特徴ベクトル集合Ｘ＝｛ｘ_１，ｘ_２，・・・，ｘ_ｎ｝の各オブジェクト特徴ベクトルｘ_ｉを、非零要素の位置（例えば、オブジェクトが文書の場合は異なり単語の各々を一意に識別する特徴ＩＤ（又は特徴識別子））と、非零要素の値（例えば、オブジェクトが文書の場合はｔｆ－ｉｄｆ値で表される特徴量）との組（タプル）の列で構成したデータ構造で表現する。なお、入力されたオブジェクト特徴ベクトル集合Ｘが大規模高次元疎データ集合である。

上記のデータ構造で表現されたオブジェクト特徴ベクトルを「スパース表現のオブジェクト特徴ベクトル」と表す。一方で、スパース表現ではなく、オブジェクト特徴ベクトル集合Ｘに出現する全ての特徴ＩＤを次元とするオブジェクト特徴ベクトル（すなわち、高次元であるオブジェクト特徴ベクトル）を「完全表現のオブジェクト特徴ベクトル」と表す。以降では、スパース表現のオブジェクト特徴ベクトルもｘ_ｉ（ｉ＝１，２，・・・，ｎ）と表す。スパース表現のオブジェクト特徴ベクトルｘ_ｉの集合Ｘは、例えば、記憶部１３０に格納される。

クラスタリング処理部１２０は、スパース表現のオブジェクト特徴ベクトルｘ_ｉの集合Ｘと、クラスタ数Ｋとを入力として、スパース表現のオブジェクト特徴ベクトルｘ_ｉをＫ個のクラスタにクラスタリング（又は分割）する。ここで、クラスタリング処理部１２０には、入力部１２１と、初期設定部１２２と、割当部１２３と、更新部１２４と、終了判定部１２５と、出力部１２６とが含まれる。

入力部１２１は、スパース表現のオブジェクト特徴ベクトルｘ_ｉの集合Ｘと、クラスタ数Ｋとを入力する。なお、入力部１２１は、例えば、記憶部１３０から集合Ｘ及びクラスタ数Ｋを入力する。ただし、入力部１２１は、例えば、他の装置や他のプログラム等から出力された集合Ｘやクラスタ数Ｋを入力しても良い。

初期設定部１２２は、上述した初期状態設定ステップに相当する処理を行う。割当部１２３は、上述した割当ステップに相当する処理を行う。更新部１２４は、上述した更新ステップに相当する処理を行う。終了判定部１２５は、上述した終了判定ステップに相当する処理を行う。

出力部１２６は、例えば、スパース表現のオブジェクト特徴ベクトルｘ_ｉのクラスタＣ_ｊへの割当結果（これは、オブジェクトのクラスタリング結果と同一視できる。）を出力する。なお、出力部１２６は、各クラスタＣ_ｊのｍｅａｎ特徴ベクトルμ_ｊを出力しても良い。また、出力部１２６による出力先は、限定されない。出力先の具体例としては、例えば、ディスプレイ、補助記憶装置、外部記録媒体、ネットワークを介して接続される他の装置等が挙げられる。

なお、図１では、一例として、クラスタリング装置１０が前処理部１１０を有している場合を示したが、これに限られない。例えば、クラスタリング装置１０が前処理部１１０を有さずに、他の装置が前処理部１１０を有していても良い。この場合、クラスタリング装置１０のクラスタリング処理部１２０は、当該他の装置の前処理部１１０によって作成されたスパース表現のオブジェクトベクトルｘ_ｉの集合Ｘを入力すれば良い。

＜ハードウェア構成＞
次に、本発明の実施の形態におけるクラスタリング装置１０のハードウェア構成について、図２を参照しながら説明する。図２は、本発明の実施の形態におけるクラスタリング装置１０のハードウェア構成の一例を示す図である。

図２に示すように、本発明の実施の形態におけるクラスタリング装置１０は、入力装置２０１と、表示装置２０２と、外部Ｉ／Ｆ２０３と、ＲＡＭ２０４と、ＲＯＭ（Read Only Memory）２０５と、ＣＰＵ２０６と、通信Ｉ／Ｆ２０７と、補助記憶装置２０８とを有する。これら各ハードウェアは、それぞれがバス２０９を介して通信可能に接続されている。

入力装置２０１は、例えばキーボードやマウス、タッチパネル等であり、ユーザが各種装置を入力するのに用いられる。表示装置２０２は、例えばディスプレイ等であり、クラスタリング装置１０の処理結果等を表示する。なお、クラスタリング装置１０は、入力装置２０１及び表示装置２０２のうちの少なくとも一方を有していなくても良い。

外部Ｉ／Ｆ２０３は、外部装置とのインタフェースである。外部装置には、記録媒体２０３ａ等がある。クラスタリング装置１０は、外部Ｉ／Ｆ２０３を介して、記録媒体２０３ａの読み取りや書き込み等を行うことができる。記録媒体２０３ａには、例えば、本発明の実施の形態におけるクラスタリング装置１０が有する各機能部を実現する１以上のプログラムが格納されていても良い。

記録媒体２０３ａには、例えば、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

ＲＡＭ２０４は、プログラムやデータを一時保持する揮発性の半導体メモリである。ＲＯＭ２０５は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ＲＯＭ２０５には、例えば、ＯＳ（Operating System）設定やネットワーク設定等が格納されている。ＣＰＵ２０６は、ＲＯＭ２０５や補助記憶装置２０８等からプログラムやデータをＲＡＭ２０４上に読み出して処理を実行する演算装置である。

通信Ｉ／Ｆ２０７は、クラスタリング装置１０が他の装置と通信を行うためのインタフェースである。本発明の実施の形態におけるクラスタリング装置１０が有する各機能部を実現する１以上のプログラムは、例えば、通信Ｉ／Ｆ２０７を介して、所定のサーバ等から取得（ダウンロード）されても良い。また、本発明の実施の形態におけるクラスタリング装置１０は、例えば、通信Ｉ／Ｆ２０７を介して、これらの各機能部を実現する１以上のプログラムを他の装置に提供しても良い。

補助記憶装置２０８は、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置２０８に格納されているプログラムやデータには、例えば、ＯＳ、当該ＯＳ上で各種機能を実現するアプリケーションプログラム、本発明の実施の形態におけるクラスタリング装置１０が有する各機能部を実現する１以上のプログラム等がある。

本発明の実施の形態におけるクラスタリング装置１０は、図２に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。

＜前処理＞
まず、完全表現のオブジェクト特徴ベクトルｘ_ｉを、スパース表現のオブジェクト特徴ベクトルｘ_ｉに変換する前処理について、図３を参照しながら説明する。図３は、本発明の実施の形態における前処理の一例を示すフローチャートである。

ステップＳ１０１：まず、前処理部１１０は、完全表現のオブジェクト特徴ベクトルｘ_ｉの集合Ｘ＝｛ｘ_１，ｘ_２，・・・，ｘ_ｎ｝を入力する。なお、オブジェクト特徴ベクトル集合Ｘは、大規模高次元疎データ集合である。

ステップＳ１０２：次に、前処理部１１０は、完全表現の各オブジェクト特徴ベクトルｘ_ｉをスパース表現に変換する。ただし、入力データが予めスパース表現されている場合は、この変換を行うことなく、当該スパース表現を利用する。

ここで、スパース表現のオブジェクト特徴ベクトルｘ_ｉの一例について、図４を参照しながら説明する。図４は、スパース表現のオブジェクト特徴ベクトルｘ_ｉの一例を示す図である。

図４に示すように、スパース表現のオブジェクト特徴ベクトルｘ_ｉは、非零要素の位置を示す特徴ＩＤと、非零要素の値を示す特徴量との組（タプル）の列で構成される。図４では、完全表現のオブジェクト特徴ベクトルｘ_ｉの非零要素がｍ個である場合に、ｈ＝１，２，・・・，ｍとして、これらの非零要素の特徴ＩＤ「ｔ_ｈ」と、当該特徴ＩＤの特徴量「ｖ_ｈ」との組（タプル）の列で構成されたスパース表現を表している。なお、各特徴ＩＤ「ｔ_ｈ」及び特徴量「ｖ_ｈ」は、オブジェクト特徴ベクトルｘ_ｉのインデックスｉに依存するため、正確にはそれぞれ「ｔ_ｉｈ」及び「ｖ_ｉｈ」と表されるが、本発明の実施の形態では、特に断らない限り、「ｔ_ｈ」及び「ｖ_ｈ」とインデックスｉを省略して表す。

ここで、特徴ＩＤは、例えば、１≦ｔ_１＜ｔ_２＜・・・＜ｔ_ｈ＜・・・＜ｔ_ｍ≦Ｄのように昇順にソートされていることが好ましい。Ｄは、各オブジェクト特徴ベクトルｘ_ｉが存在する特徴空間の次元数（すなわち、例えば、オブジェクトが文書である場合、文書集合に含まれる異なり単語数）である。このようにソートされていることで、後述する内積計算の計算量を小さくすることができる。以降では、スパース表現のオブジェクト特徴ベクトルｘ_ｉの各特徴ＩＤは、上述のように昇順にソートされているものとする。

スパース表現のオブジェクト特徴ベクトルｘ_ｉを用いることで、スパース表現のオブジェクト特徴ベクトルｘ_ｉの集合Ｘが使用するメモリサイズ（すなわち、記憶部１３０の記憶容量）を抑制することができる。例えば、オブジェクト数をｎ、各オブジェクト特徴ベクトルｘ_ｉが存在する特徴空間の次元数をＤ、オブジェクト特徴ベクトルｘ_ｉの疎性（スパーシティ：sparsity）をＳ_ｘ（ｉ）、（０≦Ｓ_ｘ（ｉ）≦１）、オブジェクト特徴ベクトルｘ_ｉの要素番号を整数で表現（すなわち、整数型ｉｎｔサイズメモリ容量を使用して表現）し、特徴量を倍精度浮動小数点で表現（すなわち、倍精度浮動小数点型ｄｏｕｂｌｅサイズのメモリ容量を使用して表現）する場合、完全表現とスパース表現とのメモリ使用量は以下の通りである。

ここで、ｓｉｚｅｏｆは引数として渡された型のメモリサイズを返す関数である。

具体的には、計算機システムに依存するが、一例として、ｓｉｚｅｏｆ（ｉｎｔ）＝４ｂｙｔｅｓ、ｓｉｚｅｏｆ（ｄｏｕｂｌｅ）＝８ｂｙｔｅｓであり、全オブジェクト特徴ベクトルｘ_ｉの平均疎性Ｓ_ｘが

である場合、完全表現のメモリ使用量は８×ｎ×Ｄｂｙｔｅｓであり、スパース表現のメモリ使用量は１．２×ｎ×Ｄｂｙｔｅｓである。ただし、タプルの要素を各々１つの配列に保持する。

このため、各オブジェクト特徴ベクトルｘ_ｉをスパース表現とすることで、メモリ使用量を約１／７に抑制することができる。

なお、完全表現の場合は、オブジェクト特徴ベクトルｘ_ｉの各要素を格納する配列のインデックスと、オブジェクトを一意に識別する識別子（この識別子は、「オブジェクトＩＤ」とも称される。）とが一致しているものと仮定している。すなわち、オブジェクトＩＤ「ｋ」のオブジェクトに対応するオブジェクト特徴ベクトルｘ_ｋの各要素（特徴量）は、要素数がＤ個であるｋ番目の配列（具体的には、配列ｖ_ｋ［ｄ］，０≦ｄ≦Ｄ－１）に格納されているものと仮定している。また、オブジェクト特徴ベクトルｘ_ｉの疎性Ｓ_ｘ（ｉ）は、Ｓ_ｘ（ｉ）＝１．０－（ｎｎｚ_ｉ）／Ｄで定義される。ここで、ｎｎｚ_ｉは、オブジェクト特徴ベクトルｘ_ｉの非零要素の数（the number of non-zero elements）である。

例えば、大量の文書がオブジェクトである場合、平均疎性Ｓ_ｘは非常に大きくなることが一般的であり、０．９９を超えることもある。例えば、文書数が１００万、異なり単語数が５０万であって、１つの文書中に平均２００単語程度が出現する場合、平均疎性Ｓ_ｘ＝１－２００／５×１０^６＝０，９９９９５である。このときのメモリ使用量は６×１０^－４×ｎ×Ｄｂｙｔｅｓである。このように、スパース表現を用いることで、メモリを効率的に使用することができる。特に、大規模高次元疎データをクラスタリングの対象とする場合、ｎ及びＤが共に非常に大きいため、完全表現の各オブジェクト特徴ベクトルｘ_ｉをスパース表現にすることは空間計算量に相当するメモリの効率的利用の観点から特に効果的である。

ステップＳ１０３：次に、前処理部１１０は、上記のステップＳ１０２でスパース表現に変換された各オブジェクト特徴ベクトルｘ_ｉを記憶部１３０に格納する。

以上のように、本発明の実施の形態におけるクラスタリング装置１０は、前処理として、スパース表現のオブジェクト特徴ベクトルｘ_ｉを作成する。これにより、上述したように、オブジェクト特徴ベクトルｘ_ｉに必要なメモリ使用量（すなわち、記憶部１３０の記憶容量）を抑制することができる。

なお、本発明の実施の形態では、クラスタリング装置１０が前処理として完全表現の各オブジェクト特徴ベクトルｘ_ｉをスパース表現に変換、又はスパース表現のオブジェクト特徴ベクトルｘ_ｉを作成したが、これに限られない。例えば、クラスタリング装置１０とは異なる他の装置が上記のステップＳ１０１及びステップＳ１０２を行った上で、クラスタリング装置１０は、上記のステップＳ１０３のみを行っても良い。

＜クラスタリング処理＞
以降では、本発明の実施の形態におけるクラスタリング処理について説明する。

（実施例１）
まず、クラスタリング処理の実施例１として、スパース表現のオブジェクト特徴ベクトルｘ_ｉをクラスタリングする場合について、図５を参照しながら説明する。図５は、本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート（実施例１）である。

ステップＳ２０１：まず、クラスタリング処理部１２０の入力部１２１は、スパース表現のオブジェクト特徴ベクトルｘ_ｉの集合Ｘと、クラスタ数Ｋとを入力する。なお、｜Ｘ｜＝ｎ、Ｋは整数かつ１＜Ｋ＜ｎであるものとする。

ステップＳ２０２：次に、クラスタリング処理部１２０の初期設定部１２２は、各ｍｅａｎ特徴ベクトルμ_ｊ（ｊ＝１，２，・・・，Ｋ）を適当な値に初期化する。初期化の方法としては、任意の方法を用いて良い。例えば、各ｍｅａｎ特徴ベクトルμ_ｊをランダムな値に初期化しても良いし、互いに異なる任意のＫ個のオブジェクト特徴ベクトルｘ_ｉをそれぞれｍｅａｎ特徴ベクトルμ_ｊとしても良いし、スパース表現の各オブジェクト特徴ベクトルｘ_ｉをランダムにクラスタＣ_ｊに割り当てた上で、各クラスタＣ_ｊに属するｘ_ｉからｍｅａｎ特徴ベクトルμ_ｊを計算することで初期化しても良い。なお、初期化されたｍｅａｎ特徴ベクトルμ_ｊは、例えば、記憶部１３０に格納される。

ここで、実施例１では、各ｍｅａｎ特徴ベクトルμ_ｊは完全表現であるものとする。完全表現のｍｅａｎ特徴ベクトルμ_ｊの一例について、図６を参照しながら説明する。図６は、完全表現のｍｅａｎ特徴ベクトルμ_ｊの一例を示す図である。

図６に示すように、完全表現のｍｅａｎ特徴ベクトルμ_ｊは、特徴量が零である要素ｕ_ｄ（ｄ＝１，２，・・・，Ｄ）も含めて、Ｄ次元のベクトルで表現されたデータ（高次元データ）である。

完全表現のｍｅａｎ特徴ベクトルμ_ｊでは、配列のｄ番目の要素（すなわち、配列インデックスがｄである配列の要素）に、特徴ＩＤがｄ＋１である特徴量ｕ_ｄ＋１が格納されているものとする。以降では、ベクトルの要素と区別するため、配列の要素を「配列要素」と表す。

具体的には、例えば、完全表現のｍｅａｎ特徴ベクトルμ_ｊを配列ｗ_ｊ［ｄ］、０≦ｄ≦Ｄ－１で実現する場合、ｄ´番目の配列要素ｗ_ｊ［ｄ´］には、特徴ＩＤがｄ´＋１の特徴量ｕ_ｄ´＋１が格納されている。なお、各特徴量「ｕ_ｄ」は、ｍｅａｎ特徴ベクトルμ_ｊのインデックスｊに依存するため、正確には「ｕ_ｊｄ」と表されるが、本発明の実施の形態では、特に断らない限り、「ｕ_ｄ」とインデックスｊを省略して表す。

ここで、Ｋ個の完全表現のｍｅａｎ特徴ベクトルμ_ｊ（ｊ＝１，２，・・・，Ｋ）はＫ×Ｄの行列Ａで表現することもできる。Ｋ個の完全表現のｍｅａｎ特徴ベクトルμ_ｊをＫ×Ｄの行列Ａで表現した場合の一例を図７に示す。図７に示すように、行列Ａは、ｊ行目を完全表現のｍｅａｎ特徴ベクトルμ_ｊとする行列である。

完全表現のｍｅａｎ特徴ベクトルμ_ｊは、特徴量が零である要素も配列に格納されるためメモリ使用量は大きいものの、後述する内積計算で簡便な計算方法が適用することができ、時間計算量の増大を抑制することができる。なお、この計算方法は、以下の参考文献１に記載されているＳｐａｒｓｅＢＬＡＳ（Basic Linear Algebra Subprograms）Ｌｉｂｒａｒｙのｌｅｖｅｌ１のｄｏｔｐｒｏｄｕｃｔの表現と同一であり、ＳｐａｒｓｅＢＬＡＳのｄｏｔｐｒｏｄｕｃｔの疎表現の引数をオブジェクト特徴ベクトルｘ_ｉとし、完全表現の引数としてｍｅａｎ特徴ベクトルμ_ｊを用いた場合に相当する。

［参考文献１］
D. S. Dodson, R. G. Grimes, and J. G. Lewis, "Sparse extensions to the FORTRAN Basic Linear Algebra Subprograms," ACM Trans. Mathematical Software, vol. 17, no. 2, pp. 253-263, June 1991.
以降のステップＳ２０３～ステップＳ２０６は、クラスタリング処理部１２０により所定の終了条件を満たすまで繰り返し実行される。

ステップＳ２０３：クラスタリング処理部１２０の割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉの各々について、現在のイテレーションの完全表現のｍｅａｎ特徴ベクトルμ_ｊとの距離を計算する。ここで、距離の定義は上記の式（１）の通りである。上述したように、ノルムの二乗は予め計算することが可能であるため、以降では、内積計算について説明する。

従来法では、オブジェクト特徴ベクトルｘ_ｉが完全表現（すなわち、零要素も含めた、Ｄ次元のベクトル）であるため、内積計算において、オブジェクト特徴ベクトルｘ_ｉと、ｍｅａｎ特徴ベクトルμ_ｊとの同一インデックス（同一の要素インデックス）の要素同士の乗算値を求めている。すなわち、オブジェクト特徴ベクトルｘ_ｉの要素インデックスと、ｍｅａｎ特徴ベクトルμ_ｊの要素インデックスとが一致している。一方で、実施例１では、オブジェクト特徴ベクトルｘ_ｉが非零要素を含まない形に圧縮表現（スパース表現）されているため、スパース表現のオブジェクト特徴ベクトルｘ_ｉの要素インデックスと、完全表現のｍｅａｎ特徴ベクトルμ_ｊの要素インデックスとは一致しない。しかしながら、図６に示すように、完全表現のｍｅａｎ特徴ベクトルμ_ｊの配列インデックスと特徴ＩＤとの対応関係が固定されている（図６に示す例では、特徴ＩＤから１を減じた値が配列インデックスとなる。）。このため、スパース表現のオブジェクト特徴ベクトルｘ_ｉの特徴ＩＤの値から、乗算対象となるｍｅａｎ特徴ベクトルμ_ｊの要素インデックスを一意に特定することができる。

そこで、実施例１では、次のようにして内積を計算する。以降では、一例として、図８に示すスパース表現のオブジェクト特徴ベクトルｘ_ｉと、完全表現のｍｅａｎ特徴ベクトルμ_ｊとの内積を計算する場合について説明する。

ステップＳ２０３－１：割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉの特徴量ｖ_ｈに対応する特徴ＩＤ「ｔ_ｈ」を用いて、完全表現のｍｅａｎ特徴ベクトルμ_ｊのｔ_ｈ－１番目の配列要素にアクセスする。

ステップＳ２０３－２：割当部１２３は、上記のステップＳ２０３－１でアクセスした配列要素に格納されている特徴量ｕ_ｔｈが零であるか否かを判定する。

ステップＳ２０３－３：特徴量ｕ_ｔｈが零でないと判定した場合、割当部１２３は、特徴量ｕ_ｔｈと特徴量ｖ_ｈとの乗算を計算する。一方で、特徴量ｕ_ｔｈが零であると判定した場合、割当部１２３は、何もしない。

割当部１２３は、各ｈ＝１，２，・・・，ｍに対して、上記のステップＳ２０３－１～ステップＳ２０３－３を繰り返し実行する。

ステップＳ２０３－４：割当部１２３は、上記のステップＳ２０３－３で各ｈに対して計算された乗算結果を加算する。これにより、スパース表現のオブジェクト特徴ベクトルｘ_ｉと、完全表現のｍｅａｎ特徴ベクトルμ_ｊとの内積が計算される。

以上のステップＳ２０３－１～ステップＳ２０３－４で説明した内積計算により、実施例１では、内積計算における乗算回数を削減することができ、内積計算を効率的に行うことができるようになる。例えば、図８に示す例では、完全表現のｍｅａｎ特徴ベクトルμ_ｊの配列要素にアクセスする回数はｍ回（スパース表現のオブジェクト特徴ベクトルｘ_ｉの要素数）であり、乗算回数は、完全表現のｍｅａｎ特徴ベクトルμ_ｊのアクセスされた要素のうちの非零の要素数α（≦ｍ）となる。

なお、ＣＰＵのアーキテクチャ等によっては、上記のステップＳ２０３－２で特徴量ｕ_ｔｈが零であるか否かを判定するよりも乗算処理を行った方が、計算速度が速い場合もある。このような場合、割当部１２３は、上記のステップＳ２０３－２の判定を行わずに（すなわち、特徴量ｕ_ｔｈが零であるか否かに関わらずに）、上記のステップＳ２０３－３で特徴量ｕ_ｔｈと特徴量ｖ_ｈとの乗算を計算すれば良い。

以上で説明した内積計算は、スパース表現のオブジェクト特徴ベクトルｘ_ｉの各々について、Ｋ個の完全表現のｍｅａｎ特徴ベクトルμ_ｊを対象として行われる。或る１つのスパース表現のオブジェクト特徴ベクトルｘ_ｉと、Ｋ個の完全表現のｍｅａｎ特徴ベクトルμ_ｊとの内積計算を図９に示す。図９に示すように、ｊ＝１，２，・・・，Ｋに対して、スパース表現のオブジェクト特徴ベクトルｘ_ｉと、完全表現の各ｍｅａｎ特徴ベクトルμ_ｊとの内積を繰り返し計算する。このとき、Ｋ個の完全表現のｍｅａｎ特徴ベクトルμ_ｊの配列要素にアクセスする回数はｍ×Ｋ回であり、乗算回数は、

となる。ここで、α_ｊ（ｍ）は、完全表現のｍｅａｎ特徴ベクトルμ_ｊのアクセスされた要素のうちの非零の要素数である。言い換えれば、α_ｊ（ｍ）は、集合｛ｔ_１，・・・，ｔ_ｍ｝と、完全表現のｍｅａｎ特徴ベクトルμ_ｊの特徴ＩＤの集合｛１，・・・，Ｄ｝との共通集合の要素のうち、ｍｅａｎ特徴ベクトルμ_ｊの特徴量が非零の要素数である。

ステップＳ２０４：クラスタリング処理部１２０の割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉの各々について、上記のステップＳ２０３で計算した距離が最小である完全表現のｍｅａｎ特徴ベクトルμ_ｊに対応するクラスタＣ_ｊに当該オブジェクト特徴ベクトルｘ_ｉを割り当てる。なお、スパース表現の各オブジェクト特徴ベクトルｘ_ｉのクラスタＣ_ｊへの割当結果は、例えば、記憶部１３０に格納される。

ステップＳ２０５：クラスタリング処理部１２０の更新部１２４は、各クラスタＣ_ｊに属するスパース表現のオブジェクト特徴ベクトルｘ_ｉにより、完全表現のｍｅａｎ特徴ベクトルμ_ｊを計算及び更新する。

例えば、更新部１２４は、クラスタＣ_ｊの各々について、当該クラスタＣ_ｊに属するスパース表現のオブジェクト特徴ベクトルｘ_ｉの平均を計算し、この平均をｍｅａｎ特徴ベクトルμ_ｊとすれば良い。ここで、スパース表現のオブジェクト特徴ベクトルｘ_ｉの平均とは、同一のクラスタＣ_ｊに属するスパース表現のオブジェクト特徴ベクトルｘ_ｉについての特徴ＩＤ毎の特徴量の平均値のことである。なお、ｍｅａｎ特徴ベクトルμ_ｊの要素のうち、平均値が算出されなかった特徴ＩＤに対応する要素の特徴量は零とすれば良い。

ステップＳ２０６：クラスタリング処理部１２０の終了判定部１２５は、所定の終了条件を満たすか否かを判定する。そして、所定の終了条件を満たすと判定した場合、クラスタリング処理部１２０は、ステップＳ２０７に進む。一方で、所定の終了条件を満たさないと判定された場合、クラスタリング処理部１２０は、イテレーションに１を加算した上で、ステップＳ２０３に戻る。

ステップＳ２０７：クラスタリング処理部１２０の出力部１２６は、例えば、スパース表現のオブジェクト特徴ベクトルｘ_ｉのクラスタＣ_ｊへの割当結果等を出力する。

以上のように、本発明の実施の形態におけるクラスタリング装置１０は、実施例１のクラスタリング処理により、スパース表現のオブジェクト特徴ベクトルｘ_ｉをクラスタリングすることができる。このとき、上述したように、オブジェクト特徴ベクトルｘ_ｉをスパース表現にすることで、メモリ使用量を抑制することができると共に、内積計算における乗算回数を削減することができるため、効率的なクラスタリングが可能となる。

（実施例２）
次に、クラスタリング処理の実施例２として、ｍｅａｎ特徴ベクトルμ_ｊもスパース表現である場合について、図１０を参照しながら説明する。図１０は、本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート（実施例２）である。なお、図１０のステップＳ２０１、ステップＳ２０４及びステップＳ２０６～ステップＳ２０７は、実施例１と同様であるため、その説明を省略する。

ステップＳ３０１：クラスタリング処理部１２０の初期設定部１２２は、スパース表現の各ｍｅａｎ特徴ベクトルμ_ｊ（ｊ＝１，２，・・・，Ｋ）を適当な値に初期化する。初期化の方法としては、実施例１と同様の方法を用いれば良い。なお、初期化されたスパース表現のｍｅａｎ特徴ベクトルμ_ｊは、例えば、記憶部１３０に格納される。

ここで、スパース表現のｍｅａｎ特徴ベクトルμ_ｊの一例について、図１１を参照しながら説明する。図１１は、スパース表現のｍｅａｎ特徴ベクトルμ_ｊの一例を示す図である。

図１１に示すように、スパース表現のｍｅａｎ特徴ベクトルμ_ｊは、非零要素の位置を示す特徴ＩＤと、非零要素の値を示す特徴量との組（タプル）の列で構成される。図１１では、完全表現のｍｅａｎ特徴ベクトルμ_ｊの非零要素がｓ_ｊ個である場合に、ｐ＝１，２，・・・，ｓ_ｊとして、これらの非零要素の特徴ＩＤ「ｚ_ｐ」と、当該特徴ＩＤの特徴量「ｕ_ｐ」との組（タプル）の列で構成されたスパース表現を表している。なお、各特徴ＩＤ「ｚ_ｐ」及び特徴量「ｕ_ｈ」は、ｍｅａｎ特徴ベクトルμ_ｊのインデックスｊに依存するため、正確にはそれぞれ「ｚ_ｊｐ」及び「ｕ_ｊｐ」と表されるが、本発明の実施の形態では、特に断らない限り、「ｚ_ｊｐ」及び「ｕ_ｊｐ」とインデックスｊを省略して表す。なお、特徴ＩＤは、例えば、１≦ｚ_１＜ｚ_２＜・・・＜ｚ_ｐ＜・・・＜ｚ_ｓｊ≦Ｄのように昇順にソートされていることが好ましい。以降では、スパース表現のｍｅａｎ特徴ベクトルμ_ｊの各特徴ＩＤは、上述のように昇順にソートされているものとする。

スパース表現のｍｅａｎ特徴ベクトルμ_ｊを用いることで、スパース表現のｍｅａｎ特徴ベクトルμ_ｊが使用するメモリサイズ（すなわち、記憶部１３０の記憶容量）を抑制することができる。

ステップＳ３０２：クラスタリング処理部１２０の割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉの各々について、現在のイテレーションのスパース表現のｍｅａｎ特徴ベクトルμ_ｊとの距離を計算する。ここで、距離の定義は上記の式（１）の通りである。上述したように、ノルムの二乗は予め計算することが可能であるため、以降では、内積計算について説明する。

実施例２では、オブジェクト特徴ベクトルｘ_ｉとｍｅａｎ特徴ベクトルμ_ｊとが共にスパース表現であるため、同じ非零要素位置を探索し、各々の非零要素位置に対する特徴量を乗算することで内積を計算する。以降では、一例として、図４に示すオブジェクト特徴ベクトルｘ_ｉと、図１１に示すｍｅａｎ特徴ベクトルμ_ｊとの内積を計算する場合について説明する。また、スパース表現のオブジェクト特徴ベクトルｘ_ｉの各タプルが配列ｖ_ｉ［ｈ］，０≦ｈ≦ｍ－１に格納されており、スパース表現のｍｅａｎ特徴ベクトルμ_ｊの各タプルは配列ｗ_ｊ［ｐ］，０≦ｐ≦ｓ_ｊ－１に格納されているものとする。このとき、ｈ及びｐが配列インデックスである。

ステップＳ３０２－１：割当部１２３は、内積値ｓｕｍを０に初期化する。また、割当部１２３は、ｈ＝１及びｐ＝１に初期化する。

ステップＳ３０２－２：割当部１２３は、ｘ_ｉの配列インデックスｈ－１の配列要素ｖ_ｉ［ｈ－１］と、μ_ｊの配列インデックスｐ－１の配列要素ｗ_ｊ［ｐ－１］とにアクセスし、配列要素ｖ_ｉ［ｈ－１］に格納されているｔ_ｈと、配列要素ｗ_ｊ［ｐ－１］に格納されているｚ_ｐとの大小を比較する。

ステップＳ３０２－３：割当部１２３は、上記のステップＳ３０２－２の比較結果に応じて、以下の（１）～（３）のいずれかを行う。

（１）ｔ_ｈ＝ｚ_ｐである場合、
割当部１２３は、ｓｕｍ←ｓｕｍ＋ｖ_ｈ×ｕ_ｐとする。また、割当部１２３は、ｐ←ｐ＋１又はｈ←ｈ＋１の何れか一方を行う。このとき、好ましくは、ｍ＜ｓ_ｊならばｐを更新する。なお、「←」は、左辺を右辺で更新することを表す。

（２）ｔ_ｈ＞ｚ_ｐである場合
割当部１２３は、ｐ←ｐ＋１とする。

（３）ｔ_ｈ＜ｚ_ｐである場合
割当部１２３は、ｈ←ｈ＋１とする。

ステップＳ３０２－４：割当部１２３は、「ｔ_ｍ＝ｚ_ｓｊ」、「ｈ＞ｍ」及び「ｐ＞ｓ_ｊ」のいずれも満たさない場合、ステップＳ３０２－２に戻る。一方で、割当部１２３は、「ｔ_ｍ＝ｚ_ｓｊ」、「ｈ＞ｍ又は（ｈ＝ｍかつｔ_ｈ＜ｚ_ｓ＋１）」、又は「ｐ＞ｓ_ｊ又は（ｐ＝ｓ_ｊかつｚ_ｐ＜ｔ_ｈ＋１）」のいずれかを満たす場合、処理を終了する。

以上のステップＳ３０２－１～ステップＳ３０２－４によって最終的に得られたｓｕｍが内積値となる。この内積計算では、スパース表現のｍｅａｎ特徴ベクトルμ_ｊの配列要素へのアクセス回数は、最悪の場合（worst case）でｍ＋ｓ_ｊ－１回（すなわち、Ｏ（ｍ＋ｓ_ｊ））である。また、乗算回数は、スパース表現のオブジェクト特徴ベクトルｘ_ｉの特徴ＩＤの集合｛ｔ_１，・・・，ｔ_ｍ｝と、スパース表現のｍｅａｎ特徴ベクトルμ_ｊの特徴ＩＤの集合｛ｚ_１，・・・，ｚ_ｓｊ｝との共通集合の要素数α´_ｊ（ｍ）≦ｍとなる。このため、実施例１と比べて、多少計算量は増える。

以上で説明した内積計算は、スパース表現のオブジェクト特徴ベクトルｘ_ｉの各々について、Ｋ個のスパース表現のｍｅａｎ特徴ベクトルμ_ｊを対象として行われる。したがって、Ｋ個のスパース表現のｍｅａｎ特徴ベクトルμ_ｊの配列要素へのアクセス回数は、最悪の場合で

である。また、乗算回数は、スパース表現のオブジェクト特徴ベクトルｘ_ｉの特徴ＩＤの集合｛ｔ_１，・・・，ｔ_ｍ｝と、スパース表現のｍｅａｎ特徴ベクトルμ_ｊの特徴ＩＤの集合｛ｚ_ｊ１，・・・，ｚ_{ｊ（ｓｊ）}｝と共通集合の要素数のｊ＝１，２，・・・，Ｋに関する和である

となる。

なお、上述したような同じ非零要素位置を探索する問題は、複数の集合の共通集合を求める問題（set intersection problem）と同じである。この問題の解法として、分割統治法であるマージソート（merge sort）のマージ部分で使用されている並列走査法（parallel scan）が知られている。この方法を上記のステップＳ３０２－１～ステップＳ３０２－４の内積計算に応用することもできる。

ステップＳ３０３：クラスタリング処理部１２０の更新部１２４は、各クラスタＣ_ｊに属するスパース表現のオブジェクト特徴ベクトルｘ_ｉにより、スパース表現のｍｅａｎ特徴ベクトルμ_ｊを計算及び更新する。

例えば、更新部１２４は、クラスタＣ_ｊの各々について、当該クラスタＣ_ｊに属するスパース表現のオブジェクト特徴ベクトルｘ_ｉの平均を計算し、この平均をｍｅａｎ特徴ベクトルμ_ｊとすれば良い。

以上のように、本発明の実施の形態におけるクラスタリング装置１０は、実施例２のクラスタリング処理により、スパース表現のオブジェクト特徴ベクトルｘ_ｉをクラスタリングすることができる。このとき、実施例２では、ｍｅａｎ特徴ベクトルμ_ｊもスパース表現とすることで、実施例１と比べて多少計算量が増えるものの、メモリ使用量を更に抑制することができため、効率的なクラスタリングが可能となる。

（実施例３）
次に、クラスタリング処理の実施例３として、転置ファイルのデータ構造で表現したｍｅａｎ特徴ベクトルμ_ｊ（転置ファイルのデータ構造で表現したｍｅａｎ特徴ベクトルを「転置ファイル表現のｍｅａｎ特徴ベクトル」と表す。）を用いる場合について、図１２を参照しながら説明する。図１２は、本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート（実施例３）である。なお、図１２のステップＳ２０１、ステップＳ２０４及びステップＳ２０６～ステップＳ２０７は、実施例１と同様であるため、その説明を省略する。

ステップＳ４０１：クラスタリング処理部１２０の初期設定部１２２は、ｍｅａｎ転置ファイルを初期化する。ｍｅａｎ転置ファイルとは、転置ファイル表現のｍｅａｎ特徴ベクトルμ_ｊ（ｊ＝１，２，・・・，Ｋ）が格納されている転置ファイルのことである。なお、初期化されたｍｅａｎ転置ファイルは、例えば、記憶部１３０に格納される。

ここで、ｍｅａｎ転置ファイルの一例について、図１３を参照しながら説明する。図１３は、ｍｅａｎ転置ファイルの一例を示す図である。

図１３に示すように、ｍｅａｎ転置ファイルは、特徴ＩＤ「ｈ」の非零特徴量を含むｍｅａｎ特徴ベクトルμ_ｊのインデックスｊを表すｍｅａｎＩＤ「ｋ_ｈｒ」と、当該非零特徴量ｗ_ｈｒとの組（タプル）の列で構成される。ただし、各タプル列では、各タプルがｋ_ｈｒの昇順にソートされているものとする。ここで、１≦ｒ≦ｑ_ｈ、ｑ_ｈは特徴量ＩＤ「ｈ」の特徴量が非零であるｍｅａｎ特徴ベクトルμ_ｊの個数である。また、１≦ｈ≦Ｄである。なお、ｍｅａｎＩＤ「ｋ_ｈｒ」は、クラスタＩＤとも呼ばれる。

このようなデータ構造のｍｅａｎ転置ファイルでは、各タプル列それぞれで同一のｍｅａｎＩＤ「ｋ_ｈｒ」のタプル群によって１つのｍｅａｎ特徴ベクトルμ_ｊが表現される。具体的には、図１３に示す例で、ｊ＝ｋ_１３＝ｋ_２２＝ｋ_ｈ４＝ｋ_Ｄ１である場合、｛（ｋ_１３，ｗ_１３），（ｋ_２２，ｗ_２２），（ｋ_ｈ４，ｗ_ｈ４），（ｋ_Ｄ１，ｗ_Ｄ１）｝によって１つのｍｅａｎ特徴ベクトルμ_ｊが表現される。このように、ｍｅａｎ転置ファイルによりｍｅａｎ特徴ベクトルμ_ｊを表現することで、各ｍｅａｎ特徴ベクトルμ_ｊは、スパース表現と同様に非零要素を含まない形に圧縮されるため、メモリ使用量を抑制することができる。

ステップＳ４０２：クラスタリング処理部１２０の割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉの各々について、現在のイテレーションの転置ファイル表現のｍｅａｎ特徴ベクトルμ_ｊとの距離を計算する。ここで、距離の定義は上記の式（１）の通りである。上述したように、ノルムの二乗は予め計算することが可能であるため、以降では、内積計算について説明する。

以降では、スパース表現のオブジェクト特徴ベクトルｘ_ｉと、転置ファイル表現の各ｍｅａｎ特徴ベクトルμ_ｊとの内積を計算する場合について、図１４を参照しながら説明する。図１４は、スパース表現のオブジェクト特徴ベクトルｘ_ｉと、転置ファイル表現のｍｅａｎ特徴ベクトルμ_ｊとの内積計算の一例を示す図（実施例３）である。なお、スパース表現のオブジェクト特徴ベクトルｘ_ｉの各タプルが配列ｖ_ｉ［ｈ］，０≦ｈ≦ｍ－１に格納されており、全てのｍｅａｎ特徴ベクトルμ_ｊを含む転置ファイル表現では、特徴量は二次元配列ｗ［ｈ］［ｒ］，０≦ｈ≦Ｄ－１，０≦ｒ≦ｑ_ｈ－１に格納されているものとする。

ステップＳ４０２－１：割当部１２３は、各内積値ｓｕｍ（ｊ）を０に初期化する。また、割当部１２３は、ｈ＝１に初期化する。なお、ｓｕｍ（ｊ）は、スパース表現のオブジェクト特徴ベクトルｘ_ｉと、転置ファイル表現のｍｅａｎ特徴ベクトルμ_ｊとの内積値が格納される変数である。

ステップＳ４０２－２：割当部１２３は、ｘ_ｉの配列インデックスｈ－１の配列要素ｖ_ｉ［ｈ－１］に格納されている特徴ＩＤ「ｔ_ｈ」を用いて、各配列要素ｗ［ｔ_ｈ－１］［ｒ］，０≦ｒ≦ｑ_ｔｈ－１（なお、この「ｔｈ」のｈは、正確にはｔの下付き表記（すなわち、ｔ_ｈ）である。以降も同様である。）にアクセスし、各配列要素ｗ［ｔ_ｈ－１］［ｒ］にそれぞれ格納されている特徴量ｗ_ｔｈｒ（０≦ｒ≦ｑ_ｔｈ－１）と、配列要素ｖ_ｉ［ｈ－１］に格納されている特徴量ｖ_ｈとの積をそれぞれ計算し、該当のｓｕｍ（ｊ）に加算する。すなわち、割当部１２３は、以下の計算を行う。

ステップＳ４０２－３：割当部１２３は、「ｈ＞ｍ」を満たすか否かを判定する。そして、割当部１２３は、「ｈ＞ｍ」を満たさないと判定した場合、ｈ←ｈ＋１として、ステップＳ４０２－２に戻る。一方で、割当部１２３は、「ｈ＞ｍ」を満たすと判定した場合、処理を終了する。

以上のステップＳ４０２－１～ステップＳ４０２－３によって最終的に得られたｓｕｍ（ｊ）が、スパース表現のオブジェクト特徴ベクトルｘ_ｉと、転置ファイル表現のｍｅａｎ特徴ベクトルμ_ｊとの内積値となる。この内積計算では、ｍｅａｎ転置ファイルの該当の特徴ＩＤのタプルへのアクセス回数は、

である。すなわち、スパース表現のオブジェクト特徴ベクトルｘ_ｉの特徴ＩＤの集合｛ｔ_１，・・・，ｔ_ｍ｝と、転置ファイル表現のｍｅａｎ特徴ベクトルμ_ｊの特徴ＩＤの集合との共通集合のｊ＝１，２，・・・，Ｋに関する和である。なお、乗算回数はアクセス回数と一致する。このように、実施例３では、内積計算における乗算回数が実施例１と同様であり、内積計算を効率的に行うことができる。なお、図１４に示す例では、説明の便宜上、記載を省略しているが、配列インデックスの最大値はＤ－１である。

ステップＳ４０３：クラスタリング処理部１２０の更新部１２４は、各クラスタＣ_ｊに属するスパース表現のオブジェクト特徴ベクトルｘ_ｉにより、ｍｅａｎ転置ファイルを更新する。これにより、転置ファイル表現のｍｅａｎ特徴ベクトルμ_ｊが更新される。

更新部１２４は、例えば、ｍｅａｎ転置ファイル用のメモリ（例えば、記憶部１３０の記憶領域）を確保した上で、クラスタＣ_ｊの各々について、当該クラスタＣ_ｊに属するスパース表現のオブジェクト特徴ベクトルｘ_ｉの平均を計算し、この平均をｍｅａｎ特徴ベクトルμ_ｊとしてｍｅａｎ転置ファイルに格納すれば良い。なお、ｍｅａｎ転置ファイル用のメモリの確保としては、例えば、各クラスタＣ_ｊに属するオブジェクト特徴ベクトルｘ_ｉの異なり単語数（異なる特徴ＩＤ数）と、当該特徴ＩＤを使用しているクラスタＣ_ｊの数とを特定した上で、当該特徴ＩＤを使用しているクラスタＣ_ｊのクラスタＩＤと、当該特徴ＩＤの特徴量とを保持するためのメモリを確保すれば良い。

以上のように、本発明の実施の形態におけるクラスタリング装置１０は、実施例３のクラスタリング処理により、スパース表現のオブジェクト特徴ベクトルｘ_ｉをクラスタリングすることができる。このとき、実施例３では、ｍｅａｎ特徴ベクトルμ_ｊを転置ファイル表現とすることで、メモリ使用量を実施例２と同等にしつつ、内積計算における乗算回数を実施例１と同等とすることができ、効率的なクラスタリングが可能となる。

（実施例４）
次に、クラスタリング処理の実施例４として、ｍｅａｎ特徴ベクトルμ_ｊの更新を効率化した場合について、図１５を参照しながら説明する。図１５は、本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート（実施例４）である。なお、図１５のステップＳ２０１、ステップＳ２０４、ステップＳ２０６～ステップＳ２０７及びステップＳ４０３は、実施例３と同様であるため、その説明を省略する。

ステップＳ５０１：クラスタリング処理部１２０の初期設定部１２２は、ｍｅａｎ転置ファイルと、クラスタＣ_ｊが不変クラスタであるか否かを示すフラグｆ_ｊとを初期化する。なお、初期化されたｍｅａｎ転置ファイル及びフラグｆ_ｊは、例えば、記憶部１３０に格納される。

ここで、不変クラスタとは、１つ前のイテレーションでクラスタに属するメンバ（オブジェクト特徴ベクトルｘ_ｉ）に変更がなかったクラスタＣ_ｊのことである。言い換えれば、２つ前のイテレーションにおけるクラスタＣ_ｊに属するメンバと、１つ前のイテレーションにおけるクラスタＣ_ｊに属するメンバとが同一である場合、当該クラスタＣ_ｊは不変クラスタである。以降では、例えば、フラグｆ_ｊ＝１である場合、クラスタＣ_ｊは不変クラスタであり、フラグｆ_ｊ＝０である場合、クラスタＣ_ｊは不変クラスタでないものとする。なお、各フラグｆ_ｊの初期値としては、例えば、全て０とすれば良い。

ステップＳ５０２：クラスタリング処理部１２０の割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉの各々について、現在のイテレーションの転置ファイル表現のｍｅａｎ特徴ベクトルμ_ｊとの距離を計算する。ここで、距離の定義は上記の式（１）の通りである。上述したように、ノルムの二乗は予め計算することが可能であるため、以降では、内積計算について説明する。

ところで、或るオブジェクト特徴ベクトルｘ_ｉが属するクラスタＣ_ｊが不変クラスタである場合、現在のイテレーションで、当該オブジェクト特徴ベクトルｘ_ｉが他の不変クラスタＣ_ｊ´（ｊ´≠ｊ）に新たに属することはない。したがって、Ｃ_ｊ及びＣ_ｊ´が不変クラスタである場合に、（ｘ_ｉ∈Ｃ_ｊ）∧（Ｃ_ｊ≠Ｃ_ｊ´）であるならば、オブジェクト特徴ベクトルｘ_ｉと、ｍｅａｎ特徴ベクトルμ_ｊ´との距離計算は不要である。このことは、ＩＣＰ（Invariant Centroid-Pair skipping filter）とも称される。

そこで、実施例４では、以下のステップＳ５０２－１～ステップＳ５０２－６により、スパース表現のオブジェクト特徴ベクトルｘ_ｉと、転置ファイル表現の各ｍｅａｎ特徴ベクトルμ_ｊとの内積を計算する。なお、実施例３と同様に、スパース表現のオブジェクト特徴ベクトルｘ_ｉの各タプルが配列ｖ_ｉ［ｈ］，０≦ｈ≦ｍ－１に格納されており、全てのｍｅａｎ特徴ベクトルμ_ｊを含む転置ファイル表現では、特徴量は二次元配列ｗ［ｈ］［ｒ］，０≦ｈ≦Ｄ－１，０≦ｒ≦ｑ_ｈ－１に格納されているものとする。

ステップＳ５０２－１：割当部１２３は、各内積値ｓｕｍ（ｊ）を０に初期化する。また、割当部１２３は、ｈ＝１に初期化する。

ステップＳ５０２－２：割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉが属するクラスタＣ_ｊが不変クラスタであるか否かを判定する。これは、当該オブジェクト特徴ベクトルｘ_ｉが属するクラスタＣ_ｊに対応するフラグｆ_ｊの値を参照することで判定すれば良い。

ステップＳ５０２－３：割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉが属するクラスタＣ_ｊが不変クラスタでないと判定した場合、実施例３と同様に、ステップＳ４０２－２～ステップＳ４０２－３により、スパース表現のオブジェクト特徴ベクトルｘ_ｉと、転置ファイル表現の各ｍｅａｎ特徴ベクトルμ_ｊとの内積を計算する。

一方で、割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉが属するクラスタＣ_ｊが不変クラスタであると判定した場合、以降のステップＳ５０２－４に進む。

ステップＳ５０２－４：割当部１２３は、ｘ_ｉの配列インデックスｈ－１の配列要素ｖ_ｉ［ｈ－１］に格納されている特徴ＩＤ「ｔ_ｈ」を用いて、各配列要素［ｔ_ｈ－１］［ｒ］，０≦ｒ≦ｑ_ｔｈ－１（なお、この「ｔｈ」のｈは、正確にはｔの下付き表記（すなわち、ｔ_ｈ）である。以降も同様である。）にアクセスし、各配列要素ｗ［ｔ_ｈ－１］［ｒ］にそれぞれ格納されているｍｅａｎＩＤ（クラスタＩＤ）「ｋ_ｔｈｒ」（０≦ｒ≦ｑ_ｔｈ－１）に対応するクラスタが不変クラスタであるか否かを判定する。すなわち、割当部１２３は、クラスタＣ_ｊ（ただし、ｊ＝ｋ_ｔｈｒ，０≦ｒ≦ｑ_ｔｈ－１）がそれぞれ不変クラスタであるか否かを判定する。これは、上記と同様に、クラスタＣ_ｊに対応するフラグｆ_ｊの値を参照することで判定すれば良い。

ステップＳ５０２－５：割当部１２３は、各配列要素ｗ［ｔ_ｈ－１］［ｒ］のうち、上記のステップＳ５０２－４で不変クラスタと判定されたクラスタＣ_ｊのクラスタＩＤ「ｊ＝ｋ_ｔｈｒ」が格納されている配列要素を除く配列要素ｗに格納されている特徴量と、配列要素ｖ_ｉ［ｈ－１］に格納されている特徴量ｖ_ｈとの積をそれぞれ計算し、該当のｓｕｍ（ｊ）に加算する。言い換えれば、上記の数７において、不変クラスタＣ_ｊに関するタプルを用いたｓｕｍ（ｊ）の更新をスキップする。

ステップＳ５０２－６：割当部１２３は、「ｈ＞ｍ」を満たすか否かを判定する。そして、割当部１２３は、「ｈ＞ｍ」を満たさないと判定した場合、ｈ←ｈ＋１として、ステップＳ５０２－４に戻る。一方で、割当部１２３は、「ｈ＞ｍ」を満たすと判定した場合、処理を終了する。

以上のステップＳ５０２－１～ステップＳ５０２－６によって最終的に得られたｓｕｍ（ｊ）が、スパース表現のオブジェクト特徴ベクトルｘ_ｉと、転置ファイル表現のｍｅａｎ特徴ベクトルμ_ｊとの内積値となる。このように、実施例３では、スパース表現のオブジェクト特徴ベクトルｘ_ｉと、転置ファイル表現のｍｅａｎ特徴ベクトルμ_ｊとがそれぞれ異なる不変クラスタＣ_ｊに属する場合には、これらｘ_ｉとμ_ｊとの内積計算を省略する。これにより、内積計算の回数を削減し、計算量を更に削減することができる。

ステップＳ５０３：クラスタリング処理部１２０の更新部１２４は、ステップＳ２０４における割当結果に応じて、フラグｆ_ｊを更新する。すなわち、更新部１２４は、上記のステップＳ２０４において、１つ前のイテレーションからクラスタＣ_ｊのメンバが不変である場合はフラグｆ_ｊを１に更新し、１つ前のイテレーションからクラスタＣ_ｊのメンバが変更になった場合はフラグｆ_ｊを０に更新する。

以上のように、本発明の実施の形態におけるクラスタリング装置１０は、実施例４のクラスタリング処理により、スパース表現のオブジェクト特徴ベクトルｘ_ｉをクラスタリングすることができる。このとき、実施例４では、スパース表現のオブジェクト特徴ベクトルｘ_ｉと、転置ファイル表現のｍｅａｎ特徴ベクトルμ_ｊとがそれぞれ異なる不変クラスタＣ_ｊに属する場合には、これらｘ_ｉとμ_ｊとの内積計算を省略する。これにより、実施例３と比較して、内積計算における乗算回数を削減することができ、より効率的なクラスタリングが可能となる。

（実施例５）
次に、クラスタリング処理の実施例５として、２種類のｍｅａｎ転置ファイル（すなわち、「全ｍｅａｎ転置ファイル」及び「変動ｍｅａｎ転置ファイル」）を用いる場合について、図１６を参照しながら説明する。図１６は、本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート（実施例５）である。なお、図１６のステップＳ２０１、ステップＳ２０４、ステップＳ２０６～ステップＳ２０７及びステップＳ５０３は、実施例４と同様であるため、その説明を省略する。

ステップＳ６０１：クラスタリング処理部１２０の初期設定部１２２は、全ｍｅａｎ転置ファイルと、変動ｍｅａｎ転置ファイルと、クラスタＣ_ｊが不変クラスタであるか否かを示すフラグｆ_ｊとを初期化する。なお、初期化された全ｍｅａｎ転置ファイルと変動ｍｅａｎ転置ファイルとフラグｆ_ｊとは、例えば、記憶部１３０に格納される。

ここで、全ｍｅａｎ転置ファイルとは、実施例３及び実施例４におけるｍｅａｎ転置ファイルのことである。一方で、変動ｍｅａｎ転置ファイルとは、全ｍｅａｎ転置ファイルから、不変クラスタＣ_ｊに属するｍｅａｎ特徴ベクトルμ_ｊを除いたものである。なお、全ｍｅａｎ転置ファイル及び変動ｍｅａｎ転置ファイルは同じ内容に初期化される。

ステップＳ６０２：クラスタリング処理部１２０の割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉの各々について、現在のイテレーションの転置ファイル表現のｍｅａｎ特徴ベクトルμ_ｊとの距離を計算する。ここで、距離の定義は上記の式（１）の通りである。上述したように、ノルムの二乗は予め計算することが可能であるため、以降では、内積計算について説明する。

実施例５では、以下のステップＳ６０２－１～ステップＳ６０２－３により内積計算を行う。

ステップＳ６０２－１：割当部１２３は、各内積値ｓｕｍ（ｊ）を０に初期化する。また、割当部１２３は、ｈ＝１に初期化する。

ステップＳ６０２－２：割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉが属するクラスタＣ_ｊが不変クラスタであるか否かを判定する。これは、当該オブジェクト特徴ベクトルｘ_ｉが属するクラスタＣ_ｊに対応するフラグｆ_ｊの値を参照することで判定すれば良い。

ステップＳ６０２－３：割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉが属するクラスタＣ_ｊが不変クラスタでないと判定した場合、全ｍｅａｎ転置ファイルを用いて、上記のステップＳ４０２－２～ステップＳ４０２－３により、スパース表現のオブジェクト特徴ベクトルｘ_ｉと、転置ファイル表現の各ｍｅａｎ特徴ベクトルμ_ｊとの内積を計算する。

一方で、割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉが属するクラスタＣ_ｊが不変クラスタであると判定した場合、変動ｍｅａｎ転置ファイルを用いて、上記のステップＳ４０２－２～ステップＳ４０２－３により、スパース表現のオブジェクト特徴ベクトルｘ_ｉと、転置ファイル表現の各ｍｅａｎ特徴ベクトルμ_ｊとの内積を計算する。

このように、実施例５では、スパース表現のオブジェクト特徴ベクトルｘ_ｉが属するクラスタＣ_ｊが不変クラスタであるか否かに応じて、全ｍｅａｎ転置ファイル又は変動ｍｅａｎ転置ファイルのいずれかを用いて、転置ファイル表現のｍｅａｎ特徴ベクトルμ_ｊとの内積計算を計算する。

ステップＳ６０３：クラスタリング処理部１２０の更新部１２４は、各クラスタＣ_ｊに属するスパース表現のオブジェクト特徴ベクトルｘ_ｉにより、全ｍｅａｎ転置ファイル及び変動ｍｅａｎ転置ファイルを更新する。ここで、更新部１２４は、ｍｅａｎ特徴ベクトルμ_ｊが不変クラスタＣ_ｊに属する場合、このｍｅａｎ特徴ベクトルμ_ｊを全ｍｅａｎ転置ファイルのみに格納する。一方で、更新部１２４は、ｍｅａｎ特徴ベクトルμ_ｊが不変クラスタＣ_ｊに属しない場合、このｍｅａｎ特徴ベクトルμ_ｊを全ｍｅａｎ転置ファイル及び変動ｍｅａｎ転置ファイルの両方に格納する。これにより、全ｍｅａｎ転置ファイル及び変動ｍｅａｎ転置ファイルが更新される。

以上のように、本発明の実施の形態におけるクラスタリング装置１０は、実施例５のクラスタリング処理により、スパース表現のオブジェクト特徴ベクトルｘ_ｉをクラスタリングすることができる。このとき、実施例５では、全ｍｅａｎ転置ファイルと変動ｍｅａｎ転置ファイルとを用いることで、実施例４のステップＳ５０２－４の判定（ｍｅａｎ特徴ベクトルμ_ｊが不変クラスタＣ_ｊに属するか否かの判定）が不要となり、内積計算を高速に行うことができるようになる。ただし、実施例５では、全ｍｅａｎ転置ファイルと変動ｍｅａｎ転置ファイルとを用いるため、実施例３及び４と比べて、メモリ容量（記憶部１３０の記憶容量）が多く必要となる。

なお、Ｌｌｏｙｄ法のイテレーション開始時から変動ｍｅａｎ転置ファイルを用いた場合、最悪のケースでは全ｍｅａｎ転置ファイルの２倍のメモリ容量が必要となる。このため、例えば、所定の或る条件を満たすまでは実施例４のクラスタリング処理を実行し、当該条件を満たした後は実施例５のクラスタリング処理を実行する等、実施例４と実施例５との併用も可能である。所定の或る条件とは、例えば、イテレーション回数が所定の回数以上となったこと、不変クラスタの割合が所定の割合以上となったこと、不変クラスタの数が所定の数以上となったこと等が挙げられる。

（実施例６）
次に、クラスタリング処理の実施例６として、境界インデックス付きｍｅａｎ転置ファイルを用いる場合について、図１７を参照しながら説明する。図１７は、本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート（実施例６）である。なお、図１７のステップＳ２０１、ステップＳ２０４、ステップＳ２０６～ステップＳ２０７及びステップＳ５０３は、実施例４と同様であるため、その説明を省略する。

ステップＳ７０１：クラスタリング処理部１２０の初期設定部１２２は、境界インデックス付きｍｅａｎ転置ファイルと、クラスタＣ_ｊが不変クラスタであるか否かを示すフラグｆ_ｊとを初期化する。なお、初期化された境界インデックス付きｍｅａｎ転置ファイルとフラグｆ_ｊとは、例えば、記憶部１３０に格納される。

ここで、境界インデックス付きｍｅａｎ転置ファイルとは、不変クラスタＣ_ｊに属しないｍｅａｎ特徴ベクトルμ_ｊが前半部分に、不変クラスタＣ_ｊに属するｍｅａｎ特徴ベクトルμ_ｊが後半部分に格納され、前半部分と後半部分との境界を示す境界インデックスが付与された転置ファイルのことである。境界インデックスとしては、例えば、前半部分の最後に格納されているｍｅａｎ特徴ベクトルμ_ｊのインデックスｊとすれば良い。なお、必須の要件ではないが、ｍｅａｎ転置ファイルの各タプル列では、各タプルがｍｅａｎＩＤ「ｊ」（クラスタＩＤ）の昇順にソートされていても良い。

ここで、境界インデックスの初期値としては、例えば、境界インデックス付きｍｅａｎ転置ファイルに格納されているｍｅａｎ特徴ベクトルμ_ｊの最大値（すなわち、最後に格納されているｍｅａｎ特徴ベクトルμ_ｊのインデックスｊ）とすれば良い。

ステップＳ７０２：クラスタリング処理部１２０の割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉの各々について、現在のイテレーションの転置ファイル表現のｍｅａｎ特徴ベクトルμ_ｊとの距離を計算する。ここで、距離の定義は上記の式（１）の通りである。上述したように、ノルムの二乗は予め計算することが可能であるため、以降では、内積計算について説明する。

実施例６では、以下のステップＳ７０２－１～ステップＳ７０２－３により内積計算を行う。

ステップＳ７０２－１：割当部１２３は、各内積値ｓｕｍ（ｊ）を０に初期化する。また、割当部１２３は、ｈ＝１に初期化する。

ステップＳ７０２－２：割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉが属するクラスタＣ_ｊが不変クラスタであるか否かを判定する。これは、当該オブジェクト特徴ベクトルｘ_ｉが属するクラスタＣ_ｊに対応するフラグｆ_ｊの値を参照することで判定すれば良い。

ステップＳ７０２－３：割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉが属するクラスタＣ_ｊが不変クラスタでないと判定した場合、境界インデックス付きｍｅａｎ転置ファイルに格納されている全てのｍｅａｎ特徴ベクトルμ_ｊを用いて、上記のステップＳ４０２－２～ステップＳ４０２－３により、スパース表現のオブジェクト特徴ベクトルｘ_ｉと、転置ファイル表現の各ｍｅａｎ特徴ベクトルμ_ｊとの内積を計算する。

一方で、割当部１２３は、スパース表現のオブジェクト特徴ベクトルｘ_ｉが属するクラスタＣ_ｊが不変クラスタであると判定した場合、境界インデックス付きｍｅａｎ転置ファイルに格納されているｍｅａｎ特徴ベクトルμ_ｊのうち、先頭から境界インデックスまでのｍｅａｎ特徴ベクトルμ_ｊを用いて、上記のステップＳ４０２－２～ステップＳ４０２－３により、スパース表現のオブジェクト特徴ベクトルｘ_ｉと、転置ファイル表現の各ｍｅａｎ特徴ベクトルμ_ｊとの内積を計算する。

このように、実施例６では、スパース表現のオブジェクト特徴ベクトルｘ_ｉが属するクラスタＣ_ｊが不変クラスタである場合、境界インデックス付きｍｅａｎ転置ファイルの前半部分に格納されているｍｅａｎ特徴ベクトルμ_ｊとの内積を計算する。これにより、実施例４のステップＳ５０２－４の判定（ｍｅａｎ特徴ベクトルμ_ｊが不変クラスタＣ_ｊに属するか否かの判定）が不要になると共に、境界インデックス付きｍｅａｎ転置ファイルに必要なメモリ容量を抑えることができる。

ステップＳ７０３：クラスタリング処理部１２０の更新部１２４は、各クラスタＣ_ｊに属するスパース表現のオブジェクト特徴ベクトルｘ_ｉにより、境界インデックス付きｍｅａｎ転置ファイルを更新する。ここで、更新部１２４は、ｍｅａｎ特徴ベクトルμ_ｊが不変クラスタＣ_ｊに属しない場合、このｍｅａｎ特徴ベクトルμ_ｊを境界インデックス付きｍｅａｎ転置ファイルの前半部分に格納し、ｍｅａｎ特徴ベクトルμ_ｊが不変クラスタＣ_ｊに属する場合、このｍｅａｎ特徴ベクトルμ_ｊを境界インデックス付きｍｅａｎ転置ファイルの後半部分に格納する。また、更新部１２４は、例えば、前半部分の最後に格納されているｍｅａｎ特徴ベクトルμ_ｊのインデックスｊを境界インデックスとする。

以上のように、本発明の実施の形態におけるクラスタリング装置１０は、実施例６のクラスタリング処理により、スパース表現のオブジェクト特徴ベクトルｘ_ｉをクラスタリングすることができる。このとき、実施例６では、境界インデックス付きｍｅａｎ転置ファイルを用いることで、実施例４のステップＳ５０２－４の判定（ｍｅａｎ特徴ベクトルμ_ｊが不変クラスタＣ_ｊに属するか否かの判定）が不要となり、内積計算を高速に行うことができるようになる。しかも、実施例６では、実施例５と比べて、より少ないメモリ容量（記憶部１３０の記憶容量）で効率的にクラスタリングを行うことができるようになる。

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。

１０クラスタリング装置
１１０前処理部
１２０クラスタリング処理部
１２１入力部
１２２初期設定部
１２３割当部
１２４更新部
１２５終了判定部
１２６出力部
１３０記憶部

Claims

オブジェクトの特徴を表すオブジェクト特徴ベクトルを複数のクラスタにクラスタリングするクラスタリング装置であって、
前記特徴を識別する特徴識別子毎に、前記クラスタを識別するクラスタ識別子と該クラスタに属するオブジェクト特徴ベクトルの平均を表すｍｅａｎ特徴ベクトルの第１の非零特徴量とを対応付けた組を格納する配列要素で構成された転置ファイルを記憶部に記憶させる記憶手段と、
前記オブジェクト特徴ベクトルの第２の非零特徴量と該第２の非零特徴量の特徴識別子とを対応付けた組で前記オブジェクト特徴ベクトルを表したスパース表現のオブジェクト特徴ベクトルと、各クラスタの前記ｍｅａｎ特徴ベクトルとの距離を計算する計算手段と、
前記計算手段により計算された距離に基づいて前記オブジェクト特徴ベクトルを、前記複数のクラスタのうちの一のクラスタに割り当てる割当手段と、
を有し、
前記計算手段は、
前記スパース表現のオブジェクト特徴ベクトルに含まれる第２の非零特徴量と、前記転置ファイルを構成する配列要素のうち、前記第２の非零特徴量に対応する特徴識別子に基づくインデックスの配列要素に格納されている第１の非零特徴量と積を計算することで、前記距離の計算に必要な内積を計算する、
ことを特徴とするクラスタリング装置。
前記計算手段は、
前記スパース表現のオブジェクト特徴ベクトルに含まれる第２の非零特徴量と、前記転置ファイルを構成する配列要素のうち、前記第２の非零特徴量に対応する特徴識別子から１を減じた値のインデックスの配列要素に格納されている第１の非零特徴量と積を計算することで、前記距離の計算に必要な内積を計算する、
ことを特徴とする請求項１に記載のクラスタリング装置。
前記転置ファイルは、
前記特徴識別子毎の配列要素において、前記割当手段による割り当ての前後でクラスタに属するオブジェクト特徴ベクトルに変更あったクラスタを示す変更クラスタに対応するｍｅａｎ特徴ベクトルの第１の非零要素が含まれる組が格納される第１の配列要素が、前記割当手段による割り当ての前後でクラスタに属するオブジェクト特徴ベクトルが不変であったクラスタを示す不変クラスタに対応するｍｅａｎ特徴ベクトルの第１の非零要素が含まれる組が格納される第２の配列要素よりも前に存在し、
前記計算手段は、
前記スパース表現のオブジェクト特徴ベクトルが属するクラスタが不変クラスタであるか否かに応じて、前記スパース表現のオブジェクト特徴ベクトルに含まれる第２の非零特徴量と、前記転置ファイルを構成する配列要素のうち、前記第２の非零特徴量に対応する特徴識別子に基づくインデックスの配列要素又は該配列要素に含まれる前記第１の配列要素のいずれかに格納されている第１の非零特徴量と積を計算することで、前記距離の計算に必要な内積を計算する、ことを特徴とする請求項１又は２に記載のクラスタリング装置。
前記記憶手段は、
更に、前記割当手段による割り当ての前後でクラスタに属するオブジェクト特徴ベクトルが不変であったクラスタを示す不変クラスタに対応するｍｅａｎ特徴ベクトルの第１の非零要素が含まれる組を前記転置ファイルから除いた変動転置ファイルを前記記憶部に記憶させ、
前記計算手段は、
前記スパース表現のオブジェクト特徴ベクトルが属するクラスタが不変クラスタであるか否かに応じて、前記スパース表現のオブジェクト特徴ベクトルに含まれる第２の非零特徴量と、前記転置ファイル又は前記変動転置ファイルを構成する配列要素のうち、前記第２の非零特徴量に対応する特徴識別子に基づくインデックスの配列要素に格納されている第１の非零特徴量と積を計算することで、前記距離の計算に必要な内積を計算する、ことを特徴とする請求項１又は２に記載のクラスタリング装置。
前記計算手段は、
前記スパース表現のオブジェクト特徴ベクトルに含まれる第２の非零特徴量と、前記転置ファイルを構成する配列要素のうち、前記第２の非零特徴量に対応する特徴識別子に基づくインデックスの配列要素に格納されている第１の非零特徴量と積を計算する場合に、前記第１の非零特徴量のうち、前記割当手段による割り当ての前後でクラスタに属するオブジェクト特徴ベクトルに変更あったクラスタを示す変更クラスタのクラスタ識別子に対応付けられている第１の非特徴量との積を計算することで、前記距離の計算に必要な内積を計算する、
ことを特徴とする請求項１又は２に記載のクラスタリング装置。
オブジェクトの特徴を表すオブジェクト特徴ベクトルを複数のクラスタにクラスタリングするクラスタリング装置が、
前記特徴を識別する特徴識別子毎に、前記クラスタを識別するクラスタ識別子と該クラスタに属するオブジェクト特徴ベクトルの平均を表すｍｅａｎ特徴ベクトルの第１の非零特徴量とを対応付けた組を格納する配列要素で構成された転置ファイルを記憶部に記憶させる記憶手順と、
前記オブジェクト特徴ベクトルの第２の非零特徴量と該第２の非零特徴量の特徴識別子とを対応付けた組で前記オブジェクト特徴ベクトルを表したスパース表現のオブジェクト特徴ベクトルと、各クラスタの前記ｍｅａｎ特徴ベクトルとの距離を計算する計算手順と、
前記計算手順により計算された距離に基づいて前記オブジェクト特徴ベクトルを、前記複数のクラスタのうちの一のクラスタに割り当てる割当手順と、
を実行し、
前記計算手順は、
前記スパース表現のオブジェクト特徴ベクトルに含まれる第２の非零特徴量と、前記転置ファイルを構成する配列要素のうち、前記第２の非零特徴量に対応する特徴識別子に基づくインデックスの配列要素に格納されている第１の非零特徴量と積を計算することで、前記距離の計算に必要な内積を計算する、
ことを特徴とするクラスタリング方法。
コンピュータを、請求項１乃至５の何れか一項に記載のクラスタリング装置における各手段として機能させるためのプログラム。