JP6958618B2

JP6958618B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP6958618B2
Application number: JP2019528410A
Authority: JP
Inventors: 祥治西村; 健全劉
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2017-07-07
Filing date: 2018-05-31
Publication date: 2021-11-02
Anticipated expiration: 2038-05-31
Also published as: US11663184B2; WO2019008961A1; JPWO2019008961A1; US20200133930A1

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、データをグループ化する情報処理装置、情報処理方法、およびプログラムに関する。

画像や文書といったデータは、データ同士が完全に一致しているかどうかというより、それらのデータが持つ特徴の類似性などで評価されるデータである。このようなデータを分類したり、要約したりする場合、データ間が一定の類似度以上になるもの同士をまとめる操作、すなわち、類似性に基づくグループ化が有効である。

このような類似に基づくグループ化を実現する検索システムの一例が特許文献１に記載されている。特許文献１に記載のシステムは、検索結果を類似に基づいてグループ化する際、あるデータが、あるグループの代表データと類似の閾値を超えた場合、そのグループに登録することを特徴としている。

また、特許文献２に記載されているデータベース管理方法では、グループ化データベースは小データベースを含んでいる。小データベースには、特定の分類データをもつデータセット毎にデータが格納されている。そして、与えられた検索条件を用いてグループ化データベースに対する検索が行われる。また、与えられた検索条件は、検索結果データベースに順次格納される。さらに、小データベースは、与えられた検索条件のうち頻度の高い検索条件に沿うように再編成される。

特許文献３には、データベースに蓄積された生体情報を効率よくグループ化する方法が記載されている。特許文献３に記載の装置では、まず、蓄積された顔画像から抽出された特徴量に基づいて、データベースに蓄積されている全ての顔画像間の類似度を求める。そして、類似度が第１閾値よりも高い顔画像同士を同一の第１のグループとしてグループ化するとともに、第１のグループのいずれにも属さず、かつ顔画像間の類似度が第２閾値（＜第１閾値）よりも高い顔画像同士を同一の第２のグループとしてグループ化する。第１閾値は、他人受入率がゼロを保証できる範囲になる値に設定され、第２閾値は、本人棄却率がある程度保証される値に設定される。

特開２０００−１１２９８８号公報特開平０７−１０５２３９号公報特開２０１２−００８８３６号公報

グループ化の対象となるデータ間の類似度自身が誤差を含み、類似度計算のアルゴリズムが必ずしも現実世界を正確に反映した値を返さない、または、アルゴリズムの結果と人が思う結果にずれがある等、必ずしも正しいとは限らないことが多い。そのため、望ましいグループ化の結果が得られないという問題点があった。

本発明は上記事情に鑑みてなされたものであり、その目的とするところは、データのグループ化を高精度に行う情報処理装置、情報処理方法、およびプログラムを提供することにある。

本発明の各側面では、上述した課題を解決するために、それぞれ以下の構成を採用する。

第一の側面は、情報処理装置に関する。
第一の側面に係る第１の情報処理装置は、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力する入力手段と、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化するグループ化手段と、を有し、
前記グループ化手段は、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択し、
前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付ける選択受付手段と、
選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第２の閾値を調整する調整手段と、をさらに備え、
前記グループ化手段は、前記選択受付手段により受け付けた複数のグループを一つのグループにまとめる。
第一の側面に係る第２の情報処理装置は、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力する入力手段と、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化するグループ化手段と、を有し、
前記グループ化手段は、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択し、
いずれの前記グループにも属さないデータの全データに対する割合に応じて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めるか、
前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化手段に処理させる制御手段をさらに備え、
前記制御手段は、前記グループ化手段に、
前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めさせ、
前記割合が所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる。
第一の側面に係る第３の情報処理装置は、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力する入力手段と、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化するグループ化手段と、を有し、
前記グループ化手段は、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択し、
前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付ける除外データ受付手段と、
前記除外されるデータと、当該データが属していた第１グループの前記代表データとの前記類似度に基づいて、前記第１の閾値を調整する調整手段と、をさらに備え、
前記グループ化手段は、前記除外データ受付手段が受け付けたデータを前記グループから除外し、
前記調整手段は、以下の（１）〜（３）のいずれか一つの方法で、前記第１の閾値を調整する、情報処理装置。
（１）前記第１の閾値を、前記除外データ受付手段により受け付けた複数の除外データのそれぞれと前記代表データとの前記類似度のうち最も高い類似度に所定値を加算した値とする。
（２）前記第１の閾値を、前記複数の除外データのそれぞれと前記代表データとの前記類似度の平均値に所定値を加算した値とする。
（３）前記複数の除外データのうち、前記代表データとの前記類似度が最高と最低のものを除いて、上記（１）または上記（２）で、前記第１の閾値を調整する。
第一の側面に係る第４の情報処理装置は、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力する入力手段と、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化するグループ化手段と、を有し、
前記グループ化手段は、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択し、
前記グループ化手段は、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含める。

第二の側面は、少なくとも１つのコンピュータにより実行される情報処理方法に関する。
第二の側面に係る第１の情報処理方法は、
情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなす第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力し、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択し、
前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付け、
選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第２の閾値を調整し、
前記グループ化を行う際、前記選択する操作により受け付けた複数のグループを一つのグループにまとめる、ことを含む。
第二の側面に係る第２の情報処理方法は、
情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなす第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力し、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択し、
いずれの前記グループにも属さないデータの全データに対する割合に応じて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めるか、
前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化させ、
前記グループ化する際に、
前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めさせ、
前記割合が所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる、ことを含む。
第二の側面に係る第３の情報処理方法は、
情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなす第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力し、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択すし、
前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付け、
前記除外されるデータと、当該データが属していた第１グループの前記代表データとの前記類似度に基づいて、前記第１の閾値を調整し、
前記グループ化する際に、前記除外する操作により受け付けたデータを前記グループから除外し、
以下の（１）〜（３）のいずれか一つの方法で、前記第１の閾値を調整する、ことを含む。
（１）前記第１の閾値を、前記除外する操作により受け付けた複数の除外データのそれぞれと前記代表データとの前記類似度のうち最も高い類似度に所定値を加算した値とする。
（２）前記第１の閾値を、前記複数の除外データのそれぞれと前記代表データとの前記類似度の平均値に所定値を加算した値とする。
（３）前記複数の除外データのうち、前記代表データとの前記類似度が最高と最低のものを除いて、上記（１）または上記（２）で、前記第１の閾値を調整する。
第二の側面に係る第４の情報処理方法は、
情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなす第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力し、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択し、
前記グループ化する際に、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含める、ことを含む。

なお、本発明の他の側面としては、上記第二の側面の方法を少なくとも１つのコンピュータに実行させるプログラムであってもよいし、このようなプログラムを記録したコンピュータが読み取り可能な記録媒体であってもよい。この記録媒体は、非一時的な有形の媒体を含む。
このコンピュータプログラムは、コンピュータにより実行されたとき、コンピュータに、情報処理装置上で、その情報処理方法を実施させるコンピュータプログラムコードを含む。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。

また、本発明の方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障のない範囲で変更することができる。

さらに、本発明の方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。

上記各側面によれば、データのグループ化を高精度に行う情報処理装置、情報処理方法、およびプログラムを提供することができる。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

本発明の実施の形態に係る情報処理装置の構成を論理的に示す機能ブロック図である。本実施形態の情報処理装置を実現するコンピュータの構成の一例を示す図である。計算されたデータ間の類似度と、実際のデータの類似性の違いを説明するための図である。本実施形態の情報処理装置の動作の一例を示すフローチャートである。本実施形態の情報処理装置の対象データ記憶部に記憶される処理対象データのデータ構造の例を模式的に示す図である。本実施形態の情報処理装置の対象データ記憶部に記憶される処理対象データのデータ構造の例を模式的に示す図である。本実施形態の情報処理装置の対象データ記憶部に記憶される処理対象データのデータ構造の例を模式的に示す図である。本実施形態の情報処理装置の構成を論理的に示す機能ブロック図である。本実施形態の情報処理装置の構成を論理的に示す機能ブロック図である。グループからデータを除外して閾値を調整する処理を説明するための図である。複数のグループを一つのグループに結合して閾値を調整する処理を説明するための図である。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

（第１の実施の形態）
本発明の第１の実施の形態について、以下説明する。
図１は、本発明の実施の形態に係る情報処理装置１００の構成を論理的に示す機能ブロック図である。
本実施形態の情報処理装置１００は、入力部１０２と、グループ化部１０４とを備えている。

情報処理装置１００は、図２に示すコンピュータ８０により実現される。
図２は、本実施形態の情報処理装置１００を実現するコンピュータ８０の構成の一例を示す図である。
コンピュータ８０は、ＣＰＵ（Central Processing Unit）８２、メモリ８４、メモリ８４にロードされた図１の構成要素を実現するプログラム９０、そのプログラム９０を格納するストレージ８５、Ｉ／Ｏ（Input/Output）８６、およびネットワーク接続用インタフェース（通信Ｉ／Ｆ８７）を備える。

ＣＰＵ８２、メモリ８４、ストレージ８５、Ｉ／Ｏ８６、通信Ｉ／Ｆ８７は、バス８９を介して互いに接続され、ＣＰＵ８２により情報処理装置１００全体が制御される。ただし、ＣＰＵ８２などを互いに接続する方法は、バス接続に限定されない。

メモリ８４は、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリである。ストレージ８５は、ハードディスク、ＳＳＤ（Solid State Drive）、またはメモリカードなどの記憶装置である。

ストレージ８５は、ＲＡＭやＲＯＭなどのメモリであってもよい。ストレージ８５は、コンピュータ８０の内部に設けられてもよいし、コンピュータ８０がアクセス可能であれば、コンピュータ８０の外部に設けられ、コンピュータ８０と有線または無線で接続されてもよい。あるいは、コンピュータ８０に着脱可能に設けられてもよい。

ＣＰＵ８２が、ストレージ８５に記憶されるプログラム９０をメモリ８４に読み出して実行することにより、図１の情報処理装置１００の各ユニットの各機能を実現することができる。

Ｉ／Ｏ８６は、コンピュータ８０と他の入出力装置間のデータおよび制御信号の入出力制御を行う。他の入出力装置とは、たとえば、コンピュータ８０に接続されるキーボード、タッチパネル、マウス、およびマイクロフォン等の入力装置（不図示）と、ディスプレイ、プリンタ、およびスピーカ等の出力装置（不図示）と、これらの入出力装置とコンピュータ８０のインタフェースとを含む。さらに、Ｉ／Ｏ８６は、他の記録媒体の読み取りまたは書き込み装置（不図示）とのデータの入出力制御を行ってもよい。

通信Ｉ／Ｆ８７は、コンピュータ８０と外部の装置との通信を行うためのネットワーク接続用インタフェースである。通信Ｉ／Ｆ８７は、有線回線と接続するためのネットワークインタフェースでもよいし、無線回線と接続するためのネットワークインタフェースでもよい。

図１の本実施形態の情報処理装置１００の各構成要素は、図２のコンピュータ８０のハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各実施形態の情報処理装置１００を示す機能ブロック図は、ハードウェア単位の構成ではなく、論理的な機能単位のブロックを示している。

情報処理装置１００は、複数のコンピュータ８０により構成されてもよいし、仮想サーバにより実現されてもよい。
なお、各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。

図１に戻り、入力部１０２は、複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値（以下、第１閾値δａとも呼ぶ）と、第１閾値δａより小さい（低い）値を示す第２の閾値（以下、第２閾値δｂとも呼ぶ）とを入力する。
グループ化部１０４は、複数のデータ間の類似度、第１閾値δａ、および第２閾値δｂを用いてデータをグループ化する。具体的には、グループ化部１０４は、代表データとの類似度が第１閾値δａより高いデータを同じグループに含め、新たな代表データを、既に存在している代表データとの類似度が第２閾値δｂより低いデータの中から選択する。ここで、新たな代表データとは、既に存在している代表データのグループとは別のグループの代表となるデータである。

第１閾値δａは、ある代表データと同じグループに属するとみなすための閾値であり、第２閾値δｂは、その代表データと同じグループに属さないとみなす閾値である。あるいは、第１閾値δａは、必ずある代表データと同じグループに属するとみなすための閾値であり、第２閾値δｂは、その代表データと同じグループに属する可能性はあるとみなすための閾値とも言える。

ここで、データとは、文書、画像、動画、音声、音響、波形、動線、形状（立体も含む）等を含む。本実施形態のデータは、データをグループ化する際に、データ同士が完全に一致しているかどうかというより、データが有している特徴量の類似性等により評価されるデータである。

なお、データの特徴量の抽出は、公知の技術を用いて行うことができ、特に限定されない。本実施形態の情報処理装置１００は、文書、画像、動画、音声といったデータをそれらの特徴量に基づきグループ化するものであるが、これらのデータを要約する用途にも適用できる。例えば、グループ化部１０４により分類されたグループの代表データを要約として利用できる。

入力部１０２による閾値の入力方法は様々考えられるが、以下に例示される。以下は複数を組み合わせてもよい。
（Ａ１）設定ファイルやプログラムから読み出して入力する。
（Ａ２）コンピュータ８０に接続される入力装置（キーボード、マウス、タッチパネル等）を用いたユーザ操作により受け付けた値を入力する。この場合、閾値設定用の画面にＧＵＩ（Graphical User Interface）を設け、ユーザ操作を受け付ける。
（Ａ３）通信網を介して受信した値を入力する。

本実施形態では、類似度は、値が大きい（高い）程類似していることを示す。そして、あるデータ間の類似度が第１閾値δａより高い場合に、それらのデータは同じグループに属するとみなされる。一方、第２閾値δｂは、第１閾値δａより低い値を示し、かつあるデータ間の類似度が第２閾値δｂより低い場合に、それらのデータは同じグループに属さないとみなされる。

他の実施形態では、類似度に替えて乖離度を用いてもよい。乖離度を用いる場合は値が低い程類似していることを示す。乖離度の場合は、閾値との判定不等号の向きが逆になる。つまり、あるデータ間の乖離度が第１の閾値より低い場合に、それらのデータは同じグループに属するとみなされる。一方、第２の閾値は、第１の閾値より大きい（高い）値を示し、かつあるデータ間の乖離度が第２の閾値より高い場合に、それらのデータは同じグループに属さないとみなされる。

ここで、本実施形態で２つの閾値を用いる意味について説明する。
上記したように、類似度自身が誤差を含む場合において、図３（ａ）は１つの閾値を用いたグループ化の例を示し、図３（ｂ）は２つの閾値を用いたグループ化の例を示す。
図３（ａ）に示すように、中心にある点をグループの代表となる代表データ１０とし、類似閾値δｑの範囲の領域２０をそのグループに属するデータとする。代表データ１０以外のデータは、×印で示してある。しかし、類似度自身が誤差を含むため、真にそのグループの代表データ１０と同じグループに属するべきデータの分布３０（図中、破線で示される）は、その類似閾値δｑによって描かれる領域２０と必ずしも一致しない。

このため、ある閾値を設定した時、本来同一グループに入るべきデータが別のデータに分かれたり、異なるグループに入るべきデータ同士が同じグループに入ったりすることが起こる。

例えば、図３（ａ）の符号２０をグループ１の領域とし、一点鎖線で示される符号２２をグループ２の領域とする。ここで、データ４０は、グループ１の分布３０の外側に存在し、本来はグループ２に属すべきデータである。また、データ４２は、グループ１の分布３０の内側に存在し、本来はグループ１に属すべきデータである。しかし、類似度自身が誤差を含むため、閾値を用いたグループ化によれば、データ４２は、グループ２の領域２２の内側に存在するためグループ２に分類され、データ４０は、グループ１の領域２０の内側に存在するためグループ１に分類されることになる。

一般的に、類似に基づくグループ化の閾値を高くしすぎると本来同一グループに入るべきデータが別のデータに分かれることが起こりやすくなり、閾値を低くしすぎると異なるグループに入るべきデータ同士が同じグループに入ることが起こりやすくなる。さらに、データによっては、閾値を高くした方がよりよいグループになる場合と、閾値が低くした方がよりよいグループになる場合との双方が起き、本質的に最適な閾値を求めることができない。

このように、データの分布によって、同一グループに属するべきデータが別グループに属する、または、別グループに属するべきデータが同一グループに属するといった結果になることがあるため、グループ化の閾値をいくら変化させても望ましいグループ化の結果が得られないという問題点があった。

図３（ｂ）に示すように、本発明では２つの閾値（δａ、δｂ）を用いることで、データ４０とデータ４２はともに、グループ１にも他のグループにも属さないデータとして分類される。データ４０とデータ４２は、第１閾値δａと第２閾値δｂの間の領域５０（ハッチングで示される）に含まれている。これらのデータは、どのグループ属するのか自動的には判断できないものとしてユーザに提示される。

図１に戻り、情報処理装置１００は、記憶装置１１０にアクセス可能に接続される。記憶装置１１０は、たとえば、ハードディスク、ＳＳＤ（Solid State Drive）、またはメモリカードなどであり、情報処理装置１００に含まれてもよいし、外部装置であってもよい。また、記憶装置１１０は、複数の記憶装置から構成されてもよい。

記憶装置１１０は、対象データ記憶部１１２と、代表データ記憶部１１４と、結果データ記憶部１１６とを含む。
対象データ記憶部１１２は、情報処理装置１００がグループ化処理を行う対象となるデータを記憶する。対象データ記憶部１１２には、データそのものが記憶されていてもよいし、あるいは、対象データ記憶部１１２にはデータの格納場所を示すパス名（ファイル名を含む）とその特徴量情報を記憶してもよい。また、対象データ記憶部１１２は、データの特徴量同士を比較して求めた類似度を記憶してもよい。

代表データ記憶部１１４は、グループ化部１０４により選択された代表データを記憶する。具体的には、グループ毎に代表データの情報を記憶する。例えば、代表データ記憶部１１４にはグループ毎に代表データのファイル名またはパス名が当該グループのＩＤに関連付けられて記憶される。

結果データ記憶部１１６は、グループ化部１０４によりグループ化された結果データを記憶する。具体的には、グループ毎に代表データと、そのグループに含まれるデータの情報を記憶する。例えば、結果データ記憶部１１６には、グループ毎に代表データまたは当該グループに属するデータの、ファイル名またはパス名が当該グループのＩＤに関連付けられて記憶される。

また、第１閾値δａおよび第２閾値δｂは、コンピュータ８０のメモリ８４またはストレージ８５あるいは、記憶装置１１０に記憶される。

このよう構成された本実施形態の情報処理装置１００の動作について以下説明する。
図４は、本実施形態の情報処理装置１００の動作の一例を示すフローチャートである。
本実施形態の情報処理装置１００が、第１閾値δａと、第２閾値δｂとを入力し（ステップＳ１０１）、類似度、第１閾値δａ、および第２閾値δｂを用いてデータをグループ化する。その際、情報処理装置１００は、代表データとの類似度が第１閾値δａより高いデータを（ステップＳ１０５のＹＥＳ）同じグループに含め（ステップＳ１０７）、新たな代表データを、既に存在している代表データとの類似度が第２閾値δｂより低いデータ（ステップＳ１０９のＹＥＳ）の中から選択する（ステップＳ１１１）。つまり、類似度が第２閾値δｂより低いデータの中から選択する。ここで、最初の代表データ１０の選択方法は、特に限定されず、条件なしで任意のデータを選択できる。また、ユーザ操作により選択できてもよい。

より詳細には、まず、入力部１０２は、第１閾値δａと第２閾値δｂの入力を受け付ける（ステップＳ１０１）。各閾値は、例えば、コンピュータ８０の表示装置（不図示）に表示される設定画面を用いて、コンピュータ８０の入力装置を用いたユーザ操作により入力される。入力部１０２が受け付けた第１閾値δａと第２閾値δｂは、コンピュータ８０のストレージ８５に記憶される。

そして、グループ化部１０４は、対象データ記憶部１１２から処理対象となるデータを取得する（ステップＳ１０３）。ここでは、処理対象となるデータを一つずつ順次読み出して処理するものとしているが、複数のデータを一緒に読み出して処理を行ってもよい。また、上記したように、対象データ記憶部１１２に記憶されている情報がデータの特徴量である場合は、グループ化部１０４はデータではなくデータの特徴量を取得する。なお、データを読み出す場合は、読み出したデータから特徴量を抽出する処理もグループ化部１０４が行ってもよい。上記したように、対象データ記憶部１１２に各データ間の類似度が記憶されている場合は、グループ化部１０４は類似度を取得してもよい。

ここで、本明細書において、「取得」とは、自装置が他の装置や記憶媒体に格納されているデータまたは情報を取りに行くこと（能動的な取得）、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等、および、自装置に他の装置から出力されるデータまたは情報を入力すること（受動的な取得）、たとえば、配信（または、送信、プッシュ通知等）されるデータまたは情報を受信すること等、の少なくともいずれか一方を含む。また、受信したデータまたは情報の中から選択して取得すること、または、配信されたデータまたは情報を選択して受信することも含む。

そして、グループ化部１０４は、対象データ記憶部１１２から読み出したデータが、それぞれどのグループに属するべきかを以下の手順で判定する。まず、グループ化部１０４は、データと代表データ１０の特徴量を元にデータと代表データ１０間の類似度を算出する。そして、算出された各代表データ１０とデータとの類似度が第１閾値δａ以上か否かを判定する（ステップＳ１０５）。

言い換えると、対象データ記憶部１１２から読み出したデータについて、代表データ１０との間の類似度≧閾値δａとなる代表データ１０を探す。複数の代表データ１０がある場合、データは各代表データ１０との間の類似度についてそれぞれ判定する。そして、ステップＳ１０３で読み出したデータと第１閾値δａ以上類似する代表データ１０があった場合は（ステップＳ１０５のＹＥＳ）、グループ化部１０４は、当該代表データ１０のグループに当該データを追加し、結果データ記憶部１１６に記憶する（ステップＳ１０７）。上記したように、対象データ記憶部１１２に類似度が記憶されている場合は、類似度の算出は省略される。なお、ステップＳ１０５で第１閾値δａより高い代表データ１０がなかった場合（ステップＳ１０５のＮＯ）、ステップＳ１０９に進む。

次に、グループ化部１０４は、第２閾値δｂより類似する代表データ１０がないか否かを判定する（ステップＳ１０９）。つまり、対象データ記憶部１１２から読み出したデータについて、代表データ１０との間の類似度＞閾値δｂとなる代表データ１０を探す。条件を満たす代表データ１０がなかった場合（ステップＳ１０９のＹＥＳ）、グループ化部１０４は、当該データを新たな代表データ１０として追加して代表データ記憶部１１４に記憶する（ステップＳ１１１）。ステップＳ１０９で第２閾値δｂより類似する代表データ１０があった場合（ステップＳ１０９のＮＯ）、ステップＳ１１１はバイパスしてステップＳ１１３に進む。

そして、未処理のデータ（ステップＳ１０５および／またはステップＳ１０９の類似判定処理を行っていないデータ）がなければ（ステップＳ１１３のＮＯ）、ステップＳ１０７とステップＳ１１１で結果データ記憶部１１６に記憶された結果を出力する（ステップＳ１１５）。未処理のデータがある場合（ステップＳ１１３のＹＥＳ）、ステップＳ１０３に戻り、未処理のデータがなくなるまで処理を繰り返し、対象データ記憶部１１２の全データについて類似判定処理を行う。

ステップＳ１１５での結果データの出力方法は様々考えられ、以下に例示されるがこれらに限定されない。また、以下の複数を組み合わせてもよい。情報処理装置１００は、結果データ記憶部１１６に記憶された結果データを出力する出力部（不図示）をさらに備える。出力部は、例えば、コンピュータ８０に接続される表示装置、プリンタ、コンピュータ８０の通信Ｉ／Ｆ８７、Ｉ／Ｏ８６等である。

出力部は、以下の少なくともいずれか一つの出力方法で結果データを出力する。
（Ｂ１）コンピュータ８０に接続される表示装置に画面表示する。
（Ｂ２）コンピュータ８０に接続されるプリンタに印字出力する。
（Ｂ３）コンピュータ８０と通信可能な装置に結果データをネットワークを介して送信する。
（Ｂ４）結果データのファイルを記憶媒体に記憶する。

表示装置に表示する場合、出力部は、例えば、後述する実施形態のツリー構造を模式的に図示して画面表示してもよいし、リストを画面表示してもよい。ファイル名またはパスなどをリンクとして表示し、リンクをクリックするとデータにアクセスできてもよい。また、画像データの場合、サムネイルを表示してもよい。

また、出力部は、例えば、グループ化されたデータを、グループ毎に、所定の記憶装置、または、所定の記憶領域（フォルダ等）に分けて記憶してもよい。

図３（ｂ）において、データ４０およびデータ４２は、代表データ１０との類似度が第１閾値δａより低く、かつ、第２閾値δｂより高いため、いずれのグループにも分類されない。出力部は、このようにいずれのグループに分類するか判断が付かないデータに関する情報ついても出力するので、これらのデータについては別途適切な処理を行いグループに分類することが可能になる。

また、本実施の形態の情報処理装置１００は、コンピュータプログラム９０に対応する各種の処理動作をＣＰＵ８２が実行することにより、前記した図１に示す各種ユニットが各種機能として実現される。
本実施形態のコンピュータプログラム９０は、情報処理装置１００を実現させるためのコンピュータ８０に、第１閾値δａと第２閾値δｂと入力する手順、類似度、第１閾値δａ、および第２閾値δｂを用いてデータをグループ化する手順を実行させ、代表データとの類似度が第１閾値δａより高いデータを同じグループに含める手順、新たな代表データを、既に存在している代表データとの類似度が第２閾値δｂより低いデータの中から選択する手順、を実行させるように記述されている。

本実施形態のコンピュータプログラム９０は、コンピュータ８０で読み取り可能な記録媒体に記録されてもよい。記録媒体は特に限定されず、様々な形態のものが考えられる。また、プログラム９０は、記録媒体からコンピュータ８０のメモリ８４にロードされてもよいし、ネットワークを通じてコンピュータ８０にダウンロードされ、メモリ８４にロードされてもよい。

コンピュータプログラム９０を記録する記録媒体は、非一時的な有形のコンピュータ８０が使用可能な媒体を含み、その媒体に、コンピュータ８０が読み取り可能なプログラムコードが埋め込まれる。

以上説明したように、本実施形態によれば、グループ化部１０４により、類似度が第２閾値δｂより低いデータは別グループと判定され、また、新たな代表データとして扱われる。このため、この新たな代表データは、既に選ばれている代表データとは別の対象を示す可能性が高まる。従って、別対象が同一グループになる可能性が低くなり、グループ分けの精度の悪化を回避できるようになる。

さらに、グループ化部１０４により、あるグループの代表データとの類似度が閾値δａより高いデータは、当該代表データのグループに属することになる。このため、その代表データと同一の対象である可能性が高まる。従って、同一対象が別グループになる可能性が低くなり、グループ分けの精度の悪化を回避できる。

（第２の実施の形態）
次に、本発明の第２の実施の形態について、以下説明する。
本実施形態は、グループ化の対象となるデータ群は、図５に示すようなツリー構造で既に管理されている点以外は、上記実施形態と同様である。
図５〜図７は、本実施形態の情報処理装置１００の対象データ記憶部１１２に記憶される処理対象データのデータ構造の例を模式的に示す図である。

各ノード（Ａ１、Ａ２、・・・、Ｌｎ−１、Ｌｎ）はデータ群を表し、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値（δ１〜δ１２）が設定されている。各データ間の類似度が、設定されている閾値を越えた（閾値より高い）データがその上位ノードの下位に位置する。また、これらの閾値は、リーフ方向（下位）に進むに従って大きく（高く）なるように設定されている（例えば、δ１＜δ２＜δ３＜δ４）。

初期状態では、代表データ記憶部１１４と結果データ記憶部１１６は空である。類似度に基づく閾値として、同一グループとみなすための第１閾値δａと、同一グループとみなさないための第２閾値δｂは、予め入力部１０２により入力されて設定済みであるとする。ここで、δａ≧δｂである。

以下、図４のフローチャートを用いて、図５〜図７について説明する。
まず、入力部１０２は、第１閾値δａと第２閾値δｂの入力を予め受け付け、設定済みであるとする（ステップＳ１０１）。ここで、δ３＞δａ＞δ２であるとする。そして、グループ化部１０４は、対象データ記憶部１１２から処理対象となるデータ（図５）にアクセスする（ステップＳ１０３）。

ここでは、初期状態として、代表データ記憶部１１４が空のため、代表データ１０がないので（ステップＳ１０５のＮＯ、ステップＳ１０９のＹＥＳ）、グループ化部１０４は、適当なデータを代表データ１０に選ぶ。これは、どのような方法であっても構わない。ここでは、グループ化部１０４は、図５のツリーをリーフ方向にたどる。そして、リンクに設定されている閾値（ここでは、δ２）が第１閾値δａよりはじめて大きい（高い）リンクを持つノードを選択する。ここでは、上記したようにδ３＞δａ＞δ２であるため、ノードＣ１・・・Ｃｎ（ここではＣ１とする）が選択される。そして、ノードＣ１のデータを代表データ１０として選び、当該データを代表データ記憶部１１４に格納する（ステップＳ１１１）。

そして、ステップＳ１１３に進み、未処理データの処理を行うためにステップＳ１０３の戻り、グループ化部１０４は、対象データ記憶部１１２にアクセスする。ここでは、上記したように、δａ＞δ２であり、かつ、δ１＜δ２＜δ３＜δ４である。このため、図５において、ノードＣ１以下のノード（Ｄ１〜Ｄｎ、Ｅ１〜Ｅｎ、Ｆ１〜Ｆｎ）にあるデータと代表データ１０（ノードＣ１のデータ）との類似度は第１閾値δａより高くなる（ステップＳ１０５のＹＥＳ）。そして、グループ化部１０４は、ノードＣ１以下のサブツリーにあるノード（Ｄ１〜Ｄｎ、Ｅ１〜Ｅｎ、Ｆ１〜Ｆｎ）のデータをグループ１として（図６参照）、結果データ記憶部１１６に格納する（ステップＳ１０７）。

そして、ステップＳ１１３に進み、未処理データの処理を行うためにステップＳ１０３の戻り、グループ化部１０４は、対象データ記憶部１１２にアクセスする。上記実施形態では、対象データ記憶部１１２からデータを一つずつ読み出して、第１閾値δａより高い類似度を有する代表データ１０を探してデータが属するべきグループを特定していた。本実施形態では、あるグループの代表データ１０を起点としてツリーをたどることで、各代表データ１０のグループに属するノードの範囲を求めている。

具体的には、グループ化部１０４は、図６において、代表データ１０のノードＣ１のデータを起点としてツリーを下位方向にたどり、ノードＣ１のデータ（代表データ１０）との類似度が第１閾値δａより高いデータを（ステップＳ１０５のＹＥＳ）、グループ１に追加する（ステップＳ１０７）。つまり、ノードＣ１より下位に位置するノードＤ１〜Ｄｎ、Ｅ１〜Ｅｎ、およびＦ１〜Ｆｎがグループ１に追加される。

そして、グループ化部１０４は、さらに、図７において、ノードＣ１を起点としてツリーを上位方向にたどり、ノードＣ１のデータ（代表データ１０）との類似度が第２閾値δｂより低いノードを探す（ステップＳ１０９）。もし、ノードＣ１のデータ（代表データ１０）との類似度が第２閾値δｂより低いデータがあれば（ステップＳ１０９のＹＥＳ）、グループ化部１０４は、それを新しい代表データ１０として代表データ記憶部１１４に追加する（ステップＳ１１１）。

図７において、ノードＣ１を起点としてノード間のデータの類似度は、各ノード間のリンクの閾値から求めることができる。例えば、ノードＣ１とノードＢｎの間の類似度は、ノードＣ１のリンクの閾値からノードＢｎのリンクの閾値を引いた値（δ（Ｃ１−Ｂｎ））である。この値が第２閾値δｂより小さいノードを探す（ステップＳ１０９）。

ここでは、ノードＢｎとノードＣ１との類似度（δ（Ｃ１−Ｂｎ））は第２閾値δｂより低いとする（ステップＳ１０９のＹＥＳ）。よって、グループ化部１０４は、ノードＢｎのデータを新たなグループ２の代表データ１０として選択する。

そして、グループ化部１０４は、ノードＢｎを起点としてツリーを下位方向にたどり、新たな代表データ１０（ノードＢｎのデータ）との類似度が第１閾値δａより高いデータがあれば（ステップＳ１０５のＹＥＳ）、グループ２に追加する（ステップＳ１０７）。ここでは、そして、上記と同様に、ノードＢｎを起点としてツリーを下位方向にたどり、ノードＢｎのデータ（代表データ１０）との類似度が第１閾値δａより高いデータを（ステップＳ１０５のＹＥＳ）、グループ２に追加する（ステップＳ１０７）。つまり、ノードＢｎより下位に位置するノードＨ１〜Ｈｎのデータがグループ２に追加される。

そして、未処理データがなくなるまで上記で示した手順を繰り返す。ツリー内データの走査が全て終わり、未処理データがなくなれば（ステップＳ１１３のＮＯ）、グループ化部１０４は、結果を返す（ステップＳ１１５）。結果データは、例えば、上記したようにコンピュータ８０の表示装置に表示したり、プリンタに印字出力したりする。

以上説明したように、本実施形態の情報処理装置１００によれば、上記実施形態と同様な効果を奏するとともに、さらに、対象データ記憶部１１２においてツリー構造でデータを管理し、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値を設定するので、第１閾値δａおよび第２閾値δｂとの比較処理を簡素化でき、高速に処理できる。

具体的には、ツリーに設定されるノード間のリンクの閾値を元に、代表データ１０を起点としてツリーを下位方向にたどり、第１閾値δａより高い閾値のノードを代表データ１０のグループに追加し、一方、代表データ１０を起点としてツリーを上位方向にたどり、リンクの閾値から算出される代表データ１０と各ノード間の類似度が、第２閾値δｂより低いノードを新たな代表データ１０に追加し、処理を繰り返す。このようにツリーを用いてデータのグループ化を行うことができる。

また、代表データ１０の選択方法において、本実施形態では、ツリーをたどって各リンクの閾値が第１閾値δａより高いノードを探索して代表データ１０とすることができるので、適当に任意の代表データ１０を選択するよりも精度がよく、効率もよい。

（第３の実施の形態）
次に、本発明の第３の実施の形態について、以下説明する。
本実施形態では、上記実施形態のグループ化処理において、いずれのグループにも属さなかったデータの処理方法について説明する。すなわち、第１閾値δａと第２閾値δｂの間に位置するデータの処理方法について説明する。

データ処理方法は、以下に例示されるが、これらに限定されない。
（Ｃ１）グループ化によっていずれのグループにも属さないデータを破棄する。
（Ｃ２）グループとの相対的な関係に基づいてグループ化する。
（Ｃ３）データの割合で破棄かグループに入れるかを切り替える。

以下、順に説明する。
＜Ｃ１：データ破棄＞
グループ化部１０４は、グループ化によっていずれのグループにも属さないデータを破棄してもよい。
この方法は、データとして映像に映った顔の特徴量など、膨大な数のデータがある一方で、映った顔の角度や光の条件などにより、同一の判定が難しい場合に有効な方法である。つまり、グループ化の結果の質を悪化させる要因となるデータを積極的に捨てることで、グループ化の結果の質を向上させることができる。

いずれのグループにも属さないデータとは、全てのグループの代表データ１０との類似度が第２閾値より低いデータである。

データの破棄は、自動的に行われてもよいし、破棄前に、ユーザに破棄対象となるデータを提示し、ユーザによる破棄の指示の操作を受け付けてから破棄してもよい。また、破棄対象となるデータの中からユーザ操作による破棄データの選択を受け付け、選択されたデータを破棄してもよい。具体的には、対象データ記憶部１１２またはデータの格納場所からデータを削除するか、または、データを他の格納場所に移動する。

＜Ｃ２：相対的な関係に基づくグループ化＞
グループ化部１０４は、複数のグループのうち一のグループの代表データ１０との類似度が第１閾値δａと第２閾値δｂの間であり、かつ、当該一のグループ以外の他のグループの代表データ１０との類似度は第２閾値より低いデータは、上記した一のグループに含める。つまり、このようなデータについては、複数のグループそれぞれに対する類似度の比較に基づいて、属するべきグループが選択される。

例えば、あるデータがグループＸの代表データ１０に対する類似度が第２閾値δｂより高く、残りのすべてのグループについては代表データ１０に対する類似度が第２閾値δｂより低い場合、グループ化部１０４は、当該データをグループＸに追加する。つまり、類似度が第１閾値δａよりは低いが、第２閾値δｂよりは高いため、当該グループに属するかもしれないとする。例えば、データ件数が十分でない場合、結果として捨てるデータを減らすことができる。

＜Ｃ３：破棄か追加かを切替＞
上記（Ｃ１）と上記（Ｃ２）の方法を、いずれのグループにも属さないデータの全データに対する割合に応じて切り替える。例えば、データ全体に対して捨てることになるデータの割合が所定値より小さければ上記（Ｃ１）の方法を、所定値より大きければ上記（Ｃ２）の方法を実行する。所定値はデータの種類やデータ総数に応じて適宜設定できるものとする。

図８は、本実施形態の情報処理装置１００の構成を論理的に示す機能ブロック図である。
情報処理装置１００は、いずれのグループにも属さないデータの全データに対する割合に応じて、上記（Ｃ１）の方法と上記（Ｃ２）の方法のいずれを実行するかを決定し、グループ化部１０４に処理させる制御部１３０をさらに備える。
制御部１３０は、いずれのグループにも属さないデータの全データに対する割合が所定値以上の場合、複数のグループのうち一のグループの代表データ１０との類似度が第１閾値δａと第２閾値δｂの間であり、かつ、当該一のグループ以外の他のグループの代表データ１０との類似度は第２閾値δｂより低いデータは、一のグループに含め（Ｃ２）、割合が所定値未満の場合、いずれのグループにも属さないデータを破棄する（Ｃ１）。

また、グループ化によっていずれのグループにも属さないデータのうち、あるグループの代表データ１０との類似度が第２閾値δｂより高い場合、そのグループ含めてもよい。この処理は、自動的に行われてもよいし、ユーザによるグループに含めるデータの選択を受け付けてもよい。

また、出力部は、いずれのグループにも属さないデータの量、または、いずれのグループにも属さないデータの全データに対する割合を出力する。データの量は、例えば、データ数、または、データサイズ等である。

以上説明したように、本実施形態の情報処理装置１００によれば、上記実施形態と同様な効果を奏するとともに、さらに、いずれのグループにも属さないデータがある場合に、それらのデータを適切に処理することで、各グループ内のデータの精度を向上させることができる。

つまり、本実施形態によれば、グループ化の判断に迷うデータだけの調整が可能になる。このようなデータは第１閾値δａと第２閾値δｂの間にあるデータとして取り出すことができる。このため、これらのデータだけ、閾値を越えたかどうかの絶対的な関係ではなく、調整されたグループの相対的な関係に基づいて属すべきグループを決めるといったような構成をとることができるようになる。

（第４の実施の形態）
次に、本発明の第４の実施の形態について、以下説明する。
本実施形態は、さらに、閾値を調整することでグループ内のデータの精度を向上する構成を有する点で上記実施形態と相違する。上記の第１閾値δａおよび第２閾値δｂを最初から適切な値として指定することは困難であるため、適当な値を設定した後、閾値を調整する。本実施形態は、他の実施形態の少なくとも一つと組み合わせることができる。

本実施形態では、グループ化結果に基づいて、ユーザのフィードバックを基に、閾値を再設定する。
調整方法は以下に例示されるが、これらに限定されない。また、以下は矛盾のない範囲で複数組み合わせてもよい。
（Ｄ１）あるグループから適切でないデータを除外し、第１閾値δａを調整する。
（Ｄ２）同一とみなせる複数のグループを選択して結合し、これに合わせて第２閾値δｂを調整する。
（Ｄ３）グループ毎に閾値を設定する。

以下、順に説明する。
＜Ｄ１：データ除外およびこれに伴う第１閾値δａの調整＞
図９は、本発明の実施の形態に係る情報処理装置１００の構成を論理的に示す機能ブロック図である。
情報処理装置１００は、入力部１０２と、グループ化部１０４と、受付部１２２と、調整部１２４と、制御部１３０と、を備える。入力部１０２とグループ化部１０４は、図１または図８の上記実施形態と同様である。制御部１３０は図８の上記実施形態と同様である。

受付部１２２は、グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付ける。グループ化された結果の出力方法は、上記実施形態で説明したように様々考えられるが、ここではコンピュータ８０に接続された表示装置に表示されるものとして説明する。例えば、図７のようなツリー構造とグループ名を模式的に図示して画面表示してもよいし、各グループのデータをリストで画面表示してもよい。ファイル名またはパスなどをリンクとして表示し、リンクをクリックするとデータにアクセスできてもよい。また、画像データの場合、サムネイルを表示してもよい。受付部１２２は、グループ化された結果をコンピュータ８０の表示装置に表示するとともに、コンピュータ８０の操作部（不図示）を用いたユーザ操作により選択された少なくとも一つの除外対象のデータを受け付ける。

また、除外対象としてユーザが選択したデータを代表データ１０と比較できるように並べて提示し、ユーザに本当に除外してもよいか否かを問い合わせるメッセージを表示し、ユーザによる確認またはキャンセル操作を受け付ける構成としてよい。また、グループから除外するデータの選択でもよいし、グループから除外しないデータの選択をユーザ操作により受け付けてもよい。

調整部１２４は、除外されるデータと、当該データが属していた第１グループの代表データ１０との類似度に基づいて、第１閾値δａを調整する。グループ化部１０４は、受付部１２２が受け付けた除外対象のデータをグループから除外する。なお、グループ化部１０４は、調整部１２４により調整された第１閾値δａを用いて、処理対象データ全体に対して再グループ化処理を行ってもよい。

調整部１２４は、除外されるデータと代表データ１０との類似度より高い値に第１閾値δａを変更する。図１０（ａ）は、除外前のグループ１のデータ分布を模式的に示している。丸は代表データ１０、×印はグループ１のデータ、△はグループ１以外のデータを示している。図１０（ｂ）は、データ４４がユーザ操作により除外されたときのグループ１のデータ分布を模式的に示している。グループ１の代表データ１０とデータ４４の類似度がδ１であった場合、調整前の第１閾値δａ＜δ１である。

ここで、データ４４がグループ１から除外されると、調整部１２４は、第１閾値δａ′＞δ１となるように第１閾値δａを調整する。図１０（ｂ）では、調整前の第１閾値δａは破線で示されていて、調整後の第１閾値δａ′は一点鎖線で示されている。

複数の除外データがある場合、調整部１２４における調整方法は、以下に例示されるがこれらに限定されない。
（Ｅ１）複数の除外データのそれぞれと代表データ１０との類似度のうち最も高い類似度に所定値を加算した値とする。
（Ｅ２）複数の除外データのそれぞれと代表データ１０との類似度の平均値に所定値を加算した値とする。
（Ｅ３）複数の除外データのうち、代表データ１０との類似度が最高と最低のもの除いて、上記（Ｅ１）または上記（Ｅ２）で調整する。

また、受付部１２２は、あるグループに含まれていなかったデータをあるグループに追加する操作を受け付けてもよい。この場合、調整部１２４は、追加データと代表データ１０との類似度より低い値に第１閾値δａを調整してもよい。このとき、第２閾値δｂ＜第１閾値δａとなるように各閾値を調整する。

グループ化部１０４は、調整部１２４により調整された閾値を用いて処理対象データ全体に対して再度グループ化を行ってもよい。

＜Ｄ２：グループ結合およびこれに伴う第２閾値δｂの調整＞
受付部１２２は、グループ化された結果を出力するとともに、同じグループに属するとみなす複数のグループを選択する操作を受け付ける。
すると、グループ化部１０４は、受付部１２２により受け付けた複数のグループを一つのグループにまとめる。また、調整部１２４は、選択された複数のグループの代表データ１０同士の類似度に基づいて、第２閾値δｂを調整する。具体的には、調整部１２４は、受付部１２２が受け付けた複数のグループの代表データ１０同士の類似度より低い値に第２閾値δｂを調整する。調整部１２４は、さらに、第１閾値δａを調整してもよい。

グループ化部１０４は、調整部１２４により調整された閾値を用いて、処理対象データ全体に対して再度グループ化処理を行ってもよい。

図１１を用いて、２つのグループ１とグループ２を同じグループに結合する場合について説明する。図１１（ａ）は、結合前のデータ分布を示している。グループ１の代表データ１０とグループ２の代表データ１２の類似度がδ２であったとする。

調整部１２４は、グループ１の第２閾値δｂを類似度δ２より低い値δｂ′に調整する。図１１（ｂ）に示すように、グループ２の代表データ１２であったデータがグループ１の第２閾値δｂの範囲の内側に入っている。

ここでは、第２閾値δｂを調整する例を示しているが、第１閾値δａを調整してもよい。つまり、第１閾値δａを類似度δ２より低い値に調整してもよい。第１閾値δａと第２閾値δｂのどちらを調整するかはユーザにより選択されてもよいし、予め定められていてもよい。

＜Ｄ３：グループ毎に設定＞
受付部１２２は、グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各グループの第１閾値δａまたは第２閾値δｂを変更する操作を受け付ける。受付部１２２は、受け付けた閾値を、グループ毎にコンピュータ８０のメモリ８４またはストレージ８５あるいは、記憶装置１１０に記憶する。

調整部１２４は、選択されたグループの第１閾値δａまたは第２閾値δｂをユーザ操作に従い変更する。グループ化部１０４は、調整部１２４により変更された第１閾値δａおよび第２閾値δｂを用いてグループ化を行う。

上記（Ｄ１）および上記（Ｄ２）の方法では、全てのグループで同じ閾値を用いてグループ化を行っていたが、（Ｄ３）の方法では、グループ毎に異なる閾値が設定可能である。ここでは、個別にユーザ操作により閾値を設定する方法について説明しているが、上記（Ｄ１）および上記（Ｄ２）の方法で設定された閾値を当該グループ毎に用いる構成とすることもできる。すなわち、調整部１２４は上記（Ｄ１）および上記（Ｄ２）の方法で設定された閾値を当該グループ毎にコンピュータ８０のメモリ８４またはストレージ８５あるいは、記憶装置１１０に記憶し、グループ化部１０４はグループ毎に設定された閾値を用いてグループ化を行えばよい。

以上説明したように、本実施形態の情報処理装置１００によれば、上記実施形態と同様な効果を奏するとともに、閾値を適切な値に調整できるので、グループ内のデータの精度を向上できる。また、必ずグループに属するとみなすための第１閾値δａおよびグループに属する可能性があるとみなすための第２閾値δｂの２つの閾値を独立して調整できるので、グループ化の結果の質を向上させることができる。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
たとえば、上記実施形態では、第１閾値δａと第２閾値δｂの２つの閾値を用いる例を説明したが、例えば、基準閾値δ０と、基準閾値δ０からの幅ｄであってもよい。基準閾値δ０は、上限、中央、下限のいずれかの値とすることができる。つまり、グループ内とグループ外の境界は、線ではなく所定の幅を有する帯状で示すことができる。

さらに、他の実施形態において、グループ化を行った後に新たにデータが追加された場合に、代表データ１０を他のデータに替えるユーザ操作を受け付ける構成を有してもよい。例えば、処理対象のデータ群のツリー構造が変更になった場合、新たに設定されたリンク間の閾値に基づいて、代表データ１０を選択し、再度グループ化を行ってもよい。

以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
なお、本発明において利用者に関する情報を取得、利用する場合は、これを適法に行うものとする。

上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
１．複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力する入力手段と、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化するグループ化手段と、を備え、
前記グループ化手段は、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択する、情報処理装置。
２．１．に記載の情報処理装置において、
前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付ける除外データ受付手段と、
前記除外されるデータと、当該データが属していた第１グループの前記代表データとの前記類似度に基づいて、前記第１の閾値を調整する調整手段と、をさらに備え、
前記グループ化手段は、前記除外データ受付手段が受け付けたデータを前記グループから除外する、情報処理装置。
３．１．または２．に記載の情報処理装置において、
前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付ける選択受付手段と、
選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第２の閾値を調整する調整手段と、をさらに備え、
前記グループ化手段は、前記選択受付手段により受け付けた複数のグループを一つのグループにまとめる、情報処理装置。
４．１．から３．いずれか１つに記載の情報処理装置において、
前記グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各前記グループの前記第１の閾値または前記第２の閾値を変更する操作を受け付ける変更受付手段と、
前記操作に基づいて、選択された前記グループの前記第１の閾値または前記第２の閾値を変更する調整手段と、をさらに備え、
前記グループ化手段は、前記調整手段により変更された前記第１の閾値および前記第２の閾値を用いてグループ化を行う、情報処理装置。
５．１．から４．いずれか１つに記載の情報処理装置において、
前記グループ化手段は、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含める、情報処理装置。
６．１．から５．いずれか１つに記載の情報処理装置において、
前記グループ化手段は、
グループ化によっていずれのグループにも属さないデータを破棄する、情報処理装置。
７．１．から６．いずれか１つに記載の情報処理装置において、
いずれの前記グループにも属さないデータの全データに対する割合に応じて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めるか、
前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化手段に処理させる制御手段をさらに備え、
前記制御手段は、前記グループ化手段に、
前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めさせ、
前記割合が前記所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる、情報処理装置。
８．１．から７．いずれか１つに記載の情報処理装置において、
複数の前記データ間の類似度に基づく階層ツリー構造で前記複数のデータが管理され、
前記階層ツリー構造において、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値が設定されており、前記類似度が、設定されている閾値より高いデータがその上位ノードの下位に位置し、
前記グループ化手段は、前記階層ツリー構造の上位から下位に向かってたどり、設定された閾値が前記第１の閾値より高いリンクを有するノードのデータを前記代表データとする、情報処理装置。

９．情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力し、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択する、情報処理方法。
１０．９．に記載の情報処理方法において、
前記情報処理装置が、さらに、
前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付け、
前記操作により前記除外されるデータと、当該データが属していた第１グループの前記代表データとの前記類似度に基づいて、前記第１の閾値を調整し、
前記操作により除外対象として受け付けたデータを前記グループから除外する、情報処理方法。
１１．９．または１０．に記載の情報処理方法において、
前記情報処理装置が、さらに、
前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付け、
前記操作により選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第２の閾値を調整し、
前記操作により選択された複数のグループを一つのグループにまとめる、情報処理方法。
１２．９．から１１．いずれか１つに記載の情報処理方法において、
前記情報処理装置が、さらに、
前記グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各前記グループの前記第１の閾値または前記第２の閾値を変更する操作を受け付け、
前記操作に基づいて、選択された前記グループの前記第１の閾値または前記第２の閾値を変更し、
変更された前記第１の閾値および前記第２の閾値を用いてグループ化を行う、情報処理方法。
１３．９．から１２．いずれか１つに記載の情報処理方法において、
前記情報処理装置が、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めるようにグループ化を行う、情報処理方法。
１４．９．から１３．いずれか１つに記載の情報処理方法において、
前記情報処理装置が、
グループ化によっていずれのグループにも属さないデータを破棄する、情報処理方法。
１５．９．から１４．いずれか１つに記載の情報処理方法において、
前記情報処理装置が、さらに、
いずれの前記グループにも属さないデータの全データに対する割合に応じて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めるか、
前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化を行い、
前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めるようにグループ化を行い、
前記割合が前記所定値未満の場合、前記いずれのグループにも属さないデータを破棄する、情報処理方法。
１６．９．から１５．いずれか１つに記載の情報処理方法において、
前記情報処理装置が、
複数の前記データ間の類似度に基づく階層ツリー構造で前記複数のデータを管理し、
前記階層ツリー構造において、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値が設定されており、前記類似度が、設定されている閾値より高いデータがその上位ノードの下位に位置し、
前記グループ化を行う際、前記階層ツリー構造の上位から下位に向かってたどり、設定された閾値が前記第１の閾値より高いリンクを有するノードのデータを前記代表データとする、情報処理方法。

１７．コンピュータに、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力する手順、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化する手順、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含める手順、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択する手順、を実行させるためのプログラム。
１８．１７．に記載のプログラムにおいて、
前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付ける手順、
前記操作により前記除外されるデータと、当該データが属していた第１グループの前記代表データとの前記類似度に基づいて、前記第１の閾値を調整する手順、
前記操作により除外対象として受け付けたデータを前記グループから除外する手順、をさらにコンピュータに実行させるためのプログラム。
１９．１７．または１８．に記載のプログラムにおいて、
前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付ける手順、
前記操作により選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第２の閾値を調整する手順、
前記操作により選択された複数のグループを一つのグループにまとめる手順、をさらにコンピュータに実行させるためのプログラム。
２０．１７．から１９．いずれか１つに記載のプログラムにおいて、
前記グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各前記グループの前記第１の閾値または前記第２の閾値を変更する操作を受け付ける手順、
前記操作に基づいて、選択された前記グループの前記第１の閾値または前記第２の閾値を変更する手順、
変更された前記第１の閾値および前記第２の閾値を用いてグループ化を行う手順、をさらにコンピュータに実行させるためのプログラム。
２１．１７．から２０．いずれか１つに記載のプログラムにおいて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めるようにグループ化を行う手順、をさらにコンピュータに実行させるためのプログラム。
２２．１７．から２１．いずれか１つに記載のプログラムにおいて、
グループ化によっていずれのグループにも属さないデータを破棄する手順、をさらにコンピュータに実行させるためのプログラム。
２３．１７．から２２．いずれか１つに記載のプログラムにおいて、
いずれの前記グループにも属さないデータの全データに対する割合に応じて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めるか、
前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化する手順、
前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めさせるようにグループ化を行う手順、
前記割合が前記所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる手順、をさらにコンピュータに実行させるためのプログラム。
２４．１７．から２３．いずれか１つに記載のプログラムにおいて、
複数の前記データ間の類似度に基づく階層ツリー構造で前記複数のデータが管理する手順、をさらにコンピュータに実行させ、
前記階層ツリー構造において、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値が設定されており、前記類似度が、設定されている閾値より高いデータがその上位ノードの下位に位置し、
前記階層ツリー構造の上位から下位に向かってたどり、設定された閾値が前記第１の閾値より高いリンクを有するノードのデータを前記代表データとする手順、をさらにコンピュータに実行させるためのプログラム。

この出願は、２０１７年７月７日に出願された日本出願特願２０１７−１３３６７７号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力する入力手段と、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化するグループ化手段と、を備え、
前記グループ化手段は、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択し、
前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付ける選択受付手段と、
選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第２の閾値を調整する調整手段と、をさらに備え、
前記グループ化手段は、前記選択受付手段により受け付けた複数のグループを一つのグループにまとめる、情報処理装置。
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力する入力手段と、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化するグループ化手段と、を備え、
前記グループ化手段は、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択し、
いずれの前記グループにも属さないデータの全データに対する割合に応じて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めるか、
前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化手段に処理させる制御手段をさらに備え、
前記制御手段は、前記グループ化手段に、
前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めさせ、
前記割合が所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる、情報処理装置。
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力する入力手段と、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化するグループ化手段と、を備え、
前記グループ化手段は、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択し、
前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付ける除外データ受付手段と、
前記除外されるデータと、当該データが属していた第１グループの前記代表データとの前記類似度に基づいて、前記第１の閾値を調整する調整手段と、をさらに備え、
前記グループ化手段は、前記除外データ受付手段が受け付けたデータを前記グループから除外し、
前記調整手段は、以下の（１）〜（３）のいずれか一つの方法で、前記第１の閾値を調整する、情報処理装置。
（１）前記第１の閾値を、前記除外データ受付手段により受け付けた複数の除外データのそれぞれと前記代表データとの前記類似度のうち最も高い類似度に所定値を加算した値とする。
（２）前記第１の閾値を、前記複数の除外データのそれぞれと前記代表データとの前記類似度の平均値に所定値を加算した値とする。
（３）前記複数の除外データのうち、前記代表データとの前記類似度が最高と最低のものを除いて、上記（１）または上記（２）で、前記第１の閾値を調整する。
請求項１から３いずれか１項に記載の情報処理装置において、
前記グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各前記グループの前記第１の閾値または前記第２の閾値を変更する操作を受け付ける変更受付手段と、
前記操作に基づいて、選択された前記グループの前記第１の閾値または前記第２の閾値を変更する調整手段と、をさらに備え、
前記グループ化手段は、前記調整手段により変更された前記第１の閾値および前記第２の閾値を用いてグループ化を行う、情報処理装置。
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力する入力手段と、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化するグループ化手段と、を備え、
前記グループ化手段は、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択し、
前記グループ化手段は、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含める、情報処理装置。
請求項１から５いずれか１項に記載の情報処理装置において、
複数の前記データ間の類似度に基づく階層ツリー構造で前記複数のデータが管理され、
前記階層ツリー構造において、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値が設定されており、前記類似度が、設定されている閾値より高いデータがその上位ノードの下位に位置し、
前記グループ化手段は、前記階層ツリー構造の上位から下位に向かってたどり、設定された閾値が前記第１の閾値より高いリンクを有するノードのデータを前記代表データとする、情報処理装置。
情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力し、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択し、
前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付け、
選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第２の閾値を調整し、
前記グループ化を行う際、前記選択する操作により受け付けた複数のグループを一つのグループにまとめる、情報処理方法。
情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力し、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択し、
いずれの前記グループにも属さないデータの全データに対する割合に応じて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めるか、
前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化させ、
前記グループ化する際に、
前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めさせ、
前記割合が所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる、情報処理方法。
情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力し、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択し、
前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付け、
前記除外されるデータと、当該データが属していた第１グループの前記代表データとの前記類似度に基づいて、前記第１の閾値を調整し、
前記グループ化する際に、前記除外する操作により受け付けたデータを前記グループから除外し、
以下の（１）〜（３）のいずれか一つの方法で、前記第１の閾値を調整する、情報処理方法。
（１）前記第１の閾値を、前記除外する操作により受け付けた複数の除外データのそれぞれと前記代表データとの前記類似度のうち最も高い類似度に所定値を加算した値とする。
（２）前記第１の閾値を、前記複数の除外データのそれぞれと前記代表データとの前記類似度の平均値に所定値を加算した値とする。
（３）前記複数の除外データのうち、前記代表データとの前記類似度が最高と最低のものを除いて、上記（１）または上記（２）で、前記第１の閾値を調整する。
情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力し、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択し、
前記グループ化する際に、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含める、情報処理方法。
コンピュータに、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力する手順、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化する手順、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含める手順、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択する手順、
前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付ける手順、
選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第２の閾値を調整する手順、
前記グループ化する手順において、前記選択する操作を受け付ける手順により受け付けた複数のグループを一つのグループにまとめる手順、を実行させるためのプログラム。
コンピュータに、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力する手順、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化する手順、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含める手順、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択する手順、
いずれの前記グループにも属さないデータの全データに対する割合に応じて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めるか、
前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化する手順において処理させる手順、を実行させ、
前記処理させる手順は、前記グループ化する手順において、
前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含めさせ、
前記割合が所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる手順、を実行させるためのプログラム。
コンピュータに、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力する手順、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化する手順、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含める手順、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択する手順、
前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付ける手順、
前記除外されるデータと、当該データが属していた第１グループの前記代表データとの前記類似度に基づいて、前記第１の閾値を調整する手順、
前記グループ化する手順において、前記除外する操作を受け付ける手順において受け付けたデータを前記グループから除外し、
前記調整する手順において、以下の（１）〜（３）のいずれか一つの方法で、前記第１の閾値を調整する手順、を実行させるためのプログラム。
（１）前記第１の閾値を、前記除外する操作を受け付ける手順により受け付けた複数の除外データのそれぞれと前記代表データとの前記類似度のうち最も高い類似度に所定値を加算した値とする。
（２）前記第１の閾値を、前記複数の除外データのそれぞれと前記代表データとの前記類似度の平均値に所定値を加算した値とする。
（３）前記複数の除外データのうち、前記代表データとの前記類似度が最高と最低のものを除いて、上記（１）または上記（２）で、前記第１の閾値を調整する。
コンピュータに、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第１の閾値と、前記第１の閾値より低い値を示す第２の閾値とを入力する手順、
前記類似度、前記第１の閾値、および前記第２の閾値を用いて前記データをグループ化する手順、
代表データとの前記類似度が前記第１の閾値より高いデータを同じグループに含める手順、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第２の閾値より低いデータの中から選択する手順、
前記グループ化する手順において、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第１の閾値と前記第２の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第２の閾値より低いデータは、前記一のグループに含める手順、を実行させるためのプログラム。