JP6958618B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP6958618B2 JP6958618B2 JP2019528410A JP2019528410A JP6958618B2 JP 6958618 B2 JP6958618 B2 JP 6958618B2 JP 2019528410 A JP2019528410 A JP 2019528410A JP 2019528410 A JP2019528410 A JP 2019528410A JP 6958618 B2 JP6958618 B2 JP 6958618B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- threshold value
- similarity
- group
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/282—Hierarchical databases, e.g. IMS, LDAP data stores or Lotus Notes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
Description
第一の側面に係る第1の情報処理装置は、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する入力手段と、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化するグループ化手段と、を有し、
前記グループ化手段は、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択し、
前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付ける選択受付手段と、
選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第2の閾値を調整する調整手段と、をさらに備え、
前記グループ化手段は、前記選択受付手段により受け付けた複数のグループを一つのグループにまとめる。
第一の側面に係る第2の情報処理装置は、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する入力手段と、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化するグループ化手段と、を有し、
前記グループ化手段は、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択し、
いずれの前記グループにも属さないデータの全データに対する割合に応じて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるか、
前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化手段に処理させる制御手段をさらに備え、
前記制御手段は、前記グループ化手段に、
前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めさせ、
前記割合が所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる。
第一の側面に係る第3の情報処理装置は、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する入力手段と、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化するグループ化手段と、を有し、
前記グループ化手段は、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択し、
前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付ける除外データ受付手段と、
前記除外されるデータと、当該データが属していた第1グループの前記代表データとの前記類似度に基づいて、前記第1の閾値を調整する調整手段と、をさらに備え、
前記グループ化手段は、前記除外データ受付手段が受け付けたデータを前記グループから除外し、
前記調整手段は、以下の(1)〜(3)のいずれか一つの方法で、前記第1の閾値を調整する、情報処理装置。
(1)前記第1の閾値を、前記除外データ受付手段により受け付けた複数の除外データのそれぞれと前記代表データとの前記類似度のうち最も高い類似度に所定値を加算した値とする。
(2)前記第1の閾値を、前記複数の除外データのそれぞれと前記代表データとの前記類似度の平均値に所定値を加算した値とする。
(3)前記複数の除外データのうち、前記代表データとの前記類似度が最高と最低のものを除いて、上記(1)または上記(2)で、前記第1の閾値を調整する。
第一の側面に係る第4の情報処理装置は、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する入力手段と、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化するグループ化手段と、を有し、
前記グループ化手段は、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択し、
前記グループ化手段は、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含める。
第二の側面に係る第1の情報処理方法は、
情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなす第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力し、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択し、
前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付け、
選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第2の閾値を調整し、
前記グループ化を行う際、前記選択する操作により受け付けた複数のグループを一つのグループにまとめる、ことを含む。
第二の側面に係る第2の情報処理方法は、
情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなす第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力し、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択し、
いずれの前記グループにも属さないデータの全データに対する割合に応じて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるか、
前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化させ、
前記グループ化する際に、
前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めさせ、
前記割合が所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる、ことを含む。
第二の側面に係る第3の情報処理方法は、
情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなす第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力し、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択すし、
前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付け、
前記除外されるデータと、当該データが属していた第1グループの前記代表データとの前記類似度に基づいて、前記第1の閾値を調整し、
前記グループ化する際に、前記除外する操作により受け付けたデータを前記グループから除外し、
以下の(1)〜(3)のいずれか一つの方法で、前記第1の閾値を調整する、ことを含む。
(1)前記第1の閾値を、前記除外する操作により受け付けた複数の除外データのそれぞれと前記代表データとの前記類似度のうち最も高い類似度に所定値を加算した値とする。
(2)前記第1の閾値を、前記複数の除外データのそれぞれと前記代表データとの前記類似度の平均値に所定値を加算した値とする。
(3)前記複数の除外データのうち、前記代表データとの前記類似度が最高と最低のものを除いて、上記(1)または上記(2)で、前記第1の閾値を調整する。
第二の側面に係る第4の情報処理方法は、
情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなす第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力し、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択し、
前記グループ化する際に、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含める、ことを含む。
このコンピュータプログラムは、コンピュータにより実行されたとき、コンピュータに、情報処理装置上で、その情報処理方法を実施させるコンピュータプログラムコードを含む。
本発明の第1の実施の形態について、以下説明する。
図1は、本発明の実施の形態に係る情報処理装置100の構成を論理的に示す機能ブロック図である。
本実施形態の情報処理装置100は、入力部102と、グループ化部104とを備えている。
図2は、本実施形態の情報処理装置100を実現するコンピュータ80の構成の一例を示す図である。
コンピュータ80は、CPU(Central Processing Unit)82、メモリ84、メモリ84にロードされた図1の構成要素を実現するプログラム90、そのプログラム90を格納するストレージ85、I/O(Input/Output)86、およびネットワーク接続用インタフェース(通信I/F87)を備える。
なお、各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
グループ化部104は、複数のデータ間の類似度、第1閾値δa、および第2閾値δbを用いてデータをグループ化する。具体的には、グループ化部104は、代表データとの類似度が第1閾値δaより高いデータを同じグループに含め、新たな代表データを、既に存在している代表データとの類似度が第2閾値δbより低いデータの中から選択する。ここで、新たな代表データとは、既に存在している代表データのグループとは別のグループの代表となるデータである。
(A1)設定ファイルやプログラムから読み出して入力する。
(A2)コンピュータ80に接続される入力装置(キーボード、マウス、タッチパネル等)を用いたユーザ操作により受け付けた値を入力する。この場合、閾値設定用の画面にGUI(Graphical User Interface)を設け、ユーザ操作を受け付ける。
(A3)通信網を介して受信した値を入力する。
上記したように、類似度自身が誤差を含む場合において、図3(a)は1つの閾値を用いたグループ化の例を示し、図3(b)は2つの閾値を用いたグループ化の例を示す。
図3(a)に示すように、中心にある点をグループの代表となる代表データ10とし、類似閾値δqの範囲の領域20をそのグループに属するデータとする。代表データ10以外のデータは、×印で示してある。しかし、類似度自身が誤差を含むため、真にそのグループの代表データ10と同じグループに属するべきデータの分布30(図中、破線で示される)は、その類似閾値δqによって描かれる領域20と必ずしも一致しない。
対象データ記憶部112は、情報処理装置100がグループ化処理を行う対象となるデータを記憶する。対象データ記憶部112には、データそのものが記憶されていてもよいし、あるいは、対象データ記憶部112にはデータの格納場所を示すパス名(ファイル名を含む)とその特徴量情報を記憶してもよい。また、対象データ記憶部112は、データの特徴量同士を比較して求めた類似度を記憶してもよい。
図4は、本実施形態の情報処理装置100の動作の一例を示すフローチャートである。
本実施形態の情報処理装置100が、第1閾値δaと、第2閾値δbとを入力し(ステップS101)、類似度、第1閾値δa、および第2閾値δbを用いてデータをグループ化する。その際、情報処理装置100は、代表データとの類似度が第1閾値δaより高いデータを(ステップS105のYES)同じグループに含め(ステップS107)、新たな代表データを、既に存在している代表データとの類似度が第2閾値δbより低いデータ(ステップS109のYES)の中から選択する(ステップS111)。つまり、類似度が第2閾値δbより低いデータの中から選択する。ここで、最初の代表データ10の選択方法は、特に限定されず、条件なしで任意のデータを選択できる。また、ユーザ操作により選択できてもよい。
(B1)コンピュータ80に接続される表示装置に画面表示する。
(B2)コンピュータ80に接続されるプリンタに印字出力する。
(B3)コンピュータ80と通信可能な装置に結果データをネットワークを介して送信する。
(B4)結果データのファイルを記憶媒体に記憶する。
本実施形態のコンピュータプログラム90は、情報処理装置100を実現させるためのコンピュータ80に、第1閾値δaと第2閾値δbと入力する手順、類似度、第1閾値δa、および第2閾値δbを用いてデータをグループ化する手順を実行させ、代表データとの類似度が第1閾値δaより高いデータを同じグループに含める手順、新たな代表データを、既に存在している代表データとの類似度が第2閾値δbより低いデータの中から選択する手順、を実行させるように記述されている。
次に、本発明の第2の実施の形態について、以下説明する。
本実施形態は、グループ化の対象となるデータ群は、図5に示すようなツリー構造で既に管理されている点以外は、上記実施形態と同様である。
図5〜図7は、本実施形態の情報処理装置100の対象データ記憶部112に記憶される処理対象データのデータ構造の例を模式的に示す図である。
まず、入力部102は、第1閾値δaと第2閾値δbの入力を予め受け付け、設定済みであるとする(ステップS101)。ここで、δ3>δa>δ2であるとする。そして、グループ化部104は、対象データ記憶部112から処理対象となるデータ(図5)にアクセスする(ステップS103)。
次に、本発明の第3の実施の形態について、以下説明する。
本実施形態では、上記実施形態のグループ化処理において、いずれのグループにも属さなかったデータの処理方法について説明する。すなわち、第1閾値δaと第2閾値δbの間に位置するデータの処理方法について説明する。
(C1)グループ化によっていずれのグループにも属さないデータを破棄する。
(C2)グループとの相対的な関係に基づいてグループ化する。
(C3)データの割合で破棄かグループに入れるかを切り替える。
<C1:データ破棄>
グループ化部104は、グループ化によっていずれのグループにも属さないデータを破棄してもよい。
この方法は、データとして映像に映った顔の特徴量など、膨大な数のデータがある一方で、映った顔の角度や光の条件などにより、同一の判定が難しい場合に有効な方法である。つまり、グループ化の結果の質を悪化させる要因となるデータを積極的に捨てることで、グループ化の結果の質を向上させることができる。
グループ化部104は、複数のグループのうち一のグループの代表データ10との類似度が第1閾値δaと第2閾値δbの間であり、かつ、当該一のグループ以外の他のグループの代表データ10との類似度は第2閾値より低いデータは、上記した一のグループに含める。つまり、このようなデータについては、複数のグループそれぞれに対する類似度の比較に基づいて、属するべきグループが選択される。
上記(C1)と上記(C2)の方法を、いずれのグループにも属さないデータの全データに対する割合に応じて切り替える。例えば、データ全体に対して捨てることになるデータの割合が所定値より小さければ上記(C1)の方法を、所定値より大きければ上記(C2)の方法を実行する。所定値はデータの種類やデータ総数に応じて適宜設定できるものとする。
情報処理装置100は、いずれのグループにも属さないデータの全データに対する割合に応じて、上記(C1)の方法と上記(C2)の方法のいずれを実行するかを決定し、グループ化部104に処理させる制御部130をさらに備える。
制御部130は、いずれのグループにも属さないデータの全データに対する割合が所定値以上の場合、複数のグループのうち一のグループの代表データ10との類似度が第1閾値δaと第2閾値δbの間であり、かつ、当該一のグループ以外の他のグループの代表データ10との類似度は第2閾値δbより低いデータは、一のグループに含め(C2)、割合が所定値未満の場合、いずれのグループにも属さないデータを破棄する(C1)。
次に、本発明の第4の実施の形態について、以下説明する。
本実施形態は、さらに、閾値を調整することでグループ内のデータの精度を向上する構成を有する点で上記実施形態と相違する。上記の第1閾値δaおよび第2閾値δbを最初から適切な値として指定することは困難であるため、適当な値を設定した後、閾値を調整する。本実施形態は、他の実施形態の少なくとも一つと組み合わせることができる。
調整方法は以下に例示されるが、これらに限定されない。また、以下は矛盾のない範囲で複数組み合わせてもよい。
(D1)あるグループから適切でないデータを除外し、第1閾値δaを調整する。
(D2)同一とみなせる複数のグループを選択して結合し、これに合わせて第2閾値δbを調整する。
(D3)グループ毎に閾値を設定する。
<D1:データ除外およびこれに伴う第1閾値δaの調整>
図9は、本発明の実施の形態に係る情報処理装置100の構成を論理的に示す機能ブロック図である。
情報処理装置100は、入力部102と、グループ化部104と、受付部122と、調整部124と、制御部130と、を備える。入力部102とグループ化部104は、図1または図8の上記実施形態と同様である。制御部130は図8の上記実施形態と同様である。
(E1)複数の除外データのそれぞれと代表データ10との類似度のうち最も高い類似度に所定値を加算した値とする。
(E2)複数の除外データのそれぞれと代表データ10との類似度の平均値に所定値を加算した値とする。
(E3)複数の除外データのうち、代表データ10との類似度が最高と最低のもの除いて、上記(E1)または上記(E2)で調整する。
受付部122は、グループ化された結果を出力するとともに、同じグループに属するとみなす複数のグループを選択する操作を受け付ける。
すると、グループ化部104は、受付部122により受け付けた複数のグループを一つのグループにまとめる。また、調整部124は、選択された複数のグループの代表データ10同士の類似度に基づいて、第2閾値δbを調整する。具体的には、調整部124は、受付部122が受け付けた複数のグループの代表データ10同士の類似度より低い値に第2閾値δbを調整する。調整部124は、さらに、第1閾値δaを調整してもよい。
受付部122は、グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各グループの第1閾値δaまたは第2閾値δbを変更する操作を受け付ける。受付部122は、受け付けた閾値を、グループ毎にコンピュータ80のメモリ84またはストレージ85あるいは、記憶装置110に記憶する。
たとえば、上記実施形態では、第1閾値δaと第2閾値δbの2つの閾値を用いる例を説明したが、例えば、基準閾値δ0と、基準閾値δ0からの幅dであってもよい。基準閾値δ0は、上限、中央、下限のいずれかの値とすることができる。つまり、グループ内とグループ外の境界は、線ではなく所定の幅を有する帯状で示すことができる。
なお、本発明において利用者に関する情報を取得、利用する場合は、これを適法に行うものとする。
1. 複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する入力手段と、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化するグループ化手段と、を備え、
前記グループ化手段は、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択する、情報処理装置。
2. 1.に記載の情報処理装置において、
前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付ける除外データ受付手段と、
前記除外されるデータと、当該データが属していた第1グループの前記代表データとの前記類似度に基づいて、前記第1の閾値を調整する調整手段と、をさらに備え、
前記グループ化手段は、前記除外データ受付手段が受け付けたデータを前記グループから除外する、情報処理装置。
3. 1.または2.に記載の情報処理装置において、
前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付ける選択受付手段と、
選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第2の閾値を調整する調整手段と、をさらに備え、
前記グループ化手段は、前記選択受付手段により受け付けた複数のグループを一つのグループにまとめる、情報処理装置。
4. 1.から3.いずれか1つに記載の情報処理装置において、
前記グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各前記グループの前記第1の閾値または前記第2の閾値を変更する操作を受け付ける変更受付手段と、
前記操作に基づいて、選択された前記グループの前記第1の閾値または前記第2の閾値を変更する調整手段と、をさらに備え、
前記グループ化手段は、前記調整手段により変更された前記第1の閾値および前記第2の閾値を用いてグループ化を行う、情報処理装置。
5. 1.から4.いずれか1つに記載の情報処理装置において、
前記グループ化手段は、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含める、情報処理装置。
6. 1.から5.いずれか1つに記載の情報処理装置において、
前記グループ化手段は、
グループ化によっていずれのグループにも属さないデータを破棄する、情報処理装置。
7. 1.から6.いずれか1つに記載の情報処理装置において、
いずれの前記グループにも属さないデータの全データに対する割合に応じて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるか、
前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化手段に処理させる制御手段をさらに備え、
前記制御手段は、前記グループ化手段に、
前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めさせ、
前記割合が前記所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる、情報処理装置。
8. 1.から7.いずれか1つに記載の情報処理装置において、
複数の前記データ間の類似度に基づく階層ツリー構造で前記複数のデータが管理され、
前記階層ツリー構造において、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値が設定されており、前記類似度が、設定されている閾値より高いデータがその上位ノードの下位に位置し、
前記グループ化手段は、前記階層ツリー構造の上位から下位に向かってたどり、設定された閾値が前記第1の閾値より高いリンクを有するノードのデータを前記代表データとする、情報処理装置。
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力し、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択する、情報処理方法。
10. 9.に記載の情報処理方法において、
前記情報処理装置が、さらに、
前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付け、
前記操作により前記除外されるデータと、当該データが属していた第1グループの前記代表データとの前記類似度に基づいて、前記第1の閾値を調整し、
前記操作により除外対象として受け付けたデータを前記グループから除外する、情報処理方法。
11. 9.または10.に記載の情報処理方法において、
前記情報処理装置が、さらに、
前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付け、
前記操作により選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第2の閾値を調整し、
前記操作により選択された複数のグループを一つのグループにまとめる、情報処理方法。
12. 9.から11.いずれか1つに記載の情報処理方法において、
前記情報処理装置が、さらに、
前記グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各前記グループの前記第1の閾値または前記第2の閾値を変更する操作を受け付け、
前記操作に基づいて、選択された前記グループの前記第1の閾値または前記第2の閾値を変更し、
変更された前記第1の閾値および前記第2の閾値を用いてグループ化を行う、情報処理方法。
13. 9.から12.いずれか1つに記載の情報処理方法において、
前記情報処理装置が、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるようにグループ化を行う、情報処理方法。
14. 9.から13.いずれか1つに記載の情報処理方法において、
前記情報処理装置が、
グループ化によっていずれのグループにも属さないデータを破棄する、情報処理方法。
15. 9.から14.いずれか1つに記載の情報処理方法において、
前記情報処理装置が、さらに、
いずれの前記グループにも属さないデータの全データに対する割合に応じて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるか、
前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化を行い、
前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるようにグループ化を行い、
前記割合が前記所定値未満の場合、前記いずれのグループにも属さないデータを破棄する、情報処理方法。
16. 9.から15.いずれか1つに記載の情報処理方法において、
前記情報処理装置が、
複数の前記データ間の類似度に基づく階層ツリー構造で前記複数のデータを管理し、
前記階層ツリー構造において、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値が設定されており、前記類似度が、設定されている閾値より高いデータがその上位ノードの下位に位置し、
前記グループ化を行う際、前記階層ツリー構造の上位から下位に向かってたどり、設定された閾値が前記第1の閾値より高いリンクを有するノードのデータを前記代表データとする、情報処理方法。
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する手順、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化する手順、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含める手順、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択する手順、を実行させるためのプログラム。
18. 17.に記載のプログラムにおいて、
前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付ける手順、
前記操作により前記除外されるデータと、当該データが属していた第1グループの前記代表データとの前記類似度に基づいて、前記第1の閾値を調整する手順、
前記操作により除外対象として受け付けたデータを前記グループから除外する手順、をさらにコンピュータに実行させるためのプログラム。
19. 17.または18.に記載のプログラムにおいて、
前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付ける手順、
前記操作により選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第2の閾値を調整する手順、
前記操作により選択された複数のグループを一つのグループにまとめる手順、をさらにコンピュータに実行させるためのプログラム。
20. 17.から19.いずれか1つに記載のプログラムにおいて、
前記グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各前記グループの前記第1の閾値または前記第2の閾値を変更する操作を受け付ける手順、
前記操作に基づいて、選択された前記グループの前記第1の閾値または前記第2の閾値を変更する手順、
変更された前記第1の閾値および前記第2の閾値を用いてグループ化を行う手順、をさらにコンピュータに実行させるためのプログラム。
21. 17.から20.いずれか1つに記載のプログラムにおいて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるようにグループ化を行う手順、をさらにコンピュータに実行させるためのプログラム。
22. 17.から21.いずれか1つに記載のプログラムにおいて、
グループ化によっていずれのグループにも属さないデータを破棄する手順、をさらにコンピュータに実行させるためのプログラム。
23. 17.から22.いずれか1つに記載のプログラムにおいて、
いずれの前記グループにも属さないデータの全データに対する割合に応じて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるか、
前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化する手順、
前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めさせるようにグループ化を行う手順、
前記割合が前記所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる手順、をさらにコンピュータに実行させるためのプログラム。
24. 17.から23.いずれか1つに記載のプログラムにおいて、
複数の前記データ間の類似度に基づく階層ツリー構造で前記複数のデータが管理する手順、をさらにコンピュータに実行させ、
前記階層ツリー構造において、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値が設定されており、前記類似度が、設定されている閾値より高いデータがその上位ノードの下位に位置し、
前記階層ツリー構造の上位から下位に向かってたどり、設定された閾値が前記第1の閾値より高いリンクを有するノードのデータを前記代表データとする手順、をさらにコンピュータに実行させるためのプログラム。
Claims (14)
- 複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する入力手段と、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化するグループ化手段と、を備え、
前記グループ化手段は、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択し、
前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付ける選択受付手段と、
選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第2の閾値を調整する調整手段と、をさらに備え、
前記グループ化手段は、前記選択受付手段により受け付けた複数のグループを一つのグループにまとめる、情報処理装置。 - 複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する入力手段と、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化するグループ化手段と、を備え、
前記グループ化手段は、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択し、
いずれの前記グループにも属さないデータの全データに対する割合に応じて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるか、
前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化手段に処理させる制御手段をさらに備え、
前記制御手段は、前記グループ化手段に、
前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めさせ、
前記割合が所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる、情報処理装置。 - 複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する入力手段と、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化するグループ化手段と、を備え、
前記グループ化手段は、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択し、
前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付ける除外データ受付手段と、
前記除外されるデータと、当該データが属していた第1グループの前記代表データとの前記類似度に基づいて、前記第1の閾値を調整する調整手段と、をさらに備え、
前記グループ化手段は、前記除外データ受付手段が受け付けたデータを前記グループから除外し、
前記調整手段は、以下の(1)〜(3)のいずれか一つの方法で、前記第1の閾値を調整する、情報処理装置。
(1)前記第1の閾値を、前記除外データ受付手段により受け付けた複数の除外データのそれぞれと前記代表データとの前記類似度のうち最も高い類似度に所定値を加算した値とする。
(2)前記第1の閾値を、前記複数の除外データのそれぞれと前記代表データとの前記類似度の平均値に所定値を加算した値とする。
(3)前記複数の除外データのうち、前記代表データとの前記類似度が最高と最低のものを除いて、上記(1)または上記(2)で、前記第1の閾値を調整する。 - 請求項1から3いずれか1項に記載の情報処理装置において、
前記グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各前記グループの前記第1の閾値または前記第2の閾値を変更する操作を受け付ける変更受付手段と、
前記操作に基づいて、選択された前記グループの前記第1の閾値または前記第2の閾値を変更する調整手段と、をさらに備え、
前記グループ化手段は、前記調整手段により変更された前記第1の閾値および前記第2の閾値を用いてグループ化を行う、情報処理装置。 - 複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する入力手段と、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化するグループ化手段と、を備え、
前記グループ化手段は、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択し、
前記グループ化手段は、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含める、情報処理装置。 - 請求項1から5いずれか1項に記載の情報処理装置において、
複数の前記データ間の類似度に基づく階層ツリー構造で前記複数のデータが管理され、
前記階層ツリー構造において、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値が設定されており、前記類似度が、設定されている閾値より高いデータがその上位ノードの下位に位置し、
前記グループ化手段は、前記階層ツリー構造の上位から下位に向かってたどり、設定された閾値が前記第1の閾値より高いリンクを有するノードのデータを前記代表データとする、情報処理装置。 - 情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力し、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択し、
前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付け、
選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第2の閾値を調整し、
前記グループ化を行う際、前記選択する操作により受け付けた複数のグループを一つのグループにまとめる、情報処理方法。 - 情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力し、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択し、
いずれの前記グループにも属さないデータの全データに対する割合に応じて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるか、
前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化させ、
前記グループ化する際に、
前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めさせ、
前記割合が所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる、情報処理方法。 - 情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力し、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択し、
前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付け、
前記除外されるデータと、当該データが属していた第1グループの前記代表データとの前記類似度に基づいて、前記第1の閾値を調整し、
前記グループ化する際に、前記除外する操作により受け付けたデータを前記グループから除外し、
以下の(1)〜(3)のいずれか一つの方法で、前記第1の閾値を調整する、情報処理方法。
(1)前記第1の閾値を、前記除外する操作により受け付けた複数の除外データのそれぞれと前記代表データとの前記類似度のうち最も高い類似度に所定値を加算した値とする。
(2)前記第1の閾値を、前記複数の除外データのそれぞれと前記代表データとの前記類似度の平均値に所定値を加算した値とする。
(3)前記複数の除外データのうち、前記代表データとの前記類似度が最高と最低のものを除いて、上記(1)または上記(2)で、前記第1の閾値を調整する。 - 情報処理装置が、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力し、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化し、
前記グループ化を行う際、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択し、
前記グループ化する際に、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含める、情報処理方法。 - コンピュータに、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する手順、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化する手順、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含める手順、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択する手順、
前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付ける手順、
選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第2の閾値を調整する手順、
前記グループ化する手順において、前記選択する操作を受け付ける手順により受け付けた複数のグループを一つのグループにまとめる手順、を実行させるためのプログラム。 - コンピュータに、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する手順、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化する手順、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含める手順、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択する手順、
いずれの前記グループにも属さないデータの全データに対する割合に応じて、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるか、
前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化する手順において処理させる手順、を実行させ、
前記処理させる手順は、前記グループ化する手順において、
前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めさせ、
前記割合が所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる手順、を実行させるためのプログラム。 - コンピュータに、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する手順、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化する手順、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含める手順、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択する手順、
前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付ける手順、
前記除外されるデータと、当該データが属していた第1グループの前記代表データとの前記類似度に基づいて、前記第1の閾値を調整する手順、
前記グループ化する手順において、前記除外する操作を受け付ける手順において受け付けたデータを前記グループから除外し、
前記調整する手順において、以下の(1)〜(3)のいずれか一つの方法で、前記第1の閾値を調整する手順、を実行させるためのプログラム。
(1)前記第1の閾値を、前記除外する操作を受け付ける手順により受け付けた複数の除外データのそれぞれと前記代表データとの前記類似度のうち最も高い類似度に所定値を加算した値とする。
(2)前記第1の閾値を、前記複数の除外データのそれぞれと前記代表データとの前記類似度の平均値に所定値を加算した値とする。
(3)前記複数の除外データのうち、前記代表データとの前記類似度が最高と最低のものを除いて、上記(1)または上記(2)で、前記第1の閾値を調整する。 - コンピュータに、
複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する手順、
前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化する手順、
代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含める手順、
新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択する手順、
前記グループ化する手順において、
複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含める手順、を実行させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017133677 | 2017-07-07 | ||
JP2017133677 | 2017-07-07 | ||
PCT/JP2018/021027 WO2019008961A1 (ja) | 2017-07-07 | 2018-05-31 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019008961A1 JPWO2019008961A1 (ja) | 2020-06-25 |
JP6958618B2 true JP6958618B2 (ja) | 2021-11-02 |
Family
ID=64949987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019528410A Active JP6958618B2 (ja) | 2017-07-07 | 2018-05-31 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11663184B2 (ja) |
JP (1) | JP6958618B2 (ja) |
WO (1) | WO2019008961A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210263903A1 (en) * | 2019-04-30 | 2021-08-26 | Amperity, Inc. | Multi-level conflict-free entity clusters |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021187776A1 (en) * | 2020-03-17 | 2021-09-23 | Samsung Electronics Co., Ltd. | Methods and systems for grouping of media based on similarities between features of the media |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07105239A (ja) | 1993-09-30 | 1995-04-21 | Omron Corp | データ・ベース管理方法およびデータ・ベース検索方法 |
JP2000112988A (ja) | 1998-10-05 | 2000-04-21 | Canon Inc | 情報検索装置と情報検索方法、及び記憶媒体 |
US6798911B1 (en) * | 2001-03-28 | 2004-09-28 | At&T Corp. | Method and system for fuzzy clustering of images |
US7409404B2 (en) * | 2002-07-25 | 2008-08-05 | International Business Machines Corporation | Creating taxonomies and training data for document categorization |
US7298895B2 (en) * | 2003-04-15 | 2007-11-20 | Eastman Kodak Company | Method for automatically classifying images into events |
JP2007058562A (ja) * | 2005-08-24 | 2007-03-08 | Sharp Corp | コンテンツ分類装置、コンテンツ分類方法、コンテンツ分類プログラムおよび記録媒体 |
JP4709723B2 (ja) * | 2006-10-27 | 2011-06-22 | 株式会社東芝 | 姿勢推定装置及びその方法 |
US9317110B2 (en) * | 2007-05-29 | 2016-04-19 | Cfph, Llc | Game with hand motion control |
US8893131B2 (en) * | 2008-04-11 | 2014-11-18 | Yahoo! Inc. | System and/or method for bulk loading of records into an ordered distributed database |
US8995758B1 (en) * | 2008-06-20 | 2015-03-31 | Google Inc. | Classifying false positive descriptors |
US20110050723A1 (en) * | 2009-09-03 | 2011-03-03 | Sony Corporation | Image processing apparatus and method, and program |
JP5075924B2 (ja) * | 2010-01-13 | 2012-11-21 | 株式会社日立製作所 | 識別器学習画像生成プログラム、方法、及びシステム |
JP5549418B2 (ja) | 2010-06-25 | 2014-07-16 | オムロン株式会社 | 情報処理装置および方法、並びにプログラム |
CN102750289B (zh) * | 2011-04-19 | 2015-08-05 | 富士通株式会社 | 基于标签组对数据进行混合的方法和设备 |
US8458195B1 (en) * | 2012-01-31 | 2013-06-04 | Google Inc. | System and method for determining similar users |
JP3178978U (ja) * | 2012-07-27 | 2012-10-11 | 株式会社スクロール360 | システム及びサーバ装置 |
JP6131723B2 (ja) * | 2012-11-26 | 2017-05-24 | 株式会社リコー | 情報処理装置、情報処理方法、プログラムおよび記録媒体 |
US9424279B2 (en) * | 2012-12-06 | 2016-08-23 | Google Inc. | Presenting image search results |
JP6280382B2 (ja) * | 2013-03-08 | 2018-02-14 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
US9594791B2 (en) * | 2013-03-15 | 2017-03-14 | Factual Inc. | Apparatus, systems, and methods for analyzing movements of target entities |
JP2015184760A (ja) * | 2014-03-20 | 2015-10-22 | 株式会社ニコン | 電子機器及び類似性判定用プログラム |
WO2016006090A1 (ja) * | 2014-07-10 | 2016-01-14 | 株式会社東芝 | 電子機器、方法及びプログラム |
US20160300372A1 (en) * | 2015-04-09 | 2016-10-13 | Bendix Commercial Vehicle Systems Llc | System and Method for Graphically Indicating an Object in an Image |
JP2016212547A (ja) * | 2015-05-01 | 2016-12-15 | 富士通株式会社 | 情報提供プログラム、情報提供装置、及び情報提供方法 |
US10127289B2 (en) * | 2015-08-19 | 2018-11-13 | Palantir Technologies Inc. | Systems and methods for automatic clustering and canonical designation of related data in various data structures |
WO2017078793A1 (en) * | 2015-11-04 | 2017-05-11 | Shutterfly, Inc. | Automatic image product creation for user accounts comprising large number of images |
US10095957B2 (en) * | 2016-03-15 | 2018-10-09 | Tata Consultancy Services Limited | Method and system for unsupervised word image clustering |
-
2018
- 2018-05-31 JP JP2019528410A patent/JP6958618B2/ja active Active
- 2018-05-31 US US16/628,832 patent/US11663184B2/en active Active
- 2018-05-31 WO PCT/JP2018/021027 patent/WO2019008961A1/ja active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210263903A1 (en) * | 2019-04-30 | 2021-08-26 | Amperity, Inc. | Multi-level conflict-free entity clusters |
Also Published As
Publication number | Publication date |
---|---|
US11663184B2 (en) | 2023-05-30 |
WO2019008961A1 (ja) | 2019-01-10 |
JPWO2019008961A1 (ja) | 2020-06-25 |
US20200133930A1 (en) | 2020-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11809374B1 (en) | Systems and methods for automatically organizing files and folders | |
US10776400B2 (en) | Clustering using locality-sensitive hashing with improved cost model | |
WO2010125781A1 (ja) | データ処理装置、データ処理方法、プログラム、及び集積回路 | |
JP2015087903A (ja) | 情報処理装置及び情報処理方法 | |
US20180268295A1 (en) | Risk evaluation method, computer-readable recording medium, and information processing apparatus | |
JP6958618B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US10255325B2 (en) | Extreme value computation | |
US9875140B2 (en) | System, method, and apparatus for coordinating distributed electronic discovery processing | |
US11726970B2 (en) | Incremental transfer of database segments | |
JP2020144493A (ja) | 学習モデル生成支援装置、及び学習モデル生成支援方法 | |
US11715030B2 (en) | Automatic object optimization to accelerate machine learning training | |
JP2014160456A (ja) | 疎変数最適化装置、疎変数最適化方法および疎変数最適化プログラム | |
KR102534936B1 (ko) | 영상 분류 장치 및 방법 | |
KR102201201B1 (ko) | 데이터를 분류하는 방법, 프로그램 및 이를 이용한 장치 | |
JP2008129940A (ja) | 業務フロー管理プログラム、業務フロー管理装置、および業務フロー管理方法 | |
US11743396B2 (en) | Electronic album generating apparatus, electronic album generating method, and non-transitory computer-readable storage medium | |
CN113110804B (zh) | 重复图片删除方法、装置、设备及存储介质 | |
US20220230138A1 (en) | Generating and providing collections of collaborative content items to teams of user accounts | |
US20140032258A1 (en) | Extracting apparatus and extracting method | |
US20190057321A1 (en) | Classification | |
JP6317280B2 (ja) | 同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム | |
US8775873B2 (en) | Data processing apparatus that performs test validation and computer-readable storage medium | |
JPWO2015141157A1 (ja) | 情報処理装置、及び、クラスタリング方法 | |
JPWO2020183706A1 (ja) | 学習画像の教師データ修正方法、教師データ修正装置及びプログラム | |
JP7388566B2 (ja) | データ生成プログラム、方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191227 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210907 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210920 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6958618 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |