JP2021517998A

JP2021517998A - 画像のクラスタリング方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP2021517998A
Application number: JP2020533140A
Authority: JP
Inventors: ジンシュー; ルイジャオ
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-03-18
Filing date: 2019-08-21
Publication date: 2021-07-29
Anticipated expiration: 2039-08-21
Also published as: JP6926339B2; TWI710964B; KR20200113195A; US20200327311A1; SG11202006328YA; CN109800744B; CN109800744A; TW202036365A; US11232288B2; WO2020186689A1

Abstract

本開示は、画像集合内の各画像に対応する顔特徴及び属性特徴を取得するステップと、前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも１つの第１類グループを得るステップであって、各前記第１類グループに含まれる画像が、予測された、同じ対象を含む画像であるステップと、各前記第１類グループ内の各画像の顔特徴及び属性特徴を用いて、各第１類グループに対する類似度行列を決定するステップと、各前記第１類グループに対応する類似度行列及び各前記第１類グループ内の各画像の顔特徴に基づいて、各前記第１類グループ内の各画像を改めてクラスタリングして、少なくとも１つの第２類グループを得るステップであって、第２類グループ内の画像が、最適化予測された、同じ対象を含む画像であるステップと、を含む画像のクラスタリング方法及び装置、電子機器並びに記憶媒体に関する。

Description

（関連出願の相互参照）
本願は、出願番号が２０１９１０２０４４２６．１であり、出願日が２０１９年３月１８日である中国特許出願に基づいて提出され、且つこの中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。

本開示は、コンピュータビジョンに関し、特に、画像のクラスタリング方法及び装置、電子機器並びに記憶媒体に関する。

顔のクラスタリングは、コンピュータビジョンにおける重要な課題となっており、大量の顔データを身元毎に振り分けして、同一人物に属する顔写真を纏めることを目的としている。顔のクラスタリングは、多くの分野に用いられて非常に重要な価値を作り出している。例えば、携帯電話等の端末分野において、顔のクラスタリングは、ユーザが容易に確認するように、人物の写真を身元毎に分類して整理することができ、セキュリティ分野にも重要な用途を有し、例えば、１人１ファイルの人口管理等を実現可能である。しかしながら、実際に適用する際に、顔写真において、姿勢、照明、表情、遮蔽、鮮明度等の要素に違いがあり、これらの問題は、顔のクラスタリングに対して非常に高く要求している。

本開示の実施例は、画像のクラスタリング精度を高めることができる画像のクラスタリング方法及び装置、電子機器並びに記憶媒体を提供する。

本開示の第１態様によれば、
画像集合内の各画像に対応する顔特徴及び属性特徴を取得するステップと、
前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも１つの第１類グループを得るステップであって、各前記第１類グループに含まれる画像が、予測された、同じ対象を含む画像であるステップと、
各前記第１類グループ内の各画像の顔特徴及び属性特徴を用いて、各第１類グループに対する類似度行列を決定するステップであって、前記類似度行列内の要素が、対応する第１類グループ内の各画像の間の類似度を示すステップと、
各前記第１類グループに対応する類似度行列及び各前記第１類グループ内の各画像の顔特徴に基づいて、各前記第１類グループ内の各画像を改めてクラスタリングして、少なくとも１つの第２類グループを得るステップであって、第２類グループ内の画像が、最適化予測された、同じ対象を含む画像であるステップと、を含む画像のクラスタリング方法を提供する。

ある可能な実施例では、前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも１つの第１類グループを得る前記ステップは、
前記画像集合内の各画像に対応する顔特徴の間の類似度を決定するステップと、
前記顔特徴の間の類似度に基づいて、前記各画像の顔特徴との類似度が最も高いＫ個の画像を決定するステップであって、Ｋが１以上の整数であるステップと、
前記各画像の顔特徴との類似度が最も高いＫ個の画像から、顔特徴の類似度が第１閾値を超えた第１画像を選択するステップと、
前記各画像及びそれに対応する前記第１画像に基づいて、第１類グループを形成するステップと、を含む。

ある可能な実施例では、複数の第１閾値を含み、前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも１つの第１類グループを得る前記ステップは、
異なる第１閾値毎に対して、各前記第１閾値に対応する第１類グループを形成するステップを更に含む。

ある可能な実施例では、各前記第１類グループ内の各画像の顔特徴及び属性特徴を用いて、各第１類グループに対する類似度行列を決定する前記ステップは、
各前記第１類グループ内の各画像の顔特徴の間の類似度に基づいて、対応する第１類グループに関する顔特徴類似度行列を決定し、各前記第１類グループ内の各画像の属性特徴に基づいて、対応する第１類グループに関する属性特徴類似度行列を決定するステップであって、前記顔特徴類似度行列内の要素が、前記第１類グループ内の各画像の顔特徴の間の類似度を示し、前記属性特徴類似度行列内の要素が、前記第１類グループ内の各画像の属性特徴の間の類似度を示すステップと、
各前記第１類グループの顔特徴類似度行列及び属性特徴類似度行列に基づいて、各前記第１類グループに対応する前記類似度行列を得るステップと、を含む。

ある可能な実施例では、各第１類グループ内の各画像の属性特徴に基づいて、対応する第１類グループに関する属性特徴類似度行列を決定する前記ステップは、
前記第１類グループ内の各画像の属性特徴と前記第１類グループ内の全ての画像の属性特徴との間の属性特徴類似度を決定するステップと、
前記第１類グループ内の全ての画像の属性特徴の間の類似度に基づいて、前記第１類グループに関する属性特徴類似度行列を決定するステップと、を含む。

ある可能な実施例では、前記顔特徴類似度行列の第ｉ行の要素は、前記第１類グループ内のｉ番目の画像の顔特徴と前記第１類グループ内の各画像の顔特徴との間の類似度を示し、
前記属性特徴類似度行列の第ｉ行の要素は、第１類グループ内のｉ番目の画像の属性特徴と前記第１類グループ内の各画像の属性特徴との間の類似度を示し、
ｉは１以上且つＮ以下の整数であり、Ｎは第１類グループ内の画像の個数を示す。

ある可能な実施例では、前記顔特徴の間の類似度及び／又は前記属性特徴の間の類似度は、コサイン類似度である。

ある可能な実施例では、各前記第１類グループの顔特徴類似度行列及び属性特徴類似度行列に基づいて、各前記第１類グループに対応する前記類似度行列を得る前記ステップは、
各前記第１類グループの顔特徴類似度行列及び属性特徴類似度行列に対して、少なくとも１層の畳み込み処理を実行して、前記の各前記第１類グループに対応する類似度行列を得るステップを含む。

ある可能な実施例では、各前記第１類グループに対応する類似度行列及び各前記第１類グループ内の各画像の顔特徴に基づいて、各前記第１類グループ内の各画像を改めてクラスタリングして、少なくとも１つの第２類グループを得る前記ステップは、
各前記第１類グループに対応する類似度行列を前処理して、前処理後の類似度行列を得るステップと、
各前記第１類グループに対応する前処理後の類似度行列及び対応する前記第１類グループ内の各画像の顔特徴に対して、少なくとも１層のグラフ畳み込み処理を実行して、各前記第１類グループに関する信頼度行列を取得するステップであって、前記信頼度行列内の要素が、対応する前記第１類グループ内の各画像が前記第１類グループに割り当てられる信頼度を示すステップと、
前記第１類グループ内の各画像に対応する信頼度に基づいて、前記第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得するステップと、を含む。

ある可能な実施例では、前記第１類グループ内の各画像に対応する信頼度に基づいて、前記第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得する前記ステップは、
前記第１類グループから、信頼度が第２閾値より低い画像を削除して、改めてクラスタリングされた第２類グループを取得するステップを含む。

ある可能な実施例では、各前記第１類グループに対応する前処理後の類似度行列及び各前記第１類グループ内の各画像の顔特徴に基づいて、各前記第１類グループ内の各画像を改めてクラスタリングして、少なくとも１つの第２類グループを得る前記ステップは、
前記グラフ畳み込み処理に基づいて、各前記第１類グループに関する類別信頼度を更に取得するステップであって、前記類別信頼度が、対応する第１類グループの分類信頼度を示すステップを更に含み、
また、前記第１類グループ内の各画像に対応する信頼度に基づいて、前記第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得する前記ステップの前に、前記方法は、
前記第１類グループの前記類別信頼度が第３閾値より低いことに応じて、前記第１類グループを削除するステップを更に含む。

ある可能な実施例では、前記第１類グループ内の各画像に対応する信頼度に基づいて、前記第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得する前記ステップは、
類別信頼度の高い順に前記第１類グループに対して順序付けるステップと、
ｊ番目の第１類グループ内の信頼度が第２閾値を超えた画像に、第ｊのラベルを割り当て、当該ｊ番目の第１類グループ内の信頼度が前記第２閾値より低い画像を削除して、当該ｊ番目の第１類グループに対応する第２類グループを形成するステップと、を含み、ｊは１以上且つＭ以下の正整数であり、Ｍは第１類グループの数量を示す。

ある可能な実施例では、前記第１類グループ内の各画像に対応する信頼度に基づいて、前記第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得する前記ステップは、
Ｍ番目の前記第１類グループに対応する第２類グループが得られた後、前記画像集合は、いずれの第２類グループにもクラスタリングされていない画像が存在することに応じて、いずれの第２類グループにもクラスタリングされていない各画像に基づいて、第２類グループをそれぞれ形成するステップを更に含む。

ある可能な実施例では、各第１類グループに対応する類似度行列を前処理して、前処理後の類似度行列を得る前記ステップは、
前記第１類グループに対応する類似度行列と単位行列とを加算するステップを含む。

ある可能な実施例では、画像集合内の各画像に対応する顔特徴及び属性特徴を取得する前記ステップは、
第１ニューラルネットワークを用いて前記画像集合内の各画像の顔特徴を取得し、
第２ニューラルネットワークを用いて前記画像集合内の各画像の属性特徴を取得するステップを含む。

本開示の実施例の第２態様によれば、
画像集合内の各画像に対応する顔特徴及び属性特徴を取得するように構成される取得モジュールと、
前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも１つの第１類グループを得るように構成される第１クラスタリングモジュールであって、各前記第１類グループに含まれる画像が、予測された、同じ対象を含む画像である第１クラスタリングモジュールと、
各前記第１類グループ内の各画像の顔特徴及び属性特徴を用いて、各第１類グループに対する類似度行列を決定するように構成される決定モジュールであって、前記類似度行列内の要素が、対応する第１類グループ内の各画像の間の類似度を示す決定モジュールと、
各前記第１類グループに対応する類似度行列及び各前記第１類グループ内の各画像の顔特徴に基づいて、各前記第１類グループ内の各画像を改めてクラスタリングして、少なくとも１つの第２類グループを得るように構成される第２クラスタリングモジュールであって、第２類グループ内の画像が、最適化予測された、同じ対象を含む画像である第２クラスタリングモジュールと、を含む画像クラスタリング装置を提供する。

ある可能な実施例では、前記第１クラスタリングモジュールは、更に、
前記画像集合内の各画像に対応する顔特徴の間の類似度を決定するステップと、
前記各顔特徴の間の類似度に基づいて、前記各画像の顔特徴との類似度が最も高いＫ個の画像を決定するステップであって、Ｋが１以上の整数であるステップと、
前記各画像の顔特徴との類似度が最も高いＫ個の画像から、顔特徴の類似度が第１閾値を超えた第１画像を選択するステップと、
前記各画像及びそれに対応する前記第１画像に基づいて、第１類グループを形成するステップと、を実行するように構成される。

ある可能な実施例では、複数の第１閾値を含み、前記第１クラスタリングモジュールは、更に、異なる第１閾値毎に対して、各前記第１閾値に対応する第１類グループを形成するために用いられる。

ある可能な実施例では、前記決定モジュールは、
各前記第１類グループ内の各画像の顔特徴の間の類似度に基づいて、対応する第１類グループに関する顔特徴類似度行列を決定するように構成される第１決定ユニットであって、前記顔特徴類似度行列内の要素が、前記第１類グループ内の各画像の顔特徴の間の類似度を示す第１決定ユニットと、
各前記第１類グループ内の各画像の属性特徴に基づいて、対応する第１類グループに関する属性特徴類似度行列を決定するように構成される第２決定ユニットであって、前記属性特徴類似度行列内の要素が、前記第１類グループ内の各画像の属性特徴の間の類似度を示す第２決定ユニットと、
各前記第１類グループの顔特徴類似度行列及び属性特徴類似度行列に基づいて、各第１類グループに対応する前記類似度行列を得るように構成される第３決定ユニットと、を含む。

ある可能な実施例では、前記第２決定ユニットは、更に、前記第１類グループ内の各画像の属性特徴と前記この第１類グループ内の全ての画像の属性特徴との間の属性特徴類似度を決定し、
前記第１類グループ内の全ての画像の属性特徴の間の類似度に基づいて、前記第１類グループに関する属性特徴類似度行列を決定するように構成される。

ある可能な実施例では、前記第３決定ユニットは、更に、各前記第１類グループの顔特徴類似度行列及び属性特徴類似度行列に対して、少なくとも１層の畳み込み処理を実行して、前記の各前記第１類グループに対応する類似度行列を得るように構成される。

ある可能な実施例では、前記第２クラスタリングモジュールは、
各前記第１類グループに対応する類似度行列を前処理して、前処理後の類似度行列を得るように構成される前処理ユニットと、
各前記第１類グループに対応する前処理後の類似度行列及び対応する前記第１類グループ内の各画像の顔特徴に対して、少なくとも１層のグラフ畳み込み処理を実行して、各前記第１類グループに関する信頼度行列を取得するように構成されるグラフ畳み込みユニットであって、前記信頼度行列内の要素が、対応する前記第１類グループ内の各画像が前記第１類グループに割り当てられる信頼度を示すグラフ畳み込みユニットと、
前記第１類グループ内の各画像に対応する信頼度に基づいて、前記第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得するように構成されるクラスタリングユニットと、を含む。

ある可能な実施例では、前記クラスタリングユニットは、更に、前記第１類グループから、信頼度が第２閾値より低い画像を削除して、改めてクラスタリングされた第２類グループを取得するように構成される。

ある可能な実施例では、前記グラフ畳み込みユニットは、前記グラフ畳み込み処理に基づいて、各前記第１類グループに関する類別信頼度を取得するようにさらに構成され、前記類別信頼度が、対応する第１類グループの分類信頼度を示し、
前記クラスタリングユニットは、更に、前記第１類グループの前記類別信頼度が第３閾値より低いことに応じて、前記第１類グループを削除するように構成される。

ある可能な実施例では、前記クラスタリングユニットは、更に、類別信頼度の高い順に前記各第１類グループに対して順序付けるステップと、
ｊ番目の第１類グループ内の信頼度が第２閾値を超えた画像に、第ｊのラベルを割り当て、当該ｊ番目の第１類グループ内の信頼度が前記第２閾値より低い画像を削除して、当該ｊ番目の第１類グループに対応する第２類グループを形成するステップと、を実行するように構成され、ｊは１以上且つＭ以下の正整数であり、Ｍは第１類グループの数量を示す。

ある可能な実施例では、前記クラスタリングユニットは、更に、Ｍ番目の第１類グループに対応する第２類グループが得られた後、前記画像集合に、いずれの第２類グループにもクラスタリングされていない画像が存在することに応じて、いずれの第２類グループにもクラスタリングされていない各画像に基づいて、第２類グループをそれぞれ形成するように構成される。

ある可能な実施例では、前記前処理ユニットは、更に、前記第１類グループに対応する類似度行列と単位行列とを加算して、前記前処理を実行するように構成される。

ある可能な実施例では、前記取得モジュールは、
前記画像集合内の各画像の顔特徴を取得するように構成される第１ニューラルネットワークと、
前記画像集合内の各画像の属性特徴を取得するように構成される第２ニューラルネットワークと、を含む。

本開示の第３態様によれば、プロセッサと、プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、前記プロセッサが第１態様のいずれか一項に記載の方法を実行するように構成される電子機器を提供する。

本開示の第４態様によれば、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に第１態様のいずれか一項に記載の方法を実現するコンピュータ読取可能記憶媒体を提供する。

本開示の第５態様によれば、プロセッサにより実行される時に、請求項１−１５のいずれか一項に記載の方法を実現可能であるコンピュータプログラム製品を提供する。

本開示の実施例は、まず、画像内の顔特徴によって画像を初期的にクラスタリングし、次に、画像に対応する顔特徴と属性特徴とを共に用いて、初期的にクラスタリングされた結果を最適化クラスタリングすることによって、同一類内の画像の間の類似度を増強し、異なる類の間の画像の間の類似度を下げて、クラスタリング精度を高めることができる。

以上の一般説明と以下の詳細説明は解釈するための例示的なものに過ぎず、本開示を制限しないことを理解すべきである。以下の図面と関連付けられた例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明確になる。

本開示の実施例に係る画像のクラスタリング方法のフローチャートを示す。本開示の実施例に係る第１ニューラルネットワークの構造模式図を示す。本開示の実施例に係る第２ニューラルネットワークの構造模式図を示す。本開示に係る画像のクラスタリング方法におけるステップＳ２０のフローチャートを示す。本開示の実施例に係る画像のクラスタリング方法におけるステップＳ３０のフローチャートを示す。本開示の実施例に係る画像のクラスタリング方法におけるステップＳ３１のフローチャートを示す。本開示の実施例に係る画像のクラスタリング方法におけるステップＳ３１の別のフローチャートを示す。本開示の実施例に係る第３ニューラルネットワークの構造模式図を示す。本開示の実施例に係るグラフ畳み込みネットワークの構造模式図を示す。本開示の実施例に係る画像のクラスタリング方法におけるステップＳ４０のフローチャートを示す。本開示の実施例に係る画像のクラスタリング方法におけるステップＳ４３のフローチャートを示す。本開示の実施例に係る画像クラスタリング装置のブロック図を示す。本開示の実施例に係る電子機器８００のブロック図を示す。本開示の実施例に係る電子機器１９００のブロック図を示す。

ここの図面は明細書に組み込まれて明細書の一部を構成し、これらの図面は本開示に合致する実施例を示し、明細書と共に本開示の技術的手段を説明するために用いられる。

以下に図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を表す。図面において実施例の様々な態様を示したが、特に断らない限り、比例に従って図面を作る必要がない。

ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明したいかなる実施例も他の実施例より優れたものと理解すべきではない。

本明細書の用語の「及び／又は」は、関連対象の関連関係を記述するためのものに過ぎず、３種の関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａが単独して存在し、ＡとＢが同時に存在し、Ｂが単独して存在するという３種の場合を示してもよい。また、本明細書の用語の「少なくとも１種」は多種のうちのいずれか１種又は多種のうちの少なくとも２種の任意の組合を示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１種を含むということは、Ａ、Ｂ及びＣから構成される集合から選択されるいずれか１つ又は複数の要素を含むことを示してもよい。

また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくなるにも関わらず、本開示は同様に実施できるということを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するよう、当業者に既知の方法、手段、要素および回路に対する詳細な説明を省略する。

本開示の実施例は、複数の画像をクラスタリング分析することに利用可能な画像のクラスタリング方法を提供し、ここで、属性特徴を取り入れてクラスタリング結果を最適化して、クラスタリングの精度を高めるようにしてもよい。本開示の実施例の画像のクラスタリング方法は、ユーザ側装置（ＵＥ、ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、携帯機器、セル方式の携帯無線電話、無線電話、携帯情報端末（ＰＤＡ、ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、携帯型デバイス、計算装置、車載装置、ウエアラブル装置等を含むいかなる電子機器、又はローカルサーバやクラウドサーバのようないかなるサーバにも利用可能であり、以上は例示的な説明に過ぎず、本開示を具体的に限定するものではない。

図１は本開示の実施例に係る画像のクラスタリング方法のフローチャートを示し、ここで、前記画像のクラスタリング方法は、以下のステップを含んでもよい。

Ｓ１０において、画像集合内の各画像に対応する顔特徴及び属性特徴を取得する。

Ｓ２０において、各画像の顔特徴の類似度によって前記画像集合に対してクラスタリング処理を実行して、少なくとも１つの第１類グループを得、各前記第１類グループに含まれる画像が、予測された、同じ対象を含む画像であるものであって、例えば、前記Ｓ２０は、具体的には、前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも１つの第１類グループを得るステップであって、各前記第１類グループに含まれる画像が、予測された、同じ対象を含む画像であるステップを含んでもよく、ここで、予測された、同じ対象を含む画像は、初期的に予測された、同じ対象を含む画像であってもよい。

Ｓ３０において、各前記第１類グループ内の各画像の顔特徴及び属性特徴を用いて、各第１類グループに対する類似度行列を決定し、前記類似度行列内の要素が、対応する第１類グループ内の各画像の間の類似度を示す。

Ｓ４０において、各第１類グループに対応する類似度行列及び各第１類グループ内の各画像の顔特徴に基づいて、各第１類グループ内の各画像を改めてクラスタリングして、少なくとも１つの第２類グループを得、第２類グループ内の画像が、最適化予測された、同じ対象を含む画像である。ここで、最適化予測された、同じ対象を含む画像は、初期的な予測の上で、同じ対象を有する画像を更に精確に予測し、初期的予測中の不正確な結果又は不精確な結果を除外したのである。Ｓ２０における予測を一次予測としてもよく、Ｓ４０における予測を一次予測に基づく二次予測としてもよい。

本開示の実施例の画像のクラスタリング方法は、画像集合内の画像を精確にクラスタリングすることを主旨とする。前記画像のクラスタリング方法を実行する時に、まず、画像集合を取得する必要がある。本開示の実施例の画像集合は、複数枚の画像を含んでもよく、各画像に含まれる対象は同じであっても、異なっていてもよい。本開示の実施例は、画像内の各対象の認識結果に基づいて画像集合内の画像のクラスタリング分析を実現するためのものであり、クラスタリングによって、同じ対象の画像を１つの種類に纏めることができ、それによって、対応する対象の移動軌跡、行動、生活リズム等を容易に分析したり、分類保存処理に用いたりすることができ、本開示はこれについて具体的に限定するものではない。本開示の実施例における画像集合内の各画像に含まれる対象は、人物であってもよく、それに対応するように、対象が人物である画像のクラスタリングが実現可能であり、別の実施例では、本開示の実施例の方法は、他の種類の対象のクラスタリング分析にも利用可能であり、具体的に限定されない。

また、本開示の実施例で取得された画像集合内の画像は、画像装置によって取得されてもよく、例えば、携帯電話等の撮影機能を有する端末装置で撮影して得られたものであってもよく、監視領域内に取り付けられた撮影装置で取得されたものであってもよく、他の実施例では他の手段によって取得されたものであってもよく、本開示はここで一つずつ例を挙げて説明しない。画像集合が取得された後、本開示の実施例は取得された画像集合内の各画像を分析して、画像をクラスタリングしてもよい。

まず、ステップＳ１０で画像集合内の各画像の顔特徴及び属性特徴を取得してもよい。顔特徴は、例えば、目、眉、鼻、口、耳、あご、額等の顔キーポイントの位置情報を含んでもよく、又は他のキーポイントの位置情報を含んでもよい。以上は例示的な説明に過ぎず、本開示の実施例は顔キーポイントの数量及び種類を制限するものでない。また、取得された属性特徴は、画像内の対象の外部特徴を示すものであってもよく、例えば、画像内の対象の身に着けているアクセサリー（眼鏡、帽子、マスク等）、肌色、性別、年齢及び服飾等の情報を含んでもよく、他の実施例では、他の情報を含んでもよく、ここで一つずつ例を挙げて説明しない。

本開示の実施例で顔特徴を取得する方式は、顔認識アルゴリズムによって顔の顔特徴を抽出する方式、又は顔特徴抽出機能を有するニューラルネットワークによって画像内の対象の顔特徴の抽出を実現する方式を含んでもよい。例えば、本開示の実施例は、第１ニューラルネットワークによって画像集合内の各画像の顔特徴の抽出を実現してもよい。図２は本開示の実施例に係る第１ニューラルネットワークの構造模式図を示す。ある可能な実施形態では、第１ニューラルネットワークは、畳み込みニューラルネットワークであってもよい。第１ニューラルネットワークの訓練過程は、第１ニューラルネットワークに訓練画像及び画像内の各対象のラベルとなる対応する真実なラベルを入力し、第１ニューラルネットワークの畳み込み等の処理操作によって画像の特徴抽出を実現し、抽出された特徴を分類器によって分類し、予測された分類結果を得、分類結果と真実なラベルとの間の損失値が訓練要求を満たすようになると、訓練を終了するステップを含んでもよい。この時に得られた第１ニューラルネットワークは、画像内の人物対象の顔特徴を精確に抽出できるものになり、本開示の実施例は、画像集合内の各画像を第１ニューラルネットワークに入力して、最後の１層で抽出された特徴を後処理の顔特徴としてもよい。

本開示の実施例では、属性特徴を取得する方式は、対応する特徴抽出アルゴリズムによって属性を認識する方式を含んでもよく、例えば、顔特徴抽出アルゴリズムで抽出した顔特徴によって年齢や性別、アクセサリー等の情報を認識してもよく、更に人体特徴を抽出することによって着用服飾、性別等の情報を認識してもよい。又は、別の実施例では、属性特徴抽出機能を有するニューラルネットワークによって画像内の対象の属性特徴を抽出してもよい。例えば、本開示の実施例は、第２ニューラルネットワークによって画像集合内の各画像の属性特徴を抽出してもよい。図３は本開示の実施例に係る第２ニューラルネットワークの構造模式図を示す。ある可能な実施形態では、第２ニューラルネットワークは畳み込みニューラルネットワークであってもよい。第２ニューラルネットワークの訓練過程は、第２ニューラルネットワークに訓練画像及び対応する属性特徴を入力し、第２ニューラルネットワークの畳み込み等の処理操作によって画像の特徴を抽出し、異なる分類器によって属性を予測し、予測された分類結果を得、分類結果と真実な属性特徴との間の損失値が訓練要求を満たすようになると、訓練を終了するステップを含んでもよい。この時に得られた第２ニューラルネットワークは、画像内の人物対象の属性特徴を精確に抽出できるものになり、本開示の実施例は、画像集合内の各画像を第２ニューラルネットワークに入力して、最後の１層で抽出された特徴を後処理の属性特徴としてもよい。

上記実施例によれば、画像集合内の各画像の顔特徴及び属性特徴を抽出することができ、上記形態によれば、得られた顔特徴及び属性特徴の精度が高く、後続の分類処理に寄与する。

各画像の属性特徴及び顔特徴が得られた後、得られた顔特徴によって画像集合内の各画像を初期的にクラスタリング処理してもよく、即ち、ステップＳ２０を実行してもよい。抽出された顔特徴が対象の認識に用いられることができるため、本開示の実施例は、顔特徴に基づいて画像内の対象が同じ対象であるか否かを判断し、同じ対象であると判断された画像を１つの種類に纏めて、各画像を分類するようにしてもよい。

ある可能な実施形態では、各画像の顔特徴の間の類似度を取得し、画像集合内の１つの画像Ａの顔特徴との類似度が類似度閾値を超えた全ての画像Ｂを１つの種類に纏めるようにしてもよく、そのように画像集合内の画像を初期的に分類し、少なくとも１つの第１類グループを得ることができる。本開示の実施例で得られた顔特徴及び属性特徴はいずれもベクトル又は行列の形式であってもよいので、顔特徴の間の類似度を取得する計算方式は２つの画像の顔特徴の間のユークリッド距離を計算してもよく、又は、両者のコサイン類似度を得てもよく、本開示はこれについて具体的に限定するものではない。

ある他の可能な実施形態では、クラスタリング効率を高めるために、各画像のＫ個の近似画像を先に決定し、次にＫ個の近似画像から同じ対象を含む画像を選択するようにしてもよい。図４は本開示に係る画像のクラスタリング方法におけるステップＳ２０のフローチャートを示し、ここで、各画像の顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して少なくとも１つの第１類グループを得る前記ステップ（ステップＳ２０）は、前記画像集合内の各画像に対応する顔特徴の間の類似度を決定し、即ち、前記画像集合内のそれぞれの画像に対応する顔特徴の間の類似度を決定するＳ２１と、各顔特徴の間の類似度に基づいて、各画像の顔特徴との類似度が最も高いＫ個の画像を決定し、即ち、前記各顔特徴の間の類似度に基づいて、前記各画像の顔特徴との類似度が最も高いＫ個の画像を決定するステップであって、Ｋが１以上の整数であるＳ２２と、各画像の顔特徴との類似度が最も高いＫ個の画像から、顔特徴の類似度が第１閾値を超えた第１画像を選択するＳ２２と、各画像及びそれに対応する第１画像に基づいて第１類グループを形成し、即ち、前記各画像及びそれに対応する前記第１画像に基づいて、第１類グループを形成するＳ２３と、を含んでもよい。

以上の通り、顔特徴に基づいて画像の顔特徴の間の類似度を決定してもよい。本開示の実施例は、まず画像集合から各画像ｑの顔特徴との類似度が最も高いＫ個の画像、即ち、画像ｑの顔特徴との類似度が最も高いＫ個の顔特徴に対応する画像を選択してもよい。本開示の実施例は、ｆａｉｓｓ（ＦａｃｅｂｏｏｋＡＩＳｉｍｉｌａｒｉｔｙＳｅａｒｃｈ、フェイスブック類似検索）を用いて検索して画像集合内のＫ個の近似画像、即ち各画像の顔特徴に最も近似するＫ個の画像を得てもよい。Ｋ個の近似画像の抽出は、最類似を高速に抽出する方法を実現可能なｆａｉｓｓ検索によって実現される。別の実施例では、各画像との類似度が最も高いＫ個の近似画像を他の方式によって高速に検索してもよく、本開示はこれについて具体的に限定するものではない。

各画像のＫ個の近似画像、即ち顔特徴類似度が最も高いＫ個の画像が得られた後、ステップＳ２３を実行することによってこのＫ個の画像から特定要求を満たした画像を選択してもよい。例えば、顔特徴の類似度が第１閾値を超えた画像を選択してもよい。ここで、第１閾値の値は必要に応じて設定可能であり、例えば０．９にしてもよく、又は他の数値にしてもよく、本開示はこれについて具体的に限定するものではない。

本開示の実施例は、各画像とそれに対応するＫ個の画像との間の類似度、即ち顔特徴類似度を得ることができ、この顔特徴類似度が所定の第１閾値を超えた時に、この２つの対応画像を同一の種類に纏めてもよい。ここで、いずれか２つの画像の顔特徴の間の類似度を得る方式は、ユークリッド距離を計算するようになってもよく、又はコサイン類似度を計算するようになってもよい。コサイン類似度は以下の式で示す。

式（１）
ただし、Ｓ１は顔特徴類似度を示し、ＡとＢは２つの画像の顔特徴を別々に示し、ｉは顔特徴中の要素を示し、ｎは顔特徴中の要素の個数を示す。

上記形態によれば、得られた画像集合内の各画像ｑのＫ個の近似画像から、画像ｑの顔特徴との類似度が第１閾値より大きい画像を選択することができ、この時に、選択された画像を第１画像と称しても良い。また、画像ｑとそれに対応する各第１画像を１つの種類（第１類グループ）に纏めてもよい。画像ｑのＫ個の近似画像には、類似度が第１閾値より大きい画像が存在しなければ、画像ｑを単独して第１類グループとして纏めてもよい。

本開示の実施例において、まず、各画像のＫ個の近似画像を検索し、次に、更に第１閾値に基づいて第１画像を選び出すようにしてもよいので、この過程によって、顔特徴類似度の計算量が減少され、クラスタリングの時間が節約される。

また、本開示のある実施例では、複数の第１閾値を設定してもよく、ステップＳ２３を実行する時に、各第１閾値に基づいて複数グループの第１画像を得ることができ、例えば、第１閾値ｖ１を用いて画像ｑの顔特徴との類似度が第１閾値ｖ１より大きい複数の第１画像ｐ１及びｐ２を得、第１閾値ｖ２を用いて画像ｑの顔特徴との類似度が第１閾値ｖ２より大きい複数の第１画像ｐ１を得るが、第１閾値ｖ３を用いて画像ｑの顔特徴との類似度が第１閾値ｖ３より大きい第１画像が得ることができなくなり、ここで、ｖ３がｖ２より大きく、且つｖ２がｖ１より大きい。

それに対応するように、各第１閾値に対して、対応して得られた第１画像に基づいて異なる第１類グループを形成してもよく、例えば、第１閾値ｖ１に対して、第１類グループ｛ｑ、ｐ１、ｐ２｝が得られ、第１閾値ｖ２に対して、第１類グループ｛ｑ、ｐ１｝が得られ、第１閾値ｖ３に対して、第１類グループ｛ｑ｝が得られる。つまり、本開示の実施例は、各第１閾値に基づいて対応する第１類グループを得ることができ、異なる閾値を設定することによって、後続の最適化クラスタリング処理の時に、分類されていなく、又は対応する類グループに精確にクラスタリングされていない画像が残されるケースを回避し、クラスタリング精度を高めることができる。

上記実施例によれば、顔特徴による画像集合内の画像の初期的なクラスタリングを実現することができ、更に、本開示の実施例は、取得された属性特徴と顔特徴とに基づいて、初期的なクラスタリングで得られた第１類グループを最適化して、クラスタリング精度を高めることができる。ここで、まず、各第１類グループ内の画像の顔特徴に基づいてこの第１類グループの顔特徴類似度行列を得、各第１類グループ内の画像の属性特徴に基づいてこの第１類グループの属性特徴類似度行列を得、更に、得られた顔特徴類似度行列及び属性特徴類似度行列を用いて第１類グループを最適化クラスタリングするようにしてもよい。

図５は本開示の実施例に係る画像のクラスタリング方法におけるステップＳ３０のフローチャートを示し、ここで、各前記第１類グループ内の画像の顔特徴及び属性特徴を用いて各第１類グループに対する類似度行列を決定する前記ステップ（ステップＳ３０）は、
各第１類グループ内の各画像の顔特徴の間の類似度に基づいて、対応する第１類グループに関する顔特徴類似度行列を決定し、各第１類グループ内の各画像の属性特徴に基づいて、対応する第１類グループに関する属性特徴類似度行列を決定するＳ３１であって、前記顔特徴類似度行列内の要素が、第１類グループ内の各画像の顔特徴の間の類似度を示し、前記属性特徴類似度行列内の要素が、第１類グループ内の各画像の属性特徴の間の類似度を示すＳ３１と、
各第１類グループの顔特徴類似度行列及び属性特徴類似度行列に基づいて、各第１類グループに対応する前記類似度行列を得るＳ３２と、を含んでもよい。

本開示の実施例は、各第１類グループ内の各画像の顔特徴類似度を決定してもよく、例えば、ステップＳ２０において各第１類グループ内の各画像の間の顔特徴類似度がすでに得られたものとなり、この時に、得られた各画像の顔特徴の間の類似度を読み取ってもよく、又は各第１類グループ内の各画像の顔特徴の間の類似度を改めて計算してもよく、本開示はこれについて具体的に限定するものではなく、また、計算方式は、同様にユークリッド距離計算方式又はコサイン類似度計算方式であってもよい。

各第１類グループ内のいずれか２つの画像の顔特徴の間の類似度が得られた後、各顔特徴類似度に基づいてこの第１類グループに対応する顔特徴類似度行列を作成してもよい。ここで、顔特徴類似度行列の第ｉ行の要素は第１類グループ内のｉ番目の画像の顔特徴とこの第１類グループ内の各画像の顔特徴との間の類似度を示す。

図６は本開示の実施例に係る画像のクラスタリング方法におけるステップＳ３１のフローチャートを示し、ここで、各第１類グループ内の各画像の顔特徴に基づいて対応する第１類グループに関する顔特徴類似度行列を決定する前記ステップは、以下のステップを含む。

Ｓ３１０１において、第１類グループ内の各画像の顔特徴と当該第１類グループ内の全ての画像の顔特徴との間の顔特徴類似度を決定する。

以上の通り、ステップＳ２０で得られた第１類グループ内のいずれか２つの画像の間の顔特徴類似度を読み取ってもよく、各画像の間の顔特徴類似度を改めて計算してもよく、本開示はこれについて具体的に限定するものではない。

Ｓ３１０２において、第１類グループ内のｉ番目の画像に関する各顔特徴類似度を前記顔特徴類似度行列の第ｉ行の要素として、前記顔特徴類似度行列を形成し、ｉは１以上且つＮ以下の整数であり、Ｎは第１類グループ内の画像の個数を示す。

第１類グループ内の２つずつの画像の間の顔類似度が得られた後、各画像の順序に応じて顔特徴類似度行列を得てもよい。ここで、顔特徴類似度行列の次元は、第１類グループ内の画像の数量に基づいて決定してもよく、例えば、Ｎ個の画像を含む場合に、Ｎ＊Ｎ次元となる。ただし、Ｄ_ｉｊはｉ番目の画像とｊ番目の画像との間の顔特徴類似度を示す。第１類グループ内に画像ｃ、ｄ、ｅ及びｆが含まれるとすれば、得られた顔特徴類似度行列は以下の式で示してもよい。

式（２）
ただし、Ｄ_ｉｉはｉ番目の画像とｉ番目の画像との類似度、即ち、１を示してもよく、ｉはｃ、ｄ、ｅ及びｆの番号である。

以上のことによって、第１類グループ内のいずれか２つの画像の間の顔特徴類似度に基づいて顔類似度特徴行列を得ることができる。

同様に、本開示の実施例は、更に、各第１類グループ内の各画像属性特徴の間の類似度を決定し、第１類グループに対応する属性特徴類似度行列を対応して取得することができ、前記属性特徴類似度行列の第ｉ行の要素は、第１類グループ内のｉ番目の画像の属性特徴とこの第１類グループ内の各画像の属性特徴との間の類似度を示し、即ち、前記属性特徴類似度行列の第ｉ行の要素は、第１類グループ内のｉ番目の画像の属性特徴と前記第１類グループ内の各画像の属性特徴との間の類似度を示す。図７は本開示の実施例に係る画像のクラスタリング方法におけるステップＳ３１の別のフローチャートを示し、各第１類グループ内の各画像の属性特徴に基づいて、対応する第１類グループに関する属性特徴類似度行列を決定する前記ステップは、
第１類グループ内の各画像の属性特徴と当該第１類グループ内の全ての画像の属性特徴との間の属性特徴類似度を決定し、即ち、前記第１類グループ内の各画像の属性特徴と当該第１類グループ内の全ての画像の属性特徴との間の属性特徴類似度を決定するＳ３１１１と、
第１類グループ内のｉ番目の画像に関する属性特徴類似度を前記属性特徴類似度行列の第ｉ行の要素として、前記属性特徴類似度行列を形成するＳ３１１２と、を含んでもよく、ｉは１以上且つＮ以下の整数であり、Ｎは第１類グループ内の画像の個数を示す。

ある可能な実施形態では、各画像の属性特徴に基づいて２つの画像の間の属性特徴類似度を決定してもよく、ここで、２つの属性特徴の間のユークリッド距離又はコサイン類似度を計算して、いずれか２つの画像の間の属性特徴類似度を得るようにしてもよい。ここで、属性特徴のコサイン類似度の計算方式は以下の式で示してもよい。

式（３）
ただし、Ｓ２は属性特徴類似度を示し、ＣとＤは２つの画像の属性特徴を別々に示し、ｉは属性特徴中の要素を表し、ｎは属性特徴中の要素の個数を表す。上記形態によれば、いずれか２つの画像の属性特徴類似度を得ることができる。

第１類グループ内の２つずつの画像の間の属性特徴類似度が得られた後、各画像の順序に従って属性特徴類似度行列を得ることができる。ここで、属性特徴類似度行列の次元は、第１類グループ内の画像の数量に基づいて決定してもよく、例えば、Ｎ個の画像を含む場合に、Ｎ＊Ｎ次元となる。ここで、Ｅ_ｉｊは、ｉ番目の画像とｊ番目の画像との間の属性特徴類似度を示す。第１類グループ内に画像ｃ、ｄ、ｅ及びｆが含まれるとすれば、得られた属性特徴類似度行列は以下の式で示してもよい。

式（４）
ただし、Ｅ_ｉｉは、ｉ番目の画像とｉ番目の画像の属性特徴類似度、即ち１を示し、ｉはｃ、ｄ、ｅ及びｆの番号である。

以上のことで、各第１類グループに対応する顔特徴類似度行列及び属性特徴類似度行列をそれぞれ取得することができ、次に、これらの２つの特徴類似度行列を用いて第１類グループ内の各画像の類似度行列を取得してもよく、即ち、ステップＳ３２を実行してもよい。本開示の実施例では、第１類グループに対応する顔特徴類似度行列と属性特徴類似度行列を結合し、結合特徴行列を取得し、この結合特徴行列に対して畳み込み処理を実行し、最終的な第１類グループ内の各画像に対応する類似度行列を得るようにしてもよい。ここで、第１類グループに対応する類似度行列中の要素は第１類グループ内の各画像の間の画像類似度（顔類似度）であってもよい。

ある可能な実施形態では、第３ニューラルネットワークによって第１類グループに対応する類似度行列を取得してもよい。第３ニューラルネットワークは、入力された顔特徴類似度行列及び属性特徴類似度行列に基づいて、対応して最適化された画像の類似度行列を得ることができる訓練済みのニューラルネットワークであってもよく、第３ニューラルネットワークは、畳み込みニューラルネットワークであってもよい。図８は本開示の実施例に係る第３ニューラルネットワークの構造模式図を示す。図８に示すように、第１類グループに対応するＮ行Ｎ列の顔特徴類似度行列と属性特徴類似度行列を第３ニューラルネットワークＣＮＮに入力してもよく、第３ニューラルネットワークの畳み込み処理によって最終的な第１類グループに対応する類似度行列を得ることができる。得られた類似度行列中の各要素には顔特徴及び属性特徴が含まれるので、得られる画像の間の類似度精度を高めることができる。

各第１類グループに対応する類似度行列が得られた後、ステップＳ４０を実行してもよい。第１類グループに対応する類似度行列及び第１類グループ内の各画像に対応する顔特徴によって第１類グループのクラスタリング結果について更に最適化クラスタリングし、即ち、改めてクラスタリングしてもよい。ここで、本開示の実施例は、グラフ畳み込みの方式でこの改めてクラスタリングする過程を実行してもよい。図９は本開示の実施例に係るグラフ畳み込みネットワークの構造模式図を示す。図１０は本開示の実施例に係る画像のクラスタリング方法におけるステップＳ４０のフローチャートを示し、ここで、第１類グループに対応する類似度行列及び各第１類グループ内の各画像の顔特徴に基づいて、各第１類グループ内の各画像を改めてクラスタリングし、即ち、各前記第１類グループに対応する類似度行列及び各前記第１類グループ内の各画像の顔特徴に基づいて、各前記第１類グループ内の各画像を改めてクラスタリングして、少なくとも１つの第２類グループを得る前記各ステップ（ステップＳ４０）は、以下のステップを含んでもよい。

Ｓ４１において、各第１類グループに対応する類似度行列を前処理して、前処理後の類似度行列を得る。

本開示の実施例は、第１類グループを改めてクラスタリングする過程で、第１類グループに対応する類似度行列を前処理してもよく、この前処理は、相違する２つの画像の間の類似度と区別するように、類似度行列中の各画像の間のそもそもの類似度を強化することができる。ここで、本開示の実施例は、各第１類グループの類似度行列と単位行列とを加算することによって前記前処理を実行してもよい。例えば、類似度行列をＡとすれば、前処理された類似度行列は

式（５）で示してもよい。ここで、

は前処理された類似度行列を示し、

は単位行列、即ち対角線の要素値が１で、他の要素が０である行列を示す。ここで、単位行列の次元は類似度行列の次元と同じである。

Ｓ４２において、各第１類グループに対応する前処理後の類似度行列及び第１類グループ内の各画像の顔特徴に対して、少なくとも１層のグラフ畳み込み処理を実行して、各第１類グループに関する信頼度行列を取得し、前記信頼度行列内の要素が、第１類グループ内の各画像が当該第１類グループに割り当てられる信頼度を示す。

本開示の実施例では、グラフ畳み込み処理はｘ層を含むとすれば、各層の処理は以下の式で示してもよい。

式（６）
ここで、

は１つの類グループ内の画像に対して第ｘ層のグラフ畳み込みを実行するのに入力される特徴を示し、

は第１類グループ内の画像に対して第ｘ層のグラフ畳み込みを実行した結果、即ち、第１類グループ内の画像の分類信頼度を示す。

は前処理された類似度行列を示し、Ｄで示される要素は、

内の各行の要素和を示し、即ち、

式（７）であり、ｉは行の数を示し、ｊは列の数を示し、

は画像の顔特徴を示し、

は第ｘ層のグラフ畳み込み処理の畳み込みパラメータを示す。

上記形態によれば、第ｘ層のグラフ畳み込み処理で得られた

を取得することができ、当該

は各画像のその所在する第１類グループでの信頼度を示してもよく、各画像に基づいて得られた信頼度は、各第１類グループの信頼度行列を形成してもよい。

Ｓ４３において、第１類グループ内の各画像に対応する信頼度に基づいて第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得し、即ち、前記第１類グループ内の各画像に対応する信頼度に基づいて、前記第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得する。

ある可能な実施形態では、ステップＳ４２で、予測された、各画像がその所在する第１類グループに割り当てられるべきである信頼度が得られたので、この信頼度が低い場合に、この画像内の対象がその所在する第１類グループの対応する対象とマッチングしないことを示し、この時に第１類グループからこの画像を削除してもよい。

具体的には、本開示の実施例は、信頼度が第２閾値より低い画像を第１類グループから削除してもよく、それによって第１類グループ内の各画像のクラスタリング精度が保証される。ここで、第２閾値の値は、必要に応じて設定可能であり、例えば、０．９５にしてもよく、又は他の値にしてもよく、本開示はこれを具体的に限定するものではない。

上記形態によれば、第１類グループを改めてクラスタリング処理し、その中の信頼度が低い画像を削除して、第１類グループに対応する第２類グループを取得することができ、更に、第１類グループ中の信頼度が第２閾値より低い画像が全て削除されて第２類グループが形成された後、いずれの第２類グループにもクラスタリングされていない画像が存在すれば、いずれの第２類グループにもクラスタリングされていない画像で第２類グループをそれぞれ形成してもよい。又は、いずれの第２類グループにもクラスタリングされていない画像の間の顔特徴類似度に基づいてこれらの画像を更にクラスタリングしてもよく、例えば、類似度が第２閾値より大きい画像を１つの第２類グループ内にクラスタリングしてもよく、この過程は画像クラスタリング精度を高めることができる。

ある他の可能な実施形態では、上記グラフ畳み込み処理を実行する過程で、各第１類グループに対応する類別信頼度を同時に取得してもよく、この類別信頼度は、第１類グループの分類信頼度、即ち第１類グループ内の画像の全体的なクラスタリング信頼度を示すためのものとなってもよく、当該類別信頼度が低い場合、対応する第１類グループ内の画像が１つの対象に対応していない可能性があり、又は、同時に複数の対象に対応しており、即ち、クラスタリング精度が低い可能性があることを示す。本開示の実施例は、ステップＳ４２で得られた第１類グループ内の各画像の信頼度のうちの最も高い信頼度を第１類グループの類別信頼度としてもよく、又は、各画像の信頼度の平均値をこの第１類グループの類別信頼度としてもよく、他の実施例ではこの類別信頼度を他の方式によって取得してもよく、本開示は具体的に限定するものではなく、第１類グループの全体的なクラスタリング精度を示すことに用いられるものであれば、本開示の実施例としてもよい。

改めてクラスタリングされてから得られる各第２類グループの精度を高めるために、本開示の実施例は、第１類グループ内の各画像に対応する信頼度に基づいて第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得する（前記第１類グループ内の各画像に対応する信頼度に基づいて、前記第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得する）前記ステップの前に、類別信頼度が第３閾値より低い第１類グループを削除してもよく、即ち類別信頼度が第３閾値より低い第１類グループを保留しない。以上と同様に、本開示の実施例でも第３閾値の選択を具体的に限定しなく、例えば、第３閾値を０．６にしてもよく、他の閾値にしてもよく、本開示はこれについて具体的に限定するものではない。

ステップＳ２０においてクラスタリング処理を実行する時に、異なる閾値に基づいて第１類グループのクラスタリングを実行してもよいので、第１類グループ中のサンプルの多様性を保証することができ、即ち、１つの画像が異なる類グループにクラスタリングされる可能性があり、画像が第１類グループから削除されるか、第１類グループ全体が削除されるとしても、画像が精確にその対応する類グループに割り当てられる確率を高めることができる。以下、類別信頼度をも基づいて改めてクラスタリングする過程を詳細に説明する。

図１１は本開示の実施例に係る画像のクラスタリング方法におけるステップＳ４３のフローチャートを示す。ここで、第１類グループ内の各画像に対応する信頼度に基づいて第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得する（即ち、前記第１類グループ内の各画像に対応する信頼度に基づいて、前記第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得する）前記ステップは、以下のステップ含んでもよい。

Ｓ４３１において、類別信頼度の高い順に各第１類グループに対して順序付け、即ち、類別信頼度の高い順に前記各第１類グループに対して順序付ける。

上記実施例の通り、各第１類グループ内の各画像の顔特徴のグラフ畳み込み処理を実行することによって第１類グループの類別信頼度を同時に取得でき、各第１類グループの類別信頼度が得られた後、類別信頼度に基づいて順序付けてもよく、本開示の実施例は、類別信頼度の高い順に第１類グループに対して順序付けてもよい。

Ｓ４３２において、ｊ番目の第１類グループ内の信頼度が第２閾値を超えた画像に、第ｊのラベルを割り当て、当該ｊ番目の第１類グループ内の信頼度が前記第２閾値より低い画像を削除して、当該ｊ番目の第１類グループに対応する第２類グループを形成し、ここで、ｊは１以上且つＭ以下の正整数であり、Ｍは第１類グループの数量を示す。

類別信頼度の高い順に第１類グループに対して順序付けた後、各第１類グループに対してそれぞれ最適化クラスタリング処理を実行してもよい。ここで、信頼度が最も高い第１類グループから、この第１類グループ内の画像信頼度が第２閾値より高い画像に第１ラベルを割り当ててもよい。ここで、信頼度が第２閾値以上の画像は、第１類グループに対応する対象と同じ対象の画像として決定されることができ、この時に、画像をラベリングするために、これらの画像にラベルを割り当ててもよい。信頼度が第２閾値より小さい画像にラベルを割り当てなくてもよく、これらの第２閾値より小さい画像をこの信頼度が最も高い第１類グループから削除するようにしてもよく、この過程によって信頼度が最も高い第１類グループの最適化クラスタリングを実施し、それに対応する第２類グループが得られる。この過程で、信頼度が第２閾値より高い画像が第１ラベルをすでに割り当てられているため、この時に他の第１類グループ内の同じ画像を削除してもよく、つまり、１つの画像がラベルを割り当てられた場合に、そのクラスタリングが完了していることを示し、この時に、繰り返してクラスタリングせず、その第１類グループ内の同じ画像を削除してもよい。

類別信頼度が最も高い第１類グループに対して最適化クラスタリングを実行した後、類別信頼度が第２位となっている第１類グループを改めてクラスタリングしてもよく、その過程は上記過程と同様である。この第２位の第１類グループ内の信頼度が第２閾値以上の画像に画像をラベリング可能な第２ラベルを割り当ててもよく、これらの第２ラベルが割り当てられた画像は、第１類グループに対応する対象と同じ対象の画像として決定されてもよい。信頼度が第２閾値より小さい画像にラベルを割り当てておらず、これらの第２閾値より小さい画像をこの類別信頼度が第２位となる第１類グループから削除してもよく、この過程によって類別信頼度が第２位となる第１類グループの最適化クラスタリングを実施し、それに対応する第２類グループが得られる。この過程で、信頼度が第２閾値より高い画像が第２ラベルを割り当てられているため、この時に他の第１類グループ内の同じ画像を削除してもよく、つまり、１つの画像がラベルを割り当てられた場合に、そのクラスタリングが完了していることを示し、この時に、繰り返してクラスタリングせず、その第１類グループ内の同じ画像を削除してもよい。

以上の通り、上記過程によって類別信頼度の高い順に各第１類グループを改めてクラスタリングしてもよく、即ち、ｊ番目の第１類グループ内の信頼度が第２閾値を超えた画像に、第ｊのラベルを割り当て、当該ｊ番目の第１類グループ内の信頼度が前記第２閾値より低い画像を削除して、当該ｊ番目の第１類グループに対応する第２類グループを形成するようにしてもよく、ここで、ｊは１以上且つＭ以下の正整数であり、Ｍは第１類グループの数量を示す。また、第１類グループ内の画像がラベルを割り当てられた後、他の第１類グループからこの画像を削除し、同一画像の重複クラスタリングを減少する。

上記形態によれば、各第１類グループを改めてクラスタリングして、取得される第２類グループのクラスタリング精度を高めることができる。更に、本開示の実施例において、第１類グループを全て改めてクラスタリングした後、ラベルが割り当てられていない画像が削除され、即ち、画像がいずれの第２類グループにもクラスタリングされないことがあり、この時にこれらの画像で第２類グループをそれぞれ形成してもよい。又は、これらのクラスタリングされていない画像の顔特徴類似度をそれぞれ認識してもよく、この類似度が第１閾値より高ければ、類似度が第１閾値より高い画像をクラスタリングして第２類グループを形成してもよい。それによってクラスタリング精度を更に高めることができる。

以上をまとめれば、本開示の実施例は、まず、画像内の顔特徴によって画像を初期的にクラスタリングし、次に、画像に対応する顔特徴と属性特徴とを共に用いて、初期的にクラスタリングされた結果を最適化クラスタリングするようにしてもよく、同一類内の画像の間の類似度を増加し、異なる類の間の画像の間の類似度を下げて、クラスタリング精度を高めることができる。

具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスの何の制限にもならなく、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。

本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、紙数に限りがあるので、本開示では詳細な説明を省略する。

また、本開示は画像クラスタリング装置、電子機器、コンピュータ読取可能記憶媒体、プログラムを更に提供し、それらはいずれも本開示で提供されるいずれか１種の画像のクラスタリング方法を実現することに利用可能であり、対応する技術的解決手段及び説明については方法部分の対応の記載を参照してもよく、ここで詳細な説明を省略する。

図１２は本開示の実施例に係る画像クラスタリング装置のブロック図を示し、図１２に示すように、前記画像クラスタリング装置は、
画像集合内の各画像に対応する顔特徴及び属性特徴を取得するように構成される取得モジュール１０と、
前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも１つの第１類グループを得るように構成される第１クラスタリングモジュール２０であって、各前記第１類グループに含まれる画像が、予測された、同じ対象を含む画像である第１クラスタリングモジュール２０と、
各前記第１類グループ内の各画像の顔特徴及び属性特徴を用いて、各第１類グループに対する類似度行列を決定するように構成される決定モジュール３０であって、前記類似度行列内の要素が、対応する第１類グループ内の各画像の間の類似度を示す決定モジュール３０と、
各前記第１類グループに対応する類似度行列及び各前記第１類グループ内の各画像の顔特徴に基づいて、各前記第１類グループ内の各画像を改めてクラスタリングして、少なくとも１つの第２類グループを得るように構成される第２クラスタリングモジュール４０であって、第２類グループ内の画像が、最適化予測された、同じ対象を含む画像である第２クラスタリングモジュール４０と、を含む。

ある可能な実施形態では、前記第１クラスタリングモジュールは、更に、
前記画像集合内の各画像に対応する顔特徴の間の類似度を決定するステップと、
前記各顔特徴の間の類似度に基づいて、前記各画像の顔特徴との類似度が最も高いＫ個の画像を決定するステップであって、Ｋが１以上の整数であるステップと、
前記各画像の顔特徴との類似度が最も高いＫ個の画像から、顔特徴の類似度が第１閾値を超えた第１画像を選択するステップと、
前記各画像及びそれに対応する前記第１画像に基づいて、第１類グループを形成するステップと、を実行するように構成される。

ある可能な実施形態では、複数の第１閾値を含み、前記第１クラスタリングモジュールは、更に、異なる第１閾値毎に対して、各前記第１閾値に対応する第１類グループを形成するために用いられる。

ある可能な実施形態では、前記決定モジュールは、
各第１類グループ内の各画像の顔特徴の間の類似度に基づいて、対応する第１類グループに関する顔特徴類似度行列を決定するように構成される第１決定ユニットであって、前記顔特徴類似度行列内の要素が、第１類グループ内の各画像の顔特徴の間の類似度を示す第１決定ユニットと、
各第１類グループ内の各画像の属性特徴に基づいて、対応する第１類グループに関する属性特徴類似度行列を決定するように構成される第２決定ユニットであって、前記属性特徴類似度行列内の要素が、第１類グループ内の各画像の属性特徴の間の類似度を示す第２決定ユニットと、
各第１類グループの顔特徴類似度行列及び属性特徴類似度行列に基づいて、各第１類グループに対応する前記類似度行列を得るように構成される第３決定ユニットと、を含む。

ある可能な実施形態では、前記第２決定ユニットは、更に、前記第１類グループ内の各画像の属性特徴と前記この第１類グループ内の全ての画像の属性特徴との間の属性特徴類似度を決定するステップと、
前記第１類グループ内の全ての画像の属性特徴の間の類似度に基づいて、前記第１類グループに関する属性特徴類似度行列を決定するステップと、を実行するように構成される。

ある可能な実施形態では、前記顔特徴類似度行列の第ｉ行の要素は、前記第１類グループ内のｉ番目の画像の顔特徴と前記第１類グループ内の各画像の顔特徴との間の類似度を示し、
前記属性特徴類似度行列の第ｉ行の要素は、第１類グループ内のｉ番目の画像の属性特徴と前記第１類グループ内の各画像の属性特徴との間の類似度を示し、
ｉは１以上且つＮ以下の整数であり、Ｎは第１類グループ内の画像の個数を示す。

ある可能な実施形態では、前記顔特徴の間の類似度及び／又は前記属性特徴の間の類似度は、コサイン類似度である。

ある可能な実施形態では、前記第３決定ユニットは、更に、各第１類グループの顔特徴類似度行列及び属性特徴類似度行列に対して、少なくとも１層の畳み込み処理を実行して、前記の各第１類グループに対応する類似度行列を得るために用いられる。

ある可能な実施形態では、前記第２クラスタリングモジュールは、
各第１類グループに対応する類似度行列を前処理して、前処理後の類似度行列を得るように構成される前処理ユニットと、
各第１類グループに対応する前処理後の類似度行列及び第１類グループ内の各画像の顔特徴に対して、少なくとも１層のグラフ畳み込み処理を実行して、各第１類グループに関する信頼度行列を取得するように構成されるグラフ畳み込みユニットであって、前記信頼度行列内の要素が、第１類グループ内の各画像が当該第１類グループに割り当てられる信頼度を示すグラフ畳み込みユニットと、
前記第１類グループ内の各画像に対応する信頼度に基づいて、前記第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得するように構成されるクラスタリングユニットと、を含む。

ある可能な実施形態では、前記クラスタリングユニットは、更に、前記第１類グループから、信頼度が第２閾値より低い画像を削除して、改めてクラスタリングされた第２類グループを取得するために用いられる。

ある可能な実施形態では、前記グラフ畳み込みユニットは、更に、前記グラフ畳み込み処理に基づいて、対応する第１類グループの分類信頼度を示す、各第１類グループに関する類別信頼度を取得するために用いられ、
前記クラスタリングユニットは、更に、第１類グループの前記類別信頼度が第３閾値より低いことに応じて、この第１類グループを削除するために用いられる。

ある可能な実施形態では、前記クラスタリングユニットは、更に、類別信頼度の高い順に前記各第１類グループに対して順序付けるステップと、
ｊ番目の第１類グループ内の信頼度が第２閾値を超えた画像に、第ｊのラベルを割り当て、当該ｊ番目の第１類グループ内の信頼度が前記第２閾値より低い画像を削除して、当該ｊ番目の第１類グループに対応する第２類グループを形成するステップと、を実行するように構成され、ｊは１以上且つＭ以下の正整数であり、Ｍは第１類グループの数量を示す。

ある可能な実施形態では、前記クラスタリングユニットは、更に、Ｍ番目の第１類グループに対応する第２類グループが得られた後、前記画像集合に、いずれの第２類グループにもクラスタリングされていない画像が存在することに応じて、いずれの第２類グループにもクラスタリングされていない各画像に基づいて、第２類グループをそれぞれ形成するために用いられる。

ある可能な実施形態では、前記前処理ユニットは、更に、前記第１類グループに対応する類似度行列と単位行列とを加算して、前記前処理を実行するために用いられる。

ある可能な実施形態では、前記取得モジュールは、
前記画像集合内の各画像の顔特徴を取得するように構成される第１ニューラルネットワークと、
前記画像集合内の各画像の属性特徴を取得するように構成される第２ニューラルネットワークと、を含む。

いくつかの実施例では、本開示の実施例で提供された装置に備えた機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実施形態については上記方法実施例の説明を参照してもよく、簡単化するために、ここで重複説明は割愛する。

本開示の実施例は、更に、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に上記方法を実現するコンピュータ読取可能記憶媒体を提供する。コンピュータ読取可能記憶媒体は、不揮発性コンピュータ読取可能記憶媒体であってもよい。

本開示の実施例は、プロセッサにより実行される時に、上記方法を実現可能であるコンピュータプログラム製品を更に提供する。本開示の実施例は、プロセッサと、プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、前記プロセッサが上記方法を実行するように構成される電子機器を更に提供する。

電子機器は、端末、サーバ又は他の形態のデバイスとして提供されてもよい。

図１３は本開示の実施例に基づいて示した電子機器８００のブロック図である。例えば、装置８００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット装置、医療機器、フィットネス器具、パーソナル・デジタル・アシスタントなどの端末であってもよい。

図１３を参照すると、電子機器８００は処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）インタフェース８１２、センサコンポーネント８１４、および通信コンポーネント８１６の一つ以上を含むことができる。

処理コンポーネント８０２は通常、電子機器８００の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント８０２は、上記方法の全てまたは一部のステップを完了するために、一つ以上のプロセッサ８２０を含んで命令を実行することができる。また、処理コンポーネント８０２は、他のコンポーネントとの対話のために、一つ以上のモジュールを含むことができる。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８との対話のために、マルチメディアモジュールを含むことができる。

メモリ８０４は電子機器８００での動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は電子機器８００において運用するためのあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ８０４は、例えば静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。

電源コンポーネント８０６は電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は電源管理システム、一つ以上の電源、および電子機器８００のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。

マルチメディアコンポーネント８０８は前記電子機器８００とユーザとの間で出力インタフェースを提供する画面を含む。いくつかの実施例では、画面は液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含むことができる。画面がタッチパネルを含む場合、ユーザからの入力信号を受信するために、タッチ画面として実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出することもできる。いくつかの実施例では、マルチメディアコンポーネント８０８は前面カメラおよび／または後面カメラを含む。電子機器８００が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび／または後面カメラは外部のマルチメディアデータを受信することができる。各前面カメラおよび後面カメラは固定された光学レンズ系または焦点距離および光学ズーム能力を有するものであってもよい。

オーディオコンポーネント８１０はオーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント８１０は、電子機器８００が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成されたマイク（ＭＩＣ）を含む。受信されたオーディオ信号はさらにメモリ８０４に記憶されるか、または通信コンポーネント８１６によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント８１０はさらに、オーディオ信号を出力するためのスピーカーを含む。

Ｉ／Ｏインタフェース８１２は処理コンポーネント８０２と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含むことができるが、これらに限定されない。

センサコンポーネント８１４は電子機器８００に各面での状態評価を提供するための一つ以上のセンサを含む。例えば、センサコンポーネント８１４は電子機器８００のオン／オフ状態、コンポーネントの相対的位置決め、例えば前記コンポーネントが電子機器８００の表示装置およびキーパッドであることを検出でき、センサコンポーネント８１４はさらに、電子機器８００または電子機器８００のあるコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加減速および電子機器８００の温度変化を検出できる。センサコンポーネント８１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するために用いられるように構成された近接センサを含む。センサコンポーネント８１４はさらに、ＣＭＯＳまたはＣＣＤイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含むことができる。いくつかの実施例では、該センサコンポーネント８１４はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含むことができる。

通信コンポーネント８１６は電子機器８００と他の機器との間の有線または無線通信を実現するように配置される。電子機器８００は通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント８１６は放送チャネルによって外部の放送管理システムの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント８１６はさらに、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールでは無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術および他の技術によって実現できる。

例示的な実施例では、電子機器８００は一つ以上の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現し、上記方法を実行するために用いることができる。

例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４が提供され、上記コンピュータプログラム命令は電子機器８００のプロセッサ８２０によって実行して上記方法を完了することができる。

図１４は本開示の実施例に基づいて示した電子機器１９００のブロック図である。例えば、電子機器１９００はサーバとして提供できる。図１４を参照すると、電子機器１９００は、さらに一つ以上のプロセッサを含む処理コンポーネント１９２２、および、処理コンポーネント１９２２によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ１９３２を代表とするメモリ資源を含む。メモリ１９３２に記憶されたアプリケーションプログラムはそれぞれが１グループの命令に対応する一つ以上のモジュールを含むことができる。また、処理コンポーネント１９２２は命令を実行し、それによって上記方法を実行するように構成される。

電子機器１９００はさらに、電子機器１９００の電源管理を実行するように構成された電源コンポーネント１９２６、電子機器１９００をネットワークにアクセスするように構成された有線または無線ネットワークインタフェース１９５０、および入出力（Ｉ／Ｏ）インタフェース１９５８を含むことができる。電子機器１９００はメモリ１９３２に記憶されたオペレーティングシステム、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似するものに基づいて動作できる。

例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令は電子機器１９００の処理コンポーネント１９２２によって実行して上記方法を完了することができる。

本開示はシステム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各態様を実現させるためのコンピュータ読み取り可能プログラム命令がロードされているコンピュータ読み取り可能記憶媒体を含むことができる。

コンピュータ読み取り可能記憶媒体は命令実行機器により使用される命令を保存および記憶可能な有形機器であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例（非包括的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

ここで記述したコンピュータ読み取り可能プログラム命令はコンピュータ読み取り可能記憶媒体から各計算／処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含むことができる。各計算／処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算／処理機器内のコンピュータ読み取り可能記憶媒体に記憶する。

本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズすることで、該電子回路はコンピュータ読み取り可能プログラム命令を実行し、それにより本開示の各態様を実現できるようになる。

なお、ここで本開示の実施例に係る方法、装置（システム）およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら本開示の各態様を説明しが、フローチャートおよび／またはブロック図の各ブロックおよびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。

これらのコンピュータ読み取り可能プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する手段を創出する。また、これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および／または他の機器を特定の方式で動作させるようにしてもよく、それにより、中に保存された命令を有するコンピュータ読み取り可能記憶媒体は、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作の各態様を実現する命令を含む製品を備える。

コンピュータ読み取り可能プログラムはコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることにより、コンピュータ実施プロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令はフローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する。

図面のうちフローチャートおよびブロック図は本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

Claims

画像集合内の各画像に対応する顔特徴及び属性特徴を取得するステップと、
前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも１つの第１類グループを得るステップであって、各前記第１類グループに含まれる画像が、予測された、同じ対象を含む画像であるステップと、
各前記第１類グループ内の各画像の顔特徴及び属性特徴を用いて、各第１類グループに対する類似度行列を決定するステップであって、前記類似度行列内の要素が、対応する第１類グループ内の各画像の間の類似度を示すステップと、
各前記第１類グループに対応する類似度行列及び各前記第１類グループ内の各画像の顔特徴に基づいて、各前記第１類グループ内の各画像を改めてクラスタリングして、少なくとも１つの第２類グループを得るステップであって、第２類グループ内の画像が、最適化予測された、同じ対象を含む画像であるステップと、を含む画像のクラスタリング方法。
前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも１つの第１類グループを得る前記ステップは、
前記画像集合内の各画像に対応する顔特徴の間の類似度を決定するステップと、
前記顔特徴の間の類似度に基づいて、前記各画像の顔特徴との類似度が最も高いＫ個の画像を決定するステップであって、Ｋが１以上の整数であるステップと、
前記各画像の顔特徴との類似度が最も高いＫ個の画像から、顔特徴の類似度が第１閾値を超えた第１画像を選択するステップと、
前記各画像及びそれに対応する前記第１画像に基づいて、第１類グループを形成するステップと、を含む請求項１に記載の方法。
複数の第１閾値を含み、前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも１つの第１類グループを得る前記ステップは、
異なる第１閾値毎に対して、各前記第１閾値に対応する第１類グループを形成するステップを更に含む請求項２に記載の方法。
各前記第１類グループ内の各画像の顔特徴及び属性特徴を用いて、各第１類グループに対する類似度行列を決定する前記ステップは、
各前記第１類グループ内の各画像の顔特徴の間の類似度に基づいて、対応する第１類グループに関する顔特徴類似度行列を決定し、各前記第１類グループ内の各画像の属性特徴に基づいて、対応する第１類グループに関する属性特徴類似度行列を決定するステップであって、前記顔特徴類似度行列内の要素が、前記第１類グループ内の各画像の顔特徴の間の類似度を示し、前記属性特徴類似度行列内の要素が、前記第１類グループ内の各画像の属性特徴の間の類似度を示すステップと、
各前記第１類グループの顔特徴類似度行列及び属性特徴類似度行列に基づいて、各前記第１類グループに対応する前記類似度行列を得るステップと、を含む請求項１−３のいずれか一項に記載の方法。
各第１類グループ内の各画像の属性特徴に基づいて、対応する第１類グループに関する属性特徴類似度行列を決定する前記ステップは、
前記第１類グループ内の各画像の属性特徴と前記第１類グループ内の全ての画像の属性特徴との間の属性特徴類似度を決定するステップと、
前記第１類グループ内の全ての画像の属性特徴の間の類似度に基づいて、前記第１類グループに関する属性特徴類似度行列を決定するステップと、を含む請求項４に記載の方法。
前記顔特徴類似度行列の第ｉ行の要素は、前記第１類グループ内のｉ番目の画像の顔特徴と前記第１類グループ内の各画像の顔特徴との間の類似度を示し、
前記属性特徴類似度行列の第ｉ行の要素は、第１類グループ内のｉ番目の画像の属性特徴と前記第１類グループ内の各画像の属性特徴との間の類似度を示し、
ｉは１以上且つＮ以下の整数であり、Ｎは第１類グループ内の画像の個数を示す請求項４又は５に記載の方法。
前記顔特徴の間の類似度及び／又は前記属性特徴の間の類似度は、コサイン類似度である請求項４−６のいずれか一項に記載の方法。
各前記第１類グループの顔特徴類似度行列及び属性特徴類似度行列に基づいて、各前記第１類グループに対応する前記類似度行列を得る前記ステップは、
各前記第１類グループの顔特徴類似度行列及び属性特徴類似度行列に対して、少なくとも１層の畳み込み処理を実行して、前記の各前記第１類グループに対応する類似度行列を得るステップを含む請求項４−７のいずれか一項に記載の方法。
各前記第１類グループに対応する類似度行列及び各前記第１類グループ内の各画像の顔特徴に基づいて、各前記第１類グループ内の各画像を改めてクラスタリングして、少なくとも１つの第２類グループを得る前記ステップは、
各前記第１類グループに対応する類似度行列を前処理して、前処理後の類似度行列を得るステップと、
各前記第１類グループに対応する前処理後の類似度行列及び対応する前記第１類グループ内の各画像の顔特徴に対して、少なくとも１層のグラフ畳み込み処理を実行して、各前記第１類グループに関する信頼度行列を取得するステップであって、前記信頼度行列内の要素が、対応する前記第１類グループ内の各画像が前記第１類グループに割り当てられる信頼度を示すステップと、
前記第１類グループ内の各画像に対応する信頼度に基づいて、前記第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得するステップと、を含む請求項１−８のいずれか一項に記載の方法。
前記第１類グループ内の各画像に対応する信頼度に基づいて、前記第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得する前記ステップは、
前記第１類グループから、信頼度が第２閾値より低い画像を削除して、改めてクラスタリングされた第２類グループを取得するステップを含む請求項９に記載の方法。
各前記第１類グループに対応する前処理後の類似度行列及び各前記第１類グループ内の各画像の顔特徴に基づいて、各前記第１類グループ内の各画像を改めてクラスタリングして、少なくとも１つの第２類グループを得る前記ステップは、
前記グラフ畳み込み処理に基づいて、各前記第１類グループに関する類別信頼度を更に取得するステップであって、前記類別信頼度が、対応する第１類グループの分類信頼度を示すステップを更に含み、
前記第１類グループ内の各画像に対応する信頼度に基づいて、前記第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得する前記ステップの前に、
前記第１類グループの前記類別信頼度が第３閾値より低いことに応じて、前記第１類グループを削除するステップを更に含む請求項９に記載の方法。
前記第１類グループ内の各画像に対応する信頼度に基づいて、前記第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得する前記ステップは、
類別信頼度の高い順に前記第１類グループに対して順序付けるステップと、
ｊ番目の第１類グループ内の信頼度が第２閾値を超えた画像に、第ｊのラベルを割り当て、当該ｊ番目の第１類グループ内の信頼度が前記第２閾値より低い画像を削除して、当該ｊ番目の第１類グループに対応する第２類グループを形成するステップと、を含み、ｊは１以上且つＭ以下の正整数であり、Ｍは第１類グループの数量を示す請求項１１に記載の方法。
前記第１類グループ内の各画像に対応する信頼度に基づいて、前記第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得する前記ステップは、
Ｍ番目の前記第１類グループに対応する第２類グループが得られた後、前記画像集合に、いずれの第２類グループにもクラスタリングされていない画像が存在することに応じて、いずれの第２類グループにもクラスタリングされていない各画像に基づいて、第２類グループをそれぞれ形成するステップを更に含む請求項１２に記載の方法。
各第１類グループに対応する類似度行列を前処理して、前処理後の類似度行列を得る前記ステップは、
前記第１類グループに対応する類似度行列と単位行列とを加算するステップを含む請求項９−１３のいずれか一項に記載の方法。
画像集合内の各画像に対応する顔特徴及び属性特徴を取得する前記ステップは、
第１ニューラルネットワークを用いて前記画像集合内の各画像の顔特徴を取得し、
第２ニューラルネットワークを用いて前記画像集合内の各画像の属性特徴を取得するステップを含む請求項１−１４のいずれか一項に記載の方法。
画像集合内の各画像に対応する顔特徴及び属性特徴を取得するように構成される取得モジュールと、
前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも１つの第１類グループを得るように構成される第１クラスタリングモジュールであって、各前記第１類グループに含まれる画像が、予測された、同じ対象を含む画像である第１クラスタリングモジュールと、
各前記第１類グループ内の各画像の顔特徴及び属性特徴を用いて、各第１類グループに対する類似度行列を決定するように構成される決定モジュールであって、前記類似度行列内の要素が、対応する第１類グループ内の各画像の間の類似度を示す決定モジュールと、
各前記第１類グループに対応する類似度行列及び各前記第１類グループ内の各画像の顔特徴に基づいて、各前記第１類グループ内の各画像を改めてクラスタリングして、少なくとも１つの第２類グループを得るように構成される第２クラスタリングモジュールであって、第２類グループ内の画像が、最適化予測された、同じ対象を含む画像である第２クラスタリングモジュールと、を含む画像クラスタリング装置。
前記第１クラスタリングモジュールは、更に、
前記画像集合内の各画像に対応する顔特徴の間の類似度を決定するステップと、
前記各顔特徴の間の類似度に基づいて、前記各画像の顔特徴との類似度が最も高いＫ個の画像を決定するステップであって、Ｋが１以上の整数であるステップと、
前記各画像の顔特徴との類似度が最も高いＫ個の画像から、顔特徴の類似度が第１閾値を超えた第１画像を選択するステップと、
前記各画像及びそれに対応する前記第１画像に基づいて、第１類グループを形成するステップと、を実行するように構成される請求項１６に記載の装置。
複数の第１閾値を含み、前記第１クラスタリングモジュールは、更に、異なる第１閾値毎に対して、各前記第１閾値に対応する第１類グループを形成するために用いられる請求項１７に記載の装置。
前記決定モジュールは、
各前記第１類グループ内の各画像の顔特徴の間の類似度に基づいて、対応する第１類グループに関する顔特徴類似度行列を決定するように構成される第１決定ユニットであって、前記顔特徴類似度行列内の要素が、前記第１類グループ内の各画像の顔特徴の間の類似度を示す第１決定ユニットと、
各前記第１類グループ内の各画像の属性特徴に基づいて、対応する第１類グループに関する属性特徴類似度行列を決定するように構成される第２決定ユニットであって、前記属性特徴類似度行列内の要素が、前記第１類グループ内の各画像の属性特徴の間の類似度を示す第２決定ユニットと、
各前記第１類グループの顔特徴類似度行列及び属性特徴類似度行列に基づいて、各第１類グループに対応する前記類似度行列を得るように構成される第３決定ユニットと、を含む請求項１６−１８のいずれか一項に記載の装置。
前記第２決定ユニットは、更に、前記第１類グループ内の各画像の属性特徴と前記この第１類グループ内の全ての画像の属性特徴との間の属性特徴類似度を決定し、
前記第１類グループ内の全ての画像の属性特徴の間の類似度に基づいて、前記第１類グループに関する属性特徴類似度行列を決定するように構成される請求項１９に記載の装置。
前記顔特徴類似度行列の第ｉ行の要素は、前記第１類グループ内のｉ番目の画像の顔特徴と前記第１類グループ内の各画像の顔特徴との間の類似度を示し、
前記属性特徴類似度行列の第ｉ行の要素は、第１類グループ内のｉ番目の画像の属性特徴と前記第１類グループ内の各画像の属性特徴との間の類似度を示し、
ｉは１以上且つＮ以下の整数であり、Ｎは第１類グループ内の画像の個数を示す請求項１９又は２０に記載の装置。
前記顔特徴の間の類似度及び／又は前記属性特徴の間の類似度は、コサイン類似度である請求項１９−２１のいずれか一項に記載の装置。
前記第３決定ユニットは、更に、各前記第１類グループの顔特徴類似度行列及び属性特徴類似度行列に対して、少なくとも１層の畳み込み処理を実行して、前記の各前記第１類グループに対応する類似度行列を得るように構成される請求項１９−２２のいずれか一項に記載の装置。
前記第２クラスタリングモジュールは、
各前記第１類グループに対応する類似度行列を前処理して、前処理後の類似度行列を得るように構成される前処理ユニットと、
各前記第１類グループに対応する前処理後の類似度行列及び対応する前記第１類グループ内の各画像の顔特徴に対して、少なくとも１層のグラフ畳み込み処理を実行して、各前記第１類グループに関する信頼度行列を取得するように構成されるグラフ畳み込みユニットであって、前記信頼度行列内の要素が、対応する前記第１類グループ内の各画像が前記第１類グループに割り当てられる信頼度を示すグラフ畳み込みユニットと、
前記第１類グループ内の各画像に対応する信頼度に基づいて、前記第１類グループを改めてクラスタリングして、改めてクラスタリングされた第２類グループを取得するように構成されるクラスタリングユニットと、を含む請求項１６−２３のいずれか一項に記載の装置。
前記クラスタリングユニットは、更に、前記第１類グループから、信頼度が第２閾値より低い画像を削除して、改めてクラスタリングされた第２類グループを取得するように構成される請求項２４に記載の装置。
前記グラフ畳み込みユニットは、前記グラフ畳み込み処理に基づいて、各前記第１類グループに関する類別信頼度を取得するようにさらに構成され、前記類別信頼度が、対応する第１類グループの分類信頼度を示し、
前記クラスタリングユニットは、更に、前記第１類グループの前記類別信頼度が第３閾値より低いことに応じて、前記第１類グループを削除するように構成される請求項２４に記載の装置。
前記クラスタリングユニットは、更に、類別信頼度の高い順に前記各第１類グループに対して順序付けるステップと、
ｊ番目の第１類グループ内の信頼度が第２閾値を超えた画像に、第ｊのラベルを割り当て、当該ｊ番目の第１類グループ内の信頼度が前記第２閾値より低い画像を削除して、当該ｊ番目の第１類グループに対応する第２類グループを形成するステップと、を実行するように構成され、ｊは１以上且つＭ以下の正整数であり、Ｍは第１類グループの数量を示す請求項２６に記載の装置。
前記クラスタリングユニットは、更に、Ｍ番目の第１類グループに対応する第２類グループが得られた後、前記画像集合に、いずれの第２類グループにもクラスタリングされていない画像が存在することに応じて、いずれの第２類グループにもクラスタリングされていない各画像に基づいて、第２類グループをそれぞれ形成するように構成される請求項２７に記載の装置。
前記前処理ユニットは、更に、前記第１類グループに対応する類似度行列と単位行列とを加算して、前記前処理を実行するように構成される請求項２４−２８のいずれか一項に記載の装置。
前記取得モジュールは、
前記画像集合内の各画像の顔特徴を取得するように構成される第１ニューラルネットワークと、
前記画像集合内の各画像の属性特徴を取得するように構成される第２ニューラルネットワークと、を含む請求項１６−２９のいずれか一項に記載の装置。
プロセッサと、
プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、
前記プロセッサが請求項１−１５のいずれか一項に記載の方法を実行するように構成される電子機器。
コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に請求項１−１５のいずれか一項に記載の方法を実現するコンピュータ読取可能記憶媒体。
プロセッサにより実行される時に、請求項１−１５のいずれか一項に記載の方法を実現可能であるコンピュータプログラム。