JP2022511221A

JP2022511221A - 画像処理方法、画像処理装置、プロセッサ、電子機器、記憶媒体及びコンピュータプログラム

Info

Publication number: JP2022511221A
Application number: JP2021500683A
Authority: JP
Inventors: 芸瀟葛; 大鵬陳; 鴻昇李
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-09-24
Filing date: 2019-11-18
Publication date: 2022-01-31
Anticipated expiration: 2039-11-18
Also published as: WO2021056765A1; JP7108123B2; CN110647938B; CN110647938A; SG11202010487PA; TW202113692A; KR20210095671A

Abstract

本開示は、画像処理方法及び関連装置を開示している。この方法は、処理対象の画像を取得することと、対象ニューラルネットワークを用いて前記処理対象の画像に対して特徴抽出処理を行って、前記処理対象の画像の目標特徴データを取得することとを含み、前記目標ニューラルネットワークのパラメータは、第１のニューラルネットワークのパラメータの時系列平均値であり、前記第１のニューラルネットワークは、トレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得され、前記平均ネットワークのパラメータは、第２のニューラルネットワークのパラメータの時系列平均値であり、前記第２のニューラルネットワークは、前記トレーニング画像セット及び前記目標ニューラルネットワークを用いて教師ありトレーニングを行って取得される。本開示はさらに、対応する装置を開示している。処理対象の画像に対して特徴抽出処理を行うことにより処理対象の画像対象の特徴データを取得する。【選択図】図１

Description

本開示は画像処理の分野に関し、特に画像処理方法及び関連装置に関する。

近年、ニューラルネットワークは、その優れた性能により、様々な画像認識タスク（例えば歩行者の再認識や画像分類）に広く利用されている。一方、ニューラルネットワークのトレーニングには、大量のラベル付きデータが必要である。人々は、教師なし学習でラベルなしデータを使用してニューラルネットワークのトレーニングを完了する。従来の教師なし学習方法では、ソースドメインでトレーニングされたニューラルネットワークによってターゲットドメインのラベルなし画像を認識し、ターゲットドメインのラベルなし画像にラベルを付加し、そのラベルを教師として、ソースドメインでトレーニングされたニューラルネットワークをトレーニングし、ソースドメインでトレーニングされたニューラルネットワークのパラメータを調整して、ターゲットドメインに適用されるニューラルネットワークを取得する。

本開示は、画像処理の発明を提供する。

第１の方面では、処理対象の画像を取得することと、目標ニューラルネットワークを用いて前記処理対象の画像に対して特徴抽出処理を行って、前記処理対象の画像の目標特徴データを取得することとを含み、前記目標ニューラルネットワークのパラメータは、第１のニューラルネットワークのパラメータの時系列平均値であり、前記第１のニューラルネットワークは、トレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得され、前記平均ネットワークのパラメータは、第２のニューラルネットワークのパラメータの時系列平均値であり、前記第２のニューラルネットワークは、前記トレーニング画像セット及び前記目標ニューラルネットワークを用いて教師ありトレーニングを行って取得される画像処理方法を提供する。

この方面では、第１のニューラルネットワークのパラメータの時系列平均値と第２のニューラルネットワークの時系列平均値を決定して目標ニューラルネットワークのパラメータと平均ネットワークのパラメータをそれぞれ取得し、目標ニューラルネットワークの出力を教師として第２のニューラルネットワークをトレーニングし、平均ネットワークの出力を教師として第１のニューラルネットワークをトレーニングして、目標ニューラルネットワークをトレーニングする。これにより、トレーニング効果を向上させることができる。また、目標ニューラルネットワークを用いてターゲットドメインで関連する認識タスクを実行するとき、情報がより豊富な目標特徴データを抽出できる。

可能な一実施形態では、前記第１のニューラルネットワークは、トレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得されることは、前記トレーニング画像セット、第１のトレーニング対象のニューラルネットワーク及び第２のトレーニング対象のニューラルネットワークを取得することと、前記第１のトレーニング対象のニューラルネットワーク及び前記第２のトレーニング対象のニューラルネットワークに対してｘ（ｘは、正の整数）回の第１の反復を実行して前記第１のニューラルネットワーク及び第２のニューラルネットワークを取得することとを含み、前記ｘ回の第１の反復のうちｉ（ｉは、前記ｘ以下の正の整数）回目の第１の反復は、前記トレーニング画像セット及びｉ回目の第１の反復の前記平均ネットワークの出力を教師としてｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得し、前記トレーニング画像セット及びｉ回目の第１の反復の前記目標ニューラルネットワークの出力を教師としてｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークを取得することを含み、前記目標ニューラルネットワークのパラメータが第１のニューラルネットワークのパラメータの時系列平均値であることは、ｉ－１回目の第１の反復の前記目標ニューラルネットワークのパラメータ及び前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークのパラメータに基づいて前記ｉ回目の第１の反復の前記目標ニューラルネットワークのパラメータを決定することと、前記ｉ＝１の場合、前記ｉ－１回目の第１の反復の前記目標ニューラルネットワークのパラメータは、前記第１のトレーニング対象のニューラルネットワークのパラメータと同じであることとを含む。

この可能な実施形態では、ｉ回目の第１の反復において、ｉ回目の第１の反復の平均ネットワークを用いてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークの教師ありトレーニングを行い、ｉ回目の第１の反復の目標ニューラルネットワークを用いてｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークの教師ありトレーニングを行う。これにより、ｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークの出力とｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークの出力との関連性がトレーニング効果に与える影響を低減して、トレーニング効果を向上させることができる。

別の可能な一実施形態では、前記トレーニング画像セット及びｉ回目の平均ネットワークの出力を教師としてｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングして、ｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することは、前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第１の特徴データセットを取得し、前記ｉ回目の第１の反復の前記平均ネットワークによって前記トレーニング画像セットを処理して第２の特徴データセットを取得することと、前記第１の特徴データセット及び前記第２の特徴データセットに基づいて第１のソフトトリプレット損失を取得することと、前記トレーニング画像セット及び前記第１のソフトトリプレット損失を教師として前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングして、前記ｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することとを含む。

この可能な一実施形態では、第１の特徴データセット及び第２の特徴データセットによって第１のソフトトリプレット損失を決定し、ｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークのパラメータを調整する。これにより、ターゲットドメインの画像に対するｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークの特徴抽出効果を向上させて、ターゲットドメインの画像に対する目標ニューラルネットワークの特徴抽出効果を向上させることができる。

別の可能な一実施形態では、前記第１の特徴データセット及び前記第２の特徴データセットに基づいて第１のソフトトリプレット損失を取得することは、前記トレーニング画像セット内の第１の画像の前記第１の特徴データセットにおける第１の特徴データと、前記第１の特徴データセット内の、前記第１の画像の第１のラベルと同じラベルを有する画像の特徴データを含むポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第１の類似度を取得することと、前記第１の画像の前記第２の特徴データセットにおける第２の特徴データと、前記第２の特徴データセット内の前記ポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第２の類似度を取得することと、前記第１の特徴データと、前記第１の特徴データセット内の、前記第１のラベルと異なるラベルを有する画像の特徴データを含むネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第３の類似度を取得し、前記第２の特徴データと、前記第２の特徴データセット内の前記ネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第４の類似度を取得することと、前記第１の類似度、前記第２の類似度、前記第３の類似度及び前記第４の類似度をそれぞれ正規化処理して第５の類似度、第６の類似度、第７の類似度及び第８の類似度を取得することと、前記第５の類似度、前記第６の類似度、前記第７の類似度及び前記第８の類似度に基づいて前記第１のソフトトリプレット損失を取得することとを含む。

この可能な一実施形態では、第１の類似度、第２の類似度、第３の類似度及び第４の類似度を正規化処理し、第１の類似度、第２の類似度、第３の類似度及び第４の類似度を０から１の間の数値に変換し、データの実際の分布によりマッチングする第５の類似度、第６の類似度、第７の類似度及び第８の類似度を取得する。これにより、目標ニューラルネットワークに対するトレーニング効果を向上させる。

別の可能な一実施形態では、前記第１の類似度、前記第２の類似度、前記第３の類似度及び前記第４の類似度をそれぞれ正規化処理して第５の類似度、第６の類似度、第７の類似度及び第８の類似度を取得することは、前記第２の類似度と前記第４の類似度との和を第１の総類似度として取得し、前記第１の類似度と前記第３の類似度との和を第２の総類似度として取得することと、前記第２の類似度を前記第１の総類似度で除算した商を前記第５の類似度として取得し、前記第４の類似度を前記第１の総類似度で除算した商を前記第６の類似度として取得することと、前記第１の類似度を前記第２の総類似度で除算した商を前記第７の類似度として取得し、前記第３の類似度を前記第２の総類似度で除算した商を前記第８の類似度として取得することとを含む。

別の可能な一実施形態では、前記トレーニング画像セット及び前記第１のソフトトリプレット損失を教師として前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングして、前記ｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することは、前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記第１の画像を処理して第１の分類結果を取得することと、前記第１の分類結果、前記第１のラベル及び前記第１のソフトトリプレット損失に基づいて前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークの第１の損失を決定することと、前記第１の損失に基づいて前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークのパラメータを調整して、前記ｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することとを含む。

別の可能な一実施形態では、前記第１の分類結果、前記第１のラベル及び前記第１のソフトトリプレット損失に基づいて前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークの第１の損失を決定することは、前記第１の分類結果と前記第１のラベルとの差分に基づいて第１のハード分類損失を決定することと、前記第１のハード分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することとを含む。

別の可能な一実施形態では、前記第１のハード分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定する前に、前記ｉ回目の第１の反復の前記平均ネットワークによって前記第１の画像を処理して第２の分類結果を取得することと、前記第１の分類結果と前記第２の分類結果との差分に基づいて第１のソフト分類損失を決定することとをさらに含み、前記第１のハード分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することは、前記第１のハード分類損失、前記第１のソフト分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することを含む。

別の可能な一実施形態では、前記第１のハード分類損失、前記第１のソフト分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定する前に、前記第１の類似度及び前記第３の類似度に基づいて第１のハードトリプレット損失を決定することをさらに含み、前記第１のハード分類損失、前記第１のソフト分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することは、前記第１のハード分類損失、前記第１のソフト分類損失、前記第１のソフトトリプレット損失及び前記第１のハードトリプレット損失に基づいて前記第１の損失を決定することを含む。

別の可能な一実施形態では、前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記トレーニング画像セット内の第１の画像を処理して第１の分類結果を取得することは、前記トレーニング画像セットに対して消去処理、トリミング処理、反転処理のいずれかを含む第１の前処理を行って第１の画像セットを取得することと、前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記第１の画像セット内の第２の画像を処理して前記第１の分類結果を取得することとを含み、前記第２の画像は、前記第１の画像に対して前記第１の前処理を行って取得され、前記第２の画像の前記第１の特徴データセットにおける特徴データは、前記第１の画像の前記第１の特徴データセットにおけるデータと同じである。

この可能な一実施形態では、トレーニング画像セット内の画像に対して第１の前処理を行って第１の画像セットを取得し、第１の画像セットをｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワーク及びｉ回目の第１の反復の目標ニューラルネットワークに入力する。これにより、トレーニング中に過剰適合の発生確率を低減する。

別の可能な一実施形態では、前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第１の特徴データセットを取得することは、前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記第１の画像セットを処理して前記第１の特徴データセットを取得することを含む。

別の可能な一実施形態では、前記トレーニング画像セットを取得することは、処理対象の画像セット及び第３のニューラルネットワークを取得することと、前記第３のニューラルネットワークに対してｙ（ｙは、正の整数である）回の第２の反復を実行して前記トレーニング画像セットを取得するととを含み、前記ｙ回の第２の反復のうちｔ（ｔは、前記ｙよりも小さい正の整数）回目の第２の反復は、前記処理対象の画像セットからサンプリングして第２の画像セットを取得し、ｔ回目の第２の反復の第３のニューラルネットワークによって前記第２の画像セット内の画像を処理して、前記第２の画像セット内の画像の特徴データを含む第３の特徴データセット及び前記第２の画像セット内の画像の分類結果を含む分類結果セットを取得することと、前記第３の特徴データセット内の特徴データをクラスタリング処理して前記第３の特徴データセット内の特徴データのラベルを決定し、前記第３の特徴データセット内の特徴データのラベルを前記第２の画像セット内の対応する画像に付加して第３の画像セットを取得することと、前記分類結果セット内の分類結果と前記第３の画像セット内の画像のラベルとの差分に基づいて第３の損失を決定することと、前記第３の損失に基づいて前記ｔ回目の第２の反復の第３のニューラルネットワークのパラメータを調整して、ｔ＋１回目の第２の反復の第３のニューラルネットワークのパラメータを取得することとを含む。

別の可能な一実施形態では、前記方法は、前記目標特徴データでデータベースを検索して、前記目標特徴データにマッチングする特徴データの画像を有する目標画像として取得することをさらに含む。

別の可能な一実施形態では、前記処理対象の画像は、人物オブジェクトを含む。

別の可能な一実施形態では、前記トレーニング画像セット及びｉ回目の第１の反復の前記目標ニューラルネットワークの出力を教師としてｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークを取得することは、前記ｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第４の特徴データセットを取得し、前記ｉ回目の第１の反復の前記目標ニューラルネットワークによって前記トレーニング画像セットを処理して第５の特徴データセットを取得することと、前記第４の特徴データセット及び前記第５の特徴データセットに基づいて第２のソフトトリプレット損失を取得することと、前記トレーニング画像セット及び前記第２のソフトトリプレット損失を教師として前記ｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークをトレーニングして前記ｉ＋１回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークを取得することとを含む。

別の可能な一実施形態では、前記第４の特徴データセット及び前記第５の特徴データセットに基づいて第２のソフトトリプレット損失を取得することは、前記第１の画像の前記第４の特徴データセットにおける第３の特徴データと、前記第４の特徴データセット内の、前記第１のラベルと同じラベルを有する画像の特徴データを含むポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第９の類似度を取得することと、前記第１の画像の前記第５の特徴データセットにおける第４の特徴データと、前記第５の特徴データセットの前記ポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して第１１の類似度を取得することと、前記第３の特徴データと、前記第４の特徴データセット内の、前記第１のラベルと異なるラベルを有する画像の特徴データを含むネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第１０の類似度を取得することと、前記第３の特徴データと、前記第４の特徴データセットの前記ネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して第１２の類似度を取得することと、前記第９の類似度、前記第１０の類似度、前記第１１の類似度及び前記第１２の類似度をそれぞれ正規化処理して第１３の類似度、第１４の類似度、第１５の類似度及び第１６の類似度を取得することと、前記第１３の類似度、前記第１４の類似度、前記第１５の類似度及び前記第１６の類似度に基づいて前記第２のソフトトリプレット損失を取得することとを含む。

別の可能な一実施形態では、前記第９の類似度、前記第１０の類似度、前記第１１の類似度及び前記第１２の類似度をそれぞれ正規化処理して第１３の類似度、第１４の類似度、第１５の類似度及び第１６の類似度を取得することは、前記第９の類似度と前記第１０の類似度との和を第３の総類似度として取得し、前記第１１の類似度と前記第１２の類似度との和を第４の総類似度として取得することと、前記第９の類似度と前記第３の総類似度との商を前記第１３の類似度として取得し、前記第１０の類似度と前記第３の総類似度との商を前記第１４の類似度として取得することと、前記第１１の類似度と前記第４の総類似度との商を前記第１５の類似度として取得し、前記第１２の類似度と前記第４の総類似度との商を前記第１６の類似度として取得することとを含む。

別の可能な一実施形態では、前記トレーニング画像セット及び前記第２のソフトトリプレット損失を教師として前記ｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークをトレーニングして前記ｉ＋１回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークを取得することは、前記ｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークによって前記第１の画像を処理して第３の分類結果を取得することと、前記第３の分類結果、前記第１のラベル及び前記第２のソフトトリプレット損失に基づいて前記ｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークの第２の損失を決定することと、前記第２の損失に基づいて前記ｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークのパラメータを調整して前記ｉ＋１回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークを取得することとを含む。

別の可能な一実施形態では、前記第３の分類結果、前記第１のラベル及び前記第２のソフトトリプレット損失に基づいて前記ｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークの第２の損失を決定することは、前記第３の分類結果と前記第１のラベルとの差分に基づいて第２のハード分類損失を決定することと、前記第２のハード分類損失及び前記第２のソフトトリプレット損失に基づいて前記第２の損失を決定することとを含む。

別の可能な一実施形態では、前記第２のハード分類損失及び前記第２のソフトトリプレット損失に基づいて前記第２の損失を決定する前に、前記ｉ回目の第１の反復の前記目標ニューラルネットワークによって前記第１の画像を処理して第４の分類結果を取得することと、前記第３の分類結果と前記第４の分類結果との差分に基づいて第２のソフト分類損失を決定することとをさらに含み、前記第２のハード分類損失及び前記第２のソフトトリプレット損失に基づいて前記第２の損失を決定することは、前記第２のハード分類損失、前記第２のソフト分類損失及び前記第２のソフトトリプレット損失に基づいて前記第２の損失を決定することを含む。

別の可能な一実施形態では、前記第２のハード分類損失、前記第２のソフト分類損失及び前記第２のソフトトリプレット損失に基づいて前記第２の損失を決定する前に、前記第９の類似度及び前記第１０の類似度に基づいて第２のハードトリプレット損失を決定することをさらに含み、前記第２のハード分類損失、前記第２のソフト分類損失及び前記第２のソフトトリプレット損失に基づいて前記第２の損失を決定することは、前記第２のハード分類損失、前記第２のソフト分類損失、前記第２のソフトトリプレット損失及び前記第２のハードトリプレット損失に基づいて前記第２の損失を決定することを含む。

別の可能な一実施形態では、前記ｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークによって前記トレーニング画像セット内の第１の画像を処理して第３の分類結果を取得することは、前記トレーニング画像セットに対して消去処理、トリミング処理、反転処理のいずれかを含む第２の前処理を行って第４の画像セットを取得することと、前記ｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークによって前記第４の画像セットの第３の画像を処理して前記第３の分類結果を取得することと含み、前記第３の画像は、前記第１の画像に対して前記第２の前処理を行って取得され、前記第３の画像の前記第４の特徴データセットにおける特徴データは、前記第１の画像の前記第４の特徴データセットにおけるデータと同じであり、前記第１の前処理は、前記第２の前処理と異なる。

別の可能な一実施形態では、ｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第４の特徴データセットを取得することは、前記ｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークによって前記第４の画像セットを処理して前記第４の特徴データセットを取得することを含む。

第２の方面では、処理対象の画像を取得するための取得ユニットと、目標ニューラルネットワークを用いて前記処理対象の画像に対して特徴抽出処理を行って前記処理対象の画像の目標特徴データを取得するための特徴抽出処理ユニットを備え、前記目標ニューラルネットワークのパラメータは、第１のニューラルネットワークのパラメータの時系列平均値であり、前記第１のニューラルネットワークは、トレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得され、前記平均ネットワークのパラメータは、第２のニューラルネットワークのパラメータの時系列平均値であり、前記第２のニューラルネットワークは、前記トレーニング画像セット及び前記目標ニューラルネットワークを用いて教師ありトレーニングを行って取得される画像処理装置を提供する。

別の可能な一実施形態では、前記トレーニング画像セット及びｉ回目の平均ネットワークの出力を教師としてｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することは、前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第１の特徴データセットを取得し、前記ｉ回目の第１の反復の前記平均ネットワークによって前記トレーニング画像セットを処理して第２の特徴データセットを取得することと、前記第１の特徴データセット及び前記第２の特徴データセットに基づいて第１のソフトトリプレット損失を取得することと、前記トレーニング画像セット及び前記第１のソフトトリプレット損失を教師として前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングして前記ｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することとを含む。

別の可能な一実施形態では、前記第１の特徴データセット及び前記第２の特徴データセットに基づいて第１のソフトトリプレット損失を取得することは、前記トレーニング画像セット内の第１の画像の前記第１の特徴データセットにおける第１の特徴データと、前記第１の特徴データセット内の、前記第１の画像の第１のラベルと同じラベルを有する画像の特徴データを含むポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して第１の類似度を取得し、前記第１の画像の前記第２の特徴データセットにおける第２の特徴データと、前記第２の特徴データセット内の前記ポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第２の類似度を取得することと、前記第１の特徴データと、前記第１の特徴データセット内の、前記第１のラベルと異なるラベルを有する画像の特徴データを含むネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第３の類似度を取得し、前記第２の特徴データと、前記第２の特徴データセット内の前記ネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して第４の類似度を取得することと、前記第１の類似度、前記第２の類似度、前記第３の類似度及び前記第４の類似度をそれぞれ正規化処理して、第５の類似度、第６の類似度、第７の類似度及び第８の類似度を取得することと、前記第５の類似度、前記第６の類似度、前記第７の類似度及び前記第８の類似度に基づいて前記第１のソフトトリプレット損失を取得することとを含む。

別の可能な一実施形態では、前記第１の類似度、前記第２の類似度、前記第３の類似度及び前記第４の類似度をそれぞれ正規化処理して第５の類似度、第６の類似度、第７の類似度及び第８の類似度を取得することは、前記第２の類似度と前記第４の類似度との和を第１の総類似度として取得し、前記第１の類似度と前記第３の類似度との和を第２の総類似度として取得することと、前記第２の類似度と前記第１の総類似度との商を前記第５の類似度として取得し、前記第４の類似度と前記第１の総類似度との商を前記第６の類似度として取得することと、前記第１の類似度と前記第２の総類似度との商を前記第７の類似度として取得し、前記第３の類似度と前記第２の総類似度との商を前記第８の類似度として取得することとを含む。

別の可能な一実施形態では、前記トレーニング画像セット及び前記第１のソフトトリプレット損失を教師として前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングして前記ｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することは、前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記第１の画像を処理して第１の分類結果を取得することと、前記第１の分類結果、前記第１のラベル及び前記第１のソフトトリプレット損失に基づいて前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークの第１の損失を決定することと、前記第１の損失に基づいて前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークのパラメータを調整して前記ｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することとを含む。

別の可能な一実施形態では、前記第１のハード分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定する前に、前記ｉ回目の第１の反復の前記平均ネットワークによって前記第１の画像を処理して第２の分類結果を取得し、前記第１の分類結果と前記第２の分類結果との差分に基づいて第１のソフト分類損失を決定し、前記第１のハード分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することは、前記第１のハード分類損失、前記第１のソフト分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することを含む。

別の可能な一実施形態では、前記第１のハード分類損失、前記第１のソフト分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定する前に、前記第１の類似度及び前記第３の類似度に基づいて第１のハードトリプレット損失を決定し、前記第１のハード分類損失、前記第１のソフト分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することは、前記第１のハード分類損失、前記第１のソフト分類損失、前記第１のソフトトリプレット損失及び前記第１のハードトリプレット損失に基づいて前記第１の損失を決定することを含む。

別の可能な一実施形態では、前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記トレーニング画像セット内の第１の画像を処理して第１の分類結果第１のトレーニング対象のニューラルネットワークを取得することは、前記トレーニング画像セットに対して消去処理、トリミング処理、反転処理のいずれかを含む第１の前処理を行って第１の画像セットを取得することと、前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記第１の画像セット内の第２の画像を処理して前記第１の分類結果を取得することとを含み、前記第２の画像は、前記第１の画像に対して前記第１の前処理を行って取得され、前記第２の画像の前記第１の特徴データセットにおける特徴データは、前記第１の画像の前記第１の特徴データセットにおけるデータと同じである。

別の可能な一実施形態では、前記取得ユニットは具体的に、処理対象の画像セット及び第３のニューラルネットワークを取得することと、前記第３のニューラルネットワークに対してｙ（ｙは、正の整数）回の第２の反復を実行して前記トレーニング画像セットを取得することとに用いられ、前記ｙ回の第２の反復のうちｔ（ｔは、前記ｙよりも小さい正の整数）回目の第２の反復は、前記処理対象の画像セットからサンプリングして第２の画像セットを取得し、ｔ回目の第２の反復の第３のニューラルネットワークによって前記第２の画像セット内の画像を処理して、前記第２の画像セット内の画像の特徴データを含む第３の特徴データセット及び前記第２の画像セット内の画像の分類結果を含む分類結果セットを取得することと、前記第３の特徴データセット内の特徴データをクラスタリング処理して前記第３の特徴データセット内の特徴データのラベルを決定し、前記第３の特徴データセット内の特徴データのラベルを前記第２の画像セット内の対応する画像に付加して第３の画像セットを取得することと、前記分類結果セット内の分類結果と前記第３の画像セット内の画像のラベルとの差分に基づいて第３の損失を決定することと、前記第３の損失に基づいて前記ｔ回目の第２の反復の第３のニューラルネットワークのパラメータを調整してｔ＋１回目の第２の反復の第３のニューラルネットワークのパラメータを取得することとを含む。

別の可能な一実施形態では、前記装置は、前記目標特徴データでデータベースを検索して、前記目標特徴データにマッチングする特徴データを有する画像を目標画像として取得するための検索ユニットをさらに含む。

別の可能な一実施形態では、前記第４の特徴データセット及び前記第５の特徴データセットに基づいて第２のソフトトリプレット損失を取得することは、前記第１の画像の前記第４の特徴データセットにおける第３の特徴データと、前記第４の特徴データセット内の、前記第１のラベルと同じラベルを有する画像の特徴データを含むポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第９の類似度を取得することと、前記第１の画像の前記第５の特徴データセットにおける第４の特徴データと、前記第５の特徴データセットの前記ポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して第１１の類似度を取得することと、前記第３の特徴データと、前記第４の特徴データセット内の、前記第１のラベルと異なるラベルを有する画像の特徴データを含むネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第１０の類似度を取得することと、前記第３の特徴データと、前記第４の特徴データセットの前記ネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第１２の類似度を取得することと、前記第９の類似度、前記第１０の類似度、前記第１１の類似度及び前記第１２の類似度をそれぞれ正規化処理して第１３の類似度、第１４の類似度、第１５の類似度及び第１６の類似度を取得することと、前記第１３の類似度、前記第１４の類似度、前記第１５の類似度及び前記第１６の類似度に基づいて前記第２のソフトトリプレット損失を取得することとを含む。

別の可能な一実施形態では、前記第９の類似度、前記第１０の類似度、前記第１１の類似度及び前記第１２の類似度をそれぞれ正規化処理して第１３の類似度、第１４の類似度、第１５の類似度及び第１６の類似度を取得することとは、前記第９の類似度と前記第１０の類似度との和を第３の総類似度として取得し、前記第１１の類似度と前記第１２の類似度との和を第４の総類似度として取得することと、前記第９の類似度と前記第３の総類似度との商を前記第１３の類似度として取得し、前記第１０の類似度と前記第３の総類似度との商を前記第１４の類似度として取得することと、前記第１１の類似度と前記第４の総類似度との商を前記第１５の類似度として取得し、前記第１２の類似度と前記第４の総類似度との商を前記第１６の類似度として取得することとを含む。

別の可能な一実施形態では、前記トレーニング画像セット及び前記第２のソフトトリプレット損失を教師として前記ｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークをトレーニングして前記ｉ＋１回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークを取得することは、前記ｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークによって前記第１の画像を処理して第３の分類結果を取得することと、前記第３の分類結果、前記第１のラベル及び前記第２のソフトトリプレット損失に基づいて前記ｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークの第２の損失を決定することと、前記第２の損失に基づいて前記ｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークのパラメータを調整して、前記ｉ＋１回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークを取得することとを含む。

別の可能な一実施形態では、前記第２のハード分類損失及び前記第２のソフトトリプレット損失に基づいて前記第２の損失を決定する前に、前記ｉ回目の第１の反復の前記目標ニューラルネットワークによって前記第１の画像を処理して第４の分類結果を取得し、前記第３の分類結果と前記第４の分類結果との差分に基づいて第２のソフト分類損失を決定し、前記第２のハード分類損失及び前記第２のソフトトリプレット損失に基づいて前記第２の損失を決定することは、前記第２のハード分類損失、前記第２のソフト分類損失及び前記第２のソフトトリプレット損失に基づいて前記第２の損失を決定することを含む。

別の可能な一実施形態では、前記第２のハード分類損失、前記第２のソフト分類損失及び前記第２のソフトトリプレット損失に基づいて前記第２の損失を決定する前に、前記第９の類似度及び前記第１０の類似度に基づいて第２のハードトリプレット損失を決定し、前記第２のハード分類損失、前記第２のソフト分類損失及び前記第２のソフトトリプレット損失に基づいて前記第２の損失を決定することは、前記第２のハード分類損失、前記第２のソフト分類損失、前記第２のソフトトリプレット損失及び前記第２のハードトリプレット損失に基づいて前記第２の損失を決定することを含む。

第３の方面では、上記第１の方面及びそのいずれかの可能な実施形態の方法を実行するプロセッサを提供する。

第４の方面では、プロセッサと、送信装置と、入力装置と、出力装置と、コンピュータ命令を含むコンピュータプログラムコードを記憶するためのメモリとを備える電子機器であって、前記プロセッサが前記コンピュータ命令を実行すると、上記第１の方面及びそのいずれかの可能な実施形態の方法を実行する電子機器を提供する。

第５の方面では、プログラム命令を含むコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラム命令が電子機器のプロセッサによって実行されると、上記第１の方面及びそのいずれかの可能な実施形態の方法を前記プロセッサに実行させるコンピュータ読み取り可能な記憶媒体を提供する。

第６の方面では、命令を含むコンピュータプログラム製品であって、コンピュータで実行されると、上記第１の方面及びそのいずれかの可能な実施形態の方法をコンピュータに実行させるコンピュータプログラム製品を提供する。

なお、上述した概略的な説明及び次の詳細な説明は、例示的及び解釈的なものに過ぎず、本開示を限定するものではない。

本開示の実施例又は背景技術方案をより明確に説明するために、本開示の実施例又は背景技術に使用する必要がある図面について説明する。
ここで、本明細書の一部として組み込まれる図面は、本開示の実施例に適し、明細書と共に本開示の技術方案の説明に用いられる。
図１は、本開示の実施例に係る画像処理方法のフローチャートである。図２は、本開示の実施例に係るトレーニング方法の模式図である。図３は、本開示の実施例に係る別の画像処理方法のフローチャートである。図４は、本開示の実施例に係る別のトレーニング方法の模式図である。図５は、本開示の実施例に係る別のトレーニング方法の模式図である。図６は、本開示の実施例に係る別の画像処理方法のフローチャートである。図７は、本開示の実施例に係る画像処理装置の構造模式図である。図８は、本開示の実施例に係る画像処理装置のハードウェア構造模式図である。

本開示の方案を当業者によりよく理解してもらうために、以下、本開示の実施例における技術方案を、本開示の実施例における図面と併せて、明確に、完全に説明するが、明らかに、説明された実施例は、本開示の一部の実施例にすぎず、全ての実施例ではない。本開示の実施例に基づいて、当業者が創造的な労働を行うことなく得られる他の全ての実施例は、本開示の保護範囲内である。

本開示の明細書、特許請求の範囲、及び上記図面における「第１の」、「第２の」などの用語は、異なる対象を区別するためのものであり、特定の順序を説明するためのものではない。なお、「含む」及び「有する」という用語並びにそれらの任意の変形は、排他的でない包含をカバーすることを意図している。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は設備は、挙げられたステップ又はユニットに限定されず、場合によって記載されていないステップ又はユニットをさらに含み、あるいは、場合によってこれらのプロセス、方法、製品又は設備に固有の他のステップ又はユニットをさらに含む。本明細書における用語「及び／又は」は、単に関連対象との関連関係を記述するものであり、３つの関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａのみが存在し、ＡとＢの両方が存在し、Ｂのみが存在するという３つの場合を示してもよい。また、本明細書における用語「少なくとも１つ」は複数のうちのいずれか１つ、又は複数のうちの少なくとも２つの任意の組み合わせを示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣからなる集合から選択されたいずれか１つ又は複数の要素を含むことを示してもよい。本明細書において「実施例」の意味は、実施例に関連して説明された特定の特徴、構造又は特性が、本開示の少なくとも１つの実施例に含まれ得る。本明細書の様々な場所に当該語句が現れることは、必ずしも全てが同じ実施例を表すことではなく、他の実施例を除いた別個の又は代替の実施例を表すことではない。当業者は、本明細書に記載された実施例を他の実施例と組み合わせることができることを明らか且つ暗黙的に理解するであろう。

近年、ニューラルネットワークは、その優れた性能により、様々な画像認識タスク（例えば歩行者の再認識や画像分類）に広く利用されている。これらのタスクにおけるニューラルネットワークの表現効果は、ニューラルネットワークに対するトレーニング効果に大きく依存し、ニューラルネットワークのトレーニング効果は主に、トレーニングニューラルネットワークをトレーニングするトレーニング画像の数に依存する。すなわち、トレーニング画像の数が多いほど、ニューラルネットワークのトレーニング効果がよくなり、トレーニングされたニューラルネットワークを適用して対応する画像認識のタスクを実行する効果がよくなる。

トレーニング画像とは、ラベル付き情報（以下、ラベルという）を有する画像である。例えば、実行する必要があるタスクが、画像に含まれる内容を分類し、画像に含まれる内容がリンゴ、バナナ、梨、桃、オレンジ、スイカのいずれであるかを判断することである場合、上記ラベル付き情報は、リンゴ、バナナ、梨、桃、オレンジ、スイカを含む。また例えば、実行する必要があるタスクが、歩行者の再認識、すなわち画像に含まれる人物の身元を認識することである場合、上記ラベル付き情報は、人物の身元（例えば張三、李四、王五、周六など）を含む。

トレーニング画像のラベル付き情報が正確であればあるほど、ニューラルネットワークのトレーニング効果がよくなるため、トレーニング画像のラベル付き画像とトレーニング画像の実際の内容とのマッチング度が高いほど、トレーニング効果がよくなる。例えば、梨を含む画像をリンゴとラベリングすると、正確ではない。また例えば、張三を含む画像を李四とラベリングする場合も、正確ではない。ラベル付き情報が正確ではないトレーニング画像は、トレーニング効果を悪くするため、従来の方法では、人工によるラベリングでトレーニング画像へのラベリングを完了することが多い。しかし、トレーニング画像の数が膨大な場合には、人工によるラベリングの効率が低くなり、人件費が高くなる。そのため、教師なし転移学習のようにニューラルネットワークをトレーニングする、すなわち、既存のラベル付き画像によってトレーニングされたニューラルネットワークをラベルなし画像に適用して人件費を低減する人がますます多くなってきた。

ニューラルネットワークは、上記ラベル付き画像で実行するタスクと上記ラベルなし画像で実行するタスクとが関連性を有し、上記ラベル付き画像と上記ラベルなし画像との間にも関連性がある。例えば（例１）、Ａ市の監視カメラにより曇りの日に歩行者を含む画像（以下、Ａ地区の画像という）を大量に収集し、Ａ地区の画像における歩行者の身元をラベリングしてラベル付きデータを取得し、ラベル付きデータを用いてニューラルネットワークａをトレーニングすることにより、トレーニングされたニューラルネットワークａは、曇りの日にＡ地区で収集した画像における歩行者の身元を認識するために使用できる。現在、Ｂ地区で収集した画像における歩行者の身元を認識する必要があるが、Ｂ地区から収集した画像をラベリングして取得された画像を用いて新たなニューラルネットワーク（例えばニューラルネットワークｂ）をトレーニングする場合、膨大な人件費がかかる。そのため、教師なし転移学習を用いてトレーニングされたニューラルネットワークａのパラメータを調整することにより、トレーニングされたニューラルネットワークａが、Ｂ地区から収集した画像における歩行者の身元を認識するために使用できる。ニューラルネットワークａがラベル付き画像で実行するタスクとラベルなし画像（Ｂ地区から収集した画像）で実行するタスクはいずれも、歩行者の身元の認識であり、ラベル付き画像及びラベルなし画像はいずれも、歩行者を含む画像である。

ラベル付き画像とラベルなし画像とは関連性があるが、両者の間には差異があるため、ラベル付き画像によってトレーニングして取得されたニューラルネットワークをラベルなし画像に直接適用することができない。例１に続いて例を挙げると、ラベル付きデータはすべて、曇りの日に収集した画像であり、Ｂ地区から収集した画像は、曇りの日に収集した画像、晴れの日に収集した画像及び雨の日に収集した画像を含む。異なる天候に収集した画像では、環境の明るさが異なる。異なる環境の明るさがニューラルネットワークの認識正確率に大きな影響を与える。例えば、曇りの日に収集した画像でトレーニングして取得されたニューラルネットワークが晴れの日に収集した画像における歩行者の身元に対する認識正確率が低い。なお、Ａ地区の監視カメラのパラメータとＢ地区の監視カメラのパラメータも異なる（例えば撮影角度）。これにより、異なるカメラによって収集された画像における歩行者の身元に対するニューラルネットワークの認識正確率も異なる。例えば、Ａ地区の監視カメラのパラメータとＢ地区の監視カメラのパラメータも異なることにより、ラベル付きデータを用いてトレーニングして取得されたニューラルネットワークがＢ地区から収集した画像における歩行者の身元に対する認識正確率が低い。

上記ラベル付き画像を含むセットをソースドメインといい、上記ラベルなし画像を含むセットをターゲットドメインというと、教師なし転移学習は、ソースドメインでトレーニングされたニューラルネットワークをターゲットドメインに適用するニューラルネットワークのトレーニング方法である。

従来の教師なし学習方法では、ソースドメインでトレーニングされたニューラルネットワークによってターゲットドメインでのラベルなし画像を認識し、ターゲットドメインでのラベルなし画像にラベル（以下、疑似ハードラベルという）を付加して、疑似ハードラベルを教師として、ソースドメインでトレーニングされたニューラルネットワークのパラメータを調整して、ターゲットドメインに適用されるニューラルネットワーク（以下、適用ニューラルネットワークという）を取得する。疑似ハードラベルには誤差があるので、疑似ハードラベルを教師として、ソースドメインでトレーニングされたニューラルネットワークをトレーニングする効果が悪くなり、ひいては適用ニューラルネットワークのターゲットドメインでの特徴抽出効果が悪くなり、さらにターゲットドメインでの適用効果が悪くなる（例えば歩行者の身元への認識正確率が低い）。本開示の実施例に係る技術方案を適用することにより、上記従来の方法の上で、ターゲットドメインでの特徴抽出効果がターゲットドメインでの適用ニューラルネットワークの特徴抽出効果よりも優れたニューラルネットワークを取得し、ターゲットドメインでの適用効果を向上させることができる。

本開示の実施例に係る技術方案を詳しく説明する前に、まず、いくつかの概念を定義する。１．クラス内で最も難しい特徴データ：ラベルが同じ画像の特徴データのうち、類似度が最も小さい２つの特徴データ。２．クラス外で最も難しい特徴データ：ラベルが異なる画像の特徴データのうち、類似度が最も大きい２つの特徴データ。３．特徴データセットにおける画像のクラス内で最も難しい特徴データ：当該特徴データセットにおける当該画像の特徴データのクラス内で最も難しい特徴データ。４．特徴データセットにおける画像のクラス外で最も難しい特徴データ：当該特徴データセットにおける当該画像の特徴データのクラス内で最も難しい特徴データ。

例えば、画像１の特徴データを特徴データ１とし、画像２の特徴データを特徴データ２とし、画像３の特徴データを特徴データ３とし、画像４の特徴データを特徴データ４とし、画像５の特徴データを特徴データ５とする。画像１のラベルは、画像２のラベル、画像３のラベルと同じであり、画像１のラベルは、画像４のラベル、画像５のラベルと異なる。特徴データ１と特徴データ２との類似度が特徴データ１と特徴データ３との類似度よりも小さい場合、特徴データ３は、特徴データ１のクラス内で最も難しい特徴データである。特徴データ１と特徴データ４との類似度が特徴データ１と特徴データ５との類似度よりも小さい場合、特徴データ５は、特徴データ１のクラス外で最も難しい特徴データである。特徴データセット１が特徴データ１、特徴データ２、特徴データ３、特徴データ４及び特徴データ５を含むとすると、特徴データセット１における画像１のクラス内で最も難しい特徴データは、特徴データ３であり、特徴データセット１における画像１のクラス外で最も難しい特徴データは、特徴データ５である。

以下、本開示の実施例における図面を参照しながら本開示の実施例を説明する。本開示の実施例に係る画像処理方法のフローチャートである図１を参照する。

１０１．処理対象の画像を取得する。

本実施例の実行主体は、サーバ、携帯電話、コンピュータ、タブレットなどの端末であってもよい。上記処理対象の画像は、任意のデジタル画像であってもよい。例えば、処理対象の画像は、人物オブジェクトを含んでもよい。処理対象の画像は、胴体、四肢（以下、胴体及び四肢を人体という）がなく、人の顔のみを含んでもよい。また、処理対象の画像は、人体のみを含んでもよいし、人体を含まなく、下肢又は上肢のみを含んでもよい。本開示は、処理対象の画像に具体的に含まれる人体領域を限定しない。また例えば、処理対象の画像は、動物を含んでもよい。また例えば、処理対象の画像は、植物を含んでもよい。本開示は、処理対象の画像に含まれる内容を限定しない。
処理対象の画像を取得する方式としては、ユーザがキーボード、マウス、タッチパネル、タッチパッドや音声入力装置などを含む入力ユニットを介して入力する処理対象の画像を受信することであってもよいし、携帯電話、コンピュータ、タブレットやサーバなどを含む端末から送信される処理対象の画像を受信することであってもよい。本開示は、処理対象の画像を取得する方式を限定しない。

１０２．目標ニューラルネットワークを用いて上記処理対象の画像に対して特徴抽出処理を行って上記処理対象の画像の目標特徴データを取得する。

上記目標ニューラルネットワークは、画像から特徴データを抽出する機能を有するニューラルネットワークである。例えば、目標ニューラルネットワークは、畳み込み層、プーリング層、正規化層、全結合層、ダウンサンプリング層、アップサンプリング層、分類器などのニューラルネットワーク層が一定の方式に従って積層されるか、又は構成され得る。本開示は、目標ニューラルネットワークの構造を限定しない。

一つの可能な実施形態では、目標ニューラルネットワークが複数層の畳み込み層、正規化層を含むことにより、順次、目標ニューラルネットワークにおける複数層の畳み込み層及び正規化層によって処理対象の画像に対して畳み込み処理及び正規化処理を行い、処理対象の画像の特徴データを抽出して目標特徴データを取得することができる。

上述したように、従来の方法における疑似ハードラベルは、ソースドメインでトレーニングされたニューラルネットワークによって取得されるので、疑似ハードラベルを教師として、ソースドメインでトレーニングされたニューラルネットワークをトレーニングすることにより、ソースドメインでトレーニングされたニューラルネットワークをトレーニング中に学習の悪い方向にどんどん悪化させ、ひいては適用ニューラルネットワークのターゲットドメインでの適用効果が悪くなる。

例えば、ソースドメインでトレーニングされたニューラルネットワークが李四に対する認識正確率が低く、すなわち、李四を含む画像を他人として認識する確率が高い。李四を含む画像ａをソースドメインでトレーニングされたニューラルネットワークに入力し、取得した疑似ハードラベルは王五であり、王五を教師データとして、ソースドメインでトレーニングされたニューラルネットワークのパラメータを調整する。ソースドメインでトレーニングされたニューラルネットワークのパラメータを調整することにより、画像ａから抽出した特徴データを王五の特徴データに近くする。このように、最終的に取得される適用ニューラルネットワークを用いて李四を含む画像を認識すると、抽出された特徴データはすべて王五の特徴データに近いため、李四を王五に認識してしまう。

従来の方法における上記欠陥に鑑みて、本開示は、ソースドメインでトレーニングされた別のニューラルネットワーク（以下、教師ニューラルネットワークという）の出力を教師として、適用ニューラルネットワークの出力をトレーニングしてターゲットドメインでの適用ニューラルネットワークの適用効果を向上させることが考えられる。適用ニューラルネットワーク及び教師ニューラルネットワークはいずれも、ソースドメインでトレーニングされたニューラルネットワークであるが、適用ニューラルネットワークと教師ニューラルネットワークのパラメータが異なる。つまり、異なる人の身元に対する適用ニューラルネットワークと教師ニューラルネットワークの認識正確率が異なる。例えば（例２）、適用ニューラルネットワークは、張三に対する認識正確率が高いが、周六に対する認識正確率が低い。一方、教師ニューラルネットワークは、張三に対する認識正確率が低いが、周六に対する認識正確率が高い。

したがって、適用ニューラルネットワークの出力と教師ニューラルネットワークの出力とを用いて相互に教師ありトレーニングを行う場合、すなわち、適用ニューラルネットワークの出力を教師として教師ニューラルネットワークをトレーニングし、教師ニューラルネットワークの出力を教師として適用ニューラルネットワークをトレーニングする場合、疑似ハードラベルの代わりに、教師ニューラルネットワークの出力を教師として適用ニューラルネットワークをトレーニングすることができる。ただし、相互の教師ありトレーニング中、適用ニューラルネットワークと教師ニューラルネットワークのパラメータは同時に更新されるため、適用ニューラルネットワークの出力と教師ニューラルネットワークの出力との類似度がますます高くなる（以下、相互の教師ありトレーニングに存在するこの欠陥を関連性欠陥という）。さらに、相互の教師ありトレーニング中に教師ニューラルネットワークに適用ニューラルネットワークの「劣勢」（例えば例２における周六の身元に対する適用ニューラルネットワークの認識）を学習させ、適用ニューラルネットワークに教師ニューラルネットワークの「劣勢」（例えば例２における張三の身元に対する教師ニューラルネットワークの認識）を学習させる。すなわち、適用ニューラルネットワークのパラメータと第２のニューラルネットワークのパラメータとの類似度が高くなる。これでは、適用ニューラルネットワークのパラメータを最適化することができないため、適用ニューラルネットワークのターゲットドメインでの適用効果を向上させることができない。

相互の教師ありトレーニング中に存在する関連性欠陥に鑑みて、本開示の実施例は、適用ニューラルネットワークと教師ニューラルネットワークを「分離」することによって、適用ニューラルネットワークと教師ニューラルネットワークとの関連性を低減し、関連性欠陥による影響を低減し、ターゲットドメインでの効果がこのような相互の教師ありトレーニングの方式でトレーニングして取得される適用ニューラルネットワークの効果よりも優れた目標ニューラルネットワークを取得する別のトレーニング方法を提供する。このようなトレーニング方法は、第１のニューラルネットワークのパラメータの時系列平均値によって上記目標ニューラルネットワークのパラメータを決定し、目標ニューラルネットワークの出力を教師として第２のニューラルネットワークをトレーニングするとともに、第２のニューラルネットワークのパラメータの時系列平均値によって平均ネットワークのパラメータを決定し、平均ネットワークの出力を教師として第１のニューラルネットワークをトレーニングし、上記目標ニューラルネットワークのトレーニングを完了することを含む。第１のニューラルネットワーク及び第２のニューラルネットワークはいずれも、ソースドメインでトレーニングされたニューラルネットワークであり、第１のニューラルネットワーク及び第２のニューラルネットワークはいずれも、画像から特徴データを抽出する機能及び特徴データに基づいて分類する機能を有するニューラルネットワークであり、第１のニューラルネットワークの構造と第２のニューラルネットワークの構造は同じであってもよいし、異なってもよい。本開示は、これを限定しない。

図２に示すように、目標ニューラルネットワークのパラメータは、第１のニューラルネットワークのパラメータの時系列平均値である。この第１のニューラルネットワークは、トレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得される。すなわち、トレーニング画像セット内の画像のラベル及び平均ネットワークの出力を教師データとして第１のニューラルネットワークの出力をトレーニングし、第１のニューラルネットワークのパラメータを調整する。上記平均ネットワークのパラメータは、第２のニューラルネットワークのパラメータの時系列平均値である。この第２のニューラルネットワークは、上記トレーニング画像セット及び上記目標ニューラルネットワークを用いて教師ありトレーニングを行って取得される。すなわち、トレーニング画像セット内の画像のラベル及び目標ニューラルネットワークの出力を教師データとして第２のニューラルネットワークの出力をトレーニングし、第２のニューラルネットワークのパラメータを調整する。

トレーニング画像セットをそれぞれ第１のニューラルネットワーク、第２のニューラルネットワーク、目標ニューラルネットワーク及び平均ネットワークに入力し、図２における４つのネットワーク（第１のニューラルネットワーク、第２のニューラルネットワーク、目標ニューラルネットワーク及び平均ネットワークを含む）がすべて収束してトレーニングを停止するまで、図２に示す教師関係に基づいて第１のニューラルネットワーク及び第２のニューラルネットワークを複数の周期のトレーニングを行い、目標ニューラルネットワークのパラメータを更新することができる。

上記図２における４つのネットワークをトレーニングする過程で、上記４つのネットワークのパラメータは、トレーニング周期が完了するたびに更新される。目標ニューラルネットワークのパラメータが第１のニューラルネットワークのパラメータの時系列平均値であることは、目標ニューラルネットワークのパラメータが異なるトレーニング周期の第１のニューラルネットワークのパラメータの平均値であることを意味し、平均ネットワークのパラメータが第２のニューラルネットワークのパラメータの時系列平均値であることは、平均ネットワークのパラメータが異なるトレーニング周期の第２のニューラルネットワークのパラメータの平均値であることを意味する。

異なるトレーニング周期の第１のニューラルネットワークのパラメータの平均値は、第１のニューラルネットワークの、トレーニング完了のトレーニング周期での平均性能を反映するためのものであると理解されるべきである。目標ニューラルネットワークのパラメータを具体的に決定する際に、異なるトレーニング周期の第１のニューラルネットワークのパラメータの平均値を算出することによって決定されることに限定されなくてもよい。同様に、平均ネットワークのパラメータを具体的に決定する際に、異なるトレーニング周期の第２のニューラルネットワークのパラメータの平均値を算出することによって決定されることに限定されなくてもよい。

一つの可能な実施形態では、以下の式により目標ニューラルネットワークのパラメータを決定することができる。

ただし、Ｅ^T（θ₁）は、Ｔ番目のトレーニング周期における目標ニューラルネットワークのパラメータであり、Ｅ^T―¹（γ₁）は、Ｔ－１番目のトレーニング周期における目標ニューラルネットワークのパラメータであり、γ₁ ^Tは、Ｔ番目のトレーニング周期における第１のニューラルネットワークのパラメータであり、αは、０以上１未満の自然数であり、Ｅ⁰（γ₁）＝Ｅ¹（γ₁）＝γ₁ ¹である。

別の可能な一実施形態では、異なるトレーニング周期の第１のニューラルネットワークのパラメータの平均値を算出することによって目標ニューラルネットワークのパラメータを決定することができる。例えば、第ｋ周期のトレーニングを行う前の第１のニューラルネットワークのパラメータをＥ^K（θ）とし、第ｋ周期のトレーニングを行うの第１のニューラルネットワークのパラメータをＥ^K+1（θ）とすると、目標ニューラルネットワークの、第ｋ+１周期のトレーニングを行う前のパラメータは、Ｅ^K（δ）＝（Ｅ^K（θ）+Ｅ^K（θ））／２である。

同様に、上記２つの可能な実施形態によって平均ネットワークのパラメータを決定することができる。

本開示の実施例に係るトレーニング方法のトレーニング中に、第１のニューラルネットワークのパラメータは、教師トレーニングによって取得される。すなわち、教師データの教師によって第１のニューラルネットワークの損失と第２のニューラルネットワークの損失をそれぞれ決定し、第１のニューラルネットワークの損失に基づいて第１のニューラルネットワークの逆伝播の勾配を決定し、また逆伝播の方式でその勾配を伝播し、第１のニューラルネットワークのパラメータを更新する。同様に、第２のニューラルネットワークのパラメータも、逆勾配伝播の方式で更新される。一方、目標ニューラルネットワーク及び平均ネットワークのパラメータは、逆勾配伝播の方式で更新されるのではなく、異なるトレーニング周期の第１のニューラルネットワークのパラメータの平均値及び異なるトレーニング周期の第２のニューラルネットワークのパラメータの平均値によって目標ニューラルネットワークのパラメータ及び平均ネットワークのパラメータをそれぞれ決定する。そのため、目標ニューラルネットワークのパラメータ及び平均ネットワークのパラメータの更新速度は、第１のニューラルネットワークのパラメータ及び第２のニューラルネットワークのパラメータの更新速度よりも遅い。つまり、目標ニューラルネットワークの出力と第２のニューラルネットワークの出力との類似度が低く、平均ネットワークの出力と第１のニューラルネットワークの出力との類似度が低い。このように、目標ニューラルネットワークの出力及び平均ネットワークの出力を教師として第２のニューラルネットワーク及び第１のニューラルネットワークをそれぞれトレーニングすることにより、第２のニューラルネットワークに目標ニューラルネットワークの「優勢」（すなわち第１のニューラルネットワークの「優勢」）を学習させ、第１のニューラルネットワークに平均ネットワークの「優勢」を学習させることができる。また、目標ニューラルネットワークのパラメータは、第１のニューラルネットワークの、トレーニング完了のトレーニング周期での平均性能を反映でき、平均ネットワークのパラメータは、第２のニューラルネットワークの、トレーニング完了のトレーニング周期での平均性能を反映できるため、第２のニューラルネットワークに目標ニューラルネットワークの「優勢」を学習させることは、第２のニューラルネットワークに第１のニューラルネットワークの「優勢」を学習させることに相当し、第１のニューラルネットワークに平均ネットワークの「優勢」を学習させることは、第１のニューラルネットワークに第２のニューラルネットワークの「優勢」を学習させることに相当する。ひいては、第１のニューラルネットワークのパラメータの時系列平均値に基づいて目標ニューラルネットワークのパラメータを決定することにより、トレーニングして取得された目標ニューラルネットワークのターゲットドメインでの効果を適用ニューラルネットワークのターゲットドメインでの効果よりもよくすることができる。上記「優勢」とは、あるカテゴリ又は個体に対するニューラルネットワークの認識正確率が高いことを意味する。例えば例２における周六の身元に対する適用ニューラルネットワークの認識、及び張三の身元に対する教師ニューラルネットワークの認識を挙げる。

本実施例では、第１のニューラルネットワークのパラメータの時系列平均値及び第２のニューラルネットワークの時系列平均値を決定して目標ニューラルネットワークのパラメータ及び平均ネットワークのパラメータをそれぞれ取得し、目標ニューラルネットワークの出力を教師として第２のニューラルネットワークをトレーニングし、平均ネットワークの出力を教師として第１のニューラルネットワークをトレーニングして、目標ニューラルネットワークをトレーニングする。これにより、トレーニング効果を向上させることができる。さらに、目標ニューラルネットワークを用いてターゲットドメインで関連する認識タスクを実行するとき、情報がより豊富な目標特徴データを抽出できる。当該情報は、ターゲットドメインでの認識正確率を向上させることができる。

以下、実施例におけるトレーニング方法の実施過程を詳しく説明する。本開示の実施例に係る１０２の１つの実施可能な方法のフローチャートである図３を参照する。

３０１．上記トレーニング画像セット、第１のトレーニング対象のニューラルネットワーク及び第２のトレーニング対象のニューラルネットワークを取得する。

本実施例の実行主体は、サーバ、コンピュータであってもよい。本実施例のトレーニング方法の実行主体は、上記実行主体と異なってもよいし、同じであってもよい。本実施例では、トレーニング画像セットは、図４に示す従来の方法で取得され得る。図４に示すように、ソースドメインでトレーニングされた第３のニューラルネットワークに複数枚のターゲットドメインにおけるラベルなし画像（以下、処理対象の画像セットという）を入力し、第３のニューラルネットワークによって処理対象の画像セット内の画像に対して特徴抽出処理を行って処理対象の画像セット内の画像の特徴データを含む第３の特徴データセットを取得し、クラスタリングアルゴリズムによって処理対象の画像セット内の画像の特徴データを区別して予定の数のセットを取得し、各セットの特徴データに対応する画像に疑似ハードラベルを付加する。

可能な一実施形態では、第３のニューラルネットワークに対してｙ回の第２の反復を実行することにより、上記トレーニング画像セットを取得することができ、ｙは、正の整数である。上記ｙ回の第２の反復のうちｔ回目の第２の反復は、処理対象の画像セットからサンプリングして第２の画像セットを取得し、ｔ回目の第２の反復の第３のニューラルネットワークによって第２の画像セット内の画像を処理して第２の画像セット内の画像の特徴データを含む第３の特徴データセット及び第２の画像セット内の画像の分類結果を含む分類結果セットを取得することと、第３の特徴データセット内の特徴データをクラスタリング処理して第３の特徴データセット内の特徴データのラベルを決定し、第３の特徴データセット内の特徴データのラベルを前記第２の画像セット内の対応する画像に付加して第３の画像セットを取得することと、分類結果セット内の分類結果と第３の画像セット内の画像のラベルとの差分に基づいて第３の損失を決定することと、第３の損失に基づいてｔ回目の第２の反復の第３のニューラルネットワークのパラメータを調整してｔ＋１回目の第２の反復の第３のニューラルネットワークのパラメータを取得することとを含む。

ｔ＋１回目の第２の反復において、処理対象の画像セットからサンプリングして第３の画像セットを取得し、第３の画像セット内の画像は、第２の画像セット内の画像と異なる。また、ｔ回目の第２の反復の第３のニューラルネットワークによって第２の画像セットを処理して第２の画像セット内の画像のラベル及びｔ＋１回目の第２の反復の第３のニューラルネットワークのパラメータを取得する方法と同様に、ｔ＋１回目の第２の反復の第３のニューラルネットワークによって第３の画像セットを処理して第３の画像セット内の画像のラベル及び第ｔ＋２回の第２の反復の第３のニューラルネットワークを取得する。処理対象の画像セットの少なくとも１つの画像にラベルが付加されるまで、トレーニング画像セットを取得する。第１回の第２の反復の第３のニューラルネットワークは、第３のニューラルネットワークである。

第１回の第２の反復を例（例３）として、処理対象の画像セットからサンプリングして人物オブジェクトを含む５枚の画像を取得し、それぞれ画像ａ、画像ｂ、画像ｃ、画像ｄ、画像ｅとする。この５枚の画像を第３のニューラルネットワークに入力してこの５枚の画像の特徴データを取得し、クラスタリングアルゴリズムにより、この５枚の画像の特徴データが表す人物オブジェクトの身元に基づいて、この５枚の画像を３つのクラスに分けて３つのセットを取得する。３つのセットはそれぞれ、画像ａ及び画像ｅからなる第１のセット、画像ｂからなる第２のセット、画像ｃ及び画像ｄからなる第３のセットである。第１のセットの画像に含まれる人物オブジェクトの身元は張三であると決定し、画像ａ及び画像ｅにそれぞれ付加した疑似ハードラベルは、［１，０，０］であり、画像ａにおける人物オブジェクトの身元及び画像ｅにおける人物オブジェクトの身元は第１のクラス（張三）に属することを表す。第２のセットの画像に含まれる人物オブジェクトの身元は李四であると決定し、画像ｂに付加した疑似ハードラベルは、［０，１，０］であり、画像ｂにおける人物オブジェクトの身元は、第２のクラス（李四）に属することを表す。第３のセットの画像に含まれる人物オブジェクトの身元は王五であると決定し、画像ｃと画像ｄにそれぞれ付加した疑似ハードラベルは、［０，０，１］であり、画像ｃにおける人物オブジェクトの身元及び画像ｄにおける人物オブジェクトの身元は第３のクラス（王五）に属するを表す。

同時に、第３のニューラルネットワークの分類器は、これらの画像の特徴データに基づいて、画像の属するクラス（以下、予測結果という）を予測し、予測結果と疑似ハードラベルとの差分に基づいて、総予備ハード分類損失を決定する。

可能な一実施形態では、処理対象の画像セットの各画像の予測結果とラベルとの差分をそれぞれ算出することによって予備ハード分類損失を取得し、処理対象の画像セットの少なくとも１つの画像の予備ハード分類損失の平均値を求めることにより、総予備ハード分類損失を決定することができる。例３に続いて例（例４）を挙げると、第３のニューラルネットワークの分類器から出力される画像ａの予測クラスは、［０．７，０．２，０．１］であり、画像ａにおける人物オブジェクトの身元が張三である確率は、０．７であり、画像ａにおける人物オブジェクトの身元が李四である確率は、０．２であり、画像ａにおける人物オブジェクトの身元が王五である確率は、０．１であることを表す。予測クラス（［０．７，０．２，０．１］）と疑似ハードラベル（［１，０，０］）とのクロスエントロピー損失を算出することによって画像ａの予備ハード分類損失を決定できる。また、同様の方法により、画像ｂ、画像ｃ、画像ｄ及び画像ｅのハード分類損失を決定し、画像ａの予備ハード分類損失、画像ｂのハード分類損失、画像ｃの予備ハード分類損失、画像ｄのハード分類損失及び画像ｅの予備ハード分類損失の平均値を算出して総予備ハード分類損失を取得することができる。

同時に、処理対象の画像セット内の画像の特徴データに基づいて処理対象の画像セットの各画像の予備ハードトリプレット損失を決定し、処理対象の画像セットの各画像の予備ハードトリプレット損失の平均値を算出して総予備ハードトリプレット損失を決定する。例４に続いて例を挙げると、画像ａの予備ハードトリプレット損失を算出する場合、まず、画像ａと同じクラスに属する画像の特徴データにおいて画像ａの特徴データとの類似度（以下、正の類似度という）をそれぞれ算出し、画像ａと異なるクラスに属する画像の特徴データにおいて画像ａの特徴データとの類似度（以下、負の類似度という）をそれぞれ算出し、正の類似度の最小値及び負の類似度の最大値に基づいて予備ハードトリプレット損失を決定する。また、同様の方法により、画像ｂ、画像ｃ、画像ｄ及び画像ｅの予備ハードトリプレット損失を決定し、画像ａの予備ハードトリプレット損失と、画像ｂのハードトリプレット損失と、画像ｃの予備ハードトリプレット損失と、画像ｄのハードトリプレット損失と、画像ｅの予備ハードトリプレット損失との平均値を算出して総予備ハードトリプレット損失を取得することができる。

また、総予備ハード分類損失と総予備ハードトリプレット損失とを重み付け加算して第３の損失を取得する。第３の損失に基づいて第３のニューラルネットワークのパラメータを調整して第２回の第２の反復の第３のニューラルネットワークを取得する。処理対象の画像セットの少なくとも１つの画像にラベル（すなわち、疑似ハードラベル）が付加されるまで、トレーニング画像セットを取得する。

上記第１のトレーニング対象のニューラルネットワーク及び上記第２のトレーニング対象のニューラルネットワークはいずれも、ソースドメインでトレーニングされたニューラルネットワークであり、第１のトレーニング対象のニューラルネットワーク及び第２のトレーニング対象のニューラルネットワークはいずれも、画像から特徴データを抽出する機能及び特徴データに基づいて分類する機能を有するニューラルネットワークであり、第１のトレーニング対象のニューラルネットワークの構造と第２のトレーニング対象のニューラルネットワークの構造は同じであってもよいし、異なってもよい。本開示は、これを限定しない。

３０２．上記第１のトレーニング対象のニューラルネットワーク及び上記第２のトレーニング対象のニューラルネットワークに対してｘ回の第１の反復を実行して目標ニューラルネットワークを取得する。

本実施例に係る上記ｘ回の第１の反復のうちｉ回目の第１の反復のトレーニング模式図である図５を参照する。ｉ回目の第１の反復は、上記トレーニング画像セット及びｉ回目の第１の反復の平均ネットワークの出力を教師としてｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の第１のトレーニング対象のニューラルネットワークを取得し、上記トレーニング画像セット及びｉ回目の第１の反復の目標ニューラルネットワークの出力を教師としてｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の第２のトレーニング対象のニューラルネットワークを取得することを含む。

可能な一実施形態では、トレーニング画像セットによってｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の第１のトレーニング対象のニューラルネットワークを取得し、トレーニング画像セットによってｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の第２のトレーニング対象のニューラルネットワークを取得することは、ｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークによって上記第１の画像を処理して第１の分類結果を取得し、ｉ回目の第１の反復の平均ネットワークによって上記第１の画像を処理して第２の分類結果を取得し、ｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークによって上記第１の画像を処理して第３の分類結果を取得し、ｉ回目の第１の反復のトレーニング前の目標ニューラルネットワークによって上記第１の画像を処理して第４の分類結果を取得するステップと、第１の分類結果と第１の画像の第１のラベル（すなわち、ステップ３０１で取得された疑似ハードラベル）との差分に基づいてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークの第１のハード分類損失を決定し、第３の分類結果と第１のラベルとの差分に基づいてｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークの第２のハード分類損失を決定するステップと、第１のハード分類損失を教師としてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークをトレーニングし、第２のハード分類損失を教師としてｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークをトレーニングすることにより、トレーニング画像セットを教師としてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワーク及びｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークをトレーニングすることを実現するステップと、第１の分類結果と第２の分類結果との差分に基づいてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークの第１のソフト分類損失を決定し、第３の分類結果と第４の分類結果との差分に基づいてｉ回目の第１の反復のトレーニング前の第２のニューラルネットワークの第２のソフト分類損失を決定するステップと、第１のソフト分類損失を教師としてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークをトレーニングし、第２のソフト分類損失を教師としてｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークをトレーニングすることにより、ｉ回目の第１の反復の平均ネットワークを教師としてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークをトレーニングすること及びｉ回目の第１の反復の目標ニューラルネットワークを教師としてｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークをトレーニングすることを実現するステップと、第１のハード分類損失と第１のソフト分類損失とを重み付け加算してｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークの第１の損失を取得し、第２のハード分類損失と第２のソフト分類損失とを重み付け加算してｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークの第２の損失を取得するステップと、第１の損失に基づいてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークのパラメータを調整してｉ＋１回目の第１の反復の第１のトレーニング対象のニューラルネットワークを取得するステップと、第２の損失に基づいてｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークのパラメータを調整してｉ＋１回目の第１の反復の第２のトレーニング対象のニューラルネットワークを取得するステップと、ｉ回目の第１の反復を実行する前に、ｉ－１回目の第１の反復の目標ニューラルネットワークのパラメータ及び上記ｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークのパラメータに基づいて上記ｉ回目の第１の反復の目標ニューラルネットワークのパラメータを決定し、ｉ－１回目の第１の反復の平均ネットワークのパラメータ及び上記ｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークのパラメータに基づいて上記ｉ回目の第１の反復の平均ネットワークのパラメータを決定するステップとを含む。可能な一実施形態では、ｉ＋１回目の第１の反復において、以下の２つの式によってｉ＋１回目の第１の反復の目標ニューラルネットワークのパラメータ、及びｉ＋１回目の第１の反復の平均ネットワークのパラメータをそれぞれ決定することができる。

ただし、Ｅⁱ⁺¹（θ₁）は、ｉ＋１回目の第１の反復の目標ニューラルネットワークのパラメータであり、Ｅⁱ（θ₁）は、ｉ回目の第１の反復の目標ニューラルネットワークのパラメータであり、Ｅⁱ⁺¹（θ₂）は、ｉ＋１回目の第１の反復の平均ネットワークのパラメータであり、Ｅⁱ（θ２）は、ｉ回目の第１の反復の平均ネットワークのパラメータである。θ₁ ⁱ⁺¹は、ｉ＋１回目の第１の反復の第１のトレーニング対象のニューラルネットワークのパラメータであり、θ₁ ⁱ⁺²は、ｉ＋１回目の第１の反復の第２のトレーニング対象のニューラルネットワークのパラメータである。αは、０以上１未満の自然数であり、Ｅ²（θ₁）＝Ｅ¹（θ₁）＝θ₁ ¹、Ｅ²（θ₂）＝Ｅ¹（θ₂）＝θ₂ ¹である。上記ｘは、正の整数であり、上記ｉは、ｘ以下の正の整数である。

ｉ＋１回目の第１の反復の第１のトレーニング対象のニューラルネットワークのパラメータ、ｉ＋１回目の第１の反復の第２のトレーニング対象のニューラルネットワークのパラメータ、ｉ＋１回目の第１の反復の目標ニューラルネットワークのパラメータ及びｉ＋１回目の第１の反復の平均ネットワークのパラメータを決定した後、ｉ＋１回目の反復を実行する。第ｘ回の反復を実行した後、第ｘ回の第１の反復の目標ニューラルネットワークのパラメータを調整して目標ニューラルネットワークを取得する。

第１回の反復を例にする。トレーニング画像セットが画像１、画像２及び画像３を含むとする。画像１の疑似ハードラベルは、［１，０］であり、第１回の第１の反復の第１のトレーニング対象のニューラルネットワーク（すなわち、第１のトレーニング対象のニューラルネットワーク）によって上記トレーニング画像セット内の画像１（すなわち、第１の画像）を処理して取得された分類結果は、［０．７，０．３］であり、第１回の第１の反復の第２のトレーニング対象のニューラルネットワーク（すなわち、第２のトレーニング対象のニューラルネットワーク）によって上記画像１を処理して取得される分類結果は、［０．８，０．２］であり、第１回の第１の反復の目標ニューラルネットワーク（すなわち、第１のトレーニング対象のニューラルネットワーク）によって画像１を処理して取得された分類結果は、［０．７，０．３］であり、第１回の第１の反復の平均ネットワーク（すなわち、第２のトレーニング対象のニューラルネットワーク）によって画像１を処理して取得された分類結果は、［０．８，０．２］である。［１，０］と［０．７，０．３］とのクロスエントロピー損失を算出して第１のハード分類損失を取得し、［１，０］と［０．８，０．２］とのクロスエントロピー損失を算出して第２のハード分類損失を取得し、［０．７，０．３］と［０．７，０．３］との差分を算出して第１のソフト分類損失を取得し、［０．８，０．２］と［０．８，０．２］との差分を算出して第２のソフト分類損失を取得する。また、第１のハード分類損失と第１のソフト分類損失とを重み付け加算して第１の損失を取得し、第２のハード分類損失と第２のソフト分類損失とを重み付け加算して第２の損失を取得する。第１の損失に基づいて第１のトレーニング対象のニューラルネットワークのパラメータを調整して２回目の反復の第１のトレーニング対象のニューラルネットワークを取得し、第２の損失に基づいて第２のトレーニング対象のニューラルネットワークのパラメータを調整して２回目の反復の第２のトレーニング対象のニューラルネットワークを取得する。

選択可能なように、ｉ回目の反復において、第１のハード分類損失と第１のソフト分類損失とを重み付け加算して第１の損失を取得し、第２のハード分類損失と第２のソフト分類損失とを重み付け加算して第２の損失を取得する前に、さらに、ｉ回の第１の反復の第１のトレーニング対象のニューラルネットワークの第１のハードトリプレット損失、及びｉ回の第１の反復の第２のトレーニング対象のニューラルネットワークの第２のハードトリプレット損失を決定することができる。また、第１のハード分類損失と、第１のソフト分類損失と、第１のハードトリプレット損失とを重み付け加算して第１の損失を取得し、第２のハード分類損失と、第２のソフト分類損失と、第２のハードトリプレット損失とを重み付け加算して第２の損失を取得する。

可能な一実施形態では、ｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークによって上記トレーニング画像セットを処理して第１の特徴データセットを取得し、ｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークによって上記トレーニング画像セットを処理して第４の特徴データセットを取得する。上記第１の画像の上記第１の特徴データセットにおける第１の特徴データと、上記第１の特徴データセットのポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して第１の類似度を取得し、上記第１の画像の上記第４の特徴データセットにおける第３の特徴データと、上記第４の特徴データセットのポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して第９の類似度を取得する。第１の特徴データと、第１の特徴データセットのネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して第３の類似度を取得し、第３の特徴データと、第４の特徴データセットのネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して第１０の類似度を取得する。また、第１の類似度及び第３の類似度に基づいて第１のハードトリプレット損失を決定でき、第９の類似度及び第１０の類似度に基づいて第２のハードトリプレット損失を決定できる。ネガティブサンプル特徴データサブセットは、上記第１のラベルと異なるラベルを有する画像の特徴データを含み、ポジティブサンプル特徴データサブセットは、上記第１のラベルと同じラベルを有する画像の特徴データを含む。

例えば（例５）、トレーニング画像セットは、画像１、画像２、画像３、画像４、画像５を含む。画像１、画像３及び画像５のラベルはすべて、張三であり、画像２及び画像４のラベルはすべて、李四である。第１の特徴データセットは、画像１の特徴データ（第１の特徴データ）、画像２の特徴データ（以下、特徴データ２という）、画像３の特徴データ（以下、特徴データ３という）、画像４の特徴データ（以下、特徴データ４という）、画像５の特徴データ（以下、特徴データ５という）を含む。第４の特徴データセットは、画像１の特徴データ（第３の特徴データ）、画像２の特徴データ（以下、特徴データ６という）、画像３の特徴データ（以下、特徴データ７という）、画像４の特徴データ（以下、特徴データ８という）、画像５の特徴データ（以下、特徴データ９という）を含む。第１の特徴データセットのポジティブサンプル特徴データサブセットは、特徴データ３及び特徴データ５を含み、第１の特徴データセットのネガティブサンプル特徴データサブセットは、特徴データ２及び特徴データ４を含む。第４の特徴データセットのポジティブサンプル特徴データサブセットは、特徴データ７及び特徴データ９を含み、第４の特徴データセットのネガティブサンプル特徴データサブセットは、特徴データ６及び特徴データ８を含む。第１の特徴データと特徴データ２、特徴データ３、特徴データ４及び特徴データ５との類似度をそれぞれ算出する。第１の特徴データと特徴データ３との類似度が第１の特徴データと特徴データ５との類似度よりも小さいとする場合、第１の特徴データと特徴データ３との類似度は、第１の類似度である。第１の特徴データと特徴データ２との類似度が第１の特徴データと特徴データ４との類似度よりも小さいとする場合、第１の特徴データと特徴データ４との類似度は、第３の類似度である。第３の特徴データと特徴データ６、特徴データ７、特徴データ８及び特徴データ９との類似度をそれぞれ算出する。第３の特徴データと特徴データ７との類似度が第２の特徴データと特徴データ９との類似度よりも小さいとする場合、第３の特徴データと特徴データ７との類似度は、第９の類似度である。第３の特徴データと特徴データ６との類似度が第３の特徴データと特徴データ８との類似度よりも小さいとする場合、第３の特徴データと特徴データ８との類似度は、第１０の類似度である。また、式（４）によって第１の特徴データと特徴データ３及び特徴データ４との第１のハードトリプレット損失を決定でき、式（５）によって第２の特徴データと特徴データ７及び特徴データ８との第２のハードトリプレット損失を決定できる。

ただし、ｍａｘ（Ａ，Ｂ）は、Ａ及びＢのうちの最大値であり、ｄ₁は第１の類似度であり、ｄ₃は、第３の類似度であり、ｄ₉は、第９の類似度であり、ｄ₁₀は、第１０の類似度であり、ｍは、０を超え１未満の自然数である。

ポジティブサンプル特徴データサブセットにおける第１の特徴データとの類似度が最も小さい特徴データを第１の特徴データのクラス内で最も難しい特徴データといい、ネガティブサンプル特徴データサブセットにおける第１の特徴データとの類似度が最も大きい特徴データを第１の特徴データのクラス外で最も難しい特徴データという。同様に、トレーニング画像セットの他の画像（画像２、画像３、画像４、画像５を含む）の第１の特徴データセットにおける特徴データの、第１の特徴データサブセットのポジティブサンプル特徴データサブセットにおけるクラス内での最も難しい特徴データ及びクラス外での最も難しい特徴データを決定することでき、各画像の第１の特徴データセットにおける特徴データ、クラス内で最も難しい特徴データ及びクラス外で最も難しい特徴データに基づいて各画像の第１のトレーニング対象のニューラルネットワークのハードトリプレット損失を決定できる。同様に、トレーニング画像セットの各画像の第４の特徴データセットにおける特徴データ、クラス内で最も難しい特徴データ及びクラス外で最も難しい特徴データに基づいて各画像の第２のトレーニング対象のニューラルネットワークのハードトリプレット損失を決定できる。

選択可能なように、トレーニング画像セットの各画像ごとに第１のトレーニング対象のニューラルネットワークのハードトリプレット損失及び第２のトレーニング対象のニューラルネットワークのハードトリプレット損失を決定した後、トレーニング画像セットの第１のトレーニング対象のニューラルネットワークのハードトリプレット損失の平均値を第１のハードトリプレット損失とし、トレーニング画像セットの少なくとも１つの画像の第２のトレーニング対象のニューラルネットワークのハードトリプレット損失の平均値を第２のハードトリプレット損失とする。

第１のハードトリプレット損失を教師としてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークをトレーニングする。これにより、ｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークは、同じクラスに属する画像の特徴データ間の類似度を向上させ、異なるクラスに属する画像の特徴データ間の類似度を低減できるため、異なるクラスの画像をよりよく区別し、画像のクラスに対する認識精度を向上させることができる。同様に、第２のハードトリプレット損失を教師としてｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークをトレーニングすることにより、ｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークが画像から特徴を抽出する効果を向上させ、より豊富な画像情報を含む特徴データを取得することができる。

本実施例では、第１のハード分類損失、第１のソフト分類損失及び第１のハードトリプレットに基づいて第１の損失を決定し、第２のハード分類損失、第２のソフト分類損失及び第２のハードトリプレットに基づいて第２の損失を決定する。また、第１の損失に基づいてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークを調整し、第２の損失に基づいてｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークを調整することにより、トレーニング画像及びｉ回目の第１の反復の平均ネットワークを教師としてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークをトレーニングすることと、及びトレーニング画像及びｉ回目の第１の反復のトレーニング前の対象ネットワークを教師としてｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークをトレーニングすることとを実現する。

実施例におけるｉ回目の反復は、トレーニング画像セット内の画像のラベルによってポジティブサンプル特徴データサブセット及びネガティブサンプル特徴データサブセットを決定し、このラベルは、ステップ３０１における従来の方法によって取得された疑似ハードラベルである。疑似ハードラベルは、ワンホットエンコーディング（ｏｎｅ－ｈｏｔ）によって処理されたデータであり、すなわち、疑似ハードラベルの数値は、０又は１であるため、疑似ハードラベルには大きな誤差がある。よって、疑似ハードラベルによって決定されるポジティブサンプルサブセット及びネガティブサンプルサブセットにも大きな誤差があるため、ｉ回目の第１の反復後に取得されたｉ＋１回目の第１の反復の第１のトレーニング対象のニューラルネットワークのターゲットドメインでの特徴抽出効果が悪く、ターゲットドメインでの認識正確率が低い。

例えば（例６）、トレーニング画像セット内の画像のラベルは、２つのクラス（張三及び李四）を含む。疑似ハードラベルの数値は０又は１であるため、トレーニング画像セット内の画像における人物オブジェクトは、張三又は李四である。トレーニング画像セット内の画像１における人物オブジェクトは張三であり、画像１の疑似ハードラベルが表すクラスは張三であり、画像２における人物オブジェクトは李四であるが、画像２の疑似ハードラベルが表すクラスは張三であり、画像３における人物オブジェクトは張三であるが、画像３の疑似ハードラベルに表すクラスは李四であるとする。画像１の第１の特徴データセットにおける特徴データは、特徴データａであり、画像２の第１の特徴データセットにおける特徴データは、特徴データｂであり、画像３の第１の特徴データセットにおける特徴データは、特徴データｃである。特徴データａのクラス内で最も難しい特徴データは、特徴データｂであり、特徴データａのクラス外で最も難しい特徴データは、特徴データｃである。特徴データａ、特徴データｂ及び特徴データｃで決定される第１のハードトリプレット損失を教師としてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークをトレーニングしてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークを調整する。これにより、ｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークは、画像１から抽出された特徴データと画像２から抽出された特徴データとの類似度を向上させるとともに、画像１から抽出する特徴データと画像２から抽出する特徴データとの類似度を低減させ、ｉ＋１回目の第１の反復の第１のトレーニング対象のニューラルネットワークを取得する。画像１における人物オブジェクト（張三）と画像２における人物オブジェクト（李四）は同一人物ではないため、画像１の特徴データと画像２の特徴データとの類似度を向上させると、ｉ＋１回目の第１の反復の第１のトレーニング対象のニューラルネットワークが張三又は李四に対する認識正確率が低くなることは明らかである。同様に、画像１における人物オブジェクト（張三）と画像３における人物オブジェクト（張三）は同一人物であるため、画像１の特徴データと画像３の特徴データとの類似度を低下させると、ｉ＋１回目の第１の反復の第１のトレーニング対象のニューラルネットワークが張三又は李四に対する認識正確率が低くなることは明らかである。

例えば例６における疑似ハードラベルによる影響を低減するために、本開示の実施例は、ソフトラベルを教師としてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークをトレーニングして第１のソフトトリプレット損失を取得する方法を提供する。第１のソフトトリプレット損失を教師としてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークをトレーニングすることにより、ｉ＋１回目の第１の反復の第１のトレーニング対象のニューラルネットワークの認識正確率を向上させ、目標ニューラルネットワークの認識正確率を向上させる。

本開示の実施例に係る別の画像処理方法のフローチャートである図６を参照する。

６０１．ｉ回目の第１の反復の平均ネットワークによって上記トレーニング画像セットを処理して第２の特徴データセットを取得し、ｉ回目の第１の反復のトレーニング前の対象ネットワークによって上記トレーニング画像セットを処理して第５の特徴データセットを取得する。

６０２．上記第１の特徴データセット、上記第２の特徴データセット、上記第４の特徴データセット及び上記第５の特徴データセットに基づいて第１のソフトトリプレット損失及び第２のソフトトリプレット損失を取得する。

上記第１の画像の第２の特徴データセットにおける第２の特徴データと、第２の特徴データセット内のポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して第２の類似度を取得し、第２の特徴データと、第２の特徴データセット内のネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して第４の類似度を取得する。上記第１の画像の第５の特徴データセットにおける第４の特徴データと、第５の特徴データセットのポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して第１１の類似度を取得し、第４の特徴データと、第５の特徴データセットのネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して第１２の類似度を取得する。

本開示の実施例では、異なる特徴データセットのポジティブサンプル特徴データサブセットに含まれる特徴データが異なり、異なる特徴データセットのネガティブサンプル特徴データサブセットに含まれる特徴データも異なることが理解されるべきである。

疑似ハードラベルの数値が０又は１であることにより、トレーニング画像セット内の画像のクラスの分類が「絶対的すぎる」ため、ターゲットドメインでｉ＋１回目の第１の反復の第１のトレーニング対象のニューラルネットワークの特徴抽出効果はよくない。本実施例では、第１の類似度、第２の類似度、第３の類似度、第４の類似度、第９の類似度、第１０の類似度、第１１の類似度及び第１２の類似度をそれぞれ正規化処理し、第１の類似度、第２の類似度、第３の類似度、第４の類似度、第９の類似度、第１０の類似度、第１１の類似度及び第１２の類似度を０から１の間の数値に変換し、正規化処理した後に取得された類似度間の差分に基づいてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークの第１のソフトトリプレット損失及びｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークの第２のソフトトリプレット損失を決定する。これにより、ターゲットドメインでｉ＋１回目の第１の反復の第１のトレーニング対象のニューラルネットワークの特徴抽出効果を向上させる。

可能な一実施形態では、第２の類似度と第４の類似度との和を第１の総類似度として取得し、第１の類似度と第３の類似度との和を第２の総類似度として取得し、第９の類似度と第１０の類似度との和を第３の総類似度として取得し、第１１の類似度と第１２の類似度との和を第４の総類似度として取得する。第２の類似度と第１の総類似度との商を算出して第５の類似度を取得し、第４の類似度と第１の総類似度との商を算出して第６の類似度を取得し、第１の類似度と第２の総類似度との商を算出して第７の類似度を取得し、第３の類似度と第２の総類似度との商を算出して第８の類似度を取得し、第９の類似度と第３の総類似度との商を算出して第１３の類似度を取得し、第１０の類似度と第２の総類似度との商を算出して第１４の類似度を取得し、第１１の類似度と第４の総類似度との商を算出して第１５の類似度を取得し、第１２の類似度と第４の総類似度との商を算出して第１６の類似度を取得する。第１の類似度、第２の類似度、第３の類似度、第４の類似度、第９の類似度、第１０の類似度、第１１の類似度及び第１２の類似度の正規化処理を完了する。また、第５の類似度及び第６の類似度をｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークの教師データ（すなわち、ソフトラベル）としてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークのパラメータを調整し、第１５の類似度及び第１６の類似度をｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークの教師データ（すなわち、ソフトラベル）としてｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークのパラメータを調整する。すなわち、第５の類似度と第７の類似度との差分及び第６の類似度と第８の類似度との差分に基づいて第１のソフトトリプレット損失を決定し、第１３の類似度と第１５の類似度との差分及び第１４の類似度と第１６の類似度との差分に基づいて第２のソフトトリプレット損失を決定する。

選択可能なように、トレーニング画像セットの各画像の第２の特徴データセットにおけるクラス内で最も難しい特徴データと各画像の第２の特徴データセットにおける特徴データとの類似度、及び第２の特徴データセットにおけるクラス外で最も難しい特徴データと各画像の第２の特徴データセットにおける特徴データとの類似度に基づいて、各画像のｉ回目の第１の反復の平均ネットワークのソフトトリプレット損失を決定する。トレーニング画像セットの各画像の第５の特徴データセットにおけるクラス内で最も難しい特徴データと各画像の第５の特徴データセットにおける特徴データとの類似度、及び第５の特徴データセットにおけるクラス外で最も難しい特徴データと各画像の第５の特徴データセットにおける特徴データとの類似度に基づいて、各画像のｉ回目の第１の反復の目標ニューラルネットワークのソフトトリプレット損失を決定する。また、トレーニング画像セットの少なくとも１つの画像のｉ回目の第１の反復の平均ネットワークのソフトトリプレット損失の平均値を算出して第１のソフトトリプレット損失を取得し、トレーニング画像セットの少なくとも１つの画像のｉ回目の第１の反復の目標ニューラルネットワークのソフトトリプレット損失の平均値を算出して第２のソフトトリプレット損失を取得する。

第１の類似度、第２の類似度、第３の類似度、第４の類似度、第９の類似度、第１０の類似度、第１１の類似度及び第１２の類似度を正規化処理して取得される０～１の間の大きさの類似度は、疑似ハードラベルよりも実際のデータ分布に近いため、正規化処理された類似度を教師データとすることで、目標ニューラルネットワークの認識正確率を向上させることができる。

例えば、処理対象の画像セットには１０枚の画像が含まれている。ステップ４０１の処理により、処理対象の画像セット内の画像における人物オブジェクトの身元に基づいて処理対象の画像セット内の画像を張三と李四に分ける。含まれる人物オブジェクトの身元の疑似ハードラベルが張三の画像（以下、第１のクラスの画像）及び含まれる人物オブジェクトの身元の疑似ハードラベルが李四の画像（以下、第２のクラスの画像）はそれぞれ５枚ある。しかし、第１のクラスの画像における画像１の人物オブジェクトの実際の身元は、李四であり、第２のクラスの画像における画像２の人物オブジェクトの実際の身元は、張三である。つまり、第１のクラスの画像には、人物オブジェクトの身元が張三である画像が４枚含まれており、人物オブジェクトの身元が李四である画像が１枚含まれている。第１のクラスの画像では、実際のラベルの分布は、［０．８，０．２］であるべきである。［０．８，０．２］は、第１のクラスの画像の総数に対する第１のクラスの画像に含まれる人物オブジェクトの身元が張三である画像の数の割合が０．８であり、第１のクラスの画像の総数に対する第１のクラスの画像に含まれる人物オブジェクトの身元が李四である画像の数の割合が０．２であることを示す。同様に、第２のクラスの画像では、実際のラベルの分布は、［０．２，０．８］であるべきである。［０．２，０．８］は、第２のクラスの画像の総数に対する第２のクラスの画像に含まれる人物オブジェクトの身元が張三である画像の数の割合が０．２であり、第２のクラスの画像の総数に対する第２のクラスの画像に含まれる人物オブジェクトの身元が李四である画像の数の割合が０．８であることを示す。しかし、第１のクラスの画像の疑似ハードラベルが［１，０］であり、第２のクラスの画像の疑似ハードラベルが［０，１］であるため、これは明らかに、第１のクラスの画像の実際のラベルの分布及び第２のクラスの画像の実際のラベルの分布に該当しない。一方、本実施例に係る方法によって取得されるソフトラベルは、０から１の間の数値であり、第１のクラスの画像の実際のラベルの分布及び第２のクラスの画像の実際のラベルの分布により該当するため、ソフトラベルを教師データとしてｉ回目の反復の第１のトレーニング対象のニューラルネットワーク及びｉ回目の反復の第２のトレーニング対象のニューラルネットワークをトレーニングすることにより、ターゲットドメインで最終的に取得される目標ニューラルネットワークの特徴抽出効果を向上させることができる。選択可能なように、本開示の実施例における類似度は、ユークリッド距離であってもよいし、コサイン類似度であってもよい。本開示は、これを限定しない。

選択可能なように、ｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワーク、ｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワーク、ｉ回目の第１の反復の目標ニューラルネットワーク及びｉ回目の第１の反復の平均ニューラルネットワークにトレーニング画像セットを入力する前に、トレーニング画像セット内の画像に対して第１の前処理を行って第１の画像セットを取得し、第１の画像セットをｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークに入力して第１の特徴データセットを取得し、第１の画像セットをｉ回目の第１の反復の目標ニューラルネットワークに入力して第５の特徴データセットを取得することができる。第１の前処理は、消去処理、トリミング処理、反転処理のいずれかを含む。

トレーニング画像セットに対して第１の前処理を行うことにより、トレーニング中に、ｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワーク、ｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワーク、ｉ回目の第１の反復の目標ニューラルネットワーク及びｉ回目の第１の反復の平均ネットワークに過剰適合が発生する確率を低減することができる。

選択可能なように、トレーニング画像セットに対して第１の前処理を行うとともに、トレーニング画像セットに対して第２の前処理を行って第４の画像セットを取得することができる。第２の前処理は、消去処理、トリミング処理、反転処理のいずれかを含み、第１の前処理と第２の前処理とは異なる。第４の画像セットをｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークに入力して第４の特徴データセットを取得し、第４の画像セットをｉ回目の第１の反復の平均ネットワークに入力して第２の特徴データセットを取得する。

トレーニング画像セットに対して第１の前処理及び第２の前処理を同時に行うことにより、トレーニング中に、ｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワーク、ｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワーク、ｉ回目の第１の反復の目標ニューラルネットワーク及びｉ回目の第１の反復の平均ネットワークに過剰適合が発生する確率をさらに低減することができる。

例えば（例７）、トレーニング画像セットは、画像１及び画像２を含み、画像１に対してトリミング処理を行って画像３を取得し、画像２に対して消去処理（画像２の任意の領域を消去する）を行って画像４を取得し、画像３及び画像４を第１の画像セットとする。画像１に対して反転処理を行って画像５を取得し、画像２に対してトリミング処理を行って画像６を取得し、画像５及び画像６を第４の画像セットとする。画像３及び画像４をｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークに入力して画像３の特徴データ及び画像４の特徴データを含む第１の特徴データセットを取得し、画像３及び画像４をｉ回目の第１の反復の目標ニューラルネットワークに入力して画像３の特徴データ及び画像４の特徴データを含む第５の特徴データセットを取得し、画像５及び画像６をｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークに入力して画像５の特徴データ及び画像６の特徴データを含む第４の特徴データセットを取得し、画像５及び画像６をｉ回目の第１の反復の平均ネットワークに入力して画像５の特徴データ及び画像６の特徴データを含む第２の特徴データセットを取得する。

トレーニング画像セット内の第１の画像に対して第１の前処理を行って第２の画像を取得し、第１の画像に対して第２の前処理を行って第４の画像を取得し、第２の画像と第４の画像の画像内容は異なるが、第２の画像と第４の画像のラベルは同じである。例７に続いて例を挙げると、画像１のラベル、画像３のラベル及び画像５のラベルはすべて、同じであり、画像２のラベル、画像４のラベル及び画像６のラベルはすべて、同じである。

また、ｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークによって第２の画像を処理して第１の分類結果を取得し、ｉ回目の第１の反復の目標ニューラルネットワークによって第２の画像を処理して第４の分類結果を取得し、ｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークによって第４の画像を処理して第３の分類結果を取得し、ｉ回目の第１の反復の平均ネットワークによって第２の画像を処理して第２の分類結果を取得することができる。

ｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークによって第１の画像セットを処理して取得される第１の特徴データセット内の特徴データは、ｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークによってトレーニング画像セットを処理して取得される第１の特徴データセット内の特徴データと異なる。このとき、上述したトレーニング画像セット内の画像の第１の特徴データセット（又は第２の特徴データセット又は第４の特徴データセット又は第５の特徴データセット）におけるクラス内で最も難しい特徴データとは、第１の前処理又は第２の前処理が行われた画像の第１の特徴データセット（又は第２の特徴データセット又は第４の特徴データセット又は第５の特徴データセット）におけるクラス内で最も難しい特徴データを意味し、トレーニング画像セット内の画像の第１の特徴データセット（又は第２の特徴データセット又は第４の特徴データセット又は第５の特徴データセット）におけるクラス外で最も難しい特徴データとは、第１の前処理又は第２の前処理が行われた画像の第１の特徴データセット（又は第２の特徴データセット又は第４の特徴データセット又は第５の特徴データセット）におけるクラス外で最も難しい特徴データを意味する。

なお、本開示の実施例における第１のトレーニング対象のニューラルネットワーク、第１のニューラルネットワーク及びｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークが同じ構造であるが、パラメータが異なる。第２のトレーニング対象のニューラルネットワーク、第２のニューラルネットワーク及びｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークが同じ構造であるが、パラメータが異なる。対象ネットワーク及びｉ回目の第１の反復の目標ニューラルネットワークが同じ構造であるが、パラメータが異なる。平均ネットワーク及びｉ回目の第１の反復のトレーニング前の平均ニューラルネットワークが同じ構造であるが、パラメータが異なる。図４に示すｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークの出力は、第１の分類結果及び第１の特徴データセットを含み、ｉ回目の第１の反復の目標ニューラルネットワークの出力は、第４の分類結果及び第５の特徴データセットを含み、ｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークの出力は、第３の分類結果及び第４の特徴データセットを含み、ｉ回目の第１の反復の平均ネットワークの出力は、第２の分類結果及び第２の特徴データセットを含む。

選択可能なように、本開示に係る発明を実行する装置のハードウェアリソースが不十分であるため、１回の第１の反復又は第２の反復においてトレーニング画像セットの少なくとも１つの画像を処理しきれない場合、トレーニング画像セットからサンプリングしてサンプル画像セットを取得し、サンプル画像セットを１回の第１の反復又は１回の第２の反復のトレーニングデータとすることができる。

６０３．上記第１のハード分類損失、上記第１のソフト分類損失、上記第１のソフトトリプレット損失及び上記第１のハードトリプレット損失に基づいて第１の損失を決定し、上記第２のハード分類損失、上記第２のソフト分類損失、上記第２のソフトトリプレット損失及び上記第２のハードトリプレット損失に基づいて第２の損失を決定する。

第１のハードトリプレット損失と、第１のハード分類損失と、第１のソフトトリプレット損失と、第１のソフト分類損失とを重み付け加算して第１の損失を取得し、第２のハードトリプレット損失と、第２のハード分類損失と、第２のソフトトリプレット損失と、第２のソフト分類損失とを重み付け加算して第２の損失を取得する。重み付け加算の重みは、実際の使用状況に応じて調整できる。本開示は、これを限定しない。

本実施例に係る技術方案を適用する場合、第１の特徴データセット、第２の特徴データセット、第４の特徴データセット及び第５の特徴データセットに基づいてソフトラベルを取得し、ソフトラベルを教師としてｉ回目反復の第１のトレーニング対象のニューラルネットワーク及びｉ回目反復の第２のトレーニング対象のニューラルネットワークをトレーニングすることにより、第１のソフトトリプレット損失及び第２のソフトトリプレット損失を取得することができる。第１のソフトトリプレット損失に基づいてｉ回目反復の第１のトレーニング対象のニューラルネットワークのパラメータを調整してｉ＋１回目の反復の第１のトレーニング対象のニューラルネットワークを取得し、第２のソフトトリプレット損失に基づいてｉ回目の反復の第２のトレーニング対象のニューラルネットワークを調整する。これにより、ターゲットドメインでｉ＋１回目の反復の第１のトレーニング対象のニューラルネットワークの認識正確率及びターゲットドメインでｉ＋１回目の反復の第２のトレーニング対象のニューラルネットワークの特徴抽出効果を向上させ、ターゲットドメインで目標ニューラルネットワークの認識正確率を向上させることができる。

本開示の実施例はさらに、実施例で取得される処理対象の画像の目標特徴データに基づいて画像検索を行う適用場面を提供する。すなわち、上記目標特徴データでデータベースを検索して、上記目標特徴データにマッチングする特徴データを有する画像を目標画像として取得する。

上記データベースは、処理対象の画像を取得する前に構築することができる。データベースは、画像及び画像の特徴データを含む。画像の特徴データは、目標ニューラルネットワークがターゲットドメインで実行するタスクに関わる。例えば、目標ニューラルネットワークを用いてターゲットドメイン内の画像における人物オブジェクトの身元を認識する。画像の特徴データは、画像における、人物オブジェクトの服飾属性、外見特徴及び人物オブジェクトの身元を認識するための他の特徴を含む人物オブジェクトの特徴を含む。服飾属性は、人体を装飾する物品の特徴（例えば上着の色、ズボンの色、ズボンの長さ、帽子のスタイル、靴の色、傘を差すか否か、鞄の種類、マスクの有無、マスクの色）のうちの少なくとも１つを含む。外見特徴は、体型、性別、髪型、髪の色、年齢層、メガネの着用の有無、胸に何かを抱くか否かなどを含む。人物の身元を認識するための他の特徴は、姿勢、画角、歩幅、環境の明るさを含む。また例えば、目標ニューラルネットワークを用いて、ターゲットドメイン内の画像にはリンゴ、梨、桃のいずれかの果物が含まれているかを認識し、画像の特徴データはリンゴの特徴情報又は梨の特徴情報又は桃の特徴情報を含む。

データベース内の各画像は特徴データを有するので、目標特徴データでデータベースを検索して、データベースから目標特徴データにマッチングする特徴データを決定し、すなわち、目標特徴データとデータベース内の画像の特徴データとの類似度を決定し、類似度が閾値に達する画像の特徴データを目標特徴データにマッチングする特徴データとして、目標画像を決定する。なお、目標画像の数は、１枚であってもよいし、複数枚であってもよいことは理解されるべきである。

当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの記載順序は、実行順序を厳密に限定して実施の過程を限定するものではなく、各ステップの実行順序がその機能と内部の論理によって具体的に決定されることが理解すべきである。

以上、本開示の実施例の方法を詳しく説明したが、以下、本開示の実施例の装置を提供する。

図７を参照すると、図７は、本開示の実施例に係る画像処理装置の構造模式図である。この装置１は、処理対象の画像を取得するための取得ユニット１１と、目標ニューラルネットワークを用いて前記処理対象の画像に対して特徴抽出処理を行って前記処理対象の画像の目標特徴データを取得するための特徴抽出処理ユニット１２、及び検索ユニット１３を備え、前記目標ニューラルネットワークのパラメータは、第１のニューラルネットワークのパラメータの時系列平均値であり、前記第１のニューラルネットワークは、トレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得され、前記平均ネットワークのパラメータは、第２のニューラルネットワークのパラメータの時系列平均値であり、前記第２のニューラルネットワークは、前記トレーニング画像セット及び前記目標ニューラルネットワークを用いて教師ありトレーニングを行って取得される。

可能な一実施形態では、前記第１のニューラルネットワークがトレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得されることは、前記トレーニング画像セット、第１のトレーニング対象のニューラルネットワーク及び第２のトレーニング対象のニューラルネットワークを取得することと、前記第１のトレーニング対象のニューラルネットワーク及び前記第２のトレーニング対象のニューラルネットワークに対してｘ（ｘは、正の整数）回の第１の反復を実行して前記第１のニューラルネットワーク及び第２のニューラルネットワークを取得することとを含み、前記ｘ回の第１の反復のうちｉ（ｉは、前記ｘ以下の正の整数）回目の第１の反復は、前記トレーニング画像セット及びｉ回目の第１の反復の前記平均ネットワークの出力を教師としてｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得し、前記トレーニング画像セット及びｉ回目の第１の反復の前記目標ニューラルネットワークの出力を教師としてｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークを取得することを含み、前記目標ニューラルネットワークのパラメータが第１のニューラルネットワークのパラメータの時系列平均値であることは、ｉ－１回目の第１の反復の前記目標ニューラルネットワークのパラメータ及び前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークのパラメータに基づいて前記ｉ回目の第１の反復の前記目標ニューラルネットワークのパラメータを決定することと、前記ｉ＝１の場合、前記ｉ－１回目の第１の反復の前記目標ニューラルネットワークのパラメータは、前記第１のトレーニング対象のニューラルネットワークのパラメータと同じであることとを含む。

別の可能な実施形態では、前記トレーニング画像セット及びｉ回目の平均ネットワークの出力を教師としてｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することは、前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第１の特徴データセットを取得し、前記ｉ回目の第１の反復の前記平均ネットワークによって前記トレーニング画像セットを処理して第２の特徴データセットを取得することと、前記第１の特徴データセット及び前記第２の特徴データセットに基づいて第１のソフトトリプレット損失を取得することと、前記トレーニング画像セット及び前記第１のソフトトリプレット損失を教師として前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングして前記ｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することとを含む。

別の可能な実施形態では、前記第１の特徴データセット及び前記第２の特徴データセットに基づいて第１のソフトトリプレット損失を取得することは、前記トレーニング画像セット内の第１の画像の前記第１の特徴データセットにおける第１の特徴データと、前記第１の特徴データセット内の、前記第１の画像の第１のラベルと同じラベルを有する画像の特徴データを含むポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第１の類似度を取得することと、前記第１の画像の前記第２の特徴データセットにおける第２の特徴データと、前記第２の特徴データセット内の前記ポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第２の類似度を取得することと、前記第１の特徴データと、前記第１の特徴データセット内の、前記第１のラベルと異なるラベルを有する画像の特徴データを含むネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第３の類似度を取得することと、前記第２の特徴データと、前記第２の特徴データセット内の前記ネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第４の類似度を取得することと、前記第１の類似度、前記第２の類似度、前記第３の類似度及び前記第４の類似度をそれぞれ正規化処理して、第５の類似度、第６の類似度、第７の類似度及び第８の類似度を取得することと、前記第５の類似度、前記第６の類似度、前記第７の類似度及び前記第８の類似度に基づいて前記第１のソフトトリプレット損失を取得することとを含む。

別の可能な実施形態では、前記第１の類似度、前記第２の類似度、前記第３の類似度及び前記第４の類似度をそれぞれ正規化処理して第５の類似度、第６の類似度、第７の類似度及び第８の類似度を取得することは、前記第２の類似度と前記第４の類似度との和を第１の総類似度として取得し、前記第１の類似度と前記第３の類似度との和を第２の総類似度として取得することと、前記第２の類似度と前記第１の総類似度との商を前記第５の類似度として取得し、前記第４の類似度と前記第１の総類似度との商を前記第６の類似度として取得することと、前記第１の類似度と前記第２の総類似度との商を前記第７の類似度として取得し、前記第３の類似度と前記第２の総類似度との商を前記第８の類似度として取得することとを含む。

別の可能な実施形態では、前記トレーニング画像セット及び前記第１のソフトトリプレット損失を教師として前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングして前記ｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することは、前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記第１の画像を処理して第１の分類結果を取得することと、前記第１の分類結果、前記第１のラベル及び前記第１のソフトトリプレット損失に基づいて前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークの第１の損失を決定することと、前記第１の損失に基づいて前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークのパラメータを調整して前記ｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することとを含む。

別の可能な実施形態では、前記第１の分類結果、前記第１のラベル及び前記第１のソフトトリプレット損失に基づいて前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークの第１の損失を決定することは、前記第１の分類結果と前記第１のラベルとの差分に基づいて第１のハード分類損失を決定することと、前記第１のハード分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することとを含む。

別の可能な実施形態では、前記第１のハード分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定する前に、前記ｉ回目の第１の反復の前記平均ネットワークによって前記第１の画像を処理して第２の分類結果を取得し、前記第１の分類結果と前記第２の分類結果との差分に基づいて第１のソフト分類損失を決定し、前記第１のハード分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することは、前記第１のハード分類損失、前記第１のソフト分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することを含む。

別の可能な実施形態では、前記第１のハード分類損失、前記第１のソフト分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定する前に、前記第１の類似度及び前記第３の類似度に基づいて第１のハードトリプレット損失を決定し、前記第１のハード分類損失、前記第１のソフト分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することは、前記第１のハード分類損失、前記第１のソフト分類損失、前記第１のソフトトリプレット損失及び前記第１のハードトリプレット損失に基づいて前記第１の損失を決定することを含む。

別の可能な実施形態では、前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記トレーニング画像セット内の第１の画像を処理して第１の分類結果を取得することは、前記トレーニング画像セットに対して消去処理、トリミング処理、反転処理のいずれかを含む第１の前処理を行って第１の画像セットを取得することと、前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記第１の画像セット内の第２の画像を処理して前記第１の分類結果を取得することとを含み、前記第２の画像は、前記第１の画像に対して前記第１の前処理を行って取得され、前記第２の画像の前記第１の特徴データセットにおける特徴データは、前記第１の画像の前記第１の特徴データセットにおけるデータと同じである。

別の可能な実施形態では、前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第１の特徴データセットを取得することは、前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記第１の画像セットを処理して前記第１の特徴データセットを取得することを含む。

別の可能な実施形態では、前記取得ユニット１１は具体的に、処理対象の画像セット及び第３のニューラルネットワークを取得することと、前記第３のニューラルネットワークに対してｙ（ｙは、正の整数）回の第２の反復を実行して前記トレーニング画像セットを取得することとに用いられ、前記ｙ回の第２の反復のうちｔ（ｔは、前記ｙよりも小さい正の整数）回目の第２の反復は、前記処理対象の画像セットからサンプリングして第２の画像セットを取得し、ｔ回目の第２の反復の第３のニューラルネットワークによって前記第２の画像セット内の画像を処理して前記第２の画像セット内の画像の特徴データを含む第３の特徴データセット及び前記第２の画像セット内の画像の分類結果を含む分類結果セットを取得することと、前記第３の特徴データセット内の特徴データをクラスタリング処理して前記第３の特徴データセット内の特徴データのラベルを決定し、前記第３の特徴データセット内の特徴データのラベルを前記第２の画像セット内の対応する画像に付加して第３の画像セットを取得することと、前記分類結果セット内の分類結果と前記第３の画像セット内の画像のラベルとの差分に基づいて第３の損失を決定することと、前記第３の損失に基づいて前記ｔ回目の第２の反復の第３のニューラルネットワークのパラメータを調整してｔ＋１回目の第２の反復の第３のニューラルネットワークのパラメータを取得することとを含む。

別の可能な実施形態では、前記装置は、前記目標特徴データでデータベースを検索して、前記目標特徴データにマッチングする特徴データを有する画像を目標画像として取得するための検索ユニット１３をさらに備える。

本実施例では、第１のニューラルネットワークのパラメータの時系列平均値及び第２のニューラルネットワークの時系列平均値を決定して目標ニューラルネットワークのパラメータ及び平均ネットワークのパラメータをそれぞれ取得し、目標ニューラルネットワークの出力を教師として第２のニューラルネットワークをトレーニングし、平均ネットワークの出力を教師として第１のニューラルネットワークをトレーニングして、目標ニューラルネットワークをトレーニングする。これにより、トレーニング効果を向上させることができる。また、目標ニューラルネットワークを用いてターゲットドメインで関連する認識タスクを実行するとき、情報がより豊富な目標特徴データを抽出できる。当該情報は、ターゲットドメインでの認識正確率を向上させることができる。

いくつかの実施例において、本開示の実施例による装置の機能又は手段は、上記方法実施例に記載の方法を実行するために用いられる。具体的な実施は上記方法実施例の記載を参照すれば明らかになり、簡潔さのため、詳細な説明は省略する。

図８は、本開示の実施例に係る画像処理装置のハードウェア構造模式図である。この画像処理装置２は、プロセッサ２１と、メモリ２２と、入力装置２３と、出力装置２４とを備える。プロセッサ２１、メモリ２２、入力装置２３及び出力装置２４は、コネクタを介して結合され、このコネクタは、様々なインターフェース、伝送ラインやバスなどを含み、本開示の実施例は、これを限定しない。本開示の各実施例では、結合とは、特定の手段による相互接続を意味し、直接的に接続されること又は他の装置を介して間接的に接続される（例えば様々なインターフェース、伝送ライン、バスなどを介して接続することができる）ことを含むことは理解されるべきである。

プロセッサ２１は、１つ以上のグラフィックプロセッサ（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＧＰＵ）であってもよい。プロセッサ２１が１つのＧＰＵである場合、当該ＧＰＵは、シングルコアＧＰＵであってもよいし、マルチコアＧＰＵであってもよい。プロセッサ２１は、複数のＧＰＵからなるプロセッサ群であり、複数のプロセッサ同士は、１つ以上のバスを介して互いに結合されていることを選択可能であっても良い。プロセッサはさらに、他のタイプのプロセッサなどことを選択可能であっても良い、本開示の実施例は、これに限定されない。

メモリ２２は、コンピュータプログラム命令、及び本開示の方案を実行するためのプログラムコードを含む様々なコンピュータプログラムコードを記憶するために使用でき。メモリは、ランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）、リードオンリーメモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ、ＥＰＲＯＭ）、又はコンパクトディスクリードオンリーメモリ（ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＣＤ－ＲＯＭ）を選択可能に含むが、これらに限定されず、当該メモリは関連命令及びデータのために使用される。

入力装置２３は、データ及び／又は信号を入力するためのものであり、出力装置２４は、データ及び／又は信号を出力するためのものである。出力装置２３及び入力装置２４は、独立したデバイスであってもよいし、一体のデバイスであってもよい。

本開示の実施例では、メモリ２２は、関連する命令を記憶するために用いることができるだけでなく、関連画像を記憶するために用いることもでき、例えば当該メモリ２２は、入力装置２３により取得された検索対象ニューラルネットワークを記憶するために用いることができ、又は当該メモリ２２は、さらにプロセッサ２１により検索して得られた目標ニューラルネットワークなどを記憶するために用いることができ、本開示の実施例は、当該メモリに具体的に記憶されたデータを限定するものではないと理解することができる。

図８は、画像処理装置の簡略化された設計のみを示していることが理解されるべきである。実際の適用において、画像処理装置はさらに、任意の数の入力／出力装置、プロセッサ、メモリなど必要な他の素子をそれぞれ含んでもよいが、これらに限定されない。本開示の実施例を実施できる画像処理装置はすべて、本開示の技術的範囲内であると理解することができる。

当業者であれば、本明細書に開示された実施例に関連して説明された様々な例示的なユニット及びアルゴリズムステップは、電子ハードウェア、又はコンピュータソフトウェアと電子ハードウェアとの組み合わせで実現され得ることを認識するであろう。これらの機能がハードウェアで実行されるかソフトウェアで実行されるかは、技術方案の特定の応用や設計制約条件に依存する。当業者は特定の応用ごとに異なる方法を用いて説明した機能を実現することができるが、この実現は本開示の範囲を超えているとは考えられない。

当業者には明らかなように、説明の容易さと簡潔さのために、上述したシステム、装置及びユニットの具体的な動作過程は、前述した方法の実施例における対応の過程を参照することができ、ここでは説明を省略する。当業者には明らかなように、本開示の各実施例はそれぞれに重点を置いて説明し、説明の容易さと簡潔さのために、異なる実施例において、同一又は類似の部分は説明が省略されている場合があり、したがって、ある実施例において説明されない又は詳細に説明されない部分は他の実施例の記載を参照することができる。

本開示によって提供されるいくつかの実施例において、開示されたシステム、装置及び方法は、他の方式によって実現されることが理解すべきである。例えば、上述した装置の実施例は例示的なものにすぎず、例えば、前記ユニットの分割は論理的な機能分割のみであり、実際に実現される場合には別の分割方式があってもよく、例えば、複数のユニット又はコンポーネントを集積したり、別のシステムに集積したり、一部の特徴を無視したり、実行しなかったりしてもよい。別の点として、表示又は議論された相互間の結合又は直接結合又は通信接続は、いくつかのインタフェース、装置又はユニットを介した間接的な結合又は通信接続であってもよく、電気的、機械的又は他の形態であってもよい。

分離部材として説明した前記ユニットは物理的に分離されていてもよいし、物理的に分離されていなくてもよく、ユニットとして表示される部材は物理的なユニットであってもよいし、物理的なユニットでなくてもよく、即ち１つの場所にあってもよいし、複数のネットワークユニットに分散されていてもよい。実際の需要に応じてその中の一部又は全部のユニットを選択して本実施例の手段の目的を達成することができる。

また、本開示の各実施例における各機能ユニットは、１つの処理ユニットに集積されていてもよいし、各処理ユニットが個別に物理的に存在していてもよいし、２つ以上の処理ユニットが１つの処理ユニットに集積されていてもよい。

上述した実施例において、ソフトウェア、ハードウェア、ファームウェア、又はそれらの組み合わせにより、その全部又は一部を実現するようにしてもよい。ソフトウェアを用いて実現する場合には、その全部又は一部をコンピュータプログラム製品として実現してもよい。前記コンピュータプログラム製品は１つ以上のコンピュータ命令を含む。コンピュータ上で前記コンピュータプログラム命令がロードされて実行されると、その全部又は一部は、本開示の実施例に記載されたフロー又は機能を生成する。前記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラム可能な装置であってもよい。前記コンピュータ命令は、コンピュータ読取可能記憶媒体に記憶されてもよいし、前記コンピュータ読取可能記憶媒体を介して伝送されてもよい。前記コンピュータ命令は、１つのウェブサイト、コンピュータ、サーバ、又はデータセンタから、有線（例えば、同軸ケーブル、光ファイバ、デジタル加入者線（ｄｉｇｉｔａｌｓｕｂｓｃｒｉｂｅｒｌｉｎｅ、ＤＳＬ））又は無線（例えば、赤外線、無線、マイクロ波など）により、別のウェブサイト、コンピュータ、サーバ、又はデータセンタへ伝送されてもよい。前記コンピュータ読取可能記憶媒体は、コンピュータがアクセス可能な任意の利用可能な媒体であってもよいし、１つ以上の利用可能な媒体が集積されたサーバ、データセンタなどのデータ記憶装置であってもよい。前記利用可能な媒体は、磁気媒体（例えば、フロッピーディスク、ハードディスク、磁気テープ）、光媒体（例えば、デジタルユニバーサルディスク（ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｃ、ＤＶＤ））、又は半導体媒体（例えば、ソリッドステートドライブ（ｓｏｌｉｄｓｔａｔｅｄｉｓｋ、ＳＳＤ））などであってもよい。

当業者は上記実施例の方法を実現するフローの全部又は一部を理解することができ、当該フローはコンピュータプログラムによって関連するハードウェアに命令して完成することができ、当該プログラムはコンピュータ読取可能記憶媒体に記憶されて、当該プログラムが実行されるとき、上記各方法の実施例のようなフローを含むことができる。また、前述した記憶媒体には、リードオンリーメモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＲＯＭ）又はランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）、磁気ディスク、光ディスクなどのプログラムコードを記憶可能な各種媒体が含まれる。

本開示は、２０１９年９月２４日に中国特許庁に提出された、第２０１９１０９０５４４５．７で、発明の名称が「画像処理方法及び関連装置」である中国特許出願の優先権を主張し、その全ての内容は援用することによって本開示に組み込まれる。

別の可能な一実施形態では、前記第９の類似度、前記第１０の類似度、前記第１１の類似度及び前記第１２の類似度をそれぞれ正規化処理して第１３の類似度、第１４の類似度、第１５の類似度及び第１６の類似度を取得することは、前記第９の類似度と前記第１０の類似度との和を第３の総類似度として取得し、前記第１１の類似度と前記第１２の類似度との和を第４の総類似度として取得することと、前記第９の類似度を前記第３の総類似度で除算した商を前記第１３の類似度として取得し、前記第１０の類似度を前記第３の総類似度で除算した商を前記第１４の類似度として取得することと、前記第１１の類似度を前記第４の総類似度で除算した商を前記第１５の類似度として取得し、前記第１２の類似度を前記第４の総類似度で除算した商を前記第１６の類似度として取得することとを含む。

別の可能な一実施形態では、前記第９の類似度、前記第１０の類似度、前記第１１の類似度及び前記第１２の類似度をそれぞれ正規化処理して第１３の類似度、第１４の類似度、第１５の類似度及び第１６の類似度を取得することとは、前記第９の類似度と前記第１０の類似度との和を第３の総類似度として取得し、前記第１１の類似度と前記第１２の類似度との和を第４の総類似度として取得することと、前記第９の類似度を前記第３の総類似度で除算した商を前記第１３の類似度として取得し、前記第１０の類似度を前記第３の総類似度で除算した商を前記第１４の類似度として取得することと、前記第１１の類似度を前記第４の総類似度で除算した商を前記第１５の類似度として取得し、前記第１２の類似度を前記第４の総類似度で除算した商を前記第１６の類似度として取得することとを含む。

可能な一実施形態では、第２の類似度と第４の類似度との和を第１の総類似度として取得し、第１の類似度と第３の類似度との和を第２の総類似度として取得し、第９の類似度と第１０の類似度との和を第３の総類似度として取得し、第１１の類似度と第１２の類似度との和を第４の総類似度として取得する。第２の類似度を第１の総類似度で除算した商を算出して第５の類似度を取得し、第４の類似度を第１の総類似度で除算した商を算出して第６の類似度を取得し、第１の類似度を第２の総類似度で除算した商を算出して第７の類似度を取得し、第３の類似度を第２の総類似度で除算した商を算出して第８の類似度を取得し、第９の類似度を第３の総類似度で除算した商を算出して第１３の類似度を取得し、第１０の類似度を第２の総類似度で除算した商を算出して第１４の類似度を取得し、第１１の類似度を第４の総類似度で除算した商を算出して第１５の類似度を取得し、第１２の類似度を第４の総類似度で除算した商を算出して第１６の類似度を取得する。第１の類似度、第２の類似度、第３の類似度、第４の類似度、第９の類似度、第１０の類似度、第１１の類似度及び第１２の類似度の正規化処理を完了する。また、第５の類似度及び第６の類似度をｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークの教師データ（すなわち、ソフトラベル）としてｉ回目の第１の反復の第１のトレーニング対象のニューラルネットワークのパラメータを調整し、第１５の類似度及び第１６の類似度をｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークの教師データ（すなわち、ソフトラベル）としてｉ回目の第１の反復の第２のトレーニング対象のニューラルネットワークのパラメータを調整する。すなわち、第５の類似度と第７の類似度との差分及び第６の類似度と第８の類似度との差分に基づいて第１のソフトトリプレット損失を決定し、第１３の類似度と第１５の類似度との差分及び第１４の類似度と第１６の類似度との差分に基づいて第２のソフトトリプレット損失を決定する。

別の可能な実施形態では、前記第１の類似度、前記第２の類似度、前記第３の類似度及び前記第４の類似度をそれぞれ正規化処理して第５の類似度、第６の類似度、第７の類似度及び第８の類似度を取得することは、前記第２の類似度と前記第４の類似度との和を第１の総類似度として取得し、前記第１の類似度と前記第３の類似度との和を第２の総類似度として取得することと、前記第２の類似度を前記第１の総類似度で除算した商を前記第５の類似度として取得し、前記第４の類似度を前記第１の総類似度で除算した商を前記第６の類似度として取得することと、前記第１の類似度を前記第２の総類似度で除算した商を前記第７の類似度として取得し、前記第３の類似度を前記第２の総類似度で除算した商を前記第８の類似度として取得することとを含む。

Claims

処理対象の画像を取得することと、
目標ニューラルネットワークを用いて前記処理対象の画像に対して特徴抽出処理を行って、前記処理対象の画像の目標特徴データを取得することとを含み、
前記目標ニューラルネットワークのパラメータは、第１のニューラルネットワークのパラメータの時系列平均値であり、前記第１のニューラルネットワークは、トレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得され、前記平均ネットワークのパラメータは、第２のニューラルネットワークのパラメータの時系列平均値であり、前記第２のニューラルネットワークは、前記トレーニング画像セット及び前記目標ニューラルネットワークを用いて教師ありトレーニングを行って取得されることを特徴とする画像処理方法。
前記第１のニューラルネットワークは、トレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得されることは、
前記トレーニング画像セット、第１のトレーニング対象のニューラルネットワーク及び第２のトレーニング対象のニューラルネットワークを取得することと、
前記第１のトレーニング対象のニューラルネットワーク及び前記第２のトレーニング対象のニューラルネットワークに対してｘ（ｘは、正の整数）回の第１の反復を実行して前記第１のニューラルネットワーク及び第２のニューラルネットワークを取得することとを含み、
前記ｘ回の第１の反復のうちｉ（ｉは、前記ｘ以下の正の整数）回目の第１の反復は、
前記トレーニング画像セット及びｉ回目の第１の反復の前記平均ネットワークの出力を教師としてｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得し、前記トレーニング画像セット及びｉ回目の第１の反復の前記目標ニューラルネットワークの出力を教師としてｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークを取得することを含み、
前記目標ニューラルネットワークのパラメータが第１のニューラルネットワークのパラメータの時系列平均値であることは、
ｉ－１回目の第１の反復の前記目標ニューラルネットワークのパラメータ及び前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークのパラメータに基づいて前記ｉ回目の第１の反復の前記目標ニューラルネットワークのパラメータを決定することと、
前記ｉ＝１の場合、前記ｉ－１回目の第１の反復の前記目標ニューラルネットワークのパラメータは、前記第１のトレーニング対象のニューラルネットワークのパラメータと同じであることとを含むこととを特徴とする請求項１に記載の方法。
前記トレーニング画像セット及びｉ回目の平均ネットワークの出力を教師としてｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することは、
前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第１の特徴データセットを取得し、前記ｉ回目の第１の反復の前記平均ネットワークによって前記トレーニング画像セットを処理して第２の特徴データセットを取得することと、
前記第１の特徴データセット及び前記第２の特徴データセットに基づいて第１のソフトトリプレット損失を取得することと、
前記トレーニング画像セット及び前記第１のソフトトリプレット損失を教師として前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングして、前記ｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することとを含むことを特徴とする請求項２に記載の方法。
前記第１の特徴データセット及び前記第２の特徴データセットに基づいて第１のソフトトリプレット損失を取得することは、
前記トレーニング画像セット内の第１の画像の前記第１の特徴データセットにおける第１の特徴データと、前記第１の特徴データセット内の、前記第１の画像の第１のラベルと同じラベルを有する画像の特徴データを含むポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第１の類似度を取得することと、前記第１の画像の前記第２の特徴データセットにおける第２の特徴データと、前記第２の特徴データセット内の前記ポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第２の類似度を取得することと、
前記第１の特徴データと、前記第１の特徴データセット内の、前記第１のラベルと異なるラベルを有する画像の特徴データを含むネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第３の類似度を取得し、前記第２の特徴データと、前記第２の特徴データセット内の前記ネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第４の類似度を取得することと、
前記第１の類似度、前記第２の類似度、前記第３の類似度及び前記第４の類似度をそれぞれ正規化処理して、第５の類似度、第６の類似度、第７の類似度及び第８の類似度を取得することと、
前記第５の類似度、前記第６の類似度、前記第７の類似度及び前記第８の類似度に基づいて前記第１のソフトトリプレット損失を取得することとを含むことを特徴とする請求項３に記載の方法。
前記第１の類似度、前記第２の類似度、前記第３の類似度及び前記第４の類似度をそれぞれ正規化処理して第５の類似度、第６の類似度、第７の類似度及び第８の類似度を取得することは、
前記第２の類似度と前記第４の類似度との和を第１の総類似度として取得し、前記第１の類似度と前記第３の類似度との和を第２の総類似度として取得することと、
前記第２の類似度を前記第１の総類似度で除算した商を前記第５の類似度として取得し、前記第４の類似度を前記第１の総類似度で除算した商を前記第６の類似度として取得することと、
前記第１の類似度を前記第２の総類似度で除算した商を前記第７の類似度として取得し、前記第３の類似度を前記第２の総類似度で除算した商を前記第８の類似度として取得することとを含むことを特徴とする請求項４に記載の方法。
前記トレーニング画像セット及び前記第１のソフトトリプレット損失を教師として前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングして、前記ｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することは、
前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記第１の画像を処理して第１の分類結果を取得することと、
前記第１の分類結果、前記第１のラベル及び前記第１のソフトトリプレット損失に基づいて前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークの第１の損失を決定することと、
前記第１の損失に基づいて前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークのパラメータを調整して前記ｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することとを含むことを特徴とする請求項５に記載の方法。
前記第１の分類結果、前記第１のラベル及び前記第１のソフトトリプレット損失に基づいて前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークの第１の損失を決定することは、
前記第１の分類結果と前記第１のラベルとの差分に基づいて第１のハード分類損失を決定することと、
前記第１のハード分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することとを含むことを特徴とする請求項６に記載の方法。
前記第１のハード分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定する前に、
前記ｉ回目の第１の反復の前記平均ネットワークによって前記第１の画像を処理して第２の分類結果を取得することと、
前記第１の分類結果と前記第２の分類結果との差分に基づいて第１のソフト分類損失を決定することとをさらに含み、
前記第１のハード分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することは、
前記第１のハード分類損失、前記第１のソフト分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することを含むことを特徴とする請求項７に記載の方法。
前記第１のハード分類損失、前記第１のソフト分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定する前に、
前記第１の類似度及び前記第３の類似度に基づいて第１のハードトリプレット損失を決定することをさらに含み、
前記第１のハード分類損失、前記第１のソフト分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することは、
前記第１のハード分類損失、前記第１のソフト分類損失、前記第１のソフトトリプレット損失及び前記第１のハードトリプレット損失に基づいて前記第１の損失を決定することを含むことを特徴とする請求項８に記載の方法。
前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記トレーニング画像セット内の第１の画像を処理して第１の分類結果を取得することは、
前記トレーニング画像セットに対して消去処理、トリミング処理、反転処理のいずれかを含む第１の前処理を行って第１の画像セットを取得することと、
前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記第１の画像セット内の第２の画像を処理して前記第１の分類結果を取得することとを含み、前記第２の画像は、前記第１の画像に対して前記第１の前処理を行って取得され、前記第２の画像の前記第１の特徴データセットにおける特徴データは、前記第１の画像の前記第１の特徴データセットにおけるデータと同じであることを特徴とする請求項５～９のいずれか１項に記載の方法。
前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第１の特徴データセットを取得することは、
前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記第１の画像セットを処理して前記第１の特徴データセットを取得することを含むことを特徴とする請求項１０に記載の方法。
前記トレーニング画像セットを取得することは、
処理対象の画像セット及び第３のニューラルネットワークを取得することと、
前記第３のニューラルネットワークに対してｙ（ｙは、正の整数である）回の第２の反復を実行して前記トレーニング画像セットを取得することとを含み、
前記ｙ回の第２の反復のうちｔ回目の第２の反復は、
前記処理対象の画像セットからサンプリングして第２の画像セットを取得し、ｔ回目の第２の反復の第３のニューラルネットワークによって前記第２の画像セット内の画像を処理して、前記第２の画像セット内の画像の特徴データを含む第３の特徴データセット及び前記第２の画像セット内の画像の分類結果を含む分類結果セットを取得することと、
前記第３の特徴データセット内の特徴データをクラスタリング処理して前記第３の特徴データセット内の特徴データのラベルを決定し、前記第３の特徴データセット内の特徴データのラベルを前記第２の画像セット内の対応する画像に付加して第３の画像セットを取得することと、
前記分類結果セット内の分類結果と前記第３の画像セット内の画像のラベルとの差分に基づいて第３の損失を決定することと、
前記第３の損失に基づいて前記ｔ（ｔは、前記ｙよりも小さい正の整数）回目の第２の反復の第３のニューラルネットワークのパラメータを調整して、ｔ＋１回目の第２の反復の第３のニューラルネットワークのパラメータを取得することとを含むことを特徴とする請求項２～１１のいずれか１項に記載の方法。
前記目標特徴データでデータベースを検索して、前記目標特徴データにマッチングする特徴データを有する画像を目標画像として取得することをさらに含むことを特徴とする請求項１～１２のいずれか１項に記載の方法。
前記処理対象の画像は、人物オブジェクトを含むことを特徴とする請求項１～１３のいずれか１項に記載の方法。
処理対象の画像を取得するための取得ユニットと、
目標ニューラルネットワークを用いて前記処理対象の画像に対して特徴抽出処理を行って、前記処理対象の画像の目標特徴データを取得するための特徴抽出処理ユニットを備え、
前記目標ニューラルネットワークのパラメータは、第１のニューラルネットワークのパラメータの時系列平均値であり、前記第１のニューラルネットワークは、トレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得され、前記平均ネットワークのパラメータは、第２のニューラルネットワークのパラメータの時系列平均値であり、前記第２のニューラルネットワークは、前記トレーニング画像セット及び前記目標ニューラルネットワークを用いて教師ありトレーニングを行って取得されることを特徴とする画像処理装置。
前記第１のニューラルネットワークは、トレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得されることは、
前記トレーニング画像セット、第１のトレーニング対象のニューラルネットワーク及び第２のトレーニング対象のニューラルネットワークを取得することと、
前記第１のトレーニング対象のニューラルネットワーク及び前記第２のトレーニング対象のニューラルネットワークに対してｘ（ｘは、正の整数）回の第１の反復を実行して前記第１のニューラルネットワーク及び第２のニューラルネットワークを取得することとを含み、
前記ｘ回の第１の反復のうちｉ（ｉは、前記ｘ以下の正の整数）回目の第１の反復は、
前記トレーニング画像セット及びｉ回目の第１の反復の前記平均ネットワークの出力を教師としてｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得し、前記トレーニング画像セット及びｉ回目の第１の反復の前記目標ニューラルネットワークの出力を教師としてｉ回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の前記第２のトレーニング対象のニューラルネットワークを取得することを含み、
前記目標ニューラルネットワークのパラメータが第１のニューラルネットワークのパラメータの時系列平均値であることは、
ｉ－１回目の第１の反復の前記目標ニューラルネットワークのパラメータ及び前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークのパラメータに基づいて前記ｉ回目の第１の反復の前記目標ニューラルネットワークのパラメータを決定することと、
前記ｉ＝１の場合、前記ｉ－１回目の第１の反復の前記目標ニューラルネットワークのパラメータは、前記第１のトレーニング対象のニューラルネットワークのパラメータと同じであることとを含むことを特徴とする請求項１５に記載の装置。
前記トレーニング画像セット及びｉ回目の平均ネットワークの出力を教師としてｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングしてｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することは、
前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第１の特徴データセットを取得し、前記ｉ回目の第１の反復の前記平均ネットワークによって前記トレーニング画像セットを処理して第２の特徴データセットを取得することと、
前記第１の特徴データセット及び前記第２の特徴データセットに基づいて第１のソフトトリプレット損失を取得することと、
前記トレーニング画像セット及び前記第１のソフトトリプレット損失を教師として前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングして、前記ｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することとを含むことを特徴とする請求項１６に記載の装置。
前記第１の特徴データセット及び前記第２の特徴データセットに基づいて第１のソフトトリプレット損失を取得することは、
前記トレーニング画像セット内の第１の画像の前記第１の特徴データセットにおける第１の特徴データと、前記第１の特徴データセット内の、前記第１の画像の第１のラベルと同じラベルを有する画像の特徴データを含むポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第１の類似度を取得することと、前記第１の画像の前記第２の特徴データセットにおける第２の特徴データと、前記第２の特徴データセット内の前記ポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第２の類似度を取得することと、
前記第１の特徴データと、前記第１の特徴データセット内の、前記第１のラベルと異なるラベルを有する画像の特徴データを含むネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第３の類似度を取得することと、前記第２の特徴データと、前記第２の特徴データセット内の前記ネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第４の類似度を取得することと、
前記第１の類似度、前記第２の類似度、前記第３の類似度及び前記第４の類似度をそれぞれ正規化処理して、第５の類似度、第６の類似度、第７の類似度及び第８の類似度を取得することと、
前記第５の類似度、前記第６の類似度、前記第７の類似度及び前記第８の類似度に基づいて前記第１のソフトトリプレット損失を取得することとを含むことを特徴とする請求項１７に記載の装置。
前記第１の類似度、前記第２の類似度、前記第３の類似度及び前記第４の類似度をそれぞれ正規化処理して第５の類似度、第６の類似度、第７の類似度及び第８の類似度を取得することは、
前記第２の類似度と前記第４の類似度との和を第１の総類似度として取得し、前記第１の類似度と前記第３の類似度との和を第２の総類似度として取得することと、
前記第２の類似度と前記第１の総類似度との商を前記第５の類似度として取得し、前記第４の類似度と前記第１の総類似度との商を前記第６の類似度として取得することと、
前記第１の類似度と前記第２の総類似度との商を前記第７の類似度として取得し、前記第３の類似度と前記第２の総類似度との商を前記第８の類似度として取得することとを含むことを特徴とする請求項１８に記載の装置。
前記トレーニング画像セット及び前記第１のソフトトリプレット損失を教師として前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークをトレーニングして、前記ｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することは、
前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記第１の画像を処理して第１の分類結果を取得することと、
前記第１の分類結果、前記第１のラベル及び前記第１のソフトトリプレット損失に基づいて前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークの第１の損失を決定することと、
前記第１の損失に基づいて前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークのパラメータを調整して前記ｉ＋１回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークを取得することとを含むことを特徴とする請求項１９に記載の装置。
前記第１の分類結果、前記第１のラベル及び前記第１のソフトトリプレット損失に基づいて前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークの第１の損失を決定することは、
前記第１の分類結果と前記第１のラベルとの差分に基づいて第１のハード分類損失を決定することと、
前記第１のハード分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することとを含むことを特徴とする請求項２０に記載の装置。
前記第１のハード分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定する前に、
前記ｉ回目の第１の反復の前記平均ネットワークによって前記第１の画像を処理して第２の分類結果を取得し、
前記第１の分類結果と前記第２の分類結果との差分に基づいて第１のソフト分類損失を決定し、
前記第１のハード分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することは、
前記第１のハード分類損失、前記第１のソフト分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することを含むことを特徴とする請求項２１に記載の装置。
前記第１のハード分類損失、前記第１のソフト分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定する前に、
前記第１の類似度及び前記第３の類似度に基づいて第１のハードトリプレット損失を決定し、
前記第１のハード分類損失、前記第１のソフト分類損失及び前記第１のソフトトリプレット損失に基づいて前記第１の損失を決定することは、
前記第１のハード分類損失、前記第１のソフト分類損失、前記第１のソフトトリプレット損失及び前記第１のハードトリプレット損失に基づいて前記第１の損失を決定することを含むことを特徴とする請求項２２に記載の装置。
前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記トレーニング画像セット内の第１の画像を処理して第１の分類結果を取得することは、
前記トレーニング画像セットに対して消去処理、トリミング処理、反転処理のいずれかを含む第１の前処理を行って第１の画像セットを取得することと、
前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記第１の画像セット内の第２の画像を処理して前記第１の分類結果を取得することとを含み、前記第２の画像は、前記第１の画像に対して前記第１の前処理を行って取得され、前記第２の画像の前記第１の特徴データセットにおける特徴データは、前記第１の画像の前記第１の特徴データセットにおけるデータと同じであることを特徴とする請求項１９～２３のいずれか１項に記載の装置。
前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第１の特徴データセットを取得することは、
前記ｉ回目の第１の反復の前記第１のトレーニング対象のニューラルネットワークによって前記第１の画像セットを処理して前記第１の特徴データセットを取得することを含むことを特徴とする請求項２４に記載の装置。
前記取得ユニットは具体的に、
処理対象の画像セット及び第３のニューラルネットワークを取得することと、
前記第３のニューラルネットワークに対してｙ（ｙは、正の整数）回の第２の反復を実行して前記トレーニング画像セットを取得することとに用いられ、
前記ｙ回の第２の反復のうちｔ（ｔは、前記ｙよりも小さい正の整数）回目の第２の反復は、
前記処理対象の画像セットからサンプリングして第２の画像セットを取得し、ｔ回目の第２の反復の第３のニューラルネットワークによって前記第２の画像セット内の画像を処理して、前記第２の画像セット内の画像の特徴データを含む第３の特徴データセット及び前記第２の画像セット内の画像の分類結果を含む分類結果セットを取得することと、
前記第３の特徴データセット内の特徴データをクラスタリング処理して前記第３の特徴データセット内の特徴データのラベルを決定し、前記第３の特徴データセット内の特徴データのラベルを前記第２の画像セット内の対応する画像に付加して第３の画像セットを取得することと、
前記分類結果セット内の分類結果と前記第３の画像セット内の画像のラベルとの差分に基づいて第３の損失を決定することと、
前記第３の損失に基づいて前記ｔ回目の第２の反復の第３のニューラルネットワークのパラメータを調整してｔ＋１回目の第２の反復の第３のニューラルネットワークのパラメータを取得することとを含むことを特徴とする請求項１６～２５のいずれか１項に記載の装置。
前記目標特徴データでデータベースを検索して、前記目標特徴データにマッチングする特徴データを有する画像を目標画像として取得するための検索ユニットをさらに備えることを特徴とする請求項１５～２６のいずれか１項に記載の装置。
前記処理対象の画像は、人物オブジェクトを含むことを特徴とする請求項１５～２７のいずれか１項に記載の装置。
請求項１～１４のいずれか１項に記載の方法を実行することを特徴とするプロセッサ。
プロセッサと、送信装置と、入力装置と、出力装置と、コンピュータ命令を含むコンピュータプログラムコードを記憶するためのメモリとを備える電子機器であって、前記プロセッサが前記コンピュータ命令を実行すると、請求項１～１４のいずれか１項に記載の方法を実行することを特徴とする電子機器。
プログラム命令を含むコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラム命令が電子機器のプロセッサによって実行されると、請求項１～１４のいずれか１項に記載の方法を前記プロセッサに実行させることを特徴とするコンピュータ読み取り可能な記憶媒体。
コンピュータ読み取り可能なコードを含むコンピュータプログラムであって、前記コンピュータ読み取り可能なコードが電子機器において実行されると、前記電子機器のプロセッサは、請求項１～１４のいずれか１項に記載の方法を実現するための命令を実行することを特徴とするコンピュータプログラム。