本開示は、画像処理の発明を提供する。
第1の方面では、処理対象の画像を取得することと、目標ニューラルネットワークを用いて前記処理対象の画像に対して特徴抽出処理を行って、前記処理対象の画像の目標特徴データを取得することとを含み、前記目標ニューラルネットワークのパラメータは、第1のニューラルネットワークのパラメータの時系列平均値であり、前記第1のニューラルネットワークは、トレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得され、前記平均ネットワークのパラメータは、第2のニューラルネットワークのパラメータの時系列平均値であり、前記第2のニューラルネットワークは、前記トレーニング画像セット及び前記目標ニューラルネットワークを用いて教師ありトレーニングを行って取得される画像処理方法を提供する。
この方面では、第1のニューラルネットワークのパラメータの時系列平均値と第2のニューラルネットワークの時系列平均値を決定して目標ニューラルネットワークのパラメータと平均ネットワークのパラメータをそれぞれ取得し、目標ニューラルネットワークの出力を教師として第2のニューラルネットワークをトレーニングし、平均ネットワークの出力を教師として第1のニューラルネットワークをトレーニングして、目標ニューラルネットワークをトレーニングする。これにより、トレーニング効果を向上させることができる。また、目標ニューラルネットワークを用いてターゲットドメインで関連する認識タスクを実行するとき、情報がより豊富な目標特徴データを抽出できる。
可能な一実施形態では、前記第1のニューラルネットワークは、トレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得されることは、前記トレーニング画像セット、第1のトレーニング対象のニューラルネットワーク及び第2のトレーニング対象のニューラルネットワークを取得することと、前記第1のトレーニング対象のニューラルネットワーク及び前記第2のトレーニング対象のニューラルネットワークに対してx(xは、正の整数)回の第1の反復を実行して前記第1のニューラルネットワーク及び第2のニューラルネットワークを取得することとを含み、前記x回の第1の反復のうちi(iは、前記x以下の正の整数)回目の第1の反復は、前記トレーニング画像セット及びi回目の第1の反復の前記平均ネットワークの出力を教師としてi回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークをトレーニングしてi+1回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークを取得し、前記トレーニング画像セット及びi回目の第1の反復の前記目標ニューラルネットワークの出力を教師としてi回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークをトレーニングしてi+1回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークを取得することを含み、前記目標ニューラルネットワークのパラメータが第1のニューラルネットワークのパラメータの時系列平均値であることは、i-1回目の第1の反復の前記目標ニューラルネットワークのパラメータ及び前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークのパラメータに基づいて前記i回目の第1の反復の前記目標ニューラルネットワークのパラメータを決定することと、前記i=1の場合、前記i-1回目の第1の反復の前記目標ニューラルネットワークのパラメータは、前記第1のトレーニング対象のニューラルネットワークのパラメータと同じであることとを含む。
この可能な実施形態では、i回目の第1の反復において、i回目の第1の反復の平均ネットワークを用いてi回目の第1の反復の第1のトレーニング対象のニューラルネットワークの教師ありトレーニングを行い、i回目の第1の反復の目標ニューラルネットワークを用いてi回目の第1の反復の第2のトレーニング対象のニューラルネットワークの教師ありトレーニングを行う。これにより、i回目の第1の反復の第2のトレーニング対象のニューラルネットワークの出力とi回目の第1の反復の第1のトレーニング対象のニューラルネットワークの出力との関連性がトレーニング効果に与える影響を低減して、トレーニング効果を向上させることができる。
別の可能な一実施形態では、前記トレーニング画像セット及びi回目の平均ネットワークの出力を教師としてi回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークをトレーニングして、i+1回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークを取得することは、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第1の特徴データセットを取得し、前記i回目の第1の反復の前記平均ネットワークによって前記トレーニング画像セットを処理して第2の特徴データセットを取得することと、前記第1の特徴データセット及び前記第2の特徴データセットに基づいて第1のソフトトリプレット損失を取得することと、前記トレーニング画像セット及び前記第1のソフトトリプレット損失を教師として前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークをトレーニングして、前記i+1回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークを取得することとを含む。
この可能な一実施形態では、第1の特徴データセット及び第2の特徴データセットによって第1のソフトトリプレット損失を決定し、i回目の第1の反復の第1のトレーニング対象のニューラルネットワークのパラメータを調整する。これにより、ターゲットドメインの画像に対するi回目の第1の反復の第1のトレーニング対象のニューラルネットワークの特徴抽出効果を向上させて、ターゲットドメインの画像に対する目標ニューラルネットワークの特徴抽出効果を向上させることができる。
別の可能な一実施形態では、前記第1の特徴データセット及び前記第2の特徴データセットに基づいて第1のソフトトリプレット損失を取得することは、前記トレーニング画像セット内の第1の画像の前記第1の特徴データセットにおける第1の特徴データと、前記第1の特徴データセット内の、前記第1の画像の第1のラベルと同じラベルを有する画像の特徴データを含むポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第1の類似度を取得することと、前記第1の画像の前記第2の特徴データセットにおける第2の特徴データと、前記第2の特徴データセット内の前記ポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第2の類似度を取得することと、前記第1の特徴データと、前記第1の特徴データセット内の、前記第1のラベルと異なるラベルを有する画像の特徴データを含むネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第3の類似度を取得し、前記第2の特徴データと、前記第2の特徴データセット内の前記ネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第4の類似度を取得することと、前記第1の類似度、前記第2の類似度、前記第3の類似度及び前記第4の類似度をそれぞれ正規化処理して第5の類似度、第6の類似度、第7の類似度及び第8の類似度を取得することと、前記第5の類似度、前記第6の類似度、前記第7の類似度及び前記第8の類似度に基づいて前記第1のソフトトリプレット損失を取得することとを含む。
この可能な一実施形態では、第1の類似度、第2の類似度、第3の類似度及び第4の類似度を正規化処理し、第1の類似度、第2の類似度、第3の類似度及び第4の類似度を0から1の間の数値に変換し、データの実際の分布によりマッチングする第5の類似度、第6の類似度、第7の類似度及び第8の類似度を取得する。これにより、目標ニューラルネットワークに対するトレーニング効果を向上させる。
別の可能な一実施形態では、前記第1の類似度、前記第2の類似度、前記第3の類似度及び前記第4の類似度をそれぞれ正規化処理して第5の類似度、第6の類似度、第7の類似度及び第8の類似度を取得することは、前記第2の類似度と前記第4の類似度との和を第1の総類似度として取得し、前記第1の類似度と前記第3の類似度との和を第2の総類似度として取得することと、前記第2の類似度を前記第1の総類似度で除算した商を前記第5の類似度として取得し、前記第4の類似度を前記第1の総類似度で除算した商を前記第6の類似度として取得することと、前記第1の類似度を前記第2の総類似度で除算した商を前記第7の類似度として取得し、前記第3の類似度を前記第2の総類似度で除算した商を前記第8の類似度として取得することとを含む。
別の可能な一実施形態では、前記トレーニング画像セット及び前記第1のソフトトリプレット損失を教師として前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークをトレーニングして、前記i+1回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークを取得することは、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記第1の画像を処理して第1の分類結果を取得することと、前記第1の分類結果、前記第1のラベル及び前記第1のソフトトリプレット損失に基づいて前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークの第1の損失を決定することと、前記第1の損失に基づいて前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークのパラメータを調整して、前記i+1回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークを取得することとを含む。
別の可能な一実施形態では、前記第1の分類結果、前記第1のラベル及び前記第1のソフトトリプレット損失に基づいて前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークの第1の損失を決定することは、前記第1の分類結果と前記第1のラベルとの差分に基づいて第1のハード分類損失を決定することと、前記第1のハード分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定することとを含む。
別の可能な一実施形態では、前記第1のハード分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定する前に、前記i回目の第1の反復の前記平均ネットワークによって前記第1の画像を処理して第2の分類結果を取得することと、前記第1の分類結果と前記第2の分類結果との差分に基づいて第1のソフト分類損失を決定することとをさらに含み、前記第1のハード分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定することは、前記第1のハード分類損失、前記第1のソフト分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定することを含む。
別の可能な一実施形態では、前記第1のハード分類損失、前記第1のソフト分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定する前に、前記第1の類似度及び前記第3の類似度に基づいて第1のハードトリプレット損失を決定することをさらに含み、前記第1のハード分類損失、前記第1のソフト分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定することは、前記第1のハード分類損失、前記第1のソフト分類損失、前記第1のソフトトリプレット損失及び前記第1のハードトリプレット損失に基づいて前記第1の損失を決定することを含む。
別の可能な一実施形態では、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記トレーニング画像セット内の第1の画像を処理して第1の分類結果を取得することは、前記トレーニング画像セットに対して消去処理、トリミング処理、反転処理のいずれかを含む第1の前処理を行って第1の画像セットを取得することと、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記第1の画像セット内の第2の画像を処理して前記第1の分類結果を取得することとを含み、前記第2の画像は、前記第1の画像に対して前記第1の前処理を行って取得され、前記第2の画像の前記第1の特徴データセットにおける特徴データは、前記第1の画像の前記第1の特徴データセットにおけるデータと同じである。
この可能な一実施形態では、トレーニング画像セット内の画像に対して第1の前処理を行って第1の画像セットを取得し、第1の画像セットをi回目の第1の反復の第1のトレーニング対象のニューラルネットワーク及びi回目の第1の反復の目標ニューラルネットワークに入力する。これにより、トレーニング中に過剰適合の発生確率を低減する。
別の可能な一実施形態では、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第1の特徴データセットを取得することは、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記第1の画像セットを処理して前記第1の特徴データセットを取得することを含む。
別の可能な一実施形態では、前記トレーニング画像セットを取得することは、処理対象の画像セット及び第3のニューラルネットワークを取得することと、前記第3のニューラルネットワークに対してy(yは、正の整数である)回の第2の反復を実行して前記トレーニング画像セットを取得するととを含み、前記y回の第2の反復のうちt(tは、前記yよりも小さい正の整数)回目の第2の反復は、前記処理対象の画像セットからサンプリングして第2の画像セットを取得し、t回目の第2の反復の第3のニューラルネットワークによって前記第2の画像セット内の画像を処理して、前記第2の画像セット内の画像の特徴データを含む第3の特徴データセット及び前記第2の画像セット内の画像の分類結果を含む分類結果セットを取得することと、前記第3の特徴データセット内の特徴データをクラスタリング処理して前記第3の特徴データセット内の特徴データのラベルを決定し、前記第3の特徴データセット内の特徴データのラベルを前記第2の画像セット内の対応する画像に付加して第3の画像セットを取得することと、前記分類結果セット内の分類結果と前記第3の画像セット内の画像のラベルとの差分に基づいて第3の損失を決定することと、前記第3の損失に基づいて前記t回目の第2の反復の第3のニューラルネットワークのパラメータを調整して、t+1回目の第2の反復の第3のニューラルネットワークのパラメータを取得することとを含む。
別の可能な一実施形態では、前記方法は、前記目標特徴データでデータベースを検索して、前記目標特徴データにマッチングする特徴データの画像を有する目標画像として取得することをさらに含む。
別の可能な一実施形態では、前記処理対象の画像は、人物オブジェクトを含む。
別の可能な一実施形態では、前記トレーニング画像セット及びi回目の第1の反復の前記目標ニューラルネットワークの出力を教師としてi回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークをトレーニングしてi+1回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークを取得することは、前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第4の特徴データセットを取得し、前記i回目の第1の反復の前記目標ニューラルネットワークによって前記トレーニング画像セットを処理して第5の特徴データセットを取得することと、前記第4の特徴データセット及び前記第5の特徴データセットに基づいて第2のソフトトリプレット損失を取得することと、前記トレーニング画像セット及び前記第2のソフトトリプレット損失を教師として前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークをトレーニングして前記i+1回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークを取得することとを含む。
別の可能な一実施形態では、前記第4の特徴データセット及び前記第5の特徴データセットに基づいて第2のソフトトリプレット損失を取得することは、前記第1の画像の前記第4の特徴データセットにおける第3の特徴データと、前記第4の特徴データセット内の、前記第1のラベルと同じラベルを有する画像の特徴データを含むポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第9の類似度を取得することと、前記第1の画像の前記第5の特徴データセットにおける第4の特徴データと、前記第5の特徴データセットの前記ポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して第11の類似度を取得することと、前記第3の特徴データと、前記第4の特徴データセット内の、前記第1のラベルと異なるラベルを有する画像の特徴データを含むネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第10の類似度を取得することと、前記第3の特徴データと、前記第4の特徴データセットの前記ネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して第12の類似度を取得することと、前記第9の類似度、前記第10の類似度、前記第11の類似度及び前記第12の類似度をそれぞれ正規化処理して第13の類似度、第14の類似度、第15の類似度及び第16の類似度を取得することと、前記第13の類似度、前記第14の類似度、前記第15の類似度及び前記第16の類似度に基づいて前記第2のソフトトリプレット損失を取得することとを含む。
別の可能な一実施形態では、前記第9の類似度、前記第10の類似度、前記第11の類似度及び前記第12の類似度をそれぞれ正規化処理して第13の類似度、第14の類似度、第15の類似度及び第16の類似度を取得することは、前記第9の類似度と前記第10の類似度との和を第3の総類似度として取得し、前記第11の類似度と前記第12の類似度との和を第4の総類似度として取得することと、前記第9の類似度と前記第3の総類似度との商を前記第13の類似度として取得し、前記第10の類似度と前記第3の総類似度との商を前記第14の類似度として取得することと、前記第11の類似度と前記第4の総類似度との商を前記第15の類似度として取得し、前記第12の類似度と前記第4の総類似度との商を前記第16の類似度として取得することとを含む。
別の可能な一実施形態では、前記トレーニング画像セット及び前記第2のソフトトリプレット損失を教師として前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークをトレーニングして前記i+1回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークを取得することは、前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークによって前記第1の画像を処理して第3の分類結果を取得することと、前記第3の分類結果、前記第1のラベル及び前記第2のソフトトリプレット損失に基づいて前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークの第2の損失を決定することと、前記第2の損失に基づいて前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークのパラメータを調整して前記i+1回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークを取得することとを含む。
別の可能な一実施形態では、前記第3の分類結果、前記第1のラベル及び前記第2のソフトトリプレット損失に基づいて前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークの第2の損失を決定することは、前記第3の分類結果と前記第1のラベルとの差分に基づいて第2のハード分類損失を決定することと、前記第2のハード分類損失及び前記第2のソフトトリプレット損失に基づいて前記第2の損失を決定することとを含む。
別の可能な一実施形態では、前記第2のハード分類損失及び前記第2のソフトトリプレット損失に基づいて前記第2の損失を決定する前に、前記i回目の第1の反復の前記目標ニューラルネットワークによって前記第1の画像を処理して第4の分類結果を取得することと、前記第3の分類結果と前記第4の分類結果との差分に基づいて第2のソフト分類損失を決定することとをさらに含み、前記第2のハード分類損失及び前記第2のソフトトリプレット損失に基づいて前記第2の損失を決定することは、前記第2のハード分類損失、前記第2のソフト分類損失及び前記第2のソフトトリプレット損失に基づいて前記第2の損失を決定することを含む。
別の可能な一実施形態では、前記第2のハード分類損失、前記第2のソフト分類損失及び前記第2のソフトトリプレット損失に基づいて前記第2の損失を決定する前に、前記第9の類似度及び前記第10の類似度に基づいて第2のハードトリプレット損失を決定することをさらに含み、前記第2のハード分類損失、前記第2のソフト分類損失及び前記第2のソフトトリプレット損失に基づいて前記第2の損失を決定することは、前記第2のハード分類損失、前記第2のソフト分類損失、前記第2のソフトトリプレット損失及び前記第2のハードトリプレット損失に基づいて前記第2の損失を決定することを含む。
別の可能な一実施形態では、前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークによって前記トレーニング画像セット内の第1の画像を処理して第3の分類結果を取得することは、前記トレーニング画像セットに対して消去処理、トリミング処理、反転処理のいずれかを含む第2の前処理を行って第4の画像セットを取得することと、前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークによって前記第4の画像セットの第3の画像を処理して前記第3の分類結果を取得することと含み、前記第3の画像は、前記第1の画像に対して前記第2の前処理を行って取得され、前記第3の画像の前記第4の特徴データセットにおける特徴データは、前記第1の画像の前記第4の特徴データセットにおけるデータと同じであり、前記第1の前処理は、前記第2の前処理と異なる。
別の可能な一実施形態では、i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第4の特徴データセットを取得することは、前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークによって前記第4の画像セットを処理して前記第4の特徴データセットを取得することを含む。
第2の方面では、処理対象の画像を取得するための取得ユニットと、目標ニューラルネットワークを用いて前記処理対象の画像に対して特徴抽出処理を行って前記処理対象の画像の目標特徴データを取得するための特徴抽出処理ユニットを備え、前記目標ニューラルネットワークのパラメータは、第1のニューラルネットワークのパラメータの時系列平均値であり、前記第1のニューラルネットワークは、トレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得され、前記平均ネットワークのパラメータは、第2のニューラルネットワークのパラメータの時系列平均値であり、前記第2のニューラルネットワークは、前記トレーニング画像セット及び前記目標ニューラルネットワークを用いて教師ありトレーニングを行って取得される画像処理装置を提供する。
可能な一実施形態では、前記第1のニューラルネットワークは、トレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得されることは、前記トレーニング画像セット、第1のトレーニング対象のニューラルネットワーク及び第2のトレーニング対象のニューラルネットワークを取得することと、前記第1のトレーニング対象のニューラルネットワーク及び前記第2のトレーニング対象のニューラルネットワークに対してx(xは、正の整数)回の第1の反復を実行して前記第1のニューラルネットワーク及び第2のニューラルネットワークを取得することとを含み、前記x回の第1の反復のうちi(iは、前記x以下の正の整数)回目の第1の反復は、前記トレーニング画像セット及びi回目の第1の反復の前記平均ネットワークの出力を教師としてi回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークをトレーニングしてi+1回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークを取得し、前記トレーニング画像セット及びi回目の第1の反復の前記目標ニューラルネットワークの出力を教師としてi回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークをトレーニングしてi+1回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークを取得することを含み、前記目標ニューラルネットワークのパラメータが第1のニューラルネットワークのパラメータの時系列平均値であることは、i-1回目の第1の反復の前記目標ニューラルネットワークのパラメータ及び前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークのパラメータに基づいて前記i回目の第1の反復の前記目標ニューラルネットワークのパラメータを決定することと、前記i=1の場合、前記i-1回目の第1の反復の前記目標ニューラルネットワークのパラメータは、前記第1のトレーニング対象のニューラルネットワークのパラメータと同じであることとを含む。
別の可能な一実施形態では、前記トレーニング画像セット及びi回目の平均ネットワークの出力を教師としてi回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークをトレーニングしてi+1回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークを取得することは、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第1の特徴データセットを取得し、前記i回目の第1の反復の前記平均ネットワークによって前記トレーニング画像セットを処理して第2の特徴データセットを取得することと、前記第1の特徴データセット及び前記第2の特徴データセットに基づいて第1のソフトトリプレット損失を取得することと、前記トレーニング画像セット及び前記第1のソフトトリプレット損失を教師として前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークをトレーニングして前記i+1回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークを取得することとを含む。
別の可能な一実施形態では、前記第1の特徴データセット及び前記第2の特徴データセットに基づいて第1のソフトトリプレット損失を取得することは、前記トレーニング画像セット内の第1の画像の前記第1の特徴データセットにおける第1の特徴データと、前記第1の特徴データセット内の、前記第1の画像の第1のラベルと同じラベルを有する画像の特徴データを含むポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して第1の類似度を取得し、前記第1の画像の前記第2の特徴データセットにおける第2の特徴データと、前記第2の特徴データセット内の前記ポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第2の類似度を取得することと、前記第1の特徴データと、前記第1の特徴データセット内の、前記第1のラベルと異なるラベルを有する画像の特徴データを含むネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第3の類似度を取得し、前記第2の特徴データと、前記第2の特徴データセット内の前記ネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して第4の類似度を取得することと、前記第1の類似度、前記第2の類似度、前記第3の類似度及び前記第4の類似度をそれぞれ正規化処理して、第5の類似度、第6の類似度、第7の類似度及び第8の類似度を取得することと、前記第5の類似度、前記第6の類似度、前記第7の類似度及び前記第8の類似度に基づいて前記第1のソフトトリプレット損失を取得することとを含む。
別の可能な一実施形態では、前記第1の類似度、前記第2の類似度、前記第3の類似度及び前記第4の類似度をそれぞれ正規化処理して第5の類似度、第6の類似度、第7の類似度及び第8の類似度を取得することは、前記第2の類似度と前記第4の類似度との和を第1の総類似度として取得し、前記第1の類似度と前記第3の類似度との和を第2の総類似度として取得することと、前記第2の類似度と前記第1の総類似度との商を前記第5の類似度として取得し、前記第4の類似度と前記第1の総類似度との商を前記第6の類似度として取得することと、前記第1の類似度と前記第2の総類似度との商を前記第7の類似度として取得し、前記第3の類似度と前記第2の総類似度との商を前記第8の類似度として取得することとを含む。
別の可能な一実施形態では、前記トレーニング画像セット及び前記第1のソフトトリプレット損失を教師として前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークをトレーニングして前記i+1回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークを取得することは、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記第1の画像を処理して第1の分類結果を取得することと、前記第1の分類結果、前記第1のラベル及び前記第1のソフトトリプレット損失に基づいて前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークの第1の損失を決定することと、前記第1の損失に基づいて前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークのパラメータを調整して前記i+1回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークを取得することとを含む。
別の可能な一実施形態では、前記第1の分類結果、前記第1のラベル及び前記第1のソフトトリプレット損失に基づいて前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークの第1の損失を決定することは、前記第1の分類結果と前記第1のラベルとの差分に基づいて第1のハード分類損失を決定することと、前記第1のハード分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定することとを含む。
別の可能な一実施形態では、前記第1のハード分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定する前に、前記i回目の第1の反復の前記平均ネットワークによって前記第1の画像を処理して第2の分類結果を取得し、前記第1の分類結果と前記第2の分類結果との差分に基づいて第1のソフト分類損失を決定し、前記第1のハード分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定することは、前記第1のハード分類損失、前記第1のソフト分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定することを含む。
別の可能な一実施形態では、前記第1のハード分類損失、前記第1のソフト分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定する前に、前記第1の類似度及び前記第3の類似度に基づいて第1のハードトリプレット損失を決定し、前記第1のハード分類損失、前記第1のソフト分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定することは、前記第1のハード分類損失、前記第1のソフト分類損失、前記第1のソフトトリプレット損失及び前記第1のハードトリプレット損失に基づいて前記第1の損失を決定することを含む。
別の可能な一実施形態では、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記トレーニング画像セット内の第1の画像を処理して第1の分類結果第1のトレーニング対象のニューラルネットワークを取得することは、前記トレーニング画像セットに対して消去処理、トリミング処理、反転処理のいずれかを含む第1の前処理を行って第1の画像セットを取得することと、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記第1の画像セット内の第2の画像を処理して前記第1の分類結果を取得することとを含み、前記第2の画像は、前記第1の画像に対して前記第1の前処理を行って取得され、前記第2の画像の前記第1の特徴データセットにおける特徴データは、前記第1の画像の前記第1の特徴データセットにおけるデータと同じである。
別の可能な一実施形態では、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第1の特徴データセットを取得することは、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記第1の画像セットを処理して前記第1の特徴データセットを取得することを含む。
別の可能な一実施形態では、前記取得ユニットは具体的に、処理対象の画像セット及び第3のニューラルネットワークを取得することと、前記第3のニューラルネットワークに対してy(yは、正の整数)回の第2の反復を実行して前記トレーニング画像セットを取得することとに用いられ、前記y回の第2の反復のうちt(tは、前記yよりも小さい正の整数)回目の第2の反復は、前記処理対象の画像セットからサンプリングして第2の画像セットを取得し、t回目の第2の反復の第3のニューラルネットワークによって前記第2の画像セット内の画像を処理して、前記第2の画像セット内の画像の特徴データを含む第3の特徴データセット及び前記第2の画像セット内の画像の分類結果を含む分類結果セットを取得することと、前記第3の特徴データセット内の特徴データをクラスタリング処理して前記第3の特徴データセット内の特徴データのラベルを決定し、前記第3の特徴データセット内の特徴データのラベルを前記第2の画像セット内の対応する画像に付加して第3の画像セットを取得することと、前記分類結果セット内の分類結果と前記第3の画像セット内の画像のラベルとの差分に基づいて第3の損失を決定することと、前記第3の損失に基づいて前記t回目の第2の反復の第3のニューラルネットワークのパラメータを調整してt+1回目の第2の反復の第3のニューラルネットワークのパラメータを取得することとを含む。
別の可能な一実施形態では、前記装置は、前記目標特徴データでデータベースを検索して、前記目標特徴データにマッチングする特徴データを有する画像を目標画像として取得するための検索ユニットをさらに含む。
別の可能な一実施形態では、前記トレーニング画像セット及びi回目の第1の反復の前記目標ニューラルネットワークの出力を教師としてi回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークをトレーニングしてi+1回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークを取得することは、前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第4の特徴データセットを取得し、前記i回目の第1の反復の前記目標ニューラルネットワークによって前記トレーニング画像セットを処理して第5の特徴データセットを取得することと、前記第4の特徴データセット及び前記第5の特徴データセットに基づいて第2のソフトトリプレット損失を取得することと、前記トレーニング画像セット及び前記第2のソフトトリプレット損失を教師として前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークをトレーニングして前記i+1回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークを取得することとを含む。
別の可能な一実施形態では、前記第4の特徴データセット及び前記第5の特徴データセットに基づいて第2のソフトトリプレット損失を取得することは、前記第1の画像の前記第4の特徴データセットにおける第3の特徴データと、前記第4の特徴データセット内の、前記第1のラベルと同じラベルを有する画像の特徴データを含むポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第9の類似度を取得することと、前記第1の画像の前記第5の特徴データセットにおける第4の特徴データと、前記第5の特徴データセットの前記ポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して第11の類似度を取得することと、前記第3の特徴データと、前記第4の特徴データセット内の、前記第1のラベルと異なるラベルを有する画像の特徴データを含むネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第10の類似度を取得することと、前記第3の特徴データと、前記第4の特徴データセットの前記ネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第12の類似度を取得することと、前記第9の類似度、前記第10の類似度、前記第11の類似度及び前記第12の類似度をそれぞれ正規化処理して第13の類似度、第14の類似度、第15の類似度及び第16の類似度を取得することと、前記第13の類似度、前記第14の類似度、前記第15の類似度及び前記第16の類似度に基づいて前記第2のソフトトリプレット損失を取得することとを含む。
別の可能な一実施形態では、前記第9の類似度、前記第10の類似度、前記第11の類似度及び前記第12の類似度をそれぞれ正規化処理して第13の類似度、第14の類似度、第15の類似度及び第16の類似度を取得することとは、前記第9の類似度と前記第10の類似度との和を第3の総類似度として取得し、前記第11の類似度と前記第12の類似度との和を第4の総類似度として取得することと、前記第9の類似度と前記第3の総類似度との商を前記第13の類似度として取得し、前記第10の類似度と前記第3の総類似度との商を前記第14の類似度として取得することと、前記第11の類似度と前記第4の総類似度との商を前記第15の類似度として取得し、前記第12の類似度と前記第4の総類似度との商を前記第16の類似度として取得することとを含む。
別の可能な一実施形態では、前記トレーニング画像セット及び前記第2のソフトトリプレット損失を教師として前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークをトレーニングして前記i+1回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークを取得することは、前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークによって前記第1の画像を処理して第3の分類結果を取得することと、前記第3の分類結果、前記第1のラベル及び前記第2のソフトトリプレット損失に基づいて前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークの第2の損失を決定することと、前記第2の損失に基づいて前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークのパラメータを調整して、前記i+1回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークを取得することとを含む。
別の可能な一実施形態では、前記第3の分類結果、前記第1のラベル及び前記第2のソフトトリプレット損失に基づいて前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークの第2の損失を決定することは、前記第3の分類結果と前記第1のラベルとの差分に基づいて第2のハード分類損失を決定することと、前記第2のハード分類損失及び前記第2のソフトトリプレット損失に基づいて前記第2の損失を決定することとを含む。
別の可能な一実施形態では、前記第2のハード分類損失及び前記第2のソフトトリプレット損失に基づいて前記第2の損失を決定する前に、前記i回目の第1の反復の前記目標ニューラルネットワークによって前記第1の画像を処理して第4の分類結果を取得し、前記第3の分類結果と前記第4の分類結果との差分に基づいて第2のソフト分類損失を決定し、前記第2のハード分類損失及び前記第2のソフトトリプレット損失に基づいて前記第2の損失を決定することは、前記第2のハード分類損失、前記第2のソフト分類損失及び前記第2のソフトトリプレット損失に基づいて前記第2の損失を決定することを含む。
別の可能な一実施形態では、前記第2のハード分類損失、前記第2のソフト分類損失及び前記第2のソフトトリプレット損失に基づいて前記第2の損失を決定する前に、前記第9の類似度及び前記第10の類似度に基づいて第2のハードトリプレット損失を決定し、前記第2のハード分類損失、前記第2のソフト分類損失及び前記第2のソフトトリプレット損失に基づいて前記第2の損失を決定することは、前記第2のハード分類損失、前記第2のソフト分類損失、前記第2のソフトトリプレット損失及び前記第2のハードトリプレット損失に基づいて前記第2の損失を決定することを含む。
別の可能な一実施形態では、前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークによって前記トレーニング画像セット内の第1の画像を処理して第3の分類結果を取得することは、前記トレーニング画像セットに対して消去処理、トリミング処理、反転処理のいずれかを含む第2の前処理を行って第4の画像セットを取得することと、前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークによって前記第4の画像セットの第3の画像を処理して前記第3の分類結果を取得することと含み、前記第3の画像は、前記第1の画像に対して前記第2の前処理を行って取得され、前記第3の画像の前記第4の特徴データセットにおける特徴データは、前記第1の画像の前記第4の特徴データセットにおけるデータと同じであり、前記第1の前処理は、前記第2の前処理と異なる。
別の可能な一実施形態では、i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第4の特徴データセットを取得することは、前記i回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークによって前記第4の画像セットを処理して前記第4の特徴データセットを取得することを含む。
第3の方面では、上記第1の方面及びそのいずれかの可能な実施形態の方法を実行するプロセッサを提供する。
第4の方面では、プロセッサと、送信装置と、入力装置と、出力装置と、コンピュータ命令を含むコンピュータプログラムコードを記憶するためのメモリとを備える電子機器であって、前記プロセッサが前記コンピュータ命令を実行すると、上記第1の方面及びそのいずれかの可能な実施形態の方法を実行する電子機器を提供する。
第5の方面では、プログラム命令を含むコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラム命令が電子機器のプロセッサによって実行されると、上記第1の方面及びそのいずれかの可能な実施形態の方法を前記プロセッサに実行させるコンピュータ読み取り可能な記憶媒体を提供する。
第6の方面では、命令を含むコンピュータプログラム製品であって、コンピュータで実行されると、上記第1の方面及びそのいずれかの可能な実施形態の方法をコンピュータに実行させるコンピュータプログラム製品を提供する。
なお、上述した概略的な説明及び次の詳細な説明は、例示的及び解釈的なものに過ぎず、本開示を限定するものではない。
本開示の方案を当業者によりよく理解してもらうために、以下、本開示の実施例における技術方案を、本開示の実施例における図面と併せて、明確に、完全に説明するが、明らかに、説明された実施例は、本開示の一部の実施例にすぎず、全ての実施例ではない。本開示の実施例に基づいて、当業者が創造的な労働を行うことなく得られる他の全ての実施例は、本開示の保護範囲内である。
本開示の明細書、特許請求の範囲、及び上記図面における「第1の」、「第2の」などの用語は、異なる対象を区別するためのものであり、特定の順序を説明するためのものではない。なお、「含む」及び「有する」という用語並びにそれらの任意の変形は、排他的でない包含をカバーすることを意図している。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は設備は、挙げられたステップ又はユニットに限定されず、場合によって記載されていないステップ又はユニットをさらに含み、あるいは、場合によってこれらのプロセス、方法、製品又は設備に固有の他のステップ又はユニットをさらに含む。本明細書における用語「及び/又は」は、単に関連対象との関連関係を記述するものであり、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBの両方が存在し、Bのみが存在するという3つの場合を示してもよい。また、本明細書における用語「少なくとも1つ」は複数のうちのいずれか1つ、又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選択されたいずれか1つ又は複数の要素を含むことを示してもよい。本明細書において「実施例」の意味は、実施例に関連して説明された特定の特徴、構造又は特性が、本開示の少なくとも1つの実施例に含まれ得る。本明細書の様々な場所に当該語句が現れることは、必ずしも全てが同じ実施例を表すことではなく、他の実施例を除いた別個の又は代替の実施例を表すことではない。当業者は、本明細書に記載された実施例を他の実施例と組み合わせることができることを明らか且つ暗黙的に理解するであろう。
近年、ニューラルネットワークは、その優れた性能により、様々な画像認識タスク(例えば歩行者の再認識や画像分類)に広く利用されている。これらのタスクにおけるニューラルネットワークの表現効果は、ニューラルネットワークに対するトレーニング効果に大きく依存し、ニューラルネットワークのトレーニング効果は主に、トレーニングニューラルネットワークをトレーニングするトレーニング画像の数に依存する。すなわち、トレーニング画像の数が多いほど、ニューラルネットワークのトレーニング効果がよくなり、トレーニングされたニューラルネットワークを適用して対応する画像認識のタスクを実行する効果がよくなる。
トレーニング画像とは、ラベル付き情報(以下、ラベルという)を有する画像である。例えば、実行する必要があるタスクが、画像に含まれる内容を分類し、画像に含まれる内容がリンゴ、バナナ、梨、桃、オレンジ、スイカのいずれであるかを判断することである場合、上記ラベル付き情報は、リンゴ、バナナ、梨、桃、オレンジ、スイカを含む。また例えば、実行する必要があるタスクが、歩行者の再認識、すなわち画像に含まれる人物の身元を認識することである場合、上記ラベル付き情報は、人物の身元(例えば張三、李四、王五、周六など)を含む。
トレーニング画像のラベル付き情報が正確であればあるほど、ニューラルネットワークのトレーニング効果がよくなるため、トレーニング画像のラベル付き画像とトレーニング画像の実際の内容とのマッチング度が高いほど、トレーニング効果がよくなる。例えば、梨を含む画像をリンゴとラベリングすると、正確ではない。また例えば、張三を含む画像を李四とラベリングする場合も、正確ではない。ラベル付き情報が正確ではないトレーニング画像は、トレーニング効果を悪くするため、従来の方法では、人工によるラベリングでトレーニング画像へのラベリングを完了することが多い。しかし、トレーニング画像の数が膨大な場合には、人工によるラベリングの効率が低くなり、人件費が高くなる。そのため、教師なし転移学習のようにニューラルネットワークをトレーニングする、すなわち、既存のラベル付き画像によってトレーニングされたニューラルネットワークをラベルなし画像に適用して人件費を低減する人がますます多くなってきた。
ニューラルネットワークは、上記ラベル付き画像で実行するタスクと上記ラベルなし画像で実行するタスクとが関連性を有し、上記ラベル付き画像と上記ラベルなし画像との間にも関連性がある。例えば(例1)、A市の監視カメラにより曇りの日に歩行者を含む画像(以下、A地区の画像という)を大量に収集し、A地区の画像における歩行者の身元をラベリングしてラベル付きデータを取得し、ラベル付きデータを用いてニューラルネットワークaをトレーニングすることにより、トレーニングされたニューラルネットワークaは、曇りの日にA地区で収集した画像における歩行者の身元を認識するために使用できる。現在、B地区で収集した画像における歩行者の身元を認識する必要があるが、B地区から収集した画像をラベリングして取得された画像を用いて新たなニューラルネットワーク(例えばニューラルネットワークb)をトレーニングする場合、膨大な人件費がかかる。そのため、教師なし転移学習を用いてトレーニングされたニューラルネットワークaのパラメータを調整することにより、トレーニングされたニューラルネットワークaが、B地区から収集した画像における歩行者の身元を認識するために使用できる。ニューラルネットワークaがラベル付き画像で実行するタスクとラベルなし画像(B地区から収集した画像)で実行するタスクはいずれも、歩行者の身元の認識であり、ラベル付き画像及びラベルなし画像はいずれも、歩行者を含む画像である。
ラベル付き画像とラベルなし画像とは関連性があるが、両者の間には差異があるため、ラベル付き画像によってトレーニングして取得されたニューラルネットワークをラベルなし画像に直接適用することができない。例1に続いて例を挙げると、ラベル付きデータはすべて、曇りの日に収集した画像であり、B地区から収集した画像は、曇りの日に収集した画像、晴れの日に収集した画像及び雨の日に収集した画像を含む。異なる天候に収集した画像では、環境の明るさが異なる。異なる環境の明るさがニューラルネットワークの認識正確率に大きな影響を与える。例えば、曇りの日に収集した画像でトレーニングして取得されたニューラルネットワークが晴れの日に収集した画像における歩行者の身元に対する認識正確率が低い。なお、A地区の監視カメラのパラメータとB地区の監視カメラのパラメータも異なる(例えば撮影角度)。これにより、異なるカメラによって収集された画像における歩行者の身元に対するニューラルネットワークの認識正確率も異なる。例えば、A地区の監視カメラのパラメータとB地区の監視カメラのパラメータも異なることにより、ラベル付きデータを用いてトレーニングして取得されたニューラルネットワークがB地区から収集した画像における歩行者の身元に対する認識正確率が低い。
上記ラベル付き画像を含むセットをソースドメインといい、上記ラベルなし画像を含むセットをターゲットドメインというと、教師なし転移学習は、ソースドメインでトレーニングされたニューラルネットワークをターゲットドメインに適用するニューラルネットワークのトレーニング方法である。
従来の教師なし学習方法では、ソースドメインでトレーニングされたニューラルネットワークによってターゲットドメインでのラベルなし画像を認識し、ターゲットドメインでのラベルなし画像にラベル(以下、疑似ハードラベルという)を付加して、疑似ハードラベルを教師として、ソースドメインでトレーニングされたニューラルネットワークのパラメータを調整して、ターゲットドメインに適用されるニューラルネットワーク(以下、適用ニューラルネットワークという)を取得する。疑似ハードラベルには誤差があるので、疑似ハードラベルを教師として、ソースドメインでトレーニングされたニューラルネットワークをトレーニングする効果が悪くなり、ひいては適用ニューラルネットワークのターゲットドメインでの特徴抽出効果が悪くなり、さらにターゲットドメインでの適用効果が悪くなる(例えば歩行者の身元への認識正確率が低い)。本開示の実施例に係る技術方案を適用することにより、上記従来の方法の上で、ターゲットドメインでの特徴抽出効果がターゲットドメインでの適用ニューラルネットワークの特徴抽出効果よりも優れたニューラルネットワークを取得し、ターゲットドメインでの適用効果を向上させることができる。
本開示の実施例に係る技術方案を詳しく説明する前に、まず、いくつかの概念を定義する。1.クラス内で最も難しい特徴データ:ラベルが同じ画像の特徴データのうち、類似度が最も小さい2つの特徴データ。2.クラス外で最も難しい特徴データ:ラベルが異なる画像の特徴データのうち、類似度が最も大きい2つの特徴データ。3.特徴データセットにおける画像のクラス内で最も難しい特徴データ:当該特徴データセットにおける当該画像の特徴データのクラス内で最も難しい特徴データ。4.特徴データセットにおける画像のクラス外で最も難しい特徴データ:当該特徴データセットにおける当該画像の特徴データのクラス内で最も難しい特徴データ。
例えば、画像1の特徴データを特徴データ1とし、画像2の特徴データを特徴データ2とし、画像3の特徴データを特徴データ3とし、画像4の特徴データを特徴データ4とし、画像5の特徴データを特徴データ5とする。画像1のラベルは、画像2のラベル、画像3のラベルと同じであり、画像1のラベルは、画像4のラベル、画像5のラベルと異なる。特徴データ1と特徴データ2との類似度が特徴データ1と特徴データ3との類似度よりも小さい場合、特徴データ3は、特徴データ1のクラス内で最も難しい特徴データである。特徴データ1と特徴データ4との類似度が特徴データ1と特徴データ5との類似度よりも小さい場合、特徴データ5は、特徴データ1のクラス外で最も難しい特徴データである。特徴データセット1が特徴データ1、特徴データ2、特徴データ3、特徴データ4及び特徴データ5を含むとすると、特徴データセット1における画像1のクラス内で最も難しい特徴データは、特徴データ3であり、特徴データセット1における画像1のクラス外で最も難しい特徴データは、特徴データ5である。
以下、本開示の実施例における図面を参照しながら本開示の実施例を説明する。本開示の実施例に係る画像処理方法のフローチャートである図1を参照する。
101.処理対象の画像を取得する。
本実施例の実行主体は、サーバ、携帯電話、コンピュータ、タブレットなどの端末であってもよい。上記処理対象の画像は、任意のデジタル画像であってもよい。例えば、処理対象の画像は、人物オブジェクトを含んでもよい。処理対象の画像は、胴体、四肢(以下、胴体及び四肢を人体という)がなく、人の顔のみを含んでもよい。また、処理対象の画像は、人体のみを含んでもよいし、人体を含まなく、下肢又は上肢のみを含んでもよい。本開示は、処理対象の画像に具体的に含まれる人体領域を限定しない。また例えば、処理対象の画像は、動物を含んでもよい。また例えば、処理対象の画像は、植物を含んでもよい。本開示は、処理対象の画像に含まれる内容を限定しない。
処理対象の画像を取得する方式としては、ユーザがキーボード、マウス、タッチパネル、タッチパッドや音声入力装置などを含む入力ユニットを介して入力する処理対象の画像を受信することであってもよいし、携帯電話、コンピュータ、タブレットやサーバなどを含む端末から送信される処理対象の画像を受信することであってもよい。本開示は、処理対象の画像を取得する方式を限定しない。
102.目標ニューラルネットワークを用いて上記処理対象の画像に対して特徴抽出処理を行って上記処理対象の画像の目標特徴データを取得する。
上記目標ニューラルネットワークは、画像から特徴データを抽出する機能を有するニューラルネットワークである。例えば、目標ニューラルネットワークは、畳み込み層、プーリング層、正規化層、全結合層、ダウンサンプリング層、アップサンプリング層、分類器などのニューラルネットワーク層が一定の方式に従って積層されるか、又は構成され得る。本開示は、目標ニューラルネットワークの構造を限定しない。
一つの可能な実施形態では、目標ニューラルネットワークが複数層の畳み込み層、正規化層を含むことにより、順次、目標ニューラルネットワークにおける複数層の畳み込み層及び正規化層によって処理対象の画像に対して畳み込み処理及び正規化処理を行い、処理対象の画像の特徴データを抽出して目標特徴データを取得することができる。
上述したように、従来の方法における疑似ハードラベルは、ソースドメインでトレーニングされたニューラルネットワークによって取得されるので、疑似ハードラベルを教師として、ソースドメインでトレーニングされたニューラルネットワークをトレーニングすることにより、ソースドメインでトレーニングされたニューラルネットワークをトレーニング中に学習の悪い方向にどんどん悪化させ、ひいては適用ニューラルネットワークのターゲットドメインでの適用効果が悪くなる。
例えば、ソースドメインでトレーニングされたニューラルネットワークが李四に対する認識正確率が低く、すなわち、李四を含む画像を他人として認識する確率が高い。李四を含む画像aをソースドメインでトレーニングされたニューラルネットワークに入力し、取得した疑似ハードラベルは王五であり、王五を教師データとして、ソースドメインでトレーニングされたニューラルネットワークのパラメータを調整する。ソースドメインでトレーニングされたニューラルネットワークのパラメータを調整することにより、画像aから抽出した特徴データを王五の特徴データに近くする。このように、最終的に取得される適用ニューラルネットワークを用いて李四を含む画像を認識すると、抽出された特徴データはすべて王五の特徴データに近いため、李四を王五に認識してしまう。
従来の方法における上記欠陥に鑑みて、本開示は、ソースドメインでトレーニングされた別のニューラルネットワーク(以下、教師ニューラルネットワークという)の出力を教師として、適用ニューラルネットワークの出力をトレーニングしてターゲットドメインでの適用ニューラルネットワークの適用効果を向上させることが考えられる。適用ニューラルネットワーク及び教師ニューラルネットワークはいずれも、ソースドメインでトレーニングされたニューラルネットワークであるが、適用ニューラルネットワークと教師ニューラルネットワークのパラメータが異なる。つまり、異なる人の身元に対する適用ニューラルネットワークと教師ニューラルネットワークの認識正確率が異なる。例えば(例2)、適用ニューラルネットワークは、張三に対する認識正確率が高いが、周六に対する認識正確率が低い。一方、教師ニューラルネットワークは、張三に対する認識正確率が低いが、周六に対する認識正確率が高い。
したがって、適用ニューラルネットワークの出力と教師ニューラルネットワークの出力とを用いて相互に教師ありトレーニングを行う場合、すなわち、適用ニューラルネットワークの出力を教師として教師ニューラルネットワークをトレーニングし、教師ニューラルネットワークの出力を教師として適用ニューラルネットワークをトレーニングする場合、疑似ハードラベルの代わりに、教師ニューラルネットワークの出力を教師として適用ニューラルネットワークをトレーニングすることができる。ただし、相互の教師ありトレーニング中、適用ニューラルネットワークと教師ニューラルネットワークのパラメータは同時に更新されるため、適用ニューラルネットワークの出力と教師ニューラルネットワークの出力との類似度がますます高くなる(以下、相互の教師ありトレーニングに存在するこの欠陥を関連性欠陥という)。さらに、相互の教師ありトレーニング中に教師ニューラルネットワークに適用ニューラルネットワークの「劣勢」(例えば例2における周六の身元に対する適用ニューラルネットワークの認識)を学習させ、適用ニューラルネットワークに教師ニューラルネットワークの「劣勢」(例えば例2における張三の身元に対する教師ニューラルネットワークの認識)を学習させる。すなわち、適用ニューラルネットワークのパラメータと第2のニューラルネットワークのパラメータとの類似度が高くなる。これでは、適用ニューラルネットワークのパラメータを最適化することができないため、適用ニューラルネットワークのターゲットドメインでの適用効果を向上させることができない。
相互の教師ありトレーニング中に存在する関連性欠陥に鑑みて、本開示の実施例は、適用ニューラルネットワークと教師ニューラルネットワークを「分離」することによって、適用ニューラルネットワークと教師ニューラルネットワークとの関連性を低減し、関連性欠陥による影響を低減し、ターゲットドメインでの効果がこのような相互の教師ありトレーニングの方式でトレーニングして取得される適用ニューラルネットワークの効果よりも優れた目標ニューラルネットワークを取得する別のトレーニング方法を提供する。このようなトレーニング方法は、第1のニューラルネットワークのパラメータの時系列平均値によって上記目標ニューラルネットワークのパラメータを決定し、目標ニューラルネットワークの出力を教師として第2のニューラルネットワークをトレーニングするとともに、第2のニューラルネットワークのパラメータの時系列平均値によって平均ネットワークのパラメータを決定し、平均ネットワークの出力を教師として第1のニューラルネットワークをトレーニングし、上記目標ニューラルネットワークのトレーニングを完了することを含む。第1のニューラルネットワーク及び第2のニューラルネットワークはいずれも、ソースドメインでトレーニングされたニューラルネットワークであり、第1のニューラルネットワーク及び第2のニューラルネットワークはいずれも、画像から特徴データを抽出する機能及び特徴データに基づいて分類する機能を有するニューラルネットワークであり、第1のニューラルネットワークの構造と第2のニューラルネットワークの構造は同じであってもよいし、異なってもよい。本開示は、これを限定しない。
図2に示すように、目標ニューラルネットワークのパラメータは、第1のニューラルネットワークのパラメータの時系列平均値である。この第1のニューラルネットワークは、トレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得される。すなわち、トレーニング画像セット内の画像のラベル及び平均ネットワークの出力を教師データとして第1のニューラルネットワークの出力をトレーニングし、第1のニューラルネットワークのパラメータを調整する。上記平均ネットワークのパラメータは、第2のニューラルネットワークのパラメータの時系列平均値である。この第2のニューラルネットワークは、上記トレーニング画像セット及び上記目標ニューラルネットワークを用いて教師ありトレーニングを行って取得される。すなわち、トレーニング画像セット内の画像のラベル及び目標ニューラルネットワークの出力を教師データとして第2のニューラルネットワークの出力をトレーニングし、第2のニューラルネットワークのパラメータを調整する。
トレーニング画像セットをそれぞれ第1のニューラルネットワーク、第2のニューラルネットワーク、目標ニューラルネットワーク及び平均ネットワークに入力し、図2における4つのネットワーク(第1のニューラルネットワーク、第2のニューラルネットワーク、目標ニューラルネットワーク及び平均ネットワークを含む)がすべて収束してトレーニングを停止するまで、図2に示す教師関係に基づいて第1のニューラルネットワーク及び第2のニューラルネットワークを複数の周期のトレーニングを行い、目標ニューラルネットワークのパラメータを更新することができる。
上記図2における4つのネットワークをトレーニングする過程で、上記4つのネットワークのパラメータは、トレーニング周期が完了するたびに更新される。目標ニューラルネットワークのパラメータが第1のニューラルネットワークのパラメータの時系列平均値であることは、目標ニューラルネットワークのパラメータが異なるトレーニング周期の第1のニューラルネットワークのパラメータの平均値であることを意味し、平均ネットワークのパラメータが第2のニューラルネットワークのパラメータの時系列平均値であることは、平均ネットワークのパラメータが異なるトレーニング周期の第2のニューラルネットワークのパラメータの平均値であることを意味する。
異なるトレーニング周期の第1のニューラルネットワークのパラメータの平均値は、第1のニューラルネットワークの、トレーニング完了のトレーニング周期での平均性能を反映するためのものであると理解されるべきである。目標ニューラルネットワークのパラメータを具体的に決定する際に、異なるトレーニング周期の第1のニューラルネットワークのパラメータの平均値を算出することによって決定されることに限定されなくてもよい。同様に、平均ネットワークのパラメータを具体的に決定する際に、異なるトレーニング周期の第2のニューラルネットワークのパラメータの平均値を算出することによって決定されることに限定されなくてもよい。
一つの可能な実施形態では、以下の式により目標ニューラルネットワークのパラメータを決定することができる。
ただし、E
T(θ
1)は、T番目のトレーニング周期における目標ニューラルネットワークのパラメータであり、E
T―
1(γ
1)は、T-1番目のトレーニング周期における目標ニューラルネットワークのパラメータであり、γ
1
Tは、T番目のトレーニング周期における第1のニューラルネットワークのパラメータであり、αは、0以上1未満の自然数であり、E
0(γ
1)=E
1(γ
1)=γ
1
1である。
別の可能な一実施形態では、異なるトレーニング周期の第1のニューラルネットワークのパラメータの平均値を算出することによって目標ニューラルネットワークのパラメータを決定することができる。例えば、第k周期のトレーニングを行う前の第1のニューラルネットワークのパラメータをEK(θ)とし、第k周期のトレーニングを行うの第1のニューラルネットワークのパラメータをEK+1(θ)とすると、目標ニューラルネットワークの、第k+1周期のトレーニングを行う前のパラメータは、EK(δ)=(EK(θ)+EK(θ))/2である。
同様に、上記2つの可能な実施形態によって平均ネットワークのパラメータを決定することができる。
本開示の実施例に係るトレーニング方法のトレーニング中に、第1のニューラルネットワークのパラメータは、教師トレーニングによって取得される。すなわち、教師データの教師によって第1のニューラルネットワークの損失と第2のニューラルネットワークの損失をそれぞれ決定し、第1のニューラルネットワークの損失に基づいて第1のニューラルネットワークの逆伝播の勾配を決定し、また逆伝播の方式でその勾配を伝播し、第1のニューラルネットワークのパラメータを更新する。同様に、第2のニューラルネットワークのパラメータも、逆勾配伝播の方式で更新される。一方、目標ニューラルネットワーク及び平均ネットワークのパラメータは、逆勾配伝播の方式で更新されるのではなく、異なるトレーニング周期の第1のニューラルネットワークのパラメータの平均値及び異なるトレーニング周期の第2のニューラルネットワークのパラメータの平均値によって目標ニューラルネットワークのパラメータ及び平均ネットワークのパラメータをそれぞれ決定する。そのため、目標ニューラルネットワークのパラメータ及び平均ネットワークのパラメータの更新速度は、第1のニューラルネットワークのパラメータ及び第2のニューラルネットワークのパラメータの更新速度よりも遅い。つまり、目標ニューラルネットワークの出力と第2のニューラルネットワークの出力との類似度が低く、平均ネットワークの出力と第1のニューラルネットワークの出力との類似度が低い。このように、目標ニューラルネットワークの出力及び平均ネットワークの出力を教師として第2のニューラルネットワーク及び第1のニューラルネットワークをそれぞれトレーニングすることにより、第2のニューラルネットワークに目標ニューラルネットワークの「優勢」(すなわち第1のニューラルネットワークの「優勢」)を学習させ、第1のニューラルネットワークに平均ネットワークの「優勢」を学習させることができる。また、目標ニューラルネットワークのパラメータは、第1のニューラルネットワークの、トレーニング完了のトレーニング周期での平均性能を反映でき、平均ネットワークのパラメータは、第2のニューラルネットワークの、トレーニング完了のトレーニング周期での平均性能を反映できるため、第2のニューラルネットワークに目標ニューラルネットワークの「優勢」を学習させることは、第2のニューラルネットワークに第1のニューラルネットワークの「優勢」を学習させることに相当し、第1のニューラルネットワークに平均ネットワークの「優勢」を学習させることは、第1のニューラルネットワークに第2のニューラルネットワークの「優勢」を学習させることに相当する。ひいては、第1のニューラルネットワークのパラメータの時系列平均値に基づいて目標ニューラルネットワークのパラメータを決定することにより、トレーニングして取得された目標ニューラルネットワークのターゲットドメインでの効果を適用ニューラルネットワークのターゲットドメインでの効果よりもよくすることができる。上記「優勢」とは、あるカテゴリ又は個体に対するニューラルネットワークの認識正確率が高いことを意味する。例えば例2における周六の身元に対する適用ニューラルネットワークの認識、及び張三の身元に対する教師ニューラルネットワークの認識を挙げる。
本実施例では、第1のニューラルネットワークのパラメータの時系列平均値及び第2のニューラルネットワークの時系列平均値を決定して目標ニューラルネットワークのパラメータ及び平均ネットワークのパラメータをそれぞれ取得し、目標ニューラルネットワークの出力を教師として第2のニューラルネットワークをトレーニングし、平均ネットワークの出力を教師として第1のニューラルネットワークをトレーニングして、目標ニューラルネットワークをトレーニングする。これにより、トレーニング効果を向上させることができる。さらに、目標ニューラルネットワークを用いてターゲットドメインで関連する認識タスクを実行するとき、情報がより豊富な目標特徴データを抽出できる。当該情報は、ターゲットドメインでの認識正確率を向上させることができる。
以下、実施例におけるトレーニング方法の実施過程を詳しく説明する。本開示の実施例に係る102の1つの実施可能な方法のフローチャートである図3を参照する。
301.上記トレーニング画像セット、第1のトレーニング対象のニューラルネットワーク及び第2のトレーニング対象のニューラルネットワークを取得する。
本実施例の実行主体は、サーバ、コンピュータであってもよい。本実施例のトレーニング方法の実行主体は、上記実行主体と異なってもよいし、同じであってもよい。本実施例では、トレーニング画像セットは、図4に示す従来の方法で取得され得る。図4に示すように、ソースドメインでトレーニングされた第3のニューラルネットワークに複数枚のターゲットドメインにおけるラベルなし画像(以下、処理対象の画像セットという)を入力し、第3のニューラルネットワークによって処理対象の画像セット内の画像に対して特徴抽出処理を行って処理対象の画像セット内の画像の特徴データを含む第3の特徴データセットを取得し、クラスタリングアルゴリズムによって処理対象の画像セット内の画像の特徴データを区別して予定の数のセットを取得し、各セットの特徴データに対応する画像に疑似ハードラベルを付加する。
可能な一実施形態では、第3のニューラルネットワークに対してy回の第2の反復を実行することにより、上記トレーニング画像セットを取得することができ、yは、正の整数である。上記y回の第2の反復のうちt回目の第2の反復は、処理対象の画像セットからサンプリングして第2の画像セットを取得し、t回目の第2の反復の第3のニューラルネットワークによって第2の画像セット内の画像を処理して第2の画像セット内の画像の特徴データを含む第3の特徴データセット及び第2の画像セット内の画像の分類結果を含む分類結果セットを取得することと、第3の特徴データセット内の特徴データをクラスタリング処理して第3の特徴データセット内の特徴データのラベルを決定し、第3の特徴データセット内の特徴データのラベルを前記第2の画像セット内の対応する画像に付加して第3の画像セットを取得することと、分類結果セット内の分類結果と第3の画像セット内の画像のラベルとの差分に基づいて第3の損失を決定することと、第3の損失に基づいてt回目の第2の反復の第3のニューラルネットワークのパラメータを調整してt+1回目の第2の反復の第3のニューラルネットワークのパラメータを取得することとを含む。
t+1回目の第2の反復において、処理対象の画像セットからサンプリングして第3の画像セットを取得し、第3の画像セット内の画像は、第2の画像セット内の画像と異なる。また、t回目の第2の反復の第3のニューラルネットワークによって第2の画像セットを処理して第2の画像セット内の画像のラベル及びt+1回目の第2の反復の第3のニューラルネットワークのパラメータを取得する方法と同様に、t+1回目の第2の反復の第3のニューラルネットワークによって第3の画像セットを処理して第3の画像セット内の画像のラベル及び第t+2回の第2の反復の第3のニューラルネットワークを取得する。処理対象の画像セットの少なくとも1つの画像にラベルが付加されるまで、トレーニング画像セットを取得する。第1回の第2の反復の第3のニューラルネットワークは、第3のニューラルネットワークである。
第1回の第2の反復を例(例3)として、処理対象の画像セットからサンプリングして人物オブジェクトを含む5枚の画像を取得し、それぞれ画像a、画像b、画像c、画像d、画像eとする。この5枚の画像を第3のニューラルネットワークに入力してこの5枚の画像の特徴データを取得し、クラスタリングアルゴリズムにより、この5枚の画像の特徴データが表す人物オブジェクトの身元に基づいて、この5枚の画像を3つのクラスに分けて3つのセットを取得する。3つのセットはそれぞれ、画像a及び画像eからなる第1のセット、画像bからなる第2のセット、画像c及び画像dからなる第3のセットである。第1のセットの画像に含まれる人物オブジェクトの身元は張三であると決定し、画像a及び画像eにそれぞれ付加した疑似ハードラベルは、[1,0,0]であり、画像aにおける人物オブジェクトの身元及び画像eにおける人物オブジェクトの身元は第1のクラス(張三)に属することを表す。第2のセットの画像に含まれる人物オブジェクトの身元は李四であると決定し、画像bに付加した疑似ハードラベルは、[0,1,0]であり、画像bにおける人物オブジェクトの身元は、第2のクラス(李四)に属することを表す。第3のセットの画像に含まれる人物オブジェクトの身元は王五であると決定し、画像cと画像dにそれぞれ付加した疑似ハードラベルは、[0,0,1]であり、画像cにおける人物オブジェクトの身元及び画像dにおける人物オブジェクトの身元は第3のクラス(王五)に属するを表す。
同時に、第3のニューラルネットワークの分類器は、これらの画像の特徴データに基づいて、画像の属するクラス(以下、予測結果という)を予測し、予測結果と疑似ハードラベルとの差分に基づいて、総予備ハード分類損失を決定する。
可能な一実施形態では、処理対象の画像セットの各画像の予測結果とラベルとの差分をそれぞれ算出することによって予備ハード分類損失を取得し、処理対象の画像セットの少なくとも1つの画像の予備ハード分類損失の平均値を求めることにより、総予備ハード分類損失を決定することができる。例3に続いて例(例4)を挙げると、第3のニューラルネットワークの分類器から出力される画像aの予測クラスは、[0.7,0.2,0.1]であり、画像aにおける人物オブジェクトの身元が張三である確率は、0.7であり、画像aにおける人物オブジェクトの身元が李四である確率は、0.2であり、画像aにおける人物オブジェクトの身元が王五である確率は、0.1であることを表す。予測クラス([0.7,0.2,0.1])と疑似ハードラベル([1,0,0])とのクロスエントロピー損失を算出することによって画像aの予備ハード分類損失を決定できる。また、同様の方法により、画像b、画像c、画像d及び画像eのハード分類損失を決定し、画像aの予備ハード分類損失、画像bのハード分類損失、画像cの予備ハード分類損失、画像dのハード分類損失及び画像eの予備ハード分類損失の平均値を算出して総予備ハード分類損失を取得することができる。
同時に、処理対象の画像セット内の画像の特徴データに基づいて処理対象の画像セットの各画像の予備ハードトリプレット損失を決定し、処理対象の画像セットの各画像の予備ハードトリプレット損失の平均値を算出して総予備ハードトリプレット損失を決定する。例4に続いて例を挙げると、画像aの予備ハードトリプレット損失を算出する場合、まず、画像aと同じクラスに属する画像の特徴データにおいて画像aの特徴データとの類似度(以下、正の類似度という)をそれぞれ算出し、画像aと異なるクラスに属する画像の特徴データにおいて画像aの特徴データとの類似度(以下、負の類似度という)をそれぞれ算出し、正の類似度の最小値及び負の類似度の最大値に基づいて予備ハードトリプレット損失を決定する。また、同様の方法により、画像b、画像c、画像d及び画像eの予備ハードトリプレット損失を決定し、画像aの予備ハードトリプレット損失と、画像bのハードトリプレット損失と、画像cの予備ハードトリプレット損失と、画像dのハードトリプレット損失と、画像eの予備ハードトリプレット損失との平均値を算出して総予備ハードトリプレット損失を取得することができる。
また、総予備ハード分類損失と総予備ハードトリプレット損失とを重み付け加算して第3の損失を取得する。第3の損失に基づいて第3のニューラルネットワークのパラメータを調整して第2回の第2の反復の第3のニューラルネットワークを取得する。処理対象の画像セットの少なくとも1つの画像にラベル(すなわち、疑似ハードラベル)が付加されるまで、トレーニング画像セットを取得する。
上記第1のトレーニング対象のニューラルネットワーク及び上記第2のトレーニング対象のニューラルネットワークはいずれも、ソースドメインでトレーニングされたニューラルネットワークであり、第1のトレーニング対象のニューラルネットワーク及び第2のトレーニング対象のニューラルネットワークはいずれも、画像から特徴データを抽出する機能及び特徴データに基づいて分類する機能を有するニューラルネットワークであり、第1のトレーニング対象のニューラルネットワークの構造と第2のトレーニング対象のニューラルネットワークの構造は同じであってもよいし、異なってもよい。本開示は、これを限定しない。
302.上記第1のトレーニング対象のニューラルネットワーク及び上記第2のトレーニング対象のニューラルネットワークに対してx回の第1の反復を実行して目標ニューラルネットワークを取得する。
本実施例に係る上記x回の第1の反復のうちi回目の第1の反復のトレーニング模式図である図5を参照する。i回目の第1の反復は、上記トレーニング画像セット及びi回目の第1の反復の平均ネットワークの出力を教師としてi回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークをトレーニングしてi+1回目の第1の反復の第1のトレーニング対象のニューラルネットワークを取得し、上記トレーニング画像セット及びi回目の第1の反復の目標ニューラルネットワークの出力を教師としてi回目の第1の反復の第2のトレーニング対象のニューラルネットワークをトレーニングしてi+1回目の第1の反復の第2のトレーニング対象のニューラルネットワークを取得することを含む。
可能な一実施形態では、トレーニング画像セットによってi回目の第1の反復の第1のトレーニング対象のニューラルネットワークをトレーニングしてi+1回目の第1の反復の第1のトレーニング対象のニューラルネットワークを取得し、トレーニング画像セットによってi回目の第1の反復の第2のトレーニング対象のニューラルネットワークをトレーニングしてi+1回目の第1の反復の第2のトレーニング対象のニューラルネットワークを取得することは、i回目の第1の反復の第1のトレーニング対象のニューラルネットワークによって上記第1の画像を処理して第1の分類結果を取得し、i回目の第1の反復の平均ネットワークによって上記第1の画像を処理して第2の分類結果を取得し、i回目の第1の反復の第2のトレーニング対象のニューラルネットワークによって上記第1の画像を処理して第3の分類結果を取得し、i回目の第1の反復のトレーニング前の目標ニューラルネットワークによって上記第1の画像を処理して第4の分類結果を取得するステップと、第1の分類結果と第1の画像の第1のラベル(すなわち、ステップ301で取得された疑似ハードラベル)との差分に基づいてi回目の第1の反復の第1のトレーニング対象のニューラルネットワークの第1のハード分類損失を決定し、第3の分類結果と第1のラベルとの差分に基づいてi回目の第1の反復の第2のトレーニング対象のニューラルネットワークの第2のハード分類損失を決定するステップと、第1のハード分類損失を教師としてi回目の第1の反復の第1のトレーニング対象のニューラルネットワークをトレーニングし、第2のハード分類損失を教師としてi回目の第1の反復の第2のトレーニング対象のニューラルネットワークをトレーニングすることにより、トレーニング画像セットを教師としてi回目の第1の反復の第1のトレーニング対象のニューラルネットワーク及びi回目の第1の反復の第2のトレーニング対象のニューラルネットワークをトレーニングすることを実現するステップと、第1の分類結果と第2の分類結果との差分に基づいてi回目の第1の反復の第1のトレーニング対象のニューラルネットワークの第1のソフト分類損失を決定し、第3の分類結果と第4の分類結果との差分に基づいてi回目の第1の反復のトレーニング前の第2のニューラルネットワークの第2のソフト分類損失を決定するステップと、第1のソフト分類損失を教師としてi回目の第1の反復の第1のトレーニング対象のニューラルネットワークをトレーニングし、第2のソフト分類損失を教師としてi回目の第1の反復の第2のトレーニング対象のニューラルネットワークをトレーニングすることにより、i回目の第1の反復の平均ネットワークを教師としてi回目の第1の反復の第1のトレーニング対象のニューラルネットワークをトレーニングすること及びi回目の第1の反復の目標ニューラルネットワークを教師としてi回目の第1の反復の第2のトレーニング対象のニューラルネットワークをトレーニングすることを実現するステップと、第1のハード分類損失と第1のソフト分類損失とを重み付け加算してi回目の第1の反復の第1のトレーニング対象のニューラルネットワークの第1の損失を取得し、第2のハード分類損失と第2のソフト分類損失とを重み付け加算してi回目の第1の反復の第2のトレーニング対象のニューラルネットワークの第2の損失を取得するステップと、第1の損失に基づいてi回目の第1の反復の第1のトレーニング対象のニューラルネットワークのパラメータを調整してi+1回目の第1の反復の第1のトレーニング対象のニューラルネットワークを取得するステップと、第2の損失に基づいてi回目の第1の反復の第2のトレーニング対象のニューラルネットワークのパラメータを調整してi+1回目の第1の反復の第2のトレーニング対象のニューラルネットワークを取得するステップと、i回目の第1の反復を実行する前に、i-1回目の第1の反復の目標ニューラルネットワークのパラメータ及び上記i回目の第1の反復の第1のトレーニング対象のニューラルネットワークのパラメータに基づいて上記i回目の第1の反復の目標ニューラルネットワークのパラメータを決定し、i-1回目の第1の反復の平均ネットワークのパラメータ及び上記i回目の第1の反復の第2のトレーニング対象のニューラルネットワークのパラメータに基づいて上記i回目の第1の反復の平均ネットワークのパラメータを決定するステップとを含む。可能な一実施形態では、i+1回目の第1の反復において、以下の2つの式によってi+1回目の第1の反復の目標ニューラルネットワークのパラメータ、及びi+1回目の第1の反復の平均ネットワークのパラメータをそれぞれ決定することができる。
ただし、E
i+1(θ
1)は、i+1回目の第1の反復の目標ニューラルネットワークのパラメータであり、E
i(θ
1)は、i回目の第1の反復の目標ニューラルネットワークのパラメータであり、E
i+1(θ
2)は、i+1回目の第1の反復の平均ネットワークのパラメータであり、E
i(θ2)は、i回目の第1の反復の平均ネットワークのパラメータである。θ
1
i+1は、i+1回目の第1の反復の第1のトレーニング対象のニューラルネットワークのパラメータであり、θ
1
i+2は、i+1回目の第1の反復の第2のトレーニング対象のニューラルネットワークのパラメータである。αは、0以上1未満の自然数であり、E
2(θ
1)=E
1(θ
1)=θ
1
1、E
2(θ
2)=E
1(θ
2)=θ
2
1である。上記xは、正の整数であり、上記iは、x以下の正の整数である。
i+1回目の第1の反復の第1のトレーニング対象のニューラルネットワークのパラメータ、i+1回目の第1の反復の第2のトレーニング対象のニューラルネットワークのパラメータ、i+1回目の第1の反復の目標ニューラルネットワークのパラメータ及びi+1回目の第1の反復の平均ネットワークのパラメータを決定した後、i+1回目の反復を実行する。第x回の反復を実行した後、第x回の第1の反復の目標ニューラルネットワークのパラメータを調整して目標ニューラルネットワークを取得する。
第1回の反復を例にする。トレーニング画像セットが画像1、画像2及び画像3を含むとする。画像1の疑似ハードラベルは、[1,0]であり、第1回の第1の反復の第1のトレーニング対象のニューラルネットワーク(すなわち、第1のトレーニング対象のニューラルネットワーク)によって上記トレーニング画像セット内の画像1(すなわち、第1の画像)を処理して取得された分類結果は、[0.7,0.3]であり、第1回の第1の反復の第2のトレーニング対象のニューラルネットワーク(すなわち、第2のトレーニング対象のニューラルネットワーク)によって上記画像1を処理して取得される分類結果は、[0.8,0.2]であり、第1回の第1の反復の目標ニューラルネットワーク(すなわち、第1のトレーニング対象のニューラルネットワーク)によって画像1を処理して取得された分類結果は、[0.7,0.3]であり、第1回の第1の反復の平均ネットワーク(すなわち、第2のトレーニング対象のニューラルネットワーク)によって画像1を処理して取得された分類結果は、[0.8,0.2]である。[1,0]と[0.7,0.3]とのクロスエントロピー損失を算出して第1のハード分類損失を取得し、[1,0]と[0.8,0.2]とのクロスエントロピー損失を算出して第2のハード分類損失を取得し、[0.7,0.3]と[0.7,0.3]との差分を算出して第1のソフト分類損失を取得し、[0.8,0.2]と[0.8,0.2]との差分を算出して第2のソフト分類損失を取得する。また、第1のハード分類損失と第1のソフト分類損失とを重み付け加算して第1の損失を取得し、第2のハード分類損失と第2のソフト分類損失とを重み付け加算して第2の損失を取得する。第1の損失に基づいて第1のトレーニング対象のニューラルネットワークのパラメータを調整して2回目の反復の第1のトレーニング対象のニューラルネットワークを取得し、第2の損失に基づいて第2のトレーニング対象のニューラルネットワークのパラメータを調整して2回目の反復の第2のトレーニング対象のニューラルネットワークを取得する。
選択可能なように、i回目の反復において、第1のハード分類損失と第1のソフト分類損失とを重み付け加算して第1の損失を取得し、第2のハード分類損失と第2のソフト分類損失とを重み付け加算して第2の損失を取得する前に、さらに、i回の第1の反復の第1のトレーニング対象のニューラルネットワークの第1のハードトリプレット損失、及びi回の第1の反復の第2のトレーニング対象のニューラルネットワークの第2のハードトリプレット損失を決定することができる。また、第1のハード分類損失と、第1のソフト分類損失と、第1のハードトリプレット損失とを重み付け加算して第1の損失を取得し、第2のハード分類損失と、第2のソフト分類損失と、第2のハードトリプレット損失とを重み付け加算して第2の損失を取得する。
可能な一実施形態では、i回目の第1の反復の第1のトレーニング対象のニューラルネットワークによって上記トレーニング画像セットを処理して第1の特徴データセットを取得し、i回目の第1の反復の第2のトレーニング対象のニューラルネットワークによって上記トレーニング画像セットを処理して第4の特徴データセットを取得する。上記第1の画像の上記第1の特徴データセットにおける第1の特徴データと、上記第1の特徴データセットのポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して第1の類似度を取得し、上記第1の画像の上記第4の特徴データセットにおける第3の特徴データと、上記第4の特徴データセットのポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して第9の類似度を取得する。第1の特徴データと、第1の特徴データセットのネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して第3の類似度を取得し、第3の特徴データと、第4の特徴データセットのネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して第10の類似度を取得する。また、第1の類似度及び第3の類似度に基づいて第1のハードトリプレット損失を決定でき、第9の類似度及び第10の類似度に基づいて第2のハードトリプレット損失を決定できる。ネガティブサンプル特徴データサブセットは、上記第1のラベルと異なるラベルを有する画像の特徴データを含み、ポジティブサンプル特徴データサブセットは、上記第1のラベルと同じラベルを有する画像の特徴データを含む。
例えば(例5)、トレーニング画像セットは、画像1、画像2、画像3、画像4、画像5を含む。画像1、画像3及び画像5のラベルはすべて、張三であり、画像2及び画像4のラベルはすべて、李四である。第1の特徴データセットは、画像1の特徴データ(第1の特徴データ)、画像2の特徴データ(以下、特徴データ2という)、画像3の特徴データ(以下、特徴データ3という)、画像4の特徴データ(以下、特徴データ4という)、画像5の特徴データ(以下、特徴データ5という)を含む。第4の特徴データセットは、画像1の特徴データ(第3の特徴データ)、画像2の特徴データ(以下、特徴データ6という)、画像3の特徴データ(以下、特徴データ7という)、画像4の特徴データ(以下、特徴データ8という)、画像5の特徴データ(以下、特徴データ9という)を含む。第1の特徴データセットのポジティブサンプル特徴データサブセットは、特徴データ3及び特徴データ5を含み、第1の特徴データセットのネガティブサンプル特徴データサブセットは、特徴データ2及び特徴データ4を含む。第4の特徴データセットのポジティブサンプル特徴データサブセットは、特徴データ7及び特徴データ9を含み、第4の特徴データセットのネガティブサンプル特徴データサブセットは、特徴データ6及び特徴データ8を含む。第1の特徴データと特徴データ2、特徴データ3、特徴データ4及び特徴データ5との類似度をそれぞれ算出する。第1の特徴データと特徴データ3との類似度が第1の特徴データと特徴データ5との類似度よりも小さいとする場合、第1の特徴データと特徴データ3との類似度は、第1の類似度である。第1の特徴データと特徴データ2との類似度が第1の特徴データと特徴データ4との類似度よりも小さいとする場合、第1の特徴データと特徴データ4との類似度は、第3の類似度である。第3の特徴データと特徴データ6、特徴データ7、特徴データ8及び特徴データ9との類似度をそれぞれ算出する。第3の特徴データと特徴データ7との類似度が第2の特徴データと特徴データ9との類似度よりも小さいとする場合、第3の特徴データと特徴データ7との類似度は、第9の類似度である。第3の特徴データと特徴データ6との類似度が第3の特徴データと特徴データ8との類似度よりも小さいとする場合、第3の特徴データと特徴データ8との類似度は、第10の類似度である。また、式(4)によって第1の特徴データと特徴データ3及び特徴データ4との第1のハードトリプレット損失を決定でき、式(5)によって第2の特徴データと特徴データ7及び特徴データ8との第2のハードトリプレット損失を決定できる。
ただし、max(A,B)は、A及びBのうちの最大値であり、d
1は第1の類似度であり、d
3は、第3の類似度であり、d
9は、第9の類似度であり、d
10は、第10の類似度であり、mは、0を超え1未満の自然数である。
ポジティブサンプル特徴データサブセットにおける第1の特徴データとの類似度が最も小さい特徴データを第1の特徴データのクラス内で最も難しい特徴データといい、ネガティブサンプル特徴データサブセットにおける第1の特徴データとの類似度が最も大きい特徴データを第1の特徴データのクラス外で最も難しい特徴データという。同様に、トレーニング画像セットの他の画像(画像2、画像3、画像4、画像5を含む)の第1の特徴データセットにおける特徴データの、第1の特徴データサブセットのポジティブサンプル特徴データサブセットにおけるクラス内での最も難しい特徴データ及びクラス外での最も難しい特徴データを決定することでき、各画像の第1の特徴データセットにおける特徴データ、クラス内で最も難しい特徴データ及びクラス外で最も難しい特徴データに基づいて各画像の第1のトレーニング対象のニューラルネットワークのハードトリプレット損失を決定できる。同様に、トレーニング画像セットの各画像の第4の特徴データセットにおける特徴データ、クラス内で最も難しい特徴データ及びクラス外で最も難しい特徴データに基づいて各画像の第2のトレーニング対象のニューラルネットワークのハードトリプレット損失を決定できる。
選択可能なように、トレーニング画像セットの各画像ごとに第1のトレーニング対象のニューラルネットワークのハードトリプレット損失及び第2のトレーニング対象のニューラルネットワークのハードトリプレット損失を決定した後、トレーニング画像セットの第1のトレーニング対象のニューラルネットワークのハードトリプレット損失の平均値を第1のハードトリプレット損失とし、トレーニング画像セットの少なくとも1つの画像の第2のトレーニング対象のニューラルネットワークのハードトリプレット損失の平均値を第2のハードトリプレット損失とする。
第1のハードトリプレット損失を教師としてi回目の第1の反復の第1のトレーニング対象のニューラルネットワークをトレーニングする。これにより、i回目の第1の反復の第1のトレーニング対象のニューラルネットワークは、同じクラスに属する画像の特徴データ間の類似度を向上させ、異なるクラスに属する画像の特徴データ間の類似度を低減できるため、異なるクラスの画像をよりよく区別し、画像のクラスに対する認識精度を向上させることができる。同様に、第2のハードトリプレット損失を教師としてi回目の第1の反復の第2のトレーニング対象のニューラルネットワークをトレーニングすることにより、i回目の第1の反復の第2のトレーニング対象のニューラルネットワークが画像から特徴を抽出する効果を向上させ、より豊富な画像情報を含む特徴データを取得することができる。
本実施例では、第1のハード分類損失、第1のソフト分類損失及び第1のハードトリプレットに基づいて第1の損失を決定し、第2のハード分類損失、第2のソフト分類損失及び第2のハードトリプレットに基づいて第2の損失を決定する。また、第1の損失に基づいてi回目の第1の反復の第1のトレーニング対象のニューラルネットワークを調整し、第2の損失に基づいてi回目の第1の反復の第2のトレーニング対象のニューラルネットワークを調整することにより、トレーニング画像及びi回目の第1の反復の平均ネットワークを教師としてi回目の第1の反復の第1のトレーニング対象のニューラルネットワークをトレーニングすることと、及びトレーニング画像及びi回目の第1の反復のトレーニング前の対象ネットワークを教師としてi回目の第1の反復の第2のトレーニング対象のニューラルネットワークをトレーニングすることとを実現する。
実施例におけるi回目の反復は、トレーニング画像セット内の画像のラベルによってポジティブサンプル特徴データサブセット及びネガティブサンプル特徴データサブセットを決定し、このラベルは、ステップ301における従来の方法によって取得された疑似ハードラベルである。疑似ハードラベルは、ワンホットエンコーディング(one-hot)によって処理されたデータであり、すなわち、疑似ハードラベルの数値は、0又は1であるため、疑似ハードラベルには大きな誤差がある。よって、疑似ハードラベルによって決定されるポジティブサンプルサブセット及びネガティブサンプルサブセットにも大きな誤差があるため、i回目の第1の反復後に取得されたi+1回目の第1の反復の第1のトレーニング対象のニューラルネットワークのターゲットドメインでの特徴抽出効果が悪く、ターゲットドメインでの認識正確率が低い。
例えば(例6)、トレーニング画像セット内の画像のラベルは、2つのクラス(張三及び李四)を含む。疑似ハードラベルの数値は0又は1であるため、トレーニング画像セット内の画像における人物オブジェクトは、張三又は李四である。トレーニング画像セット内の画像1における人物オブジェクトは張三であり、画像1の疑似ハードラベルが表すクラスは張三であり、画像2における人物オブジェクトは李四であるが、画像2の疑似ハードラベルが表すクラスは張三であり、画像3における人物オブジェクトは張三であるが、画像3の疑似ハードラベルに表すクラスは李四であるとする。画像1の第1の特徴データセットにおける特徴データは、特徴データaであり、画像2の第1の特徴データセットにおける特徴データは、特徴データbであり、画像3の第1の特徴データセットにおける特徴データは、特徴データcである。特徴データaのクラス内で最も難しい特徴データは、特徴データbであり、特徴データaのクラス外で最も難しい特徴データは、特徴データcである。特徴データa、特徴データb及び特徴データcで決定される第1のハードトリプレット損失を教師としてi回目の第1の反復の第1のトレーニング対象のニューラルネットワークをトレーニングしてi回目の第1の反復の第1のトレーニング対象のニューラルネットワークを調整する。これにより、i回目の第1の反復の第1のトレーニング対象のニューラルネットワークは、画像1から抽出された特徴データと画像2から抽出された特徴データとの類似度を向上させるとともに、画像1から抽出する特徴データと画像2から抽出する特徴データとの類似度を低減させ、i+1回目の第1の反復の第1のトレーニング対象のニューラルネットワークを取得する。画像1における人物オブジェクト(張三)と画像2における人物オブジェクト(李四)は同一人物ではないため、画像1の特徴データと画像2の特徴データとの類似度を向上させると、i+1回目の第1の反復の第1のトレーニング対象のニューラルネットワークが張三又は李四に対する認識正確率が低くなることは明らかである。同様に、画像1における人物オブジェクト(張三)と画像3における人物オブジェクト(張三)は同一人物であるため、画像1の特徴データと画像3の特徴データとの類似度を低下させると、i+1回目の第1の反復の第1のトレーニング対象のニューラルネットワークが張三又は李四に対する認識正確率が低くなることは明らかである。
例えば例6における疑似ハードラベルによる影響を低減するために、本開示の実施例は、ソフトラベルを教師としてi回目の第1の反復の第1のトレーニング対象のニューラルネットワークをトレーニングして第1のソフトトリプレット損失を取得する方法を提供する。第1のソフトトリプレット損失を教師としてi回目の第1の反復の第1のトレーニング対象のニューラルネットワークをトレーニングすることにより、i+1回目の第1の反復の第1のトレーニング対象のニューラルネットワークの認識正確率を向上させ、目標ニューラルネットワークの認識正確率を向上させる。
本開示の実施例に係る別の画像処理方法のフローチャートである図6を参照する。
601.i回目の第1の反復の平均ネットワークによって上記トレーニング画像セットを処理して第2の特徴データセットを取得し、i回目の第1の反復のトレーニング前の対象ネットワークによって上記トレーニング画像セットを処理して第5の特徴データセットを取得する。
602.上記第1の特徴データセット、上記第2の特徴データセット、上記第4の特徴データセット及び上記第5の特徴データセットに基づいて第1のソフトトリプレット損失及び第2のソフトトリプレット損失を取得する。
上記第1の画像の第2の特徴データセットにおける第2の特徴データと、第2の特徴データセット内のポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して第2の類似度を取得し、第2の特徴データと、第2の特徴データセット内のネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して第4の類似度を取得する。上記第1の画像の第5の特徴データセットにおける第4の特徴データと、第5の特徴データセットのポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して第11の類似度を取得し、第4の特徴データと、第5の特徴データセットのネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して第12の類似度を取得する。
本開示の実施例では、異なる特徴データセットのポジティブサンプル特徴データサブセットに含まれる特徴データが異なり、異なる特徴データセットのネガティブサンプル特徴データサブセットに含まれる特徴データも異なることが理解されるべきである。
疑似ハードラベルの数値が0又は1であることにより、トレーニング画像セット内の画像のクラスの分類が「絶対的すぎる」ため、ターゲットドメインでi+1回目の第1の反復の第1のトレーニング対象のニューラルネットワークの特徴抽出効果はよくない。本実施例では、第1の類似度、第2の類似度、第3の類似度、第4の類似度、第9の類似度、第10の類似度、第11の類似度及び第12の類似度をそれぞれ正規化処理し、第1の類似度、第2の類似度、第3の類似度、第4の類似度、第9の類似度、第10の類似度、第11の類似度及び第12の類似度を0から1の間の数値に変換し、正規化処理した後に取得された類似度間の差分に基づいてi回目の第1の反復の第1のトレーニング対象のニューラルネットワークの第1のソフトトリプレット損失及びi回目の第1の反復の第2のトレーニング対象のニューラルネットワークの第2のソフトトリプレット損失を決定する。これにより、ターゲットドメインでi+1回目の第1の反復の第1のトレーニング対象のニューラルネットワークの特徴抽出効果を向上させる。
可能な一実施形態では、第2の類似度と第4の類似度との和を第1の総類似度として取得し、第1の類似度と第3の類似度との和を第2の総類似度として取得し、第9の類似度と第10の類似度との和を第3の総類似度として取得し、第11の類似度と第12の類似度との和を第4の総類似度として取得する。第2の類似度と第1の総類似度との商を算出して第5の類似度を取得し、第4の類似度と第1の総類似度との商を算出して第6の類似度を取得し、第1の類似度と第2の総類似度との商を算出して第7の類似度を取得し、第3の類似度と第2の総類似度との商を算出して第8の類似度を取得し、第9の類似度と第3の総類似度との商を算出して第13の類似度を取得し、第10の類似度と第2の総類似度との商を算出して第14の類似度を取得し、第11の類似度と第4の総類似度との商を算出して第15の類似度を取得し、第12の類似度と第4の総類似度との商を算出して第16の類似度を取得する。第1の類似度、第2の類似度、第3の類似度、第4の類似度、第9の類似度、第10の類似度、第11の類似度及び第12の類似度の正規化処理を完了する。また、第5の類似度及び第6の類似度をi回目の第1の反復の第1のトレーニング対象のニューラルネットワークの教師データ(すなわち、ソフトラベル)としてi回目の第1の反復の第1のトレーニング対象のニューラルネットワークのパラメータを調整し、第15の類似度及び第16の類似度をi回目の第1の反復の第2のトレーニング対象のニューラルネットワークの教師データ(すなわち、ソフトラベル)としてi回目の第1の反復の第2のトレーニング対象のニューラルネットワークのパラメータを調整する。すなわち、第5の類似度と第7の類似度との差分及び第6の類似度と第8の類似度との差分に基づいて第1のソフトトリプレット損失を決定し、第13の類似度と第15の類似度との差分及び第14の類似度と第16の類似度との差分に基づいて第2のソフトトリプレット損失を決定する。
選択可能なように、トレーニング画像セットの各画像の第2の特徴データセットにおけるクラス内で最も難しい特徴データと各画像の第2の特徴データセットにおける特徴データとの類似度、及び第2の特徴データセットにおけるクラス外で最も難しい特徴データと各画像の第2の特徴データセットにおける特徴データとの類似度に基づいて、各画像のi回目の第1の反復の平均ネットワークのソフトトリプレット損失を決定する。トレーニング画像セットの各画像の第5の特徴データセットにおけるクラス内で最も難しい特徴データと各画像の第5の特徴データセットにおける特徴データとの類似度、及び第5の特徴データセットにおけるクラス外で最も難しい特徴データと各画像の第5の特徴データセットにおける特徴データとの類似度に基づいて、各画像のi回目の第1の反復の目標ニューラルネットワークのソフトトリプレット損失を決定する。また、トレーニング画像セットの少なくとも1つの画像のi回目の第1の反復の平均ネットワークのソフトトリプレット損失の平均値を算出して第1のソフトトリプレット損失を取得し、トレーニング画像セットの少なくとも1つの画像のi回目の第1の反復の目標ニューラルネットワークのソフトトリプレット損失の平均値を算出して第2のソフトトリプレット損失を取得する。
第1の類似度、第2の類似度、第3の類似度、第4の類似度、第9の類似度、第10の類似度、第11の類似度及び第12の類似度を正規化処理して取得される0~1の間の大きさの類似度は、疑似ハードラベルよりも実際のデータ分布に近いため、正規化処理された類似度を教師データとすることで、目標ニューラルネットワークの認識正確率を向上させることができる。
例えば、処理対象の画像セットには10枚の画像が含まれている。ステップ401の処理により、処理対象の画像セット内の画像における人物オブジェクトの身元に基づいて処理対象の画像セット内の画像を張三と李四に分ける。含まれる人物オブジェクトの身元の疑似ハードラベルが張三の画像(以下、第1のクラスの画像)及び含まれる人物オブジェクトの身元の疑似ハードラベルが李四の画像(以下、第2のクラスの画像)はそれぞれ5枚ある。しかし、第1のクラスの画像における画像1の人物オブジェクトの実際の身元は、李四であり、第2のクラスの画像における画像2の人物オブジェクトの実際の身元は、張三である。つまり、第1のクラスの画像には、人物オブジェクトの身元が張三である画像が4枚含まれており、人物オブジェクトの身元が李四である画像が1枚含まれている。第1のクラスの画像では、実際のラベルの分布は、[0.8,0.2]であるべきである。[0.8,0.2]は、第1のクラスの画像の総数に対する第1のクラスの画像に含まれる人物オブジェクトの身元が張三である画像の数の割合が0.8であり、第1のクラスの画像の総数に対する第1のクラスの画像に含まれる人物オブジェクトの身元が李四である画像の数の割合が0.2であることを示す。同様に、第2のクラスの画像では、実際のラベルの分布は、[0.2,0.8]であるべきである。[0.2,0.8]は、第2のクラスの画像の総数に対する第2のクラスの画像に含まれる人物オブジェクトの身元が張三である画像の数の割合が0.2であり、第2のクラスの画像の総数に対する第2のクラスの画像に含まれる人物オブジェクトの身元が李四である画像の数の割合が0.8であることを示す。しかし、第1のクラスの画像の疑似ハードラベルが[1,0]であり、第2のクラスの画像の疑似ハードラベルが[0,1]であるため、これは明らかに、第1のクラスの画像の実際のラベルの分布及び第2のクラスの画像の実際のラベルの分布に該当しない。一方、本実施例に係る方法によって取得されるソフトラベルは、0から1の間の数値であり、第1のクラスの画像の実際のラベルの分布及び第2のクラスの画像の実際のラベルの分布により該当するため、ソフトラベルを教師データとしてi回目の反復の第1のトレーニング対象のニューラルネットワーク及びi回目の反復の第2のトレーニング対象のニューラルネットワークをトレーニングすることにより、ターゲットドメインで最終的に取得される目標ニューラルネットワークの特徴抽出効果を向上させることができる。選択可能なように、本開示の実施例における類似度は、ユークリッド距離であってもよいし、コサイン類似度であってもよい。本開示は、これを限定しない。
選択可能なように、i回目の第1の反復の第1のトレーニング対象のニューラルネットワーク、i回目の第1の反復の第2のトレーニング対象のニューラルネットワーク、i回目の第1の反復の目標ニューラルネットワーク及びi回目の第1の反復の平均ニューラルネットワークにトレーニング画像セットを入力する前に、トレーニング画像セット内の画像に対して第1の前処理を行って第1の画像セットを取得し、第1の画像セットをi回目の第1の反復の第1のトレーニング対象のニューラルネットワークに入力して第1の特徴データセットを取得し、第1の画像セットをi回目の第1の反復の目標ニューラルネットワークに入力して第5の特徴データセットを取得することができる。第1の前処理は、消去処理、トリミング処理、反転処理のいずれかを含む。
トレーニング画像セットに対して第1の前処理を行うことにより、トレーニング中に、i回目の第1の反復の第1のトレーニング対象のニューラルネットワーク、i回目の第1の反復の第2のトレーニング対象のニューラルネットワーク、i回目の第1の反復の目標ニューラルネットワーク及びi回目の第1の反復の平均ネットワークに過剰適合が発生する確率を低減することができる。
選択可能なように、トレーニング画像セットに対して第1の前処理を行うとともに、トレーニング画像セットに対して第2の前処理を行って第4の画像セットを取得することができる。第2の前処理は、消去処理、トリミング処理、反転処理のいずれかを含み、第1の前処理と第2の前処理とは異なる。第4の画像セットをi回目の第1の反復の第2のトレーニング対象のニューラルネットワークに入力して第4の特徴データセットを取得し、第4の画像セットをi回目の第1の反復の平均ネットワークに入力して第2の特徴データセットを取得する。
トレーニング画像セットに対して第1の前処理及び第2の前処理を同時に行うことにより、トレーニング中に、i回目の第1の反復の第1のトレーニング対象のニューラルネットワーク、i回目の第1の反復の第2のトレーニング対象のニューラルネットワーク、i回目の第1の反復の目標ニューラルネットワーク及びi回目の第1の反復の平均ネットワークに過剰適合が発生する確率をさらに低減することができる。
例えば(例7)、トレーニング画像セットは、画像1及び画像2を含み、画像1に対してトリミング処理を行って画像3を取得し、画像2に対して消去処理(画像2の任意の領域を消去する)を行って画像4を取得し、画像3及び画像4を第1の画像セットとする。画像1に対して反転処理を行って画像5を取得し、画像2に対してトリミング処理を行って画像6を取得し、画像5及び画像6を第4の画像セットとする。画像3及び画像4をi回目の第1の反復の第1のトレーニング対象のニューラルネットワークに入力して画像3の特徴データ及び画像4の特徴データを含む第1の特徴データセットを取得し、画像3及び画像4をi回目の第1の反復の目標ニューラルネットワークに入力して画像3の特徴データ及び画像4の特徴データを含む第5の特徴データセットを取得し、画像5及び画像6をi回目の第1の反復の第2のトレーニング対象のニューラルネットワークに入力して画像5の特徴データ及び画像6の特徴データを含む第4の特徴データセットを取得し、画像5及び画像6をi回目の第1の反復の平均ネットワークに入力して画像5の特徴データ及び画像6の特徴データを含む第2の特徴データセットを取得する。
トレーニング画像セット内の第1の画像に対して第1の前処理を行って第2の画像を取得し、第1の画像に対して第2の前処理を行って第4の画像を取得し、第2の画像と第4の画像の画像内容は異なるが、第2の画像と第4の画像のラベルは同じである。例7に続いて例を挙げると、画像1のラベル、画像3のラベル及び画像5のラベルはすべて、同じであり、画像2のラベル、画像4のラベル及び画像6のラベルはすべて、同じである。
また、i回目の第1の反復の第1のトレーニング対象のニューラルネットワークによって第2の画像を処理して第1の分類結果を取得し、i回目の第1の反復の目標ニューラルネットワークによって第2の画像を処理して第4の分類結果を取得し、i回目の第1の反復の第2のトレーニング対象のニューラルネットワークによって第4の画像を処理して第3の分類結果を取得し、i回目の第1の反復の平均ネットワークによって第2の画像を処理して第2の分類結果を取得することができる。
i回目の第1の反復の第1のトレーニング対象のニューラルネットワークによって第1の画像セットを処理して取得される第1の特徴データセット内の特徴データは、i回目の第1の反復の第1のトレーニング対象のニューラルネットワークによってトレーニング画像セットを処理して取得される第1の特徴データセット内の特徴データと異なる。このとき、上述したトレーニング画像セット内の画像の第1の特徴データセット(又は第2の特徴データセット又は第4の特徴データセット又は第5の特徴データセット)におけるクラス内で最も難しい特徴データとは、第1の前処理又は第2の前処理が行われた画像の第1の特徴データセット(又は第2の特徴データセット又は第4の特徴データセット又は第5の特徴データセット)におけるクラス内で最も難しい特徴データを意味し、トレーニング画像セット内の画像の第1の特徴データセット(又は第2の特徴データセット又は第4の特徴データセット又は第5の特徴データセット)におけるクラス外で最も難しい特徴データとは、第1の前処理又は第2の前処理が行われた画像の第1の特徴データセット(又は第2の特徴データセット又は第4の特徴データセット又は第5の特徴データセット)におけるクラス外で最も難しい特徴データを意味する。
なお、本開示の実施例における第1のトレーニング対象のニューラルネットワーク、第1のニューラルネットワーク及びi回目の第1の反復の第1のトレーニング対象のニューラルネットワークが同じ構造であるが、パラメータが異なる。第2のトレーニング対象のニューラルネットワーク、第2のニューラルネットワーク及びi回目の第1の反復の第2のトレーニング対象のニューラルネットワークが同じ構造であるが、パラメータが異なる。対象ネットワーク及びi回目の第1の反復の目標ニューラルネットワークが同じ構造であるが、パラメータが異なる。平均ネットワーク及びi回目の第1の反復のトレーニング前の平均ニューラルネットワークが同じ構造であるが、パラメータが異なる。図4に示すi回目の第1の反復の第1のトレーニング対象のニューラルネットワークの出力は、第1の分類結果及び第1の特徴データセットを含み、i回目の第1の反復の目標ニューラルネットワークの出力は、第4の分類結果及び第5の特徴データセットを含み、i回目の第1の反復の第2のトレーニング対象のニューラルネットワークの出力は、第3の分類結果及び第4の特徴データセットを含み、i回目の第1の反復の平均ネットワークの出力は、第2の分類結果及び第2の特徴データセットを含む。
選択可能なように、本開示に係る発明を実行する装置のハードウェアリソースが不十分であるため、1回の第1の反復又は第2の反復においてトレーニング画像セットの少なくとも1つの画像を処理しきれない場合、トレーニング画像セットからサンプリングしてサンプル画像セットを取得し、サンプル画像セットを1回の第1の反復又は1回の第2の反復のトレーニングデータとすることができる。
603.上記第1のハード分類損失、上記第1のソフト分類損失、上記第1のソフトトリプレット損失及び上記第1のハードトリプレット損失に基づいて第1の損失を決定し、上記第2のハード分類損失、上記第2のソフト分類損失、上記第2のソフトトリプレット損失及び上記第2のハードトリプレット損失に基づいて第2の損失を決定する。
第1のハードトリプレット損失と、第1のハード分類損失と、第1のソフトトリプレット損失と、第1のソフト分類損失とを重み付け加算して第1の損失を取得し、第2のハードトリプレット損失と、第2のハード分類損失と、第2のソフトトリプレット損失と、第2のソフト分類損失とを重み付け加算して第2の損失を取得する。重み付け加算の重みは、実際の使用状況に応じて調整できる。本開示は、これを限定しない。
本実施例に係る技術方案を適用する場合、第1の特徴データセット、第2の特徴データセット、第4の特徴データセット及び第5の特徴データセットに基づいてソフトラベルを取得し、ソフトラベルを教師としてi回目反復の第1のトレーニング対象のニューラルネットワーク及びi回目反復の第2のトレーニング対象のニューラルネットワークをトレーニングすることにより、第1のソフトトリプレット損失及び第2のソフトトリプレット損失を取得することができる。第1のソフトトリプレット損失に基づいてi回目反復の第1のトレーニング対象のニューラルネットワークのパラメータを調整してi+1回目の反復の第1のトレーニング対象のニューラルネットワークを取得し、第2のソフトトリプレット損失に基づいてi回目の反復の第2のトレーニング対象のニューラルネットワークを調整する。これにより、ターゲットドメインでi+1回目の反復の第1のトレーニング対象のニューラルネットワークの認識正確率及びターゲットドメインでi+1回目の反復の第2のトレーニング対象のニューラルネットワークの特徴抽出効果を向上させ、ターゲットドメインで目標ニューラルネットワークの認識正確率を向上させることができる。
本開示の実施例はさらに、実施例で取得される処理対象の画像の目標特徴データに基づいて画像検索を行う適用場面を提供する。すなわち、上記目標特徴データでデータベースを検索して、上記目標特徴データにマッチングする特徴データを有する画像を目標画像として取得する。
上記データベースは、処理対象の画像を取得する前に構築することができる。データベースは、画像及び画像の特徴データを含む。画像の特徴データは、目標ニューラルネットワークがターゲットドメインで実行するタスクに関わる。例えば、目標ニューラルネットワークを用いてターゲットドメイン内の画像における人物オブジェクトの身元を認識する。画像の特徴データは、画像における、人物オブジェクトの服飾属性、外見特徴及び人物オブジェクトの身元を認識するための他の特徴を含む人物オブジェクトの特徴を含む。服飾属性は、人体を装飾する物品の特徴(例えば上着の色、ズボンの色、ズボンの長さ、帽子のスタイル、靴の色、傘を差すか否か、鞄の種類、マスクの有無、マスクの色)のうちの少なくとも1つを含む。外見特徴は、体型、性別、髪型、髪の色、年齢層、メガネの着用の有無、胸に何かを抱くか否かなどを含む。人物の身元を認識するための他の特徴は、姿勢、画角、歩幅、環境の明るさを含む。また例えば、目標ニューラルネットワークを用いて、ターゲットドメイン内の画像にはリンゴ、梨、桃のいずれかの果物が含まれているかを認識し、画像の特徴データはリンゴの特徴情報又は梨の特徴情報又は桃の特徴情報を含む。
データベース内の各画像は特徴データを有するので、目標特徴データでデータベースを検索して、データベースから目標特徴データにマッチングする特徴データを決定し、すなわち、目標特徴データとデータベース内の画像の特徴データとの類似度を決定し、類似度が閾値に達する画像の特徴データを目標特徴データにマッチングする特徴データとして、目標画像を決定する。なお、目標画像の数は、1枚であってもよいし、複数枚であってもよいことは理解されるべきである。
当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの記載順序は、実行順序を厳密に限定して実施の過程を限定するものではなく、各ステップの実行順序がその機能と内部の論理によって具体的に決定されることが理解すべきである。
以上、本開示の実施例の方法を詳しく説明したが、以下、本開示の実施例の装置を提供する。
図7を参照すると、図7は、本開示の実施例に係る画像処理装置の構造模式図である。この装置1は、処理対象の画像を取得するための取得ユニット11と、目標ニューラルネットワークを用いて前記処理対象の画像に対して特徴抽出処理を行って前記処理対象の画像の目標特徴データを取得するための特徴抽出処理ユニット12、及び検索ユニット13を備え、前記目標ニューラルネットワークのパラメータは、第1のニューラルネットワークのパラメータの時系列平均値であり、前記第1のニューラルネットワークは、トレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得され、前記平均ネットワークのパラメータは、第2のニューラルネットワークのパラメータの時系列平均値であり、前記第2のニューラルネットワークは、前記トレーニング画像セット及び前記目標ニューラルネットワークを用いて教師ありトレーニングを行って取得される。
可能な一実施形態では、前記第1のニューラルネットワークがトレーニング画像セット及び平均ネットワークを用いて教師ありトレーニングを行って取得されることは、前記トレーニング画像セット、第1のトレーニング対象のニューラルネットワーク及び第2のトレーニング対象のニューラルネットワークを取得することと、前記第1のトレーニング対象のニューラルネットワーク及び前記第2のトレーニング対象のニューラルネットワークに対してx(xは、正の整数)回の第1の反復を実行して前記第1のニューラルネットワーク及び第2のニューラルネットワークを取得することとを含み、前記x回の第1の反復のうちi(iは、前記x以下の正の整数)回目の第1の反復は、前記トレーニング画像セット及びi回目の第1の反復の前記平均ネットワークの出力を教師としてi回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークをトレーニングしてi+1回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークを取得し、前記トレーニング画像セット及びi回目の第1の反復の前記目標ニューラルネットワークの出力を教師としてi回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークをトレーニングしてi+1回目の第1の反復の前記第2のトレーニング対象のニューラルネットワークを取得することを含み、前記目標ニューラルネットワークのパラメータが第1のニューラルネットワークのパラメータの時系列平均値であることは、i-1回目の第1の反復の前記目標ニューラルネットワークのパラメータ及び前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークのパラメータに基づいて前記i回目の第1の反復の前記目標ニューラルネットワークのパラメータを決定することと、前記i=1の場合、前記i-1回目の第1の反復の前記目標ニューラルネットワークのパラメータは、前記第1のトレーニング対象のニューラルネットワークのパラメータと同じであることとを含む。
別の可能な実施形態では、前記トレーニング画像セット及びi回目の平均ネットワークの出力を教師としてi回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークをトレーニングしてi+1回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークを取得することは、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第1の特徴データセットを取得し、前記i回目の第1の反復の前記平均ネットワークによって前記トレーニング画像セットを処理して第2の特徴データセットを取得することと、前記第1の特徴データセット及び前記第2の特徴データセットに基づいて第1のソフトトリプレット損失を取得することと、前記トレーニング画像セット及び前記第1のソフトトリプレット損失を教師として前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークをトレーニングして前記i+1回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークを取得することとを含む。
別の可能な実施形態では、前記第1の特徴データセット及び前記第2の特徴データセットに基づいて第1のソフトトリプレット損失を取得することは、前記トレーニング画像セット内の第1の画像の前記第1の特徴データセットにおける第1の特徴データと、前記第1の特徴データセット内の、前記第1の画像の第1のラベルと同じラベルを有する画像の特徴データを含むポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第1の類似度を取得することと、前記第1の画像の前記第2の特徴データセットにおける第2の特徴データと、前記第2の特徴データセット内の前記ポジティブサンプル特徴データサブセットにおける特徴データとの最小類似度を決定して、第2の類似度を取得することと、前記第1の特徴データと、前記第1の特徴データセット内の、前記第1のラベルと異なるラベルを有する画像の特徴データを含むネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第3の類似度を取得することと、前記第2の特徴データと、前記第2の特徴データセット内の前記ネガティブサンプル特徴データサブセットにおける特徴データとの最大類似度を決定して、第4の類似度を取得することと、前記第1の類似度、前記第2の類似度、前記第3の類似度及び前記第4の類似度をそれぞれ正規化処理して、第5の類似度、第6の類似度、第7の類似度及び第8の類似度を取得することと、前記第5の類似度、前記第6の類似度、前記第7の類似度及び前記第8の類似度に基づいて前記第1のソフトトリプレット損失を取得することとを含む。
別の可能な実施形態では、前記第1の類似度、前記第2の類似度、前記第3の類似度及び前記第4の類似度をそれぞれ正規化処理して第5の類似度、第6の類似度、第7の類似度及び第8の類似度を取得することは、前記第2の類似度と前記第4の類似度との和を第1の総類似度として取得し、前記第1の類似度と前記第3の類似度との和を第2の総類似度として取得することと、前記第2の類似度と前記第1の総類似度との商を前記第5の類似度として取得し、前記第4の類似度と前記第1の総類似度との商を前記第6の類似度として取得することと、前記第1の類似度と前記第2の総類似度との商を前記第7の類似度として取得し、前記第3の類似度と前記第2の総類似度との商を前記第8の類似度として取得することとを含む。
別の可能な実施形態では、前記トレーニング画像セット及び前記第1のソフトトリプレット損失を教師として前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークをトレーニングして前記i+1回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークを取得することは、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記第1の画像を処理して第1の分類結果を取得することと、前記第1の分類結果、前記第1のラベル及び前記第1のソフトトリプレット損失に基づいて前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークの第1の損失を決定することと、前記第1の損失に基づいて前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークのパラメータを調整して前記i+1回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークを取得することとを含む。
別の可能な実施形態では、前記第1の分類結果、前記第1のラベル及び前記第1のソフトトリプレット損失に基づいて前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークの第1の損失を決定することは、前記第1の分類結果と前記第1のラベルとの差分に基づいて第1のハード分類損失を決定することと、前記第1のハード分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定することとを含む。
別の可能な実施形態では、前記第1のハード分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定する前に、前記i回目の第1の反復の前記平均ネットワークによって前記第1の画像を処理して第2の分類結果を取得し、前記第1の分類結果と前記第2の分類結果との差分に基づいて第1のソフト分類損失を決定し、前記第1のハード分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定することは、前記第1のハード分類損失、前記第1のソフト分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定することを含む。
別の可能な実施形態では、前記第1のハード分類損失、前記第1のソフト分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定する前に、前記第1の類似度及び前記第3の類似度に基づいて第1のハードトリプレット損失を決定し、前記第1のハード分類損失、前記第1のソフト分類損失及び前記第1のソフトトリプレット損失に基づいて前記第1の損失を決定することは、前記第1のハード分類損失、前記第1のソフト分類損失、前記第1のソフトトリプレット損失及び前記第1のハードトリプレット損失に基づいて前記第1の損失を決定することを含む。
別の可能な実施形態では、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記トレーニング画像セット内の第1の画像を処理して第1の分類結果を取得することは、前記トレーニング画像セットに対して消去処理、トリミング処理、反転処理のいずれかを含む第1の前処理を行って第1の画像セットを取得することと、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記第1の画像セット内の第2の画像を処理して前記第1の分類結果を取得することとを含み、前記第2の画像は、前記第1の画像に対して前記第1の前処理を行って取得され、前記第2の画像の前記第1の特徴データセットにおける特徴データは、前記第1の画像の前記第1の特徴データセットにおけるデータと同じである。
別の可能な実施形態では、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記トレーニング画像セットを処理して第1の特徴データセットを取得することは、前記i回目の第1の反復の前記第1のトレーニング対象のニューラルネットワークによって前記第1の画像セットを処理して前記第1の特徴データセットを取得することを含む。
別の可能な実施形態では、前記取得ユニット11は具体的に、処理対象の画像セット及び第3のニューラルネットワークを取得することと、前記第3のニューラルネットワークに対してy(yは、正の整数)回の第2の反復を実行して前記トレーニング画像セットを取得することとに用いられ、前記y回の第2の反復のうちt(tは、前記yよりも小さい正の整数)回目の第2の反復は、前記処理対象の画像セットからサンプリングして第2の画像セットを取得し、t回目の第2の反復の第3のニューラルネットワークによって前記第2の画像セット内の画像を処理して前記第2の画像セット内の画像の特徴データを含む第3の特徴データセット及び前記第2の画像セット内の画像の分類結果を含む分類結果セットを取得することと、前記第3の特徴データセット内の特徴データをクラスタリング処理して前記第3の特徴データセット内の特徴データのラベルを決定し、前記第3の特徴データセット内の特徴データのラベルを前記第2の画像セット内の対応する画像に付加して第3の画像セットを取得することと、前記分類結果セット内の分類結果と前記第3の画像セット内の画像のラベルとの差分に基づいて第3の損失を決定することと、前記第3の損失に基づいて前記t回目の第2の反復の第3のニューラルネットワークのパラメータを調整してt+1回目の第2の反復の第3のニューラルネットワークのパラメータを取得することとを含む。
別の可能な実施形態では、前記装置は、前記目標特徴データでデータベースを検索して、前記目標特徴データにマッチングする特徴データを有する画像を目標画像として取得するための検索ユニット13をさらに備える。
本実施例では、第1のニューラルネットワークのパラメータの時系列平均値及び第2のニューラルネットワークの時系列平均値を決定して目標ニューラルネットワークのパラメータ及び平均ネットワークのパラメータをそれぞれ取得し、目標ニューラルネットワークの出力を教師として第2のニューラルネットワークをトレーニングし、平均ネットワークの出力を教師として第1のニューラルネットワークをトレーニングして、目標ニューラルネットワークをトレーニングする。これにより、トレーニング効果を向上させることができる。また、目標ニューラルネットワークを用いてターゲットドメインで関連する認識タスクを実行するとき、情報がより豊富な目標特徴データを抽出できる。当該情報は、ターゲットドメインでの認識正確率を向上させることができる。
いくつかの実施例において、本開示の実施例による装置の機能又は手段は、上記方法実施例に記載の方法を実行するために用いられる。具体的な実施は上記方法実施例の記載を参照すれば明らかになり、簡潔さのため、詳細な説明は省略する。
図8は、本開示の実施例に係る画像処理装置のハードウェア構造模式図である。この画像処理装置2は、プロセッサ21と、メモリ22と、入力装置23と、出力装置24とを備える。プロセッサ21、メモリ22、入力装置23及び出力装置24は、コネクタを介して結合され、このコネクタは、様々なインターフェース、伝送ラインやバスなどを含み、本開示の実施例は、これを限定しない。本開示の各実施例では、結合とは、特定の手段による相互接続を意味し、直接的に接続されること又は他の装置を介して間接的に接続される(例えば様々なインターフェース、伝送ライン、バスなどを介して接続することができる)ことを含むことは理解されるべきである。
プロセッサ21は、1つ以上のグラフィックプロセッサ(graphics processing unit、GPU)であってもよい。プロセッサ21が1つのGPUである場合、当該GPUは、シングルコアGPUであってもよいし、マルチコアGPUであってもよい。プロセッサ21は、複数のGPUからなるプロセッサ群であり、複数のプロセッサ同士は、1つ以上のバスを介して互いに結合されていることを選択可能であっても良い。プロセッサはさらに、他のタイプのプロセッサなどことを選択可能であっても良い、本開示の実施例は、これに限定されない。
メモリ22は、コンピュータプログラム命令、及び本開示の方案を実行するためのプログラムコードを含む様々なコンピュータプログラムコードを記憶するために使用でき。メモリは、ランダムアクセスメモリ(random access memory、RAM)、リードオンリーメモリ(read-only memory、ROM)、消去可能なプログラマブルリードオンリーメモリ(erasable programmable read only memory、EPROM)、又はコンパクトディスクリードオンリーメモリ(compact disc read-only memory、CD-ROM)を選択可能に含むが、これらに限定されず、当該メモリは関連命令及びデータのために使用される。
入力装置23は、データ及び/又は信号を入力するためのものであり、出力装置24は、データ及び/又は信号を出力するためのものである。出力装置23及び入力装置24は、独立したデバイスであってもよいし、一体のデバイスであってもよい。
本開示の実施例では、メモリ22は、関連する命令を記憶するために用いることができるだけでなく、関連画像を記憶するために用いることもでき、例えば当該メモリ22は、入力装置23により取得された検索対象ニューラルネットワークを記憶するために用いることができ、又は当該メモリ22は、さらにプロセッサ21により検索して得られた目標ニューラルネットワークなどを記憶するために用いることができ、本開示の実施例は、当該メモリに具体的に記憶されたデータを限定するものではないと理解することができる。
図8は、画像処理装置の簡略化された設計のみを示していることが理解されるべきである。実際の適用において、画像処理装置はさらに、任意の数の入力/出力装置、プロセッサ、メモリなど必要な他の素子をそれぞれ含んでもよいが、これらに限定されない。本開示の実施例を実施できる画像処理装置はすべて、本開示の技術的範囲内であると理解することができる。
当業者であれば、本明細書に開示された実施例に関連して説明された様々な例示的なユニット及びアルゴリズムステップは、電子ハードウェア、又はコンピュータソフトウェアと電子ハードウェアとの組み合わせで実現され得ることを認識するであろう。これらの機能がハードウェアで実行されるかソフトウェアで実行されるかは、技術方案の特定の応用や設計制約条件に依存する。当業者は特定の応用ごとに異なる方法を用いて説明した機能を実現することができるが、この実現は本開示の範囲を超えているとは考えられない。
当業者には明らかなように、説明の容易さと簡潔さのために、上述したシステム、装置及びユニットの具体的な動作過程は、前述した方法の実施例における対応の過程を参照することができ、ここでは説明を省略する。当業者には明らかなように、本開示の各実施例はそれぞれに重点を置いて説明し、説明の容易さと簡潔さのために、異なる実施例において、同一又は類似の部分は説明が省略されている場合があり、したがって、ある実施例において説明されない又は詳細に説明されない部分は他の実施例の記載を参照することができる。
本開示によって提供されるいくつかの実施例において、開示されたシステム、装置及び方法は、他の方式によって実現されることが理解すべきである。例えば、上述した装置の実施例は例示的なものにすぎず、例えば、前記ユニットの分割は論理的な機能分割のみであり、実際に実現される場合には別の分割方式があってもよく、例えば、複数のユニット又はコンポーネントを集積したり、別のシステムに集積したり、一部の特徴を無視したり、実行しなかったりしてもよい。別の点として、表示又は議論された相互間の結合又は直接結合又は通信接続は、いくつかのインタフェース、装置又はユニットを介した間接的な結合又は通信接続であってもよく、電気的、機械的又は他の形態であってもよい。
分離部材として説明した前記ユニットは物理的に分離されていてもよいし、物理的に分離されていなくてもよく、ユニットとして表示される部材は物理的なユニットであってもよいし、物理的なユニットでなくてもよく、即ち1つの場所にあってもよいし、複数のネットワークユニットに分散されていてもよい。実際の需要に応じてその中の一部又は全部のユニットを選択して本実施例の手段の目的を達成することができる。
また、本開示の各実施例における各機能ユニットは、1つの処理ユニットに集積されていてもよいし、各処理ユニットが個別に物理的に存在していてもよいし、2つ以上の処理ユニットが1つの処理ユニットに集積されていてもよい。
上述した実施例において、ソフトウェア、ハードウェア、ファームウェア、又はそれらの組み合わせにより、その全部又は一部を実現するようにしてもよい。ソフトウェアを用いて実現する場合には、その全部又は一部をコンピュータプログラム製品として実現してもよい。前記コンピュータプログラム製品は1つ以上のコンピュータ命令を含む。コンピュータ上で前記コンピュータプログラム命令がロードされて実行されると、その全部又は一部は、本開示の実施例に記載されたフロー又は機能を生成する。前記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラム可能な装置であってもよい。前記コンピュータ命令は、コンピュータ読取可能記憶媒体に記憶されてもよいし、前記コンピュータ読取可能記憶媒体を介して伝送されてもよい。前記コンピュータ命令は、1つのウェブサイト、コンピュータ、サーバ、又はデータセンタから、有線(例えば、同軸ケーブル、光ファイバ、デジタル加入者線(digital subscriber line、DSL))又は無線(例えば、赤外線、無線、マイクロ波など)により、別のウェブサイト、コンピュータ、サーバ、又はデータセンタへ伝送されてもよい。前記コンピュータ読取可能記憶媒体は、コンピュータがアクセス可能な任意の利用可能な媒体であってもよいし、1つ以上の利用可能な媒体が集積されたサーバ、データセンタなどのデータ記憶装置であってもよい。前記利用可能な媒体は、磁気媒体(例えば、フロッピーディスク、ハードディスク、磁気テープ)、光媒体(例えば、デジタルユニバーサルディスク(digital versatile disc、DVD))、又は半導体媒体(例えば、ソリッドステートドライブ(solid state disk、SSD))などであってもよい。
当業者は上記実施例の方法を実現するフローの全部又は一部を理解することができ、当該フローはコンピュータプログラムによって関連するハードウェアに命令して完成することができ、当該プログラムはコンピュータ読取可能記憶媒体に記憶されて、当該プログラムが実行されるとき、上記各方法の実施例のようなフローを含むことができる。また、前述した記憶媒体には、リードオンリーメモリ(read-only memory、ROM)又はランダムアクセスメモリ(random access memory、RAM)、磁気ディスク、光ディスクなどのプログラムコードを記憶可能な各種媒体が含まれる。
本開示は、2019年9月24日に中国特許庁に提出された、第201910905445.7で、発明の名称が「画像処理方法及び関連装置」である中国特許出願の優先権を主張し、その全ての内容は援用することによって本開示に組み込まれる。
別の可能な一実施形態では、前記第9の類似度、前記第10の類似度、前記第11の類似度及び前記第12の類似度をそれぞれ正規化処理して第13の類似度、第14の類似度、第15の類似度及び第16の類似度を取得することは、前記第9の類似度と前記第10の類似度との和を第3の総類似度として取得し、前記第11の類似度と前記第12の類似度との和を第4の総類似度として取得することと、前記第9の類似度を前記第3の総類似度で除算した商を前記第13の類似度として取得し、前記第10の類似度を前記第3の総類似度で除算した商を前記第14の類似度として取得することと、前記第11の類似度を前記第4の総類似度で除算した商を前記第15の類似度として取得し、前記第12の類似度を前記第4の総類似度で除算した商を前記第16の類似度として取得することとを含む。
別の可能な一実施形態では、前記第1の類似度、前記第2の類似度、前記第3の類似度及び前記第4の類似度をそれぞれ正規化処理して第5の類似度、第6の類似度、第7の類似度及び第8の類似度を取得することは、前記第2の類似度と前記第4の類似度との和を第1の総類似度として取得し、前記第1の類似度と前記第3の類似度との和を第2の総類似度として取得することと、前記第2の類似度を前記第1の総類似度で除算した商を前記第5の類似度として取得し、前記第4の類似度を前記第1の総類似度で除算した商を前記第6の類似度として取得することと、前記第1の類似度を前記第2の総類似度で除算した商を前記第7の類似度として取得し、前記第3の類似度を前記第2の総類似度で除算した商を前記第8の類似度として取得することとを含む。
別の可能な一実施形態では、前記第9の類似度、前記第10の類似度、前記第11の類似度及び前記第12の類似度をそれぞれ正規化処理して第13の類似度、第14の類似度、第15の類似度及び第16の類似度を取得することとは、前記第9の類似度と前記第10の類似度との和を第3の総類似度として取得し、前記第11の類似度と前記第12の類似度との和を第4の総類似度として取得することと、前記第9の類似度を前記第3の総類似度で除算した商を前記第13の類似度として取得し、前記第10の類似度を前記第3の総類似度で除算した商を前記第14の類似度として取得することと、前記第11の類似度を前記第4の総類似度で除算した商を前記第15の類似度として取得し、前記第12の類似度を前記第4の総類似度で除算した商を前記第16の類似度として取得することとを含む。
別の可能な実施形態では、前記第1の類似度、前記第2の類似度、前記第3の類似度及び前記第4の類似度をそれぞれ正規化処理して第5の類似度、第6の類似度、第7の類似度及び第8の類似度を取得することは、前記第2の類似度と前記第4の類似度との和を第1の総類似度として取得し、前記第1の類似度と前記第3の類似度との和を第2の総類似度として取得することと、前記第2の類似度を前記第1の総類似度で除算した商を前記第5の類似度として取得し、前記第4の類似度を前記第1の総類似度で除算した商を前記第6の類似度として取得することと、前記第1の類似度を前記第2の総類似度で除算した商を前記第7の類似度として取得し、前記第3の類似度を前記第2の総類似度で除算した商を前記第8の類似度として取得することとを含む。