JP2022516518A

JP2022516518A - ニューラルネットワークをトレーニングする方法及び装置、画像を処理する方法及び装置

Info

Publication number: JP2022516518A
Application number: JP2021538254A
Authority: JP
Inventors: 江帆韓; 平羅; 暁剛王
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-05-21
Filing date: 2019-10-30
Publication date: 2022-02-28
Also published as: SG11202106979WA; CN113743535A; US20210326708A1; TW202111609A; CN110210535A; TWI759722B; CN113743535B; WO2020232977A1; CN110210535B

Abstract

本開示は、ニューラルネットワークをトレーニングする方法及び装置、画像を処理する方法及び装置に関する。このトレーニング方法は、ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得ることと、前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングすることと、を含む。本開示の実施例は、初期と校正カテゴリーラベルを共にニューラルネットワークのトレーニング過程の教師として、トレーニング過程とネットワーク構造を簡潔化することができる。【選択図】図１

Description

本開示は、コンピュータ技術に関し、特に、ニューラルネットワークをトレーニングする方法及び装置、画像を処理する方法及び装置に関する。

人工知能技術の持続的な発展に伴って、機械学習（特に深層学習）はコンピュータビジョン等の複数の分野で優れた効果を遂げている。現在の機械学習（深層学習）は、大規模で精確にラベリングされたデータ集合には強い依存性がある。

本開示は、ニューラルネットワークのトレーニング及び画像処理の技術手段を提供する。

本開示の一方面によれば、ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得ることと、前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングすることと、を含むニューラルネットワークをトレーニングする方法を提供する。

可能な一実施形態では、前記ニューラルネットワークは、特徴抽出ネットワークと分類ネットワークを含み、且つＮ個のトレーニング状態を含み、Ｎが１より大きい整数であり、ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得ることは、前記Ｎ個のトレーニング状態のうちの１つである第ｉ状態（０≦ｉ＜Ｎ）の特徴抽出ネットワークによって目標画像に対して特徴抽出を行って、前記目標画像の第ｉ状態における第１特徴を得ることとり、第ｉ状態の分類ネットワークによって前記目標画像の第ｉ状態における第１特徴を分類して、前記目標画像の第ｉ状態における分類予測結果を得ることと、を含む。

可能な一実施形態では、前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングすることは、第ｉ状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第ｉ状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における総損失を決定することと、前記第ｉ状態における総損失に基づいて、第ｉ状態のニューラルネットワークのネットワークパラメータを調整して、第ｉ＋１状態のニューラルネットワークを得ることと、を含む。

可能な一実施形態では、前記方法は、第ｉ状態の特徴抽出ネットワークによって、トレーニング集合内のサンプル画像のＫ個のカテゴリー（Ｋが１より大きい整数）のうちの１つであるｋ番目のカテゴリーの複数のサンプル画像に対して特徴抽出を行って、前記複数のサンプル画像の第ｉ状態における第２特徴を得ること、前記ｋ番目のカテゴリーの複数のサンプル画像の第ｉ状態における第２特徴に対してクラスタリング処理を行って、前記ｋ番目のカテゴリーの第ｉ状態におけるクラスタ原型特徴を決定することと、Ｋ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴及び前記目標画像の第ｉ状態における第１特徴に基づいて、前記目標画像の第ｉ状態における校正カテゴリーラベルを決定することと、を更に含む。

可能な一実施形態では、前記Ｋ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴及び前記目標画像の第ｉ状態における第１特徴に基づいて、前記目標画像の第ｉ状態における校正カテゴリーラベルを決定することは、前記目標画像の第ｉ状態における第１特徴とＫ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴との間の第１特徴類似度をそれぞれ取得することと、第１特徴類似度の最大値に対応するクラスタ原型特徴の所属するカテゴリーによって、前記目標画像の第ｉ状態における校正カテゴリーラベルを決定することと、を含む。

可能な一実施形態では、各カテゴリーの第ｉ状態におけるクラスタ原型特徴は、複数のクラスタ原型特徴を含み、前記目標画像の第ｉ状態における第１特徴とＫ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴との間の第１特徴類似度をそれぞれ取得することは、前記第ｉ状態における第１特徴とｋ番目のカテゴリーの第ｉ状態における複数のクラスタ原型特徴との間の第２特徴類似度を取得することと、前記第２特徴類似度に基づいて、前記第ｉ状態における第１特徴とｋ番目のカテゴリーの第ｉ状態におけるクラスタ原型特徴との間の第１特徴類似度を決定するステップと、を含む。

可能な一実施形態では、前記ｋ番目のカテゴリーの第ｉ状態におけるクラスタ原型特徴は、前記ｋ番目のカテゴリーの複数のサンプル画像の第ｉ状態における第２特徴のクラスタ中心を含む。

可能な一実施形態では、第ｉ状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第ｉ状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における総損失を決定することは、前記第ｉ状態における分類予測結果及び前記目標画像の初期カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における第１損失を決定することと、前記第ｉ状態における分類予測結果及び前記目標画像の第ｉ状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における第２損失を決定することと、前記第ｉ状態における第１損失と前記第ｉ状態における第２損失に基づいて、前記ニューラルネットワークの第ｉ状態における総損失を決定することと、を含む。

本開示の別の方面によれば、上記方法によってトレーニングして得られたニューラルネットワークを含むニューラルネットワークに被処理画像を入力して分類処理して、画像分類結果を得ることを含む画像処理方法を提供する。

本開示の別の方面によれば、ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得るための予測分類モジュールと、前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングするためのネットワークトレーニングモジュールと、を含むニューラルネットワークをトレーニングする装置を提供する。

可能な一実施形態では、前記ニューラルネットワークは、特徴抽出ネットワークと分類ネットワークを含み、且つＮ個のトレーニング状態を含み、Ｎが１より大きい整数であり、前記予測分類モジュールは、前記Ｎ個のトレーニング状態のうちの１つである第ｉ状態（０≦ｉ＜Ｎ）の特徴抽出ネットワークによって目標画像に対して特徴抽出を行って、前記目標画像の第ｉ状態における第１特徴を得るための特徴抽出サブモジュールと、第ｉ状態の分類ネットワークによって前記目標画像の第ｉ状態における第１特徴を分類して、前記目標画像の第ｉ状態における分類予測結果を得るための結果決定サブモジュールと、を含む。

可能な一実施形態では、前記ネットワークトレーニングモジュールは、第ｉ状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第ｉ状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における総損失を決定するための損失決定モジュールと、前記第ｉ状態における総損失に基づいて、第ｉ状態のニューラルネットワークのネットワークパラメータを調整して、第ｉ＋１状態のニューラルネットワークを得るためのパラメータ調整モジュールと、を含む。

可能な一実施形態では、前記装置は、第ｉ状態の特徴抽出ネットワークによって、トレーニング集合内のサンプル画像のＫ個のカテゴリー（Ｋが１より大きい整数）のうちの１つであるｋ番目のカテゴリーの複数のサンプル画像に対して特徴抽出を行って、前記複数のサンプル画像の第ｉ状態における第２特徴を得るためのサンプル特徴抽出モジュールと、前記ｋ番目のカテゴリーの複数のサンプル画像の第ｉ状態における第２特徴に対してクラスタリング処理を行って、前記ｋ番目のカテゴリーの第ｉ状態におけるクラスタ原型特徴を決定するためのクラスタリングモジュールと、Ｋ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴及び前記目標画像の第ｉ状態における第１特徴に基づいて、前記目標画像の第ｉ状態における校正カテゴリーラベルを決定するためのラベル決定モジュールと、を更に含む。

可能な一実施形態では、前記ラベル決定モジュールは、前記目標画像の第ｉ状態における第１特徴とＫ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴との間の第１特徴類似度をそれぞれ取得するための類似度取得サブモジュールと、第１特徴類似度の最大値に対応するクラスタ原型特徴の所属するカテゴリーによって、前記目標画像の第ｉ状態における校正カテゴリーラベルを決定するためのラベル決定サブモジュールと、を含む。

可能な一実施形態では、各カテゴリーの第ｉ状態におけるクラスタ原型特徴は、複数のクラスタ原型特徴を含み、前記類似度取得サブモジュールは、前記第ｉ状態における第１特徴とｋ番目のカテゴリーの第ｉ状態における複数のクラスタ原型特徴との間の第２特徴類似度を取得することと、前記第２特徴類似度に基づいて、前記第ｉ状態における第１特徴とｋ番目のカテゴリーの第ｉ状態におけるクラスタ原型特徴との間の第１特徴類似度を決定することと、に用いられる。

可能な一実施形態では、損失決定モジュールは、前記第ｉ状態における分類予測結果及び前記目標画像の初期カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における第１損失を決定するための第１損失決定サブモジュールと、前記第ｉ状態における分類予測結果及び前記目標画像の第ｉ状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における第２損失を決定するための第２損失決定サブモジュールと、前記第ｉ状態における第１損失と前記第ｉ状態における第２損失に基づいて、前記ニューラルネットワークの第ｉ状態における総損失を決定するための総損失決定サブモジュールと、を含む。

本開示の別の方面によれば、上記装置によってトレーニングして得られたニューラルネットワークを含むニューラルネットワークに被処理画像を入力して分類処理して、画像分類結果を得るための画像分類モジュールを含む画像処理装置を提供する。

本開示の別の方面によれば、プロセッサと、プロセッサが実行可能コマンドを記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶されたコマンドを呼び出して上記方法を実行するように構成される電子機器を提供する。

本開示の別の方面によれば、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると、上記方法を実現させるコンピュータ読取可能記憶媒体を提供する。

本開示の一方面によれば、コンピュータ読取可能コードを含み、前記コンピュータ読取可能コードは、電子機器中で動作すると、前記電子機器のプロセッサに上記方法を実現するためのコマンドを実行させるコンピュータプログラムを提供する。

本開示の実施例によれば、目標画像の初期カテゴリーラベルと校正カテゴリーラベルでニューラルネットワークのトレーニング過程の教師として、ニューラルネットワークの最適化方向を共に決定することにより、トレーニング過程とネットワーク構造を簡潔化することができる。

以上の一般説明と以下の詳細説明は解釈するための例示的なものに過ぎず、本開示を制限するものではないことを理解すべきである。以下、図面を参照しながら例示的な実施例について詳細な説明することにより、本開示の他の特徴および方面はより明確になる。

明細書に組み込まれ且つ明細書の一部を構成する図面は本開示に合致する実施例を示し、明細書と共に本開示の技術的手段を説明するためのものである。

本開示の実施例におけるニューラルネットワークをトレーニングする方法のフローチャートを示す。本開示の実施例におけるニューラルネットワークをトレーニングする方法の応用例の模式図を示す。本開示の実施例におけるニューラルネットワークをトレーニングする装置のブロック図を示す。本開示の実施例における電子機器のブロック図を示す。本開示の実施例における電子機器のブロック図を示す。

以下に図面を参照しながら本開示の様々な例示的実施例、特徴および方面を詳細に説明する。図面における同じ符号は同じまたは類似の機能の要素を表す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を作る必要がない。

ここで「例示的」という用語は、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」として説明されるいかなる実施例も、他の実施例より好ましい又は優れたものと解釈すべきではない。

本明細書では、「及び／又は」という用語は、関連対象の関連関係を記述するためのものに過ぎず、３種の関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａが独立すること、ＡとＢが同時に存在すること、Ｂが独立することという３種の場合を示してもよい。また、本明細書では、「少なくとも１種」という用語は多種のうちのいずれか１種又は多種のうちの少なくとも２種の任意の組合を示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１種を含むことは、Ａ、Ｂ及びＣから構成される集合から選択されるいずれか１つ又は複数の要素を含むことを示してもよい。

また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくても、本開示は同様に実施可能であることを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者に既知の方法、手段、要素および回路に対する詳細な説明を省略する。

図１は本開示の実施例におけるニューラルネットワークをトレーニングする方法のフローチャートを示し、図１に示すように、前記ニューラルネットワークをトレーニングする方法は、
ステップＳ１１において、ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得ることと、
ステップＳ１２において、前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングすることとを含む。

可能な一実施形態では、前記ニューラルネットワークをトレーニングする方法は、端末装置又はサーバ等の電子機器により実行されてもよく、端末装置はユーザ側装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、携帯機器、ユーザ端末、端末、セル方式の携帯無線電話、無線電話、携帯情報端末（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、携帯型デバイス、計算装置、車載装置、ウエアラブル装置等であってもよく、前記方法はプロセッサによってメモリに記憶されたコンピュータが読取可能なコマンドを呼び出して実現されてもよい。又は、サーバによって前記方法を実行してもよい。

可能な一実施形態では、トレーニング集合には精確にラベリングされていない大量のサンプル画像を含んでよく、これらのサンプル画像が異なる画像カテゴリーに属するものであり、画像のカテゴリーは、例えば、顔カテゴリー（例えば、それぞれのお客様の顔）、動物カテゴリー（例えば、猫、犬等）、服装カテゴリー（例えば、上着、ズボン等）である。本開示はサンプル画像の由来及びその具体的なカテゴリーを制限するものではない。

可能な一実施形態では、各サンプル画像は、このサンプル画像の所属するカテゴリーをラベリングするための初期カテゴリーラベル（ノイズラベル）を有するが、精確にラベリングされていないにより、一定数量のサンプル画像の初期カテゴリーラベルについてエラーが生じる可能性がある。本開示は初期カテゴリーラベルのノイズ分布状況を制限するものではない。

可能な一実施形態では、トレーニングされるニューラルネットワークは、例えば、深層畳み込みネットワークであってもよく、本開示は、ニューラルネットワークの具体的なネットワーク種類を制限するものではない。

ニューラルネットワークのトレーニング中、ステップＳ１１において、トレーニング集合内の目標画像をトレーニングされるニューラルネットワークに入力して分類処理して、目標画像の分類予測結果を得ることができる。ここで、目標画像は、サンプル画像のうちの１つ又は複数のものであってもよく、例えば同一のトレーニングロットの複数のサンプル画像であってもよい。分類予測結果は、目標画像の所属する予測カテゴリーを含んでもよい。

目標画像の分類予測結果が得られた後、ステップＳ１２において、分類予測結果、目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、ニューラルネットワークをトレーニングすることができる。ここで、校正カテゴリーラベルは、目標画像のカテゴリーを校正するために用いられる。つまり、分類予測結果、初期カテゴリーラベル及び校正カテゴリーラベルに基づいてニューラルネットワークのネットワーク損失を決定し、このネットワーク損失によってニューラルネットワークのネットワークパラメータを逆方向に調整することができる。複数回調整された後、最終的にトレーニング条件（例えば、ネットワークが収束した）を満たすニューラルネットワークが得られる。

本開示の実施例によれば、目標画像の初期カテゴリーラベルと校正カテゴリーラベルを共にニューラルネットワークのトレーニング過程の教師として、ニューラルネットワークの最適化方向を共に決定することにより、トレーニング過程とネットワーク構造を簡潔化することができる。

可能な一実施形態では、このニューラルネットワークは、特徴抽出ネットワークと分類ネットワークを含んでよい。特徴抽出ネットワークは、目標画像に対して特徴抽出を行うために用いられ、分類ネットワークは抽出された特徴によって目標画像を分類して、目標画像の分類予測結果を得るために用いられる。ここで、特徴抽出ネットワークは、例えば、複数の畳み込み層を含んでもよく、分類ネットワークは、例えば、全結合層とｓｏｆｔｍａｘ層等を含んでもよい。本開示は、特徴抽出ネットワークと分類ネットワークのネットワーク層の具体的な種類及び数量を制限するものではない。

ニューラルネットワークをトレーニングする過程で、ニューラルネットワークのネットワークパラメータが複数回調整される。現在状態のニューラルネットワークが調整された後、次の状態のニューラルネットワークが得られる。ニューラルネットワークがＮ個（Ｎが１より大きい整数である）のトレーニング状態を含むように設定してもよい。そのようにして、現在の第ｉ状態のニューラルネットワークについては、ステップＳ１１は、
前記Ｎ個のトレーニング状態のうちの１つである第ｉ状態（０≦ｉ＜Ｎ）の特徴抽出ネットワークによって目標画像に対して特徴抽出を行って、前記目標画像の第ｉ状態における第１特徴を得ることと、
第ｉ状態の分類ネットワークによって前記目標画像の第ｉ状態における第１特徴を分類して、前記目標画像の第ｉ状態における分類予測結果を得ることと、を含んでもよい。

つまり、目標画像を第ｉ状態の特徴抽出ネットワークに入力して特徴抽出を行って目標画像の第ｉ状態における第１特徴を出力する。そして、第ｉ状態における第１特徴を第ｉ状態の分類ネットワークに入力して分類して目標画像の第ｉ状態における分類予測結果を出力してもよい。

このような形態によれば、第ｉ状態のニューラルネットワークの出力結果を得て、この結果によってニューラルネットワークをトレーニングすることができる。

可能な一実施形態では、前記方法は、
第ｉ状態の特徴抽出ネットワークによって、トレーニング集合内のサンプル画像のＫ個のカテゴリー（Ｋが１より大きい整数）のうちの１つであるｋ番目のカテゴリーの複数のサンプル画像に対して特徴抽出を行って、前記複数のサンプル画像の第ｉ状態における第２特徴を得ることと、
前記ｋ番目のカテゴリーの複数のサンプル画像の第ｉ状態における第２特徴に対してクラスタリング処理を行って、前記ｋ番目のカテゴリーの第ｉ状態におけるクラスタ原型特徴を決定することと、
Ｋ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴及び前記目標画像の第ｉ状態における第１特徴に基づいて、前記目標画像の第ｉ状態における校正カテゴリーラベルを決定することと、を更に含む。

例を挙げると、トレーニング集合内のサンプル画像は、Ｋ個のカテゴリーを含んでもよく、Ｋが１より大きい整数である。特徴抽出ネットワークを特徴抽出器として、各々カテゴリーのサンプル画像の特徴を抽出してもよい。Ｋ個のカテゴリー中のｋ番目のカテゴリー（１≦ｋ≦Ｋ）については、ｋ番目のカテゴリーのサンプル画像から一部のサンプル画像（例えば、Ｍ個のサンプル画像、Ｍが１より大きい整数である）を選択して特徴抽出を行うようにしてよく、それによって計算コストが低減する。ｋ番目のカテゴリーの全てのサンプル画像に対して特徴抽出を行ってもよいことを理解すべきであり、本開示はそれを制限するものではない。

可能な一実施形態では、ｋ番目のカテゴリーのサンプル画像からＭ個のサンプル画像をランダムに選択してもよく、他の形態（例えば、画像鮮明度等のパラメータ）を用いてＭ個のサンプル画像を選択してもよく、本開示はそれを制限するものではない。

可能な一実施形態では、ｋ番目のカテゴリーのＭ個のサンプル画像をそれぞれ第ｉ状態の特徴抽出ネットワークに入力して特徴抽出を行ってＭ個のサンプル画像の第ｉ状態における第２特徴（Ｍ個）を出力することができる。そして、第ｉ状態のＭ個の第２特徴に対してクラスタリング処理を行ってｋ番目のカテゴリーの第ｉ状態におけるクラスタ原型特徴を決定することができる。

可能な一実施形態では、密度ピーククラスタリング、Ｋ平均値（Ｋ－ｍｅａｎｓ）クラスタリング、スペクトルクラスタリング等の手法によってＭ個の第２特徴をクラスタリングしてよもく、本開示はクラスタリングの手法を制限するものではない。

可能な一実施形態では、ｋ番目のカテゴリーの第ｉ状態におけるクラスタ原型特徴は、前記ｋ番目のカテゴリーの複数のサンプル画像の第ｉ状態における第２特徴のクラスタ中心を含む。即ち、第ｉ状態のＭ個の第２特徴をクラスタリングするクラスタ中心をｋ番目のカテゴリーの第ｉ状態におけるクラスタ原型特徴としてもよい。

可能な一実施形態では、クラスタ原型特徴は、複数であってもよく、即ち、Ｍ個の第２特徴から複数のクラスタ原型特徴を選択する。例えば、密度ピーククラスタリングの手法を用いる時に、クラスタ原型特徴として密度値が最も高いｐ個の画像（ｐ＜Ｍ）の第２特徴を選択してもよく、密度値と特徴の間の類似度値等のパラメータを総合的に考慮することでクラスタ原型特徴を選択してもよい。当業者が実際の状況に応じてクラスタ原型特徴を選択してもよく、本開示はそれを制限するものではない。

このような形態によれば、目標画像の特徴と照合するように、各カテゴリ中のサンプルから抽出されるべき特徴はクラスタ原型特徴で表してもよい。

可能な一実施形態では、Ｋ個のカテゴリーのサンプル画像から一部のサンプル画像をそれぞれ選択し、選定された画像をそれぞれ特徴抽出ネットワークに入力して第２特徴を得ることができる。各々のカテゴリーの第２特徴をそれぞれクラスタリングし、各々のカテゴリーのクラスタ原型特徴を取得し、即ち、Ｋ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴を取得する。更に、Ｋ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴及び目標画像の第ｉ状態における第１特徴に基づいて、前記目標画像の第ｉ状態における校正カテゴリーラベルを決定することができる。

このような形態によれば、目標画像のカテゴリーラベルを校正し、ニューラルネットワークのトレーニングのために別の教師信号を提供することができる。

可能な一実施形態では、Ｋ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴及び前記目標画像の第ｉ状態における第１特徴に基づいて、前記目標画像の第ｉ状態における校正カテゴリーラベルを決定するステップには、
前記目標画像の第ｉ状態における第１特徴とＫ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴との間の第１特徴類似度をそれぞれ取得することと、
第１特徴類似度の最大値に対応するクラスタ原型特徴の所属するカテゴリーによって、前記目標画像の第ｉ状態における校正カテゴリーラベルを決定することと、を含んでもよい。

例を挙げると、目標画像があるカテゴリーに属するものであれば、この目標画像の特徴はこのカテゴリー中のサンプルから抽出されるべき特徴（クラスタ原型特徴）との類似度が高い。従って、目標画像の第ｉ状態における第１特徴とＫ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴との間の第１特徴類似度をそれぞれ計算してもよい。この第１特徴類似度は、例えば、特徴間のコサイン類似度又はユークリッド距離等であってもよく、本開示はそれを制限するものではない。

可能な一実施形態では、Ｋ個のカテゴリーの第１特徴類似度のうちの最大値を決定し、この最大値に対応するクラスタ原型特徴の所属するカテゴリーを目標画像の第ｉ状態における校正カテゴリーラベルとてもよい。即ち、類似度が最も大きいカテゴリー特徴原型が対応するラベルを選択してこのサンプルに新しいラベルを付与する。

このような形態によれば、クラスタ原型特徴によって目標画像のカテゴリーラベルを校正して、校正されるカテゴリーラベルの正確性を高めることができ、校正カテゴリーラベルでニューラルネットワークのトレーニングの教師とする時に、ネットワークのトレーニング効果を高めることができる。

可能な一実施形態では、各カテゴリーの第ｉ状態におけるクラスタ原型特徴は、複数のクラスタ原型特徴を含み、ここで、前記目標画像の第ｉ状態における第１特徴とＫ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴との間の第１特徴類似度をそれぞれ取得する前記ステップには、
前記第ｉ状態における第１特徴とｋ番目のカテゴリーの第ｉ状態における複数のクラスタ原型特徴との間の第２特徴類似度を取得することと、
前記第２特徴類似度に基づいて、前記第ｉ状態における第１特徴とｋ番目のカテゴリーの第ｉ状態におけるクラスタ原型特徴との間の第１特徴類似度を決定することと、を含んでもよい。

例を挙げると、各カテゴリーのサンプルから抽出されるべき特徴をより正確に表すために、クラスタ原型特徴は複数であってもよい。この場合に、Ｋ個のカテゴリーのいずれか１つのカテゴリー（ｋ番目のカテゴリー）については、第ｉ状態における第１特徴とｋ番目のカテゴリーの第ｉ状態における複数のクラスタ原型特徴との間の第２特徴類似度をそれぞれ計算し、更に複数の第２特徴類似度に基づいて第１特徴類似度を決定するしてもよい。

可能な一実施形態では、例えば、複数の第２特徴類似度の平均値を第１特徴類似度としてもよく、複数の第２特徴類似度から適切な類似度値を選択して第１特徴類似度としてもよく、本開示はそれを制限するものではない。

このような形態によれば、目標画像の特徴とクラスタ原型特徴との間の類似度の計算の正確性を更に高めることができる。

可能な一実施形態では、目標画像の第ｉ状態における校正カテゴリーラベルが決定された後、この校正カテゴリーラベルに基づいてニューラルネットワークをトレーニングすることができる。ここで、ステップＳ１２は、
第ｉ状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第ｉ状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における総損失を決定することと、
前記第ｉ状態における総損失に基づいて、第ｉ状態のニューラルネットワークのネットワークパラメータを調整して、第ｉ＋１状態のニューラルネットワークを得ることと、を含んでもよい。

例を挙げると、現在の第ｉ状態については、ステップＳ１１で得られた第ｉ状態における分類予測結果と目標画像の初期カテゴリーラベル及び第ｉ状態における校正カテゴリーラベルとの間の違いによって、ニューラルネットワークの第ｉ状態における総損失を計算し、更にこの総損失に基づいて第ｉ状態のニューラルネットワークのネットワークパラメータを逆方向に調整して、次のトレーニング状態（第ｉ＋１状態）のニューラルネットワークを得ることができる。

可能な一実施形態では、初めてトレーニングする前に、ニューラルネットワークが初期状態（ｉ＝０）であり、初期カテゴリーラベルだけでネットワークのトレーニングの教師してもよい。即ち、初期状態の分類予測結果と初期カテゴリーラベルに基づいてニューラルネットワークの総損失を決定して、更にネットワークパラメータを逆方向に調整して、次のトレーニング状態（ｉ＝１）のニューラルネットワークを得る。

可能な一実施形態では、ｉ＝Ｎ－１の時に、第Ｎ－１状態の総損失に基づいて、第ｉ状態のニューラルネットワークのネットワークパラメータを調整し、第Ｎ状態のニューラルネットワーク（ネットワークが収束した）が得ることができる。そのようにして、第Ｎ状態のニューラルネットワークをトレーニング済みのニューラルネットワークとして決定して、ニューラルネットワークのトレーニング全過程を完成することができる。

このような形態によれば、ニューラルネットワークのトレーニング過程を複数回サクルで完成して、高精度のニューラルネットワークを得ることができる。

可能な一実施形態では、第ｉ状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第ｉ状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における総損失を決定する前記ステップには、
前記第ｉ状態における分類予測結果及び前記目標画像の初期カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における第１損失を決定することと、
前記第ｉ状態における分類予測結果及び前記目標画像の第ｉ状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における第２損失を決定することと、
前記第ｉ状態における第１損失と前記第ｉ状態における第２損失に基づいて、前記ニューラルネットワークの第ｉ状態における総損失を決定することと、を含んでよい。

例を挙げると、第ｉ状態における分類予測結果と初期カテゴリーラベルとの間の違いによって、ニューラルネットワークの第ｉ状態における第１損失を決定し、第ｉ状態における分類予測結果と第ｉ状態における校正カテゴリーラベルとの間の違いによって、ニューラルネットワークの第ｉ状態における第２損失を決定することができる。ここで、第１損失と第２損失は、例えば、交差エントロピー損失関数であってもよく、本開示は損失関数の具体的な種類を制限するものではない。

可能な一実施形態では、第１損失と第２損失の加重和をニューラルネットワークの総損失として決定してもよい。当業者であれば実際の状況に応じて第１損失と第２損失の重みを設定しすることができ、本開示はそれを制限するものではない。

可能な一実施形態では、総損失Ｌ_totalは、以下のように表す。

式（１）において、ｘは目標画像を表し、θはニューラルネットワークのネットワークパラメータを表し、Ｆ（θ，ｘ）は分類予測結果を表し、ｙは初期カテゴリーラベルを表し、ｙ＾は校正カテゴリーラベルを表し、Ｌ（Ｆ（θ，ｘ），ｙ）は第１損失を表し、Ｌ（Ｆ（θ，ｘ），ｙ＾）は第２損失を表し、αは第２損失の重みを表す。

このような形態によれば、初期カテゴリーラベル及び校正カテゴリーラベルに基づいて第１損失と第２損失をそれぞれ決定し、更にニューラルネットワークの総損失を決定することができ、それによって、２つの教師信号を共に教師とすることを実現して、ネットワークトレーニング効果を高める。

図２は本開示の実施例におけるニューラルネットワークをトレーニングする方法の応用例の模式図を示す。図２に示すように、この応用例は、トレーニング段階２１とラベル校正段階２２の２つの部分に分けられる。

この応用例において、目標画像ｘは１つのトレーニングロットの複数のサンプル画像を含んでよい。ニューラルネットワークをトレーニングする過程のいずれか１つの中間状態（例えば、第ｉ状態）で、トレーニング段階２１については、目標画像ｘを特徴抽出ネットワーク２１１（複数の畳み込み層を含む）に入力して処理して目標画像ｘの第１特徴を出力する。そして、第１特徴を分類ネットワーク２１２（全結合層とｓｏｆｔｍａｘ層を含む）に入力し処理して目標画像ｘの分類予測結果２１３（Ｆ（θ，ｘ））を出力そして、分類予測結果２１３と初期カテゴリーラベルｙによって第１損失Ｌ（Ｆ（θ，ｘ），ｙ）を決定することができる。分類予測結果２１３と校正カテゴリーラベルｙ＾によって第２損失Ｌ（Ｆ（θ，ｘ），ｙ＾）を決定することができる。重み１－αとαによって第１損失と第２損失の加重和を求めることにより、総損失Ｌ_totalを得ることができる。

この応用例において、ラベル校正段階２２については、この状態での特徴抽出ネットワーク２１１を再利用するか、この状態での特徴抽出ネットワーク２１１のネットワークパラメータをコピーして、ラベル校正段階２２の特徴抽出ネットワーク２２１を得ることができる。トレーニング集合内のｋ番目のカテゴリーのサンプル画像からＭ個のサンプル画像２２２（例えば、図２におけるカテゴリーが「ズボン」である複数のサンプル画像）をランダムに選択し、選定されたＭ個のサンプル画像２２２をそれぞれ特徴抽出ネットワーク２２１に入力して処理し、ｋ番目のカテゴリーの選定されたサンプル画像の特徴集合を出力する。そのようにして、全てのＫ個のカテゴリーのサンプル画像からサンプル画像をランダムに選択して、Ｋ個のカテゴリーの選定されたサンプル画像を含む特徴集合２２３を得ることができる。

この応用例において、各カテゴリーの選定されたサンプル画像の特徴集合に対してそれぞれクラスタリング処理を行って、クラスタリング結果によってクラスタ原型特徴を選択することができ、例えば、クラスタ中心に対応する特徴をクラスタ原型特徴とするか、決定の規則によってｐ個のクラスタ原型特徴を選択する。そのようにして、各カテゴリーのクラスタ原型特徴２２４が得られる。

この応用例において、目標画像ｘを特徴抽出ネットワーク２２１に入力して処理して目標画像ｘの第１特徴Ｇ（ｘ）を出力してもよく、トレーニング段階２１で得られた第１特徴を直接呼び出してもよい。そして、目標画像ｘの第１特徴Ｇ（ｘ）と各カテゴリーのクラスタ原型特徴との間の特徴類似度をそれぞれ計算し、特徴類似度の最大値に対応するクラスタ原型特徴のカテゴリーを目標画像ｘの校正カテゴリーラベルｙ＾として決定し、それによってラベル校正過程を完成する。校正カテゴリーラベルｙ＾はトレーニング段階２１に入力してトレーニング段階の別の教師信号としてもよい。

この応用例において、トレーニング段階２１については、分類予測結果２１３、初期カテゴリーラベルｙ、校正カテゴリーラベルｙ＾によって総損失Ｌ_totalが決定された後、総損失に基づいてニューラルネットワークのネットワークパラメータを逆方向に調整して、次の状態のニューラルネットワークを得ることができる。

上記のトレーニング段階とラベル校正段階をネットワークトのレーニングが収束するまで交互に行って、トレーニング済みのニューラルネットワークが得られる。

本開示の実施例におけるニューラルネットワークをトレーニングする方法は、ネットワークトレーニング過程に自分校正段階を加えてノイズデータラベルの再度校正を実現し、更に校正されたラベルを教師信号の一部として、元のノイズラベルと共にネットワークのトレーニング過程の教師とするようにして、ニューラルネットワークが正確にラベリングされていないデータ集合で学習した後の汎化能力を高めることができる。

本開示の実施例によれば、ノイズ分布を予め仮定する必要がなく、別の教師データ及び補助ネットワークが不要であり、複数のカテゴリーの原型特徴を抽出してカテゴリー中のデータ分布をより好適に表現することができ、エンドツーエンドの自分学習仕組みによって、従来、実際ノイズデータ集合でネットワークをトレーニングすることが困難である問題を解決し、トレーニング過程とネットワーク設計を簡潔化した。本開示の実施例によれば、コンピュータビジョン等の分野に用いられて、ノイズデータによるモデルのトレーニングを実現することができる。

本開示の実施例によれば、上記の方法によってトレーニングして得られたニューラルネットワークを含むニューラルネットワークに被処理画像を入力して分類処理して、画像分類結果を得ることを含む画像処理方法を更に提供する。このような形態によれば、小規模の単一のネットワークで高性能の画像処理を実現することができる。

本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、ページ数に限りがあるので、本開示では詳細な説明を省略する。具体的な実施形態の上記方法において、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。

また、本開示はニューラルネットワークトレーニング装置及び画像処理装置、電子機器、コンピュータ読取可能な記憶媒体、プログラムを更に提供し、それらはいずれも本開示で提供されるいずれか１種のニューラルネットワークトレーニング方法を実現することに利用可能であり、対応する技術的解決手段及び説明については方法部分の対応の記載を参照してもよく、ここで詳細な説明を省略する。

図３は本開示の実施例におけるニューラルネットワークをトレーニングする装置のブロック図を示す。本開示の別の方面によれば、ニューラルネットワークをトレーニングする装置を提供する。図３に示すように、前記ニューラルネットワークをトレーニングする装置は、ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得るための予測分類モジュール３１と、前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングするためのネットワークトレーニングモジュール３２と、を含む。

いくつかの実施例では、本開示の実施例で提供された装置が有している機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実施形態については上記方法実施例の説明を参照してもよく、簡潔化するために、ここで重複説明は割愛する。

本開示の実施例は、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると、上記方法を実現させるコンピュータ読取可能な記憶媒体を更に提供する。コンピュータ読取可能な記憶媒体は、非揮発性コンピュータ読取可能な記憶媒体であっても、揮発性コンピュータ読取可能な記憶媒体であってもよい。

本開示の実施例は、プロセッサと、プロセッサが実行可能なコマンドを記憶するためのメモリと、を含み、前記プロセッサが前記メモリに記憶されたコマンドを呼び出して上記方法を実行するように構成される電子機器を更に提供する。

本開示の実施例は、コンピュータ読取可能なコードを含み、前記コンピュータ読取可能なコードは、電子機器中で動作すると、前記電子機器のプロセッサが上記方法を実現するためのコマンドを実行させるコンピュータプログラムを更に提供する。

電子機器は、端末、サーバ又は他の形態のデバイスとして提供されてよい。

図４は本開示の実施例による電子機器８００のブロック図を示す。例えば、装置８００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット装置、医療機器、フィットネス器具、パーソナル・デジタル・アシスタントなどの端末であってもよい。

図４を参照して、電子機器８００は処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）インタフェース８１２、センサコンポーネント８１４、および通信コンポーネント８１６の一つ以上を含むんでもよい。

処理コンポーネント８０２は通常、電子機器８００の全体的な操作、例えば表示、電話の呼び出し、データ通信、カメラ操作および記録操作に関連する操作を制御している。処理コンポーネント８０２は、上記方法の全てまたは一部のステップを完成するために、一つ以上のプロセッサ８２０を含んで命令を実行しても良い。なお、処理コンポーネント８０２は、他のコンポーネントとの対話のために、一つ以上のモジュールを含むことができる。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８とのインタラクションのために、マルチメディアモジュールを含んでも良い。

メモリ８０４は電子機器８００での操作をサポートするために様々なタイプのデータを記憶しているように配置される。これらのデータの例は電子機器８００に運用するためのあらゆるアプリケーションプログラムまたは方法の令指令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ８０４は、例えば静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。

電源コンポーネント８０６は電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は電源管理システム、一つ以上の電源、および電子機器８００のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。

マルチメディアコンポーネント８０８は前記電子機器８００とユーザとの間で一つの出力インタフェースを提供する画面を含む。いくつかの実施例では、画面は液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含んでもよい。画面がタッチパネルを含む場合、ユーザからの入力信号を受信するように、タッチ画面として実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライドの動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出してもよい。いくつかの実施例では、マルチメディアコンポーネント８０８は前面カメラおよび／または後面カメラを含む。電子機器８００が動作モード、例えば撮影モードまたは撮像モードになると、前面カメラおよび／または後面カメラは外部のマルチメディアデータを受信することができる。各前面カメラおよび後面カメラは固定された光学レンズ系または焦点距離および光学ズーム能力を有するものであってもよい。

オーディオコンポーネント８１０はオーディオ信号を出力および／または入力するように配置される。例えば、オーディオコンポーネント８１０は、電子機器８００が操作モード、例えば呼び出しモード、記録モードおよび音声認識モードになると、外部のオーディオ信号を受信するようにマイク（ＭＩＣ）が配置される。受信されたオーディオ信号はさらにメモリ８０４に記憶されるか、または通信コンポーネント８１６を経して送信されてもよい。いくつかの実施例では、オーディオコンポーネント８１０はさらに、オーディオ信号を出力するためのスピーカーを含む。

Ｉ／Ｏインタフェース８１２は処理コンポーネント８０２と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでも良いが、これらに限定されない。

センサコンポーネント８１４は電子機器８００に全面的な状態評価を提供するための一つ以上のセンサを含む。例えば、センサコンポーネント８１４は電子機器８００のオン／オフ状態、コンポーネントの相対的位置決め、例えば前記コンポーネントが電子機器８００の表示装置およびキーパッドであることを検出しても良く、センサコンポーネント８１４はさらに、電子機器８００または電子機器８００のあるコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加減速および電子機器８００の温度変化を検出してもよい。センサコンポーネント８１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するために用いられるように配置された近接センサを含む。センサコンポーネント８１４はさらに、ＣＭＯＳまたはＣＣＤイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント８１４はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。

通信コンポーネント８１６は電子機器８００と他の機器との間の有線または無線通信を実現するように配置される。電子機器８００は通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせに接続しても良い。一例示的実施例では、通信コンポーネント８１６は放送チャネルによって外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント８１６はさらに、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールでは無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標／ＢＴ）技術および他の技術によって実現できる。

例示的な実施例では、電子機器８００は一つ以上の決定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現し、上記方法を実行するために用いることができる。

例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４が提供され、上記コンピュータプログラム命令は電子機器８００のプロセッサ８２０によって実行して上記方法を完成することができる。

図５は本開示の実施例に係る電子機器１９００のブロック図である。例えば、電子機器１９００はサーバとして提供できる。図５を参照すると、電子機器１９００は、さらに一つ以上のプロセッサを含む処理コンポーネント１９２２、および、処理コンポーネント１９２２によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ１９３２を代表とするメモリ資源を含む。メモリ１９３２に記憶されたアプリケーションプログラムはそれぞれが１グループの命令に対応する一つ以上のモジュールを含むことができる。また、処理コンポーネント１９２２は命令を実行し、それによって上記方法を実行するように構成される。

電子機器１９００はさらに、電子機器１９００の電源管理を実行するように構成された電源コンポーネント１９２６、電子機器１９００をネットワークに接続するように構成された有線または無線ネットワークインタフェース１９５０、および入出力（Ｉ／Ｏ）インタフェース１９５８を含むことができる。電子機器１９００はメモリ１９３２に記憶されたオペレーティングシステム、例えばＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似するものに基づいて動作できる。

例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能な記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令が電子機器１９００の処理コンポーネント１９２２によって実行されると上記方法を完成実行することができる。

本開示はシステム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各方面を実現させるためのコンピュータ読み取り可能なプログラム命令を有しているコンピュータ読み取り可能な記憶媒体を含むことができる。

コンピュータ読み取り可能な記憶媒体は命令実行装置により使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ読み取り可能な記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のさらに具体的な例（非網羅的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能な記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

ここで記述したコンピュータ読み取り可能なプログラム命令はコンピュータ読み取り可能記憶媒体から各計算／処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含んでも良い。各計算／処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ読み取り可能なプログラム命令を受信し、該コンピュータ読み取り可能なプログラム命令を転送し、各計算／処理機器内のコンピュータ読み取り可能な記憶媒体に記憶させる。

本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能なプログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズし、該電子回路によりコンピュータ読み取り可能なプログラム命令を実行することで、それにより本開示の各方面を実現できるようにしてもよい。

なお、ここで本開示の実施例に係る方法、装置（システム）およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら本開示の各態様を説明しが、フローチャートおよび／またはブロック図の各ブロックおよびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能なプログラム命令によって実現できることを理解すべきである。

これらのコンピュータ読み取り可能なプログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されて、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現するように機械を製造してもよい。また、これらのコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体に記憶し、コンピュータ、プログラマブルデータ処理装置および／または他の機器を決定の方式で動作させるようにしてもよい。命令を記憶しているコンピュータ読み取り可能な記憶媒体には、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作の各方面を実現するための命令を有する製品を含む。

コンピュータ読み取り可能なプログラムをコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードし、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させることにより、コンピュータにより実現されるプロセスを生成し、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令によりフローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する。

図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は図面に付した順序と異なって実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。

論理に違反しない限り、本願のそれぞれの実施例は相互に組み合わせることができ、異なる実施例において重点として説明されるものが異なって、重点として説明されていない部分については他の実施例の記載を参照してもよい。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

本願は、２０１９年５月２１日に中国特許局に提出された、出願番号２０１９１０４２６０１０．４、発明の名称「ニューラルネットワークをトレーニングする方法及び装置、画像を処理する方法及び装置」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。

Claims

ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得ることと、
前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングすることと、を含むことを特徴とするニューラルネットワークをトレーニングする方法。
前記ニューラルネットワークは、特徴抽出ネットワークと分類ネットワークを含み、且つＮ個のトレーニング状態を含み、Ｎが１より大きい整数であり、
ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得ることは、
前記Ｎ個のトレーニング状態のうちの１つである第ｉ状態（０≦ｉ＜Ｎ）の特徴抽出ネットワークによって目標画像に対して特徴抽出を行って、前記目標画像の第ｉ状態における第１特徴を得ることと、
第ｉ状態の分類ネットワークによって前記目標画像の第ｉ状態における第１特徴を分類して、前記目標画像の第ｉ状態における分類予測結果を得ることと、を含むことを特徴とする請求項１に記載の方法。
前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングすることは、
第ｉ状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第ｉ状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における総損失を決定することと、
前記第ｉ状態における総損失に基づいて、第ｉ状態のニューラルネットワークのネットワークパラメータを調整して、第ｉ＋１状態のニューラルネットワークを得ることと、を含むことを特徴とする請求項２に記載の方法。
第ｉ状態の特徴抽出ネットワークによって、トレーニング集合内のサンプル画像のＫ個のカテゴリー（Ｋが１より大きい整数）のうちの１つであるｋ番目のカテゴリーの複数のサンプル画像に対して特徴抽出を行って、前記複数のサンプル画像の第ｉ状態における第２特徴を得ることと、
前記ｋ番目のカテゴリーの複数のサンプル画像の第ｉ状態における第２特徴に対してクラスタリング処理を行って、前記ｋ番目のカテゴリーの第ｉ状態におけるクラスタ原型特徴を決定することと、
Ｋ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴及び前記目標画像の第ｉ状態における第１特徴に基づいて、前記目標画像の第ｉ状態における校正カテゴリーラベルを決定することと、を更に含むことを特徴とする請求項２又は３に記載の方法。
前記Ｋ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴及び前記目標画像の第ｉ状態における第１特徴に基づいて、前記目標画像の第ｉ状態における校正カテゴリーラベルを決定することは、
前記目標画像の第ｉ状態における第１特徴とＫ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴との間の第１特徴類似度をそれぞれ取得することと、
第１特徴類似度の最大値に対応するクラスタ原型特徴の所属するカテゴリーによって、前記目標画像の第ｉ状態における校正カテゴリーラベルを決定することと、を含むことを特徴とする請求項４に記載の方法。
各カテゴリーの第ｉ状態におけるクラスタ原型特徴は、複数のクラスタ原型特徴を含み、
前記目標画像の第ｉ状態における第１特徴とＫ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴との間の第１特徴類似度をそれぞれ取得することは、
前記第ｉ状態における第１特徴とｋ番目のカテゴリーの第ｉ状態における複数のクラスタ原型特徴との間の第２特徴類似度を取得することと、
前記第２特徴類似度に基づいて、前記第ｉ状態における第１特徴とｋ番目のカテゴリーの第ｉ状態におけるクラスタ原型特徴との間の第１特徴類似度を決定することと、を含むことを特徴とする請求項５に記載の方法。
前記ｋ番目のカテゴリーの第ｉ状態におけるクラスタ原型特徴は、前記ｋ番目のカテゴリーの複数のサンプル画像の第ｉ状態における第２特徴のクラスタ中心を含むことを特徴とする請求項４～６のいずれか一項に記載の方法。
第ｉ状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第ｉ状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における総損失を決定することは、
前記第ｉ状態における分類予測結果及び前記目標画像の初期カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における第１損失を決定することと、
前記第ｉ状態における分類予測結果及び前記目標画像の第ｉ状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における第２損失を決定することと、
前記第ｉ状態における第１損失と前記第ｉ状態における第２損失に基づいて、前記ニューラルネットワークの第ｉ状態における総損失を決定することと、を含むことを特徴とする請求項３～７のいずれか一項に記載の方法。
請求項１～８のいずれか一項に記載の方法によってトレーニングして得られたニューラルネットワークを含むニューラルネットワークに被処理画像を入力して分類処理して、画像分類結果を得ることを含むことを特徴とする画像処理方法。
ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得るための予測分類モジュールと、
前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングするためのネットワークトレーニングモジュールと、を含むことを特徴とするニューラルネットワークをトレーニングする装置。
前記ニューラルネットワークは、特徴抽出ネットワークと分類ネットワークを含み、且つＮ個のトレーニング状態を含み、Ｎが１より大きい整数であり、前記予測分類モジュールは、
前記Ｎ個のトレーニング状態のうちの１つである第ｉ状態（０≦ｉ＜Ｎ）の特徴抽出ネットワークによって目標画像に対して特徴抽出を行って、前記目標画像の第ｉ状態における第１特徴を得るための特徴抽出サブモジュールと、
第ｉ状態の分類ネットワークによって前記目標画像の第ｉ状態における第１特徴を分類して、前記目標画像の第ｉ状態における分類予測結果を得るための結果決定サブモジュールと、を含むことを特徴とする請求項１０に記載の装置。
前記ネットワークトレーニングモジュールは、
第ｉ状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第ｉ状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における総損失を決定するための損失決定モジュールと、
前記第ｉ状態における総損失に基づいて、第ｉ状態のニューラルネットワークのネットワークパラメータを調整して、第ｉ＋１状態のニューラルネットワークを得るためのパラメータ調整モジュールと、を含むことを特徴とする請求項１１に記載の装置。
第ｉ状態の特徴抽出ネットワークによって、トレーニング集合内のサンプル画像のＫ個のカテゴリー（Ｋが１より大きい整数）のうちの１つであるｋ番目のカテゴリーの複数のサンプル画像に対して特徴抽出を行って、前記複数のサンプル画像の第ｉ状態における第２特徴を得るためのサンプル特徴抽出モジュールと、
前記ｋ番目のカテゴリーの複数のサンプル画像の第ｉ状態における第２特徴に対してクラスタリング処理を行って、前記ｋ番目のカテゴリーの第ｉ状態におけるクラスタ原型特徴を決定するためのクラスタリングモジュールと、
Ｋ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴及び前記目標画像の第ｉ状態における第１特徴に基づいて、前記目標画像の第ｉ状態における校正カテゴリーラベルを決定するためのラベル決定モジュールと、を更に含むことを特徴とする請求項１１又は１２に記載の装置。
前記ラベル決定モジュールは、
前記目標画像の第ｉ状態における第１特徴とＫ個のカテゴリーの第ｉ状態におけるクラスタ原型特徴との間の第１特徴類似度をそれぞれ取得するための類似度取得サブモジュールと、
第１特徴類似度の最大値に対応するクラスタ原型特徴の所属するカテゴリーによって、前記目標画像の第ｉ状態における校正カテゴリーラベルを決定するためのラベル決定サブモジュールと、を含むことを特徴とする請求項１３に記載の装置。
各カテゴリーの第ｉ状態におけるクラスタ原型特徴は、複数のクラスタ原型特徴を含み、前記類似度取得サブモジュールは、
前記第ｉ状態における第１特徴とｋ番目のカテゴリーの第ｉ状態における複数のクラスタ原型特徴との間の第２特徴類似度を取得することと、
前記第２特徴類似度に基づいて、前記第ｉ状態における第１特徴とｋ番目のカテゴリーの第ｉ状態におけるクラスタ原型特徴との間の第１特徴類似度を決定することと、に用いられることを特徴とする請求項１４に記載の装置。
前記ｋ番目のカテゴリーの第ｉ状態におけるクラスタ原型特徴は、前記ｋ番目のカテゴリーの複数のサンプル画像の第ｉ状態における第２特徴のクラスタ中心を含むことを特徴とする請求項１３～１５のいずれか一項に記載の装置。
損失決定モジュールは、
前記第ｉ状態における分類予測結果及び前記目標画像の初期カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における第１損失を決定するための第１損失決定サブモジュールと、
前記第ｉ状態における分類予測結果及び前記目標画像の第ｉ状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第ｉ状態における第２損失を決定するための第２損失決定サブモジュールと、
前記第ｉ状態における第１損失と前記第ｉ状態における第２損失に基づいて、前記ニューラルネットワークの第ｉ状態における総損失を決定するための総損失決定サブモジュールと、を含むことを特徴とする請求項１２～１６のいずれか一項に記載の装置。
請求項１０～１７のいずれか一項に記載の装置によってトレーニングして得られたニューラルネットワークを含むニューラルネットワークに被処理画像を入力して分類処理して、画像分類結果を得るための画像分類モジュールを含むことを特徴とする画像処理装置。
プロセッサと、
プロセッサが実行可能なコマンドを記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶されたコマンドを呼び出して請求項１～９のいずれか一項に記載の方法を実行するように構成されることを特徴とする電子機器。
コンピュータプログラムコマンドが記憶されているコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると請求項１～９のいずれか一項に記載の方法を実現させることを特徴とするコンピュータ読取可能な記憶媒体。
コンピュータ読取可能なコードを含み、前記コンピュータ読取可能なコードは、電子機器中で動作すると、前記電子機器のプロセッサに請求項１～９のいずれか一項に記載の方法を実現するためのコマンドを実行させることを特徴とするコンピュータプログラム。