JP2022516518A - ニューラルネットワークをトレーニングする方法及び装置、画像を処理する方法及び装置 - Google Patents
ニューラルネットワークをトレーニングする方法及び装置、画像を処理する方法及び装置 Download PDFInfo
- Publication number
- JP2022516518A JP2022516518A JP2021538254A JP2021538254A JP2022516518A JP 2022516518 A JP2022516518 A JP 2022516518A JP 2021538254 A JP2021538254 A JP 2021538254A JP 2021538254 A JP2021538254 A JP 2021538254A JP 2022516518 A JP2022516518 A JP 2022516518A
- Authority
- JP
- Japan
- Prior art keywords
- state
- feature
- target image
- neural network
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 144
- 238000012549 training Methods 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000012545 processing Methods 0.000 title claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims description 52
- 238000004590 computer program Methods 0.000 claims description 16
- 238000003672 processing method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 19
- 230000006870 function Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本開示は、ニューラルネットワークをトレーニングする方法及び装置、画像を処理する方法及び装置に関する。このトレーニング方法は、ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得ることと、前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングすることと、を含む。本開示の実施例は、初期と校正カテゴリーラベルを共にニューラルネットワークのトレーニング過程の教師として、トレーニング過程とネットワーク構造を簡潔化することができる。【選択図】図1
Description
本開示は、コンピュータ技術に関し、特に、ニューラルネットワークをトレーニングする方法及び装置、画像を処理する方法及び装置に関する。
人工知能技術の持続的な発展に伴って、機械学習(特に深層学習)はコンピュータビジョン等の複数の分野で優れた効果を遂げている。現在の機械学習(深層学習)は、大規模で精確にラベリングされたデータ集合には強い依存性がある。
本開示は、ニューラルネットワークのトレーニング及び画像処理の技術手段を提供する。
本開示の一方面によれば、ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得ることと、前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングすることと、を含むニューラルネットワークをトレーニングする方法を提供する。
可能な一実施形態では、前記ニューラルネットワークは、特徴抽出ネットワークと分類ネットワークを含み、且つN個のトレーニング状態を含み、Nが1より大きい整数であり、ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得ることは、前記N個のトレーニング状態のうちの1つである第i状態(0≦i<N)の特徴抽出ネットワークによって目標画像に対して特徴抽出を行って、前記目標画像の第i状態における第1特徴を得ることとり、第i状態の分類ネットワークによって前記目標画像の第i状態における第1特徴を分類して、前記目標画像の第i状態における分類予測結果を得ることと、を含む。
可能な一実施形態では、前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングすることは、第i状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における総損失を決定することと、前記第i状態における総損失に基づいて、第i状態のニューラルネットワークのネットワークパラメータを調整して、第i+1状態のニューラルネットワークを得ることと、を含む。
可能な一実施形態では、前記方法は、第i状態の特徴抽出ネットワークによって、トレーニング集合内のサンプル画像のK個のカテゴリー(Kが1より大きい整数)のうちの1つであるk番目のカテゴリーの複数のサンプル画像に対して特徴抽出を行って、前記複数のサンプル画像の第i状態における第2特徴を得ること、前記k番目のカテゴリーの複数のサンプル画像の第i状態における第2特徴に対してクラスタリング処理を行って、前記k番目のカテゴリーの第i状態におけるクラスタ原型特徴を決定することと、K個のカテゴリーの第i状態におけるクラスタ原型特徴及び前記目標画像の第i状態における第1特徴に基づいて、前記目標画像の第i状態における校正カテゴリーラベルを決定することと、を更に含む。
可能な一実施形態では、前記K個のカテゴリーの第i状態におけるクラスタ原型特徴及び前記目標画像の第i状態における第1特徴に基づいて、前記目標画像の第i状態における校正カテゴリーラベルを決定することは、前記目標画像の第i状態における第1特徴とK個のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度をそれぞれ取得することと、第1特徴類似度の最大値に対応するクラスタ原型特徴の所属するカテゴリーによって、前記目標画像の第i状態における校正カテゴリーラベルを決定することと、を含む。
可能な一実施形態では、各カテゴリーの第i状態におけるクラスタ原型特徴は、複数のクラスタ原型特徴を含み、前記目標画像の第i状態における第1特徴とK個のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度をそれぞれ取得することは、前記第i状態における第1特徴とk番目のカテゴリーの第i状態における複数のクラスタ原型特徴との間の第2特徴類似度を取得することと、前記第2特徴類似度に基づいて、前記第i状態における第1特徴とk番目のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度を決定するステップと、を含む。
可能な一実施形態では、前記k番目のカテゴリーの第i状態におけるクラスタ原型特徴は、前記k番目のカテゴリーの複数のサンプル画像の第i状態における第2特徴のクラスタ中心を含む。
可能な一実施形態では、第i状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における総損失を決定することは、前記第i状態における分類予測結果及び前記目標画像の初期カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における第1損失を決定することと、前記第i状態における分類予測結果及び前記目標画像の第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における第2損失を決定することと、前記第i状態における第1損失と前記第i状態における第2損失に基づいて、前記ニューラルネットワークの第i状態における総損失を決定することと、を含む。
本開示の別の方面によれば、上記方法によってトレーニングして得られたニューラルネットワークを含むニューラルネットワークに被処理画像を入力して分類処理して、画像分類結果を得ることを含む画像処理方法を提供する。
本開示の別の方面によれば、ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得るための予測分類モジュールと、前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングするためのネットワークトレーニングモジュールと、を含むニューラルネットワークをトレーニングする装置を提供する。
可能な一実施形態では、前記ニューラルネットワークは、特徴抽出ネットワークと分類ネットワークを含み、且つN個のトレーニング状態を含み、Nが1より大きい整数であり、前記予測分類モジュールは、前記N個のトレーニング状態のうちの1つである第i状態(0≦i<N)の特徴抽出ネットワークによって目標画像に対して特徴抽出を行って、前記目標画像の第i状態における第1特徴を得るための特徴抽出サブモジュールと、第i状態の分類ネットワークによって前記目標画像の第i状態における第1特徴を分類して、前記目標画像の第i状態における分類予測結果を得るための結果決定サブモジュールと、を含む。
可能な一実施形態では、前記ネットワークトレーニングモジュールは、第i状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における総損失を決定するための損失決定モジュールと、前記第i状態における総損失に基づいて、第i状態のニューラルネットワークのネットワークパラメータを調整して、第i+1状態のニューラルネットワークを得るためのパラメータ調整モジュールと、を含む。
可能な一実施形態では、前記装置は、第i状態の特徴抽出ネットワークによって、トレーニング集合内のサンプル画像のK個のカテゴリー(Kが1より大きい整数)のうちの1つであるk番目のカテゴリーの複数のサンプル画像に対して特徴抽出を行って、前記複数のサンプル画像の第i状態における第2特徴を得るためのサンプル特徴抽出モジュールと、前記k番目のカテゴリーの複数のサンプル画像の第i状態における第2特徴に対してクラスタリング処理を行って、前記k番目のカテゴリーの第i状態におけるクラスタ原型特徴を決定するためのクラスタリングモジュールと、K個のカテゴリーの第i状態におけるクラスタ原型特徴及び前記目標画像の第i状態における第1特徴に基づいて、前記目標画像の第i状態における校正カテゴリーラベルを決定するためのラベル決定モジュールと、を更に含む。
可能な一実施形態では、前記ラベル決定モジュールは、前記目標画像の第i状態における第1特徴とK個のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度をそれぞれ取得するための類似度取得サブモジュールと、第1特徴類似度の最大値に対応するクラスタ原型特徴の所属するカテゴリーによって、前記目標画像の第i状態における校正カテゴリーラベルを決定するためのラベル決定サブモジュールと、を含む。
可能な一実施形態では、各カテゴリーの第i状態におけるクラスタ原型特徴は、複数のクラスタ原型特徴を含み、前記類似度取得サブモジュールは、前記第i状態における第1特徴とk番目のカテゴリーの第i状態における複数のクラスタ原型特徴との間の第2特徴類似度を取得することと、前記第2特徴類似度に基づいて、前記第i状態における第1特徴とk番目のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度を決定することと、に用いられる。
可能な一実施形態では、前記k番目のカテゴリーの第i状態におけるクラスタ原型特徴は、前記k番目のカテゴリーの複数のサンプル画像の第i状態における第2特徴のクラスタ中心を含む。
可能な一実施形態では、損失決定モジュールは、前記第i状態における分類予測結果及び前記目標画像の初期カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における第1損失を決定するための第1損失決定サブモジュールと、前記第i状態における分類予測結果及び前記目標画像の第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における第2損失を決定するための第2損失決定サブモジュールと、前記第i状態における第1損失と前記第i状態における第2損失に基づいて、前記ニューラルネットワークの第i状態における総損失を決定するための総損失決定サブモジュールと、を含む。
本開示の別の方面によれば、上記装置によってトレーニングして得られたニューラルネットワークを含むニューラルネットワークに被処理画像を入力して分類処理して、画像分類結果を得るための画像分類モジュールを含む画像処理装置を提供する。
本開示の別の方面によれば、プロセッサと、プロセッサが実行可能コマンドを記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶されたコマンドを呼び出して上記方法を実行するように構成される電子機器を提供する。
本開示の別の方面によれば、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると、上記方法を実現させるコンピュータ読取可能記憶媒体を提供する。
本開示の一方面によれば、コンピュータ読取可能コードを含み、前記コンピュータ読取可能コードは、電子機器中で動作すると、前記電子機器のプロセッサに上記方法を実現するためのコマンドを実行させるコンピュータプログラムを提供する。
本開示の実施例によれば、目標画像の初期カテゴリーラベルと校正カテゴリーラベルでニューラルネットワークのトレーニング過程の教師として、ニューラルネットワークの最適化方向を共に決定することにより、トレーニング過程とネットワーク構造を簡潔化することができる。
以上の一般説明と以下の詳細説明は解釈するための例示的なものに過ぎず、本開示を制限するものではないことを理解すべきである。以下、図面を参照しながら例示的な実施例について詳細な説明することにより、本開示の他の特徴および方面はより明確になる。
明細書に組み込まれ且つ明細書の一部を構成する図面は本開示に合致する実施例を示し、明細書と共に本開示の技術的手段を説明するためのものである。
以下に図面を参照しながら本開示の様々な例示的実施例、特徴および方面を詳細に説明する。図面における同じ符号は同じまたは類似の機能の要素を表す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を作る必要がない。
ここで「例示的」という用語は、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」として説明されるいかなる実施例も、他の実施例より好ましい又は優れたものと解釈すべきではない。
本明細書では、「及び/又は」という用語は、関連対象の関連関係を記述するためのものに過ぎず、3種の関係が存在可能であることを示し、例えば、A及び/又はBは、Aが独立すること、AとBが同時に存在すること、Bが独立することという3種の場合を示してもよい。また、本明細書では、「少なくとも1種」という用語は多種のうちのいずれか1種又は多種のうちの少なくとも2種の任意の組合を示し、例えば、A、B、Cのうちの少なくとも1種を含むことは、A、B及びCから構成される集合から選択されるいずれか1つ又は複数の要素を含むことを示してもよい。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくても、本開示は同様に実施可能であることを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者に既知の方法、手段、要素および回路に対する詳細な説明を省略する。
図1は本開示の実施例におけるニューラルネットワークをトレーニングする方法のフローチャートを示し、図1に示すように、前記ニューラルネットワークをトレーニングする方法は、
ステップS11において、ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得ることと、
ステップS12において、前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングすることとを含む。
ステップS11において、ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得ることと、
ステップS12において、前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングすることとを含む。
可能な一実施形態では、前記ニューラルネットワークをトレーニングする方法は、端末装置又はサーバ等の電子機器により実行されてもよく、端末装置はユーザ側装置(User Equipment、UE)、携帯機器、ユーザ端末、端末、セル方式の携帯無線電話、無線電話、携帯情報端末(Personal Digital Assistant、PDA)、携帯型デバイス、計算装置、車載装置、ウエアラブル装置等であってもよく、前記方法はプロセッサによってメモリに記憶されたコンピュータが読取可能なコマンドを呼び出して実現されてもよい。又は、サーバによって前記方法を実行してもよい。
可能な一実施形態では、トレーニング集合には精確にラベリングされていない大量のサンプル画像を含んでよく、これらのサンプル画像が異なる画像カテゴリーに属するものであり、画像のカテゴリーは、例えば、顔カテゴリー(例えば、それぞれのお客様の顔)、動物カテゴリー(例えば、猫、犬等)、服装カテゴリー(例えば、上着、ズボン等)である。本開示はサンプル画像の由来及びその具体的なカテゴリーを制限するものではない。
可能な一実施形態では、各サンプル画像は、このサンプル画像の所属するカテゴリーをラベリングするための初期カテゴリーラベル(ノイズラベル)を有するが、精確にラベリングされていないにより、一定数量のサンプル画像の初期カテゴリーラベルについてエラーが生じる可能性がある。本開示は初期カテゴリーラベルのノイズ分布状況を制限するものではない。
可能な一実施形態では、トレーニングされるニューラルネットワークは、例えば、深層畳み込みネットワークであってもよく、本開示は、ニューラルネットワークの具体的なネットワーク種類を制限するものではない。
ニューラルネットワークのトレーニング中、ステップS11において、トレーニング集合内の目標画像をトレーニングされるニューラルネットワークに入力して分類処理して、目標画像の分類予測結果を得ることができる。ここで、目標画像は、サンプル画像のうちの1つ又は複数のものであってもよく、例えば同一のトレーニングロットの複数のサンプル画像であってもよい。分類予測結果は、目標画像の所属する予測カテゴリーを含んでもよい。
目標画像の分類予測結果が得られた後、ステップS12において、分類予測結果、目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、ニューラルネットワークをトレーニングすることができる。ここで、校正カテゴリーラベルは、目標画像のカテゴリーを校正するために用いられる。つまり、分類予測結果、初期カテゴリーラベル及び校正カテゴリーラベルに基づいてニューラルネットワークのネットワーク損失を決定し、このネットワーク損失によってニューラルネットワークのネットワークパラメータを逆方向に調整することができる。複数回調整された後、最終的にトレーニング条件(例えば、ネットワークが収束した)を満たすニューラルネットワークが得られる。
本開示の実施例によれば、目標画像の初期カテゴリーラベルと校正カテゴリーラベルを共にニューラルネットワークのトレーニング過程の教師として、ニューラルネットワークの最適化方向を共に決定することにより、トレーニング過程とネットワーク構造を簡潔化することができる。
可能な一実施形態では、このニューラルネットワークは、特徴抽出ネットワークと分類ネットワークを含んでよい。特徴抽出ネットワークは、目標画像に対して特徴抽出を行うために用いられ、分類ネットワークは抽出された特徴によって目標画像を分類して、目標画像の分類予測結果を得るために用いられる。ここで、特徴抽出ネットワークは、例えば、複数の畳み込み層を含んでもよく、分類ネットワークは、例えば、全結合層とsoftmax層等を含んでもよい。本開示は、特徴抽出ネットワークと分類ネットワークのネットワーク層の具体的な種類及び数量を制限するものではない。
ニューラルネットワークをトレーニングする過程で、ニューラルネットワークのネットワークパラメータが複数回調整される。現在状態のニューラルネットワークが調整された後、次の状態のニューラルネットワークが得られる。ニューラルネットワークがN個(Nが1より大きい整数である)のトレーニング状態を含むように設定してもよい。そのようにして、現在の第i状態のニューラルネットワークについては、ステップS11は、
前記N個のトレーニング状態のうちの1つである第i状態(0≦i<N)の特徴抽出ネットワークによって目標画像に対して特徴抽出を行って、前記目標画像の第i状態における第1特徴を得ることと、
第i状態の分類ネットワークによって前記目標画像の第i状態における第1特徴を分類して、前記目標画像の第i状態における分類予測結果を得ることと、を含んでもよい。
前記N個のトレーニング状態のうちの1つである第i状態(0≦i<N)の特徴抽出ネットワークによって目標画像に対して特徴抽出を行って、前記目標画像の第i状態における第1特徴を得ることと、
第i状態の分類ネットワークによって前記目標画像の第i状態における第1特徴を分類して、前記目標画像の第i状態における分類予測結果を得ることと、を含んでもよい。
つまり、目標画像を第i状態の特徴抽出ネットワークに入力して特徴抽出を行って目標画像の第i状態における第1特徴を出力する。そして、第i状態における第1特徴を第i状態の分類ネットワークに入力して分類して目標画像の第i状態における分類予測結果を出力してもよい。
このような形態によれば、第i状態のニューラルネットワークの出力結果を得て、この結果によってニューラルネットワークをトレーニングすることができる。
可能な一実施形態では、前記方法は、
第i状態の特徴抽出ネットワークによって、トレーニング集合内のサンプル画像のK個のカテゴリー(Kが1より大きい整数)のうちの1つであるk番目のカテゴリーの複数のサンプル画像に対して特徴抽出を行って、前記複数のサンプル画像の第i状態における第2特徴を得ることと、
前記k番目のカテゴリーの複数のサンプル画像の第i状態における第2特徴に対してクラスタリング処理を行って、前記k番目のカテゴリーの第i状態におけるクラスタ原型特徴を決定することと、
K個のカテゴリーの第i状態におけるクラスタ原型特徴及び前記目標画像の第i状態における第1特徴に基づいて、前記目標画像の第i状態における校正カテゴリーラベルを決定することと、を更に含む。
第i状態の特徴抽出ネットワークによって、トレーニング集合内のサンプル画像のK個のカテゴリー(Kが1より大きい整数)のうちの1つであるk番目のカテゴリーの複数のサンプル画像に対して特徴抽出を行って、前記複数のサンプル画像の第i状態における第2特徴を得ることと、
前記k番目のカテゴリーの複数のサンプル画像の第i状態における第2特徴に対してクラスタリング処理を行って、前記k番目のカテゴリーの第i状態におけるクラスタ原型特徴を決定することと、
K個のカテゴリーの第i状態におけるクラスタ原型特徴及び前記目標画像の第i状態における第1特徴に基づいて、前記目標画像の第i状態における校正カテゴリーラベルを決定することと、を更に含む。
例を挙げると、トレーニング集合内のサンプル画像は、K個のカテゴリーを含んでもよく、Kが1より大きい整数である。特徴抽出ネットワークを特徴抽出器として、各々カテゴリーのサンプル画像の特徴を抽出してもよい。K個のカテゴリー中のk番目のカテゴリー(1≦k≦K)については、k番目のカテゴリーのサンプル画像から一部のサンプル画像(例えば、M個のサンプル画像、Mが1より大きい整数である)を選択して特徴抽出を行うようにしてよく、それによって計算コストが低減する。k番目のカテゴリーの全てのサンプル画像に対して特徴抽出を行ってもよいことを理解すべきであり、本開示はそれを制限するものではない。
可能な一実施形態では、k番目のカテゴリーのサンプル画像からM個のサンプル画像をランダムに選択してもよく、他の形態(例えば、画像鮮明度等のパラメータ)を用いてM個のサンプル画像を選択してもよく、本開示はそれを制限するものではない。
可能な一実施形態では、k番目のカテゴリーのM個のサンプル画像をそれぞれ第i状態の特徴抽出ネットワークに入力して特徴抽出を行ってM個のサンプル画像の第i状態における第2特徴(M個)を出力することができる。そして、第i状態のM個の第2特徴に対してクラスタリング処理を行ってk番目のカテゴリーの第i状態におけるクラスタ原型特徴を決定することができる。
可能な一実施形態では、密度ピーククラスタリング、K平均値(K-means)クラスタリング、スペクトルクラスタリング等の手法によってM個の第2特徴をクラスタリングしてよもく、本開示はクラスタリングの手法を制限するものではない。
可能な一実施形態では、k番目のカテゴリーの第i状態におけるクラスタ原型特徴は、前記k番目のカテゴリーの複数のサンプル画像の第i状態における第2特徴のクラスタ中心を含む。即ち、第i状態のM個の第2特徴をクラスタリングするクラスタ中心をk番目のカテゴリーの第i状態におけるクラスタ原型特徴としてもよい。
可能な一実施形態では、クラスタ原型特徴は、複数であってもよく、即ち、M個の第2特徴から複数のクラスタ原型特徴を選択する。例えば、密度ピーククラスタリングの手法を用いる時に、クラスタ原型特徴として密度値が最も高いp個の画像(p<M)の第2特徴を選択してもよく、密度値と特徴の間の類似度値等のパラメータを総合的に考慮することでクラスタ原型特徴を選択してもよい。当業者が実際の状況に応じてクラスタ原型特徴を選択してもよく、本開示はそれを制限するものではない。
このような形態によれば、目標画像の特徴と照合するように、各カテゴリ中のサンプルから抽出されるべき特徴はクラスタ原型特徴で表してもよい。
可能な一実施形態では、K個のカテゴリーのサンプル画像から一部のサンプル画像をそれぞれ選択し、選定された画像をそれぞれ特徴抽出ネットワークに入力して第2特徴を得ることができる。各々のカテゴリーの第2特徴をそれぞれクラスタリングし、各々のカテゴリーのクラスタ原型特徴を取得し、即ち、K個のカテゴリーの第i状態におけるクラスタ原型特徴を取得する。更に、K個のカテゴリーの第i状態におけるクラスタ原型特徴及び目標画像の第i状態における第1特徴に基づいて、前記目標画像の第i状態における校正カテゴリーラベルを決定することができる。
このような形態によれば、目標画像のカテゴリーラベルを校正し、ニューラルネットワークのトレーニングのために別の教師信号を提供することができる。
可能な一実施形態では、K個のカテゴリーの第i状態におけるクラスタ原型特徴及び前記目標画像の第i状態における第1特徴に基づいて、前記目標画像の第i状態における校正カテゴリーラベルを決定するステップには、
前記目標画像の第i状態における第1特徴とK個のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度をそれぞれ取得することと、
第1特徴類似度の最大値に対応するクラスタ原型特徴の所属するカテゴリーによって、前記目標画像の第i状態における校正カテゴリーラベルを決定することと、を含んでもよい。
前記目標画像の第i状態における第1特徴とK個のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度をそれぞれ取得することと、
第1特徴類似度の最大値に対応するクラスタ原型特徴の所属するカテゴリーによって、前記目標画像の第i状態における校正カテゴリーラベルを決定することと、を含んでもよい。
例を挙げると、目標画像があるカテゴリーに属するものであれば、この目標画像の特徴はこのカテゴリー中のサンプルから抽出されるべき特徴(クラスタ原型特徴)との類似度が高い。従って、目標画像の第i状態における第1特徴とK個のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度をそれぞれ計算してもよい。この第1特徴類似度は、例えば、特徴間のコサイン類似度又はユークリッド距離等であってもよく、本開示はそれを制限するものではない。
可能な一実施形態では、K個のカテゴリーの第1特徴類似度のうちの最大値を決定し、この最大値に対応するクラスタ原型特徴の所属するカテゴリーを目標画像の第i状態における校正カテゴリーラベルとてもよい。即ち、類似度が最も大きいカテゴリー特徴原型が対応するラベルを選択してこのサンプルに新しいラベルを付与する。
このような形態によれば、クラスタ原型特徴によって目標画像のカテゴリーラベルを校正して、校正されるカテゴリーラベルの正確性を高めることができ、校正カテゴリーラベルでニューラルネットワークのトレーニングの教師とする時に、ネットワークのトレーニング効果を高めることができる。
可能な一実施形態では、各カテゴリーの第i状態におけるクラスタ原型特徴は、複数のクラスタ原型特徴を含み、ここで、前記目標画像の第i状態における第1特徴とK個のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度をそれぞれ取得する前記ステップには、
前記第i状態における第1特徴とk番目のカテゴリーの第i状態における複数のクラスタ原型特徴との間の第2特徴類似度を取得することと、
前記第2特徴類似度に基づいて、前記第i状態における第1特徴とk番目のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度を決定することと、を含んでもよい。
前記第i状態における第1特徴とk番目のカテゴリーの第i状態における複数のクラスタ原型特徴との間の第2特徴類似度を取得することと、
前記第2特徴類似度に基づいて、前記第i状態における第1特徴とk番目のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度を決定することと、を含んでもよい。
例を挙げると、各カテゴリーのサンプルから抽出されるべき特徴をより正確に表すために、クラスタ原型特徴は複数であってもよい。この場合に、K個のカテゴリーのいずれか1つのカテゴリー(k番目のカテゴリー)については、第i状態における第1特徴とk番目のカテゴリーの第i状態における複数のクラスタ原型特徴との間の第2特徴類似度をそれぞれ計算し、更に複数の第2特徴類似度に基づいて第1特徴類似度を決定するしてもよい。
可能な一実施形態では、例えば、複数の第2特徴類似度の平均値を第1特徴類似度としてもよく、複数の第2特徴類似度から適切な類似度値を選択して第1特徴類似度としてもよく、本開示はそれを制限するものではない。
このような形態によれば、目標画像の特徴とクラスタ原型特徴との間の類似度の計算の正確性を更に高めることができる。
可能な一実施形態では、目標画像の第i状態における校正カテゴリーラベルが決定された後、この校正カテゴリーラベルに基づいてニューラルネットワークをトレーニングすることができる。ここで、ステップS12は、
第i状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における総損失を決定することと、
前記第i状態における総損失に基づいて、第i状態のニューラルネットワークのネットワークパラメータを調整して、第i+1状態のニューラルネットワークを得ることと、を含んでもよい。
第i状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における総損失を決定することと、
前記第i状態における総損失に基づいて、第i状態のニューラルネットワークのネットワークパラメータを調整して、第i+1状態のニューラルネットワークを得ることと、を含んでもよい。
例を挙げると、現在の第i状態については、ステップS11で得られた第i状態における分類予測結果と目標画像の初期カテゴリーラベル及び第i状態における校正カテゴリーラベルとの間の違いによって、ニューラルネットワークの第i状態における総損失を計算し、更にこの総損失に基づいて第i状態のニューラルネットワークのネットワークパラメータを逆方向に調整して、次のトレーニング状態(第i+1状態)のニューラルネットワークを得ることができる。
可能な一実施形態では、初めてトレーニングする前に、ニューラルネットワークが初期状態(i=0)であり、初期カテゴリーラベルだけでネットワークのトレーニングの教師してもよい。即ち、初期状態の分類予測結果と初期カテゴリーラベルに基づいてニューラルネットワークの総損失を決定して、更にネットワークパラメータを逆方向に調整して、次のトレーニング状態(i=1)のニューラルネットワークを得る。
可能な一実施形態では、i=N-1の時に、第N-1状態の総損失に基づいて、第i状態のニューラルネットワークのネットワークパラメータを調整し、第N状態のニューラルネットワーク(ネットワークが収束した)が得ることができる。そのようにして、第N状態のニューラルネットワークをトレーニング済みのニューラルネットワークとして決定して、ニューラルネットワークのトレーニング全過程を完成することができる。
このような形態によれば、ニューラルネットワークのトレーニング過程を複数回サクルで完成して、高精度のニューラルネットワークを得ることができる。
可能な一実施形態では、第i状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における総損失を決定する前記ステップには、
前記第i状態における分類予測結果及び前記目標画像の初期カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における第1損失を決定することと、
前記第i状態における分類予測結果及び前記目標画像の第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における第2損失を決定することと、
前記第i状態における第1損失と前記第i状態における第2損失に基づいて、前記ニューラルネットワークの第i状態における総損失を決定することと、を含んでよい。
前記第i状態における分類予測結果及び前記目標画像の初期カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における第1損失を決定することと、
前記第i状態における分類予測結果及び前記目標画像の第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における第2損失を決定することと、
前記第i状態における第1損失と前記第i状態における第2損失に基づいて、前記ニューラルネットワークの第i状態における総損失を決定することと、を含んでよい。
例を挙げると、第i状態における分類予測結果と初期カテゴリーラベルとの間の違いによって、ニューラルネットワークの第i状態における第1損失を決定し、第i状態における分類予測結果と第i状態における校正カテゴリーラベルとの間の違いによって、ニューラルネットワークの第i状態における第2損失を決定することができる。ここで、第1損失と第2損失は、例えば、交差エントロピー損失関数であってもよく、本開示は損失関数の具体的な種類を制限するものではない。
可能な一実施形態では、第1損失と第2損失の加重和をニューラルネットワークの総損失として決定してもよい。当業者であれば実際の状況に応じて第1損失と第2損失の重みを設定しすることができ、本開示はそれを制限するものではない。
可能な一実施形態では、総損失Ltotalは、以下のように表す。
式(1)において、xは目標画像を表し、θはニューラルネットワークのネットワークパラメータを表し、F(θ,x)は分類予測結果を表し、yは初期カテゴリーラベルを表し、y^は校正カテゴリーラベルを表し、L(F(θ,x),y)は第1損失を表し、L(F(θ,x),y^)は第2損失を表し、αは第2損失の重みを表す。
このような形態によれば、初期カテゴリーラベル及び校正カテゴリーラベルに基づいて第1損失と第2損失をそれぞれ決定し、更にニューラルネットワークの総損失を決定することができ、それによって、2つの教師信号を共に教師とすることを実現して、ネットワークトレーニング効果を高める。
図2は本開示の実施例におけるニューラルネットワークをトレーニングする方法の応用例の模式図を示す。図2に示すように、この応用例は、トレーニング段階21とラベル校正段階22の2つの部分に分けられる。
この応用例において、目標画像xは1つのトレーニングロットの複数のサンプル画像を含んでよい。ニューラルネットワークをトレーニングする過程のいずれか1つの中間状態(例えば、第i状態)で、トレーニング段階21については、目標画像xを特徴抽出ネットワーク211(複数の畳み込み層を含む)に入力して処理して目標画像xの第1特徴を出力する。そして、第1特徴を分類ネットワーク212(全結合層とsoftmax層を含む)に入力し処理して目標画像xの分類予測結果213(F(θ,x))を出力そして、分類予測結果213と初期カテゴリーラベルyによって第1損失L(F(θ,x),y)を決定することができる。分類予測結果213と校正カテゴリーラベルy^によって第2損失L(F(θ,x),y^)を決定することができる。重み1-αとαによって第1損失と第2損失の加重和を求めることにより、総損失Ltotalを得ることができる。
この応用例において、ラベル校正段階22については、この状態での特徴抽出ネットワーク211を再利用するか、この状態での特徴抽出ネットワーク211のネットワークパラメータをコピーして、ラベル校正段階22の特徴抽出ネットワーク221を得ることができる。トレーニング集合内のk番目のカテゴリーのサンプル画像からM個のサンプル画像222(例えば、図2におけるカテゴリーが「ズボン」である複数のサンプル画像)をランダムに選択し、選定されたM個のサンプル画像222をそれぞれ特徴抽出ネットワーク221に入力して処理し、k番目のカテゴリーの選定されたサンプル画像の特徴集合を出力する。そのようにして、全てのK個のカテゴリーのサンプル画像からサンプル画像をランダムに選択して、K個のカテゴリーの選定されたサンプル画像を含む特徴集合223を得ることができる。
この応用例において、各カテゴリーの選定されたサンプル画像の特徴集合に対してそれぞれクラスタリング処理を行って、クラスタリング結果によってクラスタ原型特徴を選択することができ、例えば、クラスタ中心に対応する特徴をクラスタ原型特徴とするか、決定の規則によってp個のクラスタ原型特徴を選択する。そのようにして、各カテゴリーのクラスタ原型特徴224が得られる。
この応用例において、目標画像xを特徴抽出ネットワーク221に入力して処理して目標画像xの第1特徴G(x)を出力してもよく、トレーニング段階21で得られた第1特徴を直接呼び出してもよい。そして、目標画像xの第1特徴G(x)と各カテゴリーのクラスタ原型特徴との間の特徴類似度をそれぞれ計算し、特徴類似度の最大値に対応するクラスタ原型特徴のカテゴリーを目標画像xの校正カテゴリーラベルy^として決定し、それによってラベル校正過程を完成する。校正カテゴリーラベルy^はトレーニング段階21に入力してトレーニング段階の別の教師信号としてもよい。
この応用例において、トレーニング段階21については、分類予測結果213、初期カテゴリーラベルy、校正カテゴリーラベルy^によって総損失Ltotalが決定された後、総損失に基づいてニューラルネットワークのネットワークパラメータを逆方向に調整して、次の状態のニューラルネットワークを得ることができる。
上記のトレーニング段階とラベル校正段階をネットワークトのレーニングが収束するまで交互に行って、トレーニング済みのニューラルネットワークが得られる。
本開示の実施例におけるニューラルネットワークをトレーニングする方法は、ネットワークトレーニング過程に自分校正段階を加えてノイズデータラベルの再度校正を実現し、更に校正されたラベルを教師信号の一部として、元のノイズラベルと共にネットワークのトレーニング過程の教師とするようにして、ニューラルネットワークが正確にラベリングされていないデータ集合で学習した後の汎化能力を高めることができる。
本開示の実施例によれば、ノイズ分布を予め仮定する必要がなく、別の教師データ及び補助ネットワークが不要であり、複数のカテゴリーの原型特徴を抽出してカテゴリー中のデータ分布をより好適に表現することができ、エンドツーエンドの自分学習仕組みによって、従来、実際ノイズデータ集合でネットワークをトレーニングすることが困難である問題を解決し、トレーニング過程とネットワーク設計を簡潔化した。本開示の実施例によれば、コンピュータビジョン等の分野に用いられて、ノイズデータによるモデルのトレーニングを実現することができる。
本開示の実施例によれば、上記の方法によってトレーニングして得られたニューラルネットワークを含むニューラルネットワークに被処理画像を入力して分類処理して、画像分類結果を得ることを含む画像処理方法を更に提供する。このような形態によれば、小規模の単一のネットワークで高性能の画像処理を実現することができる。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、ページ数に限りがあるので、本開示では詳細な説明を省略する。具体的な実施形態の上記方法において、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。
また、本開示はニューラルネットワークトレーニング装置及び画像処理装置、電子機器、コンピュータ読取可能な記憶媒体、プログラムを更に提供し、それらはいずれも本開示で提供されるいずれか1種のニューラルネットワークトレーニング方法を実現することに利用可能であり、対応する技術的解決手段及び説明については方法部分の対応の記載を参照してもよく、ここで詳細な説明を省略する。
図3は本開示の実施例におけるニューラルネットワークをトレーニングする装置のブロック図を示す。本開示の別の方面によれば、ニューラルネットワークをトレーニングする装置を提供する。図3に示すように、前記ニューラルネットワークをトレーニングする装置は、ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得るための予測分類モジュール31と、前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングするためのネットワークトレーニングモジュール32と、を含む。
可能な一実施形態では、前記ニューラルネットワークは、特徴抽出ネットワークと分類ネットワークを含み、且つN個のトレーニング状態を含み、Nが1より大きい整数であり、前記予測分類モジュールは、前記N個のトレーニング状態のうちの1つである第i状態(0≦i<N)の特徴抽出ネットワークによって目標画像に対して特徴抽出を行って、前記目標画像の第i状態における第1特徴を得るための特徴抽出サブモジュールと、第i状態の分類ネットワークによって前記目標画像の第i状態における第1特徴を分類して、前記目標画像の第i状態における分類予測結果を得るための結果決定サブモジュールと、を含む。
可能な一実施形態では、前記ネットワークトレーニングモジュールは、第i状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における総損失を決定するための損失決定モジュールと、前記第i状態における総損失に基づいて、第i状態のニューラルネットワークのネットワークパラメータを調整して、第i+1状態のニューラルネットワークを得るためのパラメータ調整モジュールと、を含む。
可能な一実施形態では、前記装置は、第i状態の特徴抽出ネットワークによって、トレーニング集合内のサンプル画像のK個のカテゴリー(Kが1より大きい整数)のうちの1つであるk番目のカテゴリーの複数のサンプル画像に対して特徴抽出を行って、前記複数のサンプル画像の第i状態における第2特徴を得るためのサンプル特徴抽出モジュールと、前記k番目のカテゴリーの複数のサンプル画像の第i状態における第2特徴に対してクラスタリング処理を行って、前記k番目のカテゴリーの第i状態におけるクラスタ原型特徴を決定するためのクラスタリングモジュールと、K個のカテゴリーの第i状態におけるクラスタ原型特徴及び前記目標画像の第i状態における第1特徴に基づいて、前記目標画像の第i状態における校正カテゴリーラベルを決定するためのラベル決定モジュールと、を更に含む。
可能な一実施形態では、前記ラベル決定モジュールは、前記目標画像の第i状態における第1特徴とK個のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度をそれぞれ取得するための類似度取得サブモジュールと、第1特徴類似度の最大値に対応するクラスタ原型特徴の所属するカテゴリーによって、前記目標画像の第i状態における校正カテゴリーラベルを決定するためのラベル決定サブモジュールと、を含む。
可能な一実施形態では、各カテゴリーの第i状態におけるクラスタ原型特徴は、複数のクラスタ原型特徴を含み、前記類似度取得サブモジュールは、前記第i状態における第1特徴とk番目のカテゴリーの第i状態における複数のクラスタ原型特徴との間の第2特徴類似度を取得することと、前記第2特徴類似度に基づいて、前記第i状態における第1特徴とk番目のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度を決定することと、に用いられる。
可能な一実施形態では、前記k番目のカテゴリーの第i状態におけるクラスタ原型特徴は、前記k番目のカテゴリーの複数のサンプル画像の第i状態における第2特徴のクラスタ中心を含む。
可能な一実施形態では、損失決定モジュールは、前記第i状態における分類予測結果及び前記目標画像の初期カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における第1損失を決定するための第1損失決定サブモジュールと、前記第i状態における分類予測結果及び前記目標画像の第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における第2損失を決定するための第2損失決定サブモジュールと、前記第i状態における第1損失と前記第i状態における第2損失に基づいて、前記ニューラルネットワークの第i状態における総損失を決定するための総損失決定サブモジュールと、を含む。
本開示の別の方面によれば、上記装置によってトレーニングして得られたニューラルネットワークを含むニューラルネットワークに被処理画像を入力して分類処理して、画像分類結果を得るための画像分類モジュールを含む画像処理装置を提供する。
いくつかの実施例では、本開示の実施例で提供された装置が有している機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実施形態については上記方法実施例の説明を参照してもよく、簡潔化するために、ここで重複説明は割愛する。
本開示の実施例は、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると、上記方法を実現させるコンピュータ読取可能な記憶媒体を更に提供する。コンピュータ読取可能な記憶媒体は、非揮発性コンピュータ読取可能な記憶媒体であっても、揮発性コンピュータ読取可能な記憶媒体であってもよい。
本開示の実施例は、プロセッサと、プロセッサが実行可能なコマンドを記憶するためのメモリと、を含み、前記プロセッサが前記メモリに記憶されたコマンドを呼び出して上記方法を実行するように構成される電子機器を更に提供する。
本開示の実施例は、コンピュータ読取可能なコードを含み、前記コンピュータ読取可能なコードは、電子機器中で動作すると、前記電子機器のプロセッサが上記方法を実現するためのコマンドを実行させるコンピュータプログラムを更に提供する。
電子機器は、端末、サーバ又は他の形態のデバイスとして提供されてよい。
図4は本開示の実施例による電子機器800のブロック図を示す。例えば、装置800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット装置、医療機器、フィットネス器具、パーソナル・デジタル・アシスタントなどの端末であってもよい。
図4を参照して、電子機器800は処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インタフェース812、センサコンポーネント814、および通信コンポーネント816の一つ以上を含むんでもよい。
処理コンポーネント802は通常、電子機器800の全体的な操作、例えば表示、電話の呼び出し、データ通信、カメラ操作および記録操作に関連する操作を制御している。処理コンポーネント802は、上記方法の全てまたは一部のステップを完成するために、一つ以上のプロセッサ820を含んで命令を実行しても良い。なお、処理コンポーネント802は、他のコンポーネントとの対話のために、一つ以上のモジュールを含むことができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでも良い。
メモリ804は電子機器800での操作をサポートするために様々なタイプのデータを記憶しているように配置される。これらのデータの例は電子機器800に運用するためのあらゆるアプリケーションプログラムまたは方法の令指令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で一つの出力インタフェースを提供する画面を含む。いくつかの実施例では、画面は液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。画面がタッチパネルを含む場合、ユーザからの入力信号を受信するように、タッチ画面として実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライドの動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出してもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または後面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになると、前面カメラおよび/または後面カメラは外部のマルチメディアデータを受信することができる。各前面カメラおよび後面カメラは固定された光学レンズ系または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように配置される。例えば、オーディオコンポーネント810は、電子機器800が操作モード、例えば呼び出しモード、記録モードおよび音声認識モードになると、外部のオーディオ信号を受信するようにマイク(MIC)が配置される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を経して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでも良いが、これらに限定されない。
センサコンポーネント814は電子機器800に全面的な状態評価を提供するための一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、コンポーネントの相対的位置決め、例えば前記コンポーネントが電子機器800の表示装置およびキーパッドであることを検出しても良く、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出してもよい。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するために用いられるように配置された近接センサを含む。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
通信コンポーネント816は電子機器800と他の機器との間の有線または無線通信を実現するように配置される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせに接続しても良い。一例示的実施例では、通信コンポーネント816は放送チャネルによって外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールでは無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標/BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の決定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現し、上記方法を実行するために用いることができる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は電子機器800のプロセッサ820によって実行して上記方法を完成することができる。
図5は本開示の実施例に係る電子機器1900のブロック図である。例えば、電子機器1900はサーバとして提供できる。図5を参照すると、電子機器1900は、さらに一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されたアプリケーションプログラムはそれぞれが1グループの命令に対応する一つ以上のモジュールを含むことができる。また、処理コンポーネント1922は命令を実行し、それによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成された電源コンポーネント1926、電子機器1900をネットワークに接続するように構成された有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含むことができる。電子機器1900はメモリ1932に記憶されたオペレーティングシステム、例えばWindows(登録商標) ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能な記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令が電子機器1900の処理コンポーネント1922によって実行されると上記方法を完成実行することができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各方面を実現させるためのコンピュータ読み取り可能なプログラム命令を有しているコンピュータ読み取り可能な記憶媒体を含むことができる。
コンピュータ読み取り可能な記憶媒体は命令実行装置により使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ読み取り可能な記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能な記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ読み取り可能なプログラム命令はコンピュータ読み取り可能記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでも良い。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ読み取り可能なプログラム命令を受信し、該コンピュータ読み取り可能なプログラム命令を転送し、各計算/処理機器内のコンピュータ読み取り可能な記憶媒体に記憶させる。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能なプログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ読み取り可能なプログラム命令を実行することで、それにより本開示の各方面を実現できるようにしてもよい。
なお、ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明しが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能なプログラム命令によって実現できることを理解すべきである。
これらのコンピュータ読み取り可能なプログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されて、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現するように機械を製造してもよい。また、これらのコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体に記憶し、コンピュータ、プログラマブルデータ処理装置および/または他の機器を決定の方式で動作させるようにしてもよい。命令を記憶しているコンピュータ読み取り可能な記憶媒体には、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現するための命令を有する製品を含む。
コンピュータ読み取り可能なプログラムをコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードし、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させることにより、コンピュータにより実現されるプロセスを生成し、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令によりフローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は図面に付した順序と異なって実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。
論理に違反しない限り、本願のそれぞれの実施例は相互に組み合わせることができ、異なる実施例において重点として説明されるものが異なって、重点として説明されていない部分については他の実施例の記載を参照してもよい。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
本願は、2019年5月21日に中国特許局に提出された、出願番号201910426010.4、発明の名称「ニューラルネットワークをトレーニングする方法及び装置、画像を処理する方法及び装置」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
Claims (21)
- ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得ることと、
前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングすることと、を含むことを特徴とするニューラルネットワークをトレーニングする方法。 - 前記ニューラルネットワークは、特徴抽出ネットワークと分類ネットワークを含み、且つN個のトレーニング状態を含み、Nが1より大きい整数であり、
ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得ることは、
前記N個のトレーニング状態のうちの1つである第i状態(0≦i<N)の特徴抽出ネットワークによって目標画像に対して特徴抽出を行って、前記目標画像の第i状態における第1特徴を得ることと、
第i状態の分類ネットワークによって前記目標画像の第i状態における第1特徴を分類して、前記目標画像の第i状態における分類予測結果を得ることと、を含むことを特徴とする請求項1に記載の方法。 - 前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングすることは、
第i状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における総損失を決定することと、
前記第i状態における総損失に基づいて、第i状態のニューラルネットワークのネットワークパラメータを調整して、第i+1状態のニューラルネットワークを得ることと、を含むことを特徴とする請求項2に記載の方法。 - 第i状態の特徴抽出ネットワークによって、トレーニング集合内のサンプル画像のK個のカテゴリー(Kが1より大きい整数)のうちの1つであるk番目のカテゴリーの複数のサンプル画像に対して特徴抽出を行って、前記複数のサンプル画像の第i状態における第2特徴を得ることと、
前記k番目のカテゴリーの複数のサンプル画像の第i状態における第2特徴に対してクラスタリング処理を行って、前記k番目のカテゴリーの第i状態におけるクラスタ原型特徴を決定することと、
K個のカテゴリーの第i状態におけるクラスタ原型特徴及び前記目標画像の第i状態における第1特徴に基づいて、前記目標画像の第i状態における校正カテゴリーラベルを決定することと、を更に含むことを特徴とする請求項2又は3に記載の方法。 - 前記K個のカテゴリーの第i状態におけるクラスタ原型特徴及び前記目標画像の第i状態における第1特徴に基づいて、前記目標画像の第i状態における校正カテゴリーラベルを決定することは、
前記目標画像の第i状態における第1特徴とK個のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度をそれぞれ取得することと、
第1特徴類似度の最大値に対応するクラスタ原型特徴の所属するカテゴリーによって、前記目標画像の第i状態における校正カテゴリーラベルを決定することと、を含むことを特徴とする請求項4に記載の方法。 - 各カテゴリーの第i状態におけるクラスタ原型特徴は、複数のクラスタ原型特徴を含み、
前記目標画像の第i状態における第1特徴とK個のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度をそれぞれ取得することは、
前記第i状態における第1特徴とk番目のカテゴリーの第i状態における複数のクラスタ原型特徴との間の第2特徴類似度を取得することと、
前記第2特徴類似度に基づいて、前記第i状態における第1特徴とk番目のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度を決定することと、を含むことを特徴とする請求項5に記載の方法。 - 前記k番目のカテゴリーの第i状態におけるクラスタ原型特徴は、前記k番目のカテゴリーの複数のサンプル画像の第i状態における第2特徴のクラスタ中心を含むことを特徴とする請求項4~6のいずれか一項に記載の方法。
- 第i状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における総損失を決定することは、
前記第i状態における分類予測結果及び前記目標画像の初期カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における第1損失を決定することと、
前記第i状態における分類予測結果及び前記目標画像の第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における第2損失を決定することと、
前記第i状態における第1損失と前記第i状態における第2損失に基づいて、前記ニューラルネットワークの第i状態における総損失を決定することと、を含むことを特徴とする請求項3~7のいずれか一項に記載の方法。 - 請求項1~8のいずれか一項に記載の方法によってトレーニングして得られたニューラルネットワークを含むニューラルネットワークに被処理画像を入力して分類処理して、画像分類結果を得ることを含むことを特徴とする画像処理方法。
- ニューラルネットワークによってトレーニング集合内の目標画像を分類処理して、前記目標画像の分類予測結果を得るための予測分類モジュールと、
前記分類予測結果、前記目標画像の初期カテゴリーラベル及び校正カテゴリーラベルに基づいて、前記ニューラルネットワークをトレーニングするためのネットワークトレーニングモジュールと、を含むことを特徴とするニューラルネットワークをトレーニングする装置。 - 前記ニューラルネットワークは、特徴抽出ネットワークと分類ネットワークを含み、且つN個のトレーニング状態を含み、Nが1より大きい整数であり、前記予測分類モジュールは、
前記N個のトレーニング状態のうちの1つである第i状態(0≦i<N)の特徴抽出ネットワークによって目標画像に対して特徴抽出を行って、前記目標画像の第i状態における第1特徴を得るための特徴抽出サブモジュールと、
第i状態の分類ネットワークによって前記目標画像の第i状態における第1特徴を分類して、前記目標画像の第i状態における分類予測結果を得るための結果決定サブモジュールと、を含むことを特徴とする請求項10に記載の装置。 - 前記ネットワークトレーニングモジュールは、
第i状態における分類予測結果、前記目標画像の初期カテゴリーラベル及び第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における総損失を決定するための損失決定モジュールと、
前記第i状態における総損失に基づいて、第i状態のニューラルネットワークのネットワークパラメータを調整して、第i+1状態のニューラルネットワークを得るためのパラメータ調整モジュールと、を含むことを特徴とする請求項11に記載の装置。 - 第i状態の特徴抽出ネットワークによって、トレーニング集合内のサンプル画像のK個のカテゴリー(Kが1より大きい整数)のうちの1つであるk番目のカテゴリーの複数のサンプル画像に対して特徴抽出を行って、前記複数のサンプル画像の第i状態における第2特徴を得るためのサンプル特徴抽出モジュールと、
前記k番目のカテゴリーの複数のサンプル画像の第i状態における第2特徴に対してクラスタリング処理を行って、前記k番目のカテゴリーの第i状態におけるクラスタ原型特徴を決定するためのクラスタリングモジュールと、
K個のカテゴリーの第i状態におけるクラスタ原型特徴及び前記目標画像の第i状態における第1特徴に基づいて、前記目標画像の第i状態における校正カテゴリーラベルを決定するためのラベル決定モジュールと、を更に含むことを特徴とする請求項11又は12に記載の装置。 - 前記ラベル決定モジュールは、
前記目標画像の第i状態における第1特徴とK個のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度をそれぞれ取得するための類似度取得サブモジュールと、
第1特徴類似度の最大値に対応するクラスタ原型特徴の所属するカテゴリーによって、前記目標画像の第i状態における校正カテゴリーラベルを決定するためのラベル決定サブモジュールと、を含むことを特徴とする請求項13に記載の装置。 - 各カテゴリーの第i状態におけるクラスタ原型特徴は、複数のクラスタ原型特徴を含み、前記類似度取得サブモジュールは、
前記第i状態における第1特徴とk番目のカテゴリーの第i状態における複数のクラスタ原型特徴との間の第2特徴類似度を取得することと、
前記第2特徴類似度に基づいて、前記第i状態における第1特徴とk番目のカテゴリーの第i状態におけるクラスタ原型特徴との間の第1特徴類似度を決定することと、に用いられることを特徴とする請求項14に記載の装置。 - 前記k番目のカテゴリーの第i状態におけるクラスタ原型特徴は、前記k番目のカテゴリーの複数のサンプル画像の第i状態における第2特徴のクラスタ中心を含むことを特徴とする請求項13~15のいずれか一項に記載の装置。
- 損失決定モジュールは、
前記第i状態における分類予測結果及び前記目標画像の初期カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における第1損失を決定するための第1損失決定サブモジュールと、
前記第i状態における分類予測結果及び前記目標画像の第i状態における校正カテゴリーラベルに基づいて、前記ニューラルネットワークの第i状態における第2損失を決定するための第2損失決定サブモジュールと、
前記第i状態における第1損失と前記第i状態における第2損失に基づいて、前記ニューラルネットワークの第i状態における総損失を決定するための総損失決定サブモジュールと、を含むことを特徴とする請求項12~16のいずれか一項に記載の装置。 - 請求項10~17のいずれか一項に記載の装置によってトレーニングして得られたニューラルネットワークを含むニューラルネットワークに被処理画像を入力して分類処理して、画像分類結果を得るための画像分類モジュールを含むことを特徴とする画像処理装置。
- プロセッサと、
プロセッサが実行可能なコマンドを記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶されたコマンドを呼び出して請求項1~9のいずれか一項に記載の方法を実行するように構成されることを特徴とする電子機器。 - コンピュータプログラムコマンドが記憶されているコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると請求項1~9のいずれか一項に記載の方法を実現させることを特徴とするコンピュータ読取可能な記憶媒体。
- コンピュータ読取可能なコードを含み、前記コンピュータ読取可能なコードは、電子機器中で動作すると、前記電子機器のプロセッサに請求項1~9のいずれか一項に記載の方法を実現するためのコマンドを実行させることを特徴とするコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910426010.4 | 2019-05-21 | ||
CN201910426010.4A CN110210535B (zh) | 2019-05-21 | 2019-05-21 | 神经网络训练方法及装置以及图像处理方法及装置 |
PCT/CN2019/114470 WO2020232977A1 (zh) | 2019-05-21 | 2019-10-30 | 神经网络训练方法及装置以及图像处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022516518A true JP2022516518A (ja) | 2022-02-28 |
Family
ID=67788041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021538254A Pending JP2022516518A (ja) | 2019-05-21 | 2019-10-30 | ニューラルネットワークをトレーニングする方法及び装置、画像を処理する方法及び装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210326708A1 (ja) |
JP (1) | JP2022516518A (ja) |
CN (2) | CN113743535B (ja) |
SG (1) | SG11202106979WA (ja) |
TW (1) | TWI759722B (ja) |
WO (1) | WO2020232977A1 (ja) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743535B (zh) * | 2019-05-21 | 2024-05-24 | 北京市商汤科技开发有限公司 | 神经网络训练方法及装置以及图像处理方法及装置 |
KR20210017185A (ko) * | 2019-08-07 | 2021-02-17 | 한국전자통신연구원 | 심층 신경망을 기반으로 영상의 압축 포아송 잡음을 제거하는 방법 및 장치 |
CN110647938B (zh) * | 2019-09-24 | 2022-07-15 | 北京市商汤科技开发有限公司 | 图像处理方法及相关装置 |
US11429809B2 (en) | 2019-09-24 | 2022-08-30 | Beijing Sensetime Technology Development Co., Ltd | Image processing method, image processing device, and storage medium |
CN110659625A (zh) * | 2019-09-29 | 2020-01-07 | 深圳市商汤科技有限公司 | 物体识别网络的训练方法及装置、电子设备和存储介质 |
CN110991321B (zh) * | 2019-11-29 | 2023-05-02 | 北京航空航天大学 | 一种基于标签更正与加权特征融合的视频行人再识别方法 |
CN111292329B (zh) * | 2020-01-15 | 2023-06-06 | 北京字节跳动网络技术有限公司 | 视频分割网络的训练方法、装置及电子设备 |
CN111310806B (zh) * | 2020-01-22 | 2024-03-15 | 北京迈格威科技有限公司 | 分类网络及图像处理方法、装置、系统和存储介质 |
CN111368923B (zh) * | 2020-03-05 | 2023-12-19 | 上海商汤智能科技有限公司 | 神经网络训练方法及装置、电子设备和存储介质 |
CN113496232B (zh) * | 2020-03-18 | 2024-05-28 | 杭州海康威视数字技术股份有限公司 | 标签校验方法和设备 |
CN111414921B (zh) * | 2020-03-25 | 2024-03-15 | 抖音视界有限公司 | 样本图像处理方法、装置、电子设备及计算机存储介质 |
CN111461304B (zh) * | 2020-03-31 | 2023-09-15 | 北京小米松果电子有限公司 | 分类神经网络的训练方法、文本分类方法、装置及设备 |
CN111507419B (zh) * | 2020-04-22 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 图像分类模型的训练方法及装置 |
CN111581488B (zh) * | 2020-05-14 | 2023-08-04 | 上海商汤智能科技有限公司 | 一种数据处理方法及装置、电子设备和存储介质 |
CN111553324B (zh) * | 2020-05-22 | 2023-05-23 | 北京字节跳动网络技术有限公司 | 人体姿态预测值校正方法、装置,服务器及存储介质 |
CN111811694B (zh) * | 2020-07-13 | 2021-11-30 | 广东博智林机器人有限公司 | 一种温度校准方法、装置、设备及存储介质 |
CN111898676B (zh) * | 2020-07-30 | 2022-09-20 | 深圳市商汤科技有限公司 | 目标检测方法及装置、电子设备和存储介质 |
CN111984812B (zh) * | 2020-08-05 | 2024-05-03 | 沈阳东软智能医疗科技研究院有限公司 | 一种特征提取模型生成方法、图像检索方法、装置及设备 |
CN112287993B (zh) * | 2020-10-26 | 2022-09-02 | 推想医疗科技股份有限公司 | 模型生成方法、图像分类方法、装置、电子设备及介质 |
CN112541577A (zh) * | 2020-12-16 | 2021-03-23 | 上海商汤智能科技有限公司 | 神经网络生成方法及装置、电子设备和存储介质 |
CN112508130A (zh) * | 2020-12-25 | 2021-03-16 | 商汤集团有限公司 | 聚类方法及装置、电子设备和存储介质 |
CN112598063A (zh) * | 2020-12-25 | 2021-04-02 | 深圳市商汤科技有限公司 | 神经网络生成方法及装置、电子设备和存储介质 |
CN112785565B (zh) * | 2021-01-15 | 2024-01-05 | 上海商汤智能科技有限公司 | 目标检测方法及装置、电子设备和存储介质 |
CN112801116B (zh) * | 2021-01-27 | 2024-05-21 | 商汤集团有限公司 | 图像的特征提取方法及装置、电子设备和存储介质 |
CN112861975B (zh) * | 2021-02-10 | 2023-09-26 | 北京百度网讯科技有限公司 | 分类模型的生成方法、分类方法、装置、电子设备与介质 |
CN113206824B (zh) * | 2021-03-23 | 2022-06-24 | 中国科学院信息工程研究所 | 动态网络异常攻击检测方法、装置、电子设备和存储介质 |
CN113065592A (zh) * | 2021-03-31 | 2021-07-02 | 上海商汤智能科技有限公司 | 图像分类方法、装置、电子设备及存储介质 |
CN113159202B (zh) * | 2021-04-28 | 2023-09-26 | 平安科技(深圳)有限公司 | 图像分类方法、装置、电子设备及存储介质 |
CN113486957A (zh) * | 2021-07-07 | 2021-10-08 | 西安商汤智能科技有限公司 | 神经网络训练和图像处理方法及装置 |
CN113869430A (zh) * | 2021-09-29 | 2021-12-31 | 北京百度网讯科技有限公司 | 训练方法、图像识别方法、装置、电子设备以及存储介质 |
CN114140637B (zh) * | 2021-10-21 | 2023-09-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、存储介质和电子设备 |
CN113837670A (zh) * | 2021-11-26 | 2021-12-24 | 北京芯盾时代科技有限公司 | 风险识别模型训练方法及装置 |
CN114049502B (zh) * | 2021-12-22 | 2023-04-07 | 贝壳找房(北京)科技有限公司 | 神经网络的训练、特征提取、数据处理方法和设备 |
CN115082748B (zh) * | 2022-08-23 | 2022-11-22 | 浙江大华技术股份有限公司 | 分类网络训练和目标重识别方法、装置、终端及存储介质 |
CN115661619A (zh) * | 2022-11-03 | 2023-01-31 | 北京安德医智科技有限公司 | 网络模型训练、超声图像质量评估方法及装置、电子设备 |
CN115563522B (zh) * | 2022-12-02 | 2023-04-07 | 湖南工商大学 | 交通数据的聚类方法、装置、设备及介质 |
CN116663648B (zh) * | 2023-04-23 | 2024-04-02 | 北京大学 | 模型训练方法、装置、设备及存储介质 |
CN116912535B (zh) * | 2023-09-08 | 2023-11-28 | 中国海洋大学 | 一种基于相似筛选的无监督目标重识别方法、装置及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018142097A (ja) * | 2017-02-27 | 2018-09-13 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2018537798A (ja) * | 2015-10-02 | 2018-12-20 | トラクタブル リミテッドTractable Ltd. | データセットの半自動ラベル付け |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5156452B2 (ja) * | 2008-03-27 | 2013-03-06 | 東京エレクトロン株式会社 | 欠陥分類方法、プログラム、コンピュータ記憶媒体及び欠陥分類装置 |
CN102542014B (zh) * | 2011-12-16 | 2013-09-18 | 华中科技大学 | 基于内容的图像检索反馈方法 |
TWI655587B (zh) * | 2015-01-22 | 2019-04-01 | 美商前進公司 | 神經網路及神經網路訓練的方法 |
CN104794489B (zh) * | 2015-04-23 | 2019-03-08 | 苏州大学 | 一种基于深度标签预测的诱导式图像分类方法及系统 |
CN104933588A (zh) * | 2015-07-01 | 2015-09-23 | 北京京东尚科信息技术有限公司 | 用于拓展商品品类的数据标注平台及方法 |
CN107729901B (zh) * | 2016-08-10 | 2021-04-27 | 阿里巴巴集团控股有限公司 | 图像处理模型的建立方法、装置及图像处理方法及系统 |
CN106528874B (zh) * | 2016-12-08 | 2019-07-19 | 重庆邮电大学 | 基于Spark内存计算大数据平台的CLR多标签数据分类方法 |
CN108229267B (zh) * | 2016-12-29 | 2020-10-16 | 北京市商汤科技开发有限公司 | 对象属性检测、神经网络训练、区域检测方法和装置 |
US10534257B2 (en) * | 2017-05-01 | 2020-01-14 | Lam Research Corporation | Layout pattern proximity correction through edge placement error prediction |
CN110599557B (zh) * | 2017-08-30 | 2022-11-18 | 深圳市腾讯计算机系统有限公司 | 图像描述生成方法、模型训练方法、设备和存储介质 |
CN110399929B (zh) * | 2017-11-01 | 2023-04-28 | 腾讯科技(深圳)有限公司 | 眼底图像分类方法、装置以及计算机可读存储介质 |
CN108021931A (zh) * | 2017-11-20 | 2018-05-11 | 阿里巴巴集团控股有限公司 | 一种数据样本标签处理方法及装置 |
CN108009589A (zh) * | 2017-12-12 | 2018-05-08 | 腾讯科技(深圳)有限公司 | 样本数据处理方法、装置和计算机可读存储介质 |
CN108062576B (zh) * | 2018-01-05 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 用于输出数据的方法和装置 |
CN108614858B (zh) * | 2018-03-23 | 2019-07-05 | 北京达佳互联信息技术有限公司 | 图像分类模型优化方法、装置及终端 |
CN108875934A (zh) * | 2018-05-28 | 2018-11-23 | 北京旷视科技有限公司 | 一种神经网络的训练方法、装置、系统及存储介质 |
CN108765340B (zh) * | 2018-05-29 | 2021-06-25 | Oppo(重庆)智能科技有限公司 | 模糊图像处理方法、装置及终端设备 |
CN109002843A (zh) * | 2018-06-28 | 2018-12-14 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、计算机可读存储介质 |
CN108959558B (zh) * | 2018-07-03 | 2021-01-29 | 百度在线网络技术(北京)有限公司 | 信息推送方法、装置、计算机设备及存储介质 |
CN109214436A (zh) * | 2018-08-22 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 一种针对目标场景的预测模型训练方法及装置 |
CN109543713B (zh) * | 2018-10-16 | 2021-03-26 | 北京奇艺世纪科技有限公司 | 训练集的修正方法及装置 |
CN113743535B (zh) * | 2019-05-21 | 2024-05-24 | 北京市商汤科技开发有限公司 | 神经网络训练方法及装置以及图像处理方法及装置 |
-
2019
- 2019-05-21 CN CN202111108379.4A patent/CN113743535B/zh active Active
- 2019-05-21 CN CN201910426010.4A patent/CN110210535B/zh active Active
- 2019-10-30 WO PCT/CN2019/114470 patent/WO2020232977A1/zh active Application Filing
- 2019-10-30 SG SG11202106979WA patent/SG11202106979WA/en unknown
- 2019-10-30 JP JP2021538254A patent/JP2022516518A/ja active Pending
-
2020
- 2020-04-20 TW TW109113143A patent/TWI759722B/zh active
-
2021
- 2021-06-30 US US17/364,731 patent/US20210326708A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018537798A (ja) * | 2015-10-02 | 2018-12-20 | トラクタブル リミテッドTractable Ltd. | データセットの半自動ラベル付け |
JP2018142097A (ja) * | 2017-02-27 | 2018-09-13 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
SG11202106979WA (en) | 2021-07-29 |
CN113743535A (zh) | 2021-12-03 |
US20210326708A1 (en) | 2021-10-21 |
TW202111609A (zh) | 2021-03-16 |
CN110210535A (zh) | 2019-09-06 |
TWI759722B (zh) | 2022-04-01 |
CN113743535B (zh) | 2024-05-24 |
WO2020232977A1 (zh) | 2020-11-26 |
CN110210535B (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022516518A (ja) | ニューラルネットワークをトレーニングする方法及び装置、画像を処理する方法及び装置 | |
TWI754855B (zh) | 人臉圖像識別方法、裝置、電子設備及儲存介質 | |
JP7041284B2 (ja) | 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム | |
TWI732338B (zh) | 文本序列的識別方法、電子設備和電腦可讀存儲介質 | |
CN107491541B (zh) | 文本分类方法及装置 | |
JP7072119B2 (ja) | 画像処理方法および装置、電子機器ならびに記憶媒体 | |
TWI728564B (zh) | 圖像的描述語句定位方法及電子設備和儲存介質 | |
TWI747325B (zh) | 目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介 | |
TWI740309B (zh) | 圖像處理方法及裝置、電子設備和電腦可讀儲存介質 | |
CN110009090B (zh) | 神经网络训练与图像处理方法及装置 | |
KR20210102180A (ko) | 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체 | |
JP7074877B2 (ja) | ネットワーク最適化方法及び装置、画像処理方法及び装置、記憶媒体及びコンピュータプログラム | |
JP2022522551A (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
Vrysis et al. | Crowdsourcing audio semantics by means of hybrid bimodal segmentation with hierarchical classification | |
CN108960283B (zh) | 分类任务增量处理方法及装置、电子设备和存储介质 | |
CN110659690B (zh) | 神经网络的构建方法及装置、电子设备和存储介质 | |
CN111242303B (zh) | 网络训练方法及装置、图像处理方法及装置 | |
JP2022552761A (ja) | 目標再認識方法、装置、機器、記憶媒体及びプログラム製品 | |
CN114787844A (zh) | 模型训练方法、视频处理方法、装置、存储介质及电子设备 | |
JP2022516452A (ja) | データ処理方法および装置、電子機器ならびに記憶媒体 | |
JP2022524254A (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
CN112259122A (zh) | 音频类型识别方法、装置及存储介质 | |
CN117642817A (zh) | 识别音频数据类别的方法、装置及存储介质 | |
CN110443363A (zh) | 图像特征学习方法及装置 | |
CN116488937A (zh) | 基于智能白名单验证的访问安全控制方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220830 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230322 |