JP2023523029A - 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体 - Google Patents

画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体 Download PDF

Info

Publication number
JP2023523029A
JP2023523029A JP2022564577A JP2022564577A JP2023523029A JP 2023523029 A JP2023523029 A JP 2023523029A JP 2022564577 A JP2022564577 A JP 2022564577A JP 2022564577 A JP2022564577 A JP 2022564577A JP 2023523029 A JP2023523029 A JP 2023523029A
Authority
JP
Japan
Prior art keywords
image
sample
loss value
recognition model
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022564577A
Other languages
English (en)
Other versions
JP7376731B2 (ja
Inventor
クイ、ジェクァン
リュウ、シュ
ティアン、チュオタオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Smartmore Technology Co Ltd
Original Assignee
Shenzhen Smartmore Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Smartmore Technology Co Ltd filed Critical Shenzhen Smartmore Technology Co Ltd
Publication of JP2023523029A publication Critical patent/JP2023523029A/ja
Application granted granted Critical
Publication of JP7376731B2 publication Critical patent/JP7376731B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本願は画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体に関する。当該方法は、同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、訓練対象の画像認識モデルの損失値を得るステップであって、訓練対象の画像認識モデルは、ブランチニューラルネットワークを複数含み、損失値は、モデルのサンプル画像セットに対する損失値である目標分類損失値と、ブランチニューラルネットワークの対応するサンプル画像サブセットに対する損失値である分類損失値とを含むステップと、損失値に基づいて、損失値が予め設定された閾値よりも低くなるまでモデルパラメータを調整するステップと、を含む。【選択図】図2

Description

(関連出願の相互参照)
本願は、2020年8月25日に提出された、名称が「画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体」、出願番号が2020108629110である中国特許出願を主張し、その全ての内容が参照によって本願に組み込まれる。
本願は、画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体に関する。
深層学習において、画像認識技術は非常に大きな進歩を遂げた。しかし、これらの進歩には、ImageNet、COCOなどの大規模なデータセットが欠かせない。一般的な場合、これらの大規模なデータセットはクラスのバランスがとれているが、現実では、我々が得られるデータは通常、小さなクラスに含まれる画像データが多く、大きなクラスに含まれる画像データが少ないというロングテール分布に従うものである。
複数の実施例によれば、本願の第1態様は、
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るステップであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であるステップと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするステップと、を含む画像認識モデル生成方法を提供する。
複数の実施例によれば、本願の第2態様は、
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するための取得モジュールと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るための訓練モジュールであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値である訓練モジュールと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするための調整モジュールと、を備える画像認識モデル生成装置を提供する。
複数の実施例によれば、本願の第3態様は、コンピュータプログラムが記憶されているメモリと、前記コンピュータプログラムを実行する場合に、
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るステップであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であるステップと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするステップと、を実現するプロセッサと、を備えるコンピュータ機器を提供する。
複数の実施例によれば、本願の第4態様は、プロセッサによって実行される場合に、
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るステップであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であるステップと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするステップと、を実現するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供する。
本願の一つ又は複数の実施例の詳細は、以下の図面及び説明に記載されている。本願の他の特徴及び利点は、明細書、図面及び特許請求の範囲から明らかになるであろう。
以下、本願の実施例又は従来技術の技術的手段をより明確に説明するために、実施例又は従来技術の説明に使用する図面を簡単に紹介する。以下の説明における図面は、本願のいくつかの実施例に過ぎず、当業者であれば、創造的努力なしにこれらの図面から他の図面を導き出すこともできることは明らかである。
一実施例における画像認識モデル生成方法の使用環境を示す図である。 一実施例における画像認識モデル生成方法のフローチャートである。 一実施例におけるブランチニューラルネットワークの構造を示す図である。 一実施例における訓練対象の画像認識モデルを訓練して損失値を得るステップのフローチャートである。 一実施例における訓練対象の画像認識モデルの損失値を決定するステップのフローチャートである。 一実施例におけるサンプル画像サブセット及びサンプル画像セットを得る方法のフローチャートである。 一実施例における画像認識モデル生成装置の構成ブロック図である。 一実施例におけるコンピュータ機器の内部構造図である。
このロングテール分布に適合するデータを利用してニューラルネットワークを訓練した結果、ニューラルネットワークは、画像データが多く含まれる小さなクラスをうまく認識することができるが、画像データが少なく含まれる大きなクラスを認識する精度が低いということが一般的である。これにより、画像認識モデルを生成する際に、このロングテール分布特性を無視すると、実際の使用において画像認識モデルの性能が大幅に低下してしまう。したがって、従来の画像認識モデル生成方法により得られた画像認識モデルの認識効果が依然として劣っている。
本願の目的、技術的手段及び利点をより明確にするために、以下、図面及び実施例を参照しながら、本願を詳細に説明する。ここで説明される具体的な実施例は、本願を解釈するためのものに過ぎず、本願を限定するためのものではないことを理解されたい。
本願に係る画像認識モデル生成方法は、図1に示される使用環境に使用することができる。端末11はネットワークを介してサーバ12と通信する。サーバ12は、ネットワークを介して端末11から送信される、同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得し、サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、訓練対象の画像認識モデルの損失値を得、訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、損失値は、目標分類損失値と、各ブランチニューラルネットワークに対応する分類損失値とを含み、目標分類損失値は、訓練対象の画像認識モデルのサンプル画像セットに対する損失値であり、分類損失値は、対応するブランチニューラルネットワークのブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であり、サーバ12は、損失値に基づいて、損失値が予め設定された閾値よりも低くなるまで訓練対象の画像認識モデルのモデルパラメータを調整し、訓練対象の画像認識モデルを訓練済みの画像認識モデルとする。端末11は、認識対象の画像をサーバ12に送信するとともに、サーバ12からの認識結果を得ることができる。
端末11は、様々なパーソナルコンピュータ、ノートパソコン、スマートフォン、タブレット及びウェアラブルデバイスであってもよいが、これらに限定されるものではない。サーバ12は、独立したサーバであってもよいし、又は複数のサーバからなるサーバクラスタであってもよい。
一実施例において、図2に示すように、画像認識モデル生成方法を提供し、この方法を図1におけるサーバ12に使用することを例に説明し、下記のステップ21~ステップ23を含む。
ステップ21:同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得する。
サンプル画像セットは、全てのサンプル画像を含むデータセットであり、複数のサンプル画像サブセットからなり、各サンプル画像サブセットには1つ又は複数の画像クラスのサンプル画像が含まれ、各サンプル画像サブセットに含まれる画像クラスが異なり、また、サンプル画像サブセットに含まれる画像の総数が異なり、順次減少する傾向にある。
例えば、サンプル画像における画像クラスAが100枚、画像クラスBが80枚、画像クラスCが60枚、画像クラスDが40枚、画像クラスEが20枚、画像クラスFが10枚であると、画像クラスA、Bは180枚のサンプル画像を含むサンプル画像サブセットを構成し、画像クラスC、Dは100枚のサンプル画像を含むサンプル画像サブセットを構成し、画像クラスE、Fは30枚のサンプル画像を含むサンプル画像サブセットを構成することができる。これにより、3つのサンプル画像サブセットは、画像の数が順次減少し、同じ数の画像クラスを含む。
具体的には、サーバは、端末から画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを直接取得することもできるし、端末から大量のサンプル画像を取得し、サンプル画像の対応する画像種別に基づいてサンプル画像を分類処理し、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを得ることもできる。サンプル画像セットは、ロングテール分布特性に適合するサンプル画像(即ち、小さな画像クラスの画像の数が多く、大きな画像クラスの画像の数が少ない)から構成されてもよいし、正規分布特性に適合するサンプル画像から構成されてもよく、ここではサンプル画像セットのサンプル画像のクラス分布特性を限定しない。
このステップでは、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得することにより、サンプル画像の前処理を実現し、サンプル画像が画像クラスによって並べられて異なるサンプル画像サブセットにあり、後続のブランチニューラルネットワークによる特徴学習が容易になり、訓練の際に画像の数が少ない画像クラスでも十分に訓練されることができ、従来のニューラルネットワークの訓練におけるロングテールデータの無視を防止し、画像認識モデルの生成効果を向上させる。
ステップ22:サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、訓練対象の画像認識モデルの損失値を得、訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、損失値は、目標分類損失値と、各ブランチニューラルネットワークに対応する分類損失値とを含み、目標分類損失値は、訓練対象の画像認識モデルのサンプル画像セットに対する損失値であり、分類損失値は、対応するブランチニューラルネットワークのブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値である。
具体的には、1×1の畳み込みによってブランチニューラルネットワークの構築を実現できるため、ブランチニューラルネットワークの構築の際に非常に少ない追加パラメータを使用するだけで済む。訓練対象の画像認識モデルに複数のブランチニューラルネットワークが構築されているため、ブランチニューラルネットワークは、訓練対象の画像認識モデルのパラメータを、サンプル画像の共通特徴を抽出するための共有パラメータと、共有パラメータに基づいて、ブランチニューラルネットワークに対応するサンプル画像サブセットのサンプル画像を抽出するための個別パラメータとの2部分に分けることができる。個別パラメータはブランチニューラルネットワークにおける対応パラメータである。
ブランチニューラルネットワークが構築された後に、ブランチニューラルネットワークの個数及びサンプル画像サブセットに基づいて、ブランチニューラルネットワークとサンプル画像サブセットとの対応関係を決定することができる。通常は3つのブランチニューラルネットワーク及び3つのサンプル画像サブセットであり、その1つのブランチニューラルネットワークが3つのサンプル画像サブセットに対応し、2番目のブランチニューラルネットワークが3つのサンプル画像サブセットの2番目及び3番目のサンプル画像サブセットに対応し、3番目のブランチニューラルネットワークが3つのサンプル画像サブセットの3番目のサンプル画像サブセット(画像の数が最も少ないサンプル画像サブセット)に対応するように定められている。
例えば、あるサンプル画像セットには、head classes(ヘッドデータ,hと略称する)、medium classes(中間データ、mと略称する)及びtail classes(テールデータ、mと略称する)の3つのサンプル画像サブセットが含まれ、head classesには画像の数が最も多い初めの1/3の画像クラスが含まれ、medium classesには画像の数が中間の1/3の画像クラスが含まれ、tail classesには画像の数が最も少ない残りの1/3の画像クラスが含まれる。1×1の畳み込みによって図3に示すような3つのブランチニューラルネットワークNh+m+t、Nm+t及びNを構築し、ここで、Nh+m+tは全てのサンプル画像サブセットに対応し、全てのサンプル画像サブセットにおける画像クラスを分類するためのものであり、Nm+tは2つのサンプル画像サブセットに対応し、画像の数が相対的に少ないmedium classes及びtail classesサンプル画像サブセットにおける画像クラスを分類するためのものであり、Nは1つのサンプル画像サブセットに対応し、画像の数が最も少ないtail classesサンプル画像サブセットにおける画像クラスを分類するためのものである。これにより、3つのブランチニューラルネットワークNh+m+t、Nm+t及びNはいずれもそれ自体の個別パラメータによって対応するサンプル画像サブセットにおける画像クラスの学習を導くことができ、画像の数が少ないtail classesは3つのブランチニューラルネットワークと対応関係が存在し、数が多いhead classesは1つのブランチニューラルネットワークのみと対応関係が存在するため、ロングテールデータの利用度がある程度実現され、画像の数の異なる画像クラスが訓練時にバランスをとるようになる。
訓練対象の画像認識モデルの損失値は、分類損失値及び目標分類損失値を含み、分類損失値は、ブランチニューラルネットワークのブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であり、目標分類損失値は、訓練対象の画像認識モデルのサンプル画像セットに対する損失値であり、調整可能である。複数の分類損失値及び目標分類損失値に基づいて、訓練対象の画像認識モデルを訓練する損失値を得、画像認識モデル全体の訓練度合を判断することができる。
分類損失値は、ブランチニューラルネットワークにそれぞれ対応するサンプル画像サブセットの損失値であり、即ち、ブランチニューラルネットワークNh+m+tに対応するhead classes、medium classes及びtail classesサンプル画像サブセットの損失値であるか、又はNに対応するtail classesサンプル画像サブセットの損失値である。目標分類損失値は、訓練対象の画像認識モデル全体から出力された画像クラスがサンプル画像セット全体に対応して得られた損失値であり、即ち、複数のブランチニューラルネットワークがサンプル画像セットを認識して出力された画像クラスを融合して得られた画像クラスに対応するサンプル画像セットの損失値である。分類損失値と目標分類損失値との相違は、損失値を計算する際に考量する対象が異なることであり、分類損失値は各ブランチニューラルネットワークから出力された画像クラスを対応するサンプル画像サブセットのサンプル画像の実際の画像クラスと比較して得られた損失値であるが、目標分類損失値は訓練対象の画像認識モデル全体から出力された画像クラス(即ち複数のブランチニューラルネットワークから出力された画像クラスの融合結果)をサンプル画像セットのサンプル画像の実際のクラスと比較して得られた損失値である。
このステップでは、ブランチニューラルネットワークによって対応する画像を認識して、目標分類損失値と、各ブランチニューラルネットワークに対応する分類損失値とを得、画像認識モデルを訓練して、訓練対象の画像認識モデルの損失値を得ることにより、訓練の際に画像の数が少ない画像クラスでも十分に訓練されることができ、従来のニューラルネットワークの訓練におけるロングテールデータの無視を防止し、画像認識モデルの生成効果を向上させる。
ステップ23:損失値に基づいて、損失値が予め設定された閾値よりも低くなるまで訓練対象の画像認識モデルのモデルパラメータを調整し、訓練対象の画像認識モデルを訓練済みの画像認識モデルとする。
具体的には、サーバは、計算された損失値に基づいて、訓練対象の画像認識モデルにおける畳み込み層、プーリング層、正規化層等を含むがこれらに限定されない重みやバイアスなどの各パラメータを逆調整し、通常の場合に、複数回の訓練を繰り返した後、各損失値が徐々に小さくなって一定値に近づく。予め設定された閾値はこの一定値の付近に設定することができ、損失値が予め設定された閾値よりも低い場合に、画像認識モデルの訓練が終わると判断することができる。
このステップでは、損失値によって画像認識モデルのパラメータを絶えずに調整し、損失値と予め設定された閾値との差に基づいて画像認識モデルの訓練度合を判断し、画像認識モデルの算出された損失値が予め設定された閾値よりも低くなると、画像認識モデルの訓練が終わると判断することができ、画像認識モデルの生成効果を向上させる。
上記の画像認識モデル生成方法は、同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、訓練対象の画像認識モデルの損失値を得るステップであって、訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、損失値は、目標分類損失値と、各ブランチニューラルネットワークに対応する分類損失値とを含み、目標分類損失値は、訓練対象の画像認識モデルのサンプル画像セットに対する損失値であり、分類損失値は、対応するブランチニューラルネットワークのブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であるステップと、損失値に基づいて、損失値が予め設定された閾値よりも低くなるまで訓練対象の画像認識モデルのモデルパラメータを調整し、訓練対象の画像認識モデルを訓練済みの画像認識モデルとするステップと、を含む。本願は、画像の数が順次減少する複数のサンプル画像サブセットと、対応するサンプル画像サブセットの画像を認識するブランチニューラルネットワークとを設けることにより、訓練の際に画像の数が少ない画像クラスでも十分に訓練されることができ、従来のニューラルネットワークにおけるロングテールデータの無視を防止し、画像認識モデルの生成効果を向上させる。
一実施例において、図4に示すように、サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、訓練対象の画像認識モデルの損失値を得る上記ステップ22は、
サンプル画像セットの複数のサンプル画像サブセットを均一にサンプリングして、サンプル画像入力シーケンスを得るステップ41と、
サンプル画像入力シーケンスに基づいて、サンプル画像を訓練対象の画像認識モデルに入力して、サンプル画像の画像クラスを得るステップ42と、
サンプル画像の画像クラスと、対応する実際の画像クラスとに基づいて、訓練対象の画像認識モデルの損失値を決定するステップ43と、を含む。
具体的には、サーバは、サンプル画像セットの複数のサンプル画像サブセットを均一にサンプリングして、mini-batchデータを得、mini-batchデータをサンプル画像入力シーケンスとして訓練対象の画像認識モデルに入力して訓練し、画像認識モデルから出力されたサンプル画像の画像クラスを得、サンプル画像の実際の画像クラスを取得し、サンプル画像の画像クラス及び実際の画像クラスを予め設定された損失関数に入力し、画像認識モデルの損失値を計算して得る。
本実施例は、均一にサンプリングすることにより、サンプル画像入力シーケンスにおける各画像クラスのサンプル画像のバランスが取れるようになり、さらに、決定された訓練対象の画像認識モデルの損失値がより正確になり、画像認識モデルの生成効果を向上させる。
一実施例において、訓練対象の画像認識モデルは、ブランチニューラルネットワークに接続されるベースニューラルネットワークをさらに含み、
サンプル画像入力シーケンスに基づいて、サンプル画像を訓練対象の画像認識モデルに入力して、サンプル画像の画像クラスを得る上記ステップ42は、ベースニューラルネットワークがサンプル画像の第1画像特徴を取得し、ブランチニューラルネットワークが、第1画像特徴に基づいてサンプル画像の第2画像特徴を得るとともに、第2画像特徴に基づいてサンプル画像セットのサンプル画像の画像クラスを決定するように、サンプル画像を訓練対象の画像認識モデルに入力することを含む。
具体的には、ベースニューラルネットワークは、サンプル画像セットのサンプル画像の特徴情報を抽出し、即ちサンプル画像セットの全ての画像クラスの共通特徴を第1画像特徴として抽出し、ブランチニューラルネットワークは、ベースニューラルネットワークにより抽出された第1画像特徴を取得し、再抽出して第2画像特徴を得て出力する。ブランチニューラルネットワークから出力された第2画像特徴を分類器を通じて融合し、サンプル画像の画像クラスを得る。ベースニューラルネットワークのパラメータは、各ブランチニューラルネットワークに使用されることができる共有パラメータである。ここではベースニューラルネットワークのタイプ及び構造を限定しない。
一実施例において、図5に示すように、サンプル画像の画像クラスと、対応する実際の画像クラスとに基づいて、訓練対象の画像認識モデルの損失値を決定する上記ステップ43は、
サンプル画像セットのサンプル画像の画像クラスと、対応する実際の画像クラスとに基づいて、サンプル画像セットのサンプル画像の損失値を決定するステップ51と、
複数のブランチニューラルネットワークにより決定されたサンプル画像セットのサンプル画像の損失値に基づいて、サンプル画像セットに対応する損失値を得、目標分類損失値とするステップ52と、
複数のブランチニューラルネットワークに対応するサンプル画像サブセットの全てのサンプル画像の損失値を取得し、サンプル画像サブセットの全てのサンプル画像の損失値の和を複数のブランチニューラルネットワークに対応する分類損失値とするステップ53と、
目標分類損失値と、複数のブランチニューラルネットワークに対応する分類損失値とに基づいて、訓練対象の画像認識モデルの損失値を計算して得るステップ54と、を含む。
具体的には、サンプル画像セットがhead classes、medium classes、tail classesの3つのサンプル画像サブセットを含むことを例に説明する。目標分類損失値は、訓練対象の画像認識モデル全体から出力された画像クラス(即ち複数のブランチニューラルネットワークから出力された画像クラスの融合結果)をサンプル画像セットのサンプル画像の実際のクラスと比較して得られた損失値であり、そのため、目標分類損失値は、3つのブランチニューラルネットワークから出力された、サンプル画像セットのサンプル画像に対応する画像クラスを計算し、全ての画像クラスと実際の画像クラスとを損失関数に入力して、得られた損失値が目標分類損失値であり、下記式:
Figure 2023523029000002
(式中、Lは目標分類損失値であり、Jはクロスエントロピー損失関数であり、Fnetは訓練対象の画像認識モデルであり、Xはサンプル画像入力シーケンスにおけるサンプル画像であり、Yはサンプル画像の実際の画像クラスであり、h、m、tはそれぞれ画像の数が順次減少する第1、第2及び第3サンプル画像サブセットであり、
Figure 2023523029000003
は3つのサンプル画像サブセットに対応する3つのブランチニューラルネットワークであり、添え字はブランチニューラルネットワークに対応するサンプル画像サブセットである。)で示される。
分類損失値は、各ブランチニューラルネットワークが対応するサンプル画像サブセットに対して得られた損失値であり、サンプル画像セット全体に対するものではない。例えば、
Figure 2023523029000004
ブランチニューラルネットワークと第1、第2及び第3サンプル画像サブセットとが対応関係にあり、
Figure 2023523029000005
ブランチニューラルネットワークを計算する場合に、サンプル画像セット全体に対する損失値を計算することに相当する。
Figure 2023523029000006
は第3サンプル画像サブセットのみと対応関係が存在するため、
Figure 2023523029000007
の損失値を計算する場合に、第3サンプル画像サブセットの対応するサンプル画像の実際の画像クラスに基づいて損失値を計算すればよい。全てのブランチニューラルネットワークにより算出された分類損失値を得て加算演算を行った結果は、最終的な画像クラスの予測結果であり、具体的に、下記式:
Figure 2023523029000008
(式中、Lは複数のブランチニューラルネットワークに対応する分類損失値の和であり、Sm+tはXの一方のサブセットであり、サンプル画像入力シーケンスにおける第2及び第3サンプル画像サブセットに属するサンプル画像を含み、SはXの他方のサブセットであり、サンプル画像入力シーケンスにおける第3サンプル画像サブセットに属するサンプル画像を含む。)で示される。
訓練対象の画像認識モデルの損失値は、分類損失値及び目標分類損失値の両方により計算して得られ、具体的に、下記式:
all=(1-α)L/n+αL/n
(式中、Lallは訓練対象の画像認識モデルの損失値であり、αはハイパーパラメータであり、nはXにおけるサンプル画像の数であり、nはX、Sm+t及びSにおけるサンプル画像の数の総和である。)で示される。
なお、ロングテールの程度の異なるデータセットに対して、Lall関数におけるハイパーパラメータαによって調整可能である。また、データセットが正常分布状態(即ち各画像クラスの画像の数が均一である)である場合に、ハイパーパラメータαを0にすれば正常に動作することができる。
上記実施例は、サンプル画像の画像クラスと、対応する実際の画像クラスとの相違によって、目標分類損失値及び分類損失値を算出し、さらに訓練対象の画像認識モデルの損失値を得ることで、訓練対象の画像認識モデルにおけるパラメータを調整することができるため、訓練の際に画像の数が少ない画像クラスでも十分に訓練されることができ、従来のニューラルネットワークの訓練におけるロングテールデータの無視を防止し、画像認識モデルの生成効果を向上させる。
一実施例において、図6に示すように、サンプル画像セットを取得する上記ステップ21の前に、
サンプル画像を取得し、サンプル画像の画像クラスに基づいて、画像クラスの画像の数を決定するステップ61と、
画像クラスの画像の数に基づいて、画像クラスの並び順を得、並び順に従って、画像クラスを、同じ数の画像クラスを含む複数のクラス組み合わせに分けるステップ62と、
複数のクラス組み合わせと、複数のクラス組み合わせにおける画像クラスに対応するサンプル画像とに基づいて、複数のクラス組み合わせに対応するサンプル画像サブセットを得、複数のサンプル画像サブセットの組み合わせをサンプル画像セットとするステップ63と、をさらに含む。
具体的に、サーバは端末からサンプル画像を取得し、サンプル画像の画像クラスを認識し、画像クラスに従ってサンプル画像を分類するとともに、各画像クラスに対応するサンプル画像の数を統計する。画像クラスに対応するサンプル画像の数に基づいて、画像クラスを高い順に順次並べて、並び順を得る。ブランチニューラルネットワークの数及び画像クラスの数に基づいて、画像クラスを複数のクラス組み合わせに均一に分配する。例えば、3つのブランチニューラルネットワーク、6つの画像クラスであると、2つの画像クラスを一組にし、3つのクラス組み合わせを得る。クラス組み合わせと、クラス組み合わせに対応するサンプル画像とに基づいて、クラス組み合わせに対応するサンプル画像サブセットを得、複数のサンプル画像サブセットによりサンプル画像セットが構成される。
本実施例は、画像クラスの画像の数に基づいて、高い順又は低い順に並べて、並び順に基づいて均一に分配し、同じ数の画像クラスを含むサンプル画像サブセットを得ることで、サンプル画像の前処理を実現し、各ブランチニューラルネットワークがロングテールデータ分布の特性に従ってサンプル画像サブセットと互いに対応するため、訓練の際に画像の数が少ない画像クラスでも十分に訓練されることができ、従来のニューラルネットワークの訓練におけるロングテールデータの無視を防止し、画像認識モデルの生成効果を向上させる。
図2、図4~図6のフローチャートにおける各ステップは、矢印に示されるように順次表示されるが、これらのステップは必ずしも矢印に示される順序によって順次実行されるわけではないことを理解されたい。本明細書において明確に説明しない限り、これらのステップの実行は順序に限定されるものではなく、他の順序で実行されてもよい。そして、図2、図4~図6における少なくとも一部のステップは、複数のステップ又は複数の段階を含むことができ、これらのステップ又は段階は必ずしも同じ時刻に実行されるわけではなく、異なる時刻に実行されてもよく、これらのステップ又は段階の実行順序も必ずしも順次実行されるわけではなく、他のステップ又は他のステップにおけるステップ又は段階の少なくとも一部と順番又は交互に実行されてもよい。
一実施例において、図7に示すように、
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するための取得モジュール71と、
サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、訓練対象の画像認識モデルの損失値を得るための訓練モジュール72であって、訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、損失値は、目標分類損失値と、各ブランチニューラルネットワークに対応する分類損失値とを含み、目標分類損失値は、訓練対象の画像認識モデルのサンプル画像セットに対する損失値であり、分類損失値は、対応するブランチニューラルネットワークのブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値である訓練モジュール72と、
損失値に基づいて、損失値が予め設定された閾値よりも低くなるまで訓練対象の画像認識モデルのモデルパラメータを調整し、訓練対象の画像認識モデルを訓練済みの画像認識モデルとするための調整モジュール73と、を備える画像認識モデル生成装置を提供する。
一実施例において、訓練モジュール72はさらに、サンプル画像セットの複数のサンプル画像サブセットを均一にサンプリングして、サンプル画像入力シーケンスを得、サンプル画像入力シーケンスに基づいて、サンプル画像を訓練対象の画像認識モデルに入力して、サンプル画像の画像クラスを得、サンプル画像の画像クラスと、対応する実際の画像クラスとに基づいて、訓練対象の画像認識モデルの損失値を決定する。
一実施例において、訓練モジュール72はさらに、ベースニューラルネットワークがサンプル画像の第1画像特徴を取得し、ブランチニューラルネットワークが、第1画像特徴に基づいてサンプル画像の第2画像特徴を得るとともに、第2画像特徴に基づいてサンプル画像セットのサンプル画像の画像クラスを決定するように、サンプル画像を訓練対象の画像認識モデルに入力する。
一実施例において、訓練モジュール72はさらに、サンプル画像セットのサンプル画像の画像クラスと、対応する実際の画像クラスとに基づいて、サンプル画像セットのサンプル画像の損失値を決定し、複数のブランチニューラルネットワークにより決定されたサンプル画像セットのサンプル画像の損失値に基づいて、サンプル画像セットに対応する損失値を得、目標分類損失値とし、複数のブランチニューラルネットワークに対応するサンプル画像サブセットの全てのサンプル画像の損失値を取得し、サンプル画像サブセットの全てのサンプル画像の損失値の和を複数のブランチニューラルネットワークに対応する分類損失値とし、目標分類損失値と、複数のブランチニューラルネットワークに対応する分類損失値とに基づいて、訓練対象の画像認識モデルの損失値を計算して得る。
一実施例において、取得モジュール71はさらに、サンプル画像を取得し、サンプル画像の画像クラスに基づいて、画像クラスの画像の数を決定し、画像クラスの画像の数に基づいて、画像クラスの並び順を得、並び順に従って、画像クラスを、同じ数の画像クラスを含む複数のクラス組み合わせに分け、複数のクラス組み合わせと、複数のクラス組み合わせにおける画像クラスに対応するサンプル画像とに基づいて、複数のクラス組み合わせに対応するサンプル画像サブセットを得、複数のサンプル画像サブセットの組み合わせをサンプル画像セットとする。
画像認識モデル生成装置の具体的な限定については、上記の画像認識モデル生成方法の限定を参照することができ、ここでは詳しい説明を省略する。上記の画像認識モデル生成装置における各モジュールの全部又は一部は、ソフトウェア、ハードウェア及びこれらの組み合わせによって実現されてもよい。上記各モジュールは、プロセッサが上記各モジュールに対応する動作を呼び出して実行できるように、コンピュータ機器におけるプロセッサにハードウェアの形で埋め込まれていてもよいし、プロセッサから独立していてもよいし、コンピュータ機器におけるメモリにソフトウェアの形で記憶されていてもよい。
一実施例において、コンピュータ機器が提供されており、このコンピュータ機器は、サーバであってもよく、その内部構造図が図8に示されるものであってもよい。このコンピュータ機器は、システムバスを介して接続されるプロセッサ、メモリ及びネットワークインタフェースを備える。このコンピュータ機器のプロセッサは、計算機能及び制御機能を提供するためのものである。このコンピュータ機器のメモリは、不揮発性記憶媒体、内部メモリを備え、この不揮発性記憶媒体にオペレーティングシステム、コンピュータプログラム及びデータベースが記憶されており、この内部メモリは、不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータプログラムの実行のための環境を提供する。このコンピュータ機器のデータベースは、画像認識モデル生成データを記憶するためのものである。このコンピュータ機器のネットワークインタフェースは、外部の端末とネットワークを介して接続通信するためのものである。このコンピュータプログラムは、プロセッサにより実行される場合に、画像認識モデル生成方法を実現することができる。
当業者であれば、図8に示される構成は、本願の技術的手段に関連する構成の一部のブロック図に過ぎず、本願の技術的手段が適用されるコンピュータ機器を限定するものではなく、具体的なコンピュータ機器は、図示よりも多いか又は少ない構成要素を含んでいてもよいし、一部の構成要素を組み合わせていてもよいし、異なる構成要素配置を有していてもよいことを理解されたい。
一実施例において、コンピュータプログラムが記憶されているメモリと、コンピュータプログラムを実行する場合に、上記各方法の実施例におけるステップを実現するプロセッサと、を備えるコンピュータ機器を提供する。
一実施例において、プロセッサによって実行される場合に、上記各方法の実施例におけるステップを実現するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供する。
当業者であれば、上記実施例の方法を実現するフローの全部又は一部は、コンピュータプログラムによって関連するハードウェアに指示することで実現されてもよく、上記コンピュータプログラムは、不揮発性コンピュータ可読記憶媒体に記憶されてもよく、このコンピュータプログラムが実行される際に、上記各方法の実施例のフローを含むことができることを理解するであろう。本願に係る各実施例において使用されるメモリ、ストレージ、データベース又は他の媒体への任意の参照でも、不揮発性及び揮発性メモリの少なくとも1つを含むことができる。不揮発性メモリは、読出し専用メモリ(Read-Only Memory,ROM)、磁気テープ、フロッピーディスク、フラッシュメモリ又は光メモリ等を含むことができる。揮発性メモリは、ランダムアクセスメモリ(Random Access Memory,RAM)又は外部キャッシュメモリを含むことができる。RAMは、限定ではなく例として、スタティックランダムアクセスメモリ(Static Random Access Memory,SRAM)やダイナミックランダムアクセスメモリ(Dynamic Random Access Memory,DRAM)等の様々な形態であってよい。
以上の実施例の各技術的特徴は、任意に組み合わせることが可能であり、説明を簡潔化するために、上記実施例における各技術的特徴の全ての可能な組み合わせについて説明していないが、これらの技術的特徴の組み合わせに矛盾が生じない限り、本明細書に記載される範囲と見なされるべきである。
以上の実施例は、本願のいくつかの実施形態を示したものに過ぎず、その説明が具体的で詳細であるが、本願の特許請求の範囲を限定するものとして理解されるべきではない。なお、当業者であれば、本願の趣旨から逸脱しない限り、様々な変形及び改良を行うことができ、それらも全て本願の保護範囲に含まれる。従って、本願の保護範囲は添付された特許請求の範囲に準じるべきである。
(関連出願の相互参照)
本願は、2020年8月25日に提出された、名称が「画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体」、出願番号が2020108629110である中国特許出願の優先権を主張し、その全ての内容が参照によって本願に組み込まれる。
本願は、画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体に関する。
深層学習において、画像認識技術は非常に大きな進歩を遂げた。しかし、これらの進歩には、ImageNet、COCOなどの大規模なデータセットが欠かせない。一般的な場合、これらの大規模なデータセットはクラスのバランスがとれているが、現実では、我々が得られるデータは通常、小さなクラスに含まれる画像データが多く、大きなクラスに含まれる画像データが少ないというロングテール分布に従うものである。
複数の実施例によれば、本願の第1態様は、
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るステップであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、各前記ブランチニューラルネットワークに対応する前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であるステップと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするステップと、を含む画像認識モデル生成方法を提供する。
複数の実施例によれば、本願の第2態様は、
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するための取得モジュールと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るための訓練モジュールであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、各前記ブランチニューラルネットワークに対応する前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値である訓練モジュールと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするための調整モジュールと、を備える画像認識モデル生成装置を提供する。
複数の実施例によれば、本願の第3態様は、コンピュータプログラムが記憶されているメモリと、前記コンピュータプログラムを実行する場合に、
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るステップであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、各前記ブランチニューラルネットワークに対応する前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であるステップと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするステップと、を実現するプロセッサと、を備えるコンピュータ機器を提供する。
複数の実施例によれば、本願の第4態様は、プロセッサによって実行される場合に、
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るステップであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、各前記ブランチニューラルネットワークに対応する前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であるステップと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするステップと、を実現するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供する。
本願の一つ又は複数の実施例の詳細は、以下の図面及び説明に記載されている。本願の他の特徴及び利点は、明細書、図面及び特許請求の範囲から明らかになるであろう。
以下、本願の実施例又は従来技術の技術的手段をより明確に説明するために、実施例又は従来技術の説明に使用する図面を簡単に紹介する。以下の説明における図面は、本願のいくつかの実施例に過ぎず、当業者であれば、創造的努力なしにこれらの図面から他の図面を導き出すこともできることは明らかである。
一実施例における画像認識モデル生成方法の使用環境を示す図である。 一実施例における画像認識モデル生成方法のフローチャートである。 一実施例におけるブランチニューラルネットワークの構造を示す図である。 一実施例における訓練対象の画像認識モデルを訓練して損失値を得るステップのフローチャートである。 一実施例における訓練対象の画像認識モデルの損失値を決定するステップのフローチャートである。 一実施例におけるサンプル画像サブセット及びサンプル画像セットを得る方法のフローチャートである。 一実施例における画像認識モデル生成装置の構成ブロック図である。 一実施例におけるコンピュータ機器の内部構造図である。
このロングテール分布に適合するデータを利用してニューラルネットワークを訓練した結果、ニューラルネットワークは、画像データが多く含まれる小さなクラスをうまく認識することができるが、画像データが少なく含まれる大きなクラスを認識する精度が低いということが一般的である。これにより、画像認識モデルを生成する際に、このロングテール分布特性を無視すると、実際の使用において画像認識モデルの性能が大幅に低下してしまう。したがって、従来の画像認識モデル生成方法により得られた画像認識モデルの認識効果が依然として劣っている。
本願の目的、技術的手段及び利点をより明確にするために、以下、図面及び実施例を参照しながら、本願を詳細に説明する。ここで説明される具体的な実施例は、本願を解釈するためのものに過ぎず、本願を限定するためのものではないことを理解されたい。
本願に係る画像認識モデル生成方法は、図1に示される使用環境に使用することができる。端末11はネットワークを介してサーバ12と通信する。サーバ12は、ネットワークを介して端末11から送信される、同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得し、サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、訓練対象の画像認識モデルの損失値を得、訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、損失値は、目標分類損失値と、各ブランチニューラルネットワークに対応する分類損失値とを含み、目標分類損失値は、訓練対象の画像認識モデルのサンプル画像セットに対する損失値であり、各ブランチニューラルネットワークに対応する分類損失値は、対応するブランチニューラルネットワークのブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であり、サーバ12は、損失値に基づいて、損失値が予め設定された閾値よりも低くなるまで訓練対象の画像認識モデルのモデルパラメータを調整し、訓練対象の画像認識モデルを訓練済みの画像認識モデルとする。端末11は、認識対象の画像をサーバ12に送信するとともに、サーバ12からの認識結果を得ることができる。
端末11は、様々なパーソナルコンピュータ、ノートパソコン、スマートフォン、タブレット及びウェアラブルデバイスであってもよいが、これらに限定されるものではない。サーバ12は、独立したサーバであってもよいし、又は複数のサーバからなるサーバクラスタであってもよい。
一実施例において、図2に示すように、画像認識モデル生成方法を提供し、この方法を図1におけるサーバ12に使用することを例に説明し、下記のステップ21~ステップ23を含む。
ステップ21:同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得する。
サンプル画像セットは、全てのサンプル画像を含むデータセットであり、複数のサンプル画像サブセットからなり、各サンプル画像サブセットには1つ又は複数の画像クラスのサンプル画像が含まれ、各サンプル画像サブセットに含まれる画像クラスの数が同じであり、また、サンプル画像サブセットに含まれる画像の総数が異なり、順次減少する傾向にある。
例えば、サンプル画像における画像クラスAが100枚、画像クラスBが80枚、画像クラスCが60枚、画像クラスDが40枚、画像クラスEが20枚、画像クラスFが10枚であると、画像クラスA、Bは180枚のサンプル画像を含むサンプル画像サブセットを構成し、画像クラスC、Dは100枚のサンプル画像を含むサンプル画像サブセットを構成し、画像クラスE、Fは30枚のサンプル画像を含むサンプル画像サブセットを構成することができる。これにより、3つのサンプル画像サブセットは、画像の数が順次減少し、同じ数の画像クラスを含む。
具体的には、サーバは、端末から画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを直接取得することもできるし、端末から大量のサンプル画像を取得し、サンプル画像の対応する画像種別に基づいてサンプル画像を分類処理し、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを得ることもできる。サンプル画像セットは、ロングテール分布特性に適合するサンプル画像(即ち、小さな画像クラスの画像の数が多く、大きな画像クラスの画像の数が少ない)から構成されてもよいし、正規分布特性に適合するサンプル画像から構成されてもよく、ここではサンプル画像セットのサンプル画像のクラス分布特性を限定しない。
このステップでは、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得することにより、サンプル画像の前処理を実現し、サンプル画像が画像クラスによって並べられて異なるサンプル画像サブセットにあり、後続のブランチニューラルネットワークによる特徴学習が容易になり、訓練の際に画像の数が少ない画像クラスでも十分に訓練されることができ、従来のニューラルネットワークの訓練におけるロングテールデータの無視を防止し、画像認識モデルの生成効果を向上させる。
ステップ22:サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、訓練対象の画像認識モデルの損失値を得、訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、損失値は、目標分類損失値と、各ブランチニューラルネットワークに対応する分類損失値とを含み、目標分類損失値は、訓練対象の画像認識モデルのサンプル画像セットに対する損失値であり、各ブランチニューラルネットワークに対応する分類損失値は、対応するブランチニューラルネットワークのブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値である。
具体的には、1×1の畳み込みによってブランチニューラルネットワークの構築を実現できるため、ブランチニューラルネットワークの構築の際に非常に少ない追加パラメータを使用するだけで済む。訓練対象の画像認識モデルに複数のブランチニューラルネットワークが構築されているため、ブランチニューラルネットワークは、訓練対象の画像認識モデルのパラメータを、サンプル画像の共通特徴を抽出するための共有パラメータと、共有パラメータに基づいて、ブランチニューラルネットワークに対応するサンプル画像サブセットのサンプル画像を抽出するための個別パラメータとの2部分に分けることができる。個別パラメータはブランチニューラルネットワークにおける対応パラメータである。
ブランチニューラルネットワークが構築された後に、ブランチニューラルネットワークの個数及びサンプル画像サブセットに基づいて、ブランチニューラルネットワークとサンプル画像サブセットとの対応関係を決定することができる。通常は3つのブランチニューラルネットワーク及び3つのサンプル画像サブセットであり、その1つのブランチニューラルネットワークが3つのサンプル画像サブセットに対応し、2番目のブランチニューラルネットワークが3つのサンプル画像サブセットの2番目及び3番目のサンプル画像サブセットに対応し、3番目のブランチニューラルネットワークが3つのサンプル画像サブセットの3番目のサンプル画像サブセット(画像の数が最も少ないサンプル画像サブセット)に対応するように定められている。
例えば、あるサンプル画像セットには、head classes(ヘッドデータ,hと略称する)、medium classes(中間データ、mと略称する)及びtail classes(テールデータ、と略称する)の3つのサンプル画像サブセットが含まれ、head classesには画像の数が最も多い初めの1/3の画像クラスが含まれ、medium classesには画像の数が中間の1/3の画像クラスが含まれ、tail classesには画像の数が最も少ない残りの1/3の画像クラスが含まれる。1×1の畳み込みによって図3に示すような3つのブランチニューラルネットワークNh+m+t、Nm+t及びNを構築し、ここで、ブランチニューラルネットワークh+m+tは全てのサンプル画像サブセットに対応し、全てのサンプル画像サブセットにおける画像クラスを分類するためのものであり、ブランチニューラルネットワークm+tは2つのサンプル画像サブセットに対応し、画像の数が相対的に少ないmedium classes及びtail classesサンプル画像サブセットにおける画像クラスを分類するためのものであり、ブランチニューラルネットワークは1つのサンプル画像サブセットに対応し、画像の数が最も少ないtail classesサンプル画像サブセットにおける画像クラスを分類するためのものである。これにより、3つのブランチニューラルネットワークNh+m+t、Nm+t及びNはいずれもそれ自体の個別パラメータによって対応するサンプル画像サブセットにおける画像クラスの学習を導くことができ、画像の数が少ないtail classesは3つのブランチニューラルネットワークと対応関係が存在し、数が多いhead classesは1つのブランチニューラルネットワークのみと対応関係が存在するため、ロングテールデータの利用度がある程度実現され、画像の数の異なる画像クラスが訓練時にバランスをとるようになる。
訓練対象の画像認識モデルの損失値は、分類損失値及び目標分類損失値を含み、分類損失値は、ブランチニューラルネットワークのブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であり、目標分類損失値は、訓練対象の画像認識モデルのサンプル画像セットに対する損失値であり、調整可能である。複数の分類損失値及び目標分類損失値に基づいて、訓練対象の画像認識モデルを訓練する損失値を得、画像認識モデル全体の訓練度合を判断することができる。
分類損失値は、ブランチニューラルネットワークにそれぞれ対応するサンプル画像サブセットの損失値であり、即ち、ブランチニューラルネットワークNh+m+tに対応するhead classes、medium classes及びtail classesサンプル画像サブセットの損失値であるか、又はブランチニューラルネットワークに対応するtail classesサンプル画像サブセットの損失値である。目標分類損失値は、訓練対象の画像認識モデル全体から出力された画像クラスがサンプル画像セット全体に対応して得られた損失値であり、即ち、複数のブランチニューラルネットワークがサンプル画像セットを認識して出力された画像クラスを融合して得られた画像クラスに対応するサンプル画像セットの損失値である。各ブランチニューラルネットワークに対応する分類損失値と目標分類損失値との相違は、損失値を計算する際に考量する対象が異なることであり、分類損失値は各ブランチニューラルネットワークから出力された画像クラスを対応するサンプル画像サブセットのサンプル画像の実際の画像クラスと比較して得られた損失値であるが、目標分類損失値は訓練対象の画像認識モデル全体から出力されたサンプル画像の認識された画像クラス(即ち複数のブランチニューラルネットワークから出力された画像クラスの融合結果)をサンプル画像セットのサンプル画像の実際の画像クラスと比較して得られた損失値である。
このステップでは、ブランチニューラルネットワークによって対応する画像を認識して、目標分類損失値と、各ブランチニューラルネットワークに対応する分類損失値とを得、画像認識モデルを訓練して、訓練対象の画像認識モデルの損失値を得ることにより、訓練の際に画像の数が少ない画像クラスでも十分に訓練されることができ、従来のニューラルネットワークの訓練におけるロングテールデータの無視を防止し、画像認識モデルの生成効果を向上させる。
ステップ23:損失値に基づいて、損失値が予め設定された閾値よりも低くなるまで訓練対象の画像認識モデルのモデルパラメータを調整し、訓練対象の画像認識モデルを訓練済みの画像認識モデルとする。
具体的には、サーバは、計算された損失値に基づいて、訓練対象の画像認識モデルにおける畳み込み層、プーリング層、正規化層等を含むがこれらに限定されない重みやバイアスなどの各パラメータを逆調整し、通常の場合に、複数回の訓練を繰り返した後、各損失値が徐々に小さくなって一定値に近づく。予め設定された閾値はこの一定値の付近に設定することができ、損失値が予め設定された閾値よりも低い場合に、画像認識モデルの訓練が終わると判断することができる。
このステップでは、損失値によって画像認識モデルのパラメータを絶えずに調整し、損失値と予め設定された閾値との差に基づいて画像認識モデルの訓練度合を判断し、画像認識モデルの算出された損失値が予め設定された閾値よりも低くなると、画像認識モデルの訓練が終わると判断することができ、画像認識モデルの生成効果を向上させる。
上記の画像認識モデル生成方法は、同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、訓練対象の画像認識モデルの損失値を得るステップであって、訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、損失値は、目標分類損失値と、各ブランチニューラルネットワークに対応する分類損失値とを含み、目標分類損失値は、訓練対象の画像認識モデルのサンプル画像セットに対する損失値であり、分類損失値は、対応するブランチニューラルネットワークのブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であるステップと、損失値に基づいて、損失値が予め設定された閾値よりも低くなるまで訓練対象の画像認識モデルのモデルパラメータを調整し、訓練対象の画像認識モデルを訓練済みの画像認識モデルとするステップと、を含む。本願は、画像の数が順次減少する複数のサンプル画像サブセットと、対応するサンプル画像サブセットの画像を認識するブランチニューラルネットワークとを設けることにより、訓練の際に画像の数が少ない画像クラスでも十分に訓練されることができ、従来のニューラルネットワークにおけるロングテールデータの無視を防止し、画像認識モデルの生成効果を向上させる。
一実施例において、図4に示すように、サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、訓練対象の画像認識モデルの損失値を得る上記ステップ22は、
サンプル画像セットの複数のサンプル画像サブセットを均一にサンプリングして、サンプル画像入力シーケンスを得るステップ41と、
サンプル画像入力シーケンスに基づいて、サンプル画像を訓練対象の画像認識モデルに入力して、サンプル画像の認識された画像クラスを得るステップ42と、
サンプル画像の認識された画像クラスと、対応するサンプル画像の実際の画像クラスとに基づいて、訓練対象の画像認識モデルの損失値を決定するステップ43と、を含む。
具体的には、サーバは、サンプル画像セットの複数のサンプル画像サブセットを均一にサンプリングして、mini-batchデータを得、mini-batchデータをサンプル画像入力シーケンスとして訓練対象の画像認識モデルに入力して訓練し、画像認識モデルから出力されたサンプル画像の認識された画像クラスを得、サンプル画像の実際の画像クラスを取得し、サンプル画像の認識された画像クラス及び実際の画像クラスを予め設定された損失関数に入力し、画像認識モデルの損失値を計算して得る。
本実施例は、均一にサンプリングすることにより、サンプル画像入力シーケンスにおける各画像クラスのサンプル画像のバランスが取れるようになり、さらに、決定された訓練対象の画像認識モデルの損失値がより正確になり、画像認識モデルの生成効果を向上させる。
一実施例において、訓練対象の画像認識モデルは、ブランチニューラルネットワークに接続されるベースニューラルネットワークをさらに含み、
サンプル画像入力シーケンスに基づいて、サンプル画像を訓練対象の画像認識モデルに入力して、サンプル画像の認識された画像クラスを得る上記ステップ42は、ベースニューラルネットワークがサンプル画像の第1画像特徴を取得し、ブランチニューラルネットワークが、第1画像特徴に基づいてサンプル画像の第2画像特徴を得るとともに、第2画像特徴に基づいてサンプル画像セットのサンプル画像の認識された画像クラスを決定するように、サンプル画像を訓練対象の画像認識モデルに入力することを含む。
具体的には、ベースニューラルネットワークは、サンプル画像セットのサンプル画像の特徴情報を抽出し、即ちサンプル画像セットの全ての画像クラスの共通特徴を第1画像特徴として抽出し、ブランチニューラルネットワークは、ベースニューラルネットワークにより抽出された第1画像特徴を取得し、再抽出して第2画像特徴を得て出力する。ブランチニューラルネットワークから出力された第2画像特徴を分類器を通じて融合し、サンプル画像の画像クラスを得る。ベースニューラルネットワークのパラメータは、各ブランチニューラルネットワークに使用されることができる共有パラメータである。ここではベースニューラルネットワークのタイプ及び構造を限定しない。
一実施例において、図5に示すように、サンプル画像の認識された画像クラスと、対応するサンプル画像の実際の画像クラスとに基づいて、訓練対象の画像認識モデルの損失値を決定する上記ステップ43は、
サンプル画像セットのサンプル画像の認識された画像クラスと、対応するサンプル画像の実際の画像クラスとに基づいて、サンプル画像セットのサンプル画像の損失値を決定するステップ51と、
複数のブランチニューラルネットワークにより決定されたサンプル画像セットのサンプル画像の損失値に基づいて、サンプル画像セットに対応する損失値を得、目標分類損失値とするステップ52と、
ブランチニューラルネットワークに対応するサンプル画像サブセットの全てのサンプル画像の損失値を取得し、サンプル画像サブセットの全てのサンプル画像の損失値の和をブランチニューラルネットワークに対応する分類損失値とするステップ53と、
目標分類損失値と、ブランチニューラルネットワークに対応する分類損失値とに基づいて、訓練対象の画像認識モデルの損失値を計算して得るステップ54と、を含む。
具体的には、サンプル画像セットがhead classes、medium classes、tail classesの3つのサンプル画像サブセットを含むことを例に説明する。目標分類損失値は、訓練対象の画像認識モデル全体から出力されたサンプル画像の認識された画像クラス(即ち複数のブランチニューラルネットワークから出力された画像クラスの融合結果)をサンプル画像セットのサンプル画像の実際の画像クラスと比較して得られた損失値であり、そのため、目標分類損失値は、3つのブランチニューラルネットワークから出力された、サンプル画像セットのサンプル画像に対応する認識された画像クラスを計算し、全ての認識された画像クラスと実際の画像クラスとを損失関数に入力して、得られた損失値が目標分類損失値であり、下記式:
=J(F net (X),Y),ここで、F net (X)=N h+m+t (X)+N m+t (X)+N t (X)
(式中、Lは目標分類損失値であり、Jはクロスエントロピー損失関数であり、Fnetは訓練対象の画像認識モデルであり、Xはサンプル画像入力シーケンスにおけるサンプル画像セットであり、Yはサンプル画像の実際の画像クラスであり、h、m、tはそれぞれ画像の数が順次減少する第1、第2及び第3サンプル画像サブセットであり、 h+m+t 、N m+t 、N は3つのサンプル画像サブセットに対応する3つのブランチニューラルネットワークであり、添え字はブランチニューラルネットワークに対応するサンプル画像サブセットである。)で示される。
分類損失値は、各ブランチニューラルネットワークが対応するサンプル画像サブセットに対して得られた損失値であり、サンプル画像セット全体に対するものではない。例えば、ブランチニューラルネットワークN h+m+t と第1、第2及び第3サンプル画像サブセットとが対応関係にあり、ブランチニューラルネットワークN h+m+t を計算する場合に、サンプル画像セット全体に対する損失値を計算することに相当する。ブランチニューラルネットワークN は第3サンプル画像サブセットのみと対応関係が存在するため、ブランチニューラルネットワークN の損失値を計算する場合に、第3サンプル画像サブセットの対応するサンプル画像の実際の画像クラスに基づいて損失値を計算すればよい。全てのブランチニューラルネットワークにより算出された各ブランチニューラルネットワークに対応する分類損失値を得て加算演算を行った結果は、最終的な画像クラスの予測結果であり、具体的に、下記式:
Figure 2023523029000020
(式中、Lは複数のブランチニューラルネットワークに対応する分類損失値の和であり、Sm+tはXの一方のサブセットであり、サンプル画像入力シーケンスにおける第2及び第3サンプル画像サブセットに属するサンプル画像を含み、SはXの他方のサブセットであり、サンプル画像入力シーケンスにおける第3サンプル画像サブセットに属するサンプル画像を含む。)で示される。
訓練対象の画像認識モデルの損失値は、各ブランチニューラルネットワークに対応する分類損失値及び目標分類損失値の両方により計算して得られ、具体的に、下記式:
all=(1-α)L/n+αL/n
(式中、Lallは訓練対象の画像認識モデルの損失値であり、αはハイパーパラメータであり、nはXにおけるサンプル画像の数であり、nはX、Sm+t及びSにおけるサンプル画像の数の総和である。)で示される。
なお、ロングテールの程度の異なるデータセットに対して、Lall関数におけるハイパーパラメータαによって調整可能である。また、データセットが正常分布状態(即ち各画像クラスの画像の数が均一である)である場合に、ハイパーパラメータαを0にすれば正常に動作することができる。
上記実施例は、サンプル画像の認識された画像クラスと、対応するサンプル画像の実際の画像クラスとの相違によって、目標分類損失値及び各ブランチニューラルネットワークに対応する分類損失値を算出し、さらに訓練対象の画像認識モデルの損失値を得ることで、訓練対象の画像認識モデルにおけるパラメータを調整することができるため、訓練の際に画像の数が少ない画像クラスでも十分に訓練されることができ、従来のニューラルネットワークの訓練におけるロングテールデータの無視を防止し、画像認識モデルの生成効果を向上させる。
一実施例において、図6に示すように、サンプル画像セットを取得する上記ステップ21の前に、
サンプル画像を取得し、サンプル画像の画像クラスに基づいて、画像クラスの画像の数を決定するステップ61と、
画像クラスの画像の数に基づいて、画像クラスの並び順を得、並び順に従って、画像クラスを、同じ数の画像クラスを含む複数のクラス組み合わせに分けるステップ62と、
複数のクラス組み合わせと、複数のクラス組み合わせにおける画像クラスに対応するサンプル画像とに基づいて、複数のクラス組み合わせに対応するサンプル画像サブセットを得、複数のサンプル画像サブセットの組み合わせをサンプル画像セットとするステップ63と、をさらに含む。
具体的に、サーバは端末からサンプル画像を取得し、サンプル画像の画像クラスを認識し、画像クラスに従ってサンプル画像を分類するとともに、各画像クラスに対応するサンプル画像の数を統計する。画像クラスに対応するサンプル画像の数に基づいて、画像クラスを高い順に順次並べて、並び順を得る。ブランチニューラルネットワークの数及び画像クラスの数に基づいて、画像クラスを複数のクラス組み合わせに均一に分配する。例えば、3つのブランチニューラルネットワーク、6つの画像クラスであると、2つの画像クラスを一組にし、3つのクラス組み合わせを得る。クラス組み合わせと、クラス組み合わせに対応するサンプル画像とに基づいて、クラス組み合わせに対応するサンプル画像サブセットを得、複数のサンプル画像サブセットによりサンプル画像セットが構成される。
本実施例は、画像クラスの画像の数に基づいて、高い順又は低い順に並べて、並び順に基づいて均一に分配し、同じ数の画像クラスを含むサンプル画像サブセットを得ることで、サンプル画像の前処理を実現し、各ブランチニューラルネットワークがロングテールデータ分布の特性に従ってサンプル画像サブセットと互いに対応するため、訓練の際に画像の数が少ない画像クラスでも十分に訓練されることができ、従来のニューラルネットワークの訓練におけるロングテールデータの無視を防止し、画像認識モデルの生成効果を向上させる。
図2、図4~図6のフローチャートにおける各ステップは、矢印に示されるように順次表示されるが、これらのステップは必ずしも矢印に示される順序によって順次実行されるわけではないことを理解されたい。本明細書において明確に説明しない限り、これらのステップの実行は順序に限定されるものではなく、他の順序で実行されてもよい。そして、図2、図4~図6における少なくとも一部のステップは、複数のステップ又は複数の段階を含むことができ、これらのステップ又は段階は必ずしも同じ時刻に実行されるわけではなく、異なる時刻に実行されてもよく、これらのステップ又は段階の実行順序も必ずしも順次実行されるわけではなく、他のステップ又は他のステップにおけるステップ又は段階の少なくとも一部と順番又は交互に実行されてもよい。
一実施例において、図7に示すように、
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するための取得モジュール71と、
サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、訓練対象の画像認識モデルの損失値を得るための訓練モジュール72であって、訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、損失値は、目標分類損失値と、各ブランチニューラルネットワークに対応する分類損失値とを含み、目標分類損失値は、訓練対象の画像認識モデルのサンプル画像セットに対する損失値であり、各前記ブランチニューラルネットワークに対応する分類損失値は、対応するブランチニューラルネットワークのブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値である訓練モジュール72と、
損失値に基づいて、損失値が予め設定された閾値よりも低くなるまで訓練対象の画像認識モデルのモデルパラメータを調整し、訓練対象の画像認識モデルを訓練済みの画像認識モデルとするための調整モジュール73と、を備える画像認識モデル生成装置を提供する。
一実施例において、訓練モジュール72はさらに、サンプル画像セットの複数のサンプル画像サブセットを均一にサンプリングして、サンプル画像入力シーケンスを得、サンプル画像入力シーケンスに基づいて、サンプル画像を訓練対象の画像認識モデルに入力して、サンプル画像の認識された画像クラスを得、サンプル画像の認識された画像クラスと、対応するサンプル画像の実際の画像クラスとに基づいて、訓練対象の画像認識モデルの損失値を決定する。
一実施例において、訓練モジュール72はさらに、ベースニューラルネットワークがサンプル画像の第1画像特徴を取得し、ブランチニューラルネットワークが、第1画像特徴に基づいてサンプル画像の第2画像特徴を得るとともに、第2画像特徴に基づいてサンプル画像セットのサンプル画像の認識された画像クラスを決定するように、サンプル画像を訓練対象の画像認識モデルに入力する。
一実施例において、訓練モジュール72はさらに、サンプル画像セットのサンプル画像の認識された画像クラスと、対応するサンプル画像の実際の画像クラスとに基づいて、サンプル画像セットのサンプル画像の損失値を決定し、複数のブランチニューラルネットワークにより決定されたサンプル画像セットのサンプル画像の損失値に基づいて、サンプル画像セットに対応する損失値を得、目標分類損失値とし、ブランチニューラルネットワークに対応するサンプル画像サブセットの全てのサンプル画像の損失値を取得し、サンプル画像サブセットの全てのサンプル画像の損失値の和をブランチニューラルネットワークに対応する分類損失値とし、目標分類損失値と、ブランチニューラルネットワークに対応する分類損失値とに基づいて、訓練対象の画像認識モデルの損失値を計算して得る。
一実施例において、取得モジュール71はさらに、サンプル画像を取得し、サンプル画像の画像クラスに基づいて、画像クラスの画像の数を決定し、画像クラスの画像の数に基づいて、画像クラスの並び順を得、並び順に従って、画像クラスを、同じ数の画像クラスを含む複数のクラス組み合わせに分け、複数のクラス組み合わせと、複数のクラス組み合わせにおける画像クラスに対応するサンプル画像とに基づいて、複数のクラス組み合わせに対応するサンプル画像サブセットを得、複数のサンプル画像サブセットの組み合わせをサンプル画像セットとする。
画像認識モデル生成装置の具体的な限定については、上記の画像認識モデル生成方法の限定を参照することができ、ここでは詳しい説明を省略する。上記の画像認識モデル生成装置における各モジュールの全部又は一部は、ソフトウェア、ハードウェア及びこれらの組み合わせによって実現されてもよい。上記各モジュールは、プロセッサが上記各モジュールに対応する動作を呼び出して実行できるように、コンピュータ機器におけるプロセッサにハードウェアの形で埋め込まれていてもよいし、プロセッサから独立していてもよいし、コンピュータ機器におけるメモリにソフトウェアの形で記憶されていてもよい。
一実施例において、コンピュータ機器が提供されており、このコンピュータ機器は、サーバであってもよく、その内部構造図が図8に示されるものであってもよい。このコンピュータ機器は、システムバスを介して接続されるプロセッサ、メモリ及びネットワークインタフェースを備える。このコンピュータ機器のプロセッサは、計算機能及び制御機能を提供するためのものである。このコンピュータ機器のメモリは、不揮発性記憶媒体、内部メモリを備え、この不揮発性記憶媒体にオペレーティングシステム、コンピュータプログラム及びデータベースが記憶されており、この内部メモリは、不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータプログラムの実行のための環境を提供する。このコンピュータ機器のデータベースは、画像認識モデル生成データを記憶するためのものである。このコンピュータ機器のネットワークインタフェースは、外部の端末とネットワークを介して接続通信するためのものである。このコンピュータプログラムは、プロセッサにより実行される場合に、画像認識モデル生成方法を実現することができる。
当業者であれば、図8に示される構成は、本願の技術的手段に関連する構成の一部のブロック図に過ぎず、本願の技術的手段が適用されるコンピュータ機器を限定するものではなく、具体的なコンピュータ機器は、図示よりも多いか又は少ない構成要素を含んでいてもよいし、一部の構成要素を組み合わせていてもよいし、異なる構成要素配置を有していてもよいことを理解されたい。
一実施例において、コンピュータプログラムが記憶されているメモリと、コンピュータプログラムを実行する場合に、上記各方法の実施例におけるステップを実現するプロセッサと、を備えるコンピュータ機器を提供する。
一実施例において、プロセッサによって実行される場合に、上記各方法の実施例におけるステップを実現するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供する。
当業者であれば、上記実施例の方法を実現するフローの全部又は一部は、コンピュータプログラムによって関連するハードウェアに指示することで実現されてもよく、上記コンピュータプログラムは、不揮発性コンピュータ可読記憶媒体に記憶されてもよく、このコンピュータプログラムが実行される際に、上記各方法の実施例のフローを含むことができることを理解するであろう。本願に係る各実施例において使用されるメモリ、ストレージ、データベース又は他の媒体への任意の参照でも、不揮発性及び揮発性メモリの少なくとも1つを含むことができる。不揮発性メモリは、読出し専用メモリ(Read-Only Memory,ROM)、磁気テープ、フロッピーディスク、フラッシュメモリ又は光メモリ等を含むことができる。揮発性メモリは、ランダムアクセスメモリ(Random Access Memory,RAM)又は外部キャッシュメモリを含むことができる。RAMは、限定ではなく例として、スタティックランダムアクセスメモリ(Static Random Access Memory,SRAM)やダイナミックランダムアクセスメモリ(Dynamic Random Access Memory,DRAM)等の様々な形態であってよい。
以上の実施例の各技術的特徴は、任意に組み合わせることが可能であり、説明を簡潔化するために、上記実施例における各技術的特徴の全ての可能な組み合わせについて説明していないが、これらの技術的特徴の組み合わせに矛盾が生じない限り、本明細書に記載される範囲と見なされるべきである。
以上の実施例は、本願のいくつかの実施形態を示したものに過ぎず、その説明が具体的で詳細であるが、本願の特許請求の範囲を限定するものとして理解されるべきではない。なお、当業者であれば、本願の趣旨から逸脱しない限り、様々な変形及び改良を行うことができ、それらも全て本願の保護範囲に含まれる。従って、本願の保護範囲は添付された特許請求の範囲に準じるべきである。

Claims (10)

  1. 同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、
    前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るステップであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であるステップと、
    前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするステップと、を含む画像認識モデル生成方法。
  2. 前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得る前記ステップは、
    前記サンプル画像セットの複数の前記サンプル画像サブセットを均一にサンプリングして、サンプル画像入力シーケンスを得るステップと、
    前記サンプル画像入力シーケンスに基づいて、サンプル画像を前記訓練対象の画像認識モデルに入力して、前記サンプル画像の画像クラスを得るステップと、
    前記サンプル画像の画像クラスと、対応する実際の画像クラスとに基づいて、前記訓練対象の画像認識モデルの損失値を決定するステップと、を含む請求項1に記載の方法。
  3. 前記訓練対象の画像認識モデルは、前記ブランチニューラルネットワークに接続されるベースニューラルネットワークをさらに含み、
    前記サンプル画像入力シーケンスに基づいて、サンプル画像を前記訓練対象の画像認識モデルに入力して、前記サンプル画像の画像クラスを得る前記ステップは、
    前記ベースニューラルネットワークが前記サンプル画像の第1画像特徴を取得し、前記ブランチニューラルネットワークが、前記第1画像特徴に基づいて前記サンプル画像の第2画像特徴を得るとともに、前記第2画像特徴に基づいて前記サンプル画像セットのサンプル画像の画像クラスを決定するように、前記サンプル画像を前記訓練対象の画像認識モデルに入力することを含む請求項2に記載の方法。
  4. 前記サンプル画像の画像クラスと、対応する実際の画像クラスとに基づいて、前記訓練対象の画像認識モデルの損失値を決定する前記ステップは、
    前記サンプル画像セットのサンプル画像の画像クラスと、対応する実際の画像クラスとに基づいて、前記サンプル画像セットのサンプル画像の損失値を決定するステップと、
    複数の前記ブランチニューラルネットワークにより決定された前記サンプル画像セットのサンプル画像の損失値に基づいて、前記サンプル画像セットに対応する損失値を得、前記目標分類損失値とするステップと、
    複数の前記ブランチニューラルネットワークに対応するサンプル画像サブセットの全てのサンプル画像の損失値を取得し、前記サンプル画像サブセットの全てのサンプル画像の損失値の和を複数の前記ブランチニューラルネットワークに対応する分類損失値とするステップと、
    前記目標分類損失値と、複数の前記ブランチニューラルネットワークに対応する分類損失値とに基づいて、前記訓練対象の画像認識モデルの損失値を計算して得るステップと、を含む請求項3に記載の方法。
  5. 前記サンプル画像セットは、画像の数が順次減少する3つのサンプル画像サブセットを含み、前記訓練対象の画像認識モデルは、3つのブランチニューラルネットワークを含み、
    前記目標分類損失値は、下記式:
    Figure 2023523029000009
    (式中、Lは前記目標分類損失値であり、Jはクロスエントロピー損失関数であり、Fnetは訓練対象の画像認識モデルであり、Xは前記サンプル画像入力シーケンスにおけるサンプル画像であり、Yは前記サンプル画像の実際の画像クラスであり、h、m、tはそれぞれ画像の数が順次減少する第1、第2及び第3サンプル画像サブセットであり、前記
    Figure 2023523029000010
    は3つのサンプル画像サブセットに対応する3つのブランチニューラルネットワークであり、添え字はブランチニューラルネットワークに対応するサンプル画像サブセットである。)により計算して得られ、
    複数の前記ブランチニューラルネットワークに対応する前記分類損失値は、下記式:
    Figure 2023523029000011
    (式中、Lは複数の前記ブランチニューラルネットワークに対応する分類損失値の和であり、Sm+tはXの一方のサブセットであり、前記サンプル画像入力シーケンスにおける第2及び第3サンプル画像サブセットに属するサンプル画像を含み、SはXの他方のサブセットであり、前記サンプル画像入力シーケンスにおける第3サンプル画像サブセットに属するサンプル画像を含む。)により計算して得られる請求項4に記載の方法。
  6. 前記訓練対象の画像認識モデルの損失値は、下記式により計算して得られる請求項5に記載の方法。
    all=(1-α)L/n+αL/n
    (式中、Lallは訓練対象の画像認識モデルの損失値であり、αはハイパーパラメータであり、nはXにおけるサンプル画像の数であり、nはX、Sm+t及びSにおけるサンプル画像の数の総和である。)
  7. サンプル画像セットを取得する前に、
    サンプル画像を取得し、前記サンプル画像の画像クラスに基づいて、前記画像クラスの画像の数を決定するステップと、
    前記画像クラスの画像の数に基づいて、前記画像クラスの並び順を得、前記並び順に従って、前記画像クラスを、同じ数の画像クラスを含む複数のクラス組み合わせに分けるステップと、
    複数の前記クラス組み合わせと、複数の前記クラス組み合わせにおける画像クラスに対応するサンプル画像とに基づいて、複数の前記クラス組み合わせに対応するサンプル画像サブセットを得、複数の前記サンプル画像サブセットの組み合わせを前記サンプル画像セットとするステップと、をさらに含む請求項1に記載の方法。
  8. 同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するための取得モジュールと、
    前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るための訓練モジュールであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値である訓練モジュールと、
    前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするための調整モジュールと、を備える画像認識モデル生成装置。
  9. コンピュータプログラムが記憶されているメモリと、前記コンピュータプログラムを実行する場合に、請求項1~7のいずれか一項に記載の方法のステップを実現するプロセッサと、を備えるコンピュータ機器。
  10. プロセッサによって実行される場合に、請求項1~7のいずれか一項に記載の方法のステップを実現するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体。
JP2022564577A 2020-08-25 2021-07-16 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体 Active JP7376731B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010862911.0 2020-08-25
CN202010862911.0A CN111950656B (zh) 2020-08-25 2020-08-25 图像识别模型生成方法、装置、计算机设备和存储介质
PCT/CN2021/106635 WO2022042123A1 (zh) 2020-08-25 2021-07-16 图像识别模型生成方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
JP2023523029A true JP2023523029A (ja) 2023-06-01
JP7376731B2 JP7376731B2 (ja) 2023-11-08

Family

ID=73366432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022564577A Active JP7376731B2 (ja) 2020-08-25 2021-07-16 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体

Country Status (3)

Country Link
JP (1) JP7376731B2 (ja)
CN (1) CN111950656B (ja)
WO (1) WO2022042123A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950656B (zh) * 2020-08-25 2021-06-25 深圳思谋信息科技有限公司 图像识别模型生成方法、装置、计算机设备和存储介质
CN112966767B (zh) * 2021-03-19 2022-03-22 焦点科技股份有限公司 一种特征提取和分类任务分离的数据不均衡处理方法
CN113034368A (zh) * 2021-04-01 2021-06-25 深圳思谋信息科技有限公司 图像超分辨率模型训练方法、装置、计算机设备和介质
CN113240032B (zh) * 2021-05-25 2024-01-30 北京有竹居网络技术有限公司 一种图像分类方法、装置、设备及存储介质
CN114155388B (zh) * 2022-02-10 2022-05-13 深圳思谋信息科技有限公司 一种图像识别方法、装置、计算机设备和存储介质
CN114581751B (zh) * 2022-03-08 2024-05-10 北京百度网讯科技有限公司 图像识别模型的训练方法和图像识别方法、装置
CN115294644A (zh) * 2022-06-24 2022-11-04 北京昭衍新药研究中心股份有限公司 一种基于3d卷积参数重构的快速猴子行为识别方法
CN117036869B (zh) * 2023-10-08 2024-01-09 之江实验室 一种基于多样性和随机策略的模型训练方法及装置
CN117457101B (zh) * 2023-12-22 2024-03-26 中国农业科学院烟草研究所(中国烟草总公司青州烟草研究所) 一种烘烤烟叶含水量预测方法、介质及系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9940729B1 (en) * 2016-11-18 2018-04-10 Here Global B.V. Detection of invariant features for localization
US11138724B2 (en) 2017-06-01 2021-10-05 International Business Machines Corporation Neural network classification
CN110162556A (zh) * 2018-02-11 2019-08-23 陕西爱尚物联科技有限公司 一种有效发挥数据价值的方法
US11494687B2 (en) 2018-03-05 2022-11-08 Yodlee, Inc. Generating samples of transaction data sets
CN108921013B (zh) * 2018-05-16 2020-08-18 浙江零跑科技有限公司 一种基于深度神经网络的视觉场景识别系统及方法
CN108875934A (zh) * 2018-05-28 2018-11-23 北京旷视科技有限公司 一种神经网络的训练方法、装置、系统及存储介质
US11372893B2 (en) 2018-06-01 2022-06-28 Ntt Security Holdings Corporation Ensemble-based data curation pipeline for efficient label propagation
CN108764370B (zh) * 2018-06-08 2021-03-12 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN110097130B (zh) * 2019-05-07 2022-12-13 深圳市腾讯计算机系统有限公司 分类任务模型的训练方法、装置、设备及存储介质
CN111242158A (zh) * 2019-12-05 2020-06-05 北京迈格威科技有限公司 神经网络训练方法、图像处理方法及装置
CN111125460B (zh) * 2019-12-24 2022-02-25 腾讯科技(深圳)有限公司 信息推荐方法及装置
CN111401307B (zh) * 2020-04-08 2022-07-01 中国人民解放军海军航空大学 基于深度度量学习的卫星遥感图像目标关联方法和装置
CN111291841B (zh) * 2020-05-13 2020-08-21 腾讯科技(深圳)有限公司 图像识别模型训练方法、装置、计算机设备和存储介质
CN111950656B (zh) * 2020-08-25 2021-06-25 深圳思谋信息科技有限公司 图像识别模型生成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111950656A (zh) 2020-11-17
CN111950656B (zh) 2021-06-25
WO2022042123A1 (zh) 2022-03-03
JP7376731B2 (ja) 2023-11-08

Similar Documents

Publication Publication Date Title
JP2023523029A (ja) 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体
US11741361B2 (en) Machine learning-based network model building method and apparatus
CN108804641A (zh) 一种文本相似度的计算方法、装置、设备和存储介质
JP7287397B2 (ja) 情報処理方法、情報処理装置及び情報処理プログラム
JP6950756B2 (ja) ニューラルネットワークのランク最適化装置および最適化方法
CN110889450B (zh) 超参数调优、模型构建方法和装置
KR20200052439A (ko) 딥러닝 모델의 최적화 시스템 및 방법
CN109376995A (zh) 财务数据评分方法、装置、计算机设备和存储介质
CN110210558B (zh) 评估神经网络性能的方法及装置
CN111598153B (zh) 数据聚类的处理方法、装置、计算机设备和存储介质
CN110222838B (zh) 文档排序方法、装置、电子设备及存储介质
CN115688913A (zh) 一种云边端协同个性化联邦学习方法、系统、设备及介质
CN114245910A (zh) 一种自动机器学习AutoML系统、方法及设备
CN110991621A (zh) 一种基于通道数搜索卷积神经网络的方法
CN112817563B (zh) 目标属性配置信息确定方法、计算机设备和存储介质
CN114329029A (zh) 对象检索方法、装置、设备及计算机存储介质
CN113705276A (zh) 模型构建方法、模型构建装置、计算机设备及介质
US20220058448A1 (en) Image selection from a database
CN113222014A (zh) 图像分类模型训练方法、装置、计算机设备和存储介质
CN113609337A (zh) 图神经网络的预训练方法、训练方法、装置、设备及介质
US11875263B2 (en) Method and apparatus for energy-aware deep neural network compression
US20230259761A1 (en) Transfer learning system and method for deep neural network
TW202145078A (zh) 具有動態最小批次尺寸之運算方法,以及用於執行該方法之運算系統及電腦可讀儲存媒體
CN114638823B (zh) 基于注意力机制序列模型的全切片图像分类方法及装置
WO2022252694A1 (zh) 神经网络优化方法及其装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221021

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221021

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231026

R150 Certificate of patent or registration of utility model

Ref document number: 7376731

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150