JP7384217B2 - 学習装置、学習方法、及び、プログラム - Google Patents
学習装置、学習方法、及び、プログラム Download PDFInfo
- Publication number
- JP7384217B2 JP7384217B2 JP2021555705A JP2021555705A JP7384217B2 JP 7384217 B2 JP7384217 B2 JP 7384217B2 JP 2021555705 A JP2021555705 A JP 2021555705A JP 2021555705 A JP2021555705 A JP 2021555705A JP 7384217 B2 JP7384217 B2 JP 7384217B2
- Authority
- JP
- Japan
- Prior art keywords
- output
- model
- difference
- loss
- true value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 23
- 238000004364 calculation method Methods 0.000 claims description 69
- 230000007423 decrease Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 description 74
- 238000004821 distillation Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 241000282472 Canis lupus familiaris Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7784—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
- G06V10/7792—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being an automated module, e.g. "intelligent oracle"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Description
・教師モデルが自信のないアンカーほど、教師モデルと生徒モデルとの出力の差を小さくする。
・教師モデルと生徒モデルの出力の差が大きいアンカーほど、教師モデルと生徒モデルとの出力の差を小さくする。
学習データに対する推論結果を出力する教師モデルと、
前記学習データに対する推論結果を出力する生徒モデルと、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいてトータル損失を算出する損失算出手段と、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する更新手段と、
を備え、
前記損失算出手段は、
(1)前記教師モデルの出力の自信度が低いほど大きくなる第1の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第1の損失と、
(2)前記真値と前記教師モデルの出力との差が大きいほど大きくなる第2の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第2の損失と、
(3)前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第3の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第4の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第3の損失と、のうちの複数の損失の加重平均により前記トータル損失を算出する。
教師モデルを用いて、学習データに対する推論結果を出力し、
生徒モデルを用いて、前記学習データに対する推論結果を出力し、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいて、
(1)前記教師モデルの出力の自信度が低いほど大きくなる第1の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第1の損失と、
(2)前記真値と前記教師モデルの出力との差が大きいほど大きくなる第2の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第2の損失と、
(3)前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第3の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第4の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第3の損失と、のうちの複数の損失の加重平均によりトータル損失を算出し、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する。
教師モデルを用いて、学習データに対する推論結果を出力し、
生徒モデルを用いて、前記学習データに対する推論結果を出力し、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいて、
(1)前記教師モデルの出力の自信度が低いほど大きくなる第1の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第1の損失と、
(2)前記真値と前記教師モデルの出力との差が大きいほど大きくなる第2の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第2の損失と、
(3)前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第3の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第4の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第3の損失と、のうちの複数の損失の加重平均によりトータル損失を算出し、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する処理をコンピュータに実行させる。
<物体検知モデルの基本構成>
図1は、ニューラルネットワークを用いた物体検知モデルの基本構成例を示す。なお、図1の例は、「RetinaNet」と呼ばれるネットワークであるが、本発明は他に「SSD」、「YOLO」、「Faster RCNN」などのネットワークにも適用可能である。学習モデル70は、特徴抽出部71と、クラス分類部72と、矩形位置検出部73とを備える。特徴抽出部71は、CNN(Convolutional Neural Network)などにより入力画像から特徴を抽出し、特徴マップを生成する。クラス分類部72は、特徴マップに基づいて検出対象のクラス分類を行い、分類結果を出力する。図1の例では、検出対象は、「自転車」、「馬」、「犬」、「車」の4クラスであり、クラス分類部72は分類結果として各クラスの信頼度(確率)を出力する。また、矩形位置検出部73は、特徴マップに基づいて、各検出対象に外接する矩形位置の座標を出力する。
次に、クラス分類器の学習について説明する。
[フォーカルロス]
まず、「フォーカルロス(Focal Loss:以下、「FL」とも記す。)」と呼ばれる手法について説明する。図1に示すRetinaNetは、特徴抽出部71により抽出された特徴マップ上に、その画素ごとに広がりを持つ「アンカー」を埋め込み、アンカーごとにクラス分類と矩形位置の検出を行う手法である。特に、フォーカルロスは、特徴マップに含まれる複数のアンカーのうち、注目すべきアンカーに重きをおいて学習を行う。例えば、特徴マップ上に設定された複数のアンカーのうち、背景に対応するアンカーよりも、検出対象が存在すると予測されるアンカーに注目する。具体的には、DNN(Deep Neural Network)により予測が難しいアンカー、即ち、正解と予測との差が大きいアンカーほど注目度を高くする。フォーカルロスFL(p)は以下の式で表される。なお、「α」は、学習データのクラスバランスに基づき決定される定数である。
次に、蒸留(Knowledge Distillation)と呼ばれる手法について説明する。蒸留は、既に学習済みの教師モデルの出力を用いて生徒モデルの学習を行う手法である。図2は、蒸留を用いた物体検知モデルを示す。生徒モデル80は、学習の対象となるモデルであり、特徴抽出部81と、クラス分類部82と、矩形位置検出部83とを備える。特徴抽出部81は入力画像から特徴マップを生成する。クラス分類部82は特徴マップに基づいて検出対象のクラス分類結果を出力する。また、矩形位置検出部83は、特徴マップに基づいて検出対象の矩形位置の座標を出力する。
次に、ADL(Adaptive Distillation knowledge Loss)について説明する。ADLは、フォーカルロスの考え方を蒸留に適用した学習方法であり、以下の方針でモデルの学習を行う。
・教師モデルと生徒モデルの出力の差が大きいアンカーほど、教師モデルと生徒モデルの出力の差を小さくする。
・教師モデルが自信のないアンカーほど、教師モデルと生徒モデルの出力の差を小さくする。
上記の方針より、ADLは以下の式で示される。
・「KL」は、KL Divergenceであり、「KL距離」又は単に「距離」とも例えられる。KL(q||p)は、qとpの値の近さを測る関数であり、q=pのときに最小値「0」をとる。
・「T」はエントロピー関数であり、T(q)=-qlog[q]で与えられる。T(q)は、上に凸の関数であり、q=0.5のときに最大となり、q=0,1のとき最小となる。q=0,1のときは、教師モデルのクラス分類結果の自信が大きいことを示す。一方、q=0.5のときは、教師モデルのクラス分類結果がどちらかわからず、自信がないことを示す。よって、T(q)により教師モデルの出力の自信度を測ることができる。
・「β」、「γ」は、ハイパーパラメータである。
・生徒モデルが間違えているアンカーほど、真値と生徒モデルの出力との差を小さくする。
この場合のトータルロスは、以下の式が用いられる。
(A)生徒が間違えているアンカーほど、真値と生徒の出力との差を小さくする。
(B)教師が自信のない(0.5を出力する)アンカーほど、教師モデルと生徒モデルの出力の差を小さくする。
(C)教師モデルと生徒モデルの出力の差が大きいアンカーほど、教師モデルと生徒モデルの出力の差を小さくする。
[基本原理]
上記の観点から、本実施形態では以下の方針(1)~(4)を考慮する。
(1)教師モデルと生徒モデルの出力の差が大きいアンカーほど、教師モデルと生徒モデルの出力の差を小さくする。これは、上記の方針(C)と同一である。この方針で得られる教師モデルと生徒モデルのロス(損失)を「L1」とすると、L1は以下の式で得られる。なお、「γ1」はハイパーパラメータである。
次に、第1実施形態の第1実施例について説明する。第1実施例は、上記のロスL1~L4のうち、ロスL1及びL2を使用するものである。
図3は、第1実施例に係る物体検知装置のハードウェア構成を示すブロック図である。図示のように、物体検知装置100は、入力インタフェース(IF)12と、プロセッサ13と、メモリ14と、記録媒体15と、データベース(DB)16と、を備える。
前述のように、物体検知装置はクラス分類と矩形位置検出を行うが、説明の便宜上、まず、クラス分類に関する構成のみを先に説明する。図4は、第1実施例に係る物体検知装置100のクラス分類に関する機能構成を示すブロック図である。なお、図4は、物体検知装置100の学習のための構成を示す。
[第2実施例]
次に、第1実施形態の第2実施例について説明する。第2実施例は、上記のロスL1~L4のうち、ロスL3及びL4を使用するものである。
第2実施例に係る物体検知装置のハードウェア構成は、図3に示す第1実施例のものと同様であるので、説明を省略する。
第2実施例においても、まず、クラス分類に関する構成のみを先に説明する。図9は、第2実施例に係る物体検知装置100xのクラス分類に関する機能構成を示すブロック図である。なお、図9は、物体検知装置100xの学習のための構成を示す。
次に、第2実施形態について説明する。図13は、本発明の第2実施形態に係る学習装置の機能構成を示す。なお、学習装置50のハードウェア構成は基本的に図3と同様である。
(1)教師モデル51の出力の自信度が低いほど大きくなる第1の重みを、真値と生徒モデル52の出力との差に乗算して得た第1の損失と、
(2)真値と教師モデル51の出力との差が大きいほど大きくなる第2の重みを、真値と生徒モデル52の出力との差に乗算して得た第2の損失と、
(3)教師モデル51の出力と生徒モデル52の出力との差が大きいほど大きくなる第3の重み、及び、真値と教師モデル51の出力との差が小さいほど大きくなる第4の重みを、教師モデル51の出力と生徒モデル52の出力との差に乗算して得た第3の損失と、の少なくとも1つを用いてトータル損失を算出する。そして、更新部54は、トータル損失に基づいて、生徒モデル52のパラメータを更新する。
上記の実施形態では、教師モデル出力、生徒モデル出力及び真値の距離としてKL距離を使用している。この場合、教師モデル出力qと生徒モデル出力pのKL距離は以下の式で与えられる。
学習データに対する推論結果を出力する教師モデルと、
前記学習データに対する推論結果を出力する生徒モデルと、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいてトータル損失を算出する損失算出部と、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する更新部と、
を備え、
前記損失算出部は、
(1)前記教師モデルの出力の自信度が低いほど大きくなる第1の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第1の損失と、
(2)前記真値と前記教師モデルの出力との差が大きいほど大きくなる第2の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第2の損失と、
(3)前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第3の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第4の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第3の損失と、の少なくとも1つを用いて前記トータル損失を算出する学習装置。
前記損失算出部は、前記真値と前記生徒モデルの出力との差、前記真値と前記教師モデルの出力との差、及び、前記教師モデルの出力と前記生徒モデルの出力との差を距離として計算する距離計算器を備える付記1に記載の学習装置。
前記損失算出部は、前記自信度をエントロピー関数により算出する付記1又は2に記載の学習装置。
前記損失算出部は、前記第1の損失、前記第2の損失及び前記第3の損失のうちの複数の損失の加重平均により前記トータル損失を算出する付記1乃至3のいずれか一項に記載の学習装置。
前記学習データは画像データであり、
前記画像データから特徴を抽出して特徴マップを生成する特徴抽出部を備え、
前記教師モデル及び前記生徒モデルは、前記特徴マップに対して規定したアンカー毎に前記推論結果を出力する付記1乃至4のいずれか一項に記載の学習装置。
前記教師モデル及び前記生徒モデルは、前記特徴抽出部が抽出した特徴マップに基づいて、前記画像データに含まれる対象物のクラス分類を行う付記5に記載の学習装置。
前記教師モデル及び前記生徒モデルは、前記特徴抽出部が抽出した特徴マップに基づいて、前記画像データに含まれる対象物の位置を検出する付記6に記載の学習装置。
教師モデルを用いて、学習データに対する推論結果を出力し、
生徒モデルを用いて、前記学習データに対する推論結果を出力し、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいて、
(1)前記教師モデルの出力の自信度が低いほど大きくなる第1の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第1の損失と、
(2)前記真値と前記教師モデルの出力との差が大きいほど大きくなる第2の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第2の損失と、
(3)前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第3の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第4の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第3の損失と、の少なくとも1つを用いてトータル損失を算出し、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する学習方法。
教師モデルを用いて、学習データに対する推論結果を出力し、
生徒モデルを用いて、前記学習データに対する推論結果を出力し、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいて、
(1)前記教師モデルの出力の自信度が低いほど大きくなる第1の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第1の損失と、
(2)前記真値と前記教師モデルの出力との差が大きいほど大きくなる第2の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第2の損失と、
(3)前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第3の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第4の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第3の損失と、の少なくとも1つを用いてトータル損失を算出し、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する処理をコンピュータに実行させるプログラムを記録した記録媒体。
100、100x 物体検知装置
110 教師モデル
120 生徒モデル
130 L1計算部
140 L2計算部
150 FL計算部
170 L3計算部
180 L4計算部
161 加重平均計算器
162 パラメータ更新量計算器
Claims (8)
- 学習データに対する推論結果を出力する教師モデルと、
前記学習データに対する推論結果を出力する生徒モデルと、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいてトータル損失を算出する損失算出手段と、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する更新手段と、
を備え、
前記損失算出手段は、
(1)前記教師モデルの出力の自信度が低いほど大きくなる第1の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第1の損失と、
(2)前記真値と前記教師モデルの出力との差が大きいほど大きくなる第2の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第2の損失と、
(3)前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第3の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第4の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第3の損失と、のうちの複数の損失の加重平均により前記トータル損失を算出する学習装置。 - 前記損失算出手段は、前記真値と前記生徒モデルの出力との差、前記真値と前記教師モデルの出力との差、及び、前記教師モデルの出力と前記生徒モデルの出力との差を距離として計算する距離計算器を備える請求項1に記載の学習装置。
- 前記損失算出手段は、前記自信度をエントロピー関数により算出する請求項1又は2に記載の学習装置。
- 前記学習データは画像データであり、
前記画像データから特徴を抽出して特徴マップを生成する特徴抽出手段を備え、
前記教師モデル及び前記生徒モデルは、前記特徴マップに対して規定したアンカー毎に前記推論結果を出力する請求項1乃至3のいずれか一項に記載の学習装置。 - 前記教師モデル及び前記生徒モデルは、前記特徴抽出手段が抽出した特徴マップに基づいて、前記画像データに含まれる対象物のクラス分類を行う請求項4に記載の学習装置。
- 前記教師モデル及び前記生徒モデルは、前記特徴抽出手段が抽出した特徴マップに基づいて、前記画像データに含まれる対象物の位置を検出する請求項5に記載の学習装置。
- 教師モデルを用いて、学習データに対する推論結果を出力し、
生徒モデルを用いて、前記学習データに対する推論結果を出力し、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいて、
(1)前記教師モデルの出力の自信度が低いほど大きくなる第1の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第1の損失と、
(2)前記真値と前記教師モデルの出力との差が大きいほど大きくなる第2の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第2の損失と、
(3)前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第3の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第4の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第3の損失と、のうちの複数の損失の加重平均によりトータル損失を算出し、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する学習方法。 - 教師モデルを用いて、学習データに対する推論結果を出力し、
生徒モデルを用いて、前記学習データに対する推論結果を出力し、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいて、
(1)前記教師モデルの出力の自信度が低いほど大きくなる第1の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第1の損失と、
(2)前記真値と前記教師モデルの出力との差が大きいほど大きくなる第2の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第2の損失と、
(3)前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第3の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第4の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第3の損失と、のうちの複数の損失の加重平均によりトータル損失を算出し、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する処理をコンピュータに実行させるプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/044596 WO2021095176A1 (ja) | 2019-11-13 | 2019-11-13 | 学習装置、学習方法、及び、記録媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2021095176A1 JPWO2021095176A1 (ja) | 2021-05-20 |
JPWO2021095176A5 JPWO2021095176A5 (ja) | 2022-07-05 |
JP7384217B2 true JP7384217B2 (ja) | 2023-11-21 |
Family
ID=75912585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021555705A Active JP7384217B2 (ja) | 2019-11-13 | 2019-11-13 | 学習装置、学習方法、及び、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220366678A1 (ja) |
JP (1) | JP7384217B2 (ja) |
WO (1) | WO2021095176A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115238903B (zh) * | 2021-06-29 | 2023-10-03 | 达闼机器人股份有限公司 | 模型压缩方法、系统、电子设备及存储介质 |
CN113505797B (zh) * | 2021-09-09 | 2021-12-14 | 深圳思谋信息科技有限公司 | 模型训练方法、装置、计算机设备和存储介质 |
CN115082920B (zh) * | 2022-08-16 | 2022-11-04 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、图像处理方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268292A1 (en) | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
JP2019053569A (ja) | 2017-09-15 | 2019-04-04 | 日本電気株式会社 | 情報処理装置、情報処理方法、および、プログラム |
JP2019215861A (ja) | 2018-06-13 | 2019-12-19 | 富士通株式会社 | ナレッジ・トランスファー方法、情報処理装置及び記憶媒体 |
-
2019
- 2019-11-13 US US17/772,622 patent/US20220366678A1/en active Pending
- 2019-11-13 JP JP2021555705A patent/JP7384217B2/ja active Active
- 2019-11-13 WO PCT/JP2019/044596 patent/WO2021095176A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268292A1 (en) | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
JP2019053569A (ja) | 2017-09-15 | 2019-04-04 | 日本電気株式会社 | 情報処理装置、情報処理方法、および、プログラム |
JP2019215861A (ja) | 2018-06-13 | 2019-12-19 | 富士通株式会社 | ナレッジ・トランスファー方法、情報処理装置及び記憶媒体 |
Non-Patent Citations (2)
Title |
---|
WANG, Mengjiao et al.,"DISCOVER THE EFFECTIVE STRATEGY FOR FACE RECOGNITION MODEL COMPRESSION BY IMPROVED KNOWLEDGE DISTILLATION",2018 25th IEEE International Conference on Image Processing (ICIP) [online],米国,IEEE,2018年09月06日,pp.2416-2420,[検索日 2020.02.04], インターネット:<URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8451808> |
藤吉 弘亘 ほか,「深層学習による画像認識」,日本ロボット学会誌,一般社団法人日本ロボット学会,2017年04月15日,第35巻, 第3号,pp.8-13 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021095176A1 (ja) | 2021-05-20 |
WO2021095176A1 (ja) | 2021-05-20 |
US20220366678A1 (en) | 2022-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112990432B (zh) | 目标识别模型训练方法、装置及电子设备 | |
JP7384217B2 (ja) | 学習装置、学習方法、及び、プログラム | |
US11023806B2 (en) | Learning apparatus, identifying apparatus, learning and identifying system, and recording medium | |
EP3633549A1 (en) | Facial detection training method, apparatus and electronic device | |
JP4618098B2 (ja) | 画像処理システム | |
US10757125B2 (en) | Anomaly detection method and recording medium | |
CN109271958B (zh) | 人脸年龄识别方法及装置 | |
US20210125000A1 (en) | Method and apparatus for training model for object classification and detection | |
KR20060097074A (ko) | 객체의 모양모델 생성장치 및 방법과 이를 이용한 객체의특징점 자동탐색장치 및 방법 | |
US9842279B2 (en) | Data processing method for learning discriminator, and data processing apparatus therefor | |
US20190236336A1 (en) | Facial recognition method, facial recognition system, and non-transitory recording medium | |
CN113221645B (zh) | 目标模型训练方法、人脸图像生成方法以及相关装置 | |
JP2019152964A (ja) | 学習方法および学習装置 | |
WO2019082166A1 (en) | PROPAGATION AND UNCERTAIN UNCERTAINTY | |
CN113986561B (zh) | 人工智能任务处理方法、装置、电子设备及可读存储介质 | |
CN109961103B (zh) | 特征提取模型的训练方法、图像特征的提取方法及装置 | |
JP2006127446A (ja) | 画像処理装置、画像処理方法、プログラムおよび記録媒体 | |
WO2020065908A1 (ja) | パターン認識装置、パターン認識方法およびパターン認識プログラム | |
US11847389B2 (en) | Device and method for optimizing an input parameter in a processing of a semiconductor | |
US20210209396A1 (en) | Information processing device, control method, and program | |
US11507670B2 (en) | Method for testing an artificial intelligence model using a substitute model | |
CN111652350A (zh) | 神经网络可视化解释方法及弱监督定位物体方法 | |
KR20200066125A (ko) | 영상의 유사도 예측 방법 및 장치 | |
CN115311550A (zh) | 遥感影像语义变化检测方法、装置、电子设备及存储介质 | |
JP7310927B2 (ja) | 物体追跡装置、物体追跡方法及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220415 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230516 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230628 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231023 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7384217 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |