JP2022553407A - 複合特性分類と共通局所化のためのニューラルネットワークモデルの学習方法及び装置 - Google Patents

複合特性分類と共通局所化のためのニューラルネットワークモデルの学習方法及び装置 Download PDF

Info

Publication number
JP2022553407A
JP2022553407A JP2022524128A JP2022524128A JP2022553407A JP 2022553407 A JP2022553407 A JP 2022553407A JP 2022524128 A JP2022524128 A JP 2022524128A JP 2022524128 A JP2022524128 A JP 2022524128A JP 2022553407 A JP2022553407 A JP 2022553407A
Authority
JP
Japan
Prior art keywords
class
neural network
network model
loss
observation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022524128A
Other languages
English (en)
Inventor
クム,ジス
オ,サンイル
キム,キョンナム
Original Assignee
ウェイセン インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ウェイセン インコーポレイテッド filed Critical ウェイセン インコーポレイテッド
Publication of JP2022553407A publication Critical patent/JP2022553407A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features

Abstract

本発明の実施形態による画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習方法において、前記ニューラルネットワークモデルは、入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、前記畳み込み層の出力に対してプーリング(pooling)を行うためのプーリング層と、複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みwfc(Tt)を掛けた値を出力する複数のクラス別全結合層(fully connected layer)と、を含み、前記方法は、(a)入力画像を前記畳み込み層に入力するステップと、(b)前記畳み込み層の出力に基づいて複数のクラス別観察マップを演算するステップと、(c)前記複数のクラス別観察マップに基づいて、複数のクラスに共通する観察損失Lobsを演算するステップと、(d)観察損失Lobsに基づく損失を前記ニューラルネットワークモデルに逆伝播するステップと、を含む。

Description

本発明は、複合特性分類と共通局所化のためのニューラルネットワークモデルの学習方法及び装置に関する。
図1の(a)は従来技術によるニューラルネットワークモデルを示す。
図1の(a)を参照すると、ニューラルネットワークモデルは、入力層、1つ以上の畳み込み層、プーリング層、及び全結合層を含む。このようなニューラルネットワークモデルを用いて、ある入力が在るとき、A、B、C、Dの4つの特性のうちの1つの結果値、又は各特性に該当する確率を出力することができる。この時、結果値の総和は100パーセントであり得る。
しかし、ある入力は、複数の結果が可能な複合特性を持つことができる。例えば、Aは男性、Bは女性の特性であり、Cは東洋人、Dは非東洋人の特性である場合、結果値としてAとCが同時に可能であり得る。
ところが、従来のニューラルネットワークモデルによる場合、結果値の総和が100%となるように判断するため、このような複合特性が正しく反映され難い。
本発明の実施形態は、複合特性を正しく予測することができる、ニューラルネットワークモデルの学習方法及び装置を提供することを目的とする。
本発明の実施形態による画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習方法において、前記ニューラルネットワークモデルは、入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、前記畳み込み層の出力に対してプーリング(pooling)を行うためのプーリング層と、複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みwfc(T)を掛けた値を出力する複数のクラス別全結合層(fully connected layer)と、を含み、前記方法は、(a)入力画像を前記畳み込み層に入力するステップと、(b)前記畳み込み層の出力に基づいて複数のクラス別観察マップを演算するステップと、(c)前記複数のクラス別観察マップに基づいて、複数のクラスに共通する観察損失Lobsを演算するステップと、(d)前記観察損失Lobsに基づく損失を前記ニューラルネットワークモデルに逆伝播するステップと、を含む。
前記(c)ステップは、(c-1)前記複数のクラス別観察マップに基づいて、前記複数のクラスに共通する共通観察マップを生成するステップと、(c-2)前記共通観察マップ及び前記入力画像の対象領域を用いて前記観察損失Lobsを演算するステップと、を含む。
前記共通観察マップは、前記クラス別観察マップの平均値であり得る。
前記観察損失は、前記共通観察マップと前記入力画像の対象領域をそれぞれ横及び縦方向にプロジェクションした値同士を連結(concatenate)した値に対してコサイン距離を計算することにより算出できる。
前記(b)ステップで、前記クラス別観察マップは、下記の式によって算出できる。
Figure 2022553407000002
(式中、Tはクラス、wfc(T)はクラス別全結合層の重み、oconvは畳み込み層の出力、Cはチャネル数をそれぞれ示す。)
前記ニューラルネットワークモデルは、前記複数のクラス別全結合層にそれぞれ対応し、各クラス別全結合層の出力に応じてクラス別特性確率を演算する複数のクラス別分類器をさらに含むことができる。
前記(d)ステップは、(d-1)前記複数のクラス別分類器それぞれの出力結果に基づいてクラス別分類損失Lcls(T)を演算するステップと、(d-2)前記観測損失Lobs及び前記クラス別分類損失Lcls(T)に基づいてクラス別特性損失L(T)を演算するステップと、(d-3)前記クラス別特性損失L(T)をクラス別に前記複数のクラス別分類器及び前記複数のクラス別全結合層に逆伝播するステップと、を含むことができる。
前記(d-2)ステップで、前記クラス別特性損失L(T)は、下記の式によって算出できる。
Figure 2022553407000003
(式中、0≦α≦1)
前記(d)ステップは、(d-4)複数の前記クラス別分類損失Lcls(T)と前記観察損失Lobsに基づいてマルチラベル分類損失L(T)を演算するステップと、(d-5)前記マルチラベル分類損失L(T)を前記複数のクラス別分類器、前記複数のクラス別全結合層、前記プーリング層及び前記畳み込み層に逆伝播するステップと、をさらに含むことができる。
前記プーリング層は、全体平均プーリング層(global average pooling layer)であり得る。
本発明の実施形態によるニューラルネットワークモデルの学習装置は、ニューラルネットワークモデルが記憶されるメモリと、プロセッサとを含む、画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習装置であって、前記ニューラルネットワークモデルは、入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、前記畳み込み層の出力に対してプーリング(pooling)を行うためのプーリング層と、複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みwfcTt)を掛けた値を出力する複数のクラス別全結合層(fully connected layer)と、を含み、前記プロセッサは、入力画像を前記畳み込み層に入力し、前記畳み込み層の出力に基づいて複数のクラス別観察マップを演算し、前記複数のクラス別観察マップに基づいて、複数のクラスに共通する観察損失Lobsを演算し、前記観察損失Lobsに基づく損失を前記ニューラルネットワークモデルに逆伝播する。
本発明の実施形態によれば、複合特性を正しく分類することができる。
本発明の実施形態によれば、クラス間の関連性が反映できる。
本発明の実施形態によれば、複合特性間の共通局所化が実現できる。
図1の(a)は従来技術による一対一モデルを示すものであり、図1の(b)は比較例による一対一分類モデルを2つ使用したものを示すものであり、図1の(c)は本発明の実施形態による一対多モデルを示すものである。 本発明の実施形態によるニューラルネットワークモデル1の構造を示す図である。 本発明の実施形態によるニューラルネットワークモデルの学習方法を示すフローチャートである。 図3の学習方法を説明するための図である。 本発明の実施形態による観察損失の算出方法を説明するための図である。 本発明の実施形態による観察損失の算出方法を説明するための図である。 本発明の実施形態によるニューラルネットワークモデルの学習方法を示すフローチャートである。 本発明の実施形態によるニューラルネットワークモデルの学習方法を示すデータのフローチャートである。 図2のニューラルネットワークモデルにおける図7及び図8の各ステップに該当する部分を示すものである。 図2のニューラルネットワークモデルにおける図7及び図8の各ステップに該当する部分を示すものである。 図2のニューラルネットワークモデルにおける図7及び図8の各ステップに該当する部分を示すものである。 図2のニューラルネットワークモデルにおける図7及び図8の各ステップに該当する部分を示すものである。 図2のニューラルネットワークモデルにおける図7及び図8の各ステップに該当する部分を示すものである。 図2のニューラルネットワークモデルにおける図7及び図8の各ステップに該当する部分を示すものである。 図2のニューラルネットワークモデルにおける図7及び図8の各ステップに該当する部分を示すものである。 図2のニューラルネットワークモデルにおける図7及び図8の各ステップに該当する部分を示すものである。 図2のニューラルネットワークモデルにおける図7及び図8の各ステップに該当する部分を示すものである。 図2のニューラルネットワークモデルにおける図7及び図8の各ステップに該当する部分を示すものである。 本発明の実施形態に係るニューラルネットワークモデルの学習装置の構成を示す図である。
発明者は自分の発明を最善の方法で説明するために用語の概念を適切に定義することができるという原則に即して、本明細書及び請求の範囲で使用された用語又は単語は、本発明の技術的思想に符合する意味と概念で解釈されるべきである。
明細書全体において、ある部分がある構成要素を「含む」とするとき、これは、特に反対の記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含むことができることを意味する。また、ある構成要素が他の構成要素に「接続」、「伝送」、「送信」、「受信」又は「伝達」されるとするとき、これは、直接的に接続、伝送、送信、受信又は伝達される場合だけでなく、他の構成要素を介して間接的に接続、伝送、送信、受信又は伝達される場合も含む。また、明細書に記載された「…部」、「…器」、「モジュール」、「装置」などの用語は、少なくとも一つの機能又は動作を処理する単位を意味し、これは、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせで実現できる。
以下、図面を参照して本発明の具体的な実施形態について説明する。
図1の(b)は比較例による一対一分類モデルを2つ使用したものを示すものであり、図1の(c)は本発明の実施形態による一対多モデルを示すものである。
図1において、AとBはクラスIに属する特性を示し、CとDはクラスIIに属する特性を示す。クラスIの分類基準とクラスIIの分類基準とは互いに異なり得る。このように、複数のクラスに属する特性を、本明細書では複合特性と呼ぶ。複合特性を有する入力は、複数の特性、すなわち各クラス別に特性を有することができる。
図1の(b)を参照すると、2つの一対一分類モデルが使用される場合、特性AとBの予測確率の和は100パーセントであり、特性CとDの予測確率の和は100パーセントである。この場合、予測結果は正確であり得るが、2つのモデルを学習しなければならないので、計算量が増加することができる。また、2つのモデルが独立して学習されるので、クラス間の連関性が反映され難い。
図1の(c)を参照すると、一対多モデルでは、一部の層、すなわち畳み込み層とプーリング層(pooling layer)がクラス間で共有され、全結合層はクラス別に提供される。このとき、全結合層がクラス別に提供されるため、特性AとBの予測確率の和は100%であり、特性CとDの予測確率の和は100%である。よって、クラスIでの予測結果とクラスIIでの予測結果がそれぞれ提供されるため、図1の(a)に比べて正確な予測結果を得ることができる。また、畳み込み層がクラス間で共有されるため、図1の(b)のモデルに比べて計算量を減少させながらもクラス間の連関性を反映させることができる。
本発明の実施形態による画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習方法において、
前記ニューラルネットワークモデルは、
入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、
前記畳み込み層の出力に対してプーリング(pooling)を行うためのプーリング層と、
複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みwfc(T)を掛けた値を出力する複数のクラス別全結合層(fully connected layer)と、
を含み、
前記方法は、
(a)入力画像を前記畳み込み層に入力するステップと、
(b)前記畳み込み層の出力に基づいてクラス別観察マップを演算するステップと、
(c)前記クラス別観察マップに基づいて、複数のクラスに共通する観察損失Lobsを演算するステップと、
(d)観察損失Lobsに基づく損失を前記ニューラルネットワークモデルに逆伝播するステップと、を含む。
図2は本発明の実施形態によるニューラルネットワークモデル1の構造を示す図である。図2において、N個のクラスT、T、…T、…TNTが存在し、クラスTには2つの特性が属し、クラスTには2つの特性が属し、クラスTにはn個の特性が属し、クラスTNTには3つの特性が属すると仮定した。
図2を参照すると、本発明の実施形態によるニューラルネットワークモデル1は、入力画像xに対して畳み込みフィルタを用いて畳み込み演算を行うための畳み込み層10と、前記畳み込み層10の出力oconvに対してプーリングを行うためのプーリング層20と、複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層20の出力に対してクラス別重みwfc(T)を掛けた値を出力する複数のクラス別全結合層30と、を含む。
ニューラルネットワークモデル1は、前記複数のクラス別全結合層30にそれぞれ対応し、各クラス別全結合層30の出力に応じてクラス別特性確率を演算する複数のクラス別分類器40をさらに含むことができる。
畳み込み層10は、入力画像に対して複数の畳み込みフィルタを用いて畳み込み演算を行うことにより、特徴マップを抽出する。図2に示すように、畳み込み演算は複数回行われてもよい。畳み込み層10の出力、すなわち特徴マップoconvは、高さ(H)、幅(W)、チャネル数(C)を有すると仮定した。
プーリング層20は、畳み込み層10と全結合層30との間に位置し、特徴マップoconvの大きさを減少させて後述の全結合層30で必要な演算を減少させ、オーバーフィッティングを防止する役割をする。プーリング層20は、特徴マップoconvの各チャネルに対して平均値を出力する全体平均プーリング(global average pooling)を行うことができる。
クラス別全結合層30は、プーリング層20の出力にクラス別重みwfc(T)、wfc(T・・・wfc(T)、・・・wfc(TNT)を掛けた値を出力する。このとき、クラス別重みwfc(T)、wfc(T)、...wfc(T)、...wfc(TNT)のそれぞれは、チャネル数に該当する複数の値であり得る。
クラス別分類器40は、クラス別全結合層30にそれぞれ対応し、クラス別全結合層30の出力に応じてクラス別特性確率を演算する。図2を参照すると、クラスTに該当する分類器は、クラスTに属する特性のそれぞれに該当する確率P(T)、P(T)を演算し、クラスTに該当する分類器は、クラスTに属する特性のそれぞれに該当する確率P(T)、P(T)を演算し、クラスTに該当する分類器は、クラスTに属する特性それぞれに該当する確率P(T)、P(T)、...P(T)を演算し、クラスTNTに該当する分類器は、クラスTNTに属する特性のそれぞれに該当する確率P(TNT)、P(TNT)、P(TNT)を演算する。クラス別分類器40として、例えば、Softmax関数、Sigmoid関数などが用いられることができる。
次に、図3及び図4を参照して、本発明の実施形態によるニューラルネットワークモデルの学習方法について説明する。
図3は本発明の実施形態によるニューラルネットワークモデルの学習方法を示すフローチャートであり、図4は図3の学習方法を説明するための図である。本発明の実施形態によるニューラルネットワークモデルの学習方法は、図2のニューラルネットワークモデルが使用される。
図3を参照すると、まず、ニューラルネットワークモデルの畳み込み層に画像が入力される(S100)。入力画像のクラス別特性(複合特性)と対象領域は既に知られている。ここで、対象領域とは、入力画像の一部であって、クラス別特性の判断に大きな影響を及ぼす部分を意味する。例えば、図4に示すように、入力画像が超音波画像であるとき、対象領域は、病変が現れた部分であり得る。対象領域は、複数のクラスに対して同一であってもよい。
次に、畳み込み層の出力に基づいて複数のクラス別観察マップを演算する(S110)。
観察マップは、分類活性化マップ(Cams Activation Map;CAM)とも呼ばれ、入力画像の各部分が分類結果にどれほど影響を及ぼしたかを示す。本実施形態において、観察マップはクラス別に演算される。図4にクラス別観察マップの例示を示した。クラス別観察マップは、下記の式によって算出できる。
Figure 2022553407000004
式中、Tはクラス、wfc(T)はクラス別全結合層の重み、oconvは畳み込み層の出力、Cはチャネル数をそれぞれ示す。
次に、複数のクラス別観察マップに基づいて、複数のクラスに共通する観察損失を演算する(S120)。
実施形態によって、ステップS120は、複数のクラス別観察マップに基づいて、複数のクラスに共通する共通観察マップを生成するステップ(S121)と、共通観察マップ及び入力画像の対象領域を用いて観察損失を演算するステップ(S122)と、を含むことができる。観察損失は、入力画像の対象領域と共通観察マップとの差に基づいて演算できる。共通観察マップは、クラス別観察マップの平均値であり、下記の式によって算出できる。
Figure 2022553407000005
ここで、
Figure 2022553407000006
は前述したクラス別観察マップを示し、Nはクラスの数を示す。
但し、これは一例であり、各クラスの観察マップの割合を異ならせるか、或いは全体クラスのうちの一部クラスの観察マップに基づいて共通観察マップを算出することもできる。
算出された共通観察マップと入力画像の対象領域を用いて観察損失を演算する。
例えば、観察損失は、下記の式によって算出できる。
Figure 2022553407000007
ここで、
Figure 2022553407000008
Figure 2022553407000009
は入力画像xの対象領域を示し、
Figure 2022553407000010
は入力画像xの共通観察マップを示す。
図5及び図6は本発明の実施形態による観察損失の算出方法を説明するための図である。
図5の(a)は入力画像の対象領域を縦方向に沿ってプロジェクションした値Mを示し、図5の(b)は入力画像の対象領域を横方向に沿ってプロジェクションした値Mを示す。
図5の(a)には、入力画像の対象領域に対してのみ例示を挙げて説明したが、共通観察マップに対しても同様に、横及び縦方向に沿ってプロジェクションした値が計算できる。
図6の(a)は入力画像の対象領域を縦方向にプロジェクションした値をグラフで示すものであり、図6の(b)は入力画像の対象領域を横方向にプロジェクションした値をグラフで示すものである。図6の(c)は共通観察マップの対象領域を縦方向にプロジェクションした値をグラフで示すものであり、図6の(d)は共通観察マップの対象領域を横方向にプロジェクションした値をグラフで示すものである。
実施形態によって、観察損失は、入力画像の対象領域と共通観察マップをそれぞれ横及び縦方向にプロジェクションし、それらを連結(concatenate)した値に対してコサイン距離を計算することにより算出できる。
すなわち、観察損失は、下記の式によって算出できる。
Figure 2022553407000011
上記の式によれば、ピクセル単位の正確性よりも全体的な分布を反映することが可能である。
次に、図3を再び参照すると、観察損失に基づく損失をニューラルネットワークモデルに逆伝播する(S130)。
上述したステップS100~ステップS130は、複数の入力画像に対して行われることができ、これによりニューラルネットワークモデルが学習され得る。
本実施形態において、クラス別に観察マップを生成するが、観察損失は、複数のクラスに対して同様に適用される。これにより、複数のクラスに対して観察マップが同一になる効果、すなわち共通局所化の効果を得ることができる。
図7は本発明の実施形態によるニューラルネットワークモデルの学習方法を示すフローチャートである。
まず、ニューラルネットワークモデルの畳み込み層に画像が入力される(S200)。
次に、ニューラルネットワークモデルからクラス別分類損失と観察損失が算出される(S210、S220)。
クラス別分類損失は、各クラスに属する特性がどれほど正確に予測されたかを示す値であって、クラス別に算出される。クラス別分類損失は、複数のクラス別分類器それぞれの出力結果に基づいて演算されることができる。例えば、入力画像のクラス別特性と、クラス別分類器の出力であるクラス別特性確率(図2のP(T)、P(T)、…P(T)を参照)の差異からクラス別分類損失が計算されることができる。
クラス別分類損失は、下記の式によって計算できる。
Figure 2022553407000012
ここで、
Figure 2022553407000013
は入力画像xのクラスTに対するクラス別特性cの出力確率を示し、
は学習画像数を示し、CTtはクラスTに属するクラス別特性の数を示す。
観察損失は、前述したのと同様なので、重複説明は省略する。
次に、クラス別分類損失と観察損失に基づいてクラス別特性損失が演算される(S230)。
クラス別特性損失は、観察損失とクラス別分類損失を反映した値である。前述したように、観察損失は複数のクラスに対して同一であるが、クラス別分類損失はクラスによって異なるため、クラス別特性損失はクラス別に異なる値を持つことができる。
クラス別特性損失は、下記の式によって算出できる。
Figure 2022553407000014
ここで、Lcls(T)はクラス別分類損失を示し、Lobsは観察損失を示し、0≦α≦1を満たす。
次に、クラス別特性損失を、複数のクラス別分類器及び複数のクラス別全結合層にクラス別に逆伝播する(S240)。
図2のニューラルネットワークモデルを参照すると、クラス別全結合層30及びクラス別分類器40は、クラス別分岐(branch)に該当する。つまり、クラス別特性損失は、ニューラルネットワークモデルのクラス別分岐に該当する部分にのみ逆伝播される。また、クラス別特性損失はクラス別に逆伝播される。具体的には、図2を参照すると、クラスTの特性損失は、クラスTに該当する分類器40及び全結合層30に逆伝播され、クラスTの特性損失は、クラスTに該当する分類器40及び全結合層30に逆伝播され、クラスTの特性損失は、クラスTに該当する分類器40及び全結合層30に逆伝播され、クラスTNTの特性損失は、クラスTNTに該当する分類器40及び全結合層30に逆伝播されることができる。
次に、マルチラベル分類損失が演算される(S250)。
マルチラベル分類損失は、クラス別分類損失(S210参照)とは異なり、クラス別に演算されたクラス別分類損失を反映した値である。マルチラベル分類損失は、複数のクラス別分類損失と観察損失に基づいて演算できる。マルチラベル分類損失は、複数のクラスに対して同様に適用される。
前記ステップS240の逆伝播によって複数のクラス別全結合層30のクラス別重みが調整され、これにより複数のクラス別分類損失及び観察損失も変更されることができる。マルチラベル分類損失は、変更された複数のクラス別分類損失と観察損失に基づいて算定できる。
マルチラベル分類損失は、下記の式によって算出できる。
Figure 2022553407000015
Figure 2022553407000016
ここで、
Figure 2022553407000017
は、入力画像xの複数のクラス全体に対するクラス別特性cの出力確率を示し、
は学習画像数を示し、Cは複数のクラス全体に対するクラス別特性の数を示す。
次に、マルチラベル分類損失をニューラルネットワークモデルの全域に逆伝播する(S260)。
図2を参照すると、ニューラルネットワークモデルの全域は、複数のクラス別分類器40、複数のクラス別全結合層30、プーリング層20及び畳み込み層10を示す。これにより、ニューラルネットワークモデルのパラメータ値、例えば畳み込み層10の畳み込みフィルタ、クラス別全結合層30のクラス別重みなどが調整できる。
上述したステップS200~ステップS260は、複数の入力画像に対して行われることができ、これによりニューラルネットワークモデルが学習され得る。
次に、図8及び図9を参照して、本発明の実施形態によるニューラルネットワークモデルの学習のためのデータフ流れについて説明する。
図8は本発明の実施形態によるニューラルネットワークモデルの学習方法を示すデータのフローチャートであり、図9は図2のニューラルネットワークモデルにおける図6の各ステップに該当する部分を示すものである。図8において、長方形はデータの処理を示し、平行四辺形はデータを示し。
図8及び図9の(a)を参照すると、まず、画像xがニューラルネットワークモデルに入力される(S300)。このとき、入力画像xのクラス別特性及び対象領域は既に知られている。
ニューラルネットワークモデルは、図2を参照して説明したように、畳み込み層10、プーリング層20、クラス別全結合層30及びクラス別分類器40を含む。図8には1つのクラス別全結合層30及び1つのクラス別分類器40が示されているが、これらはクラスの数だけ備えられることができる。
図8及び図9の(b)に示すように、入力画像xが畳み込み層10を経ることにより、特性マップoconvが出力される。
そして、図8及び図9の(c)を参照すると、畳み込み層10を経た入力画像は、ニューラルネットワークモデルの残りの部分、すなわちプーリング層20、クラス別全結合層30及びクラス別分類器40を経ることにより、クラス別特性確率P(T)が出力される。
次に、図8及び図9の(d)を参照すると、クラス別特性確率P(T)と入力画像のクラス別特性に基づいてクラス別分類損失Lcls(T)が演算される(S310)。
一方、畳み込み層10の出力oconvとクラス別全結合層30の重みwfc(T)に基づいてクラス別観察マップが算出される(S320)。
次に、図8及び図9の(e)を参照すると、クラス別観察マップに基づいて共通観察マップ
Figure 2022553407000018
を生成する(S330)。
その後、図8及び図9の(f)を参照すると、入力画像の対象領域
Figure 2022553407000019
と共通観察マップ
Figure 2022553407000020
に基づいて観察損失Lobsを演算する(S340)。
次に、図8及び図9の(g)を参照すると、クラス別分類損失Lcls(T)と観察損失Lobsに基づいてクラス別特性損失L(T)を算出する(S350)。
次いで、図8及び図9の(h)を参照すると、クラス別特性損失L(T)が学習終了条件を満たすか否かを判断し(S360)、満たさない場合(S360、NO)には、クラス別特性損失L(T)をクラス別分類器40及びクラス別全結合層30に逆伝播する(S370)。
これにより、クラス別全結合層30のクラス別重みwfcTt)が調整され、クラス別全結合層10の処理、クラス別分類器40の処理、クラス別分類損失演算(S310)が再び行われてクラス別分類損失Lcls(T)が調整され、クラス別観察マップ演算(S320)、共通観察マップ演算(S330)及び観察損失演算(S340)が再び行われて観察損失Lobsが調整される。
次に、図8及び図9の(i)を参照すると、マルチラベル分類損失が演算される(S380)。
その後、図8及び図9の(j)を参照すると、マルチラベル分類損失L(T)が学習終了条件を満たすか否かを判断し(S390)、満たさない場合(S390、NO)には、マルチラベル分類損失L(T)をニューラルネットワークモデル全体、すなわちクラス別分類器40、クラス別全結合層30、プーリング層20及び畳み込み層10に逆伝播する(S400)。これにより、ニューラルネットワークモデルのパラメータが調整できる。
図10は本発明の実施形態に係るニューラルネットワークモデルの学習装置1000の構成を示す図である。
ニューラルネットワークモデルの学習装置1000は、ニューラルネットワークモデルが記憶されるメモリ1100及びプロセッサ1200を含む。
メモリ1100に記憶されるニューラルネットワークモデルは、図2を参照して既に説明した通りである。
プロセッサ1200は、図3~図9を参照して説明したニューラルネットワークモデルの学習方法を行う。すなわち、プロセッサ1200は、入力画像を畳み込み層に入力し、畳み込み層の出力に基づいて複数のクラス別観察マップを演算し、複数のクラス別観察マップに基づいて、複数のクラスに共通する観察損失Lobsを演算し、前記観察損失Lobsに基づく損失をニューラルネットワークモデルに逆伝播する。
以上、好適な実施形態を介して本発明について詳細に説明したが、本発明は、これに限定されるものではなく、本発明の技術的思想から逸脱することなく、種々な変更及び応用を加え得るのは、当該技術分野における通常の技術者にとって自明である。よって、本発明の真正な保護範囲は以下の請求の範囲によって解釈されるべきであり、それと同等の範囲内にあるすべての技術的思想は本発明の権利範囲に含まれるものと解釈されるべきである。

Claims (10)

  1. 画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習方法であって、
    前記ニューラルネットワークモデルは、
    入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、
    前記畳み込み層の出力に対してプーリング(pooling)を行うためのプーリング層と、
    複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みwfc(T)を掛けた値を出力する複数のクラス別全結合層(fully connected layer)と、を含み、
    前記複数のクラスは、互いに異なる基準によって区別され、
    前記複数のクラスそれぞれは、複数のクラス別特性に分類され、
    前記ニューラルネットワークモデルは、前記クラス別全結合層の出力に応じて、前記複数のクラスそれぞれのクラス別特性に対するクラス別特性確率を提供することができ、
    前記方法は、
    (a)入力画像を前記畳み込み層に入力するステップと、
    (b)前記畳み込み層の出力に基づいて、前記複数のクラスそれぞれに対するクラス別観察マップを演算するステップと、
    (c)前記クラス別観察マップに基づいて、前記複数のクラスに共通する観察損失Lobsを演算するステップと、
    (d)前記観察損失Lobsに基づく損失を前記ニューラルネットワークモデルに逆伝播するステップと、を含み、
    前記(c)ステップは、
    (c-1)前記クラス別観察マップに基づいて、前記複数のクラスに共通する共通観察マップを生成するステップと、
    (c-2)前記共通観察マップ及び前記入力画像の対象領域を用いて前記観察損失Lobsを演算するステップと、
    を含み、各ステップがコンピュータプロセッサによって行われる、ニューラルネットワークモデルの学習方法。
  2. 前記共通観察マップは前記クラス別観察マップの平均値であることを特徴とする、請求項1に記載のニューラルネットワークモデルの学習方法。
  3. 前記観察損失は、前記共通観察マップと前記入力画像の対象領域をそれぞれ横及び縦方向にプロジェクションした値同士を連結(concatenate)した値に対してコサイン距離を計算することにより算出されることを特徴とする、請求項1に記載のニューラルネットワークモデルの学習方法。
  4. 前記(b)ステップで、前記クラス別観察マップは下記の式によって算出されることを特徴とする、請求項1に記載のニューラルネットワークモデルの学習方法。
    Figure 2022553407000021

    (式中、Tはクラス、wfc(T)はクラス別全結合層の重み、oconvは畳み込み層の出力、Cはチャネル数をそれぞれ示す。)
  5. 前記ニューラルネットワークモデルは、
    前記複数のクラス別全結合層にそれぞれ対応し、各クラス別全結合層の出力に応じてクラス別特性確率を演算する複数のクラス別分類器をさらに含むことを特徴とする、請求項1に記載のニューラルネットワークモデルの学習方法。
  6. 前記(d)ステップは、
    (d-1)前記複数のクラス別分類器それぞれの出力結果に基づいてクラス別分類損失Lcls(T)を演算するステップと、
    (d-2)前記観測損失Lobs及び前記クラス別分類損失Lcls(T)に基づいてクラス別特性損失L(T)を演算するステップと、
    (d-3)前記クラス別特性損失L(T)をクラス別に前記複数のクラス別分類器及び前記複数のクラス別全結合層に逆伝播するステップと、を含むことを特徴とする、請求項5に記載のニューラルネットワークモデルの学習方法。
  7. 前記(d-2)ステップで、前記クラス別特性損失L(T)は下記の式によって算出されることを特徴とする、請求項6に記載のニューラルネットワークモデルの学習方法。
    Figure 2022553407000022

    (式中、0≦α≦1)
  8. 前記(d)ステップは、
    (d-4)複数の前記クラス別分類損失Lcls(T)と前記観察損失Lobsに基づいてマルチラベル分類損失L(T)を演算するステップと、
    (d-5)前記マルチラベル分類損失L(T)を前記複数のクラス別分類器、前記複数のクラス別全結合層、前記プーリング層及び前記畳み込み層に逆伝播するステップと、をさらに含むことを特徴とする、請求項6に記載のニューラルネットワークモデルの学習方法。
  9. 前記プーリング層は全体平均プーリング層(global average pooling layer)であることを特徴とする、請求項1に記載のニューラルネットワークモデルの学習方法。
  10. ニューラルネットワークモデルが記憶されるメモリと、
    プロセッサと、
    を含む、画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習装置であって、
    前記ニューラルネットワークモデルは、
    入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、
    前記畳み込み層の出力に対してプーリング(pooling)を行うためのプーリング層と、
    複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みwfcTt)を掛けた値を出力する複数のクラス別全結合層(fully connected layer)と、を含み、
    前記複数のクラスは、互いに異なる基準によって区別され、
    前記複数のクラスそれぞれは、複数のクラス別特性に分類され、
    前記ニューラルネットワークモデルは、前記クラス別全結合層の出力に応じて、前記複数のクラスそれぞれのクラス別特性に対するクラス別特性確率を提供することができ、
    前記プロセッサは、
    入力画像を前記畳み込み層に入力し、前記畳み込み層の出力に基づいて、前記複数のクラスそれぞれに対する複数のクラス別観察マップを演算し、前記複数のクラス別観察マップに基づいて、前記複数のクラスに共通する共通観察マップを生成し、前記共通観察マップ及び前記入力画像の対象領域を用いて観察損失Lobsを演算し、前記観察損失Lobsに基づく損失を前記ニューラルネットワークモデルに逆伝播することを特徴とする、ニューラルネットワークモデルの学習装置。
JP2022524128A 2020-07-31 2021-07-29 複合特性分類と共通局所化のためのニューラルネットワークモデルの学習方法及び装置 Pending JP2022553407A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2020-0095773 2020-07-31
KR1020200095773A KR102236615B1 (ko) 2020-07-31 2020-07-31 복합 특성 분류와 공통 국소화를 위한 신경망 모델의 학습 방법 및 장치
PCT/KR2021/009939 WO2022025690A1 (ko) 2020-07-31 2021-07-29 복합 특성 분류와 공통 국소화를 위한 신경망 모델의 학습 방법 및 장치

Publications (1)

Publication Number Publication Date
JP2022553407A true JP2022553407A (ja) 2022-12-22

Family

ID=75472778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022524128A Pending JP2022553407A (ja) 2020-07-31 2021-07-29 複合特性分類と共通局所化のためのニューラルネットワークモデルの学習方法及び装置

Country Status (6)

Country Link
US (1) US20220406035A1 (ja)
EP (1) EP4191480A1 (ja)
JP (1) JP2022553407A (ja)
KR (1) KR102236615B1 (ja)
CN (1) CN114641780A (ja)
WO (1) WO2022025690A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102236615B1 (ko) * 2020-07-31 2021-04-06 주식회사 웨이센 복합 특성 분류와 공통 국소화를 위한 신경망 모델의 학습 방법 및 장치

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160096460A (ko) * 2015-02-05 2016-08-16 삼성전자주식회사 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
CN105938558B (zh) * 2015-03-06 2021-02-09 松下知识产权经营株式会社 学习方法
KR101908680B1 (ko) * 2016-08-30 2018-10-17 주식회사 루닛 약한 지도 학습 기반의 기계 학습 방법 및 그 장치
KR20180048407A (ko) * 2016-10-31 2018-05-10 삼성전자주식회사 차선 검출 장치 및 방법
KR102095335B1 (ko) 2017-11-15 2020-03-31 에스케이텔레콤 주식회사 연산 가속화가 적용된 신경망 모델의 생성 및 활용을 위한 장치 및 방법
KR102183847B1 (ko) * 2018-08-16 2020-11-27 한국과학기술원 안저 사진에서 녹내장 진단을 위해 cam에서 추출된 roi를 중간 입력자로 사용하는 2단계 랭킹 컨볼루셔널 뉴럴 네트워크
KR101977067B1 (ko) * 2018-08-24 2019-05-10 주식회사 뷰노 심층 신경망 기반 특징 추출을 통하여 진단 맵을 재구축하는 방법 및 이를 이용한 장치
JP7215098B2 (ja) * 2018-11-12 2023-01-31 富士通株式会社 学習プログラム、学習方法および学習装置
KR102074406B1 (ko) * 2019-07-25 2020-02-06 주식회사 딥노이드 영상 랜드마크 분류 장치 및 방법
KR102236615B1 (ko) * 2020-07-31 2021-04-06 주식회사 웨이센 복합 특성 분류와 공통 국소화를 위한 신경망 모델의 학습 방법 및 장치

Also Published As

Publication number Publication date
KR102236615B1 (ko) 2021-04-06
WO2022025690A1 (ko) 2022-02-03
US20220406035A1 (en) 2022-12-22
CN114641780A (zh) 2022-06-17
EP4191480A1 (en) 2023-06-07

Similar Documents

Publication Publication Date Title
JP2018055259A (ja) 情報処理装置、情報処理方法及びプログラム
CN111507469B (zh) 对自动标注装置的超参数进行优化的方法和装置
CN109840531A (zh) 训练多标签分类模型的方法和装置
KR20170122241A (ko) 추론 장치 및 추론 방법
CN111898764A (zh) 联邦学习的方法、装置和芯片
JP7228961B2 (ja) ニューラルネットワークの学習装置およびその制御方法
CN112529146B (zh) 神经网络模型训练的方法和装置
JP2023515704A (ja) カメラ較正のための方法および装置
WO2024032010A1 (zh) 一种基于迁移学习策略的少样本目标实时检测方法
US11526760B2 (en) Training system for artificial neural networks having a global weight constrainer
JP2022553407A (ja) 複合特性分類と共通局所化のためのニューラルネットワークモデルの学習方法及び装置
CN114021704B (zh) 一种ai神经网络模型的训练方法及相关装置
WO2020190951A1 (en) Neural network trained by homographic augmentation
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
CN116524581B (zh) 一种人眼图像光斑分类方法、系统、设备及存储介质
CN115131645A (zh) 神经网络的训练和应用方法、装置及存储介质
JP2021018477A (ja) 情報処理装置、情報処理方法、及びプログラム
US20230385656A1 (en) Method for adding prediction results as training data using ai prediction model
CN115719450A (zh) 基于自适应感受野增强的航拍小目标检测方法
US20220391761A1 (en) Machine learning device, information processing method, and recording medium
EP4075343A1 (en) Device and method for realizing data synchronization in neural network inference
Dasgaonkar et al. Analysis of multi-layered perceptron, radial basis function and convolutional neural networks in recognizing handwritten digits
KR102243125B1 (ko) 신경망 모델을 이용한 영상의 복합 특성 분류 방법 및 장치
CN115631388B (zh) 图像分类方法、装置、电子设备及存储介质
US20210004681A1 (en) Data processing apparatus, training apparatus, method of detecting an object, method of training, and medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230627

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240326