JP2022553407A

JP2022553407A - 複合特性分類と共通局所化のためのニューラルネットワークモデルの学習方法及び装置

Info

Publication number: JP2022553407A
Application number: JP2022524128A
Authority: JP
Inventors: クム，ジス; オ，サンイル; キム，キョンナム
Original assignee: ウェイセンインコーポレイテッド
Priority date: 2020-07-31
Filing date: 2021-07-29
Publication date: 2022-12-22
Also published as: KR102236615B1; WO2022025690A1; US20220406035A1; CN114641780A; EP4191480A1

Abstract

本発明の実施形態による画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習方法において、前記ニューラルネットワークモデルは、入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、前記畳み込み層の出力に対してプーリング（ｐｏｏｌｉｎｇ）を行うためのプーリング層と、複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みｗｆｃ（Ｔｔ）を掛けた値を出力する複数のクラス別全結合層（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）と、を含み、前記方法は、（ａ）入力画像を前記畳み込み層に入力するステップと、（ｂ）前記畳み込み層の出力に基づいて複数のクラス別観察マップを演算するステップと、（ｃ）前記複数のクラス別観察マップに基づいて、複数のクラスに共通する観察損失Ｌｏｂｓを演算するステップと、（ｄ）観察損失Ｌｏｂｓに基づく損失を前記ニューラルネットワークモデルに逆伝播するステップと、を含む。

Description

本発明は、複合特性分類と共通局所化のためのニューラルネットワークモデルの学習方法及び装置に関する。

図１の（ａ）は従来技術によるニューラルネットワークモデルを示す。

図１の（ａ）を参照すると、ニューラルネットワークモデルは、入力層、１つ以上の畳み込み層、プーリング層、及び全結合層を含む。このようなニューラルネットワークモデルを用いて、ある入力が在るとき、Ａ、Ｂ、Ｃ、Ｄの４つの特性のうちの１つの結果値、又は各特性に該当する確率を出力することができる。この時、結果値の総和は１００パーセントであり得る。

しかし、ある入力は、複数の結果が可能な複合特性を持つことができる。例えば、Ａは男性、Ｂは女性の特性であり、Ｃは東洋人、Ｄは非東洋人の特性である場合、結果値としてＡとＣが同時に可能であり得る。

ところが、従来のニューラルネットワークモデルによる場合、結果値の総和が１００％となるように判断するため、このような複合特性が正しく反映され難い。

本発明の実施形態は、複合特性を正しく予測することができる、ニューラルネットワークモデルの学習方法及び装置を提供することを目的とする。

本発明の実施形態による画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習方法において、前記ニューラルネットワークモデルは、入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、前記畳み込み層の出力に対してプーリング（ｐｏｏｌｉｎｇ）を行うためのプーリング層と、複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みｗ_ｆｃ（Ｔ_ｔ）を掛けた値を出力する複数のクラス別全結合層（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）と、を含み、前記方法は、（ａ）入力画像を前記畳み込み層に入力するステップと、（ｂ）前記畳み込み層の出力に基づいて複数のクラス別観察マップを演算するステップと、（ｃ）前記複数のクラス別観察マップに基づいて、複数のクラスに共通する観察損失Ｌ_ｏｂｓを演算するステップと、（ｄ）前記観察損失Ｌ_ｏｂｓに基づく損失を前記ニューラルネットワークモデルに逆伝播するステップと、を含む。

前記（ｃ）ステップは、（ｃ－１）前記複数のクラス別観察マップに基づいて、前記複数のクラスに共通する共通観察マップを生成するステップと、（ｃ－２）前記共通観察マップ及び前記入力画像の対象領域を用いて前記観察損失Ｌ_ｏｂｓを演算するステップと、を含む。

前記共通観察マップは、前記クラス別観察マップの平均値であり得る。

前記観察損失は、前記共通観察マップと前記入力画像の対象領域をそれぞれ横及び縦方向にプロジェクションした値同士を連結（ｃｏｎｃａｔｅｎａｔｅ）した値に対してコサイン距離を計算することにより算出できる。

前記（ｂ）ステップで、前記クラス別観察マップは、下記の式によって算出できる。

（式中、Ｔ_ｔはクラス、ｗ_ｆｃ（Ｔ_ｔ）はクラス別全結合層の重み、ｏ_ｃｏｎｖは畳み込み層の出力、Ｃはチャネル数をそれぞれ示す。）
前記ニューラルネットワークモデルは、前記複数のクラス別全結合層にそれぞれ対応し、各クラス別全結合層の出力に応じてクラス別特性確率を演算する複数のクラス別分類器をさらに含むことができる。

前記（ｄ）ステップは、（ｄ－１）前記複数のクラス別分類器それぞれの出力結果に基づいてクラス別分類損失Ｌ_ｃｌｓ（Ｔ_ｔ）を演算するステップと、（ｄ－２）前記観測損失Ｌ_ｏｂｓ及び前記クラス別分類損失Ｌ_ｃｌｓ（Ｔ_ｔ）に基づいてクラス別特性損失Ｌ（Ｔ_ｔ）を演算するステップと、（ｄ－３）前記クラス別特性損失Ｌ（Ｔ_ｔ）をクラス別に前記複数のクラス別分類器及び前記複数のクラス別全結合層に逆伝播するステップと、を含むことができる。

前記（ｄ－２）ステップで、前記クラス別特性損失Ｌ（Ｔ_ｔ）は、下記の式によって算出できる。

（式中、０≦α≦１）
前記（ｄ）ステップは、（ｄ－４）複数の前記クラス別分類損失Ｌ_ｃｌｓ（Ｔ_ｔ）と前記観察損失Ｌ_ｏｂｓに基づいてマルチラベル分類損失Ｌ（Ｔ）を演算するステップと、（ｄ－５）前記マルチラベル分類損失Ｌ（Ｔ）を前記複数のクラス別分類器、前記複数のクラス別全結合層、前記プーリング層及び前記畳み込み層に逆伝播するステップと、をさらに含むことができる。

前記プーリング層は、全体平均プーリング層（ｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇｌａｙｅｒ）であり得る。

本発明の実施形態によるニューラルネットワークモデルの学習装置は、ニューラルネットワークモデルが記憶されるメモリと、プロセッサとを含む、画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習装置であって、前記ニューラルネットワークモデルは、入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、前記畳み込み層の出力に対してプーリング（ｐｏｏｌｉｎｇ）を行うためのプーリング層と、複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みｗ_ｆｃ（_Ｔｔ）を掛けた値を出力する複数のクラス別全結合層（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）と、を含み、前記プロセッサは、入力画像を前記畳み込み層に入力し、前記畳み込み層の出力に基づいて複数のクラス別観察マップを演算し、前記複数のクラス別観察マップに基づいて、複数のクラスに共通する観察損失Ｌ_ｏｂｓを演算し、前記観察損失Ｌ_ｏｂｓに基づく損失を前記ニューラルネットワークモデルに逆伝播する。

本発明の実施形態によれば、複合特性を正しく分類することができる。
本発明の実施形態によれば、クラス間の関連性が反映できる。
本発明の実施形態によれば、複合特性間の共通局所化が実現できる。

図１の（ａ）は従来技術による一対一モデルを示すものであり、図１の（ｂ）は比較例による一対一分類モデルを２つ使用したものを示すものであり、図１の（ｃ）は本発明の実施形態による一対多モデルを示すものである。本発明の実施形態によるニューラルネットワークモデル１の構造を示す図である。本発明の実施形態によるニューラルネットワークモデルの学習方法を示すフローチャートである。図３の学習方法を説明するための図である。本発明の実施形態による観察損失の算出方法を説明するための図である。本発明の実施形態による観察損失の算出方法を説明するための図である。本発明の実施形態によるニューラルネットワークモデルの学習方法を示すフローチャートである。本発明の実施形態によるニューラルネットワークモデルの学習方法を示すデータのフローチャートである。図２のニューラルネットワークモデルにおける図７及び図８の各ステップに該当する部分を示すものである。図２のニューラルネットワークモデルにおける図７及び図８の各ステップに該当する部分を示すものである。図２のニューラルネットワークモデルにおける図７及び図８の各ステップに該当する部分を示すものである。図２のニューラルネットワークモデルにおける図７及び図８の各ステップに該当する部分を示すものである。図２のニューラルネットワークモデルにおける図７及び図８の各ステップに該当する部分を示すものである。図２のニューラルネットワークモデルにおける図７及び図８の各ステップに該当する部分を示すものである。図２のニューラルネットワークモデルにおける図７及び図８の各ステップに該当する部分を示すものである。図２のニューラルネットワークモデルにおける図７及び図８の各ステップに該当する部分を示すものである。図２のニューラルネットワークモデルにおける図７及び図８の各ステップに該当する部分を示すものである。図２のニューラルネットワークモデルにおける図７及び図８の各ステップに該当する部分を示すものである。本発明の実施形態に係るニューラルネットワークモデルの学習装置の構成を示す図である。

発明者は自分の発明を最善の方法で説明するために用語の概念を適切に定義することができるという原則に即して、本明細書及び請求の範囲で使用された用語又は単語は、本発明の技術的思想に符合する意味と概念で解釈されるべきである。

明細書全体において、ある部分がある構成要素を「含む」とするとき、これは、特に反対の記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含むことができることを意味する。また、ある構成要素が他の構成要素に「接続」、「伝送」、「送信」、「受信」又は「伝達」されるとするとき、これは、直接的に接続、伝送、送信、受信又は伝達される場合だけでなく、他の構成要素を介して間接的に接続、伝送、送信、受信又は伝達される場合も含む。また、明細書に記載された「…部」、「…器」、「モジュール」、「装置」などの用語は、少なくとも一つの機能又は動作を処理する単位を意味し、これは、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせで実現できる。

以下、図面を参照して本発明の具体的な実施形態について説明する。

図１の（ｂ）は比較例による一対一分類モデルを２つ使用したものを示すものであり、図１の（ｃ）は本発明の実施形態による一対多モデルを示すものである。

図１において、ＡとＢはクラスＩに属する特性を示し、ＣとＤはクラスＩＩに属する特性を示す。クラスＩの分類基準とクラスＩＩの分類基準とは互いに異なり得る。このように、複数のクラスに属する特性を、本明細書では複合特性と呼ぶ。複合特性を有する入力は、複数の特性、すなわち各クラス別に特性を有することができる。

図１の（ｂ）を参照すると、２つの一対一分類モデルが使用される場合、特性ＡとＢの予測確率の和は１００パーセントであり、特性ＣとＤの予測確率の和は１００パーセントである。この場合、予測結果は正確であり得るが、２つのモデルを学習しなければならないので、計算量が増加することができる。また、２つのモデルが独立して学習されるので、クラス間の連関性が反映され難い。

図１の（ｃ）を参照すると、一対多モデルでは、一部の層、すなわち畳み込み層とプーリング層（ｐｏｏｌｉｎｇｌａｙｅｒ）がクラス間で共有され、全結合層はクラス別に提供される。このとき、全結合層がクラス別に提供されるため、特性ＡとＢの予測確率の和は１００％であり、特性ＣとＤの予測確率の和は１００％である。よって、クラスＩでの予測結果とクラスＩＩでの予測結果がそれぞれ提供されるため、図１の（ａ）に比べて正確な予測結果を得ることができる。また、畳み込み層がクラス間で共有されるため、図１の（ｂ）のモデルに比べて計算量を減少させながらもクラス間の連関性を反映させることができる。

本発明の実施形態による画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習方法において、
前記ニューラルネットワークモデルは、
入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、
前記畳み込み層の出力に対してプーリング（ｐｏｏｌｉｎｇ）を行うためのプーリング層と、
複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みｗ_ｆｃ（Ｔ_ｔ）を掛けた値を出力する複数のクラス別全結合層（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）と、
を含み、
前記方法は、
（ａ）入力画像を前記畳み込み層に入力するステップと、
（ｂ）前記畳み込み層の出力に基づいてクラス別観察マップを演算するステップと、
（ｃ）前記クラス別観察マップに基づいて、複数のクラスに共通する観察損失Ｌ_ｏｂｓを演算するステップと、
（ｄ）観察損失Ｌ_ｏｂｓに基づく損失を前記ニューラルネットワークモデルに逆伝播するステップと、を含む。

図２は本発明の実施形態によるニューラルネットワークモデル１の構造を示す図である。図２において、Ｎ_Ｔ個のクラスＴ_１、Ｔ_２、…Ｔ_ｔ、…Ｔ_ＮＴが存在し、クラスＴ_１には２つの特性が属し、クラスＴ_２には２つの特性が属し、クラスＴ_ｔにはｎ個の特性が属し、クラスＴ_ＮＴには３つの特性が属すると仮定した。

図２を参照すると、本発明の実施形態によるニューラルネットワークモデル１は、入力画像ｘ_ｉに対して畳み込みフィルタを用いて畳み込み演算を行うための畳み込み層１０と、前記畳み込み層１０の出力ｏ_ｃｏｎｖに対してプーリングを行うためのプーリング層２０と、複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層２０の出力に対してクラス別重みｗ_ｆｃ（Ｔ_ｔ）を掛けた値を出力する複数のクラス別全結合層３０と、を含む。

ニューラルネットワークモデル１は、前記複数のクラス別全結合層３０にそれぞれ対応し、各クラス別全結合層３０の出力に応じてクラス別特性確率を演算する複数のクラス別分類器４０をさらに含むことができる。
畳み込み層１０は、入力画像に対して複数の畳み込みフィルタを用いて畳み込み演算を行うことにより、特徴マップを抽出する。図２に示すように、畳み込み演算は複数回行われてもよい。畳み込み層１０の出力、すなわち特徴マップｏ_ｃｏｎｖは、高さ（Ｈ）、幅（Ｗ）、チャネル数（Ｃ）を有すると仮定した。

プーリング層２０は、畳み込み層１０と全結合層３０との間に位置し、特徴マップｏ_ｃｏｎｖの大きさを減少させて後述の全結合層３０で必要な演算を減少させ、オーバーフィッティングを防止する役割をする。プーリング層２０は、特徴マップｏ_ｃｏｎｖの各チャネルに対して平均値を出力する全体平均プーリング（ｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇ）を行うことができる。

クラス別全結合層３０は、プーリング層２０の出力にクラス別重みｗ_ｆｃ（Ｔ_１）、ｗ_ｆｃ（Ｔ_２）_、・・・ｗ_ｆｃ（Ｔ_ｔ）、・・・ｗ_ｆｃ（Ｔ_ＮＴ）を掛けた値を出力する。このとき、クラス別重みｗ_ｆｃ（Ｔ_１）、ｗ_ｆｃ（Ｔ_２）、．．．ｗ_ｆｃ（Ｔ_ｔ）、．．．ｗ_ｆｃ（Ｔ_ＮＴ）のそれぞれは、チャネル数に該当する複数の値であり得る。

クラス別分類器４０は、クラス別全結合層３０にそれぞれ対応し、クラス別全結合層３０の出力に応じてクラス別特性確率を演算する。図２を参照すると、クラスＴ_１に該当する分類器は、クラスＴ_１に属する特性のそれぞれに該当する確率Ｐ_１（Ｔ_１）、Ｐ_２（Ｔ_１）を演算し、クラスＴ_２に該当する分類器は、クラスＴ_２に属する特性のそれぞれに該当する確率Ｐ_１（Ｔ_２）、Ｐ_２（Ｔ_２）を演算し、クラスＴ_ｔに該当する分類器は、クラスＴ_ｔに属する特性それぞれに該当する確率Ｐ_１（Ｔ_ｔ）、Ｐ_２（Ｔ_ｔ）、．．．Ｐ_ｎ（Ｔ_ｔ）を演算し、クラスＴ_ＮＴに該当する分類器は、クラスＴ_ＮＴに属する特性のそれぞれに該当する確率Ｐ_１（Ｔ_ＮＴ）、Ｐ_２（Ｔ_ＮＴ）、Ｐ_３（Ｔ_ＮＴ）を演算する。クラス別分類器４０として、例えば、Ｓｏｆｔｍａｘ関数、Ｓｉｇｍｏｉｄ関数などが用いられることができる。

次に、図３及び図４を参照して、本発明の実施形態によるニューラルネットワークモデルの学習方法について説明する。

図３は本発明の実施形態によるニューラルネットワークモデルの学習方法を示すフローチャートであり、図４は図３の学習方法を説明するための図である。本発明の実施形態によるニューラルネットワークモデルの学習方法は、図２のニューラルネットワークモデルが使用される。

図３を参照すると、まず、ニューラルネットワークモデルの畳み込み層に画像が入力される（Ｓ１００）。入力画像のクラス別特性（複合特性）と対象領域は既に知られている。ここで、対象領域とは、入力画像の一部であって、クラス別特性の判断に大きな影響を及ぼす部分を意味する。例えば、図４に示すように、入力画像が超音波画像であるとき、対象領域は、病変が現れた部分であり得る。対象領域は、複数のクラスに対して同一であってもよい。

次に、畳み込み層の出力に基づいて複数のクラス別観察マップを演算する（Ｓ１１０）。

観察マップは、分類活性化マップ（ＣａｍｓＡｃｔｉｖａｔｉｏｎＭａｐ；ＣＡＭ）とも呼ばれ、入力画像の各部分が分類結果にどれほど影響を及ぼしたかを示す。本実施形態において、観察マップはクラス別に演算される。図４にクラス別観察マップの例示を示した。クラス別観察マップは、下記の式によって算出できる。

式中、Ｔ_ｔはクラス、ｗ_ｆｃ（Ｔ_ｔ）はクラス別全結合層の重み、ｏ_ｃｏｎｖは畳み込み層の出力、Ｃはチャネル数をそれぞれ示す。

次に、複数のクラス別観察マップに基づいて、複数のクラスに共通する観察損失を演算する（Ｓ１２０）。

実施形態によって、ステップＳ１２０は、複数のクラス別観察マップに基づいて、複数のクラスに共通する共通観察マップを生成するステップ（Ｓ１２１）と、共通観察マップ及び入力画像の対象領域を用いて観察損失を演算するステップ（Ｓ１２２）と、を含むことができる。観察損失は、入力画像の対象領域と共通観察マップとの差に基づいて演算できる。共通観察マップは、クラス別観察マップの平均値であり、下記の式によって算出できる。

ここで、

は前述したクラス別観察マップを示し、Ｎ_Ｔはクラスの数を示す。

但し、これは一例であり、各クラスの観察マップの割合を異ならせるか、或いは全体クラスのうちの一部クラスの観察マップに基づいて共通観察マップを算出することもできる。

算出された共通観察マップと入力画像の対象領域を用いて観察損失を演算する。

例えば、観察損失は、下記の式によって算出できる。

ここで、

は入力画像ｘ_ｉの対象領域を示し、

は入力画像ｘ_ｉの共通観察マップを示す。

図５及び図６は本発明の実施形態による観察損失の算出方法を説明するための図である。

図５の（ａ）は入力画像の対象領域を縦方向に沿ってプロジェクションした値Ｍ_Ｈを示し、図５の（ｂ）は入力画像の対象領域を横方向に沿ってプロジェクションした値Ｍ_Ｖを示す。

図５の（ａ）には、入力画像の対象領域に対してのみ例示を挙げて説明したが、共通観察マップに対しても同様に、横及び縦方向に沿ってプロジェクションした値が計算できる。

図６の（ａ）は入力画像の対象領域を縦方向にプロジェクションした値をグラフで示すものであり、図６の（ｂ）は入力画像の対象領域を横方向にプロジェクションした値をグラフで示すものである。図６の（ｃ）は共通観察マップの対象領域を縦方向にプロジェクションした値をグラフで示すものであり、図６の（ｄ）は共通観察マップの対象領域を横方向にプロジェクションした値をグラフで示すものである。

実施形態によって、観察損失は、入力画像の対象領域と共通観察マップをそれぞれ横及び縦方向にプロジェクションし、それらを連結（ｃｏｎｃａｔｅｎａｔｅ）した値に対してコサイン距離を計算することにより算出できる。

すなわち、観察損失は、下記の式によって算出できる。

上記の式によれば、ピクセル単位の正確性よりも全体的な分布を反映することが可能である。

次に、図３を再び参照すると、観察損失に基づく損失をニューラルネットワークモデルに逆伝播する（Ｓ１３０）。

上述したステップＳ１００～ステップＳ１３０は、複数の入力画像に対して行われることができ、これによりニューラルネットワークモデルが学習され得る。

本実施形態において、クラス別に観察マップを生成するが、観察損失は、複数のクラスに対して同様に適用される。これにより、複数のクラスに対して観察マップが同一になる効果、すなわち共通局所化の効果を得ることができる。

図７は本発明の実施形態によるニューラルネットワークモデルの学習方法を示すフローチャートである。

まず、ニューラルネットワークモデルの畳み込み層に画像が入力される（Ｓ２００）。

次に、ニューラルネットワークモデルからクラス別分類損失と観察損失が算出される（Ｓ２１０、Ｓ２２０）。

クラス別分類損失は、各クラスに属する特性がどれほど正確に予測されたかを示す値であって、クラス別に算出される。クラス別分類損失は、複数のクラス別分類器それぞれの出力結果に基づいて演算されることができる。例えば、入力画像のクラス別特性と、クラス別分類器の出力であるクラス別特性確率（図２のＰ_１（Ｔ_ｔ）、Ｐ_２（Ｔ_ｔ）、…Ｐ_ｎ（Ｔ_ｔ）を参照）の差異からクラス別分類損失が計算されることができる。

クラス別分類損失は、下記の式によって計算できる。

ここで、

は入力画像ｘ_ｉのクラスＴ_ｔに対するクラス別特性ｃの出力確率を示し、
Ｎ_ｘは学習画像数を示し、Ｃ_ＴｔはクラスＴ_ｔに属するクラス別特性の数を示す。

観察損失は、前述したのと同様なので、重複説明は省略する。

次に、クラス別分類損失と観察損失に基づいてクラス別特性損失が演算される（Ｓ２３０）。

クラス別特性損失は、観察損失とクラス別分類損失を反映した値である。前述したように、観察損失は複数のクラスに対して同一であるが、クラス別分類損失はクラスによって異なるため、クラス別特性損失はクラス別に異なる値を持つことができる。

クラス別特性損失は、下記の式によって算出できる。

ここで、Ｌ_ｃｌｓ（Ｔ_ｔ）はクラス別分類損失を示し、Ｌ_ｏｂｓは観察損失を示し、０≦α≦１を満たす。

次に、クラス別特性損失を、複数のクラス別分類器及び複数のクラス別全結合層にクラス別に逆伝播する（Ｓ２４０）。

図２のニューラルネットワークモデルを参照すると、クラス別全結合層３０及びクラス別分類器４０は、クラス別分岐（ｂｒａｎｃｈ）に該当する。つまり、クラス別特性損失は、ニューラルネットワークモデルのクラス別分岐に該当する部分にのみ逆伝播される。また、クラス別特性損失はクラス別に逆伝播される。具体的には、図２を参照すると、クラスＴ_１の特性損失は、クラスＴ_１に該当する分類器４０及び全結合層３０に逆伝播され、クラスＴ_２の特性損失は、クラスＴ_２に該当する分類器４０及び全結合層３０に逆伝播され、クラスＴ_ｔの特性損失は、クラスＴ_ｔに該当する分類器４０及び全結合層３０に逆伝播され、クラスＴ_ＮＴの特性損失は、クラスＴ_ＮＴに該当する分類器４０及び全結合層３０に逆伝播されることができる。

次に、マルチラベル分類損失が演算される（Ｓ２５０）。

マルチラベル分類損失は、クラス別分類損失（Ｓ２１０参照）とは異なり、クラス別に演算されたクラス別分類損失を反映した値である。マルチラベル分類損失は、複数のクラス別分類損失と観察損失に基づいて演算できる。マルチラベル分類損失は、複数のクラスに対して同様に適用される。

前記ステップＳ２４０の逆伝播によって複数のクラス別全結合層３０のクラス別重みが調整され、これにより複数のクラス別分類損失及び観察損失も変更されることができる。マルチラベル分類損失は、変更された複数のクラス別分類損失と観察損失に基づいて算定できる。

マルチラベル分類損失は、下記の式によって算出できる。

ここで、

は、入力画像ｘ_ｉの複数のクラス全体に対するクラス別特性ｃの出力確率を示し、
Ｎ_ｘは学習画像数を示し、Ｃ_Ｔは複数のクラス全体に対するクラス別特性の数を示す。

次に、マルチラベル分類損失をニューラルネットワークモデルの全域に逆伝播する（Ｓ２６０）。

図２を参照すると、ニューラルネットワークモデルの全域は、複数のクラス別分類器４０、複数のクラス別全結合層３０、プーリング層２０及び畳み込み層１０を示す。これにより、ニューラルネットワークモデルのパラメータ値、例えば畳み込み層１０の畳み込みフィルタ、クラス別全結合層３０のクラス別重みなどが調整できる。

上述したステップＳ２００～ステップＳ２６０は、複数の入力画像に対して行われることができ、これによりニューラルネットワークモデルが学習され得る。

次に、図８及び図９を参照して、本発明の実施形態によるニューラルネットワークモデルの学習のためのデータフ流れについて説明する。

図８は本発明の実施形態によるニューラルネットワークモデルの学習方法を示すデータのフローチャートであり、図９は図２のニューラルネットワークモデルにおける図６の各ステップに該当する部分を示すものである。図８において、長方形はデータの処理を示し、平行四辺形はデータを示し。

図８及び図９の（ａ）を参照すると、まず、画像ｘ_ｉがニューラルネットワークモデルに入力される（Ｓ３００）。このとき、入力画像ｘ_ｉのクラス別特性及び対象領域は既に知られている。

ニューラルネットワークモデルは、図２を参照して説明したように、畳み込み層１０、プーリング層２０、クラス別全結合層３０及びクラス別分類器４０を含む。図８には１つのクラス別全結合層３０及び１つのクラス別分類器４０が示されているが、これらはクラスの数だけ備えられることができる。

図８及び図９の（ｂ）に示すように、入力画像ｘ_ｉが畳み込み層１０を経ることにより、特性マップｏ_ｃｏｎｖが出力される。

そして、図８及び図９の（ｃ）を参照すると、畳み込み層１０を経た入力画像は、ニューラルネットワークモデルの残りの部分、すなわちプーリング層２０、クラス別全結合層３０及びクラス別分類器４０を経ることにより、クラス別特性確率Ｐ_ｎ（Ｔ_ｔ）が出力される。

次に、図８及び図９の（ｄ）を参照すると、クラス別特性確率Ｐ_ｎ（Ｔ_ｔ）と入力画像のクラス別特性に基づいてクラス別分類損失Ｌ_ｃｌｓ（Ｔ_ｔ）が演算される（Ｓ３１０）。
一方、畳み込み層１０の出力ｏ_ｃｏｎｖとクラス別全結合層３０の重みｗ_ｆｃ（Ｔ_ｔ）に基づいてクラス別観察マップが算出される（Ｓ３２０）。

次に、図８及び図９の（ｅ）を参照すると、クラス別観察マップに基づいて共通観察マップ

を生成する（Ｓ３３０）。
その後、図８及び図９の（ｆ）を参照すると、入力画像の対象領域

と共通観察マップ

に基づいて観察損失Ｌ_ｏｂｓを演算する（Ｓ３４０）。

次に、図８及び図９の（ｇ）を参照すると、クラス別分類損失Ｌ_ｃｌｓ（Ｔ_ｔ）と観察損失Ｌ_ｏｂｓに基づいてクラス別特性損失Ｌ（Ｔ_ｔ）を算出する（Ｓ３５０）。

次いで、図８及び図９の（ｈ）を参照すると、クラス別特性損失Ｌ（Ｔ_ｔ）が学習終了条件を満たすか否かを判断し（Ｓ３６０）、満たさない場合（Ｓ３６０、ＮＯ）には、クラス別特性損失Ｌ（Ｔ_ｔ）をクラス別分類器４０及びクラス別全結合層３０に逆伝播する（Ｓ３７０）。

これにより、クラス別全結合層３０のクラス別重みｗ_ｆｃ（_Ｔｔ）が調整され、クラス別全結合層１０の処理、クラス別分類器４０の処理、クラス別分類損失演算（Ｓ３１０）が再び行われてクラス別分類損失Ｌ_ｃｌｓ（Ｔ_ｔ）が調整され、クラス別観察マップ演算（Ｓ３２０）、共通観察マップ演算（Ｓ３３０）及び観察損失演算（Ｓ３４０）が再び行われて観察損失Ｌ_ｏｂｓが調整される。

次に、図８及び図９の（ｉ）を参照すると、マルチラベル分類損失が演算される（Ｓ３８０）。

その後、図８及び図９の（ｊ）を参照すると、マルチラベル分類損失Ｌ（Ｔ）が学習終了条件を満たすか否かを判断し（Ｓ３９０）、満たさない場合（Ｓ３９０、ＮＯ）には、マルチラベル分類損失Ｌ（Ｔ）をニューラルネットワークモデル全体、すなわちクラス別分類器４０、クラス別全結合層３０、プーリング層２０及び畳み込み層１０に逆伝播する（Ｓ４００）。これにより、ニューラルネットワークモデルのパラメータが調整できる。

図１０は本発明の実施形態に係るニューラルネットワークモデルの学習装置１０００の構成を示す図である。

ニューラルネットワークモデルの学習装置１０００は、ニューラルネットワークモデルが記憶されるメモリ１１００及びプロセッサ１２００を含む。

メモリ１１００に記憶されるニューラルネットワークモデルは、図２を参照して既に説明した通りである。

プロセッサ１２００は、図３～図９を参照して説明したニューラルネットワークモデルの学習方法を行う。すなわち、プロセッサ１２００は、入力画像を畳み込み層に入力し、畳み込み層の出力に基づいて複数のクラス別観察マップを演算し、複数のクラス別観察マップに基づいて、複数のクラスに共通する観察損失Ｌ_ｏｂｓを演算し、前記観察損失Ｌ_ｏｂｓに基づく損失をニューラルネットワークモデルに逆伝播する。

以上、好適な実施形態を介して本発明について詳細に説明したが、本発明は、これに限定されるものではなく、本発明の技術的思想から逸脱することなく、種々な変更及び応用を加え得るのは、当該技術分野における通常の技術者にとって自明である。よって、本発明の真正な保護範囲は以下の請求の範囲によって解釈されるべきであり、それと同等の範囲内にあるすべての技術的思想は本発明の権利範囲に含まれるものと解釈されるべきである。

Claims

画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習方法であって、
前記ニューラルネットワークモデルは、
入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、
前記畳み込み層の出力に対してプーリング（ｐｏｏｌｉｎｇ）を行うためのプーリング層と、
複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みｗ_ｆｃ（Ｔ_ｔ）を掛けた値を出力する複数のクラス別全結合層（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）と、を含み、
前記複数のクラスは、互いに異なる基準によって区別され、
前記複数のクラスそれぞれは、複数のクラス別特性に分類され、
前記ニューラルネットワークモデルは、前記クラス別全結合層の出力に応じて、前記複数のクラスそれぞれのクラス別特性に対するクラス別特性確率を提供することができ、
前記方法は、
（ａ）入力画像を前記畳み込み層に入力するステップと、
（ｂ）前記畳み込み層の出力に基づいて、前記複数のクラスそれぞれに対するクラス別観察マップを演算するステップと、
（ｃ）前記クラス別観察マップに基づいて、前記複数のクラスに共通する観察損失Ｌ_ｏｂｓを演算するステップと、
（ｄ）前記観察損失Ｌ_ｏｂｓに基づく損失を前記ニューラルネットワークモデルに逆伝播するステップと、を含み、
前記（ｃ）ステップは、
（ｃ－１）前記クラス別観察マップに基づいて、前記複数のクラスに共通する共通観察マップを生成するステップと、
（ｃ－２）前記共通観察マップ及び前記入力画像の対象領域を用いて前記観察損失Ｌ_ｏｂｓを演算するステップと、
を含み、各ステップがコンピュータプロセッサによって行われる、ニューラルネットワークモデルの学習方法。
前記共通観察マップは前記クラス別観察マップの平均値であることを特徴とする、請求項１に記載のニューラルネットワークモデルの学習方法。
前記観察損失は、前記共通観察マップと前記入力画像の対象領域をそれぞれ横及び縦方向にプロジェクションした値同士を連結（ｃｏｎｃａｔｅｎａｔｅ）した値に対してコサイン距離を計算することにより算出されることを特徴とする、請求項１に記載のニューラルネットワークモデルの学習方法。
前記（ｂ）ステップで、前記クラス別観察マップは下記の式によって算出されることを特徴とする、請求項１に記載のニューラルネットワークモデルの学習方法。

（式中、Ｔ_ｔはクラス、ｗ_ｆｃ（Ｔ_ｔ）はクラス別全結合層の重み、ｏ_ｃｏｎｖは畳み込み層の出力、Ｃはチャネル数をそれぞれ示す。）
前記ニューラルネットワークモデルは、
前記複数のクラス別全結合層にそれぞれ対応し、各クラス別全結合層の出力に応じてクラス別特性確率を演算する複数のクラス別分類器をさらに含むことを特徴とする、請求項１に記載のニューラルネットワークモデルの学習方法。
前記（ｄ）ステップは、
（ｄ－１）前記複数のクラス別分類器それぞれの出力結果に基づいてクラス別分類損失Ｌ_ｃｌｓ（Ｔ_ｔ）を演算するステップと、
（ｄ－２）前記観測損失Ｌ_ｏｂｓ及び前記クラス別分類損失Ｌ_ｃｌｓ（Ｔ_ｔ）に基づいてクラス別特性損失Ｌ（Ｔ_ｔ）を演算するステップと、
（ｄ－３）前記クラス別特性損失Ｌ（Ｔ_ｔ）をクラス別に前記複数のクラス別分類器及び前記複数のクラス別全結合層に逆伝播するステップと、を含むことを特徴とする、請求項５に記載のニューラルネットワークモデルの学習方法。
前記（ｄ－２）ステップで、前記クラス別特性損失Ｌ（Ｔ_ｔ）は下記の式によって算出されることを特徴とする、請求項６に記載のニューラルネットワークモデルの学習方法。

（式中、０≦α≦１）
前記（ｄ）ステップは、
（ｄ－４）複数の前記クラス別分類損失Ｌ_ｃｌｓ（Ｔ_ｔ）と前記観察損失Ｌ_ｏｂｓに基づいてマルチラベル分類損失Ｌ（Ｔ）を演算するステップと、
（ｄ－５）前記マルチラベル分類損失Ｌ（Ｔ）を前記複数のクラス別分類器、前記複数のクラス別全結合層、前記プーリング層及び前記畳み込み層に逆伝播するステップと、をさらに含むことを特徴とする、請求項６に記載のニューラルネットワークモデルの学習方法。
前記プーリング層は全体平均プーリング層（ｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇｌａｙｅｒ）であることを特徴とする、請求項１に記載のニューラルネットワークモデルの学習方法。
ニューラルネットワークモデルが記憶されるメモリと、
プロセッサと、
を含む、画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習装置であって、
前記ニューラルネットワークモデルは、
入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、
前記畳み込み層の出力に対してプーリング（ｐｏｏｌｉｎｇ）を行うためのプーリング層と、
複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みｗ_ｆｃ（_Ｔｔ）を掛けた値を出力する複数のクラス別全結合層（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）と、を含み、
前記複数のクラスは、互いに異なる基準によって区別され、
前記複数のクラスそれぞれは、複数のクラス別特性に分類され、
前記ニューラルネットワークモデルは、前記クラス別全結合層の出力に応じて、前記複数のクラスそれぞれのクラス別特性に対するクラス別特性確率を提供することができ、
前記プロセッサは、
入力画像を前記畳み込み層に入力し、前記畳み込み層の出力に基づいて、前記複数のクラスそれぞれに対する複数のクラス別観察マップを演算し、前記複数のクラス別観察マップに基づいて、前記複数のクラスに共通する共通観察マップを生成し、前記共通観察マップ及び前記入力画像の対象領域を用いて観察損失Ｌ_ｏｂｓを演算し、前記観察損失Ｌ_ｏｂｓに基づく損失を前記ニューラルネットワークモデルに逆伝播することを特徴とする、ニューラルネットワークモデルの学習装置。