JP7059318B2 - 地域的特徴を有する分類器学習のための学習データ生成方法およびそのシステム - Google Patents

地域的特徴を有する分類器学習のための学習データ生成方法およびそのシステム Download PDF

Info

Publication number
JP7059318B2
JP7059318B2 JP2020067405A JP2020067405A JP7059318B2 JP 7059318 B2 JP7059318 B2 JP 7059318B2 JP 2020067405 A JP2020067405 A JP 2020067405A JP 2020067405 A JP2020067405 A JP 2020067405A JP 7059318 B2 JP7059318 B2 JP 7059318B2
Authority
JP
Japan
Prior art keywords
image
sample
sample images
computer system
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020067405A
Other languages
English (en)
Other versions
JP2020187736A (ja
Inventor
サンドゥ ユン
ドンユン ハン
サンヒョク チョン
ヨンジュン ユ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2020187736A publication Critical patent/JP2020187736A/ja
Application granted granted Critical
Publication of JP7059318B2 publication Critical patent/JP7059318B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Description

以下の説明は、CNN(convolutional neural network)分類器(classifier)の性能を向上させるための技術に関する。
深層学習の代表的手法であるCNN(convolutional neural network)は、イメージ分類(image classification)、オブジェクト検出(object detection)、意味分割(semantic segmentation)、ビデオ分析(video analysis)などの多様なコンピュータビジョン技術において有望な成果を挙げている。学習の効率と成果の更なる改善のために、データ拡張(data augmentation)や正規化技法(regularization techniques)をはじめとした様々な学習戦略が提案されている。
一例として、特許文献1(2019年04月12日)には、FUN(feature upsampling networks)を利用してCNNの性能を向上させるための学習方法が開示されている。
特に、CNNにおいて、入力イメージに対する小さなセットの中間活性化や狭い領域に集中し過ぎることを防ぐために隠された活性化をランダムに削除する場合のドロップアウトや、入力に存在する任意の領域を削除する場合の領域ドロップアウトのように、任意の特徴を取り除くための正規化技術が利用されている。
従来の技術では、特徴を除去するための戦略がモデル個体の最も重要な部分だけでなく個体の全体領域に施されるようにするために、一般化とローカリゼーションを改善している。領域ドロップアウト戦略では、分類およびローカリゼーション性能はある程度は向上されるようになるが、削除された領域は大体が0で表示されるかランダムノイズで満たされるため、学習イメージに対する情報ピクセルの割合が大きく減少する。
韓国公開特許第10-2019-0039459号公報
イメージを切り取って貼り付ける方式(cut&paste)によって新たな学習イメージを生成することにより、分類器の性能と地域的特徴の認識性能を同時に向上させることができる学習データ生成方法を提供する。
コンピュータシステムが実行する方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記方法は、前記少なくとも1つのプロセッサにより、2つのサンプルイメージのうちの1つのサンプルイメージから一部の領域を取り除いた後、取り除かれた領域に他の1つのサンプルイメージのパッチを入れ替える方式によって前記2つのサンプルイメージを混合して(mix)新たなイメージを生成する段階、および前記少なくとも1つのプロセッサにより、前記生成されたイメージを学習データとして使用してCNN(convolutional neural network)モデルを学習する段階を含む方法を提供する。
本発明の実施形態によると、イメージを切り取って貼り付ける方式によって新たな学習データを生成してCNNを学習させることにより、分類器の性能と地域的特徴の認識性能を同時に向上させることができる。
本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。 本発明の一実施形態における、学習データ生成方法(CutMix)のイメージ分類、ローカリゼーション、オブジェクト検出結果を従来の方法と比較した図である。 本発明の一実施形態における、学習データを生成する方法の一例を説明するための例示図である。 本発明の一実施形態における、学習データを生成する方法の一例を説明するための例示図である。 本発明の一実施形態における、学習データを生成する方法の他の例を説明するための例示図である。 本発明の一実施形態における、学習データを生成する方法の他の例を説明するための例示図である。 本発明の一実施形態における、学習データ生成方法(CutMix)を利用したCAM(Class activation mapping)の視覚化結果を従来の方法と比較した図である。 本発明の一実施形態における、学習データ生成方法(CutMix)の使用環境を他の方法と比較した図である。 本発明の一実施形態における、学習データ生成方法(CutMix)の検証エラー分析結果を示した図である。
<発明の概要>
コンピュータシステムが実行する方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記方法は、前記少なくとも1つのプロセッサにより、2つのサンプルイメージのうちの1つのサンプルイメージから一部の領域を取り除いた後、取り除かれた領域に他の1つのサンプルイメージのパッチを入れ替える方式によって前記2つのサンプルイメージを混合して(mix)新たなイメージを生成する段階、および前記少なくとも1つのプロセッサにより、前記生成されたイメージを学習データとして使用してCNN(convolutional neural network)モデルを学習する段階を含む方法を提供する。
一側面によると、前記生成する段階は、前記2つのサンプルイメージを混合するために、縦横の割合が原本イメージと比例するマスクをサンプリングする段階を含んでよい。
他の側面によると、前記生成する段階は、前記2つのサンプルイメージそれぞれから一部の領域をランダムに選択する段階、および前記2つのサンプルイメージのうちの1つのサンプルイメージで選択された一部の領域を切り取り、他のサンプルイメージで選択された一部の領域に混合させて前記新たなイメージを生成する段階を含んでよい。
また他の側面によると、前記生成する段階は、前記2つのサンプルイメージそれぞれから意味のある重要領域を選択する段階、および前記2つのサンプルイメージのうちの1つのサンプルイメージで選択された重要領域を切り取り、他のサンプルイメージで重要領域を除いた残りの領域に混合させて前記新たなイメージを生成する段階を含んでよい。
また他の側面によると、前記選択する段階は、CNNモデルによって抽出された特徴マップに基づいて各サンプルイメージで前記重要領域を予測する段階を含んでよい。
また他の側面によると、前記生成する段階は、前記1つのサンプルイメージの重要領域を前記他のサンプルイメージの残りの領域のうちのランダム位置に貼り付ける段階を含んでよい。
また他の側面によると、前記学習する段階は、前記生成されたイメージを利用して原本損失関数(original loss function)で前記CNNモデルを学習してよい。
また他の側面によると、前記方法は、前記少なくとも1つのプロセッサにより、前記2つのサンプルイメージをランダムに選択する段階をさらに含んでよい。
さらに他の側面によると、前記方法は、前記少なくとも1つのプロセッサにより、イメージ分類による同一クラスタ内から前記2つのサンプルイメージを選択する段階をさらに含んでよい。
前記方法をコンピュータに実行させるためのプログラムを提供する。
コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、2つのサンプルイメージのうちの1つのサンプルイメージから一部の領域を取り除いた後、取り除かれた領域に他の1つのサンプルイメージのパッチを入れ替える方式によって前記2つのサンプルイメージを混合して新たなイメージを生成する過程、および前記生成されたイメージを学習データとして使用してCNNモデルを学習する過程を処理する、コンピュータシステムを提供する。
<発明の詳細>
以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。
本発明の実施形態は、分類器の性能と地域的特徴の認識性能を向上させるための技術に関する。
本明細書において具体的に開示される事項を含む実施形態は、イメージを切り取って貼り付ける方式(CutMix方法)をデータ拡張(data augmentation)戦略として利用することで新たな学習イメージを生成することができ、これによって分類器の性能と地域的特徴の認識性能を同時に向上させることができる。
図1は、本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。例えば、図1のコンピュータシステム100によって本発明の実施形態に係る学習データ生成システムが実現されてよい。図1に示すように、コンピュータシステム100は、学習データ生成方法を実行するための構成要素として、プロセッサ110、メモリ120、永続的大容量記録装置130、バス140、入力/出力インタフェース150、およびネットワークインタフェース160を含んでよい。
プロセッサ110は、学習データ生成のための構成要素として命令語のシーケンスを処理することのできる任意の装置を含むか、その一部のであってよい。プロセッサ110は、例えば、コンピュータプロセッサ、移動装置または他の電子装置内のプロセッサ、および/またはデジタルプロセッサを含んでよい。プロセッサ110は、例えば、サーバコンピューティングデバイス、サーバコンピュータ、一連のサーバコンピュータ、サーバファーム、クラウドコンピュータ、コンテンツプラットフォームなどに含まれてよい。プロセッサ110は、バス140を介してメモリ120に接続されてよい。
メモリ120は、コンピュータシステム100によって使用されるか、これによって出力される情報を記録するための揮発性メモリ、永続的、仮想、またはその他のメモリを含んでよい。メモリ120は、例えば、RAM(random access memory)および/またはDRAM(dynamic RAM)を含んでよい。メモリ120は、コンピュータシステム100の状態情報のような任意の情報を格納するために使用されてよい。メモリ120は、例えば、学習データの生成のための命令語を含むコンピュータシステム100の命令語を記録するために使用されてもよい。コンピュータシステム100は、必要な場合や適切な場合に、1つ以上のプロセッサ110を含んでよい。
バス140は、コンピュータシステム100の多様なコンポーネントの相互作用を可能にする通信基盤構造を含んでよい。バス140は、例えば、コンピュータシステム100のコンポーネントの間、例えば、プロセッサ110とメモリ120の間でデータを運搬してよい。バス140は、コンピュータシステム100のコンポーネントの間の無線および/または有線通信媒体を含んでよく、並列、直列、または他のトポロジ配列を含んでもよい。
永続的大容量記録装置130は、(例えば、メモリ120に比べて)所定の延長された期間にわたってデータを記録するために、コンピュータシステム100によって使用されるもののようなメモリまたは他の永続的大容量記録装置のようなコンポーネントを含んでよい。永続的大容量記録装置130は、コンピュータシステム100内のプロセッサ110によって使用されるもののような非揮発性メインメモリを含んでよい。永続的大容量記録装置130は、例えば、フラッシュメモリ、ハードディスク、光ディスク、または他のコンピュータ読み取り可能な媒体を含んでよい。
入力/出力インタフェース150は、キーボード、マウス、音声命令入力、ディスプレイ、または他の入力または出力装置に対するインタフェースを含んでよい。構成命令および/または学習データ生成のための入力が、入力/出力インタフェース150に受信されてよい。
ネットワークインタフェース160は、近距離ネットワークまたはインターネットのようなネットワークに対する1つ以上のインタフェースを含んでよい。ネットワークインタフェース160は、有線または無線接続に対するインタフェースを含んでよい。構成命令および/または学習データの生成のための入力が、ネットワークインタフェース160に受信されてよい。
また、他の実施形態において、コンピュータシステム100は、図1の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータシステム100は、上述した入力/出力インタフェース150と連結する入力/出力装置のうちの一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。
本発明は、イメージを切り取って貼り付ける方式であるCutMix方法をデータ拡張戦略として適用する。
学習イメージ内からパッチを切り取って貼り付けるときには、実測資料(ground truth)ラベルもパッチの領域に比例するように混合する。CutMix方法は、効率的に学習用ピクセルを利用して領域ドロップアウト効果を維持することにより、ImageNetおよびImageNet分類作業だけでなく、ImageNetの弱教師ローカリゼーション(weakly-supervised localization)作業でも最先端の拡張戦略となる。また、従来の方法とは異なり、CutMix方法で学習されたImageNet分類器は、事前検証されたモデルに使用される場合、パスカル(Pascal)探知およびMS-COCO画像キャプションのベンチマークにおいて一貫した性能向上をもたらす。さらに、入力変質に対するモデルの堅固性と分布外の感知性能をCutMix方法によって改善することができる。
本発明では、領域ドロップアウトによる優れた一般化とローカリゼーションを活用しながら削除された領域を最大限活用するために、CutMix方法を取り入れる。
本発明に係るCutMix方法は、ピクセルを取り除く代わりに、取り除かれた領域に他のイメージのパッチを入れ替える。また、実測資料ラベルは、混合したイメージのピクセル数に比例するように混合する。CutMix方法は、学習に非情報画素がないという属性があり、学習を効率的に行うと同時に、オブジェクトの重要でない(non-discriminant)部分に注意を傾けることができる領域ドロップアウトの長所を維持する。追加されたパッチは、モデルが部分ビューでオブジェクトを識別するように要求することにより、ローカリゼーション能力をさらに強化することができる。学習および推論費用は、同じように維持される。
イメージとラベルの両方を補間して2つのサンプルを混合する方法(Mixup方法)の研究もあった。Mixupは、補間サンプルが自然でない傾向がある反面、CutMix方法は、イメージ領域を他の学習イメージのイメージパッチと入れ替えるため、これによって従来の問題を克服することができる。
図2は、本発明における、CutMix方法のイメージ分類結果と従来の方法(Mixup、Cutout)を比較した表である。図2を参照すると、MixupとCutoutは、基準ラインと比べると、ImageNet分類の正確度は高めることができるが、ImageNetローカリゼーションおよびオブジェクト検出作業の性能は低下する。この反面、CutMixは、基準およびその他の拡張方法を超えるほど優れた分類とローカリゼーション能力を立証しており、3つの作業の全般にわたり相当な向上を達成することができる。
先ず、以下のように関連研究について説明する。
領域ドロップアウト(regional dropout)
CNNの一般化およびローカリゼーション成果を高めるために、イメージからランダム領域を取り除く方法が利用されている。本発明に係るCutMix方法と従来の方法との決定的に異なる点は、取り除かれた領域を他のイメージのパッチと入れ替えるということにある。特徴レベルにおいて、ドロップブロック(Drop Block)は、特徴空間に対する領域ドロップアウトを一般化して一般性も高めることができ、CutMix方法は特徴空間で実行されてよい。
学習データ合成(synthesizing trainingdata)
一部の研究では、学習データを合成することで更なる一般化が可能な方法を適用している。Stylizing ImageNetによって新たな学習用サンプルを生成することにより、モデルがテクスチャよりも模様に集中するように誘導することにより、分類および個体感知性能を向上させることができる。また、CutMix方法は、ミニバッチ(mini-batches)内でパッチを切り取って貼り付けることで新たなサンプルを生成し、多くのコンピュータビジョン作業で性能を向上させることができる。CutMix方法の主な長所は、サンプル生成にかかる追加費用を無視できるという点にある。オブジェクト感知のためのオブジェクト挿入方法としてバックグラウンドでオブジェクトを合成する方法を利用しているが、このような方法は、単一オブジェクトを適切に表そうとする反面、CutMix方法は、複数のオブジェクトを含む混合したサンプルを生成することができるという点において、従来の方法と差がある。
Mixup
Mixupサンプルは、局所的に曖昧かつ不自然であるため、特にローカリゼーションにおいてモデルを混乱させる。最近のMixupの変形技術では、特徴レベルの補間およびその他の類型の変換を行うが、混合サンプルのローカリゼーション能力ならびに以前学習に対する関心と研究は依然として不足である。
ディープネットワークを学習するためのトリック(tricks for training deep networks)
ディープネットワークの効率的な学習には大量のコンピュータソースとデータが必要となる。荷重減衰(Weight Decay)、ドロップアウト、およびバッチ正規化のような方法は、より一般化が可能なディープネットワークを学習するために広く使われている。最近では、内部特徴にノイズを追加したりアーキテクチャに経路を追加したりする方法が提案されている。本発明に係るCutMix方法は、内部表現やアーキテクチャの変更はなく、データレベルで作動するため、従来の方法を補うことができる。
以下、CutMix方法の具体的な実施形態について説明する。
図3は、CutMix方法の一例として、領域をランダムに切り取って貼り付ける方法を説明するための例示図である。
図3を参照すると、学習データを生成するためのMix対象イメージとして2つのサンプルイメージ310、320が与えられると、与えられた2つのサンプルイメージ310、320内から他のイメージと混合する領域311、321がランダムに選択されてよい。
このとき、サンプルイメージ310、320はランダムに選択されてもよいが、イメージ分類による同一クラスタ内から適切に選択されることも可能である。
サンプルイメージ310で選択領域311をランダムに切り取った後、他のサンプルイメージ320でランダムに選択されて切り取られた領域321を混合することにより、新たな学習用サンプルイメージ330を生成してよい。
この後、図4に示すように、新たに生成された学習用サンプルイメージ330を利用してCNNモデル401を学習してよい。言い換えれば、CNNモデル401を学習するとき、CutMix方法によって新たに生成された学習用サンプルイメージ330に該当する学習データとクラスラベルを使用する。
図5は、CutMix方法の他の例として、重要領域を切り取って貼り付ける方法を説明するための例示図である。
図5を参照すると、学習データを生成するためのMix対象イメージとして2つのサンプルイメージ510、520が与えられると、与えられた2つのサンプルイメージ510、520内の意味のある重要領域501を他のイメージと混合する領域511、521として選択してよい。
このとき、サンプルイメージ510、520はランダムに選択されてもよいが、イメージ分類による同一クラスタ内から適切に選択されることも可能である。
一例として、CNNモデルによって抽出された特徴マップに基づいて各サンプルイメージ510、520で重要領域501を予測し、重要領域501と残りの領域(すなわち、重要でない領域)502とに区分してよい。例えば、サンプルイメージ520から重要領域501を切り取ってサンプルイメージ510の重要でない領域502の少なくとも一部に貼り付ける方式により、新たな学習用サンプルイメージ530を生成してよい。サンプルイメージ510の重要でない領域502内のランダム位置、あるいは最も重要でないと判断された領域にサンプルイメージ520の重要領域501を貼り付けることで、新たな学習用サンプルイメージ530を生成してよい。
この後、図6に示すように、新たに生成された学習用サンプルイメージ530を利用してCNNモデル601を学習してよい。言い換えれば、CNNモデル601を学習するとき、CutMix方法によって新たに生成された学習用サンプルイメージ530に該当する学習データとクラスラベルを使用する。
したがって、本発明に係るCutMix方法は、1つのサンプルイメージから一部の領域を切り取って他の1つのサンプルイメージの一部の領域に貼り付けるという方式により、新たな学習データを生成することができる。このようなCutMix方法は、従来の方法とは異なり、イメージの混合によってイメージ内で地域的特徴に集中するようにする学習データを生成することができる。
アルゴリズム
Figure 0007059318000001

およびyをそれぞれ学習イメージおよびラベルとする。
CutMixの目標は、2つの学習用サンプル(xA,yA)と(xB,yB)を混合して新たな学習用サンプル(x~,y~)を生成することにある。この後、新たに生成された学習用サンプルを使用して原本損失関数(original loss function)でモデルを学習する。
このために、混合演算は、数式(1)のように定義されてよい。
Figure 0007059318000002

ここで、
Figure 0007059318000003
は、2つのイメージから外れて埋められなければならない位置を示す二陣マスクを示しており、1は1で埋められた二陣マスクであり、
Figure 0007059318000004
は要素ごとの積(element-wise multiplication)である。
2つのデータポイントの組み合わせの比率λは、排他分布排他(α,α)でサンプリングされる。従来の技術との主な差は、CutMixによってイメージ領域を他の学習イメージのパッチと入れ替えることにより、従来の技術よりも、地域的に自然なイメージを多く生成できるという点にある。
二陣マスクMをサンプリングするためには、先ず、xAとxBの切り取り領域を示す境界枠座標
Figure 0007059318000005
をサンプリングする。xAの領域Bは削除され、xBのBで切り取られたパッチが埋められる。
縦横の割合が原本イメージと比例するように四角形のマスクMをサンプリングする。境界枠座標は、数式(2)によって均一にサンプリングされる。
Figure 0007059318000006
切り取った面積比は
Figure 0007059318000007
で生成する。切り取り領域において、二陣マスク
Figure 0007059318000008
は、境界枠内では0で埋められ、そうでなければ1となる。
CutMixの実現は単純である上に、データ拡張技法のうちの1つとして無視することのできる演算オーバヘッドを有しているため、これを効率的に活用することにより、すべてのネットワークアーキテクチャを学習させることができる。繰り返される学習において、学習用サンプル(x~,y~)は、数式(1)によってランダムに選択された2つの学習サンプルをミニバッチに混合することで生成される。
本発明は、CutMixに同期を付与することでオブジェクトの全体領域が分類されるようにする一方、学習の効率性を高めるために1つのイメージの部分的ビューから2つのオブジェクトが認識されるようにする。CutMixがそれぞれの部分ビューで2つのオブジェクトを認識する方法を実際に学んでいるかを確認するために、CutMixの活性化マップをCutoutおよびMixupと視覚的に比較する。
図7は、複数の拡張技法を利用したサンプル(セントバーナード(Saint Bernard)画像、ミニチュアプードル(Miniature Poodle)画像)に対するクラス活性化マップ(CAM)を示している。ここで、CAMを得るためにResNet-50モデルを使用する。
Cutoutにおいて、モデルがオブジェクトの重要でない部分に焦点を合わせるようにしていることが分かる。例えば、モデルは、Cutout-edサンプルにおいて、セントバーナードの腹部部分に焦点を合わせる。しかし、これは情報を提供しないピクセルであるため、学習データが効率的に使用されない。この反面、Mixupではピクセルを十分に活用するが、不自然な人為構造を取り入れる。この結果、Mixup用のCAMは、認識の手がかりを選択するにあたりモデルの混同を引き起こす。CutMixの場合には、分類とローカリゼーションにおいて次善的な成果を挙げることができる。Cutoutが単一イメージにおいて1つのオブジェクトだけを処理する反面、CutMixは2つのオブジェクトクラスを正確にローカリゼーションすることができるため、効率的な改善となる。図8の表は、Mixup、Cutout、CutMixの比較を整理したものである。
検証エラー分析(analysis on validation error)
CutMixがディープネットワークの学習の安定化に及ぼす影響を分析する。CutMixを利用した学習中のtop-1検証エラーと基準とを比較する。ImageNet分類はResNet-50、CIFAR-100分類はPyramidNet-200を学習するものであり、このような学習結果は図9に示したとおりである。
図9を参照すると、CutMixが、学習終了時の基準よりも低い検証エラーを達成したということが分かる。学習速度が減少する時期の後半では、基準線が次第に増加する検証エラーによる過剰適合によって困難を経験する。しかし、CutMixでは検証エラーが継続して減少し、多様なサンプルによって学習を指導することから、過剰適合を減らす能力が備えられていることが分かる。
このように、本発明の実施形態によると、イメージを切り取って貼り付ける方式によって新たな学習データを生成してCNNを学習させることにより、分類器の性能と地域的特徴の認識性能を同時に向上させることができる。上述したCutMix方法は、学習モデルの一般性とローカリゼーションを改善することができ、イメージ分類とCIFAR分類に及ぼす影響を改善することができる。さらに、オブジェクト検出およびイメージキャプション作業に微調整が施された場合、CutMixを利用して学習モデルの移植性(transferability)を保障することができ、モデルの堅固性と不確実性を改善することができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
100:コンピュータシステム
110:プロセッサ
120:メモリ
130:永続的大容量記録装置
150:入力/出力インタフェース

Claims (16)

  1. コンピュータシステムが実行する方法であって、
    前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
    前記方法は、
    前記少なくとも1つのプロセッサにより、2つのサンプルイメージのうちの1つのサンプルイメージから一部の領域を取り除いた後、取り除かれた領域に他の1つのサンプルイメージのパッチを入れ替える方式によって前記2つのサンプルイメージを混合して新しいイメージを生成する段階、および
    前記少なくとも1つのプロセッサにより、前記生成されたイメージを学習データとして使用してCNN(convolutional neural network)モデルを学習する段階
    を含み、
    前記生成する段階は、
    前記2つのサンプルイメージそれぞれから一部の領域をランダムに選択する段階、および
    前記2つのサンプルイメージのうちの1つのサンプルイメージで選択された一部の領域を切り取り、他のサンプルイメージで選択された一部の領域に混合させて前記新たなイメージを生成する段階
    を含む、方法。
  2. コンピュータシステムが実行する方法であって、
    前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
    前記方法は、
    前記少なくとも1つのプロセッサにより、2つのサンプルイメージのうちの1つのサンプルイメージから一部の領域を取り除いた後、取り除かれた領域に他の1つのサンプルイメージのパッチを入れ替える方式によって前記2つのサンプルイメージを混合して新しいイメージを生成する段階、および
    前記少なくとも1つのプロセッサにより、前記生成されたイメージを学習データとして使用してCNN(convolutional neural network)モデルを学習する段階
    を含み、
    前記生成する段階は、
    前記2つのサンプルイメージそれぞれから意味のある重要領域を選択する段階、および
    前記2つのサンプルイメージのうちの1つのサンプルイメージで選択された重要領域を切り取り、他のサンプルイメージで重要領域を除いた残りの領域に混合させて前記新たなイメージを生成する段階
    を含む、方法。
  3. 前記選択する段階は、
    CNNモデルによって抽出された特徴マップに基づいて各サンプルイメージで前記重要領域を予測する段階
    を含む、請求項に記載の方法。
  4. 前記生成する段階は、
    前記1つのサンプルイメージの重要領域を前記他のサンプルイメージの残り領域のうちのランダム位置に貼り付ける段階
    を含む、請求項に記載の方法。
  5. 前記学習する段階は、
    前記生成されたイメージを使用して原本損失関数で前記CNNモデルを学習する、
    請求項1~4のいずれか一項に記載の方法。
  6. 前記方法は、
    前記少なくとも1つのプロセッサにより、前記2つのサンプルイメージをランダムに選択する段階
    をさらに含む、請求項1~5のいずれか一項に記載の方法。
  7. 前記方法は、
    前記少なくとも1つのプロセッサにより、イメージ分類による同一クラスタ内から前記2つのサンプルイメージを選択する段階
    をさらに含む、請求項1~5のいずれか一項に記載の方法。
  8. 請求項1~のうちのいずれか一項に記載の方法をコンピュータに実行させるためのプログラム。
  9. 前記生成する段階は、
    前記2つのサンプルイメージの混合のために、縦横の割合が原本イメージと比例するマスクをサンプリングする段階
    を含む、請求項1又は2に記載の方法。
  10. コンピュータシステムであって、
    メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    2つのサンプルイメージのうちの1つのサンプルイメージから一部の領域を取り除いた後、取り除かれた領域に他の1つのサンプルイメージのパッチを入れ替える方式によって前記2つのサンプルイメージを混合して新たなイメージを生成する過程、および
    前記生成されたイメージを学習データとして使用してCNNモデルを学習する過程
    を処理し、
    前記生成する過程は、
    前記2つのサンプルイメージそれぞれから一部の領域をランダムに選択する過程、および
    前記2つのサンプルイメージのうちの1つのサンプルイメージで選択された一部の領域を切り取り、他のサンプルイメージで選択された一部の領域に混合させて前記新たなイメージを生成する過程
    を含む、コンピュータシステム。
  11. コンピュータシステムであって、
    メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    2つのサンプルイメージのうちの1つのサンプルイメージから一部の領域を取り除いた後、取り除かれた領域に他の1つのサンプルイメージのパッチを入れ替える方式によって前記2つのサンプルイメージを混合して新たなイメージを生成する過程、および
    前記生成されたイメージを学習データとして使用してCNNモデルを学習する過程
    を処理し、
    前記生成する過程は、
    前記2つのサンプルイメージそれぞれから意味のある重要領域を選択する過程、および
    前記2つのサンプルイメージのうちの1つのサンプルイメージで選択された重要領域を切り取り、他のサンプルイメージで重要領域を除いた残りの領域に混合させて前記新たなイメージを生成する過程
    を含む、コンピュータシステム。
  12. 前記選択する過程は、
    CNNモデルによって抽出された特徴マップ(feature map)に基づいて各サンプルイメージで前記重要領域を予測する過程
    を含む、請求項11に記載のコンピュータシステム。
  13. 前記学習する過程は、
    前記生成されたイメージを使用して原本損失関数で前記CNNモデルを学習する、
    請求項10~12のいずれか一項に記載のコンピュータシステム。
  14. 前記少なくとも1つのプロセッサは、
    前記2つのサンプルイメージをランダムに選択する過程
    をさらに処理する、請求項10~13のいずれか一項に記載のコンピュータシステム。
  15. 前記少なくとも1つのプロセッサは、
    イメージ分類による同一クラスタ内から前記2つのサンプルイメージを選択する過程
    をさらに含む、請求項10~13のいずれか一項に記載のコンピュータシステム。
  16. 前記生成する過程は、
    前記2つのサンプルイメージの混合のために、縦横の割合が原本イメージと比例するマスクをサンプリングする過程
    を含む、請求項10又は11に記載のコンピュータシステム。
JP2020067405A 2019-05-10 2020-04-03 地域的特徴を有する分類器学習のための学習データ生成方法およびそのシステム Active JP7059318B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0054763 2019-05-10
KR1020190054763A KR102170620B1 (ko) 2019-05-10 2019-05-10 지역적 특징을 가지는 분류기 학습을 위한 학습 데이터 생성 방법 및 그 시스템

Publications (2)

Publication Number Publication Date
JP2020187736A JP2020187736A (ja) 2020-11-19
JP7059318B2 true JP7059318B2 (ja) 2022-04-25

Family

ID=73018499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020067405A Active JP7059318B2 (ja) 2019-05-10 2020-04-03 地域的特徴を有する分類器学習のための学習データ生成方法およびそのシステム

Country Status (2)

Country Link
JP (1) JP7059318B2 (ja)
KR (1) KR102170620B1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11687780B2 (en) 2020-07-02 2023-06-27 Samsung Electronics Co., Ltd Method and apparatus for data efficient semantic segmentation
WO2022099136A1 (en) * 2020-11-09 2022-05-12 Canon U.S.A., Inc. Label-dependent loss function for discrete ordered regression model
JP7561014B2 (ja) 2020-11-27 2024-10-03 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング データ処理装置、ニューラルネットワークの深層学習の方法及びプログラム
JP7561013B2 (ja) 2020-11-27 2024-10-03 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング データ処理装置、ニューラルネットワークの深層学習の方法及びプログラム
KR102424095B1 (ko) * 2020-12-17 2022-07-21 연세대학교 산학협력단 개인정보를 보장하는 실시간 라벨링 방법 및 장치
JP7208314B1 (ja) * 2021-08-19 2023-01-18 エヌ・ティ・ティ・コミュニケーションズ株式会社 学習装置、学習方法及び学習プログラム
KR102403166B1 (ko) * 2021-09-29 2022-05-30 주식회사 인피닉 기계 학습용 데이터 증강 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102470187B1 (ko) * 2021-11-19 2022-11-23 부산대학교 산학협력단 비적대적 패치 생성 방법 및 시스템
KR102492121B1 (ko) * 2022-05-25 2023-01-26 경북대학교 산학협력단 데이터 증강 기술을 이용한 이미지 분류 방법 및 상기 방법을 수행하는 컴퓨팅 장치
JP2024033904A (ja) * 2022-08-31 2024-03-13 株式会社Jvcケンウッド 機械学習装置、機械学習方法、および機械学習プログラム
JP2024033903A (ja) * 2022-08-31 2024-03-13 株式会社Jvcケンウッド 機械学習装置、機械学習方法、および機械学習プログラム
JP7558519B1 (ja) 2023-05-11 2024-10-01 ソフトバンク株式会社 情報処理装置及び情報処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007088831A (ja) 2005-09-22 2007-04-05 Fujifilm Corp 画像補正方法および装置並びにプログラム
US20170068888A1 (en) 2015-09-09 2017-03-09 Intel Corporation Cost-sensitive classification with deep learning using cost-aware pre-training

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007088831A (ja) 2005-09-22 2007-04-05 Fujifilm Corp 画像補正方法および装置並びにプログラム
US20170068888A1 (en) 2015-09-09 2017-03-09 Intel Corporation Cost-sensitive classification with deep learning using cost-aware pre-training

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Debidatta Dwibedi et al,Cut, Paste and Learn: Surprisingly Easy Synthesis for Instance Detection,2017 IEEE International Conference on Computer Vision (ICCV),米国,IEEE,2017年10月29日,1310-1319,https://ieeexplore.ieee.org/document/8237408
Deep-PRWIS: Periocular Recognition Without the Iris and Sclera Using Deep Learning Frameworks,IEEE Transactions on Information Forensics and Security,米国,IEEE,2017年11月09日,Volume: 13, Issue: 4,888-896,https://ieeexplore.ieee.org/document/8101565
Peng Cui,General Knowledge Embedded Image Representation Learning,IEEE Transactions on Multimedia,米国,IEEE,2017年07月11日,Volume: 20, Issue: 1,198-207,https://ieeexplore.ieee.org/document/7972969
Shaoqing Ren et al,Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,arXiv,2015年06月04日,1-10,https://arxiv.org/pdf/1506.01497v1.pdf

Also Published As

Publication number Publication date
JP2020187736A (ja) 2020-11-19
KR102170620B1 (ko) 2020-10-28

Similar Documents

Publication Publication Date Title
JP7059318B2 (ja) 地域的特徴を有する分類器学習のための学習データ生成方法およびそのシステム
US11631239B2 (en) Iterative spatio-temporal action detection in video
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
He et al. Enhanced boundary learning for glass-like object segmentation
US10936911B2 (en) Logo detection
JP2022530907A (ja) 複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理
JP7286013B2 (ja) ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス
US11593948B2 (en) Generating refined alpha mattes utilizing guidance masks and a progressive refinement network
JP2021526276A (ja) 画像分割と分割ネットワークトレーニング方法および装置、機器、媒体、並びに製品
CN111242852A (zh) 边界感知对象移除和内容填充
US11748937B2 (en) Sub-pixel data simulation system
CN111274981B (zh) 目标检测网络构建方法及装置、目标检测方法
JPWO2020240809A1 (ja) 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム
US20230237777A1 (en) Information processing apparatus, learning apparatus, image recognition apparatus, information processing method, learning method, image recognition method, and non-transitory-computer-readable storage medium
CN115223042A (zh) 基于YOLOv5网络模型的目标识别方法及装置
CN110659724A (zh) 一种基于目标尺度范围的目标检测卷积神经网络构建方法
Yan et al. 3MNet: Multi-task, multi-level and multi-channel feature aggregation network for salient object detection
CN113744280A (zh) 图像处理方法、装置、设备及介质
Tang et al. Two-stage filtering method to improve the performance of object detection trained by synthetic dataset in heavily cluttered industry scenes
CN110910478B (zh) Gif图生成方法、装置、电子设备及存储介质
US20240127510A1 (en) Stylized glyphs using generative ai
Li et al. Efficient spatially sparse inference for conditional gans and diffusion models
CN109961061A (zh) 一种边缘计算视频数据结构化方法及系统
Marques Image processing and computer vision in iOS
CN106469437A (zh) 图像处理方法和图像处理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200403

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210414

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20210412

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220413

R150 Certificate of patent or registration of utility model

Ref document number: 7059318

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350