JP2020187736A

JP2020187736A - 地域的特徴を有する分類器学習のための学習データ生成方法およびそのシステム

Info

Publication number: JP2020187736A
Application number: JP2020067405A
Authority: JP
Inventors: サンドゥユン; Sang Doo Yun; ドンユンハン; Dongyoon Han; サンヒョクチョン; Sang Hyuk Chun; ヨンジュンユ; Youngun Heo
Original assignee: Line Corp; Naver Corp
Current assignee: Z Intermediate Global Corp; Naver Corp
Priority date: 2019-05-10
Filing date: 2020-04-03
Publication date: 2020-11-19
Anticipated expiration: 2040-04-03
Also published as: JP7059318B2; KR102170620B1

Abstract

【課題】地域的特徴を有する分類器学習のための学習データ生成方法およびそのシステムを提供する。【解決手段】学習データ生成方法は、２つのサンプルイメージのうちの１つのサンプルイメージから一部の領域を取り除いた後、取り除かれた領域を他の１つのサンプルイメージのパッチと入れ替える方式によって前記２つのサンプルイメージを混合して新たなイメージを生成する段階、および前記生成されたイメージを学習データとして使用してＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）モデルを学習する段階を含む。【選択図】図３

Description

以下の説明は、ＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）分類器（ｃｌａｓｓｉｆｉｅｒ）の性能を向上させるための技術に関する。

深層学習の代表的手法であるＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）は、イメージ分類（ｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ）、オブジェクト検出（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ）、意味分割（ｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ）、ビデオ分析（ｖｉｄｅｏａｎａｌｙｓｉｓ）などの多様なコンピュータビジョン技術において有望な成果を挙げている。学習の効率と成果の更なる改善のために、データ拡張（ｄａｔａａｕｇｍｅｎｔａｔｉｏｎ）や正規化技法（ｒｅｇｕｌａｒｉｚａｔｉｏｎｔｅｃｈｎｉｑｕｅｓ）をはじめとした様々な学習戦略が提案されている。

一例として、特許文献１（２０１９年０４月１２日）には、ＦＵＮ（ｆｅａｔｕｒｅｕｐｓａｍｐｌｉｎｇｎｅｔｗｏｒｋｓ）を利用してＣＮＮの性能を向上させるための学習方法が開示されている。

特に、ＣＮＮにおいて、入力イメージに対する小さなセットの中間活性化や狭い領域に集中し過ぎることを防ぐために隠された活性化をランダムに削除する場合のドロップアウトや、入力に存在する任意の領域を削除する場合の領域ドロップアウトのように、任意の特徴を取り除くための正規化技術が利用されている。

従来の技術では、特徴を除去するための戦略がモデル個体の最も重要な部分だけでなく個体の全体領域に施されるようにするために、一般化とローカリゼーションを改善している。領域ドロップアウト戦略では、分類およびローカリゼーション性能はある程度は向上されるようになるが、削除された領域は大体が０で表示されるかランダムノイズで満たされるため、学習イメージに対する情報ピクセルの割合が大きく減少する。

韓国公開特許第１０−２０１９−００３９４５９号公報

イメージを切り取って貼り付ける方式（ｃｕｔ＆ｐａｓｔｅ）によって新たな学習イメージを生成することにより、分類器の性能と地域的特徴の認識性能を同時に向上させることができる学習データ生成方法を提供する。

コンピュータシステムが実行する方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記方法は、前記少なくとも１つのプロセッサにより、２つのサンプルイメージのうちの１つのサンプルイメージから一部の領域を取り除いた後、取り除かれた領域に他の１つのサンプルイメージのパッチを入れ替える方式によって前記２つのサンプルイメージを混合して（ｍｉｘ）新たなイメージを生成する段階、および前記少なくとも１つのプロセッサにより、前記生成されたイメージを学習データとして使用してＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）モデルを学習する段階を含む方法を提供する。

本発明の実施形態によると、イメージを切り取って貼り付ける方式によって新たな学習データを生成してＣＮＮを学習させることにより、分類器の性能と地域的特徴の認識性能を同時に向上させることができる。

本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。本発明の一実施形態における、学習データ生成方法（ＣｕｔＭｉｘ）のイメージ分類、ローカリゼーション、オブジェクト検出結果を従来の方法と比較した図である。本発明の一実施形態における、学習データを生成する方法の一例を説明するための例示図である。本発明の一実施形態における、学習データを生成する方法の一例を説明するための例示図である。本発明の一実施形態における、学習データを生成する方法の他の例を説明するための例示図である。本発明の一実施形態における、学習データを生成する方法の他の例を説明するための例示図である。本発明の一実施形態における、学習データ生成方法（ＣｕｔＭｉｘ）を利用したＣＡＭ（Ｃｌａｓｓａｃｔｉｖａｔｉｏｎｍａｐｐｉｎｇ）の視覚化結果を従来の方法と比較した図である。本発明の一実施形態における、学習データ生成方法（ＣｕｔＭｉｘ）の使用環境を他の方法と比較した図である。本発明の一実施形態における、学習データ生成方法（ＣｕｔＭｉｘ）の検証エラー分析結果を示した図である。

＜発明の概要＞
コンピュータシステムが実行する方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記方法は、前記少なくとも１つのプロセッサにより、２つのサンプルイメージのうちの１つのサンプルイメージから一部の領域を取り除いた後、取り除かれた領域に他の１つのサンプルイメージのパッチを入れ替える方式によって前記２つのサンプルイメージを混合して（ｍｉｘ）新たなイメージを生成する段階、および前記少なくとも１つのプロセッサにより、前記生成されたイメージを学習データとして使用してＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）モデルを学習する段階を含む方法を提供する。

一側面によると、前記生成する段階は、前記２つのサンプルイメージを混合するために、縦横の割合が原本イメージと比例するマスクをサンプリングする段階を含んでよい。

他の側面によると、前記生成する段階は、前記２つのサンプルイメージそれぞれから一部の領域をランダムに選択する段階、および前記２つのサンプルイメージのうちの１つのサンプルイメージで選択された一部の領域を切り取り、他のサンプルイメージで選択された一部の領域に混合させて前記新たなイメージを生成する段階を含んでよい。

また他の側面によると、前記生成する段階は、前記２つのサンプルイメージそれぞれから意味のある重要領域を選択する段階、および前記２つのサンプルイメージのうちの１つのサンプルイメージで選択された重要領域を切り取り、他のサンプルイメージで重要領域を除いた残りの領域に混合させて前記新たなイメージを生成する段階を含んでよい。

また他の側面によると、前記選択する段階は、ＣＮＮモデルによって抽出された特徴マップに基づいて各サンプルイメージで前記重要領域を予測する段階を含んでよい。

また他の側面によると、前記生成する段階は、前記１つのサンプルイメージの重要領域を前記他のサンプルイメージの残りの領域のうちのランダム位置に貼り付ける段階を含んでよい。

また他の側面によると、前記学習する段階は、前記生成されたイメージを利用して原本損失関数（ｏｒｉｇｉｎａｌｌｏｓｓｆｕｎｃｔｉｏｎ）で前記ＣＮＮモデルを学習してよい。

また他の側面によると、前記方法は、前記少なくとも１つのプロセッサにより、前記２つのサンプルイメージをランダムに選択する段階をさらに含んでよい。

さらに他の側面によると、前記方法は、前記少なくとも１つのプロセッサにより、イメージ分類による同一クラスタ内から前記２つのサンプルイメージを選択する段階をさらに含んでよい。

前記方法をコンピュータに実行させるためのプログラムを提供する。

コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、２つのサンプルイメージのうちの１つのサンプルイメージから一部の領域を取り除いた後、取り除かれた領域に他の１つのサンプルイメージのパッチを入れ替える方式によって前記２つのサンプルイメージを混合して新たなイメージを生成する過程、および前記生成されたイメージを学習データとして使用してＣＮＮモデルを学習する過程を処理する、コンピュータシステムを提供する。

＜発明の詳細＞
以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態は、分類器の性能と地域的特徴の認識性能を向上させるための技術に関する。

本明細書において具体的に開示される事項を含む実施形態は、イメージを切り取って貼り付ける方式（ＣｕｔＭｉｘ方法）をデータ拡張（ｄａｔａａｕｇｍｅｎｔａｔｉｏｎ）戦略として利用することで新たな学習イメージを生成することができ、これによって分類器の性能と地域的特徴の認識性能を同時に向上させることができる。

図１は、本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。例えば、図１のコンピュータシステム１００によって本発明の実施形態に係る学習データ生成システムが実現されてよい。図１に示すように、コンピュータシステム１００は、学習データ生成方法を実行するための構成要素として、プロセッサ１１０、メモリ１２０、永続的大容量記録装置１３０、バス１４０、入力／出力インタフェース１５０、およびネットワークインタフェース１６０を含んでよい。

プロセッサ１１０は、学習データ生成のための構成要素として命令語のシーケンスを処理することのできる任意の装置を含むか、その一部のであってよい。プロセッサ１１０は、例えば、コンピュータプロセッサ、移動装置または他の電子装置内のプロセッサ、および／またはデジタルプロセッサを含んでよい。プロセッサ１１０は、例えば、サーバコンピューティングデバイス、サーバコンピュータ、一連のサーバコンピュータ、サーバファーム、クラウドコンピュータ、コンテンツプラットフォームなどに含まれてよい。プロセッサ１１０は、バス１４０を介してメモリ１２０に接続されてよい。

メモリ１２０は、コンピュータシステム１００によって使用されるか、これによって出力される情報を記録するための揮発性メモリ、永続的、仮想、またはその他のメモリを含んでよい。メモリ１２０は、例えば、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）および／またはＤＲＡＭ（ｄｙｎａｍｉｃＲＡＭ）を含んでよい。メモリ１２０は、コンピュータシステム１００の状態情報のような任意の情報を格納するために使用されてよい。メモリ１２０は、例えば、学習データの生成のための命令語を含むコンピュータシステム１００の命令語を記録するために使用されてもよい。コンピュータシステム１００は、必要な場合や適切な場合に、１つ以上のプロセッサ１１０を含んでよい。

バス１４０は、コンピュータシステム１００の多様なコンポーネントの相互作用を可能にする通信基盤構造を含んでよい。バス１４０は、例えば、コンピュータシステム１００のコンポーネントの間、例えば、プロセッサ１１０とメモリ１２０の間でデータを運搬してよい。バス１４０は、コンピュータシステム１００のコンポーネントの間の無線および／または有線通信媒体を含んでよく、並列、直列、または他のトポロジ配列を含んでもよい。

永続的大容量記録装置１３０は、（例えば、メモリ１２０に比べて）所定の延長された期間にわたってデータを記録するために、コンピュータシステム１００によって使用されるもののようなメモリまたは他の永続的大容量記録装置のようなコンポーネントを含んでよい。永続的大容量記録装置１３０は、コンピュータシステム１００内のプロセッサ１１０によって使用されるもののような非揮発性メインメモリを含んでよい。永続的大容量記録装置１３０は、例えば、フラッシュメモリ、ハードディスク、光ディスク、または他のコンピュータ読み取り可能な媒体を含んでよい。

入力／出力インタフェース１５０は、キーボード、マウス、音声命令入力、ディスプレイ、または他の入力または出力装置に対するインタフェースを含んでよい。構成命令および／または学習データ生成のための入力が、入力／出力インタフェース１５０に受信されてよい。

ネットワークインタフェース１６０は、近距離ネットワークまたはインターネットのようなネットワークに対する１つ以上のインタフェースを含んでよい。ネットワークインタフェース１６０は、有線または無線接続に対するインタフェースを含んでよい。構成命令および／または学習データの生成のための入力が、ネットワークインタフェース１６０に受信されてよい。

また、他の実施形態において、コンピュータシステム１００は、図１の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータシステム１００は、上述した入力／出力インタフェース１５０と連結する入力／出力装置のうちの一部を含むように実現されてもよいし、トランシーバ、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。

本発明は、イメージを切り取って貼り付ける方式であるＣｕｔＭｉｘ方法をデータ拡張戦略として適用する。

学習イメージ内からパッチを切り取って貼り付けるときには、実測資料（ｇｒｏｕｎｄｔｒｕｔｈ）ラベルもパッチの領域に比例するように混合する。ＣｕｔＭｉｘ方法は、効率的に学習用ピクセルを利用して領域ドロップアウト効果を維持することにより、ＩｍａｇｅＮｅｔおよびＩｍａｇｅＮｅｔ分類作業だけでなく、ＩｍａｇｅＮｅｔの弱教師ローカリゼーション（ｗｅａｋｌｙ−ｓｕｐｅｒｖｉｓｅｄｌｏｃａｌｉｚａｔｉｏｎ）作業でも最先端の拡張戦略となる。また、従来の方法とは異なり、ＣｕｔＭｉｘ方法で学習されたＩｍａｇｅＮｅｔ分類器は、事前検証されたモデルに使用される場合、パスカル（Ｐａｓｃａｌ）探知およびＭＳ−ＣＯＣＯ画像キャプションのベンチマークにおいて一貫した性能向上をもたらす。さらに、入力変質に対するモデルの堅固性と分布外の感知性能をＣｕｔＭｉｘ方法によって改善することができる。

本発明では、領域ドロップアウトによる優れた一般化とローカリゼーションを活用しながら削除された領域を最大限活用するために、ＣｕｔＭｉｘ方法を取り入れる。

本発明に係るＣｕｔＭｉｘ方法は、ピクセルを取り除く代わりに、取り除かれた領域に他のイメージのパッチを入れ替える。また、実測資料ラベルは、混合したイメージのピクセル数に比例するように混合する。ＣｕｔＭｉｘ方法は、学習に非情報画素がないという属性があり、学習を効率的に行うと同時に、オブジェクトの重要でない（ｎｏｎ−ｄｉｓｃｒｉｍｉｎａｎｔ）部分に注意を傾けることができる領域ドロップアウトの長所を維持する。追加されたパッチは、モデルが部分ビューでオブジェクトを識別するように要求することにより、ローカリゼーション能力をさらに強化することができる。学習および推論費用は、同じように維持される。

イメージとラベルの両方を補間して２つのサンプルを混合する方法（Ｍｉｘｕｐ方法）の研究もあった。Ｍｉｘｕｐは、補間サンプルが自然でない傾向がある反面、ＣｕｔＭｉｘ方法は、イメージ領域を他の学習イメージのイメージパッチと入れ替えるため、これによって従来の問題を克服することができる。

図２は、本発明における、ＣｕｔＭｉｘ方法のイメージ分類結果と従来の方法（Ｍｉｘｕｐ、Ｃｕｔｏｕｔ）を比較した表である。図２を参照すると、ＭｉｘｕｐとＣｕｔｏｕｔは、基準ラインと比べると、ＩｍａｇｅＮｅｔ分類の正確度は高めることができるが、ＩｍａｇｅＮｅｔローカリゼーションおよびオブジェクト検出作業の性能は低下する。この反面、ＣｕｔＭｉｘは、基準およびその他の拡張方法を超えるほど優れた分類とローカリゼーション能力を立証しており、３つの作業の全般にわたり相当な向上を達成することができる。

先ず、以下のように関連研究について説明する。

領域ドロップアウト（ｒｅｇｉｏｎａｌｄｒｏｐｏｕｔ）
ＣＮＮの一般化およびローカリゼーション成果を高めるために、イメージからランダム領域を取り除く方法が利用されている。本発明に係るＣｕｔＭｉｘ方法と従来の方法との決定的に異なる点は、取り除かれた領域を他のイメージのパッチと入れ替えるということにある。特徴レベルにおいて、ドロップブロック（ＤｒｏｐＢｌｏｃｋ）は、特徴空間に対する領域ドロップアウトを一般化して一般性も高めることができ、ＣｕｔＭｉｘ方法は特徴空間で実行されてよい。

学習データ合成（ｓｙｎｔｈｅｓｉｚｉｎｇｔｒａｉｎｉｎｇｄａｔａ）
一部の研究では、学習データを合成することで更なる一般化が可能な方法を適用している。ＳｔｙｌｉｚｉｎｇＩｍａｇｅＮｅｔによって新たな学習用サンプルを生成することにより、モデルがテクスチャよりも模様に集中するように誘導することにより、分類および個体感知性能を向上させることができる。また、ＣｕｔＭｉｘ方法は、ミニバッチ（ｍｉｎｉ−ｂａｔｃｈｅｓ）内でパッチを切り取って貼り付けることで新たなサンプルを生成し、多くのコンピュータビジョン作業で性能を向上させることができる。ＣｕｔＭｉｘ方法の主な長所は、サンプル生成にかかる追加費用を無視できるという点にある。オブジェクト感知のためのオブジェクト挿入方法としてバックグラウンドでオブジェクトを合成する方法を利用しているが、このような方法は、単一オブジェクトを適切に表そうとする反面、ＣｕｔＭｉｘ方法は、複数のオブジェクトを含む混合したサンプルを生成することができるという点において、従来の方法と差がある。

Ｍｉｘｕｐ
Ｍｉｘｕｐサンプルは、局所的に曖昧かつ不自然であるため、特にローカリゼーションにおいてモデルを混乱させる。最近のＭｉｘｕｐの変形技術では、特徴レベルの補間およびその他の類型の変換を行うが、混合サンプルのローカリゼーション能力ならびに以前学習に対する関心と研究は依然として不足である。

ディープネットワークを学習するためのトリック（ｔｒｉｃｋｓｆｏｒｔｒａｉｎｉｎｇｄｅｅｐｎｅｔｗｏｒｋｓ）
ディープネットワークの効率的な学習には大量のコンピュータソースとデータが必要となる。荷重減衰（ＷｅｉｇｈｔＤｅｃａｙ）、ドロップアウト、およびバッチ正規化のような方法は、より一般化が可能なディープネットワークを学習するために広く使われている。最近では、内部特徴にノイズを追加したりアーキテクチャに経路を追加したりする方法が提案されている。本発明に係るＣｕｔＭｉｘ方法は、内部表現やアーキテクチャの変更はなく、データレベルで作動するため、従来の方法を補うことができる。

以下、ＣｕｔＭｉｘ方法の具体的な実施形態について説明する。

図３は、ＣｕｔＭｉｘ方法の一例として、領域をランダムに切り取って貼り付ける方法を説明するための例示図である。

図３を参照すると、学習データを生成するためのＭｉｘ対象イメージとして２つのサンプルイメージ３１０、３２０が与えられると、与えられた２つのサンプルイメージ３１０、３２０内から他のイメージと混合する領域３１１、３２１がランダムに選択されてよい。

このとき、サンプルイメージ３１０、３２０はランダムに選択されてもよいが、イメージ分類による同一クラスタ内から適切に選択されることも可能である。

サンプルイメージ３１０で選択領域３１１をランダムに切り取った後、他のサンプルイメージ３２０でランダムに選択されて切り取られた領域３２１を混合することにより、新たな学習用サンプルイメージ３３０を生成してよい。

この後、図４に示すように、新たに生成された学習用サンプルイメージ３３０を利用してＣＮＮモデル４０１を学習してよい。言い換えれば、ＣＮＮモデル４０１を学習するとき、ＣｕｔＭｉｘ方法によって新たに生成された学習用サンプルイメージ３３０に該当する学習データとクラスラベルを使用する。

図５は、ＣｕｔＭｉｘ方法の他の例として、重要領域を切り取って貼り付ける方法を説明するための例示図である。

図５を参照すると、学習データを生成するためのＭｉｘ対象イメージとして２つのサンプルイメージ５１０、５２０が与えられると、与えられた２つのサンプルイメージ５１０、５２０内の意味のある重要領域５０１を他のイメージと混合する領域５１１、５２１として選択してよい。

このとき、サンプルイメージ５１０、５２０はランダムに選択されてもよいが、イメージ分類による同一クラスタ内から適切に選択されることも可能である。

一例として、ＣＮＮモデルによって抽出された特徴マップに基づいて各サンプルイメージ５１０、５２０で重要領域５０１を予測し、重要領域５０１と残りの領域（すなわち、重要でない領域）５０２とに区分してよい。例えば、サンプルイメージ５２０から重要領域５０１を切り取ってサンプルイメージ５１０の重要でない領域５０２の少なくとも一部に貼り付ける方式により、新たな学習用サンプルイメージ５３０を生成してよい。サンプルイメージ５１０の重要でない領域５０２内のランダム位置、あるいは最も重要でないと判断された領域にサンプルイメージ５２０の重要領域５０１を貼り付けることで、新たな学習用サンプルイメージ５３０を生成してよい。

この後、図６に示すように、新たに生成された学習用サンプルイメージ５３０を利用してＣＮＮモデル６０１を学習してよい。言い換えれば、ＣＮＮモデル６０１を学習するとき、ＣｕｔＭｉｘ方法によって新たに生成された学習用サンプルイメージ５３０に該当する学習データとクラスラベルを使用する。

したがって、本発明に係るＣｕｔＭｉｘ方法は、１つのサンプルイメージから一部の領域を切り取って他の１つのサンプルイメージの一部の領域に貼り付けるという方式により、新たな学習データを生成することができる。このようなＣｕｔＭｉｘ方法は、従来の方法とは異なり、イメージの混合によってイメージ内で地域的特徴に集中するようにする学習データを生成することができる。

アルゴリズム

およびyをそれぞれ学習イメージおよびラベルとする。

ＣｕｔＭｉｘの目標は、２つの学習用サンプル（x_A,y_A）と（x_B,y_B）を混合して新たな学習用サンプル(x~,y~)を生成することにある。この後、新たに生成された学習用サンプルを使用して原本損失関数（ｏｒｉｇｉｎａｌｌｏｓｓｆｕｎｃｔｉｏｎ）でモデルを学習する。

このために、混合演算は、数式（１）のように定義されてよい。

ここで、

は、２つのイメージから外れて埋められなければならない位置を示す二陣マスクを示しており、１は１で埋められた二陣マスクであり、

は要素ごとの積（ｅｌｅｍｅｎｔ−ｗｉｓｅｍｕｌｔｉｐｌｉｃａｔｉｏｎ）である。

２つのデータポイントの組み合わせの比率λは、排他分布排他(α,α)でサンプリングされる。従来の技術との主な差は、ＣｕｔＭｉｘによってイメージ領域を他の学習イメージのパッチと入れ替えることにより、従来の技術よりも、地域的に自然なイメージを多く生成できるという点にある。

二陣マスクＭをサンプリングするためには、先ず、x_Aとx_Bの切り取り領域を示す境界枠座標

をサンプリングする。x_Aの領域Ｂは削除され、x_BのＢで切り取られたパッチが埋められる。

縦横の割合が原本イメージと比例するように四角形のマスクＭをサンプリングする。境界枠座標は、数式（２）によって均一にサンプリングされる。

切り取った面積比は

で生成する。切り取り領域において、二陣マスク

は、境界枠内では０で埋められ、そうでなければ１となる。

ＣｕｔＭｉｘの実現は単純である上に、データ拡張技法のうちの１つとして無視することのできる演算オーバヘッドを有しているため、これを効率的に活用することにより、すべてのネットワークアーキテクチャを学習させることができる。繰り返される学習において、学習用サンプル(x~,y~)は、数式（１）によってランダムに選択された２つの学習サンプルをミニバッチに混合することで生成される。

本発明は、ＣｕｔＭｉｘに同期を付与することでオブジェクトの全体領域が分類されるようにする一方、学習の効率性を高めるために１つのイメージの部分的ビューから２つのオブジェクトが認識されるようにする。ＣｕｔＭｉｘがそれぞれの部分ビューで２つのオブジェクトを認識する方法を実際に学んでいるかを確認するために、ＣｕｔＭｉｘの活性化マップをＣｕｔｏｕｔおよびＭｉｘｕｐと視覚的に比較する。

図７は、複数の拡張技法を利用したサンプル（セントバーナード（ＳａｉｎｔＢｅｒｎａｒｄ）画像、ミニチュアプードル（ＭｉｎｉａｔｕｒｅＰｏｏｄｌｅ）画像）に対するクラス活性化マップ（ＣＡＭ）を示している。ここで、ＣＡＭを得るためにＲｅｓＮｅｔ−５０モデルを使用する。

Ｃｕｔｏｕｔにおいて、モデルがオブジェクトの重要でない部分に焦点を合わせるようにしていることが分かる。例えば、モデルは、Ｃｕｔｏｕｔ−ｅｄサンプルにおいて、セントバーナードの腹部部分に焦点を合わせる。しかし、これは情報を提供しないピクセルであるため、学習データが効率的に使用されない。この反面、Ｍｉｘｕｐではピクセルを十分に活用するが、不自然な人為構造を取り入れる。この結果、Ｍｉｘｕｐ用のＣＡＭは、認識の手がかりを選択するにあたりモデルの混同を引き起こす。ＣｕｔＭｉｘの場合には、分類とローカリゼーションにおいて次善的な成果を挙げることができる。Ｃｕｔｏｕｔが単一イメージにおいて１つのオブジェクトだけを処理する反面、ＣｕｔＭｉｘは２つのオブジェクトクラスを正確にローカリゼーションすることができるため、効率的な改善となる。図８の表は、Ｍｉｘｕｐ、Ｃｕｔｏｕｔ、ＣｕｔＭｉｘの比較を整理したものである。

検証エラー分析（ａｎａｌｙｓｉｓｏｎｖａｌｉｄａｔｉｏｎｅｒｒｏｒ）
ＣｕｔＭｉｘがディープネットワークの学習の安定化に及ぼす影響を分析する。ＣｕｔＭｉｘを利用した学習中のｔｏｐ−１検証エラーと基準とを比較する。ＩｍａｇｅＮｅｔ分類はＲｅｓＮｅｔ−５０、ＣＩＦＡＲ−１００分類はＰｙｒａｍｉｄＮｅｔ−２００を学習するものであり、このような学習結果は図９に示したとおりである。

図９を参照すると、ＣｕｔＭｉｘが、学習終了時の基準よりも低い検証エラーを達成したということが分かる。学習速度が減少する時期の後半では、基準線が次第に増加する検証エラーによる過剰適合によって困難を経験する。しかし、ＣｕｔＭｉｘでは検証エラーが継続して減少し、多様なサンプルによって学習を指導することから、過剰適合を減らす能力が備えられていることが分かる。

このように、本発明の実施形態によると、イメージを切り取って貼り付ける方式によって新たな学習データを生成してＣＮＮを学習させることにより、分類器の性能と地域的特徴の認識性能を同時に向上させることができる。上述したＣｕｔＭｉｘ方法は、学習モデルの一般性とローカリゼーションを改善することができ、イメージ分類とＣＩＦＡＲ分類に及ぼす影響を改善することができる。さらに、オブジェクト検出およびイメージキャプション作業に微調整が施された場合、ＣｕｔＭｉｘを利用して学習モデルの移植性（ｔｒａｎｓｆｅｒａｂｉｌｉｔｙ）を保障することができ、モデルの堅固性と不確実性を改善することができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ−ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

１００：コンピュータシステム
１１０：プロセッサ
１２０：メモリ
１３０：永続的大容量記録装置
１５０：入力／出力インタフェース

Claims

コンピュータシステムが実行する方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記方法は、
前記少なくとも１つのプロセッサにより、２つのサンプルイメージのうちの１つのサンプルイメージから一部の領域を取り除いた後、取り除かれた領域に他の１つのサンプルイメージのパッチを入れ替える方式によって前記２つのサンプルイメージを混合して新しいイメージを生成する段階、および
前記少なくとも１つのプロセッサにより、前記生成されたイメージを学習データとして使用してＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）モデルを学習する段階
を含む、方法。
前記生成する段階は、
前記２つのサンプルイメージの混合のために、縦横の割合が原本イメージと比例するマスクをサンプリングする段階
を含む、請求項１に記載の方法。
前記生成する段階は、
前記２つのサンプルイメージそれぞれから一部の領域をランダムに選択する段階、および
前記２つのサンプルイメージのうちの１つのサンプルイメージで選択された一部の領域を切り取り、他のサンプルイメージで選択された一部の領域に混合させて前記新たなイメージを生成する段階
を含む、請求項１に記載の方法。
前記生成する段階は、
前記２つのサンプルイメージそれぞれから意味のある重要領域を選択する段階、および
前記２つのサンプルイメージのうちの１つのサンプルイメージで選択された重要領域を切り取り、他のサンプルイメージで重要領域を除いた残りの領域に混合させて前記新たなイメージを生成する段階
を含む、請求項１に記載の方法。
前記選択する段階は、
ＣＮＮモデルによって抽出された特徴マップに基づいて各サンプルイメージで前記重要領域を予測する段階
を含む、請求項４に記載の方法。
前記生成する段階は、
前記１つのサンプルイメージの重要領域を前記他のサンプルイメージの残り領域のうちのランダム位置に貼り付ける段階
を含む、請求項４に記載の方法。
前記学習する段階は、
前記生成されたイメージを使用して原本損失関数で前記ＣＮＮモデルを学習する、
請求項１に記載の方法。
前記方法は、
前記少なくとも１つのプロセッサにより、前記２つのサンプルイメージをランダムに選択する段階
をさらに含む、請求項１に記載の方法。
前記方法は、
前記少なくとも１つのプロセッサにより、イメージ分類による同一クラスタ内から前記２つのサンプルイメージを選択する段階
をさらに含む、請求項１に記載の方法。
請求項１〜９のうちのいずれか一項に記載の方法をコンピュータに実行させるためのプログラム。
コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
２つのサンプルイメージのうちの１つのサンプルイメージから一部の領域を取り除いた後、取り除かれた領域に他の１つのサンプルイメージのパッチを入れ替える方式によって前記２つのサンプルイメージを混合して新たなイメージを生成する過程、および
前記生成されたイメージを学習データとして使用してＣＮＮモデルを学習する過程
を処理する、コンピュータシステム。
前記生成する過程は、
前記２つのサンプルイメージの混合のために、縦横の割合が原本イメージと比例するマスクをサンプリングする過程
を含む、請求項１１に記載のコンピュータシステム。
前記生成する過程は、
前記２つのサンプルイメージそれぞれから一部の領域をランダムに選択する過程、および
前記２つのサンプルイメージのうちの１つのサンプルイメージで選択された一部の領域を切り取り、他のサンプルイメージで選択された一部の領域に混合させて前記新たなイメージを生成する過程
を含む、請求項１１に記載のコンピュータシステム。
前記生成する過程は、
前記２つのサンプルイメージそれぞれから意味のある重要領域を選択する過程、および
前記２つのサンプルイメージのうちの１つのサンプルイメージで選択された重要領域を切り取り、他のサンプルイメージで重要領域を除いた残りの領域に混合させて前記新たなイメージを生成する過程
を含む、請求項１１に記載のコンピュータシステム。
前記選択する過程は、
ＣＮＮモデルによって抽出された特徴マップ（ｆｅａｔｕｒｅｍａｐ）に基づいて各サンプルイメージで前記重要領域を予測する過程
を含む、請求項１４に記載のコンピュータシステム。
前記学習する過程は、
前記生成されたイメージを使用して原本損失関数で前記ＣＮＮモデルを学習する、
請求項１１に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、
前記２つのサンプルイメージをランダムに選択する過程
をさらに処理する、請求項１１に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、
イメージ分類による同一クラスタ内から前記２つのサンプルイメージを選択する過程
をさらに含む、請求項１１に記載のコンピュータシステム。