JP2023017759A

JP2023017759A - セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置

Info

Publication number: JP2023017759A
Application number: JP2022143457A
Authority: JP
Inventors: イーパン・スン; Yipeng Sun; ロンチャオ・アン; Rongqiao An; シャン・ウェイ; Xiang Wei; ロンチャオ・ワン; Longchao Wang; クン・ヤオ; Kun Yao; ジュンユ・ハン; Junyu Han; ジントゥオ・リュウ; Jingtuo Liu; エールゥイ・ディン; Errui Ding
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-05
Filing date: 2022-09-09
Publication date: 2023-02-07
Also published as: EP4071729A3; CN114120074A; CN114120074B; EP4071729A2; US20220392205A1

Abstract

【課題】画像識別モデルを効果的、かつ、低コストでトレーニングする方法及び装置、画像識別方法及び装置、電子デバイス並びにコンピューター可読記憶媒体を提供する。
【解決手段】セマンティック増強に基づく画像識別モデルのトレーニング方法は、標識がなく、かつ、テキストの説明がない入力された第１の画像から、第１の画像の第１の特徴表現を抽出する段階と、第１の特徴表現に基づいて、第１の損失関数を計算する段階と、標識がなくかつ元のテキストの説明を有する入力された第２の画像から、第２の画像の第２の特徴表現を抽出する段階と、第２の特徴表現に基づいて、第２の損失関数を計算する段階と、第１の損失関数と第２の損失関数との融合に基づいて、画像識別モデルをトレーニングする段階と、を含む。
【選択図】図２

Description

本開示の実施例は、主に人工知能の技術分野に関し、具体的には、コンピューター視覚および深層学習の技術分野に関し、画像処理、画像識別等のシナリオに適用されることができる。より具体的には、セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置、画像識別のための方法および装置、電子デバイスならびにコンピューター可読記憶媒体に関する。

近年、コンピューターソフトウェアやハードウェア技術の発達に伴い、人工知能や機械学習の分野も大きく進歩している。当該技術も、画像処理および画像識別等のアプリケーションシナリオで広く使用される。これに対して、核心的な問題は、関連するモデルをより効率的、正確、かつ低コストでトレーニングする方法である。

現在のトレーニング方法は、主に教師ありトレーニングおよび教師なしトレーニングを含む。具体的に視覚画像の分野において、教師ありトレーニングは、入力画像として標識データを有する多数の画像を必要とする。しかしながら、画像の標識プロセスには多くの人件費がかかり、標識付きのそのような画像を購入することは、非常に高価である。相対的に、教師なしトレーニングは、標識コストを節約できるが、セマンティッカ監視情報が不足しているため、トレーニングされたモデルは、実際のダウンストリームタスクを解決する際の（例えば、画像分類およびオブジェクト検出等である）パフォーマンスが悪い。

本開示による例示的な実施例は、セマンティック増強に基づく画像識別モデルのトレーニングスキームを提供する。

本開示の第１の態様は、セマンティック増強に基づく画像識別モデルのトレーニング方法を提供する。当該方法は、標識がなくかつテキストの説明がない入力された第１の画像から、第１の画像の第１の特徴表現を抽出する段階と、第１の特徴表現に基づいて、第１の損失関数を計算する段階と、標識がなくかつ元のテキストの説明を有する入力された第２の画像から、第２の画像の第２の特徴表現を抽出する段階と、第２の特徴表現に基づいて、第２の損失関数を計算する段階と、および第１の損失関数と第２の損失関数との融合に基づいて、画像識別モデルをトレーニングする段階とを含む。

本開示の第２の態様は、画像識別のための方法を提供する。当該方法は、被識別画像を取得する段階と、画像識別モデルに基づいて、被識別画像を識別する段階とを含み、ここで、画像識別モデルは、本開示の第１の態様のセマンティック増強に基づく画像識別モデルのトレーニング方法によって得られる。

本開示の第３の態様は、セマンティック増強に基づく画像識別モデルのトレーニング装置を提供する。当該装置は、標識がなくかつテキストの説明がない入力された第１の画像から、第１の画像の第１の特徴表現を抽出するように構成される第１の特徴抽出モジュールと、第１の特徴表現に基づいて、第１の損失関数を計算するように構成される第１の計算モジュールと、標識がなくかつ元のテキストの説明を有する入力された第２の画像から、第２の画像の第２の特徴表現を抽出する第２の特徴抽出モジュールと、第２の特徴表現に基づいて、第２の損失関数を計算する第２の計算モジュールと、および第１の損失関数と第２の損失関数との融合に基づいて、画像識別モデルをトレーニングするように構成される融合トレーニングモジュールとを含む。

本開示の第４の態様は、画像識別のための装置を提供する。当該装置は、被識別画像を取得するように構成される画像取得モジュールと、画像識別モデルに基づいて、被識別画像を識別するように構成される画像識別モジュールとを含み、ここで、画像識別モデルは、本開示の第３の態様のセマンティック増強に基づく画像識別モデルのトレーニング装置によって得られる。

本開示の第５の態様は、電子デバイスを提供する。当該電子デバイスは、一つまたは複数のプロセッサ、および一つまたは複数のプログラムを記憶するための記憶装置を含み、一つまたは複数のプログラムが一つまたは複数のプロセッサによって実行される場合、一つまたは複数のプロセッサは、本開示による第１の態様および第２の態様の方法を実装するようにする。

本開示の第６の態様は、コンピューター可読記憶媒体を提供する。当該コンピューター可読記憶媒体にコンピュータープログラムが記憶される場合、当該プログラムがプロセッサによって実行される場合、本開示による第１の態様および第２の態様の方法を実装する。

本発明の内容部分に記載される内容は、本開示の実施例の核心的なまたは重要な特徴を限定することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明によって容易に理解されるであろう。

添付の図面と併せかつ以下の詳細な説明を参照すると、本開示の各実施例の上記および他の特徴、利点および態様は、より明らかになるであろう。図面において、同じまたは類似な参照番号は、同じまたは類似な要素を指す。
本開示の複数の実施例を実装することができるセマンティック増強に基づく画像識別モデルのトレーニングのシステムの模式図を示す。本開示の複数の実施例を実装することができるセマンティック増強に基づく画像識別モデルのトレーニング方法のフローチャートを示す。本開示のいくつかの実施例によるセマンティック増強に基づく画像識別モデルのトレーニングのアーキテクチャを示す。本開示のいくつかの実施例による画像識別のための方法のフローチャートを示す。本開示のいくつかの実施例によるセマンティック増強に基づく画像識別モデルのトレーニング装置のブロック図を示す。本開示のいくつかの実施例による画像識別のための装置のブロック図を示す。本開示の複数の実施例を実施することができるコンピューティングデバイスのブロック図を示す。

以下、添付の図面を参照して、本開示の実施例をより詳細に説明する。添付の図面には本開示の特定の実施例が示されているが、本開示は、様々な形態で実装することができ、本明細書に記載の実施例に限定されると解釈されるべきではなく、むしろこれらの実施例は、本開示をより明確かつ完全に理解するために提供されることを理解されたい。本開示の図面および実施例は、例示的な目的のみを目的としており、本開示の保護範囲を制限することを意図するものではないことを理解されたい。

本開示の実施例の説明において、「含む」という用語およびその類似な用語は、開放型包含、即ち「含むがこれらに限定されない」と理解されるべきである。「に基づく」という用語は、「少なくとも部分的に基づく」と理解されるべきである。「一実施例」または「当該実施例」という用語は、「少なくとも一つの実施例」と理解されるべきである。「第１の」および「第２の」等の用語は、異なるまたは同じオブジェクトを指すことができる。以下の明細書は、他の明示的および暗黙的な定義をさらに含むことができる。

画像に基づくモデルトレーニングにおいて、実行可能なスキームは、標識情報を有するサンプル画像の教師ありトレーニング方法を使用することであり、それは、多数の画像の特徴表現を抽出および要約し、特徴表現と標識情報との間の関連付けを構築する。しかしながら、教師ありトレーニング方法は、多数の標識データに依存され、画像標識には、多数の時間がかかり、これらのデータは、効果でありかつ容易に得られることはできない。

別の実行可能なスキームは、標識がないサンプル画像を使用する教師なしトレーニング方法であり、それは、より低い標識コストで比較的満足のいく結果を得ることができる。例えば、対照学習に基づく自己監視型トレーニングにおいて、標識がないサンプル画像の簡単な増強によって増強画像ペアを生成し、増強画像ペアに対する比較および要約によってトレーニングする。しかし、このようにトレーニングして得られた特徴表現は、関連するセマンティッカ情報が不足しているため、画像分類の処理またはオブジェクトの検出等のタスクの効果が良くない。

先行技術における一つまたは複数の技術的問題を解決するために、本開示による例示的な実施例は、セマンティック増強に基づく画像識別モデルのトレーニングスキームを提案する。具体的には、標識がなくかつテキストの説明がない入力された第１の画像から、第１の画像の第１の特徴表現を抽出して、第１の損失関数を計算し、また標識がなくかつ元のテキストの説明を有する入力された第２の画像から、第２の画像の第２の特徴表現を抽出して、第２の損失関数を計算することにより、第１の損失関数と第２の損失関数との融合に基づいて、画像識別モデルをトレーニングする。

本開示による実施例は、標識がないサンプル画像およびテキストの説明を有するサンプル画像を同時に使用してトレーニングモデルすることにより、標識がないサンプル画像のみを使用してトレーニングする方法と比較して、セマンティック増強を達成する。このような方法を通じて、標識がない画像と対応するテキストの説明とが相互に関連付けられることにより、セマンティッカ情報を有する特徴表現を得る。セマンティッカ情報を有するこのような特徴表現は、ダウンストリームタスクを処理する時に（例えば、画像分類またはオブジェクト検出等）より優れた効果を有する。同時に、画像に対して標識がある必要性が減り、これにより標識データのコストが高く、標識データの取得が難しい問題が克服される。

以下、添付の図面を参照して、本開示の実施例を具体的に説明する。

図１は、本開示の複数の実施例を実装することができるセマンティック増強に基づく画像識別モデルのトレーニングシステム１００の模式図を示す。システム１００において、コンピューティングデバイス１１０は、多数の画像を使用して画像識別モデル１４０をトレーニングして，トレーニングされた画像識別モデルを得るように構成される。画像識別モデル１４０は、例えば、画像を分類したり、オブジェクトを検出したりするように構築されることができる。本開示において、トレーニングに使用される画像は、二つのタイプ、即ち、標識がない画像およびテキストの説明を有する画像を含む。以下の説明の便宜上、標識がない画像は、第１の画像１２０と呼ばれ、テキストの説明を有する画像は、第２の画像１３０と呼ばれる。

コンピューティングデバイス１１０は、画像識別を実装するために適切なソフトウェアおよびハードウェアで構成されることができる。コンピューティングデバイス１１０は、任意のタイプのサーバーデバイス、モバイルデバイス、固定デバイスまたはポータブルデバイスであり得、サーバー、メインフレーム、計算ノード、エッジノード、携帯電話、インターネットノード、コミュニケーター、デスクトップ、ラップトップ、ノートブック、ネットブック、タブレットコンピューター、パーソナル通信システム（ＰＣＳ）デバイス、マルチメディアコンピューター、マルチメディアタブレットまたはそれらの任意の組み合わせを含み、これらのデバイスの部品および周辺機器またはその任意の組み合わせを含む。

異なる画像１２０、１３０は、異なるオブジェクトを含むことができる。本明細書において、「オブジェクト」とは、任意のヒトまたは物を指すことができる。例えば、示される模式図において、第１の画像１２０は、歩行者１２２および自動車１２４を含み、第２の画像１３０は、歩行者１３２、自動車１３４および関連するテキストの説明１３６を含む。本明細書において、「テキストの説明」は、単語または複数の単語の組み合わせであってもよく、一つの文または複数の文であってもよい。さらに、「テキストの説明」は、言語によって制限されず、例えば、中国語や英語等であってもよく、文字または記号を含むこともできる。

画像識別モデル１４０は、機械学習アルゴリズムに基づいて構築することができ、例えば、一つまたは複数のタイプのニューラルネットワークまたは他の深層学習ネットワークを含むように構築されることができる。画像識別モデル１４０の具体的な構成および採用された機械学習アルゴリズムは、本開示において制限されない。画像識別の能力を取得するために、トレーニング画像１２０、１３０を使用してトレーニングプロセスを実行して、画像識別モデル１４０のパラメーターセットの値を決定する必要がある。パラメーターセットの値が決定された後の画像識別モデル１４０は、トレーニングされた画像識別モデル１４０と呼ばれる。

トレーニングして得られた画像識別モデル１４０の性能は、トレーニングデータセットに大きく依存する。トレーニングデータが変化可能な様々な証券をカバーする場合、トレーニングする時に画像識別モデルは、これらの条件下で特徴表現を抽出する能力を学習する可能性が高く、パラメーターセットの値がより正確になる。従って、本開示において、トレーニング効果およびサンプル取得コストのバランスをとるために、標識がない画像およびテキストの説明を有する画像を同時に使用することは、モデルのトレーニングに有利する。

図２は、本開示のいくつかの実施例によるセマンティック増強に基づく画像識別モデルのトレーニング方法２００のフローチャートを示す。トレーニング方法２００は、図１におけるコンピューティングデバイス１１０によって実装することができる。

ブロック２０２において、コンピューティングデバイス１１０は、標識がなくかつテキストの説明がない入力された第１の画像から、第１の画像の第１の特徴表現を抽出する。当該第１の特徴表現は、例えば、画像１２０に含まれる歩行者１２２および自動車１２４であってもよい。しかし、画像１２０は標識がないため、歩行者１２２および自動車１２４は、対応するテキストの説明を有さない。

いくつかの実施例において、第１の画像の第１の特徴表現を抽出することは、まず画像増強によって第１の画像の増強画像ペアを生成し、次に増強画像ペアからそれぞれ特徴表現を抽出することができる。本明細書において、「増強画像ペア」とは、一つの元の画像に基づいて異なる増強方法で生成された二つの増強後の画像を指す。増強方法は、例えば、画像のグレースケール、明るさ、コントラスト等の属性に対する処理および平滑化を含み、それによって画像の鮮明度を向上する。

ブロック２０４において、コンピューティングデバイス１１０は、抽出された第１の特徴表現に基づいて、第１の損失関数を計算する。

いくつかの実施例において、第１の損失関数を計算することは、増強画像ペアから抽出された特徴表現に基づいて、第１の損失関数を計算することができる。

ブロック２０６において、コンピューティングデバイス１１０は、標識がなくかつ元のテキストの説明を有する入力された第２の画像から、第２の画像の第２の特徴表現を抽出する。標識がなくかつ元のテキストの説明を有するこのような画像は、例えば、データマイニングによって取得できるため、手動で標識を付する必要はない。例えば、第２の特徴表現は、画像１３０における歩行者１３２および自動車１３４であってもよく、元のテキストの説明は、図１３０に対応する説明１３６、即ち、「歩行者が道路脇に駐車された自動車を通る」ことであってもよい。

ブロック２０８において、コンピューティングデバイス１１０は、抽出された第２の特徴表現に基づいて、第２の損失関数を計算する。

いくつかの実施例において、第２の損失関数を計算することは、まず第２の画像の第２の特徴表現から予測テキストの説明を生成し、次に予測テキストの説明および元のテキストの説明に基づいて、第２の損失関数を計算することができる。例えば、画像－言語翻訳機を使用して予測テキストの説明を取得することができる。図１に示される場合、このような「予測テキストの説明」は、「人」、「歩行者」、「通行人」、「車両」、「自動車」、「自動車両」等の単語またはそれらの組み合わせであってもよく、「人および自動車」、「人が自動車の横にいる」、「人が自動車を通る」等のフレーズであってもよく、「歩行している人および止められた自動車」等の修飾子を有する記述であってもよい。例えば、様々なアルゴリズムに基づいて、予測テキストの説明と元のテキストの説明との間の類似性を評価して、第２の損失関数を計算することができる。

ブロック２１０において、コンピューティングデバイス１１０は、第１の損失関数と第２の損失関数との融合に基づいて、画像識別モデルをトレーニングする。「融合」は、例えば、二つの関数の線形結合であり得る。

いくつかの実施例において、第１の損失関数と第２の損失関数との融合は、特定の重みで第１の損失関数および第２の損失関数を積み重ねる。二つの損失関数の重みは、同じでも異なってもいてもよい。

図３は、本開示の複数の実施例を実装することができるセマンティック増強に基づく画像識別モデルをトレーニングするためのアーキテクチャ３００を示す。アーキテクチャ３００は、標識がない画像に基づく自己監視型トレーニングブランチおよびテキストの説明を有する画像に基づく言語監視型トレーニングブランチを含む。本開示の実施例において、自己監視型トレーニングと言語監視型トレーニングとの二つのブランチの融合により、異種視覚トレーニングを実装し、最終的に高レベルのセマンティッカ情報を有する視覚的特徴表現を取得することができる。

図３の左側の自己監視型トレーニングブランチにおいて、入力されたのは、多数の標識がない画像３１０で構成されたデータセットである。データセット中の画像ごとに、画像増強によって二つの幅増強画像３２０、３２２を生成する。次に、増強画像３２０、３２２は、特徴抽出器に入力されて、それぞれ抽出して視覚的特徴表現３３０、３３２を取得する。複数の標識がない画像３１０中の同じ標識がない画像からの特徴表現は、一対の正のサンプルとして定義され、複数の標識がない画像３１０中の異なる標識がない画像からの特徴表現は、一対の負のサンプルとして定義される。

いくつかの実施例において、特徴抽出部分は、畳み込みニューラルネットワーク（ＣＮＮ）に基づくモデルを利用して、画像の特徴抽出を実装する。ＣＮＮに基づくモデルにおいて、隠れ層は、通常入力に対して畳み込み操作を実行する一つまたは複数の畳み込み層を含む。畳み込み層に加えて、ＣＮＮに基づくモデル中の隠れ層は、励起関数を使用して入力に対して非線形マッピングを実行する一つまたは複数の励起層を含むこともできる。一般的に使用される励起関数は、例えば、修正線形ユニット（ＲｅＬｕ）、ｔａｎｈ関数等を含む。いくつかのモデルにおいて、一つまたは複数の畳み込み層の後に一つの励起層が接続される可能性がある。さらに、ＣＮＮに基づくモデル中の隠れ層は、データおよびパラメーターの量を圧縮して過剰適合を減少させるためのプーリング（ｐｏｏｌｉｎｇ）層を含むこともできる。プーリング層は、最大プーリング（ｍａｘｐｏｏｌｉｎｇ）層、平均プーリング（ａｖｅｒａｇｅｐｏｏｌｉｎｇ）層等を含むことができる。プーリング層は、連続する畳み込み層の中間に接続されることができる。さらに、ＣＮＮに基づくモデルは、完全接続層を含むことができ、完全接続層は、通常、出力層の上流に設置される。

ＣＮＮに基づくモデルは、深層学習の分野でよく知られている技術であり、ここでは繰り返さない。異なるモデルにおいて、畳み込み層、励起層および／またはプーリング層のそれぞれの数、各層の処理ユニットの数および構成、ならびに各層の間の相互接続関係は、異なる変化を有することができる。いくつかの例において、ＲｅｓＮｅｔ－５０、ｉｎｃｅｐｔｉｏｎ＿ｖ３、ＧｏｏｇｌｅＮｅｔ等のＣＮＮ構造を利用して、画像の特徴抽出を実装することができる。もちろん、現在使用されているまたは将来開発される様々なＣＮＮ構造は、画像の特徴表現を抽出するために使用されることができることを理解されたい。本開示の実施例の範囲は、この態様に関しては制限されない。

いくつかの実施例において、画像識別モデルは、リカレントニューラルネットワーク（ＲＮＮ）に基づくモデルを使用して実装することができる。ＲＮＮに基づくモデルにおいて、隠れ層の出力は、入力に関連するだけでなく、隠れ層の前の瞬間の出力にも関連する。ＲＮＮに基づくモデルは、記憶機能を有して、モデルの前（前のモーメント）の出力を記憶し、フィードバックを実行して現在の入力とともに現在のモーメントの出力を生成できる。隠れ層の中間出力は、中間状態または中間処理結果と呼ばれることもある。従って、隠れ層の最終出力は、現在の入力と過去の記憶との合計の処理結果と見なすことができる。ＲＮＮに基づくモデルが使用できる処理ユニットは、例えば、長短期記憶（ＬＳＴＭ）ユニット、ゲート付き回帰ユニット（ＧＲＵ）等を含む。ＲＮＮに基づくモデルは、深層学習の分野でよく知られている技術であり、ここでは繰り返さない。選択されたリカレントアルゴリズムの異なりに応じて、ＲＮＮに基づくモデルは、異なる変形を有することができる。現在使用されているか、または将来開発される様々なＲＮＮ構造は、いずれも本開示の実施例に使用されることができることを理解されたい。

複数の標識がない画像３１０の正および負のサンプルペアに基づいて、自己監視型トレーニングブランチの第１の損失関数（対照損失関数とも呼ばれる）を計算することができる。例えば、ＩｎｆｏＮＣＥを対照損失関数として使用することができる。

式１：

ここで、Ｉ_{［ｋ≠ｉ］}は、評価インデックス関数を示し、ｋがｉに等しくない場合は、１であり、かつｋがｉに等しい場合は、０であり、Ｋは、トレーニングデータセット中の標識がない画像の総数を表し、Ｉ_ｉ ^１およびＩ_ｉ ^２は、トレーニングデータセット中の標識がない任意の画像Ｉ_ｉに対して画像増強を実行することによって二つの増強画像を取得することを表し、ｆ_ｉ ^１およびｆ_ｉ ^２は、Ｉ_ｉ ^１およびＩ_ｉ ^２からそれぞれ抽出された特徴表現を表し、一対の正のサンプルとして定義され、Ｉ_ｋ ^１およびＩ_ｋ ^２は、トレーニングデータセット中の標識がない別の画像Ｉ_ｋに対して画像増強を実行することによって二つの増強画像を取得することを表し、ｆ_ｋ ^１およびｆ_ｋ ^２は、Ｉ_ｋ ^１およびＩ_ｋ ^２からそれぞれ抽出された特徴表現を表し、異なる画像からの特徴表現ｆ_ｉ ^ｘおよびｆ_ｋ ^ｙは、一対の負のサンプルとして定義され、τは、温度パラメーターを表し、τが減少する場合、元の差が増幅され、差がより鮮明にかつ明白になる。

図３の右側の言語監視型トレーニングブランチにおいて、入力されたのは、元のテキストの説明を有する多数の画像３１２で構成されたデータセットであり、それは、画像部分３２４およびテキストの説明部分３２６を含む。画像３１２中のテキストの説明は、手動で標識を付する必要がなく、データマイニングを介してネットワーク中から取得することができる。このようなテキストの説明は、画像に関連するより豊富なセマンティッカ情報を提供することができ、画像のクラスラベルおよびバウンディングボックスの標識よりも簡単に収集することができる。特徴抽出器は、画像３１２の画像部分３２４から抽出して特徴表現３３４を取得する。

次に、当該特徴表現３３４は、画像－言語翻訳機に入力されることにより、予測テキストの説明３４０を取得する。具体的には、翻訳機は、注意力に基づくメカニズムを利用して、各時間段階で空間的に重み付けされたコンテキストベクトルを集約することができ、ＲＮＮデコーダーを利用して、各空間位置での前のデコーダーの状態と視覚的特徴との間の注意力の重みを計算する。重み付けされた２Ｄ特徴を合計して、最新のコンテキストベクトルを取得し、最新のデコーダー状態および予測単語を生成する。

例えば、ＲｅｓＮｅｔ－５０をモデル構造として使用する場合、各段階でのｓｏｆｔ－ｍａｘによって予測単語の確率を出力する。図３に示されるように、視覚的特徴表現３３４ｇ_ｉを入力として使用し、注意力に基づくメカニズムを利用して、空間的特徴を単語シーケンスｙ＝｛ｙ_ｔ｝ｔ＝１^Ｔに変換するために使用され、ここで、ｙ_ｔおよびＴは、それぞれ埋め込み単語および文ｙの長さである。時間段階ｔでのデコードプロセスにおいて、注意力メカニズムおよびＲＮＮデコーダーを利用して隠れ状態ｈ_ｔを更新し、ｙ_ｔ－１を入力として指定して、単語ｙ_ｔを予測する。次に完全接続層およびｓｏｆｔ－ｍａｘ損失関数を使用して、出力ｙ_ｔの確率を計算する。画像から言語への翻訳のための第２の損失関数（監視損失関数Ｌｓとも呼ばれる）は、次のように定義することができる。

式２：

ここで、ｃ_ｔは、注意力メカニズムによって計算される時間段階ｔでのコンテキストベクトルを表し、ｇ_ｉは、画像２１２の画像部分２２４から抽出された視覚的特徴表現を表し、ｙ_ｔは、埋め込み単語の長さを表し、Ｔは、文ｙの長さを表し、ｈ_ｔは、時間段階ｔでのデコードプロセス中の隠れ状態を表し、ここで、入力としてｙ_ｔ－１が与えられる場合、画像部分２２４に関連する単語ｙ_ｔが予測される。

最後に、エンドツーエンドの方法で二つのブランチをトレーニングするために、本開示の実施例は、二つのトレーニングブランチの損失関数を融合し、例えば、視覚トレーニングブロックフレームワーク全体の最終損失関数は、次のように定義されることができる。

式３：

ここで、αは、自己監視型トレーニングブランチの対照損失ＬＣおよび言語監視型トレーニングブランチの監視損失Ｌｓを融合するためのパラメーターを表す。

本開示の実施例は、標識がない画像およびテキストの説明を有する画像を同時に使用してトレーニングして、セマンティッカ情報を有する特徴表現を取得することにより、標識がない画像のみを使用してトレーニングする方法と比較して、セマンティック増強を達成する。トレーニング画像のタイプが多様であるため、トレーニングされた画像識別モデルのロバストネスがより高く、性能がより良い。このようなモデルは、特徴表現を具体的なセマンティッカ情報と相関させることにより、様々なシナリオでの画像処理タスクをより正確に実行することができる。

本開示のモデルアーキテクチャを説明するために使用される上記の式およびモデルのタイプは、すべて例示的なものであり、損失関数の定義にも、他の変形が存在することができ、本開示の実施例の範囲は、この態様で制限されないことを理解されたい。

図４は、本開示のいくつかの実施例による画像識別のための方法４００のフローチャートを示す。方法４００は、図１におけるコンピューティングデバイス１１０によって実装される。

ブロック４０２において、コンピューティングデバイス１１０は、被識別画像を取得する。ブロック４０４において、コンピューティングデバイス１１０は、画像識別モデルに基づいて、被識別画像を識別し、ここで、画像識別モデルは、トレーニング方法２００に基づいて取得される。

図５は、本開示のいくつかの実施例によるセマンティック増強に基づく画像識別モデルのトレーニング装置５００のブロック図を示す。トレーニング装置５００は、図１のコンピューティングデバイス１１０に含まれるか、またはコンピューティングデバイス１１０として実装されることができる。

図５に示されるように、トレーニング装置５００は、標識がなくかつテキストの説明がない入力された第１の画像から、第１の画像の第１の特徴表現を抽出するように構成される、第１の特徴抽出モジュール５０２を含む。トレーニング装置５００は、第１の特徴表現に基づいて、第１の損失関数を計算するように構成される、第１の計算モジュール５０４をさらに含む。トレーニング装置５００は、標識がなくかつ元のテキストの説明を有する入力された第２の画像から、第２の画像の第２の特徴表現を抽出するように構成される、第２の特徴抽出モジュール５０６をさらに含む。トレーニング装置５００は、第２の特徴表現に基づいて、第２の損失関数を計算するように構成される、第２の計算モジュール５０８をさらに含む。トレーニング装置５００は、第１の損失関数と第２の損失関数との融合に基づいて、画像識別モデルをトレーニングするように構成される、融合トレーニングモジュール５１０をさらに含む。

いくつかの実施例において、融合トレーニングモジュールは、特定の重みで第１の損失関数および第２の損失関数に対して積み重ねるように構成されることもできる。

いくつかの実施例において、第１の特徴抽出モジュールは、画像増強により第１の画像の増強画像ペアを生成し、増強画像ペアからそれぞれ特徴表現を抽出するように構成されることもできる。

いくつかの実施例において、第１の計算モジュールは、増強画像ペアから抽出された特徴表現に基づいて、第１の損失関数を計算するように構成されることもできる。

いくつかの実施例において、第２の計算モジュールは、第２の画像の第２の特徴表現から予測テキストの説明を生成し、予測テキストの説明および元のテキストの説明に基づいて、第２の損失関数を計算するように構成されることもできる。

図６は、本開示のいくつかの実施例による画像識別のための装置６００のブロック図を示す。装置６００は、図１のコンピューティングデバイス１１０に含まれるか、またはコンピューティングデバイス１１０として実装されることができる。

図６に示されるように、装置６００は、被識別画像を取得するように構成される、画像取得モジュール６０２を含む。装置６００は、画像識別モデルに基づいて、被識別画像を識別するように構成される、画像識別モジュール６０４をさらに含み、ここで、画像識別モデルは、トレーニング装置５００に基づいて取得される。

図７は、本開示の実施例を実施するために使用されることができる例示的なデバイス７００の例示的なブロック図を示す。デバイス７００は、図１のコンピューティングデバイス１１０を実装するために使用されることができる。図面に示されるように、デバイス７００は、コンピューティングユニット７０１を含み、それは、読み取り専用メモリ（ＲＯＭ）７０２に記憶されるか、または記憶ユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされるコンピュータープログラム命令に従って、様々な適切な行為および処理を実行することができる。ＲＡＭ７０３において、デバイス７００の操作に必要な様々なプログラムおよびデータをさらに記憶することができる。コンピューティングユニット７０１、ＲＯＭ７０２およびＲＡＭ７０３は、バス７０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース７０５も、バス７０４に接続される。

デバイス７００の複数の部品がＩ／Ｏインターフェース７０５に接続され、例えば、キーボード、マウス等の入力ユニット７０６、様々なタイプのディスプレイ、スピーカー等の出力ユニット７０７、磁気ディスク、光ディスク等の記憶ユニット７０８、ならびにネットワークカード、モデム、無線通信トランシーバ等の通信ユニット７０９を含む。通信ユニット７０９は、デバイス７００が、インターネットのコンピューターネットワークおよび／または様々な電気通信ネットワーク等の他のデバイスを介して情報／データを交換することを可能にする。

コンピューティングユニット７０１は、処理およびコンピューティング能力を有する様々な汎用および／または専用処理コンポーネントであり得る。コンピューティングユニット７０１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、様々な専用人工知能（ＡＩ）コンピューティングチップ、機械学習モデルアルゴリズムを実行する様々なコンピューティングユニット、デジタルシグナルプロセッサ（ＤＳＰ）、ならびに任意な適切なプロセッサ、コントローラ、マイクロコントローラ等を含むがこれらに限定されない。コンピューティングユニット７０１は、上記で説明された様々な方法および処理、例えば、方法５００を実行する。例えば、いくつかの実施例において、方法５００は、記憶ユニット７０８等の機械可読媒体上に具体的に含まれるコンピューターソフトウェアプログラムとして実装されることができる。いくつかの実施例において、コンピュータープログラムの一部または全部は、ＲＯＭ７０２および／または通信ユニット７０９を介して、デバイス７００にロードおよび／またはインストールされることができる。コンピュータープログラムがＲＡＭ７０３にロードされかつコンピューティングユニット７０１によって実行される場合、上記で説明された方法５００の一つまたは複数の段階を実行することができる。選択可能に、他の実施例において、コンピューティングユニット７０１は、他の任意の適切な方法で（例えば、ファームウェアによって）方法５００を実行するように構成されることができる。

本明細書において、上記で説明された機能は、少なくとも部分的に、一つまたは複数のハードウェア論理部品によって実行されることができる。例えば、非限定的には、使用できる例示的なタイプのハードウェアロジック部品は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）等を含む。

本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせでコードすることができる。これらのプログラムコードは、汎用コンピューター、専用コンピューターまたは他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供して、プロセッサまたはコントローラによって実行される際に、プログラムコードがフローチャートおよび／またはブロック図に規定された機能／操作を実行させる。プログラムコードは、完全に機器で、一部の機器で、独立したソフトウェアパッケージとしての一部の機器で、部分的にリモート機器で、または完全にリモート機器で、またはサーバーで実行されることができる。

本開示のコンテキストにおいて、機械可読媒体は、有形媒体であってもよく、それは、命令実行システム、装置、デバイスによって使用されるか、または命令実行システム、装置、デバイスに結合して使用されるためのプログラムを含むかまたは記憶することができる。機械可読媒体は、機器可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、または半導体システム、装置またはデバイス、または上記の内容の任意の組み合わせを含むことができるがこれらに限定されない。機械可読記憶媒体のより具体的な例としては、一つまたは複数のワイヤに基づく電気的接続、ポータブルコンピューターディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光ストレージデバイス、磁気ストレージデバイス、または上記の内容の任意の組み合わせを含むことができる。

さらに、特定の順序で操作を示したが、これは、そのような操作が示される特定の順序または連続した順序で実行されること、あるいは望ましい結果を達成するためにすべての示される操作が実行されるべきであることを要求することを理解されるべきである。一定の環境下で、マルチタスクおよび並列処理は、有利な場合がある。同様に、上記の議論は、いくつかの実装固有の詳細を含むが、これらは、本開示の範囲に対する制限として解釈されるべきでない。別個の実施例のコンテキストで説明された特定の特徴は、単一の実装で組み合わせて実装することができる。逆に、単一の実装のコンテキストで説明された様々な特徴は、複数の実装で、別個にまたは任意の適切なサブ組み合わせで実装することもできる。

構造的特徴および／または方法の論理的行為に固有の言語で主題を説明したが、添付の特許請求の範囲で定義される主題は、必ずしも上記の特定の特徴または行為に限定されないことを理解されたい。むしろ、上記で説明された特定の特徴および行為は、特許請求を実施するための単なる例示的な形態である。

Claims

セマンティック増強に基づく画像識別モデルのトレーニング方法であって、
標識がなくかつテキストの説明がない入力された第１の画像から、前記第１の画像の第１の特徴表現を抽出する段階と、
前記第１の特徴表現に基づいて、第１の損失関数を計算する段階と、
標識がなくかつ元のテキストの説明を有する入力された第２の画像から、前記第２の画像の第２の特徴表現を抽出する段階と、
前記第２の特徴表現に基づいて、第２の損失関数を計算する段階と、
前記第１の損失関数と前記第２の損失関数との融合に基づいて、画像識別モデルをトレーニングする段階と
を含んでなることを特徴とする、セマンティック増強に基づく画像識別モデルのトレーニング方法。
前記第１の損失関数と前記第２の損失関数との融合は、特定の重みで前記第１の損失関数および前記第２の損失関数に対して積み重ねることを含むことを特徴とする、請求項１に記載のセマンティック増強に基づく画像識別モデルのトレーニング方法。
前記第１の画像の第１の特徴表現を抽出する段階は、
画像増強によって前記第１の画像の増強画像ペアを生成する段階と、
前記増強画像ペアからそれぞれ特徴表現を抽出する段階と
を含むことを特徴とする、請求項１に記載のセマンティック増強に基づく画像識別モデルのトレーニング方法。
第１の損失関数を計算する段階は、
前記増強画像ペアから抽出された特徴表現に基づいて、前記第１の損失関数を計算する段階を含むことを特徴とする、請求項３に記載のセマンティック増強に基づく画像識別モデルのトレーニング方法。
第２の損失関数を計算する段階は、
前記第２の画像の第２の特徴表現から予測テキストの説明を生成する段階と、
前記予測テキストの説明および前記元のテキストの説明に基づいて、前記第２の損失関数を計算する段階と
を含むことを特徴とする、請求項１に記載のセマンティック増強に基づく画像識別モデルのトレーニング方法。
画像識別のための方法であって、
被識別画像を取得する段階と、
画像識別モデルに基づいて、前記被識別画像を識別する段階と
を含み、
ここで、前記画像識別モデルは、請求項１～５のいずれか一項に記載のセマンティック増強に基づく画像識別モデルのトレーニング方法に基づいて得られることを特徴とする、画像識別のための方法。
セマンティック増強に基づく画像識別モデルのトレーニング装置であって、
標識がなくかつテキストの説明がない入力された第１の画像から、前記第１の画像の第１の特徴表現を抽出するように構成される第１の特徴抽出モジュールと、
前記第１の特徴表現に基づいて、第１の損失関数を計算するように構成される第１の計算モジュールと、
標識がなくかつ元のテキストの説明を有する入力された第２の画像から、前記第２の画像の第２の特徴表現を抽出するように構成される第２の特徴抽出モジュールと、
前記第２の特徴表現に基づいて、第２の損失関数を計算するように構成される第２の計算モジュールと、
前記第１の損失関数と前記第２の損失関数との融合に基づいて、画像識別モデルをトレーニングするように構成される融合トレーニングモジュールと
を含んでなることを特徴とする、セマンティック増強に基づく画像識別モデルのトレーニング装置。
前記融合トレーニングモジュールは、
特定の重みで前記第１の損失関数および前記第２の損失関数に対して積み重ねるようにさらに構成されることを特徴とする、請求項７に記載のセマンティック増強に基づく画像識別モデルのトレーニング装置。
前記第１の特徴抽出モジュールは、
画像増強によって前記第１の画像の増強画像ペアを生成し、
前記増強画像ペアからそれぞれ特徴表現を抽出する
ようにさらに構成されることを特徴とする、請求項７に記載のセマンティック増強に基づく画像識別モデルのトレーニング装置。
前記第１の計算モジュールは、
前記増強画像ペアから抽出された特徴表現に基づいて、前記第１の損失関数を計算するようにさらに構成されることを特徴とする、請求項９に記載のセマンティック増強に基づく画像識別モデルのトレーニング装置。
前記第２の計算モジュールは、
前記第２の画像の第２の特徴表現から予測テキストの説明を生成し、
前記予測テキストの説明および前記元のテキストの説明に基づいて、前記第２の損失関数を計算する
ようにさらに構成されることを特徴とする、請求項７に記載のセマンティック増強に基づく画像識別モデルのトレーニング装置。
画像識別のための装置であって、
被識別画像を取得するように構成される画像取得モジュールと、
画像識別モデルに基づいて、前記被識別画像を識別するように構成される画像識別モジュールと
を含んでなり、
ここで、前記画像識別モデルは、請求項７～１１のいずれか一項に記載のセマンティック増強に基づく画像識別モデルのトレーニング装置に基づいて得られることを特徴とする、画像識別のための装置。
電子デバイスであって、
前記デバイスは、
一つまたは複数のプロセッサと、
一つまたは複数のプログラムを記憶するための記憶装置とを含み、前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサによって実行される場合、前記一つまたは複数のプロセッサは、請求項１～６のいずれか一項に記載の方法を実装するものであることを特徴とする、前記電子デバイス。
コンピューター可読記憶媒体であって、
コンピュータープログラムが記憶され、前記コンピュータープログラムがプロセッサによって実行される場合、請求項１～６のいずれか一項に記載の方法を実装することを特徴とする、コンピューター可読記憶媒体。
コンピュータープログラムであって、
前記コンピュータープログラムがプロセッサによって実行されると、請求項１～６のいずれか一項に記載の方法を実現させるコンピュータープログラム。