JP6689461B2

JP6689461B2 - 画像キャプション生成のための空間的注目モデル

Info

Publication number: JP6689461B2
Application number: JP2019526275A
Authority: JP
Inventors: ルー，ジアセン; ション，カイミング; ソーチャー，リチャード
Original assignee: セールスフォースドットコムインコーポレイティッド
Priority date: 2016-11-18
Filing date: 2017-11-18
Publication date: 2020-04-28
Anticipated expiration: 2037-11-18
Also published as: US20200057805A1; JP6946508B2; EP3869416A1; EP3542314A1; CN110168573A; US10846478B2; US10558750B2; US20200117854A1; US10565305B2; US20180143966A1; JP2019537147A; US20180144248A1; CN110168573B; US20180144208A1; US10565306B2; EP3542314B1; JP2020123372A; CA3128692A1; US11244111B2; CA3040165A1

Description

関連出願への相互参照
本願は2016年11月18日に出願された「SPATIAL ATTENTION MODEL FOR IMAGE CAPTIONING」と題する米国仮特許出願第62/424,353号（代理人整理番号SALE1184-1/1950PROV）の利益を主張するものである。この優先権仮出願はここに参照によってあらゆる目的について組み込まれる。

本願は2017年11月17日に出願された「SPATIAL ATTENTION MODEL FOR IMAGE CAPTIONING」と題する米国非仮特許出願第15/817,153号（代理人整理番号SALE1184-2/1950US1）の利益を主張するものである。この優先権仮出願はここに参照によってあらゆる目的について組み込まれる。

本願は2017年11月17日に出願された「ADAPTIVE ATTENTION MODEL FOR IMAGE CAPTIONING」と題する米国非仮特許出願第15/817,161号（代理人整理番号SALE1184-2/1950US2）の利益を主張するものである。この優先権仮出願はここに参照によってあらゆる目的について組み込まれる。

本願は2017年11月18日に出願された「SENTINEL LONG SHORT-TERM MEMORY (Sn-LSTM)」と題する米国非仮特許出願第15/817,165号（代理人整理番号SALE1184-2/1950US3）の利益を主張するものである。この優先権仮出願はここに参照によってあらゆる目的について組み込まれる。

本願は2017年1月31日に出願された「POINTER SENTINEL MIXTURE MODELS」と題する米国非仮特許出願第15/421,016号（代理人整理番号SALE1174-4/1863US）をあらゆる目的について参照によって組み込む。

本願は2016年11月4日に出願された「QUASI-RECURRENT NEURAL NETWORK」と題する米国非特許出願第62/417,334号（代理人整理番号SALE1174-3/1863PROV3）をあらゆる目的について参照によって組み込む。

本願は2017年1月31日に出願された「QUASI-RECURRENT NEURAL NETWORK」と題する米国非仮特許出願第15/420,710号（代理人整理番号SALE1180-3/1946US）をあらゆる目的について参照によって組み込む。

本願は2016年11月4日に出願された「QUASI-RECURRENT NEURAL NETWORK」と題する米国非特許出願第62/418,075号（代理人整理番号SALE1180-2/1946PROV2）をあらゆる目的について参照によって組み込む。

開示される技術の分野
開示される技術は、人工知能型コンピュータおよびデジタル・データ処理システムならびに知性のエミュレーションのための対応するデータ処理方法およびプロダクトに関するものであり（すなわち、知識ベースのシステム、推論システムおよび知識収集システム）、不確定性のある推論のためのシステム（たとえばファジー論理システム）、適応システム、機械学習システムおよび人工ニューラルネットワークを含む。開示される技術は概括的には、新規の視覚的注目ベースのエンコーダ‐デコーダ画像キャプション生成モデルに関する。開示される技術の一つの側面は、画像キャプション生成の間に空間的画像特徴を抽出するための新規の空間的注目モデルに関する。空間的注目モデル（spatial attention model）は、以前の隠れ情報または以前に放出された語を使うのではなく、注目を案内するためにデコーダの長短期記憶（LSTM: long short-term memory）の現在の隠れ状態情報を使う。開示される技術のもう一つの側面は、畳み込みニューラルネットワーク（CNN: convolutional neural network）からの視覚的情報およびLSTMからの言語情報を混合する画像キャプション生成のための新規の適応的な注目モデルに関する。各時間ステップにおいて、適応注目モデルは、次のキャプション語を発するために、どのくらい強く、言語モデルではなく画像に依存するかを自動的に決定する。開示される技術のさらにもう一つの側面は、LSTMアーキテクチャーに新たな補助センチネル・ゲートを追加し、センチネルLSTM（Sn-LSTM: sentinel LSTM）を生成することに関する。センチネル・ゲートは、各時間ステップにおいて視覚センチネルを生成し、該視覚センチネルは、LSTMの記憶から導出される、長期および短期の視覚的および言語的情報の追加的な表現である。

本節で論じられる主題は、単に本節における言及の結果として従来技術であると想定されるべきではない。同様に、本節において言及されるまたは背景として提供される主題に関連する問題は、従来技術において以前に認識されていたと想定されるべきではない。本節の主題は単に種々の手法を表わすものであり、かかる手法自身も特許請求される技術の実装に対応することができる。

画像キャプション生成（image captioning）は、コンピュータビジョンおよび機械学習においてますます関心を集めつつある。基本的には、画像キャプション生成は、自然言語文を使って画像の内容を自動的に記述することを機械に要求する。このタスクは人間にとっては自明に思えるが、オブジェクトの運動およびアクションといった画像内のさまざまな内容的な特徴を言語モデルが捉えることを要求するので、機械にとっては複雑である。画像キャプション生成、特に生成モデルについてのもう一つの困難は、生成された出力が人間的な自然文であるべきである、ということである。

機械学習における深層ニューラルネットワークの近年の成功は、画像キャプション生成の問題を解決することにおけるニューラルネットワークの採用の触媒となった。その発想は、ニューラル機械翻訳におけるエンコーダ‐デコーダ・アーキテクチャーに由来する。該アーキテクチャーでは、入力画像を特徴ベクトルにエンコードするために畳み込みニューラルネットワーク（CNN）が採用され、シーケンス・モデリング手法（たとえば長短期記憶（LSTM））が特徴ベクトルを単語のシーケンスにデコードする。

画像キャプション生成におけるたいていの近年の業績は、この構造に依拠し、画像案内、属性、領域注目またはテキスト注目を注目ガイドとして利用する。図２Ａは、注目を案内し、画像キャプションを生成するために以前の隠れ状態情報を使う注目進み型デコーダ（attention leading decoder）を示している（従来技術）。

よって、注目ベースの画像キャプション生成モデルの性能を改善する機会が生じる。

画像についてのキャプションを自動的に生成することは、学術界および産業界の両方において顕著な学際的な研究課題として登場している。それにより、視覚障害のあるユーザーを補助することができ、ユーザーが大量の典型的には構造化されていない視覚的データを整理し、ナビゲートすることを容易にする。高品質のキャプションを生成するためには、画像キャプション生成モデルは、画像から粒度の細かい視覚的手がかりを取り込む必要がある。近年、視覚的な注目ベースのニューラル・エンコーダ‐デコーダ・モデルが研究されており、該モデルでは、注目機構は典型的には、それぞれの生成される語に関連性のある画像領域をハイライトする空間的マップを生成する。

画像キャプション生成および視覚的質問回答のためのたいていの注目モデルは、次にどの語が発されるかにかかわりなく、すべての時間ステップにおいて画像に注意を払う。しかしながら、キャプションにおけるすべての語が対応する視覚的信号をもつわけではない。画像およびその生成されたキャプション「a white bird perched on top of a red top sign」〔白い鳥が赤い停止標識の上に止まった〕を示す図１６の例を考える。単語「a」および「of」は対応する正準的な視覚的信号をもたない。さらに、言語的な相関のため、「perched」〔止まった〕に続く「on」および「top」ならびに「a red stop」〔赤い停止〕に続く「sign」〔標識〕のような単語を生成するときには、視覚的信号は不要になる。さらに、非視覚的な単語でのトレーニングは、キャプションの生成において、より悪い性能につながることがある。非視覚的な単語からの勾配が、ミスリーディングになり、キャプション生成プロセスを案内することにおいて視覚的信号の全体的な有効性を減じることがありうるからである。

よって、注目ベースの視覚的ニューラル・エンコーダ‐デコーダ・モデルによるキャプション生成の間に目標画像に与えられるべき重要度を決定する機会が生じる。

深層ニューラルネットワーク（DNN: deep neural network）は、発話および視覚を含む多くの分野で応用されて成功を収めている。自然言語処理タスクについては、回帰型ニューラルネットワーク（RNN: recurrent neural network）が、長期依存性を記憶できるため、広く使われている。RNNを含む深層ネットワークをトレーニングすることの問題は、勾配減少（gradient diminishing）と爆発（explosion）である。長短期記憶（LSTM）ニューラルネットワークは、この問題を解決するRNNの拡張である。LSTMでは、記憶セルはその現在の活動およびその過去の活動の線形依存性をもつ。忘却ゲートが、過去と現在の活動の間の情報の流れを変調するために使われる。LSTMでは、その入力および出力を変調するための入力および出力ゲートをももつ。

LSTMにおける出力語の生成は、現在の時間ステップにおける入力と前の隠れ状態とに依存する。しかしながら、LSTMは、現在の入力および前の隠れ状態に加えて補助入力をも出力の条件とするよう構成されてきた。たとえば、画像キャプション生成モデルにおいて、LSTMは、種々の段における言語的な選択に影響するよう、画像特徴によって提供される外部の視覚的情報を組み込む。画像キャプション生成器として、LSTMは入力として、最も最近発されたキャプション語および前の隠れ状態のみならず、キャプション付けされている画像の領域特徴（regional feature）（通例、畳み込みニューラルネットワーク（CNN）における隠れ層の活性化値から導出される）をも取る。次いで、LSTMは画像‐キャプション混合をベクトル化して、このベクトルが次のキャプション語を予測するために使用できるようにするようトレーニングされる。

他の画像キャプション生成モデルは、画像から抽出された外部の意味的情報を、各LSTMゲートへの補助入力として使う。さらに他のテキスト要約および質問回答モデルでは、第一のLSTMによって生成される文書または質問のテキスト・エンコードが第二のLSTMに補助入力として提供される。

補助入力は、視覚的なまたはテキストによる補助的な情報を担う。それは別のLSTMによって外部で生成され、あるいは別のLSTMの隠れ状態から外部で導出されることができる。補助情報は、CNN、多層パーセプトロン、注目ネットワークまたは別のLSTMのような外部源によって提供されることもできる。補助情報は、初期時間ステップにおいて一度だけLSTMに供給されることができ、または各時間ステップにおいて逐次的に供給されることができる。

しかしながら、制御されない補助情報をLSTMに供給することは、劣った結果を生じることがある。LSTMは補助情報からのノイズを利用してしまい、過剰適合（overfit）しやすくなることがあるからである。この問題に対処するために、我々は、次の出力生成のための補助情報の使用をゲーティングし、案内する追加的な制御ゲートをLSTMに導入する。

よって、次の出力生成のためにLSTMに記憶されている補助情報に与えられるべき重要度を決定する補助センチネル・ゲートを含むようLSTMアーキテクチャーを拡張する機会が生じる。

図面において、同様の参照符号は一般に、種々の図を通じて同様の部分を指す。また、諸図面は必ずしも同縮尺ではなく、その代わりに開示される技術の原理を例解することに重点が置かれている。以下の記述では、開示される技術のさまざまな実装が、以下の図面を参照して記述される。

畳み込みニューラルネットワーク（略CNN）を通じて画像を処理して画像の諸領域の画像特徴を生成するエンコーダを示す。

Ａは、前の隠れ状態情報を使って注目を案内し、画像キャプションを生成する注目進み型デコーダを示す（従来技術）。

Ｂは、現在の隠れ状態情報を使って注目を案内し、画像キャプションを生成する注目遅れ型デコーダを開示する。

Ａは、図１のCNNエンコーダによって生成される画像特徴を組み合わせることによって画像についてのグローバル画像特徴を生成するグローバル画像特徴生成器を描く。

Ｂは、高次元埋め込み空間において語をベクトル化する語埋め込み器である。

Ｃは、デコーダへの入力を準備し、提供する入力準備器である。

図６に開示される空間的注目モデルの一部である注目器のモジュールの一つの実装を描く。

開示される技術のさまざまな側面において使われる放出器のモジュールの一つの実装を示す。放出器は、フィードフォワード・ニューラルネットワーク（本稿では多層パーセプトロン（MLP: multilayer perceptron）とも称される）、語彙ソフトマックス（本稿では語彙確率マス生成器（vocabulary probability mass producer）とも称される）および語埋め込み器（本稿では埋め込み器とも称される）を含む。

複数の時間ステップを通じて展開される画像キャプション生成のための開示される空間的注目モデルを示す。図２のＢの注目遅れ型デコーダは、該空間的注目モデルにおいて具現され、それによって実装される。

図６の空間的注目モデルによって適用される空間的注目を使う画像キャプション生成の一つの実装を描く。

センチネル状態を生成する補助センチネル・ゲートを有する開示されるセンチネルLSTM（Sn-LSTM）の一つの実装を示す図である。

図８のSn-LSTMを実装する回帰型ニューラルネットワーク（略RNN）のモジュールの一つの実装を示す図である。

次のキャプション語を発するために、言語的情報ではなく視覚的情報にどのくらい強く依拠するかを自動的に決定する、画像キャプション生成のための開示される適応注目モデルを描いている。図８のセンチネルLSTM（Sn-LSTM）は、デコーダとして、該適応注目モデルにおいて具現され、それによって実装される。

図１２に開示される適応注目モデルの一部である適応注目器のモジュールのある実装を描いている。適応注目器は空間的注目器、抽出器、センチネル・ゲート・マス決定器、センチネル・ゲート・マス・ソフトマックスおよび混合器（本稿では適応コンテキスト・ベクトル生成器または適応コンテキスト生成器とも称される）を有する。前記空間的注目器は、適応比較器、適応注目器ソフトマックスおよび適応凸組み合わせ累積器を有する。

複数の時間ステップを通じて展開される画像キャプション生成のための開示される適応注目モデルを示す。図８のセンチネルLSTM（Sn-LSTM）は、デコーダとして、該適応注目モデルにおいて具現され、それによって実装される。

図１２の適応注目モデルによって適用される適応注目を使う画像キャプション生成の一つの実装を示す図である。

純粋に言語的な情報を処理して、画像のためのキャプションを生成する、開示される視覚封印デコーダの一つの実装である。

画像キャプション生成のための図１４の視覚封印デコーダを使う空間的注目モデルを示す。図１５では、空間的注目モデルは複数の時間ステップを通じて展開される。

開示される技術を使う画像キャプション生成の一例を示す。

開示される技術を使って生成されるいくつかの例示的な画像キャプションおよび画像／空間的注目マップの視覚化を示す。

開示される技術を使って生成される、いくつかの例示的な画像キャプション、語ごとの視覚的基礎付け確率および対応する画像／空間的注目マップを描いている。

開示される技術を使って生成される、いくつかの他の例示的な画像キャプション、語ごとの視覚的基礎付け確率および対応する画像／空間的注目マップを示す。

COCO（common objects in context［コンテキスト中の共通オブジェクト］）データセットに対する、開示される技術のパフォーマンスを示す例示的な順位‐確率プロットである。

Flicker30kデータセットに対する、開示される技術のパフォーマンスを示すもう一つの例示的な順位‐確率プロットである。

COCOデータセットに対する、開示される技術の局在化精度を示す例示的なグラフである。青色のバーは空間的注目モデルの局在化精度を示し、赤色のバーは適応注目モデルの局在化精度を示す。

さまざまな自然言語処理メトリックに基づく、Flicker30kおよびCOCOデータセットに対する、開示される技術のパフォーマンスを示すテーブルである。該メトリックは、BLEU（bilingual evaluation understudy）、METEOR（metric for evaluation of translation with explicit ordering）、CIDEr（consensus-based image description evaluation）、ROUGE-L（recall-oriented understudy for gisting evaluation-longest common subsequence）およびSPICE（semantic propositional image caption evaluation）を含む。

開示される技術が有意な差で新しい先端技術を設定することを示す、公開された先端技術のリーダーボードである。

開示される技術を実装するために使われることのできるコンピュータ・システムの簡略化されたブロック図である。

下記の議論は、開示される技術を当業者が作成し、利用することができるようにするために提示されており、具体的な用途およびその要件のコンテキストで与えられる。開示される実装に対するさまざまな修正が当業者にはすぐに明白になるであろう。本稿で定義される一般原理は、開示される技術の精神および範囲から外れることなく、他の実施形態および用途に適用されてもよい。開示される技術は、示される実装に限定されることは意図されておらず、本稿に開示される原理および特徴と整合する最も広い範囲を与えられるべきである。

下記は、画像キャプション生成のためのニューラル・エンコーダ‐デコーダ・フレームワークの議論であり、開示される注目ベースの画像キャプション生成モデルがそれに続く。

〈画像キャプション生成のためのエンコーダ‐デコーダ・モデル〉
注目ベースの視覚的ニューラル・エンコーダ‐デコーダ・モデルは畳み込みニューラルネットワーク（CNN）を使って入力画像を特徴ベクトルにエンコードし、長短期記憶ネットワーク（LSTM）を使って該特徴ベクトルを語のシーケンスにデコードする。LSTMは、語を生成するために重要な画像領域をハイライトする空間的マップを生成する注目機構に依拠する。注目ベースのモデルは、注目機構への入力として、LSTMの以前の隠れ状態情報または以前に発されたキャプション語（単数または複数）を利用する。

画像および対応するキャプションを与えられると、エンコーダ‐デコーダ・モデルは、次の目的関数を直接最大化する。

上記の式(1)において、θはモデルのパラメータであり、Iは画像であり、y＝{y₁,…,y_t}は対応するキャプションである。連鎖律を使って、同時確率分布の対数尤度は次の順序付けされた条件的確率に分解されることができる。

上記の式(2)によって明白なように、モデル・パラメータへの依存性は便宜上、割愛している。

回帰型ニューラルネットワーク（RNN）をデコーダとして使うエンコーダ‐デコーダ・フレームワークでは、各条件付き確率は次のようにモデル化される。

上記の式(3)において、fはy_tの確率を出力する非線形関数である。チルダ付きのc_tは画像Iから抽出された、時刻tにおける視覚的コンテキスト・ベクトルである。h_tは時刻tにおけるRNNの現在の隠れ状態である。

ある実装では、開示される技術は、RNNのような長短期記憶ネットワーク（LSTM）を使う。LSTMは、バニラRNNのゲーティングされた変形であり、多様なシーケンス・モデリング・タスクに対して先端技術のパフォーマンスを実証している。LSTMの現在の隠れ状態h_tは：
h_t＝LSTM(x_t,h_t-1,m_t-1)
としてモデル化される。

上記の式(4)において、x_tは時刻tにおける現在の入力であり、m_t-1は時刻t−1における以前の記憶〔メモリ〕セル状態である。

コンテキスト・ベクトル〔チルダ付きのc_t〕は、キャプション生成のための視覚的なエビデンスを提供するので、ニューラル・エンコーダ‐デコーダ・フレームワークにおいて重要な因子である。コンテキスト・ベクトルをモデル化する種々の仕方は二つのカテゴリーにはいる：バニラ・エンコーダ‐デコーダおよび注目ベースのエンコーダ‐デコーダ・フレームワークである。第一に、バニラ・フレームワークでは、コンテキスト・ベクトルは、エンコーダのはたらきをする畳み込みニューラルネットワーク（CNN）に依存するだけである。入力画像IはCNNに供給され、CNNが最後の全結合層をグローバル画像特徴として抽出する。生成される諸単語を通じて、コンテキスト・ベクトルは一定のままであり、デコーダの隠れ状態に依存しない。

第二に、注目ベースのフレームワークでは、コンテキスト・ベクトルは、エンコーダおよびデコーダの両方に依存する。時刻tにおいて、隠れ状態に基づいて、デコーダは、画像の特定の諸領域に注目し、CNNの畳み込み層からの空間的画像特徴を使ってコンテキスト・ベクトル

を決定する。注目モデルは、画像キャプション生成のパフォーマンスを有意に改善する。

〈空間的注目モデル〉
少なくとも二つの側面において以前の業績とは異なる画像キャプション生成のための新規な空間的注目モデルを開示する。第一に、我々のモデルは、以前の隠れ状態または以前発された語を使う代わりに、注目を案内するためにデコーダLSTMの現在の隠れ状態情報を使う。第二に、我々のモデルは、注目変化する（attention-variant）画像表現の時間ステップによる信号の代わりに、時間不変なグローバルな画像表現をLSTMに供給する。

我々のモデルの注目機構は、注目を案内するために以前ではなく現在の隠れ状態情報を使う。これは、異なる構造および異なる処理段階を要求する。現在の隠れ状態情報は、画像領域に注目を案内し、ある時間ステップにおいて、注目変化する画像表現を生成するために使われる。現在の隠れ状態情報は、現在の入力および以前の隠れ状態情報を使って、デコーダLSTMによって各時間ステップにおいて計算される。注目機構からの出力がLSTMに供給されるのではなく、LSTMからの情報、現在の隠れ状態が注目機構に供給される。

現在の入力は、以前に発された語（単数または複数）を、エンコーダCNNの画像特徴から決定される時間不変のグローバル画像表現と組み合わせる。デコーダLSTMに供給される最初の現在の入力語は、特殊な開始（<start>）トークンである。グローバルな画像表現は、最初の時間ステップにおいて一度、あるいは一連の時間ステップにおいて繰り返し、LSTMに供給されることができる。

空間的注目モデルは

として定義されるコンテキスト・ベクトルc_tを決定する。

上記の式(5)において、gは、図４の注目器において具現され、それによって実装される注目関数であり、V＝[v₁,…,v_k]、v_i∈R^dは、図１のCNNエンコーダによって生成される画像特徴v₁,…,v_kを含む。各画像特徴は、CNNエンコーダによって生成される、画像の一部または領域に対応するd次元表現である。h_tは図２Ｂに示される、時刻tにおけるLSTMデコーダの現在の隠れ状態である。

CNNエンコーダによって生成される画像特徴V∈R^d×kおよびLSTMデコーダの現在の隠れ状態h_t∈R^dを与えられて、開示される空間的注目モデルはそれらを比較器（図４）およびそれに続く注目器ソフトマックス（図４）を通じて供給して、画像のk個の領域にわたる注目分布

を生成する。

上式(6)および(7)において、1∈R^kはすべての要素が1に設定された一ベクトルである。W_v、W_g∈R^k×dおよびW_h∈R^kは学習されるパラメータである。α∈R^kはV内の画像特徴v₁,…,v_kに対する注目重みであり、α_tは注目重み（本稿では注目確率マスとも称される）を含む注目マップを表わす。図４に示されるように、比較器は、z_tを決定するために、単一層ニューラルネットワークおよび非線形層を有する。

注目分布に基づいて、コンテキスト・ベクトルc_tは凸組み合わせ累積器によって

として得られる。

上記の式(8)において、c_tおよびh_tは、放出器を使う式(3)のようにして次の語y_tを予測するために組み合わされる。

図４に示されるように、注目器は、比較器、注目器ソフトマックス（本稿では注目確率マス生成器とも称される）および凸組み合わせ累積器（本稿ではコンテキスト・ベクトル生成器またはコンテキスト生成器とも称される）を有する。

〈エンコーダ‐CNN〉
図１は、畳み込みニューラルネットワーク（略CNN）を通じて画像を処理して画像の諸領域についての画像特徴V＝[v₁,…,v_k]、v_i∈R^dを生成するエンコーダを示す。ある実装では、エンコーダCNNは事前トレーニングされたResNetである。そのような実装では、画像特徴V＝[v₁,…,v_k]、v_i∈R^dは、ResNetの最後の畳み込み層の空間的特徴出力である。ある実装では、画像特徴V＝[v₁,…,v_k]、v_i∈R^dは2048×7×7の次元をもつ。ある実装では、開示される技術は、k個の格子位置のそれぞれにおける空間的CNN特徴を表わすために、A＝[a₁,…,a_k]、a_i∈R²⁰⁴⁸を使う。これに続いて、いくつかの実装では、グローバル画像特徴生成器が、下記で論じるようにグローバル画像特徴を生成する。

〈注目遅れ型デコーダ‐LSTM〉
図２Ａとは異なり、図２Ｂは、現在の隠れ状態情報h_tを使って注目を案内し、画像キャプションを生成する、開示される注目遅れ型デコーダを示している。注目遅れ型デコーダは、現在の隠れ状態情報h_tを使って、コンテキスト・ベクトルc_tを生成するために画像のどこを見るかを解析する。次いで、デコーダはh_tおよびc_t両方の情報源を組み合わせて、次の語を予測する。生成されたコンテキスト・ベクトルc_tは現在の隠れ状態h_tの残留視覚的情報を具現する。これは、次の語予測のために、現在の隠れ状態の不確定性を減少させる、または情報性を補完する。デコーダが回帰型であり、LSTMベースであり、逐次的に動作するので、現在の隠れ状態h_tは前の隠れ状態h_t-1および現在の入力x_tを具現する。これらが現在の視覚的および言語的コンテキストをなす。注目遅れ型デコーダは、古くなった以前のコンテキスト（図２Ａ）ではなく、この現在の視覚的および言語的コンテキストを使って画像に注目する。換言すれば、画像は、現在の視覚的および言語的コンテキストがデコーダによって決定された後に注目される。すなわち、注目がデコーダより遅れる。これは、より正確な画像キャプションを生成する。

〈グローバル画像特徴生成器〉
図３Ａは、図１のCNNエンコーダによって生成される画像特徴を組み合わせることによって画像についてのグローバル画像特徴を生成するグローバル画像特徴生成器を描いている。グローバル画像特徴生成器はまず、次のようにして予備的なグローバル画像特徴を生成する。

上式(9)において、a^gは、CNNエンコーダによって生成された画像特徴を平均することによって決定される予備的なグローバル画像特徴である。モデル化の便宜上、グローバル画像特徴生成器は、画像特徴ベクトルを次元zdをもつ新たなベクトルに変換するために整流器活性化関数をもつ単一層パーセプトロンを使う。

上式(10)および(11)において、W_aおよびW_bは重みパラメータである。v^gはグローバル画像特徴である。グローバル画像特徴v^gは、逐次的にまたは回帰的に生成されるのではなく、回帰的でない畳み込みされた画像特徴から決定されるので、時間不変である。変換された空間的画像特徴v_iは画像特徴V＝[v₁,…,v_k]、v_i∈R^dをなす。画像特徴の変換は、ある実装によれば、グローバル画像特徴生成器の画像特徴整流器において具現され、それによって実装される。予備的なグローバル画像特徴の変換は、ある実装によれば、グローバル画像特徴生成器のグローバル画像特徴整流器において具現され、それによって実装される。

〈語埋め込み器〉
図３Ｂは、高次元埋め込み空間において語をベクトル化する語埋め込み器である。開示される技術は、デコーダによって予測される語彙語の語埋め込みを生成するために語埋め込み器を使う。w^tは、時刻tにおいてデコーダによって予測される語彙語（vocabulary word）の語埋め込み（word embedding）を表わす。w^t-1は、時刻t−1においてデコーダによって予測された語彙語の語埋め込みを表わす。ある実装では、語埋め込み器は、埋め込み行列E∈R^d×|v|を使って次元性dの語埋め込みw_t-1を生成する。ここで、vは語彙のサイズを表わす。もう一つの実施形態では、語埋め込み器はまず語をワンホット（one-hot）エンコードに変換し、次いでそれを埋め込み行列E∈R^d×|v|を使って連続表現に変換する。さらにもう一つの実装では、語埋め込み器は、GloVeおよびword2vecのような事前トレーニングされた語埋め込みモデルを使って語埋め込みを初期化し、語彙内の各語の固定した語埋め込みを得る。他の実装では、語埋め込み器は、キャラクタ埋め込みおよび／またはフレーズ埋め込みを生成する。

〈入力準備器〉
図３Ｃは、デコーダへの入力を準備し、提供する入力準備器である。各時間ステップにおいて、入力準備器は語埋め込みベクトルw_t-1（直前の時間ステップにおいてデコーダによって予測される）をグローバル画像特徴ベクトルv^gと連結する。連結w_t;v^gが、現在の時間ステップtにおいてデコーダに供給される入力x_tを形成する。w_t-1は最も最近発されたキャプション語を表わす。入力準備器は本稿では連結器とも称される。

〈センチネルLSTM（Sn-LSTM）〉
長短期記憶（LSTM）は、逐次的な入力から逐次的な出力を生成するために時間ステップにおいて繰り返し行使される、ニューラルネットワークにおけるセルである。出力はしばしば隠れ状態と称されるが、これはセルの記憶と混同すべきではない。入力は、以前の時間ステップからの隠れ状態および記憶と、現在の入力である。セルは入力活性化関数、記憶およびゲートをもつ。入力活性化関数は入力を、tanh活性化関数については−1から1のような範囲にマッピングする。ゲートは、記憶を更新し、記憶から隠れ状態出力結果を生成することに適用される重みを決定する。ゲートは忘却ゲート、入力ゲートおよび出力ゲートである。忘却ゲートは記憶を減衰させる。入力ゲートは活性化された入力を減衰した記憶と混合する。出力ゲートは、記憶からの隠れ状態出力を制御する。隠れ状態出力は、入力に直接ラベル付けすることができ、あるいは別のコンポーネントによって処理されて語もしくは他のラベルを発するまたは諸ラベルにわたる確率分布を生成することができる。

現在の入力と直交するという意味で現在の入力とは異なる種類の情報を導入する補助入力がLSTMに加えられることができる。そのような異なる種類の補助入力の追加は、過剰適合および他のトレーニング・アーチファクトにつながることがある。開示される技術はLSTMセル・アーキテクチャーに、隠れ状態出力に加えて、記憶から第二のセンチネル状態出力を生成する新たなゲートを加える。このセンチネル状態出力は、LSTM後のコンポーネントにおいて異なるニューラルネットワーク処理モデルの間の混合を制御するために使われる。たとえば視覚センチネルは、CNNからの視覚的特徴と、予測言語モデルからの語シーケンスとの解析の間の混合を制御する。センチネル状態出力を生成する新たなゲートは「補助センチネル・ゲート」と呼ばれる。

補助入力は、LSTM記憶における累積した補助情報およびセンチネル出力の両方に寄与する。センチネル状態出力は、累積した補助情報のうち、次の出力の予測のために最も有用な部分をエンコードする。センチネル・ゲートは、前の隠れ状態および補助情報を含む現在の入力を整え、整えられた入力を更新された記憶と組み合わせて、センチネル状態出力を生成する。補助センチネル・ゲートを含むLSTMは本稿では「センチネルLSTM（Sn-LSTM）」と称される。

また、Sn-LSTMにおいて累積されるのに先立ち、補助情報はしばしば、−1ないし1の範囲の出力を生成する「tanh」（双曲線正接）関数に通される（たとえばtanh関数がCNNの全結合層に続く）。補助情報の出力範囲と整合するために、補助センチネル・ゲートは、Sn-LSTMの記憶セルの点ごとのtanhをゲーティングする。こうして、記憶されている補助情報の形にマッチするので、tanhが、Sn-LSTMの記憶セルに適用される非線形関数として選択される。

図８は、センチネル状態または視覚センチネルを生成する補助センチネル・ゲートを有する開示されるセンチネルLSTM（Sn-LSTM）の一つの実装を示している。Sn-LSTMは複数の時間ステップのそれぞれにおいて入力を受信する。入力は、少なくとも、現在の時間ステップについての入力x_tと、前の時間ステップからの隠れ状態h_t-1と、現在の時間ステップについての補助入力a_tとを含む。Sn-LSTMは、数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

いくつかの実装では、補助入力a_tは別個に提供されるのではなく、前の隠れ状態h_t-1および／または入力x_tの中で補助情報としてエンコードされる（たとえばグローバル画像特徴v^g）。

補助入力a_tは、画像データを含む視覚的な入力であることができ、前記入力は、最も最近発された語および／またはキャラクタのテキスト埋め込みであることができる。補助入力a_tは、入力文書の別の長短期記憶ネットワーク（略LSTM）からのテキスト・エンコードであることができ、前記入力は最も最近発された語および／またはキャラクタのテキスト埋め込みであることができる。補助入力a_tは、逐次的データをエンコードする別のLSTMからの隠れ状態ベクトルであることができ、前記入力は最も最近発された語および／またはキャラクタのテキスト埋め込みであることができる。補助入力a_tは、逐次的データをエンコードする別のLSTMからの隠れ状態ベクトルから導出された予測であることができ、前記入力は最も最近発された語および／またはキャラクタのテキスト埋め込みであることができる。補助入力a_tは、畳み込みニューラルネットワーク（略CNN）の出力であることができる。補助入力a_tは、注目ネットワークの出力であることができる。

Sn-LSTMは、複数のゲートを通じて入力を処理することによって、複数の時間ステップのそれぞれにおける出力を生成する。ゲートは少なくとも入力ゲート、忘却ゲート、出力ゲートおよび補助センチネル・ゲートを含む。各ゲートは、数多くの並列プロセッサのうちの少なくとも一つで稼働することができる。

入力ゲートは、現在の入力x_tおよび前の隠れ状態h_t-1のうちのどのくらいが現在の記憶セル状態m_tにはいるかを制御するものであり、次のように表わされる。

忘却ゲートは現在の記憶セル状態m_tおよび前の記憶セル状態m_t-1に対して作用し、記憶セルの個々の成分を消去する（0に設定する）か保持するかを決定するものであり、次のように表わされる。

出力ゲートは記憶セルからの出力をスケーリングするものであり、次のように表わされる。

Sn-LSTMは、活性化ゲート（本稿ではセル更新ゲートまたは入力変換ゲートとも称される）をも含むことができ、これは考慮に入れられるべき現在の入力x_tおよび前の隠れ状態h_t-1を記憶セル状態m_tに変換するものであり、次のように表わされる。

Sn-LSTMは、現在隠れ状態生成器をも含むことができ、これは、現在の記憶セル状態m_tのtanh変換によってスケーリングされた（押しつぶされた）現在の隠れ状態h_tを出力するものであり、次のように表わされる。

上式で、

は要素ごとの積を表わす。

記憶セル更新器（図９）は、Sn-LSTMの記憶セルを前の記憶セル状態m_t-1から現在の記憶セル状態m_tに、次のようにして更新する。

上記で論じたように、補助センチネル・ゲートはセンチネル状態または視覚センチネルを生成する。これは、Sn-LSTMデコーダがすでに知っているものの潜在表現（latent representation）である。Sn-LSTMデコーダの記憶は、長期および短期の視覚的および言語的情報の両方を格納する。適応注目モデルは、画像に注目しないことを選ぶときに該モデルが頼ることのできる新たな成分をSn-LSTMから抽出することを学習する。この新たな成分は視覚センチネル（visual sentinel）と呼ばれる。そして画像または視覚センチネルに注目するかどうかを決定するゲートが、前記補助センチネル・ゲートである。

視覚的および言語的なコンテキスト情報がSn-LSTMデコーダの記憶セルに記憶される。視覚センチネル・ベクトルs_tを使って、この情報を下記によって変調する。

上式において、W_xおよびW_hは学習される重みパラメータであり、x_tは時間ステップtにおけるSn-LSTMへの入力であり、aux_tは現在の記憶セル状態m_tに適用される補助センチネル・ゲートであり、

は要素ごとの積を表わし、σはロジスティック・シグモイド活性化である。

注目ベースのエンコーダ‐デコーダ・テキスト要約モデルでは、Sn-LSTMは、別のエンコーダLSTMから補助情報を受け取るデコーダとして使われることができる。エンコーダLSTMは入力文書を処理して文書エンコードを生成することができる。文書エンコードまたは文書エンコードの代替表現はSn-LSTMに補助情報として供給されることができる。Sn-LSTMはその補助センチネル・ゲートを使って、前に生成された要約語および前の隠れ状態を考慮して、文書エンコード（またはその代替表現）のどの部分が現在の時間ステップにおいて最も重要かを決定することができる。次いで、文書エンコード（またはその代替表現）の重要な部分はセンチネル状態にエンコードされることができる。センチネル状態は、次の要約語を生成するために使用されることができる。

注目ベースのエンコーダ‐デコーダ質問回答モデルでは、Sn-LSTMは、別のエンコーダLSTMから補助情報を受け取るデコーダとして使われることができる。エンコーダLSTMは入力質問を処理して質問エンコードを生成することができる。質問エンコードまたは質問エンコードの代替表現はSn-LSTMに補助情報として供給されることができる。Sn-LSTMはその補助センチネル・ゲートを使って、前に生成された回答語および前の隠れ状態を考慮して、質問エンコード（またはその代替表現）のどの部分が現在の時間ステップにおいて最も重要かを決定することができる。次いで、質問エンコード（またはその代替表現）の重要な部分はセンチネル状態にエンコードされることができる。センチネル状態は、次の回答語を生成するために使用されることができる。

注目ベースのエンコーダ‐デコーダ機械翻訳モデルでは、Sn-LSTMは、別のエンコーダLSTMから補助情報を受け取るデコーダとして使われることができる。エンコーダLSTMはソース言語シーケンスを処理してソース・エンコードを生成することができる。ソース・エンコードまたはソース・エンコードの代替表現はSn-LSTMに補助情報として供給されることができる。Sn-LSTMはその補助センチネル・ゲートを使って、前に生成された翻訳語および前の隠れ状態を考慮して、ソース・エンコード（またはその代替表現）のどの部分が現在の時間ステップにおいて最も重要かを決定することができる。次いで、ソース・エンコード（またはその代替表現）の重要な部分はセンチネル状態にエンコードされることができる。センチネル状態は、次の翻訳語を生成するために使用されることができる。

注目ベースのエンコーダ‐デコーダ・ビデオ・キャプション生成モデルでは、Sn-LSTMは、CNNおよびLSTMを有するエンコーダから補助情報を受け取るデコーダとして使われることができる。エンコーダはビデオのビデオ・フレームを処理してビデオ・エンコードを生成することができる。ビデオ・エンコードまたはビデオ・エンコードの代替表現はSn-LSTMに補助情報として供給されることができる。Sn-LSTMはその補助センチネル・ゲートを使って、前に生成されたキャプション語および前の隠れ状態を考慮して、ビデオ・エンコード（またはその代替表現）のどの部分が現在の時間ステップにおいて最も重要かを決定することができる。次いで、ビデオ・エンコード（またはその代替表現）の重要な部分はセンチネル状態にエンコードされることができる。センチネル状態は、次のキャプション語を生成するために使用されることができる。

注目ベースのエンコーダ‐デコーダ画像キャプション生成モデルでは、Sn-LSTMは、エンコーダCNNから補助情報を受け取るデコーダとして使われることができる。エンコーダは入力画像を処理して画像エンコードを生成することができる。画像エンコードまたは画像エンコードの代替表現はSn-LSTMに補助情報として供給されることができる。Sn-LSTMはその補助センチネル・ゲートを使って、前に生成されたキャプション語および前の隠れ状態を考慮して、画像エンコード（またはその代替表現）のどの部分が現在の時間ステップにおいて最も重要かを決定することができる。次いで、画像エンコード（またはその代替表現）の重要な部分はセンチネル状態にエンコードされることができる。センチネル状態は、次のキャプション語を生成するために使用されることができる。

〈適応注目モデル〉
上記で論じたように、長短期記憶（LSTM）デコーダは、目標画像の領域または特徴に注目し、語予測を注目される画像特徴に基づいて調整することによって、画像キャプションを生成するために拡張されることができる。しかしながら、画像に注目することは、話の半分でしかない；いつ見るかを知ることがもう半分である。すなわち、すべてのキャプション語が視覚的信号に対応するわけではない；ストップワードや言語的に相関している語のようないくつかの語は、テキスト的なコンテキストから推定されるほうがよいことがある。

既存の注目ベースの視覚的ニューラル・エンコーダ‐デコーダ・モデルは、すべての生成された語について、視覚的注目がアクティブになることを強制する。しかしながら、デコーダは、「the」や「of」のような非視覚的な単語を予測するためには、画像からの視覚的情報をほとんどまたは全く必要としない可能性が高い。視覚的であると思われる他の語はしばしば、言語的なモデルによって信頼できる仕方で予測できる。たとえば、「behind a red stop」〔赤い停止…の後の〕のあとの「sign」〔標識〕、あるいは「talking on a cell」〔形態…で話す〕の後の「phone」〔電話〕である。デコーダが複合語「stop sign」〔停止標識〕をキャプションとして生成する必要がある場合、画像へのアクセスを要求するのは「stop」のみであり、「sign」は言語的に推論できる。我々の技術は、視覚的および言語的情報の使用を案内する。

上記の限界を克服するために、畳み込みニューラルネットワーク（CNN）からの視覚的情報およびLSTMからの言語的情報を混合する画像キャプション生成のための新規な適応注目モデルを開示する。各時間ステップにおいて、我々の適応エンコーダ‐デコーダ・フレームワークは、次のキャプション語を発するために、言語モデルではなく画像にどのくらい強く頼るかを自動的に決定することができる。

図１０は、次のキャプション語を発するために、言語的情報ではなく視覚的情報にどのくらい強く依拠するかを自動的に決定する、画像キャプション生成のための開示される適応注目モデルを描いている。図８のセンチネルLSTM（Sn-LSTM）は、デコーダとして、該適応注目モデルにおいて具現され、それによって実装される。

上記で論じたように、我々のモデルは、LSTMアーキテクチャーに新たな補助センチネル・ゲートを加える。センチネル・ゲートは、各時間ステップにおいて、いわゆる視覚センチネル／センチネル状態S_tを生成する。これは、Sn-LSTMの記憶から導出される、長短期の視覚的および言語的情報の追加的な表現である。視覚センチネルS_tは、CNNからの視覚的情報を参照することなく言語的モデルが頼ることのできる情報をエンコードする。視覚センチネルS_tは、Sn-LSTMからの現在の隠れ状態との組み合わせにおいて、画像および言語的コンテキストの混合を制御するセンチネル・ゲート・マス／ゲート確率マスβ_tを生成するために使われる。

たとえば、図１６に示されるように、我々のモデルは、「white」〔白い〕、「bird」〔鳥〕、「red」〔赤い〕、「stop」〔停止〕の語を生成するときには、画像のほうにより注目し、「top」〔上〕、「of」〔の〕、「sign」〔標識〕の語を生成するときには視覚センチネルのほうにより頼ることを学習する。

〈視覚封印デコーダ（Visually Hermetic Decoder）〉
図１４は、純粋に言語的な情報を処理して、画像についてのキャプションを生成する、開示される視覚的に封印されたデコーダのある実装である。図１５は、画像キャプション生成のための図１４の視覚封印デコーダを使う空間的注目モデルを示す。図１５では、空間的注目モデルは複数の時間ステップを通じて展開される。あるいはまた、画像キャプション生成の間、画像データと混合されない純粋に言語的な情報wを処理する視覚封印デコーダが使われることができる。この代替的な視覚封印デコーダは、グローバル画像表現を入力として受領しない。すなわち、視覚封印デコーダへの現在の入力は、その最も最近発されたキャプション語w_t-1だけであり、初期入力は<start>トークンだけである。視覚封印デコーダはLSTM、ゲーテッド回帰ユニット（GRU: gated recurrent unit）または準回帰型ニューラルネットワーク（QRNN: quasi-recurrent neural network）として実装されることができる。この代替的なデコーダでは、単語はいまだ、注目機構の適用後に発される。

〈弱教師付き学習〉
開示される技術は、画像キャプション生成モデルのパフォーマンスを評価するシステムおよび方法をも提供する。開示される技術は、畳み込みニューラルネットワーク（略CNN）エンコーダおよび長短期記憶（LSTM）デコーダを使って画像の画像領域ベクトルを混合するための注目値の空間的注目マップを生成し、空間的注目マップに基づいてキャプション語出力を生成する。次いで、開示される技術は、閾値注目値より上である画像の領域をセグメンテーション・マップにセグメント分割する。次いで、開示される技術は、セグメンテーション・マップにおいて最大の連結した画像成分をカバーするバウンディングボックスを画像上に投影する。次いで、開示される技術は、投影されたバウンディングボックスと基礎的事実（ground truth）バウンディングボックスとの交差対合併比（略IOU: intersection over union）を決定する。次いで、開示される技術は、計算されたIOUに基づいて、空間的注目マップの局在化精度（localization accuracy）を決定する。

開示される技術は、COCOデータセットおよびFlickr30kデータセットに対する標準的な諸ベンチマークを通じて、先端技術のパフォーマンスを達成する。

〈具体的実装〉
視覚的な注目ベースのエンコーダ‐デコーダ画像キャプション生成モデルのシステムおよびさまざまな実装を記述する。ある実装の一つまたは複数の特徴は、基本実装と組み合わされることができる。互いに背反でない実装は組み合わせ可能であると教示される。ある実装の一つまたは複数の特徴は、他の実装と組み合わされることができる。本開示は、これらの選択肢があることを定期的にユーザーに想起させる。これらの選択肢を繰り返す記載が一部の実装から割愛されていたとしても、先行する節で教示される組み合わせを限定するものと解釈されるべきではない。これらの記載は、下記の各実装に参照によってあらかじめ組み込まれる。

ある実装では、開示される技術はシステムを提示する。システムはメモリに結合された数多くの並列プロセッサを含む。メモリは、画像についての自然言語キャプションを生成するためのコンピュータ命令をロードされる。命令は、並列プロセッサ上で実行されるとき、下記のアクションを実装する。

エンコーダを通じて画像を処理して、画像の諸領域についての画像特徴ベクトルを生成し、画像特徴ベクトルからグローバル画像特徴ベクトルを決定する。エンコーダは、畳み込みニューラルネットワーク（略CNN）であることができる。

初期時間ステップにおいてキャプション開始トークン<start>およびグローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語w_t-1およびグローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する。デコーダは、長短期記憶ネットワーク（略LSTM）であることができる。

各時間ステップにおいて、デコーダの少なくとも現在の隠れ状態を使って、画像特徴ベクトルについての正規化されていない注目値を決定し、注目値を指数関数的に正規化して注目確率マスを生成する。

画像特徴ベクトルに注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、画像特徴ベクトルの重み付けされた和を累積する。

画像コンテキスト・ベクトルとデコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、フィードフォワード・ニューラルネットワークに次のキャプション語を発させる。フィードフォワード・ニューラルネットワークは、多層パーセプトロン（略MLP）であることができる。

前記の、デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークン<end>になるまで繰り返す。反復工程は図２５に示されるコントローラによって実行される。

このシステム実装および開示される他のシステムは任意的に、下記の特徴の一つまたは複数を含む。システムは、開示される方法との関連で記述される特徴をも含むことができる。簡潔のため、システム特徴の代替的な組み合わせは個々には挙げられない。システム、方法および製造物に適用可能な特徴は、基本特徴のそれぞれの法定クラス集合について繰り返されはしない。読者は、この節で特定された特徴がいかに容易に他の法定クラスにおいて基本特徴と組み合わされることができるかを理解するであろう。

システムはコンピュータ実装されるシステムであることができる。システムはニューラルネットワーク・ベースのシステムであることができる。

デコーダの現在の隠れ状態は、デコーダへの現在の入力およびデコーダの前の隠れ状態に基づいて決定されることができる。

画像コンテキスト・ベクトルは、各時間ステップにおいて各画像領域に割り振られる空間的注目の量を、デコーダの現在の隠れ状態に基づいて調整されて（conditioned）、決定する動的なベクトルであることができる。

システムは、割り振られた空間的注目を評価するために、弱教師付き局在化を使うことができる。

画像特徴ベクトルについての注目値は、画像特徴ベクトルおよびデコーダの現在の隠れ状態を単一層ニューラルネットワークを通じて処理することによって決定されることができる。

システムは、各時間ステップにおいて、フィードフォワード・ニューラルネットワークに、次のキャプション語を発させることができる。そのような実装では、フィードフォワード・ニューラルネットワークは、画像コンテキスト・ベクトルおよびデコーダの現在の隠れ状態に基づいて出力を生成し、該出力を使って、語彙内の語に対する語彙確率マスの正規化された分布を決定することができる。語彙確率マスは、語彙語が次のキャプション語であるそれぞれの確からしさを表わす。

他の実装は、上記のシステムのアクションを実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体を含んでいてもよい。

もう一つの実装では、開示される技術はシステムを提示する。システムはメモリに結合された数多くの並列プロセッサを含む。メモリは、画像についての自然言語キャプションを生成するためのコンピュータ命令をロードされる。命令は、並列プロセッサ上で実行されるとき、下記のアクションを実装する。

注目遅れ型デコーダの現在の隠れ状態情報を使って、画像からエンコーダによって生成された画像特徴ベクトルについて、注目マップを生成し、画像特徴ベクトルの重み付けされた和に基づいて出力キャプション語を生成する。重みは注目マップから決定される。

この〈具体的実装〉セクションにおいて論じられる他のシステムおよび方法実装について各特徴は、このシステム実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。

システムは、コンピュータ実装されるシステムであることができる。システムはニューラルネットワーク・ベースのシステムであることができる。

現在の隠れ状態情報は、デコーダへの現在の入力および前の隠れ状態情報に基づいて決定されることができる。

システムは、注目マップを評価するために弱教師付き局在化を使うことができる。

エンコーダは、畳み込みニューラルネットワーク（略CNN）であることができ、画像特徴ベクトルはCNNの最後の畳み込み層によって生成されることができる。

注目遅れ型デコーダは、長短期記憶ネットワーク（略LSTM）であることができる。

さらにもう一つの実装では、開示される技術はシステムを提示する。システムはメモリに結合された数多くの並列プロセッサを含む。メモリは、画像についての自然言語キャプションを生成するためのコンピュータ命令をロードされる。命令は、並列プロセッサ上で実行されるとき、下記のアクションを実装する。

エンコーダを通じて画像を処理して、画像の諸領域について画像特徴ベクトルを生成する。エンコーダは、畳み込みニューラルネットワーク（略CNN）であることができる。

初期時間ステップにおいてキャプション開始トークン<start>で始まり、一連の時間ステップにおいて最も最近発されたキャプション語w_t-1をデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する。デコーダは、長短期記憶ネットワーク（略LSTM）であることができる。

各時間ステップにおいて、デコーダの少なくとも現在の隠れ状態を使って、画像特徴ベクトルから、画像コンテキスト・ベクトルを決定する。画像コンテキスト・ベクトルは、デコーダの現在の隠れ状態に基づいて調整された（conditioned）、画像の諸領域に割り振られた注目の度合いを決定する。

画像コンテキスト・ベクトルはデコーダに供給しない。

画像コンテキスト・ベクトルとデコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、フィードフォワード・ニューラルネットワークにキャプション語を発させる。

前記の、デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークン<end>になるまで繰り返す。反復工程は図２５に示されるコントローラによって実行される。

システムは、グローバル画像特徴ベクトルをデコーダに供給せず、初期時間ステップにおいてキャプション開始トークン<start>で始まり、一連の時間ステップにおいて最も最近発されたキャプション語w_t-1をデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する。

いくつかの実装では、システムは画像特徴ベクトルをデコーダに供給しない。

さらなる実装では、開示される技術は、画像についての自然言語キャプションの機械生成のためのシステムを提示する。システムは数多くの並列プロセッサ上で走る。システムは、ニューラルネットワーク・ベースのシステムであることができる。

システムは注目遅れ型デコーダを有する。注目遅れ型デコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

注目遅れ型デコーダは、少なくとも現在の隠れ状態情報を使って、画像からエンコーダによって生成された画像特徴ベクトルについて、注目マップを生成する。エンコーダは、畳み込みニューラルネットワーク（略CNN）であることができ、画像特徴ベクトルはCNNの最後の畳み込み層によって生成されることができる。注目遅れ型デコーダは、長短期記憶ネットワーク（略LSTM）であることができる。

注目遅れ型デコーダは、画像特徴ベクトルの重み付けされた和に基づいて出力キャプション語を生成させる。重みは注目マップから決定される。

図６は、複数の時間ステップを通じて展開される画像キャプション生成のための開示される空間的注目モデルを示す。図２Ｂの注目遅れ型デコーダは、該空間的注目モデルにおいて具現され、それによって実装される。開示される技術は、画像についての自然言語キャプションの機械生成のための、図６の空間的注目モデルを実装する、画像から言語へのキャプション生成システムを提示する。システムは数多くの並列プロセッサ上で走る。

システムは、畳み込みニューラルネットワーク（略CNN）を通じて画像を処理し、画像の諸領域についての画像特徴を生成するためのエンコーダ（図１）を有する。エンコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

システムは、画像特徴を組み合わせることによって画像についてのグローバル画像特徴を生成するためのグローバル画像特徴生成器（図３Ａ）を有する。グローバル画像特徴生成器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

システムは、初期デコーダ時間ステップではキャプション開始トークン<start>とグローバル画像特徴の組み合わせ、一連のデコーダ時間ステップでは最も最近発されたキャプション語w_t-1とグローバル画像特徴の組み合わせとしてデコーダへの入力を提供するための入力準備器（図３Ｃ）を有する。

システムは、各デコーダ時間ステップにおいて、長短期記憶ネットワーク（略LSTM）を通じて前記入力を処理して、現在のデコーダ隠れ状態を生成するデコーダ（図２Ｂ）を有する。デコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

システムは、各時間ステップにおいて、現在のデコーダ隠れ状態を使って決定された注目確率マスによってスケーリングされた諸画像特徴の凸組み合わせ（convex combination）として画像コンテキストを累積するための注目器（図４）を有する。注目器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。図４は、図６において開示される空間的注目モデルの一部である注目器のモジュールの一つの実装を描いている。注目器は、比較器、注目器ソフトマックス（本稿では注目確率マス生成器とも称される）および凸組み合わせ累積器（本稿ではコンテキスト・ベクトル生成器またはコンテキスト生成器とも称される）を有する。

システムは、各デコーダ時間ステップにおいて、画像コンテキストおよび現在のデコーダ隠れ状態を処理して次のキャプション語を発するためのフィードフォワード・ニューラルネットワーク（本稿では多層パーセプトロン（MLP）とも称される）（図５）を有する。フィードフォワード・ニューラルネットワークは前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

システムは、次のキャプション語がキャプション終了トークン<end>になるまで入力準備器、デコーダ、注目器およびフィードフォワード・ニューラルネットワークを逐次反復して画像についての自然言語キャプションを生成するためのコントローラ（図２５）を有する。コントローラは前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、このシステム実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。

注目器はさらに、各デコーダ時間ステップにおいて、注目値z_t＝[λ₁,…,λ_k]を指数関数的に正規化して注目確率マスα_t＝[α₁,…,α_k]を生成するための注目器ソフトマックス（図４）を有することができる。注目器ソフトマックスは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

注目器はさらに、各デコーダ時間ステップにおいて、現在のデコーダ隠れ状態h_tと画像特徴V＝[v₁,…,v_k]、v_i∈R^dとの間の相互作用の結果として注目値z_t＝[λ₁,…,λ_k]を生成するための比較器（図４）を有することができる。比較器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。いくつかの実装では、注目値z_t＝[λ₁,…,λ_k]は、重み行列を適用する単一層ニューラルネットワークおよび双曲線正接（tanh）押しつぶし関数（−1から1までの間の出力を生成する）を適用する非線形層（図４）を通じて現在のデコーダ隠れ状態h_tおよび画像特徴V＝[v₁,…,v_k]、v_i∈R^dを処理することによって決定される。いくつかの実装では、注目値z_t＝[λ₁,…,λ_k]は現在のデコーダ隠れ状態h_tおよび画像特徴V＝[v₁,…,v_k]、v_i∈R^dをドット積器または内積器を通じて処理することによって決定される。さらに他の実装では、z_t＝[λ₁,…,λ_k]は現在のデコーダ隠れ状態h_tおよび画像特徴V＝[v₁,…,v_k]、v_i∈R^dを双線形形式積器（binilinear form productor）を通じて処理することによって決定される。

デコーダはさらに、各デコーダ時間ステップにおいて、現在のデコーダ入力および前のデコーダ隠れ状態に基づいて現在のデコーダ隠れ状態を決定するための、少なくとも入力ゲート、忘却ゲートおよび出力ゲートを有することができる。入力ゲート、忘却ゲートおよび出力ゲートはそれぞれ前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

注目器はさらに、各デコーダ時間ステップにおいて、現在のデコーダ隠れ状態に基づいて調整されて（conditioned）、各画像領域に割り振られた空間的注目の度合いを同定する画像コンテキストを生成するための凸組み合わせ累積器（図４）を有することができる。凸組み合わせ累積器は前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

システムはさらに、弱教師付き局在化に基づいて、割り振られた空間的注目を評価するための局在化器（図２５）を有することができる。局在化器は前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

システムはさらに、各デコーダ時間ステップにおいて画像コンテキストおよび現在のデコーダ隠れ状態に基づいて出力を生成するためのフィードフォワード・ニューラルネットワーク（図５）を有することができる。

システムはさらに、各デコーダ時間ステップにおいて、前記出力を使って、語彙内の語についての語彙確率マスの正規化された分布を決定するための語彙ソフトマックス（図５）を有することができる。語彙ソフトマックスは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。語彙確率マスは、語彙語が次のキャプション語であるそれぞれの確からしさを同定することができる。

図７は、図６の空間的注目モデルによって適用される空間的注目を使う画像キャプション生成の一つの実装を描いている。ある実装では、開示される技術は、画像についての自然言語キャプションの機械生成のために図７の画像キャプション生成を実行する方法を提示する。本方法は、コンピュータ実装される方法であることができる。本方法はニューラルネットワークに基づく方法であることができる。

本方法は、エンコーダ（図１）を通じて画像Iを処理して画像Iの諸領域について画像特徴ベクトルV＝[v₁,…,v_k]、v_i∈R^dを生成し、画像特徴ベクトルV＝[v₁,…,v_k]、v_i∈R^dからグローバル画像特徴ベクトルv^gを決定することを含む。エンコーダは、図１に示されるように、畳み込みニューラルネットワーク（略CNN）であることができる。

本方法は、初期時間ステップにおいてキャプション開始トークン<start>およびグローバル画像特徴ベクトルv^gで始まり、一連の時間ステップにおいて最も最近発されたキャプション語w_t-1およびグローバル画像特徴ベクトルv^gをデコーダへの入力として使い続けることによって、デコーダ（図２Ｂおよび図６）を通じて語を処理することを含む。

本方法は、各時間ステップにおいて、デコーダの少なくとも現在の隠れ状態h_tを使って、画像特徴ベクトルV＝[v₁,…,v_k]、v_i∈R^dについての正規化されていない注目値z_t＝[λ₁,…,λ_k]を決定し、注目値を指数関数的に正規化して、合計すると1になる注目確率マスα_t＝[α₁,…,α_k]（本稿では注目重みとも称される）を生成することを含む。α_tは、注目確率マス[α₁,…,α_k]を含む注目マップを表わす。

本方法は、画像特徴ベクトルV＝[v₁,…,v_k]、v_i∈R^dに注目確率マス[α₁,…,α_k]を適用して、画像コンテキスト・ベクトルc_tにおいて、画像特徴ベクトルV＝[v₁,…,v_k]、v_i∈R^dの重み付けされた和Σを累積することを含む。

本方法は、画像コンテキスト・ベクトルc_tとデコーダの現在の隠れ状態h_tとをフィードフォワード・ニューラルネットワークに提出し、フィードフォワード・ニューラルネットワークに次のキャプション語w_tを発させることを含む。フィードフォワード・ニューラルネットワークは、多層パーセプトロン（略MLP）であることができる。

本方法は、前記の、デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークン<end>になるまで繰り返すことを含む。反復工程は図２５に示されるコントローラによって実行される。

この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、この方法実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。

他の実装は、上記の方法を実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体（CRM）を含んでいてもよい。さらに別の実装は、メモリと、上記の方法を実行するよう該メモリに記憶されている命令を実行するよう動作可能な一つまたは複数のプロセッサとを含んでいてもよい。

もう一つの実装では、開示される技術は、画像についての自然言語キャプションの機械生成の方法を提示する。本方法は、コンピュータ実装される方法であることができる。本方法はニューラルネットワークに基づく方法であることができる。

図７に示されるように、本方法は、注目遅れ型デコーダ（図２Ｂおよび図６）の現在の隠れ状態情報h_tを使って、画像Iからエンコーダ（図１）によって生成された画像特徴ベクトルV＝[v₁,…,v_k]、v_i∈R^dについての注目マップα_t＝[α₁,…,α_k]を生成し、画像特徴ベクトルV＝[v₁,…,v_k]、v_i∈R^dの重み付けされた和Σに基づいて出力キャプション語w_tを生成することを含む。重みは注目マップα_t＝[α₁,…,α_k]から決定される。

さらに別の実装では、開示される技術は、画像についての自然言語キャプションの機械生成の方法を提示する。この方法は、視覚的に封印されたLSTMを使う。本方法はコンピュータ実装される方法であることができる。本方法はニューラルネットワークに基づく方法であることができる。

本方法は、エンコーダ（図１）を通じて画像を処理して、画像Iのk個の領域についての画像特徴ベクトルV＝[v₁,…,v_k]、v_i∈R^dを生成する。エンコーダは畳み込みニューラルネットワーク（略CNN）であることができる。

本方法は、初期時間ステップにおいてキャプション開始トークン<start>で始まり、一連の時間ステップにおいて最も最近発されたキャプション語w_t-1をデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することを含む。デコーダは、図１４および図１５に示される視覚的に封印された長短期記憶ネットワーク（略LSTM）であることができる。

本方法は、各時間ステップにおいて、デコーダの少なくとも現在の隠れ状態h_tを使って、画像特徴ベクトルV＝[v₁,…,v_k]、v_i∈R^dから、デコーダの現在の隠れ状態に基づいて調整されて（conditioned）、画像の諸領域に割り振られた注目の度合いを決定する画像コンテキスト・ベクトルc_tを決定することを含む。

本方法は、画像コンテキスト・ベクトルc_tをデコーダに供給しないことを含む。

本方法は、画像コンテキスト・ベクトルc_tとデコーダの現在の隠れ状態h_tとをフィードフォワード・ニューラルネットワークに提出し、フィードフォワード・ニューラルネットワークに次のキャプション語w_tを発させることを含む。

本方法は、前記の、デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了になるまで繰り返すことを含む。

図１２は、複数の時間ステップを通じて展開される画像キャプション生成のための開示される適応注目モデルを示す。図８のセンチネルLSTM（Sn-LSTM）は、デコーダとして、該適応注目モデルにおいて具現され、それによって実装される。図１３は、図１２の適応注目モデルによって適用される適応注目を使う画像キャプション生成の一つの実装を示す。

ある実装では、開示される技術は、図１２および図１３の画像キャプション生成を実行するシステムを提示する。システムは、メモリに結合された数多くの並列プロセッサを含む。メモリは、画像に自動的にキャプション付けするためのコンピュータ命令をロードされる。該命令は、並列プロセッサ上で実行されると、以下のアクションを実装する。

画像エンコーダ（図１）および言語デコーダ（図８）の結果を混合Σして、入力画像Iについてのキャプション語のシーケンスを発する。混合は、言語デコーダの視覚センチネル・ベクトルS_tおよび言語デコーダの現在の隠れ状態ベクトルh_tから決定されるゲート確率マス／センチネル・ゲート・マスβ_tによって支配される。画像エンコーダは畳み込みニューラルネットワーク（略CNN）であることができる。言語デコーダは、図８および図９に示されるセンチネル長短期記憶ネットワーク（略Sn-LSTM）であることができる。言語デコーダは、センチネル双方向長短期記憶ネットワーク（略Sn-Bi-LSTM）であることができる。言語デコーダは、センチネル・ゲーテッド回帰ユニット・ネットワーク（略Sn-GRU）であることができる。言語デコーダは、センチネル準回帰型ニューラルネットワーク（略Sn-QRNN）であることができる。

画像エンコーダを通じて画像Iを処理して、画像Iのk個の領域についての画像特徴ベクトルV＝[v₁,…,v_k]、v_i∈R^dを生成し、画像特徴ベクトルV＝[v₁,…,v_k]、v_i∈R^dからグローバル画像特徴ベクトルv^gを計算することによって、画像エンコーダの結果を決定する。

言語デコーダを通じて語を処理することによって、言語デコーダの結果を決定する。これは、（１）初期時間ステップにおいてキャプション開始トークン<start>およびグローバル画像特徴ベクトルv^gで始まり、（２）一連の時間ステップにおいて最も最近発されたキャプション語w_t-1およびグローバル画像特徴ベクトルv^gを言語デコーダへの入力として使い続け、（３）各時間ステップにおいて、最も最近発されたキャプション語w_t-1、グローバル画像特徴ベクトルv^g、言語デコーダの前の隠れ状態ベクトルh_t-1および言語デコーダの記憶内容m_tを組み合わせる視覚センチネル・ベクトルS_tを生成することを含む。

各時間ステップにおいて、言語デコーダの少なくとも現在の隠れ状態ベクトルh_tを使って、画像特徴ベクトルV＝[v₁,…,v_k]、v_i∈R^dについての正規化されていない注目値[λ₁,…,λ_k]と、視覚センチネル・ベクトルS_tについての正規化されていないゲート値[η_i]を決定する。

正規化されていない注目値[λ₁,…,λ_k]と、正規化されていないゲート値[η_i]とを連結し、連結された注目およびゲート値を指数関数的に正規化して、注目確率マス[α₁,…,α_k]およびゲート確率マス／センチネル・ゲート・マスβ_tのベクトルを生成する。

画像特徴ベクトルV＝[v₁,…,v_k]、v_i∈R^dに注目確率マス[α₁,…,α_k]を適用して、画像コンテキスト・ベクトルc_tにおいて、画像特徴ベクトルV＝[v₁,…,v_k]、v_i∈R^dの重み付けされた和Σを累積する。コンテキスト・ベクトルc_tの生成は、図１１および図１３に示される適応注目器の空間的注目器において具現され、それによって実装される。

ゲート確率マス／センチネル・ゲート・マスβ_tに従って、画像コンテキスト・ベクトルc_tと視覚センチネル・ベクトルS_tの混合として適応コンテキスト・ベクトル

〔＾c_tとも記す〕を決定する。適応コンテキスト・ベクトル＾c_tの生成は、図１１および図１３に示される適応注目器の混合器において具現され、それによって実装される。

適応コンテキスト・ベクトルと言語デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、フィードフォワード・ニューラルネットワークに次のキャプション語w_tを発させる。フィードフォワード・ニューラルネットワークは、図５に示される放出器において具現され、それによって実装される。

前記の、言語デコーダを通じて語を処理すること、前記使うこと、前記連結すること、前記適用すること、前記決定することおよび前記提出することを、発される次のキャプション語がキャプション終了トークン<end>になるまで繰り返す。反復工程は図２５に示されるコントローラによって実行される。

システムは、コンピュータ実装されるシステムであることができる。システムは、ニューラルネットワークに基づくシステムであることができる。

時間ステップtにおける適応コンテキスト・ベクトル＾c_tは、

として決定されることができる。ここで、＾c_tは適応コンテキスト・ベクトルを表わし、c_tは画像コンテキスト・ベクトルを表わし、S_tは視覚センチネル・ベクトルを表わし、β_tはゲート確率マス／センチネル・ゲート・マスを表わし、(1−β_t)は次のキャプション語の視覚的基礎付け確率を表わす。

視覚センチネル・ベクトルS_tは、グローバル画像特徴ベクトルv^gから決定される視覚的コンテキストおよび前に発されたキャプション語から決定されるテキスト・コンテキストとを含む視覚センチネル情報をエンコードすることができる。

ゲート確率マス／センチネル・ゲート・マス／センチネル・ゲート・マスβ_tが1であることは、適応コンテキスト・ベクトル＾c_tが視覚センチネル・ベクトルS_tに等しいという結果につながる。そのような実装では、次のキャプション語w_tは、視覚センチネル情報のみに依存して発される。

画像コンテキスト・ベクトルc_tは、言語デコーダの現在の隠れ状態ベクトルh_tに基づいて調整された（conditioned）空間的画像情報をエンコードすることができる。

ゲート確率マス／センチネル・ゲート・マスβ_tが0であることは、適応コンテキスト・ベクトル＾c_tが画像コンテキスト・ベクトルc_tに等しいという結果につながる。そのような実装では、次のキャプション語w_tは、空間的画像情報のみに依存して発される。

ゲート確率マス／センチネル・ゲート・マスβ_tは、次のキャプション語w_tが視覚的な語であるときに上昇し、次のキャプション語が非視覚的な語であるまたは前に発されたキャプション語w_t-1と言語的に相関しているときに減少する、1から0までの間のスカラー値であることができる。

システムはさらにトレーニング器（図２５）を有することができ、トレーニング器はさらに防止器（図２５）を有する。防止器は、トレーニングの間、次のキャプション語が非視覚的な語であるまたは前に発されたキャプション語と言語的に相関しているときは、言語デコーダからの勾配の画像エンコーダへの逆伝搬を防止する。トレーニング器および防止器はそれぞれ、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

ある実装では、開示される技術は、自動画像キャプション生成の方法を提示する。本方法は、コンピュータ実装される方法であることができる。本方法は、ニューラルネットワークに基づく方法であることができる。

本方法は、画像エンコーダ（図１）および言語デコーダ（図８および図９）の結果を混合Σして、入力画像Iについてのキャプション語のシーケンスを発することを含む。混合は、図１１の適応注目器の混合器において具現され、それによって実装される。混合は、言語デコーダの視覚センチネル・ベクトルおよび言語デコーダの現在の隠れ状態ベクトルから決定されるゲート確率マス（本稿ではセンチネル・ゲート・マスとも称される）によって支配される。画像エンコーダは畳み込みニューラルネットワーク（略CNN）であることができる。言語デコーダは、センチネル長短期記憶ネットワーク（略Sn-LSTM）であることができる。言語デコーダは、センチネル双方向長短期記憶ネットワーク（略Sn-Bi-LSTM）であることができる。言語デコーダは、センチネル・ゲーテッド回帰ユニット・ネットワーク（略Sn-GRU）であることができる。言語デコーダは、センチネル準回帰型ニューラルネットワーク（略Sn-QRNN）であることができる。

本方法は、画像エンコーダを通じて画像を処理して、画像の諸領域についての画像特徴ベクトルを生成し、画像特徴ベクトルからグローバル画像特徴ベクトルを計算することによって、画像エンコーダの結果を決定することを含む。

本方法は、言語デコーダを通じて語を処理することによって、言語デコーダの結果を決定することを含む。これは、（１）初期時間ステップにおいてキャプション開始トークン<start>およびグローバル画像特徴ベクトルで始まり、（２）一連の時間ステップにおいて最も最近発されたキャプション語w_t-1およびグローバル画像特徴ベクトルを言語デコーダへの入力として使い続け、（３）各時間ステップにおいて、最も最近発されたキャプション語w_t-1、グローバル画像特徴ベクトル、言語デコーダの前の隠れ状態ベクトルおよび言語デコーダの記憶内容を組み合わせる視覚センチネル・ベクトルを生成することを含む。

本方法は、各時間ステップにおいて、言語デコーダの少なくとも現在の隠れ状態ベクトルを使って、画像特徴ベクトルについての正規化されていない注目値と、視覚センチネル・ベクトルについての正規化されていないゲート値を決定することを含む。

本方法は、正規化されていない注目値と、正規化されていないゲート値を連結し、連結された注目およびゲート値を指数関数的に正規化して、注目確率マスおよびゲート確率マス／センチネル・ゲート・マスのベクトルを生成することを含む。

本方法は、画像特徴ベクトルに注目確率マスを適用して、画像コンテキスト・ベクトルc_tにおいて、画像特徴ベクトルの重み付けされた和を累積することを含む。

本方法は、ゲート確率マス／センチネル・ゲート・マスβ_tに従って、画像コンテキスト・ベクトルと視覚センチネル・ベクトルS_tの混合として適応コンテキスト・ベクトル

〔＾c_tとも記す〕を決定することを含む。

本方法は、適応コンテキスト・ベクトル＾c_tと言語デコーダの現在の隠れ状態h_tとをフィードフォワード・ニューラルネットワーク（MLP）に提出し、フィードフォワード・ニューラルネットワークに次のキャプション語w_tを発させる。

本方法は、前記の、言語デコーダを通じて語を処理すること、前記使うこと、前記連結すること、前記適用すること、前記決定することおよび前記提出することを、発される次のキャプション語がキャプション終了トークン<end>になるまで繰り返すことを含む。反復工程は図２５に示されるコントローラによって実行される。

もう一つの実装では、開示される技術は、自動化された画像キャプション生成システムを提示する。システムは数多くの並列プロセッサ上で走る。

システムは、畳み込みニューラルネットワーク（略CNN）エンコーダ（図１１）を有する。CNNエンコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。CNNエンコーダは、一つまたは複数の畳み込み層を通じて入力画像を処理して、画像を表わす、画像領域ごとの画像特徴を生成する。

システムは、センチネル長短期記憶ネットワーク（略Sn-LSTM）デコーダ（図８）を有する。Sn-LSTMデコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。Sn-LSTMデコーダは、画像特徴と組み合わされた、前に発されたキャプション語を処理して、一連の時間ステップを通じてキャプション語のシーケンスを発する。

システムは適応注目器（図１１）を有する。適応注目器は前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。各時間ステップにおいて、適応注目器は、前記画像特徴に空間的に注目し、Sn-LSTMデコーダの現在の隠れ状態に基づいて調整された（conditioned）画像コンテキストを生成する。次いで、各時間ステップにおいて、適応注目器は、Sn-LSTMデコーダから、前に処理された画像特徴から決定される視覚的コンテキストおよび前に発されたキャプション語から決定されるテキスト・コンテキストを含む視覚センチネルを抽出する。次いで、各時間ステップにおいて、適応注目器は画像コンテキストc_tおよび視覚センチネルS_tを、次のキャプション語w_t放出のために混合する。混合は、視覚センチネルS_tとSn-LSTMデコーダの現在の隠れ状態h_tとから決定されるセンチネル・ゲート・マスβ_tによって支配される。

適応注目器（図１１）は、図１６、図１８および図１９に示されるように、次のキャプション語が視覚的な語であるときに、画像コンテキストに向けられる注目を高める。適応注目器（図１１）は、図１６、図１８および図１９に示されるように、次のキャプション語が非視覚的な語であるまたは前に発されたキャプション語と言語的に相関しているときに、視覚センチネルに向けられる注目を高める。

システムはさらにトレーニング器を有することができ、トレーニング器はさらに防止器を有する。防止器は、トレーニングの間、次のキャプション語が非視覚的な語であるまたは前に発されたキャプション語と言語的に相関しているときは、Sn-LSTMデコーダからの勾配のCNNエンコーダへの逆伝搬を防止する。トレーニング器および防止器はそれぞれ、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

さらに別の実装では、開示される技術は、自動画像キャプション生成システムを提示する。本システムは、数多くの並列プロセッサで走ることができる。システムは、コンピュータ実装されるシステムであることができる。システムは、ニューラルネットワークに基づくシステムであることができる。

システムは、画像エンコーダ（図１）を有する。画像エンコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。画像エンコーダは、畳み込みニューラルネットワーク（略CNN）を通じて入力画像を処理して、画像表現を生成する。

システムは、言語デコーダ（図８）を有する。言語デコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。言語デコーダは、回帰型ニューラルネットワーク（略RNN）を通じて、前に発されたキャプション語を、前記画像表現と組み合わせて処理し、キャプション語のシーケンスを発する。

システムは、適応注目器（図１１）を有する。適応注目器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。適応注目器は、次のキャプション語が視覚的な語であるときに、画像表現に向けられる注目を高める。適応注目器は、次のキャプション語が非視覚的な語であるまたは前に発されたキャプション語と言語的に相関しているときに、言語デコーダの記憶内容に向けられる注目を高める。

他の実装は、上記のシステムのアクションを実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体（CRM）を含んでいてもよい。

さらなる実装では、開示される技術は、自動画像キャプション生成システムを提示する。本システムは、数多くの並列プロセッサで走ることができる。システムは、コンピュータ実装されるシステムであることができる。システムは、ニューラルネットワークに基づくシステムであることができる。

システムは、センチネル・ゲート・マス／ゲート確率マスβ_tを有する。センチネル・ゲート・マスは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。センチネル・ゲート・マスは、次のキャプション語放出のための言語デコーダの記憶内容および画像表現の累積を制御する。センチネル・ゲート・マスは、言語デコーダの視覚センチネルと、言語デコーダの現在の隠れ状態とから決定される。

あるさらなる実装では、開示される技術はタスクを自動化するシステムを提示する。システムは、コンピュータ実装されるシステムであることができる。システムは、ニューラルネットワークに基づくシステムであることができる。

システムはエンコーダを有する。エンコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。エンコーダは、少なくとも一つのニューラルネットワークを通じて入力を処理して、エンコードされた表現を生成する。

システムはデコーダを有する。デコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。デコーダは、少なくとも一つのニューラルネットワークを通じて、前に発された出力を、前記エンコードされた表現と組み合わせて処理し、出力のシーケンスを発する。

システムは適応注目器を有する。適応注目器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。適応注目器は、センチネル・ゲート・マスを使って、次の出力を発するために、前記エンコードされた表現と前記デコーダの記憶内容を混合する。センチネル・ゲート・マスは、前記デコーダの記憶内容および前記デコーダの現在の隠れ状態から決定される。センチネル・ゲート・マスは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

ある実装において、前記タスクがテキスト要約であるとき、システムは、入力文書を処理して文書エンコードを生成する前記エンコーダとしての第一の回帰型ニューラルネットワーク（略RNN）と、前記文書エンコードを使って要約語のシーケンスを発する前記デコーダとしての第二のRNNとを有する。

ある別の実装において、前記タスクが質問回答であるとき、システムは、入力質問を処理して質問エンコードを生成する前記エンコーダとしての第一のRNNと、前記質問エンコードを使って回答語のシーケンスを発する前記デコーダとしての第二のRNNとを有する。

もう一つの実装において、前記タスクが機械翻訳であるとき、システムは、ソース言語シーケンスを処理してソース・エンコードを生成する前記エンコーダとしての第一のRNNと、前記ソース・エンコードを使って翻訳語のターゲット言語シーケンスを発する前記デコーダとしての第二のRNNとを有する。

さらにもう一つの実装において、前記タスクがビデオ・キャプション生成であるとき、システムは、ビデオ・フレームを処理してビデオ・エンコードを生成する前記エンコーダとしての畳み込みニューラルネットワーク（略CNN）および第一のRNNの組み合わせと、前記ビデオ・エンコードを使ってキャプション語のシーケンスを発する前記デコーダとしての第二のRNNとを有する。

さらなる実装において、前記タスクが画像キャプション生成であるとき、システムは、入力画像を処理して画像エンコードを生成する前記エンコーダとしてのCNNと、前記画像エンコードを使ってキャプション語のシーケンスを発する前記デコーダとしてのRNNとを有する。

本システムはエンコードされた表現から入力の代替表現を決定できる。次いで、システムは、前記デコーダによる処理および前記適応注目器による混合のために、前記エンコードされた表現の代わりに前記代替表現を使うことができる。

前記代替表現は、前記デコーダの現在の隠れ状態に基づいて調整された（conditioned）前記エンコードされた表現の重み付けされた要約であることができる。

前記代替表現は、前記エンコードされた表現の平均された要約であることができる。

ある別の実装では、開示される技術は、入力画像Iについての自然言語キャプションの機械生成のためのシステムを提示する。システムは数多くの並列プロセッサで走る。システムは、コンピュータ実装されるシステムであることができる。システムは、ニューラルネットワークに基づくシステムであることができる。

図１０は、次のキャプション語を発するために、言語的情報ではなく視覚的情報にどのくらい強く依拠するかを自動的に決定する、画像キャプション生成のための開示される適応注目モデルを描いている。図８のセンチネルLSTM（Sn-LSTM）は、デコーダとして、該適応注目モデルにおいて具現され、それによって実装される。図１１は、図１２に開示される適応注目モデルの一部である適応注目器のモジュールのある実装を描いている。適応注目器は空間的注目器、抽出器、センチネル・ゲート・マス決定器、センチネル・ゲート・マス・ソフトマックスおよび混合器（本稿では適応コンテキスト・ベクトル生成器または適応コンテキスト生成器とも称される）を有する。前記空間的注目器は、適応比較器、適応注目器ソフトマックスおよび適応凸組み合わせ累積器を有する。

システムは、一つまたは複数の畳み込み層を通じて入力画像を処理して、画像Iを表わす、k個の画像領域ごとの画像特徴V＝[v₁,…,v_k]、v_i∈R^dを生成するための畳み込みニューラルネットワーク（略CNN）エンコーダ（図１）を有する。CNNエンコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

システムは、各デコーダ時間ステップにおいて、画像特徴と組み合わされた、前に発されたキャプション語w_t-1を処理して、Sn-LSTMデコーダの現在の隠れ状態h_tを生成するための、センチネル長短期記憶ネットワーク（略Sn-LSTM）デコーダ（図８）を有する。Sn-LSTMデコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

システムは、図１１に示される適応注目器（adaptive attender）を有する。適応注目器は前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。適応注目器はさらに、各デコーダ時間ステップにおいて、前記画像特徴V＝[v₁,…,v_k]、v_i∈R^dに空間的に注目し、Sn-LSTMデコーダの現在の隠れ状態h_tに基づいて調整された（conditioned）画像コンテキストc_tを生成するための空間的注目器（spatial attender）（図１１および図１３）を有する。適応注目器はさらに、各デコーダ時間ステップにおいて、Sn-LSTMデコーダから、視覚センチネルS_tを抽出するための抽出器（図１１および図１３）を有する。視覚センチネルS_tは、前に処理された画像特徴から決定される視覚的コンテキストおよび前に発されたキャプション語から決定されるテキスト・コンテキストを含む。適応注目器はさらに、各デコーダ時間ステップにおいて、画像コンテキストc_tおよび視覚センチネルS_tを、適応コンテキスト＾c_tを生成するために混合Σする混合器（図１１および図１３）を有する。混合は、視覚センチネルS_tとSn-LSTMデコーダの現在の隠れ状態h_tとから決定されるセンチネル・ゲート・マスβ_tによって支配される。前記空間的注目器、前記抽出器および前記混合器はそれぞれ、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

システムは、混合器によって一連のデコーダ時間ステップにわたって生成された適応コンテキスト＾c_tに基づいて入力画像Iについての自然言語キャプションを生成するための放出器（図５および図１３）を有する。放出器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

Sn-LSTMデコーダはさらに、各デコーダ時間ステップにおいて視覚センチネルS_tを生成するための補助センチネル・ゲート（図８）を有することができる。補助センチネル・ゲートは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

適応注目器はさらに、各デコーダ時間ステップにおいて、画像特徴の注目値[λ₁,…,λ_k]と、視覚センチネルのゲート値[η_i]とを指数関数的に正規化して、注目確率マス[α₁,…,α_k]およびセンチネル・ゲート・マスβ_tの適応シーケンスφを生成するためのセンチネル・ゲート・マス・ソフトマックス（softmax）（図１１および図１３）を有することができる。センチネル・ゲート・マス・ソフトマックスは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

適応シーケンス＾α_iは

として決定できる。

上式において、[ ; ]は連結を表わし、W_sおよびW_gは重みパラメータである。W_gは式(6)と同じ重みパラメータであることができる。

が空間的画像特徴V＝[v₁,…,v_k]、v_i∈R^dおよび視覚センチネル・ベクトルS_tの両方にわたる注目分布である。ある実装では、適応シーケンスの最後の要素はセンチネル・ゲート・マスβ_t∈α_t[k+1]である。

時刻tにおける可能な語の語彙にわたる確率は、放出器の語彙ソフトマックス（図５）によって次のように決定できる。

上式において、W_Pは学習される重みパラメータである。

適応注目器はさらに、各デコーダ時間ステップにおいて、現在のデコーダ隠れ状態h_tと視覚センチネルS_tとの間の相互作用の結果としてセンチネル・ゲート・マスβ_tを生成するためのセンチネル・ゲート・マス決定器（図１１および図１３）を有することができる。センチネル・ゲート・マス決定器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

空間的注目器はさらに、各デコーダ時間ステップにおいて、現在のデコーダ隠れ状態h_tと画像特徴V＝[v₁,…,v_k]、v_i∈R^dとの間の相互作用の結果として注目値[λ₁,…,λ_k]を生成するための適応比較器（図１１および図１３）を有することができる。適応比較器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。いくつかの実装では、注目およびゲート値[λ₁,…,λ_k,η_t]は、重み行列を適用する単一層ニューラルネットワークおよび双曲線正接（tanh）押しつぶし関数（−1から1までの間の出力を生成する）を適用する非線形層を通じて現在のデコーダ隠れ状態h_t、画像特徴V＝[v₁,…,v_k]、v_i∈R^dおよびセンチネル状態ベクトルS_tを処理することによって決定される。他の実装では、いくつかの実装では、注目およびゲート値[λ₁,…,λ_k,η_t]は現在のデコーダ隠れ状態h_t、画像特徴V＝[v₁,…,v_k]、v_i∈R^dおよびセンチネル状態ベクトルS_tをドット積器または内積器を通じて処理することによって決定される。さらに他の実装では、注目およびゲート値[λ₁,…,λ_k,η_t]は現在のデコーダ隠れ状態h_t、画像特徴V＝[v₁,…,v_k]、v_i∈R^dおよびセンチネル状態ベクトルS_tを双線形形式積器（binilinear form productor）を通じて処理することによって決定される。

空間的注目器はさらに、各デコーダ時間ステップにおいて、前記画像特徴についての注目値を指数関数的に正規化して注目確率マスを生成するための適応注目器ソフトマックス（図１１および図１３）を有することができる。適応注目器ソフトマックスは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

空間的注目器はさらに、各デコーダ時間ステップにおいて、現在のデコーダ隠れ状態を使って決定される注目確率マスによってスケーリングされた画像特徴の凸組み合わせとして画像コンテキストを累積するための適応凸組み合わせ累積器（本稿では混合器または適応コンテキスト生成器または適応コンテキスト・ベクトル生成器とも称される）（図１１および図１３）を有することができる。センチネル・ゲート・マスは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

システムはさらに、トレーニング器（図２５）を有することができる。該トレーニング器はさらに、次のキャプション語が非視覚的な語であるまたは前に発されたキャプション語と言語的に相関しているときは、Sn-LSTMデコーダからの勾配のCNNエンコーダへの逆伝搬〔バックプロパゲーション〕を防止するための防止器を有する。トレーニング器および防止器はそれぞれ、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

適応注目器はさらに、次のキャプション語が視覚的な語であるときに前記画像コンテキストに向けられる注目を上昇させるための前記センチネル・ゲート・マス／ゲート確率マスβ_tを有する。適応注目器はさらに、次のキャプション語が非視覚的な語であるまたは前に発されたキャプション語と言語的に相関しているときに、前記視覚センチネルに向けられる注目を上昇させるための前記センチネル・ゲート・マス／ゲート確率マスβ_tを有する。センチネル・ゲート・マスは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

ある実装では、開示される技術は、回帰型ニューラルネットワーク・システム（略RNN）を提示する。RNNは数多くの並列プロセッサ上で走る。RNNはコンピュータ実装されるシステムであることができる。

RNNは、複数の時間ステップのそれぞれにおいて入力を受領するセンチネル長短期記憶ネットワーク（略Sn-LSTM）を有する。入力は、少なくとも、現在の時間ステップについての入力、前の時間ステップからの隠れ状態および現在の時間ステップについての補助入力を含む。Sn-LSTMは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

RNNは、Sn-LSTMの諸ゲートを通じて入力を処理することによって前記複数の時間ステップのそれぞれにおいて出力を生成する。ゲートは少なくとも、入力ゲート、忘却ゲート、出力ゲートおよび補助センチネル・ゲートを含む。各ゲートは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

RNNは（１）入力ゲート、忘却ゲートおよび出力ゲートによる前記入力の処理および（２）入力ゲート、忘却ゲートおよび出力ゲートによって生成されるゲート出力による記憶セルの更新から、時間とともに累積されたSn-LSTM補助情報を記憶セルにおいて記憶する。記憶セルは、データベースにおいて維持され、持続されることができる（図９）。

補助センチネル・ゲートは、次の予測のために記憶セルからの記憶されている補助情報を変調する。変調（modulation）は、現在の時間ステップについての入力、前の時間ステップからの隠れ状態および現在の時間ステップについての補助入力に基づいて調整される（conditioned）。

前記補助入力は、画像データを含む視覚的入力であることができ、前記入力は、最も最近発された語および／またはキャラクタのテキスト埋め込みであることができる。前記補助入力は、入力文書の別の長短期記憶ネットワーク（略LSTM）からのテキスト・エンコードであることができ、前記入力は最も最近発された語および／またはキャラクタのテキスト埋め込みであることができる。前記補助入力は、逐次的データをエンコードする別のLSTMからの隠れ状態ベクトルであることができ、前記入力は最も最近発された語および／またはキャラクタのテキスト埋め込みであることができる。前記補助入力は、逐次的データをエンコードする別のLSTMからの隠れ状態ベクトルから導出される予測であることができ、前記入力は最も最近発された語および／またはキャラクタのテキスト埋め込みであることができる。前記補助入力は畳み込みニューラルネットワーク（略CNN）の出力であることができる。補助入力は注目ネットワークの出力であることができる。

前記予測は、分類ラベル埋め込みであることができる。

前記Sn-LSTMはさらに、ある時間ステップにおいて複数の補助入力を受領するよう構成されることができ、少なくとも一つの補助入力は連結されたベクトルを含む。

前記補助入力は、初期時間ステップにおいてのみ受領されることができる。

前記補助センチネル・ゲートは、各時間ステップにおいて、前記変調された補助情報のインジケーターとして、センチネル状態を生成することができる。

前記出力は、少なくとも、現在の時間ステップについての隠れ状態と、現在の時間ステップについてのセンチネル状態とを含むことができる。

前記RNNはさらに、次の予測をするために、少なくとも、現在の時間ステップについての隠れ状態と、現在の時間ステップについてのセンチネル状態とを使うよう構成されることができる。

前記入力はさらに、バイアス入力および前記記憶セルの前の状態を含むことができる。

Sn-LSTMはさらに、入力活性化関数を含むことができる。

前記補助センチネル・ゲートは、前記記憶セルの点ごとの双曲線正接（略tanh）をゲーティングすることができる。

現在の時間ステップtにおける前記補助センチネル・ゲートは、aux_t＝σ（W_xx_t＋W_hh_t-1）として定義されることができる。ここで、W_xおよびW_hは学習されるべき重みパラメータであり、x_tは現在の時間ステップについての入力であり、aux_tは記憶セルm_tに適用される補助センチネル・ゲートであり、

は要素ごとの積を表わし、σはロジスティック・シグモイド活性化を表わす。

現在の時間ステップtにおけるセンチネル状態／視覚センチネルは

として定義される。ここで、S_tはセンチネル状態であり、aux_tは、記憶セルm_tに対して適用される補助センチネル・ゲートであり、

は要素ごとの積であり、tanhは双曲線正接活性化を表わす。

もう一つの実装では、開示される技術は、入力および前の隠れ状態と組み合わせて補助入力を処理するセンチネル長短期記憶ネットワーク（略Sn-LSTM）を提示する。Sn-LSTMは数多くの並列プロセッサ上で走る。Sn-LSTMはコンピュータ実装されるシステムであることができる。

Sn-LSTMは、Sn-LSTMの記憶セルに適用され、次の予測の間の補助情報の使用を変調する補助センチネル・ゲートを有する。補助情報は、少なくとも、前記入力および前の隠れ状態と組み合わせて補助入力を処理することから、記憶セルにおいて時間とともに累積される。補助センチネル・ゲートは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。記憶セルは、データベースにおいて維持され、持続されることができる（図９）。

前記補助センチネル・ゲートは、各時間ステップにおいて、現在の時間ステップについての入力、前の時間ステップからの隠れ状態および現在の時間ステップについての補助入力に基づいて調整された（conditioned）、前記変調された補助情報のインジケーターとして、センチネル状態を生成することができる。

さらにもう一つの実装では、開示される技術は、長短期記憶ネットワーク（略Sn-LSTM）を拡張する方法を提示する。本方法は、コンピュータ実装される方法であることができる。本方法は、ニューラルネットワークに基づく方法であることができる。

本方法は、長短期記憶ネットワーク（略LSTM）を、補助センチネル・ゲートを含むように拡張することを含む。補助センチネル・ゲートは、LSTMの記憶セルに対して適用され、次の予測の間の補助情報の使用を変調する。補助情報は、少なくとも、現在の入力および前の隠れ状態と組み合わせて補助入力を処理することから、記憶セルにおいて時間とともに累積される。

他の実装は、上記の方法を実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体（CRM）を含んでいてもよい。さらに別の実装は、メモリと、上記の方法を実行するための該メモリに記憶された命令を実行するよう動作可能な一つまたは複数のプロセッサとを含むシステムを含んでいてもよい。

あるさらなる実装では、開示される技術は、画像についての自然言語キャプションの機械生成のための回帰型ニューラルネットワーク・システム（略RNN）を提示する。RNNはコンピュータ実装されるシステムであることができる。

図９は、図８のSn-LSTMを実装する回帰型ニューラルネットワーク（略RNN）のモジュールの一つの実装を示す。

このRNNは、一連の時間ステップにわたってセンチネル長短期記憶ネットワーク（略Sn-LSTM）に複数の入力を提供するための入力提供器（図９）を有する。入力は、少なくとも、現在の時間ステップについての入力、前の時間ステップからの隠れ状態および現在の時間ステップについての補助入力を含む。入力提供器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

このRNNは、Sn-LSTMの複数のゲートにおける各ゲートを通じて入力を処理するためのゲート・プロセッサ（図９）を有する。ゲートは少なくとも、入力ゲート（図８および図９）、忘却ゲート（図８および図９）、出力ゲート（図８および図９）および補助センチネル・ゲート（図８および図９）を含む。ゲート・プロセッサは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

このRNNは、ゲート・プロセッサによる前記入力の処理から、時間とともに累積された補助情報を記憶するための、Sn-LSTMの記憶セル（図９）を有する。

このRNNは、入力ゲート（図８および図９）、忘却ゲート（図８および図９）および出力ゲート（図８および図９）によって生成されるゲート出力を用いて記憶セルを更新するための記憶セル更新器（図９）を有する。記憶セル更新器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

このRNNは、各時間ステップにおいて、記憶セルからの記憶されている補助情報を変調してセンチネル・ゲートを生成するための補助センチネル・ゲート（図８および図９）を有する。前記変調は、現在の時間ステップについての入力、前の時間ステップからの隠れ状態および現在の時間ステップについての補助入力に基づいて調整される（conditioned）。

このRNNは、補助センチネル・ゲートによって一連の時間ステップにわたって生成されるセンチネル状態に基づいて画像についての自然言語キャプションを生成するための放出器（図５）を有する。放出器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

補助センチネル・ゲートはさらに、前記入力の処理結果を所定の範囲内に押しつぶすための補助非線形層（図９）を有することができる。補助非線形層は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

Sn-LSTMはさらに、記憶セルの内容に対して非線形性を適用するための記憶非線形層（図９）を有することができる。記憶非線形層は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

Sn-LSTMはさらに、補助センチネル・ゲートからの押しつぶされた結果を、記憶セルの非線形化された内容と組み合わせて前記センチネル状態を生成するためのセンチネル状態生成器（図９）を有することができる。センチネル状態生成器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。

入力提供器（図９）は、画像データを含む視覚的な入力である前記補助入力を提供することができ、前記入力は、最も最近発された語および／またはキャラクタのテキスト埋め込みである。入力提供器（図９）は、入力文書の別の長短期記憶ネットワーク（略LSTM）からのテキスト・エンコードである補助入力を提供することができ、前記入力は最も最近発された語および／またはキャラクタのテキスト埋め込みである。入力提供器（図９）は、逐次的データをエンコードする別のLSTMからの隠れ状態ベクトルである補助入力を提供することができ、前記入力は最も最近発された語および／またはキャラクタのテキスト埋め込みである。入力提供器（図９）は、逐次的データをエンコードする別のLSTMからの隠れ状態ベクトルから導出された予測である補助入力を提供することができ、前記入力は最も最近発された語および／またはキャラクタのテキスト埋め込みである。入力提供器（図９）は、畳み込みニューラルネットワーク（略CNN）の出力である補助入力を提供することができる。入力提供器（図９）は、注目ネットワークの出力である補助入力を提供することができる。

入力提供器（図９）はさらに、ある時間ステップにおいて複数の補助入力をSn-LSTMに提供することができ、少なくとも一つの補助入力はさらに、連結された特徴を含む。

Sn-LSTMはさらに活性化ゲート（図９）を有することができる。

本願は「視覚センチネル」、「センチネル状態」、「視覚センチネル・ベクトル」および「センチネル状態ベクトル」という句を交換可能に使っている。視覚センチネル・ベクトルは、視覚センチネルを表現、特定および／または具現することができる。センチネル状態ベクトルはセンチネル状態を表現、特定および／または具現することができる。本願は「センチネル・ゲート」および「補助センチネル・ゲート」という句を交換可能に使っている。

本願は「隠れ状態」、「隠れ状態ベクトル」および「隠れ状態情報」という句を交換可能に使っている。隠れ状態ベクトルは隠れ状態を表現、特定および／または具現することができる。隠れ状態ベクトルは隠れ状態情報を表現、特定および／または具現することができる。

本願は「入力」という語、「現在の入力」という句および「入力ベクトル」という句を交換可能に使っている。入力ベクトルは入力を表現、特定および／または具現することができる。入力ベクトルは現在の入力を表現、特定および／または具現することができる。

本願は「時間」および「時間ステップ」という語を交換可能に使っている。

本願は「記憶セル状態」、「記憶セル・ベクトル」および「記憶セル状態ベクトル」という句を交換可能に使っている。記憶セル・ベクトルは記憶セル状態を表現、特定および／または具現することができる。記憶セル状態ベクトルは記憶セル状態を表現、特定および／または具現することができる。

本願は「画像特徴」、「空間的画像特徴」および「画像特徴ベクトル」という句を交換可能に使っている。画像特徴ベクトルは画像特徴を表現、特定および／または具現することができる。画像特徴ベクトルは空間的画像特徴を表現、特定および／または具現することができる。

本願は「空間的注目マップ」、「画像注目マップ」および「注目マップ」という句を交換可能に使っている。

本願は「グローバル画像特徴」および「グローバル画像特徴ベクトル」という句を交換可能に使っている。グローバル画像特徴ベクトルはグローバル画像特徴を表現、特定および／または具現することができる。

本願は「語埋め込み」および「語埋め込みベクトル」という句を交換可能に使っている。語埋め込みベクトルは語埋め込みを表現、特定および／または具現することができる。

本願は「画像コンテキスト」、「画像コンテキスト・ベクトル」および「コンテキスト・ベクトル」という句を交換可能に使っている。画像コンテキスト・ベクトルは画像コンテキストを表現、特定および／または具現することができる。コンテキスト・ベクトルは画像コンテキストを表現、特定および／または具現することができる。

本願は「適応画像コンテキスト」、「適応画像コンテキスト・ベクトル」および「適応コンテキスト・ベクトル」という句を交換可能に使っている。適応画像コンテキスト・ベクトルは適応画像コンテキストを表現、特定および／または具現することができる。適応コンテキスト・ベクトルは適応画像コンテキストを表現、特定および／または具現することができる。

本願は「ゲート確率マス」および「センチネル・ゲート・マス」という句を交換可能に使っている。

〈結果〉
図１７は、いくつかの例示的なキャプションと、キャプション中の特定の語についての空間的注目マップとを示している。我々のが人間の直観と一致する整列を学習することが見て取れる。正しくないキャプションが生成された例でも、モデルは画像中の合理的な領域を見ていた。

図１８は、我々のモデルによって生成された、いくつかの例示的な画像キャプションと、語ごとの視覚的基礎付け確率と、対応する画像／空間的注目マップとの視覚化を示している。モデルは、どのくらい強く画像に注目するかを学習し、しかるべく注目を適応させることに成功している。たとえば、「of」および「a」のような非視覚的な語については、モデルはそれほど画像に注目しない。「red」〔赤い〕、「rose」〔バラ〕、「doughnuts」〔ドーナツ〕、「woman」〔女性〕、「snowboard」〔スノーボード〕のような視覚的な語については、我々のモデルは高い視覚的基礎付け確率（0.9より上）を割り当てている。同じ語が異なるコンテキストにおいて生成されるときには異なる視覚的基礎付け確率を割り当てられることができることを注意しておく。たとえば、語「a」は典型的には文頭では高い視覚的基礎付け確率をもつ。言語コンテキストが全くなければ、モデルは複数（または非複数）を判別するために視覚的情報を必要とするからである。他方、「on a table」〔テーブルの上に〕という句での「a」の視覚的基礎付け確率はずっと低い。何かが二つ以上のテーブル上にある可能性は低いからである。

図１９は、図１８に示したのと同様の結果を、開示される技術を使って生成された、例示的な画像キャプションと、語ごとの視覚的基礎付け確率と、対応する画像／空間的注目マップとの別のセットに対して提示している。

図２０および図２１は、それぞれCOCO（common objects in context［コンテキスト中の共通オブジェクト］）およびFlickr30kデータセットに対する我々のモデルのパフォーマンスを示す例示的な順位‐確率プロットである。我々のモデルは、「dishes」〔皿〕、「people」〔人々〕、「cat」〔猫〕、「boat」〔ボート〕のようなオブジェクト語；「giant」〔巨大〕、「metal」〔金属〕、「yellow」〔黄色〕のような属性語および「three」〔三つ〕のような数詞を生成するときに、より多く画像に注目することが見て取れる。「the」、「of」、「to」などのように、語が非視覚的であるときは、我々のモデルは画像に注目しないよう学習する。「crossing」〔交差〕、「during」〔間〕などといった、より抽象的な語については、我々のモデルは視覚的な語ほどは注目せず、非視覚的な語よりは注目する。モデルは、いかなる統語的特徴または外的知識にも頼らない。学習を通じてこれらの傾向を自動的に発見する。

図２２は、上位45個の最も頻繁なCOCOオブジェクト・カテゴリーについての、生成されたキャプションについての局在化精度を示す例示的なグラフである。青色のバーは空間的注目モデルの局在化精度を示し、赤色のバーは適応注目モデルの局在化精度を示す。図２２は、「cat」〔猫〕、「bed」〔ベッド〕、「bus」〔バス〕および「truck」〔トラック〕のようなカテゴリーに対してはどちらのモデルもいい性能を発揮することを示している。「sink」〔シンク〕、「surfboard」〔サーフボード〕、「clock」〔時計〕および「frisbee」〔フリスビー〕のような、より小さなオブジェクトに対しては、どちらのモデルもいい性能を発揮していない。これは、空間的注目マップは7×7の特徴マップから直接スケーリングされており、それによりかなりの空間的情報および詳細が失われるからである。

図２３は、さまざまな自然言語処理メトリックに基づく、Flicker30kおよびCOCOデータセットに対する、開示される技術のパフォーマンスを示すテーブルである。該メトリックは、BLEU（bilingual evaluation understudy）、METEOR（metric for evaluation of translation with explicit ordering）、CIDEr（consensus-based image description evaluation）、ROUGE-L（recall-oriented understudy for gisting evaluation-longest common subsequence）およびSPICE（semantic propositional image caption evaluation）を含む。図２３のテーブルは、我々の適応注目モデルが、我々の空間的注目モデルよりも有意によい性能であることを示している。Flickr30kデータベースに対して、我々の適応注目モデルのCIDErスコア・パフォーマンスは、空間的注目モデルについての0.493に対して、0.531である。同様に、COCOデータベースに対する適応注目モデルおよび空間的注目モデルのCIDErスコアはそれぞれ1.085および1.029である。

図２４において、公開されている先端技術のリーダーボードに示されるように、COCO評価サーバー上で我々のモデルを先端技術システムと比較する。このリーダーボードから、我々の手法が、公開されているシステムのうちであらゆるメトリックで最良のパフォーマンスを達成し、よって有意な差で新しい先端技術を設定することが見て取れる。

〈コンピュータ・システム〉
図２５は、開示される技術を実装するために使われることのできるコンピュータ・システムの簡略化されたブロック図である。コンピュータ・システムは、バス・サブシステムを介していくつかの周辺装置と通信する少なくとも一つの中央処理ユニット（CPU）を含む。これらの周辺装置は、たとえばメモリ・デバイスおよびファイル記憶サブシステムを含む記憶サブシステムと、ユーザー・インターフェース入力装置と、ユーザー・インターフェース出力装置と、ネットワーク・インターフェース・サブシステムとを含むことができる。入力装置および出力装置はコンピュータ・システムとのユーザー対話を許容する。ネットワーク・インターフェース・サブシステムは、他のコンピュータ・システムにおける対応するインターフェース装置へのインターフェースを含む外部ネットワークへのインターフェースを提供する。

ある実装では、少なくとも前記空間的注目モデル、前記コントローラ、前記局在化器（図２５）、前記トレーニング器（これは前記防止器を有する）、前記適応注目モデルおよび前記センチネルLSTM（Sn-LSTM）は前記記憶サブシステムおよび前記ユーザー・インターフェース入力装置に通信可能にリンクされる。

ユーザー・インターフェース入力装置はキーボード；マウス、トラックボール、タッチパッドまたはグラフィックタブレットのようなポインティングデバイス；スキャナー；ディスプレイに組み込まれたタッチスクリーン；音声認識システムおよびマイクロフォンのようなオーディオ入力装置；および他の型の入力装置を含むことができる。一般に、「入力装置」という用語の使用は、コンピュータ・システムに情報を入力するためのあらゆる可能な型の装置および方法を含むことが意図されている。

ユーザー・インターフェース出力装置は表示サブシステム、プリンター、ファクス機またはオーディオ出力装置のような非視覚的ディスプレイを含むことができる。表示サブシステムは、陰極線管（CRT）、液晶ディスプレイ（LCD）のようなフラットパネル装置、投影装置または可視画像を生成するための他の何らかの機構を含みうる。前記表示サブシステムはまた、オーディオ出力装置を介してなど、非視覚的ディスプレイをも設けてもよい。一般に、「出力装置」という用語の使用は、コンピュータ・システムからユーザーまたは別の機械もしくはコンピュータ・システムに情報を出力するためのあらゆる可能な型の装置および方法を含むことが意図されている。

記憶サブシステムは、本稿に記載されるモジュールおよび方法の一部または全部のものの機能を提供するプログラミングおよびデータ構造体を記憶する。これらのソフトウェア・モジュールは一般に、深層学習プロセッサによって実行される。

深層学習プロセッサは、グラフィック処理ユニット（GPU）またはフィールドプログラマブルゲートアレイ（FPGA）であることができる。深層学習プロセッサは、Google Cloud Platform（商標）、Xilinx（商標）およびCirrascale（商標）のような深層学習クラウド・プラットフォームによってホストされることができる。深層学習プロセッサの例はGoogleのTensor Processing Unit (TPU)（商標）、ラックマウント解決策、たとえばGX4 Rackmount Series（商標）、GX8 Rackmount Series（商標）、NVIDIA DGX-1（商標）、MicrosoftのStratix V FPGA（商標）、GraphcoreのIntelligent Processor Unit (IPU)（商標）、Qualcommの、Snapdragon processors（商標）と一緒にZeroth Platform（商標）、NVIDIAのVolta（商標）、NVIDIAのDRIVE PX（商標）、NVIDIAのJETSON TX1/TX2 MODULE（商標）、IntelのNirvana（商標）、Movidius VPU（商標）、Fujitsu DPI（商標）、ARMのDynamicIQ（商標）、IBM TrueNorth（商標）などを含む。

記憶サブシステムにおいて使用されるメモリ・サブシステムは、プログラム実行中に命令およびデータを記憶するためのメイン・ランダムアクセスメモリ（RAM）および固定した命令が記憶されるリードオンリーメモリ（ROM）を含むいくつかのメモリを含むことができる。ファイル記憶サブシステムは、プログラムおよびデータ・ファイルのための持続的記憶装置を提供することができ、ハードディスクドライブ、関連のリムーバブル媒体と一緒のフロッピーディスクドライブ、CD-ROMドライブ、光学式ドライブまたはリムーバブル媒体カートリッジを含むことができる。ある種の実装の機能を実装するモジュールは、記憶サブシステム内のファイル記憶サブシステムによって、あるいはプロセッサによってアクセス可能な他のマシンに記憶されることができる。

バス・サブシステムは、コンピュータ・システムのさまざまなコンポーネントおよびサブシステムが意図したように互いと通信するようにする機構を提供する。バス・サブシステムは、単一のバスとして概略的に示されているが、バス・サブシステムの代替的な実装は複数のバスを使用してもよい。

コンピュータ・システムは、パーソナル・コンピュータ、ポータブル・コンピュータ、ワークステーション、コンピュータ端末、ネットワーク・コンピュータ、テレビジョン、メインフレーム、サーバーファーム、ゆるくネットワーク接続されたコンピュータの広く分散された集合または他の任意のデータ処理システムもしくはユーザー装置を含む多様な型であることができる。コンピュータおよびネットワークの絶えず変化する性質のため、図１３に描かれるコンピュータ・システムの記述は、本発明のいくつかの実施形態を例解するための具体例としてのみ意図されている。図１３に描かれるコンピュータ・システムよりも多数または少数のコンポーネントを有する、コンピュータ・システムの他の多くの構成が可能である。

上記の記述は、開示される技術の作成および利用を可能にするために提示されている。開示される実装へのさまざまな修正が明白であろう。本稿で定義される一般原理は、開示される技術の精神および範囲から外れることなく、他の実装および用途に適用されてもよい。このように、開示される技術は示されている実装に限定されることは意図されておらず、本稿に開示される原理および特徴と整合する最も広い範囲を与えられるべきである。開示される技術の範囲は付属の請求項によって定義される。

上記の記述は、開示される技術の作成および利用を可能にするために提示されている。開示される実装へのさまざまな修正が明白であろう。本稿で定義される一般原理は、開示される技術の精神および範囲から外れることなく、他の実装および用途に適用されてもよい。このように、開示される技術は示されている実装に限定されることは意図されておらず、本稿に開示される原理および特徴と整合する最も広い範囲を与えられるべきである。開示される技術の範囲は付属の請求項によって定義される。
いくつかの態様を記載しておく。
〔態様１〕
画像についての自然言語キャプションの機械生成のための、数多くの並列プロセッサ上で稼働する、画像から言語へのキャプション生成システムであって、当該システムは：
畳み込みニューラルネットワーク（略CNN）を通じて前記画像を処理して、前記画像の諸領域についての画像特徴を生成するエンコーダと；
前記画像特徴を組み合わせることによって前記画像についてのグローバル画像特徴を生成するグローバル画像特徴生成器と；
初期デコーダ時間ステップにおいてはキャプション開始トークンおよび前記グローバル画像特徴の組み合わせとして、一連のデコーダ時間ステップにおいては最も最近発されたキャプション語および前記グローバル画像特徴の組み合わせとして、デコーダへの入力を提供する入力準備器と；
長短期記憶ネットワーク（略LSTM）を通じて前記入力を処理して、各デコーダ時間ステップにおける現在のデコーダ隠れ状態を生成する前記デコーダと；
各デコーダ時間ステップにおいて、前記現在のデコーダ隠れ状態を使って決定された注目確率マスによってスケーリングされた前記画像特徴の凸組み合わせとして、画像コンテキストを累積する注目器と；
前記画像コンテキストおよび前記現在のデコーダ隠れ状態を処理して、各デコーダ時間ステップにおいて次のキャプション語を発するフィードフォワード・ニューラルネットワークと；
発される次のキャプション語がキャプション終了トークンになるまで前記画像についての前記自然言語キャプションを生成するよう、前記入力準備器、前記デコーダ、前記注目器および前記フィードフォワード・ニューラルネットワークを逐次反復させるコントローラとを有する、
システム。
〔態様２〕
前記注目器がさらに、各デコーダ時間ステップにおいて前記注目確率マスを生成するために注目値を指数関数的に正規化する注目器ソフトマックスを有する、態様１記載のシステム。
〔態様３〕
前記注目器がさらに、各デコーダ時間ステップにおいて、前記注目値を、前記現在のデコーダ隠れ状態と前記画像特徴との間の相互作用の結果として生成するための比較器を有する、態様１または２記載のシステム。
〔態様４〕
前記デコーダがさらに、各デコーダ時間ステップにおいて現在のデコーダ入力および前のデコーダ隠れ状態に基づいて前記現在のデコーダ隠れ状態を決定するために、少なくとも入力ゲート、忘却ゲートおよび出力ゲートを有する、態様１ないし３のうちいずれか一項記載のシステム。
〔態様５〕
前記注目器がさらに、各時間ステップにおいて各画像領域に割り振られる空間的注目の量を、前記現在のデコーダ隠れ状態に基づいて調整されて、同定するよう前記画像コンテキストを生成するための凸組み合わせ累積器を有する、態様１ないし４のうちいずれか一項記載のシステム。
〔態様６〕
弱教師付き局在化に基づいて前記割り振られた空間的注目を評価する局在化器をさらに有する、態様１ないし５のうちいずれか一項記載のシステム。
〔態様７〕
各デコーダ時間ステップにおいて前記画像コンテキストおよび前記現在のデコーダ隠れ状態に基づいて出力を生成する前記フィードフォワード・ニューラルネットワークをさらに有する、態様１ないし６のうちいずれか一項記載のシステム。
〔態様８〕
各デコーダ時間ステップにおいて、前記出力を使って、語彙内の語に対する語彙確率マスの正規化された分布を決定する語彙ソフトマックスをさらに有する、態様１ないし７のうちいずれか一項記載のシステム。
〔態様９〕
前記語彙確率マスが、語彙語が次のキャプション語であるそれぞれの確からしさを同定する、態様１ないし８のうちいずれか一項記載のシステム。
〔態様１０〕
画像についての自然言語キャプションの機械生成のための、数多くの並列プロセッサ上で稼働する、画像から言語へのキャプション生成システムであって、当該システムは：
少なくとも現在の隠れ状態情報を使って、画像からエンコーダによって生成された画像特徴ベクトルについて注目マップを生成し、前記画像特徴ベクトルの重み付けされた和に基づいて出力キャプション語を生成させる注目遅れ型デコーダを有しており、重みは前記注目マップから決定される、
システム。
〔態様１１〕
前記現在の隠れ状態情報が、前記デコーダへの現在の入力および前の隠れ状態情報に基づいて決定される、態様１０記載のシステム。
〔態様１２〕
前記エンコーダは、畳み込みニューラルネットワーク（略CNN）であり、前記画像特徴ベクトルは前記CNNの最後の畳み込み層によって生成される、態様１０または１１記載のシステム。
〔態様１３〕
前記注目遅れ型デコーダは、長短期記憶ネットワーク（略LSTM）である、態様１０ないし１２のうちいずれか一項記載のシステム。
〔態様１４〕
画像についての自然言語キャプションの機械生成の方法であって、当該方法は：
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定する段階と；
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する段階と；
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルについての正規化されていない注目値を決定し、前記注目値を指数関数的に正規化して注目確率マスを生成する段階と；
前記画像特徴ベクトルに前記注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、前記画像特徴ベクトルの重み付けされた和を累積する段階と；
前記画像コンテキスト・ベクトルと前記デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークに次のキャプション語を発させる段階と；
前記デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返す段階とを含む、
方法。
〔態様１５〕
前記デコーダの前記現在の隠れ状態は、前記デコーダへの現在の入力および前記デコーダの前の隠れ状態に基づいて決定される、態様１４記載の方法。
〔態様１６〕
画像についての自然言語キャプションの機械生成のための方法であって、当該方法は：
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成することと；
初期時間ステップにおいてキャプション開始トークンで始まり、一連の時間ステップにおいて最も最近発されたキャプション語をデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することと；
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルから、前記画像の諸領域に割り振られる注目の量を、前記デコーダの前記現在の隠れ状態に基づいて調整されて、決定する画像コンテキスト・ベクトルを決定することと；
前記画像コンテキスト・ベクトルを前記デコーダに供給しないことと；
前記画像コンテキスト・ベクトルと前記デコーダの前記現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークにキャプション語を発させることと；
前記デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返すこととを含む、
方法。
〔態様１７〕
メモリに結合された数多くの並列プロセッサを含むシステムであって、前記メモリは、画像についての自然言語キャプションを生成するための決定器命令をロードされており、前記命令は、前記並列プロセッサ上で実行されるときに：
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定する段階と；
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する段階と；
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルについての正規化されていない注目値を決定し、前記注目値を指数関数的に正規化して注目確率マスを生成する段階と；
前記画像特徴ベクトルに前記注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、前記画像特徴ベクトルの重み付けされた和を累積する段階と；
前記画像コンテキスト・ベクトルと前記デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークに次のキャプション語を発させる段階と；
前記デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返す段階とを含むアクションを実装するものである、
システム。
〔態様１８〕
画像についての自然言語キャプションを生成するための決定器プログラム命令を印加された非一時的な決定器可読記憶媒体であって、前記命令は、数多くの並列プロセッサ上で実行されるときに：
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定する段階と；
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する段階と；
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルについての正規化されていない注目値を決定し、前記注目値を指数関数的に正規化して注目確率マスを生成する段階と；
前記画像特徴ベクトルに前記注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、前記画像特徴ベクトルの重み付けされた和を累積する段階と；
前記画像コンテキスト・ベクトルと前記デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークに次のキャプション語を発させる段階と；
前記デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返す段階とを含む方法を実装するものである、
媒体。
〔態様１９〕
メモリに結合された数多くの並列プロセッサを含むシステムであって、前記メモリは、画像についての自然言語キャプションを生成するための決定器命令をロードされており、前記命令は、前記並列プロセッサ上で実行されるときに：
注目遅れデコーダの現在の隠れ状態情報を使って、画像からエンコーダによって生成された画像特徴ベクトルについて注目マップを生成し、前記画像特徴ベクトルの重み付けされた和に基づいて出力キャプション語を生成することを含むアクションを実装するものであり、前記重みは前記注目マップから決定される、
システム。
〔態様２０〕
画像についての自然言語キャプションを生成するための決定器プログラム命令を印加された非一時的な決定器可読記憶媒体であって、前記命令は、数多くの並列プロセッサ上で実行されるときに：
注目遅れデコーダの現在の隠れ状態情報を使って、画像からエンコーダによって生成された画像特徴ベクトルについて注目マップを生成し、前記画像特徴ベクトルの重み付けされた和に基づいて出力キャプション語を生成することを含む方法を実装するものであり、前記重みは前記注目マップから決定される、
媒体。
〔態様２１〕
メモリに結合された数多くの並列プロセッサを含むシステムであって、前記メモリは、画像についての自然言語キャプションを生成するための決定器命令をロードされており、前記命令は、前記並列プロセッサ上で実行されるときに：
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定することと；
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することと；
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルから、前記画像の諸領域に割り振られる注目の量を、前記デコーダの前記現在の隠れ状態に基づいて調整されて、決定する画像コンテキスト・ベクトルを決定することと；
前記画像コンテキスト・ベクトルを前記デコーダに供給しないことと；
前記画像コンテキスト・ベクトルと前記デコーダの前記現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークにキャプション語を発させることと；
前記デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返すこととを含むアクションを実装するものである、
システム。
〔態様２２〕
画像についての自然言語キャプションを生成するための決定器プログラム命令を印加された非一時的な決定器可読記憶媒体であって、前記命令は、数多くの並列プロセッサ上で実行されるときに：
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定することと；
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することと；
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルから、前記画像の諸領域に割り振られる注目の量を、前記デコーダの前記現在の隠れ状態に基づいて調整されて、決定する画像コンテキスト・ベクトルを決定することと；
前記画像コンテキスト・ベクトルを前記デコーダに供給しないことと；
前記画像コンテキスト・ベクトルと前記デコーダの前記現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークにキャプション語を発させることと；
前記デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返すこととを含む方法を実装するものである、
媒体。

〈付録〉

Claims

画像についての自然言語キャプションの機械生成のための、数多くの並列プロセッサ上で稼働する、画像から言語へのキャプション生成システムであって、当該システムは：
畳み込みニューラルネットワーク（CNN）を通じて前記画像を処理して、前記画像の諸領域についての画像特徴を生成するエンコーダと；
前記画像特徴を組み合わせることによって前記画像についてのグローバル画像特徴を生成するグローバル画像特徴生成器と；
初期デコーダ時間ステップにおいてはキャプション開始トークンおよび前記グローバル画像特徴の組み合わせとして、一連のデコーダ時間ステップにおいては最も最近発されたキャプション語および前記グローバル画像特徴の組み合わせとして、デコーダへの入力を提供する入力準備器と；
長短期記憶ネットワーク（LSTM）を通じて前記入力を処理して、各デコーダ時間ステップにおける現在のデコーダ隠れ状態を生成する前記デコーダと；
各デコーダ時間ステップにおいて、前記現在のデコーダ隠れ状態を使って決定された注目確率マスによってスケーリングされた前記画像特徴の凸組み合わせとして、画像コンテキストを累積する注目器と；
前記画像コンテキストおよび前記現在のデコーダ隠れ状態を処理して、各デコーダ時間ステップにおいて次のキャプション語を発するフィードフォワード・ニューラルネットワークと；
発される次のキャプション語がキャプション終了トークンになるまで前記画像についての前記自然言語キャプションを生成するよう、前記入力準備器、前記デコーダ、前記注目器および前記フィードフォワード・ニューラルネットワークを逐次反復させるコントローラとを有する、
システム。
前記注目器がさらに、各デコーダ時間ステップにおいて前記注目確率マスを生成するために注目値を指数関数的に正規化する注目器ソフトマックスを有する、請求項１記載のシステム。
前記注目器がさらに、各デコーダ時間ステップにおいて、前記注目値を、前記現在のデコーダ隠れ状態と前記画像特徴との間の重み付けされた組み合わせの結果として生成するための比較器を有する、請求項２記載のシステム。
前記デコーダがさらに、各デコーダ時間ステップにおいて現在のデコーダ入力および前のデコーダ隠れ状態に基づいて前記現在のデコーダ隠れ状態を決定するために、少なくとも入力ゲート、忘却ゲートおよび出力ゲートを有する、請求項１ないし３のうちいずれか一項記載のシステム。
前記注目器がさらに、各時間ステップにおいて各画像領域に割り振られる空間的注目の量を、前記現在のデコーダ隠れ状態に基づいて調整されて、同定するよう前記画像コンテキストを生成するための凸組み合わせ累積器を有する、請求項１ないし４のうちいずれか一項記載のシステム。
各デコーダ時間ステップにおいて前記画像コンテキストおよび前記現在のデコーダ隠れ状態に基づいて出力を生成する前記フィードフォワード・ニューラルネットワークをさらに有する、請求項１ないし５のうちいずれか一項記載のシステム。
各デコーダ時間ステップにおいて、前記出力を使って、語彙内の語に対する語彙確率マスの正規化された分布を決定する語彙ソフトマックスをさらに有する、請求項６記載のシステム。
前記語彙確率マスが、語彙語が次のキャプション語であるそれぞれの確からしさを同定する、請求項７記載のシステム。
メモリに結合された数多くの並列プロセッサを含むシステムであって、前記メモリは、画像についての自然言語キャプションを生成するための決定器命令をロードされており、前記命令は、前記並列プロセッサ上で実行されるときに：
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定する段階と；
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する段階と；
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルについての正規化されていない注目値を決定し、前記注目値を指数関数的に正規化して注目確率マスを生成する段階と；
前記画像特徴ベクトルに前記注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、前記画像特徴ベクトルの重み付けされた和を累積する段階と；
前記画像コンテキスト・ベクトルと前記デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークに次のキャプション語を発させる段階と；
前記デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返す段階とを含むアクションを実装するものである、
システム。
画像についての自然言語キャプションを生成するための決定器プログラム命令を印加された非一時的な決定器可読記憶媒体であって、前記命令は、数多くの並列プロセッサ上で実行されるときに：
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定する段階と；
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する段階と；
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルについての正規化されていない注目値を決定し、前記注目値を指数関数的に正規化して注目確率マスを生成する段階と；
前記画像特徴ベクトルに前記注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、前記画像特徴ベクトルの重み付けされた和を累積する段階と；
前記画像コンテキスト・ベクトルと前記デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークに次のキャプション語を発させる段階と；
前記デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返す段階とを含む方法を実装するものである、
媒体。
メモリに結合された数多くの並列プロセッサを含むシステムであって、前記メモリは、画像についての自然言語キャプションを生成するための決定器命令をロードされており、前記命令は、前記並列プロセッサ上で実行されるときに：
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定することと；
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することと；
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルから、前記画像の諸領域に割り振られる注目の量を、前記デコーダの前記現在の隠れ状態に基づいて調整されて、決定する画像コンテキスト・ベクトルを決定することと；
前記画像コンテキスト・ベクトルを前記デコーダに供給しないことと；
前記画像コンテキスト・ベクトルと前記デコーダの前記現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークにキャプション語を発させることと；
前記デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返すこととを含むアクションを実装するものである、
システム。
画像についての自然言語キャプションを生成するための決定器プログラム命令を印加された非一時的な決定器可読記憶媒体であって、前記命令は、数多くの並列プロセッサ上で実行されるときに：
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定することと；
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することと；
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルから、前記画像の諸領域に割り振られる注目の量を、前記デコーダの前記現在の隠れ状態に基づいて調整されて、決定する画像コンテキスト・ベクトルを決定することと；
前記画像コンテキスト・ベクトルを前記デコーダに供給しないことと；
前記画像コンテキスト・ベクトルと前記デコーダの前記現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークにキャプション語を発させることと；
前記デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返すこととを含む方法を実装するものである、
媒体。