JP6689461B2 - 画像キャプション生成のための空間的注目モデル - Google Patents

画像キャプション生成のための空間的注目モデル Download PDF

Info

Publication number
JP6689461B2
JP6689461B2 JP2019526275A JP2019526275A JP6689461B2 JP 6689461 B2 JP6689461 B2 JP 6689461B2 JP 2019526275 A JP2019526275 A JP 2019526275A JP 2019526275 A JP2019526275 A JP 2019526275A JP 6689461 B2 JP6689461 B2 JP 6689461B2
Authority
JP
Japan
Prior art keywords
image
decoder
caption
word
image feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019526275A
Other languages
English (en)
Other versions
JP2019537147A (ja
Inventor
ルー,ジアセン
ション,カイミング
ソーチャー,リチャード
Original Assignee
セールスフォース ドット コム インコーポレイティッド
セールスフォース ドット コム インコーポレイティッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by セールスフォース ドット コム インコーポレイティッド, セールスフォース ドット コム インコーポレイティッド filed Critical セールスフォース ドット コム インコーポレイティッド
Priority claimed from PCT/US2017/062433 external-priority patent/WO2018094294A1/en
Publication of JP2019537147A publication Critical patent/JP2019537147A/ja
Priority to JP2020068779A priority Critical patent/JP6946508B2/ja
Application granted granted Critical
Publication of JP6689461B2 publication Critical patent/JP6689461B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/955Hardware or software architectures specially adapted for image or video understanding using specific electronic processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

関連出願への相互参照
本願は2016年11月18日に出願された「SPATIAL ATTENTION MODEL FOR IMAGE CAPTIONING」と題する米国仮特許出願第62/424,353号(代理人整理番号SALE1184-1/1950PROV)の利益を主張するものである。この優先権仮出願はここに参照によってあらゆる目的について組み込まれる。
本願は2017年11月17日に出願された「SPATIAL ATTENTION MODEL FOR IMAGE CAPTIONING」と題する米国非仮特許出願第15/817,153号(代理人整理番号SALE1184-2/1950US1)の利益を主張するものである。この優先権仮出願はここに参照によってあらゆる目的について組み込まれる。
本願は2017年11月17日に出願された「ADAPTIVE ATTENTION MODEL FOR IMAGE CAPTIONING」と題する米国非仮特許出願第15/817,161号(代理人整理番号SALE1184-2/1950US2)の利益を主張するものである。この優先権仮出願はここに参照によってあらゆる目的について組み込まれる。
本願は2017年11月18日に出願された「SENTINEL LONG SHORT-TERM MEMORY (Sn-LSTM)」と題する米国非仮特許出願第15/817,165号(代理人整理番号SALE1184-2/1950US3)の利益を主張するものである。この優先権仮出願はここに参照によってあらゆる目的について組み込まれる。
本願は2017年1月31日に出願された「POINTER SENTINEL MIXTURE MODELS」と題する米国非仮特許出願第15/421,016号(代理人整理番号SALE1174-4/1863US)をあらゆる目的について参照によって組み込む。
本願は2016年11月4日に出願された「QUASI-RECURRENT NEURAL NETWORK」と題する米国非特許出願第62/417,334号(代理人整理番号SALE1174-3/1863PROV3)をあらゆる目的について参照によって組み込む。
本願は2017年1月31日に出願された「QUASI-RECURRENT NEURAL NETWORK」と題する米国非仮特許出願第15/420,710号(代理人整理番号SALE1180-3/1946US)をあらゆる目的について参照によって組み込む。
本願は2016年11月4日に出願された「QUASI-RECURRENT NEURAL NETWORK」と題する米国非特許出願第62/418,075号(代理人整理番号SALE1180-2/1946PROV2)をあらゆる目的について参照によって組み込む。
開示される技術の分野
開示される技術は、人工知能型コンピュータおよびデジタル・データ処理システムならびに知性のエミュレーションのための対応するデータ処理方法およびプロダクトに関するものであり(すなわち、知識ベースのシステム、推論システムおよび知識収集システム)、不確定性のある推論のためのシステム(たとえばファジー論理システム)、適応システム、機械学習システムおよび人工ニューラルネットワークを含む。開示される技術は概括的には、新規の視覚的注目ベースのエンコーダ‐デコーダ画像キャプション生成モデルに関する。開示される技術の一つの側面は、画像キャプション生成の間に空間的画像特徴を抽出するための新規の空間的注目モデルに関する。空間的注目モデル(spatial attention model)は、以前の隠れ情報または以前に放出された語を使うのではなく、注目を案内するためにデコーダの長短期記憶(LSTM: long short-term memory)の現在の隠れ状態情報を使う。開示される技術のもう一つの側面は、畳み込みニューラルネットワーク(CNN: convolutional neural network)からの視覚的情報およびLSTMからの言語情報を混合する画像キャプション生成のための新規の適応的な注目モデルに関する。各時間ステップにおいて、適応注目モデルは、次のキャプション語を発するために、どのくらい強く、言語モデルではなく画像に依存するかを自動的に決定する。開示される技術のさらにもう一つの側面は、LSTMアーキテクチャーに新たな補助センチネル・ゲートを追加し、センチネルLSTM(Sn-LSTM: sentinel LSTM)を生成することに関する。センチネル・ゲートは、各時間ステップにおいて視覚センチネルを生成し、該視覚センチネルは、LSTMの記憶から導出される、長期および短期の視覚的および言語的情報の追加的な表現である。
本節で論じられる主題は、単に本節における言及の結果として従来技術であると想定されるべきではない。同様に、本節において言及されるまたは背景として提供される主題に関連する問題は、従来技術において以前に認識されていたと想定されるべきではない。本節の主題は単に種々の手法を表わすものであり、かかる手法自身も特許請求される技術の実装に対応することができる。
画像キャプション生成(image captioning)は、コンピュータビジョンおよび機械学習においてますます関心を集めつつある。基本的には、画像キャプション生成は、自然言語文を使って画像の内容を自動的に記述することを機械に要求する。このタスクは人間にとっては自明に思えるが、オブジェクトの運動およびアクションといった画像内のさまざまな内容的な特徴を言語モデルが捉えることを要求するので、機械にとっては複雑である。画像キャプション生成、特に生成モデルについてのもう一つの困難は、生成された出力が人間的な自然文であるべきである、ということである。
機械学習における深層ニューラルネットワークの近年の成功は、画像キャプション生成の問題を解決することにおけるニューラルネットワークの採用の触媒となった。その発想は、ニューラル機械翻訳におけるエンコーダ‐デコーダ・アーキテクチャーに由来する。該アーキテクチャーでは、入力画像を特徴ベクトルにエンコードするために畳み込みニューラルネットワーク(CNN)が採用され、シーケンス・モデリング手法(たとえば長短期記憶(LSTM))が特徴ベクトルを単語のシーケンスにデコードする。
画像キャプション生成におけるたいていの近年の業績は、この構造に依拠し、画像案内、属性、領域注目またはテキスト注目を注目ガイドとして利用する。図2Aは、注目を案内し、画像キャプションを生成するために以前の隠れ状態情報を使う注目進み型デコーダ(attention leading decoder)を示している(従来技術)。
よって、注目ベースの画像キャプション生成モデルの性能を改善する機会が生じる。
画像についてのキャプションを自動的に生成することは、学術界および産業界の両方において顕著な学際的な研究課題として登場している。それにより、視覚障害のあるユーザーを補助することができ、ユーザーが大量の典型的には構造化されていない視覚的データを整理し、ナビゲートすることを容易にする。高品質のキャプションを生成するためには、画像キャプション生成モデルは、画像から粒度の細かい視覚的手がかりを取り込む必要がある。近年、視覚的な注目ベースのニューラル・エンコーダ‐デコーダ・モデルが研究されており、該モデルでは、注目機構は典型的には、それぞれの生成される語に関連性のある画像領域をハイライトする空間的マップを生成する。
画像キャプション生成および視覚的質問回答のためのたいていの注目モデルは、次にどの語が発されるかにかかわりなく、すべての時間ステップにおいて画像に注意を払う。しかしながら、キャプションにおけるすべての語が対応する視覚的信号をもつわけではない。画像およびその生成されたキャプション「a white bird perched on top of a red top sign」〔白い鳥が赤い停止標識の上に止まった〕を示す図16の例を考える。単語「a」および「of」は対応する正準的な視覚的信号をもたない。さらに、言語的な相関のため、「perched」〔止まった〕に続く「on」および「top」ならびに「a red stop」〔赤い停止〕に続く「sign」〔標識〕のような単語を生成するときには、視覚的信号は不要になる。さらに、非視覚的な単語でのトレーニングは、キャプションの生成において、より悪い性能につながることがある。非視覚的な単語からの勾配が、ミスリーディングになり、キャプション生成プロセスを案内することにおいて視覚的信号の全体的な有効性を減じることがありうるからである。
よって、注目ベースの視覚的ニューラル・エンコーダ‐デコーダ・モデルによるキャプション生成の間に目標画像に与えられるべき重要度を決定する機会が生じる。
深層ニューラルネットワーク(DNN: deep neural network)は、発話および視覚を含む多くの分野で応用されて成功を収めている。自然言語処理タスクについては、回帰型ニューラルネットワーク(RNN: recurrent neural network)が、長期依存性を記憶できるため、広く使われている。RNNを含む深層ネットワークをトレーニングすることの問題は、勾配減少(gradient diminishing)と爆発(explosion)である。長短期記憶(LSTM)ニューラルネットワークは、この問題を解決するRNNの拡張である。LSTMでは、記憶セルはその現在の活動およびその過去の活動の線形依存性をもつ。忘却ゲートが、過去と現在の活動の間の情報の流れを変調するために使われる。LSTMでは、その入力および出力を変調するための入力および出力ゲートをももつ。
LSTMにおける出力語の生成は、現在の時間ステップにおける入力と前の隠れ状態とに依存する。しかしながら、LSTMは、現在の入力および前の隠れ状態に加えて補助入力をも出力の条件とするよう構成されてきた。たとえば、画像キャプション生成モデルにおいて、LSTMは、種々の段における言語的な選択に影響するよう、画像特徴によって提供される外部の視覚的情報を組み込む。画像キャプション生成器として、LSTMは入力として、最も最近発されたキャプション語および前の隠れ状態のみならず、キャプション付けされている画像の領域特徴(regional feature)(通例、畳み込みニューラルネットワーク(CNN)における隠れ層の活性化値から導出される)をも取る。次いで、LSTMは画像‐キャプション混合をベクトル化して、このベクトルが次のキャプション語を予測するために使用できるようにするようトレーニングされる。
他の画像キャプション生成モデルは、画像から抽出された外部の意味的情報を、各LSTMゲートへの補助入力として使う。さらに他のテキスト要約および質問回答モデルでは、第一のLSTMによって生成される文書または質問のテキスト・エンコードが第二のLSTMに補助入力として提供される。
補助入力は、視覚的なまたはテキストによる補助的な情報を担う。それは別のLSTMによって外部で生成され、あるいは別のLSTMの隠れ状態から外部で導出されることができる。補助情報は、CNN、多層パーセプトロン、注目ネットワークまたは別のLSTMのような外部源によって提供されることもできる。補助情報は、初期時間ステップにおいて一度だけLSTMに供給されることができ、または各時間ステップにおいて逐次的に供給されることができる。
しかしながら、制御されない補助情報をLSTMに供給することは、劣った結果を生じることがある。LSTMは補助情報からのノイズを利用してしまい、過剰適合(overfit)しやすくなることがあるからである。この問題に対処するために、我々は、次の出力生成のための補助情報の使用をゲーティングし、案内する追加的な制御ゲートをLSTMに導入する。
よって、次の出力生成のためにLSTMに記憶されている補助情報に与えられるべき重要度を決定する補助センチネル・ゲートを含むようLSTMアーキテクチャーを拡張する機会が生じる。
図面において、同様の参照符号は一般に、種々の図を通じて同様の部分を指す。また、諸図面は必ずしも同縮尺ではなく、その代わりに開示される技術の原理を例解することに重点が置かれている。以下の記述では、開示される技術のさまざまな実装が、以下の図面を参照して記述される。
畳み込みニューラルネットワーク(略CNN)を通じて画像を処理して画像の諸領域の画像特徴を生成するエンコーダを示す。
Aは、前の隠れ状態情報を使って注目を案内し、画像キャプションを生成する注目進み型デコーダを示す(従来技術)。
Bは、現在の隠れ状態情報を使って注目を案内し、画像キャプションを生成する注目遅れ型デコーダを開示する。
Aは、図1のCNNエンコーダによって生成される画像特徴を組み合わせることによって画像についてのグローバル画像特徴を生成するグローバル画像特徴生成器を描く。
Bは、高次元埋め込み空間において語をベクトル化する語埋め込み器である。
Cは、デコーダへの入力を準備し、提供する入力準備器である。
図6に開示される空間的注目モデルの一部である注目器のモジュールの一つの実装を描く。
開示される技術のさまざまな側面において使われる放出器のモジュールの一つの実装を示す。放出器は、フィードフォワード・ニューラルネットワーク(本稿では多層パーセプトロン(MLP: multilayer perceptron)とも称される)、語彙ソフトマックス(本稿では語彙確率マス生成器(vocabulary probability mass producer)とも称される)および語埋め込み器(本稿では埋め込み器とも称される)を含む。
複数の時間ステップを通じて展開される画像キャプション生成のための開示される空間的注目モデルを示す。図2のBの注目遅れ型デコーダは、該空間的注目モデルにおいて具現され、それによって実装される。
図6の空間的注目モデルによって適用される空間的注目を使う画像キャプション生成の一つの実装を描く。
センチネル状態を生成する補助センチネル・ゲートを有する開示されるセンチネルLSTM(Sn-LSTM)の一つの実装を示す図である。
図8のSn-LSTMを実装する回帰型ニューラルネットワーク(略RNN)のモジュールの一つの実装を示す図である。
次のキャプション語を発するために、言語的情報ではなく視覚的情報にどのくらい強く依拠するかを自動的に決定する、画像キャプション生成のための開示される適応注目モデルを描いている。図8のセンチネルLSTM(Sn-LSTM)は、デコーダとして、該適応注目モデルにおいて具現され、それによって実装される。
図12に開示される適応注目モデルの一部である適応注目器のモジュールのある実装を描いている。適応注目器は空間的注目器、抽出器、センチネル・ゲート・マス決定器、センチネル・ゲート・マス・ソフトマックスおよび混合器(本稿では適応コンテキスト・ベクトル生成器または適応コンテキスト生成器とも称される)を有する。前記空間的注目器は、適応比較器、適応注目器ソフトマックスおよび適応凸組み合わせ累積器を有する。
複数の時間ステップを通じて展開される画像キャプション生成のための開示される適応注目モデルを示す。図8のセンチネルLSTM(Sn-LSTM)は、デコーダとして、該適応注目モデルにおいて具現され、それによって実装される。
図12の適応注目モデルによって適用される適応注目を使う画像キャプション生成の一つの実装を示す図である。
純粋に言語的な情報を処理して、画像のためのキャプションを生成する、開示される視覚封印デコーダの一つの実装である。
画像キャプション生成のための図14の視覚封印デコーダを使う空間的注目モデルを示す。図15では、空間的注目モデルは複数の時間ステップを通じて展開される。
開示される技術を使う画像キャプション生成の一例を示す。
開示される技術を使って生成されるいくつかの例示的な画像キャプションおよび画像/空間的注目マップの視覚化を示す。
開示される技術を使って生成される、いくつかの例示的な画像キャプション、語ごとの視覚的基礎付け確率および対応する画像/空間的注目マップを描いている。
開示される技術を使って生成される、いくつかの他の例示的な画像キャプション、語ごとの視覚的基礎付け確率および対応する画像/空間的注目マップを示す。
COCO(common objects in context[コンテキスト中の共通オブジェクト])データセットに対する、開示される技術のパフォーマンスを示す例示的な順位‐確率プロットである。
Flicker30kデータセットに対する、開示される技術のパフォーマンスを示すもう一つの例示的な順位‐確率プロットである。
COCOデータセットに対する、開示される技術の局在化精度を示す例示的なグラフである。青色のバーは空間的注目モデルの局在化精度を示し、赤色のバーは適応注目モデルの局在化精度を示す。
さまざまな自然言語処理メトリックに基づく、Flicker30kおよびCOCOデータセットに対する、開示される技術のパフォーマンスを示すテーブルである。該メトリックは、BLEU(bilingual evaluation understudy)、METEOR(metric for evaluation of translation with explicit ordering)、CIDEr(consensus-based image description evaluation)、ROUGE-L(recall-oriented understudy for gisting evaluation-longest common subsequence)およびSPICE(semantic propositional image caption evaluation)を含む。
開示される技術が有意な差で新しい先端技術を設定することを示す、公開された先端技術のリーダーボードである。
開示される技術を実装するために使われることのできるコンピュータ・システムの簡略化されたブロック図である。
下記の議論は、開示される技術を当業者が作成し、利用することができるようにするために提示されており、具体的な用途およびその要件のコンテキストで与えられる。開示される実装に対するさまざまな修正が当業者にはすぐに明白になるであろう。本稿で定義される一般原理は、開示される技術の精神および範囲から外れることなく、他の実施形態および用途に適用されてもよい。開示される技術は、示される実装に限定されることは意図されておらず、本稿に開示される原理および特徴と整合する最も広い範囲を与えられるべきである。
下記は、画像キャプション生成のためのニューラル・エンコーダ‐デコーダ・フレームワークの議論であり、開示される注目ベースの画像キャプション生成モデルがそれに続く。
〈画像キャプション生成のためのエンコーダ‐デコーダ・モデル〉
注目ベースの視覚的ニューラル・エンコーダ‐デコーダ・モデルは畳み込みニューラルネットワーク(CNN)を使って入力画像を特徴ベクトルにエンコードし、長短期記憶ネットワーク(LSTM)を使って該特徴ベクトルを語のシーケンスにデコードする。LSTMは、語を生成するために重要な画像領域をハイライトする空間的マップを生成する注目機構に依拠する。注目ベースのモデルは、注目機構への入力として、LSTMの以前の隠れ状態情報または以前に発されたキャプション語(単数または複数)を利用する。
画像および対応するキャプションを与えられると、エンコーダ‐デコーダ・モデルは、次の目的関数を直接最大化する。
Figure 0006689461
上記の式(1)において、θはモデルのパラメータであり、Iは画像であり、y={y1,…,yt}は対応するキャプションである。連鎖律を使って、同時確率分布の対数尤度は次の順序付けされた条件的確率に分解されることができる。
Figure 0006689461
上記の式(2)によって明白なように、モデル・パラメータへの依存性は便宜上、割愛している。
回帰型ニューラルネットワーク(RNN)をデコーダとして使うエンコーダ‐デコーダ・フレームワークでは、各条件付き確率は次のようにモデル化される。
Figure 0006689461
上記の式(3)において、fはytの確率を出力する非線形関数である。チルダ付きのctは画像Iから抽出された、時刻tにおける視覚的コンテキスト・ベクトルである。htは時刻tにおけるRNNの現在の隠れ状態である。
ある実装では、開示される技術は、RNNのような長短期記憶ネットワーク(LSTM)を使う。LSTMは、バニラRNNのゲーティングされた変形であり、多様なシーケンス・モデリング・タスクに対して先端技術のパフォーマンスを実証している。LSTMの現在の隠れ状態htは:
ht=LSTM(xt,ht-1,mt-1)
としてモデル化される。
上記の式(4)において、xtは時刻tにおける現在の入力であり、mt-1は時刻t−1における以前の記憶〔メモリ〕セル状態である。
コンテキスト・ベクトル〔チルダ付きのct〕は、キャプション生成のための視覚的なエビデンスを提供するので、ニューラル・エンコーダ‐デコーダ・フレームワークにおいて重要な因子である。コンテキスト・ベクトルをモデル化する種々の仕方は二つのカテゴリーにはいる:バニラ・エンコーダ‐デコーダおよび注目ベースのエンコーダ‐デコーダ・フレームワークである。第一に、バニラ・フレームワークでは、コンテキスト・ベクトルは、エンコーダのはたらきをする畳み込みニューラルネットワーク(CNN)に依存するだけである。入力画像IはCNNに供給され、CNNが最後の全結合層をグローバル画像特徴として抽出する。生成される諸単語を通じて、コンテキスト・ベクトルは一定のままであり、デコーダの隠れ状態に依存しない。
第二に、注目ベースのフレームワークでは、コンテキスト・ベクトルは、エンコーダおよびデコーダの両方に依存する。時刻tにおいて、隠れ状態に基づいて、デコーダは、画像の特定の諸領域に注目し、CNNの畳み込み層からの空間的画像特徴を使ってコンテキスト・ベクトル
Figure 0006689461
を決定する。注目モデルは、画像キャプション生成のパフォーマンスを有意に改善する。
〈空間的注目モデル〉
少なくとも二つの側面において以前の業績とは異なる画像キャプション生成のための新規な空間的注目モデルを開示する。第一に、我々のモデルは、以前の隠れ状態または以前発された語を使う代わりに、注目を案内するためにデコーダLSTMの現在の隠れ状態情報を使う。第二に、我々のモデルは、注目変化する(attention-variant)画像表現の時間ステップによる信号の代わりに、時間不変なグローバルな画像表現をLSTMに供給する。
我々のモデルの注目機構は、注目を案内するために以前ではなく現在の隠れ状態情報を使う。これは、異なる構造および異なる処理段階を要求する。現在の隠れ状態情報は、画像領域に注目を案内し、ある時間ステップにおいて、注目変化する画像表現を生成するために使われる。現在の隠れ状態情報は、現在の入力および以前の隠れ状態情報を使って、デコーダLSTMによって各時間ステップにおいて計算される。注目機構からの出力がLSTMに供給されるのではなく、LSTMからの情報、現在の隠れ状態が注目機構に供給される。
現在の入力は、以前に発された語(単数または複数)を、エンコーダCNNの画像特徴から決定される時間不変のグローバル画像表現と組み合わせる。デコーダLSTMに供給される最初の現在の入力語は、特殊な開始(<start>)トークンである。グローバルな画像表現は、最初の時間ステップにおいて一度、あるいは一連の時間ステップにおいて繰り返し、LSTMに供給されることができる。
空間的注目モデルは
Figure 0006689461
として定義されるコンテキスト・ベクトルctを決定する。
上記の式(5)において、gは、図4の注目器において具現され、それによって実装される注目関数であり、V=[v1,…,vk]、vi∈Rdは、図1のCNNエンコーダによって生成される画像特徴v1,…,vkを含む。各画像特徴は、CNNエンコーダによって生成される、画像の一部または領域に対応するd次元表現である。htは図2Bに示される、時刻tにおけるLSTMデコーダの現在の隠れ状態である。
CNNエンコーダによって生成される画像特徴V∈Rd×kおよびLSTMデコーダの現在の隠れ状態ht∈Rdを与えられて、開示される空間的注目モデルはそれらを比較器(図4)およびそれに続く注目器ソフトマックス(図4)を通じて供給して、画像のk個の領域にわたる注目分布
Figure 0006689461
Figure 0006689461
を生成する。
上式(6)および(7)において、1∈Rkはすべての要素が1に設定された一ベクトルである。Wv、Wg∈Rk×dおよびWh∈Rkは学習されるパラメータである。α∈RkはV内の画像特徴v1,…,vkに対する注目重みであり、αtは注目重み(本稿では注目確率マスとも称される)を含む注目マップを表わす。図4に示されるように、比較器は、ztを決定するために、単一層ニューラルネットワークおよび非線形層を有する。
注目分布に基づいて、コンテキスト・ベクトルctは凸組み合わせ累積器によって
Figure 0006689461
として得られる。
上記の式(8)において、ctおよびhtは、放出器を使う式(3)のようにして次の語ytを予測するために組み合わされる。
図4に示されるように、注目器は、比較器、注目器ソフトマックス(本稿では注目確率マス生成器とも称される)および凸組み合わせ累積器(本稿ではコンテキスト・ベクトル生成器またはコンテキスト生成器とも称される)を有する。
〈エンコーダ‐CNN〉
図1は、畳み込みニューラルネットワーク(略CNN)を通じて画像を処理して画像の諸領域についての画像特徴V=[v1,…,vk]、vi∈Rdを生成するエンコーダを示す。ある実装では、エンコーダCNNは事前トレーニングされたResNetである。そのような実装では、画像特徴V=[v1,…,vk]、vi∈Rdは、ResNetの最後の畳み込み層の空間的特徴出力である。ある実装では、画像特徴V=[v1,…,vk]、vi∈Rdは2048×7×7の次元をもつ。ある実装では、開示される技術は、k個の格子位置のそれぞれにおける空間的CNN特徴を表わすために、A=[a1,…,ak]、ai∈R2048を使う。これに続いて、いくつかの実装では、グローバル画像特徴生成器が、下記で論じるようにグローバル画像特徴を生成する。
〈注目遅れ型デコーダ‐LSTM〉
図2Aとは異なり、図2Bは、現在の隠れ状態情報htを使って注目を案内し、画像キャプションを生成する、開示される注目遅れ型デコーダを示している。注目遅れ型デコーダは、現在の隠れ状態情報htを使って、コンテキスト・ベクトルctを生成するために画像のどこを見るかを解析する。次いで、デコーダはhtおよびct両方の情報源を組み合わせて、次の語を予測する。生成されたコンテキスト・ベクトルctは現在の隠れ状態htの残留視覚的情報を具現する。これは、次の語予測のために、現在の隠れ状態の不確定性を減少させる、または情報性を補完する。デコーダが回帰型であり、LSTMベースであり、逐次的に動作するので、現在の隠れ状態htは前の隠れ状態ht-1および現在の入力xtを具現する。これらが現在の視覚的および言語的コンテキストをなす。注目遅れ型デコーダは、古くなった以前のコンテキスト(図2A)ではなく、この現在の視覚的および言語的コンテキストを使って画像に注目する。換言すれば、画像は、現在の視覚的および言語的コンテキストがデコーダによって決定された後に注目される。すなわち、注目がデコーダより遅れる。これは、より正確な画像キャプションを生成する。
〈グローバル画像特徴生成器〉
図3Aは、図1のCNNエンコーダによって生成される画像特徴を組み合わせることによって画像についてのグローバル画像特徴を生成するグローバル画像特徴生成器を描いている。グローバル画像特徴生成器はまず、次のようにして予備的なグローバル画像特徴を生成する。
Figure 0006689461
上式(9)において、agは、CNNエンコーダによって生成された画像特徴を平均することによって決定される予備的なグローバル画像特徴である。モデル化の便宜上、グローバル画像特徴生成器は、画像特徴ベクトルを次元zdをもつ新たなベクトルに変換するために整流器活性化関数をもつ単一層パーセプトロンを使う。
Figure 0006689461
Figure 0006689461
上式(10)および(11)において、WaおよびWbは重みパラメータである。vgはグローバル画像特徴である。グローバル画像特徴vgは、逐次的にまたは回帰的に生成されるのではなく、回帰的でない畳み込みされた画像特徴から決定されるので、時間不変である。変換された空間的画像特徴viは画像特徴V=[v1,…,vk]、vi∈Rdをなす。画像特徴の変換は、ある実装によれば、グローバル画像特徴生成器の画像特徴整流器において具現され、それによって実装される。予備的なグローバル画像特徴の変換は、ある実装によれば、グローバル画像特徴生成器のグローバル画像特徴整流器において具現され、それによって実装される。
〈語埋め込み器〉
図3Bは、高次元埋め込み空間において語をベクトル化する語埋め込み器である。開示される技術は、デコーダによって予測される語彙語の語埋め込みを生成するために語埋め込み器を使う。wtは、時刻tにおいてデコーダによって予測される語彙語(vocabulary word)の語埋め込み(word embedding)を表わす。wt-1は、時刻t−1においてデコーダによって予測された語彙語の語埋め込みを表わす。ある実装では、語埋め込み器は、埋め込み行列E∈Rd×|v|を使って次元性dの語埋め込みwt-1を生成する。ここで、vは語彙のサイズを表わす。もう一つの実施形態では、語埋め込み器はまず語をワンホット(one-hot)エンコードに変換し、次いでそれを埋め込み行列E∈Rd×|v|を使って連続表現に変換する。さらにもう一つの実装では、語埋め込み器は、GloVeおよびword2vecのような事前トレーニングされた語埋め込みモデルを使って語埋め込みを初期化し、語彙内の各語の固定した語埋め込みを得る。他の実装では、語埋め込み器は、キャラクタ埋め込みおよび/またはフレーズ埋め込みを生成する。
〈入力準備器〉
図3Cは、デコーダへの入力を準備し、提供する入力準備器である。各時間ステップにおいて、入力準備器は語埋め込みベクトルwt-1(直前の時間ステップにおいてデコーダによって予測される)をグローバル画像特徴ベクトルvgと連結する。連結wt;vgが、現在の時間ステップtにおいてデコーダに供給される入力xtを形成する。wt-1は最も最近発されたキャプション語を表わす。入力準備器は本稿では連結器とも称される。
〈センチネルLSTM(Sn-LSTM)〉
長短期記憶(LSTM)は、逐次的な入力から逐次的な出力を生成するために時間ステップにおいて繰り返し行使される、ニューラルネットワークにおけるセルである。出力はしばしば隠れ状態と称されるが、これはセルの記憶と混同すべきではない。入力は、以前の時間ステップからの隠れ状態および記憶と、現在の入力である。セルは入力活性化関数、記憶およびゲートをもつ。入力活性化関数は入力を、tanh活性化関数については−1から1のような範囲にマッピングする。ゲートは、記憶を更新し、記憶から隠れ状態出力結果を生成することに適用される重みを決定する。ゲートは忘却ゲート、入力ゲートおよび出力ゲートである。忘却ゲートは記憶を減衰させる。入力ゲートは活性化された入力を減衰した記憶と混合する。出力ゲートは、記憶からの隠れ状態出力を制御する。隠れ状態出力は、入力に直接ラベル付けすることができ、あるいは別のコンポーネントによって処理されて語もしくは他のラベルを発するまたは諸ラベルにわたる確率分布を生成することができる。
現在の入力と直交するという意味で現在の入力とは異なる種類の情報を導入する補助入力がLSTMに加えられることができる。そのような異なる種類の補助入力の追加は、過剰適合および他のトレーニング・アーチファクトにつながることがある。開示される技術はLSTMセル・アーキテクチャーに、隠れ状態出力に加えて、記憶から第二のセンチネル状態出力を生成する新たなゲートを加える。このセンチネル状態出力は、LSTM後のコンポーネントにおいて異なるニューラルネットワーク処理モデルの間の混合を制御するために使われる。たとえば視覚センチネルは、CNNからの視覚的特徴と、予測言語モデルからの語シーケンスとの解析の間の混合を制御する。センチネル状態出力を生成する新たなゲートは「補助センチネル・ゲート」と呼ばれる。
補助入力は、LSTM記憶における累積した補助情報およびセンチネル出力の両方に寄与する。センチネル状態出力は、累積した補助情報のうち、次の出力の予測のために最も有用な部分をエンコードする。センチネル・ゲートは、前の隠れ状態および補助情報を含む現在の入力を整え、整えられた入力を更新された記憶と組み合わせて、センチネル状態出力を生成する。補助センチネル・ゲートを含むLSTMは本稿では「センチネルLSTM(Sn-LSTM)」と称される。
また、Sn-LSTMにおいて累積されるのに先立ち、補助情報はしばしば、−1ないし1の範囲の出力を生成する「tanh」(双曲線正接)関数に通される(たとえばtanh関数がCNNの全結合層に続く)。補助情報の出力範囲と整合するために、補助センチネル・ゲートは、Sn-LSTMの記憶セルの点ごとのtanhをゲーティングする。こうして、記憶されている補助情報の形にマッチするので、tanhが、Sn-LSTMの記憶セルに適用される非線形関数として選択される。
図8は、センチネル状態または視覚センチネルを生成する補助センチネル・ゲートを有する開示されるセンチネルLSTM(Sn-LSTM)の一つの実装を示している。Sn-LSTMは複数の時間ステップのそれぞれにおいて入力を受信する。入力は、少なくとも、現在の時間ステップについての入力xtと、前の時間ステップからの隠れ状態ht-1と、現在の時間ステップについての補助入力atとを含む。Sn-LSTMは、数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
いくつかの実装では、補助入力atは別個に提供されるのではなく、前の隠れ状態ht-1および/または入力xtの中で補助情報としてエンコードされる(たとえばグローバル画像特徴vg)。
補助入力atは、画像データを含む視覚的な入力であることができ、前記入力は、最も最近発された語および/またはキャラクタのテキスト埋め込みであることができる。補助入力atは、入力文書の別の長短期記憶ネットワーク(略LSTM)からのテキスト・エンコードであることができ、前記入力は最も最近発された語および/またはキャラクタのテキスト埋め込みであることができる。補助入力atは、逐次的データをエンコードする別のLSTMからの隠れ状態ベクトルであることができ、前記入力は最も最近発された語および/またはキャラクタのテキスト埋め込みであることができる。補助入力atは、逐次的データをエンコードする別のLSTMからの隠れ状態ベクトルから導出された予測であることができ、前記入力は最も最近発された語および/またはキャラクタのテキスト埋め込みであることができる。補助入力atは、畳み込みニューラルネットワーク(略CNN)の出力であることができる。補助入力atは、注目ネットワークの出力であることができる。
Sn-LSTMは、複数のゲートを通じて入力を処理することによって、複数の時間ステップのそれぞれにおける出力を生成する。ゲートは少なくとも入力ゲート、忘却ゲート、出力ゲートおよび補助センチネル・ゲートを含む。各ゲートは、数多くの並列プロセッサのうちの少なくとも一つで稼働することができる。
入力ゲートは、現在の入力xtおよび前の隠れ状態ht-1のうちのどのくらいが現在の記憶セル状態mtにはいるかを制御するものであり、次のように表わされる。
Figure 0006689461
忘却ゲートは現在の記憶セル状態mtおよび前の記憶セル状態mt-1に対して作用し、記憶セルの個々の成分を消去する(0に設定する)か保持するかを決定するものであり、次のように表わされる。
Figure 0006689461
出力ゲートは記憶セルからの出力をスケーリングするものであり、次のように表わされる。
Figure 0006689461
Sn-LSTMは、活性化ゲート(本稿ではセル更新ゲートまたは入力変換ゲートとも称される)をも含むことができ、これは考慮に入れられるべき現在の入力xtおよび前の隠れ状態ht-1を記憶セル状態mtに変換するものであり、次のように表わされる。
Figure 0006689461
Sn-LSTMは、現在隠れ状態生成器をも含むことができ、これは、現在の記憶セル状態mtのtanh変換によってスケーリングされた(押しつぶされた)現在の隠れ状態htを出力するものであり、次のように表わされる。
Figure 0006689461
上式で、
Figure 0006689461
は要素ごとの積を表わす。
記憶セル更新器(図9)は、Sn-LSTMの記憶セルを前の記憶セル状態mt-1から現在の記憶セル状態mtに、次のようにして更新する。
Figure 0006689461
上記で論じたように、補助センチネル・ゲートはセンチネル状態または視覚センチネルを生成する。これは、Sn-LSTMデコーダがすでに知っているものの潜在表現(latent representation)である。Sn-LSTMデコーダの記憶は、長期および短期の視覚的および言語的情報の両方を格納する。適応注目モデルは、画像に注目しないことを選ぶときに該モデルが頼ることのできる新たな成分をSn-LSTMから抽出することを学習する。この新たな成分は視覚センチネル(visual sentinel)と呼ばれる。そして画像または視覚センチネルに注目するかどうかを決定するゲートが、前記補助センチネル・ゲートである。
視覚的および言語的なコンテキスト情報がSn-LSTMデコーダの記憶セルに記憶される。視覚センチネル・ベクトルstを使って、この情報を下記によって変調する。
Figure 0006689461
上式において、WxおよびWhは学習される重みパラメータであり、xtは時間ステップtにおけるSn-LSTMへの入力であり、auxtは現在の記憶セル状態mtに適用される補助センチネル・ゲートであり、
Figure 0006689461
は要素ごとの積を表わし、σはロジスティック・シグモイド活性化である。
注目ベースのエンコーダ‐デコーダ・テキスト要約モデルでは、Sn-LSTMは、別のエンコーダLSTMから補助情報を受け取るデコーダとして使われることができる。エンコーダLSTMは入力文書を処理して文書エンコードを生成することができる。文書エンコードまたは文書エンコードの代替表現はSn-LSTMに補助情報として供給されることができる。Sn-LSTMはその補助センチネル・ゲートを使って、前に生成された要約語および前の隠れ状態を考慮して、文書エンコード(またはその代替表現)のどの部分が現在の時間ステップにおいて最も重要かを決定することができる。次いで、文書エンコード(またはその代替表現)の重要な部分はセンチネル状態にエンコードされることができる。センチネル状態は、次の要約語を生成するために使用されることができる。
注目ベースのエンコーダ‐デコーダ質問回答モデルでは、Sn-LSTMは、別のエンコーダLSTMから補助情報を受け取るデコーダとして使われることができる。エンコーダLSTMは入力質問を処理して質問エンコードを生成することができる。質問エンコードまたは質問エンコードの代替表現はSn-LSTMに補助情報として供給されることができる。Sn-LSTMはその補助センチネル・ゲートを使って、前に生成された回答語および前の隠れ状態を考慮して、質問エンコード(またはその代替表現)のどの部分が現在の時間ステップにおいて最も重要かを決定することができる。次いで、質問エンコード(またはその代替表現)の重要な部分はセンチネル状態にエンコードされることができる。センチネル状態は、次の回答語を生成するために使用されることができる。
注目ベースのエンコーダ‐デコーダ機械翻訳モデルでは、Sn-LSTMは、別のエンコーダLSTMから補助情報を受け取るデコーダとして使われることができる。エンコーダLSTMはソース言語シーケンスを処理してソース・エンコードを生成することができる。ソース・エンコードまたはソース・エンコードの代替表現はSn-LSTMに補助情報として供給されることができる。Sn-LSTMはその補助センチネル・ゲートを使って、前に生成された翻訳語および前の隠れ状態を考慮して、ソース・エンコード(またはその代替表現)のどの部分が現在の時間ステップにおいて最も重要かを決定することができる。次いで、ソース・エンコード(またはその代替表現)の重要な部分はセンチネル状態にエンコードされることができる。センチネル状態は、次の翻訳語を生成するために使用されることができる。
注目ベースのエンコーダ‐デコーダ・ビデオ・キャプション生成モデルでは、Sn-LSTMは、CNNおよびLSTMを有するエンコーダから補助情報を受け取るデコーダとして使われることができる。エンコーダはビデオのビデオ・フレームを処理してビデオ・エンコードを生成することができる。ビデオ・エンコードまたはビデオ・エンコードの代替表現はSn-LSTMに補助情報として供給されることができる。Sn-LSTMはその補助センチネル・ゲートを使って、前に生成されたキャプション語および前の隠れ状態を考慮して、ビデオ・エンコード(またはその代替表現)のどの部分が現在の時間ステップにおいて最も重要かを決定することができる。次いで、ビデオ・エンコード(またはその代替表現)の重要な部分はセンチネル状態にエンコードされることができる。センチネル状態は、次のキャプション語を生成するために使用されることができる。
注目ベースのエンコーダ‐デコーダ画像キャプション生成モデルでは、Sn-LSTMは、エンコーダCNNから補助情報を受け取るデコーダとして使われることができる。エンコーダは入力画像を処理して画像エンコードを生成することができる。画像エンコードまたは画像エンコードの代替表現はSn-LSTMに補助情報として供給されることができる。Sn-LSTMはその補助センチネル・ゲートを使って、前に生成されたキャプション語および前の隠れ状態を考慮して、画像エンコード(またはその代替表現)のどの部分が現在の時間ステップにおいて最も重要かを決定することができる。次いで、画像エンコード(またはその代替表現)の重要な部分はセンチネル状態にエンコードされることができる。センチネル状態は、次のキャプション語を生成するために使用されることができる。
〈適応注目モデル〉
上記で論じたように、長短期記憶(LSTM)デコーダは、目標画像の領域または特徴に注目し、語予測を注目される画像特徴に基づいて調整することによって、画像キャプションを生成するために拡張されることができる。しかしながら、画像に注目することは、話の半分でしかない;いつ見るかを知ることがもう半分である。すなわち、すべてのキャプション語が視覚的信号に対応するわけではない;ストップワードや言語的に相関している語のようないくつかの語は、テキスト的なコンテキストから推定されるほうがよいことがある。
既存の注目ベースの視覚的ニューラル・エンコーダ‐デコーダ・モデルは、すべての生成された語について、視覚的注目がアクティブになることを強制する。しかしながら、デコーダは、「the」や「of」のような非視覚的な単語を予測するためには、画像からの視覚的情報をほとんどまたは全く必要としない可能性が高い。視覚的であると思われる他の語はしばしば、言語的なモデルによって信頼できる仕方で予測できる。たとえば、「behind a red stop」〔赤い停止…の後の〕のあとの「sign」〔標識〕、あるいは「talking on a cell」〔形態…で話す〕の後の「phone」〔電話〕である。デコーダが複合語「stop sign」〔停止標識〕をキャプションとして生成する必要がある場合、画像へのアクセスを要求するのは「stop」のみであり、「sign」は言語的に推論できる。我々の技術は、視覚的および言語的情報の使用を案内する。
上記の限界を克服するために、畳み込みニューラルネットワーク(CNN)からの視覚的情報およびLSTMからの言語的情報を混合する画像キャプション生成のための新規な適応注目モデルを開示する。各時間ステップにおいて、我々の適応エンコーダ‐デコーダ・フレームワークは、次のキャプション語を発するために、言語モデルではなく画像にどのくらい強く頼るかを自動的に決定することができる。
図10は、次のキャプション語を発するために、言語的情報ではなく視覚的情報にどのくらい強く依拠するかを自動的に決定する、画像キャプション生成のための開示される適応注目モデルを描いている。図8のセンチネルLSTM(Sn-LSTM)は、デコーダとして、該適応注目モデルにおいて具現され、それによって実装される。
上記で論じたように、我々のモデルは、LSTMアーキテクチャーに新たな補助センチネル・ゲートを加える。センチネル・ゲートは、各時間ステップにおいて、いわゆる視覚センチネル/センチネル状態Stを生成する。これは、Sn-LSTMの記憶から導出される、長短期の視覚的および言語的情報の追加的な表現である。視覚センチネルStは、CNNからの視覚的情報を参照することなく言語的モデルが頼ることのできる情報をエンコードする。視覚センチネルStは、Sn-LSTMからの現在の隠れ状態との組み合わせにおいて、画像および言語的コンテキストの混合を制御するセンチネル・ゲート・マス/ゲート確率マスβtを生成するために使われる。
たとえば、図16に示されるように、我々のモデルは、「white」〔白い〕、「bird」〔鳥〕、「red」〔赤い〕、「stop」〔停止〕の語を生成するときには、画像のほうにより注目し、「top」〔上〕、「of」〔の〕、「sign」〔標識〕の語を生成するときには視覚センチネルのほうにより頼ることを学習する。
〈視覚封印デコーダ(Visually Hermetic Decoder)〉
図14は、純粋に言語的な情報を処理して、画像についてのキャプションを生成する、開示される視覚的に封印されたデコーダのある実装である。図15は、画像キャプション生成のための図14の視覚封印デコーダを使う空間的注目モデルを示す。図15では、空間的注目モデルは複数の時間ステップを通じて展開される。あるいはまた、画像キャプション生成の間、画像データと混合されない純粋に言語的な情報wを処理する視覚封印デコーダが使われることができる。この代替的な視覚封印デコーダは、グローバル画像表現を入力として受領しない。すなわち、視覚封印デコーダへの現在の入力は、その最も最近発されたキャプション語wt-1だけであり、初期入力は<start>トークンだけである。視覚封印デコーダはLSTM、ゲーテッド回帰ユニット(GRU: gated recurrent unit)または準回帰型ニューラルネットワーク(QRNN: quasi-recurrent neural network)として実装されることができる。この代替的なデコーダでは、単語はいまだ、注目機構の適用後に発される。
〈弱教師付き学習〉
開示される技術は、画像キャプション生成モデルのパフォーマンスを評価するシステムおよび方法をも提供する。開示される技術は、畳み込みニューラルネットワーク(略CNN)エンコーダおよび長短期記憶(LSTM)デコーダを使って画像の画像領域ベクトルを混合するための注目値の空間的注目マップを生成し、空間的注目マップに基づいてキャプション語出力を生成する。次いで、開示される技術は、閾値注目値より上である画像の領域をセグメンテーション・マップにセグメント分割する。次いで、開示される技術は、セグメンテーション・マップにおいて最大の連結した画像成分をカバーするバウンディングボックスを画像上に投影する。次いで、開示される技術は、投影されたバウンディングボックスと基礎的事実(ground truth)バウンディングボックスとの交差対合併比(略IOU: intersection over union)を決定する。次いで、開示される技術は、計算されたIOUに基づいて、空間的注目マップの局在化精度(localization accuracy)を決定する。
開示される技術は、COCOデータセットおよびFlickr30kデータセットに対する標準的な諸ベンチマークを通じて、先端技術のパフォーマンスを達成する。
〈具体的実装〉
視覚的な注目ベースのエンコーダ‐デコーダ画像キャプション生成モデルのシステムおよびさまざまな実装を記述する。ある実装の一つまたは複数の特徴は、基本実装と組み合わされることができる。互いに背反でない実装は組み合わせ可能であると教示される。ある実装の一つまたは複数の特徴は、他の実装と組み合わされることができる。本開示は、これらの選択肢があることを定期的にユーザーに想起させる。これらの選択肢を繰り返す記載が一部の実装から割愛されていたとしても、先行する節で教示される組み合わせを限定するものと解釈されるべきではない。これらの記載は、下記の各実装に参照によってあらかじめ組み込まれる。
ある実装では、開示される技術はシステムを提示する。システムはメモリに結合された数多くの並列プロセッサを含む。メモリは、画像についての自然言語キャプションを生成するためのコンピュータ命令をロードされる。命令は、並列プロセッサ上で実行されるとき、下記のアクションを実装する。
エンコーダを通じて画像を処理して、画像の諸領域についての画像特徴ベクトルを生成し、画像特徴ベクトルからグローバル画像特徴ベクトルを決定する。エンコーダは、畳み込みニューラルネットワーク(略CNN)であることができる。
初期時間ステップにおいてキャプション開始トークン<start>およびグローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語wt-1およびグローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する。デコーダは、長短期記憶ネットワーク(略LSTM)であることができる。
各時間ステップにおいて、デコーダの少なくとも現在の隠れ状態を使って、画像特徴ベクトルについての正規化されていない注目値を決定し、注目値を指数関数的に正規化して注目確率マスを生成する。
画像特徴ベクトルに注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、画像特徴ベクトルの重み付けされた和を累積する。
画像コンテキスト・ベクトルとデコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、フィードフォワード・ニューラルネットワークに次のキャプション語を発させる。フィードフォワード・ニューラルネットワークは、多層パーセプトロン(略MLP)であることができる。
前記の、デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークン<end>になるまで繰り返す。反復工程は図25に示されるコントローラによって実行される。
このシステム実装および開示される他のシステムは任意的に、下記の特徴の一つまたは複数を含む。システムは、開示される方法との関連で記述される特徴をも含むことができる。簡潔のため、システム特徴の代替的な組み合わせは個々には挙げられない。システム、方法および製造物に適用可能な特徴は、基本特徴のそれぞれの法定クラス集合について繰り返されはしない。読者は、この節で特定された特徴がいかに容易に他の法定クラスにおいて基本特徴と組み合わされることができるかを理解するであろう。
システムはコンピュータ実装されるシステムであることができる。システムはニューラルネットワーク・ベースのシステムであることができる。
デコーダの現在の隠れ状態は、デコーダへの現在の入力およびデコーダの前の隠れ状態に基づいて決定されることができる。
画像コンテキスト・ベクトルは、各時間ステップにおいて各画像領域に割り振られる空間的注目の量を、デコーダの現在の隠れ状態に基づいて調整されて(conditioned)、決定する動的なベクトルであることができる。
システムは、割り振られた空間的注目を評価するために、弱教師付き局在化を使うことができる。
画像特徴ベクトルについての注目値は、画像特徴ベクトルおよびデコーダの現在の隠れ状態を単一層ニューラルネットワークを通じて処理することによって決定されることができる。
システムは、各時間ステップにおいて、フィードフォワード・ニューラルネットワークに、次のキャプション語を発させることができる。そのような実装では、フィードフォワード・ニューラルネットワークは、画像コンテキスト・ベクトルおよびデコーダの現在の隠れ状態に基づいて出力を生成し、該出力を使って、語彙内の語に対する語彙確率マスの正規化された分布を決定することができる。語彙確率マスは、語彙語が次のキャプション語であるそれぞれの確からしさを表わす。
他の実装は、上記のシステムのアクションを実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体を含んでいてもよい。
もう一つの実装では、開示される技術はシステムを提示する。システムはメモリに結合された数多くの並列プロセッサを含む。メモリは、画像についての自然言語キャプションを生成するためのコンピュータ命令をロードされる。命令は、並列プロセッサ上で実行されるとき、下記のアクションを実装する。
注目遅れ型デコーダの現在の隠れ状態情報を使って、画像からエンコーダによって生成された画像特徴ベクトルについて、注目マップを生成し、画像特徴ベクトルの重み付けされた和に基づいて出力キャプション語を生成する。重みは注目マップから決定される。
この〈具体的実装〉セクションにおいて論じられる他のシステムおよび方法実装について各特徴は、このシステム実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
システムは、コンピュータ実装されるシステムであることができる。システムはニューラルネットワーク・ベースのシステムであることができる。
現在の隠れ状態情報は、デコーダへの現在の入力および前の隠れ状態情報に基づいて決定されることができる。
システムは、注目マップを評価するために弱教師付き局在化を使うことができる。
エンコーダは、畳み込みニューラルネットワーク(略CNN)であることができ、画像特徴ベクトルはCNNの最後の畳み込み層によって生成されることができる。
注目遅れ型デコーダは、長短期記憶ネットワーク(略LSTM)であることができる。
他の実装は、上記のシステムのアクションを実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体を含んでいてもよい。
さらにもう一つの実装では、開示される技術はシステムを提示する。システムはメモリに結合された数多くの並列プロセッサを含む。メモリは、画像についての自然言語キャプションを生成するためのコンピュータ命令をロードされる。命令は、並列プロセッサ上で実行されるとき、下記のアクションを実装する。
エンコーダを通じて画像を処理して、画像の諸領域について画像特徴ベクトルを生成する。エンコーダは、畳み込みニューラルネットワーク(略CNN)であることができる。
初期時間ステップにおいてキャプション開始トークン<start>で始まり、一連の時間ステップにおいて最も最近発されたキャプション語wt-1をデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する。デコーダは、長短期記憶ネットワーク(略LSTM)であることができる。
各時間ステップにおいて、デコーダの少なくとも現在の隠れ状態を使って、画像特徴ベクトルから、画像コンテキスト・ベクトルを決定する。画像コンテキスト・ベクトルは、デコーダの現在の隠れ状態に基づいて調整された(conditioned)、画像の諸領域に割り振られた注目の度合いを決定する。
画像コンテキスト・ベクトルはデコーダに供給しない。
画像コンテキスト・ベクトルとデコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、フィードフォワード・ニューラルネットワークにキャプション語を発させる。
前記の、デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークン<end>になるまで繰り返す。反復工程は図25に示されるコントローラによって実行される。
この〈具体的実装〉セクションにおいて論じられる他のシステムおよび方法実装について各特徴は、このシステム実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
システムは、コンピュータ実装されるシステムであることができる。システムはニューラルネットワーク・ベースのシステムであることができる。
システムは、グローバル画像特徴ベクトルをデコーダに供給せず、初期時間ステップにおいてキャプション開始トークン<start>で始まり、一連の時間ステップにおいて最も最近発されたキャプション語wt-1をデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する。
いくつかの実装では、システムは画像特徴ベクトルをデコーダに供給しない。
さらなる実装では、開示される技術は、画像についての自然言語キャプションの機械生成のためのシステムを提示する。システムは数多くの並列プロセッサ上で走る。システムは、ニューラルネットワーク・ベースのシステムであることができる。
システムは注目遅れ型デコーダを有する。注目遅れ型デコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
注目遅れ型デコーダは、少なくとも現在の隠れ状態情報を使って、画像からエンコーダによって生成された画像特徴ベクトルについて、注目マップを生成する。エンコーダは、畳み込みニューラルネットワーク(略CNN)であることができ、画像特徴ベクトルはCNNの最後の畳み込み層によって生成されることができる。注目遅れ型デコーダは、長短期記憶ネットワーク(略LSTM)であることができる。
注目遅れ型デコーダは、画像特徴ベクトルの重み付けされた和に基づいて出力キャプション語を生成させる。重みは注目マップから決定される。
この〈具体的実装〉セクションにおいて論じられる他のシステムおよび方法実装について各特徴は、このシステム実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
他の実装は、上記のシステムのアクションを実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体を含んでいてもよい。
図6は、複数の時間ステップを通じて展開される画像キャプション生成のための開示される空間的注目モデルを示す。図2Bの注目遅れ型デコーダは、該空間的注目モデルにおいて具現され、それによって実装される。開示される技術は、画像についての自然言語キャプションの機械生成のための、図6の空間的注目モデルを実装する、画像から言語へのキャプション生成システムを提示する。システムは数多くの並列プロセッサ上で走る。
システムは、畳み込みニューラルネットワーク(略CNN)を通じて画像を処理し、画像の諸領域についての画像特徴を生成するためのエンコーダ(図1)を有する。エンコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
システムは、画像特徴を組み合わせることによって画像についてのグローバル画像特徴を生成するためのグローバル画像特徴生成器(図3A)を有する。グローバル画像特徴生成器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
システムは、初期デコーダ時間ステップではキャプション開始トークン<start>とグローバル画像特徴の組み合わせ、一連のデコーダ時間ステップでは最も最近発されたキャプション語wt-1とグローバル画像特徴の組み合わせとしてデコーダへの入力を提供するための入力準備器(図3C)を有する。
システムは、各デコーダ時間ステップにおいて、長短期記憶ネットワーク(略LSTM)を通じて前記入力を処理して、現在のデコーダ隠れ状態を生成するデコーダ(図2B)を有する。デコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
システムは、各時間ステップにおいて、現在のデコーダ隠れ状態を使って決定された注目確率マスによってスケーリングされた諸画像特徴の凸組み合わせ(convex combination)として画像コンテキストを累積するための注目器(図4)を有する。注目器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。図4は、図6において開示される空間的注目モデルの一部である注目器のモジュールの一つの実装を描いている。注目器は、比較器、注目器ソフトマックス(本稿では注目確率マス生成器とも称される)および凸組み合わせ累積器(本稿ではコンテキスト・ベクトル生成器またはコンテキスト生成器とも称される)を有する。
システムは、各デコーダ時間ステップにおいて、画像コンテキストおよび現在のデコーダ隠れ状態を処理して次のキャプション語を発するためのフィードフォワード・ニューラルネットワーク(本稿では多層パーセプトロン(MLP)とも称される)(図5)を有する。フィードフォワード・ニューラルネットワークは前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
システムは、次のキャプション語がキャプション終了トークン<end>になるまで入力準備器、デコーダ、注目器およびフィードフォワード・ニューラルネットワークを逐次反復して画像についての自然言語キャプションを生成するためのコントローラ(図25)を有する。コントローラは前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、このシステム実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
システムはコンピュータ実装されるシステムであることができる。システムはニューラルネットワーク・ベースのシステムであることができる。
注目器はさらに、各デコーダ時間ステップにおいて、注目値zt=[λ1,…,λk]を指数関数的に正規化して注目確率マスαt=[α1,…,αk]を生成するための注目器ソフトマックス(図4)を有することができる。注目器ソフトマックスは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
注目器はさらに、各デコーダ時間ステップにおいて、現在のデコーダ隠れ状態htと画像特徴V=[v1,…,vk]、vi∈Rdとの間の相互作用の結果として注目値zt=[λ1,…,λk]を生成するための比較器(図4)を有することができる。比較器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。いくつかの実装では、注目値zt=[λ1,…,λk]は、重み行列を適用する単一層ニューラルネットワークおよび双曲線正接(tanh)押しつぶし関数(−1から1までの間の出力を生成する)を適用する非線形層(図4)を通じて現在のデコーダ隠れ状態htおよび画像特徴V=[v1,…,vk]、vi∈Rdを処理することによって決定される。いくつかの実装では、注目値zt=[λ1,…,λk]は現在のデコーダ隠れ状態htおよび画像特徴V=[v1,…,vk]、vi∈Rdをドット積器または内積器を通じて処理することによって決定される。さらに他の実装では、zt=[λ1,…,λk]は現在のデコーダ隠れ状態htおよび画像特徴V=[v1,…,vk]、vi∈Rdを双線形形式積器(binilinear form productor)を通じて処理することによって決定される。
デコーダはさらに、各デコーダ時間ステップにおいて、現在のデコーダ入力および前のデコーダ隠れ状態に基づいて現在のデコーダ隠れ状態を決定するための、少なくとも入力ゲート、忘却ゲートおよび出力ゲートを有することができる。入力ゲート、忘却ゲートおよび出力ゲートはそれぞれ前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
注目器はさらに、各デコーダ時間ステップにおいて、現在のデコーダ隠れ状態に基づいて調整されて(conditioned)、各画像領域に割り振られた空間的注目の度合いを同定する画像コンテキストを生成するための凸組み合わせ累積器(図4)を有することができる。凸組み合わせ累積器は前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
システムはさらに、弱教師付き局在化に基づいて、割り振られた空間的注目を評価するための局在化器(図25)を有することができる。局在化器は前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
システムはさらに、各デコーダ時間ステップにおいて画像コンテキストおよび現在のデコーダ隠れ状態に基づいて出力を生成するためのフィードフォワード・ニューラルネットワーク(図5)を有することができる。
システムはさらに、各デコーダ時間ステップにおいて、前記出力を使って、語彙内の語についての語彙確率マスの正規化された分布を決定するための語彙ソフトマックス(図5)を有することができる。語彙ソフトマックスは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。語彙確率マスは、語彙語が次のキャプション語であるそれぞれの確からしさを同定することができる。
他の実装は、上記のシステムのアクションを実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体を含んでいてもよい。
図7は、図6の空間的注目モデルによって適用される空間的注目を使う画像キャプション生成の一つの実装を描いている。ある実装では、開示される技術は、画像についての自然言語キャプションの機械生成のために図7の画像キャプション生成を実行する方法を提示する。本方法は、コンピュータ実装される方法であることができる。本方法はニューラルネットワークに基づく方法であることができる。
本方法は、エンコーダ(図1)を通じて画像Iを処理して画像Iの諸領域について画像特徴ベクトルV=[v1,…,vk]、vi∈Rdを生成し、画像特徴ベクトルV=[v1,…,vk]、vi∈Rdからグローバル画像特徴ベクトルvgを決定することを含む。エンコーダは、図1に示されるように、畳み込みニューラルネットワーク(略CNN)であることができる。
本方法は、初期時間ステップにおいてキャプション開始トークン<start>およびグローバル画像特徴ベクトルvgで始まり、一連の時間ステップにおいて最も最近発されたキャプション語wt-1およびグローバル画像特徴ベクトルvgをデコーダへの入力として使い続けることによって、デコーダ(図2Bおよび図6)を通じて語を処理することを含む。
本方法は、各時間ステップにおいて、デコーダの少なくとも現在の隠れ状態htを使って、画像特徴ベクトルV=[v1,…,vk]、vi∈Rdについての正規化されていない注目値zt=[λ1,…,λk]を決定し、注目値を指数関数的に正規化して、合計すると1になる注目確率マスαt=[α1,…,αk](本稿では注目重みとも称される)を生成することを含む。αtは、注目確率マス[α1,…,αk]を含む注目マップを表わす。
本方法は、画像特徴ベクトルV=[v1,…,vk]、vi∈Rdに注目確率マス[α1,…,αk]を適用して、画像コンテキスト・ベクトルctにおいて、画像特徴ベクトルV=[v1,…,vk]、vi∈Rdの重み付けされた和Σを累積することを含む。
本方法は、画像コンテキスト・ベクトルctとデコーダの現在の隠れ状態htとをフィードフォワード・ニューラルネットワークに提出し、フィードフォワード・ニューラルネットワークに次のキャプション語wtを発させることを含む。フィードフォワード・ニューラルネットワークは、多層パーセプトロン(略MLP)であることができる。
本方法は、前記の、デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークン<end>になるまで繰り返すことを含む。反復工程は図25に示されるコントローラによって実行される。
この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、この方法実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
他の実装は、上記の方法を実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体(CRM)を含んでいてもよい。さらに別の実装は、メモリと、上記の方法を実行するよう該メモリに記憶されている命令を実行するよう動作可能な一つまたは複数のプロセッサとを含んでいてもよい。
もう一つの実装では、開示される技術は、画像についての自然言語キャプションの機械生成の方法を提示する。本方法は、コンピュータ実装される方法であることができる。本方法はニューラルネットワークに基づく方法であることができる。
図7に示されるように、本方法は、注目遅れ型デコーダ(図2Bおよび図6)の現在の隠れ状態情報htを使って、画像Iからエンコーダ(図1)によって生成された画像特徴ベクトルV=[v1,…,vk]、vi∈Rdについての注目マップαt=[α1,…,αk]を生成し、画像特徴ベクトルV=[v1,…,vk]、vi∈Rdの重み付けされた和Σに基づいて出力キャプション語wtを生成することを含む。重みは注目マップαt=[α1,…,αk]から決定される。
この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、この方法実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
他の実装は、上記の方法を実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体(CRM)を含んでいてもよい。さらに別の実装は、メモリと、上記の方法を実行するよう該メモリに記憶されている命令を実行するよう動作可能な一つまたは複数のプロセッサとを含んでいてもよい。
さらに別の実装では、開示される技術は、画像についての自然言語キャプションの機械生成の方法を提示する。この方法は、視覚的に封印されたLSTMを使う。本方法はコンピュータ実装される方法であることができる。本方法はニューラルネットワークに基づく方法であることができる。
本方法は、エンコーダ(図1)を通じて画像を処理して、画像Iのk個の領域についての画像特徴ベクトルV=[v1,…,vk]、vi∈Rdを生成する。エンコーダは畳み込みニューラルネットワーク(略CNN)であることができる。
本方法は、初期時間ステップにおいてキャプション開始トークン<start>で始まり、一連の時間ステップにおいて最も最近発されたキャプション語wt-1をデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することを含む。デコーダは、図14および図15に示される視覚的に封印された長短期記憶ネットワーク(略LSTM)であることができる。
本方法は、各時間ステップにおいて、デコーダの少なくとも現在の隠れ状態htを使って、画像特徴ベクトルV=[v1,…,vk]、vi∈Rdから、デコーダの現在の隠れ状態に基づいて調整されて(conditioned)、画像の諸領域に割り振られた注目の度合いを決定する画像コンテキスト・ベクトルctを決定することを含む。
本方法は、画像コンテキスト・ベクトルctをデコーダに供給しないことを含む。
本方法は、画像コンテキスト・ベクトルctとデコーダの現在の隠れ状態htとをフィードフォワード・ニューラルネットワークに提出し、フィードフォワード・ニューラルネットワークに次のキャプション語wtを発させることを含む。
本方法は、前記の、デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了になるまで繰り返すことを含む。
この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、この方法実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
他の実装は、上記の方法を実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体(CRM)を含んでいてもよい。さらに別の実装は、メモリと、上記の方法を実行するよう該メモリに記憶されている命令を実行するよう動作可能な一つまたは複数のプロセッサとを含んでいてもよい。
図12は、複数の時間ステップを通じて展開される画像キャプション生成のための開示される適応注目モデルを示す。図8のセンチネルLSTM(Sn-LSTM)は、デコーダとして、該適応注目モデルにおいて具現され、それによって実装される。図13は、図12の適応注目モデルによって適用される適応注目を使う画像キャプション生成の一つの実装を示す。
ある実装では、開示される技術は、図12および図13の画像キャプション生成を実行するシステムを提示する。システムは、メモリに結合された数多くの並列プロセッサを含む。メモリは、画像に自動的にキャプション付けするためのコンピュータ命令をロードされる。該命令は、並列プロセッサ上で実行されると、以下のアクションを実装する。
画像エンコーダ(図1)および言語デコーダ(図8)の結果を混合Σして、入力画像Iについてのキャプション語のシーケンスを発する。混合は、言語デコーダの視覚センチネル・ベクトルStおよび言語デコーダの現在の隠れ状態ベクトルhtから決定されるゲート確率マス/センチネル・ゲート・マスβtによって支配される。画像エンコーダは畳み込みニューラルネットワーク(略CNN)であることができる。言語デコーダは、図8および図9に示されるセンチネル長短期記憶ネットワーク(略Sn-LSTM)であることができる。言語デコーダは、センチネル双方向長短期記憶ネットワーク(略Sn-Bi-LSTM)であることができる。言語デコーダは、センチネル・ゲーテッド回帰ユニット・ネットワーク(略Sn-GRU)であることができる。言語デコーダは、センチネル準回帰型ニューラルネットワーク(略Sn-QRNN)であることができる。
画像エンコーダを通じて画像Iを処理して、画像Iのk個の領域についての画像特徴ベクトルV=[v1,…,vk]、vi∈Rdを生成し、画像特徴ベクトルV=[v1,…,vk]、vi∈Rdからグローバル画像特徴ベクトルvgを計算することによって、画像エンコーダの結果を決定する。
言語デコーダを通じて語を処理することによって、言語デコーダの結果を決定する。これは、(1)初期時間ステップにおいてキャプション開始トークン<start>およびグローバル画像特徴ベクトルvgで始まり、(2)一連の時間ステップにおいて最も最近発されたキャプション語wt-1およびグローバル画像特徴ベクトルvgを言語デコーダへの入力として使い続け、(3)各時間ステップにおいて、最も最近発されたキャプション語wt-1、グローバル画像特徴ベクトルvg、言語デコーダの前の隠れ状態ベクトルht-1および言語デコーダの記憶内容mtを組み合わせる視覚センチネル・ベクトルStを生成することを含む。
各時間ステップにおいて、言語デコーダの少なくとも現在の隠れ状態ベクトルhtを使って、画像特徴ベクトルV=[v1,…,vk]、vi∈Rdについての正規化されていない注目値[λ1,…,λk]と、視覚センチネル・ベクトルStについての正規化されていないゲート値[ηi]を決定する。
正規化されていない注目値[λ1,…,λk]と、正規化されていないゲート値[ηi]とを連結し、連結された注目およびゲート値を指数関数的に正規化して、注目確率マス[α1,…,αk]およびゲート確率マス/センチネル・ゲート・マスβtのベクトルを生成する。
画像特徴ベクトルV=[v1,…,vk]、vi∈Rdに注目確率マス[α1,…,αk]を適用して、画像コンテキスト・ベクトルctにおいて、画像特徴ベクトルV=[v1,…,vk]、vi∈Rdの重み付けされた和Σを累積する。コンテキスト・ベクトルctの生成は、図11および図13に示される適応注目器の空間的注目器において具現され、それによって実装される。
ゲート確率マス/センチネル・ゲート・マスβtに従って、画像コンテキスト・ベクトルctと視覚センチネル・ベクトルStの混合として適応コンテキスト・ベクトル
Figure 0006689461
〔^ctとも記す〕を決定する。適応コンテキスト・ベクトル^ctの生成は、図11および図13に示される適応注目器の混合器において具現され、それによって実装される。
適応コンテキスト・ベクトルと言語デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、フィードフォワード・ニューラルネットワークに次のキャプション語wtを発させる。フィードフォワード・ニューラルネットワークは、図5に示される放出器において具現され、それによって実装される。
前記の、言語デコーダを通じて語を処理すること、前記使うこと、前記連結すること、前記適用すること、前記決定することおよび前記提出することを、発される次のキャプション語がキャプション終了トークン<end>になるまで繰り返す。反復工程は図25に示されるコントローラによって実行される。
この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、このシステム実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
システムは、コンピュータ実装されるシステムであることができる。システムは、ニューラルネットワークに基づくシステムであることができる。
時間ステップtにおける適応コンテキスト・ベクトル^ctは、
Figure 0006689461
として決定されることができる。ここで、^ctは適応コンテキスト・ベクトルを表わし、ctは画像コンテキスト・ベクトルを表わし、Stは視覚センチネル・ベクトルを表わし、βtはゲート確率マス/センチネル・ゲート・マスを表わし、(1−βt)は次のキャプション語の視覚的基礎付け確率を表わす。
視覚センチネル・ベクトルStは、グローバル画像特徴ベクトルvgから決定される視覚的コンテキストおよび前に発されたキャプション語から決定されるテキスト・コンテキストとを含む視覚センチネル情報をエンコードすることができる。
ゲート確率マス/センチネル・ゲート・マス/センチネル・ゲート・マスβtが1であることは、適応コンテキスト・ベクトル^ctが視覚センチネル・ベクトルStに等しいという結果につながる。そのような実装では、次のキャプション語wtは、視覚センチネル情報のみに依存して発される。
画像コンテキスト・ベクトルctは、言語デコーダの現在の隠れ状態ベクトルhtに基づいて調整された(conditioned)空間的画像情報をエンコードすることができる。
ゲート確率マス/センチネル・ゲート・マスβtが0であることは、適応コンテキスト・ベクトル^ctが画像コンテキスト・ベクトルctに等しいという結果につながる。そのような実装では、次のキャプション語wtは、空間的画像情報のみに依存して発される。
ゲート確率マス/センチネル・ゲート・マスβtは、次のキャプション語wtが視覚的な語であるときに上昇し、次のキャプション語が非視覚的な語であるまたは前に発されたキャプション語wt-1と言語的に相関しているときに減少する、1から0までの間のスカラー値であることができる。
システムはさらにトレーニング器(図25)を有することができ、トレーニング器はさらに防止器(図25)を有する。防止器は、トレーニングの間、次のキャプション語が非視覚的な語であるまたは前に発されたキャプション語と言語的に相関しているときは、言語デコーダからの勾配の画像エンコーダへの逆伝搬を防止する。トレーニング器および防止器はそれぞれ、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
他の実装は、上記のシステムのアクションを実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体を含んでいてもよい。
ある実装では、開示される技術は、自動画像キャプション生成の方法を提示する。本方法は、コンピュータ実装される方法であることができる。本方法は、ニューラルネットワークに基づく方法であることができる。
本方法は、画像エンコーダ(図1)および言語デコーダ(図8および図9)の結果を混合Σして、入力画像Iについてのキャプション語のシーケンスを発することを含む。混合は、図11の適応注目器の混合器において具現され、それによって実装される。混合は、言語デコーダの視覚センチネル・ベクトルおよび言語デコーダの現在の隠れ状態ベクトルから決定されるゲート確率マス(本稿ではセンチネル・ゲート・マスとも称される)によって支配される。画像エンコーダは畳み込みニューラルネットワーク(略CNN)であることができる。言語デコーダは、センチネル長短期記憶ネットワーク(略Sn-LSTM)であることができる。言語デコーダは、センチネル双方向長短期記憶ネットワーク(略Sn-Bi-LSTM)であることができる。言語デコーダは、センチネル・ゲーテッド回帰ユニット・ネットワーク(略Sn-GRU)であることができる。言語デコーダは、センチネル準回帰型ニューラルネットワーク(略Sn-QRNN)であることができる。
本方法は、画像エンコーダを通じて画像を処理して、画像の諸領域についての画像特徴ベクトルを生成し、画像特徴ベクトルからグローバル画像特徴ベクトルを計算することによって、画像エンコーダの結果を決定することを含む。
本方法は、言語デコーダを通じて語を処理することによって、言語デコーダの結果を決定することを含む。これは、(1)初期時間ステップにおいてキャプション開始トークン<start>およびグローバル画像特徴ベクトルで始まり、(2)一連の時間ステップにおいて最も最近発されたキャプション語wt-1およびグローバル画像特徴ベクトルを言語デコーダへの入力として使い続け、(3)各時間ステップにおいて、最も最近発されたキャプション語wt-1、グローバル画像特徴ベクトル、言語デコーダの前の隠れ状態ベクトルおよび言語デコーダの記憶内容を組み合わせる視覚センチネル・ベクトルを生成することを含む。
本方法は、各時間ステップにおいて、言語デコーダの少なくとも現在の隠れ状態ベクトルを使って、画像特徴ベクトルについての正規化されていない注目値と、視覚センチネル・ベクトルについての正規化されていないゲート値を決定することを含む。
本方法は、正規化されていない注目値と、正規化されていないゲート値を連結し、連結された注目およびゲート値を指数関数的に正規化して、注目確率マスおよびゲート確率マス/センチネル・ゲート・マスのベクトルを生成することを含む。
本方法は、画像特徴ベクトルに注目確率マスを適用して、画像コンテキスト・ベクトルctにおいて、画像特徴ベクトルの重み付けされた和を累積することを含む。
本方法は、ゲート確率マス/センチネル・ゲート・マスβtに従って、画像コンテキスト・ベクトルと視覚センチネル・ベクトルStの混合として適応コンテキスト・ベクトル
Figure 0006689461
〔^ctとも記す〕を決定することを含む。
本方法は、適応コンテキスト・ベクトル^ctと言語デコーダの現在の隠れ状態htとをフィードフォワード・ニューラルネットワーク(MLP)に提出し、フィードフォワード・ニューラルネットワークに次のキャプション語wtを発させる。
本方法は、前記の、言語デコーダを通じて語を処理すること、前記使うこと、前記連結すること、前記適用すること、前記決定することおよび前記提出することを、発される次のキャプション語がキャプション終了トークン<end>になるまで繰り返すことを含む。反復工程は図25に示されるコントローラによって実行される。
この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、この方法実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
他の実装は、上記の方法を実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体(CRM)を含んでいてもよい。さらに別の実装は、メモリと、上記の方法を実行するよう該メモリに記憶されている命令を実行するよう動作可能な一つまたは複数のプロセッサとを含んでいてもよい。
もう一つの実装では、開示される技術は、自動化された画像キャプション生成システムを提示する。システムは数多くの並列プロセッサ上で走る。
システムは、畳み込みニューラルネットワーク(略CNN)エンコーダ(図11)を有する。CNNエンコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。CNNエンコーダは、一つまたは複数の畳み込み層を通じて入力画像を処理して、画像を表わす、画像領域ごとの画像特徴を生成する。
システムは、センチネル長短期記憶ネットワーク(略Sn-LSTM)デコーダ(図8)を有する。Sn-LSTMデコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。Sn-LSTMデコーダは、画像特徴と組み合わされた、前に発されたキャプション語を処理して、一連の時間ステップを通じてキャプション語のシーケンスを発する。
システムは適応注目器(図11)を有する。適応注目器は前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。各時間ステップにおいて、適応注目器は、前記画像特徴に空間的に注目し、Sn-LSTMデコーダの現在の隠れ状態に基づいて調整された(conditioned)画像コンテキストを生成する。次いで、各時間ステップにおいて、適応注目器は、Sn-LSTMデコーダから、前に処理された画像特徴から決定される視覚的コンテキストおよび前に発されたキャプション語から決定されるテキスト・コンテキストを含む視覚センチネルを抽出する。次いで、各時間ステップにおいて、適応注目器は画像コンテキストctおよび視覚センチネルStを、次のキャプション語wt放出のために混合する。混合は、視覚センチネルStとSn-LSTMデコーダの現在の隠れ状態htとから決定されるセンチネル・ゲート・マスβtによって支配される。
この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、このシステム実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
システムは、コンピュータ実装されるシステムであることができる。システムは、ニューラルネットワークに基づくシステムであることができる。
適応注目器(図11)は、図16、図18および図19に示されるように、次のキャプション語が視覚的な語であるときに、画像コンテキストに向けられる注目を高める。適応注目器(図11)は、図16、図18および図19に示されるように、次のキャプション語が非視覚的な語であるまたは前に発されたキャプション語と言語的に相関しているときに、視覚センチネルに向けられる注目を高める。
システムはさらにトレーニング器を有することができ、トレーニング器はさらに防止器を有する。防止器は、トレーニングの間、次のキャプション語が非視覚的な語であるまたは前に発されたキャプション語と言語的に相関しているときは、Sn-LSTMデコーダからの勾配のCNNエンコーダへの逆伝搬を防止する。トレーニング器および防止器はそれぞれ、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
他の実装は、上記のシステムのアクションを実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体を含んでいてもよい。
さらに別の実装では、開示される技術は、自動画像キャプション生成システムを提示する。本システムは、数多くの並列プロセッサで走ることができる。システムは、コンピュータ実装されるシステムであることができる。システムは、ニューラルネットワークに基づくシステムであることができる。
システムは、画像エンコーダ(図1)を有する。画像エンコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。画像エンコーダは、畳み込みニューラルネットワーク(略CNN)を通じて入力画像を処理して、画像表現を生成する。
システムは、言語デコーダ(図8)を有する。言語デコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。言語デコーダは、回帰型ニューラルネットワーク(略RNN)を通じて、前に発されたキャプション語を、前記画像表現と組み合わせて処理し、キャプション語のシーケンスを発する。
システムは、適応注目器(図11)を有する。適応注目器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。適応注目器は、次のキャプション語が視覚的な語であるときに、画像表現に向けられる注目を高める。適応注目器は、次のキャプション語が非視覚的な語であるまたは前に発されたキャプション語と言語的に相関しているときに、言語デコーダの記憶内容に向けられる注目を高める。
この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、このシステム実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
他の実装は、上記のシステムのアクションを実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体(CRM)を含んでいてもよい。
さらなる実装では、開示される技術は、自動画像キャプション生成システムを提示する。本システムは、数多くの並列プロセッサで走ることができる。システムは、コンピュータ実装されるシステムであることができる。システムは、ニューラルネットワークに基づくシステムであることができる。
システムは、画像エンコーダ(図1)を有する。画像エンコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。画像エンコーダは、畳み込みニューラルネットワーク(略CNN)を通じて入力画像を処理して、画像表現を生成する。
システムは、言語デコーダ(図8)を有する。言語デコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。言語デコーダは、回帰型ニューラルネットワーク(略RNN)を通じて、前に発されたキャプション語を、前記画像表現と組み合わせて処理し、キャプション語のシーケンスを発する。
システムは、センチネル・ゲート・マス/ゲート確率マスβtを有する。センチネル・ゲート・マスは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。センチネル・ゲート・マスは、次のキャプション語放出のための言語デコーダの記憶内容および画像表現の累積を制御する。センチネル・ゲート・マスは、言語デコーダの視覚センチネルと、言語デコーダの現在の隠れ状態とから決定される。
この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、このシステム実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
他の実装は、上記のシステムのアクションを実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体(CRM)を含んでいてもよい。
あるさらなる実装では、開示される技術はタスクを自動化するシステムを提示する。システムは、コンピュータ実装されるシステムであることができる。システムは、ニューラルネットワークに基づくシステムであることができる。
システムはエンコーダを有する。エンコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。エンコーダは、少なくとも一つのニューラルネットワークを通じて入力を処理して、エンコードされた表現を生成する。
システムはデコーダを有する。デコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。デコーダは、少なくとも一つのニューラルネットワークを通じて、前に発された出力を、前記エンコードされた表現と組み合わせて処理し、出力のシーケンスを発する。
システムは適応注目器を有する。適応注目器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。適応注目器は、センチネル・ゲート・マスを使って、次の出力を発するために、前記エンコードされた表現と前記デコーダの記憶内容を混合する。センチネル・ゲート・マスは、前記デコーダの記憶内容および前記デコーダの現在の隠れ状態から決定される。センチネル・ゲート・マスは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、このシステム実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
ある実装において、前記タスクがテキスト要約であるとき、システムは、入力文書を処理して文書エンコードを生成する前記エンコーダとしての第一の回帰型ニューラルネットワーク(略RNN)と、前記文書エンコードを使って要約語のシーケンスを発する前記デコーダとしての第二のRNNとを有する。
ある別の実装において、前記タスクが質問回答であるとき、システムは、入力質問を処理して質問エンコードを生成する前記エンコーダとしての第一のRNNと、前記質問エンコードを使って回答語のシーケンスを発する前記デコーダとしての第二のRNNとを有する。
もう一つの実装において、前記タスクが機械翻訳であるとき、システムは、ソース言語シーケンスを処理してソース・エンコードを生成する前記エンコーダとしての第一のRNNと、前記ソース・エンコードを使って翻訳語のターゲット言語シーケンスを発する前記デコーダとしての第二のRNNとを有する。
さらにもう一つの実装において、前記タスクがビデオ・キャプション生成であるとき、システムは、ビデオ・フレームを処理してビデオ・エンコードを生成する前記エンコーダとしての畳み込みニューラルネットワーク(略CNN)および第一のRNNの組み合わせと、前記ビデオ・エンコードを使ってキャプション語のシーケンスを発する前記デコーダとしての第二のRNNとを有する。
さらなる実装において、前記タスクが画像キャプション生成であるとき、システムは、入力画像を処理して画像エンコードを生成する前記エンコーダとしてのCNNと、前記画像エンコードを使ってキャプション語のシーケンスを発する前記デコーダとしてのRNNとを有する。
本システムはエンコードされた表現から入力の代替表現を決定できる。次いで、システムは、前記デコーダによる処理および前記適応注目器による混合のために、前記エンコードされた表現の代わりに前記代替表現を使うことができる。
前記代替表現は、前記デコーダの現在の隠れ状態に基づいて調整された(conditioned)前記エンコードされた表現の重み付けされた要約であることができる。
前記代替表現は、前記エンコードされた表現の平均された要約であることができる。
他の実装は、上記のシステムのアクションを実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体を含んでいてもよい。
ある別の実装では、開示される技術は、入力画像Iについての自然言語キャプションの機械生成のためのシステムを提示する。システムは数多くの並列プロセッサで走る。システムは、コンピュータ実装されるシステムであることができる。システムは、ニューラルネットワークに基づくシステムであることができる。
図10は、次のキャプション語を発するために、言語的情報ではなく視覚的情報にどのくらい強く依拠するかを自動的に決定する、画像キャプション生成のための開示される適応注目モデルを描いている。図8のセンチネルLSTM(Sn-LSTM)は、デコーダとして、該適応注目モデルにおいて具現され、それによって実装される。図11は、図12に開示される適応注目モデルの一部である適応注目器のモジュールのある実装を描いている。適応注目器は空間的注目器、抽出器、センチネル・ゲート・マス決定器、センチネル・ゲート・マス・ソフトマックスおよび混合器(本稿では適応コンテキスト・ベクトル生成器または適応コンテキスト生成器とも称される)を有する。前記空間的注目器は、適応比較器、適応注目器ソフトマックスおよび適応凸組み合わせ累積器を有する。
システムは、一つまたは複数の畳み込み層を通じて入力画像を処理して、画像Iを表わす、k個の画像領域ごとの画像特徴V=[v1,…,vk]、vi∈Rdを生成するための畳み込みニューラルネットワーク(略CNN)エンコーダ(図1)を有する。CNNエンコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
システムは、各デコーダ時間ステップにおいて、画像特徴と組み合わされた、前に発されたキャプション語wt-1を処理して、Sn-LSTMデコーダの現在の隠れ状態htを生成するための、センチネル長短期記憶ネットワーク(略Sn-LSTM)デコーダ(図8)を有する。Sn-LSTMデコーダは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
システムは、図11に示される適応注目器(adaptive attender)を有する。適応注目器は前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。適応注目器はさらに、各デコーダ時間ステップにおいて、前記画像特徴V=[v1,…,vk]、vi∈Rdに空間的に注目し、Sn-LSTMデコーダの現在の隠れ状態htに基づいて調整された(conditioned)画像コンテキストctを生成するための空間的注目器(spatial attender)(図11および図13)を有する。適応注目器はさらに、各デコーダ時間ステップにおいて、Sn-LSTMデコーダから、視覚センチネルStを抽出するための抽出器(図11および図13)を有する。視覚センチネルStは、前に処理された画像特徴から決定される視覚的コンテキストおよび前に発されたキャプション語から決定されるテキスト・コンテキストを含む。適応注目器はさらに、各デコーダ時間ステップにおいて、画像コンテキストctおよび視覚センチネルStを、適応コンテキスト^ctを生成するために混合Σする混合器(図11および図13)を有する。混合は、視覚センチネルStとSn-LSTMデコーダの現在の隠れ状態htとから決定されるセンチネル・ゲート・マスβtによって支配される。前記空間的注目器、前記抽出器および前記混合器はそれぞれ、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
システムは、混合器によって一連のデコーダ時間ステップにわたって生成された適応コンテキスト^ctに基づいて入力画像Iについての自然言語キャプションを生成するための放出器(図5および図13)を有する。放出器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、このシステム実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
Sn-LSTMデコーダはさらに、各デコーダ時間ステップにおいて視覚センチネルStを生成するための補助センチネル・ゲート(図8)を有することができる。補助センチネル・ゲートは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
適応注目器はさらに、各デコーダ時間ステップにおいて、画像特徴の注目値[λ1,…,λk]と、視覚センチネルのゲート値[ηi]とを指数関数的に正規化して、注目確率マス[α1,…,αk]およびセンチネル・ゲート・マスβtの適応シーケンスφを生成するためのセンチネル・ゲート・マス・ソフトマックス(softmax)(図11および図13)を有することができる。センチネル・ゲート・マス・ソフトマックスは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
適応シーケンス^αi
Figure 0006689461
として決定できる。
上式において、[ ; ]は連結を表わし、WsおよびWgは重みパラメータである。Wgは式(6)と同じ重みパラメータであることができる。
Figure 0006689461
が空間的画像特徴V=[v1,…,vk]、vi∈Rdおよび視覚センチネル・ベクトルStの両方にわたる注目分布である。ある実装では、適応シーケンスの最後の要素はセンチネル・ゲート・マスβt∈αt[k+1]である。
時刻tにおける可能な語の語彙にわたる確率は、放出器の語彙ソフトマックス(図5)によって次のように決定できる。
Figure 0006689461
上式において、WPは学習される重みパラメータである。
適応注目器はさらに、各デコーダ時間ステップにおいて、現在のデコーダ隠れ状態htと視覚センチネルStとの間の相互作用の結果としてセンチネル・ゲート・マスβtを生成するためのセンチネル・ゲート・マス決定器(図11および図13)を有することができる。センチネル・ゲート・マス決定器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
空間的注目器はさらに、各デコーダ時間ステップにおいて、現在のデコーダ隠れ状態htと画像特徴V=[v1,…,vk]、vi∈Rdとの間の相互作用の結果として注目値[λ1,…,λk]を生成するための適応比較器(図11および図13)を有することができる。適応比較器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。いくつかの実装では、注目およびゲート値[λ1,…,λkt]は、重み行列を適用する単一層ニューラルネットワークおよび双曲線正接(tanh)押しつぶし関数(−1から1までの間の出力を生成する)を適用する非線形層を通じて現在のデコーダ隠れ状態ht、画像特徴V=[v1,…,vk]、vi∈Rdおよびセンチネル状態ベクトルStを処理することによって決定される。他の実装では、いくつかの実装では、注目およびゲート値[λ1,…,λkt]は現在のデコーダ隠れ状態ht、画像特徴V=[v1,…,vk]、vi∈Rdおよびセンチネル状態ベクトルStをドット積器または内積器を通じて処理することによって決定される。さらに他の実装では、注目およびゲート値[λ1,…,λkt]は現在のデコーダ隠れ状態ht、画像特徴V=[v1,…,vk]、vi∈Rdおよびセンチネル状態ベクトルStを双線形形式積器(binilinear form productor)を通じて処理することによって決定される。
空間的注目器はさらに、各デコーダ時間ステップにおいて、前記画像特徴についての注目値を指数関数的に正規化して注目確率マスを生成するための適応注目器ソフトマックス(図11および図13)を有することができる。適応注目器ソフトマックスは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
空間的注目器はさらに、各デコーダ時間ステップにおいて、現在のデコーダ隠れ状態を使って決定される注目確率マスによってスケーリングされた画像特徴の凸組み合わせとして画像コンテキストを累積するための適応凸組み合わせ累積器(本稿では混合器または適応コンテキスト生成器または適応コンテキスト・ベクトル生成器とも称される)(図11および図13)を有することができる。センチネル・ゲート・マスは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
システムはさらに、トレーニング器(図25)を有することができる。該トレーニング器はさらに、次のキャプション語が非視覚的な語であるまたは前に発されたキャプション語と言語的に相関しているときは、Sn-LSTMデコーダからの勾配のCNNエンコーダへの逆伝搬〔バックプロパゲーション〕を防止するための防止器を有する。トレーニング器および防止器はそれぞれ、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
適応注目器はさらに、次のキャプション語が視覚的な語であるときに前記画像コンテキストに向けられる注目を上昇させるための前記センチネル・ゲート・マス/ゲート確率マスβtを有する。適応注目器はさらに、次のキャプション語が非視覚的な語であるまたは前に発されたキャプション語と言語的に相関しているときに、前記視覚センチネルに向けられる注目を上昇させるための前記センチネル・ゲート・マス/ゲート確率マスβtを有する。センチネル・ゲート・マスは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
他の実装は、上記のシステムのアクションを実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体を含んでいてもよい。
ある実装では、開示される技術は、回帰型ニューラルネットワーク・システム(略RNN)を提示する。RNNは数多くの並列プロセッサ上で走る。RNNはコンピュータ実装されるシステムであることができる。
RNNは、複数の時間ステップのそれぞれにおいて入力を受領するセンチネル長短期記憶ネットワーク(略Sn-LSTM)を有する。入力は、少なくとも、現在の時間ステップについての入力、前の時間ステップからの隠れ状態および現在の時間ステップについての補助入力を含む。Sn-LSTMは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
RNNは、Sn-LSTMの諸ゲートを通じて入力を処理することによって前記複数の時間ステップのそれぞれにおいて出力を生成する。ゲートは少なくとも、入力ゲート、忘却ゲート、出力ゲートおよび補助センチネル・ゲートを含む。各ゲートは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
RNNは(1)入力ゲート、忘却ゲートおよび出力ゲートによる前記入力の処理および(2)入力ゲート、忘却ゲートおよび出力ゲートによって生成されるゲート出力による記憶セルの更新から、時間とともに累積されたSn-LSTM補助情報を記憶セルにおいて記憶する。記憶セルは、データベースにおいて維持され、持続されることができる(図9)。
補助センチネル・ゲートは、次の予測のために記憶セルからの記憶されている補助情報を変調する。変調(modulation)は、現在の時間ステップについての入力、前の時間ステップからの隠れ状態および現在の時間ステップについての補助入力に基づいて調整される(conditioned)。
この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、このシステム実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
前記補助入力は、画像データを含む視覚的入力であることができ、前記入力は、最も最近発された語および/またはキャラクタのテキスト埋め込みであることができる。前記補助入力は、入力文書の別の長短期記憶ネットワーク(略LSTM)からのテキスト・エンコードであることができ、前記入力は最も最近発された語および/またはキャラクタのテキスト埋め込みであることができる。前記補助入力は、逐次的データをエンコードする別のLSTMからの隠れ状態ベクトルであることができ、前記入力は最も最近発された語および/またはキャラクタのテキスト埋め込みであることができる。前記補助入力は、逐次的データをエンコードする別のLSTMからの隠れ状態ベクトルから導出される予測であることができ、前記入力は最も最近発された語および/またはキャラクタのテキスト埋め込みであることができる。前記補助入力は畳み込みニューラルネットワーク(略CNN)の出力であることができる。補助入力は注目ネットワークの出力であることができる。
前記予測は、分類ラベル埋め込みであることができる。
前記Sn-LSTMはさらに、ある時間ステップにおいて複数の補助入力を受領するよう構成されることができ、少なくとも一つの補助入力は連結されたベクトルを含む。
前記補助入力は、初期時間ステップにおいてのみ受領されることができる。
前記補助センチネル・ゲートは、各時間ステップにおいて、前記変調された補助情報のインジケーターとして、センチネル状態を生成することができる。
前記出力は、少なくとも、現在の時間ステップについての隠れ状態と、現在の時間ステップについてのセンチネル状態とを含むことができる。
前記RNNはさらに、次の予測をするために、少なくとも、現在の時間ステップについての隠れ状態と、現在の時間ステップについてのセンチネル状態とを使うよう構成されることができる。
前記入力はさらに、バイアス入力および前記記憶セルの前の状態を含むことができる。
Sn-LSTMはさらに、入力活性化関数を含むことができる。
前記補助センチネル・ゲートは、前記記憶セルの点ごとの双曲線正接(略tanh)をゲーティングすることができる。
現在の時間ステップtにおける前記補助センチネル・ゲートは、auxt=σ(Wxxt+Whht-1)として定義されることができる。ここで、WxおよびWhは学習されるべき重みパラメータであり、xtは現在の時間ステップについての入力であり、auxtは記憶セルmtに適用される補助センチネル・ゲートであり、
Figure 0006689461
は要素ごとの積を表わし、σはロジスティック・シグモイド活性化を表わす。
現在の時間ステップtにおけるセンチネル状態/視覚センチネルは
Figure 0006689461
として定義される。ここで、Stはセンチネル状態であり、auxtは、記憶セルmtに対して適用される補助センチネル・ゲートであり、
Figure 0006689461
は要素ごとの積であり、tanhは双曲線正接活性化を表わす。
他の実装は、上記のシステムのアクションを実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体を含んでいてもよい。
もう一つの実装では、開示される技術は、入力および前の隠れ状態と組み合わせて補助入力を処理するセンチネル長短期記憶ネットワーク(略Sn-LSTM)を提示する。Sn-LSTMは数多くの並列プロセッサ上で走る。Sn-LSTMはコンピュータ実装されるシステムであることができる。
Sn-LSTMは、Sn-LSTMの記憶セルに適用され、次の予測の間の補助情報の使用を変調する補助センチネル・ゲートを有する。補助情報は、少なくとも、前記入力および前の隠れ状態と組み合わせて補助入力を処理することから、記憶セルにおいて時間とともに累積される。補助センチネル・ゲートは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。記憶セルは、データベースにおいて維持され、持続されることができる(図9)。
この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、このシステム実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
前記補助センチネル・ゲートは、各時間ステップにおいて、現在の時間ステップについての入力、前の時間ステップからの隠れ状態および現在の時間ステップについての補助入力に基づいて調整された(conditioned)、前記変調された補助情報のインジケーターとして、センチネル状態を生成することができる。
前記補助センチネル・ゲートは、前記記憶セルの点ごとの双曲線正接(略tanh)をゲーティングすることができる。
他の実装は、上記のシステムのアクションを実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体を含んでいてもよい。
さらにもう一つの実装では、開示される技術は、長短期記憶ネットワーク(略Sn-LSTM)を拡張する方法を提示する。本方法は、コンピュータ実装される方法であることができる。本方法は、ニューラルネットワークに基づく方法であることができる。
本方法は、長短期記憶ネットワーク(略LSTM)を、補助センチネル・ゲートを含むように拡張することを含む。補助センチネル・ゲートは、LSTMの記憶セルに対して適用され、次の予測の間の補助情報の使用を変調する。補助情報は、少なくとも、現在の入力および前の隠れ状態と組み合わせて補助入力を処理することから、記憶セルにおいて時間とともに累積される。
この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、この方法実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
前記補助センチネル・ゲートは、各時間ステップにおいて、現在の時間ステップについての入力、前の時間ステップからの隠れ状態および現在の時間ステップについての補助入力に基づいて調整された(conditioned)、前記変調された補助情報のインジケーターとして、センチネル状態を生成することができる。
前記補助センチネル・ゲートは、前記記憶セルの点ごとの双曲線正接(略tanh)をゲーティングすることができる。
他の実装は、上記の方法を実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体(CRM)を含んでいてもよい。さらに別の実装は、メモリと、上記の方法を実行するための該メモリに記憶された命令を実行するよう動作可能な一つまたは複数のプロセッサとを含むシステムを含んでいてもよい。
あるさらなる実装では、開示される技術は、画像についての自然言語キャプションの機械生成のための回帰型ニューラルネットワーク・システム(略RNN)を提示する。RNNはコンピュータ実装されるシステムであることができる。
図9は、図8のSn-LSTMを実装する回帰型ニューラルネットワーク(略RNN)のモジュールの一つの実装を示す。
このRNNは、一連の時間ステップにわたってセンチネル長短期記憶ネットワーク(略Sn-LSTM)に複数の入力を提供するための入力提供器(図9)を有する。入力は、少なくとも、現在の時間ステップについての入力、前の時間ステップからの隠れ状態および現在の時間ステップについての補助入力を含む。入力提供器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
このRNNは、Sn-LSTMの複数のゲートにおける各ゲートを通じて入力を処理するためのゲート・プロセッサ(図9)を有する。ゲートは少なくとも、入力ゲート(図8および図9)、忘却ゲート(図8および図9)、出力ゲート(図8および図9)および補助センチネル・ゲート(図8および図9)を含む。ゲート・プロセッサは、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
このRNNは、ゲート・プロセッサによる前記入力の処理から、時間とともに累積された補助情報を記憶するための、Sn-LSTMの記憶セル(図9)を有する。
このRNNは、入力ゲート(図8および図9)、忘却ゲート(図8および図9)および出力ゲート(図8および図9)によって生成されるゲート出力を用いて記憶セルを更新するための記憶セル更新器(図9)を有する。記憶セル更新器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
このRNNは、各時間ステップにおいて、記憶セルからの記憶されている補助情報を変調してセンチネル・ゲートを生成するための補助センチネル・ゲート(図8および図9)を有する。前記変調は、現在の時間ステップについての入力、前の時間ステップからの隠れ状態および現在の時間ステップについての補助入力に基づいて調整される(conditioned)。
このRNNは、補助センチネル・ゲートによって一連の時間ステップにわたって生成されるセンチネル状態に基づいて画像についての自然言語キャプションを生成するための放出器(図5)を有する。放出器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
この〈具体的実装〉セクションにおいて他のシステムおよび方法実装について論じられる各特徴は、このシステム実装に等しく適用される。上記のように、他のすべての特徴をここで繰り返しはしないが、参照によって繰り返されていると考えられるべきである。
補助センチネル・ゲートはさらに、前記入力の処理結果を所定の範囲内に押しつぶすための補助非線形層(図9)を有することができる。補助非線形層は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
Sn-LSTMはさらに、記憶セルの内容に対して非線形性を適用するための記憶非線形層(図9)を有することができる。記憶非線形層は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
Sn-LSTMはさらに、補助センチネル・ゲートからの押しつぶされた結果を、記憶セルの非線形化された内容と組み合わせて前記センチネル状態を生成するためのセンチネル状態生成器(図9)を有することができる。センチネル状態生成器は、前記数多くの並列プロセッサのうちの少なくとも一つで走ることができる。
入力提供器(図9)は、画像データを含む視覚的な入力である前記補助入力を提供することができ、前記入力は、最も最近発された語および/またはキャラクタのテキスト埋め込みである。入力提供器(図9)は、入力文書の別の長短期記憶ネットワーク(略LSTM)からのテキスト・エンコードである補助入力を提供することができ、前記入力は最も最近発された語および/またはキャラクタのテキスト埋め込みである。入力提供器(図9)は、逐次的データをエンコードする別のLSTMからの隠れ状態ベクトルである補助入力を提供することができ、前記入力は最も最近発された語および/またはキャラクタのテキスト埋め込みである。入力提供器(図9)は、逐次的データをエンコードする別のLSTMからの隠れ状態ベクトルから導出された予測である補助入力を提供することができ、前記入力は最も最近発された語および/またはキャラクタのテキスト埋め込みである。入力提供器(図9)は、畳み込みニューラルネットワーク(略CNN)の出力である補助入力を提供することができる。入力提供器(図9)は、注目ネットワークの出力である補助入力を提供することができる。
入力提供器(図9)はさらに、ある時間ステップにおいて複数の補助入力をSn-LSTMに提供することができ、少なくとも一つの補助入力はさらに、連結された特徴を含む。
Sn-LSTMはさらに活性化ゲート(図9)を有することができる。
他の実装は、上記のシステムのアクションを実行するためのプロセッサによって実行可能な命令を記憶している非一時的なコンピュータ可読記憶媒体を含んでいてもよい。
本願は「視覚センチネル」、「センチネル状態」、「視覚センチネル・ベクトル」および「センチネル状態ベクトル」という句を交換可能に使っている。視覚センチネル・ベクトルは、視覚センチネルを表現、特定および/または具現することができる。センチネル状態ベクトルはセンチネル状態を表現、特定および/または具現することができる。本願は「センチネル・ゲート」および「補助センチネル・ゲート」という句を交換可能に使っている。
本願は「隠れ状態」、「隠れ状態ベクトル」および「隠れ状態情報」という句を交換可能に使っている。隠れ状態ベクトルは隠れ状態を表現、特定および/または具現することができる。隠れ状態ベクトルは隠れ状態情報を表現、特定および/または具現することができる。
本願は「入力」という語、「現在の入力」という句および「入力ベクトル」という句を交換可能に使っている。入力ベクトルは入力を表現、特定および/または具現することができる。入力ベクトルは現在の入力を表現、特定および/または具現することができる。
本願は「時間」および「時間ステップ」という語を交換可能に使っている。
本願は「記憶セル状態」、「記憶セル・ベクトル」および「記憶セル状態ベクトル」という句を交換可能に使っている。記憶セル・ベクトルは記憶セル状態を表現、特定および/または具現することができる。記憶セル状態ベクトルは記憶セル状態を表現、特定および/または具現することができる。
本願は「画像特徴」、「空間的画像特徴」および「画像特徴ベクトル」という句を交換可能に使っている。画像特徴ベクトルは画像特徴を表現、特定および/または具現することができる。画像特徴ベクトルは空間的画像特徴を表現、特定および/または具現することができる。
本願は「空間的注目マップ」、「画像注目マップ」および「注目マップ」という句を交換可能に使っている。
本願は「グローバル画像特徴」および「グローバル画像特徴ベクトル」という句を交換可能に使っている。グローバル画像特徴ベクトルはグローバル画像特徴を表現、特定および/または具現することができる。
本願は「語埋め込み」および「語埋め込みベクトル」という句を交換可能に使っている。語埋め込みベクトルは語埋め込みを表現、特定および/または具現することができる。
本願は「画像コンテキスト」、「画像コンテキスト・ベクトル」および「コンテキスト・ベクトル」という句を交換可能に使っている。画像コンテキスト・ベクトルは画像コンテキストを表現、特定および/または具現することができる。コンテキスト・ベクトルは画像コンテキストを表現、特定および/または具現することができる。
本願は「適応画像コンテキスト」、「適応画像コンテキスト・ベクトル」および「適応コンテキスト・ベクトル」という句を交換可能に使っている。適応画像コンテキスト・ベクトルは適応画像コンテキストを表現、特定および/または具現することができる。適応コンテキスト・ベクトルは適応画像コンテキストを表現、特定および/または具現することができる。
本願は「ゲート確率マス」および「センチネル・ゲート・マス」という句を交換可能に使っている。
〈結果〉
図17は、いくつかの例示的なキャプションと、キャプション中の特定の語についての空間的注目マップとを示している。我々のが人間の直観と一致する整列を学習することが見て取れる。正しくないキャプションが生成された例でも、モデルは画像中の合理的な領域を見ていた。
図18は、我々のモデルによって生成された、いくつかの例示的な画像キャプションと、語ごとの視覚的基礎付け確率と、対応する画像/空間的注目マップとの視覚化を示している。モデルは、どのくらい強く画像に注目するかを学習し、しかるべく注目を適応させることに成功している。たとえば、「of」および「a」のような非視覚的な語については、モデルはそれほど画像に注目しない。「red」〔赤い〕、「rose」〔バラ〕、「doughnuts」〔ドーナツ〕、「woman」〔女性〕、「snowboard」〔スノーボード〕のような視覚的な語については、我々のモデルは高い視覚的基礎付け確率(0.9より上)を割り当てている。同じ語が異なるコンテキストにおいて生成されるときには異なる視覚的基礎付け確率を割り当てられることができることを注意しておく。たとえば、語「a」は典型的には文頭では高い視覚的基礎付け確率をもつ。言語コンテキストが全くなければ、モデルは複数(または非複数)を判別するために視覚的情報を必要とするからである。他方、「on a table」〔テーブルの上に〕という句での「a」の視覚的基礎付け確率はずっと低い。何かが二つ以上のテーブル上にある可能性は低いからである。
図19は、図18に示したのと同様の結果を、開示される技術を使って生成された、例示的な画像キャプションと、語ごとの視覚的基礎付け確率と、対応する画像/空間的注目マップとの別のセットに対して提示している。
図20および図21は、それぞれCOCO(common objects in context[コンテキスト中の共通オブジェクト])およびFlickr30kデータセットに対する我々のモデルのパフォーマンスを示す例示的な順位‐確率プロットである。我々のモデルは、「dishes」〔皿〕、「people」〔人々〕、「cat」〔猫〕、「boat」〔ボート〕のようなオブジェクト語;「giant」〔巨大〕、「metal」〔金属〕、「yellow」〔黄色〕のような属性語および「three」〔三つ〕のような数詞を生成するときに、より多く画像に注目することが見て取れる。「the」、「of」、「to」などのように、語が非視覚的であるときは、我々のモデルは画像に注目しないよう学習する。「crossing」〔交差〕、「during」〔間〕などといった、より抽象的な語については、我々のモデルは視覚的な語ほどは注目せず、非視覚的な語よりは注目する。モデルは、いかなる統語的特徴または外的知識にも頼らない。学習を通じてこれらの傾向を自動的に発見する。
図22は、上位45個の最も頻繁なCOCOオブジェクト・カテゴリーについての、生成されたキャプションについての局在化精度を示す例示的なグラフである。青色のバーは空間的注目モデルの局在化精度を示し、赤色のバーは適応注目モデルの局在化精度を示す。図22は、「cat」〔猫〕、「bed」〔ベッド〕、「bus」〔バス〕および「truck」〔トラック〕のようなカテゴリーに対してはどちらのモデルもいい性能を発揮することを示している。「sink」〔シンク〕、「surfboard」〔サーフボード〕、「clock」〔時計〕および「frisbee」〔フリスビー〕のような、より小さなオブジェクトに対しては、どちらのモデルもいい性能を発揮していない。これは、空間的注目マップは7×7の特徴マップから直接スケーリングされており、それによりかなりの空間的情報および詳細が失われるからである。
図23は、さまざまな自然言語処理メトリックに基づく、Flicker30kおよびCOCOデータセットに対する、開示される技術のパフォーマンスを示すテーブルである。該メトリックは、BLEU(bilingual evaluation understudy)、METEOR(metric for evaluation of translation with explicit ordering)、CIDEr(consensus-based image description evaluation)、ROUGE-L(recall-oriented understudy for gisting evaluation-longest common subsequence)およびSPICE(semantic propositional image caption evaluation)を含む。図23のテーブルは、我々の適応注目モデルが、我々の空間的注目モデルよりも有意によい性能であることを示している。Flickr30kデータベースに対して、我々の適応注目モデルのCIDErスコア・パフォーマンスは、空間的注目モデルについての0.493に対して、0.531である。同様に、COCOデータベースに対する適応注目モデルおよび空間的注目モデルのCIDErスコアはそれぞれ1.085および1.029である。
図24において、公開されている先端技術のリーダーボードに示されるように、COCO評価サーバー上で我々のモデルを先端技術システムと比較する。このリーダーボードから、我々の手法が、公開されているシステムのうちであらゆるメトリックで最良のパフォーマンスを達成し、よって有意な差で新しい先端技術を設定することが見て取れる。
〈コンピュータ・システム〉
図25は、開示される技術を実装するために使われることのできるコンピュータ・システムの簡略化されたブロック図である。コンピュータ・システムは、バス・サブシステムを介していくつかの周辺装置と通信する少なくとも一つの中央処理ユニット(CPU)を含む。これらの周辺装置は、たとえばメモリ・デバイスおよびファイル記憶サブシステムを含む記憶サブシステムと、ユーザー・インターフェース入力装置と、ユーザー・インターフェース出力装置と、ネットワーク・インターフェース・サブシステムとを含むことができる。入力装置および出力装置はコンピュータ・システムとのユーザー対話を許容する。ネットワーク・インターフェース・サブシステムは、他のコンピュータ・システムにおける対応するインターフェース装置へのインターフェースを含む外部ネットワークへのインターフェースを提供する。
ある実装では、少なくとも前記空間的注目モデル、前記コントローラ、前記局在化器(図25)、前記トレーニング器(これは前記防止器を有する)、前記適応注目モデルおよび前記センチネルLSTM(Sn-LSTM)は前記記憶サブシステムおよび前記ユーザー・インターフェース入力装置に通信可能にリンクされる。
ユーザー・インターフェース入力装置はキーボード;マウス、トラックボール、タッチパッドまたはグラフィックタブレットのようなポインティングデバイス;スキャナー;ディスプレイに組み込まれたタッチスクリーン;音声認識システムおよびマイクロフォンのようなオーディオ入力装置;および他の型の入力装置を含むことができる。一般に、「入力装置」という用語の使用は、コンピュータ・システムに情報を入力するためのあらゆる可能な型の装置および方法を含むことが意図されている。
ユーザー・インターフェース出力装置は表示サブシステム、プリンター、ファクス機またはオーディオ出力装置のような非視覚的ディスプレイを含むことができる。表示サブシステムは、陰極線管(CRT)、液晶ディスプレイ(LCD)のようなフラットパネル装置、投影装置または可視画像を生成するための他の何らかの機構を含みうる。前記表示サブシステムはまた、オーディオ出力装置を介してなど、非視覚的ディスプレイをも設けてもよい。一般に、「出力装置」という用語の使用は、コンピュータ・システムからユーザーまたは別の機械もしくはコンピュータ・システムに情報を出力するためのあらゆる可能な型の装置および方法を含むことが意図されている。
記憶サブシステムは、本稿に記載されるモジュールおよび方法の一部または全部のものの機能を提供するプログラミングおよびデータ構造体を記憶する。これらのソフトウェア・モジュールは一般に、深層学習プロセッサによって実行される。
深層学習プロセッサは、グラフィック処理ユニット(GPU)またはフィールドプログラマブルゲートアレイ(FPGA)であることができる。深層学習プロセッサは、Google Cloud Platform(商標)、Xilinx(商標)およびCirrascale(商標)のような深層学習クラウド・プラットフォームによってホストされることができる。深層学習プロセッサの例はGoogleのTensor Processing Unit (TPU)(商標)、ラックマウント解決策、たとえばGX4 Rackmount Series(商標)、GX8 Rackmount Series(商標)、NVIDIA DGX-1(商標)、MicrosoftのStratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit (IPU)(商標)、Qualcommの、Snapdragon processors(商標)と一緒にZeroth Platform(商標)、NVIDIAのVolta(商標)、NVIDIAのDRIVE PX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、Fujitsu DPI(商標)、ARMのDynamicIQ(商標)、IBM TrueNorth(商標)などを含む。
記憶サブシステムにおいて使用されるメモリ・サブシステムは、プログラム実行中に命令およびデータを記憶するためのメイン・ランダムアクセスメモリ(RAM)および固定した命令が記憶されるリードオンリーメモリ(ROM)を含むいくつかのメモリを含むことができる。ファイル記憶サブシステムは、プログラムおよびデータ・ファイルのための持続的記憶装置を提供することができ、ハードディスクドライブ、関連のリムーバブル媒体と一緒のフロッピーディスクドライブ、CD-ROMドライブ、光学式ドライブまたはリムーバブル媒体カートリッジを含むことができる。ある種の実装の機能を実装するモジュールは、記憶サブシステム内のファイル記憶サブシステムによって、あるいはプロセッサによってアクセス可能な他のマシンに記憶されることができる。
バス・サブシステムは、コンピュータ・システムのさまざまなコンポーネントおよびサブシステムが意図したように互いと通信するようにする機構を提供する。バス・サブシステムは、単一のバスとして概略的に示されているが、バス・サブシステムの代替的な実装は複数のバスを使用してもよい。
コンピュータ・システムは、パーソナル・コンピュータ、ポータブル・コンピュータ、ワークステーション、コンピュータ端末、ネットワーク・コンピュータ、テレビジョン、メインフレーム、サーバーファーム、ゆるくネットワーク接続されたコンピュータの広く分散された集合または他の任意のデータ処理システムもしくはユーザー装置を含む多様な型であることができる。コンピュータおよびネットワークの絶えず変化する性質のため、図13に描かれるコンピュータ・システムの記述は、本発明のいくつかの実施形態を例解するための具体例としてのみ意図されている。図13に描かれるコンピュータ・システムよりも多数または少数のコンポーネントを有する、コンピュータ・システムの他の多くの構成が可能である。
上記の記述は、開示される技術の作成および利用を可能にするために提示されている。開示される実装へのさまざまな修正が明白であろう。本稿で定義される一般原理は、開示される技術の精神および範囲から外れることなく、他の実装および用途に適用されてもよい。このように、開示される技術は示されている実装に限定されることは意図されておらず、本稿に開示される原理および特徴と整合する最も広い範囲を与えられるべきである。開示される技術の範囲は付属の請求項によって定義される。
上記の記述は、開示される技術の作成および利用を可能にするために提示されている。開示される実装へのさまざまな修正が明白であろう。本稿で定義される一般原理は、開示される技術の精神および範囲から外れることなく、他の実装および用途に適用されてもよい。このように、開示される技術は示されている実装に限定されることは意図されておらず、本稿に開示される原理および特徴と整合する最も広い範囲を与えられるべきである。開示される技術の範囲は付属の請求項によって定義される。
いくつかの態様を記載しておく。
〔態様1〕
画像についての自然言語キャプションの機械生成のための、数多くの並列プロセッサ上で稼働する、画像から言語へのキャプション生成システムであって、当該システムは:
畳み込みニューラルネットワーク(略CNN)を通じて前記画像を処理して、前記画像の諸領域についての画像特徴を生成するエンコーダと;
前記画像特徴を組み合わせることによって前記画像についてのグローバル画像特徴を生成するグローバル画像特徴生成器と;
初期デコーダ時間ステップにおいてはキャプション開始トークンおよび前記グローバル画像特徴の組み合わせとして、一連のデコーダ時間ステップにおいては最も最近発されたキャプション語および前記グローバル画像特徴の組み合わせとして、デコーダへの入力を提供する入力準備器と;
長短期記憶ネットワーク(略LSTM)を通じて前記入力を処理して、各デコーダ時間ステップにおける現在のデコーダ隠れ状態を生成する前記デコーダと;
各デコーダ時間ステップにおいて、前記現在のデコーダ隠れ状態を使って決定された注目確率マスによってスケーリングされた前記画像特徴の凸組み合わせとして、画像コンテキストを累積する注目器と;
前記画像コンテキストおよび前記現在のデコーダ隠れ状態を処理して、各デコーダ時間ステップにおいて次のキャプション語を発するフィードフォワード・ニューラルネットワークと;
発される次のキャプション語がキャプション終了トークンになるまで前記画像についての前記自然言語キャプションを生成するよう、前記入力準備器、前記デコーダ、前記注目器および前記フィードフォワード・ニューラルネットワークを逐次反復させるコントローラとを有する、
システム。
〔態様2〕
前記注目器がさらに、各デコーダ時間ステップにおいて前記注目確率マスを生成するために注目値を指数関数的に正規化する注目器ソフトマックスを有する、態様1記載のシステム。
〔態様3〕
前記注目器がさらに、各デコーダ時間ステップにおいて、前記注目値を、前記現在のデコーダ隠れ状態と前記画像特徴との間の相互作用の結果として生成するための比較器を有する、態様1または2記載のシステム。
〔態様4〕
前記デコーダがさらに、各デコーダ時間ステップにおいて現在のデコーダ入力および前のデコーダ隠れ状態に基づいて前記現在のデコーダ隠れ状態を決定するために、少なくとも入力ゲート、忘却ゲートおよび出力ゲートを有する、態様1ないし3のうちいずれか一項記載のシステム。
〔態様5〕
前記注目器がさらに、各時間ステップにおいて各画像領域に割り振られる空間的注目の量を、前記現在のデコーダ隠れ状態に基づいて調整されて、同定するよう前記画像コンテキストを生成するための凸組み合わせ累積器を有する、態様1ないし4のうちいずれか一項記載のシステム。
〔態様6〕
弱教師付き局在化に基づいて前記割り振られた空間的注目を評価する局在化器をさらに有する、態様1ないし5のうちいずれか一項記載のシステム。
〔態様7〕
各デコーダ時間ステップにおいて前記画像コンテキストおよび前記現在のデコーダ隠れ状態に基づいて出力を生成する前記フィードフォワード・ニューラルネットワークをさらに有する、態様1ないし6のうちいずれか一項記載のシステム。
〔態様8〕
各デコーダ時間ステップにおいて、前記出力を使って、語彙内の語に対する語彙確率マスの正規化された分布を決定する語彙ソフトマックスをさらに有する、態様1ないし7のうちいずれか一項記載のシステム。
〔態様9〕
前記語彙確率マスが、語彙語が次のキャプション語であるそれぞれの確からしさを同定する、態様1ないし8のうちいずれか一項記載のシステム。
〔態様10〕
画像についての自然言語キャプションの機械生成のための、数多くの並列プロセッサ上で稼働する、画像から言語へのキャプション生成システムであって、当該システムは:
少なくとも現在の隠れ状態情報を使って、画像からエンコーダによって生成された画像特徴ベクトルについて注目マップを生成し、前記画像特徴ベクトルの重み付けされた和に基づいて出力キャプション語を生成させる注目遅れ型デコーダを有しており、重みは前記注目マップから決定される、
システム。
〔態様11〕
前記現在の隠れ状態情報が、前記デコーダへの現在の入力および前の隠れ状態情報に基づいて決定される、態様10記載のシステム。
〔態様12〕
前記エンコーダは、畳み込みニューラルネットワーク(略CNN)であり、前記画像特徴ベクトルは前記CNNの最後の畳み込み層によって生成される、態様10または11記載のシステム。
〔態様13〕
前記注目遅れ型デコーダは、長短期記憶ネットワーク(略LSTM)である、態様10ないし12のうちいずれか一項記載のシステム。
〔態様14〕
画像についての自然言語キャプションの機械生成の方法であって、当該方法は:
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定する段階と;
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する段階と;
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルについての正規化されていない注目値を決定し、前記注目値を指数関数的に正規化して注目確率マスを生成する段階と;
前記画像特徴ベクトルに前記注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、前記画像特徴ベクトルの重み付けされた和を累積する段階と;
前記画像コンテキスト・ベクトルと前記デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークに次のキャプション語を発させる段階と;
前記デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返す段階とを含む、
方法。
〔態様15〕
前記デコーダの前記現在の隠れ状態は、前記デコーダへの現在の入力および前記デコーダの前の隠れ状態に基づいて決定される、態様14記載の方法。
〔態様16〕
画像についての自然言語キャプションの機械生成のための方法であって、当該方法は:
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成することと;
初期時間ステップにおいてキャプション開始トークンで始まり、一連の時間ステップにおいて最も最近発されたキャプション語をデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することと;
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルから、前記画像の諸領域に割り振られる注目の量を、前記デコーダの前記現在の隠れ状態に基づいて調整されて、決定する画像コンテキスト・ベクトルを決定することと;
前記画像コンテキスト・ベクトルを前記デコーダに供給しないことと;
前記画像コンテキスト・ベクトルと前記デコーダの前記現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークにキャプション語を発させることと;
前記デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返すこととを含む、
方法。
〔態様17〕
メモリに結合された数多くの並列プロセッサを含むシステムであって、前記メモリは、画像についての自然言語キャプションを生成するための決定器命令をロードされており、前記命令は、前記並列プロセッサ上で実行されるときに:
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定する段階と;
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する段階と;
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルについての正規化されていない注目値を決定し、前記注目値を指数関数的に正規化して注目確率マスを生成する段階と;
前記画像特徴ベクトルに前記注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、前記画像特徴ベクトルの重み付けされた和を累積する段階と;
前記画像コンテキスト・ベクトルと前記デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークに次のキャプション語を発させる段階と;
前記デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返す段階とを含むアクションを実装するものである、
システム。
〔態様18〕
画像についての自然言語キャプションを生成するための決定器プログラム命令を印加された非一時的な決定器可読記憶媒体であって、前記命令は、数多くの並列プロセッサ上で実行されるときに:
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定する段階と;
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する段階と;
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルについての正規化されていない注目値を決定し、前記注目値を指数関数的に正規化して注目確率マスを生成する段階と;
前記画像特徴ベクトルに前記注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、前記画像特徴ベクトルの重み付けされた和を累積する段階と;
前記画像コンテキスト・ベクトルと前記デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークに次のキャプション語を発させる段階と;
前記デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返す段階とを含む方法を実装するものである、
媒体。
〔態様19〕
メモリに結合された数多くの並列プロセッサを含むシステムであって、前記メモリは、画像についての自然言語キャプションを生成するための決定器命令をロードされており、前記命令は、前記並列プロセッサ上で実行されるときに:
注目遅れデコーダの現在の隠れ状態情報を使って、画像からエンコーダによって生成された画像特徴ベクトルについて注目マップを生成し、前記画像特徴ベクトルの重み付けされた和に基づいて出力キャプション語を生成することを含むアクションを実装するものであり、前記重みは前記注目マップから決定される、
システム。
〔態様20〕
画像についての自然言語キャプションを生成するための決定器プログラム命令を印加された非一時的な決定器可読記憶媒体であって、前記命令は、数多くの並列プロセッサ上で実行されるときに:
注目遅れデコーダの現在の隠れ状態情報を使って、画像からエンコーダによって生成された画像特徴ベクトルについて注目マップを生成し、前記画像特徴ベクトルの重み付けされた和に基づいて出力キャプション語を生成することを含む方法を実装するものであり、前記重みは前記注目マップから決定される、
媒体。
〔態様21〕
メモリに結合された数多くの並列プロセッサを含むシステムであって、前記メモリは、画像についての自然言語キャプションを生成するための決定器命令をロードされており、前記命令は、前記並列プロセッサ上で実行されるときに:
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定することと;
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することと;
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルから、前記画像の諸領域に割り振られる注目の量を、前記デコーダの前記現在の隠れ状態に基づいて調整されて、決定する画像コンテキスト・ベクトルを決定することと;
前記画像コンテキスト・ベクトルを前記デコーダに供給しないことと;
前記画像コンテキスト・ベクトルと前記デコーダの前記現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークにキャプション語を発させることと;
前記デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返すこととを含むアクションを実装するものである、
システム。
〔態様22〕
画像についての自然言語キャプションを生成するための決定器プログラム命令を印加された非一時的な決定器可読記憶媒体であって、前記命令は、数多くの並列プロセッサ上で実行されるときに:
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定することと;
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することと;
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルから、前記画像の諸領域に割り振られる注目の量を、前記デコーダの前記現在の隠れ状態に基づいて調整されて、決定する画像コンテキスト・ベクトルを決定することと;
前記画像コンテキスト・ベクトルを前記デコーダに供給しないことと;
前記画像コンテキスト・ベクトルと前記デコーダの前記現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークにキャプション語を発させることと;
前記デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返すこととを含む方法を実装するものである、
媒体。
〈付録〉
Figure 0006689461

Figure 0006689461

Figure 0006689461

Figure 0006689461

Figure 0006689461

Figure 0006689461

Figure 0006689461

Figure 0006689461

Figure 0006689461

Figure 0006689461

Claims (12)

  1. 画像についての自然言語キャプションの機械生成のための、数多くの並列プロセッサ上で稼働する、画像から言語へのキャプション生成システムであって、当該システムは:
    畳み込みニューラルネットワーク(CNN)を通じて前記画像を処理して、前記画像の諸領域についての画像特徴を生成するエンコーダと;
    前記画像特徴を組み合わせることによって前記画像についてのグローバル画像特徴を生成するグローバル画像特徴生成器と;
    初期デコーダ時間ステップにおいてはキャプション開始トークンおよび前記グローバル画像特徴の組み合わせとして、一連のデコーダ時間ステップにおいては最も最近発されたキャプション語および前記グローバル画像特徴の組み合わせとして、デコーダへの入力を提供する入力準備器と;
    長短期記憶ネットワーク(LSTM)を通じて前記入力を処理して、各デコーダ時間ステップにおける現在のデコーダ隠れ状態を生成する前記デコーダと;
    各デコーダ時間ステップにおいて、前記現在のデコーダ隠れ状態を使って決定された注目確率マスによってスケーリングされた前記画像特徴の凸組み合わせとして、画像コンテキストを累積する注目器と;
    前記画像コンテキストおよび前記現在のデコーダ隠れ状態を処理して、各デコーダ時間ステップにおいて次のキャプション語を発するフィードフォワード・ニューラルネットワークと;
    発される次のキャプション語がキャプション終了トークンになるまで前記画像についての前記自然言語キャプションを生成するよう、前記入力準備器、前記デコーダ、前記注目器および前記フィードフォワード・ニューラルネットワークを逐次反復させるコントローラとを有する、
    システム。
  2. 前記注目器がさらに、各デコーダ時間ステップにおいて前記注目確率マスを生成するために注目値を指数関数的に正規化する注目器ソフトマックスを有する、請求項1記載のシステム。
  3. 前記注目器がさらに、各デコーダ時間ステップにおいて、前記注目値を、前記現在のデコーダ隠れ状態と前記画像特徴との間の重み付けされた組み合わせの結果として生成するための比較器を有する、請求項2記載のシステム。
  4. 前記デコーダがさらに、各デコーダ時間ステップにおいて現在のデコーダ入力および前のデコーダ隠れ状態に基づいて前記現在のデコーダ隠れ状態を決定するために、少なくとも入力ゲート、忘却ゲートおよび出力ゲートを有する、請求項1ないし3のうちいずれか一項記載のシステム。
  5. 前記注目器がさらに、各時間ステップにおいて各画像領域に割り振られる空間的注目の量を、前記現在のデコーダ隠れ状態に基づいて調整されて、同定するよう前記画像コンテキストを生成するための凸組み合わせ累積器を有する、請求項1ないし4のうちいずれか一項記載のシステム。
  6. 各デコーダ時間ステップにおいて前記画像コンテキストおよび前記現在のデコーダ隠れ状態に基づいて出力を生成する前記フィードフォワード・ニューラルネットワークをさらに有する、請求項1ないし5のうちいずれか一項記載のシステム。
  7. 各デコーダ時間ステップにおいて、前記出力を使って、語彙内の語に対する語彙確率マスの正規化された分布を決定する語彙ソフトマックスをさらに有する、請求項記載のシステム。
  8. 前記語彙確率マスが、語彙語が次のキャプション語であるそれぞれの確からしさを同定する、請求項記載のシステム。
  9. メモリに結合された数多くの並列プロセッサを含むシステムであって、前記メモリは、画像についての自然言語キャプションを生成するための決定器命令をロードされており、前記命令は、前記並列プロセッサ上で実行されるときに:
    エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定する段階と;
    初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する段階と;
    各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルについての正規化されていない注目値を決定し、前記注目値を指数関数的に正規化して注目確率マスを生成する段階と;
    前記画像特徴ベクトルに前記注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、前記画像特徴ベクトルの重み付けされた和を累積する段階と;
    前記画像コンテキスト・ベクトルと前記デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークに次のキャプション語を発させる段階と;
    前記デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返す段階とを含むアクションを実装するものである、
    システム。
  10. 画像についての自然言語キャプションを生成するための決定器プログラム命令を印加された非一時的な決定器可読記憶媒体であって、前記命令は、数多くの並列プロセッサ上で実行されるときに:
    エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定する段階と;
    初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する段階と;
    各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルについての正規化されていない注目値を決定し、前記注目値を指数関数的に正規化して注目確率マスを生成する段階と;
    前記画像特徴ベクトルに前記注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、前記画像特徴ベクトルの重み付けされた和を累積する段階と;
    前記画像コンテキスト・ベクトルと前記デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークに次のキャプション語を発させる段階と;
    前記デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返す段階とを含む方法を実装するものである、
    媒体。
  11. メモリに結合された数多くの並列プロセッサを含むシステムであって、前記メモリは、画像についての自然言語キャプションを生成するための決定器命令をロードされており、前記命令は、前記並列プロセッサ上で実行されるときに:
    エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定することと;
    初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することと;
    各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルから、前記画像の諸領域に割り振られる注目の量を、前記デコーダの前記現在の隠れ状態に基づいて調整されて、決定する画像コンテキスト・ベクトルを決定することと;
    前記画像コンテキスト・ベクトルを前記デコーダに供給しないことと;
    前記画像コンテキスト・ベクトルと前記デコーダの前記現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークにキャプション語を発させることと;
    前記デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返すこととを含むアクションを実装するものである、
    システム。
  12. 画像についての自然言語キャプションを生成するための決定器プログラム命令を印加された非一時的な決定器可読記憶媒体であって、前記命令は、数多くの並列プロセッサ上で実行されるときに:
    エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定することと;
    初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することと;
    各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルから、前記画像の諸領域に割り振られる注目の量を、前記デコーダの前記現在の隠れ状態に基づいて調整されて、決定する画像コンテキスト・ベクトルを決定することと;
    前記画像コンテキスト・ベクトルを前記デコーダに供給しないことと;
    前記画像コンテキスト・ベクトルと前記デコーダの前記現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークにキャプション語を発させることと;
    前記デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返すこととを含む方法を実装するものである、
    媒体。
JP2019526275A 2016-11-18 2017-11-18 画像キャプション生成のための空間的注目モデル Active JP6689461B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020068779A JP6946508B2 (ja) 2016-11-18 2020-04-07 画像キャプション生成のための空間的注目モデル

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201662424353P 2016-11-18 2016-11-18
US62/424,353 2016-11-18
US15/817,161 US10565305B2 (en) 2016-11-18 2017-11-17 Adaptive attention model for image captioning
US15/817,161 2017-11-17
US15/817,153 US10558750B2 (en) 2016-11-18 2017-11-17 Spatial attention model for image captioning
US15/817,153 2017-11-17
PCT/US2017/062433 WO2018094294A1 (en) 2016-11-18 2017-11-18 Spatial attention model for image captioning
US15/817,165 US10565306B2 (en) 2016-11-18 2017-11-18 Sentinel gate for modulating auxiliary information in a long short-term memory (LSTM) neural network
US15/817,165 2017-11-18

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020068779A Division JP6946508B2 (ja) 2016-11-18 2020-04-07 画像キャプション生成のための空間的注目モデル

Publications (2)

Publication Number Publication Date
JP2019537147A JP2019537147A (ja) 2019-12-19
JP6689461B2 true JP6689461B2 (ja) 2020-04-28

Family

ID=62147067

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019526275A Active JP6689461B2 (ja) 2016-11-18 2017-11-18 画像キャプション生成のための空間的注目モデル
JP2020068779A Active JP6946508B2 (ja) 2016-11-18 2020-04-07 画像キャプション生成のための空間的注目モデル

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2020068779A Active JP6946508B2 (ja) 2016-11-18 2020-04-07 画像キャプション生成のための空間的注目モデル

Country Status (5)

Country Link
US (5) US10558750B2 (ja)
EP (2) EP3542314B1 (ja)
JP (2) JP6689461B2 (ja)
CN (1) CN110168573B (ja)
CA (2) CA3040165C (ja)

Families Citing this family (271)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016077797A1 (en) * 2014-11-14 2016-05-19 Google Inc. Generating natural language descriptions of images
US10229111B1 (en) * 2016-02-03 2019-03-12 Google Llc Sentence compression using recurrent neural networks
US10354168B2 (en) * 2016-04-11 2019-07-16 A2Ia S.A.S. Systems and methods for recognizing characters in digitized documents
US11409791B2 (en) 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US10552968B1 (en) 2016-09-23 2020-02-04 Snap Inc. Dense feature scale detection for image matching
US10402658B2 (en) * 2016-11-03 2019-09-03 Nec Corporation Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
US10467274B1 (en) * 2016-11-10 2019-11-05 Snap Inc. Deep reinforcement learning-based captioning with embedding reward
US10198671B1 (en) * 2016-11-10 2019-02-05 Snap Inc. Dense captioning with joint interference and visual context
US10558750B2 (en) 2016-11-18 2020-02-11 Salesforce.Com, Inc. Spatial attention model for image captioning
US10592751B2 (en) * 2017-02-03 2020-03-17 Fuji Xerox Co., Ltd. Method and system to generate targeted captions and summarize long, continuous media files
WO2018142378A1 (en) * 2017-02-06 2018-08-09 Deepmind Technologies Limited Memory augmented generative temporal models
JP6791780B2 (ja) * 2017-02-16 2020-11-25 株式会社日立製作所 文章作成装置
US10387776B2 (en) * 2017-03-10 2019-08-20 Adobe Inc. Recurrent neural network architectures which provide text describing images
US11354565B2 (en) 2017-03-15 2022-06-07 Salesforce.Com, Inc. Probability-based guider
US11042782B2 (en) * 2017-03-20 2021-06-22 Intel Corporation Topic-guided model for image captioning system
US10810371B2 (en) 2017-04-06 2020-10-20 AIBrain Corporation Adaptive, interactive, and cognitive reasoner of an autonomous robotic system
US10929759B2 (en) 2017-04-06 2021-02-23 AIBrain Corporation Intelligent robot software platform
US10839017B2 (en) * 2017-04-06 2020-11-17 AIBrain Corporation Adaptive, interactive, and cognitive reasoner of an autonomous robotic system utilizing an advanced memory graph structure
US11151992B2 (en) 2017-04-06 2021-10-19 AIBrain Corporation Context aware interactive robot
US10963493B1 (en) 2017-04-06 2021-03-30 AIBrain Corporation Interactive game with robot system
US10565318B2 (en) 2017-04-14 2020-02-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention
US11386327B2 (en) 2017-05-18 2022-07-12 Salesforce.Com, Inc. Block-diagonal hessian-free optimization for recurrent and convolutional neural networks
US10817650B2 (en) 2017-05-19 2020-10-27 Salesforce.Com, Inc. Natural language processing using context specific word vectors
US10089556B1 (en) * 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
US11087211B2 (en) * 2017-10-05 2021-08-10 Salesforce.Com, Inc. Convolutional neural network (CNN)-based suggestions for anomaly input
WO2019081623A1 (en) * 2017-10-25 2019-05-02 Deepmind Technologies Limited SELF-REGRESSIVE NEURAL NETWORK SYSTEMS INCLUDING A SOFTWARE ATTENTION MECHANISM USING SUPPORT DATA CORRECTIVES
US11562287B2 (en) 2017-10-27 2023-01-24 Salesforce.Com, Inc. Hierarchical and interpretable skill acquisition in multi-task reinforcement learning
US10592767B2 (en) 2017-10-27 2020-03-17 Salesforce.Com, Inc. Interpretable counting in visual question answering
US11604956B2 (en) 2017-10-27 2023-03-14 Salesforce.Com, Inc. Sequence-to-sequence prediction using a neural network model
US11928600B2 (en) 2017-10-27 2024-03-12 Salesforce, Inc. Sequence-to-sequence prediction using a neural network model
US10573295B2 (en) 2017-10-27 2020-02-25 Salesforce.Com, Inc. End-to-end speech recognition with policy learning
US11170287B2 (en) 2017-10-27 2021-11-09 Salesforce.Com, Inc. Generating dual sequence inferences using a neural network model
US10542270B2 (en) 2017-11-15 2020-01-21 Salesforce.Com, Inc. Dense video captioning
US11276002B2 (en) 2017-12-20 2022-03-15 Salesforce.Com, Inc. Hybrid training of deep networks
CN108417217B (zh) * 2018-01-11 2021-07-13 思必驰科技股份有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
US11501076B2 (en) 2018-02-09 2022-11-15 Salesforce.Com, Inc. Multitask learning as question answering
US11227218B2 (en) 2018-02-22 2022-01-18 Salesforce.Com, Inc. Question answering from minimal context over documents
US10929607B2 (en) 2018-02-22 2021-02-23 Salesforce.Com, Inc. Dialogue state tracking using a global-local encoder
US11714994B2 (en) * 2018-03-09 2023-08-01 Deepmind Technologies Limited Learning from delayed outcomes using neural networks
US10783875B2 (en) 2018-03-16 2020-09-22 Salesforce.Com, Inc. Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network
US11106182B2 (en) 2018-03-16 2021-08-31 Salesforce.Com, Inc. Systems and methods for learning for domain adaptation
CN108921811B (zh) * 2018-04-03 2020-06-30 阿里巴巴集团控股有限公司 检测物品损伤的方法和装置、物品损伤检测器
JP7095376B2 (ja) * 2018-04-17 2022-07-05 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
US10621990B2 (en) * 2018-04-30 2020-04-14 International Business Machines Corporation Cognitive print speaker modeler
EP3732633A1 (en) 2018-05-18 2020-11-04 Google LLC Universal transformers
US11600194B2 (en) 2018-05-18 2023-03-07 Salesforce.Com, Inc. Multitask learning as question answering
US10909157B2 (en) 2018-05-22 2021-02-02 Salesforce.Com, Inc. Abstraction of text summarization
US11631009B2 (en) 2018-05-23 2023-04-18 Salesforce.Com, Inc Multi-hop knowledge graph reasoning with reward shaping
CN108776779B (zh) * 2018-05-25 2022-09-23 西安电子科技大学 基于卷积循环网络的sar序列图像目标识别方法
CN108898639A (zh) * 2018-05-30 2018-11-27 湖北工业大学 一种图像描述方法及系统
CN108875807B (zh) * 2018-05-31 2022-05-27 陕西师范大学 一种基于多注意力多尺度的图像描述方法
US10878276B2 (en) 2018-06-05 2020-12-29 Hrl Laboratories, Llc Method and system for detecting change of context in video streams
CN108829677B (zh) * 2018-06-05 2021-05-07 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN108427989B (zh) * 2018-06-12 2019-10-11 中国人民解放军国防科技大学 一种用于雷达回波外推的深度时空预测神经网络训练方法
CN108985475B (zh) * 2018-06-13 2021-07-23 厦门大学 基于深度神经网络的网约车召车需求预测方法
US10558761B2 (en) * 2018-07-05 2020-02-11 Disney Enterprises, Inc. Alignment of video and textual sequences for metadata analysis
CN108875076B (zh) * 2018-07-10 2021-07-20 重庆大学 一种基于Attention机制和卷积神经网络的快速商标图像检索方法
CN108960338B (zh) * 2018-07-18 2021-10-08 苏州科技大学 基于注意力反馈机制的图像自动语句标注方法
US11210475B2 (en) 2018-07-23 2021-12-28 Google Llc Enhanced attention mechanisms
CN109035233B (zh) * 2018-07-24 2021-09-21 西安邮电大学 视觉注意力网络系统及工件表面缺陷检测方法
CN110851573A (zh) * 2018-07-27 2020-02-28 北京京东尚科信息技术有限公司 语句处理方法、系统和电子设备
US10721190B2 (en) * 2018-07-31 2020-07-21 Microsoft Technology Licensing, Llc Sequence to sequence to classification model for generating recommended messages
KR102115483B1 (ko) * 2018-08-09 2020-05-26 인하대학교 산학협력단 심층 신경망을 이용하여 표적 단백질과 결합하는 후보 압타머를 생성하는 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록 매체 및 후보 압타머를 생성하는 방법
CN109325109B (zh) * 2018-08-27 2021-11-19 中国人民解放军国防科技大学 基于注意力编码器的抽取式新闻摘要生成装置
CN109165727A (zh) * 2018-09-04 2019-01-08 成都品果科技有限公司 一种基于循环神经网络的数据预测方法
CN109271483B (zh) * 2018-09-06 2022-03-15 中山大学 基于递进式多判别器的问题生成方法
US11514293B2 (en) * 2018-09-11 2022-11-29 Nvidia Corporation Future object trajectory predictions for autonomous machine applications
CN109299717B (zh) * 2018-09-13 2021-08-17 网易(杭州)网络有限公司 文字识别模型建立及文字识别方法、装置、介质及设备
US10970486B2 (en) 2018-09-18 2021-04-06 Salesforce.Com, Inc. Using unstructured input to update heterogeneous data stores
US11436481B2 (en) 2018-09-18 2022-09-06 Salesforce.Com, Inc. Systems and methods for named entity recognition
US20200090035A1 (en) * 2018-09-19 2020-03-19 International Business Machines Corporation Encoder-decoder memory-augmented neural network architectures
US10804938B2 (en) * 2018-09-25 2020-10-13 Western Digital Technologies, Inc. Decoding data using decoders and neural networks
US11645509B2 (en) 2018-09-27 2023-05-09 Salesforce.Com, Inc. Continual neural network learning via explicit structure learning
US11029694B2 (en) 2018-09-27 2021-06-08 Salesforce.Com, Inc. Self-aware visual-textual co-grounded navigation agent
US11087177B2 (en) 2018-09-27 2021-08-10 Salesforce.Com, Inc. Prediction-correction approach to zero shot learning
US11514915B2 (en) 2018-09-27 2022-11-29 Salesforce.Com, Inc. Global-to-local memory pointer networks for task-oriented dialogue
US11308133B2 (en) * 2018-09-28 2022-04-19 International Business Machines Corporation Entity matching using visual information
CN109447242B (zh) * 2018-10-10 2021-08-20 复旦大学 基于迭代学习的图像描述重生成系统及方法
US11170257B2 (en) 2018-10-15 2021-11-09 Ancestry.Com Operations Inc. Image captioning with weakly-supervised attention penalty
US11741662B2 (en) 2018-10-29 2023-08-29 Autodesk, Inc. Shaped-based techniques for exploring design spaces
EP3874395A1 (en) * 2018-10-29 2021-09-08 Autodesk, Inc. Shaped-based techniques for exploring design spaces
US11380045B2 (en) * 2018-10-29 2022-07-05 Autodesk, Inc. Shaped-based techniques for exploring design spaces
CN109220226A (zh) * 2018-10-31 2019-01-18 哈尔滨理工大学 果实自动识别分类及采摘的果园智能化系统
US11375293B2 (en) 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
US11636673B2 (en) * 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
CN109446326B (zh) * 2018-11-01 2021-04-20 大连理工大学 基于复制机制的生物医学事件联合抽取方法
US11010560B2 (en) * 2018-11-08 2021-05-18 International Business Machines Corporation Multi-resolution convolutional neural networks for sequence modeling
US10755099B2 (en) * 2018-11-13 2020-08-25 Adobe Inc. Object detection in images
US10929392B1 (en) * 2018-11-16 2021-02-23 Amazon Technologies, Inc. Artificial intelligence system for automated generation of realistic question and answer pairs
CN109543199B (zh) * 2018-11-28 2022-06-10 腾讯科技(深圳)有限公司 一种文本翻译的方法以及相关装置
US10915572B2 (en) 2018-11-30 2021-02-09 International Business Machines Corporation Image captioning augmented with understanding of the surrounding text
CN109359140B (zh) * 2018-11-30 2022-09-09 苏州大学 一种基于自适应注意力的序列推荐方法及装置
US10726062B2 (en) * 2018-11-30 2020-07-28 Sony Interactive Entertainment Inc. System and method for converting image data into a natural language description
CN109635926B (zh) * 2018-11-30 2021-11-05 深圳市商汤科技有限公司 用于神经网络的注意力特征获取方法、装置及存储介质
US11544531B2 (en) * 2018-12-05 2023-01-03 Seoul National University R&Db Foundation Method and apparatus for generating story from plurality of images by using deep learning network
US11822897B2 (en) 2018-12-11 2023-11-21 Salesforce.Com, Inc. Systems and methods for structured text translation with tag alignment
US10963652B2 (en) 2018-12-11 2021-03-30 Salesforce.Com, Inc. Structured text translation
CN109803222B (zh) * 2018-12-13 2020-10-16 北京市天元网络技术股份有限公司 无线小区性能指标预测方法及装置
CN109376804B (zh) * 2018-12-19 2020-10-30 中国地质大学(武汉) 基于注意力机制和卷积神经网络高光谱遥感图像分类方法
CN109711463B (zh) * 2018-12-25 2023-04-07 广东顺德西安交通大学研究院 基于注意力的重要对象检测方法
CN109711465B (zh) * 2018-12-26 2022-12-06 西安电子科技大学 基于mll和asca-fr的图像字幕生成方法
CN109726696B (zh) * 2019-01-03 2023-04-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN110096587B (zh) * 2019-01-11 2020-07-07 杭州电子科技大学 基于注意力机制的lstm-cnn词嵌入的细粒度情感分类模型
US11922323B2 (en) 2019-01-17 2024-03-05 Salesforce, Inc. Meta-reinforcement learning gradient estimation with variance reduction
CN109857909B (zh) * 2019-01-22 2020-11-20 杭州一知智能科技有限公司 多粒度卷积自注意力上下文网络解决视频对话任务的方法
CN109871777B (zh) * 2019-01-23 2021-10-01 广州智慧城市发展研究院 一种基于注意力机制的行为识别系统
EP3899807A1 (en) * 2019-01-23 2021-10-27 Google LLC Generating neural network outputs using insertion operations
CN109829049B (zh) * 2019-01-28 2021-06-01 杭州一知智能科技有限公司 利用知识库渐进时空注意力网络解决视频问答任务的方法
CN109863874B (zh) * 2019-01-30 2021-12-14 深圳大学 一种基于机器视觉的果蔬采摘方法、采摘装置及存储介质
US12014143B2 (en) * 2019-02-25 2024-06-18 Disney Enterprises, Inc. Techniques for performing contextual phrase grounding
US11568306B2 (en) 2019-02-25 2023-01-31 Salesforce.Com, Inc. Data privacy protected machine learning systems
CN109902301B (zh) * 2019-02-26 2023-02-10 广东工业大学 基于深度神经网络的关系推理方法、装置及设备
CN110119754B (zh) * 2019-02-27 2022-03-29 北京邮电大学 图像生成描述方法、装置及模型
US11366969B2 (en) 2019-03-04 2022-06-21 Salesforce.Com, Inc. Leveraging language models for generating commonsense explanations
US11003867B2 (en) 2019-03-04 2021-05-11 Salesforce.Com, Inc. Cross-lingual regularization for multilingual generalization
US11087092B2 (en) 2019-03-05 2021-08-10 Salesforce.Com, Inc. Agent persona grounded chit-chat generation framework
US11580445B2 (en) 2019-03-05 2023-02-14 Salesforce.Com, Inc. Efficient off-policy credit assignment
US10956474B2 (en) 2019-03-14 2021-03-23 Microsoft Technology Licensing, Llc Determination of best set of suggested responses
CN109948700B (zh) * 2019-03-19 2020-07-24 北京字节跳动网络技术有限公司 用于生成特征图的方法和装置
US10902289B2 (en) 2019-03-22 2021-01-26 Salesforce.Com, Inc. Two-stage online detection of action start in untrimmed videos
CN109977861B (zh) * 2019-03-25 2023-06-20 中国科学技术大学 离线手写体数学公式识别方法
KR102389439B1 (ko) * 2019-04-01 2022-04-22 명지대학교 산학협력단 가스절연개폐장치를 위한 딥러닝 기반 부분 방전 진단 장치 및 그 방법
CN110059878B (zh) * 2019-04-15 2021-04-02 中国计量大学 基于cnn lstm光伏发电功率预测模型及其构建方法
US11281863B2 (en) 2019-04-18 2022-03-22 Salesforce.Com, Inc. Systems and methods for unifying question answering and text classification via span extraction
CN109874029B (zh) * 2019-04-22 2021-02-12 腾讯科技(深圳)有限公司 视频描述生成方法、装置、设备及存储介质
CN110084172B (zh) * 2019-04-23 2022-07-29 北京字节跳动网络技术有限公司 文字识别方法、装置和电子设备
CN110084250B (zh) * 2019-04-26 2024-03-12 北京金山数字娱乐科技有限公司 一种图像描述的方法及系统
US10885345B2 (en) * 2019-04-29 2021-01-05 Tencent America LLC End-to-end video captioning with multi-task reinforcement learning
US10713830B1 (en) * 2019-05-13 2020-07-14 Gyrfalcon Technology Inc. Artificial intelligence based image caption creation systems and methods thereof
US11487939B2 (en) 2019-05-15 2022-11-01 Salesforce.Com, Inc. Systems and methods for unsupervised autoregressive text compression
CN110209801B (zh) * 2019-05-15 2021-05-14 华南理工大学 一种基于自注意力网络的文本摘要自动生成方法
US11562251B2 (en) 2019-05-16 2023-01-24 Salesforce.Com, Inc. Learning world graphs to accelerate hierarchical reinforcement learning
US11604965B2 (en) 2019-05-16 2023-03-14 Salesforce.Com, Inc. Private deep learning
US11620572B2 (en) 2019-05-16 2023-04-04 Salesforce.Com, Inc. Solving sparse reward tasks using self-balancing shaped rewards
CN110222840B (zh) * 2019-05-17 2023-05-05 中山大学 一种基于注意力机制的集群资源预测方法和装置
US11669712B2 (en) 2019-05-21 2023-06-06 Salesforce.Com, Inc. Robustness evaluation via natural typos
US11687588B2 (en) 2019-05-21 2023-06-27 Salesforce.Com, Inc. Weakly supervised natural language localization networks for video proposal prediction based on a text query
US11775775B2 (en) 2019-05-21 2023-10-03 Salesforce.Com, Inc. Systems and methods for reading comprehension for a question answering task
JP7048540B2 (ja) * 2019-05-22 2022-04-05 株式会社東芝 認識装置、認識方法及びプログラム
US11657269B2 (en) 2019-05-23 2023-05-23 Salesforce.Com, Inc. Systems and methods for verification of discriminative models
CN110188775B (zh) * 2019-05-28 2020-06-26 创意信息技术股份有限公司 一种基于联合神经网络模型的图像内容描述自动生成方法
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN110213462B (zh) * 2019-06-13 2022-01-04 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备、图像处理电路及存储介质
CN110276396B (zh) * 2019-06-21 2022-12-06 西安电子科技大学 基于物体显著性和跨模态融合特征的图片描述生成方法
CN110288029B (zh) * 2019-06-27 2022-12-06 西安电子科技大学 基于Tri-LSTMs模型的图像描述方法
US11610125B2 (en) 2019-07-03 2023-03-21 Honda Motor Co., Ltd. Sensor fusion
US11580365B2 (en) * 2019-07-03 2023-02-14 Honda Motor Co., Ltd. Sensor fusion
CN110414571A (zh) * 2019-07-05 2019-11-05 浙江网新数字技术有限公司 一种基于特征融合的网站报错截图分类方法
CN110334654A (zh) * 2019-07-08 2019-10-15 北京地平线机器人技术研发有限公司 视频预测方法和装置、视频预测模型的训练方法及车辆
CN110570226B (zh) * 2019-07-10 2020-05-22 杭州电子科技大学 一种联合主题模型和异质信息网络的评分预测方法
CN110348016B (zh) * 2019-07-15 2022-06-14 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110334689B (zh) * 2019-07-16 2022-02-15 北京百度网讯科技有限公司 视频分类方法和装置
KR102400568B1 (ko) * 2019-07-19 2022-05-24 울산대학교 산학협력단 인코더를 이용한 이미지의 특이 영역 분석 방법 및 장치
CN110598713B (zh) * 2019-08-06 2022-05-06 厦门大学 基于深度神经网络的智能图像自动描述方法
US11615240B2 (en) 2019-08-15 2023-03-28 Salesforce.Com, Inc Systems and methods for a transformer network with tree-based attention for natural language processing
CN110364010A (zh) * 2019-08-22 2019-10-22 三星电子(中国)研发中心 一种预测路况的导航方法及系统
CN110598029B (zh) * 2019-09-06 2022-03-22 西安电子科技大学 基于注意力转移机制的细粒度图像分类方法
CN112465905A (zh) * 2019-09-06 2021-03-09 四川大学华西医院 基于深度学习的磁共振成像数据的特征脑区定位方法
US11568000B2 (en) 2019-09-24 2023-01-31 Salesforce.Com, Inc. System and method for automatic task-oriented dialog system
US11599792B2 (en) 2019-09-24 2023-03-07 Salesforce.Com, Inc. System and method for learning with noisy labels as semi-supervised learning
US11640527B2 (en) 2019-09-25 2023-05-02 Salesforce.Com, Inc. Near-zero-cost differentially private deep learning with teacher ensembles
CN110672343B (zh) * 2019-09-29 2021-01-26 电子科技大学 基于多注意力卷积神经网络的旋转机械故障诊断方法
CN112580658B (zh) * 2019-09-29 2024-03-12 中国移动通信集团辽宁有限公司 图像语义描述方法、装置、计算设备及计算机存储介质
CN110738247B (zh) * 2019-09-30 2020-08-25 中国科学院大学 一种基于选择性稀疏采样的细粒度图像分类方法
CN110717345B (zh) * 2019-10-15 2020-07-07 内蒙古工业大学 一种译文重对齐的循环神经网络跨语言机器翻译方法
CN110750652A (zh) * 2019-10-21 2020-02-04 广西大学 结合上下文实体词和知识的故事结局生成方法
KR102526263B1 (ko) * 2019-10-22 2023-04-27 한국전자기술연구원 이미지 다중 캡션 자동 생성 방법 및 시스템
KR20220093171A (ko) * 2019-11-06 2022-07-05 나노트로닉스 이미징, 인코포레이티드 제조 공정을 위한 시스템, 방법 및 매체
US11620515B2 (en) 2019-11-07 2023-04-04 Salesforce.Com, Inc. Multi-task knowledge distillation for language model
US11481563B2 (en) * 2019-11-08 2022-10-25 Adobe Inc. Translating texts for videos based on video context
US11347708B2 (en) 2019-11-11 2022-05-31 Salesforce.Com, Inc. System and method for unsupervised density based table structure identification
CN110852273B (zh) * 2019-11-12 2023-05-16 重庆大学 一种基于强化学习注意力机制的行为识别方法
US11288438B2 (en) 2019-11-15 2022-03-29 Salesforce.Com, Inc. Bi-directional spatial-temporal reasoning for video-grounded dialogues
US11334766B2 (en) 2019-11-15 2022-05-17 Salesforce.Com, Inc. Noise-resistant object detection with noisy annotations
US11481636B2 (en) 2019-11-18 2022-10-25 Salesforce.Com, Inc. Systems and methods for out-of-distribution classification
US11922303B2 (en) 2019-11-18 2024-03-05 Salesforce, Inc. Systems and methods for distilled BERT-based training model for text classification
CN111223071A (zh) * 2019-11-20 2020-06-02 智洋创新科技股份有限公司 基于深度学习技术的输电线路场景语义理解方法
CN110889361A (zh) * 2019-11-20 2020-03-17 北京影谱科技股份有限公司 基于图像序列的orb特征视觉里程计学习方法和装置
CN110866510A (zh) * 2019-11-21 2020-03-06 山东浪潮人工智能研究院有限公司 一种基于关键帧检测的视频描述系统和方法
RU2742602C1 (ru) * 2020-04-06 2021-02-09 Самсунг Электроникс Ко., Лтд. Распознавание событий на фотографиях с автоматическим выделением альбомов
CN110866140B (zh) * 2019-11-26 2024-02-02 腾讯科技(深圳)有限公司 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN110890985B (zh) * 2019-11-27 2021-01-12 北京邮电大学 虚拟网络映射方法及其模型训练方法、装置
JP7451156B2 (ja) * 2019-12-04 2024-03-18 キヤノンメディカルシステムズ株式会社 診療支援装置
CN111079084B (zh) * 2019-12-04 2021-09-10 清华大学 一种基于长短时记忆网络的信息转发概率预测方法及系统
US11487999B2 (en) 2019-12-09 2022-11-01 Salesforce.Com, Inc. Spatial-temporal reasoning through pretrained language models for video-grounded dialogues
US11573957B2 (en) 2019-12-09 2023-02-07 Salesforce.Com, Inc. Natural language processing engine for translating questions into executable database queries
US11416688B2 (en) 2019-12-09 2022-08-16 Salesforce.Com, Inc. Learning dialogue state tracking with limited labeled data
US11256754B2 (en) 2019-12-09 2022-02-22 Salesforce.Com, Inc. Systems and methods for generating natural language processing training samples with inflectional perturbations
US11640505B2 (en) 2019-12-09 2023-05-02 Salesforce.Com, Inc. Systems and methods for explicit memory tracker with coarse-to-fine reasoning in conversational machine reading
CN111026869B (zh) * 2019-12-10 2020-08-18 山东大学 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN111126258B (zh) * 2019-12-23 2023-06-23 深圳市华尊科技股份有限公司 图像识别方法及相关装置
JP7422535B2 (ja) 2019-12-23 2024-01-26 日本放送協会 変換装置およびプログラム
US10699715B1 (en) * 2019-12-27 2020-06-30 Alphonso Inc. Text independent speaker-verification on a media operating system using deep learning on raw waveforms
WO2021141576A1 (en) * 2020-01-08 2021-07-15 Google, Llc Translation of text depicted in images
US11669745B2 (en) 2020-01-13 2023-06-06 Salesforce.Com, Inc. Proposal learning for semi-supervised object detection
CN111260740B (zh) * 2020-01-16 2023-05-23 华南理工大学 一种基于生成对抗网络的文本到图像生成方法
CN111310764B (zh) * 2020-01-20 2024-03-26 上海商汤智能科技有限公司 网络训练、图像处理方法及装置、电子设备和存储介质
CN111275118B (zh) * 2020-01-22 2022-09-16 复旦大学 基于自我修正式标签生成网络的胸片多标签分类方法
US11562147B2 (en) 2020-01-23 2023-01-24 Salesforce.Com, Inc. Unified vision and dialogue transformer with BERT
JP7191054B2 (ja) * 2020-01-29 2022-12-16 Kddi株式会社 マルチメディアデータからテキストを推論するプログラム、装置及び方法
US20210249105A1 (en) 2020-02-06 2021-08-12 Salesforce.Com, Inc. Systems and methods for language modeling of protein engineering
KR20210101374A (ko) * 2020-02-07 2021-08-19 삼성전자주식회사 오디오 신호 제공 방법 및 장치
CN111275971A (zh) * 2020-02-18 2020-06-12 山西交通控股集团有限公司 一种高速公路交通流量预测方法
CN111368898B (zh) * 2020-02-28 2022-10-25 同济大学 一种基于长短时记忆网络变体的图像描述生成方法
CN111507101B (zh) * 2020-03-03 2020-12-15 杭州电子科技大学 一种基于多层次语义胶囊路由的反讽检测方法
CN111414505B (zh) * 2020-03-11 2023-10-20 上海爱数信息技术股份有限公司 一种基于序列生成模型的快速图像摘要生成方法
CN111368773A (zh) * 2020-03-12 2020-07-03 广东小天才科技有限公司 数学公式识别方法及装置、终端设备和可读存储介质
US11443168B2 (en) 2020-03-13 2022-09-13 EMC IP Holding Company LLC Log analysis system employing long short-term memory recurrent neural net works
CN111325751B (zh) * 2020-03-18 2022-05-27 重庆理工大学 基于注意力卷积神经网络的ct图像分割系统
US11263476B2 (en) 2020-03-19 2022-03-01 Salesforce.Com, Inc. Unsupervised representation learning with contrastive prototypes
CN111476775B (zh) * 2020-04-07 2021-11-16 广州柏视医疗科技有限公司 Dr征象识别装置和方法
US11328731B2 (en) 2020-04-08 2022-05-10 Salesforce.Com, Inc. Phone-based sub-word units for end-to-end speech recognition
CN111488486B (zh) * 2020-04-20 2021-08-17 武汉大学 一种基于多音源分离的电子音乐分类方法及系统
CN111553290A (zh) * 2020-04-30 2020-08-18 北京市商汤科技开发有限公司 文本识别方法、装置、设备及存储介质
CN111581961B (zh) * 2020-05-06 2022-06-21 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
CN111737458B (zh) * 2020-05-21 2024-05-21 深圳赛安特技术服务有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
KR20210145490A (ko) 2020-05-25 2021-12-02 삼성전자주식회사 어텐션 기반 시퀀스 투 시퀀스 모델의 성능 향상 방법 및 장치
US11625543B2 (en) 2020-05-31 2023-04-11 Salesforce.Com, Inc. Systems and methods for composed variational natural language generation
US11720559B2 (en) 2020-06-02 2023-08-08 Salesforce.Com, Inc. Bridging textual and tabular data for cross domain text-to-query language semantic parsing with a pre-trained transformer language encoder and anchor text
US20230140634A1 (en) 2020-06-15 2023-05-04 Universidade Do Porto Multi-convolutional two-dimensional attention unit for analysis of a multivariable time series three-dimensional input data
CN111860235B (zh) * 2020-07-06 2021-08-06 中国科学院空天信息创新研究院 高低层特征融合的注意力遥感图像描述的生成方法及系统
US11763544B2 (en) 2020-07-07 2023-09-19 International Business Machines Corporation Denoising autoencoder image captioning
US11334769B2 (en) * 2020-07-07 2022-05-17 International Business Machines Corporation Mixup image captioning
US11651522B2 (en) 2020-07-08 2023-05-16 International Business Machines Corporation Adaptive cycle consistency multimodal image captioning
CN111949824B (zh) * 2020-07-08 2023-11-03 合肥工业大学 基于语义对齐的视觉问答方法和系统、存储介质
CN111814468B (zh) * 2020-07-09 2021-02-26 前海企保科技(深圳)有限公司 一种自适应架构语义分布文本理解方法及系统
CN111813895B (zh) * 2020-08-07 2022-06-03 深圳职业技术学院 一种基于层次注意力机制和门机制的属性级别情感分析方法
US11625436B2 (en) 2020-08-14 2023-04-11 Salesforce.Com, Inc. Systems and methods for query autocompletion
US11934952B2 (en) 2020-08-21 2024-03-19 Salesforce, Inc. Systems and methods for natural language processing using joint energy-based models
US11934781B2 (en) 2020-08-28 2024-03-19 Salesforce, Inc. Systems and methods for controllable text summarization
CN112016493A (zh) * 2020-09-03 2020-12-01 科大讯飞股份有限公司 图像描述方法、装置、电子设备及存储介质
CN112052906B (zh) * 2020-09-14 2024-02-02 南京大学 一种基于指针网络的图像描述优化方法
CN112116685A (zh) * 2020-09-16 2020-12-22 中国石油大学(华东) 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法
KR20220037764A (ko) * 2020-09-18 2022-03-25 삼성전자주식회사 영상 처리 장치 및 그 동작방법
CN112287665B (zh) * 2020-10-19 2024-05-03 南京南邮信息产业技术研究院有限公司 基于自然语言处理和集成训练的慢病数据分析方法及系统
CN112418012B (zh) * 2020-11-09 2022-06-07 武汉大学 一种基于时空注意力模型的视频摘要生成方法
US11829442B2 (en) 2020-11-16 2023-11-28 Salesforce.Com, Inc. Methods and systems for efficient batch active learning of a deep neural network
CN112528989B (zh) * 2020-12-01 2022-10-18 重庆邮电大学 一种图像语义细粒度的描述生成方法
CN112508096B (zh) * 2020-12-08 2022-03-25 电子科技大学 一种基于几何自注意力机制的图像自动标注方法
CN112598170B (zh) * 2020-12-18 2022-10-28 中国科学技术大学 基于多组件融合时间网络的车辆尾气排放预测方法及系统
CN112560454B (zh) * 2020-12-22 2023-06-13 广东工业大学 双语图像字幕生成方法、系统、储存介质及计算机设备
US11715469B2 (en) * 2021-02-26 2023-08-01 Walmart Apollo, Llc Methods and apparatus for improving search retrieval using inter-utterance context
CN113139575B (zh) * 2021-03-18 2022-03-01 杭州电子科技大学 一种基于条件嵌入预训练语言模型的图像标题生成方法
WO2022232382A1 (en) * 2021-04-28 2022-11-03 Neumora Therapeutics, Inc. Multi-modal input processing
CN113205507B (zh) * 2021-05-18 2023-03-10 合肥工业大学 一种视觉问答方法、系统及服务器
CN113327239A (zh) * 2021-06-10 2021-08-31 温州大学 一种增强注意力区域生成网络的小样本目标检测方法
US11681364B1 (en) * 2021-06-29 2023-06-20 Amazon Technologies, Inc. Gaze prediction
CN113628288B (zh) * 2021-07-06 2024-05-31 上海电力大学 一种基于编-解码器结构的可控图像字幕生成优化方法
CN113515951B (zh) * 2021-07-19 2022-07-05 同济大学 基于知识增强注意力网络和组级语义的故事描述生成方法
CN113673241B (zh) * 2021-08-03 2024-04-09 之江实验室 一种基于范例学习的文本摘要生成框架系统及方法
CN113609285B (zh) * 2021-08-09 2024-05-14 福州大学 一种基于依赖门控融合机制的多模态文本摘要系统
CN113642634A (zh) * 2021-08-12 2021-11-12 南京邮电大学 一种基于混合注意力的阴影检测方法
CN113792617B (zh) * 2021-08-26 2023-04-18 电子科技大学 一种结合图像信息和文本信息的图像解译方法
US11954144B2 (en) 2021-08-26 2024-04-09 International Business Machines Corporation Training visual language grounding models using separation loss
CN113837230A (zh) * 2021-08-30 2021-12-24 厦门大学 基于自适应注意力机制的图像描述生成方法
CN113688822A (zh) * 2021-09-07 2021-11-23 河南工业大学 一种时序注意力机制场景图像识别方法
CN113595637B (zh) * 2021-09-27 2022-01-25 清华大学 全光感算一体光场智能处理系统及方法
CN113901247A (zh) * 2021-10-09 2022-01-07 上海脉衍人工智能科技有限公司 一种光学图像目标检测的方法及计算设备
CN113918754A (zh) * 2021-11-01 2022-01-11 中国石油大学(华东) 基于场景图更新与特征拼接的图像字幕生成方法
EP4184393A1 (en) * 2021-11-17 2023-05-24 Tata Consultancy Services Limited Method and system for attentive one shot meta imitation learning from visual demonstration
CN114239594B (zh) * 2021-12-06 2024-03-08 西北工业大学 基于注意力机制的自然语言视觉推理方法
CN114399646B (zh) * 2021-12-21 2022-09-20 北京中科明彦科技有限公司 一种基于Transformer结构的图像描述方法和装置
CN114782848B (zh) * 2022-03-10 2024-03-26 沈阳雅译网络技术有限公司 一种应用特征金字塔的图片字幕生成方法
CN114782702A (zh) * 2022-03-23 2022-07-22 成都瑞数猛兽科技有限公司 一种基于三层lstm推敲网络的图像语义理解算法
CN114743027B (zh) * 2022-04-11 2023-01-31 郑州轻工业大学 弱监督学习引导的协同显著性检测方法
CN114972774A (zh) * 2022-04-20 2022-08-30 平安科技(深圳)有限公司 特定区域的图像描述生成方法、装置、设备及存储介质
WO2024023884A1 (ja) * 2022-07-25 2024-02-01 日本電信電話株式会社 画像キャプション生成モデル学習装置、画像キャプション生成装置、画像キャプション生成モデル学習方法、画像キャプション生成方法、プログラム
CN115631285B (zh) * 2022-11-25 2023-05-02 北京红棉小冰科技有限公司 基于统一驱动的人脸渲染方法、装置、设备及存储介质
CN116543289B (zh) * 2023-05-10 2023-11-21 南通大学 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法
CN116343190B (zh) * 2023-05-30 2023-08-29 中国科学技术大学 自然场景文字识别方法、系统、设备及存储介质

Family Cites Families (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6892193B2 (en) * 2001-05-10 2005-05-10 International Business Machines Corporation Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities
US8879857B2 (en) * 2005-09-27 2014-11-04 Qualcomm Incorporated Redundant data encoding methods and device
US8355550B2 (en) 2007-05-01 2013-01-15 Siemens Aktiengesellschaft Methods and apparatus for virtual coronary mapping
US8121367B2 (en) 2007-09-21 2012-02-21 Siemens Aktiengesellschaft Method and system for vessel segmentation in fluoroscopic images
US8385971B2 (en) 2008-08-19 2013-02-26 Digimarc Corporation Methods and systems for content processing
US9620108B2 (en) 2013-12-10 2017-04-11 Google Inc. Processing acoustic sequences using long short-term memory (LSTM) neural networks that include recurrent projection layers
US10181098B2 (en) * 2014-06-06 2019-01-15 Google Llc Generating representations of input sequences using neural networks
EP3186753B1 (en) 2014-08-29 2021-04-28 Google LLC Processing images using deep neural networks
US9570069B2 (en) 2014-09-09 2017-02-14 Disney Enterprises, Inc. Sectioned memory networks for online word-spotting in continuous speech
US10783900B2 (en) 2014-10-03 2020-09-22 Google Llc Convolutional, long short-term memory, fully connected deep neural networks
WO2016077797A1 (en) 2014-11-14 2016-05-19 Google Inc. Generating natural language descriptions of images
US9508340B2 (en) * 2014-12-22 2016-11-29 Google Inc. User specified keyword spotting using long short term memory neural network feature extractor
EP3238015A4 (en) 2014-12-22 2019-01-23 Robert Bosch GmbH VISUAL CONTEXT SENSITIVE SYSTEM BASED ON A FIRST PERSON CAMERA
KR102449837B1 (ko) 2015-02-23 2022-09-30 삼성전자주식회사 신경망 학습 방법 및 장치, 및 인식 방법 및 장치
US9678664B2 (en) 2015-04-10 2017-06-13 Google Inc. Neural network for keyboard input decoding
US10909329B2 (en) 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering
US11113598B2 (en) * 2015-06-01 2021-09-07 Salesforce.Com, Inc. Dynamic memory network
US20160350653A1 (en) 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
US10542961B2 (en) * 2015-06-15 2020-01-28 The Research Foundation For The State University Of New York System and method for infrasonic cardiac monitoring
US20170140240A1 (en) 2015-07-27 2017-05-18 Salesforce.Com, Inc. Neural network combined image and text evaluator and classifier
US20170032280A1 (en) 2015-07-27 2017-02-02 Salesforce.Com, Inc. Engagement estimator
EP3582151A1 (en) 2015-08-15 2019-12-18 Salesforce.com, Inc. Three-dimensional (3d) convolution with 3d batch normalization
US10133729B2 (en) * 2015-08-28 2018-11-20 Microsoft Technology Licensing, Llc Semantically-relevant discovery of solutions
US10423874B2 (en) 2015-10-02 2019-09-24 Baidu Usa Llc Intelligent image captioning
US10395118B2 (en) 2015-10-29 2019-08-27 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
US10013640B1 (en) 2015-12-21 2018-07-03 Google Llc Object recognition from videos using recurrent neural networks
US10268671B2 (en) * 2015-12-31 2019-04-23 Google Llc Generating parse trees of text segments using neural networks
US9811765B2 (en) * 2016-01-13 2017-11-07 Adobe Systems Incorporated Image captioning with weak supervision
US9792534B2 (en) * 2016-01-13 2017-10-17 Adobe Systems Incorporated Semantic natural language vector space
US9830709B2 (en) 2016-03-11 2017-11-28 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
US10997233B2 (en) 2016-04-12 2021-05-04 Microsoft Technology Licensing, Llc Multi-stage image querying
US9760806B1 (en) 2016-05-11 2017-09-12 TCL Research America Inc. Method and system for vision-centric deep-learning-based road situation analysis
US11409791B2 (en) 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
KR20180003123A (ko) * 2016-06-30 2018-01-09 삼성전자주식회사 메모리 셀 유닛 및 메모리 셀 유닛들을 포함하는 순환 신경망
US10154051B2 (en) 2016-08-31 2018-12-11 Cisco Technology, Inc. Automatic detection of network threats based on modeling sequential behavior in network traffic
US10565493B2 (en) 2016-09-22 2020-02-18 Salesforce.Com, Inc. Pointer sentinel mixture architecture
KR102323548B1 (ko) * 2016-09-26 2021-11-08 구글 엘엘씨 신경 기계 번역 시스템
US20180096267A1 (en) 2016-09-30 2018-04-05 Salesforce.Com, Inc. Single model-based behavior predictions in an on-demand environment
EP3523702B1 (en) * 2016-10-05 2020-07-01 Telecom Italia S.p.A. Method and system for estimating energy generation based on solar irradiance forecasting
US11093813B2 (en) * 2016-10-20 2021-08-17 Google Llc Answer to question neural networks
US11042796B2 (en) 2016-11-03 2021-06-22 Salesforce.Com, Inc. Training a joint many-task neural network model using successive regularization
US11087199B2 (en) * 2016-11-03 2021-08-10 Nec Corporation Context-aware attention-based neural network for interactive question answering
US10402658B2 (en) 2016-11-03 2019-09-03 Nec Corporation Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
US10963782B2 (en) 2016-11-04 2021-03-30 Salesforce.Com, Inc. Dynamic coattention network for question answering
US20180129937A1 (en) 2016-11-04 2018-05-10 Salesforce.Com, Inc. Quasi-recurrent neural network
US10558750B2 (en) * 2016-11-18 2020-02-11 Salesforce.Com, Inc. Spatial attention model for image captioning
WO2018094294A1 (en) 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning
US11354565B2 (en) 2017-03-15 2022-06-07 Salesforce.Com, Inc. Probability-based guider
US10474709B2 (en) 2017-04-14 2019-11-12 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
US10565318B2 (en) 2017-04-14 2020-02-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention
US11386327B2 (en) 2017-05-18 2022-07-12 Salesforce.Com, Inc. Block-diagonal hessian-free optimization for recurrent and convolutional neural networks
US10747761B2 (en) 2017-05-18 2020-08-18 Salesforce.Com, Inc. Neural network based translation of natural language queries to database queries
US10817650B2 (en) 2017-05-19 2020-10-27 Salesforce.Com, Inc. Natural language processing using context specific word vectors
US12014257B2 (en) 2017-05-19 2024-06-18 Salesforce, Inc. Domain specific language for generation of recurrent neural network architectures
US11093816B2 (en) 2017-10-05 2021-08-17 Salesforce.Com, Inc. Convolutional neural network (CNN)-based anomaly detection
US11087211B2 (en) 2017-10-05 2021-08-10 Salesforce.Com, Inc. Convolutional neural network (CNN)-based suggestions for anomaly input
US20190130896A1 (en) 2017-10-26 2019-05-02 Salesforce.Com, Inc. Regularization Techniques for End-To-End Speech Recognition
US10592767B2 (en) 2017-10-27 2020-03-17 Salesforce.Com, Inc. Interpretable counting in visual question answering
US11928600B2 (en) 2017-10-27 2024-03-12 Salesforce, Inc. Sequence-to-sequence prediction using a neural network model
US10573295B2 (en) 2017-10-27 2020-02-25 Salesforce.Com, Inc. End-to-end speech recognition with policy learning
US11604956B2 (en) 2017-10-27 2023-03-14 Salesforce.Com, Inc. Sequence-to-sequence prediction using a neural network model
US11170287B2 (en) 2017-10-27 2021-11-09 Salesforce.Com, Inc. Generating dual sequence inferences using a neural network model
US11562287B2 (en) 2017-10-27 2023-01-24 Salesforce.Com, Inc. Hierarchical and interpretable skill acquisition in multi-task reinforcement learning
US10346721B2 (en) 2017-11-01 2019-07-09 Salesforce.Com, Inc. Training a neural network using augmented training datasets
US10542270B2 (en) 2017-11-15 2020-01-21 Salesforce.Com, Inc. Dense video captioning
US11276002B2 (en) 2017-12-20 2022-03-15 Salesforce.Com, Inc. Hybrid training of deep networks
US11501076B2 (en) 2018-02-09 2022-11-15 Salesforce.Com, Inc. Multitask learning as question answering
US10929607B2 (en) 2018-02-22 2021-02-23 Salesforce.Com, Inc. Dialogue state tracking using a global-local encoder
US11227218B2 (en) 2018-02-22 2022-01-18 Salesforce.Com, Inc. Question answering from minimal context over documents

Also Published As

Publication number Publication date
US20200057805A1 (en) 2020-02-20
JP6946508B2 (ja) 2021-10-06
EP3869416A1 (en) 2021-08-25
EP3542314A1 (en) 2019-09-25
CN110168573A (zh) 2019-08-23
US10846478B2 (en) 2020-11-24
US10558750B2 (en) 2020-02-11
US20200117854A1 (en) 2020-04-16
US10565305B2 (en) 2020-02-18
US20180143966A1 (en) 2018-05-24
JP2019537147A (ja) 2019-12-19
US20180144248A1 (en) 2018-05-24
CN110168573B (zh) 2023-09-26
US20180144208A1 (en) 2018-05-24
US10565306B2 (en) 2020-02-18
EP3542314B1 (en) 2021-05-26
JP2020123372A (ja) 2020-08-13
CA3128692A1 (en) 2018-05-24
US11244111B2 (en) 2022-02-08
CA3040165A1 (en) 2018-05-24
CA3040165C (en) 2021-10-05

Similar Documents

Publication Publication Date Title
JP6689461B2 (ja) 画像キャプション生成のための空間的注目モデル
JP6972265B2 (ja) ポインタセンチネル混合アーキテクチャ
WO2018094294A1 (en) Spatial attention model for image captioning
JP6873236B2 (ja) 質問応答のための動的相互注目ネットワーク
Lu et al. Knowing when to look: Adaptive attention via a visual sentinel for image captioning
Lakkaraju et al. Rethinking explainability as a dialogue: A practitioner's perspective
CN113268609B (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
Steels et al. How to make construction grammars fluid and robust
US20180307745A1 (en) Determining if an action can be performed based on a dialogue
US11481609B2 (en) Computationally efficient expressive output layers for neural networks
Crocker Rational models of comprehension: Addressing the performance paradox
Peters Design and implementation of a chatbot in the context of customer support
Bicknell et al. Word predictability and frequency effects in a rational model of reading
KR20230017578A (ko) 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술
CN113378561A (zh) 词语预测模板生成方法及装置
US11797610B1 (en) Knowledge acquisition tool
US20230124177A1 (en) System and method for training a sparse neural network whilst maintaining sparsity
Poitier et al. Towards better transition modeling in recurrent neural networks: The case of sign language tokenization
Bhandari Speech-To-Model: A Framework for Creating Software Models Using Voice Commands
Magnuson et al. Interactions of length and overlap in the TRACE model of spoken word recognition.
Wehenkel University of Liège-Faculty of Applied Sciences

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190516

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190516

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190516

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200407

R150 Certificate of patent or registration of utility model

Ref document number: 6689461

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250