JP2017091525A

JP2017091525A - 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク（ａｂｃ−ｃｎｎ）のシステム及び方法

Info

Publication number: JP2017091525A
Application number: JP2016215579A
Authority: JP
Inventors: チェン・カン; Kan Chen; ワン・ジアン; Jiang Wang; シュイ・ウェイ; Wei Xu
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2015-11-03
Filing date: 2016-11-02
Publication date: 2017-05-25
Anticipated expiration: 2036-11-02
Also published as: EP3166049A1; JP6351689B2; CN106649542B; US9965705B2; KR20180038937A; KR101865102B1; US20170124432A1; CN106649542A; EP3166049B1

Abstract

【課題】画像（静止画像又はビデオ画像）に関連する質問に対する解答を自動的に生成する。
【解決手段】質問に対する解答を自動的に生成するために、質問応答タスク（ＶＱＡ）モデル用の注目に基づく深層学習アーキテクチャを使用する。正答を生成するために、モデルの注目を質問に応じて画像中の関連領域に合わせるのが重要であり、それは異なる質問は異なる画像領域の属性について質問する可能性があるためである。このような質問でガイドされた注目は設定可能な畳み込みニューラルネットワーク（ＡＢＣ−ＣＮＮ）で学習する。ＡＢＣ−ＣＮＮモデルは、画像特徴マップと、質問セマンティクスで決定された設定可能な畳み込みカーネルとを畳み込むことで注目マップを決定する。質問でガイドされた注目マップは質問に関連する領域に集中し、且つ、無関係の領域からノイズがフィルタリングされる。
【選択図】図２

Description

本出願はコンピューティング技術に関して、より具体的には、画像に関連する質問の質問応答タスクを自動化させてマンマシンインタフェースを改良するシステム及び方法に関する。

如何に画像に関連する質問を自動的に回答するかが課題となっている。深層学習によって質問応答過程を自動化させることを試みたが、さらに大幅な改善が期待される。

従って、更に効果的且つ正確な方式で画像に関連する質問を回答するシステム及び方法が求められる。

一つの様態において、画像入力に関連する問題入力に対する解答の生成精度を改良するコンピュータ実施方法を提供し、この方法は、前記画像入力を受信するステップと、前記画像入力に関連する前記問題入力を受信するステップと、前記問題入力と前記画像入力を注目に基づく設置可能な畳み込みニューラルネットワーク（ＡＢＣ−ＣＮＮ）フレームワークに入力して解答を生成するステップとを含み、前記ＡＢＣ−ＣＮＮフレームワークは、前記画像入力から画像特徴マップを抽出するＣＮＮを含む画像特徴マップ抽出部と、前記問題入力から質問埋め込みを取得するセマンティクス質問埋め込み部と、前記画像特徴マップと前記質問埋め込みを受信して、前記問題入力で質問される領域又は複数の領域に集中する、質問でガイドされた注目マップを取得する質問ガイド注目マップ生成部と、前記の質問でガイドされた注目マップを使用して前記画像特徴マップを重み付け、注目重み付け画像特徴マップを取得し、前記画像特徴マップ、前記質問埋め込み及び前記注目重み付け画像特徴マップの融合に基づいて解答を生成する解答生成部とを備える。

他の一つの様態において、画像に関連する質問に対して解答を生成するコンピュータ実施方法を提供し、この方法は、深層畳み込みニューラルネットワークを使用して複数の画素を含む入力画像から画像特徴マップを抽出するステップと、長期短期記憶（ＬＳＴＭ）レイヤを使用して前記入力画像に関連する入力問題において密集質問埋め込みを取得するステップと、前記密集質問埋め込みを意味空間から視覚空間に射影することによって質問で設定された複数のカーネルを生成させるステップと、質問で設定されたカーネルと前記画像特徴マップを畳み込んで質問でガイドされた注目マップを生成するステップと、前記の質問でガイドされた注目マップで前記画像特徴マップを空間的に重み付けることによって、マルチクラス分類器で注目重み付け画像特徴マップを取得するステップと、前記画像特徴マップ、前記密集質問埋め込み及び前記注目重み付け画像特徴マップの融合に基づいて、前記入力問題に対して解答を生成するステップとを含んでおり、ここで、前記注目重み付け画像特徴マップが前記入力問題に無関係の領域の重みを低下させる。

さらに、他の一つの様態において、非一時的コンピュータ可読媒体又はメディアを提供し、この媒体又はメディアは、一つ又は複数のプロセッサにより実行されるときに以下の操作を実行させる一つ又は複数の命令シーケンスを含んでおり、前記操作は問題入力の受信に応答して、前記問題入力の密集質問埋め込みを抽出するステップと、前記問題入力に関連する画像入力の受信に応答して、画像特徴マップを生成するステップと、少なくとも前記画像特徴マップと前記密集質問埋め込みに基づき、前記問題入力で質問される領域に選択的に集中する、質問でガイドされた注目マップを生成するステップと、前記質問でガイドされた注目マップで前記画像特徴マップを空間的に重み付けて注目重み付け画像マップを取得するステップと、セマンティクス情報、前記画像特徴マップ及び前記注目重み付け画像マップを融合して前記問題入力に対して解答を生成するステップとを含む。

例として図面に示される本出願の実施形態を参照する。これら図面は、本出願を説明するもので制限されるものではない。本出願は、これら実施形態の内容において説明するが、本出願の範囲はこれら特定実施形態に制限されない。図面に示されている構成要素は、必ずしも一定の縮尺で描かれていない。

本出願の実施形態に係る視覚質問応答において注目の問題点を示す。本出願の実施形態に係る例示的なパイプライン又はフレームワークを示す。本出願の実施形態に係るクエリ処理用のＬＳＴＭフレームワークの実施形態の詳細を示す。本出願の実施形態に係る注目重み付け画像（ａｔｔｅｎｔｉｏｎｗｅｉｇｈｔｅｄｉｍａｇｅ）に基づく解答生成の例示的フローチャートを示す。本出願の実施形態に係る注目重み付け画像を生成する例示的フローチャートを示す。本出願の実施形態に係る、それぞれのデータセットの番号で識別される画像及び対応したＱＡペアを示す。本出願の実施形態に係る、画像に関連する質問と、ＴｏｒｏｎｔｏＣＯＣＯ−ＱＡデータセットにおいてＡＢＣ−ＣＮＮで生成された、質問でガイドされた注目マップとを有する選択画像を示す。本出願の実施形態に係る計算装置/情報処理システムの簡略化ブロック図を示す。

以下の説明では、解釈のために、細部を説明して本発明の理解を与える。なお、当業者にとっては、これらの細部がない場合でも本発明を実施できることが明らかである。また、本発明の下記実施形態を、プロセス、装置、システム、機器又は手段のような様々な方式で非一時的コンピュータ可読媒体において実施できることを当業者は理解すべきである。

図面に示す構成要素又はモジュールは本出願の例示的な実施形態の説明であり、本出願の混乱を避けるためものである。理解すべきであることは、明細書全体において、構成要素が単独な機能ユニット（サブユニットを含んでもよい）と記述されてもよいが、当業者は、各構成要素又はその部材が単独な構成要素に区分されることができ、又は統合される（単一のシステム又は構成要素の内部に集積されることを含む）ことができることを認識すべきである。本文に議論された機能又は操作が構成要素として実現されることができることを理解すべきである。なお、本明細書で論述される機能又は操作は構成要素として実施してもよい。構成要素はソフトウェア、ハードウェア、又はそれらの組み合わせで実施してもよい。

なお、図面内の構成要素又はシステムの間の接続は直接接続に限定されない。より具体的には、これらの校正要素の間のデータは中間校正要素で変更され、再フォーマットされ、又は他の方式で改変されてもよい。また、付加的接続又はより少ない接続を利用してもよい。また、用語「連結」、「接続」又は「通信連結」が直接接続、１つ又は複数の中間設備で実現される非直接接続及び無線接続を含むことを理解すべきである。

明細書において、「１つの実施形態」、「好ましい実施形態」、「実施形態」又は「各実施形態」とは、実施形態を合わせて説明した具体的な特徴、構造、特性又は機能が本出願の少なくとも１つの実施形態に含まれ、且つ１つの以上の実施形態に存在してもよいことを意味する。また、本明細書における複数の箇所において、上記フレーズは必ずしもすべて同一の１つ又は複数の実施形態を参照しない。

明細書における各箇所において、一部の用語の使用は例示するためであり、限定と解釈されるべきではない。サービス、機能又はリソースは単一のサービス、機能又はリソースに限定されず、これら用語の使用は、関連サービス、機能又はリソースの分散又は集約型のグループ化も意味することができる。用語「含む」、「含んでいる」、「備える」、「備えている」は、オープンエンドの用語と理解すべきであり、その後にリストされるいかなる内容は例示だけであり、リストされる項目に限定されることを意味しない。用語「画像」は静的画像又はビデオ画像を含む。本明細書で用いられている見出しは全て構成上の目的だけであり、明細書又は特許請求の範囲を限定するものではないと理解すべきである。本特許で言及される全ての参照文献は全文として援用することによって本明細書に組み込まれる。

更に、（１）一部のステップが選択的に実施されてもよい、（２）ステップは本明細書で説明される特定順番に制限されなくてもよい、（３）一部のステップは異なる順番で実行してもよい、及び（４）一部のステップは同時に実行してもよいことを、当業者が理解すべきである。

Ａ．紹介
視覚質問応答（ＶＱＡ）はコンピュータ視覚化、自然言語処理及び機械学習の積極的な学際的研究分野である。画像及び画像に関連する自然言語の質問を提供して、ＶＱＡは自然言語文で質問を回答する。ＶＱＡは人工知能を構築する基本的なステップだけでなく、多数のアプリケーション（例えば画像検索、視覚障害者ナビゲーションや早期幼児教育）にも非常に重要である。ＶＱＡは挑戦的な作業であり、それは画像を深く理解するのに複雑な計算視覚技術が必要であり、更に質問の意味を抽出するのに先進的な自然言語処理技術が必要であり、且つ視覚情報と意味情報を効果的に統合するのに統一されたフレームワークが必要であるためである。

従来、ほとんどの従来技術のＶＱＡモデルは、視覚部分、自然言語部分及び解答生成部分を含む。視覚部分は、深層畳み込みニューラルネットワーク（ＣＮＮ）（例えばＹ・Ａ・レソン（Ｙ．Ａ．ＬｅＣｕｎ）、Ｌ・ボットウ（Ｌ．Ｂｏｔｔｏｕ）、Ｇ・Ｂ・オル（Ｇ．Ｂ．Ｏｒｒ）及びＫ・Ｒ・ミュラー（Ｋ．Ｒ．Ｍｕｌｌｅｒ）の、「効果的なＢａｃｋＰｒｏｐ」（ＥｆｆｉｃｉｅｎｔＢａｃｋｐｒｏｐ）、『ニューラルネットワーク：コツ』（Ｎｅｕｒａｌｎｅｔｗｏｒｋｓ：Ｔｒｉｃｋｓｏｆｔｈｅｔｒａｄｅ））、ページ９〜４８、スプリンガー社（Ｓｐｒｉｎｇｅｒ）、２０１２を参照）又は従来の視覚特徴抽出器を使用して入力画像から視覚特徴を抽出する。自然言語部分は、Ｂａｇ−ｏｆ−Ｗｏｒｄモデル又はリカレントニューラルネットワーク（ＲＮＮ）（例えばＳ・ホッホライ（Ｓ．Ｈｏｃｈｒｅｉｔｅｒ）とＪ・シュミットヒューバー（Ｊ．Ｓｃｈｍｉｄｈｕｂｅｒ）の、「長期短期記憶（Ｌｏｎｇｓｈｏｒｔ−ｔｅｒｍｍｅｍｏｒｙ）」、『ニューラル計算』（Ｎｅｕｒａｌｃｏｍｐｕｔａｔｉｏｎ）、９（８）：１７３５〜１７８０、１９９７を参照）モデルを使用して密集質問埋め込み（ｄｅｎｓｅｑｕｅｓｔｉｏｎｅｍｂｅｄｄｉｎｇ）を学習して質問の意味をコーディングする。解答生成部分は、視覚的特徴と質問埋め込みが提供された条件下で解答を生成する。解答は、マルチクラス分類器で生成された単語解答でもよく、別のＲＮＮデコーダーで生成された完全文でもよい。グローバル視覚的特徴と密集質問埋め込みは、線形/非線形結合射影によって統合されることができる。このような統合は通常視覚部分と質問理解部分の間の関係を十分に活用できない。

本明細書では、統一されたフレームワークとして新規な注目に基づく設定可能な畳み込みニューラルネットワーク（ＡＢＣ−ＣＮＮ）の実施形態を提供し、ＶＱＡの視覚情報と意味情報を統合する。人は画像に関連する質問を回答する時に、回答する前に質問の意図に基づく情報領域に注意を合わせる傾向がある。例えば、図１中、「コートが何色ですか？」と聞かれたら、コートの色を判断して解答を出す前にコートの領域を見つけるのが一般的である。当該当領域を見つけるメカニズムは質問でガイドされた注目と呼ばれ、これら領域は画像及び画像に関連する質問の両方で決定されるためである。

画像及び画像に関連する質問が提供された条件下で、提案されたフレームワークは自然言語解答を生成するだけでなく、質問でガイドされた注目情報を質問を回答するための重要な証拠として提供する。実施形態では、ＶＱＡタスクは単語解答を取るが、実施形態は例えばＲＮＮデコーダーで完全文を生成するように簡単に拡張できる。

これら質問を処理するために、注目に基づく設定可能な畳み込みニューラルネットワーク（ＡＢＣ−ＣＮＮ）が提案された。本出願のいくつかの実施形態に係る例示的なＡＢＣ−ＣＮＮフレームワーク２００は図２に示される。ＡＢＣ−ＣＮＮフレームワークは、視覚部分（画像特徴マップ抽出部分とも呼ばれる）、質問理解部分、解答生成部分及び注目抽出部分を含む。図示した実施形態において、ボックス２０５は視覚部分又は視覚構成要素、ボックス２１０は質問理解部分又は質問理解構成要素、ボックス２１５は設定可能な畳み込みを有する注目抽出部分又は注目抽出構成要素、ボックス２２０は注目重み付け画像特徴マップ２２２に対してマルチクラス分類を応用する解答生成部分又は解答生成構成要素を示す。

実施形態において、畳み込みニューラルネットワーク（ＣＮＮ）２０７は視覚部分から視覚的特徴を抽出することに用いられる。シングルグローバル視覚的特徴を抽出する代わりに、スライドウィンドウにおいてＣＮＮを応用したり、完全畳み込みニューラルネットワークを利用したりすることで、空間特徴マップを抽出して重要な空間的情報を保留する。実施形態において、長期短期記憶（ＬＳＴＭ）モデル２１４は質問理解部分において質問埋め込み２１２を取得ることに用いられ、且つ、マルチクラス分類器は解答生成部分において解答を生成することに用いられる。視覚部分と質問理解部分は質問でガイドされた注目を活用させることで統合される。

実施形態において、質問でガイドされた注目情報は注目抽出部分２１５において質問でガイドされた注目マップ２１８として示され、注目抽出部分２１５はＡＢＣ−ＣＮＮフレームワークのコアである。それは設定可能な畳み込みニューラルネットワークによって実現されるものであり、畳み込みカーネル２１６は質問埋め込みを意味空間から視覚空間に射影することによって生成される。設定可能な畳み込みカーネルは質問意味に基づいて決定された視覚情報に対応する。例えば、図１において、質問「傘が何色ですか？」は「傘」の視覚的特徴に対応した畳み込みカーネルを生成する。設定可能な畳み込みカーネルと画像特徴マップとの畳み込みは適応的に各領域の与えられた質問の応答に対する重要性を質問でガイドされた注目マップ２１８として表示する。質問でガイドされた注目マップ２１８は空間的に視覚的特徴マップを重みづけて、ノイズと独立した情報をフィルタリングすることに用いられる。実施形態において、ＡＢＣ−ＣＮＮは、画像における注目領域に対する手動ラベリングを一切必要とせずに画像と言語理解を効果的に統合してエンドツーエンドの方式で訓練されることができる、統一されたフレームワークである。

実験では、本出願によるＡＢＣ−ＣＮＮアーキテクチャの実施形態は三つの基準ＶＱＡデータセットについて評価され、即ち：ＴｏｒｏｎｔｏＣＯＣＯＱＡ（Ｍ・レン（Ｍ．Ｒｅｎ）、Ｒ・キロス（Ｒ．Ｋｉｒｏｓ）及びＲ・ゼメル（Ｒ．Ｚｅｍｅｌ）の、「画像質問応答用のモデル及びデータの探索」（Ｅｘｐｌｏｒｉｎｇｍｏｄｅｌｓａｎｄｄａｔａｆｏｒｉｍａｇｅｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ）、ａｒＸｉｖ：１５０５．０２０７４．２０１５を参照）、ＤＡＱＵＡＲ（Ｍ・マリナウスキ（Ｍ．Ｍａｌｉｎｏｗｓｋｉ）とＭ・フリツー（Ｍ．Ｆｒｉｔｚ）の、「不確定な入力に基づいて実世界のシーンについての質問応答を行う多世界性アプローチ」（Ａｍｕｌｔｉ−ｗｏｒｌｄａｐｐｒｏａｃｈｔｏｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇａｂｏｕｔｒｅａｌ−ｗｏｒｌｄｓｃｅｎｅｓｂａｓｅｄｏｎｕｎｃｅｒｔａｉｎｉｎｐｕｔ）、『ニューラル情報処理システムの発展』（ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ）、ページ１６８２〜１６９０、２０１４を参照）、及びＶＱＡ（Ｓ・アントール（Ｓ．Ａｎｔｏｌ）、Ａ・アグラワール（Ａ．Ａｇｒａｗａｌ）、Ｊ・ルー（Ｊ．Ｌｕ）、Ｍ・ミッチェル（Ｍ．Ｍｉｔｃｈｅｌｌ）、Ｄ・バトラ（Ｄ．Ｂａｔｒａ）、Ｃ・Ｌ・ジットニック（Ｃ．Ｌ．Ｚｉｔｎｉｃｋ）及びＤ・パリーク（Ｄ．Ｐａｒｉｋｈ）の、「ＶＱＡ：視覚質問応答」（ＶＱＡ：Ｖｉｓｕａｌｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ）、ａｒＸｉｖプレプリントａｒＸｉｖ：１５０５．００４６８、２０１５を参照）。実験から明らかなように、ＡＢＣ−ＣＮＮフレームワークは従来の技術方法より遥かに優れる。視覚化は、ＡＢＣ−ＣＮＮアーキテクチャが質問で質問される領域をよく反映する注目マップを生成できることを実証する。

要約すれば、統一されたＡＢＣ−ＣＮＮフレームワークは質問でガイドされた注目によって視覚情報と意味情報を効果的に統合してＶＱＡに用いるものとして開示される。質問でガイドされた注目はＶＱＡシステムの性能を著しく改良するだけでなく、質問応答過程を更に良く理解することに寄与する。

Ｂ．関連作業
ＶＱＡ＆画像キャプション：この二つの質問は視覚的内容の推論及び自然言語の結果の表示の点について類似性が存在する。ＶＱＡ及び画像キャプションについての従来の最先端の方法はＣＮＮで視覚的特徴を抽出し且つＬＳＴＭモデルをデコーダーとして解答又はキャプションを生成する傾向がある。一部の方法はＬＳＴＭデコーダーに解答又はキャプションが生成される期間においてマルチモデルレイヤを使用して結合射影によって視覚的特徴と単語埋め込みベクトルを組み合わせる。ほかの方法の少なくとも一種（Ｐ・セルマネット（Ｐ．Ｓｅｒｍａｎｅｔ）、Ａ・フローム（Ａ．Ｆｒｏｍｅ）及びＥ・リール（Ｅ．Ｒｅａｌ）の、「精細分類用の注目」（Ａｔｔｅｎｔｉｏｎｆｏｒｆｉｎｅ−ｇｒａｉｎｅｄｃａｔｅｇｏｒｉｚａｔｉｏｎ）、ａｒＸｉｖプレプリントＸｉｖ：１４１２．７０５４、２０１４を参照）は射影された画像特徴をＬＳＴＭデコーダーの初期状態とし、これはシーケンスツーシーケンス学習（Ｉ・スツケベル（Ｉ．Ｓｕｔｓｋｅｖｅｒ）、Ｏ・ビニャルス（Ｏ．Ｖｉｎｙａｌｓ）及びＱ・Ｖ・リ（Ｑ．Ｖ．Ｌｅ）の、「ニューラルネットワークを用いるシーケンス−シーケンス学習」（Ｓｅｑｕｅｎｃｅｔｏｓｅｑｕｅｎｃｅｌｅａｒｎｉｎｇｗｉｔｈｎｅｕｒａｌｎｅｔｗｏｒｋｓ）、『ニューラル情報処理システムの発展』（Ａｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ）、ページ３１０４-３１１２、２０１４を参照）におけるコーデック−デコーダーフレームワークに類似する。画像特徴をグローバル視覚的特徴として処理する場合、質問中の有用な情報を活用してこれらの注目を画像における対応領域に合わせることができない。

注目モデル：注目モデルは、対象検出、精細画像分類、精細視覚認識及び画像キャプションを含む多数のコンピュータ視覚タスクに用いている。注目情報は画像中の注目領域シーケンスとしてモデリングできる。リカレントニューラルネットワークはカレント注目領域の位置及び視覚的特徴に基づいて次の注目領域を予測することに用いる。当該フレームワークをそれぞれ対象認識、対象検出及び精細対象認識に用いることがある。更に、画像キャプション用の注目に基づくモデルが開発されており、当該モデルはリカレントニューラルネットワークを生成器とすることで、文の異なる単語を生成する時に、モデルはその注目を異なる画像領域に合わせる。前記モデルは各画像における一組の提案領域を抽出し、且つ注目重みは復号化ＬＳＴＭ生成器の隠れ状態と各提案領域から抽出された視覚的特徴によって学習される。一つの場合では（Ｔ・Ｙ・リン（Ｔ．Ｙ．Ｌｉｎ）、Ａ・ロイ・チョードリー（Ａ．ＲｏｙＣｈｏｗｄｈｕｒｙ）及びＳ・マジ（Ｓ．Ｍａｊｉ）の、「精細視覚認識用の双線形ＣＮＮモデル」（ＢｉｌｉｎｅａｒＣＮＮｍｏｄｅｌｓｆｏｒｆｉｎｅ−ｇｒａｉｎｅｄｖｉｓｕａｌｒｅｃｏｇｎｉｔｉｏｎ）、ａｒＸｉｖプレプリントａｒＸｉｖ：１５０４．０７８８９、２０１５を参照）、双線形ＣＮＮ構造が位置とコンテンツを組み合わせて精細画像分類に用いることが提案されている。注目がこれらの視覚タスクに成功的に応用されることに示唆され、ＡＢＣ−ＣＮＮは質問でガイドされた注目を使用してＶＱＡの性能を改良する。

設定可能な畳み込みニューラルネットワーク：小範囲天気予報用の動的畳み込みアーキテクチャ（Ｂ・クライン（Ｂ．Ｋｌｅｉｎ）、Ｌ・ウルフ（Ｌ．Ｗｏｌｆ）及びＹ・クライン（Ｙ．クライン）の、「小範囲天気予報用の動的畳み込みアーキテクチャ」Ａｄｙｎａｍｉｃｃｏｎｖｏｌｕｔｉｏｎａｌｌａｙｅｒｆｏｒｓｈｏｒｔｒａｎｇｅｗｅａｔｈｅｒｐｒｅｄｉｃｔｉｏｎ）、『ＩＥＥＥコンピュータ視覚及びパターン認識プロシーディング』（ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ）ページ４８４０〜４８４８、２０１５を参照）が提案された。動的畳み込みレイヤ中の畳み込みカーネルはニューラルネットワークによって前の時間ステップで天気画像情報をコーディングすることによって決定される。ＶＱＡでは、注目領域を決定するための最も重要な手がかりは質問である。従って、ＡＢＣ−ＣＮＮフレームワークの実施形態における設定可能な畳み込みカーネルは質問埋め込みによって決定される。

Ｃ．注目に基づく設定可能なＣＮＮ
図２にはＡＢＣ−ＣＮＮフレームワークの実施形態が示される。実施形態において、単語解答を有するＱＡペアは本明細書の主な例であり、それはタスクがマルチクラス分類の問題とみなされてよいためであり、それによって評価指標を簡略化させるとともに質問でガイドされた注目モデルの開発に焦点を合わせることを可能にする。しなしながら、注目モデルの実施形態は、マルチクラス分類モデルの代わりとしてＬＳＴＭデコーダーを使用して多単語文を生成して解答とするように簡単に広げられる。

図２に示されるように、図示したＡＢＣ−ＣＮＮ実施形態は、画像特徴抽出部分２０５、質問理解部分２１０、注目抽出部分２１５及び解答生成部分２２０の四つの構成要素を含む。画像特徴抽出部分２０５では、実施形態において、深層畳み込みニューラルネットワーク２０７はそれぞれの画像に対して画像特徴マップＩ２０８を抽出して画像表示とする。実施形態において、１０００クラスＩｍａｇｅＮｅｔ分類挑戦２０１２データセット（Ｊ・とう（Ｊ．Ｄｅｎｇ）、Ｗ・董（Ｗ．Ｄｏｎｇ）、Ｒ・ソッチ（Ｒ．Ｓｏｃｈｅｒ）、Ｌ・Ｊ・李（Ｌ．−Ｊ．Ｌｉ）、Ｋ・李（Ｋ．Ｌｉ）及び李菲菲（Ｌ．Ｆｅｉ−Ｆｅｉ）の、「画像ネットワーク：大規模階層型データベース」（Ａｌａｒｇｅ−ｓｃａｌｅｈｉｅｒａｒｃｈｉｃａｌｉｍａｇｅｄａｔａｂａｓｅ）、『ＩＥＥＥコンピュータ視覚及びパターン認識２００９ＣＶＰＲ２００９プロシーディング』（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００９．ＣＶＰＲ２００９．ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎ）、ページ２４８-２５５、ＩＥＥＥ、２００９を参照）において予め訓練されたＶＧＧ−１９深層畳み込みニューラルネットワーク（Ｋ・シモンヤン（Ｋ．Ｓｉｍｏｎｙａｎ）とＡ・ジッセルマン（Ａ．Ｚｉｓｓｅｒｍａｎ）の、「大規模画像認識用の非常に深い畳み込みネットワーク」（Ａｖｅｒｙｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｌａｒｇｅ−ｓｃａｌｅｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ）、ａｒＸｉｖプレプリント）ａｒＸｉｖ：１４０９．１５５６、２０１４を参照）、及びＰＡＳＣＡＬ２００７セグメンテーションデータセットにおいて予め訓練された完全畳み込み分割ニューラルネットワーク（Ｌ・Ｃ・陳（Ｌ．Ｃ．Ｃｈｅｎ）、Ｇ・パパンドレウ（Ｇ．Ｐａｐａｎｄｒｅｏｕ）、Ｉ・コッキンノス（Ｉ．Ｋｏｋｋｉｎｏｓ）、Ａ・Ｋ・マーフィー（Ｋ．Ｍｕｒｐｈｙ）及びＡ・Ｌ・ユール（Ａ．Ｌ．Ｙｕｉｌｌｅ）の、「深層畳み込みネットワークと完全に接続されたＣＲＦＳを用いるセマンティクス画像分割」（ＳｅｍａｎｔｉｃｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｓａｎｄｆｕｌｌｙｃｏｎｎｅｃｔｅｄＣＲＦＳ）、ａｒＸｉｖプレプリントａｒＸｉｖ：１４１２．７０６２、２０１４を参照）が使用される。実施形態において、質問理解部分２１０はＬＳＴＭレイヤ２１４を使用して密集質問埋め込みｓ２１３を学習して、画像に関連する質問の意味情報をコーディングする。実施形態において、ＡＢＣ−ＣＮＮフレームワークのコア構成要素は注目抽出部分２１５である。実施形態において、注目抽出部分は密集質問埋め込みに基づき一組の畳み込みカーネル２１６が設置される。問題において質問される対象を特徴付けする視覚的特徴の畳み込みカーネル２１６は画像特徴マップ２０８に用いられて、質問でガイドされた注目マップ２１８を生成する。実施形態において、画像特徴マップＩ２０８、注目重み付け画像特徴マップ２２２及び密集質問埋め込み２１３の融合による改良に基づき、解答生成部分２２０はマルチクラス分類器で質問を回答する。本章の残り部分では、ＡＢＣ−ＣＮＮフレームワークの各構成要素の実施形態を詳細に説明する。

１．注目抽出
実施形態において、質問でガイドされた注目マップｍ（問題で質問される画像領域を反映する）は設定可能な畳み込みニューラルネットワークで各画像−質問ペアから生成される。設定可能な畳み込みニューラルネットワークにおける畳み込みカーネルは密集質問埋め込みｓに基づいて密集質問埋め込みｓを意味空間から視覚空間に射影することで設定されることができる。
ただし、σ（．）はｓｉｇｍｏｉｄ関数である。

実施形態において、密集質問表現ｓは問題で質問されるセマンティクス対象情報をコーディングする。実施形態において、射影が意味情報を対応した視覚情報に変換して、画像特徴マップＩの数と同じチャンネルを有する質問で設定されたカーネルとする。例えば、質問が「傘が何色ですか？」であれば、質問で設定されたカーネルｋは傘の視覚的特徴すべきある。

実施形態において、質問でガイドされた注目マップは質問で設定されたカーネルｋを画像特徴マップＩに応用することで生成されることができる。
ただし、ｍ_ｉｊは位置（ｉ，ｊ）での質問でガイドされた注目の要素であり、且つ符号＊は畳み込み演算を示す。実施形態において、Ｓｏｆｔｍａｘ正規化は空間注目分布を発生させて質問でガイドされたマップとする。実施形態において、畳み込みは注目マップｍが画像特徴マップＩと同じサイズを有することを確保するために埋め込まれる。質問でガイドされた注目マップは問題で質問される領域に集中する。例えば、質問「傘が何色ですか？」によれば、画像中の傘領域に集中する注目マップを生成でき、それは畳み込みカーネルは質問に応じて傘の視覚的特徴として設定されるためである。

以下の原因で、注目マップｍを使用することによって、すべての四種類の質問について質問応答の正確度は改善できる。
・カウント質問として、例えば「対象にいくつかの自動車があるか？」について、注目マップは無関係の領域をフィルタリングすることによって、画像中の対象の数を簡単に推定することを可能にさせる。
・色の質問として、例えば「コートが何色ですか？」について、関連対象に焦点を合わせることで特定対象の色は更に効果的に応答されることができる。
・対象質問として、例えば「机の上に何が置かれていますか？」について、注目マップは関連性が低い領域、例えば背景をフィルタリングして、且つ空間関係に基づいて対象を見付けるより有益な位置が推測されることができる。
・位置質問として、例えば「画像中の自動車がどこにありますか？」について、注目マップが対象の画像での位置を明らかに説明するため、正確な解答を生成するのに重要である。

２．質問理解
質問理解は視覚質問応答に対して重要なことである。質問の意味論的意味は解答生成に最も重要な手がかりを提供するだけでなく、設定可能な畳み込みカーネルを確定して注目マップを生成するのに用いられることができる。

最近、長期短期記憶（ＬＳＴＭ）モデルが言語理解について効率よく作用できることが明らかになる。実施形態において、ＬＳＴＭモデルは密集質問埋め込みを生成して質問の意味論的意味を特徴付けするのに用いられる。実施形態において、質問ｑはまず単語列｛ｖ_ｔ｝にトークン化される。実施形態において、すべての大文字が小文字に変換され、且つすべての句読点が削除される。訓練セットにおいて現れるがテストセットにおいて現れていない単語は特殊な符号（例えば＃ＯＯＶ＃）で置換され、且つ特殊符号＃Ｂ＃と＃Ｅ＃はシーケンスの先頭とシーケンスの末端に追加されている。質問辞書に基づき、それぞれの単語は密集単語埋め込みベクトルとして示される。実施形態において、ＬＳＴＭは単語埋め込みシーケンスに用いてメモリゲート（ｍｅｍｏｒｙｇａｔｅ）ｃ_ｔと忘却ゲート（ｆｏｒｇｅｔｇａｔｅ）ｆ_ｔの使用によって各ベクトルｖ_ｔから隠れ状態ｈ_ｔ（式３、以下のように示される）を生成する：
ただし、φは双曲線正接関数であり、且つ
は２つのベクトル間の要素ごとの積を示す（以下、本文中では当該記号を「◎」と表記する）。図３には、質問プロセスに用いられるＬＳＴＭフレームワークの実施形態の詳細が示される。入力問題ｑの意味情報ｓはすべての時間ステップにおいてＬＳＴＭ状態｛ｈ_ｔ｝の平均値を求めることで取得される。

３．画像特徴抽出
実施形態において、それぞれの画像中の視覚情報はＮ×Ｎ×Ｄの画像特徴マップとして示される。特徴マップは画像をＮ×Ｎのグリッドに分けてグリッド中の各セルからＤ次元特徴ベクトルｆを抽出することによって抽出されることができる。実施形態において、原画像と左・右反転画像のそれぞれのセルの中心、左上角、右上角、左下角及び右下角で五個（５個）のウィンドウを抽出して、更にそれぞれのセルに対して合計で十個（１０個）のウィンドウを生成させる。実施形態において、ＶＧＧ−１９深層畳み込みニューラルネットワークは各ウィンドウについてＤ次元特徴を抽出する。実施形態において、各セルのＤ次元特徴ベクトルはすべての十個（１０個）のＤ次元特徴ベクトルの平均である。最後のＮ×Ｎ×Ｄ画像特徴マップはＮ×Ｎ×Ｄ次元特徴ベクトルの連結である。

また、完全畳み込みニューラルネットワークアーキテクチャを使用して更に効果的に画像特徴マップを抽出することもできる。実施形態において、ＰＡＳＣＡＬ２００７セグメンテーションデータセットにおいて予め訓練された分割モデル（Ｌ・Ｃ・陳（Ｌ．Ｃ．Ｃｈｅｎ）、Ｇ・パパンドレウ（Ｇ．Ｐａｐａｎｄｒｅｏｕ）、Ｉ・コッキンノス（Ｉ．Ｋｏｋｋｉｎｏｓ）、Ａ・Ｋ・マーフィー（Ｋ．Ｍｕｒｐｈｙ）及びＡ・Ｌ・ユール（Ａ．Ｌ．Ｙｕｉｌｌｅ）の、「深層畳み込みネットワークと完全に接続されたＣＲＦＳを用いるセマンティクス画像分割」（ＳｅｍａｎｔｉｃｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｓａｎｄｆｕｌｌｙｃｏｎｎｅｃｔｅｄＣＲＦＳ）、ａｒＸｉｖプレプリントａｒＸｉｖ：１４１２．７０６２、２０１４を参照）は使用され、且つわずかに良好な性能を達成させる。

４．解答生成
実施形態において、解答生成部分は原画像特徴マップ、密集質問埋め込み及び注目重み付け画像特徴マップ用のマルチクラス分類器である。実施形態において、注目マップは画像特徴マップＩを空間的に重み付けることに用いられる。重み付けられた画像特徴マップは質問に対応した対象に集中する。実施形態において、空間的な重み付けは画像特徴マップと注目マップのそれぞれのチャンネル間の要素ごとの積によって実現される。
ただし、◎は要素ごとの積、Ｉ’_ｉとＩ_ｉはそれぞれ注目重み付け画像特徴マップＩ’_ｉと原画像特徴マップＩのｉ番目のチャンネルを示す。注目重み付け画像特徴マップは質問に無関係の領域の重みを低下させる。実施形態において、オーバーフィッティングを防止するために、１×１畳み込みを注目重み付け特徴画像マップに用いてチャンネルの数を減少させ、それによって減少された特徴マップＩ_ｒを取得する。実施形態において、問題又は質問する意味情報、画像特徴マップＩ及び減少された特徴マップＩ_ｒは非線形射影によって融合される：
ただし、ｈは最終射影特徴を示し、且つ
は要素に応じて一つずつスケーリングされた双曲線正接関数：
である。当該関数で勾配が値の最も非線形な範囲に入って、より高い訓練速度を実現する。

実施形態において、Ｓｏｆｔｍａｘ活性化を有するマルチクラス分類器は最終射影特徴ｈにおいて訓練される。解答ｉｄは解答辞書において指定されることができる。ＡＢＣ−ＣＮＮが生成する解答は最大確率を有する単語：
である。
ただし
は解答辞書中のすべての単語のセットである。

なお、実施形態では、質問と解答用の辞書は共有するものではない。それは、質問と解答によって同一単語の表現が異なる可能性がある意味とする。

図４は本出願の実施形態に係るＡＢＣ−ＣＮＮアーキテクチャを使用して解答を生成する例示的なフローチャートを示す。実施形態において、ＡＢＣ−ＣＮＮアーキテクチャはステップ４０５において深層畳み込みニューラルネットワークで複数の画素を含む入力画像から画像特徴マップを抽出し、且つステップ４１０において長期短期記憶（ＬＳＴＭ）レイヤで入力画像に関連する入力問題から密集質問埋め込みを取得する。ステップ４１５において、密集質問埋め込みを意味空間から視覚空間に射影することで複数の質問で設定されたカーネルを生成する。ステップ４２０において、質問で設定されたカーネルと画像特徴マップを畳み込むことによって質問でガイドされた注目マップを生成する。ステップ４２５において、質問でガイドされた注目マップで空間的に画像特徴マップを重み付けることによって、マルチクラス分類器で注目重み付け画像特徴マップを取得する。注目重み付け画像特徴マップは質問に無関係の領域の重みを低下させ、又は質問に関連する領域に焦点を合わせることに用いられる。実施形態において、空間的な重み付けは画像特徴マップと質問でガイドされた注目マップの各チャンネル間の要素ごとの積によって実現される。最後に、ステップ４３０において、画像特徴マップ、深層質問埋め込み及び注目加重画像特徴マップの融合に基づいて質問の解答を生成する。

図５は本出願の実施形態に係るＡＢＣ−ＣＮＮアーキテクチャを使用して質問でガイドされた注目マップを生成する例示的なフローチャートを示す。実施形態において、注目マップ生成部分はステップ５０５において画像入力から抽出された画像特徴マップを受信し、且つステップ５１０においてＬＳＴＭを使用して問題入力から取得した密集質問埋め込みを受信する。ステップ５１５において、質問埋め込みを意味空間から視覚空間に射影することで、一組の設定可能な畳み込みカーネルを生成させる。ステップ５２０において、空間的な注目分布は、質問で設定されたカーネルと画像特徴マップの間の畳み込み演算によって生成される。実施形態において、ＡＢＣ−ＣＮＮフレームワークは初期重みを有し、当該初期重みは予備訓練期間においてＡＢＣ−ＣＮＮフレームワーク内のすべてのレイヤ（ＣＮＮレイヤやＬＳＴＭレイヤ等を含む）の各次元における活性化が０平均値及び一つの標準偏差を有することを確保するようにランダムに調整される。ステップ５２５において、Ｓｏｆｔｍａｘ正規化を空間的な注目分布に用いて質問でガイドされた注目マップを生成する。

５．訓練及びテスト
実施形態において、フレームワークの全体は、確率的な勾配降下とａｄａｄｅｌｔａ（Ｍ・Ｄ・ゼイラー（Ｍ．Ｄ．Ｚｅｉｌｅｒ）の、「Ａｄａｄｅｌｔａ：適応学習速度法」（Ａｄａｄｅｌｔａ：Ａｎａｄａｐｔｉｖｅｌｅａｒｎｉｎｇｒａｔｅｍｅｔｈｏｄ）、ａｒＸｉｖプレプリントａｒＸｉｖ：１２１２．５７０１、２０１２を参照）アルゴリズムを使用してエンドツーエンド方式で訓練する。各バッチの確率的な勾配降下は、独立してランダムに６４個の画像質問ペアをサンプリングし、且つバックプロパゲーションを使用してＡＢＣ−ＣＮＮアーキテクチャのすべての重みを学習することができる。実施形態において、すべてのレイヤの初期重みは、すべてのレイヤの各次元の活性化が０平均値及び一つの標準偏差を有するようにランダムに調整されることができる。実施形態において、初期学習速度を０．１に設定する。実験では、ＡＢＣ−ＣＮＮ実施形態においてエンドツーエンド方式ですべての重みを訓練することが可能であるが、画像特徴抽出部分中の重みはより高い訓練速度を可能にするために一定であってもよい。

テスト段階では、実施形態において、各画像に対して画像特徴マップを抽出する。実施形態において、質問が与えられた場合、当該質問の密集質問埋め込みを生成させ、且つ質問埋め込みは畳み込みカーネルを構成して、注目マップを生成するのに用いる。実施形態において、マルチクラス分類器は原特徴マップ、質問埋め込み及び注目重み付け画像特徴マップの融合によって解答を生成する。

Ｄ．実験
本モデルの実施形態は以下のデータセットについて評価され、即ち：ＴｏｒｏｎｔｏＣＯＣＯＱＡデータセット（Ｍ・レン（Ｍ．Ｒｅｎ）、Ｒ・キロス（Ｒ．Ｋｉｒｏｓ）及びＲ・ゼメル（Ｒ．Ｚｅｍｅｌ）の、「画像質問応答用のモデル及びデータの探索」（Ｅｘｐｌｏｒｉｎｇｍｏｄｅｌｓａｎｄｄａｔａｆｏｒｉｍａｇｅｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ）、ａｒＸｉｖ：１５０５．０２０７４．２０１５を参照）、ＤＡＱＵＡＲデータセット（Ｍ・マリナウスキ（Ｍ．Ｍａｌｉｎｏｗｓｋｉ）及びＭ・フリツー（Ｍ．Ｆｒｉｔｚ）の、「不確定な入力に基づいて実世界のシーンについての質問応答を行う多世界性アプローチ」（Ａｍｕｌｔｉ−ｗｏｒｌｄａｐｐｒｏａｃｈｔｏｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇａｂｏｕｔｒｅａｌ−ｗｏｒｌｄｓｃｅｎｅｓｂａｓｅｄｏｎｕｎｃｅｒｔａｉｎｉｎｐｕｔ）、『ニューラル情報処理システムの発展』（ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ）、第１６８２〜１６９０ページ、２０１４を参照）、及びＶＱＡデータセット（Ｓ・アントール（Ｓ．Ａｎｔｏｌ）、Ａ・アグラワール（Ａ．Ａｇｒａｗａｌ）、Ｊ・ルー（Ｊ．Ｌｕ）、Ｍ・ミッチェル（Ｍ．Ｍｉｔｃｈｅｌｌ）、Ｄ・バトラ（Ｄ．Ｂａｔｒａ）、Ｃ・Ｌ・ジットニック（Ｃ．Ｌ．Ｚｉｔｎｉｃｋ）及びＤ・パリーク（Ｄ．Ｐａｒｉｋｈ）の、「ＶＱＡ：視覚質問応答」（ＶＱＡ：Ｖｉｓｕａｌｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ）、ａｒＸｉｖプレプリントａｒＸｉｖ：１５０５．００４６８、２０１５を参照）。実施形態は単語解答を有するＱＡペアについて評価し、それぞれＴｏｒｏｎｔｏ−ＱＡデータセット、ＶＱＡデータセット及びＤＡＱＵＡＲデータセットの（１００％、８５％、９０％）を考慮する。それはＭ・レン（Ｍ．Ｒｅｎ）、Ｒ・キロス（Ｒ．Ｋｉｒｏｓ）及びＲ・ゼメル（Ｒ．Ｚｅｍｅｌ）の、「画像質問応答用のモデル及びデータ」（Ｅｘｐｌｏｒｉｎｇｍｏｄｅｌｓａｎｄｄａｔａｆｏｒｉｍａｇｅｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ）（ａｒＸｉｖ：１５０５．０２０７４．２０１５を参照）での評価に合致する。その上、ＡＢＣ−ＣＮＮフレームワークの実施形態は、解答生成部分においてＲＮＮデコーダーで完全文を生成して解答とするように簡単に広げられる。

なお、本特許文献に引用された実験及び結果（本章又は任意のほかの章において）は説明の形として提供され、且つ具体的な実施形態又は複数の具体的な実施形態によって具体的な条件下で実行され、従って、これら実験又はその結果は、本特許文献に開示されている範囲を制限するものではない。

１．実施詳細
実験では、ＡＴＴ−ＳＥＧ−ＨＳＶモデル以外、画像特徴マップと注目マップの両方の解像度として３×３を選択し、当該ＡＴＴ−ＳＥＧ−ＨＳＶモデルは完全畳み込み分割ネットワークから抽出された特徴（１６×１６）を使用する。各画像セルは予め訓練されたＶＧＧネットワーク［Ｋ・チャットフィールド、Ｋ・シモンヤン、Ａ・ベダルディ及びＡ・ゼッセルマン、「悪魔が細部に隠されている：畳み込みネットワークの深層探求」（Ｒｅｔｕｒｎｏｆｔｈｅｄｅｖｉｌｉｎｔｈｅｄｅｔａｉｌｓ：Ｄｅｌｖｉｎｇｄｅｅｐｉｎｔｏｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｓ）、ａｒＸｉｖプレプリントａｒＸｉｖ：１４０５．３５３１、２０１４を参照］を使用して４０９６次元画像特徴ベクトルを生成する。すべての画像セルからの画像特徴ベクトルは４０９６×３×３次元を有する画像特徴マップを構成する。オーバーフィッティングを防止するために、画像特徴マップの次元は１×１畳み込みによって２５６×３×３まで減少される。密集質問埋め込みの次元は２５６である。また、ＨＳＶ色特徴マップは画像特徴マップ（ＡＴＴ−ＨＳＶ）に追加される。各セルにおける色特徴は当該各セル中の画素のＨＳＶヒストグラムとしてコーディングされる。ＰＡＳＣＡＬ２００７セグメンテーションデータセットにおいて予め訓練された完全畳み込みニューラルネットワーク（Ｌ・Ｃ・陳（Ｌ．Ｃ．Ｃｈｅｎ）、Ｇ・パパンドレウ（Ｇ．Ｐａｐａｎｄｒｅｏｕ）、Ｉ・コッキンノス（Ｉ．Ｋｏｋｋｉｎｏｓ）、Ａ・Ｋ・マーフィー（Ｋ．Ｍｕｒｐｈｙ）及びＡ・Ｌ・ユール（Ａ．Ｌ．Ｙｕｉｌｌｅ）の、「深層畳み込みネットワークと完全に接続されたＣＲＦＳを用いるセマンティクス画像分割」（ＳｅｍａｎｔｉｃｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｓａｎｄｆｕｌｌｙｃｏｎｎｅｃｔｅｄＣＲＦＳ）、ａｒＸｉｖプレプリントａｒＸｉｖ：１４１２．７０６２、２０１４を参照）も１６×１６×１０２４特徴マップの生成に用いられ、且つそれらとＨＳＶ色特徴マップを連結して画像特徴マップ（ＡＴＴ−ＳＥＧ−ＨＳＶ）にする。４個のＫ４０ＮｖｉｄｉａＧＰＵを使用してＴｏｒｏｎｔｏＣＯＣＯ−ＱＡデータセットにおいてネットワークＡＴＴ−ＨＳＶを訓練するのに約２４時間がかかる。システムは単一のＫ４０ＧＰＵにおいて各質問に対して９．８９ｍｓの速度で解答を生成できる。

２．データセット
本出願のモデルによる実施形態は三つのデータセットについて評価され、即ち：ＤＡＱＵＡＲ、ＴｏｒｏｎｔｏＣＯＣＯ−ＱＡ及びＶＱＡ。

ＤＡＱＵＡＲデータセットは２種類のバージョンを有し、即ち：完全なデータセット（ＤＱ−Ｆｕｌｌ）と減少されたデータセット（ＤＱ−Ｒｅｄｕｃｅｄ）。ＤＱ−Ｒｅｄｕｃｅｄは８９４個のオブジェクトクラスを有するＤＱ−Ｆｕｌｌデータセットのサブセットである３７個のオブジェクトクラスの質問応答ペアを有する。２種類のバージョンは、ＮＹＵ−ＤｅｐｔｈＶ２データセット（Ｎ・シルベルマン（Ｎ．Ｓｉｌｂｅｒｍａｎ）、Ｄ・ホイエム（Ｄ．Ｈｏｉｅｍ）、Ｐ・コーリ（Ｐ．Ｋｏｈｌｉ）及びＲ・ファーガス（Ｒ．Ｆｅｒｇｕｓ）の、ＲＧＢＤ画像からの室内分割及びサポート推論（ＩｎｄｏｏｒｓｅｇｍｅｎｔａｔｉｏｎａｎｄｓｕｐｐｏｒｔｉｎｆｅｒｅｎｃｅｆｒｏｍＲＧＢＤｉｍａｇｅｓ）、コンピュータ視覚−ＥＣＣＶ２０１２、ページ７４６〜７６０、スプリンガー出版社、２０１２（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ-ＥＣＣＶ２０１２，ｐａｇｅｓ７４６〜７６０．Ｓｐｒｉｎｇｅｒ，２０１２）を参照）からの室内シーン画像を使用する。ＤＱ−Ｆｕｌｌデータセットは６７９４個のＱＡペアを有する７９５個の訓練画像と５６７４個のＱＡペアを有する６５４個のテスト画像を有する。ＤＱ−Ｒｅｄｕｃｅｄデータセットは３８２５個のＱＡペアを有する７８１個の訓練画像と２８６個のＱＡペアを有する２５個のテスト画像を有する。実験では、ＤＡＱＵＡＲデータセットは単語解答を有するＱＡペアだけについてテスト及び訓練を行い、それはレン（Ｒｅｎ）等の人（Ｍ・レン（Ｍ．Ｒｅｎ）、Ｒ・キロス（Ｒ．Ｋｉｒｏｓ）及びＲ・ゼメル（Ｒ．Ｚｅｍｅｌ）の、「画像質問応答用のモデル及びデータの探索」（Ｅｘｐｌｏｒｉｎｇｍｏｄｅｌｓａｎｄｄａｔａｆｏｒｉｍａｇｅｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ）、ａｒＸｉｖ：１５０５．０２０７４．２０１５を参照）による評価に合致する。このようなＱＡペアは、それぞれＤＱ−ＦｕｌｌデータセットとＤＱ−Ｒｅｄｕｃｅｄデータセットに対する訓練セットとテストセットの（９０．６％，８９．５％）と（９８．７％，９７．６％）を構成する。

ＴｏｒｏｎｔｏＣＯＣＯ−ＱＡデータセットはＭｉｃｒｏｓｏｆｔＣＯＣＯデータセット（ＭＳ−ＣＯＣＯ）からの画像を使用する。そのＱＡペアは単語解答だけを含む。その基本統計は表１にまとめられる。

表１．ＴｏｒｏｎｔｏＣＯＣＯ−ＱＡ質問タイプの分解（Ｐ・セルマネット（Ｐ．Ｓｅｒｍａｎｅｔ）、Ａ・フローム（Ａ．Ｆｒｏｍｅ）及びＥ・リール（Ｅ．Ｒｅａｌ）の、「精細分類用の注目」（Ａｔｔｅｎｔｉｏｎｆｏｒｆｉｎｅ−ｇｒａｉｎｅｄｃａｔｅｇｏｒｉｚａｔｉｏｎ）、ａｒＸｉｖプレプリントＸｉｖ：１４１２．７０５４、２０１４を参照）。

ＶＱＡデータセットは最近に収集してＭＳ−ＣＯＣＯデータセット中の画像で構築されるデータセットである。ＶＱＡデータセット中のＶＱＡ実像（オープンエンド型）タスクの提案モデルは評価される。それは８２７８３個の訓練画像、４０５０４個の認証画像及び８１４３４個のテスト画像を有する。ＭＳ−ＣＯＣＯデータセットにおける各画像は三個（３個）の質問が注釈され、且つ各質問は十個（１０）の候補解答を有する。訓練、テスト及び認証用ＱＡペアの総数はそれぞれ２４８３４９、１２１５１２、２４４３０２である。本モデルの実施形態はＶＱＡデータセット中の単語解答ＱＡペアについて評価し、単語解答ＱＡペアはデータセットにおけるＱＡペアの総数の８６．８８％を構成する。図６において、三個のデータセットからのいくつかのサンプルが示される。

３．評価メトリクス
ＶＱＡモデルの性能は「解答の正確性」及び「呉−パーマー類似性測度セット（Ｗｕ−ＰａｌｍｅｒｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅＳｅｔ）（ＷＵＰＳ）」スコアに基づいて評価される。解答の正確さ（ＡＣＣ）はグランドトゥルース解答と正確にマッチングする、生成された解答の百分率を計算する。ＷＵＰＳスコアは呉−パーマー（ＷＵＰ）類似性［Ｚ・呉（Ｚ．Ｗｕ）とＭ・パーマー（Ｍ．Ｐａｌｍｅｒ）の、「動詞セマンティクス及び字句選択」（Ｖｅｒｂｓｓｅｍａｎｔｉｃｓａｎｄｌｅｘｉｃａｌｓｅｌｅｃｔｉｏｎ）、『計算言語協会の３２回目のプロシーディング』（Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３２ｎｄａｎｎｕａｌｍｅｅｔｉｎｇｏｎＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ）、ページ１３３〜１３８、計算言語協会出版、１９９４を参照］から得られ、値が［０，１］の範囲である。ＷＵＰ類似性は２つの単語の分類ツリーにおける最下位の共通祖先の深さに基づいて２つの単語の類似性を測定する。閾値を有するＷＵＰスコアは、全ての生成された解答とグランドトゥルース解答の重み低下されたＷＵＰＳスコアの平均値である。２つの単語のＷＵＰＳスコアＳ_ｗｕｐｓが閾値より低い場合、重み低下されたＷＵＰＳスコアは０．１Ｓ_ｗｕｐｓである。２つの単語のＷＵＰＳスコアＳ_ｗｕｐｓが閾値の以上である場合、重み低下されたＷＵＰＳはＳ_ｗｕｐｓである。実験では、閾値０．０と０．９を有するＷＵＰＳスコアは使用される。

４．ベースライン方法
本方法の実施形態と異なる基準方法を比較する。以下、すべてのベースラインモデルを示す：
１．ＶＩＳ＋ＬＳＴＭ（ＶＬ）：それはレン（Ｒｅｎ）等の人が提案したフレームワーク（Ｍ・レン（Ｍ．Ｒｅｎ）、Ｒ・キロス（Ｒ．Ｋｉｒｏｓ）及びＲ・ゼメル（Ｒ．Ｚｅｍｅｌ）の、「画像質問応答用のモデル及びデータの探索」（Ｅｘｐｌｏｒｉｎｇｍｏｄｅｌｓａｎｄｄａｔａｆｏｒｉｍａｇｅｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ）、ａｒＸｉｖ：１５０５．０２０７４．２０１５を参照）であり、当該フレームワークは画像特徴を抽出するＣＮＮを有し、当該ＣＮＮの後に次元削減レイヤが続く。次に、画像特徴を質問単語埋め込みシーケンスのヘッダに挿入して質問ＬＳＴＭの入力とする。
２．２−ＶＩＳ＋ＢＬＳＴＭ（２ＶＢ）：画像特徴は単語埋め込みシーケンスの先頭及び末端でコーディングされる。その上、レン（Ｒｅｎ）等が提案したフレームワークにおけるＬＳＴＭは前方と後方へ入るように設定される。
３．ＩＭＧ＋ＢＯＷ（ＩＢ）：レン（Ｒｅｎ）等の人はＢａｇ−ｏｆ−Ｗｏｒｄｓ特徴を使用して密集質問埋め込みを生成する。
４．ＩＭＧ：画像特徴だけが質問応答に用いられる。それは「聴覚障害」モデルと呼称される。
５．ＬＳＴＭ：ＬＴＭからの密集質問埋め込みだけで解答を生成する。それは「視覚障害」モデルと呼称される。
６．ＥＮＳＥＭＢＬＥ：レン（Ｒｅｎ）等の人は以上のすべての方法を使用して融合モデルを評価する。
７．Ｑ＋Ｉ：アントール（Ａｎｔｏｌ）等の人（Ｓ・アントール（Ｓ．Ａｎｔｏｌ）、Ａ・アグラワール（Ａ．Ａｇｒａｗａｌ）、Ｊ・ル（Ｊ．Ｌｕ）、Ｍ・ミッチェル（Ｍ．Ｍｉｔｃｈｅｌｌ）、Ｄ・バトラ（Ｄ．Ｂａｔｒａ）、Ｃ・Ｌ・ジットニック（Ｃ．Ｌ．Ｚｉｔｎｉｃｋ）及びＤ・パリーク（Ｄ．Ｐａｒｉｋｈ）の、「ＶＱＡ：視覚質問応答」（ＶＱＡ：Ｖｉｓｕａｌｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ）、ａｒＸｉｖプレプリントａｒＸｉｖ：１５０５．００４６８、２０１５を参照）は密集質問埋め込みと画像特徴の両方を使用してマルチクラス分類器を訓練して質問応答を実現する。
８．Ｑ＋Ｉ＋Ｃ：Ｑ＋Ｉモデルと類似して、Ｑ＋Ｉ＋Ｃモデルはラベルされた画像キャプションの密集埋め込みを追加入力とする。
９．ＡＳＫ：マリナウスキ（Ｍａｌｉｎｏｗｓｋｉ）等の人（Ｍ・マリナウスキ（Ｍ．Ｍａｌｉｎｏｗｓｋｉ）及びＭ・フリツー（Ｍ．Ｆｒｉｔｚ）、「君のニューラルに質問する：画像に関する質問応答用のニューラルに基づく方法（Ａｓｋｙｏｕｒｎｅｕｒｏｎｓ：Ａｎｅｕｒａｌ−ｂａｓｅｄａｐｐｒｏａｃｈｔｏａｎｓｗｅｒｉｎｇｑｕｅｓｔｉｏｎｓａｂｏｕｔｉｍａｇｅｓ）、ａｒＸｉｖプレプリントａｒＸｉｖ：１５０５．０１１２１、２０１４を参照」はＬＳＴＭデコーダーにおいてＣＮＮ特徴と質問埋め込みを線形結合することで解答を生成する。

５．結果及び分析
表２、４及び５は各モデルのＴｏｒｏｎｔｏＣＯＣＯ−ＱＡデータセット、ＤＱ−Ｒｅｄｕｃｅｄデータセット及びＤＱ−Ｆｕｌｌデータセットでの性能を示す。表３は各クラスにおける異なる方法のＴｏｒｏｎｔｏＣＯＣＯ−ＱＡデータセットでの性能を分解する。

表２には、ＶＧＧ特徴マップ（ＡＹＹ）だけが使用されているＡＢＣ−ＣＮＮはレン（Ｒｅｎ）等の人（Ｍ・レン（Ｍ．Ｒｅｎ）、Ｒ・キロス（Ｒ．Ｋｉｒｏｓ）及びＲ・ゼメル（Ｒ．Ｚｅｍｅｌ）の、「画像質問応答用のモデル及びデータの探索」（Ｅｘｐｌｏｒｉｎｇｍｏｄｅｌｓａｎｄｄａｔａｆｏｒｉｍａｇｅｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ）、ａｒＸｉｖ：１５０５．０２０７４．２０１５を参照）による単一モデルのうちの大多数より優れる。ＨＳＶ特徴マップとＶＧＧ特徴マップ（ＡＴＴ−ＨＳＶ）を組み合わせることによって、ＡＢＣ−ＣＮＮの性能はすべてのベースラインモデルより優れる。単一モデルだけを使用するが、ＡＢＣ−ＣＮＮは解答正確性がＥＮＳＥＭＢＬＥモデルに比べて０．２％高い。質問でガイドされた注目が質問セマンティクス及び画像中のコンテキスト情報を活用させて質問を回答するため、ＡＢＣ−ＣＮＮは「対象」、「数」及び「位置」分類においてベースライン方法より優れる。ＡＢＣ−ＣＮＮの正確さは「色」分類においてＩＢとＥＮＳＥＭＢＬＥモデルよりやや低い。

更に、完全畳み込みモデルＡＴＴ−ＳＥＧ−ＨＳＶの性能がＶＧＧモデルＡＴＴ−ＨＳＶより優れるが、完全畳み込みニューラルネットワークによる特徴マップ抽出の速度がはるかに高いことが発見された。ＶＧＧ、ＳＥＧ及びＨＳＶ特徴（ＡＴＴ−ＶＧＧ−ＳＥＧ−ＨＳＶ）の組み合わせによって最適な性能が得られる。具体的には、完全畳み込みモデルの追加は正確に位置質問を回答することに寄与する。ＡＢＣ−ＣＮＮにおける注目（ＮＯ−ＡＴＴ）もアブレーション実験（ａｂｌａｔｉｖｅｅｘｐｅｒｉｍｅｎｔ）として除去され、且つそれによって、正確さについて１．３４％、０．８５％及び０．３５％低下させることと、ＷＵＰＳ０．９及びＷＵＰＳ０．０のスコアになることとをそれぞれ引き起こす。

表４には、ＡＢＣ−ＣＮＮモデルとベースラインモデルをＤＱ−Ｒｅｄｕｃｅｄデータセットにおいて比較される。ＡＢＣ−ＣＮＮモデルの性能はすべてのメトリクスにおいてすべての単一モデルより高い。ＷＵＰＳ０．９測定では、ＡＢＣ−ＣＮＮモデルはＥＮＳＥＭＢＬＥモデルより０．５３％しか低下しない。

ＤＱ−ＦｕｌｌとＶＱＡデータセットにおいて、ＡＢＣ−ＣＮＮは表５と表６のデータセットにおいて従来の技術案より優れる。ＤＱ−Ｆｕｌｌデータセットにおいて、ＡＢＣ−ＣＮＮモデルはＴｏｒｏｎｔｏＣＯＣＯ−ＱＡデータセットとＤＱ−Ｒｅｄｕｃｅｄデータセットにおけるモデルと同様である。ＶＱＡデータセットにおいて、公正に評価するため、アントール（Ａｎｔｏｌ）等の人（Ｓ・アントール（Ｓ．Ａｎｔｏｌ）、Ａ・アグラワール（Ａ．Ａｇｒａｗａｌ）、Ｊ・ル（Ｊ．Ｌｕ）、Ｍ・ミッチェル（Ｍ．Ｍｉｔｃｈｅｌｌ）、Ｄ・バトラ（Ｄ．Ｂａｔｒａ）、Ｃ・Ｌ・ジットニック（Ｃ．Ｌ．Ｚｉｔｎｉｃｋ）及びＤ・パリーク（Ｄ．Ｐａｒｉｋｈ）の、「ＶＱＡ：視覚質問応答」（ＶＱＡ：Ｖｉｓｕａｌｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ）、ａｒＸｉｖプレプリントａｒＸｉｖ：１５０５．００４６８、２０１５を参照）のように１０００個の最頻出解答（ＡＴＴ１０００）を含む解答辞書が使用される。ＡＢＣ−ＣＮＮモデルは更に、すべての解答（ＡＴＴＦｕｌｌ）を含む解答辞書で評価される。

図７には、生成された質問でガイドされた注目マップ及びそれに対応した画像と質問の一部が示される。異なる注目領域を有する異なる質問の意図が質問でガイドされた注目マップでうまくキャプチャーされることが観察される。これら注目マップを使用して、注目の焦点を重要な領域に合わせて無関係の情報をフィルタリングすることによって、ＡＢＣ−ＣＮＮは更に正確な解答を生成できる。原特徴マップが解答を予測する時にも提供されるため、質問対象が画像中の対象（例えば「山坂の草に横になっているのは何ですか？」）だけである場合、ＡＢＣ−ＣＮＮは注目マップを使用せずに質問を回答することができる。

Ｅ．システムの実施形態
実施形態において、本特許文献の様々様態は情報処理システム/計算システムに関してもよく、情報処理システム/計算システムにおいて実施されてもよい。本出願の目的として、計算システムは、商業、科学、制御又は他の目的に基づいて解答、計算、確定、分類、処理、輸送、受信、検索、開始、ルーティング、切替、記憶、表示、伝送、出現、検出、記録、コピー、操作又は任意の様態として操作された情報、インテリジェンス又はデータの任意の装置又は装置セットを含んでもよい。例えば、計算システムはパーソナルコンピュータ（例えば、ラップトップコンピュータ）、タブレットコンピュータ、タブレット電話、パーソナルディジタルアシスタント（ＰＤＡ）、スマートフォン、スマート腕時計、スマートパッケージング、サーバー（例えば、ブレードサーバー又はラックマウント型サーバー）、ネットワーク記憶設備又は任意の他の適切な設備であってもよく、更に大きさ、形状、性能、機能及び価格が変化してもよい。計算システムはランダムアクセスメモリ（ＲＡＭ）、１つ又は複数の処理リソース（例えば、中央処理装置（ＣＰＵ）又はハードウェア又はソフトウェア制御ロジック）、ＲＯＭ及び/又は他のタイプのメモリを含んでもよい。計算システムにおける付加的構成要素は１つ又は複数のディスクドライブ、外部設備と通信するための１つ又は複数のネットワークポート、及び例えばキーボード、マウス、タッチスクリーン及び/又はビデオディスプレーの各種の入力及び出力（Ｉ/Ｏ）設備を含んでもよい。計算システムは更に各ハードウェア校正要素の間で通信できるように操作される可能な１つ又は複数のバスを含んでもよい。

図８は、本出願の実施形態に係る計算設備/情報処理システム（又は計算システム）の簡略化したブロック図を示す。情報処理システムが異なって配置されてもよく、異なるアセンブリを含んでもよいことを理解することができるが、システム８００に示す機能に対して情報処理システムをサポートする各実施形態に操作されてもよいことを理解すべきである。

図８に示すように、システム８００は、計算リソースを提供するとともにコンピュータを制御する１つ又は複数の中央処理装置（ＣＰＵ）８０１を含む。ＣＰＵ８０１はマイクロプロセッサ等を利用して実現されてもよく、且つ１つ又は複数のグラフ処理ユニット（ＧＰＵ）８１７及び/又は数学計算に用いられる浮動小数点コプロセッサを更に含んでもよい。システム８００はシステムメモリ８０２を更に含んでもよく、システムメモリ８０２はランダムアクセスメモリ（ＲＡＭ）又は読み取り専用メモリ（ＲＯＭ）の様態であってもよく、又はＲＡＭとＲＯＭの様態であってもよい。

図８に示すように、複数のコントローラ及び周辺設備をさらに提供してもよい。入力コントローラ８０３は例えばキーボード、マウス又はライトペンへの各種の入力設備８０４のインターフェースを示す。スキャナー８０６と通信するスキャナーコントローラ８０５を更に有してもよい。システム８００は、１つ又は複数の記憶設備８０８とインタラクションするためのメモリコントローラ８０７を更に含んでもよく、１つ又は複数の記憶設備８０８の中のそれぞれはいずれも例えば磁気テープ又はＣＤの記憶媒体を含み、又は記録操作システム、ユーティリティプログラム及びアプリケーションに用いることができる指令プログラムを含む光学媒体を更に含んでもよく、ここで、アプリケーションは本出願の各様態のプログラムを実現する実施形態を含んでもよい。本出願によれば、記憶設備８０８は更に既に処理されたデータ又は処理しようとするデータを記憶することに用いられてもよい。システム８００は表示設備８１１にインターフェースを提供するためのディスプレーコントローラ８０９を更に含んでもよく、表示設備８１１は陰極線管（ＣＲＴ）、薄膜トランジスタ（ＴＦＴ）ディスプレー又は他のタイプのディスプレーであってもよい。計算システム８００は更にプリンター８１３と通信するためのプリンターコントローラ８１２を含んでもよい。通信コントローラ８１４は１つ又は複数の通信設備８１５にインタラクションすることができ、通信設備８１５によりシステム８００はインターネット、クラウドリソース（例えば、イーサネット（登録商標）クラウド、イーサネット上のファイバチャネル（ＦＣｏＥ）/データセンターブリッジング（ＤＣＢ）クラウド等）、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、記憶領域ネットワーク（ＳＡＮ）の多種のネットワークにおける任意のネットワークを含むか又は赤外線信号の任意の適切な電磁キャリア信号を含むことによりリモート設備に接続される。

示されるシステムにおいて、すべての主なシステムアセンブリはバス８１６に接続されてもよく、バス８１６は１つ以上の物理バスを示すことができる。しかし、各種のシステムアセンブリは互いに物理的に隣接してもよく、又は互いに物理的に隣接する必要がない。例えば、入力データ及び/又は出力データは１つの物理位置から他の物理位置にリモート伝送されることができる。なお、本出願の各様態を実現するプログラムはネットワークでリモート位置（例えば、サーバー）からアクセスすることができる。当該データ及び/又はプログラムは多種の機械読み取り可能な媒体における任意の媒体により伝送されてもよく、機械読み取り可能な媒体は、例えばハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、例えばＣＤ-ＲＯＭ及びホログラフィー設備のような光学媒体、光磁気媒体、及び例えば特定用途向け集積回路（ＡＳＩＣ）、プログラム可能なロジック設備（ＰＬＤ）、フラッシュメモリデバイス及びＲＯＭとＲＡＭ設備のような特別にプログラムコードを記憶又は記憶して実行するように構成されるハードウェア設備を含むが、これらに限定されない。

１つ又は複数のプロセッサ又は処理ユニットに対して、本出願の実施形態は指令を利用して１つ又は複数の非一時的コンピュータ可読媒体でコーディングすることにより、各ステップを実行することができる。１つ又は複数の非一時的コンピュータ可読媒体は揮発性及び不揮発性メモリを含むべきであることを注意すべきである。代替の実施例でもよく、ハードウェア実現方式又はソフトウェア/ハードウェア実現方式を含むことを注意すべきである。ハードウェア実現の機能はＡＳＩＣ、プログラマブルアレイ、デジタル信号処理回路等を利用して実現することができる。このため、任意の請求項において、用語「装置」はソフトウェア実現方式をカバーするだけではなく、ハードウェア実現方式もカバーする。類似するように、本文に使用された用語「コンピュータ可読媒体」はその上で実行される指令プログラムを有するソフトウェア及び/又はハードウェア、又はソフトウェア及びハードウェアの組み合せを含む。これらの実現態様の代替態様を考えて、図面及び付いている説明が機能情報を提供し、当業者はプログラムコード（即ち、ソフトウェア）をプログラミングすること及び/又は回路（即ち、ハードウェア）を製造することで必要な処理を実行する必要があることを理解すべきである。

本出願の実施形態は更に非一時的有形のコンピュータ可読媒体を有するコンピュータ製品に関してもよく、当該コンピュータ可読媒体には各種のコンピュータで実現される操作を実行するためのコンピュータコードを有することを注意すべきである。媒体及びコンピュータコードは本出願の目的に基づいて専門に設計して構造する媒体及びコンピュータコードであってもよく、又は関連分野の当業者が公知するか又は取得するできるタイプであってもよい。有形のコンピュータ可読媒体の例示は、例えばハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、例えばＣＤ-ＲＯＭ及びホログラフィー設備のような光学媒体、光磁気媒体、及びプログラムコードを記憶又は記憶して実行するように専門に配置されたハードウェア設備、例えば特定用途向け集積回路（ＡＳＩＣ）、プログラム可能なロジック設備（ＰＬＤ）、フラッシュメモリデバイス及びＲＯＭとＲＡＭ設備を含むが、これらに限定されない。コンピュータコードの例示は、例えばコンパイラで生成されたマシンコード、及びコンピュータがインタプリタを利用して実行する上級コード（higher level code）のファイルを含む。本出願の実施形態は処理設備で実行されるプログラムモジュールに位置してもよいマシン実行可能な指令として全体的又は部分的に実施されることができる。プログラムモジュールの例示は、ベース、プログラム、ルーチン、オブジェクト、アセンブリ及びデータ構造を含む。分散式計算環境において、プログラムモジュールは物理的にローカル、リモート又は両者の環境に設置されてもよい。

当業者は、計算システム又はプログラミング言語が本出願の実施に対して非常に重要なものではないことを理解すべきである。当業者は、多くの上記素子が物理的及び/又は機能的にサブモジュールに分けられるか又は統合されることを認識すべきである。

なお、前記例、実施形態及び実験は、例示的なもので、本出願の範囲を制限するのではなく、明瞭さと理解のためである。本明細書を読んで図面を研究した当業者であれば、本出願のすべての代替、置換、強化、同等、組合せ又は改良が本出願の範囲内に含まれることが分かる。従って、添付されている特許請求の範囲において断らない限り、特許請求の範囲は、本出願の実際な精神及び範囲内におけるすべての上記した代替、置換、強化、同等、組合せ又は改良を含む。なお、添付される請求項における要素は異なって設置されてもよく、複数の依存、配置及び組み合わせを含む。例えば、実施形態において、各請求項のサブジェクトをほかの請求項と組み合わせてもよい。

Claims

画像入力に関連する問題入力に対する解答の生成精度を改良するコンピュータ実施方法であって、
前記画像入力を受信するステップと、
前記画像入力に関連する前記問題入力を受信するステップと、
前記問題入力と前記画像入力を注目に基づく設置可能な畳み込みニューラルネットワーク（ＡＢＣ−ＣＮＮ）フレームワークに入力して解答を生成するステップとを含み、
前記ＡＢＣ−ＣＮＮフレームワークは、
前記画像入力から画像特徴マップを抽出するＣＮＮを含む画像特徴マップ抽出部と、
前記問題入力から質問埋め込みを取得するセマンティクス質問埋め込み部と、
前記画像特徴マップと前記質問埋め込みを受信して、前記問題入力で質問される領域又は複数の領域に集中する、質問でガイドされた注目マップを取得する質問ガイド注目マップ生成部と、
前記の質問でガイドされた注目マップを使用して前記画像特徴マップを重み付け、注目重み付け画像特徴マップを取得し、前記画像特徴マップ、前記質問埋め込み及び前記注目重み付け画像特徴マップの融合に基づいて解答を生成する解答生成部とを備える
ことを特徴とするコンピュータ実施方法。
前記セマンティクス質問埋め込み部は、長期短期記憶（ＬＳＴＭ）レイヤを含んで前記質問埋め込みを生成して前記問題入力の意味論的意味を特徴付けする
ことを特徴とする請求項１に記載のコンピュータ実施方法。
前記質問ガイド注目マップ生成部は、設定可能な畳み込みカーネルを含み、前記設定可能な畳み込みカーネルが、前記質問埋め込みを意味空間から視覚空間に射影することによって生成され、前記画像特徴マップと畳み込んで前記質問でガイドされた注目マップを生成することに用いられる
ことを特徴とする請求項１に記載のコンピュータ実施方法。
前記畳み込みカーネルは前記画像特徴マップの数と同じ数のチャンネルを有する
ことを特徴とする請求項３に記載のコンピュータ実施方法。
前記質問でガイドされた注目マップのサイズは前記画像特徴マップのサイズと同じである
ことを特徴とする請求項３に記載のコンピュータ実施方法。
前記画像特徴マップは、前記画像入力を複数のグリッドに分けて前記グリッドの各セルにおいてＤ次元特徴ベクトルを抽出することによって抽出される
ことを特徴とする請求項１に記載のコンピュータ実施方法。
前記画像特徴マップが前記質問でガイドされた注目マップによって空間的に重み付けられ、前記注目重み付け画像特徴マップを取得する
ことを特徴とする請求項１に記載のコンピュータ実施方法。
前記空間的な重み付けは、前記画像特徴マップと前記質問でガイドされた注目マップの各チャンネル間の要素ごとの積によって実現される
ことを特徴とする請求項７に記載のコンピュータ実施方法。
前記空間的な重み付けは、空間的な注目分布用のＳｏｆｔｍａｘ正規化によって限定される
ことを特徴とする請求項８に記載のコンピュータ実施方法。
前記ＡＢＣ−ＣＮＮフレームワークは、確率的勾配降下によってエンドツーエンド方式で予め訓練される
ことを特徴とする請求項１に記載のコンピュータ実施方法。
前記ＡＢＣ−ＣＮＮフレームワークは初期重みを有し、前記初期重みは予備訓練の期間において、前記ＡＢＣ−ＣＮＮフレームワーク内のすべてのレイヤの活性化の各次元が０平均値と一つの標準偏差を有することを確保するようにランダムに調整される
ことを特徴とする請求項１０に記載のコンピュータ実施方法。
画像に関連する質問に対して解答を生成するコンピュータ実施方法であって、
深層畳み込みニューラルネットワークを使用して複数の画素を含む入力画像から画像特徴マップを抽出するステップと、
長期短期記憶（ＬＳＴＭ）レイヤを使用して前記入力画像に関連する入力問題において密集質問埋め込みを取得するステップと、
前記密集質問埋め込みを意味空間から視覚空間に射影することによって質問で設定された複数のカーネルを生成させるステップと、
質問で設定されたカーネルと前記画像特徴マップを畳み込んで質問でガイドされた注目マップを生成するステップと、
前記の質問でガイドされた注目マップで前記画像特徴マップを空間的に重み付けることによって、マルチクラス分類器で注目重み付け画像特徴マップを取得するステップと、
前記画像特徴マップ、前記密集質問埋め込み及び前記注目重み付け画像特徴マップの融合に基づいて、前記入力問題に対して解答を生成するステップとを含んでおり、
ここで、前記注目重み付け画像特徴マップが前記入力問題に無関係の領域の重みを低下させる
ことを特徴とするコンピュータ実施方法。
前記空間的に重み付けることは、前記画像特徴マップと前記質問でガイドされた注目マップの各チャンネル間の要素ごとの積によって実現される請求項１２に記載の方法。
前記質問でガイドされた注目マップは、前記入力問題に応じて適応的に各画素の注目度を示す請求項１２に記載の方法。
前記の質問でガイドされた注目マップは、前記質問で設定されたカーネルを前記画像特徴マップに応用することによって取得される請求項１２に記載の方法。
前記画像特徴マップ、前記密集質問埋め込み及び前記注目重み付け画像特徴マップは非線形射影によって融合される請求項１２に記載の方法。
前記非線形射影は、要素ごとにスケーリングされた双曲線正接関数である請求項１６に記載の方法。
一つ又は複数のプロセッサにより実行されるときに、以下の操作を実行させる一つ又は複数の命令シーケンスを含んでおり、前記操作は
問題入力の受信に応答して、前記問題入力の密集質問埋め込みを抽出するステップと、
前記問題入力に関連する画像入力の受信に応答して、画像特徴マップを生成するステップと、
少なくとも前記画像特徴マップと前記密集質問埋め込みに基づき、前記問題入力で質問される領域に選択的に集中する、質問でガイドされた注目マップを生成するステップと、
前記質問でガイドされた注目マップで前記画像特徴マップを空間的に重み付けて注目重み付け画像マップを取得するステップと、
セマンティクス情報、前記画像特徴マップ及び前記注目重み付け画像マップを融合して前記問題入力に対して解答を生成するステップとを含む
ことを特徴とする非一時的コンピュータ可読媒体又はメディア。
質問でガイドされた注目マップの生成は、前記注目マップの空間的な注目分布についてＳｏｆｔｍａｘ正規化を行うステップを更に含む
ことを特徴とする請求項１８に記載の非一時的コンピュータ可読媒体又はメディア。
質問でガイドされた注目マップの生成は、前記密集質問埋め込みに基づいて一組の畳み込みカーネルを配置し、更に前記畳み込みカーネルを前記画像特徴マップに応用し、質問でガイドされた注目マップを生成するステップを含む
ことを特徴とする請求項１９に記載の非一時的コンピュータ可読媒体又はメディア。