JP7193252B2 - 画像の領域のキャプション付加 - Google Patents
画像の領域のキャプション付加 Download PDFInfo
- Publication number
- JP7193252B2 JP7193252B2 JP2018088032A JP2018088032A JP7193252B2 JP 7193252 B2 JP7193252 B2 JP 7193252B2 JP 2018088032 A JP2018088032 A JP 2018088032A JP 2018088032 A JP2018088032 A JP 2018088032A JP 7193252 B2 JP7193252 B2 JP 7193252B2
- Authority
- JP
- Japan
- Prior art keywords
- word embedding
- input
- component
- signature
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Description
以下の論文が画像キャプション付けに関連しており、以降で言及している。
・前記関数は前記入力画像と前記入力領域との組み合わせの署名を決定するように構成された第1の成分と、前記組み合わせの前記署名に基づき前記出力キャプションを生成するよう構成された第2の成分とを含む。
・前記第2の成分は、前記出力キャプションを反復的に生成するように構成されている。
・前記第2の成分は、1つまたは複数の再帰型ニューラルネットワークを含む。
・前記1つまたは複数の再帰型ニューラルネットワークは、1つまたは複数の長短期記憶(Long Short-Term Memory)ニューラルネットワークを含む。
・前記第2の成分は、さらに単語埋め込み空間に基づいて前記出力キャプションを生成するように構成されている。
・前記第2の成分は、第1の再帰型ニューラルネットワークと、第2の再帰型ニューラルネットワークと、単語埋め込み層とを含んでおり、前記第1の再帰型ニューラルネットワークは、各入力単語埋め込みベクトルに基づいて出力単語埋め込みベクトルを再帰的に生成するように構成されており、前記第1の再帰型ニューラルネットワークについての前記入力単語埋め込みベクトルは、前記第2の再帰型ニューラルネットワークとそれに続く前記単語埋め込み層との合成物の出力であり、前記第2の再帰型ニューラルネットワークは、各入力単語埋め込みベクトルと前記組み合わせの前記署名とに基づいて出力単語埋め込みベクトルを再帰的に生成するように構成されており、前記第2の再帰型ニューラルネットワークについての前記入力単語埋め込みベクトルは前記第1の再帰型ニューラルネットワークの出力であり、前記単語埋め込み層は各入力単語埋め込みベクトルに基づいて出力単語埋め込みベクトルを生成するように構成されており、前記単語埋め込み層についての前記生成された単語埋め込みベクトルは、単語埋め込み空間において表現される最も確率の高い語彙の単語に対応する単語埋め込みベクトルである。
前記第1の成分は、前記入力画像の署名を抽出するように構成された成分と、前記入力領域の署名を抽出するように構成された成分と、前記入力画像の前記署名を前記入力領域の前記署名と組み合わせるように構成された成分とを含む。
・各畳み込みニューラルネットワークは重みを共有する。
・前記入力画像の前記署名を前記入力領域の前記署名と組み合わせるように構成された前記成分は、連結成分、または加算成分、および/または、全結合層を含む。かつ/あるいは、
・前記学習することは、前記第1の成分を学習することと、次いで前記第2の成分の少なくとも一部を学習することとを含む。
以下、非限定的な例として、本発明の実施の形態を添付の図面を参照しつつ説明する。
本例のクライアントコンピュータは、内部通信バス1000に接続された中央演算処理装置(CPU)1010、および同じくバスに接続されたランダムアクセスメモリ(RAM)1070とを備える。クライアントコンピュータは、さらに、バスに接続されたビデオランダムアクセスメモリ1100と関連付けられたグラフィックス処理装置(GPU)1110を備える。ビデオRAM1100は、当該技術分野において、フレームバッファとしても知られる。大容量記憶装置コントローラ1020は、ハードドライブ1030などの大容量記憶装置へのアクセスを管理する。コンピュータプログラムの命令及びデータを具体的に実現するのに適した大容量メモリ装置は、例として、EPROM、EEPROM及びフラッシュメモリ装置のような半導体メモリ装置、内蔵ハードディスクやリムーバブルディスクなどの磁気ディスク、光磁気ディスク、およびCD-ROMディスク1040を含む、全ての形式の不揮発性メモリを含む。前述のいずれも、特別に設計されたASIC(特定用途向け集積回路)によって補完されてもよいし、組み入れられてもよい。ネットワークアダプタ1050は、ネットワーク1060へのアクセスを管理する。クライアントコンピュータはまた、カーソル制御装置、キーボードなどの触覚装置1090を含んでいてもよい。カーソル制御装置は、ユーザがディスプレイ1080上の任意の所望の位置にカーソルを選択的に位置させることを可能にするために、クライアントコンピュータ内で使用される。さらに、カーソル制御装置は、ユーザが様々なコマンドを選択し、制御信号を入力することを可能にする。カーソル制御装置は、システムに制御信号を入力するための多数の信号生成装置を含む。典型的には、カーソル制御装置はマウスであってもよく、マウスのボタンは信号を生成するために使用される。あるいは、または追加的に、クライアントコンピュータシステムは、感知パッドおよび/または感知スクリーンを備えてもよい。
画像は、例えばシーン上の、物理的信号の空間分布を表すデータ構造である。空間分布は、任意の次元のものであってよく、例えば2Dあるいは3Dである。空間分布は、例えばグリッドを形成し、それによってピクセルを定義するなど、任意の形状であってもよく、グリッドは場合により非規則的または規則的である。物理的信号は、画像がRGB画像またはグレースケール画像となるような、例えば色やグレーレベルなど、任意の信号であってもよい。画像は合成画像であってもよいし、あるいは写真のような自然画像であってもよい。データセットの画像、および/または、関数が適用されることが考えられる画像は、例えばすべてが矩形の2DのRGB画像、あるいはグレースケール画像であるなど、すべて同じタイプであってもよい。あるいは、異なる画像タイプの集合を考えてもよい。
・メディア表現のための特徴抽出:ユーザが提供するメディアは、そこから単語のシーケンスを生成するモデルにとっては、それ自体理解できなくてもよい。そのメディアから、特徴抽出処理によって署名を取得する必要があってもよい。そのような特徴は、記述子から得られた、設計された特徴であってもよいし、機械学習モデルによって学習されてもよい。ディープラーニング、特に画像や動画のようなメディア分析のための畳み込みニューラルネットワークにおける近年の進歩は、特徴学習において良好な結果をもたらす。
・自然言語処理:人間の言語を理解できるアルゴリズムの設計において、多くの進歩が達成されている。これらのモデルのポイントは、人間の言語を理解し、また、関連する文を生成できることである。これは近年まで、文のパーサーを統合し、文の意味表現および依存構造を取得する(すなわち、異なる品詞タグ付けとそれらの関係を区別する)モデルを構築することにより、多くのエンジニアリングによって実現していた。近年のディープラーニングの進歩により、言語の規則を学習することができるディープラーニングモデルを訓練することによって、この工程をすべて自動的に実行することができる。そのようなモデルは、特定の言語の文のデータセットで訓練するだけで、その言語で文を理解し生成することができるようになる。
密なキャプション付けの分野に関連する方法同様、本方法は同種のパターンに従うフレームワークの範疇に入る:集中的な演算が実行され得るオフライン段階と、ユーザの待ち時間を最小限に抑えるため、パフォーマンスが重要なオンライン段階とを有する。
・まず、ユーザによって提供されたメディアが分析されてもよく、第1のプロセスがこのメディアに固有の識別子を出力する。この識別子は、当該技術分野で「署名」または「特徴」と呼ばれる。パフォーマンスのため、署名は通常、メディアのより小さい寸法による表現である。例えば、歌の検索においては、署名は、記録された曲のパワースペクトルにおける最大の高調波の集合であってもよい。
・次いで、署名は、そこから文を生成する第2の工程に転送される。これは文を生成するために訓練された再帰型ニューラルネットワークによって実行される。オンライン段階では、文の生成には、モデルへの入力として与えられるメディアの署名によって、バイアスがかかる。このように生成された文は、メディアのコンテンツに密接に関連し、メディアの説明として解釈される。
オフライン段階は、画像と、画像内の領域と、領域の説明とからなる、提供された3つ組のデータセットに基づく、2段階の工程とみなすことができる。
一例においては、関数の主な目的は、画像内の領域の説明を言語的な文の形式で与えることである。画像が低次元コードに符号化され、次いで、言語モデルによって復号されて単語のシーケンスを生成するエンコーダ/デコーダフレームワークを用いてもよい。本方法は、エンコーダにおいて2D特徴抽出のため、効率的な畳み込みニューラルネットワークを活用してもよい。デコーダについては、本方法は、シーケンス生成のため、効率的な再帰型ニューラルネットワークを活用してもよい。
密なキャプション付けは、画像内の領域を、人間に理解可能な文(単語のシーケンス)によって説明するという課題を含む。これは、まず領域に関連する署名を抽出し、次いで、その署名から単語シーケンスを生成して対象となる領域を説明する、モデルのパラメータを学習することからなる。
畳み込みニューラルネットワーク(論文「LeCun et al.Convolutional Networks for Images,Speech,and Time-Series」に記載)は、下位層のニューロンが畳み込みフィルタに置き換えられた、ディープニューラルネットワークの特別なケースである。これは、畳み込みフィルタの一例を示す図4に示されている。これらのフィルタは入力のどこにでも適用され、出力として特徴マップが与えられる。この特徴マップは、入力の特定のパターンがフィルタによって認識された、活性化領域を示す。いくつかの畳み込み層を積み重ねるときのディープラーニングの利点は、記述子によって得られる基本的な特徴よりも洗練された、非常に複雑だが強力な特徴を抽出する方法を提供することである。
第1段階(上述のように「オフライン」段階と呼ぶことができる)は、ディープニューラルネットワーク、特にメディア内の特徴を抽出するための畳み込みニューラルネットワーク、および、それらの特徴から文を生成するための再帰型ニューラルネットワークに大きく依存していてもよい。「オフライン」という用語は、この段階が本方法のユーザにとって透過的であり、大規模な演算が必要な場合であっても演算を行う時間をとることができるという事実を指す。この部分では、これらのネットワークのパラメータが学習されてもよく、これがすべてについて実行されてもよい。学習工程は、2つのステップで実行されてもよい:第1に、言語モデルを得るために再帰型ニューラルネットワークのパラメータが学習され、第2に、どのようにメディアのコンテクストの特徴を抽出し、再帰型ニューラルネットワークの学習を特徴抽出工程に適合させるかを理解するために、畳み込みニューラルネットワークのパラメータが、再帰型ニューラルネットワークと共に学習されてもよい。
領域キャプション付け工程の第1の柱は、言語モデリングであってもよい。言語は、画像の領域を説明するキャプションから学習してもよい。これは、生成されたキャプションが正しく、人間によって理解可能であることを確実にするために、可能な限り高い精度で学習してもよい。領域キャプション付け処理の全体的なアーキテクチャはエンドツーエンドのアプローチで学習することができるが、言語モデルだけを学習し、次いでパラメータを微調整して全体的なモデルにすることで、パフォーマンスが向上することがわかった。
1.データセットからのキャプションの前処理
2.生成モードにおける再帰型ニューラルネットワークの訓練
データセットからのキャプションの前処理は、言語モデルの良好な学習を可能にし得る。
元のデータセットでは、文は文字列の形式であってもよい。トークナイザは、最初にこれらの文をトークン化してもよい。すなわち、異なる語を分離し、それらを小文字にしてもよい。実際、コンピュータの観点では、文字列“Car”と“car”は同じではない可能性がある。さらに、句読点や特別な単語/頭字語を扱うように構成されている可能性があるため、トークナイザを設計するときには多くの作業が行われる可能性がある。例えば、トークナイザは“U.S.”と“US”を同じトークンとみなす必要がある可能性がある。
言語モデルの訓練は、再帰型ニューラルネットワークを生成モデルとして考えることによって行ってもよい。
自然言語処理では、LSTMにワン・ホット・ベクトル(すなわち、対象となる単語のインデックス以外においてすべてが0の、語彙のサイズのベクトル)で表される単語を扱わせるのは、時間がかかり過ぎ、演算上、効率的ではない。実際、その場合、ベクトルのサイズは語彙のサイズになり、LSTMの定義にあまりにも多くのパラメータが必要になる。その代わりに、本方法で行い得ることは、ある埋め込み空間に単語を埋め込むことである。そのような空間は、単語の意味を反映し、その意味によってそれらをクラスタ化するため、興味深い特性を有する。単語の埋め込みという概念は、特にGoogleがWord2VecTMを立ち上げたことにより、2013年に実際に関心を集めた。これは、スキップ・グラムと呼ばれるネガティブ・サンプリングを用いた具体的なアプローチによりGoogle NewsTMで学習したモデルである(論文「T.Mikolov et al.Distrbituted Representations of Words and Phrases and their Compositionality」に記載)。ここで、本方法は、代わりにLSTMを用いた別のアプローチで単語埋め込みを学習してもよい。
・LSTMの出力は、単語埋め込み空間内の点である。
・このとき、予測された単語は、その埋め込み表現が、予測された点に最も近い単語である。
・予測された単語の埋め込み表現は、次いで、次の単語を予測するためにLSTMの入力に供給される。
領域キャプション付けの第2の基本的な柱は、メディアからの特徴抽出であってもよい。この特徴は、LSTMの文予測にバイアスを与え領域を説明する文を生成させるために、後に、LSTMへの入力として与えられてもよい。ここで本方法が主に貢献する点は、メディア内の領域の周囲によってコンテクスト化された注目領域の特徴を考慮することであってもよい。このように、本方法は、メディア内の注目領域のコンテクスト的特徴を取得し、また、その領域の周囲の情報を考慮に入れるため、より多くの特徴が得られる。
メディアの特徴抽出工程は、取り得るアプローチがいくつかある困難な処理である。ディープラーニングが導入される以前には、これはSIFTやSURFのような、設計された特徴を与える記述子を用いて行われた。もともと、これらの特徴は画像の低レベルの署名を提供していた:記述子は、物体の輪郭のような低レベルの要素が検出された画像内の活性化領域を示す特徴マップを与える。
領域の署名を設計する際、注目領域内の情報のみを考慮すると、領域のコンテクストによって与えられる多くの情報が失われる。これは、画像内の領域のサイズが小さい場合に特に当てはまる:そのような場合、CNNは、あまりたくさんの特徴を捉えられない可能性がある。
領域の特徴の品質を改善するため、本方法では、それを、画像内の領域の周囲で抽出されたコンテクストの特徴と組み合わせてもよい。これは、領域の画像から第1のCNN(領域CNNとも呼ぶ)によって抽出された特徴と、その領域およびその周囲の領域を含む画像から第2のCNN(コンテクストCNNとも呼ぶ)によって抽出された特徴とを組み合わせることによって行われる。
・連結:領域の特徴ベクトルと周囲の領域の特徴ベクトルとを連結して、コンテクスト特徴ベクトルを表すベクトルとする。
・加算:領域の特徴ベクトルと周囲の領域の特徴ベクトルとを合計して、コンテクスト特徴ベクトルを表すベクトルとする。
・全結合層の利用:領域の特徴ベクトルと周囲の領域の特徴ベクトルとを連結して1つのベクトルとし、その連結ベクトルの上に全結合層を追加する。この結果、コンテクスト特徴ベクトルを表す別のベクトルが得られる。
ここで、特徴抽出と言語モデリングの両方についてモデルをエンドツーエンドで訓練する方法の例について説明する。
ネットワークにおける特徴の抽出および組み合わせの訓練は、言語モデリング部分からのLSTMの訓練と共に実行されてもよい。これはすべてエンドツーエンドで行ってもよい。本方法は、言語モデリング部分だけで学習されたパラメータから、LSTMのパラメータを微調整してもよい。したがって、訓練のこの部分では、入力として与えられた領域および周囲のコンテクストからキャプションを生成するために、モデル全体を学習してもよい。
したがって、ネットワークのパラメータは、内部に指定された領域およびそれらの領域を説明するキャプションを有する多数の画像で学習してもよい。そのような3つ組の集合(全体画像、領域画像、キャプション)は訓練データセットを表す。キャプションは、言語モデリングについて説明したのと同様に前処理されているため、ここでは画像のサイズやキャプションの特性を制約する必要はない可能性がある。
T=0(繰り返しの1回目)において、文頭を示す単語埋め込みベクトルh <BOS>がLSTM1に入力され、キャプション付け工程が初期化される。LSTM1の出力はLSTM2に入力として渡され、LSTM2には、別の入力として、組み合わせの署名230も提供される。次いで、LSTM2は、単語埋め込み層に入力された単語埋め込みベクトルを出力し、次に、単語埋め込み層が、語彙の各単語が生成される確率のベクトルを出力する(例を単純にするため、語彙は3つの単語、すなわち「<EOS>」と、「バス(bus)」と、「駐車(parking)」とに絞っている)。次いで、単語「バス」が生成される。なぜなら、これが確率が最も高い単語であるからである。
T=2(繰り返しの最後)では、同じ工程が実行され、単語埋め込み層の出力が、工程の終了を示す<EOS>となることが観察される。
こうして、この時点において、図2の画像210の領域220に対応するキャプション「駐車されたバス(parked bus)」が関数によって生成されると本工程は終了する。
この関数は、データベース「Visual Genome」に基づき、サブ領域>100pxに基づいて学習された(表に示されたすべてのモデルがこのデータベースで訓練されテストされた)。
Bleu-n(n=1・・・4):これは、生成されたキャプションと参考キャプションの両方に現れるn-gramの割合である数量を算出する一般的なNLP評価尺度である。あまりにも短い文にはペナルティを科すペナルティ係数が、この数量に掛け合わされる。
METEOR:これは言語に固有の評価尺度である。候補文と生成された文とを、単語の同義性を感知する単語ごとのマッチングで比較する。
Rouge-L:これは、候補文と生成された文とを、これら2つにおける最も長い共通サブシーケンスに着目することにより比較する尺度である。
CIDEr:これは合意に基づく評価尺度であり、文における単語が原形に変換され、これら変換された文におけるn-gramの集合が比較される。
Claims (12)
- それぞれが画像と当該画像の領域と当該領域のキャプションとを含む、3つ組のデータセットを提供するステップと、
入力画像と当該入力画像の入力領域とに基づいて出力キャプションを生成するように構成された関数を、前記3つ組のデータセットを用いて学習するステップと
を有することを特徴とする、画像の領域のキャプション付けを行うよう構成された関数を学習するためのコンピュータにより実施される方法であって、
前記関数は、前記入力画像と前記入力領域との組み合わせの署名を決定するように構成された第1の成分と、前記組み合わせの署名に基づいて前記出力キャプションを生成するように構成された第2の成分とを含み、
前記第2の成分は、単語埋め込み空間に基づいて前記出力キャプションを生成するように構成され、
前記第2の成分は、第1の再帰型ニューラルネットワークと、第2の再帰型ニューラルネットワークと、単語埋め込み層とを含んでおり、
前記第1の再帰型ニューラルネットワークは、各入力単語埋め込みベクトルに基づいて出力単語埋め込みベクトルを再帰的に生成するように構成されており、前記第1の再帰型ニューラルネットワークについての前記入力単語埋め込みベクトルは、前記第2の再帰型ニューラルネットワークとそれに続く前記単語埋め込み層との合成物の出力であり、
前記第2の再帰型ニューラルネットワークは、各入力単語埋め込みベクトルと前記組み合わせの前記署名とに基づいて出力単語埋め込みベクトルを再帰的に生成するように構成されており、前記第2の再帰型ニューラルネットワークについての前記入力単語埋め込みベクトルは前記第1の再帰型ニューラルネットワークの出力であり、
前記単語埋め込み層は、各入力単語埋め込みベクトルに基づいて出力単語埋め込みベクトルを生成するように構成されており、前記単語埋め込み層についての前記生成された単語埋め込みベクトルは、単語埋め込み空間において表現される最も確率の高い語彙の単語に対応する単語埋め込みベクトルである
ことを特徴とする方法。 - 前記第2の成分は、前記出力キャプションを反復的に生成するように構成されている
ことを特徴とする請求項1に記載の方法。 - 前記第2の成分は、1つまたは複数の再帰型ニューラルネットワークを含む
ことを特徴とする請求項2に記載の方法。 - 前記1つまたは複数の再帰型ニューラルネットワークは、1つまたは複数の長短期記憶(Long Short-Term Memory)ニューラルネットワークを含む
ことを特徴とする請求項3に記載の方法。 - 前記方法は、キャプションのデータセットを提供することをさらに含み、
前記学習することは、前記第1の再帰型ニューラルネットワークおよび/または前記単語埋め込み層を、前記キャプションのデータセットを用いて訓練し、次いで前記第2の再帰型ニューラルネットワークを訓練することを含む
ことを特徴とする請求項1ないし4のいずれか一つに記載の方法。 - 前記第1の成分は、
前記入力画像の署名を抽出するように構成された成分と、
前記入力領域の署名を抽出するように構成された成分と、
前記入力画像の前記署名を前記入力領域の前記署名と組み合わせるように構成された成分と
を含むことを特徴とする請求項1~5のいずれか1つに記載の方法。 - 前記入力画像の署名を抽出するように構成された前記成分と、前記入力領域の署名を抽出するように構成された前記成分とは、それぞれ畳み込みニューラルネットワークである
ことを特徴とする請求項6に記載の方法。 - 各畳み込みニューラルネットワークは重みを共有する
ことを特徴とする請求項7に記載の方法。 - 前記入力画像の前記署名を前記入力領域の前記署名と組み合わせるように構成された前記成分は、連結成分、または加算成分、および/または全結合層を含む
ことを特徴とする請求項6~8のいずれか一つに記載の方法。 - 前記学習することは、前記第1の成分を学習することと、次いで前記第2の成分の少なくとも一部を学習することとを含む
ことを特徴とする請求項1~9のいずれか1つに記載の方法。 - コンピュータに、
それぞれが画像と当該画像の領域と当該領域のキャプションとを含む、3つ組のデータセットを提供するステップと、
入力画像と当該入力画像の入力領域とに基づいて出力キャプションを生成するように構成された関数を、前記3つ組のデータセットを用いて学習するステップと
を実行させるためのプログラムであって、
前記関数は、
前記入力画像と前記入力領域との組み合わせの署名を決定するように構成された第1の成分と、前記組み合わせの署名に基づいて前記出力キャプションを生成するように構成された第2の成分とを含み、
前記第2の成分は、さらに単語埋め込み空間に基づいて前記出力キャプションを生成するように構成され、
前記第2の成分は、第1の再帰型ニューラルネットワークと、第2の再帰型ニューラルネットワークと、単語埋め込み層とを含んでおり、
前記第1の再帰型ニューラルネットワークは、各入力単語埋め込みベクトルに基づいて出力単語埋め込みベクトルを再帰的に生成するように構成されており、前記第1の再帰型ニューラルネットワークについての前記入力単語埋め込みベクトルは、前記第2の再帰型ニューラルネットワークとそれに続く前記単語埋め込み層との合成物の出力であり、
前記第2の再帰型ニューラルネットワークは、各入力単語埋め込みベクトルと前記組み合わせの前記署名とに基づいて出力単語埋め込みベクトルを再帰的に生成するように構成されており、前記第2の再帰型ニューラルネットワークについての前記入力単語埋め込みベクトルは前記第1の再帰型ニューラルネットワークの出力であり、
前記単語埋め込み層は各入力単語埋め込みベクトルに基づいて出力単語埋め込みベクトルを生成するように構成されており、前記単語埋め込み層についての前記生成された単語埋め込みベクトルは、単語埋め込み空間において表現される最も確率の高い語彙の単語に対応する単語埋め込みベクトルである
ことを特徴とする、プログラム。 - 請求項11に記載のプログラムを記録した記憶媒体と、前記記憶媒体に接続されたプロセッサとを備える装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17305486.7 | 2017-05-02 | ||
EP17305486.7A EP3399460B1 (en) | 2017-05-02 | 2017-05-02 | Captioning a region of an image |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019008778A JP2019008778A (ja) | 2019-01-17 |
JP7193252B2 true JP7193252B2 (ja) | 2022-12-20 |
Family
ID=59061941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018088032A Active JP7193252B2 (ja) | 2017-05-02 | 2018-05-01 | 画像の領域のキャプション付加 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10691899B2 (ja) |
EP (1) | EP3399460B1 (ja) |
JP (1) | JP7193252B2 (ja) |
CN (1) | CN108804530B (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106462802B (zh) | 2014-11-14 | 2019-08-06 | 谷歌有限责任公司 | 生成映像的自然语言描述 |
KR102169925B1 (ko) * | 2018-03-14 | 2020-10-26 | 한국전자기술연구원 | 이미지 캡션 자동 생성 방법 및 시스템 |
US10872601B1 (en) * | 2018-09-27 | 2020-12-22 | Amazon Technologies, Inc. | Natural language processing |
US10885903B1 (en) * | 2018-12-10 | 2021-01-05 | Amazon Technologies, Inc. | Generating transcription information based on context keywords |
EP3675061A1 (en) * | 2018-12-29 | 2020-07-01 | Dassault Systèmes | Forming a dataset for inference of editable feature trees |
CN109495727B (zh) * | 2019-01-04 | 2021-12-24 | 京东方科技集团股份有限公司 | 智能监控方法及装置、系统、可读存储介质 |
WO2020167569A1 (en) * | 2019-02-12 | 2020-08-20 | Commscope Technologies Llc | Location determination in a cloud radio access network utilizing image data |
US12014143B2 (en) * | 2019-02-25 | 2024-06-18 | Disney Enterprises, Inc. | Techniques for performing contextual phrase grounding |
US20220014807A1 (en) * | 2019-03-21 | 2022-01-13 | Samsung Electronics Co., Ltd. | Method, apparatus, device and medium for generating captioning information of multimedia data |
CN109874029B (zh) * | 2019-04-22 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 视频描述生成方法、装置、设备及存储介质 |
CN112070852A (zh) * | 2019-06-10 | 2020-12-11 | 阿里巴巴集团控股有限公司 | 图像的生成方法和系统、数据处理方法 |
US11238631B2 (en) * | 2019-08-19 | 2022-02-01 | Sri International | Align-to-ground, weakly supervised phrase grounding guided by image-caption alignment |
US11120268B2 (en) * | 2019-08-30 | 2021-09-14 | Microsoft Technology Licensing, Llc | Automatically evaluating caption quality of rich media using context learning |
US11257240B2 (en) * | 2019-10-29 | 2022-02-22 | International Business Machines Corporation | Accelerated object labeling using prior geometric knowledge |
US11645733B2 (en) | 2020-06-16 | 2023-05-09 | Bank Of America Corporation | System and method for providing artificial intelligence architectures to people with disabilities |
US12026474B2 (en) | 2020-07-17 | 2024-07-02 | Vianai Systems, Inc. | Techniques for generating natural language descriptions of neural networks |
US11687714B2 (en) * | 2020-08-20 | 2023-06-27 | Adobe Inc. | Systems and methods for generating text descriptive of digital images |
US11341354B1 (en) * | 2020-09-30 | 2022-05-24 | States Title, Inc. | Using serial machine learning models to extract data from electronic documents |
US20220114361A1 (en) * | 2020-10-14 | 2022-04-14 | Adobe Inc. | Multi-word concept tagging for images using short text decoder |
KR102505592B1 (ko) * | 2021-06-07 | 2023-03-02 | 숭실대학교 산학협력단 | 다중 표현 스위칭 기반 비디오 캡셔닝 방법, 이를 수행하기 위한 기록 매체 및 시스템 |
CN113554733B (zh) * | 2021-07-28 | 2022-02-01 | 北京大学 | 基于语言的解耦合条件注入灰度图像彩色化方法 |
KR102551960B1 (ko) * | 2021-07-30 | 2023-07-06 | 한국전자기술연구원 | 객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템 |
KR102598678B1 (ko) * | 2021-11-01 | 2023-11-03 | 연세대학교 산학협력단 | 이미지 캡션 생성 방법 및 장치 |
US12008331B2 (en) * | 2021-12-23 | 2024-06-11 | Microsoft Technology Licensing, Llc | Utilizing visual and textual aspects of images with recommendation systems |
JP2024003483A (ja) | 2022-06-27 | 2024-01-15 | 富士通株式会社 | 訓練プログラム,訓練方法および情報処理装置 |
CN117574878B (zh) * | 2024-01-15 | 2024-05-17 | 西湖大学 | 用于混合领域的成分句法分析方法、装置及介质 |
US12118821B1 (en) | 2024-04-10 | 2024-10-15 | Lashify, Inc. | Using image processing, machine learning and images of a human face for prompt generation related to false eyelashes |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100111370A1 (en) | 2008-08-15 | 2010-05-06 | Black Michael J | Method and apparatus for estimating body shape |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106462802B (zh) * | 2014-11-14 | 2019-08-06 | 谷歌有限责任公司 | 生成映像的自然语言描述 |
US10909329B2 (en) * | 2015-05-21 | 2021-02-02 | Baidu Usa Llc | Multilingual image question answering |
US11514244B2 (en) * | 2015-11-11 | 2022-11-29 | Adobe Inc. | Structured knowledge modeling and extraction from images |
US10255523B2 (en) * | 2015-11-16 | 2019-04-09 | Orbital Insight, Inc. | Moving vehicle detection and analysis using low resolution remote sensing imagery |
CN105631468B (zh) * | 2015-12-18 | 2019-04-09 | 华南理工大学 | 一种基于rnn的图片描述自动生成方法 |
US9811765B2 (en) * | 2016-01-13 | 2017-11-07 | Adobe Systems Incorporated | Image captioning with weak supervision |
CN105938485B (zh) * | 2016-04-14 | 2019-06-14 | 北京工业大学 | 一种基于卷积循环混合模型的图像描述方法 |
CN106529606A (zh) * | 2016-12-01 | 2017-03-22 | 中译语通科技(北京)有限公司 | 一种提升图像识别准确率的方法 |
CN106599198B (zh) * | 2016-12-14 | 2021-04-06 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
-
2017
- 2017-05-02 EP EP17305486.7A patent/EP3399460B1/en active Active
-
2018
- 2018-05-01 JP JP2018088032A patent/JP7193252B2/ja active Active
- 2018-05-02 CN CN201810409790.7A patent/CN108804530B/zh active Active
- 2018-05-02 US US15/969,548 patent/US10691899B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100111370A1 (en) | 2008-08-15 | 2010-05-06 | Black Michael J | Method and apparatus for estimating body shape |
Non-Patent Citations (2)
Title |
---|
Jeff Donahue,外6名,"Long-Term Recurrent Convolutional Networks for Visual Recognition and Description",IEEE Transactions on Pattern Analysis and Machine Intelligence,Volume 39,Issue 4,2017年04月01日,pp. 677-691 |
Justin Johnson,外2名,"DenseCap: Fully Convolutional Localization Networks for Dense Captioning",2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016年12月12日,pp. 4565-4574 |
Also Published As
Publication number | Publication date |
---|---|
JP2019008778A (ja) | 2019-01-17 |
CN108804530B (zh) | 2024-01-12 |
CN108804530A (zh) | 2018-11-13 |
EP3399460A1 (en) | 2018-11-07 |
EP3399460B1 (en) | 2019-07-17 |
US20180329892A1 (en) | 2018-11-15 |
US10691899B2 (en) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7193252B2 (ja) | 画像の領域のキャプション付加 | |
CN107066464B (zh) | 语义自然语言向量空间 | |
US10176404B2 (en) | Recognition of a 3D modeled object from a 2D image | |
CN106650813B (zh) | 一种基于深度残差网络和lstm的图像理解方法 | |
CN108959482B (zh) | 基于深度学习的单轮对话数据分类方法、装置和电子设备 | |
CN111079601A (zh) | 基于多模态注意力机制的视频内容描述方法、系统、装置 | |
CN110083729B (zh) | 一种图像搜索的方法及系统 | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN111105013B (zh) | 对抗网络架构的优化方法、图像描述生成方法和系统 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN111966812A (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
JP2023528181A (ja) | 画像データベースを検索するための方法、非一時的なコンピュータ可読記憶媒体、及び装置 | |
CN118194238B (zh) | 一种多语种多模态情感识别方法、系统及设备 | |
Kaddoura | A Primer on Generative Adversarial Networks | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
US20230237435A1 (en) | Apparatuses and methods for parsing and comparing video resume duplications | |
JP2017538226A (ja) | スケーラブルなウェブデータの抽出 | |
WO2021137942A1 (en) | Pattern generation | |
Hammad et al. | Characterizing the impact of using features extracted from pre-trained models on the quality of video captioning sequence-to-sequence models | |
US12100393B1 (en) | Apparatus and method of generating directed graph using raw data | |
Shakeel et al. | Generate Detailed Captions of an Image using Deep Learning | |
CN117972484B (zh) | 一种可解释性的多模态自然语言情感分析方法及相关装置 | |
CN109582296B (zh) | 一种基于栈增强lstm的程序表示方法 | |
Voruganti | Visual question answering with external knowledge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210402 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220808 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7193252 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |