JP6689461B2 - 画像キャプション生成のための空間的注目モデル - Google Patents
画像キャプション生成のための空間的注目モデル Download PDFInfo
- Publication number
- JP6689461B2 JP6689461B2 JP2019526275A JP2019526275A JP6689461B2 JP 6689461 B2 JP6689461 B2 JP 6689461B2 JP 2019526275 A JP2019526275 A JP 2019526275A JP 2019526275 A JP2019526275 A JP 2019526275A JP 6689461 B2 JP6689461 B2 JP 6689461B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- decoder
- caption
- word
- image feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 claims description 268
- 238000000034 method Methods 0.000 claims description 160
- 238000013528 artificial neural network Methods 0.000 claims description 92
- 238000013527 convolutional neural network Methods 0.000 claims description 85
- 230000015654 memory Effects 0.000 claims description 65
- 238000012545 processing Methods 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 46
- 230000009471 action Effects 0.000 claims description 22
- 230000007774 longterm Effects 0.000 claims description 13
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 description 125
- 230000003044 adaptive effect Effects 0.000 description 97
- 238000005516 engineering process Methods 0.000 description 51
- 210000000352 storage cell Anatomy 0.000 description 30
- 210000004027 cell Anatomy 0.000 description 22
- 239000010410 layer Substances 0.000 description 21
- 230000006403 short-term memory Effects 0.000 description 14
- 230000001143 conditioned effect Effects 0.000 description 12
- 230000004913 activation Effects 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 230000004807 localization Effects 0.000 description 11
- 230000007787 long-term memory Effects 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 9
- 230000002596 correlated effect Effects 0.000 description 8
- 230000003111 delayed effect Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 8
- 238000002156 mixing Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 8
- 230000001537 neural effect Effects 0.000 description 7
- 238000013519 translation Methods 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000012804 iterative process Methods 0.000 description 5
- 239000002356 single layer Substances 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 244000290333 Vanilla fragrans Species 0.000 description 3
- 235000009499 Vanilla fragrans Nutrition 0.000 description 3
- 235000012036 Vanilla tahitensis Nutrition 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000026676 system process Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 240000007241 Agrostis stolonifera Species 0.000 description 1
- 240000001436 Antirrhinum majus Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 241000995070 Nirvana Species 0.000 description 1
- 241000220317 Rosa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003467 diminishing effect Effects 0.000 description 1
- 235000012489 doughnuts Nutrition 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001012 protector Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- VLCQZHSMCYCDJL-UHFFFAOYSA-N tribenuron methyl Chemical compound COC(=O)C1=CC=CC=C1S(=O)(=O)NC(=O)N(C)C1=NC(C)=NC(OC)=N1 VLCQZHSMCYCDJL-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/274—Converting codes to words; Guess-ahead of partial word inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/955—Hardware or software architectures specially adapted for image or video understanding using specific electronic processors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本願は2016年11月18日に出願された「SPATIAL ATTENTION MODEL FOR IMAGE CAPTIONING」と題する米国仮特許出願第62/424,353号(代理人整理番号SALE1184-1/1950PROV)の利益を主張するものである。この優先権仮出願はここに参照によってあらゆる目的について組み込まれる。
開示される技術は、人工知能型コンピュータおよびデジタル・データ処理システムならびに知性のエミュレーションのための対応するデータ処理方法およびプロダクトに関するものであり(すなわち、知識ベースのシステム、推論システムおよび知識収集システム)、不確定性のある推論のためのシステム(たとえばファジー論理システム)、適応システム、機械学習システムおよび人工ニューラルネットワークを含む。開示される技術は概括的には、新規の視覚的注目ベースのエンコーダ‐デコーダ画像キャプション生成モデルに関する。開示される技術の一つの側面は、画像キャプション生成の間に空間的画像特徴を抽出するための新規の空間的注目モデルに関する。空間的注目モデル(spatial attention model)は、以前の隠れ情報または以前に放出された語を使うのではなく、注目を案内するためにデコーダの長短期記憶(LSTM: long short-term memory)の現在の隠れ状態情報を使う。開示される技術のもう一つの側面は、畳み込みニューラルネットワーク(CNN: convolutional neural network)からの視覚的情報およびLSTMからの言語情報を混合する画像キャプション生成のための新規の適応的な注目モデルに関する。各時間ステップにおいて、適応注目モデルは、次のキャプション語を発するために、どのくらい強く、言語モデルではなく画像に依存するかを自動的に決定する。開示される技術のさらにもう一つの側面は、LSTMアーキテクチャーに新たな補助センチネル・ゲートを追加し、センチネルLSTM(Sn-LSTM: sentinel LSTM)を生成することに関する。センチネル・ゲートは、各時間ステップにおいて視覚センチネルを生成し、該視覚センチネルは、LSTMの記憶から導出される、長期および短期の視覚的および言語的情報の追加的な表現である。
注目ベースの視覚的ニューラル・エンコーダ‐デコーダ・モデルは畳み込みニューラルネットワーク(CNN)を使って入力画像を特徴ベクトルにエンコードし、長短期記憶ネットワーク(LSTM)を使って該特徴ベクトルを語のシーケンスにデコードする。LSTMは、語を生成するために重要な画像領域をハイライトする空間的マップを生成する注目機構に依拠する。注目ベースのモデルは、注目機構への入力として、LSTMの以前の隠れ状態情報または以前に発されたキャプション語(単数または複数)を利用する。
ht=LSTM(xt,ht-1,mt-1)
としてモデル化される。
少なくとも二つの側面において以前の業績とは異なる画像キャプション生成のための新規な空間的注目モデルを開示する。第一に、我々のモデルは、以前の隠れ状態または以前発された語を使う代わりに、注目を案内するためにデコーダLSTMの現在の隠れ状態情報を使う。第二に、我々のモデルは、注目変化する(attention-variant)画像表現の時間ステップによる信号の代わりに、時間不変なグローバルな画像表現をLSTMに供給する。
図1は、畳み込みニューラルネットワーク(略CNN)を通じて画像を処理して画像の諸領域についての画像特徴V=[v1,…,vk]、vi∈Rdを生成するエンコーダを示す。ある実装では、エンコーダCNNは事前トレーニングされたResNetである。そのような実装では、画像特徴V=[v1,…,vk]、vi∈Rdは、ResNetの最後の畳み込み層の空間的特徴出力である。ある実装では、画像特徴V=[v1,…,vk]、vi∈Rdは2048×7×7の次元をもつ。ある実装では、開示される技術は、k個の格子位置のそれぞれにおける空間的CNN特徴を表わすために、A=[a1,…,ak]、ai∈R2048を使う。これに続いて、いくつかの実装では、グローバル画像特徴生成器が、下記で論じるようにグローバル画像特徴を生成する。
図2Aとは異なり、図2Bは、現在の隠れ状態情報htを使って注目を案内し、画像キャプションを生成する、開示される注目遅れ型デコーダを示している。注目遅れ型デコーダは、現在の隠れ状態情報htを使って、コンテキスト・ベクトルctを生成するために画像のどこを見るかを解析する。次いで、デコーダはhtおよびct両方の情報源を組み合わせて、次の語を予測する。生成されたコンテキスト・ベクトルctは現在の隠れ状態htの残留視覚的情報を具現する。これは、次の語予測のために、現在の隠れ状態の不確定性を減少させる、または情報性を補完する。デコーダが回帰型であり、LSTMベースであり、逐次的に動作するので、現在の隠れ状態htは前の隠れ状態ht-1および現在の入力xtを具現する。これらが現在の視覚的および言語的コンテキストをなす。注目遅れ型デコーダは、古くなった以前のコンテキスト(図2A)ではなく、この現在の視覚的および言語的コンテキストを使って画像に注目する。換言すれば、画像は、現在の視覚的および言語的コンテキストがデコーダによって決定された後に注目される。すなわち、注目がデコーダより遅れる。これは、より正確な画像キャプションを生成する。
図3Aは、図1のCNNエンコーダによって生成される画像特徴を組み合わせることによって画像についてのグローバル画像特徴を生成するグローバル画像特徴生成器を描いている。グローバル画像特徴生成器はまず、次のようにして予備的なグローバル画像特徴を生成する。
図3Bは、高次元埋め込み空間において語をベクトル化する語埋め込み器である。開示される技術は、デコーダによって予測される語彙語の語埋め込みを生成するために語埋め込み器を使う。wtは、時刻tにおいてデコーダによって予測される語彙語(vocabulary word)の語埋め込み(word embedding)を表わす。wt-1は、時刻t−1においてデコーダによって予測された語彙語の語埋め込みを表わす。ある実装では、語埋め込み器は、埋め込み行列E∈Rd×|v|を使って次元性dの語埋め込みwt-1を生成する。ここで、vは語彙のサイズを表わす。もう一つの実施形態では、語埋め込み器はまず語をワンホット(one-hot)エンコードに変換し、次いでそれを埋め込み行列E∈Rd×|v|を使って連続表現に変換する。さらにもう一つの実装では、語埋め込み器は、GloVeおよびword2vecのような事前トレーニングされた語埋め込みモデルを使って語埋め込みを初期化し、語彙内の各語の固定した語埋め込みを得る。他の実装では、語埋め込み器は、キャラクタ埋め込みおよび/またはフレーズ埋め込みを生成する。
図3Cは、デコーダへの入力を準備し、提供する入力準備器である。各時間ステップにおいて、入力準備器は語埋め込みベクトルwt-1(直前の時間ステップにおいてデコーダによって予測される)をグローバル画像特徴ベクトルvgと連結する。連結wt;vgが、現在の時間ステップtにおいてデコーダに供給される入力xtを形成する。wt-1は最も最近発されたキャプション語を表わす。入力準備器は本稿では連結器とも称される。
長短期記憶(LSTM)は、逐次的な入力から逐次的な出力を生成するために時間ステップにおいて繰り返し行使される、ニューラルネットワークにおけるセルである。出力はしばしば隠れ状態と称されるが、これはセルの記憶と混同すべきではない。入力は、以前の時間ステップからの隠れ状態および記憶と、現在の入力である。セルは入力活性化関数、記憶およびゲートをもつ。入力活性化関数は入力を、tanh活性化関数については−1から1のような範囲にマッピングする。ゲートは、記憶を更新し、記憶から隠れ状態出力結果を生成することに適用される重みを決定する。ゲートは忘却ゲート、入力ゲートおよび出力ゲートである。忘却ゲートは記憶を減衰させる。入力ゲートは活性化された入力を減衰した記憶と混合する。出力ゲートは、記憶からの隠れ状態出力を制御する。隠れ状態出力は、入力に直接ラベル付けすることができ、あるいは別のコンポーネントによって処理されて語もしくは他のラベルを発するまたは諸ラベルにわたる確率分布を生成することができる。
上記で論じたように、長短期記憶(LSTM)デコーダは、目標画像の領域または特徴に注目し、語予測を注目される画像特徴に基づいて調整することによって、画像キャプションを生成するために拡張されることができる。しかしながら、画像に注目することは、話の半分でしかない;いつ見るかを知ることがもう半分である。すなわち、すべてのキャプション語が視覚的信号に対応するわけではない;ストップワードや言語的に相関している語のようないくつかの語は、テキスト的なコンテキストから推定されるほうがよいことがある。
図14は、純粋に言語的な情報を処理して、画像についてのキャプションを生成する、開示される視覚的に封印されたデコーダのある実装である。図15は、画像キャプション生成のための図14の視覚封印デコーダを使う空間的注目モデルを示す。図15では、空間的注目モデルは複数の時間ステップを通じて展開される。あるいはまた、画像キャプション生成の間、画像データと混合されない純粋に言語的な情報wを処理する視覚封印デコーダが使われることができる。この代替的な視覚封印デコーダは、グローバル画像表現を入力として受領しない。すなわち、視覚封印デコーダへの現在の入力は、その最も最近発されたキャプション語wt-1だけであり、初期入力は<start>トークンだけである。視覚封印デコーダはLSTM、ゲーテッド回帰ユニット(GRU: gated recurrent unit)または準回帰型ニューラルネットワーク(QRNN: quasi-recurrent neural network)として実装されることができる。この代替的なデコーダでは、単語はいまだ、注目機構の適用後に発される。
開示される技術は、画像キャプション生成モデルのパフォーマンスを評価するシステムおよび方法をも提供する。開示される技術は、畳み込みニューラルネットワーク(略CNN)エンコーダおよび長短期記憶(LSTM)デコーダを使って画像の画像領域ベクトルを混合するための注目値の空間的注目マップを生成し、空間的注目マップに基づいてキャプション語出力を生成する。次いで、開示される技術は、閾値注目値より上である画像の領域をセグメンテーション・マップにセグメント分割する。次いで、開示される技術は、セグメンテーション・マップにおいて最大の連結した画像成分をカバーするバウンディングボックスを画像上に投影する。次いで、開示される技術は、投影されたバウンディングボックスと基礎的事実(ground truth)バウンディングボックスとの交差対合併比(略IOU: intersection over union)を決定する。次いで、開示される技術は、計算されたIOUに基づいて、空間的注目マップの局在化精度(localization accuracy)を決定する。
視覚的な注目ベースのエンコーダ‐デコーダ画像キャプション生成モデルのシステムおよびさまざまな実装を記述する。ある実装の一つまたは複数の特徴は、基本実装と組み合わされることができる。互いに背反でない実装は組み合わせ可能であると教示される。ある実装の一つまたは複数の特徴は、他の実装と組み合わされることができる。本開示は、これらの選択肢があることを定期的にユーザーに想起させる。これらの選択肢を繰り返す記載が一部の実装から割愛されていたとしても、先行する節で教示される組み合わせを限定するものと解釈されるべきではない。これらの記載は、下記の各実装に参照によってあらかじめ組み込まれる。
図17は、いくつかの例示的なキャプションと、キャプション中の特定の語についての空間的注目マップとを示している。我々のが人間の直観と一致する整列を学習することが見て取れる。正しくないキャプションが生成された例でも、モデルは画像中の合理的な領域を見ていた。
図25は、開示される技術を実装するために使われることのできるコンピュータ・システムの簡略化されたブロック図である。コンピュータ・システムは、バス・サブシステムを介していくつかの周辺装置と通信する少なくとも一つの中央処理ユニット(CPU)を含む。これらの周辺装置は、たとえばメモリ・デバイスおよびファイル記憶サブシステムを含む記憶サブシステムと、ユーザー・インターフェース入力装置と、ユーザー・インターフェース出力装置と、ネットワーク・インターフェース・サブシステムとを含むことができる。入力装置および出力装置はコンピュータ・システムとのユーザー対話を許容する。ネットワーク・インターフェース・サブシステムは、他のコンピュータ・システムにおける対応するインターフェース装置へのインターフェースを含む外部ネットワークへのインターフェースを提供する。
いくつかの態様を記載しておく。
〔態様1〕
画像についての自然言語キャプションの機械生成のための、数多くの並列プロセッサ上で稼働する、画像から言語へのキャプション生成システムであって、当該システムは:
畳み込みニューラルネットワーク(略CNN)を通じて前記画像を処理して、前記画像の諸領域についての画像特徴を生成するエンコーダと;
前記画像特徴を組み合わせることによって前記画像についてのグローバル画像特徴を生成するグローバル画像特徴生成器と;
初期デコーダ時間ステップにおいてはキャプション開始トークンおよび前記グローバル画像特徴の組み合わせとして、一連のデコーダ時間ステップにおいては最も最近発されたキャプション語および前記グローバル画像特徴の組み合わせとして、デコーダへの入力を提供する入力準備器と;
長短期記憶ネットワーク(略LSTM)を通じて前記入力を処理して、各デコーダ時間ステップにおける現在のデコーダ隠れ状態を生成する前記デコーダと;
各デコーダ時間ステップにおいて、前記現在のデコーダ隠れ状態を使って決定された注目確率マスによってスケーリングされた前記画像特徴の凸組み合わせとして、画像コンテキストを累積する注目器と;
前記画像コンテキストおよび前記現在のデコーダ隠れ状態を処理して、各デコーダ時間ステップにおいて次のキャプション語を発するフィードフォワード・ニューラルネットワークと;
発される次のキャプション語がキャプション終了トークンになるまで前記画像についての前記自然言語キャプションを生成するよう、前記入力準備器、前記デコーダ、前記注目器および前記フィードフォワード・ニューラルネットワークを逐次反復させるコントローラとを有する、
システム。
〔態様2〕
前記注目器がさらに、各デコーダ時間ステップにおいて前記注目確率マスを生成するために注目値を指数関数的に正規化する注目器ソフトマックスを有する、態様1記載のシステム。
〔態様3〕
前記注目器がさらに、各デコーダ時間ステップにおいて、前記注目値を、前記現在のデコーダ隠れ状態と前記画像特徴との間の相互作用の結果として生成するための比較器を有する、態様1または2記載のシステム。
〔態様4〕
前記デコーダがさらに、各デコーダ時間ステップにおいて現在のデコーダ入力および前のデコーダ隠れ状態に基づいて前記現在のデコーダ隠れ状態を決定するために、少なくとも入力ゲート、忘却ゲートおよび出力ゲートを有する、態様1ないし3のうちいずれか一項記載のシステム。
〔態様5〕
前記注目器がさらに、各時間ステップにおいて各画像領域に割り振られる空間的注目の量を、前記現在のデコーダ隠れ状態に基づいて調整されて、同定するよう前記画像コンテキストを生成するための凸組み合わせ累積器を有する、態様1ないし4のうちいずれか一項記載のシステム。
〔態様6〕
弱教師付き局在化に基づいて前記割り振られた空間的注目を評価する局在化器をさらに有する、態様1ないし5のうちいずれか一項記載のシステム。
〔態様7〕
各デコーダ時間ステップにおいて前記画像コンテキストおよび前記現在のデコーダ隠れ状態に基づいて出力を生成する前記フィードフォワード・ニューラルネットワークをさらに有する、態様1ないし6のうちいずれか一項記載のシステム。
〔態様8〕
各デコーダ時間ステップにおいて、前記出力を使って、語彙内の語に対する語彙確率マスの正規化された分布を決定する語彙ソフトマックスをさらに有する、態様1ないし7のうちいずれか一項記載のシステム。
〔態様9〕
前記語彙確率マスが、語彙語が次のキャプション語であるそれぞれの確からしさを同定する、態様1ないし8のうちいずれか一項記載のシステム。
〔態様10〕
画像についての自然言語キャプションの機械生成のための、数多くの並列プロセッサ上で稼働する、画像から言語へのキャプション生成システムであって、当該システムは:
少なくとも現在の隠れ状態情報を使って、画像からエンコーダによって生成された画像特徴ベクトルについて注目マップを生成し、前記画像特徴ベクトルの重み付けされた和に基づいて出力キャプション語を生成させる注目遅れ型デコーダを有しており、重みは前記注目マップから決定される、
システム。
〔態様11〕
前記現在の隠れ状態情報が、前記デコーダへの現在の入力および前の隠れ状態情報に基づいて決定される、態様10記載のシステム。
〔態様12〕
前記エンコーダは、畳み込みニューラルネットワーク(略CNN)であり、前記画像特徴ベクトルは前記CNNの最後の畳み込み層によって生成される、態様10または11記載のシステム。
〔態様13〕
前記注目遅れ型デコーダは、長短期記憶ネットワーク(略LSTM)である、態様10ないし12のうちいずれか一項記載のシステム。
〔態様14〕
画像についての自然言語キャプションの機械生成の方法であって、当該方法は:
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定する段階と;
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する段階と;
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルについての正規化されていない注目値を決定し、前記注目値を指数関数的に正規化して注目確率マスを生成する段階と;
前記画像特徴ベクトルに前記注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、前記画像特徴ベクトルの重み付けされた和を累積する段階と;
前記画像コンテキスト・ベクトルと前記デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークに次のキャプション語を発させる段階と;
前記デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返す段階とを含む、
方法。
〔態様15〕
前記デコーダの前記現在の隠れ状態は、前記デコーダへの現在の入力および前記デコーダの前の隠れ状態に基づいて決定される、態様14記載の方法。
〔態様16〕
画像についての自然言語キャプションの機械生成のための方法であって、当該方法は:
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成することと;
初期時間ステップにおいてキャプション開始トークンで始まり、一連の時間ステップにおいて最も最近発されたキャプション語をデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することと;
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルから、前記画像の諸領域に割り振られる注目の量を、前記デコーダの前記現在の隠れ状態に基づいて調整されて、決定する画像コンテキスト・ベクトルを決定することと;
前記画像コンテキスト・ベクトルを前記デコーダに供給しないことと;
前記画像コンテキスト・ベクトルと前記デコーダの前記現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークにキャプション語を発させることと;
前記デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返すこととを含む、
方法。
〔態様17〕
メモリに結合された数多くの並列プロセッサを含むシステムであって、前記メモリは、画像についての自然言語キャプションを生成するための決定器命令をロードされており、前記命令は、前記並列プロセッサ上で実行されるときに:
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定する段階と;
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する段階と;
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルについての正規化されていない注目値を決定し、前記注目値を指数関数的に正規化して注目確率マスを生成する段階と;
前記画像特徴ベクトルに前記注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、前記画像特徴ベクトルの重み付けされた和を累積する段階と;
前記画像コンテキスト・ベクトルと前記デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークに次のキャプション語を発させる段階と;
前記デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返す段階とを含むアクションを実装するものである、
システム。
〔態様18〕
画像についての自然言語キャプションを生成するための決定器プログラム命令を印加された非一時的な決定器可読記憶媒体であって、前記命令は、数多くの並列プロセッサ上で実行されるときに:
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定する段階と;
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する段階と;
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルについての正規化されていない注目値を決定し、前記注目値を指数関数的に正規化して注目確率マスを生成する段階と;
前記画像特徴ベクトルに前記注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、前記画像特徴ベクトルの重み付けされた和を累積する段階と;
前記画像コンテキスト・ベクトルと前記デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークに次のキャプション語を発させる段階と;
前記デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返す段階とを含む方法を実装するものである、
媒体。
〔態様19〕
メモリに結合された数多くの並列プロセッサを含むシステムであって、前記メモリは、画像についての自然言語キャプションを生成するための決定器命令をロードされており、前記命令は、前記並列プロセッサ上で実行されるときに:
注目遅れデコーダの現在の隠れ状態情報を使って、画像からエンコーダによって生成された画像特徴ベクトルについて注目マップを生成し、前記画像特徴ベクトルの重み付けされた和に基づいて出力キャプション語を生成することを含むアクションを実装するものであり、前記重みは前記注目マップから決定される、
システム。
〔態様20〕
画像についての自然言語キャプションを生成するための決定器プログラム命令を印加された非一時的な決定器可読記憶媒体であって、前記命令は、数多くの並列プロセッサ上で実行されるときに:
注目遅れデコーダの現在の隠れ状態情報を使って、画像からエンコーダによって生成された画像特徴ベクトルについて注目マップを生成し、前記画像特徴ベクトルの重み付けされた和に基づいて出力キャプション語を生成することを含む方法を実装するものであり、前記重みは前記注目マップから決定される、
媒体。
〔態様21〕
メモリに結合された数多くの並列プロセッサを含むシステムであって、前記メモリは、画像についての自然言語キャプションを生成するための決定器命令をロードされており、前記命令は、前記並列プロセッサ上で実行されるときに:
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定することと;
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することと;
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルから、前記画像の諸領域に割り振られる注目の量を、前記デコーダの前記現在の隠れ状態に基づいて調整されて、決定する画像コンテキスト・ベクトルを決定することと;
前記画像コンテキスト・ベクトルを前記デコーダに供給しないことと;
前記画像コンテキスト・ベクトルと前記デコーダの前記現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークにキャプション語を発させることと;
前記デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返すこととを含むアクションを実装するものである、
システム。
〔態様22〕
画像についての自然言語キャプションを生成するための決定器プログラム命令を印加された非一時的な決定器可読記憶媒体であって、前記命令は、数多くの並列プロセッサ上で実行されるときに:
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定することと;
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することと;
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルから、前記画像の諸領域に割り振られる注目の量を、前記デコーダの前記現在の隠れ状態に基づいて調整されて、決定する画像コンテキスト・ベクトルを決定することと;
前記画像コンテキスト・ベクトルを前記デコーダに供給しないことと;
前記画像コンテキスト・ベクトルと前記デコーダの前記現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークにキャプション語を発させることと;
前記デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返すこととを含む方法を実装するものである、
媒体。
Claims (12)
- 画像についての自然言語キャプションの機械生成のための、数多くの並列プロセッサ上で稼働する、画像から言語へのキャプション生成システムであって、当該システムは:
畳み込みニューラルネットワーク(CNN)を通じて前記画像を処理して、前記画像の諸領域についての画像特徴を生成するエンコーダと;
前記画像特徴を組み合わせることによって前記画像についてのグローバル画像特徴を生成するグローバル画像特徴生成器と;
初期デコーダ時間ステップにおいてはキャプション開始トークンおよび前記グローバル画像特徴の組み合わせとして、一連のデコーダ時間ステップにおいては最も最近発されたキャプション語および前記グローバル画像特徴の組み合わせとして、デコーダへの入力を提供する入力準備器と;
長短期記憶ネットワーク(LSTM)を通じて前記入力を処理して、各デコーダ時間ステップにおける現在のデコーダ隠れ状態を生成する前記デコーダと;
各デコーダ時間ステップにおいて、前記現在のデコーダ隠れ状態を使って決定された注目確率マスによってスケーリングされた前記画像特徴の凸組み合わせとして、画像コンテキストを累積する注目器と;
前記画像コンテキストおよび前記現在のデコーダ隠れ状態を処理して、各デコーダ時間ステップにおいて次のキャプション語を発するフィードフォワード・ニューラルネットワークと;
発される次のキャプション語がキャプション終了トークンになるまで前記画像についての前記自然言語キャプションを生成するよう、前記入力準備器、前記デコーダ、前記注目器および前記フィードフォワード・ニューラルネットワークを逐次反復させるコントローラとを有する、
システム。 - 前記注目器がさらに、各デコーダ時間ステップにおいて前記注目確率マスを生成するために注目値を指数関数的に正規化する注目器ソフトマックスを有する、請求項1記載のシステム。
- 前記注目器がさらに、各デコーダ時間ステップにおいて、前記注目値を、前記現在のデコーダ隠れ状態と前記画像特徴との間の重み付けされた組み合わせの結果として生成するための比較器を有する、請求項2記載のシステム。
- 前記デコーダがさらに、各デコーダ時間ステップにおいて現在のデコーダ入力および前のデコーダ隠れ状態に基づいて前記現在のデコーダ隠れ状態を決定するために、少なくとも入力ゲート、忘却ゲートおよび出力ゲートを有する、請求項1ないし3のうちいずれか一項記載のシステム。
- 前記注目器がさらに、各時間ステップにおいて各画像領域に割り振られる空間的注目の量を、前記現在のデコーダ隠れ状態に基づいて調整されて、同定するよう前記画像コンテキストを生成するための凸組み合わせ累積器を有する、請求項1ないし4のうちいずれか一項記載のシステム。
- 各デコーダ時間ステップにおいて前記画像コンテキストおよび前記現在のデコーダ隠れ状態に基づいて出力を生成する前記フィードフォワード・ニューラルネットワークをさらに有する、請求項1ないし5のうちいずれか一項記載のシステム。
- 各デコーダ時間ステップにおいて、前記出力を使って、語彙内の語に対する語彙確率マスの正規化された分布を決定する語彙ソフトマックスをさらに有する、請求項6記載のシステム。
- 前記語彙確率マスが、語彙語が次のキャプション語であるそれぞれの確からしさを同定する、請求項7記載のシステム。
- メモリに結合された数多くの並列プロセッサを含むシステムであって、前記メモリは、画像についての自然言語キャプションを生成するための決定器命令をロードされており、前記命令は、前記並列プロセッサ上で実行されるときに:
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定する段階と;
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する段階と;
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルについての正規化されていない注目値を決定し、前記注目値を指数関数的に正規化して注目確率マスを生成する段階と;
前記画像特徴ベクトルに前記注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、前記画像特徴ベクトルの重み付けされた和を累積する段階と;
前記画像コンテキスト・ベクトルと前記デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークに次のキャプション語を発させる段階と;
前記デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返す段階とを含むアクションを実装するものである、
システム。 - 画像についての自然言語キャプションを生成するための決定器プログラム命令を印加された非一時的な決定器可読記憶媒体であって、前記命令は、数多くの並列プロセッサ上で実行されるときに:
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定する段階と;
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理する段階と;
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルについての正規化されていない注目値を決定し、前記注目値を指数関数的に正規化して注目確率マスを生成する段階と;
前記画像特徴ベクトルに前記注目確率マスを適用して、画像コンテキスト・ベクトルにおいて、前記画像特徴ベクトルの重み付けされた和を累積する段階と;
前記画像コンテキスト・ベクトルと前記デコーダの現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークに次のキャプション語を発させる段階と;
前記デコーダを通じて語を処理すること、前記使うこと、前記適用することおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返す段階とを含む方法を実装するものである、
媒体。 - メモリに結合された数多くの並列プロセッサを含むシステムであって、前記メモリは、画像についての自然言語キャプションを生成するための決定器命令をロードされており、前記命令は、前記並列プロセッサ上で実行されるときに:
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定することと;
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することと;
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルから、前記画像の諸領域に割り振られる注目の量を、前記デコーダの前記現在の隠れ状態に基づいて調整されて、決定する画像コンテキスト・ベクトルを決定することと;
前記画像コンテキスト・ベクトルを前記デコーダに供給しないことと;
前記画像コンテキスト・ベクトルと前記デコーダの前記現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークにキャプション語を発させることと;
前記デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返すこととを含むアクションを実装するものである、
システム。 - 画像についての自然言語キャプションを生成するための決定器プログラム命令を印加された非一時的な決定器可読記憶媒体であって、前記命令は、数多くの並列プロセッサ上で実行されるときに:
エンコーダを通じて画像を処理して、前記画像の諸領域についての画像特徴ベクトルを生成し、前記画像特徴ベクトルからグローバル画像特徴ベクトルを決定することと;
初期時間ステップにおいてキャプション開始トークンおよび前記グローバル画像特徴ベクトルで始まり、一連の時間ステップにおいて最も最近発されたキャプション語および前記グローバル画像特徴ベクトルをデコーダへの入力として使い続けることによって、デコーダを通じて語を処理することと;
各時間ステップにおいて、前記デコーダの少なくとも現在の隠れ状態を使って、前記画像特徴ベクトルから、前記画像の諸領域に割り振られる注目の量を、前記デコーダの前記現在の隠れ状態に基づいて調整されて、決定する画像コンテキスト・ベクトルを決定することと;
前記画像コンテキスト・ベクトルを前記デコーダに供給しないことと;
前記画像コンテキスト・ベクトルと前記デコーダの前記現在の隠れ状態とをフィードフォワード・ニューラルネットワークに提出し、該フィードフォワード・ニューラルネットワークにキャプション語を発させることと;
前記デコーダを通じて語を処理すること、前記使うこと、前記供給しないことおよび前記提出することを、発されるキャプション語がキャプション終了トークンになるまで繰り返すこととを含む方法を実装するものである、
媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020068779A JP6946508B2 (ja) | 2016-11-18 | 2020-04-07 | 画像キャプション生成のための空間的注目モデル |
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662424353P | 2016-11-18 | 2016-11-18 | |
US62/424,353 | 2016-11-18 | ||
US15/817,161 US10565305B2 (en) | 2016-11-18 | 2017-11-17 | Adaptive attention model for image captioning |
US15/817,161 | 2017-11-17 | ||
US15/817,153 US10558750B2 (en) | 2016-11-18 | 2017-11-17 | Spatial attention model for image captioning |
US15/817,153 | 2017-11-17 | ||
PCT/US2017/062433 WO2018094294A1 (en) | 2016-11-18 | 2017-11-18 | Spatial attention model for image captioning |
US15/817,165 US10565306B2 (en) | 2016-11-18 | 2017-11-18 | Sentinel gate for modulating auxiliary information in a long short-term memory (LSTM) neural network |
US15/817,165 | 2017-11-18 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020068779A Division JP6946508B2 (ja) | 2016-11-18 | 2020-04-07 | 画像キャプション生成のための空間的注目モデル |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019537147A JP2019537147A (ja) | 2019-12-19 |
JP6689461B2 true JP6689461B2 (ja) | 2020-04-28 |
Family
ID=62147067
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019526275A Active JP6689461B2 (ja) | 2016-11-18 | 2017-11-18 | 画像キャプション生成のための空間的注目モデル |
JP2020068779A Active JP6946508B2 (ja) | 2016-11-18 | 2020-04-07 | 画像キャプション生成のための空間的注目モデル |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020068779A Active JP6946508B2 (ja) | 2016-11-18 | 2020-04-07 | 画像キャプション生成のための空間的注目モデル |
Country Status (5)
Country | Link |
---|---|
US (5) | US10558750B2 (ja) |
EP (2) | EP3542314B1 (ja) |
JP (2) | JP6689461B2 (ja) |
CN (1) | CN110168573B (ja) |
CA (2) | CA3040165C (ja) |
Families Citing this family (271)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016077797A1 (en) * | 2014-11-14 | 2016-05-19 | Google Inc. | Generating natural language descriptions of images |
US10229111B1 (en) * | 2016-02-03 | 2019-03-12 | Google Llc | Sentence compression using recurrent neural networks |
US10354168B2 (en) * | 2016-04-11 | 2019-07-16 | A2Ia S.A.S. | Systems and methods for recognizing characters in digitized documents |
US11409791B2 (en) | 2016-06-10 | 2022-08-09 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
US10552968B1 (en) | 2016-09-23 | 2020-02-04 | Snap Inc. | Dense feature scale detection for image matching |
US10402658B2 (en) * | 2016-11-03 | 2019-09-03 | Nec Corporation | Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation |
US10467274B1 (en) * | 2016-11-10 | 2019-11-05 | Snap Inc. | Deep reinforcement learning-based captioning with embedding reward |
US10198671B1 (en) * | 2016-11-10 | 2019-02-05 | Snap Inc. | Dense captioning with joint interference and visual context |
US10558750B2 (en) | 2016-11-18 | 2020-02-11 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
US10592751B2 (en) * | 2017-02-03 | 2020-03-17 | Fuji Xerox Co., Ltd. | Method and system to generate targeted captions and summarize long, continuous media files |
WO2018142378A1 (en) * | 2017-02-06 | 2018-08-09 | Deepmind Technologies Limited | Memory augmented generative temporal models |
JP6791780B2 (ja) * | 2017-02-16 | 2020-11-25 | 株式会社日立製作所 | 文章作成装置 |
US10387776B2 (en) * | 2017-03-10 | 2019-08-20 | Adobe Inc. | Recurrent neural network architectures which provide text describing images |
US11354565B2 (en) | 2017-03-15 | 2022-06-07 | Salesforce.Com, Inc. | Probability-based guider |
US11042782B2 (en) * | 2017-03-20 | 2021-06-22 | Intel Corporation | Topic-guided model for image captioning system |
US10810371B2 (en) | 2017-04-06 | 2020-10-20 | AIBrain Corporation | Adaptive, interactive, and cognitive reasoner of an autonomous robotic system |
US10929759B2 (en) | 2017-04-06 | 2021-02-23 | AIBrain Corporation | Intelligent robot software platform |
US10839017B2 (en) * | 2017-04-06 | 2020-11-17 | AIBrain Corporation | Adaptive, interactive, and cognitive reasoner of an autonomous robotic system utilizing an advanced memory graph structure |
US11151992B2 (en) | 2017-04-06 | 2021-10-19 | AIBrain Corporation | Context aware interactive robot |
US10963493B1 (en) | 2017-04-06 | 2021-03-30 | AIBrain Corporation | Interactive game with robot system |
US10565318B2 (en) | 2017-04-14 | 2020-02-18 | Salesforce.Com, Inc. | Neural machine translation with latent tree attention |
US11386327B2 (en) | 2017-05-18 | 2022-07-12 | Salesforce.Com, Inc. | Block-diagonal hessian-free optimization for recurrent and convolutional neural networks |
US10817650B2 (en) | 2017-05-19 | 2020-10-27 | Salesforce.Com, Inc. | Natural language processing using context specific word vectors |
US10089556B1 (en) * | 2017-06-12 | 2018-10-02 | Konica Minolta Laboratory U.S.A., Inc. | Self-attention deep neural network for action recognition in surveillance videos |
US11087211B2 (en) * | 2017-10-05 | 2021-08-10 | Salesforce.Com, Inc. | Convolutional neural network (CNN)-based suggestions for anomaly input |
WO2019081623A1 (en) * | 2017-10-25 | 2019-05-02 | Deepmind Technologies Limited | SELF-REGRESSIVE NEURAL NETWORK SYSTEMS INCLUDING A SOFTWARE ATTENTION MECHANISM USING SUPPORT DATA CORRECTIVES |
US11562287B2 (en) | 2017-10-27 | 2023-01-24 | Salesforce.Com, Inc. | Hierarchical and interpretable skill acquisition in multi-task reinforcement learning |
US10592767B2 (en) | 2017-10-27 | 2020-03-17 | Salesforce.Com, Inc. | Interpretable counting in visual question answering |
US11604956B2 (en) | 2017-10-27 | 2023-03-14 | Salesforce.Com, Inc. | Sequence-to-sequence prediction using a neural network model |
US11928600B2 (en) | 2017-10-27 | 2024-03-12 | Salesforce, Inc. | Sequence-to-sequence prediction using a neural network model |
US10573295B2 (en) | 2017-10-27 | 2020-02-25 | Salesforce.Com, Inc. | End-to-end speech recognition with policy learning |
US11170287B2 (en) | 2017-10-27 | 2021-11-09 | Salesforce.Com, Inc. | Generating dual sequence inferences using a neural network model |
US10542270B2 (en) | 2017-11-15 | 2020-01-21 | Salesforce.Com, Inc. | Dense video captioning |
US11276002B2 (en) | 2017-12-20 | 2022-03-15 | Salesforce.Com, Inc. | Hybrid training of deep networks |
CN108417217B (zh) * | 2018-01-11 | 2021-07-13 | 思必驰科技股份有限公司 | 说话人识别网络模型训练方法、说话人识别方法及系统 |
US11501076B2 (en) | 2018-02-09 | 2022-11-15 | Salesforce.Com, Inc. | Multitask learning as question answering |
US11227218B2 (en) | 2018-02-22 | 2022-01-18 | Salesforce.Com, Inc. | Question answering from minimal context over documents |
US10929607B2 (en) | 2018-02-22 | 2021-02-23 | Salesforce.Com, Inc. | Dialogue state tracking using a global-local encoder |
US11714994B2 (en) * | 2018-03-09 | 2023-08-01 | Deepmind Technologies Limited | Learning from delayed outcomes using neural networks |
US10783875B2 (en) | 2018-03-16 | 2020-09-22 | Salesforce.Com, Inc. | Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network |
US11106182B2 (en) | 2018-03-16 | 2021-08-31 | Salesforce.Com, Inc. | Systems and methods for learning for domain adaptation |
CN108921811B (zh) * | 2018-04-03 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 检测物品损伤的方法和装置、物品损伤检测器 |
JP7095376B2 (ja) * | 2018-04-17 | 2022-07-05 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
US10621990B2 (en) * | 2018-04-30 | 2020-04-14 | International Business Machines Corporation | Cognitive print speaker modeler |
EP3732633A1 (en) | 2018-05-18 | 2020-11-04 | Google LLC | Universal transformers |
US11600194B2 (en) | 2018-05-18 | 2023-03-07 | Salesforce.Com, Inc. | Multitask learning as question answering |
US10909157B2 (en) | 2018-05-22 | 2021-02-02 | Salesforce.Com, Inc. | Abstraction of text summarization |
US11631009B2 (en) | 2018-05-23 | 2023-04-18 | Salesforce.Com, Inc | Multi-hop knowledge graph reasoning with reward shaping |
CN108776779B (zh) * | 2018-05-25 | 2022-09-23 | 西安电子科技大学 | 基于卷积循环网络的sar序列图像目标识别方法 |
CN108898639A (zh) * | 2018-05-30 | 2018-11-27 | 湖北工业大学 | 一种图像描述方法及系统 |
CN108875807B (zh) * | 2018-05-31 | 2022-05-27 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
US10878276B2 (en) | 2018-06-05 | 2020-12-29 | Hrl Laboratories, Llc | Method and system for detecting change of context in video streams |
CN108829677B (zh) * | 2018-06-05 | 2021-05-07 | 大连理工大学 | 一种基于多模态注意力的图像标题自动生成方法 |
CN108427989B (zh) * | 2018-06-12 | 2019-10-11 | 中国人民解放军国防科技大学 | 一种用于雷达回波外推的深度时空预测神经网络训练方法 |
CN108985475B (zh) * | 2018-06-13 | 2021-07-23 | 厦门大学 | 基于深度神经网络的网约车召车需求预测方法 |
US10558761B2 (en) * | 2018-07-05 | 2020-02-11 | Disney Enterprises, Inc. | Alignment of video and textual sequences for metadata analysis |
CN108875076B (zh) * | 2018-07-10 | 2021-07-20 | 重庆大学 | 一种基于Attention机制和卷积神经网络的快速商标图像检索方法 |
CN108960338B (zh) * | 2018-07-18 | 2021-10-08 | 苏州科技大学 | 基于注意力反馈机制的图像自动语句标注方法 |
US11210475B2 (en) | 2018-07-23 | 2021-12-28 | Google Llc | Enhanced attention mechanisms |
CN109035233B (zh) * | 2018-07-24 | 2021-09-21 | 西安邮电大学 | 视觉注意力网络系统及工件表面缺陷检测方法 |
CN110851573A (zh) * | 2018-07-27 | 2020-02-28 | 北京京东尚科信息技术有限公司 | 语句处理方法、系统和电子设备 |
US10721190B2 (en) * | 2018-07-31 | 2020-07-21 | Microsoft Technology Licensing, Llc | Sequence to sequence to classification model for generating recommended messages |
KR102115483B1 (ko) * | 2018-08-09 | 2020-05-26 | 인하대학교 산학협력단 | 심층 신경망을 이용하여 표적 단백질과 결합하는 후보 압타머를 생성하는 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록 매체 및 후보 압타머를 생성하는 방법 |
CN109325109B (zh) * | 2018-08-27 | 2021-11-19 | 中国人民解放军国防科技大学 | 基于注意力编码器的抽取式新闻摘要生成装置 |
CN109165727A (zh) * | 2018-09-04 | 2019-01-08 | 成都品果科技有限公司 | 一种基于循环神经网络的数据预测方法 |
CN109271483B (zh) * | 2018-09-06 | 2022-03-15 | 中山大学 | 基于递进式多判别器的问题生成方法 |
US11514293B2 (en) * | 2018-09-11 | 2022-11-29 | Nvidia Corporation | Future object trajectory predictions for autonomous machine applications |
CN109299717B (zh) * | 2018-09-13 | 2021-08-17 | 网易(杭州)网络有限公司 | 文字识别模型建立及文字识别方法、装置、介质及设备 |
US10970486B2 (en) | 2018-09-18 | 2021-04-06 | Salesforce.Com, Inc. | Using unstructured input to update heterogeneous data stores |
US11436481B2 (en) | 2018-09-18 | 2022-09-06 | Salesforce.Com, Inc. | Systems and methods for named entity recognition |
US20200090035A1 (en) * | 2018-09-19 | 2020-03-19 | International Business Machines Corporation | Encoder-decoder memory-augmented neural network architectures |
US10804938B2 (en) * | 2018-09-25 | 2020-10-13 | Western Digital Technologies, Inc. | Decoding data using decoders and neural networks |
US11645509B2 (en) | 2018-09-27 | 2023-05-09 | Salesforce.Com, Inc. | Continual neural network learning via explicit structure learning |
US11029694B2 (en) | 2018-09-27 | 2021-06-08 | Salesforce.Com, Inc. | Self-aware visual-textual co-grounded navigation agent |
US11087177B2 (en) | 2018-09-27 | 2021-08-10 | Salesforce.Com, Inc. | Prediction-correction approach to zero shot learning |
US11514915B2 (en) | 2018-09-27 | 2022-11-29 | Salesforce.Com, Inc. | Global-to-local memory pointer networks for task-oriented dialogue |
US11308133B2 (en) * | 2018-09-28 | 2022-04-19 | International Business Machines Corporation | Entity matching using visual information |
CN109447242B (zh) * | 2018-10-10 | 2021-08-20 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
US11170257B2 (en) | 2018-10-15 | 2021-11-09 | Ancestry.Com Operations Inc. | Image captioning with weakly-supervised attention penalty |
US11741662B2 (en) | 2018-10-29 | 2023-08-29 | Autodesk, Inc. | Shaped-based techniques for exploring design spaces |
EP3874395A1 (en) * | 2018-10-29 | 2021-09-08 | Autodesk, Inc. | Shaped-based techniques for exploring design spaces |
US11380045B2 (en) * | 2018-10-29 | 2022-07-05 | Autodesk, Inc. | Shaped-based techniques for exploring design spaces |
CN109220226A (zh) * | 2018-10-31 | 2019-01-18 | 哈尔滨理工大学 | 果实自动识别分类及采摘的果园智能化系统 |
US11375293B2 (en) | 2018-10-31 | 2022-06-28 | Sony Interactive Entertainment Inc. | Textual annotation of acoustic effects |
US11636673B2 (en) * | 2018-10-31 | 2023-04-25 | Sony Interactive Entertainment Inc. | Scene annotation using machine learning |
US10977872B2 (en) | 2018-10-31 | 2021-04-13 | Sony Interactive Entertainment Inc. | Graphical style modification for video games using machine learning |
CN109446326B (zh) * | 2018-11-01 | 2021-04-20 | 大连理工大学 | 基于复制机制的生物医学事件联合抽取方法 |
US11010560B2 (en) * | 2018-11-08 | 2021-05-18 | International Business Machines Corporation | Multi-resolution convolutional neural networks for sequence modeling |
US10755099B2 (en) * | 2018-11-13 | 2020-08-25 | Adobe Inc. | Object detection in images |
US10929392B1 (en) * | 2018-11-16 | 2021-02-23 | Amazon Technologies, Inc. | Artificial intelligence system for automated generation of realistic question and answer pairs |
CN109543199B (zh) * | 2018-11-28 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 一种文本翻译的方法以及相关装置 |
US10915572B2 (en) | 2018-11-30 | 2021-02-09 | International Business Machines Corporation | Image captioning augmented with understanding of the surrounding text |
CN109359140B (zh) * | 2018-11-30 | 2022-09-09 | 苏州大学 | 一种基于自适应注意力的序列推荐方法及装置 |
US10726062B2 (en) * | 2018-11-30 | 2020-07-28 | Sony Interactive Entertainment Inc. | System and method for converting image data into a natural language description |
CN109635926B (zh) * | 2018-11-30 | 2021-11-05 | 深圳市商汤科技有限公司 | 用于神经网络的注意力特征获取方法、装置及存储介质 |
US11544531B2 (en) * | 2018-12-05 | 2023-01-03 | Seoul National University R&Db Foundation | Method and apparatus for generating story from plurality of images by using deep learning network |
US11822897B2 (en) | 2018-12-11 | 2023-11-21 | Salesforce.Com, Inc. | Systems and methods for structured text translation with tag alignment |
US10963652B2 (en) | 2018-12-11 | 2021-03-30 | Salesforce.Com, Inc. | Structured text translation |
CN109803222B (zh) * | 2018-12-13 | 2020-10-16 | 北京市天元网络技术股份有限公司 | 无线小区性能指标预测方法及装置 |
CN109376804B (zh) * | 2018-12-19 | 2020-10-30 | 中国地质大学(武汉) | 基于注意力机制和卷积神经网络高光谱遥感图像分类方法 |
CN109711463B (zh) * | 2018-12-25 | 2023-04-07 | 广东顺德西安交通大学研究院 | 基于注意力的重要对象检测方法 |
CN109711465B (zh) * | 2018-12-26 | 2022-12-06 | 西安电子科技大学 | 基于mll和asca-fr的图像字幕生成方法 |
CN109726696B (zh) * | 2019-01-03 | 2023-04-07 | 电子科技大学 | 基于推敲注意力机制的图像描述生成系统及方法 |
CN110096587B (zh) * | 2019-01-11 | 2020-07-07 | 杭州电子科技大学 | 基于注意力机制的lstm-cnn词嵌入的细粒度情感分类模型 |
US11922323B2 (en) | 2019-01-17 | 2024-03-05 | Salesforce, Inc. | Meta-reinforcement learning gradient estimation with variance reduction |
CN109857909B (zh) * | 2019-01-22 | 2020-11-20 | 杭州一知智能科技有限公司 | 多粒度卷积自注意力上下文网络解决视频对话任务的方法 |
CN109871777B (zh) * | 2019-01-23 | 2021-10-01 | 广州智慧城市发展研究院 | 一种基于注意力机制的行为识别系统 |
EP3899807A1 (en) * | 2019-01-23 | 2021-10-27 | Google LLC | Generating neural network outputs using insertion operations |
CN109829049B (zh) * | 2019-01-28 | 2021-06-01 | 杭州一知智能科技有限公司 | 利用知识库渐进时空注意力网络解决视频问答任务的方法 |
CN109863874B (zh) * | 2019-01-30 | 2021-12-14 | 深圳大学 | 一种基于机器视觉的果蔬采摘方法、采摘装置及存储介质 |
US12014143B2 (en) * | 2019-02-25 | 2024-06-18 | Disney Enterprises, Inc. | Techniques for performing contextual phrase grounding |
US11568306B2 (en) | 2019-02-25 | 2023-01-31 | Salesforce.Com, Inc. | Data privacy protected machine learning systems |
CN109902301B (zh) * | 2019-02-26 | 2023-02-10 | 广东工业大学 | 基于深度神经网络的关系推理方法、装置及设备 |
CN110119754B (zh) * | 2019-02-27 | 2022-03-29 | 北京邮电大学 | 图像生成描述方法、装置及模型 |
US11366969B2 (en) | 2019-03-04 | 2022-06-21 | Salesforce.Com, Inc. | Leveraging language models for generating commonsense explanations |
US11003867B2 (en) | 2019-03-04 | 2021-05-11 | Salesforce.Com, Inc. | Cross-lingual regularization for multilingual generalization |
US11087092B2 (en) | 2019-03-05 | 2021-08-10 | Salesforce.Com, Inc. | Agent persona grounded chit-chat generation framework |
US11580445B2 (en) | 2019-03-05 | 2023-02-14 | Salesforce.Com, Inc. | Efficient off-policy credit assignment |
US10956474B2 (en) | 2019-03-14 | 2021-03-23 | Microsoft Technology Licensing, Llc | Determination of best set of suggested responses |
CN109948700B (zh) * | 2019-03-19 | 2020-07-24 | 北京字节跳动网络技术有限公司 | 用于生成特征图的方法和装置 |
US10902289B2 (en) | 2019-03-22 | 2021-01-26 | Salesforce.Com, Inc. | Two-stage online detection of action start in untrimmed videos |
CN109977861B (zh) * | 2019-03-25 | 2023-06-20 | 中国科学技术大学 | 离线手写体数学公式识别方法 |
KR102389439B1 (ko) * | 2019-04-01 | 2022-04-22 | 명지대학교 산학협력단 | 가스절연개폐장치를 위한 딥러닝 기반 부분 방전 진단 장치 및 그 방법 |
CN110059878B (zh) * | 2019-04-15 | 2021-04-02 | 中国计量大学 | 基于cnn lstm光伏发电功率预测模型及其构建方法 |
US11281863B2 (en) | 2019-04-18 | 2022-03-22 | Salesforce.Com, Inc. | Systems and methods for unifying question answering and text classification via span extraction |
CN109874029B (zh) * | 2019-04-22 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 视频描述生成方法、装置、设备及存储介质 |
CN110084172B (zh) * | 2019-04-23 | 2022-07-29 | 北京字节跳动网络技术有限公司 | 文字识别方法、装置和电子设备 |
CN110084250B (zh) * | 2019-04-26 | 2024-03-12 | 北京金山数字娱乐科技有限公司 | 一种图像描述的方法及系统 |
US10885345B2 (en) * | 2019-04-29 | 2021-01-05 | Tencent America LLC | End-to-end video captioning with multi-task reinforcement learning |
US10713830B1 (en) * | 2019-05-13 | 2020-07-14 | Gyrfalcon Technology Inc. | Artificial intelligence based image caption creation systems and methods thereof |
US11487939B2 (en) | 2019-05-15 | 2022-11-01 | Salesforce.Com, Inc. | Systems and methods for unsupervised autoregressive text compression |
CN110209801B (zh) * | 2019-05-15 | 2021-05-14 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
US11562251B2 (en) | 2019-05-16 | 2023-01-24 | Salesforce.Com, Inc. | Learning world graphs to accelerate hierarchical reinforcement learning |
US11604965B2 (en) | 2019-05-16 | 2023-03-14 | Salesforce.Com, Inc. | Private deep learning |
US11620572B2 (en) | 2019-05-16 | 2023-04-04 | Salesforce.Com, Inc. | Solving sparse reward tasks using self-balancing shaped rewards |
CN110222840B (zh) * | 2019-05-17 | 2023-05-05 | 中山大学 | 一种基于注意力机制的集群资源预测方法和装置 |
US11669712B2 (en) | 2019-05-21 | 2023-06-06 | Salesforce.Com, Inc. | Robustness evaluation via natural typos |
US11687588B2 (en) | 2019-05-21 | 2023-06-27 | Salesforce.Com, Inc. | Weakly supervised natural language localization networks for video proposal prediction based on a text query |
US11775775B2 (en) | 2019-05-21 | 2023-10-03 | Salesforce.Com, Inc. | Systems and methods for reading comprehension for a question answering task |
JP7048540B2 (ja) * | 2019-05-22 | 2022-04-05 | 株式会社東芝 | 認識装置、認識方法及びプログラム |
US11657269B2 (en) | 2019-05-23 | 2023-05-23 | Salesforce.Com, Inc. | Systems and methods for verification of discriminative models |
CN110188775B (zh) * | 2019-05-28 | 2020-06-26 | 创意信息技术股份有限公司 | 一种基于联合神经网络模型的图像内容描述自动生成方法 |
CN110232413A (zh) * | 2019-05-31 | 2019-09-13 | 华北电力大学(保定) | 基于gru网络的绝缘子图像语义描述方法、系统、装置 |
CN110213462B (zh) * | 2019-06-13 | 2022-01-04 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备、图像处理电路及存储介质 |
CN110276396B (zh) * | 2019-06-21 | 2022-12-06 | 西安电子科技大学 | 基于物体显著性和跨模态融合特征的图片描述生成方法 |
CN110288029B (zh) * | 2019-06-27 | 2022-12-06 | 西安电子科技大学 | 基于Tri-LSTMs模型的图像描述方法 |
US11610125B2 (en) | 2019-07-03 | 2023-03-21 | Honda Motor Co., Ltd. | Sensor fusion |
US11580365B2 (en) * | 2019-07-03 | 2023-02-14 | Honda Motor Co., Ltd. | Sensor fusion |
CN110414571A (zh) * | 2019-07-05 | 2019-11-05 | 浙江网新数字技术有限公司 | 一种基于特征融合的网站报错截图分类方法 |
CN110334654A (zh) * | 2019-07-08 | 2019-10-15 | 北京地平线机器人技术研发有限公司 | 视频预测方法和装置、视频预测模型的训练方法及车辆 |
CN110570226B (zh) * | 2019-07-10 | 2020-05-22 | 杭州电子科技大学 | 一种联合主题模型和异质信息网络的评分预测方法 |
CN110348016B (zh) * | 2019-07-15 | 2022-06-14 | 昆明理工大学 | 基于句子关联注意力机制的文本摘要生成方法 |
CN110334689B (zh) * | 2019-07-16 | 2022-02-15 | 北京百度网讯科技有限公司 | 视频分类方法和装置 |
KR102400568B1 (ko) * | 2019-07-19 | 2022-05-24 | 울산대학교 산학협력단 | 인코더를 이용한 이미지의 특이 영역 분석 방법 및 장치 |
CN110598713B (zh) * | 2019-08-06 | 2022-05-06 | 厦门大学 | 基于深度神经网络的智能图像自动描述方法 |
US11615240B2 (en) | 2019-08-15 | 2023-03-28 | Salesforce.Com, Inc | Systems and methods for a transformer network with tree-based attention for natural language processing |
CN110364010A (zh) * | 2019-08-22 | 2019-10-22 | 三星电子(中国)研发中心 | 一种预测路况的导航方法及系统 |
CN110598029B (zh) * | 2019-09-06 | 2022-03-22 | 西安电子科技大学 | 基于注意力转移机制的细粒度图像分类方法 |
CN112465905A (zh) * | 2019-09-06 | 2021-03-09 | 四川大学华西医院 | 基于深度学习的磁共振成像数据的特征脑区定位方法 |
US11568000B2 (en) | 2019-09-24 | 2023-01-31 | Salesforce.Com, Inc. | System and method for automatic task-oriented dialog system |
US11599792B2 (en) | 2019-09-24 | 2023-03-07 | Salesforce.Com, Inc. | System and method for learning with noisy labels as semi-supervised learning |
US11640527B2 (en) | 2019-09-25 | 2023-05-02 | Salesforce.Com, Inc. | Near-zero-cost differentially private deep learning with teacher ensembles |
CN110672343B (zh) * | 2019-09-29 | 2021-01-26 | 电子科技大学 | 基于多注意力卷积神经网络的旋转机械故障诊断方法 |
CN112580658B (zh) * | 2019-09-29 | 2024-03-12 | 中国移动通信集团辽宁有限公司 | 图像语义描述方法、装置、计算设备及计算机存储介质 |
CN110738247B (zh) * | 2019-09-30 | 2020-08-25 | 中国科学院大学 | 一种基于选择性稀疏采样的细粒度图像分类方法 |
CN110717345B (zh) * | 2019-10-15 | 2020-07-07 | 内蒙古工业大学 | 一种译文重对齐的循环神经网络跨语言机器翻译方法 |
CN110750652A (zh) * | 2019-10-21 | 2020-02-04 | 广西大学 | 结合上下文实体词和知识的故事结局生成方法 |
KR102526263B1 (ko) * | 2019-10-22 | 2023-04-27 | 한국전자기술연구원 | 이미지 다중 캡션 자동 생성 방법 및 시스템 |
KR20220093171A (ko) * | 2019-11-06 | 2022-07-05 | 나노트로닉스 이미징, 인코포레이티드 | 제조 공정을 위한 시스템, 방법 및 매체 |
US11620515B2 (en) | 2019-11-07 | 2023-04-04 | Salesforce.Com, Inc. | Multi-task knowledge distillation for language model |
US11481563B2 (en) * | 2019-11-08 | 2022-10-25 | Adobe Inc. | Translating texts for videos based on video context |
US11347708B2 (en) | 2019-11-11 | 2022-05-31 | Salesforce.Com, Inc. | System and method for unsupervised density based table structure identification |
CN110852273B (zh) * | 2019-11-12 | 2023-05-16 | 重庆大学 | 一种基于强化学习注意力机制的行为识别方法 |
US11288438B2 (en) | 2019-11-15 | 2022-03-29 | Salesforce.Com, Inc. | Bi-directional spatial-temporal reasoning for video-grounded dialogues |
US11334766B2 (en) | 2019-11-15 | 2022-05-17 | Salesforce.Com, Inc. | Noise-resistant object detection with noisy annotations |
US11481636B2 (en) | 2019-11-18 | 2022-10-25 | Salesforce.Com, Inc. | Systems and methods for out-of-distribution classification |
US11922303B2 (en) | 2019-11-18 | 2024-03-05 | Salesforce, Inc. | Systems and methods for distilled BERT-based training model for text classification |
CN111223071A (zh) * | 2019-11-20 | 2020-06-02 | 智洋创新科技股份有限公司 | 基于深度学习技术的输电线路场景语义理解方法 |
CN110889361A (zh) * | 2019-11-20 | 2020-03-17 | 北京影谱科技股份有限公司 | 基于图像序列的orb特征视觉里程计学习方法和装置 |
CN110866510A (zh) * | 2019-11-21 | 2020-03-06 | 山东浪潮人工智能研究院有限公司 | 一种基于关键帧检测的视频描述系统和方法 |
RU2742602C1 (ru) * | 2020-04-06 | 2021-02-09 | Самсунг Электроникс Ко., Лтд. | Распознавание событий на фотографиях с автоматическим выделением альбомов |
CN110866140B (zh) * | 2019-11-26 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 图像特征提取模型训练方法、图像搜索方法及计算机设备 |
CN110890985B (zh) * | 2019-11-27 | 2021-01-12 | 北京邮电大学 | 虚拟网络映射方法及其模型训练方法、装置 |
JP7451156B2 (ja) * | 2019-12-04 | 2024-03-18 | キヤノンメディカルシステムズ株式会社 | 診療支援装置 |
CN111079084B (zh) * | 2019-12-04 | 2021-09-10 | 清华大学 | 一种基于长短时记忆网络的信息转发概率预测方法及系统 |
US11487999B2 (en) | 2019-12-09 | 2022-11-01 | Salesforce.Com, Inc. | Spatial-temporal reasoning through pretrained language models for video-grounded dialogues |
US11573957B2 (en) | 2019-12-09 | 2023-02-07 | Salesforce.Com, Inc. | Natural language processing engine for translating questions into executable database queries |
US11416688B2 (en) | 2019-12-09 | 2022-08-16 | Salesforce.Com, Inc. | Learning dialogue state tracking with limited labeled data |
US11256754B2 (en) | 2019-12-09 | 2022-02-22 | Salesforce.Com, Inc. | Systems and methods for generating natural language processing training samples with inflectional perturbations |
US11640505B2 (en) | 2019-12-09 | 2023-05-02 | Salesforce.Com, Inc. | Systems and methods for explicit memory tracker with coarse-to-fine reasoning in conversational machine reading |
CN111026869B (zh) * | 2019-12-10 | 2020-08-18 | 山东大学 | 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法 |
CN111126258B (zh) * | 2019-12-23 | 2023-06-23 | 深圳市华尊科技股份有限公司 | 图像识别方法及相关装置 |
JP7422535B2 (ja) | 2019-12-23 | 2024-01-26 | 日本放送協会 | 変換装置およびプログラム |
US10699715B1 (en) * | 2019-12-27 | 2020-06-30 | Alphonso Inc. | Text independent speaker-verification on a media operating system using deep learning on raw waveforms |
WO2021141576A1 (en) * | 2020-01-08 | 2021-07-15 | Google, Llc | Translation of text depicted in images |
US11669745B2 (en) | 2020-01-13 | 2023-06-06 | Salesforce.Com, Inc. | Proposal learning for semi-supervised object detection |
CN111260740B (zh) * | 2020-01-16 | 2023-05-23 | 华南理工大学 | 一种基于生成对抗网络的文本到图像生成方法 |
CN111310764B (zh) * | 2020-01-20 | 2024-03-26 | 上海商汤智能科技有限公司 | 网络训练、图像处理方法及装置、电子设备和存储介质 |
CN111275118B (zh) * | 2020-01-22 | 2022-09-16 | 复旦大学 | 基于自我修正式标签生成网络的胸片多标签分类方法 |
US11562147B2 (en) | 2020-01-23 | 2023-01-24 | Salesforce.Com, Inc. | Unified vision and dialogue transformer with BERT |
JP7191054B2 (ja) * | 2020-01-29 | 2022-12-16 | Kddi株式会社 | マルチメディアデータからテキストを推論するプログラム、装置及び方法 |
US20210249105A1 (en) | 2020-02-06 | 2021-08-12 | Salesforce.Com, Inc. | Systems and methods for language modeling of protein engineering |
KR20210101374A (ko) * | 2020-02-07 | 2021-08-19 | 삼성전자주식회사 | 오디오 신호 제공 방법 및 장치 |
CN111275971A (zh) * | 2020-02-18 | 2020-06-12 | 山西交通控股集团有限公司 | 一种高速公路交通流量预测方法 |
CN111368898B (zh) * | 2020-02-28 | 2022-10-25 | 同济大学 | 一种基于长短时记忆网络变体的图像描述生成方法 |
CN111507101B (zh) * | 2020-03-03 | 2020-12-15 | 杭州电子科技大学 | 一种基于多层次语义胶囊路由的反讽检测方法 |
CN111414505B (zh) * | 2020-03-11 | 2023-10-20 | 上海爱数信息技术股份有限公司 | 一种基于序列生成模型的快速图像摘要生成方法 |
CN111368773A (zh) * | 2020-03-12 | 2020-07-03 | 广东小天才科技有限公司 | 数学公式识别方法及装置、终端设备和可读存储介质 |
US11443168B2 (en) | 2020-03-13 | 2022-09-13 | EMC IP Holding Company LLC | Log analysis system employing long short-term memory recurrent neural net works |
CN111325751B (zh) * | 2020-03-18 | 2022-05-27 | 重庆理工大学 | 基于注意力卷积神经网络的ct图像分割系统 |
US11263476B2 (en) | 2020-03-19 | 2022-03-01 | Salesforce.Com, Inc. | Unsupervised representation learning with contrastive prototypes |
CN111476775B (zh) * | 2020-04-07 | 2021-11-16 | 广州柏视医疗科技有限公司 | Dr征象识别装置和方法 |
US11328731B2 (en) | 2020-04-08 | 2022-05-10 | Salesforce.Com, Inc. | Phone-based sub-word units for end-to-end speech recognition |
CN111488486B (zh) * | 2020-04-20 | 2021-08-17 | 武汉大学 | 一种基于多音源分离的电子音乐分类方法及系统 |
CN111553290A (zh) * | 2020-04-30 | 2020-08-18 | 北京市商汤科技开发有限公司 | 文本识别方法、装置、设备及存储介质 |
CN111581961B (zh) * | 2020-05-06 | 2022-06-21 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN111737458B (zh) * | 2020-05-21 | 2024-05-21 | 深圳赛安特技术服务有限公司 | 基于注意力机制的意图识别方法、装置、设备及存储介质 |
KR20210145490A (ko) | 2020-05-25 | 2021-12-02 | 삼성전자주식회사 | 어텐션 기반 시퀀스 투 시퀀스 모델의 성능 향상 방법 및 장치 |
US11625543B2 (en) | 2020-05-31 | 2023-04-11 | Salesforce.Com, Inc. | Systems and methods for composed variational natural language generation |
US11720559B2 (en) | 2020-06-02 | 2023-08-08 | Salesforce.Com, Inc. | Bridging textual and tabular data for cross domain text-to-query language semantic parsing with a pre-trained transformer language encoder and anchor text |
US20230140634A1 (en) | 2020-06-15 | 2023-05-04 | Universidade Do Porto | Multi-convolutional two-dimensional attention unit for analysis of a multivariable time series three-dimensional input data |
CN111860235B (zh) * | 2020-07-06 | 2021-08-06 | 中国科学院空天信息创新研究院 | 高低层特征融合的注意力遥感图像描述的生成方法及系统 |
US11763544B2 (en) | 2020-07-07 | 2023-09-19 | International Business Machines Corporation | Denoising autoencoder image captioning |
US11334769B2 (en) * | 2020-07-07 | 2022-05-17 | International Business Machines Corporation | Mixup image captioning |
US11651522B2 (en) | 2020-07-08 | 2023-05-16 | International Business Machines Corporation | Adaptive cycle consistency multimodal image captioning |
CN111949824B (zh) * | 2020-07-08 | 2023-11-03 | 合肥工业大学 | 基于语义对齐的视觉问答方法和系统、存储介质 |
CN111814468B (zh) * | 2020-07-09 | 2021-02-26 | 前海企保科技(深圳)有限公司 | 一种自适应架构语义分布文本理解方法及系统 |
CN111813895B (zh) * | 2020-08-07 | 2022-06-03 | 深圳职业技术学院 | 一种基于层次注意力机制和门机制的属性级别情感分析方法 |
US11625436B2 (en) | 2020-08-14 | 2023-04-11 | Salesforce.Com, Inc. | Systems and methods for query autocompletion |
US11934952B2 (en) | 2020-08-21 | 2024-03-19 | Salesforce, Inc. | Systems and methods for natural language processing using joint energy-based models |
US11934781B2 (en) | 2020-08-28 | 2024-03-19 | Salesforce, Inc. | Systems and methods for controllable text summarization |
CN112016493A (zh) * | 2020-09-03 | 2020-12-01 | 科大讯飞股份有限公司 | 图像描述方法、装置、电子设备及存储介质 |
CN112052906B (zh) * | 2020-09-14 | 2024-02-02 | 南京大学 | 一种基于指针网络的图像描述优化方法 |
CN112116685A (zh) * | 2020-09-16 | 2020-12-22 | 中国石油大学(华东) | 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法 |
KR20220037764A (ko) * | 2020-09-18 | 2022-03-25 | 삼성전자주식회사 | 영상 처리 장치 및 그 동작방법 |
CN112287665B (zh) * | 2020-10-19 | 2024-05-03 | 南京南邮信息产业技术研究院有限公司 | 基于自然语言处理和集成训练的慢病数据分析方法及系统 |
CN112418012B (zh) * | 2020-11-09 | 2022-06-07 | 武汉大学 | 一种基于时空注意力模型的视频摘要生成方法 |
US11829442B2 (en) | 2020-11-16 | 2023-11-28 | Salesforce.Com, Inc. | Methods and systems for efficient batch active learning of a deep neural network |
CN112528989B (zh) * | 2020-12-01 | 2022-10-18 | 重庆邮电大学 | 一种图像语义细粒度的描述生成方法 |
CN112508096B (zh) * | 2020-12-08 | 2022-03-25 | 电子科技大学 | 一种基于几何自注意力机制的图像自动标注方法 |
CN112598170B (zh) * | 2020-12-18 | 2022-10-28 | 中国科学技术大学 | 基于多组件融合时间网络的车辆尾气排放预测方法及系统 |
CN112560454B (zh) * | 2020-12-22 | 2023-06-13 | 广东工业大学 | 双语图像字幕生成方法、系统、储存介质及计算机设备 |
US11715469B2 (en) * | 2021-02-26 | 2023-08-01 | Walmart Apollo, Llc | Methods and apparatus for improving search retrieval using inter-utterance context |
CN113139575B (zh) * | 2021-03-18 | 2022-03-01 | 杭州电子科技大学 | 一种基于条件嵌入预训练语言模型的图像标题生成方法 |
WO2022232382A1 (en) * | 2021-04-28 | 2022-11-03 | Neumora Therapeutics, Inc. | Multi-modal input processing |
CN113205507B (zh) * | 2021-05-18 | 2023-03-10 | 合肥工业大学 | 一种视觉问答方法、系统及服务器 |
CN113327239A (zh) * | 2021-06-10 | 2021-08-31 | 温州大学 | 一种增强注意力区域生成网络的小样本目标检测方法 |
US11681364B1 (en) * | 2021-06-29 | 2023-06-20 | Amazon Technologies, Inc. | Gaze prediction |
CN113628288B (zh) * | 2021-07-06 | 2024-05-31 | 上海电力大学 | 一种基于编-解码器结构的可控图像字幕生成优化方法 |
CN113515951B (zh) * | 2021-07-19 | 2022-07-05 | 同济大学 | 基于知识增强注意力网络和组级语义的故事描述生成方法 |
CN113673241B (zh) * | 2021-08-03 | 2024-04-09 | 之江实验室 | 一种基于范例学习的文本摘要生成框架系统及方法 |
CN113609285B (zh) * | 2021-08-09 | 2024-05-14 | 福州大学 | 一种基于依赖门控融合机制的多模态文本摘要系统 |
CN113642634A (zh) * | 2021-08-12 | 2021-11-12 | 南京邮电大学 | 一种基于混合注意力的阴影检测方法 |
CN113792617B (zh) * | 2021-08-26 | 2023-04-18 | 电子科技大学 | 一种结合图像信息和文本信息的图像解译方法 |
US11954144B2 (en) | 2021-08-26 | 2024-04-09 | International Business Machines Corporation | Training visual language grounding models using separation loss |
CN113837230A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 基于自适应注意力机制的图像描述生成方法 |
CN113688822A (zh) * | 2021-09-07 | 2021-11-23 | 河南工业大学 | 一种时序注意力机制场景图像识别方法 |
CN113595637B (zh) * | 2021-09-27 | 2022-01-25 | 清华大学 | 全光感算一体光场智能处理系统及方法 |
CN113901247A (zh) * | 2021-10-09 | 2022-01-07 | 上海脉衍人工智能科技有限公司 | 一种光学图像目标检测的方法及计算设备 |
CN113918754A (zh) * | 2021-11-01 | 2022-01-11 | 中国石油大学(华东) | 基于场景图更新与特征拼接的图像字幕生成方法 |
EP4184393A1 (en) * | 2021-11-17 | 2023-05-24 | Tata Consultancy Services Limited | Method and system for attentive one shot meta imitation learning from visual demonstration |
CN114239594B (zh) * | 2021-12-06 | 2024-03-08 | 西北工业大学 | 基于注意力机制的自然语言视觉推理方法 |
CN114399646B (zh) * | 2021-12-21 | 2022-09-20 | 北京中科明彦科技有限公司 | 一种基于Transformer结构的图像描述方法和装置 |
CN114782848B (zh) * | 2022-03-10 | 2024-03-26 | 沈阳雅译网络技术有限公司 | 一种应用特征金字塔的图片字幕生成方法 |
CN114782702A (zh) * | 2022-03-23 | 2022-07-22 | 成都瑞数猛兽科技有限公司 | 一种基于三层lstm推敲网络的图像语义理解算法 |
CN114743027B (zh) * | 2022-04-11 | 2023-01-31 | 郑州轻工业大学 | 弱监督学习引导的协同显著性检测方法 |
CN114972774A (zh) * | 2022-04-20 | 2022-08-30 | 平安科技(深圳)有限公司 | 特定区域的图像描述生成方法、装置、设备及存储介质 |
WO2024023884A1 (ja) * | 2022-07-25 | 2024-02-01 | 日本電信電話株式会社 | 画像キャプション生成モデル学習装置、画像キャプション生成装置、画像キャプション生成モデル学習方法、画像キャプション生成方法、プログラム |
CN115631285B (zh) * | 2022-11-25 | 2023-05-02 | 北京红棉小冰科技有限公司 | 基于统一驱动的人脸渲染方法、装置、设备及存储介质 |
CN116543289B (zh) * | 2023-05-10 | 2023-11-21 | 南通大学 | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 |
CN116343190B (zh) * | 2023-05-30 | 2023-08-29 | 中国科学技术大学 | 自然场景文字识别方法、系统、设备及存储介质 |
Family Cites Families (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6892193B2 (en) * | 2001-05-10 | 2005-05-10 | International Business Machines Corporation | Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities |
US8879857B2 (en) * | 2005-09-27 | 2014-11-04 | Qualcomm Incorporated | Redundant data encoding methods and device |
US8355550B2 (en) | 2007-05-01 | 2013-01-15 | Siemens Aktiengesellschaft | Methods and apparatus for virtual coronary mapping |
US8121367B2 (en) | 2007-09-21 | 2012-02-21 | Siemens Aktiengesellschaft | Method and system for vessel segmentation in fluoroscopic images |
US8385971B2 (en) | 2008-08-19 | 2013-02-26 | Digimarc Corporation | Methods and systems for content processing |
US9620108B2 (en) | 2013-12-10 | 2017-04-11 | Google Inc. | Processing acoustic sequences using long short-term memory (LSTM) neural networks that include recurrent projection layers |
US10181098B2 (en) * | 2014-06-06 | 2019-01-15 | Google Llc | Generating representations of input sequences using neural networks |
EP3186753B1 (en) | 2014-08-29 | 2021-04-28 | Google LLC | Processing images using deep neural networks |
US9570069B2 (en) | 2014-09-09 | 2017-02-14 | Disney Enterprises, Inc. | Sectioned memory networks for online word-spotting in continuous speech |
US10783900B2 (en) | 2014-10-03 | 2020-09-22 | Google Llc | Convolutional, long short-term memory, fully connected deep neural networks |
WO2016077797A1 (en) | 2014-11-14 | 2016-05-19 | Google Inc. | Generating natural language descriptions of images |
US9508340B2 (en) * | 2014-12-22 | 2016-11-29 | Google Inc. | User specified keyword spotting using long short term memory neural network feature extractor |
EP3238015A4 (en) | 2014-12-22 | 2019-01-23 | Robert Bosch GmbH | VISUAL CONTEXT SENSITIVE SYSTEM BASED ON A FIRST PERSON CAMERA |
KR102449837B1 (ko) | 2015-02-23 | 2022-09-30 | 삼성전자주식회사 | 신경망 학습 방법 및 장치, 및 인식 방법 및 장치 |
US9678664B2 (en) | 2015-04-10 | 2017-06-13 | Google Inc. | Neural network for keyboard input decoding |
US10909329B2 (en) | 2015-05-21 | 2021-02-02 | Baidu Usa Llc | Multilingual image question answering |
US11113598B2 (en) * | 2015-06-01 | 2021-09-07 | Salesforce.Com, Inc. | Dynamic memory network |
US20160350653A1 (en) | 2015-06-01 | 2016-12-01 | Salesforce.Com, Inc. | Dynamic Memory Network |
US10542961B2 (en) * | 2015-06-15 | 2020-01-28 | The Research Foundation For The State University Of New York | System and method for infrasonic cardiac monitoring |
US20170140240A1 (en) | 2015-07-27 | 2017-05-18 | Salesforce.Com, Inc. | Neural network combined image and text evaluator and classifier |
US20170032280A1 (en) | 2015-07-27 | 2017-02-02 | Salesforce.Com, Inc. | Engagement estimator |
EP3582151A1 (en) | 2015-08-15 | 2019-12-18 | Salesforce.com, Inc. | Three-dimensional (3d) convolution with 3d batch normalization |
US10133729B2 (en) * | 2015-08-28 | 2018-11-20 | Microsoft Technology Licensing, Llc | Semantically-relevant discovery of solutions |
US10423874B2 (en) | 2015-10-02 | 2019-09-24 | Baidu Usa Llc | Intelligent image captioning |
US10395118B2 (en) | 2015-10-29 | 2019-08-27 | Baidu Usa Llc | Systems and methods for video paragraph captioning using hierarchical recurrent neural networks |
US10013640B1 (en) | 2015-12-21 | 2018-07-03 | Google Llc | Object recognition from videos using recurrent neural networks |
US10268671B2 (en) * | 2015-12-31 | 2019-04-23 | Google Llc | Generating parse trees of text segments using neural networks |
US9811765B2 (en) * | 2016-01-13 | 2017-11-07 | Adobe Systems Incorporated | Image captioning with weak supervision |
US9792534B2 (en) * | 2016-01-13 | 2017-10-17 | Adobe Systems Incorporated | Semantic natural language vector space |
US9830709B2 (en) | 2016-03-11 | 2017-11-28 | Qualcomm Incorporated | Video analysis with convolutional attention recurrent neural networks |
US10997233B2 (en) | 2016-04-12 | 2021-05-04 | Microsoft Technology Licensing, Llc | Multi-stage image querying |
US9760806B1 (en) | 2016-05-11 | 2017-09-12 | TCL Research America Inc. | Method and system for vision-centric deep-learning-based road situation analysis |
US11409791B2 (en) | 2016-06-10 | 2022-08-09 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
KR20180003123A (ko) * | 2016-06-30 | 2018-01-09 | 삼성전자주식회사 | 메모리 셀 유닛 및 메모리 셀 유닛들을 포함하는 순환 신경망 |
US10154051B2 (en) | 2016-08-31 | 2018-12-11 | Cisco Technology, Inc. | Automatic detection of network threats based on modeling sequential behavior in network traffic |
US10565493B2 (en) | 2016-09-22 | 2020-02-18 | Salesforce.Com, Inc. | Pointer sentinel mixture architecture |
KR102323548B1 (ko) * | 2016-09-26 | 2021-11-08 | 구글 엘엘씨 | 신경 기계 번역 시스템 |
US20180096267A1 (en) | 2016-09-30 | 2018-04-05 | Salesforce.Com, Inc. | Single model-based behavior predictions in an on-demand environment |
EP3523702B1 (en) * | 2016-10-05 | 2020-07-01 | Telecom Italia S.p.A. | Method and system for estimating energy generation based on solar irradiance forecasting |
US11093813B2 (en) * | 2016-10-20 | 2021-08-17 | Google Llc | Answer to question neural networks |
US11042796B2 (en) | 2016-11-03 | 2021-06-22 | Salesforce.Com, Inc. | Training a joint many-task neural network model using successive regularization |
US11087199B2 (en) * | 2016-11-03 | 2021-08-10 | Nec Corporation | Context-aware attention-based neural network for interactive question answering |
US10402658B2 (en) | 2016-11-03 | 2019-09-03 | Nec Corporation | Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation |
US10963782B2 (en) | 2016-11-04 | 2021-03-30 | Salesforce.Com, Inc. | Dynamic coattention network for question answering |
US20180129937A1 (en) | 2016-11-04 | 2018-05-10 | Salesforce.Com, Inc. | Quasi-recurrent neural network |
US10558750B2 (en) * | 2016-11-18 | 2020-02-11 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
WO2018094294A1 (en) | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
US11354565B2 (en) | 2017-03-15 | 2022-06-07 | Salesforce.Com, Inc. | Probability-based guider |
US10474709B2 (en) | 2017-04-14 | 2019-11-12 | Salesforce.Com, Inc. | Deep reinforced model for abstractive summarization |
US10565318B2 (en) | 2017-04-14 | 2020-02-18 | Salesforce.Com, Inc. | Neural machine translation with latent tree attention |
US11386327B2 (en) | 2017-05-18 | 2022-07-12 | Salesforce.Com, Inc. | Block-diagonal hessian-free optimization for recurrent and convolutional neural networks |
US10747761B2 (en) | 2017-05-18 | 2020-08-18 | Salesforce.Com, Inc. | Neural network based translation of natural language queries to database queries |
US10817650B2 (en) | 2017-05-19 | 2020-10-27 | Salesforce.Com, Inc. | Natural language processing using context specific word vectors |
US12014257B2 (en) | 2017-05-19 | 2024-06-18 | Salesforce, Inc. | Domain specific language for generation of recurrent neural network architectures |
US11093816B2 (en) | 2017-10-05 | 2021-08-17 | Salesforce.Com, Inc. | Convolutional neural network (CNN)-based anomaly detection |
US11087211B2 (en) | 2017-10-05 | 2021-08-10 | Salesforce.Com, Inc. | Convolutional neural network (CNN)-based suggestions for anomaly input |
US20190130896A1 (en) | 2017-10-26 | 2019-05-02 | Salesforce.Com, Inc. | Regularization Techniques for End-To-End Speech Recognition |
US10592767B2 (en) | 2017-10-27 | 2020-03-17 | Salesforce.Com, Inc. | Interpretable counting in visual question answering |
US11928600B2 (en) | 2017-10-27 | 2024-03-12 | Salesforce, Inc. | Sequence-to-sequence prediction using a neural network model |
US10573295B2 (en) | 2017-10-27 | 2020-02-25 | Salesforce.Com, Inc. | End-to-end speech recognition with policy learning |
US11604956B2 (en) | 2017-10-27 | 2023-03-14 | Salesforce.Com, Inc. | Sequence-to-sequence prediction using a neural network model |
US11170287B2 (en) | 2017-10-27 | 2021-11-09 | Salesforce.Com, Inc. | Generating dual sequence inferences using a neural network model |
US11562287B2 (en) | 2017-10-27 | 2023-01-24 | Salesforce.Com, Inc. | Hierarchical and interpretable skill acquisition in multi-task reinforcement learning |
US10346721B2 (en) | 2017-11-01 | 2019-07-09 | Salesforce.Com, Inc. | Training a neural network using augmented training datasets |
US10542270B2 (en) | 2017-11-15 | 2020-01-21 | Salesforce.Com, Inc. | Dense video captioning |
US11276002B2 (en) | 2017-12-20 | 2022-03-15 | Salesforce.Com, Inc. | Hybrid training of deep networks |
US11501076B2 (en) | 2018-02-09 | 2022-11-15 | Salesforce.Com, Inc. | Multitask learning as question answering |
US10929607B2 (en) | 2018-02-22 | 2021-02-23 | Salesforce.Com, Inc. | Dialogue state tracking using a global-local encoder |
US11227218B2 (en) | 2018-02-22 | 2022-01-18 | Salesforce.Com, Inc. | Question answering from minimal context over documents |
-
2017
- 2017-11-17 US US15/817,153 patent/US10558750B2/en active Active
- 2017-11-17 US US15/817,161 patent/US10565305B2/en active Active
- 2017-11-18 EP EP17821750.1A patent/EP3542314B1/en active Active
- 2017-11-18 CN CN201780071579.2A patent/CN110168573B/zh active Active
- 2017-11-18 CA CA3040165A patent/CA3040165C/en active Active
- 2017-11-18 CA CA3128692A patent/CA3128692A1/en not_active Abandoned
- 2017-11-18 JP JP2019526275A patent/JP6689461B2/ja active Active
- 2017-11-18 US US15/817,165 patent/US10565306B2/en active Active
- 2017-11-18 EP EP21167276.1A patent/EP3869416A1/en active Pending
-
2019
- 2019-10-23 US US16/661,869 patent/US10846478B2/en active Active
- 2019-10-30 US US16/668,333 patent/US11244111B2/en active Active
-
2020
- 2020-04-07 JP JP2020068779A patent/JP6946508B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US20200057805A1 (en) | 2020-02-20 |
JP6946508B2 (ja) | 2021-10-06 |
EP3869416A1 (en) | 2021-08-25 |
EP3542314A1 (en) | 2019-09-25 |
CN110168573A (zh) | 2019-08-23 |
US10846478B2 (en) | 2020-11-24 |
US10558750B2 (en) | 2020-02-11 |
US20200117854A1 (en) | 2020-04-16 |
US10565305B2 (en) | 2020-02-18 |
US20180143966A1 (en) | 2018-05-24 |
JP2019537147A (ja) | 2019-12-19 |
US20180144248A1 (en) | 2018-05-24 |
CN110168573B (zh) | 2023-09-26 |
US20180144208A1 (en) | 2018-05-24 |
US10565306B2 (en) | 2020-02-18 |
EP3542314B1 (en) | 2021-05-26 |
JP2020123372A (ja) | 2020-08-13 |
CA3128692A1 (en) | 2018-05-24 |
US11244111B2 (en) | 2022-02-08 |
CA3040165A1 (en) | 2018-05-24 |
CA3040165C (en) | 2021-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6689461B2 (ja) | 画像キャプション生成のための空間的注目モデル | |
JP6972265B2 (ja) | ポインタセンチネル混合アーキテクチャ | |
WO2018094294A1 (en) | Spatial attention model for image captioning | |
JP6873236B2 (ja) | 質問応答のための動的相互注目ネットワーク | |
Lu et al. | Knowing when to look: Adaptive attention via a visual sentinel for image captioning | |
Lakkaraju et al. | Rethinking explainability as a dialogue: A practitioner's perspective | |
CN113268609B (zh) | 基于知识图谱的对话内容推荐方法、装置、设备及介质 | |
Steels et al. | How to make construction grammars fluid and robust | |
US20180307745A1 (en) | Determining if an action can be performed based on a dialogue | |
US11481609B2 (en) | Computationally efficient expressive output layers for neural networks | |
Crocker | Rational models of comprehension: Addressing the performance paradox | |
Peters | Design and implementation of a chatbot in the context of customer support | |
Bicknell et al. | Word predictability and frequency effects in a rational model of reading | |
KR20230017578A (ko) | 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술 | |
CN113378561A (zh) | 词语预测模板生成方法及装置 | |
US11797610B1 (en) | Knowledge acquisition tool | |
US20230124177A1 (en) | System and method for training a sparse neural network whilst maintaining sparsity | |
Poitier et al. | Towards better transition modeling in recurrent neural networks: The case of sign language tokenization | |
Bhandari | Speech-To-Model: A Framework for Creating Software Models Using Voice Commands | |
Magnuson et al. | Interactions of length and overlap in the TRACE model of spoken word recognition. | |
Wehenkel | University of Liège-Faculty of Applied Sciences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190516 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190516 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190516 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20191010 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200310 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200407 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6689461 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |