JP2019535063A - マルチモーダルフュージョンモデルのための方法及びシステム - Google Patents
マルチモーダルフュージョンモデルのための方法及びシステム Download PDFInfo
- Publication number
- JP2019535063A JP2019535063A JP2019513858A JP2019513858A JP2019535063A JP 2019535063 A JP2019535063 A JP 2019535063A JP 2019513858 A JP2019513858 A JP 2019513858A JP 2019513858 A JP2019513858 A JP 2019513858A JP 2019535063 A JP2019535063 A JP 2019535063A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- modal
- feature
- content
- content vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 60
- 230000004927 fusion Effects 0.000 title description 36
- 239000013598 vector Substances 0.000 claims abstract description 307
- 230000015654 memory Effects 0.000 claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims 2
- 230000009471 action Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 12
- 238000000605 extraction Methods 0.000 description 11
- 230000004913 activation Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000007796 conventional method Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 238000007500 overflow downdraw method Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000013519 translation Methods 0.000 description 5
- 235000019987 cider Nutrition 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000020411 cell activation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234336—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
ビデオ記述に対する一手法は、シーケンスツーシーケンス(sequence-to-sequence)学習に基づくものとすることができる。入力シーケンス、すなわち画像シーケンスは、まず、固定次元セマンティックベクトルに符号化される。その後、このセマンティックベクトルから、出力シーケンス、すなわち単語シーケンスが生成される。この場合、符号化器及び復号器(又は生成器)の双方は、通常、長期短期記憶(LSTM:Long Short-Term Memory)ネットワークとしてモデル化される。
ビデオ記述に対する別の手法は、アテンションベースシーケンス生成器とすることができ、これは、ネットワークが、現在のコンテキストに依拠して特定の時間又は空間領域から特徴を強調することを可能にし、次の単語がより正確に予測されることを可能にする。上述した基本的な手法と比較して、アテンションベース生成器は、入力コンテキスト及び出力コンテキストに従って入力特徴を選択的に利用することができる。アテンションモデルの有効性は、機械翻訳等の多くのタスクにおいて示されている。
本開示の実施の形態は、複数のモダリティのフュージョンを取り扱うのにアテンションモデルを提供し、ここで、各モダリティは、それ自体の特徴ベクトルのシーケンスを有する。ビデオ記述について、画像特徴、モーション特徴、及びオーディオ特徴等のマルチモーダル入力が利用可能である。さらに、異なる特徴抽出方法からの複数の特徴の組み合わせが、多くの場合に記述精度を改善するのに効果的である。
本開示の一実施の形態による特徴フュージョンを論じるために、Youtube(登録商標)2Textビデオコーパスを用いたいくつかの実験結果が以下に記載される。このコーパスは、自動ビデオ記述生成モデルをトレーニング及び評価するのに良く適している。このデータセットは、複数の自然言語記述を有する1970個のビデオクリップを有する。各ビデオクリップは、異なるMechanical Turkersによって提供される複数の並列文でアノテートされている。計80839文のセンテンスがあり、1クリップあたり約41文のアノテートされたセンテンスを有する。各センテンスは、平均して約8個の単語を含む。全てのセンテンス内に含まれる単語により、13010の一意の語彙エントリからなる語彙が構成される。このデータセットは、オープンドメインであるとともに、スポーツ、動物及び音楽を含む幅広いトピックをカバーしている。このデータセットは、1200個のビデオクリップのトレーニングセット、100個のクリップのバリデーションセット、及び残りの670個のクリップからなるテストセットに分割される。
各ビデオクリップから、毎秒24フレームからなり、かつ224×224ピクセル画像に再スケーリングされた画像データが抽出される。画像特徴を抽出するために、事前トレーニング済みのGoogLeNet CNN(M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013.)が用いられて、Caffeにおける一般的な実施(Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. arXiv preprint arXiv:1408.5093, 2014.)の援助を得て固定長表現が抽出される。特徴は、隠れ層pool5/7×7 s1から抽出される。各ビデオクリップから16フレーム毎に1つのフレームを選び出し、これらのフレームをCNNにフィードして1024次元フレーム単位特徴ベクトルを得る。
本開示の実施の形態によるアテンションベース特徴フュージョン方法において用いるためにオーディオ特徴が組み込まれる。YouTube2Textコーパスは、オーディオトラックを含まないので、元のビデオのURLを介してオーディオデータを抽出した。ビデオのうちの一部は現在ではYouTube上で視聴可能ではなかったものの、本発明者らは、コーパスのうちの84%をカバーする、1649個のビデオクリップについてオーディオデータを収集することができた。44kHzでサンプリングされたオーディオデータが16kHzでダウンサンプリングされ、各々25msのシフトを有する50ms時間ウィンドウからメル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstral Coefficients)が抽出される。その後、13次元MFCC特徴のシーケンスが20個の連続フレームのグループ毎から1つのベクトルに連結され、これにより、260次元ベクトルのシーケンスがもたらされる。トレーニングセット内の平均ベクトル及び分散ベクトルが0及び1であるように、MFCC特徴が正規化される。バリデーションセット及びテストセットも、トレーニングセットの元の平均ベクトル及び分散ベクトルを用いて調整される。画像特徴と異なり、本発明者らは、復号器ネットワークを用いて共同でトレーニングされる、BLSTM符号化器ネットワークをMFCC特徴について適用する。ビデオクリップにオーディオデータが欠落している場合、単にゼロベクトルのシーケンスである偽MFCC特徴のシーケンスを絶え間なくフィードする(feed in)。
キャプション生成モデル、すなわち復号器ネットワークは、トレーニングセットを用いて交差エントロピー基準を最小化するようにトレーニングされる。画像特徴は、512ユニットからなる1つの射影層を通じて復号器ネットワークにフィードされる一方で、オーディオ特徴、すなわちMFCCは、復号器ネットワークが後続するBLSTM符号化器にフィードされる。符号化器ネットワークは、512ユニットからなる1つの射影層及び512セルからなる双方向LSTM層を有する。復号器ネットワークは、512セルを有する1つのLSTM層を有する。各単語は、LSTM層にフィードされるとき、256次元ベクトルに埋め込まれる。本発明者らは、パラメーターを更新するために、アテンションモデルを最適化するのに広く用いられるAdaDelta最適化器(M. D. Zeiler. ADADELTA: an adaptive learning rate method. CoRR, abs/1212.5701, 2012.)を適用する。LSTMモデル及びアテンションモデルは、Chainer(S. Tokui, K. Oono, S. Hido, and J. Clayton. Chainer: a next generation open source framework for deep learning. In Proceedings of Workshop on Machine Learning Systems (Learn-7 ingSys) in The Twenty-ninth Annual Conference on Neural Information Processing Systems (NIPS), 2015)を用いて実施した。
図8は、Youtube2textデータセットに関する、従来の方法によって得られた性能結果と、本開示の実施の形態による、マルチモーダルアテンション方法によって得られた性能結果との比較を示している。従来の方法は、単純加法的マルチモーダルフュージョン(単純マルチモーダル)、時間アテンションを用いるユニモーダルモデル(ユニモーダル)であり、時間アテンションを用いたベースラインシステムが実行される。
Claims (20)
- マルチモーダル入力ベクトルから単語シーケンスを生成するシステムであって、
命令を記憶するメモリ及び1つ以上の記憶デバイスと接続する1つ以上のプロセッサであって、前記命令は、該1つ以上のプロセッサによって実行されると、
第1のシーケンス間隔及び第2のシーケンス間隔に従って第1の入力ベクトル及び第2の入力ベクトルを受信することと、
それぞれ前記第1の入力及び前記第2の入力から、第1の特徴抽出器及び第2の特徴抽出器を用いて第1の特徴ベクトル及び第2の特徴ベクトルを抽出することと、
それぞれ前記第1の特徴ベクトル及び前記第2の特徴ベクトル並びにシーケンス生成器のプリステップコンテキストベクトルから、第1の重みのセット及び第2の重みのセットを推定することと、
前記第1の重みのセット及び前記第1の特徴ベクトルから第1のコンテンツベクトルを計算するとともに、前記第2の重みのセット及び前記第2の特徴ベクトルから第2のコンテンツベクトルを計算することと、
前記第1のコンテンツベクトルを、所定の次元を有する第1のモーダルコンテンツベクトルに変換するとともに、前記第2のコンテンツベクトルを、前記所定の次元を有する第2のモーダルコンテンツベクトルに変換することと、
前記プリステップコンテキストベクトル並びに前記第1のコンテンツベクトル及び前記第2のコンテンツベクトル又は前記第1のモーダルコンテンツベクトル及び前記第2のモーダルコンテンツベクトルからモーダルアテンション重みのセットを推定することと、
前記モーダルアテンション重みのセット並びに前記第1のモーダルコンテンツベクトル及び前記第2のモーダルコンテンツベクトルから前記所定の次元を有する重み付きコンテンツベクトルを生成することと、
前記重み付きコンテンツベクトルから前記単語シーケンスを生成するために前記シーケンス生成器を用いて予測単語を生成することと、
を含む動作を、該1つ以上のプロセッサに実行させるように動作可能であるもの、
を備える、システム。 - 前記第1のシーケンス間隔及び前記第2のシーケンス間隔は、同一の間隔である、請求項1に記載のシステム。
- 前記第1の入力ベクトル及び前記第2の入力ベクトルは、異なるモダリティである、請求項1に記載のシステム。
- 前記動作は、
前記予測単語を前記メモリ又は前記1つ以上の記憶デバイスに蓄積して、前記単語シーケンスを生成すること、
を更に含む、請求項1に記載のシステム。 - 前記蓄積することは、終了ラベルが受信されるまで継続される、請求項4に記載のシステム。
- 前記動作は、
前記シーケンス生成器から生成された前記予測単語を送信すること、
を更に含む、請求項1に記載のシステム。 - 前記第1の特徴抽出器及び前記第2の特徴抽出器は、画像又はビデオ分類タスクについてトレーニングされた事前トレーニング済みの畳み込みニューラルネットワーク(CNN)である、請求項1に記載のシステム。
- 前記特徴抽出器は、長期短期記憶(LSTM)ネットワークである、請求項1に記載のシステム。
- 前記重み付きコンテンツベクトル及び前記プリステップコンテキストベクトルから与えられる全てのあり得る単語内で、最高確率を有する前記予測単語が求められる、請求項1に記載のシステム。
- 前記シーケンス生成器は、長期短期メモリ(LSTM)ネットワークを利用する、請求項1に記載のシステム。
- 前記第1の入力ベクトルは、第1の入力/出力(I/O)インターフェースを介して受信されるとともに、前記第2の入力ベクトルは、第2のI/Oインターフェースを介して受信される、請求項1に記載のシステム。
- 実行時に、
第1のシーケンス間隔及び第2のシーケンス間隔に従って第1の入力ベクトル及び第2の入力ベクトルを受信することと、
それぞれ前記第1の入力及び前記第2の入力から、第1の特徴抽出器及び第2の特徴抽出器を用いて第1の特徴ベクトル及び第2の特徴ベクトルを抽出することと、
それぞれ前記第1の特徴ベクトル及び前記第2の特徴ベクトル並びにシーケンス生成器のプリステップコンテキストベクトルから、第1の重みのセット及び第2の重みのセットを推定することと、
前記第1の重みのセット及び前記第1の特徴ベクトルから第1のコンテンツベクトルを計算するとともに、前記第2の重みのセット及び前記第2の特徴ベクトルから第2のコンテンツベクトルを計算することと、
前記第1のコンテンツベクトルを、所定の次元を有する第1のモーダルコンテンツベクトルに変換するとともに、前記第2のコンテンツベクトルを、前記所定の次元を有する第2のモーダルコンテンツベクトルに変換することと、
前記プリステップコンテキストベクトル並びに前記第1のコンテンツベクトル及び前記第2のコンテンツベクトル又は前記第1のモーダルコンテンツベクトル及び前記第2のモーダルコンテンツベクトルからモーダルアテンション重みのセットを推定することと、
前記モーダルアテンション重みのセット並びに前記第1のモーダルコンテンツベクトル及び前記第2のモーダルコンテンツベクトルから前記所定の次元を有する重み付きコンテンツベクトルを生成することと、
前記重み付きコンテンツベクトルから単語シーケンスを生成するために前記シーケンス生成器を用いて予測単語を生成することと、
を含む動作を、メモリと接続する1つ以上のプロセッサに実行させる、前記1つ以上のプロセッサによって実行可能である命令を含むソフトウェアを記憶する非一時的コンピューター可読媒体。 - 前記第1のシーケンス間隔及び前記第2のシーケンス間隔は、同一の間隔である、請求項12に記載の非一時的コンピューター可読媒体。
- 前記第1の入力ベクトル及び前記第2の入力ベクトルは、異なるモダリティである、請求項12に記載の非一時的コンピューター可読媒体。
- 前記動作は、
前記予測単語を前記メモリ又は前記1つ以上の記憶デバイスに蓄積して、前記単語シーケンスを生成すること、
を更に含む、請求項12に記載の非一時的コンピューター可読媒体。 - 前記蓄積することは、終了ラベルが受信されるまで継続される、請求項15に記載の非一時的コンピューター可読媒体。
- 前記動作は、
前記シーケンス生成器から生成された前記予測単語を送信すること、
を更に含む、請求項12に記載の非一時的コンピューター可読媒体。 - 前記第1の特徴抽出器及び前記第2の特徴抽出器は、画像又はビデオ分類6タスクについてトレーニングされた事前トレーニング済みの畳み込みニューラルネットワーク(CNN)である、請求項12に記載の非一時的コンピューター可読媒体。
- マルチモーダル入力から単語シーケンスを生成する方法であって、
第1のシーケンス間隔及び第2のシーケンス間隔に従って第1の入力ベクトル及び第2の入力ベクトルを受信することと、
それぞれ前記第1の入力及び前記第2の入力から、第1の特徴抽出器及び第2の特徴抽出器を用いて第1の特徴ベクトル及び第2の特徴ベクトルを抽出することと、
それぞれ前記第1の特徴ベクトル及び前記第2の特徴ベクトル並びにシーケンス生成器のプリステップコンテキストベクトルから、第1の重みのセット及び第2の重みのセットを推定することと、
前記第1の重みのセット及び前記第1の特徴ベクトルから第1のコンテンツベクトルを計算するとともに、前記第2の重みのセット及び前記第2の特徴ベクトルから第2のコンテンツベクトルを計算することと、
前記第1のコンテンツベクトルを、所定の次元を有する第1のモーダルコンテンツベクトルに変換するとともに、前記第2のコンテンツベクトルを、前記所定の次元を有する第2のモーダルコンテンツベクトルに変換することと、
前記プリステップコンテキストベクトル並びに前記第1のコンテンツベクトル及び前記第2のコンテンツベクトル又は前記第1のモーダルコンテンツベクトル及び前記第2のモーダルコンテンツベクトルからモーダルアテンション重みのセットを推定することと、
前記モーダルアテンション重みのセット並びに前記第1のモーダルコンテンツベクトル及び前記第2のモーダルコンテンツベクトルから前記所定の次元を有する重み付きコンテンツベクトルを生成することと、
前記重み付きコンテンツベクトルから前記単語シーケンスを生成するために前記シーケンス生成器を用いて予測単語を生成することと、
を含む、方法。 - 前記第1のシーケンス間隔及び前記第2のシーケンス間隔は、同一の間隔である、請求項19に記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662440433P | 2016-12-30 | 2016-12-30 | |
US62/440,433 | 2016-12-30 | ||
US15/472,797 US10417498B2 (en) | 2016-12-30 | 2017-03-29 | Method and system for multi-modal fusion model |
US15/472,797 | 2017-03-29 | ||
PCT/JP2017/047417 WO2018124309A1 (en) | 2016-12-30 | 2017-12-25 | Method and system for multi-modal fusion model |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019535063A true JP2019535063A (ja) | 2019-12-05 |
JP6719663B2 JP6719663B2 (ja) | 2020-07-08 |
Family
ID=61094562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019513858A Active JP6719663B2 (ja) | 2016-12-30 | 2017-12-25 | マルチモーダルフュージョンモデルのための方法及びシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US10417498B2 (ja) |
JP (1) | JP6719663B2 (ja) |
CN (1) | CN110168531B (ja) |
DE (1) | DE112017006685T5 (ja) |
WO (1) | WO2018124309A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021095211A1 (ja) * | 2019-11-14 | 2021-05-20 | ||
JP2022539620A (ja) * | 2019-09-13 | 2022-09-12 | 三菱電機株式会社 | 対話応答生成システムのためのシステムおよび方法 |
JP2023502140A (ja) * | 2020-03-10 | 2023-01-20 | エスアールアイ インターナショナル | タスク固有のデータ利用のための物理学により誘導されたディープマルチモーダル埋め込みのための方法及び装置 |
Families Citing this family (83)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10366292B2 (en) * | 2016-11-03 | 2019-07-30 | Nec Corporation | Translating video to language using adaptive spatiotemporal convolution feature representation with dynamic abstraction |
EP3566182A1 (en) * | 2017-02-06 | 2019-11-13 | Deepmind Technologies Limited | Memory augmented generative temporal models |
US12106214B2 (en) * | 2017-05-17 | 2024-10-01 | Samsung Electronics Co., Ltd. | Sensor transformation attention network (STAN) model |
US10902738B2 (en) * | 2017-08-03 | 2021-01-26 | Microsoft Technology Licensing, Llc | Neural models for key phrase detection and question generation |
US11475254B1 (en) * | 2017-09-08 | 2022-10-18 | Snap Inc. | Multimodal entity identification |
US11170508B2 (en) * | 2018-01-03 | 2021-11-09 | Ramot At Tel-Aviv University Ltd. | Systems and methods for the segmentation of multi-modal image data |
CN108875708A (zh) * | 2018-07-18 | 2018-11-23 | 广东工业大学 | 基于视频的行为分析方法、装置、设备、系统及存储介质 |
CN110851641B (zh) * | 2018-08-01 | 2022-09-16 | 杭州海康威视数字技术股份有限公司 | 跨模态检索方法、装置和可读存储介质 |
CN110858232B (zh) * | 2018-08-09 | 2024-03-29 | 阿里巴巴集团控股有限公司 | 搜索方法、设备、系统及存储介质 |
US11010559B2 (en) * | 2018-08-30 | 2021-05-18 | International Business Machines Corporation | Multi-aspect sentiment analysis by collaborative attention allocation |
US20200134398A1 (en) * | 2018-10-29 | 2020-04-30 | Sri International | Determining intent from multimodal content embedded in a common geometric space |
CN109871736B (zh) * | 2018-11-23 | 2023-01-31 | 腾讯科技(深圳)有限公司 | 自然语言描述信息的生成方法及装置 |
CN110162799B (zh) * | 2018-11-28 | 2023-08-04 | 腾讯科技(深圳)有限公司 | 模型训练方法、机器翻译方法以及相关装置和设备 |
CN109543824B (zh) * | 2018-11-30 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 一种序列模型的处理方法和装置 |
JP7206898B2 (ja) * | 2018-12-25 | 2023-01-18 | 富士通株式会社 | 学習装置、学習方法および学習プログラム |
CN110020596B (zh) * | 2019-02-21 | 2021-04-30 | 北京大学 | 一种基于特征融合和级联学习的视频内容定位方法 |
CN111640424B (zh) * | 2019-03-01 | 2024-02-13 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN109960747B (zh) * | 2019-04-02 | 2022-12-16 | 腾讯科技(深圳)有限公司 | 视频描述信息的生成方法、视频处理方法、相应的装置 |
CN110163091B (zh) * | 2019-04-13 | 2023-05-26 | 天津大学 | 基于lstm网络多模态信息融合的三维模型检索方法 |
US10885345B2 (en) * | 2019-04-29 | 2021-01-05 | Tencent America LLC | End-to-end video captioning with multi-task reinforcement learning |
EP3767332B1 (en) * | 2019-07-18 | 2023-12-13 | Aptiv Technologies Limited | Methods and systems for radar object detection |
CN110503636B (zh) * | 2019-08-06 | 2024-01-26 | 腾讯医疗健康(深圳)有限公司 | 参数调整方法、病灶预测方法、参数调整装置及电子设备 |
CN110557447B (zh) * | 2019-08-26 | 2022-06-10 | 腾讯科技(武汉)有限公司 | 一种用户行为识别方法、装置及存储介质和服务器 |
CN110473529B (zh) * | 2019-09-09 | 2021-11-05 | 北京中科智极科技有限公司 | 一种基于自注意力机制的流式语音转写系统 |
CN110826397B (zh) * | 2019-09-20 | 2022-07-26 | 浙江大学 | 一种基于高阶低秩多模态注意力机制的视频描述方法 |
CN112651417B (zh) * | 2019-10-12 | 2024-06-14 | 杭州海康威视数字技术股份有限公司 | 车牌识别方法、装置、设备及存储介质 |
US11270123B2 (en) * | 2019-10-22 | 2022-03-08 | Palo Alto Research Center Incorporated | System and method for generating localized contextual video annotation |
US10699129B1 (en) * | 2019-11-15 | 2020-06-30 | Fudan University | System and method for video captioning |
CN110866509B (zh) | 2019-11-20 | 2023-04-28 | 腾讯科技(深圳)有限公司 | 动作识别方法、装置、计算机存储介质和计算机设备 |
CN111160350B (zh) * | 2019-12-23 | 2023-05-16 | Oppo广东移动通信有限公司 | 人像分割方法、模型训练方法、装置、介质及电子设备 |
CN111274372A (zh) * | 2020-01-15 | 2020-06-12 | 上海浦东发展银行股份有限公司 | 用于人机交互的方法、电子设备和计算机可读存储介质 |
CN111275085B (zh) * | 2020-01-15 | 2022-09-13 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111274440B (zh) * | 2020-01-19 | 2022-03-25 | 浙江工商大学 | 一种基于视觉和音频内容相关度挖掘的视频推荐方法 |
CN113139121A (zh) * | 2020-01-20 | 2021-07-20 | 阿里巴巴集团控股有限公司 | 查询方法、模型训练方法、装置、设备及存储介质 |
CN111291804A (zh) * | 2020-01-22 | 2020-06-16 | 杭州电子科技大学 | 基于注意力机制的多传感器时间序列分析模型 |
US11635299B2 (en) * | 2020-02-06 | 2023-04-25 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for scene-aware interaction |
CN111294512A (zh) * | 2020-02-10 | 2020-06-16 | 深圳市铂岩科技有限公司 | 图像处理方法、装置、存储介质及摄像装置 |
CN111325323B (zh) * | 2020-02-19 | 2023-07-14 | 山东大学 | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 |
CN111814844B (zh) * | 2020-03-17 | 2023-07-11 | 同济大学 | 一种基于位置编码融合的密集型视频描述方法 |
WO2021204143A1 (en) * | 2020-04-08 | 2021-10-14 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Methods for action localization, electronic device and storage medium |
CN111523575B (zh) * | 2020-04-13 | 2023-12-12 | 中南大学 | 基于短视频多模态特征的短视频推荐方法 |
US20210350232A1 (en) * | 2020-05-07 | 2021-11-11 | Nec Laboratories America, Inc. | Fault detection in cyber-physical systems |
CN113630302B (zh) * | 2020-05-09 | 2023-07-11 | 阿里巴巴集团控股有限公司 | 一种垃圾邮件识别方法及装置、计算机可读存储介质 |
CN111639748B (zh) * | 2020-05-15 | 2022-10-11 | 武汉大学 | 一种基于lstm-bp时空组合模型的流域污染物通量预测方法 |
CN111767726B (zh) * | 2020-06-24 | 2024-02-06 | 北京奇艺世纪科技有限公司 | 数据处理方法及装置 |
CN112000818B (zh) * | 2020-07-10 | 2023-05-12 | 中国科学院信息工程研究所 | 一种面向文本和图像的跨媒体检索方法及电子装置 |
CN112001437B (zh) * | 2020-08-19 | 2022-06-14 | 四川大学 | 面向模态非完全对齐的数据聚类方法 |
CN112069361A (zh) * | 2020-08-27 | 2020-12-11 | 新华智云科技有限公司 | 一种基于多模态融合的视频描述文本生成方法 |
CN112115601B (zh) * | 2020-09-10 | 2022-05-17 | 西北工业大学 | 一种可靠的用户注意力监测估计表示模型 |
CN112468888B (zh) * | 2020-11-26 | 2023-04-07 | 广东工业大学 | 基于gru网络的视频摘要生成方法与系统 |
CN112738555B (zh) * | 2020-12-22 | 2024-03-29 | 上海幻电信息科技有限公司 | 视频处理方法及装置 |
CN112765959B (zh) * | 2020-12-31 | 2024-05-28 | 康佳集团股份有限公司 | 意图识别方法、装置、设备及计算机可读存储介质 |
US11620903B2 (en) * | 2021-01-14 | 2023-04-04 | Baidu Usa Llc | Machine learning model to fuse emergency vehicle audio and visual detection |
CN112861945B (zh) * | 2021-01-28 | 2022-05-13 | 清华大学 | 一种多模态融合谎言检测方法 |
US20220245424A1 (en) * | 2021-01-29 | 2022-08-04 | Samsung Electronics Co., Ltd. | Microgenre-based hyper-personalization with multi-modal machine learning |
CN112954312B (zh) * | 2021-02-07 | 2024-01-05 | 福州大学 | 一种融合时空特征的无参考视频质量评估方法 |
CN113205148B (zh) * | 2021-05-20 | 2022-10-11 | 山东财经大学 | 一种迭代层间信息融合的医学图像帧插值方法及终端机 |
CN113537566B (zh) * | 2021-06-16 | 2022-05-06 | 广东工业大学 | 一种基于dccso优化深度学习模型的超短期风电功率预测方法 |
CN113360514B (zh) * | 2021-07-02 | 2022-05-17 | 支付宝(杭州)信息技术有限公司 | 联合更新模型的方法、装置及系统 |
US11445267B1 (en) | 2021-07-23 | 2022-09-13 | Mitsubishi Electric Research Laboratories, Inc. | Low-latency captioning system |
CN113326703B (zh) * | 2021-08-03 | 2021-11-16 | 国网电子商务有限公司 | 基于异构空间下多模态对抗融合的情感识别方法及系统 |
CN113569975A (zh) * | 2021-08-04 | 2021-10-29 | 华南师范大学 | 一种基于模型融合的素描作品评级方法及装置 |
CN113986005B (zh) * | 2021-10-13 | 2023-07-07 | 电子科技大学 | 基于集成学习的多模态融合视线估计框架 |
CN113990473B (zh) * | 2021-10-28 | 2022-09-30 | 上海昆亚医疗器械股份有限公司 | 一种医疗设备运维信息收集分析系统及其使用方法 |
CN114120044B (zh) * | 2021-12-08 | 2024-07-19 | 马上消费金融股份有限公司 | 图像分类方法、图像分类网络训练方法、装置及电子设备 |
KR102411278B1 (ko) * | 2021-12-30 | 2022-06-22 | 주식회사 파일러 | 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법 |
CN114328927A (zh) * | 2021-12-30 | 2022-04-12 | 深圳市检验检疫科学研究院 | 基于标签感知的门控循环采集方法 |
CN114663733A (zh) * | 2022-02-18 | 2022-06-24 | 北京百度网讯科技有限公司 | 多模态特征的融合方法、装置、设备、介质及产品 |
CN114387567B (zh) * | 2022-03-23 | 2022-06-28 | 长视科技股份有限公司 | 一种视频数据的处理方法、装置、电子设备及存储介质 |
CN115034327B (zh) * | 2022-06-22 | 2024-08-13 | 支付宝(杭州)信息技术有限公司 | 外部数据应用、用户识别的方法、装置和设备 |
CN115062328B (zh) * | 2022-07-12 | 2023-03-10 | 中国科学院大学 | 一种基于跨模态数据融合的信息智能解析方法 |
US20240046085A1 (en) | 2022-08-04 | 2024-02-08 | Mitsubishi Electric Research Laboratories, Inc. | Low-latency Captioning System |
CN115512368B (zh) * | 2022-08-22 | 2024-05-10 | 华中农业大学 | 一种跨模态语义生成图像模型和方法 |
CN115134676B (zh) * | 2022-09-01 | 2022-12-23 | 有米科技股份有限公司 | 一种音频辅助视频补全的视频重构方法及装置 |
CN115590481B (zh) * | 2022-12-15 | 2023-04-11 | 北京鹰瞳科技发展股份有限公司 | 一种用于预测认知障碍的装置和计算机可读存储介质 |
CN116414456B (zh) * | 2023-01-19 | 2024-01-19 | 杭州知存智能科技有限公司 | 存算芯片内的加权融合变换部件、存算电路及协同计算方法 |
CN116128863B (zh) * | 2023-03-01 | 2023-09-12 | 北京医准智能科技有限公司 | 一种医学图像处理方法、装置及设备 |
CN116543795B (zh) * | 2023-06-29 | 2023-08-29 | 天津大学 | 一种基于多模态特征融合的声音场景分类方法 |
CN116932731B (zh) * | 2023-09-18 | 2024-01-30 | 上海帜讯信息技术股份有限公司 | 面向5g消息的多模态知识问答方法及系统 |
CN117312864A (zh) * | 2023-11-30 | 2023-12-29 | 国家计算机网络与信息安全管理中心 | 基于多模态信息的变形词生成模型的训练方法及装置 |
CN117668762B (zh) * | 2024-01-31 | 2024-05-17 | 新疆三联工程建设有限责任公司 | 用于住宅地下渗漏的监测预警系统及方法 |
CN117708375B (zh) * | 2024-02-05 | 2024-05-28 | 北京搜狐新媒体信息技术有限公司 | 一种视频处理方法、装置及相关产品 |
CN117789099B (zh) * | 2024-02-26 | 2024-05-28 | 北京搜狐新媒体信息技术有限公司 | 视频特征提取方法及装置、存储介质及电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937972B (zh) * | 2012-10-15 | 2016-06-22 | 上海外教社信息技术有限公司 | 一种视听字幕制作系统及方法 |
CN103885924A (zh) * | 2013-11-21 | 2014-06-25 | 北京航空航天大学 | 一种领域自适应的公开课字幕自动生成系统及方法 |
US10909329B2 (en) | 2015-05-21 | 2021-02-02 | Baidu Usa Llc | Multilingual image question answering |
-
2017
- 2017-03-29 US US15/472,797 patent/US10417498B2/en active Active
- 2017-12-25 DE DE112017006685.9T patent/DE112017006685T5/de active Pending
- 2017-12-25 WO PCT/JP2017/047417 patent/WO2018124309A1/en active Application Filing
- 2017-12-25 JP JP2019513858A patent/JP6719663B2/ja active Active
- 2017-12-25 CN CN201780079516.1A patent/CN110168531B/zh active Active
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022539620A (ja) * | 2019-09-13 | 2022-09-12 | 三菱電機株式会社 | 対話応答生成システムのためのシステムおよび方法 |
JP7313558B2 (ja) | 2019-09-13 | 2023-07-24 | 三菱電機株式会社 | 対話応答生成システムのためのシステムおよび方法 |
JPWO2021095211A1 (ja) * | 2019-11-14 | 2021-05-20 | ||
JP7205646B2 (ja) | 2019-11-14 | 2023-01-17 | 富士通株式会社 | 出力方法、出力プログラム、および出力装置 |
JP2023502140A (ja) * | 2020-03-10 | 2023-01-20 | エスアールアイ インターナショナル | タスク固有のデータ利用のための物理学により誘導されたディープマルチモーダル埋め込みのための方法及び装置 |
JP7332238B2 (ja) | 2020-03-10 | 2023-08-23 | エスアールアイ インターナショナル | タスク固有のデータ利用のための物理学により誘導されたディープマルチモーダル埋め込みのための方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6719663B2 (ja) | 2020-07-08 |
DE112017006685T5 (de) | 2020-01-23 |
CN110168531B (zh) | 2023-06-20 |
WO2018124309A1 (en) | 2018-07-05 |
US10417498B2 (en) | 2019-09-17 |
US20180189572A1 (en) | 2018-07-05 |
CN110168531A (zh) | 2019-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6719663B2 (ja) | マルチモーダルフュージョンモデルのための方法及びシステム | |
EP3857459B1 (en) | Method and system for training a dialogue response generation system | |
EP4073787B1 (en) | System and method for streaming end-to-end speech recognition with asynchronous decoders | |
CN112131988B (zh) | 确定虚拟人物唇形的方法、装置、设备和计算机存储介质 | |
EP3133595B1 (en) | Speech recognition | |
CN108419094B (zh) | 视频处理方法、视频检索方法、装置、介质及服务器 | |
CN111164676A (zh) | 经由环境语境采集进行的语音模型个性化 | |
CN111462733B (zh) | 多模态语音识别模型训练方法、装置、设备及存储介质 | |
US11431887B2 (en) | Information processing device and method for detection of a sound image object | |
KR102544249B1 (ko) | 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법 | |
CN114339450B (zh) | 视频评论生成方法、系统、设备及存储介质 | |
US8751228B2 (en) | Minimum converted trajectory error (MCTE) audio-to-video engine | |
CN114943960A (zh) | 一种文本识别方法、系统、电子设备及存储介质 | |
CN116050496A (zh) | 图片描述信息生成模型的确定方法及装置、介质、设备 | |
US20220310073A1 (en) | Mixture Model Attention for Flexible Streaming and Non-Streaming Automatic Speech Recognition | |
Oghbaie et al. | Advances and challenges in deep lip reading | |
CN115828889A (zh) | 文本分析方法、情感分类模型、装置、介质、终端及产品 | |
WO2020048358A1 (en) | Method, system, and computer-readable medium for recognizing speech using depth information | |
KR102612625B1 (ko) | 신경망 기반의 특징점 학습 장치 및 방법 | |
US20220237884A1 (en) | Keypoint based action localization | |
CN116301381A (zh) | 一种交互方法及相关设备和系统 | |
CN116092485A (zh) | 语音识别模型的训练方法及装置、语音识别方法及装置 | |
Melnyk et al. | Towards computer assisted international sign language recognition system: a systematic survey | |
JP7437983B2 (ja) | 変換装置およびプログラム | |
US20240029718A1 (en) | Flickering Reduction with Partial Hypothesis Re-ranking for Streaming ASR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190311 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200519 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200616 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6719663 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |