JP2019535063A - マルチモーダルフュージョンモデルのための方法及びシステム - Google Patents

マルチモーダルフュージョンモデルのための方法及びシステム Download PDF

Info

Publication number
JP2019535063A
JP2019535063A JP2019513858A JP2019513858A JP2019535063A JP 2019535063 A JP2019535063 A JP 2019535063A JP 2019513858 A JP2019513858 A JP 2019513858A JP 2019513858 A JP2019513858 A JP 2019513858A JP 2019535063 A JP2019535063 A JP 2019535063A
Authority
JP
Japan
Prior art keywords
vector
modal
feature
content
content vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019513858A
Other languages
English (en)
Other versions
JP6719663B2 (ja
Inventor
堀 智織
智織 堀
堀 貴明
貴明 堀
ハーシェイ、ジョン
マークス、ティム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2019535063A publication Critical patent/JP2019535063A/ja
Application granted granted Critical
Publication of JP6719663B2 publication Critical patent/JP6719663B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

単語シーケンスを生成するシステムは、命令を記憶するメモリ及び1つ以上の記憶デバイスと接続する1つ以上のプロセッサを備え、この命令により、第1の入力ベクトル及び第2の入力ベクトルを受信することと、第1の特徴ベクトル及び第2の特徴ベクトルを抽出することと、第1の重みのセット及び第2の重みのセットを推定することと、第1の重みのセット及び第1の特徴ベクトルから第1のコンテンツベクトルを計算するとともに、第2のコンテンツベクトルを計算することと、第1のコンテンツベクトルを、所定の次元を有する第1のモーダルコンテンツベクトルに変換するとともに、第2のコンテンツベクトルを、所定の次元を有する第2のモーダルコンテンツベクトルに変換することと、モーダルアテンション重みのセットを推定することと、モーダルアテンション重みのセット並びに第1のモーダルコンテンツベクトル及び第2のモーダルコンテンツベクトルから所定の次元を有する重み付きコンテンツベクトルを生成することと、シーケンス生成器を用いて予測単語を生成することとを含む動作が引き起こされる。

Description

本発明は、包括的には、マルチモーダルデータを記述する方法及びシステムに関し、より具体的には、ビデオ記述のための方法及びシステムに関する。
ビデオキャプショニングとして知られる自動ビデオ記述は、入力ビデオを説明する自然言語記述(例えば、センテンス)の自動生成を指す。ビデオ記述は、ビデオ検索、ホームムービー又はオンラインでアップロードされたビデオクリップの自動記述、視覚障害者のためのビデオ記述、監視システムの警告生成及び人間と機械との間の知識共有のためのシーン理解を含む、広範な用途とすることができる。
ビデオ記述システムは、何らかのオブジェクトを表す画像特徴、何らかのアクションを表すモーション特徴、及び何らかのイベントを示すオーディオ特徴等のマルチモーダル特徴である場合がある、ビデオデータからの顕著な特徴を抽出し、記述内の単語がこれらの抽出された特徴に関連するとともに自然言語として適切に順序付けられるように、イベントを説明する記述を生成する。
ビデオ記述における1つの本質的な問題は、ビデオ特徴のシーケンスと記述内の単語のシーケンスとが同期されていないことである。事実、オブジェクト及びアクションは、センテンス内で現れる順序とは異なる順序でビデオ内に現れる場合がある。或る事物を記述する正しい単語を選択する場合、そのオブジェクト又はアクションに直接対応する特徴のみが関連を有し、他の特徴は、乱れの源である。加えて、いくつかのイベントは、常に全ての特徴において観測されるというわけではない。
したがって、異なる特徴を内包的又は選択的に用いて記述の各単語を推測することで、高品質ビデオ記述を達成することが必要とされている。
本開示のいくつかの実施の形態は、複数のモダリティを含む入力データからコンテンツベクトルを生成することに基づいている。いくつかの場合、モダリティは、ビデオ信号に含まれるオーディオ信号、ビデオ信号(画像信号)及びモーション信号とすることができる。
本開示は、複数のモダリティを含む入力データからコンテンツベクトルを生成するマルチモーダルフュージョンシステムに基づいている。いくつかの場合、マルチモーダルフュージョンシステムは、画像(ビデオ)信号、モーション信号及びオーディオ信号を含む入力信号を受信し、入力信号に関連したイベントを説明する記述を生成する。
本開示の実施の形態によれば、マルチモーダル入力ベクトルから単語シーケンスを生成するシステムは、1つ以上のプロセッサと、命令を記憶する1つ以上のストレージデバイスとを備え、この命令は、1つ以上のプロセッサによって実行されると、第1のシーケンス間隔及び第2のシーケンス間隔に従って第1の入力ベクトル及び第2の入力ベクトルを受信することと、それぞれ第1の入力及び第2の入力から、第1の特徴抽出器及び第2の特徴抽出器を用いて第1の特徴ベクトル及び第2の特徴ベクトルを抽出することと、それぞれ第1の特徴ベクトル及び第2の特徴ベクトル並びにシーケンス生成器のプリステップコンテキストベクトルから、第1の重みのセット及び第2の重みのセットを推定することと、第1の重みのセット及び第1の特徴ベクトルから第1のコンテンツベクトルを計算するとともに、第2の重みのセット及び第2の特徴ベクトルから第2のコンテンツベクトルを計算することと、第1のコンテンツベクトルを、所定の次元を有する第1のモーダルコンテンツベクトルに変換するとともに、第2のコンテンツベクトルを、所定の次元を有する第2のモーダルコンテンツベクトルに変換することと、プリステップコンテキストベクトル並びに第1のコンテンツベクトル及び第2のコンテンツベクトル又は第1のモーダルコンテンツベクトル及び第2のモーダルコンテンツベクトルからモーダルアテンション重みのセットを推定することと、モーダルアテンション重みのセット並びに第1のモーダルコンテンツベクトル及び第2のモーダルコンテンツベクトルから所定の次元を有する重み付きコンテンツベクトルを生成することと、重み付きコンテンツベクトルから単語シーケンスを生成するためにシーケンス生成器を用いて予測単語を生成することとを含む動作を、1つ以上のプロセッサに実行させるように動作可能である。
さらに、本開示のいくつかの実施の形態は、実行時に、動作を1つ以上のプロセッサに実行させる、1つ以上のプロセッサによって実行可能である命令を含むソフトウェアを記憶する非一時的コンピューター可読媒体を提供する。動作は、第1のシーケンス間隔及び第2のシーケンス間隔に従って第1の入力ベクトル及び第2の入力ベクトルを受信することと、それぞれ第1の入力及び第2の入力から、第1の特徴抽出器及び第2の特徴抽出器を用いて第1の特徴ベクトル及び第2の特徴ベクトルを抽出することと、それぞれ第1の特徴ベクトル及び第2の特徴ベクトル並びにシーケンス生成器のプリステップコンテキストベクトルから、第1の重みのセット及び第2の重みのセットを推定することと、第1の重みのセット及び第1の特徴ベクトルから第1のコンテンツベクトルを計算するとともに、第2の重みのセット及び第2の特徴ベクトルから第2のコンテンツベクトルを計算することと、第1のコンテンツベクトルを、所定の次元を有する第1のモーダルコンテンツベクトルに変換するとともに、第2のコンテンツベクトルを、所定の次元を有する第2のモーダルコンテンツベクトルに変換することと、プリステップコンテキストベクトル並びに第1のコンテンツベクトル及び第2のコンテンツベクトル又は第1のモーダルコンテンツベクトル及び第2のモーダルコンテンツベクトルからモーダルアテンション重みのセットを推定することと、モーダルアテンション重みのセット並びに第1のモーダルコンテンツベクトル及び第2のモーダルコンテンツベクトルから所定の次元を有する重み付きコンテンツベクトルを生成することと、重み付きコンテンツベクトルから単語シーケンスを生成するためにシーケンス生成器を用いて予測単語を生成することとを含む。
本開示の別の実施の形態によれば、マルチモーダル入力ベクトルからマルチモーダル入力ベクトルから単語シーケンスを生成する方法は、第1のシーケンス間隔及び第2のシーケンス間隔に従って第1の入力ベクトル及び第2の入力ベクトルを受信することと、それぞれ第1の入力及び第2の入力から、第1の特徴抽出器及び第2の特徴抽出器を用いて第1の特徴ベクトル及び第2の特徴ベクトルを抽出することと、それぞれ第1の特徴ベクトル及び第2の特徴ベクトル並びにシーケンス生成器のプリステップコンテキストベクトルから、第1の重みのセット及び第2の重みのセットを推定することと、第1の重みのセット及び第1の特徴ベクトルから第1のコンテンツベクトルを計算するとともに、第2の重みのセット及び第2の特徴ベクトルから第2のコンテンツベクトルを計算することと、第1のコンテンツベクトルを、所定の次元を有する第1のモーダルコンテンツベクトルに変換するとともに、第2のコンテンツベクトルを、所定の次元を有する第2のモーダルコンテンツベクトルに変換することと、プリ−ステップコンテキストベクトル並びに第1のコンテンツベクトル及び第2のコンテンツベクトル又は第1のモーダルコンテンツベクトル及び第2のモーダルコンテンツベクトルからモーダルアテンション重みのセットを推定することと、モーダルアテンション重みのセット並びに第1のモーダルコンテンツベクトル及び第2のモーダルコンテンツベクトルから所定の次元を有する重み付きコンテンツベクトルを生成することと、重み付きコンテンツベクトルから単語シーケンスを生成するためにシーケンス生成器を用いて予測単語を生成することとを含む。
ここに開示されている実施の形態は、添付図面を参照して更に説明される。示されている図面は、必ずしも一律の縮尺というわけではなく、その代わり、一般的に、ここに開示されている実施の形態の原理を示すことに強調が置かれている。
本開示のいくつかの実施の形態によるマルチモーダルフュージョンシステムを示すブロック図である。 本開示の実施の形態による単純マルチモーダル方法を示すブロック図である。 本開示の実施の形態によるマルチモーダルアテンション方法を示すブロック図である。 本開示の実施の形態による、LSTMベースの符号化器−復号器アーキテクチャの一例を示すブロック図である。 本開示の実施の形態による、ビデオからのアテンションベースセンテンス生成器の一例を示すブロック図である。 本開示の実施の形態による、ビデオからのアテンションベースセンテンス生成器の一拡張形態を示すブロック図である。 本開示の実施の形態による単純特徴フュージョン手法(単純マルチモーダル方法)を示す図である。 本開示の実施の形態による、センテンス生成器のアーキテクチャを示す図である。 従来の方法によって得られた性能結果と、本開示の実施の形態による、マルチモーダルアテンション方法によって得られた性能結果との比較を示す図である。 従来の方法によって得られた性能結果と、本開示の実施の形態による、マルチモーダルアテンション方法によって得られた性能結果との比較を示す図である。 従来の方法によって得られた性能結果と、本開示の実施の形態による、マルチモーダルアテンション方法によって得られた性能結果との比較を示す図である。 従来の方法によって得られた性能結果と、本開示の実施の形態による、マルチモーダルアテンション方法によって得られた性能結果との比較を示す図である。 従来の方法によって得られた性能結果と、本開示の実施の形態による、マルチモーダルアテンション方法によって得られた性能結果との比較を示す図である。
上記で明らかにされた図面は、ここに開示されている実施の形態を記載しているが、この論述において言及されるように、他の実施の形態も意図されている。この開示は、限定ではなく代表例として例示の実施の形態を提示している。ここに開示されている実施の形態の原理の範囲及び趣旨に含まれる非常に多くの他の変更及び実施の形態を当業者は考案することができる。
以下の説明は、例示的な実施の形態のみを提供し、本開示の範囲も、適用範囲も、構成も限定することを意図していない。そうではなく、例示的な実施の形態の以下の説明は1つ以上の例示的な実施の形態を実施することを可能にする説明を当業者に提供する。添付の特許請求の範囲に明記されているような開示された主題の趣旨及び範囲から逸脱することなく要素の機能及び配置に行うことができる様々な変更が意図されている。
以下の説明では、実施の形態の十分な理解を提供するために、具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても実施の形態を実施することができることを理解することができる。例えば、開示された主題におけるシステム、プロセス、及び他の要素は、実施の形態を不必要な詳細で不明瞭にしないように、ブロック図形式の構成要素として示される場合がある。それ以外の場合において、よく知られたプロセス、構造、及び技法は、実施の形態を不明瞭にしないように不必要な詳細なしで示される場合がある。さらに、様々な図面における同様の参照符号及び名称は、同様の要素を示す。
また、個々の実施の形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描かれるプロセスとして説明される場合がある。フローチャートは、動作を逐次的なプロセスとして説明することができるが、これらの動作の多くは、並列又は同時に実行することができる。加えて、これらの動作の順序は、再配列することができる。プロセスは、その動作が完了したときに終了することができるが、論述されない又は図に含まれない追加のステップを有する場合がある。さらに、特に説明される任意のプロセスにおける全ての動作が全ての実施の形態において行われ得るとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応することができる。プロセスが関数に対応するとき、その関数の終了は、呼び出し側関数又はメイン関数へのその機能の復帰に対応することができる。
さらに、開示された主題の実施の形態は、少なくとも一部は手動又は自動のいずれかで実施することができる。手動実施又は自動実施は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを用いて実行することもできるし、少なくとも援助することができる。ソフトウェア、ファームウェア、ミドルウェア又はマイクロコードで実施されるとき、必要なタスクを実行するプログラムコード又はプログラムコードセグメントは、マシン可読媒体に記憶することができる。プロセッサ(複数の場合もある)が、それらの必要なタスクを実行することができる。
本開示の実施の形態によれば、マルチモーダル入力ベクトルから単語シーケンスを生成するシステムは、動作可能である命令を記憶する1つ以上のメモリ及び1つ以上の記憶デバイスと接続する1つ以上のプロセッサを備える。命令が1つ以上のプロセッサによって実行されると、命令は、第1のシーケンス間隔及び第2のシーケンス間隔に従って第1の入力ベクトル及び第2の入力ベクトルを受信することと、それぞれ第1の入力及び第2の入力から、第1の特徴抽出器及び第2の特徴抽出器を用いて第1の特徴ベクトル及び第2の特徴ベクトルを抽出することと、それぞれ第1の特徴ベクトル及び第2の特徴ベクトル並びにシーケンス生成器のプリステップコンテキストベクトルから、第1の重みのセット及び第2の重みのセットを推定することと、第1の重み及び第1の特徴ベクトルから第1のコンテンツベクトルを計算するとともに、第2の重み及び第2の特徴ベクトルから第2のコンテンツベクトルを計算することと、第1のコンテンツベクトルを、所定の次元を有する第1のモーダルコンテンツベクトルに変換するとともに、第2のコンテンツベクトルを、所定の次元を有する第2のモーダルコンテンツベクトルに変換することと、プリ−ステップコンテキストベクトル並びに第1のモーダルコンテンツベクトル及び第2のモーダルコンテンツベクトルからモーダルアテンション重みのセットを推定することと、モーダルアテンション重みのセット並びに第1のコンテンツベクトル及び第2のコンテンツベクトルから所定の次元を有する重み付きコンテンツベクトルを生成することと、重み付きコンテンツベクトルから単語シーケンスを生成するためにシーケンス生成器を用いて予測単語を生成することとを含む動作を、1つ以上のプロセッサに実行させる。
この場合、第1のモーダルコンテンツベクトル、第2のモーダルコンテンツベクトル及び重み付きコンテンツベクトルは、同じ所定の次元を有する。これにより、システムがマルチモーダルフュージョンモデルを実行することが可能になる。換言すれば、同一の次元を有するように入力ベクトル及び重み付きコンテンツベクトルの次元を設計するか又は求めることによって、これらのベクトルは、同一の次元を有する同一のデータフォーマットの使用によって表現されるので、マルチモーダルフュージョンモデルのデータ処理において容易に取り扱うことができる。データ処理は、同一の次元を有するように変換されたデータを用いることによって単純化されるので、本開示の実施の形態によるマルチモーダルフュージョンモデル方法又はシステムにより、マルチモーダル入力ベクトルから単語シーケンスを生成するための中央処理装置の使用及び電力消費を低減することができる。
当然ながら、ベクトルの数は、システム設計の要件に従って所定のN個のベクトルに変更することができる。例えば、所定のNが3に設定される場合、3つの入力ベクトルを、システムに含まれる入力/出力インターフェースを介して受信される画像データ、ビデオ信号及びオーディオ信号から得られる画像特徴、モーション特徴及びオーディオ特徴とすることができる。
いくつかの場合、第1のシーケンス間隔及び第2のシーケンス間隔を同一の間隔とすることができ、第1のベクトル及び第2のベクトルを異なるモダリティとすることができる。
図1は、本開示のいくつかの実施の形態によるマルチモーダルフュージョンシステム100のブロック図を示している。マルチモーダルフュージョンシステム100は、キーボード111及びポインティングデバイス/メディア112、マイクロフォン113と接続可能な入力/出力(I/O)インターフェースを有するヒューマンマシンインターフェース(HMI)110、受信機114、送信機115、3Dセンサー116、全地球測位システム(GPS)117、1つ以上のI/Oインターフェース118、プロセッサ120、記憶デバイス130、メモリ140、ローカルエリアネットワーク及びインターネットネットワーク(図示せず)を含むネットワーク155と接続可能なネットワークインターフェースコントローラー150(NIC)、ディスプレイデバイス165に接続されたディスプレイインターフェース160、撮像デバイス175と接続可能な撮像インターフェース170、印刷デバイス185と接続可能なプリンターインターフェース180を備えることができる。I/Oインターフェースを有するHMI110は、アナログ/デジタル変換器及びデジタル/アナログ変換器を含むことができる。I/Oインターフェースを有するHMI110は、無線インターネット接続又は無線ローカルエリアネットワークを介して、複数の3D点群を構築することを可能にする、他の3D点群ディスプレイシステム又は他のコンピューターと通信することができる無線通信インターフェースを含む。3D点群システム100は、電源190を備えることができる。電源190は、外部電源(図示せず)からI/Oインターフェース118を介して充電可能なバッテリーとすることができる。用途に応じて、電源190は、任意選択で、システム100の外部に配置することができる。
HMI及びI/Oインターフェース110及びI/Oインターフェース118は、とりわけ、コンピューターモニター、カメラ、テレビ、プロジェクター、又はモバイルデバイスを含む別のディスプレイデバイス(図示せず)に接続するように適応させることができる。
マルチモーダルフュージョンシステム100は、NIC150に接続したネットワーク155を介して発話データを含む電子テキスト/撮像文書195を受信することができる。記憶デバイス130は、シーケンス生成モデル131、特徴抽出モデル132及びマルチモーダルフュージョンモデル200を含み、このシーケンス生成モデル131、特徴抽出モデル132及びマルチモーダルフュージョンモデル200のアルゴリズムは、記憶装置130にプログラムコードデータとして記憶される。モデル131及び132及び200のアルゴリズムは、コンピューター可読記録媒体(図示せず)に記憶することができ、プロセッサ120が、この媒体からアルゴリズムをロードすることによってモデル131及び132及び200のアルゴリズムを実行することができるようになっている。さらに、ポインティングデバイス/メディア112は、コンピューター可読記録媒体上に記憶されたプログラムを読み出して実行するモジュールを含むことができる。
モデル131及び132及び200のアルゴリズムの実行を開始するために、キーボード111、ポインティングデバイス/メディア112を用いて、又は無線ネットワーク若しくは他のコンピューター(図示せず)に接続したネットワーク155を介してシステム100に命令を送信することができる。記憶装置130に記憶されたプリインストール済みの従来的な発話認識プログラムを用いて、マイクロフォン113によってユーザーの音響信号を受信することに応答して、モデル131及び132及び200のアルゴリズムを開始することができる。さらに、システム100は、ユーザーがシステム100の動作を開始/停止するのを可能にするオン/オフスイッチ(図示せず)を備える。
HMI及びI/Oインターフェース110は、アナログ/デジタル(A/D)変換器、デジタル/アナログ(D/A)変換器、及びネットワーク155に接続するための無線信号アンテナを備えることができる。さらに、1つ又は2つ以上のI/Oインターフェース118は、ケーブルテレビ(TV)ネットワーク又はTV信号を受信する従来的なテレビ(TV)アンテナに接続可能とすることができる。インターフェース118を介して受信された信号は、デジタル画像及びオーディオ信号に変換することができ、これらは、プロセッサ120及びメモリ140と接続するモデル131及び132及び200のアルゴリズムに従って処理することができ、それにより、ビデオスクリプトが生成されて、デジタル画像のピクチャフレームでディスプレイデバイス165上に表示される一方で、TV信号の音響の音がスピーカー119を介して出力されるようになっている。スピーカーは、システム100に含めることもできるし、外部スピーカーをインターフェース110又はI/Oインターフェース118を介して接続することもできる。
プロセッサ120は、1つ以上のグラフィック処理ユニット(GPU)を含む複数のプロセッサとすることができる。記憶装置130は、マイクロフォン113を介して得られる発話信号を認識することができる発話認識アルゴリズム(図示せず)を含むことができる。
マルチモーダルフュージョンシステムモジュール200、シーケンス生成モデル131及び特徴抽出モデル132は、ニューラルネットワークによって形成することができる。
図2Aは、本開示の実施の形態による単純マルチモーダル方法を示すブロック図である。単純マルチモーダル方法は、記憶装置130に記憶されたシーケンス生成モデル131、特徴抽出モデル132及びマルチモーダルフュージョンモデル200のプログラムを実行するプロセッサ120によって実行することができる。シーケンス生成モデル131、特徴抽出モデル132及びマルチモーダルフュージョンモデル200は、コンピューター可読記録媒体に記憶することができ、それにより、プロセッサ120がシーケンス生成モデル131、特徴抽出モデル132及びマルチモーダルフュージョンモデル200のアルゴリズムをロードして実行すると、単純マルチモーダル方法を実行することができるようになっている。単純マルチモーダル方法は、シーケンス生成モデル131、特徴抽出モデル132及びマルチモーダルフュージョンモデル200の組み合わせにおいて実行される。さらに、単純マルチモーダル方法は、特徴抽出器211、221及び231(特徴抽出器1〜K)、アテンション推定器212、222及び232(アテンション推定器1〜K)、重み付き和プロセッサ213、223及び233(重み付き和プロセッサ(計算器)1〜K)、特徴変換モジュール214、224及び234(特徴変換モジュール1〜K)、単純和プロセッサ(計算器)240並びにシーケンス生成器250を用いる。
図2Bは、本開示の実施の形態によるマルチモーダルアテンション方法を示すブロック図である。特徴抽出器1〜K、アテンション推定器1〜K、重み付き和プロセッサ1〜K、特徴変換モジュール1〜K及びシーケンス生成器250に加えて、マルチモーダルアテンション方法は、単純和プロセッサ240を用いる代わりに、モーダルアテンション推定器255及び重み付き和プロセッサ245を更に備える。マルチモーダルアテンション方法は、シーケンス生成モデル131、特徴抽出モデル132及びマルチモーダルフュージョンモデル200の組み合わせにおいて実行される。双方の方法において、シーケンス生成モデル131は、シーケンス生成器250を提供するとともに、特徴抽出モデル132は、特徴抽出器1〜Kを提供する。さらに、特徴変換モジュール1〜K、モーダルアテンション推定器255並びに重み付き和プロセッサ1〜K及び重み付き和プロセッサ245は、マルチモーダルフュージョンモデル200によって提供することができる。
K≧2でありかつモダリティのうちのいくつかは同じとすることができるようなK個のモダリティを含むマルチモーダルビデオデータが与えられると、そのデータについて特徴抽出器211、アテンション推定器212及び重み付き和プロセッサ213を用いて、モーダル−1データが固定次元コンテンツベクトルにコンバートされ、ここで、特徴抽出器211は、データから複数の特徴ベクトルを抽出し、アテンション推定器212は、抽出された特徴ベクトルごとに各重みを推定し、重み付き和プロセッサ213は、推定された重みを用いて、抽出された特徴ベクトルの重み付き和として計算されたコンテンツベクトルを出力する(生成する)。データについて特徴抽出器221、アテンション推定器222及び重み付き和プロセッサ223を用いて、モーダル−2データが固定次元コンテンツベクトルにコンバートされる。モーダル−Kデータまで、K個の固定次元コンテンツベクトルが得られ、ここで、特徴抽出器231、アテンション推定器232及び重み付き和プロセッサ233がモーダル−Kデータについて用いられる。モーダル−1データ、モーダル−2データ、…、モーダル−Kデータの各々は、或る間隔を有する時系列順、又は所定の時間間隔を有する他の所定の順序のシーケンスデータとすることができる。
次に、K個のコンテンツベクトルの各々は、各特徴変換モジュール214、224、及び234によってN次元ベクトルに変換(コンバート)され、K個の変換されたN次元ベクトルが得られ、ここで、Nは、事前に定義された正の整数である。
図2Aの単純マルチモーダル方法では、K個の変換されたN次元ベクトルが加算されて単一のN次元コンテンツベクトルにされる一方で、図2Bのマルチモーダルアテンション方法では、ベクトルは、モーダルアテンション推定器255及び重み付き和プロセッサ245を用いて単一のN次元コンテンツベクトルにコンバートされる。ここで、モーダルアテンション推定器255は、変換されたN次元ベクトルごとに各重みを推定し、重み付き和プロセッサ245は、推定された重みを用いて、K個の変換されたN次元ベクトルの重み付き和として計算されたN次元コンテンツベクトルを出力する(生成する)。
シーケンス生成器250は、単一のN次元コンテンツベクトルを受信して、ビデオデータを記述する一センテンスのうちの一単語に対応する1つのラベルを予測する。次の単語を予測するにあたり、シーケンス生成器250は、アテンション重みを推定して適切なコンテンツベクトルを得るために、アテンション推定器212、222、232及びモーダルアテンション推定器255に、以前に生成された単語を表すベクトル等のセンテンスのコンテキスト情報を提供する。このベクトルは、プリ−ステップ(又はプリステップ)コンテキストベクトルと呼ぶことができる。
シーケンス生成器250は、センテンス開始トークン(start-of-sentence token)「<sos>」から始めて次の単語を予測して、「センテンス終了(end of sentence)」に対応する特別なシンボル「<eos>」が予測されるまで次の単語(予測単語)を反復的に予測することによって記述的な単数又は複数のセンテンスを生成する。換言すれば、シーケンス生成器250は、マルチモーダル入力ベクトルから単語シーケンスを生成する。いくつかの場合、マルチモーダル入力ベクトルは、HMI及びI/Oインターフェース110又は1つ以上のI/Oインターフェース118等の異なる入力/出力インターフェースを介して受信することができる。
各生成プロセスにおいて、予測単語は、重み付きコンテンツベクトル及びプリステップコンテキストベクトルから与えられる全てのあり得る単語内で最高確率を有するように生成される。さらに、予測単語は、メモリ140、記憶デバイス130又は更なる記憶デバイス(図示せず)に蓄積して、単語シーケンスを生成することができ、この蓄積プロセスは、特別なシンボル(シーケンス終了)が受信されるまで継続することができる。システム100は、シーケンス生成器250から生成された予測単語を、NIC150並びにネットワーク155、HMI及びI/Oインターフェース110又は1つ以上のI/Oインターフェース118を介して送信することができ、それにより、予測単語のデータを、他のコンピューター195又は他の出力デバイス(図示せず)上で用いることができるようになっている。
K個のコンテンツベクトルの各々が別個のモダリティデータから及び/又は別個の特徴抽出器を通じて到来する場合、K個の変換されたベクトルの重み付き和を用いるモダリティフュージョン又は特徴フュージョンにより、センテンスのコンテキスト情報に従って異なるモダリティ及び/又は異なる特徴に注目することによって各単語のより良好な予測が可能になる。したがって、このマルチモーダルアテンション方法は、異なるモダリティ又は特徴にわたってアテンション重みを用いて、異なる特徴を内包的又は選択的に利用することで、記述の各単語を推測することができる。
さらに、システム100内のマルチモーダルフュージョンモデル200は、データ分配モジュール(図示せず)を含み、このデータ分配モジュールは、I/Oインターフェース110又は118を介して複数の時系列データを受信し、この受信されたデータをモーダル−1データ、モーダル−2データ、…、モーダル−Kデータに分配し、各分配された時系列データを所定の単数又は複数の間隔に従って分割し、その後、モーダル−1データ、モーダル−2データ、…、モーダル−Kデータをそれぞれ特徴抽出器1〜Kに提供する。
いくつかの場合、複数の時系列データは、ビデオクリップ内に含まれるビデオ信号及びオーディオ信号とすることができる。ビデオクリップがモーダルデータについて用いられる場合、システム100は、図2Bにおける特徴抽出器211、221及び231(セットK=3)を用いる。ビデオクリップは、I/Oインターフェース110又は118を介してシステム100内の特徴抽出器211、221及び231に提供される。特徴抽出器211、221及び231は、ビデオクリップからそれぞれ画像データ、オーディオデータ及びモーションデータを、モーダル−1データ、モーダル−2データ、モーダル−3(図2Bにおいて例えばK=3)として抽出することができる。この場合、特徴抽出器211、221及び231は、ビデオクリップのデータストリームからそれぞれ第1の間隔、第2の間隔及び第3の間隔に従ってモーダル−1データ、モーダル−2データ、モーダル−3を受信する。
いくつかの場合、データ分配モジュールは、画像特徴、モーション特徴、又はオーディオ特徴を異なる時間間隔で捕捉することができる場合、それぞれ所定の異なる時間間隔で複数の時系列データを分割することができる。
符号化器−復号器ベースのセンテンス生成器
ビデオ記述に対する一手法は、シーケンスツーシーケンス(sequence-to-sequence)学習に基づくものとすることができる。入力シーケンス、すなわち画像シーケンスは、まず、固定次元セマンティックベクトルに符号化される。その後、このセマンティックベクトルから、出力シーケンス、すなわち単語シーケンスが生成される。この場合、符号化器及び復号器(又は生成器)の双方は、通常、長期短期記憶(LSTM:Long Short-Term Memory)ネットワークとしてモデル化される。
図3は、LSTMベースの符号化器−復号器アーキテクチャの一例を示している。画像のシーケンスX=x,x,…,xが与えられると、各画像は、まず、GoogLeNet、VGGNet、又はC3D等の画像又はビデオ分類タスクについて事前トレーニング済みの畳み込みニューラルネットワーク(CNN)とすることができる特徴抽出器にフィードされる。各入力画像についてCNNの全結合層の活性化ベクトルを抽出化することによって、画像特徴のシーケンスX’=x’,x’,…,x’が得られる。特徴ベクトルのシーケンスは、その後、LSTM符号化器にフィードされ、LSTMの隠れ状態が以下によって得られる。
Figure 2019535063
ここで、符号化器ネットワークλのLSTM関数は、以下のように計算される。
Figure 2019535063
ここで、σ()は、要素単位シグモイド関数であり、i、f、to及びcは、それぞれ第tの入力ベクトルについての、入力ゲート、忘却ゲート、出力ゲート、及びセル活性化ベクトルである。重み行列Wzz (λ)及びバイアスベクトルb (λ)が、下付き文字z∈{x,h,i,f,o,c}によって識別される。例えば、Whiは、隠れ入力ゲート行列であり、Wxoは、入力−出力ゲート行列である。この手順において、覗き穴結合(peephole connections)は用いられない。
復号器は、センテンス開始トークン「<sos>」から開始して、センテンス終了トークン「<eos>」を予測するまで、反復的に次の単語を予測する。センテンス開始トークンは、開始ラベルと呼ぶことができ、センテンス終了トークンは、終了ラベルと呼ぶことができる。
復号器状態si−1が与えられると、復号器ネットワークλは、次単語確率分布を、
Figure 2019535063
と推測し、最高確率を有する単語yを、
Figure 2019535063
に従って生成する。ここで、Vは、語彙を示している。復号器状態は、復号器のLSTMネットワークを用いて以下のように更新され、
Figure 2019535063
ここで、y’は、yの単語埋め込みベクトルであり、初期状態sは、図3におけるような最終符号化器状態h及びy’=Embed(<sos>)から得られる。
トレーニングフェーズにおいて、参照としてY=y,…,yが与えられる。しかしながら、テストフェーズにおいて、最良の単語シーケンスを、以下に基づいて発見する必要がある。
Figure 2019535063
したがって、テストフェーズにおけるビームサーチを用いて、各第mのステップにおける最高累積確率を有する複数の状態及び仮説を保持し、センテンス終了トークンに到達したこれらの仮説から最良の仮説を選択することができる。
アテンションベースセンテンス生成器
ビデオ記述に対する別の手法は、アテンションベースシーケンス生成器とすることができ、これは、ネットワークが、現在のコンテキストに依拠して特定の時間又は空間領域から特徴を強調することを可能にし、次の単語がより正確に予測されることを可能にする。上述した基本的な手法と比較して、アテンションベース生成器は、入力コンテキスト及び出力コンテキストに従って入力特徴を選択的に利用することができる。アテンションモデルの有効性は、機械翻訳等の多くのタスクにおいて示されている。
図4は、ビデオからのアテンションベースセンテンス生成器の一例を示すブロック図であり、このアテンションベースセンテンス生成器は、入力画像シーケンスに対する時間アテンションメカニズムを有する。入力画像シーケンスは、所定の時間間隔を有する時系列順とすることができる。特徴ベクトルの入力シーケンスは、1つ以上の特徴抽出器を用いて得られる。この場合、アテンションベース生成器は、双方向LSTM(BLSTM)又はゲート付き再帰型ユニット(GRU:Gated Recurrent Units)に基づく符号化器を利用して、図5におけるように特徴ベクトルシーケンスを更にコンバートし、各ベクトルがそのコンテキスト情報を含むようにすることができる。
しかしながら、ビデオ記述タスクにおいて、次元を削減するために、CNNベース特徴を直接用いることもできるし、更に1つフィードフォワード層を追加することもできる。
図5におけるように特徴抽出に後続してBLSTM符号化器が用いられる場合、活性化ベクトル(すなわち、符号化器状態)は、以下のように得ることができ、
Figure 2019535063
ここで、h (f)及びh (b)は、前方隠れ活性化ベクトル及び後方隠れ活性化ベクトル、すなわち、
Figure 2019535063
である。
フィードフォワード層が用いられる場合、活性化ベクトルは以下のように計算され、
Figure 2019535063
ここで、Wは、重み行列であり、bは、バイアスベクトルである。さらに、CNN特徴が直接用いられる場合、h=xであることが仮定される。
入力シーケンス全体にわたって隠れ活性化ベクトルにアテンション重みを用いることによってアテンションメカニズムが実現される。これらの重みにより、ネットワークが、次の出力単語を予測するのに最も重要な時間ステップから特徴を強調することが可能になる。
第iの出力単語及び第tの入力特徴ベクトルとの間のアテンション重みをαi,tとする。第iの出力について、隠れユニット活性化ベクトルの重み付き和として入力シーケンスの関連コンテンツを表すベクトルが得られる。すなわち、
Figure 2019535063
である。
復号器ネットワークは、コンテンツベクトルcを有する出力ラベルシーケンスを生成するアテンションベース再帰型シーケンス生成器(ARSG:Attention-based Recurrent Sequence Generator)である。ネットワークは、LSTM復号器ネットワークも有し、ここで、復号器状態は、式(9)と同様に更新することができる。その場合、出力ラベル確率は、以下のように計算され、
Figure 2019535063
単語yは、以下に従って生成される。
Figure 2019535063
基本的な符号化器−復号器の式(7)及び式(8)とは対照的に、確率分布は、コンテンツベクトルcについて条件を設けられ、このことにより、各後続の単語を予測するのに最も関連した特定の特徴が強調される。ソフトマックス層の前に、更に1つフィードフォワード層を挿入することができる。この場合、確率は、以下のように計算される。
Figure 2019535063
及び、
Figure 2019535063
アテンション重みは、以下のように計算することができ、
Figure 2019535063
及び、
Figure 2019535063
ここで、W及びVは、行列であり、w及びbは、ベクトルであり、ei,tは、スカラーである。
アテンションベースマルチモーダルフュージョン
本開示の実施の形態は、複数のモダリティのフュージョンを取り扱うのにアテンションモデルを提供し、ここで、各モダリティは、それ自体の特徴ベクトルのシーケンスを有する。ビデオ記述について、画像特徴、モーション特徴、及びオーディオ特徴等のマルチモーダル入力が利用可能である。さらに、異なる特徴抽出方法からの複数の特徴の組み合わせが、多くの場合に記述精度を改善するのに効果的である。
いくつかの場合、VGGNet(画像特徴)からのコンテンツベクトル及びC3D(時空間モーション特徴)からのコンテンツベクトルを組み合わせて、次の単語を予測するのに用いられる1つのベクトルにすることができる。これは、フュージョン層において実行することができる。モダリティの数、すなわち入力特徴ベクトルのシーケンスの数をKとすると、以下の活性化ベクトルが、式(19)の代わりに計算され、
Figure 2019535063
ここで、
Figure 2019535063
であり、ck,iは、第kの特徴抽出器又はモダリティに対応する第kのコンテンツベクトルである。
図6は、K=2を仮定した単純特徴フュージョン手法(単純マルチモーダル方法)を示しており、ここで、コンテンツベクトルは、それぞれ個々の入力シーケンスx11,…,x1L及びx21’,…,x2L’についてアテンション重みを用いて得られる。しかしながら、これらのコンテンツベクトルは、センテンス生成ステップにおいて共通して用いられる重み行列Wc1及びWc2と組み合わされる。したがって、各特徴タイプ(又は1つのモダリティ)からのコンテンツベクトルは、復号器状態にかかわらず、常に同じ重みを用いて融合される。このアーキテクチャは、(各モダリティの)各特徴タイプの関連重みがコンテキストに基づいて変化することを可能にするために、複数のタイプの特徴を効果的に利用する能力を導入することができる。
本開示の実施の形態によれば、アテンションメカニズムを、マルチモーダルフュージョンに拡張することができる。現在の復号器状態に基づいてマルチモーダルアテンションメカニズムを用いて、復号器ネットワークは、入力の特定のモダリティ(又は特定の特徴タイプ)に選択的に注目して、次の単語を予測することができる。本開示の実施の形態によるアテンションベース特徴フュージョンは、
Figure 2019535063
を用いて実行することができ、ここで、
Figure 2019535063
である。
時間アテンションメカニズムと同様にしてマルチモーダルアテンション重みβk,iが得られる。すなわち、
Figure 2019535063
であり、ここで、
Figure 2019535063
であり、ここで、W及びVBkは、行列であり、w及びbBkは、ベクトルであり、vk,iは、スカラーである。
図7は、マルチモーダルアテンションメカニズムを含む、本開示の実施の形態による、センテンス生成器のアーキテクチャを示している。図6における単純マルチモーダルフュージョン方法とは異なり、図7において、特徴レベルアテンション重みは、復号器状態及びコンテンツベクトルに従って変化することができ、これにより、記述における各後続の単語を予測するときに、復号器ネットワークが特徴及び/又はモダリティの異なるセットに注目することが可能になる。
評価のためのデータセット
本開示の一実施の形態による特徴フュージョンを論じるために、Youtube(登録商標)2Textビデオコーパスを用いたいくつかの実験結果が以下に記載される。このコーパスは、自動ビデオ記述生成モデルをトレーニング及び評価するのに良く適している。このデータセットは、複数の自然言語記述を有する1970個のビデオクリップを有する。各ビデオクリップは、異なるMechanical Turkersによって提供される複数の並列文でアノテートされている。計80839文のセンテンスがあり、1クリップあたり約41文のアノテートされたセンテンスを有する。各センテンスは、平均して約8個の単語を含む。全てのセンテンス内に含まれる単語により、13010の一意の語彙エントリからなる語彙が構成される。このデータセットは、オープンドメインであるとともに、スポーツ、動物及び音楽を含む幅広いトピックをカバーしている。このデータセットは、1200個のビデオクリップのトレーニングセット、100個のクリップのバリデーションセット、及び残りの670個のクリップからなるテストセットに分割される。
ビデオ前処理
各ビデオクリップから、毎秒24フレームからなり、かつ224×224ピクセル画像に再スケーリングされた画像データが抽出される。画像特徴を抽出するために、事前トレーニング済みのGoogLeNet CNN(M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013.)が用いられて、Caffeにおける一般的な実施(Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. arXiv preprint arXiv:1408.5093, 2014.)の援助を得て固定長表現が抽出される。特徴は、隠れ層pool5/7×7 s1から抽出される。各ビデオクリップから16フレーム毎に1つのフレームを選び出し、これらのフレームをCNNにフィードして1024次元フレーム単位特徴ベクトルを得る。
また、本発明者らは、ImageNetデータセット(A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In F. Pereira, C. J. C. Burges, L. Bottou, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems 25, pages 1097-1105. Curran Associates, Inc., 2012.)上で事前トレーニングされたVGGNet(K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. CoRR, abs/1409.1556, 2014.)も用いる。画像特徴を得るために全結合層fc7の隠れ活性化ベクトルが用いられ、これにより、4096次元特徴ベクトルのシーケンスが生成される。さらに、本発明者らは、モーション及び短期時空間アクティビティをモデル化するために、事前トレーニング済みのC3Dを用いる(D. Tran, L. D. Bourdev, R. Fergus, L. Torresani, and M. Paluri. Learning spatiotemporal features with 3d convolutional networks. In 2015 IEEE International Conference on Computer Vision, ICCV 2015, Santiago, Chile, December 7-13, 2015, pages 4489-4497, 2015.)(これは、Sports−1Mデータセット(A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, pages1725-1732, 2014.)上でトレーニングされた)。C3Dネットワークは、ビデオ内のシーケンスフレームを読み出し、16フレーム毎に固定長特徴ベクトルを出力する。4096次元特徴を有する全結合層fc6−1から活性化ベクトルを抽出した。
オーディオ処理
本開示の実施の形態によるアテンションベース特徴フュージョン方法において用いるためにオーディオ特徴が組み込まれる。YouTube2Textコーパスは、オーディオトラックを含まないので、元のビデオのURLを介してオーディオデータを抽出した。ビデオのうちの一部は現在ではYouTube上で視聴可能ではなかったものの、本発明者らは、コーパスのうちの84%をカバーする、1649個のビデオクリップについてオーディオデータを収集することができた。44kHzでサンプリングされたオーディオデータが16kHzでダウンサンプリングされ、各々25msのシフトを有する50ms時間ウィンドウからメル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstral Coefficients)が抽出される。その後、13次元MFCC特徴のシーケンスが20個の連続フレームのグループ毎から1つのベクトルに連結され、これにより、260次元ベクトルのシーケンスがもたらされる。トレーニングセット内の平均ベクトル及び分散ベクトルが0及び1であるように、MFCC特徴が正規化される。バリデーションセット及びテストセットも、トレーニングセットの元の平均ベクトル及び分散ベクトルを用いて調整される。画像特徴と異なり、本発明者らは、復号器ネットワークを用いて共同でトレーニングされる、BLSTM符号化器ネットワークをMFCC特徴について適用する。ビデオクリップにオーディオデータが欠落している場合、単にゼロベクトルのシーケンスである偽MFCC特徴のシーケンスを絶え間なくフィードする(feed in)。
マルチモーダルデータを記述するためのセットアップ
キャプション生成モデル、すなわち復号器ネットワークは、トレーニングセットを用いて交差エントロピー基準を最小化するようにトレーニングされる。画像特徴は、512ユニットからなる1つの射影層を通じて復号器ネットワークにフィードされる一方で、オーディオ特徴、すなわちMFCCは、復号器ネットワークが後続するBLSTM符号化器にフィードされる。符号化器ネットワークは、512ユニットからなる1つの射影層及び512セルからなる双方向LSTM層を有する。復号器ネットワークは、512セルを有する1つのLSTM層を有する。各単語は、LSTM層にフィードされるとき、256次元ベクトルに埋め込まれる。本発明者らは、パラメーターを更新するために、アテンションモデルを最適化するのに広く用いられるAdaDelta最適化器(M. D. Zeiler. ADADELTA: an adaptive learning rate method. CoRR, abs/1212.5701, 2012.)を適用する。LSTMモデル及びアテンションモデルは、Chainer(S. Tokui, K. Oono, S. Hido, and J. Clayton. Chainer: a next generation open source framework for deep learning. In Proceedings of Workshop on Machine Learning Systems (Learn-7 ingSys) in The Twenty-ninth Annual Conference on Neural Information Processing Systems (NIPS), 2015)を用いて実施した。
グラウンドトゥルースと自動ビデオ記述結果との類似度が、機械翻訳向けメトリック、すなわちBLEU(K. Papineni, S. Roukos, T. Ward, and W. Zhu. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, July 6-12, 2002, Philadelphia, PA, USA., pages 311-318, 2002.)、METEOR(M. J. Denkowski and A. Lavie. Meteor universal: Language specific translation evaluation for any target language. In Proceedings of the Ninth Workshop on Statistical Machine Translation, WMT@ACL 2014, June 26-27, 2014, Baltimore, Maryland, USA, pages 376-380, 2014.)、及び画像記述の他のメトリックである、CIDEr(R. Vedantam, C. L. Zitnick, and D. Parikh. Cider: Consensus-based image description evaluation. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2015, Boston, MA, USA, June 7-12, 2015, pages 4566-4575, 2015.)を用いて評価される。本発明者らは、画像キャプショニングの課題のために用意された公に利用可能な評価スクリプトを用いた(X. Chen, H. Fang, T. Lin, R. Vedantam, S. Gupta, P. Doll´ar, and C. L. Zitnick. Microsoft COCO captions: Data collection and evaluation server. CoRR, abs/1504.00325, 2015.)。
評価結果
図8は、Youtube2textデータセットに関する、従来の方法によって得られた性能結果と、本開示の実施の形態による、マルチモーダルアテンション方法によって得られた性能結果との比較を示している。従来の方法は、単純加法的マルチモーダルフュージョン(単純マルチモーダル)、時間アテンションを用いるユニモーダルモデル(ユニモーダル)であり、時間アテンションを用いたベースラインシステムが実行される。
表の最初の3行は、時間アテンションを用いるが1つのモダリティ(1つの特徴タイプ)のみを用いている。次の2行は、単純マルチモーダルフュージョン(図6を参照)又は本発明で提案されるマルチモーダルアテンションメカニズム(図7を参照)を用いて2つのモダリティ(画像及び時空間)のマルチモーダルフュージョンを行っている。また、更に次の2行は、今度は3つのモダリティ(画像特徴、時空間特徴、及びオーディオ特徴)のマルチモーダルフュージョンを実行している。各列において、上位2つの方法のスコアが太字で示される。
単純マルチモーダルモデルは、ユニモーダルモデルよりも良好に機能した。一方で、マルチモーダルアテンションモデルは、単純マルチモーダルモデルよりも機能が優れていた。いくつかのYouTubeデータは、ビデオコンテンツに無関連である背景音楽等のノイズを含むので、オーディオ特徴は、ベースラインの性能を劣化させている。マルチモーダルアテンションモデルは、オーディオ特徴のノイズの影響を軽減した。その上、本発明で提案される方法を用いてオーディオ特徴を組み合わせることにより、全ての実験条件についてCIDErの最高性能に達した。
したがって、マルチモーダルアテンションモデルは、単純マルチモーダルを改善する。
図9A、図9B、図9C及び図9Dは、従来の方法によって得られた性能結果と、本開示の実施の形態による、マルチモーダルアテンション方法によって得られた性能結果との比較を示している。
図9A〜図9Cは、アテンションベースマルチモーダルフュージョン方法(VGG及びC3Dを用いる時間及びマルチモーダルアテンション)がCIDErの尺度で単一モーダル方法(VGGを用いる時間アテンション)及び単純モーダルフュージョン方法(VGG及びC3Dを用いる時間アテンション)よりも機能が優れていた3つの例示のビデオクリップを示している。図9Dは、オーディオ特徴を含むアテンションベースマルチモーダルフュージョン方法(時間及びマルチモーダルアテンション)が、オーディオ特徴を用いる/用いない単一モーダル方法(VGGを用いる時間アテンション)、単純モーダルフュージョン方法(VGG、C3Dを用いる時間アテンション)よりも機能が優れていた、一例示のビデオクリップを示している。これらの例は、マルチモーダルアテンションメカニズムの有効性を示している。
本開示のいくつかの実施の形態において、上述したマルチモーダルフュージョンモデルがコンピューターシステムにインストールされると、より少ない計算能力でビデオスクリプトを効果的に生成することができ、したがって、マルチモーダルフュージョンモデル方法又はシステムの使用により、中央処理装置の使用及び電力消費を低減することができる。
さらに、本開示による実施の形態は、マルチモーダルフュージョンモデルを実行する効果的な方法を提供し、したがって、マルチモーダルフュージョンモデルを用いる方法及びシステムの使用により、中央処理装置(CPU)の使用、電力消費及び/又はネットワーク帯域幅の使用を低減することができる。
本開示の上記で説明した実施の形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施の形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピューターに設けられるのか又は複数のコンピューター間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、1つ以上のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。
また、本明細書において略述された様々な方法又はプロセスは、様々なオペレーティングシステム又はプラットフォームのうちの任意の1つを用いる1つ以上のプロセッサ上で実行可能なソフトウェアとしてコード化することができる。加えて、そのようなソフトウェアは、複数の適したプログラミング言語及び/又はプログラミングツール若しくはスクリプティングツールのうちの任意のものを用いて記述することができ、実行可能機械語コード、又はフレームワーク若しくは仮想機械上で実行される中間コードとしてコンパイルすることもできる。通常、プログラムモジュールの機能は、様々な実施の形態において所望に応じて組み合わせることもできるし、分散させることもできる。
さらに、本開示の実施の形態は、方法として具現化することができ、この方法の一例が提供されている。この方法の一部として実行される動作は、任意の適した方法で順序付けることができる。したがって、例示したものと異なる順序で動作が実行される実施の形態を構築することができ、この順序は、いくつかの動作が例示の実施の形態では順次的な動作として示されていても、それらの動作を同時に実行することを含むことができる。さらに、請求項の要素を修飾する、特許請求の範囲における第1、第2等の序数の使用は、それ自体で、1つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する1つの請求項の要素を、同じ(序数の用語の使用を除く)名称を有する別の要素と区別するラベルとして用いられているにすぎない。
本開示の別の実施の形態によれば、マルチモーダル入力ベクトルから単語シーケンスを生成する方法は、第1のシーケンス間隔及び第2のシーケンス間隔に従って第1の入力ベクトル及び第2の入力ベクトルを受信することと、それぞれ第1の入力及び第2の入力から、第1の特徴抽出器及び第2の特徴抽出器を用いて第1の特徴ベクトル及び第2の特徴ベクトルを抽出することと、それぞれ第1の特徴ベクトル及び第2の特徴ベクトル並びにシーケンス生成器のプリステップコンテキストベクトルから、第1の重みのセット及び第2の重みのセットを推定することと、第1の重みのセット及び第1の特徴ベクトルから第1のコンテンツベクトルを計算するとともに、第2の重みのセット及び第2の特徴ベクトルから第2のコンテンツベクトルを計算することと、第1のコンテンツベクトルを、所定の次元を有する第1のモーダルコンテンツベクトルに変換するとともに、第2のコンテンツベクトルを、所定の次元を有する第2のモーダルコンテンツベクトルに変換することと、プリ−ステップコンテキストベクトル並びに第1のコンテンツベクトル及び第2のコンテンツベクトル又は第1のモーダルコンテンツベクトル及び第2のモーダルコンテンツベクトルからモーダルアテンション重みのセットを推定することと、モーダルアテンション重みのセット並びに第1のモーダルコンテンツベクトル及び第2のモーダルコンテンツベクトルから所定の次元を有する重み付きコンテンツベクトルを生成することと、重み付きコンテンツベクトルから単語シーケンスを生成するためにシーケンス生成器を用いて予測単語を生成することとを含む。
いくつかの場合、複数の時系列データは、ビデオクリップ内に含まれるビデオ信号及びオーディオ信号とすることができる。ビデオクリップがモーダルデータについて用いられる場合、システム100は、図2Bにおける特徴抽出器211、221及び231(セットK=3)を用いる。ビデオクリップは、I/Oインターフェース110又は118を介してシステム100内の特徴抽出器211、221及び231に提供される。特徴抽出器211、221及び231は、ビデオクリップからそれぞれ画像データ、オーディオデータ及びモーションデータを、モーダル−1データ、モーダル−2データ、モーダル−3データ(図2Bにおいて例えばK=3)として抽出することができる。この場合、特徴抽出器211、221及び231は、ビデオクリップのデータストリームからそれぞれ第1の間隔、第2の間隔及び第3の間隔に従ってモーダル−1データ、モーダル−2データ、モーダル−3データを受信する。
ここで、σ()は、要素単位シグモイド関数であり、i、f 及びcは、それぞれ第tの入力ベクトルについての、入力ゲート、忘却ゲート、出力ゲート、及びセル活性化ベクトルである。重み行列Wzz (λ)及びバイアスベクトルb (λ)が、下付き文字z∈{x,h,i,f,o,c}によって識別される。例えば、Whiは、隠れ入力ゲート行列であり、Wxoは、入力−出力ゲート行列である。この手順において、覗き穴結合(peephole connections)は用いられない。

Claims (20)

  1. マルチモーダル入力ベクトルから単語シーケンスを生成するシステムであって、
    命令を記憶するメモリ及び1つ以上の記憶デバイスと接続する1つ以上のプロセッサであって、前記命令は、該1つ以上のプロセッサによって実行されると、
    第1のシーケンス間隔及び第2のシーケンス間隔に従って第1の入力ベクトル及び第2の入力ベクトルを受信することと、
    それぞれ前記第1の入力及び前記第2の入力から、第1の特徴抽出器及び第2の特徴抽出器を用いて第1の特徴ベクトル及び第2の特徴ベクトルを抽出することと、
    それぞれ前記第1の特徴ベクトル及び前記第2の特徴ベクトル並びにシーケンス生成器のプリステップコンテキストベクトルから、第1の重みのセット及び第2の重みのセットを推定することと、
    前記第1の重みのセット及び前記第1の特徴ベクトルから第1のコンテンツベクトルを計算するとともに、前記第2の重みのセット及び前記第2の特徴ベクトルから第2のコンテンツベクトルを計算することと、
    前記第1のコンテンツベクトルを、所定の次元を有する第1のモーダルコンテンツベクトルに変換するとともに、前記第2のコンテンツベクトルを、前記所定の次元を有する第2のモーダルコンテンツベクトルに変換することと、
    前記プリステップコンテキストベクトル並びに前記第1のコンテンツベクトル及び前記第2のコンテンツベクトル又は前記第1のモーダルコンテンツベクトル及び前記第2のモーダルコンテンツベクトルからモーダルアテンション重みのセットを推定することと、
    前記モーダルアテンション重みのセット並びに前記第1のモーダルコンテンツベクトル及び前記第2のモーダルコンテンツベクトルから前記所定の次元を有する重み付きコンテンツベクトルを生成することと、
    前記重み付きコンテンツベクトルから前記単語シーケンスを生成するために前記シーケンス生成器を用いて予測単語を生成することと、
    を含む動作を、該1つ以上のプロセッサに実行させるように動作可能であるもの、
    を備える、システム。
  2. 前記第1のシーケンス間隔及び前記第2のシーケンス間隔は、同一の間隔である、請求項1に記載のシステム。
  3. 前記第1の入力ベクトル及び前記第2の入力ベクトルは、異なるモダリティである、請求項1に記載のシステム。
  4. 前記動作は、
    前記予測単語を前記メモリ又は前記1つ以上の記憶デバイスに蓄積して、前記単語シーケンスを生成すること、
    を更に含む、請求項1に記載のシステム。
  5. 前記蓄積することは、終了ラベルが受信されるまで継続される、請求項4に記載のシステム。
  6. 前記動作は、
    前記シーケンス生成器から生成された前記予測単語を送信すること、
    を更に含む、請求項1に記載のシステム。
  7. 前記第1の特徴抽出器及び前記第2の特徴抽出器は、画像又はビデオ分類タスクについてトレーニングされた事前トレーニング済みの畳み込みニューラルネットワーク(CNN)である、請求項1に記載のシステム。
  8. 前記特徴抽出器は、長期短期記憶(LSTM)ネットワークである、請求項1に記載のシステム。
  9. 前記重み付きコンテンツベクトル及び前記プリステップコンテキストベクトルから与えられる全てのあり得る単語内で、最高確率を有する前記予測単語が求められる、請求項1に記載のシステム。
  10. 前記シーケンス生成器は、長期短期メモリ(LSTM)ネットワークを利用する、請求項1に記載のシステム。
  11. 前記第1の入力ベクトルは、第1の入力/出力(I/O)インターフェースを介して受信されるとともに、前記第2の入力ベクトルは、第2のI/Oインターフェースを介して受信される、請求項1に記載のシステム。
  12. 実行時に、
    第1のシーケンス間隔及び第2のシーケンス間隔に従って第1の入力ベクトル及び第2の入力ベクトルを受信することと、
    それぞれ前記第1の入力及び前記第2の入力から、第1の特徴抽出器及び第2の特徴抽出器を用いて第1の特徴ベクトル及び第2の特徴ベクトルを抽出することと、
    それぞれ前記第1の特徴ベクトル及び前記第2の特徴ベクトル並びにシーケンス生成器のプリステップコンテキストベクトルから、第1の重みのセット及び第2の重みのセットを推定することと、
    前記第1の重みのセット及び前記第1の特徴ベクトルから第1のコンテンツベクトルを計算するとともに、前記第2の重みのセット及び前記第2の特徴ベクトルから第2のコンテンツベクトルを計算することと、
    前記第1のコンテンツベクトルを、所定の次元を有する第1のモーダルコンテンツベクトルに変換するとともに、前記第2のコンテンツベクトルを、前記所定の次元を有する第2のモーダルコンテンツベクトルに変換することと、
    前記プリステップコンテキストベクトル並びに前記第1のコンテンツベクトル及び前記第2のコンテンツベクトル又は前記第1のモーダルコンテンツベクトル及び前記第2のモーダルコンテンツベクトルからモーダルアテンション重みのセットを推定することと、
    前記モーダルアテンション重みのセット並びに前記第1のモーダルコンテンツベクトル及び前記第2のモーダルコンテンツベクトルから前記所定の次元を有する重み付きコンテンツベクトルを生成することと、
    前記重み付きコンテンツベクトルから単語シーケンスを生成するために前記シーケンス生成器を用いて予測単語を生成することと、
    を含む動作を、メモリと接続する1つ以上のプロセッサに実行させる、前記1つ以上のプロセッサによって実行可能である命令を含むソフトウェアを記憶する非一時的コンピューター可読媒体。
  13. 前記第1のシーケンス間隔及び前記第2のシーケンス間隔は、同一の間隔である、請求項12に記載の非一時的コンピューター可読媒体。
  14. 前記第1の入力ベクトル及び前記第2の入力ベクトルは、異なるモダリティである、請求項12に記載の非一時的コンピューター可読媒体。
  15. 前記動作は、
    前記予測単語を前記メモリ又は前記1つ以上の記憶デバイスに蓄積して、前記単語シーケンスを生成すること、
    を更に含む、請求項12に記載の非一時的コンピューター可読媒体。
  16. 前記蓄積することは、終了ラベルが受信されるまで継続される、請求項15に記載の非一時的コンピューター可読媒体。
  17. 前記動作は、
    前記シーケンス生成器から生成された前記予測単語を送信すること、
    を更に含む、請求項12に記載の非一時的コンピューター可読媒体。
  18. 前記第1の特徴抽出器及び前記第2の特徴抽出器は、画像又はビデオ分類6タスクについてトレーニングされた事前トレーニング済みの畳み込みニューラルネットワーク(CNN)である、請求項12に記載の非一時的コンピューター可読媒体。
  19. マルチモーダル入力から単語シーケンスを生成する方法であって、
    第1のシーケンス間隔及び第2のシーケンス間隔に従って第1の入力ベクトル及び第2の入力ベクトルを受信することと、
    それぞれ前記第1の入力及び前記第2の入力から、第1の特徴抽出器及び第2の特徴抽出器を用いて第1の特徴ベクトル及び第2の特徴ベクトルを抽出することと、
    それぞれ前記第1の特徴ベクトル及び前記第2の特徴ベクトル並びにシーケンス生成器のプリステップコンテキストベクトルから、第1の重みのセット及び第2の重みのセットを推定することと、
    前記第1の重みのセット及び前記第1の特徴ベクトルから第1のコンテンツベクトルを計算するとともに、前記第2の重みのセット及び前記第2の特徴ベクトルから第2のコンテンツベクトルを計算することと、
    前記第1のコンテンツベクトルを、所定の次元を有する第1のモーダルコンテンツベクトルに変換するとともに、前記第2のコンテンツベクトルを、前記所定の次元を有する第2のモーダルコンテンツベクトルに変換することと、
    前記プリステップコンテキストベクトル並びに前記第1のコンテンツベクトル及び前記第2のコンテンツベクトル又は前記第1のモーダルコンテンツベクトル及び前記第2のモーダルコンテンツベクトルからモーダルアテンション重みのセットを推定することと、
    前記モーダルアテンション重みのセット並びに前記第1のモーダルコンテンツベクトル及び前記第2のモーダルコンテンツベクトルから前記所定の次元を有する重み付きコンテンツベクトルを生成することと、
    前記重み付きコンテンツベクトルから前記単語シーケンスを生成するために前記シーケンス生成器を用いて予測単語を生成することと、
    を含む、方法。
  20. 前記第1のシーケンス間隔及び前記第2のシーケンス間隔は、同一の間隔である、請求項19に記載の方法。
JP2019513858A 2016-12-30 2017-12-25 マルチモーダルフュージョンモデルのための方法及びシステム Active JP6719663B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662440433P 2016-12-30 2016-12-30
US62/440,433 2016-12-30
US15/472,797 US10417498B2 (en) 2016-12-30 2017-03-29 Method and system for multi-modal fusion model
US15/472,797 2017-03-29
PCT/JP2017/047417 WO2018124309A1 (en) 2016-12-30 2017-12-25 Method and system for multi-modal fusion model

Publications (2)

Publication Number Publication Date
JP2019535063A true JP2019535063A (ja) 2019-12-05
JP6719663B2 JP6719663B2 (ja) 2020-07-08

Family

ID=61094562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019513858A Active JP6719663B2 (ja) 2016-12-30 2017-12-25 マルチモーダルフュージョンモデルのための方法及びシステム

Country Status (5)

Country Link
US (1) US10417498B2 (ja)
JP (1) JP6719663B2 (ja)
CN (1) CN110168531B (ja)
DE (1) DE112017006685T5 (ja)
WO (1) WO2018124309A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021095211A1 (ja) * 2019-11-14 2021-05-20
JP2022539620A (ja) * 2019-09-13 2022-09-12 三菱電機株式会社 対話応答生成システムのためのシステムおよび方法
JP2023502140A (ja) * 2020-03-10 2023-01-20 エスアールアイ インターナショナル タスク固有のデータ利用のための物理学により誘導されたディープマルチモーダル埋め込みのための方法及び装置

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366292B2 (en) * 2016-11-03 2019-07-30 Nec Corporation Translating video to language using adaptive spatiotemporal convolution feature representation with dynamic abstraction
EP3566182A1 (en) * 2017-02-06 2019-11-13 Deepmind Technologies Limited Memory augmented generative temporal models
US12106214B2 (en) * 2017-05-17 2024-10-01 Samsung Electronics Co., Ltd. Sensor transformation attention network (STAN) model
US10902738B2 (en) * 2017-08-03 2021-01-26 Microsoft Technology Licensing, Llc Neural models for key phrase detection and question generation
US11475254B1 (en) * 2017-09-08 2022-10-18 Snap Inc. Multimodal entity identification
US11170508B2 (en) * 2018-01-03 2021-11-09 Ramot At Tel-Aviv University Ltd. Systems and methods for the segmentation of multi-modal image data
CN108875708A (zh) * 2018-07-18 2018-11-23 广东工业大学 基于视频的行为分析方法、装置、设备、系统及存储介质
CN110851641B (zh) * 2018-08-01 2022-09-16 杭州海康威视数字技术股份有限公司 跨模态检索方法、装置和可读存储介质
CN110858232B (zh) * 2018-08-09 2024-03-29 阿里巴巴集团控股有限公司 搜索方法、设备、系统及存储介质
US11010559B2 (en) * 2018-08-30 2021-05-18 International Business Machines Corporation Multi-aspect sentiment analysis by collaborative attention allocation
US20200134398A1 (en) * 2018-10-29 2020-04-30 Sri International Determining intent from multimodal content embedded in a common geometric space
CN109871736B (zh) * 2018-11-23 2023-01-31 腾讯科技(深圳)有限公司 自然语言描述信息的生成方法及装置
CN110162799B (zh) * 2018-11-28 2023-08-04 腾讯科技(深圳)有限公司 模型训练方法、机器翻译方法以及相关装置和设备
CN109543824B (zh) * 2018-11-30 2023-05-23 腾讯科技(深圳)有限公司 一种序列模型的处理方法和装置
JP7206898B2 (ja) * 2018-12-25 2023-01-18 富士通株式会社 学習装置、学習方法および学習プログラム
CN110020596B (zh) * 2019-02-21 2021-04-30 北京大学 一种基于特征融合和级联学习的视频内容定位方法
CN111640424B (zh) * 2019-03-01 2024-02-13 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN109960747B (zh) * 2019-04-02 2022-12-16 腾讯科技(深圳)有限公司 视频描述信息的生成方法、视频处理方法、相应的装置
CN110163091B (zh) * 2019-04-13 2023-05-26 天津大学 基于lstm网络多模态信息融合的三维模型检索方法
US10885345B2 (en) * 2019-04-29 2021-01-05 Tencent America LLC End-to-end video captioning with multi-task reinforcement learning
EP3767332B1 (en) * 2019-07-18 2023-12-13 Aptiv Technologies Limited Methods and systems for radar object detection
CN110503636B (zh) * 2019-08-06 2024-01-26 腾讯医疗健康(深圳)有限公司 参数调整方法、病灶预测方法、参数调整装置及电子设备
CN110557447B (zh) * 2019-08-26 2022-06-10 腾讯科技(武汉)有限公司 一种用户行为识别方法、装置及存储介质和服务器
CN110473529B (zh) * 2019-09-09 2021-11-05 北京中科智极科技有限公司 一种基于自注意力机制的流式语音转写系统
CN110826397B (zh) * 2019-09-20 2022-07-26 浙江大学 一种基于高阶低秩多模态注意力机制的视频描述方法
CN112651417B (zh) * 2019-10-12 2024-06-14 杭州海康威视数字技术股份有限公司 车牌识别方法、装置、设备及存储介质
US11270123B2 (en) * 2019-10-22 2022-03-08 Palo Alto Research Center Incorporated System and method for generating localized contextual video annotation
US10699129B1 (en) * 2019-11-15 2020-06-30 Fudan University System and method for video captioning
CN110866509B (zh) 2019-11-20 2023-04-28 腾讯科技(深圳)有限公司 动作识别方法、装置、计算机存储介质和计算机设备
CN111160350B (zh) * 2019-12-23 2023-05-16 Oppo广东移动通信有限公司 人像分割方法、模型训练方法、装置、介质及电子设备
CN111274372A (zh) * 2020-01-15 2020-06-12 上海浦东发展银行股份有限公司 用于人机交互的方法、电子设备和计算机可读存储介质
CN111275085B (zh) * 2020-01-15 2022-09-13 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法
CN111274440B (zh) * 2020-01-19 2022-03-25 浙江工商大学 一种基于视觉和音频内容相关度挖掘的视频推荐方法
CN113139121A (zh) * 2020-01-20 2021-07-20 阿里巴巴集团控股有限公司 查询方法、模型训练方法、装置、设备及存储介质
CN111291804A (zh) * 2020-01-22 2020-06-16 杭州电子科技大学 基于注意力机制的多传感器时间序列分析模型
US11635299B2 (en) * 2020-02-06 2023-04-25 Mitsubishi Electric Research Laboratories, Inc. Method and system for scene-aware interaction
CN111294512A (zh) * 2020-02-10 2020-06-16 深圳市铂岩科技有限公司 图像处理方法、装置、存储介质及摄像装置
CN111325323B (zh) * 2020-02-19 2023-07-14 山东大学 一种融合全局信息和局部信息的输变电场景描述自动生成方法
CN111814844B (zh) * 2020-03-17 2023-07-11 同济大学 一种基于位置编码融合的密集型视频描述方法
WO2021204143A1 (en) * 2020-04-08 2021-10-14 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Methods for action localization, electronic device and storage medium
CN111523575B (zh) * 2020-04-13 2023-12-12 中南大学 基于短视频多模态特征的短视频推荐方法
US20210350232A1 (en) * 2020-05-07 2021-11-11 Nec Laboratories America, Inc. Fault detection in cyber-physical systems
CN113630302B (zh) * 2020-05-09 2023-07-11 阿里巴巴集团控股有限公司 一种垃圾邮件识别方法及装置、计算机可读存储介质
CN111639748B (zh) * 2020-05-15 2022-10-11 武汉大学 一种基于lstm-bp时空组合模型的流域污染物通量预测方法
CN111767726B (zh) * 2020-06-24 2024-02-06 北京奇艺世纪科技有限公司 数据处理方法及装置
CN112000818B (zh) * 2020-07-10 2023-05-12 中国科学院信息工程研究所 一种面向文本和图像的跨媒体检索方法及电子装置
CN112001437B (zh) * 2020-08-19 2022-06-14 四川大学 面向模态非完全对齐的数据聚类方法
CN112069361A (zh) * 2020-08-27 2020-12-11 新华智云科技有限公司 一种基于多模态融合的视频描述文本生成方法
CN112115601B (zh) * 2020-09-10 2022-05-17 西北工业大学 一种可靠的用户注意力监测估计表示模型
CN112468888B (zh) * 2020-11-26 2023-04-07 广东工业大学 基于gru网络的视频摘要生成方法与系统
CN112738555B (zh) * 2020-12-22 2024-03-29 上海幻电信息科技有限公司 视频处理方法及装置
CN112765959B (zh) * 2020-12-31 2024-05-28 康佳集团股份有限公司 意图识别方法、装置、设备及计算机可读存储介质
US11620903B2 (en) * 2021-01-14 2023-04-04 Baidu Usa Llc Machine learning model to fuse emergency vehicle audio and visual detection
CN112861945B (zh) * 2021-01-28 2022-05-13 清华大学 一种多模态融合谎言检测方法
US20220245424A1 (en) * 2021-01-29 2022-08-04 Samsung Electronics Co., Ltd. Microgenre-based hyper-personalization with multi-modal machine learning
CN112954312B (zh) * 2021-02-07 2024-01-05 福州大学 一种融合时空特征的无参考视频质量评估方法
CN113205148B (zh) * 2021-05-20 2022-10-11 山东财经大学 一种迭代层间信息融合的医学图像帧插值方法及终端机
CN113537566B (zh) * 2021-06-16 2022-05-06 广东工业大学 一种基于dccso优化深度学习模型的超短期风电功率预测方法
CN113360514B (zh) * 2021-07-02 2022-05-17 支付宝(杭州)信息技术有限公司 联合更新模型的方法、装置及系统
US11445267B1 (en) 2021-07-23 2022-09-13 Mitsubishi Electric Research Laboratories, Inc. Low-latency captioning system
CN113326703B (zh) * 2021-08-03 2021-11-16 国网电子商务有限公司 基于异构空间下多模态对抗融合的情感识别方法及系统
CN113569975A (zh) * 2021-08-04 2021-10-29 华南师范大学 一种基于模型融合的素描作品评级方法及装置
CN113986005B (zh) * 2021-10-13 2023-07-07 电子科技大学 基于集成学习的多模态融合视线估计框架
CN113990473B (zh) * 2021-10-28 2022-09-30 上海昆亚医疗器械股份有限公司 一种医疗设备运维信息收集分析系统及其使用方法
CN114120044B (zh) * 2021-12-08 2024-07-19 马上消费金融股份有限公司 图像分类方法、图像分类网络训练方法、装置及电子设备
KR102411278B1 (ko) * 2021-12-30 2022-06-22 주식회사 파일러 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법
CN114328927A (zh) * 2021-12-30 2022-04-12 深圳市检验检疫科学研究院 基于标签感知的门控循环采集方法
CN114663733A (zh) * 2022-02-18 2022-06-24 北京百度网讯科技有限公司 多模态特征的融合方法、装置、设备、介质及产品
CN114387567B (zh) * 2022-03-23 2022-06-28 长视科技股份有限公司 一种视频数据的处理方法、装置、电子设备及存储介质
CN115034327B (zh) * 2022-06-22 2024-08-13 支付宝(杭州)信息技术有限公司 外部数据应用、用户识别的方法、装置和设备
CN115062328B (zh) * 2022-07-12 2023-03-10 中国科学院大学 一种基于跨模态数据融合的信息智能解析方法
US20240046085A1 (en) 2022-08-04 2024-02-08 Mitsubishi Electric Research Laboratories, Inc. Low-latency Captioning System
CN115512368B (zh) * 2022-08-22 2024-05-10 华中农业大学 一种跨模态语义生成图像模型和方法
CN115134676B (zh) * 2022-09-01 2022-12-23 有米科技股份有限公司 一种音频辅助视频补全的视频重构方法及装置
CN115590481B (zh) * 2022-12-15 2023-04-11 北京鹰瞳科技发展股份有限公司 一种用于预测认知障碍的装置和计算机可读存储介质
CN116414456B (zh) * 2023-01-19 2024-01-19 杭州知存智能科技有限公司 存算芯片内的加权融合变换部件、存算电路及协同计算方法
CN116128863B (zh) * 2023-03-01 2023-09-12 北京医准智能科技有限公司 一种医学图像处理方法、装置及设备
CN116543795B (zh) * 2023-06-29 2023-08-29 天津大学 一种基于多模态特征融合的声音场景分类方法
CN116932731B (zh) * 2023-09-18 2024-01-30 上海帜讯信息技术股份有限公司 面向5g消息的多模态知识问答方法及系统
CN117312864A (zh) * 2023-11-30 2023-12-29 国家计算机网络与信息安全管理中心 基于多模态信息的变形词生成模型的训练方法及装置
CN117668762B (zh) * 2024-01-31 2024-05-17 新疆三联工程建设有限责任公司 用于住宅地下渗漏的监测预警系统及方法
CN117708375B (zh) * 2024-02-05 2024-05-28 北京搜狐新媒体信息技术有限公司 一种视频处理方法、装置及相关产品
CN117789099B (zh) * 2024-02-26 2024-05-28 北京搜狐新媒体信息技术有限公司 视频特征提取方法及装置、存储介质及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102937972B (zh) * 2012-10-15 2016-06-22 上海外教社信息技术有限公司 一种视听字幕制作系统及方法
CN103885924A (zh) * 2013-11-21 2014-06-25 北京航空航天大学 一种领域自适应的公开课字幕自动生成系统及方法
US10909329B2 (en) 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022539620A (ja) * 2019-09-13 2022-09-12 三菱電機株式会社 対話応答生成システムのためのシステムおよび方法
JP7313558B2 (ja) 2019-09-13 2023-07-24 三菱電機株式会社 対話応答生成システムのためのシステムおよび方法
JPWO2021095211A1 (ja) * 2019-11-14 2021-05-20
JP7205646B2 (ja) 2019-11-14 2023-01-17 富士通株式会社 出力方法、出力プログラム、および出力装置
JP2023502140A (ja) * 2020-03-10 2023-01-20 エスアールアイ インターナショナル タスク固有のデータ利用のための物理学により誘導されたディープマルチモーダル埋め込みのための方法及び装置
JP7332238B2 (ja) 2020-03-10 2023-08-23 エスアールアイ インターナショナル タスク固有のデータ利用のための物理学により誘導されたディープマルチモーダル埋め込みのための方法及び装置

Also Published As

Publication number Publication date
JP6719663B2 (ja) 2020-07-08
DE112017006685T5 (de) 2020-01-23
CN110168531B (zh) 2023-06-20
WO2018124309A1 (en) 2018-07-05
US10417498B2 (en) 2019-09-17
US20180189572A1 (en) 2018-07-05
CN110168531A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
JP6719663B2 (ja) マルチモーダルフュージョンモデルのための方法及びシステム
EP3857459B1 (en) Method and system for training a dialogue response generation system
EP4073787B1 (en) System and method for streaming end-to-end speech recognition with asynchronous decoders
CN112131988B (zh) 确定虚拟人物唇形的方法、装置、设备和计算机存储介质
EP3133595B1 (en) Speech recognition
CN108419094B (zh) 视频处理方法、视频检索方法、装置、介质及服务器
CN111164676A (zh) 经由环境语境采集进行的语音模型个性化
CN111462733B (zh) 多模态语音识别模型训练方法、装置、设备及存储介质
US11431887B2 (en) Information processing device and method for detection of a sound image object
KR102544249B1 (ko) 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
CN114339450B (zh) 视频评论生成方法、系统、设备及存储介质
US8751228B2 (en) Minimum converted trajectory error (MCTE) audio-to-video engine
CN114943960A (zh) 一种文本识别方法、系统、电子设备及存储介质
CN116050496A (zh) 图片描述信息生成模型的确定方法及装置、介质、设备
US20220310073A1 (en) Mixture Model Attention for Flexible Streaming and Non-Streaming Automatic Speech Recognition
Oghbaie et al. Advances and challenges in deep lip reading
CN115828889A (zh) 文本分析方法、情感分类模型、装置、介质、终端及产品
WO2020048358A1 (en) Method, system, and computer-readable medium for recognizing speech using depth information
KR102612625B1 (ko) 신경망 기반의 특징점 학습 장치 및 방법
US20220237884A1 (en) Keypoint based action localization
CN116301381A (zh) 一种交互方法及相关设备和系统
CN116092485A (zh) 语音识别模型的训练方法及装置、语音识别方法及装置
Melnyk et al. Towards computer assisted international sign language recognition system: a systematic survey
JP7437983B2 (ja) 変換装置およびプログラム
US20240029718A1 (en) Flickering Reduction with Partial Hypothesis Re-ranking for Streaming ASR

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190311

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200616

R150 Certificate of patent or registration of utility model

Ref document number: 6719663

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250