JP2023537705A - オーディオ・ビジュアル・イベント識別システム、方法、プログラム - Google Patents

オーディオ・ビジュアル・イベント識別システム、方法、プログラム Download PDF

Info

Publication number
JP2023537705A
JP2023537705A JP2023507362A JP2023507362A JP2023537705A JP 2023537705 A JP2023537705 A JP 2023537705A JP 2023507362 A JP2023507362 A JP 2023507362A JP 2023507362 A JP2023507362 A JP 2023507362A JP 2023537705 A JP2023537705 A JP 2023537705A
Authority
JP
Japan
Prior art keywords
features
video
audio
neural network
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023507362A
Other languages
English (en)
Inventor
ガン、チュアン
ワン、ダクオ
チャン、ヤン
ウー、ブー
グオ、シャオシャオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2023537705A publication Critical patent/JP2023537705A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

オーディオ・ビジュアル・イベントを識別するシステム、方法が提供される。オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取り、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて第1のニューラル・ネットワークを動作させることによりビデオ・フィード内の有益な特徴および領域を決定し、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて第2のニューラル・ネットワークを動作させることにより関係認識ビデオ特徴を決定し、ビデオ・フィード内の有益な特徴および領域に基づいて第3のニューラル・ネットワークを動作させることにより関係認識オーディオ特徴を決定し、第4のニューラル・ネットワークを動作させることにより関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得し、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別する。

Description

本出願は一般にコンピュータおよびコンピュータ・アプリケーションに関し、より詳細には、人工知能、機械学習、ニューラル・ネットワーク、およびオーディオ・ビジュアル学習ならびにオーディオ・ビジュアル・イベント位置特定に関する。
イベント位置特定はビデオの理解にとって困難なタスクであり、これにはマシンが無制約のビデオにおいてイベントまたはアクションの位置を特定し、カテゴリを認識する必要がある。一部の既存の方法では、赤緑青(RGB:red-green-blue)フレームまたはオプティカル・フローのみを入力として、イベントの位置を特定して識別する。しかしながら、視覚的な背景の干渉が強く、視覚的な内容の変化が大きいので、視覚情報のみでイベントの位置を特定することは困難であり得る。
オーディオ・ビジュアル・イベント(AVE:audio-visual event)位置特定タスクは、マシンがビデオ・セグメント内の可聴かつ可視のイベントの有無を判定し、そのイベントが属しているカテゴリを決定することを必要とするものであり、ますます注目を集めている。AVE位置特定タスクは、次の問題点により困難であり得、1)無制約のビデオでは視覚的背景が複雑であるためにAVEの位置を特定するが困難になり、2)AVEの位置を特定して認識するには、マシンが2つのモダリティ(すなわち、オーディオおよび映像)からの情報を同時に考慮し、それらの関係を利用する必要がある。複雑な視覚的シーンと入り組んだ音との間のつながりを構築することは自明ではない。このタスクにおけるいくつかの方法は、2つのモダリティを独立して処理し、最終的な分類器の直前で単純にこれらを融合する。既存の方法は、イベント位置特定のための手がかりの候補として、単一のモダリティ内のセグメント間の時間的関係を捕捉することに主に焦点を合わせている。
本開示の概要は、コンピュータ・システム、コンピュータ・アプリケーション、機械学習、ニューラル・ネットワーク、オーディオ・ビジュアル学習、およびオーディオ・ビジュアル・イベント位置特定の理解を助けるために与えており、本開示または本発明を限定することを意図したものではない。本開示の様々な態様および特徴は、一部の場合では別々に、または他の場合では本開示の他の態様および特徴と組み合わせて有利に使用されることを理解されたい。したがって、異なる効果を実現するために、コンピュータ・システム、コンピュータ・アプリケーション、機械学習、ニューラル・ネットワーク、またはそれらの動作方法、あるいはそれらの組み合わせに対して変形および修正が行われ得る。
オーディオ・ビジュアル・イベント位置特定のためのデュアル・モダリティ関係ネットワークを実装することができるシステムおよび方法を提供することができる。システムは、一態様では、ハードウェア・プロセッサと、ハードウェア・プロセッサに結合されたメモリと、を含むことができる。ハードウェア・プロセッサは、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取るように構成することができる。ハードウェア・プロセッサは、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定するように構成することもできる。ハードウェア・プロセッサは、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識(relation-aware)ビデオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第4のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得するように構成することもできる。ハードウェア・プロセッサは、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別するように構成することもできる。
他の態様では、システムは、ハードウェア・プロセッサと、ハードウェア・プロセッサに結合されたメモリと、を含むことができる。ハードウェア・プロセッサは、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取るように構成することができる。ハードウェア・プロセッサは、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定するように構成することもできる。ハードウェア・プロセッサは、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第4のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得するように構成することもできる。ハードウェア・プロセッサは、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別するように構成することもできる。ハードウェア・プロセッサは、ビデオ特徴を抽出するためにビデオ・フィードの少なくともビデオ部分を用いて第1の畳み込みニューラル・ネットワークを動作させるようにさらに構成することができる。
さらに他の態様では、システムは、ハードウェア・プロセッサと、ハードウェア・プロセッサに結合されたメモリと、を含むことができる。ハードウェア・プロセッサは、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取るように構成することができる。ハードウェア・プロセッサは、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定するように構成することもできる。ハードウェア・プロセッサは、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第4のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得するように構成することもできる。ハードウェア・プロセッサは、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別するように構成することもできる。ハードウェア・プロセッサは、オーディオ特徴を抽出するためにビデオ・フィードの少なくともオーディオ部分を用いて第2の畳み込みニューラル・ネットワークを動作させるようにさらに構成することができる。
さらに他の態様では、システムは、ハードウェア・プロセッサと、ハードウェア・プロセッサに結合されたメモリと、を含むことができる。ハードウェア・プロセッサは、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取るように構成することができる。ハードウェア・プロセッサは、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定するように構成することもできる。ハードウェア・プロセッサは、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第4のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得するように構成することもできる。ハードウェア・プロセッサは、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別するように構成することもできる。デュアル・モダリティ表現は、オーディオ・ビジュアル・イベントを識別する際に分類器の最後の層として使用することができる。
他の態様では、システムは、ハードウェア・プロセッサと、ハードウェア・プロセッサに結合されたメモリと、を含むことができる。ハードウェア・プロセッサは、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取るように構成することができる。ハードウェア・プロセッサは、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定するように構成することもできる。ハードウェア・プロセッサは、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第4のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得するように構成することもできる。ハードウェア・プロセッサは、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別するように構成することもできる。分類器がビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することは、オーディオ・ビジュアル・イベントが発生しているビデオ・フィード内の位置と、オーディオ・ビジュアル・イベントのカテゴリとを識別することを含む。
他の態様では、システムは、ハードウェア・プロセッサと、ハードウェア・プロセッサに結合されたメモリと、を含むことができる。ハードウェア・プロセッサは、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取るように構成することができる。ハードウェア・プロセッサは、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定するように構成することもできる。ハードウェア・プロセッサは、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第4のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得するように構成することもできる。ハードウェア・プロセッサは、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別するように構成することもできる。第2のニューラル・ネットワークは、関係認識ビデオ特徴を決定する際に、ビデオ特徴における時間的情報と、ビデオ特徴およびオーディオ特徴の間のクロス・モダリティ情報との両方を取得することができる。
他の態様では、システムは、ハードウェア・プロセッサと、ハードウェア・プロセッサに結合されたメモリと、を含むことができる。ハードウェア・プロセッサは、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取るように構成することができる。ハードウェア・プロセッサは、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定するように構成することもできる。ハードウェア・プロセッサは、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第4のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得するように構成することもできる。ハードウェア・プロセッサは、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別するように構成することもできる。第3のニューラル・ネットワークは、関係認識オーディオ特徴を決定する際に、オーディオ特徴における時間的情報と、ビデオ特徴およびオーディオ特徴の間のクロス・モダリティ情報との両方を取得することができる。
方法は、一態様では、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることを含むことができる。この方法はまた、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定することを含むことができる。この方法はまた、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することを含むことができる。この方法はまた、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することを含むことができる。この方法はまた、第4のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することを含むことができる。この方法はまた、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することを含むことができる。
他の態様では、この方法は、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることを含むことができる。この方法はまた、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定することを含むことができる。この方法はまた、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することを含むことができる。この方法はまた、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することを含むことができる。この方法はまた、第4のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することを含むことができる。この方法はまた、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することを含むことができる。この方法はまた、ビデオ特徴を抽出するためにビデオ・フィードの少なくともビデオ部分を用いて第1の畳み込みニューラル・ネットワークを動作させることを含むことができる。
さらに他の態様では、この方法は、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることを含むことができる。この方法はまた、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定することを含むことができる。この方法はまた、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することを含むことができる。この方法はまた、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することを含むことができる。この方法はまた、第4のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することを含むことができる。この方法はまた、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することを含むことができる。この方法はまた、オーディオ特徴を抽出するためにビデオ・フィードの少なくともオーディオ部分を用いて第2の畳み込みニューラル・ネットワークを動作させることを含むことができる。
さらに他の態様では、この方法は、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることを含むことができる。この方法はまた、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定することを含むことができる。この方法はまた、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することを含むことができる。この方法はまた、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することを含むことができる。この方法はまた、第4のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することを含むことができる。この方法はまた、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することを含むことができる。デュアル・モダリティ表現は、オーディオ・ビジュアル・イベントを識別する際に分類器の最後の層として使用することができる。
他の態様では、この方法は、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることを含むことができる。この方法はまた、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定することを含むことができる。この方法はまた、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することを含むことができる。この方法はまた、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することを含むことができる。この方法はまた、第4のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することを含むことができる。この方法はまた、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することを含むことができる。分類器がビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することは、オーディオ・ビジュアル・イベントが発生しているビデオ・フィード内の位置と、オーディオ・ビジュアル・イベントのカテゴリとを識別することを含むことができる。
他の態様では、この方法は、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることを含むことができる。この方法はまた、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定することを含むことができる。この方法はまた、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することを含むことができる。この方法はまた、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することを含むことができる。この方法はまた、第4のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することを含むことができる。この方法はまた、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することを含むことができる。第2のニューラル・ネットワークは、関係認識ビデオ特徴を決定する際に、ビデオ特徴における時間的情報と、ビデオ特徴およびオーディオ特徴の間のクロス・モダリティ情報との両方を取得することができる。
他の態様では、この方法は、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることを含むことができる。この方法はまた、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定することを含むことができる。この方法はまた、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することを含むことができる。この方法はまた、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することを含むことができる。この方法はまた、第4のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することを含むことができる。この方法はまた、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することを含むことができる。第3のニューラル・ネットワークは、関係認識オーディオ特徴を決定する際に、オーディオ特徴における時間的情報と、ビデオ特徴およびオーディオ特徴の間のクロス・モダリティ情報との両方を取得する。
本明細書に記載の1つまたは複数の方法を実行するためのマシンによって実行可能な命令のプログラムを記憶するコンピュータ可読記憶媒体も提供され得る。
様々な実施形態のさらなる特徴ならびに構造および動作については、添付の図面を参照して以下で詳細に説明する。図面において、同様の参照番号は、同一または機能的に同様の要素を示す。
オーディオ・ビジュアル・イベント位置特定タスクの説明用の例の図である。 一実施形態におけるデュアル・モダリティ関係ネットワークを示す図である。 一実施形態におけるデュアル・モダリティ関係ネットワークを示す他の図である。 一実施形態におけるオーディオ・ガイド付き空間-チャンネル・アテンション(AGSCA:audio-guided spatial-channel attention)モジュールを示す図である。 一実施形態におけるクロス・モダリティ関係アテンション(CMRA:cross-modalityrelation attention)メカニズムを示す図である。 一実施形態における本方法またはシステムあるいはその両方によって出力された位置特定結果の例を示す図である。 一実施形態におけるオーディオ・ビジュアル・イベント位置特定のための方法を示すフロー図である。 オーディオ・ビジュアル・イベント位置特定のためのデュアル・モダリティ関係ネットワークを実装することができる、一実施形態におけるシステムのコンポーネントを示す図である。 一実施形態におけるデュアル・モダリティ関係ネットワーク・システムを実装し得る例示的なコンピュータまたは処理システムの概略図である。
ビジュアル・チャンネルおよび音響(オーディオ)チャンネルを有するトリミングされていないビデオ・シーケンスが与えられた場合に、ビデオ・セグメント内の可聴かつ可視のイベントの有無を識別し、そのイベントが属するカテゴリを決定することができるシステム、方法、および技術を提供することができる。たとえば、マシンは、オーディオ・ビジュアル・イベント位置特定を実行するようにトレーニングすることができる。本システム、方法、および技術は、ビデオ・シーケンス内のオーディオ・ビジュアル・イベントを認識する際に、視覚的シーンとオーディオ信号との間のクロス・モダリティまたはモダリティ間関係情報を考慮する。
一実施形態では、デュアル・モダリティ関係ネットワークは、オーディオ・ビジュアル・イベント位置特定タスクを実行するためのエンド・ツー・エンド・ネットワークであり、オーディオ・ガイド付きビジュアル・アテンション・モジュールと、モダリティ内関係ブロックと、モダリティ間関係ブロックとを含むことができる。オーディオ・ガイド付きビジュアル・アテンション・モジュールは、一実施形態では、視覚的背景干渉を低減するために有益な領域をハイライトするように機能する。モダリティ内およびモダリティ間関係ブロックは、一実施形態では、モダリティ内およびモダリティ間関係情報をそれぞれ利用してオーディオ・ビジュアル表現学習などの表現学習を容易にすることができ、これにより可聴かつ可視のイベントの認識が容易になる。デュアル・モダリティ関係ネットワークは、一態様では、特定の領域をハイライトすることによって視覚的背景干渉を低減し、モダリティ内関係およびモダリティ間関係を有用な可能性のある情報と見なすことによって2つのモダリティの表現の質を改善し得る。デュアル・モダリティ関係ネットワークは、一態様では、既存の方法ではほぼ利用不可能であった、視覚的シーンと音との間の価値のあるモダリティ間関係の捕捉を可能にする。たとえば、一実施形態の方法は、抽出されたビジュアル特徴およびオーディオ特徴をオーディオ・ガイド付きビジュアル・アテンション・モジュールに供給して、背景干渉低減のために有益な領域を強調することができる。この方法は、オーディオ/ビジュアル表現学習のために対応する関係情報をそれぞれ利用するようにモダリティ内およびモダリティ間関係ブロックを用意することができる。この方法では、関係認識ビジュアルおよびオーディオ特徴を組み合わせて、分類器のための包括的なデュアル・モダリティ表現を取得することができる。
イベント位置特定のタスクを実行するためのマシンを実装することができる。イベント位置特定のタスクを実行するマシンは、無制約のビデオにおいて自動的にイベントの位置を特定し、そのカテゴリを認識する。ほとんどの既存の方法は、ビデオのビジュアル情報のみを利用しており、そのオーディオ情報を無視している。しかしながら、ビジュアル内容およびオーディオ内容を同時に推論することはイベント位置特定に役立つことができ、その理由は、たとえば、オーディオ信号は推論に有用な手がかりを保持していることがよくあるためである。さらに、オーディオ情報は、マシンまたはマシン・モデルが視覚的シーンの有益な領域により多くの注意を払うかまたは焦点を合わせるようにガイドすることができ、これは背景によってもたらされる干渉を低減するのに役立つことができる。一実施形態では、関係認識ネットワークは、高精度なイベント位置特定のためにオーディオ情報およびビジュアル情報の両方を利用して、たとえば、ビデオ・ストリーム内のオーディオ・ビデオ・イベントを認識する際のマシンの技術的改善を提供する。一実施形態では、背景によって導入される干渉を低減するために、本システム、方法、および技術は、イベント関連の視覚領域に焦点を合わせるようにモデルをガイドするオーディオ・ガイド付き空間-チャンネル・アテンション・モジュールを実装することができる。本システム、方法、および技術はまた、関係認識モジュールを使用してビジュアル・モダリティとオーディオ・モダリティとの間のつながりを構築することができる。たとえば、本システム、方法、および技術は、クロス・モーダル関係に従って他方のモダリティからの情報を集約することによって、ビデオ・セグメントまたはオーディオ・セグメントあるいはその両方の表現を学習する。本システム、方法、および技術は、関係認識表現に依存して、イベント関連スコアおよび分類スコアを予測することにより、イベント位置特定を行うことができる。実施形態において、ニューラル・ネットワークは、ビデオ・ストリームにおけるイベント位置特定を実行するようにトレーニングすることができる。様々な活性化関数および勾配最適化などの最適化など、ニューラル・ネットワーク動作の様々な実装を使用することができる。
本システム、方法、および技術は、たとえば、AVE位置特定のために、視覚的シーンとオーディオ信号との間のクロス・モダリティまたはモダリティ間関係情報を考慮する。クロス・モダリティ関係は、オーディオ・セグメントとビデオ・セグメントとの間のオーディオ-ビジュアル相関関係である。図1は、オーディオ・ビジュアル・イベント位置特定タスクの説明用の例である。一実施形態におけるこのタスクでは、マシン102は、ビジュアル・チャンネル106および音響チャンネル108を有するビデオ・シーケンス104を入力とする。マシン102は、たとえば、ハードウェア・プロセッサを含む。ハードウェア・プロセッサは、たとえば、本開示で説明するそれぞれのタスクを実行するように構成され得る、プログラマブル・ロジック・デバイス、マイクロコントローラ、メモリ・デバイス、または他のハードウェア・コンポーネント、あるいはそれらの組み合わせなどのコンポーネントを含み得る。マシン102は、セグメント内に可聴かつ可視のイベントが存在するか否かを判定し、そのイベントがどのカテゴリに属するかを決定するように要求される。一態様では、課題は、マシンが2つのモダリティからの情報を同時に考慮し、それらの関係を利用するように求められることである。たとえば、図1に示すように、ビデオ・シーケンスは、たとえば110bのフレームまたはセグメントに示す走行中の列車を視覚化しながら、列車の警笛の音を含み得る。このオーディオ-ビジュアル相関は、可聴かつ可視のイベントを示唆している。したがって、クロス・モダリティまたはモダリティ間関係はオーディオ・ビジュアル・イベントの検出にも貢献する。
セルフ・アテンション・メカニズムは、自然言語処理(NLP:naturallanguage processing)において単語間のモダリティ内関係を捕捉するために使用することができる。まず、入力特徴をクエリ、キーおよびバリュー(すなわち、メモリ)特徴に変換する。次いで、メモリ内の全てのバリューの加重総和を使用してアテンティブ(attentive)出力を計算し、ここで、重み(すなわち、関係)はメモリ内のキーおよびクエリから学習される。しかしながら、一態様において、NLPの使用法では、クエリおよびメモリが同じモダリティに由来するので、セルフ・アテンションをイベント位置特定に直接適用しても、ビジュアル内容および音響内容の間のクロス・モダリティ関係を利用することができない。反対に、メモリが2つのモダリティの特徴を取得する場合、(2つのモダリティのうちの1つからの)クエリは、モダリティ内関係情報を見逃すことなく、クロス・モダリティ関係を調べられるようにすることができる。
一実施形態では、本システム、方法、および技術は、モダリティ間関係を利用することによってビジュアル情報とオーディオ情報との間のつながりを構築する関係認識モジュールを提供する。このモジュールは、一実施形態では、クロス・モダリティ関係アテンションと呼ぶアテンション・メカニズムをラップ(wrap)する。セルフ・アテンションとは異なり、クロス・モダリティ関係アテンションでは、クエリは1つのモダリティから導出されるが、キーおよびバリューは2つのモダリティから導出される。このようにして、1つのモダリティからの個々のセグメントは、学習されたモダリティ内関係およびモダリティ間関係に基づいて、2つのモダリティからの関連する全てのセグメントから有用な情報を集約することができる。視覚的シーンを見つつ音を聞くこと(すなわち、2つのモダリティからの情報を同時に利用すること)は、それらを別々に知覚するよりも可聴かつ可視のイベントの位置を特定するのに効果的かつ効率的であり得る。本システム、方法、および技術は、一態様では、両方の有用な関係を利用して表現学習を容易にし、AVE位置特定のパフォーマンスをさらに高めることができる。
一実施形態では、強力な視覚的背景干渉によって正確なイベント位置特定が妨げられるので、本システム、方法、および技術は、干渉を低減するために有益な視覚領域および特徴をハイライトし得る。たとえば、本システム、方法、および技術は、オーディオ情報を利用して空間レベルおよびチャンネル・レベルでビジュアル・アテンションを構築するオーディオ・ガイド付き空間-チャンネル・アテンション・モジュールを含むことができる。本システム、方法、および技術は、これらのコンポーネントを統合してクロス・モーダル関係認識ネットワークを提供し、これはAVEデータセットでの教師ありおよび弱教師ありAVE位置特定タスクにおいて最新技術に差をつけて上回ることができる。
一実施形態では、本システム、方法、および技術は、有益な特徴および音のする領域を高精度にハイライトすることができるオーディオ信号のガイド機能をビジュアル・アテンションに利用するオーディオ・ガイド付き空間-チャンネル・アテンション・モジュール(AGSCA)と、モダリティ内関係およびモダリティ間関係をイベント位置特定に利用する関係認識モジュールと、を含むことができる。一実施形態では、クロス・モーダル関係認識ネットワーク(デュアル・モダリティ関係ネットワークとも呼ぶ)を教師ありおよび弱教師ありAVE位置特定タスクのために構築することができる。
オーディオ・ビジュアル学習は、たとえば、行動認識、音源定位、およびオーディオ・ビジュアル・イベント位置特定などの多くの分野で役立つことができる。たとえば、研究ではオーディオを使用してプレビュー・メカニズムを構築することによって時間的な冗長性を削減し、スパースな時間的サンプリング戦略は複数のモダリティを融合して行動認識を改善し得、教師なし方式でビジュアル・モデルを学習するための教師信号としてオーディオが使用され、声と顔との相関関係を使用して声の背後にある顔画像を生成するSpeech2Faceフレームワークが提示され、容易に入手可能な大規模なラベルなしのビデオを利用するために、研究ではオーディオ-ビジュアル対応関係を利用して自己教師あり方式でオーディオ・ビジュアル表現を学習する。
オーディオ・ビジュアル・イベント位置特定の他の研究では、2つの長期短期記憶(LSTM:long-short term memory)を使用してオーディオおよびビデオ・セグメント・シーケンスの時間的依存性を別々にモデル化し、次いでイベント・カテゴリ予測のために加法融合および平均プーリングを介してオーディオ特徴およびビジュアル特徴を単純に融合する。さらに他の研究では、まずオーディオ・モダリティおよびビジュアル・モダリティを別々に処理し、次いでLSTMを介して2つのモダリティの特徴を融合し、これはシーケンス・ツー・シーケンス方式で機能する。さらに他の研究では、モダリティ内関係モデリングによって得られるグローバル情報とローカル情報とを使用して、内積演算によってクロス・モダリティ類似性を測定するデュアル・アテンション・マッチング・モジュールを提案している。クロス・モダリティ類似性は、最終的なイベント関連性予測として直接的に機能する。これらの方法は主に、モダリティ内関係を手がかりの候補として利用することに意識を集中させており、イベント位置特定のために同様に価値のあるクロス・モダリティ関係情報を無視している。これらの方法とは異なり、実施形態における本システム、方法、および技術は、たとえば、モダリティ内およびモダリティ間関係情報の両方を同時に利用することによって、ビジュアル・モダリティとオーディオ・モダリティとの間のつながりの橋渡しを可能にするクロス・モーダル関係認識ネットワークを提供または実装する。
アテンション・メカニズムは、人間の視知覚機能を模倣している。これは、高い活性化を有する入力の特定の部分に自動的に焦点を合わせようとする。アテンション・メカニズムには、セルフ・アテンションを含む多くの変形がある。モダリティ内の関係を捕捉することに焦点を合わせたセルフ・アテンションとは異なり、本システム、方法、および技術は、実施形態において、オーディオ・ビジュアル表現学習のためにモダリティ内関係およびモダリティ間関係を同時に利用することを可能にするクロス・モダリティ関係アテンションを提供することができる。
本開示では、以下の表記を使用する。
をT個の重複しないセグメントを有するビデオ・シーケンスとする。ここで、VtおよびAtは、t番目のセグメントのビジュアル内容およびそれに対応するオーディオ内容をそれぞれ表す。
たとえば、図1は、ビデオ内のセグメント110a、110b、110c、110d、110e、110fを示している。図1に例として示すように、ビデオ・シーケンスS104が与えられると、AVE位置特定は、VtおよびAtに応じて各セグメントStのイベント・ラベル(背景を含む)を予測するようにマシンに要求する。オーディオ・ビジュアル・イベントは、可聴かつ可視のイベント(すなわち、オブジェクトの発する音が聞こえ、同時にそのオブジェクトが見えるもの)として定義される。セグメントStが可聴かつ可視でない場合、これは背景として予測されるべきである。このタスクの課題は、マシンが2つのモダリティを分析し、それらの関係を捕捉するように求められることである。実施形態では、本システム、方法、および技術は、クロス・モダリティ関係情報を使用してパフォーマンスを高めることができる。実施形態では、このタスクは様々な設定で実行することができる。たとえば、一実施形態では、このタスクは教師あり設定で実行することができる。他の実施形態では、このタスクは弱教師あり設定で実行することができる。教師あり設定では、本システム、方法、および技術は、トレーニング・フェーズ中にセグメント・レベルのラベルにアクセスすることができる。セグメント・レベルのラベルは、対応するセグメントのカテゴリ(背景を含む)を示す。一実施形態では、音および対応する音のするオブジェクトが提示されている場合にのみ、背景でないカテゴリのラベルが与えられる。弱教師あり設定では、一実施形態では、本システム、方法、および技術は、トレーニング中にビデオ・レベルのラベルのみにアクセスすることができ、本システム、方法、および技術は、テスト中に各セグメントのカテゴリを予測することを目指す。ビデオ・レベルのラベルは、ビデオがオーディオ・ビジュアル・イベントを含むか否か、およびそのイベントがどのカテゴリに属しているかを示す。
本システム、方法、および技術は、一実施形態において、ほとんどの既存のイベント位置特定方法がビデオ内のオーディオ信号からの情報を無視しているが、これは複雑な背景の干渉を軽減し、推論用のより多くの手がかりを提供するのに役立ち得るという問題を解決する。ある方法は、たとえば、イベント位置特定のためにビジュアル情報およびオーディオ情報の両方を利用し、これをオーディオ・ビジュアル・イベント位置特定タスクで評価し、このタスクではマシンがトリミングされていないビデオで可聴かつ可視のイベントの位置を特定するように求められる。このタスクは困難であり、その理由は、無制約のビデオには複雑な背景が含まれていることが多く、複雑な視覚的シーンと入り組んだ音との間のつながりを構築することは自明ではないためである。これらの課題に対処するために、実施形態では、本システム、方法、および技術は、背景干渉を低減するために特定の空間領域および特徴をハイライトするオーディオ・ガイド付きアテンション・モジュールを提供する。実施形態では、本システム、方法、および技術はまた、オーディオ・ビジュアル・イベントの位置を特定するためにモダリティ内関係と共にモダリティ間関係を利用する関係認識モジュールを考案する。
図2は、一実施形態におけるデュアル・モダリティ関係ネットワークを示す図である。図示したコンポーネントは、たとえば、1つまたは複数のハードウェア・プロセッサ上で実装されるか、もしくは動作させるか、またはその両方が行われ、あるいは1つまたは複数のハードウェア・プロセッサと結合された、コンピュータ実装コンポーネントを含む。1つまたは複数のハードウェア・プロセッサまたはプロセッサは、たとえば、本開示で説明するそれぞれのタスクを実行するように構成される、プログラマブル・ロジック・デバイス、マイクロコントローラ、メモリ・デバイス、または他のハードウェア・コンポーネント、あるいはそれらの組み合わせなどのコンポーネントを含み得る。結合されたメモリ・デバイスは、1つまたは複数のハードウェア・プロセッサによって実行可能な命令を選択的に記憶するように構成される。プロセッサは、中央処理装置(CPU)、グラフィックス処理装置(GPU)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、他の適切な処理コンポーネントまたはデバイス、あるいはそれらの1つまたは複数の組み合わせであり得る。プロセッサはメモリ・デバイスに結合され得る。メモリ・デバイスは、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、または他のメモリ・デバイスを含み得、本明細書に記載の方法またはシステムあるいはその両方に関連する様々な機能を実装するためのデータまたはプロセッサ命令あるいはその両方を記憶し得る。プロセッサは、メモリに記憶された、または他のコンピュータ・デバイスもしくは媒体から受け取ったコンピュータ命令を実行し得る。本明細書で使用するモジュールは、1つまたは複数のハードウェア・プロセッサ上で実行可能なソフトウェア、ハードウェア・コンポーネント、プログラム可能なハードウェア、ファームウェア、またはそれらの任意の組み合わせとして実装することができる。
デュアル・モダリティ関係ネットワークを、クロス・モーダル関係認識ネットワークとも呼ぶ。一実施形態では、デュアル・モダリティ関係ネットワーク200は、オーディオ・ビジュアル・イベント位置特定タスクを実行するためのエンド・ツー・エンド・ネットワークであり、オーディオ・ガイド付きビジュアル・アテンション・モジュール212と、モダリティ内関係ブロック214、216と、モダリティ間関係ブロック218、220とを含むことができる。オーディオ・ガイド付きビジュアル・アテンション・モジュール212は、ニューラル・ネットワーク(たとえば、説明または例示のために第1のニューラル・ネットワークと呼ぶ)を含むことができる。オーディオ・ガイド付きビジュアル・アテンション・モジュール212は、一実施形態では、視覚的背景干渉を低減するために有益な領域をハイライトするように機能する。
モダリティ内およびモダリティ間関係ブロック214、216、218、220は、一実施形態では、モダリティ内およびモダリティ間関係情報をそれぞれ利用して、たとえば、オーディオ・ビジュアル表現学習などの表現学習を容易にすることができ、これにより可聴かつ可視のイベントの認識が容易になる。モダリティ内およびモダリティ間関係ブロック214、218は、ニューラル・ネットワーク(たとえば、説明のために第2のニューラル・ネットワークと呼ぶ)を含むことができる。モダリティ内およびモダリティ間関係ブロック216、220は、ニューラル・ネットワーク(たとえば、説明のために第3のニューラル・ネットワークと呼ぶ)を含むことができる。デュアル・モダリティ関係ネットワーク200は、一態様では、特定の領域をハイライトすることによって視覚的背景干渉を低減し、モダリティ内関係およびモダリティ間関係を有用であり得る情報として利用することによって2つのモダリティの表現の質を改善し得る。デュアル・モダリティ関係ネットワークは、一態様では、視覚的シーン202と音204との間の価値のあるモダリティ間関係の捕捉を可能にする。
たとえば、一実施形態の方法は、抽出されたビジュアル特徴およびオーディオ特徴をオーディオ・ガイド付きビジュアル・アテンション・モジュール212に供給して、背景干渉低減のために有益な領域を強調することができる。たとえば、オーディオ・ガイド付きビジュアル・アテンション・モジュール212に供給されるビデオ特徴は、たとえば、ビデオ特徴を抽出するようにトレーニングされた畳み込みニューラル・ネットワーク206に入力ビデオ202を入力することによって抽出することができる。入力オーディオ204は、対数メル・スペクトログラム表現208を使用して処理することができ、これを、オーディオ特徴を抽出するようにトレーニングされた畳み込みニューラル・ネットワーク210に入力して、オーディオ・ガイド付きビジュアル・アテンション・モジュール212に供給するためのオーディオ特徴を抽出することができる。入力ビデオ202および入力オーディオ204は、ビデオ・フィード、ストリーム、またはシーケンスのコンポーネントである。この方法は、オーディオ/ビジュアル表現学習のために対応する関係情報をそれぞれ利用するようにモダリティ内およびモダリティ間関係ブロック214、216、218、220を用意することができる。たとえば、モダリティ内関係ブロック214およびモダリティ間関係ブロック218は関係認識特徴222を生成し、モダリティ内関係ブロック216およびモダリティ間関係ブロック220は関係認識特徴224を生成する。オーディオ-ビデオ相互作用モジュール226は、関係認識ビジュアルおよびオーディオ特徴222、224を組み合わせて、分類器のための包括的なデュアル・モダリティ表現を取得することができる。オーディオ-ビデオ相互作用モジュール226は、ニューラル・ネットワーク(たとえば、説明のために第4のニューラル・ネットワークと呼ぶ)を含むことができる。オーディオ-ビデオ相互作用モジュール226によって出力された包括的なデュアル・モダリティ表現は、イベント分類230またはイベント関連予測228あるいはその両方のための分類器(たとえば、ニューラル・ネットワーク)に供給することができる。
例として、入力AVEデータセット(たとえば、ビデオおよびオーディオ入力202、204)は、広範囲のドメイン・イベント(たとえば、人間の活動、動物の活動、音楽演奏、および車両の音)をカバーするビデオを含むことができる。これらのイベントは多様なカテゴリ(たとえば、教会の鐘、泣き声、犬の鳴き声、揚げ物、バイオリンの演奏、またはその他、あるいはそれらの組み合わせ)を含むことができる。例として、ビデオは1つのイベントを含むことができ、デュアル・モダリティ関係ネットワークによる処理のためにいくつかの時間間隔セグメント(たとえば、10個の1秒間のセグメント)に分割することができる。一実施形態では、ビデオ・シーケンス内のビデオおよびオーディオ・シーン(たとえば、ビデオおよびオーディオ入力202、204)が位置合わせされる。他の実施形態では、ビデオ・シーケンス内のビデオおよびオーディオ・シーン(たとえば、ビデオおよびオーディオ入力202、204)が位置合わせさせる必要はない。
例として、CNN206は、VGG-19、残差ニューラル・ネットワーク(たとえば、ResNet-151)などであるがこれらに限定されない畳み込みニューラル・ネットワークとすることができ、たとえばImageNetでビジュアル特徴抽出器として事前にトレーニングすることができる。たとえば、各セグメント内で16フレームを入力として選択することができる。一例として、7×7×512の次元を有するVGG-19内のpool5層の出力をビジュアル特徴と見なすことができる。ResNet-151の場合、7×7×2048の次元を有するconv5層の出力をビジュアル特徴と見なすことができる。各セグメント内のフレーム・レベルの特徴は、セグメント・レベルの特徴として時間的に平均化することができる。
例として、入力オーディオ204は、未加工のオーディオとすることができるが、対数メル・スペクトログラム208に変換することができる。本方法またはシステムあるいはその両方は、たとえば、AudioSetで事前にトレーニングされたVGGのようなネットワークを使用して、セグメントごとに128次元の音響特徴を抽出することができる。
図3は、一実施形態におけるデュアル・モダリティ関係ネットワークを示す他の図である。図示したコンポーネントは、たとえば、1つまたは複数のハードウェア・プロセッサ上で実装されるか、もしくは動作させるか、またはその両方が行われ、あるいは1つまたは複数のハードウェア・プロセッサと結合された、コンピュータ実装コンポーネントを含む。1つまたは複数のハードウェア・プロセッサまたはプロセッサは、たとえば、本開示で説明するそれぞれのタスクを実行するように構成され得る、プログラマブル・ロジック・デバイス、マイクロコントローラ、メモリ・デバイス、または他のハードウェア・コンポーネント、あるいはそれらの組み合わせなどのコンポーネントを含み得る。結合されたメモリ・デバイスは、1つまたは複数のハードウェア・プロセッサによって実行可能な命令を選択的に記憶するように構成され得る。プロセッサは、中央処理装置(CPU)、グラフィックス処理装置(GPU)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、他の適切な処理コンポーネントまたはデバイス、あるいはそれらの1つまたは複数の組み合わせであり得る。プロセッサはメモリ・デバイスに結合され得る。メモリ・デバイスは、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、または他のメモリ・デバイスを含み得、本明細書に記載の方法またはシステムあるいはその両方に関連する様々な機能を実装するためのデータまたはプロセッサ命令あるいはその両方を記憶し得る。プロセッサは、メモリに記憶された、または他のコンピュータ・デバイスもしくは媒体から受け取ったコンピュータ命令を実行し得る。本明細書で使用するモジュールは、1つまたは複数のハードウェア・プロセッサ上で実行可能なソフトウェア、ハードウェア・コンポーネント、プログラム可能なハードウェア、ファームウェア、またはそれらの任意の組み合わせとして実装することができる。
デュアル・モダリティ関係ネットワークを、クロス・モーダル関係認識ネットワーク(CMRAN:cross-modal relation-aware network)とも呼ぶ。入力ビデオ302は、たとえば、ビデオ特徴を抽出するようにトレーニングされた畳み込みニューラル・ネットワーク(CNN:convolutional neural network)306に供給または入力される。入力オーディオ304は対数メル・スペクトログラム表現308を使用して処理することができ、これを、オーディオ特徴を抽出するようにトレーニングされた畳み込みニューラル・ネットワーク(CNN)310に入力して、オーディオ・ガイド付き空間-チャンネル・アテンション・モジュール(AGSCA)(たとえば、図2ではオーディオ・ガイド付きビジュアル・アテンション・モジュールとも呼ぶ)312に供給するためのオーディオ特徴を抽出することができる。CNN306から抽出されたビデオ特徴およびCNN310からのオーディオ特徴を使用して、オーディオ・ガイド付き空間-チャンネル・アテンション・モジュール(AGSCA)(たとえば、図2ではオーディオ・ガイド付きビジュアル・アテンション・モジュールとも呼ぶ)312は、オーディオ情報(たとえば、CNN310によって出力されたもの)を利用して空間レベルおよびチャンネル・レベル(たとえば、ビデオ・チャンネル)でビジュアル・アテンションをガイドすることによって、強化されたビジュアル特徴314を作成するように機能する。CNN310はオーディオ特徴316を抽出する。2つの関係認識モジュール318、320は、2つのモダリティ(ビデオおよびオーディオ)のモダリティ内関係およびモダリティ間関係の両方をそれぞれ捕捉して、関係認識ビジュアル特徴322および関係認識オーディオ特徴324を作成する。クロス・モーダル関係認識ビジュアル特徴322およびクロス・モーダル関係認識オーディオ特徴324は、オーディオ-ビデオ相互作用モジュール326を介して組み合わせられて、統合デュアル・モダリティ表現が生成され、これはイベント関連予測328またはイベント分類330あるいはその両方のための分類器に入力することができる。
ビデオ・シーケンスSが与えられると、方法またはシステムあるいはその両方は、たとえば、各オーディオ-ビジュアル・ペア{V,A}302、304を事前トレーニング済みのCNNバックボーン306、308を介して転送して、セグメント・レベルの特徴
を抽出する。本方法またはシステムあるいはその両方は、AGSCAモジュール312を介してオーディオ特徴およびビジュアル特徴を転送して、強化されたビジュアル特徴314を取得する。オーディオ特徴316および強化されたビジュアル特徴314を用いて、本方法またはシステムあるいはその両方はビデオ関係認識モジュール318およびオーディオ関係認識モジュール320の2つの関係認識モジュールを用意し、これらはそれぞれオーディオ特徴およびビジュアル特徴についてクロス・モダリティまたはデュアル・モダリティ関係アテンションをラップする。本方法またはシステムあるいはその両方は、ビジュアルおよびオーディオ特徴314、316を関係認識モジュール318、320に供給して、2つのモダリティの両方の関係を引き出す。関係認識ビジュアルおよびオーディオ特徴322、324は、オーディオ-ビデオ相互作用モジュール326に供給されて、1つまたは複数のイベント分類器330または予測328のための包括的な統合デュアル・モダリティ表現が生成される。
オーディオ・ガイド付き空間-チャンネル・アテンション
オーディオ信号は、ビジュアル・モデリングをガイドすることが可能である。チャンネル・アテンションにより、無関係な特徴を破棄し、ビジュアル表現の質を向上させることが可能になる。オーディオ・ガイド付き空間-チャンネル・アテンション・モジュール(AGSCA)312は、一実施形態では、ビジュアル・モデリングのためにオーディオ・ガイド機能を最大限に利用しようとする。一態様では、オーディオ特徴を空間次元のみにおけるビジュアル・アテンションに参加させるのではなく、AGSCA312は、一実施形態では、オーディオ信号を利用して空間次元およびチャンネル次元の両方においてビジュアル・アテンションをガイドし、これにより有益な特徴および空間領域が強調されて位置特定の精度が高まる。知られている方法または技術を使用して、チャンネル・アテンションおよび空間アテンションを順次実行することができる。
図4は、一実施形態における、たとえば、図3の312に示すオーディオ・ガイド付き空間-チャンネル・アテンション(AGSCA)モジュールを示している。AGSCAは、一実施形態では、オーディオ・ガイド機能を利用して、チャンネル・レベル(左部分)および空間レベル(右部分)でビジュアル・アテンションをガイドする。HおよびWがそれぞれ特徴マップの高さおよび幅である場合に、オーディオ特徴
402およびビジュアル特徴
404が与えられると、AGSCAは有益な特徴を適応的に強調するためのチャンネル単位(channel-wise)アテンション・マップ
406を生成する。次いで、AGSCAは、チャンネル・アテンティブ特徴410に対する空間アテンション・マップ
408を作成して音のする領域をハイライトすることによって、チャンネル空間アテンティブ・ビジュアル特徴
412を生成する。アテンション・プロセスは以下のようにまとめることができる。
ここで、
は行列の乗算を表し、
は要素ごとの乗算を意味する。
チャンネル単位アテンション406はアテンション・マップ
を生成し、空間アテンション408はアテンション・マップ
を作成する。
チャンネル単位アテンション
方法またはシステムあるいはその両方は、一実施形態では、オーディオ信号のガイドの下で特徴のチャンネル間の依存関係をモデル化する。一実施形態では、本方法またはシステムあるいはその両方は、非線形性を有する全結合層を使用してオーディオ特徴およびビジュアル特徴を共通の空間へと変換し、その結果、オーディオ・ガイド・マップ
と、d×(H*W)の次元を有する変換されたビジュアル特徴とが得られる。一実施形態では、本方法またはシステムあるいはその両方は、変換されたビジュアル特徴をグローバル平均プーリングによって空間的に絞り込む。次いで、本方法またはシステムあるいはその両方は、要素ごとの乗算によってビジュアル特徴を
と融合することにより、
のガイド情報を利用する。本方法またはシステムあるいはその両方は、チャンネル間の関係をモデル化するための非線形性を有する2つの全結合層を介して融合されたビジュアル特徴を転送して、チャンネル・アテンション・マップ
を生成する。一実施形態において、詳細を以下のように示す。
ここで、

、および
は整流線形ユニット(ReLU:rectified linear unit)を活性化関数とする全結合層であり、
は隠れ次元としてd=256を有する学習可能なパラメータであり、δaはグローバル平均プーリングを示し、σはシグモイド関数を表す。
空間アテンション
本方法またはシステムあるいはその両方はまた、オーディオ信号のガイド機能を利用して、視覚的な空間アテンション408をガイドする。空間アテンション408は、チャンネル単位アテンション406と同様のパターンに従う。一態様では、入力されるビジュアル特徴
410はチャンネル・アテンティブである。
一実施形態では、本方法またはシステムあるいはその両方は、空間アテンションのプロセスを以下のように定式化する。
ここで、
および
はReLUを活性化関数とする全結合層であり、
は隠れ次元としてd=256を有する学習可能なパラメータであり、δは双曲線正接関数を表す。空間アテンション・マップ
を使用して、本方法またはシステムあるいはその両方は、
に従ってvに加重総和を実行して、有益な領域をハイライトし、空間次元を縮小することによって、チャンネル-空間アテンティブ・ビジュアル特徴ベクトル
412を出力として生成する。
クロス・モダリティ関係アテンション
クロス・モダリティ関係アテンションは、一実施形態では、関係認識モジュール(たとえば、図3の318および320に示す)のコンポーネントである。ビジュアル特徴および音響特徴が与えられると、本方法またはシステムあるいはその両方は、モダリティ内関係情報を無視することなく、クロス・モダリティ関係を利用して2つのモダリティ間の橋渡しをし得る。このタスクのために、本方法またはシステムあるいはその両方は、一実施形態では、クロス・モダリティ関係アテンション(CMRA)メカニズムを実装または提供する。図5は、一実施形態におけるクロス・モダリティ関係アテンション(CMRA)メカニズムを示している。異なる陰影のバーは、異なるモダリティからのセグメント・レベルの特徴を表す。CMRAは、オーディオまたはビデオ・セグメント特徴のモダリティ内関係およびモダリティ間関係を同時に利用し、これら2つの関係間のバランスを適応的に学習することを可能にする。クエリ502は1つのモダリティ(たとえば、オーディオまたはビデオ)の特徴から導出され、これをqと表す。たとえば、入力特徴は、512に示すオーディオ特徴およびビデオ特徴を含むことができる。キー-バリュー・ペア504、506は2つのモダリティ(たとえば、オーディオおよびビデオ)の特徴から導出され、本方法またはシステムあるいはその両方は、それらをキー・マトリックスK1,2およびバリュー・マトリックスV1,2にパックする。一実施形態では、本方法またはシステムあるいはその両方は、ドット積演算をペアごとの関係関数とする。次いで、本方法またはシステムあるいはその両方は、qと全てのキーK1,2とのドット積を計算し、それぞれをそれらの共有された特徴次元dmの平方根で除算し、ソフトマックス関数を適用してバリューV1,2のアテンション重みを取得する。qおよびK1,2から学習された関係(すなわち、アテンション重み)508によって重み付けされた全てのバリューV1,2にわたる総和によって、アテンションが施された出力510が計算される。
一実施形態では、CMRAは以下のように定義される。
ここで、インデックス1または2は異なるモダリティを表す。qはオーディオ特徴またはビジュアル特徴に由来し、K1,2およびV1,2はオーディオ特徴およびビジュアル特徴の両方に由来するので、CMRAはモダリティ内関係およびモダリティ間関係の両方の適応学習を、それらの間のバランスと共に可能にする。ビデオ・シーケンス内のモダリティからの個々のセグメントは、学習された関係に基づいて2つのモダリティの関連する全てのセグメントから有用な情報を取得することを可能にし、これにより、オーディオ・ビジュアル表現学習が容易になり、AVE位置特定のパフォーマンスがさらに高まる。
以下では、AVE位置特定におけるCMRAの具体的なインスタンスの一例を示す。一般性を失うことなく、以下の説明では、説明の目的でビジュアル特徴をクエリとする。オーディオ特徴
およびビジュアル特徴
が与えられると、本方法またはシステムあるいはその両方は、線形変換でvをクエリ特徴に射影し、これを
と表す。次いで、本方法またはシステムあるいはその両方は、vをaと時間的に連結して未加工のメモリ・ベース
を取得する。その後、本方法またはシステムあるいはその両方は、ma,vをキー特徴
およびバリュー特徴
に線形変換する。クロス・モダリティ・アテンティブ出力vは、以下のように計算される。
ここで、W、W、Wは、d×dの次元を有する学習可能なパラメータである。この例では、説明の目的でビジュアル特徴vをクエリとしているが、オーディオ特徴の関係を利用するためにオーディオ特徴をクエリとすることができるということに留意されたい。対照的に、メモリがクエリと同じモダリティ特徴のみを含む場合、セルフ・アテンションはCMRAの特殊なケースと見なすことができる。一実施形態では、CMRAは、以下に説明する関係認識モジュールで実装することができる。
関係認識モジュール
一実施形態では、関係認識モジュール(たとえば、図3の318および320に示す)はクロス・モダリティ関係モジュールおよび内部時間的関係ブロックを含み、それぞれMcmraおよびBselfと表す。図2はまた、218および220のクロス・モダリティ関係モジュールと、214および216の内部時間的関係ブロック(モダリティ内関係ブロックとも呼ぶ)との一例を示している。一実施形態では、モジュールMcmraは、関係を利用するためのクロス・モダリティ関係アテンション・メカニズム(CMRA)を含む。BselfはMcmraの補助として機能する。一実施形態では、例示的なアーキテクチャにおけるビデオ/オーディオ関係認識モジュールは、CMRA動作においてビジュアル特徴またはオーディオ特徴をクエリとする関係認識モジュールである。
説明の目的で、AGSCAモジュールからのビジュアル特徴
をクエリとする(たとえば、図3の318に示すビデオ関係認識モジュール)。ビジュアル特徴vがクエリであり、オーディオ特徴
がメモリの一部である場合、本方法またはシステムあるいはその両方は線形層を介してそれらを共通の空間に変換する。一例として、変換されたビジュアル特徴およびオーディオ特徴をそれぞれFおよびFと表し、同じ次元T×dを有する。次いで、BselfはFを入力として、内部の時間的関係を事前に調べることによって、セルフ・アテンティブ・オーディオ特徴を生成し、これを
と表す。McmraはFおよび
を入力として、CMRAの助けを借りてビジュアル特徴のモダリティ内関係およびモダリティ間関係を調べ、関係認識ビジュアル特徴v(たとえば、図3の322に示す)を出力として生成する。全体的なプロセスは以下のように要約することができる。
ここで、
および
は学習可能なパラメータである。
クロス・モダリティ関係モジュール
一実施形態では、CMRA操作を使用して、クロス・モダリティ関係モジュールMcmraは、モダリティ間関係をモダリティ内関係と共に利用するように機能する。一実施形態では、本方法またはシステムあるいはその両方は、以下のようなマルチヘッド設定でCMRAを実行する。
ここで、||は時間的な連結操作を表し、


、Wは学習されるパラメータ、nは並列CMRAモジュールの数を表す。CMRAからの伝達損失を回避するために、本方法またはシステムあるいはその両方は、以下のようにFをHに残差接続として層正規化と共に追加することができる。
Hr=LayerNorm(H+F) (8)
いくつかの並列CMRA操作からの情報をさらに融合するために、本方法またはシステムあるいはその両方は、ReLUを用いた2つの線形層を介してHを転送する。一実施形態では、出力vの詳細な計算は以下のように与えることができる。
=LayerNorm(O+H
=δ(H)W (9)
ここで、δはReLU関数を表し、WおよびWは2つの線形層の学習可能なパラメータである。
内部時間的関係ブロック
一実施形態では、本方法またはシステムあるいはその両方は、Mcmra内でCMRAをセルフ・アテンションに置き換えて、内部時間的関係ブロックBselfを取得する。ブロックBselfは、Mcmraを支援するために、メモリ特徴の一部分に関する内部の時間的関係を事前に調べることに集中する。
オーディオ-ビデオ相互作用モジュール
関係認識モジュールは、クロス・モーダル関係認識ビジュアルおよび音響表現を出力し、これらをそれぞれ
および
と表し、たとえば、図2の222、224に示し、図3の322、324にも示している。一実施形態では、オーディオ-ビデオ相互作用モジュールは、1つまたは複数の分類器のために2つのモダリティの包括的な表現を取得する。一実施形態では、オーディオ-ビデオ相互作用モジュールは、vとaとを組み合わせることによって、ビジュアル・チャンネルと音響チャンネルとの間の共鳴(resonance)を捕捉しようとする。
一実施形態では、本方法またはシステムあるいはその両方は、vおよびaを要素ごとの乗算で融合して、これらの2つのモダリティの統合表現を取得し、これをfavと表す。次いで、本方法またはシステムあるいはその両方は、favを利用してビジュアル表現voおよび音響表現aにアテンションを施し、ここで、vおよびaは、より良好な視覚的理解および音響知覚のためにビジュアル情報および音響情報をそれぞれ提供する。この操作は、クエリがメモリ特徴の融合である場合のCMRAの変形と見なすことができる。次いで、本方法またはシステムあるいはその両方は、関係認識モジュールと同様に、残差接続および層正規化をアテンティブ出力に追加する。
一実施形態では、包括的なデュアル・モダリティ表現Oavは、以下のように計算される。
ここで、
は要素ごとの乗算を表し、


は学習されるパラメータである。
教師ありおよび弱教師ありオーディオ・ビジュアル・イベント位置特定
教師あり位置特定
一実施形態では、オーディオ-ビデオ相互作用モジュール(たとえば、図2の226に示し、図3の336にも示す)は、T×dの次元を有する特徴Oavを取得する。一実施形態では、本方法またはシステムあるいはその両方は、位置特定を2つのスコアの予測に分解する。1つは、t番目のビデオ・セグメントにオーディオ・ビジュアル・イベントが存在するか否かを判定する信頼スコア
である。もう1つはイベント・カテゴリ・スコア
であり、ここでCは前景カテゴリの数を表す。信頼スコア
は以下のように計算される。
ここで、Wは学習可能なパラメータであり、σはシグモイド関数を表す。カテゴリ・スコア
について、一実施形態における本方法またはシステムあるいはその両方は、融合された特徴Oavに対して最大値プーリングを実行して、特徴ベクトル
を生成する。
イベント・カテゴリ分類器(たとえば、図3の330に示す)は、oavを入力として、イベント・カテゴリ・スコア
を予測する。
ここで、Wは学習されるパラメータ行列である。
推論段階では、最終的な予測は
および
によって決定される。
の場合、t番目のセグメントはイベントに関連すると予測され、イベント・カテゴリは
に従う。
の場合、t番目のセグメントは背景として予測される。
トレーニングでは、本システムまたは方法あるいはその両方は、イベント関連ラベルおよびイベント・カテゴリ・ラベルを含むセグメント・レベルのラベルを有することができる。全体的な目的関数は、イベント分類のクロス・エントロピー損失と、イベント関連予測のバイナリ・クロス・エントロピー損失との和である。
弱教師あり位置特定
弱教師あり方式では、本方法またはシステムあるいはその両方は、上述のように
および
を予測することもできる。一態様では、本方法またはシステムあるいはその両方は、ビデオ・レベルのラベルにしかアクセスできない場合があるので、本方法またはシステムあるいはその両方は、
をT回複製し、
をC回複製し、次いでこれらを要素ごとの乗算により融合して、統合スコア
を生成し得る。一実施形態では、本方法またはシステムあるいはその両方は、この問題をマルチ・インスタンス学習(MIL:multiple instance learning)問題として定式化し、セグメント・レベルの予測
を集約して、トレーニング中にMILプーリングによりビデオ・レベルの予測を取得し得る。推論中、一実施形態では、予測プロセスは教師ありタスクのものと同じにすることができる。
例として、トレーニング設定は、関係認識モジュールにおける隠れ次元dmを256に設定することを含み得る。関係認識モジュールにおけるCMRAおよびセルフ・アテンションについて、本システムまたは方法あるいはその両方は、並列ヘッドの数を4に設定し得る。バッチ・サイズは32である。一例として、本方法またはシステムあるいはその両方は、Adamをオプティマイザとして適用して、トレーニング・データに基づいてニューラル・ネットワークの重みを反復的に更新し得る。一例として、本方法またはシステムあるいはその両方は、初期学習を5×10-4に設定し、エポック10、20、および30で0.5を乗算して徐々にこれを減衰させ得る。他のオプティマイザを使用することができる。
図6は、一実施形態における本方法またはシステムあるいはその両方によって出力された位置特定結果の例を示している。本方法またはシステムあるいはその両方は、各セグメントのイベント・カテゴリを(たとえば、背景(BG:background)または猫の叫び声として)正しく予測し、ひいては猫の叫び声のイベントの位置を正確に特定している。
図7は、一実施形態におけるオーディオ・ビジュアル・イベント位置特定のための方法を示すフロー図である。本明細書に記載のデュアル・モダリティ関係ネットワークは、実施形態において、オーディオ・ビジュアル・イベントの位置特定を実行することができる。この方法は、ハードウェア・プロセッサなどの1つまたは複数のプロセッサによって、またはその上で動作させるまたは実行することができる。702において、この方法は、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることを含む。704において、この方法は、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定することを含む。たとえば、第1のニューラル・ネットワークを含むことができるオーディオ・ガイド付きビジュアル・アテンション・モジュールを動作させることができる。
706において、この方法は、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することを含む。708において、第1のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、この方法は、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することを含むことができる。たとえば、モダリティ内モジュールおよびモダリティ間モジュール(たとえば、図2の214、216、218および220を参照して上述したもの)を実装するか、または動作させるか、あるいはその両方を行うことができる。実施形態では、第2のニューラル・ネットワークは、関係認識ビデオ特徴を決定する際に、ビデオ特徴における時間的情報と、ビデオ特徴およびオーディオ特徴の間のクロス・モダリティ情報との両方を取得する。実施形態では、第3のニューラル・ネットワークは、関係認識オーディオ特徴を決定する際に、オーディオ特徴における時間的情報と、ビデオ特徴およびオーディオ特徴の間のクロス・モダリティ情報との両方を取得する。
710において、この方法は、第4のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することを含む。たとえば、オーディオ-ビデオ相互作用モジュール(たとえば、226を参照して上述したもの)を実装するか、または動作させるか、あるいはその両方を行うことができる。
712において、この方法は、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することを含む。一実施形態では、デュアル・モダリティ表現は、オーディオ・ビジュアル・イベントを識別する際に分類器の最後の層として使用される。分類器がビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することは、オーディオ・ビジュアル・イベントが発生しているビデオ・フィード内の位置と、オーディオ・ビジュアル・イベントのカテゴリとを識別することを含むことができる。
一実施形態では、ビデオ特徴を抽出するためにビデオ・フィードの少なくともビデオ部分を用いて畳み込みニューラル・ネットワーク(たとえば、説明のために第1の畳み込みニューラル・ネットワークと呼ぶもの)を動作させることができる。一実施形態では、オーディオ特徴を抽出するためにビデオ・フィードの少なくともオーディオ部分を用いて畳み込みニューラル・ネットワーク(たとえば、説明のために第2の畳み込みニューラル・ネットワークと呼ぶもの)を動作させることができる。
図8は、オーディオ・ビジュアル・イベント位置特定のためのデュアル・モダリティ関係ネットワークを実装することができる、一実施形態におけるシステムのコンポーネントを示す図である。中央処理装置(CPU)、グラフィック処理装置(GPU)、および/またはフィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、ならびに/あるいは他のプロセッサなどの1つまたは複数のハードウェア・プロセッサ802は、メモリ・デバイス804と結合され、デュアル・モダリティ関係ネットワークを実装し、オーディオ・ビジュアル・イベント位置特定を実行し得る。メモリ・デバイス804は、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、または他のメモリ・デバイスを含み得、本明細書に記載の方法またはシステムあるいはその両方に関連する様々な機能を実装するためのデータまたはプロセッサ命令あるいはその両方を記憶し得る。1つまたは複数のプロセッサ802は、メモリ804に記憶された、または他のコンピュータ・デバイスもしくは媒体から受け取ったコンピュータ命令を実行し得る。メモリ・デバイス804は、たとえば、1つまたは複数のハードウェア・プロセッサ802が機能するための命令もしくはデータまたはその両方を記憶し得、オペレーティング・システムと、他の命令プログラムもしくはデータまたはその両方とを含み得る。1つまたは複数のハードウェア・プロセッサ802は、ビデオ・フィードを含む入力を受け取り得、たとえば、そこからビデオおよびオーディオ特徴を抽出することができる。たとえば、少なくとも1つのハードウェア・プロセッサ802は、本明細書に記載の方法および技術を使用してオーディオ・ビジュアル・イベント位置特定を実行し得る。一態様では、入力データまたは中間データあるいはその両方などのデータは、ストレージ・デバイス806に記憶されるか、またはネットワーク・インターフェース808を介してリモート・デバイスから受信され、デュアル・モダリティ関係ネットワークを実装し、オーディオ・ビジュアル・イベント位置特定を実行するためにメモリ・デバイス804に一時的にロードされ得る。デュアル・モダリティ関係ネットワークにおけるニューラル・ネットワーク・モデルなどの学習モデルは、たとえば1つまたは複数のハードウェア・プロセッサ802による実行のために、メモリ・デバイス804に記憶することができる。1つまたは複数のハードウェア・プロセッサ802は、ネットワークなどを介してリモート・システムと通信するためのネットワーク・インターフェース808などのインターフェース・デバイスと、キーボード、マウス、ディスプレイ、もしくはその他、またはそれらの組み合わせなどの、入力もしくは出力またはその両方のデバイスと通信するための入力/出力インターフェース810とに結合され得る。
図9に、一実施形態におけるデュアル・モダリティ関係ネットワーク・システムを実装し得る例示的なコンピュータまたは処理システムの概略図を示す。コンピュータ・システムは、適切な処理システムの単なる一例にすぎず、本明細書に記載の方法の実施形態の使用または機能の範囲に関するいかなる制限も示唆することを意図したものではない。図示した処理システムは、他の多くの汎用または専用のコンピューティング・システム環境または構成で動作し得る。図9に示す処理システムでの使用に適し得るよく知られているコンピューティング・システム、環境、もしくは構成、またはそれらの組み合わせの例には、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドもしくはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサベースのシステム、セット・トップ・ボックス、プログラム可能な家庭用電化製品、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記のシステムもしくはデバイスのいずれか含む分散クラウド・コンピューティング環境などが含まれるが、これらに限定されない。
コンピュータ・システムは、コンピュータ・システムによって実行されるプログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的なコンテキストで記述され得る。一般に、プログラム・モジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含み得る。コンピュータ・システムは、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散型クラウド・コンピューティング環境で実施され得る。分散型クラウド・コンピューティング環境では、プログラム・モジュールは、メモリ・ストレージ・デバイスを含むローカルおよびリモート両方のコンピュータ・システム記憶媒体に配置され得る。
コンピュータ・システムのコンポーネントは、1つまたは複数のプロセッサまたは処理ユニット12と、システム・メモリ16と、システム・メモリ16を含む様々なシステム・コンポーネントをプロセッサ12に結合するバス14と、を含み得るが、これらに限定されない。プロセッサ12は、本明細書に記載の方法を実行する1つまたは複数のモジュール30を含み得る。モジュール30は、プロセッサ12の集積回路にプログラムされ、あるいはメモリ16、ストレージ・デバイス18、もしくはネットワーク24、またはそれらの組み合わせからロードされ得る。
バス14は、メモリバスまたはメモリ・コントローラ、ペリフェラル・バス、アクセラレーテッド・グラフィックス・ポート、および様々なバス・アーキテクチャのいずれかを使用するプロセッサまたはローカル・バスを含む、いくつかのタイプのバス構造のうちのいずれかの1つまたは複数を表し得る。限定ではなく例として、そのようなアーキテクチャには、業界標準アーキテクチャ(ISA:Industry Standard Architecture)バス、マイクロ・チャンネル・アーキテクチャ(MCA:Micro Channel Architecture)バス、拡張ISA(EISA:EnhancedISA)バス、ビデオ・エレクトロニクス規格協会(VESA:Video ElectronicsStandards Association)ローカル・バス、および周辺機器相互接続(PCI:PeripheralComponent Interconnects)バスが含まれる。
コンピュータ・システムは、様々なコンピュータ・システム可読媒体を含み得る。そのような媒体は、コンピュータ・システムによってアクセス可能な任意の利用可能な媒体であり得、揮発性および不揮発性の媒体、取り外し可能および取り外し不可能な媒体の両方を含み得る。
システム・メモリ16は、ランダム・アクセス・メモリ(RAM)および/またはキャッシュメモリもしくはその他などの、揮発性メモリの形態のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システムは、他の取り外し可能/取り外し不可能な、揮発性/不揮発性のコンピュータ・システム記憶媒体をさらに含み得る。単なる例として、ストレージ・システム18は、取り外し不可能な不揮発性の磁気媒体(たとえば、「ハードドライブ」)に読み書きするために設けることができる。図示していないが、取り外し可能な不揮発性の磁気ディスク(たとえば、「フロッピー(R)・ディスク」)に読み書きするための磁気ディスク・ドライブと、CD-ROM、DVD-ROM、または他の光学メディアなどの取り外し可能な不揮発性の光学ディスクに読み書きするための光学ディスク・ドライブと、を設けることができる。そのような例では、それぞれを、1つまたは複数のデータ・メディア・インターフェースによってバス14に接続することができる。
コンピュータ・システムはまた、キーボード、ポインティング・デバイス、ディスプレイ28などの1つまたは複数の外部デバイス26、ユーザがコンピュータ・システムとやりとりすることを可能にする1つまたは複数のデバイス、またはコンピュータ・システムが1つまたは複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス(たとえば、ネットワーク・カード、モデムなど)、あるいはそれらの組み合わせと通信し得る。そのような通信は、入力/出力(I/O)インターフェース20を介して行うことができる。
またさらに、コンピュータ・システムは、ネットワーク・アダプタ22を介して、ローカル・エリア・ネットワーク(LAN)、一般的なワイド・エリア・ネットワーク(WAN)、もしくはパブリック・ネットワーク(たとえば、インターネット)、またはそれらの組み合わせなどの、1つまたは複数のネットワーク24と通信することができる。図示のように、ネットワーク・アダプタ22は、バス14を介してコンピュータ・システムの他のコンポーネントと通信する。図示していないが、他のハードウェアもしくはソフトウェアまたはその両方のコンポーネントを、コンピュータ・システムと併用できることを理解されたい。例には、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、およびデータ・アーカイブ・ストレージ・システムなどが含まれるが、これらに限定されない。
本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組み合わせであり得る。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体(または複数の媒体)を含み得る。
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のために命令を保持および記憶可能な有形のデバイスとすることができる。コンピュータ可読記憶媒体は、たとえば、限定はしないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組み合わせであり得る。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可能読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリー・スティック(R)、フロッピー(R)・ディスク、命令が記録されたパンチ・カードまたは溝の隆起構造などの機械的にコード化されたデバイス、およびこれらの任意の適切な組み合わせが含まれる。コンピュータ可読記憶媒体は、本明細書で使用する場合、たとえば、電波または他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を伝搬する電磁波(たとえば、光ファイバ・ケーブルを通過する光パルス)、または有線で伝送される電気信号などの一過性の信号自体であると解釈されるべきではない。
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、あるいは、たとえば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくは無線ネットワーク、またはそれらの組み合わせなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組み合わせを含み得る。各コンピューティング/処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、あるいは、Smalltalk(R)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語または類似のプログラミング言語などの手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組み合わせで書かれたソース・コードまたはオブジェクト・コードであり得る。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、あるいは完全にリモート・コンピュータまたはサーバ上で実行され得る。最後のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され、または(たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータへの接続がなされる。いくつかの実施形態では、たとえば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用してコンピュータ可読プログラム命令を実行することによって、電子回路を個人向けにし得る。
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して本明細書で説明している。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装できることは理解されよう。
これらのコンピュータ可読プログラム命令を、コンピュータまたは他のプログラム可能データ処理装置のプロセッサに提供して、それらの命令がコンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行された場合に、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定された機能/行為を実装するための手段が生成されるようなマシンを生成し得る。また、これらのコンピュータ可読プログラム命令を、コンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはそれらの組み合わせに特定の方法で機能するように指示することが可能なコンピュータ可読記憶媒体に記憶して、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定された機能/行為の態様を実装する命令を含む製造品を構成するようにし得る。
また、コンピュータ可読プログラム命令をコンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードして、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップを実行させることによって、それらの命令がコンピュータ、他のプログラム可能装置、または他のデバイス上で実行された場合に、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定された機能/行為が実装されるようなコンピュータ実装処理を生成し得る。
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理的機能を実装するための1つまたは複数の実行可能命令を含むモジュール、セグメント、または命令の一部を表し得る。いくつかの代替的実装形態では、ブロックに記載した機能は、図示した順序以外で行われ得る。たとえば、関与する機能に応じて、連続して示した2つのブロックは、実際には、1つのステップとして実現され、同時に、実質的に同時に、部分的にまたは完全に時間的に重なるように実行され、またはそれらのブロックは、場合により逆の順序で実行され得る。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組み合わせは、指定された機能もしくは行為を実行するか、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用のハードウェア・ベースのシステムによって実装できることにも気付くであろう。
本明細書で使用する用語は、特定の実施形態を説明するためのものにすぎず、本発明を限定するものではない。本明細書で使用する場合、単数形「a」、「an」および「the」は、文脈が明確に別段の指示をしない限り、複数形も含むものとする。本明細書で使用する場合、「または(or)」という用語は包括的な演算子(inclusive operator)であり、文脈が明示的にまたは明確に別段の指示をしない限り、「および/または(and/or)」を意味することができる。本明細書で使用する場合、用語「備える(comprise)」、「備える(comprises)」、「備える(comprising)」、「含む(include)」、「含む(includes)」、「含む(including)」、または「有する(having)」、あるいはそれらの組み合わせは、記述した特徴、整数、ステップ、動作、要素、または構成要素、あるいはそれらの組み合わせの存在を示し得るが、1つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、またはそれらのグループ、あるいはそれらの組み合わせの存在または追加を排除するものではないということはさらに理解されよう。本明細書で使用する場合、「一実施形態では(in an embodiment)」という語句は、必ずしも同じ実施形態を指すとは限らないが、そうである場合もある。本明細書で使用する場合、「一実施形態では(in one embodiment)」という語句は、必ずしも同じ実施形態を指すとは限らないが、そうである場合もある。本明細書で使用する場合、「他の実施形態では(in another embodiment)」という語句は、必ずしも異なる実施形態を指すとは限らないが、そうである場合もある。さらに、実施形態または実施形態の構成要素あるいはその両方は、相互に排他的でない限り、互いに自由に組み合わせることができる。
もしあれば、以下の特許請求の範囲における全てのミーンズまたはステップ・プラス・ファンクション要素の対応する構造、材料、行為、および均等物は、明確に特許請求した他の特許請求要素と組み合わせて機能を実行するための任意の構造、材料、または行為を含むものとする。本発明の説明は、例示および説明の目的で提示しているが、網羅的であることも、開示した形態の発明に限定されることも意図したものではない。本発明の範囲から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本発明の原理および実際の応用を最もよく説明し、企図した特定の用途に適した様々な修正を有する様々な実施形態について本発明を当業者が理解できるようにするために、実施形態を選び、説明している。

Claims (20)

  1. ハードウェア・プロセッサと、
    前記ハードウェア・プロセッサに結合されたメモリと、
    を備え、
    前記ハードウェア・プロセッサは、
    オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることと、
    前記ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによって前記ビデオ・フィード内の有益な特徴および領域を決定することと、
    前記第1のニューラル・ネットワークによって決定された前記ビデオ・フィード内の前記有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することと、
    前記第1のニューラル・ネットワークによって決定された前記ビデオ・フィード内の前記有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することと、
    第4のニューラル・ネットワークを動作させることによって前記関係認識ビデオ特徴および前記関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することと、
    前記デュアル・モダリティ表現を分類器に入力して前記ビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することと、
    を実行するように構成される、システム。
  2. 前記ハードウェア・プロセッサは、前記ビデオ特徴を抽出するために前記ビデオ・フィードの少なくともビデオ部分を用いて第1の畳み込みニューラル・ネットワークを動作させるようにさらに構成される、請求項1に記載のシステム。
  3. 前記ハードウェア・プロセッサは、前記オーディオ特徴を抽出するために前記ビデオ・フィードの少なくともオーディオ部分を用いて第2の畳み込みニューラル・ネットワークを動作させるようにさらに構成される、請求項1に記載のシステム。
  4. 前記デュアル・モダリティ表現は、前記オーディオ・ビジュアル・イベントを識別する際に前記分類器の最後の層として使用される、請求項1に記載のシステム。
  5. 前記分類器が前記ビデオ・フィード内の前記オーディオ・ビジュアル・イベントを識別することは、前記オーディオ・ビジュアル・イベントが発生している前記ビデオ・フィード内の位置と、前記オーディオ・ビジュアル・イベントのカテゴリとを識別することを含む、請求項1に記載のシステム。
  6. 前記第2のニューラル・ネットワークは、前記関係認識ビデオ特徴を決定する際に、前記ビデオ特徴における時間的情報と、前記ビデオ特徴および前記オーディオ特徴の間のクロス・モダリティ情報との両方を取得する、請求項1に記載のシステム。
  7. 前記第3のニューラル・ネットワークは、前記関係認識オーディオ特徴を決定する際に、前記オーディオ特徴における時間的情報と、前記ビデオ特徴および前記オーディオ特徴の間のクロス・モダリティ情報との両方を取得する、請求項1に記載のシステム。
  8. オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることと、
    前記ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによって前記ビデオ・フィード内の有益な特徴および領域を決定することと、
    前記第1のニューラル・ネットワークによって決定された前記ビデオ・フィード内の前記有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することと、
    前記第1のニューラル・ネットワークによって決定された前記ビデオ・フィード内の前記有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することと、
    第4のニューラル・ネットワークを動作させることによって前記関係認識ビデオ特徴および前記関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することと、
    前記デュアル・モダリティ表現を分類器に入力して前記ビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することと、
    を含む、コンピュータ実装方法。
  9. 前記ビデオ特徴を抽出するために前記ビデオ・フィードの少なくともビデオ部分を用いて第1の畳み込みニューラル・ネットワークを動作させることをさらに含む、請求項8に記載の方法。
  10. 前記オーディオ特徴を抽出するために前記ビデオ・フィードの少なくともオーディオ部分を用いて第2の畳み込みニューラル・ネットワークを動作させることをさらに含む、請求項8に記載の方法。
  11. 前記デュアル・モダリティ表現は、前記オーディオ・ビジュアル・イベントを識別する際に前記分類器の最後の層として使用される、請求項8に記載の方法。
  12. 前記分類器が前記ビデオ・フィード内の前記オーディオ・ビジュアル・イベントを識別することは、前記オーディオ・ビジュアル・イベントが発生している前記ビデオ・フィード内の位置と、前記オーディオ・ビジュアル・イベントのカテゴリとを識別することを含む、請求項8に記載の方法。
  13. 前記第2のニューラル・ネットワークは、前記関係認識ビデオ特徴を決定する際に、前記ビデオ特徴における時間的情報と、前記ビデオ特徴および前記オーディオ特徴の間のクロス・モダリティ情報との両方を取得する、請求項8に記載の方法。
  14. 前記第3のニューラル・ネットワークは、前記関係認識オーディオ特徴を決定する際に、前記オーディオ特徴における時間的情報と、前記ビデオ特徴および前記オーディオ特徴の間のクロス・モダリティ情報との両方を取得する、請求項8に記載の方法。
  15. プログラム命令を具現化するコンピュータ可読記憶媒体を備えるコンピュータ・プログラム製品であって、前記プログラム命令はデバイスによって読み取り可能/実行可能であり、前記デバイスに、
    オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることと、
    前記ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第1のニューラル・ネットワークを動作させることによって前記ビデオ・フィード内の有益な特徴および領域を決定することと、
    前記第1のニューラル・ネットワークによって決定された前記ビデオ・フィード内の前記有益な特徴および領域に基づいて、第2のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することと、
    前記第1のニューラル・ネットワークによって決定された前記ビデオ・フィード内の前記有益な特徴および領域に基づいて、第3のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することと、
    第4のニューラル・ネットワークを動作させることによって前記関係認識ビデオ特徴および前記関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することと、
    前記デュアル・モダリティ表現を分類器に入力して前記ビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することと、
    を実行させる、コンピュータ・プログラム製品。
  16. 前記デバイスはさらに、前記ビデオ特徴を抽出するために前記ビデオ・フィードの少なくともビデオ部分を用いて第1の畳み込みニューラル・ネットワークを動作させられる、請求項15に記載のコンピュータ・プログラム製品。
  17. 前記デバイスはさらに、前記オーディオ特徴を抽出するために前記ビデオ・フィードの少なくともオーディオ部分を用いて第2の畳み込みニューラル・ネットワークを動作させられる、請求項15に記載のコンピュータ・プログラム製品。
  18. 前記デュアル・モダリティ表現は、前記オーディオ・ビジュアル・イベントを識別する際に前記分類器の最後の層として使用される、請求項15に記載のコンピュータ・プログラム製品。
  19. 前記分類器が前記ビデオ・フィード内の前記オーディオ・ビジュアル・イベントを識別することは、前記オーディオ・ビジュアル・イベントが発生している前記ビデオ・フィード内の位置と、前記オーディオ・ビジュアル・イベントのカテゴリとを識別することを含む、請求項15に記載のコンピュータ・プログラム製品。
  20. 前記第2のニューラル・ネットワークは、前記関係認識ビデオ特徴を決定する際に、前記ビデオ特徴における時間的情報と、前記ビデオ特徴および前記オーディオ特徴の間のクロス・モダリティ情報との両方を取得し、前記第3のニューラル・ネットワークは、前記関係認識オーディオ特徴を決定する際に、前記オーディオ特徴における時間的情報と、前記ビデオ特徴および前記オーディオ特徴の間の前記クロス・モダリティ情報との両方を取得する、請求項15に記載のコンピュータ・プログラム製品。
JP2023507362A 2020-08-10 2021-07-05 オーディオ・ビジュアル・イベント識別システム、方法、プログラム Pending JP2023537705A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/989,387 US11663823B2 (en) 2020-08-10 2020-08-10 Dual-modality relation networks for audio-visual event localization
US16/989,387 2020-08-10
PCT/CN2021/104443 WO2022033231A1 (en) 2020-08-10 2021-07-05 Dual-modality relation networks for audio-visual event localization

Publications (1)

Publication Number Publication Date
JP2023537705A true JP2023537705A (ja) 2023-09-05

Family

ID=80114598

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023507362A Pending JP2023537705A (ja) 2020-08-10 2021-07-05 オーディオ・ビジュアル・イベント識別システム、方法、プログラム

Country Status (6)

Country Link
US (1) US11663823B2 (ja)
JP (1) JP2023537705A (ja)
CN (1) CN116171473A (ja)
DE (1) DE112021004261T5 (ja)
GB (1) GB2613507A (ja)
WO (1) WO2022033231A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220083781A1 (en) * 2020-09-17 2022-03-17 Nec Laboratories America, Inc. Rule enabled compositional reasoning system
US20220188549A1 (en) * 2020-12-16 2022-06-16 Istreamplanet Co., Llc Context aware word cloud for context oriented dynamic actions
US11817081B2 (en) * 2021-03-31 2023-11-14 Nippon Telegraph And Telephone Corporation Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program
KR20230032317A (ko) * 2021-08-30 2023-03-07 한국전자통신연구원 비디오 의미 구간 검출 방법 및 시스템
CN114743183A (zh) * 2022-04-11 2022-07-12 华南理工大学 一种驾驶员行为识别方法、系统、装置及存储介质
US20240119580A1 (en) * 2022-10-10 2024-04-11 International Business Machines Corporation Underwater machinery performance analysis using surface sensors
CN115620110B (zh) * 2022-12-16 2023-03-21 华南理工大学 一种视频事件定位与识别方法、装置及存储介质
CN116310975A (zh) * 2023-03-14 2023-06-23 北京邮电大学 一种基于一致片段选择的视听事件定位方法
CN116821381B (zh) * 2023-08-30 2023-12-01 北京科技大学 一种基于空间线索的语音-图像跨模态检索方法及装置
CN117877125A (zh) * 2024-03-11 2024-04-12 浪潮电子信息产业股份有限公司 动作识别及其模型训练方法、装置、电子设备、存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7472063B2 (en) 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
US8510252B1 (en) 2007-12-07 2013-08-13 Google, Inc. Classification of inappropriate video content using multi-scale features
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
CN102436483A (zh) 2011-10-31 2012-05-02 北京交通大学 一种基于显式共享子空间的视频广告检测方法
US9697833B2 (en) * 2015-08-25 2017-07-04 Nuance Communications, Inc. Audio-visual speech recognition with scattering operators
CN106503723A (zh) 2015-09-06 2017-03-15 华为技术有限公司 一种视频分类方法及装置
US10964326B2 (en) 2016-02-16 2021-03-30 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation System and method for audio-visual speech recognition
CN108804453B (zh) 2017-04-28 2020-06-02 深圳荆虹科技有限公司 一种视音频识别方法及装置
CN109147763B (zh) 2018-07-10 2020-08-11 深圳市感动智能科技有限公司 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置
CN109522450B (zh) 2018-11-29 2023-04-07 腾讯科技(深圳)有限公司 一种视频分类的方法以及服务器
CN111292765B (zh) 2019-11-21 2023-07-28 台州学院 一种融合多个深度学习模型的双模态情感识别方法

Also Published As

Publication number Publication date
DE112021004261T5 (de) 2023-05-25
GB202303454D0 (en) 2023-04-26
US11663823B2 (en) 2023-05-30
WO2022033231A1 (en) 2022-02-17
GB2613507A (en) 2023-06-07
CN116171473A (zh) 2023-05-26
US20220044022A1 (en) 2022-02-10

Similar Documents

Publication Publication Date Title
JP2023537705A (ja) オーディオ・ビジュアル・イベント識別システム、方法、プログラム
Tian et al. Unified multisensory perception: Weakly-supervised audio-visual video parsing
Gan et al. Music gesture for visual sound separation
Xu et al. Cross-modal relation-aware networks for audio-visual event localization
Sadoughi et al. Speech-driven animation with meaningful behaviors
Wu et al. Realistic human action recognition with multimodal feature selection and fusion
CN111433784A (zh) 用于检索视频时间段的方法和系统
Wei et al. Learning in audio-visual context: A review, analysis, and new perspective
Ristea et al. Emotion recognition system from speech and visual information based on convolutional neural networks
US20230177384A1 (en) Attention Bottlenecks for Multimodal Fusion
WO2022150401A1 (en) Summarization of video artificial intelligence method, system, and apparatus
Kächele et al. Revisiting the EmotiW challenge: how wild is it really? Classification of human emotions in movie snippets based on multiple features
Zhang Voice keyword retrieval method using attention mechanism and multimodal information fusion
Vryzas et al. Audiovisual speaker indexing for Web-TV automations
CN117011737A (zh) 一种视频分类方法、装置、电子设备和存储介质
Rahman et al. Tribert: Full-body human-centric audio-visual representation learning for visual sound separation
Rahman et al. TriBERT: Human-centric audio-visual representation learning
Kang et al. Pivot correlational neural network for multimodal video categorization
Rodríguez-Hidalgo et al. Echoic log-surprise: A multi-scale scheme for acoustic saliency detection
CN113822125A (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
Shaikh et al. Multimodal fusion for audio-image and video action recognition
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
Hajarolasvadi et al. Deep emotion recognition based on audio–visual correlation
Pibre et al. Audio-video fusion strategies for active speaker detection in meetings
Stoller Deep Learning for Music Information Retrieval in Limited Data Scenarios.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230309

RD16 Notification of change of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7436

Effective date: 20230307

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231212