JP2023537705A

JP2023537705A - オーディオ・ビジュアル・イベント識別システム、方法、プログラム

Info

Publication number: JP2023537705A
Application number: JP2023507362A
Authority: JP
Inventors: ガン、チュアン; ワン、ダクオ; チャン、ヤン; ウー、ブー; グオ、シャオシャオ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-08-10
Filing date: 2021-07-05
Publication date: 2023-09-05
Also published as: DE112021004261T5; GB202303454D0; US11663823B2; WO2022033231A1; GB2613507A; CN116171473A; US20220044022A1

Abstract

オーディオ・ビジュアル・イベントを識別するシステム、方法が提供される。オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取り、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて第１のニューラル・ネットワークを動作させることによりビデオ・フィード内の有益な特徴および領域を決定し、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて第２のニューラル・ネットワークを動作させることにより関係認識ビデオ特徴を決定し、ビデオ・フィード内の有益な特徴および領域に基づいて第３のニューラル・ネットワークを動作させることにより関係認識オーディオ特徴を決定し、第４のニューラル・ネットワークを動作させることにより関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得し、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別する。

Description

本出願は一般にコンピュータおよびコンピュータ・アプリケーションに関し、より詳細には、人工知能、機械学習、ニューラル・ネットワーク、およびオーディオ・ビジュアル学習ならびにオーディオ・ビジュアル・イベント位置特定に関する。

イベント位置特定はビデオの理解にとって困難なタスクであり、これにはマシンが無制約のビデオにおいてイベントまたはアクションの位置を特定し、カテゴリを認識する必要がある。一部の既存の方法では、赤緑青（ＲＧＢ：red-green-blue）フレームまたはオプティカル・フローのみを入力として、イベントの位置を特定して識別する。しかしながら、視覚的な背景の干渉が強く、視覚的な内容の変化が大きいので、視覚情報のみでイベントの位置を特定することは困難であり得る。

オーディオ・ビジュアル・イベント（ＡＶＥ：audio-visual event）位置特定タスクは、マシンがビデオ・セグメント内の可聴かつ可視のイベントの有無を判定し、そのイベントが属しているカテゴリを決定することを必要とするものであり、ますます注目を集めている。ＡＶＥ位置特定タスクは、次の問題点により困難であり得、１）無制約のビデオでは視覚的背景が複雑であるためにＡＶＥの位置を特定するが困難になり、２）ＡＶＥの位置を特定して認識するには、マシンが２つのモダリティ（すなわち、オーディオおよび映像）からの情報を同時に考慮し、それらの関係を利用する必要がある。複雑な視覚的シーンと入り組んだ音との間のつながりを構築することは自明ではない。このタスクにおけるいくつかの方法は、２つのモダリティを独立して処理し、最終的な分類器の直前で単純にこれらを融合する。既存の方法は、イベント位置特定のための手がかりの候補として、単一のモダリティ内のセグメント間の時間的関係を捕捉することに主に焦点を合わせている。

本開示の概要は、コンピュータ・システム、コンピュータ・アプリケーション、機械学習、ニューラル・ネットワーク、オーディオ・ビジュアル学習、およびオーディオ・ビジュアル・イベント位置特定の理解を助けるために与えており、本開示または本発明を限定することを意図したものではない。本開示の様々な態様および特徴は、一部の場合では別々に、または他の場合では本開示の他の態様および特徴と組み合わせて有利に使用されることを理解されたい。したがって、異なる効果を実現するために、コンピュータ・システム、コンピュータ・アプリケーション、機械学習、ニューラル・ネットワーク、またはそれらの動作方法、あるいはそれらの組み合わせに対して変形および修正が行われ得る。

オーディオ・ビジュアル・イベント位置特定のためのデュアル・モダリティ関係ネットワークを実装することができるシステムおよび方法を提供することができる。システムは、一態様では、ハードウェア・プロセッサと、ハードウェア・プロセッサに結合されたメモリと、を含むことができる。ハードウェア・プロセッサは、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取るように構成することができる。ハードウェア・プロセッサは、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定するように構成することもできる。ハードウェア・プロセッサは、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識（relation-aware）ビデオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第４のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得するように構成することもできる。ハードウェア・プロセッサは、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別するように構成することもできる。

他の態様では、システムは、ハードウェア・プロセッサと、ハードウェア・プロセッサに結合されたメモリと、を含むことができる。ハードウェア・プロセッサは、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取るように構成することができる。ハードウェア・プロセッサは、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定するように構成することもできる。ハードウェア・プロセッサは、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第４のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得するように構成することもできる。ハードウェア・プロセッサは、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別するように構成することもできる。ハードウェア・プロセッサは、ビデオ特徴を抽出するためにビデオ・フィードの少なくともビデオ部分を用いて第１の畳み込みニューラル・ネットワークを動作させるようにさらに構成することができる。

さらに他の態様では、システムは、ハードウェア・プロセッサと、ハードウェア・プロセッサに結合されたメモリと、を含むことができる。ハードウェア・プロセッサは、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取るように構成することができる。ハードウェア・プロセッサは、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定するように構成することもできる。ハードウェア・プロセッサは、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第４のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得するように構成することもできる。ハードウェア・プロセッサは、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別するように構成することもできる。ハードウェア・プロセッサは、オーディオ特徴を抽出するためにビデオ・フィードの少なくともオーディオ部分を用いて第２の畳み込みニューラル・ネットワークを動作させるようにさらに構成することができる。

さらに他の態様では、システムは、ハードウェア・プロセッサと、ハードウェア・プロセッサに結合されたメモリと、を含むことができる。ハードウェア・プロセッサは、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取るように構成することができる。ハードウェア・プロセッサは、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定するように構成することもできる。ハードウェア・プロセッサは、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第４のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得するように構成することもできる。ハードウェア・プロセッサは、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別するように構成することもできる。デュアル・モダリティ表現は、オーディオ・ビジュアル・イベントを識別する際に分類器の最後の層として使用することができる。

他の態様では、システムは、ハードウェア・プロセッサと、ハードウェア・プロセッサに結合されたメモリと、を含むことができる。ハードウェア・プロセッサは、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取るように構成することができる。ハードウェア・プロセッサは、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定するように構成することもできる。ハードウェア・プロセッサは、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第４のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得するように構成することもできる。ハードウェア・プロセッサは、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別するように構成することもできる。分類器がビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することは、オーディオ・ビジュアル・イベントが発生しているビデオ・フィード内の位置と、オーディオ・ビジュアル・イベントのカテゴリとを識別することを含む。

他の態様では、システムは、ハードウェア・プロセッサと、ハードウェア・プロセッサに結合されたメモリと、を含むことができる。ハードウェア・プロセッサは、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取るように構成することができる。ハードウェア・プロセッサは、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定するように構成することもできる。ハードウェア・プロセッサは、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第４のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得するように構成することもできる。ハードウェア・プロセッサは、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別するように構成することもできる。第２のニューラル・ネットワークは、関係認識ビデオ特徴を決定する際に、ビデオ特徴における時間的情報と、ビデオ特徴およびオーディオ特徴の間のクロス・モダリティ情報との両方を取得することができる。

他の態様では、システムは、ハードウェア・プロセッサと、ハードウェア・プロセッサに結合されたメモリと、を含むことができる。ハードウェア・プロセッサは、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取るように構成することができる。ハードウェア・プロセッサは、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定するように構成することもできる。ハードウェア・プロセッサは、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定するように構成することもできる。ハードウェア・プロセッサは、第４のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得するように構成することもできる。ハードウェア・プロセッサは、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別するように構成することもできる。第３のニューラル・ネットワークは、関係認識オーディオ特徴を決定する際に、オーディオ特徴における時間的情報と、ビデオ特徴およびオーディオ特徴の間のクロス・モダリティ情報との両方を取得することができる。

方法は、一態様では、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることを含むことができる。この方法はまた、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定することを含むことができる。この方法はまた、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することを含むことができる。この方法はまた、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することを含むことができる。この方法はまた、第４のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することを含むことができる。この方法はまた、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することを含むことができる。

他の態様では、この方法は、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることを含むことができる。この方法はまた、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定することを含むことができる。この方法はまた、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することを含むことができる。この方法はまた、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することを含むことができる。この方法はまた、第４のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することを含むことができる。この方法はまた、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することを含むことができる。この方法はまた、ビデオ特徴を抽出するためにビデオ・フィードの少なくともビデオ部分を用いて第１の畳み込みニューラル・ネットワークを動作させることを含むことができる。

さらに他の態様では、この方法は、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることを含むことができる。この方法はまた、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定することを含むことができる。この方法はまた、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することを含むことができる。この方法はまた、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することを含むことができる。この方法はまた、第４のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することを含むことができる。この方法はまた、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することを含むことができる。この方法はまた、オーディオ特徴を抽出するためにビデオ・フィードの少なくともオーディオ部分を用いて第２の畳み込みニューラル・ネットワークを動作させることを含むことができる。

さらに他の態様では、この方法は、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることを含むことができる。この方法はまた、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定することを含むことができる。この方法はまた、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することを含むことができる。この方法はまた、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することを含むことができる。この方法はまた、第４のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することを含むことができる。この方法はまた、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することを含むことができる。デュアル・モダリティ表現は、オーディオ・ビジュアル・イベントを識別する際に分類器の最後の層として使用することができる。

他の態様では、この方法は、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることを含むことができる。この方法はまた、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定することを含むことができる。この方法はまた、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することを含むことができる。この方法はまた、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することを含むことができる。この方法はまた、第４のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することを含むことができる。この方法はまた、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することを含むことができる。分類器がビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することは、オーディオ・ビジュアル・イベントが発生しているビデオ・フィード内の位置と、オーディオ・ビジュアル・イベントのカテゴリとを識別することを含むことができる。

他の態様では、この方法は、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることを含むことができる。この方法はまた、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定することを含むことができる。この方法はまた、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することを含むことができる。この方法はまた、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することを含むことができる。この方法はまた、第４のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することを含むことができる。この方法はまた、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することを含むことができる。第２のニューラル・ネットワークは、関係認識ビデオ特徴を決定する際に、ビデオ特徴における時間的情報と、ビデオ特徴およびオーディオ特徴の間のクロス・モダリティ情報との両方を取得することができる。

他の態様では、この方法は、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることを含むことができる。この方法はまた、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定することを含むことができる。この方法はまた、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することを含むことができる。この方法はまた、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することを含むことができる。この方法はまた、第４のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することを含むことができる。この方法はまた、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することを含むことができる。第３のニューラル・ネットワークは、関係認識オーディオ特徴を決定する際に、オーディオ特徴における時間的情報と、ビデオ特徴およびオーディオ特徴の間のクロス・モダリティ情報との両方を取得する。

本明細書に記載の１つまたは複数の方法を実行するためのマシンによって実行可能な命令のプログラムを記憶するコンピュータ可読記憶媒体も提供され得る。

様々な実施形態のさらなる特徴ならびに構造および動作については、添付の図面を参照して以下で詳細に説明する。図面において、同様の参照番号は、同一または機能的に同様の要素を示す。

オーディオ・ビジュアル・イベント位置特定タスクの説明用の例の図である。一実施形態におけるデュアル・モダリティ関係ネットワークを示す図である。一実施形態におけるデュアル・モダリティ関係ネットワークを示す他の図である。一実施形態におけるオーディオ・ガイド付き空間－チャンネル・アテンション（ＡＧＳＣＡ：audio-guided spatial-channel attention）モジュールを示す図である。一実施形態におけるクロス・モダリティ関係アテンション（ＣＭＲＡ：cross-modalityrelation attention）メカニズムを示す図である。一実施形態における本方法またはシステムあるいはその両方によって出力された位置特定結果の例を示す図である。一実施形態におけるオーディオ・ビジュアル・イベント位置特定のための方法を示すフロー図である。オーディオ・ビジュアル・イベント位置特定のためのデュアル・モダリティ関係ネットワークを実装することができる、一実施形態におけるシステムのコンポーネントを示す図である。一実施形態におけるデュアル・モダリティ関係ネットワーク・システムを実装し得る例示的なコンピュータまたは処理システムの概略図である。

ビジュアル・チャンネルおよび音響（オーディオ）チャンネルを有するトリミングされていないビデオ・シーケンスが与えられた場合に、ビデオ・セグメント内の可聴かつ可視のイベントの有無を識別し、そのイベントが属するカテゴリを決定することができるシステム、方法、および技術を提供することができる。たとえば、マシンは、オーディオ・ビジュアル・イベント位置特定を実行するようにトレーニングすることができる。本システム、方法、および技術は、ビデオ・シーケンス内のオーディオ・ビジュアル・イベントを認識する際に、視覚的シーンとオーディオ信号との間のクロス・モダリティまたはモダリティ間関係情報を考慮する。

一実施形態では、デュアル・モダリティ関係ネットワークは、オーディオ・ビジュアル・イベント位置特定タスクを実行するためのエンド・ツー・エンド・ネットワークであり、オーディオ・ガイド付きビジュアル・アテンション・モジュールと、モダリティ内関係ブロックと、モダリティ間関係ブロックとを含むことができる。オーディオ・ガイド付きビジュアル・アテンション・モジュールは、一実施形態では、視覚的背景干渉を低減するために有益な領域をハイライトするように機能する。モダリティ内およびモダリティ間関係ブロックは、一実施形態では、モダリティ内およびモダリティ間関係情報をそれぞれ利用してオーディオ・ビジュアル表現学習などの表現学習を容易にすることができ、これにより可聴かつ可視のイベントの認識が容易になる。デュアル・モダリティ関係ネットワークは、一態様では、特定の領域をハイライトすることによって視覚的背景干渉を低減し、モダリティ内関係およびモダリティ間関係を有用な可能性のある情報と見なすことによって２つのモダリティの表現の質を改善し得る。デュアル・モダリティ関係ネットワークは、一態様では、既存の方法ではほぼ利用不可能であった、視覚的シーンと音との間の価値のあるモダリティ間関係の捕捉を可能にする。たとえば、一実施形態の方法は、抽出されたビジュアル特徴およびオーディオ特徴をオーディオ・ガイド付きビジュアル・アテンション・モジュールに供給して、背景干渉低減のために有益な領域を強調することができる。この方法は、オーディオ／ビジュアル表現学習のために対応する関係情報をそれぞれ利用するようにモダリティ内およびモダリティ間関係ブロックを用意することができる。この方法では、関係認識ビジュアルおよびオーディオ特徴を組み合わせて、分類器のための包括的なデュアル・モダリティ表現を取得することができる。

イベント位置特定のタスクを実行するためのマシンを実装することができる。イベント位置特定のタスクを実行するマシンは、無制約のビデオにおいて自動的にイベントの位置を特定し、そのカテゴリを認識する。ほとんどの既存の方法は、ビデオのビジュアル情報のみを利用しており、そのオーディオ情報を無視している。しかしながら、ビジュアル内容およびオーディオ内容を同時に推論することはイベント位置特定に役立つことができ、その理由は、たとえば、オーディオ信号は推論に有用な手がかりを保持していることがよくあるためである。さらに、オーディオ情報は、マシンまたはマシン・モデルが視覚的シーンの有益な領域により多くの注意を払うかまたは焦点を合わせるようにガイドすることができ、これは背景によってもたらされる干渉を低減するのに役立つことができる。一実施形態では、関係認識ネットワークは、高精度なイベント位置特定のためにオーディオ情報およびビジュアル情報の両方を利用して、たとえば、ビデオ・ストリーム内のオーディオ・ビデオ・イベントを認識する際のマシンの技術的改善を提供する。一実施形態では、背景によって導入される干渉を低減するために、本システム、方法、および技術は、イベント関連の視覚領域に焦点を合わせるようにモデルをガイドするオーディオ・ガイド付き空間－チャンネル・アテンション・モジュールを実装することができる。本システム、方法、および技術はまた、関係認識モジュールを使用してビジュアル・モダリティとオーディオ・モダリティとの間のつながりを構築することができる。たとえば、本システム、方法、および技術は、クロス・モーダル関係に従って他方のモダリティからの情報を集約することによって、ビデオ・セグメントまたはオーディオ・セグメントあるいはその両方の表現を学習する。本システム、方法、および技術は、関係認識表現に依存して、イベント関連スコアおよび分類スコアを予測することにより、イベント位置特定を行うことができる。実施形態において、ニューラル・ネットワークは、ビデオ・ストリームにおけるイベント位置特定を実行するようにトレーニングすることができる。様々な活性化関数および勾配最適化などの最適化など、ニューラル・ネットワーク動作の様々な実装を使用することができる。

本システム、方法、および技術は、たとえば、ＡＶＥ位置特定のために、視覚的シーンとオーディオ信号との間のクロス・モダリティまたはモダリティ間関係情報を考慮する。クロス・モダリティ関係は、オーディオ・セグメントとビデオ・セグメントとの間のオーディオ－ビジュアル相関関係である。図１は、オーディオ・ビジュアル・イベント位置特定タスクの説明用の例である。一実施形態におけるこのタスクでは、マシン１０２は、ビジュアル・チャンネル１０６および音響チャンネル１０８を有するビデオ・シーケンス１０４を入力とする。マシン１０２は、たとえば、ハードウェア・プロセッサを含む。ハードウェア・プロセッサは、たとえば、本開示で説明するそれぞれのタスクを実行するように構成され得る、プログラマブル・ロジック・デバイス、マイクロコントローラ、メモリ・デバイス、または他のハードウェア・コンポーネント、あるいはそれらの組み合わせなどのコンポーネントを含み得る。マシン１０２は、セグメント内に可聴かつ可視のイベントが存在するか否かを判定し、そのイベントがどのカテゴリに属するかを決定するように要求される。一態様では、課題は、マシンが２つのモダリティからの情報を同時に考慮し、それらの関係を利用するように求められることである。たとえば、図１に示すように、ビデオ・シーケンスは、たとえば１１０ｂのフレームまたはセグメントに示す走行中の列車を視覚化しながら、列車の警笛の音を含み得る。このオーディオ－ビジュアル相関は、可聴かつ可視のイベントを示唆している。したがって、クロス・モダリティまたはモダリティ間関係はオーディオ・ビジュアル・イベントの検出にも貢献する。

セルフ・アテンション・メカニズムは、自然言語処理（ＮＬＰ：naturallanguage processing）において単語間のモダリティ内関係を捕捉するために使用することができる。まず、入力特徴をクエリ、キーおよびバリュー（すなわち、メモリ）特徴に変換する。次いで、メモリ内の全てのバリューの加重総和を使用してアテンティブ（attentive）出力を計算し、ここで、重み（すなわち、関係）はメモリ内のキーおよびクエリから学習される。しかしながら、一態様において、ＮＬＰの使用法では、クエリおよびメモリが同じモダリティに由来するので、セルフ・アテンションをイベント位置特定に直接適用しても、ビジュアル内容および音響内容の間のクロス・モダリティ関係を利用することができない。反対に、メモリが２つのモダリティの特徴を取得する場合、（２つのモダリティのうちの１つからの）クエリは、モダリティ内関係情報を見逃すことなく、クロス・モダリティ関係を調べられるようにすることができる。

一実施形態では、本システム、方法、および技術は、モダリティ間関係を利用することによってビジュアル情報とオーディオ情報との間のつながりを構築する関係認識モジュールを提供する。このモジュールは、一実施形態では、クロス・モダリティ関係アテンションと呼ぶアテンション・メカニズムをラップ（ｗｒａｐ）する。セルフ・アテンションとは異なり、クロス・モダリティ関係アテンションでは、クエリは１つのモダリティから導出されるが、キーおよびバリューは２つのモダリティから導出される。このようにして、１つのモダリティからの個々のセグメントは、学習されたモダリティ内関係およびモダリティ間関係に基づいて、２つのモダリティからの関連する全てのセグメントから有用な情報を集約することができる。視覚的シーンを見つつ音を聞くこと（すなわち、２つのモダリティからの情報を同時に利用すること）は、それらを別々に知覚するよりも可聴かつ可視のイベントの位置を特定するのに効果的かつ効率的であり得る。本システム、方法、および技術は、一態様では、両方の有用な関係を利用して表現学習を容易にし、ＡＶＥ位置特定のパフォーマンスをさらに高めることができる。

一実施形態では、強力な視覚的背景干渉によって正確なイベント位置特定が妨げられるので、本システム、方法、および技術は、干渉を低減するために有益な視覚領域および特徴をハイライトし得る。たとえば、本システム、方法、および技術は、オーディオ情報を利用して空間レベルおよびチャンネル・レベルでビジュアル・アテンションを構築するオーディオ・ガイド付き空間－チャンネル・アテンション・モジュールを含むことができる。本システム、方法、および技術は、これらのコンポーネントを統合してクロス・モーダル関係認識ネットワークを提供し、これはＡＶＥデータセットでの教師ありおよび弱教師ありＡＶＥ位置特定タスクにおいて最新技術に差をつけて上回ることができる。

一実施形態では、本システム、方法、および技術は、有益な特徴および音のする領域を高精度にハイライトすることができるオーディオ信号のガイド機能をビジュアル・アテンションに利用するオーディオ・ガイド付き空間－チャンネル・アテンション・モジュール（ＡＧＳＣＡ）と、モダリティ内関係およびモダリティ間関係をイベント位置特定に利用する関係認識モジュールと、を含むことができる。一実施形態では、クロス・モーダル関係認識ネットワーク（デュアル・モダリティ関係ネットワークとも呼ぶ）を教師ありおよび弱教師ありＡＶＥ位置特定タスクのために構築することができる。

オーディオ・ビジュアル学習は、たとえば、行動認識、音源定位、およびオーディオ・ビジュアル・イベント位置特定などの多くの分野で役立つことができる。たとえば、研究ではオーディオを使用してプレビュー・メカニズムを構築することによって時間的な冗長性を削減し、スパースな時間的サンプリング戦略は複数のモダリティを融合して行動認識を改善し得、教師なし方式でビジュアル・モデルを学習するための教師信号としてオーディオが使用され、声と顔との相関関係を使用して声の背後にある顔画像を生成するＳｐｅｅｃｈ２Ｆａｃｅフレームワークが提示され、容易に入手可能な大規模なラベルなしのビデオを利用するために、研究ではオーディオ－ビジュアル対応関係を利用して自己教師あり方式でオーディオ・ビジュアル表現を学習する。

オーディオ・ビジュアル・イベント位置特定の他の研究では、２つの長期短期記憶（ＬＳＴＭ：long-short term memory）を使用してオーディオおよびビデオ・セグメント・シーケンスの時間的依存性を別々にモデル化し、次いでイベント・カテゴリ予測のために加法融合および平均プーリングを介してオーディオ特徴およびビジュアル特徴を単純に融合する。さらに他の研究では、まずオーディオ・モダリティおよびビジュアル・モダリティを別々に処理し、次いでＬＳＴＭを介して２つのモダリティの特徴を融合し、これはシーケンス・ツー・シーケンス方式で機能する。さらに他の研究では、モダリティ内関係モデリングによって得られるグローバル情報とローカル情報とを使用して、内積演算によってクロス・モダリティ類似性を測定するデュアル・アテンション・マッチング・モジュールを提案している。クロス・モダリティ類似性は、最終的なイベント関連性予測として直接的に機能する。これらの方法は主に、モダリティ内関係を手がかりの候補として利用することに意識を集中させており、イベント位置特定のために同様に価値のあるクロス・モダリティ関係情報を無視している。これらの方法とは異なり、実施形態における本システム、方法、および技術は、たとえば、モダリティ内およびモダリティ間関係情報の両方を同時に利用することによって、ビジュアル・モダリティとオーディオ・モダリティとの間のつながりの橋渡しを可能にするクロス・モーダル関係認識ネットワークを提供または実装する。

アテンション・メカニズムは、人間の視知覚機能を模倣している。これは、高い活性化を有する入力の特定の部分に自動的に焦点を合わせようとする。アテンション・メカニズムには、セルフ・アテンションを含む多くの変形がある。モダリティ内の関係を捕捉することに焦点を合わせたセルフ・アテンションとは異なり、本システム、方法、および技術は、実施形態において、オーディオ・ビジュアル表現学習のためにモダリティ内関係およびモダリティ間関係を同時に利用することを可能にするクロス・モダリティ関係アテンションを提供することができる。

本開示では、以下の表記を使用する。
をＴ個の重複しないセグメントを有するビデオ・シーケンスとする。ここで、ＶｔおよびＡｔは、ｔ番目のセグメントのビジュアル内容およびそれに対応するオーディオ内容をそれぞれ表す。

たとえば、図１は、ビデオ内のセグメント１１０ａ、１１０ｂ、１１０ｃ、１１０ｄ、１１０ｅ、１１０ｆを示している。図１に例として示すように、ビデオ・シーケンスＳ１０４が与えられると、ＡＶＥ位置特定は、ＶｔおよびＡｔに応じて各セグメントＳｔのイベント・ラベル（背景を含む）を予測するようにマシンに要求する。オーディオ・ビジュアル・イベントは、可聴かつ可視のイベント（すなわち、オブジェクトの発する音が聞こえ、同時にそのオブジェクトが見えるもの）として定義される。セグメントＳｔが可聴かつ可視でない場合、これは背景として予測されるべきである。このタスクの課題は、マシンが２つのモダリティを分析し、それらの関係を捕捉するように求められることである。実施形態では、本システム、方法、および技術は、クロス・モダリティ関係情報を使用してパフォーマンスを高めることができる。実施形態では、このタスクは様々な設定で実行することができる。たとえば、一実施形態では、このタスクは教師あり設定で実行することができる。他の実施形態では、このタスクは弱教師あり設定で実行することができる。教師あり設定では、本システム、方法、および技術は、トレーニング・フェーズ中にセグメント・レベルのラベルにアクセスすることができる。セグメント・レベルのラベルは、対応するセグメントのカテゴリ（背景を含む）を示す。一実施形態では、音および対応する音のするオブジェクトが提示されている場合にのみ、背景でないカテゴリのラベルが与えられる。弱教師あり設定では、一実施形態では、本システム、方法、および技術は、トレーニング中にビデオ・レベルのラベルのみにアクセスすることができ、本システム、方法、および技術は、テスト中に各セグメントのカテゴリを予測することを目指す。ビデオ・レベルのラベルは、ビデオがオーディオ・ビジュアル・イベントを含むか否か、およびそのイベントがどのカテゴリに属しているかを示す。

本システム、方法、および技術は、一実施形態において、ほとんどの既存のイベント位置特定方法がビデオ内のオーディオ信号からの情報を無視しているが、これは複雑な背景の干渉を軽減し、推論用のより多くの手がかりを提供するのに役立ち得るという問題を解決する。ある方法は、たとえば、イベント位置特定のためにビジュアル情報およびオーディオ情報の両方を利用し、これをオーディオ・ビジュアル・イベント位置特定タスクで評価し、このタスクではマシンがトリミングされていないビデオで可聴かつ可視のイベントの位置を特定するように求められる。このタスクは困難であり、その理由は、無制約のビデオには複雑な背景が含まれていることが多く、複雑な視覚的シーンと入り組んだ音との間のつながりを構築することは自明ではないためである。これらの課題に対処するために、実施形態では、本システム、方法、および技術は、背景干渉を低減するために特定の空間領域および特徴をハイライトするオーディオ・ガイド付きアテンション・モジュールを提供する。実施形態では、本システム、方法、および技術はまた、オーディオ・ビジュアル・イベントの位置を特定するためにモダリティ内関係と共にモダリティ間関係を利用する関係認識モジュールを考案する。

図２は、一実施形態におけるデュアル・モダリティ関係ネットワークを示す図である。図示したコンポーネントは、たとえば、１つまたは複数のハードウェア・プロセッサ上で実装されるか、もしくは動作させるか、またはその両方が行われ、あるいは１つまたは複数のハードウェア・プロセッサと結合された、コンピュータ実装コンポーネントを含む。１つまたは複数のハードウェア・プロセッサまたはプロセッサは、たとえば、本開示で説明するそれぞれのタスクを実行するように構成される、プログラマブル・ロジック・デバイス、マイクロコントローラ、メモリ・デバイス、または他のハードウェア・コンポーネント、あるいはそれらの組み合わせなどのコンポーネントを含み得る。結合されたメモリ・デバイスは、１つまたは複数のハードウェア・プロセッサによって実行可能な命令を選択的に記憶するように構成される。プロセッサは、中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、他の適切な処理コンポーネントまたはデバイス、あるいはそれらの１つまたは複数の組み合わせであり得る。プロセッサはメモリ・デバイスに結合され得る。メモリ・デバイスは、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、または他のメモリ・デバイスを含み得、本明細書に記載の方法またはシステムあるいはその両方に関連する様々な機能を実装するためのデータまたはプロセッサ命令あるいはその両方を記憶し得る。プロセッサは、メモリに記憶された、または他のコンピュータ・デバイスもしくは媒体から受け取ったコンピュータ命令を実行し得る。本明細書で使用するモジュールは、１つまたは複数のハードウェア・プロセッサ上で実行可能なソフトウェア、ハードウェア・コンポーネント、プログラム可能なハードウェア、ファームウェア、またはそれらの任意の組み合わせとして実装することができる。

デュアル・モダリティ関係ネットワークを、クロス・モーダル関係認識ネットワークとも呼ぶ。一実施形態では、デュアル・モダリティ関係ネットワーク２００は、オーディオ・ビジュアル・イベント位置特定タスクを実行するためのエンド・ツー・エンド・ネットワークであり、オーディオ・ガイド付きビジュアル・アテンション・モジュール２１２と、モダリティ内関係ブロック２１４、２１６と、モダリティ間関係ブロック２１８、２２０とを含むことができる。オーディオ・ガイド付きビジュアル・アテンション・モジュール２１２は、ニューラル・ネットワーク（たとえば、説明または例示のために第１のニューラル・ネットワークと呼ぶ）を含むことができる。オーディオ・ガイド付きビジュアル・アテンション・モジュール２１２は、一実施形態では、視覚的背景干渉を低減するために有益な領域をハイライトするように機能する。

モダリティ内およびモダリティ間関係ブロック２１４、２１６、２１８、２２０は、一実施形態では、モダリティ内およびモダリティ間関係情報をそれぞれ利用して、たとえば、オーディオ・ビジュアル表現学習などの表現学習を容易にすることができ、これにより可聴かつ可視のイベントの認識が容易になる。モダリティ内およびモダリティ間関係ブロック２１４、２１８は、ニューラル・ネットワーク（たとえば、説明のために第２のニューラル・ネットワークと呼ぶ）を含むことができる。モダリティ内およびモダリティ間関係ブロック２１６、２２０は、ニューラル・ネットワーク（たとえば、説明のために第３のニューラル・ネットワークと呼ぶ）を含むことができる。デュアル・モダリティ関係ネットワーク２００は、一態様では、特定の領域をハイライトすることによって視覚的背景干渉を低減し、モダリティ内関係およびモダリティ間関係を有用であり得る情報として利用することによって２つのモダリティの表現の質を改善し得る。デュアル・モダリティ関係ネットワークは、一態様では、視覚的シーン２０２と音２０４との間の価値のあるモダリティ間関係の捕捉を可能にする。

たとえば、一実施形態の方法は、抽出されたビジュアル特徴およびオーディオ特徴をオーディオ・ガイド付きビジュアル・アテンション・モジュール２１２に供給して、背景干渉低減のために有益な領域を強調することができる。たとえば、オーディオ・ガイド付きビジュアル・アテンション・モジュール２１２に供給されるビデオ特徴は、たとえば、ビデオ特徴を抽出するようにトレーニングされた畳み込みニューラル・ネットワーク２０６に入力ビデオ２０２を入力することによって抽出することができる。入力オーディオ２０４は、対数メル・スペクトログラム表現２０８を使用して処理することができ、これを、オーディオ特徴を抽出するようにトレーニングされた畳み込みニューラル・ネットワーク２１０に入力して、オーディオ・ガイド付きビジュアル・アテンション・モジュール２１２に供給するためのオーディオ特徴を抽出することができる。入力ビデオ２０２および入力オーディオ２０４は、ビデオ・フィード、ストリーム、またはシーケンスのコンポーネントである。この方法は、オーディオ／ビジュアル表現学習のために対応する関係情報をそれぞれ利用するようにモダリティ内およびモダリティ間関係ブロック２１４、２１６、２１８、２２０を用意することができる。たとえば、モダリティ内関係ブロック２１４およびモダリティ間関係ブロック２１８は関係認識特徴２２２を生成し、モダリティ内関係ブロック２１６およびモダリティ間関係ブロック２２０は関係認識特徴２２４を生成する。オーディオ－ビデオ相互作用モジュール２２６は、関係認識ビジュアルおよびオーディオ特徴２２２、２２４を組み合わせて、分類器のための包括的なデュアル・モダリティ表現を取得することができる。オーディオ－ビデオ相互作用モジュール２２６は、ニューラル・ネットワーク（たとえば、説明のために第４のニューラル・ネットワークと呼ぶ）を含むことができる。オーディオ－ビデオ相互作用モジュール２２６によって出力された包括的なデュアル・モダリティ表現は、イベント分類２３０またはイベント関連予測２２８あるいはその両方のための分類器（たとえば、ニューラル・ネットワーク）に供給することができる。

例として、入力ＡＶＥデータセット（たとえば、ビデオおよびオーディオ入力２０２、２０４）は、広範囲のドメイン・イベント（たとえば、人間の活動、動物の活動、音楽演奏、および車両の音）をカバーするビデオを含むことができる。これらのイベントは多様なカテゴリ（たとえば、教会の鐘、泣き声、犬の鳴き声、揚げ物、バイオリンの演奏、またはその他、あるいはそれらの組み合わせ）を含むことができる。例として、ビデオは１つのイベントを含むことができ、デュアル・モダリティ関係ネットワークによる処理のためにいくつかの時間間隔セグメント（たとえば、１０個の１秒間のセグメント）に分割することができる。一実施形態では、ビデオ・シーケンス内のビデオおよびオーディオ・シーン（たとえば、ビデオおよびオーディオ入力２０２、２０４）が位置合わせされる。他の実施形態では、ビデオ・シーケンス内のビデオおよびオーディオ・シーン（たとえば、ビデオおよびオーディオ入力２０２、２０４）が位置合わせさせる必要はない。

例として、ＣＮＮ２０６は、ＶＧＧ－１９、残差ニューラル・ネットワーク（たとえば、ＲｅｓＮｅｔ－１５１）などであるがこれらに限定されない畳み込みニューラル・ネットワークとすることができ、たとえばＩｍａｇｅＮｅｔでビジュアル特徴抽出器として事前にトレーニングすることができる。たとえば、各セグメント内で１６フレームを入力として選択することができる。一例として、７×７×５１２の次元を有するＶＧＧ－１９内のｐｏｏｌ５層の出力をビジュアル特徴と見なすことができる。ＲｅｓＮｅｔ－１５１の場合、７×７×２０４８の次元を有するｃｏｎｖ５層の出力をビジュアル特徴と見なすことができる。各セグメント内のフレーム・レベルの特徴は、セグメント・レベルの特徴として時間的に平均化することができる。

例として、入力オーディオ２０４は、未加工のオーディオとすることができるが、対数メル・スペクトログラム２０８に変換することができる。本方法またはシステムあるいはその両方は、たとえば、ＡｕｄｉｏＳｅｔで事前にトレーニングされたＶＧＧのようなネットワークを使用して、セグメントごとに１２８次元の音響特徴を抽出することができる。

図３は、一実施形態におけるデュアル・モダリティ関係ネットワークを示す他の図である。図示したコンポーネントは、たとえば、１つまたは複数のハードウェア・プロセッサ上で実装されるか、もしくは動作させるか、またはその両方が行われ、あるいは１つまたは複数のハードウェア・プロセッサと結合された、コンピュータ実装コンポーネントを含む。１つまたは複数のハードウェア・プロセッサまたはプロセッサは、たとえば、本開示で説明するそれぞれのタスクを実行するように構成され得る、プログラマブル・ロジック・デバイス、マイクロコントローラ、メモリ・デバイス、または他のハードウェア・コンポーネント、あるいはそれらの組み合わせなどのコンポーネントを含み得る。結合されたメモリ・デバイスは、１つまたは複数のハードウェア・プロセッサによって実行可能な命令を選択的に記憶するように構成され得る。プロセッサは、中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、他の適切な処理コンポーネントまたはデバイス、あるいはそれらの１つまたは複数の組み合わせであり得る。プロセッサはメモリ・デバイスに結合され得る。メモリ・デバイスは、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、または他のメモリ・デバイスを含み得、本明細書に記載の方法またはシステムあるいはその両方に関連する様々な機能を実装するためのデータまたはプロセッサ命令あるいはその両方を記憶し得る。プロセッサは、メモリに記憶された、または他のコンピュータ・デバイスもしくは媒体から受け取ったコンピュータ命令を実行し得る。本明細書で使用するモジュールは、１つまたは複数のハードウェア・プロセッサ上で実行可能なソフトウェア、ハードウェア・コンポーネント、プログラム可能なハードウェア、ファームウェア、またはそれらの任意の組み合わせとして実装することができる。

デュアル・モダリティ関係ネットワークを、クロス・モーダル関係認識ネットワーク（ＣＭＲＡＮ：cross-modal relation-aware network）とも呼ぶ。入力ビデオ３０２は、たとえば、ビデオ特徴を抽出するようにトレーニングされた畳み込みニューラル・ネットワーク（ＣＮＮ：convolutional neural network）３０６に供給または入力される。入力オーディオ３０４は対数メル・スペクトログラム表現３０８を使用して処理することができ、これを、オーディオ特徴を抽出するようにトレーニングされた畳み込みニューラル・ネットワーク（ＣＮＮ）３１０に入力して、オーディオ・ガイド付き空間－チャンネル・アテンション・モジュール（ＡＧＳＣＡ）（たとえば、図２ではオーディオ・ガイド付きビジュアル・アテンション・モジュールとも呼ぶ）３１２に供給するためのオーディオ特徴を抽出することができる。ＣＮＮ３０６から抽出されたビデオ特徴およびＣＮＮ３１０からのオーディオ特徴を使用して、オーディオ・ガイド付き空間－チャンネル・アテンション・モジュール（ＡＧＳＣＡ）（たとえば、図２ではオーディオ・ガイド付きビジュアル・アテンション・モジュールとも呼ぶ）３１２は、オーディオ情報（たとえば、ＣＮＮ３１０によって出力されたもの）を利用して空間レベルおよびチャンネル・レベル（たとえば、ビデオ・チャンネル）でビジュアル・アテンションをガイドすることによって、強化されたビジュアル特徴３１４を作成するように機能する。ＣＮＮ３１０はオーディオ特徴３１６を抽出する。２つの関係認識モジュール３１８、３２０は、２つのモダリティ（ビデオおよびオーディオ）のモダリティ内関係およびモダリティ間関係の両方をそれぞれ捕捉して、関係認識ビジュアル特徴３２２および関係認識オーディオ特徴３２４を作成する。クロス・モーダル関係認識ビジュアル特徴３２２およびクロス・モーダル関係認識オーディオ特徴３２４は、オーディオ－ビデオ相互作用モジュール３２６を介して組み合わせられて、統合デュアル・モダリティ表現が生成され、これはイベント関連予測３２８またはイベント分類３３０あるいはその両方のための分類器に入力することができる。

ビデオ・シーケンスＳが与えられると、方法またはシステムあるいはその両方は、たとえば、各オーディオ－ビジュアル・ペア｛Ｖ_ｔ，Ａ_ｔ｝３０２、３０４を事前トレーニング済みのＣＮＮバックボーン３０６、３０８を介して転送して、セグメント・レベルの特徴
を抽出する。本方法またはシステムあるいはその両方は、ＡＧＳＣＡモジュール３１２を介してオーディオ特徴およびビジュアル特徴を転送して、強化されたビジュアル特徴３１４を取得する。オーディオ特徴３１６および強化されたビジュアル特徴３１４を用いて、本方法またはシステムあるいはその両方はビデオ関係認識モジュール３１８およびオーディオ関係認識モジュール３２０の２つの関係認識モジュールを用意し、これらはそれぞれオーディオ特徴およびビジュアル特徴についてクロス・モダリティまたはデュアル・モダリティ関係アテンションをラップする。本方法またはシステムあるいはその両方は、ビジュアルおよびオーディオ特徴３１４、３１６を関係認識モジュール３１８、３２０に供給して、２つのモダリティの両方の関係を引き出す。関係認識ビジュアルおよびオーディオ特徴３２２、３２４は、オーディオ－ビデオ相互作用モジュール３２６に供給されて、１つまたは複数のイベント分類器３３０または予測３２８のための包括的な統合デュアル・モダリティ表現が生成される。

オーディオ・ガイド付き空間－チャンネル・アテンション
オーディオ信号は、ビジュアル・モデリングをガイドすることが可能である。チャンネル・アテンションにより、無関係な特徴を破棄し、ビジュアル表現の質を向上させることが可能になる。オーディオ・ガイド付き空間－チャンネル・アテンション・モジュール（ＡＧＳＣＡ）３１２は、一実施形態では、ビジュアル・モデリングのためにオーディオ・ガイド機能を最大限に利用しようとする。一態様では、オーディオ特徴を空間次元のみにおけるビジュアル・アテンションに参加させるのではなく、ＡＧＳＣＡ３１２は、一実施形態では、オーディオ信号を利用して空間次元およびチャンネル次元の両方においてビジュアル・アテンションをガイドし、これにより有益な特徴および空間領域が強調されて位置特定の精度が高まる。知られている方法または技術を使用して、チャンネル・アテンションおよび空間アテンションを順次実行することができる。

図４は、一実施形態における、たとえば、図３の３１２に示すオーディオ・ガイド付き空間－チャンネル・アテンション（ＡＧＳＣＡ）モジュールを示している。ＡＧＳＣＡは、一実施形態では、オーディオ・ガイド機能を利用して、チャンネル・レベル（左部分）および空間レベル（右部分）でビジュアル・アテンションをガイドする。ＨおよびＷがそれぞれ特徴マップの高さおよび幅である場合に、オーディオ特徴
４０２およびビジュアル特徴
４０４が与えられると、ＡＧＳＣＡは有益な特徴を適応的に強調するためのチャンネル単位（channel-wise）アテンション・マップ
４０６を生成する。次いで、ＡＧＳＣＡは、チャンネル・アテンティブ特徴４１０に対する空間アテンション・マップ
４０８を作成して音のする領域をハイライトすることによって、チャンネル空間アテンティブ・ビジュアル特徴
４１２を生成する。アテンション・プロセスは以下のようにまとめることができる。
ここで、
は行列の乗算を表し、
は要素ごとの乗算を意味する。

チャンネル単位アテンション４０６はアテンション・マップ
を生成し、空間アテンション４０８はアテンション・マップ
を作成する。

チャンネル単位アテンション
方法またはシステムあるいはその両方は、一実施形態では、オーディオ信号のガイドの下で特徴のチャンネル間の依存関係をモデル化する。一実施形態では、本方法またはシステムあるいはその両方は、非線形性を有する全結合層を使用してオーディオ特徴およびビジュアル特徴を共通の空間へと変換し、その結果、オーディオ・ガイド・マップ
と、ｄ_ｖ×（Ｈ＊Ｗ）の次元を有する変換されたビジュアル特徴とが得られる。一実施形態では、本方法またはシステムあるいはその両方は、変換されたビジュアル特徴をグローバル平均プーリングによって空間的に絞り込む。次いで、本方法またはシステムあるいはその両方は、要素ごとの乗算によってビジュアル特徴を
と融合することにより、
のガイド情報を利用する。本方法またはシステムあるいはその両方は、チャンネル間の関係をモデル化するための非線形性を有する２つの全結合層を介して融合されたビジュアル特徴を転送して、チャンネル・アテンション・マップ
を生成する。一実施形態において、詳細を以下のように示す。
ここで、
、
、および
は整流線形ユニット（ＲｅＬＵ：rectified linear unit）を活性化関数とする全結合層であり、
は隠れ次元としてｄ＝２５６を有する学習可能なパラメータであり、δａはグローバル平均プーリングを示し、σはシグモイド関数を表す。

空間アテンション
本方法またはシステムあるいはその両方はまた、オーディオ信号のガイド機能を利用して、視覚的な空間アテンション４０８をガイドする。空間アテンション４０８は、チャンネル単位アテンション４０６と同様のパターンに従う。一態様では、入力されるビジュアル特徴
４１０はチャンネル・アテンティブである。

一実施形態では、本方法またはシステムあるいはその両方は、空間アテンションのプロセスを以下のように定式化する。
ここで、
および
はＲｅＬＵを活性化関数とする全結合層であり、
は隠れ次元としてｄ＝２５６を有する学習可能なパラメータであり、δは双曲線正接関数を表す。空間アテンション・マップ
を使用して、本方法またはシステムあるいはその両方は、
に従ってｖ_ｔに加重総和を実行して、有益な領域をハイライトし、空間次元を縮小することによって、チャンネル－空間アテンティブ・ビジュアル特徴ベクトル
４１２を出力として生成する。

クロス・モダリティ関係アテンション
クロス・モダリティ関係アテンションは、一実施形態では、関係認識モジュール（たとえば、図３の３１８および３２０に示す）のコンポーネントである。ビジュアル特徴および音響特徴が与えられると、本方法またはシステムあるいはその両方は、モダリティ内関係情報を無視することなく、クロス・モダリティ関係を利用して２つのモダリティ間の橋渡しをし得る。このタスクのために、本方法またはシステムあるいはその両方は、一実施形態では、クロス・モダリティ関係アテンション（ＣＭＲＡ）メカニズムを実装または提供する。図５は、一実施形態におけるクロス・モダリティ関係アテンション（ＣＭＲＡ）メカニズムを示している。異なる陰影のバーは、異なるモダリティからのセグメント・レベルの特徴を表す。ＣＭＲＡは、オーディオまたはビデオ・セグメント特徴のモダリティ内関係およびモダリティ間関係を同時に利用し、これら２つの関係間のバランスを適応的に学習することを可能にする。クエリ５０２は１つのモダリティ（たとえば、オーディオまたはビデオ）の特徴から導出され、これをｑ_１と表す。たとえば、入力特徴は、５１２に示すオーディオ特徴およびビデオ特徴を含むことができる。キー－バリュー・ペア５０４、５０６は２つのモダリティ（たとえば、オーディオおよびビデオ）の特徴から導出され、本方法またはシステムあるいはその両方は、それらをキー・マトリックスＫ_１，２およびバリュー・マトリックスＶ_１，２にパックする。一実施形態では、本方法またはシステムあるいはその両方は、ドット積演算をペアごとの関係関数とする。次いで、本方法またはシステムあるいはその両方は、ｑ_１と全てのキーＫ_１，２とのドット積を計算し、それぞれをそれらの共有された特徴次元ｄｍの平方根で除算し、ソフトマックス関数を適用してバリューＶ_１，２のアテンション重みを取得する。ｑ_１およびＫ_１，２から学習された関係（すなわち、アテンション重み）５０８によって重み付けされた全てのバリューＶ_１，２にわたる総和によって、アテンションが施された出力５１０が計算される。

一実施形態では、ＣＭＲＡは以下のように定義される。
ここで、インデックス１または２は異なるモダリティを表す。ｑ_１はオーディオ特徴またはビジュアル特徴に由来し、Ｋ_１，２およびＶ_１，２はオーディオ特徴およびビジュアル特徴の両方に由来するので、ＣＭＲＡはモダリティ内関係およびモダリティ間関係の両方の適応学習を、それらの間のバランスと共に可能にする。ビデオ・シーケンス内のモダリティからの個々のセグメントは、学習された関係に基づいて２つのモダリティの関連する全てのセグメントから有用な情報を取得することを可能にし、これにより、オーディオ・ビジュアル表現学習が容易になり、ＡＶＥ位置特定のパフォーマンスがさらに高まる。

以下では、ＡＶＥ位置特定におけるＣＭＲＡの具体的なインスタンスの一例を示す。一般性を失うことなく、以下の説明では、説明の目的でビジュアル特徴をクエリとする。オーディオ特徴
およびビジュアル特徴
が与えられると、本方法またはシステムあるいはその両方は、線形変換でｖをクエリ特徴に射影し、これを
と表す。次いで、本方法またはシステムあるいはその両方は、ｖをａと時間的に連結して未加工のメモリ・ベース
を取得する。その後、本方法またはシステムあるいはその両方は、ｍ_ａ，ｖをキー特徴
およびバリュー特徴
に線形変換する。クロス・モダリティ・アテンティブ出力ｖ_ｑは、以下のように計算される。
ここで、Ｗ^Ｑ、Ｗ^Ｋ、Ｗ^Ｖは、ｄ_ｍ×ｄ_ｍの次元を有する学習可能なパラメータである。この例では、説明の目的でビジュアル特徴ｖをクエリとしているが、オーディオ特徴の関係を利用するためにオーディオ特徴をクエリとすることができるということに留意されたい。対照的に、メモリがクエリと同じモダリティ特徴のみを含む場合、セルフ・アテンションはＣＭＲＡの特殊なケースと見なすことができる。一実施形態では、ＣＭＲＡは、以下に説明する関係認識モジュールで実装することができる。

関係認識モジュール
一実施形態では、関係認識モジュール（たとえば、図３の３１８および３２０に示す）はクロス・モダリティ関係モジュールおよび内部時間的関係ブロックを含み、それぞれＭ_ｃｍｒａおよびＢ_ｓｅｌｆと表す。図２はまた、２１８および２２０のクロス・モダリティ関係モジュールと、２１４および２１６の内部時間的関係ブロック（モダリティ内関係ブロックとも呼ぶ）との一例を示している。一実施形態では、モジュールＭ_ｃｍｒａは、関係を利用するためのクロス・モダリティ関係アテンション・メカニズム（ＣＭＲＡ）を含む。Ｂ_ｓｅｌｆはＭ_ｃｍｒａの補助として機能する。一実施形態では、例示的なアーキテクチャにおけるビデオ／オーディオ関係認識モジュールは、ＣＭＲＡ動作においてビジュアル特徴またはオーディオ特徴をクエリとする関係認識モジュールである。

説明の目的で、ＡＧＳＣＡモジュールからのビジュアル特徴
をクエリとする（たとえば、図３の３１８に示すビデオ関係認識モジュール）。ビジュアル特徴ｖがクエリであり、オーディオ特徴
がメモリの一部である場合、本方法またはシステムあるいはその両方は線形層を介してそれらを共通の空間に変換する。一例として、変換されたビジュアル特徴およびオーディオ特徴をそれぞれＦ_ｖおよびＦ_ａと表し、同じ次元Ｔ×ｄ_ｍを有する。次いで、Ｂ_ｓｅｌｆはＦ_ａを入力として、内部の時間的関係を事前に調べることによって、セルフ・アテンティブ・オーディオ特徴を生成し、これを
と表す。Ｍ_ｃｍｒａはＦ_ｖおよび
を入力として、ＣＭＲＡの助けを借りてビジュアル特徴のモダリティ内関係およびモダリティ間関係を調べ、関係認識ビジュアル特徴ｖ_ｏ（たとえば、図３の３２２に示す）を出力として生成する。全体的なプロセスは以下のように要約することができる。
ここで、
および
は学習可能なパラメータである。

クロス・モダリティ関係モジュール
一実施形態では、ＣＭＲＡ操作を使用して、クロス・モダリティ関係モジュールＭ_ｃｍｒａは、モダリティ間関係をモダリティ内関係と共に利用するように機能する。一実施形態では、本方法またはシステムあるいはその両方は、以下のようなマルチヘッド設定でＣＭＲＡを実行する。
ここで、｜｜は時間的な連結操作を表し、
、
、
、Ｗ_ｈは学習されるパラメータ、ｎは並列ＣＭＲＡモジュールの数を表す。ＣＭＲＡからの伝達損失を回避するために、本方法またはシステムあるいはその両方は、以下のようにＦ_ｖをＨに残差接続として層正規化と共に追加することができる。
Ｈｒ＝ＬａｙｅｒＮｏｒｍ（Ｈ＋Ｆ_ｖ）（８）

いくつかの並列ＣＭＲＡ操作からの情報をさらに融合するために、本方法またはシステムあるいはその両方は、ＲｅＬＵを用いた２つの線形層を介してＨ_ｒを転送する。一実施形態では、出力ｖ_ｏの詳細な計算は以下のように与えることができる。
ｖ_ｏ＝ＬａｙｅｒＮｏｒｍ（Ｏ_ｆ＋Ｈ_ｒ）
Ｏ_ｆ＝δ（Ｈ_ｒＷ_３）Ｗ_４（９）
ここで、δはＲｅＬＵ関数を表し、Ｗ_３およびＷ_４は２つの線形層の学習可能なパラメータである。

内部時間的関係ブロック
一実施形態では、本方法またはシステムあるいはその両方は、Ｍ_ｃｍｒａ内でＣＭＲＡをセルフ・アテンションに置き換えて、内部時間的関係ブロックＢ_ｓｅｌｆを取得する。ブロックＢ_ｓｅｌｆは、Ｍ_ｃｍｒａを支援するために、メモリ特徴の一部分に関する内部の時間的関係を事前に調べることに集中する。

オーディオ－ビデオ相互作用モジュール
関係認識モジュールは、クロス・モーダル関係認識ビジュアルおよび音響表現を出力し、これらをそれぞれ
および
と表し、たとえば、図２の２２２、２２４に示し、図３の３２２、３２４にも示している。一実施形態では、オーディオ－ビデオ相互作用モジュールは、１つまたは複数の分類器のために２つのモダリティの包括的な表現を取得する。一実施形態では、オーディオ－ビデオ相互作用モジュールは、ｖ_０とａ_０とを組み合わせることによって、ビジュアル・チャンネルと音響チャンネルとの間の共鳴（resonance）を捕捉しようとする。

一実施形態では、本方法またはシステムあるいはその両方は、ｖ_ｏおよびａ_０を要素ごとの乗算で融合して、これらの２つのモダリティの統合表現を取得し、これをｆ_ａｖと表す。次いで、本方法またはシステムあるいはその両方は、ｆ_ａｖを利用してビジュアル表現ｖｏおよび音響表現ａ_０にアテンションを施し、ここで、ｖ_ｏおよびａ_０は、より良好な視覚的理解および音響知覚のためにビジュアル情報および音響情報をそれぞれ提供する。この操作は、クエリがメモリ特徴の融合である場合のＣＭＲＡの変形と見なすことができる。次いで、本方法またはシステムあるいはその両方は、関係認識モジュールと同様に、残差接続および層正規化をアテンティブ出力に追加する。

一実施形態では、包括的なデュアル・モダリティ表現Ｏ_ａｖは、以下のように計算される。
ここで、
は要素ごとの乗算を表し、
、
、
は学習されるパラメータである。

教師ありおよび弱教師ありオーディオ・ビジュアル・イベント位置特定
教師あり位置特定
一実施形態では、オーディオ－ビデオ相互作用モジュール（たとえば、図２の２２６に示し、図３の３３６にも示す）は、Ｔ×ｄ_ｍの次元を有する特徴Ｏ_ａｖを取得する。一実施形態では、本方法またはシステムあるいはその両方は、位置特定を２つのスコアの予測に分解する。１つは、ｔ番目のビデオ・セグメントにオーディオ・ビジュアル・イベントが存在するか否かを判定する信頼スコア
である。もう１つはイベント・カテゴリ・スコア
であり、ここでＣは前景カテゴリの数を表す。信頼スコア
は以下のように計算される。
ここで、Ｗ_ｓは学習可能なパラメータであり、σはシグモイド関数を表す。カテゴリ・スコア
について、一実施形態における本方法またはシステムあるいはその両方は、融合された特徴Ｏ_ａｖに対して最大値プーリングを実行して、特徴ベクトル
を生成する。

イベント・カテゴリ分類器（たとえば、図３の３３０に示す）は、ｏ_ａｖを入力として、イベント・カテゴリ・スコア
を予測する。
ここで、Ｗ_ｃは学習されるパラメータ行列である。

推論段階では、最終的な予測は
および
によって決定される。
の場合、ｔ番目のセグメントはイベントに関連すると予測され、イベント・カテゴリは
に従う。
の場合、ｔ番目のセグメントは背景として予測される。

トレーニングでは、本システムまたは方法あるいはその両方は、イベント関連ラベルおよびイベント・カテゴリ・ラベルを含むセグメント・レベルのラベルを有することができる。全体的な目的関数は、イベント分類のクロス・エントロピー損失と、イベント関連予測のバイナリ・クロス・エントロピー損失との和である。

弱教師あり位置特定
弱教師あり方式では、本方法またはシステムあるいはその両方は、上述のように
および
を予測することもできる。一態様では、本方法またはシステムあるいはその両方は、ビデオ・レベルのラベルにしかアクセスできない場合があるので、本方法またはシステムあるいはその両方は、
をＴ回複製し、
をＣ回複製し、次いでこれらを要素ごとの乗算により融合して、統合スコア
を生成し得る。一実施形態では、本方法またはシステムあるいはその両方は、この問題をマルチ・インスタンス学習（ＭＩＬ：multiple instance learning）問題として定式化し、セグメント・レベルの予測
を集約して、トレーニング中にＭＩＬプーリングによりビデオ・レベルの予測を取得し得る。推論中、一実施形態では、予測プロセスは教師ありタスクのものと同じにすることができる。

例として、トレーニング設定は、関係認識モジュールにおける隠れ次元ｄｍを２５６に設定することを含み得る。関係認識モジュールにおけるＣＭＲＡおよびセルフ・アテンションについて、本システムまたは方法あるいはその両方は、並列ヘッドの数を４に設定し得る。バッチ・サイズは３２である。一例として、本方法またはシステムあるいはその両方は、Ａｄａｍをオプティマイザとして適用して、トレーニング・データに基づいてニューラル・ネットワークの重みを反復的に更新し得る。一例として、本方法またはシステムあるいはその両方は、初期学習を５×１０^－４に設定し、エポック１０、２０、および３０で０．５を乗算して徐々にこれを減衰させ得る。他のオプティマイザを使用することができる。

図６は、一実施形態における本方法またはシステムあるいはその両方によって出力された位置特定結果の例を示している。本方法またはシステムあるいはその両方は、各セグメントのイベント・カテゴリを（たとえば、背景（ＢＧ：background）または猫の叫び声として）正しく予測し、ひいては猫の叫び声のイベントの位置を正確に特定している。

図７は、一実施形態におけるオーディオ・ビジュアル・イベント位置特定のための方法を示すフロー図である。本明細書に記載のデュアル・モダリティ関係ネットワークは、実施形態において、オーディオ・ビジュアル・イベントの位置特定を実行することができる。この方法は、ハードウェア・プロセッサなどの１つまたは複数のプロセッサによって、またはその上で動作させるまたは実行することができる。７０２において、この方法は、オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることを含む。７０４において、この方法は、ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによってビデオ・フィード内の有益な特徴および領域を決定することを含む。たとえば、第１のニューラル・ネットワークを含むことができるオーディオ・ガイド付きビジュアル・アテンション・モジュールを動作させることができる。

７０６において、この方法は、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することを含む。７０８において、第１のニューラル・ネットワークによって決定されたビデオ・フィード内の有益な特徴および領域に基づいて、この方法は、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することを含むことができる。たとえば、モダリティ内モジュールおよびモダリティ間モジュール（たとえば、図２の２１４、２１６、２１８および２２０を参照して上述したもの）を実装するか、または動作させるか、あるいはその両方を行うことができる。実施形態では、第２のニューラル・ネットワークは、関係認識ビデオ特徴を決定する際に、ビデオ特徴における時間的情報と、ビデオ特徴およびオーディオ特徴の間のクロス・モダリティ情報との両方を取得する。実施形態では、第３のニューラル・ネットワークは、関係認識オーディオ特徴を決定する際に、オーディオ特徴における時間的情報と、ビデオ特徴およびオーディオ特徴の間のクロス・モダリティ情報との両方を取得する。

７１０において、この方法は、第４のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴および関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することを含む。たとえば、オーディオ－ビデオ相互作用モジュール（たとえば、２２６を参照して上述したもの）を実装するか、または動作させるか、あるいはその両方を行うことができる。

７１２において、この方法は、デュアル・モダリティ表現を分類器に入力してビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することを含む。一実施形態では、デュアル・モダリティ表現は、オーディオ・ビジュアル・イベントを識別する際に分類器の最後の層として使用される。分類器がビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することは、オーディオ・ビジュアル・イベントが発生しているビデオ・フィード内の位置と、オーディオ・ビジュアル・イベントのカテゴリとを識別することを含むことができる。

一実施形態では、ビデオ特徴を抽出するためにビデオ・フィードの少なくともビデオ部分を用いて畳み込みニューラル・ネットワーク（たとえば、説明のために第１の畳み込みニューラル・ネットワークと呼ぶもの）を動作させることができる。一実施形態では、オーディオ特徴を抽出するためにビデオ・フィードの少なくともオーディオ部分を用いて畳み込みニューラル・ネットワーク（たとえば、説明のために第２の畳み込みニューラル・ネットワークと呼ぶもの）を動作させることができる。

図８は、オーディオ・ビジュアル・イベント位置特定のためのデュアル・モダリティ関係ネットワークを実装することができる、一実施形態におけるシステムのコンポーネントを示す図である。中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）、および／またはフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、ならびに／あるいは他のプロセッサなどの１つまたは複数のハードウェア・プロセッサ８０２は、メモリ・デバイス８０４と結合され、デュアル・モダリティ関係ネットワークを実装し、オーディオ・ビジュアル・イベント位置特定を実行し得る。メモリ・デバイス８０４は、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、または他のメモリ・デバイスを含み得、本明細書に記載の方法またはシステムあるいはその両方に関連する様々な機能を実装するためのデータまたはプロセッサ命令あるいはその両方を記憶し得る。１つまたは複数のプロセッサ８０２は、メモリ８０４に記憶された、または他のコンピュータ・デバイスもしくは媒体から受け取ったコンピュータ命令を実行し得る。メモリ・デバイス８０４は、たとえば、１つまたは複数のハードウェア・プロセッサ８０２が機能するための命令もしくはデータまたはその両方を記憶し得、オペレーティング・システムと、他の命令プログラムもしくはデータまたはその両方とを含み得る。１つまたは複数のハードウェア・プロセッサ８０２は、ビデオ・フィードを含む入力を受け取り得、たとえば、そこからビデオおよびオーディオ特徴を抽出することができる。たとえば、少なくとも１つのハードウェア・プロセッサ８０２は、本明細書に記載の方法および技術を使用してオーディオ・ビジュアル・イベント位置特定を実行し得る。一態様では、入力データまたは中間データあるいはその両方などのデータは、ストレージ・デバイス８０６に記憶されるか、またはネットワーク・インターフェース８０８を介してリモート・デバイスから受信され、デュアル・モダリティ関係ネットワークを実装し、オーディオ・ビジュアル・イベント位置特定を実行するためにメモリ・デバイス８０４に一時的にロードされ得る。デュアル・モダリティ関係ネットワークにおけるニューラル・ネットワーク・モデルなどの学習モデルは、たとえば１つまたは複数のハードウェア・プロセッサ８０２による実行のために、メモリ・デバイス８０４に記憶することができる。１つまたは複数のハードウェア・プロセッサ８０２は、ネットワークなどを介してリモート・システムと通信するためのネットワーク・インターフェース８０８などのインターフェース・デバイスと、キーボード、マウス、ディスプレイ、もしくはその他、またはそれらの組み合わせなどの、入力もしくは出力またはその両方のデバイスと通信するための入力／出力インターフェース８１０とに結合され得る。

図９に、一実施形態におけるデュアル・モダリティ関係ネットワーク・システムを実装し得る例示的なコンピュータまたは処理システムの概略図を示す。コンピュータ・システムは、適切な処理システムの単なる一例にすぎず、本明細書に記載の方法の実施形態の使用または機能の範囲に関するいかなる制限も示唆することを意図したものではない。図示した処理システムは、他の多くの汎用または専用のコンピューティング・システム環境または構成で動作し得る。図９に示す処理システムでの使用に適し得るよく知られているコンピューティング・システム、環境、もしくは構成、またはそれらの組み合わせの例には、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドもしくはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサベースのシステム、セット・トップ・ボックス、プログラム可能な家庭用電化製品、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記のシステムもしくはデバイスのいずれか含む分散クラウド・コンピューティング環境などが含まれるが、これらに限定されない。

コンピュータ・システムは、コンピュータ・システムによって実行されるプログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的なコンテキストで記述され得る。一般に、プログラム・モジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含み得る。コンピュータ・システムは、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散型クラウド・コンピューティング環境で実施され得る。分散型クラウド・コンピューティング環境では、プログラム・モジュールは、メモリ・ストレージ・デバイスを含むローカルおよびリモート両方のコンピュータ・システム記憶媒体に配置され得る。

コンピュータ・システムのコンポーネントは、１つまたは複数のプロセッサまたは処理ユニット１２と、システム・メモリ１６と、システム・メモリ１６を含む様々なシステム・コンポーネントをプロセッサ１２に結合するバス１４と、を含み得るが、これらに限定されない。プロセッサ１２は、本明細書に記載の方法を実行する１つまたは複数のモジュール３０を含み得る。モジュール３０は、プロセッサ１２の集積回路にプログラムされ、あるいはメモリ１６、ストレージ・デバイス１８、もしくはネットワーク２４、またはそれらの組み合わせからロードされ得る。

バス１４は、メモリバスまたはメモリ・コントローラ、ペリフェラル・バス、アクセラレーテッド・グラフィックス・ポート、および様々なバス・アーキテクチャのいずれかを使用するプロセッサまたはローカル・バスを含む、いくつかのタイプのバス構造のうちのいずれかの１つまたは複数を表し得る。限定ではなく例として、そのようなアーキテクチャには、業界標準アーキテクチャ（ＩＳＡ：Industry Standard Architecture）バス、マイクロ・チャンネル・アーキテクチャ（ＭＣＡ：Micro Channel Architecture）バス、拡張ＩＳＡ（ＥＩＳＡ：EnhancedISA）バス、ビデオ・エレクトロニクス規格協会（ＶＥＳＡ：Video ElectronicsStandards Association）ローカル・バス、および周辺機器相互接続（ＰＣＩ：PeripheralComponent Interconnects）バスが含まれる。

コンピュータ・システムは、様々なコンピュータ・システム可読媒体を含み得る。そのような媒体は、コンピュータ・システムによってアクセス可能な任意の利用可能な媒体であり得、揮発性および不揮発性の媒体、取り外し可能および取り外し不可能な媒体の両方を含み得る。

システム・メモリ１６は、ランダム・アクセス・メモリ（ＲＡＭ）および／またはキャッシュメモリもしくはその他などの、揮発性メモリの形態のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システムは、他の取り外し可能／取り外し不可能な、揮発性／不揮発性のコンピュータ・システム記憶媒体をさらに含み得る。単なる例として、ストレージ・システム１８は、取り外し不可能な不揮発性の磁気媒体（たとえば、「ハードドライブ」）に読み書きするために設けることができる。図示していないが、取り外し可能な不揮発性の磁気ディスク（たとえば、「フロッピー（Ｒ）・ディスク」）に読み書きするための磁気ディスク・ドライブと、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、または他の光学メディアなどの取り外し可能な不揮発性の光学ディスクに読み書きするための光学ディスク・ドライブと、を設けることができる。そのような例では、それぞれを、１つまたは複数のデータ・メディア・インターフェースによってバス１４に接続することができる。

コンピュータ・システムはまた、キーボード、ポインティング・デバイス、ディスプレイ２８などの１つまたは複数の外部デバイス２６、ユーザがコンピュータ・システムとやりとりすることを可能にする１つまたは複数のデバイス、またはコンピュータ・システムが１つまたは複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス（たとえば、ネットワーク・カード、モデムなど）、あるいはそれらの組み合わせと通信し得る。そのような通信は、入力／出力（Ｉ／Ｏ）インターフェース２０を介して行うことができる。

またさらに、コンピュータ・システムは、ネットワーク・アダプタ２２を介して、ローカル・エリア・ネットワーク（ＬＡＮ）、一般的なワイド・エリア・ネットワーク（ＷＡＮ）、もしくはパブリック・ネットワーク（たとえば、インターネット）、またはそれらの組み合わせなどの、１つまたは複数のネットワーク２４と通信することができる。図示のように、ネットワーク・アダプタ２２は、バス１４を介してコンピュータ・システムの他のコンポーネントと通信する。図示していないが、他のハードウェアもしくはソフトウェアまたはその両方のコンポーネントを、コンピュータ・システムと併用できることを理解されたい。例には、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、およびデータ・アーカイブ・ストレージ・システムなどが含まれるが、これらに限定されない。

本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組み合わせであり得る。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体（または複数の媒体）を含み得る。

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のために命令を保持および記憶可能な有形のデバイスとすることができる。コンピュータ可読記憶媒体は、たとえば、限定はしないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組み合わせであり得る。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリー・スティック（Ｒ）、フロッピー（Ｒ）・ディスク、命令が記録されたパンチ・カードまたは溝の隆起構造などの機械的にコード化されたデバイス、およびこれらの任意の適切な組み合わせが含まれる。コンピュータ可読記憶媒体は、本明細書で使用する場合、たとえば、電波または他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を伝搬する電磁波（たとえば、光ファイバ・ケーブルを通過する光パルス）、または有線で伝送される電気信号などの一過性の信号自体であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、あるいは、たとえば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくは無線ネットワーク、またはそれらの組み合わせなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組み合わせを含み得る。各コンピューティング／処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、あるいは、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または類似のプログラミング言語などの手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組み合わせで書かれたソース・コードまたはオブジェクト・コードであり得る。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、あるいは完全にリモート・コンピュータまたはサーバ上で実行され得る。最後のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され、または（たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータへの接続がなされる。いくつかの実施形態では、たとえば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用してコンピュータ可読プログラム命令を実行することによって、電子回路を個人向けにし得る。

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して本明細書で説明している。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装できることは理解されよう。

これらのコンピュータ可読プログラム命令を、コンピュータまたは他のプログラム可能データ処理装置のプロセッサに提供して、それらの命令がコンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行された場合に、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／行為を実装するための手段が生成されるようなマシンを生成し得る。また、これらのコンピュータ可読プログラム命令を、コンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはそれらの組み合わせに特定の方法で機能するように指示することが可能なコンピュータ可読記憶媒体に記憶して、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／行為の態様を実装する命令を含む製造品を構成するようにし得る。

また、コンピュータ可読プログラム命令をコンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードして、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップを実行させることによって、それらの命令がコンピュータ、他のプログラム可能装置、または他のデバイス上で実行された場合に、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／行為が実装されるようなコンピュータ実装処理を生成し得る。

図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理的機能を実装するための１つまたは複数の実行可能命令を含むモジュール、セグメント、または命令の一部を表し得る。いくつかの代替的実装形態では、ブロックに記載した機能は、図示した順序以外で行われ得る。たとえば、関与する機能に応じて、連続して示した２つのブロックは、実際には、１つのステップとして実現され、同時に、実質的に同時に、部分的にまたは完全に時間的に重なるように実行され、またはそれらのブロックは、場合により逆の順序で実行され得る。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組み合わせは、指定された機能もしくは行為を実行するか、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用のハードウェア・ベースのシステムによって実装できることにも気付くであろう。

本明細書で使用する用語は、特定の実施形態を説明するためのものにすぎず、本発明を限定するものではない。本明細書で使用する場合、単数形「ａ」、「ａｎ」および「ｔｈｅ」は、文脈が明確に別段の指示をしない限り、複数形も含むものとする。本明細書で使用する場合、「または（ｏｒ）」という用語は包括的な演算子（inclusive operator）であり、文脈が明示的にまたは明確に別段の指示をしない限り、「および／または（and/or）」を意味することができる。本明細書で使用する場合、用語「備える（comprise）」、「備える（comprises）」、「備える（comprising）」、「含む（include）」、「含む（includes）」、「含む（including）」、または「有する（having）」、あるいはそれらの組み合わせは、記述した特徴、整数、ステップ、動作、要素、または構成要素、あるいはそれらの組み合わせの存在を示し得るが、１つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、またはそれらのグループ、あるいはそれらの組み合わせの存在または追加を排除するものではないということはさらに理解されよう。本明細書で使用する場合、「一実施形態では（in an embodiment）」という語句は、必ずしも同じ実施形態を指すとは限らないが、そうである場合もある。本明細書で使用する場合、「一実施形態では（in one embodiment）」という語句は、必ずしも同じ実施形態を指すとは限らないが、そうである場合もある。本明細書で使用する場合、「他の実施形態では（in another embodiment）」という語句は、必ずしも異なる実施形態を指すとは限らないが、そうである場合もある。さらに、実施形態または実施形態の構成要素あるいはその両方は、相互に排他的でない限り、互いに自由に組み合わせることができる。

もしあれば、以下の特許請求の範囲における全てのミーンズまたはステップ・プラス・ファンクション要素の対応する構造、材料、行為、および均等物は、明確に特許請求した他の特許請求要素と組み合わせて機能を実行するための任意の構造、材料、または行為を含むものとする。本発明の説明は、例示および説明の目的で提示しているが、網羅的であることも、開示した形態の発明に限定されることも意図したものではない。本発明の範囲から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本発明の原理および実際の応用を最もよく説明し、企図した特定の用途に適した様々な修正を有する様々な実施形態について本発明を当業者が理解できるようにするために、実施形態を選び、説明している。

Claims

ハードウェア・プロセッサと、
前記ハードウェア・プロセッサに結合されたメモリと、
を備え、
前記ハードウェア・プロセッサは、
オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることと、
前記ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによって前記ビデオ・フィード内の有益な特徴および領域を決定することと、
前記第１のニューラル・ネットワークによって決定された前記ビデオ・フィード内の前記有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することと、
前記第１のニューラル・ネットワークによって決定された前記ビデオ・フィード内の前記有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することと、
第４のニューラル・ネットワークを動作させることによって前記関係認識ビデオ特徴および前記関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することと、
前記デュアル・モダリティ表現を分類器に入力して前記ビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することと、
を実行するように構成される、システム。
前記ハードウェア・プロセッサは、前記ビデオ特徴を抽出するために前記ビデオ・フィードの少なくともビデオ部分を用いて第１の畳み込みニューラル・ネットワークを動作させるようにさらに構成される、請求項１に記載のシステム。
前記ハードウェア・プロセッサは、前記オーディオ特徴を抽出するために前記ビデオ・フィードの少なくともオーディオ部分を用いて第２の畳み込みニューラル・ネットワークを動作させるようにさらに構成される、請求項１に記載のシステム。
前記デュアル・モダリティ表現は、前記オーディオ・ビジュアル・イベントを識別する際に前記分類器の最後の層として使用される、請求項１に記載のシステム。
前記分類器が前記ビデオ・フィード内の前記オーディオ・ビジュアル・イベントを識別することは、前記オーディオ・ビジュアル・イベントが発生している前記ビデオ・フィード内の位置と、前記オーディオ・ビジュアル・イベントのカテゴリとを識別することを含む、請求項１に記載のシステム。
前記第２のニューラル・ネットワークは、前記関係認識ビデオ特徴を決定する際に、前記ビデオ特徴における時間的情報と、前記ビデオ特徴および前記オーディオ特徴の間のクロス・モダリティ情報との両方を取得する、請求項１に記載のシステム。
前記第３のニューラル・ネットワークは、前記関係認識オーディオ特徴を決定する際に、前記オーディオ特徴における時間的情報と、前記ビデオ特徴および前記オーディオ特徴の間のクロス・モダリティ情報との両方を取得する、請求項１に記載のシステム。
オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることと、
前記ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによって前記ビデオ・フィード内の有益な特徴および領域を決定することと、
前記第１のニューラル・ネットワークによって決定された前記ビデオ・フィード内の前記有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することと、
前記第１のニューラル・ネットワークによって決定された前記ビデオ・フィード内の前記有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することと、
第４のニューラル・ネットワークを動作させることによって前記関係認識ビデオ特徴および前記関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することと、
前記デュアル・モダリティ表現を分類器に入力して前記ビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することと、
を含む、コンピュータ実装方法。
前記ビデオ特徴を抽出するために前記ビデオ・フィードの少なくともビデオ部分を用いて第１の畳み込みニューラル・ネットワークを動作させることをさらに含む、請求項８に記載の方法。
前記オーディオ特徴を抽出するために前記ビデオ・フィードの少なくともオーディオ部分を用いて第２の畳み込みニューラル・ネットワークを動作させることをさらに含む、請求項８に記載の方法。
前記デュアル・モダリティ表現は、前記オーディオ・ビジュアル・イベントを識別する際に前記分類器の最後の層として使用される、請求項８に記載の方法。
前記分類器が前記ビデオ・フィード内の前記オーディオ・ビジュアル・イベントを識別することは、前記オーディオ・ビジュアル・イベントが発生している前記ビデオ・フィード内の位置と、前記オーディオ・ビジュアル・イベントのカテゴリとを識別することを含む、請求項８に記載の方法。
前記第２のニューラル・ネットワークは、前記関係認識ビデオ特徴を決定する際に、前記ビデオ特徴における時間的情報と、前記ビデオ特徴および前記オーディオ特徴の間のクロス・モダリティ情報との両方を取得する、請求項８に記載の方法。
前記第３のニューラル・ネットワークは、前記関係認識オーディオ特徴を決定する際に、前記オーディオ特徴における時間的情報と、前記ビデオ特徴および前記オーディオ特徴の間のクロス・モダリティ情報との両方を取得する、請求項８に記載の方法。
プログラム命令を具現化するコンピュータ可読記憶媒体を備えるコンピュータ・プログラム製品であって、前記プログラム命令はデバイスによって読み取り可能／実行可能であり、前記デバイスに、
オーディオ・ビジュアル・イベント位置特定のためのビデオ・フィードを受け取ることと、
前記ビデオ・フィードの抽出されたオーディオ特徴およびビデオ特徴の組み合わせに基づいて、第１のニューラル・ネットワークを動作させることによって前記ビデオ・フィード内の有益な特徴および領域を決定することと、
前記第１のニューラル・ネットワークによって決定された前記ビデオ・フィード内の前記有益な特徴および領域に基づいて、第２のニューラル・ネットワークを動作させることによって関係認識ビデオ特徴を決定することと、
前記第１のニューラル・ネットワークによって決定された前記ビデオ・フィード内の前記有益な特徴および領域に基づいて、第３のニューラル・ネットワークを動作させることによって関係認識オーディオ特徴を決定することと、
第４のニューラル・ネットワークを動作させることによって前記関係認識ビデオ特徴および前記関係認識オーディオ特徴に基づいてデュアル・モダリティ表現を取得することと、
前記デュアル・モダリティ表現を分類器に入力して前記ビデオ・フィード内のオーディオ・ビジュアル・イベントを識別することと、
を実行させる、コンピュータ・プログラム製品。
前記デバイスはさらに、前記ビデオ特徴を抽出するために前記ビデオ・フィードの少なくともビデオ部分を用いて第１の畳み込みニューラル・ネットワークを動作させられる、請求項１５に記載のコンピュータ・プログラム製品。
前記デバイスはさらに、前記オーディオ特徴を抽出するために前記ビデオ・フィードの少なくともオーディオ部分を用いて第２の畳み込みニューラル・ネットワークを動作させられる、請求項１５に記載のコンピュータ・プログラム製品。
前記デュアル・モダリティ表現は、前記オーディオ・ビジュアル・イベントを識別する際に前記分類器の最後の層として使用される、請求項１５に記載のコンピュータ・プログラム製品。
前記分類器が前記ビデオ・フィード内の前記オーディオ・ビジュアル・イベントを識別することは、前記オーディオ・ビジュアル・イベントが発生している前記ビデオ・フィード内の位置と、前記オーディオ・ビジュアル・イベントのカテゴリとを識別することを含む、請求項１５に記載のコンピュータ・プログラム製品。
前記第２のニューラル・ネットワークは、前記関係認識ビデオ特徴を決定する際に、前記ビデオ特徴における時間的情報と、前記ビデオ特徴および前記オーディオ特徴の間のクロス・モダリティ情報との両方を取得し、前記第３のニューラル・ネットワークは、前記関係認識オーディオ特徴を決定する際に、前記オーディオ特徴における時間的情報と、前記ビデオ特徴および前記オーディオ特徴の間の前記クロス・モダリティ情報との両方を取得する、請求項１５に記載のコンピュータ・プログラム製品。