JP7464730B2 - ビデオ情報に基づく空間オーディオ拡張 - Google Patents

ビデオ情報に基づく空間オーディオ拡張 Download PDF

Info

Publication number
JP7464730B2
JP7464730B2 JP2022547129A JP2022547129A JP7464730B2 JP 7464730 B2 JP7464730 B2 JP 7464730B2 JP 2022547129 A JP2022547129 A JP 2022547129A JP 2022547129 A JP2022547129 A JP 2022547129A JP 7464730 B2 JP7464730 B2 JP 7464730B2
Authority
JP
Japan
Prior art keywords
audio
auditory
video frame
auditory event
audio segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022547129A
Other languages
English (en)
Other versions
JP2023514121A (ja
Inventor
マーシン・ゴーゼル
バリニードゥ・アドスミリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2023514121A publication Critical patent/JP2023514121A/ja
Application granted granted Critical
Publication of JP7464730B2 publication Critical patent/JP7464730B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Image Analysis (AREA)

Description

本開示は、空間オーディオに関し、より詳細には、非空間化オーディオレコーディングから空間オーディオ情報を取得することに関する。
生活の中で、典型的な設定(たとえば、シーン)は、複数の異なる聴覚イベントを含む。聴覚イベントは、音源(すなわち、音のプロデューサまたはジェネレータ)および方向(すなわち、音が聞こえる方向)を有する音と考えることができる。拡散音は特定の方向からは始まらない。
聴覚イベントは、スピーチ、音楽、および楽器(たとえば、ピアノ、バイオリン、コンサート、チェロなど)、自然音(たとえば、雨、風、雷など)、人間の感情(たとえば、泣く、笑う、歓声など)、動物の発声(たとえば、咆哮、泣き声など)、他のアーティファクト(たとえば、爆発、車、およびドアベルなど)などを含むことができる。
典型的な設定のビデオレコーディングは、設定の聴覚イベントのすべて(または、少なくともほとんど)を含む。ビデオレコーディングは、単純なハンドヘルドモバイルデバイス(たとえば、スマートフォン)から高度なレコーディング装置(たとえば、球面カメラまたは360°カメラ)まで、任意の数のレコーディングデバイスを使用して取得され得る。いくつかのレコーディングデバイスは、空間オーディオ情報(たとえば、レコーディングに含まれるオーディオイベントの方向および/または位置)をキャプチャできない場合がある。
"Multichannel sound technology in home and broadcasting applications," ITU-R BS.2159.4, [2019年12月27日に取得](インターネット<URL https://www.itu.int/dms_pub/itu-r/opb/rep/R-REP-BS.2159-4-2012-PDF-E.pdf>から取得) http://cloud.google.com/vision
ある設定のレコーディングが、実際の生活においてその設定が聞こえた(たとえば、経験した)であろうあり方を模倣するようなあり方で再生され得るように、空間オーディオ情報を含まないレコーディングについて、空間オーディオ情報が導出される(たとえば、抽出される、識別されるなど)ことが望ましい。
本明細書に開示されているのは、ビデオ情報に基づく空間オーディオ拡張の実装形態である。
本明細書で説明する第1の例には、空間情報をオーディオセグメントに割り当てる方法がある。本方法は、非空間化されており、第1のビデオフレームに関連付けられている、第1のオーディオセグメントを受信するステップと、第1のビデオフレームにおいて視覚オブジェクトを識別するステップと、第1のオーディオセグメントにおいて聴覚イベントを識別するステップと、視覚オブジェクトのうちのある視覚オブジェクトと聴覚イベントのうちのある聴覚イベントとの間の一致を識別するステップと、前記ある視覚オブジェクトの位置に基づいて、空間的位置を前記ある聴覚イベントに割り当てるステップとを含む。
本方法は、一致しない聴覚イベントを識別するステップをさらに含み得る。一致しない聴覚イベントとは、第1のビデオフレームにおいて識別された視覚オブジェクトと一致しない聴覚イベントである。一致しない聴覚イベントは、ユーザインターフェースにおいて提示され得る。
本方法は、ユーザから、第1のビデオフレームにおいて識別された視覚オブジェクトのうちの別の視覚オブジェクトへの一致しない聴覚イベントの割当てを受信するステップを含み得る。本方法は、ユーザから、一致しない聴覚イベントを拡散音として割り当てるための指示を受信するステップを含み得る。本方法は、ユーザから、一致しない聴覚イベントを指向性音として割り当てるための指示、および一致しない聴覚イベントの空間方向を受信するステップを含み得る。
第1のビデオフレームは、全天球ビデオ(spherical video)のフレームであり得る。
第1のオーディオセグメントはモノラルであり得る。
第1のオーディオセグメントにおける聴覚イベントを識別するステップは、第1のオーディオセグメントを複数のトラックに分解することによって第1のオーディオセグメントにおける聴覚イベントを識別するために、ブラインド音源分離を使用するステップであって、各トラックがそれぞれの聴覚イベントに対応する、ステップを含み得る。
第1のビデオフレームにおける視覚オブジェクトを識別するステップは、第1のビデオフレームにおける視覚オブジェクトを識別するために、画像認識を使用するステップを備え得る。
本方法は、聴覚イベントのうちのある聴覚イベント、およびある聴覚イベントの空間的位置を備えるオーディオ出力を生成するステップをさらに含み得る。
本方法は、第2のオーディオセグメントを受信するステップであって、第2のオーディオセグメントが聴覚イベントを含む、ステップを含み得る。第2のビデオフレームが受信されてもよく、第2のビデオフレームは視覚オブジェクトを含まない。本方法は、第1のビデオフレームの少なくともサブセットに少なくとも部分的に基づいて視覚オブジェクトの動きベクトルを決定するステップと、動きベクトルに基づいて、周囲空間的位置を聴覚イベントのうちのある聴覚イベントに割り当てるステップとを含み得る。
本方法は、第2のオーディオセグメントを受信するステップであって、第2のオーディオセグメントが聴覚イベントを含む、ステップを含み得る。第2のビデオフレームが受信されてもよく、第2のビデオフレームは視覚オブジェクトを含まない。本方法は、第1のビデオフレームと第2のビデオフレームとの間の時間差に基づいて、周囲空間的位置または拡散位置のうちの1つを聴覚イベントに割り当てるステップを含み得る。
本明細書で説明される第2の例では、空間情報をビデオ内のオーディオイベントに割り当てる方法がある。本方法は、オーディオトラックとビデオフレームを取得するためにビデオを逆多重化するステップと、それぞれの視覚ラベルをビデオフレーム内の視覚オブジェクトに割り当てるステップと、オーディオトラックを複数のトラックに分割するステップと、それぞれのオーディオラベルを複数のトラックに割り当てるステップと、それぞれのオーディオラベルのうちのいくつかを視覚ラベルのうちのいくつかに自動的に一致させるステップと、視覚オブジェクトのうちのいくつかのそれぞれの位置に基づいて、それぞれの空間的位置をそれぞれのオーディオラベルのうちのいくつかに割り当てるステップとを含む。
本方法は、一致しないオーディオラベルに対応する残留トラックを識別するステップと、ユーザに、ディスプレイにおいて残留トラックを表示するステップとをさらに含み得る。
本方法は、残留トラックのうちのある残留トラックの拡散音場への第1の割当て、ビデオフレームの任意の空間的位置への前記ある残留トラックの第2の割当て、周囲音としての前記ある残留トラックの第3の割当て、または、ビデオフレーム内の視覚オブジェクトへの前記ある残留トラックの第4の割当てのうちの少なくとも1つを、ユーザから受信するステップをさらに備え得る。
本明細書で説明される第3の例では、空間情報をオーディオセグメントに割り当てるための方法がある。本方法は、非空間化されており、第1のビデオフレームに関連付けられている、第1のオーディオセグメントを受信するステップと、第1のビデオフレームにおいて視覚オブジェクトを識別するステップと、第1のオーディオセグメントにおいて聴覚イベントを識別するステップと、視覚オブジェクトのうちのある視覚オブジェクトと聴覚イベントのうちのある聴覚イベントとの間の一致を識別するステップに応答して、空間情報を前記あるイベントに割り当てるステップと、一致を識別しないステップに応答して、前記ある聴覚イベントを拡散音場に割り当てるステップとを含む。
空間情報を聴覚イベントに割り当てるステップは、視覚オブジェクトの位置に基づいて、空間的位置を聴覚イベントに割り当てるステップを備え得る。
空間的位置は、視覚オブジェクトの境界ポリゴンの中心に対応し得る。
本方法は、聴覚イベントと聴覚イベントの空間的位置とを含むオーディオファイルを生成するステップを含み得る。
本方法は、聴覚イベントと聴覚イベントに関連する拡散音情報とを含むオーディオファイルを生成するステップを含み得る。
本明細書に記載の第4の例によれば、上記の例のいずれかの方法を実行するように構成されたプロセッサを備える装置がある。
本開示のこれらおよび他の態様は、実施形態の以下の詳細な説明、添付の特許請求の範囲、および添付の図面に開示されている。
本開示は、添付の図面と併せて読むと、以下の詳細な説明から最もよく理解される。一般的な慣行に従って、図面の様々な特徴は原寸に比例していないことが強調される。むしろ、明確にするために、様々な機能の寸法が任意に拡大または縮小される。
本開示の実装形態による、オーディオ情報を空間化するための装置またはシステムの例を示す図である。 本開示の実装形態による、オーディオを空間化するための技法の例のフローチャートである。 本開示の実装形態による、オーディオ分類のための技法の例のフローチャートである。 本開示の実装形態による、視覚的分類のための技法の例のフローチャートである。 本開示の実装形態による、オーディオオブジェクトと視覚オブジェクトを一致するための技法の例のフローチャートである。 音源分類情報を示すユーザインターフェースの例を示す図である。 オブジェクト認識装置の出力の例を示す図である。 本開示の実装形態による、ビデオ情報に基づく空間オーディオ拡張のための技法のフローチャートの例を示す図である。 空間情報をオーディオセグメントに割り当てるための技法の例のフローチャートである。 空間情報をオーディオセグメントに割り当てるための技法の別の例のフローチャートである。 空間情報をオーディオセグメントに割り当てるための技法のさらに別の例のフローチャートである。
シーンの一部のビデオレコーディングは、聴覚イベントの空間オーディオ情報を含むことができる。たとえば、全天球ビデオにおいては、聴覚イベントは通常、視覚オブジェクトまたは聴覚イベントを製作する(たとえば、生成する)イベントに対応する方向から発生する。高解像度および/または高精度の空間オーディオ表現は、いくつかの利用可能な手法のうちの1つを使用して実現することができる。そのような手法の例は、オブジェクトベース、チャネルベース、およびシーンベースの手法を含む。
オブジェクトベースの手法において、各オーディオイベントは、(パラメータの中でも特に)イベントの空間的位置を指定するメタデータとともに、オーディオデータ(たとえば、モノラルオーディオレコーディングなど)を使用してオブジェクトとして表すことができる。チャネルベースの手法においては、選択された時間/強度ベースのパンニング法則を使用して、(最も一般的には)水平のみ、または(あまり一般的ではないが)高さのあるスピーカ構成のスピーカのグループ(たとえば、2つまたは3つのスピーカ)間で、多数のオーディオイベントを計画することができる。シーンベースの手法においては、任意の数のオーディオイベントから生じる無限の解像度の音場を、最終的な空間解像度に切り捨てて、有限の数の基底関数で表すことができる。たとえば、高次アンビソニックス(Higher Order Ambisonics、HOA)は、聞き手の周りの球上の有限解像度の音圧分布を表すために、球面調和関数を基底関数として使用する。この手法は、チャネルベースの手法に固有の最終的な再生設定から音場表現を切り離す。
上記の手法の各々は、空間オーディオコンテンツのキャプチャ、製作、記憶、および/または再生のうちの少なくとも1つに関連付けられる特定の欠点があり得る。
たとえば、オブジェクトベースの手法においては、各オーディオイベントを個別にキャプチャして記憶するのが理想的である。キャプチャは、個々のイベントをスポットレコーディングし、ポストプロダクション中に空間プロパティを聴覚イベントに割り当てることと同等であり得る。オブジェクトベースのオーディオは、最終的な再生段階から切り離されており、各オブジェクトが個別に空間化される必要があり、それによって再生の複雑さが高くなる。
たとえば、チャネルベースの手法においては、専用のマルチマイク設定を用いてオーディオをレコーディングすることができ、または、スポットレコーディングを使用することができる。スポットレコーディングの場合、すべてのオーディオイベントは、"Multichannel sound technology in home and broadcasting applications," ITU-R BS.2159.4, [2019年12月27日に取得](インターネット<URL https://www.itu.int/dms_pub/itu-r/opb/rep/R-REP-BS.2159-4-2012-PDF-E.pdf>から取得)において説明されているように、専用のチャネルフォーマットに事前にミキシングすることができる。ストレージコストは使用するチャネルの数によって制限され、レンダリングの複雑さは低くなるが、空間解像度もまた、所与の空間領域におけるスピーカの物理的な可用性によって制限される可能性がある。さらに、特定のスピーカ設定用にミックスされたコンテンツは、通常、他のスピーカ設定と互換性がない可能性がある。
たとえば、アンビソニックス(オーディオをキャプチャ、記憶、および再生するための漸近ホロフォニクス技法)を使用するなどのシーンベースの手法においては、符号化された音場の空間解像度は、音場の球面調和関数展開が無限大に近づくにつれて、元の音場の解像度と一致する可能性がある。しかしながら、音場のキャプチャ、記憶、および再生のコストは、所望の空間解像度(たとえば、スケーラブルな空間解像度)によって異なる可能性がある。たとえば、一次アンビソニックス(FOA)は4つの係数(すなわち、オーディオのチャネル)を必要とする。高解像度の音場表現(たとえば、HOA)は、9、16、またはそれ以上の係数(すなわち、オーディオのチャネル)を必要とする。
キャプチャの観点から、FOAは必要なチャネル数が少ないため、広くアクセス可能である。たとえば、FOAでは4つのチャネルのマイクアレイが一般的である。HOAのキャプチャはより困難であり、HOA球面アレイの従来技術のキャプチャでは、32個のオーディオのチャネルを使用する可能性がある。
製作の観点から、スポットレコーディング(たとえば、モノラルレコーディング)からのオーディオイベントは、FOA/HOA表現に符号化することができ(オブジェクトベースおよびチャネルベースの手法と同様に)、ここで、時間/強度ベースのパンニング法則の代わりに、アンビソニックスエンコーダを使用することができる。したがって、ストレージコストは、選択した音場の解像度に依存する可能性がある。
上記のように、シーンの一部のビデオレコーディングは、空間オーディオ情報を含まない場合がある。そのようなレコーディングは、本明細書ではモノラルレコーディングと呼ばれ、単一のマイクを使用して、またはスマートフォンなどのハンドヘルドデバイスを使用してキャプチャされ得る。モノラルレコーディングは、特にカジュアルなビデオプロデューサまたはプロシューマの間で一般的である。モノラルレコーディングには、より複雑なチャネルベースまたはシーンベース設定の機器制限はない。
上記の手法とは対照的に、モノラルレコーディングには空間オーディオ情報がない。モノラルレコーディングは、多数の指向性音源と拡散イベントおよび/または環境
のモノラルダウンミックスを含む。したがって、たとえば、スマートフォンなどのハンドヘルドデバイスを使用してビデオに付随するオーディオをレコーディングする場合、通常、すべての聴覚空間情報が回復不能に失われる。また、モノラルレコーディングはすでに指向性音源と非指向性音源が混在しているため、オブジェクトベースの手法において使用することができない。
説明のために、設定は、泣いている女の子(見える)、吠えている犬(これも見える)、テレビで再生されているサッカーの試合(見える)、隣接する部屋にいる(すなわち、見えない)、歌っている母親、および雷の音を含み得る。モノラルレコーディング(すなわち、モノラル音を含むビデオレコーディング)は、これらすべての音を含む。しかしながら、このレコーディングは、これらの音の各々に関する空間情報を含まない。たとえば、このレコーディングは、泣いている聴覚イベントの位置が画像の中央にあること、吠える聴覚イベントが画像の左側から発生し、犬が壁の近くに横たわっていること、および、歌は画像の右側から来ていることをキャプチャしない。
本明細書で使用される場合、ビデオのフレーム(たとえば、画像)において見えるまたは見えないにかかわらず、オブジェクト(たとえば、人、車両など)から発生する音(すなわち、聴覚イベント)は、本明細書では指向性音と呼ばれる。見えないオブジェクトから発生する音は、さらに周囲音として説明することができる。特定の方向から来ない音(たとえば、雨、雷など)は、本明細書では拡散音と呼ばれる。オーディオセグメントのすべての拡散音は、拡散音場と呼ばれる。周囲音と拡散音の違いは、拡散音は特定の方向に関連付けられていないのに対し、周囲音はシーン/フレーム内に見えないオブジェクトからの一般的な方向に関連付けられていると考えられ得る。拡散音は、統計的に複数の方向(たとえば、あらゆる場所)から発生し、特定のオブジェクトに関連付けられていないものと考えることができる。
本開示による実装形態は、モノラルダウンミックスプロセス(すなわち、たとえばスマートフォンを使用するモノラルオーディオキャプチャ)中に失われた空間オーディオ情報を検索する(たとえば、ヒューリスティックに検索する)ために、ビデオにおけるオーディオおよび視覚的特徴(空間的および時間的)の両方を利用する。すなわち、欠落している空間オーディオ情報を検索(たとえば、再構成、推定など)するために、ビデオ内の視覚的(すなわち、画像および/または動画)情報を使用することができる。
空間オーディオ情報を検索(たとえば、導出、再構成、構築など)するために、機械ビジョン(たとえば、画像および/またはオブジェクト認識)を機械聴覚技法(たとえば、オーディオ分類)と組み合わせて使用することができる。いくつかの例では、視聴覚シーン情報を検索するために、ユーザ支援を機械ビジョンおよび/または機械聴覚技法と組み合わせることができる。指向性聴覚イベントと拡散聴覚イベントの両方の選択と抽出を通知するために、ユーザ支援を使用することができる。検索した空間情報は、その後、聴覚イベントを元の方向に再符号化したり、拡散音場および/または環境を合成したりするために使用することができる。
本明細書ではモノラルレコーディングが説明されているが、この用語は、使用される場合、空間情報を含まない、または限定された空間情報を含むレコーディングも包含することに留意されたい。すなわち、本明細書の内容は、十分な空間オーディオ情報(すなわち、「非空間化されたオーディオ情報」)を含まない(たとえば、関連付けられていない)ビデオレコーディングに適用される。たとえば、ステレオレコーディングは空間情報が制限され、これは通常、2つのスピーカ間の弧または左右のヘッドホン間のラインに制限される。たとえば、ステレオレコーディングでは、シーンの後ろにあった音オブジェクトが前に聞こえる場合があり、ユーザの上にあった音オブジェクトが、水平面上にある可能性がある。その結果、一部の指向性音源の元の位置が、ステレオ音場において誤って表現されることがよくある。
モノラルオーディオトラックは、オーディオトラックに存在する音源に関する空間情報を含まない。スピーカアレイを介して提示された場合、すべての音源は単一のスピーカ(オーディオトラックが割り当てられている)から発生するか、または複数のスピーカに複製される。後者のシナリオでは、時間/強度のパンニング法則により音源の位置が変更される可能性があるため、音源は複数のスピーカ間の位置から発生しているように思われる場合がある。しかしながら、オーディオストリームに存在するすべての音源は、元の音場において空間的に分離されている場合でも、同じ位置から発生すると予想される。ヘッドホンを介して提示された場合、すべての音源は聞き手の頭の中から発生する。
一方、ステレオオーディオトラックは、元の音場に存在する音源に関する非常に限られた情報を含む。通常、2つの標準ステレオスピーカを使用して提示する場合、音源のそれぞれの位置は60度の弧に制限される。ヘッドホンを介して提示される場合、音源は左耳または右耳のいずれか(または、その間の任意の場所)に定位することができる。そのため、ステレオにおいては、球形の音場から発生する音源の360°空間表現は、1D表現に折りたたまれる。
したがって、繰返しになるが、本開示に関連して、ステレオレコーディングは空間オーディオ情報を含むとは言えず、「モノラルオーディオ」という用語は、モノラルオーディオとステレオオーディオの両方、より一般的には、空間オーディオ情報を含まないレコーディングを包含する。
図1は、本開示の実装形態によるオーディオ情報を空間化するための装置またはシステム100の例を示す図である。オーディオ情報の空間化は、オーディオイベントに空間情報を追加することを意味する。システム100は、ビデオ102を受信し、空間情報を含むオーディオ104を出力する。ビデオ102は、画像(たとえば、フレーム、動画など)および聴覚イベントを含む。ビデオ102は、ビデオファイル(たとえば、以前にレコーディングされて記憶されたビデオファイル)、ビデオストリームなどであり得る。聴覚イベントは非空間化されている。すなわち、ビデオの聴覚イベントに関する空間情報は利用できない。
ビデオ102は、マルチビュービデオであり得る。すなわち、ビデオ102は、複数のカメラを使用して、または全方位カメラを使用して、異なる視点からキャプチャされる設定であり得る。したがって、ビデオ102は、全天球ビデオ、360°ビデオ、パノラマビデオなどであり得る。ビデオ102は、シングルビューカメラビデオであり得る。
システム100は、音の空間情報を出力(たとえば、取得、割当て、決定、計算、推定など)するために、ビデオの画像およびビデオにおいてキャプチャされた(たとえば、含まれるなど)音を使用することができる。
システム100は、オーディオ分類装置106、オブジェクト認識装置108、マッチャ110、オーディオ空間化装置(audio spatializer)112、および拡散フィールドシンセサイザ114を含むことができる。システム100の他の実装形態は、より多いモジュール、より少ないモジュール、他のモジュール、またはそれらの組合せを含むことができる。
たとえば、拡散フィールドシンセサイザ114は、システム100に含まれなくてもよい。たとえば、システム100は、ユーザインターフェースモジュールを含むことができる。ユーザインターフェースモジュールを通じて、ユーザは、画像内の認識されないオブジェクト(すなわち、オブジェクト認識装置108によって識別または分類されないオブジェクト)を識別することができ、ユーザは、認識されない音(すなわち、オーディオ分類装置106によって識別または分類されない聴覚イベント)を識別することができ、ユーザは、一致しない(すなわち、一致しない、またはマッチャ110によって不正確に一致する)聴覚イベントをオブジェクトに一致させることができ、ユーザは、他のアクション、またはそれらの組合せを実行することができる。別の例では、ユーザインターフェースモジュールのいくつかの態様(たとえば、機能、能力など)は、他のそれぞれのモジュールに実装されるか、その一部となることができる。システム100は、ビデオ102をその構成要素であるビデオストリームおよびオーディオストリームに分割することができる逆多重化モジュールを含むことができる。
システム100のモジュールは、図2に関連して説明される。図2は、本開示の実装形態による、オーディオを空間化するための技法200の例のフローチャートである。音場における指向性オーディオイベントおよび拡散オーディオイベントのモノラルダウンミックス、ならびにオーディオイベントの視覚的表現(球形/360°表現が可能であるが、そうである必要はない)が与えられると、技法200は、モノラルダウンミキシングまたはモノラルレコーディングプロセスにおいて失われた聴覚シーンの空間オーディオ情報を検索する(たとえば、推定する、など)。次いで、抽出された聴覚イベントは、任意の空間表現に空間的に拡張(すなわち、アップミックス)することができる。
ビデオ202は、技法200によって受信される。ビデオ202は、図1のビデオ102に関して説明した通りであり得る。ビデオ202のオーディオトラック204は、オーディオ分類208に入力され、これは、図1のオーディオ分類装置106によって実行することができる。オーディオ分類208は、オーディオトラック204内のオーディオ音を識別する。ビデオ202のビデオフレーム206は、図1のオブジェクト認識装置108によって実行され得るオブジェクト分類210に入力される。オブジェクト分類210は、ビデオフレーム内の視覚オブジェクト(すなわち、見えるオブジェクト)を識別する。
一例では、逆多重化モジュールは、ビデオ202をその構成要素(すなわち、オーディオトラック204およびビデオフレーム206)に分割することができる。別の例では、図1のオーディオ分類装置106、または別のモジュールは、ビデオ202からオーディオトラック204を抽出することができ、オブジェクト認識装置108、または別のモジュールは、ビデオ202からビデオフレーム206を抽出することができる。
一例では、ビデオ202は、技法200によってチャンク(すなわち、セグメント)において処理することができる。すなわち、ビデオ202は、セグメントに分割することができる。各セグメントは、いくつかのフレーム、および対応するオーディオセグメントを含むことができる。したがって、オーディオトラック204はチャンクのオーディオセグメントであり得、ビデオフレーム206はチャンクのフレームであり得る。
たとえば、セグメントの長さが各5秒であり、ビデオが1秒あたり30フレームのフレームレートでキャプチャされたと仮定すると、各セグメントは150フレームおよび対応する5秒のオーディオを含む。セグメントは様々なサイズ(すなわち、長さ)を有することができる。一例では、各セグメントは、ビデオ202のシーンに対応することができる。たとえば、ビデオ202は、ビデオ202内のシーンを識別するために、シーン検出モジュール(図示せず)によって処理することができる。全天球ビデオの例では、各チャンクは、カメラ位置の変化に対応することができる。
オーディオ分類208は、図3に関して説明されている。図3は、本開示の実装形態による、オーディオ分類のための技法300の例のフローチャートである。技法300は、図2のオーディオ分類208によって、または図1のオーディオ分類装置106によって実装することができる。
技法300は、1)オーディオトラック204内の異なる音源を識別することと、2)各抽出されたオーディオ音源(または、少なくともその一部)にラベル付けすることと、3)任意でユーザから分類情報を受信することとを含む。
302において、技法300は、図2のオーディオトラック204などのオーディオトラック内の異なる音源を識別する。異なる音源は、任意の数の利用可能な音源分離技法を使用して識別することができる。音源は、以下でさらに説明するように、後で再結合(すなわち、アップミックス)できるように分離されている。
音源の分離は、異なるオーディオデータ表現(たとえば、オーディオスペクトログラム)の分析に基づく場合がある。一例では、音源分離技法であるブラインドオーディオ音源分離(Blind Audio Source Separation、BASS)を使用することができる。BASSは、混合信号(すなわち、ダウンミックスされたオーディオトラック)を入力として受信し、ダウンミックスされたオーディオトラックから個々の音源を抽出する。別の言い方をすれば、BASSは混合された音源から元の音源を抽出することを目的としている。基礎となるBASSは、ダウンミックスされたオーディオトラックを生成するために、個々の音源が未知の機能に従ってミックスされたという仮定である。BASSは、観測された(すなわち、ダウンミックスされたオーディオトラック内の)混合信号を使用して混合関数を推定する。
たとえば、1人がバイオリンを演奏し、もう1人がピアノを演奏している、2人のモノラルレコーディングが与えられた場合、BASSは、レコーディングに2つのオーディオ音源(すなわち、2つのオーディオオブジェクト)があることを識別することができる。BASSは、第1のオーディオ音源がバイオリンであり、第2のオーディオ音源がピアノであることを明確に識別できない場合がある。
304において、技法300は、抽出されたオーディオ音源のうちの少なくともいくつかにラベル付けする。すなわち、ラベル(すなわち、識別、人間が読める文字列、意味論的文字列など)が、抽出されたオーディオ音源のうちの少なくとも一部の各々に割り当てられる。一例では、オーディオ分類を使用することができる。抽出されたオーディオ音源の各々は、オーディオ分類のために(たとえば、別々に)提示することができる。オーディオ分類は、オーディオ音源の識別に関する情報を出力する。一例では、オーディオ分類は、音のサンプルを分類するようにトレーニングされた機械学習モデルであることができる。すなわち、音のサンプルが与えられると、音のサンプルの音源の分類ラベル(たとえば、人間が読める意味論的記述)が出力される。
一例では、オーディオ分類は、オブジェクト(すなわち、オーディオ音源)が何であるかを示す確率評価を出力することができる。たとえば、バイオリンである音源の音のサンプルが提示された場合、オーディオ分類208は、オブジェクトが80%の確率でバイオリンであり、15%の確率でビオラであり、2%の確率でチェロであると出力し得る。一例では、オーディオ分類208は、最も可能性の高い(すなわち、最良の推測)オブジェクトタイプのみを出力することができる。たとえば、オーディオ分類は単に「バイオリン」と出力することができる。いくつかの例では、オーディオ分類はオブジェクトを識別できない場合がある。たとえば、オーディオ分類は「不明」(または、オーディオサンプルが分類できなかったことを示す他のラベル)と出力することができる。
306において、技法300は、任意で、ユーザから分類情報を受信することができる。たとえば、技法300は、ユーザインターフェースにおいて、識別されたおよび識別されていない音源のリストをユーザに提示することができる。ユーザインターフェースにおいて、ユーザは音源のラベルを選択して、関連付けられる(たとえば、識別された)音を再生することができる。ユーザは、識別された音源のうちのいくつかに割り当てられたラベルに修正をすることができる。説明のために、実際にはビオラである場合に、音源は「バイオリン」として識別される可能性がある。したがって、ユーザは音源に関連付けられているラベルを「ビオラ」に修正することができる。ユーザは、ラベルを識別されていない音源に割り当てることができる。説明のために、ピアノの音源が識別されていない可能性があるため、「不明」というラベルが割り当てられた。ユーザは、ラベル「不明」を「ピアノ」に変更することができる。
図6は、音源分類(すなわち、識別)情報を示すユーザインターフェース600の例である。ユーザインターフェース600は、306において、技法300によって提示することができる。ユーザインターフェース600は、コンサートのオーディオセグメント602(たとえば、モノラルオーディオクリップ)が技法300に提示されたことを示す。ラベル604を出力して、オーディオセグメントにおいて識別された(音源分離を使用するなどして)音源のうちの少なくともいくつかに割り当てることができる。一例では、スペクトログラム614は、スペクトルが時間とともに変化するので、オーディオクリップの周波数のスペクトルを表示することができる。ユーザインターフェース600は、音源606が「バイオリン」であることを示している。一例では、それぞれの確実性指標612(たとえば、信頼レベル)は、音源の各々の分類に関連付けることができる。ユーザインターフェース600はまた、音源608および音源610が識別されなかったことを示している。したがって、デフォルトのラベル(たとえば、「Unknown_1」(不明_1)および「Unknown_2」(不明_2)など)が識別されていない音源に割り当てられた。
他の例では、ユーザインターフェース600は、より少ないユーザ制御および/または情報、より多いユーザ制御および/または情報、他のユーザ制御および/または情報、あるいはそれらの組合せを含むことができる。たとえば、ユーザインターフェース600は、ラベル604の各々に隣接して、音源を示す代表的な画像を含むことができる。たとえば、ユーザインターフェース600は、ユーザがオーディオセグメントを再生、巻戻し、早送り、または一時停止することを可能にする制御を含むことができる。たとえば、ユーザインターフェース600は、ユーザが、たとえば、ラベル604のうちの1つを選択し、選択されたラベルに対応する音源のみを再生することを可能にする制御を含むことができ、それによって、ユーザは、選択された音源の識別を検証することができる。たとえば、ユーザインターフェース600は、ユーザがラベル604のうちのあるラベルを選択および修正することを可能にする制御を含むことができる。たとえば、音源610がフレンチホルンのものであると仮定すると、ユーザは、音源610を選択し、そのラベルを「フレンチホルン」に変更することができる。
一例では、音源に複数のラベルが割り当てられ得る。たとえば、バイオリン音源は、「バイオリン」(音源606で示されている)および「弦楽器」ラベル(図示せず)というラベルに関連付けられている場合がある。一例では、ユーザは複数のラベルを音源に割り当てることができる。たとえば、「フレンチホルン」というラベルに加えて、ユーザは「金管楽器」というラベルを追加することもできる。
一例では、ユーザは音源を拡散オーディオコンポーネントに割り当てることができる。拡散オーディオコンポーネントは、特定の方向を持たない音に関連付けられている。すなわち、拡散オーディオコンポーネントは、シーン内の特定の方向から開始されない1つまたは複数の音を含む。
図2に戻ると、上記のように、ビデオ202のビデオフレーム206は、オブジェクト分類210に入力される。オブジェクト分類210は、図4に関して説明されている。図4は、本開示の実装形態による、視覚的分類のための技法400の例のフローチャートである。技法400は、図2のオブジェクト分類210、または図1のオブジェクト認識装置108によって実装することができる。
技法400は、ビデオフレーム206内の視覚オブジェクトを分類することと、識別された視覚オブジェクトの各々(または、少なくともいくつか)について、オブジェクトの座標を推定することと、識別された視覚オブジェクトの各々(または、少なくともいくつか)について、それぞれの動きベクトルを任意で推定することと、未分類のコンポーネントの各々(または、少なくともいくつか)について、ユーザから分類情報を任意で受信することとを含む。
402において、技法400は、ビデオフレーム206のフレームのうちの少なくともいくつかのフレーム内のオブジェクトを識別する。技法400は、ビデオフレーム206のフレームのうちの少なくともいくつかを分析して、シーンに存在する視覚オブジェクトを識別するために、オブジェクト認識装置を使用することができる。
一例では、オブジェクト認識装置は、画像内の多くの異なるオブジェクトを認識するようにトレーニングされた機械学習モデルであることができる。一例では、オブジェクト認識装置は、技法400によって直接実装(たとえば、実行)されない場合がある。むしろ、オブジェクト認識装置は、技法400によって使用され得る(たとえば、活用される、呼び出されるなど)サービスであり得る。たとえば、技法400は、ビデオフレーム206のうちの1つまたは複数のフレームをサービスに渡し、オブジェクト認識装置が識別した視覚オブジェクトに関する情報を受信することができる。
図7は、オブジェクト認識装置の出力の例700を示している。例700は、http://cloud.google.com/visionにおいて利用できるGoogle Cloud画像理解サービスの出力を示している。例700は、単なる一例である。他の出力および出力フォーマットも、技法400によって受信されることができる。
ビデオフレーム206のうちのフレーム702は、オブジェクト認識装置に提示される。オブジェクト認識装置は、リスト704内のフレーム702のオブジェクトを識別した。オブジェクト認識装置は、識別されたオブジェクトの各々の周囲に境界ポリゴン(たとえば、ボックス)を描画する。たとえば、境界ポリゴン706は、バイオリンの周りに描画される。オブジェクト認識装置はまた、リスト708に示されるように、認識されたオブジェクトにラベルを添付することができる。一例では、リスト704および/またはリスト708内のアイテムの各々は、関連付けられる確実性を有することができる。バイオリンに関して、例700のオブジェクト認識装置は、(リスト708において)「楽器」、「バイオリン」、「弦楽器」、「擦弦楽器」、「弦楽器」、および「バイオリン属」というラベルを識別した。
技法400は、技法400が動作することができる機械可読データ構造においてオブジェクト認識装置からデータを受信する。データ構造710は、バイオリンオブジェクトに関して技法400によって受信され得る例示的なデータ構造を示している。データ構造710は、JavaScriptオブジェクト表記(JSON)データ交換フォーマットである。しかしながら、他のフォーマットも可能である。データ構造710の境界ポリゴン712は、バイオリンの境界ポリゴン座標を記述する。ラベル714は、境界ポリゴン712によって包含されるオブジェクトに割り当てられた人間が読めるラベル(すなわち、「バイオリン」)である。認識されたオブジェクトのうちのいくつかは音源ではない可能性があることに留意されたい。
状況によっては、オブジェクト認識装置がいくつかのオブジェクトを誤認する場合がある。たとえば、バイオリンが「チェロ」として認識されており、したがって、「チェロ」というラベルが付けられている可能性がある。状況によっては、オブジェクト認識装置は、オブジェクトがフレーム内に存在することを認識し得るが、オブジェクトを分類する(たとえば、ラベルを割り当てる)ことができない場合がある。たとえば、例700において、境界ポリゴン716のバイオリン奏者の衣服は、オブジェクトとして認識され得るが、ラベル718(すなわち、「Unknown_1」)が割り当てられる。
一例では、オブジェクトを識別するために、ビデオフレーム206のN番目ごとのフレームを分析することができる。すなわち、オブジェクトを識別するためにすべてのフレームを分析する必要はない。Nの値は、すべてのビデオフレーム206に対して固定することができる。たとえば、5番目ごとのフレームを分析することができる。Nは任意の値(たとえば、1、2など)にすることができる。一例では、Nはビデオのタイプによって異なる。たとえば、多くの動きを含むビデオフレーム206(たとえば、スポーツビデオ)において、かなり静的なビデオ(たとえば、ミュージシャンが舞台上であまり動かないコンサートのビデオ)よりも多くのフレームを分析することができる。
図4に戻ると、404において、技法400は、認識されたオブジェクトのうちの少なくともいくつかに対するそれぞれの空間座標を推定する。一例では、境界ポリゴンのそれぞれの中心が使用される。すなわち、後で音の位置および/または方向を音に割り当てるために、音を放出するオブジェクトの境界ポリゴンの中心が音の音源の位置として使用される。他の例では、境界ポリゴンに関連付けられる異なる位置を使用することができる。
いくつかの実装形態では、技法400は、動きベクトルを推定するステップを含むことができる。すなわち、406において、技法400は、認識されたオブジェクトのうちの少なくともいくつかについて、それぞれの動きベクトルを推定することができる。動きベクトルを推定するための任意の適切な技法を使用することができる。視覚オブジェクト(したがって、同等に、対応する音)の位置が時間の経過とともにどのように変化するかを追跡するために、動きベクトルを使用することができる。動きベクトルの推定は、一般に、フレーム間の差異を決定することになり得る。たとえば、犬は、第1の位置を中心とする位置の第1のフレームにおいて識別され、第2の位置を中心とする位置の第2のフレームにおいて識別され得る。したがって、犬の動きベクトルは、第1の位置と第2の位置との間の差(たとえば、変位)であり得る。
一例では、隠されたオブジェクトに音の位置を割り当てるために、動きベクトルを使用することができる。たとえば、ビデオフレーム206の第1のサブセットにおいて、音源であるオブジェクトが見えていた。しかしながら、ビデオフレーム206の第2のサブセットにおいて、オブジェクトは隠されたが、依然として音を発していた。ビデオフレーム206の第2のサブセット内の1つまたは複数の位置をオブジェクトに割り当てるために、フレーム(必ずしも連続するフレームである必要はない)の第1のサブセット内のオブジェクトについて推定された動きベクトルを使用することができる。一例では、オブジェクトが長期間にわたって隠されている場合、オブジェクトに関連付けられる音イベントを拡散音場に割り当てることができる。
一例では、ビデオフレーム206は、全天球ビデオのフレームであってよい。したがって、オブジェクトが第1の視点(たとえば、第1のカメラのビュー)から第2の視点(たとえば、第2のカメラのビュー)にいつ移動するかを識別するために、動きベクトルを使用することができる。したがって、音の位置は、第1のビュー内の位置から第2のビューの位置に移動することができる。別の例では、オブジェクトが、球面カメラの任意の視点のビューから外れて移動する可能性があるが、それでも音を発している可能性がある。オブジェクトを拡散音場に割り当てることができる。
一例では、モーションベクトルは推定されない。音源に関連付けられる音の位置は、(動きベクトルに従って連続的にではなく)個別に変更することができる。たとえば、15フレームのシーケンスにおいて、第1のフレームと10番目のフレームが分析されると仮定する。オブジェクトは、第1のフレームにおいて第1の位置、および、10番目のフレームの第2の位置において識別される。第1の位置はフレーム1~9の音源として割り当てることができ、第2の位置はフレーム10~15の音源として割り当てることができる。別の例では、音の位置は、第1の位置および第2の位置の補間または外挿のように、各フレームにおいて割り当てることができる。
一例では、技法400は、任意で、ユーザから分類情報を受信することができる(408において)。
たとえば、技法400は、ユーザインターフェースにおいて、識別されたオブジェクトおよび識別されていないオブジェクト(視覚オブジェクト)のリストをユーザに提示することができる。ユーザインターフェースにおいて、ユーザは識別されたオブジェクトのラベルを選択することができる。ユーザは、識別されたオブジェクトのうちのいくつかに割り当てられたラベルを修正することができる。ユーザインターフェースは、図7に関して説明したものと同様であり得る。一例では、ユーザインターフェースは、ユーザがビデオフレーム206内で前後に移動することを可能にする制御を含むことができる。ユーザインターフェースは、境界ポリゴンを含むことができる。一例では、ユーザインターフェースに識別されていないオブジェクト(存在する場合)を含むことができる。ユーザは、識別されていないオブジェクトを選択し、1つまたは複数のラベルを識別されていないオブジェクトに割り当てることができる。一例では、「不明」というラベル(または、視覚オブジェクトを分類できなかったことを示す他の何らかのラベル)を識別されていないオブジェクトに割り当てることができる。一例では、オブジェクトを識別し、1つまたは複数のラベルをユーザによって識別されるオブジェクトに割り当てるために、ユーザはフレームの領域の周りに境界ポリゴンを描画することができる。
再び図2に戻ると、オーディオ分類208およびオブジェクト分類210の結果は、一致212に組み合わされている。一致212は、図1のマッチャ110によって実装することができる。一致212は、図5に関して説明されている。図5は、本開示の実装形態による、オーディオオブジェクトと視覚オブジェクトを一致させるための技法500の例のフローチャートである。技法500は、図2の一致212、または図1のマッチャ110によって実装することができる。
502において、技法500は、聴覚オブジェクトを視覚オブジェクトに、またはその逆にマッピングする。一例では、技法500は、識別されたオーディオオブジェクトを識別された視覚オブジェクトに一致させる自動プロセスから開始することができる。
聴覚オブジェクトと視覚オブジェクトは、文字列一致を使用してマッピングすることができる。たとえば、図6の音源606は、両方のオブジェクト(すなわち、聴覚オブジェクトおよび視覚オブジェクト)に「バイオリン」というラベルが付いているので、図7のデータ構造710によって表されるオブジェクトにマッピングすることができる。オーディオオブジェクトおよび視覚オブジェクトは、意味論的一致を使用してマッピングすることができる。たとえば、図6のバイオリンが「擦弦楽器」としてのみ識別されたと仮定する。「バイオリン」が「擦弦楽器」の一種であることを識別するために、分類学を使用することができる。したがって、技法500は、聴覚オブジェクトであるバイオリンを視覚オブジェクトである「擦弦楽器」にマッピングすることができる。視覚オブジェクトを聴覚オブジェクトに自動的にマッピングする他の方法も可能である。
聴覚オブジェクトと視覚オブジェクトとの間のマッピングを識別するために、他のヒューリスティックを使用することができる。たとえば、マッピングは、視覚オブジェクトのサイズと音源の周波数に基づいて識別することができる。たとえば、図2のオブジェクト分類210は、実際にはオブジェクトがトラックである場合に、オブジェクトを「車」として識別した可能性がある。オーディオのスペクトルが低周波数成分(トラックの音のプロファイルと一致する)を含む場合、車とトラックが意味論的にリンクされているため(たとえば、両方とも車両の例である)、「車」として識別されたオブジェクトは、低周波数に対応する音源に一致する(すなわち、マッピングする)ことができる。
一例では、技法500は、一致しないオブジェクトを拡散音信号に割り当てる、および/または一致しないオーディオイベントを残留オーディオ信号に割り当てることができる。残留オーディオ信号は、一致しないオーディオイベントのセットに対応する可能性がある。以下に説明するように、残留オーディオ信号は、ユーザが残留オーディオ信号のオーディオイベントの処理を決定できるように、ユーザに提示することができる。
一例では、明らかな誤分類のケースを除外するために、ステレオレコーディングからの部分的な空間情報を使用することができる。たとえば、左のパノラマにおける聴覚イベントは、右半球において視覚的表現を有することができない。
状況によっては、自動一致が正確ではない(すなわち、不一致)こともあり、行われるべき一致が行われない(つまり、一致しない)がある。不一致および/または一致しないことは、ユーザの介入を使用して解決することができる。たとえば、技法500は、ユーザが利用可能な視覚オブジェクトを閲覧し、聴覚オブジェクトのうちのいずれかが視覚オブジェクトによりよく一致することができるかどうかを決定することができるユーザインターフェースをユーザに提示することができる。ユーザは、音イベントを拡散音場に割り当てることができる。ユーザは、音を視覚イベントに割り当てることなく、音イベントを方向(たとえば、位置)に割り当てることができる。ユーザは、音イベントを視覚オブジェクトにマッピングすることができる。
504において、マッピングされた聴覚イベントの各々について、技法500は、空間座標をマッピングされた聴覚イベントに割り当てる。たとえば、一致した視覚オブジェクトの境界ポリゴンの中心である座標を、聴覚イベントに割り当てることができる。
506において、技法500は、上記のように、隠されたオブジェクトの最も可能性の高い現在の方向を推定するために、任意で、動きベクトルおよび/または補間を使用することができる。隠されたオブジェクトは、シーン内にあるが、シーン内の他のオブジェクトによって隠されている視覚オブジェクトであり得る。隠されたオブジェクトは、シーンを出た視覚オブジェクトであり得る。
一例では、聴覚イベント(マッピングされた、またはマッピングされていない)の場合、ユーザは、音イベントの音源(すなわち、位置)として割り当てられるべき画面位置(たとえば、ビデオフレーム206のフレーム内のポイント)を割り当てることができる。ユーザはまた、異なるフレームを選択して、ソース聴覚イベントとして別の位置を選択することができる。第1のフレームと第2のフレームとの間のフレームの各々における聴覚イベントの位置は、上記のように割り当てることができる。
図2に戻ると、空間情報214が生成される(たとえば、出力)。
図1のオーディオ空間化装置112は、オーディオイベントを空間化およびアップミックスして、空間オーディオを生成するために、抽出された空間メタデータ(たとえば、空間的位置)を備えたオーディオ信号を使用する。たとえば、上記の手法のうちの1つ(たとえば、オブジェクトベース、チャネルベース、またはシーンベースの手法)を使用することができる。
たとえば、シーンベースの手法(すなわち、高次アンビソニックス再生)を使用して、各指向性オーディオイベントが空間化され(すなわち、必要な順序でHOA表現に符号化され)、すべての空間化されたオーディオイベントは、単一の音場表現に混合される。そのような空間オーディオ表現においては、音イベントを球面調和関数で表すことができる。たとえば、HOA信号の各々は、音イベントに対応し、球面調和関数によって重み付けされた、抽出された(たとえば、分離されたなどの)モノラルオーディオ信号で構成することができ、これらの信号は、所望の音イベントの位置に対応する角度で評価される。
残りの残留オーディオ信号は、拡散(すなわち、無指向性)オーディオストリームであると仮定することができる。残りの残留オーディオ信号は、指向性オーディオストリームとは別に処理することができる。図1の拡散フィールドシンセサイザ114は、残りの残留オーディオ信号を処理する。残留オーディオ信号を拡散音場として処理するために、任意の数の利用可能な技法を使用することができる。一例では、拡散オーディオストリームは、いくつかの非相関フィルタを通過し(たとえば、一時的に拡散するインパルス(Temporarily Diffuse Impulses)を使用して)、上記のHOAチャネルに等しく追加することができる。
非相関の各拡散オーディオストリームは、以前に符号化された指向性オーディオストリームに追加することができる。したがって、空間情報214は、1つの全方位およびN-1(それぞれ、指向性音イベントに対応する)指向性チャネルを含むことができる。
図8は、本開示の実装形態による、ビデオ情報に基づく空間オーディオ拡張のための技法800のフローチャートの例である。技法800は、図1~図7に関して上述したステップの別の見方および/または詳細を提示する。技法800は、図1のシステム100などのシステムによって実装することができる。
ビデオフレーム802(すなわち、視覚ストリーム)およびオーディオセグメント806を含むビデオ801が受信される。ビデオ801は、ビデオフレーム802およびオーディオセグメント806を取得するために逆多重化される。一例では、ビデオフレーム802およびオーディオセグメント806は、ビデオ801の対応する部分であり得る。たとえば、ビデオフレーム802およびオーディオセグメント806は、ビデオ801のシーンを構成するビデオ801の一部であり得る。
視覚オブジェクト804のリストは、図2のオブジェクト分類210に関して上記で説明したように、ビデオフレーム802のフレームから取得することができる。視覚オブジェクト804のリストは、識別されたオブジェクトのラベルを含む。視覚オブジェクト804のリストは、フレームの視覚オブジェクトの各々のラベルを含まない場合がある。さらに、視覚オブジェクトのラベルが識別されない場合がある。視覚オブジェクト804のリストは、識別されラベル付けされた視覚オブジェクト(たとえば、V_OBJECT_1、V_OBJECT_2、およびV_OBJECT_3)、および識別されたがラベル付けされていない視覚オブジェクト(たとえば、V_UNKNOWN_1およびV_UNKNOWN_2)を含むものとして示されている。上記のように、ユーザは、ラベルを追加することと、ラベルを修正することと、および/または視覚オブジェクト804のリストからラベルを削除することとを行うことができる。
上記のように、動きベクトルおよび/または空間情報819は、ビデオフレーム802および視覚オブジェクト804のリストを使用して取得することができる。たとえば、視覚オブジェクト804のリストのオブジェクトのそれぞれの境界ポリゴンの中心は、視覚オブジェクトに関連付けられる空間情報として使用することができる。
聴覚イベントのリスト(すなわち、聴覚オブジェクト810のリスト)は、オーディオセグメント806から取得することができる。上記のように、オーディオセグメント806は、音源分離モジュール808に提示することができる。次いで、分離された音源の各々は、図2のオーディオ分類208で説明したように、分類のために提示することができる。分類されたオブジェクトは、聴覚オブジェクト810のリストに収集される。聴覚オブジェクト810のリストは、識別されたオブジェクト(すなわち、識別された音)のラベルを含む。聴覚オブジェクト810のリストは、オーディオセグメント806の聴覚オブジェクトの各々のラベルを含まない場合がある。さらに、聴覚イベントのラベルを識別されない場合がある。聴覚オブジェクト810のリストは、識別されラベル付けされた聴覚イベント(たとえば、A_OBJECT_1およびA_OBJECT_2)、および識別されているがラベル付けされていない聴覚イベント(たとえば、A_UNKNOWN_1およびA_UNKNOWN_2)を含むものとして示されている。上記のように、ユーザは、ラベルを追加することと、ラベルを修正することと、および/または聴覚オブジェクト810のリストからラベルを削除することとを行うことができる。オーディオセグメント806に特定の音源を有していないオーディオイベントは、残留オーディオ信号812に割り当てることができる。
自動一致814(すなわち、自動化された一致)のために、視覚オブジェクト804のリストおよび聴覚オブジェクト810のリストが提供される(たとえば、入力されるなど)。自動一致は、図2の一致212に関して上記のように実行することができる。
上記のように、手動一致816は、ユーザによって実行することができる。たとえば、ユーザは、聴覚オブジェクトのリスト810のマッピングされた聴覚オブジェクトを、視覚オブジェクトのリスト804の異なる視覚オブジェクトにマッピングすることができる。たとえば、ユーザはマッピングされていない聴覚オブジェクトを視覚オブジェクトにマッピングすることができる。たとえば、ユーザは空間座標(たとえば、位置)をオーディオ音源(たとえば、聴覚イベント)に割り当てることができる。これは、たとえば、聴覚イベントに対応する視覚オブジェクトがオブジェクト認識装置によって識別されなかったが、ユーザが、視覚オブジェクトが聴覚イベントのソースであると確信している場合に役立つ。たとえば、ユーザはマッピングされた聴覚オブジェクトのマッピングを解除し、それを拡散音場に割り当てることができる。
自動一致814および手動一致816の後、ビデオフレーム802内のどの視覚オブジェクトにもマッピングされていないいくつかの聴覚オブジェクトが依然として存在し得る。そのようなオブジェクトは、オーディオ残留818と呼ばれる。オーディオ残留818は、シーンにおいて見えない可能性があるが特定の方向から発生するオブジェクトに対応する第1の聴覚イベントを含むことができる。オーディオ残留818は、特定の方向から発生せず、したがって拡散音である第2の聴覚イベントを含むことができる。したがって、ユーザは、オーディオ残留818のどの聴覚イベントが指向性音イベントであり、どれが拡散音であるかを選択する。ユーザは、視界外の指向性位置を第1の聴覚イベントのうちの少なくともいくつかに割り当てることができる。
任意の指向性音がオーディオ空間化装置820に提供される。オーディオ空間化装置820は、空間化手法(たとえば、オブジェクトベース、チャネルベース、またはシーンベースの手法)に従って、動きベクトルおよび/または空間情報819を使用して、指向性聴覚イベントとして識別される聴覚イベントのうちのいくつかを空間化することができる。オーディオ空間化装置820は、第1の聴覚イベントに関してユーザによって提供された指向性位置を使用することができる。
残留オーディオ信号812およびオーディオ残留818において拡散音イベントとして識別された任意の聴覚イベントは、上記のように、拡散フィールドシンセサイザ822によって処理される。しかしながら、ある方向から拡散音を聞くことが望まれる(たとえば、ユーザによって)場合、拡散音は、オーディオ空間化装置820に供給され得る(たとえば、オーディオ空間化装置820に提供される、入力される、方向付けられる、オーディオ空間化装置820によって処理されるなど)。オーディオ空間化装置820および拡散フィールドシンセサイザ822の出力は、オーディオ出力824に結合される。たとえば、オーディオ出力824は、ステレオファイル、マルチチャネルファイル、またはシーンベースの表現(たとえば、アンビソニックス)、オブジェクト表現ファイルなどであり得る。状況によっては、ステレオファイルに(すなわち、ステレオフォーマットで)保存すると、音源(たとえば、原音)のモノラルオーディオレコーディングよりも改善される場合がある。たとえば、モノラルレコーディングとしてキャプチャされた音楽コンサートについて考えてみる。本明細書で説明されるビデオ情報に基づく空間拡張は、ステレオパノラマ内でミュージシャン(すなわち、ミュージシャンの音イベント)を動かして、ステレオ音楽出力をもたらすのに役立つ可能性がある。上記のように、ステレオは特定の音イベントを誤って表現する場合があるが、依然としてステレオ出力はモノラル音楽レコーディングよりも改善される可能性がある。360°情報を2つのチャネルに符号化するが、ヘッドホン(または、スピーカであるが、チャネル間クロストークなし)での再生が必要なバイノーラルステレオは、ステレオフォーマットでの保存が元のモノラルレコーディングよりも有益な別の例であり得る。
図9は、空間情報をオーディオセグメントに割り当てるための技法900の例のフローチャートである。技法900のうちの少なくともいくつかの態様は、図1のシステム100のモジュールのうちの1つまたは複数によって実装することができる。技法900のうちの少なくともいくつかの態様は、図2に関して説明したように、部分的または完全に実装することができる。
技法900は、モノラルオーディオセグメントを受信し、空間情報をオーディオセグメントの少なくとも1つの聴覚イベントに割り当てる。技法900は、空間情報を割り当てるために、オーディオセグメントに対応するビデオフレーム内の視覚情報を使用する。
902において、技法900は、第1のオーディオセグメントを受信する。第1のオーディオセグメントは非空間化されている。すなわち、第1のオーディオセグメントにおける聴覚イベントに関して利用できる空間情報はない。第1のオーディオセグメントは、第1のビデオフレームに関連付けられている。
第1のオーディオセグメントは、ネットワークを介して、ケーブルを介して、第1のオーディオセグメントを受信することによって、あるいは、プライマリメモリ、またはディスクドライブもしくはコンパクトフラッシュ(登録商標)(CF)カード、セキュアデジタル(SD)カードなどのリムーバブルメディアを含む他のストレージデバイスからオーディオセグメントを読み取ることなどによって任意の数の方法で受信することができる。第1のオーディオセグメントは、第1のオーディオセグメントおよび第1のビデオフレームの両方を含むストリーム(たとえば、ファイル)において受信することができる。一例では、ストリームのオーディオトラックとビデオトラックを逆多重化することができる。第1のオーディオセグメントと第1のビデオフレームは、ストリームのシーンに対応することができる。一例では、ビデオは全天球ビデオであり得る。
904において、技法900は、第1のビデオフレーム内の視覚オブジェクトを識別する。視覚オブジェクトは、図1のオブジェクト認識装置108などのオブジェクト認識モジュールによって識別することができる。視覚オブジェクトは、図2のオブジェクト分類210に関して説明したように識別することができる。一例では、視覚オブジェクトを識別するステップは、第1のビデオフレームにおける視覚オブジェクトを識別するために、画像認識を使用するステップを含むことができる。
906において、技法900は、第1のオーディオセグメントにおける聴覚イベントを識別する。聴覚イベントは、図1のオーディオ分類装置106などのオーディオ分類装置106によって識別することができる。聴覚イベントは、図2のオーディオ分類208に関して説明したように識別することができる。一例では、聴覚イベントを識別するステップは、それぞれが聴覚イベントに対応する複数のトラックに第1のオーディオセグメントを分解することによって、第1のオーディオセグメントにおける聴覚イベントを識別するために、ブラインド音源分離を使用するステップを含み得る。
908において、技法900は、視覚オブジェクトのうちのある視覚オブジェクトと聴覚イベントのうちのある聴覚イベントとの間の一致を識別する。一致は、図8の自動一致814に関して説明したように、自動的に識別され得る。一致は、図8の手動一致816に関して説明したように、手動で識別され得る。
910において、技法900は、視覚オブジェクトの位置に基づいて、空間的位置を聴覚イベントに割り当てる。空間的位置は、図8のオーディオ空間化装置820に説明されているように割り当てることができる。
一例では、技法900は、図2の空間情報214、または図8のオーディオ出力824に関して説明したように、聴覚イベントと聴覚イベントの空間的位置とを備えるオーディオ出力を生成するステップを含むことができる。
一例では、技法900は、一致しない聴覚イベントを識別するステップと、一致しない聴覚イベントをユーザインターフェースにおいて提示するステップとを含むことができる。一致しない聴覚イベントは、第1のビデオフレームにおいて識別された視覚オブジェクトと一致しない聴覚イベントであり得る。たとえば、一致しない聴覚イベントは、図8のオーディオ残留818の聴覚イベントであり得る。一例では、一致しない聴覚イベントは、図8の手動一致816に関して説明したように、一致しない聴覚イベントまたは不一致の聴覚イベントであり得る。したがって、一例では、技法900は、ユーザから、第1のビデオフレームにおいて識別された視覚オブジェクトのうちのある視覚オブジェクトへの一致しない聴覚イベントの割当て(すなわち、マッピング)を受信するステップを含むことができる。
一例では、技法900は、ユーザから、一致しないオーディオイベントを拡散音として割り当てるための指示を受信するステップを含むことができる。指示はユーザ入力にすることができる。ユーザは、図8のオーディオ残留818に関して説明したように、一致しないオーディオイベントを拡散音場に割り当てることができる。
一例では、技法900は、図8のオーディオ残留818に関して説明したように、ユーザから、一致しない音の一致しない聴覚イベントを指向性音として割り当てるための指示、および一致しない聴覚イベントの空間方向を受信するステップを含むことができる。
一例では、技法900は、聴覚イベントを含む第2のオーディオセグメントを受信するステップと、視覚オブジェクトを含まない第2のビデオフレームを受信するステップと、第1のビデオフレームの少なくともサブセットに少なくとも部分的に基づいて視覚オブジェクトの動きベクトルを決定するステップと、動きベクトルに基づいて、周囲空間的位置を聴覚イベントに割り当てるステップとを含むことができる。
一例では、技法900は、聴覚イベントを含む第2のオーディオセグメントを受信するステップと、視覚オブジェクトを含まない第2のビデオフレームを受信するステップと、第1のビデオセグメントと第2のビデオセグメントとの間の時間差に基づいて、周囲空間的位置または拡散位置のうちの1つを聴覚イベントに割り当てるステップとを含み得る。たとえば、話しており、シーンにおいて見えている人が見えなくなったが、まだ話しているシナリオを考えてみる。その人が見えなくなってからの時間が長くなるほど、その人の位置は予測しにくくなる可能性がある。たとえば、人が見えなくなったときにその人の位置を推定するために、最初は動きベクトルを使用することができるが、より長期間後に人の位置を予測し続けるために、動きベクトルを妥当に使用することはできない。たとえば、人が最初にシーンの左側から退出して、最初に周囲音の方向が割り当てられている間に、その人はカメラの周り(たとえば、後ろ)を回ったり、カーテンの後ろに隠れたりした可能性がある。したがって、一定の時間(たとえば、2秒など)の後、人の音を拡散音場に割り当てることができる。
図10は、空間情報をオーディオセグメントに割り当てるための技法1000の別の例のフローチャートである。技法1000のうちの少なくともいくつかの態様は、図1のシステム100のモジュールのうちの1つまたは複数によって実装することができる。技法1000のうちの少なくともいくつかの態様は、図2に関して説明したように、部分的または完全に実装することができる。
技法1000は、モノラルオーディオセグメントを受信し、空間情報をオーディオセグメントのうちの少なくとも1つの聴覚イベントに割り当てる。技法1000は、空間情報を割り当てるために、オーディオセグメントに対応するビデオフレーム内の視覚情報を使用する。
1002において、技法1000は、上述のように、オーディオトラックとビデオフレームを取得するためにビデオを逆多重化する。1004において、技法1000は、それぞれの視覚ラベルをビデオフレーム内の視覚オブジェクトに割り当てる。一例では、技法1000は、視覚ラベルを割り当てるために、画像認識および/またはオブジェクト分類を使用する。1006において、技法1000は、オーディオトラックを複数のトラックに分割する。一例では、技法1000は、複数のトラックを取得するために、音源分離(ブラインドオーディオ音源分離など)を使用する。1008において、技法1000は、それぞれのオーディオラベルを複数のトラックに割り当てる。一例では、そして上記のように、技法1000は、それぞれのオーディオラベルを割り当てるために、オーディオ分類装置106などのオーディオ分類装置を使用することができる。
1010において、技法1000は、図8の自動一致814に関して上で説明したように、オーディオラベルのうちの少なくともいくつかを視覚ラベルのうちのいくつかに自動的に一致させる。1012において、技法1000は、図8の運動ベクトルおよび/または空間情報819に関して上で説明したように、視覚オブジェクトのうちのいくつかのそれぞれの位置に基づいて、それぞれの空間的位置をオーディオラベルのうちのいくつかに割り当てる。
一例では、技法1000は、一致しないオーディオラベルに対応する残留トラックを識別するステップと、ユーザに、ディスプレイにおいて残留トラックを表示するステップとを含むことができる。一例では、技法1000は、残留トラックのうちのある残留トラックの拡散音場への第1の割当て、ビデオフレームの任意の空間的位置への前記ある残留トラックの第2の割当て、周囲音としての前記ある残留トラックの第3の割当て、または、ビデオフレーム内の視覚オブジェクトへの前記ある残留トラックの第4の割当てのうちの少なくとも1つを、ユーザから受信するステップを含むことができる。
図11は、空間情報をオーディオセグメントに割り当てるための技法1100のさらに別の例のフローチャートである。技法1100のうちの少なくともいくつかの態様は、図1のシステム100のモジュールのうちの1つまたは複数によって実装することができる。技法1100のうちの少なくともいくつかの態様は、図2に関して説明したように、部分的または完全に実装することができる。
1102において、技法1100は、非空間化されており、第1のビデオフレームに関連付けられている、第1のオーディオセグメントを受信する。第1のオーディオセグメントは、モノラルオーディオセグメントであることができる。第1のオーディオセグメントは、図9の902に関して説明したように受信することができる。1104において、技法1100は、第1のビデオフレーム内の視覚オブジェクトを識別する。視覚オブジェクトを識別するステップは、図9の904に関して説明した通りであり得る。1106において、技法1100は、第1のオーディオセグメントにおける聴覚イベントを識別する。聴覚イベントを識別するステップは、図9の906に関して説明した通りであり得る。
1108において、技法1100は、視覚オブジェクトのうちのある視覚オブジェクトと聴覚イベントのうちのある聴覚イベントとの間に一致があるかどうかを決定する。一致がある場合、技法1100は1110に進み、空間情報を聴覚イベントに割り当てる。一致がない場合、技法1100は1112に進み、聴覚イベントを拡散音場に割り当てる。
一例では空間情報を聴覚イベントに割り当てるステップは、視覚オブジェクトの位置に基づいて、空間的位置を聴覚イベントに割り当てるステップを含むことができる。一例では、空間的位置は、図5の504に関して上記で説明したように、視覚オブジェクトの境界ポリゴンの中心であり得る。
一例では、技法1100は、聴覚イベントと聴覚イベントの空間的位置とを含むオーディオファイルを生成するステップを含むことができる。一例では、オーディオファイルを生成するステップは、聴覚イベントと聴覚イベントに関連する拡散音情報とを含むオーディオファイルを生成するステップを含むことができる。オーディオファイルを生成するステップは、図8のオーディオ出力824に関して説明した通りであり得る。
説明を簡単にするために、技法200、300、400、500、800、900、1000、および1100はそれぞれ、一連のブロック、ステップ、または動作として描写および説明されている。しかしながら、本開示によるブロック、ステップ、または動作は、様々な順序で、および/または同時に発生する可能性がある。さらに、本明細書に提示および記載されていない他のステップまたは操作も使用され得る。さらに、開示された主題に従って技法を実装するために、図示されたすべてのステップまたは動作が必要とされるわけではない。
「例」または「実装形態」という言葉は、本明細書では、例、実例、または例示として機能することを意味するために使用される。本明細書で「例」または「実装形態」として説明される態様または設計は、必ずしも他の態様または設計よりも好ましいまたは有利であると解釈されるべきではない。むしろ、「例」または「実装形態」という言葉の使用は、概念を具体的に提示することを目的としている。本明細書で使用されているように、「または」という用語は、排他的「または」ではなく、包括的「または」を意味することを意図している。すなわち、特に明記されていない限り、または文脈から明らかでない限り、「XはAまたはBを含む」は、自然な包括的順列のいずれかを意味することを意図している。すなわち、XがAを含む場合、XがBを含む場合、または、XがAとBの両方を含む場合、前述の実例のすべてにおいて「XはAまたはBを含む」が満たされる。さらに、本出願および添付の特許請求の範囲で使用される冠詞「a」および「an」は、特に明記されていない限り、または文脈から明らかに単数形に向けられない限り、一般に「1つまたは複数」を意味すると解釈されるべきである。さらに、全体を通して「実装形態」または「一実装形態」という用語の使用は、そのように説明されない限り、同じ実施形態または実装形態を意味することを意図するものではない。
システム100の実装形態(および、その上に記憶され、および/またはそれによって実行される、技法200、300、400、500、800、900、1000、および/または1100を含む、アルゴリズム、方法、命令など)は、ハードウェア、ソフトウェア、またはそれらの任意の組合せにおいて実現することができる。ハードウェアは、たとえば、コンピュータ、知的財産(IP)コア、特定用途向け集積回路(ASIC)、プログラム可能なロジックアレイ、光プロセッサ、プログラム可能なロジックコントローラ、マイクロコード、マイクロコントローラ、サーバ、マイクロプロセッサ、デジタル信号プロセッサ、または任意の他の適切な回路を含むことができる。特許請求の範囲において、「プロセッサ」という用語は、単独でまたは組み合わせて、前述のハードウェアのうちのいずれかを包含すると理解されるべきである。「信号」および「データ」という用語は互換的に使用される。さらに、システム100の部分は、必ずしも同じ方法で実装される必要はない。
さらに、一態様では、たとえば、システム100は、メモリに命令として記憶することができ、実行されると、本明細書に記載されているそれぞれの方法、アルゴリズム、および/または命令のうちのいずれかを実行するコンピュータプログラムを備えたコンピュータまたはプロセッサを使用して実装することができる。さらに、または代わりに、たとえば、本明細書に記載されている方法、アルゴリズム、または命令のうちのいずれかを実行するための他のハードウェアを含むことができる専用コンピュータ/プロセッサを利用することができる。
さらに、本開示の実装形態のすべてまたは一部は、たとえば、有形のコンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品の形態をとることができる。コンピュータ使用可能またはコンピュータ可読媒体は、たとえば、任意のプロセッサによって、または任意のプロセッサに関連して使用するために、プログラムを具体的に含み、記憶し、通信し、または輸送することができる任意のデバイスであり得る。媒体は、たとえば、電子、磁気、光学、電磁気、または半導体デバイスであり得る。他の適切な媒体も利用可能である。
上記の実施形態、実装形態、および態様は、本開示の容易な理解を可能にするために説明されており、本開示を限定しない。むしろ、本開示は、添付の特許請求の範囲内に含まれる様々な修正および等価な構成を網羅することを意図しており、その範囲は、法律の下で許可されるすべてのそのような修正および同等の構造を包含するように最も広い解釈を与えられるべきである。
100 システム
102 ビデオ
104 オーディオ
106 オーディオ分類装置
108 オブジェクト認識装置
110 マッチャ
112 オーディオ空間化装置
114 拡散フィールドシンセサイザ
200 技法
202 ビデオ
204 オーディオトラック
206 ビデオフレーム
208 オーディオ分類
210 オブジェクト分類
212 一致
214 空間情報
300 技法
400 技法
500 技法
600 ユーザインターフェース
602 オーディオセグメント
604 ラベル
606 音源
608 音源
610 音源
612 確実性指標
614 スペクトログラム
700 例
702 フレーム
704 リスト
706 境界ポリゴン
708 リスト
710 データ構造
712 境界ポリゴン
714 ラベル
716 境界ポリゴン
718 ラベル
800 技法
801 ビデオ
802 ビデオフレーム
804 視覚オブジェクト
806 オーディオセグメント
808 音源分離モジュール
810 聴覚オブジェクト
812 残留オーディオ信号
814 自動一致
816 手動一致
818 オーディオ残留
819 空間情報
820 オーディオ空間化装置
822 拡散フィールドシンセサイザ
824 オーディオ出力
900 技法
1000 技法
1100 技法

Claims (18)

  1. 空間情報をオーディオセグメントに割り当てるコンピュータ実装方法であって、
    非空間化されており、第1のビデオフレームに関連付けられている、第1のオーディオセグメントを受信するステップと、
    前記第1のビデオフレームにおいて視覚オブジェクトを識別するステップと、
    前記第1のオーディオセグメントにおいて聴覚イベントを識別するステップと、
    前記視覚オブジェクトのうちのある視覚オブジェクトと前記聴覚イベントのうちのある聴覚イベントとの間の一致を識別するステップと、
    前記ある視覚オブジェクトの位置に基づいて、空間的位置を前記ある聴覚イベントに割り当てるステップと
    を備える、方法であって、前記方法は、
    第2のオーディオセグメントを受信するステップであって、前記第2のオーディオセグメントが前記ある聴覚イベントを含む、ステップと、
    第2のビデオフレームを受信するステップであって、前記第2のビデオフレームが前記ある視覚オブジェクトを含まない、ステップと、
    前記第1のビデオフレームの少なくともサブセットに少なくとも部分的に基づいて前記ある視覚オブジェクトの動きベクトルを決定するステップと、
    前記動きベクトルに基づいて、周囲空間的位置を前記聴覚イベントのうちの前記ある聴覚イベントに割り当てるステップと
    をさらに備える、方法
  2. 空間情報をオーディオセグメントに割り当てるコンピュータ実装方法であって、
    非空間化されており、第1のビデオフレームに関連付けられている、第1のオーディオセグメントを受信するステップと、
    前記第1のビデオフレームにおいて視覚オブジェクトを識別するステップと、
    前記第1のオーディオセグメントにおいて聴覚イベントを識別するステップと、
    前記視覚オブジェクトのうちのある視覚オブジェクトと前記聴覚イベントのうちのある聴覚イベントとの間の一致を識別するステップと、
    前記ある視覚オブジェクトの位置に基づいて、空間的位置を前記ある聴覚イベントに割り当てるステップと
    を備える、方法であって、
    第2のオーディオセグメントを受信するステップであって、前記第2のオーディオセグメントが前記ある聴覚イベントを含む、ステップと、
    第2のビデオフレームを受信するステップであって、前記第2のビデオフレームが前記ある視覚オブジェクトを含まない、ステップと、
    前記第1のビデオフレームと前記第2のビデオフレームとの間の時間差に基づいて、周囲空間的位置または拡散位置のうちの1つを前記ある聴覚イベントに割り当てるステップと
    をさらに備える、方法。
  3. 一致しない聴覚イベントを識別するステップであって、前記一致しない聴覚イベントが、前記第1のビデオフレームにおいて識別された視覚オブジェクトと一致しない、ステップと、
    前記一致しない聴覚イベントをユーザインターフェースにおいて提示するステップと
    をさらに備える、請求項1または2に記載の方法。
  4. ユーザから、前記第1のビデオフレームにおいて識別された前記視覚オブジェクトのうちの別の視覚オブジェクトへの前記一致しない聴覚イベントの割当てを受信するステップをさらに備える、請求項3に記載の方法。
  5. ユーザから、前記一致しない聴覚イベントを拡散音として割り当てるための指示を受信するステップをさらに備える、請求項3に記載の方法。
  6. ユーザから、前記一致しない聴覚イベントを指向性音として割り当てるための指示、および前記一致しない聴覚イベントの空間方向を受信するステップをさらに備える、請求項3に記載の方法。
  7. 前記第1のビデオフレームが全天球ビデオのフレームである、または、
    前記第1のオーディオセグメントがモノラルである、請求項1から6のいずれか一項に記載の方法。
  8. 前記第1のオーディオセグメントにおける前記聴覚イベントを識別するステップが、
    前記第1のオーディオセグメントを複数のトラックに分解することによって前記第1のオーディオセグメントにおける前記聴覚イベントを識別するために、ブラインド音源分離を使用するステップであって、各トラックがそれぞれの聴覚イベントに対応する、ステップを備える、請求項1から7のいずれか一項に記載の方法。
  9. 前記第1のビデオフレームにおける前記視覚オブジェクトを識別するステップが、
    前記第1のビデオフレームにおける前記視覚オブジェクトを識別するために、画像認識を使用するステップを備える、請求項1から8のいずれか一項に記載の方法。
  10. 前記聴覚イベントのうちの前記ある聴覚イベント、および前記ある聴覚イベントの前記空間的位置を備えるオーディオ出力を生成するステップをさらに備える、請求項1から9のいずれか一項に記載の方法。
  11. 第2のオーディオセグメントを受信するステップであって、前記第2のオーディオセグメントが前記ある聴覚イベントを含む、ステップと、
    第2のビデオフレームを受信するステップであって、前記第2のビデオフレームが前記ある視覚オブジェクトを含まない、ステップと、
    前記第1のビデオフレームと前記第2のビデオフレームとの間の時間差に基づいて、周囲空間的位置または拡散位置のうちの1つを前記ある聴覚イベントに割り当てるステップと
    をさらに備える、請求項1または、請求項3から10のいずれか一項に記載の方法。
  12. 前記第1のビデオフレームにおける前記視覚オブジェクトを識別するステップが、それぞれの視覚ラベルを、前記第1のビデオフレームにおける視覚オブジェクトに割り当てるステップを備え、
    前記第1のオーディオセグメントにおける前記聴覚イベントを識別するステップが、
    前記第1のオーディオセグメントを複数のトラックに分割するステップと、
    それぞれのオーディオラベルを複数のトラックに割り当てるステップと
    を備え、
    前記視覚オブジェクトのうちの前記ある視覚オブジェクトと前記聴覚イベントのうちの前記ある聴覚イベントとの間の前記一致を識別するステップが、前記それぞれのオーディオラベルのうちのいくつかを前記視覚ラベルのうちのいくつかに自動的に一致させるステップを備える、請求項1または2に記載の方法。
  13. 空間情報をオーディオセグメントに割り当てるための装置であって、
    非空間化されており、第1のビデオフレームに関連付けられている、第1のオーディオセグメントを受信することと、
    前記第1のビデオフレームにおいて視覚オブジェクトを識別することと、
    前記第1のオーディオセグメントにおいて聴覚イベントを識別することと、
    前記視覚オブジェクトのうちのある視覚オブジェクトと前記聴覚イベントのうちのある聴覚イベントとの間の一致を識別することに応答して、空間情報を前記ある聴覚イベントに割り当てることと、
    前記一致を識別しないことに応答して、前記ある聴覚イベントを拡散音場に割り当てることと
    を行うように構成されたプロセッサを備え、前記プロセッサは、
    第2のオーディオセグメントを受信することであって、前記第2のオーディオセグメントが前記ある聴覚イベントを含む、ことと、
    第2のビデオフレームを受信することであって、前記第2のビデオフレームが前記ある視覚オブジェクトを含まない、ことと、
    前記第1のビデオフレームの少なくともサブセットに少なくとも部分的に基づいて前記ある視覚オブジェクトの動きベクトルを決定することと、
    前記動きベクトルに基づいて、周囲空間的位置を前記聴覚イベントのうちの前記ある聴覚イベントに割り当てることと
    をさらに行うように構成されている、装置。
  14. 前記空間情報を前記ある聴覚イベントに割り当てることが、
    前記ある視覚オブジェクトの位置に基づいて、空間的位置を前記ある聴覚イベントに割り当てることを備える、請求項13に記載の装置。
  15. 前記空間的位置が、前記ある視覚オブジェクトの境界ポリゴンの中心に対応する、請求項14に記載の装置。
  16. 前記プロセッサが、
    前記ある聴覚イベント、および前記ある聴覚イベントの前記空間的位置を含むオーディオファイルを生成するように構成される、請求項14または15に記載の装置。
  17. 前記プロセッサが、
    前記ある聴覚イベントおよび前記ある聴覚イベントに関連する拡散音情報を含むオーディオファイルを生成するように構成される、請求項13に記載の装置。
  18. 請求項1から12のいずれか一項に記載の方法を実行するように構成されたプロセッサを備える、装置。
JP2022547129A 2020-02-03 2020-10-16 ビデオ情報に基づく空間オーディオ拡張 Active JP7464730B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/779,921 US11704087B2 (en) 2020-02-03 2020-02-03 Video-informed spatial audio expansion
US16/779,921 2020-02-03
PCT/US2020/055964 WO2021158268A1 (en) 2020-02-03 2020-10-16 Video-informed spatial audio expansion

Publications (2)

Publication Number Publication Date
JP2023514121A JP2023514121A (ja) 2023-04-05
JP7464730B2 true JP7464730B2 (ja) 2024-04-09

Family

ID=73198490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022547129A Active JP7464730B2 (ja) 2020-02-03 2020-10-16 ビデオ情報に基づく空間オーディオ拡張

Country Status (6)

Country Link
US (2) US11704087B2 (ja)
EP (1) EP4055596A1 (ja)
JP (1) JP7464730B2 (ja)
KR (1) KR20220116502A (ja)
CN (1) CN114981889A (ja)
WO (1) WO2021158268A1 (ja)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030053680A1 (en) 2001-09-17 2003-03-20 Koninklijke Philips Electronics N.V. Three-dimensional sound creation assisted by visual information
JP2006123161A (ja) 2004-09-30 2006-05-18 Samsung Electronics Co Ltd 位置把握、追跡および分離のためのオーディオビデオセンサー融合装置および融合方法
JP2007272733A (ja) 2006-03-31 2007-10-18 Sony Corp 画像処理装置および方法、並びにプログラム
JP2010117946A (ja) 2008-11-13 2010-05-27 Masafumi Hagiwara オブジェクト追尾方法および画像処理装置
JP2011071683A (ja) 2009-09-25 2011-04-07 Nec Corp 映像オブジェクト検出装置、映像オブジェクト検出方法及びプログラム
US20140314391A1 (en) 2013-03-18 2014-10-23 Samsung Electronics Co., Ltd. Method for displaying image combined with playing audio in an electronic device
JP2015032001A (ja) 2013-07-31 2015-02-16 キヤノン株式会社 情報処理装置および情報処理手法、プログラム
JP2016513410A (ja) 2013-02-15 2016-05-12 クゥアルコム・インコーポレイテッドQualcomm Incorporated マルチチャネルオーディオデータのビデオ解析支援生成
JP2016062071A5 (ja) 2014-09-22 2017-10-19
JP2019050482A (ja) 2017-09-08 2019-03-28 オリンパス株式会社 情報取得機器、表示方法およびプログラム
JP2019078864A (ja) 2017-10-24 2019-05-23 日本電信電話株式会社 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム
JP2019523902A (ja) 2016-05-25 2019-08-29 ワーナー ブラザーズ エンターテイメント インコーポレイテッド 3d音声ポジショニングを用いて仮想現実又は拡張現実のプレゼンテーションを生成するための方法及び装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2414369B (en) * 2004-05-21 2007-08-01 Hewlett Packard Development Co Processing audio data
US8755432B2 (en) 2010-06-30 2014-06-17 Warner Bros. Entertainment Inc. Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
US8761412B2 (en) * 2010-12-16 2014-06-24 Sony Computer Entertainment Inc. Microphone array steering with image-based source location
WO2012094338A1 (en) * 2011-01-04 2012-07-12 Srs Labs, Inc. Immersive audio rendering system
US9888333B2 (en) * 2013-11-11 2018-02-06 Google Technology Holdings LLC Three-dimensional audio rendering techniques
US10492014B2 (en) * 2014-01-09 2019-11-26 Dolby Laboratories Licensing Corporation Spatial error metrics of audio content
US9282399B2 (en) * 2014-02-26 2016-03-08 Qualcomm Incorporated Listen to people you recognize
US9570113B2 (en) * 2014-07-03 2017-02-14 Gopro, Inc. Automatic generation of video and directional audio from spherical content
JP6392051B2 (ja) * 2014-09-22 2018-09-19 株式会社東芝 電子機器、方法およびプログラム
US9756421B2 (en) * 2016-01-22 2017-09-05 Mediatek Inc. Audio refocusing methods and electronic devices utilizing the same
US20170293461A1 (en) * 2016-04-07 2017-10-12 VideoStitch Inc. Graphical placement of immersive audio sources
CN109313904B (zh) * 2016-05-30 2023-12-08 索尼公司 视频音频处理设备和方法以及存储介质
GB2562036A (en) * 2017-04-24 2018-11-07 Nokia Technologies Oy Spatial audio processing
EP3503592B1 (en) * 2017-12-19 2020-09-16 Nokia Technologies Oy Methods, apparatuses and computer programs relating to spatial audio
US10649638B2 (en) * 2018-02-06 2020-05-12 Adobe Inc. Immersive media content navigation and editing techniques

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030053680A1 (en) 2001-09-17 2003-03-20 Koninklijke Philips Electronics N.V. Three-dimensional sound creation assisted by visual information
JP2006123161A (ja) 2004-09-30 2006-05-18 Samsung Electronics Co Ltd 位置把握、追跡および分離のためのオーディオビデオセンサー融合装置および融合方法
JP2007272733A (ja) 2006-03-31 2007-10-18 Sony Corp 画像処理装置および方法、並びにプログラム
JP2010117946A (ja) 2008-11-13 2010-05-27 Masafumi Hagiwara オブジェクト追尾方法および画像処理装置
JP2011071683A (ja) 2009-09-25 2011-04-07 Nec Corp 映像オブジェクト検出装置、映像オブジェクト検出方法及びプログラム
JP2016513410A (ja) 2013-02-15 2016-05-12 クゥアルコム・インコーポレイテッドQualcomm Incorporated マルチチャネルオーディオデータのビデオ解析支援生成
US20140314391A1 (en) 2013-03-18 2014-10-23 Samsung Electronics Co., Ltd. Method for displaying image combined with playing audio in an electronic device
JP2015032001A (ja) 2013-07-31 2015-02-16 キヤノン株式会社 情報処理装置および情報処理手法、プログラム
JP2016062071A5 (ja) 2014-09-22 2017-10-19
JP2019523902A (ja) 2016-05-25 2019-08-29 ワーナー ブラザーズ エンターテイメント インコーポレイテッド 3d音声ポジショニングを用いて仮想現実又は拡張現実のプレゼンテーションを生成するための方法及び装置
JP2019050482A (ja) 2017-09-08 2019-03-28 オリンパス株式会社 情報取得機器、表示方法およびプログラム
JP2019078864A (ja) 2017-10-24 2019-05-23 日本電信電話株式会社 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム

Also Published As

Publication number Publication date
KR20220116502A (ko) 2022-08-23
EP4055596A1 (en) 2022-09-14
US11704087B2 (en) 2023-07-18
US20230305800A1 (en) 2023-09-28
WO2021158268A1 (en) 2021-08-12
CN114981889A (zh) 2022-08-30
US20210240431A1 (en) 2021-08-05
JP2023514121A (ja) 2023-04-05

Similar Documents

Publication Publication Date Title
Gao et al. 2.5 d visual sound
Morgado et al. Self-supervised generation of spatial audio for 360 video
US11887578B2 (en) Automatic dubbing method and apparatus
Zhou et al. Sep-stereo: Visually guided stereophonic audio generation by associating source separation
US12073850B2 (en) Data driven audio enhancement
Yang et al. Telling left from right: Learning spatial correspondence of sight and sound
CN112425157B (zh) 信息处理装置和方法以及程序
JP7116424B2 (ja) 画像に応じて音オブジェクトを混合するプログラム、装置及び方法
US11212637B2 (en) Complementary virtual audio generation
JP2011071685A (ja) 映像音響処理システム、映像音響処理方法及びプログラム
JP2013171089A (ja) 音声補正装置、方法、及びプログラム
US10153002B2 (en) Selection of an audio stream of a video for enhancement using images of the video
Wang et al. Self-supervised learning of audio representations from audio-visual data using spatial alignment
JP7464730B2 (ja) ビデオ情報に基づく空間オーディオ拡張
CN112995530A (zh) 视频的生成方法、装置及设备
Sato et al. Self-Supervised Learning for Audio-Visual Relationships of Videos with Stereo Sounds
JP2014195267A (ja) 映像音響処理システム、映像音響処理方法及びプログラム
CN115567670B (zh) 会议检视方法及装置
US20230308823A1 (en) Systems and Methods for Upmixing Audiovisual Data
Lv et al. A TCN-based primary ambient extraction in generating ambisonics audio from Panorama Video
WO2024175623A1 (en) Electronic device, method, and computer program
Dimoulas et al. Spatial audio content management within the MPEG-7 standard of ambisonic localization and visualization descriptions
GB2601114A (en) Audio processing system and method
CN117099159A (zh) 信息处理装置、信息处理方法和程序

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220802

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220802

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240328

R150 Certificate of patent or registration of utility model

Ref document number: 7464730

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150