JP2022537513A - 音場関連レンダリング - Google Patents

音場関連レンダリング Download PDF

Info

Publication number
JP2022537513A
JP2022537513A JP2021573579A JP2021573579A JP2022537513A JP 2022537513 A JP2022537513 A JP 2022537513A JP 2021573579 A JP2021573579 A JP 2021573579A JP 2021573579 A JP2021573579 A JP 2021573579A JP 2022537513 A JP2022537513 A JP 2022537513A
Authority
JP
Japan
Prior art keywords
audio signal
focus
spatial audio
spatial
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021573579A
Other languages
English (en)
Inventor
タピオ ビルカモ ユハ
オズカン コレイ
ライティネン ミッコ-ビッレ
Original Assignee
ノキア テクノロジーズ オサケユイチア
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オサケユイチア filed Critical ノキア テクノロジーズ オサケユイチア
Publication of JP2022537513A publication Critical patent/JP2022537513A/ja
Priority to JP2024006056A priority Critical patent/JP2024028526A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2203/00Details of circuits for transducers, loudspeakers or microphones covered by H04R3/00 but not provided for in any of its subgroups
    • H04R2203/12Beamforming aspects for stereophonic sound reproduction with loudspeaker arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Abstract

【課題】音場関連オーディオ表現およびレンダリングのための装置および方法。【解決手段】フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータを取得し、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の少なくとも一部の相対的なエンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成し、処理された空間オーディオ信号を出力するのように構成された手段を含む、空間的なオーディオ再生のための装置であって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする装置。【選択図】図1b

Description

本願発明は、音場関連オーディオ表現およびレンダリングのための装置および方法に関するものであるが、オーディオデコーダのためのオーディオ表現に限定されるものではない。
複数の視聴方向を持つメディアを提示するための空間的なオーディオ再生が知られている。この再生の例としては、(少なくとも)頭の向きを追跡できるヘッドマウントディスプレイ(またはヘッドマウントの電話)、または電話の位置/向きを変更することによってビュー方向を追跡できるヘッドマウントなしの電話画面、または任意のユーザ・インターフェースジェスチャーで、または周囲の画面での再生がある。
「複数の視聴方向を持つメディア」に関連する映像としては、例えば360度映像、180度映像など、従来の映像よりも実質的に視聴角度の広い映像が考えられる。従来の映像とは、通常、画面上に全体が表示され、視聴方向を変更するオプション(または特定の必要性)がない映像コンテンツのことである。
複数の視聴方向を持つビデオに関連するオーディオは、視聴方向が追跡され空間オーディオ再生に影響を与えるヘッドフォンや、サラウンドラウドスピーカのセットアップで提示することができる。
複数の視聴方向を持つ映像に関連付けられた空間オーディオは、マイクアレイ(例えば、OZOのようなVRカメラに取り付けられたアレイ、または手持ちのモバイルデバイス)からの空間オーディオキャプチャ、またはスタジオミックスなどの他のソースに由来することができる。また、オーディオコンテンツは、マイクキャプチャされたオーディオと追加された解説者トラックなど、複数のコンテンツタイプの混合物であることも可能である。
複数の視聴方向を持つ映像に関連する空間オーディオは、例えば、様々な形態が考えられる。球面調和オーディオ信号成分からなるアンビソニック信号(任意の次数)。球面高調波は、空間的に選択的なビーム信号のセットと考えることができる。現在、アンビソニックは、例えば、YouTube(登録商標)360VRビデオサービスなどで活用されている。 アンビソニックsの利点は、シンプルでよく定義された信号表現であることです。サラウンドスピーカ信号(例:5.1)。現在、一般的な映画の空間オーディオは、この形式で伝えられています。サラウンドラウドスピーカ信号の利点は、シンプルでレガシーな互換性があることである。サラウンドラウドスピーカ信号のフォーマットに似たオーディオフォーマットには、時間的に変化する位置を持つオーディオチャンネルとみなすことができるオーディオオブジェクトを含むものがある。位置は、オーディオオブジェクトの方向と距離、または方向の両方を通知することができる。パラメトリック空間オーディオ、すなわち、知覚的に関連する周波数帯域の2つのオーディオチャネルのオーディオ信号と関連する空間メタデータなど、一部の最先端のオーディオ符号化方式と空間オーディオキャプチャ方式は、このような信号表現を適用している。空間メタデータは、基本的にオーディオ信号が受信側でどのように空間的に再生されるべきかを決定する(例えば、異なる周波数でどの方向に再生されるか)。パラメトリック空間オーディオの利点は、汎用性、品質、そしてエンコーディングに低いビットレートを使用できることである。
第1の態様によれば、フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータを取得し、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の少なくとも一部の相対的なエンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成し、処理された空間オーディオ信号を出力するように構成された手段を含む装置が提供される。ここで、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を有する。
少なくとも1つのフォーカスパラメータは、フォーカス量を定義するようにさらに構成されてもよく、空間オーディオ信号を処理するように構成された手段は、フォーカス量に従って、さらにフォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的エンファシスを制御するように、空間オーディオ信号を処理するように構成されることができる。
空間オーディオ信号を処理するように構成された手段は、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを増加させ、または相対的なエンファシスを減少させるように構成されることができる。
空間オーディオ信号を処理するように構成された手段は、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の少なくとも一部の相対的な音レベルを増加または減少させるように構成されることができる。
空間オーディオ信号を処理するように構成された手段は、フォーカス量に従って、フォーカス形状の外の空間オーディオ信号のの他の部分少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的サウンドレベルを増加または減少させるように構成されることができる。
前記手段は、前記処理された空間オーディオ信号を出力することの少なくとも1つの態様を制御するための再生制御情報を取得するように構成されてもよく、前記処理された空間オーディオ信号を出力するように構成された手段は、修正されたオーディオシーンを表す処理された空間オーディオ信号を処理して、再生制御情報に従った出力空間オーディオ信号を生成することと、オーディオシーンを表す空間オーディオ信号を処理するように構成された手段に先立って、再生制御情報に従って空間オーディオ信号を処理して、修正されたオーディオシーンを表す処理済空間オーディオ信号を生成し、処理済空間オーディオ信号を出力空間オーディオ信号として出力することとのうちの1つを実行するように構成されることができる。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれのアンビソニック信号を含んでよく、空間オーディオ信号を処理して処理された空間オーディオ信号を生成するように構成された手段は、1つ以上の周波数サブバンドについて、空間オーディオ信号に関連付けられたアンビソニック信号を、定義されたパターンのビーム信号のセットに変換し、一組のビーム信号、フォーカス形状、およびフォーカス量に基づいて、一組の修正ビーム信号を生成し、前記修正ビーム信号を変換し、処理された空間オーディオ信号に関連する修正アンビソニック信号を生成すること、のように構成されることができる。
定義されたパターンは、平面上または体積上に等間隔に配置された定義された数のビームから構成される場合がある。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれの高次アンビソニック信号から構成されることができる。
空間オーディオ信号および処理された空間オーディオ信号は、任意の次数のアンビソニック信号成分のサブセットから構成されることができる。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含んでよく、パラメトリック空間オーディオ信号は、1つ以上のオーディオチャネルおよび空間メタデータを含んでよく、空間メタデータは、複数の周波数サブバンドに対するそれぞれの方向標示、エネルギー比パラメータ、および潜在的に距離標示を含むことができる。入力空間オーディオ信号を処理して、処理済み空間オーディオ信号を生成するように構成された手段は、空間メタデータと、フォーカス形状およびフォーカス量とに基づいて、1つ以上の周波数サブバンドについてスペクトル調整係数を計算し、前記1つ以上のオーディオチャネルの1つ以上の周波数サブバンドに対してスペクトル調整係数を適用して、1つ以上の処理済みオーディオチャネルを生成し、フォーカス形状、フォーカス量、および空間メタデータの少なくとも一部に基づいて、処理された空間オーディオ信号の1つ以上の周波数サブバンドに関連するそれぞれの修正エネルギー比パラメータを計算し、前記1つ以上の処理済みオーディオチャネル、前記修正エネルギー比率パラメータ、および前記エネルギー比率パラメータ以外の空間メタデータからなる処理済み空間オーディオ信号を構成するように構成されることができる。
空間オーディオ信号および処理された空間オーディオ信号は、マルチチャンネルラウドスピーカチャンネルおよび/またはオーディオオブジェクトチャンネルを含むことができる。空間オーディオ信号を処理された空間オーディオ信号に処理するように構成された手段は、それぞれのオーディオチャネル方向標示、フォーカス形状、およびフォーカス量に基づいて利得調整係数を計算し、利得調整係数をそれぞれのオーディオチャネルに適用し、そして、1つ以上の処理されたマルチチャンネルラウドスピーカオーディオチャンネルおよび/または1つ以上の処理されたオーディオオブジェクトチャンネルを含む処理された空間オーディオ信号を作るように構成され得る。
マルチチャンネルスピーカチャンネルおよび/またはオーディオオブジェクトチャンネルは、それぞれのオーディオチャンネル距離標示をさらに含み、演算利得調整係数は、オーディオチャンネル距離標示にさらに基づくものであってもよい。
この手段は、デフォルトのそれぞれのオーディオチャネル距離を決定するようにさらに構成されてもよく、コンピューティング利得調整係数は、オーディオチャネル距離に基づいてさらに構成されることができる。
フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータは、フォーカス方向、フォーカス幅、フォーカスの高さ、フォーカス半径、フォーカス距離フォーカス深度、フォーカス範囲、フォーカス径、および、フォーカス形状キャラクタライザのうちの少なくとも1つを含むことができる。
前記手段は、少なくとも1つの方向センサと少なくとも1つのユーザ入力とを備えるセンサ構成からフォーカス入力を得るようにさらに構成されてもよく、前記フォーカス入力は、少なくとも1つの方向センサの方向に基づくフォーカス形状のフォーカス方向の標示、および少なくとも1つのユーザ入力に基づくフォーカス幅の標示、フォーカス入力は、少なくとも1つのユーザ入力に基づくフォーカス量の標示をさらに含むことができる。
第2の態様によれば、フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータを取得するステップと、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の少なくとも一部の相対的エンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成するステップと処理された空間オーディオ信号を出力するステップであって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を含む方法が提供される。
少なくとも1つのフォーカスパラメータは、フォーカス量を定義するようにさらに構成されてもよく、空間オーディオ信号を処理することは、フォーカス量に従って、さらにフォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号のの部分少なくとも一部における相対的なエンファシスを制御するように、空間オーディオ信号を処理することを含むことができる。
空間オーディオ信号を処理することは、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを増加させる、または相対的なエンファシスを減少させることを含むことができる。
空間オーディオ信号を処理することは、フォーカス形状の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して相対的サウンドレベルを増加または減少させることを含むことができる。
空間オーディオ信号を処理することは、フォーカス量に従って、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的サウンドレベルを増加または減少させることを含むことができる。
この方法は、処理された空間オーディオ信号を出力することの少なくとも1つの態様を制御するための再生制御情報を取得することを含んでもよく、処理された空間オーディオ信号を出力することは、前記修正されたオーディオシーンを表す処理された空間オーディオ信号を処理して、前記再生制御情報に従った出力空間オーディオ信号を生成するステップと、オーディオシーンを表す空間オーディオ信号を処理するように構成された手段の前に、再生制御情報に従って空間オーディオ信号を処理して、修正されたオーディオシーンを表す処理済空間オーディオ信号を生成し、処理済空間オーディオ信号を出力空間オーディオ信号として出力するステップと、のうちの1つを実行することを含むことができる。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれのアンビソニック信号を含んでよく、処理された空間オーディオ信号を生成するために空間オーディオ信号を処理することは、1つ以上の周波数サブバンドについて、空間オーディオ信号に関連するアンビソニック信号を、定義されたパターンのビーム信号のセットに変換するステップと、一組のビーム信号、フォーカス形状、およびフォーカス量に基づいて、一組の修正ビーム信号を生成するステップと、前記修正ビーム信号を変換して、前記処理された空間オーディオ信号に関連する修正アンビソニック信号を生成するステップと、を含むことができる。
定義されたパターンは、平面上または体積上に等間隔に配置された定義された数のビームから構成される場合がある。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれの高次アンビソニック信号から構成されることができる。
空間オーディオ信号および処理された空間オーディオ信号は、任意の次数のアンビソニック信号成分のサブセットから構成されることができる。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含んでよく、パラメトリック空間オーディオ信号は、1つ以上のオーディオチャネルおよび空間メタデータを含んでよく、空間メタデータは、複数の周波数サブバンドに対するそれぞれの方向標示、エネルギー比パラメータ、および潜在的に距離標示を含むことができる。入力空間オーディオ信号を処理して処理済み空間オーディオ信号を生成することは、空間メタデータと、フォーカス形状およびフォーカス量とに基づいて、1つ以上の周波数サブバンドについてスペクトル調整係数を計算するステップと、を含んでよく、前記1つ以上のオーディオチャネルの1つ以上の周波数サブバンドに対してスペクトル調整係数を適用して、1つ以上の処理済みオーディオチャネルを生成するステップとフォーカス形状、フォーカス量、および空間メタデータの少なくとも一部に基づいて、処理された空間オーディオ信号の1つ以上の周波数サブバンドに関連するそれぞれの修正エネルギー比パラメータを計算するステップと、前記1つ以上の処理済みオーディオチャネル、前記修正エネルギー比率パラメータ、および前記エネルギー比率パラメータ以外の空間メタデータを含む処理済み空間オーディオ信号を構成するステップと、を含むことができる。
空間オーディオ信号および処理された空間オーディオ信号は、マルチチャンネルラウドスピーカチャンネルおよび/またはオーディオオブジェクトチャンネルを含んでよく、空間オーディオ信号を処理された空間オーディオ信号に処理することは、それぞれのオーディオチャネル方向標示、フォーカス形状、およびフォーカス量に基づいて利得調整係数を計算するステップと、利得調整係数をそれぞれのオーディオチャネルに適用するステップと、1つ以上の処理されたマルチチャンネルラウドスピーカオーディオチャンネルおよび/または1つ以上の処理されたオーディオオブジェクトチャンネルを含む処理された空間オーディオ信号を構成するステップと、を含むことができる。
マルチチャンネルスピーカチャンネルおよび/またはオーディオオブジェクトチャンネルは、それぞれのオーディオチャンネル距離標示をさらに含み、コンピューティング利得調整係数は、オーディオチャンネル距離標示に基づいてさらに行われてもよい。
本方法は、デフォルトのそれぞれのオーディオチャネル距離を決定することをさらに含み、コンピューティング利得調整係数は、オーディオチャネル距離に基づいてさらに決定されることができる。フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータは、フォーカス方向、フォーカス幅、フォーカスの高さ、フォーカス半径、フォーカス距離、フォーカス深度、フォーカス範囲、フォーカス径、フォーカス形状キャラクタライザのうちの少なくとも1つを含むことができる。
本方法は、少なくとも1つの方向センサと少なくとも1つのユーザ入力とを備えるセンサ配置からフォーカス入力を得ることをさらに含み、フォーカス入力は、少なくとも1つの方向センサの方向に基づく、フォーカス形状のフォーカス方向の標示、および少なくとも1つのユーザ入力に基づくフォーカス幅の標示、を含むことができる。
フォーカス入力は、少なくとも1つのユーザ入力に基づくフォーカス量の標示をさらに含むことができる。
第3の態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備える装置であって、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサを用いて、装置に少なくとも、フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータを取得するステップとオーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対する相対的なエンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成するステップと、処理された空間オーディオ信号を出力し、修正されたオーディオシーンは、フォーカス形状の外にある空間オーディオ信号の他の部分の少なくとも一部と比較して、少なくとも一部のフォーカス形状の内の空間オーディオ信号の部分における相対的なエンファシスを可能にするステップとを実行させるように構成される装置が提供される。
少なくとも1つのフォーカスパラメータは、フォーカス量を定義するようにさらに構成されてもよく、空間オーディオ信号を処理するようにされた装置は、フォーカス量に従って、さらにフォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と相対的に、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的エンファシスを制御するように、空間オーディオ信号を処理するようにされることができる。空間オーディオ信号を処理するようにされた装置は、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを増加させる、または相対的なエンファシスを減少させるようにされることができる。
空間オーディオ信号を処理するようにされた装置は、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的サウンドレベルを増加または減少させるようにされることができる。
空間オーディオ信号を処理するようにされた装置は、フォーカス量に従って、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的サウンドレベルを増加または減少させるようにされることができる。
装置は、処理された空間オーディオ信号を出力することの少なくとも1つの態様を制御するための再生制御情報を取得するようにされてもよく、処理された空間オーディオ信号を出力するようにされた装置は、修正されたオーディオシーンを表す処理された空間オーディオ信号を処理して、再生制御情報に従って出力空間オーディオ信号を生成するステップ、オーディオシーンを表す空間オーディオ信号を処理するように構成された手段の前に、再生制御情報に従って空間オーディオ信号を処理して、修正されたオーディオシーンを表す処理済空間オーディオ信号を生成し、処理済空間オーディオ信号を出力空間オーディオ信号として出力するステップのうちの1つを実行するようにされることができる。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれのアンビソニック信号を含んでよく、処理された空間オーディオ信号を生成するために空間オーディオ信号を処理させる装置は、1つ以上の周波数サブバンドについて、空間オーディオ信号に関連するアンビソニック信号を、定義されたパターンのビーム信号のセットに変換することと、一組のビーム信号、フォーカス形状、およびフォーカス量に基づいて、一組の修正ビーム信号を生成することと、前記修正ビーム信号を変換して、処理された空間オーディオ信号に関連する修正アンビソニック信号を生成することと、を行わせることができる。
定義されたパターンは、平面上または体積上に等間隔に配置された定義された数のビームから構成される場合がある。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれの高次アンビソニック信号から構成されることができる。
空間オーディオ信号および処理された空間オーディオ信号は、任意の次数のアンビソニック信号成分のサブセットから構成されることができる。
空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含んでよく、パラメトリック空間オーディオ信号は、1つ以上のオーディオチャネルおよび空間メタデータを含んでよく、空間メタデータは、複数の周波数サブバンドに対するそれぞれの方向標示、エネルギー比パラメータ、および潜在的に距離標示を含んでよく、入力空間オーディオ信号を処理して、処理済み空間オーディオ信号を生成するようにされた装置は、1)空間オーディオ信号が、複数の周波数帯のうちの複数の周波数帯のうちの複数の周波数帯のうちの一部の周波数帯のためのそれぞれの方向標示を含んでよく、2)空間オーディオ信号が、複数の周波数帯のうちの複数の周波数帯のうちの複数の周波数帯のための複数の方向標示を含んでよく、3)空間メタデータが、複数の周波数帯のうちの複数の周波数帯のうちの一部の周波数帯のためのそれぞれの方向標示を含んでよい空間メタデータと、フォーカス形状およびフォーカス量と、に基づいて、1つ以上の周波数サブバンドについてスペクトル調整係数を計算するステップと、前記1つ以上のオーディオチャネルの1つ以上の周波数サブバンドに対してスペクトル調整係数を適用して、1つ以上の処理済みオーディオチャネルを生成するステップと、フォーカス形状、フォーカス量、および空間メタデータの少なくとも一部に基づいて、処理された空間オーディオ信号の1つ以上の周波数サブバンドに関連するそれぞれの修正エネルギー比パラメータを計算するステップと、前記1つ以上の処理済みオーディオチャネル、前記修正エネルギー比率パラメータ、および前記エネルギー比率パラメータ以外の空間メタデータからなる処理済み空間オーディオ信号を構成するステップと、を行わせることができる。
空間オーディオ信号および処理された空間オーディオ信号は、マルチチャンネルラウドスピーカチャンネルおよび/またはオーディオオブジェクトチャンネルを含んでよく、空間オーディオ信号を処理された空間オーディオ信号に処理させる装置は、それぞれのオーディオチャネル方向標示、フォーカス形状、およびフォーカス量に基づいて、利得調整係数を計算するステップと、利得調整係数をそれぞれのオーディオチャネルに適用するステップと、1つ以上の処理されたマルチチャンネルラウドスピーカオーディオチャンネルおよび/または1つ以上の処理されたオーディオオブジェクトチャンネルを含む処理された空間オーディオ信号を構成するステップと、を実行することができる。
マルチチャンネルスピーカチャンネルおよび/またはオーディオオブジェクトチャンネルは、それぞれのオーディオチャンネル距離標示をさらに含み、演算利得調整係数は、オーディオチャンネル距離標示に基づいてさらに決定されることができる。装置は、デフォルトのそれぞれのオーディオチャネル距離を決定するようにさらに引き起こされてもよく、コンピューティング利得調整係数は、オーディオチャネル距離に基づいてさらに決定されることができる。フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータは、フォーカス方向フォーカス幅フォーカスの高さフォーカス半径フォーカス距離フォーカス深度フォーカス範囲フォーカス径フォーカス形状キャラクタライザのうちの少なくとも1つを含むことができる。
装置は、少なくとも1つの方向センサと少なくとも1つのユーザ入力とを備えるセンサ構成からフォーカス入力を得るようにさらに引き起こされてもよく、フォーカス入力は、少なくとも1つの方向センサの方向に基づく、フォーカス形状のフォーカス方向の標示、および少なくとも1つのユーザ入力に基づくフォーカス幅の標示を含むことができる。
フォーカス入力は、少なくとも1つのユーザ入力に基づくフォーカス量の標示をさらに含むことができる。
第4の態様によれば、フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータを取得するように構成されたフォーカスパラメータ取得回路、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを制御するように、オーディオシーンを表す空間オーディオ信号を処理して、修正されたオーディオシーンを表す処理済空間オーディオ信号を生成するように構成された空間オーディオ信号処理回路、および処理された空間オーディオ信号を出力するように構成された出力制御回路であって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対する、フォーカス形状の内の空間オーディオ信号の少なくとも一部の相対的エンファシスを可能にする、出力制御回路を備える装置が提供される。
第5の態様によれば、装置に少なくとも、フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータを取得するステップと、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して相対的なエンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成するステップと、処理された空間オーディオ信号を出力するステップであって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を実行させるための命令[またはプログラム命令を含むコンピュータ可読媒体]を含むコンピュータプログラムが提供される。
第6の態様によれば、装置に少なくとも、フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータを取得するステップと、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して相対的にエンファシスを制御するように、修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するステップと、処理された空間オーディオ信号を出力するステップであって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を実行させるためのプログラム命令を含む非一時的なコンピュータ可読媒体が提供される。
第7の態様によれば、フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータを得るための手段と、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して相対的なエンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成するための手段と、処理された空間オーディオ信号を出力する手段であって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の少なくとも一部の相対的なエンファシスを可能にする、手段と、を備える装置が提供される。
第8の態様によれば、装置に少なくとも、フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータを取得するステップと、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して相対的にエンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成するステップと、処理された空間オーディオ信号を出力するステップであって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を実行させるためのプログラム命令を含むコンピュータ可読媒体が提供される。上記に記載の方法の作用を実行するための手段を含む装置。上記の方法の作用を実行するように構成された装置。コンピュータに上記の方法を実行させるためのプログラム命令を含むコンピュータプログラム。媒体に格納されたコンピュータプログラム製品は、装置に本明細書に記載の方法を実行させることができる。
電子デバイスは、本明細書に記載されるような装置を含んでいてもよい。
チップセットは、本明細書に記載の装置から構成されることができる。
本願発明の実施形態は、技術の現状に関連する問題点を解決することを目的とする。
本願のより良い理解のために、次に、添付の図面を例として参照する。
図1aおよび1bは、オーディオフォーカス領域またはエリアを示す例示的なサウンドシーンを示す。 図1aおよび1bは、オーディオフォーカス領域またはエリアを示す例示的なサウンドシーンを示す。 図2aおよび2bは、いくつかの実施形態による例示的な再生装置および再生装置をオペレーションさせる方法を概略的に示している。 図2aおよび2bは、いくつかの実施形態による例示的な再生装置および再生装置をオペレーションさせる方法を概略的に示している。 図3は、いくつかの実施形態において適用される球状高調波パターンおよびこれらの球状高調波パターンの選択されたサブセットを模式的に示す図である。 図4は、アンビソニック信号および20度の例示的なフォーカス方向に整列した変換されたビーム信号に対応するビームパターンを概略的に示している。 図5aおよび5bは、いくつかの実施形態による、高次アンビソニックオーディオ信号入力を有する図2aに示すような例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサをオペレーションさせる方法とを模式的に示している。 図5aおよび5bは、いくつかの実施形態による、高次アンビソニックオーディオ信号入力を有する図2aに示すような例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサをオペレーションさせる方法とを模式的に示している。 図6は、フォーカス方向が20度、幅が45度の例の処理の様子を模式的に示したものである。 図7は、フォーカス方向がマイナス90度、幅が90度の更なる例の処理を模式的に示すビジュアライゼーション図である。 図8Aおよび8Bは、いくつかの実施形態による、パラメトリック空間オーディオ信号入力を有する図2Aに示す例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサをオペレーションさせる方法とを概略的に示す図である。 図8Aおよび8Bは、いくつかの実施形態による、パラメトリック空間オーディオ信号入力を有する図2Aに示す例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサをオペレーションさせる方法とを概略的に示す図である。 図9aおよび9bは、いくつかの実施形態による、マルチチャンネルおよび/またはオーディオオブジェクトのオーディオ信号入力と、例示的なフォーカスプロセッサをオペレーションさせる方法とを有する図2aに示された例示的なフォーカスプロセッサを概略的に示す図である。 図9aおよび9bは、いくつかの実施形態による、マルチチャンネルおよび/またはオーディオオブジェクトのオーディオ信号入力と、例示的なフォーカスプロセッサをオペレーションさせる方法とを有する図2aに示された例示的なフォーカスプロセッサを概略的に示す図である。 図10は、いくつかの実施形態による、フォーカス距離と半径の入力に基づく例示的なフォーカス幅の決定を示す。 図11aおよび図11bは、いくつかの実施形態による、高次アンビソニックオーディオ信号入力を有する図2aに示すような例示的な再生プロセッサおよび例示的な再生プロセッサのオペレーション方法を模式的に示している。 図11aおよび図11bは、いくつかの実施形態による、高次アンビソニックオーディオ信号入力を有する図2aに示すような例示的な再生プロセッサおよび例示的な再生プロセッサのオペレーション方法を模式的に示している。 図12aおよび図12bは、いくつかの実施形態によるパラメトリック空間オーディオ信号入力を有する図2aに示すような例示的な再生プロセッサと、例示的な再生プロセッサをオペレーションさせる方法とを概略的に示す図である。 図12aおよび図12bは、いくつかの実施形態によるパラメトリック空間オーディオ信号入力を有する図2aに示すような例示的な再生プロセッサと、例示的な再生プロセッサをオペレーションさせる方法とを概略的に示す図である。 図13は、いくつかの実施形態の例示的な実装を示す図である。 図14は、いくつかの実施形態による、フォーカス方向、フォーカス量、およびフォーカス幅を制御するための例示的なコントローラを示す図である。 図15は、いくつかの実施形態による高次アンビソニックスオーディオ信号の処理に基づく処理出力例を示す図である。 図16は、示された装置を実施するのに適した例示的な装置を示す。
以下では、空間オーディオ信号の効率的なレンダリングおよび再生の提供のための好適な装置および可能な機構についてさらに詳細に説明する。
これまでの空間オーディオ信号の再生例では、ユーザがフォーカス方向とフォーカス量を制御することが可能であった。しかし、いくつかの状況では、フォーカス方向/量のそのような制御は十分でない場合がある。状況によっては、制御インタフェースを有するユーザがフォーカス形状を制御できるようにすることが望ましい場合がある。音場では、アンビエント音だけでなく、特定の視聴方向における複数の支配的な音源など、多くの異なる特徴が存在する場合がある。あるユーザは、音場の特定の特徴を聞くことを好むかもしれないが、他のあるユーザは、どの視聴方向が望ましいかによって音場の代替的な特徴を聞くことを好むかもしれない。そのような再生オーディオは、1つ以上の好みに依存し、ユーザ関連の好みに基づいて構成可能であることが理解される。再生装置から望まれる性能は、様々な形状または領域(例えば、狭い、広い、浅い、深い、近い、遠い)へのフォーカスを制御できるように空間音響の再生を構成することである。
一例として、単に一方向ではなく、セクタ(または円錐または別の空間スパンまたは範囲)内に関心のあるオーディオコンテンツが存在する場合がある。具体的には、フォーカスの空間スパンを制御することが有用である場合がある。以下に説明する図1a、1bは、再生された空間オーディオ信号を聴く際に、ユーザが何を知覚することを意図しているかを示したものである。例えば、図1aに例示されるように、ユーザの一方の側に関心のあるソースが存在し、ユーザの他方の側に気が散るソースが存在し得る。図1aは、定義された向きで配置されるユーザ101を示す。オーディオシーン内には、フォーカス方向および幅によって定義される所望のフォーカス領域103内にある、例えば劇場演劇内の話し手のような関心源105が存在する。さらに、ビュー方向の後ろなど、ビュー方向の外側にある観客または他のアンビエントオーディオコンテンツ107が存在する場合がある。
さらに、ユーザは、時間の経過とともにセクタの幅を変更することを望むかもしれない。例えば、最初は(図1aに示すように)フォーカスセクタを比較的広く保つことによって演劇のすべてのソースにフォーカスを合わせ、その後、フォーカスセクタを狭くすることによって特定のソースにフォーカスを合わせる。
別の例として、所望のまたは興味深いオーディオコンテンツは、ある距離(リスナーに対して、または別の位置に対して)にある場合がある。例えば、ある方向のある距離に望ましくないまたは興味のないオーディオソースがあり、同じ方向(またはほぼ同じ方向)の別の距離に望ましいまたは興味のあるオーディオソースがある場合がある。これは、図1bに示されている。図1bは、例えば、中心位置と半径によって定義される所望のフォーカス領域103内にあるテーブルの周りの例えばトーカーなどの関心のあるソース105とともにオーディオシーン内に定義された方向で位置するユーザ101を示す。さらに、左側の環境オーディオコンテンツ151、音楽ソースオーディオコンポーネント155、および所望のフォーカス領域の外にある関心ソースの向こうの他の話者オーディオコンテンツ153などの他のアンビエントオーディオコンテンツが存在する可能性がある。このような実施形態では、オーディオフォーカス領域または形状は、中心フォーカス位置とフォーカス半径とによって決定される。
したがって、本明細書で論じるような実施形態は、(フォーカス方向および量に加えて)フォーカス形状の制御を提供しようとするものである。本明細書で説明される実施形態に関して議論されるような概念は、制御されたオーディオフォーカス形状上のオーディオシーンが変化するが信号フォーマットは同じままであり得るオーディオフォーカス形状の制御を提供することによって、複数の視聴方向を有するメディア再生における空間オーディオ再生に関連するものである。
実施形態では、選択された方向に対応する、フォーカス幅フォーカスの高さフォーカス半径フォーカス距離およびフォーカス深度のパラメータのいずれか(または2つまたはすべての組み合わせ)を調整することにより、選択可能な方向に対応する少なくとも1つのフォーカス形状パラメータを提供する。いくつかの実施形態におけるこのパラメータセットは、任意の形状を定義するパラメータから構成される。
空間オーディオ信号処理は、いくつかの実施形態において、複数の視聴方向を有するメディアに関連する空間オーディオ信号を取得するステップと、フォーカス方向および量パラメータを取得するステップと、少なくとも1つのフォーカ所望のフォーカス特性を有するように空間オーディオ信号を変更するステップと、所望のフォーカス特性を有するように空間オーディオ信号を変更するステップと、(ヘッドフォンまたはラウドスピーカを使用する)修正された空間オーディオ信号を再生するステップとによって実行することができる。
得られた空間オーディオ信号は、例えば、アンビソニック信号、ラウドスピーカ信号、オーディオチャンネルのセットと関連する空間メタデータなどのパラメトリック空間オーディオフォーマットであってもよい。
フォーカス形状は、いくつかの実施形態では、どのパラメータが利用可能であるかに依存してもよい。例えば、方向、幅、および高さのみを有する場合、形状は、楕円体コーン型ボリュームであってよい。別の例として、距離および深さのみを有する場合、フォーカス形状は、中空の球体であってもよい。幅/高さおよび/または奥行きを有しない場合、それらはあるデフォルト値を有するとみなしてもよい。さらに、いくつかの実施形態では、任意のフォーカス形状を用いてもよい。
フォーカス量は、いくつかの実施形態において、「度(degree)」またはフォーカスをどのくらい行うかを決定してもよい。例えばフォーカスは0%から100%であってよく、0%は元のサウンドシーンを変更せずに維持することを意味し、100%は所望の空間形状に最大にフォーカスすることを意味する。
いくつかの実施形態では、異なるユーザが異なるフォーカス特性を有することを望む場合があり、元の空間オーディオ信号は、個々の好みに基づいて、各ユーザのために個別に変更および再生される場合がある。
図2aは、一例による空間オーディオ処理装置250のいくつかの構成要素および/またはエンティティのブロック図を示す。この図に示され、後にさらに詳述される2つの別個のステップ(フォーカスプロセッサ+再生プロセッサ)は、統合されたプロセスとして実装され得ること、またはいくつかの例では、本明細書に記載されるのと逆の順序(再生プロセッサオペレーションが次にフォーカスプロセッサオペレーションに続く場合)で実装され得ることは理解されよう。空間オーディオ処理装置250は、入力オーディオ信号とさらにフォーカスパラメータ202を受信し、入力オーディオ信号200に基づいて、フォーカスパラメータ202に依存してフォーカス音成分204を有するオーディオ信号を導出するように構成されたオーディオフォーカスプロセッサ201からなる(フォーカス方向、フォーカス量、フォーカスの高さ、フォーカス半径、フォーカス距離、およびフォーカス深度を含むことができる)。いくつかの実施形態では、装置は、フォーカス形状が少なくとも1つのフォーカスパラメータ(フォーカス形状を定義するように構成されることができる)を含んでいるフォーカス形状を得るように構成され得る。空間オーディオ処理装置250は、フォーカス音成分204と再生制御情報206とを受信するように構成され、オーディオ再生プロセッサ207におけるフォーカス音成分を有する空間オーディオ信号の処理に係る少なくとも一つの態様を制御するのに役立つ再生制御情報206にさらに依存して、フォーカス音成分を有するオーディオ信号に基づいて所定のオーディオフォーマットで出力オーディオ信号208を導出するように構成されるオーディオ再生プロセッサ207をさらに含むことができる。再生制御情報206は、再生方向(または再生方向)の標示および/または適用可能なラウドスピーカ構成の標示を含んでいてもよい。上述した空間オーディオ信号の処理方法を考慮して、オーディオフォーカスプロセッサ201は、受信したフォーカス量に従って、受信したフォーカス領域における空間オーディオ信号の少なくとも一部におけるエンファシスを制御するようにオーディオシーンを変更することによって、空間オーディオ信号を処理する態様を実施するように配置されることができる。オーディオ再生プロセッサ207は、観察された方向および/または位置に基づいて処理された空間オーディオ信号を修正されたオーディオシーンとして出力してもよく、修正されたオーディオシーンは、フォーカス領域における空間オーディオ信号の少なくとも前記部分について、受信したフォーカス量に応じたエンファシスを実証している。
図2aの説明では、入力オーディオ信号、フォーカス音成分を有するオーディオ信号、および出力オーディオ信号の各々は、予め定義された空間オーディオフォーマットにおけるそれぞれの空間オーディオ信号として提供される。したがって、これらの信号は、それぞれ、入力空間オーディオ信号、フォーカス音成分を有する空間オーディオ信号、および出力空間オーディオ信号と呼ばれることがある。前述の線に沿って、典型的には、空間オーディオ信号は、オーディオシーンのそれぞれの特定の位置にある1つ以上の指向性音源と、オーディオシーンの雰囲気の両方を含むオーディオシーンを伝える。しかし、いくつかのシナリオでは、空間オーディオシーンは、アンビエンスを伴わない1つ以上の指向性音源、または指向性音源を伴わないアンビエンスを含む場合がある。この点で、空間オーディオ信号は、オーディオシーン内で一定の位置(例えば、リスニングポイントに対する一定の到来方向および一定の相対強度)を有する明確な音源を表す1つ以上の指向性音成分および/またはオーディオシーン内の環境音を表す環境音成分を伝える情報を含んでいる。オーディオシーンを指向性サウンドコンポーネント(複数可)とアンビエントコンポーネントに分割することは、一般的に表現または近似に過ぎないが、実際のサウンドシーンは、広い音源やコヒーレントな音響反射など、より複雑な特徴を含む場合があることに注意すべきである。しかしながら、そのような複雑な音響的特徴があっても、オーディオシーンを直接成分と周囲成分の組み合わせとして概念化することは、少なくとも知覚的な意味において、典型的に公正な表現または近似である。
一般に、入力オーディオ信号と集音成分を有するオーディオ信号は、同じ予め定義された空間フォーマットで提供されるが、出力オーディオ信号は、入力オーディオ信号(および集音成分を有するオーディオ信号)に対して適用されるのと同じ空間フォーマットで提供されることができるし、異なる予め定義された空間フォーマットが出力オーディオ信号に対して採用されることもある。出力オーディオ信号の空間オーディオフォーマットは、出力オーディオ信号の再生のために適用される音響再生ハードウェアの特性を考慮して選択される。一般に、入力オーディオ信号は、第1の所定の空間オーディオフォーマットで提供されてもよく、出力オーディオ信号は、第2の所定の空間オーディオフォーマットで提供されることができる。第1および/または第2の空間オーディオフォーマットとして使用するのに適した空間オーディオフォーマットの非限定的な例は、アンビソニックス、予め定められたラウドスピーカ構成に従ったサラウンドラウドスピーカ信号、予め定められたパラメトリック空間オーディオフォーマットである。第1および/または第2の空間オーディオフォーマットとしての空間オーディオ処理装置250の枠組みにおけるこれらの空間オーディオフォーマットの使用のより詳細な非限定的な例は、本開示において後に提供される。
空間オーディオ処理装置250は、典型的には、入力フレームのシーケンスとしての入力空間オーディオ信号200を出力フレームのそれぞれのシーケンスに処理するために適用され、それぞれの入力(出力)フレームは、所定のサンプリング周波数での入力(出力)サンプルのそれぞれの時系列として提供される、入力(出力)空間オーディオ信号の各チャネルのためのデジタルオーディオ信号のそれぞれのセグメントを含んでいる。いくつかの実施形態では、空間オーディオ処理装置250への入力信号は、例えばAAC、またはAAC+埋め込みメタデータなどの符号化形態であり得る。そのような実施形態では、符号化されたオーディオ入力は、最初に復号され得る。同様にいくつかの実施形態では、空間オーディオ処理装置250からの出力は、任意の適切な方法で符号化され得る。
典型的な例では、空間オーディオ処理装置250は、各フレームが入力空間オーディオ信号の各チャネルについてそれぞれL個のサンプルから構成され、所定のサンプリング周波数において時間的に対応する持続時間に対応するような、固定された所定のフレーム長を採用する。この点に関する例として、固定フレーム長は20ミリ秒(ms)であってよく、8、16、32または48kHzのサンプリング周波数では、チャネルごとにそれぞれL=160、L=320、L=640およびL=960サンプルのフレームに帰結する。フレームは、プロセッサがフィルタバンクを適用するかどうか、またこれらのフィルタバンクがどのように構成されるかによって、重複しない場合もあれば、部分的に重複する場合もある。しかし、これらの値は、非限定的な例として役立ち、これらの例とは異なるフレーム長および/またはサンプリング周波数が、例えば、所望のオーディオ帯域幅、所望のフレーミング遅延および/または利用可能な処理容量に応じて、代わりに採用されることができる。
空間オーディオ処理装置250において、フォーカスは、ユーザが選択可能な空間関心領域を指す。フォーカスは、例えば、オーディオシーン全般のある方向、距離、半径、円弧であってもよい。別の例では、関心のある(指向性の)音源が現在配置されているフォーカス領域である。前者のシナリオでは、フォーカスが特定の空間領域で優勢であるため、ユーザが選択可能なフォーカスは、典型的には、一定に留まる領域または頻繁に変化しない領域を示すが、後者のシナリオでは、フォーカスが、オーディオシーンにおけるその位置/形状/サイズを時間と共に変化しても(またはしなくても)よい特定の音源に設定されるので、ユーザが選択したフォーカスはより頻繁に変化するかもしれない。一例では、フォーカスは、例えば、第1の予め定義された基準方向に関して関心のある空間方向を定義する方位角として、および/または第2の予め定義された基準方向に関して関心のある空間方向を定義する仰角として、および/または形状および/または距離および/または半径または形状パラメータとして定義されることができる。
空間オーディオ処理装置250の構成要素を参照して前述した機能性は、例えば、図2bに描かれたフローチャートによって示される方法260に従って提供され得る。方法260は、例えば、多数の例を介して本開示で説明した空間オーディオ処理システム250を実装するように配置された装置によって提供されることができる。方法260は、オーディオシーンを表す入力空間オーディオ信号を、修正されたオーディオシーンを表す出力空間オーディオ信号に処理するための方法として機能する。方法260は、ブロック261に示されるように、フォーカス領域の標示と、フォーカス強度の標示とを受信することを備える。
方法260は、ブロック263に示されるように、入力空間オーディオ信号を、前記フォーカス領域から到来する音の相対レベルが前記フォーカス強度に従って修正される修正されたオーディオシーンを表す中間空間オーディオ信号に処理することをさらに備える。
方法260は、ブロック265に示されるように、出力空間オーディオ信号への中間空間信号の処理を制御する再生制御情報を受信することをさらに備える。再生制御情報は、たとえば、出力空間オーディオ信号のための再生方向(たとえば、聴取方向または視線方向)またはラウドスピーカ構成のうちの少なくとも1つを定義してもよい。
方法260は、ブロック267に示されるように、前記再生制御情報に従って、前記中間空間オーディオ信号を前記出力空間オーディオ信号に処理することをさらに含む。
方法260は、例えば、前述および以下で提供される空間オーディオ処理装置250のコンポーネントのそれぞれの機能性に係る例に従って、複数の方法で変化させることができる。
いくつかの実施形態では、空間オーディオ処理装置250への入力は、アンビソニック信号である。本装置は、任意の順序のアンビソニック信号を受信するように構成することができる(そして、本方法を適用することができる)。しかし、1次アンビソニック(FOA)信号は、空間選択性がかなり広い(具体的には1次指向性)ため、フォーカス形状を細かく制御するには、空間選択性の高い高次アンビソニック(HOA)が適していることが例示される。特に以下の実施例では、方法および装置は、3次アンビソニックオーディオ信号を受信するように構成される。
3次アンビソニックオーディオ信号は、合計で16のビームパターン信号を有する(3Dで)。しかし、以下の例では、簡略化のために、フォーカス形状パラメータの実装を示すために、図3に示すように、より「水平」な7つのアンビソニック成分(言い換えれば、オーディオ信号)だけをここで考慮する。例えば図3には、0次球面調和パターン301、1次球面調和パターン303、2次球面調和パターン305、3次球面調和パターン307が示されている。さらに図3は、より「水平」である3次の球面調和パターンまでに関するサブセット309および311を示す。
図5aに関して、例示的なアンビソニック信号xHOA(t)500およびフォーカス方向502を受信するように構成されたフォーカスプロセッサ550が示されている。上述したようにこの例のフォーカスプロセッサ550への入力は、サブセット3次アンビソニック信号、例えばサブセット309および311である。また、以下では、3次アンビソニック信号xHOA(t)500を、簡単のためにHOAと表記する。水平方位θから到来する、tを離散サンプルインデックスとする信号x(t)は、
Figure 2022537513000002

のようにしてHOA信号として表現することができる。ここで、a(θ)はアンビソニック重みベクトルで方位θのものである(図3)。この式に見られるように、アンビソニックパターンの選択されたサブセットは、水平面内のこれらの非常に単純な数式で定義することができる。
いくつかの実施形態では、フォーカスプロセッサ550は、マトリクスプロセッサ501から構成される。マトリックスプロセッサ501は、いくつかの実施形態において、アンビソニック(HOA)信号500(アンビソニックまたは球面調和パターンに対応)を、7つの等間隔な水平方向におけるビーム信号(ビームパターンに対応)のセットに変換するように構成される。これは、いくつかの実施形態において、変換行列T(θ)によって表され得、θは、フォーカス方向502パラメータである。
Figure 2022537513000003

ここで、
Figure 2022537513000004

であり、
Figure 2022537513000005

である。
なお、この変換には、第1のパターンをフォーカス方向に合わせ、他のパターンを対称的な間隔で他の方向に合わせるようなフォーカス方向θ502パラメータに基づく処理が含まれる。
例えば、θ=20度の場合、変換後の信号x(t)504に対応するビームパターンと、元のHOA信号に対応するビームパターンは、図4に示すようになる。図4は、例えば、アンビソニック信号に対応するビームパターン例を示す上段401と、20度にあるフォーカス方向が変換されたビーム信号を示す下段403である。そして、変換されたオーディオ信号は、空間ビーム(フォーカスパラメータに基づく)プロセッサ503に出力されることができる。
フォーカスプロセッサ550は、空間ビーム(フォーカスパラメータに基づく)プロセッサ503をさらに含むことができる。空間ビームプロセッサ503は、マトリックスプロセッサ501から変換されたアンビソニック信号x(t)504を受け取り、さらに、フォーカス量および幅フォーカスパラメータ508を受け取るように構成される。
空間ビームプロセッサ503は、次に、空間ビーム信号x(t)504を修正して、処理されたまたは修正された空間ビーム信号x’を生成するよう構成される。(t)506は、フォーカス量および形状パラメータ508に基づく。処理されたまたは修正された空間ビーム信号x’(t)506は、次に、さらなる行列プロセッサ505に出力され得る。空間ビームプロセッサ503は、フォーカス形状パラメータの種類に基づいて様々な処理方法を実施するように構成される。この例示的な実施形態では、フォーカスパラメータは、フォーカス方向、フォーカス幅、およびフォーカス量である。フォーカス量は、1が最大フォーカスを示す0...1の間の範囲の値aとして決定することができる。フォーカス幅θ(フォーカス方向からフォーカスアークの端までの角度として決定される)もまた、可変または制御可能なパラメータである。空間ビーム信号は、
Figure 2022537513000006

で生成できる。ここでI(θ,a)はその対角要素がi(θ,a)として決まる対角行列
Figure 2022537513000007

である。
この例では、ビームx(t)は、第1のビームがフォーカス方向を向き、第2のビームがフォーカス方向+pを向くように定式化されていることに注目されたい。その結果、行列I(θ,a)を適用する場合、フォーカス幅パラメータに応じて、フォーカス方向から遠いビームが減衰されることになる。
フォーカス処理部201は、さらにマトリクス処理部505を含んで構成される。さらなるマトリクスプロセッサ505は、処理されたまたは修正された空間ビーム信号x’(t)506と、を受信するように構成される。フォーカス方向502を逆変換した結果を、フォーカス処理されたHOA信号として生成する。変換行列T(θ)は反転可能であるため、反転処理は
Figure 2022537513000008

で表すことができる。ここでx’HOAはフォーカス処理されたHOA出力510である。
図6に関しては、フォーカスパラメータが最大フォーカス量a=1、フォーカス方向がθ=20度、フォーカス幅θ=45度である例を示している。上段601は、フォーカス処理された変換領域信号x’とフォーカス効果領域に対応するビームパターンを示している。下段603は出力信号x’HOA(t)に対応するビームパターンを示している。図7に関しては、フォーカスパラメータが最大フォーカス量a=1であり、フォーカス方向パラメータがθ=-90度、θ=90度である例を示している。上段701は、フォーカス処理された変換領域信号x’に対応するビームパターンを示している。下段703は、出力信号x’HOA(t)に対応するビームパターンを示す。
上記の例では、HOA処理は、より「水平」なビームパターン信号のセットにおいてのみ考慮されていることが示された。これらの演算は、3Dのビームパターンのセットを用いて、3Dに拡張できることが理解される。
図5bに関して、図5aに示すようなHOAフォーカスプロセッサのオペレーション560の流れ図が示されている。
最初のオペレーションは、ステップ561によって図5bに示すようなHOAオーディオ信号(および方向、幅、量または他の制御情報のようなフォーカスパラメータ)を受信することである。
次のオペレーションは、図5bにステップ563で示すように、変換されたHOAオーディオ信号をビーム信号に生成することである。
HOAオーディオ信号をビーム信号に変換した後、次のオペレーションは、ステップ565によって図5bに示されるように、空間ビーム処理の1つである。
次に、処理されたビームオーディオ信号は、ステップ567によって図5bに示されるように、HOAフォーマットに逆変換される。
次に、処理されたHOAオーディオ信号は、ステップ569によって図5bに示されるように出力される。
図8aに関して、入力としてパラメトリック空間オーディオ信号を受信するように構成されたフォーカスプロセッサが示されている。パラメトリック空間オーディオ信号は、オーディオ信号と、周波数帯域における方向(複数可)および直接-全エネルギー比(複数可)などの空間メタデータとからなる。パラメトリック空間オーディオ信号の構造と生成は既知であり、その生成はマイクロフォンアレイ(例:携帯電話,VRカメラ)から説明されている。パラメトリック空間オーディオ信号は、さらに、ラウドスピーカ信号およびアンビソニック信号からも生成することができる。いくつかの実施形態におけるパラメトリック空間オーディオ信号は、IVAS(Immersive Voice and Audio Services)オーディオストリームから生成されてもよく、これは、空間メタデータおよびオーディオチャネルの形態にデコードおよび多重化解除され得る。このようなパラメトリック空間オーディオストリームのオーディオチャンネルの典型的な数は、2つのオーディオチャンネルのオーディオ信号であるが、いくつかの実施形態では、オーディオチャンネルの数は任意の数であることができる。
これらの例では、パラメトリック情報は、深度/距離情報からなり、これは、6自由度(6DOF)再生で実装され得る。6DOFでは、距離のメタデータは、ユーザの動きに応じて音のエネルギーと方向がどのように変化すべきかを決定するために(他のメタデータと一緒に)使用される。
したがって、この例では、各空間メタデータの方向パラメータは、直接/全体エネルギー比と距離パラメータの両方に関連付けられている。パラメトリック空間オーディオキャプチャのコンテキストにおける距離パラメータの推定は、GB特許出願GB1710093.4およびGB1710085.0などの以前の出願で詳述されており、明確性の理由から、これ以上検討されない。
パラメトリック(この場合、6DOF対応)空間オーディオ800を受信するように構成されたフォーカスプロセッサ850は、フォーカスパラメータ(これらの例では、フォーカス方向、量、距離、および半径である)を使用して、フォーカス効果を有効にするためにパラメトリック空間オーディオ信号の直接成分および周囲成分をどの程度減衰またはエンファシスすべきか判断するように構成される。
以下の例では、方法(および式)は経時的な変化なしに表現されているが、すべてのパラメータは経時的に変化し得ることを理解されたい。
いくつかの実施形態では、フォーカスプロセッサは、フォーカスパラメータ808と、さらに、方向802、距離822、周波数帯の直接-全エネルギー比804からなる空間メタデータを受け取るように構成される比率修正およびスペクトル調整係数決定器801から構成される。
比率修正器およびスペクトル調整係数決定器は、3D空間における球体としてフォーカス形状を実装するように構成される。まず、フォーカスの方向と距離を直交座標系(3x1 y-z-xベクトルf)に変換することにより、
Figure 2022537513000009

のようになる。
同様に、各周波数帯kにおいて、空間メタデータの方向と距離は、
Figure 2022537513000010

である。
空間メタデータの距離とフォーカス距離のパラメータの単位は同じであるべきである(例えば、両方ともメートル、または他のスケールで)。fとm(k)の相互距離値d(k)は、簡単に次のように定式化することができる。
Figure 2022537513000011

ここではベクトルの長さ(f-m(k))を意味する。
そして、この相互距離値d(k)は、0..1のフォーカス量パラメータa、フォーカス半径パラメータdr(d(k)と同じ単位)と共に利得関数に利用される。フォーカスを行う場合、利得式の例は、
Figure 2022537513000012

である。ここでcはフォーカスに対する利得定数、例えば4という値である。
実際には、フォーカス利得関数が、フォーカス領域での高い値から非フォーカス領域での低い値へと滑らかに遷移するように、上記の関数を平滑化することが望ましい場合がある。
次に、パラメトリック空間オーディオ信号の新しい直接部分値D(k)は、
Figure 2022537513000013

と定式化することができ、r(k)はバンドkにおける直接/全エネルギー比の値である。新たなアンビエント分値A(k)は、
Figure 2022537513000014

として定式化することができる。そして、スペクトル調整処理部803に出力812されるスペクトル補正係数s(k)は、音エネルギーの全体的な修正に基づいて、言い換えれば、
Figure 2022537513000015

のように定型化される。そして、空間メタデータのr(k)を置き換えるために、新しい修正された直接-全体エネルギー比パラメータr’(k)が、
Figure 2022537513000016

として定式化される。
数値的に未確定のD(k)=A(k)=0の場合、r’(k)も0に設定することができる。
空間メタデータの方向および距離パラメータは、いくつかの実施形態において、メタデータ調整およびスペクトル調整係数決定器801および修正および未修正メタデータ出力810によって修正されないことがある。
空間プロセッサ850は、スペクトル調整プロセッサ803を含んでいてもよい。スペクトル調整プロセッサ803は、オーディオ信号806およびスペクトル調整係数812を受信するように構成されることができる。オーディオ信号は、いくつかの実施形態において、時間-周波数表現であることができ、または代替的に、スペクトル調整処理のために最初に時間-周波数領域に変換される。出力814もまた、時間-周波数領域であり得るか、または出力の前に時間領域に逆変換され得る。入力と出力のドメインは、実装に依存する。
スペクトル調整処理部803は、各帯域kについて、帯域k内の全チャネルの(時間周波数変換の)周波数ビンにスペクトル調整係数s(k)を乗じるように構成されることができる。つまり、スペクトル調整を行う。乗算(すなわち、スペクトル補正)は、処理アーティファクトを回避するために、時間的に平滑化されることができる。
言い換えれば、プロセッサは、信号のスペクトルおよび空間メタデータは、手順が、フォーカスパラメータ(この場合、フォーカス方向、量、距離、半径)に従って修正されたパラメトリック空間オーディオ信号を修正するように構成される。
図8bに関して、図8aに示すようなパラメトリック空間オーディオ入力プロセッサのオペレーションのフロー図860が示されている。
最初のオペレーションは、ステップ861によって図8bに示すようなパラメトリック空間オーディオ信号(およびフォーカスパラメータまたは他の制御情報)を受信することである。
次のオペレーションは、ステップ863によって図8bに示されるように、パラメトリックメタデータの修正とスペクトル調整係数の生成である。
次のオペレーションは、図8bにステップ865で示すように、オーディオ信号に対してスペクトル調整を行うことである。
次に、スペクトル調整されたオーディオ信号と修正された(および修正されていない)メタデータは、次にステップ867によって図8bに示されるように出力されることができる。
図9aに関して、入力900としてマルチチャンネルまたはオブジェクトオーディオ信号を受信するように構成されるフォーカスプロセッサ950が示されている。このような実施例におけるフォーカスプロセッサは、フォーカス利得決定器901から構成されることができる。フォーカス利得決定器901は、フォーカスパラメータ908およびチャネル/オブジェクト位置/方向情報を受信するように構成され、これらは静的であっても時間変動的であってもよい。フォーカス利得決定器901は、入力信号900からのフォーカスパラメータ908およびチャネル/オブジェクト位置/方向情報902に基づいて、各チャネルのフォーカス利得912として出力される直接利得f(k)パラメータを生成するよう構成されている。ある実施形態では、チャンネル信号の方向がシグナリングされ、ある実施形態では、それらが仮定される。例えば、6つのチャネルがあるとき、方向は、5.1オーディオチャネル方向であると仮定されることができる。いくつかの実施形態では、チャネル数の関数としてチャネル方向を決定するために使用されるルックアップテーブルが存在してもよい。
方向および距離(すなわち、位置)を有するオーディオオブジェクトに対して、フォーカス利得決定器901は、空間メタデータおよびフォーカスパラメータに基づいて直接利得f(k)912を決定するために、パラメトリックオーディオ処理のコンテキストで表されるのと同じ実装処理を利用し得る。これらの実施形態では、フィルタバンクは存在しない。すなわち、周波数帯域kは1つだけである。
また、フォーカスプロセッサは、さらに、フォーカス利得プロセッサ(各チャンネル用)903を備えてもよい。フォーカス利得プロセッサ903は、各オーディオチャネルおよびオーディオ信号906のためのフォーカス利得f(k)912を受信するように構成される。その後、フォーカス利得912は、対応するオーディオチャネル信号906に適用され得る(いくつかの実施形態では、さらに、時間的に平滑化され得る)。フォーカス利得プロセッサ903からの出力は、フォーカス処理されたオーディオチャネルオーディオ信号914であってもよい。
これらの例では、チャネル方向/位置情報902は、変更されず、また、チャネル方向/位置情報出力910として提供される。
いくつかの実施形態では、入力オーディオチャンネルが距離情報を持たない場合(例えば、入力は方向のみで距離を持たないラウドスピーカまたは物体音)、そのようなオーディオチャンネルを処理する1つのオプションは、そのような信号の固定デフォルト距離を決定し、同じ式を適用してf(k)を決定することである。
いくつかの実施形態では、そのようなオーディオチャネルに対するフォーカス利得f(k)912を決定することは、フォーカス方向とオーディオチャネルの方向との間の角度差に基づくことができる。いくつかの実施形態では、これはまず、フォーカス幅θ_wを決定してもよい。例えば図10に示すように、フォーカス幅θ_w 1005は、フォーカス距離1001とフォーカス半径1003を使用して三角法に基づいて決定されてもよく、フォーカス幅は、フォーカス距離1001によって形成される斜辺とフォーカス半径1003によって形成される反対側を有する直角三角形のなす角度によって生成される。フォーカス幅は、単純に、
Figure 2022537513000017

で求めることができる。次に、フォーカス方向とオーディオチャンネルの方向との間の角度θを(各オーディオチャンネルについて個別に)決定する。次に、上述したのと同様の式を使用して、dをθに置き換え、d(k)をθに置き換え、f(k)を決定することができる(距離情報なしでオーディオチャネルに対するフォーカス利得を決定する場合)。フォーカス半径がフォーカス距離より大きい場合、いくつかの実施形態では、上記のasin関数が定義されず、フォーカス幅θに大きな値(例えば、π)が使用され得る。
図9bに関して、図9aに示したマルチチャンネル/オブジェクトオーディオ入力処理装置のオペレーションのフロー図960を示す。
最初のオペレーションは、ステップ961によって図9bに示すように、マルチチャネル/オブジェクトオーディオ信号(およびフォーカスパラメータまたは他の制御情報、および方向/距離などのチャネル情報)を受信することである。
次のオペレーションは、ステップ963によって図9bに示すように、フォーカス利得係数を生成することである。次のオペレーションは、ステップ965によって図9bに示すように、各チャンネルオーディオ信号に対してフォーカス利得を適用する。次に、ステップ967によって図9bに示されるように、処理オーディオ信号と修正されていないチャネル方向(および距離)が次に出力され得る。
いくつかの実施形態では、フォーカス形状は、他のパラメータおよびパラメータの他の組み合わせも使用して定義することができる。これらの場合、フォーカスプロセッサは、これらのパラメータを使用するように、上記の例から変更することができる。
図11aに関して、アンビソニックオーディオ入力に基づく再生プロセッサ1150の例(例えば、図5aに示すような例のフォーカスプロセッサからの出力を受け取るように構成されることができる)が示されている。これらの例において再生プロセッサは、アンビソニック回転マトリクスプロセッサ1101から構成されることができる。アンビソニック回転マトリクスプロセッサ1101は、フォーカス処理1100およびビュー方向1102を有するアンビソニック信号を受信するように構成される。アンビソニック回転マトリクスプロセッサ1101は、ビュー方向パラメータ1102に基づいて回転マトリクスを生成するように構成されている。これは、いくつかの実施形態において、ヘッドトラッキングされたアンビソニックAイノーラル化において適用されるような任意の適切な方法を使用してもよい(またはより一般的には、球面高調波のこのような回転は、オーディオ以外を含む多くの分野で使用される)。次に、この回転行列をアンビソニックオーディオ信号に適用する。その結果、フォーカス1104が付加された回転したアンビソニック信号が得られ、アンビソニックからバイノーラルフィルタf1103に出力される。アンビソニックからバイノーラルフィルタ1103は、フォーカスが付加された回転したアンビソニック信号1104を受信するように構成される。
アンビソニックからバイノーラルフィルタ1103は、2バイノーラル信号1106を生成するためにK アンビソニック信号に適用される有限インパルス応答(FIR)フィルタの予め形成された2xK行列で構成されることができる。FIRフィルタは、頭部関連インパルス応答(HRIR)のセットに関して最小二乗最適化法によって生成されたものであってもよい。このような設計手順の例としては、HRIRデータセットを(たとえばFFTによって)周波数ビンに変換してHRTFデータセットを得、各周波数ビンについて、HRTFデータセットのデータ点における利用可能なHRTFデータセットを最小二乗法で近似する複素値の処理行列を決定することである。すべての周波数ビンについて複素数値の行列がそのように決定されるとき、その結果は、時間領域FIRフィルタとして(例えば逆FFTによって)逆変換され得る。また、FIRフィルタは、例えば、Hannウィンドウを用いることにより、ウィンドウ化されることができる。
アンビソニック信号をラウドスピーカ出力にレンダリングするために使用することができる多くの既知の方法がある。一例として、アンビソニック信号をターゲットラウドスピーカ構成にリニアにデコードすることができる。これは、アンビソニック信号の次数が十分に高い場合、例えば、少なくとも3次、好ましくは4次である場合に適用することができる。このような線形復号化の具体例では、アンビソニック信号(アンビソニックビームパターンに対応する)に適用されると、最小二乗法でターゲットラウドスピーカ構成に適したVBAP(vector-base amplitude panning)ビームパターンを近似するビームパターンに対応するラウドスピーカ信号が生成されるアンビソニック復号行列が設計されることができる。このような設計されたアンビソニックデコーディングマトリックスでアンビソニック信号を処理することにより、ラウドスピーカ音出力を生成するように構成されることができる。このような実施形態では、再生プロセッサは、ラウドスピーカ構成に関する情報を受信するように構成される。
図11bに関して、図11aに示すアンビソニック入力再生処理装置のオペレーションのフロー図1160を示す。
最初のオペレーションは、ステップ1161によって図11bに示すように、フォーカス処理されたアンビソニックオーディオ信号(およびビュー方向)を受信することである。
次のオペレーションは、ステップ1163によって図11bに示されるように、ビュー方向に基づいて回転マトリクスを生成するものである。
次のオペレーションは、ステップ1165によって図11bに示すように、アンビソニックオーディオ信号に回転マトリックスを適用して、フォーカス処理された回転アンビソニックオーディオ信号を生成するものである。
次のオペレーションは、ステップ1167によって図11bに示すように、アンビソニックオーディオ信号を適切なオーディオ出力フォーマット、例えばバイノーラルフォーマット(またはマルチチャンネルオーディオフォーマット)に変換することである。
そして、次に、ステップ1169によって図11bに示すように出力オーディオ形式を出力する。
図12aに関して、パラメトリック空間オーディオ入力に基づく再生プロセッサ1250の例(例えば、図8aに示すような例のフォーカスプロセッサからの出力を受信するように構成されることができる)が示されている。
いくつかの実施形態では、再生プロセッサは、オーディオチャンネル1200のオーディオ信号を受信し、オーディオチャンネルを周波数帯域に変換するように構成されたフィルタバンク1201を備える(入力が既に適切な時間-周波数ドメインである場合を除く)。適切なフィルタバンクの例には、短時間フーリエ変換(STFT)および複素直交ミラーフィルタ(QMF)バンクが含まれる。時間-周波数オーディオ信号1202は、パラメトリックバイノーラルシンセサイザ1203に出力することができる。
いくつかの実施形態では、再生プロセッサは、時間周波数オーディオ信号1202と、修正された(および修正されていない)メタデータ1204と、さらにビュー方向1206(または適切な再生関連制御または追跡情報)を受信するように構成されたパラメトリックバイノーラルシンセサイザ1203から構成される。6DOFの文脈では、ユーザ位置は、ビュー方向パラメータと共に提供されることができる。
パラメトリックバイノーラル合成器1203は、パラメトリックバイノーラル化ブロックの前に信号およびメタデータに対してフォーカス修正が既に行われているので、バイノーラルオーディオ信号(周波数帯域)1208を生成するように構成された任意の適切な既知のパラメトリック空間合成方法を実施するように構成されることができる。バイノーラル化された時間-周波数オーディオ信号1208は、次に、逆フィルタバンク1205に渡すことができる。実施形態は、再生プロセッサが、バイノーラル化された時間周波数オーディオ信号1208を受け取り、適用された順方向フィルタバンクの逆を生成するように構成された逆フィルタバンク1205を備え、こうしてヘッドフォン(図12aに示されていない)による再生に適したフォーカス特性を有する時間領域バイノーラル化オーディオ信号1210を生成することをさらに特徴としてもよい。
いくつかの実施形態では、バイノーラルオーディオ信号出力は、適切なラウドスピーカ合成方法を用いて、パラメトリック空間オーディオ信号からラウドスピーカチャンネルオーディオ信号出力フォーマットで置き換えられる。任意の適切なアプローチが使用されてもよく、例えば、ビュー方向パラメータがラウドスピーカの位置の情報に置き換えられ、適切な既知の方法に基づいて、バイノーラルプロセッサがラウドスピーカプロセッサに置き換えられるものであってもよい。
図12bに関して、図12aに示すようなパラメトリック空間オーディオ入力再生プロセッサのオペレーションのフロー図1260が示されている。
最初のオペレーションは、ステップ1261によって図12bに示すようなフォーカス処理されたパラメトリック空間オーディオ信号(およびビュー方向または他の再生関連制御または追跡情報)を受信することである。
次のオペレーションは、図12bにステップ1263で示すように、オーディオ信号を時間周波数変換するものである。次のオペレーションは、ステップ1265によって図12bに示すように、時間周波数変換されたオーディオ信号、メタデータおよび視聴方向(または他の情報)に基づいて、パラメトリックバイノーラル(またはラウドスピーカチャネル形式)プロセッサを適用するものである。
そして、次のオペレーションは、ステップ1267によって図12bに示すように、生成されたバイノーラルまたはラウドスピーカチャネルオーディオ信号を逆変換することである。
次に、ステップ1269によって図12bに示すように、出力オーディオ形式を出力する。オーディオ信号がマルチチャンネルオーディオの形式であり、図9aのフォーカスプロセッサ950が適用される場合の再生プロセッサのラウドスピーカ出力を考えると、いくつかの実施形態では、再生プロセッサは、出力ラウドスピーカ構成が入力信号の形式と同じであるパススルーを構成してもよい。
出力ラウドスピーカ構成が入力ラウドスピーカ構成と異なるいくつかの実施形態では、再生プロセッサは、ベクトルベース振幅パンニング(VBAP)プロセッサで構成されることができる。フォーカス処理された各オーディオチャンネルは、その後、既知の振幅パンニング技術であるVBAPを用いて処理され、ターゲットラウドスピーカ構成を使用して空間的に再現され得る。このようにして、出力オーディオ信号は、出力ラウドスピーカ設定に適合される。
いくつかの実施形態では、第1のラウドスピーカ構成から第2のラウドスピーカ構成への変換は、任意の適切な振幅パンニング技法を用いて実施され得る。例えば、振幅パンニング技法は、第1のラウドスピーカ構成のM個のチャネルから第2のラウドスピーカ構成のN個のチャネルへの変換を定義する振幅パンニング利得のN×M行列を導出し、次にその行列を用いて第1のラウドスピーカ構成に従ってマルチチャネル・ラウドスピーカ信号として提供される中間空間オーディオ信号のチャネルを乗算することからなってもよい。中間空間オーディオ信号は、図2aに示すように、フォーカス音成分204を有するオーディオ信号と同様であると理解することができる。非限定的な例として、VBAP振幅パンニング利得の導出は、Pulkki,Ville. 「Virtual sound source positioning using vector base amplitude panning」, Journal of the audio engineering society 45,no.6(1997),pp.456-466に記載されている。
バイノーラル出力のために、マルチチャンネルラウドスピーカ信号フォーマット(および/またはオブジェクト)の任意の適切なバイノーラル化を実施することができる。例えば、典型的なバイノーラル化は、オーディオチャンネルを頭部伝達関数(HRTF)で処理し、リスニングルームの聴覚的印象を生成するために合成ルーム残響を加えることから構成される場合があります。オーディオオブジェクト音の距離+方向(すなわち、位置)情報は、例えばGB特許出願GB1710085.0に概説された原理を採用することによって、ユーザの動きを伴う6自由度再生に利用することができる。
実施に適した装置例が、適切なソフトウェア1403を実行する携帯電話またはモバイルデバイス1401の形態で図13に示されている。ビデオは、例えば、携帯電話1401をDaydreamビュータイプのデバイスに取り付けることによって再生され得る(ただし、明確さのために、ビデオ処理についてはここでは説明しない)。
オーディオビットストリーム取得器1423は、例えばストレージから受信/取得される、オーディオビットストリーム1424を取得するように構成される。いくつかの実施形態では、モバイルデバイスは、圧縮されたオーディオを受信し、それをデコードするように構成されたデコーダ1425を具備する。デコーダの例は、AACデコードの場合、AACデコーダである。その結果、デコードされた(例えば、図5aおよび11aに示すような実施例が実装されるアンビソニック)オーディオ信号1426は、フォーカスプロセッサ1427に転送され得る。
携帯電話1401は、コントローラデータ受信機1411で外部コントローラから(例えばBluetooth(登録商標)を介して)コントローラデータ1400を受信し、そのデータを(コントローラデータから)フォーカスパラメータ決定器1421に渡す。フォーカスパラメータ(コントローラデータから)決定器1421は、例えば、コントローラデバイスの向きおよび/またはボタンイベントに基づいて、フォーカスパラメータを決定する。フォーカスパラメータは、提案されたフォーカスパラメータ(例えば、フォーカス方向、フォーカス量、フォーカス高さ、およびフォーカス幅)の任意の種類の組み合わせで構成され得る。フォーカスパラメータ1422は、フォーカスプロセッサ1427に転送される。
アンビソニックオーディオ信号とフォーカスパラメータに基づいて、フォーカスプロセッサ1427は、所望のフォーカス特性を有する修正アンビソニック信号1428を作成するように構成される。これらの修正されたアンビソニック信号1428は、アンビソニックからバイノーラルプロセッサ1429に転送される。アンビソニックからバイノーラルプロセッサ1429はまた、携帯電話1401の方位追跡器1413から頭の方位情報1404を受信するように構成されている。修正されたアンビソニック信号1428およびヘッド方向情報1404に基づいて、アンビソニックからバイノーラルプロセッサ1429は、携帯電話から出力され、例えばヘッドフォンを用いて再生され得るヘッドトラッキングされたバイノーラル信号1430を作成するように構成されている。
図14は、フォーカス方向、フォーカス量、およびフォーカス幅などの適切なフォーカスパラメータを制御または生成するように構成され得る例示的な装置(またはフォーカスパラメータ制御装置)1550を示す。装置のユーザは、コントローラを所望の方向1509に向け、フォーカス方向選択ボタン1505を押すことによって、フォーカス方向を選択するように構成され得る。コントローラは、方位追跡器1501を有し、方位情報は、(例えば、図13に示すように、フォーカスパラメータ(コントローラデータから)決定器1421において)フォーカス方向を決定するために使用され得る。
いくつかの実施形態におけるフォーカス方向は、フォーカス方向を選択しながら、視覚ディスプレイで視覚化されることができる。いくつかの実施形態では、フォーカス量は、フォーカス量ボタン(図14に+および-として示される)1507を用いて制御され得る。押すたびにフォーカス量を例えば10%ポイントずつ増減させることができる。フォーカス幅は、フォーカス幅ボタン(図14では+と-で示す)1503を使用して制御することができる。各押しは、10度のような固定量によってフォーカス幅を増加/減少させるように構成されることができる。
いくつかの実施形態では、フォーカス形状は、コントローラ(例えば、図14に描かれたもの)を用いて所望の形状を描くことによって決定することができる。ユーザは、フォーカス方向選択ボタンを長押しすることで描画オペレーションを開始し、コントローラで所望の形状を描画し、最後に押下を停止することで形状を承認することができる。描画された形状を視覚的に表示しながら描画してもよい。描画された形状は、フォーカス方向、フォーカス高さ、フォーカス幅のパラメータに変換されることができる。フォーカス量は、先の例と同様に、「フォーカス量」ボタンで選択してもよい。
いくつかの実施形態では、図14に示すようなフォーカスコントローラは、「フォーカス幅」コントロールが「フォーカス半径」コントロールに置き換えられ、複雑で内容に適応したフォーカス形状の制御を可能にするように変更される。そのような実施形態では、360映像がパノラマであるだけでなく、深度情報を含む(すなわち、6自由度でのユーザの動きに反応し得る実質的に3D映像である)高度な仮想現実再生システムの一部として実装され得る。例えば、映像コンテンツは、コンピュータグラフィックスによって生成されたもの、あるいは、視覚的な奥行きを検出できるため、コンピュータグラフィックスと同様に6DOFを可能にするVRビデオキャプチャシステムによって生成されたものが考えられる。
例えば、あるシーンでは、2つの興味対象(例えば、話し手)が存在する。ユーザは、この2つの音源に対して「フォーカス方向選択」をクリックすると、視覚ディスプレイは、これらの音源(聴覚的な音源だけでなく、ある方向と距離の視覚的な音源)がオーディオフォーカスに選択されたことをユーザに対して示す。次に、ユーザは、フォーカス量とフォーカス半径のパラメータを選択し、フォーカス半径は、関心のあるソースからの聴覚イベントが、決定されたフォーカス形状の内にどの程度含まれるようになるかを示す。制御調整中、フォーカス半径は、関心のある視覚的ソースの周りの視覚的球体として示され得る。
視野はユーザの動きに反応するかもしれないが、ソースがシーン内で移動することもあり、ソースの位置は通常、視覚的に追跡される。したがって、フォーカス形状は、この場合、3次元空間内の2つの球体で表されることがあり、次に、それらの球体を移動することによって、その全体形状を適応的に変化させることができる。つまり、奥行き方向のフォーカスもある複雑なフォーカス形状が得られる。そして、空間オーディオの形式に応じて、そのフォーカス形状を(空間オーディオが信頼できる距離情報を持っている条件で)正確に再現するか、あるいは、例えば、上記で例示したように、他の方法で近似することができる。
いくつかの実施形態では、例えば、フォーカスされた信号の所望の周波数範囲またはスペクトル特性を決定することによって、フォーカス処理をさらに指定することが望ましい場合がある。特に、例えば低周波コンテンツ(例えば200Hz以下)、高周波コンテンツ(例えば8kHz以上)を減衰させ、オーディオに関連する特に有用な周波数帯を残すことによって、オーディオ周波数帯でフォーカスされたオーディオスペクトルをエンファシスし、明瞭度を向上させることが有用である場合がある。
フォーカス処理された信号は、自動利得制御またはエンハンスメント技術(例えば、帯域幅拡張、ノイズ抑制)など、任意の既知のオーディオ処理技術でさらに処理されることができることが理解される。
いくつかのさらなる実施形態では、フォーカスパラメータ(方向、量、および少なくとも1つのフォーカス形状パラメータを含む)は、コンテンツクリエータによって生成され、パラメータは空間オーディオ信号と一緒に送信される。例えば、シーンは、ステージ付近のアンプラグド音楽コンサートのVRビデオ/オーディオ記録であってもよい。コンテンツ制作者は、典型的なリモートリスナーが、ステージに向かって広がるフォーカスアークと、室内音響効果のために側面にも広がるフォーカスアークを決定したいが、少なくともある程度は観客からの直接音(VRカメラのメイン方向の後ろ)を除去したいと想定することができる。そこで、ストリームにフォーカスパラメータのトラックを追加し、デフォルトのレンダリングモードとして設定できるようにした。しかし、それでも観客の音はストリーム中に存在するため、フォーカス処理を破棄して、観客の音を含むフルサウンドシーンを再生できるようにした方が良いというユーザもいる。
つまり、フォーカスの方向や形状をユーザが選択するのではなく、あらかじめ設定されたダイナミックなフォーカスパラメータを選択することができる。プリセットは、例えば、曲の終わりごとにフォーカスをオフにして、リスナーに拍手を再生するように、コンテンツ制作者が番組にうまく沿うように微調整している場合もある。コンテンツ制作者は、フォーカスのパラメータとして、期待される好適プロファイルをいくつか生成することができる。このアプローチは、1つの空間オーディオ信号だけを伝えればよいので有益であるが、異なる好適プロファイルを追加することも可能である。フォーカスが有効になっていないレガシープレーヤは、フォーカスの手順なしにアンビソニック信号をデコードすることができる。
いくつかのさらなる実施形態では、フォーカス形状は、複数の視聴方向を有する映像の視覚的ズームとともに制御される。ビジュアルズームは、ユーザがパノラマまたは360または3Dビデオで仮想双眼鏡のセットを制御するように概念化することができる。このようなユースケースでは、ビジュアルズーム機能を有効にすると(例えば、少なくとも1.5倍ズームが設定される)、空間オーディオ信号のオーディオフォーカスも有効にすることができる。このとき、ユーザは明らかにその方向に興味を持っているので、フォーカス量を高い値、例えば80%に設定し、フォーカス幅を仮想双眼鏡の視覚的視野の円弧に対応するように設定することができる。つまり、視覚的なズームを大きくすると、フォーカス幅は小さくなる。フォーカスが80%に設定されたので、ユーザは、適切な方向で残りの空間音をある程度聞くことができる。そうすることで、ユーザは興味深い新しいコンテンツの発生を聞き、視覚ズームをオフにして新しい関心のある方向へ見ることを知ることができる。また、ズーム処理は、そのような処理を可能にするオーディオコーデックの文脈で使用されることができる。そのようなコーデックの例としては、例えば、MPEG-Iが考えられる。
上述したような実施形態におけるユーザは、本発明を用いて、汎用的にフォーカス形状を制御することができる。
高次アンビソニックス(HOA)信号について説明した実施形態に基づく処理出力の一例を図15に示す。この図は、3次HOA信号のスペクトログラムとして、0°にトーカー、-90°に正弦波、110°にホワイト・ノイズを配置し、8チャンネルのスピーカ復号出力を示したものである。この図では、話し手の方にフォーカスを絞ると、正弦波とホワイト・ノイズの相対的なエネルギーが減少し、話し手と正弦波の両方を含む広いフォーカスでは、ホワイト・ノイズの相対的なエネルギーだけが著しく減少することが示されている。
図16に関して、解析装置または合成装置として使用することができる電子装置の一例を示す。デバイスは、任意の適切な電子機器または装置であってよい。例えば、いくつかの実施形態では、デバイス1700は、モバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。
いくつかの実施形態では、装置1700は、少なくとも1つのプロセッサまたは中央処理装置1707を備える。プロセッサ1707は、本明細書に記載されるような方法などの様々なプログラムコードを実行するように構成され得る。
いくつかの実施形態において、装置1700は、メモリ1711を備える。いくつかの実施形態では、少なくとも1つのプロセッサ1707は、メモリ1711に結合される。メモリ1711は、任意の適切な記憶手段であり得る。いくつかの実施形態では、メモリ1711は、プロセッサ1707で実行可能なプログラムコードを格納するためのプログラムコード部を構成する。さらにいくつかの実施形態では、メモリ1711は、データ、例えば本明細書に記載されるような実施形態に従って処理されたまたは処理されるべきデータを記憶するための記憶データセクションをさらに備えることができる。プログラムコード部内に格納された実装プログラムコードおよび格納データ部内に格納されたデータは、メモリ-プロセッサ結合を介して必要なときにいつでもプロセッサ1707によって取り出されることができる。
いくつかの実施形態では、装置1700は、ユーザ・インターフェース1705を備える。ユーザ・インターフェース1705は、いくつかの実施形態において、プロセッサ1707に結合され得る。いくつかの実施形態では、プロセッサ1707は、ユーザ・インターフェース1705のオペレーションを制御し、ユーザ・インターフェース1705から入力を受信することができる。いくつかの実施形態では、ユーザ・インターフェース1705は、例えばキーパッドを介して、ユーザがデバイス1700にコマンドを入力することを可能にすることができる。いくつかの実施形態では、ユーザ・インターフェース1705は、ユーザがデバイス1700から情報を取得することを可能にすることができる。例えば、ユーザ・インターフェース1705は、デバイス1700からの情報をユーザに表示するように構成されたディスプレイを含んでいてもよい。ユーザ・インターフェース1705は、いくつかの実施形態において、デバイス1700に情報を入力することを可能にし、さらにデバイス1700のユーザに情報を表示することの両方が可能なタッチスクリーンまたはタッチインターフェースから構成され得る。
いくつかの実施形態では、装置1700は、入出力ポート1709を含んでいる。いくつかの実施形態における入出力ポート1709は、トランシーバを含んで構成される。そのような実施形態におけるトランシーバは、プロセッサ1707に結合され、例えば無線通信ネットワークを介して他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の適切なトランシーバまたは送信機および/または受信機手段は、いくつかの実施形態において、有線または有線結合を介して他の電子デバイスまたは装置と通信するように構成され得る。
トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えばいくつかの実施形態では、トランシーバは、適切なユニバーサル移動通信システム(UMTS)プロトコル、例えばIEEE 802.Xなどの無線ローカルエリアネットワーク(WLAN)プロトコル、Bluetooth(登録商標)などの適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路(IRDA)を使用することが可能である。
トランシーバ入力/出力ポート1709は、信号を受信し、いくつかの実施形態では、本明細書に記載されるようにフォーカスパラメータを取得するように構成され得る。
いくつかの実施形態では、デバイス1700は、適切なコードを実行するプロセッサ1707を使用して、適切なオーディオ信号を生成するために採用されることができる。入力/出力ポート1709は、例えばマルチチャンネルスピーカーシステムおよび/またはヘッドフォン(ヘッドトラック付きまたは非トラック付きヘッドフォンであってもよい)等への任意の適切なオーディオ出力に結合されることができる。
一般に、本発明の様々な実施形態は、ハードウェアまたは特殊目的回路、ソフトウェア、ロジック、またはそれらの任意の組み合わせで実装することができる。例えば、いくつかの態様はハードウェアに実装されてもよく、他の態様は、コントローラ、マイクロプロセッサ、または他のコンピューティングデバイスによって実行され得るファームウェアまたはソフトウェアに実装されることができるが、本発明はこれに限定されない。
本発明の様々な態様は、ブロック図、フローチャートとして、または他の何らかの絵画的表現を用いて図示および説明され得るが、本明細書に記載されるこれらのブロック、装置、システム、技術または方法は、非限定例として、ハードウェア、ソフトウェア、ファームウェア、特殊目的回路または論理、汎用ハードウェアまたはコントローラもしくは他のコンピューティングデバイス、またはこれらの何らかの組み合わせで実施され得ることは十分に理解される。
この発明の実施形態は、プロセッサエンティティなどのモバイルデバイスのデータプロセッサによって実行可能なコンピュータソフトウェアによって、またはハードウェアによって、またはソフトウェアとハードウェアの組み合わせによって実装されることができる。さらにこの点で、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組み合わせを表すことができることに留意されたい。ソフトウェアは、メモリチップ、またはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピー(登録商標)ディスクなどの磁気媒体、および例えばDVDおよびそのデータバリアント、CDなどの光媒体などの物理媒体に格納することができる。
メモリは、ローカルの技術環境に適した任意のタイプであってよく、半導体ベースのメモリ装置、磁気メモリ装置およびシステム、光学メモリ装置およびシステム、固定メモリおよび取り外し可能メモリなど、任意の適切なデータ記憶技術を使用して実装することができる。データプロセッサは、ローカルの技術環境に適した任意のタイプであってよく、非限定的な例として、汎用コンピュータ、特殊目的コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、ゲートレベル回路およびマルチコアプロセッサアーキテクチャに基づくプロセッサの1以上を含むことができる。
本発明の実施形態は、集積回路モジュールなどの様々な構成要素で実施することができる。集積回路の設計は、概して高度に自動化されたプロセスである。論理レベル設計を、半導体基板上にエッチングして形成するのに適した半導体回路設計に変換するために、複雑で強力なソフトウェアツールが利用可能である。
カリフォルニア州マウンテンビューのシノプシス社やカリフォルニア州サンノゼのケイデンス・デザイン社などのプログラムは、確立された設計ルールとあらかじめ保存された設計モジュールのライブラリを使って、半導体チップ上の導線の配線や部品の配置を自動的に行う。半導体回路の設計が完了すると、設計結果は標準化された電子フォーマット(Opus、GDSIIなど)で、半導体製造施設または「ファブ」に送信され、製造される場合がある。
前述の説明は、例示的かつ非限定的な例によって、この発明の例示的な実施形態の完全かつ情報的な説明を提供したものである。しかしながら、添付の図面および添付の特許請求の範囲と合わせて読むと、前述の説明を考慮して、様々な変更および適応が関連技術の当業者にとって明らかになるであろう。しかし、この発明の教示のすべてのそのようなおよび類似の修正は、依然として添付の特許請求の範囲に定義されるこの発明の範囲に入る。

Claims (21)

  1. フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータを取得し、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対する相対的なエンファシスを制御するように、修正されたオーディオシーンを表す処理された空間オーディオ信号を生成し、処理された空間オーディオ信号を出力し、修正されたオーディオシーンは、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して、相対的にエンファシスすることを可能にするように構成された手段を含む、空間オーディオ再生のための装置。
  2. 少なくとも1つのフォーカスパラメータは、フォーカス量を定義するようにさらに構成され、空間オーディオ信号を処理するように構成された手段は、フォーカス量に従って、さらにフォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対してフォーカス形状の内の空間オーディオ信号の少なくとも一部の相対的エンファシスを制御するように空間オーディオ信号を処理するように構成される、請求項1に記載の装置。
  3. 空間オーディオ信号を処理するように構成された手段は、前記フォーカス形状の内の前記空間オーディオ信号の部分の少なくとも一部を、前記フォーカス形状の外の前記空間オーディオ信号の部分の少なくとも一部と比較して相対的にエンファシスする、または相対的にエンファシスを減少させるように構成される、請求項1および2のいずれかに記載の装置。
  4. 前記空間オーディオ信号を処理するように構成された手段は、前記フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、前記フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的サウンドレベルを増加または減少させるように構成されている、請求項1ないし3のいずれか1項に記載の装置。
  5. 空間オーディオ信号を処理するように構成された手段は、フォーカス量に従って、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的サウンドレベルを増加または減少させるように構成されている、 請求項2に従属する場合、請求項4に記載の装置。
  6. 前記手段は、処理された空間オーディオ信号を出力することの少なくとも1つの態様を制御するための再生制御情報を取得するように構成され、処理された空間オーディオ信号を出力するように構成された手段が、請求項1から6のいずれかに記載の装置。修正されたオーディオシーンを表す処理された空間オーディオ信号を処理して、再生制御情報に従って出力空間オーディオ信号を生成するステップと、オーディオシーンを表す空間オーディオ信号を処理するように構成された手段の前に、再生制御情報に従って空間オーディオ信号を処理して、修正されたオーディオシーンを表す処理済空間オーディオ信号を生成し、処理済空間オーディオ信号を出力空間オーディオ信号として出力するステップと、のうちの1つを実行するように構成される、装置。
  7. 前記空間オーディオ信号および前記処理された空間オーディオ信号がそれぞれのアンビソニック信号を構成し、前記空間オーディオ信号を処理して処理された空間オーディオ信号を生成するように構成された手段が、1つ以上の周波数サブバンドについて、前記空間オーディオ信号に関連付けられたアンビソニック信号を、定義されたパターンのビーム信号のセットに変換し、前記ビーム信号のセットと、前記フォーカス形状と、前記フォーカス量とに基づいて、修正ビーム信号のセットを生成し、修正ビーム信号を変換し、処理された空間オーディオ信号に関連する修正アンビソニック信号を生成するように構成される、請求項2または請求項2に従属する任意の請求項に記載の装置。
  8. 前記定義されたパターンは、平面上または体積上に等間隔に配置された定義された数のビームからなる、請求項7に記載の装置。
  9. 空間オーディオ信号と処理された空間オーディオ信号は、それぞれの高次アンビソニック信号からなる、請求項7または8に記載の装置。
  10. 前記空間オーディオ信号と前記処理された空間オーディオ信号が、任意の次数のアンビソニック信号成分のサブセットからなる、請求項7ないし9のいずれか1項に記載の装置。
  11. 前記空間オーディオ信号および前記処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号からなり、パラメトリック空間オーディオ信号は、1つ以上のオーディオチャネルおよび空間メタデータからなり、前記空間メタデータは、複数の周波数サブバンドに対するそれぞれの方向標示、エネルギー比パラメータ、潜在的に距離標示からなる請求項2または請求項2に従属する任意の請求項に記載の装置であって、ここで、前記入力空間オーディオ信号を処理して処理済み空間オーディオ信号を生成するように構成された手段は、前記空間メタデータと前記フォーカス形状および前記フォーカス量とに基づいて、1つ以上の周波数サブバンドのスペクトル調整係数を計算し、前記1つ以上のオーディオチャネルの1つ以上の周波数サブバンドに対してスペクトル調整係数を適用して、1つ以上の処理済みオーディオチャネルを生成し、フォーカス形状、フォーカス量、および空間メタデータの少なくとも一部に基づいて、処理された空間オーディオ信号の1つ以上の周波数サブバンドに関連するそれぞれの修正エネルギー比パラメータを計算し、 前記1つ以上の処理済みオーディオチャネル、前記修正エネルギー比率パラメータ、および前記エネルギー比率パラメータ以外の空間メタデータからなる処理済み空間オーディオ信号を作るように構成される、装置。
  12. 空間オーディオ信号および処理された空間オーディオ信号は、マルチチャンネルラウドスピーカチャンネルおよび/またはオーディオオブジェクトチャンネルを含む、請求項2または請求項2に従属する任意の請求項に記載の装置。前記空間オーディオ信号を前記処理された空間オーディオ信号に処理するように構成された手段が、それぞれのオーディオチャネル方向標示と、フォーカス形状と、フォーカス量とに基づいて、利得調整係数を算出し、前記利得調整係数を前記各オーディオチャネルに適用し、1つ以上の処理済みマルチチャンネルスピーカオーディオチャンネルおよび/または1つ以上の処理済みオーディオオブジェクトチャンネルからなる処理済み空間オーディオ信号を<構成する>{作る}ように構成される、請求項1ないし5のいずれか1項に記載の装置。
  13. 前記マルチチャンネルラウドスピーカチャンネルおよび/またはオーディオオブジェクトチャンネルは、それぞれのオーディオチャンネル距離表示をさらに備え、前記演算利得調整係数は、前記オーディオチャンネル距離標示にさらに基づいている、請求項12に記載の装置。
  14. 前記手段は、デフォルトのそれぞれのオーディオチャネル距離を決定するようにさらに構成され、前記コンピューティング利得調整係数は、前記オーディオチャネル距離に基づいてさらに構成される、請求項12に記載の装置。
  15. フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータは、フォーカス方向、フォーカス幅、フォーカス高さ、フォーカス半径、フォーカス距離、フォーカス深度、フォーカス範囲、フォーカス径、フォーカス形状キャラクタライザのうちの少なくとも1つを含む、請求項1ないし14のいずれか1項に記載の装置。
  16. 前記手段は、少なくとも1つの方向センサと少なくとも1つのユーザ入力とを備えるセンサ構成からフォーカス入力を得るようにさらに構成されており、前記フォーカス入力は、前記少なくとも1つの方向センサの方向に基づいて、前記フォーカス形状に対するフォーカス方向の標示と、少なくとも1つのユーザ入力に基づく、フォーカス幅の標示と、を備える、請求項1ないし15のいずれか1項に記載の装置。
  17. 前記フォーカス入力は、前記少なくとも1つのユーザ入力に基づくフォーカス量の標示をさらに含む、請求項2または請求項2に従属する任意の請求項に従属するときの請求項16に記載の装置。
  18. 少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備える装置であって、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサによって、装置に、少なくとも、フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータを取得するステップと、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の少なくとも一部の相対的なエンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成するステップと、処理された空間オーディオ信号を出力するステップであって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を実行させるように構成される、装置。
  19. フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータを取得するステップと、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成するステップと、処理された空間オーディオ信号を出力するステップであって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を含む方法。
  20. 装置に少なくとも、フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータを取得するステップと、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して相対的なエンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成するステップと、処理された空間オーディオ信号を出力するステップであって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を実行させるための命令またはプログラム命令を含むコンピュータプログラムまたはコンピュータ読取可能な媒体。
  21. 装置に、少なくとも、フォーカス形状を定義するように構成された少なくとも1つのフォーカスパラメータを取得するステップと、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して相対的にエンファシスを制御するように、修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するステップと、処理された空間オーディオ信号を出力するステップであって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を実行させるためのプログラム命令を含む、非一時的なコンピュータ可読媒体。
JP2021573579A 2019-06-11 2020-06-03 音場関連レンダリング Pending JP2022537513A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024006056A JP2024028526A (ja) 2019-06-11 2024-01-18 音場関連レンダリング

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1908346.8A GB2584838A (en) 2019-06-11 2019-06-11 Sound field related rendering
GB1908346.8 2019-06-11
PCT/FI2020/050387 WO2020249860A1 (en) 2019-06-11 2020-06-03 Sound field related rendering

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024006056A Division JP2024028526A (ja) 2019-06-11 2024-01-18 音場関連レンダリング

Publications (1)

Publication Number Publication Date
JP2022537513A true JP2022537513A (ja) 2022-08-26

Family

ID=67386323

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021573579A Pending JP2022537513A (ja) 2019-06-11 2020-06-03 音場関連レンダリング
JP2024006056A Pending JP2024028526A (ja) 2019-06-11 2024-01-18 音場関連レンダリング

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024006056A Pending JP2024028526A (ja) 2019-06-11 2024-01-18 音場関連レンダリング

Country Status (6)

Country Link
US (1) US20220303710A1 (ja)
EP (1) EP3984252A4 (ja)
JP (2) JP2022537513A (ja)
CN (1) CN114009065A (ja)
GB (1) GB2584838A (ja)
WO (1) WO2020249860A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2612587A (en) * 2021-11-03 2023-05-10 Nokia Technologies Oy Compensating noise removal artifacts
GB2620978A (en) * 2022-07-28 2024-01-31 Nokia Technologies Oy Audio processing adaptation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013514696A (ja) * 2009-12-17 2013-04-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 第1のパラメトリック空間オーディオ信号を第2のパラメトリック空間オーディオ信号に変換する装置および方法
JP2013207759A (ja) * 2012-03-29 2013-10-07 Fujitsu Ltd 携帯端末、音源位置制御方法および音源位置制御プログラム
JP2015198413A (ja) * 2014-04-03 2015-11-09 日本電信電話株式会社 収音システム及び放音システム
JP2018534853A (ja) * 2015-10-14 2018-11-22 クアルコム,インコーポレイテッド 高次アンビソニック(hoa)コンテンツの画面に関連した適応

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
US10635383B2 (en) 2013-04-04 2020-04-28 Nokia Technologies Oy Visual audio processing apparatus
US9578439B2 (en) 2015-01-02 2017-02-21 Qualcomm Incorporated Method, system and article of manufacture for processing spatial audio
GB2549532A (en) * 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
GB2559765A (en) * 2017-02-17 2018-08-22 Nokia Technologies Oy Two stage audio focus for spatial audio processing
US10477310B2 (en) * 2017-08-24 2019-11-12 Qualcomm Incorporated Ambisonic signal generation for microphone arrays
US10165388B1 (en) * 2017-11-15 2018-12-25 Adobe Systems Incorporated Particle-based spatial audio visualization
EP3777244A4 (en) * 2018-04-08 2021-12-08 DTS, Inc. EXTRACTION OF AMBISONIC DEPTHS

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013514696A (ja) * 2009-12-17 2013-04-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 第1のパラメトリック空間オーディオ信号を第2のパラメトリック空間オーディオ信号に変換する装置および方法
JP2013207759A (ja) * 2012-03-29 2013-10-07 Fujitsu Ltd 携帯端末、音源位置制御方法および音源位置制御プログラム
JP2015198413A (ja) * 2014-04-03 2015-11-09 日本電信電話株式会社 収音システム及び放音システム
JP2018534853A (ja) * 2015-10-14 2018-11-22 クアルコム,インコーポレイテッド 高次アンビソニック(hoa)コンテンツの画面に関連した適応

Also Published As

Publication number Publication date
JP2024028526A (ja) 2024-03-04
GB201908346D0 (en) 2019-07-24
WO2020249860A1 (en) 2020-12-17
GB2584838A (en) 2020-12-23
EP3984252A1 (en) 2022-04-20
US20220303710A1 (en) 2022-09-22
EP3984252A4 (en) 2023-06-28
CN114009065A (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
US10674262B2 (en) Merging audio signals with spatial metadata
US9820037B2 (en) Audio capture apparatus
US10785589B2 (en) Two stage audio focus for spatial audio processing
US10635383B2 (en) Visual audio processing apparatus
US11659349B2 (en) Audio distance estimation for spatial audio processing
JP2024028526A (ja) 音場関連レンダリング
US20210250717A1 (en) Spatial audio Capture, Transmission and Reproduction
WO2019175472A1 (en) Temporal spatial audio parameter smoothing
JP2024028527A (ja) 音場関連レンダリング
US10708679B2 (en) Distributed audio capture and mixing
US20210211828A1 (en) Spatial Audio Parameters
GB2620960A (en) Pair direction selection based on dominant audio direction
JP2015065551A (ja) 音声再生システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220210

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230606

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230926