JP6824420B2 - 適応型キャプチャを利用した、マイクアレイからの空間オーディオ信号フォーマット生成 - Google Patents

適応型キャプチャを利用した、マイクアレイからの空間オーディオ信号フォーマット生成 Download PDF

Info

Publication number
JP6824420B2
JP6824420B2 JP2019537889A JP2019537889A JP6824420B2 JP 6824420 B2 JP6824420 B2 JP 6824420B2 JP 2019537889 A JP2019537889 A JP 2019537889A JP 2019537889 A JP2019537889 A JP 2019537889A JP 6824420 B2 JP6824420 B2 JP 6824420B2
Authority
JP
Japan
Prior art keywords
audio signal
spherical harmonic
microphone
signal
frequency band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019537889A
Other languages
English (en)
Other versions
JP2019530389A (ja
Inventor
ユハ ヴィルカモ
ユハ ヴィルカモ
ミッコ・ヴィッレ ライティネン
ミッコ・ヴィッレ ライティネン
Original Assignee
ノキア テクノロジーズ オーユー
ノキア テクノロジーズ オーユー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オーユー, ノキア テクノロジーズ オーユー filed Critical ノキア テクノロジーズ オーユー
Publication of JP2019530389A publication Critical patent/JP2019530389A/ja
Application granted granted Critical
Publication of JP6824420B2 publication Critical patent/JP6824420B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本願は、適応型信号処理技術を利用した、マイクアレイから球面高調波信号を生成する装置および方法に関する。
背景
以下の開示に関して、空間音声キャプチャおよび再生の2つの特有な手法が存在する。
1)アンビソニックス(Ambisonics):マイクアレイを利用して、球面高調波信号が線形(すなわち非適応的)に取得される。球面高調波信号は、従来の非適応型方法により、ラウドスピーカに対して復号されるか、ヘッドホンに両耳形式で復号可能である。両耳用再生の場合、球面高調波信号は聴き手の頭部の向きに基づいて、回転行列を利用して回転でき、回転された信号が、両耳用に線形復号可能となる。
2)適応型空間オーディオキャプチャ(Spatial Audio Capture:SPAC)方法:マイクアレイ信号からの知覚的に関連した空間情報(例えば、周波数帯域における到来音の方向)の動的分析を利用したものである。この情報は、いわゆる空間メタデータと呼ばれるもので、元の録音音場と知覚的に類似した空間再生を動的に合成するために適用される。このような適応型方法を十分に実施した場合、多くの実用的デバイスにおいて、アンビソニックスよりも知覚的に優れたものとなるため、幅広い種類のキャプチャデバイスにも適用可能である。
アンビソニックスオーディオフォーマット(または球面高調波信号)は従来の空間オーディオ信号表現である。近年、この信号表現(フォーマット)は、空間オーディオ送信にもよく選ばれるようになっている。これは、異なる複数の次数の球面高調波からなる。ゼロ次高調波(=ゼロ空間周波数)は、全方向性信号で表される。一次高調波は、双極子パターンで表され、それ以上の次数は四曲子で表され、以下同となる。以下の開示における用語、高次アンビソニックス(Higher-Order Ambisonics:HOA)は、ゼロ次から二次(またはさらに高次)の球面高調波信号を利用した技術を指す。球面高調波信号については多くの変形や構成がある。例えば、相対振幅または球面高調波の順序は定義により異なりうる。当該任意の変数間の変換は、典型的には線形(行列)演算による簡潔なものである。
アンビソニックオーディオフォーマット(または球面高調波信号)も、空間オーディオ送信用のフォーマットに利用可能である。例えば、YouTube(登録商標)3Dオーディオ/ビデオサービスが、1つの全方向性信号(ゼロ次)および3つの双極子信号(一次)からなる一次アンビソニックフォーマット(球面高調波信号)を利用した空間オーディオストリーミングを開始した。この手法は品質、ビットレートの点で理想的ではないが、実際にエンドユーザに十分な体験を提供できることを、現存するストリーミングサービスが示している。さらに、アンビソニックオーディオフォーマットは簡潔で、確立されたフォーマットである。すなわち、YouTube等のサービスでの利用には有用なオーディオフォーマットなのである。アンビソニックオーディオフォーマット信号は受信部側で線形復号可能で、公知の方法により、ヘッドホン(両耳用)またはラウドスピーカに届けられる。
球面高調波信号の生成には問題が伴う。球面高調波信号の生成のためには、専用のマイクアレイ形式の専用の装置が、線形手段で信号を取得するのに必要となる。それ以外の、従来の、または一般的なマイク構成により球面高調波信号を生成して、線形組合せ処理によりマイク信号を処理するような場合には、品質結果が低い球面高調波信号が生成されうる。
摘要
第1の態様に係る装置が提供され、該装置は、少なくとも2つのマイクオーディオ信号を受信し、前記少なくとも2つのマイクオーディオ信号に対応付けられた空間メタデータを決定し、既定の次数の空間オーディオ信号フォーマットを出力するべく、少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、複数の球面高調波オーディオ信号を適応的に合成するように構成されたプロセッサを備える。
前記プロセッサは、前記少なくとも2つのマイクオーディオ信号をマイクアレイから受信するようにさらに構成されてもよい。
前記プロセッサは、前記少なくとも2つのマイクオーディオ信号を分析して、前記空間メタデータを決定するように構成されてもよい。
前記プロセッサは、前記少なくとも2つのマイクオーディオ信号に対応付けられた前記空間メタデータをさらに受信するように構成されてもよい。
前記複数の球面高調波オーディオ信号は、一次球面高調波オーディオ信号であってもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成するように構成された前記プロセッサは、前記少なくとも1つのマイクオーディオ信号の第1の部分および前記空間メタデータに対して、前記複数の球面高調波オーディオ信号を適応的に合成し、前記少なくとも1つのマイクオーディオ信号の第2の部分に対して、前記複数の球面高調波オーディオ信号を線形演算によって合成し、前記球面高調波オーディオ信号を組み合わせるようにさらに構成されてもよい。
前記少なくとも1つのマイクオーディオ信号の前記第1の部分は前記少なくとも1つのマイクオーディオ信号の第1の周波数帯域であってもよく、前記少なくとも1つのマイクオーディオ信号の前記第2の部分は前記少なくとも1つのマイクオーディオ信号の第2の周波数帯域であってもよい。
前記プロセッサは、前記少なくとも1つのマイクオーディオ信号を生成する少なくとも1つのマイクの物理的配置に基づいて、前記第1の周波数帯域を決定するようにさらに構成されてもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成するように構成された前記プロセッサは、少なくとも1つの次数の球面高調波オーディオ信号に対して、前記少なくとも1つのマイクオーディオ信号の第1の周波数帯域部分および前記空間メタデータの第1の周波数部分に基づいて、球面高調波オーディオ信号を適応的に合成し、少なくとも1つの別の次数の球面高調波オーディオ信号に対して、球面高調波オーディオ信号を線形演算によって合成し、前記少なくとも1つの次数の球面高調波オーディオ信号と前記少なくとも1つの別の次数の球面高調波オーディオ信号とを組み合わせるようにさらに構成されてもよい。
前記プロセッサは、前記少なくとも1つのマイクオーディオ信号を生成する少なくとも1つのマイクの物理的配置に基づいて、前記少なくとも1つの次数の球面高調波信号を決定するようにさらに構成されてもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成するように構成された前記プロセッサは、少なくとも1つの球面高調波オーディオ信号軸に対して、前記少なくとも1つのマイクオーディオ信号の第1の周波数帯域部分および前記空間メタデータの第1の周波数部分に基づいて、球面高調波オーディオ信号を適応的に合成し、少なくとも1つの別の球面高調波オーディオ信号軸に対して、球面高調波オーディオ信号を線形演算によって合成し、前記少なくとも1つの球面高調波オーディオ信号軸と前記少なくとも1つの別の球面高調波オーディオ信号軸とを組み合わせるようにさらに構成されてもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成するように構成された前記プロセッサは、前記少なくとも1つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、複数の定義位置合成チャネルオーディオ信号を生成し、前記複数の定義位置合成チャネルオーディオ信号に対して、線形演算によって、球面高調波オーディオ信号を適応的に合成するようにさらに構成されてもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、前記複数の定義位置合成チャネルオーディオ信号を生成するように構成された前記プロセッサは、前記空間メタデータの比部分に基づいて、前記少なくとも1つのマイクオーディオ信号を指向性部分と無指向性部分とに分割し、前記少なくとも1つのマイクオーディオ信号の前記指向性部分を振幅パンニングして、前記空間メタデータの位置部分に基づいて、前記定義位置合成チャネルオーディオ信号の指向性部分を生成し、前記少なくとも1つのマイクオーディオ信号の前記無指向性部分から、前記定義位置合成チャネルオーディオ信号の周囲部分を脱相関合成し、前記定義位置合成チャネルオーディオ信号の前記指向性部分と前記定義位置合成チャネルオーディオ信号の前記無指向性部分とを組み合わせて、前記複数の定義位置合成チャネルオーディオ信号を生成するようにさらに構成されてもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成するように構成された前記プロセッサは、前記少なくとも1つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、球面高調波オーディオ信号のモデル化された移動音源組を生成し、前記少なくとも1つのマイクオーディオ信号に基づいて、球面高調波オーディオ信号の周囲組を生成し、前記球面高調波オーディオ信号のモデル化された移動音源組と前記球面高調波オーディオ信号の周囲組とを組み合わせて、前記複数の球面高調波オーディオ信号を生成するようにさらに構成されてもよい。
前記プロセッサは、前記空間メタデータの比部分に基づいて、前記少なくとも1つのマイクオーディオ信号を指向性部分と無指向性部分とに分割するようにさらに構成されてもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、前記球面高調波オーディオ信号のモデル化された移動音源組を生成するように構成された前記プロセッサは、前記メタデータの前記指向性部分に基づいて、少なくとも1つのモデル化された移動音源重みを決定し、前記少なくとも1つのマイクオーディオ信号の前記指向性部分に適用された前記少なくとも1つのモデル化された移動音源重みから、前記球面高調波オーディオ信号のモデル化された移動音源組を生成するようにさらに構成されてもよい。
前記少なくとも1つのマイクオーディオ信号に基づいて、前記球面高調波オーディオ信号の周囲組を生成するように構成された前記プロセッサは、前記球面高調波オーディオ信号の周囲組を脱相関合成するようにさらに構成されてもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を合成するように構成された前記プロセッサは、前記メタデータに基づいて対象確率的特性を決定し、前記少なくとも1つのマイクオーディオ信号を分析して、少なくとも1つの短時間確率的特徴を決定し、前記短時間確率的特徴および前記対象確率的特性に基づいて最適化された重みの組を生成し、前記重みの組を前記少なくとも1つのマイクオーディオ信号に適用することに基づいて、複数の球面高調波オーディオ信号を生成するようにさらに構成されてもよい。
前記少なくとも1つのマイクオーディオ信号に対応付けられた前記空間メタデータは、ある周波数帯域に対する前記空間メタデータの方向パラメータと、前記周波数帯域に対する前記空間メタデータの比パラメータと、の内の少なくとも1つを含んでもよい。
前記少なくとも2つのマイクは、外部マイク、デバイスマイク、または外部マイクとデバイスマイクとの組合せを含んでもよい。
前記少なくとも1つのマイクオーディオ信号は、前記少なくとも2つのマイクオーディオ信号または外部チャネルの一方を含んでもよい。
第2の態様に係る方法が提供され、該方法は、少なくとも2つのマイクオーディオ信号を受信することと、前記少なくとも2つのマイクオーディオ信号に対応付けられた空間メタデータを決定することと、既定の次数の空間オーディオ信号フォーマットを出力するべく、少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、複数の球面高調波オーディオ信号を適応的に合成することと、を含む。
前記方法は、前記少なくとも2つのマイクオーディオ信号をマイクアレイから受信することをさらに含んでもよい。
前記少なくとも2つのマイクオーディオ信号に対応付けられた空間メタデータを決定することは、前記少なくとも2つのマイクオーディオ信号を分析して、前記空間メタデータを決定することをさらに含んでもよい。
前記少なくとも2つのマイクオーディオ信号に対応付けられた空間メタデータを決定することは、前記少なくとも2つのマイクオーディオ信号に対応付けられた空間メタデータを受信することをさらに含んでもよい。
前記複数の球面高調波オーディオ信号は、一次球面高調波オーディオ信号であってもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成することは、前記少なくとも1つのマイクオーディオ信号の第1の部分および前記空間メタデータに対して、前記複数の球面高調波オーディオ信号を適応的に合成することと、前記少なくとも1つのマイクオーディオ信号の第2の部分に対して、前記複数の球面高調波オーディオ信号を線形演算によって合成することと、前記球面高調波オーディオ信号を組み合わせることと、をさらに含んでもよい。
前記少なくとも1つのマイクオーディオ信号の前記第1の部分は前記少なくとも1つのマイクオーディオ信号の第1の周波数帯域であってもよく、前記少なくとも1つのマイクオーディオ信号の前記第2の部分は前記少なくとも1つのマイクオーディオ信号の第2の周波数帯域であってもよい。
前記方法は、前記少なくとも1つのマイクオーディオ信号を生成する少なくとも1つのマイクの物理的配置に基づいて、前記第1の周波数帯域を決定することをさらに含んでもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成することは、少なくとも1つの次数の球面高調波オーディオ信号に対して、前記少なくとも1つのマイクオーディオ信号の第1の周波数帯域部分および前記空間メタデータの第1の周波数部分に基づいて、球面高調波オーディオ信号を適応的に合成することと、少なくとも1つの別の次数の球面高調波オーディオ信号に対して、球面高調波オーディオ信号を線形演算によって合成することと、前記少なくとも1つの次数の球面高調波オーディオ信号と前記少なくとも1つの別の次数の球面高調波オーディオ信号とを組み合わせることと、をさらに含んでもよい。
前記方法は、前記少なくとも1つのマイクオーディオ信号を生成する少なくとも1つのマイクの物理的配置に基づいて、前記少なくとも1つの次数の球面高調波信号を決定することをさらに含んでもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成することは、少なくとも1つの球面高調波オーディオ信号軸に対して、前記少なくとも1つのマイクオーディオ信号の第1の周波数帯域部分および前記空間メタデータの第1の周波数部分に基づいて、球面高調波オーディオ信号を適応的に合成することと、少なくとも1つの別の球面高調波オーディオ信号軸に対して、球面高調波オーディオ信号を線形演算によって合成することと、前記少なくとも1つの球面高調波オーディオ信号軸と前記少なくとも1つの別の球面高調波オーディオ信号軸とを組み合わせることと、をさらに含んでもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成することは、前記少なくとも1つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、複数の定義位置合成チャネルオーディオ信号を生成することと、前記複数の定義位置合成チャネルオーディオ信号に対して、線形演算によって、球面高調波オーディオ信号を適応的に合成することと、をさらに含んでもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、前記複数の定義位置合成チャネルオーディオ信号を生成することは、前記空間メタデータの比部分に基づいて、前記少なくとも1つのマイクオーディオ信号を指向性部分と無指向性部分とに分割することと、前記少なくとも1つのマイクオーディオ信号の前記指向性部分を振幅パンニングして、前記空間メタデータの位置部分に基づいて、前記定義位置合成チャネルオーディオ信号の指向性部分を生成することと、前記少なくとも1つのマイクオーディオ信号の前記無指向性部分から、前記定義位置合成チャネルオーディオ信号の周囲部分を脱相関合成することと、前記定義位置合成チャネルオーディオ信号の前記指向性部分と前記定義位置合成チャネルオーディオ信号の前記無指向性部分とを組み合わせて、前記複数の定義位置合成チャネルオーディオ信号を生成することと、をさらに含んでもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成することは、前記少なくとも1つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、球面高調波オーディオ信号のモデル化された移動音源組を生成することと、前記少なくとも1つのマイクオーディオ信号に基づいて、球面高調波オーディオ信号の周囲組を生成することと、前記球面高調波オーディオ信号のモデル化された移動音源組と前記球面高調波オーディオ信号の周囲組とを組み合わせて、前記複数の球面高調波オーディオ信号を生成することと、をさらに含んでもよい。
前記方法は、前記空間メタデータの比部分に基づいて、前記少なくとも1つのマイクオーディオ信号を指向性部分と無指向性部分とに分割することをさらに含んでもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、前記球面高調波オーディオ信号のモデル化された移動音源組を生成することは、前記メタデータの前記指向性部分に基づいて、少なくとも1つのモデル化された移動音源重みを決定することと、前記少なくとも1つのマイクオーディオ信号の前記指向性部分に適用された前記少なくとも1つのモデル化された移動音源重みから、前記球面高調波オーディオ信号のモデル化された移動音源組を生成することと、をさらに含んでもよい。
前記少なくとも1つのマイクオーディオ信号に基づいて、前記球面高調波オーディオ信号の周囲組を生成することは、前記球面高調波オーディオ信号の周囲組を脱相関合成することをさらに含んでもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を合成することは、前記メタデータに基づいて対象確率的特性を決定することと、前記少なくとも1つのマイクオーディオ信号を分析して、少なくとも1つの短時間確率的特徴を決定することと、前記短時間確率的特徴および前記対象確率的特性に基づいて最適化された重みの組を生成することと、前記重みの組を前記少なくとも1つのマイクオーディオ信号に適用することに基づいて、複数の球面高調波オーディオ信号を生成することと、をさらに含んでもよい。
前記少なくとも1つのマイクオーディオ信号に対応付けられた前記空間メタデータは、ある周波数帯域に対する前記空間メタデータの方向パラメータと、前記周波数帯域に対する前記空間メタデータの比パラメータと、の内の少なくとも1つを含んでもよい。
前記少なくとも2つのマイクは、外部マイク、デバイスマイク、または外部マイクとデバイスマイクとの組合せを含んでもよい。
前記少なくとも1つのマイクオーディオ信号は、前記少なくとも2つのマイクオーディオ信号または外部チャネルの一方を含んでもよい
第3の態様に係る装置が提供され、該装置は、少なくとも2つのマイクオーディオ信号を受信する手段と、前記少なくとも2つのマイクオーディオ信号に対応付けられた空間メタデータを決定する手段と、既定の次数の空間オーディオ信号フォーマットを出力するべく、少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、複数の球面高調波オーディオ信号を適応的に合成する手段と、を備える。
前記少なくとも2つのマイクオーディオ信号を受信する手段はさらに、前記オーディオ信号をマイクアレイから受信してもよい。
前記少なくとも2つのマイクオーディオ信号に対応付けられた空間メタデータを決定する手段は、前記少なくとも2つのマイクオーディオ信号を分析して、前記空間メタデータを決定する手段をさらに備えてもよい。
前記少なくとも2つのマイクオーディオ信号に対応付けられた空間メタデータを決定する手段は、前記少なくとも2つのマイクオーディオ信号に対応付けられた空間メタデータを受信する手段をさらに備えてもよい。
前記複数の球面高調波オーディオ信号は、一次球面高調波オーディオ信号であってもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成する手段は、前記少なくとも1つのマイクオーディオ信号の第1の部分および前記空間メタデータに対して、前記複数の球面高調波オーディオ信号を適応的に合成する手段と、前記少なくとも1つのマイクオーディオ信号の第2の部分に対して、前記複数の球面高調波オーディオ信号を線形演算によって合成する手段と、前記球面高調波オーディオ信号を組み合わせる手段と、をさらに備えてもよい。
前記少なくとも1つのマイクオーディオ信号の前記第1の部分は前記少なくとも1つのマイクオーディオ信号の第1の周波数帯域であってもよく、前記少なくとも1つのマイクオーディオ信号の前記第2の部分は前記少なくとも1つのマイクオーディオ信号の第2の周波数帯域であってもよい。
前記装置は、前記少なくとも1つのマイクオーディオ信号を生成する少なくとも1つのマイクの物理的配置に基づいて、前記第1の周波数帯域を決定する手段をさらに備えてもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成する手段は、少なくとも1つの次数の球面高調波オーディオ信号に対して、前記少なくとも1つのマイクオーディオ信号の第1の周波数帯域部分および前記空間メタデータの第1の周波数部分に基づいて、球面高調波オーディオ信号を適応的に合成する手段と、少なくとも1つの別の次数の球面高調波オーディオ信号に対して、球面高調波オーディオ信号を線形演算によって合成する手段と、前記少なくとも1つの次数の球面高調波オーディオ信号と前記少なくとも1つの別の次数の球面高調波オーディオ信号とを組み合わせる手段と、をさらに備えてもよい。
前記装置は、前記少なくとも1つのマイクオーディオ信号を生成する少なくとも1つのマイクの物理的配置に基づいて、前記少なくとも1つの次数の球面高調波信号を決定する手段をさらに備えてもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成する手段は、少なくとも1つの球面高調波オーディオ信号軸に対して、前記少なくとも1つのマイクオーディオ信号の第1の周波数帯域部分および前記空間メタデータの第1の周波数部分に基づいて、球面高調波オーディオ信号を適応的に合成する手段と、少なくとも1つの別の球面高調波オーディオ信号軸に対して、球面高調波オーディオ信号を線形演算によって合成する手段と、前記少なくとも1つの球面高調波オーディオ信号軸と前記少なくとも1つの別の球面高調波オーディオ信号軸とを組み合わせる手段と、をさらに備えてもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成する手段は、前記少なくとも1つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、複数の定義位置合成チャネルオーディオ信号を生成する手段と、前記複数の定義位置合成チャネルオーディオ信号に対して、線形演算によって、球面高調波オーディオ信号を適応的に合成する手段と、をさらに備えてもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、前記複数の定義位置合成チャネルオーディオ信号を生成する手段は、前記空間メタデータの比部分に基づいて、前記少なくとも1つのマイクオーディオ信号を指向性部分と無指向性部分とに分割する手段と、前記少なくとも1つのマイクオーディオ信号の前記指向性部分を振幅パンニングして、前記空間メタデータの位置部分に基づいて、前記定義位置合成チャネルオーディオ信号の指向性部分を生成する手段と、前記少なくとも1つのマイクオーディオ信号の前記無指向性部分から、前記定義位置合成チャネルオーディオ信号の周囲部分を脱相関合成する手段と、前記定義位置合成チャネルオーディオ信号の前記指向性部分と前記定義位置合成チャネルオーディオ信号の前記無指向性部分とを組み合わせて、前記複数の定義位置合成チャネルオーディオ信号を生成する手段と、をさらに備えてもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成する手段は、前記少なくとも1つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、球面高調波オーディオ信号のモデル化された移動音源組を生成する手段と、前記少なくとも1つのマイクオーディオ信号に基づいて、球面高調波オーディオ信号の周囲組を生成する手段と、前記球面高調波オーディオ信号のモデル化された移動音源組と前記球面高調波オーディオ信号の周囲組とを組み合わせて、前記複数の球面高調波オーディオ信号を生成する手段と、をさらに備えてもよい。
前記装置は、前記空間メタデータの比部分に基づいて、前記少なくとも1つのマイクオーディオ信号を指向性部分と無指向性部分とに分割する手段をさらに備えてもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、前記球面高調波オーディオ信号のモデル化された移動音源組を生成する手段は、前記メタデータの前記指向性部分に基づいて、少なくとも1つのモデル化された移動音源重みを決定する手段と、前記少なくとも1つのマイクオーディオ信号の前記指向性部分に適用された前記少なくとも1つのモデル化された移動音源重みから、前記球面高調波オーディオ信号のモデル化された移動音源組を生成する手段と、をさらに備えてもよい。
前記少なくとも1つのマイクオーディオ信号に基づいて、前記球面高調波オーディオ信号の周囲組を生成する手段は、前記球面高調波オーディオ信号の周囲組を脱相関合成する手段をさらに備えてもよい。
前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を合成する手段は、前記メタデータに基づいて対象確率的特性を決定する手段と、前記少なくとも1つのマイクオーディオ信号を分析して、少なくとも1つの短時間確率的特徴を決定する手段と、前記短時間確率的特徴および前記対象確率的特性に基づいて最適化された重みの組を生成する手段と、前記重みの組を前記少なくとも1つのマイクオーディオ信号に適用することに基づいて、複数の球面高調波オーディオ信号を生成する手段と、をさらに備えてもよい。
前記少なくとも1つのマイクオーディオ信号に対応付けられた前記空間メタデータは、ある周波数帯域に対する前記空間メタデータの方向パラメータと、前記周波数帯域に対する前記空間メタデータの比パラメータと、の内の少なくとも1つを含んでもよい。
前記少なくとも2つのマイクは、外部マイク、デバイスマイク、または外部マイクとデバイスマイクとの組合せを含んでもよい。
前記少なくとも1つのマイクオーディオ信号は、前記少なくとも2つのマイクオーディオ信号または外部チャネルの一方を含んでもよい。
媒体に記憶されたコンピュータプログラム製品により、装置に本明細書に記載の方法を実行させてもよい。
電子デバイスは、本明細書に記載の装置を含んでもよい。
チップセットは、本明細書に記載の装置を含んでもよい。
本願の実施形態は、現状の技術に関する問題を解決することを目的とする。
本願をよりよく理解できるよう、以下の添付の図を例示的に参照する。
図1aは、いくつかの実施形態を実施するに適した分散型オーディオキャプチャおよび処理システムおよび装置を模式的に示す。 図1bは、いくつかの実施形態を実施するに適した分散型オーディオキャプチャおよび処理システムおよび装置を模式的に示す。 図2は、いくつかの実施形態に係る図1bに示すようなシンセサイザの第1の例を模式的に示す。 図3は、いくつかの実施形態に係る図1bに示すようなシンセサイザの第2の例を模式的に示す。 図4は、いくつかの実施形態に係る図1bに示すようなシンセサイザの第3の例を模式的に示す。 図5は、いくつかの実施形態に係る図1bに示すような例示的ハイブリッドシンセサイザを模式的に示す。 図6は、いくつかの実施形態を実施するに適した装置を模式的に示す。
以下に、マイクアレイからの、効果的な球面高調波信号生成を実現するのに適した装置や、利用できうる機構についてより詳細に説明する。以下の例では、オーディオ信号とオーディオキャプチャ信号が説明される。ただし、ある実施形態において、本装置は、オーディオ信号を取得する、またはオーディオ信号やその他の情報信号を受信するように構成された、任意の適切な電子デバイスまたは装置の一部であってもよいことが理解されよう。以下、球面高調波という用語は、空間にわたる高調波を表す。以下により詳細に説明するように、適応型手段は、処理される信号の性質に適応した処理であることを示す。したがって、以下に記載するように、オーディオ信号から特性が抽出され、信号に対する処理が、当該特性に応じて異なっていてもよい。本明細書に記載の実施形態では、周波数帯域および/または球面高調波の次数、および/または空間寸法の少なくとも一部に関する適応型処理を説明する。すなわち、従来のアンビソニックスとは異なり、入出力間が線形対応関係とならない。
具体的には、以下の開示では適応型SPAC技術が説明される。これは、ラウドスピーカまたはヘッドホンの前段階での、マイクアレイからの空間オーディオキャプチャ方法を表す。以下に説明する実施形態では、SPACキャプチャ方法の、球面高調波信号表現に対する互換性を実現可能とすることに関する。言い換えると、動的SPAC分析を利用したシステムの出力の、既存のアンビソニックデコーダに対する互換性を実現するのである。ここで、空間オーディオキャプチャ(Spatial Audio Capture:SPAC)は、適応型時間周波数分析および処理により、マイクアレイ付きの任意のデバイス(例えばノキアOZOまたは携帯電話)から高感知品質空間オーディオ再生を実現する技術を指す。水平面におけるSPACキャプチャには、少なくとも3つのマイクが必要で、3Dキャプチャには少なくとも4つのマイクが必要である。SPAC方法は適応的である。言い換えると、従来の最先端線形キャプチャ技術から空間的精度を向上する、非線形手法が利用される。
従来の線形演算および方法(マイクアレイから球面高調波信号を取得するためのもの)の問題点としては、オーディオ信号を正確に取得するために、マイクアレイに厳格な要件が課されることが挙げられる。例えば、一次球面高調波オーディオ信号を取得するには、指向性センサ付きのBフォーマットマイクが必要となる。
あるいは、ノキアOZOまたはスマートフォンのような剛性の高いデバイスの場合、全方向性マイク(センサ)がデバイス表面に設けられうる。原則として、マイク信号に基づいて、線形方法により球面高調波信号が取得できる。実際、詳細に後述するように、線形方法では、多くの関連する現実的な使用事例で極めて厳格な要件が課される。
第1の線形手法として、指定線形フィルタの行列を、マイク信号に適用して球面高調波成分を得るものである。同様の異なる線形手法として、マイク信号を時間−周波数領域に変換して、各周波数帯域に指定ミキシング行列を適用して時間−周波数領域で球面高調波信号を得ることが挙げられる。得られた時間−周波数領域における球面高調波信号は、時間領域PCM信号に逆変換される。
しかし、線形空間オーディオキャプチャ(より詳細に後述)には根本的な制限がある。そもそもデバイスは、低周波キャプチャ可能なほど大きくなければならない(例えば、OZOのサイズは260x170x160mm程度である)。さらに、高周波キャプチャ可能なように、マイクは十分密に配置されていなければならない(例えば、2cm間隔)。したがって、多数のマイクについての要件が課される。これら性質を全て十分に満たすようなデバイスの例として、マイク32個のアイゲンマイク(Eigenmike)があるが、これはオーディオに限定されたソリューションである。
例えば、8個のマイクが設けられた、OZOほどのサイズのデバイスへの線形方法の適用は、マイク間隔に比して、中〜高聴覚周波数(例えば1.5kHz超)の波長が狭過ぎるという問題がある。このような周波数では、空間エイリアシングという公知の効果が生じる。すなわち、球面高調波オーディオ信号が求められた空間キャプチャパターンを維持できなくなり、その結果、当該信号のラウドスピーカまたはヘッドホンへのあらゆる復号が、当該周波数で空間的に誤ったものとなるのである。例えば、再生音が、誤った方向から到来したように知覚されるか、指向性の知覚が不明瞭になりうる。言い換えると、従来の線形方法では、OZOまたは同様のデバイスを利用して、球面高調波オーディオ信号を十分な可聴帯域で取得することができないのである。
小型デバイスの問題は、アレイのサイズ対して、低周波数で波長が広くなってしまうことである。低周波数(例えば、200Hz)で、オーディオ波長が1.7mになる。スマートフォンのような小型デバイスでは、マイクが2cm間隔で配置されうる。オーディオ波長が長いと、異なる複数のマイクから到来する音が極めて類似してしまう。一次以上の球面高調波は、マイク信号間の差分から数式化され、この差分信号が小型デバイスでは、マイクの自己ノイズやその他の干渉に対して、振幅が極めて小さくなりうる。例えば、200Hzでは、想定される小型デバイスは、一次球面高調波で、約20dB低減した信号ノイズ比に悩まされうる。これはより高次の球面高調波でより顕著となる。また、より高次の線形キャプチャの場合、小型デバイスでは現実的でないほど多数の(例えば9個以上)のマイクが求められる。言い換えると、従来の線形方法では、携帯電話または同様のデバイスを利用して、十分な可聴帯域で球面高調波オーディオ信号が取得できない。
上記内容を要約すると、OZOデバイスの場合、高周波数に対してマイクが分散し過ぎており、携帯電話のような小型装置の場合、低周波数に対してアレイのサイズが小さ過ぎる。
言い換えると、マイク32個のアイゲンマイクのような最上位アレイでないデバイスでは、可聴周波数範囲の大部分が、従来の線形方法では十分に取得できないのである。この問題は、あらゆる線形、すなわち非適応型空間キャプチャ技術で生じるもので、球面高調波表現が利用された場合に限らない。したがって、実用的なデバイスの種類の大部分で、球面高調波生成に関しても、適応型SPAC方法を空間オーディオキャプチャに利用することが求められる。
この問題を解決して、球面高調波信号を所望の帯域で線形に求めるため、OZO型カメラに多数(32個以上等)の高性能マイクを備えることが考えられる。しかしこれでは、デバイスが複雑で非常に高価になってしまう。本実施形態の概念は、より少ないマイク(8個等)の、簡潔かつより費用効果の高いデバイスを構築することである。ハンドヘルド球面カメラまたはスマートフォンのような小型デバイスでは、利用可能な線形キャプチャの従来技術が存在しない。
同様に、ビデオキャプチャ手段に加えて、線形球面高調波をキャプチャ可能な外部高性能マイクアレイを、オーディオ/ビデオキャプチャに利用できるが、ビデオデバイス自体に設けられたマイクを直接利用した方が便利である。
適応型の知覚に基づく空間オーディオキャプチャに対し、数多くの高性能方法が存在する。本明細書にさらに詳細に説明される概念では、マイクアレイから球面高調波オーディオ信号を生成するのに、SPAC方法を利用する。具体的には、ある実施形態において、SPAC方法が利用することで、少なくとも一部の周波数で球面高調波信号を所望のとおりに線形に取得できないマイクアレイにより、球面高調波信号を生成可能とするものである。
本明細書で使用されるSPACという用語は、空間オーディオキャプチャを実現するあらゆる適応型アレイ信号処理技術を網羅する、全般的用語である。本範囲の方法は、周波数帯域信号における分析と処理を適用する。これが、空間オーディオ知覚にとって有意の領域であるためである。録音された音声の指向性または無指向性を判定するための、到来音の方向、および/または比やエネルギーパラメータのような空間メタデータが、周波数帯域において動的に分析される。同等のマイクアレイで、アンビソニックスの場合を越える空間精度で、空間音を、ヘッドホンまたはラウドスピーカに動的に合成するため、再生段階にてメタデータが適用される。例えば、アレイに到来する平面波は、受信端で、点音源として再生可能である。これは、極めて高次のアンビソニック再生の性能に比肩するものである。
空間オーディオキャプチャ(SPAC)再生の一方法として、指向性オーディオ符号化(Directional Audio Coding:DirAC)が挙げられる。これは、音場強度と、エネルギー分析とを利用して、ラウドスピーカまたはヘッドホンへの高品質適応型空間オーディオ合成を可能とする空間メタデータを実現するものである。別の例としては、高調平面波拡張(Harpex)が挙げられる。これは、2つの平面波を同時に分析可能で、さらに特定の音場状況下で、空間精度を向上できうるものである。さらなる方法として、携帯電話空間オーディオキャプチャを主に対象としたものがある。これはマイク間の遅延とコヒーレンス分析を利用して、空間メタデータを得るものである。この方法の別の対象デバイスとしては、OZOのようなより多くのマイクと、遮蔽体を含むものが挙げられる。以下の例では2つの変数が説明されるが、空間メタデータを得るために適用される任意の適切な方法が利用可能である。その概念の1つとしては、マイク信号からの空間メタデータ組(周波数帯域における音の方向、残響のような無指向性音の相対音量等)が、マイクオーディオ信号から分析され、空間音の適応型高精度合成を可能とするものが挙げられる。
SPAC方法は、小型デバイスに対してもロバストに利用できる。これには2つの理由がある。第1に、短時間確率的分析が通常利用される点である。すなわち、ノイズの効果が推定時に抑えられる。第2に、通常、音場の知覚的に関連した特性(空間オーディオ再生での最重要関心である)を分析するように設計されている。典型的な相対的特性としては、到来音の方向(複数可)と、そのエネルギーと、無指向性周囲エネルギー量が挙げられる。エネルギーパラメータは、直接−全体比パラメータ、周囲−全体比パラメータ等、多様な表現方法が利用可能である。これらのパラメータは周波数帯域で推定される。上記形態では、これらのパラメータは人間の空間的聴力にとって特に重要なのである。周波数帯域は、バーク幅、等価矩形帯域幅(ERB)、あるいはその他の知覚に基づく比線形尺度であってもよい。線形周波数尺度も適用可能だが、その場合は分解能が十分に高く、人の聴覚が最も周波数に敏感な低周波数も網羅できるほどであることが望ましい。
したがって、SPAC分析を利用すれば、例えば、周波数帯域における方向(複数可)、エネルギー比(複数可)のような知覚的に関連した動的空間メタデータが提供できる。SPAC合成は、オーディオ信号を処理して、分析された空間メタデータに応じて、知覚的空間特徴を再生音のために得ることである。例えば、SPAC分析により、ある周波数帯域の音が、ある方向からマイクアレイに到来するという情報が提供された場合、SPAC合成段階で、例えば信号を当該方向に対応する頭部伝達関数(Head-Related Transfer Function:HRTF)に適用してもよい。その結果、その周波数でヘッドホンに再生される音は、実際に音が分析された方向から到来した場合と同様に知覚される。同じ手順を、その他全ての周波数帯域にも(通常は個別に)、ある時間にわたって適応的に適用してもよい。
同様に、多くのSPAC分析および合成方法では、合成段階で通常は空間的に分散して再生される残響等の周囲信号が、空間メタデータに応じて適応的に時間単位で、さらに周波数単位で考慮される。
したがって、図1a、図1b、図2から図5を参照に説明する例では、SPAC方法が、少なくともいくつかの周波数では、一次球面高調波表現が得られないマイクアレイからの任意の次数の球面高調波信号を適応的に合成するように適用される実施形態が示される。
例えば、上述のように、空間エイリアシングにより、一次球面高調波オーディオ信号の生成が妨げられうる。あるいは、デバイス(例えばスマートフォン)の形状により、デバイスの狭方向軸において、(SNRによって)実際に利用可能な球面高調波成分の生成が妨げられうる。
本明細書に記載の実施形態では、まず取得されたマイクオーディオ信号から周波数帯域信号を分析することで、空間メタデータ(例えば方向(複数可)、比(複数可))が決定される。
次に、この空間メタデータ情報が、少なくとも1つのマイクアレイ周波数帯域信号からの球面高調波周波数帯域信号の合成時に適用される。
このような実施形態により、YouTubeのようなチャネルを介して、OZO、携帯電話、リコーTheta型デバイス他の幅広いデバイスに対して空間音再生が可能となりうる。これは従来技術では少なくともいくつかの周波数において実現不能であった。
より詳細に後述するように、ある実施形態において、空間音再生にハイブリッド手法が利用されてもよい。つまり、いくつかの周波数、および/または球面高調波の次数および/または空間軸について、マイクオーディオ信号が線形方法を利用して処理され、その他の周波数および/または球面高調波の次数および/または空間軸については、マイクオーディオ信号は動的(すなわち適応的)処理により処理されるものである。ハイブリッド手法は、例えば線形方法により極めて高品質な球面高調波成分が特定の周波数、および/または特定の球面高調波の次数、および/または特定の空間軸に対してのみ生成可能である場合に有用でありうる。
図1aに、いくつかの実施形態を実施するに適した例示的オーディオキャプチャおよび処理システム99を示す。
システム99は、空間オーディオキャプチャ(SPAC)デバイス105をさらに備えてもよい。空間オーディオキャプチャデバイス105は、ある実施形態において、例えば音源(複数可)および周囲音により表される音場に対応付けられたオーディオ信号を取得するように構成された指向性マイクアレイまたは全方向性マイクアレイ141を備えてもよい。空間オーディオキャプチャデバイス105は、取得したオーディオ信号を、プロセッサ兼シンセサイザ100に出力するように構成されてもよい。
ある実施形態において、空間オーディオキャプチャデバイス105は、モバイルデバイス/OZO内、またはカメラの有無を問わない任意のデバイス内に実現される。この場合、空間オーディオキャプチャデバイスは、空間オーディオを取得するように構成されており、当該音響は、聴き手に届けられると、聴き手が実際に空間オーディオキャプチャデバイスの所在地に存在するかのように感じられる空間音を体験可能とするものである。
システム99は、空間オーディオキャプチャデバイス105のマイクアレイ141の出力を受信するように構成されたプロセッサ兼シンセサイザ100をさらに備えてもよい。
プロセッサ兼シンセサイザ100は、空間オーディオキャプチャデバイス105の出力を処理(例えば適応的にミキシング)して、その処理信号を、内部保存または他のデバイスへの送信用の球面高調波オーディオ信号として出力する(例えば、復号され、ユーザに届けられる)ように構成されてもよい。典型的には、これは適応的な処理であって、様々な周波数帯域で実施される。
図1bは、プロセッサ兼シンセサイザ100の例をさらに詳細に示す。プロセッサ兼シンセサイザ100は、オーディオ信号/ストリームを受信するように構成されている。例えば、プロセッサ兼シンセサイザ100は、(空間オーディオキャプチャデバイス105内の)マイクアレイ141からオーディオ信号を受信するように構成されてもよい。ある実施形態において、入力は「記録された」または記憶されたオーディオ信号であってもよい。ある実施形態において、音響入力は、サンプリングされたオーディオ信号と、聴き手に対する、音響源または物体の方向または位置を表すメタデータ、または分析SPACメタデータ等のその他の方向パラメータを含んでもよく、その例としては周波数帯域中の方向パラメータおよびエネルギー比パラメータが挙げられる。ある実施形態において、(マイクに対応付けられる音響入力信号を含む)音響入力信号は、利得値等のその他の任意のパラメータ、またはオーディオ信号にかけられる等化フィルタを含んでもよい。
さらにラウドスピーカ信号またはオーディオ物体信号を含むような入力信号であれば、従来の方法で球面高調波信号に処理できる。言い換えると、空間方向(複数可)に応じた球面高調波変換重みを入力チャネル信号にかけるのである。これは直接的な処理であって、各周波数帯域における知覚に基づく空間メタデータ分析に依存するSPAC処理とは異なるものである。
プロセッサ兼シンセサイザ100は、ある実施形態においてフィルタバンク131を備える。フィルタバンク131は、時間領域マイクオーディオ信号を周波数帯域信号に変換可能とするものである。このように、任意の適切な時間−周波数領域変換がマイク信号に適用されてもよい。ある実施形態において実施可能な典型的なフィルタバンクとしては、分析窓およびFFTを利用した短時間フーリエ変換(Short Time Fourier Transform:STFT)が挙げられる。STFT以外の適切な変換としては、複素変調直交ミラーフィルタ(Quadrature Mirror Filter:QMF)バンクが挙げられる。フィルタバンクは、時間と周波数に基づいて入力信号の位相と振幅を示す複素数値周波数帯域信号を生成してもよい。フィルタバンクは、均一な周波数分解能を備えてもよく、これにより極めて効率的な信号処理構造が実現可能となる。ただし、人の空間聴力のスペクトル分解能に近い非線形周波数分解能に均一な周波数帯域をグループ化してもよい。
例えば、空間オーディオキャプチャデバイス105のマイクアレイ141は、M個のマイクを備える。フィルタバンク131は、マイク信号x(m,n')(式中、mおよびn'はそれぞれマイクと時間の指標である)を受信し、短時間フーリエ変換により、入力信号を周波数帯域信号に変換してもよい。
X(k,m,n)=F(x(m,n'))
式中、Xは変換された周波数帯域信号を、kは周波数帯域の指標を、nは時間の指標を示す。
これらの信号は、シンセサイザ135、さらにアナライザ133に出力されてもよい。
ある実施形態において、プロセッサ兼シンセサイザ100は、フィルタバンク131からのオーディオ信号を分析し、録音位置での音場に対応付けられた空間メタデータを決定するように構成されたアナライザ133を備える。
SPAC分析(等の技術)を周波数帯域信号(あるいは信号組)に適用して、空間メタデータを得るようにしてもよい。空間メタデータの典型例としては、各周波数間隔および各時間枠での方向(複数可)および全体に対する直接的なエネルギー比(複数可)が挙げられる。例えば、方向パラメータをマイク間遅延分析に基づいて取得することができる。これは、遅延の異なる信号の相互関連を数式化し、最大の相関を発見することで実現されるものである。方向パラメータを取得する別の方法として、音場強度ベクトル分析が挙げられる。これは、指向性オーディオ符号化(Directional Audio Coding:DirAC)で適用される処理である。
高い周波数(空間エイリアシング周波数を超える)では、OZO等のいくつかのデバイスに対して、デバイス音響陰影を利用して指向性情報を得ることもできる。マイク信号エネルギーは通常、デバイスの、音の多くが到来する側で高いため、エネルギーの情報により方向パラメータの推定が可能である。
アレイ信号処理の分野において、その他多数の到来方向推定方法が存在する。
各時間周波数間隔(言い換えると、エネルギー比パラメータ)での無指向性の周囲音量の推定に、マイク間コヒーレンス分析を利用してもよい。方向パラメータの安定性測定を利用する等、その他の方法でも、比パラメータは推定できる。特定の方法で空間メタデータを取得することは本願の主眼ではない。
本項では、音響入力信号チャネル間の相関に基づく遅延推定を利用した一方法が説明される。この方法では、到来音の方向は、B周波数領域サブ帯域について個別に推定される。これは、全サブ帯域について、少なくとも1つの方向パラメータを発見するものである。当該パラメータは、実際の音源の方向、または複数の音源の組合せ指向性に近似する方向パラメータでありうる。例えば、方向パラメータは、単一のアクティブな音源に直接向いている場合もあれば、2つのアクティブな音源間で略円弧状に変動する場合もある。室内反響や残響の存在下では、方向パラメータの変動は大きくなりうる。したがって、方向パラメータは、知覚に基づくパラメータと考えられるのである。例えば、いくつかアクティブな音源が存在する場合に、ある時間周波数間隔での1つの方向パラメータが、当該アクティブな音源のいずれにも向いていなかったとしても、当該パラメータは録音位置での空間音の主な指向性に近似するのである。比パラメータと共に、この指向性情報は、複数の同時にアクティブな音源の組合せ知覚空間情報を大まかに取得する。当該分析は、各時間周波数間隔で実施され、これにより音の空間態様が知覚的に取得される。方向パラメータは、極めて高速に変動し、録音位置で音のエネルギーがいかに変動するかを表す。これが聴き手に対して再生され、聴き手の聴覚系により空間が知覚される。いくつかの時間周波数の場合、1つの音源が極めて突出し、指向性推定がその方向を正確に示すこともある。しかしこれは一般的状況とは言えない。
周波数帯域信号表現は、X(k,m,n)で表されうる。ここで、mはマイク指標で、kは周波数帯域指標{k=0,…,N−1}で、Nは時間周波数変換された信号の周波数帯域の数である。周波数帯域信号表現は、Bサブ帯域にグループ化される。各帯域は、低周波数帯域指標
Figure 0006824420
と高周波数帯域指標
Figure 0006824420
を有する。サブ帯域
Figure 0006824420
の幅は、例えば等価矩形帯域幅(Equivalent Rectangular Bandwidth:ERB)という尺度やバーク尺度に近似しうる。
方向解析は、以下の動作を特徴としてもよい。この場合、我々は3つのマイクを有する、平坦なモバイルデバイスを想定する。この構成は、水平面における方向パラメータ、比パラメータ等の分析を実現可能である。
まず、2つのマイク信号で水平方向の推定が実施される(本例では、キャプチャデバイスの水平面で、デバイスの互いに反対縁に配置されたマイク2および3)。2つの入力マイクオーディオ信号について、それらのチャネルの周波数帯信号間の時間差が推定される。これは、サブ帯域bについての、2つのチャネル間の相関が最大となる遅延τを探すことが目的である。
周波数帯域信号X(k,m,n)は、以下によりシフトされたτ時間領域サンプルでありうる。
Figure 0006824420
式中、
Figure 0006824420
は帯域kの中央周波数で、
Figure 0006824420
はサンプリングレートである。ここから、以下のとおりにサブ帯域bおよび時間指標nに対する理想的な遅延が求められる。
Figure 0006824420
式中、Reは結果の実数部であり、*は複素共役であり、
Figure 0006824420
はサンプルにおける最大遅延である。最大遅延は分数であってもよく、マイク対により定まる軸で正確に音が到来する場合に発生する。上述では、1つの時間指標nでの遅延推定の例が示されるが、ある実施形態においては、遅延パラメータは複数の指標nにわたって推定されてもよい。これは、該当する軸で推定を平均化または加算することで実現される。多くのスマートフォンの場合、τに対して約1つのサンプルが、遅延の探索に十分である。さらに、相関以外の、知覚に基づく同様の測定値も利用できる。
「音源」は、マイクが拾うオーディオエネルギーを表すもので、したがってアレイにおけるマイク(例えば第2マイク)で受信される例示的時間領域関数で表されるイベントと、第3のマイクで受信される同じイベントを作り出すものと考えられる。理想的な状況としては、アレイの第2のマイクで受信される例示的時間領域関数が、単純に第3のマイクで受信される関数を時間シフトしたものとなる。この状況が理想的である理由は、現実では2つのマイクが、例えば、それらによるイベントの記録が、強め合うまたは弱め合う干渉や、イベントからの音を遮蔽または増幅する要素により影響されるような、異なる環境に置かれることが多いためである。
シフト値τは、音源が第3のマイクよりも第2のマイクにどれ程近いかを示すτが正であれば、音源は第3のマイクよりも第2のマイクに近い)。−1と1の間で正規化される遅延は、以下のように数式化できる。
Figure 0006824420
音が水平面で到来する平面波だと仮定すると、基本的な幾何学を利用して、到来音の水平角は次のものに等しいと判定できる。
Figure 0006824420
なお、2つのマイクだけでは正確な方向が判定できず、音の到来方向については2つの可能性が存在する。例えば、デバイスの前後で、鏡面対称の角度にある音源からは、同一のマイク間遅延推定が生じうる。
そこで、例えば3つのマイクのアレイにおける第1のマイクのようなさらなるマイクを利用して、いずれの符号(+または−)が正しいかを定義できる。この情報は、いくつかの構成では、一方(例えば第1のマイク)がスマートフォンの後側に配され、他方(例えば第2のマイク)がスマートフォンの前側に配されたマイク対間の遅延パラメータを推定することで、この情報が得られうる。このデバイスの細軸での分析は、高ノイズにより、信頼できる遅延推定が生成されない場合もありうる。ただし、デバイスの前側または後側で最大相関が確認された場合、一般的傾向はロバストでありうる。この情報があれば、2つの反対の方向による不明瞭さは解消できる。不明瞭さを解消する別の方法を適用してもよい。
同じ推定を各サブ帯域に対して繰り返してもよい。
同等の方法を、「水平」および「垂直」に変位があるようなマイクアレイにも適用できる。これによって、方位角と仰角とが決定できる。マイクが4つ以上(上述の方向に対して直交する面において互いにずれている)のデバイスまたはスマートフォンの場合、仰角分析も実施可能である。その場合、例えば遅延分析の数式化をまず水平面で実行し、その後垂直面で実行してもよい。次に、2つの遅延推定から、推定到来方向を求めることができる。例えば、GPS測位システムと同様の、遅延による位置分析を実行してもよい。この場合でも、指向性の前後の不明瞭さは例えば上述のように解消されうる。
ある実施形態において、無指向性音および指向性音の相対比率を表す比メタデータは以下の方法で生成されてもよい。
1)互いの距離が最大の複数のマイクについて、最大相関遅延値と、対応する相関値cが数式化される。相関値cは、正規化された相関を示し、1は完全相関信号を表し、0は一致しない信号を表す。
2)各周波数について、拡散場相関値(cdiff)は、マイク距離に応じて数式化される。例えば、高周波数では、
Figure 0006824420
となる。低周波数では、0以外の値となりうる。
3)相関値を正規化して、比パラメータを得る。比=(c−cdiff)/(1−cdiff
得られた比パラメータを0と1の間で切り捨て、切り上げる。このような推定方法によると、
Figure 0006824420
上述の単純な数式化により、比パラメータの近似が得られる。極端な場合(完全指向性および完全無指向性の音場状況)では、推定は真となる。極端な場合の間の比推定は、音の到来角に応じてある程度バイアスがかかりうる。それでも、上述の数式は、それら状況にあっても実践的に十分な精度が確認された。指向性および比パラメータを生成する別の方法(または、適用される分析技術に応じたその他の空間メタデータ)を適用してもよい。
SPAC分析の分野における上述の方法は、主にスマートフォンのような平坦なデバイスを対象としている。デバイスの細軸は、前後の二者択一のみに適するように決定される。これは、より正確な空間分析が、当該軸についてはロバストではないためである。空間メタデータは、上述の遅延/相関分析、したがって指向性推定を利用して、主にデバイスの長い方の軸で分析される。
空間メタデータのさらなる推定方法を以下に説明する。これは2つのマイクチャネルの実質的な最小値による例である。指向性パターンの異なる2つの指向性マイクが、例えば20cm離して配置されてもよい。上述の方法と同様、マイク組遅延分析により、2つの水平到来方向候補が推定できる。前後の不明瞭さをマイクの指向性により解消できる。すなわち、一方のマイクが前方に減衰が大きく、他方のマイクが後方に減衰が大きい場合、例えばマイク周波数帯域信号の最大エネルギーを測定することで、前後の不明瞭さが解消できる。比パラメータは、例えば上述と同様の方法により、マイク対間の相関分析を利用して推定できる。
その他の空間オーディオキャプチャ方法も、空間メタデータを得るのに適切でありうることは明らかである。具体的には、球面デバイス等の非平坦デバイスに対しては、例えば、パラメータ推定のロバスト性の向上が実現されることによるもの等、その他の方法が適切でありうる。文献に記載のよく知られた例は、DirACである。これは典型的には以下の工程を含むものである。
1)一次球面高調波信号に等しいBフォーマット信号が取得される。
2)複数の周波数帯域において、音場強度ベクトルと、音場エネルギーとがBフォーマット信号から推定される。
a.強度ベクトルは、W(ゼロ次)信号と、X,Y,Z(一次)信号との短時間相互相関推定により得られる。到来方向は音場強度ベクトルと逆方向である。
b.音場強度と音場エネルギーの絶対値から、拡散性(すなわち、周囲−全体比)パラメータが推定できる。例えば、強度ベクトルの長さが0であれば、拡散性パラメータは1となる。
したがって、一実施形態において、DirACパラダイムによる空間分析を適用して、空間メタデータを生成でき、最終的に球面高調波信号の合成が可能となる。言い換えると、方向パラメータと、比パラメータとは、いくつかの異なる方法により推定できる。
DirAC分析における上述の処理工程をさらに明らかにするため、実施形態全体での、入力B−フォーマット(すなわち、球面高調波またはアンビソニックフォーマット)信号と、再生される出力球面高調波信号との違いを明らかにしたい。入力B−フォーマット信号は、例えばコンパクトなマイクアレイで取得された場合に、X,Y,Z要素について、低周波数で多大なノイズを含みうる。ただし、メタデータは短期間確率的推定で分析されることから、このノイズがDirAC空間メタデータ分析に与える影響はわずかである。特に、確率的分析により、推定値におけるノイズの効果は抑えられる。したがって、DirAC分析技術を利用した実施形態では、1)方向パラメータがロバストに推定され、2)球面高調波出力信号が利用可能な高SNR W−信号(ゼロ次信号)を利用して合成されうる。したがって、出力球面高調波信号は、入力球面高調波信号よりもフィデリティが高く知覚されうる。
ある実施形態において、プロセッサ兼シンセサイザ100は、シンセサイザ135を備える。シンセサイザ135は、周波数帯域信号表現と空間メタデータとを受信し、球面高調波信号を生成するように構成されてもよい。シンセサイザ135について、図2から図5に示す例を参照にさらに詳述する。ある実施形態において、球面高調波周波数帯域信号が逆フィルタバンク137に出力される。シンセサイザ135は、図1bに示すように完全に周波数領域で動作してもよいし、以下の図2に示す例等のようなある実施形態においては、周波数帯域領域で部分的に動作し、時間領域で部分的に動作してもよい。例えば、シンセサイザ135は、逆フィルタバンク137に周波数帯域領域信号を出力する第1の、すなわち周波数帯域領域部と、逆フィルタバンク137から時間領域信号を受信し、適切な時間領域球面高調波信号を出力する第2の、すなわち時間領域部を備えてもよい。
ある実施形態において、プロセッサ兼シンセサイザ100は、逆フィルタバンク137を備える。逆フィルタバンク137は、生成された球面高調波周波数帯域信号を受信し、これらの信号に周波数−時間領域変換をかけて、球面高調波信号の時間領域表現を生成してもよい。
図2に、シンセサイザ135の第1の例を示す。この例示的シンセサイザは、空間メタデータがSPAC分析から利用可能で、まず中間仮想マルチチャネルラウドスピーカ信号(例えば三次元球を網羅する14個の仮想ラウドスピーカチャネル)を合成し、この信号に球面高調波変換を適用するように構成されている。
したがって、シンセサイザ135は指向性ディバイダ201を備えてもよい。指向性ディバイダ201は、オーディオ信号の指向性要素に対応付けられた周波数帯域表現と比値とを受信するように構成されてもよい。指向性ディバイダ201は、オーディオ信号の指向性および無指向性(あるいは周囲)部分を生成するべく、各帯域に比値を適用してもよい。例えば、比パラメータに基づく乗算子を数式化して、入力周波数帯域信号にかけて指向性および無指向性部分を生成してもよい。指向性部分は振幅パンニングシンセサイザ203に送られ、無指向性部分は脱相関シンセサイザ205に送られてもよい。
シンセサイザ135は、振幅パンニングシンセサイザ203をさらに備えてもよい。振幅パンニングシンセサイザ203は、オーディオ信号の指向性部分を受信し、空間メタデータの指向性情報部分をさらに受信し、これらから「仮想」ラウドスピーカ信号を生成または合成するように構成されている。ある実施形態において、14個の「仮想」ラウドスピーカチャネルが三次元空間に配される。14個のチャネルは、6チャネルが水平面、それぞれ4チャネルが当該平面の上下に存在するように配される。ただし、これは一例に過ぎず、これ以外の仮想ラウドスピーカチャネルの数や配置も可能である。
振幅パンニングシンセサイザは、例えばベクトルに基づく振幅パンニング(Vector-Base Amplitude Panning:VBAP)を適用して、各周波数帯域で、空間メタデータにより決定された方向での音の、直接部分を再生できる。この後、仮想ラウドスピーカ信号はコンバイナ207に出力されてもよい。仮想ラウドスピーカ信号はVBAPで生成されうるが、その適切な仮想チャネル信号生成方法も利用できる。「仮想」という言葉は、ラウドスピーカ信号が中間的表現であることを示している。
シンセサイザ135は、脱相関シンセサイザ205をさらに備えてもよい。脱相関シンセサイザ205は、オーディオ信号の無指向性部分を受信し、仮想ラウドスピーカ信号内で組み合わせるための周囲または無指向性要素を生成するように構成されてもよい。例えば、周囲部分を、脱相関部を利用して合成し、音のエネルギーを仮想ラウドスピーカの全てまたは多くに広げるようにしてもよい。周囲部分は、コンバイナ207に出力してもよい。
シンセサイザ135は、コンバイナ207をさらに備えてもよい。コンバイナ207は、仮想ラウドスピーカ信号と周囲部分とを受信し、仮想ラウドスピーカ配置を利用した組み合わされた指向性−周囲表現を生成するように構成されてもよい。組合せ仮想ラウドスピーカ周波数帯域表現は、逆フィルタバンク137に送られてもよい。
この構成で、逆フィルタバンク137は、仮想ラウドスピーカ表現に対応付けられた時間領域信号を球面高調波変換部209に送ってもよい。
シンセサイザ135は、球面高調波変換部209をさらに備えてもよい。球面高調波変換部209は、仮想ラウドスピーカ表現に対応付けられた時間領域信号を受信し、任意の公知の方法で仮想ラウドスピーカ信号を球面高調波成分に変換するように構成されてもよい。例えば、各仮想ラウドスピーカ信号が重み付けされ(特定の重み付けによる)、各球面高調波出力に出力される。重みは、広帯域信号に適用可能である。重みは、仮想ラウドスピーカの方位角および仰角に基づいて数式化される。
図2に示す例では、球面高調波変換が時間領域で生成されているが、ある実施形態において、球面高調波変換は周波数領域(または周波数帯域領域)で適用されることが理解されよう。言い換えると、球面高調波変換部209は周波数帯域信号変換部であって、逆フィルタバンク137の前段、コンバイナ207の後段に配置される。本例では、周波数帯域信号に重みがかけられる。
図3に、シンセサイザ135の第2の例を示す。本例では、球面高調波信号は直接、すなわち中間仮想ラウドスピーカレイアウト表現を介さずに、合成可能である(空間メタデータを利用する)。
このため、シンセサイザ135は指向性ディバイダ301を備えてもよい。指向性ディバイダ301は、オーディオ信号の指向性要素に対応付けられた周波数帯域表現と比値とを受信するように構成されてもよい。指向性ディバイダ135は、オーディオ信号の指向性および無指向性(あるいは周囲)部分を生成するべく、各帯域に比値を適用してもよい。指向性部分は移動音源シンセサイザ303に送られ、無指向性部分は脱相関シンセサイザ305に送られてもよい。
シンセサイザ135は、移動音源シンセサイザ303をさらに備えてもよい。移動音源シンセサイザ303は、オーディオ信号の指向性部分を受信し、空間メタデータの指向性情報部分をさらに受信し、これらから、方向解析に基づいてモデル化された移動音源に対応付けられた球面高調波変換重みを生成するように構成されている。例えば、オーディオ信号の指向性部分(複数可)は、仮想移動音源(複数可)と考えられる。方向メタデータは、移動音源の方向を決定し、エネルギーに関するメタデータ(例えば比パラメータ)は、当該方向で再生されるエネルギーの量を決定する。ある実施形態において、聴覚的に感知可能な出力の唐突な変動が抑えるべく、指向性推定は平滑化される(例えば、時間または周波数帯域にわたってローパスフィルタがかけられる)。したがって、仮想音源の位置は、各周波数帯域信号の全ての時間インスタンで変化する可能性があるのである。仮想移動音源の方向は周波数に基づいて変動しうるため、各周波数帯域で個別に球面高調波変換が実行され、ここでは時間および周波数適応型の球面高調波重みが生成され、オーディオ信号と共に球面高調波変換部306送られることが可能である。
ある実施形態において、シンセサイザ135は、決定された重みと、オーディオ信号とを受信し、周波数帯域球面高調波信号の指向性部分を生成するように構成された球面高調波変換部306を備える。周波数帯域球面高調波信号の指向性部分は、コンバイナ307に送られてもよい。ある実施形態において、移動音源シンセサイザ303および球面高調波変換部306の動作は、単一の動作またはモジュールで実行されてもよい。
シンセサイザ135は、脱相関シンセサイザ305をさらに備えてもよい。脱相関シンセサイザ305は、信号エネルギーの周囲部分を直接的に合成するように構成されてもよい。これは、球面高調波信号の定義として、理想的な周囲または分散音場、例えば残響が互いに一致しないために実現可能なのである。したがって、入力マイク周波数帯域信号を脱相関することで、周囲部分を合成し、不一致な球面高調波周波数帯域信号が得られる。これらの信号は、各球面高調波係数に対する重みで重み付けされうる。これらの球面高調波係数に基づく重みは、球面高調波の次数に基づく量であって、適用される正規化方式に依存する。例示的正規化方式としては、周囲について球面高調波(SH)の次数がそれぞれ合計では同一の信号エネルギーとなるものが挙げられる。すなわち、ゼロ次が1単位のエネルギーであれば、3つの一次SH信号はそれぞれ1/3単位のエネルギーを備え、5つの二次SH信号は1/5単位のエネルギーを備え、以下同様となる。周囲部分は、さらにコンバイナ307に出力されてもよい。正規化方式は周囲部分だけではなく、直接信号部分に対する球面変換係数の数式化の一部として、同様の重み付けが含まれうる。
シンセサイザ135は、さらにコンバイナ307を備えてもよい。コンバイナ307は、直接的に決定された球面高調波信号の周囲および指向性部分を受信し、これらを組み合わせて組合せ周波数領域球面高調波信号を生成するように構成されてもよい。この組み合わされた球面高調波周波数帯域表現は逆フィルタバンク137に送られてもよい。
この構成では、逆フィルタバンク137は時間領域球面高調波表現を出力する。
図4に、シンセサイザ135の第3の例を示す。本例では、最小二乗最適化手法等の最適ミキシング技術を利用して、周波数帯域における空間メタデータおよびマイク信号に基づき球面高調波信号を生成する。これは上述の例と、下記の点で異なる。
・仮想音源(移動、固定のいずれも)は適用されない。
・直接および周囲部分が、同一の工程で合成される、すなわち別々に合成されない。
シンセサイザ135は、短時間確率的アナライザ403を備えてもよい。短時間確率的アナライザ403は、周波数帯域マイク信号の共分散行列を決定するべく、周波数領域表現を受信し、短時間確率的分析を実行するように構成されている。この共分散行列は、最小二乗最適化行列生成部405に送られてもよい。
シンセサイザ135は、対象確率的特性決定部401を備えてもよい。対象確率的特性決定部401は、空間メタデータと、短時間確率的分析で得られた周波数帯域エネルギー情報全体に基づいて、球面高調波信号に対する目的の共分散行列を決定するように構成されてもよい。球面高調波信号に対する目的の対象共分散行列は、まず空間メタデータで決定される方向に対応する直接エネルギー部分に対する共分散行列を数式化し、次に周囲(または無指向性)エネルギー部分に対する共分散行列を数式化し、これら行列を組み合わせて目的の対象共分散行列を形成することで得られる。周囲部分共分散行列は、対角行列であって、周囲の球面高調波信号が互いに不一致であることを表す。対角係数の相対的エネルギーは、前述のように正規化手法に応じたものである。同様に、直接部分共分散行列は、分析による空間メタデータに応じた球面高調波重み(正規化方式に影響される)を使用して数式化される。
この対象特性が、最小二乗最適化行列生成部405に送られてもよい。
最小二乗最適化行列生成部405は、短時間確率的アナライザ403からの確率的推定と、特性決定部401からの対象特性を取得し、最小二乗(またはその他の適切な最適化)方法を適用して、信号ミキサおよび脱相関部407に送られうる適切なミキシング係数を決定してもよい。言い換えると、例示的形態では、周波数帯域マイク信号に対する短時間確率的(共分散行列)分析が実行され、球面高調波出力信号に対する目的の対象共分散行列が数式化され、最小二乗最適化行列生成部405を利用して少なくともこの2つの行列に基づいて、処理利得が取得される(例えば、米国特許出願公開2014/0233762A1号に開示の方法または同様の方法を利用する)。得られた処理利得は、信号ミキサおよび脱相関部407により適用される重み付け値として利用される。
このように、これらの実施形態は、マイク信号からの球面高調波信号の合成に利用できる。信号ミキサおよび脱相関部407の出力は、逆フィルタバンク137に送られる。
この構成では、逆フィルタバンク137は、時間領域球面高調波表現を出力してもよい。
上述のように、ある実施形態において、ハイブリッド手法が実施できる。すなわち、装置のいくつかの周波数では従来の線形方法が利用され、その他の周波数では上述のSPAC方法が利用されて、球面高調波成分が求められる。例えば、ノキアOZOデバイス線形方法を利用して、約200〜1,500Hzの周波数において一次までの球面高調波を求め、その他の周波数でSPAC方法を利用してもよい。
図5に、ハイブリッド構成の例示的ブロック図を示す。
本例では、システムは周波数帯域ルーター501を備えてもよい。これは、周波数帯域表現のいくつかを適応型球面高調波信号生成部またはシンセサイザ505(図2から図4に示す例示的適応型高調波信号シンセサイザ135のいずれかであってもよい)に導き、周波数帯域表現のいくつかを線形球面高調波信号生成部503に導くように構成されてもよい。
適応型球面高調波信号生成部またはシンセサイザ135、および線形球面高調波信号生成部503の出力が、コンバイナ507に送られ、コンバイナ507は組み合わされた球面高調波オーディオ信号表現を逆フィルタバンク137に出力する。適応型および線形処理のレイテンシが異なる場合、この組み合わせることには、信号を時間的に合わせる必要がありうる。
言い換えると、周波数帯域の一部が適応型方法で処理され、その他の周波数帯域は線形方法で処理される。
ある実施形態において、図5に示すハイブリッド手法が、オーディオ信号の周波数分割に代わってまたはこれと共に、空間分割に適用されてもよい。したがって、当該実施形態において、線形方法を利用して球面高調波のいくつかの低次のものを得るようにして、上述の合成のような適応型SPAC系方法を利用して、球面高調波のより高次のものを求めるようにしてもよい。例えば、ノキアOZOデバイスでは、約200〜1,500Hzで線形手法を利用して、ゼロ次および一次球面高調波を求め、SPAC手法を利用して、二次球面高調波以上を合成してもよい。
ある実施形態において、適応型シンセサイザと、線形方法シンセサイザとを順次機能するようにしてもよい。例えば、200〜1,500Hzで装置はまず一次球面高調波信号を生成し、この一次球面高調波信号に基づいて、当該技術で公知の適応型方法により高次の信号を合成し、あるいは空間エイリアシング周波数(OZOでは〜1,500Hz)では本明細書に記載の適応型方法を適用してもよい。中間一次信号表現をいくつかの周波数で生成すること(したがって従来技術を利用することは)が任意の工程として実施されてもよい。
本明細書記載の任意の実施形態において、生成された球面高調波信号は任意の(所定の)次数であってもよい。一次、二次、三次、またはさらに高次の高調波が可能である。さらに、複数の次数が混じった出力も可能であることが理解されよう。例えば、場合によっては、いくつかの次数に対する全ての球面高調波出力信号が処理されるわけではない。一例として、垂直方向よりも水平方向で、より高い次数の球面高調波表現が好ましい場合もありうる。そのような使用事例の1つとして、多くが水平式のラウドスピーカであるラウドスピーカ設定に対して球面高調波信号が復号することが知られている場合が挙げられる。
ある実施形態において、デバイスの空間軸に基づいて、ハイブリッド手法を適用してもよい。したがって例えば、不規則アレイを有する携帯電話は、異なる軸で異なる寸法を有する。したがって、ハイブリッド手法は、異なる軸間で異なるように適用されてもよいし、軸の一部でのみ利用されてもよい。例えば、スマートフォンの幅軸で、一部の周波数で線形方法を利用して一次球面高調波信号を求め、一方スマートフォンの細軸ではSPAC方法がゼロ次を越える全ての球面高調波信号の次数で適用される。
ハイブリッド手法が適用される一般的動機としては主に、線形方法の簡潔性によるものである。線形方法では典型的な広帯域用のマイクアレイに適用できず、高次SH係数を生成することはできないが、その典型的な動作範囲では、ロバストで、計算負荷が軽くなりうる。したがって、デバイスによってはハイブリッド手法が好ましい構成となりうる。
ハイブリッド手法は、あらゆる時間またはスペクトルアーチファクトを排するため、時間および/または位相について、線形および非線形信号要素の間の整合を取る必要がありうる。これは、線形方法は、適応型方法と比してレイテンシが異なり、典型的には小さいためである。
ある実施形態において、空間メタデータはマイクアレイの少なくとも2つのマイク信号に基づいて分析されてもよく、同じアレイにおけるメタデータおよび少なくとも1つのマイク信号に基づいて球面高調波信号の空間的合成がなされてもよい。例えば、スマートフォンの場合、メタデータ分析に全てまたは一部のマイクを利用してもよい。例えば、球面高調波信号の合成に前側マイクのみを利用してもよい。ただし、ある実施形態において、分析に利用されるマイクが、合成に利用されるマイクと異なっていてもよいことが理解されよう。マイクは、異なるデバイスの一部であってもよい。例えば、冷却ファン付きの存在キャプチャデバイスのマイク信号に基づいて空間メタデータ分析が実行されてもよい。メタデータが得られても、これらのマイク信号は例えばファンのノイズにより、フィデリティが低くなりうる。そのような場合、存在キャプチャデバイスの外部に1つ以上のマイクが配置されてもよい。これら外部マイクからの信号は、存在キャプチャデバイスからのマイク信号を利用して得られた空間メタデータに応じて処理されてもよい。
マイク信号を得るのに利用できる構成は様々存在する。
なお、本明細書に記載のマイク信号は、事前処理されたマイク信号であってもよいことが理解されよう。例えば、マイク信号は、デバイスの実際のマイク信号を適応的または非適応的に組み合わせたものであってもよい。例えば、互いに近接して設けられたいくつかのマイクカプセルを組み合わせて、SNRが向上した信号を得るようにしてもよい。
マイク信号は、適応的または非適応的な等化のような事前処理がなされてもよいし、ノイズ除去処理されてもよい。さらに、ある実施形態において、マイク信号はビームフォーム信号であってもよい。言い換えると、2つ以上のマイク信号を合成することで得られた空間キャプチャパターン信号である。
なお、本明細書に記載の方法に応じた処理用に、マイク信号を得るためのため、多様な構成、デバイス、手法が存在することが理解されよう。
ある実施形態において、マイクまたはオーディオ信号は1つのみで、対応付けられた空間メタデータは事前に分析されてもよい。例えば、少なくとも2つのマイクを利用して空間メタデータを分析した後、マイク信号の数を減らして、例えば1つのみのチャネルで送信、または記憶されてもよい。そのような例示的構成において、送信後、デコーダが1つのみオーディオチャネルおよび空間メタデータを受信し、本明細書に記載の方法で球面高調波信号の空間的合成を実行する。明らかに、2つ以上のオーディオ信号が送信されてもよく、その場合に、事前に分析されたメタデータが球面高調波信号の適応型合成に適用されてよいことは明らかである。
ある実施形態において、空間メタデータは少なくとも2つのマイク信号から分析され、メタデータが少なくとも1つのオーディオ信号と共に遠隔受信部に送信されるか、記憶される。言い換えると、オーディオ信号と、空間メタデータとが、球面高調波信号フォーマットと異なる中間フォーマットで記憶または送信されてもよい。例えば、このフォーマットは球面高調波信号フォーマットよりも低いビットレートを特徴とするものであってもよい。少なくとも1つの送信または記憶されるオーディオ信号は、同じく空間メタデータが得られた同じマイク信号に基づいてもよいし、あるいは音場におけるその他のマイクからの信号に基づいてもよい。デコーダでは、中間フォーマットは球面高調波信号フォーマットにトランスコードされ、YouTubeのようなサービスとの互換性が実現されてもよい。言い換えると、受信部またはデコーダでは、少なくとも1つの送信または記憶オーディオチャネルが、対応付けられた空間メタデータを利用して、本明細書に記載の方法で球面高調波オーディオ信号表現に処理されてもよい。ある実施形態において、オーディオ信号(複数可)は、送信または記憶時に、例えばAACで符号化されてもよい。ある実施形態において、空間メタデータは量子化、符号化、さらに/あるいはAACビットストリームに埋め込まれてもよい。ある実施形態において、AAC他で符号化されたオーディオ信号と空間メタデータが、MP4メディアコンテナのようなコンテナに埋め込まれてもよい。ある実施形態において、例えばMP4のようなメディアコンテナは、符号化球面パノラマビデオストリームのようなビデオストリームを含んでもよい。オーディオ信号と対応付けられた空間メタデータを送信、記憶するその他多くの構成が存在する。
オーディオ信号および空間メタデータを送信または記憶するために適用された方法に関わらず、受信部(またはデコーダかプロセッサ)では、本明細書に記載の方法は、空間メタデータと少なくとも1つのオーディオ信号とに基づいて適応的に球面高調波信号を生成する手段となる。言い換えると、本明細書に提示の方法の場合、オーディオ信号および/または空間メタデータが、例えば符号化、送信/記憶および復号により、マイク信号から直接的に得られたか、間接的に得られたかは実際に無関係である。図6に、プロセッサ兼シンセサイザ100の少なくとも一部、またはシステム99の一部として利用可能な電子デバイス1200の例を示す。このデバイスは、任意の適切なデバイスまたは装置であってもよい。例えばある実施形態において、デバイス1200は仮想または拡張現実キャプチャデバイス、モバイルデバイス、ユーザ端末、タブレットコンピュータ、コンピュータ、オーディオ再生装置等である。
デバイス1200は、マイクアレイ1201を備えてもよい。マイクアレイ1201は、複数(例えばM個)のマイクを備えてもよい。ただし、マイクは任意の適切な構成であってもよいし、任意の適切な数のマイクを利用してもよい。ある実施形態において、マイクアレイ1201は装置から分離しており、オーディオ信号は有線または無線接続を介して装置に送られる。マイクアレイ1201は、ある実施形態において、図1aに示すようなSPACマイクアレイ144であってもよい。
マイクは、音波を適切な電気的オーディオ信号に変換するように構成されたトランスデューサであってもよい。ある実施形態において、マイクはソリッドステートマイクであってもよい。言い換えると、マイクはオーディオ信号を取得して、適切なデジタル形式の信号を出力可能であってもよい。別の実施形態において、マイクまたはマイクアレイ1201は任意の適切なマイクまたはオーディオキャプチャ手段を含み入る。例としては、コンデンサマイク、キャパシタマイク、静電マイク、エレクトレットコンデンサマイク、ダイナミックマイク、リボンマイク、カーボンマイク、圧電マイク、または微小電気機械システム(Microelectrical-Mechanical System:MEMS)マイクが挙げられる。このマイクはある実施形態において、オーディオキャプチャされた信号をA/Dコンバータ(ADC)1203に出力可能である。
デバイス1200は、A/Dコンバータ1203をさらに備えてもよい。A/Dコンバータ1203は、マイクアレイ1201における各マイクからのオーディオ信号を受信し、それを処理に適した形式に変換するようにさらに構成されてもよい。ある実施形態において、マイクが一体型マイクであれば、A/Dコンバータは不要である。A/Dコンバータ1203は、任意の適切なA/D変換または処理手段であってもよい。A/Dコンバータ1203は、オーディオ信号のデジタル表現を、プロセッサ1207またはメモリ1211に出力するように構成されてもよい。
ある実施形態において、デバイス1200は、少なくとも1つのプロセッサまたはCPU1207を備える。プロセッサ1207は様々なプログラムコードを実行するように構成できる。実行されるプログラムコードは、例えば本明細書に記載のSPAC、分析、合成を含んでもよい。
ある実施形態において、デバイス1200はメモリ1211を備える。ある実施形態において、少なくとも1つのプロセッサ1207がメモリ1211に接続される。メモリ1211は、任意の適切な記憶手段であってもよい。ある実施形態において、メモリ1211は、プロセッサ1207で実行可能なプログラムコードを記憶するためのプログラムコード部を備える。さらに、ある実施形態において、メモリ1211は、データ(例えば、本明細書に記載の実施形態のとおりに処理されたまたは処理されるデータ)を記憶するための記憶データ部をさらに備えてもよい。プログラムコード部内に記憶された、実行されたプログラムコードと、記憶データ部内に記憶されたデータとは、必要に応じてプロセッサ1207がメモリ−プロセッサ接続を介して取得できる。
ある実施形態において、デバイス1200はユーザインタフェース1205を備える。ある実施形態において、ユーザインタフェース1205は、プロセッサ1207に接続可能である。ある実施形態において、プロセッサ1207は、ユーザインタフェース1205の動作を制御して、ユーザインタフェース1205からの入力を受信可能である。ある実施形態において、ユーザインタフェース1205はユーザに、例えばキーパッドを介してデバイス1200に対してコマンドを入力可能とするものである。ある実施形態において、ユーザインタフェース1205はユーザに、デバイス1200から情報を取得可能とする。例えば、ユーザインタフェース1205は、デバイス1200からの情報をユーザに表示するように構成されたディスプレイを備えてもよい。ある実施形態において、ユーザインタフェース1205はタッチスクリーンまたはタッチインタフェースを備えてもよい。これらはデバイス1200への情報の入力と、デバイス1200のユーザへの情報の表示の両方を実現可能である。
実施形態によっては、デバイス1200は送受信部1209を備える。当該実施形態において、送受信部1209はプロセッサ1207に接続されて、別の装置または電子デバイスと、例えば無線通信ネットワークを介して通信可能とするように構成される。送受信部1209または任意の適切な送受信部または送信および/または受信手段は、ある実施形態において、有線または無線接続を介して別の電子デバイスまたは装置を通信するように構成されてもよい。
送受信部1209はさらなる装置と、任意の適切な公知の通信プロトコルにより通信可能である。例えばある実施形態において、送受信部209または送受信手段は、好適なユニバーサル移動体通信システム(Universal Mobile Telecommunications System:UMTS)プロトコル、例えばIEEE802.X等の無線ローカルエリアネットワーク(Wireless Local Area Network:WLAN)プロトコル、Bluetooth(登録商標)等の好適な短距離無線周波数通信プロトコル、または赤外線通信経路(Infrared Data communication pathway:IRDA)を用いうる。
ある実施形態において、デバイス1200はさらにシンセサイザ装置として利用されてもよい。そのため、送受信部1209は、オーディオ信号を受信し、位置情報や比等の空間メタデータを決定し、適切なコードを実行するプロセッサ1207を利用して、適切なオーディオ信号レンダリングを生成するように構成されてもよい。デバイス1200は、D/Aコンバータ1213を備えてもよい。D/Aコンバータ1213は、プロセッサ1207および/またはメモリ1211に接続されて、(本明細書記載のオーディオ信号のオーディオレンダリング後、プロセッサ1207からの)オーディオ信号のデジタル表現を、オーディオサブシステム出力を介して提供するのに適した、適切なアナログ形式に変換するように構成されてもよい。D/Aコンバータ(DAC)1213または信号処理手段は、ある実施形態において、任意の適切なDAC技術であってもよい。
さらに、デバイス1200は、ある実施形態において、オーディオサブシステム出力1215を備えてもよい。図6に示すような一例として、オーディオサブシステム出力1215はヘッドホン121への接続を可能とする出力ソケットであってもよい。ただし、オーディオサブシステム出力1215は、任意の適切なオーディオ出力またはオーディオ出力への接続部でありうる。例えば、オーディオサブシステム出力1215はマルチチャネルスピーカシステムへの接続部であってもよい。前述の球面オーディオ信号は、ラウドスピーカまたはヘッドホンで再生されるため、まずは球面高調波デコーダ(アンビソニックスデコーダ)により復号される。ラウドスピーカ再生、両耳ヘッドホン再生の両方に使用されるアンビソニックスデコーダが存在する。
ある実施形態において、D/Aコンバータ1213と、オーディオサブシステム1215とは、物理的に別々の出力デバイスで実施されてもよい。例えば、DAC1213およびオーディオサブシステム1215が、送受信部1209を介してデバイス1200と通信するコードレスイヤホンとして実施されてもよい。
図示のデバイス1200は、オーディオキャプチャおよびオーディオレンダリング要素を両方備えているが、ある実施形態においては、デバイス1200はオーディオキャプチャまたはオーディオレンダリング装置要素のみを備えてもよい。
一般に、本発明の様々な実施形態が、ハードウェアまたは特定用途向け回路、ソフトウェア、ロジック、またはそれらの組合せで実装されてもよい。例えば、ある態様はハードウェアで実装されてもよく、別の態様はコントローラやマイクロプロセッサ等のコンピュータデバイスによって実行されるファームウェアやソフトウェアで実装されてもよいが、本発明はこれらに限定されない。本発明の種々の態様はブロック図、フローチャート、または他の図的記述を使用して記述ないし図示される。本明細書に記載されるこれらのブロック、装置、システム、技術、方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特定用途向け回路やロジック、汎用ハードウェア、コントローラや他のコンピュータデバイス、またはそれらの組合せで実装されてもよいと理解されるべきである。
本発明の実施形態は、プロセッサエンティティ内にあるような電子デバイスのデータプロセッサによって実行可能なコンピュータソフトウェアによって、またはハードウェアによって、またはソフトウェアとハードウェアの組合せによって実装されてもよい。またこの点に関して、添付する図面に示される論理フローの任意のブロックが、プログラムのステップや、相互接続された論理回路・ブロック・機能、またはプログラムのステップ、論理回路・ブロック・機能の組合せを表現してもよいことに留意されたい。ソフトウェアは、メモリチップ等の物理媒体、プロセッサ内に実装されるメモリブロック、ハードディスクやフレキシブルディスク等の磁気媒体、DVD、そのデータ異形態であるCD等の光学媒体に格納されてもよい。
メモリは、ローカルな技術環境に適したあらゆるタイプのものであってよく、例えば、半導体ベースのメモリデバイス、磁気メモリデバイス・システム、光学式メモリデバイス・システム、固定式メモリ、移動式メモリ等の様々な適合するデータ格納技術を用いて実装されてもよい。データプロセッサは、ローカルな技術環境に適したあらゆるタイプのものであってよく、非限定的な例として、1つ以上の汎用コンピュータ、特定用途向けコンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(Digital Signal Processor:DSP)、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、ゲートレベル回路、マルチコアプロセッサ・アーキテクチャに基づくプロセッサを含んでもよい。
本発明の実施形態は、集積回路モジュールのような、様々な要素で実施されることもできる。集積回路の設計は多くは自動化されたプロセスである。論理レベルの設計を、半導体基板上にエッチング・形成するための半導体回路設計に変換する複雑で強力なソフトウェアツールが利用可能である。
カリフォルニア州マウンテンビューのSynopsys, Incや、カリフォルニア州サンノゼのCadence Designのような業者が提供するプログラムは、定評のある設計ルールと実績のある設計モジュールのライブラリに基づいて、半導体チップ上に導電経路や要素を自動的に配する。半導体回路の設計が完了すると、その設計は製造のために、OpusやGDSII等の標準的な電子フォーマットの形で半導体製造設備、いわゆるfabに送られる。
前述の説明は、本発明の例示的で非限定的な実施例を十分かつ詳細に記述している。しかし、こうした前述の説明を、添付する図面および特許請求の範囲と併せて考慮すれば、種々の修正および変更が可能であることは、本願に関連する技術分野の当業者には明らかであろう。さらに、本発明が教示するこうした事項の全ておよび類似する変形は、添付の特許請求の範囲で定義されるように、その全てが本発明の範囲内にある。

Claims (13)

  1. 少なくとも1つのマイクオーディオ信号について、各周波数帯域に対し、当該周波数帯域に対応する空間メタデータに基づいて、複数の球面高調波オーディオ信号を適応的に合成するプロセッサを有し、
    前記空間メタデータは、特定の周波数帯域及び特定の時間における、到来音の方向に関する情報を含むと共に、特定の周波数帯域及び特定の時間における、無指向性音の大きさ及び指向性音の大きさに関する情報を含む
    装置。
  2. 前記プロセッサは更に、
    少なくとも2つのマイクオーディオ信号を受信し、
    前記受信した2つのマイクオーディオ信号に基づいて、複数の周波数帯域及び複数の時間において、前記空間メタデータを決定する、
    ように構成される、請求項に記載の装置。
  3. 前記プロセッサは、
    前記少なくとも1つのマイクオーディオ信号の第1の部分および前記空間メタデータに対して、前記複数の球面高調波オーディオ信号を適応的に合成し、
    前記少なくとも1つのマイクオーディオ信号の第2の部分に対して、前記複数の球面高調波オーディオ信号を線形演算によって合成し、
    前記球面高調波オーディオ信号を組み合わせる、
    ようにさらに構成された、請求項1又は2に記載の装置。
  4. 前記少なくとも1つのマイクオーディオ信号の前記第1の部分は前記少なくとも1つのマイクオーディオ信号の第1の周波数帯域であり、前記少なくとも1つのマイクオーディオ信号の前記第2の部分は前記少なくとも1つのマイクオーディオ信号の第2の周波数帯域である、請求項に記載の装置。
  5. 前記プロセッサは、前記少なくとも1つのマイクオーディオ信号を生成する少なくとも1つのマイクの物理的配置に基づいて、前記第1の周波数帯域を決定するようにさらに構成された、請求項に記載の装置。
  6. 前記プロセッサは、
    少なくとも1つの次数の球面高調波オーディオ信号に対して、前記少なくとも1つのマイクオーディオ信号の第1の周波数帯域部分および前記空間メタデータの第1の周波数部分に基づいて、球面高調波オーディオ信号を適応的に合成し、
    少なくとも1つの別の次数の球面高調波オーディオ信号に対して、球面高調波オーディオ信号を線形演算によって合成し、
    前記少なくとも1つの次数の球面高調波オーディオ信号と前記少なくとも1つの別の次数の球面高調波オーディオ信号とを組み合わせる
    ようにさらに構成された、請求項1からのいずれかに記載の装置。
  7. 前記プロセッサは、前記少なくとも1つのマイクオーディオ信号を生成する少なくとも1つのマイクの物理的配置に基づいて、前記少なくとも1つの次数の球面高調波信号を決定するようにさらに構成された、請求項に記載の装置。
  8. 前記プロセッサは、
    少なくとも1つの球面高調波オーディオ信号軸に対して、前記少なくとも1つのマイクオーディオ信号の第1の周波数帯域部分および前記空間メタデータの第1の周波数部分に基づいて、球面高調波オーディオ信号を適応的に合成し、
    少なくとも1つの別の球面高調波オーディオ信号軸に対して、球面高調波オーディオ信号を線形演算によって合成し、
    前記少なくとも1つの球面高調波オーディオ信号軸と前記少なくとも1つの別の球面高調波オーディオ信号軸とを組み合わせる
    ようにさらに構成された、請求項1からのいずれかに記載の装置。
  9. 前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成するように構成された前記プロセッサは、
    前記少なくとも1つのマイクオーディオ信号および前記空間メタデータの指向性部分に基づいて、球面高調波オーディオ信号のモデル化された移動音源組を生成し、
    前記少なくとも1つのマイクオーディオ信号に基づいて、球面高調波オーディオ信号の周囲組を生成し、
    前記球面高調波オーディオ信号のモデル化された移動音源組と前記球面高調波オーディオ信号の周囲組とを組み合わせて、前記複数の球面高調波オーディオ信号を生成する、
    ようにさらに構成された、請求項1からのいずれかに記載の装置。
  10. 前記プロセッサは、前記到来音のエネルギーと無指向性周囲エネルギーの比に基づいて、前記少なくとも1つのマイクオーディオ信号を指向性部分と無指向性部分とに分割するようにさらに構成された、請求項1からのいずれかに記載の装置。
  11. 前記プロセッサは、
    前記メタデータの前記指向性部分に基づいて、少なくとも1つのモデル化された移動音源重みを決定し、
    前記少なくとも1つのマイクオーディオ信号の前記指向性部分に適用された前記少なくとも1つのモデル化された移動音源重みから、前記球面高調波オーディオ信号のモデル化された移動音源組を生成する、
    ようにさらに構成された、請求項に記載の装置。
  12. 前記少なくとも1つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を合成するように構成された前記プロセッサは、
    前記メタデータに基づいて対象確率的特性を決定し、
    前記少なくとも1つのマイクオーディオ信号を分析して、少なくとも1つの短時間確率的特徴を決定し、
    前記短時間確率的特徴および前記対象確率的特性に基づいて最適化された重みの組を生成し、
    前記重みの組を前記少なくとも1つのマイクオーディオ信号に適用することに基づいて、複数の球面高調波オーディオ信号を生成する、
    ようにさらに構成された、請求項1から11のいずれかに記載の装置。
  13. 前記少なくとも1つのマイクオーディオ信号に対応付けられた前記空間メタデータは、
    ある周波数帯域に対する前記空間メタデータの方向パラメータと、
    前記周波数帯域に対する前記空間メタデータの比パラメータと、
    の内の少なくとも1つを含む、請求項10に記載の装置。
JP2019537889A 2016-09-28 2017-09-22 適応型キャプチャを利用した、マイクアレイからの空間オーディオ信号フォーマット生成 Active JP6824420B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1616478.2 2016-09-28
GB1616478.2A GB2554446A (en) 2016-09-28 2016-09-28 Spatial audio signal format generation from a microphone array using adaptive capture
PCT/FI2017/050664 WO2018060550A1 (en) 2016-09-28 2017-09-22 Spatial audio signal format generation from a microphone array using adaptive capture

Publications (2)

Publication Number Publication Date
JP2019530389A JP2019530389A (ja) 2019-10-17
JP6824420B2 true JP6824420B2 (ja) 2021-02-03

Family

ID=57539764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019537889A Active JP6824420B2 (ja) 2016-09-28 2017-09-22 適応型キャプチャを利用した、マイクアレイからの空間オーディオ信号フォーマット生成

Country Status (6)

Country Link
US (2) US11317231B2 (ja)
EP (1) EP3520104A4 (ja)
JP (1) JP6824420B2 (ja)
CN (2) CN109791769B (ja)
GB (1) GB2554446A (ja)
WO (1) WO2018060550A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2563635A (en) 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
CN111656441B (zh) 2017-11-17 2023-10-03 弗劳恩霍夫应用研究促进协会 编码或解码定向音频编码参数的装置和方法
US10523171B2 (en) 2018-02-06 2019-12-31 Sony Interactive Entertainment Inc. Method for dynamic sound equalization
US10652686B2 (en) 2018-02-06 2020-05-12 Sony Interactive Entertainment Inc. Method of improving localization of surround sound
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2573537A (en) 2018-05-09 2019-11-13 Nokia Technologies Oy An apparatus, method and computer program for audio signal processing
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
WO2020008112A1 (en) 2018-07-03 2020-01-09 Nokia Technologies Oy Energy-ratio signalling and synthesis
WO2020014506A1 (en) * 2018-07-12 2020-01-16 Sony Interactive Entertainment Inc. Method for acoustically rendering the size of a sound source
CN111819863A (zh) 2018-11-13 2020-10-23 杜比实验室特许公司 用音频信号及相关联元数据表示空间音频
US11304021B2 (en) 2018-11-29 2022-04-12 Sony Interactive Entertainment Inc. Deferred audio rendering
EP3984027B1 (en) 2019-06-12 2024-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Packet loss concealment for dirac based spatial audio coding
GB201909133D0 (en) 2019-06-25 2019-08-07 Nokia Technologies Oy Spatial audio representation and rendering
CN112153530B (zh) * 2019-06-28 2022-05-27 苹果公司 用于存储捕获元数据的空间音频文件格式
US11841899B2 (en) 2019-06-28 2023-12-12 Apple Inc. Spatial audio file format for storing capture metadata
GB2587357A (en) * 2019-09-24 2021-03-31 Nokia Technologies Oy Audio processing
GB2592388A (en) * 2020-02-26 2021-09-01 Nokia Technologies Oy Audio rendering with spatial metadata interpolation
GB2595475A (en) * 2020-05-27 2021-12-01 Nokia Technologies Oy Spatial audio representation and rendering
JP2024026010A (ja) * 2022-08-15 2024-02-28 パナソニックIpマネジメント株式会社 音場再現装置、音場再現方法及び音場再現システム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2094032A1 (en) * 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
EP2154677B1 (en) 2008-08-13 2013-07-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a converted spatial audio signal
US8219394B2 (en) * 2010-01-20 2012-07-10 Microsoft Corporation Adaptive ambient sound suppression and speech tracking
NZ587483A (en) 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
KR101782050B1 (ko) * 2010-09-17 2017-09-28 삼성전자주식회사 비등간격으로 배치된 마이크로폰을 이용한 음질 향상 장치 및 방법
CN103460285B (zh) * 2010-12-03 2018-01-12 弗劳恩霍夫应用研究促进协会 用于以几何为基础的空间音频编码的装置及方法
US9473870B2 (en) * 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US9479886B2 (en) * 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
EP2782094A1 (en) * 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
CN104244164A (zh) * 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
US9852737B2 (en) * 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals

Also Published As

Publication number Publication date
JP2019530389A (ja) 2019-10-17
US11317231B2 (en) 2022-04-26
US20220174444A1 (en) 2022-06-02
GB201616478D0 (en) 2016-11-09
CN109791769A (zh) 2019-05-21
US11671781B2 (en) 2023-06-06
WO2018060550A1 (en) 2018-04-05
EP3520104A4 (en) 2020-07-08
US20210281964A1 (en) 2021-09-09
CN118368580A (zh) 2024-07-19
CN109791769B (zh) 2024-05-07
EP3520104A1 (en) 2019-08-07
GB2554446A (en) 2018-04-04

Similar Documents

Publication Publication Date Title
JP6824420B2 (ja) 適応型キャプチャを利用した、マイクアレイからの空間オーディオ信号フォーマット生成
US10785589B2 (en) Two stage audio focus for spatial audio processing
US10382849B2 (en) Spatial audio processing apparatus
JP7082126B2 (ja) デバイス内の非対称配列の複数のマイクからの空間メタデータの分析
JP2020500480A5 (ja)
CN113597776B (zh) 参数化音频中的风噪声降低
CN111542877B (zh) 空间音频参数编码和相关联的解码的确定
CN112567765B (zh) 空间音频捕获、传输和再现
CN111316353A (zh) 确定空间音频参数编码和相关联的解码
US11956615B2 (en) Spatial audio representation and rendering
EP4226368A1 (en) Quantisation of audio parameters
CA3208666A1 (en) Transforming spatial audio parameters

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190510

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210112

R150 Certificate of patent or registration of utility model

Ref document number: 6824420

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250