JP7142109B2 - 空間オーディオパラメータのシグナリング - Google Patents

空間オーディオパラメータのシグナリング Download PDF

Info

Publication number
JP7142109B2
JP7142109B2 JP2020566885A JP2020566885A JP7142109B2 JP 7142109 B2 JP7142109 B2 JP 7142109B2 JP 2020566885 A JP2020566885 A JP 2020566885A JP 2020566885 A JP2020566885 A JP 2020566885A JP 7142109 B2 JP7142109 B2 JP 7142109B2
Authority
JP
Japan
Prior art keywords
coherence
parameter
speaker
determining
channel audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020566885A
Other languages
English (en)
Other versions
JP2021525392A (ja
Inventor
ミッコ・ヴィッレ ライティネン
ラッセ ラークソネン
ユハ ヴィルカモ
タパニ フィラヤクヤ
Original Assignee
ノキア テクノロジーズ オーユー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オーユー filed Critical ノキア テクノロジーズ オーユー
Publication of JP2021525392A publication Critical patent/JP2021525392A/ja
Application granted granted Critical
Publication of JP7142109B2 publication Critical patent/JP7142109B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2203/00Details of circuits for transducers, loudspeakers or microphones covered by H04R3/00 but not provided for in any of its subgroups
    • H04R2203/12Beamforming aspects for stereophonic sound reproduction with loudspeaker arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)

Description

本出願は、空間オーディオパラメータのシグナリングのための装置および方法に関するが、配向および球形セクタパラメータでの空間コヒーレンスのシグナリング専用ではない。
背景
パラメータの空間オーディオ処理は、音声の空間の態様がパラメータのセットを使用して説明される、オーディオ信号処理の分野である。例えば、マイクロフォンアレイからのパラメータの空間オーディオの捕捉では、マイクロフォンアレイ信号から、周波数帯域での音声の方向、および周波数帯域での捕捉された音声の指向性部分と無指向性部分との間の比などのパラメータのセットを推定することは、典型的で有効な選択である。これらのパラメータは、マイクロフォンアレイの位置で捕捉された音声の知覚の空間特性を十分に説明することが知られている。これらのパラメータは、バイノーラルのヘッドフォン、スピーカー、または他のフォーマット(アンビソニックスなど)に対する空間音声の合成で適宜利用され得る。
したがって、周波数帯域での方向および直接対総エネルギー比は、空間オーディオ捕捉に特に有効なパラメータ表示である。
周波数帯域での方向パラメータおよび(音声の指向性を示す)周波数帯域でのエネルギー比パラメータで構成されたパラメータセットはまた、オーディオコーデックのための空間メタデータとして利用され得る。例えば、これらのパラメータは、マイクロフォンアレイ捕捉オーディオ信号および他の入力フォーマットから推定されてもよく、例えば、ステレオ信号は、空間メタデータで送信されるマイクロフォンアレイ信号から生成され得る。ステレオ信号は、例えば、(デュアルモノ構成での)拡張音声サービス(Enhanced Voice Service:EVS)またはアドバンストオーディオコーディング(Advanced Audio Coding:AAC)エンコーダでエンコードされ得る。対応するデコーダは、オーディオ信号をPCM信号にデコードし、(空間メタデータを使用して)周波数帯域で音声を処理して、空間出力、例えば、バイノーラル出力を取得し得る。
前述のソリューションは、(例えば、携帯電話、VRカメラ、スタンドアロンマイクロフォンアレイでの)マイクロフォンアレイから捕捉された空間音声をエンコードするのに特に好適である。そのようなエンコーダが、メタデータパラメータをエンコードして、入力オーディオ信号の関連態様をより正確に送信することができることが望ましい場合がある。
摘要
第1の態様によれば、装置が提供される。当該装置は、
2つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも1つの空間オーディオパラメータを決定する手段と、
前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのオーディオ信号関係パラメータを決定する手段であって、前記少なくとも1つの空間オーディオパラメータおよび前記少なくとも1つのオーディオ信号関係パラメータに基づいて、前記2つ以上のスピーカーチャネルオーディオ信号を再生するように、少なくとも1つのコヒーレンスパラメータが、少なくとも2つの周波数帯域について、前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのチャネル間コヒーレンス情報を提供するように、前記少なくとも1つのオーディオ信号関係パラメータは前記少なくとも1つのコヒーレンスパラメータに対応付けられている、決定する手段と、
前記少なくとも1つの空間オーディオパラメータを送信し、少なくとも1つの決定された値を使用して、前記少なくとも1つのチャネル間コヒーレンス情報に対応付けられた少なくとも1つの情報を送信する手段と、
を備える。
前記送信する手段は、さらに、前記少なくとも1つのオーディオ信号関係パラメータを送信し、
前記少なくとも1つの決定された値を使用して、前記少なくとも1つのチャネル間コヒーレンス情報に対応付けられた前記少なくとも1つの情報を前記送信する手段は、前記少なくとも1つのコヒーレンスパラメータの少なくとも1つの配向、前記少なくとも1つのコヒーレンスパラメータの少なくとも1つの幅、および前記少なくとも1つのコヒーレンスパラメータの少なくとも1つの範囲のうちの少なくとも1つを送信してもよい。
前記少なくとも1つの決定された値は、少なくとも1つの配向コード、少なくとも1つの幅コード、および少なくとも1つの範囲コードのうちの少なくとも1つを含んでもよい。
2つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも1つの空間オーディオパラメータを前記決定する手段が、前記2つ以上のスピーカーチャネルオーディオ信号について、少なくとも1つの方向パラメータおよび/または少なくとも1つのエネルギー比を決定してもよい。
前記手段は、さらに、前記2つ以上のスピーカーチャネルオーディオ信号から伝送オーディオ信号を決定してもよく、
前記2つ以上のスピーカーチャネルオーディオ信号は、前記少なくとも1つの空間オーディオパラメータ、前記少なくとも1つのコヒーレンスパラメータ、および/または前記伝送オーディオ信号に基づいて再生され得る。
前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのコヒーレンスパラメータを前記決定する手段は、拡散コヒーレンスパラメータを決定し、
前記拡散コヒーレンスパラメータは、識別されたスピーカーチャネルオーディオ信号に空間的に隣接する2つ以上のスピーカーチャネルオーディオ信号間でチャネル間コヒーレンス情報に基づいて決定されてもよく、
前記識別されたスピーカーチャネルオーディオ信号は、前記少なくとも1つの空間オーディオパラメータに基づいて識別される。
拡散コヒーレンスパラメータを前記決定する手段は、さらに、
前記2つ以上のスピーカーチャネルオーディオ信号が、前記少なくとも1つの方向パラメータに空間的に最も近い前記スピーカーチャネルオーディオ信号である前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する2つのスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すことに対応付けられたステレオネスパラメータを決定し、
前記2つ以上のスピーカーチャネルオーディオ信号が、前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する少なくとも2つ以上のスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すことに対応付けられたコヒーレントパンニングパラメータを決定し、
前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを生成してもよい。
前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを前記生成する手段は、さらに、
前記少なくとも1つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定し、
前記識別されたスピーカーからの方向からサーチし、エリアでの各サーチが、一連の角度ステップで0から180度までの角度を含み、
定義された主要なスピーカーチャネルと、前記サーチエリア内の任意のスピーカーチャネルとの間で平均コヒーレンス値を推定し、
前記平均コヒーレンス値に基づいて、実質的に一定のコヒーレンスエリアを決定し、
最も大きいコヒーレンスエリアの2倍で拡散範囲を設定し、
前記拡散範囲に基づいて、前記コヒーレントパンニングパラメータを定義してもよい。
前記最も大きいコヒーレンスエリアに基づいて、前記コヒーレントパンニングパラメータを前記定義する手段は、前記少なくとも1つの方向パラメータに最も近いスピーカーを決定し、
前記スピーカーと、前記最も大きいコヒーレンスエリアの内側のすべてのスピーカーとの間で正規化されたコヒーレンスca、iを決定し、
閾値エネルギーよりも低いエネルギーを有するスピーカーを省略し、
残りのスピーカーから最小のコヒーレンスを選択し、
前記残りのスピーカー間でエネルギー分配に基づいて、エネルギー分配パラメータを決定し、
前記コヒーレントパンニングパラメータを決定するために、前記最も大きいコヒーレンスエリアで前記エネルギー分配パラメータを乗算してもよい。
前記ステレオネスパラメータを前記決定する手段は、さらに、
前記少なくとも1つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定し、
前記識別されたスピーカーからの方向からサーチし、リングでの各サーチが、一連の角度ステップで0から180度までの角度によって定義され、
前記サーチリングの近くに配置されたすべてのスピーカーについて、平均コヒーレンス値および平均エネルギー値を推定し、
前記平均コヒーレンス値および平均エネルギー値に基づいて、最も大きいコヒーレンスリング角度を決定し、
前記最も大きいコヒーレンスリング角度の2倍で拡散範囲を設定し、
前記拡散範囲に基づいて、前記ステレオネスパラメータを定義してもよい。
前記拡散範囲に基づいて、前記ステレオネスパラメータを前記定義する手段は、最も大きいエネルギーを有する最も大きいコヒーレンスリング上でスピーカーを識別し、
前記識別されたスピーカーと、前記最も大きいコヒーレンスリング上の他のスピーカーとの間で正規化されたコヒーレンスを決定し、
それぞれのエネルギーによって重み付けされる前記正規化されたコヒーレンスの平均値を求め、
前記最も大きいコヒーレンスリング上のエネルギーおよび前記最も大きいコヒーレンスリングの内側のエネルギーの比を求め、
前記ステレオネスパラメータを形成するために、エネルギーの前記比および正規化されたコヒーレンスの平均値を乗算してもよい。
第2の態様によれば、空間オーディオ信号処理のための方法が提供される。当該方法は、
2つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも1つの空間オーディオパラメータを決定することと、
前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのオーディオ信号関係パラメータを決定することであって、前記少なくとも1つの空間オーディオパラメータおよび前記少なくとも1つのオーディオ信号関係パラメータに基づいて、前記2つ以上のスピーカーチャネルオーディオ信号を再生するように、少なくとも1つのコヒーレンスパラメータが、少なくとも2つの周波数帯域について、前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのチャネル間コヒーレンス情報を提供するように、前記少なくとも1つのオーディオ信号関係パラメータは前記少なくとも1つのコヒーレンスパラメータに対応付けられている、決定することと、
前記少なくとも1つの空間オーディオパラメータを送信し、少なくとも1つの決定された値を使用して、前記少なくとも1つのチャネル間コヒーレンス情報に対応付けられた少なくとも1つの情報を送信することと、
を含む。
少なくとも1つの決定された値を使用して、前記少なくとも1つのチャネル間コヒーレンス情報に対応付けられた少なくとも1つの情報を送信することは、前記少なくとも1つのコヒーレンスパラメータの少なくとも1つの配向、前記少なくとも1つのコヒーレンスパラメータの少なくとも1つの幅、および前記少なくとも1つのコヒーレンスパラメータの少なくとも1つの範囲のうちの少なくとも1つを送信することを含んでもよい。
前記少なくとも1つの決定された値は、少なくとも1つの配向コード、少なくとも1つの幅コード、および少なくとも1つの範囲コードのうちの少なくとも1つを含んでもよい。
2つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも1つの空間オーディオパラメータを決定することが、前記2つ以上のスピーカーチャネルオーディオ信号について、少なくとも1つの方向パラメータおよび/または少なくとも1つのエネルギー比を決定することを含んでもよい。
前記方法は、前記2つ以上のスピーカーチャネルオーディオ信号から伝送オーディオ信号を決定することを含んでもよく、
前記2つ以上のスピーカーチャネルオーディオ信号は、前記少なくとも1つの空間オーディオパラメータ、前記少なくとも1つのコヒーレンスパラメータ、および/または前記伝送オーディオ信号に基づいて再生され得る。
前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのコヒーレンスパラメータを決定することは、拡散コヒーレンスパラメータを決定することを含んでもよく、
前記拡散コヒーレンスパラメータは、識別されたスピーカーチャネルオーディオ信号に空間的に隣接する2つ以上のスピーカーチャネルオーディオ信号間でチャネル間コヒーレンス情報に基づいて決定されてもよく、
前記識別されたスピーカーチャネルオーディオ信号は、前記少なくとも1つの空間オーディオパラメータに基づいて識別される。
拡散コヒーレンスパラメータを決定することは、
前記2つ以上のスピーカーチャネルオーディオ信号が、前記少なくとも1つの方向パラメータに空間的に最も近い前記スピーカーチャネルオーディオ信号である前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する2つのスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すことに対応付けられたステレオネスパラメータを決定することと、
前記2つ以上のスピーカーチャネルオーディオ信号が、前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する少なくとも2つ以上のスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すことに対応付けられたコヒーレントパンニングパラメータを決定することと、
前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを生成することと、を含んでもよい。
前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを生成することは、
前記少なくとも1つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定することと、
前記識別されたスピーカーからの方向からサーチすることであって、エリアでの各サーチが、一連の角度ステップで0から180度までの角度を含む、サーチすることと、
定義された主要なスピーカーチャネルと、前記サーチエリア内の任意のスピーカーチャネルとの間で平均コヒーレンス値を推定することと、
前記平均コヒーレンス値に基づいて、実質的に一定のコヒーレンスエリアを決定することと、
最も大きいコヒーレンスエリアの2倍で拡散範囲を設定することと、
前記拡散範囲に基づいて、前記コヒーレントパンニングパラメータを定義することと、を含んでもよい。
前記最も大きいコヒーレンスエリアに基づいて、前記コヒーレントパンニングパラメータを定義することは、
前記少なくとも1つの方向パラメータに最も近いスピーカーを決定することと、
前記スピーカーと、前記最も大きいコヒーレンスエリアの内側のすべてのスピーカーとの間で正規化されたコヒーレンスca、iを決定することと、
閾値エネルギーよりも低いエネルギーを有するスピーカーを省略することと、
残りのスピーカーから最小のコヒーレンスを選択することと、
前記残りのスピーカー間でエネルギー分配に基づいて、エネルギー分配パラメータを決定することと、
前記コヒーレントパンニングパラメータを決定するために、前記最も大きいコヒーレンスエリアで前記エネルギー分配パラメータを乗算することと、を含んでもよい。
前記ステレオネスパラメータを決定することは、前記少なくとも1つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定することと、
前記識別されたスピーカーからの方向からサーチすることであって、リングでの各サーチが、一連の角度ステップで0から180度までの角度によって定義される、サーチすることと、
前記サーチリングの近くに配置されたすべてのスピーカーについて、平均コヒーレンス値および平均エネルギー値を推定することと、
前記平均コヒーレンス値および平均エネルギー値に基づいて、最も大きいコヒーレンスリング角度を決定することと、
前記最も大きいコヒーレンスリング角度の2倍で拡散範囲を設定することと、
前記拡散範囲に基づいて、前記ステレオネスパラメータを定義することと、を含んでもよい。
前記拡散範囲に基づいて、前記ステレオネスパラメータを定義することは、
最も大きいエネルギーを有する最も大きいコヒーレンスリング上でスピーカーを識別することと、
前記識別されたスピーカーと、前記最も大きいコヒーレンスリング上の他のスピーカーとの間で正規化されたコヒーレンスを決定することと、
それぞれのエネルギーによって重み付けされる前記正規化されたコヒーレンスの平均値を求めることと、
前記最も大きいコヒーレンスリング上のエネルギーおよび前記最も大きいコヒーレンスリングの内側のエネルギーの比を求めることと、
前記ステレオネスパラメータを形成するために、エネルギーの前記比および正規化されたコヒーレンスの平均値を乗算することと、を含んでもよい。
第3の態様によれば、装置が提供される。当該装置は、
少なくとも1つのプロセッサと、
コンピュータプログラムコードを含む少なくとも1つのメモリと、
を備える。
前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサによって、前記装置に少なくとも、
2つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも1つの空間オーディオパラメータを決定させ、
前記少なくとも1つの空間オーディオパラメータおよび少なくとも1つのオーディオ信号関係パラメータに基づいて、前記2つ以上のスピーカーチャネルオーディオ信号を再生するように、少なくとも1つのコヒーレンスパラメータが、少なくとも2つの周波数帯域について、前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのチャネル間コヒーレンス情報を提供するように、前記少なくとも1つのコヒーレンスパラメータに対応付けられた、前記少なくとも1つのオーディオ信号関係パラメータを、前記2つ以上のスピーカーチャネルオーディオ信号間で決定させ、
前記少なくとも1つの空間オーディオパラメータを送信させ、少なくとも1つの決定された値を使用して、前記少なくとも1つのチャネル間コヒーレンス情報に対応付けられた少なくとも1つの情報を送信させる
ように構成されている。
少なくとも1つの決定された値を使用して、前記少なくとも1つのチャネル間コヒーレンス情報に対応付けられた少なくとも1つの情報を送信する前記装置は、前記装置に、前記少なくとも1つのコヒーレンスパラメータの少なくとも1つの配向、前記少なくとも1つのコヒーレンスパラメータの少なくとも1つの幅、および前記少なくとも1つのコヒーレンスパラメータの少なくとも1つの範囲のうちの少なくとも1つを送信させ得る。
前記少なくとも1つの決定された値は、少なくとも1つの配向コード、少なくとも1つの幅コード、および少なくとも1つの範囲コードのうちの少なくとも1つを含んでもよい。
2つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも1つの空間オーディオパラメータを決定する前記装置は、前記2つ以上のスピーカーチャネルオーディオ信号について、少なくとも1つの方向パラメータおよび/または少なくとも1つのエネルギー比を決定してもよい。
前記装置は、前記2つ以上のスピーカーチャネルオーディオ信号から伝送オーディオ信号を決定してもよく、
前記2つ以上のスピーカーチャネルオーディオ信号は、前記少なくとも1つの空間オーディオパラメータ、前記少なくとも1つのコヒーレンスパラメータ、および/または前記伝送オーディオ信号に基づいて再生され得る。
前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのコヒーレンスパラメータを決定する前記装置は、拡散コヒーレンスパラメータを決定してもよく、
前記拡散コヒーレンスパラメータは、識別されたスピーカーチャネルオーディオ信号に空間的に隣接する2つ以上のスピーカーチャネルオーディオ信号間でチャネル間コヒーレンス情報に基づいて決定されてもよく、
前記識別されたスピーカーチャネルオーディオ信号は、前記少なくとも1つの空間オーディオパラメータに基づいて識別される。
拡散コヒーレンスパラメータを決定する前記装置は、
前記2つ以上のスピーカーチャネルオーディオ信号が、前記少なくとも1つの方向パラメータに空間的に最も近い前記スピーカーチャネルオーディオ信号である前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する2つのスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すことに対応付けられたステレオネスパラメータを決定し、
前記2つ以上のスピーカーチャネルオーディオ信号が、前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する少なくとも2つ以上のスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すことに対応付けられたコヒーレントパンニングパラメータを決定し、
前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを生成してもよい。
前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを生成する前記装置は、
前記少なくとも1つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定し、
前記識別されたスピーカーからの方向からサーチし、エリアでの各サーチが、一連の角度ステップで0から180度までの角度を含み、
定義された主要なスピーカーチャネルと、前記サーチエリア内の任意のスピーカーチャネルとの間で平均コヒーレンス値を推定し、
前記平均コヒーレンス値に基づいて、実質的に一定のコヒーレンスエリアを決定し、
最も大きいコヒーレンスエリアの2倍で拡散範囲を設定し、
前記拡散範囲に基づいて、前記コヒーレントパンニングパラメータを定義してもよい。
前記最も大きいコヒーレンスエリアに基づいて、前記コヒーレントパンニングパラメータを定義する前記装置は、
前記少なくとも1つの方向パラメータに最も近いスピーカーを決定し、
前記スピーカーと、前記最も大きいコヒーレンスエリアの内側のすべてのスピーカーとの間で正規化されたコヒーレンスca、iを決定し、
閾値エネルギーよりも低いエネルギーを有するスピーカーを省略し、
残りのスピーカーから最小のコヒーレンスを選択し、
前記残りのスピーカー間でエネルギー分配に基づいて、エネルギー分配パラメータを決定し、
前記コヒーレントパンニングパラメータを決定するために、前記最も大きいコヒーレンスエリアで前記エネルギー分配パラメータを乗算してもよい。
前記ステレオネスパラメータを決定する前記装置は、
前記少なくとも1つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定し、
前記識別されたスピーカーからの方向からサーチし、リングでの各サーチが、一連の角度ステップで0から180度までの角度によって定義され、
前記サーチリングの近くに配置されたすべてのスピーカーについて、平均コヒーレンス値および平均エネルギー値を推定し、
前記平均コヒーレンス値および平均エネルギー値に基づいて、最も大きいコヒーレンスリング角度を決定し、
前記最も大きいコヒーレンスリング角度の2倍で拡散範囲を設定し、
前記拡散範囲に基づいて、前記ステレオネスパラメータを定義してもよい。
前記拡散範囲に基づいて、前記ステレオネスパラメータを定義する前記装置は、
最も大きいエネルギーを有する最も大きいコヒーレンスリング上でスピーカーを識別し、
前記識別されたスピーカーと、前記最も大きいコヒーレンスリング上の他のスピーカーとの間で正規化されたコヒーレンスを決定し、
それぞれのエネルギーによって重み付けされる前記正規化されたコヒーレンスの平均値を求め、
前記最も大きいコヒーレンスリング上のエネルギーおよび前記最も大きいコヒーレンスリングの内側のエネルギーの比を求め、
前記ステレオネスパラメータを形成するために、エネルギーの前記比および正規化されたコヒーレンスの平均値を乗算してもよい。
第4の態様によれば、命令を含むコンピュータプログラム(またはプログラム命令を含むコンピュータ可読媒体)が提供される。当該命令は、装置に少なくとも、
2つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも1つの空間オーディオパラメータを決定することと、
前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのオーディオ信号関係パラメータを決定することであって、前記少なくとも1つの空間オーディオパラメータおよび前記少なくとも1つのオーディオ信号関係パラメータに基づいて、前記2つ以上のスピーカーチャネルオーディオ信号を再生するように、少なくとも1つのコヒーレンスパラメータが、少なくとも2つの周波数帯域について、前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのチャネル間コヒーレンス情報を提供するように、前記少なくとも1つのオーディオ信号関係パラメータは前記少なくとも1つのコヒーレンスパラメータに対応付けられている、決定することと、
前記少なくとも1つの空間オーディオパラメータを送信し、少なくとも1つの決定された値を使用して、前記少なくとも1つのチャネル間コヒーレンス情報に対応付けられた少なくとも1つの情報を送信することと、
を実行させる。
第5の態様によれば、プログラム命令を含む非一時的コンピュータ可読媒体が提供される。当該プログラム命令は、装置に少なくとも、
2つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも1つの空間オーディオパラメータを決定することと、
前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのオーディオ信号関係パラメータを決定することであって、前記少なくとも1つの空間オーディオパラメータおよび前記少なくとも1つのオーディオ信号関係パラメータに基づいて、前記2つ以上のスピーカーチャネルオーディオ信号を再生するように、少なくとも1つのコヒーレンスパラメータが、少なくとも2つの周波数帯域について、前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのチャネル間コヒーレンス情報を提供するように、前記少なくとも1つのオーディオ信号関係パラメータは前記少なくとも1つのコヒーレンスパラメータに対応付けられている、決定することと、
前記少なくとも1つの空間オーディオパラメータを送信し、少なくとも1つの決定された値を使用して、前記少なくとも1つのチャネル間コヒーレンス情報に対応付けられた少なくとも1つの情報を送信することと、
を実行させる。
第6の態様によれば、装置が提供される。当該装置は、
2つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも1つの空間オーディオパラメータを決定するように構成された空間オーディオパラメータ決定回路と、
前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのオーディオ信号関係パラメータを決定するように構成されたオーディオ信号関係パラメータ決定回路であって、前記少なくとも1つの空間オーディオパラメータおよび前記少なくとも1つのオーディオ信号関係パラメータに基づいて、前記2つ以上のスピーカーチャネルオーディオ信号を再生するように、少なくとも1つのコヒーレンスパラメータが、少なくとも2つの周波数帯域について、前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのチャネル間コヒーレンス情報を提供するように、前記少なくとも1つのオーディオ信号関係パラメータは前記少なくとも1つのコヒーレンスパラメータに対応付けられている、オーディオ信号関係パラメータ決定回路と、
前記少なくとも1つの空間オーディオパラメータを送信し、少なくとも1つの決定された値を使用して、前記少なくとも1つのチャネル間コヒーレンス情報に対応付けられた少なくとも1つの情報を送信することを制御するための送信制御回路と、を備える。
第7の態様によれば、プログラム命令を含むコンピュータ可読媒体が提供される。当該は、装置に少なくとも、
2つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも1つの空間オーディオパラメータを決定することと、
前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのオーディオ信号関係パラメータを決定することであって、前記少なくとも1つの空間オーディオパラメータおよび前記少なくとも1つのオーディオ信号関係パラメータに基づいて、前記2つ以上のスピーカーチャネルオーディオ信号を再生するように、少なくとも1つのコヒーレンスパラメータが、少なくとも2つの周波数帯域について、前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのチャネル間コヒーレンス情報を提供するように、前記少なくとも1つのオーディオ信号関係パラメータは前記少なくとも1つのコヒーレンスパラメータに対応付けられている、決定することと、
前記少なくとも1つの空間オーディオパラメータを送信し、少なくとも1つの決定された値を使用して、前記少なくとも1つのチャネル間コヒーレンス情報に対応付けられた少なくとも1つの情報を送信することと、
を実行させる。
上述のような方法の動作を実行する手段を備える装置。
上述のような方法の動作を実行するように構成された装置。
コンピュータに、上述のような方法を実行させるためのプログラム命令を含む、コンピュータプログラム。
媒体上に記憶されるコンピュータプログラム製品が、装置に、本明細書で説明されるような方法を実行させ得る。
電子デバイスが、本明細書で説明されるような装置を含み得る。
チップセットが、本明細書で説明されるような装置を含み得る。
本出願の実施形態は、従来技術に伴う問題に対処することを目的とする。
ここで、本出願をより十分に理解するために、例として、添付の図面を参照する。
一部の実施形態を実施するのに好適な装置のシステムを概略的に示す。 一部の実施形態による、図1に示すようなシステムの動作のフローチャートを示す。 一部の実施形態による、図1に示すような分析プロセッサを概略的に示す。 一部の実施形態による、図2に示すような分析プロセッサの動作のフローチャートを示す。 一部の実施形態による、図2に示すような分析プロセッサの動作のフローチャートを示す。 一部の実施形態による、図2に示すような分析プロセッサの動作のフローチャートを示す。 一部の実施形態による、図2に示すような分析プロセッサの動作のフローチャートを示す。 一部の実施形態による、図2に示すような分析プロセッサの動作のフローチャートを示す。 一部の実施形態による、図2に示すような分析プロセッサの動作のフローチャートを示す。 一部の実施形態の用途に好適な、例示的なバーチャルスピーカーノード配置を示す。 一部の実施形態の用途に好適な、例示的なバーチャルスピーカーノード配置を示す。 スピーカーノードのアレイでの例示的なコヒーレンスを示す。 スピーカーノードのアレイでの例示的なコヒーレンスを示す。 例示的なバーチャルスピーカーアレイを示す。 例示的なバーチャルスピーカーアレイを示す。 一部の実施形態による、例示的な拡散コヒーレンス配向のエンコーディング量子化の例を示す。 一部の実施形態による、拡散コヒーレンス配向のエンコーディングを示す例示的な量子化の表を示す。 一部の実施形態による、拡散コヒーレンス配向のエンコーディングを示す例示的な量子化の表を示す。 コヒーレンスパラメータの決定のための例示的な増加するリング/エリアを示す。 一部の実施形態による、図1に示すような合成プロセッサを概略的に示す。 一部の実施形態による、図11に示すような合成プロセッサの例示的な動作のフローチャートを示す。 一部の実施形態による、ターゲット共分散行列の生成の例示的な動作のフローチャートを示す。 本明細書で説明される装置を実施するのに好適な例示的なデバイスを概略的に示す。
本出願の実施形態
空間分析により導出されるメタデータパラメータについての有効なエンコーディングを提供するための好適な装置および可能性のある機構を、以下でさらに詳細に説明する。
前述のように、周波数帯域での方向および直接対総エネルギー比(または拡散比、絶対エネルギー、もしくは所与の時間周波数間隔で音声の指向性/無指向性を示す任意の好適な式)パラメータなどの空間メタデータパラメータは、自然音声フィールド(言い換えると、捕捉された音声フィールド)および合成音声フィールド(言い換えると、マルチチャネルスピーカーミックスなどの生成音声フィールド)の両方の知覚特性を表すのに特に好適である。
好適な空間パラメータの一例は、コヒーレンスパラメータである。以下でさらに詳細に論じられるようなコンセプトは、大きい範囲のビットレートでパラメータの効率的な送信を実現することである。
以下に例で詳述されるようなコンセプトは、音声フィールド関連のパラメータ表示(周波数帯域での方向および比)を使用するオーディオエンコーディングおよびデコーディングに関する。ここで、ソリューションは、前述のパラメータ表示でエンコードされる、(生成および記録の両方の)スピーカーサラウンドミックスの再生品質を向上させるために提供される。
さらに、実施形態は、チャネル/スピーカーのチャネル間コヒーレンスエリアまたはグループの配向および幅(範囲)情報を含む、周波数帯域でのスピーカー信号のチャネル間コヒーレンス情報の分析によるスピーカーサラウンドミックスの知覚品質の向上について論じる。
さらに、以下の例は、空間パラメータ(すなわち、方向およびエネルギー比)と共に送信される空間コヒーレンスパラメータを示す。ここで、配向および幅/範囲は、「配向コード」、一部の実施形態では「配向コード」および「円形セクタコード」を効率的に使用するエンコーディングに提供される。これらのコードは、一部の実施形態では、両方とも各指向性パラメータに4ビットを消費し得る。
以下で論じられるような例はさらに、配向コードおよび円形セクタコードを含む指向性パラメータおよび空間コヒーレンスパラメータに基づく音声の再生を説明する。そのため、空間コヒーレンスパラメータは、配向コードおよび円形セクタコードよる再生オーディオ信号の相互相関に影響を及ぼす。
出力信号の相互相関は、再生スピーカー信号、再生バイノーラル信号、または再生アンビソニックス信号の相互相関を指し得る。
以下の例のうちのいくつかにおいて、「拡散コヒーレンス」パラメータのシグナリングは、エリア配向および範囲のフォーマットである。この例示的フォーマットでの拡散配向コードは、0~180度の回転を有し、この例示的フォーマットでの円形セクタコードは、拡散範囲について0~360度の中心角を有する。
一部の実施形態では、球形セクタコードが代替的に使用され得る。
そのように、例示的な実装態様でさらに詳細に論じられるようなコンセプトは、空間オーディオまたは音声フィールド関連のパラメータ表示を使用するオーディオエンコーディングおよびデコーディングに関する(例えば、他の空間メタデータパラメータは、方向、エネルギー比、直接対総計の比、指向性安定性、または他の好適なパラメータを含んでもよい)。コンセプトはさらに、前述のパラメータ表示でエンコードされるスピーカーサラウンドミックスの再生品質を向上させることを目的とする、方法および装置を含む実施形態を開示する。
コンセプト実施形態は、周波数帯域でのスピーカー信号のチャネル間コヒーレンスを分析し、指向性パラメータと共に空間コヒーレンスパラメータを送信し、指向性パラメータおよび空間コヒーレンスパラメータに基づいて音声を再生することによって、スピーカーサラウンドミックスの品質を向上させる。そのため、空間コヒーレンスは、再生オーディオ信号の相互相関に影響を及ぼす。
ここで、コヒーレンスまたは相互相関という用語は、厳密に、正規化された二乗値などの信号間の1つの特定の類似値として解釈されるのではなく、一般的にプレイバックオーディオ信号間の類似値を反映し、(位相での)複素数値、絶対値、正規化された値、または二乗値であり得る。コヒーレンスパラメータは、より一般的には、任意の方法でオーディオ信号の類似性を示すオーディオ信号関係パラメータとして表され得る。
出力信号のコヒーレンスは、再生スピーカー信号、再生バイノーラル信号、または再生アンビソニックス信号のコヒーレンスを指し得る。
したがって、論じられるコンセプト実装態様は、次のような2つの関連のパラメータを提供し得る。すなわち、音声エネルギーの指向性部分に関する、特定の方向でのエリアに及ぶ空間コヒーレンス、および音声エネルギーの周囲/無指向性部分に関する、周囲の空間コヒーレンスである。
その上、比パラメータは、以下でさらに詳細に論じられるように、さらなるオーディオ品質向上のために、決定された空間コヒーレンスまたはオーディオ信号関係パラメータ(複数可)に基づいて修正されてもよい。
以下で詳述する例示的な実施形態では、スピーカーサラウンドミックスが水平のサラウンドセットアップである、典型的なシナリオが説明される。他の実施形態では、空間コヒーレンスまたはオーディオ信号関係パラメータは、「3D」スピーカー構成からも推定され得る。言い換えると、一部の実施形態では、空間コヒーレンスまたはオーディオ信号関係パラメータは、定義された面の「上」または「下」に位置する方向(例えば、定義された「水平」面に対して高い、または低いスピーカー)に対応付けられ得る。
スピーカーミックスでのチャネルのうちのいずれかの間で任意の度合いのコヒーレンスが存在し得る。理論的には、知覚的にこれを正確に説明するために、周波数帯域でのスピーカー信号の共分散行列によって送信されるすべての情報が、空間メタデータで送信されるべきである。そのような共分散行列のサイズは、N×Nであり、ここで、Nは、スピーカーチャネルの数である。これは、5チャネルシステムについて、各時間周波数分析間隔で10個の複素相互相関値を送信し、7チャネルシステムについて、21個の複素相互相関値を送信する、などということを意味する。明らかに、これは、好適な低ビットレートコーデックについて、あまりにも多いメタデータを生成する。よって、以下の実施形態では、ビットレートを低く維持するために知覚的に必須の態様のみが空間メタデータによって説明される例が説明される。
完全性のために、本実施形態の範囲以外の範囲では、スピーカーミックスのチャネル間関係の送信を最適化する実用的な空間オーディオエンコーダは、スピーカーミックスの全体の共分散行列を送信しないが、元のサラウンド信号が有したものと実質的に類似の共分散行列を有するデコーダ側でサラウンド音声信号を取り戻すためにアップミキシングパラメータのセットを提供する。これらのようなソリューションが採用されている。しかしながら、そのような方法は、既存のスピーカーミックスのみのエンコーディングおよびデコーディングに特有である。本文脈は、捕捉された空間オーディオに特に適合したスピーカーセットアップ独立パラメータ表示である方向および比のメタデータを使用する、空間オーディオエンコーディングである(よって、本方法がスピーカーサラウンド入力の場合の品質を向上させることを要求する)。
したがって、例は、以下で論じられるような、知覚的に決定されたスピーカーセットアップ独立パラメータ表示の方法を使用する、5.1および7.1(ならびに他のフォーマットの)チャネルスピーカーミックスの再生品質を解決することに焦点が置かれる。
実際の5.1および7.1チャネルスピーカーミックス内で、方向比パラメータ表示に関連する問題である空間コヒーレンスの3つの典型的な場合が存在する。
1)音声が、「エアリー」知覚を生成するために2つのスピーカーを使用(例えば、中央の代わりに、前方左および右を使用)してコヒーレントに再生される。
2)音声が、「近い」知覚を生成するために3つの(または3つを超える)スピーカーを使用(例えば、中央のみの代わりに、前方左、右、および中央を使用)してコヒーレントに再生される。
3)音声が、「頭の内側での」または「上での」知覚を生成するために(ほぼ)すべてのスピーカーからコヒーレントに再生される。
各時間周波数間隔で2つのパラメータのみ(さらに、既存の方向および直接対総比パラメータ)を使用してこれらの3つの場合を推定および説明する方法が示される。このパラメータセットを使用して、再生出力についての類似の空間品質が、全体の共分散行列に含まれる情報で空間音声を再生することによって取得され得ることが提案される。
文献で知られている既存の合成技術を採用することによって、提案されたパラメータに基づいて、空間音声を合成する方法も示される。
図1に関して、本出願の実施形態を実施するための例示的な装置およびシステムが示される。「分析」部分121および「合成」部分131を有するシステム100が示される。「分析」部分121は、マルチチャネルスピーカー信号の受信から、メタデータおよび伝送オーディオ信号のエンコーディングまでの部分であり、「合成」部分131は、エンコードされたメタデータおよび伝送オーディオ信号のデコーディングから、(例えば、マルチチャネルスピーカー形態での)合成された信号の提示までの部分である。
システム100、すなわち「分析」部分121への入力は、マルチチャネルスピーカー信号102である。以下の例では、5.1チャネルスピーカー信号入力が説明されるが、任意の好適な入力スピーカー(または合成マルチチャネル)フォーマットが、他の実施形態で実施され得る。
マルチチャネルスピーカー信号は、伝送信号生成部103および分析プロセッサ105に渡される。
伝送信号生成部103は、入力信号102を受信し、好適な伝送オーディオ信号104を生成するように構成されている。伝送オーディオ信号はまた、対応付けられたオーディオ信号として知られ、(黙示的または明示的に音声フィールドの指向性情報を含み、システムに入力される)空間オーディオ信号に基づき得る。例えば、一部の実施形態では、伝送信号生成部103は、入力オーディオ信号を、所定数のチャネルにダウンミックスするか、または別の方法で選択もしくは結合させ、これらを伝送信号104として出力するように構成されている。伝送信号生成部103は、任意の好適な数の伝送オーディオ信号(またはチャネル)を生成するように構成されてもよく、例えば、一部の実施形態では、伝送信号生成部は、2つの伝送オーディオ信号を生成するように構成されている。一部の実施形態では、伝送信号生成部103は、さらに、オーディオ信号をエンコードするように構成されている。例えば、一部の実施形態では、オーディオ信号は、アドバンストオーディオコーディング(AAC)または拡張音声サービス(EVS)圧縮コーディングを使用してエンコードされ得る。一部の実施形態では、伝送信号生成部103は、オーディオ信号を等化し、自動ノイズ制御、動的処理、または任意の他の好適な処理を適用するように構成されてもよい。一部の実施形態では、伝送信号生成部103は、さらに、分析プロセッサ105の出力を、伝送信号104の生成を容易にするための入力として取り得る。
一部の実施形態では、伝送信号生成部103は、任意選択的であり、マルチチャネルスピーカー信号は、処理されずに渡される。
一部の実施形態では、分析プロセッサ105はまた、マルチチャネルスピーカー信号を受信し、信号を分析して、マルチチャネルスピーカー信号、したがって伝送信号104に対応付けられるメタデータ106を生成するように構成されている。分析プロセッサ105は、例えば、(メモリおよび少なくとも1つのプロセッサ上に記憶された好適なソフトウェアを実行する)コンピュータ、または代替的に、例えば、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA)または特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)を利用する特定のデバイスであり得る。本明細書でさらに詳細に示されるように、メタデータは、各時間周波数分析間隔で、方向パラメータ108と、エネルギー比パラメータ110と、周囲のコヒーレンスパラメータ112と、拡散コヒーレンスパラメータ114と、を含んでもよい。方向パラメータおよびエネルギー比パラメータは、一部の実施形態では、空間オーディオパラメータであると考えられ得る。言い換えると、空間オーディオパラメータは、マルチチャネルスピーカー信号(または、一般的に2つ以上のプレイバックオーディオ信号)によって生成される音声フィールドを特徴付けることを目的とするパラメータを含む。
一部の実施形態では、生成されるパラメータは、周波数帯域によって異なり得る。したがって、例えば、帯域Xでは、パラメータのすべてが生成および送信されるが、一方、帯域Yでは、異なる数のパラメータが生成および送信され、さらに、帯域Zでは、生成または送信されるパラメータがない。これの実用的な例は、最も高い帯域などのいくつかの周波数帯域について、パラメータのうちのいくつかは、知覚的な理由で必要とされないことであり得る。
さらに、分析プロセッサ105または好適なエンコーダは、例えば、以下でさらに詳細に説明されるように、メタデータをエンコードするように構成されてもよい。
伝送信号104およびメタデータ106は、送信または記憶されてもよく、これは、図1に破線107で示されている。伝送信号104およびメタデータ106は、送信または記憶される前に、ビットレートを低減するためにコード化され、1つのストリームに多重化され得る。エンコーディングおよび多重化は、任意の好適なスキームを使用して実施されてもよく、メタデータのエンコーディングは、実施形態で説明される。
デコーダ側で、受信または検索されたデータ(ストリーム)は、多重分離され、コード化されたストリームは、伝送信号およびメタデータを取得するためにデコードされ得る。伝送信号およびメタデータの受信または検索はまた、破線107の右手側に関して図1に示される。
システム100の「合成」部分131は、伝送信号104およびメタデータ106を受信するように構成された合成プロセッサ109を示し、伝送信号104およびメタデータ106に基づいて、マルチチャネルスピーカー信号110(または、一部の実施形態では、使用ケースに応じて、バイノーラルもしくはアンビソニックス信号などの任意の好適な出力フォーマット)を再生成する。合成プロセッサ109は、一部の実施形態では、(少なくとも1つのプロセッサ上で、メモリに記憶された好適なソフトウェアを実行する)コンピュータ、または代替的に、例えば、FPGAまたはASICを利用する特定のデバイスであり得る。
図2では、図1に示される概要の例示的なフローチャートが示される。
まず、システム(分析部分)は、ステップ201と図2に示されるように、マルチチャネル(スピーカー)オーディオ信号を受信するように構成されている。
次いで、システム(分析部分)は、ステップ203と図2に示されるように、伝送オーディオ信号を生成するように構成されている。
また、システム(分析部分)は、ステップ205と図2に示されるように、メタデータ、すなわち、方向、エネルギー比、周囲のコヒーレンス、拡散コヒーレンスを生成するために、スピーカー信号を分析するように構成されている。
次いで、システムは、ステップ207と図2に示されるように、記憶/送信のために、伝送信号およびコヒーレンスパラメータを有するメタデータをエンコードするように構成されている。
この後、システムは、ステップ209と図2に示されるように、エンコードされた伝送信号およびコヒーレンスパラメータを有するメタデータを記憶/送信し得る。
システムは、ステップ211と図2に示されるように、エンコードされた伝送信号およびコヒーレンスパラメータを有するメタデータを検索/受信し得る。
次いで、システムは、ステップ213と図2に示されるように、エンコードされた伝送信号およびコヒーレンスパラメータを有するメタデータから、伝送信号およびコヒーレンスパラメータを有するメタデータを抽出するように構成されている。
システム(合成部分)は、ステップ215と図2に示されるように、抽出された伝送信号およびコヒーレンスパラメータを有するメタデータに基づいて、(前述のように、使用ケースに応じて、バイノーラル、マルチチャネルスピーカー、またはアンビソニックス信号などの任意の好適な出力フォーマットであり得る)出力マルチチャネルオーディオ信号を合成するように構成されている。
図3に関して、一部の実施形態による、(図1に示されるような)例示的な分析プロセッサ105がさらに詳細に説明される。一部の実施形態での分析プロセッサ105は、時間周波数領域変換器301を備える。
一部の実施形態では、時間周波数領域変換器301は、マルチチャネルスピーカー信号102を受信し、入力時間領域信号を好適な時間周波数信号302に変換するために、短時間フーリエ変換(Short Time Fourier Transform:STFT)などの好適な時間対周波数領域変換を適用するように構成されている。これらの時間周波数信号は、方向分析部303およびコヒーレンス分析部305に渡されてもよい。
したがって、例えば、時間周波数信号302は、以下によって、時間周波数領域表示で表され得る。
Figure 0007142109000001
ここで、bは、周波数ビンインデックスであり、nは、フレームインデックスであり、iは、スピーカーチャネルインデックスである。別の式では、nは、元の時間領域信号よりも低いサンプリングレートを有する時間インデックスと考えられ得る。これらの周波数ビンは、ビンのうちの1つ以上を帯域インデックスk=0,...,K-1にグループ化するサブ帯域にグループ化され得る。各サブ帯域kは、最も低いビンbk,lowと、最も高いビンbk,highと、を有し、サブ帯域は、bk,low~bk,highのすべてのビンを含む。サブ帯域の幅は、任意の好適な分配に近似し得る。例えば、等価矩形帯域幅尺度(Equivalent Rectangular Bandwidth:ERB)またはバーク(Bark)尺度である。
一部の実施形態では、分析プロセッサ105は、方向分析部303を備える。方向分析部303は、時間周波数信号302を受信するように構成され、これらの信号に基づき、方向パラメータ108を推定してもよい。方向パラメータは、任意のオーディオベースの「方向」決定に基づいて決定され得る。
例えば、一部の実施形態では、方向分析部303は、2つ以上のスピーカー信号入力で上記方向を推定するように構成されている。
したがって、方向分析部303は、θ(k,n)と示される、各周波数帯域および時間フレームで方位角を提供するように構成されてもよい。方向パラメータが3Dパラメータである場合、例示的な方向パラメータとして、方位角θ(k,n)、仰角Φ(k,n)が挙げられる。方向パラメータ108はまた、コヒーレンス分析部305に渡されてもよい。
図2を参照して、ステップ205においてメタデータを生成するためにスピーカー信号を分析することによって取得され、(ステップ207において記憶または送信のためにエンコードされる)方向パラメータは、例えば、方位角および仰角または球形のグリッドインデックスの観点で表され得る。
一部の実施形態では、方向パラメータに加えて、方向分析部303は、決定された方向パラメータに対応付けられる他の好適なパラメータを決定するように構成されている。例えば、一部の実施形態では、エネルギー比パラメータ110を方向分析部に決定させる。エネルギー比は、ある方向から到来すると考えられ得るオーディオ信号のエネルギーの決定値であると考えられ得る。直接対総エネルギー比r(k,n)は、例えば、指向性推定の安定性測定値を使用して、または任意の相関測定値、もしくはエネルギー比パラメータを取得するための任意の他の好適な方法を使用して推定され得る。他の実施形態では、指向性推定の安定性測定値、相関測定値、または他の方向対応パラメータを方向分析部に決定および出力させる。
推定された方向108パラメータが出力される(さらに、合成プロセッサで使用され得る)。推定されたエネルギー比パラメータ110はまた、コヒーレンス分析部305に渡されてもよい。一部の実施形態では、パラメータは、パラメータ結合部(図示せず)で受信されてもよく、ここで、推定された方向およびエネルギー比パラメータが、以下で説明されるコヒーレンス分析部305によって生成されるようなコヒーレンスパラメータで結合される。
一部の実施形態では、分析プロセッサ105は、コヒーレンス分析部305を備える。コヒーレンス分析部305は、方向分析部303から、(方位角(θ(k,n))108、および直接対総エネルギー比(r(k,n))110などの)パラメータを受信するように構成されている。コヒーレンス分析部305は、さらに、時間周波数領域変換器301から時間周波数信号(s(b,n))302を受信するように構成されてもよい。これらのすべては、時間周波数領域にあり、bは、周波数ビンインデックスであり、kは、周波数帯域インデックス(各帯域は、いくつかのビンbで構成されている可能性がある)であり、nは、時間インデックスであり、iは、スピーカーチャネルである。
ここで、方向および比が各時間インデックスnで表されているが、一部の実施形態では、パラメータは、いくつかの時間インデックスを介して結合され得る。表されているように、周波数軸について同じことが当てはまり、いくつかの周波数ビンbの方向は、いくつかの周波数ビンbで構成された帯域kでの1つの方向パラメータによって表され得る。本明細書で論じられる空間パラメータのすべてについて同じことが当てはまる。
コヒーレンス分析部305は、複数のコヒーレンスパラメータを生成するように構成されている。以下の開示では、2つのパラメータがある。すなわち、周囲のコヒーレンス(γ(k,n))および拡散コヒーレンス(ζ(k,n))であり、両方とも時間周波数領域で分析される。さらに、一部の実施形態では、コヒーレンス分析部305は、対応付けられたパラメータ(例えば、推定されたエネルギー比(r(k,n))を修正するように構成されている。
一部の実施形態では、拡散コヒーレンスエンコーダ307は、拡散コヒーレンスパラメータを受信し、それをエンコードするように構成されている。一部の実施形態では、拡散コヒーレンスエンコーダ307の機能は、コヒーレンス分析部305内に組み込まれており、エンコードされた拡散コヒーレンスパラメータ114は、コヒーレンス分析部から直接出力される。一部の実施形態では、拡散コヒーレンスパラメータのエンコーディングおよびシグナリングは、「拡散コヒーレンス」エリア配向および範囲パラメータペアのシグナリングによって実施される。さらに、一部の実施形態では、「拡散コヒーレンス」エリア配向および範囲パラメータペアは、0~180度回転での拡散配向コード、および拡散範囲についての0~360度中心角での円形セクタコードによってシグナリングされる。
一部の実施形態では、拡散範囲についての0~360度中心角での円形セクタコードのみが使用される。
一部の実施形態では、球形セクタコードが代替的に使用され得る。コヒーレンスの例示的なコーディングは、コーデック入力でロスを生成しないか、または最小のロスを生成し、オーディオエンコーダでの現在のビットレート制約を考慮して、効率的な送信を可能にすることを目的とする。例えば、通信可能なシナリオでは、ネットワーク輻輳は、フレーム間の変動をもたらす単一の送信を通じてオーディオコーディングビットレートに非常に影響を及ぼし得る。
コヒーレンス分析部305(および拡散コヒーレンスエンコーダ307)の出力、具体的には、拡散コヒーレンス出力は、拡散コヒーレンスエンコーダに渡されてもよい。拡散コヒーレンスエンコーダは、出力拡散コヒーレンスをエンコードし、好適な、エンコードされた拡散コヒーレンスパラメータ114を生成するように構成されている。
したがって、一部の実施形態では、コヒーレンス分析部305は、1つ以上の時間インデックスnおよび周波数ビンbで構成された所与の分析間隔で、共分散行列Cを計算するように構成されてもよい。行列のサイズは、N×Nであり、成分はcijと示される。ここで、iおよびjは、スピーカーチャネルインデックスである。
次に、コヒーレンス分析部305は、(この例では、方位角θである)推定された方向に最も近いスピーカーチャネルiを決定するように構成されてもよい。
Figure 0007142109000002
ここで、αは、スピーカーiの角度である。
一部の実施形態では、例えば、3Dスピーカーセットアップの場合、最も近いスピーカーiを決定するときに仰角も考慮に入れられる。これは、例えば、各配向を別個に考慮するか、または一度にすべての組合せを計算して(上記情報から配向を抽出して)、任意の好適な方法で実施され得る。
さらに、そのような実施形態では、コヒーレンス分析部305は、スピーカーiの左側iおよび右側iで最も近いスピーカーを決定するように構成されている。
スピーカーiおよびjの間の正規化されたコヒーレンスは、以下のように示される。
Figure 0007142109000003
この式を使用して、コヒーレンス分析部305は、iおよびiの間の正規化されたコヒーレンスc'lrを計算するように構成されてもよい。言い換えると、以下を計算する。
Figure 0007142109000004
さらに、コヒーレンス分析部305は、共分散行列の対角成分を使用してスピーカーチャネルiのエネルギーを決定し、
Figure 0007142109000005
以下のように、iおよびiスピーカーのエネルギーと、i、i、およびiスピーカーのエネルギーとの間の比を決定するように構成されてもよい。
Figure 0007142109000006
次いで、コヒーレンス分析部305は、以下の「ステレオネス」パラメータを生成するために、これらの決定された変数を使用してもよい。
Figure 0007142109000007
「ステレオネス」パラメータは、0~1の値を有する。1の値は、スピーカーiおよびiでコヒーレント音声があることを意味し、この音声は、このセクタのエネルギーを支配する。この理由は、例えば、スピーカーミックスが、音声の「エアリー」知覚を生成するための振幅パンニング技術を使用したためであり得る。0の値は、そのような技術が適用されていないことを意味し、例えば、音声は単に、最も近いスピーカーに位置付けられ得る。
さらに、コヒーレンス分析部は、音声が、「近い」知覚を生成するために3つ(または3つを超える)スピーカーを使用(例えば、中央のみの代わりに、前方左、右、および中央を使用)してコヒーレントに再生される状況を、検出または少なくとも識別するように構成されてもよい。これは、サウンドミキシングエンジニアが、マルチチャネルスピーカーミックスをサラウンドミキシングするような状況を生成してもよい。
そのような実施形態では、前で識別される同じスピーカーi、i、およびiは、前述の正規化されたコヒーレンス決定値を使用して、正規化されたコヒーレンス値c'clおよびc'crを決定するためにコヒーレンス分析部によって使用される。言い換えると、以下の値が計算される。
Figure 0007142109000008
次いで、コヒーレンス分析部305は、以下を使用して、これらのスピーカー間のコヒーレンスを表す、正規化されたコヒーレンス値c'clrを決定してもよい。
Figure 0007142109000009
さらに、コヒーレンス分析部は、エネルギーがチャネルi、i、およびi間でどのくらい均等に分配されているかを表すパラメータを決定するように構成されてもよい。
Figure 0007142109000010
これらの変数を使用して、コヒーレンス分析部は、以下のように、新しいコヒーレントパンニングパラメータκを決定してもよい。
Figure 0007142109000011
このコヒーレントパンニングパラメータκは、0~1の値を有する。1の値は、すべてのスピーカーi、i、およびiでコヒーレント音声があることを意味し、この音声のエネルギーは、これらのスピーカー間で均等に分配される。この理由は、例えば、音源がより近くにあるという知覚を生成するためのスタジオミキシング技術を使用して、スピーカーミックスが生成されたためであり得る。0の値は、そのような技術が適用されていないことを意味し、例えば、音声は単に、最も近いスピーカーに位置付けられ得る。
(iではなく)iおよびiでのコヒーレント音声の量を測定するコヒーレンス分析部決定のステレオネスパラメータμ、ならびにすべてのi、i、およびiでのコヒーレント音声の量を測定するコヒーレントパンニングパラメータκは、メタデータとして出力されるコヒーレンスパラメータを決定するためにこれらを使用するように構成されている。
したがって、コヒーレンス分析部は、ステレオネスパラメータμおよびコヒーレントパンニングパラメータκを結合させて、0~1の値を有する拡散コヒーレンスζパラメータを形成するように構成されている。0の拡散コヒーレンスζ値は、ポイントソースを示し、言い換えると、音声は、(例えば、スピーカーiのみを使用して)可能な限り少ないスピーカーで再生されるべきである。拡散コヒーレンスζ値が増加するにつれて、より多くのエネルギーがスピーカーiの周囲のスピーカーに拡散し、値0.5まで、エネルギーが、スピーカーi、i、およびi間で均等に拡散される。拡散コヒーレンスζの値が0.5を超えて増加するにつれて、スピーカーiでのエネルギーが減少し、値1まで、スピーカーiでエネルギーがなく、すべてのエネルギーがスピーカーiおよびiにある。
前述のパラメータμおよびκを使用して、コヒーレンス分析部は、一部の実施形態では、以下の式を使用して、拡散コヒーレンスパラメータζを決定するように構成されている。
Figure 0007142109000012
上記式は、単なる例であり、コヒーレンス分析部が、パラメータの上記定義に従う限り、任意の他の方法で拡散コヒーレンスパラメータζを推定し得ることに留意されたい。
前の状況を検出するように構成されていることに加えて、コヒーレンス分析部は、音声が、「頭の内側での」または「上での」知覚を生成するために(ほぼ)すべてのスピーカーからコヒーレントに再生される状況を、検出または少なくとも識別するように構成されてもよい。
一部の実施形態では、コヒーレンス分析部は、決定される最も大きい値で、エネルギーEおよびスピーカーチャネルiをソートするように構成されてもよい。
次いで、コヒーレンス分析部は、このチャネルと、M個の他の最大音量チャネルとの間の正規化されたコヒーレンスc'ijを決定するように構成されてもよい。次いで、このチャネルと、M個の他の最大音量チャネルとの間のこれらの正規化されたコヒーレンスc'ij値は、監視されてもよい。一部の実施形態では、Mは、N-1であり得、それは、最大音量スピーカーチャネルとすべての他のスピーカーチャネルとの間のコヒーレンスの監視を意味する。しかしながら、一部の実施形態では、Mは、より小さい数、例えば、N-2であり得る。これらの正規化されたコヒーレンス値を使用して、コヒーレンス分析部は、以下の式を使用して、周囲のコヒーレンスパラメータγを決定するように構成されてもよい。
Figure 0007142109000013
c'iejは、最大音量チャネルと、M個の次に大音量チャネルとの間の正規化されたコヒーレンスである。
周囲のコヒーレンスパラメータγは、0~1の値を有する。1の値は、(ほぼ)すべてのスピーカーチャネル間のコヒーレンスがあることを意味する。0の値は、(ほぼ)すべてのスピーカーチャネル間のコヒーレンスがないことを意味する。
上記式は、周囲のコヒーレンスパラメータγについての推定の単なる一例であり、パラメータの上記定義に従う限り、任意の他の方法が使用され得る。
コヒーレンス分析部は、上述のように、周囲のコヒーレンスおよび拡散コヒーレンスパラメータを推定するために使用され得る。しかしながら、一部の実施形態では、オーディオ品質を向上させるために、コヒーレンス分析部は、状況1(音声が、コヒーレントに、「エアリー」知覚を生成するために2つのスピーカーを使用し、中央の代わりに、前方左および右を使用している)および/または2(音声が、コヒーレントに、「近い」知覚を生成するために3つ(もしくは3つを超える)スピーカーを使用している)がスピーカー信号内で発生することを決定して、比パラメータrを修正してもよい。よって、一部の実施形態では、拡散コヒーレンスおよび周囲のコヒーレンスパラメータはまた、比パラメータrを修正するために使用され得る。
上で示されるように、エネルギー比rは、(方位角θおよび/または仰角Φであり得る)方向でのポイントソースのエネルギーと、残りのエネルギーとの間の比として決定される。音源が、サラウンドミックスでポイントソースとして生成される(例えば、音声が1つのスピーカーのみにある)場合、方向分析は、1のエネルギー比を正しく生成し、合成段階は、この音声をポイントソースとして再生する。しかしながら、複数のスピーカーでのコヒーレント音声でのオーディオミキシング方法が適用されている場合(前述の場合1および2など)、方向分析は、(音声が、もはやポイントソースではないため)より低いエネルギー比を生成する。その結果、合成段階は、この音声の部分を周囲のものとして再生し、それは、例えば、スピーカーミックスを生成するときのスタジオミキシングエンジニアの目的とは反対の遠い音源の知覚につながり得る。
したがって、一部の実施形態では、コヒーレンス分析部は、音声を複数のスピーカーにコヒーレントに分配するオーディオミキシング技術が使用されていることが検出される場合、エネルギー比を修正するように構成されてもよい。
したがって、一部の実施形態では、コヒーレンス分析部は、スピーカーiおよびiのエネルギーと、すべてのスピーカーのエネルギーとの間の比を決定するように構成されている。
Figure 0007142109000014
この比、ならびに上で決定されるようなc'lrおよびγを使用して、代替的なエネルギー比rが、コヒーレンス分析部によって生成される。
Figure 0007142109000015
一部の実施形態では、コヒーレンス分析部は、同様に、スピーカーi、i、およびiのエネルギーと、すべてのスピーカーのエネルギーとの間の比を決定するように構成されてもよい。
Figure 0007142109000016
この比、ならびに上で計算されるc'clrおよびγを使用して、さらなる代替的なエネルギー比rが、コヒーレンス分析部によって形成される。
Figure 0007142109000017
これらのエネルギー比を使用して、元のエネルギー比rは、以下のようにコヒーレンス分析部によって修正され得る。
Figure 0007142109000018
この修正されたエネルギー比r'は、元のエネルギー比rを置き換えるために使用され得る。その結果、例えば、状況1(音声が、コヒーレントに、「エアリー」知覚を生成するために2つのスピーカーを使用し、中央の代わりに、前方左および右を使用している)では、比r'は1に近くなり、(拡散コヒーレンスζも1に近くなる)。合成段階で、後で論じられるように、音声は、いかなる非相関もなく、スピーカーiおよびiからコヒーレントに再生される。したがって、再生された音声の知覚は、元のミックスと一致する。
図4a、図4b、図4c、図4dに関して、上述の動作を要約するフローチャートが示される。
したがって、例えば、図4aは、図3に示されるような分析プロセッサ105の動作の例示的な概要を示す。
最初の動作は、ステップ401と図4aに示されるように、時間領域マルチチャネル(スピーカー)オーディオ信号を受信する動作である。
これに続いて、ステップ403と図4aに示されるように、時間領域対周波数領域変換(例えば、STFT)を適用して、分析のために、好適な時間周波数領域信号を生成する。
次いで、ステップ405と図4aに示されるように、方向分析を適用して、方向および対応付けられたパラメータ(例えば、エネルギー比パラメータ)を決定することが示される。
次いで、ステップ407と図4aに示されるように、コヒーレンス分析を適用して、周囲および/または拡散コヒーレンスパラメータなどのコヒーレンスパラメータを決定することが示される。
一部の実施形態では、エネルギー比はまた、このステップで、決定されたコヒーレンスパラメータに基づいて修正されてもよい。
ステップ409と図4aに示されるように、例えば、ビットストリームまたは他の好適なデータ構造内で、拡散コヒーレンスパラメータをエンコードし、決定されたパラメータを出力する動作である最後の動作が示される。
図4bに関しては、拡散コヒーレンスパラメータを生成するための例示的な方法である。
最初の動作は、ステップ431と図4bに示されるように、共分散行列を計算することである。
以下の動作は、ステップ433と図4bに示されるように、推定された方向に最も近いチャネルおよび隣接するチャネル(すなわち、i、i、i)を決定することである。
次の動作は、ステップ435と図4bに示されるように、共分散行列を正規化することである。
次いで、本方法は、ステップ437と図4bに示されるように、共分散行列の対角成分を使用してチャネルのエネルギーを決定することを含んでもよい。
次いで、本方法は、ステップ439と図4bに示されるように、左および右のチャネル間で正規化されたコヒーレンス値を決定することを含んでもよい。
本方法は、ステップ441と図4bに示されるように、iおよびiチャネルのエネルギーと、i、i、およびiのエネルギーとの間の比を生成することを含んでもよい。
次いで、ステレオネスパラメータは、ステップ443と図4bに示されるように決定され得る。
また、ステップ439~443と並行して、本方法は、ステップ438と図4bに示されるように、チャネル間で正規化されたコヒーレンス値を決定することと、ステップ440と図4bに示されるように、エネルギー分配パラメータを決定することと、ステップ442と図4bに示されるように、コヒーレントパンニングパラメータを決定することと、を含んでもよい。
最後に、動作は、ステップ445と図4bに示されるように、ステレオネスパラメータおよびコヒーレントパンニングパラメータから拡散コヒーレンスパラメータを決定してもよい。
さらに、図4cは、周囲のコヒーレンスパラメータを生成するための例示的な方法を示す。
最初の3つの動作は、最初が、ステップ451と図4cに示されるように共分散行列を計算することであるという点で、図4bに示される最初の4つの動作のうちの3つと同じである。
次の動作は、ステップ453と図4cに示されるように、共分散行列を正規化することである。
次いで、本方法は、ステップ455と図4cに示されるように、共分散行列の対角成分を使用してチャネルのエネルギーを決定することを含んでもよい。
次いで、本方法は、ステップ457と図4cに示されるように、エネルギーEをソートすることを含んでもよい。
次いで、本方法は、ステップ459と図4cに示されるように、最も大きい値を有するチャネルを選択することを含んでもよい。
次いで、本方法は、ステップ461と図4cに示されるように、選択されたチャネルと、M個の他の最も大きいエネルギーチャネルとの間の正規化されたコヒーレンスを監視することを含んでもよい。
次いで、ステップ463と図4cに示されるように、正規化された共分散行列値から周囲のコヒーレンスパラメータを決定する。
図4dに関して、エネルギー比を修正するための例示的な方法が示される。
最初の動作は、ステップ471と図4dに示されるように、スピーカーiおよびiのエネルギーと、すべてのスピーカーのエネルギーとの間の比を決定することである。
次いで、コヒーレンス分析部によって、上で決定されるようなこの比ならびにc'lrおよびγに基づいて、第1の代替的な比rを決定することが、ステップ473と図4dに示される。
次の動作は、ステップ475と図4dに示されるように、スピーカーi、i、およびiのエネルギーと、すべてのスピーカーのエネルギーとの間の比を決定することである。
次いで、コヒーレンス分析部によって、上で決定されるようなこの比ならびにc'clrおよびγに基づいて、第2の代替的な比rを決定することが、ステップ477と図4dに示される。
次いで、修正されたエネルギー比は、ステップ479と図4dに示されるように、元のエネルギー比、第1の代替的なエネルギー比、および第2の代替的なエネルギー比に基づいて決定され、現在のエネルギー比を置き換えるために使用されてもよい。
上記定式化は、サラウンドスピーカー入力についてのコヒーレンスパラメータを推定するために詳述された。類似の処理がまた、各時間パラメータ推定間隔での決定された位置でのオーディオチャネルとしてオーディオオブジェクトを扱うことによって、オーディオオブジェクト入力について実行され得る。
さらに、拡散コヒーレンスパラメータおよび周囲のコヒーレンスパラメータなどのコヒーレンスパラメータは、マイクロフォンアレイ信号またはアンビソニックス入力信号についても推定され得る。一例として、いくつかのマイクロフォンアレイから、本方法および装置は、文献で知られている方法によって、1次アンビソニックス(First-Order Ambisonic:FOA)信号を取得し得る。FOA信号は、無指向性信号、およびある方向でポジティブゲインと、別の方向でネガティブゲインと、を有する、3つの直交整列8の字信号で構成されている。そのような入力についてのコヒーレンスパラメータ推定の一例では、本方法および装置は、FOA信号の無指向性および3指向性信号の相対的なエネルギーを監視し得る。これは、音声が周囲の方向からコヒーレントに再生され、FOA信号が捕捉される場合、無指向性(第0次FOA)信号がこれらのコヒーレント信号の合計で構成されているためである。一方、3つの8の字(第1次FOA)信号は、ポジティブおよびネガティブゲイン方向依存性を有し、したがって、コヒーレント信号は、これらの第1次FOA信号で部分的にまたは完全に打ち消し合う。したがって、第0次FOA信号のエネルギーが、第1次FOA信号の結合されたエネルギーに対してより高くなるときに、より高い値が提供されるように、周囲のコヒーレンスパラメータが推定され得る。
図4eに関して、拡散コヒーレンスパラメータを決定するさらなる例が示される。この例では、上述の拡散コヒーレンス推定方法は、隣接するチャネルを使用するだけの代わりにすべての入力チャネルを使用することによって、さらに一般化される。
これは、一部の実施形態では、連続的なコヒーレントエリアをサーチし、(複数のスピーカーがコヒーレント信号を再生するために使用される状況を一般化する)方法を実施することによって達成され得る。
この方法では、サーチパターンは、パラメータ角度(0°から開始するΦ)およびステップ(例えば、5°の値でのΔ)で定義され得る。
本方法は、ステップ901と図4eに示されるように、1つ以上の方向を決定するために、最初の主要な方向分析を実行(または方向分析部303から受信)してもよい。
次いで、本方法は、ステップ903と図4eに示されるように、入力チャネルの方向に基づいて入力チャネルを単位球上に配置(または単位球を生成)してもよい。
次いで、本方法は、ステップ905と図4eに示されるように、主要な方向を中心点として有し、(Φ)を中心点ベクトルと円のエッジを指すベクトルとの間の角度として有する、単位球上の円を生成する(または別の方法でパラメータの円を生成する)ことがさらに示される。
主要な方向は、上記方法での方向分析のための提案された方法などの好適な手段によって提供され得る。次いで、主要なチャネルは、推定された主要な方向に最も近いスピーカーノードまたはチャネルであるように選択され得る。主要なチャネルの定義は、ステップ907と図4eに示される。
次の動作は、ステップ908と図4eに示されるように、例えば、ΦCA=0のように最初のコヒーレント角度の定義を設定することである。
次いで、コヒーレンスエリアサーチが開始される。このサーチは、ステップ909と図4eに示されるように、サーチ領域Φで主要なチャネルを使用する。
次の動作は、ステップ911と図4eに示されるように、ステップΔを使用して角度Φを増加させることである。Φが180度を超える場合、180度に設定される。
これは、例えば、図10に示され、単位球1100について、主要な方向1101および第1の角度Φ1103が示され、それは、球の表面上の第1のサーチリング1113を定義する。図10に示されるように、角度Φは、ステップΔによって、さらなる繰り返しで増加し得る。図10に示されるように、角度は、第2のリング1115、第3のリング1117、および第4のリング1119を生成する、第2の角度1105、第3の角度1107、および第4の角度1119に増加し得る。
方向および角度によって定義されるこのサーチ領域で、ステップ913と図4eに示されるように、(定義された許容値内で)サーチリング内に任意の入力チャネルがあるかどうかのチェックが行われる。
入力チャネルがない場合、本方法は、ステップ911に戻り、さらにステップΔによって角度Φを増加させることによって、サーチリングが増加する。
サーチリング内の任意の決定された入力チャネルについて、検出されたチャネルと主要なチャネルとの間の正規化されたコヒーレントエネルギーが計算され、ステップ915と図4eに示されるように、それらの平均が計算される。
次いで、平均コヒーレンスが、所定の許容値よりも上(例えば、0.5を超える)かどうかを判定するためのチェックが行われる。チェックは、ステップ917と図4eに示される。
平均コヒーレンスが、所定の許容値よりも上であるとチェックにおいて判定されると、コヒーレント角度ΦCAは、現在の角度に増加され、言い換えると、ΦCA=Φとする。
言い換えると、新しく決定されたチャネルは、エリアに追加される。これは、ステップ919と図4eに示される。
次いで、ステップ921と図4eに示されるように、サーチ角度Φが180度であるかどうかを判定するためのさらなるチェックが行われる。
サーチ角度が180度未満である場合、動作は、ステップ911に戻り、さらにステップΔによって角度Φを増加させることによって、サーチリングが増加する。
コヒーレンスエネルギーが一致しない場合(または角度が180度である場合)、ΦCA*2が、ステップ923と図4eに示されるように拡散範囲として設定される。
ΦCA*2を拡散範囲として設定した後の以下の動作は、ステップ925と図4eに示されるように、コヒーレントパンニングパラメータを推定することである。
コヒーレントパンニングパラメータを推定するために、まず、分析された方向に最も近いスピーカーaが決定される。次に、そのチャネルaとすべてのチャネルiとの間の正規化されたコヒーレンスca、i(エリア内でi≠a)が決定される。次に、閾値エネルギーよりも低いエネルギーを有するチャネル(例えば、Eτ=0.01E)が省略され、残りから最小のコヒーレンスが選択される。
Figure 0007142109000019
次に、エネルギーがこれらのチャネル間でどのくらい均等に分配されているかを示すξareaが決定される。
Figure 0007142109000020
Figure 0007142109000021
これらの変数を使用して、ステップ925と図4eに示されるように、コヒーレントパンニングパラメータが形成され得る。
Figure 0007142109000022
図4fに関して、さらなる実施形態が示される。
このさらなる実施形態は、コヒーレントエッジのサーチを一般化し、コヒーレントリングのサーチによって示される。
本方法は、ステップ1001と図4fに示されるように、1つ以上の方向を決定するために、最初の主要な方向分析を実行(または方向分析部303から受信)してもよい。
次いで、本方法は、ステップ1003と図4fに示されるように、入力チャネルの方向に基づいて入力チャネルを単位球上に配置(または単位球を生成)してもよい。
次いで、本方法は、ステップ1005と図4fに示されるように、主要な方向を中心点として有し、(Φ)を中心点ベクトルと円のエッジを指すベクトルとの間の角度として有する、単位球上の円を生成する(または別の方法でパラメータの円を生成する)ことがさらに示される。
次いで、コヒーレンスエリアサーチが開始される。このサーチは、ステップ1007と図4fに示されるように、角度Φ=0で主要なチャネルを使用する。この方法では、サーチパターンは、パラメータ角度(0°から開始するΦ)およびステップ(例えば、5°の値でのΔ)で定義され得る。
さらに、ステップ1009と図4fに示されるように、見出されたコヒーレンスエネルギー(Coherence Energy:CE)値は、0に設定され、コヒーレンス角度ΦCE=0が定義される。
次の動作は、ステップ1011と図4fに示されるように、ステップΔを使用してサーチ角度Φを増加させることである。Φが180度を超える場合、180度に設定される。
この方向および角度で、ステップ1013と図4fに示されるように、(所定の許容値、例えば、10度以内で)サーチリングに近い任意の入力チャネルがあるかどうかのチェックが行われる。
リングに近い入力チャネルがない場合、本方法は、ステップ1011に戻り、さらにステップΔによって角度Φを増加させることによって、サーチリングが増加する。
(許容値以内で)サーチリング上に少なくとも2つの入力チャネルがあるとき、リング上のすべてのチャネル間のコヒーレンスが決定され、リングの平均コヒーレンスが決定される。
また、リング上のすべてのチャネルについての平均エネルギーが決定される。
次いで、決定された平均コヒーレンスおよび平均エネルギーは、ステップ1015と図4fに示されるように、リングのコヒーレントエネルギーCEを生成するために乗算される。
次いで、ステップ1017と図4fに示されるように、平均エネルギーが十分大きいかどうかを判定するためのチェックが行われる。
平均エネルギーが最小値以下である場合、次のステップは1011であり、リングサイズが増加し、リングの近くの入力チャネルが再びサーチされる。
リングの平均エネルギーが最小値(例えば、0.1)よりも大きい場合、リングの決定されたコヒーレントエネルギーCEを前のリングのコヒーレントエネルギーと比較するためのさらなるチェックが実行される。CEチェックは、ステップ1019と図4fに示される。
リングのコヒーレントエネルギーが前のリングのコヒーレントエネルギーよりも大きいことがチェックにおいて判定されると、このリングをコヒーレンスリングとして使用する。言い換えると、ステップ1021と図4fに示されるように、見出されたCEを、リングについての決定されたCE値に設定し、ΦCE=Φとする。
リングのコヒーレントエネルギーが前のリングのコヒーレントエネルギー未満である場合、動作は、ステップ1011に戻り、さらにステップΔによって角度Φを増加させることによって、サーチリングが増加する。
コヒーレントエネルギーが大きい場合、ステップ1023と図4fに示されるように、サーチ角度Φが180度であるかどうかを判定するためのさらなるチェックが行われる。
サーチ角度が180度未満である場合、動作は、ステップ1011に戻り、さらにステップΔによって角度Φを増加させることによって、サーチリングが増加する。
サーチ角度が180度である場合、ステップ1025と図4fに示されるように、拡散範囲は、ΦCE*2として設定される。
拡散範囲をΦCE*2で設定した後の以下の動作は、ステップ1027と図4fに示されるように、ステレオネスパラメータを推定することである。ステレオネスパラメータがまず決定されてもよく、最も大きいエネルギーEを有するリング上のチャネルmを見出す。次いで、リング上のこのチャネルと他のチャネルiとの間の正規化されたコヒーレンスcm,iを計算する。次に、それぞれのエネルギーによって重み付けされるこれらのコヒーレンスの平均値を計算する。
Figure 0007142109000023
次いで、リング上のエネルギーおよびリング内側のエネルギーの比を計算する。
Figure 0007142109000024
これらの変数を使用して、ステレオネスパラメータが形成され得る。
Figure 0007142109000025
コヒーレントパンニングおよびステレオネスパラメータを決定して、それらは、結合された拡散コヒーレンスパラメータを形成するために上で提示されるように同様に結合され得る。
上記の例も、拡散範囲パラメータを生成するため、一部の実施形態では結合され得る。一部の実施形態では、この結合は、2つの結果のより大きい拡散範囲を選択し得る。
上記のアルゴリズムは、円を使用する一般的なサーチパターンの例を示す。しかしながら、本方法は、これらに限定されず、円の代わりに様々な形状および形態が使用され得る。さらに、3Dサーチを使用することが必須ではなく、2Dパターンだけを使用してサーチし、この2Dパターンの回転を含んでもよい。
次いで、これらの(修正された)エネルギー比110、周囲のコヒーレンス112、および拡散コヒーレンス114パラメータが出力され得る。さらに、論じられるように、拡散コヒーレンスパラメータは、メタデータ結合部に渡されるか、または任意の好適な方法、例えば、ダウンミックス信号でのエンコーディングおよび/または多重化で処理され、記憶および/または送信されてもよい(システムの合成部分に渡されてもよい)。合成方法は、オーディオ品質を維持することを試みながら、信号の共分散行列を操作するための、修正された最小二乗最適化信号ミキシング技術であり得る。本方法は、(以下で論じられるように)入力信号の共分散行列測定値およびターゲット共分散行列を利用し、そのような処理を実行するためのミキシング行列を提供する。本方法はまた、入力に独立信号エネルギーの十分な量がないときに非相関音声を最適に利用する手段を提供する。
コヒーレンスパラメータの生成およびエンコーディングをさらに論じる前に、例示的なスピーカーノード配置が論じられる。図5aおよび図5bは、それぞれ、例示的なイマーシブオーディオ提示配置の第1の図および平面図を示す。図5aおよび図5bに示されるアレイは、(バーチャル)スピーカーを表し得る30個のスピーカーノードを示す。この例では、アレイは、3つのリングで配置されており、各リングは、10個のスピーカーノードを備える。
第1のリング513は、(リスニング位置501の「直接」正面にある基準方位角上の)正面中央スピーカー533、(基準方位角に対して反対側で、リスニング位置501の「直接」後方にある)後方中央スピーカー543、および1つのさらなるスピーカー523とラベル付けされた、リスニング位置501の周囲の耳の高さでの水平のリングである。
アレイは、第1の上のまたは高いリング511をさらに含んでもよく、これは、(リスニング位置501の「直接」正面にある基準方位角上の)正面中央スピーカー531、(基準方位角に対して反対側で、リスニング位置501の「直接」後方にある)後方中央スピーカー541、および1つのさらなるスピーカー521とラベル付けされた、リスニング位置501の周囲の耳の高さよりも高い水平のリングである。
下のまたは低いリング515を含むアレイがさらに示され、これは、(リスニング位置501の「直接」正面にある基準方位角上の)中央スピーカー535、(基準方位角に対して反対側で、リスニング位置501の「直接」後方にある)後方中央スピーカー545、および1つのさらなるスピーカー525とラベル付けされた、リスニング位置501の周囲の耳の高さよりも低い水平のリングである。
(バーチャル)スピーカーノードアレイは、一部の実施形態では、代替的に完全にリスニング位置を取り囲み(すなわち、例えば、等距離のアレイ構成でユーザの周囲にバーチャルスピーカーがあり)、したがって、選択されたビューイング/リスニング方向により解像度をロスすることなく、3DoF回転の完全な自由度をユーザに与え得る。
スピーカーノード間のスペーシングは、「ビューイング」方向に応じて大きく変わり得、図5aおよび図5bに示されるように、方位角分配において等距離でない場合がある。例えば、5.1または7.1などの従来の水平のスピーカー構成は、他の方向よりもユーザの正面でより高い空間解像度を提供する。さらに、一部の実施形態では、スピーカー分配は、高いリングを提供し、低いリングを提供しないか、または1つを超える数の高いもしくは低いリングを提供するように構成されてもよい。
したがって、以下の例は、この例示的なスピーカーノード分配に関して説明されるが、以下で説明されるような本実施形態は、任意の好適なスピーカーノード分配に適用され得る。
図6aおよび図6bに関して、コヒーレンス評価について最も近い隣接する方向(またはスピーカーノード)のみを考慮して、コヒーレンスパラメータのシグナリング/送信によって大量のデータが生成される一例が示される。したがって、例えば、単一のスピーカーノード601について、垂直の配向613、水平の配向617、第1の対角の配向611、および第2の対角の配向615のように示される少なくとも4つの配向で考慮される。したがって、単一の支配的なコヒーレンス成分が送信されるときに、シグナリングは依然として、選択または選ばれた配向がシグナリングされることを要求する。
一旦、コヒーレント再生範囲が分かると、コヒーレント再生配向パラメータが推定され得る。このパラメータは、円の再生が想定されないときに再生をサポートするために使用される。配向パラメータを見出すための方法は、主要な方向スピーカー、ならびに回転面でポジティブおよびネガティブな範囲の角度(すなわち、範囲の±1/2)で最も近いスピーカーを常に使用して、各配向角度について拡散コヒーレンスパラメータ(ならびに形成「ステレオネス」および「コヒーレントパンニング」パラメータ)を推定することである。最も大きい拡散コヒーレンスパラメータを取得する配向は、選択された配向角度である。複数の角度が同じ「左」および「右」スピーカーを使用する場合、これらの角度の平均値が使用される。これは、さらに、配向角度のサーチが-90°から90°まで特定のステップ(例えば、10°)で進むことを想定する。
さらに、図7aおよび図7bに示されるように、大きいアレイでの配向は、「中央」、または配向、配向角度、およびアレイ構成に応じて曖昧であるように見える場合がある。したがって、例えば、図7aは、第1の配向を示し、それは、配向701がスピーカーノード711、713、715、717、および719を通過するとき、スピーカーノードの曖昧性を示さない。しかしながら、図7bは、配向721を示し、ここで、配向は、いくつかのスピーカーノード731、737、743を通過するが、スピーカーノードペア733および735に関して、ならびに739および741に関しても曖昧である。これは、知覚的に関連しない場合があり、エンコーディングおよびシグナリングに影響を与えない場合がある。
コヒーレンスパラメータ値(「拡散コヒーレンス」)に加えて、以下で説明される実施形態では、コヒーレンスの配向および円形セクタが定義される。一部の実施形態では、代わりにまたは追加で、球形セクタが使用され得る。一部の実施形態では、定義はまた、配向情報(およびさらなるデスクリプタ、例えば、平坦性)を含んでもよい。
「拡散コヒーレンス」方向についての複雑な形状が考慮される一部の実施形態では、出力は、対応する知覚的な利点なしで、特に低ビットレートコーデックに好適でない場合があるデータレートを生成する非常に大量のメタデータを必要とし得ることに留意されたい。
したがって、一部の実施形態では、知覚的に重要な態様が、空間メタデータで定義およびエンコードされる。したがって、前述のように、拡散コヒーレンスエリア配向および範囲
・0~180度回転での拡散配向コード、および
・拡散範囲についての0~360度中心角での円形セクタコード
を拡散コヒーレンスエンコーダにエンコードさせ得る。
再生での拡散コヒーレンスパラメータの知覚的効果は、円形セクタが非常に小さい場合に限定されることに留意されたい。小さい値で、ソースは、よりポイント状のままである。一方、配向角度の小さい変化はまた、一般的に、小さいセクタ値で知覚的に重要でない。
図8aおよび図8bに関して、以下の形態を有する例示的な配向コーディングが示される。
Figure 0007142109000026
ここで、bはシグナリングビットであり、Qstepは、量子化ステップサイズである。4ビット表現について、これは、以下のとおりである。
Figure 0007142109000027
したがって、(-pi/2または0での)1ビット量子化801、(-2pi/4、-pi/4、0、または+pi/4での)2ビット量子化803、3ビット量子化805(-4pi/8、-3pi/8、-2pi/8、-pi/8、0、+pi/8、2pi/8、3pi/8)、(pi/16ステップでの-8pi/16から7pi/16までの)4ビット量子化807、および(pi/32ステップでの-15pi/32から14pi/32までの)5ビット量子化809についての例示的な量子化ポイントが図8aに示される。
さらに、図8bは、方向が、b=0の場合、-pi/2であり、b=1である場合、0であるかどうかを定義する、第1のビットbに対応付けられる方向、および第2のビットbが1のときの効果を示す。例えば、b=01のときに-pi/4であり、b=11のときに、pi/4である。
図9aは、さらに、例示的な4ビット組み込みコードを要約する表(-90度のベースオフセットが図8aおよび図8bに対応するように追加される)を示す。
一部の実施形態では、配向コードが組み込まれ得、その場合、配向精度は、エンコーダでビットを落とすことによって減少し得る。組み込みコードでは、ベースライン表現は、大まかな配向(例えば、90度または45度精度)を提供し、追加のビット層は、より正確な配向を定義する。
図9bは、2ビットベースラインおよび2つの1ビット組み込みフィールドを有する(各々、15度および7.5度の例示的な値を有する)組み込みの例示的なコードを示す、さらなる表を示す。180度による任意の配向オフセットが、配向データについてオフセットなしのものに対応するように、すべての値を-90度と89.99度との間に置くために、正規化が行われる。
(円形)セクタ範囲は、スカラー量子化値の実装によってエンコードされ得る。一部の実施形態では、量子化は、意図されたレンダリングスピーカーノードアレイとして使用されるバーチャルスピーカーアレイに対応してもよく、または、一部の実施形態では、それは、「任意の」量子化器であってもよい。
一部の実施形態では、入力チャネル構成は、デコーダにシグナリングされる。そのような場合では、(円形)セクタ範囲(および配向コード)は、入力に対応する量子化を維持するためにこの情報を直接利用し得る。
図11に関して、例示的な合成プロセッサ109がさらに詳細に示される。例示的な合成プロセッサ109は、米国特許出願公開第2014-0233762号、発明の名称「Optimal mixing matrices and usage of decorrelators in spatial audio processing」(Vilkamo, Backstrom, Kuntz, Kuch)で詳述されるような、修正された方法を利用するように構成されてもよい。
引用された方法は、それが、チャネル間信号コヒーレンスが合成または操作されることを要求されるような場合に特に適合しているという理由で選択されてもよい。
合成プロセッサ109は、伝送信号104およびメタデータ106を受信してもよい。
合成プロセッサ109は、伝送信号104を受信し、入力時間領域信号を好適な時間周波数信号に変換するために、短時間フーリエ変換(STFT)などの好適な時間対周波数領域変換を適用するように構成された時間周波数領域変換器301を備え得る。これらの時間周波数信号は、ミキシング行列プロセッサ1209および共分散行列推定器1203に渡されてもよい。
次いで、時間周波数信号が、ミキシング行列プロセッサ(さらに可能なものとして非相関プロセッサ)1209を用いて周波数帯域で適応的に処理されてもよく、時間周波数出力信号1212の形態での結果は、時間領域に戻して変換されて、空間化オーディオ信号1214の形態で、処理された出力を提供する。ミキシング行列処理方法は、例えば、「Optimized covariance domain framework for time-frequency processing of spatial audio」(Vilkamo, Backstrom, and Kuntz) Journal of the Audio Engineering Society 61.6(2013):403-411に詳細に説明されている。
ミキシング行列処理を適用するために、周波数帯域でのミキシング行列1210が必要とされる。ミキシング行列1210は、一部の実施形態では、ミキシング行列決定器1207内で定式化され得る。ミキシング行列決定器1207は、周波数帯域での入力共分散行列1206および周波数帯域でのターゲット共分散行列1208を受信するように構成されている。
周波数帯域での共分散行列1206は、単に、共分散行列推定器1203で決定され、時間周波数領域変換器1201からの周波数帯域でのダウンミックス信号から測定される。
ターゲット共分散行列は、一部の実施形態では、ターゲット共分散行列決定器1205で定式化される。
ターゲット共分散行列決定器1205は、一部の実施形態では、スピーカーセットアップを取り囲むために再生についてのターゲット共分散行列を決定するように構成されている。以下の式では、時間および周波数インデックスnおよびkは、(必要でないときは)単純化のために除去される。
まず、ターゲット共分散行列決定器1205は、共分散行列推定器1203から入力共分散行列に基づいて、ターゲット共分散行列の全体のエネルギーE1204を推定するように構成されてもよい。全体のエネルギーEは、一部の実施形態では、入力共分散行列の対角成分の合計から決定され得る。
次いで、ターゲット共分散行列決定器1205は、相互にインコヒーレントな部分でのターゲット共分散行列C、指向性部分C、および周囲のまたは無指向性部分Cを決定するように構成されてもよい。
したがって、ターゲット共分散行列は、C=C+Cとして、ターゲット共分散行列決定器1205によって決定される。
周囲の部分Cは、空間的な周囲の音声エネルギーを表し、それは、これまではインコヒーレントのみであったが、本発明により、インコヒーレントまたはコヒーレントもしくは部分的にコヒーレントであり得る。
したがって、ターゲット共分散行列決定器1205は、(1-r)Eとして、周囲のエネルギーを決定するように構成されてもよく、ここで、rは、入力メタデータからの直接対総エネルギー比パラメータである。次いで、周囲の共分散行列は、以下によって決定され得る。
Figure 0007142109000028
ここで、Iは、単位行列であり、Uは、1の行列であり、Mは、出力チャネルの数である。言い換えると、γが0のとき、周囲の共分散行列Cは対角であり、γが1のとき、周囲の共分散行列は、そのすべてのチャネルペアがコヒーレントであるように決定する。
次に、ターゲット共分散行列決定器1205は、直接部分の共分散行列Cを決定するように構成されてもよい。
したがって、ターゲット共分散行列決定器1205は、rEとして直接部分のエネルギーを決定するように構成されてもよい。
次いで、ターゲット共分散行列決定器1205は、メタデータに基づいて、スピーカー信号についてゲインベクトルを決定するように構成されている。まず、ターゲット共分散行列決定器1205は、例えば、ベクトルベース振幅パンニング(Vector Base Amplitude Panning:VBAP)を使用して、スピーカーセットアップについての振幅パンニングゲインのベクトルおよび空間メタデータの方向情報を決定するように構成されている。これらのゲインは、列ベクトルvVBAPで示されてもよく、それは、水平のセットアップについて、最大で、振幅パンニングでアクティブな2つのスピーカーについての2つの非0の値のみを有する。ターゲット共分散行列決定器1205は、一部の実施形態では、以下のように、VBAP共分散行列を決定するように構成され得る。
Figure 0007142109000029
ターゲット共分散行列決定器1205は、チャネルトリプレットi、i、iを決定するように構成され得、ここで、iは、推定された方向に最も近いスピーカーであり、左および右スピーカーi、iは、以下のように決定される。まず、拡散範囲が、エンコーダ/分析側からのパラメータ入力として決定されるか、または利用可能でない場合、一定、例えば、60度で決定される。2つの新しい方向は、方向パラメータの方位角を左および右に拡散範囲パラメータの半分で調整することによって定式化される。左および右スピーカーi、iは、i≠i≠iという条件で、これらの新しい方向に最も近いスピーカーである。
一部の実施形態では、配向角度が提供されるとき、左および右スピーカーiおよびiは、水平面の代わりに回転面で最も近いスピーカーであるように選択され、ここで、面回転が配向パラメータによって定義される。
ターゲット共分散行列決定器1205は、さらに、パンニング列ベクトルvLRCが、別の場合ゼロであるが、インデックスi、i、iでの値
Figure 0007142109000030
を有することを決定するように構成されてもよい。そのベクトルについての共分散行列は、以下のとおりである。
Figure 0007142109000031
拡散コヒーレンスパラメータζが0.5未満であるとき、すなわち、音声が、「直接ポイントソース」と「3つのスピーカーコヒーレント音声」との間であるとき、ターゲット共分散行列決定器1205は、直接部分の共分散行列が以下のようであることを決定するように構成され得る。
Figure 0007142109000032
拡散コヒーレンスパラメータζが0.5~1であるとき、すなわち、音声が、「3つのスピーカーコヒーレント音声」と「2つの拡散スピーカーコヒーレント音声」との間であるとき、ターゲット共分散行列決定器1205は、拡散分配ベクトルを決定し得る。
Figure 0007142109000033
次いで、ターゲット共分散行列決定器1205は、パンニングベクトルvDISTRを決定するように構成され得、ここで、第i番目の成分は、vDISTR,3の第1の成分であり、第i番目および第i番目の成分は、vDISTR,3の第2および第3の成分である。次いで、直接部分の共分散行列は、ターゲット共分散行列決定器1205によって、以下のように計算されてもよい。
Figure 0007142109000034
次いで、ターゲット共分散行列決定器1205は、音声を処理するために、ターゲット共分散行列C=C+Cを取得し得る。したがって、上掲のように、周囲の部分の共分散行列は、周囲のエネルギー、および周囲のコヒーレンスパラメータγに含まれる空間コヒーレンスについて説明し、直接共分散行列は、指向性エネルギー、方向パラメータ、および拡散コヒーレンスパラメータζについて説明する。
ターゲット共分散行列決定器1205は、サラウンド音声のチャネル間特性の代わりに両耳間特性を合成するように構成されることによって、バイノーラル出力についてターゲット共分散行列1208を決定するように構成されてもよい。
したがって、ターゲット共分散行列決定器1205は、バイノーラルサウンドについて、周囲の共分散行列Cを決定するように構成されてもよい。周囲のまたは無指向性エネルギーの量は、(1-r)Eであり、ここで、Eは、先に決定されたような総エネルギーである。周囲の部分の共分散行列は、以下のように決定され得る。
Figure 0007142109000035
ここで、
Figure 0007142109000036
bin(k)は、第k番目の周波数インデックスの周波数についてのバイノーラル拡散フィールドコヒーレンスである。言い換えると、γ(k,n)が1であるとき、周囲の共分散行列Cは、左耳と右耳との間の完全なコヒーレンスを決定する。γ(k,n)がゼロのとき、Cは、拡散フィールドで人間のリスナーにとって自然である、左耳と右耳との間のコヒーレンス(大まかに、高周波数でゼロ、低周波数で高い)を決定する。
次いで、ターゲット共分散行列決定器1205は、直接部分の共分散行列Cを決定するように構成されてもよい。指向性エネルギーの量は、rEである。以下で詳述されるように、スピーカー再生のように、拡散コヒーレンスパラメータζを合成するための類似の方法を使用することが可能である。
まず、ターゲット共分散行列決定器1205は、2×1頭部伝達関数(Head Related Transfer Function:HRTF)ベクトルvHRTF(k,θ(k,n),φ(k,n))を決定するように構成されてもよく、ここで、θ(k,n)は、推定された方位角であり、φ(k,n)は、推定された仰角である。ターゲット共分散行列決定器1205は、3つの方向でコヒーレントに音声を再生することと等価である、パンニングHRTFベクトルを決定し得る。
Figure 0007142109000037
ここで、θΔパラメータは、方位角寸法に関して、「拡散」音声エネルギーの幅を定義する。それは、パラメータ入力として提供される場合、例えば、30度または拡散範囲パラメータの半分であり得る。
拡散コヒーレンスパラメータζが0.5未満であるとき、すなわち、音声が、「直接ポイントソース」と「3つのスピーカーコヒーレント音声」との間であるとき、ターゲット共分散行列決定器1205は、直接部分のHRTF共分散行列が以下のようであることを決定するように構成され得る。
Figure 0007142109000038
拡散コヒーレンスパラメータζが0.5~1であるとき、すなわち、音声が、「3つのスピーカーコヒーレント音声」と「2つの拡散スピーカーコヒーレント音声」との間であるとき、ターゲット共分散行列決定器1205は、(スピーカーレンダリングと同じ)振幅分配ベクトルvDISTR,3を再度利用することによって、拡散分配を決定し得る。次いで、結合された頭部伝達関数(HRTF)ベクトルは、以下のように決定され得る。
Figure 0007142109000039
上記式は、vDISTR,3での重みで3つのHRTFの重み付けされた合計を生成する。次いで、直接部分のHRTF共分散行列は、以下のとおりである。
Figure 0007142109000040
次いで、ターゲット共分散行列決定器1205は、音声を処理するために、ターゲット共分散行列C=C+Cを取得するように構成されている。したがって、上掲のように、周囲の部分の共分散行列は、周囲のエネルギー、および周囲のコヒーレンスパラメータγに含まれる空間コヒーレンスについて説明し、直接共分散行列は、指向性エネルギー、方向パラメータ、および拡散コヒーレンスパラメータζについて説明する。
ターゲット共分散行列決定器1205は、スピーカーサラウンド音声のチャネル間特性の代わりにアンビソニックス信号のチャネル間特性を合成するように構成されることによって、アンビソニックス出力についてターゲット共分散行列1208を決定するように構成されてもよい。1次アンビソニックス(FOA)出力が以下に例示されるが、同じ原理を、より高次のアンビソニックス出力まで拡張することも簡単である。
したがって、ターゲット共分散行列決定器1205は、アンビソニックスサウンドについて、周囲の共分散行列Cを決定するように構成されてもよい。周囲のまたは無指向性エネルギーの量は、(1-r)Eであり、ここで、Eは、先に決定されたような総エネルギーである。周囲の部分の共分散行列は、以下のように決定され得る。
Figure 0007142109000041
言い換えると、γ(k,n)が1であるとき、周囲の共分散行列Cは、0次の成分のみが信号を受信する。そのようなアンビソニックス信号は、音声の空間的なコヒーレントな再生を意味する。γ(k,n)がゼロであるとき、Cは、拡散フィールドでのアンビソニックス共分散行列に対応する。上記の0次および1次成分の正規化は、既知のSN3D正規化スキームに従う。
次いで、ターゲット共分散行列決定器1205は、直接部分の共分散行列Cを決定するように構成されてもよい。指向性エネルギーの量は、rEである。以下で詳述されるように、スピーカー再生のように、拡散コヒーレンスパラメータζを合成するための類似の方法を使用することが可能である。
まず、ターゲット共分散行列決定器1205は、4×1アンビソニックスパンニングベクトルvAmb(θ(k,n),φ(k,n))を決定するように構成されてもよく、ここで、θ(k,n)は、推定された方位角パラメータであり、φ(k,n)は、推定された仰角パラメータである。アンビソニックスパンニングベクトルvAmb(θ(k,n),φ(k,n))は、方向θ(k,n)、φ(k,n)に対応するアンビソニックスゲインを含む。既知のACNチャネルオーダリングスキームを使用するFOA出力について、アンビソニックスパンニングベクトルは、以下のとおりである。
Figure 0007142109000042
ターゲット共分散行列決定器1205は、3つの方向でコヒーレントに音声を再生することと等価である、パンニングアンビソニックスベクトルを決定し得る。
Figure 0007142109000043
ここで、θΔパラメータは、方位角寸法に関して、「拡散」音声エネルギーの幅を定義する。それは、パラメータ入力として提供される場合、例えば、30度または拡散範囲パラメータの半分であり得る。
拡散コヒーレンスパラメータζが0.5未満であるとき、すなわち、音声が、「直接ポイントソース」と「3つのスピーカーコヒーレント音声」との間であるとき、ターゲット共分散行列決定器1205は、直接部分のアンビソニックス共分散行列が以下のようであることを決定するように構成され得る。
Figure 0007142109000044
拡散コヒーレンスパラメータζが0.5~1であるとき、すなわち、音声が、「3つのスピーカーコヒーレント音声」と「2つの拡散スピーカーコヒーレント音声」との間であるとき、ターゲット共分散行列決定器1205は、(スピーカーレンダリングと同じ)振幅分配ベクトルvDISTR,3を再度利用することによって、拡散分配を決定し得る。次いで、結合されたアンビソニックスパンニングベクトルは、以下のように決定され得る。
Figure 0007142109000045
上記式は、vDISTR,3での重みで3つのアンビソニックスパンニングベクトルの重み付けされた合計を生成する。次いで、直接部分のアンビソニックス共分散行列は、以下のとおりである。
Figure 0007142109000046
次いで、ターゲット共分散行列決定器1205は、音声を処理するために、ターゲット共分散行列C=C+Cを取得するように構成されている。したがって、上掲のように、周囲の部分の共分散行列は、周囲のエネルギー、および周囲のコヒーレンスパラメータγに含まれる空間コヒーレンスについて説明し、直接共分散行列は、指向性エネルギー、方向パラメータ、および拡散コヒーレンスパラメータζについて説明する。
言い換えると、同じ一般的な原理が、バイノーラル、アンビソニックス、またはスピーカーターゲット共分散行列の構築に当てはまる。主要な違いは、直接部分のレンダリングでのスピーカー振幅パンニングデータの代わりに、HRTFデータまたはアンビソニックスパンニングデータを利用すること、および周囲の部分のレンダリングでのチャネル間(ゼロ)コヒーレンスの代わりに、バイノーラルコヒーレンス(または特定のアンビソニックスの周囲の共分散行列処理)を利用することである。プロセッサは、上記を実施するソフトウェアを実行することができ、したがって、これらの出力タイプの各々をレンダリングすることができ得ることが理解されるであろう。
上記式では、ターゲット共分散行列の直接および周囲の部分のエネルギーは、推定された入力共分散行列からの総エネルギー推定Eに基づいて重み付けされた。任意に、そのような重み付けは省略されてもよく、すなわち、直接部分のエネルギーは、rとして決定され、周囲の部分のエネルギーは、(1-r)として決定される。その場合では、推定された入力共分散行列は、代わりに総エネルギー推定で正規化され、すなわち、1/Eで乗算される。そのような決定されたターゲット共分散行列および正規化された入力共分散行列に基づく、結果として生じるミキシング行列は、これらの行列の相対的なエネルギーが問題であり、それらの絶対エネルギーが問題でないため、先に提供された定式化と正確にまたは実質的に同じであり得る。
上記式では、拡散コヒーレント音声は、方向パラメータに従う方向に対して左および右の同じ面で再生されるように決定された。別の実施形態では、コヒーレント音声は、方向パラメータの周囲でスピーカーリングおよびエリアを使用して再生される。その実施形態では、例えば、スピーカー再生の場合では、ζ=1に対応する拡散コヒーレント音声は、中央のスピーカーlから角度α離れて許容値以内であることによって決定されるスピーカーのリングを使用して再生される。別の例では、ζ=0.5に対応する拡散コヒーレント音声は、中央のスピーカーlから角度α内にあることによって決定されるスピーカーのバーチャル表面を使用して再生される。角度αは、パラメータ入力、または一定、例えば、30度として提供される場合、拡散範囲パラメータの半分であるように決定され得る。
図12に関して、合成動作の概要が示される。
したがって、本方法は、ステップ1601と図12に示されるように、時間領域伝送信号を受信し得る。
次いで、これらの伝送信号は、ステップ1603と図12に示されるように、時間対周波数領域変換され得る。
次いで、共分散行列は、ステップ1605にと図12に示されるように、入力(伝送オーディオ)信号から推定され得る。
さらに、方向、エネルギー比、およびコヒーレンスパラメータを有する空間メタデータは、ステップ1602と図12に示されるように受信され得る。
ターゲット共分散行列は、ステップ1607と図12に示されるように、推定された共分散行列、方向、エネルギー比、およびコヒーレンスパラメータから決定されてもよい。
次いで、最適なミキシング行列は、ステップ1609と図12に示されるように、推定された共分散行列およびターゲット共分散行列に基づいて決定されてもよい。
次いで、ミキシング行列は、ステップ1611と図12に示されるように、時間周波数ダウンミックス信号に適用されてもよい。
次いで、ミキシング行列の時間周波数ダウンミックス信号への適用の結果は、ステップ1613と図12に示されるように、空間化オーディオ信号を生成するために時間対周波数領域逆変換されてもよい。
図13に関して、一部の実施形態による、ターゲット共分散行列を生成するための例示的な方法が示される。
まず、ステップ1621と図13に示されるように、入力共分散行列に基づいて、ターゲット共分散行列の全体のエネルギーEを推定する。
次いで、本方法は、ステップ1623と図13に示されるように、(1-r)Eとして周囲のエネルギーを決定することを含んでもよく、rは、入力メタデータからの直接対総エネルギー比パラメータである。
さらに、本方法は、ステップ1625と図13に示されるように、周囲の共分散行列を推定することを含んでもよい。
また、本方法は、ステップ1624と図13に示されるように、rEとして直接部分のエネルギーを決定することを含んでもよく、rは、入力メタデータからの直接対総エネルギー比パラメータである。
次いで、本方法は、ステップ1626と図13に示されるように、スピーカーセットアップについての振幅パンニングゲインのベクトルおよび空間メタデータの方向情報を決定することを含んでもよい。
これに続いて、本方法は、ステップ1628と図13に示されるように、推定された方向に最も近いスピーカー、ならびに最も近い左および右スピーカーである、チャネルトリプレットを決定することを含んでもよい。
次いで、本方法は、ステップ1630と図13に示されるように、直接共分散行列を推定することを含んでもよい。
最後に、本方法は、ステップ1631と図13に示されるように、ターゲット共分散行列を生成するために、周囲および直接の共分散行列部分を結合することを含んでもよい。
上記定式化は、ターゲット共分散行列の構築についてである。米国特許出願公開第2014-0233762号および関連するジャーナル刊行物における方法にも、プロトタイプ行列の決定および使用に最も関連するさらなる詳細が記載されている。プロトタイプ行列は、最小二乗最適化ミキシングソリューションが定式化されるレンダリングについての「基準信号」を決定する。ステレオダウンミックスがコーデックでオーディオ信号として提供される場合、スピーカーレンダリングについてのプロトタイプ行列は、左手側スピーカーについての信号が、ステレオトラックの提供された左のチャネルに関して最適化され、右手側についても同様であり、(中央チャネルは、左および右オーディオチャネルの合計に関して最適化され得る)ことを決定し得る。バイノーラル出力について、プロトタイプ行列は、左耳出力信号についての基準信号は、左ステレオチャネルであり、右耳についても同様であることを決定し得る。プロトタイプ行列の決定は、先行文献を調査した当業者にとって容易である。先行文献に対して、合成段階における本定式化での新規の態様は、空間コヒーレンスメタデータも利用するターゲット共分散行列の構築である。
本明細書全体を通じて繰り返し述べられてはいないが、空間オーディオ処理が、典型的およびこの文脈の両方で、周波数帯域で行われることを理解されたい。それらの帯域は、例えば、時間周波数変換の周波数ビン、またはいくつかのビンを結合する周波数帯域であり得る。結合は、バーク(Bark)周波数解像度などの人間のヒアリングの特性に近似し得る。言い換えると、いくつかの場合、周波数ビンbおよび/または時間インデックスnのいくつかを結合する時間周波数エリアでオーディオを測定および処理し得る。単純化のために、これらの態様は、上記の式のいずれにも表されなかった。多くの時間周波数サンプルが結合される場合、典型的には、1つの方向などの1つのセットのパラメータは、その時間周波数エリアについて推定され、そのエリア内のすべての時間周波数サンプルは、その1つの方向パラメータなどのそのセットのパラメータに従って合成される。
適用されたフィルタバンクの周波数解像度とは異なる、パラメータ分析についての周波数解像度の使用は、空間オーディオ処理システムでの典型的なアプローチである。
したがって、提案された方法は、以下の共通マルチチャネルミキシング技術がスピーカー信号に適用された場所を検出または識別し得る。
1)音声が、「エアリー」知覚を生成するために2つのスピーカーを使用(例えば、中央の代わりに、前方左および右を使用)してコヒーレントに再生される。
2)音声が、「近い」知覚を生成するために3つの(または3つを超える)スピーカーを使用(例えば、中央のみの代わりに、前方左、右、および中央を使用)してコヒーレントに再生される。
3)音声が、「頭の内側での」または「上での」知覚を生成するために(ほぼ)すべてのスピーカーからコヒーレントに再生される。
この検出または識別情報は、一部の実施形態では、複数の(時間周波数領域)パラメータを使用することによって、エンコーダからデコーダに渡されてもよい。これらの2つは、拡散コヒーレンスおよび周囲のコヒーレンスパラメータである。さらに、エネルギー比パラメータは、上述のような状況を決定したオーディオ品質を向上させるために修正されてもよい。
合成段階では、(提案された新規のパラメータを使用しない)従来技術の方法はそれぞれ、これらの状況に伴う以下の問題を有する。
1)音声は、大部分が周囲、すなわち、中央のスピーカーでのドライサウンドおよびすべてのスピーカーでの非相関音声として再生される。これは、周囲のような知覚をもたらすが、一方、知覚は、元の信号で「エアリー」であった。
2)音声は、部分的に周囲、すなわち、中央のスピーカーでのドライサウンドおよびすべてのスピーカーでの非相関音声として再生される。音源は、遠く離れているように知覚されるが、一方、それは、元の信号と近かった。
3)音声は、周囲として再生され、ほとんどすべての音声は、すべてのスピーカーから非相関として再生される。空間知覚は、元の信号のものに対してほぼ反対である。
しかしながら、本明細書で説明される実施形態を実施する合成段階では、合成は、(提案された新規のパラメータを使用して)問題なくこれらの場合をそれぞれ再生し得る。
1)音声は、元の信号のように2つのスピーカーを使用してコヒーレントに再生される。
2)音声は、元の信号のように3つのスピーカーを使用してコヒーレントに再生される。
3)音声は、元の信号のようにすべてのスピーカーを使用してコヒーレントに再生される。
上記分析実施形態に適応するための一部の実施形態では、合成は、さらに、完全なセットの出力チャネルを使用してもよい。そのような実施形態では、3つのチャネルだけを使用する代わりに、拡散範囲の内側のすべてのチャネルが、コヒーレント信号を再生し、定式化を複数のスピーカーの場合に拡張するために使用される。同様に、一部の実施形態では、拡散範囲のエッジの周囲の最も近いスピーカーは、実際のエッジであるように選択される。しかしながら、円形ゾーンは、上記の合成方法で定義されるようなエッジとしての2つのクリアスピーカーとして機能を果たすように生成される。スピーカーノードまたはスピーカーは、正確に、すべての方向でこの円上にない場合があり、一部の実施形態では、拡散範囲の少し外側にあるスピーカーも含まれることを可能にし、したがって、より確度の高い最良の円形エッジを生成する、許容値ゾーン(例えば、10度)が定義される。
図14に関して、分析または合成デバイスとして使用され得る例示的な電子デバイスが示される。デバイスは、任意の好適な電子デバイスまたは装置であり得る。例えば、一部の実施形態では、デバイス1400は、モバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオプレイバック装置などである。
一部の実施形態では、デバイス1400は、少なくとも1つのプロセッサまたは中央処理装置1407を備える。プロセッサ1407は、本明細書で説明されるような方法などの様々なプログラムコードを実行するように構成され得る。
一部の実施形態では、デバイス1400は、メモリ1411を備える。一部の実施形態では、少なくとも1つのプロセッサ1407は、メモリ1411に接続されている。メモリ1411は、任意の好適な記憶手段であり得る。一部の実施形態では、メモリ1411は、プロセッサ1407上で実行可能なプログラムコードを記憶するためのプログラムコードセクションを備える。さらに、一部の実施形態では、メモリ1411は、データ、例えば、本明細書で説明されるような実施形態に従って処理された、または処理されるデータを記憶するための記憶データセクションをさらに備え得る。プログラムコードセクション内で記憶される実行プログラムコードおよび記憶データセクション内で記憶されるデータは、メモリプロセッサ接続を介して、必要なときはいつでもプロセッサ1407によって検索され得る。
一部の実施形態では、デバイス1400は、ユーザインターフェース1405を備える。ユーザインターフェース1405は、一部の実施形態では、プロセッサ1407に接続され得る。一部の実施形態では、プロセッサ1407は、ユーザインターフェース1405の動作を制御し、ユーザインターフェース1405から入力を受信し得る。一部の実施形態では、ユーザインターフェース1405は、ユーザが、例えば、キーパッドを介して、デバイス1400へのコマンドを入力することを可能にし得る。一部の実施形態では、ユーザインターフェース1405は、ユーザが、デバイス1400から情報を取得することを可能にし得る。例えば、ユーザインターフェース1405は、デバイス1400からユーザに情報を表示するように構成されたディスプレイを備え得る。ユーザインターフェース1405は、一部の実施形態では、情報がデバイス1400に入力されることを可能にし、さらに、デバイス1400のユーザに情報を表示することができる、タッチスクリーンまたはタッチインターフェースを備え得る。一部の実施形態では、ユーザインターフェース1405は、本明細書で説明されるような位置決定器と通信するためのユーザインターフェースであり得る。
一部の実施形態では、デバイス1400は、入/出力ポート1409を備える。入/出力ポート1409は、一部の実施形態では、トランシーバを備える。そのような実施形態でのトランシーバは、プロセッサ1407に接続され、例えば、無線通信ネットワークを介して、他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバもしくは任意の好適なトランシーバもしくはトランスミッタおよび/またはレシーバ手段は、一部の実施形態では、有線または無線接続を介して、他の電子デバイスまたは装置と通信するように構成され得る。
トランシーバは、任意の好適な既知の通信プロトコルによって、さらなる装置と通信し得る。例えば、一部の実施形態では、トランシーバまたはトランシーバ手段は、好適なユニバーサルモバイルテレコミュニケーションズシステム(Universal Mobile Telecommunications System:UMTS)プロトコル、例えば、IEEE 802.Xなどのワイヤレスローカルエリアネットワーク(Wireless Local Area Network:WLAN)プロトコル、Bluetoothなどの好適な短距離無線周波数通信プロトコル、または赤外線データ通信経路(Infrared Data communication pathway:IRDA)を使用し得る。
トランシーバ入/出力ポート1409は、スピーカー信号を受信し、一部の実施形態では、好適なコードを実行するプロセッサ1407を使用することによって、本明細書で説明されるようなパラメータを決定するように構成されてもよい。さらに、デバイスは、合成デバイスに送信される、好適なダウンミックス信号およびパラメータ出力を生成してもよい。
一部の実施形態では、デバイス1400は、合成デバイスの少なくとも一部として採用され得る。そのように、入/出力ポート1409は、ダウンミックス信号、および一部の実施形態では、本明細書で説明されるような捕捉デバイスまたは処理デバイスで決定されるパラメータを受信し、好適なコードを実行するプロセッサ1407を使用することによって、好適なオーディオ信号フォーマット出力を生成するように構成されてもよい。入/出力ポート1409は、任意の好適なオーディオ出力、例えば、マルチチャネルスピーカーシステムおよび/またはヘッドフォンもしくは類似のものに接続され得る。
本出願で使用されるとき、「回路」という用語は、以下の1つ以上またはすべてを指してもよい。
(a)(アナログおよび/またはデジタル回路のみでの実装態様などの)ハードウェアのみの回路実装態様
(b)(i)ソフトウェア/ファームウェアを有するアナログおよび/またはデジタルハードウェア回路の組合せ、(ii)(デジタル信号プロセッサを含む)ソフトウェアを有するハードウェアプロセッサ、ソフトウェア、および携帯電話またはサーバなどの装置に様々な機能を実行させるように一緒に機能するメモリの任意の部分などの、(適用可能な)ハードウェア回路およびソフトウェアの組合せ
(c)動作のためにソフトウェア(例えば、ファームウェア)を必要とするが、ソフトウェアは、動作のために必要とされないときに存在しない場合がある、マイクロプロセッサまたはマイクロプロセッサの一部などのハードウェア回路および/またはプロセッサ
回路のこの定義は、すべての請求項を含む、本出願でのこの用語のすべての使用に当てはまる。さらなる例として、本出願で使用されるとき、回路という用語はまた、単なるハードウェア回路もしくはプロセッサ(もしくは複数のプロセッサ)、またはハードウェア回路もしくはプロセッサの一部、ならびにその(もしくはそれらの)付随のソフトウェアおよび/もしくはファームウェアの実装を網羅する。回路という用語はまた、例えば、請求項における特定の要素に適用可能な場合、モバイルデバイスについてのベースバンド集積回路もしくはプロセッサ集積回路、またはサーバ、セルラーネットワークデバイス、もしくは他のコンピューティングもしくはネットワークデバイスでの類似の集積回路を網羅する。
一般的に、本発明の様々な実施形態は、ハードウェアもしくは専用回路、ソフトウェア、ロジック、またはそれらの任意の組合せで実施され得る。例えば、いくつかの態様は、ハードウェアで実施され得るが、他の態様は、ファームウェアまたはソフトウェアで実施されてもよく、これらは、コントローラ、マイクロプロセッサ、または他のコンピューティングデバイスによって実行され得るが、本発明は、それに限定されない。本発明の様々な態様は、ブロック図、フローチャートとして、またはいくつかの他の図形表示を使用して例示および説明され得るが、本明細書で説明される、これらのブロック、装置、システム、技術、または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくはロジック、汎用ハードウェアもしくはコントローラ、もしくは他のコンピューティングデバイス、またはそれらの何らかの組合せで実施され得ることが十分に理解される。
本発明の実施形態は、プロセッサエンティティなどのモバイルデバイスのデータプロセッサ、ハードウェア、またはソフトウェアおよびハードウェアの組合せによって実行可能なコンピュータソフトウェアによって実施され得る。さらに、この点において、図示のようなロジックフローの任意のブロックは、プログラムステップ、もしくは相互接続されたロジック回路、ブロックおよび機能、またはプログラムステップおよびロジック回路、ブロックおよび機能の組合せを表し得ることに留意されたい。ソフトウェアは、メモリチップのような物理媒体、またはプロセッサ内に実装されたメモリブロック、ハードディスクもしくはフロッピーディスクなどの磁気媒体、および、例えば、DVDおよびそのデータ変形体、CDなどの光学媒体上に記憶され得る。
メモリは、ローカルの技術環境に好適な任意のタイプであり得、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光学メモリデバイスおよびシステム、固定メモリおよび取り外し可能なメモリなどの任意の好適なデータ記憶技術を使用して実装され得る。データプロセッサは、ローカルの技術環境に好適な任意のタイプであり得、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(Digital Signal Processor:DSP)、特定用途向け集積回路(ASIC)、マルチコアプロセッサアーキテクチャに基づくゲートレベル回路およびプロセッサのうちの1つ以上を含んでもよい。
本発明の実施形態は、集積回路モジュールなどの様々な構成要素で実施され得る。集積回路の設計は、全体的に、高度な自動化プロセスである。複雑で強力なソフトウェアツールは、ロジックレベル設計を、半導体基板上にエッチングおよび形成される準備ができた半導体回路設計に変換するのに利用可能である。
カリフォルニア州マウンテンビューのSynopsys,Inc.およびカリフォルニア州サンノゼのCadence Designによって提供されるものなどのプログラムは、自動的に、十分に確立された設計ルールおよび予め記憶された設計モジュールのライブラリを使用して、コンダクタをルーティングし、半導体チップ上に構成要素を配置する。一旦、半導体回路についての設計が完了すると、標準化された電子フォーマット(例えば、Opus、GDSIIなど)で、結果として生じる設計は、製造のために半導体製造設備「ファブ」に送信され得る。
前述の説明は、例示および非限定的な例によって、本発明の例示的な実施形態の完全で参考になる説明を提供している。しかしながら、様々な修正および適応が、添付の図面および添付の請求項と併せて読むと、前述の説明の観点から、当業者にとって明白になり得る。本発明の教示のすべてのそのような修正および類似の修正は、依然として、添付の請求項で定義されるような本発明の範囲内にある。

Claims (18)

  1. 装置であって、
    2つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために、少なくとも1つの空間オーディオパラメータを決定する手段と、
    前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのオーディオ信号関係パラメータを決定する手段と、
    を備え、
    前記少なくとも1つの空間オーディオパラメータは、少なくとも1つの方向パラメータと少なくとも1つのエネルギー比パラメータの少なくとも1つを含み、
    前記少なくとも1つのオーディオ信号関係パラメータは少なくとも1つのコヒーレンスパラメータに対応付けられており、前記少なくとも1つのコヒーレンスパラメータは、少なくとも2つの周波数帯域について、前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのチャネル間コヒーレンス情報を提供し、それによって、前記少なくとも1つの空間オーディオパラメータおよび前記少なくとも1つのオーディオ信号関係パラメータに基づいて、前記2つ以上のスピーカーチャネルオーディオ信号が再生され、
    前記装置は更に、
    前記少なくとも1つの空間オーディオパラメータを送信すると共に、少なくとも1つの決定された値を使用して、前記少なくとも1つのチャネル間コヒーレンス情報に対応付けられた少なくとも1つの情報を送信する手段、
    を備え、ここで前記少なくとも1つのチャネル間コヒーレンス情報に対応付けられた前記少なくとも1つの情報は、チャネル間コヒーレンスエリアの配向、幅、範囲の少なくとも1つを含む、装置。
  2. 前記2つ以上のスピーカーチャネルオーディオ信号が、前記少なくとも1つの空間オーディオパラメータと、前記少なくとも1つのコヒーレンスパラメータと、伝送オーディオ信号のいずれか1つ以上に基づいて再生されるように、前記2つ以上のスピーカーチャネルオーディオ信号から伝送オーディオ信号を決定するように構成される、
    請求項1に記載の装置。
  3. 前記2つ以上のスピーカーチャネルオーディオ信号間から前記少なくとも1つのコヒーレンスパラメータを決定するように構成され、
    前記少なくとも1つのコヒーレンスパラメータを決定することは、拡散コヒーレンスパラメータを決定することを含み、
    前記拡散コヒーレンスパラメータは、識別されたスピーカーチャネルオーディオ信号に空間的に隣接する2つ以上のスピーカーチャネルオーディオ信号間でチャネル間コヒーレンス情報に基づいて決定され、
    前記識別されたスピーカーチャネルオーディオ信号は、前記少なくとも1つの空間オーディオパラメータに基づいて識別される、
    請求項1又は2に記載の装置。
  4. 前記拡散コヒーレンスパラメータを決定することは、
    前記2つ以上のスピーカーチャネルオーディオ信号が、前記少なくとも1つの方向パラメータに空間的に最も近い前記スピーカーチャネルオーディオ信号である前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する2つのスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すことに対応付けられたステレオネスパラメータを決定することと、
    前記2つ以上のスピーカーチャネルオーディオ信号が、前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する少なくとも2つ以上のスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すことに対応付けられたコヒーレントパンニングパラメータを決定することと、
    前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを生成することと、
    を含む、請求項に記載の装置。
  5. 前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを生成することは、さらに、
    前記少なくとも1つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定することと、
    前記識別されたスピーカーからの方向からサーチすることであって、エリアでの各サーチが、一連の角度ステップで0から180度までの角度を含むことと、
    前記識別されたスピーカーと、前記サーチエリア内の任意のスピーカーチャネルとの間で平均コヒーレンス値を推定することと、
    前記平均コヒーレンス値に基づいて、一定のコヒーレンスエリアを決定し、
    最も大きいコヒーレンスエリアの2倍で拡散範囲を設定することと、
    前記拡散範囲に基づいて、前記コヒーレントパンニングパラメータを定義することと、
    を含む、請求項に記載の装置。
  6. 前記最も大きいコヒーレンスエリアに基づいて、前記コヒーレントパンニングパラメータを定義することは、
    前記少なくとも1つの方向パラメータに最も近いスピーカーを決定することと、
    前記スピーカーと、前記最も大きいコヒーレンスエリアの内側のすべてのスピーカーとの間で正規化されたコヒーレンスを決定することと、
    閾値エネルギーよりも低いエネルギーを有するスピーカーを省略することと、
    残りのスピーカーから最小のコヒーレンスを選択することと、
    前記残りのスピーカー間でエネルギー分配に基づいて、エネルギー分配パラメータを決定することと、
    前記コヒーレントパンニングパラメータを決定するために、前記エネルギー分配パラメータを最小のコヒーレンスに乗算することと、
    を含む、請求項に記載の装置。
  7. 前記ステレオネスパラメータを決定することは、
    前記少なくとも1つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定することと、
    前記識別されたスピーカーからの方向からサーチすることであって、リングでの各サーチが、一連の角度ステップで0から180度までの角度によって定義されることと、
    前記サーチリングから所定の角度以内に配置されたすべてのスピーカーについて、平均コヒーレンス値および平均エネルギー値を推定することと、
    前記平均コヒーレンス値および平均エネルギー値に基づいて、最も大きいコヒーレンスリング角度を決定することと、
    前記最も大きいコヒーレンスリング角度の2倍で拡散範囲を設定することと、
    前記拡散範囲に基づいて、前記ステレオネスパラメータを定義することと、
    を含む、請求項からのいずれかに記載の装置。
  8. 前記拡散範囲に基づいて、前記ステレオネスパラメータを定義することは、
    最も大きいコヒーレンスリング上で最も大きいエネルギーを有するスピーカーを識別することと、
    前記識別されたスピーカーと、前記最も大きいコヒーレンスリング上の他のスピーカーとの間で正規化されたコヒーレンスを決定することと、
    それぞれのエネルギーによって重み付けされる前記正規化されたコヒーレンスの平均値を求めることと、
    前記最も大きいコヒーレンスリング上のエネルギーおよび前記最も大きいコヒーレンスリングの内側のエネルギーの比を求めることと、
    前記ステレオネスパラメータを形成するために、エネルギーの前記比および正規化されたコヒーレンスの平均値を乗算することと、
    を含む、請求項に記載の装置。
  9. 方法であって、
    2つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために、少なくとも1つの空間オーディオパラメータを決定することと、
    前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのオーディオ信号関係パラメータを決定することと、
    を含み、
    前記少なくとも1つの空間オーディオパラメータは、少なくとも1つの方向パラメータと少なくとも1つのエネルギー比パラメータの少なくとも1つを含み、
    前記少なくとも1つのオーディオ信号関係パラメータは少なくとも1つのコヒーレンスパラメータに対応付けられており、前記少なくとも1つのコヒーレンスパラメータは、少なくとも2つの周波数帯域について、前記2つ以上のスピーカーチャネルオーディオ信号間で少なくとも1つのチャネル間コヒーレンス情報を提供し、それによって、前記少なくとも1つの空間オーディオパラメータおよび前記少なくとも1つのオーディオ信号関係パラメータに基づいて、前記2つ以上のスピーカーチャネルオーディオ信号が再生され、
    前記方法は更に、
    前記少なくとも1つの空間オーディオパラメータを送信すると共に、少なくとも1つの決定された値を使用して、前記少なくとも1つのチャネル間コヒーレンス情報に対応付けられた少なくとも1つの情報を送信すること、
    を含み、ここで前記少なくとも1つのチャネル間コヒーレンス情報に対応付けられた前記少なくとも1つの情報は、チャネル間コヒーレンスエリアの配向、幅、範囲の少なくとも1つを含む、方法。
  10. 前記2つ以上のスピーカーチャネルオーディオ信号が、前記少なくとも1つの空間オーディオパラメータと、前記少なくとも1つのコヒーレンスパラメータと、伝送オーディオ信号のいずれか1つ以上に基づいて再生されるように、前記2つ以上のスピーカーチャネルオーディオ信号から伝送オーディオ信号を決定することと、
    を含む、請求項に記載の方法。
  11. 前記2つ以上のスピーカーチャネルオーディオ信号間で前記少なくとも1つのコヒーレンスパラメータを決定することを含み、
    前記少なくとも1つのコヒーレンスパラメータを決定することは、拡散コヒーレンスパラメータを決定することを含み、
    前記拡散コヒーレンスパラメータは、識別されたスピーカーチャネルオーディオ信号に空間的に隣接する2つ以上のスピーカーチャネルオーディオ信号間でチャネル間コヒーレンス情報に基づいて決定され、
    前記識別されたスピーカーチャネルオーディオ信号は、前記少なくとも1つの空間オーディオパラメータに基づいて識別される、
    請求項9又は10に記載の方法。
  12. 前記拡散コヒーレンスパラメータを決定することは、
    前記2つ以上のスピーカーチャネルオーディオ信号は、少なくとも1つの方向パラメータに空間的に最も近い前記スピーカーチャネルオーディオ信号である前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する2つのスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すステレオネスパラメータを決定することと、
    前記2つ以上のスピーカーチャネルオーディオ信号が、前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する少なくとも2つ以上のスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すコヒーレントパンニングパラメータを決定することと、
    前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを生成することと
    含む、請求項11に記載の方法。
  13. 前記拡散コヒーレンスパラメータを生成することは、
    前記少なくとも1つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定することと、
    前記識別されたスピーカーからの方向からサーチすることであって、エリアでの各サーチが、一連の角度ステップで0から180度までの角度を含む、サーチすることと、
    前記識別されたスピーカーと、前記サーチエリア内の任意のスピーカーチャネルとの間で平均コヒーレンス値を推定することと、
    前記平均コヒーレンス値に基づいて、一定のコヒーレンスエリアを決定することと、
    最も大きいコヒーレンスエリアの2倍で拡散範囲を設定することと、
    前記拡散範囲に基づいて、前記コヒーレントパンニングパラメータを定義することと、をさらに含む、請求項12に記載の方法。
  14. 前記最も大きいコヒーレンスエリアに基づいて、前記コヒーレントパンニングパラメータを定義することは、
    前記少なくとも1つの方向パラメータに最も近いスピーカーを決定することと、
    前記スピーカーと、前記最も大きいコヒーレンスエリアの内側のすべてのスピーカーとの間で正規化されたコヒーレンスを決定することと、
    閾値エネルギーよりも低いエネルギーを有するスピーカーを省略することと、
    残りのスピーカーから最小のコヒーレンスを選択することと、
    前記残りのスピーカー間でエネルギー分配に基づいて、エネルギー分配パラメータを決定することと、
    前記コヒーレントパンニングパラメータを決定するために、前記エネルギー分配パラメータを最小のコヒーレンスに乗算することと、
    を含む、請求項13に記載の方法。
  15. 前記ステレオネスパラメータを決定することは、
    前記少なくとも1つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定することと、
    前記識別されたスピーカーからの方向からサーチすることであって、リングでの各サーチが、一連の角度ステップで0から180度までの角度によって定義されることと、
    前記サーチリングから所定の角度以内に配置されたすべてのスピーカーについて、平均コヒーレンス値および平均エネルギー値を推定することと、
    前記平均コヒーレンス値および平均エネルギー値に基づいて、最も大きいコヒーレンスリング角度を決定することと、
    前記最も大きいコヒーレンスリング角度の2倍で拡散範囲を設定することと、
    前記拡散範囲に基づいて、前記ステレオネスパラメータを定義することと、
    を含む、請求項12から14のいずれかに記載の方法。
  16. 前記拡散範囲に基づいて、前記ステレオネスパラメータを定義することは、
    最も大きいコヒーレンスリング上で最も大きいエネルギーを有するスピーカーを識別することと、
    前記識別されたスピーカーと、前記最も大きいコヒーレンスリング上の他のスピーカーとの間で正規化されたコヒーレンスを決定することと、
    それぞれのエネルギーによって重み付けされる前記正規化されたコヒーレンスの平均値を求めることと、
    前記最も大きいコヒーレンスリング上のエネルギーおよび前記最も大きいコヒーレンスリングの内側のエネルギーの比を求めることと、
    前記ステレオネスパラメータを形成するために、エネルギーの前記比および正規化されたコヒーレンスの平均値を乗算することと、
    を含む、請求項15に記載の方法。
  17. 処理手段及び記憶手段を備える装置であって、前記記憶手段はプログラム命令を格納し、前記プログラム命令は、前記処理手段に実行されると、前記装置に、請求項から16のいずれかに記載の方法を遂行させるように構成される、装置。
  18. 装置の処理手段に実行されると、前記装置に、請求項から16のいずれかに記載の方法を遂行させるように構成されるプログラム命令を備える、コンピュータプログラム。
JP2020566885A 2018-05-31 2019-05-29 空間オーディオパラメータのシグナリング Active JP7142109B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1808930.0A GB2574239A (en) 2018-05-31 2018-05-31 Signalling of spatial audio parameters
GB1808930.0 2018-05-31
PCT/FI2019/050412 WO2019229298A1 (en) 2018-05-31 2019-05-29 Signalling of spatial audio parameters

Publications (2)

Publication Number Publication Date
JP2021525392A JP2021525392A (ja) 2021-09-24
JP7142109B2 true JP7142109B2 (ja) 2022-09-26

Family

ID=62872740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020566885A Active JP7142109B2 (ja) 2018-05-31 2019-05-29 空間オーディオパラメータのシグナリング

Country Status (6)

Country Link
US (2) US11412336B2 (ja)
EP (1) EP3803857A4 (ja)
JP (1) JP7142109B2 (ja)
CN (1) CN112513980A (ja)
GB (1) GB2574239A (ja)
WO (1) WO2019229298A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
GB2590651A (en) 2019-12-23 2021-07-07 Nokia Technologies Oy Combining of spatial audio parameters
CN115472170A (zh) * 2021-06-11 2022-12-13 华为技术有限公司 一种三维音频信号的处理方法和装置
GB2615323A (en) * 2022-02-03 2023-08-09 Nokia Technologies Oy Apparatus, methods and computer programs for enabling rendering of spatial audio
GB2615607A (en) * 2022-02-15 2023-08-16 Nokia Technologies Oy Parametric spatial audio rendering

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007531915A (ja) 2004-04-05 2007-11-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ステレオコーディング及びデコーディングの方法及び装置
JP2009531735A (ja) 2006-03-28 2009-09-03 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0301273D0 (sv) * 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
US7961890B2 (en) * 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
KR100878371B1 (ko) * 2005-04-19 2009-01-15 돌비 스웨덴 에이비 공간적 오디오 파라미터들의 효율적인 부호화를 위한에너지 종속 양자화
KR100857106B1 (ko) 2005-09-14 2008-09-08 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 장치
WO2007080225A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
KR101218776B1 (ko) 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
US7965848B2 (en) 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
CN101518103B (zh) 2006-09-14 2016-03-23 皇家飞利浦电子股份有限公司 多通道信号的甜点操纵
AU2007312597B2 (en) * 2006-10-16 2011-04-14 Dolby International Ab Apparatus and method for multi -channel parameter transformation
UA94117C2 (ru) 2006-10-16 2011-04-11 Долби Свиден Ав Усовершенстованное кодирование и отображение параметров многоканального кодирования микшированных объектов
AU2008215232B2 (en) 2007-02-14 2010-02-25 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
EP2398257B1 (en) 2008-12-18 2017-05-10 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US8332229B2 (en) 2008-12-30 2012-12-11 Stmicroelectronics Asia Pacific Pte. Ltd. Low complexity MPEG encoding for surround sound recordings
WO2010149823A1 (en) 2009-06-23 2010-12-29 Nokia Corporation Method and apparatus for processing audio signals
US9042560B2 (en) * 2009-12-23 2015-05-26 Nokia Corporation Sparse audio
CN102859590B (zh) 2010-02-24 2015-08-19 弗劳恩霍夫应用研究促进协会 产生增强下混频信号的装置、产生增强下混频信号的方法以及计算机程序
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
JP6078556B2 (ja) * 2012-01-23 2017-02-08 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ・レンダリング・システムおよびそのための方法
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) * 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
EP2830048A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP3444815B1 (en) 2013-11-27 2020-01-08 DTS, Inc. Multiplet-based matrix mixing for high-channel count multichannel audio
US20170026901A1 (en) 2015-07-21 2017-01-26 Qualcomm Incorporated Neighbor aware network data link presence indication
FR3045915A1 (fr) * 2015-12-16 2017-06-23 Orange Traitement de reduction de canaux adaptatif pour le codage d'un signal audio multicanal
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
JP6770698B2 (ja) * 2016-03-28 2020-10-21 公立大学法人会津大学 スピーカから再生される音の定位化方法、及びこれに用いる音像定位化装置
GB2554446A (en) 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
GB2559765A (en) 2017-02-17 2018-08-22 Nokia Technologies Oy Two stage audio focus for spatial audio processing
CN108694955B (zh) * 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB2574239A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007531915A (ja) 2004-04-05 2007-11-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ステレオコーディング及びデコーディングの方法及び装置
JP2009531735A (ja) 2006-03-28 2009-09-03 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置

Also Published As

Publication number Publication date
WO2019229298A1 (en) 2019-12-05
US11832078B2 (en) 2023-11-28
GB2574239A (en) 2019-12-04
US20210219084A1 (en) 2021-07-15
US20220272475A1 (en) 2022-08-25
US11412336B2 (en) 2022-08-09
CN112513980A (zh) 2021-03-16
JP2021525392A (ja) 2021-09-24
EP3803857A1 (en) 2021-04-14
GB201808930D0 (en) 2018-07-18
EP3803857A4 (en) 2022-03-16

Similar Documents

Publication Publication Date Title
US20240007814A1 (en) Determination Of Targeted Spatial Audio Parameters And Associated Spatial Audio Playback
JP7142109B2 (ja) 空間オーディオパラメータのシグナリング
US11832080B2 (en) Spatial audio parameters and associated spatial audio playback
US9794721B2 (en) System and method for capturing, encoding, distributing, and decoding immersive audio
US11350213B2 (en) Spatial audio capture
US20220369061A1 (en) Spatial Audio Representation and Rendering
TWI745795B (zh) 使用低階、中階及高階分量產生器用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式
GB2576769A (en) Spatial parameter signalling
US20210250717A1 (en) Spatial audio Capture, Transmission and Reproduction
US20220174443A1 (en) Sound Field Related Rendering
JP7223872B2 (ja) 空間音声パラメータの重要度の決定および関連符号化
WO2022258876A1 (en) Parametric spatial audio rendering

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220912

R150 Certificate of patent or registration of utility model

Ref document number: 7142109

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150