JP7223872B2 - 空間音声パラメータの重要度の決定および関連符号化 - Google Patents

空間音声パラメータの重要度の決定および関連符号化 Download PDF

Info

Publication number
JP7223872B2
JP7223872B2 JP2021557812A JP2021557812A JP7223872B2 JP 7223872 B2 JP7223872 B2 JP 7223872B2 JP 2021557812 A JP2021557812 A JP 2021557812A JP 2021557812 A JP2021557812 A JP 2021557812A JP 7223872 B2 JP7223872 B2 JP 7223872B2
Authority
JP
Japan
Prior art keywords
sub
coherence
ambient
bands
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021557812A
Other languages
English (en)
Other versions
JP2022528660A (ja
Inventor
ミッコ-ヴィッレ ライティネン
アドリアナ ヴァシラケ
Original Assignee
ノキア テクノロジーズ オサケユイチア
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オサケユイチア filed Critical ノキア テクノロジーズ オサケユイチア
Publication of JP2022528660A publication Critical patent/JP2022528660A/ja
Application granted granted Critical
Publication of JP7223872B2 publication Critical patent/JP7223872B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本出願は、音声符号器および復号器のための時間周波数領域方向関連パラメータ符号化(time-frequency domain direction related parameter encoding)のための、ただしそれには限定されない、音場関連パラメータ符号化(sound-field related parameter encoding)のための装置および方法に関する。
パラメトリック空間音声処理(parametric spatial audio processing)は、音響の空間的側面がパラメータのセットを用いて記述される音声信号処理の技術分野である。例えば、マイクロフォンアレイからのパラメトリック空間音声取り込み(parametric spatial audio capture)においては、マイクロフォンアレイ信号から、周波数帯域内の音響の方向、および周波数帯域内の取り込まれた音響の指向性および無指向性部分の間の比などのパラメータのセットを推定することが、典型的で効果的な選定である。これらのパラメータは、マイクロフォンアレイの位置において取り込まれた音響の知覚的空間特性をうまく記述することが知られている。したがって、これらのパラメータは、バイノーラル方式によるヘッドフォンのための、ラウドスピーカのための、またはアンビソニックス(Ambisonics)などの他の形式への、空間音響の合成において利用することができる。
それゆえ、周波数帯域内の方向および指向性対総計エネルギー比は、空間音声取り込みのために特に有効となるパラメータ表現である。
周波数帯域内の方向パラメータおよび周波数帯域内のエネルギー比パラメータ(音響の指向性を指示する)から成るパラメータセットは、音声コーデックのための(周囲コヒーレンス(surround coherence)、拡散コヒーレンス(spread coherence)、方向数、距離等などの他のパラメータも含み得る)空間メタデータとして利用することもできる。例えば、これらのパラメータはマイクロフォンアレイによって取り込まれた音声信号から推定することができ、例えば、マイクロフォンアレイ信号から、空間メタデータを用いて伝達されるべきステレオまたはモノ信号が生成され得る。ステレオ信号は、例えば、AAC符号器を用いて符号化することができ、モノ信号はEVS符号器を用いて符号化することができるであろう。復号器は、音声信号をPCM信号に復号し、(空間メタデータを用いて)周波数帯域内の音響を処理し、空間出力、例えば、バイノーラル出力を得ることができる。
上述の解決策は、(例えば、携帯電話、VRカメラ、独立型マイクロフォンアレイ内の)マイクロフォンアレイから取り込まれた空間音響を符号化するために特に適している。しかし、このような符号器が、マイクロフォンアレイによって取り込まれた信号以外の入力形式、例えば、ラウドスピーカ信号、音声オブジェクト信号、またはアンビソニック信号も有することが望ましくなり得る。
空間メタデータ抽出のための1次アンビソニックス(first-order Ambisonics、FOA)入力の分析が、指向性音声符号化(Directional Audio Coding、DirAC)および調和平面波展開(Harmonic planewave expansion、Harpex)に関連する科学文献において完全に文書化されている。これは、FOA信号(より正確には、それの変形体、Bフォーマット信号)を直接提供するマイクロフォンアレイが存在し、それゆえ、このような入力を分析することが、当技術分野における研究の眼目になっているためである。
符号器のためのさらなる入力はまた、5.1または7.1チャンネルサラウンド入力などの、マルチチャンネルラウドスピーカ入力である。
しかし、空間メタデータのコンポーネントに関しては、空間音声パラメータを表現するために必要とされる全体的ビット数を最小化するために、コヒーレンスパラメータの圧縮および符号化に高い関心が寄せられている。
第1の態様によれば、空間音声符号化(spatial audio encoding)のための装置であって、1つまたは複数の音声信号のために、空間音声再生(spatial audio reproduction)を提供するためのサブ帯域ベースの空間音声パラメータを受信または決定するための手段であって、空間音声パラメータがフレームの複数のサブ帯域のサブ帯域ごとのコヒーレンス値を含む、手段と、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度(significance measure)を決定するための手段と、重要度尺度を用いて、フレームの複数のサブ帯域のコヒーレンス値を符号化するべきかどうかを決定するための手段と、を備える、装置が提供される。
装置は、複数のサブ帯域の各々のためのエネルギー比値(energy ratio value)を受信するための手段をさらに備え得、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定するための手段は、複数のサブ帯域の各々のためのコヒーレントな無指向性エネルギーの割合を決定するための手段であって、サブ帯域のためのコヒーレントな無指向性エネルギーの割合が、サブ帯域のための無指向性エネルギー比にサブ帯域のためのコヒーレンス値を乗算したものとして決定され、無指向性エネルギー比が、サブ帯域のためのエネルギー比値が除去された後に残ったサブ帯域内のエネルギーの比に関連する、手段、ならびに全ての複数のサブ帯域のために、コヒーレントな無指向性エネルギーの決定された割合を合計するための手段、を含み得る。
フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定するための手段は、サブ帯域ごとに、コヒーレントな無指向性エネルギーの割合に無指向性エネルギー比を乗算するための手段、全ての複数のサブ帯域のために、サブ帯域ごとの、コヒーレントな無指向性エネルギーの割合(proportion)と無指向性エネルギー比(non-directional energy ratio)との積(multiple)を合計するための手段、およびサブ帯域ごとの、コヒーレントな無指向性エネルギーの割合と無指向性エネルギー比との合計された積を、サブ帯域ごとの無指向性エネルギー比の合計によって正規化するための手段、をさらに含み得る。
フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度はフレームの複数のサブ帯域のコヒーレンス値のための第1の重要度尺度であり得る。
フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度はフレームの複数のサブ帯域のコヒーレンス値のための第2の重要度尺度であり得る。
フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定するための手段は、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を第1の重要度尺度および第2の重要度尺度のうちの最大値として決定するための手段を含み得る。
重要度尺度を用いて、フレームの複数のサブ帯域のコヒーレンス値を符号化するべきかどうかを決定するための手段は、重要度尺度を閾値と比較するための手段、および重要度尺度が閾値を超えたときに、フレームの複数のサブ帯域のコヒーレンス値を符号化するための手段、を含み得る。
複数のサブ帯域の各々のためのコヒーレンス値は周囲コヒーレンス値であり得、周囲コヒーレンス値は2つ以上のチャンネル音声信号の間のチャンネル間コヒーレンスに基づいて決定され得る。
複数のサブ帯域の各々のための周囲コヒーレンス値は、装置が、2つ以上のチャンネル音声信号に関連付けられた共分散行列(covariance matrix)を計算すること、共分散行列に基づいて決定された最も大きいエネルギーを有するチャンネル音声信号、および他のチャンネル音声信号のサブセットを監視することであって、サブセットが、1つ~次に大きいエネルギーを有するチャンネル音声信号の総数より1つ少ないものの間で決定された数である、監視すること、ならびに最も大きいエネルギーを有するチャンネル音声信号と、次に大きいエネルギーのチャンネル音声信号の各々との間で決定された正規化コヒーレンスのうちの最小値を選択することに基づいて周囲共分散パラメータ(surrounding covariance parameter)を生成すること、を行うための手段を備えることによって決定され得る。
サブ帯域の各々のためのエネルギー比値はサブ帯域の各々のための指向性対総計エネルギー比値であり得る。
サブ帯域のための無指向性エネルギー比は、1からサブ帯域のための指向性対総計エネルギー比を引いたものとして決定される。
第2の態様によれば、空間音声符号化のための方法であって、1つまたは複数の音声信号のために、空間音声再生を提供するためのサブ帯域ベースの空間音声パラメータを受信または決定することであって、空間音声パラメータがフレームの複数のサブ帯域のサブ帯域ごとのコヒーレンス値を含む、受信または決定することと、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定することと、重要度尺度を用いて、フレームの複数のサブ帯域のコヒーレンス値を符号化するべきかどうかを決定することと、を含む、方法がある。
本方法は、複数のサブ帯域の各々のためのエネルギー比値を受信することをさらに含み得、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定するための手段は、複数のサブ帯域の各々のためのコヒーレントな無指向性エネルギーの割合を決定することであって、サブ帯域のためのコヒーレントな無指向性エネルギーの割合が、サブ帯域のための無指向性エネルギー比にサブ帯域のためのコヒーレンス値を乗算したものとして決定され、無指向性エネルギー比が、サブ帯域のためのエネルギー比値が除去された後に残ったサブ帯域内のエネルギーの比に関連する、決定すること、ならびに全ての複数のサブ帯域のために、コヒーレントな無指向性エネルギーの決定された割合を合計すること、を含み得る。
フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定することは、サブ帯域ごとに、コヒーレントな無指向性エネルギーの割合に無指向性エネルギー比を乗算すること、全ての複数のサブ帯域のために、サブ帯域ごとの、コヒーレントな無指向性エネルギーの割合と無指向性エネルギー比との積を合計すること、およびサブ帯域ごとの、コヒーレントな無指向性エネルギーの割合と無指向性エネルギー比との合計された積を、サブ帯域ごとの無指向性エネルギー比の合計によって正規化すること、をさらに含み得る。
フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度はフレームの複数のサブ帯域のコヒーレンス値のための第1の重要度尺度であり得る。
フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度はフレームの複数のサブ帯域のコヒーレンス値のための第2の重要度尺度であり得る。
フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定することは、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を第1の重要度尺度および第2の重要度尺度のうちの最大値として決定することを含み得る。
重要度尺度を用いて、フレームの複数のサブ帯域のコヒーレンス値を符号化するべきかどうかを決定することは、重要度尺度を閾値と比較すること、および重要度尺度が閾値を超えたときに、フレームの複数のサブ帯域のコヒーレンス値を符号化すること、を含み得る。
複数のサブ帯域の各々のためのコヒーレンス値は周囲コヒーレンス値であり得、周囲コヒーレンス値は2つ以上のチャンネル音声信号の間のチャンネル間コヒーレンスに基づいて決定され得る。
複数のサブ帯域の各々のための周囲コヒーレンス値は、装置が、2つ以上のチャンネル音声信号に関連付けられた共分散行列を計算すること、共分散行列に基づいて決定された最も大きいエネルギーを有するチャンネル音声信号、および他のチャンネル音声信号のサブセットを監視することであって、サブセットが、1つ~次に大きいエネルギーを有するチャンネル音声信号の総数より1つ少ないものの間で決定された数である、監視すること、ならびに最も大きいエネルギーを有するチャンネル音声信号と、次に大きいエネルギーのチャンネル音声信号の各々との間で決定された正規化コヒーレンスのうちの最小値を選択することに基づいて周囲共分散パラメータを生成すること、を含むことによって決定され得る。
サブ帯域の各々のためのエネルギー比値はサブ帯域の各々のための指向性対総計エネルギー比値であり得る。
サブ帯域のための無指向性エネルギー比は、1からサブ帯域のための指向性対総計エネルギー比を引いたものとして決定され得る。
第3の態様によれば、空間音声符号化のための装置であって、装置が、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備え、少なくとも1つのメモリおよびコンピュータコードが、1つまたは複数の音声信号のために、空間音声再生を提供するためのサブ帯域ベースの空間音声パラメータを受信または決定することであって、空間音声パラメータがフレームの複数のサブ帯域のサブ帯域ごとのコヒーレンス値を含む、受信または決定することと、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定することと、重要度尺度を用いて、フレームの複数のサブ帯域のコヒーレンス値を符号化するべきかどうかを決定することと、を行うように構成されている、装置が提供される。
装置は、さらに、複数のサブ帯域の各々のためのエネルギー比値を受信させられ得、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定させられる装置は、複数のサブ帯域の各々のためのコヒーレントな無指向性エネルギーの割合を決定することであって、サブ帯域のためのコヒーレントな無指向性エネルギーの割合が、サブ帯域のための無指向性エネルギー比にサブ帯域のためのコヒーレンス値を乗算したものとして決定され、無指向性エネルギー比が、サブ帯域のためのエネルギー比値が除去された後に残ったサブ帯域内のエネルギーの比に関連する、決定すること、ならびに全ての複数のサブ帯域のために、コヒーレントな無指向性エネルギーの決定された割合を合計すること、を行わせられ得る。
フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定させられる装置は、サブ帯域ごとに、コヒーレントな無指向性エネルギーの割合に無指向性エネルギー比を乗算すること、全ての複数のサブ帯域のために、サブ帯域ごとの、コヒーレントな無指向性エネルギーの割合と無指向性エネルギー比との積を合計すること、およびサブ帯域ごとの、コヒーレントな無指向性エネルギーの割合と無指向性エネルギー比との合計された積を、サブ帯域ごとの無指向性エネルギー比の合計によって正規化すること、をさらに行わせられ得る。
フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度はフレームの複数のサブ帯域のコヒーレンス値のための第1の重要度尺度であり得る。
フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度はフレームの複数のサブ帯域のコヒーレンス値のための第2の重要度尺度であり得る。
フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を決定させられる装置は、フレームの複数のサブ帯域のコヒーレンス値のための重要度尺度を第1の重要度尺度および第2の重要度尺度のうちの最大値として決定させられ得る。
重要度尺度を用いて、フレームの複数のサブ帯域のコヒーレンス値を符号化するべきかどうかを決定させられる装置は、重要度尺度を閾値と比較すること、および重要度尺度が閾値を超えたときに、フレームの複数のサブ帯域のコヒーレンス値を符号化すること、を行わせられ得る。
複数のサブ帯域の各々のためのコヒーレンス値は周囲コヒーレンス値であり得、周囲コヒーレンス値は2つ以上のチャンネル音声信号の間のチャンネル間コヒーレンスに基づいて決定され得る。
複数のサブ帯域の各々のための周囲コヒーレンス値は、装置が、2つ以上のチャンネル音声信号に関連付けられた共分散行列を計算すること、共分散行列に基づいて決定された最も大きいエネルギーを有するチャンネル音声信号、および他のチャンネル音声信号のサブセットを監視することであって、サブセットが、1つ~次に大きいエネルギーを有するチャンネル音声信号の総数より1つ少ないものの間で決定された数である、監視すること、ならびに最も大きいエネルギーを有するチャンネル音声信号と、次に大きいエネルギーのチャンネル音声信号の各々との間で決定された正規化コヒーレンスのうちの最小値を選択することに基づいて周囲共分散パラメータを生成すること、を行わせられることによって決定され得る。
サブ帯域の各々のためのエネルギー比値はサブ帯域の各々のための指向性対総計エネルギー比値であり得る。
サブ帯域のための無指向性エネルギー比は、1からサブ帯域のための指向性対総計エネルギー比を引いたものとして決定され得る。
コンピュータに、上述されたとおりの方法を遂行させるためのプログラム命令を含むコンピュータプログラム。
媒体上に記憶されたコンピュータプログラム製品が、装置に、本明細書において説明されるとおりの方法を遂行させ得る。
電子デバイスが、本明細書において説明されるとおりの装置を備え得る。
チップセットが、本明細書において説明されるとおりの装置を備え得る。
本出願の実施形態は、現況技術に付随する問題に対処することを目的とする。
本出願のより深い理解のために、次に、添付の図面を例として参照する。
いくつかの実施形態を実施するために適した装置のシステムを概略的に示す図である。 いくつかの実施形態に係るメタデータ符号器を概略的に示す図である。 いくつかの実施形態に係る図2に示されるとおりのメタデータ符号器の動作のフロー図を示す。 いくつかの実施形態に係る図2に示されるとおりのコヒーレンス符号器を概略的に示す図である。 いくつかの実施形態に係る図4に示されるとおりのコヒーレンス値重要度決定器の動作のフロー図を示す。 いくつかの実施形態に係る図4に最初に示されるコヒーレンス値符号化決定器の動作のフロー図を示す。 示される装置を実施するために適した例示的なデバイスを概略的に示す図である。
以下のことは、効果的な空間分析導出メタデータパラメータの提供のために適した装置および可能な機構をさらに詳細に説明する。以下の説明において、マルチチャンネルシステムはマルチチャンネルマイクロフォンの実装形態に関して説明される。しかし、上述されたように、入力形式は、マルチチャンネルラウドスピーカ、アンビソニック(FOA/HOA)等などの、任意の好適な入力形式であり得る。実施形態によっては、チャンネルの場所はマイクロフォンの場所に基づくか、または仮想的な場所もしくは方向であることが理解される。さらに、例示的なシステムの出力はマルチチャンネルラウドスピーカ構成である。しかし、出力はラウドスピーカ以外の手段を介してユーザにレンダリングされてもよいことが理解される。さらに、マルチチャンネルラウドスピーカ信号は2つ以上の再生音声信号に一般化されてもよい。
メタデータは、少なくとも、考慮される時間周波数(time-frequency、TF)ブロックまたはタイル、換言すれば、時間/周波数サブ帯域ごとの、方向(仰角、方位角)、結果として生じる方向のエネルギー比、および方向と無関係な周囲コヒーレンスから成る。加えて、拡散コヒーレンスがTFブロックごとに決定され、含まれ得る。このデータは全て、復号器において空間信号を再構築することができるようにするために符号器によって符号化され、伝送される(または記憶される)。
コーデックの典型的な全体的動作ビットレートは2~10kbpsを空間メタデータの伝送/記憶のために残し得る。しかし、いくつかのさらなる実装形態は最大20kpsを空間メタデータの伝送/記憶のために可能にし得る。方向パラメータおよびエネルギー比コンポーネントの符号化は以前に吟味された。しかし、コヒーレンスデータの符号化は、空間メタデータを符号化するために必要な全体的動作ビットレートを最小化するために、さらなる研究を必要とする。
以下において説明されるとおりのコンセプトは、時間周波数ブロックごとにコヒーレンスパラメータを方向およびエネルギー比パラメータと共に符号化することである。特定のシナリオでは、フレームのためのコヒーレンスパラメータの符号化を、聴取者に対するそれらの主観的重要度に従って調節することが可能であり得る。例えば、音声フレームのために、サブ帯域ごとのコヒーレンスパラメータは周囲のサブ帯域に関して主観的重要度を与え得ないと決定され得る。このような場合には、フレームのためのコヒーレンスパラメータを符号化しないことによって動作ビットレートの節約を達成することができる。
したがって、本発明は、特定の状況のために、コヒーレンスパラメータを符号化するために用いられるビット数の全体的な節約の考慮から由来する。これは、周囲のサブ帯域に対する各サブ帯域のコヒーレンス値の主観的重要度の指示を提供するであろう尺度を有し、尺度の結果を用いて、コヒーレンスパラメータがフレームのために符号化されるべきかどうかを決定することによって達成され得る。
この点に関して、図1は、本出願の実施形態を実施するための装置およびシステムを示し、示される。システム100は、「分析」部分121および「合成」部分131を有するように示されている。「分析」部分121は、マルチチャンネルラウドスピーカ信号の受信から、メタデータおよびダウンミックス信号の符号化までの部分であり、「合成」部分131は、符号化されたメタデータおよびダウンミックス信号の復号から、(例えば、マルチチャンネルラウドスピーカの形態の)再生された信号の提示までの部分である。
システム100および「分析」部分121への入力はマルチチャンネル信号102である。以下の例では、マイクロフォンチャンネル信号入力が説明されているが、他の実施形態では、任意の好適な入力(または合成マルチチャンネル)形式が実施され得る。例えば、実施形態によっては、空間分析器および空間分析は符号器の外部で実施されてもよい。例えば、実施形態によっては、音声信号に関連付けられた空間メタデータは別個のビットストリームとして符号器に提供されてもよい。実施形態によっては、空間メタデータは空間(方向)指数値のセットとして提供されてもよい。
マルチチャンネル信号は、移送信号生成器103および分析プロセッサ105に渡される。
実施形態によっては、移送信号生成器103は、マルチチャンネル信号を受信し、規定数のチャンネルを含む好適な移送信号を生成し、移送信号104を出力するように構成されている。例えば、移送信号生成器103は、マルチチャンネル信号の2音声チャンネルダウンミックスを生成するように構成され得る。規定数のチャンネルは任意の好適な数のチャンネルであり得る。移送信号生成器は、実施形態によっては、さもなければ、入力音声信号を規定数のチャンネルに選択するか、または、例えば、ビームフォーミング技法によって、組み合わせ、これらを移送信号として出力するように構成されている。
実施形態によっては、移送信号生成器103は任意選択的なものであり、マルチチャンネル信号は、処理されずに、本例では移送信号と同じ仕方で符号器107に渡される。
実施形態によっては、分析プロセッサ105はまた、マルチチャンネル信号を受信し、信号を分析し、マルチチャンネル信号に関連付けられた、およびそれゆえ、移送信号104に関連付けられたメタデータ106を作成するように構成されている。分析プロセッサ105は、時間周波数分析間隔ごとに、方向パラメータ108、およびエネルギー比パラメータ110、およびコヒーレンスパラメータ112(および実施形態によっては、拡散性パラメータ)を含み得るメタデータを生成するように構成され得る。方向、エネルギー比、およびコヒーレンスパラメータは、実施形態によっては、空間音声パラメータであると考えられてもよい。換言すれば、空間音声パラメータは、マルチチャンネル信号(または一般的に2つ以上の再生音声信号)によって作り出される音場を特徴付けることを目的とするパラメータを含む。
実施形態によっては、生成されるパラメータは周波数帯域ごとに異なってもよい。それゆえ、例えば、帯域Xでは、パラメータの全てが生成および伝送され、それに対して、帯域Yでは、パラメータのうちの1つのみが生成および伝送され、さらに、帯域Zでは、パラメータが生成または伝送されない。これの実例は、最も高い帯域などのいくつかの周波数帯域については、知覚的理由のためにパラメータが必要とされないことであり得る。移送信号104およびメタデータ106は符号器107に渡され得る。
符号器107は、移送(例えば、ダウンミックス)信号104を受信し、これらの音声信号の好適な符号化を生成するように構成された音声符号器コア109を含み得る。符号器107は、実施形態によっては、(メモリ上、および少なくとも1つのプロセッサ上に記憶された好適なソフトウェアを実行する)コンピュータ、あるいは代替的に、例えば、FPGAまたはASICを利用する特定のデバイスであることができる。符号化は任意の好適な方式を用いて実施され得る。符号器107は、メタデータを受信し、情報の符号化または圧縮された形態を出力するように構成されたメタデータ符号器/量子化器111をさらに含み得る。実施形態によっては、符号器107は、メタデータを、図1において破線によって示される伝送または記憶の前に、さらにインタリーブするか、単一のデータストリームに多重化するか、または符号化されたダウンミックス信号内に埋め込んでもよい。多重化は任意の好適な方式を用いて実施され得る。
復号器側において、受信または取得されたデータ(ストリーム)は復号器/デマルチプレクサ133によって受信され得る。復号器/デマルチプレクサ133は、符号化されたストリームを多重分離し、音声符号化されたストリームを、音声信号を復号し、移送信号を得るように構成された移送抽出器135に渡し得る。同様に、復号器/デマルチプレクサ133は、符号化されたメタデータを受信し、メタデータを生成するように構成されたメタデータ抽出器137を含み得る。復号器/デマルチプレクサ133は、実施形態によっては、(メモリ上、および少なくとも1つのプロセッサ上に記憶された好適なソフトウェアを実行する)コンピュータ、あるいは代替的に、例えば、FPGAまたはASICを利用する特定のデバイスであることができる。
復号されたメタデータおよび移送音声信号は合成プロセッサ139に渡され得る。
システム100の「合成」部分131は、移送およびメタデータを受信し、移送信号およびメタデータに基づいて、マルチチャンネル信号110(これらは、マルチチャンネルラウドスピーカ形式、または実施形態によっては、使用事例に応じた、バイノーラルもしくはアンビソニックス信号などの任意の好適な出力形式であり得る)の形態の合成空間音声を任意の好適な形式で再現するように構成された合成プロセッサ139をさらに示す。
したがって、要約すると、まず、システム(分析部分)は、マルチチャンネル音声信号を受信するように構成されている。
次に、システム(分析部分)は、(例えば、音声信号チャンネルのうちのいくつかを選択またはダウンミックスすることによって)好適な移送音声信号を生成するように構成されている。
次に、システムは、移送信号およびメタデータを記憶/伝送のために符号化するように構成されている。
この後に、システムは、符号化された移送およびメタデータを記憶/伝送し得る。
システムは、符号化された移送およびメタデータを取得/受信し得る。
次に、システムは、符号化された移送およびメタデータパラメータから移送およびメタデータを抽出する、例えば、符号化された移送およびメタデータパラメータを多重分離し、復号するように構成されている。
システム(合成部分)は、抽出された移送音声信号およびメタデータに基づいて出力マルチチャンネル音声信号を合成するように構成されている。
図2に関して、いくつかの実施形態に係る(図1に示されるとおりの)例示的な分析プロセッサ105およびメタデータ符号器/量子化器111がさらに詳細に説明される。
分析プロセッサ105は、実施形態によっては、時間周波数領域変換器201を含む。
実施形態によっては、時間周波数領域変換器201は、マルチチャンネル信号102を受信し、入力時間領域信号を好適な時間周波数信号に変換するために短時間フーリエ変換(Short Time Fourier Transform、STFT)などの好適な時間-周波数領域変換を適用するように構成されている。これらの時間周波数信号は空間分析器203に渡され得る。
それゆえ、例えば、時間周波数信号202は次式によって時間周波数領域表現の形で表現され得る。
i(b,n),
ここで、bは周波数ビン指数であり、nは時間周波数ブロック(フレーム)指数であり、iはチャンネル指数である。別の式では、nは、元の時間領域信号のものよりも低いサンプリング速度を有する時間指数として考慮することができる。これらの周波数ビンは、ビンのうちの1つまたは複数を帯域指数k=0,…,K-1のサブ帯域にグループ化するサブ帯域にグループ化され得る。各サブ帯域kは最も低いビンbk,lowおよび最も高いビンbk,highを有し、サブ帯域はbk,low~bk,highの全てのビンを包含する。サブ帯域の幅は任意の好適な分布を近似することができる。例えば、等価矩形帯域幅(Equivalent rectangular bandwidth、ERB)尺度またはバーク尺度である。
実施形態によっては、分析プロセッサ105は空間分析器203を含む。空間分析器203は、時間周波数信号202を受信し、これらの信号に基づいて方向パラメータ108を推定するように構成され得る。方向パラメータは、任意の音声ベースの「方向」決定に基づいて決定され得る。
例えば、実施形態によっては、空間分析器203は、2つ以上の信号入力を用いて方向を推定するように構成されている。これは、「方向」を推定するための最も単純な構成を表し、さらにより多くの信号を用いてより複雑な処理が遂行されてもよい。
それゆえ、空間分析器203は、方位角φ(k,n)および仰角θ(k,n)と表される、音声信号のフレーム内の周波数帯域および時間的時間周波数ブロックごとの少なくとも1つの方位角および仰角を提供するように構成され得る。方向パラメータ108はまた、方向符号器205に渡され得る。
空間分析器203はまた、エネルギー比パラメータ110を決定するように構成され得る。エネルギー比は、ある方向から到来すると考えることができる音声信号のエネルギーの決定であると考えられ得る。指向性対総計エネルギー比r(k,n)は、例えば、指向性推定の安定性尺度を用いて、あるいは任意の相関尺度、または比パラメータを得るための任意の他の好適な方法を用いて推定することができる。各指向性対総計エネルギー比は特定の空間方向に対応し、総エネルギーと比べてエネルギーのうちのどれほどが特定の空間方向からやって来るのかを記述する。この値はまた、時間周波数タイルごとに別個に表現され得る。空間方向パラメータおよび指向性対総計エネルギー比は、時間周波数タイルごとの総エネルギーのうちのどれほどが特定の方向からやって来ているのかを記述する。概して、空間方向パラメータは到来方向(direction of arrival、DOA)と考えることもできる。
実施形態では、指向性対総計エネルギー比パラメータは、帯域kにおけるマイクロフォン対の間の正規化相互相関パラメータcor’(k,n)に基づいて推定することができ、相互相関パラメータの値は-1~1の間にある。方向対エネルギー比パラメータr(k,n)は、正規化相互相関パラメータを拡散場正規化相互相関パラメータcorD’(k,n)と比較することによって、
Figure 0007223872000001
として決定することができる。指向性対総計エネルギー比は、本明細書において参照により組み込まれているPCT国際公開第2017/005978号においてさらに説明されている。
エネルギー比はエネルギー比符号器207に渡され得る。
空間分析器203は、両方とも時間周波数領域において分析される、周囲コヒーレンス(γ(k,n))および拡散コヒーレンス(ζ(k,n))を含み得る多数のコヒーレンスパラメータ112を決定するようにさらに構成され得る。
上述のコヒーレンス事項のパラメータの各々が次に説明される。全ての処理は時間周波数領域において遂行され、このため、時間周波数指数kおよびnは、簡潔にするために必要な場合には落とされる。
まず、単一のラウドスピーカの代わりに、2つの離間されたラウドスピーカ(例えば、フロント左および右)を用いて音響がコヒーレントに再生される状況を考える。コヒーレンス分析器は、このような方法がサラウンドミキシングにおいて適用されたことを検出するように構成され得る。
実施形態によっては、したがって、空間分析器203は、1つまたは複数の時間指数nおよび周波数ビンbから成る所与の分析間隔のための共分散行列Cを算出するように構成され得る。行列のサイズはNL x NLであり、成分はcijと表される。ここで、NLはラウドスピーカチャンネルの数であり、iおよびjはラウドスピーカチャンネル指数である。
次に、空間分析器203は、推定された方向(本例では方位角θである)に最も近いラウドスピーカチャンネルicを決定するように構成され得る。
c=arg(min(|θ-αi|))
ここで、αiはラウドスピーカiの角度である。
さらに、このような実施形態では、空間分析器203は、ラウドスピーカicの左ilおよび右ir側の最も近いラウドスピーカを決定するように構成されている。
ラウドスピーカiおよびjの間の正規化コヒーレンスは、
Figure 0007223872000002
と表され、この等式を用いて、空間分析器203は、ilおよびirの間の正規化コヒーレンスc’lrを算出するように構成され得る。換言すれば、次式を算出する。
Figure 0007223872000003
さらに、空間分析器203は、共分散行列の対角成分を用いてラウドスピーカチャンネルiのエネルギー
i=cii
を決定し、ilおよびirラウドスピーカならびにil、irおよびicラウドスピーカのエネルギーの間の比を
Figure 0007223872000004
として決定するように構成され得る。
次に、空間分析器203は、これらの決定された変数を用いて「立体性」パラメータ
μ=c’lrξlr/lrc
を生成し得る。
この「立体性」パラメータは0~1の値を有する。1の値は、ラウドスピーカilおよびirにおいてコヒーレントな音響が存在し、この音響がこのセクタのエネルギーを支配することを意味する。このことの理由は、例えば、ラウドスピーカミックスが、音響の「エアリーな(airy)」知覚を作り出すために振幅パンニング技法を用いたことであり得るであろう。0の値は、このような技法が適用されておらず、例えば、音響が、単に最も近いラウドスピーカに位置付けられ得ることを意味する。
さらに、空間分析器203は、「接近(close)」知覚を作り出すために3つの(またはより多数の)ラウドスピーカを用いて(例えば、中心のみの代わりに、フロント左、右および中心を用いる)、音響がコヒーレントに再生される状況を検出するか、または少なくとも特定するように構成され得る。これは、サウンドミキシングエンジニアが、マルチチャンネルラウドスピーカミックスをサラウンドミキシングする際にこのような状況を作るためであり得る。
このような実施形態では、先に識別された同じラウドスピーカil、irおよびicが、コヒーレンス分析器によって、上述された正規化コヒーレンスの決定を用いて正規化コヒーレンス値c’clおよびc’crを決定するために用いられる。換言すれば、以下の値が計算される:
Figure 0007223872000005
次に、空間分析器203は、次式を用いてこれらのラウドスピーカの間のコヒーレンスを表す正規化コヒーレンス値c’clrを決定し得る:
c’clr=min(c’cl,c’cr)。
加えて、空間分析器203は、エネルギーがチャンネルil、irおよびicの間でどれほど均等に分布しているのかを表すパラメータを決定するように構成され得る。
Figure 0007223872000006
これらの変数を用いて、空間分析器203は新たなコヒーレントパンニングパラメータκを、
κ=c’clrξclr
として決定し得る。
このコヒーレントパンニングパラメータκは0~1の値を有する。1の値は、全てのラウドスピーカil、ir、およびicにおいてコヒーレントな音響が存在し、この音響のエネルギーがこれらのラウドスピーカの間で均等に分布していることを意味する。このことの理由は、例えば、ラウドスピーカミックスが、音源がより近くにある知覚を作り出すためにスタジオミキシング技法を用いて生成されたためであり得るであろう。0の値は、このような技法が適用されておらず、例えば、音響が、単に最も近いラウドスピーカに位置付けられ得ることを意味する。
空間分析器203は、(icではなく)ilおよびirにおけるコヒーレントな音響の量を測定する「立体性」パラメータμ、ならびに全てのil、ir、およびicにおけるコヒーレントな音響の量を測定するコヒーレントパンニングパラメータκを決定し、これらを用いて、メタデータとして出力されるべきコヒーレンスパラメータを決定するように構成されている。
それゆえ、空間分析器203は、「立体性」パラメータμおよびコヒーレントパンニングパラメータκを組み合わせ、0~1の値を有する、拡散コヒーレンスζパラメータを形成するように構成されている。0の拡散コヒーレンスζ値は点源を表し、換言すれば、音響は、できるだけ少数のラウドスピーカを用いて(例えば、ラウドスピーカicのみを用いて)再生されるべきである。拡散コヒーレンスζの値が増大するにつれて、値0.5において、エネルギーがラウドスピーカil、ir、およびicの間で均等に拡散されるまで、より多くのエネルギーがラウドスピーカicの周りのラウドスピーカへ拡散される。拡散コヒーレンスζの値が0.5を超えて増大するにつれて、値1において、ラウドスピーカicにおけるエネルギーがなくなり、全てのエネルギーがラウドスピーカilおよびirにあるようになるまで、ラウドスピーカicにおけるエネルギーは減少させられる。
上述のパラメータμおよびκを用いて、空間分析器203は、実施形態によっては、次式を用いて拡散コヒーレンスパラメータζを決定するように構成されている:
Figure 0007223872000007
上式は単なる例にすぎず、空間分析器203は拡散コヒーレンスパラメータζを、それがパラメータの上述の定義に適合する限り、任意の他の仕方で推定し得ることに留意されたい。
先の状況を検出するように構成されているのみならず、空間分析器203は、「頭の内側」または「上方」の知覚を作り出すために全ての(またはほぼ全ての)ラウドスピーカから音響がコヒーレントに再生される状況を検出するか、または少なくとも特定するように構成され得る。
実施形態によっては、空間分析器203は、エネルギーEi、および決定された最も大きい値を有するラウドスピーカチャンネルieを選別するように構成され得る。
次に、空間分析器203は、このチャンネルとML個の他の最も音量が大きいチャンネルとの間の正規化コヒーレンスc’ijを決定するように構成され得る。このチャンネルとML個の他の最も音量が大きいチャンネルとの間のこれらの正規化コヒーレンスc’ij値は、その後、監視され得る。実施形態によっては、MLはNL-1であってもよく、これは、最も音量が大きいものと全ての他のラウドスピーカチャンネルとの間のコヒーレンスを監視することを意味するであろう。しかし、実施形態によっては、MLはより小さい数、例えば、NL-2であってもよい。これらの正規化コヒーレンス値を用いて、コヒーレンス分析器は、次式を用いて周囲コヒーレンスパラメータγを決定するように構成され得る:
Figure 0007223872000008
ここで、
Figure 0007223872000009
は、最も音量が大きいチャンネルとML個の次に音量が大きいチャンネルとの間の正規化コヒーレンスである。
周囲コヒーレンスパラメータγは0~1の値を有する。1の値は、全ての(またはほぼ全ての)ラウドスピーカチャンネルの間にコヒーレンスが存在することを意味する。0の値は、全ての(またはさらには、ほぼ全ての)ラウドスピーカチャンネルの間にコヒーレンスが存在しないことを意味する。
上式は周囲コヒーレンスパラメータγのための推定の単なる一例にすぎず、それがパラメータの上述の定義に適合する限り、任意の他の仕方を用いることができる。
これに続いて、分析プロセッサ203は方向分析を適用し、方向およびエネルギー比パラメータを決定し得る。
次に、分析プロセッサ203は、決定されたパラメータを出力するように構成され得る。
方向、エネルギー比、およびコヒーレンスパラメータは、ここでは、時間指数nごとに表されるが、実施形態によっては、パラメータはいくつかの時間指数にわたって集約されてもよい。同じことが周波数軸について当てはまり、表されているように、いくつかの周波数ビンbの方向は、いくつかの周波数ビンbから成る帯域kにおける1つの方向パラメータによって表すことができるであろう。同じことが、本明細書において説明される空間パラメータの全てについて当てはまる。
実施形態によっては、方向データは16個のビットを用いて表現され得る。このような実施形態では、エネルギー比パラメータは8つのビットを使って表現され得る。フレームごとに、5つのサブ帯域および4つの時間周波数(TF)ブロックが存在し得る。それゆえ、本例では、フレームごとに圧縮されていない方向およびエネルギー比メタデータを記憶するために必要とされる(16+8)x4x5個のビットが存在する。TFブロックごとのコヒーレンスデータは0~1の表現であってもよく、元々8つのビットを使って表現されてもよい。
同様に図2に示されるように、いくつかの実施形態に係る例示的なメタデータ符号器/量子化器111が示されている。
メタデータ符号器/量子化器111は方向符号器205を含み得る。方向符号器205は、(方位角φ(k,n)および仰角θ(k,n)などの方向パラメータ108(ならびに実施形態によっては、予想されるビット割り当て)を受信し、これから、好適な符号化された出力を生成するように構成されている。実施形態によっては、符号化は、決定された量子化分解能によって規定されたルックアップテーブルによって規定された「表面」球面上の円環内に配列された球面格子を形成する球面の配列に基づく。換言すれば、球面格子は、球面をより小さい球面で覆い、より小さい球面の中心を、ほぼ等距離の方向の格子を規定する点と考えるという思想を用いる。したがって、より小さい球面は、任意の好適な指数付けアルゴリズムに従って指数付けすることができる中心点の周りの円錐または立体角を規定する。ここでは球面量子化が説明されているが、線形または非線形の、任意の好適な量子化が用いられ得る。
さらに、実施形態によっては、方向符号器205は、方位角パラメータ値の分散を決定し、これをコヒーレンス符号器209に渡すように構成されている。
次に、符号化された方向パラメータはコンバイナ211に渡され得る。
メタデータ符号器/量子化器111はエネルギー比符号器207を含み得る。エネルギー比符号器207は、エネルギー比を受信し、エネルギー比をサブ帯域および時間周波数ブロックのために圧縮するために適した符号化を決定するように構成されている。例えば、実施形態によっては、エネルギー比符号器207は、各エネルギー比パラメータ値を符号化するために3ビットを用いるように構成されている。
さらに、実施形態によっては、全てのエネルギー比値を全てのTFブロックのために伝送または記憶するのではなく、サブ帯域ごとに1つの重み付き平均値のみが伝送または記憶される。平均は、各時間ブロックの総エネルギーを考慮することによって決定され得、それゆえ、より多くのエネルギーを有するサブ帯域の値を支持する。
このような実施形態では、量子化されたエネルギー比値は所与のサブ帯域の全てのTFブロックについて同じである。
実施形態によっては、エネルギー比符号器207は、量子化された(符号化された)エネルギー比値を、コンバイナ211およびコヒーレンス符号器209に渡すようにさらに構成されている。
メタデータ符号器/量子化器111はコヒーレンス符号器209を含み得る。コヒーレンス符号器209は、コヒーレンス値を受信し、コヒーレンス値をサブ帯域および時間周波数ブロックのために圧縮するために適した符号化を決定するように構成されている。コヒーレンスパラメータ値のための3ビット精度値が、許容可能な音声合成結果をもたらすことが示されているが、このときでさえも、これは、全てのTFブロック(本例では、フレーム当たり、8つのサブ帯域および5つのTFブロック)のためのコヒーレンスデータのために合計3x20ビットを必要とすることになるであろう。
したがって、実施形態の目的は、多数のTFブロックにわたってコヒーレンスデータを表現するためのビット数を低減することである。
次に、符号化されたコヒーレンスパラメータ値はコンバイナ211に渡され得る。
メタデータ符号器/量子化器111はコンバイナ211を含み得る。コンバイナは、符号化された(または量子化/圧縮された)方向パラメータ、エネルギー比パラメータ、およびコヒーレンスパラメータを受信し、これらを組み合わせ、好適な出力(例えば、移送信号と組み合わせられるか、または移送信号とは別個に伝送もしくは記憶され得るメタデータビットストリーム)を生成するように構成されている。
図3に関して、いくつかの実施形態に係る図2に示されるとおりのメタデータ符号器/量子化器の例示的な動作が示されている。
最初の動作は、図3に示されるように、ステップ301によって、メタデータ(方位角値、仰角値、エネルギー比、コヒーレンス等など)を得ることである。
次に、図3に示されるように、ステップ303によって、方向値(仰角、方位角)を(例えば、球面量子化、または任意の好適な圧縮を適用することによって)圧縮または符号化し得る。
図3に示されるように、ステップ305によって、エネルギー比値を(例えば、サブ帯域ごとに重み付き平均を生成し、次にこれらを3ビット値として量子化することによって)圧縮または符号化する。
図3に示されるように、ステップ307によって、コヒーレンス値も圧縮または符号化する。
次に、図3に示されるように、ステップ309によって、符号化された方向値、エネルギー比、コヒーレンス値を組み合わせ、符号化されたメタデータを生成する。
図4に関して、図2に示されるとおりの例示的なコヒーレンス符号器209が示されている。
上述されたように、コヒーレンスパラメータの符号化を調節することによって技術的利点を達成することができ、この場合、一部の音声フレームについては、コヒーレンスパラメータが符号化され、その結果、符号化されたビットストリームの部分を形成し、他の音声フレームについては、コヒーレンスパラメータは符号化されない。技術的利点は、符号化されたビットストリームのビットレートの全体的な低減である。
コヒーレンスパラメータを符号化するかどうかの決定は、周囲のサブ帯域に対する各サブ帯域のコヒーレンス値の主観的重要度に基づいて行われ得る。換言すれば、コヒーレンスパラメータを符号化する決定は、コヒーレンスパラメータがエンドユーザの全体的な知覚的聴取体験に寄与するかどうかに基づいて行うことができる。
聴取実験によって、空間音声信号におけるコヒーレンスの知覚は、様々な周波数帯域内に存在する信号の間の相互作用に少なくとも部分的に帰せられ得ることが実証された。これは、音響の知覚のために、人間の周波数分解能は、等価矩形帯域幅(ERB)などの非線形周波数スケールに従ってサイロ化(siloed)/区画化され得るという前提に反するように思われるかもしれない。
例えば、実験(知覚的聴取試験を含む)を通して、周波数帯域のうちのほとんどについてコヒーレンスが低い場合には、単一の周波数帯域内のより高いコヒーレンスは、空間音声の知覚に大して寄与することができないことが認められた。その結果、この場合には、コヒーレンスパラメータを符号化しないことが、符号化されたビットストリームの全体的なビットレートにとって有益になり得る。
代替的に、知覚的聴取試験を通して、単一の周波数帯域が、他の周囲の周波数帯域よりも相当に低いエネルギー比を有することが見出された場合には、コヒーレンスはその帯域内で知覚的に重要になり得ることも認められた。この場合には、人間の聴覚系は特に敏感になり得ることが見出された。それゆえ、空間音声の全体的聴取体験を向上させるべくコヒーレンスパラメータをフレームのために伝送することが賢明であろう。
したがって、実験的観察の結果は、空間音声信号におけるコヒーレンスの重要度を表現するメトリック(または尺度)が考案され得ることを示唆するであろう。
これらの効果は、空間音声信号における周囲コヒーレンスの知覚のために特に優勢になり得る。しかし、コヒーレンスパラメータを符号化するべきかどうかを決定することに関しては、他の種類のコヒーレンスパラメータの重要度を測定することも利点を有し得る。例えば、これらなどの技法は拡散コヒーレンスパラメータ値にも適用され得る。
上述されたように、コヒーレンスの知覚に関して、これらの効果は周波数帯域の間の相互作用に帰せられ得る。
この点に関して、コヒーレンス値重要度決定器が、TFブロックnのための各サブ帯域kのコヒーレンス値を受信するように示された、図4における401をまず参照する。加えて、401は、時間指数nを有するTFブロックのK個のサブ帯域に関連付けられたエネルギー比である、TFブロックn(またはサブフレームn)のための指向性対総計エネルギー比r(k,n)も受信するように構成され得る。同様に、コヒーレンス値もまた、時間指数nを有するTFブロックのK個のサブ帯域のためのK個のコヒーレンス値としてコヒーレンス値重要度決定器401へ送られる。
第1の実施形態では、コヒーレンス値は周囲コヒーレンス(γ(k,n))を含み得る。kは、サブ帯域指数を指示するために用いられ、nはTFブロックの指数であることに留意されたい。
また、K個のサブ帯域を含むTFブロックのための周囲コヒーレンス値の重要度を決定するための例示的な処理ステップを示す図5を参照する。
最初に、処理ブロック401は、指向性対総計エネルギー比r(k,n)を用いることによって、サブ帯域kごとの無指向性エネルギー比の推定を決定し得る。実施形態では、無指向性(周囲)エネルギー比a(k,n)は次式によって与えることができる
k=0~K-1について、a(k,n)=1-r(k,n)
r(k,n)は、総エネルギーに対する特定の方向におけるエネルギーであり、周波数ごとの方向は方位角および仰角によって与えられることに留意されたい。上述されたように、方向は方向符号器205からの方向指数によって表現される。エネルギー比r(k,n)は0~1の値を有することができ、1は、総エネルギーがサブ帯域kのための1つの方向指数に沿って集中していることを意味するであろう。したがって、a(k,n)は、特定のサブ帯域kのための周囲(または無指向性)エネルギー、換言すれば、特定の方向指数に沿って集中していないエネルギーの比を表現する。
無指向性(周囲)エネルギーの比を決定する処理ステップが図5における501として示されている。
したがって、サブ帯域kごとのコヒーレントな無指向性(周囲)エネルギーの割合は次式によって与えることができる
k=0~K-1について、ρ(k,n)=a(k,n)γ(k,n)
サブ帯域ごとの無指向性(周囲)エネルギーの割合を決定する処理ステップが図5における処理ステップ503として示されている。
TFブロックn(またはサブフレームn)のための周囲コヒーレンス値の重要度のための第1の尺度(またはメトリック)は、無指向性エネルギーの割合をサブフレームnのための全てのサブ帯域にわたって合計することによって推定することができる。
Figure 0007223872000010
第1の尺度ξ1は、無指向性(サラウンド)エネルギーがサブフレームnの複数の周波数サブ帯域内で卓越しているかどうかの指示を与えると見なされ得る。
サブフレームnのための周囲コヒーレンス値の重要度のための第1の尺度を決定する処理ステップが図5における処理ステップ505として示されている。
サブフレームnのための周囲コヒーレンス値の重要度のための第2の尺度(またはメトリック)ξ2は、無指向性エネルギーρ(k,n)の割合を取り、それを特定のサブ帯域kのための周囲(または無指向性)エネルギーの比a(k,n)で重み付けすることによって推定することができる。これを全てのサブ帯域にわたって合計し、周囲(または無指向性)エネルギーの「総計」比で正規化することができる。第2の尺度ξ2は次式として表され得る。
Figure 0007223872000011
ここで、μは調整因子である。実験的観察によって、μ=0.4の値が有利な結果をもたらし得ることが示された。
第2の尺度(またはメトリック)ξ2は、周囲コヒーレントエネルギーが、主として非方向であるサブ帯域内で卓越しているかどうかの尺度を提供し、それゆえ、サブフレームにおける周囲コヒーレンス値が提供し、知覚的に重要であり得、したがって、コヒーレンス値が符号化され、伝送されるべきかどうかに関する指示を提供すると見なされ得る。
TF(サブフレーム)nのための周囲コヒーレンスパラメータの重要度のための第2の尺度を決定する処理ステップが図5における処理ステップ507として示されている。
実施形態では、第1および第2の尺度は、TFブロック(サブフレーム)nのための周囲コヒーレンス値の重要度のための単一の尺度を提供するよう併合されてもよい。
併合は、第1または第2のどちらかの尺度の最大値を取り、TFブロック(サブフレーム)nのための周囲コヒーレンス値の重要度のための単一の尺度ξを与えるという形を取り得る。
ξ(n)=max(ξ1(n),ξ2(n))
コヒーレンス値重要度決定器401の出力は周囲コヒーレンス値の重要度のための単一の尺度ξであってもよい。このパラメータはコヒーレンス値符号化決定器403に渡され得る。処理ブロック403は、サブフレームのためのコヒーレンス値が符号化されるべきか、それとも符号化されるべきでないかを決定するように構成することができる。
第1および第2の尺度を併合し、TFブロックnのための周囲コヒーレンス値の重要度を指示する単一の尺度を与える処理ステップが図5における509によって示されている。
実施形態によっては、周囲コヒーレンス値の重要度のための単一の尺度ξは周囲値の重要度のための第1の尺度ξ1のみを含み得る。代替的に、他の実施形態では、周囲コヒーレンス値の重要度のための単一の尺度ξは周囲値の重要度のための第2の尺度ξ2のみを含み得る。換言すれば、これらの実施形態のどちらにおいても、併合ステップ509は存在しない。したがって、周囲コヒーレンス値の重要度のための尺度ξは、コヒーレンス値重要度決定器401の動作のために、単に第1の尺度ξ1または単に第2の尺度ξ2のどちらかであり得る。
図6は、コヒーレンス値符号化決定器403によって遂行され得る処理ステップの例示的なセットを示す。
実施形態では、TFブロックのための周囲コヒーレンス値が符号化されるべきかどうかの決定は、周囲コヒーレンス値の重要度のための単一の尺度ξをサブフレームnのための閾値τ(n)と比較するという形を取り得る。この比較は次式のように表すことができる。
e(n)=1、ξ(n)>τ(n)である場合
e(n)=0、ξ(n)≦τ(n)である場合
ここで、e(n)=1は、TFブロック(またはサブフレーム)nのためのコヒーレンス値を符号化すること(および伝送すること)を表し、e(n)=0は、サブフレームnのためのコヒーレンス値を符号化しないことを表す。
閾値は定数であり得る。例えば、τ(n)=τ=0.15などの値を取り得る。代替的に、実施形態によっては、閾値は経時的に変化し得る。例えば、閾値は、符号化ビットレートに基づく因子に基づいて選択され得る。
周囲コヒーレンス値の重要度のための単一の尺度ξを閾値と比較するステップが図6における処理ステップ601として示されている。
次に、機能ブロック403は、上述の比較の結果が、コヒーレンス値が、符号化を正当化するために十分に重要であることを指示することを条件として、TFブロック(サブフレーム)nのためのコヒーレンス値をコヒーレンスパラメータ符号器405へ出力するように構成され得る。したがって、図4は、コヒーレンスパラメータ符号化決定器403からコヒーレンスパラメータ符号器405への接続経路を示す。しかし、周囲コヒーレンス値の重要度のための単一の尺度ξが閾値を超えない場合には、このとき、コヒーレンス値は符号化されない。
図6における603の処理ステップは、周囲コヒーレンス値の重要度のための単一の尺度ξが閾値を超え、その結果、ブロックのためのコヒーレンス値が符号化のためにコヒーレンス値符号器405へ送信される状況を示す。逆に、図6における605の処理ステップは、周囲コヒーレンス値の重要度のための単一の尺度ξが閾値を超えず、その結果、TFブロックのコヒーレンス値が符号化されない状況を示す。
コヒーレンスパラメータ符号器405は、知覚的に重要であると決定されたコヒーレンス値を機能ブロック403から受信するように構成されている。これらのコヒーレンス値は0~1の8ビット表現であり得る。
コヒーレンス値符号器405は、TFブロックごとにTFブロック(またはサブフレーム)のためのサブ帯域に関連付けられたコヒーレンス値を符号化するように構成され得る。コヒーレンス値符号器405は、サブ帯域ごとのコヒーレンス値が、まず、複数の量子化テーブルからの特定の量子化テーブルを用いてスカラー量子化されるアプローチを採用し得る。コヒーレンス値を量子化するための特定の量子化テーブルの選択はサブ帯域ごとのエネルギー比値に依存し得、各量子化テーブルの項目数は互いに異なり得る。本質的に、複数の量子化テーブルの各量子化テーブルは、特定のエネルギー比値に適合され得る、ある範囲の事前に計算された量子化コヒーレンス値を含み得る。
次に、各コヒーレンス値に関連付けられた量子化テーブル指数は、TFブロックのサブ帯域のための全ての量子化指数が統合指数に互いに連結された直積型符号、またはゴロム・ライス符号などのランレングス符号のどちらかを用いて符号化され得る。
ゴロム・ライス符号を用いてコヒーレンス値のための量子化指数を符号化する場合には、TFブロックのためのそれらの平均値を除去させてもよい。
TFブロックのためのサブ帯域コヒーレンス値量子化指数の符号化のための結合統合指数とゴロム・ライス符号との間の選択は、ゴロム・ライス符号器が使用することになるビット数を推定することに基づいて行うことができる。これが結合統合指数のビットよりも少ない場合には、このとき、ゴロム・ライス符号器が、TFブロックのためのサブ帯域コヒーレンス値量子化指数を符号化するために用いられる。結合統合指数法とゴロム・ライス法との間の選択はビットストリーム内の単一のビットとして信号で伝えることができる。
次に、コードブックに対する指数値が、符号化されたコヒーレンス値を形成し得、次に、これがコンバイナ211において、符号化された方向値および符号化されたエネルギー比と組み合わせられ、空間音声メタデータを形成する。
図7に関して、分析または合成デバイスとして用いられ得る例示的な電子デバイスが示される。デバイスは任意の好適な電子デバイスまたは装置であり得る。例えば、実施形態によっては、デバイス1400は、モバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、音声再生装置等である。
実施形態によっては、デバイス1400は少なくとも1つのプロセッサまたは中央処理装置1407を備える。プロセッサ1407は、本明細書において説明されるものなどの方法などの様々なプログラムコードを実行するように構成することができる。
実施形態によっては、デバイス1400はメモリ1411を備える。実施形態によっては、少なくとも1つのプロセッサ1407はメモリ1411に結合されている。メモリ1411は任意の好適な記憶手段であることができる。実施形態によっては、メモリ1411は、プロセッサ1407上で実施可能なプログラムコードを記憶するためのプログラムコードセクションを含む。さらに、実施形態によっては、メモリ1411は、データ、例えば、本明細書において説明されるとおりの実施形態に従って処理された、または処理される予定のデータを記憶するための記憶データセクションをさらに含むことができる。プログラムコードセクション内に記憶された実施プログラムコード、および記憶データセクション内に記憶されたデータは、プロセッサ1407によって、必要なときにいつでもメモリ-プロセッサ結合を介して取得され得る。
実施形態によっては、デバイス1400はユーザインターフェース1405を備える。ユーザインターフェース1405は、実施形態によっては、プロセッサ1407に結合され得る。実施形態によっては、プロセッサ1407はユーザインターフェース1405の動作を制御し、ユーザインターフェース1405からの入力を受信することができる。実施形態によっては、ユーザインターフェース1405は、ユーザが、例えば、キーパッドを介して、コマンドをデバイス1400に入力することを可能にすることができる。実施形態によっては、ユーザインターフェース1405は、ユーザがデバイス1400から情報を得ることを可能にすることができる。例えば、ユーザインターフェース1405は、デバイス1400からの情報をユーザに表示するように構成されたディスプレイを含み得る。ユーザインターフェース1405は、実施形態によっては、情報がデバイス1400に入力されることを可能にすること、および情報をデバイス1400のユーザにさらに表示することの両方の能力を有するタッチスクリーンまたはタッチインターフェースを含むことができる。実施形態によっては、ユーザインターフェース1405は、本明細書において説明されるとおりの位置決定器と通信するためのユーザインターフェースであり得る。
実施形態によっては、デバイス1400は入力/出力ポート1409を備える。入力/出力ポート1409は、実施形態によっては、送受信器を含む。このような実施形態における送受信器はプロセッサ1407に結合され、例えば、無線通信ネットワークを介して他の装置または電子デバイスとの通信を可能にするように構成することができる。送受信器、あるいは任意の好適な送受信器または伝送器および/または受信器手段は、実施形態によっては、配線または有線結合を介して他の電子デバイスまたは装置と通信するように構成することができる。
送受信器は、任意の好適な知られた通信プロトコルによってさらなる装置と通信することができる。例えば、実施形態によっては、送受信器は、好適なユニバーサル移動体通信システム(universal mobile telecommunications system、UMTS)プロトコル、例えば、IEEE802.Xなどの、無線ローカルエリアネットワーク(wireless local area network、WLAN)プロトコル、Bluetoothなどの好適な近距離無線周波数通信プロトコル、または赤外線データ通信経路(infrared data communication pathway、IRDA)を用いることができる。
送受信器入力/出力ポート1409は、信号を受信し、実施形態によっては、好適なコードを実行するプロセッサ1407を用いることによって本明細書において説明されるとおりのパラメータを決定するように構成され得る。さらに、デバイスは、合成デバイスへ伝送されるべき好適なダウンミックス信号およびパラメータ出力を生成し得る。
実施形態によっては、デバイス1400は合成デバイスの少なくとも部分として採用され得る。それゆえ、入力/出力ポート1409は、本明細書において説明されるとおりの取り込みデバイスまたは処理デバイスにおいて決定されたダウンミックス信号、および実施形態によっては、パラメータを受信し、好適なコードを実行するプロセッサ1407を用いることによって出力される好適な音声信号形式を生成するように構成され得る。入力/出力ポート1409は、例えば、マルチチャンネルスピーカシステムおよび/またはヘッドフォンもしくは同様のものへの任意の好適な音声出力に結合され得る。
概して、本発明の様々な実施形態は、ハードウェアまたは専用回路、ソフトウェア、論理あるいはこれらの任意の組み合わせの形態で実施され得る。例えば、いくつかの態様はハードウェアの形態で実施され得、その一方で、他の態様は、コントローラ、マイクロプロセッサまたはその他のコンピューティングデバイスによって実行され得るファームウェアまたはソフトウェアの形態で実施され得る。ただし、本発明はこれらに限定されない。本発明の様々な態様は、ブロック図、フローチャートとして、または何らかの他の図的表現を用いて図解され、説明されている場合があるが、本明細書において説明されているこれらのブロック、装置、システム、技法、または方法は、非限定例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくは論理、汎用ハードウェアもしくはコントローラ、または他のコンピューティングデバイス、あるいはこれらの何らかの組み合わせの形態で実施され得ることは十分理解される。
本発明の実施形態は、例えば、プロセッサエンティティ内の、モバイルデバイスのデータプロセッサによって実行可能なコンピュータソフトウェアによって、またはハードウェアによって、あるいはソフトウェアおよびハードウェアの組み合わせによって実施され得る。さらに、この点に関して、図にあるような論理フローの任意のブロックは、プログラムステップ、あるいは相互接続された論理回路、ブロック、および機能、あるいはプログラムステップ、ならびに論理回路、ブロック、および機能の組み合わせを表現し得ることに留意されたい。ソフトウェアは、メモリチップなどの物理媒体、あるいはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピーディスクなどの磁気媒体、ならびに例えば、DVD、およびそのデータ変種、CDなどの光媒体上に記憶され得る。
メモリは、局所的技術環境に適した任意の種類のものであり得、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定式メモリおよび着脱式メモリなどの、任意の好適なデータ記憶技術を用いて実装され得る。データプロセッサは、局所的技術環境に適した任意の種類のものであり得、非限定例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(digital signal processor、DSP)、特定用途向け集積回路(application specific integrated circuit、ASIC)、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの1つまたは複数を含み得る。
本発明の実施形態は集積回路モジュールなどの様々な構成要素において実施され得る。集積回路の設計は、概して、高度に自動化されたプロセスである。論理レベルの設計を、半導体基板上でエッチングおよび形成される準備ができた半導体回路設計に変換するための複雑で強力なソフトウェアツールが利用可能である。
プログラムは、十分に確立された設計規則、および事前に記憶された設計モジュールのライブラリを用いて、導線を配線し、半導体チップ上の構成要素の位置を決定することができる。半導体回路のための設計が完了すると、標準化された電子形式による、得られた設計は製造のために半導体製造施設または「製造工場(fab)」へ伝送され得る。
上述の説明は、例示的な非限定例を用いて、本発明の例示的な実施形態の完全で情報価値のある説明を与えた。しかし、当業者には、添付の図面および添付の請求項と併せて読むことで、上述の説明を考慮して様々な変更および適合が明らかになるであろう。しかし、本発明の教示のこのような変更および同様の変更は全て、添付の請求項において定義されるとおりの本発明の範囲に依然として含まれることになる。
100 システム
102 マルチチャンネル信号
103 移送信号生成器
104 移送信号
105 分析プロセッサ
106 メタデータ
107 符号器
108 方向パラメータ
109 音声符号器コア
110 エネルギー比パラメータ
111 メタデータ符号器/量子化器
112 コヒーレンスパラメータ
121 分析部分
131 合成部分
133 復号器/デマルチプレクサ
135 移送抽出器
137 メタデータ抽出器
139 合成プロセッサ
201 時間周波数領域変換器
202 時間周波数信号
203 空間分析器
205 方向符号器
207 エネルギー比符号器
209 コヒーレンス符号器
211 コンバイナ
401 コヒーレンス値重要度決定器
403 コヒーレンス値符号化決定器
405 コヒーレンスパラメータ符号器
1400 デバイス
1405 ユーザインターフェース
1407 プロセッサ
1409 入力/出力ポート
1411 メモリ

Claims (17)

  1. 空間音声符号化のための装置であって、
    1つまたは複数の音声信号のために、空間音声再生を提供するためのサブ帯域ベースの空間音声パラメータを受信または決定するための手段であって、前記空間音声パラメータがフレームの複数のサブ帯域のサブ帯域ごとの周囲コヒーレンス値を含む、手段と、
    前記複数のサブ帯域のそれぞれごとの方向対エネルギー比値を受信するための手段と、
    前記複数のサブ帯域の各々のためのコヒーレントな無指向性エネルギーの割合を決定するための手段であって、サブ帯域のためのコヒーレントな無指向性エネルギーの前記割合が、前記サブ帯域のための無指向性エネルギー比に前記サブ帯域のための前記周囲コヒーレンス値を乗算したものとして決定され、前記無指向性エネルギー比が、1から前記サブ帯域のための前記指向性対総計エネルギー比を引いたものとして決定される、手段、及び全ての前記複数のサブ帯域のために、コヒーレントな無指向性エネルギーの前記決定された割合を合計するための手段を備える、決定するための手段によって、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための重要度尺度を決定するための手段と、
    前記重要度尺度を用いて、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値を符号化するべきかどうかを決定するための手段と、
    を備える、装置。
  2. 前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度を決定するための前記手段が、
    サブ帯域ごとに、コヒーレントな無指向性エネルギーの前記割合に前記無指向性エネルギー比を乗算するための手段、
    全ての前記複数のサブ帯域のために、サブ帯域ごとの、コヒーレントな無指向性エネルギーの前記割合と前記無指向性エネルギー比との積を合計するための手段、および
    サブ帯域ごとの、コヒーレントな無指向性エネルギーの前記割合と前記無指向性エネルギー比との前記合計された積を、サブ帯域ごとの前記無指向性エネルギー比の合計によって正規化するための手段、
    をさらに備える、請求項に記載の装置。
  3. 前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度が前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための第1の重要度尺度である、請求項に記載の装置。
  4. 前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度が前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための第2の重要度尺度である、請求項に記載の装置。
  5. 前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度を決定するための前記手段が、
    前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度を前記第1の重要度尺度および前記第2の重要度尺度のうちの最大値として決定するための手段を備える、請求項またはに記載の装置。
  6. 前記重要度尺度を用いて、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値を符号化するべきかどうかを決定するための前記手段が、
    前記重要度尺度を閾値と比較するための手段、および
    前記重要度尺度が前記閾値を超えたときに、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値を符号化するための手段、
    を備える、請求項1~およびのいずれか1項に記載の装置。
  7. 記周囲コヒーレンス値が前記2つ以上のチャンネル音声信号の間のチャンネル間コヒーレンスに基づいて決定される、請求項1~のいずれか1項に記載の装置。
  8. 前記複数のサブ帯域の各々のための前記周囲コヒーレンス値が、前記装置が、
    前記2つ以上のチャンネル音声信号に関連付けられた共分散行列を計算すること、
    前記共分散行列に基づいて決定された最も大きいエネルギーを有するチャンネル音声信号、および他のチャンネル音声信号のサブセットを監視することであって、前記サブセットが、1つ~次に大きいエネルギーを有するチャンネル音声信号の総数より1つ少ないものの間で決定された数である、監視すること、ならびに
    前記最も大きいエネルギーを有する前記チャンネル音声信号と、前記次に大きいエネルギーのチャンネル音声信号の各々との間で決定された正規化コヒーレンスのうちの最小値を選択することに基づいて前記周囲共分散パラメータを生成すること、
    を行うための手段を備えることによって決定される、請求項に記載の装置。
  9. 空間音声符号化のための方法であって、
    1つまたは複数の音声信号のために、空間音声再生を提供するためのサブ帯域ベースの空間音声パラメータを受信または決定することであって、前記空間音声パラメータがフレームの複数のサブ帯域のサブ帯域ごとの周囲コヒーレンス値を含む、受信または決定することと、
    前記複数のサブ帯域のそれぞれごとの方向対エネルギー比値を受信することと、
    前記複数のサブ帯域の各々のためのコヒーレントな無指向性エネルギーの割合を決定することであって、サブ帯域のためのコヒーレントな無指向性エネルギーの前記割合が、前記サブ帯域のための無指向性エネルギー比に前記サブ帯域のための前記周囲コヒーレンス値を乗算したものとして決定され、前記無指向性エネルギー比が、1から前記サブ帯域のための前記指向性対総計エネルギー比を引いたものとして決定される、決定すること、及び全ての前記複数のサブ帯域のために、コヒーレントな無指向性エネルギーの前記決定された割合を合計することを含む、決定することによって、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための重要度尺度を決定することと、
    前記重要度尺度を用いて、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値を符号化するべきかどうかを決定することと、
    を含む、方法。
  10. 前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度を決定することが、
    サブ帯域ごとに、コヒーレントな無指向性エネルギーの前記割合に前記無指向性エネルギー比を乗算すること、
    全ての前記複数のサブ帯域のために、サブ帯域ごとの、コヒーレントな無指向性エネルギーの前記割合と前記無指向性エネルギー比との積を合計すること、および
    サブ帯域ごとの、コヒーレントな無指向性エネルギーの前記割合と前記無指向性エネルギー比との前記合計された積を、サブ帯域ごとの前記無指向性エネルギー比の合計によって正規化すること、
    をさらに含む、請求項に記載の方法。
  11. 前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度が前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための第1の重要度尺度である、請求項に記載の方法。
  12. 前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度が前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための第2の重要度尺度である、請求項10に記載の方法。
  13. 前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度を決定することが、
    前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための前記重要度尺度を前記第1の重要度尺度および前記第2の重要度尺度のうちの最大値として決定することを含む、請求項11または12に記載の方法。
  14. 前記重要度尺度を用いて、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値を符号化するべきかどうかを決定することが、
    前記重要度尺度を閾値と比較すること、および
    前記重要度尺度が前記閾値を超えたときに、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値を符号化すること、
    を含む、請求項10および13のいずれか1項に記載の方法。
  15. 記周囲コヒーレンス値が前記2つ以上のチャンネル音声信号の間のチャンネル間コヒーレンスに基づいて決定される、請求項14のいずれか1項に記載の方法。
  16. 前記複数のサブ帯域の各々のための前記周囲コヒーレンス値が、前記装置が、
    前記2つ以上のチャンネル音声信号に関連付けられた共分散行列を計算すること、
    前記共分散行列に基づいて決定された最も大きいエネルギーを有するチャンネル音声信号、および他のチャンネル音声信号のサブセットを監視することであって、前記サブセットが、1つ~次に大きいエネルギーを有するチャンネル音声信号の総数より1つ少ないものの間で決定された数である、監視すること、ならびに
    前記最も大きいエネルギーを有する前記チャンネル音声信号と、前記次に大きいエネルギーのチャンネル音声信号の各々との間で決定された正規化コヒーレンスのうちの最小値を選択することに基づいて前記周囲共分散パラメータを生成すること、
    を含むことによって決定される、請求項15に記載の方法。
  17. コンピュータプログラムコードを記憶した非一時的なコンピュータ読取可能記録媒体であって、前記コンピュータプログラムコードは少なくとも1つのプロセッサ上で実行されたときに、装置に、
    1つまたは複数の音声信号のために、空間音声再生を提供するためのサブ帯域ベースの空間音声パラメータを受信または決定させ、前記空間音声パラメータがフレームの複数のサブ帯域のサブ帯域ごとの周囲コヒーレンス値を含み、
    前記複数のサブ帯域のそれぞれごとの方向対エネルギー比値を受信させ、
    前記装置に、前記複数のサブ帯域の各々のためのコヒーレントな無指向性エネルギーの割合を決定させ、サブ帯域のためのコヒーレントな無指向性エネルギーの前記割合が、前記サブ帯域のための無指向性エネルギー比に前記サブ帯域のための前記周囲コヒーレンス値を乗算したものとして決定され、前記無指向性エネルギー比が、1から前記サブ帯域のための前記指向性対総計エネルギー比を引いたものとして決定されるものであり、及び全ての前記複数のサブ帯域のために、コヒーレントな無指向性エネルギーの前記決定された割合を合計させることによって、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値のための重要度尺度を決定させ、
    前記重要度尺度を用いて、前記フレームの前記複数のサブ帯域の前記周囲コヒーレンス値を符号化するべきかどうかを決定させる、
    ことを特徴とする、コンピュータ読取可能記録媒体。
JP2021557812A 2019-03-28 2020-03-26 空間音声パラメータの重要度の決定および関連符号化 Active JP7223872B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1904303.3A GB2582749A (en) 2019-03-28 2019-03-28 Determination of the significance of spatial audio parameters and associated encoding
GB1904303.3 2019-03-28
PCT/FI2020/050194 WO2020193865A1 (en) 2019-03-28 2020-03-26 Determination of the significance of spatial audio parameters and associated encoding

Publications (2)

Publication Number Publication Date
JP2022528660A JP2022528660A (ja) 2022-06-15
JP7223872B2 true JP7223872B2 (ja) 2023-02-16

Family

ID=66443108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021557812A Active JP7223872B2 (ja) 2019-03-28 2020-03-26 空間音声パラメータの重要度の決定および関連符号化

Country Status (8)

Country Link
US (1) US20220189494A1 (ja)
EP (1) EP3948861A4 (ja)
JP (1) JP7223872B2 (ja)
KR (1) KR102664650B1 (ja)
CN (1) CN113678199A (ja)
GB (1) GB2582749A (ja)
MX (1) MX2021011856A (ja)
WO (1) WO2020193865A1 (ja)

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735254B2 (en) * 2001-06-29 2004-05-11 Qualcomm, Inc. DCT compression using Golomb-Rice coding
DE602004007945T2 (de) * 2003-09-29 2008-05-15 Koninklijke Philips Electronics N.V. Codierung von audiosignalen
DE102004042819A1 (de) * 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
CN1993733B (zh) * 2005-04-19 2010-12-08 杜比国际公司 空间音频参数量化器、去量化器及参数量化、去量化方法
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
CN101499279B (zh) * 2009-03-06 2011-11-02 武汉大学 空间参数逐级精细的比特分配方法及其装置
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
CN102844808B (zh) * 2010-11-03 2016-01-13 华为技术有限公司 用于编码多通道音频信号的参数编码器
CN103548077B (zh) * 2011-05-19 2016-02-10 杜比实验室特许公司 参数化音频编译码方案的取证检测
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
WO2013149671A1 (en) * 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Multi-channel audio encoder and method for encoding a multi-channel audio signal
ES2560402T3 (es) * 2012-04-05 2016-02-18 Huawei Technologies Co., Ltd Método para la codificación y la decodificación de audio espacial paramétrica, codificador de audio espacial paramétrico y decodificador de audio espacial paramétrico
EP2690621A1 (en) * 2012-07-26 2014-01-29 Thomson Licensing Method and Apparatus for downmixing MPEG SAOC-like encoded audio signals at receiver side in a manner different from the manner of downmixing at encoder side
US9830920B2 (en) * 2012-08-19 2017-11-28 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9406307B2 (en) * 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
CN104885151B (zh) * 2012-12-21 2017-12-22 杜比实验室特许公司 用于基于感知准则呈现基于对象的音频内容的对象群集
US9711156B2 (en) * 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
TWI618051B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
EP2830049A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US20170208415A1 (en) * 2014-07-23 2017-07-20 Pcms Holdings, Inc. System and method for determining audio context in augmented-reality applications
CN107452387B (zh) 2016-05-31 2019-11-12 华为技术有限公司 一种声道间相位差参数的提取方法及装置
GB201718341D0 (en) * 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB2574238A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
CN112997248A (zh) * 2018-10-31 2021-06-18 诺基亚技术有限公司 确定空间音频参数的编码和相关联解码
WO2020102156A1 (en) * 2018-11-13 2020-05-22 Dolby Laboratories Licensing Corporation Representing spatial audio by means of an audio signal and associated metadata
GB2590651A (en) * 2019-12-23 2021-07-07 Nokia Technologies Oy Combining of spatial audio parameters

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Nokia Corporation,Proposal for MASA format,3GPP TDocs (written contributions) at meeting: S4-102,S4-190121,2019年02月,1-10,https://www.3gpp.org/ftp/TSG_SA/WG4_CODEC/TSGS4_102_Bruges/Docs/S4-190121.zip

Also Published As

Publication number Publication date
US20220189494A1 (en) 2022-06-16
WO2020193865A1 (en) 2020-10-01
EP3948861A1 (en) 2022-02-09
CN113678199A (zh) 2021-11-19
GB201904303D0 (en) 2019-05-15
GB2582749A (en) 2020-10-07
KR102664650B1 (ko) 2024-05-10
EP3948861A4 (en) 2022-11-09
MX2021011856A (es) 2021-10-22
KR20210146980A (ko) 2021-12-06
JP2022528660A (ja) 2022-06-15

Similar Documents

Publication Publication Date Title
US20210377685A1 (en) Determination of Targeted Spatial Audio Parameters and Associated Spatial Audio Playback
JP7142109B2 (ja) 空間オーディオパラメータのシグナリング
US20230197086A1 (en) The merging of spatial audio parameters
US20230402053A1 (en) Combining of spatial audio parameters
EP3874492B1 (en) Determination of spatial audio parameter encoding and associated decoding
US20210250717A1 (en) Spatial audio Capture, Transmission and Reproduction
GB2576769A (en) Spatial parameter signalling
EP3818730A1 (en) Energy-ratio signalling and synthesis
KR20200140874A (ko) 공간 오디오 파라미터의 양자화
US20230335141A1 (en) Spatial audio parameter encoding and associated decoding
JP7223872B2 (ja) 空間音声パラメータの重要度の決定および関連符号化
WO2022223133A1 (en) Spatial audio parameter encoding and associated decoding
US20240185869A1 (en) Combining spatial audio streams
US20230410823A1 (en) Spatial audio parameter encoding and associated decoding
US20240046939A1 (en) Quantizing spatial audio parameters
US20230335143A1 (en) Quantizing spatial audio parameters
US20230178085A1 (en) The reduction of spatial audio parameters
US20240079014A1 (en) Transforming spatial audio parameters
JP2024512953A (ja) 空間音声ストリームの結合
WO2024115051A1 (en) Parametric spatial audio encoding
CN116547749A (zh) 音频参数的量化

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211027

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230206

R150 Certificate of patent or registration of utility model

Ref document number: 7223872

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150