JP7664232B2 - マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化 - Google Patents
マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化 Download PDFInfo
- Publication number
- JP7664232B2 JP7664232B2 JP2022520097A JP2022520097A JP7664232B2 JP 7664232 B2 JP7664232 B2 JP 7664232B2 JP 2022520097 A JP2022520097 A JP 2022520097A JP 2022520097 A JP2022520097 A JP 2022520097A JP 7664232 B2 JP7664232 B2 JP 7664232B2
- Authority
- JP
- Japan
- Prior art keywords
- channel signal
- decoded
- signal
- decoding
- spatial image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012986 modification Methods 0.000 title claims description 99
- 230000004048 modification Effects 0.000 title claims description 99
- 230000005236 sound signal Effects 0.000 title claims description 38
- 239000011159 matrix material Substances 0.000 claims description 154
- 238000000034 method Methods 0.000 claims description 107
- 238000012937 correction Methods 0.000 claims description 30
- 230000009466 transformation Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 20
- 238000000354 decomposition reaction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000009877 rendering Methods 0.000 description 18
- 238000010606 normalization Methods 0.000 description 14
- 238000013139 quantization Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 241001306293 Ophrys insectifera Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000002775 capsule Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 101100189060 Arabidopsis thaliana PROC1 gene Proteins 0.000 description 1
- 102100028043 Fibroblast growth factor 3 Human genes 0.000 description 1
- 101000746134 Homo sapiens DNA endonuclease RBBP8 Proteins 0.000 description 1
- 101000969031 Homo sapiens Nuclear protein 1 Proteins 0.000 description 1
- 102100024061 Integrator complex subunit 1 Human genes 0.000 description 1
- 101710092857 Integrator complex subunit 1 Proteins 0.000 description 1
- 108050002021 Integrator complex subunit 2 Proteins 0.000 description 1
- 241000712899 Lymphocytic choriomeningitis mammarenavirus Species 0.000 description 1
- 102100021133 Nuclear protein 1 Human genes 0.000 description 1
- 240000005523 Peganum harmala Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
-各チャネルがスピーカーに出力するステレオ又は5.1マルチチャネル(チャネルに基づく)フォーマット(例:ステレオではL及びR、又は5.1ではL、R、Ls、Rs及びC)、
-音響オブジェクトが、当該オブジェクト(空間内での位置、ソースの空間幅等)の属性を記述するメタデータに関連付けられた音声信号(一般にはモノラル)として記述されるオブジェクト(オブジェクトに基づく)フォーマット、
-一般に球形マイクロフォンにより捕捉されるか又は球面調和関数の領域で合成された、所与の点での音場を記述するアンビソニック(シーンに基づく)フォーマット。
-スカラー:s又はN(小文字は変数、大文字は定数)
-演算子Re(.)は複素数の実部を示す
-ベクトル:u(太小文字)
-行列:A(太大文字)
-長さLの時間幅i=0,...,L-1にわたり定義される1次元離散時間信号s(i)を行ベクトルで表す。
s=[s(0),...,s(L-1)]
-長さLの時間幅i=0,...,L-1にわたり定義されるK次元の多次元離散時間信号b(i)をサイズL×Kの行列により表す。
-直交座標(x,y,z)を有する3D点は、球面座標(r,Θ,φ)に変換することができ、rは原点までの距離、Θは方位角、及びφは仰角である。ここで一般性を失うことなく、仰角が水平面(0xy)に関して定義される数学的表記を用いる。本発明は、方位角が軸Ozに関して定義される物理学で用いる表記を含む他の定義に容易に合わせることができる。更に、アンビソニック成分(Ambisonic Channel Number(アンビソニックチャネル番号)の略語ACN、Single Index Designation(単一索引指定)の略語SID、Furse-Malhamの略語FuMAを含む)の次数及びアンビソニック成分の正規化(SN3D、N3D、maxN)に関するアンビソニック関連の従来技術で知られる表記規約についてはここでは触れない。より詳細な事項は例えばオンラインで入手可能な以下のリソースで見ることができる。
https://en.wikipedia.org/wiki/Ambisonic_data_exchange_formats
慣習により、アンビソニック信号で第1の成分は一般に全方向成分Wに対応する。
-元のマルチチャネル信号からの符号化された音声信号及び元のマルチチャネル信号の空間イメージを表す情報を含むビットストリームを受信するステップと、
-受信した符号化済み音声信号を復号化して、復号化されたマルチチャネル信号を取得するステップと、
-元のマルチチャネル信号の空間イメージを表す情報を復号化するステップと、
-復号化されたマルチチャネル信号の空間イメージを表す情報を決定するステップと、
-上述の決定方法を用いて、復号化された信号に施す修正の組を決定するステップと、
-決定された修正の組を用いて、復号化されたマルチチャネル信号を修正するステップ。
-元のマルチチャネル信号からの音声信号を符号化するステップと、
-元のマルチチャネル信号の空間イメージを表す情報を決定するステップと、
-符号化された音声信号をローカルに復号化して、復号化されたマルチチャネル信号を取得するステップと、
-復号化されたマルチチャネル信号の空間イメージを表す情報を決定するステップと、
-上述の決定方法を用いて、復号化されたマルチチャネル信号に施す修正の組を決定するステップと、
-決定された修正の組を符号化するステップ。
-仮想スピーカーの組に関連付けられた重みベクトルを含む重み行列を取得するステップと、
-取得した重み行列から、及び受信した元のマルチチャネル信号の共分散行列から、元のマルチチャネル信号の空間イメージを決定するステップと、
-取得した重み行列から、及び決定した復号化済みマルチチャネル信号の共分散行列から、復号化されたマルチチャネル信号の空間イメージを決定するステップと、
-利得の組を取得すべく、仮想スピーカーの組のスピーカーの方向における元のマルチチャネル信号の空間イメージと復号化されたマルチチャネル信号の空間イメージの比率を計算するステップ。
-仮想スピーカーの組に関連付けられた重みベクトルを含む重み行列を取得するステップと、
-取得した重み行列から、及び決定した復号化済みマルチチャネル信号の空間イメージを表す情報から、復号化されたマルチチャネル信号の空間イメージを決定するステップと、
-利得の組を取得すべく、仮想スピーカーの組のスピーカーの方向における元のマルチチャネル信号の空間イメージと復号化されたマルチチャネル信号の空間イメージの比率を計算するステップ。
-復号化されたマルチチャネル信号を仮想スピーカーの組で音響的に復号化するステップと、
-音響的復号化から得られた信号に得られた利得の組を適用するステップと、
-マルチチャネル信号の成分を取得すべく音響的復号化から得られた修正済み信号を音響的に符号化するステップと、
-修正されたマルチチャネル信号を取得すべく、このように得られたマルチチャネル信号の成分を合算するステップ。
-元のマルチチャネル信号からの符号化された音声信号、及び復号化されたマルチチャネル信号に施す修正の符号化された組であって上述の符号化方法を用いて符号化された修正の組を含むビットストリームを受信するステップと、
-受信した符号化済み音声信号を復号化して、復号化されたマルチチャネル信号を取得するステップと、
-符号化された修正の組を復号化するステップと、
-復号化されたマルチチャネル信号に復号化された修正の組を適用することにより復号化されたマルチチャネル信号を修正するステップ。
-元のマルチチャネル信号からの符号化された音声信号、及び復号化されたマルチチャネル信号に施す修正の符号化された組であって、上述のような符号化方法を用いて符号化された修正の組を含むビットストリームを受信するステップと、
-受信した符号化済み音声信号を復号化して、復号化されたマルチチャネル信号を取得するステップと、
-符号化された修正の組を復号化するステップと、
-復号化されたマルチチャネル信号を以下のステップ、すなわち
・復号化されたマルチチャネル信号を仮想スピーカーの組で音響的に復号化するステップと、
・音響的復号化から得られた信号に得られた利得の組を適用するステップと、
・マルチチャネル信号の成分を取得すべく、音響的復号化から得られた修正済み信号を音響的に符号化するステップと、
・修正されたマルチチャネル信号を取得すべく、このように得られたマルチチャネル信号の成分を合算するステップにおいて、復号化された修正の組を用いて修正するステップ。
正規化係数内でC=B.BT(実数の場合)
又は正規化係数内でC=Re(B.BH)(複素数の場合)
Cij(n)=n/(n+1)Cij(n-1)+1/(n+1)bi(n)bj(n)
-各々幅が1、3、4及び8kHz、又は2、2、4及び8kHzである4帯域
-24個のバーク帯域(低周波で幅100Hzから最後のサブ帯域で3.5~4kHz)
-24個のバーク帯域は、各々6又は4個の「塊になった」帯域を形成すべく組の4又は6個の連続した帯域のブロックにグループ化される可能性がある。
B=Y(Θ、φ).s
ここでsは空間化するモノラル信号、Y(Θ,φ)はM次における方向(Θ,φ)に関連付けられた球面調和関数の係数を定義する符号化ベクトルである。
符号化ベクトルの一例を、1次の場合にSN3D表記規約で、及びSID又はFuMaチャネルの次数の場合に次式で与える。
E=[Y(θ0,φ0)...Y(θN-1,φN-1)]
E:D=pinv(E)=DT(D.DT)-1
pinv(D).S=DT(D.DT)-1.S
-正則化項がDT(D.DT+εI)-1のフォーマットである「モードマッチング」復号化、ここでεは小さい値(例:0.01)、
-従来技術で公知の「同相」又は「最大rE」復号化、
-又はスピーカーの方向における分布が球面上で規則的でない変型例である。
σn 2=sn.sn T=(dn.B).(dn.B)T=dn.B.BT.dn T=dn.C.dn T
ここでC=B.BT(実数の場合)又はRe(B.BH)(複素数の場合)はBの共分散行列である。
Σ=[σ0 2,…,σN-1 2]
SRP法以外に空間イメージΣを計算する変型例を用いてよい。
-値dnは使用する音響ビーム形成の種類(総遅延、MVDR、LCMV等)に応じて変動し得る。本発明はまた、行列D及び空間イメージ
Σ=[σ0 2,…,σN-1 2]
を計算するこれらの変型例にも適用できる。
-MUSIC(複数信号分類)法もまた、部分空間方式にとり空間イメージを計算する別の仕方を提供する。
Σ=[σ0 2,…,σN-1 2]
を計算する当該変型例に適用でき、
これは共分散行列を対角化することにより計算され、方向(Θn,φn)に対して評価されたMUSIC疑似スペクトルに対応している。
-空間イメージは、例えばS.Tervoによる論文「Direction estimation based on sound intensity vectors」,Proc.EUSIPCO,2009における(1次)強度ベクトルのヒストグラム、又は疑似強度ベクトルへの一般化から計算することができる。この場合、(所定の方向(Θn,φn)における到着値の方向の生起回数を値とする)ヒストグラムが所定の方向におけるエネルギーの組と解釈される。
(実数の場合)正規化係数の範囲内でC=B.BTとして計算される。
正規化係数の範囲内でC=Re(B.BH)として計算される。
A=QΛQ-1
ここのΛは固有値λiを含む対角行列であり、Qは固有ベクトルの行列である。
A=QΛQT
-本発明の概念の範囲内の、コンピュータプログラムの命令データを保存するメモリMEM1(これらの命令はエンコーダDCODとデコーダDDECの間で分散されている可能性がある)、
-元のマルチチャネル信号B、例えば各種のチャネル(例えば4個の1次チャネルW、Y、Z、X)にわたり分布するアンビソニック信号を、本発明の概念の範囲内で圧縮符号化する意図で受信するインターフェースINT1、
-当該信号を受信して符号化する意図で、メモリMEM1に保存されたコンピュータプログラム命令を実行することにより処理するプロセッサPROC1、及び
-符号化された信号を、ネットワークを介して送信する通信インターフェースCOM1。
-本発明の概念の範囲内の、コンピュータプログラムの命令データを保存するメモリMEM2(これらの命令は、上述のようにエンコーダDCOD及びデコーダDDECの間で分散されている可能性がある)、
-本発明の概念の範囲内の、符号化された信号を、圧縮復号化する意図でネットワークRESから受信するインターフェースCOM2、
-これらの信号を、復号化する意図で、メモリMEM2に保存されたコンピュータプログラム命令を実行することにより処理するプロセッサPROC2、
-修正された復号化済み信号(
Claims (16)
- マルチチャネル音響信号に施す修正の組(Corr.)を決定する決定方法であって、前記修正の組が、元のマルチチャネル信号の空間イメージを表す情報(Inf.B)から、及び符号化され、次いで復号化された元のマルチチャネル信号の空間イメージを表す情報(Inf.
)から決定される、決定方法。 - 前記修正の組が周波数サブ帯域により決定される、請求項1に記載の決定方法。
- 元のマルチチャネル信号からの符号化された音声信号及び前記元のマルチチャネル信号の空間イメージを表す情報を含むビットストリームを受信するステップ(350)と、
前記受信した符号化された音声信号を復号化して、復号化されたマルチチャネル信号を取得するステップ(370)と、
前記元のマルチチャネル信号の空間イメージを表す情報を復号化するステップ(360)と、
前記復号化されたマルチチャネル信号の空間イメージを表す情報を決定するステップ(375)と、
請求項1又は2に記載の決定方法を用いて、前記復号化された信号に施す修正の組を決定するステップ(380)と、
前記決定された修正の組を用いて、前記復号化されたマルチチャネル信号を修正するステップ(390)と
を含む、マルチチャネル音響信号を復号化する復号化方法。 - 元のマルチチャネル信号からの音声信号を符号化するステップ(611)と、
前記元のマルチチャネル信号の空間イメージを表す情報を決定するステップ(621)と、
前記符号化された音声信号をローカルに復号化して、復号化されたマルチチャネル信号を取得するステップ(612)と、
前記復号化されたマルチチャネル信号の空間イメージを表す情報を決定するステップ(615)と、
請求項1又は2に記載の決定方法を用いて、前記復号化されたマルチチャネル信号に施す修正の組を決定するステップ(630)と、
前記決定された修正の組を符号化するステップ(640)と
を含む、マルチチャネル音響信号を符号化する符号化方法。 - 前記空間イメージを表す情報が共分散行列であり、前記修正の組を決定するステップが更に、
仮想スピーカーの組に関連付けられた重みベクトルを含む重み行列を取得するステップと、
前記取得した重み行列から、及び前記元のマルチチャネル信号の前記共分散行列から、前記元のマルチチャネル信号の空間イメージを決定するステップと、
前記取得した重み行列から、及び前記決定した復号化済みマルチチャネル信号の前記共分散行列から、前記復号化されたマルチチャネル信号の空間イメージを決定するステップと、
利得の組を取得すべく、前記仮想スピーカーの組のスピーカーの方向における前記元のマルチチャネル信号の前記空間イメージと前記復号化されたマルチチャネル信号の前記空間イメージの比率を計算するステップと
を含む、請求項3に記載の復号化方法。 - 前記空間イメージを表す情報が共分散行列であり、前記修正の組を決定するステップが更に、
仮想スピーカーの組に関連付けられた重みベクトルを含む重み行列を取得するステップと、
前記取得した重み行列から、及び前記元のマルチチャネル信号の前記共分散行列から、前記元のマルチチャネル信号の空間イメージを決定するステップと、
前記取得した重み行列から、及び前記決定した復号化済みマルチチャネル信号の前記共分散行列から、前記復号化されたマルチチャネル信号の空間イメージを決定するステップと、
利得の組を取得すべく、前記仮想スピーカーの組のスピーカーの方向における前記元のマルチチャネル信号の前記空間イメージと前記復号化されたマルチチャネル信号の前記空間イメージの比率を計算するステップと
を含む、請求項4に記載の符号化方法。 - 前記元のマルチチャネル信号の空間イメージを表す前記受信した情報が前記元のマルチチャネル信号の前記空間イメージであり、前記修正の組を決定するステップが更に、
仮想スピーカーの組に関連付けられた重みベクトルを含む重み行列を取得するステップと、
前記取得した重み行列から、及び前記決定された復号化済みマルチチャネル信号の空間イメージを表す情報から、前記復号化されたマルチチャネル信号の空間イメージを決定するステップと、
利得の組を取得すべく、仮想スピーカーの組のスピーカーの方向における前記元のマルチチャネル信号の前記空間イメージと前記復号化されたマルチチャネル信号の前記空間イメージの比率を計算するステップと
を含む、請求項3に記載の復号化方法。 - 前記空間イメージを表す情報が共分散行列であり、前記修正の組を決定するステップが、2個の共分散行列の行列分解を介して変換行列を決定するステップを含み、前記変換行列が前記修正の組を構成する、請求項3に記載の復号化方法。
- 前記空間イメージを表す情報が共分散行列であり、前記修正の組を決定するステップが、2個の共分散行列の行列分解を介して変換行列を決定するステップを含み、前記変換行列が前記修正の組を構成する、請求項4に記載の符号化方法。
- 前記復号化されたマルチチャネル信号が、前記復号化されたマルチチャネル信号に前記修正の組を適用することにより決定された修正の組により修正される、請求項3、5、7又は8のいずれか一項に記載の復号化方法。
- 前記復号化されたマルチチャネル信号が、前記決定された修正の組により、
前記復号化されたマルチチャネル信号を前記仮想スピーカーの定義された組で音響的に復号化するステップと、
前記取得された利得の組を、前記音響的復号化から得られた信号に適用するステップと、
前記マルチチャネル信号の成分を取得すべく、前記音響的復号化から得られた修正済み信号を音響的に符号化するステップと、
修正されたマルチチャネル信号を取得すべく、このように得られた前記マルチチャネル信号の前記成分を合算するステップと
により修正される、請求項5又は7に記載の復号化方法。 - 元のマルチチャネル信号からの符号化された音声信号、及び復号化されたマルチチャネル信号に施す修正の符号化された組であって、請求項6に記載の符号化方法を用いて符号化された修正の組を含むビットストリームを受信するステップと、
受信した符号化済み音声信号を復号化して、復号化されたマルチチャネル信号を取得するステップと、
前記符号化された修正の組を復号化するステップと、
前記復号化されたマルチチャネル信号を、
・前記復号化されたマルチチャネル信号を仮想スピーカーの組で音響的に復号化するステップと、
・前記音響的復号化から得られた信号に得られた利得の組を適用するステップと、
・前記マルチチャネル信号の成分を取得すべく、前記音響的復号化から得られた修正済み信号を音響的に符号化するステップと、
・修正されたマルチチャネル信号を取得すべく、このように得られた前記マルチチャネル信号の前記成分を合算するステップと
において、前記復号化された修正の組を用いて修正するステップと
を含む、マルチチャネル音響信号を復号化する復号化方法。 - 請求項3、5、7、8、又は10から12のいずれか一項に記載の復号化方法を実行する処理回路を含む復号化装置。
- 請求項4、6又は9のいずれか一項に記載の符号化方法を実行する処理回路を含む符号化装置。
- 請求項3、5、7、8又は10から12のいずれか一項に記載の復号化方法を実行する命令を含むコンピュータプログラムを保存した、プロセッサ可読記憶媒体。
- 請求項4、6又は9のいずれか一項に記載の符号化方法を実行する命令を含むコンピュータプログラムを保存した、プロセッサ可読記憶媒体。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR1910907A FR3101741A1 (fr) | 2019-10-02 | 2019-10-02 | Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés |
| FR1910907 | 2019-10-02 | ||
| PCT/FR2020/051668 WO2021064311A1 (fr) | 2019-10-02 | 2020-09-24 | Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2022550803A JP2022550803A (ja) | 2022-12-05 |
| JPWO2021064311A5 JPWO2021064311A5 (ja) | 2025-01-06 |
| JP7664232B2 true JP7664232B2 (ja) | 2025-04-17 |
Family
ID=69699960
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022520097A Active JP7664232B2 (ja) | 2019-10-02 | 2020-09-24 | マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化 |
Country Status (10)
| Country | Link |
|---|---|
| US (1) | US12051427B2 (ja) |
| EP (1) | EP4042418B1 (ja) |
| JP (1) | JP7664232B2 (ja) |
| KR (1) | KR20220076480A (ja) |
| CN (1) | CN114503195B (ja) |
| BR (1) | BR112022005783A2 (ja) |
| ES (1) | ES2965084T3 (ja) |
| FR (1) | FR3101741A1 (ja) |
| WO (1) | WO2021064311A1 (ja) |
| ZA (1) | ZA202203157B (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117395591A (zh) * | 2021-03-05 | 2024-01-12 | 华为技术有限公司 | Hoa系数的获取方法和装置 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007532960A (ja) | 2004-04-16 | 2007-11-15 | コーディング テクノロジーズ アクチボラゲット | マルチチャネルオーディオ信号を表示するための装置と方法 |
| JP2014026007A (ja) | 2012-07-24 | 2014-02-06 | Fujitsu Ltd | オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム |
| JP2016537669A (ja) | 2013-10-21 | 2016-12-01 | ドルビー・インターナショナル・アーベー | オーディオ信号のパラメトリック再構成 |
| JP2017534909A (ja) | 2014-10-10 | 2017-11-24 | ドルビー・インターナショナル・アーベー | 音場の高次アンビソニックスhoa信号表現の低ビットレート圧縮のための方法および装置 |
Family Cites Families (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20070005468A (ko) * | 2005-07-05 | 2007-01-10 | 엘지전자 주식회사 | 부호화된 오디오 신호의 생성방법, 그 부호화된 오디오신호를 생성하는 인코딩 장치 그리고 그 부호화된 오디오신호를 복호화하는 디코딩 장치 |
| KR100644715B1 (ko) * | 2005-12-19 | 2006-11-10 | 삼성전자주식회사 | 능동적 오디오 매트릭스 디코딩 방법 및 장치 |
| TW200742275A (en) * | 2006-03-21 | 2007-11-01 | Dolby Lab Licensing Corp | Low bit rate audio encoding and decoding in which multiple channels are represented by fewer channels and auxiliary information |
| WO2010000313A1 (en) * | 2008-07-01 | 2010-01-07 | Nokia Corporation | Apparatus and method for adjusting spatial cue information of a multichannel audio signal |
| EP2175670A1 (en) * | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
| US9330671B2 (en) * | 2008-10-10 | 2016-05-03 | Telefonaktiebolaget L M Ericsson (Publ) | Energy conservative multi-channel audio coding |
| WO2010097748A1 (en) * | 2009-02-27 | 2010-09-02 | Koninklijke Philips Electronics N.V. | Parametric stereo encoding and decoding |
| CN102550029B (zh) * | 2010-07-30 | 2015-10-07 | 松下电器产业株式会社 | 图像解码装置、图像解码方法、图像编码装置以及图像编码方法 |
| EP2717261A1 (en) * | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding |
| CN104282309A (zh) * | 2013-07-05 | 2015-01-14 | 杜比实验室特许公司 | 丢包掩蔽装置和方法以及音频处理系统 |
| JP6449877B2 (ja) * | 2013-07-22 | 2019-01-09 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダ、レンダリングされたオーディオ信号を使用する方法、コンピュータ・プログラムおよび符号化オーディオ表現 |
| EP3067886A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
| FR3048808A1 (fr) * | 2016-03-10 | 2017-09-15 | Orange | Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal |
-
2019
- 2019-10-02 FR FR1910907A patent/FR3101741A1/fr active Pending
-
2020
- 2020-09-24 KR KR1020227013459A patent/KR20220076480A/ko active Pending
- 2020-09-24 ES ES20792467T patent/ES2965084T3/es active Active
- 2020-09-24 JP JP2022520097A patent/JP7664232B2/ja active Active
- 2020-09-24 CN CN202080069491.9A patent/CN114503195B/zh active Active
- 2020-09-24 BR BR112022005783A patent/BR112022005783A2/pt unknown
- 2020-09-24 US US17/764,064 patent/US12051427B2/en active Active
- 2020-09-24 WO PCT/FR2020/051668 patent/WO2021064311A1/fr not_active Ceased
- 2020-09-24 EP EP20792467.1A patent/EP4042418B1/fr active Active
-
2022
- 2022-03-16 ZA ZA2022/03157A patent/ZA202203157B/en unknown
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007532960A (ja) | 2004-04-16 | 2007-11-15 | コーディング テクノロジーズ アクチボラゲット | マルチチャネルオーディオ信号を表示するための装置と方法 |
| JP2014026007A (ja) | 2012-07-24 | 2014-02-06 | Fujitsu Ltd | オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム |
| JP2016537669A (ja) | 2013-10-21 | 2016-12-01 | ドルビー・インターナショナル・アーベー | オーディオ信号のパラメトリック再構成 |
| JP2017534909A (ja) | 2014-10-10 | 2017-11-24 | ドルビー・インターナショナル・アーベー | 音場の高次アンビソニックスhoa信号表現の低ビットレート圧縮のための方法および装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| ES2965084T3 (es) | 2024-04-10 |
| BR112022005783A2 (pt) | 2022-06-21 |
| US20220358937A1 (en) | 2022-11-10 |
| CN114503195B (zh) | 2024-12-31 |
| EP4042418A1 (fr) | 2022-08-17 |
| EP4042418B1 (fr) | 2023-09-06 |
| JP2022550803A (ja) | 2022-12-05 |
| FR3101741A1 (fr) | 2021-04-09 |
| ZA202203157B (en) | 2022-11-30 |
| WO2021064311A1 (fr) | 2021-04-08 |
| CN114503195A (zh) | 2022-05-13 |
| US12051427B2 (en) | 2024-07-30 |
| KR20220076480A (ko) | 2022-06-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11081117B2 (en) | Methods, apparatus and systems for encoding and decoding of multi-channel Ambisonics audio data | |
| US9014377B2 (en) | Multichannel surround format conversion and generalized upmix | |
| KR102427245B1 (ko) | 고차 앰비소닉스 신호 표현의 압축 및 압축 해제 방법 및 장치 | |
| CN114846541B (zh) | 空间音频参数的合并 | |
| CN114846542B (zh) | 空间音频参数的组合 | |
| CN113678199B (zh) | 空间音频参数的重要性的确定及相关联的编码 | |
| KR102824806B1 (ko) | 방향 컴포넌트 보상을 사용하는 DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램 | |
| US20210250717A1 (en) | Spatial audio Capture, Transmission and Reproduction | |
| JP7664232B2 (ja) | マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化 | |
| US20230260522A1 (en) | Optimised coding of an item of information representative of a spatial image of a multichannel audio signal | |
| CN119256354A (zh) | 具有解相关处理操作配置的空间化音频编码 | |
| CN116940983A (zh) | 变换空间音频参数 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230710 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240828 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240924 |
|
| A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20241210 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250311 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250407 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7664232 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |




































































