JP2023551040A - オーディオの符号化及び復号方法及び装置 - Google Patents

オーディオの符号化及び復号方法及び装置 Download PDF

Info

Publication number
JP2023551040A
JP2023551040A JP2023532579A JP2023532579A JP2023551040A JP 2023551040 A JP2023551040 A JP 2023551040A JP 2023532579 A JP2023532579 A JP 2023532579A JP 2023532579 A JP2023532579 A JP 2023532579A JP 2023551040 A JP2023551040 A JP 2023551040A
Authority
JP
Japan
Prior art keywords
virtual speaker
signal
target virtual
target
hoa
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023532579A
Other languages
English (en)
Inventor
ガオ、ユアン
リウ、シュアイ
ワン、ビン
ワン、ジェ
キュ、ティアンシュ
シュ、ジアハオ
Original Assignee
ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホアウェイ・テクノロジーズ・カンパニー・リミテッド filed Critical ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Publication of JP2023551040A publication Critical patent/JP2023551040A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

オーディオの符号化及び復号方法及び装置、及び可読記憶媒体が提供される。オーディオ符号化方法は、現在のシーンオーディオ信号(401)に基づいて、予め設定された仮想スピーカセットから第1ターゲット仮想スピーカを選択する段階;現在のシーンオーディオ信号、及び第1ターゲット仮想スピーカ(402)の属性情報に基づいて、第1仮想スピーカ信号を生成する段階;及び第1仮想スピーカ信号を符号化して、ビットストリーム(403)を取得する段階を備える。符号化方法によると、符号化されたデータの量は低減し、符号化効率が向上される。

Description

本願は、2020年11月30日に中国国家知識産権局に出願された「オーディオの符号化及び復号方法及び装置」と題する中国特許出願第202011377320.0号に基づく優先権を主張しており、当該出願はその全体が参照により本明細書に組み込まれる。
本願は、オーディオの符号化及び復号技術、特に、オーディオの符号化及び復号方法及び装置の分野に関連する。
3次元オーディオ技術は、実世界におけるサウンドイベント及び3次元音場情報を、取得、処理、伝送、レンダリング、及びプレイバックするオーディオ技術である。3次元オーディオ技術は、強い空間、包囲及び没入の感覚を音に付与し、人に、彼らが本当にそこにいるかのような特別な聴覚的経験を提供する。高次アンビソニックス(higher order ambisonics,HOA)技術は、記録、符号化、及びプレイバックフェーズにおけるスピーカレイアウトに無関係な性質、及び、HOAフォーマットのデータの回転可能プレイバック特性を有し、3次元オーディオプレイバック中により高い柔軟性を有し、したがって、より多くの注目及び研究の対象になっている。
より良好なオーディオの聴覚的効果を達成すべく、HOA技術は、サウンドシーンについてのより詳細な情報を記録するために、大量のデータを必要とする。3次元オーディオ信号のこのようなシーンベースのサンプリング及び記憶は、オーディオ信号の空間情報の記憶及び伝送により役立つが、HOA次数が増加するにつれて大量のデータが生成され、当該大量のデータは伝送及び記憶を困難にさせる。したがって、HOA信号は、符号化及び復号される必要がある。
現在、エンコーダ側において、コアエンコーダ(例えば、16チャネルエンコーダ)を使用することによって元のシーンにおけるオーディオ信号の各チャネルを直接符号化し、その後、ビットストリームを出力する段階を含むマルチチャネルデータの符号化及び復号方法が存在する。デコーダ側において、コアデコーダ(例えば、16チャネルデコーダ)は、ビットストリームを復号して、復号シーンの各チャネルを取得する。
前述のマルチチャネルの符号化及び復号方法において、対応するエンコーダ及び対応するデコーダは、元のシーンにおけるオーディオ信号のチャネルの数に基づいて適合される必要がある。加えて、チャネルの数が増加するにつれて、大量のデータ及び高帯域幅占有がビットストリームの圧縮中に存在する。
本願の実施形態は、オーディオの符号化及び復号方法及び装置を提供して、符号化及び復号されたデータの量を減らし、これにより、符号化及び復号の効率を向上させる。
前述の技術的問題を解決すべく、本願の実施形態は、以下の技術的解決手段を提供する。
第1態様によると、本願の実施形態は、
現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第1ターゲット仮想スピーカを選択する段階;
前記現在のシーンオーディオ信号、及び前記第1ターゲット仮想スピーカの属性情報に基づいて、第1仮想スピーカ信号を生成する段階;及び
前記第1仮想スピーカ信号を符号化して、ビットストリームを取得する段階
を含む、オーディオ符号化方法を提供する。
本願の本実施形態において、第1ターゲット仮想スピーカは、現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから選択され;第1仮想スピーカ信号は、現在のシーンオーディオ信号、及び第1ターゲット仮想スピーカの属性情報に基づいて生成され;第1仮想スピーカ信号は符号化されて、ビットストリームを取得する。本願の本実施形態において、第1仮想スピーカ信号は、第1シーンオーディオ信号、及び第1ターゲット仮想スピーカの属性情報に基づいて生成され得、オーディオエンコーダ側は、第1シーンオーディオ信号を直接符号化する代わりに、第1仮想スピーカ信号を符号化する。本願の本実施形態において、第1ターゲット仮想スピーカは、第1シーンオーディオ信号に基づいて選択され、第1ターゲット仮想スピーカに基づいて生成された第1仮想スピーカ信号は、空間におけるリスナーの位置における音場を表し得、この位置における音場は、第1シーンオーディオ信号が記録されるときの原音場に、できる限り近い。これは、オーディオエンコーダ側の符号化品質を保証する。加えて、第1仮想スピーカ信号及び残差信号が符号化され、ビットストリームを取得する。第1仮想スピーカ信号の符号化されたデータの量は、第1ターゲット仮想スピーカに関連しており、第1シーンオーディオ信号のチャネルの数とは無関係である。これは、符号化されたデータの量を減らし、符号化効率を向上させる。
可能な実装において、前記方法はさらに、
前記仮想スピーカセットに基づいて、前記現在のシーンオーディオ信号からメイン音場成分を取得する段階
を含み;
現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第1ターゲット仮想スピーカを選択する前記段階は、
前記メイン音場成分に基づいて、前記仮想スピーカセットから前記第1ターゲット仮想スピーカを選択する段階
を含む。
前述の解決手段において、仮想スピーカセットにおける各仮想スピーカは音場成分に対応しており、第1ターゲット仮想スピーカは、メイン音場成分に基づいて、仮想スピーカセットから選択される。例えば、メイン音場成分に対応する仮想スピーカは、エンコーダ側によって選択された第1ターゲット仮想スピーカである。本願の本実施形態において、エンコーダ側は、メイン音場成分に基づいて、第1ターゲット仮想スピーカを選択し得る。このように、エンコーダ側は、第1ターゲット仮想スピーカを決定し得る。
可能な実装において、前記メイン音場成分に基づいて、前記仮想スピーカセットから前記第1ターゲット仮想スピーカを選択する前記段階は、
前記メイン音場成分に基づいて、高次アンビソニックスHOA係数セットから前記メイン音場成分のHOA係数を選択する段階、ここで、前記HOA係数セットにおけるHOA係数は、前記仮想スピーカセットにおける仮想スピーカと1対1の対応関係にある;及び
前記メイン音場成分の前記HOA係数に対応し且つ前記仮想スピーカセットにおける仮想スピーカを、前記第1ターゲット仮想スピーカとして決定する段階
を含む。
前述の解決手段において、エンコーダ側は、仮想スピーカセットに基づいてHOA係数セットを予め構成し、HOA係数セットにおけるHOA係数及び仮想スピーカセットにおける仮想スピーカの間には1対1の対応関係が存在する。したがって、HOA係数がメイン音場成分に基づいて選択された後、仮想スピーカセットを、1対1の対応関係に基づいて、メイン音場成分のHOA係数に対応するターゲット仮想スピーカから検索する。発見されたターゲット仮想スピーカは、第1ターゲット仮想スピーカである。このように、エンコーダ側は、第1ターゲット仮想スピーカを決定し得る。
可能な実装において、前記メイン音場成分に基づいて、前記仮想スピーカセットから前記第1ターゲット仮想スピーカを選択する前記段階は、
前記メイン音場成分に基づいて、前記第1ターゲット仮想スピーカの構成パラメータを取得する段階;
前記第1ターゲット仮想スピーカの前記構成パラメータに基づいて、前記第1ターゲット仮想スピーカのHOA係数を生成する段階;及び
前記第1ターゲット仮想スピーカの前記HOA係数に対応し且つ前記仮想スピーカセットにおける仮想スピーカを、前記ターゲット仮想スピーカとして決定する段階
を含む。
前述の解決手段において、メイン音場成分を取得した後、エンコーダ側は、メイン音場成分に基づいて第1ターゲット仮想スピーカの構成パラメータを決定するために使用され得る。例えば、メイン音場成分は、複数の音場成分のうち最大値を有する1つ又はいくつかの音場成分であり、又は、メイン音場成分は、複数の音場成分のうち優勢な方向(dominant direction)を有する1つ又はいくつかの音場成分であり得る。メイン音場成分は、現在のシーンオーディオ信号とマッチングする第1ターゲット仮想スピーカを決定するために使用され得、対応する属性情報は第1ターゲット仮想スピーカのために構成されており、第1ターゲット仮想スピーカのHOA係数は、第1ターゲット仮想スピーカの構成パラメータに基づいて生成され得る。HOA係数を生成するプロセスは、HOAアルゴリズムに従って実装され得、詳細については本明細書において説明しない。仮想スピーカセットにおける各仮想スピーカは、HOA係数に対応している。したがって、第1ターゲット仮想スピーカは、各仮想スピーカのHOA係数に基づいて、仮想スピーカセットから選択され得る。このように、エンコーダ側は、第1ターゲット仮想スピーカを決定し得る。
可能な実装において、前記メイン音場成分に基づいて、前記第1ターゲット仮想スピーカの構成パラメータを取得する前記段階は、
オーディオエンコーダの構成情報に基づいて、前記仮想スピーカセットにおける複数の仮想スピーカの構成パラメータを決定する段階;及び
前記メイン音場成分に基づいて、前記複数の仮想スピーカの前記構成パラメータから前記第1ターゲット仮想スピーカの前記構成パラメータを選択する段階
を含む。
前述の解決手段において、オーディオエンコーダは、複数の仮想スピーカのそれぞれの構成パラメータを予め記憶し得る。各仮想スピーカの構成パラメータは、オーディオエンコーダの構成情報に基づいて決定され得る。オーディオエンコーダは、前述のエンコーダ側である。オーディオエンコーダの構成情報は、限定されるものではないが、HOA次数、及び符号化ビットレート等を含む。オーディオエンコーダの構成情報は、各仮想スピーカの仮想スピーカ及び位置パラメータの数を決定するために使用され得る。このように、エンコーダ側は、仮想スピーカの構成パラメータを決定し得る。例えば、符号化ビットレートが低い場合、少数の仮想スピーカが構成され得;符号化ビットレートが高い場合、複数の仮想スピーカが構成され得る。別の例の場合、仮想スピーカのHOA次数は、オーディオエンコーダのHOA次数に等しくてよい。本願の本実施形態において、オーディオエンコーダの構成情報に基づいて複数の仮想スピーカのそれぞれの構成パラメータを決定する段階に加えて、複数の仮想スピーカのそれぞれの構成パラメータはさらに、ユーザにより定義された情報に基づいて決定され得る。例えば、ユーザは、仮想スピーカの位置、HOA次数、及び仮想スピーカの数等を定義し得る。これは、本明細書において限定されるものではない。
可能な実装において、前記第1ターゲット仮想スピーカの前記構成パラメータは、前記第1ターゲット仮想スピーカの位置情報及びHOA次数情報を含み;
前記第1ターゲット仮想スピーカの前記構成パラメータに基づいて、前記第1ターゲット仮想スピーカのHOA係数を生成する前記段階は、
前記第1ターゲット仮想スピーカの前記位置情報及び前記HOA次数情報に基づいて、前記第1ターゲット仮想スピーカの前記HOA係数を決定する段階
を含む。
前述の解決手段において、各仮想スピーカのHOA係数は、仮想スピーカの位置情報及びHOA次数情報に基づいて生成され得、HOA係数を生成するプロセスは、HOAアルゴリズムに従って実装され得る。このように、エンコーダ側は、第1ターゲット仮想スピーカのHOA係数を決定し得る。
可能な実装において、前記方法はさらに、
前記第1ターゲット仮想スピーカの前記属性情報を符号化する段階、及び、符号化された属性情報を前記ビットストリームに書き込む段階を含む。
前述の解決手段において、仮想スピーカを符号化する段階に加えて、エンコーダ側は、第1ターゲット仮想スピーカの属性情報を符号化して、第1ターゲット仮想スピーカの符号化された属性情報をビットストリームに書き込む場合もある。この場合、取得されたビットストリームは、第1ターゲット仮想スピーカの符号化された仮想スピーカ及び符号化された属性情報を含み得る。本願の本実施形態において、ビットストリームは、第1ターゲット仮想スピーカの符号化された属性情報を搬送し得る。このように、デコーダ側は、ビットストリームを復号することによって、第1ターゲット仮想スピーカの属性情報を決定し得る。これは、デコーダ側におけるオーディオ復号を容易にする。
可能な実装において、前記現在のシーンオーディオ信号は符号化対象の高次アンビソニックスHOA信号を含み、前記第1ターゲット仮想スピーカの前記属性情報は前記第1ターゲット仮想スピーカの前記HOA係数を含み;
前記現在のシーンオーディオ信号、及び前記第1ターゲット仮想スピーカの属性情報に基づいて、第1仮想スピーカ信号を生成する前記段階は、
前記符号化対象のHOA信号及び前記HOA係数に対して線形結合を実行して、前記第1仮想スピーカ信号を取得する段階
を含む。
前述の解決手段において、現在のシーンオーディオ信号が符号化対象のHOA信号である例が使用されている。エンコーダ側は、まず、第1ターゲット仮想スピーカのHOA係数を決定する。例えば、エンコーダ側は、メイン音場成分に基づいて、HOA係数セットからHOA係数を選択する。選択されたHOA係数は、第1ターゲット仮想スピーカのHOA係数である。エンコーダ側が、第1ターゲット仮想スピーカの符号化対象のHOA信号及びHOA係数を取得した後、第1仮想スピーカ信号が、第1ターゲット仮想スピーカの符号化対象のHOA信号及びHOA係数に基づいて生成され得る。符号化対象のHOA信号は、第1ターゲット仮想スピーカのHOA係数に対して線形結合を実行することによって取得され得、第1仮想スピーカ信号の解決手段は、線形結合の解決手段に変換され得る。
可能な実装において、前記現在のシーンオーディオ信号は符号化対象の高次アンビソニックスHOA信号を含み、前記第1ターゲット仮想スピーカの前記属性情報は前記第1ターゲット仮想スピーカの前記位置情報を含み;
前記現在のシーンオーディオ信号、及び前記第1ターゲット仮想スピーカの属性情報に基づいて、第1仮想スピーカ信号を生成する前記段階は、
前記第1ターゲット仮想スピーカの前記位置情報に基づいて、前記第1ターゲット仮想スピーカの前記HOA係数を取得する段階;及び
前記符号化対象のHOA信号、及び前記HOA係数に対して線形結合を実行して、前記第1仮想スピーカ信号を取得する段階
を含む。
前述の解決手段において、第1ターゲット仮想スピーカの属性情報は、第1ターゲット仮想スピーカの位置情報を含み得る。エンコーダ側は、仮想スピーカセットにおける各仮想スピーカのHOA係数を予め記憶し、エンコーダ側はさらに、各仮想スピーカの位置情報を記憶する。仮想スピーカの位置情報及び仮想スピーカのHOA係数の間には対応関係が存在する。したがって、エンコーダ側は、第1ターゲット仮想スピーカの位置情報に基づいて第1ターゲット仮想スピーカのHOA係数を決定し得る。属性情報がHOA係数を含む場合、エンコーダ側は、第1ターゲット仮想スピーカの属性情報を復号することによって、第1ターゲット仮想スピーカのHOA係数を取得し得る。
可能な実装において、前記方法はさらに、
前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第2ターゲット仮想スピーカを選択する段階;
前記現在のシーンオーディオ信号、及び前記第2ターゲット仮想スピーカの属性情報に基づいて、第2仮想スピーカ信号を生成する段階;及び
前記第2仮想スピーカ信号を符号化する段階、及び符号化された第2仮想スピーカ信号を前記ビットストリームに書き込む段階
を備える。
前述の解決手段において、第2ターゲット仮想スピーカは、エンコーダ側によって選択された、第1ターゲット仮想エンコーダとは異なる別のターゲット仮想スピーカである。第1シーンオーディオ信号は元のシーンにおける符号化対象のオーディオ信号であり、第2ターゲット仮想スピーカは仮想スピーカセットにおける仮想スピーカであり得る。例えば、第2ターゲット仮想スピーカは、予め構成されたターゲット仮想スピーカ選択ポリシに従って、予め設定された仮想スピーカセットから選択され得る。ターゲット仮想スピーカ選択ポリシは、第1シーンオーディオ信号とマッチングするターゲット仮想スピーカを仮想スピーカセットから選択するポリシ、例えば、第1シーンオーディオ信号から各仮想スピーカによって取得された音場成分に基づいて、第2ターゲット仮想スピーカを選択することである。
可能な実装において、前記方法はさらに、
前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号を取得する段階
を備え;
それに応じて、前記第2仮想スピーカ信号を符号化する前記段階は、
前記位置合わせされた第2仮想スピーカ信号を符号化する段階を含み;
それに応じて、前記第1仮想スピーカ信号を符号化する前記段階は、
前記位置合わせされた第1仮想スピーカ信号を符号化する段階を含む。
前述の解決手段において、位置合わせされた第1仮想スピーカ信号を取得した後、エンコーダ側は、位置合わせされた第1仮想スピーカ信号を符号化し得る。本願の本実施形態において、チャネル間の相関関係は、第1仮想スピーカ信号のチャネルを再調整及び再位置合わせすることによって強化される。これは、第1仮想スピーカ信号に対してコアエンコーダによって実行される符号化処理を容易にする。
可能な実装において、前記方法はさらに、
前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第2ターゲット仮想スピーカを選択する段階;及び
前記現在のシーンオーディオ信号、及び前記第2ターゲット仮想スピーカの属性情報に基づいて、第2仮想スピーカ信号を生成する段階
を備え;
それに応じて、前記第1仮想スピーカ信号を符号化する前記段階は、
前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得する段階、ここで、前記サイド情報は、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号の間の関係を示す;及び
前記ダウンミックスされた信号及び前記サイド情報を符号化する段階
を含む。
前述の解決手段において、第1仮想スピーカ信号及び第2仮想スピーカ信号を取得した後、エンコーダ側はさらに、第1仮想スピーカ信号及び第2仮想スピーカ信号に基づいてダウンミックス処理を実行することで、ダウンミックスされた信号を生成し得る、例えば、第1仮想スピーカ信号及び第2仮想スピーカ信号に対して振幅ダウンミックス処理を実行することで、ダウンミックスされた信号を取得し得る。加えて、サイド情報は、第1仮想スピーカ信号及び第2仮想スピーカ信号に基づいて生成され得る。サイド情報は、第1仮想スピーカ信号及び第2仮想スピーカ信号の間の関係を示す。当該関係は、複数の方式で実装され得る。サイド情報は、デコーダ側によって使用され、ダウンミックスされた信号に対してアップミックスを実行し、第1仮想スピーカ信号及び第2仮想スピーカ信号を復元し得る。例えば、サイド情報は、信号情報損失分析パラメータを含む。このように、デコーダ側は、信号情報損失分析パラメータを使用することによって、第1仮想スピーカ信号及び第2仮想スピーカ信号を復元する。
可能な実装において、前記方法はさらに、
前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号を取得する段階
を備え;
それに応じて、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得する前記段階は、
前記位置合わせされた第1仮想スピーカ信号及び前記位置合わせされた第2仮想スピーカ信号に基づいて、前記ダウンミックスされた信号、及び前記サイド情報を取得する段階
を含み;
それに応じて、前記サイド情報は、前記位置合わせされた第1仮想スピーカ信号及び前記位置合わせされた第2仮想スピーカ信号の間の関係を示す。
前述の解決手段において、ダウンミックスされた信号を生成する前に、エンコーダ側は、まず、仮想スピーカ信号の位置合わせ操作を実行い、その後、位置合わせ操作を完了した後、ダウンミックスされた信号及びサイド情報を生成し得る。本願の本実施形態において、チャネル間の相関関係は、第1仮想スピーカ信号及び第2仮想スピーカのチャネルを再調整及び再位置合わせすることによって強化される。これは、第1仮想スピーカ信号に対してコアエンコーダによって実行される符号化処理を容易にする。
可能な実装において、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第2ターゲット仮想スピーカを選択する前記段階の前に、前記方法はさらに、
前記現在のシーンオーディオ信号の符号化レート及び/又は信号タイプ情報に基づいて、前記第1ターゲット仮想スピーカ以外のターゲット仮想スピーカが取得される必要があるかどうかを決定する段階;及び
前記第1ターゲット仮想スピーカ以外の前記ターゲット仮想スピーカが取得される必要がある場合、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから前記第2ターゲット仮想スピーカを選択する段階
を含む。
前述の解決手段において、エンコーダ側はさらに、第2ターゲット仮想スピーカが取得される必要があるかどうかを決定するべく、信号選択を実行し得る。第2ターゲット仮想スピーカが取得される必要がある場合、エンコーダ側は、第2仮想スピーカ信号を生成し得る。第2ターゲット仮想スピーカが取得される必要がない場合、エンコーダ側は、第2仮想スピーカ信号を生成しなくてよい。エンコーダは、オーディオエンコーダの構成情報及び/又は第1シーンオーディオ信号の信号タイプ情報に基づいて、第1ターゲット仮想スピーカに加えて別のターゲット仮想スピーカが選択される必要があるかどうかを決定するべく、決定を行い得る。例えば、符号化レートが予め設定された閾値より高い場合、2つのメイン音場成分に対応するターゲット仮想スピーカが取得される必要があることが決定され、第1ターゲット仮想スピーカに加えて、第2ターゲット仮想スピーカがさらに決定され得る。別の例の場合、第1シーンオーディオ信号の信号タイプ情報に基づいて、音源方向が優勢な(dominant)2つのメイン音場成分に対応するターゲット仮想スピーカが取得される必要があることが決定された場合、第1ターゲット仮想スピーカに加えて、第2ターゲット仮想スピーカがさらに決定され得る。反対に、第1シーンオーディオ信号の符号化レート及び/又は信号タイプ情報に基づいて、1つのみのターゲット仮想スピーカが取得される必要があると決定された場合、第1ターゲット仮想スピーカが決定された後、第1ターゲット仮想スピーカ以外のターゲット仮想スピーカはもはや取得されないことが決定される。本願の本実施形態において、信号選択は、エンコーダ側によって符号化されるべきデータの量を減らし、符号化効率を向上させるために実行される。
第2態様によると、本願の実施形態はさらに、
ビットストリームを受信する段階;
前記ビットストリームを復号して、仮想スピーカ信号を取得する段階;及び
ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する段階
を含む、オーディオ復号方法を提供する。
本願の本実施形態において、ビットストリームがまず受信され、その後、ビットストリームが復号されることで仮想スピーカ信号を取得し、最後に、ターゲット仮想スピーカの属性情報、及び仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号が取得される。本願の本実施形態において、仮想スピーカ信号は、ビットストリームを復号することによって取得され得、再構築されたシーンオーディオ信号は、ターゲット仮想スピーカの属性情報、及び仮想スピーカ信号に基づいて取得される。本願の本実施形態において、取得されたビットストリームは、仮想スピーカ信号及び残差信号を搬送する。これは、復号されたデータの量を減らし、復号効率を向上させる。
可能な実装において、前記方法はさらに、
前記ビットストリームを復号して、前記ターゲット仮想スピーカの前記属性情報を取得する段階を含む。
前述の解決手段において、仮想スピーカを符号化する段階に加えて、エンコーダ側は、ターゲット仮想スピーカの属性情報を符号化して、ターゲット仮想スピーカの符号化された属性情報をビットストリームに書き込む場合もある。例えば、第1ターゲット仮想スピーカの属性情報は、ビットストリームを使用することによって取得され得る。本願の本実施形態において、ビットストリームは、第1ターゲット仮想スピーカの符号化された属性情報を搬送し得る。このように、デコーダ側は、ビットストリームを復号することによって、第1ターゲット仮想スピーカの属性情報を決定し得る。これは、デコーダ側におけるオーディオ復号を容易にする。
可能な実装において、前記ターゲット仮想スピーカの前記属性情報は、前記ターゲット仮想スピーカの高次アンビソニックスHOA係数を含み;
ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する前記段階は、
前記仮想スピーカ信号、及び前記ターゲット仮想スピーカの前記HOA係数に対して合成処理を実行し、前記再構築されたシーンオーディオ信号を取得する段階
を含む。
前述の解決手段において、デコーダ側は、まず、ターゲット仮想スピーカのHOA係数を決定する。例えば、デコーダ側は、ターゲット仮想スピーカのHOA係数を予め記憶し得る。仮想スピーカ信号、及びターゲット仮想スピーカのHOA係数を取得した後、デコーダ側は、仮想スピーカ信号、及びターゲット仮想スピーカのHOA係数に基づいて、再構築されたシーンオーディオ信号を取得し得る。このように、再構築されたシーンオーディオ信号の品質が向上される。
可能な実装において、前記ターゲット仮想スピーカの前記属性情報は、前記ターゲット仮想スピーカの位置情報を含み;
ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する前記段階は、
前記ターゲット仮想スピーカの前記位置情報に基づいて前記ターゲット仮想スピーカのHOA係数を決定する段階;及び
前記仮想スピーカ信号、及び前記ターゲット仮想スピーカの前記HOA係数に対して合成処理を実行し、前記再構築されたシーンオーディオ信号を取得する段階
を含む。
前述の解決手段において、ターゲット仮想スピーカの属性情報は、ターゲット仮想スピーカの位置情報を含み得る。デコーダ側は、仮想スピーカセットにおける各仮想スピーカのHOA係数を予め記憶し、デコーダ側はさらに、各仮想スピーカの位置情報を記憶する。例えば、デコーダ側は、仮想スピーカの位置情報及び仮想スピーカのHOA係数の間の対応関係に基づいて、ターゲット仮想スピーカの位置情報のHOA係数を決定し得、又は、デコーダ側は、ターゲット仮想スピーカの位置情報に基づいて、ターゲット仮想スピーカのHOA係数を計算し得る。したがって、デコーダ側は、ターゲット仮想スピーカの位置情報に基づいて、ターゲット仮想スピーカのHOA係数を決定し得る。このように、デコーダ側は、ターゲット仮想スピーカのHOA係数を決定し得る。
可能な実装において、前記仮想スピーカ信号は、第1仮想スピーカ信号及び第2仮想スピーカ信号をダウンミックスすることによって取得されたダウンミックスされた信号であり、前記方法はさらに、
前記ビットストリームを復号してサイド情報を取得する段階、ここで、前記サイド情報は、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号の間の関係を示す;及び
前記サイド情報、及び前記ダウンミックスされた信号に基づいて、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号を取得する段階
を備え;
それに応じて、ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する前記段階は、
前記ターゲット仮想スピーカの前記属性情報、前記第1仮想スピーカ信号、及び前記第2仮想スピーカ信号に基づいて、前記再構築されたシーンオーディオ信号を取得する段階
を含む。
前述の解決手段において、エンコーダ側は、第1仮想スピーカ信号及び第2仮想スピーカ信号に基づいてダウンミックス処理が実行されたときに、ダウンミックスされた信号を生成し、エンコーダ側はさらに、ダウンミックスされた信号に対して信号補償を実行し、サイド情報を生成し得る。サイド情報はビットストリームに書き込まれ得、デコーダ側は、ビットストリームを使用することによってサイド情報を取得し得、デコーダ側は、サイド情報に基づいて信号補償を実行することで、第1仮想スピーカ信号及び第2仮想スピーカ信号を取得し得る。したがって、信号再構築中には、第1仮想スピーカ信号、第2仮想スピーカ信号、及びターゲット仮想スピーカの前述の属性情報が使用され、デコーダ側における復号された信号の品質を向上させ得る。
第3態様によると、本願の実施形態は、
現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第1ターゲット仮想スピーカを選択するように構成された、取得モジュール;
前記現在のシーンオーディオ信号、及び前記第1ターゲット仮想スピーカの属性情報に基づいて、第1仮想スピーカ信号を生成するように構成された信号生成モジュール;及び
前記第1仮想スピーカ信号を符号化してビットストリームを取得するように構成された符号化モジュール
を含むオーディオ符号化装置を提供する。
可能な実装において、前記取得モジュールは、前記仮想スピーカセットに基づいて、前記現在のシーンオーディオ信号からメイン音場成分を取得すること;及び、前記メイン音場成分に基づいて、前記仮想スピーカセットから前記第1ターゲット仮想スピーカを選択することを行うように構成されている。
本願の第3態様において、オーディオ符号化装置の組織モジュールはさらに、第1態様及び可能な実装において説明された段階を実行し得る。詳細については、第1態様及び可能な実装における説明を参照されたい。
可能な実装において、前記取得モジュールは、前記メイン音場成分に基づいて、高次アンビソニックスHOA係数セットから前記メイン音場成分のHOA係数を選択すること、ここで、前記HOA係数セットにおけるHOA係数は、前記仮想スピーカセットにおける仮想スピーカと1対1の対応関係にある;及び、メイン音場成分のHOA係数に対応し且つ仮想スピーカセットにおける仮想スピーカを、第1ターゲット仮想スピーカとして決定することを行うように構成されている。
可能な実装において、前記取得モジュールは、前記メイン音場成分に基づいて、前記第1ターゲット仮想スピーカの構成パラメータを取得すること;前記第1ターゲット仮想スピーカの前記構成パラメータに基づいて、前記第1ターゲット仮想スピーカのHOA係数を生成すること;及び、前記第1ターゲット仮想スピーカの前記HOA係数に対応し且つ前記仮想スピーカセットにおける仮想スピーカを、前記ターゲット仮想スピーカとして決定することを行うように構成されている。
可能な実装において、前記取得モジュールは、オーディオエンコーダの構成情報に基づいて、前記仮想スピーカセットにおける複数の仮想スピーカの構成パラメータを決定すること;及び、前記メイン音場成分に基づいて、前記複数の仮想スピーカの前記構成パラメータから前記第1ターゲット仮想スピーカの前記構成パラメータを選択することを行うように構成されている。
可能な実装において、前記第1ターゲット仮想スピーカの前記構成パラメータは、前記第1ターゲット仮想スピーカの位置情報及びHOA次数情報を含み;
前記取得モジュールは、前記第1ターゲット仮想スピーカの前記位置情報及び前記HOA次数情報に基づいて、前記第1ターゲット仮想スピーカの前記HOA係数を決定するように構成されている。
可能な実装において、前記符号化モジュールはさらに、前記第1ターゲット仮想スピーカの前記属性情報を符号化して、符号化された属性情報を前記ビットストリームに書き込むように構成されている。
可能な実装において、前記現在のシーンオーディオ信号は符号化対象のHOA信号を含み、前記第1ターゲット仮想スピーカの前記属性情報は前記第1ターゲット仮想スピーカの前記HOA係数を含み;
前記信号生成モジュールは、前記符号化対象のHOA信号及び前記HOA係数に対して線形結合を実行して、第1仮想スピーカ信号を取得するように構成されている。
可能な実装において、前記現在のシーンオーディオ信号は符号化対象の高次アンビソニックスHOA信号を含み、前記第1ターゲット仮想スピーカの前記属性情報は前記第1ターゲット仮想スピーカの前記位置情報を含み;
前記信号生成モジュールは、前記第1ターゲット仮想スピーカの前記位置情報に基づいて、前記第1ターゲット仮想スピーカの前記HOA係数を取得すること;及び、前記符号化対象のHOA信号、及び前記HOA係数に対して線形結合を実行して、前記第1仮想スピーカ信号を取得することを行うように構成されている。
可能な実装において、前記取得モジュールは、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第2ターゲット仮想スピーカを選択するように構成されており;
前記信号生成モジュールは、前記現在のシーンオーディオ信号、及び前記第2ターゲット仮想スピーカの属性情報に基づいて、第2仮想スピーカ信号を生成するように構成されており;
前記符号化モジュールは、前記第2仮想スピーカ信号を符号化して、符号化された第2仮想スピーカ信号を前記ビットストリームに書き込むように構成されている。
可能な実装において、前記信号生成モジュールは、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号を取得するように構成されており;
それに応じて、前記符号化モジュールは、前記位置合わせされた第2仮想スピーカ信号を符号化するように構成されており;
それに応じて、前記符号化モジュールは、前記位置合わせされた第1仮想スピーカ信号を符号化するように構成されている。
可能な実装において、前記取得モジュールは、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第2ターゲット仮想スピーカを選択するように構成されており;
前記信号生成モジュールは、前記現在のシーンオーディオ信号、及び前記第2ターゲット仮想スピーカの属性情報に基づいて、第2仮想スピーカ信号を生成するように構成されており;
それに応じて、前記符号化モジュールは、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得すること、ここで、前記サイド情報は、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号の間の関係を示しており;前記ダウンミックスされた信号及び前記サイド情報を符号化することを行うように構成されている。
可能な実装において、前記信号生成モジュールは、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号を取得するように構成されており;
それに応じて、前記符号化モジュールは、前記位置合わせされた第1仮想スピーカ信号及び前記位置合わせされた第2仮想スピーカ信号に基づいて、前記ダウンミックスされた信号及び前記サイド情報を取得するように構成されており;
それに応じて、前記サイド情報は、前記位置合わせされた第1仮想スピーカ信号及び前記位置合わせされた第2仮想スピーカ信号の間の関係を示す。
可能な実装において、前記取得モジュールは:前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第2ターゲット仮想スピーカを選択する前記段階の前に、前記現在のシーンオーディオ信号の符号化レート及び/又は信号タイプ情報に基づいて、前記第1ターゲット仮想スピーカ以外のターゲット仮想スピーカが取得される必要があるかどうかを決定すること;及び、前記第1ターゲット仮想スピーカ以外の前記ターゲット仮想スピーカが取得される必要がある場合、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから前記第2ターゲット仮想スピーカを選択することを行うように構成されている。
第4態様によると、本願の実施形態は、
ビットストリームを受信するように構成された受信モジュール;
前記ビットストリームを復号して、仮想スピーカ信号を取得するように構成された復号モジュール;及び
ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得するように構成された再構築モジュール
を含む、オーディオ復号装置を提供する。
可能な実装において、前記復号モジュールはさらに、前記ビットストリームを復号して、前記ターゲット仮想スピーカの前記属性情報を取得するように構成されている。
可能な実装において、前記ターゲット仮想スピーカの前記属性情報は、前記ターゲット仮想スピーカの高次アンビソニックスHOA係数を含み;
前記再構築モジュールは、前記仮想スピーカ信号、及び前記ターゲット仮想スピーカの前記HOA係数に対して合成処理を実行し、前記再構築されたシーンオーディオ信号を取得するように構成されている。
可能な実装において、前記ターゲット仮想スピーカの前記属性情報は、前記ターゲット仮想スピーカの位置情報を含み;
前記再構築モジュールは、前記ターゲット仮想スピーカの前記位置情報に基づいて前記ターゲット仮想スピーカのHOA係数を決定すること;及び
前記仮想スピーカ信号、及び前記ターゲット仮想スピーカの前記HOA係数に対して合成処理を実行し、前記再構築されたシーンオーディオ信号を取得すること
を行うように構成されている。
可能な実装において、前記仮想スピーカ信号は、第1仮想スピーカ信号及び第2仮想スピーカ信号をダウンミックスすることによって取得されたダウンミックスされた信号であり、前記装置はさらに、信号補償モジュールを備え、ここで
前記復号モジュールは、前記ビットストリームを復号して前記サイド情報を取得するように構成されており、ここで、サイド情報は、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号の間の関係を示す;
前記信号補償モジュールは、前記サイド情報、及び前記ダウンミックスされた信号に基づいて、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号を取得するように構成されており;
それに応じて、前記再構築モジュールは、前記ターゲット仮想スピーカの前記属性情報、前記第1仮想スピーカ信号、及び前記第2仮想スピーカ信号に基づいて、前記再構築されたシーンオーディオ信号を取得するように構成されている。
本願の第4態様において、オーディオ復号装置の組織モジュールはさらに、第2態様及び可能な実装において説明された段階を実行し得る。詳細については、第2態様及び可能な実装における説明を参照されたい。
第5の態様によると、本願の実施形態は、コンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は命令を記憶する。命令がコンピュータ上で実行されるとき、コンピュータは、第1態様又は第2態様に係る方法を実行することが可能になる。
第6の態様によると、本願の実施形態は、命令を含むコンピュータプログラム製品を提供する。コンピュータプログラム製品がコンピュータ上で実行されるとき、コンピュータは、第1態様又は第2態様に係る方法を実行することが可能になる。
第7態様によると、本願の実施形態が通信装置を提供する。通信装置は、端末デバイス又はチップなどのエンティティを含み得る。通信装置は、プロセッサを含む。任意選択的に、通信装置はさらに、メモリを含む。メモリは、命令を記憶するように構成されている。プロセッサは、メモリ内の命令を実行して、通信装置が第1態様又は第2態様のうち任意の1つに係る方法を実行することを可能にするように構成されている。
第8態様によると、本願は、チップシステムを提供する。チップシステムは、前述の態様における機能、例えば、前述の方法におけるデータ及び/又は情報を送信又は処理することを実装する際に、オーディオ符号化装置又はオーディオ復号装置をサポートするように構成されたプロセッサを含む。可能な設計において、チップシステムはさらに、メモリを含み、メモリは、オーディオ符号化装置又はオーディオ復号装置に必要なプログラム命令及びデータを記憶するように構成されている。チップシステムは、チップを含み得る、又は、チップ及び別のディスクリートコンポーネントを含み得る。
第9態様によると、本願は、第1態様の実装のうち任意の1つに係る方法を使用することによって生成されたビットストリームを含むコンピュータ可読記憶媒体を提供する。
本願の実施形態に係るオーディオ処理システムの組織構造の概略図である。
本願の実施形態に係るオーディオエンコーダ及びオーディオデコーダの端末デバイスへの適用の概略図である。
本願の実施形態に係るオーディオエンコーダの無線デバイス又はコアネットワークデバイスへの適用の概略図である。
本願の実施形態に係るオーディオデコーダの無線デバイス又はコアネットワークデバイスへの適用の概略図である。
本願の実施形態に係るマルチチャネルエンコーダ及びマルチチャネルデコーダの端末デバイスへの適用の概略図である。
本願の実施形態に係るマルチチャネルエンコーダの無線デバイス又はコアネットワークデバイスへの適用の概略図である。
本願の実施形態に係るマルチチャネルデコーダの無線デバイス又はコアネットワークデバイスへの適用の概略図である。
本願の実施形態に係るオーディオ符号化装置及びオーディオ復号装置の間の相互作用の概略フローチャートである。
本願の実施形態に係るエンコーダ側の構造の概略図である。
本願の実施形態に係るデコーダ側の構造の概略図である。
本願の実施形態に係るエンコーダ側の構造の概略図である。
本願の実施形態に係る、球面に対して略均等に分布された仮想スピーカの概略図である。
本願の実施形態に係るエンコーダ側の構造の概略図である。
本願の実施形態に係るオーディオ符号化装置の組織構造の概略図である。
本願の実施形態に係るオーディオ復号装置の組織構造の概略図である。
本願の実施形態に係る別のオーディオ符号化装置の組織構造の概略図である。
本願の実施形態に係る別のオーディオ復号装置の組織構造の概略図である。
本願の実施形態は、オーディオの符号化及び復号方法及び装置を提供して、符号化シーンにおけるオーディオ信号のデータの量を減らし、符号化及び復号の効率を向上させる。
以下では、添付図面を参照しながら本願の実施形態を説明する。
本願の明細書、特許請求の範囲、及び添付図面において、「第1」、「第2」などの用語は、同様のオブジェクトを区別することを意図するものであり、必ずしも、具体的な順番又は順序を示すものではない。このように使用された用語は、適切な状況において入れ替え可能であり、これは、同じ属性を有するオブジェクトが本願の実施形態において説明されているときに使用される識別方式に過ぎないことを理解されたい。加えて、用語「含む(include)」、「有する(have)」及びそれらの任意の変形例は、非排他的な包含をカバーすることを意図しており、その結果、一連のユニットを含む処理、方法、システム、製品、又はデバイスは、必ずしもそれらユニットに限定されるものではなく、明示的に列挙されていない又はこのような処理、方法、製品、又はデバイスに固有でない他のユニットを含み得る。
本願の実施形態における技術的解決手段は、様々なオーディオ処理システムに適用され得る。図1は、本願の実施形態に係るオーディオ処理システムの組織構造の概略図である。オーディオ処理システム100は、オーディオ符号化装置101及びオーディオ復号装置102を含み得る。オーディオ符号化装置101は、ビットストリームを生成し、その後、オーディオ符号化ビットストリームは、オーディオ伝送チャネルを通じてオーディオ復号装置102に伝送され得るように構成され得る。オーディオ復号装置102は、ビットストリームを受信し、その後、オーディオ復号装置102のオーディオ復号機能を実行して、最後に再構築された信号を取得し得る。
本願の実施形態において、オーディオ符号化装置は、オーディオ通信要件を有する様々な端末デバイス、及び、トランスコード要件を有する無線デバイス及びコアネットワークデバイスに適用され得る。例えば、オーディオ符号化装置は、前述の端末デバイス、無線デバイス、又はコアネットワークデバイスのオーディオエンコーダであり得る。同様に、オーディオ復号装置は、オーディオ通信要件を有する様々な端末デバイス、及び、トランスコード要件を有する無線デバイス及びコアネットワークデバイスに適用され得る。例えば、オーディオ復号装置は、前述の端末デバイス、無線デバイス、又はコアネットワークデバイスのオーディオデコーダであり得る。例えば、オーディオエンコーダは、無線アクセスネットワーク、コアネットワークの媒体ゲートウェイ、トランスコードデバイス、媒体リソースサーバ、モバイル端末、及び固定ネットワーク端末等を含み得る。オーディオエンコーダはさらに、仮想現実(virtual reality,VR)技術ストリーミング媒体(streaming)サービスに適用されたオーディオコーデックであり得る。
本願の本実施形態においては、仮想現実ストリーミング媒体(VR streaming)サービスに適用可能なオーディオの符号化及び復号モジュール(audio encoding及びaudio decoding)が、例として使用されている。エンドツーエンドオーディオ信号処理手順は、以下を含む:前処理オペレーション(audio preprocessing)は、オーディオ信号Aが取得モジュール(acquisition)を通過した後、オーディオ信号Aに対して実行される。前処理オペレーションは、20Hz又は50Hzを境界ポイントとして使用することによって、信号における低周波数部分をフィルタリングすることを含む。信号における向きの情報が抽出される。符号化処理(audio encoding)及びカプセル化(file/segment encapsulation)の後、オーディオ信号は、デコーダ側に送達される(delivery)。デコーダ側はまず、デカプセル化(file/segment decapsulation)を実行し、その後、復号(audio decoding)を実行する。バイノーラルレンダリング(audio rendering)処理が、復号された信号に対して実行され、レンダリングされた信号は、リスナーのヘッドホン(headphones)にマッピングされる。ヘッドホンは、独立したヘッドホンであってもよく、又は、メガネデバイス上のヘッドホンであってもよい。
図2aは、本願の実施形態に係るオーディオエンコーダ及びオーディオデコーダの端末デバイスへの適用の概略図である。各端末デバイスは、オーディオエンコーダ、チャネルエンコーダ、オーディオデコーダ、及びチャネルデコーダを含み得る。具体的には、チャネルエンコーダは、オーディオ信号に対してチャネル符号化を実行するように構成されており、チャネルデコーダは、オーディオ信号に対してチャネル復号を実行するように構成されている。例えば、第1端末デバイス20は、第1オーディオエンコーダ201、第1チャネルエンコーダ202、第1オーディオデコーダ203、及び第1チャネルデコーダ204を含み得る。第2端末デバイス21は、第2オーディオデコーダ211、第2チャネルデコーダ212、第2オーディオエンコーダ213、及び第2チャネルエンコーダ214を含み得る。第1端末デバイス20は、無線又は有線の第1ネットワーク通信デバイス22に接続されており、第1ネットワーク通信デバイス22は、デジタルチャネルを通じて無線又は有線の第2ネットワーク通信デバイス23に接続されており、第2端末デバイス21は、無線又は有線の第2ネットワーク通信デバイス23に接続されている。無線又は有線のネットワーク通信デバイスは、一般には、信号伝送デバイス、例えば、通信基地局又はデータ切り替えデバイスであり得る。
オーディオ通信において、送信端としてサービス提供している端末デバイスはまず、オーディオを取得し、取得したオーディオ信号に対してオーディオ符号化を実行し、その後、チャネル符号化を実行し、無線ネットワーク又はコアネットワークを使用することによってデジタルチャネル上でオーディオ信号を伝送する。受信端としてサービス提供している端末デバイスは、受信信号に基づいてチャネル復号を実行することでビットストリームを取得し、その後、オーディオ復号を通じてオーディオ信号を復元する。受信端としてサービス提供している端末デバイスは、オーディオプレイバックを実行する。
図2bは、本願の実施形態に係るオーディオエンコーダの無線デバイス又はコアネットワークデバイスへの適用の概略図である。無線デバイス又はコアネットワークデバイス25は、チャネルデコーダ251、別のオーディオデコーダ252、本願の本実施形態において提供されたオーディオエンコーダ253、及びチャネルエンコーダ254を含む。別のオーディオデコーダ252は、上記オーディオデコーダ以外のオーディオデコーダである。無線デバイス又はコアネットワークデバイス25において、デバイスに入力される信号はまず、チャネルデコーダ251を使用することによってチャネル復号され、その後、別のオーディオデコーダ252を使用することによってオーディオ復号が実行され、その後、本願の本実施形態において提供されたオーディオエンコーダ253を使用することによってオーディオ符号化が実行される。最後に、オーディオ信号は、チャネルエンコーダ254を使用することによってチャネル符号化され、その後、チャネル符号化が完了した後、伝送される。別のオーディオデコーダ252は、チャネルデコーダ251によって復号されたビットストリームに対してオーディオ復号を実行する。
図2cは、本願の実施形態に係るオーディオデコーダの無線デバイス又はコアネットワークデバイスへの適用の概略図である。無線デバイス又はコアネットワークデバイス25は、チャネルデコーダ251、本願の本実施形態において提供されたオーディオデコーダ255、別のオーディオエンコーダ256、及びチャネルエンコーダ254を含む。別のオーディオエンコーダ256は、上記オーディオエンコーダ以外の別のオーディオエンコーダである。無線デバイス又はコアネットワークデバイス25において、デバイスに入力される信号はまず、チャネルデコーダ251を使用することによってチャネル復号され、その後、受信されたオーディオ符号化ビットストリームは、オーディオデコーダ255を使用することによって復号され、その後、別のオーディオエンコーダ256を使用することによってオーディオ符号化が実行される。最後に、オーディオ信号は、チャネルエンコーダ254を使用することによってチャネル符号化され、その後、チャネル符号化が完了した後、伝送される。無線デバイス又はコアネットワークデバイスにおいて、トランスコーディングが実装される必要がある場合、対応するオーディオの符号化及び復号処理が実行される必要がある。無線デバイスは、通信における無線周波数関連デバイスであり、コアネットワークデバイスは、通信におけるコアネットワーク関連デバイスである。
本願のいくつかの実施形態において、オーディオ符号化装置は、オーディオ通信要件を有する様々な端末デバイス、及び、トランスコード要件を有する無線デバイス及びコアネットワークデバイスに適用され得る。例えば、オーディオ符号化装置は、前述の端末デバイス、無線デバイス、又はコアネットワークデバイスのマルチチャネルエンコーダであり得る。同様に、オーディオ復号装置は、オーディオ通信要件を有する様々な端末デバイス、及び、トランスコード要件を有する無線デバイス及びコアネットワークデバイスに適用され得る。例えば、オーディオ復号装置は、前述の端末デバイス、無線デバイス、又はコアネットワークデバイスのマルチチャネルデコーダであり得る。
図3aは、本願の実施形態に係るマルチチャネルエンコーダ及びマルチチャネルデコーダの端末デバイスへの適用の概略図である。各端末デバイスは、マルチチャネルエンコーダ、チャネルエンコーダ、マルチチャネルデコーダ、及びチャネルデコーダを含み得る。マルチチャネルエンコーダは、本願の本実施形態において提供されたオーディオ符号化方法を実行し得、マルチチャネルデコーダは、本願の本実施形態において提供されたオーディオ復号方法を実行し得る。具体的には、チャネルエンコーダは、マルチチャネル信号に対してチャネル符号化を実行するために使用されており、チャネルデコーダは、マルチチャネル信号に対してチャネル復号を実行するために使用されている。例えば、第1端末デバイス30は、第1マルチチャネルエンコーダ301、第1チャネルエンコーダ302、第1マルチチャネルデコーダ303、及び第1チャネルデコーダ304を含み得る。第2端末デバイス31は、第2マルチチャネルデコーダ311、第2チャネルデコーダ312、第2マルチチャネルエンコーダ313、及び第2チャネルエンコーダ314を含み得る。第1端末デバイス30は、無線又は有線の第1ネットワーク通信デバイス32に接続されており、第1ネットワーク通信デバイス32は、デジタルチャネルを通じて無線又は有線の第2ネットワーク通信デバイス33に接続されており、第2端末デバイス31は、無線又は有線の第2ネットワーク通信デバイス33に接続されている。無線又は有線のネットワーク通信デバイスは、一般には、信号伝送デバイス、例えば、通信基地局又はデータ切り替えデバイスであり得る。オーディオ通信において、送信端としてサービス提供している端末デバイスは、取得されたマルチチャネル信号に対してマルチチャネル符号化を実行し、その後、チャネル符号化を実行し、無線ネットワーク又はコアネットワークを使用することによってデジタルチャネル上でマルチチャネル信号を伝送する。受信端としてサービス提供している端末デバイスは、受信信号に基づいてチャネル復号を実行することでマルチチャネル信号符号化ビットストリームを取得し、その後、マルチチャネル復号を通じてマルチチャネル信号を復元し、受信端としてサービス提供している端末デバイスはプレイバックを実行する。
図3bは、本願の実施形態に係るマルチチャネルエンコーダの無線デバイス又はコアネットワークデバイスへの適用の概略図である。無線デバイス又はコアネットワークデバイス35は、チャネルデコーダ351、別のオーディオデコーダ352、マルチチャネルエンコーダ353、及びチャネルエンコーダ354を含む。図3bは図2bと同様であり、詳細については本明細書で改めて説明しない。
図3cは、本願の実施形態に係るマルチチャネルデコーダの無線デバイス又はコアネットワークデバイスへの適用の概略図である。無線デバイス又はコアネットワークデバイス35は、チャネルデコーダ351、マルチチャネルデコーダ355、別のオーディオエンコーダ356、及びチャネルエンコーダ354を含む。図3cは図2cと同様であり、詳細については本明細書で改めて説明しない。
オーディオ符号化処理は、マルチチャネルエンコーダの一部であり得、オーディオ復号処理は、マルチチャネルデコーダの一部であり得る。例えば、取得されたマルチチャネル信号に対してマルチチャネル符号化を実行することは、取得されたマルチチャネル信号を処理することでオーディオ信号を取得し、その後、本願の本実施形態において提供された方法に従って、取得されたオーディオ信号を符号化することであり得る。デコーダ側は、マルチチャネル信号符号化ビットストリームに基づいて復号を実行することでオーディオ信号を取得し、アップミックス処理の後にマルチチャネル信号を復元する。したがって、本願の実施形態は、端末デバイス、無線デバイス、又はコアネットワークデバイス内のマルチチャネルエンコーダ及びマルチチャネルデコーダに適用される場合もある。無線デバイス又はコアネットワークデバイスにおいて、トランスコーディングが実装される必要がある場合、対応するマルチチャネル符号化及び復号処理が実行される必要がある。
本願の実施形態において提供されたオーディオの符号化及び復号方法は、オーディオ符号化方法及びオーディオ復号方法を含み得る。オーディオ符号化方法はオーディオ符号化装置によって実行され、オーディオ復号方法はオーディオ復号装置によって実行され、オーディオ符号化装置及びオーディオ復号装置は互いに通信し得る。以下は、前述のシステムアーキテクチャ、オーディオ符号化装置、及びオーディオ復号装置に基づいて、本願の実施形態において提供されたオーディオ符号化方法及びオーディオ復号方法を説明する。図4は、本願の実施形態に係るオーディオ符号化装置及びオーディオ復号装置の間の相互作用の概略フローチャートである。以下の段階401から段階403は、オーディオ符号化装置(以下では、エンコーダ側と称される)によって実行され得、以下の段階411から段階413は、オーディオ復号装置(以下では、デコーダ側と称される)によって実行され得る。主に含まれるのは、以下のプロセスである。
401:現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第1ターゲット仮想スピーカを選択する。
エンコーダ側は、現在のシーンオーディオ信号を取得する。現在のシーンオーディオ信号は、空間におけるマイクが位置された位置において音場を取得することによって取得されたオーディオ信号であり、現在のシーンオーディオ信号は、元のシーンにおけるオーディオ信号とも称され得る。例えば、現在のシーンオーディオ信号は、高次アンビソニックス(higher order ambisonics,HOA)技術を使用することによって取得されたオーディオ信号であり得る。
本願の本実施形態において、エンコーダ側は、仮想スピーカセットを予め構成し得る。仮想スピーカセットは、複数の仮想スピーカを含み得る。シーンオーディオ信号の実際のプレイバック中に、シーンオーディオ信号は、ヘッドホンを使用することによってプレイバックされ得、又は、部屋内に配置された複数のスピーカを使用することによってプレイバックされ得る。スピーカがプレイバックのために使用されるとき、基本の方法は、複数のスピーカの信号を重畳することである。このように、特定の基準下で、空間内のあるポイント(リスナーの位置)における音場は、シーンオーディオ信号が記録されるときの原音場にできる限り近い。本願の本実施形態において、仮想スピーカは、シーンオーディオ信号に対応するプレイバック信号を計算するために使用されており、プレイバック信号は伝送信号として使用されており、圧縮信号がさらに生成される。仮想スピーカは、空間的音場において仮想的に存在するスピーカを表しており、仮想スピーカは、エンコーダ側におけるシーンオーディオ信号のプレイバックを実装し得る。
本願の本実施形態において、仮想スピーカセットは、複数の仮想スピーカを含み、複数の仮想スピーカの各々は、仮想スピーカ構成パラメータ(略して、構成パラメータ)に対応する。仮想スピーカ構成パラメータは、限定されるものではないが、仮想スピーカの数、仮想スピーカのHOA次数、及び仮想スピーカの位置座標などの情報を含む。仮想スピーカセットを取得した後、エンコーダ側は、現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第1ターゲット仮想スピーカを選択する。現在のシーンオーディオ信号は元のシーンにおける符号化対象のオーディオ信号であり、第1ターゲット仮想スピーカは仮想スピーカセットにおける仮想スピーカであり得る。例えば、第1ターゲット仮想スピーカは、予め構成されたターゲット仮想スピーカ選択ポリシに従って、予め設定された仮想スピーカセットから選択され得る。ターゲット仮想スピーカ選択ポリシは、現在のシーンオーディオ信号とマッチングするターゲット仮想スピーカを仮想スピーカセットから選択するポリシ、例えば、現在のシーンオーディオ信号から各仮想スピーカによって取得された音場成分に基づいて、第1ターゲット仮想スピーカを選択することである。別の例の場合、第1ターゲット仮想スピーカは、各仮想スピーカの位置情報に基づいて現在のシーンオーディオ信号から選択される。第1ターゲット仮想スピーカは、仮想スピーカセット内の且つ現在のシーンオーディオ信号をプレイバックするために使用されている仮想スピーカであり、すなわち、エンコーダ側は、仮想スピーカセットから、現在のシーンオーディオ信号をプレイバックし得るターゲット仮想エンコーダを選択し得る。
本願の本実施形態において、第1ターゲット仮想スピーカが段階401において選択された後、第1ターゲット仮想スピーカに対する後続の処理プロセス、例えば後続の段階402及び段階403が、実行され得る。これは、本明細書において限定されるものではない。本願の本実施形態において、第1ターゲット仮想スピーカに加えて、より多くのターゲット仮想スピーカが選択される場合もある。例えば、第2ターゲット仮想スピーカが選択され得る。第2ターゲット仮想スピーカの場合、後続の段階402及び段階403と同様のプロセスが実行される必要もある。詳細については、以下の実施形態における説明を参照されたい。
本願の本実施形態において、エンコーダ側が第1ターゲット仮想スピーカを選択した後、エンコーダ側はさらに、第1ターゲット仮想スピーカの属性情報を取得し得る。第1ターゲット仮想スピーカの属性情報は、第1ターゲット仮想スピーカの属性に関連した情報を含む。属性情報は、特定のアプリケーションシーンに基づいて設定され得る。例えば、第1ターゲット仮想スピーカの属性情報は、第1ターゲット仮想スピーカの位置情報又は第1ターゲット仮想スピーカのHOA係数を含む。第1ターゲット仮想スピーカの位置情報は、第1ターゲット仮想スピーカの空間的分布位置であり得、又は、別の仮想スピーカに対する仮想スピーカセットにおける第1ターゲット仮想スピーカの位置についての情報であり得る。本明細書ではこれについて具体的に限定しない。仮想スピーカセットにおける各仮想スピーカは、HOA係数に対応しており、HOA係数は、アンビソニック係数とも称され得る。以下では、仮想スピーカのHOA係数について説明する。
例えば、HOA次数は、2次~10次のうち1つの次数であり得、オーディオ信号記録中の信号サンプリングレートは48~192キロヘルツ(kHz)であり、サンプリング深さは16又は24ビット(bit)である。HOA信号は、仮想スピーカのHOA係数、及びシーンオーディオ信号に基づいて生成され得る。HOA信号は、音場を有する空間情報によって特定付けられ、HOA信号は、空間における特定のポイントでの音場信号の特定の精度を説明する情報である。したがって、位置ポイントにおける音場信号を説明するために別の表現形式が使用されることが考えられ得る。この説明方法において、空間的位置ポイントにおける信号は、より少量のデータを使用することによって同じ精度で説明され得、それにより信号圧縮を実装する。空間的音場は、複数の平面波の重畳に分解され得る。したがって、理論的には、HOA信号によって表現された音場は、複数の平面波の重畳を使用することによって表現され得、各平面波は、1チャネルオーディオ信号及び方向ベクトルを使用することによって表される。平面波重畳の表現形式は、より少ないチャネルを使用することによって原音場を正確に表現し得、それにより信号圧縮を実装する。
本願のいくつかの実施形態において、エンコーダ側によって実行される前述の段階401に加えて、本願の本実施形態において提供されたオーディオ符号化方法は、以下の段階をさらに含む。
A1:仮想スピーカセットに基づいて、現在のシーンオーディオ信号からメイン音場成分を取得する。
段階A1におけるメイン音場成分は、第1メイン音場成分とも称され得る。
段階A1が実行されるシナリオにおいて、前述の段階401における、現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第1ターゲット仮想スピーカを選択する上記段階は、以下を含む。
B1:メイン音場成分に基づいて、仮想スピーカセットから第1ターゲット仮想スピーカを選択する。
エンコーダ側は、仮想スピーカセットを取得し、エンコーダ側は、仮想スピーカセットを使用することによって現在のシーンオーディオ信号に対して信号分解を実行し、それにより、現在のシーンオーディオ信号に対応するメイン音場成分を取得する。メイン音場成分は、現在のシーンオーディオ信号におけるメイン音場に対応するオーディオ信号を表す。例えば、仮想スピーカセットは、複数の仮想スピーカを含み、複数の音場成分は、複数の仮想スピーカに基づいて、現在のシーンオーディオ信号から取得され得る、すなわち、各仮想スピーカは、現在のシーンオーディオ信号から1つの音場成分を取得して、その後、メイン音場成分が複数の音場成分から選択され得る。例えば、メイン音場成分は、複数の音場成分のうち最大値を有する1つ又はいくつかの音場成分であり得、又は、メイン音場成分は、複数の音場成分のうち優勢な方向性を有する1つ又はいくつかの音場成分であり得る。仮想スピーカセットにおける各仮想スピーカは音場成分に対応しており、第1ターゲット仮想スピーカは、メイン音場成分に基づいて、仮想スピーカセットから選択される。例えば、メイン音場成分に対応する仮想スピーカは、エンコーダ側によって選択された第1ターゲット仮想スピーカである。本願の本実施形態において、エンコーダ側は、メイン音場成分に基づいて、第1ターゲット仮想スピーカを選択し得る。このように、エンコーダ側は、第1ターゲット仮想スピーカを決定し得る。
本願の本実施形態において、エンコーダ側は、複数の方式で第1ターゲット仮想スピーカを選択し得る。例えば、エンコーダ側は、指定された位置における仮想スピーカを第1ターゲット仮想スピーカとして予め設定し得る、すなわち、仮想スピーカセットにおける各仮想スピーカの位置に基づいて、指定された位置を満たす仮想スピーカを第1ターゲット仮想スピーカとして選択し得る。これは、本明細書において限定されるものではない。
本願のいくつかの実施形態において、前述の段階B1における、メイン音場成分に基づいて、仮想スピーカセットから第1ターゲット仮想スピーカを選択する上記段階は、
メイン音場成分に基づいて、高次アンビソニックスHOA係数セットからメイン音場成分のHOA係数を選択する段階、ここで、HOA係数セットにおけるHOA係数は、仮想スピーカセットにおける仮想スピーカと1対1の対応関係にある;及び
メイン音場成分のHOA係数に対応し且つ仮想スピーカセットにおける仮想スピーカを、第1ターゲット仮想スピーカとして決定する段階
を含む。
エンコーダ側は、仮想スピーカセットに基づいてHOA係数セットを予め構成し、HOA係数セットにおけるHOA係数及び仮想スピーカセットにおける仮想スピーカの間には1対1の対応関係が存在する。したがって、HOA係数がメイン音場成分に基づいて選択された後、仮想スピーカセットを、1対1の対応関係に基づいて、メイン音場成分のHOA係数に対応するターゲット仮想スピーカから検索する。発見されたターゲット仮想スピーカは、第1ターゲット仮想スピーカである。このように、エンコーダ側は、第1ターゲット仮想スピーカを決定し得る。例えば、HOA係数セットは、HOA係数1、HOA係数2、及びHOA係数3を含み、仮想スピーカセットは、仮想スピーカ1、仮想スピーカ2、及び仮想スピーカ3を含む。HOA係数セットにおけるHOA係数は、仮想スピーカセットにおける仮想スピーカと1対1の対応関係にある。例えば、HOA係数1は仮想スピーカ1に対応しており、HOA係数2は仮想スピーカ2に対応しており、HOA係数3は仮想スピーカ3に対応している。メイン音場成分に基づいてHOA係数3がHOA係数セットから選択される場合、第1ターゲット仮想スピーカは仮想スピーカ3であることが決定され得る。
本願のいくつかの実施形態において、前述の段階B1における、メイン音場成分に基づいて、仮想スピーカセットから第1ターゲット仮想スピーカを選択する上記段階は、以下をさらに含む。
C1:メイン音場成分に基づいて、第1ターゲット仮想スピーカの構成パラメータを取得する。
C2:第1ターゲット仮想スピーカの構成パラメータに基づいて、第1ターゲット仮想スピーカのHOA係数を生成する。
C3:第1ターゲット仮想スピーカのHOA係数に対応し且つ仮想スピーカセットにおける仮想スピーカを、第1ターゲット仮想スピーカとして決定する。
前述の解決手段において、メイン音場成分を取得した後、エンコーダ側は、メイン音場成分に基づいて第1ターゲット仮想スピーカの構成パラメータを決定するために使用され得る。例えば、メイン音場成分は、複数の音場成分のうち最大値を有する1つ又はいくつかの音場成分であり、又は、メイン音場成分は、複数の音場成分のうち優勢な方向性を有する1つ又はいくつかの音場成分であり得る。メイン音場成分は、現在のシーンオーディオ信号とマッチングする第1ターゲット仮想スピーカを決定するために使用され得、対応する属性情報は第1ターゲット仮想スピーカのために構成されており、第1ターゲット仮想スピーカのHOA係数は、第1ターゲット仮想スピーカの構成パラメータに基づいて生成され得る。HOA係数を生成するプロセスは、HOAアルゴリズムに従って実装され得、詳細については本明細書において説明しない。仮想スピーカセットにおける各仮想スピーカは、HOA係数に対応している。したがって、第1ターゲット仮想スピーカは、各仮想スピーカのHOA係数に基づいて、仮想スピーカセットから選択され得る。このように、エンコーダ側は、第1ターゲット仮想スピーカを決定し得る。
本願のいくつかの実施形態において、段階C1におけるメイン音場成分に基づいて、第1ターゲット仮想スピーカの構成パラメータを取得する上記段階は、
オーディオエンコーダの構成情報に基づいて、仮想スピーカセットにおける複数の仮想スピーカの構成パラメータを決定する段階;及び
メイン音場成分に基づいて、複数の仮想スピーカの構成パラメータから第1ターゲット仮想スピーカの構成パラメータを選択する段階
を含む。
前述の解決手段において、オーディオエンコーダは、複数の仮想スピーカのそれぞれの構成パラメータを予め記憶し得る。各仮想スピーカの構成パラメータは、オーディオエンコーダの構成情報に基づいて決定され得る。オーディオエンコーダは、前述のエンコーダ側である。オーディオエンコーダの構成情報は、限定されるものではないが、HOA次数、及び符号化ビットレート等を含む。オーディオエンコーダの構成情報は、各仮想スピーカの仮想スピーカ及び位置パラメータの数を決定するために使用され得る。このように、エンコーダ側は、仮想スピーカの構成パラメータを決定し得る。例えば、符号化ビットレートが低い場合、少数の仮想スピーカが構成され得;符号化ビットレートが高い場合、複数の仮想スピーカが構成され得る。別の例の場合、仮想スピーカのHOA次数は、オーディオエンコーダのHOA次数に等しくてよい。本願の本実施形態において、オーディオエンコーダの構成情報に基づいて複数の仮想スピーカのそれぞれの構成パラメータを決定する段階に加えて、複数の仮想スピーカのそれぞれの構成パラメータはさらに、ユーザにより定義された情報に基づいて決定され得る。例えば、ユーザは、仮想スピーカの位置、HOA次数、及び仮想スピーカの数等を定義し得る。これは、本明細書において限定されるものではない。
エンコーダ側は、仮想スピーカセットから、複数の仮想スピーカの構成パラメータを取得する。各仮想スピーカには、仮想スピーカの対応する構成パラメータが存在し、各仮想スピーカの構成パラメータは、限定されるものではないが、仮想スピーカのHOA次数及び仮想スピーカの位置座標などの情報を含む。各仮想スピーカのHOA係数は、仮想スピーカの構成パラメータに基づいて生成され得、HOA係数を生成するプロセスは、HOAアルゴリズムに従って実装され得、詳細については本明細書で改めて説明しない。1つのHOA係数は、仮想スピーカセットにおける各仮想スピーカのために別個に生成され、仮想スピーカセットにおける全ての仮想スピーカのために別個に構成された複数のHOA係数は、HOA係数セットを形成する。このように、エンコーダ側は、仮想スピーカセットにおける各仮想スピーカのHOA係数を決定し得る。
本願のいくつかの実施形態において、第1ターゲット仮想スピーカの構成パラメータは、第1ターゲット仮想スピーカの位置情報及びHOA次数情報を含み;
前述の段階C2における、第1ターゲット仮想スピーカの構成パラメータに基づいて、第1ターゲット仮想スピーカのHOA係数を生成する上記段階は、
第1ターゲット仮想スピーカの位置情報及びHOA次数情報に基づいて、第1ターゲット仮想スピーカのHOA係数を決定する段階
を含む。
仮想スピーカセットにおける各仮想スピーカの構成パラメータは、仮想スピーカの位置情報、及び仮想スピーカのHOA次数情報を含み得る。同様に、第1ターゲット仮想スピーカの構成パラメータは、第1ターゲット仮想スピーカの位置情報及びHOA次数情報を含む。例えば、仮想スピーカセットにおける各仮想スピーカの位置情報は、ローカルに等距離な仮想スピーカ空間分布方式に基づいて決定され得る。ローカルに等距離な仮想スピーカ空間分布方式は、複数の仮想スピーカがローカルに等距離な方式で空間内に分布されていることを指す。例えば、ローカルに等距離であることは、均等に分布された又は不均等に分布されたことを含み得る。各仮想スピーカのHOA係数は、仮想スピーカの位置情報及びHOA次数情報に基づいて生成され得、HOA係数を生成するプロセスは、HOAアルゴリズムに従って実装され得る。このように、エンコーダ側は、第1ターゲット仮想スピーカのHOA係数を決定し得る。
加えて、本願の本実施形態において、HOA係数のグループは仮想スピーカセットにおける各仮想スピーカのために別個に生成され、HOA係数の複数のグループは、前述のHOA係数セットを形成する。HOA係数は、仮想スピーカセットにおける全ての仮想スピーカのために別個に構成されて、HOA係数セットを形成する。このように、エンコーダ側は、仮想スピーカセットにおける各仮想スピーカのHOA係数を決定し得る。
402:現在のシーンオーディオ信号、及び第1ターゲット仮想スピーカの属性情報に基づいて、第1仮想スピーカ信号を生成する。
エンコーダ側が現在のシーンオーディオ信号、及び第1ターゲット仮想スピーカの属性情報を取得した後、エンコーダ側は、現在のシーンオーディオ信号をプレイバックし得、エンコーダ側は、現在のシーンオーディオ信号、及び第1ターゲット仮想スピーカの属性情報に基づいて、第1仮想スピーカ信号を生成する。第1仮想スピーカ信号は、現在のシーンオーディオ信号のプレイバック信号である。第1ターゲット仮想スピーカの属性情報は、第1ターゲット仮想スピーカの属性に関連した情報を説明する。第1ターゲット仮想スピーカは、エンコーダ側によって選択され且つ現在のシーンオーディオ信号をプレイバックし得る仮想スピーカである。したがって、現在のシーンオーディオ信号は、第1ターゲット仮想スピーカの属性情報に基づいてプレイバックされ、それにより第1仮想スピーカ信号を取得する。第1仮想スピーカ信号のデータ量は、現在のシーンオーディオ信号のチャネルの数とは無関係であり、第1仮想スピーカ信号のデータ量は、第1ターゲット仮想スピーカに関連している。例えば、本願の本実施形態において、現在のシーンオーディオ信号と比較すると、第1仮想スピーカ信号は、より少ないチャネルを使用することによって表されている。例えば、現在のシーンオーディオ信号は3次HOA信号であり、HOA信号は16チャネルである。本願の本実施形態において、16チャネルは2つのチャネルに圧縮され得る、すなわち、エンコーダ側によって生成された仮想スピーカ信号は2チャネルである。例えば、エンコーダ側によって生成された仮想スピーカ信号は、前述の第1仮想スピーカ信号及び第2仮想スピーカ信号を含み得、エンコーダ側によって生成された仮想スピーカ信号のチャネルの数は、第1シーンオーディオ信号のチャネルの数とは無関係である。ビットストリームが2チャネルの第1仮想スピーカ信号を搬送し得ることが、後続の段階の説明から分かり得る。それに応じて、デコーダ側はビットストリームを受信し、ビットストリームを復号することで2チャネル仮想スピーカ信号を取得し、デコーダ側は、2チャネル仮想スピーカ信号に基づいて16チャネルシーンオーディオ信号を再構築し得る。加えて、再構築されたシーンオーディオ信号が、元のシーンにおけるオーディオ信号と同じ主観的及び客観的品質を有することが保証されている。
前述の段階401及び段階402は、動画専門家集団(moving picture experts group,MPEG)の空間エンコーダによって具体的に実装され得ることが理解され得る。
本願のいくつかの実施形態において、現在のシーンオーディオ信号は符号化対象のHOA信号を含み得、第1ターゲット仮想スピーカの属性情報は第1ターゲット仮想スピーカのHOA係数を含み;
段階402における、現在のシーンオーディオ信号、及び第1ターゲット仮想スピーカの属性情報に基づいて、第1仮想スピーカ信号を生成する上記段階は、
第1ターゲット仮想スピーカの符号化対象のHOA信号及びHOA係数に対して線形結合を実行して、第1仮想スピーカ信号を取得する段階
を含む。
例えば、現在のシーンオーディオ信号は、符号化対象のHOA信号である。エンコーダ側は、まず、第1ターゲット仮想スピーカのHOA係数を決定する。例えば、エンコーダ側は、メイン音場成分に基づいて、HOA係数セットからHOA係数を選択する。選択されたHOA係数は、第1ターゲット仮想スピーカのHOA係数である。エンコーダ側が、第1ターゲット仮想スピーカの符号化対象のHOA信号及びHOA係数を取得した後、第1仮想スピーカ信号が、第1ターゲット仮想スピーカの符号化対象のHOA信号及びHOA係数に基づいて生成され得る。符号化対象のHOA信号は、第1ターゲット仮想スピーカのHOA係数に対して線形結合を実行することによって取得され得、第1仮想スピーカ信号の解決手段は、線形結合の解決手段に変換され得る。
例えば、第1ターゲット仮想スピーカの属性情報は、第1ターゲット仮想スピーカのHOA係数を含み得る。エンコーダ側は、第1ターゲット仮想スピーカの属性情報を復号することによって、第1ターゲット仮想スピーカのHOA係数を取得し得る。エンコーダ側は、第1ターゲット仮想スピーカの符号化対象のHOA信号及びHOA係数に対して線形結合を実行し、すなわち、エンコーダ側は、第1ターゲット仮想スピーカの符号化対象のHOA信号及びHOA係数を共に組み合わせて、線形結合行列を取得する。その後、エンコーダ側は、線形結合行列に対して最適解を実行し得、取得された最適解は、第1仮想スピーカ信号である。最適解は、線形結合行列を解くために使用されているアルゴリズムに関連している。本願の本実施形態において、エンコーダ側は、第1仮想スピーカ信号を生成し得る。
本願のいくつかの実施形態において、現在のシーンオーディオ信号は符号化対象の高次アンビソニックスHOA信号を含み、第1ターゲット仮想スピーカの属性情報は第1ターゲット仮想スピーカの位置情報を含み;
段階402における、現在のシーンオーディオ信号、及び第1ターゲット仮想スピーカの属性情報に基づいて、第1仮想スピーカ信号を生成する上記段階は、
第1ターゲット仮想スピーカの位置情報に基づいて、第1ターゲット仮想スピーカのHOA係数を取得する段階;及び
第1ターゲット仮想スピーカの符号化対象のHOA信号及びHOA係数に対して線形結合を実行して、第1仮想スピーカ信号を取得する段階
を含む。
第1ターゲット仮想スピーカの属性情報は、第1ターゲット仮想スピーカの位置情報を含み得る。エンコーダ側は、仮想スピーカセットにおける各仮想スピーカのHOA係数を予め記憶し、エンコーダ側はさらに、各仮想スピーカの位置情報を記憶する。仮想スピーカの位置情報及び仮想スピーカのHOA係数の間には対応関係が存在する。したがって、エンコーダ側は、第1ターゲット仮想スピーカの位置情報に基づいて第1ターゲット仮想スピーカのHOA係数を決定し得る。属性情報がHOA係数を含む場合、エンコーダ側は、第1ターゲット仮想スピーカの属性情報を復号することによって、第1ターゲット仮想スピーカのHOA係数を取得し得る。
エンコーダ側が第1ターゲット仮想スピーカの符号化対象のHOA信号及びHOA係数を取得した後、エンコーダ側は、第1ターゲット仮想スピーカの符号化対象のHOA信号及びHOA係数に対して線形結合を実行し、すなわち、エンコーダ側は、第1ターゲット仮想スピーカの符号化対象のHOA信号及びHOA係数を共に組み合わせて、線形結合行列を取得する。その後、エンコーダ側は、線形結合行列に対して最適解を実行し得、取得された最適解は、第1仮想スピーカ信号である。
例えば、第1ターゲット仮想スピーカのHOA係数は行列Aによって表されており、符号化対象のHOA信号は、行列Aを使用することによって線形結合を通じて取得され得る。理論上の最適解wは、最小二乗法を使用することによって取得され得、すなわち、第1仮想スピーカ信号である。例えば、以下の計算式が使用され得る。
w=A-1
-1は行列Aの逆行列を表しており、行列Aのサイズは(M×C)であり、Cは第1ターゲット仮想スピーカの数であり、MはN次のHOA係数のチャネルの数であり、aは、第1ターゲット仮想スピーカのHOA係数を表す。例を以下に挙げる。
Xは符号化対象のHOA信号を表しており、行列Xのサイズは(M×L)であり、MはN次のHOA係数のチャネルの数であり、Lはサンプリングポイントの数であり、xは符号化対象のHOA信号の係数を表す。例を以下に挙げる。
403:仮想スピーカ信号を符号化して、ビットストリームを取得する。
本願の本実施形態において、エンコーダ側が第1仮想スピーカ信号を生成した後、エンコーダ側は、第1仮想スピーカ信号を符号化して、ビットストリームを取得し得る。例えば、エンコーダ側は、具体的にはコアエンコーダであり得、コアエンコーダは、第1仮想スピーカ信号を符号化して、ビットストリームを取得する。ビットストリームは、オーディオ信号符号化ビットストリームとも称され得る。本願の本実施形態において、エンコーダ側は、シーンオーディオ信号を符号化する代わりに、第1仮想スピーカ信号を符号化する。第1ターゲット仮想スピーカが選択され、その結果、空間におけるリスナーが位置付けられた位置における音場は、シーンオーディオ信号が記録されるときの原音場にできる限り近い。これは、エンコーダ側の符号化品質を保証する。加えて、第1仮想スピーカ信号の符号化されたデータの量は、シーンオーディオ信号のチャネルの数とは無関係である。これは、符号化されたシーンオーディオ信号のデータの量を減らし、符号化及び復号の効率を向上させる。
本願のいくつかの実施形態において、エンコーダ側が前述の段階401から段階403を実行した後、本願の本実施形態において提供されたオーディオ符号化方法は、以下の段階をさらに含む:
第1ターゲット仮想スピーカの属性情報を符号化する段階、及び、符号化された属性情報をビットストリームに書き込む段階。
仮想スピーカを符号化する段階に加えて、エンコーダ側は、第1ターゲット仮想スピーカの属性情報を符号化して、第1ターゲット仮想スピーカの符号化された属性情報をビットストリームに書き込む場合もある。この場合、取得されたビットストリームは、第1ターゲット仮想スピーカの符号化された仮想スピーカ及び符号化された属性情報を含み得る。本願の本実施形態において、ビットストリームは、第1ターゲット仮想スピーカの符号化された属性情報を搬送し得る。このように、デコーダ側は、ビットストリームを復号することによって、第1ターゲット仮想スピーカの属性情報を決定し得る。これは、デコーダ側におけるオーディオ復号を容易にする。
前述の段階401から段階403は、第1ターゲットスピーカが仮想スピーカセットから選択されたときに、第1ターゲット仮想スピーカに基づいて第1仮想スピーカ信号を生成し、第1仮想スピーカに基づいて信号符号化を実行するプロセスを説明していることに留意されたい。本願の本実施形態において、第1ターゲット仮想スピーカに加えて、エンコーダ側も、より多くのターゲット仮想スピーカを選択し得る。例えば、エンコーダ側はさらに、第2ターゲット仮想スピーカを選択し得る。第2ターゲット仮想スピーカの場合、前述の段階402及び段階403と同様のプロセスが実行される必要もある。これは、本明細書において限定されるものではない。詳細は以下で説明される。
本願のいくつかの実施形態において、エンコーダ側によって実行される前述の段階に加えて、本願の本実施形態において提供されたオーディオ符号化方法は、以下をさらに含む。
D1:第1シーンオーディオ信号に基づいて仮想スピーカセットから第2ターゲット仮想スピーカを選択する。
D2:第1シーンオーディオ信号、及び第2ターゲット仮想スピーカの属性情報に基づいて、第2仮想スピーカ信号を生成する。
D3:第2仮想スピーカ信号を符号化し、符号化された第2仮想スピーカ信号をビットストリームに書き込む。
段階D1の実装は、前述の段階401のそれと同様である。第2ターゲット仮想スピーカは、エンコーダ側によって選択され且つ第1ターゲット仮想エンコーダとは異なる別のターゲット仮想スピーカである。第1シーンオーディオ信号は元のシーンにおける符号化対象のオーディオ信号であり、第2ターゲット仮想スピーカは仮想スピーカセットにおける仮想スピーカであり得る。例えば、第2ターゲット仮想スピーカは、予め構成されたターゲット仮想スピーカ選択ポリシに従って、予め設定された仮想スピーカセットから選択され得る。ターゲット仮想スピーカ選択ポリシは、第1シーンオーディオ信号とマッチングするターゲット仮想スピーカを仮想スピーカセットから選択するポリシ、例えば、第1シーンオーディオ信号から各仮想スピーカによって取得された音場成分に基づいて、第2ターゲット仮想スピーカを選択することである。
本願のいくつかの実施形態において、本願の本実施形態において提供されたオーディオ符号化方法は、以下の段階をさらに含む。
E1:仮想スピーカセットに基づいて、第1シーンオーディオ信号から第2メイン音場成分を取得する。
段階E1が実行されるシナリオにおいて、前述の段階D1における、第1シーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第2ターゲット仮想スピーカを選択する段階は、以下を含む。
F1:第2メイン音場成分に基づいて、仮想スピーカセットから第2ターゲット仮想スピーカを選択する。
エンコーダ側は、仮想スピーカセットを取得し、エンコーダ側は、仮想スピーカセットを使用することによって第1シーンオーディオ信号に対して信号分解を実行し、それにより、第1シーンオーディオ信号に対応する第2メイン音場成分を取得する。第2メイン音場成分は、第1シーンオーディオ信号におけるメイン音場に対応するオーディオ信号を表す。例えば、仮想スピーカセットは、複数の仮想スピーカを含み、複数の音場成分は、複数の仮想スピーカに基づいて、第1シーンオーディオ信号から取得され得る、すなわち、各仮想スピーカは、第1シーンオーディオ信号から1つの音場成分を取得して、その後、第2メイン音場成分が複数の音場成分から選択され得る。例えば、第2メイン音場成分は、複数の音場成分のうち最大値を有する1つ又はいくつかの音場成分であり得、又は、第2メイン音場成分は、複数の音場成分のうち優勢な方向性を有する1つ又はいくつかの音場成分であり得る。第2ターゲット仮想スピーカは、第2メイン音場成分に基づいて、仮想スピーカセットから選択される。例えば、第2メイン音場成分に対応する仮想スピーカは、エンコーダ側によって選択された第2ターゲット仮想スピーカである。本願の本実施形態において、エンコーダ側は、メイン音場成分に基づいて、第2ターゲット仮想スピーカを選択し得る。このように、エンコーダ側は、第2ターゲット仮想スピーカを決定し得る。
本願のいくつかの実施形態において、前述の段階F1における、第2メイン音場成分に基づいて、仮想スピーカセットから第2ターゲット仮想スピーカを選択する上記段階は、
第2メイン音場成分に基づいて、HOA係数セットから第2メイン音場成分のHOA係数を選択する段階、ここで、HOA係数セットにおけるHOA係数は、仮想スピーカセットの仮想スピーカと1対1の対応関係にある;及び
第2メイン音場成分のHOA係数に対応し且つ仮想スピーカセットにおける仮想スピーカを、第2ターゲット仮想スピーカとして決定する段階
を含む。
前述の実装は、前述の実施形態における第1ターゲット仮想スピーカを決定するプロセスと同様であり、詳細については本明細書で改めて説明しない。
本願のいくつかの実施形態において、前述の段階F1における、第2メイン音場成分に基づいて、仮想スピーカセットから第2ターゲット仮想スピーカを選択する上記段階は、以下をさらに含む。
G1:第2メイン音場成分に基づいて、第2ターゲット仮想スピーカの構成パラメータを取得する。
G2:第2ターゲット仮想スピーカの構成パラメータに基づいて、第2ターゲット仮想スピーカのHOA係数を生成する。
G3:第2ターゲット仮想スピーカのHOA係数に対応し且つ仮想スピーカセットにおける仮想スピーカを、第2ターゲット仮想スピーカとして決定する。
前述の実装は、前述の実施形態における第1ターゲット仮想スピーカを決定するプロセスと同様であり、詳細については本明細書で改めて説明しない。
前述の実装は、前述の実施形態における第1ターゲット仮想スピーカを決定するプロセスと同様であり、詳細については本明細書で改めて説明しない。
本願のいくつかの実施形態において、段階G1における第2メイン音場成分に基づいて、第2ターゲット仮想スピーカの構成パラメータを取得する上記段階は、
オーディオエンコーダの構成情報に基づいて、仮想スピーカセットにおける複数の仮想スピーカの構成パラメータを決定する段階;及び
第2メイン音場成分に基づいて、複数の仮想スピーカの構成パラメータから第2ターゲット仮想スピーカの構成パラメータを選択する段階
を含む。
前述の実装は、前述の実施形態における第1ターゲット仮想スピーカの構成パラメータを決定するプロセスと同様であり、詳細については本明細書で改めて説明しない。
本願のいくつかの実施形態において、第2ターゲット仮想スピーカの構成パラメータは、第2ターゲット仮想スピーカの位置情報及びHOA次数情報を含む。
前述の段階G2における、第2ターゲット仮想スピーカの構成パラメータに基づいて、第2ターゲット仮想スピーカのHOA係数を生成する上記段階は、以下を含む:
第2ターゲット仮想スピーカの位置情報及びHOA次数情報に基づいて、第2ターゲット仮想スピーカのHOA係数を決定する段階。
前述の実装は、前述の実施形態における第1ターゲット仮想スピーカのHOA係数を決定するプロセスと同様であり、詳細については本明細書で改めて説明しない。
本願のいくつかの実施形態において、第1シーンオーディオ信号は符号化対象のHOA信号を含み得、第2ターゲット仮想スピーカの属性情報は第2ターゲット仮想スピーカのHOA係数を含み;
段階D2における、第1シーンオーディオ信号、及び第2ターゲット仮想スピーカの属性情報に基づいて、第2仮想スピーカ信号を生成する上記段階は、
第2ターゲット仮想スピーカの符号化対象のHOA信号及びHOA係数に対して線形結合を実行して、第2仮想スピーカ信号を取得する段階
を含む。
本願のいくつかの実施形態において、第1シーンオーディオ信号は符号化対象の高次アンビソニックスHOA信号を含み、第2ターゲット仮想スピーカの属性情報は第2ターゲット仮想スピーカの位置情報を含み;
段階D2における、第1シーンオーディオ信号、及び第2ターゲット仮想スピーカの属性情報に基づいて、第2仮想スピーカ信号を生成する上記段階は、
第2ターゲット仮想スピーカの位置情報に基づいて、第2ターゲット仮想スピーカのHOA係数を取得する段階;及び
第2ターゲット仮想スピーカの符号化対象のHOA信号及びHOA係数に対して線形結合を実行して、第2仮想スピーカ信号を取得する段階
を含む。
前述の実装は、前述の実施形態における第1仮想スピーカ信号を決定するプロセスと同様であり、詳細については本明細書で改めて説明しない。
本願の本実施形態において、エンコーダ側が第2仮想スピーカ信号を生成した後、エンコーダ側はさらに、段階D3を実行することで、第2仮想スピーカ信号を符号化して、符号化された第2仮想スピーカ信号をビットストリームに書き込み得る。エンコーダ側によって使用される符号化方法は段階403と同様である。このように、ビットストリームは、第2仮想スピーカ信号の符号化結果を搬送し得る。
本願のいくつかの実施形態において、エンコーダ側によって実行されるオーディオ符号化方法はさらに、以下の段階を含み得る。
I1:第1仮想スピーカ信号及び第2仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号を取得する。
段階I1が実行されるシナリオにおいて、それに応じて、段階D3における第2仮想スピーカ信号を符号化する上記段階は、
位置合わせされた第2仮想スピーカ信号を符号化する段階を含み、
それに応じて、段階403における第1仮想スピーカ信号を符号化する上記段階は、
位置合わせされた第1仮想スピーカ信号を符号化する段階を含む。
エンコーダ側は、第1仮想スピーカ信号及び第2仮想スピーカ信号を生成し得、エンコーダ側は、第1仮想スピーカ信号及び第2仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号を取得し得る。例えば、2つの仮想スピーカ信号が存在する。現在のフレームの仮想スピーカ信号のチャネルシーケンスは1及び2であり、それぞれ、ターゲット仮想スピーカP1及びP2によって生成された仮想スピーカ信号に対応している。前のフレームの仮想スピーカ信号のチャネルシーケンスは1及び2であり、それぞれ、ターゲット仮想スピーカP2及びP1によって生成された仮想スピーカ信号に対応している。この場合、現在のフレームの仮想スピーカ信号のチャネルシーケンスは、前のフレームのターゲット仮想スピーカのシーケンスに基づいて調整され得る。例えば、現在のフレームの仮想スピーカ信号のチャネルシーケンスは2及び1に調整され、その結果、同じターゲット仮想スピーカによって生成された仮想スピーカ信号は同じチャネル上にある。
位置合わせされた第1仮想スピーカ信号を取得した後、エンコーダ側は、位置合わせされた第1仮想スピーカ信号を符号化し得る。本願の本実施形態において、チャネル間の相関関係は、第1仮想スピーカ信号のチャネルを再調整及び再位置合わせすることによって強化される。これは、第1仮想スピーカ信号に対してコアエンコーダによって実行される符号化処理を容易にする。
本願のいくつかの実施形態において、エンコーダ側によって実行される前述の段階に加えて、本願の本実施形態において提供されたオーディオ符号化方法は、以下をさらに含む。
D1:第1シーンオーディオ信号に基づいて仮想スピーカセットから第2ターゲット仮想スピーカを選択する。
D2:第1シーンオーディオ信号、及び第2ターゲット仮想スピーカの属性情報に基づいて、第2仮想スピーカ信号を生成する。
それに応じて、エンコーダ側が段階D1及び段階D2を実行するシナリオにおいて、段階403における第1仮想スピーカ信号を符号化する上記段階は、以下を含む。
J1:第1仮想スピーカ信号及び第2仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得する、ここで、サイド情報は、第1仮想スピーカ信号及び第2仮想スピーカ信号の間の関係を示す。
J2:ダウンミックスされた信号及びサイド情報を符号化する。
第1仮想スピーカ信号及び第2仮想スピーカ信号を取得した後、エンコーダ側はさらに、第1仮想スピーカ信号及び第2仮想スピーカ信号に基づいてダウンミックス処理を実行することで、ダウンミックスされた信号を生成し得る、例えば、第1仮想スピーカ信号及び第2仮想スピーカ信号に対して振幅ダウンミックス処理を実行することで、ダウンミックスされた信号を取得し得る。加えて、サイド情報は、第1仮想スピーカ信号及び第2仮想スピーカ信号に基づいて生成され得る。サイド情報は、第1仮想スピーカ信号及び第2仮想スピーカ信号の間の関係を示す。当該関係は、複数の方式で実装され得る。サイド情報は、デコーダ側によって使用され、ダウンミックスされた信号に対してアップミックスを実行し、第1仮想スピーカ信号及び第2仮想スピーカ信号を復元し得る。例えば、サイド情報は、信号情報損失分析パラメータを含む。このように、デコーダ側は、信号情報損失分析パラメータを使用することによって、第1仮想スピーカ信号及び第2仮想スピーカ信号を復元する。別の例の場合、サイド情報は、具体的には、第1仮想スピーカ信号及び第2仮想スピーカ信号の間の相関パラメータであり得、例えば、第1仮想スピーカ信号及び第2仮想スピーカ信号の間のエネルギー比パラメータであり得る。このように、デコーダ側は、相関パラメータ又はエネルギー比パラメータを使用することによって、第1仮想スピーカ信号及び第2仮想スピーカ信号を復元する。
本願のいくつかの実施形態において、エンコーダ側が段階D1及び段階D2を実行するシナリオでは、エンコーダ側は、以下の段階をさらに実行し得る。
I1:第1仮想スピーカ信号及び第2仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号を取得する。
段階I1が実行されるシナリオにおいて、それに応じて、段階J1における、第1仮想スピーカ信号及び第2仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得する段階は、
位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得する段階を含み、
それに応じて、サイド情報は、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号の間の関係を示す。
ダウンミックスされた信号を生成する前に、エンコーダ側は、まず、仮想スピーカ信号の位置合わせ操作を実行い、その後、位置合わせ操作を完了した後、ダウンミックスされた信号及びサイド情報を生成し得る。本願の本実施形態において、チャネル間の相関関係は、第1仮想スピーカ信号及び第2仮想スピーカのチャネルを再調整及び再位置合わせすることによって強化される。これは、第1仮想スピーカ信号に対してコアエンコーダによって実行される符号化処理を容易にする。
本願の前述の実施形態において、第2シーンオーディオ信号は、位置合わせ前の第1仮想スピーカ信号及び位置合わせ前の第2仮想スピーカ信号に基づいて取得されてもよく、又は、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号に基づいて取得されてもよいことに留意されたい。具体的な実装は、アプリケーションシナリオに依存する。これは、本明細書において限定されるものではない。
本願のいくつかの実施形態において、段階D1における、第1シーンオーディオ信号に基づいて仮想スピーカセットから第2ターゲット仮想スピーカを選択する段階の前に、本願の本実施形態において提供されたオーディオ信号符号化方法は、以下をさらに含む。
K1:符号化レート及び/又は第1シーンオーディオ信号の信号タイプ情報に基づいて、第1ターゲット仮想スピーカ以外のターゲット仮想スピーカが取得される必要があるかどうかを決定する。
K2:第1ターゲット仮想スピーカ以外のターゲット仮想スピーカが取得される必要がある場合、第1シーンオーディオ信号に基づいて、仮想スピーカセットから第2ターゲット仮想スピーカを選択する。
エンコーダ側はさらに、第2ターゲット仮想スピーカが取得される必要があるかどうかを決定するべく、信号選択を実行し得る。第2ターゲット仮想スピーカが取得される必要がある場合、エンコーダ側は、第2仮想スピーカ信号を生成し得る。第2ターゲット仮想スピーカが取得される必要がない場合、エンコーダ側は、第2仮想スピーカ信号を生成しなくてよい。エンコーダは、オーディオエンコーダの構成情報及び/又は第1シーンオーディオ信号の信号タイプ情報に基づいて、第1ターゲット仮想スピーカに加えて別のターゲット仮想スピーカが選択される必要があるかどうかを決定するべく、決定を行い得る。例えば、符号化レートが予め設定された閾値より高い場合、2つのメイン音場成分に対応するターゲット仮想スピーカが取得される必要があることが決定され、第1ターゲット仮想スピーカに加えて、第2ターゲット仮想スピーカがさらに決定され得る。別の例の場合、第1シーンオーディオ信号の信号タイプ情報に基づいて、音源方向が優勢な(dominant)2つのメイン音場成分に対応するターゲット仮想スピーカが取得される必要があることが決定された場合、第1ターゲット仮想スピーカに加えて、第2ターゲット仮想スピーカがさらに決定され得る。反対に、第1シーンオーディオ信号の符号化レート及び/又は信号タイプ情報に基づいて、1つのみのターゲット仮想スピーカが取得される必要があると決定された場合、第1ターゲット仮想スピーカが決定された後、第1ターゲット仮想スピーカ以外のターゲット仮想スピーカはもはや取得されないことが決定される。本願の本実施形態において、信号選択は、エンコーダ側によって符号化されるべきデータの量を減らし、符号化効率を向上させるために実行される。
信号選択を実行するとき、エンコーダ側は、第2仮想スピーカ信号が生成される必要があるかどうかを決定し得る。情報損失は、エンコーダ側が信号選択を実行したときに発生するので、信号補償は、伝送されていない仮想スピーカ信号に対して実行される必要がある。信号補償は選択され得、情報損失分析、エネルギー補償、エンベロープ補償、ノイズ補償等に限定されるものではない。補償方法は、線形補償、又は非線形補償等であり得る。信号補償が実行された後、サイド情報が生成され得、サイド情報は、ビットストリームに書き込まれ得る。したがって、デコーダ側は、ビットストリームを使用することによってサイド情報を取得し得る。デコーダ側は、サイド情報に基づいて信号補償を実行し、デコーダ側における復号された信号の品質を向上させ得る。
前述の実施形態において説明された例によると、第1仮想スピーカ信号は、第1シーンオーディオ信号、及び第1ターゲット仮想スピーカの属性情報に基づいて生成され得、オーディオエンコーダ側は、第1シーンオーディオ信号を直接符号化する代わりに、第1仮想スピーカ信号を符号化する。本願の本実施形態において、第1ターゲット仮想スピーカは、第1シーンオーディオ信号に基づいて選択され、第1ターゲット仮想スピーカに基づいて生成された第1仮想スピーカ信号は、空間におけるリスナーが位置付けられた位置における音場を表し得、この位置における音場は、第1シーンオーディオ信号が記録されるときの原音場に、できる限り近い。これは、オーディオエンコーダ側の符号化品質を保証する。加えて、第1仮想スピーカ信号及び残差信号が符号化され、ビットストリームを取得する。第1仮想スピーカ信号の符号化されたデータの量は、第1ターゲット仮想スピーカに関連しており、第1シーンオーディオ信号のチャネルの数とは無関係である。これは、符号化されたデータの量を減らし、符号化効率を向上させる。
本願の本実施形態において、エンコーダ側は、仮想スピーカ信号を符号化して、ビットストリームを生成する。その後、エンコーダ側はビットストリームを出力し、オーディオ伝送チャネルを通じてデコーダ側にビットストリームを送信し得る。デコーダ側は、後続の段階411~段階413を実行する。
411:ビットストリームを受信する。
デコーダ側は、エンコーダ側からビットストリームを受信する。ビットストリームは、符号化された第1仮想スピーカ信号を搬送し得る。ビットストリームはさらに、第1ターゲット仮想スピーカの符号化された属性情報を搬送し得る。これは、本明細書において限定されるものではない。ビットストリームは、第1ターゲット仮想スピーカの属性情報を搬送しない場合があることに留意されたい。この場合、デコーダ側は、予め構成することによって、第1ターゲット仮想スピーカの属性情報を決定し得る。
加えて、本願のいくつかの実施形態において、エンコーダ側が第2仮想スピーカ信号を生成するとき、ビットストリームはさらに、第2仮想スピーカ信号を搬送し得る。ビットストリームはさらに、第2ターゲット仮想スピーカの符号化された属性情報を搬送し得る。これは、本明細書において限定されるものではない。ビットストリームは、第2ターゲット仮想スピーカの属性情報を搬送しない場合があることに留意されたい。この場合、デコーダ側は、予め構成することによって、第2ターゲット仮想スピーカの属性情報を決定し得る。
412:ビットストリームを復号して、仮想スピーカ信号を取得する。
エンコーダ側からビットストリームを受信した後、デコーダ側は、ビットストリームを復号して、ビットストリームから仮想スピーカ信号を取得する。
仮想スピーカ信号は、具体的に前述の第1仮想スピーカ信号であってもよく、又は、前述の第1仮想スピーカ信号及び第2仮想スピーカ信号であってもよいことに留意されたい。これは、本明細書において限定されるものではない。
本願のいくつかの実施形態において、デコーダ側が前述の段階411及び段階412を実行した後、本願の本実施形態において提供されたオーディオ復号方法は、以下の段階をさらに含む:
ビットストリームを復号して、ターゲット仮想スピーカの属性情報を取得する段階。
仮想スピーカを符号化する段階に加えて、エンコーダ側は、ターゲット仮想スピーカの属性情報を符号化して、ターゲット仮想スピーカの符号化された属性情報をビットストリームに書き込む場合もある。例えば、第1ターゲット仮想スピーカの属性情報は、ビットストリームを使用することによって取得され得る。本願の本実施形態において、ビットストリームは、第1ターゲット仮想スピーカの符号化された属性情報を搬送し得る。このように、デコーダ側は、ビットストリームを復号することによって、第1ターゲット仮想スピーカの属性情報を決定し得る。これは、デコーダ側におけるオーディオ復号を容易にする。
413:ターゲット仮想スピーカの属性情報及び仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する。
デコーダ側は、ターゲット仮想スピーカの属性情報を取得し得る。ターゲット仮想スピーカは、仮想スピーカセット内の且つ再構築されたシーンオーディオ信号をプレイバックするために使用される仮想スピーカである。ターゲット仮想スピーカの属性情報は、ターゲット仮想スピーカの位置情報及びターゲット仮想スピーカのHOA係数を含み得る。仮想スピーカ信号を取得した後、デコーダ側は、ターゲット仮想スピーカの属性情報に基づいて信号を再構築し、信号再構築を通じて、再構築されたシーンオーディオ信号を出力し得る。
本願のいくつかの実施形態において、ターゲット仮想スピーカの属性情報は、ターゲット仮想スピーカのHOA係数を含み;
段階413における、ターゲット仮想スピーカの属性情報、及び仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する上記段階は、
仮想スピーカ信号、及びターゲット仮想スピーカのHOA係数に対して合成処理を実行し、再構築されたシーンオーディオ信号を取得する段階
を含む。
デコーダ側は、まず、第1ターゲット仮想スピーカのHOA係数を決定する。例えば、デコーダ側は、ターゲット仮想スピーカのHOA係数を予め記憶し得る。仮想スピーカ信号、及びターゲット仮想スピーカのHOA係数を取得した後、デコーダ側は、仮想スピーカ信号、及びターゲット仮想スピーカのHOA係数に基づいて、再構築されたシーンオーディオ信号を取得し得る。このように、再構築されたシーンオーディオ信号の品質が向上される。
例えば、ターゲット仮想スピーカのHOA係数は行列A'によって表されており、行列A'のサイズは(M×C)であり、Cはターゲット仮想スピーカの数であり、MはN次のHOA係数のチャネルの数である。仮想スピーカ信号は行列W'によって表されており、行列W'のサイズは(C×L)であり、Lは信号サンプリングポイントの数である。再構築されたHOA信号は、以下の計算式に従って取得される。
H=A'W'
前述の計算式を使用することによって取得されたHは、再構築されたHOA信号である。
本願のいくつかの実施形態において、ターゲット仮想スピーカの属性情報は、ターゲット仮想スピーカの位置情報を含み;
段階413における、ターゲット仮想スピーカの属性情報、及び仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する上記段階は、
ターゲット仮想スピーカの位置情報に基づいてターゲット仮想スピーカのHOA係数を決定する段階;及び
仮想スピーカ信号、及びターゲット仮想スピーカのHOA係数に対して合成処理を実行し、再構築されたシーンオーディオ信号を取得する段階
を含む。
ターゲット仮想スピーカの属性情報は、ターゲット仮想スピーカの位置情報を含み得る。デコーダ側は、仮想スピーカセットにおける各仮想スピーカのHOA係数を予め記憶し、デコーダ側はさらに、各仮想スピーカの位置情報を記憶する。例えば、デコーダ側は、仮想スピーカの位置情報及び仮想スピーカのHOA係数の間の対応関係に基づいて、ターゲット仮想スピーカの位置情報のHOA係数を決定し得、又は、デコーダ側は、ターゲット仮想スピーカの位置情報に基づいて、ターゲット仮想スピーカのHOA係数を計算し得る。したがって、デコーダ側は、ターゲット仮想スピーカの位置情報に基づいて、ターゲット仮想スピーカのHOA係数を決定し得る。このように、デコーダ側は、ターゲット仮想スピーカのHOA係数を決定し得る。
本願のいくつかの実施形態において、仮想スピーカ信号は、第1仮想スピーカ信号及び第2仮想スピーカ信号をダウンミックスすることによって取得されたダウンミックスされた信号であることがエンコーダ側の方法の説明から分かり得る。この実装シナリオにおいて、本願の本実施形態において提供されたオーディオ復号方法は、
ビットストリームを復号したサイド情報を取得する段階、ここで、サイド情報は、第1仮想スピーカ信号及び第2仮想スピーカ信号の間の関係を示す;及び
サイド情報及びダウンミックスされた信号に基づいて、第1仮想スピーカ信号及び第2仮想スピーカ信号を取得する段階
をさらに含む。
本発明のこの実施形態において、第1仮想スピーカ信号及び第2仮想スピーカ信号の間の関係は、直接的な関係であってもよく、又は間接的な関係であってもよい。例えば、第1仮想スピーカ信号及び第2仮想スピーカ信号の間の関係が直接的な関係であるとき、第1サイド情報は、第1仮想スピーカ信号及び第2仮想スピーカ信号の間の相関パラメータを含み得、例えば、第1仮想スピーカ信号及び第2仮想スピーカ信号の間のエネルギー比パラメータであり得る。例えば、第1仮想スピーカ信号及び第2仮想スピーカ信号の間の関係が間接的な関係であるとき、第1サイド情報は、第1仮想スピーカ信号及びダウンミックスされた信号の間の相関パラメータ、及び、第2仮想スピーカ信号及びダウンミックスされた信号の間の相関パラメータを含み得、例えば、第1仮想スピーカ信号及びダウンミックスされた信号の間のエネルギー比パラメータ、及び、第2仮想スピーカ信号及びダウンミックスされた信号の間のエネルギー比パラメータを含む。
第1仮想スピーカ信号及び第2仮想スピーカ信号の間の関係が直接的な関係であり得るとき、デコーダ側は、ダウンミックスされた信号、ダウンミックスされた信号の取得方式、及び直接的な関係に基づいて、第1仮想スピーカ信号及び第2仮想スピーカ信号を決定し得る。第1仮想スピーカ信号及び第2仮想スピーカ信号の間の関係が間接的な関係であり得るとき、デコーダ側は、ダウンミックスされた信号及び間接的な関係に基づいて、第1仮想スピーカ信号及び第2仮想スピーカ信号を決定し得る。
それに応じて、段階413における、ターゲット仮想スピーカの属性情報、及び仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する上記段階は、以下を含む:
ターゲット仮想スピーカの属性情報、第1仮想スピーカ信号、及び第2仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する段階。
エンコーダ側は、第1仮想スピーカ信号及び第2仮想スピーカ信号に基づいてダウンミックス処理が実行されたときに、ダウンミックスされた信号を生成し、エンコーダ側はさらに、ダウンミックスされた信号に対して信号補償を実行し、サイド情報を生成し得る。サイド情報はビットストリームに書き込まれ得、デコーダ側は、ビットストリームを使用することによってサイド情報を取得し得、デコーダ側は、サイド情報に基づいて信号補償を実行することで、第1仮想スピーカ信号及び第2仮想スピーカ信号を取得し得る。したがって、信号再構築中には、第1仮想スピーカ信号、第2仮想スピーカ信号、及びターゲット仮想スピーカの前述の属性情報が使用され、デコーダ側における復号された信号の品質を向上させ得る。
前述の実施形態において説明された例によると、本願の本実施形態において、仮想スピーカ信号は、ビットストリームを復号することによって取得され得、仮想スピーカ信号は、シーンオーディオ信号のプレイバック信号として使用されている。再構築されたシーンオーディオ信号は、ターゲット仮想スピーカの属性情報、及び仮想スピーカ信号に基づいて取得される。本願の本実施形態において、取得されたビットストリームは、仮想スピーカ信号及び残差信号を搬送する。これは、復号されたデータの量を減らし、復号効率を向上させる。
例えば、本願の本実施形態において、第1シーンオーディオ信号と比較すると、第1仮想スピーカ信号は、より少ないチャネルを使用することによって表されている。例えば、第1シーンオーディオ信号は3次HOA信号であり、HOA信号は16チャネルである。本願の本実施形態において、16チャネルは2つのチャネルに圧縮され得る、すなわち、エンコーダ側によって生成された仮想スピーカ信号は2チャネルである。例えば、エンコーダ側によって生成された仮想スピーカ信号は、前述の第1仮想スピーカ信号及び第2仮想スピーカ信号を含み得、エンコーダ側によって生成された仮想スピーカ信号のチャネルの数は、第1シーンオーディオ信号のチャネルの数とは無関係である。ビットストリームが第2チャネル仮想スピーカ信号を搬送し得ることが、後続の段階の説明から分かり得る。それに応じて、デコーダ側はビットストリームを受信し、ビットストリームを復号することで2チャネル仮想スピーカ信号を取得し、デコーダ側は、2チャネル仮想スピーカ信号に基づいて16チャネルシーンオーディオ信号を再構築し得る。加えて、再構築されたシーンオーディオ信号が、元のシーンにおけるオーディオ信号と同じ主観的及び客観的品質を有することが保証されている。
本願の実施形態における前述の解決手段をより良く理解及び実装するために、対応するアプリケーションシーンを例として使用することによって、具体的な説明が下記に提供される。
本願の本実施形態において、シーンオーディオ信号がHOA信号である例が使用される。音波は理想的な媒体内で伝播され、波の数はk=w/cであり、角周波数はw=2πfであり、fは音波周波数であり、cは音速である。音圧pは以下の計算式を満たしており、ここで∇はラプラス演算子である。
前述の式は、球面座標において計算される。受動的な球面領域において、上記式の解は、以下の計算式として表現される。
前述の計算式において、rは球面半径を表しており、θは水平角を表しており、φは仰角を表しており、kは波数を表しており、sは理想的な平面波の振幅であり、mはHOA次数シーケンス番号である。
は球面ベッセル関数であり、放射基底関数とも称されており、ここで、第1のjは虚数単位である。
は、角度によって変動はしない。
はθ,φ方向における球面調和関数であり、
は、音源の方向における球面調和関数である。
HOA係数は、
のように表現され得る。
以下の計算式が提供されている。
上記の計算式は、音場が、球面調和関数に基づいて球面上で拡大されて、係数
を使用することによって表現されることが可能であることを示している。代替的に、音場は、係数
が既知である場合、再構築され得る。前述の式は、N番目の項に切り詰められる。係数
は、音場の近似的説明として使用されており、N次のHOA係数として称されている。HOA係数は、アンビソニック係数とも称され得る。N次のHOA係数は、合計(N+1)個のチャネルを有する。
1次以上のアンビソニック信号は、HOA信号としても称される。HOA信号のサンプリングポイントの係数に基づいて球面調和関数を重畳することによって、サンプリングポイントに対応する瞬間の空間的音場が再構築され得る。
例えば、1つの構成において、シーンオーディオが記録されるとき、HOA次数は2次~6次の次数であり得、信号サンプリングレートは48~192kHzであり、サンプリング深さは16又は24ビットである。HOA信号は、音場を有する空間情報によって特定付けられ、HOA信号は、空間における特定のポイントでの音場信号の特定の精度の説明である。したがって、位置ポイントにおける音場信号を説明するために別の表現形式が使用されることが考えられ得る。この説明方法において、上記ポイントにおける信号がより少量のデータを使用することによって同じ精度で説明され得る場合、信号圧縮が実装され得る。
空間的音場は、複数の平面波の重畳に分解され得る。したがって、HOA信号によって表現された音場は、複数の平面波の重畳を使用することによって表現され得、各平面波は、1チャネルオーディオ信号及び方向ベクトルを使用することによって表される。平面波重畳の表現形式がより少ないチャネルを使用することによって原音場をより良く表現し得る場合、信号圧縮が実装され得る。
実際のプレイバック中に、HOA信号は、ヘッドホンを使用することによってプレイバックされ得、又は、部屋に配置された複数のスピーカを使用することによってプレイバックされ得る。スピーカがプレイバックのために使用されるとき、基本の方法は、複数のスピーカの音場を重畳することである。このように、特定の基準下で、空間内のあるポイント(リスナーの位置)における音場は、HOA信号が記録されるときの原音場にできる限り近い。本願の本実施形態において、仮想スピーカアレイが使用されることが想定されている。その後、仮想スピーカアレイのプレイバック信号が計算され、プレイバック信号は伝送信号として使用され、圧縮信号がさらに生成される。デコーダ側は、ビットストリームを復号してプレイバック信号を取得し、プレイバック信号に基づいてシーンオーディオ信号を再構築する。
本願の本実施形態において、シーンオーディオ信号符号化に適用可能なエンコーダ側及びシーンオーディオ信号復号に適用可能なデコーダ側が提供される。エンコーダ側は、元のHOA信号を圧縮ビットストリームに符号化し、エンコーダ側は、圧縮ビットストリームをデコーダ側に送信し、その後、デコーダ側は、圧縮ビットストリームを再構築されたHOA信号に復元する。本願の本実施形態において、エンコーダ側によって圧縮されたデータの量はできる限り少ない、又は、デコーダ側によって同じビットレートで再構築されたHOA信号の品質はより高い。
本願の本実施形態において、大量のデータ、高帯域幅占有、低い圧縮効率、低い符号化品質といった問題は、HOA信号が符号化されたときに解決され得る。N次のHOA信号は(N+1)個のチャネルを有するので、HOA信号の直接伝送は、大きな帯域幅を消費する必要がある。したがって、効果的なマルチチャネル符号化スキームが必要である。
本願の本実施形態においては、異なるチャネル抽出方法が使用されており、音源の仮定は本願の本実施形態において限定されるものではなく、時間‐周波数領域における単一音源の仮定は依存しない。したがって、マルチ音源信号などの複雑なシナリオは、より効果的に処理され得る。本願の本実施形態におけるエンコーダ及びデコーダは、空間的符号化及び復号方法を提供しており、ここで元のHOA信号はより少ないチャネルによって表されている。図5は、本願の実施形態に係るエンコーダ側の構造の概略図である。エンコーダ側は、空間エンコーダ及びコアエンコーダを含む。空間エンコーダは、符号化対象のHOA信号に対してチャネル抽出を実行して、仮想スピーカ信号を生成し得る。コアエンコーダは、仮想スピーカ信号を符号化してビットストリームを取得し得る。エンコーダ側は、ビットストリームをデコーダ側に送信する。図6は、本願の実施形態に係るデコーダ側の構造の概略図である。デコーダ側は、コアデコーダ及び空間デコーダを含む。コアデコーダはまず、エンコーダ側からビットストリームを受信し、その後、ビットストリームを復号して仮想スピーカ信号を取得する。その後、空間デコーダは、仮想スピーカ信号を再構築して、再構築されたHOA信号を取得する。
以下では、エンコーダ側及びデコーダ側の例を別個に説明する。
図7に示されたように、本願の実施形態に提供されたエンコーダ側がまず説明される。エンコーダ側は、仮想スピーカ構成ユニット、符号化分析ユニット、仮想スピーカセット生成ユニット、仮想スピーカ選択ユニット、仮想スピーカ信号生成ユニット、及びコアエンコーダ処理ユニットを含み得る。以下では、エンコーダ側の各組織ユニットの機能について別個に説明する。本願の本実施形態において、図7に示されたエンコーダ側は、1つの仮想スピーカ信号を生成してもよく、又は、複数の仮想スピーカ信号を生成してもよい。複数の仮想スピーカ信号を生成する手順は、図7に示されたエンコーダの構造に基づいて、複数回生成され得る。以下では、1つの仮想スピーカ信号を生成する手順を例として使用する。
仮想スピーカ構成ユニットは、仮想スピーカセットにおける仮想スピーカを構成して、複数の仮想スピーカを取得するように構成されている。
仮想スピーカ構成ユニットは、エンコーダ構成情報に基づいて、仮想スピーカ構成パラメータを出力する。エンコーダ構成情報は、限定されるものではないが、HOA次数、符号化ビットレート、及びユーザにより定義された情報を含む。仮想スピーカ構成パラメータは、限定されるものではないが、仮想スピーカの数、仮想スピーカのHOA次数、及び仮想スピーカの位置座標等を含む。
仮想スピーカ構成ユニットによって出力された仮想スピーカ構成パラメータは、仮想スピーカセット生成ユニットの入力として使用される。
符号化分析ユニットは、符号化対象のHOA信号に対してコーディング分析を実行するように、例えば、符号化対象のHOA信号の音源の数、指向性、及び分散などの特徴を含む、符号化対象のHOA信号の音場分布を分析するように構成されている。これは、どのようにターゲット仮想スピーカを選択するかに対する決定条件として使用される。
本願の本実施形態において、エンコーダ側は、符号化分析ユニットを含まなくてよく、すなわち、エンコーダ側は、入力信号を分析しなくてよく、ターゲット仮想スピーカをどのように選択するかを決定するためにデフォルトの構成は使用されない。これは、本明細書において限定されるものではない。
エンコーダ側は、符号化対象のHOA信号を取得し、例えば、実際の取得デバイスから記録されたHOA信号、又は、エンコーダの入力として人工オーディオオブジェクトを使用することによって合成されたHOA信号を使用し得、エンコーダによって入力された符号化対象のHOA信号は、時間‐領域HOA信号又は周波数‐領域HOA信号であり得る。
仮想スピーカセット生成ユニットは、仮想スピーカセットを生成するように構成されている。仮想スピーカセットは複数の仮想スピーカを含み得、仮想スピーカセットにおける仮想スピーカは、「候補仮想スピーカ」とも称され得る。
仮想スピーカセット生成ユニットは、候補仮想スピーカの指定されたHOA係数を生成する。候補仮想スピーカのHOA係数を生成することには、候補仮想スピーカの座標(すなわち、位置座標又は位置情報)及び候補仮想スピーカのHOA次数が必要である。候補仮想スピーカの座標を決定する方法は、限定されるものではないが、等距離ルールに従ってK個の仮想スピーカを生成する段階と、聴覚的知覚原理に従って均等に分布されていないK個の候補仮想スピーカを生成する段階を含む。以下では、固定された数の均等に分布された仮想スピーカを生成するための方法の例を与える。
均等に分布された候補仮想スピーカの座標は、候補仮想スピーカの数に基づいて生成される。例えば、略均等に分布されたスピーカは、数値反復計算方法を使用することによって提供される。図8は、球面に対して略均等に分布された仮想スピーカの概略図である。いくつかの質点が単位球面上に分布されており、二次逆反発力がこれらの質点の間に配置されていると想定する。これは、同じ電荷間の静電反発力と同様である。これらの質点は、反発動作下で自由に動くことが可能であり、質点は、質点が安定状態に達したときに、均等に分布されるべきであることが期待されている。計算において、実際の物理法則は簡略化され、質点の移動距離は、質点に作用する力に直接等しい。したがって、i番目の質点の場合、反復計算の段階におけるi番目の質点の運動距離は、すなわち、i番目の質点に作用する仮想力は、以下の計算式に従って計算される。
は変位ベクトルを表しており、
は力ベクトルを表しており、rijはi番目の質点及びj番目の質点の間の距離を表しており、
は、j番目の質点からi番目の質点への方向ベクトルを表している。パラメータkは、単一段階のサイズを制御する。質点の最初の位置はランダムに指定される。
変位ベクトル
に従って動いた後、質点は、通常は、単位球面から逸脱する。次の反復の前に、質点及び球面の中央部の間の距離は正規化され、質点は動いて単位球面に戻る。したがって、図8に示された仮想スピーカの分布の概略図が取得され得、複数の仮想スピーカは、球面上に略均等に分布されている。
次に、候補仮想スピーカのHOA係数が生成される。振幅がsでありスピーカの位置座標が(θ,φ)である理想的な平面波、及び、球面調和関数を使用することによって拡大された後の理想的な平面波の形態は、以下の計算式として表現されている。
平面波のHOA係数は
であり、以下の計算式を満たしている。
仮想スピーカセット生成ユニットによって出力された候補仮想スピーカのHOA係数は、仮想スピーカ選択ユニットの入力として使用される。
仮想スピーカ選択ユニットは、符号化対象のHOA信号に基づいて、仮想スピーカセットにおける複数の候補仮想スピーカからターゲット仮想スピーカを選択するように構成されている。ターゲット仮想スピーカは、「符号化対象のHOA信号とマッチングする仮想スピーカ」称されるか、又は、略してマッチングする仮想スピーカと称され得る。
仮想スピーカ選択ユニットは、符号化対象のHOA信号を、仮想スピーカセット生成ユニットによって出力された候補仮想スピーカのHOA係数とマッチングさせ、指定されたマッチングする仮想スピーカを選択する。
以下では、仮想スピーカを選択する方法を、例を使用することによって説明する。実施形態において、候補仮想スピーカが取得された後、符号化対象のHOA信号は、仮想スピーカセット生成ユニットによって出力された候補仮想スピーカのHOA係数とマッチングされ、候補仮想スピーカにおいて符号化対象のHOA信号の最も良いマッチングを見出す。目標は、候補仮想スピーカのHOA係数を使用することによって、符号化対象のHOA信号をマッチング及び組み合わせることである。実施形態において、内積は、候補仮想スピーカのHOA係数、及び符号化対象のHOA信号を使用することによって実行され、内積の最大絶対値を有する候補仮想スピーカがターゲット仮想スピーカ、すなわち、マッチングする仮想スピーカとして選択され、候補仮想スピーカ上の符号化対象のHOA信号の投影は、候補仮想スピーカのHOA係数の線形結合に重畳され、その後、投影ベクトルが符号化対象のHOA信号から減算されることで、差分が取得される。差分のための前述のプロセスは、反復計算を実装するために繰り返され、マッチングする仮想スピーカが反復の度に生成され、マッチングする仮想スピーカの座標及びマッチングする仮想スピーカのHOA係数が出力される。複数のマッチングする仮想スピーカが選択され、1つのマッチングする仮想スピーカは反復の度に生成されることが理解され得る。
仮想スピーカ選択ユニットによって出力されるターゲット仮想スピーカの座標及びターゲット仮想スピーカのHOA係数は、仮想スピーカ信号生成ユニットの入力として使用される。
本願のいくつかの実施形態において、図7に示された組織ユニットに加えて、エンコーダ側はさらに、サイド情報生成ユニットを含み得る。エンコーダ側は、サイド情報生成ユニットを含まなくてよい。これは一例に過ぎず、本明細書において限定されるものではない。
仮想スピーカ選択ユニットによって出力されたターゲット仮想スピーカの座標及び/又はターゲット仮想スピーカのHOA係数は、サイド情報生成ユニットの複数又は単数の入力として使用される。
サイド情報生成ユニットは、ターゲット仮想スピーカのHOA係数又はターゲット仮想スピーカの座標をサイド情報に変換する。これは、コアエンコーダの処理及び伝送を容易にする。
サイド情報生成ユニットの出力は、コアエンコーダ処理ユニットの入力として使用される。
仮想スピーカ信号生成ユニットは、ターゲット仮想スピーカの符号化対象のHOA信号及び属性情報に基づいて、仮想スピーカ信号を生成するように構成されている。
仮想スピーカ信号生成ユニットは、ターゲット仮想スピーカの符号化対象のHOA信号及びHOA係数に基づいて、仮想スピーカ信号を計算する。
マッチングする仮想スピーカのHOA係数は行列Aによって表されており、符号化対象のHOA信号は、行列Aを使用することによって線形結合を通じて取得され得る。理論上の最適解wは、最小二乗法を使用することによって取得され得、すなわち、仮想スピーカ信号である。例えば、以下の計算式が使用され得る。
w=A-
-1は行列Aの逆行列を表しており、行列Aのサイズは(M×C)であり、Cはターゲット仮想スピーカの数であり、MはN次のHOA係数のチャネルの数であり、aは、ターゲット仮想スピーカのHOA係数を表す。例を以下に挙げる。
Xは符号化対象のHOA信号を表しており、行列Xのサイズは(M×L)であり、MはN次のHOA係数のチャネルの数であり、Lはサンプリングポイントの数であり、xは符号化対象のHOA信号の係数を表す。例を以下に挙げる。
仮想スピーカ信号生成ユニットによって出力された仮想スピーカ信号は、コアエンコーダ処理ユニットの入力として使用される。
本願のいくつかの実施形態において、図7に示された組織ユニットに加えて、エンコーダ側はさらに、信号位置合わせユニットを含み得る。エンコーダ側は、信号位置合わせユニットを含まなくてよい。これは一例に過ぎず、本明細書において限定されるものではない。
仮想スピーカ信号生成ユニットによって出力された仮想スピーカ信号は、信号位置合わせユニットの入力として使用される。
信号位置合わせユニットは、仮想スピーカ信号のチャネルを再調整して、チャネル間の相関関係を強化するとともにコアエンコーダの処理を容易にするように構成されている。
信号位置合わせユニットによって出力された位置合わせされた仮想スピーカ信号は、コアエンコーダ処理ユニットの入力である。
コアエンコーダ処理ユニットは、サイド情報及び位置合わせされた仮想スピーカ信号に対してコアエンコーダ処理を実行して、伝送ビットストリームを取得するように構成されている。
コアエンコーダ処理は、限定されるものではないが、変換、量子化、心理音響モデル、及びビットストリーム生成等を含み、周波数領域チャネル又は時間領域チャネルを処理し得る。これは、本明細書において限定されるものではない。
図9に示されたように、本願の本実施形態において提供されたデコーダ側は、コアデコーダ処理ユニット及びHOA信号再構築ユニットを含み得る。
コアデコーダ処理ユニットは、伝送ビットストリームに対してコアデコーダ処理を実行し、仮想スピーカ信号を取得するように構成されている。
エンコーダ側がビットストリームにおいてサイド情報を搬送する場合、デコーダ側はさらに、サイド情報復号ユニットを含む必要がある。これは、本明細書において限定されるものではない。
サイド情報復号ユニットは、コアデコーダ処理ユニットによって出力された復号サイド情報を復号し、復号されたサイド情報を取得するように構成されている。
コアデコーダ処理は、変換、ビットストリーム解析、及び量子化解除等を含み得、周波数領域チャネル又は時間領域チャネルを処理し得る。これは、本明細書において限定されるものではない。
コアデコーダ処理ユニットによって出力された仮想スピーカ信号はHOA信号再構築ユニットの入力であり、コアデコーダ処理ユニットによって出力された復号サイド情報はサイド情報復号ユニットの入力である。
サイド情報復号ユニットは、復号サイド情報をターゲット仮想スピーカのHOA係数に変換する。
サイド情報復号ユニットによって出力されたターゲット仮想スピーカのHOA係数は、HOA信号再構築ユニットの入力である。
HOA信号再構築ユニットは、仮想スピーカ信号及びターゲット仮想スピーカのHOA係数を使用することによって、HOA信号を再構築するように構成されている。
ターゲット仮想スピーカのHOA係数は、行列A'によって表されている。行列A'のサイズは(M×C)であり、A'として示されている。Cはターゲット仮想スピーカの数であり、MはN次のHOA係数のチャネルの数である。仮想スピーカ信号は行列(C×L)を形成し、行列(C×L)はW'として示されており、Lは信号サンプリングポイントの数である。再構築されたHOA信号Hは、以下の計算式に従って取得される。
H=A'W'
HOA信号再構築ユニットによって出力された再構築されたHOA信号は、デコーダ側の出力である。
本願の本実施形態において、エンコーダ側は、空間エンコーダを使用することで、より少ないチャネル、例えば、元の3次HOA信号を使用することによって、元のHOA信号を表し得る。本願の本実施形態における空間エンコーダは、16チャネルを4チャネルに圧縮して、主観的な聴力に明らかな差がないことを保証し得る。主観的な聴力テストは、オーディオの符号化及び復号における評価基準であり、明らかな差がないということは、主観的な評価の或るレベルである。
本願のいくつかの他の実施形態において、エンコーダ側の仮想スピーカ選択ユニットは、仮想スピーカセットからターゲット仮想スピーカを選択するか、又は、指定された位置における仮想スピーカをターゲット仮想スピーカとして使用し得、仮想スピーカ信号生成ユニットは、各ターゲット仮想スピーカに対して投影を直接実行することで仮想スピーカ信号を取得する。
前述の方式において、指定された位置における仮想スピーカは、ターゲット仮想スピーカとして使用される。これは仮想スピーカの選択処理を簡略化して、符号化及び復号の速度を向上させ得る。
本願のいくつかの他の実施形態において、エンコーダ側は、信号位置合わせユニットを含まなくてよい。この場合、仮想スピーカ信号生成ユニットの出力は、コアエンコーダによって直接符号化される。前述の方式において、信号位置合わせ処理は低減し、エンコーダ側の複雑性も低減する。
本願の本実施形態において、選択されたターゲット仮想スピーカは、HOA信号の符号化及び復号に適用されるということが、前述の例示的な説明から分かり得る。本願の本実施形態において、HOA信号の正確な音源位置決めが取得され得、再構築されたHOA信号の方向はより正確であり、符号化効率がより高くなり、デコーダ側の複雑性は非常に低い。これは、モバイル端末への適用に有益であり、符号化及び復号の性能を向上させ得る。
前述した方法の実施形態は、説明を簡潔にするべく、一連の動作として表現されることに留意されたい。しかしながら、本願によると、一部の段階は他の順序で又は同時に実行されてもよいので、当業者であれば、本願は説明した動作順序に限定されないことを理解するべきである。本明細書において説明された実施形態は全て、例示的な実施形態に属し、関与する動作及びモジュールは、必ずしも本願により必要とされないことが、当業者によりさらに理解されたい。
本願の実施形態の解決手段をより良く実装するために、下記にでは、当該解決手段を実装するための関連装置がさらに提供される。
図10を参照されたい。本願の実施形態において提供されたオーディオ符号化装置1000は、取得モジュール1001、信号生成モジュール1002、及び符号化モジュール1003を含み得、ここで
取得モジュールは、現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第1ターゲット仮想スピーカを選択するように構成されており;
信号生成モジュールは、現在のシーンオーディオ信号、及び第1ターゲット仮想スピーカの属性情報に基づいて、第1仮想スピーカ信号を生成するように構成されており;
符号化モジュールは、第1仮想スピーカ信号を符号化してビットストリームを取得するように構成されている。
本願のいくつかの実施形態において、取得モジュールは、仮想スピーカセットに基づいて、現在のシーンオーディオ信号からメイン音場成分を取得すること;及び、メイン音場成分に基づいて、仮想スピーカセットから第1ターゲット仮想スピーカを選択することを行うように構成されている。
本願のいくつかの実施形態において、取得モジュールは、メイン音場成分に基づいて、高次アンビソニックスHOA係数セットからメイン音場成分のHOA係数を選択すること、ここで、HOA係数セットにおけるHOA係数は、仮想スピーカセットにおける仮想スピーカと1対1の対応関係にある;及び、メイン音場成分のHOA係数に対応し且つ仮想スピーカセットにおける仮想スピーカを、第1ターゲット仮想スピーカとして決定することを行うように構成されている。
本願のいくつかの実施形態において、取得モジュールは、メイン音場成分に基づいて、第1ターゲット仮想スピーカの構成パラメータを取得すること;第1ターゲット仮想スピーカの構成パラメータに基づいて、第1ターゲット仮想スピーカのHOA係数を生成すること;及び、第1ターゲット仮想スピーカのHOA係数に対応し且つ仮想スピーカセットにおける仮想スピーカを、ターゲット仮想スピーカとして決定することを行うように構成されている。
本願のいくつかの実施形態において、取得モジュールは、オーディオエンコーダの構成情報に基づいて、仮想スピーカセットにおける複数の仮想スピーカの構成パラメータを決定すること;及び、メイン音場成分に基づいて、複数の仮想スピーカの構成パラメータから第1ターゲット仮想スピーカの構成パラメータを選択することを行うように構成されている。
本願のいくつかの実施形態において、第1ターゲット仮想スピーカの構成パラメータは、第1ターゲット仮想スピーカの位置情報及びHOA次数情報を含み;
取得モジュールは、第1ターゲット仮想スピーカの位置情報及びHOA次数情報に基づいて、第1ターゲット仮想スピーカのHOA係数を決定するように構成されている。
本願のいくつかの実施形態において、符号化モジュールはさらに、第1ターゲット仮想スピーカの属性情報を符号化して、符号化された属性情報をビットストリームに書き込むように構成されている。
本願のいくつかの実施形態において、現在のシーンオーディオ信号は符号化対象のHOA信号を含み、第1ターゲット仮想スピーカの属性情報は第1ターゲット仮想スピーカのHOA係数を含み;
信号生成モジュールは、符号化対象のHOA信号及びHOA係数に対して線形結合を実行して、第1仮想スピーカ信号を取得するように構成されている。
本願のいくつかの実施形態において、現在のシーンオーディオ信号は符号化対象の高次アンビソニックスHOA信号を含み、第1ターゲット仮想スピーカの属性情報は第1ターゲット仮想スピーカの位置情報を含み;
信号生成モジュールは、第1ターゲット仮想スピーカの位置情報に基づいて、第1ターゲット仮想スピーカのHOA係数を取得すること;及び、符号化対象のHOA信号、及びHOA係数に対して線形結合を実行して、第1仮想スピーカ信号を取得することを行うように構成されている。
本願のいくつかの実施形態において、取得モジュールは、現在のシーンオーディオ信号に基づいて、仮想スピーカセットから第2ターゲット仮想スピーカを選択するように構成されており;
信号生成モジュールは、現在のシーンオーディオ信号、及び第2ターゲット仮想スピーカの属性情報に基づいて、第2仮想スピーカ信号を生成するように構成されており;
符号化モジュールは、第2仮想スピーカ信号を符号化して、符号化された第2仮想スピーカ信号をビットストリームに書き込むように構成されている。
本願のいくつかの実施形態において、信号生成モジュールは、第1仮想スピーカ信号及び第2仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号を取得するように構成されており;
それに応じて、符号化モジュールは、位置合わせされた第2仮想スピーカ信号を符号化するように構成されており;
それに応じて、符号化モジュールは、位置合わせされた第1仮想スピーカ信号を符号化するように構成されている。
本願のいくつかの実施形態において、取得モジュールは、現在のシーンオーディオ信号に基づいて、仮想スピーカセットから第2ターゲット仮想スピーカを選択するように構成されており;
信号生成モジュールは、現在のシーンオーディオ信号、及び第2ターゲット仮想スピーカの属性情報に基づいて、第2仮想スピーカ信号を生成するように構成されており;
それに応じて、符号化モジュールは、第1仮想スピーカ信号及び第2仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得すること、ここで、サイド情報は、第1仮想スピーカ信号及び第2仮想スピーカ信号の間の関係を示しており;ダウンミックスされた信号及びサイド情報を符号化することを行うように構成されている。
本願のいくつかの実施形態において、信号生成モジュールは、第1仮想スピーカ信号及び第2仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号を取得するように構成されており;
それに応じて、符号化モジュールは、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得するように構成されており;
それに応じて、サイド情報は、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号の間の関係を示す。
本願のいくつかの実施形態において、取得モジュールは:現在のシーンオーディオ信号に基づいて、仮想スピーカセットから第2ターゲット仮想スピーカを選択する段階の前に、現在のシーンオーディオ信号の符号化レート及び/又は信号タイプ情報に基づいて、第1ターゲット仮想スピーカ以外のターゲット仮想スピーカが取得される必要があるかどうかを決定すること;及び、第1ターゲット仮想スピーカ以外のターゲット仮想スピーカが取得される必要がある場合、現在のシーンオーディオ信号に基づいて、仮想スピーカセットから第2ターゲット仮想スピーカを選択することを行うように構成されている。
図11を参照する。本願の実施形態において提供されたオーディオ復号装置1100は、受信モジュール1101、復号モジュール1102、及び再構築モジュール1103を含み得、ここで
受信モジュールは、ビットストリームを受信するように構成されており;
復号モジュールは、ビットストリームを復号して、仮想スピーカ信号を取得するように構成されており;
再構築モジュールは、ターゲット仮想スピーカの属性情報、及び仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得するように構成されている。
本願のいくつかの実施形態において、復号モジュールはさらに、ビットストリームを復号して、ターゲット仮想スピーカの属性情報を取得するように構成されている。
本願のいくつかの実施形態において、ターゲット仮想スピーカの属性情報は、ターゲット仮想スピーカの高次アンビソニックスHOA係数を含み;
再構築モジュールは、仮想スピーカ信号、及びターゲット仮想スピーカのHOA係数に対して合成処理を実行し、再構築されたシーンオーディオ信号を取得するように構成されている。
本願のいくつかの実施形態において、ターゲット仮想スピーカの属性情報は、ターゲット仮想スピーカの位置情報を含み;
再構築モジュールは、ターゲット仮想スピーカの位置情報に基づいてターゲット仮想スピーカのHOA係数を決定すること;及び
仮想スピーカ信号、及びターゲット仮想スピーカのHOA係数に対して合成処理を実行し、再構築されたシーンオーディオ信号を取得すること
を行うように構成されている。
本願のいくつかの実施形態において、仮想スピーカ信号は、第1仮想スピーカ信号及び第2仮想スピーカ信号をダウンミックスすることによって取得されたダウンミックスされた信号であり、装置はさらに、信号補償モジュールを含み、ここで
復号モジュールは、ビットストリームを復号してサイド情報を取得するように構成されており、ここで、サイド情報は、第1仮想スピーカ信号及び第2仮想スピーカ信号の間の関係を示す;
信号補償モジュールは、サイド情報、及びダウンミックスされた信号に基づいて、第1仮想スピーカ信号及び第2仮想スピーカ信号を取得するように構成されており;
それに応じて、再構築モジュールは、ターゲット仮想スピーカの属性情報、第1仮想スピーカ信号、及び第2仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得するように構成されている。
装置のモジュール/ユニット間の情報などのコンテンツの交換、及びそれらの実行プロセスは、本願の方法の実施形態と同じ思想に基づいており、本願の方法の実施形態と同じ技術的効果を生み出すことに留意されたい。具体的な内容については、本願の方法の実施形態における前述の説明を参照されたい。詳細については本明細書で改めて説明しない。
本願の実施形態はさらに、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体は、プログラムを記憶し、プログラムは、前述の方法の実施形態において説明された一部又は全ての段階を実行する。
以下では、本願の実施形態において提供された別のオーディオ符号化装置を説明する。
図12を参照されたい。オーディオ符号化装置1200は、
受信機1201、送信機1202、プロセッサ1203、及びメモリ1204を含む(オーディオ符号化装置1200には1又は複数のプロセッサ1203が存在し得、1つのプロセッサは図12において例として使用されている)。本願のいくつかの実施形態において、受信機1201、送信機1202、プロセッサ1203、及びメモリ1204は、バス又は別の方式を通じて接続され得る。図12では、バスを通じた接続が例として使用されている。
メモリ1204は、リードオンリメモリ及びランダムアクセスメモリを含み得、命令及びデータをプロセッサ1203に提供し得る。メモリ1204の一部は、不揮発性ランダムアクセスメモリ(non-volatile random access memory, NVRAM)をさらに含み得る。メモリ1204は、オペレーティングシステム、操作命令、実行可能モジュール又はデータ構造体、又はそれらのサブセット、又はそれらの拡張セットを記憶する。操作命令は、様々な操作を実装するために使用される様々な操作命令を含み得る。オペレーティングシステムは、様々な基本サービスを実装し、ハードウェアベースのタスクを処理する様々なシステムプログラムを含み得る。
プロセッサ1203は、オーディオ符号化装置の操作を制御し、プロセッサ1203は、中央処理装置(central processing unit,CPU)とも称され得る。特定のアプリケーションにおいて、オーディオ符号化装置の構成要素は、バスシステムを通じて共に結合される。データバスに加えて、バスシステムはさらに、電力バス、制御バス、及びステータス信号バス等を含み得る。しかしながら、明確な説明のために、図における様々な種類のバスは、バスシステムと称される。
本願の実施形態に開示された方法は、プロセッサ1203に適用されてもよく、又は、プロセッサ1203を使用することによって実装されてもよい。プロセッサ1203は、集積回路チップであってよく、信号処理能力を有する。実装中に、前述の方法の段階は、プロセッサ1203におけるハードウェア統合論理回路又はソフトウェアの形態の命令を使用することによって完了され得る。プロセッサ1203は、汎用プロセッサ、デジタル信号プロセッサ(digital signal processing,DSP)、特定用途向け集積回路(application specific integrated circuit,ASIC)、フィールドプログラマブルゲートアレイ(field-programmable gate array,FPGA)又は別のプログラマブル論理デバイス、ディスクリートゲート又はトランジスタロジックデバイス、又は別個のハードウェアコンポーネントであり得る。プロセッサは、本願の実施形態において開示される方法、段階、及び論理ブロック図を実装又は実行してよい。汎用プロセッサは、マイクロプロセッサであってよく、又は、プロセッサは、任意の従来のプロセッサ等であってよい。本願の実施形態を参照して開示された方法の段階は、ハードウェア復号プロセッサによって直接実行及び完了されてもよく、又は、復号プロセッサにおけるハードウェア及びソフトウェアモジュールの組み合わせを使用することによって実行及び完了されてもよい。ソフトウェアモジュールは、当該技術分野において成熟した記憶媒体、例えば、ランダムアクセスメモリ、フラッシュメモリ、リードオンリメモリ、プログラマブルリードオンリメモリ、電気的消去可能プログラマブルメモリ、又はレジスタに位置され得る。記憶媒体は、メモリ1204に位置し、プロセッサ1203は、メモリ1204における情報を読み取り、プロセッサのハードウェア1203と共に、前述の方法における段階を完了する。
受信機1201は、入力されたデジタル又は文字情報を受信して、オーディオ符号化装置の関連する設定及び機能制御に関連した信号入力を生成するように構成され得る。送信機1202は、ディスプレイスクリーンなどのディスプレイデバイスを含み得る。送信機1202は、デジタル又は文字情報を外部インタフェースを通じて出力するように構成され得る。
本願の本実施形態において、プロセッサ1203は、図4に示された前述の実施形態におけるオーディオ符号化装置によって実行されるオーディオ符号化方法を実行するように構成されている。
以下では、本願の実施形態において提供された別のオーディオ復号装置を説明する。図13を参照されたい。オーディオ復号装置1300は、
受信機1301、送信機1302、プロセッサ1303、及びメモリ1304を含む(オーディオ復号装置1300には1又は複数のプロセッサ1303が存在し得、1つのプロセッサが図13において例として使用されている)。本願のいくつかの実施形態において、受信機1301、送信機1302、プロセッサ1303、及びメモリ1304は、バス又は別の方式を通じて接続され得る。図13では、バスを通じた接続が例として使用されている。
メモリ1304は、リードオンリメモリ及びランダムアクセスメモリを含んでよく、命令及びデータをプロセッサ1303のために提供してよい。メモリ1304の一部は、NVRAMをさらに含み得る。メモリ1304は、オペレーティングシステム、操作命令、実行可能モジュール又はデータ構造体、又はそれらのサブセット、又はそれらの拡張セットを記憶する。操作命令は、様々な操作を実装するために使用される様々な操作命令を含み得る。オペレーティングシステムは、様々な基本サービスを実装し、ハードウェアベースのタスクを処理する様々なシステムプログラムを含み得る。
プロセッサ1303は、オーディオ復号装置の操作を制御し、プロセッサ1303はCPUとも称され得る。特定のアプリケーションにおいて、オーディオ復号装置の構成要素は、バスシステムを通じて共に結合される。データバスに加えて、バスシステムはさらに、電力バス、制御バス、及びステータス信号バス等を含み得る。しかしながら、明確な説明のために、図における様々な種類のバスは、バスシステムと称される。
本願の実施形態に開示された方法は、プロセッサ1303に適用されてもよく、又は、プロセッサ1303を使用することによって実装されてもよい。プロセッサ1303は、集積回路チップであってよく、信号処理能力を有する。実装プロセスにおいて、前述の方法の段階が、プロセッサ1303内のハードウェアの集積論理回路を用いて、又はソフトウェアの形態の命令を用いて実装されてよい。前述のプロセッサ1303は、汎用プロセッサ、DSP、ASIC、FPGA又は別のプログラマブル論理デバイス、ディスクリートゲート又はトランジスタロジックデバイス、又は別個のハードウェアコンポーネントであり得る。プロセッサは、本願の実施形態において開示される方法、段階、及び論理ブロック図を実装又は実行してよい。汎用プロセッサは、マイクロプロセッサであってよく、又は、プロセッサは、任意の従来のプロセッサ等であってよい。本願の実施形態を参照して開示された方法の段階は、ハードウェア復号プロセッサによって直接実行及び完了されてもよく、又は、復号プロセッサにおけるハードウェア及びソフトウェアモジュールの組み合わせを使用することによって実行及び完了されてもよい。ソフトウェアモジュールは、当該技術分野において成熟した記憶媒体、例えば、ランダムアクセスメモリ、フラッシュメモリ、リードオンリメモリ、プログラマブルリードオンリメモリ、電気的消去可能プログラマブルメモリ、又はレジスタに位置され得る。記憶媒体は、メモリ1304に位置し、プロセッサ1303は、メモリ1304における情報を読み取り、プロセッサにおけるハードウェア1303と共に、前述の方法における段階を完了する。
本願の本実施形態において、プロセッサ1303は、図4に示された前述の実施形態におけるオーディオ復号装置によって実行されるオーディオ復号方法を実行するように構成されている。
別の可能な設計において、オーディオ符号化装置又はオーディオ復号装置が端末におけるチップであるとき、チップは、処理ユニット及び通信ユニットを含む。処理ユニットは、例えば、プロセッサであり得、通信ユニットは、例えば、入力/出力インタフェース、ピン、又は回路であり得る。処理ユニットは、記憶ユニットに記憶されたコンピュータ実行可能命令を実行して、端末におけるチップが、第1態様の実装のうち任意の1つに係るオーディオ符号化方法又は第2態様の実装のうち任意の1つに係るオーディオ復号方法を実行することを可能にし得る。任意選択的に、記憶ユニットは、チップ内の記憶ユニットであり、例えば、レジスタ又はキャッシュである。代替的に、記憶ユニットは、端末内にあり且つチップの外部に位置した、例えば、リードオンリメモリ(read-only memory,ROM)、静的情報及び命令を記憶し得る別の種類の静的記憶デバイス、又はランダムアクセスメモリ(random access memory,RAM)などの記憶ユニットであり得る。
上記のプロセッサは、汎用中央処理装置、マイクロプロセッサ、ASIC、又は、第1態様又は第2態様における方法のプログラムの実行を制御するように構成された1又は複数の集積回路であり得る。
これに加えて、説明した装置の実施形態は例に過ぎないことに留意されたい。
別個の部分として説明されているユニットは、物理的に別個のものであってもなくてもよい、且つ、ユニットとして表示されている部分は、物理的なユニットであってもなくてもよいし、1つの位置に位置されてもよいし、複数のネットワークユニットに分散されてもよい。これらのモジュールのいくつかの又は全てが実際の必要性に従って選択されることで、実施形態の解決手段の目的が達成され得る。加えて、本願によって提供された装置の実施形態の添付図面において、モジュール間の接続関係は、モジュールが互いに通信接続を有していることを示しており、これは、1又は複数の通信バス又は信号ケーブルとして具体的に実装され得る。
前述の実装の説明に基づいて、当業者であれば、本願が、必要な汎用ハードウェア、又は、専用ハードウェア(専用集積回路、専用CPU、専用メモリ、専用コンポーネント等を含む)に加えて、ソフトウェアによって実装され得ることを明確に理解し得る。通常、コンピュータプログラムによって実行され得るいずれの機能も、対応するハードウェアを用いることで容易に実装され得る。さらに、同一の機能を達成するために使用される具体的なハードウェア構造は、例えば、アナログ回路、デジタル回路、又は専用回路の形態など、様々な形態であり得る。しかしながら、本願については、大部分のケースにおいて、ソフトウェアプログラム実装がより良い実装である。そのような理解に基づいて、本質的に又は部分的に従来技術に寄与する本願の技術的解決手段は、ソフトウェア製品の形態で実装され得る。コンピュータソフトウェア製品は、例えば、フロッピーディスク、USB、フラッシュドライブ、リムーバブルハードディスク、ROM、RAM、磁気ディスク、又はコンピュータの光ディスクなどの可読記憶媒体に記憶されており、コンピュータデバイス(パーソナルコンピュータ、サーバ、及びネットワークデバイス等であり得る)に、本願の実施形態において説明された方法を実行するように命令するためのいくつかの命令を含む。
全て又は幾つの前述の実施形態は、ソフトウェア、ハードウェア、ファームウェア、又は、それらの任意の組み合わせを用いることによって実装され得る。ソフトウェアが実施形態を実装するために用いられる場合、実施形態の全部又は一部がコンピュータプログラム製品の形式で実装されてよい。
コンピュータプログラム製品は、1又は複数のコンピュータ命令を含む。コンピュータプログラム命令がコンピュータに読み込まれて実行されるとき、本願の実施形態による手順又は機能の全部又は一部が生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラマブル装置であってよい。コンピュータ命令は、コンピュータ可読記憶媒体に記憶され得る、又は、コンピュータ可読記憶媒体から別のコンピュータ可読記憶媒体に伝送され得る。例えば、コンピュータ命令は、ウェブサイト、コンピュータ、サーバ又はデータセンタから別のウェブサイト、コンピュータ、サーバ又はデータセンタへ、有線(例えば、同軸ケーブル、光ファイバ又はデジタル加入者線(DSL))又は無線(例えば、赤外線、電波又はマイクロ波)方式で伝送されてよい。コンピュータ可読記憶媒体は、コンピュータ、又は、1又は複数の使用可能な媒体を統合するサーバ又はデータセンタ等のデータ記憶デバイスによってアクセス可能な任意の使用可能な媒体であり得る。使用可能な媒体は、磁気媒体(例えば、フロッピーディスク、ハードディスク、又は磁気テープ)、光媒体(例えば、DVD)、半導体媒体(例えば、ソリッドステートディスク(solid state disk、SSD))などであってよい。

Claims (44)

  1. オーディオ符号化方法であって、 現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第1ターゲット仮想スピーカを選択する段階;
    前記現在のシーンオーディオ信号、及び前記第1ターゲット仮想スピーカの属性情報に基づいて、第1仮想スピーカ信号を生成する段階;及び
    前記第1仮想スピーカ信号を符号化して、ビットストリームを取得する段階
    を備える、方法。
  2. 前記方法はさらに、
    前記仮想スピーカセットに基づいて、前記現在のシーンオーディオ信号からメイン音場成分を取得する段階
    を備え;
    現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第1ターゲット仮想スピーカを選択する前記段階は、
    前記メイン音場成分に基づいて、前記仮想スピーカセットから前記第1ターゲット仮想スピーカを選択する段階
    を含む、請求項1に記載の方法。
  3. 前記メイン音場成分に基づいて、前記仮想スピーカセットから前記第1ターゲット仮想スピーカを選択する前記段階は、
    前記メイン音場成分に基づいて、高次アンビソニックス(HOA)係数セットから前記メイン音場成分のHOA係数を選択する段階、ここで、前記HOA係数セットにおけるHOA係数は、前記仮想スピーカセットにおける仮想スピーカと1対1の対応関係にある;及び
    前記メイン音場成分の前記HOA係数に対応し且つ前記仮想スピーカセットにおける仮想スピーカを、前記第1ターゲット仮想スピーカとして決定する段階
    を含む、請求項2に記載の方法。
  4. 前記メイン音場成分に基づいて、前記仮想スピーカセットから前記第1ターゲット仮想スピーカを選択する前記段階は、
    前記メイン音場成分に基づいて、前記第1ターゲット仮想スピーカの構成パラメータを取得する段階;
    前記第1ターゲット仮想スピーカの前記構成パラメータに基づいて、前記第1ターゲット仮想スピーカのHOA係数を生成する段階;及び
    前記第1ターゲット仮想スピーカの前記HOA係数に対応し且つ前記仮想スピーカセットにおける仮想スピーカを、前記ターゲット仮想スピーカとして決定する段階
    を含む、請求項2に記載の方法。
  5. 前記メイン音場成分に基づいて、前記第1ターゲット仮想スピーカの構成パラメータを取得する前記段階は、
    オーディオエンコーダの構成情報に基づいて、前記仮想スピーカセットにおける複数の仮想スピーカの構成パラメータを決定する段階;及び
    前記メイン音場成分に基づいて、前記複数の仮想スピーカの前記構成パラメータから前記第1ターゲット仮想スピーカの前記構成パラメータを選択する段階
    を含む、請求項4に記載の方法。
  6. 前記第1ターゲット仮想スピーカの前記構成パラメータは、前記第1ターゲット仮想スピーカの位置情報及びHOA次数情報を含み;
    前記第1ターゲット仮想スピーカの前記構成パラメータに基づいて、前記第1ターゲット仮想スピーカのHOA係数を生成する前記段階は、
    前記第1ターゲット仮想スピーカの前記位置情報及び前記HOA次数情報に基づいて、前記第1ターゲット仮想スピーカの前記HOA係数を決定する段階
    を含む、請求項4又は5に記載の方法。
  7. 前記方法はさらに、
    前記第1ターゲット仮想スピーカの前記属性情報を符号化する段階、及び、符号化された属性情報を前記ビットストリームに書き込む段階を備える、請求項1から6のいずれか一項に記載の方法。
  8. 前記現在のシーンオーディオ信号は符号化対象の高次アンビソニックス(HOA)信号を含み、前記第1ターゲット仮想スピーカの前記属性情報は前記第1ターゲット仮想スピーカのHOA係数を含み;
    前記現在のシーンオーディオ信号、及び前記第1ターゲット仮想スピーカの属性情報に基づいて、第1仮想スピーカ信号を生成する前記段階は、
    前記符号化対象のHOA信号及び前記HOA係数に対して線形結合を実行して、前記第1仮想スピーカ信号を取得する段階
    を含む、請求項1から7のいずれか一項に記載の方法。
  9. 前記現在のシーンオーディオ信号は符号化対象の高次アンビソニックス(HOA)信号を含み、前記第1ターゲット仮想スピーカの前記属性情報は前記第1ターゲット仮想スピーカの位置情報を含み;
    前記現在のシーンオーディオ信号、及び前記第1ターゲット仮想スピーカの属性情報に基づいて、第1仮想スピーカ信号を生成する前記段階は、
    前記第1ターゲット仮想スピーカの前記位置情報に基づいて、前記第1ターゲット仮想スピーカのHOA係数を取得する段階;及び
    前記符号化対象のHOA信号、及び前記HOA係数に対して線形結合を実行して、前記第1仮想スピーカ信号を取得する段階
    を含む、請求項1から7のいずれか一項に記載の方法。
  10. 前記方法はさらに、
    前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第2ターゲット仮想スピーカを選択する段階;
    前記現在のシーンオーディオ信号、及び前記第2ターゲット仮想スピーカの属性情報に基づいて、第2仮想スピーカ信号を生成する段階;及び
    前記第2仮想スピーカ信号を符号化する段階、及び符号化された第2仮想スピーカ信号を前記ビットストリームに書き込む段階
    を備える、請求項1から9のいずれか一項に記載の方法。
  11. 前記方法はさらに、
    前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号を取得する段階
    を備え;
    それに応じて、前記第2仮想スピーカ信号を符号化する前記段階は、
    前記位置合わせされた第2仮想スピーカ信号を符号化する段階を含み;
    それに応じて、前記第1仮想スピーカ信号を符号化する前記段階は、
    前記位置合わせされた第1仮想スピーカ信号を符号化する段階を含む、請求項10に記載の方法。
  12. 前記方法はさらに、
    前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第2ターゲット仮想スピーカを選択する段階;及び
    前記現在のシーンオーディオ信号、及び前記第2ターゲット仮想スピーカの属性情報に基づいて、第2仮想スピーカ信号を生成する段階
    を備え;
    それに応じて、前記第1仮想スピーカ信号を符号化する前記段階は、
    前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得する段階、ここで、前記サイド情報は、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号の間の関係を示す;及び
    前記ダウンミックスされた信号及び前記サイド情報を符号化する段階
    を含む、請求項1から9のいずれか一項に記載の方法。
  13. 前記方法はさらに、
    前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号を取得する段階
    を備え;
    それに応じて、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得する前記段階は、
    前記位置合わせされた第1仮想スピーカ信号及び前記位置合わせされた第2仮想スピーカ信号に基づいて、前記ダウンミックスされた信号、及び前記サイド情報を取得する段階
    を含み;
    それに応じて、前記サイド情報は、前記位置合わせされた第1仮想スピーカ信号及び前記位置合わせされた第2仮想スピーカ信号の間の関係を示す、請求項12に記載の方法。
  14. 前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第2ターゲット仮想スピーカを選択する前記段階の前に、前記方法はさらに、
    前記現在のシーンオーディオ信号の符号化レート及び/又は信号タイプ情報に基づいて、前記第1ターゲット仮想スピーカ以外のターゲット仮想スピーカが取得される必要があるかどうかを決定する段階;及び
    前記第1ターゲット仮想スピーカ以外の前記ターゲット仮想スピーカが取得される必要がある場合、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから前記第2ターゲット仮想スピーカを選択する段階
    を含む、請求項10から13のいずれか一項に記載の方法。
  15. オーディオ復号方法であって、
    ビットストリームを受信する段階;
    前記ビットストリームを復号して、仮想スピーカ信号を取得する段階;及び
    ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する段階
    を備える、方法。
  16. 前記方法はさらに、
    前記ビットストリームを復号して、前記ターゲット仮想スピーカの前記属性情報を取得する段階を備える、請求項15に記載の方法。
  17. 前記ターゲット仮想スピーカの前記属性情報は、前記ターゲット仮想スピーカの高次アンビソニックス(HOA)係数を含み;
    ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する前記段階は、
    前記仮想スピーカ信号、及び前記ターゲット仮想スピーカの前記HOA係数に対して合成処理を実行し、前記再構築されたシーンオーディオ信号を取得する段階
    を含む、請求項16に記載の方法。
  18. 前記ターゲット仮想スピーカの前記属性情報は、前記ターゲット仮想スピーカの位置情報を含み;
    ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する前記段階は、
    前記ターゲット仮想スピーカの前記位置情報に基づいて前記ターゲット仮想スピーカのHOA係数を決定する段階;及び
    前記仮想スピーカ信号、及び前記ターゲット仮想スピーカの前記HOA係数に対して合成処理を実行し、前記再構築されたシーンオーディオ信号を取得する段階
    を含む、請求項16に記載の方法。
  19. 前記仮想スピーカ信号は、第1仮想スピーカ信号及び第2仮想スピーカ信号をダウンミックスすることによって取得されたダウンミックスされた信号であり、前記方法はさらに、
    前記ビットストリームを復号してサイド情報を取得する段階、ここで、前記サイド情報は、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号の間の関係を示す;及び
    前記サイド情報、及び前記ダウンミックスされた信号に基づいて、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号を取得する段階
    を備え;
    それに応じて、ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する前記段階は、
    前記ターゲット仮想スピーカの前記属性情報、前記第1仮想スピーカ信号、及び前記第2仮想スピーカ信号に基づいて、前記再構築されたシーンオーディオ信号を取得する段階
    を含む、請求項15から18のいずれか一項に記載の方法。
  20. オーディオ符号化装置であって、
    現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第1ターゲット仮想スピーカを選択するように構成された取得モジュール;
    前記現在のシーンオーディオ信号、及び前記第1ターゲット仮想スピーカの属性情報に基づいて、第1仮想スピーカ信号を生成するように構成された信号生成モジュール;及び
    前記第1仮想スピーカ信号を符号化してビットストリームを取得するように構成された符号化モジュール
    を備える、装置。
  21. 前記取得モジュールは、前記仮想スピーカセットに基づいて、前記現在のシーンオーディオ信号からメイン音場成分を取得すること;及び、前記メイン音場成分に基づいて、前記仮想スピーカセットから前記第1ターゲット仮想スピーカを選択することを行うように構成されている、請求項20に記載の装置。
  22. 前記取得モジュールは、前記メイン音場成分に基づいて、高次アンビソニックス(HOA)係数セットから前記メイン音場成分のHOA係数を選択すること、ここで、前記HOA係数セットにおけるHOA係数は、前記仮想スピーカセットにおける仮想スピーカと1対1の対応関係にある;及び、前記メイン音場成分の前記HOA係数に対応し且つ前記仮想スピーカセットにおける仮想スピーカを、前記第1ターゲット仮想スピーカとして決定することを行うように構成されている、請求項21に記載の装置。
  23. 前記取得モジュールは、前記メイン音場成分に基づいて、前記第1ターゲット仮想スピーカの構成パラメータを取得すること;前記第1ターゲット仮想スピーカの前記構成パラメータに基づいて、前記第1ターゲット仮想スピーカのHOA係数を生成すること;及び、前記第1ターゲット仮想スピーカの前記HOA係数に対応し且つ前記仮想スピーカセットにおける仮想スピーカを、前記ターゲット仮想スピーカとして決定することを行うように構成されている、請求項21に記載の装置。
  24. 前記取得モジュールは、オーディオエンコーダの構成情報に基づいて、前記仮想スピーカセットにおける複数の仮想スピーカの構成パラメータを決定すること;及び、前記メイン音場成分に基づいて、前記複数の仮想スピーカの前記構成パラメータから前記第1ターゲット仮想スピーカの前記構成パラメータを選択することを行うように構成されている、請求項23に記載の装置。
  25. 前記第1ターゲット仮想スピーカの前記構成パラメータは、前記第1ターゲット仮想スピーカの位置情報及びHOA次数情報を含み;
    前記取得モジュールは、前記第1ターゲット仮想スピーカの前記位置情報及び前記HOA次数情報に基づいて、前記第1ターゲット仮想スピーカの前記HOA係数を決定するように構成されている、請求項23又は24に記載の装置。
  26. 前記符号化モジュールはさらに、前記第1ターゲット仮想スピーカの前記属性情報を符号化して、符号化された属性情報を前記ビットストリームに書き込むように構成されている、請求項20から25のいずれか一項に記載の装置。
  27. 前記現在のシーンオーディオ信号は符号化対象のHOA信号を含み、前記第1ターゲット仮想スピーカの前記属性情報は前記第1ターゲット仮想スピーカのHOA係数を含み;
    前記信号生成モジュールは、前記符号化対象のHOA信号及び前記HOA係数に対して線形結合を実行して、前記第1仮想スピーカ信号を取得するように構成されている、請求項20から26のいずれか一項に記載の装置。
  28. 前記現在のシーンオーディオ信号は符号化対象の高次アンビソニックス(HOA)信号を含み、前記第1ターゲット仮想スピーカの前記属性情報は前記第1ターゲット仮想スピーカの位置情報を含み;
    前記信号生成モジュールは、前記第1ターゲット仮想スピーカの前記位置情報に基づいて、前記第1ターゲット仮想スピーカのHOA係数を取得すること;及び、前記符号化対象のHOA信号、及び前記HOA係数に対して線形結合を実行して、前記第1仮想スピーカ信号を取得することを行うように構成されている、請求項20から26のいずれか一項に記載の装置。
  29. 前記取得モジュールは、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第2ターゲット仮想スピーカを選択するように構成されており;
    前記信号生成モジュールは、前記現在のシーンオーディオ信号、及び前記第2ターゲット仮想スピーカの属性情報に基づいて、第2仮想スピーカ信号を生成するように構成されており;
    前記符号化モジュールは、前記第2仮想スピーカ信号を符号化して、符号化された第2仮想スピーカ信号を前記ビットストリームに書き込むように構成されている、請求項20から28のいずれか一項に記載の装置。
  30. 前記信号生成モジュールは、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号を取得するように構成されており;
    それに応じて、前記符号化モジュールは、前記位置合わせされた第2仮想スピーカ信号を符号化するように構成されており;
    それに応じて、前記符号化モジュールは、前記位置合わせされた第1仮想スピーカ信号を符号化するように構成されている、請求項29に記載の装置。
  31. 前記取得モジュールは、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第2ターゲット仮想スピーカを選択するように構成されており;
    前記信号生成モジュールは、前記現在のシーンオーディオ信号、及び前記第2ターゲット仮想スピーカの属性情報に基づいて、第2仮想スピーカ信号を生成するように構成されており;
    それに応じて、前記符号化モジュールは、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得すること、ここで、前記サイド情報は、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号の間の関係を示しており;前記ダウンミックスされた信号及び前記サイド情報を符号化することを行うように構成されている、請求項20から28のいずれか一項に記載の装置。
  32. 前記信号生成モジュールは、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第1仮想スピーカ信号及び位置合わせされた第2仮想スピーカ信号を取得するように構成されており;
    それに応じて、前記符号化モジュールは、前記位置合わせされた第1仮想スピーカ信号及び前記位置合わせされた第2仮想スピーカ信号に基づいて、前記ダウンミックスされた信号及び前記サイド情報を取得するように構成されており;
    それに応じて、前記サイド情報は、前記位置合わせされた第1仮想スピーカ信号及び前記位置合わせされた第2仮想スピーカ信号の間の関係を示す、請求項31に記載の装置。
  33. 前記取得モジュールは:前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第2ターゲット仮想スピーカを前記選択する前に、前記現在のシーンオーディオ信号の符号化レート及び/又は信号タイプ情報に基づいて、前記第1ターゲット仮想スピーカ以外のターゲット仮想スピーカが取得される必要があるかどうかを決定すること;及び、前記第1ターゲット仮想スピーカ以外の前記ターゲット仮想スピーカが取得される必要がある場合、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから前記第2ターゲット仮想スピーカを選択することを行うように構成されている、請求項20から32のいずれか一項に記載の装置。
  34. オーディオ復号装置であって、
    ビットストリームを受信するように構成された受信モジュール;
    前記ビットストリームを復号して、仮想スピーカ信号を取得するように構成された復号モジュール;及び
    ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得するように構成された再構築モジュール
    を備える、装置。
  35. 前記復号モジュールはさらに、前記ビットストリームを復号して、前記ターゲット仮想スピーカの前記属性情報を取得するように構成されている、請求項34に記載の装置。
  36. 前記ターゲット仮想スピーカの前記属性情報は、前記ターゲット仮想スピーカの高次アンビソニックス(HOA)係数を含み;
    前記再構築モジュールは、前記仮想スピーカ信号、及び前記ターゲット仮想スピーカの前記HOA係数に対して合成処理を実行し、前記再構築されたシーンオーディオ信号を取得するように構成されている、請求項35に記載の装置。
  37. 前記ターゲット仮想スピーカの前記属性情報は、前記ターゲット仮想スピーカの位置情報を含み;
    前記再構築モジュールは、前記ターゲット仮想スピーカの前記位置情報に基づいて前記ターゲット仮想スピーカのHOA係数を決定すること;及び
    前記仮想スピーカ信号、及び前記ターゲット仮想スピーカの前記HOA係数に対して合成処理を実行し、前記再構築されたシーンオーディオ信号を取得すること
    を行うように構成されている、請求項35に記載の装置。
  38. 前記仮想スピーカ信号は、第1仮想スピーカ信号及び第2仮想スピーカ信号をダウンミックスすることによって取得されたダウンミックスされた信号であり、前記装置はさらに、信号補償モジュールを備え、ここで
    前記復号モジュールは、前記ビットストリームを復号してサイド情報を取得するように構成されており、ここで、前記サイド情報は、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号の間の関係を示す;
    前記信号補償モジュールは、前記サイド情報、及び前記ダウンミックスされた信号に基づいて、前記第1仮想スピーカ信号及び前記第2仮想スピーカ信号を取得するように構成されており;
    それに応じて、前記再構築モジュールは、前記ターゲット仮想スピーカの前記属性情報、前記第1仮想スピーカ信号、及び前記第2仮想スピーカ信号に基づいて、前記再構築されたシーンオーディオ信号を取得するように構成されている、請求項34から37のいずれか一項に記載の装置。
  39. オーディオ符号化装置であって、前記オーディオ符号化装置は、少なくとも1つのプロセッサを備え、前記少なくとも1つのプロセッサは、メモリに結合され、前記メモリ内の命令を読み取って実行することで、請求項1から14のいずれか一項に記載の方法を実装するように構成されている、オーディオ符号化装置。
  40. 前記オーディオ符号化装置はさらに、前記メモリを備える、請求項39に記載のオーディオ符号化装置。
  41. オーディオ復号装置であって、前記オーディオ復号装置は、少なくとも1つのプロセッサを備え、前記少なくとも1つのプロセッサは、メモリに結合され、前記メモリ内の命令を読み取って実行することで、請求項15から19のいずれか一項に記載の方法を実装するように構成されている、オーディオ復号装置。
  42. 前記オーディオ復号装置はさらに、前記メモリを備える、請求項41に記載のオーディオ復号装置。
  43. コンピュータに、請求項1から14又は請求項15から19のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
  44. 請求項1から14のいずれか一項に記載の方法を使用することによって生成されたビットストリームを備える、コンピュータ可読記憶媒体。
JP2023532579A 2020-11-30 2021-05-28 オーディオの符号化及び復号方法及び装置 Pending JP2023551040A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011377320.0A CN114582356A (zh) 2020-11-30 2020-11-30 一种音频编解码方法和装置
CN202011377320.0 2020-11-30
PCT/CN2021/096841 WO2022110723A1 (zh) 2020-11-30 2021-05-28 一种音频编解码方法和装置

Publications (1)

Publication Number Publication Date
JP2023551040A true JP2023551040A (ja) 2023-12-06

Family

ID=81753927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023532579A Pending JP2023551040A (ja) 2020-11-30 2021-05-28 オーディオの符号化及び復号方法及び装置

Country Status (7)

Country Link
US (1) US20230298600A1 (ja)
EP (1) EP4246510A4 (ja)
JP (1) JP2023551040A (ja)
CN (1) CN114582356A (ja)
CA (1) CA3200632A1 (ja)
MX (1) MX2023006299A (ja)
WO (1) WO2022110723A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376527A (zh) * 2021-05-17 2022-11-22 华为技术有限公司 三维音频信号编码方法、装置和编码器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881628B2 (en) * 2016-01-05 2018-01-30 Qualcomm Incorporated Mixed domain coding of audio
EP3523799B1 (en) * 2016-10-25 2021-12-08 Huawei Technologies Co., Ltd. Method and apparatus for acoustic scene playback
CA3061809C (en) * 2017-05-03 2022-05-03 Andreas Walther Audio processor, system, method and computer program for audio rendering
US10674301B2 (en) * 2017-08-25 2020-06-02 Google Llc Fast and memory efficient encoding of sound objects using spherical harmonic symmetries
US11395083B2 (en) * 2018-02-01 2022-07-19 Qualcomm Incorporated Scalable unified audio renderer
US10667072B2 (en) * 2018-06-12 2020-05-26 Magic Leap, Inc. Efficient rendering of virtual soundfields
US11699451B2 (en) * 2018-07-02 2023-07-11 Dolby Laboratories Licensing Corporation Methods and devices for encoding and/or decoding immersive audio signals
CN109618276B (zh) * 2018-11-23 2020-08-07 武汉轻工大学 基于非中心点的声场重建方法、设备、存储介质及装置

Also Published As

Publication number Publication date
US20230298600A1 (en) 2023-09-21
CA3200632A1 (en) 2022-06-02
EP4246510A4 (en) 2024-04-17
MX2023006299A (es) 2023-08-21
EP4246510A1 (en) 2023-09-20
WO2022110723A1 (zh) 2022-06-02
CN114582356A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
US9516446B2 (en) Scalable downmix design for object-based surround codec with cluster analysis by synthesis
KR101854964B1 (ko) 구면 조화 계수들의 변환
KR102516625B1 (ko) 몰입형 오디오를 캡처하고, 인코딩하고, 분산하고, 디코딩하기 위한 시스템 및 방법
US9478225B2 (en) Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
TWI666627B (zh) 高階保真立體音響訊號表象之壓縮方法和裝置以及解壓縮方法和裝置
US20140086416A1 (en) Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
BR112020018466A2 (pt) representando áudio espacial por meio de um sinal de áudio e de metadados associados
US20230298600A1 (en) Audio encoding and decoding method and apparatus
US20230298601A1 (en) Audio encoding and decoding method and apparatus
JPWO2020080099A1 (ja) 信号処理装置および方法、並びにプログラム
KR20240021911A (ko) 3차원 오디오 신호를 인코딩하기 위한 방법 및 장치, 인코더 및 시스템
JP7453997B2 (ja) DirACベースの空間オーディオ符号化のためのパケット損失隠蔽
WO2022237851A1 (zh) 一种音频编码、解码方法及装置
KR20240001226A (ko) 3차원 오디오 신호 코딩 방법, 장치, 및 인코더
JP2024518846A (ja) 3次元オーディオ信号符号化方法および装置、ならびにエンコーダ
JP2024517503A (ja) 三次元オーディオ信号コーディング方法および装置、ならびにエンコーダ
JP2024509179A (ja) Hoa係数を取得する方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230703