JP2023530410A - 改善された連続性を有するオーディオ信号の適応ダウンミキシング - Google Patents

改善された連続性を有するオーディオ信号の適応ダウンミキシング Download PDF

Info

Publication number
JP2023530410A
JP2023530410A JP2022575893A JP2022575893A JP2023530410A JP 2023530410 A JP2023530410 A JP 2023530410A JP 2022575893 A JP2022575893 A JP 2022575893A JP 2022575893 A JP2022575893 A JP 2022575893A JP 2023530410 A JP2023530410 A JP 2023530410A
Authority
JP
Japan
Prior art keywords
channel
audio
input
primary
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022575893A
Other languages
English (en)
Inventor
エス. マグラス,デイヴィッド
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2023530410A publication Critical patent/JP2023530410A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

システム、方法、及びコンピュータ・プログラム製品が、改善された連続性を有するオーディオ信号の適応ダウンミキシングに関連して開示されている。オーディオ符号化システムは、プライマリ入力オーディオ・チャネルとL個の非プライマリ入力オーディオ・チャネルとを含む入力マルチ・チャネル・オーディオ信号を受信する。システムは、L個の入力ゲインのセットを決定する。各チャンネル及びゲインに対して、システムは、それぞれのスケーリングされた非プライマリ入力オーディオ・チャネルを形成する。システムは、プライマリ入力オーディオ・チャネルとスケーリングされた非プライマリ入力オーディオ・チャネルの合計から、プライマリ出力オーディオ・チャネルを形成する。システムは、L個の予測ゲインのセットを決定する。システムは、プライマリ出力オーディオ・チャネルから予測チャネルを形成する。システムはL個の非プライマリ出力オーディオ・チャネルを形成する。システムは、プライマリ出力オーディオ・チャネル及びL個の非プライマリ出力オーディオ・チャネルから、出力マルチ・チャネル・オーディオ信号を形成する。

Description

[0001] 関連出願の相互参照
本出願は、2020年6月11日付で出願された米国仮特許出願第63/037,635号、及び2021年5月27日付で出願された米国仮特許出願第63/193,926号に対する優先権を主張しており、各出願は全体的に参照により本件に援用される。
[0002] 技術分野
本開示は、一般に、オーディオ・コーディングに関連し、特に、マルチ・チャネル・オーディオ信号のコーディングに関連する。
[0003] 入力オーディオ信号が後の使用のために記憶又は(例えば、再生されるためにリスナーへ)伝送される場合、オーディオ信号を符号化してデータ量を削減することが望ましい場合が多い。入力オーディオ信号に適用されるようなデータ削減のプロセスは、一般に「オーディオ符号化」(又は「符号化(encoding)」)と呼ばれ、符号化に使用される装置は、一般に「オーディオ符号化器」(又は「エンコーダ」)と呼ばれる。削減されたデータからの出力オーディオ信号の再生のプロセスは、一般に「オーディオ復号化」(又は「復号化(decoding)」)と呼ばれ、復号化に使用される装置は、一般に「オーディオ復号化器」(又は「デコーダ」)と呼ばれる。オーディオ・エンコーダとデコーダは、単一のオーディオ・チャネル又は複数のオーディオ・チャネルから構成される入力信号に対して動作するように構成されることが可能である。入力信号が複数のオーディオ・チャネルから構成される場合、オーディオ・エンコーダ及びオーディオ・デコーダはそれぞれマルチ・チャネル・オーディオ・エンコーダ及びマルチ・チャネル・オーディオ・デコーダと呼ばれる。
[0004] 改善された連続性を有するオーディオ信号の適応ダウンミキシングに関する実施例が開示される。
[0005] 一部の実施形態では、オーディオ符号化方法は:少なくとも1つのプロセッサが、プライマリ入力オーディオ・チャネルとL個の非プライマリ入力オーディオ・チャネルとを含む入力マルチ・チャネル・オーディオ信号を受信するステップ;少なくとも1つのプロセッサが、L個の入力ゲインのセットを決定するステップであって、Lは1より大きな正の整数である、ステップ;L個の非プライマリ入力オーディオ・チャネルとL個の入力ゲインの各々について、個々のスケーリングされた非プライマリ・オーディオ・チャネルを、入力ゲインに従ってスケーリングされた個々の非プライマリ入力オーディオ・チャネルから形成するステップ;プライマリ入力オーディオ・チャネルとスケーリングされた非プライマリ入力オーディオ・チャネルとの合計から、プライマリ出力オーディオ・チャネルを形成するステップ;少なくとも1つのプロセッサが、L個の予測ゲインのセットを決定するステップ;L個の予測ゲインの各々について、少なくとも1つのプロセッサが、予測ゲインに従ってスケーリングされたプライマリ出力オーディオ・チャネルから、予測チャネルを形成するステップ;少なくとも1つのプロセッサが、個々の非プライマリ入力オーディオ・チャネルと個々の予測信号との差分から、L個の非プライマリ出力オーディオ・チャネルを形成するステップ;少なくとも1つのプロセッサが、プライマリ出力オーディオ・チャネルとL個の非プライマリ出力オーディオ・チャネルから、出力マルチ・チャネル・オーディオ信号を形成するステップ;オーディオ・エンコーダが、出力マルチ・チャネル・オーディオ信号を符号化するステップ;及び少なくとも1つのプロセッサが、その符号化された出力マルチ・チャネル・オーディオ信号を伝送又は保存するステップを含む。
[0006] 一部の実施形態では、L個の入力ゲインのセットを決定するステップが:L個の混合係数のセットを決定するステップ;入力混合強度係数を決定するステップ;及びL個の混合係数を入力混合強度係数でスケーリングすることにより、L個の入力ゲインを決定するステップを含む。
[0007] 一部の実施形態では、L個の予測ゲインのセットを決定するステップが:L個の混合係数のセットを決定するステップ;予測混合強度係数を決定するステップ;及びL個の混合係数を予測混合強度係数でスケーリングすることにより、L個の予測ゲインを決定するステップを含む。
[0008] 一部の実施形態では、入力混合強度係数hは、事前の予測制約方程式h=fgにより決定され、ここで、fは0より大きく且つ1以下の予め決定された定数値であり、gは予測混合強度係数である。
[0009] 一部の実施形態では、予測混合強度係数gは:
Figure 2023530410000002
に対する最大実数値解であり、ここで、
Figure 2023530410000003
であり、数量w、列ベクトルv、及び行列Eは、支配的なチャネルを有する中間信号に対する共分散行列の成分である。
[0010] 一部の実施形態では、中間信号の共分散行列は、マルチ・チャネル入力オーディオ信号の共分散行列から計算される。
[0011] 一部の実施形態では、プライマリ入力オーディオ・チャネルとL個の非プライマリ入力オーディオ・チャネルとを生成するために、2つ以上の入力マルチ・チャネル・オーディオ・チャネルが混合行列に従って処理される。
[0012] 一部の実施形態では、プライマリ入力オーディオ・チャネルは、典型的な入力マルチ・チャネル・オーディオ信号の期待される共分散行列の支配的な固有ベクトルによって決定される。
[0013] 一部の実施形態では、L個の混合係数の各々は、非プライマリ入力オーディオ・チャネルのそれぞれとプライマリ入力オーディオ・チャネルとの相関に基づいて決定される。
[0014] 一部の実施形態では、符号化するステップは、プライマリ出力オーディオ・チャネルに、L個の非プライマリ出力オーディオ・チャネルよりも多くのビットを割り当てるステップ、又は、L個の非プライマリ出力オーディオ・チャネルのうちの1つ以上を破棄するステップを含む。
[0015] 本件で開示される他の実施例は、システム、装置、及びコンピュータ読み取り可能な媒体に関連する。開示される実施例の詳細は、添付の図面及び明細書で説明されている。その他の特徴、目的及び利点は、明細書、図面及び特許請求の範囲から明らかである。
[0016] 本件で開示される特定の実施例は以下の1つ以上の利点を提供する。入力マルチ・チャネル・オーディオ信号は、オーディオ・プレ・ミキサによって処理されて、効率的な符号化のために2つの望ましい属性を有する出力マルチ・チャネル・オーディオ信号を形成する。第1の特徴的性質は、出力マルチ・チャネル・オーディオ信号の少なくとも1つの支配的なオーディオ・チャネルが、入力マルチ・チャネル・オーディオ信号のソニック・エレメント(sonic elements)の大部分又は全部を含むことである。第2の特徴的性質は、出力マルチ・チャネル・オーディオ信号のオーディオ・チャネルのそれぞれが、他のオーディオ・チャネル各々と主として非相関であることである。単純なエンコーダは或るデータを単純なエンコーダに提供して、単純なエンコーダよって廃棄されたオーディオ・チャネルの再生を支援することができる。
[0017] 上述の2つの特性は、より支配的でないチャネルの符号化に、より少ないビットを割り当てることにより、又は、より支配的でないオーディオ・チャネルを完全に破棄することを選択することにより、出力マルチ・チャネル・オーディオ信号が、単純なエンコーダによって効率的にエンコードされることを可能にする。
[0018] 図面では、説明を容易にするために、デバイス、ユニット、命令ブロック及びデータ要素を表すもののような、概略的な要素の特定の配置又は順序が示されている。しかしながら、図面における概略的な要素の特定の順序付け又は配置は、処理の特定の順序やシーケンス、又は処理の分離が必須とされることを意味するようには意図されない、ということが当業者には理解されるはずである。更に、図面に概略的な要素を含めることは、そのような要素が全ての実施形態で必須とされること、又は、そのような要素によって表される特徴が、幾つかの実施例における他の要素に含められないことやそれと組み合わせられない可能性があること、を意味するようには意図されていない。
[0019] 更に、図面においては、実線、破線又は矢印のような接続要素が、2つ以上の他の概略要素の間又はそれらの中の接続、関係、又は関連を示すために使用されており、そのような接続要素の欠如は、接続、関係、又は関連が存在し得ないことを意味するようには意図されていない。換言すれば、要素間の幾つかの接続、関係、又は関連は、開示を不明瞭にしないように、図面には示されていない。更に、説明を容易にするために、単一の接続要素が、要素間の複数の接続、関係又は関連を表すために使用される。例えば、接続要素が信号、データ、又は命令の伝達を表す場合、このような要素は、通信に影響を与えるために必要とされる可能性のある1つ以上の信号経路を表す、ということが当業者には理解されるはずである。
[0020] 図1は、一部の実施形態による、出力マルチ・チャネル・オーディオ信号を形成するように意図された単純なオーディオ・エンコーダ及び単純なオーディオ・デコーダの構成のブロック図であり、入力マルチ・チャネル・オーディオ信号の模写である。 [0021] 図2は、一部の実施形態による、オーディオ・エンコーダ、オーディオ・デコーダ、エンコーダ・プレ・ミキサ、デコーダ・ポスト・ミキサを含むオーディオ・コーデック・システムのブロック図である。 [0022] 図3は、一部の実施形態による処理要素の配置を示し、入力マルチ・チャネル・オーディオ信号はフィルタバンクによってサブ・バンド信号に分割され、各サブ・バンドは、リミックスされたサブ・バンド信号を生成するために、混合行列によって処理される。 [0023] 図4は、一部の実施形態による、図2のエンコーダ・プレ・ミキサ又は図3のエンコーダ・プレ・ミキサの機能を実施するように意図された2つの混合動作の配置のブロック図である。 [0024] 図5は、一部の実施形態による予測ミキサのブロック図である [0025] 図6は、一部の実施形態による図2のデコーダ・ポスト・ミキサを実装する処理要素の配置を示す。 [0026] 図7は、一部の実施形態による、改善された連続性を有するオーディオ信号の適応ダウンミキシングのプロセスのフローチャートである。 [0027] 図8は、図1-7を参照して説明した特徴及びプロセスを実施するための一部の実施形態によるシステムのブロック図である。 [0028] 種々の図面で使用される同一の参照記号は同様な要素を示す。
[0029] 以下の詳細な説明では、種々の説明される実施形態の完全な理解をもたらすために、多くの具体的な詳細が説明されている。種々の説明される実施例はこれらの具体的な詳細なしに実施されることが可能である、ということは当業者にとって明らかであろう。他の例では、周知の方法、手順、構成要素、及び回路は、実施形態の態様を不必要に不明瞭にしないように詳細には説明されていない。互いに独立して、又は他の特徴の何らかの組み合わせと共に、それぞれ使用されることが可能な幾つかの特徴が、以下において説明される。
[0030] 用語
本件で使用される場合、用語「~を含む」及びその変形は、「~を含むが、それに限定されない」を意味するオープン・エンドの用語として読まれるべきである。用語「又は」は、文脈が別意を明示的に示していない限り「及び/又は」として読まれるべきである。用語「~に基づいて」は「~に少なくとも部分的に基づいて」と読まれるべきである。用語「1つの実装例」及び「実装例」は「少なくとも1つの実装例」と読まれるべきである。用語「別の実装例」は「少なくとも1つの別の実装例」と読まれるべきである。用語「決定された」、「決定する」又は「決定している」は、取得している、受信している、演算、計算、推定、予測、又は導出と読まれるべきである。更に、以下の説明及び特許請求の範囲において、別段の定めがない限り、本件で使用される全ての技術的及び科学的な用語は、本開示が属する技術分野における当業者によって一般的に理解されるものと同じ意味を有する。
[0031] 図1は、マルチ・チャネル・オーディオ信号13(Z)の複製(facsimile)であるマルチ・チャネル・オーディオ信号17(Z’)を形成するように意図された、シンプル・オーディオ・エンコーダ及びシンプル・オーディオ・デコーダの構成10のブロック図である。マルチ・チャネル・オーディオ信号13は、符号化された表現15を生成するためにシンプル・オーディオ・エンコーダ14によって処理され、その符号化された表現は、マルチ・チャネル・オーディオ信号17を生成するシンプル・オーディオ・デコーダ16に送信及び/又は記憶されることが可能である(20)。好ましくは、符号化された表現15のデータ・サイズは、マルチ・チャネル・オーディオ信号13とマルチ・チャネル・オーディオ信号17との間の差を最小化しながら最小化される。更に、マルチ・チャネル・オーディオ信号13とマルチ・チャネル・オーディオ信号17との間の差は、人間のリスナーにより知覚されるような類似性に従って測定されることが可能である。オーディオ信号13とオーディオ信号17との間の人間が知覚する類似性の尺度は、リファレンス再生方法(即ち、仮定されたデフォルト手段であり、そのデフォルト手段により、マルチ・チャネル・オーディオ信号13、17のオーディオ・チャネルがリスナーに対して聴覚的な体験として提示される)に基づいている。
[0032] シンプル・オーディオ・エンコーダ14及びデコーダ16の効率は、マルチ・チャネル・オーディオ信号17を提供するために要求される符号化された表現15のデータ・レート(1秒当たりのビットで測定されるもの)の観点から定義されてもよく、これは、マルチ・チャネル・オーディオ信号13を特定の知覚される品質レベルに合わせるように、リスナーによって決定されることになる。シンプル・オーディオ・エンコーダ14及びデコーダ16は、マルチ・チャネル・オーディオ信号13が特定の属性を有することが分かっている場合に、より高い効率(即ち、より低いデータレート)を達成することができる。特に、マルチ・チャネル・オーディオ信号13が以下の属性(DD1及びDD2)を有することが分かっている場合に、より高い効率が達成される可能性がある:
[0033] DD1:マルチ・チャネル・オーディオ信号のうちの1つ以上のチャネルは、他のチャネルよりも概して支配的であり、ここで、より支配的なオーディオ・チャネルは、シーン内のソニック・エレメントの大部分(又は全て)の実質的な要素を含むチャネルである。即ち、単一のオーディオ・チャネルとしてリスナーに提示される場合、支配的なオーディオ信号は、マルチ・チャネル・オーディオ信号がリファレンス再生方法によりリスナーに提示されるときに、マルチ・チャネル信号のソニック・エレメントの大部分(又は全部)を含むであろう。
[0034] DD2:マルチ・チャネル・オーディオ信号の各オーディオ・チャネルは、他のオーディオ・チャネルの各々と主に非相関である。
[0035] マルチ・チャネル・オーディオ信号13が属性DD1及びDD2を有するという知識を考慮すると、シンプル・オーディオ・エンコーダ14は:より支配的でないチャネルの符号化に、より少ないビットを割り当てること、又はより支配的でないチャネルを完全に破棄することを選択すること、を含む幾つかの技術を使用して、改善された効率を達成することができるが、技術はそれらに限定されない。シンプル・オーディオ・エンコーダ14は、シンプル・オーディオ・エンコーダ14によって廃棄されたチャネルの再生を支援するために、シンプル・オーディオ・デコーダ16にデータを提供することが可能である。好ましくは、属性DD1及びDD2を有しないマルチ・チャネル・オーディオ信号は、エンコーダ・プレ・ミキサ(encoder pre-mixer)によって処理されて、属性DD1及びDD2を有するマルチ・チャネル・オーディオ信号を形成する、例えば演算、決定、構築、又は生成することが可能であり、これについては図2に関連して更に説明される。対応するデコーダ・ポスト・ミキサ(decoder post-mixer)は、出力マルチ・チャネル・オーディオ信号を形成するためにシンプル・デコーダの出力に適用され、その結果、デコーダ・ポスト・ミキサは、エンコーダ・プレ・ミキサの動作に対して近似的に逆の動作を実行する。
[0036] 図2は、オーディオ・エンコーダ104及びオーディオ・デコーダ106、エンコーダ・プレ・ミキサ102及びデコーダ・ポスト・ミキサ108を含むオーディオ・コーデック・システム100のブロック図である。オーディオ・エンコーダ104及びオーディオ・デコーダ106は、マルチ・チャネル・オーディオ信号101(X)の複製であるマルチ・チャネル・オーディオ信号109(X’)を形成する。好ましくは、符号化された表現105のデータ・サイズは、マルチ・チャネル・オーディオ信号101とマルチ・チャネル・オーディオ信号109との間の差を最小化しながら最小化される。更に、マルチ・チャネル・オーディオ信号101とマルチ・チャネル・オーディオ信号109との間の差は、人間のリスナーにより知覚される類似性に従って測定されることが可能である。
[0037] マルチ・チャネル・オーディオ信号101とマルチ・チャネル・オーディオ信号109との間の人間が知覚する類似性の尺度は、リファレンス再生方法(即ち、仮定されたデフォルト手段であり、そのデフォルト手段により、オーディオ信号101,109のオーディオ・チャネルはリスナーに対して聴覚的な体験として提示される)に基づいている。マルチ・オーディオ・エンコーダ104及びマルチ・チャネル・オーディオ・デコーダ106の効率は、マルチ・チャネル・オーディオ信号109を提供する符号化された表現105のデータ・レート(1秒当たりのビットで測定されるもの)であって、マルチ・チャネル・オーディオ信号101を特定の知覚される品質レベルに合わせるように、リスナーによって決定されることになるもの、の観点から定義されてもよい。
[0038] 図2を参照すると、入力マルチ・チャネル・オーディオ信号101は、出力マルチ・チャネル・オーディオ信号103(Z)を生成するためにエンコーダ・プレ・ミキサ102(R)に従って混合され、出力マルチ・チャネル・オーディオ信号103(Z)は、符号化された表現105を生成するためにシンプル・オーディオ・エンコーダ104によって処理され、符号化された表現105は、マルチ・チャネル・オーディオ信号107(Z’)を生成するシンプル・オーディオ・デコーダ106に送信及び/又は記憶されることが可能である。マルチ・チャネル・オーディオ信号107はデコーダ・ポスト・ミキサ108(R’)によって処理されて、復号化されたマルチ・チャネル・オーディオ信号109を生成する。エンコーダ・プレ・ミキサ102は、デコーダ・ポスト・ミキサ108の挙動を決定するために必要な情報を含むメタデータ112(Q)を提供する。メタデータ112は、符号化された表現105をとともに記憶及び/又は送信されることが可能である。マルチ・チャネル・オーディオ・エンコーダ104及びマルチ・チャネル・オーディオ・デコーダ106の効率の測定は、当業者には理解されるように、メタデータ112のサイズを含んでもよい(一般的には、ビット毎秒で測定される)。
[0039] マルチ・チャネル・オーディオ信号101は、N個のオーディオ・チャネルから構成されてもよく、この場合において、幾つかのペアのチャネル間に有意の相関が存在する可能性があり、その場合、単一のチャネルが支配的なチャネルであるとは考えられなくてもよい。即ち、マルチ・チャネル・オーディオ信号101は、属性DD1及びDD2を有しない可能性があり、従って、マルチ・チャネル・オーディオ信号101はそれぞれシンプル・オーディオ・エンコーダ104及びデコーダ106を使用して符号化及び復号化するのに適した信号ではない可能性がある。
[0040] 好ましくは、エンコーダ・プレ・ミキサ102は、入力マルチ・チャネル・オーディオ信号101を処理して出力マルチ・チャネル・オーディオ信号103を生成するように構成され、ここで、出力マルチ・チャネル・オーディオ信号103は属性DD1及びDD2を有する。入力マルチ・チャネル・オーディオ信号XがN個のチャネルで構成されていることを考慮する:
Figure 2023530410000004
出力マルチ・チャネル・オーディオ信号Zは次のように計算される:
Figure 2023530410000005
[0041] エンコーダ・プレ・ミキサ行列Rの係数は、経時的に変化する可能性があり、従って、Rは、時間の関数であると考えることが可能である。Rの要素の値は、規則的なインターバル(例えば、インターバルは20ms、或いは1msないし100msの間の値、であってもよい)で計算されてもよいし、又は不規則なインターバルで計算されてもよい。Rの要素の値が変化した場合、その変化はスムーズに補間されてもよい。以下の議論では、Rに関する言及は、時変エンコーダ・プレ・ミキサR(t)に関する言及として扱われるべきであり、R’に関する言及は、時変デコーダ・プレ・ミキサR’(t)に関する言及として扱われるべきである。
[0042] 実施形態では、エンコーダ・プレ・ミキサ102は、バンドb内のオーディオ信号の成分を処理するために、混合係数Rb(t)を利用することが可能であり、ここで、1≦b≦Bである。図4は処理エレメント150の構成を示し、これにより、マルチ・チャネル・オーディオ信号151(X)は、フィルタバンク152によってB個のサブ・バンド信号X[1](t),X[2](t),... X[B](t)に分割され、各サブ・バンド信号(例えば、153(X[1](t)))は混合行列(例えば、154(R1))によって処理され、リミックスされた(再混合)サブ・バンド信号(例えば、155(Z[1](t)))を生成する。リミックスされたサブ・バンド信号Z[1](t),Z[2](t),...,Z[B](t)は、コンバイナ156によって再結合され、マルチ・チャネル・オーディオ信号157を形成する。
[0043] 以下の議論の目的のために、行列R(t)に関する言及は、Rb(t)に関する言及として解釈されることが可能であり、ここで、bはサブ・バンドを示す。以下の説明は、サブ・バンドで処理される信号、又はサブ・バンド処理を伴わずに処理される信号、に適用される可能性があることが理解されるであろう。多くの方法がサブ・バンドに従ってオーディオ信号を処理するために使用されてもよいこと、及び行列Rの議論はこれらの方法に適用されることは、当業者に理解されるであろう。
[0044] 図2を参照すると、Rはマルチ・チャネル・オーディオ信号101のチャネルを混合して、上述したような属性DD1及びDD2を有するマルチ・チャネル・オーディオ信号103を生成し、従って、エンコーダ106は、改善されたデータ効率を達成することが可能になる。デコーダ・プレ・ミキサ108(R’)は、次のようにミキサRの逆である混合動作をもたらす:
Figure 2023530410000006
[0045] 図3は、図2のエンコーダ・プレ・ミキサ102(R)又は図4のエンコーダ・プレ・ミキサRbの機能を実現するように意図される2つの混合処理の構成200のブロック図である。Nチャネル・マルチ・チャネル入力信号201(X)は、Nチャネル中間信号203(Y)を生成するために行列202(M)により混合され、Nチャネル中間信号203(Y)は、その後、Nチャネル信号205(Z)を生成するためにミキサ204(P)によって処理される。図3信号201(X)及び205(Z)は、それぞれ、図2の入力信号101(X)及び103(Z)に、又は図4のサブ・バンド信号153(Xb(t))及び155(Zb(t))に対応するように意図されている。
[0046] 分析ブロック210(A)は、信号201から入力を受け取り、ミキサ204の動作を適合させるために使用される係数212を計算する。また、分析ブロック210は、図2のメタデータ112に対応するメタデータ211(Q)を生成し、これは、デコーダ・ポスト・ミキサ108によって使用されることになる113(Q)として、デコーダに提供される。
[0047] 図3のミキサ202及び204の配置から、行列Rは以下のようになることが理解されるであろう:
Figure 2023530410000007
ここで、行列Pは時間とともに変化する可能性がある。
[0048] 従って次のようになる:
Figure 2023530410000008
[0049] 行列Mは、中間信号203(Y)が属性DD1を有することを保証するように適合される。即ち、Nチャネル信号203(Y)は、支配的なチャネルであると考えられてもよい1つのチャネルを含む。一般性を失うことなく、行列Mは、第1のチャネルY1(t)が支配的なチャネルであることを保証するように適合される。以下、マルチ・チャネル信号の第1のチャネルが支配的なチャネルである場合、この第1のチャネルは、プライマリ・チャネルと言及される。プライマリ・チャネルは、一部の文脈では「固有チャネル(eigen channel)」とも言及される場合がある。
[0050] [N×N]行列Mは、Nチャネル入力信号X(t)の[N×N]期待共分散行列(expected covariance matrix)Covから決定されることが可能である:
Figure 2023530410000009
ここで、X(t)Hの演算は、長さNの列ベクトルX(t)のエルミート転置(Hermitian Transpose)を示し、E()演算は変数の量についての期待値を示す。
[0051] 数式[10]で使用されているように、期待値は、典型的な入力マルチ・チャネル・オーディオ信号の仮定された特性に基づいて推定されてもよいし、又は、典型的な入力マルチ・チャネル・オーディオ信号のセットについての統計分析によって推定されてもよい。
[0052] 共分散行列Covは、当業者に良く知られているように、固有値分析に従って因子分解されることが可能であり:
Figure 2023530410000010
ここで、行列Vはユニタリ行列であり、行列 Dは、対角要素が降順にソーティングされた非負の実数値である対角行列である。
[0053] 行列Mは、次のように選択することができる:
Figure 2023530410000011
[0054] 共分散行列Covは、元の入力信号X(t)を形成するために使用されるパニング法(panning method)、及び典型的な信号の作者によって使用されるパニング法の典型的な使用に依存することが当業者に理解されるであろう。
[0055] 一例として、元の入力信号がステレオ・スピーカーでの再生用に意図された2チャネル・ステレオ信号である場合、コンテンツ作者により使用される典型的なパニング・ルールは、一部のオーディオ・オブジェクトが第1のチャネル(この文脈では、これはしばしば左チャネルと言及される)にパニングされ、一部のオーディオ・オブジェクトが第2のチャネルにパニングされ(この文脈では、これはしばしば右チャネルと言及される)、一部のオブジェクトは両方のチャネルに同時にパニングされる結果をもたらす。この場合、共分散行列は以下のようであってもよく:
Figure 2023530410000012
また、数式[12]及び[13]によれば、次のようになる:
Figure 2023530410000013
[0056] 数式[15]の行列Mは、L/Rステレオ・フォーマットの入力オーディオ信号Xを、Mid/Sideフォーマットにおけるものとなる中間信号Zに変換するのに適した混合行列として、当業者にはなじみのあるものである。また、Zの第1のチャネル(このケースでは、Mid信号としばしば言及される)は支配的なオーディオ信号(プライマリ・チャネル)であり、これは、ステレオ・ミックス内のほとんどのオーディオ要素がMid信号に存在するという性質を有する。
[0057] 別の例として、元の入力信号が、5つのスピーカーの一般的な配置での再生用に意図された5チャネルのサラウンド信号である場合、コンテンツ作者によって使用される典型的なパニング・ルールは、一部のオーディオ・オブジェクトが5つのチャネルのうちの1つにパニングされ、一部のオブジェクトが2つ以上のチャネルに同時にパニングされる結果をもたらす。この場合、共分散行列は以下のようであってもよく:
Figure 2023530410000014
また、数式[12]及び[13]によれば、次のようになる:
Figure 2023530410000015
[0058] 数式[17]の行列Mの一番上の行は、同様な(又は同一の)正の値で形成されていることが理解されるであろう。これは、数式[6]によれば、中間信号Yの最初のチャネルは、元の入力オーディオ信号X(t)の5チャネルの合計によって形成されることを意味し、それは、元の入力オーディオ信号にパニングされる全てのソニック・エレメントがY1(t)(Nチャネル信号Y(t)の第1のチャネル)に存在することを保証する。従って、行列Mのこの選択の仕方は、中間信号Yが属性DD1(Y1(t)がプライマリ・チャネルであること)を有することを保証する。
[0059] 更に別の例では、入力マルチ・チャネル・オーディオ信号X(t)が、既に支配的なチャネルを含んでいる場合に(一般性を損なうことなく、第1のチャネルX1(t)が支配的であると仮定される)、行列Mは、[N×N]の単位行列であってもよい。支配的な/プライマリの第1のチャネルを有する入力マルチ・チャネル・オーディオ信号のより具体的な例では、入力マルチ・チャネル・オーディオ信号は、(当業者に良く知られた音響シーンを符号化する手段である)アンビソニック(Ambisonic)フォーマットで符号化された音響シーンを表すことが可能である。
[0060] 行列212(P(t))は、以下のプロセスに従って時間tにおいて図3の分析ブロック210(A)によって計算される:
1. 時間tにおける中間信号Y(t)の共分散を決定する。共分散を計算する方法の一例は次のとおりである:
Figure 2023530410000016
[0061] 代替的に、中間信号Y(t)の共分散は、以下のように、入力マルチ・チャネル・オーディオ信号X(t)の共分散から計算されてもよい:
Figure 2023530410000017
2. [L×L]共分散行列CovY(t)から、スカラー量w=[CovY(t)]1,1,[N×1]列ベクトルv=[CovY(t)]2..L,1,及び[N×N]行列E=[CovY(t)]2..L,2..Lを抽出する。ここで、N=L-1である:
Figure 2023530410000018
3. 混合係数の量α,β及び[N×1]ベクトルuを決定する:
Figure 2023530410000019
[0062] 4. 数量w,α,βの下で、方程式[25]を解いて、入力混合強度係数h及び予測混合強度係数gを決定する:
Figure 2023530410000020
ここで、この方程式の解は、事前の予測制約方程式も満たすことになる。事前の予測制約方程式の一例は次のようなものである:
Figure 2023530410000021
ここで、fは、0<f≦1 を満たす所定の定数値である。
[0063] 事前の予測制約PPC1が使用される場合、式[25]は次のように変形されることが可能であり:
Figure 2023530410000022
また、方程式[27]はgの最大実数値に関して解くことが可能であり、従ってhの値は式[26]を用いて決定することが可能である。
5. [L×L]行列Qを次のように形成する:
Figure 2023530410000023
6. [L×L]行列P(t)を次のように決定する:
Figure 2023530410000024
ここで、ILは[L×L]恒等行列である。
[0064] 図3のメタデータ211(Q)は、単位ベクトルu及び係数g,hが、図2のデコーダ・ポスト・ミキサ113によって決定されることを可能にする情報を伝達することが可能である。
[0065] 式[27]のgに対する解は、初期推定値g1=1を選択し、(当該技術分野で知られているようなニュートン法に従って)多数の反復を行うことによって近似することが可能であり:
Figure 2023530410000025
その結果、解に対する合理的な近似は、g=g5から見出されても良い。3次方程式 [27]に対する近似解を見出すために、他の方法が当該技術分野で知られていることは理解されるであろう。
[0066] 代替的な実施形態によれば、中間信号Y(t)のプライマリ・チャネルと残りのN個の非プライマリ・チャネルとの間の相関を示す[N×1]ベクトルuを決定し、入力混合強度係数h及び予測混合強度係数gを決定して、式[28]に従ってP(t)を形成することにより、時間tにおける[L×L]行列P(t)を決定することが可能であり、その結果、信号Z(t)=P(t)×Y(t)は属性DD1及びDD2を有することになる。
[0067] 係数g及びhの決定は、事前の予測制約方程式によって支配される可能性がある。事前の予測制約方程式の例は、式[26]で与えられている(PPC1)。係数fに関する好ましい選択は、f=0.5とすることが可能であるが、0.2≦f≦1の範囲内のfの値が使用に適している可能性がある。
[0068] 代替的な実施形態では、以下の事前の予測制約が使用されてもよい:
Figure 2023530410000026
ここで、cは予め決定される定数である。典型的な値はc=1とすることが可能であるが、cの値は、0.25≦c≦4の範囲内で選択されてもよい。
[0069] 方程式[31]における制約PPC2によれば、方程式[25]に対する解は次のようになる:
Figure 2023530410000027
[0070] 図5は、一部の実施形態による予測ミキサ300のブロック図である。式[29]の行列項(IL-gQ)及び(IL+hQH)は、予測ミキサ300によって実現されてもよく、この場合におけるこの例では、信号Y(t)は4チャネル(L=4)で構成され、第1のチャネル301(Y1)はプライマリ・チャネルであり、残りの3つの非プライマリ・チャネル302(e.g.,Y2,Y3,Y4)は、3つの入力ゲイン312(H2,H3,H4H3)に従ってスケーリングされ、スケーリングされた入力信号成分(e.g.,304)を形成する。スケーリングされた入力信号成分は、プライマリ入力チャネル301(Y1)と加算されて、プライマリ出力306(Z1)を形成する。プライマリ出力306は、3つの予測ゲイン313(G2,G3,G4)によってスケーリングされて、3つの予測信号(e.g.,311))を形成する。各々の予測信号は、それぞれの入力(e.g.,Y2 302)から減算され(e.g.,308及び309)、それぞれの非支配的出力310(Z2)を形成する。
[0071] 3つの入力ゲイン312(H2,H3,H4)は、以下のように、混合係数u(式[23]に従って決定される)及び入力混合強度係数hから(式[25]に対する解それぞれに関して)決定されることが可能である:
Figure 2023530410000028
[0072] 3つの予測ゲイン313(G2,G3,G4)は、以下のように、混合係数u(式[23]に従って決定される)及び予測混合強度係数gから(式[25]に対する解それぞれに関して)決定されることが可能である:
Figure 2023530410000029
[0073] 当業者は、図4の線形行列演算M 202及びP 204の処理が、単一の行列R=P×Mを用いて実施されてもよいことを理解するであろう。
[0074] 当業者は、図2のデコーダ行列R’が、行列M’(Mのインバース)及びP’(Pのインバース)から形成されてもよいことを理解するであろう:
Figure 2023530410000030
また、M’は(時間の関数として変化せずに)事前に演算されていても良く P’は次の方法によって形成されても良い:
Figure 2023530410000031
[0075] 図6は、図2のデコーダ・ポスト・ミキサ108を実装する処理要素の配置400を示す。メタデータ402(Q)は、インバース予測決定ブロック405(P’)の動作を決定するために必要な係数を計算するインバース予測決定ブロック403(B)に情報を提供する。信号401(Z’)は、中間信号406(Y’)を生成するためにインバース予測器405(P’)によって処理され、中間信号406は、次いで、出力信号408を生成するために行列407(M’)によって処理される。

[0076] 例示的なプロセス
図7は、一部の実施形態による、改善された連続性を有するオーディオ信号の適応ダウンミキシングのプロセス700のフローチャートである。プロセス700は、例えば、図8に示すシステム800によって実現することが可能である。
[0077] プロセス700は:プライマリ入力オーディオ・チャネルとL個の非プライマリ入力オーディオ・チャネルとを含む入力マルチ・チャネル・オーディオ信号を受信するステップ(701);L個の入力ゲインのセットを決定するステップ(Lは1より大きな正の整数である)(702);L個の非プライマリ入力オーディオ・チャネルとL個の入力ゲインの各々について、個々のスケーリングされた非プライマリ・オーディオ・チャネルを、入力ゲインに従ってスケーリングされた個々の非プライマリ入力オーディオ・チャネルから形成するステップ(703);プライマリ入力オーディオ・チャネルとスケーリングされた非プライマリ入力オーディオ・チャネルとの合計から、プライマリ出力オーディオ・チャネルを形成するステップ(704); L個の予測ゲインのセットを決定するステップ(705);L個の予測ゲインの各々について、予測ゲインに従ってスケーリングされたプライマリ出力オーディオ・チャネルから、予測チャネルを形成するステップ(706);個々の非プライマリ入力オーディオ・チャネルと個々の予測信号との差分から、L個の非プライマリ出力オーディオ・チャネルを形成するステップ(707);プライマリ出力オーディオ・チャネルとL個の非プライマリ出力オーディオ・チャネルから、出力マルチ・チャネル・オーディオ信号を形成するステップ(708);出力マルチ・チャネル・オーディオ信号を符号化するステップ(709);及び符号化された出力マルチ・チャネル・オーディオ信号を伝送又は保存するステップ(710)を含む。これらのステップの各々は、図1-6に関連してより完全に説明されている。
[0078] 例示的なシステム・アーキテクチャ
図8は、図1-7に関連して説明された特徴及びプロセスを実施する実施形態による例示的なシステム800のブロック図を示す。システム800は、スマート・フォン、タブレット・コンピュータ、ウェアラブル・コンピュータ、車両コンピュータ、ゲーム・コンソール、サラウンド・システム、キオスクを含むがこれらに限定されない、オーディオを再生することが可能な任意のデバイスを含む。
[0079] 図示されているように、システム800は、例えば、リード・オンリー・
メモリ802に記憶されたプログラム、又は、例えば記憶ユニット808からランダム・アクセス・メモリ(RAM)803にロードされたプログラム、に従って種々のプロセスを実行することが可能な中央処理ユニット(CPU)801を含む。RAM 803には、CPU 801が各種プロセスを実行する際に必要とされるデータが、必要に応じて保存されている。CPU 801、ROM 802及びRAM 803は、バス809を介して互いに接続される。入/出力(I/O)インターフェース805はバス804にも接続されている。
[0080] 以下の構成要素が、I/Oインターフェース805に接続されている:キーボード、マウス等を含む可能性のある入力ユニット806;液晶ディスプレイ(LCD)のようなディスプレイ及び1つ以上のスピーカーを含む可能性のある出力ユニット807;ハード・ディスク又は別の適切な記憶デバイスを含む記憶ユニット808;及びネットワーク・カードのようなネットワーク・インターフェース・カードを含む通信ユニット809(例えば、無線又は有線によるもの)。
[0081] 一部の実装では、入力ユニット806は、種々のフォーマット(例えば、モノ、ステレオ、空間、イマーシブ、及びその他の適切なフォーマット)でオーディオ信号を取り込むことができるように、(ホスト・デバイスに依存する)様々な位置に1つ以上のマイクロホンを含む。
[0082] 一部の実装では、出力ユニット807は、様々な個数のスピーカーを用いるシステムを含む。図8に示すように、(ホスト・デバイスの能力に応じて)出力ユニット807は、様々なフォーマット(例えば、モノ、ステレオ、イマーシブ、バイノーラル、及びその他の適切なフォーマット)でオーディオ信号をレンダリングすることができる。
[0083] 通信ユニット809は、(例えば、ネットワークを介して)他のデバイスと通信するように構成される。ドライブ810は、必要に応じて、I/Oインターフェース805にも接続される。磁気ディスク、光ディスク、磁気光ディスク、フラッシュ・ドライブ、又はその他の適切な取り外し可能な媒体のようなリムーバブル媒体811がドライブ810に取り付けられ、その結果、そこから読み込まれるコンピュータ・プログラムが必要に応じて記憶ユニット808にインストールされる。当業者は、システム800が上述の構成要素を含むものとして説明されているが、実際のアプリケーションでは、これらの構成要素のうちの幾つかを追加、除去、及び/又は置換することが可能であり、これらの修正又は変更は全て本開示の範囲内にあることを理解するであろう。
[0084] 本件で説明されるシステムの態様は、デジタル又はデジタル化されたオーディオ・ファイルを処理するための適切なコンピュータ・ベースの音声処理ネットワーク環境で実現されることが可能である。適応オーディオ・システムの一部分は、任意の所望の数の個別マシンを含む1つ以上のネットワークを含んでもよく、そのマシンは、コンピュータ間で伝送されるデータをバッファリング及びルーティングするように機能する1つ以上のルータ(図示せず)を含む。そのようなネットワークは、種々の異なるネットワーク・プロトコル上に構築されてもよく、インターネット、ワイド・エリア・ネットワーク(WAN)、ローカル・エリア・ネットワーク(LAN)、又はそれらの任意の組み合わせであってもよい。
[0085] 本開示の例示的な実施形態によれば、上述のプロセスは、コンピュータ・ソフトウェア・プログラムとして、又はコンピュータ読み取り可能な記憶媒体において実施されることが可能である。例えば、本開示の実施形態は、機械読み取り可能な媒体上に実体的に組み込まれたコンピュータ・プログラムであって方法を実行するためのプログラム・コードを含むものを含むコンピュータ・プログラム製品を含む。そのような実施形態において、コンピュータ・プログラムは、図8に示されるように通信ユニット809を介してネットワークからダウンロード及び実装され、及び/又は取り外し可能媒体811からインストールされてもよい。
[0086] 一般に、本開示の様々な例示の実施形態は、ハードウェア又は特殊目的回路(例えば、制御回路)、ソフトウェア、ロジック、又はそれらの任意の組み合わせで実施されることが可能である。例えば、上述のユニットは、制御回路(例えば、図8の他の構成要素と組み合わせられるCPU)によって実行されることが可能であり、従って、制御回路は、本開示で説明される動作を実行することが可能である。幾つかの態様はハードウェアで実施されることが可能である一方、他の態様はコントローラ、マイクロプロセッサ、又はその他の演算デバイス(例えば、制御回路)によって実行されることが可能なファームウェア又はソフトウェアで実現されることが可能である。本開示の例示的な実施形態の様々な態様は、ブロック図、フローチャート、又は何らかの他の図形表示をとして図示及び説明されているが、本件で説明されるブロック、装置、システム、技術、又は方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特殊目的回路若しくはロジック、汎用ハードウェア若しくはコントローラ、又はその他の演算デバイス、又はそれらの何らかの組み合わせにおいて実施されてもよいことが理解されるであろう。
[0087] 更に、フローチャートに示される種々のブロックは、方法ステップとして、及び/又はコンピュータ・プログラム・コードの動作から生じる動作として、及び/又は関連する機能を実行するように構成された複数の結合された論理回路素子として見なすことが可能である。例えば、本開示の実施形態は、機械読み取り可能な媒体に実体的に具体化されたコンピュータ・プログラムを含むコンピュータ・プログラム製品を含み、コンピュータ・プログラムは、上記の方法を実行するように構成されたプログラム・コードを含む。
[0088] 本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスにより使用されるか又は或いは関連するプログラムを、含む又は記憶することが可能な任意の有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、非一時的であってもよく、電子、磁気、光学、電磁、赤外線、若しくは半導体のシステム、装置、若しくはデバイス、又はこれらの適切な組み合わせを含む可能性があるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ以上のワイヤを含む電気接続、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、消去可能なプログラマブル・リード・オンリー・メモリ(EPROM又はフラッシュ・メモリ)、光ファイバ、ポータブル・コンパクト・ディスク・リード・オンリー・メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は上記の適切な任意の組み合わせを含む。
[0089] 本開示の方法を実行するためのコンピュータ・プログラム・コードは、1つ以上のプログラミング言語の任意の組み合わせで書くことが可能である。これらのコンピュータ・プログラム・コードは、汎用コンピュータ、専用コンピュータ、又はその他のプログラマブル・データ処理装置であって制御回路を有するもののプロセッサに提供されることが可能であり、その結果、プログラム・コードは、コンピュータのプロセッサ又はその他のプログラマブル・データ処理装置によって実行されると、フローチャート及び/又はブロック図に示される機能/動作が実行されることを引き起こす。プログラム・コードは、コンピュータ上で完全に、コンピュータ上で部分的に、スタンド・アロン・ソフトウェア・パッケージとして、コンピュータ上で部分的に且つリモート・コンピュータ上で部分的に、リモート・コンピュータ又はサーバー上で完全に、1つ以上のリモート・コンピュータ及び/又はサーバー上で分散されて実行することが可能である。
[0090] 本明細書は多くの特定の実装の詳細を含んでいるが、これらは、クレームされる可能性のある範囲に対する限定として解釈されるべきではなく、むしろ特定の実施形態に特有である可能性のある特徴の説明と解釈されるべきである。別々の実施形態の文脈で本明細書において説明されている特定の特徴が、単一の実施形態において組み合わせて実施されることも可能である。逆に、単一の実施形態の文脈で説明されている種々の特徴が、複数の実施形態において別々に、又は何らかの適切なサブ・コンビネーションで実施されることも可能である。更に、特徴は、特定の組み合わせにおいて作用するものとして上述され、当初にはそのようにクレームされてさえいるかもしれないが、クレームされる組み合わせのうちの1つ以上の特徴は、場合によっては、その組み合わせから切り出されることが可能であり、クレームされた組み合わせは、サブ・コンビネーション又はサブ・コンビネーションの変形に関連する可能性がある。図に示されている論理フローは、所望の結果を達成するために、図示の特定の順序、又は連続的な順序を必要としない。更に、他のステップが提供されてもよく、或いは説明されたフローからステップが除去されてもよく、説明されたシステムに他の構成要素が追加されてもよいし、或いは説明されたシステムから除去されてもよい。従って、他の実装も以下のクレームの範囲内にある。

Claims (12)

  1. オーディオ符号化方法であって:
    少なくとも1つのプロセッサが、プライマリ入力オーディオ・チャネルとL個の非プライマリ入力オーディオ・チャネルとを含む入力マルチ・チャネル・オーディオ信号を受信するステップ;
    前記少なくとも1つのプロセッサが、L個の入力ゲインのセットを決定するステップであって、Lは1より大きな正の整数である、ステップ;
    前記L個の非プライマリ入力オーディオ・チャネルとL個の入力ゲインの各々について、個々のスケーリングされた非プライマリ・オーディオ・チャネルを、前記入力ゲインに従ってスケーリングされた個々の非プライマリ入力オーディオ・チャネルから形成するステップ;
    前記プライマリ入力オーディオ・チャネルと前記スケーリングされた非プライマリ入力オーディオ・チャネルとの合計から、プライマリ出力オーディオ・チャネルを形成するステップ;
    前記少なくとも1つのプロセッサが、L個の予測ゲインのセットを決定するステップ;
    前記L個の予測ゲインの各々について、前記少なくとも1つのプロセッサが、前記予測ゲインに従ってスケーリングされた前記プライマリ出力オーディオ・チャネルから、予測チャネルを形成するステップ;
    前記少なくとも1つのプロセッサが、前記個々の非プライマリ入力オーディオ・チャネルと前記個々の予測信号との差分から、L個の非プライマリ出力オーディオ・チャネルを形成するステップ;
    前記少なくとも1つのプロセッサが、前記プライマリ出力オーディオ・チャネルと前記L個の非プライマリ出力オーディオ・チャネルから、出力マルチ・チャネル・オーディオ信号を形成するステップ;
    オーディオ・エンコーダが、前記出力マルチ・チャネル・オーディオ信号を符号化するステップ;及び
    前記少なくとも1つのプロセッサが、その符号化された出力マルチ・チャネル・オーディオ信号を伝送又は保存するステップ;
    を含む方法。
  2. 請求項1に記載の方法において、前記L個の入力ゲインのセットを決定するステップが:
    L個の混合係数のセットを決定するステップ;
    入力混合強度係数を決定するステップ;及び
    前記L個の混合係数を前記入力混合強度係数でスケーリングすることにより、前記L個の入力ゲインを決定するステップ;
    を含む方法。
  3. 請求項2に記載の方法において、前記L個の予測ゲインのセットを決定するステップが:
    L個の混合係数のセットを決定するステップ;
    予測混合強度係数を決定するステップ;及び
    前記L個の混合係数を前記予測混合強度係数でスケーリングすることにより、前記L個の予測ゲインを決定するステップ;
    を含む方法。
  4. 請求項3に記載の方法において、前記入力混合強度係数hは、事前の予測制約方程式h=fgにより決定され、fは0より大きく1以下の予め決定された定数値であり、gは予測混合強度係数である、方法。
  5. 請求項4に記載の方法において、前記予測混合強度係数gは:
    Figure 2023530410000032
    に対する最大実数値解であり、ここで、
    Figure 2023530410000033
    であり、数量w、列ベクトルv、及び行列Eは、支配的なチャネルを有する中間信号に対する共分散行列の成分である、方法。
  6. 請求項5に記載の方法において、前記中間信号の前記共分散行列は、マルチ・チャネル入力オーディオ信号の共分散行列から計算される、方法。
  7. 請求項2又は3に記載の方法において、前記プライマリ入力オーディオ・チャネルと前記L個の非プライマリ入力オーディオ・チャネルとを生成するために、2つ以上の入力マルチ・チャネル・オーディオ・チャネルが混合行列に従って処理される、方法。
  8. 請求項7に記載の方法において、前記プライマリ入力オーディオ・チャネルは、典型的な入力マルチ・チャネル・オーディオ信号の期待される共分散行列の支配的な固有ベクトルによって決定される、方法。
  9. 請求項2又は3に記載の方法において、前記L個の混合係数の各々は、前記非プライマリ入力オーディオ・チャネルのそれぞれと前記プライマリ入力オーディオ・チャネルとの相関に基づいて決定される、方法。
  10. 請求項1に記載の方法において、前記符号化するステップは、前記プライマリ出力オーディオ・チャネルに、前記L個の非プライマリ出力オーディオ・チャネルよりも多くのビットを割り当てるステップ、又は、前記L個の非プライマリ出力オーディオ・チャネルのうちの1つ以上を破棄するステップを含む、方法。
  11. 1つ以上のコンピュータ・プロセッサ;及び
    命令を保存する非一時的なコンピュータ読み取り可能な媒体;
    を含むシステムであって、前記命令は、前記1つ以上のコンピュータ・プロセッサにより実行されると、請求項1-10のうちの何れか1項に記載の動作を前記1つ以上のコンピュータ・プロセッサに実行させる、システム。
  12. 命令を保存する非一時的なコンピュータ読み取り可能な媒体であって、前記命令は、前記1つ以上のコンピュータ・プロセッサにより実行されると、請求項1-10のうちの何れか1項に記載の動作を前記1つ以上のコンピュータ・プロセッサに実行させる、記憶媒体。
JP2022575893A 2020-06-11 2021-06-10 改善された連続性を有するオーディオ信号の適応ダウンミキシング Pending JP2023530410A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063037635P 2020-06-11 2020-06-11
US63/037,635 2020-06-11
US202163193926P 2021-05-27 2021-05-27
US63/193,926 2021-05-27
PCT/US2021/036789 WO2021252748A1 (en) 2020-06-11 2021-06-10 Encoding of multi-channel audio signals comprising downmixing of a primary and two or more scaled non-primary input channels

Publications (1)

Publication Number Publication Date
JP2023530410A true JP2023530410A (ja) 2023-07-18

Family

ID=76859722

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022575893A Pending JP2023530410A (ja) 2020-06-11 2021-06-10 改善された連続性を有するオーディオ信号の適応ダウンミキシング

Country Status (12)

Country Link
US (1) US20230215444A1 (ja)
EP (1) EP4165630A1 (ja)
JP (1) JP2023530410A (ja)
KR (1) KR20230023760A (ja)
CN (1) CN116406471A (ja)
AU (1) AU2021286636A1 (ja)
BR (1) BR112022025161A2 (ja)
CA (1) CA3186590A1 (ja)
IL (1) IL298724A (ja)
MX (1) MX2022015325A (ja)
TW (1) TW202205261A (ja)
WO (1) WO2021252748A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024097485A1 (en) 2022-10-31 2024-05-10 Dolby Laboratories Licensing Corporation Low bitrate scene-based audio coding

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2020320270A1 (en) * 2019-08-01 2022-03-24 Dolby Laboratories Licensing Corporation Encoding and decoding IVAS bitstreams

Also Published As

Publication number Publication date
IL298724A (en) 2023-02-01
BR112022025161A2 (pt) 2022-12-27
AU2021286636A1 (en) 2023-01-19
CA3186590A1 (en) 2021-12-16
TW202205261A (zh) 2022-02-01
KR20230023760A (ko) 2023-02-17
CN116406471A (zh) 2023-07-07
EP4165630A1 (en) 2023-04-19
MX2022015325A (es) 2023-02-27
WO2021252748A1 (en) 2021-12-16
US20230215444A1 (en) 2023-07-06

Similar Documents

Publication Publication Date Title
KR101049144B1 (ko) 오디오 신호 처리방법 및 장치
TW201118860A (en) Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing
CN110024421B (zh) 用于自适应控制去相关滤波器的方法和装置
US11869523B2 (en) Method and apparatus for decoding a bitstream including encoded higher order ambisonics representations
JP2023530410A (ja) 改善された連続性を有するオーディオ信号の適応ダウンミキシング
US11096002B2 (en) Energy-ratio signalling and synthesis
EP3469590B1 (en) Apparatuses and methods for encoding and decoding a multichannel audio signal