JP2011513780A - 複数の入力データストリームのミキシングのための装置 - Google Patents

複数の入力データストリームのミキシングのための装置 Download PDF

Info

Publication number
JP2011513780A
JP2011513780A JP2010549055A JP2010549055A JP2011513780A JP 2011513780 A JP2011513780 A JP 2011513780A JP 2010549055 A JP2010549055 A JP 2010549055A JP 2010549055 A JP2010549055 A JP 2010549055A JP 2011513780 A JP2011513780 A JP 2011513780A
Authority
JP
Japan
Prior art keywords
output
frequency
sbr
data
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010549055A
Other languages
English (en)
Other versions
JP5302980B2 (ja
Inventor
マルクス・シュネル
マンフレッド・ルツキー
マルクス・ムルツラス
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2011513780A publication Critical patent/JP2011513780A/ja
Application granted granted Critical
Publication of JP5302980B2 publication Critical patent/JP5302980B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding

Abstract

第1の入力データストリーム(510−1)の第1のフレーム(540−1)と第2の入力データストリーム(510−2)の第2のフレーム(540−2)とをミキシングするための本発明の実施の形態による装置(500)は、出力フレーム(550)を生成するように構成された処理ユニット(520)を備えている。出力フレーム(550)は、出力スペクトルについて出力クロスオーバー周波数までの下方部分を記述する出力スペクトルデータを含むとともに、出力スペクトルについて前記出力クロスオーバー周波数よりも上の上方部分を、出力時間/周波数格子分解能におけるエネルギー関連の値によって記述する出力SBRデータをさらに含んでいる。処理ユニット(520)が、第1及び第2のフレームのクロスオーバー周波数ならびに出力クロスオーバー周波数の最小値を下回る周波数に対応する出力スペクトルデータをスペクトル領域において生成し、第1及び第2のフレームのクロスオーバー周波数ならびに出力クロスオーバー周波数の最大値を上回る周波数に対応する出力SBRデータをSBR領域において処理するように構成されている。
【選択図】図6A

Description

本発明による実施の形態は、複数の入力データストリームをミキシングして、出力データストリームを得るための装置に関する。そのような装置を、例えばビデオ会議システム及びテレビ会議システムなどの会議システムの分野において使用することができる。
多くの用途において、2つ以上のオーディオ信号が、複数のオーディオ信号から1つの信号又は少なくともより少ない数の信号が生成されるような方法で処理される。これは、多くの場合、「ミキシング」と称される。したがって、オーディオ信号のミキシングの処理を、いくつかの個別のオーディオ信号を結果としての信号へと束ねるものと称することができる。このプロセスは、例えば、コンパクトディスクのために楽曲を生成する場合に使用される(「合成録音」)。この場合、典型的には、種々の楽器からの種々のオーディオ信号が、声楽演奏(歌唱)を含む1つ以上のオーディオ信号と一緒に歌曲へとミックスされる。
ミキシングが重要な役割を果たすさらなる応用の分野は、ビデオ会議システム及びテレビ会議システムである。そのようなシステムは、典型的には、登録済みの参加者から到来するビデオ及びオーディオデータを適切にミックスし、得られた信号を各々の参加者へ返送する中央サーバを使用することによって、何人かの空間的に離れた会議の参加者を接続することができる。この得られた信号又は出力信号は他のすべての会議参加者のオーディオ信号を含んでいる。
現代のデジタル会議システムにおいては、いくつかの部分的に相反する目標及び態様が互いに競合する。さまざまな種類のオーディオ信号(例えば、一般的なオーディオ信号及び音楽信号と比べたスピーチ信号)について、再生されるオーディオ信号の品質、ならびにいくつかのコーディング及びデコーディングの技法の適用可能性及び有用可能性を考慮しなければならない。会議システムの設計及び実施の際に考慮が必要であると考えられるさらなる局面は、利用可能な帯域幅及び遅延の問題である。
例えば、品質と帯域幅とをバランスさせるとき、多くの場合に妥協は避けられない。しかしながら、AAC−ELD技法(AAC=アドバンスト・オーディオ・コーディング;ELD=エンハンスト・ロー・ディレイ)などの最新のコーディング及びデコーディング技法を実施することによって、品質に関する改善を達成することが可能である。しかしながら、達成できる品質は、そのような最新の技法を使用するシステムにおいて、より基本的な問題及び見地による悪影響を受ける。
達成すべき課題を1つだけ挙げると、すべてのデジタル信号伝送は、量子化が必要であるという問題に直面する。そのような量子化は、少なくとも原理的には、ノイズのないアナログシステムにおいて理想的な環境のもとでは回避することができる。量子化プロセスによって、或る量の量子化ノイズが処理対象の信号へ持ち込まれることは避けられない。生じうる可聴なひずみに対処するために、量子化のレベル数を増やし、すなわち量子化の分解能を高めることが考えられる。しかしながら、そのようにすることで、伝送すべき信号値の数が多くなり、伝送すべきデータの量が多くなる。換言すると、量子化ノイズによって持ち込まれる可能性があるひずみを少なくすることによって品質を高めることは、特定の環境下では、伝送されるデータの量を増加させ、伝送システムに課された帯域幅の制約に最終的に違反する可能性がある。
会議システムの場合には、典型的に2つ以上の入力オーディオ信号を処理しなければならないという事実によって、品質、利用可能な帯域幅及び他のパラメータの間のトレードオフを改善するという課題がさらに複雑になる可能性がある。すなわち、会議システムによって生成される出力信号又は得られる信号を生成するときに、2つ以上のオーディオ信号によって課される境界条件を考慮しなければならない可能性がある。
特に、会議の参加者間の直接的なやり取りを、参加者が容認できないと考えるかもしれない実質的な遅延を持ち込むことなく可能にするために、遅延が充分に少ない会議システムを実現するというさらなる課題に照らすと、課題はさらに大きくなる。
遅延の少ない会議システムの実現においては、遅延の原因が、典型的には、それらの数に関して限定され、これが、他方では、オーディオ信号のミキシングをそれぞれの信号の重畳又は加算によって達成できる時間領域の外部でのデータの処理という課題につながりうる。
一般的なオーディオ信号の場合において、品質とビットレートとの間のトレードオフを改善するために、そのような矛盾するパラメータ(再生される信号の品質、ビットレート、遅延、計算の複雑さ、及びさらなるパラメータ、など)の間のトレードオフをさらに改善することができるかなりの数の技法が存在している。
上述のトレードオフを改善するためのきわめて柔軟なツールが、いわゆるスペクトル帯域表現ツール(SBR)である。SBRモジュールは、典型的には、MPEG−4 AACエンコーダなどの中央エンコーダの一部として実現されるのではなく、むしろ追加のエンコーダ及びデコーダである。SBRは、オーディオ信号内のより高い周波数とより低い周波数との間の相関を利用する。SBRは、信号のより高い周波数が、地盤の振動の単なる整数倍であり、したがってより高い周波数を、より低いスペクトルに基づいて再現することができるという仮定に基づいている。さらに、人間の耳の可聴分解能は、より高い周波数の場合において対数的であるため、より高い周波数範囲に関する小さな差は、きわめて熟練の聴取者でなければ実感することができず、したがってSBRエンコーダによって持ち込まれる不正確さは、おそらくは、圧倒的多数の聴取者には知覚されない。
SBRエンコーダは、MPEG−4エンコーダへ供給されるオーディオ信号を前処理し、入力信号を周波数範囲へと分ける。より低い周波数範囲又は周波数帯は、上方の周波数帯又は周波数範囲から、いわゆるクロスオーバー周波数によって分離される。クロスオーバー周波数は、利用可能なビットレート及びさらなるパラメータに応じて、さまざまに設定することが可能である。SBRエンコーダは、典型的には直交ミラー・フィルター・バンド(QMF)となるように実現される周波数を分析するためのフィルターバンクを使用する。
SBRエンコーダは、上方の周波数範囲の周波数表現からエネルギー値を抽出し、これが後に、この周波数範囲を下方の周波数帯に基づいて再現するために使用される。
したがって、SBRエンコーダは、SBRデータ又はSBRパラメータをフィルター処理されたオーディオ信号又はフィルター処理されたオーディオデータと一緒にコアエンコーダへともたらし、これが、元のオーディオ信号のサンプリング周波数の半分に基づいて下方の周波数帯へと適用される。これは、処理されるサンプル値を大幅に少なくする機会をもたらし、したがって個々の量子化レベルをより高精度に設定することができる。SBRエンコーダによってもたらされる追加のデータ、すなわちSBRパラメータは、副情報として、MPEG−4エンコーダ又は他の任意のエンコーダによって得られるビットストリームに保存される。これは、適切なビットマルチプレクサを使用することによって達成できる。
デコーダ側では、到着するビットストリームが、最初にビットデマルチプレクサによって分離され、少なくともSBRデータが分離されて、SBRデコーダへともたらされる。しかしながら、SBRデコーダがSBRパラメータを処理する前に、最初に下方の周波数帯がコアデコーダによってデコードされ、下方の周波数帯のオーディオ信号が再現される。SBRデコーダそのものが、SBRエネルギー値(SBRパラメータ)及び下方の周波数範囲のスペクトル情報に基づいて、オーディオ信号のスペクトルの上方部分を計算する。換言すると、SBRデコーダが、オーディオ信号の上方のスペクトル帯域を、上述のビットストリームにて伝達される下方の帯域及びSBRパラメータに基づいて複製する。上述したSBRモジュールの可能性の他に、再現されるオーディオ信号の全体としてのオーディオの知覚を向上させるために、SBRは、さらなるノイズ源ならびに個々の正弦曲線をエンコードする可能性をさらに提供する。
したがって、SBRは、品質とビットレートとの間のトレードオフを改善するためのきわめて柔軟なツールに相当し、このことが、SBRを会議システムの分野における応用のための興味深い候補にもしている。しかしながら、複雑さならびにきわめて多数の可能性及び選択肢ゆえに、SBRによってエンコードされたオーディオ信号は、これまでのところ、それぞれのオーディオ信号を時間領域の信号へと完全にデコードし、この領域において実際のミキシング処理を実行し、その後にミックスされた信号をSBRによってエンコードされた信号へと再びエンコードすることによって、時間領域においてのみミックスされている。信号を時間領域へとエンコードすることに起因して持ち込まれる追加の遅延の他に、エンコードされたオーディオ信号のスペクトル情報の再現がかなりの計算の複雑さを必要とする可能性があり、このことが、例えば可搬の用途や他のエネルギー効率又は効率的な計算が求められる用途の場合に、魅力的でないかもしれない。
したがって、本発明の目的は、SBRによってエンコードされたオーディオ信号をミキシングする際に必要な計算の複雑さを軽減することにある。
この目的は、請求項1もしくは3に記載の装置、請求項15に記載の方法、又は請求項16に記載のプログラムによって達成される。
本発明による実施の形態は、関係するクロスオーバー周波数の最小値を下回る周波数についてはスペクトル領域においてスペクトル情報をミキシングすることによってミキシングを実行し、最大のクロスオーバー周波数を上回る周波数についてはSBR領域においてミキシングを実行し、最小値と最大値との間の領域の周波数については、少なくとも1つのSBR値を推定して、少なくとも推定によるSBR値に基づいて該当のSBR値を生成するか、又はそれぞれのSBRデータに基づいてスペクトル値もしくはスペクトル情報を推定して、この推定によるスペクトル値もしくはスペクトル情報に基づいてスペクトル情報のスペクトル値を生成することによってミキシングを実行することで、計算の複雑さを軽減できるという発見に基づいている。
換言すると、本発明による実施の形態は、最大のクロスオーバー周波数を上回る周波数について、ミキシングをSBR領域において実行できる一方で、最小のクロスオーバー周波数を下回る周波数について、ミキシングを対応するスペクトル値を直接的に処理することによってスペクトル領域において実行できるという発見に基づいている。さらに、本発明の実施の形態による装置は、前記最大及び最小値の間の周波数について、該当するSBR値からスペクトル値を推定し、又はスペクトル値からSBR値を推定し、実際のミキシングをSBR領域もしくはスペクトル領域において前記推定した値に基づいて実行することによって、ミキシングをSBR領域又はスペクトル領域において実行することができる。この文脈において、出力クロスオーバー周波数が、入力データストリームのクロスオーバー周波数のいずれかであってよく、あるいは他の値であってよいことに、注意すべきである。
結果として、すべての関連のクロスオーバー周波数よりも上及び下の実際のミキシングが、それぞれの領域における直接的なミキシングに基づいて実行される一方で、推定は、関係するすべてのクロスオーバー周波数のうちの最小値とすべてのクロスオーバー周波数のうちの最大値との間の中間領域においてのみ実行すればよいため、装置によって実行すべき工程の数が少なくなり、したがって必要な計算の複雑さが軽減される。上記推定にもとづき、実際のSBR値又は実際のスペクトル値が計算又は決定される。したがって、多くの場合に、上記中間周波数領域においても、推定及び処理を関係するすべての入力データストリームについて実行する必要は典型的にはないため、計算の複雑さが軽減される。
本発明の実施の形態による態様において、出力クロスオーバー周波数は、入力データストリームのクロスオーバー周波数のうちの1つに等しくてよく、あるいは出力クロスオーバー周波数を、例えば心理音響的な評価の結果を考慮して、独自に選択することができる。さらに、本発明による実施の形態においては、生成されたSBRデータ又は生成されたスペクトル値を、中間周波数範囲のSBRデータ又はスペクトル値を平滑化又は変更するために、さまざまに適用することが可能である。
本発明による実施の形態を、以下の図面を参照しつつ、以下で説明する。
会議システムのブロック図を示している。 一般的なオーディオコーデックに基づく会議システムのブロック図を示している。 ビットストリームミキシング技術を使用して周波数領域で動作する会議システムのブロック図を示している。 複数のフレームを含んでいるデータストリームの概略図を示している。 スペクトル成分ならびにスペクトルデータ又は情報の異なる形態を示している。 第1の入力データストリームの第1のフレームと第2の入力データストリームの第2のフレームとをミキシングするための本発明の実施の形態による装置の簡単なブロック図を示している。 データストリームのフレームの時間/周波数格子分解能のブロック図を示している。 本発明の実施の形態による装置のさらに詳細なブロック図を示している。 会議システムの文脈において複数の入力データストリームをミキシングするための本発明のさらなる実施の形態による装置のブロック図を示している。 本発明の実施の形態による装置へもたらされるような第1の入力データストリームの第1のフレームを示している。 本発明の実施の形態による装置へもたらされるような第2の入力データストリームの第2のフレームを示している。 図9A及び9Bに示した入力フレームの重ね合わせの状況を示している。 本発明の実施の形態による装置によって生成されるような出力フレームを示しており、出力クロスオーバー周波数が、入力フレームの2つのクロスオーバー周波数のうちの低い方である。 本発明の実施の形態による装置によって生成されるような出力フレームを示しており、出力クロスオーバー周波数が、入力フレームのクロスオーバー周波数のうちの高い方である。 低い周波数格子分解能及び高い周波数格子分解能の照合を示している。
図4から10に関して、本発明による種々の実施の形態を、さらに詳しく説明する。しかしながら、これらの実施の形態をさらに詳しく説明する前に、最初に図1から3に関して、会議システムの枠組みにおいて重要になるであろう課題及び要望に照らして、簡単な序論を提示する。
図1は、多地点制御ユニット(MCU)とも称することができる会議システム100のブロック図を示している。その機能に関する説明から明らかになるとおり、図1に示されているような会議システム100は、時間領域において機能するシステムである。
図1に示されているような会議システム100は、適切な数の入力110−1、110−2、110−3、・・・(図1には、そのうちの3つだけが示されている。)を介して複数の入力データストリームを受け取るように構成されている。入力110の各々は、それぞれのデコーダ120へと接続されている。より正確には、第1の入力データストリームのための入力110−1が第1のデコーダ120−1へ接続され、第2の入力110−2が第2のデコーダ120−2へ接続され、第3の入力110−3が第3のデコーダ120−3へ接続されている。
さらに、会議システム100は、適切な数の加算器130−1、130−2、130−3、・・・(図1には、やはりそのうちの3つだけが示されている。)を備えている。各々の加算器が、会議システム100の入力110のうちの1つに組み合わせられている。例えば、第1の加算器130−1が、第1の入力110−1及び対応するデコーダ120−1に組み合わせられている。
各々の加算器130は入力110が接続されているデコーダ120を除くすべてのデコーダ120の出力へ接続されている。換言すると、第1の加算器130−1は第1のデコーダ120−1を除くすべてのデコーダ120へと接続されている。したがって、第2の加算器130−2は第2のデコーダ120−2を除くすべてのデコーダ120へ接続されている。
さらに、各々の加算器130はそれぞれ1つのエンコーダ140へ接続された出力を備えている。すなわち、第1の加算器130−1の出力は第1のエンコーダ140−1へ接続されている。したがって、第2の加算器130−2及び第3の加算器130−3もそれぞれ第2のエンコーダ140−2及び第3のエンコーダ140−3へ接続されている。
次いで、各々のエンコーダ140はそれぞれの出力150へ接続されている。換言すると、例えば第1のエンコーダは、例えば第1の出力150−1へ接続されている。第2のエンコーダ140−2及び第3のエンコーダ140−3もそれぞれ第2の出力150−2及び第3の出力150−3へ接続されている。
図1に示されているような会議システム100の動作をさらに詳しく説明できるよう、図1は第1の参加者の会議端末160をさらに示している。会議端末160は、例えばデジタル電話(例えば、ISDN電話(ISDN=総合デジタル通信網))、ボイスオーバーIPインフラストラクチャーを備えているシステム、又は同様の端末とすることができる。
会議端末160は会議システム100の第1の入力110−1へ接続されたエンコーダ170を備えている。さらに、会議端末160は、会議システム100の第1の出力150−1へ接続されたデコーダ180を備えている。
同様の会議端末160が、さらなる参加者の場所にも存在することができる。それらの会議端末は、単に簡素化のために、図1には示されていない。また、会議システム100と会議端末160は、決して互いに物理的に近くに存在する必要がないことに注意すべきである。会議端末160と会議システム100を、例えばWAN技術(WAN=広域ネットワーク)によってのみ接続することができる異なる場所に配置することができる。
人間であるユーザとのより分かり易い方法でのオーディオ信号の交換を可能にするために、さらに会議端末160は、マイクロホン、増幅器、及びスピーカー又はヘッドホンなど、追加の部品を備えることができ、又はこのような追加の部品へ接続することができる。それらは、単に簡素化のために、図1には示されていない。
すでに示したように、図1に示した会議システム100は、時間領域において機能するシステムである。例えば、第1の参加者がマイクロホン(図1には示されていない)に話しかけるとき、会議端末160のエンコーダ170がそれぞれのオーディオ信号を対応するビットストリームへとエンコードし、このビットストリームを会議システム100の第1の入力110−1へ伝達する。
会議システム100の内部において、ビットストリームが第1のデコーダ120−1によってデコードされ、再び時間領域へ変換される。第1のデコーダ120−1が第2のミキサー130−1及び第3のミキサー130−3へ接続されているため、第1の参加者によって生成されたとおりのオーディオ信号は、その再現されたオーディオ信号を第2及び第3の参加者のそれぞれからのさらなる再現オーディオ信号と単純に加えることによって、時間領域においてミックスすることができる。
このことは、それぞれ第2の参加者及び第3の参加者によってもたらされ、第2の入力110−2及び第3の入力110−3によって受信され、第2のデコーダ120−2及び第3のデコーダ120−3によって処理されるオーディオ信号にも当てはまる。次いで、第2の参加者及び第3の参加者のこれらの再現オーディオ信号が第1のミキサー130−1へもたらされ、第1のミキサー130−1は時間領域の合計のオーディオ信号を第1のエンコーダ140−1へもたらす。エンコーダ140−1は、合計のオーディオ信号を再びエンコードしてビットストリームを形成し、このビットストリームを第1の出力150−1において第1の参加者の会議端末160へもたらす。
同様に、第2のエンコーダ140−2及び第3のエンコーダ140−3も、それぞれ第2の加算器130−2及び第3の加算器130−3から受信される時間領域の合計のオーディオ信号をエンコードし、エンコード済みのデータを第2の出力150−2及び第3の出力150−3をそれぞれ介してそれぞれの参加者へと送り返す。
実際のミキシングを実行するために、オーディオ信号が完全にデコードされ、非圧縮の形態で合計される。その後に、クリッピング作用(すなわち、許容される値の範囲の超過)を防止するために、それぞれの出力信号を圧縮することによってレベル調節を任意に実行することができる。クリッピングは、単独のサンプル値が許される値の範囲を過ぎて上昇又は下降し、該当の値が切り落とされる(クリップされる)場合に生じうる。例えばCDの場合に使用されているような16ビットの量子化の場合には、サンプル値ごとに、−32768から32767の間の整数値の範囲が利用可能である。
信号について生じうるオーバーステアリング又はアンダーステアリングに対処するために、圧縮アルゴリズムが使用される。これらのアルゴリズムは、サンプル値を許容可能な値の範囲に保つために、特定のしきい値を超える展開又は特定のしきい値を下回る展開を制限する。
図1に示したような会議システム100などの会議システムにおいて、オーディオデータのコーディングを行う場合に、最も容易に実現できる方法にて非エンコード状態でミキシングを実行するために、いくつかの欠点が容認される。さらに、エンコード後のオーディオ信号のデータレートは、送信される周波数のより狭い範囲へとさらに制限される。なぜならば、ナイキスト−シャノンのサンプリング定理によれば、帯域幅が狭いほど、可能なサンプリング周波数が低くなり、したがって少ないデータしか許されないからである。ナイキスト−シャノンのサンプリング定理によれば、サンプリング周波数が、標本化される信号の帯域幅に依存して決まり、帯域幅の(少なくとも)2倍の大きさでなければならない。
国際電気通信連合(ITU)及びその電気通信標準化部門(ITU−T)が、マルチメディア会議システムのためのいくつかの規格を開発済みである。H.320が、ISDN用の標準の会議プロトコルである。H.323は、パケットベースのネットワーク(TCP/IP)用の標準の会議システムを定めている。H.324は、アナログ電話網及び無線電気通信システムのための会議システムを定めている。
これらの規格においては、信号の送信だけでなく、オーディオ信号のエンコード及び処理も定められている。会議の運営は、1つ以上のサーバ(いわゆるH.231規格による多地点制御ユニット(MCU))によって担当される。多地点制御ユニットは、複数の参加者のビデオ及びオーディオデータの処理及び配布も担当する。
これを達成するために、多地点制御ユニットは、各々の参加者へと、他のすべての参加者のオーディオデータを含んでいるミックス後の出力信号又は得られた信号を送信し、その信号をそれぞれの参加者へもたらす。図1は、会議システム100のブロック図だけでなく、そのような会議の状況における信号の流れも示している。
H.323及びH.320規格の枠組みにおいては、クラスG.7xxのオーディオコーデックがそれぞれの会議システムにおいて機能するように定義されている。規格G.711は、ケーブルでつながれた電話システムにおけるISDN伝送に使用される。8kHzのサンプリング周波数において、G.711規格は、300から3400Hzの間のオーディオ帯域幅をカバーし、8ビットの(量子化)深度において64Kbit/sのビットレートを必要とする。このコーディングは、わずか0.125msというきわめて短い遅延しか生じないオ−Law又はA−Lawと呼ばれる単純な対数コーディングによって形成される。
G.722規格は、より広い50から7000Hzのオーディオ帯域幅を16kHzのサンプリング周波数でエンコードする。結果として、このコーデックは、48、56、又は64Kbit/sのビットレートのより狭帯域のG.7xxオーディオコーデックと比べ、より良好な品質を、1.5msという遅延で実現する。さらに、より低いビットレートでも同等なスピーチ品質を提供する2つのさらなる発展、すなわちG.722.1及びG.722.2が存在する。G.722.2は、25msの遅延において、6.6kbit/sから23.85kbit/sの間のビットレートの選択を可能にしている。
ボイスオーバーIP通信(VoIP)とも称されるIP電話通信の場合においては、G.729規格が典型的に使用される。このコーデックは、スピーチに最適化されており、後の合成のための分析済みのスピーチパラメータの組をエラー信号とともに送信する。結果として、G.729は、G.711規格と比べた場合に、同等のサンプルレート及びオーディオ帯域幅において約8kbit/sの大幅に良好なコーディングを実現する。しかしながら、より複雑なアルゴリズムゆえ、約15msの遅延が生じる。
欠点として、G.7.xxコーデックは、スピーチのエンコードに最適化されており、狭い周波数帯域幅の他に、スピーチ付きの音楽又は純粋な音楽のコーディング時に大きな問題を示す。
したがって、図1に示したような会議システム100は、スピーチ信号を伝送及び処理する場合には容認できる品質のために使用することができるが、スピーチに最適化された遅延の少ないコーデックを使用した場合、一般的なオーディオ信号を満足には処理できない。
換言すると、例えば音楽を有するオーディオ信号などの一般的なオーディオ信号を処理するために、スピーチ信号のコーディング及びデコーディングのためのコーデックを使用すると、品質に関して満足できる結果はもたらされない。図1に示したような会議システム100の枠組みにおいて、一般的なオーディオ信号をエンコード及びデコードするためのオーディオコーデックを使用することで、品質を改善することが可能である。しかしながら、図2による文脈においてさらに詳しく概説されるように、そのような会議システムにおいて一般的なオーディオコーデックを使用することは、1つだけ挙げるのであれば遅延の増加など、さらなる望ましくない影響につながりかねない。
しかしながら、図2をさらに詳しく説明する前に、本明細書において、それぞれの対象が、或る実施の形態もしくは図において又は複数の実施の形態もしくは図において、2回以上現れ現れる場合に、そのような対象が同じ又は類似の参照符号で指し示されることに注意すべきである。同じ又は類似の参照符号によって指し示された対象は、そのようでないと明示的又は黙示的に示されない限りは、例えばそれらの回路、プログラミング、特徴、又は他のパラメータに関して、同様又は同一の方法で実施することが可能である。したがって、図面のいくつかの実施の形態に現れ、同じ又は類似の参照符号によって指し示されている対象は、同じ仕様、パラメータ、及び特徴を有するように実施することが可能である。当然ながら、例えば、境界条件もしくはパラメータが、図から図へと変化し、又は実施の形態から実施の形態へと変化する場合には、別の符号を使用したりそれに適応した符号を使用したりすることも可能である。
さらに、以下においては、対象のグループ又は種類(個々の対象ではなくて)を指し示すために、集約的な参照符号が使用される。図1の枠組みにおいて、これがすでに行われており、例えば、第1の入力を入力110−1と称し、第2の入力を入力110−2と称し、第3の入力を入力110−3と称する一方で、これらの入力が、集約的な参照符号110のみで述べられている。換言すると、そのようでないと明示的に示されない限りは、集約的な参照符号によって指し示される対象について述べている明細書の部分は、そのような集約的な参照符号に対応する個別の参照符号を有している他の対象にも関係しうる。
これは、同じ又は類似の参照符号で指し示された対象についても当てはまるため、両方の処置が、明細書の短縮ならびに明細書に開示の実施の形態のより明確かつ簡潔な様相での説明に役立つ。
図2は、さらなる会議システム100のブロック図を会議端末160とともに示しており、どちらも図1に示した会議システム及び会議端末に類似している。図2に示した会議システム100も、図1に示した会議システム100と比べて同じように相互接続された入力110、デコーダ120、加算器130、エンコーダ140及び出力150を備えている。図2に示した会議端末160も、やはりエンコーダ170及びデコーダ180を備えている。したがって、図1に示した会議システム100の説明が参照される。
しかしながら、図2に示した会議システム100及び図2に示した会議端末160は、一般的なオーディオコーデック(コーダ−デコーダ)を使用するように構成されている。結果として、各々のエンコーダ140、170が、時間/周波数変換器190を量子化器/コーダー200の手前に接続してなる直列接続を備えている。時間/周波数変換器190は図2では「T/F」としても示されており、量子化器/コーダー200は図2では「Q/C」と標記されている。
各々のデコーダ120、180は、図2では「Q/C-1」と称されているデコーダ/逆量子化器210を、図2では「T/F-1」と称されている周波数/時間変換器220に直列に接続して備えている。単に簡潔さの目的のために、時間/周波数変換器190、量子化器/コーダー200、デコーダ/逆量子化器210及び周波数/時間変換器220が、エンコーダ140−3及びデコーダ120−3の場合においてのみ、そのように標記されている。しかしながら、以下の説明は、他のそのような構成要素にも関する。
説明をエンコーダ140又はエンコーダ170などのエンコーダから始めると、時間/周波数変換器190へともたらされたオーディオ信号が、変換器190によって時間領域から周波数領域又は周波数関連の領域へと変換される。その後、変換後のオーディオデータが、時間/周波数変換器190によって生成されたスペクトル表現にて、ビットストリームを形成すべく量子化及びエンコードされ、次いでこのビットストリームが、例えばエンコーダ140の場合には、会議システム100の出力150へもたらされる。
デコーダ120又はデコーダ180などのデコーダに関しては、デコーダへもたらされたビットストリームが、最初にオーディオ信号の少なくとも一部分のスペクトル表現を形成すべくデコード及び逆量子化され、次いでこれが、周波数/時間変換器220によって再び時間領域へと変換される。
したがって、時間/周波数変換器190ならびに逆要素である周波数/時間変換器220はそれぞれ、もたらされたオーディオ信号の少なくとも一部分のスペクトル表現を生成するように構成され、かつ、そのスペクトル表現を時間領域のオーディオ信号の該当部分へと再び変換するように構成されている。
オーディオ信号を時間領域から周波数領域へ変換し、再び周波数領域から時間領域へと変換するプロセスにおいて、ずれが生じる可能性があり、すなわち再建、再現、又はデコードされたオーディオ信号が元のオーディオ信号又は原始オーディオ信号から相違する可能性がある。量子化エンコーダ200及び再コーダー210の枠組みにおいて実行される量子化及び逆量子化の追加の工程によって、さらなるアーチファクトが加えられる可能性がある。換言すると、元のオーディオ信号と再生されたオーディオ信号が互いに相違する可能性がある。
時間/周波数変換器190及び周波数/時間変換器220を、例えば、MDCT(修正離散余弦変換)、MDST(修正離散正弦変換)、FFTベースの変換器(FFT=高速フーリエ変換)、又は他のフーリエベースの変換器に基づいて実現することができる。量子化器/コーダー200及びデコーダ/逆量子化器210の枠組みにおける量子化及び逆量子化を、例えば直線量子化、対数量子化、又は他のより複雑な量子化アルゴリズム(例えば、人間の聴覚の特性をより具体的に考慮するなど)に基づいて実現することができる。量子化器/コーダー200及びデコーダ/逆量子化器210のエンコーダ及びデコーダ部分は、例えば、ハフマンコーディング又はハフマンデコーディングの仕組みを使用することによって機能することができる。
しかしながら、より複雑な時間/周波数190及び周波数/時間変換器220、ならびにより複雑な量子化器/コーダー200及びデコーダ/逆量子化器210も、ここに記載されるような種々の実施の形態及びシステムにおいて、例えばエンコーダ140、170としてのAAC−ELDエンコーダ及びデコーダ120、180としてのAAC−ELDデコーダの一部として使用することができ、又はそのようなエンコーダ及びデコーダを形成するものとして使用することができる。
言うまでもないが、会議システム100及び会議端末160の枠組みにおいて、エンコーダ170、140及びデコーダ180、120を同一又は少なくとも互換性のあるものとして実現することを推奨できる。
一般的なオーディオ信号のコーディング及びデコーディングの仕組みに基づく図2に示したような会議システム100も、オーディオ信号の実際のミキシングを時間領域において実行する。加算器130に、再現された時間領域のオーディオ信号がもたらされ、重畳が実行されて、時間領域のミックス信号が次のエンコーダ140の時間/周波数変換器190へともたらされる。したがって、この会議システムも、やはりデコーダ120及びエンコーダ140の直列接続を備えており、したがって図1及び2に示したような会議システム100は、典型的に「タンデム・コーディング・システム」と称される。
タンデム・コーディング・システムは、高度な複雑さという欠点を示すことがしばしばである。ミキシングの複雑さは、使用されるデコーダ及びエンコーダの複雑さに強く依存し、いくつかのオーディオ入力及びオーディオ出力信号の場合に大幅に増大しうる。さらに、エンコーディング及びデコーディングの仕組みの大部分がロスのないものではないという事実によって、図1及び2に示した会議システム100に使用されるようなタンデムコーディングの仕組みは、典型的には、品質への悪影響につながる。
さらなる欠点として、デコーディング及びエンコーディングの繰り返しの工程が、会議システム100の入力110と出力150との間のエンドツーエンド遅延とも称される全体としての遅延も拡大する。使用されるデコーダ及びエンコーダの初期の遅延に応じて、会議システム100そのものが、会議システムの枠組みにおける使用を不安にさせないまでも魅力のないものにし、さらには不可能にさせかねないレベルにまで、遅延を増大させる可能性がある。多くの場合、約50msの遅延が、参加者が会話において容認できる最大の遅延であると考えられる。
遅延の主たる原因として、時間/周波数変換器190及び周波数/時間変換器220が会議システム100のエンドツーエンド遅延の原因であり、さらなる遅延が会議端末160によって加わる。さらなる構成要素、すなわち量子化器/コーダー200及びデコーダ/逆量子化器210によって引き起こされる遅延は、これらの部品が時間/周波数変換器190及び周波数/時間変換器220と比べてはるかに高い周波数で動作できるため、あまり重要でない。時間/周波数変換器190及び周波数/時間変換器220の大部分はブロック動作又はフレーム動作であり、すなわち多くの場合に、ブロックのフレーム長を有するバッファ又はメモリを満たすために必要な時間に等しい時間量としての最小遅延を考慮に入れなければならない。しかしながら、この時間が、典型的には数kHzから数十kHzの範囲にあるサンプリング周波数によって大きく左右される一方で、量子化器/コーダー200及びデコーダ/逆量子化器210の動作速度は、主として下層のシステムのクロック周波数によって決定される。これは、典型的には、少なくとも2、3又は4桁以上大きい。
したがって、一般的なオーディオ信号コーデックを使用する会議システムにおいては、いわゆるビットストリームミキシング技術が導入されている。ビットストリームミキシング法は、例えば、上述の欠点の少なくとも一部を回避可能にし、タンデムコーディングによって導入されるMPEG−4 AAC−ELDコーデックに基づいて実現される。
しかしながら、原理的に、図2に示したような会議システム100を、G.7xxコーデック系列の上述したスピーチベースのコードと比べて同様のビットレート及び大幅に広い周波数帯域幅を有するMPEG−4 AAC−ELDコーデックに基づいて実現してもよいことに、注意すべきである。これは、すべての信号種について大幅に良好なオーディオ品質を、大幅に高いビットレートという犠牲を払って達成可能であることも、ただちに意味する。MPEG−4 AAC−ELDは、G.7xxコーデックの遅延の範囲にある遅延を提供するが、これを図2に示したような会議システムの枠組みにおいて実施することは、現実的な会議システム100をもたらさない可能性がある。以下で、図3に関して、上述のいわゆるビットストリームミキシングに基づくより現実的なシステムを概説する。
単に簡潔さの目的のために、以下では主としてMPEG−4 AAC−ELDコーデックならびにそのデータストリーム及びビットストリームにのみ注目することに注意すべきである。しかしながら、他のエンコーダ及びデコーダも、図3に例示及び図示されるような会議システム100の環境において使用することができる。
図3は、図2の文脈において説明したように、ビットストリームミキシングの原理に従って動作する会議システム100を会議端末160とともに示したブロック図である。会議システム100そのものは、図2に示した会議システム100の簡略版である。より正確には、図2の会議システム100のデコーダ120が、図3に示されているように、デコーダ/逆量子化器220−1、220−2、210−3、・・・によって置き換えられている。換言すると、図2及び3に示した会議システム100を比べたとき、デコーダ120の周波数/時間変換器120が取り除かれている。同様に、図2の会議システム100のエンコーダ140が、量子化器/コーダー200−1、200−2、200−3によって置き換えられている。したがって、図2及び3に示した会議システム100を比べたとき、エンコーダ140の時間/周波数変換器190が取り除かれている。
結果として、加算器130は、もはや時間領域で動作するのではなく、周波数/時間変換器220及び時間/周波数変換器190がないため、周波数又は周波数関連の領域で動作する。
例えば、MPEG−4 AAC−ELDコーデックの場合には、会議端末160にのみ存在する時間/周波数変換器190及び周波数/時間変換器220がMDCT変換に基づいている。したがって、会議システム100の内部において、ミキサー130が直接的にMDCT周波数表現のオーディオ信号の処理に寄与する。
図2に示した会議システム100の場合に、変換器190、220が遅延の主たる原因を呈するため、これらの変換器190、220を取り除くことによって、遅延が大幅に少なくなる。さらに、会議システム100の内部の2つの変換器190、220によって持ち込まれる複雑さも、大幅に軽減される。例えば、MPEG−2 AACデコーダの場合には、周波数/時間変換器220の枠組みにおいて実行される逆MDCT変換が、全体としての複雑さの約20%の原因である。MPEG−4変換器も同様の変換に基づいているため、周波数/時間変換器220だけを会議システム100から取り除くことによって、全体としての複雑さへの無視できぬ寄与を取り除くことが可能である。
MDCT領域又は他の周波数領域におけるオーディオ信号のミキシングは、MDCT変換の場合又は同様のフーリエベースの変換の場合に、これらの変換が線形変換であるがゆえに可能である。したがって、変換が、数学的な加算性という特性を有しており、すなわち
Figure 2011513780
であり、数学的な同次性という性質を有しており、すなわち
Figure 2011513780
であり、ここでf(x)は変換関数であり、x及びyはその適切な引数であり、aは実数値又は虚数値の定数である。
MDCT変換又は他のフーリエベースの変換の両方の特徴が、時間領域におけるミキシングと同様のそれぞれの周波数領域におけるミキシングを可能にしている。したがって、すべての計算を、スペクトル値に基づいて同様に上手く実行することができる。時間領域へのデータの変換は不要である。
いくつかの状況においては、さらなる条件が満たされなければならないかもしれない。すべての関連のスペクトルデータが、すべての関連のスペクトル成分についてのミキシングプロセスの際に、それらの時間インデックスに関して同じでなければならない。これが、変換の際にいわゆるブロックスイッチング技法が使用され、したがって会議端末160のエンコーダが特定の条件に応じて種々のブロック長の間で自由に切り換わることができる場合には、最終的に満たされない可能性がある。ブロックスイッチングは、ミックスされるべきデータが同じウインドウで処理されている場合を除き、異なるブロック長及び対応するMDCTウインドウ長の間の切り替えゆえに、時間領域において個々のスペクトル値をサンプルへと一意に割り当てることをできなくする可能性がある。分散した会議端末160を有する一般的なシステムにおいては、これが最終的に保証されない可能性があるため、複雑な補間が必要となり、結果としてさらなる遅延及び複雑さが生じる可能性がある。結果として、最終的に、ブロック長の切り替えに基づくビットストリームのミキシングプロセスを実施しないことが推奨されるかもしれない。
対照的に、AAC−ELDコーデックは、ただ1つのブロック長に基づいており、したがって、ミキシングをより容易に実現できるよう、周波数データの上述の割り当て又は同期をより容易に保証することができる。図3に示した会議システム100は、換言すると、ミキシングを変換領域又は周波数領域において実行することができるシステムである。
上述のように、図2に示した会議システム100において変換器190、200によって持ち込まれる追加の遅延を除くために、会議端末160において使用されるコーデックは、固定の長さ及び形状のウインドウを使用する。これは、上述のミキシングプロセスを、オーディオストリームを時間領域へ再変換することなく直接的に実施できるようにする。この手法は、追加で持ち込まれるアルゴリズム的な遅延の大きさを抑えることを可能にする。さらに、デコーダにおける逆変換の工程及びエンコーダにおける順変換の工程が存在しないため、複雑さも低下する。
しかしながら、図3に示したような会議システム100の枠組みにおいても、加算器130によるミキシングの後で、オーディオデータの逆量子化が必要になる可能性があり、これがさらなる量子化ノイズを持ち込む可能性がある。この追加の量子化ノイズは、例えば、会議システム100へもたらされる種々のオーディオ信号の種々の量子化工程に起因して生じうる。結果として、例えば量子化の段階の数がすでに制限されているきわめて低いビットレートの伝送の場合に、周波数領域又は変換領域における2つのオーディオ信号のミキシングのプロセスが、生成される信号に望ましくない追加の量のノイズ又は他のひずみを引き起こす可能性がある。
複数の入力データストリームのミキシングのための装置の形態の本発明による第1の実施の形態を説明する前に、図4に関して、データストリーム又はビットストリームを、そこに含まれるデータとともに簡単に説明する。
図4は、スペクトル領域のオーディオデータの少なくとも1つ(多くの場合、2つ以上)のフレーム260を含んでいるビットストリーム又はデータストリーム250を概略的に示している。より正確には、図4が、スペクトル領域のオーディオデータの3つのフレーム260−1、260−2及び260−3を示している。さらに、データストリーム250は、例えばオーディオデータのエンコードの方法を知らせる制御値、他の制御値、又は時間インデックスもしくは他の関連データに関する情報など、付加的情報又は付加的情報のブロック270を含むことができる。当然ながら、図4に示したようなデータストリーム250はさらなるフレームをさらに含むことができ、又はフレーム260が、2チャネル以上のオーディオデータを含んでもよい。例えば、ステレオオーディオ信号の場合に、各々のフレーム260が、例えば左チャネルからのオーディオデータ、右チャネルからのオーディオデータ、右及び左チャネルの両方から導出されたオーディオデータ、又は上述のデータの任意の組み合わせを含むことができる。
したがって、図4は、データストリーム250が、スペクトル領域のオーディオデータのフレームだけでなく、追加の制御情報、制御値、ステータス値、ステータス情報、プロトコル関連の値(例えば、チェックサム)なども含んでよいことを示している。
図5は、例えばデータストリーム250のフレーム260に含まれているようなスペクトル成分に関する(スペクトル)情報を概略的に示している。より正確には、図5は、フレーム260のただ1つのチャネルのスペクトル領域の情報の簡単な図を示している。スペクトル領域において、オーディオデータのフレームを、例えば周波数fの関数としての強度値Iに関して記述することができる。例えばデジタルシステムなどの離散的なシステムにおいては、周波数分解能も離散的であり、したがってスペクトル情報は、典型的には、個々の周波数、狭い帯域又はサブ帯域など、特定のスペクトル成分についてのみ存在する。サブ帯域だけでなく、個々の周波数又は狭い帯域もスペクトル成分と称される。
図5は、6個の別々の周波数300−1、・・・、300−6、及び周波数帯域又はサブ帯域310(図5に示した事例では、4つの別々の周波数を含んでいる。)について、強度分布を概略的に示している。個々の周波数又はこれらの周波数に対応する狭い帯域300と、サブ帯域又は周波数帯310との両方が、スペクトル成分を形成しており、このスペクトル成分に関して、フレームがスペクトル領域のオーディオデータに関する情報を含んでいる。
サブ帯域310に関する情報は、例えば、全体としての強度又は平均強度値であってよい。振幅、それぞれのスペクトル成分そのもののエネルギー、又はエネルギーもしくは振幅から導出される他の値など、強度又は他のエネルギー関連の値のほかに、位相情報及び他の情報もフレームに含まれることができ、したがって、これらの情報もスペクトル成分に関する情報と考えることができる。
本発明による実施の形態の動作原理は、ミキシングが、到来するすべてのストリームが信号の時間領域への逆変換、ミキシング及び再演コーディングを含むデコードを受けるという意味での単刀直入な方法で行われるようなものではない。
本発明による実施の形態は、それぞれのコーデックの周波数領域で行われるミキシングに基づいている。考えられるコーデックは、AAC−ELDコーデック又は一様な変換ウインドウを有する任意の他のコーデックであってよい。そのような場合、それぞれのデータをミックスできるようにするための時間/周波数変換は不要である。本発明の実施の形態による態様は、量子化の刻みのサイズ及び他のパラメータなどのすべてのビットストリームパラメータへのアクセスが可能であり、これらのパラメータをミックス済みの出力ビットストリームの生成に使用することができるという事実を利用する。
本発明の実施の形態による態様は、スペクトル成分に関するスペクトル線又はスペクトル情報のミキシングを、ソースとなる原始スペクトル線又は原始スペクトル情報の重み付け和によって実行できるという事実を利用する。重み付け係数は、ゼロもしくは1であってよく、又は原理的には、両者の間の任意の値であってよい。ゼロという値は、ソースが無関係として取り扱われ、まったく使用されないことを意味する。帯域又はスケール係数帯域などの線のグループが、本発明による実施の形態の場合に、同じ重み付け係数を使用することができる。しかしながら、すでに示したように、重み付け係数(例えば、ゼロ及び1の分布)を、1つの入力データストリームの1つのフレームの複数のスペクトル成分について変化させることができる。さらに、本発明の実施の形態による態様は、スペクトル情報のミキシング時にゼロ又は1の重み付け係数をもっぱら使用するようには決して要求されない。いくつかの状況下では、入力データストリームのフレームのただ1つではなくて複数の全体的なスペクトル情報について、それぞれの重み付け係数を、ゼロ又は1とは異なるものとすることができる。
1つの特定の事例は、1つのソース(入力データストリーム510)のすべての帯域又はスペクトル成分が1という係数に設定され、他のソースの係数がすべてゼロに設定される事例である。この場合、1人の参加者の完全な入力ビットストリームが、ミキシング後の最終的なビットストリームとして同一にコピーされる。重み付け係数を、フレーム毎の方法で計算することができるが、フレームの長い方のグループ又は並びに基づいて計算又は決定することも可能である。当然ながら、そのようなフレームの並びの内部又は単一のフレームの内部でも、上述のように、異なるスペクトル成分について重み付け係数を変えてもよい。重み付け係数を、本発明の実施の形態によるいくつかの態様において、心理音響モデルの結果に従って計算又は決定することができる。
心理音響モデル又は該当のモジュールが、一部の入力ストリームのみが含まれてエネルギー値Efをもたらしているミックス信号と、エネルギー値Ecを有する完全なミックス信号との間のエネルギー比r(n)を計算することができる。次いで、エネルギー比r(n)が、Ecによって除算されたEfの対数の20倍として計算される。
この比が充分に大きい場合、あまり支配的でないチャネルが、支配的なチャネルによってマスクされていると考えることができる。したがって、無関係の削減が処理され、すなわち、まったく顕著でなく、1という重み付け係数に属するストリームだけが含められ、他のすべてのストリーム(1つのスペクトル成分の少なくとも1つのスペクトル情報)が破棄される。換言すると、これらは、ゼロという重み付け係数に属している。
より具体的には、これを、
Figure 2011513780
及び
Figure 2011513780
に従って達成でき、比r(n)が、
Figure 2011513780
に従って計算され、ここでnは、入力データストリームの添え字であり、Nは、全入力データストリーム又は関連の入力データストリームの数である。比r(n)が充分に大きい場合、入力データストリーム510のあまり支配的でないチャネル又はあまり支配的でないフレームが支配的なチャネル又はフレームによってマスクされていると考えることができる。したがって、無関係の削減を処理することができ、すなわち、ストリームのうちのとにかく顕著なスペクトル成分だけが含められる一方で、他のストリームは破棄される。
式(3)から(5)の枠組みにおいて考慮すべきエネルギー値を、例えば、それぞれの強度値の平方を計算することによって、強度値から導出することができる。スペクトル成分に関する情報が他の値を含んでもよい場合には、同様の計算を、フレームに含まれた情報の形態に応じて実行することができる。例えば、複素値情報の場合には、スペクトル成分に関する情報を構成している個々の値の実数部分及び虚数部分の絶対値の計算を、実行しなければならないかもしれない。
個々の周波数とは別に、式(3)から(5)による心理音響モジュールの適用のために、式(3)及び(4)における合計は、2つ以上の周波数を含むことができる。換言すると、式(3)及び(4)において、それぞれのエネルギー値Enを、複数の個々の周波数に対応する全体としてのエネルギー値、すなわち周波数帯のエネルギーによって置き換えることができ、より一般的な言葉にすれば、1つ以上のスペクトル成分に関する1つ又は複数のスペクトル情報で置き換えることができる。
例えば、AAC−ELDは、人間の聴覚系が同時に取り扱う周波数のグループと同様に、帯域ごとの方法でスペクトル線に作用するため、無関係さの推定又は心理音響モデルを同様の方法で実行することができる。この方法で心理音響モデルを適用することによって、必要であればただ1つの周波数帯域だけの信号の一部分を除去又は置換することができる。
心理音響的調査が示しているように、信号を他の信号によりマスキングすることは、それぞれの信号の種類に依存する。無関係さの判断のための最小しきい値として、最悪の場合の筋書きを適用することができる。例えば、ノイズを正弦曲線又は他の別個かつ明確な音によってマスキングするためには、21から28dBの差が典型的には必要である。約28.5dBのしきい値が良好な置換結果をもたらすことが、試験によって示されている。この値を、検討対象の実際の周波数帯も考慮に入れて、最終的に改善することができる。
したがって、式(5)による値r(n)が−28.5dBよりも大きいことを、検討対象の1つ以上のスペクトル成分に基づく心理音響的評価及び無関係性の評価に関して無関係であると考えることができる。異なるスペクトル成分について異なる値を使用することができる。検討対象のフレームに関する入力データストリームの心理音響的無関係性の指標として、10dBから40dB、20dBから30dB、あるいは25dBから30dBのしきい値を使用することが、有用であると考えられる。
逆量子化の工程の数が少なくなるがゆえに、タンデムコーディングの影響があまり生じず、あるいはまったく生じないという利点が生じうる。各々の量子化段階が、追加の量子化ノイズの軽減について大きな障害となるため、複数の入力データストリームをミキシングするための装置の形態の本発明による実施の形態を使用することによって、オーディオ信号の全体としての品質を改善することができる。これは、出力データストリームが、決定された入力ストリーム又はその一部のフレームの量子化レベルの分布と比べた量子化レベルの分布が維持されるように生成される場合に当てはまるであろう。
図6Aは、第1の入力データストリーム510−1及び第2の入力データストリーム510−2のフレームをミキシングするための装置500の簡単なブロック図を示している。装置500は、出力データストリーム530を生成するように構成された処理ユニット520を備えている。より正確には、装置500及び処理ユニット520が、第1の入力データストリーム510−1の第1のフレーム540−1及び第2の入力データストリーム510−2の第2のフレーム540−2に基づいて、出力データストリーム530に含まれる出力フレーム550を生成するように構成されている。
第1のフレーム540−1及び第2のフレーム540−2の両者がそれぞれ、第1及び第2のオーディオ信号に関するスペクトル情報を含んでいる。スペクトル情報は、スペクトルの下方部分及び該当のスペクトルの上方部分へと分割され、スペクトルの上方部分は時間/周波数格子分解能でのエネルギー又はエネルギー関連の値に関するSBRデータによって記述されている。スペクトルの下方部分及び上方部分は、SBRパラメータのうちの1つであるいわゆるクロスオーバー周波数において互いに分けられている。スペクトルの下方部分は、それぞれのフレーム540の内側のスペクトル値に関して記述されている。図6Aにおいて、これが、スペクトル情報560の概略表現によって概略的に示されている。スペクトル情報560は、図6Bにおける文脈においてさらに詳しく後述される。
当然ながら、装置500の形態の本発明による実施の形態を、入力データストリーム510のフレーム540の並びの場合に、類似又は同じ時間インデックスに対応するフレーム540だけが比較及び決定において考慮されるように実施することを推奨できるであろう。
出力フレーム550も、やはり図6Aに概略的に示されている同様のスペクトル情報表現560を含んでいる。したがって、出力フレーム550も、出力クロスオーバー周波数において互いに接する出力スペクトルの上方部分及び出力スペクトルの下方部分を有する同様のスペクトル情報表現560を含んでいる。入力データストリーム510のフレーム540と同様に、出力フレーム550の出力スペクトルの下方部分も、出力スペクトル値に関して記述される一方で、スペクトルの上方部分(より高い部分)は、出力時間/周波数格子分解能でのエネルギー値を含んでいるSBRデータに関して記述される。
上述のように、処理ユニット520は、上述のような出力フレームを生成及び出力するように構成されている。一般的な場合において、第1のフレーム540−1の第1のクロスオーバー周波数及び第2のフレーム540−2の第2のクロスオーバー周波数が、異なっていることに注意すべきである。結果として、処理ユニットは、第1のクロスオーバー周波数、第2のクロスオーバー周波数及び出力クロスオーバー周波数のうちの最小の値を下回る周波数に対応する出力スペクトルデータを、第1及び第2のスペクトルデータに基づいてスペクトル領域において直接生成するように構成される。これは、例えば、同じスペクトル成分に対応するそれぞれのスペクトル情報の加算又は線形結合によって達成できる。
さらに、処理ユニット520は、出力フレーム550の出力スペクトルの上方部分を記述する出力SBRデータを、SBR領域において第1のフレーム540−1の第1のSBRデータ及び第2のフレーム540−2の第1のSBRデータを処理することによって生成するように、さらに構成されている。これは、図9Aから9Eに関してさらに詳しく説明される。
やはりさらに詳しく後述されるように、処理ユニット520を、上記定義の最小値と最大値との間の周波数領域について、第1及び第2のスペクトルデータの少なくとも一方からの少なくとも1つのSBR値を評価し、出力SBRデータの対応するSBR値を少なくともこの評価によるSBR値に基づいて生成するように構成することができる。これは、例えば、検討対象のスペクトル成分の周波数及び考慮事項が、関係する最大のクロスオーバー周波数よりも低いが、その最小値よりも高い場合に当てはまるであろう。
そのような状況においては、入力フレーム540のうちの少なくとも1つが、それぞれのスペクトルの下方部分の一部としてスペクトル値を含む一方で、それぞれのスペクトル成分が出力クロスオーバー周波数よりも上方にあるために、出力フレームがSBRデータを期待することが生じうる。換言すると、関係するクロスオーバー周波数のうちの最小値と関係するクロスオーバー周波数値のうちの最大値との間のこの中間的な周波数領域において、スペクトルのうちの1つの下方部分からのスペクトルデータに基づいて、対応するSBRデータを推定しなければならないことが生じうる。そのとき、考慮中のスペクトル成分に対応する出力SBRデータは、少なくとも推定されたSBRデータに基づく。これを本発明の実施の形態に従ってどのように実行できるのかについて、さらに詳しい説明が、図9Aから9Eの文脈において後述される。
他方で、上記定義の中間周波数領域にある関連のスペクトル成分又は周波数について、出力フレーム550がスペクトル値を期待することが、それぞれのスペクトル成分が出力スペクトルの下方部分に属するがゆえに生じうる。しかしながら、入力フレーム540のうちの1つが、該当のスペクトル成分についてSBRデータしか含んでいない可能性がある。この場合、SBRデータにもとづき、さらに随意により考慮対象の入力フレームのスペクトルの下方部分のスペクトル情報又はその少なくとも一部分に基づいて、該当のスペクトル情報を推定することが推奨されうる。換言すると、SBRデータに基づくスペクトルデータの推定も、いくつかの状況のもとで必要になる可能性がある。次いで、推定されたスペクトル値にもとづき、それをスペクトル領域において直接的に処理することによって、それぞれのスペクトル成分の対応するスペクトル値を決定又は入手することができる。
しかしながら、本発明の実施の形態による装置500の処理及び動作ならびにSBR全般のより良好な理解を促進するために、図6Bが、SBRデータを用いるスペクトル情報のより詳細な表現560を示している。
本明細書の冒頭部分で概説したとおり、SBRツール又はSBRモジュールは、典型的には、基本的なMPEG−4エンコーダ又はデコーダに隣接する別個のエンコーダ又はデコーダとして機能する。SBRツールは、やはり線形変換を呈する直交ミラーフィルターバンク(QMF)の使用に基づいている。
SBRツールは、記述された周波数データの正確なデコーディングを促進するために、MPEGエンコーダのデータストリーム又はビットストリームに、自身の固有の情報及びデータ(SBRパラメータ)を保存する。情報は、SBRツールに関してフレーム格子又は時間/周波数格子分解能として記述される。時間/周波数格子は、現在のフレーム540、550のみに関するデータを含んでいる。
図6Bは単一のフレーム540、550のそのような時間/周波数格子を概略的に示している。横座標が時間軸であり、縦座標は周波数軸である。
自身の周波数fに関して表示されたスペクトルが、すでに示したように、前もって定められるクロスオーバー周波数(fx)570によって、下方部分580及び上方部分又はより高い部分590へと分けられる。スペクトルの下方部分580が、典型的には、利用可能な最低の周波数(例えば、0Hz)からクロスオーバー周波数570まで広がり、スペクトルの上方部分590は、クロスオーバー周波数570で始まり、典型的には、図6Bにおいて線600によって示されているようにクロスオーバー周波数の2倍(2fx)で終わる。
スペクトルの下方部分580は、典型的には、斜線の領域としてのスペクトルデータ又はスペクトル値610によって記述される。なぜならば、多くのフレームベースのコーデック及びそれらの時間/周波数変換器において、オーディオデータのそれぞれのフレームが完全に周波数領域へ変換されており、スペクトルデータ610が、典型的には、明示的なフレーム内部の時間従属性を含まないからである。結果として、スペクトルの下方部分580に関して、スペクトルデータ610を、図6Bに示したそのような時間時間/周波数座標系に完全に正しくは表示できない可能性がある。
しかしながら、上述のように、SBRツールが、スペクトルの少なくとも上方部分590を、各々のサブ帯域信号が時間従属性又は時間分解能を含んでいる複数のサブ帯域へと分けるQMF時間/周波数変換に基づいて機能する。換言すると、SBRツールによって実行されるようなサブ帯域領域への変換が、「ミックスされた時間及び周波数表現」を生成する。
本明細書の冒頭部分で概説したとおり、スペクトルの上方部分590が下方部分580との顕著な類似性を有し、すなわち顕著な相関を有するという仮定にもとづき、SBRツールは、上方部分590のスペクトル成分の周波数へとコピーされるスペクトルの下方部分580のスペクトルデータの振幅の操作を周波数に関して記述するために、エネルギー関連の値又はエネルギー値を導出することができる。したがって、下方部分580からのスペクトル情報を上方部分590の周波数へとコピーし、それらのそれぞれの振幅を修正することによって、スペクトルデータの上方部分590が、ツールの名前によって示唆されるとおり復元される。
スペクトルの下方部分580の時間分解能が、例えば位相情報又は他のパラメータを含むことによって本質的に存在する一方で、スペクトルの上方部分590のサブ帯域の記述は、時間分解能への直接のアクセスを可能にする。
SBRツールは、SBRフレーム長及び基礎をなすエンコーダのフレーム長が互換性をもち、SBRツール及び基礎をなすエンコーダ又はデコーダのどちらもブロック切り替え技法を使用しない場合に、各々のSBRフレームについてフレーム540、550と同一の数の時間スロットを含むSBRパラメータを生成する。この境界条件は、例えば、MPEG−4 AAC−ELDコーデックによって満足される。
時間スロットは、SBRモジュールのフレーム540、550の時間アクセスを小さな等間隔の時間領域に分割する。各々のSBRフレームにおけるこれらの時間領域の数は、それぞれのフレームのエンコーディングに先立って決定される。MPEG−4 AAC−ELDコーデックの文脈において使用されるSBRツールは、16の時間スロットへと設定される。
次いで、これらの時間スロットが、1つ以上のエンベロープを形成するために組み合わせられる。エンベロープは、グループへと形成された少なくとも2つ以上の時間スロットを含んでいる。各々のエンベロープが、特定の数のSBR周波数データに組み合わせられている。フレーム格子に、時間スロットに関する数及び長さが、各々のエンベロープとともに保存される。
図60に示したスペクトル情報560の簡単化した表現が、第1のエンベロープ620−1及び第2のエンベロープ620−2を示している。原理的には、エンベロープ620を自由に定めることができ、MPEG−4 AAC−ELDコーデックの枠組みにおいて、2つ未満の時間スロットの長さを有するようにすることもできるが、SBRフレームは、わずか2つの種類、すなわちFIXFIXクラス及びLD_TRANクラスのいずれかに属する。結果として、原理的にはエンベロープに関する時間スペクトルの任意の分布が可能であるが、以下では、主としてMPEG−4 AAC−ELDコーデックに言及し、その実施を主に説明する。
FIXFIXクラスは、16の利用可能な時間スロットを、いくつかの等しい長さのエンベロープ(例えば、それぞれ16個、6個、4個の時間スロットを含んでいる1つ、2つ、4つのエンベロープ)へ分割し、一方、LD_TRANクラスは、2つ又は3つのエンベロープを含んでおり、そのうちの1つが正確に2つのスロットを含んでいる。正確に2つの時間スロットを含んでいるエンベロープは、オーディオ信号の過渡を含んでおり、換言すると、きわめて大きくて突然な音など、オーディオ信号の急激な変化を含んでいる。この過渡の前後の時間スロットは、それぞれのエンベロープが充分に長い限りにおいて、最大2つのさらなるエンベロープを含むことができる。
換言すると、SBRモジュールは、フレームをエンベロープへ動的に分割できるため、より精密な周波数分解能をもってオーディオ信号の過渡に反応することができる。現在のフレームに過渡が存在する場合、SBRエンコーダはフレームを適切なエンベロープ構造へと分割する。上述のように、フレーム分割は、SBRとともにAAC−ELDの場合において標準化されており、可変のTRANPOSによって特徴付けられるように時間スロットに関する過渡の位置に依存する。
過渡が存在する場合にSBRエンコーダによって選択されるSBRフレームクラス、すなわちLD_TRANクラスは、典型的には3つのエンベロープを含んでいる。最初のエンベロープは、ゼロからTRANPOS−1までの時間スロットインデックスを有するフレームの最初から過渡の位置まで含んでおり、過渡は、TRANPOSからTRANPOS+2までの時間スロットインデックスを有する正確に2つの時間スロットを含むエンベロープによって囲まれている。3番目のエンベロープは、TRANPOS+3からTRANPOS+16までのインデックスを有する以後のすべての時間スロットを含んでいる。しかしながら、SBRによるAAC−ELDコーデックのエンベロープの最小長さは、フレーム境界の近くに過渡を有するフレームが2つのエンベロープへのみ分割されるよう、2つの時間スロットへと制限される。
図6Bにおいて、2つのエンベロープ620−1、620−2が、等しい長さであり、2つのエンベロープを有するFIXFIX SBRフレームクラスに属している状況が示されている。したがって、各々のエンベロープは、8つの時間スロットの長さを有している。
各々のエンベロープに属する周波数分解能は、各々のエンベロープについて計算されそれに関して保存されるべきエネルギー値又はSBRエネルギー値の数を決定する。AAC−ELDコーデックの文脈におけるSBRツールは、高分解能と低分解能の間で切り替えることができる。低い分解能のエンベロープと比べたとき、より高い分解能のエンベロープの場合。低い分解能のエンベロープと比べたとき、より高い分解能のエンベロープの場合には、このエンベロープについてより精密な周波数分解能を可能にするために2倍もの多さのエネルギー値が使用される。高い分解能又は低い分解能のエンベロープの周波数値の数は、ビットレート、サンプリング周波数及び他のパラメータなどのエンコーダパラメータに依存して決まる。MPEG−4 AAC−ELDコーデックの場合には、SBRツールが、きわめて頻繁に、高い分解能のエンベロープにおいて16から14の値を使用する。したがって、低い分解能のエンベロープにおいては、エネルギー値の数は、多くの場合に、エンベロープ1つにつき7から8の間の範囲にある。
図6Bは、2つのエンベロープ620−1、620−2の各々について、各々が1つのエネルギー又はエネルギー関連のSBR値を表わしている6つの時間/周波数領域630−1a、・・・、630−1f、630−2a、・・・、630−2fを示している。単に簡潔さの目的のために、そのような標記は、2つのエンベロープ620−1、620−2の各々の時間/周波数領域630のうちの3つになされている。さらに、同じ理由のため、2つのエンベロープ620−1、620−2の時間/周波数領域630の周波数分布は、同一に選択されている。当然ながら、これは、多数の可能性のうちの1つの可能性を示しているにすぎない。より正確には、時間/周波数領域630は、各々のエンベロープ620について個別に分布してもよい。したがって、エンベロープ620の間の切り替え時に、スペクトル又はスペクトルの上方部分590を同じ分布へと分割する必要は決してない。また、時間/周波数領域630の数も、やはり上述のように検討対象のエンベロープ620に良好に依存できることに、注意すべきである。
さらに、追加のSBRデータとして、ノイズ関連のエネルギー値及び正弦曲線関連のエネルギー値も、各々のエンベロープ620に含まれることができる。これらの追加の値は、単に簡潔さの目的のために、図示されていない。ノイズ関連の値は、所定のノイズ源のそれぞれの時間/周波数領域630のエネルギー値に関するエネルギー値を記述し、一方、正弦曲線のエネルギー値は所定の周波数及びそれぞれの時間/周波数領域のそれに等しいエネルギー値を有する正弦振動に関する。典型的には、ノイズ関連又は正弦曲線関連の値のうちの2つ又は3つをエンベロープ620ごとに含むことができる。しかしながら、より少数又はより多数を含むこともできる。
図7は、図6Aをベースとする本発明の実施の形態による装置500のより詳細なさらなるブロック図を示している。したがって、図6Aの説明が参照される。
上述の図6Bのスペクトル情報及び表現560の検討が示しているように、本発明による実施の形態について、出力フレーム550のための新たなフレーム格子を生成するために、最初にフレーム格子を分析することを推奨することができる。結果として、処理ユニット520は、2つの入力データストリーム510−1、510−2がもたらされる分析部640を備えている。処理ユニット520は、入力データストリーム510又は分析部640の出力が接続されるスペクトルミキサー650をさらに備えている。さらに、処理ユニット520は、やはり入力データストリーム510又は分析部640の出力へと接続されるSBRミキサー660をさらに備えている。さらに、処理ユニット520は、やはり2つの入力データストリーム510及び/又は分析部640へと接続され、分析ずみデータ及び/又は入力データストリーム(フレーム540を含む。)を受信する推定部670を備えている。実際の実施例に応じて、推定部670はスペクトルミキサー650又はSBRミキサー660のうちの少なくとも1つへ接続され、それらのうちの少なくとも1つの出力へ、関係するクロスオーバー周波数のうちの最大値と最小値との間の前もって定められた中間領域の周波数について推定したSBR値又は推定したスペクトル値を供給することができる。
SBRミキサー660及びスペクトルミキサー650は、出力フレーム550を含む出力データストリーム530を生成及び出力するミキサー680へと接続される。
動作の態様に関しては、分析部640はフレーム540を分析してそこに含まれるフレーム格子を割り出し、新たなフレーム格子(例えばクロスオーバー周波数を含む。)を生成するように構成されている。スペクトルミキサー650が、関係するクロスオーバー周波数のうちの最小値を下回る周波数又はスペクトル成分について、フレーム540のスペクトル値又はスペクトル情報をスペクトル領域においてミックするように構成され、一方、SBRミキサー660は、それぞれのSBRデータをSBR領域においてミックスするように同様に構成されている。推定部670は、必要であれば、先に述べた最大値及び最小値の間の中間周波数領域について、2つのミキサー650、660のそれぞれに、これらのミキサーがこの中間周波数領域においても動作できるよう、スペクトル領域又はSBR領域の適切なデータを供給する。次いで、ミキサー680が、2つのミキサー650、660から受信されるスペクトルデータ及びSBRデータを編集して出力フレーム550を形成及び生成する。
本発明による実施の形態を、例えば、会議システム(例えば、3名以上の参加者を有するテレビ/ビデオ会議システム)の枠組みにおいて使用することができる。そのような会議システムは、時間−周波数変換の工程及び再エンコーディングの工程を省略できるため、時間領域のミキシングに比べて複雑さが少ないという利点を提供することができる。さらに、フィルターバンク遅延が存在しないため、時間領域におけるミキシングに比べて、これらの構成要素によって引き起こされるさらなる遅延が存在しない。
しかしながら、本発明による実施の形態を、聴覚雑音置換(PNS)、時間雑音整形(TNS)、及び種々の態様のステレオコーディングなどのモジュールを含むより複雑な用途においても使用することができる。そのような実施の形態が、図8を参照してさらに詳しく説明される。
図8は、処理ユニット520を備えている複数の入力データストリームのミキシングのための装置500の概略のブロック図である。より正確には、図8は、入力データストリーム(ビットストリーム)にエンコードされたきわめてさまざまなオーディオ信号を処理することができるきわめて柔軟な装置500を示している。したがって、後述される構成要素のうちの一部は、すべての環境及び本発明によるすべての実施の形態の枠組みにおいて実施される必要は必ずしもない随意による構成要素である。
処理ユニット520は、処理ユニット520によって処理されるべき入力データストリーム又はコード済みのオーディオビットストリームの各々について、ビットストリームデコーダ700を備えている。単に簡素化のために、図8には、2つのビットストリームデコーダ700−1、700−2だけが図示されている。当然ながら、処理すべき入力データストリームの数に応じて、より多数のビットストリームデコーダ700を実装することができ、あるいは例えばビットストリームデコーダ700が2つ以上の入力データストリームを順に処理できる場合には、より少数のビットストリームデコーダ700を実装することができる。
ビットストリームデコーダ700−1ならびに他のビットストリームデコーダ700−2、・・・の各々は、信号を受信し、受信した信号を処理し、ビットストリームに含まれるデータを分離及び抽出するように構成されたビットストリーム読み取り部710を備えている。例えば、ビットストリーム読み取り部710を、到着するデータを内部クロックに同期させるように構成でき、到着するビットストリームを適切なフレームへと分けるようにさらに構成することができる。
さらに、ビットストリームデコーダ700は、ビットストリーム読み取り部710の出力へ接続されてビットストリーム読み取り部710から分離済みのデータを受信するハフマンデコーダ720を備えている。ハフマンデコーダ720の出力が、逆量子化器とも称されるデクオンタイザー730へ接続されている。ハフマンデコーダ720の後方に接続されたデクオンタイザー730に、スケーラー740が続いている。ハフマンデコーダ720、デクオンタイザー730及びスケーラー740が第1のユニット750を形成しており、第1のユニット750の出力において、それぞれの入力データストリームのオーディオ信号の少なくとも一部が、参加者(図8には図示されていない)のエンコーダが機能する周波数領域又は周波数関連領域において入手可能である。
さらに、ビットストリームデコーダ700は、データに関して第1のユニット750の後ろに接続された第2のユニット760を備えている。第2のユニット760はステレオデコーダ770(M/Sモジュール)を備えており、ステレオデコーダ770の後ろにPNSデコーダが接続されている。TNSデコーダ790が、データに関してPNSデコーダ780に後続しており、PNSデコーダ780及びステレオデコーダ770とともに第2のユニット760を形成する。
オーディオデータの上述の流れとは別に、ビットストリームデコーダ700は、制御データに関する種々のモジュール間の複数の接続をさらに備えている。より正確には、ビットストリーム読み取り部710が、適切な制御データを受け取るためにハフマンデコーダ720にも接続されている。さらに、ハフマンデコーダ720は、スケーラー740へスケーリング情報を伝えるために、スケーラー740へ直接に接続されている。ステレオデコーダ770、PNSデコーダ780及びTNSデコーダ790も、それぞれ適切な制御データを受け取るためにビットストリーム読み取り部710へ接続されている。
処理ユニット520は、ミキシングユニット800をさらに備えており、次いでミキシングユニット800が、入力に関してビットストリームデコーダ700へ接続されたスペクトルミキサー810を備えている。スペクトルミキサー810は、例えば、周波数領域において実際のミキシングを実行するための1つ以上の加算器を備えることができる。さらに、スペクトルミキサー810は、ビットストリームデコーダ700によってもたらされるスペクトル情報の任意の線形結合を可能にするための乗算器をさらに備えることができる。
さらに、ミキシングユニット800は、データに関してスペクトルミキサー810の出力へ接続された最適化モジュール820を備えている。しかしながら、最適化モジュール820は、スペクトルミキサー810に制御情報をもたらすために、スペクトルミキサー810にも接続されている。データに関して、最適化モジュール820は、ミキシングユニット800の出力を呈している。
ミキシングユニット800は、種々のビットストリームデコーダ700のビットストリーム読み取り部710の出力へ直接に接続されたSBRミキサー830をさらに備えている。SBRミキサー830の出力がミキシングユニット800のもう1つの出力を形成している。
さらに処理ユニット520は、ミキシングユニット800へ接続されたビットストリームエンコーダ850を備えている。ビットストリームエンコーダ850は、TNSエンコーダ870、PNSエンコーダ880及びステレオエンコーダ890をこの順に直列接続して備えている第3のユニット860を備えている。したがって、第3のユニット860は、ビットストリームデコーダ700の第1のユニット750の逆のユニットを形成している。
ビットストリームエンコーダ850は、第4のユニット900をさらに備えており、第4のユニット900は、第4のユニットの入力と出力との間で直列接続を形成しているスケーラー910、クオンタイザー920及びハフマンコーダー930を備えている。従って、第4のユニット900は、第1のユニット750の逆のモジュールを形成している。したがって、スケーラー910は、ハフマンコーダー930に該当の制御データをもたらすために、ハフマンコーダー930にも直接に接続されている。
また、ビットストリームエンコーダ850は、ハフマンコーダー930の出力へ接続されたビットストリームライタ940を備えている。さらに、ビットストリームライタ940は、TNSエンコーダ870、PNSエンコーダ880、ステレオエンコーダ890及びハフマンコーダー930から制御データ及び情報を受信するために、これらのモジュールにも接続されている。ビットストリームライタ940の出力が処理ユニット520及び装置500の出力を形成している。
さらに、ビットストリームエンコーダ850は、ミキシングユニット800の出力へ接続された心理音響モジュール950を備えている。ビットストリームエンコーダ850は、第3のユニット860のモジュールへ、例えば第3のユニット860のユニットの枠組みにおいてミキシングユニット800によって出力されるオーディオ信号をエンコードするためにどれを使用できるのかを知らせる適切な制御情報を供給するように構成されている。
したがって、原理的には、第3のユニット860の入力までの第2のユニット760の出力において、送信側に使用されるエンコーダによって定められるとおり、スペクトル領域のオーディオ信号の処理が可能である。しかしながら、すでに示したように、完全なデコーディング、逆量子化、デスケーリング及びさらなる処理工程は、例えば1つの入力データストリームのフレームのスペクトル情報が支配的である場合に、最終的には必要でないかもしれない。そこで、本発明の実施の形態によれば、それぞれのスペクトル成分のスペクトル情報の少なくとも一部が、出力データストリームの該当のフレームのスペクトル成分へとコピーされる。
そのような処理を可能にするために、装置500及び処理ユニット520は、最適化されたデータ交換のためのさらなる信号線を備えている。図8に示した実施の形態においてそのような処理を可能にするために、ハフマンデコーダ720の出力、ならびにスケーラー740、ステレオデコーダ770及びPNSデコーダ780の出力が、他のビットストリーム読み取り部710のそれぞれの構成要素とともに、それぞれの処理のためにミキシングユニット800の最適化モジュール820へと接続されている。
それぞれの処理の後のビットストリームエンコーダ850の内部の対応するデータの流れを容易にするために、最適化されたデータの流れのための対応するデータ線も実装されている。より正確には、最適化モジュール820の出力が、PNSエンコーダ780の入力、ステレオエンコーダ890、第4のユニット900及びスケーラー910の入力、ならびにハフマンコーダ930への入力へ接続されている。さらに、最適化モジュール820の出力がビットストリームライタ940へも直接に接続されている。
すでに示したように、上述のようなモジュールのほぼすべてが、本発明による実施の形態において必ずしも実施する必要がない随意によるモジュールである。例えば、ただ1つのチャネルしか含んでいないオーディオデータストリームの場合には、ステレオコーディングユニット890及びステレオデコーディングユニット770を省略することができる。したがって、PNSベースでない信号を処理すべき場合には、該当のPNSデコーダ780及びPNSエンコーダ880を省略することができる。TNSモジュール790、870も、処理される信号及び出力される信号がTNSデータにもとづかない場合には省略することが可能である。第1のユニット750及び第4のユニット900の内部において、逆量子化器730、スケーラー740、量子化器920及びスケーラー910も最終的に省略することが可能である。したがって、これらのモジュールも、随意による構成要素と考えられる。
ハフマンデコーダ720及びハフマンエンコーダ930を、別のアルゴリズムを使用して別の方法で実現してもよく、あるいは完全に省略してもよい。
装置500及び装置500に含まれる処理ユニット520の動作の態様に関して、到着する入力データストリームが、最初にビットストリーム読み取り部710によって読み取られ、適切な情報片へと分けられる。ハフマンデコーディングの後、得られたスペクトル情報を、最終的にデクオンタイザー730によって逆量子化し、デスケーラー740によって適切にスケーリングすることができる。
その後、入力データストリームに含まれる制御情報に依存して、入力データストリーム内にエンコードされたオーディオ信号を、ステレオデコーダ770の枠組みにおける2つ以上のチャネルのオーディオ信号へと分解することができる。例えば、オーディオ信号が中央チャネル(M)及び横チャネル(S)を含んでいる場合には、対応する左チャネル及び右チャネルデータを、中央及び横チャネルデータを互いに加算及び減算することによって得ることができる。多くの実施例において、中央チャネルが左チャネル及び右チャネルのオーディオデータの合計に比例し、横チャネルは左チャネル(L)及び右チャネル(R)の間の差に比例している。実施例に応じて、上述のチャネルを、クリッピング作用を防止するために係数1/2を考慮しつつ加算及び/又は減算することができる。一般的に言うと、種々のチャネルを線形結合によって処理して、それぞれのチャネルをもたらすことができる。
換言すると、ステレオデコーダ770の後、オーディオデータを、適切であれば、2つの個別のチャネルへと分解することができる。当然ながら、逆のデコーディングもステレオデコーダ770によって実行することができる。例えば、ビットストリーム読み取り部710によって受信されるオーディオ信号が左及び右チャネルを含んでいる場合、ステレオデコーダ770は、適切な中央及び横チャネルデータを同様に上手く計算又は決定することができる。
装置500の実施例だけでなく、それぞれの入力データストリームをもたらす参加者のエンコーダの実施例にも応じて、それぞれのデータストリームは、PNSパラメータ(PNS=聴覚雑音置換)を含むことができる。PNSは、人間の耳が、帯域又は個々の周波数などの限られた周波数範囲又はスペクトル成分のノイズ状の音を、合成的に生成されたノイズからほとんど区別することができないという事実に基づいている。したがって、PNSは、オーディオ信号の実際のノイズ状の寄与を、それぞれのスペクトル成分へ合成的に導入されるべきノイズのレベルを示しており、実際のオーディオ信号を度外視しているエネルギー値で置き換える。換言すると、PNSデコーダ780は、1つ以上のスペクトル成分において、入力データストリームに含まれるPNSパラメータに基づいて実際のノイズ状のオーディオ信号の寄与を再生することができる。
TNSデコーダ790及びTNSエンコーダ870に関しては、それぞれのオーディオ信号を、送信側で動作しているTNSモジュールに関して、変更されていないバージョンへ再変換しなければならないかもしれない。時間雑音整形(TNS)は、オーディオ信号のフレームにおける過渡状の信号の場合に存在しうる量子化ノイズによって引き起こされるプレエコーアーチファクトを軽減するための手段である。この過渡に対処するために、少なくとも1つの適応予測フィルターが、スペクトルの低い側、スペクトルの高い側、又はスペクトルの両側から出発してスペクトル情報へと加えられる。予測フィルターの長さ及び周波数範囲は、それぞれのフィルターの適用先に合わせることができる。
換言すると、TNSモジュールの動作は、1つ以上の適応IIRフィルター(IIR=無限インパルス応答)を計算することに基づいており、予測及び実際のオーディオ信号の間の差を記述する誤差信号を予測フィルターのフィルター係数とともにエンコード及び送信することによる。結果として、残る誤差信号の振幅を減らすために周波数領域において予測フィルターを適用することによって過渡状の信号に対処する(その結果、過渡状のオーディオ信号を直接エンコードする場合に比べて、より少ない量子化の刻みを使用しつつ、同様の量子化ノイズでエンコードすることができる。)ことによって、送信器のデータストリームのビットレートを維持しつつ、オーディオ品質を高めることを可能にできる。
TNSの用途に関しては、使用されるコーデックによって決定されるスペクトル領域での「純粋な」表現に達するために入力データストリームのTNS部分をデコードするためにTNSデコーダ760の機能を使用することを、いくつかの環境において推奨できるかもしれない。TNSデコーダ790の機能のこの応用は、心理音響モデル(例えば、心理音響モジュール950において適用される。)の推定をTNSパラメータに含まれる予測フィルターのフィルター係数に基づいて推定することがすでにできない場合に、有用かもしれない。これは、少なくとも1つの入力データストリームがTNSを使用しているが、他の入力データストリームがTNSを使用していない場合に、特に重要かもしれない。
処理ユニットが、入力データストリームのフレームの比較にもとづき、TNSを使用している入力データストリームのフレームからのスペクトル情報を使用すべきと判断する場合、TNSパラメータを、出力データのフレームのために使用することができる。もし、例えば互換性がないという理由で、出力データストリームの受け手がTNSデータをデコードできない場合、誤差信号のそれぞれのスペクトルデータ及びさらなるTNSパラメータをコピーせず、TNS関連データから再現されたデータを処理してスペクトル領域の情報を得、TNSエンコーダ870を使用しないことが有用かもしれない。これは、図8に示した構成要素又はモジュールの一部を、本発明によるさまざまな実施の形態において実装する必要が必ずしもないことを、やはり示している。
PNSデータを比較する少なくとも1つのオーディオ入力ストリームの場合にも、同様の方法を当てはめることができる。もし、入力データストリームのスペクトル成分についてのフレームの比較から、1つの入力データストリームが、その現在のフレーム及びそれぞれのスペクトル成分又はスペクトル成分に関して支配的であることが明らかになる場合、それぞれのPNSパラメータ(すなわち、それぞれのエネルギー値)を、出力フレームのそれぞれのスペクトル成分へ直接コピーしてもよい。しかしながら、もし、受け手がPNSパラメータを受け付けることができない場合には、スペクトル情報を、それぞれのエネルギー値によって示されるとおりの適切なエネルギーレベルを有するノイズを生成することによって、それぞれのスペクトル成分についてPNSパラメータから再現することができる。次いで、ノイズデータを、スペクトル領域において相応に処理することができる。
すでに概説したように、送信されるデータも、先に説明した機能を実行するSBRミキサー830によって後に処理されるSBRデータを含んでいる。
SBRは、2つのステレオチャネルのコーディングを可能にし、左チャネル及び右チャネルを別々にコーディングすること、ならびに左チャネル及び右チャネルを結合チャネル(C)に関してコーディングすることを可能にするため、本発明の実施の形態によれば、それぞれのSBRパラメータ又はその少なくとも一部分の処理は、SBRパラメータのC要素を、決定及び送信すべきSBRパラメータの左及び右の両要素へコピーすること、又はその反対を含むことができる。
さらに、本発明の実施の形態による種々の態様において、入力データストリームが、1つ又は2つの個別のチャネルをそれぞれ含むモノラル及びステレオの両方のオーディオ信号を含む可能性があるため、モノラルからステレオへのアップミックス又はステレオからモノラルへのダウンミックスを、入力データストリームのフレームを処理して出力データストリームの出力フレームを生成する枠組みにおいて、さらに実行することができる。
先の説明を、TNSパラメータに関して示したので、再量子化を防止するために、それぞれのTNSパラメータを支配的な入力データストリームからのフレーム全体のスペクトル情報とともに出力データストリームへと処理することが望ましいかもしれない。
PNSベースのスペクトル情報の場合には、基礎をなすスペクトル成分をデコードすることなく個々のエネルギー値を処理することが、実行可能な方法かもしれない。さらに、この処理による場合には、複数の入力データストリームのフレームの支配的なスペクトル成分からのそれぞれのPNSパラメータだけが、出力データストリームの出力フレームの対応するスペクトル成分に対して、追加の量子化ノイズを持ち込むことなく生じる。
上記概説のとおり、本発明による実施の形態は、複数の入力データストリームのフレームを比較した後、かつ比較に基づいて、出力データストリームの出力フレームのスペクトル成分について、正確に1つのデータストリームがスペクトル情報の源であるべきと判断した後で、スペクトル成分に関するスペクトル情報を単純にコピーすることを含むこともできる。
心理音響モジュール950の枠組みにおいて実行される置換アルゴリズムが、ただ1つの有効成分を有するスペクトル成分を特定するために、得られる信号の基礎をなすスペクトル成分(例えば、周波数帯域)に関するスペクトル情報の各々を調べる。これらの帯域について、入力ビットストリームのそれぞれの入力データストリームの量子化された値を、特定のスペクトル成分についてそれぞれのスペクトルデータを再エンコード又は再量子化することなくエンコーダからコピーすることができる。いくつかの状況下では、すべての量子化されたデータを、ただ1つの有効な入力信号から取得して、出力ビットストリーム又は出力データストリームを形成することができ、したがって装置500に関して、入力データストリームのロスのないコーディングを実現できる。
さらに、エンコーダの内部の心理音響分析などの処理工程を省略することが可能になるかもしれない。これは、基本的に、特定の状況下において1つのビットストリームから他のビットストリームへのデータのコピーだけを実行すればよいため、エンコーディング処理の短縮を可能にし、計算の複雑さの軽減を可能にする。
例えば、PNSの場合に、PNSでコードされた帯域のノイズ係数を出力データストリームの1つから出力データストリームへとコピーすることができるため、置換を実行することができる。PNSパラメータがスペクトル成分に特有であり、すなわち換言すると、互いに独立したきわめて良好な近似であるため、個々のスペクトル成分を適切なPNSパラメータで置き換えることが可能である。
しかしながら、上述のアルゴリズムの2つの積極的な適用が、聴取体験の低下又は望ましくない品質の低下につながることが生じうる。したがって、置換を、個々のスペクトル成分に関して、スペクトル情報よりもむしろ、個々のフレームに限ることが望ましいかもしれない。そのような動作の態様においては、無関係さの推定又は無関係さの判断、ならびに置換の分析を、不変のままに実行することができる。しかしながら、置換を、この動作の態様において、有効なフレーム内のスペクトル成分のすべて又は少なくともかなりの数が置換可能である場合に限って実行することができる。
この結果、置換の数がより少なくなるかもしれないが、スペクトル情報の内部強度を、いくつかの状況において改善でき、さらにわずかに改善された品質をもたらすことができる。
本発明の実施の形態によるSBRミキシングに戻ると、図8に示した装置500の追加の随意による構成要素を除外し、SBRの動作原理及びSBRデータのミキシングを、以下でさらに詳しく説明する。
すでに概説したとおり、SBRツールは、線形変換を呈するQMF(直交ミラーフィルターバンク)を使用する。結果として、スペクトルデータ610(スペクトル6Bを参照)を直接的にスペクトル領域において処理できるだけでなく、そのスペクトルの上方部分590(図6Bを参照)の時間/周波数領域630の各々に関するエネルギー値を処理することもできる。しかしながら、すでに示したように、ミキシングに先立って、関係する時間/周波数格子を最初に調節することが望ましく、いくつかの場合には必要であるかもしれない。
原理的には、完全に新しい時間/周波数格子を生成することが可能であるが、以下では、1つのソースにおいて生じている時間/周波数格子が出力フレーム550の時間/周波数格子として使用される状況を説明する。時間/周波数格子のうちのどれを使用することができるかの決定は、例えば心理音響的な考慮に基づくことができる。例えば、格子のうちの1つが過渡を含んでいる場合、この過渡を含んでいるか、又はこの過渡に適合する時間/周波数格子を使用することが望ましいかもしれない。なぜならば、人間の聴覚系のマスキング効果ゆえに、聞き取り可能なアーチファクトが、この特定の格子から外れる場合に、最終的に導入される可能性があるからである。例えば、過渡を有する2つ以上のフレームを本発明の実施の形態による装置500によって処理すべき場合、これらのうちの最先の過渡に適合する時間/周波数格子を選択することが望ましいかもしれない。やはり、マスキング効果ゆえに、最先のアタックを含んでいる格子を選択することが、心理音響的な考慮にもとづき、好ましい選択となりうる。
しかしながら、これらの状況のもとでも、他の時間/周波数格子を計算又は選択してもよいことを、指摘しておかなければならない。
したがって、SBRフレーム格子をミキシングするとき、いくつかの場合には、フレーム540に含まれる1つ以上の過渡の存在及び位置を分析及び判断することが望ましい。これに加え、あるいはこれに代えて、それぞれのフレーム540のSBRデータのフレーム格子を評価し、フレーム格子そのものがそれぞれの過渡に適合しているか否か、あるいはそれぞれの過渡の存在を示しているか否かを検証することによって、これを達成することも可能である。例えば、AAC ELDコーデックの場合に、LD_TRANフレームクラスの使用が、過渡が存在することを示すことができる。このクラスは、TRANSPOSE変数も含んでいるため、図7に示されるように、時間スロットに関する過渡の位置も、分析部640に知られる。
しかしながら、他のSBRフレームクラスであるFIXFIXも使用できるため、出力フレーム550の時間/周波数格子を生成するとき、さまざまな群が生じることができる。
例えば、過渡を有さないフレーム又は同じ過渡の位置を有するフレームが生じることができる。フレームが過渡を含まない場合、フレーム全体に広がるただ1つのエンベロープだけを有するエンベロープ構造を使用することさえ可能であるかもしれない。また、エンベロープの数が同一である場合に、基本的なフレーム構造をコピーすることが可能である。1つのフレームに含まれるエンベロープの数が、他のフレームのエンベロープの数の整数である場合には、細かい方のエンベロープ分布を使用することも可能である。
同様に、すべてのフレーム540が同じ位置に過渡を含んでいる場合には、時間/周波数格子を、2つの格子のいずれかからコピーすることができる。
過渡を有さないただ1つのエンベロープのフレーム及び過渡を有するフレームのミキシングの場合には、過渡を含んでいるフレームのフレーム構造をコピーすることができる。この場合、それぞれのデータをミキシングするときに新たな過渡がもたらされることがないことを、安全に保証することができる。多くの場合、すでに存在する過渡だけが、増幅され、あるいは減衰させられるであろう。
異なる過渡の位置のフレームが関係する場合には、フレームの各々が、基礎をなす時間スロットに対して異なる位置に過渡を含んでいる。この場合、過渡の位置に基づく適切な分布が望ましい。多くの状況において、最初の過渡の位置が問題とされる。なぜならば、プレエコー効果及び他の問題は、最初の過渡の残効によってマスクされる可能性が高いからである。したがって、この状況においては、フレーム格子を最初の過渡の位置に合わせることが適切かもしれない。
フレームに対するエンベロープの分布を決定した後で、個々のエンベロープの周波数分解能を決定することができる。新たなエンベロープの分解能として、典型的には、入力エンベロープの最高の分解能が使用される。例えば、分析されるエンベロープのうちの1つの分解能が高い場合、出力フレームも、自身の周波数に関して高い分解能を有するエンベロープを含む。
この状況をさらに詳しく説明するために、特に2つの入力データストリーム510−1、510−2の入力フレーム540−1、540−2が異なるクロスオーバー周波数を有する場合に、図9A及び9Bが、2つの入力フレーム510−1、540−2のそれぞれについて、図6Aに示したようなそれぞれの表現を示している。図6Bのきわめて詳細な説明ゆえに、図9A及び9Bの説明を、ここでは省略することができる。さらに、図9Aに示したフレーム540−1は、図6Bに示したフレームと同一である。すでに説明したように、クロスオーバー周波数570の上方に複数の時間/周波数領域630を有している2つの等しい長さのエンベロープ620−1、620−2を含んでいる。
図9Bに概略的に示したとおりの第2のフレーム540−2は、いくつかの態様に関して、図9Aに示したフレームから相違する。フレーム格子が同じ長さではない3つのエンベロープ620−1、620−2及び620−3を含んでいるという事実の他に、時間/周波数領域630に関する周波数分解能及びクロスオーバー周波数570も、図9Aに示したものとは異なっている。図9Bに示した例では、クロスオーバー周波数570が図9Aのフレーム540−1のクロスオーバー周波数よりも高い。結果として、スペクトル590の上方部分が、図9Aに示したフレーム540−1のスペクトルの上方部分よりも相応に大きい。
図9A及び9Bに示したフレーム540がAAC ELDコーデックによってもたらされているという仮定にもとづき、フレーム540−2のフレーム格子が3つの異なる長さのエンベロープ620を含んでいるという事実が、3つのエンベロープ620のうちの2番目が過渡を含んでいるという結論につながる。したがって、2番目のフレーム540−2のフレーム格子が、少なくともその時間における分布に関して、出力フレーム550に選択すべき分解能である。
しかしながら、図9Cに示されるように、異なるクロスオーバー周波数570がここでは使用されているという事実に起因して、追加の課題が生じる。より具体的には、図9Cは、2つのフレーム540−1、540−2をそれらのスペクトル情報の表現560に関して一緒に示した重ね合わせの状況を図示している。図9Aに示した第1のフレーム540のクロスオーバー周波数570−1(クロスオーバー周波数fx1)及び図9Bに示した第2のフレーム540−2のより高いクロスオーバー周波数570−2(クロスオーバー周波数fx2)だけを考えると、中間の周波数範囲1000については、第1のフレーム540−1からのSBRデータのみが利用可能であり、第2のフレーム540−1からのスペクトルデータ610だけが利用可能である。換言すると、中間周波数範囲1000の範囲内の周波数のスペクトル成分については、ミキシングの手順が、図7に示した推定部670によってもたらされるような推定によるSBR又は推定によるスペクトルデータに頼る。
図9Cに示した状況においては、2つのクロスオーバー周波数570−1、570−2によって周波数に関して囲まれた中間周波数範囲1000が、推定部670及び処理ユニット520が機能する周波数範囲を呈する。この周波数範囲1000においては、SBRデータが第1のフレーム540−1からのみ入手可能であり、一方、この周波数範囲において、第2のフレーム540−2からはスペクトル情報又はスペクトル値のみが入手可能である。結果として、中間周波数範囲1000の周波数又はスペクトル成分が出力のクロスオーバー周波数よりも上か下かに応じて、SBR値又はスペクトル値を評価し、推定された値をフレーム540−1、540−2の一方からの元々の値とSBR領域又はスペクトル領域においてミキシングしなければならない。
図9Dは、出力フレームのクロスオーバー周波数が、2つのクロスオーバー周波数570−1、570−2の低い方に等しい状況を示している。結果として、出力クロスオーバー周波数570−3(fx0)は、第1のクロスオーバー周波数570−1(fx1)に等しく、これがエンコード後のスペクトルの上方部分を、たった今述べたクロスオーバー周波数の2倍に抑えている。
先に決定された時間分解能又はそのエンベロープ分布に基づいて時間/周波数格子の周波数分解能をコピー又は再決定することで、中間周波数範囲1000(図9Cを参照)の出力SBRデータが、これらの周波数についての第2のフレーム540−2のスペクトルデータ610から対応するSBRデータを推定することによって決定される。
この推定は、第2のクロスオーバー周波数570−2を上回る周波数についてのSBRデータを考慮して、その周波数範囲の第2のフレーム540−2のスペクトルデータ610に基づいて実行することができる。これは、時間分解能又はエンベロープ分布に関して、第2のクロスオーバー周波数570−2の周囲の周波数が最も等しく影響されている可能性が高いという仮定に基づいている。したがって、中間周波数範囲1000のSBRデータの推定を、例えば、SBRデータによって記述される最も細かい時間及び周波数分解能について、各々のスペクトル成分についてのスペクトル情報に基づいてそれぞれのエネルギー値を計算し、第2のフレーム540−2のSBRデータのエンベロープによって示されるとおりの振幅の時間展開に基づいてそれぞれに減衰又は増幅を加えることによって達成できる。
その後に、平滑化フィルター又は他のフィルター処理を加えることによって、推定によるエネルギー値が、出力フレーム550のために決定された時間/周波数格子の時間/周波数領域630へと写像される。図9Dに示したような技術的解決策は、例えば、より低いビットレートにおいて興味深いかもしれない。到着するすべてのストリームのうちの最低のSBRクロスオーバー周波数が、出力フレームのSBRクロスオーバー周波数として使用され、SBRエネルギー値が、コアコーダー(クロスオーバー周波数までで動作する。)とSBRコーダー(クロスオーバー周波数よりも上で動作する。)との間のすき間の周波数範囲1000について、スペクトル情報又はスペクトル係数から推定される。推定は、例えばMDCT(修正離散余弦変換)又はLDFB(少遅延フィルターバンク)スペクトル係数から導出できる幅広くさまざまなスペクトル情報に基づいて実行することができる。さらに、コアコーダーとSBR部分との間のすき間を閉じるために、平滑化フィルターを適用することができる。
さらに、この技術的解決策を、例えば64kbit/sを含んでいる高いビットレートのストリームを、例えば32kbit/sしか含まないより低いビットストリームへと下げるためにも使用できることに、注意すべきである。そのような技術的解決策の実装が望ましいと考えられる状況は、例えば、ミキシングユニットへの低いデータレートの接続(例えば、モデムによるダイアルイン接続などによって確立される。)しか持たない参加者に、ビットストリームを供給する状況である。
異なるクロスオーバー周波数の別の例が、図9Eに示されている。
図9Eは、2つのクロスオーバー周波数570−1、570−2の高い方が、出力クロスオーバー周波数570−3として使用される場合を示している。したがって、出力フレーム550は、出力クロスオーバー周波数まではスペクトル情報610を含んでおり、出力クロスオーバー周波数よりも上では、クロスオーバー周波数570−3の典型的には2倍の周波数まで、対応するSBRデータを含んでいる。しかしながら、この状況は、中間周波数範囲1000(図9Cを参照)のスペクトルデータをどのように回復するのかという問題を生じさせる。中間周波数範囲1000の第1のフレーム540−1のSBRデータにもとづき、時間/周波数格子の時間分解能又はエンベロープ分布を決定し、出力クロスオーバー周波数570−3を上回る周波数について時間/周波数格子の周波数分解能を少なくとも部分的にコピー又は決定した後で、スペクトルデータが、処理ユニット520及び推定部670によって推定される。これは、第1のクロスオーバー周波数570−1(図9Aを参照)よりも下のスペクトル情報610の一部又はすべてを随意により考慮しつつ、第1のフレーム540−1の前記周波数範囲1000のSBRデータに基づいてスペクトル情報を部分的に再現することによって達成できる。換言すると、欠けているスペクトル情報の推定を、中間周波数範囲1000の周波数へと少なくとも部分的にSBRデコーダの再現アルゴリズムを適用することによって、SBRデータ及びスペクトルの下方部分580の対応するスペクトル情報からスペクトル情報をスペクトル的に複製することで、達成することができる。
例えば周波数領域へと部分的なSBRデコーディング又は再現を適用することによって中間周波数範囲のスペクトル情報を推定した後で、得られた推定によるスペクトル情報を、例えば線形結合を適用することによってスペクトル領域で第2のフレーム540−2のスペクトル情報に直接的にミックスすることができる。
クロスオーバー周波数よりも上の周波数又はスペクトル成分のスペクトル情報の再現又は複製は、逆フィルターとも称される。この文脈において、追加の高調波及び追加のノイズエネルギー値も、中間周波数範囲1000の周波数又は成分のそれぞれのスペクトル情報を推定するときに考慮されうることに、注意すべきである。
この技術的解決策は、例えば、装置500へと接続された参加者又はミキシングユニットがより高いビットレートを自由に利用できる場合に興味深いかもしれない。パッチ又はコピーアルゴリズムを、スペクトル領域のスペクトル情報(例えば、MDCT又はLDFBスペクトル係数)へと、これらを該当のクロスオーバー周波数によって分けられたコアコーダーとSBR部分との間のすき間を閉じるべく下方の帯域から上方の帯域へとコピーするために適用することができる。これらのコピー係数は、SBRペイロードに格納されたエネルギーパラメータに従って弱められる。
図9D及び9Eに示したような両方の筋書きにおいて、最も低いクロスオーバー周波数よりも下方のスペクトル情報を、スペクトル領域において直接的に処理できる一方で、最も高いクロスオーバー周波数を上回るSBRデータは、SBR領域において直接的に処理することができる。典型的には関係するクロスオーバー周波数の最小値の2倍を上回るSBRデータによって記述されるとおりの最高の周波数のうちの最低値を超えるきわめて高い周波数については、出力フレーム550のクロスオーバー周波数に応じて、異なる手法を適用することができる。原理的には、図9Eに示したように、関係するクロスオーバー周波数のうちの最大のクロスオーバー周波数を出力のクロスオーバー周波数570−3として使用する場合、最高の周波数についてのSBRデータは、主として第2のフレーム540−2のみのSBRデータに基づく。さらなる選択肢として、これらの値を、前記クロスオーバー周波数を下回る周波数についてSBRエネルギー値を線形結合させる枠組みにおいて適用される正規化係数又は減衰係数によって弱めることができる。入手可能なクロスオーバー周波数のうちの最小のクロスオーバー周波数が出力のクロスオーバー周波数として使用される図9Dに示したような状況においては、第2のフレーム540−2の該当のSBRデータを無視することができる。
当然ながら、本発明による実施の形態が、決して2つの入力データストリームに限られず、3つ以上の入力データストリームを含む複数の入力データストリームへと容易に拡張できることに、注意すべきである。そのような場合、上述の手法を、入力データストリームに鑑みて使用される実際のクロスオーバー周波数に応じて、種々の入力データストリームへと容易に適合させることができる。例えば、この入力データストリーム及びその入力データストリームに含まれるフレームのクロスオーバー周波数が、出力フレーム550の出力クロスオーバー周波数よりも高い場合、図9Dの文脈において説明したとおりのアルゴリズムを適用することができる。反対に、該当のクロスオーバー周波数がより低い場合には、図9Eの文脈において説明したアルゴリズム及びプロセスを、この入力データストリームへと適用することができる。SBRデータ又はスペクトル情報の実際のミキシングは、それぞれのデータのうちの2つ以上が合計されるという意味である。
さらには、出力クロスオーバー周波数570−3を任意に選択できることに注意すべきである。出力クロスオーバー周波数が、入力データストリームのクロスオーバー周波数のいずれかと同一である必要は決してない。例えば、図9D及び9Eの文脈において説明したような状況において、クロスオーバー周波数は、入力データストリーム510の両方のクロスオーバー周波数570−1、570−2の間、下方、又は上方にあってよい。出力フレーム550のクロスオーバー周波数を自由に選択できる場合、スペクトルデータ及びSBRデータの推定に関して、上述したアルゴリズムのすべてを実行することが望ましいかもしれない。
他方で、本発明によるいくつかの実施の形態を、常に最小又は最大のクロスオーバー周波数を使用するように実現してもよい。そのような場合、上述のような機能のすべてを実装する必要はないかもしれない。例えば、常に最低のクロスオーバー周波数が使用される場合には、推定部670は、典型的には、スペクトル情報を推定できる必要はなく、SBRデータだけを推定できればよい。したがって、スペクトルデータを推定する機能を、ここでは最終的に無効にすることができる。対照的に、本発明による実施の形態が、常に最高の出力クロスオーバー周波数を使用するように実現する場合には、SBRデータを推定できるという推定部670の機能は不要であるかもしれず、したがって省略可能である。
本発明による実施の形態は、多チャネルのダウンミックス又は多チャネルのアップミックスの構成要素をさらに備えることができ、例えば一部の参加者がステレオ又は他の多チャネルのストリームを送信でき、一部の参加者がモノラルのストリームしか送信できない場合に、ステレオダウンミックス又はステレオアップミックスの構成要素を備えることができる。この場合、入力データストリームに含まれるチャネルの数に関して対応するアップミックス又はダウンミックスを実行することが望ましいであろう。アップミキシング又はダウンミキシングによってストリームのいくつかを処理し、入力ストリームのパラメータに一致するミックスされたビットストリームをもたらすことが望ましいであろう。これは、モノラルのストリームを送信する参加者が、応答においてやはりモノラルのストリームを受信することを所望できることを意味する。結果として、他の参加者からのステレオ又は他の多チャネルオーディオデータを、モノラルのストリームへと変換しなければならないかもしれず、その逆も然りである。
これは、実施上の制約及び他の境界条件に応じて、例えば、本発明の実施の形態による複数の装置を用意することによって達成でき、あるいはすべての入力データストリームをただ1つの装置に基づいて処理し、到着するデータストリームを装置による処理に先立ってダウンミックス又はアップミックスし、処理後に参加者の端末の要件に一致するようにダウンミックス又はアップミックスすることによって達成できる。
SBRは、ステレオチャネルのコーディングの2つの態様も可能にする。1つの動作の態様が、左右のチャネル(LR)を別々に取り扱う一方で、第2の動作の態様は、結合チャネル(C)について機能する。LRエンコードの要素及びCエンコードの要素をミキシングするためには、LRエンコードの要素をC要素へ写像するか、あるいはその逆を行わなければならない。どちらのコーディング法を使用すべきかの実際の決定は、あらかじめ定めることができ、あるいはエネルギー消費、計算の複雑さ、などの条件を考慮して行うことができ、あるいは別個の処理の妥当性に関する心理音響的な推定に基づくことができる。
すでに指摘したように、実際のSBRエネルギー関連データのミキシングを、それぞれのエネルギー値の線形結合によってSBR領域において達成することができる。これは、式
Figure 2011513780
に従って達成でき、ここでakは、重み係数であり、Ek(n)は、nによって示される時間/周波数格子における位置に対応する入力データストリームkのエネルギー値である。E(n)は、同じ添え字nに対応する該当のSBRエネルギー値である。Nは、入力データストリームの数であり、図9A及び9Eに示した例では、2に等しい。
係数akを、正規化ならびに出力フレーム550の各々の時間/周波数領域630及び対応するそれぞれの入力フレーム450の時間/周波数領域630の重なり合い関する重み付けを実行するために使用することができる。例えば、出力フレーム550の2つの時間/周波数領域630及び該当の入力フレーム540が、出力フレーム550の考慮対象の時間/周波数領域630の50%が入力フレーム540の対応する時間/周波数領域630によって構成されているという意味で、50%の範囲の互いの重なり合いを有する場合、0.5(=50%)という値を、それぞれのオーディオ入力ストリームとそこに含まれる入力フレーム540との関連性を示す全体としての利得係数によって乗算することができる。
より一般的に表現すると、係数akの各々を、
Figure 2011513780
によって定義することができ、ここでrikは、入力フレーム540及び出力フレーム550のそれぞれの2つの時間/周波数領域630i及びkの重なり合いの領域を示す値である。Mは、入力フレーム540のすべての時間/周波数領域630の数であり、gは、例えばミキシングプロセスが値の許容範囲をオーバーシュート又はアンダーシュートするという結果を防止するために、1/Nに等しくてよい全体的な正規化係数である。係数rikは、0から1の間の範囲であってよく、0は、2つの時間/周波数領域630がまったく重なり合わないことを示し、1という値は、入力フレーム540の時間/周波数領域630が、出力フレーム550の該当の時間/周波数領域630に完全に含まれることを意味する。
しかしながら、複数の入力フレーム540のフレーム格子が等しいことも生じうる。この場合、フレーム格子を、入力フレーム540のうちの1つから出力フレーム550へとコピーすることができる。したがって、関連のSBRエネルギー値のミキシングを、きわめて容易に実行することができる。この場合には、出力値を合計及び正規化することによって、対応するスペクトル情報(例えば、MDCT値)のミキシングと同様に、対応する周波数値を合計することができる。
しかしながら、周波数に関して、時間/周波数領域630の数が、それぞれのエンベロープの分解能に応じて変化する可能性があるため、低いエンベロープの高いエンベロープへの写像、及びその反対を実施することが望ましいかもしれない。
図10が、これを、例えば8つの時間/周波数領域630−l及び16個の対応する時間周波数領域630−hを含んでいる高いエンベロープについて示している。すでに概説したように、低い分解能のエンベロープは、典型的には、より高い分解能のエンベロープと比べたときに半分の数の周波数データしか含んでおらず、単純な照合を、図10に示したとおりに確立することができる。低い分解能のエンベロープを高い分解能のエンベロープへと写像するとき、低い分解能のエンベロープの時間/周波数領域630−lの各々が、より高い分解能のエンベロープの2つの対応する時間周波数領域630−hへと写像される。
現実の状況に応じて、例えば正規化に関して、0.5というさらなる係数を使用することが、ミックス後のSBRエネルギー値のオーバーシュートを防止するために望ましいかもしれない。写像が逆のやりかたで行われる場合には、2つの隣り合う時間周波数領域630−hを、算術平均を割り出すことによって平均し、低い分解能のエンベロープの1つの時間/周波数領域630−lを得ることができる。
換言すると、式(7)に関し、最初の状況においては、係数rikが0又は1のいずれかであり、一方、係数gは0.5に等しく、第2の場合には、係数gを1に設定でき、一方、係数rikが0又は0.5のいずれかとすることができる。
しかしながら、係数gを、ミックスされる入力データストリームの数を考慮する追加の正規化係数を含めることによって、さらに変更しなければならないかもしれない。すべての入力信号のエネルギー値をミックスするために、それらが合計され、スペクトルミキシングの手順の際に加えられる正規化係数によって随意により乗算される。この追加の正規化係数を、式(7)の係数gを決定するときに、やはり最終的に考慮に入れなければならないかもしれない。結果として、これが、ベースコーデックのスペクトル係数のスケール係数がSBRエネルギー値の値の許容範囲に一致することを最終的に保証することができる。
本発明による実施の形態は、当然ながら、その実施に関してさまざまであってよい。これまでの実施の形態においては、ハフマンデコーディング及びエンコーディングを、単一エントロピーエンコーディングの仕組みとして説明したが、他のエントロピーエンコーディングの仕組みも使用可能である。さらには、エントロピーエンコーダ又はエントロピーデコーダを実装することは、決して必須ではない。したがって、これまでの実施の形態の説明は、主としてACC−ELDコーデックに集中していたが、他のコーデックも、参加者側での入力データストリームの供給及び出力データストリームのデコードに使用することができる。例えば、ブロック長の切り替えを有さないシングルウインドウに基づく任意のコーデックを使用することが可能である。
図8に示した実施の形態についての先の説明も示しているとおり、そこで説明されたモジュールは、必須ではない。例えば、本発明の実施の形態による装置を、フレームのスペクトル情報について動作することによって単純に実現することができる。
さらに、本発明による実施の形態を、さまざまな異なる方法で実現できることに、注意すべきである。例えば、複数の入力データストリームのミキシングのための装置500及びその処理ユニット520を、抵抗器、トランジスター、インダクターなどのディスクリートな電気及び電子デバイスに基づいて実現することができる。さらに、本発明による実施の形態を、集積回路のみに基づいて、例えばSOCs(SOC=システム・オン・チップ)、CPU(CPU=中央演算ユニット)及びGPU(GPU=グラフィック処理ユニット)などのプロセッサー、ならびに特定用途向け集積回路(ASIC)などの他の集積回路(IC)の形態で実現することもできる。
さらに、ディスクリートな実施例の一部又は集積回路の一部である電気デバイスを、本発明の実施の形態による装置の実現の全体において、異なる目的及び異なる機能のために使用できることに注意すべきである。当然ながら、集積回路及びディスクリートな回路に基づく回路の組み合わせも、本発明による実施の形態を実現するために使用することができる。
プロセッサーをベースに、本発明による実施の形態を、コンピュータープログラム、ソフトウェアプログラム、又はプロセッサー上で実行されるプログラムに基づいて実現することも可能である。
換言すると、本発明の方法の実施の形態の特定の実現の要件に応じて、本発明の方法の実施の形態を、ハードウェア又はソフトウェアにて実現することができる。実現を、電子的に読み取ることができる信号(本発明の方法の実施の形態が実行されるように、プログラマブルなコンピューター又はプロセッサーと協働する。)が保存されてなるデジタル記憶媒体(特に、ディスク、CD、又はDVD)を使用して行うことができる。したがって、一般に、本発明の実施の形態は、プログラムコードを機械によって読み取り可能な担体に保存して有しているコンピュータープログラム製品であり、そのようなプログラムコードは、コンピュータープログラム製品がコンピューター又はプロセッサー上で実行されるときに、本発明の方法の実施の形態を実行するように動作することができる。したがって、さらに換言すると、本発明の方法の実施の形態は、コンピュータープログラムに関し、そのようなコンピュータープログラムが、コンピューター又はプロセッサー上で実行されたときに本発明の方法の実施の形態の少なくとも1つを実行するプログラムコードを有している。プロセッサーを、コンピューター、チップカード、スマートカード、特定用途向け集積回路、システム・オン・チップ(SOC)又は集積回路(IC)によって形成することができる。
100 会議システム
110 入力
120 デコーダ
130 加算器
140 エンコーダ
150 出力
160 会議端末
170 エンコーダ
180 デコーダ
190 時間/周波数変換器
200 量子化器/コーダー
210 デコーダ/逆量子化器
220 周波数/時間変換器
250 データストリーム
260 フレーム
270 さらなる情報のブロック
300 周波数
310 周波数帯域
500 装置
510 入力データストリーム
520 処理ユニット
530 出力データストリーム
540 フレーム
550 出力フレーム
560 スペクトル情報表現
570 クロスオーバー周波数
580 スペクトルの下方部分
590 スペクトルの上方部分
600 線
610 スペクトルデータ
620 エンベロープ
630 時間/周波数領域
640 分析部
650 スペクトルミキサー
660 SBRミキサー
670 推定部
680 ミキサー
700 ビットストリームデコーダ
710 ビットストリーム読み取り部
720 ハフマンコーダー
730 デクオンタイザー
740 スケーラー
750 第1のユニット
760 第2のユニット
770 ステレオデコーダ
780 PNSデコーダ
790 TNSデコーダ
800 ミキシングユニット
810 スペクトルミキサー
820 最適化モジュール
830 SBRミキサー
850 ビットストリームエンコーダ
860 第3のユニット
870 TNSエンコーダ
880 PNSエンコーダ
890 ステレオエンコーダ
900 第4のユニット
910 スケーラー
920 量子化器
930 ハフマンコーダー
940 ビットストリームライタ
950 心理音響モジュール
1000 中間周波数範囲

Claims (16)

  1. 第1の入力データストリーム(510−1)の第1のフレーム(540−1)と第2の入力データストリーム(510−2)の第2のフレーム(540−2)とをミキシングして、出力データストリーム(530)の出力フレーム(550)を得るための装置(500)であって、
    前記出力フレーム(550)を生成するように構成された処理ユニット(520)を備えており、
    前記第1のフレーム(540−1)が、第1のオーディオ信号の第1のスペクトルについて第1のクロスオーバー周波数(570)までの下方部分(580)を記述する第1のスペクトルデータと、前記第1のスペクトルについて前記第1のクロスオーバー周波数(570)から始まる上方部分(590)を記述する第1のスペクトル帯域複製(SBR)データとを含んでおり、前記第2のフレーム(540−2)が、第2のオーディオ信号の第2のスペクトルについて第2のクロスオーバー周波数(570)までの下方部分(580)を記述する第2のスペクトルデータと、前記第2のスペクトルについて前記第2のクロスオーバー周波数(570)から始まる上方部分(590)を記述する第2のSBRデータとを含んでおり、前記第1及び第2のSBRデータが、前記第1及び第2のスペクトルのそれぞれの上方部分(590)を、時間/周波数格子分解能におけるエネルギー関連の値によって記述しており、前記第1のクロスオーバー周波数(570)が、前記第2のクロスオーバー周波数(570)とは異なっており、
    前記出力フレーム(550)が、出力スペクトルについて出力クロスオーバー周波数(570)までの下方部分(580)を記述する出力スペクトルデータを含むとともに、前記出力スペクトルについて前記出力クロスオーバー周波数(570)よりも上の上方部分(590)を、出力時間/周波数格子分解能におけるエネルギー関連の値によって記述する出力SBRデータをさらに含んでおり、
    前記処理ユニット(520)は、前記第1のクロスオーバー周波数(570)、前記第2のクロスオーバー周波数(570)及び前記出力クロスオーバー周波数(570)の最小値を下回る周波数に対応する前記出力スペクトルデータを、前記第1及び第2のスペクトルデータに基づいてスペクトル領域において生成するように構成されており、
    前記処理ユニット(520)は、前記第1のクロスオーバー周波数(570)、前記第2のクロスオーバー周波数(570)及び前記出力クロスオーバー周波数(570)の最大値を上回る周波数に対応する前記出力SBRデータを、前記第1及び第2のSBRデータに基づいてSBR領域において処理するようにさらに構成されており、
    前記処理ユニット(520)は、前記最小値及び前記最大値の間の周波数領域について、第1及び第2のスペクトルデータの少なくとも一方から少なくとも1つのSBR値を推定し、前記出力SBRデータの該当のSBR値を少なくとも前記推定したSBR値に基づいて生成するようにさらに構成されている装置(500)。
  2. 前記処理ユニット(520)が、前記少なくとも1つのSBR値の推定を、該推定すべきSBR値に対応する周波数成分に対応するスペクトル値に基づいて行うように構成されている請求項1に記載の装置(500)。
  3. 第1の入力データストリーム(510−1)の第1のフレーム(540−1)と第2の入力データストリーム(510−2)の第2のフレーム(540−2)とをミキシングして、出力データストリーム(530)の出力フレーム(550)を得るための装置(500)であって、
    前記出力フレーム(550)を生成するように構成された処理ユニット(520)を備えており、
    前記第1のフレーム(540−1)が、第1のオーディオ信号の第1のスペクトルについて第1のクロスオーバー周波数(570)までの下方部分(580)を記述する第1のスペクトルデータと、前記第1のスペクトルについて前記第1のクロスオーバー周波数(570)から始まる上方部分(590)を記述する第1のスペクトル帯域複製(SBR)データとを含んでおり、前記第2のフレーム(540−2)が、第2のオーディオ信号の第2のスペクトルについて第2のクロスオーバー周波数(570)までの下方部分(580)を記述する第2のスペクトルデータと、前記第2のスペクトルについて前記第2のクロスオーバー周波数(570)から始まる上方部分(590)を記述する第2のSBRデータとを含んでおり、前記第1及び第2のSBRデータが、前記第1及び第2のスペクトルのそれぞれの上方部分(590)を、時間/周波数格子分解能におけるエネルギー関連の値によって記述しており、前記第1のクロスオーバー周波数(570)が、前記第2のクロスオーバー周波数(570)とは異なっており、
    前記出力フレーム(550)が、出力スペクトルについて出力クロスオーバー周波数(570)までの下方部分(580)を記述する出力スペクトルデータを含むとともに、前記出力スペクトルについて前記出力クロスオーバー周波数(570)よりも上の上方部分(590)を、出力時間/周波数格子分解能におけるエネルギー関連の値によって記述する出力SBRデータをさらに含んでおり、
    前記処理ユニット(520)は、前記第1のクロスオーバー周波数(570)、前記第2のクロスオーバー周波数(570)及び前記出力クロスオーバー周波数(570)の最小値を下回る周波数に対応する前記出力スペクトルデータを、前記第1及び第2のスペクトルデータに基づいてスペクトル領域において生成するように構成されており、
    前記処理ユニット(520)は、前記第1のクロスオーバー周波数(570)、前記第2のクロスオーバー周波数(570)及び前記出力クロスオーバー周波数(570)の最大値を上回る周波数に対応する前記出力SBRデータを、前記第1及び第2のSBRデータに基づいてSBR領域において処理するようにさらに構成されており、
    さらに当該装置(500)は、前記最小値及び前記最大値の間の周波数領域について、前記第1及び第2のフレームの少なくとも一方からの少なくとも1つのスペクトル値を、該当のフレームの前記SBRデータに基づいて推定し、前記出力スペクトルデータの該当のスペクトル値を、少なくとも前記推定したスペクトル値に基づいて、該推定したスペクトル値をスペクトル領域において処理することによって生成するように構成されている装置(500)。
  4. 前記処理ユニットは、前記少なくとも1つのスペクトル値を、前記SBRデータ及び前記それぞれのフレームの前記それぞれのスペクトルの前記下方部分の前記スペクトルデータに基づいてスペクトル成分について少なくとも1つのスペクトル値を再現することに基づいて、推定するように構成されている請求項3に記載の装置。
  5. 前記処理ユニット(520)は、前記出力クロスオーバー周波数(570)を前記第1のクロスオーバー周波数又は前記第2のクロスオーバー周波数になるように決定するように構成されている請求項1から4のいずれか一項に記載の装置(500)。
  6. 前記処理ユニット(520)は、前記出力クロスオーバー周波数を第1及び第2のクロスオーバー周波数のうちの低い方のクロスオーバー周波数へと設定し、又は前記出力クロスオーバー周波数を前記第1及び第2のクロスオーバー周波数のうちの高い方へと設定するように構成されている請求項1から5のいずれか一項に記載の装置(500)。
  7. 前記処理ユニット(520)は、前記出力時間/周波数格子分解能を、前記第1又は第2のフレームの前記時間/周波数格子分解能によって示される過渡の過渡位置に適合するように決定するように構成されている請求項1から6のいずれか一項に記載の装置(500)。
  8. 前記処理ユニット(520)は、前記第1及び第2のフレームの前記時間/周波数格子分解能が2つ以上の過渡の存在を示している場合に、前記時間/周波数格子分解能を、前記第1及び第2のフレームの前記時間/周波数格子分解能によって示される早い方の過渡に適合するように設定するように構成されている請求項7に記載の装置(500)。
  9. 前記処理ユニット(520)は、SBR周波数領域又はSBR領域における線形結合に基づいて、スペクトルデータ又はSBRデータを出力するように構成されている請求項1から8のいずれか一項に記載の装置(500)。
  10. 前記処理ユニット(520)は、前記第1及び第2のフレームの正弦曲線関連のSBRデータの線形結合に基づいて、正弦曲線関連のSBRデータを含む前記出力SBRデータを生成するように構成されている請求項1から9のいずれか一項に記載の装置(500)。
  11. 前記処理ユニット(520)は、前記第1及び第2のフレームのノイズ関連のSBRデータの線形結合に基づいて、ノイズ関連のSBRデータを含む前記出力SBRデータを生成するように構成されている請求項1から10のいずれか一項に記載の装置(500)。
  12. 前記処理ユニット(520)は、前記第1及び第2のフレームのそれぞれのSBRデータの関連性の心理音響的推定に基づく正弦曲線関連又はノイズ関連のSBRデータを含むように構成されている請求項10又は11に記載の装置(500)。
  13. 前記処理ユニット(520)は、平滑化フィルター処理に基づいて前記出力SBRデータを生成するように構成されている請求項1から12のいずれか一項に記載の装置(500)。
  14. 複数の入力データストリーム(510)を処理するように構成されており、該複数の入力データストリームが、3つ以上の入力データストリームを含んでおり、該複数の入力データストリームが、前記第1及び第2の入力データストリーム(510−1、510−2)を含んでいる請求項1から13のいずれか一項に記載の装置(500)。
  15. 第1の入力データストリーム(510−1)の第1のフレーム(540−1)と第2の入力データストリーム(510−1)の第2のフレーム(540−2)とをミキシングして出力データストリーム(530)の出力フレーム(550)を得るための方法であって、前記第1のフレームが、第1のオーディオ信号のスペクトルについて第1のクロスオーバー周波数(570)までの下方部分(580)を記述する第1のスペクトルデータと、前記スペクトルについて前記第1のクロスオーバー周波数から始まる上方部分(590)を記述する第1のスペクトル帯域複製(SBR)データとを含んでおり、前記第2のフレームが、第2のオーディオ信号の第2のスペクトルについて第2のクロスオーバー周波数までの下方部分を記述する第2のスペクトルデータと、第2のスペクトルについて前記第2のクロスオーバー周波数から始まる上方部分を記述する第2のSBRデータとを含んでおり、前記第1及び第2のSBRデータが、前記それぞれのスペクトルの前記それぞれの上方部分を、時間/周波数格子分解能におけるエネルギー関連の値によって記述しており、前記第1のクロスオーバー周波数が、前記第2のクロスオーバー周波数とは異なっており、
    当該方法は、
    出力スペクトルの出力クロスオーバー周波数までの下方部分を記述する出力スペクトルデータを含むとともに、該出力スペクトルについて前記出力クロスオーバー周波数よりも上の上方部分を、出力時間/周波数格子分解能におけるエネルギー関連の値によって記述する出力SBRデータをさらに含む前記出力フレームを生成するステップ、
    前記第1のクロスオーバー周波数、前記第2のクロスオーバー周波数及び出力クロスオーバー周波数の最小値を下回る周波数に対応するスペクトルデータを、前記第1及び第2のスペクトルデータに基づいてスペクトル領域において生成するステップ、
    前記第1のクロスオーバー周波数、前記第2のクロスオーバー周波数及び前記出力クロスオーバー周波数の最大値を上回る周波数に対応する出力SBRデータを、前記第1及び第2のSBRデータに基づいてSBR領域において生成するステップ、並びに
    前記最小値及び前記最大値の間の周波数領域の周波数について、第1及び第2のスペクトルデータの少なくとも一方から少なくとも1つのSBR値を推定し、前記出力SBRデータの該当のSBR値を少なくとも前記推定したSBR値に基づいて生成するステップ、又は
    前記最小値及び前記最大値の間の周波数領域の周波数について、該当のフレームの前記SBRデータに基づいて前記第1及び第2のフレームの少なくとも一方からの少なくとも1つのスペクトル値を推定し、前記出力スペクトルデータのスペクトル値を、少なくとも前記推定したスペクトル値に基づいて、該推定したスペクトル値をスペクトル領域において処理することによって生成するステップを含んでいる方法。
  16. プロセッサー上で動作するときに、第1の入力データストリームの第1のフレームと第2の入力データストリームの第2のフレームとのミキシングのための請求項15に記載の方法を実行するプログラム。
JP2010549055A 2008-03-04 2009-03-04 複数の入力データストリームのミキシングのための装置 Active JP5302980B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US3359008P 2008-03-04 2008-03-04
US61/033,590 2008-03-04
PCT/EP2009/001533 WO2009109373A2 (en) 2008-03-04 2009-03-04 Apparatus for mixing a plurality of input data streams

Publications (2)

Publication Number Publication Date
JP2011513780A true JP2011513780A (ja) 2011-04-28
JP5302980B2 JP5302980B2 (ja) 2013-10-02

Family

ID=41053617

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2010549056A Active JP5536674B2 (ja) 2008-03-04 2009-03-04 入力データストリームのミキシング及びそこからの出力データストリームの生成
JP2010549055A Active JP5302980B2 (ja) 2008-03-04 2009-03-04 複数の入力データストリームのミキシングのための装置
JP2013095511A Active JP5654632B2 (ja) 2008-03-04 2013-04-30 入力データストリームのミキシング及びそこからの出力データストリームの生成

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2010549056A Active JP5536674B2 (ja) 2008-03-04 2009-03-04 入力データストリームのミキシング及びそこからの出力データストリームの生成

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2013095511A Active JP5654632B2 (ja) 2008-03-04 2013-04-30 入力データストリームのミキシング及びそこからの出力データストリームの生成

Country Status (15)

Country Link
US (2) US8290783B2 (ja)
EP (3) EP2250641B1 (ja)
JP (3) JP5536674B2 (ja)
KR (3) KR101178114B1 (ja)
CN (3) CN102016985B (ja)
AT (1) ATE528747T1 (ja)
AU (2) AU2009221443B2 (ja)
BR (2) BRPI0906079B1 (ja)
CA (2) CA2716926C (ja)
ES (3) ES2753899T3 (ja)
HK (1) HK1149838A1 (ja)
MX (1) MX2010009666A (ja)
PL (1) PL2250641T3 (ja)
RU (3) RU2488896C2 (ja)
WO (2) WO2009109374A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013527727A (ja) * 2010-06-02 2013-06-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音響処理システム及び方法
WO2014068817A1 (ja) * 2012-10-31 2014-05-08 パナソニック株式会社 オーディオ信号符号化装置及びオーディオ信号復号装置

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101479011B1 (ko) * 2008-12-17 2015-01-13 삼성전자주식회사 다중 대역 스케쥴링 방법 및 이를 이용한 방송 서비스 시스템
WO2010070770A1 (ja) * 2008-12-19 2010-06-24 富士通株式会社 音声帯域拡張装置及び音声帯域拡張方法
WO2010125802A1 (ja) * 2009-04-30 2010-11-04 パナソニック株式会社 デジタル音声通信制御装置及び方法
JP5645951B2 (ja) * 2009-11-20 2014-12-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
BR112012014856B1 (pt) 2009-12-16 2022-10-18 Dolby International Ab Método para fundir conjuntos de fonte de parâmetros de sbr a conjuntos-alvo de parâmetros de sbr, meio de armazenamento não transitório e unidade de fusão de parâmetros de sbr
US20110197740A1 (en) * 2010-02-16 2011-08-18 Chang Donald C D Novel Karaoke and Multi-Channel Data Recording / Transmission Techniques via Wavefront Multiplexing and Demultiplexing
TR201901336T4 (tr) 2010-04-09 2019-02-21 Dolby Int Ab Mdct-tabanlı karmaşık tahmin stereo kodlama.
ES2953084T3 (es) * 2010-04-13 2023-11-08 Fraunhofer Ges Forschung Decodificador de audio para procesar audio estéreo usando una dirección de predicción variable
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
CN102568481B (zh) * 2010-12-21 2014-11-26 富士通株式会社 用于实现aqmf处理的方法、和用于实现sqmf处理的方法
AR085794A1 (es) 2011-02-14 2013-10-30 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral
AU2012217158B2 (en) * 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
TR201903388T4 (tr) 2011-02-14 2019-04-22 Fraunhofer Ges Forschung Bir ses sinyalinin parçalarının darbe konumlarının şifrelenmesi ve çözülmesi.
WO2012110448A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
SG192746A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for processing a decoded audio signal in a spectral domain
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
US8891775B2 (en) 2011-05-09 2014-11-18 Dolby International Ab Method and encoder for processing a digital stereo audio signal
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
CN103918029B (zh) * 2011-11-11 2016-01-20 杜比国际公司 使用过采样谱带复制的上采样
US8615394B1 (en) * 2012-01-27 2013-12-24 Audience, Inc. Restoration of noise-reduced speech
EP2828855B1 (en) 2012-03-23 2016-04-27 Dolby Laboratories Licensing Corporation Determining a harmonicity measure for voice processing
CN103325384A (zh) 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
WO2013142650A1 (en) 2012-03-23 2013-09-26 Dolby International Ab Enabling sampling rate diversity in a voice communication system
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
KR101998712B1 (ko) 2013-03-25 2019-10-02 삼성디스플레이 주식회사 표시장치, 표시장치를 위한 데이터 처리 장치 및 그 방법
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
EP2838086A1 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
US9553601B2 (en) * 2013-08-21 2017-01-24 Keysight Technologies, Inc. Conversion of analog signal into multiple time-domain data streams corresponding to different portions of frequency spectrum and recombination of those streams into single-time domain stream
BR112016004299B1 (pt) * 2013-08-28 2022-05-17 Dolby Laboratories Licensing Corporation Método, aparelho e meio de armazenamento legível por computador para melhora de fala codificada paramétrica e codificada com forma de onda híbrida
US9866986B2 (en) 2014-01-24 2018-01-09 Sony Corporation Audio speaker system with virtual music performance
JP6224850B2 (ja) 2014-02-28 2017-11-01 ドルビー ラボラトリーズ ライセンシング コーポレイション 会議における変化盲を使った知覚的連続性
JP6243770B2 (ja) * 2014-03-25 2017-12-06 日本放送協会 チャンネル数変換装置
WO2016040885A1 (en) 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
US10015006B2 (en) 2014-11-05 2018-07-03 Georgia Tech Research Corporation Systems and methods for measuring side-channel signals for instruction-level events
US9668048B2 (en) 2015-01-30 2017-05-30 Knowles Electronics, Llc Contextual switching of microphones
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
CN104735512A (zh) * 2015-03-24 2015-06-24 无锡天脉聚源传媒科技有限公司 一种同步音频数据的方法、设备及系统
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
CN105261373B (zh) * 2015-09-16 2019-01-08 深圳广晟信源技术有限公司 用于带宽扩展编码的自适应栅格构造方法和装置
WO2017064264A1 (en) * 2015-10-15 2017-04-20 Huawei Technologies Co., Ltd. Method and appratus for sinusoidal encoding and decoding
MX2018008886A (es) * 2016-01-22 2018-11-09 Fraunhofer Ges Zur Foerderung Der Angewandten Forscng E V Aparato y metodo para estereo mdct m/s con ild global con decision medio/lado mejorada.
US9826332B2 (en) * 2016-02-09 2017-11-21 Sony Corporation Centralized wireless speaker system
US9924291B2 (en) 2016-02-16 2018-03-20 Sony Corporation Distributed wireless speaker system
US9826330B2 (en) 2016-03-14 2017-11-21 Sony Corporation Gimbal-mounted linear ultrasonic speaker assembly
US10824629B2 (en) 2016-04-01 2020-11-03 Wavefront, Inc. Query implementation using synthetic time series
US10896179B2 (en) * 2016-04-01 2021-01-19 Wavefront, Inc. High fidelity combination of data
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
EP3246923A1 (en) * 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a multichannel audio signal
US9794724B1 (en) 2016-07-20 2017-10-17 Sony Corporation Ultrasonic speaker assembly using variable carrier frequency to establish third dimension sound locating
US9924286B1 (en) 2016-10-20 2018-03-20 Sony Corporation Networked speaker system with LED-based wireless communication and personal identifier
US9854362B1 (en) 2016-10-20 2017-12-26 Sony Corporation Networked speaker system with LED-based wireless communication and object detection
US10075791B2 (en) 2016-10-20 2018-09-11 Sony Corporation Networked speaker system with LED-based wireless communication and room mapping
US20180302454A1 (en) * 2017-04-05 2018-10-18 Interlock Concepts Inc. Audio visual integration device
IT201700040732A1 (it) * 2017-04-12 2018-10-12 Inst Rundfunktechnik Gmbh Verfahren und vorrichtung zum mischen von n informationssignalen
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
CN109559736B (zh) * 2018-12-05 2022-03-08 中国计量大学 一种基于对抗网络的电影演员自动配音方法
US11283853B2 (en) * 2019-04-19 2022-03-22 EMC IP Holding Company LLC Generating a data stream with configurable commonality
US11443737B2 (en) 2020-01-14 2022-09-13 Sony Corporation Audio video translation into multiple languages for respective listeners
CN111402907B (zh) * 2020-03-13 2023-04-18 大连理工大学 一种基于g.722.1的多描述语音编码方法
US11662975B2 (en) * 2020-10-06 2023-05-30 Tencent America LLC Method and apparatus for teleconference
CN113468656B (zh) * 2021-05-25 2023-04-14 北京临近空间飞行器系统工程研究所 基于pns计算流场的高速边界层转捩快速预示方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007514962A (ja) * 2003-10-30 2007-06-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号のエンコードまたはデコード

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK0513860T3 (da) * 1989-01-27 1997-08-18 Dolby Lab Licensing Corp Adaptiv biallokering for audiokoder og -dekoder
US5463424A (en) 1993-08-03 1995-10-31 Dolby Laboratories Licensing Corporation Multi-channel transmitter/receiver system providing matrix-decoding compatible signals
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
JP3173482B2 (ja) * 1998-11-16 2001-06-04 日本ビクター株式会社 記録媒体、及びそれに記録された音声データの音声復号化装置
JP3344574B2 (ja) * 1998-11-16 2002-11-11 日本ビクター株式会社 記録媒体、音声復号装置
JP3344575B2 (ja) * 1998-11-16 2002-11-11 日本ビクター株式会社 記録媒体、音声復号装置
JP3344572B2 (ja) * 1998-11-16 2002-11-11 日本ビクター株式会社 記録媒体、音声復号装置
JP3387084B2 (ja) * 1998-11-16 2003-03-17 日本ビクター株式会社 記録媒体、音声復号装置
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US20030028386A1 (en) 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
EP1423847B1 (en) * 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
BR0304231A (pt) * 2002-04-10 2004-07-27 Koninkl Philips Electronics Nv Métodos para codificação de um sinal de canais múltiplos, método e disposição para decodificação de informação de sinal de canais múltiplos, sinal de dados incluindo informação de sinal de canais múltiplos, meio legìvel por computador, e, dispositivo para comunicação de um sinal de canais múltiplos
US7039204B2 (en) * 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
RU2325046C2 (ru) * 2002-07-16 2008-05-20 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
US8311809B2 (en) * 2003-04-17 2012-11-13 Koninklijke Philips Electronics N.V. Converting decoded sub-band signal into a stereo signal
US7349436B2 (en) 2003-09-30 2008-03-25 Intel Corporation Systems and methods for high-throughput wideband wireless local area network communications
JP2007524124A (ja) * 2004-02-16 2007-08-23 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ トランスコーダ及びそのための符号変換方法
US8423372B2 (en) 2004-08-26 2013-04-16 Sisvel International S.A. Processing of encoded signals
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
JP2006197391A (ja) * 2005-01-14 2006-07-27 Toshiba Corp 音声ミクシング処理装置及び音声ミクシング処理方法
KR100818268B1 (ko) * 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
KR100791846B1 (ko) * 2006-06-21 2008-01-07 주식회사 대우일렉트로닉스 오디오 복호기
JP5134623B2 (ja) * 2006-07-07 2013-01-30 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 複数のパラメータ的に符号化された音源を合成するための概念
US8036903B2 (en) 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
JP2008219549A (ja) * 2007-03-06 2008-09-18 Nec Corp 信号処理の方法、装置、及びプログラム
US7983916B2 (en) * 2007-07-03 2011-07-19 General Motors Llc Sampling rate independent speech recognition
WO2009051401A2 (en) * 2007-10-15 2009-04-23 Lg Electronics Inc. A method and an apparatus for processing a signal
JP5086366B2 (ja) * 2007-10-26 2012-11-28 パナソニック株式会社 会議端末装置、中継装置、および会議システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007514962A (ja) * 2003-10-30 2007-06-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号のエンコードまたはデコード

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013527727A (ja) * 2010-06-02 2013-06-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音響処理システム及び方法
WO2014068817A1 (ja) * 2012-10-31 2014-05-08 パナソニック株式会社 オーディオ信号符号化装置及びオーディオ信号復号装置

Also Published As

Publication number Publication date
WO2009109374A2 (en) 2009-09-11
RU2562395C2 (ru) 2015-09-10
JP2013190803A (ja) 2013-09-26
ES2753899T3 (es) 2020-04-14
CA2717196A1 (en) 2009-09-11
BRPI0906079B1 (pt) 2020-12-29
CN102016985A (zh) 2011-04-13
BRPI0906079A2 (pt) 2015-10-06
CN102016983B (zh) 2013-08-14
KR20120039748A (ko) 2012-04-25
WO2009109374A3 (en) 2010-04-01
CN102016985B (zh) 2014-04-02
JP2011518342A (ja) 2011-06-23
CN102016983A (zh) 2011-04-13
PL2250641T3 (pl) 2012-03-30
RU2012128313A (ru) 2014-01-10
HK1149838A1 (en) 2011-10-14
ES2374496T3 (es) 2012-02-17
WO2009109373A3 (en) 2010-03-04
EP2378518B1 (en) 2018-01-24
KR20100125382A (ko) 2010-11-30
US20090228285A1 (en) 2009-09-10
ES2665766T3 (es) 2018-04-27
KR101178114B1 (ko) 2012-08-30
ATE528747T1 (de) 2011-10-15
US8290783B2 (en) 2012-10-16
EP2378518A2 (en) 2011-10-19
EP2250641A2 (en) 2010-11-17
CA2717196C (en) 2016-08-16
RU2488896C2 (ru) 2013-07-27
AU2009221443A1 (en) 2009-09-11
EP2250641B1 (en) 2011-10-12
KR20100125377A (ko) 2010-11-30
RU2010136360A (ru) 2012-03-10
JP5654632B2 (ja) 2015-01-14
CA2716926A1 (en) 2009-09-11
BRPI0906078A2 (pt) 2015-07-07
KR101253278B1 (ko) 2013-04-11
CA2716926C (en) 2014-08-26
CN102789782B (zh) 2015-10-14
JP5536674B2 (ja) 2014-07-02
JP5302980B2 (ja) 2013-10-02
US20090226010A1 (en) 2009-09-10
CN102789782A (zh) 2012-11-21
AU2009221444B2 (en) 2012-06-14
AU2009221443B2 (en) 2012-01-12
EP2260487B1 (en) 2019-08-21
EP2378518A3 (en) 2012-11-21
KR101192241B1 (ko) 2012-10-17
EP2260487A2 (en) 2010-12-15
RU2010136357A (ru) 2012-03-10
BRPI0906078B1 (pt) 2020-12-29
MX2010009666A (es) 2010-10-15
WO2009109373A2 (en) 2009-09-11
US8116486B2 (en) 2012-02-14
RU2473140C2 (ru) 2013-01-20
AU2009221444A1 (en) 2009-09-11

Similar Documents

Publication Publication Date Title
JP5302980B2 (ja) 複数の入力データストリームのミキシングのための装置
KR102230727B1 (ko) 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
US7573912B2 (en) Near-transparent or transparent multi-channel encoder/decoder scheme
JP2008517339A (ja) 空間音声パラメータの効率的符号化のためのエネルギー対応量子化
WO2014053537A1 (en) Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
CA2821325C (en) Mixing of input data streams and generation of an output data stream therefrom
AU2012202581B2 (en) Mixing of input data streams and generation of an output data stream therefrom
Gbur et al. Realtime implementation of an ISO/MPEG layer 3 encoder on Pentium PCs

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130118

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130621

R150 Certificate of patent or registration of utility model

Ref document number: 5302980

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250