JP5536674B2 - 入力データストリームのミキシング及びそこからの出力データストリームの生成 - Google Patents

入力データストリームのミキシング及びそこからの出力データストリームの生成 Download PDF

Info

Publication number
JP5536674B2
JP5536674B2 JP2010549056A JP2010549056A JP5536674B2 JP 5536674 B2 JP5536674 B2 JP 5536674B2 JP 2010549056 A JP2010549056 A JP 2010549056A JP 2010549056 A JP2010549056 A JP 2010549056A JP 5536674 B2 JP5536674 B2 JP 5536674B2
Authority
JP
Japan
Prior art keywords
input data
data stream
frame
spectral
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010549056A
Other languages
English (en)
Other versions
JP2011518342A (ja
Inventor
マルクス・シュネル
マンフレッド・ルツキー
マルクス・ムルツラス
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2011518342A publication Critical patent/JP2011518342A/ja
Application granted granted Critical
Publication of JP5536674B2 publication Critical patent/JP5536674B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding

Description

本発明による実施の形態は、出力データストリームを得るための複数の入力データストリームのミキシング、ならびに第1及び第2の入力データストリームをミキシングすることによる出力データストリームの生成に関する。出力データストリームを、例えばビデオ会議システム及びテレビ会議システムなどの会議システムの分野において使用することができる。
多くの用途において、2つ以上のオーディオ信号が、複数のオーディオ信号から1つの信号又は少なくともより少ない数の信号が生成されるような方法で処理される。これは、多くの場合、「ミキシング」と称される。したがって、オーディオ信号のミキシングの処理を、いくつかの個別のオーディオ信号を結果としての信号へと束ねるものと称することができる。このプロセスは、例えば、コンパクトディスクのために楽曲を生成する場合に使用される(「合成録音」)。この場合、典型的には、種々の楽器からの種々のオーディオ信号が、声楽演奏(歌唱)を含む1つ以上のオーディオ信号と一緒に歌曲へとミックスされる。
ミキシングが重要な役割を果たすさらなる応用の分野は、ビデオ会議システム及びテレビ会議システムである。そのようなシステムは、典型的には、登録済みの参加者から到来するビデオ及びオーディオデータを適切にミックスし、得られた信号を各々の参加者へ返送する中央サーバを使用することによって、何人かの空間的に離れた会議の参加者を接続することができる。この得られた信号又は出力信号は他のすべての会議参加者のオーディオ信号を含んでいる。
現代のデジタル会議システムにおいては、いくつかの部分的に相反する目標及び態様が互いに競合する。さまざまな種類のオーディオ信号(例えば、一般的なオーディオ信号及び音楽信号と比べたスピーチ信号)について、再生されるオーディオ信号の品質、ならびにいくつかのコーディング及びデコーディングの技法の適用可能性及び有用可能性を考慮しなければならない。会議システムの設計及び実施の際に考慮が必要であると考えられるさらなる局面は、利用可能な帯域幅及び遅延の問題である。
例えば、品質と帯域幅とをバランスさせるとき、多くの場合に妥協は避けられない。しかしながら、AAC−ELD技法(AAC=アドバンスト・オーディオ・コーディング;ELD=エンハンスト・ロー・ディレイ)などの最新のコーディング及びデコーディング技法を実施することによって、品質に関する改善を達成することが可能である。しかしながら、達成できる品質は、そのような最新の技法を使用するシステムにおいて、より基本的な問題及び見地による悪影響を受ける。
達成すべき課題を1つだけ挙げると、すべてのデジタル信号伝送は、量子化が必要であるという問題に直面する。そのような量子化は、少なくとも原理的には、ノイズのないアナログシステムにおいて理想的な環境のもとでは回避することができる。量子化プロセスによって、或る量の量子化ノイズが処理対象の信号へ持ち込まれることは避けられない。生じうる可聴なひずみに対処するために、量子化のレベル数を増やし、すなわち量子化の分解能を高めることが考えられる。しかしながら、そのようにすることで、伝送すべき信号値の数が多くなり、伝送すべきデータの量が多くなる。換言すると、量子化ノイズによって持ち込まれる可能性があるひずみを少なくすることによって品質を高めることは、特定の環境下では、伝送されるデータの量を増加させ、伝送システムに課された帯域幅の制約に最終的に違反する可能性がある。
会議システムの場合には、典型的に2つ以上の入力オーディオ信号を処理しなければならないという事実によって、品質、利用可能な帯域幅及び他のパラメータの間のトレードオフを改善するという課題がさらに複雑になる可能性がある。すなわち、会議システムによって生成される出力信号又は得られる信号を生成するときに、2つ以上のオーディオ信号によって課される境界条件を考慮しなければならない可能性がある。
特に、会議の参加者間の直接的なやり取りを、参加者が容認できないと考えるかもしれない実質的な遅延を持ち込むことなく可能にするために、遅延が充分に少ない会議システムを実現するというさらなる課題に照らすと、課題はさらに大きくなる。
遅延の少ない会議システムの実現においては、遅延の原因が、典型的には、それらの数に関して限定され、これが、他方では、オーディオ信号のミキシングをそれぞれの信号の重畳又は加算によって達成できる時間領域の外部でのデータの処理という課題につながりうる。
一般的に言うと、リアルタイムでのミキシングのための諸経費の処理をこなし、必要なハードウェアの量を少なくし、ハードウェア及び伝送の諸経費に関するコストをオーディオの品質を損なうことなく妥当に保つためには、会議システムに適する品質、利用可能な帯域幅及び他のパラメータの間のトレードオフを注意深く選択することが好ましい。
伝送されるデータの量を少なくするために、最新のオーディオコーデックは、それぞれのオーディオ信号のスペクトル成分に関するスペクトル情報を記述するために、高度に洗練されたツールを使用することが多い。心理音響的現象及び調査結果に基づくそのようなツールを利用することによって、伝送データから再現されるオーディオ信号の品質、計算の複雑さ、ビットレート、及びさらなるパラメータなど、部分的に矛盾するパラメータ及び境界条件の間のトレードオフの改善を達成することができる。
そのようなツールの例は、いくつか挙げるならば、例えば聴覚雑音置換(PNS)、時間雑音整形(TNS)、及びスペクトル帯域複製(SBR)である。これらの技法はすべて、スペクトル情報の少なくとも一部分をより少数のビットで記述することで、これらのツールを使用しない場合のデータストリームと比べて、より多くのビットをスペクトルのうちのスペクトル的に重要な部分へと割り当てることができるようにすることに基づいている。結果として、このようなツールを使用することによって、ビットレートをそのままにしつつ、知覚される品質レベルを改善することができる。当然ながら、別のトレードオフも選択可能であり、すなわち全体としてのオーディオの印象を維持しながら、オーディオデータのフレーム毎の伝送ビット数を減らすこともできる。これら2つの極端の間にある種々のトレードオフも、同様に良好に実現することができる。
これらのツールを、電気通信の用途においても使用することができる。しかしながら、そのような通信の状況に3名以上の参加者が存在する場合、3名以上の参加者の2つ以上のビットストリームをミキシングするための会議システムを使用することがきわめて好都合となりうる。このような状況は、純粋にオーディオベースの状況又は電気通信会議の状況とビデオ会議の状況との両方において生じる。
周波数領域で動作する会議システムが、例えばUS2008/0097764A1に記載されており、そこでは実際のミキシングを周波数領域で実行することで、到来するオーディオ信号の時間領域への再変換を省略している。
しかしながら、そこに記載されている会議システムは、少なくとも1つのスペクトル成分のスペクトル情報をより凝縮された様相で記述できるようにする上述のようなツールの可能性を考慮していない。結果として、そのような会議システムは、会議システムへもたらされるオーディオ信号を少なくともそれぞれのオーディオ信号が周波数領域で存在する程度にまで再現するためのさらなる変換工程を必要とする。さらに、得られるミックス後のオーディオ信号を、上述の追加のツールに基づいて再変換する必要がある。しかしながら、これらの再変換及び変換の工程は、複雑なアルゴリズムの適用を必要とし、結果として計算の複雑さが増す可能性があり、例えば携帯のエネルギーに関して厳しい用途において、エネルギー消費の増大につながり、動作時間が限られる可能性がある。
したがって、本発明による実施の形態が解決しようとする課題は、例えば上述のような会議システムにおいて、入力データストリームからの出力データストリームを生成する概念を提供することであり、そのような概念は、品質、利用可能な帯域幅及び他のパラメータの間のトレードオフの改善を可能にし、又は必要な計算の複雑さの軽減を可能にするものである。
この目的は、請求項に記載の装置、請求項15に記載の方法、又は請求項16に記載のコンピュータープログラムによって達成される。
本発明による実施の形態は、第1の入力データストリームと第2の入力データストリームとをミキシングして出力データストリームを生成する際に実行される作業の複雑さを、それぞれの入力データストリームのペイロードデータに関連付けられた制御値(ペイロードデータが、それぞれのオーディオ信号の対応するスペクトル情報又はスペクトル領域の少なくとも一部をどのように表現しているかを知らせている。)を考慮することによって、軽減できるという発見に基づいている。2つの入力データストリームの制御値が等しい場合には、出力データストリームの該当のフレームにおけるスペクトル領域の方法についての新たな決定を省略でき、代わりに、出力ストリームの生成は、入力データストリームのエンコーダによってすでに調和的に決定された決定に頼ることができ、すなわち入力データストリームからの制御値を採用することができる。制御値によって示される方法に応じて、それぞれのペイロードデータを、時間/スペクトルサンプルにつき1つのスペクトル値を有する通常又は平易な方法などといったスペクトル領域の別の表現方法へと再変換することを回避することさえ可能であり、そのようにすることが好ましい。後者の場合、出力データストリームの対応するペイロードデータと第1及び第2の入力データストリームの制御値に等しい制御値とをもたらすためのペイロードデータの直接的な処理を、PNS又はさらに詳しく後述される同様のオーディオの特徴によるなど、「スペクトル領域の表現方法を変更しない」ことを意味する「指向性」によって生成することができる。
本発明の実施の形態による態様においては、制御値は少なくとも1つのスペクトル成分のみに関係する。さらに、本発明による実施の形態においては、そのような作業を、第1の入力データストリーム及び第2の入力データストリームのフレームが、2つの入力データストリームのフレームの適切な並びに関する共通の時間インデックスに対応する場合に、実行することができる。
第1及び第2のデータストリームの制御値が等しくない場合、本発明による実施の形態は、第1及び第2の入力データストリームの一方の1つのフレームのペイロードデータを変換し、他方の入力データストリームのフレームのペイロードデータの表現を得る工程を実行することができる。次いで、出力データストリームのペイロードデータを、変換のペイロードデータ及び他の2つのストリームのペイロードデータに基づいて生成することができる。いくつかの場合には、一方の入力データストリームのフレームのペイロードデータを他方の入力データストリームのフレームのペイロードデータの表現へと変換する本発明による実施の形態を、それぞれのオーディオ信号を平易な周波数領域へと再変換することなく直接的に実行することができる。
いくつかの実施の形態によれば、複数の入力データストリームをミキシングする際に、比較に基づいて入力データストリームを決定し、決定された入力データストリームからのスペクトル情報を少なくとも部分的に出力データストリームへコピーすることによって、上述のパラメータ及び目標の間のトレードオフの改善が達成できるという発見がさらに利用される。1つの入力データストリームから少なくとも部分的にスペクトル情報をコピーすることによって、再量子化を省略することができ、したがって再量子化に関係する再量子化ノイズをなくすことができる。支配的な入力ストリームを決定することができないスペクトル情報の場合には、周波数領域における対応するスペクトル情報のミキシングを、一実施の形態によって実行することができる。
比較は、例えば、心理音響モデルに基づくことができる。さらに、比較は、少なくとも2つの異なる入力データストリームからの共通のスペクトル成分(例えば、周波数又は周波数帯域)に対応するスペクトル情報に関することができる。したがって、チャネル間の比較であってよい。したがって、比較が心理音響モデルに基づく場合に、比較を、チャネル間マスキングを考慮するものと表現することができる。
本発明による実施の形態を、以下の図面を参照しつつ、以下で説明する。
会議システムのブロック図を示している。 一般的なオーディオコーデックに基づく会議システムのブロック図を示している。 ビットストリームミキシング技術を使用して周波数領域で動作する会議システムのブロック図を示している。 複数のフレームを含んでいるデータストリームの概略図を示している。 スペクトル成分ならびにスペクトルデータ又は情報の異なる形態を示している。 複数の入力データストリームをミキシングするための参考例による装置をさらに詳しく示している。 図6の装置の動作の態様を示している。 会議システムの文脈において、複数の入力データストリームをミキシングするためのさらなる参考例による装置のブロック図を示している。 出力データストリームを生成するための本発明の実施の形態による装置の簡単なブロック図を示している。 出力データストリームを生成するための本発明の実施の形態による装置のさらに詳細なブロック図を示している。 会議システムの文脈において、複数の入力データストリームから出力データストリームを生成するための本発明のさらなる実施の形態による装置のブロック図を示している。 PNSの実施例について、本発明の実施の形態による出力データストリーム生成装置の動作を示している。 SBRの実施例について、本発明の実施の形態による出力データストリーム生成装置の動作を示している。 M/Sの実施例について、本発明の実施の形態による出力データストリーム生成装置の動作を示している。
図4から12Cに関して、本発明による種々の実施の形態を、さらに詳しく説明する。しかしながら、これらの実施の形態をさらに詳しく説明する前に、最初に図1から3に関して、会議システムの枠組みにおいて重要になるであろう課題及び要望に照らして、簡単な序論を提示する。
図1は、多地点制御ユニット(MCU)とも称することができる会議システム100のブロック図を示している。その機能に関する説明から明らかになるとおり、図1に示されているような会議システム100は、時間領域において機能するシステムである。
図1に示されているような会議システム100は、適切な数の入力110−1、110−2、110−3、・・・(図1には、そのうちの3つだけが示されている。)を介して複数の入力データストリームを受け取るように構成されている。入力110の各々は、それぞれのデコーダ120へと接続されている。より正確には、第1の入力データストリームのための入力110−1が第1のデコーダ120−1へ接続され、第2の入力110−2が第2のデコーダ120−2へ接続され、第3の入力110−3が第3のデコーダ120−3へ接続されている。
さらに、会議システム100は、適切な数の加算器130−1、130−2、130−3、・・・(図1には、やはりそのうちの3つだけが示されている。)を備えている。各々の加算器が、会議システム100の入力110のうちの1つに組み合わせられている。例えば、第1の加算器130−1が、第1の入力110−1及び対応するデコーダ120−1に組み合わせられている。
各々の加算器130は入力110が接続されているデコーダ120を除くすべてのデコーダ120の出力へ接続されている。換言すると、第1の加算器130−1は第1のデコーダ120−1を除くすべてのデコーダ120へと接続されている。したがって、第2の加算器130−2は第2のデコーダ120−2を除くすべてのデコーダ120へ接続されている。
さらに、各々の加算器130はそれぞれ1つのエンコーダ140へ接続された出力を備えている。すなわち、第1の加算器130−1の出力は第1のエンコーダ140−1へ接続されている。したがって、第2の加算器130−2及び第3の加算器130−3もそれぞれ第2のエンコーダ140−2及び第3のエンコーダ140−3へ接続されている。
次いで、各々のエンコーダ140はそれぞれの出力150へ接続されている。換言すると、例えば第1のエンコーダは、例えば第1の出力150−1へ接続されている。第2のエンコーダ140−2及び第3のエンコーダ140−3もそれぞれ第2の出力150−2及び第3の出力150−3へ接続されている。
図1に示されているような会議システム100の動作をさらに詳しく説明できるよう、図1は第1の参加者の会議端末160をさらに示している。会議端末160は、例えばデジタル電話(例えば、ISDN電話(ISDN=総合デジタル通信網))、ボイスオーバーIPインフラストラクチャーを備えているシステム、又は同様の端末とすることができる。
会議端末160は会議システム100の第1の入力110−1へ接続されたエンコーダ170を備えている。さらに、会議端末160は、会議システム100の第1の出力150−1へ接続されたデコーダ180を備えている。
同様の会議端末160が、さらなる参加者の場所にも存在することができる。それらの会議端末は、単に簡素化のために、図1には示されていない。また、会議システム100と会議端末160は、決して互いに物理的に近くに存在する必要がないことに注意すべきである。会議端末160と会議システム100を、例えばWAN技術(WAN=広域ネットワーク)によってのみ接続することができる異なる場所に配置することができる。
人間であるユーザとのより分かり易い方法でのオーディオ信号の交換を可能にするために、さらに会議端末160は、マイクロホン、増幅器、及びスピーカー又はヘッドホンなど、追加の部品を備えることができ、又はこのような追加の部品へ接続することができる。それらは、単に簡素化のために、図1には示されていない。
すでに示したように、図1に示した会議システム100は、時間領域において機能するシステムである。例えば、第1の参加者がマイクロホン(図1には示されていない)に話しかけるとき、会議端末160のエンコーダ170がそれぞれのオーディオ信号を対応するビットストリームへとエンコードし、このビットストリームを会議システム100の第1の入力110−1へ伝達する。
会議システム100の内部において、ビットストリームが第1のデコーダ120−1によってデコードされ、再び時間領域へ変換される。第1のデコーダ120−1が第2のミキサー130−及び第3のミキサー130−3へ接続されているため、第1の参加者によって生成されたとおりのオーディオ信号は、その再現されたオーディオ信号を第2及び第3の参加者のそれぞれからのさらなる再現オーディオ信号と単純に加えることによって、時間領域においてミックスすることができる。
このことは、第2の参加者及び第3の参加者によってもたらされ、それぞれ第2の入力110−2及び第3の入力110−3によって受信され、第2のデコーダ120−2及び第3のデコーダ120−3によって処理されるオーディオ信号にも当てはまる。次いで、第2の参加者及び第3の参加者のこれらの再現オーディオ信号が第1のミキサー130−1へもたらされ、第1のミキサー130−1は時間領域の合計のオーディオ信号を第1のエンコーダ140−1へもたらす。エンコーダ140−1は、合計のオーディオ信号を再びエンコードしてビットストリームを形成し、このビットストリームを第1の出力150−1において第1の参加者の会議端末160へもたらす。
同様に、第2のエンコーダ140−2及び第3のエンコーダ140−3も、それぞれ第2の加算器130−2及び第3の加算器130−3から受信される時間領域の合計のオーディオ信号をエンコードし、エンコード済みのデータを第2の出力150−2及び第3の出力150−3をそれぞれ介してそれぞれの参加者へと送り返す。
実際のミキシングを実行するために、オーディオ信号が完全にデコードされ、非圧縮の形態で合計される。その後に、クリッピング作用(すなわち、許容される値の範囲の超過)を防止するために、それぞれの出力信号を圧縮することによってレベル調節を任意に実行することができる。クリッピングは、単独のサンプル値が許される値の範囲を過ぎて上昇又は下降し、該当の値が切り落とされる(クリップされる)場合に生じうる。例えばCDの場合に使用されているような16ビットの量子化の場合には、サンプル値ごとに、−32768から32767の間の整数値の範囲が利用可能である。
信号について生じうるオーバーステアリング又はアンダーステアリングに対処するために、圧縮アルゴリズムが使用される。これらのアルゴリズムは、サンプル値を許容可能な値の範囲に保つために、特定のしきい値を超える展開又は特定のしきい値を下回る展開を制限する。
図1に示したような会議システム100などの会議システムにおいて、オーディオデータのコーディングを行う場合に、最も容易に実現できる方法にて非エンコード状態でミキシングを実行するために、いくつかの欠点が容認される。さらに、エンコード後のオーディオ信号のデータレートは、送信される周波数のより狭い範囲へとさらに制限される。なぜならば、ナイキスト−シャノンのサンプリング定理によれば、帯域幅が狭いほど、可能なサンプリング周波数が低くなり、したがって少ないデータしか許されないからである。ナイキスト−シャノンのサンプリング定理によれば、サンプリング周波数が、標本化される信号の帯域幅に依存して決まり、帯域幅の(少なくとも)2倍の大きさでなければならない。
国際電気通信連合(ITU)及びその電気通信標準化部門(ITU−T)が、マルチメディア会議システムのためのいくつかの規格を開発済みである。H.320が、ISDN用の標準の会議プロトコルである。H.323は、パケットベースのネットワーク(TCP/IP)用の標準の会議システムを定めている。H.324は、アナログ電話網及び無線電気通信システムのための会議システムを定めている。
これらの規格においては、信号の送信だけでなく、オーディオ信号のエンコード及び処理も定められている。会議の運営は、1つ以上のサーバ(いわゆるH.231規格による多地点制御ユニット(MCU))によって担当される。多地点制御ユニットは、複数の参加者のビデオ及びオーディオデータの処理及び配布も担当する。
これを達成するために、多地点制御ユニットは、各々の参加者へと、他のすべての参加者のオーディオデータを含んでいるミックス後の出力信号又は得られた信号を送信し、その信号をそれぞれの参加者へもたらす。図1は、会議システム100のブロック図だけでなく、そのような会議の状況における信号の流れも示している。
H.323及びH.320規格の枠組みにおいては、クラスG.7xxのオーディオコーデックがそれぞれの会議システムにおいて機能するように定義されている。規格G.711は、ケーブルでつながれた電話システムにおけるISDN伝送に使用される。8kHzのサンプリング周波数において、G.711規格は、300から3400Hzの間のオーディオ帯域幅をカバーし、8ビットの(量子化)深度において64kbit/sのビットレートを必要とする。このコーディングは、わずか0.125msというきわめて短い遅延しか生じないμ−Law又はA−Lawと呼ばれる単純な対数コーディングによって形成される。
G.722規格は、より広い50から7000Hzのオーディオ帯域幅を16kHzのサンプリング周波数でエンコードする。結果として、このコーデックは、48、56、又は64kbit/sのビットレートのより狭帯域のG.7xxオーディオコーデックと比べ、より良好な品質を、1.5msという遅延で実現する。さらに、より低いビットレートでも同等なスピーチ品質を提供する2つのさらなる発展、すなわちG.722.1及びG.722.2が存在する。G.722.2は、25msの遅延において、6.6kbit/sから23.85kbit/sの間のビットレートの選択を可能にしている。
ボイスオーバーIP通信(VoIP)とも称されるIP電話通信の場合においては、G.729規格が典型的に使用される。このコーデックは、スピーチに最適化されており、後の合成のための分析済みのスピーチパラメータの組をエラー信号とともに送信する。結果として、G.729は、G.711規格と比べた場合に、同等のサンプルレート及びオーディオ帯域幅において約8kbit/sの大幅に良好なコーディングを実現する。しかしながら、より複雑なアルゴリズムゆえ、約15msの遅延が生じる。
欠点として、G.7.xxコーデックは、スピーチのエンコードに最適化されており、狭い周波数帯域幅の他に、スピーチ付きの音楽又は純粋な音楽のコーディング時に大きな問題を示す。
したがって、図1に示したような会議システム100は、スピーチ信号を伝送及び処理する場合には容認できる品質のために使用することができるが、スピーチに最適化された遅延の少ないコーデックを使用した場合、一般的なオーディオ信号を満足には処理できない。
換言すると、例えば音楽を有するオーディオ信号などの一般的なオーディオ信号を処理するために、スピーチ信号のコーディング及びデコーディングのためのコーデックを使用すると、品質に関して満足できる結果はもたらされない。図1に示したような会議システム100の枠組みにおいて、一般的なオーディオ信号をエンコード及びデコードするためのオーディオコーデックを使用することで、品質を改善することが可能である。しかしながら、図2による文脈においてさらに詳しく概説されるように、そのような会議システムにおいて一般的なオーディオコーデックを使用することは、1つだけ挙げるのであれば遅延の増加など、さらなる望ましくない影響につながりかねない。
しかしながら、図2をさらに詳しく説明する前に、本明細書において、それぞれの対象が、或る実施の形態もしくは図において又は複数の実施の形態もしくは図において、2回以上現れる場合に、そのような対象が同じ又は類似の参照符号で指し示されることに注意すべきである。同じ又は類似の参照符号によって指し示された対象は、そのようでないと明示的又は黙示的に示されない限りは、例えばそれらの回路、プログラミング、特徴、又は他のパラメータに関して、同様又は同一の方法で実施することが可能である。したがって、図面のいくつかの実施の形態に現れ、同じ又は類似の参照符号によって指し示されている対象は、同じ仕様、パラメータ、及び特徴を有するように実施することが可能である。当然ながら、例えば、境界条件もしくはパラメータが、図から図へと変化し、又は実施の形態から実施の形態へと変化する場合には、別の符号を使用したりそれに適応した符号を使用したりすることも可能である。
さらに、以下においては、対象のグループ又は種類(個々の対象ではなくて)を指し示すために、集約的な参照符号が使用される。図1の枠組みにおいて、これがすでに行われており、例えば、第1の入力を入力110−1と称し、第2の入力を入力110−2と称し、第3の入力を入力110−3と称する一方で、これらの入力が、集約的な参照符号110のみで述べられている。換言すると、そのようでないと明示的に示されない限りは、集約的な参照符号によって指し示される対象について述べている明細書の部分は、そのような集約的な参照符号に対応する個別の参照符号を有している他の対象にも関係しうる。
これは、同じ又は類似の参照符号で指し示された対象についても当てはまるため、両方の処置が、明細書の短縮ならびに明細書に開示の実施の形態のより明確かつ簡潔な様相での説明に役立つ。
図2は、さらなる会議システム100のブロック図を会議端末160とともに示しており、どちらも図1に示した会議システム及び会議端末に類似している。図2に示した会議システム100も、図1に示した会議システム100と比べて同じように相互接続された入力110、デコーダ120、加算器130、エンコーダ140及び出力150を備えている。図2に示した会議端末160も、やはりエンコーダ170及びデコーダ180を備えている。したがって、図1に示した会議システム100の説明が参照される。
しかしながら、図2に示した会議システム100及び図2に示した会議端末160は、一般的なオーディオコーデック(コーダ−デコーダ)を使用するように構成されている。結果として、各々のエンコーダ140、170が、時間/周波数変換器190を量子化器/コーダー200の手前に接続してなる直列接続を備えている。時間/周波数変換器190は図2では「T/F」としても示されており、量子化器/コーダー200は図2では「Q/C」と標記されている。
各々のデコーダ120、180は、図2では「Q/C-1」と称されているデコーダ/逆量子化器210を、図2では「T/F-1」と称されている周波数/時間変換器220に直列に接続して備えている。単に簡潔さの目的のために、時間/周波数変換器190、量子化器/コーダー200、デコーダ/逆量子化器210及び周波数/時間変換器220が、エンコーダ140−3及びデコーダ120−3の場合においてのみ、そのように標記されている。しかしながら、以下の説明は、他のそのような構成要素にも関する。
説明をエンコーダ140又はエンコーダ170などのエンコーダから始めると、時間/周波数変換器190へともたらされたオーディオ信号が、変換器190によって時間領域から周波数領域又は周波数関連の領域へと変換される。その後、変換後のオーディオデータが、時間/周波数変換器190によって生成されたスペクトル表現にて、ビットストリームを形成すべく量子化及びエンコードされ、次いでこのビットストリームが、例えばエンコーダ140の場合には、会議システム100の出力150へもたらされる。
デコーダ120又はデコーダ180などのデコーダに関しては、デコーダへもたらされたビットストリームが、最初にオーディオ信号の少なくとも一部分のスペクトル表現を形成すべくデコード及び逆量子化され、次いでこれが、周波数/時間変換器220によって再び時間領域へ変換される。
したがって、時間/周波数変換器190ならびに逆要素である周波数/時間変換器220はそれぞれ、もたらされたオーディオ信号の少なくとも一部分のスペクトル表現を生成するように構成され、かつ、そのスペクトル表現を時間領域のオーディオ信号の該当部分へと再び変換するように構成されている。
オーディオ信号を時間領域から周波数領域へ変換し、再び周波数領域から時間領域へと変換するプロセスにおいて、ずれが生じる可能性があり、すなわち再建、再現、又はデコードされたオーディオ信号が元のオーディオ信号又は原始オーディオ信号から相違する可能性がある。量子化エンコーダ200及び再コーダー210の枠組みにおいて実行される量子化及び逆量子化の追加の工程によって、さらなるアーチファクトが加えられる可能性がある。換言すると、元のオーディオ信号と再生されたオーディオ信号が互いに相違する可能性がある。
時間/周波数変換器190及び周波数/時間変換器220を、例えば、MDCT(修正離散余弦変換)、MDST(修正離散正弦変換)、FFTベースの変換器(FFT=高速フーリエ変換)、又は他のフーリエベースの変換器に基づいて実現することができる。量子化器/コーダー200及びデコーダ/逆量子化器210の枠組みにおける量子化及び逆量子化を、例えば直線量子化、対数量子化、又は他のより複雑な量子化アルゴリズム(例えば、人間の聴覚の特性をより具体的に考慮するなど)に基づいて実現することができる。量子化器/コーダー200及びデコーダ/逆量子化器210のエンコーダ及びデコーダ部分は、例えば、ハフマンコーディング又はハフマンデコーディングの仕組みを使用することによって機能することができる。
しかしながら、より複雑な時間/周波数190及び周波数/時間変換器220、ならびにより複雑な量子化器/コーダー200及びデコーダ/逆量子化器210も、ここに記載されるような種々の実施の形態及びシステムにおいて、例えばエンコーダ140、170としてのAAC−ELDエンコーダ及びデコーダ120、180としてのAAC−ELDデコーダの一部として使用することができ、又はそのようなエンコーダ及びデコーダを形成するものとして使用することができる。
言うまでもないが、会議システム100及び会議端末160の枠組みにおいて、エンコーダ170、140及びデコーダ180、120を同一又は少なくとも互換性のあるものとして実現することを推奨できる。
一般的なオーディオ信号のコーディング及びデコーディングの仕組みに基づく図2に示したような会議システム100も、オーディオ信号の実際のミキシングを時間領域において実行する。加算器130に、再現された時間領域のオーディオ信号がもたらされ、重畳が実行されて、時間領域のミックス信号が次のエンコーダ140の時間/周波数変換器190へともたらされる。したがって、この会議システムも、やはりデコーダ120及びエンコーダ140の直列接続を備えており、したがって図1及び2に示したような会議システム100は、典型的に「タンデム・コーディング・システム」と称される。
タンデム・コーディング・システムは、高度な複雑さという欠点を示すことがしばしばである。ミキシングの複雑さは、使用されるデコーダ及びエンコーダの複雑さに強く依存し、いくつかのオーディオ入力及びオーディオ出力信号の場合に大幅に増大しうる。さらに、エンコーディング及びデコーディングの仕組みの大部分がロスのないものではないという事実によって、図1及び2に示した会議システム100に使用されるようなタンデムコーディングの仕組みは、典型的には、品質への悪影響につながる。
さらなる欠点として、デコーディング及びエンコーディングの繰り返しの工程が、会議システム100の入力110と出力150との間のエンドツーエンド遅延とも称される全体としての遅延も拡大する。使用されるデコーダ及びエンコーダの初期の遅延に応じて、会議システム100そのものが、会議システムの枠組みにおける使用を不安にさせないまでも魅力のないものにし、さらには不可能にさせかねないレベルにまで、遅延を増大させる可能性がある。多くの場合、約50msの遅延が、参加者が会話において容認できる最大の遅延であると考えられる。
遅延の主たる原因として、時間/周波数変換器190及び周波数/時間変換器220が会議システム100のエンドツーエンド遅延の原因であり、さらなる遅延が会議端末160によって加わる。さらなる構成要素、すなわち量子化器/コーダー200及びデコーダ/逆量子化器210によって引き起こされる遅延は、これらの部品が時間/周波数変換器190及び周波数/時間変換器220と比べてはるかに高い周波数で動作できるため、あまり重要でない。時間/周波数変換器190及び周波数/時間変換器220の大部分はブロック動作又はフレーム動作であり、すなわち多くの場合に、ブロックのフレーム長を有するバッファ又はメモリを満たすために必要な時間に等しい時間量としての最小遅延を考慮に入れなければならない。しかしながら、この時間が、典型的には数kHzから数十kHzの範囲にあるサンプリング周波数によって大きく左右される一方で、量子化器/コーダー200及びデコーダ/逆量子化器210の動作速度は、主として下層のシステムのクロック周波数によって決定される。これは、典型的には、少なくとも2、3又は4桁以上大きい。
したがって、一般的なオーディオ信号コーデックを使用する会議システムにおいては、いわゆるビットストリームミキシング技術が導入されている。ビットストリームミキシング法は、例えば、上述の欠点の少なくとも一部を回避可能にし、タンデムコーディングによって導入されるMPEG−4 AAC−ELDコーデックに基づいて実現される。
しかしながら、原理的に、図2に示したような会議システム100を、G.7xxコーデック系列の上述したスピーチベースのコードと比べて同様のビットレート及び大幅に広い周波数帯域幅を有するMPEG−4 AAC−ELDコーデックに基づいて実現してもよいことに、注意すべきである。これは、すべての信号種について大幅に良好なオーディオ品質を、大幅に高いビットレートという犠牲を払って達成可能であることも、ただちに意味する。MPEG−4 AAC−ELDは、G.7xxコーデックの遅延の範囲にある遅延を提供するが、これを図2に示したような会議システムの枠組みにおいて実施することは、現実的な会議システム100をもたらさない可能性がある。以下で、図3に関して、上述のいわゆるビットストリームミキシングに基づくより現実的なシステムを概説する。
単に簡潔さの目的のために、以下では主としてMPEG−4 AAC−ELDコーデックならびにそのデータストリーム及びビットストリームにのみ注目することに注意すべきである。しかしながら、他のエンコーダ及びデコーダも、図3に例示及び図示されるような会議システム100の環境において使用することができる。
図3は、図2の文脈において説明したように、ビットストリームミキシングの原理に従って動作する会議システム100を会議端末160とともに示したブロック図である。会議システム100そのものは、図2に示した会議システム100の簡略版である。より正確には、図2の会議システム100のデコーダ120が、図3に示されているように、デコーダ/逆量子化器210−1、210−2、210−3、・・・によって置き換えられている。換言すると、図2及び3に示した会議システム100を比べたとき、デコーダ120の周波数/時間変換器120が取り除かれている。同様に、図2の会議システム100のエンコーダ140が、量子化器/コーダー200−1、200−2、200−3によって置き換えられている。したがって、図2及び3に示した会議システム100を比べたとき、エンコーダ140の時間/周波数変換器190が取り除かれている。
結果として、加算器130は、もはや時間領域で動作するのではなく、周波数/時間変換器220及び時間/周波数変換器190がないため、周波数又は周波数関連の領域で動作する。
例えば、MPEG−4 AAC−ELDコーデックの場合には、会議端末160にのみ存在する時間/周波数変換器190及び周波数/時間変換器220がMDCT変換に基づいている。したがって、会議システム100の内部において、ミキサー130が直接的にMDCT周波数表現のオーディオ信号の処理に寄与する。
図2に示した会議システム100の場合に、変換器190、220が遅延の主たる原因を呈するため、これらの変換器190、220を取り除くことによって、遅延が大幅に少なくなる。さらに、会議システム100の内部の2つの変換器190、220によって持ち込まれる複雑さも、大幅に軽減される。例えば、MPEG−2 AACデコーダの場合には、周波数/時間変換器220の枠組みにおいて実行される逆MDCT変換が、全体としての複雑さの約20%の原因である。MPEG−4変換器も同様の変換に基づいているため、周波数/時間変換器220だけを会議システム100から取り除くことによって、全体としての複雑さへの無視できぬ寄与を取り除くことが可能である。
MDCT領域又は他の周波数領域におけるオーディオ信号のミキシングは、MDCT変換の場合又は同様のフーリエベースの変換の場合に、これらの変換が線形変換であるがゆえに可能である。したがって、変換が、数学的な加算性という特性を有しており、すなわち
Figure 0005536674
であり、数学的な同次性という性質を有しており、すなわち
Figure 0005536674
であり、ここでf(x)は変換関数であり、x及びyはその適切な引数であり、aは実数値又は虚数値の定数である。
MDCT変換又は他のフーリエベースの変換の両方の特徴が、時間領域におけるミキシングと同様のそれぞれの周波数領域におけるミキシングを可能にしている。したがって、すべての計算を、スペクトル値に基づいて同様に上手く実行することができる。時間領域へのデータの変換は不要である。
いくつかの状況においては、さらなる条件が満たされなければならないかもしれない。すべての関連のスペクトルデータが、すべての関連のスペクトル成分についてのミキシングプロセスの際に、それらの時間インデックスに関して同じでなければならない。これが、変換の際にいわゆるブロックスイッチング技法が使用され、したがって会議端末160のエンコーダが特定の条件に応じて種々のブロック長の間で自由に切り換わることができる場合には、最終的に満たされない可能性がある。ブロックスイッチングは、ミックスされるべきデータが同じウインドウで処理されている場合を除き、異なるブロック長及び対応するMDCTウインドウ長の間の切り替えゆえに、時間領域において個々のスペクトル値をサンプルへと一意に割り当てることをできなくする可能性がある。分散した会議端末160を有する一般的なシステムにおいては、これが最終的に保証されない可能性があるため、複雑な補間が必要となり、結果としてさらなる遅延及び複雑さが生じる可能性がある。結果として、最終的に、ブロック長の切り替えに基づくビットストリームのミキシングプロセスを実施しないことが推奨されるかもしれない。
対照的に、AAC−ELDコーデックは、ただ1つのブロック長に基づいており、したがって、ミキシングをより容易に実現できるよう、周波数データの上述の割り当て又は同期をより容易に保証することができる。図3に示した会議システム100は、換言すると、ミキシングを変換領域又は周波数領域において実行することができるシステムである。
上述のように、図2に示した会議システム100において変換器190、200によって持ち込まれる追加の遅延を除くために、会議端末160において使用されるコーデックは、固定の長さ及び形状のウインドウを使用する。これは、上述のミキシングプロセスを、オーディオストリームを時間領域へ再変換することなく直接的に実施できるようにする。この手法は、追加で持ち込まれるアルゴリズム的な遅延の大きさを抑えることを可能にする。さらに、デコーダにおける逆変換の工程及びエンコーダにおける順変換の工程が存在しないため、複雑さも低下する。
しかしながら、図3に示したような会議システム100の枠組みにおいても、加算器130によるミキシングの後で、オーディオデータの逆量子化が必要になる可能性があり、これがさらなる量子化ノイズを持ち込む可能性がある。この追加の量子化ノイズは、例えば、会議システム100へもたらされる種々のオーディオ信号の種々の量子化工程に起因して生じうる。結果として、例えば量子化の段階の数がすでに制限されているきわめて低いビットレートの伝送の場合に、周波数領域又は変換領域における2つのオーディオ信号のミキシングのプロセスが、生成される信号に望ましくない追加の量のノイズ又は他のひずみを引き起こす可能性がある。
複数の入力データストリームのミキシングのための装置の形態の本発明による第1の実施の形態を説明する前に、図4に関して、データストリーム又はビットストリームを、そこに含まれるデータとともに簡単に説明する。
図4は、スペクトル領域のオーディオデータの少なくとも1つ(多くの場合、2つ以上)のフレーム260を含んでいるビットストリーム又はデータストリーム250を概略的に示している。より正確には、図4が、スペクトル領域のオーディオデータの3つのフレーム260−1、260−2及び260−3を示している。さらに、データストリーム250は、例えばオーディオデータのエンコードの方法を知らせる制御値、他の制御値、又は時間インデックスもしくは他の関連データに関する情報など、付加的情報又は付加的情報のブロック270を含むことができる。当然ながら、図4に示したようなデータストリーム250はさらなるフレームをさらに含むことができ、又はフレーム260が、2チャネル以上のオーディオデータを含んでもよい。例えば、ステレオオーディオ信号の場合に、各々のフレーム260が、例えば左チャネルからのオーディオデータ、右チャネルからのオーディオデータ、右及び左チャネルの両方から導出されたオーディオデータ、又は上述のデータの任意の組み合わせを含むことができる。
したがって、図4は、データストリーム250が、スペクトル領域のオーディオデータのフレームだけでなく、追加の制御情報、制御値、ステータス値、ステータス情報、プロトコル関連の値(例えば、チェックサム)なども含んでよいことを示している。
図1から3の文脈において説明したような会議システムの具体的な実施に応じ、又は後述されるような本発明の実施の形態(特に、図9から12Cに関して説明される本発明の実施の形態)による装置の具体的な実施に応じて、フレームの関連のペイロードデータがオーディオ信号のスペクトル領域又はスペクトル情報の少なくとも一部を表わす方法を示している制御値は、同様に良好に、フレーム260そのもの又は追加の情報の関連のブロック270に含まれることができる。制御値がスペクトル成分に関する場合には、その制御値をフレーム260そのものへエンコードすることができる。しかしながら、もし、制御値がフレーム全体に関する場合には、追加の情報のブロック270に同様に良好に含まれることができる。しかしながら、上述のように、制御値が含まれる上述の場所は、決してフレーム260又は追加のブロックのブロック270に含まれる必要はない。制御値がただ1つ又は少数のスペクトル成分にしか関係していない場合に、ブロック270に含ませることも同様に可能である。他方で、フレーム260の全体に関する制御値を、フレーム260に含ませることも可能である。
図5は、例えばデータストリーム250のフレーム260に含まれているようなスペクトル成分に関する(スペクトル)情報を概略的に示している。より正確には、図5は、フレーム260のただ1つのチャネルのスペクトル領域の情報の簡単な図を示している。スペクトル領域において、オーディオデータのフレームを、例えば周波数fの関数としての強度値Iに関して記述することができる。例えばデジタルシステムなどの離散的なシステムにおいては、周波数分解能も離散的であり、したがってスペクトル情報は、典型的には、個々の周波数、狭い帯域又はサブ帯域など、特定のスペクトル成分についてのみ存在する。サブ帯域だけでなく、個々の周波数又は狭い帯域もスペクトル成分と称される。
図5は、6個の別々の周波数300−1、・・・、300−6、及び周波数帯域又はサブ帯域310(図5に示した事例では、4つの別々の周波数を含んでいる。)について、強度分布を概略的に示している。個々の周波数又はこれらの周波数に対応する狭い帯域300と、サブ帯域又は周波数帯310との両方が、スペクトル成分を形成しており、このスペクトル成分に関して、フレームがスペクトル領域のオーディオデータに関する情報を含んでいる。
サブ帯域310に関する情報は、例えば、全体としての強度又は平均強度値であってよい。振幅、それぞれのスペクトル成分そのもののエネルギー、又はエネルギーもしくは振幅から導出される他の値など、強度又は他のエネルギー関連の値のほかに、位相情報及び他の情報もフレームに含まれることができ、したがって、これらの情報もスペクトル成分に関する情報と考えることができる。
会議システムに関する問題のいくつか及び会議システムの或る程度の背景を説明したので、まず参考例を説明する。そのような参考例によれば、入力データストリームが比較に基づいて決定され、決定された入力データストリームから出力データストリームへスペクトル情報が少なくとも部分的にコピーされることで、逆量子化を省略でき、したがって逆量子化に関係する逆量子化ノイズをなくすことができる。
図6は、複数の入力データストリーム510(そのうちの2つ(510−1、510−2)が示されている。)をミキシングするための参考例の装置500のブロック図を示している。装置500は、データストリーム510を受信して、出力データストリーム530を生成するように構成された処理ユニット520を備えている。入力データストリーム510−1、510−2の各々は、図5の文脈において図4に示したフレーム260と同様にスペクトル領域でのオーディオデータを含んでいるフレーム540−1、540−2それぞれを含んでいる。これが、図6に示した座標系によって再び示されており、座標系の横座標に周波数fが、座標系の縦座標に強度Iが示されている。出力データストリーム530も、スペクトル領域でのオーディオデータを含んで対応する座標系によって示されている出力フレーム550を含んでいる。
処理ユニット520は、複数の入力データストリーム510のフレーム540−1、540−2を比較するように構成されている。さらに詳しくは後述されるとおり、この比較は、例えば、マスキング効果及び人間の聴覚の特徴の他の特性を考慮する心理音響モデルに基づくことができる。この比較結果にもとづき、処理ユニット520は、少なくとも1つのスペクトル成分(例えば、両方のフレーム540−1、540−2に存在する図6に示したスペクトル成分560)について、複数のデータストリーム510のうちの正確に1つのデータストリームを決定するようにさらに構成されている。次いで、処理ユニット520は、スペクトル成分560を該当の入力データストリーム510の前記決定されたフレーム540からコピーして出力フレーム550を含む出力データストリーム530を生成するように構成することができる。
より正確には、処理ユニット520は、複数の入力データストリーム510のフレーム540の比較を、2つの異なる入力データストリーム510のフレーム540の同じスペクトル成分560に対応する少なくとも2つの情報、すなわち関連のエネルギー値である強度値に基づいて行うように構成される。
これをさらに説明するために、図7は、スペクトル成分560に対応する情報(強度I)が、ここでは第1の入力データストリーム510−1のフレーム540−1の周波数又は狭い周波数帯域であると仮定される場合を概略的に示している。これが、第2の入力データストリーム510−2のフレーム540−2のスペクトル成分560に関する情報である対応する強度値Iと比較される。比較は、例えば、一部の入力ストリームだけを含むミックス信号 f(n) と完全なミックス信号 c との間のエネルギー比の評価に基づいて行うことができる。これを、例えば、
Figure 0005536674
及び
Figure 0005536674
に従って達成でき、比r(n)が、
Figure 0005536674
に従って計算され、ここでnは、入力データストリームの添え字であり、Nは、全入力データストリーム又は関連の入力データストリームの数である。比r(n)が充分に大きい場合、入力データストリーム510のあまり支配的でないチャネル又はあまり支配的でないフレームが支配的なチャネル又はフレームによってマスクされていると考えることができる。したがって、無関係の削減を処理することができ、すなわち、ストリームのうちのとにかく顕著なスペクトル成分だけが含められる一方で、他のストリームは破棄される。
式(3)から(5)の枠組みにおいて考慮すべきエネルギー値を、例えば、それぞれの強度値の平方を計算することによって、強度値から導出することができる。スペクトル成分に関する情報が他の値を含んでもよい場合には、同様の計算を、フレームに含まれた情報の形態に応じて実行することができる。例えば、複素値情報の場合には、スペクトル成分に関する情報を構成している個々の値の実数部分及び虚数部分の絶対値の計算を、実行しなければならないかもしれない。
個々の周波数とは別に、式(3)から(5)による心理音響モジュールの適用のために、式(3)及び(4)における合計は、2つ以上の周波数を含むことができる。換言すると、式(3)及び(4)において、それぞれのエネルギー値Enを、複数の個々の周波数に対応する全体としてのエネルギー値、すなわち周波数帯のエネルギーによって置き換えることができ、より一般的な言葉にすれば、1つ以上のスペクトル成分に関する1つ又は複数のスペクトル情報で置き換えることができる。
例えば、AAC−ELDは、人間の聴覚系が同時に取り扱う周波数のグループと同様に、帯域ごとの方法でスペクトル線に作用するため、無関係さの推定又は心理音響モデルを同様の方法で実行することができる。この方法で心理音響モデルを適用することによって、必要であればただ1つの周波数帯域だけの信号の一部分を除去又は置換することができる。
心理音響的調査が示しているように、信号を他の信号によりマスキングすることは、それぞれの信号の種類に依存する。無関係さの判断のための最小しきい値として、最悪の場合の筋書きを適用することができる。例えば、ノイズを正弦曲線又は他の別個かつ明確な音によってマスキングするためには、21から28dBの差が典型的には必要である。約28.5dBのしきい値が良好な置換結果をもたらすことが、試験によって示されている。この値を、検討対象の実際の周波数帯も考慮に入れて、最終的に改善することができる。
したがって、式(5)による値r(n)が−28.5dBよりも大きいことを、検討対象の1つ以上のスペクトル成分に基づく心理音響的評価及び無関係性の評価に関して無関係であると考えることができる。異なるスペクトル成分について異なる値を使用することができる。検討対象のフレームに関する入力データストリームの心理音響的無関係性の指標として、10dBから40dB、20dBから30dB、あるいは25dBから30dBのしきい値を使用することが、有用であると考えられる。
図7に示した状況において、このことは、スペクトル成分560に関して、第1の入力データストリーム510−1が決定される一方で、第2の入力データストリーム510−2がスペクトル成分560に関して捨てられることを意味している。結果として、スペクトル成分560に関する情報が、少なくとも部分的に第1の入力データストリーム510−1のフレーム540−1から出力データストリーム530の出力フレーム550へコピーされる。これが、図7においては、矢印570によって示されている。同時に、残りの入力データストリーム510のフレーム540(すなわち、図7においては、入力データストリーム510−2のフレーム540−2)のスペクトル成分560に関する情報は、途切れた線580によって示されるように捨てられる。
さらに換言すると、例えばMCU又は会議システム100として使用することができる装置500が、出力データストリーム530及びその出力フレーム550を、対応するスペクトル成分の情報が前記決定された入力データストリーム510−1のフレーム540−1のみからコピーされ、出力データストリーム530の出力フレーム550のスペクトル成分560を記述するように生成されるように構成されている。当然ながら、装置500を、2つ以上のスペクトル成分に関する情報が入力データストリームからコピーされ、他の入力データストリームが少なくともこれらのスペクトル成分に関して破棄されるように、構成することも可能である。さらに、装置500又はその処理ユニット520を、異なるスペクトル成分について異なる入力データストリーム510が決定されるように構成することが可能である。出力データストリーム530の同じ出力フレーム550は、異なる入力データストリーム510からの異なるスペクトル成分に関するコピーされたスペクトル情報を含むことができる。
当然ながら、入力データストリーム510のフレーム540がフレーム列の場合に、類似又は同じ時間インデックスに対応するフレーム540だけが比較及び決定において考慮されるように装置500を実施することが望ましいかもしれない。
換言すると、図7は、参考例に従って上述のように複数の入力データストリームをミキシングするための装置の動作原理を示している。すでに述べたように、ミキシングが、到来するすべてのストリームが信号の時間領域への逆変換、ミキシング及び再エンコーディングを含むデコードを受けるという意味での単刀直入な方法で行われるわけではない。
図6から8の参考例は、それぞれのコーデックの周波数領域で行われるミキシングに基づいている。考えられるコーデックは、AAC−ELDコーデック又は一様な変換ウインドウを有する任意の他のコーデックであってよい。そのような場合、それぞれのデータをミックスできるようにするための時間/周波数変換は不要である。本発明の実施の形態による態様は、量子化の刻みのサイズ及び他のパラメータなどのすべてのビットストリームパラメータへのアクセスが可能であり、これらのパラメータをミックス済みの出力ビットストリームの生成に使用することができるという事実を利用する。
図6から8の参考例は、スペクトル成分に関するスペクトル線又はスペクトル情報のミキシングを、ソースとなる原始スペクトル線又は原始スペクトル情報の重み付け和によって実行できるという事実を利用する。重み付け係数は、ゼロもしくは1であってよく、又は原理的には、両者の間の任意の値であってよい。ゼロという値は、ソースが無関係として取り扱われ、まったく使用されないことを意味する。帯域又はスケール係数帯域などの線のグループが、同じ重み付け係数を使用することができる。しかしながら、すでに示したように、重み付け係数(例えば、ゼロ及び1の分布)を、1つの入力データストリーム510の1つのフレーム540の複数のスペクトル成分について変化させることができる。さらに、スペクトル情報のミキシング時にゼロ又は1の重み付け係数をもっぱら使用する必要はない。いくつかの状況下では、入力データストリーム510のフレーム540のただ1つではなくて複数の全体的なスペクトル情報について、それぞれの重み付け係数が、ゼロ又は1とは異なっているようにすることができる。
1つの特定の事例は、1つのソース(入力データストリーム510)のすべての帯域又はスペクトル成分が1という係数に設定され、他のソースの係数がすべてゼロに設定される事例である。この場合、1人の参加者の完全な入力ビットストリームが、ミキシング後の最終的なビットストリームとして同一にコピーされる。重み付け係数を、フレーム毎の方法で計算することができるが、フレームの長い方のグループ又は並びに基づいて計算又は決定することも可能である。当然ながら、そのようなフレームの並びの内部又は単一のフレームの内部でも、上述のように、異なるスペクトル成分について重み付け係数を変えてもよい。重み付け係数を、心理音響モデルの結果に従って計算又は決定することができる。
心理音響モデルの例は、式(3)、(4)及び(5)の文脈においてすでに上述した。心理音響モデル又は該当のモジュールが、一部の入力ストリームのみが含まれてエネルギー値Efをもたらしているミックス信号と、エネルギー値Ecを有する完全なミックス信号との間のエネルギー比r(n)を計算する。次いで、エネルギー比r(n)が、式(5)に従って、Ecによって除算されたEfの対数の20倍として計算される。
この比が充分に大きい場合、あまり支配的でないチャネルが、支配的なチャネルによってマスクされていると考えることができる。したがって、無関係の削減が処理され、すなわち、まったく顕著でなく、1という重み付け係数に属するストリームだけが含められ、他のすべてのストリーム(1つのスペクトル成分の少なくとも1つのスペクトル情報)が破棄される。換言すると、これらは、ゼロという重み付け係数に属している。
逆量子化の工程の数が少なくなるがゆえに、タンデムコーディングの影響があまり生じず、あるいはまったく生じないという利点を導くことができる。各々の量子化段階が、追加の量子化ノイズの軽減について大きな障害となるため、複数の入力データストリームをミキシングするための上述の参考例のいずれかを使用することによって、オーディオ信号の全体としての品質を改善することができる。これは、装置500の処理ユニット520が、例えば図6に示したように、出力データストリーム530を、決定された入力ストリーム又はその一部のフレームの量子化レベルの分布と比べた量子化レベルの分布が維持されるように生成するように構成される場合に当てはまるであろう。換言すると、スペクトル情報を再エンコードせずに、それぞれのデータをコピーし、すなわち再使用することによって、追加の量子化ノイズの導入をなくすことができる。
さらに、図6から8に関して上述した参考例のいずれかを使用する例えば3名以上の参加者を有する電気通信/ビデオ会議システムなど会議システムは、時間−周波数変換の工程及び再エンコーディングの工程を省略できるため、時間領域のミキシングに比べて複雑さが少ないという利点を提供することができる。さらに、フィルターバンク遅延が存在しないため、時間領域におけるミキシングに比べて、これらの構成要素によって引き起こされるさらなる遅延が存在しない。
要約すると、上述の参考例を、例えば、完全に1つのソースから取られるスペクトル成分に対応する帯域又はスペクトル情報を逆量子化しないように構成することができる。したがって、ミックスされる帯域又はスペクトル情報だけが逆量子化され、したがって追加の量子化ノイズが少なくなる。
しかしながら、上述の参考例を、聴覚雑音置換(PNS)、時間雑音整形(TNS)、スペクトル帯域複製(SNR)及びステレオコーディングの態様など、種々の用途においても使用することができる。PNSパラメータ、TNSパラメータ、SBRパラメータ又はステレオコーディングのパラメータの少なくとも1つを処理することができる装置の動作を説明する前に、参考例を、図8を参照してさらに詳しく説明する。
図8は、処理ユニット520を備えている複数の入力データストリームのミキシングのための装置500の概略のブロック図である。より正確には、図8は、入力データストリーム(ビットストリーム)にエンコードされたきわめてさまざまなオーディオ信号を処理することができるきわめて柔軟な装置500を示している。したがって、後述される構成要素のうちの一部は、すべての環境において実施される必要は必ずしもない随意による構成要素である。
処理ユニット520は、処理ユニット520によって処理されるべき入力データストリーム又はコード済みのオーディオビットストリームの各々について、ビットストリームデコーダ700を備えている。単に簡素化のために、図8には、2つのビットストリームデコーダ700−1、700−2だけが図示されている。当然ながら、処理すべき入力データストリームの数に応じて、より多数のビットストリームデコーダ700を実装することができ、あるいは例えばビットストリームデコーダ700が2つ以上の入力データストリームを順に処理できる場合には、より少数のビットストリームデコーダ700を実装することができる。
ビットストリームデコーダ700−1ならびに他のビットストリームデコーダ700−2、・・・の各々は、信号を受信し、受信した信号を処理し、ビットストリームに含まれるデータを分離及び抽出するように構成されたビットストリーム読み取り部710を備えている。例えば、ビットストリーム読み取り部710を、到着するデータを内部クロックに同期させるように構成でき、到着するビットストリームを適切なフレームへと分けるようにさらに構成することができる。
さらに、ビットストリームデコーダ700は、ビットストリーム読み取り部710の出力へ接続されてビットストリーム読み取り部710から分離済みのデータを受信するハフマンデコーダ720を備えている。ハフマンデコーダ720の出力が、逆量子化器とも称されるデクオンタイザー730へ接続されている。ハフマンデコーダ720の後方に接続されたデクオンタイザー730に、スケーラー740が続いている。ハフマンデコーダ720、デクオンタイザー730及びスケーラー740が第1のユニット750を形成しており、第1のユニット750の出力において、それぞれの入力データストリームのオーディオ信号の少なくとも一部が、参加者(図8には図示されていない)のエンコーダが機能する周波数領域又は周波数関連領域において入手可能である。
さらに、ビットストリームデコーダ700は、データに関して第1のユニット750の後ろに接続された第2のユニット760を備えている。第2のユニット760はステレオデコーダ770(M/Sモジュール)を備えており、ステレオデコーダ770の後ろにPNSデコーダが接続されている。TNSデコーダ790が、データに関してPNSデコーダ780に後続しており、PNSデコーダ780及びステレオデコーダ770とともに第2のユニット760を形成する。
オーディオデータの上述の流れとは別に、ビットストリームデコーダ700は、制御データに関する種々のモジュール間の複数の接続をさらに備えている。より正確には、ビットストリーム読み取り部710が、適切な制御データを受け取るためにハフマンデコーダ720にも接続されている。さらに、ハフマンデコーダ720は、スケーラー740へスケーリング情報を伝えるために、スケーラー740へ直接に接続されている。ステレオデコーダ770、PNSデコーダ780及びTNSデコーダ790も、それぞれ適切な制御データを受け取るためにビットストリーム読み取り部710へ接続されている。
処理ユニット520は、ミキシングユニット800をさらに備えており、次いでミキシングユニット800が、入力に関してビットストリームデコーダ700へ接続されたスペクトルミキサー810を備えている。スペクトルミキサー810は、例えば、周波数領域において実際のミキシングを実行するための1つ以上の加算器を備えることができる。さらに、スペクトルミキサー810は、ビットストリームデコーダ700によってもたらされるスペクトル情報の任意の線形結合を可能にするための乗算器をさらに備えることができる。
さらに、ミキシングユニット800は、データに関してスペクトルミキサー810の出力へ接続された最適化モジュール820を備えている。しかしながら、最適化モジュール820は、スペクトルミキサー810に制御情報をもたらすために、スペクトルミキサー810にも接続されている。データに関して、最適化モジュール820は、ミキシングユニット800の出力を呈している。
ミキシングユニット800は、種々のビットストリームデコーダ700のビットストリーム読み取り部710の出力へ直接に接続されたSBRミキサー830をさらに備えている。SBRミキサー830の出力がミキシングユニット800のもう1つの出力を形成している。
さらに処理ユニット520は、ミキシングユニット800へ接続されたビットストリームエンコーダ850を備えている。ビットストリームエンコーダ850は、TNSエンコーダ870、PNSエンコーダ880及びステレオエンコーダ890をこの順に直列接続して備えている第3のユニット860を備えている。したがって、第3のユニット860は、ビットストリームデコーダ700の第1のユニット750の逆のユニットを形成している。
ビットストリームエンコーダ850は、第4のユニット900をさらに備えており、第4のユニット900は、第4のユニットの入力と出力との間で直列接続を形成しているスケーラー910、クオンタイザー920及びハフマンコーダー930を備えている。従って、第4のユニット900は、第1のユニット750の逆のモジュールを形成している。したがって、スケーラー910は、ハフマンコーダー930に該当の制御データをもたらすために、ハフマンコーダー930にも直接に接続されている。
また、ビットストリームエンコーダ850は、ハフマンコーダー930の出力へ接続されたビットストリームライタ940を備えている。さらに、ビットストリームライタ940は、TNSエンコーダ870、PNSエンコーダ880、ステレオエンコーダ890及びハフマンコーダー930から制御データ及び情報を受信するために、これらのモジュールにも接続されている。ビットストリームライタ940の出力が処理ユニット520及び装置500の出力を形成している。
さらに、ビットストリームエンコーダ850は、ミキシングユニット800の出力へ接続された心理音響モジュール950を備えている。ビットストリームエンコーダ850は、第3のユニット860のモジュールへ、例えば第3のユニット860のユニットの枠組みにおいてミキシングユニット800によって出力されるオーディオ信号をエンコードするためにどれを使用できるのかを知らせる適切な制御情報を供給するように構成されている。
したがって、原理的には、第3のユニット860の入力までの第2のユニット760の出力において、送信側に使用されるエンコーダによって定められるとおり、スペクトル領域のオーディオ信号の処理が可能である。しかしながら、すでに示したように、完全なデコーディング、逆量子化、デスケーリング及びさらなる処理工程は、例えば1つの入力データストリームのフレームのスペクトル情報が支配的である場合に、最終的には必要でないかもしれない。次いで、それぞれのスペクトル成分のスペクトル情報の少なくとも一部が、出力データストリームの該当のフレームのスペクトル成分へコピーされる。
そのような処理を可能にするために、装置500及び処理ユニット520は、最適化されたデータ交換のためのさらなる信号線を備えている。図8に示した参考例においてそのような処理を可能にするために、ハフマンデコーダ720の出力、ならびにスケーラー740、ステレオデコーダ770及びPNSデコーダ780の出力が、他のビットストリーム読み取り部710のそれぞれの構成要素とともに、それぞれの処理のためにミキシングユニット800の最適化モジュール820へと接続されている。
それぞれの処理の後のビットストリームエンコーダ850の内部の対応するデータの流れを容易にするために、最適化されたデータの流れのための対応するデータ線も実装されている。より正確には、最適化モジュール820の出力が、PNSエンコーダ780の入力、ステレオエンコーダ890、第4のユニット900及びスケーラー910の入力、ならびにハフマンコーダ930への入力へ接続されている。さらに、最適化モジュール820の出力がビットストリームライタ940へも直接に接続されている。
すでに示したように、上述のようなモジュールのほぼすべてが、必ずしも実施する必要がない随意によるモジュールである。例えば、ただ1つのチャネルしか含んでいないオーディオデータストリームの場合には、ステレオコーディングユニット890及びステレオデコーディングユニット770を省略することができる。したがって、PNSベースでない信号を処理すべき場合には、該当のPNSデコーダ780及びPNSエンコーダ880を省略することができる。TNSモジュール790、870も、処理される信号及び出力される信号がTNSデータにもとづかない場合には省略することが可能である。第1のユニット750及び第4のユニット900の内部において、逆量子化器730、スケーラー740、量子化器920及びスケーラー910も最終的に省略することが可能である。したがって、これらのモジュールも、随意による構成要素と考えられる。ハフマンデコーダ720及びハフマンエンコーダ930を、別のアルゴリズムを使用して別の方法で実現してもよく、あるいは完全に省略してもよい。
SBRミキサー830を、例えばデータのSBRパラメータが存在しない場合には、最終的に省略してもよい。さらに、スペクトルミキサー810を、例えば最適化モジュール820及び心理音響モジュール860との協働において、異なって実現することが可能である。したがって、これらのモジュールも、随意による構成要素と考えられる。
装置500及び装置500に含まれる処理ユニット520の動作の態様に関して、到着する入力データストリームが、最初にビットストリーム読み取り部710によって読み取られ、適切な情報片へと分けられる。ハフマンデコーディングの後、得られたスペクトル情報を、最終的にデクオンタイザー730によって逆量子化し、デスケーラー740によって適切にスケーリングすることができる。
その後、入力データストリームに含まれる制御情報に依存して、入力データストリーム内にエンコードされたオーディオ信号を、ステレオデコーダ770の枠組みにおける2つ以上のチャネルのオーディオ信号へと分解することができる。例えば、オーディオ信号が中央チャネル(M)及び横チャネル(S)を含んでいる場合には、対応する左チャネル及び右チャネルデータを、中央及び横チャネルデータを互いに加算及び減算することによって得ることができる。多くの実施例において、中央チャネルが左チャネル及び右チャネルのオーディオデータの合計に比例し、横チャネルは左チャネル(L)及び右チャネル(R)の間の差に比例している。実施例に応じて、上述のチャネルを、クリッピング作用を防止するために係数1/2を考慮しつつ加算及び/又は減算することができる。一般的に言うと、種々のチャネルを線形結合によって処理して、それぞれのチャネルをもたらすことができる。
換言すると、ステレオデコーダ770の後、オーディオデータを、適切であれば、2つの個別のチャネルへと分解することができる。当然ながら、逆のデコーディングもステレオデコーダ770によって実行することができる。例えば、ビットストリーム読み取り部710によって受信されるオーディオ信号が左及び右チャネルを含んでいる場合、ステレオデコーダ770は、適切な中央及び横チャネルデータを同様に上手く計算又は決定することができる。
装置500の実施だけでなく、それぞれの入力データストリームをもたらす参加者のエンコーダの実施にも応じて、それぞれのデータストリームは、PNSパラメータ(PNS=聴覚雑音置換)を含むことができる。PNSは、人間の耳が、帯域又は個々の周波数などの限られた周波数範囲又はスペクトル成分のノイズ状の音を、合成的に生成されたノイズからほとんど区別することができないという事実に基づいている。したがって、PNSは、オーディオ信号の実際のノイズ状の寄与を、それぞれのスペクトル成分へ合成的に導入されるべきノイズのレベルを示しており、実際のオーディオ信号を度外視しているエネルギー値で置き換える。換言すると、PNSデコーダ780は、1つ以上のスペクトル成分において、入力データストリームに含まれるPNSパラメータに基づいて実際のノイズ状のオーディオ信号の寄与を再生することができる。
TNSデコーダ790及びTNSエンコーダ870に関しては、それぞれのオーディオ信号を、送信側で動作しているTNSモジュールに関して、変更されていないバージョンへ再変換しなければならないかもしれない。時間雑音整形(TNS)は、オーディオ信号のフレームにおける過渡状の信号の場合に存在しうる量子化ノイズによって引き起こされるプレエコーアーチファクトを軽減するための手段である。この過渡に対処するために、少なくとも1つの適応予測フィルターが、スペクトルの低い側、スペクトルの高い側、又はスペクトルの両側から出発してスペクトル情報へと加えられる。予測フィルターの長さ及び周波数範囲は、それぞれのフィルターの適用先に合わせることができる。
換言すると、TNSモジュールの動作は、1つ以上の適応IIRフィルター(IIR=無限インパルス応答)を計算することに基づいており、予測及び実際のオーディオ信号の間の差を記述する誤差信号を予測フィルターのフィルター係数とともにエンコード及び送信することによる。結果として、残る誤差信号の振幅を減らすために周波数領域において予測フィルターを適用することによって過渡状の信号に対処する(その結果、過渡状のオーディオ信号を直接エンコードする場合に比べて、より少ない量子化の刻みを使用しつつ、同様の量子化ノイズでエンコードすることができる。)ことによって、送信器のデータストリームのビットレートを維持しつつ、オーディオ品質を高めることを可能にできる。
TNSの用途に関しては、使用されるコーデックによって決定されるスペクトル領域での「純粋な」表現に達するために入力データストリームのTNS部分をデコードするためにTNSデコーダ760の機能を使用することを、いくつかの環境において推奨できるかもしれない。TNSデコーダ790の機能のこの応用は、心理音響モデル(例えば、心理音響モジュール950において適用される。
)の推定をTNSパラメータに含まれる予測フィルターのフィルター係数に基づいて推定することがすでにできない場合に、有用かもしれない。これは、少なくとも1つの入力データストリームがTNSを使用しているが、他の入力データストリームがTNSを使用していない場合に、特に重要かもしれない。
処理ユニットが、入力データストリームのフレームの比較にもとづき、TNSを使用している入力データストリームのフレームからのスペクトル情報を使用すべきと判断する場合、TNSパラメータを、出力データのフレームのために使用することができる。もし、例えば互換性がないという理由で、出力データストリームの受け手がTNSデータをデコードできない場合、誤差信号のそれぞれのスペクトルデータ及びさらなるTNSパラメータをコピーせず、TNS関連データから再現されたデータを処理してスペクトル領域の情報を得、TNSエンコーダ870を使用しないことが有用かもしれない。これは、図8に示した構成要素又はモジュールの一部を、必ずしも実装する必要がなく、随意により除外できることをやはり示している。
PNSデータを比較する少なくとも1つのオーディオ入力ストリームの場合にも、同様の方法を当てはめることができる。もし、入力データストリームのスペクトル成分についてのフレームの比較から、1つの入力データストリームが、その現在のフレーム及びそれぞれのスペクトル成分又はスペクトル成分に関して支配的であることが明らかになる場合、それぞれのPNSパラメータ(すなわち、それぞれのエネルギー値)を、出力フレームのそれぞれのスペクトル成分へ直接コピーしてもよい。しかしながら、もし、受け手がPNSパラメータを受け付けることができない場合には、スペクトル情報を、それぞれのエネルギー値によって示されるとおりの適切なエネルギーレベルを有するノイズを生成することによって、それぞれのスペクトル成分についてPNSパラメータから再現することができる。次いで、ノイズデータを、スペクトル領域において相応に処理することができる。
すでに概説したように、送信されるデータは、SBRミキサー830によって処理することができるSBRデータも含むことができる。スペクトル帯域複製(SBR)は、オーディオ信号のスペクトルの一部を、このスペクトルの寄与及び下方部分に基づいて複製する技法である。結果として、エネルギー値を適当な時間/周波数格子を使用することによって周波数依存及び時間依存の様相で記述するSBRパラメータを除き、スペクトルの上方部分を伝送する必要がない。結果として、スペクトルの上方部分をまったく伝送する必要がない。再現される信号の品質をさらに改善できるように、さらなるノイズの寄与及び正弦曲線の寄与を、スペクトルの上方部分に加えることができる。
さらに詳しくは、クロスオーバー周波数fxを上回る周波数について、オーディオ信号がQMFフィルタバンク(QMF=直交ミラーフィルタ)によって分析される。QMFフィルタバンクは、QMFフィルタバンクのサブ帯域の数又はそれに比例した倍数(例えば、32又は64)で減らされた時間分解能を有する特定の数のサブ帯域信号(例えば、32個のサブ帯域信号)を生成する。結果として、時間軸に2つ以上のいわゆるエンベロープを含み、各々のエンベロープについてスペクトルのそれぞれの上方部分を記述する典型的には7から16個のエネルギー値を含んでいる時間/周波数格子を決定することができる。
さらに、SBRパラメータは、後に上述の時間/周波数格子によって強度に関して弱められ、あるいは決定される追加のノイズ及び正弦曲線に関する情報を含むことができる。
SBRベースの入力データストリームが、現在のフレームに関して支配的な入力データストリームである場合、それぞれのSBRパラメータをスペクトル成分とともにコピーすることを実行することができる。やはり受け手がSBRベースの信号をデコードできない場合には、周波数領域へのそれぞれの再現を実行し、その後に受け手の要件に応じた再現信号のエンコーディングを実行することができる。
SBRは、2つの符号化ステレオチャネルに対して、左チャネル及び右チャネルを別々にコーディングすることを可能にし、さらには結合チャネル(C)に関して左チャネル及び右チャネルをコーディングすることを可能にするので、本発明の実施の形態によれば、それぞれのSBRパラメータ又はその少なくとも一部分をコピーすることは、比較の結果及び決定の結果に応じて、SBRパラメータのC要素を決定及び送信すべきSBRパラメータの左及び右の両要素へとコピーすること、又はその反対を含むことができる。
さらに、本発明の種々の実施の形態において、入力データストリームが、1つのチャネルを含むモノラル及び2つの個別のチャネルを含むステレオの両方のオーディオ信号を含む可能性があるため、モノラルからステレオへのアップミックス又はステレオからモノラルへのダウンミックスを、出力データストリームのフレームの対応するスペクトル成分の情報の少なくとも一部分を生成するときに情報の少なくとも一部分をコピーする枠組みにおいて、さらに実行することができる。
先の説明において示したとおり、スペクトル情報及び/又はそれぞれのパラメータ(スペクトル成分及びスペクトル情報に関するパラメータ、例えば、TNSパラメータ、SBRパラメータ又はPNSパラメータ)のコピーの程度は、コピーすべきデータの異なる数に基づくことができ、基礎をなすスペクトル情報又はその一部をコピーする必要があるか否かを決定できる。例えば、SBRデータのコピーの場合に、異なるスペクトル成分についてのスペクトル情報の複雑なミキシングを防止するために、該当のデータストリームのフレームの全体をコピーすることが望ましいかもしれない。これらのミキシングは、実際に量子化ノイズを減らすことができる再量子化を必要とする可能性がある。
TNSパラメータに関して、再量子化を防止するために、それぞれのTNSパラメータを支配的な入力データストリームからのフレーム全体のスペクトル情報とともに出力データストリームへとコピーすることが望ましいかもしれない。
PNSベースのスペクトル情報の場合には、基礎をなすスペクトル成分をコピーすることなく個々のエネルギー値をコピーすることが、実行可能な方法かもしれない。さらに、このコピーによる場合には、複数の入力データストリームのフレームの支配的なスペクトル成分からのそれぞれのPNSパラメータだけが、追加の量子化ノイズを持ち込むことなく、出力データストリームの出力フレームの対応するスペクトル成分へ生じる。PNSパラメータの形態のエネルギー値を再量子化することによっても、追加の量子化ノイズが導入される可能性があることに注意すべきである。
上記概説のとおり、上記概説の実施の形態を、複数の入力データストリームのフレームを比較した後、かつ比較に基づいて、出力データストリームの出力フレームのスペクトル成分について、スペクトル情報のソースとなるべき正確に1つのデータストリームを決定した後で、スペクトル成分に関するスペクトル情報を単純にコピーすることによって実現することもできる。
心理音響モジュール950の枠組みにおいて実行される置換アルゴリズムは、ただ1つの有効成分を有するスペクトル成分を特定するために、得られる信号の基礎をなすスペクトル成分(例えば、周波数帯域)に関するスペクトル情報の各々を調べる。これらの帯域について、入力ビットストリームのそれぞれの入力データストリームの量子化された値を、特定のスペクトル成分についてそれぞれのスペクトルデータを再エンコード又は再量子化することなくエンコーダからコピーすることができる。いくつかの状況下では、すべての量子化されたデータを、ただ1つの有効な入力信号から取得して、出力ビットストリーム又は出力データストリームを形成することができ、したがって装置500に関して、入力データストリームのロスのないコーディングを実現できる。
さらに、エンコーダの内部の心理音響分析などの処理工程を省略することが可能になるかもしれない。これは、基本的に、特定の状況下において1つのビットストリームから他のビットストリームへのデータのコピーだけを実行すればよいため、エンコーディング処理の短縮を可能にし、計算の複雑さの軽減を可能にする。
例えば、PNSの場合に、PNSでコードされた帯域のノイズ係数を複数の出力データストリームのうちの1つから出力データストリームへとコピーすることができるため、置換を実行することができる。PNSパラメータがスペクトル成分に特有であり、すなわち換言すると、互いに独立したきわめて良好な近似であるため、個々のスペクトル成分を適切なPNSパラメータで置き換えることが可能である。
しかしながら、上述のアルゴリズムの2つの積極的な適用が、聴取体験の低下又は望ましくない品質の低下につながることが生じうる。したがって、置換を、個々のスペクトル成分に関して、スペクトル情報よりもむしろ、個々のフレームに限ることが望ましいかもしれない。そのような動作の態様においては、無関係さの推定又は無関係さの判断、ならびに置換の分析を、不変のままに実行することができる。しかしながら、置換を、この動作の態様において、有効なフレーム内のスペクトル成分のすべて又は少なくともかなりの数が置換可能である場合に限って実行することができる。
この結果、置換の数がより少なくなるかもしれないが、スペクトル情報の内部強度を、いくつかの状況において改善でき、さらにわずかに改善された品質をもたらすことができる。
以下で、本発明の実施の形態を説明する。そのような実施の形態によれば、それぞれの入力データストリームのペイロードデータに組み合わせられた制御値が考慮され、そのような制御値は、ペイロードデータがそれぞれのオーディオ信号の対応するスペクトル情報又はスペクトル領域の少なくとも一部を表わす方法を示しており、2つの入力データストリームの制御値が等しい場合に、出力データストリームのそれぞれのフレームにおけるスペクトル領域の方法についての新たな決定が回避され、出力ストリームの生成が、入力データストリームのエンコーダによってすでに決定された決定に依存する。後述されるいくつかの実施の形態によれば、それぞれのペイロードデータを、時間/スペクトルサンプルにつき1つのスペクトル値を有する通常又は平易な方法など、スペクトル領域を表わす他の方法へと再変換することが、回避される。
すでに述べたように、本発明による実施の形態はミキシングの実行に基づいているが、そのミキシングは、信号の時間領域への逆変換、ミキシング及び再エンコーディングを含んで到来するすべてのストリームがデコードされるという意味での単刀直入な方法で行われるわけではない。本発明による実施の形態は、それぞれのコーデックの周波数領域で行われるミキシングに基づいている。考えられるコーデックは、AAC−ELDコーデック又は一様な変換ウインドウを有する任意の他のコーデックであってよい。そのような場合、それぞれのデータをミックスできるようにするための時間/周波数変換は不要である。さらに、量子化の刻みのサイズ及び他のパラメータなどのすべてのビットストリームパラメータへのアクセスが可能であり、これらのパラメータを、ミックス済みの出力ビットストリームの生成に使用することができる。
さらに、スペクトル成分に関するスペクトル線又はスペクトル情報のミキシングを、ソースとなる原始スペクトル線又は原始スペクトル情報の重み付け和によって実行できる。重み付け係数は、ゼロもしくは1であってよく、又は原理的には、両者の間の任意の値であってよい。ゼロという値は、ソースが無関係として取り扱われ、まったく使用されないことを意味する。帯域又はスケール係数帯域などの線のグループが、本発明による実施の形態の場合に、同じ重み付け係数を使用することができる。重み付け係数(例えば、ゼロ及び1の分布)を、1つの入力データストリームの1つのフレームの複数のスペクトル成分について変化させることができる。後述の実施の形態は、スペクトル情報のミキシング時にゼロ又は1の重み付け係数をもっぱら使用するようには決して要求されない。いくつかの状況下では、入力データストリームのフレームのただ1つではなくて複数の全体的なスペクトル情報について、それぞれの重み付け係数を、ゼロ又は1とは異なるものとすることができる。
1つの特定の事例は、1つのソース(入力データストリーム)のすべての帯域又はスペクトル成分が1という係数に設定され、他のソースの係数がすべてゼロに設定される事例である。この場合、1人の参加者の完全な入力ビットストリームを、ミキシング後の最終的なビットストリームとして同一にコピーすることができる。重み付け係数を、フレーム毎に計算することができるが、フレームの長い方のグループ又は並びに基づいて計算又は決定することも可能である。当然ながら、そのようなフレームの並びの内部又は単一のフレームの内部でも、上述のように、異なるスペクトル成分について重み付け係数を変えてもよい。重み付け係数を、いくつかの実施の形態においては、心理音響モデルの結果に従って計算又は決定することができる。
そのような比較を、例えば、一部の入力ストリームだけを含むミックス信号と完全なミックス信号との間のエネルギー比の評価に基づいて行うことができる。これは、例えば、式(3)から(5)に関して上述したように達成することができる。換言すると、心理音響モデルが、一部の入力ストリームのみが含まれてエネルギー値Efをもたらしているミックス信号と、エネルギー値Ecを有する完全なミックス信号との間のエネルギー比r(n)を計算することができる。次いで、エネルギー比r(n)が、式(5)に従って、Ecによって除算されたEfの対数の20倍として計算される。
したがって、図6から8に関する参考例の上述の説明と同様に、この比が充分に大きい場合、優勢でないチャネルが、支配的なチャネルによってマスクされていると考えることができる。したがって、無関係の削減が処理され、すなわち、まったく顕著でなく、1という重み付け係数に属するストリームだけが含められ、他のすべてのストリーム(1つのスペクトル成分の少なくとも1つのスペクトル情報)が破棄される。換言すると、これらは、ゼロという重み付け係数に属している。
これは、逆量子化の工程の数が少なくなるがゆえに、タンデムコーディングの影響があまり生じず、あるいはまったく生じないという追加の利点をもたらすことができる。各々の量子化段階が追加の量子化ノイズの軽減について大きな障害となるため、結果としてオーディオ信号の全体としての品質を改善することができる。
図6から8の上述の参考例と同様に、後述される実施の形態は、例えば3名以上の参加者を有する電気通信/ビデオ会議システムであってよい会議システムにおいて使用することが可能であり、時間−周波数変換の工程及び再エンコーディングの工程を省略できるため、時間領域のミキシングに比べて複雑さが少ないという利点を提供することができる。さらに、フィルターバンク遅延が存在しないため、時間領域におけるミキシングに比べて、これらの構成要素によって引き起こされるさらなる遅延が存在しない。
図9は、入力データストリームをミキシングするための本発明の実施の形態による装置500の簡単なブロック図を示している。参照符号の大部分は、理解を容易にするため、及び説明の重複を避けるために、図6から8の実施の形態から採用されている。他の参照符号は、その機能が図6から8の上記実施の形態と比べたときに追加の機能又は代案の機能にて異なって定義されるが、その構成要素の全体的な機能は類似していることを示すために、1000だけ増やされている。
第1の入力データストリーム510−1及び第2の入力データストリーム510−2にもとづき、装置1500に含まれる処理ユニット1520は、出力データストリーム530を生成するように構成されている。第1及び第2の入力データストリーム510はそれぞれ、制御値1545−1、1545−2をそれぞれ含んでいるフレーム540−1、540−2を含んでおり、制御値1545−1、1545−2は、フレーム540のペイロードデータがオーディオ信号のスペクトル領域又はスペクトル情報の少なくとも一部を表わす方法を示している。
出力データストリーム530も、制御値1555を有する出力フレーム550を含んでおり、制御値1555が、出力フレーム550のペイロードデータが出力データストリーム530にエンコードされたオーディオ信号のスペクトル領域でのスペクトル情報を表わす方法を、同様の方法で示している。
装置1500の処理ユニット1520は、第1の入力データストリーム510−1のフレーム540−1の制御値1545−1と、第2の入力データストリーム510−2のフレーム540−2の制御値1545−2とを比較し、比較結果をもたらすように構成されている。この比較結果にもとづき、処理ユニット1520は、出力フレーム550を含む出力データストリーム530を、比較結果が第1及び第2の入力データストリーム510のフレーム540の制御値1545が同一又は等しいことを示している場合には、出力フレーム550が2つの入力データストリーム510のフレーム540の制御値1545の値に等しい値を制御値1550として含むように、生成するようにさらに構成されている。出力フレーム550に含まれるペイロードデータが、スペクトル領域における処理によって、すなわち時間領域を訪れることなく、フレーム540の同一の制御値1545に関して、フレーム540の対応するペイロードデータから導出される。
例えば、制御値1545が、1つ以上のスペクトル成分のスペクトル情報の特殊なコーディング(例えば、PNSデータ)を示しており、2つの入力データストリームのそれぞれの制御値1545が同一である場合、同じ1つ以上のスペクトル成分に対応する出力フレーム550の対応するスペクトル情報を、スペクトル領域において対応するペイロードデータを直接的に処理することによっても得ることができ、すなわちスペクトル領域の表現の種類から離れることなく得ることができる。後述されるように、これを、PNSベースのスペクトル表現の場合には、それぞれのPNSデータを合計する(随意により、正規化プロセスが付随する。)ことによって達成することができる。すなわち、いずれの入力データストリームのPNSデータも、スペクトルサンプルごとに1つの値を有する平易な表現へと再変換されることがない。
図10は装置1500のさらに詳細な図を示しており、主として処理ユニット1520の内部構造に関して図9と相違する。より具体的には、処理ユニット1520が、第1及び第2の入力データストリーム510のための適切な入力部へ接続され、それらのそれぞれのフレーム540の制御値1545を比較するように構成された比較部1560を備えている。入力データストリームは、2つの入力データストリーム510の各々のための随意による変換部1570−1、1570−2へも供給される。さらに、比較部1560が、随意による変換部1570に比較結果を供給するために、随意による変換部1570へと接続されている。
処理ユニット1520は、入力に関して随意による変換部1570へ接続(あるいは、変換部1570のうちの1つ以上が実装されない場合には、入力データストリーム510の該当の入力部へ接続)されたミキサー1580をさらに備えている。ミキサー1580の出力が、随意による正規化部1590へ接続され、次いで(存在するのであれば)正規化部1590が、出力データストリーム530をもたらすべく処理ユニット1520及び装置1500の出力部に接続されている。
上述のように、比較部1560が、2つの入力データストリーム510のフレーム1540の制御値を比較するように構成されている。比較部1560は、変換部1570(存在する場合)に、それぞれのフレーム540の制御値1545が同一であるか否かを知らせる信号を供給する。比較結果を表わす信号が、2つの制御値1545が少なくとも1つのスペクトル成分に関して同一又は等しい旨を示している場合、変換部1570は、フレーム540に含まれるそれぞれのペイロードデータを変換しない。
次いで、入力データストリーム510のフレーム540に含まれるペイロードデータが、ミキサー1580によってミックスされ、得られる値が許容可能な値の範囲をオーバーシュート又はアンダーシュートすることがないように保証すべく正規化工程を実行するために、正規化部1590(存在する場合)へ出力される。ペイロードデータのミキシングの例は、図12Aから12Cの文脈においてさらに詳しく後述される。
正規化部1590を、ペイロードデータをそれらのそれぞれの値に従って再量子化するように構成された量子化器として実現することができ、あるいは正規化部1590を、その具体的な実装に応じて、量子化刻みの分布を示すスケール係数や、最小又は最大の量子化レベルの絶対値のみを変更するように構成することができる。
比較部1560が、制御値1545が少なくとも1つ以上のスペクトル成分に関して異なっている旨を知らせる場合、比較部1560は、一方又は両方の変換部1570に、それぞれの変換部1570に入力データストリーム510の少なくとも1つのペイロードデータを他方の入力データストリームのペイロードデータへ変換するように知らせるそれぞれの制御信号を供給することができる。この場合、ミキサー1580が2つの入力データストリームのうちの変換されないフレーム540の制御値に等しい制御値1555又は両方のフレーム540のペイロードデータの共通の値をもつ出力フレーム550を生成できるように、変換部を、変換されるフレームの制御値も同時に変更するように構成することができる。
さらに詳しい例を、PNSの実施例、SBRの実施例、及びM/Sの実施例などの種々の応用について、それぞれ図12Aから12Cの文脈において後述する。
図9から12Cの実施の形態が、決して図9及び10ならびに次の図11に示されているような2つの入力データストリーム1510−1、1510−2に限られないことを、指摘しておかなければならない。むしろ、同じものを、3つ以上の入力データストリーム510を含む複数の入力データストリームを処理するように構成できる。この場合、比較部1560を、例えば、適切な数の入力データストリーム510及びそこに含まれるフレーム540を比較するように構成することができる。さらに、具体的な実施例に応じて、適切な数の変換部1570を実装することもできる。ミキサー1580ならびに随意による正規化部1590も、最終的に、処理すべきデータストリームの数の増加に合わせて構成することができる。
3つ以上の入力データストリーム510の場合には、比較部1560を、入力データストリーム510の関係する制御値1545のすべてを比較して、随意によって実装される変換部1570のうちの1つ以上によって変換工程を実行すべきか否かを決定するように構成することができる。これに代え、あるいはこれに加えて、比較部1560を、比較の結果がペイロードデータについて共通の表現方法への変換が実現可能である旨を示している場合に、一式の入力データストリームの変換部1570による変換を決定するように構成することも可能である。例えば、関係するペイロードデータの異なる表現が特定の表現を必要としていない限り、比較部1560を、例えば、全体としての複雑さを最小化するような方法で変換部1570を作動させるように構成することができる。これは、例えば、比較部1560に保存され、あるいは別の方法で比較部1560にとって利用可能である複雑さの値の所定の推定に基づいて実現することができる。
さらに、例えば周波数領域への変換を必要に応じてミキサー1580によって随意により実行できる場合には、変換部1570が最終的に省略可能であることに注意すべきである。これに代え、あるいはこれに加えて、変換部1570の機能を、ミキサー1580に組み込むことも可能である。
さらに、フレーム540が、聴覚雑音置換(PNS)、時間雑音整形(TNS)及びステレオコーディングの態様など、2つ以上の制御値を含んでよいことに注意すべきである。PNSパラメータ、TNSパラメータ又はステレオ・コーディング・パラメータのうちの少なくとも1つを処理することができる装置の動作を説明する前に、図11を参照する。図11は、図8と同じであるが、図8が第1及び第2の入力データストリームから出力データストリームを生成するための実施の形態をすでに示していることを示すために、図11においては、参照符号1500及び1520がそれぞれ500及び520の代わりに使用されている。処理ユニット520及び1520のそれぞれを、図9及び10に関して説明した機能を実行するように構成することも可能である。特に、処理ユニット1520において、スペクトルミキサー810と最適化モジュール820とSBRミキサー830とを含んでいるミキシングユニット800が、図9及び10に関してすでに述べた機能を実行する。すでに示したように、入力データストリームのフレームに含まれる制御値は、PNSパラメータ、SBRパラメータ又はステレオコーディングに関する制御データ、すなわちM/Sパラメータであってよい。それぞれの制御値が同じ又は同一である場合、ミキシングユニット800は、ペイロードデータを処理して、出力データストリームの出力フレームに含まれるべくさらに処理される対応するペイロードデータを生成することができる。この点で、すでに上述したように、SBRは、2つの符号化ステレオチャネルに対して、左チャネル及び右チャネルを別々にコーディングすることを可能にし、さらにはそれらを結合チャネル(C)に関してコーディングすることを可能にするため、本発明の実施の形態によれば、それぞれのSBRパラメータ又はその少なくとも一部分を処理することは、比較の結果及び決定の結果に応じて、SBRパラメータのC要素を処理してSBRパラメータの左及び右の両要素を得ること、又はその反対を含むことができる。同様に、スペクトル情報及び/又はそれぞれのパラメータ(スペクトル成分及びスペクトル情報に関するパラメータ、例えば、TNSパラメータ、SBRパラメータ又はPNSパラメータ)の処理の程度は、処理すべきデータの異なる数に基づくことができ、基礎をなすスペクトル情報又はその一部をデコードする必要があるか否かを決定できる。例えば、SBRデータのコピーの場合に、異なるスペクトル成分についてのスペクトル情報の複雑なミキシングを防止するために、該当のデータストリームのフレームの全体を処理することが望ましいかもしれない。これらのミキシングは、実際に量子化ノイズを減らすことができる再量子化を必要とする可能性がある。TNSパラメータに関して、再量子化を防止するために、それぞれのTNSパラメータを支配的な入力データストリームからのフレーム全体のスペクトル情報とともに出力データストリームへと分解することが望ましいかもしれない。PNSベースのスペクトル情報の場合には、基礎をなすスペクトル成分をコピーすることなく個々のエネルギー値を処理することが、実行可能な方法かもしれない。さらに、この処理による場合には、複数の入力データストリームのフレームの支配的なスペクトル成分からのそれぞれのPNSパラメータだけが、追加の量子化ノイズを持ち込むことなく、出力データストリームの出力フレームの対応するスペクトル成分へ生じる。PNSパラメータの形態のエネルギー値を再量子化することによっても、追加の量子化ノイズが導入される可能性があることに注意すべきである。
図12Aから12Cに関して、それぞれの制御値の比較に基づいてペイロードデータをミキシングする3つの異なる態様を、さらに詳しく説明する。図12Aは本発明の実施の形態による装置500のPNSベースの実施例の例を示しており、図12Bは同様のSBRの実施例を示しており、図12CはそのM/Sの実施例を示している。
図12Aは、第1及び第2の入力データストリーム510−1、510−2のそれぞれが適切な入力フレーム540−1、540−2及びそれぞれの制御値1545−1、1545−2を有している例を示している。図12Aにおいて矢印によって示されているように、入力データストリーム510のフレーム540の制御値1545は、スペクトル成分が間接的にスペクトル情報に関して記述されているのではなく、ノイズ源のエネルギー値に関して記述されていること、すなわち適切なPNSパラメータによって記述されていることを示している。さらに具体的には、図12Aが、第1のPNSパラメータ2000−1と、PNSパラメータ2000−2を含んでいる第2の入力データストリーム510−2のフレーム540−2とを示している。
図12Aに関して仮定されるように、2つの入力データストリーム510の2つのフレーム540の制御値1545が、特定のスペクトル成分をそのそれぞれのPNSパラメータ2000によって置き換えるべきであることを示しているため、処理ユニット1520及び装置1500は、すでに述べたように、2つのPNSパラメータ2000−1、2000−2をミキシングして、出力データストリーム530に含まれるべき出力フレーム550のPNSパラメータ2000−3に到達することができる。出力フレーム550の該当の制御値1555も、基本的に、該当のスペクトル成分がミキシングされたPNSパラメータ2000−3によって置き換えられるべきであることを示している。このミキシングプロセスが、図12Aにおいて、PNSパラメータ2000−3をそれぞれのフレーム540−1、540−2のPNSパラメータ2000−1、2000−2の結合であるとして示すことによって説明されている。
しかしながら、PNS出力パラメータとも称されるPNSパラメータ2000−3の決定を、
Figure 0005536674
による線形結合に基づいて実現することも可能であり、ここでPNS(i)は、入力データストリームのそれぞれのPNSパラメータであり、Nは、ミキシングされる入力データストリームの数であり、aiは、適切な重み付け係数である。具体的な実施例に応じて、重み付け係数aiを、等しくなるように選択することができる。
Figure 0005536674
図12Aに示されている単刀直入な実施例は、すべての重み付け係数aiが1に等しい場合であってよく、すなわち以下のようであってよい。
Figure 0005536674
図10に示したような正規化部1590を省略すべき場合には、重み付け係数を、1/Nに等しくなるように定めることもでき、したがって式
Figure 0005536674
が当てはまる。
ここで、パラメータNは、ミキシングされる入力データストリームの数であり、装置1500へもたらされる入力データストリームの数は同じ数である。簡単のために、重み付け係数aiに関する別の正規化も実現可能であることに注意すべきである。
換言すると、参加者側の有効なPNSツールの場合に、ノイズエネルギー係数が、適切なスケール係数ならびにスペクトル成分(例えば、スペクトル帯域)の量子化データに取って代わる。この係数の他には、さらなるデータがPNSツールによって出力データストリームへもたらされることない。PNSスペクトル成分のミキシングの場合に、それは2つの異なる事例に帰着する可能性がある。
上述のように、関連の入力データストリームのすべてのフレーム540のそれぞれのスペクトル成分がPNSパラメータに関して表現される。周波数成分(例えば、周波数帯域)のPNS関連の記述の周波数データが、ノイズエネルギー係数(PNSパラメータ)から直接に導出されるため、適切な係数を、単純にそれぞれの値を加算することによってミックスすることができる。次いで、ミックスされたPNSパラメータが、受け手側のPNSデコーダの内部に、他のスペクトル成分の純粋なスペクトル値とミックスされる同等な周波数分解能を生成する。ミキシングの際に正規化プロセスが使用される場合、重み付け係数aiに関して同様な正規化係数を実施することが有用かもしれない。例えば、1/Nに比例する係数での正規化の場合に、重み付け係数aiを、式(9)に従って選択することができる。
少なくとも1つの入力データストリーム510の制御値1545が、スペクトル成分に関して異なっており、それぞれの入力データストリームを低いエネルギーレベルを理由に破棄すべきではない場合、図11に示したようなPNSデコーダが、PNSパラメータに基づいてスペクトル情報又はスペクトルデータを生成し、最適化モジュール820の枠組みにおいてPNSパラメータをミキシングする代わりに、それぞれのデータをミキシングユニットのスペクトルミキサー810の枠組みにおいてミックスすることが望ましいかもしれない。
PNSスペクトル成分のお互いに対する独立性ならびに出力データストリーム及び入力データストリームの全体的に定められるパラメータに対する独立性ゆえに、ミキシング方法の選択を、帯域に関する方法で適応させることができる。そのようなPNSベースのミキシングが不可能である場合、スペクトル領域におけるミキシングの後でPNSエンコーダ880によってそれぞれのスペクトル成分を再エンコードすることを考慮することが望ましいかもしれない。
図12Bは、本発明の実施の形態による態様の動作原理のさらなる例を示している。より正確には、図12Bは、適切なフレーム540−1、540−2及びそれらの制御値1545−1、1545−2を有している2つの入力データストリーム510−1、510−2の事例を示している。フレーム540が、いわゆるクロスオーバー周波数fxを上回るスペクトル成分についてのSBRデータを含んでいる。制御値1545が、SBRパラメータがそもそも使用されているか否かについての情報、ならびに実際のフレーム格子又は時間/周波数格子に関する情報を含んでいる。
上述のように、SBRツールは、クロスオーバー周波数fxを上回る上方の周波数帯において、スペクトルの一部を、別の方法でエンコードされるスペクトルの下方部分を複製することによって複製する。SBRツールは、さらなるスペクトル情報も含んでいる入力データストリーム510のフレーム540に等しい各々のSBRフレームについていくつかの時間スロットを決定する。時間スロットは、SBRツールの周波数範囲を、小さな等間隔の周波数帯域又はスペクトル成分に分ける。SBRフレームにおけるこれらの周波数帯域の数は、エンコーディングに先立って送信者又はSBRツールによって決定される。MPEG−4 AAC−ELDの場合には、時間スロットの数が16に固定されている。
時間スロットがいわゆるエンベロープに含まれ、各々のエンベロープがそれぞれのグループを形成する少なくとも2つ以上の時間スロットを含んでいる。各々のエンベロープに、いくつかのSBR周波数データが属している。フレーム格子又は時間/周波数格子に、時間スロットの数及び個々のエンベロープの時間スロットを単位にする長さが保存されている。
個々のエンベロープの周波数分解能は、いくつのSBRエネルギーデータがエンベロープについて計算され、エンベロープに関して保存されるかを決定する。SBRツールは、高い分解能及び低い分解能の間でのみ相違し、高い分解能を有するエンベロープは、低い分解能のエンベロープの2倍の数の値を含んでいる。高い分解能及び低い分解能を有するエンベロープの周波数値又はスペクトル成分の数は、ビットレート、サンプリング周波数、などといったエンコーダのさらなるパラメータに依存する。
MPEG−4 AAC−ELDの文脈においては、SBRツールが、高い分解能を有するエンベロープに関して16から14の値を利用することが多い。
周波数に関する適切な数のエネルギー値によるフレーム540の動的な分割ゆえに、過渡を考慮することができる。フレームに過渡が存在する場合、SBRエンコーダは、該当のフレームを適切な数のエンベロープに分割する。この分配は、AAC ELDコーデックにおいて使用されるSBRツールの場合に標準化され、時間スロットを単位とする過渡transposeの位置に依存する。多くの場合、得られる格子フレーム又は時間/周波数格子は、過渡が存在する場合には、3つのエンベロープを含む。第1のエンベロープ、すなわち開始エンベロープは、フレームの最初を過渡を受け取る時間スロットまで含んでおり、ゼロからtranspose−1までの時間スロットインデックスを有している。第2のエンベロープは、時間スロットインデックスtransposeからtranspose+2までの過渡を囲む2つの時間スロットの長さを有している。第3のエンベロープは、transpose+3から16までのインデックスを有する残りのすべての時間スロットを含んでいる。
しかしながら、エンベロープの最小長さは、2つの時間スロットである。結果として、フレーム境界付近に過渡を含んでいるフレームは、最終的に2つのエンベロープだけしか含まないかもしれない。過渡がフレームに存在しない場合、時間スロットは、等しい長さのエンベロープに分布する。
図12Bが、フレーム540内のそのような時間/周波数格子又はフレーム格子を示している。制御値1545が、同じSBR時間格子又は時間/周波数格子が2つのフレーム540−1、540−2に存在する旨を示す場合には、それぞれのSBRデータを、上記式(6)から(9)の文脈において説明した方法と同様にコピーすることができる。換言すると、そのような場合には、図11に示したようなSBRミキシングツール又はSBRミキサー830が、それぞれの入力フレームの時間/周波数格子又はフレーム格子を出力フレーム550へとコピーし、式(6)から(9)と同様に、それぞれのエネルギー値を計算することができる。さらに換言すると、フレーム格子のSBRエネルギーデータを、それぞれのデータを単純に合計し、随意によりそれぞれのデータを正規化することによって、ミックスすることができる。
図12Cは、本発明による実施の形態の動作の態様のさらなる例を示している。より正確には、図12Cは、M/Sの実施例を示している。やはり、図12Cも、2つの入力データストリーム510を2つのフレーム540及び関連の制御値1545とともに示しており、制御値1545はペイロードデータフレーム540が少なくともその少なくとも1つのスペクトル成分に関して表わされる方法を示している。
フレーム540の各々が2つのチャネル(第1のチャネル2020及び第2のチャネル2030)のオーディオデータ又はスペクトル情報を含んでいる。それぞれのフレーム540の制御値1545に応じて、第1のチャネル2020が例えば左チャネル又は中央チャネルとなり、第2のチャネル2030がステレオ信号の右チャネル又は横チャネルとなることができる。エンコーディングの第1の態様は、多くの場合、LRモードと称され、第2の態様は、多くの場合、M/Sモードと称される。
ジョイントステレオと称されることもあるM/Sモードにおいては、中央チャネル(M)が、左チャネル(L)及び右チャネル(R)の合計に比例するものとして定義される。多くの場合、1/2という追加の係数が、中央チャネルが2つのステレオチャネルの平均値を時間領域及び周波数領域の両者において含むように定義に含められる。
横チャネルは、典型的には、2つのステレオチャネルの差に比例するように定義され、すなわち左チャネル(L)及び右チャネル(R)の差に比例するように定義される。やはり、1/2という追加の係数が、横チャネルがステレオ信号の2つのチャネルの間のずれの値の半分、すなわち中央チャネルからのずれを実際に表わすように含められる。したがって、左チャネルを中央チャネルと横チャネルとを合計することによって再現でき、一方、右チャネルを中央チャネルから横チャネルを引き算することによって得ることができる。
フレーム540−1及び540−2について同じステレオエンコーディング(L/R又はM/S)が使用される場合、フレームに含まれるチャネルの再変換を省略でき、L/R又はM/Sでエンコードされたそれぞれの領域において直接的なミキシングが可能である。
この場合、やはりミキシングを、周波数領域において直接に実行することができ、2つのフレーム540の制御値1545−1、1545−2に等しい値を持つ該当の制御値1555を有する出力データストリーム530に含まれるフレーム550がもたらされる。したがって、出力フレーム550は、入力データストリームのフレームの第1及び第2のチャネルから導出された2つのチャネル2020−3、2030−3を含む。
2つのフレーム540の制御値1545−1、1545−2が等しくない場合には、一方のフレームを上述のプロセスに基づいて他方の表現へと変換することが望ましいかもしれない。出力フレーム550の制御値1555を、変換後のフレームを表わす値へと相応に設定することができる。
本発明の実施の形態によれば、制御値1545、1555が、フレーム540、550の全体の表現をそれぞれ示すことができ、あるいはそれぞれの制御値が、周波数成分に特有であってよい。最初の場合には、チャネル2020、2030が、特定の方法のうちの1つによってフレーム全体にわたってエンコードされ、2番目の場合には、基本的に、スペクトル成分に関するスペクトル情報の各々が、異なる方法でエンコードされる。当然ながら、スペクトル成分の部分群を制御値1545のうちの1つによって記述することもできる。
さらに、置換アルゴリズムを、心理音響モジュール950の枠組みにおいて実行し、ただ1つの有効成分を有するスペクトル成分を特定するために、得られる信号の基礎をなすスペクトル成分(例えば、周波数帯域)に関するスペクトル情報の各々を調べることができる。これらの帯域について、入力ビットストリームのそれぞれの入力データストリームの量子化された値を、特定のスペクトル成分についてそれぞれのスペクトルデータを再エンコード又は再量子化することなくエンコーダからコピーすることができる。いくつかの状況下では、すべての量子化されたデータを、ただ1つの有効な入力信号から取得して、出力ビットストリーム又は出力データストリームを形成することができ、したがって装置1500に関して、入力データストリームのロスのないコーディングを実現できる。
さらに、エンコーダの内部の心理音響分析などの処理工程を省略することが可能になるかもしれない。これは、基本的に、特定の状況下において1つのビットストリームから他のビットストリームへのデータのコピーだけを実行すればよいため、エンコーディング処理の短縮を可能にし、計算の複雑さの軽減を可能にする。
例えば、PNSの場合に、PNSでコードされた帯域のノイズ係数を出力データストリームの1つから出力データストリームへとコピーすることができるため、置換を実行することができる。PNSパラメータがスペクトル成分に特有であり、すなわち換言すると、互いに独立したきわめて良好な近似であるため、個々のスペクトル成分を適切なPNSパラメータで置き換えることが可能である。
しかしながら、上述のアルゴリズムの2つの積極的な適用が、聴取体験の低下又は望ましくない品質の低下につながることが生じうる。したがって、置換を、個々のスペクトル成分に関して、スペクトル情報よりもむしろ、個々のフレームに限ることが望ましいかもしれない。そのような動作の態様においては、無関係さの推定又は無関係さの判断、ならびに置換の分析を、不変のままに実行することができる。しかしながら、置換を、この動作の態様において、有効なフレーム内のスペクトル成分のすべて又は少なくともかなりの数が置換可能である場合に限って実行することができる。
この結果、置換の数がより少なくなるかもしれないが、スペクトル情報の内部強度を、いくつかの状況において改善でき、さらにわずかに改善された品質をもたらすことができる。
上述の実施の形態は、当然ながら、その実施に関してさまざまであってよい。これまでの実施の形態においては、ハフマンデコーディング及びエンコーディングを、単一エントロピーエンコーディングの仕組みとして説明したが、他のエントロピーエンコーディングの仕組みも使用可能である。さらには、エントロピーエンコーダ又はエントロピーデコーダを実装することは、決して必須ではない。したがって、これまでの実施の形態の説明は、主としてACC−ELDコーデックに集中していたが、他のコーデックも、参加者側での入力データストリームの供給及び出力データストリームのデコードに使用することができる。例えば、ブロック長の切り替えを有さないシングルウインドウに基づく任意のコーデックを使用することが可能である。
例えば、図8及び11に示した実施の形態についての先の説明も示しているとおり、そこで説明されたモジュールは、必須ではない。例えば、本発明の実施の形態による装置を、フレームのスペクトル情報について動作することによって単純に実現することができる。
図6から12Cに関して上述した実施の形態を、さまざまな異なる方法で実現できることに、注意すべきである。例えば、複数の入力データストリームのミキシングのための装置500/1500及びその処理ユニット520/1520を、抵抗器、トランジスター、インダクター、などのディスクリートな電気及び電子デバイスに基づいて実現することができる。さらに、本発明による実施の形態を、集積回路のみに基づいて、例えばSOCs(SOC=システム・オン・チップ)、CPU(CPU=中央演算ユニット)及びGPU(GPU=グラフィック処理ユニット)などのプロセッサー、ならびに特定用途向け集積回路(ASIC)などの他の集積回路(IC)の形態で実現することもできる。
さらに、ディスクリートな実施例の一部又は集積回路の一部である電気デバイスを、本発明の実施の形態による装置の実現の全体において、異なる目的及び異なる機能のために使用できることに注意すべきである。当然ながら、集積回路及びディスクリートな回路に基づく回路の組み合わせも、本発明による実施の形態を実現するために使用することができる。
プロセッサーをベースに、本発明による実施の形態を、コンピュータープログラム、ソフトウェアプログラム、又はプロセッサー上で実行されるプログラムに基づいて実現することも可能である。
換言すると、本発明の方法の実施の形態の特定の実現の要件に応じて、本発明の方法の実施の形態を、ハードウェア又はソフトウェアにて実現することができる。実現を、電子的に読み取ることができる信号(本発明の方法の実施の形態が実行されるように、プログラマブルなコンピューター又はプロセッサーと協働する。)が保存されてなるデジタル記憶媒体(特に、ディスク、CD、又はDVD)を使用して行うことができる。したがって、一般に、本発明の実施の形態は、プログラムコードを機械によって読み取り可能な担体に保存して有しているコンピュータープログラム製品であり、そのようなプログラムコードは、コンピュータープログラム製品がコンピューター又はプロセッサー上で実行されるときに、本発明の方法の実施の形態を実行するように動作することができる。したがって、さらに換言すると、本発明の方法の実施の形態は、コンピュータープログラムに関し、そのようなコンピュータープログラムが、コンピューター又はプロセッサー上で実行されたときに本発明の方法の実施の形態の少なくとも1つを実行するプログラムコードを有している。プロセッサーを、コンピューター、チップカード、スマートカード、特定用途向け集積回路、システム・オン・チップ(SOC)又は集積回路(IC)によって形成することができる。
100 会議システム
110 入力
120 デコーダ
130 加算器
140 エンコーダ
150 出力
160 会議端末
170 エンコーダ
180 デコーダ
190 時間/周波数コンバーター
200 量子化器/コーダー
210 デコーダ/逆量子化器
220 周波数/時間コンバーター
250 データストリーム
260 フレーム
270 さらなる情報のブロック
300 周波数
310 周波数帯域
500 装置
510 入力データストリーム
520 処理ユニット
530 出力データストリーム
540 フレーム
550 出力フレーム
560 スペクトル成分
570 矢印
580 途切れた線
700 ビットストリームデコーダ
710 ビットストリーム読み取り部
720 ハフマンコーダー
730 デクオンタイザー
740 スケーラー
750 第1のユニット
760 第2のユニット
770 ステレオデコーダ
780 PNSデコーダ
790 TNSデコーダ
800 ミキシングユニット
810 スペクトルミキサー
820 最適化モジュール
830 SBRミキサー
850 ビットストリームエンコーダ
860 第3のユニット
870 TNSエンコーダ
880 PNSエンコーダ
890 ステレオエンコーダ
900 第4のユニット
910 スケーラー
920 量子化器
930 ハフマンコーダー
940 ビットストリームライタ
950 心理音響モジュール制御値
1500 装置
1520 処理ユニット
1545 制御値
1550 出力フレーム
1555 制御値

Claims (15)

  1. 第1の入力データストリーム(510−1)及び第2の入力データストリーム(510−2)から出力データストリーム(530)を生成するための装置(1500)であって、
    処理ユニット(1520)を備えており、
    前記第1及び第2の入力データストリーム(510)の各々がフレーム(540)を含んでおり、該フレーム(540)の各々が制御値(1545)及び関連のペイロードデータを含んでおり、該制御値が、前記ペイロードデータがオーディオ信号のスペクトル領域の少なくとも一部分を表わす方法を示す情報を含んでおり、
    前記処理ユニット(1520)は、前記第1の入力データストリーム(510−1)のフレーム(540)の制御値(1545)及び前記第2の入力データストリーム(510−2)のフレーム(540)の制御値(1545)を比較して、比較結果をもたらすように構成されており、
    前記処理ユニット(1520)は、前記比較結果が前記第1及び第2の入力データストリームのフレームの制御値が同一である旨を示す場合に、出力フレーム(550)が前記第1及び第2の入力データストリームのフレームの前記制御値に等しい制御値(1555)並びに前記ペイロードデータをスペクトル領域において処理することによって前記第1及び第2の入力データストリーム(510)のフレーム(540)のペイロードデータから導出されるペイロードデータを含むような出力フレーム(550)を含む出力データストリーム(530)を生成するようにさらに構成されている装置(1500)。
  2. 前記処理ユニット(1520)は前記第1又は第2の入力データストリーム(510)のフレームの制御値(1545)が少なくとも1つのスペクトル成分に関係するように構成されており、
    前記制御値に関連のペイロードデータは前記少なくとも1つのスペクトル成分に関するオーディオ信号の記述を表わしている請求項1に記載の装置(1500)。
  3. 前記処理ユニット(1520)は、前記第1の入力データストリーム(510−1)のフレーム(540)の制御値(1545)、前記第2の入力データストリーム(510−2)のフレーム(540)の制御値(1545)、並びに前記第1及び第2の入力データストリームのフレームの関連のペイロードデータが同じスペクトル成分に関係するように構成されている請求項2に記載の装置(1500)。
  4. 前記処理ユニット(1520)は、前記第1の入力データストリーム及び前記第2の入力データストリーム(510)がそれぞれ時間に関してフレーム(540)の並びを含むように構成されており、かつ、
    前記処理ユニット(1520)は、前記フレームの並びに関して、フレームの共通の時間インデックスをもつフレームについて、前記第1及び第2の入力データストリーム(510)のフレームの制御値(1545)を比較するように構成されている請求項1から3のいずれか一項に記載の装置(1500)。
  5. 前記処理ユニット(1520)は、
    前記比較結果が前記第1及び第2の入力データストリーム(510)の制御値(1545)が同一でないことを示している場合に、前記ペイロードデータをスペクトル領域において処理することによって、前記第1及び第2の入力データストリーム(510)のうちの一方の入力データストリームのフレーム(540)の制御値に等しい制御値(1555)と、前記一方の入力データストリームのフレームのペイロードデータ及び他方の入力データストリームのフレームのペイロードデータから導出されるペイロードデータとを含む出力フレーム(550)を生成するのに先立って、
    前記第1及び第2の入力データストリーム(510)のうちの前記他方の入力データストリームのフレーム(540)のペイロードデータを、前記第1及び第2の入力データストリーム(510)のうちの前記一方の入力データストリームのフレームのペイロードデータの表現へ変換するようにさらに構成されている請求項1から4のいずれか一項に記載の装置(1500)。
  6. 前記処理ユニット(1520)は、前記第1及び第2の入力データストリームのフレームの少なくとも1つの少なくとも一部分に関して量子化レベルの分布が維持されるように、出力フレームを生成するように構成されている請求項1から5のいずれか一項に記載の装置(1500)。
  7. 前記少なくとも1つのフレームの前記一部分は、制御値と該制御値に関連のペイロードデータとが関係するスペクトル成分のみに対応する請求項6に記載の装置(1500)。
  8. 前記処理ユニット(1520)は、第1の入力データストリームのフレームのペイロードデータ及び第2の入力データストリームのフレームのペイロードデータの各々が、スペクトル領域における前記オーディオ信号の第1のオーディオチャネル及び第2のオーディオチャネルの表現を含むように構成されており、
    前記第1の入力データストリームのフレームの制御値及び前記第2の入力データストリームのフレームの制御値は、前記第1のオーディオチャネルが前記オーディオ信号の左チャネル(Lチャネル)であり、前記第2のオーディオチャネルが右チャネル(Rチャネル)であるか、又は前記第1のオーディオチャネルが前記オーディオ信号の中央チャネル(Mチャネル)であり、前記第2のオーディオチャネルが横チャネル(Sチャネル)であるかを示している請求項1から7のいずれか一項に記載の装置(1500)。
  9. 前記処理ユニット(1520)は、前記第1及び第2の入力データストリーム(510)のフレーム(540)の制御値(1545)が、それぞれの制御値に関連するペイロードデータがノイズ源のエネルギー関連の値を含んでいるか否かを示すように構成されている請求項1から8のいずれか一項に記載の装置(1500)。
  10. 前記エネルギー関連の値が聴覚雑音置換パラメータ(PNSパラメータ)である請求項9に記載の装置(1500)。
  11. 前記処理ユニット(1520)は、前記第1の入力データストリーム(510−1)のフレーム(540)の制御値(1545)及び前記第2の入力データストリーム(510−)のフレーム(540)の制御値(1545)が、該制御値の関連のペイロードデータに含まれるSBRデータのエンベロープに関する情報を含むように構成されており、かつ、
    前記処理ユニット(1520)は、前記比較結果が同一のエンベロープを示している場合にSBRスペクトル領域において出力データストリームを生成するように構成されている請求項1から10のいずれか一項に記載の装置(1500)。
  12. 前記処理ユニット(1520)は前記第1及び第2の入力データストリーム(510)のフレームを比較するようにさらに構成されており、
    前記処理ユニット(1520)は、前記フレーム(540)の比較に基づいて、前記第1及び第2の入力データストリームのうちの正確に1つの入力データストリーム(510)を決定するようにさらに構成されており、かつ、
    前記処理ユニット(1520)は、前記決定された入力ストリームのフレーム(540)のペイロードデータ及び制御値(1545)をコピーすることによって出力データストリーム(530)を生成するようにさらに構成されている請求項1から11のいずれか一項に記載の装置(1500)。
  13. 前記処理ユニットは、前記制御値によって示されるようにスペクトル領域の表現の方法にとどまることによって、前記第1及び第2の入力データストリームのフレームのペイロードデータから出力データストリームのペイロードデータを導出することによって、出力データストリームを生成するようにさらに構成されている請求項1から12のいずれか一項に記載の装置(1500)。
  14. 第1の入力データストリーム(510−1)及び第2の入力データストリーム(510−2)から出力データストリーム(530)を生成するための方法であって、
    前記第1及び第2の入力データストリーム(510)の各々がフレーム(540)を含んでおり、該フレーム(540)が制御値(1545)及び関連のペイロードデータを含んでおり、該制御値が、前記ペイロードデータがオーディオ信号のスペクトル領域の少なくとも一部分をどのように表わすかを示す情報を含んでおり、
    当該方法は、前記第1の入力データストリーム(510−1)のフレーム(540)の制御値(1545)及び前記第2の入力データストリーム(510−2)のフレーム(540)の制御値(1545)を比較して、比較結果をもたらすステップと、
    前記比較結果が前記第1及び第2の入力データストリームのフレームの制御値が同一である旨を示す場合に、出力フレーム(550)を含む出力データストリーム(530)を生成するステップであって、該出力フレーム(550)が前記第1及び第2の入力データストリーム(510)のフレーム(540)の前記制御値に等しい制御値(1555)と、前記ペイロードデータをスペクトル領域において処理することによって前記第1及び第2の入力データストリームのフレームのペイロードデータから導出されるペイロードデータとを含むように出力データストリーム(530)を生成するステップと、を含んでいる方法。
  15. 出力データストリームを生成するための請求項14に記載の方法をプロセッサー上で実行させるためのプログラム。
JP2010549056A 2008-03-04 2009-03-04 入力データストリームのミキシング及びそこからの出力データストリームの生成 Active JP5536674B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US3359008P 2008-03-04 2008-03-04
US61/033,590 2008-03-04
PCT/EP2009/001534 WO2009109374A2 (en) 2008-03-04 2009-03-04 Mixing of input data streams and generation of an output data stream therefrom

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2013095511A Division JP5654632B2 (ja) 2008-03-04 2013-04-30 入力データストリームのミキシング及びそこからの出力データストリームの生成

Publications (2)

Publication Number Publication Date
JP2011518342A JP2011518342A (ja) 2011-06-23
JP5536674B2 true JP5536674B2 (ja) 2014-07-02

Family

ID=41053617

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2010549056A Active JP5536674B2 (ja) 2008-03-04 2009-03-04 入力データストリームのミキシング及びそこからの出力データストリームの生成
JP2010549055A Active JP5302980B2 (ja) 2008-03-04 2009-03-04 複数の入力データストリームのミキシングのための装置
JP2013095511A Active JP5654632B2 (ja) 2008-03-04 2013-04-30 入力データストリームのミキシング及びそこからの出力データストリームの生成

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2010549055A Active JP5302980B2 (ja) 2008-03-04 2009-03-04 複数の入力データストリームのミキシングのための装置
JP2013095511A Active JP5654632B2 (ja) 2008-03-04 2013-04-30 入力データストリームのミキシング及びそこからの出力データストリームの生成

Country Status (15)

Country Link
US (2) US8290783B2 (ja)
EP (3) EP2250641B1 (ja)
JP (3) JP5536674B2 (ja)
KR (3) KR101178114B1 (ja)
CN (3) CN102016985B (ja)
AT (1) ATE528747T1 (ja)
AU (2) AU2009221443B2 (ja)
BR (2) BRPI0906079B1 (ja)
CA (2) CA2716926C (ja)
ES (3) ES2753899T3 (ja)
HK (1) HK1149838A1 (ja)
MX (1) MX2010009666A (ja)
PL (1) PL2250641T3 (ja)
RU (3) RU2488896C2 (ja)
WO (2) WO2009109374A2 (ja)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101479011B1 (ko) * 2008-12-17 2015-01-13 삼성전자주식회사 다중 대역 스케쥴링 방법 및 이를 이용한 방송 서비스 시스템
WO2010070770A1 (ja) * 2008-12-19 2010-06-24 富士通株式会社 音声帯域拡張装置及び音声帯域拡張方法
WO2010125802A1 (ja) * 2009-04-30 2010-11-04 パナソニック株式会社 デジタル音声通信制御装置及び方法
JP5645951B2 (ja) * 2009-11-20 2014-12-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
BR112012014856B1 (pt) 2009-12-16 2022-10-18 Dolby International Ab Método para fundir conjuntos de fonte de parâmetros de sbr a conjuntos-alvo de parâmetros de sbr, meio de armazenamento não transitório e unidade de fusão de parâmetros de sbr
US20110197740A1 (en) * 2010-02-16 2011-08-18 Chang Donald C D Novel Karaoke and Multi-Channel Data Recording / Transmission Techniques via Wavefront Multiplexing and Demultiplexing
TR201901336T4 (tr) 2010-04-09 2019-02-21 Dolby Int Ab Mdct-tabanlı karmaşık tahmin stereo kodlama.
ES2953084T3 (es) * 2010-04-13 2023-11-08 Fraunhofer Ges Forschung Decodificador de audio para procesar audio estéreo usando una dirección de predicción variable
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
JP5957446B2 (ja) * 2010-06-02 2016-07-27 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 音響処理システム及び方法
CN102568481B (zh) * 2010-12-21 2014-11-26 富士通株式会社 用于实现aqmf处理的方法、和用于实现sqmf处理的方法
AR085794A1 (es) 2011-02-14 2013-10-30 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral
AU2012217158B2 (en) * 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
TR201903388T4 (tr) 2011-02-14 2019-04-22 Fraunhofer Ges Forschung Bir ses sinyalinin parçalarının darbe konumlarının şifrelenmesi ve çözülmesi.
WO2012110448A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
SG192746A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for processing a decoded audio signal in a spectral domain
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
US8891775B2 (en) 2011-05-09 2014-11-18 Dolby International Ab Method and encoder for processing a digital stereo audio signal
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
CN103918029B (zh) * 2011-11-11 2016-01-20 杜比国际公司 使用过采样谱带复制的上采样
US8615394B1 (en) * 2012-01-27 2013-12-24 Audience, Inc. Restoration of noise-reduced speech
EP2828855B1 (en) 2012-03-23 2016-04-27 Dolby Laboratories Licensing Corporation Determining a harmonicity measure for voice processing
CN103325384A (zh) 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
WO2013142650A1 (en) 2012-03-23 2013-09-26 Dolby International Ab Enabling sampling rate diversity in a voice communication system
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
WO2014068817A1 (ja) * 2012-10-31 2014-05-08 パナソニック株式会社 オーディオ信号符号化装置及びオーディオ信号復号装置
KR101998712B1 (ko) 2013-03-25 2019-10-02 삼성디스플레이 주식회사 표시장치, 표시장치를 위한 데이터 처리 장치 및 그 방법
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
EP2838086A1 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
US9553601B2 (en) * 2013-08-21 2017-01-24 Keysight Technologies, Inc. Conversion of analog signal into multiple time-domain data streams corresponding to different portions of frequency spectrum and recombination of those streams into single-time domain stream
BR112016004299B1 (pt) * 2013-08-28 2022-05-17 Dolby Laboratories Licensing Corporation Método, aparelho e meio de armazenamento legível por computador para melhora de fala codificada paramétrica e codificada com forma de onda híbrida
US9866986B2 (en) 2014-01-24 2018-01-09 Sony Corporation Audio speaker system with virtual music performance
JP6224850B2 (ja) 2014-02-28 2017-11-01 ドルビー ラボラトリーズ ライセンシング コーポレイション 会議における変化盲を使った知覚的連続性
JP6243770B2 (ja) * 2014-03-25 2017-12-06 日本放送協会 チャンネル数変換装置
WO2016040885A1 (en) 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
US10015006B2 (en) 2014-11-05 2018-07-03 Georgia Tech Research Corporation Systems and methods for measuring side-channel signals for instruction-level events
US9668048B2 (en) 2015-01-30 2017-05-30 Knowles Electronics, Llc Contextual switching of microphones
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
CN104735512A (zh) * 2015-03-24 2015-06-24 无锡天脉聚源传媒科技有限公司 一种同步音频数据的方法、设备及系统
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
CN105261373B (zh) * 2015-09-16 2019-01-08 深圳广晟信源技术有限公司 用于带宽扩展编码的自适应栅格构造方法和装置
WO2017064264A1 (en) * 2015-10-15 2017-04-20 Huawei Technologies Co., Ltd. Method and appratus for sinusoidal encoding and decoding
MX2018008886A (es) * 2016-01-22 2018-11-09 Fraunhofer Ges Zur Foerderung Der Angewandten Forscng E V Aparato y metodo para estereo mdct m/s con ild global con decision medio/lado mejorada.
US9826332B2 (en) * 2016-02-09 2017-11-21 Sony Corporation Centralized wireless speaker system
US9924291B2 (en) 2016-02-16 2018-03-20 Sony Corporation Distributed wireless speaker system
US9826330B2 (en) 2016-03-14 2017-11-21 Sony Corporation Gimbal-mounted linear ultrasonic speaker assembly
US10824629B2 (en) 2016-04-01 2020-11-03 Wavefront, Inc. Query implementation using synthetic time series
US10896179B2 (en) * 2016-04-01 2021-01-19 Wavefront, Inc. High fidelity combination of data
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
EP3246923A1 (en) * 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a multichannel audio signal
US9794724B1 (en) 2016-07-20 2017-10-17 Sony Corporation Ultrasonic speaker assembly using variable carrier frequency to establish third dimension sound locating
US9924286B1 (en) 2016-10-20 2018-03-20 Sony Corporation Networked speaker system with LED-based wireless communication and personal identifier
US9854362B1 (en) 2016-10-20 2017-12-26 Sony Corporation Networked speaker system with LED-based wireless communication and object detection
US10075791B2 (en) 2016-10-20 2018-09-11 Sony Corporation Networked speaker system with LED-based wireless communication and room mapping
US20180302454A1 (en) * 2017-04-05 2018-10-18 Interlock Concepts Inc. Audio visual integration device
IT201700040732A1 (it) * 2017-04-12 2018-10-12 Inst Rundfunktechnik Gmbh Verfahren und vorrichtung zum mischen von n informationssignalen
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
CN109559736B (zh) * 2018-12-05 2022-03-08 中国计量大学 一种基于对抗网络的电影演员自动配音方法
US11283853B2 (en) * 2019-04-19 2022-03-22 EMC IP Holding Company LLC Generating a data stream with configurable commonality
US11443737B2 (en) 2020-01-14 2022-09-13 Sony Corporation Audio video translation into multiple languages for respective listeners
CN111402907B (zh) * 2020-03-13 2023-04-18 大连理工大学 一种基于g.722.1的多描述语音编码方法
US11662975B2 (en) * 2020-10-06 2023-05-30 Tencent America LLC Method and apparatus for teleconference
CN113468656B (zh) * 2021-05-25 2023-04-14 北京临近空间飞行器系统工程研究所 基于pns计算流场的高速边界层转捩快速预示方法和系统

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK0513860T3 (da) * 1989-01-27 1997-08-18 Dolby Lab Licensing Corp Adaptiv biallokering for audiokoder og -dekoder
US5463424A (en) 1993-08-03 1995-10-31 Dolby Laboratories Licensing Corporation Multi-channel transmitter/receiver system providing matrix-decoding compatible signals
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
JP3173482B2 (ja) * 1998-11-16 2001-06-04 日本ビクター株式会社 記録媒体、及びそれに記録された音声データの音声復号化装置
JP3344574B2 (ja) * 1998-11-16 2002-11-11 日本ビクター株式会社 記録媒体、音声復号装置
JP3344575B2 (ja) * 1998-11-16 2002-11-11 日本ビクター株式会社 記録媒体、音声復号装置
JP3344572B2 (ja) * 1998-11-16 2002-11-11 日本ビクター株式会社 記録媒体、音声復号装置
JP3387084B2 (ja) * 1998-11-16 2003-03-17 日本ビクター株式会社 記録媒体、音声復号装置
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US20030028386A1 (en) 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
EP1423847B1 (en) * 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
BR0304231A (pt) * 2002-04-10 2004-07-27 Koninkl Philips Electronics Nv Métodos para codificação de um sinal de canais múltiplos, método e disposição para decodificação de informação de sinal de canais múltiplos, sinal de dados incluindo informação de sinal de canais múltiplos, meio legìvel por computador, e, dispositivo para comunicação de um sinal de canais múltiplos
US7039204B2 (en) * 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
RU2325046C2 (ru) * 2002-07-16 2008-05-20 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
US8311809B2 (en) * 2003-04-17 2012-11-13 Koninklijke Philips Electronics N.V. Converting decoded sub-band signal into a stereo signal
US7349436B2 (en) 2003-09-30 2008-03-25 Intel Corporation Systems and methods for high-throughput wideband wireless local area network communications
WO2005043511A1 (en) * 2003-10-30 2005-05-12 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
JP2007524124A (ja) * 2004-02-16 2007-08-23 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ トランスコーダ及びそのための符号変換方法
US8423372B2 (en) 2004-08-26 2013-04-16 Sisvel International S.A. Processing of encoded signals
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
JP2006197391A (ja) * 2005-01-14 2006-07-27 Toshiba Corp 音声ミクシング処理装置及び音声ミクシング処理方法
KR100818268B1 (ko) * 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
KR100791846B1 (ko) * 2006-06-21 2008-01-07 주식회사 대우일렉트로닉스 오디오 복호기
JP5134623B2 (ja) * 2006-07-07 2013-01-30 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 複数のパラメータ的に符号化された音源を合成するための概念
US8036903B2 (en) 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
JP2008219549A (ja) * 2007-03-06 2008-09-18 Nec Corp 信号処理の方法、装置、及びプログラム
US7983916B2 (en) * 2007-07-03 2011-07-19 General Motors Llc Sampling rate independent speech recognition
WO2009051401A2 (en) * 2007-10-15 2009-04-23 Lg Electronics Inc. A method and an apparatus for processing a signal
JP5086366B2 (ja) * 2007-10-26 2012-11-28 パナソニック株式会社 会議端末装置、中継装置、および会議システム

Also Published As

Publication number Publication date
JP2011513780A (ja) 2011-04-28
WO2009109374A2 (en) 2009-09-11
RU2562395C2 (ru) 2015-09-10
JP2013190803A (ja) 2013-09-26
ES2753899T3 (es) 2020-04-14
CA2717196A1 (en) 2009-09-11
BRPI0906079B1 (pt) 2020-12-29
CN102016985A (zh) 2011-04-13
BRPI0906079A2 (pt) 2015-10-06
CN102016983B (zh) 2013-08-14
KR20120039748A (ko) 2012-04-25
WO2009109374A3 (en) 2010-04-01
CN102016985B (zh) 2014-04-02
JP2011518342A (ja) 2011-06-23
CN102016983A (zh) 2011-04-13
PL2250641T3 (pl) 2012-03-30
RU2012128313A (ru) 2014-01-10
HK1149838A1 (en) 2011-10-14
ES2374496T3 (es) 2012-02-17
WO2009109373A3 (en) 2010-03-04
EP2378518B1 (en) 2018-01-24
KR20100125382A (ko) 2010-11-30
US20090228285A1 (en) 2009-09-10
ES2665766T3 (es) 2018-04-27
KR101178114B1 (ko) 2012-08-30
ATE528747T1 (de) 2011-10-15
US8290783B2 (en) 2012-10-16
EP2378518A2 (en) 2011-10-19
EP2250641A2 (en) 2010-11-17
CA2717196C (en) 2016-08-16
RU2488896C2 (ru) 2013-07-27
AU2009221443A1 (en) 2009-09-11
EP2250641B1 (en) 2011-10-12
KR20100125377A (ko) 2010-11-30
RU2010136360A (ru) 2012-03-10
JP5654632B2 (ja) 2015-01-14
CA2716926A1 (en) 2009-09-11
BRPI0906078A2 (pt) 2015-07-07
KR101253278B1 (ko) 2013-04-11
CA2716926C (en) 2014-08-26
CN102789782B (zh) 2015-10-14
JP5302980B2 (ja) 2013-10-02
US20090226010A1 (en) 2009-09-10
CN102789782A (zh) 2012-11-21
AU2009221444B2 (en) 2012-06-14
AU2009221443B2 (en) 2012-01-12
EP2260487B1 (en) 2019-08-21
EP2378518A3 (en) 2012-11-21
KR101192241B1 (ko) 2012-10-17
EP2260487A2 (en) 2010-12-15
RU2010136357A (ru) 2012-03-10
BRPI0906078B1 (pt) 2020-12-29
MX2010009666A (es) 2010-10-15
WO2009109373A2 (en) 2009-09-11
US8116486B2 (en) 2012-02-14
RU2473140C2 (ru) 2013-01-20
AU2009221444A1 (en) 2009-09-11

Similar Documents

Publication Publication Date Title
JP5654632B2 (ja) 入力データストリームのミキシング及びそこからの出力データストリームの生成
EP2201566B1 (en) Joint multi-channel audio encoding/decoding
WO2006041055A1 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
TWI785753B (zh) 多聲道信號產生器、多聲道信號產生方法及電腦程式
CA2821325C (en) Mixing of input data streams and generation of an output data stream therefrom
AU2012202581B2 (en) Mixing of input data streams and generation of an output data stream therefrom
Gbur et al. Realtime implementation of an ISO/MPEG layer 3 encoder on Pentium PCs

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130118

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131001

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131219

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140424

R150 Certificate of patent or registration of utility model

Ref document number: 5536674

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250