JP5421367B2 - 多重チャンネルオーディオデータの再構成 - Google Patents

多重チャンネルオーディオデータの再構成 Download PDF

Info

Publication number
JP5421367B2
JP5421367B2 JP2011520560A JP2011520560A JP5421367B2 JP 5421367 B2 JP5421367 B2 JP 5421367B2 JP 2011520560 A JP2011520560 A JP 2011520560A JP 2011520560 A JP2011520560 A JP 2011520560A JP 5421367 B2 JP5421367 B2 JP 5421367B2
Authority
JP
Japan
Prior art keywords
data
spatialization
value
model
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011520560A
Other languages
English (en)
Other versions
JP2011529579A (ja
Inventor
ダヴィド・ヴィレット
ピーリック・フィリップ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of JP2011529579A publication Critical patent/JP2011529579A/ja
Application granted granted Critical
Publication of JP5421367B2 publication Critical patent/JP5421367B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/03Connection circuits to selectively connect loudspeakers or headphones to amplifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Description

本発明は、多重チャンネルオーディオデータの再構成のための、不完全な空間化データ(spatialization data)の隠蔽に関連する。多重チャンネルオーディオデータは、概して、少なくとも空間化データに基づいて、そして、限定された数のチャンネル上のオーディオデータ、例えばモノラルチャンネルデータに基づいて再構成される。
多重チャンネルオーディオデータは、概して、いくらかのそれぞれのオーディオトラックを対象としている。いくらかのそれぞれの音源は、サラウンド音響の錯覚を聞き手に与えるのを助けるために使用され得る。
多重チャンネルオーディオデータは、例えば、2チャンネルのステレオのデータ、または、特にホームシネマアプリケーションのための6チャンネルの5.1データを含み得る。本発明は、同様に、話し手に対応するデータが、この話し手の音声が空間の特定の位置から発生している錯覚を聞き手に与えるように空間化処理を受ける、空間化された電話会議(audio conference)の分野におけるアプリケーションを見い出すことができる。
空間化データは、より少ない数のチャンネル上のデータ、例えばモノラルチャンネルデータに基づいて多重チャンネルデータを獲得するために使用される。これらの空間化データは、例えば、経路間レベル(inter-pathway level)またはILD(“チャンネル間レベル差:Interchannel Level Differences”)、経路間相関(inter-pathway correlations)またはICC(“チャンネル間相互相関:Interchannel Cross Correlations”)、経路間遅延(delays between pathways)またはITD(“チャンネル間時間差:Interchannel Time Differences”)、経路間位相差(phase differences between pathways)またはIPD(“チャンネル間位相差:Interchannel Phase Differences”)等の差異を含むことができる。
少なくともモノラルチャンネルデータ及び空間化データを含む受信されたオーディオデータが不完全である場合、すなわちいくらかのデータが欠落しているか、または誤っている場合が起こり得る。
この不完全な伝送の検出は、CRC(周期的冗長検査:Cyclic Redundancy Check)タイプの符号を用いて実行され得る。
不完全な値を予測値と交換することによって、これらの不具合を緩和するということが知られている。これらの予測値は、既知の予測モデルに従って決定され得る。
いくらかの予測モデルが知られている。例えば、例えば線形予測等の方法に従って、予測値として、任意の値、前の値、以前に受信されたオーディオデータに基づいて決定された値が選択される。
モノラルチャンネルデータが不完全な方法で受信される場合に、不完全な値をモノラルチャンネルデータの予測値によって交換することは、概して、比較的満足できるものであるということが分かる。
しかしながら、空間化データが不完全な方法で受信される場合に、不完全な値を予測値によって交換することは、満足できないものであるということが分かる。
経時的な空間化データの強い変化は、聞き手において、音源の突然の変位の感覚として現れる。
例えば、もし不完全な値が空間化の欠如に対応する任意の値と交換されるならば、モノラルチャンネル音に戻る感覚は、特に両耳用の信号の場合は、聞き手に混乱を起こさせ得る。実際には、両耳用の信号、すなわち耳のレベルで3次元空間における忠実な再生を可能にすることは、多くの場合、空間において相対的に固定された仮想音源に対応する。
従って、多重チャンネルオーディオデータの再構成の間の空間化データの不具合の更に良い隠蔽に関する要求が存在する。
第1の特徴によれば、本発明の主題は、少なくとも限定された数のチャンネル上のデータ及び空間化データに基づいた、多重チャンネルオーディオデータの再構成のための音響データの処理方法であって、この方法は、受信されたフレームの空間化データの妥当性を検査するステップを含んでいる。もしこの検査が、これらの空間化データが有効であることを示す場合に、a/複数の予測モデルのそれぞれのモデルごとに、空間化値(spatialization value)がこのモデルに従って予測されると共に、b/このように予測された空間化値に基づいて、そして実際に受信された空間化データに基づいて、その後の不完全な空間化データの受信が発生したら、選択された予測モデルに従って空間化値を予測すると共に、この多重チャンネルオーディオデータの再構成のためにこの予測された空間化値を使用することができるように、予測モデルが選択される。
従って、有効であると見なされた空間化データは、不完全であると見なされた空間化データの受信が発生したら、複数の予測モデルの中から利用されるべき予測モデルを選択するために使用される。内容に応じて適応できるそのような方法は、単一の予測モデルが使用される従来技術より更に満足な方法で空間化データの不具合を緩和することを可能にする。
“限定された数のチャンネル”という表現は、多重チャンネルデータのチャンネルの数より少ない数のチャンネルを意味すると理解される。例えば、限定された数のチャンネル上のデータは、モノラルチャンネルデータを含むことができる。
空間化データ、そしてより一般に受信されたオーディオデータは、伝送路から発生し得る。例えば、これらのデータは、インターネットを介して受信され得る。その代りに、受信されたオーディオデータは、記憶媒体、例えばDVD(“デジタル多用途ディスク:Digital Versatile Disk”)等から読み取られ得る。本発明は、受信されたオーディオデータの発信源によって決して制限されない。
受信されたオーディオデータは、符号化された信号、逆多重化された(demultiplexed)及び/または復号化された信号、数値等を含むことができる。
ステップ“a/”及び“b/”は、有効であると見なされたフレームの受信の後に系統的に実行され得る。様々な処理は、従って経時的に分散される。
特に、ステップ“a/”及び“b/”が各有効なフレームに関して実行される場合に、その後の不完全な空間化データの受信が発生したら、適用されるべき予測モデルを迅速に検索することができるように、選択された予測モデルの識別子をメモリに書き込むための対策が講じられ得る。
その代りに、ステップ“a/”及び/または“b/”の実行は、いくらかの条件の実現に支配され得ると共に、これは、無関係な計算を実行するのを回避することを可能にし得る。
例えば、フレームが有効であると見なされる場合に、空間化データは、少なくとも一時的方法でメモリに格納される。ステップ“a/”及び“b/”は、その後の不完全であると見なされた空間化データの受信が発生した場合にのみ、(このように格納されたデータに基づいて)実行される。これは、従って、特にステップ“a/”の予測を実行することを、そのようなものが必要ではない場合に回避する。
別の例によれば、有効であると見なされたフレームの受信に続いて系統的にステップ“a/”の予測を実行するための対策が講じられ得ると共に、一方、ステップ“b/”は、不完全なフレームを受信する場合にのみ、(メモリに保持された前のフレームまたは前の複数のフレームの空間化データに基づいて)実行される。
有利に、ステップ“b/”の間、それぞれ予測された空間化値は、受信された空間化データに基づいて推定された値と対比される。特に、モデルごとに、類似値を、一方では、このモデルに応じて予測された空間化値に基づいて、そして、他方では、受信された空間化データに基づいて推定された値に基づいて、計算するための対策が講じられ得る。そして、類似値が予測値と推定値との間のより大きい適合度を示す予測モデルが選択される。
推定値は、空間化データの内の1つであり得ると共に、例えば推定値は、ILDを含み得る。この場合、ステップ“b/”の間に、予測された空間化値を受信された空間化データと直接比較するための対策が講じられ得る。
その代りに、推定値は、単に空間化データに由来し得る。例えば、推定値は、フレームに関するILD及び与えられる周波数から生じる利得、そして遅延等を含み得る。この場合、ステップ“b/”の間に、予測された空間化値を受信された空間化データに基づいて獲得された値と比較するための対策が講じられ得る。
有利に、少なくとも1つのモデルに関して、以前に予測された空間化値が、対応する推定値と更に対比される。従って、内容との最良適合になる予測モデルの選択が、より適切に実行され得る。
例えば、いくらかのフレーム上で受信された空間化データを使用すると共に、いくらかのフレームに関して、予測値と推定値を対比することが可能である。
特に、受信された一連のフレームのフレームごとに、そして少なくとも1つのモデルに関して、一連の空間化値が予測されるように、空間化値をこのモデルに従って予測することが可能である。このモデルに関して、類似値が、一方では、一連の予測された空間化値に基づいて、そして、他方では、一連のフレームのデータに基づいて推定された一連の値に基づいて、計算され得る。
有利に、不完全な空間化データは、この選択をゆがめることを回避するように、予測モデルの選択ステップの間に使用されないことになる。
その代りに、例えば予測モデルの選択に関して、同一のフレームにおいて受信された現在の空間化データで対処することが可能である。
データは、伝送の間に導入された劣化のせいで、もしくは、データ記憶媒体の劣化のせいで、不完全であり得る。本発明は、不具合のこの原因には制限されない。例えば、送信機または伝送ネットワークの別の構成要素が一組のデータを送信しないことを選択し得る、レイヤに階層化された伝送(または、いわゆる“スケーラブル符号化(scalable coding)”)の場合に、いくらかのデータが、受信された空間化データの中から欠落し得る。
空間化データの不完全な性質は、既知の方法に従って、例えばCRCタイプの符号を用いて、検出され得る。
本発明は、選択された予測モデルの識別子のメモリへの書き込みの形式によって、決して制限されない。例えば、このモデルに対応するプログラムの全ての命令をプログラムメモリにコピーするか、もしくは、任意に揮発性のメモリに、全く単にモデル名を格納することが可能である。
ステップ“a/”の間、空間化値の予測は予測モデルに従って実行され、すなわち、特に、予測のために使用されるデータはモデルに従って異なり得る。例えば、任意の値を空間化値に割り当てることになるモデルに関して、予測のためのデータは必要ではない。前の空間化値を再利用するか、及び/または、前の空間化値に加重することになるモデルに関して、この前の空間化値が予測の間に使用される。
有利に、ステップ“a/”は、所定の周波数帯域に対応する空間化データに関して実行される。従って、様々な周波数帯域において、いくらかの予測が並列に実行され得る。実際には、ステレオ信号の場合、最も適切な予測モデルの選択は、周波数に関連し得ると共に、人は、考察された周波数帯域に従って異なる予測モデルを選択するように導かれ得る。
別の特徴によれば、本発明の主題は、命令がプロセッサによって実行された場合に上記で説明された方法を実施するためのこれらの命令を含むことを特徴とするコンピュータプログラムである。
更にもう一つの特徴によれば、本発明の特徴は、不完全な空間化データを隠蔽するための隠蔽デバイスである。このデバイスは、1つ以上のメモリを有することができると共に、それぞれの命令の組が予測モデルに対応する、複数の命令の組を格納するための記憶装置を備える。このデバイスは、更に、空間化データを受信するための受信手段を備える。検査モジュールは、受信手段によって受信された空間化データの妥当性を検査することを可能にする。検出モジュールによって有効であると検出された空間化データの受信が発生したら、推定モジュールは、記憶装置に格納された命令の組ごとに、空間化値を予測するようにこの命令の組を実行することを可能にする。選択モジュールは、推定モジュールによって予測された空間化値に基づいて、そして、受信手段によって受信された空間化データに基づいて、予測モデルを選択することを可能にする。隠蔽デバイスは、更に、検出モジュールによって不完全であると見なされた空間化データの受信が発生したら、選択モジュールによって選択されたモデルに従って空間化値を予測するように作られた予測モジュールを備える。
更にもう一つの特徴によれば、本発明の主題は、多重チャンネルオーディオデータを再構成するための装置である。この装置は、少なくとも限定された数のチャンネル上のデータ、例えばモノラルチャンネルデータに基づいて多重チャンネルオーディオデータを再構成するための多重チャンネル再構成手段を備える。この装置は、更に、上記で説明された隠蔽デバイスを備える。予測モジュールは、検出モジュールによって不完全であると見なされた空間化データの受信が発生したら、多重チャンネルオーディオデータを再構成するための多重チャンネル再構成手段に、予測された空間化値を提供するように作られている。
多重チャンネルオーディオデータを再構成するための装置は、プロセッサに統合され得るか、さもなければ、コンピュータもしくはハイファイ(Hi-Fi)システムタイプ等の装置からなり得る。
再構成装置の様々なハードウェア装置、例えば再構成手段、隠蔽デバイス、検出モジュール等は、分離していても良いし、もしくは、併合されていても良い。
代表的な会話の符号化デバイスを示す図である。 本発明の一実施例による代表的な再構成装置を含む代表的な復号化デバイスを示す図である。 本発明の一実施例による方法の代表的なアルゴリズムを示す図である。 代表的な起こり得る利得の変化を示すグラフである。 本発明の1つの特徴によるコンピュータプログラムを実行することができるデバイスを示す図である。
本発明の他の特徴及び利点は、添付された図面に対する参照と共に与えられた、以下に詳述された説明において、明白になるであろう。
1つの図面から別の図面まで、同じ参照符号は、同じであるか、もしくは類似している対象物を表示する。
図面で例証された例において、多重チャンネルオーディオデータのチャンネルの数は、ちょうど2つであるが、しかし、それについて更に多くのチャンネルを提供することは、もちろん可能である。多重チャンネルオーディオデータは、例えば6チャンネル上の5.1のデータを含むことができる。本発明は、更に、空間化された電話会議の分野おけるアプリケーションを見い出すことができる。
特に、MPEGサラウンド標準(MPEG Surround standard)に対する参照が行われ得ると共に、すなわち、2を超える経路を生み出すために、ツリー構造が、使用されるか、もしくはシミュレートされ得る。
表示された例において、オーディオデータは、インデックスnが付けられたフレームまたはパケットにグループ化される。
図1は、ステレオの情報が、周波数帯域によって送信されると共に、周波数領域に適用される、代表的な符号器を示す。
この目的のために、その符号器は、時間周波数変換手段10、例えば離散型フーリエ変換またはDFT、MDCT変換(“修正離散コサイン変換:Modified Discrete Cosine Transform”)、MCLT変換(“変調複素重複変換:Modulated Complex Lapped Transform”)のような変換を実行することができる例えばDSP(Digital Signal Processor)を統合する。
左側周波数信号S(k)及び右側周波数信号S(k)の値は、従って、左側及び右側の時間信号に対応する値S(n)、S(n)に基づいて獲得される。
マトリクス化は、その後、マトリクス化手段11によって、左側信号S(k)及び右側信号S(k)の経路に適用される。
これらの手段11は、ステレオの信号S(k)及びS(k)に基づいて、モノラルチャンネル信号M(k)及び残留信号E(k)を決定することを可能にする。モノラルチャンネル信号M(k)は、一般的に、左側信号S(k)と右側信号S(k)との和の半分である。残留信号E(k)は、左側信号S(k)と右側信号S(k)との間の差の半分に等しくすることができる。
モノラルチャンネル信号M(k)が更に多くの情報を伝送できるようにマトリクス化を適応させるための対策が講じられ得る。この目的のために、左の経路と右の経路との間で位相が反対であろう成分を相殺することを回避できるように、マトリクス化手段11によって実行された方法は、経時的に変化し得る。
空間化データ推定手段12は、モノラルチャンネル信号M(k)及び残留信号E(k)に基づいて、空間化データ、例えばステレオパラメータを推定することを可能にする。これらのステレオパラメータは、当業者に知られ得ると共に、例えば経路間レベル(ILD)、経路間相関(ICC)、及び経路間の遅延または位相差(IPD/ITD)を含み得る。
これらのステレオパラメータILD(b)は、変数bによってインデックスが付けられた周波数帯域によって決定され得る。これらの帯域は、人体感覚に近い周波数スケールに従って構成され得る。例えば、それは、望まれた精度及び考察されたスペクトルの豊かさに応じて、8個から20個の周波数帯域を使用することが可能である。
量子化、符号化、及び多重化手段13は、減少したスループットにおける伝送を可能にするように、ステレオパラメータILD(b)を量子化して、符号化することを可能にする。
モノラルチャンネル信号M(k)は、更に、手段13によって、図1において提示された変換された領域もしくは時間領域で、量子化されて、符号化される。このモノラルチャンネル信号M(k)を処理するために、標準化されたアルゴリズム、例えばITU G.729.1、またはG.718タイプの音声符号器を使用することが可能である。それは、更に、MPEG−4 AAC、またはHE−AACタイプの一般的なオーディオ符号器であり得る。
残留信号E(k)は、任意に送信されるが、同様に、周波数領域または時間領域におけるこの信号に特有の標準化された符号化技術または伝送技術を必要とする。
量子化、符号化、及び多重化手段13からの出力として獲得された、符号化された信号Sencは、例えば、無線経路によって送信される。
その代りに、符号器からの出力として獲得されたデータのチャンネルの数が符号器に入力されるデータのチャンネルの数より小さいという条件で、1つを超えるモノラルのチャンネル上で獲得されたデータに符号器を導くための対策が講じられ得る。
図2は、送信された信号Sencに対応する信号S’encを受信する傾向がある代表的な復号器を示す。
復号化及び逆多重化手段29は、受信された信号S’encより、モノラルチャンネルデータM’(k)、空間化データILD’(b)の他に、任意に残留信号E’(k)を抽出することを可能にする。
復号器は、更に、モノラルチャンネルデータM’(k)、空間化データILD’(b)、そして任意に残留信号E’(k)に基づいて、多重チャンネルオーディオデータS’(k)、S’(k)を再構成するための、再構成装置26を備える。
図3は、図2の再構成装置26によって実行可能なアルゴリズムを示す。これらの2つの図面は、従って同時に論評されることになる。
再構成装置26は、不完全な空間化データILD’(b)の場合に交換値を提供するための隠蔽デバイス20、及び再構成に適当な多重チャンネル再構成手段27を備える。
多重チャンネル再構成手段27は、例えばステップ300の間に、下記数1のタイプの組み合わせを実行することができる。
Figure 0005421367
ここで、kは、考察された周波数インデックスを示すと共に、bは、送信されたステレオのパラメータ、すなわち、モノラルチャンネルデータM’(k)に基づいて、ステップ301の間に、空間化データ(図示せず)から獲得された位相シフトまたは遅延を当業者に知られている方法で適用することによって獲得された左側の経路に対応する周波数領域の信号M(k)、及びステップ301の間に、同等の方法で獲得された右側の経路に関する周波数領域の信号M(k)、によって割り当てられた帯域を示す。
特に、全く位相シフトが適用されない場合、その場合には、下記数2のようになる。
Figure 0005421367
E’は、当業者に知られている方法で任意に送信された残留信号E’(k)から生じる左側の経路に特有の信号であると共に、E’は、当業者に知られている方法で任意に送信された残留信号E’(k)から生じる右側の経路に特有の信号である。データE’、E’を獲得するステップは、図3には表示されない。
残留データが伝送されない場合は、下記数3のようになる。
Figure 0005421367
及びWは、考察された帯域b及びフレームnに関する空間化データILD’(b,n)から生じる利得である。
利得W及びWは、ステップ302の間に、値W’及びW’として、例えば下記数4のとおりに決定され得る。
Figure 0005421367
ここで、ILD’(b,n)は、フレームnに関して受信された空間化データILD’(b)である。
0と1との間の時定数α、例えばα=0.8による平滑化は、その場合に、下記数5に従ってステップ304の間に実行される。
Figure 0005421367
ここで、W(b,n−1)は、前のフレームにおいて獲得された値を示す。
右側の経路に関して、ステップ304の間に、下記数6のように、同じ平滑化を実行することが可能である。
Figure 0005421367
ここで、W(b,n−1)は、前のフレームにおいて獲得された値を示す。
その代りに、例えば下記数7に従って、左側の経路に関して獲得された値を使用することが可能である。
Figure 0005421367
隠蔽装置20は、データW及びWが、それでもなお決定され得るように、データILD’(b,n)の見込まれる損失を回避することを可能にする。






隠蔽装置20は、ステップ305の間に、空間化データILD’(b,n)の他に、任意にモノチャンネルデータM’(k)及び残留データE’(k)を受信するための受信手段(図示せず)を備える。
これらの受信手段は、例えば入力ポート、入力ピン等を備えることができる。
これらの受信手段に連結された検査モジュール22は、ステップ306の間に、空間化データILD’(b)の妥当性を検査することを可能にする。この検査モジュールは、例えば、その伝送が空間化データの劣化を全く引き起こさなかったということを確認するために、CRCタイプの符号化の検査を実行し得る。
検査モジュール22は、更に、受信された信号S’encから抽出されたいくらかの値(図示せず)を読むことができると共に、これらの値は、送信されたデータの階層の削除の可能性を示す。実際には、特に、ネットワークがつまるか、もしくは伝送路の帯域幅が減少する場合に、伝送ネットワークのいくらかの構成要素が、このようなデータセットを送信することを自制するための対策が講じられ得る。送信されなかったデータセットは、例えば音響の詳細に対応し得る。検査モジュール22がいくらかのデータの削除を示す値を読み取る場合に、これらのデータは欠落していると考えられる。
隠蔽装置20は、各命令の組が予測モデルに対応する、いくらかの命令の組を格納する記憶装置21を備える。
例えば、第1の予測モデルに従って、フレームn及び所定の周波数帯域bに関する空間化データILD’(b,n)が不完全である場合に、下記数8が選択される。
Figure 0005421367
その場合に、対応する命令は、前のフレームに関して獲得された値W(b,n−1)、W(b,n−1)をコピーすることになる。
例えば、第2の予測モデルに従って、下記数9が選択される。
Figure 0005421367
ここで、βは0と1との間の数値である。
従って、いくらかの空間化データが不完全であるフレームが連続する場合に、
Figure 0005421367
は、1である傾向があると共に、その結果として多重チャンネルオーディオデータS’(k)、S’(k)は、モノラルチャンネルデータM’(k)に近くなる。別の方法で明記すると、空間化効果は、モノラルチャンネル信号に戻るように徐々に削除される。
別の代表的な予測モデルによれば、下記数11が選択される。
Figure 0005421367
あるいは、下記数12が選択される。
Figure 0005421367
さもなければ、下記数13のようにメディアンフィルタ(median filter)が使用される。
Figure 0005421367
任意に、更に良い安定性を保証するために、減衰した値、例えば“0.9W(b,n−i)”及び“0.9W(b,n−i)”が、それそれ“W(b,n−i)”及び“W(b,n−i)”の代わりに使用されることになる。これらの減衰した値が、上記で説明されたモデルの内の1つ適用することによってそれらを使用するように、記憶装置内に保存されるための対策が講じられ得る。
他のモデルが同様に可能であると共に、それは、例えば、予測の次数に関してPが可能である下記数14の形式の、更に一般的な予測である。
Figure 0005421367
それらの係数αは、経時的に変化し得ると共に、レビンソン−ダービン(Levinson-Durbin)タイプのスキームを用いて再度更新され得る。
モデルのこれらの例は、W及びWの値の予測につながる。その代りに、それらのモデルは、W’及びW’の変数ILD’(b,n)の値等を予測することを可能にし得る。
例えば、上記で説明された第1のモデルに相当する予測モデルに従って、フレームn及び所定の周波数帯域bに関して、空間化データILD’(b,n)が欠落した場合に、“ILD’(b,n)=ILD’(b,n−1)”が選択される。その場合に、対応する命令は、前のフレームに関して獲得されたこの値“ILD’(b,n−1)”をコピーすることになる。
推定モジュール23は、様々な命令の組の命令を実行することを可能にする。このモジュール23は、例えば、対応する空間化データILD’(b,n)が検査モジュール22によって有効であると見なされる各フレームに関して活性化されるか、または、さもなければ、有効であると見なされると共に、不完全であると見なされたフレームに先行するフレームに関してのみ活性化される。
このモジュール23が活性化される場合、一組の値
Figure 0005421367
を獲得するように、命令の組を詳しく検討するループにおいて繰り返されるステップ307の間に、初期化、検査、及び増加の従来のステップを伴う、全ての格納された命令の組が実行され、ここで、mは使用されたモデルを示す。
選択モジュール24は、実際に受信された空間化データILD’(b,n)に基づいて、予測された空間化値
Figure 0005421367
を、推定された空間化値W、Wと対比することによって、これらのモデルの内の1つを選択することを可能にする。
ステップ308の間に、例えば、各モデルに関して、予測値
Figure 0005421367
に基づいて、そして、推定値W(b,n)、W(b,n)に基づいて、類似値
Figure 0005421367
を計算することを可能にする。類似値は、例えば、下記数19のように、各予測の分散を含むことができる。
Figure 0005421367
ここで、Eは、数学的期待値を表すと共に、例えば下記数20に従う。
Figure 0005421367
受信されたN個のフレームの系列は、従って、N個の値
Figure 0005421367
を決定すると共に、それらをN個の推定値W(b,n)と比較するために使用される。
同等の式が、右側の経路に関して適用される。
その代りに、例えば、各経路に関して、下記数22に従って、再帰的に分散を計算するための対策が講じられ得る。
Figure 0005421367
ここでαは、例えば0.975に等しい時定数であり、そして、
Figure 0005421367
は、フレームnにおける分散の推定値を示す。
代替実施例(図示せず)によれば、分散を推定する代わりに、実際に受信された値に基づいて獲得されたデータW、Wに関して、データ
Figure 0005421367
の尤度が推定される。例えば、下記数25に示す一組の推定量を使用することが可能である。
Figure 0005421367
Figure 0005421367
のタイプの推定量を比較することによって、類似値が予測値と推定値との間のより大きい適合度を示す予測モデルを選択することが可能である。例えば、最良の隠蔽を与えるモデルのインデックスmが決定され、これは、
Figure 0005421367
を最小化するか、または別の実施例において、
Figure 0005421367
を最大化することになるインデックスになるであろう。
簡単にするために、1つの経路上、例えば左側の経路上で、
Figure 0005421367
を最小化するインデックスを選択するための対策が講じられ得る。
この値mは、選択された予測モデルの識別子を構成すると共に、ステップ309の間に、記憶装置21に格納される。
ステップ307がステップ302、304の前に、またはさもなければステップ307と並列に、実行され得ることは、明瞭である。ここで各ステップ308は、ステップ304の間に獲得された値を包含すると共に、従って、このステップ304の次に実行される。
隠蔽装置20は、更に、不完全であると見なされた空間化データの受信が発生したら、値mによって識別されたモデルに従って、ステップ310の間に、空間化値
Figure 0005421367
を予測するための予測モジュール25を備える。
この値は、多重チャンネル再構成手段27に提供されると共に、多重チャンネル再構成手段27は、その場合に、空間化データの不具合にもかかわらず、ステップ300の間に、多重チャンネルデータS’(k)、S’(k)を再構成することができる。
周波数時間変換手段28、例えばDSPは、再構成された多重チャンネルデータS’(k)、S’(k)に基づいて、一時的なオーディオデータS’(n)、S’(n)を検索することを可能にする。
図4は、第2の周波数サブバンド、すなわちb=1に関する、値W(b,n)の代表的な変化を表すプロットを示す。フレームインデックスnは、横座標、及び縦座標の値W(1,n)として現れる。
おおよそ500番目のフレームと810番目のフレームとの間に対応する部分Aに関して、W(1,n)の値は、概して1に等しく、従って、比較的モノラルの音響信号に対応する。
部分Bに関して、W(1,n)の値は、左側に位置する信号に対応し、一方、部分Cに関して、W(1,n)の値は、右側に位置する信号に対応する。
部分Dに関して、W(1,n)の値は、様々な場所に位置する複数の音源に対応する。
選択された最良の予測モデルは、利得変化のタイプに従って変化し得る。
従って、部分Aに関して、前のフレームに関して獲得された値を繰り返すことになるモデルは、W(1,n)の値のスパイクを誤って繰り返すことにつながるであろう。更に多くの賢明なモデルは、モノラルチャンネル信号に対応する任意の値を選択するか、さもなければ、1の利得に徐々に近づけるように、前のフレームに関して獲得した利得を重み付けすることになるであろう。
一方、部分B、及び部分Cに関して、最も賢明なアプローチは、前のフレームのために獲得された利得値を繰り返すことになり得る。
部分Dに関して、その利得が比較的ゆっくりと変化すると共に、従って、比較的予測どおりに変化する場合に、賢明なアプローチは、P個の前のフレームに関して獲得された利得の加重平均を実行することになるであろう。ステレオのパラメータが更に急速に変化する場合に、最も賢明なアプローチは、あらゆる人為要素を回避するように、モノラルチャンネル信号に戻ることになるであろう。
従って、最も賢明なモデルは、1つのフレームから別のフレームまでの利得変化のタイプに従って変化することができる。図3の方法は、人間の介入なしで、最も適当な予測モデルを選択することを可能にする。
最も適当な予測モデルのこの選択は、不完全なデータの場合に、更に良い品質の隠蔽を獲得することを可能にする。
図5は、画面502、キーボード、及び中央ユニットを備えるコンピュータを示す。この中央ユニットは、上記で説明された方法のステップに対応する命令を含むコンピュータプログラムを格納するためのメモリ500を備える。これらの命令を実行するために、この中央ユニットは、メモリ500に連結されるプロセッサ501を更に備える。
10 時間周波数変換手段
11 マトリクス化手段
12 空間化データ推定手段
13 量子化、符号化、及び多重化手段
20 隠蔽デバイス
21 記憶装置
22 検査モジュール
23 推定モジュール
24 選択モジュール
25 予測モジュール
26 再構成装置
27 多重チャンネル再構成手段
28 周波数時間変換手段
29 復号化及び逆多重化手段
500 メモリ
501 プロセッサ
502 画面

Claims (12)

  1. 限定された数のチャンネル上のデータに少なくとも基づいた、及び空間化データに少なくとも基づいた、多重チャンネルオーディオデータの再構成のための音響データの処理方法であって、
    前記方法が、受信されたフレームの空間化データの妥当性を検査するステップ(306)を含み、もし前記検査が、受信された前記空間化データが有効であることを示す場合に、
    a/複数の予測モデルのそれぞれのモデルごとに、前記モデルに従って空間化値を予測するステップ(307)と、
    b/このように予測された前記空間化値に基づいて、そして受信された前記空間化データに基づいて、前記予測モデルを選択し、もし予測モデルを選択した後で不完全な空間化データの受信が発生したら、選択された前記予測モデルに従って空間化値を予測すると共に、前記多重チャンネルオーディオデータの再構成のために前記予測された空間化値を使用することができるようにするステップとを含む
    ことを特徴とする方法。
  2. もし前記検査が、受信された前記空間化データが有効であることを示す場合に、そして、ステップ“a/”の前に、
    前記有効な空間化データを格納するステップを更に含み、
    ステップ“b/”が、その後の不完全な空間化データの受信が発生したら、前記格納された空間化データに基づいて実行される
    ことを特徴とする請求項1に記載の方法。
  3. ステップ“a/”が、その後の不完全な空間化データの受信が発生した場合でも、前記格納された空間化データに基づいて実行される
    ことを特徴とする請求項2に記載の方法。
  4. ステップ“a/”及び“b/”が、有効なフレームの受信の後に系統的に実行されると共に、
    前記方法が、ステップ“b/”の後に、前記選択された予測モデルの識別子をメモリに書き込むステップを更に含む
    ことを特徴とする請求項1に記載の方法。
  5. 前記予測された空間化値が、利得
    Figure 0005421367
    を含む
    ことを特徴とする請求項1に記載の方法。
  6. 前記予測された空間化値が、遅延を含む
    ことを特徴とする請求項1に記載の方法。
  7. ステップ“b/”の間に、
    前記複数のモデルのそれぞれのモデルごとに、類似値
    Figure 0005421367
    が、一方では、前記モデル
    Figure 0005421367
    に応じた前記予測された空間化値に基づいて、そして、他方では、受信された前記空間化データに基づく推定値
    Figure 0005421367
    に基づいて、計算されると共に、
    前記類似値が前記予測された空間化値と前記推定値との間のより大きい適合度を示す前記予測モデルが選択される
    ことを特徴とする請求項1に記載の方法。
  8. ステップ“a/”及び“b/”の間に、
    受信された一連のフレームのフレームごとに、そして前記複数のモデルの内の少なくとも1つのモデルに関して、空間化値
    Figure 0005421367
    が、前記モデルに従って予測されると共に、
    前記モデルに関して、類似値
    Figure 0005421367
    が、一方では、前記モデルに応じた一連の予測された前記空間化値に基づいて、そして、他方では、受信された前記一連のフレームの前記空間化データに基づく一連の推定値
    Figure 0005421367
    に基づいて、計算される
    ことを特徴とする請求項7に記載の方法。
  9. ステップ“a/”が、所定の周波数帯域(b)に対応する空間化データに関して実行される
    ことを特徴とする請求項1に記載の方法。
  10. 命令がコンピュータによって実行された場合に請求項1に記載の方法を実施するための前記命令を含むことを特徴とするコンピュータプログラム。
  11. 不完全な空間化データを隠蔽するための隠蔽デバイス(20)であって、
    それぞれの命令の組が予測モデルに対応する、複数の命令の組を格納するための記憶装置(21)と、
    空間化データを受信するための受信手段と、
    前記受信手段によって受信された前記空間化データの妥当性を検査するための検査モジュール(22)と、
    前記検査モジュール(22)によって有効であると検出された空間化データの受信が発生したら、前記記憶装置に格納された命令の組ごとに、空間化値を予測するように前記命令の組を実行することができる推定モジュール(23)と、
    前記推定モジュールによって予測された前記空間化値に基づいて、そして、前記受信手段によって受信された前記空間化データに基づいて、予測モデルを選択するための選択モジュール(24)とを備え、
    前記隠蔽デバイスが、
    その後の前記検査モジュール(22)によって不完全であると見なされた空間化データの受信が発生したら、前記選択モジュールによって選択された前記モデルに従って空間化値を予測するように作られた予測モジュール(25)を更に備える
    ことを特徴とする隠蔽デバイス。
  12. 多重チャンネルオーディオデータを再構成するための装置(26)であって、前記装置が、
    少なくともモノラルチャンネルデータと、残留信号E(k)及び空間化データILD’のうちの1つとに基づいて多重チャンネルオーディオデータを再構成するための多重チャンネル再構成手段(27)と、
    前記予測モジュール(25)が、前記検査モジュール(22)によって不完全であると見なされた空間化データの受信が発生したら、前記多重チャンネルオーディオデータを再構成するための前記多重チャンネル再構成手段に、前記予測された空間化値を提供するように作られた、請求項11に記載された前記隠蔽デバイス(20)と
    を備えることを特徴とする装置。

JP2011520560A 2008-07-30 2009-07-03 多重チャンネルオーディオデータの再構成 Active JP5421367B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0855249 2008-07-30
FR0855249 2008-07-30
PCT/FR2009/051304 WO2010012927A1 (fr) 2008-07-30 2009-07-03 Reconstruction de donnees audio multicanal

Publications (2)

Publication Number Publication Date
JP2011529579A JP2011529579A (ja) 2011-12-08
JP5421367B2 true JP5421367B2 (ja) 2014-02-19

Family

ID=40276118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011520560A Active JP5421367B2 (ja) 2008-07-30 2009-07-03 多重チャンネルオーディオデータの再構成

Country Status (8)

Country Link
US (1) US8867752B2 (ja)
EP (1) EP2319037B1 (ja)
JP (1) JP5421367B2 (ja)
KR (1) KR101590919B1 (ja)
CN (1) CN102138177B (ja)
AT (1) ATE557387T1 (ja)
ES (1) ES2387869T3 (ja)
WO (1) WO2010012927A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5333257B2 (ja) * 2010-01-20 2013-11-06 富士通株式会社 符号化装置、符号化システムおよび符号化方法
EP2609592B1 (en) * 2010-08-24 2014-11-05 Dolby International AB Concealment of intermittent mono reception of fm stereo radio receivers
US9552818B2 (en) 2012-06-14 2017-01-24 Dolby International Ab Smooth configuration switching for multichannel audio rendering based on a variable number of received channels
US9460723B2 (en) 2012-06-14 2016-10-04 Dolby International Ab Error concealment strategy in a decoding system
EP2959479B1 (en) 2013-02-21 2019-07-03 Dolby International AB Methods for parametric multi-channel encoding
CN104282309A (zh) 2013-07-05 2015-01-14 杜比实验室特许公司 丢包掩蔽装置和方法以及音频处理系统
CN107886960B (zh) * 2016-09-30 2020-12-01 华为技术有限公司 一种音频信号重建方法及装置
US10043523B1 (en) 2017-06-16 2018-08-07 Cypress Semiconductor Corporation Advanced packet-based sample audio concealment
KR102654181B1 (ko) * 2019-03-29 2024-04-02 텔레폰악티에볼라겟엘엠에릭슨(펍) 예측 코딩에서 저비용 에러 복구를 위한 방법 및 장치
CN112740708B (zh) * 2020-05-21 2022-07-22 华为技术有限公司 一种音频数据传输方法及相关装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4111131C2 (de) * 1991-04-06 2001-08-23 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen digitalisierter Tonsignale
US6006173A (en) * 1991-04-06 1999-12-21 Starguide Digital Networks, Inc. Method of transmitting and storing digitized audio signals over interference affected channels
DE19526366A1 (de) * 1995-07-20 1997-01-23 Bosch Gmbh Robert Verfahren zur Redundanzreduktion bei der Codierung von mehrkanaligen Signalen und Vorrichtung zur Dekodierung von redundanzreduzierten, mehrkanaligen Signalen
US6181800B1 (en) * 1997-03-10 2001-01-30 Advanced Micro Devices, Inc. System and method for interactive approximation of a head transfer function
US6154452A (en) * 1999-05-26 2000-11-28 Xm Satellite Radio Inc. Method and apparatus for continuous cross-channel interleaving
US6970506B2 (en) * 2001-03-05 2005-11-29 Intervideo, Inc. Systems and methods for reducing frame rates in a video data stream
US7835916B2 (en) * 2003-12-19 2010-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Channel signal concealment in multi-channel audio systems
SE527866C2 (sv) * 2003-12-19 2006-06-27 Ericsson Telefon Ab L M Kanalsignalmaskering i multikanalsaudiosystem
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
US20090281798A1 (en) * 2005-05-25 2009-11-12 Koninklijke Philips Electronics, N.V. Predictive encoding of a multi channel signal

Also Published As

Publication number Publication date
ES2387869T3 (es) 2012-10-03
ATE557387T1 (de) 2012-05-15
US20110129092A1 (en) 2011-06-02
WO2010012927A1 (fr) 2010-02-04
EP2319037B1 (fr) 2012-05-09
US8867752B2 (en) 2014-10-21
KR20110065447A (ko) 2011-06-15
KR101590919B1 (ko) 2016-02-02
CN102138177B (zh) 2014-05-28
EP2319037A1 (fr) 2011-05-11
CN102138177A (zh) 2011-07-27
JP2011529579A (ja) 2011-12-08

Similar Documents

Publication Publication Date Title
JP5421367B2 (ja) 多重チャンネルオーディオデータの再構成
JP6879979B2 (ja) オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ
JP6626581B2 (ja) 1つの広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを使用して、多チャネル信号を符号化又は復号化する装置及び方法
TWI424756B (zh) 多聲道音訊信號之雙耳演示技術
JP5189979B2 (ja) 聴覚事象の関数としての空間的オーディオコーディングパラメータの制御
US9584235B2 (en) Multi-channel audio processing
JP5820820B2 (ja) ダウンミックス信号と空間パラメータ情報からダイレクト/アンビエンス信号を抽出する装置および方法
US8532999B2 (en) Apparatus and method for generating a multi-channel synthesizer control signal, multi-channel synthesizer, method of generating an output signal from an input signal and machine-readable storage medium
US20170134875A1 (en) Parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
RU2672174C2 (ru) Декодер, кодер и способ информированной оценки громкости в системах основывающегося на объектах кодирования аудио
US9129593B2 (en) Multi channel audio processing
TWI415113B (zh) 用以把向下混合音訊信號向上混合之向上混合器、方法與電腦程式
US20210110835A1 (en) Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal
BRPI0707969A2 (pt) codificador e decodificador de áudio, métodos de codificação e de decodificação de áudio, e para transmitir e receber um sinal de áudio, receptor para receber um sinal de áudio, transmissor e método para transmitir um fluxo de dados de saìda, sistema de transmissão para transmitir um sinal de áudio, produto de programa de computador, dispositivos de gravação e de execução de áudio, e, fluxo de dados de áudio para um sinal, e, meio de armazenamento
EP4213147A1 (en) Directional loudness map based audio processing
KR20210102300A (ko) 낮은 차수, 중간 차수 및 높은 차수 컴포넌트 생성기를 사용하는 DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램
Disch et al. A dedicated decorrelator for parametric spatial coding of applause-like audio signals
TWI843389B (zh) 音訊編碼器、降混訊號產生方法及非暫時性儲存單元
WO2010075895A1 (en) Parametric audio coding
Ojala et al. Parametric binaural audio coding
JP2024509100A (ja) オーディオオブジェクト処理
CN113614827A (zh) 用于预测性译码中的低成本错误恢复的方法和设备
Abrahamsson Compression of multi channel audio at low bit rates using the AMR-WB+ codec

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120702

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131121

R150 Certificate of patent or registration of utility model

Ref document number: 5421367

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250