JP2014513322A - 2つのエンコードされたビットストリームからのオーディオストリームの混合において使用するためのメタデータの自動設定 - Google Patents

2つのエンコードされたビットストリームからのオーディオストリームの混合において使用するためのメタデータの自動設定 Download PDF

Info

Publication number
JP2014513322A
JP2014513322A JP2014503707A JP2014503707A JP2014513322A JP 2014513322 A JP2014513322 A JP 2014513322A JP 2014503707 A JP2014503707 A JP 2014503707A JP 2014503707 A JP2014503707 A JP 2014503707A JP 2014513322 A JP2014513322 A JP 2014513322A
Authority
JP
Japan
Prior art keywords
audio
main
mixing
signal
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014503707A
Other languages
English (en)
Other versions
JP5719966B2 (ja
Inventor
ディー ホフマン,マイケル
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2014513322A publication Critical patent/JP2014513322A/ja
Application granted granted Critical
Publication of JP5719966B2 publication Critical patent/JP5719966B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/18Automatic control in untuned amplifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

本発明のオーディオ符号化システムは、ミキシングメタデータを使用してメインのオーディオプログラムの減衰を制御し、その後メインのオーディオプログラムは、関連するオーディオプログラムと混合される。減衰の値は、メインのオーディオプログラムと関連するオーディオプログラムの推定されたラウドネスを分析することで計算される。

Description

本発明は、デジタルオーディオ符号化方法及びシステムに関し、より詳細には、2つのエンコードされたデジタルビットストリームから得られたオーディオプログラムを混合するために使用されるメタデータの生成に関する。
本出願は、2011年4月8日に提出された米国特許仮出願第61/473,346号に対する優先権を主張するものであり、この米国特許仮出願は、その完全な形で引用により本明細書に盛り込まれる。
いわゆるDolby Digital Plus規格に準拠するエンコードされた信号は、メインのオーディオプログラムを表すデータを含み、1以上の関連するオーディオプログラムを表すデータを含む場合がある。Dolby Digital Plus規格は、Advanced Television Systems Committee, Inc. (ATSC) Washington, D.C.により公表された文献A/52“Digital Audio Compression Standard (AC-3, E-AC-3)”November 22, 2010に記載されている。関連するオーディオプログラムは、異なる言語でのオーラルコンテンツ、付随するビジュアルコンテンツに関する音声の注釈、又は付随するビジュアルコンテンツを説明する視覚障害のある聴取者のためのオーラルコンテンツを含む場合がある。
関連するオーディオプログラムは、メインのオーディオプログラム及びその付随するビジュアルコンテンツの再生の間にメインのオーディオプログラムと混合される。関連するオーディオプログラムと含まれるメタデータを混合することは、関連するオーディオプログラムがメインのオーディオプログラムと混合されるとき、メインのオーディオプログラムの減衰量を指定する。
本発明の目的は、メインのオーディオプログラムと関連するオーディオプログラムの混合が行われるときに、聴取者の体験を最適化するために適合されるメインのオーディオプログラムの減衰を指定するメタデータを混合することを提供することにある。メタデータを混合することは、関連するオーディオプログラムのマテリアルが存在しないか又はメインのオーディオプログラムと混合されない場合には減衰を指定しないことが好ましく、メインのプログラムのラウドネスレベルにおける突然の変化を回避するために減衰のフェードイン及びフェードアウトを指定することが好ましい。
本発明の1態様によれば、メインのオーディオプログラムを表す1以上のメインのオーディオ信号を受信すること及び関連するオーディオプログラムを表す1以上の関連するオーディオ信号を受信すること、1以上のメインのオーディオ信号をエンコードしてメインのエンコードされたオーディオ信号を生成すること及び1以上の関連するオーディオ信号をエンコードして関連するエンコードされたオーディオ信号を生成すること、メインのオーディオプログラムの推定されたラウドネス及び関連するオーディオプログラムの推定されたラウドネスに応答してオーディオミキシングメタデータを生成すること、及びメインのエンコードされたオーディオ信号、関連するエンコードされたオーディオ信号及びオーディオミキシングメタデータから出力のエンコードされた信号を生成することで、オーディオ信号は生成される。メインのエンコードされたオーディオ信号からデコードされる1以上のオーディオ信号及び関連するオーディオ信号からデコードされる1以上のオーディオ信号は、オーディオミキシングメタデータに従って混合される。
本発明の別の態様によれば、入力のエンコードされた信号を受信すること及び受信した入力のエンコードされた信号からメインのエンコードされたオーディオ信号、関連するエンコードされたオーディオ信号及びミキシングメタデータを取得すること、メインのエンコードされたオーディオ信号をデコードして1以上のメインのオーディオ信号を取得すること及び関連するエンコードされたオーディオ信号をデコードして1以上の関連するオーディオ信号を取得すること、ミキシングメタデータに従って1以上のメインのオーディオ信号と1以上の関連するオーディオ信号とを混合して出力のオーディオ信号を生成することで、入力のエンコードされた信号はデコードされる。ミキシングメタデータは、メインのエンコードされたオーディオ信号により表されるメインのオーディオプログラムの推定されたラウドネス及び関連するエンコードされたオーディオ信号により表される関連するオーディオプログラムの推定されたラウドネスに応答して生成される。
本発明及びその好適な実施の形態の様々な特徴は、以下の説明及び同じ参照符号が同じエレメントを示す添付図面を参照することで良好に理解されるであろう。以下の説明及び図面の内容は例示するものであって、本発明の範囲に対する制限を表すように理解されるべきではない。
本発明の様々な態様を組み込んだエンコーダ/送信機の概略的なブロック図である。 本発明の様々な態様を組み込んだ受信機/デコーダであって、図1に示されるオーディオエンコーダと使用される場合がある受信機/デコーダの1つの実現の概略的なブロック図である。 本発明の様々な態様を組み込んだ受信機/デコーダの別の実現の概略的なブロック図である。 本発明の様々な態様を実現するために使用される装置の概略的なブロック図である。
A.導入
本発明は、エンコードされた信号をデコードし、次いでデコードされた信号を再生のために互いに混合することで得られたメインのオーディオプログラムと1以上の関連するオーディオプログラムの大きさを制御することに向けられる。1つの例となる応用では、1以上のメインのオーディオ信号は、動画のダイアログ及びサウンドエフェクトのようなメインのオーディオプログラムを表し、1以上の関連するオーディオ信号は、動画のビジュアルコンテンツを説明する視覚障害者向けのディレクタコメント又はナレーションのような関連するオーディオプログラムを表す。多くの他の例が可能である。本発明は、何れかのタイプのオーディオコンテンツに限定されない。
本発明は、様々なやり方で実現される場合がある。第一のタイプの実現は、本発明の態様をオーディオ符号化システムの送信機及び受信機に組み込む。第一のタイプの実現の例となる送信機及び受信機は、図1及び図2にそれぞれ概略的に示される。
第二のタイプの実現は、本発明の態様を受信機のみに盛り込む。第二のタイプの実現の例となる受信機は、図3に概略的に示される。この第二のタイプの実現は、第一のタイプの実現が説明された後に説明される。
B.送信機及び受信機
1.送信機
図1を参照して、送信機10は、経路11からメインのオーディオプログラムを表す1以上のメインのオーディオ信号を受信し、経路12から関連するオーディオプログラムを表す1以上の関連するオーディオ信号を受信する。
エンコーダ21は、1以上のメインのオーディオ信号をエンコードして、メインのエンコードされたオーディオ信号を生成し、エンコーダ22は、1以上の関連するオーディオ信号をエンコードして、関連するエンコードされたオーディオ信号を生成する。エンコーダ21及びエンコーダ22は、所望とされる何れかのタイプの符号化プロセスを本質的に使用する場合がある。例えば、split-band知覚符号化プロセスが使用される場合があり、この知覚符号化プロセスでは、オーディオ信号は、周波数サブバンド信号に分割され、周波数サブバンド信号は、音響心理的マスキング効果を推定するために分析され、周波数サブバンド信号は、量子化雑音レベルが推定された音響心理的マスキングレベルの真下にあるように適合される量子化解像度で量子化される。オーディオ信号を周波数サブバンド信号に分割するために、様々なサブバンドフィルタ及び/又は変換が使用される場合がある。使用される場合がある知覚符号化プロセスの例は、先に引用されたATSCA/52文書で記載されるAC-3を示すことがあるDolby Digital、並びに、ISO/IEC規格13818及び14496で記載されるAAC(Advanced Audio Coding)のバリエーションを含む。1996年11月21日に公開された国際特許出願公開WO96/37048号及び2000年10月12日に公開されたWO00/60746号で記載される符号化プロセス、算術符号化、ハフマン符号化及び従来のパルス符号変調のような無損失符号化プロセスが使用される場合がある。特定の符号化プロセスは、本発明にとって必須ではない。
メタデータジェネレータ25は、メインのオーディオプログラムの推定されたラウドネス及び関連するオーディオプログラムの推定されたラウドネスに応答して、オーディオミキシングデータを生成する。メタデータジェネレータ25が実現される方法は、以下に記載される。
フォーマッタ27は、メインのエンコードされたオーディオ信号、関連するエンコードされたオーディオ信号及びオーディオミキシングデータを出力のエンコードされた信号にし、出力のエンコードされた信号は、経路31に沿って出力される。出力のエンコードされた信号は、オーディオ信号のインターバルに対応するか又はオーディオ信号のインターバルを表す、エンコードされたオーディオ信号及びミキシングメタデータを伝達するフレーム又はセグメントで配列される。エンコードされた出力信号は、ブロードキャストの応用において行われているように1以上の受信機にダイレクトに伝達されるか、又は1以上の受信機への後の伝達のために記憶媒体に記録される場合がある。
a)メタデータジェネレータ
メタデータジェネレータ25は、メインのオーディオプログラム及び関連するオーディオプログラムの推定されたラウドネスの分析から1以上のミキシングパラメータを生成する。オーディオ信号の推定されたラウドネスは、人間の聴覚システムの幾つかの数学モデルから導出されるか、又は信号の振幅からダイレクトに導出される場合がある。推定されたラウドネスの多くの方法が知られている。幾つかの方法は以下に記載される。
(1)ラウドネスの推定
メタデータジェネレータ25は、所望となるラウドネスを推定する何れかの方法を使用する場合がある。方法の選択は、性能に影響を及ぼすが、本発明を実施するために特定の方法が必須とされない。
オーディオ信号の推定されたラウドネスレベルを計算するために使用される場合がある1つの方法は、IEC(International Electrotechnical Commission)により公表された“Integrating Averaging Sound Level Meters”と題された国際標準IEC60804(2000-10)で記載される。この規格は、周波数重み付けされ及び時間平均される音圧レベルに基づく測定を記載する。別の方法は、International Organization for Standardizationにより公表される“Method for calculating loudness level”と題された国際標準532(1975)で記載される。この標準は、周波数サブバンドについて計算されるパワーレベルの組み合わせからラウドネスの測定を得る方法を記載する。
ラウドネスを推定するために使用される場合がある心理音響モデルの例は、Moore, Glasberg及びBaerによる“A model for the prediction of thresholds, loudness and partial loudness,”J. Audio Eng. Soc., vol.45, no.4, April 1997、並びにGlasberg及びMooreによる“A model of loudness applicable to time-varying sounds,”J.Audio Eng. Soc., vol.50, no.5, May 2002で記載される。
更に別の方法は、オーディオ信号のインターバルについて振幅の自乗平均平方根(RMS)から推定されたラウドネスを計算する。経験による試験は、約500msecのインターバルが上述されたDolby Plus規格に準拠する1つの例となる符号化システムについて推定されたラウドネスの有効な測定を与えることを示す。
以下の説明は、dBで表されるラウドネスの測定を導出するラウドネス計算方法が使用されることを想定している。0dBに対応する基準レベルは重要ではないが、デジタルオーディオ信号が固定長のデジタル値により表される場合、便利な選択は、最大の可能性のあるデジタル値に対応する0dBを有することである。異なる基準レベルは、以下の説明に影響を及ぼすことなしに、必要に応じて選択される場合がある。
(2)ラウドネスの分析
1つの実現によれば、メタデータジェネレータ25は、ラウドネス計算方法を1以上のメインのオーディオ信号に適用することでメインのオーディオプログラムの推定されたラウドネスLMを取得し、ラウドネス計算方法を1以上の関連するオーディオ信号に適用することで、関連するオーディオプログラムの推定されるラウドネスLAを取得する。関連するオーディオプログラムの推定されるラウドネスは、メインのオーディオプログラムの推定されたラウドネスを超える幾つかの閾値となる量TDであるラウドネスレベルに比較される。
関連するオーディオプログラムの推定されるラウドネスがこのラウドネスレベル未満である場合、メタデータジェネレータ25は、混合が行われるときに、メインのオーディオプログラムの減衰レベルを指定するパラメータを生成する。
関連するオーディオプログラムの推定されるラウドネスがこのラウドネスレベルよりも大きいか又は等しい場合、メタデータジェネレータ25は、メインのオーディオプログラムについて減衰がないことを指定するパラメータを生成する。代替的に、メタデータジェネレータ25は、減衰がないことのパラメータが指定されたとき、オーディオ符号化システムにおける受信機が正しく応答するように設定された場合、何れかのパラメータを生成しない。
この実現は、以下のように表される。
Figure 2014513322
この場合、Aはメインのオーディオプログラムの所望の減衰レベルである。
閾値TDの値は、実験に基づいて導出される場合がある。上述された例となる符号化システムについて良好な効果を与えるためにTD=23dBの閾値が使用される場合がある。
Xの値は、様々なやり方で計算される場合があり、適切な値を実験により確認することができるが、特定のやり方が必須ではない。上述した例となる符号化システムについて、減衰レベルは、以下の式から計算される場合がある。
Figure 2014513322
代替的に、減衰レベルAは、ラウドネスレベルに依存する場合がある。これは、2以上の減衰レベル及び減衰レベルのそれぞれのペア間の1以上のニーポイント(knee point)として表される場合がある。本発明にとって特定の値のセットが重要ではない。上述した例となる符号化システムと有利に使用された減衰レベルと関連するニーポイントとの1つのセットは、圧縮比の観点で表される。この例では、2:1の圧縮比がニーポイント以下で使用され、3:1の圧縮比がニーポイントを超えて使用される。レベルLM+TDを超えてニーポイントは6dBである。
更に別の実現では、メタデータジェネレータ25は、IDを減衰の遅延(delay)、IHを維持hold、IAをアタック(attack)及びIRをリリース(release)について時間インターバルを指定するパラメータのセットにおける1以上のパラメータに応答して減衰パラメータを生成する。本発明にとって、これらの時間インターバルについて特定の値が重要ではない。上述された例となる符号化システムと有利にも使用される1つの値のセットは、ID=0msec,IH=200msec,IA=320msec及びIR=640msecである。
好ましくは、上述された実現におけるメタデータジェネレータ25は、関連するオーディオプログラムの推定されたラウドネスが閾値のトリガレベルTTよりも高い場合にのみ減衰パラメータを生成する。この閾値のトリガレベルは、実験に基づいて導出することができる。例となる符号化システムで使用される値は、TT=−40dBである。
代替的に、メタデータジェネレータ25は、1以上の減衰レベル、1を超える減衰レベルが指定された場合に関連するニーポイント、及び/又は上述された1以上の時間インターバルを指定するパラメータのセットを生成する。パラメータのセットは、出力のエンコードされた信号にされるミキシングメタデータを構成する。この代替的な実現では、受信機は、ミキシングメタデータに含まれる全てのパラメータに応答して、所望の減衰レベルを計算する。
2.受信機
図2を参照して、受信機20は、経路33から入力のエンコードされた信号を受信する。例えば、入力のエンコードされた信号は、送信機からダイレクトに受信されるか又は記憶媒体から読み出される場合がある。入力のエンコードされた信号は、オーディオ信号のインターバルに対応するか又はオーディオ信号のインターバルを表す、エンコードされたオーディオ信号とミキシングメタデータを伝達するフレーム又はセグメントで構成される場合がある。デフォーマッタ41は、入力のエンコードされた信号からメインのエンコードされたオーディオ信号、関連するエンコードされたオーディオ信号及びミキシングメタデータを取得する。
デコーダ43は、メインのエンコードされたオーディオ信号をデコードして1以上のメインのオーディオ信号を取得し、デコーダ44は、関連するエンコードされたオーディオ信号をデコードして1以上の関連するオーディオ信号を取得する。本発明を実施するために特定のデコードプロセスは必須ではないが、メインのエンコードされたオーディオ信号及び関連するエンコードされたオーディオ信号を生成するために使用される符号化プロセスに対して相補的となるべきである。例えば、エンコードされたオーディオ信号を生成するために上述されたような知覚符号化プロセスが使用された場合、適切なデコードプロセスは、周波数サブバンド信号を量子化するために使用された量子化解像度に従う逆量子化解像度で周波数サブバンド信号を逆量子化し、逆量子化された周波数サブバンド信号をデコードされたオーディオ信号に合成する。適切なデコード方法についての更なる詳細は、当該技術分野で知れれているか、又は上述された引用文献から得ることができる。
メタデータプロセッサ45は、ミキサ48を制御するミキシングメタデータに応答して制御信号を生成する。ミキサ48は、1以上の関連するオーディオ信号を1以上のメインのオーディオ信号と適応的に混合することで出力のオーディオ信号を生成する。1以上のメインのオーディオ信号の振幅レベルは、ミキシングメタデータに応答して制御される。出力のオーディオ信号は、再生又は所望とされる他の処理のために経路51に沿って出力される。
ミキサ48は、様々なやり方で実現され、本発明にとって特定の実現は必須ではない。1つの実現では、ミキサ48は、ミキシングメタデータにより指定された量だけ1以上のメインのオーディオ信号を減衰させ、次いで減衰されたメインのオーディオ信号を関連するオーディオ信号と混合する。入力のエンコードされた信号においてミキシングメタデータが存在しない場合、1以上のメインのオーディオ信号は、混合の前に減衰されない。
代替的な実現では、ミキサ48は、上述された1以上の減衰レベル、1を超える減衰レベルが指定される場合に関連するニーポイント、及び/又は1以上の時間インターバルを指定するパラメータのセットを含むミキシングパラメータに応答する。この代替的な実現では、ミキサ48は、ミキシングパラメータに含まれる全てのパラメータに応答して、メインのオーディオ信号の所望の減衰レベルを計算する。
C.受信機のみ
図3に概略的に示される受信機30は、図1に示される送信機10からの特徴と図2に示される受信機20からの特徴とを組み込んでいる。送信機10又は受信機20におけるそれぞれのコンポーネントと同じ参照符号を有する受信機30におけるそれぞれのコンポーネントは、それぞれのコンポーネントと同じ機能を実行する。
メタデータジェネレータ/プロセッサ46は、メタデータジェネレータ25及びメタデータプロセッサ45について上述されたのと同じ機能を実行する。メインのオーディオプログラムの推定されたラウドネスLMは、メインのエンコードされたオーディオ信号からデコードされた1以上のメインのオーディオ信号にラウドネス計算方法を適用することで得られ、関連するオーディオプログラムの推定されたラウドネスLAは、関連するエンコードされたオーディオ信号からデコードされた1以上の関連するオーディオ信号にラウドネス計算方法を適用することで得られる。ミキシングメタデータパラメータは、メタデータジェネレータ25について上述されたように導出される。
D.実現
本発明の様々な態様を組み込んだ装置は、汎用コンピュータで見られるコンポーネントに類似したコンポーネントに結合されるデジタルシグナルプロセッサ(DSP)回路のような専用コンポーネントを含むコンピュータ又は他の装置による実行のためのソフトウェアを含む様々なやり方で実現される場合がある。図4は、本発明の態様を実現するために使用される装置70の概略的なブロック図である。プロセッサ(PROC)72は、計算リソースを提供する。RAM73は、処理のためにプロセッサ72により使用されるシステムランダムアクセスメモリ(RAM)である。ROM74は、装置70を動作させるために必要とされるプログラムを記憶し、おそらく本発明の様々な態様を実行するリードオンリメモリ(ROM)のような永続性のある記憶装置の形態を表す。I/Oコントロール(I/O CONTROL)75は、通信チャネル76,77を介して信号を受信及び送信するインタフェース回路を表す。図示される実施の形態では、全ての主要なシステムコンポーネントは、1を超える物理又は論理バスを表す場合があるバス71に接続されるが、本発明を実施するためにバスアーキテクチャは必要とされない。
汎用コンピュータシステムにより実現される実施の形態では、キーボード又はマウス及びディスプレイのような装置と相互作用し、磁気テープ又はディスク或いは光媒体のような記録媒体を有する記憶装置78を制御するため、更なるコンポーネントが含まれる場合がある。記憶媒体は、オペレーティングシステム、ユーティリティ及びアプリケーションの指示からなるプログラムを記録するために使用される場合があり、本発明の様々な態様を実現するプログラムを含む場合がある。
本発明の様々な態様を実施するために必要とされる機能は、ディスクリートロジックコンポーネント、集積回路、1以上のASIC及び/又はプログラム制御されるプロセッサを含む様々なやり方で実現されるコンポーネントにより実行することができる。これらのコンポーネントが実現されるやり方は、本発明を実施するために重要ではない。
本発明のソフトウェア実現は、超音波から紫外線周波数までを含むスペクトルを通してベースバンド又は変調された通信経路のようなコンピュータ読み取り可能な媒体、或いは、磁気テープ、カード又はディスク、光カード又はディスク、紙を含む媒体上の検出可能なマーキングを含む記録技術を使用して情報を伝達する記録媒体により伝達される場合がある。
関連するオーディオプログラムは、メインのオーディオプログラム及びその付随するビジュアルコンテンツの再生の間にメインのオーディオプログラムと混合される。関連するオーディオプログラムと含まれるメタデータを混合することは、関連するオーディオプログラムがメインのオーディオプログラムと混合されるとき、メインのオーディオプログラムの減衰量を指定する。
Vlaiou等による“Advanced Audio for Advanced IPTV Services”, AES Convention 123, October 2007, AES, USA, 1, October 2007は、改善されたオーディオストリームのメインのオーディオストリームとの混合のためにEnhanced AC-3の使用を記載している。

Claims (18)

  1. オーディオ信号をエンコードする方法であって、
    メインのオーディオプログラムを表す1以上のメインのオーディオ信号を受信し、関連するオーディオプログラムを表す1以上の関連するオーディオ信号を受信する段階と、
    前記1以上のメインのオーディオ信号をエンコードしてメインのエンコードされたオーディオ信号を生成し、前記1以上の関連するオーディオ信号をエンコードして関連するエンコードされたオーディオ信号を生成する段階と、
    前記メインのオーディオプログラムの推定されたラウドネスと前記関連するオーディオプログラムの推定されたラウドネスとに応答して、オーディオミキシングメタデータを生成する段階であって、前記メインのエンコードされたオーディオ信号からデコードされる1以上のオーディオ信号と、前記関連するオーディオ信号からデコードされる1以上のオーディオ信号は、前記オーディオミキシングメタデータに従って混合される、ステップと、
    前記メインのエンコードされたオーディオ信号、前記関連するエンコードされたオーディオ信号及び前記オーディオミキシングメタデータから出力のエンコードされた信号を生成する段階と、
    を含む方法。
  2. 前記オーディオミキシングメタデータは、前記関連するオーディオプログラムの前記推定されたラウドネスが前記メインの前記推定されたラウドネスを超える閾値となる量未満であるときにのみ、前記オーディオミキシングデータが生成され、前記出力のエンコードされた信号が生成される、
    請求項1記載の方法。
  3. 前記関連するオーディオプログラムが閾値となる量を超えるときにのみ、前記オーディオミキシングメタデータが生成され、前記出力のエンコードされた信号が生成される、
    請求項1又は2記載の方法。
  4. 前記オーディオミキシングメタデータは、混合の前に前記メインのオーディオプログラムからデコードされる前記1以上のオーディオ信号の減衰レベルを指定する、
    請求項1乃至3の何れか記載の方法。
  5. 前記オーディオミキシングメタデータは、混合の前に前記メインのオーディオプログラムからデコードされる前記1以上のオーディオ信号の減衰の遅延、維持、アタック及びリリースについて時間インターバルを指定するパラメータのセットにおける1以上のパラメータを含む、
    請求項1乃至4の何れか記載の方法。
  6. 前記オーディオミキシングメタデータは、混合の前に前記メインのオーディオプログラムからデコードされる前記1以上のオーディオ信号の2以上の減衰レベルと、前記減衰レベルのそれぞれのペアについての1以上のニーポイントを指定する、
    請求項1乃至5の何れか記載の方法。
  7. 減衰の遅延、維持、アタック及びリリースについて時間インターバルを指定するパラメータのセットにおける1以上のパラメータ、及び混合の前に前記メインのオーディオプログラムからデコードされる前記1以上のオーディオ信号についての2以上の減衰レベル並びに前記減衰レベルのそれぞれのペアについての1以上のニーポイントに応答して前記ミキシングメタデータを生成する段階を含む、
    請求項1乃至4の何れか記載の方法。
  8. 入力のエンコードされた信号をデコードする方法であって、
    入力のエンコードされた信号を受信し、受信した入力のエンコードされた信号から、メインのエンコードされたオーディオ信号、関連するエンコードされたオーディオ信号及びミキシングメタデータを取得する段階と、
    前記メインのエンコードされたオーディオ信号をデコードして1以上のメインのオーディオ信号を取得し、前記関連するエンコードされたオーディオ信号をデコードして1以上の関連するオーディオ信号を取得する段階と、
    前記ミキシングメタデータに従って前記1以上のメインのオーディオ信号を前記1以上の関連するオーディオ信号と混合して出力のオーディオ信号を生成する段階であって、前記ミキシングメタデータは、前記メインのエンコードされたオーディオ信号により表されるメインのオーディオプログラムの推定されたラウドネスと前記関連するエンコードされたオーディオ信号により表される関連するオーディオプログラムの推定されるラウドネスとに応答して生成される、段階と、
    を含む方法。
  9. 前記関連するオーディオプログラムの前記推定されたラウドネスが前記メインのオーディオプログラムの前記推定されたラウドネスを超える閾値となる量未満であるときにのみ、前記オーディオミキシングデータは、前記入力のエンコードされた信号において存在する、
    請求項8記載の方法。
  10. 前記関連するオーディオプログラムの前記推定されたラウドネスが前記メインのオーディオプログラムの前記推定されたラウドネスを超える閾値となる量未満であるときにのみ、前記ミキシングメタデータは、前記入力のエンコードされた信号から取得される、
    請求項8記載の方法。
  11. 前記関連するオーディオプログラムの前記推定されたラウドネスが閾値となる量を超えるときにのみ、前記オーディオミキシングメタデータは、前記入力のエンコードされた信号において存在する、
    請求項8又は9記載の方法。
  12. 前記関連するオーディオプログラムの前記推定されたラウドネスが閾値となる量を超えるときにのみ、前記メタデータは、前記入力のエンコードされた信号から取得される、
    請求項8又は9記載の方法。
  13. 前記オーディオミキシングメタデータは、混合の前に前記1以上のメインのオーディオ信号の減衰レベルを指定する、
    請求項8乃至11の何れか記載の方法。
  14. 前記オーディオミキシングメタデータは、混合の前に前記1以上のメインのオーディオ信号についての減衰の遅延、維持、アタック及びリリースについて時間インターバルを指定するパラメータのセットにおける1以上のパラメータを含む、
    請求項8乃至13の何れか記載の方法。
  15. 前記オーディオミキシングメタデータは、混合の前に前記1以上のメインのオーディオ信号の2以上の減衰レベルと、前記減衰レベルのそれぞれのペアについて1以上のニーポイントとを指定する、
    請求項8乃至14の何れか記載の方法。
  16. 前記ミキシングメタデータは、減衰の遅延、維持、アタック及びリリースについて時間インターバルを指定するパラメータのセットにおける1以上のパラメータ、及び混合の前に前記1以上のメインのオーディオ信号について2以上の減衰レベル並びに前記減衰レベルのそれぞれのペアについての1以上のニーポイントに応答して生成される、
    請求項8乃至13の何れか記載の方法。
  17. 請求項1乃至16の何れか記載の方法の全ての段階を実行する手段を含む装置。
  18. 請求項1乃至16の何れか記載の方法を実行するために装置により実行可能な命令からなるプログラムを記録した記録媒体。
JP2014503707A 2011-04-08 2012-04-02 2つのエンコードされたビットストリームからのオーディオストリームの混合において使用するためのメタデータの自動設定 Active JP5719966B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161473346P 2011-04-08 2011-04-08
US61/473,346 2011-04-08
PCT/US2012/031791 WO2012138594A1 (en) 2011-04-08 2012-04-02 Automatic configuration of metadata for use in mixing audio programs from two encoded bitstreams

Publications (2)

Publication Number Publication Date
JP2014513322A true JP2014513322A (ja) 2014-05-29
JP5719966B2 JP5719966B2 (ja) 2015-05-20

Family

ID=45955132

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014503707A Active JP5719966B2 (ja) 2011-04-08 2012-04-02 2つのエンコードされたビットストリームからのオーディオストリームの混合において使用するためのメタデータの自動設定

Country Status (5)

Country Link
US (1) US9171549B2 (ja)
EP (1) EP2695161B1 (ja)
JP (1) JP5719966B2 (ja)
CN (1) CN103443854B (ja)
WO (1) WO2012138594A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020038375A (ja) * 2014-03-25 2020-03-12 アップル インコーポレイテッドApple Inc. ダッキング制御のためのメタデータ
US11380344B2 (en) 2019-12-23 2022-07-05 Motorola Solutions, Inc. Device and method for controlling a speaker according to priority data

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578781B (zh) * 2013-01-21 2021-01-29 杜比实验室特许公司 利用响度处理状态元数据的音频编码器和解码器
TR201802631T4 (tr) 2013-01-21 2018-03-21 Dolby Laboratories Licensing Corp Program Ses Şiddeti ve Sınır Meta Verilere Sahip Sesli Enkoder ve Dekoder
KR102071860B1 (ko) * 2013-01-21 2020-01-31 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
JP6593173B2 (ja) 2013-12-27 2019-10-23 ソニー株式会社 復号化装置および方法、並びにプログラム
CN106134112B (zh) * 2014-04-27 2019-03-08 Lg电子株式会社 发送广播信号的设备、接收广播信号的设备、发送广播信号的方法以及接收广播信号的方法
CN106796809B (zh) * 2014-10-03 2019-08-09 杜比国际公司 个性化音频的智能访问
US10297269B2 (en) 2015-09-24 2019-05-21 Dolby Laboratories Licensing Corporation Automatic calculation of gains for mixing narration into pre-recorded content

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005032425A (ja) * 2003-07-12 2005-02-03 Samsung Electronics Co Ltd ミキシングのためのオーディオストリームを製作する方法、その装置およびその情報保存媒体

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9509831D0 (en) 1995-05-15 1995-07-05 Gerzon Michael A Lossless coding method for waveform data
GB9606680D0 (en) 1996-03-29 1996-06-05 Philips Electronics Nv Compressed audio signal processing
US6360234B2 (en) 1997-08-14 2002-03-19 Virage, Inc. Video cataloger system with synchronized encoders
US7415120B1 (en) * 1998-04-14 2008-08-19 Akiba Electronics Institute Llc User adjustable volume control that accommodates hearing
WO1999053612A1 (en) * 1998-04-14 1999-10-21 Hearing Enhancement Company, Llc User adjustable volume control that accommodates hearing
EP1173925B1 (en) 1999-04-07 2003-12-03 Dolby Laboratories Licensing Corporation Matrixing for lossless encoding and decoding of multichannels audio signals
US7266501B2 (en) 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
JP2003333699A (ja) * 2002-05-10 2003-11-21 Pioneer Electronic Corp マトリックス・サラウンドデコード装置
US7516064B2 (en) 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
CA2808226C (en) 2004-03-01 2016-07-19 Dolby Laboratories Licensing Corporation Multichannel audio coding
JP2006260611A (ja) 2005-03-15 2006-09-28 Toshiba Corp 情報記憶媒体、情報再生装置、情報再生方法、及びネットワーク通信システム
TW200638335A (en) 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
KR20060131610A (ko) 2005-06-15 2006-12-20 엘지전자 주식회사 기록매체, 오디오 데이터 믹싱방법 및 믹싱장치
EP2092791B1 (en) * 2006-10-13 2010-08-04 Galaxy Studios NV A method and encoder for combining digital data sets, a decoding method and decoder for such combined digital data sets and a record carrier for storing such combined digital data set
CA2645915C (en) 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
EP2278582B1 (en) 2007-06-08 2016-08-10 LG Electronics Inc. A method and an apparatus for processing an audio signal
WO2009027923A1 (en) 2007-08-31 2009-03-05 Koninklijke Philips Electronics N.V. Conveying auxiliary information in a multiplexed stream
KR101058042B1 (ko) * 2007-09-06 2011-08-19 삼성전자주식회사 멀티스트림 재생장치 및 재생방법
WO2009093867A2 (en) 2008-01-23 2009-07-30 Lg Electronics Inc. A method and an apparatus for processing audio signal
KR101596504B1 (ko) 2008-04-23 2016-02-23 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
ES2963744T3 (es) 2008-10-29 2024-04-01 Dolby Int Ab Protección de recorte de señal usando metadatos de ganancia de audio preexistentes
US8165321B2 (en) * 2009-03-10 2012-04-24 Apple Inc. Intelligent clip mixing
TWI529703B (zh) * 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
TWI525987B (zh) * 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005032425A (ja) * 2003-07-12 2005-02-03 Samsung Electronics Co Ltd ミキシングのためのオーディオストリームを製作する方法、その装置およびその情報保存媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN7014001982; Roland Vlaicu, Oren Williams: 'Advanced Audio for Advanced IPTV Services' AES 123rd Convention , 20071005 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020038375A (ja) * 2014-03-25 2020-03-12 アップル インコーポレイテッドApple Inc. ダッキング制御のためのメタデータ
US11380344B2 (en) 2019-12-23 2022-07-05 Motorola Solutions, Inc. Device and method for controlling a speaker according to priority data

Also Published As

Publication number Publication date
WO2012138594A1 (en) 2012-10-11
CN103443854A (zh) 2013-12-11
US9171549B2 (en) 2015-10-27
EP2695161B1 (en) 2014-12-17
CN103443854B (zh) 2016-06-08
EP2695161A1 (en) 2014-02-12
JP5719966B2 (ja) 2015-05-20
US20140025389A1 (en) 2014-01-23

Similar Documents

Publication Publication Date Title
JP5719966B2 (ja) 2つのエンコードされたビットストリームからのオーディオストリームの混合において使用するためのメタデータの自動設定
RU2339088C1 (ru) Индивидуальное формирование каналов для схем всс и т.п.
JP6133263B2 (ja) 携帯機器内でオーディオ信号のラウドネスを非破壊的に正規化するシステムおよび方法
RU2384014C2 (ru) Формирование рассеянного звука для схем бинаурального кодирования с использованием ключевой информации (всс)
JP5253564B2 (ja) 合成されたスペクトル成分に適合するようにデコードされた信号の特性を使用するオーディオコーディングシステム
TWI397903B (zh) 編碼音訊之節約音量測量技術
RU2512103C2 (ru) Шумовой фон, устройство обработки шумового фона, метод обеспечения параметров шумового фона, метод обеспечения спектрального представления шумового фона аудиосигнала, компьютерная программа и кодированный аудиосигнал
KR101632599B1 (ko) 향상된 스펙트럼 확장을 사용하여 양자화 잡음을 감소시키기 위한 압신 장치 및 방법
TWI505263B (zh) 錄音資料之適應性動態範圍增加技術
JP6576934B2 (ja) 圧縮済みオーディオ信号の信号品質ベース強調及び補償
PT1334484E (pt) Melhorar o desempenho de sistemas de codificacao que utilizam metodos de reconstrucao a altas frequencias
US9293146B2 (en) Intensity stereo coding in advanced audio coding
EP1514263B1 (en) Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
JP2015531084A5 (ja)
EP2828853B1 (en) Method and system for bias corrected speech level determination
EP2905775A1 (en) Method and Apparatus for watermarking successive sections of an audio signal
Piotrowski Precise psychoacoustic correction method based on calculation of JND level
Grecu Challenges in Evaluating Musical Instrument Sound Separation Algorithms
JP2005351977A (ja) オーディオ信号符号化装置及びオーディオ信号符号化方法
IL165648A (en) An audio coding system that uses decoded signal properties to coordinate synthesized spectral components

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140701

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140925

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20141002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150323

R150 Certificate of patent or registration of utility model

Ref document number: 5719966

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250