JP2019501563A - オブジェクトベースのオーディオ信号バランシング法 - Google Patents

オブジェクトベースのオーディオ信号バランシング法 Download PDF

Info

Publication number
JP2019501563A
JP2019501563A JP2018522683A JP2018522683A JP2019501563A JP 2019501563 A JP2019501563 A JP 2019501563A JP 2018522683 A JP2018522683 A JP 2018522683A JP 2018522683 A JP2018522683 A JP 2018522683A JP 2019501563 A JP2019501563 A JP 2019501563A
Authority
JP
Japan
Prior art keywords
signal
interactive
term
audio
loudness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018522683A
Other languages
English (en)
Other versions
JP7001588B2 (ja
Inventor
ジャン−マルク ジョット
ジャン−マルク ジョット
ブランドン スミス
ブランドン スミス
ジェフリー トンプソン
ジェフリー トンプソン
ゾラン フェイゾ
ゾラン フェイゾ
Original Assignee
ジャン−マルク ジョット
ジャン−マルク ジョット
ブランドン スミス
ブランドン スミス
ジェフリー トンプソン
ジェフリー トンプソン
ゾラン フェイゾ
ゾラン フェイゾ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジャン−マルク ジョット, ジャン−マルク ジョット, ブランドン スミス, ブランドン スミス, ジェフリー トンプソン, ジェフリー トンプソン, ゾラン フェイゾ, ゾラン フェイゾ filed Critical ジャン−マルク ジョット
Publication of JP2019501563A publication Critical patent/JP2019501563A/ja
Application granted granted Critical
Publication of JP7001588B2 publication Critical patent/JP7001588B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/005Control by a pilot signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)

Abstract

オーディオプログラムにおける対話信号と非対話信号の関係を調整するためのシステム、デバイス、及び方法が本明細書で記載される。1つの実施例において、オーディオプログラムに対する長期対話バランスに関する情報を受け取ることができる。長期ラウドネス対話バランスは、オーディオプログラムの対話対非対話ラウドネス関係を示すことができる。対話ラウドネスプリファレンスは、ユーザから、データベースから、又は別のソースなどから受け取ることができる。所望の長期ゲイン又は減衰は、オーディオプログラムに対する受け取った長期対話バランスと受け取った対話バランスプリファレンスとの間の差に従って決定することができる。長期ゲイン又は減衰は、オーディオプログラムの対話信号及び非対話信号のうちの少なくとも1つに適用して、ラウドネスプリファレンスに従って拡張されるオーディオプログラムをレンダリングすることができる。【選択図】図1

Description

(優先権の請求)
本出願は、引用によって本明細書に全体的に組み込まれる、2015年10月28日に出願された米国出願第62/247,678号に対する優先権の利益を主張する。
対話又は解説は、映画のサウンドトラック又はテレビジョン放送番組において重要なオーディオ要素とすることができる。映画のある一定の区間中、リスナーは、対話と非対話のオーディオ信号のオリジナルミックスで提供されるよりも対話オーディオがより顕著にされることが望ましい場合がある。より顕著な対話は、難聴のリスナーにとって、母語以外で起こっている対話を理解しようとしているリスナーにとって、又は不利な聴取条件下でなど、リスニングの快適性を達成又は維持するのに望ましい可能性がある。
対話オーディオが解説トラックであるスポーツ又は試合の放送などの媒体コンテンツの一部のジャンル又はタイプでは、非対話オーディオレベルに対する対話オーディオレベルの好ましい関係又は比率は、人によって大きく変わる可能性がある。特定のリスナーにとって好ましいオーディオ信号関係は、例えば、オリジナルミックス又は放送信号ミックスなどに対する対話の顕著性又は対話信号振幅レベルの増大又は低減とすることができる。
オーディオプログラムは、複数の異なるオーディオチャネル信号を含むことができる。例えば、5.1フォーマットなどの従来のマルチチャネルデジタルオーディオフォーマットにおいて、複数の異なるオーディオチャネルの各々は、規定のレイアウトにおけるそれぞれの再生ラウドスピーカに割り当てることができる。従来のシステムにおいて、所与のオーディオチャネル信号は、同じ信号において対話成分と非対話成分の組み合わせを含むことができる。対話検出又は分類技術を用いて、信号の対話関連成分を選択的に処理することができる。
オブジェクトベースのデジタルオーディオフォーマットにおいて、複数の異なるオーディオ信号の各々は、再生位置又はその近傍でのレンダリングなどに独立して提供することができる。このようなオブジェクトベースのフォーマットは、従来のマルチチャネルフォーマットに優る融通性を提供することができ、オーディオプログラムの異なる成分を別々に格納、処理、又は送信することを可能にすることができる。
例えば、オブジェクトベースのデジタルオーディオフォーマットにおいて、対話信号が他のオーディオ信号とは独立して扱い又は処理することができる。更に、オブジェクトベースのデジタルオーディオにおいて、信号は、「対話」、「音楽」、「効果」、又は他の何らかの指定のような「オブジェクトタイプ」の指定を含むことができ、又はこれに関連付けることができる。一部の実施例において、オブジェクト信号は、音楽ステム、効果ステム、又は対話ステムなどのオーディオプログラムのステムを指すことができる。各ステムは、1又は2以上のオーディオオブジェクト信号を含むことができる。オブジェクトタイプ情報は、任意選択的に、オーディオオブジェクト信号自体と共にメタデータに組み込む又は含めることができる。再生時には、出力にミックス及びレンダリングされる前になど、任意選択的に、各オーディオオブジェクト信号を独立して分析及び処理することができる。
米国出願第62/247,678号明細書
この要約は、以下の詳細な説明で説明される単純化された形式における概念の選択を導入するために提供される。この要約は、請求項に記載される主題の主要な特徴又は構成を識別することを意図するものではなく、また請求項に記載される主題の範囲を限定するのに使用することを意図するものでもない。
本明細書で記載される対話制御及び拡張システム及び方法の様々な実施形態は、オブジェクトベースのデジタルオーディオコーディングフォーマットを用いるよう構成されている。デジタルオーディオ/ビデオ放送又はストリーミングサービス及び他のアプリケーションに好適なこれらのフォーマットは、同じオーディオプログラムの非対話の要素とは別に送信されるオーディオ信号を表す、対話「トラック」又はオブジェクトを含むか又は用いることができる。このようなオブジェクトは、信号ラウドネスメタデータを含むか又は用いることができ、受信側で選択的にゲイン補正することができる。
本システム及び方法の様々な実施形態は、オリジナルオーディオコンテンツマテリアルの修正又は動的ゲイン調整を適用して、システム又はユーザのプリファレンス又は期待に適合させることができる対話制御を提供する。これは、プログラムの間又はプログラムを切り換えたときにユーザが対話制御パラメータ又は設定を調整する必要性を排除するのを助けることができる。加えて、本システム及び方法の実施形態は、(例えばコマーシャルの割り込みを含む)コンテンツジャンル及びソースにわたって一貫したプログラムラウドネスを確保する既存の放送規格及び規定と互換性があり、従って、プログラム中又はプログラムを切り換えたときにユーザが繰り返し音量を調整する煩わしさを回避し且つその必要性を最小限にする。
本システム及び方法の実施形態は、直感的なユーザパラメータインタフェースを含む。このユーザパラメータインタフェースは、所与の1つのコンテンツに補正が必要であることを復号器が検出した場合に補正が加えられるように、リスナーの個々のプリファレンスに対する体験を個別化するために設けられる。対話バランス個別化は、長期の対話バランスメトリックに従って対話と非対話のバランスを調整するような、オーディオプログラム全体にわたって固定ゲインオフセットを適用することを含むことができる。対話保護技術は、付加的に又は代替として、必要であれば、短期の対話バランスメトリックがユーザ定義のプリファレンスの範囲外にあるオーディオプログラム部分の間など、時間的に変化するゲインオフセットを提供するために適用することができる。例えば、対話保護は、音響効果又は音楽を伴う対話などの同時要素によってユーザのリスニングの快適さが損なわれる場合は常に提供することができる。
オブジェクトベースのオーディオシステムにおいて、復号器又はレンダラーは、対話オブジェクト信号と非対話オブジェクト信号を別々に受け取るように構成することができる。復号器又はランダラーは、対話及び非対話オブジェクト信号の一方又は両方にゲイン又は減衰を適用するように構成することができる。1つの実施例において、復号器は、特定のユーザ、ジャンル、プログラムタイプ、又は環境などに対応する所望の対話対非対話の顕著性又はバランスの指示を受け取ることができる。別々のオブジェクトの1つ又は2以上に対して、すなわち対話信号及び非対話信号に対して独立してゲイン又は減衰を適用することなどによって、所望の対話対非対話バランスを復号器により実現することができる。
本発明者らは、とりわけ、ユーザプリファレンスが消費者の調整可能な対話信号バランスの実用的な有用性を制限する可能性があることを認識している。例えば、ユーザが利用可能な制御パラメータが、何らかのオーディオマテリアルにおける全ての対話オブジェクト又は要素に適用される対話ゲイン(又は負ゲインの場合などの減衰)を表す固定の「対話ゲイン」パラメータである場合、オリジナルマテリアルが既に好適な対話対非対話バランスを表しているときには、結果として生じる信号修正が不必要又は望ましくないことがある。すなわち、場合によっては、好適な対話対非対話バランスは、所与のオーディオプログラムに既に存在している場合があり、従って、グローバル対話ゲイン又は減衰を適用することは、ユーザの体験にとって好ましくない影響を及ぼす可能性がある。加えて、一部のリスナーは、異なるオーディオプログラムソースを切り換えるときに、対話ゲインパラメータを繰り返し調整することを強いられる場合がある。
対話の明瞭度を維持するための一部の技術は、時間的に変化する減衰を適用することによって対話信号に対して自動的に減衰することができる非対話信号を用いる。このような時間的に変化する減衰は、非対話信号のラウドネスを最大にしながら、予測される明瞭度の予め定められたレベルを維持するように計算することができる。これらのタイプの技術は、会話の明瞭度を保つように設計されるので、これらは、非会話信号に対する会話又は解説信号にユーザ指定の減衰をユーザが適用することを許可しない場合がある。
対話と非対話のオーディオ信号間のバランスを自動的に調整する別の技術は、入力信号における音量比率を検出し、次いで、指定された音量比率値に適合させるためにゲイン補正を自動的に生成することを含む。しかしながら、この技術及び前述の技術の両方が、例えば、リアルタイムゲイン変動の結果として出力信号における顕著なオーディオアーチファクトを生じ易い可能性がある。
本発明者らは、上述の問題に対する解決策は、最適にバランシングされた対話と非対話オーディオ成分を有するオーディオプログラムを提供又は維持することを含むことを認識している。1つの実施例において、この解決策は、オブジェクトベースのオーディオ再生システムを含むか又は使用して、オーディオプログラム全体及び異なるタイプのオーディオプログラムなどに対するユーザの好ましい対話対非対話バランスを実現する。
1つの実施例において、この解決策は、オーディオプログラムの対話信号及び非対話信号のラウドネス間の関係を示す対話バランスメトリックとオーディオプログラムの各部分又はセグメントを関連付けることを含む。再生時には、本システムは、対話バランスメトリックをユーザ指定の対話バランスプリファレンス値と比較するように構成することができ、その結果、対話対非対話信号バランス補正(必要に応じて)をオーディオプログラムのそれぞれの部分に自動的に適用することができる。1つの実施例において、本解決策は、複数のオブジェクト信号又はオブジェクト信号のカテゴリーを1又は2以上のラウドネスメトリック又はラウドネスバランスメトリックに関連付けることを含む。
1つの実施例において、本解決策は、オーディオプログラムにおける複数のオーディオオブジェクト信号の各々のラウドネスメトリックに基づくことができるなど、オーディオプログラムに対する長期対話バランス又は顕著性を提供することを含む。長期対話バランスは、一般に、オーディオプログラムの持続時間全体に関連付けることができ、このような場合、オーディオプログラムに対する「グローバル」対話バランスとみなすことができる。1つの実施例において、長期対話バランスは、オーディオプログラム全体未満で連続オーディオプログラムマテリアルの数秒より長い時間(例えば、約5〜10秒より長い時間)に関連付けることができる。
本解決策は、ユーザから受け取ることができる、又は既知又は検出されたオーディオプログラムジャンル(例えば、対話信号及び/又は非対話信号のメタデータを用いて検出された)に基づくことができるなど、長期対話バランスプリファレンスを受け取ることを含むことができる。本解決策は、特定のユーザのためにオーディオプログラムをレンダリング又は再生し、オーディオプログラムの長期対話バランスをユーザについての受信した長期対話バランスプリファレンスと比較して、次いで、オーディオ出力信号に対する長期対話バランスがリスナーの長期対話バランスプリファレンスに対応するように、対話対非対話信号バランスを補正することを含むことができる。1つの実施例において、本解決策は、対話信号のための対話「保護」方式を適用することを含む。対話保護方式は、短期対話バランス又は顕著性が、音響効果又は音楽のような同時オーディオ信号要素の発生によってユーザのリスニングの快適さが損なわれる閾値のようなユーザ定義の閾値を下回らないように構成することができる。
代替の実施形態が可能であり、本明細書で論じるステップ及び要素を、特定の実施形態に応じて変更、追加、又は削除できる点に留意されたい。これらの代替の実施形態は、本発明の範囲から逸脱することなく、使用することができる代替のステップ及び代替の要素、及び行うことができる構造的変更を含む。
ここで、同じ参照数字が全体を通じて対応する部分を表す図面を参照する。
対話制御及び拡張システムの実施例を全体的に示す図である。 マルチチャネルラウドネス処理方式を全体的に示すブロック図である。 対話信号及び/又は非対話信号に適用する長期ゲイン又は減衰を決定するステップを含む方法を全体的に示す図である。 対話信号及び/又は非対話信号のラウドネスを調整するステップを含む方法を全体的に示す図である。 対話信号及び/又は非対話信号に短期ゲイン又は減衰を適用するステップを含む方法を全体的に示す図である。 対話オーディオ信号波形及び非対話オーディオ信号波形の実施例を全体的に示す図である。 対話オーディオ信号及び非対話オーディオ信号の短期ラウドネス尺度の実施例を全体的に示す図である。 短期対話バランス尺度とゲイン又は減衰オフセットとの間のマッピングの実施例を全体的に示す図である。 短期バランス信号、平滑化短期バランス信号、及び対話信号又は非対話信号のゲイン又は減衰オフセットの実施例を全体的に示す図である。 拡張された対話信号波形及び非対話信号波形の実施例を全体的に示す図である。 長期及び短期信号バランシングを含む方法を全体的に示す図である。
対話信号制御及び拡張システム及び方法の実施形態の以下の説明において、添付図面を参照する。これらの図面は、例証として、対話制御及び拡張システム及び方法の実施形態をどのようにして実施できるかに関する特定の実施例を示している。請求項に記載された主題の範囲から逸脱することなく、他の実施形態を使用することができ、構造的変更を行うことができることを理解されたい。以下の説明では、用語「対話」は、同等に、音声、スピーチ、前景コンテンツ、又はより一般的には、オーディオプログラムにおけるコンテンツ信号の好ましい部分又は要素を指す。「非対話」という語は、オーディオプログラムの何らかの残りの部分又は他の部分を指す。
図1は、対話制御及び拡張システム100の実施例を全体的に示す。システム100は、1又は2以上のそれぞれの物理的音波を表す1又は2以上のオーディオ信号110を受け取るように構成されたエンコーダ装置120を含む。システム100は、エンコーダ装置120に通信可能に結合され且つエンコーダ装置120から符号化オーディオ信号111を受け取るように構成されたデコーダ装置130を含む。システム100は更に、デコーダ装置130から1又は2以上の出力信号112を受け取る再生デバイス150を含む。出力信号112は、再生デバイス150に結合された1又は2以上のラウドスピーカを介して再生用のオーディオプログラムの一部分を含む1又は2以上のデジタル又はアナログオーディオ信号を含むことができる。
オーディオ信号110は、オブジェクトベースのオーディオ信号を含むことができる。1つの実施例において、オーディオ信号110は、少なくとも、対話信号を含む第1のオブジェクトベースのオーディオ信号と、非対話信号を含む第2のオブジェクトベースのオーディオ信号を含む。エンコーダ装置120は、第1及び第2のオブジェクトベースのオーディオ信号のうちの1つ又は2以上と関連付けられるメタデータ113の読み取り、追加、又は修正を行うように構成することができる。1つの実施例において、エンコーダ装置120は、オーディオ信号110を受け取って、それぞれのメタデータ113をオーディオ信号110に付加する。メタデータ113は、とりわけ、オーディオ信号のソース、タイプ、ジャンル、ラウドネス、静かさ、持続時間、雑音特性、周波数成分、空間位置、又は他の情報に関する指示又は情報を含むことができる。オブジェクトベースのオーディオ信号は、エンコーダ装置120のマルチプレクサ回路122で受け取ることができ、マルチプレクサ回路122の出力は、エンコーダ装置120の出力に結合することができる。
デコーダ装置130は、エンコーダ装置120からの符号化オーディオ信号111(多重化されたオブジェクトベースのオーディオ入力信号などを含むことができる)を受け取るように構成された入力131を含むことができる。入力131は、デコーダ装置130においてデマルチプレクサ回路132に結合することができ、デマルチプレクサ回路132は、符号化されたオーディオ信号111から、1又は複数の異なるオブジェクトベースのオーディオ信号を回復することができる。デコーダ装置130は、回復されたオブジェクトベースのオーディオ信号からメタデータ113を読み取るように構成されたプロセッサ回路135を含むことができる。1つの実施例において、メタデータ113は、回復されたオブジェクトベースのオーディオ信号の各々にそれぞれ関連付けられたラウドネスメトリック情報を含む。デコーダ装置130は更に、1又は2以上のデジタル又はアナログオーディオ出力信号112を再生デバイス150に提供するように構成された出力139を含む。
1つの実施例において、システム100は、オーディオプログラム又はオブジェクトベースのオーディオ信号に関する様々なジャンル情報を含むことができるデータベース140を含む。データベース140は、エンコーダ装置120及びデコーダ装置130の一方又は両方に対してリモート又はローカルに設けることができる。例えば、データベース140は、イントラネット又はインターネットを介してエンコーダ装置120及び/又はデコーダ装置130がアクセスすることができる。1つの実施例において、エンコーダ装置120は、オーディオ信号110に関するジャンル情報114を決定し、又は後で使用することができるメタデータなどと共にデータベース140に提供し、デコーダ装置130が同じオーディオ信号及び/又はオーディオプログラムに対応するジャンル情報114を検索することができるように構成される。
デコーダ装置130は、2又はそれ以上のオブジェクトベースのオーディオ信号間の信号バランスを更新又は調整するように構成することができる。1つの実施例において、プロセッサ回路135は、対話バランス設定136を受け取り、次いで、対話バランス設定136を、デコーダ装置130によって処理されるオブジェクトベースのオーディオ信号の検出又は決定された対話バランスと比較する。対話バランス設定136と信号の検出又は決定された対話バランスとの間の関係が、指定された閾値に適合又は超過した場合、プロセッサ回路135は、1又は2以上のオブジェクトベースのオーディオ信号136のラウドネス特性を更新又は調整することができる。本明細書全体を通して、語句「対話バランス」は、一般に、異なるオーディオオブジェクト間のラウドネス関係又はバランスの実施例を提供するものと理解することができる。他のラウドネスバランシングは、複数の非対話オブジェクトなどを用いて同様に実行することができる。例えば、音楽オブジェクトと音響効果オブジェクトとの間のラウドネス関係又はバランスは、本明細書で記載されるシステム及び方法を用いて調節又は調整することができる。
1つの実施例において、対話バランス設定136は、第2入力133を介してデコーダ装置に入力されたユーザプリファレンスによって、又は再生デバイス150に対応するデバイス情報によって、又はジャンル情報114によって、又は他の要素によって決定又は影響を受けることができる。1つの実施例において、ユーザプリファレンスは、パーソナルデバイス(例えばモバイルスマートフォン、或いは、1人のユーザ又は1人のユーザのプリファレンスと一般に関連付けられる他のデバイス)と関連付けることができ、パーソナルデバイスは、デコーダ装置130と通信可能に結合することができる。パーソナルデバイスは、自動的に又はデコーダ装置130からの要求に応答してユーザプリファレンスを共有するように構成することができる。1つの実施例において、ユーザプリファレンスは、データベース140に格納することができ、ユーザプリファレンスに対応する1又は2以上の基準(プログラムジャンル、再生デバイスの特徴、その他など)が認識されたときに、デコーダ装置130によって自動的に検索することができる。
従って、図1の実施例は、対話制御及び拡張に合わせて構成することができるエンド・ツー・エンドオブジェクトベースのシステムを含む。1つの実施例において、システム100は、エンコーダ装置120によって提供できるような、オブジェクトベースのラウドネスメタデータを用いて、とりわけ、デコーダ装置130の出力139などにて対話対非対話信号バランスの検出及び修正を容易にすることができる。従来のメディア放送又は信号分配モデルでは、検出及び補正は、復号器側でリアルタイムに実行される。しかしながら、メディアストリーミング/ユニキャストモデルでは、検出及び補正は、エンコーダ又はサーバ側で同様に実施することができる。
対話制御及び拡張システム100の様々な実施形態は、対話対非対話信号レベル補正技術を含む又は使用する。本技術は、任意選択的に、相対的な対話ラウドネス測定などに基づいて、オーディオプログラムにおける対話要素に固定ゲイン(増幅)又は減衰を適用することを含むことができる。このような相対的な対話ラウドネス測定は、対話バランス又は対話顕著性と呼ぶことができる。1つの実施例において、対話バランスは、オーディオプログラムの全持続時間に有効とみなすことができる。全オーディオプログラムの特性は、「グローバル」な特性と考えることができる。例えば、グローバル対話バランスは、全オーディオプログラムに対する対話対非対話ラウドネスを表すと考えることができる。1つの実施例において、対話バランスは、全オーディオプログラムの持続時間よりも短い持続時間に有効とみなすことができる。この実施例において、対話バランス特性は、「長期」特性と考えることができる。約20ミリ秒又はそれ未満などに対応するより短い持続時間対話バランス特性は、「短期」特性と考えることができる。
一部の実施形態において、ユーザの好ましい対話顕著性設定は、とりわけ、対応するオーディオプログラムのコンテンツ又はジャンルに依存することができる。オーディオプログラムジャンルは、ライブスポーツイベント、トークショー、広告、コンサート、映画、TVドラマ、TVコマーシャル、又は他の媒体に対応するオーディオなど、オーディオの様々な種類又はタイプを含むことができる。動作の「セット・アンド・フォゲット(設定したら後は操作不要)」タイプを可能にするために、システム100は、オーディオプログラムに対応するジャンルに関する情報などに基づいて、にユーザの好ましい対話バランス設定を自動的に検索又はリコールするように構成することができる。図1に示すように、ジャンル情報は、符号化ビットストリームに含めるか、又はデータベース140から検索することができる。
一部の実施形態において、エンコーダ装置120は、対話信号及び非対話信号に対してそれぞれのラウドネス値を計算するように構成することができる。1つの実施例において、エンコーダ装置120は、オーディオプログラムの持続時間に対してラウドネス値を計算して、対話信号及び非対話信号の各々にグローバルラウドネス値を提供する。1つの実施例において、エンコーダ装置120は、対話信号及び非対話信号に対するラウドネス値の比率として対話バランスを計算又は決定するように構成することができる。1つの実施例において、決定された対話バランスは、オブジェクトベースのコンテンツ信号と共に送信することができる。必要に応じて、例えば、再生デバイス150でのユーザ指定の対話バランスに一致するように、固定対話ゲイン補正を適用することができる。1つの実施例において、信号増幅に対応するゲインを正とすることができ、又は信号減衰に対応するゲインを負とすることができる。ゲインが、オーディオプログラムの持続時間の間ほぼ一定である場合、信号忠実度は大きな範囲まで維持することができる。例えば、オーディオプログラムの対話バランス(換言すると、プログラムのミキシングエンジニアによって選択されたデフォルトのバランス設定)が既にユーザのプリファレンスに一致しているときには、信号修正を適用する必要性がない場合がある。
過去10年の間にわたって、様々な放送規格機構及び立法機関が、ラウドネス測定及び最良実施に対する規定及び技術的提言を発表してきた。規定及び提言に続いて、LKFS(Loudness, K−weighted, relative to Full Scale)又はLUFS(Loudness Units relative to Full Scale)で表されるデジタルオーディオプログラムの長期(又は統合)ラウドネス尺度は、次式のように計算することができる。
L=−0.691+10log10[Σ(m∈Ω)mp(m)/|J|] (1)
ここでp(m)は、オーディオ信号ブロックmで測定されたパワーであり、各信号ブロックは、75%のオーバラップを有する400ms持続時間であり、Ωは、低レベル信号フレームが廃棄されるゲーティング基準に従うパワー平均に含めるよう選択された信号ブロックのセットを表し、|J|は、ゲート後に保持された信号フレームのセットであるJの要素のカウント又は数を示す。マルチチャネル信号では、ブロックmのパワー寄与は、空間位置に値が依存する係数kmにより重み付けすることができる。
1つの実施例において、エンコーダ装置120は、式(1)に関してのように、オーディオプログラムの持続時間にわたってオブジェクトベースの対話信号の組み合わされた統合ラウドネスLDを計算するように構成することができる。同様に、エンコーダ装置120は、オーディオプログラムの持続時間にわたってオブジェクトベースの非対話信号の組み合わされた統合ラウドネスLNを計算するように構成することができる。値LD及び/又はLNは、符号化オーディオ信号111におけるように、デジタルオーディオビットストリームにおいてグローバルメタデータ113として符号化することができる。1つの実施例において、ラウドネス情報をエンコード(符号化)することができる(例えば、全オーディオプログラムを表すグローバル統合ラウドネスLと共に、この内包は、場合によっては既存のラウドネス規定及び規格によって命じられる)。
図2は、マルチチャネルラウドネス処理方式200を全体的に示すブロック図である。方式200は、5チャネル(左、中央、右、左サラウンド、及び右サラウンド)を用いた5.1システムなどのマルチチャネルにわたるラウドネス特性をモデル化又は測定するのに用いることができる。各ブロックmに対するパワー尺度p(m)は、平均二乗積分により評価することができ、「Kフィルタ」として知られる周波数依存重み付けを含むことができる。様々なチャネルは、独立して重み付けされて合計することができる。1つの実施例において、ゲートブロック(例えば、75%のオーバラップを有する400msの持続時間ブロックを含む)を用いることができる。ゲートブロックは、LKFS閾値の適用後に測定されたレベルに対して、−70LKFS又は−10dBなどの様々な閾値を含むことができる。一般に、低周波数効果(LFE)チャネルは、ラウドネス測定には含まれない。
1つの実施例において、デシベルで表される長期対話バランスは、次式のように表すことができる。
S = LD − LN (2)
ここでLD及びLNは、それぞれの信号ブロックセットΩD及びΩNに対して式(1)に従って計算される。ブロックセットΩD及びΩNは、対話オブジェクト及び非対話オブジェクトそれぞれにΩを限定することによって定義される。
1つの実施例において、対話バランスプリファレンス指標を用いることができる。一般的には本明細書で「対話」バランスプリファレンス指標と呼ばれるが、同様に、指標は、「非対話」ラウドネスプリファレンス指標、又はより一般的にはバランス又は関係指標であると理解することができる。1つの実施例において、対話ラウドネスプリファレンス指標をSpと表すことができる。ゲインオフセットGD及びGNは、例えば、対話オブジェクト及び非対話オブジェクトそれぞれに適用することができ、式(3)及び(4)のシステムを解くことによってそれぞれ導くことができる。
D−GN=SP−S (3)
pow(LD+GD)+pow(LN+GN)=pow(L) (4)
式(4)において、pow()は、LUFSからパワーへの変換、すなわち式(1)のように
pow(L)=|J|exp10[(L+0.691)/10]
を示す。式(3)は対話バランス補正を表し、式(4)は全体的なオーディオプログラムラウドネス保存を保証する。
対話ラウドネスプリファレンス指標を用いて、図1の例示的なシステム100の様々な構成要素などを用いてオブジェクトベースの対話及び非対話オーディオ信号から拡張出力信号をどのようにレンダリングできるかを例示するために、様々な非限定的な実施例が提供される。例えば、図3は、対話信号及び/又は非対話信号に適用する長期ゲイン又は減衰を決定するステップを含む方法300を全体的に示す。図4は、対話信号又は非対話信号のラウドネスを調整するステップを含む方法400を全体的に示す。
図3の実施例において、動作310において、オーディオプログラムに対する長期対話バランスをデコーダ装置130などによって受け取ることができる。対話バランスは、式(1)などを用いて、又は図2の方式200の一部などを用いて計算することができる。1つの実施例において、対話バランスは、他の手段又は方法を用いて計算され、又は対話バランスに関する情報をメタデータ113から検索することができる。動作310で受け取った長期対話バランスは、オーディオプログラムの対話対非対話ラウドネス関係に関する情報を含むことができる。以下で更に検討する図4は、動作310で使用できるように長期対話バランスを決定するステップの実施例を全体的に示す。
動作320で、デコーダ装置130などによって、対話バランスプリファレンスを受け取ることができる。対話バランスプリファレンスは、非対話オーディオ又は他のオーディオプログラムコンテンツに関する対話オーディオの特定のバランス又はミックスについてのプリファレンス(例えば、ユーザプリファレンス)を示す。1つの実施例において、対話バランスプリファレンスは、ユーザプリファレンスに基づいて、再生デバイスタイプ又は環境指示に基づいて、オーディオプログラム又は信号レベル又はプログラムレベルジャンル情報に基づいて、或いは他の情報に基づいて、受け取る又は決定することができる。図1の実施例において、対話バランスプリファレンスを使用して、対話バランス設定136を提供することができる。
動作330において、図3の方法は、受け取った長期対話バランスと受け取った対話バランスプリファレンスとの間の関係を決定するステップを含む。関係を決定するステップは、オーディオプログラムの対話バランスが対話バランスプリファレンスに対応するかどうかなどを決定するため、受け取った長期対話バランスと受け取った対話バランスプリファレンスとの間の大きさの差を識別するステップを含むことができる。オーディオプログラムの対話バランスが、対話バランスプリファレンスよりも指定された閾値量を上回って大きいか又は小さい場合、様々な補正動作を行うことができる。例えば、オーディオプログラムの対話バランスが、対話バランスプリファレンスを超えるか又は対話バランスプリファレンスよりも十分に大きい対話対非対話ラウドネス関係を示す場合、プロセッサ回路135は、オブジェクトベースの対話信号を減衰、カット、又は非強調化を行うことができ、及び/又はオブジェクトベースの非対話信号を増幅、ブースト、又はゲイン適用を行うことができる。オーディオプログラムの対話バランスが、対話バランスプリファレンスよりも十分に小さい対話対非対話ラウドネス関係を示す場合、プロセッサ回路135は、オブジェクトベースの対話信号を増幅又はブーストすることができ、及び/又はオブジェクトベースの非対話信号を減衰することができる。対話対非対話ラウドネス関係が対話バランスプリファレンスに実質的に対応することをオーディオプログラムの対話バランスが示す場合、プロセッサ回路135は、オリジナルコンテンツミックスエンジニアなどによって提供されたデフォルト値に従って、オブジェクトベースの対話信号及び非対話信号を処理することができる。
動作340において、図3の方法は、オブジェクトベースの対話信号及び/又はオブジェクトベースの非対話信号に適用する長期ゲイン又は減衰を決定するステップを含む。例えば、動作330で決定されるような長期対話バランスと対話バランスプリファレンスとの間の差の大きさに基づいて、プロセッサ回路135又は他のプロセッサを用いて、オブジェクトベースのオーディオ信号に適用するゲイン又は減衰の対応する大きさを決定し、この差を補償することができる。
動作350において、本方法は、オブジェクトベースの対話信号及び非対話信号の一方又は両方などに対して、動作340で決定された長期ゲイン又は減衰を適用するステップを含むことができる。1つの実施例において、プロセッサ回路135、又はデコーダ装置130に含まれるか又はデコーダ装置130と通信可能に結合された他の専用の信号プロセッサを用いて、指定されたオーディオ信号にゲイン又は減衰を適用することができる。動作360において、本方法は、オブジェクトベースの対話信号及び非対話信号の少なくとも1つ及び任意選択的に両方のゲイン補正形態を用いて、オーディオ出力信号をレンダリングするステップを含むことができる。例えば、オーディオ出力信号をレンダリングするステップは、プロセッサ回路135又はデコーダ装置130の1又は2以上の出力部又は増幅回路を用いて、1又は2以上の出力信号112を提供するステップを含むことができる。
ここでラウドネスメトリックを用いる別の実施例を参照すると、図4は、対話信号又は非対話信号のラウドネスを調整するステップを含む方法400を全体的に示す。動作410において、本方法は、メタデータ113を含む信号などのオブジェクトベースの対話信号を受け取るステップを含む。この実施例において、メタデータ113は、対話信号についてのラウドネス指標を含むことができる。動作420において、本方法は、プロセッサ回路135などを用いてメタデータ113から対話信号のラウドネスメトリックを識別又は検索するステップを含む。1つの実施例において、動作420で識別されたラウドネスメトリックは、長期ラウドネスメトリックである。
動作430及び440は、それぞれ、動作410及び420と同様に実行することができる。例えば動作430において、本方法は、メタデータ113と共に含むなど、オブジェクトベースの非対話信号を受け取るステップを含む。この実施例において、メタデータ113は、非対話信号のラウドネス指標を含むことができる。動作440において、本方法は、プロセッサ回路135などを用いて、メタデータ113から非対話信号のラウドネスメトリックを識別又は検索するステップを含む。メタデータ113は、本明細書では単一の参照数字を用いて総称的に参照されるが、何れか1つ又は2以上のオブジェクトベースの信号が、それ自体の離散的又は固有のメタデータを含むことができ、又はこれと関連付けることができる点を理解されたい。
動作450において、本方法は、長期対話バランス(例えば、長期対話ラウドネスバランス)を決定するステップを含む。1つの実施例において、長期対話バランスは、対話ラウドネスメトリック(例えば動作420で識別又は決定された)と非対話ラウドネスメトリック(例えば、動作440で識別又は決定された)との間の関係に基づいて決定される。1つの実施例において、長期対話バランスは、対話及び非対話ラウドネスメトリック間の差に基づいて決定される。1つの実施例において、より複雑なアルゴリズムを用いてこの関係を決定することができる。例えば、対話及び非対話ラウドネスメトリックは、離散的周波数成分又は周波数帯域に対するメトリックを含むことができ、長期対話バランスは、様々な周波数成分又は帯域を表す1又は2以上のメトリックの加重又は非加重比較に基づくことができる。1つの実施例において、異なるブロック又はサンプル長に対して異なる関係を決定することができる。1つの実施例において、決定された長期対話バランスは、動作310などで図3の実施例において適用することができる。
図4の方法において、動作460は、動作410で受け取った対話信号及び動作430で受け取った非対話信号の一方又は両方に対応するオーディオプログラムのジャンルを決定又はこのジャンルに関する情報を受け取るステップを含むことができる。1つの実施例において、動作460は、デコーダ装置130を用いて、オブジェクトベースの信号の少なくとも1つで受信できるようなメタデータ113を処理して、メタデータ113からジャンルに関する情報を決定又は読み取るステップを含むことができる。動作460は、付加的に又は代替として、データベース140から検索されたジャンル情報114を用いるステップを含むことができる。決定されたジャンルは、事前に指定された又はデフォルトの対話ラウドネスバランスと関連付けることができる。例えば、異なるジャンルは、それぞれの異なるオーディオプログラム対話バランス量、又は対話と非対話信号との間の異なる好ましい関係と関連付けることができる。従って、スポーツ放送などのジャンルは、劇場パフォーマンスと関連付けられる第2オーディオプログラム対話バランスとは異なる第1オーディオプログラム対話バランスと関連付けることができる。
1つの実施例において、方法400は、符号化オーディオ信号111の一部分から又はデータベース140からなど、オーディオプログラムメタデータを受け取るステップを含む動作470を含む。オーディオプログラムメタデータは、とりわけ、オーディオプログラム自体に関係する情報又は特性、又はプログラムのオブジェクト信号成分に関係する情報又は特性を含むことができる。動作480において、デコーダ装置130は、動作470で受け取ったメタデータを用いてオーディオプログラムのジャンルを決定するように構成することができる。動作480において、デコーダ装置130は、付加的に又は代替として、動作470で受け取ったメタデータを用いて長期対話バランスを決定するよう構成することができる。ジャンル及び/又は長期対話バランスを決定するステップは、ジャンル及び/又はバランスに関する事前に符号化された情報を読み取るステップを含むことができ、又は受け取ったメタデータから引き出された他の情報又は特性を用いてジャンル及び/又は長期対話バランスを計算するステップを含むことができる。
動作490において、図4の方法は、長期対話バランス(例えば動作450又は480で決定された)に基づいて、また任意選択的にジャンル(例えば動作460又は480で決定された)に更に基づいて、対話信号(例えば動作410で受け取った)と非対話信号(例えば動作430で受け取った)の少なくとも一方を調整するステップを含む。例えば、対話ラウドネスは、動作450で決定された長期対話バランスと決定されたジャンルに関連付けられる対話バランスプリファレンスとの間の関係に基づいて調整することができる。1つの実施例において、関係を決定するステップ、対話及び/又は非対話信号に適用するゲイン又は減衰を決定するステップ、決定されたゲイン又は減衰を適用するステップ、及びオーディオ出力をレンダリングするステップは、図3の対話バランスプリファレンスを図4の決定されたジャンルに関連付けられる対話バランスに置き換えることなどによって、動作330、340、350、及び360にて図3に記載された方法と同様に実行することができる。
上述のように、長期対話バランス個別化を用いて、例えば、プログラムの持続時間にわたって及び複数の異なるオーディオプログラムタイプ又はジャンルにわたってグローバルにユーザのリスニングの快適性を向上させることができるが、このような長期又は静的補正は、場合によっては、非対話又は背景信号ラウドネスに対する対話信号ラウドネスの一時的な降下を軽減するには不十分である可能性がある。1つの実施例において、短期対話ラウドネスインバランスは、距離のあるキャラクターの対話を想表現するため、又は情動的影響のために音楽又は音響効果を一時的に強調するために、ビデオサウンドトラックなどに意図的に設けることができる。このようなインバランスは、聴力の消失、母語以外の言語、又は不利な聴取条件などの可変要因の結果として一部のユーザにとってリスニングの快適性に悪影響を与える可能性がある。長期対話バランス補正は、例えば、グローバルに又は静的又は一定の補正ゲイン又は減衰特性などを用いて長期持続時間にわたって動作することができるので、短期ラウドネスインバランスに対して不十分な改善措置である可能性がある。望ましくない短期ラウドネスインバランスを補償するのに十分大きい補正ゲインは、オーディオプログラムの他の部分において対話信号に不必要に又は不適当にゲインを適用する可能性がある。
本システム及び方法の一部の実施形態は、短期対話顕著性又はバランスがユーザによって制御される好ましいレベルを上回って維持できるのを確保するのに用いることができる構成要素及び技術を含む。このような実施形態において、対話信号は、一時的に又は必要なときだけ及びユーザのプリファレンスに適合又は超過するのに十分に高い量だけ強調することができる。この機能又は技術は、本明細書では「対話保護」と呼ばれる。
図5は、短期ゲイン又は減衰をオーディオプログラムにおける対話信号及び/又は非対話信号に適用するステップを含む対話保護方法500を全体的に示す。動作510において、本方法は、オーディオプログラムに対する長期対話バランスを受け取るステップを含み、動作520において、本方法は、長期対話バランスプリファレンスを受け取るステップを含む。動作510及び520は、一般に、図3の実施例において上述した動作310及び320に対応する。動作560において、動作510で受け取った対話バランスに基づいて及び動作520で受け取った対話バランスプリファレンスなどに基づいて、対話又は非対話信号に対する長期ゲイン調整を決定することができる。
動作570において、本方法500は、短期信号ブロック又はセグメントにわたって対話信号及び非対話信号ラウドネス値の一方又は両方をモニタリングするステップを含む。信号ラウドネス値は、例えば、デコーダ装置130のプロセッサ回路135を用いて、又は別のプロセッサ又はモジュールを用いてモニタリングすることができる。1つの実施例において、信号ラウドネス値は、離散的短期信号セグメントの間、一般には20ミリ秒又は20ミリ秒未満の持続時間でモニタリングされる。
動作580において、本方法500は、例えば動作570でモニタリングされた短期対話バランスが、指定された閾値バランスよりも小さいかどうかを決定するステップを含む。1つの実施例において、動作580は、付加的に又は代替として、短期対話バランスがバランス値の指定されたグループ(例えばヒストグラムで)に対応するかどうかを決定するステップを含むことができる。1つの実施例において、動作580は、対話バランスが指定量よりも大きく基準と異なるかどうかを決定するステップを含む。
動作580において、モニタリングされた対話バランス値が基準に適した場合、方法500は、動作585に進み、対話及び/又は非対話信号に対する短期ゲイン又は減衰を決定する。次に、動作590において、本実施例は、例えば、対話信号と非対話信号間のバランス又は関係における突然の又は一時的な変化を軽減又は対処するために、対話信号及び非対話信号のうちの少なくとも1つに対して決定された短期ゲイン又は減衰を適用するステップを含む。
動作580において、モニタリングされたラウドネス特性値が基準に適合しなかった場合、方法500は、動作595に進み、オブジェクトベースの対話信号及び非対話信号の少なくとも1つ及び任意選択的に両方の長期ゲイン補正形態を用いてオーディオ出力信号をレンダリングする。例えば、オーディオ出力信号をレンダリングするステップは、プロセッサ回路135又はデコーダ装置130の1又は2以上の出力部又は増幅回路を用いて、1又は2以上の出力信号112を提供するステップを含むことができる。
図6は、対話オーディオ信号波形601A/601B、及び非対話オーディオ信号波形602の実施例600を全体的に示す。分かり易くするために、異なる信号は、モノ信号と仮定する。実施例600において、最初の約4秒の間、対話オーディオ信号波形601Aの第1部分の短期ラウドネスは、非対話オーディオ信号波形602の短期ラウドネスよりも実質的に大きい。約4秒から始まって、対話オーディオ信号波形601Bの第2部分の短期ラウドネスは、緩やかな非対話オーディオ信号波形602の短期ラウドネスよりも実質的に小さい。
1つの実施例において、対話保護技術(例えば図5の実施例において上述された)は、オーバラッピング又は非オーバラッピングのブロック毎に動作することができ、ブロック持続時間は通常5〜20msである。補正ゲインは、各ブロックについて計算して補間し、次いで、対応する対話及び非対話オーディオ信号にサンプル毎に適用することができる。対話保護技術の概略的な説明を以下に示す。
1つの実施例において、短期対話バランス信号は、次式のように表すことができる(例えば、デシベル単位で)。
s(m)=ID(m)−IN(m) (5)
式(5)において、mがブロック指数であり、ID(m)がブロックmに対する対話オブジェクトの短期ラウドネスを示し、IN(m)が同じブロックmに対する非対話オブジェクトの短期ラウドネスである。値ID(m)及びIS(m)は、例えば、式(1)のアンゲート形態などを用いて対話オブジェクト及び非対話オブジェクトそれぞれに関してパワー平均化を実行することによりブロック指数mに対して計算することができる。
図7は、対話オーディオ信号及び非対話オーディオ信号の短期ラウドネス尺度の実施例700を全体的に示す。第1の曲線701は、対話オーディオ信号波形601A及び601Bの第1及び第2部分についての短期ラウドネス尺度に対応する。第2の曲線702は、非対話オーディオ信号波形602の短期ラウドネス測定に対応する。1つの実施例において、短期ラウドネス尺度は、マルチチャネルオブジェクト又はオブジェクトのミックスについて計算することができる。
1つの実施例において、対話保護技術を用いて、短期対話バランス信号s(m)が閾値を実質的に上回って、又はユーザの短期対話バランスプリファレンス及び/又はオーディオプログラムのジャンルなどによって決定されたユーザ定義のプリファレンスの範囲内に維持されるのを確保することができる。短期対話バランスプリファレンスは、本明細書ではspとして表され、これは、1つの実施例において、リスニングの快適性が損なわれる前にユーザが許容できる最小短期対話バランス(又は対話対非対話バランス)を表すことができる。短期対話バランス信号s(m)及び最小値spから、時間的に変化するオフセットを計算することができる。簡素化のため、及びスペクトル修正又は様々な可聴アーチファクトを防ぐために、広帯域補正ゲインオフセットを適用することができる。
図8は、短期対話バランス尺度とゲイン又は減衰オフセットとの間のマッピングの実施例を全体的に示す。実施例800では、x軸に沿った入力が、対話信号及び非対話信号成分間などのオーディオプログラムにおいて検出される短期ラウドネス差又は比率を表す。y軸に沿った出力はゲインを表す。実施例800は、ゲイン曲線801を含む。ゲイン曲線801は、最小対話バランスsp=12dB及び15dBの最大ゲインを表す。実施例800において、約−5dBを下回る入力では、+15dBの最大ゲインを提供することができる。最小値sp=12dBに適合又は超過する入力値で又はこれより上では、ゲインは提供されない。
図8の実施例からのマッピングは、図6の実施例600からの対話オーディオ信号波形601A/601Bに対応する対話オーディオ信号のような対話オーディオ信号に適用することができる。例えば、図9は、短期対話バランス信号s(m)901、平滑化短期バランス信号Senv(m)902、及び対話信号又は非対話信号のゲインオフセット信号g(m)903の実施例900を全体的に示す。図9の実施例において、短期対話バランス信号s(m)は、以下のようなファーストアタック/スローリリース(fast-attack and slow−release:鋭い立ち上がりで徐放)のエンベロープ、又は平滑化された短期バランス信号senv(m)を提供するような、忘却因数αを有する1次フィルタによって平滑化することができる。
env(m)=αs(m)+(1−α)senv(m−1) (6)
平滑化信号Senv(m)902の値は、図8に示すように、動的範囲圧縮(DRC)曲線などを介してゲインオフセット信号g(m)903における対応する値にマッピングすることができる。
ファーストアタック/スローリリースエンベロープの平滑化、最大ゲイン、及びソフトニー圧縮(soft−knee compression)曲線は、可聴アーチファクトを最小化するのを助ける。結果として生じるゲインオフセット信号g(m)903は、2つのゲインシーケンスgD(m)及びgN(m)に変換することができ、例えば、それぞれ対話オブジェクト及び非対話オブジェクトに適用することができ、gD(m)−gN(m)=g(m)によって検証することができる。1つの実施例において、ブロックベースのデシベルゲインシーケンスは、直線ドメインに変換して、サンプルベースのゲインシーケンスに線形補間することができる。
図10は、拡張対話信号波形及び非対話信号波形の実施例1000を全体的に示す。実施例1000は、実施例900からのゲインオフセット信号g(m)903に従って処理された対話オーディオ信号波形601A/601Bを含み、拡張対話及び/又は非対話信号が得られる。実施例1000は、gD(m)=g(m)及びgN(m)=0dBであるケースを例示している。実施例1000において、拡張対話オーディオ信号波形1001Aの相対的に高い振幅の第1部分は、入力信号波形と比較して実質的に変化せず(例えば図6の実施例の対話オーディオ信号波形601Aの第1部分に対応)、他方、実施例1000における約4.0秒後などの拡張対話オーディオ信号波形1001Bの低振幅の第2部分は、入力信号波形と比較すると実質的に増幅される(例えば、図6の実施例の対話オーディオ信号波形601Bの第2部分に対応する)。
図11は、長期及び短期信号バランシングを含む方法1100を全体的に示す。実施例1100に示すように、長期及び短期バランス補正は、互いに依存することなく2つの連続処理段階として適用することができるが、これらは、任意選択的に単一の分析及びゲイン段階に組み合わせることができる。
動作1100において、方法1100は、符号化メタデータ113などから、長期対話及び非対話ラウドネス尺度又はメトリックLD及びLNそれぞれを回復するステップを含むことができる。動作1120において、本方法は、それぞれID(m)及びIN(m)で示されたオブジェクトベースの対話信号及び非対話信号に対する短期ラウドネスをモニタリングするステップを含むことができる。他の実施例において、エンコーダ側(例えばエンコーダ装置120を用いて)などで、短期ラウドネスメタデータを計算して、個々のオブジェクト又はオブジェクトグループ(「対話」及び「非対話」信号グループなどで示される)に対して送信することができる。
D及びLN及びID(m)及びIN(m)を回復すると、デコーダ装置130などを用いて対話ゲインオフセットGD(m)及び非対話ゲインオフセットGN(m)を計算することができる。1つの実施例において、ゲインオフセットは、上記で定められるように何れかが対話バランス個別化及び/又は対話保護に対して要求される場合など、固定対話バランス補正及び短期対話バランス補正を含むことができる。
動作1112において、オーディオプログラムの長期対話バランスSを計算して長期対話バランス目標Spと比較することができ、例えば、ユーザによって設定され及び/又は信号タイプ(例えば信号に対応するジャンル)によって影響を受けることができる。長期対話バランスS及び目標SPが、指定された量より大きいなど異なる場合には、式(3)及び(4)に従って計算される固定ゲインオフセットGD及びGNは、動作1114において、対話信号及び非対話信号それぞれに適用することができる。
任意選択的に、動作1114からの補正された信号は、本明細書で記載される対話保護技術に従って動作1122において処理することができ、例えば、ユーザによって指定及び/又は信号タイプ(信号に対応するジャンルなど)によって影響を受けることができるような、短期対話バランス信号s(m)=ID(m)−IN(m)及び最小バランス設定sPを考慮に入れることができる。動作1124において、結果として生じる時間的に変化するゲインオフセットgD(m)及びgN(m)を決定し、次いで、動作1116において対応するオブジェクト波形に適用することができる。
1つの実施例において、ID(m)及びIN(m)がエンコーダ装置120で計算され、メタデータ113と共に送信された場合、ラウドネス信号は、第1段(例えば動作1114)で適用された長期対話バランス補正ゲインGD及びGNゲインだけオフセットすることができる。例えば、短期対話保護ゲインオフセットは、出力において測定された結果として生じる長期対話バランス信号にて僅かなエラーを引き起こす可能性がある。しかしながら、実際には、この作用は、不快感を与えるほど大きなものではない。
本発明の様々な態様は、個別に又は共に使用することができる。例えば、態様1は、オーディオプログラムの対話信号と非対話信号の関係を調整するための方法を含むか又は使用することができるようなど、主題(装置、システム、デバイス、方法、行為を実行するための手段、又はデバイスによって実行されたときにデバイスに行為を実行させることができる命令を含むデバイス可読媒体など)を含むか又は使用することができる。態様1は、プロセッサ回路を用いて、オーディオプログラムの対話対非対話ラウドネス関係を示すオーディオプログラムに対する長期対話バランスを受け取るステップと、プロセッサ回路を用いて、長期対話バランスプリファレンスを受け取るステップと、を含むことができる。態様1は更に、プロセッサ回路を用いて、オーディオプログラムの対話信号及び非対話信号のうちの少なくとも1つに適用する長期ゲイン又は減衰を決定するステップであって、オーディオプログラムに対する受け取った長期対話バランスと受け取った長期対話バランスプリファレンスとの間の差に従って決定されるステップを含むことができる。
態様2は、態様1の主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、オーディオプログラムの対話信号に適用する長期ゲインを決定するステップと、プロセッサ回路を用いて、決定された長期ゲインを対話信号に適用してゲイン調整された対話信号を生成するステップと、ゲイン調整された対話信号と非対話信号との組み合わせを含むオーディオ出力信号をレンダリングするステップと、を含む。
態様3は、態様1又は2のうちの1つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、オーディオプログラムの対話信号に適用する長期減衰を決定するステップと、プロセッサ回路を用いて、決定された長期減衰を対話信号に適用して調整された対話信号を生成するステップと、調整された対話信号と非対話信号の組み合わせを含むオーディオ出力信号をレンダリングするステップと、を含む。
態様4は、態様1から態様3のうちの1つ又は何らかの組み合わせの主題を含むか又は使用することができる、又は任意選択的に組み合わせることができ、任意選択的に、対話信号及び非対話信号に適用するそれぞれの異なる長期ゲイン又は減衰量を決定するステップを含む。
態様5は、態様1から態様4のうちの1つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、プロセッサ回路を用いてオーディオプログラムの対話信号に対応する長期対話ラウドネスメトリックを受け取るステップと、オーディオプログラムの非対話信号に対応する長期非対話ラウドネスメトリックを受け取るステップと、プロセッサ回路を用いて、受け取った対話ラウドネスメトリックと非対話ラウドネスメトリックとの間の差に基づいて長期対話バランスを提供するステップと、を含む。
態様6は、態様1から態様5のうちの1つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、対話信号をプロセッサ回路で受け取るステップであって、対話信号がオーディオプログラムについての対話信号のグローバルラウドネスに関する情報を備えた第1メタデータを含むステップと、非対話信号をプロセッサ回路で受け取るステップであって、該非対話信号がオーディオプログラムについての非対話信号のグローバルラウドネスに関する情報を備えた第2メタデータを含むステップと、を含む。態様6において、オーディオプログラムについての長期対話バランスを受け取るステップは、プロセッサ回路を用いて、対話信号のグローバルラウドネス及び非対話信号のグローバルラウドネスに基づいて長期対話バランスを決定するステップを含むことができる。
態様7は、態様1から態様6のうちの1つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、オーディオプログラムの持続時間の間に対話信号に適用する静的ゲイン又は減衰を決定するステップを含む、長期ゲイン又は減衰を決定するステップを含む。
態様8は、態様1から態様7のうちの1つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、オーディオプログラムのジャンルに対応するジャンル固有の対話ラウドネスプリファレンスを受け取るステップを含む、対話ラウドネスプリファレンスを受け取るステップを含む。態様8は、任意選択的に、ユーザによって事前に設定され復号器によって及び/又はリモートデータベースによって格納されたジャンル固有の対話ラウドネスプリファレンスを受け取るステップを含むことができる。
態様9は、態様8の主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、対話信号から及び/又は非対話信号から回復されたメタデータに基づいてオーディオプログラムのジャンルを決定するステップを含む。
態様10は、態様1から態様9のうちの1つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、オーディオプログラムを再生するように構成された再生デバイスに対応する再生デバイス固有の対話ラウドネスプリファレンスを受け取るステップを含む、対話ラウドネスプリファレンスを受け取るステップを含む。
態様11は、態様1から態様10のうちの1つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、プロセッサ回路を用いて、オーディオプログラムの複数のセグメントの各々に対して短期対話バランスを受け取るステップであって、短期対話バランスが、指定されたセグメントにおける対話対非対話ラウドネス関係を示すステップと、プロセッサ回路を用いて、短期対話バランスプリファレンスを受け取るステップと、プロセッサ回路を用いて、対話信号及び非対話信号のうちの少なくとも1つに適用する短期ゲイン又は減衰を決定するステップであって、該短期ゲイン又は減衰が、セグメントのうちの指定されたセグメントに対して受け取った短期ラウドネスバランスと短期対話ラウドネスプリファレンスとの間の差に従って決定されるステップと、を含む。
態様12は、態様11の主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、(1)決定された長期ゲイン又は減衰を対話信号及び非対話信号のうちの少なくとも1つに適用するステップ、及び(2)決定された短期ゲイン又は減衰を対話信号及び非対話信号のうちの少なくとも1つに適用するステップによって、ゲイン調整された対話信号及び/又はゲイン調整された非対話信号を提供するステップを含む。態様12は更に、ゲイン調整された対話信号及び/又はゲイン調整された非対話信号を含むオーディオ出力信号をレンダリングするステップを含むことができる。
態様13は、態様1から態様12のうちの1つ又は何らかの組み合わせの主題を含むことができ、又は任意選択的に組み合わせることができ、例えば、デコーダ装置を含むオーディオ信号処理システムを含むか又は使用することができるなど、主題(装置、方法、行為を実行するための手段、又は機械によって実行されたときに機械に行為を実行させることができる命令を含む機械可読媒体など)を含むか又は使用することができる。デコーダ装置は、とりわけ、対話信号、非対話信号、及び対話信号及び/又は非対話信号に対応するメタデータを受け取るように構成された第1データ入力と、対話バランスプリファレンスを受け取るように構成された第2データ入力と、オーディオ信号出力と、を含むことができる。デコーダ装置は、とりわけ、対話信号及び/又は非対話信号に対応するメタデータを用いて、対話信号及び非対話信号を含むオーディオプログラムに対して、オーディオプログラムの対話対非対話ラウドネス関係を示す長期対話バランスを識別し、オーディオプログラムに対する識別された長期対話バランスと受け取った対話バランスプリファレンスとの間の差に基づいて、オーディオプログラムの対話信号及び非対話信号のうちの1つに適用する長期ゲイン又は減衰を決定するように構成されたプロセッサ回路を含むことができる。1つの実施例において、プロセッサ回路は更に、決定された長期ゲインに従って処理された対話信号及び非対話信号の一方の組み合わせ及び対話信号及び非対話信号の他方の組み合わせを含むオーディオプログラム信号をオーディオ信号出力にて提供するよう構成することができる。
態様14は、態様13の主題を含むか又は使用することができ、又は任意選択的に組み合わせることがき、任意選択的に、対話信号及び/又は非対話信号に対応するオーディオプログラムタイプ指標を受け取るように構成された第3入力を有するデコーダ装置を含み、プロセッサ回路は、オーディオプログラムタイプ指標及びオーディオプログラムに対する識別された長期対話バランスと受け取った対話バランスプリファレンスとの間の差に基づいて長期ゲイン又は減衰を決定するように構成される。
態様15は、態様13又は態様14のうちの1つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、対話信号及び非対話信号に対応するメタデータを受け取るように構成された第1データ入力を含むか又は使用する。態様15において、プロセッサ回路は、対話信号及び非対話信号に対応する受け取ったメタデータに基づいて、対話信号及び非対話信号のそれぞれの長期ラウドネス特性を識別するように構成することができ、このプロセッサ回路は、対話信号及び非対話信号の長期ラウドネス特性の間の関係に基づいてオーディオプログラムの長期対話バランスを識別するように構成することができる。
態様16は、態様13から態様15のうちの1つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、ユーザ指定の短期対話バランスプリファレンス設定に従って対話信号を処理するよう更に構成されたプロセッサ回路を含むか又は使用する。
態様17は、態様1から態様16のうちの1つ又は何らかの組み合わせの主題を含むことができるか、又は任意選択的に組み合わせることができ、例えば、オーディオプログラムの対話オーディオ信号及び非対話オーディオ信号間のバランスを調整するためのオーディオ信号処理システムを含むか又は使用することができるなど、主題(装置、方法、行為を実行するための手段、又は機械によって実行されたときに機械に行為を実行させることができる命令を含む機械可読媒体など)を含むか又は使用する。態様17のシステムは、とりわけ、オーディオプログラムの対話部分のラウドネス特性を表す、対話オーディオ信号に対する長期ラウドネスメトリックを識別し、オーディオプログラムの非対話部分のラウドネス特性を表す、非対話オーディオ信号に対する長期ラウドネスメトリックを識別するように構成されたプロセッサ回路を含むことができる。対話オーディオ信号に対する長期ラウドネスメトリックと非対話オーディオ信号に対する長期ラウドネスメトリックとの間のラウドネス関係が、指定された閾値量より大きく所望のラウドネス関係と異なるときに、プロセッサ回路は、対話オーディオ信号と非対話オーディオ信号のうちの少なくとも一方のゲイン調整された形態を含むオーディオプログラム信号を提供することができ、指定された閾値の差の量は、受け取ったオーディオプログラムレベルの対話ラウドネスプリファレンスを用いて決定される。
態様18は、態様17の主題を含むか又は使用することができ、又は任意選択的に態様17の主題と組み合わせることができ、任意選択的に、オーディオプログラムに対応するプログラムタイプの受け取った指標に基づいて、対話オーディオ信号及び/又は非対話オーディオ信号に適用するゲインの量を決定するように構成されたプロセッサ回路を含むか又は使用することができる。
態様19は、態様17又は態様18のうちの1つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、ユーザプリファレンスに基づいて、対話オーディオ信号及び/又は非対話オーディオ信号に適用するゲインの量を決定するように構成されたプロセッサ回路を含むか又は使用することができる。
態様20は、態様17から態様19のうちの1つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、再生環境又は再生デバイスの受け取った指標に基づいて、対話オーディオ信号及び/又は非対話オーディオ信号に適用するゲインの量を決定するように構成されたプロセッサ回路を含むか又は使用することができる。
これらの非限定的な態様の各々は、それ自体に基づくことができ、又は本明細書で提供される他の態様又は実施例のうちの1つ又は2以上との様々な置換又は結合で組み合わせることができる。
本明細書で検討される概念及び実施例の多くの変形形態が、当業者には明らかであろう。例えば、実施形態によっては、本明細書で説明した何らかの方法、プロセス、又はアルゴリズムの特定の動作、事象、又は機能を異なる順序で実行することができ、追加、統合、又は省略することができる(従って、ここで説明する全ての動作又は事象が、種々の方法、プロセス又はアルゴリズムの実施に必要というわけではない)。更に、一部の実施形態において、行為又は事象は、マルチスレッド処理、割り込み処理、又はマルチプロセッサ又はプロセッサコアなどを介して同時に、又は順次ではなく他の並行アーキテクチャで実行することができる。加えて異なるタスク又はプロセスを、共に機能することができる異なる機械及びコンピューティングシステムによって実行することができる。
本明細書で開示した実施形態に関連して説明する様々な例示的な論理ブロック、モジュール、方法、及びアルゴリズム処理及び手順は、電子ハードウェア、コンピュータソフトウェア、又はこの両方の組み合わせとして実施することができる。ハードウェア及びソフトウェアのこの互換性について例証するために、様々な構成要素、ブロック、モジュール、及び処理動作について、場合によっては、これらの機能性に関して一般的に説明した。このような機能性をハードウェア又はソフトウェアとして実施するか否かは、特定の用途及びシステム全体に課された設計上の制約による。従って、記載した機能性は、特定の用途に関して異なる方法で実施することができるが、このような実施の決定が、本明細書の範囲からの逸脱を生じさせると解釈すべきではない。
本明細書で開示した実施形態に関連して説明する様々な例示的な論理ブロック及びモジュールは、汎用プロセッサ回路又は電気回路、処理デバイス、1又は2以上の処理デバイスを有するコンピュータデバイス、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)、又は他のプログラム可能論理デバイス、離散ゲート又はトランジスタ論理、離散的ハードウェア構成要素、又は本明細書で記載される機能を実行するよう設計されたこれらの何れかの組み合わせのような、マシンによって実施し又は実行することができる。汎用プロセッサ回路又は処理デバイスは、マイクロプロセッサを含むことができる。加えて又は代替として、プロセッサ回路は、コントローラ、マイクロコントローラ、又は状態マシン、これらの組み合わせ、又は同様のものを含むことができる。プロセッサ回路はまた、DSP及びマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、DSPコアに関連した1又は2以上のマイクロプロセッサ、又は本明細書で説明した信号処理タスクを実行するのに好適な何らかの他のこのような構成などのコンピュータデバイスの組み合わせとして実施することもできる。
本明細書で記載される対話制御及び拡張システム及び方法の実施形態は、多くのタイプの汎用又は専用コンピューティングシステム環境又は構成内で動作可能である。一般に、コンピューティング環境は、限定されるものではないが、1又は2以上のマイクロプロセッサ、メインフレームコンピュータ、デジタルシグナルプロセッサ、携帯用コンピュータデバイス、パーソナルオーガナイザ、デバイスコントローラ、電気製品内部の計算エンジン、携帯電話、デスクトップコンピュータ、モバイルコンピュータ、タブレットコンピュータ、スマートフォン、及び埋め込みコンピュータを備えた電気製品に基づくコンピュータシステムを含む、あらゆるタイプのコンピュータシステムを含むことができる。
このようなコンピュータデバイス、限定されるものではないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドコンピュータデバイス、ラップトップ又はモバイルコンピュータ、携帯電話及びPDAのような通信デバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、オーディオ又はビデオメディアプレーヤ、及びその他を含む、少なくとも何らかの最低限の計算能力を有するデバイスに通常、見出すことができる。一部の実施形態において、コンピュータデバイスは、1又は2以上のプロセッサを含むことになる。各プロセッサは、デジタルシグナルプロセッサ(DSP)、超長命令語(VLIW)、又は他のマイクロコントローラのような特殊なマイクロプロセッサとすることができ、或いは、マルチコアCPU内の特殊なグラフィックス処理ユニット(GPU)ベースのコアを含む、1又は2以上のプロセッシングコアを有する従来型の中央処理ユニット(CPU)とすることができる。
本明細書で開示される実施形態に関連した記載される方法、プロセス、又はアルゴリズムの処理動作は、ハードウェアで直接的に、プロセッサによって実行されるソフトウェアモジュールで、又はこの2つの何れかの組み合わせで具現化することができる。ソフトウェアモジュールは、コンピュータデバイスによってアクセスすることができる大容量有形非一時的機械可読媒体に包含することができる。コンピュータ可読媒体は、取り外し可能、取り外し不可、又はこれらの一部の組み合わせなど、揮発性及び/又は不揮発性媒体を含むことができる。コンピュータ可読媒体は、コンピュータ可読又はコンピュータ実行可能命令、データ構造、プログラムモジュール、又は他のデータのような情報を格納するために用いることができる。例示的且つ非限定的に、コンピュータ可読媒体は、コンピュータ記憶媒体及び通信媒体を含むことができる。
コンピュータ記憶媒体は、限定ではないが、Blurayディスク(BD)、デジタル多用途ディスク(DVD)、コンパクトディスク(CD)、フロッピーディスク、テープドライブ、ハードドライブ、光ドライブ、固体メモリデバイス、RAMメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、フラッシュメモリ、又は他のメモリ技術、磁気カセット、磁気テープ、磁気ディスクストレージ、又は他の磁気ストレージデバイス、又は所望の情報を格納するために使用可能で1又は2以上のコンピューティングデバイスによってアクセス可能な何れかの他のデバイスのような、コンピュータ又はマシン可読媒体又はストレージデバイスを含む。
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、取り外し可能ディスク、CD−ROM、又は当該技術で公知の非一時的コンピュータ可読記憶媒体、メディア、又は物理コンピュータストレージの何れかの他の形式内に常駐することができる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み出して、そこに情報を書き込むことができるように、プロセッサに結合することができる。代替形態では、記憶媒体は、プロセッサに一体化することができる。プロセッサ及び記憶媒体は、特定用途向け集積回路(ASIC)内に常駐することができる。ASICは、ユーザ端末内に常駐することができる。代替的に、プロセッサ及び記憶媒体は、ユーザ端末内の個別構成要素として常駐することができる。
本明細書で使用する場合、語句「非一時的」は、その通常の意味に加えて、「永続的又は長寿命の」を意味する。語句「非一時的コンピュータ可読媒体」は、その通常の意味に加えて、あらゆるコンピュータ可読媒体を含み、唯一の例外は一時的な伝搬信号である。これは、例示的且つ非限定的に、レジスタメモリ、プロセッサキャッシュ、及びランダムアクセスメモリ(RAM)のような非一時的コンピュータ可読媒体を含む。
コンピュータ可読又はコンピュータ実行可能命令、データ構造、プログラムモジュール、及びその他のような情報の保持は、1又は2以上の変調データ信号、電磁波(搬送波のような)、又は他の伝送機構又は通信プロトコルをエンコードするための様々な通信媒体を用いることによって実現することができ、何れかの有線又は無線情報配信機構を含む。一般に、これらの通信媒体は、信号内の情報又は命令をエンコードするような方法で設定又は変更される自己の特性の1又は2以上を有する信号を参照する。例えば、通信媒体は、1又は2以上の変調データ信号を搬送する有線ネットワーク又はダイレクト有線接続のような有線媒体、及び音響、無線周波数(RF)、赤外線、レーザのような無線媒体、及び1又は2以上の変調データ信号又は電磁波を送信、受信、又は送受信するための他の無線媒体を含む。上記の何れかの組み合わせも、通信媒体の範囲内に含まれるべきである。
また、本明細書で記載される対話制御及び拡張システム及び方法の様々な実施形態の一部又は全てを具現化するソフトウェア、プログラム、コンピュータプログラム製品のうちの1又は何れかの組み合わせ又はこの一部分は、コンピュータ実行可能命令又は他のデータ構造の形式でコンピュータ又は機械可読媒体又はストレージデバイス及び通信媒体の何れかの所望の組み合わせに格納、受信、送信、又はそこから読み出すことができる。
本明細書で記載される対話制御及び拡張システム及び方法の実施形態は、コンピューティングデバイスによって実行されるプログラムモジュールのようなコンピュータ実行可能命令という一般的状況で更に説明することができる。一般に、プログラムモジュールは、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、及びその他を含み、これらが、特定のタスクを実行し、特定の抽象データタイプを実施する。また、本明細書で説明した実施形態は、1又は2以上の通信ネットワークを介してリンクされた1又は2以上のリモート処理デバイスによって、又は1又は2以上のデバイスのクラウド内でタスクが実行される、分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、メディアストレージデバイスを含む、ローカル及びリモートの両方のコンピュータ記憶媒体内に、プログラムモジュールを配置することができる。更に、上記の命令は、プロセッサを含むこともあれば含まないこともある、ハードウェア論理回路として部分的に又は全体的に実施することができる。
本明細書において、用語「a」又は「an」は、特許文書で共通するように、「少なくとも1つ」又は「1つ又は2以上」の他の何れかの事例又は使用に関係なく1又は1よりも多いものを含むのに使用される。本明細書において、用語「or(又は)」は、非排他的であることを指すのに使用され、すなわち、別途指示がない限り、「A又はB」が「BではなくA」、「AではなくB」、及び「A及びB」を含むものとする。本明細書において、「including」及び「in which」は、それぞれの用語「comprising」及び「wherein」の一般的意味の等価物として使用される。
本明細書で使用する条件語、とりわけ、「できる(can)」「してよい(might)」「できる(may)」「例えば(e.g.)」及び同様のものは、他に明確に言及されていない限り、又は用いられる文脈でそれ以外に理解されない限り、一般に、特定の実施形態が特定の特徴、要素、及び/又は状態を含むが、他の実施形態は含まないことを伝えるものである。従って、このような条件語は、特徴、要素、及び/又は状態が、1又は2以上の実施形態にとって必ず必須であること、或いは、作成者の入力又は指示があってもなくても、これらの特徴、要素、及び/又は状態が含まれるか又は何れかの特定の実施形態で実行されるべきかどうかを決めるためのロジックを、1又は2以上の実施形態が必ず含むことを一般に示唆するものではない。
上記の詳細な説明は、種々の実施形態に適用される場合に新規の特徴を示し、説明し、及び指摘するが、本開示の精神から逸脱することなく、例証されたデバイス又はアルゴリズムの形式及び詳細において、様々な省略、置換、及び変更を加えることができる点を理解されたい。理解できるように、一部の特徴は、他の特徴とは別に使用すること又は実施することができるので、本明細書で記載される本発明の特定の実施形態は、本明細書に示した特徴及び利点の全てを提供しない形態の範囲内で具現化することができる。
本主題は、構造的な特徴又は方法又は行為に固有の言語で記述しているが、添付の請求項に定義する主題は必ずしも上述した特定の特徴又は行為に制限されないことを理解されたい。逆に上述した特定の特徴及び行為は、請求項を実施する例示的な形態として開示するものである。
100 対話制御及び拡張システム
110 1又は2以上のオーディオ信号
111 符号化されたオーディオ信号
112 1又は2以上の出力信号
113 メタデータ
114 プログラムジャンル
120 エンコーダ
122 マルチプレクサ
130 復号器
131 入力
132 デマルチプレクサ
133 第2入力
135 プロセッサ回路
136 対話バランス設定
139 出力
140 データベース
150 再生デバイス

Claims (20)

  1. オーディオプログラムにおける対話信号と非対話信号の関係を調整する方法であって、前記方法は、
    プロセッサ回路を用いて、前記オーディオプログラムの対話対非対話ラウドネス関係を示す前記オーディオプログラムに対する長期対話バランスを受け取るステップと、
    前記プロセッサ回路を用いて、長期対話バランスプリファレンスを受け取るステップと、
    前記プロセッサ回路を用いて、前記オーディオプログラムの前記対話信号及び前記非対話信号のうちの少なくとも1つに適用する長期ゲイン又は減衰を決定するステップであって、前記長期ゲイン又は減衰は、前記オーディオプログラムに対する受け取った前記長期対話バランスと受け取った前記長期対話バランスプリファレンスとの間の差に従って決定される、ステップと、
    を含む、方法。
  2. 前記オーディオプログラムの前記対話信号に適用する前記長期ゲインを決定するステップと、
    前記プロセッサ回路を用いて、前記決定された長期ゲインを前記対話信号に適用してゲイン調整された対話信号を生成するステップと、
    前記ゲイン調整された対話信号と前記非対話信号との組み合わせを含むオーディオ出力信号をレンダリングするステップと、
    を更に含む、請求項1に記載の方法。
  3. 前記オーディオプログラムの前記対話信号に適用する前記長期減衰を決定するステップと、
    前記プロセッサ回路を用いて前記決定された長期減衰を前記対話信号に適用して調整された対話信号を生成するステップと、
    前記調整された対話信号と前記非対話信号との組み合わせを含むオーディオ出力信号をレンダリングするステップと、
    を更に含む、請求項1に記載の方法。
  4. 前記対話信号及び前記非対話信号に適用するそれぞれの異なる長期ゲイン又は減衰量を決定するステップを更に含む、請求項1に記載の方法。
  5. 前記プロセッサ回路を用いて、前記オーディオプログラムの前記対話信号に対応する長期対話ラウドネスメトリックを受け取るステップと、
    前記オーディオプログラムの前記非対話信号に対応する長期非対話ラウドネスメトリックを受け取るステップと、
    前記プロセッサ回路を用いて、前記受け取った対話ラウドネスメトリックと前記非対話ラウドネスメトリックとの間の差に基づいて前記長期対話バランスを提供するステップと、
    を更に含む、請求項1に記載の方法。
  6. 前記対話信号を前記プロセッサ回路にて受け取るステップであって、前記対話信号が、前記オーディオプログラムについての前記対話信号のグローバルラウドネスに関する情報を備えた第1メタデータを含む、ステップと、
    前記非対話信号を前記プロセッサ回路にて受け取るステップであって、前記非対話信号が、前記オーディオプログラムについての前記非対話信号のグローバルラウドネスに関する情報を備えた第2メタデータを含む、ステップと、
    を更に含み、
    前記オーディオプログラムについての前記長期対話バランスを受け取るステップは、前記プロセッサ回路を用いて、前記対話信号のグローバルラウドネス及び前記非対話信号のグローバルラウドネスに基づいて前記長期対話バランスを決定するステップを含む、請求項1に記載の方法。
  7. 前記長期ゲイン又は減衰を決定するステップは、前記オーディオプログラムの持続時間の間に対話信号に適用する静的ゲイン又は減衰を決定するステップを含む、請求項1に記載の方法。
  8. 前記対話ラウドネスプリファレンスを受け取るステップは、前記オーディオプログラムのジャンルに対応するジャンル固有の対話ラウドネスプリファレンスを受け取るステップを含む、請求項1に記載の方法。
  9. 前記対話信号から及び/又は前記非対話信号から回復されたメタデータに基づいて、前記オーディオプログラムのジャンルを決定するステップを更に含む、請求項8に記載の方法。
  10. 前記対話ラウドネスプリファレンスを受け取るステップは、前記オーディオプログラムを再生するように構成された再生デバイスに対応する再生デバイス固有の対話ラウドネスプリファレンスを受け取るステップを含む、請求項1に記載の方法。
  11. 前記プロセッサ回路を用いて、前記オーディオプログラムの複数のセグメントの各々に対して短期対話バランスを受け取るステップであって、前記各短期対話バランスは、指定されたセグメントにおける対話対非対話ラウドネス関係を示す、ステップと、
    前記プロセッサ回路を用いて、短期対話バランスプリファレンスを受け取るステップと、
    前記プロセッサ回路を用いて、前記対話信号及び前記非対話信号のうちの少なくとも1つに適用する短期ゲイン又は減衰を決定するステップであって、前記短期ゲイン又は減衰は、前記セグメントのうちの指定されたセグメントに対して受け取った短期ラウドネスバランスと前記短期対話ラウドネスプリファレンスとの間の差に従って決定される、ステップと、
    を更に含む、請求項1に記載の方法。
  12. (1)前記決定された長期ゲイン又は減衰を前記対話信号及び前記非対話信号のうちの少なくとも1つに適用するステップ、及び(2)前記決定された短期ゲイン又は減衰を前記対話信号及び前記非対話信号のうちの少なくとも1つに適用するステップによって、ゲイン調整された対話信号及び/又はゲイン調整された非対話信号を提供するステップと、
    前記ゲイン調整された対話信号及び/又は前記ゲイン調整された非対話信号を含むオーディオ出力信号をレンダリングするステップと、
    を更に含む、請求項11に記載の方法。
  13. デコーダ装置を備えたオーディオ信号処理システムであって、
    前記デコーダ装置が、
    対話信号、非対話信号、及び前記対話信号及び/又は前記非対話信号に対応するメタデータを受け取るように構成された第1データ入力と、
    対話バランスプリファレンスを受け取るように構成された第2データ入力と、
    オーディオ信号出力と、
    プロセッサ回路と、
    を含み、
    前記プロセッサ回路が、
    前記対話信号及び/又は前記非対話信号に対応する前記メタデータを用いて、前記対話信号及び前記非対話信号を含むオーディオプログラムに対して、前記オーディオプログラムの対話対非対話ラウドネス関係を示す長期対話バランスを識別し、
    前記オーディオプログラムに対する識別された長期対話バランスと前記受け取った対話バランスプリファレンスとの間の差に基づいて、前記オーディオプログラムの前記対話信号及び前記非対話信号のうちの1つに適用する長期ゲイン又は減衰を決定し、
    前記決定された長期ゲインに従って処理された前記対話信号及び前記非対話信号の一方の組み合わせ、及び、前記対話信号及び前記非対話信号の他方の組み合わせを含むオーディオプログラム信号を前記オーディオ信号出力にて提供する、
    ように構成されている、オーディオ信号処理システム。
  14. 前記デコーダ装置は、前記対話信号及び/又は前記非対話信号に対応するオーディオプログラムタイプ指標を受け取るように構成された第3入力を含み、
    前記プロセッサ回路は、前記オーディオプログラムタイプ指標、及び、前記オーディオプログラムに対する識別された長期対話バランスと前記受け取った対話バランスプリファレンスとの間の差に基づいて、前記長期ゲイン又は減衰を決定するように構成される、請求項13に記載のオーディオ信号処理システム。
  15. 前記第1データ入力は、前記対話信号及び前記非対話信号に対応するメタデータを受け取るように構成され、
    前記プロセッサ回路は、前記対話信号及び非対話信号に対応する前記受け取ったメタデータに基づいて、前記対話信号及び非対話信号のそれぞれの長期ラウドネス特性を識別するように構成され、
    前記プロセッサ回路は、前記対話信号及び非対話信号の前記長期ラウドネス特性の間の関係に基づいて前記オーディオプログラムに対する長期対話バランスを識別するように構成される、請求項13に記載のオーディオ信号処理システム。
  16. 前記プロセッサ回路は、ユーザ指定の短期対話バランスプリファレンス設定に従って前記対話信号を処理するよう更に構成される、請求項13に記載のオーディオ信号処理システム。
  17. オーディオプログラムの対話オーディオ信号及び非対話オーディオ信号間のバランスを調整するためのオーディオ信号処理システムであって、前記システムがプロセッサ回路を備えは、該プロセッサ回路が、
    前記オーディオプログラムの対話部分のラウドネス特性を表す、前記対話オーディオ信号に対する長期対話ラウドネスメトリックを識別し、
    前記オーディオプログラムの非対話部分のラウドネス特性を表す、前記非対話オーディオ信号に対する長期ラウドネスメトリックを識別し、
    前記対話オーディオ信号に対する長期ラウドネスメトリックと前記非対話オーディオ信号に対する長期ラウドネスメトリックとの間のラウドネス関係が、指定された閾値量より大きく所望のラウドネス関係と異なるときに、前記対話オーディオ信号及び前記非対話オーディオ信号のうちの少なくとも一方のゲイン調整された形態を含むオーディオプログラム信号を提供する、
    ように構成されており、前記指定された閾値の差の量は、受け取ったオーディオプログラムレベルの対話ラウドネスプリファレンスを用いて決定される、オーディオ信号処理システム。
  18. 前記プロセッサ回路は、前記オーディオプログラムに対応するプログラムタイプの受け取った指標に基づいて、前記対話オーディオ信号及び/又は前記非対話オーディオ信号に適用するゲインの量を決定するように構成される、請求項17に記載のオーディオ信号処理システム。
  19. 前記プロセッサ回路は、ユーザプリファレンスに基づいて、前記対話オーディオ信号及び/又は前記非対話オーディオ信号に適用するゲインの量を決定するように構成される、請求項17に記載のオーディオ信号処理システム。
  20. 前記プロセッサ回路は、再生環境又は再生デバイスの受け取った指標に基づいて、前記対話オーディオ信号及び/又は前記非対話オーディオ信号に適用するゲインの量を決定するように構成される、請求項17に記載のオーディオ信号処理システム。
JP2018522683A 2015-10-28 2016-10-27 オブジェクトベースのオーディオ信号バランシング法 Active JP7001588B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562247678P 2015-10-28 2015-10-28
US62/247,678 2015-10-28
PCT/US2016/059175 WO2017075249A1 (en) 2015-10-28 2016-10-27 Object-based audio signal balancing

Publications (2)

Publication Number Publication Date
JP2019501563A true JP2019501563A (ja) 2019-01-17
JP7001588B2 JP7001588B2 (ja) 2022-01-19

Family

ID=58630724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018522683A Active JP7001588B2 (ja) 2015-10-28 2016-10-27 オブジェクトベースのオーディオ信号バランシング法

Country Status (6)

Country Link
US (1) US10251016B2 (ja)
EP (1) EP3369175B1 (ja)
JP (1) JP7001588B2 (ja)
KR (1) KR20180132032A (ja)
CN (1) CN108432130B (ja)
WO (1) WO2017075249A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR980001758A (ko) * 1996-06-12 1998-03-30 바라쾅 이브 콘테이너 안쪽의 응결수 회수 시스템 및 상기 회수 시스템을 구비한 콘테이너

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108432130B (zh) 2015-10-28 2022-04-01 Dts(英属维尔京群岛)有限公司 基于对象的音频信号平衡
AU2018353008B2 (en) 2017-10-17 2023-04-20 Magic Leap, Inc. Mixed reality spatial audio
CN116781827A (zh) 2018-02-15 2023-09-19 奇跃公司 混合现实虚拟混响
JP2021525980A (ja) 2018-05-30 2021-09-27 マジック リープ, インコーポレイテッドMagic Leap,Inc. フィルタパラメータに関するインデックススキーミング
US11316490B2 (en) 2019-03-14 2022-04-26 Gaudio Lab, Inc. Audio signal processing method and device for controlling loudness level
EP3761672B1 (en) 2019-07-02 2023-04-05 Dolby International AB Using metadata to aggregate signal processing operations
JP7446420B2 (ja) 2019-10-25 2024-03-08 マジック リープ, インコーポレイテッド 反響フィンガプリント推定
US11533560B2 (en) * 2019-11-15 2022-12-20 Boomcloud 360 Inc. Dynamic rendering device metadata-informed audio enhancement system
US11838578B2 (en) 2019-11-20 2023-12-05 Dolby International Ab Methods and devices for personalizing audio content
CN111327944A (zh) * 2020-03-09 2020-06-23 上海电力大学 一种基于嵌入式cpu的广播语音响度检测的方法
CN117280416A (zh) 2021-03-08 2023-12-22 弗劳恩霍夫应用研究促进协会 用于自适应背景音频增益平滑的装置和方法
CN113963724A (zh) * 2021-09-18 2022-01-21 赛因芯微(北京)电子科技有限公司 音频内容元数据和产生方法、电子设备及存储介质
CN115879422B (zh) * 2023-02-16 2023-06-13 之江实验室 一种对话回复生成方法、装置和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002171482A (ja) * 2000-12-01 2002-06-14 Hitachi Ltd 記録装置およびビデオカメラ
JP2003522472A (ja) * 2000-02-04 2003-07-22 ヒアリング エンハンスメント カンパニー,リミティド ライアビリティー カンパニー 消費者アプリケーションにおける音声対残余オーディオ(vra)の使用
JP2005167380A (ja) * 2003-11-28 2005-06-23 Sony Corp 音声信号処理装置及び音声信号処理方法
JP2005348216A (ja) * 2004-06-04 2005-12-15 Nippon Hoso Kyokai <Nhk> 音質補正伝送システム、送信装置、受信装置
JP2013543599A (ja) * 2010-09-22 2013-12-05 ドルビー ラボラトリーズ ライセンシング コーポレイション デジタルレベル正規化を備えるオーディオストリームミキシング

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2328353A1 (en) * 1998-04-14 1999-10-21 Hearing Enhancement Company, Llc User adjustable volume control that accommodates hearing
US6442278B1 (en) 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US7454331B2 (en) 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US7398207B2 (en) * 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
JP4197344B2 (ja) * 2006-02-20 2008-12-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声対話システム
EP2064915B1 (en) 2006-09-14 2014-08-27 LG Electronics Inc. Controller and user interface for dialogue enhancement techniques
US8489392B2 (en) * 2006-11-06 2013-07-16 Nokia Corporation System and method for modeling speech spectra
WO2008078232A1 (en) * 2006-12-21 2008-07-03 Koninklijke Philips Electronics N.V. A system for processing audio data
US8494840B2 (en) 2007-02-12 2013-07-23 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
EP2373067B1 (en) 2008-04-18 2013-04-17 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
KR101914312B1 (ko) * 2010-09-10 2018-11-01 디티에스, 인코포레이티드 감지된 스펙트럼 불균형의 개선을 위한 오디오 신호의 동적 보상
TWI716169B (zh) * 2010-12-03 2021-01-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
JP5279099B1 (ja) * 2012-03-14 2013-09-04 住友電工ハードメタル株式会社 切削工具
CN104221284B (zh) * 2012-04-12 2017-05-24 杜比实验室特许公司 用于调平音频信号的响度变化的系统及方法
CN103377656B (zh) * 2012-04-16 2016-08-10 联想(北京)有限公司 一种音频文件的五音分析方法、播放器及电子设备
EP4207817A1 (en) * 2012-08-31 2023-07-05 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
WO2014046916A1 (en) 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US20140126736A1 (en) * 2012-11-02 2014-05-08 Daniel M. Gauger, Jr. Providing Audio and Ambient Sound simultaneously in ANR Headphones
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
WO2015038475A1 (en) * 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
US9240763B2 (en) * 2013-11-25 2016-01-19 Apple Inc. Loudness normalization based on user feedback
US9578436B2 (en) 2014-02-20 2017-02-21 Bose Corporation Content-aware audio modes
CN108432130B (zh) 2015-10-28 2022-04-01 Dts(英属维尔京群岛)有限公司 基于对象的音频信号平衡

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003522472A (ja) * 2000-02-04 2003-07-22 ヒアリング エンハンスメント カンパニー,リミティド ライアビリティー カンパニー 消費者アプリケーションにおける音声対残余オーディオ(vra)の使用
JP2002171482A (ja) * 2000-12-01 2002-06-14 Hitachi Ltd 記録装置およびビデオカメラ
JP2005167380A (ja) * 2003-11-28 2005-06-23 Sony Corp 音声信号処理装置及び音声信号処理方法
JP2005348216A (ja) * 2004-06-04 2005-12-15 Nippon Hoso Kyokai <Nhk> 音質補正伝送システム、送信装置、受信装置
JP2013543599A (ja) * 2010-09-22 2013-12-05 ドルビー ラボラトリーズ ライセンシング コーポレイション デジタルレベル正規化を備えるオーディオストリームミキシング

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR980001758A (ko) * 1996-06-12 1998-03-30 바라쾅 이브 콘테이너 안쪽의 응결수 회수 시스템 및 상기 회수 시스템을 구비한 콘테이너

Also Published As

Publication number Publication date
CN108432130B (zh) 2022-04-01
JP7001588B2 (ja) 2022-01-19
EP3369175A4 (en) 2019-05-08
EP3369175A1 (en) 2018-09-05
US20170127212A1 (en) 2017-05-04
US10251016B2 (en) 2019-04-02
EP3369175C0 (en) 2024-01-10
EP3369175B1 (en) 2024-01-10
WO2017075249A1 (en) 2017-05-04
CN108432130A (zh) 2018-08-21
KR20180132032A (ko) 2018-12-11

Similar Documents

Publication Publication Date Title
JP7001588B2 (ja) オブジェクトベースのオーディオ信号バランシング法
US10958229B2 (en) Metadata for loudness and dynamic range control
CN109903776B (zh) 用于各种回放环境的动态范围控制
JP6670752B2 (ja) オブジェクトベースのオーディオ音量管理
CN110675884B (zh) 用于下混合音频内容的响度调整
CN113257274A (zh) 高效drc配置文件传输
EP4136753B1 (en) Automated mixing of audio description
CN114128307A (zh) 用于个人听取设备中的自适应声音均衡的系统和方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201221

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210322

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210520

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211224

R150 Certificate of patent or registration of utility model

Ref document number: 7001588

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150