JP7001588B2

JP7001588B2 - オブジェクトベースのオーディオ信号バランシング法

Info

Publication number: JP7001588B2
Application number: JP2018522683A
Authority: JP
Inventors: ジャン－マルクジョット; ブランドンスミス; ジェフリートンプソン; ゾランフェイゾ
Original assignee: ジャン－マルクジョット; ブランドンスミス; ジェフリートンプソン; ゾランフェイゾ
Priority date: 2015-10-28
Filing date: 2016-10-27
Publication date: 2022-01-19
Anticipated expiration: 2036-10-27
Also published as: CN108432130B; EP3369175A4; US20170127212A1; EP3369175A1; EP3369175C0; WO2017075249A1; JP2019501563A; EP3369175B1; KR20180132032A; US10251016B2; CN108432130A

Description

（優先権の請求）
本出願は、引用によって本明細書に全体的に組み込まれる、２０１５年１０月２８日に出願された米国出願第６２／２４７，６７８号に対する優先権の利益を主張する。

対話又は解説は、映画のサウンドトラック又はテレビジョン放送番組において重要なオーディオ要素とすることができる。映画のある一定の区間中、リスナーは、対話と非対話のオーディオ信号のオリジナルミックスで提供されるよりも対話オーディオがより顕著にされることが望ましい場合がある。より顕著な対話は、難聴のリスナーにとって、母語以外で起こっている対話を理解しようとしているリスナーにとって、又は不利な聴取条件下でなど、リスニングの快適性を達成又は維持するのに望ましい可能性がある。

対話オーディオが解説トラックであるスポーツ又は試合の放送などの媒体コンテンツの一部のジャンル又はタイプでは、非対話オーディオレベルに対する対話オーディオレベルの好ましい関係又は比率は、人によって大きく変わる可能性がある。特定のリスナーにとって好ましいオーディオ信号関係は、例えば、オリジナルミックス又は放送信号ミックスなどに対する対話の顕著性又は対話信号振幅レベルの増大又は低減とすることができる。

オーディオプログラムは、複数の異なるオーディオチャネル信号を含むことができる。例えば、５．１フォーマットなどの従来のマルチチャネルデジタルオーディオフォーマットにおいて、複数の異なるオーディオチャネルの各々は、規定のレイアウトにおけるそれぞれの再生ラウドスピーカに割り当てることができる。従来のシステムにおいて、所与のオーディオチャネル信号は、同じ信号において対話成分と非対話成分の組み合わせを含むことができる。対話検出又は分類技術を用いて、信号の対話関連成分を選択的に処理することができる。

オブジェクトベースのデジタルオーディオフォーマットにおいて、複数の異なるオーディオ信号の各々は、再生位置又はその近傍でのレンダリングなどに独立して提供することができる。このようなオブジェクトベースのフォーマットは、従来のマルチチャネルフォーマットに優る融通性を提供することができ、オーディオプログラムの異なる成分を別々に格納、処理、又は送信することを可能にすることができる。

例えば、オブジェクトベースのデジタルオーディオフォーマットにおいて、対話信号が他のオーディオ信号とは独立して扱い又は処理することができる。更に、オブジェクトベースのデジタルオーディオにおいて、信号は、「対話」、「音楽」、「効果」、又は他の何らかの指定のような「オブジェクトタイプ」の指定を含むことができ、又はこれに関連付けることができる。一部の実施例において、オブジェクト信号は、音楽ステム、効果ステム、又は対話ステムなどのオーディオプログラムのステムを指すことができる。各ステムは、１又は２以上のオーディオオブジェクト信号を含むことができる。オブジェクトタイプ情報は、任意選択的に、オーディオオブジェクト信号自体と共にメタデータに組み込む又は含めることができる。再生時には、出力にミックス及びレンダリングされる前になど、任意選択的に、各オーディオオブジェクト信号を独立して分析及び処理することができる。

米国出願第６２／２４７，６７８号明細書

この要約は、以下の詳細な説明で説明される単純化された形式における概念の選択を導入するために提供される。この要約は、請求項に記載される主題の主要な特徴又は構成を識別することを意図するものではなく、また請求項に記載される主題の範囲を限定するのに使用することを意図するものでもない。

本明細書で記載される対話制御及び拡張システム及び方法の様々な実施形態は、オブジェクトベースのデジタルオーディオコーディングフォーマットを用いるよう構成されている。デジタルオーディオ／ビデオ放送又はストリーミングサービス及び他のアプリケーションに好適なこれらのフォーマットは、同じオーディオプログラムの非対話の要素とは別に送信されるオーディオ信号を表す、対話「トラック」又はオブジェクトを含むか又は用いることができる。このようなオブジェクトは、信号ラウドネスメタデータを含むか又は用いることができ、受信側で選択的にゲイン補正することができる。

本システム及び方法の様々な実施形態は、オリジナルオーディオコンテンツマテリアルの修正又は動的ゲイン調整を適用して、システム又はユーザのプリファレンス又は期待に適合させることができる対話制御を提供する。これは、プログラムの間又はプログラムを切り換えたときにユーザが対話制御パラメータ又は設定を調整する必要性を排除するのを助けることができる。加えて、本システム及び方法の実施形態は、（例えばコマーシャルの割り込みを含む）コンテンツジャンル及びソースにわたって一貫したプログラムラウドネスを確保する既存の放送規格及び規定と互換性があり、従って、プログラム中又はプログラムを切り換えたときにユーザが繰り返し音量を調整する煩わしさを回避し且つその必要性を最小限にする。

本システム及び方法の実施形態は、直感的なユーザパラメータインタフェースを含む。このユーザパラメータインタフェースは、所与の１つのコンテンツに補正が必要であることを復号器が検出した場合に補正が加えられるように、リスナーの個々のプリファレンスに対する体験を個別化するために設けられる。対話バランス個別化は、長期の対話バランスメトリックに従って対話と非対話のバランスを調整するような、オーディオプログラム全体にわたって固定ゲインオフセットを適用することを含むことができる。対話保護技術は、付加的に又は代替として、必要であれば、短期の対話バランスメトリックがユーザ定義のプリファレンスの範囲外にあるオーディオプログラム部分の間など、時間的に変化するゲインオフセットを提供するために適用することができる。例えば、対話保護は、音響効果又は音楽を伴う対話などの同時要素によってユーザのリスニングの快適さが損なわれる場合は常に提供することができる。

オブジェクトベースのオーディオシステムにおいて、復号器又はレンダラーは、対話オブジェクト信号と非対話オブジェクト信号を別々に受け取るように構成することができる。復号器又はランダラーは、対話及び非対話オブジェクト信号の一方又は両方にゲイン又は減衰を適用するように構成することができる。１つの実施例において、復号器は、特定のユーザ、ジャンル、プログラムタイプ、又は環境などに対応する所望の対話対非対話の顕著性又はバランスの指示を受け取ることができる。別々のオブジェクトの１つ又は２以上に対して、すなわち対話信号及び非対話信号に対して独立してゲイン又は減衰を適用することなどによって、所望の対話対非対話バランスを復号器により実現することができる。

本発明者らは、とりわけ、ユーザプリファレンスが消費者の調整可能な対話信号バランスの実用的な有用性を制限する可能性があることを認識している。例えば、ユーザが利用可能な制御パラメータが、何らかのオーディオマテリアルにおける全ての対話オブジェクト又は要素に適用される対話ゲイン（又は負ゲインの場合などの減衰）を表す固定の「対話ゲイン」パラメータである場合、オリジナルマテリアルが既に好適な対話対非対話バランスを表しているときには、結果として生じる信号修正が不必要又は望ましくないことがある。すなわち、場合によっては、好適な対話対非対話バランスは、所与のオーディオプログラムに既に存在している場合があり、従って、グローバル対話ゲイン又は減衰を適用することは、ユーザの体験にとって好ましくない影響を及ぼす可能性がある。加えて、一部のリスナーは、異なるオーディオプログラムソースを切り換えるときに、対話ゲインパラメータを繰り返し調整することを強いられる場合がある。

対話の明瞭度を維持するための一部の技術は、時間的に変化する減衰を適用することによって対話信号に対して自動的に減衰することができる非対話信号を用いる。このような時間的に変化する減衰は、非対話信号のラウドネスを最大にしながら、予測される明瞭度の予め定められたレベルを維持するように計算することができる。これらのタイプの技術は、会話の明瞭度を保つように設計されるので、これらは、非会話信号に対する会話又は解説信号にユーザ指定の減衰をユーザが適用することを許可しない場合がある。

対話と非対話のオーディオ信号間のバランスを自動的に調整する別の技術は、入力信号における音量比率を検出し、次いで、指定された音量比率値に適合させるためにゲイン補正を自動的に生成することを含む。しかしながら、この技術及び前述の技術の両方が、例えば、リアルタイムゲイン変動の結果として出力信号における顕著なオーディオアーチファクトを生じ易い可能性がある。

本発明者らは、上述の問題に対する解決策は、最適にバランシングされた対話と非対話オーディオ成分を有するオーディオプログラムを提供又は維持することを含むことを認識している。１つの実施例において、この解決策は、オブジェクトベースのオーディオ再生システムを含むか又は使用して、オーディオプログラム全体及び異なるタイプのオーディオプログラムなどに対するユーザの好ましい対話対非対話バランスを実現する。

１つの実施例において、この解決策は、オーディオプログラムの対話信号及び非対話信号のラウドネス間の関係を示す対話バランスメトリックとオーディオプログラムの各部分又はセグメントを関連付けることを含む。再生時には、本システムは、対話バランスメトリックをユーザ指定の対話バランスプリファレンス値と比較するように構成することができ、その結果、対話対非対話信号バランス補正（必要に応じて）をオーディオプログラムのそれぞれの部分に自動的に適用することができる。１つの実施例において、本解決策は、複数のオブジェクト信号又はオブジェクト信号のカテゴリーを１又は２以上のラウドネスメトリック又はラウドネスバランスメトリックに関連付けることを含む。

１つの実施例において、本解決策は、オーディオプログラムにおける複数のオーディオオブジェクト信号の各々のラウドネスメトリックに基づくことができるなど、オーディオプログラムに対する長期対話バランス又は顕著性を提供することを含む。長期対話バランスは、一般に、オーディオプログラムの持続時間全体に関連付けることができ、このような場合、オーディオプログラムに対する「グローバル」対話バランスとみなすことができる。１つの実施例において、長期対話バランスは、オーディオプログラム全体未満で連続オーディオプログラムマテリアルの数秒より長い時間（例えば、約５～１０秒より長い時間）に関連付けることができる。

本解決策は、ユーザから受け取ることができる、又は既知又は検出されたオーディオプログラムジャンル（例えば、対話信号及び／又は非対話信号のメタデータを用いて検出された）に基づくことができるなど、長期対話バランスプリファレンスを受け取ることを含むことができる。本解決策は、特定のユーザのためにオーディオプログラムをレンダリング又は再生し、オーディオプログラムの長期対話バランスをユーザについての受信した長期対話バランスプリファレンスと比較して、次いで、オーディオ出力信号に対する長期対話バランスがリスナーの長期対話バランスプリファレンスに対応するように、対話対非対話信号バランスを補正することを含むことができる。１つの実施例において、本解決策は、対話信号のための対話「保護」方式を適用することを含む。対話保護方式は、短期対話バランス又は顕著性が、音響効果又は音楽のような同時オーディオ信号要素の発生によってユーザのリスニングの快適さが損なわれる閾値のようなユーザ定義の閾値を下回らないように構成することができる。

代替の実施形態が可能であり、本明細書で論じるステップ及び要素を、特定の実施形態に応じて変更、追加、又は削除できる点に留意されたい。これらの代替の実施形態は、本発明の範囲から逸脱することなく、使用することができる代替のステップ及び代替の要素、及び行うことができる構造的変更を含む。

ここで、同じ参照数字が全体を通じて対応する部分を表す図面を参照する。

対話制御及び拡張システムの実施例を全体的に示す図である。マルチチャネルラウドネス処理方式を全体的に示すブロック図である。対話信号及び／又は非対話信号に適用する長期ゲイン又は減衰を決定するステップを含む方法を全体的に示す図である。対話信号及び／又は非対話信号のラウドネスを調整するステップを含む方法を全体的に示す図である。対話信号及び／又は非対話信号に短期ゲイン又は減衰を適用するステップを含む方法を全体的に示す図である。対話オーディオ信号波形及び非対話オーディオ信号波形の実施例を全体的に示す図である。対話オーディオ信号及び非対話オーディオ信号の短期ラウドネス尺度の実施例を全体的に示す図である。短期対話バランス尺度とゲイン又は減衰オフセットとの間のマッピングの実施例を全体的に示す図である。短期バランス信号、平滑化短期バランス信号、及び対話信号又は非対話信号のゲイン又は減衰オフセットの実施例を全体的に示す図である。拡張された対話信号波形及び非対話信号波形の実施例を全体的に示す図である。長期及び短期信号バランシングを含む方法を全体的に示す図である。

対話信号制御及び拡張システム及び方法の実施形態の以下の説明において、添付図面を参照する。これらの図面は、例証として、対話制御及び拡張システム及び方法の実施形態をどのようにして実施できるかに関する特定の実施例を示している。請求項に記載された主題の範囲から逸脱することなく、他の実施形態を使用することができ、構造的変更を行うことができることを理解されたい。以下の説明では、用語「対話」は、同等に、音声、スピーチ、前景コンテンツ、又はより一般的には、オーディオプログラムにおけるコンテンツ信号の好ましい部分又は要素を指す。「非対話」という語は、オーディオプログラムの何らかの残りの部分又は他の部分を指す。

図１は、対話制御及び拡張システム１００の実施例を全体的に示す。システム１００は、１又は２以上のそれぞれの物理的音波を表す１又は２以上のオーディオ信号１１０を受け取るように構成されたエンコーダ装置１２０を含む。システム１００は、エンコーダ装置１２０に通信可能に結合され且つエンコーダ装置１２０から符号化オーディオ信号１１１を受け取るように構成されたデコーダ装置１３０を含む。システム１００は更に、デコーダ装置１３０から１又は２以上の出力信号１１２を受け取る再生デバイス１５０を含む。出力信号１１２は、再生デバイス１５０に結合された１又は２以上のラウドスピーカを介して再生用のオーディオプログラムの一部分を含む１又は２以上のデジタル又はアナログオーディオ信号を含むことができる。

オーディオ信号１１０は、オブジェクトベースのオーディオ信号を含むことができる。１つの実施例において、オーディオ信号１１０は、少なくとも、対話信号を含む第１のオブジェクトベースのオーディオ信号と、非対話信号を含む第２のオブジェクトベースのオーディオ信号を含む。エンコーダ装置１２０は、第１及び第２のオブジェクトベースのオーディオ信号のうちの１つ又は２以上と関連付けられるメタデータ１１３の読み取り、追加、又は修正を行うように構成することができる。１つの実施例において、エンコーダ装置１２０は、オーディオ信号１１０を受け取って、それぞれのメタデータ１１３をオーディオ信号１１０に付加する。メタデータ１１３は、とりわけ、オーディオ信号のソース、タイプ、ジャンル、ラウドネス、静かさ、持続時間、雑音特性、周波数成分、空間位置、又は他の情報に関する指示又は情報を含むことができる。オブジェクトベースのオーディオ信号は、エンコーダ装置１２０のマルチプレクサ回路１２２で受け取ることができ、マルチプレクサ回路１２２の出力は、エンコーダ装置１２０の出力に結合することができる。

デコーダ装置１３０は、エンコーダ装置１２０からの符号化オーディオ信号１１１（多重化されたオブジェクトベースのオーディオ入力信号などを含むことができる）を受け取るように構成された入力１３１を含むことができる。入力１３１は、デコーダ装置１３０においてデマルチプレクサ回路１３２に結合することができ、デマルチプレクサ回路１３２は、符号化されたオーディオ信号１１１から、１又は複数の異なるオブジェクトベースのオーディオ信号を回復することができる。デコーダ装置１３０は、回復されたオブジェクトベースのオーディオ信号からメタデータ１１３を読み取るように構成されたプロセッサ回路１３５を含むことができる。１つの実施例において、メタデータ１１３は、回復されたオブジェクトベースのオーディオ信号の各々にそれぞれ関連付けられたラウドネスメトリック情報を含む。デコーダ装置１３０は更に、１又は２以上のデジタル又はアナログオーディオ出力信号１１２を再生デバイス１５０に提供するように構成された出力１３９を含む。

１つの実施例において、システム１００は、オーディオプログラム又はオブジェクトベースのオーディオ信号に関する様々なジャンル情報を含むことができるデータベース１４０を含む。データベース１４０は、エンコーダ装置１２０及びデコーダ装置１３０の一方又は両方に対してリモート又はローカルに設けることができる。例えば、データベース１４０は、イントラネット又はインターネットを介してエンコーダ装置１２０及び／又はデコーダ装置１３０がアクセスすることができる。１つの実施例において、エンコーダ装置１２０は、オーディオ信号１１０に関するジャンル情報１１４を決定し、又は後で使用することができるメタデータなどと共にデータベース１４０に提供し、デコーダ装置１３０が同じオーディオ信号及び／又はオーディオプログラムに対応するジャンル情報１１４を検索することができるように構成される。

デコーダ装置１３０は、２又はそれ以上のオブジェクトベースのオーディオ信号間の信号バランスを更新又は調整するように構成することができる。１つの実施例において、プロセッサ回路１３５は、対話バランス設定１３６を受け取り、次いで、対話バランス設定１３６を、デコーダ装置１３０によって処理されるオブジェクトベースのオーディオ信号の検出又は決定された対話バランスと比較する。対話バランス設定１３６と信号の検出又は決定された対話バランスとの間の関係が、指定された閾値に適合又は超過した場合、プロセッサ回路１３５は、１又は２以上のオブジェクトベースのオーディオ信号１３６のラウドネス特性を更新又は調整することができる。本明細書全体を通して、語句「対話バランス」は、一般に、異なるオーディオオブジェクト間のラウドネス関係又はバランスの実施例を提供するものと理解することができる。他のラウドネスバランシングは、複数の非対話オブジェクトなどを用いて同様に実行することができる。例えば、音楽オブジェクトと音響効果オブジェクトとの間のラウドネス関係又はバランスは、本明細書で記載されるシステム及び方法を用いて調節又は調整することができる。

１つの実施例において、対話バランス設定１３６は、第２入力１３３を介してデコーダ装置に入力されたユーザプリファレンスによって、又は再生デバイス１５０に対応するデバイス情報によって、又はジャンル情報１１４によって、又は他の要素によって決定又は影響を受けることができる。１つの実施例において、ユーザプリファレンスは、パーソナルデバイス（例えばモバイルスマートフォン、或いは、１人のユーザ又は１人のユーザのプリファレンスと一般に関連付けられる他のデバイス）と関連付けることができ、パーソナルデバイスは、デコーダ装置１３０と通信可能に結合することができる。パーソナルデバイスは、自動的に又はデコーダ装置１３０からの要求に応答してユーザプリファレンスを共有するように構成することができる。１つの実施例において、ユーザプリファレンスは、データベース１４０に格納することができ、ユーザプリファレンスに対応する１又は２以上の基準（プログラムジャンル、再生デバイスの特徴、その他など）が認識されたときに、デコーダ装置１３０によって自動的に検索することができる。

従って、図１の実施例は、対話制御及び拡張に合わせて構成することができるエンド・ツー・エンドオブジェクトベースのシステムを含む。１つの実施例において、システム１００は、エンコーダ装置１２０によって提供できるような、オブジェクトベースのラウドネスメタデータを用いて、とりわけ、デコーダ装置１３０の出力１３９などにて対話対非対話信号バランスの検出及び修正を容易にすることができる。従来のメディア放送又は信号分配モデルでは、検出及び補正は、復号器側でリアルタイムに実行される。しかしながら、メディアストリーミング／ユニキャストモデルでは、検出及び補正は、エンコーダ又はサーバ側で同様に実施することができる。

対話制御及び拡張システム１００の様々な実施形態は、対話対非対話信号レベル補正技術を含む又は使用する。本技術は、任意選択的に、相対的な対話ラウドネス測定などに基づいて、オーディオプログラムにおける対話要素に固定ゲイン（増幅）又は減衰を適用することを含むことができる。このような相対的な対話ラウドネス測定は、対話バランス又は対話顕著性と呼ぶことができる。１つの実施例において、対話バランスは、オーディオプログラムの全持続時間に有効とみなすことができる。全オーディオプログラムの特性は、「グローバル」な特性と考えることができる。例えば、グローバル対話バランスは、全オーディオプログラムに対する対話対非対話ラウドネスを表すと考えることができる。１つの実施例において、対話バランスは、全オーディオプログラムの持続時間よりも短い持続時間に有効とみなすことができる。この実施例において、対話バランス特性は、「長期」特性と考えることができる。約２０ミリ秒又はそれ未満などに対応するより短い持続時間対話バランス特性は、「短期」特性と考えることができる。

一部の実施形態において、ユーザの好ましい対話顕著性設定は、とりわけ、対応するオーディオプログラムのコンテンツ又はジャンルに依存することができる。オーディオプログラムジャンルは、ライブスポーツイベント、トークショー、広告、コンサート、映画、ＴＶドラマ、ＴＶコマーシャル、又は他の媒体に対応するオーディオなど、オーディオの様々な種類又はタイプを含むことができる。動作の「セット・アンド・フォゲット（設定したら後は操作不要）」タイプを可能にするために、システム１００は、オーディオプログラムに対応するジャンルに関する情報などに基づいて、にユーザの好ましい対話バランス設定を自動的に検索又はリコールするように構成することができる。図１に示すように、ジャンル情報は、符号化ビットストリームに含めるか、又はデータベース１４０から検索することができる。

一部の実施形態において、エンコーダ装置１２０は、対話信号及び非対話信号に対してそれぞれのラウドネス値を計算するように構成することができる。１つの実施例において、エンコーダ装置１２０は、オーディオプログラムの持続時間に対してラウドネス値を計算して、対話信号及び非対話信号の各々にグローバルラウドネス値を提供する。１つの実施例において、エンコーダ装置１２０は、対話信号及び非対話信号に対するラウドネス値の比率として対話バランスを計算又は決定するように構成することができる。１つの実施例において、決定された対話バランスは、オブジェクトベースのコンテンツ信号と共に送信することができる。必要に応じて、例えば、再生デバイス１５０でのユーザ指定の対話バランスに一致するように、固定対話ゲイン補正を適用することができる。１つの実施例において、信号増幅に対応するゲインを正とすることができ、又は信号減衰に対応するゲインを負とすることができる。ゲインが、オーディオプログラムの持続時間の間ほぼ一定である場合、信号忠実度は大きな範囲まで維持することができる。例えば、オーディオプログラムの対話バランス（換言すると、プログラムのミキシングエンジニアによって選択されたデフォルトのバランス設定）が既にユーザのプリファレンスに一致しているときには、信号修正を適用する必要性がない場合がある。

過去１０年の間にわたって、様々な放送規格機構及び立法機関が、ラウドネス測定及び最良実施に対する規定及び技術的提言を発表してきた。規定及び提言に続いて、ＬＫＦＳ（Ｌｏｕｄｎｅｓｓ，Ｋ－ｗｅｉｇｈｔｅｄ，ｒｅｌａｔｉｖｅｔｏＦｕｌｌＳｃａｌｅ）又はＬＵＦＳ（ＬｏｕｄｎｅｓｓＵｎｉｔｓｒｅｌａｔｉｖｅｔｏＦｕｌｌＳｃａｌｅ）で表されるデジタルオーディオプログラムの長期（又は統合）ラウドネス尺度は、次式のように計算することができる。
Ｌ＝－０．６９１＋１０ｌｏｇ₁₀［Σ（_m∈Ω)ｋ_mｐ（ｍ）／｜Ｊ｜］（１）
ここでｐ（ｍ）は、オーディオ信号ブロックｍで測定されたパワーであり、各信号ブロックは、７５％のオーバラップを有する４００ｍｓ持続時間であり、Ωは、低レベル信号フレームが廃棄されるゲーティング基準に従うパワー平均に含めるよう選択された信号ブロックのセットを表し、｜Ｊ｜は、ゲート後に保持された信号フレームのセットであるＪの要素のカウント又は数を示す。マルチチャネル信号では、ブロックｍのパワー寄与は、空間位置に値が依存する係数ｋｍにより重み付けすることができる。

１つの実施例において、エンコーダ装置１２０は、式（１）に関してのように、オーディオプログラムの持続時間にわたってオブジェクトベースの対話信号の組み合わされた統合ラウドネスＬ_Dを計算するように構成することができる。同様に、エンコーダ装置１２０は、オーディオプログラムの持続時間にわたってオブジェクトベースの非対話信号の組み合わされた統合ラウドネスＬ_Nを計算するように構成することができる。値Ｌ_D及び／又はＬ_Nは、符号化オーディオ信号１１１におけるように、デジタルオーディオビットストリームにおいてグローバルメタデータ１１３として符号化することができる。１つの実施例において、ラウドネス情報をエンコード（符号化）することができる（例えば、全オーディオプログラムを表すグローバル統合ラウドネスＬと共に、この内包は、場合によっては既存のラウドネス規定及び規格によって命じられる）。

図２は、マルチチャネルラウドネス処理方式２００を全体的に示すブロック図である。方式２００は、５チャネル（左、中央、右、左サラウンド、及び右サラウンド）を用いた５．１システムなどのマルチチャネルにわたるラウドネス特性をモデル化又は測定するのに用いることができる。各ブロックｍに対するパワー尺度ｐ（ｍ）は、平均二乗積分により評価することができ、「Ｋフィルタ」として知られる周波数依存重み付けを含むことができる。様々なチャネルは、独立して重み付けされて合計することができる。１つの実施例において、ゲートブロック（例えば、７５％のオーバラップを有する４００ｍｓの持続時間ブロックを含む）を用いることができる。ゲートブロックは、ＬＫＦＳ閾値の適用後に測定されたレベルに対して、－７０ＬＫＦＳ又は－１０ｄＢなどの様々な閾値を含むことができる。一般に、低周波数効果（ＬＦＥ）チャネルは、ラウドネス測定には含まれない。

１つの実施例において、デシベルで表される長期対話バランスは、次式のように表すことができる。
Ｓ＝Ｌ_D －Ｌ_N （２）
ここでＬ_D及びＬ_Nは、それぞれの信号ブロックセットΩ_D及びΩ_Nに対して式（１）に従って計算される。ブロックセットΩ_D及びΩ_Nは、対話オブジェクト及び非対話オブジェクトそれぞれにΩを限定することによって定義される。

１つの実施例において、対話バランスプリファレンス指標を用いることができる。一般的には本明細書で「対話」バランスプリファレンス指標と呼ばれるが、同様に、指標は、「非対話」ラウドネスプリファレンス指標、又はより一般的にはバランス又は関係指標であると理解することができる。１つの実施例において、対話ラウドネスプリファレンス指標をＳ_pと表すことができる。ゲインオフセットＧ_D及びＧ_Nは、例えば、対話オブジェクト及び非対話オブジェクトそれぞれに適用することができ、式（３）及び（４）のシステムを解くことによってそれぞれ導くことができる。
Ｇ_D－Ｇ_N＝Ｓ_P－Ｓ（３）
ｐｏｗ（Ｌ_D＋Ｇ_D）＋ｐｏｗ（Ｌ_N＋Ｇ_N）＝ｐｏｗ（Ｌ）（４）
式（４）において、ｐｏｗ（）は、ＬＵＦＳからパワーへの変換、すなわち式（１）のように
ｐｏｗ（Ｌ）＝｜Ｊ｜ｅｘｐ₁₀［（Ｌ＋０．６９１）／１０］
を示す。式（３）は対話バランス補正を表し、式（４）は全体的なオーディオプログラムラウドネス保存を保証する。

対話ラウドネスプリファレンス指標を用いて、図１の例示的なシステム１００の様々な構成要素などを用いてオブジェクトベースの対話及び非対話オーディオ信号から拡張出力信号をどのようにレンダリングできるかを例示するために、様々な非限定的な実施例が提供される。例えば、図３は、対話信号及び／又は非対話信号に適用する長期ゲイン又は減衰を決定するステップを含む方法３００を全体的に示す。図４は、対話信号又は非対話信号のラウドネスを調整するステップを含む方法４００を全体的に示す。

図３の実施例において、動作３１０において、オーディオプログラムに対する長期対話バランスをデコーダ装置１３０などによって受け取ることができる。対話バランスは、式（１）などを用いて、又は図２の方式２００の一部などを用いて計算することができる。１つの実施例において、対話バランスは、他の手段又は方法を用いて計算され、又は対話バランスに関する情報をメタデータ１１３から検索することができる。動作３１０で受け取った長期対話バランスは、オーディオプログラムの対話対非対話ラウドネス関係に関する情報を含むことができる。以下で更に検討する図４は、動作３１０で使用できるように長期対話バランスを決定するステップの実施例を全体的に示す。

動作３２０で、デコーダ装置１３０などによって、対話バランスプリファレンスを受け取ることができる。対話バランスプリファレンスは、非対話オーディオ又は他のオーディオプログラムコンテンツに関する対話オーディオの特定のバランス又はミックスについてのプリファレンス（例えば、ユーザプリファレンス）を示す。１つの実施例において、対話バランスプリファレンスは、ユーザプリファレンスに基づいて、再生デバイスタイプ又は環境指示に基づいて、オーディオプログラム又は信号レベル又はプログラムレベルジャンル情報に基づいて、或いは他の情報に基づいて、受け取る又は決定することができる。図１の実施例において、対話バランスプリファレンスを使用して、対話バランス設定１３６を提供することができる。

動作３３０において、図３の方法は、受け取った長期対話バランスと受け取った対話バランスプリファレンスとの間の関係を決定するステップを含む。関係を決定するステップは、オーディオプログラムの対話バランスが対話バランスプリファレンスに対応するかどうかなどを決定するため、受け取った長期対話バランスと受け取った対話バランスプリファレンスとの間の大きさの差を識別するステップを含むことができる。オーディオプログラムの対話バランスが、対話バランスプリファレンスよりも指定された閾値量を上回って大きいか又は小さい場合、様々な補正動作を行うことができる。例えば、オーディオプログラムの対話バランスが、対話バランスプリファレンスを超えるか又は対話バランスプリファレンスよりも十分に大きい対話対非対話ラウドネス関係を示す場合、プロセッサ回路１３５は、オブジェクトベースの対話信号を減衰、カット、又は非強調化を行うことができ、及び／又はオブジェクトベースの非対話信号を増幅、ブースト、又はゲイン適用を行うことができる。オーディオプログラムの対話バランスが、対話バランスプリファレンスよりも十分に小さい対話対非対話ラウドネス関係を示す場合、プロセッサ回路１３５は、オブジェクトベースの対話信号を増幅又はブーストすることができ、及び／又はオブジェクトベースの非対話信号を減衰することができる。対話対非対話ラウドネス関係が対話バランスプリファレンスに実質的に対応することをオーディオプログラムの対話バランスが示す場合、プロセッサ回路１３５は、オリジナルコンテンツミックスエンジニアなどによって提供されたデフォルト値に従って、オブジェクトベースの対話信号及び非対話信号を処理することができる。

動作３４０において、図３の方法は、オブジェクトベースの対話信号及び／又はオブジェクトベースの非対話信号に適用する長期ゲイン又は減衰を決定するステップを含む。例えば、動作３３０で決定されるような長期対話バランスと対話バランスプリファレンスとの間の差の大きさに基づいて、プロセッサ回路１３５又は他のプロセッサを用いて、オブジェクトベースのオーディオ信号に適用するゲイン又は減衰の対応する大きさを決定し、この差を補償することができる。

動作３５０において、本方法は、オブジェクトベースの対話信号及び非対話信号の一方又は両方などに対して、動作３４０で決定された長期ゲイン又は減衰を適用するステップを含むことができる。１つの実施例において、プロセッサ回路１３５、又はデコーダ装置１３０に含まれるか又はデコーダ装置１３０と通信可能に結合された他の専用の信号プロセッサを用いて、指定されたオーディオ信号にゲイン又は減衰を適用することができる。動作３６０において、本方法は、オブジェクトベースの対話信号及び非対話信号の少なくとも１つ及び任意選択的に両方のゲイン補正形態を用いて、オーディオ出力信号をレンダリングするステップを含むことができる。例えば、オーディオ出力信号をレンダリングするステップは、プロセッサ回路１３５又はデコーダ装置１３０の１又は２以上の出力部又は増幅回路を用いて、１又は２以上の出力信号１１２を提供するステップを含むことができる。

ここでラウドネスメトリックを用いる別の実施例を参照すると、図４は、対話信号又は非対話信号のラウドネスを調整するステップを含む方法４００を全体的に示す。動作４１０において、本方法は、メタデータ１１３を含む信号などのオブジェクトベースの対話信号を受け取るステップを含む。この実施例において、メタデータ１１３は、対話信号についてのラウドネス指標を含むことができる。動作４２０において、本方法は、プロセッサ回路１３５などを用いてメタデータ１１３から対話信号のラウドネスメトリックを識別又は検索するステップを含む。１つの実施例において、動作４２０で識別されたラウドネスメトリックは、長期ラウドネスメトリックである。

動作４３０及び４４０は、それぞれ、動作４１０及び４２０と同様に実行することができる。例えば動作４３０において、本方法は、メタデータ１１３と共に含むなど、オブジェクトベースの非対話信号を受け取るステップを含む。この実施例において、メタデータ１１３は、非対話信号のラウドネス指標を含むことができる。動作４４０において、本方法は、プロセッサ回路１３５などを用いて、メタデータ１１３から非対話信号のラウドネスメトリックを識別又は検索するステップを含む。メタデータ１１３は、本明細書では単一の参照数字を用いて総称的に参照されるが、何れか１つ又は２以上のオブジェクトベースの信号が、それ自体の離散的又は固有のメタデータを含むことができ、又はこれと関連付けることができる点を理解されたい。

動作４５０において、本方法は、長期対話バランス（例えば、長期対話ラウドネスバランス）を決定するステップを含む。１つの実施例において、長期対話バランスは、対話ラウドネスメトリック（例えば動作４２０で識別又は決定された）と非対話ラウドネスメトリック（例えば、動作４４０で識別又は決定された）との間の関係に基づいて決定される。１つの実施例において、長期対話バランスは、対話及び非対話ラウドネスメトリック間の差に基づいて決定される。１つの実施例において、より複雑なアルゴリズムを用いてこの関係を決定することができる。例えば、対話及び非対話ラウドネスメトリックは、離散的周波数成分又は周波数帯域に対するメトリックを含むことができ、長期対話バランスは、様々な周波数成分又は帯域を表す１又は２以上のメトリックの加重又は非加重比較に基づくことができる。１つの実施例において、異なるブロック又はサンプル長に対して異なる関係を決定することができる。１つの実施例において、決定された長期対話バランスは、動作３１０などで図３の実施例において適用することができる。

図４の方法において、動作４６０は、動作４１０で受け取った対話信号及び動作４３０で受け取った非対話信号の一方又は両方に対応するオーディオプログラムのジャンルを決定又はこのジャンルに関する情報を受け取るステップを含むことができる。１つの実施例において、動作４６０は、デコーダ装置１３０を用いて、オブジェクトベースの信号の少なくとも１つで受信できるようなメタデータ１１３を処理して、メタデータ１１３からジャンルに関する情報を決定又は読み取るステップを含むことができる。動作４６０は、付加的に又は代替として、データベース１４０から検索されたジャンル情報１１４を用いるステップを含むことができる。決定されたジャンルは、事前に指定された又はデフォルトの対話ラウドネスバランスと関連付けることができる。例えば、異なるジャンルは、それぞれの異なるオーディオプログラム対話バランス量、又は対話と非対話信号との間の異なる好ましい関係と関連付けることができる。従って、スポーツ放送などのジャンルは、劇場パフォーマンスと関連付けられる第２オーディオプログラム対話バランスとは異なる第１オーディオプログラム対話バランスと関連付けることができる。

１つの実施例において、方法４００は、符号化オーディオ信号１１１の一部分から又はデータベース１４０からなど、オーディオプログラムメタデータを受け取るステップを含む動作４７０を含む。オーディオプログラムメタデータは、とりわけ、オーディオプログラム自体に関係する情報又は特性、又はプログラムのオブジェクト信号成分に関係する情報又は特性を含むことができる。動作４８０において、デコーダ装置１３０は、動作４７０で受け取ったメタデータを用いてオーディオプログラムのジャンルを決定するように構成することができる。動作４８０において、デコーダ装置１３０は、付加的に又は代替として、動作４７０で受け取ったメタデータを用いて長期対話バランスを決定するよう構成することができる。ジャンル及び／又は長期対話バランスを決定するステップは、ジャンル及び／又はバランスに関する事前に符号化された情報を読み取るステップを含むことができ、又は受け取ったメタデータから引き出された他の情報又は特性を用いてジャンル及び／又は長期対話バランスを計算するステップを含むことができる。

動作４９０において、図４の方法は、長期対話バランス（例えば動作４５０又は４８０で決定された）に基づいて、また任意選択的にジャンル（例えば動作４６０又は４８０で決定された）に更に基づいて、対話信号（例えば動作４１０で受け取った）と非対話信号（例えば動作４３０で受け取った）の少なくとも一方を調整するステップを含む。例えば、対話ラウドネスは、動作４５０で決定された長期対話バランスと決定されたジャンルに関連付けられる対話バランスプリファレンスとの間の関係に基づいて調整することができる。１つの実施例において、関係を決定するステップ、対話及び／又は非対話信号に適用するゲイン又は減衰を決定するステップ、決定されたゲイン又は減衰を適用するステップ、及びオーディオ出力をレンダリングするステップは、図３の対話バランスプリファレンスを図４の決定されたジャンルに関連付けられる対話バランスに置き換えることなどによって、動作３３０、３４０、３５０、及び３６０にて図３に記載された方法と同様に実行することができる。

上述のように、長期対話バランス個別化を用いて、例えば、プログラムの持続時間にわたって及び複数の異なるオーディオプログラムタイプ又はジャンルにわたってグローバルにユーザのリスニングの快適性を向上させることができるが、このような長期又は静的補正は、場合によっては、非対話又は背景信号ラウドネスに対する対話信号ラウドネスの一時的な降下を軽減するには不十分である可能性がある。１つの実施例において、短期対話ラウドネスインバランスは、距離のあるキャラクターの対話を想表現するため、又は情動的影響のために音楽又は音響効果を一時的に強調するために、ビデオサウンドトラックなどに意図的に設けることができる。このようなインバランスは、聴力の消失、母語以外の言語、又は不利な聴取条件などの可変要因の結果として一部のユーザにとってリスニングの快適性に悪影響を与える可能性がある。長期対話バランス補正は、例えば、グローバルに又は静的又は一定の補正ゲイン又は減衰特性などを用いて長期持続時間にわたって動作することができるので、短期ラウドネスインバランスに対して不十分な改善措置である可能性がある。望ましくない短期ラウドネスインバランスを補償するのに十分大きい補正ゲインは、オーディオプログラムの他の部分において対話信号に不必要に又は不適当にゲインを適用する可能性がある。

本システム及び方法の一部の実施形態は、短期対話顕著性又はバランスがユーザによって制御される好ましいレベルを上回って維持できるのを確保するのに用いることができる構成要素及び技術を含む。このような実施形態において、対話信号は、一時的に又は必要なときだけ及びユーザのプリファレンスに適合又は超過するのに十分に高い量だけ強調することができる。この機能又は技術は、本明細書では「対話保護」と呼ばれる。

図５は、短期ゲイン又は減衰をオーディオプログラムにおける対話信号及び／又は非対話信号に適用するステップを含む対話保護方法５００を全体的に示す。動作５１０において、本方法は、オーディオプログラムに対する長期対話バランスを受け取るステップを含み、動作５２０において、本方法は、長期対話バランスプリファレンスを受け取るステップを含む。動作５１０及び５２０は、一般に、図３の実施例において上述した動作３１０及び３２０に対応する。動作５６０において、動作５１０で受け取った対話バランスに基づいて及び動作５２０で受け取った対話バランスプリファレンスなどに基づいて、対話又は非対話信号に対する長期ゲイン調整を決定することができる。

動作５７０において、本方法５００は、短期信号ブロック又はセグメントにわたって対話信号及び非対話信号ラウドネス値の一方又は両方をモニタリングするステップを含む。信号ラウドネス値は、例えば、デコーダ装置１３０のプロセッサ回路１３５を用いて、又は別のプロセッサ又はモジュールを用いてモニタリングすることができる。１つの実施例において、信号ラウドネス値は、離散的短期信号セグメントの間、一般には２０ミリ秒又は２０ミリ秒未満の持続時間でモニタリングされる。

動作５８０において、本方法５００は、例えば動作５７０でモニタリングされた短期対話バランスが、指定された閾値バランスよりも小さいかどうかを決定するステップを含む。１つの実施例において、動作５８０は、付加的に又は代替として、短期対話バランスがバランス値の指定されたグループ（例えばヒストグラムで）に対応するかどうかを決定するステップを含むことができる。１つの実施例において、動作５８０は、対話バランスが指定量よりも大きく基準と異なるかどうかを決定するステップを含む。

動作５８０において、モニタリングされた対話バランス値が基準に適した場合、方法５００は、動作５８５に進み、対話及び／又は非対話信号に対する短期ゲイン又は減衰を決定する。次に、動作５９０において、本実施例は、例えば、対話信号と非対話信号間のバランス又は関係における突然の又は一時的な変化を軽減又は対処するために、対話信号及び非対話信号のうちの少なくとも１つに対して決定された短期ゲイン又は減衰を適用するステップを含む。

動作５８０において、モニタリングされたラウドネス特性値が基準に適合しなかった場合、方法５００は、動作５９５に進み、オブジェクトベースの対話信号及び非対話信号の少なくとも１つ及び任意選択的に両方の長期ゲイン補正形態を用いてオーディオ出力信号をレンダリングする。例えば、オーディオ出力信号をレンダリングするステップは、プロセッサ回路１３５又はデコーダ装置１３０の１又は２以上の出力部又は増幅回路を用いて、１又は２以上の出力信号１１２を提供するステップを含むことができる。

図６は、対話オーディオ信号波形６０１Ａ／６０１Ｂ、及び非対話オーディオ信号波形６０２の実施例６００を全体的に示す。分かり易くするために、異なる信号は、モノ信号と仮定する。実施例６００において、最初の約４秒の間、対話オーディオ信号波形６０１Ａの第１部分の短期ラウドネスは、非対話オーディオ信号波形６０２の短期ラウドネスよりも実質的に大きい。約４秒から始まって、対話オーディオ信号波形６０１Ｂの第２部分の短期ラウドネスは、緩やかな非対話オーディオ信号波形６０２の短期ラウドネスよりも実質的に小さい。

１つの実施例において、対話保護技術（例えば図５の実施例において上述された）は、オーバラッピング又は非オーバラッピングのブロック毎に動作することができ、ブロック持続時間は通常５～２０ｍｓである。補正ゲインは、各ブロックについて計算して補間し、次いで、対応する対話及び非対話オーディオ信号にサンプル毎に適用することができる。対話保護技術の概略的な説明を以下に示す。

１つの実施例において、短期対話バランス信号は、次式のように表すことができる（例えば、デシベル単位で）。
ｓ（ｍ）＝Ｉ_D（ｍ）－Ｉ_N（ｍ）（５）
式（５）において、ｍがブロック指数であり、Ｉ_D（ｍ）がブロックｍに対する対話オブジェクトの短期ラウドネスを示し、Ｉ_N（ｍ）が同じブロックｍに対する非対話オブジェクトの短期ラウドネスである。値Ｉ_D（ｍ）及びＩ_S（ｍ）は、例えば、式（１）のアンゲート形態などを用いて対話オブジェクト及び非対話オブジェクトそれぞれに関してパワー平均化を実行することによりブロック指数ｍに対して計算することができる。

図７は、対話オーディオ信号及び非対話オーディオ信号の短期ラウドネス尺度の実施例７００を全体的に示す。第１の曲線７０１は、対話オーディオ信号波形６０１Ａ及び６０１Ｂの第１及び第２部分についての短期ラウドネス尺度に対応する。第２の曲線７０２は、非対話オーディオ信号波形６０２の短期ラウドネス測定に対応する。１つの実施例において、短期ラウドネス尺度は、マルチチャネルオブジェクト又はオブジェクトのミックスについて計算することができる。

１つの実施例において、対話保護技術を用いて、短期対話バランス信号ｓ（ｍ）が閾値を実質的に上回って、又はユーザの短期対話バランスプリファレンス及び／又はオーディオプログラムのジャンルなどによって決定されたユーザ定義のプリファレンスの範囲内に維持されるのを確保することができる。短期対話バランスプリファレンスは、本明細書ではｓ_pとして表され、これは、１つの実施例において、リスニングの快適性が損なわれる前にユーザが許容できる最小短期対話バランス（又は対話対非対話バランス）を表すことができる。短期対話バランス信号ｓ（ｍ）及び最小値ｓ_pから、時間的に変化するオフセットを計算することができる。簡素化のため、及びスペクトル修正又は様々な可聴アーチファクトを防ぐために、広帯域補正ゲインオフセットを適用することができる。

図８は、短期対話バランス尺度とゲイン又は減衰オフセットとの間のマッピングの実施例を全体的に示す。実施例８００では、ｘ軸に沿った入力が、対話信号及び非対話信号成分間などのオーディオプログラムにおいて検出される短期ラウドネス差又は比率を表す。ｙ軸に沿った出力はゲインを表す。実施例８００は、ゲイン曲線８０１を含む。ゲイン曲線８０１は、最小対話バランスｓ_p＝１２ｄＢ及び１５ｄＢの最大ゲインを表す。実施例８００において、約－５ｄＢを下回る入力では、＋１５ｄＢの最大ゲインを提供することができる。最小値ｓ_p＝１２ｄＢに適合又は超過する入力値で又はこれより上では、ゲインは提供されない。

図８の実施例からのマッピングは、図６の実施例６００からの対話オーディオ信号波形６０１Ａ／６０１Ｂに対応する対話オーディオ信号のような対話オーディオ信号に適用することができる。例えば、図９は、短期対話バランス信号ｓ（ｍ）９０１、平滑化短期バランス信号Ｓ_env（ｍ）９０２、及び対話信号又は非対話信号のゲインオフセット信号ｇ（ｍ）９０３の実施例９００を全体的に示す。図９の実施例において、短期対話バランス信号ｓ（ｍ）は、以下のようなファーストアタック／スローリリース（ｆａｓｔ-ａｔｔａｃｋａｎｄｓｌｏｗ－ｒｅｌｅａｓｅ：鋭い立ち上がりで徐放）のエンベロープ、又は平滑化された短期バランス信号ｓ_env（ｍ）を提供するような、忘却因数αを有する１次フィルタによって平滑化することができる。
ｓ_env（ｍ）＝αｓ（ｍ）＋（１－α）ｓ_env（ｍ－１）（６）

平滑化信号Ｓ_env（ｍ）９０２の値は、図８に示すように、動的範囲圧縮（ＤＲＣ）曲線などを介してゲインオフセット信号ｇ（ｍ）９０３における対応する値にマッピングすることができる。

ファーストアタック／スローリリースエンベロープの平滑化、最大ゲイン、及びソフトニー圧縮（ｓｏｆｔ－ｋｎｅｅｃｏｍｐｒｅｓｓｉｏｎ）曲線は、可聴アーチファクトを最小化するのを助ける。結果として生じるゲインオフセット信号ｇ（ｍ）９０３は、２つのゲインシーケンスｇ_D（ｍ）及びｇ_N（ｍ）に変換することができ、例えば、それぞれ対話オブジェクト及び非対話オブジェクトに適用することができ、ｇ_D（ｍ）－ｇ_N（ｍ）＝ｇ（ｍ）によって検証することができる。１つの実施例において、ブロックベースのデシベルゲインシーケンスは、直線ドメインに変換して、サンプルベースのゲインシーケンスに線形補間することができる。

図１０は、拡張対話信号波形及び非対話信号波形の実施例１０００を全体的に示す。実施例１０００は、実施例９００からのゲインオフセット信号ｇ（ｍ）９０３に従って処理された対話オーディオ信号波形６０１Ａ／６０１Ｂを含み、拡張対話及び／又は非対話信号が得られる。実施例１０００は、ｇ_D（ｍ）＝ｇ（ｍ）及びｇ_N（ｍ）＝０ｄＢであるケースを例示している。実施例１０００において、拡張対話オーディオ信号波形１００１Ａの相対的に高い振幅の第１部分は、入力信号波形と比較して実質的に変化せず（例えば図６の実施例の対話オーディオ信号波形６０１Ａの第１部分に対応）、他方、実施例１０００における約４．０秒後などの拡張対話オーディオ信号波形１００１Ｂの低振幅の第２部分は、入力信号波形と比較すると実質的に増幅される（例えば、図６の実施例の対話オーディオ信号波形６０１Ｂの第２部分に対応する）。

図１１は、長期及び短期信号バランシングを含む方法１１００を全体的に示す。実施例１１００に示すように、長期及び短期バランス補正は、互いに依存することなく２つの連続処理段階として適用することができるが、これらは、任意選択的に単一の分析及びゲイン段階に組み合わせることができる。

動作１１００において、方法１１００は、符号化メタデータ１１３などから、長期対話及び非対話ラウドネス尺度又はメトリックＬ_D及びＬ_Nそれぞれを回復するステップを含むことができる。動作１１２０において、本方法は、それぞれＩ_D（ｍ）及びＩ_N（ｍ）で示されたオブジェクトベースの対話信号及び非対話信号に対する短期ラウドネスをモニタリングするステップを含むことができる。他の実施例において、エンコーダ側（例えばエンコーダ装置１２０を用いて）などで、短期ラウドネスメタデータを計算して、個々のオブジェクト又はオブジェクトグループ（「対話」及び「非対話」信号グループなどで示される）に対して送信することができる。

Ｌ_D及びＬ_N及びＩ_D（ｍ）及びＩ_N（ｍ）を回復すると、デコーダ装置１３０などを用いて対話ゲインオフセットＧ_D（ｍ）及び非対話ゲインオフセットＧ_N（ｍ）を計算することができる。１つの実施例において、ゲインオフセットは、上記で定められるように何れかが対話バランス個別化及び／又は対話保護に対して要求される場合など、固定対話バランス補正及び短期対話バランス補正を含むことができる。

動作１１１２において、オーディオプログラムの長期対話バランスＳを計算して長期対話バランス目標Ｓ_pと比較することができ、例えば、ユーザによって設定され及び／又は信号タイプ（例えば信号に対応するジャンル）によって影響を受けることができる。長期対話バランスＳ及び目標Ｓ_Pが、指定された量より大きいなど異なる場合には、式（３）及び（４）に従って計算される固定ゲインオフセットＧ_D及びＧ_Nは、動作１１１４において、対話信号及び非対話信号それぞれに適用することができる。

任意選択的に、動作１１１４からの補正された信号は、本明細書で記載される対話保護技術に従って動作１１２２において処理することができ、例えば、ユーザによって指定及び／又は信号タイプ（信号に対応するジャンルなど）によって影響を受けることができるような、短期対話バランス信号ｓ（ｍ）＝Ｉ_D（ｍ）－Ｉ_N（ｍ）及び最小バランス設定ｓ_Pを考慮に入れることができる。動作１１２４において、結果として生じる時間的に変化するゲインオフセットｇ_D（ｍ）及びｇ_N（ｍ）を決定し、次いで、動作１１１６において対応するオブジェクト波形に適用することができる。

１つの実施例において、Ｉ_D（ｍ）及びＩ_N（ｍ）がエンコーダ装置１２０で計算され、メタデータ１１３と共に送信された場合、ラウドネス信号は、第１段（例えば動作１１１４）で適用された長期対話バランス補正ゲインＧ_D及びＧ_Nゲインだけオフセットすることができる。例えば、短期対話保護ゲインオフセットは、出力において測定された結果として生じる長期対話バランス信号にて僅かなエラーを引き起こす可能性がある。しかしながら、実際には、この作用は、不快感を与えるほど大きなものではない。

本発明の様々な態様は、個別に又は共に使用することができる。例えば、態様１は、オーディオプログラムの対話信号と非対話信号の関係を調整するための方法を含むか又は使用することができるようなど、主題（装置、システム、デバイス、方法、行為を実行するための手段、又はデバイスによって実行されたときにデバイスに行為を実行させることができる命令を含むデバイス可読媒体など）を含むか又は使用することができる。態様１は、プロセッサ回路を用いて、オーディオプログラムの対話対非対話ラウドネス関係を示すオーディオプログラムに対する長期対話バランスを受け取るステップと、プロセッサ回路を用いて、長期対話バランスプリファレンスを受け取るステップと、を含むことができる。態様１は更に、プロセッサ回路を用いて、オーディオプログラムの対話信号及び非対話信号のうちの少なくとも１つに適用する長期ゲイン又は減衰を決定するステップであって、オーディオプログラムに対する受け取った長期対話バランスと受け取った長期対話バランスプリファレンスとの間の差に従って決定されるステップを含むことができる。

態様２は、態様１の主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、オーディオプログラムの対話信号に適用する長期ゲインを決定するステップと、プロセッサ回路を用いて、決定された長期ゲインを対話信号に適用してゲイン調整された対話信号を生成するステップと、ゲイン調整された対話信号と非対話信号との組み合わせを含むオーディオ出力信号をレンダリングするステップと、を含む。

態様３は、態様１又は２のうちの１つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、オーディオプログラムの対話信号に適用する長期減衰を決定するステップと、プロセッサ回路を用いて、決定された長期減衰を対話信号に適用して調整された対話信号を生成するステップと、調整された対話信号と非対話信号の組み合わせを含むオーディオ出力信号をレンダリングするステップと、を含む。

態様４は、態様１から態様３のうちの１つ又は何らかの組み合わせの主題を含むか又は使用することができる、又は任意選択的に組み合わせることができ、任意選択的に、対話信号及び非対話信号に適用するそれぞれの異なる長期ゲイン又は減衰量を決定するステップを含む。

態様５は、態様１から態様４のうちの１つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、プロセッサ回路を用いてオーディオプログラムの対話信号に対応する長期対話ラウドネスメトリックを受け取るステップと、オーディオプログラムの非対話信号に対応する長期非対話ラウドネスメトリックを受け取るステップと、プロセッサ回路を用いて、受け取った対話ラウドネスメトリックと非対話ラウドネスメトリックとの間の差に基づいて長期対話バランスを提供するステップと、を含む。

態様６は、態様１から態様５のうちの１つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、対話信号をプロセッサ回路で受け取るステップであって、対話信号がオーディオプログラムについての対話信号のグローバルラウドネスに関する情報を備えた第１メタデータを含むステップと、非対話信号をプロセッサ回路で受け取るステップであって、該非対話信号がオーディオプログラムについての非対話信号のグローバルラウドネスに関する情報を備えた第２メタデータを含むステップと、を含む。態様６において、オーディオプログラムについての長期対話バランスを受け取るステップは、プロセッサ回路を用いて、対話信号のグローバルラウドネス及び非対話信号のグローバルラウドネスに基づいて長期対話バランスを決定するステップを含むことができる。

態様７は、態様１から態様６のうちの１つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、オーディオプログラムの持続時間の間に対話信号に適用する静的ゲイン又は減衰を決定するステップを含む、長期ゲイン又は減衰を決定するステップを含む。

態様８は、態様１から態様７のうちの１つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、オーディオプログラムのジャンルに対応するジャンル固有の対話ラウドネスプリファレンスを受け取るステップを含む、対話ラウドネスプリファレンスを受け取るステップを含む。態様８は、任意選択的に、ユーザによって事前に設定され復号器によって及び／又はリモートデータベースによって格納されたジャンル固有の対話ラウドネスプリファレンスを受け取るステップを含むことができる。

態様９は、態様８の主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、対話信号から及び／又は非対話信号から回復されたメタデータに基づいてオーディオプログラムのジャンルを決定するステップを含む。

態様１０は、態様１から態様９のうちの１つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、オーディオプログラムを再生するように構成された再生デバイスに対応する再生デバイス固有の対話ラウドネスプリファレンスを受け取るステップを含む、対話ラウドネスプリファレンスを受け取るステップを含む。

態様１１は、態様１から態様１０のうちの１つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、プロセッサ回路を用いて、オーディオプログラムの複数のセグメントの各々に対して短期対話バランスを受け取るステップであって、短期対話バランスが、指定されたセグメントにおける対話対非対話ラウドネス関係を示すステップと、プロセッサ回路を用いて、短期対話バランスプリファレンスを受け取るステップと、プロセッサ回路を用いて、対話信号及び非対話信号のうちの少なくとも１つに適用する短期ゲイン又は減衰を決定するステップであって、該短期ゲイン又は減衰が、セグメントのうちの指定されたセグメントに対して受け取った短期ラウドネスバランスと短期対話ラウドネスプリファレンスとの間の差に従って決定されるステップと、を含む。

態様１２は、態様１１の主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、（１）決定された長期ゲイン又は減衰を対話信号及び非対話信号のうちの少なくとも１つに適用するステップ、及び（２）決定された短期ゲイン又は減衰を対話信号及び非対話信号のうちの少なくとも１つに適用するステップによって、ゲイン調整された対話信号及び／又はゲイン調整された非対話信号を提供するステップを含む。態様１２は更に、ゲイン調整された対話信号及び／又はゲイン調整された非対話信号を含むオーディオ出力信号をレンダリングするステップを含むことができる。

態様１３は、態様１から態様１２のうちの１つ又は何らかの組み合わせの主題を含むことができ、又は任意選択的に組み合わせることができ、例えば、デコーダ装置を含むオーディオ信号処理システムを含むか又は使用することができるなど、主題（装置、方法、行為を実行するための手段、又は機械によって実行されたときに機械に行為を実行させることができる命令を含む機械可読媒体など）を含むか又は使用することができる。デコーダ装置は、とりわけ、対話信号、非対話信号、及び対話信号及び／又は非対話信号に対応するメタデータを受け取るように構成された第１データ入力と、対話バランスプリファレンスを受け取るように構成された第２データ入力と、オーディオ信号出力と、を含むことができる。デコーダ装置は、とりわけ、対話信号及び／又は非対話信号に対応するメタデータを用いて、対話信号及び非対話信号を含むオーディオプログラムに対して、オーディオプログラムの対話対非対話ラウドネス関係を示す長期対話バランスを識別し、オーディオプログラムに対する識別された長期対話バランスと受け取った対話バランスプリファレンスとの間の差に基づいて、オーディオプログラムの対話信号及び非対話信号のうちの１つに適用する長期ゲイン又は減衰を決定するように構成されたプロセッサ回路を含むことができる。１つの実施例において、プロセッサ回路は更に、決定された長期ゲインに従って処理された対話信号及び非対話信号の一方の組み合わせ及び対話信号及び非対話信号の他方の組み合わせを含むオーディオプログラム信号をオーディオ信号出力にて提供するよう構成することができる。

態様１４は、態様１３の主題を含むか又は使用することができ、又は任意選択的に組み合わせることがき、任意選択的に、対話信号及び／又は非対話信号に対応するオーディオプログラムタイプ指標を受け取るように構成された第３入力を有するデコーダ装置を含み、プロセッサ回路は、オーディオプログラムタイプ指標及びオーディオプログラムに対する識別された長期対話バランスと受け取った対話バランスプリファレンスとの間の差に基づいて長期ゲイン又は減衰を決定するように構成される。

態様１５は、態様１３又は態様１４のうちの１つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、対話信号及び非対話信号に対応するメタデータを受け取るように構成された第１データ入力を含むか又は使用する。態様１５において、プロセッサ回路は、対話信号及び非対話信号に対応する受け取ったメタデータに基づいて、対話信号及び非対話信号のそれぞれの長期ラウドネス特性を識別するように構成することができ、このプロセッサ回路は、対話信号及び非対話信号の長期ラウドネス特性の間の関係に基づいてオーディオプログラムの長期対話バランスを識別するように構成することができる。

態様１６は、態様１３から態様１５のうちの１つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、ユーザ指定の短期対話バランスプリファレンス設定に従って対話信号を処理するよう更に構成されたプロセッサ回路を含むか又は使用する。

態様１７は、態様１から態様１６のうちの１つ又は何らかの組み合わせの主題を含むことができるか、又は任意選択的に組み合わせることができ、例えば、オーディオプログラムの対話オーディオ信号及び非対話オーディオ信号間のバランスを調整するためのオーディオ信号処理システムを含むか又は使用することができるなど、主題（装置、方法、行為を実行するための手段、又は機械によって実行されたときに機械に行為を実行させることができる命令を含む機械可読媒体など）を含むか又は使用する。態様１７のシステムは、とりわけ、オーディオプログラムの対話部分のラウドネス特性を表す、対話オーディオ信号に対する長期ラウドネスメトリックを識別し、オーディオプログラムの非対話部分のラウドネス特性を表す、非対話オーディオ信号に対する長期ラウドネスメトリックを識別するように構成されたプロセッサ回路を含むことができる。対話オーディオ信号に対する長期ラウドネスメトリックと非対話オーディオ信号に対する長期ラウドネスメトリックとの間のラウドネス関係が、指定された閾値量より大きく所望のラウドネス関係と異なるときに、プロセッサ回路は、対話オーディオ信号と非対話オーディオ信号のうちの少なくとも一方のゲイン調整された形態を含むオーディオプログラム信号を提供することができ、指定された閾値の差の量は、受け取ったオーディオプログラムレベルの対話ラウドネスプリファレンスを用いて決定される。

態様１８は、態様１７の主題を含むか又は使用することができ、又は任意選択的に態様１７の主題と組み合わせることができ、任意選択的に、オーディオプログラムに対応するプログラムタイプの受け取った指標に基づいて、対話オーディオ信号及び／又は非対話オーディオ信号に適用するゲインの量を決定するように構成されたプロセッサ回路を含むか又は使用することができる。

態様１９は、態様１７又は態様１８のうちの１つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、ユーザプリファレンスに基づいて、対話オーディオ信号及び／又は非対話オーディオ信号に適用するゲインの量を決定するように構成されたプロセッサ回路を含むか又は使用することができる。

態様２０は、態様１７から態様１９のうちの１つ又は何らかの組み合わせの主題を含むか又は使用することができ、又は任意選択的に組み合わせることができ、任意選択的に、再生環境又は再生デバイスの受け取った指標に基づいて、対話オーディオ信号及び／又は非対話オーディオ信号に適用するゲインの量を決定するように構成されたプロセッサ回路を含むか又は使用することができる。

これらの非限定的な態様の各々は、それ自体に基づくことができ、又は本明細書で提供される他の態様又は実施例のうちの１つ又は２以上との様々な置換又は結合で組み合わせることができる。

本明細書で検討される概念及び実施例の多くの変形形態が、当業者には明らかであろう。例えば、実施形態によっては、本明細書で説明した何らかの方法、プロセス、又はアルゴリズムの特定の動作、事象、又は機能を異なる順序で実行することができ、追加、統合、又は省略することができる（従って、ここで説明する全ての動作又は事象が、種々の方法、プロセス又はアルゴリズムの実施に必要というわけではない）。更に、一部の実施形態において、行為又は事象は、マルチスレッド処理、割り込み処理、又はマルチプロセッサ又はプロセッサコアなどを介して同時に、又は順次ではなく他の並行アーキテクチャで実行することができる。加えて異なるタスク又はプロセスを、共に機能することができる異なる機械及びコンピューティングシステムによって実行することができる。

本明細書で開示した実施形態に関連して説明する様々な例示的な論理ブロック、モジュール、方法、及びアルゴリズム処理及び手順は、電子ハードウェア、コンピュータソフトウェア、又はこの両方の組み合わせとして実施することができる。ハードウェア及びソフトウェアのこの互換性について例証するために、様々な構成要素、ブロック、モジュール、及び処理動作について、場合によっては、これらの機能性に関して一般的に説明した。このような機能性をハードウェア又はソフトウェアとして実施するか否かは、特定の用途及びシステム全体に課された設計上の制約による。従って、記載した機能性は、特定の用途に関して異なる方法で実施することができるが、このような実施の決定が、本明細書の範囲からの逸脱を生じさせると解釈すべきではない。

本明細書で開示した実施形態に関連して説明する様々な例示的な論理ブロック及びモジュールは、汎用プロセッサ回路又は電気回路、処理デバイス、１又は２以上の処理デバイスを有するコンピュータデバイス、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）、又は他のプログラム可能論理デバイス、離散ゲート又はトランジスタ論理、離散的ハードウェア構成要素、又は本明細書で記載される機能を実行するよう設計されたこれらの何れかの組み合わせのような、マシンによって実施し又は実行することができる。汎用プロセッサ回路又は処理デバイスは、マイクロプロセッサを含むことができる。加えて又は代替として、プロセッサ回路は、コントローラ、マイクロコントローラ、又は状態マシン、これらの組み合わせ、又は同様のものを含むことができる。プロセッサ回路はまた、ＤＳＰ及びマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアに関連した１又は２以上のマイクロプロセッサ、又は本明細書で説明した信号処理タスクを実行するのに好適な何らかの他のこのような構成などのコンピュータデバイスの組み合わせとして実施することもできる。

本明細書で記載される対話制御及び拡張システム及び方法の実施形態は、多くのタイプの汎用又は専用コンピューティングシステム環境又は構成内で動作可能である。一般に、コンピューティング環境は、限定されるものではないが、１又は２以上のマイクロプロセッサ、メインフレームコンピュータ、デジタルシグナルプロセッサ、携帯用コンピュータデバイス、パーソナルオーガナイザ、デバイスコントローラ、電気製品内部の計算エンジン、携帯電話、デスクトップコンピュータ、モバイルコンピュータ、タブレットコンピュータ、スマートフォン、及び埋め込みコンピュータを備えた電気製品に基づくコンピュータシステムを含む、あらゆるタイプのコンピュータシステムを含むことができる。

このようなコンピュータデバイス、限定されるものではないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドコンピュータデバイス、ラップトップ又はモバイルコンピュータ、携帯電話及びＰＤＡのような通信デバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、オーディオ又はビデオメディアプレーヤ、及びその他を含む、少なくとも何らかの最低限の計算能力を有するデバイスに通常、見出すことができる。一部の実施形態において、コンピュータデバイスは、１又は２以上のプロセッサを含むことになる。各プロセッサは、デジタルシグナルプロセッサ（ＤＳＰ）、超長命令語（ＶＬＩＷ）、又は他のマイクロコントローラのような特殊なマイクロプロセッサとすることができ、或いは、マルチコアＣＰＵ内の特殊なグラフィックス処理ユニット（ＧＰＵ）ベースのコアを含む、１又は２以上のプロセッシングコアを有する従来型の中央処理ユニット（ＣＰＵ）とすることができる。

本明細書で開示される実施形態に関連した記載される方法、プロセス、又はアルゴリズムの処理動作は、ハードウェアで直接的に、プロセッサによって実行されるソフトウェアモジュールで、又はこの２つの何れかの組み合わせで具現化することができる。ソフトウェアモジュールは、コンピュータデバイスによってアクセスすることができる大容量有形非一時的機械可読媒体に包含することができる。コンピュータ可読媒体は、取り外し可能、取り外し不可、又はこれらの一部の組み合わせなど、揮発性及び／又は不揮発性媒体を含むことができる。コンピュータ可読媒体は、コンピュータ可読又はコンピュータ実行可能命令、データ構造、プログラムモジュール、又は他のデータのような情報を格納するために用いることができる。例示的且つ非限定的に、コンピュータ可読媒体は、コンピュータ記憶媒体及び通信媒体を含むことができる。

コンピュータ記憶媒体は、限定ではないが、Ｂｌｕｒａｙディスク（ＢＤ）、デジタル多用途ディスク（ＤＶＤ）、コンパクトディスク（ＣＤ）、フロッピーディスク、テープドライブ、ハードドライブ、光ドライブ、固体メモリデバイス、ＲＡＭメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、フラッシュメモリ、又は他のメモリ技術、磁気カセット、磁気テープ、磁気ディスクストレージ、又は他の磁気ストレージデバイス、又は所望の情報を格納するために使用可能で１又は２以上のコンピューティングデバイスによってアクセス可能な何れかの他のデバイスのような、コンピュータ又はマシン可読媒体又はストレージデバイスを含む。

ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、取り外し可能ディスク、ＣＤ－ＲＯＭ、又は当該技術で公知の非一時的コンピュータ可読記憶媒体、メディア、又は物理コンピュータストレージの何れかの他の形式内に常駐することができる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み出して、そこに情報を書き込むことができるように、プロセッサに結合することができる。代替形態では、記憶媒体は、プロセッサに一体化することができる。プロセッサ及び記憶媒体は、特定用途向け集積回路（ＡＳＩＣ）内に常駐することができる。ＡＳＩＣは、ユーザ端末内に常駐することができる。代替的に、プロセッサ及び記憶媒体は、ユーザ端末内の個別構成要素として常駐することができる。

本明細書で使用する場合、語句「非一時的」は、その通常の意味に加えて、「永続的又は長寿命の」を意味する。語句「非一時的コンピュータ可読媒体」は、その通常の意味に加えて、あらゆるコンピュータ可読媒体を含み、唯一の例外は一時的な伝搬信号である。これは、例示的且つ非限定的に、レジスタメモリ、プロセッサキャッシュ、及びランダムアクセスメモリ（ＲＡＭ）のような非一時的コンピュータ可読媒体を含む。

コンピュータ可読又はコンピュータ実行可能命令、データ構造、プログラムモジュール、及びその他のような情報の保持は、１又は２以上の変調データ信号、電磁波（搬送波のような）、又は他の伝送機構又は通信プロトコルをエンコードするための様々な通信媒体を用いることによって実現することができ、何れかの有線又は無線情報配信機構を含む。一般に、これらの通信媒体は、信号内の情報又は命令をエンコードするような方法で設定又は変更される自己の特性の１又は２以上を有する信号を参照する。例えば、通信媒体は、１又は２以上の変調データ信号を搬送する有線ネットワーク又はダイレクト有線接続のような有線媒体、及び音響、無線周波数（ＲＦ）、赤外線、レーザのような無線媒体、及び１又は２以上の変調データ信号又は電磁波を送信、受信、又は送受信するための他の無線媒体を含む。上記の何れかの組み合わせも、通信媒体の範囲内に含まれるべきである。

また、本明細書で記載される対話制御及び拡張システム及び方法の様々な実施形態の一部又は全てを具現化するソフトウェア、プログラム、コンピュータプログラム製品のうちの１又は何れかの組み合わせ又はこの一部分は、コンピュータ実行可能命令又は他のデータ構造の形式でコンピュータ又は機械可読媒体又はストレージデバイス及び通信媒体の何れかの所望の組み合わせに格納、受信、送信、又はそこから読み出すことができる。

本明細書で記載される対話制御及び拡張システム及び方法の実施形態は、コンピューティングデバイスによって実行されるプログラムモジュールのようなコンピュータ実行可能命令という一般的状況で更に説明することができる。一般に、プログラムモジュールは、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、及びその他を含み、これらが、特定のタスクを実行し、特定の抽象データタイプを実施する。また、本明細書で説明した実施形態は、１又は２以上の通信ネットワークを介してリンクされた１又は２以上のリモート処理デバイスによって、又は１又は２以上のデバイスのクラウド内でタスクが実行される、分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、メディアストレージデバイスを含む、ローカル及びリモートの両方のコンピュータ記憶媒体内に、プログラムモジュールを配置することができる。更に、上記の命令は、プロセッサを含むこともあれば含まないこともある、ハードウェア論理回路として部分的に又は全体的に実施することができる。

本明細書において、用語「ａ」又は「ａｎ」は、特許文書で共通するように、「少なくとも１つ」又は「１つ又は２以上」の他の何れかの事例又は使用に関係なく１又は１よりも多いものを含むのに使用される。本明細書において、用語「ｏｒ（又は）」は、非排他的であることを指すのに使用され、すなわち、別途指示がない限り、「Ａ又はＢ」が「ＢではなくＡ」、「ＡではなくＢ」、及び「Ａ及びＢ」を含むものとする。本明細書において、「ｉｎｃｌｕｄｉｎｇ」及び「ｉｎｗｈｉｃｈ」は、それぞれの用語「ｃｏｍｐｒｉｓｉｎｇ」及び「ｗｈｅｒｅｉｎ」の一般的意味の等価物として使用される。

本明細書で使用する条件語、とりわけ、「できる（ｃａｎ）」「してよい（ｍｉｇｈｔ）」「できる（ｍａｙ）」「例えば（ｅ．ｇ．）」及び同様のものは、他に明確に言及されていない限り、又は用いられる文脈でそれ以外に理解されない限り、一般に、特定の実施形態が特定の特徴、要素、及び／又は状態を含むが、他の実施形態は含まないことを伝えるものである。従って、このような条件語は、特徴、要素、及び／又は状態が、１又は２以上の実施形態にとって必ず必須であること、或いは、作成者の入力又は指示があってもなくても、これらの特徴、要素、及び／又は状態が含まれるか又は何れかの特定の実施形態で実行されるべきかどうかを決めるためのロジックを、１又は２以上の実施形態が必ず含むことを一般に示唆するものではない。

上記の詳細な説明は、種々の実施形態に適用される場合に新規の特徴を示し、説明し、及び指摘するが、本開示の精神から逸脱することなく、例証されたデバイス又はアルゴリズムの形式及び詳細において、様々な省略、置換、及び変更を加えることができる点を理解されたい。理解できるように、一部の特徴は、他の特徴とは別に使用すること又は実施することができるので、本明細書で記載される本発明の特定の実施形態は、本明細書に示した特徴及び利点の全てを提供しない形態の範囲内で具現化することができる。

本主題は、構造的な特徴又は方法又は行為に固有の言語で記述しているが、添付の請求項に定義する主題は必ずしも上述した特定の特徴又は行為に制限されないことを理解されたい。逆に上述した特定の特徴及び行為は、請求項を実施する例示的な形態として開示するものである。

１００対話制御及び拡張システム
１１０１又は２以上のオーディオ信号
１１１符号化されたオーディオ信号
１１２１又は２以上の出力信号
１１３メタデータ
１１４プログラムジャンル
１２０エンコーダ
１２２マルチプレクサ
１３０復号器
１３１入力
１３２デマルチプレクサ
１３３第２入力
１３５プロセッサ回路
１３６対話バランス設定
１３９出力
１４０データベース
１５０再生デバイス

Claims

オーディオプログラムにおける対話信号と非対話信号の関係を調整する方法であって、前記方法は、
プロセッサ回路を用いて、前記オーディオプログラムの対話対非対話ラウドネス関係を示す前記オーディオプログラムに対する長期対話バランスを受け取るステップと、
前記プロセッサ回路を用いて、長期対話バランスプリファレンスを受け取るステップと、
前記プロセッサ回路を用いて、前記オーディオプログラムの前記対話信号及び前記非対話信号のうちの少なくとも１つに適用する長期ゲイン又は減衰を決定するステップであって、前記長期ゲイン又は減衰は、前記オーディオプログラムに対する受け取った前記長期対話バランスと受け取った前記長期対話バランスプリファレンスとの間の差に従って決定される、ステップと、
前記プロセッサ回路を用いて、前記オーディオプログラムの複数のセグメントの各々に対して短期対話バランスを受け取るステップであって、前記各短期対話バランスは、指定されたセグメントにおける対話対非対話ラウドネス関係を示す、ステップと、
前記プロセッサ回路を用いて、短期対話バランスプリファレンスを受け取るステップと、
前記プロセッサ回路を用いて、前記対話信号及び前記非対話信号のうちの少なくとも１つに適用する短期ゲイン又は減衰を決定するステップであって、前記短期ゲイン又は減衰は、前記セグメントのうちの指定されたセグメントに対して受け取った短期ラウドネスバランスと前記短期対話ラウドネスプリファレンスとの間の差に従って決定される、ステップと、
（１）前記決定された長期ゲイン又は減衰を前記対話信号及び前記非対話信号のうちの少なくとも１つに適用するステップ、及び（２）前記決定された短期ゲイン又は減衰を前記対話信号及び前記非対話信号のうちの少なくとも１つに適用するステップによって、ゲイン調整された対話信号及び／又はゲイン調整された非対話信号を提供するステップと、
前記ゲイン調整された対話信号及び／又は前記ゲイン調整された非対話信号を含むオーディオ出力信号をレンダリングするステップと、
を含む、方法。
前記オーディオプログラムの前記対話信号に適用する前記長期ゲインを決定するステップと、
前記プロセッサ回路を用いて、前記決定された長期ゲインを前記対話信号に適用してゲイン調整された対話信号を生成するステップと、
前記ゲイン調整された対話信号と前記非対話信号との組み合わせを含むオーディオ出力信号をレンダリングするステップと、
を更に含む、請求項１に記載の方法。
前記オーディオプログラムの前記対話信号に適用する前記長期減衰を決定するステップと、
前記プロセッサ回路を用いて前記決定された長期減衰を前記対話信号に適用して調整された対話信号を生成するステップと、
前記調整された対話信号と前記非対話信号との組み合わせを含むオーディオ出力信号をレンダリングするステップと、
を更に含む、請求項１に記載の方法。
前記対話信号及び前記非対話信号に適用するそれぞれの異なる長期ゲイン又は減衰量を決定するステップを更に含む、請求項１に記載の方法。
前記プロセッサ回路を用いて、前記オーディオプログラムの前記対話信号に対応する長期対話ラウドネスメトリックを受け取るステップと、
前記オーディオプログラムの前記非対話信号に対応する長期非対話ラウドネスメトリックを受け取るステップと、
前記プロセッサ回路を用いて、前記受け取った対話ラウドネスメトリックと前記非対話ラウドネスメトリックとの間の差に基づいて前記長期対話バランスを提供するステップと、
を更に含む、請求項１に記載の方法。
前記対話信号を前記プロセッサ回路にて受け取るステップであって、前記対話信号が、前記オーディオプログラムについての前記対話信号のグローバルラウドネスに関する情報を備えた第１メタデータを含む、ステップと、
前記非対話信号を前記プロセッサ回路にて受け取るステップであって、前記非対話信号が、前記オーディオプログラムについての前記非対話信号のグローバルラウドネスに関する情報を備えた第２メタデータを含む、ステップと、
を更に含み、
前記オーディオプログラムについての前記長期対話バランスを受け取るステップは、前記プロセッサ回路を用いて、前記対話信号のグローバルラウドネス及び前記非対話信号のグローバルラウドネスに基づいて前記長期対話バランスを決定するステップを含む、請求項１に記載の方法。
前記長期ゲイン又は減衰を決定するステップは、前記オーディオプログラムの持続時間の間に対話信号に適用する静的ゲイン又は減衰を決定するステップを含む、請求項１に記載の方法。
前記対話ラウドネスプリファレンスを受け取るステップは、前記オーディオプログラムのジャンルに対応するジャンル固有の対話ラウドネスプリファレンスを受け取るステップを含む、請求項１に記載の方法。
前記対話信号から及び／又は前記非対話信号から回復されたメタデータに基づいて、前記オーディオプログラムのジャンルを決定するステップを更に含む、請求項８に記載の方法。
前記対話ラウドネスプリファレンスを受け取るステップは、前記オーディオプログラムを再生するように構成された再生デバイスに対応する再生デバイス固有の対話ラウドネスプリファレンスを受け取るステップを含む、請求項１に記載の方法。
デコーダ装置を備えたオーディオ信号処理システムであって、
前記デコーダ装置が、
対話信号、非対話信号、及び前記対話信号及び／又は前記非対話信号に対応するメタデータを受け取るように構成された第１データ入力と、
長期対話バランスプリファレンス及び短期対話バランスプリファレンスを受け取るように構成された第２データ入力と、
オーディオ信号出力と、
プロセッサ回路と、
を含み、
前記プロセッサ回路が、
前記対話信号及び／又は前記非対話信号に対応する前記メタデータを用いて、前記対話信号及び前記非対話信号を含むオーディオプログラムに対して、前記オーディオプログラムの対話対非対話ラウドネス関係を示す長期対話バランスを識別し、
前記オーディオプログラムに対する識別された長期対話バランスと前記受け取った長期対話バランスプリファレンスとの間の差に基づいて、前記オーディオプログラムの前記対話信号及び前記非対話信号のうちの１つに適用する長期ゲイン又は減衰を決定し、
各々が指定されたセグメントにおける対話対非対話ラウドネス関係を示す短期対話バランスであって、前記対話信号及び前記非対話信号に対応するメタデータを用いて、前記オーディオプログラムの複数のセグメントの各々に対して短期対話バランスを識別し、
前記セグメントのうちの指定されたセグメントに対して識別された短期ラウドネスバランスと短期対話ラウドネスプリファレンスとの間の差に基づいている短期ゲイン又は減衰であって、前記対話信号及び前記非対話信号のうちの少なくとも１つに適用する前記短期ゲイン又は減衰を決定し、
（１）前記決定された長期ゲイン又は減衰を前記対話信号及び前記非対話信号のうちの少なくとも１つに適用すること、及び（２）前記決定された短期ゲイン又は減衰を前記対話信号及び前記非対話信号のうちの少なくとも１つに適用することによって、ゲイン調整された対話信号及び／又はゲイン調整された非対話信号を提供し、
前記ゲイン調整された対話信号及び／又は前記ゲイン調整された非対話信号を含むオーディオ出力信号をレンダリングする、
ように構成されている、オーディオ信号処理システム。
前記デコーダ装置は、前記対話信号及び／又は前記非対話信号に対応するオーディオプログラムタイプ指標を受け取るように構成された第３入力を含み、
前記プロセッサ回路は、前記オーディオプログラムタイプ指標、及び、前記オーディオプログラムに対する識別された長期対話バランスと前記受け取った対話バランスプリファレンスとの間の差に基づいて、前記長期ゲイン又は減衰を決定するように構成される、請求項１１に記載のオーディオ信号処理システム。
前記第１データ入力は、前記対話信号及び前記非対話信号に対応するメタデータを受け取るように構成され、
前記プロセッサ回路は、前記対話信号及び非対話信号に対応する前記受け取ったメタデータに基づいて、前記対話信号及び非対話信号のそれぞれの長期ラウドネス特性を識別するように構成され、
前記プロセッサ回路は、前記対話信号及び非対話信号の前記長期ラウドネス特性の間の関係に基づいて前記オーディオプログラムに対する長期対話バランスを識別するように構成される、請求項１１に記載のオーディオ信号処理システム。
前記プロセッサ回路は、ユーザ指定の短期対話バランスプリファレンス設定に従って前記対話信号を処理するよう更に構成される、請求項１１に記載のオーディオ信号処理システム。
オーディオプログラムの対話オーディオ信号及び非対話オーディオ信号間のバランスを調整するためのオーディオ信号処理システムであって、前記システムがプロセッサ回路を備えは、該プロセッサ回路が、
前記オーディオプログラムの対話部分のラウドネス特性を表す、前記対話オーディオ信号に対する長期対話ラウドネスメトリックを識別し、
前記オーディオプログラムの非対話部分のラウドネス特性を表す、前記非対話オーディオ信号に対する長期ラウドネスメトリックを識別し、
、
各々が指定されたセグメントにおける対話対非対話ラウドネス関係を示す短期対話バランスであって、前記オーディオプログラムの複数のセグメントの各々に対して前記短期対話バランスを受け取り、
短期対話バランスプリファレンスを受け取り、
前記セグメントのうちの指定されたセグメントに対して受け取った短期ラウドネスバランスと前記短期対話ラウドネスプリファレンスとの間の差に従って決定される短期ゲイン又は減衰であって、前記対話信号及び前記非対話信号のうちの少なくとも１つに適用する前記短期ゲイン又は減衰を決定し、
（１）前記決定された長期ゲイン又は減衰を前記対話信号及び前記非対話信号のうちの少なくとも１つに適用すること、及び（２）前記決定された短期ゲイン又は減衰を前記対話信号及び前記非対話信号のうちの少なくとも１つに適用することによって、ゲイン調整された対話信号及び／又はゲイン調整された非対話信号を提供し、
前記ゲイン調整された対話信号及び／又は前記ゲイン調整された非対話信号を含むオーディオ出力信号をレンダリングする、ように構成されており、オーディオ信号処理システム。
前記プロセッサ回路は、前記オーディオプログラムに対応するプログラムタイプの受け取った指標に基づいて、前記対話オーディオ信号及び／又は前記非対話オーディオ信号に適用するゲインの量を決定するように構成される、請求項１５に記載のオーディオ信号処理システム。
前記プロセッサ回路は、ユーザプリファレンスに基づいて、前記対話オーディオ信号及び／又は前記非対話オーディオ信号に適用するゲインの量を決定するように構成される、請求項１５に記載のオーディオ信号処理システム。
前記プロセッサ回路は、再生環境又は再生デバイスの受け取った指標に基づいて、前記対話オーディオ信号及び／又は前記非対話オーディオ信号に適用するゲインの量を決定するように構成される、請求項１５に記載のオーディオ信号処理システム。