JP2020038375A

JP2020038375A - ダッキング制御のためのメタデータ

Info

Publication number: JP2020038375A
Application number: JP2019189850A
Authority: JP
Inventors: トムリンソンエムホルマン; M Holman Tomlinson; フランクエムバウムガルテ; M Baumgarte Frank; エリックエイアラマンヒェ; A Allamanche Eric
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2014-03-25
Filing date: 2019-10-17
Publication date: 2020-03-12
Anticipated expiration: 2035-02-26
Also published as: US10992276B2; AU2017268582A1; AU2017268582B2; JP6606232B2; US20180006621A1; AU2019201701A1; JP6883636B2; EP3074973B1; AU2015236755A1; US9654076B2; AU2019201701C1; KR101843010B1; KR20160113661A; US10224894B2; JP2018173656A; AU2019201701B2; JP2017509932A; WO2015148046A1; AU2015236755B2; EP3074973A1

Abstract

【課題】ダッキングされないチャネル／チャネルグループ内の音声の明瞭性を改善する音声エンコード装置及び音声デコード装置のセットを含む音声システムを提供する。【解決手段】第１のチャネルグループ及び残りの複数のチャネルグループを有するオーディオ信号をエンコードし、エンコードされたオーディオ信号に関連するメタデータの一部として、第１のチャネルグループに関連するダッキングゲインシーケンスであって、多重チャネルサウンドプログラムコンテンツ片を、第１のチャネル／チャネルグループに関連付けられたダッキング値を含むようにエンコードし、ダッキング値に関連付けられた第１のチャネル／チャネルグループのためになるように、第２のチャネル／チャネルグループがダッキングされるよう、エンコードされた多重チャネルサウンドプログラムコンテンツ片を再生する。【選択図】図４

Description

［関連事項］
本出願は、２０１４年３月２５日に出願された、米国特許仮出願第６１／９７０，２８４号の、先の出願日の利益を主張する。

サウンドプログラムコンテンツ片を表す音声アセット内にダッキング値を追加するためのシステム及び方法が記載される。ダッキング値は特定のチャネル／チャネルグループに関連付けられてもよく、関連付けられたチャネル／チャネルグループを除くサウンドプログラムコンテンツ片内の他の全てのチャネル／チャネルグループをダッキングするために用いられてもよい。他の実施形態もまた記載されている。

音声チャネルは聞き手によって「オン」及び「オフ」に選択的に切り替えられてもよい。例えば、映画又はテレビ番組は、ユーザによって選択されてもよいナレーションチャネルを含んでもよい。ナレーションチャネルは、対応する映像内で起こっている視覚的動作及び活動の音声描写を提供してもよい。したがって、このナレーションチャネルは、視覚障害を持ったユーザにとって有益になり得る。

ナレーションは、視覚障害を持ったユーザが、映像内で起こっている視覚的動作及び活動をより良く理解することを可能にし得るが、このナレーションチャネルを他の音声チャネルにかぶせて直接再生すると、これらのチャネルの全体的な明瞭性を損なう場合がある。例えば、メインのダイアログチャネルは、これらのチャネルが両方とも同時に再生されると、ナレーションチャネルに干渉し得る。

本節で説明された取り組み方は、遂行することができたであろう取り組み方ではあるが、必ずしも以前に考案され又は遂行されたことのある取り組み方とは限らない。したがって、特に断りのない限り、本筋で説明された取り組み方のいずれも、ただ単に本節に含まれているからというだけで、先行技術であるとみなすべきではない。

本明細書においては、音声エンコード装置及び音声デコード装置が記載される。音声エンコード装置は、サウンドプログラムコンテンツ片に対応する音声チャネルのセットを調べ、チャネル又はチャネルグループのうちの１つに関連付けるべきダッキング値のセットを作成してもよい。例えば、音声チャネルは、視覚障害を持ったユーザが、映画又はテレビ放送内で起こっている動作を理解することを支援するナレーションチャネルを含んでもよい。例えば、ナレーションチャネルは、映像内の人物の移動、又は視覚障害を持ったユーザには明らかでないであろう他の動作の音声描写を含んでもよい。ダッキング値は、エンコードされたサウンドプログラムコンテンツ片を表す音声アセット内のこのナレーションチャネルに関連付けられてもよい。

音声アセットは、ラウドスピーカのセットを通した再生のために１つ以上の音声デコード装置へ転送されてもよい。一実施形態では、ダッキング値は、再生中に、サウンドプログラムコンテンツ片内のナレーションチャネルとは別の他の全てのチャネルのダイナミックレンジを縮小してもよい。その結果、ナレーションチャネルは、再生されている他のチャネルのレンジの縮小を通じて強調されてもよい。一実施形態では、ダッキングが、ナレーションチャネル内で活性が検出される期間中に実行され、不活性の期間中に実行されないように（例えば、発声／発語活性）、ダッキング値は時間とともに変化してもよい。

いくつかの実施形態では、ダッキングは音声チャネル／チャネルグループに別個に適用されてもよい。例えば、ダイアログチャネルは音楽／効果チャネルよりも大きくダッキングされてもよい。この可変性のおかげで、ナレーションチャネルの明瞭性にさほどひどく影響を与えないと思われる他のチャネルをダッキングすることを必要とせずに、ナレーションチャネルの明瞭性を改善することが可能になる。

いくつかの実施形態では、ダッキング値はまた、ダッキング値に関連付けられていない１つ以上のチャネルを、音場内の異なる位置において発音させてもよい。例えば、ダッキング値は、再生中にチャネルをサラウンドラウドスピーカによって発音させてもよい。チャネルのダイナミックレンジをダッキング及び縮小することに加えて、発音位置のこの変更は別のチャネル（例えば、ナレーションチャネル）の明瞭性を改善し得る。

上述されたように、ダッキング値は、エンコードされたサウンドプログラムコンテンツ片内に含まれ、特定のチャネル／チャネルグループに関連付けられてもよい。エンコードされたサウンドプログラムコンテンツ片の再生中に、ダッキング値は、ダッキング値に関連付けられていない他の全てのチャネル／チャネルグループに適用されてもよい。このダッキングは、ダッキングされないチャネル／チャネルグループ内の音声の明瞭性を改善し得る。例えば、上述されたように、ナレーションチャネル／チャネルグループは、再生中における他のチャネル／チャネルグループの選択的ダッキングの利用を通じて、聞き手によりはっきりと聞こえるようになり得る。

上記概要には、本発明の全ての態様の網羅的なリストを挙げてはいない。本発明には、前述でまとめた種々の態様の全ての好適な組み合わせからの実施可能な全てのシステム及び方法が含まれ、並びに以下の詳細な説明で開示されるもの、特に本出願とともに提出された請求項において指摘されるものが含まれると考えられる。このような組み合わせには、上記概要では具体的には説明されていない特定の優位性がある。

本発明の実施形態を、限定としてではなく例として、添付図面の図に示し、図面中、同様の参照符号は同様の要素を示す。本開示での、本発明の「ａｎ」又は「１つの」実施形態への言及は、必ずしも同じ実施形態に対するものではなく、それらは、少なくとも１つを意味していることに留意されたい。

一実施形態に係る、音声エンコード装置、及び音声デコード装置のセットを含む、音声システムを示す。一実施形態に係る音声エンコード装置の構成要素図を示す。一実施形態に係る音声デコード装置の構成要素図を示す。（１）多重チャネルサウンドプログラムコンテンツ片を、第１のチャネル／チャネルグループに関連付けられたダッキング値を含むようにエンコードし、（２）ダッキング値に関連付けられた第１のチャネル／チャネルグループのためになるように、第２のチャネル／チャネルグループがダッキングされるよう、エンコードされた多重チャネルサウンドプログラムコンテンツ片を再生するための、一実施形態に係る方法を示す。

いくつかの実施形態について、添付の図面を参照しながら説明する。詳細について多く説明されるが、当然のことながら、本発明のいくつかの実施形態は、これらの詳細なしに実施してよい。他の例では、本説明の理解を不明瞭にすることがないように、周知の回路、構造、及び技術について、詳細には示されていない。

図１は、一実施形態に係る音声システム１００を示す。音声システム１００は、音声エンコード装置１０１、及び音声デコード装置のセット１０３₁〜１０３_Nを含んでもよい。音声エンコード装置１０１及び音声デコード装置１０３₁〜１０３_Nは、分散ネットワーク１０５を通じて通信可能に結合されてもよい。具体的には、音声エンコード装置１０１は、１つ以上のサウンドプログラムコンテンツ片をエンコードし、エンコードされたデータを、分散ネットワーク１０５を通じて音声デコード装置１０３₁〜１０３_Nのうちの１つ以上へ転送してもよい。

一実施形態では、音声エンコード装置１０１は多重チャネルサウンドプログラムコンテンツ片をエンコードしてもよい。以下において更に詳細に説明されるように、音声エンコード装置１０１によって作成された、エンコードされたデータは、サウンドプログラムコンテンツ片を構成する別個のチャネル又はチャネルグループのためのメタデータを含んでもよい。具体的には、特定のチャネル／チャネルグループのためのメタデータは、他の全てのチャネル／チャネルグループが、指定された継続時間／期間の間、「ダッキングされる」（即ち、強度／音量を低下させられる）べきであることを指示してもよい。このダッキングは、ダッキングされていないチャネル／チャネルグループ（即ち、ダッキング値に関連付けられたチャネル／チャネルグループ）が、ユーザ／聞き手によりはっきりと聞こえること／理解されることを可能にし得る。

次に、音声システム１００の各要素が例として説明される。他の実施形態では、音声システム１００は、図１に示され、本明細書において説明されているものよりも多くの要素を含んでもよい。

図２は、一実施形態に係る音声エンコード装置１０１の構成要素図を示す。音声エンコード装置１０１は、多重チャネルサウンドプログラムコンテンツ片をエンコードする能力を有する任意のコンピューティングデバイスであってよい。例えば、音声エンコード装置１０１は、ラップトップコンピュータ、デスクトップコンピュータ、コンピュータサーバ、タブレットコンピュータ、ゲームシステム、並びに／又はモバイル機器（例えば、携帯電話若しくはモバイルメディアプレーヤ）であってもよい。次に、図２に示される音声エンコード装置１０１の各要素が説明される。

音声エンコード装置１０１は、メインシステムプロセッサ２０１及びメモリユニット２０３を含んでもよい。プロセッサ２０１及びメモリユニット２０３は、ここでは、音声エンコード装置１０１の様々な機能及び動作を実施するのに必要な操作を行うプログラマブルデータ処理構成要素及びデータ記憶装置の任意の好適な組み合わせを指すために、総称的に使用される。プロセッサ２０１は、特定用途向け集積回路（ＡＳＩＣ）、汎用マイクロプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、デジタル信号コントローラ、又は１組のハードウェア論理構造（例えば、フィルタ、論理演算ユニット、専用ステートマシン）などの専用プロセッサであり得るのに対し、メモリユニット２０３は、マイクロエレクトロニック不揮発性ランダムアクセスメモリを表し得る。

オペレーティングシステムは、音声エンコード装置１０１の種々の機能に固有のアプリケーションプログラムとともにメモリユニット２０３内に記憶されてもよい。これらのプログラムは、音声エンコード装置１０１の種々の機能を実行するために、プロセッサ２０１によって走らされるか、又は実行される。例えば、メモリユニット２０３は、音声エンコード装置１０１の他のハードウェア及びソフトウェア要素と併せて、多重チャネルサウンドプログラムコンテンツ片をエンコードする、エンコーダ２０５を含んでもよい。上述されたように、及び以下において更に詳細に説明されるように、エンコーダ２０５によって作成された、エンコードされたデータは、サウンドプログラムコンテンツ片の別個のチャネル又はチャネルグループのためのメタデータを含んでもよい。メタデータは、音声デコード装置１０３₁〜１０３_Nのうちの１つ以上によって、メタデータに関連付けられていない他のチャネル／チャネルグループに適用されるべきダッキング値を指示してもよい。具体的には、以下において更に詳細に説明されるように、ダッキング値は、ダッキングされないチャネル／チャネルグループのユーザに対する明瞭性を改善するべく他のチャネル／チャネルグループをダッキングするために、音声デコード装置１０３₁〜１０３_Nのうちの１つ以上によって用いられてもよい。

一実施形態では、音声エンコード装置１０１は、１つ以上の接続を通じて他の構成要素と通信するための通信インタフェース２０７を含んでもよい。例えば、通信インタフェース２０７は、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＩＥＥＥ（登録商標）８０２．１１ｘ規格群、ＩＥＥＥ（登録商標）８０２．３、セルラー方式による移動通信用のグローバルシステム（ＧＳＭ（登録商標））規格、セルラー方式による符号分割多元接続（ＣＤＭＡ）規格、及び／又はロングタームエボリューション（ＬＴＥ（登録商標））規格を使用して通信する能力を有してもよい。一実施形態では、通信インタフェース２０７は、分散ネットワーク１０５を通じた映像、音声、及び／又は他のデータ片の送信／受信を促進する。例えば、音声エンコード装置１０１は、通信インタフェース２０７を介して、エンコードされるべき１つ以上のサウンドプログラムコンテンツ片を受信してもよい。以下において更に詳細に説明されるように、サウンドプログラムコンテンツ片は、エンコード／処理され、同じく通信インタフェース２０７を介して再生のために音声デコード装置１０３₁〜１０３_Nのうちの１つ以上へ送信されてもよい。

次に、図３を参照して、音声デコード装置１０３₁が説明される。音声デコード装置１０３₁に関して説明されているが、音声デコード装置１０３₂〜１０３_Nの各々は、同様又は同一の要素を含んでもよい。音声デコード装置１０３₁は、エンコードされたサウンドプログラムコンテンツ片を受信、デコード、及び再生する能力を有する任意のコンピューティングデバイスであってよい。例えば、音声デコード装置１０３₁は、ラップトップコンピュータ、デスクトップコンピュータ、タブレットコンピュータ、セットトップボックス、マルチメディアプレーヤ、ゲームシステム、並びに／又はモバイル機器（例えば、携帯電話若しくはモバイルメディアプレーヤ）であってもよい。以下において更に詳細に説明されるように、音声デコード装置１０３₁は、音声エンコード装置１０１から、エンコードされたサウンドプログラムコンテンツ片を表す音声アセットを受信してもよい。音声デコード装置１０３₁は、特定のチャネル／チャネルグループのためのエンコードされたサウンドプログラムコンテンツ片内のメタデータを読み出してもよい／抽出してもよい。メタデータは、他のチャネル／チャネルグループに適用されるべきダッキング値を含んでもよい。その結果、上述されたように、ダッキング値に関連付けられていないこれらのチャネル／チャネルグループは、ダッキングされないチャネル／チャネルグループの明瞭性を改善するべく、ダッキング値を用いてダッキングされてもよい。

音声デコード装置１０３₁は、メインシステムプロセッサ３０１及びメモリユニット３０３を含んでもよい。プロセッサ２０１及びメモリユニット２０３と同様に、プロセッサ３０１及びメモリユニット３０３は、ここでは、音声デコード装置１０３₁の様々な機能及び動作を実施するのに必要な操作を行うプログラマブルデータ処理構成要素及びデータ記憶装置の任意の好適な組み合わせを指すために、総称的に使用される。プロセッサ３０１は、ＡＳＩＣなどの専用プロセッサ、汎用マイクロプロセッサ、ＦＰＧＡ、デジタル信号コントローラ、又は１組のハードウェア論理構造（例えば、フィルタ、算術論理演算装置、専用ステートマシン）であってもよいのに対し、メモリユニット３０３は、マイクロエレクトロニック不揮発性ランダムアクセスメモリを指してもよい。

オペレーティングシステムは、音声デコード装置１０３₁の種々の機能に固有のアプリケーションプログラムとともにメモリユニット３０３内に記憶されてもよい。これらのプログラムは、音声デコード装置１０３₁の種々の機能を実行するために、プロセッサ３０１によって走らされるか、又は実行される。例えば、メモリユニット３０３はデコーダ３０５を含んでもよい。デコーダ３０５は、音声デコード装置１０３₁の１つ以上の他の構成要素とともに、エンコードされたサウンドプログラムコンテンツ片を表す音声アセットからダッキング値を抽出／導出してもよい。例えば、ダッキング値は、一次チャネルグループの分析を通じて導出され、音声アセットに挿入されていてもよい。デコーダ３０５は、ダッキング値を抽出するか、又は混合信号内のダッキング値のエンコードされたバージョンにアルゴリズムを適用してダッキング値を作成してもよい。その後、デコーダ３０５は、これらのダッキング値を、エンコードされたサウンドプログラムコンテンツ片の１つ以上のチャネル／チャネルグループに適用してもよい。具体的には、ダッキング値は、エンコードされたサウンドプログラムコンテンツ片内において第１のチャネル／チャネルグループに関連付けられていてもよく、デコーダ３０５は、ダッキング値を、第１のチャネル／チャネルグループと異なる第２のチャネル／チャネルグループに適用してもよい。したがって、デコーダ３０５によって実行されるダッキングは、ダッキング値に関連付けられたチャネル／チャネルグループではなく、音声アセット内のダッキング値に関連付けられていない他のチャネル／チャネルグループに対するものとなる。

一実施形態では、音声デコード装置１０３₁は、エンコードされたサウンドプログラムコンテンツ片に基づいて音響を出力するための１つ以上のラウドスピーカ３０９を含んでもよい。ラウドスピーカ３０９は、フルレンジドライバ、ミッドレンジドライバ、サブウーファ、ウーファ、ツイータの任意の組み合わせであり得る。ラウドスピーカ３０９の各々は、円筒状磁気ギャップ内を軸方向に運動するよう、電線コイル（例えば、ボイスコイル）を拘束する可撓性サスペンションを介して、硬質バスケット、又はフレームに接続された、軽量ダイアフラム、又はコーンを用いてよい。電気音声信号がボイスコイルに印加されると、電流によってボイスコイル内に磁界が生成され、可変電磁石となる。コイルとラウドスピーカ３０９の磁気システムとが双方向作用し、コイル（ひいては取り付けられたコーン）を前後に運動させる機械力を発生させる。これによって、発信源から到来する印加電気音声信号の制御の下で音響を再現する。

一実施形態では、音声デコード装置１０３₁は、１つ以上の接続を通じて他の構成要素と通信するための通信インタフェース３０７を含んでもよい。例えば、通信インタフェース３０７は、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＩＥＥＥ（登録商標）８０２．１１ｘ規格群、ＩＥＥＥ（登録商標）８０２．３、セルラー方式による移動通信用のグローバルシステム（ＧＳＭ（登録商標））規格、セルラー方式による符号分割多元接続（ＣＤＭＡ）規格、及び／又はロングタームエボリューション（ＬＴＥ（登録商標））規格を使用して通信する能力を有してもよい。一実施形態では、通信インタフェース３０７は、映像、音声、及び／又は他のデータ片の送信／受信を促進する。例えば、音声デコード装置１０３₁は、音声エンコード装置１０１から通信インタフェース３０７を介して、エンコードされたサウンドプログラムコンテンツ片を表す音声アセットを受信してもよい。この受信された音声アセットは、以下において更に詳細に説明されるように、音声デコード装置１０３₁によってデコードされ、再生されてもよい。

上述されたように、他の音声デコード装置１０３₂〜１０３_Nは、音声デコード装置１０３₁と同一であってもよい。具体的には、音声デコード装置１０３₂〜１０３_Nは各々、プロセッサ３０１、メモリユニット３０３、デコーダ３０５、通信インタフェース３０７、及び１つ以上のラウドスピーカ３０９を含んでもよい。

上述されたように、音声エンコード装置１０１及び音声デコード装置１０３₁〜１０３_Nは、分散ネットワーク１０５を通じて通信してもよい。分散ネットワーク１０５は、スイッチ、ルータ、コントローラ、アクセスポイントなどを含む、ネットワーク機器の任意の組み合わせで構成されてもよい。分散ネットワークは、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＩＥＥＥ（登録商標）８０２．１１ｘ規格群、ＩＥＥＥ（登録商標）８０２．３、セルラー方式による移動通信用のグローバルシステム（ＧＳＭ（登録商標））規格、セルラー方式による符号分割多元接続（ＣＤＭＡ）規格、及び／又はロングタームエボリューション（ＬＴＥ（登録商標））規格を含む、１つ以上の規格／プロトコルを使用して動作してもよい。

次に、図４を参照して、（１）多重チャネルサウンドプログラムコンテンツ片を、第１のチャネル／チャネルグループに関連付けられたダッキング値を含むようにエンコードし、（２）ダッキング値に関連付けられた第１のチャネル／チャネルグループのためになるように、第２のチャネル／チャネルグループがダッキングされるよう、エンコードされた多重チャネルサウンドプログラムコンテンツ片を再生するための方法４００が説明される。方法４００の動作はチャネル／チャネルグループに関して説明されているが、他の実施形態では、ダッキングは、サウンドプログラムコンテンツ片によって表されたサウンドオブジェクト又はステムに対して同様の仕方で実行されてもよい。

方法４００の各動作は、音声エンコード装置１０１、１つ以上の音声デコード装置１０３₁〜１０３_N、及び／又は別の装置の１つ以上の構成要素によって実行されてもよい。例えば、以下の説明において用いられるように、音声エンコード装置１０１のエンコーダ２０５及び音声デコード装置１０３₁のデコーダ３０５のうちの１つ以上が、方法４００の動作を実行するために用いられてもよい。しかし、他の実施形態では、異なる要素及び装置が、方法４００を実行するために用いられてもよい。エンコーダ２０５及びデコーダ３０５は、メモリユニット２０３及び３０３内にそれぞれ存在するように説明されているが、他の実施形態では、エンコーダ２０５及びデコーダ３０５は、フィルタ、算術論理演算装置、及び専用ステートマシンを含む、１つ以上のハードウェア構造によって実装されてもよい。

方法４００の動作は特定の順序で示され、説明されているが、他の実施形態では、方法４００の動作は異なる順序で実行されてもよい。例えば、動作のうちの１つ以上は、並行して、又は一部重なった期間中に実行されてもよい。次に、以下において、方法４００の各動作が例として説明される。

一実施形態では、方法４００は、動作４０１において、サウンドプログラムコンテンツ片のための１つ以上のチャネルを表す音声信号のセットの受信によって開始してもよい。例えば、音声エンコード装置１０１は、サウンドプログラムコンテンツ片（例えば、楽曲又は、映画のサウンドトラック／音声トラック）に対応するＮ個の音声チャネルを受信してもよい。ここで、Ｎは２以上である。例えば、サウンドプログラムコンテンツ片を表す４つの音声チャネルが動作４０１において受信されてもよい。いくつかの実施形態では、受信されるチャネルのうちの１つは、視覚障害を持ったユーザが、映画又はテレビ放送内で起こっている動作を理解することを支援するナレーションチャネルに対応してもよい。これらの実施形態では、他のチャネルはいずれかの空間チャネル（例えば、左、右、及び中央音声チャネル）に対応し、及び／又はオブジェクト／ステム（例えば、ダイアログ、音楽、効果音声オブジェクト／ステム）を表してもよい。音声信号／チャネルは、動作４０１において、外部システム又は装置（例えば、外部コンピュータ又はストリーミング音声サービス）から通信インタフェース２０７を介して受信されてもよい。他の実施形態では、音声信号／チャネルは、音声エンコード装置１０１上にローカルに記憶され（例えば、メモリユニット２０３内に記憶され）、動作４０１において取得されてもよい。

いくつかの実施形態では、動作４０１において受信される音声信号／チャネルは、映像と同時の、それと同期した再現を意図されてもよい。例えば、上述されたように、動作４０１において受信される音声信号／チャネルは、映画又はテレビ番組のための音声トラックであってもよい。本実施形態では、音声信号／チャネルは、動作４０１において、対応する映像コンテンツとともに、又は映像コンテンツとは別に、送信及び受信されてもよい。

動作４０３において、動作４０１において受信されたチャネルを処理／エンコードし、サウンドプログラムコンテンツ片を表す音声アセットを生成してもよい。一実施形態では、チャネルはグループ化され、これらのグループ内で処理されてもよい。各チャネルグループは、互いに関連付けられた１つ以上の個々のチャネルを含んでもよい。チャネルグループは、エンコードされたサウンドプログラムコンテンツ片のデコード／再生中にチャネルの各々のそれぞれのグループに適用されるべきダイナミックレンジ制御／圧縮（ＤＲＣ：Dynamic Range Control／Compression）ゲイン値を決定するために、まとめて分析されてもよい。ＤＲＣは、音声信号のダイナミックレンジを狭めるか、又は圧縮することによって、大きな音の音量を低下させるか、又は静かな音を増幅する。ＤＲＣゲイン値は、エンコードされたサウンドプログラムコンテンツ片を表す音声アセットにメタデータとして追加されてもよい。

一実施形態では、サウンドプログラムコンテンツ片内の単一のチャネル／チャネルグループのためのダッキング値が決定されてもよい。ダッキング値は、他のチャネル／チャネルグループがダッキングされることになる（例えば、音量を低下させられることになる）量を表す。例えば、動作４０１において受信されるサウンドプログラムコンテンツ片は、４つのオブジェクトを含んでもよい：（１）ナレーションオブジェクト、（２）ダイアログオブジェクト、（３）音楽オブジェクト、及び（４）効果オブジェクト。いくつかの実施形態では、これらの４つのオブジェクトは処理前にチャネルグループに割り当てられてもよい（例えば、ナレーションオブジェクトは第１のチャネルグループに割り当てられてもよく、ダイアログオブジェクトは第２のチャネルグループに割り当てられてもよく、音楽オブジェクト及び効果オブジェクトは両方とも第３のチャネルグループに割り当てられてもよい）。本例では、ダッキング値のセットが生成され、第１のチャネルグループに関連付けられてもよい。第１のチャネルグループに関連付けられるダッキング値のセットは、音声デコード装置１０３₁〜１０３_Nのうちの１つ以上の内部のデコーダ３０５によって他のチャネルグループのうちの１つ以上に適用されるべき減衰量を指示する。

いくつかの実施形態では、チャネル／チャネルグループの元のレイアウト、及びチャネル／チャネルグループの各々の可能なダウンミックスに、個々のダッキングシーケンスが関連付けられてもよい。例えば、チャネル／チャネルグループの元のレイアウト、及びチャネル／チャネルグループの各々の可能なダウンミックスに、識別子が関連付けられてもよい。本例では、各識別子にダッキング値の別個のシーケンスが関連付けられてもよい。その結果、チャネル／チャネルグループに、それらのレイアウト／ダウンミックス構成に基づいて、ダッキング値の適切なシーケンスが適用されてもよい。

一実施形態では、ダッキング値は、これらのチャネルグループのダイナミックレンジを狭めること／圧縮することによって、チャネルグループに適用されてもよい。例えば、ダッキング値は、他のチャネルグループが、再生中に、音声デコード装置１０３₁〜１０３_Nのうちの１つ以上によって１０ｄＢだけダッキングされてもよいことを指示してもよく、ＤＲＣゲイン値と同様に適用されてもよい。このダッキングは、指定された期間にわたって変動してもよい。例えば、第１の期間中に第１のチャネルグループ内における活性（例えば、発声又は発語活性）を検出している間に、動作４０３は、この第１の期間中には、第１のチャネルグループに関連付けられたダッキング値を第１のレベルに設定してもよい。逆に、第２の期間中に第１のチャネルグループ内における活性を検出しなければ、動作４０３は、この第２の期間中には、第１のチャネルグループに関連付けられたダッキング値を第２のレベルに設定してもよい。本例では、第１のレベルは第２のレベルより大きくてもよく、それにより、第２及び第３のチャネルグループは、第１のチャネルグループ内における活性期間中には、不活性期間中よりも大きくダッキングされる。したがって、第１のチャネルグループは、活性期間中に強調されることができ、その一方で、第１のチャネルグループが比較的不活性である期間中には、第２及び第３のチャネルグループが聞こえ、及び変更されないことを許容する。

上述されたように、ダッキング値はＤＲＣゲイン値と同様に適用されてもよい。これらの実施形態では、ダッキング値の適用によって、チャネルグループの減衰を生じさせないか（即ち、第１のチャネルグループ内における不活性期間中）、又はチャネルグループの減衰を生じさせるように、ダッキング値は、０ｄＢ以下であってよい。いくつかの実施形態では、ダッキング値の適用は、チャネル／チャネルグループの「クリッピング」又は「フェーディング」を含む、音声アセット内に指示されている他の効果を無効にしてもよい。

いくつかの実施形態では、ダッキング値は、各チャネルグループに対して異なるレベルのダッキングの適用を指示してもよい。上述された３つの例示的チャネルグループを用いると、動作４０３は、ダイアログに関連付けられた第２のチャネルグループは、再生中に、音楽及び効果に関連付けられた第３のチャネルグループよりも大きくダッキングされる必要があり得ると判定してもよい。ダイアログのこのより大きなダッキングによって、第１のチャネルグループ内のナレーションは、第３のチャネルグループ内の音楽及び効果とともに前景音声内に存在することが可能になり、その一方で、第２のチャネルグループ内のダイアログはちょうどそれに隠れて（即ち、背景内で）再生されることができる。ダイアログは、音楽及び効果と比べてナレーションの明瞭性によりひどく干渉し得るため、第２及び第３のチャネルグループの別個のダッキングを可能にすることで、ユーザに対するナレーションの明瞭性を依然として高めながらも、ダッキング量を最小限に抑える。

上述されたように、ダッキング値は、チャネル／チャネルグループの再生レベルを低下させるために用いられてもよい。いくつかの実施形態では、ダッキング値は、再生のレベルを変えるだけでなく、チャネル／チャネルグループの音場内における発音位置を追加的に、又は別個に変更するように、拡張されてもよい。例えば、上述された３つの例示的チャネルグループを用いると、動作４０３において音声アセットに追加されるダッキング値は、第２のチャネルグループの発音を、音声デコード装置１０３₁〜１０３_Nによって再生中にフロントラウドスピーカ３０９からサラウンドラウドスピーカ３０９へ移動させるべきであることを指示してもよい。このチャネル／チャネルグループの移動は、ある期間中に限定されてもよい。例えば、チャネル／チャネルグループの移動は、第１のチャネルグループ（例えば、ナレーションチャネルグループ）内で活性が検出されたときのみ、生じさせてもよい。音場内におけるチャネル／チャネルグループの発音位置を移動させることによって、目的の特定のチャネル／チャネルグループを他のチャネル／チャネルグループに対して強調させることができる。

一実施形態では、動作４０３において生成され、音声アセット内に挿入されるダッキング値は、単一のチャネル／チャネルグループに関連付けられてもよい。したがって、各音声アセットは、再生中にダッキングされない単一のチャネル／チャネルグループを含み、その一方で、音声アセット内の他の全てのチャネル／チャネルグループは、ダッキング値を用いてダッキングされる。いくつかの実施形態では、動作４０３において生成されるダッキング値は複数のチャネル／チャネルグループに関連付けられてもよいが、これらの複数のチャネル／チャネルグループのうちの１つのみが一度に再生のためにアクティブになることができる。例えば、音声アセットは、異なる言語に対応する複数の異なるナレーションチャネル／チャネルグループを含んでもよい。これらの実施形態では、１つの言語のみが一度に再生のために選択されてもよい（即ち、異なるナレーションチャネル／チャネルグループの中で、アクティブなチャネル／チャネルグループは１つのみ）。したがって、ダッキング値は、ダッキング値に関連付けられていない他の全てのアクティブなチャネル／チャネルグループに適用される（即ち、ダッキング値は、アクティブ及び非アクティブなナレーションチャネル／チャネルグループに適用されない）。

いくつかの実施形態では、音声アセットは、異なるチャネル／チャネルグループに各々関連付けられるダッキング値の複数のセットを含んでもよい。例えば、上述の例を用いると、音声アセットは、１つのチャネル／チャネルグループのみが一度にアクティブになることを許可される、異なる言語に対応する複数の異なるナレーションチャネル／チャネルグループを含んでもよい。本実施形態では、ナレーションチャネル／チャネルグループの各々は、再生中に他の全てのアクティブなチャネル／チャネルグループに適用されることになるダッキング値の異なるセットに関連付けられてもよい。

ダッキング値を含む、エンコードされたサウンドプログラムコンテンツ片の生成に続き、動作４０５は、サウンドプログラムコンテンツ片を表す音声アセットを音声デコード装置１０３₁〜１０３_Nのうちの１つ以上へ転送してもよい。一実施形態では、音声アセットの転送は、音声エンコード装置１０１の通信インタフェース２０７及び音声デコード装置１０３₁〜１０３_Nのうちの１つ以上の通信インタフェース３０７を用いて分散ネットワーク１０５を通じて実行されてもよい。他の実施形態では、音声アセットは、動作４０５において、他の技法を通じて（例えば、ポータブルメモリデバイスを介して）転送されてもよい。

動作４０７において、音声デコード装置１０３₁〜１０３_Nのうちの１つ以上は、音声アセットをデコードし、２つ以上のチャネル／チャネルグループ、チャネル／チャネルグループのうちの１つに関連付けられたダッキング値、及び／又は動作４０３において追加されたその他の音声情報を明らかにしてもよい。上述されたように、ダッキング値は、（１）特定のチャネル／チャネルグループをダッキングするため、及び／又は（２）特定のチャネルを音場内で移動させるために用いられてもよい。

動作４０９において、方法４００は、ダッキング値が音声アセット内に存在していたかどうか、及びダッキング値に関連付けられたチャネル／チャネルグループが再生のために選択されていたかどうか（例えば、ユーザによって再生のために選択されていたかどうか）を判定してもよい。動作４１３において、ダッキング値が音声アセット内に含まれていないか、又はダッキング値に関連付けられたチャネルが再生のために選択されていない場合には、再生のために選択されたチャネル／チャネルグループのために、ダッキングを用いずに駆動信号を生成してもよい。動作４１３において生成されたこれらの駆動信号は、動作４１５において、ラウドスピーカ３０９を通した再生のために用いられてもよい。

逆に、動作４１１において、ダッキング値が音声アセット内に含まれ、関連付けられたチャネル／チャネルグループが再生のために選択されていた場合には、デコードされたダッキング値を、関連付けられていないチャネル／チャネルグループに適用し、動作４１５におけるラウドスピーカ３０９を通した再生のための駆動信号のセットを作成してもよい。具体的には、ダッキング値は、ダッキング値に関連付けられていないチャネル／チャネルグループのダイナミックレンジを縮小してもよい。上述された３つの例示的チャネルグループでは、ダッキング値は第２及び／又は第３のチャネルグループに適用されてもよく、それにより、第１のチャネルグループからの音声はダッキングされないままとなり、その結果、ユーザに対してより明瞭になる。いくつかの実施形態では、動作４１１における適用の前に、スケール係数がダッキング値に適用されてもよい。

動作４０３に関して上述されたように、ダッキング値はまた、ダッキング値に関連付けられていない１つ以上のチャネル／チャネルグループを音場内で移動させてもよい。例えば、動作４１１において、ダッキング値は、上述の例では、第２のチャネルグループをサラウンドラウドスピーカ３０９内へ移動させてもよい。第２及び／又は第３のチャネルグループのダイナミックレンジをダッキングすることに加えて、この移動は第１のチャネルグループの明瞭性を改善し得る。

上述されたように、ダッキング値は、サウンドプログラムコンテンツ片を表す音声アセット内に含まれ、特定のチャネル／チャネルグループに関連付けられてもよい。エンコードされたサウンドプログラムコンテンツ片の再生中に、ダッキング値は、他の全てのチャネル／チャネルグループに適用されてもよい。このダッキングは、ダッキングされないチャネル／チャネルグループ内の音声の明瞭性を改善し得る。例えば、ナレーションチャネル／チャネルグループは、再生中における他のチャネル／チャネルグループの選択的ダッキングの利用を通じて、ユーザによりはっきりと聞こえるようになり得る。

先に説明されたように、本発明の一実施形態は、製造物品であって、その内部において、機械可読媒体（マイクロエレクトロニックメモリなど）が、その上に、上述された動作を実行するように１つ以上のデータ処理構成要素（ここでは総称的に「プロセッサ」と呼ばれる）をプログラムする命令を記憶した、製造物品であってもよい。他の実施形態では、これらの動作の一部は、ハードワイヤード論理（例えば、専用デジタルフィルタブロック及びステートマシン）を含む特定のハードウェア構成要素によって実行されてもよいであろう。それらの動作は、或いは、プログラムされたデータ処理構成要素及び固定されたハードワイヤード回路構成要素の任意の組み合わせにより実行されることがあり得る。

ある実施形態について説明し添付の図面に示してきたが、当然のことながら、このような実施形態は大まかな発明を単に例示するものであってそれを限定するものではなく、また、本発明は図示及び説明した特定の構成及び配置には限定されない。なぜならば、他の種々の変更が当業者に想起され得るからである。したがって、説明は、限定的ではなく例示的であるとみなされるべきである。

Claims

サウンドプログラムコンテンツ片をエンコードするための方法であって、前記サウンドプログラムコンテンツ片の再生中に強調するべき前記サウンドプログラムコンテンツ片内の第１のチャネルグループを決定することと、
前記サウンドプログラムコンテンツ片内の第２のチャネルグループに適用するべきダッキング値のセットを生成することと、
前記ダッキング値を音声アセット内の前記第１のチャネルグループに関連付けることと、を含み、前記音声アセットは、前記第１のチャネルグループ、前記第２のチャネルグループ、及び前記第１のチャネルグループに関連付けられた前記ダッキング値を含む、方法。
前記ダッキング値が、前記第１のチャネルグループ内における高活性の期間中には、前記第１のチャネルグループ内における低活性の間よりも、再生中に前記第２のチャネルグループのダッキングを多く提供するよう、前記ダッキング値は、前記第１のチャネルグループ内における活性に基づいて時間とともに変化する、請求項１に記載の方法。
前記ダッキング値が、前記サウンドプログラムコンテンツ片内の第３のチャネルグループにも適用するべく生成され、前記第２のチャネルグループ及び前記第３のチャネルグループのためにダッキング値の別個のセットが生成される、請求項１に記載の方法。
前記ダッキング値が、再生中に前記第２のチャネルグループのダイナミックレンジを縮小させる、請求項１に記載の方法。
前記ダッキング値が、再生中に前記第２のチャネルグループを音場内で移動させる、請求項１に記載の方法。
前記ダッキング値が、前記第２のチャネルグループに適用されるときに、前記第２のチャネルグループに関連付けられた音響を減衰させる、０デシベル以下のゲイン値である、請求項５に記載の方法。
ダッキング値の前記適切なセットがチャネルグループの対応するセットに関連付けられるように、チャネルの複数のグループ化の各々が、別個の識別子、及びダッキング値の対応するセットに関連付けられる、請求項１に記載の方法。
サウンドプログラムコンテンツ片を再生するための方法であって、
前記サウンドプログラムコンテンツ片を表す音声アセット内の第１のチャネルグループに関連付けられたダッキング値を検出することと、
前記ダッキング値を前記第１のチャネルグループ及び第２のチャネルグループとともに前記音声アセットから抽出することと、
ラウドスピーカのセットを通した前記第１のチャネルグループ及び前記第２のチャネルグループの再生中に前記ダッキング値を前記第２のチャネルグループに適用することと、を含む、方法。
前記ダッキング値の適用が、再生中に前記第２のチャネルグループのダイナミックレンジを縮小する、請求項８に記載の方法。
前記第２のチャネルグループへの前記ダッキング値の適用前に、スケール係数を前記ダッキング値に適用することを更に含む、請求項９に記載の方法。
前記ダッキング値の適用が、再生中に前記第２のチャネルグループを音場内で移動させる、請求項８に記載の方法。
命令を包含する非一時的コンピュータ可読媒体であって、前記命令は、音声装置内のプロセッサによって実行されると、前記音声装置に、
サウンドプログラムコンテンツ片を分析し、前記サウンドプログラムコンテンツ片の再生中に強調するべき前記サウンドプログラムコンテンツ片内の第１のチャネルグループを決定することと、
前記サウンドプログラムコンテンツ片内の第２のチャネルグループに適用するべきダッキング値のセットを生成することであって、前記第１のチャネルグループのためになるように、前記第２のチャネルグループは再生中にダッキングされる、ことと、
前記ダッキング値を音声アセット内の前記第１のチャネルグループに関連付けることであって、前記音声アセットは、前記第１のチャネルグループ、前記第２のチャネルグループ、及び前記第１のチャネルグループに関連付けられた前記ダッキング値を含む、ことと、をさせる、非一時的コンピュータ可読媒体。
前記ダッキング値が、前記第１のチャネルグループ内における高活性の期間中には、前記第１のチャネルグループ内における低活性の間よりも、再生中に前記第２のチャネルグループのダッキングを多く提供するよう、前記ダッキング値は、前記第１のチャネルグループ内における活性に基づいて時間とともに変化する、請求項１２に記載の非一時的コンピュータ可読媒体。
前記ダッキング値が、前記サウンドプログラムコンテンツ片内の第３のチャネルグループにも適用するべく生成され、前記第２のチャネルグループ及び前記第３のチャネルグループのためにダッキング値の別個のセットが生成される、請求項１２に記載の非一時的コンピュータ可読媒体。
前記ダッキング値が、再生中に前記第２のチャネルグループのダイナミックレンジを縮小させる、請求項１２に記載の非一時的コンピュータ可読媒体。
前記ダッキング値が、再生中に前記第２のチャネルグループを音場内で移動させる、請求項１２に記載の非一時的コンピュータ可読媒体。
前記ダッキング値が、前記第２のチャネルグループに適用されるときに、前記第２のチャネルグループに関連付けられた音響を減衰させる、０デシベル以下のゲイン値である、請求項１６に記載の非一時的コンピュータ可読媒体。
サウンドプログラムコンテンツ片を再生するための音声装置であって、前記音声装置は、
ハードウェアプロセッサと、
前記ハードウェアプロセッサによって実行される命令を記憶するメモリユニットと、を含み、前記命令は、前記音声装置に、
サウンドプログラムコンテンツ片を表す音声アセット内の第１のチャネルグループに関連付けられたダッキング値を検出することと、
前記ダッキング値を前記第１のチャネルグループ及び第２のチャネルグループとともに前記音声アセットから抽出することと、
ラウドスピーカのセットを通した前記第１のチャネルグループ及び前記第２のチャネルグループの再生中に前記ダッキング値を前記第２のチャネルグループに適用することと、
をさせる、音声装置。
前記ダッキング値の適用が、再生中に前記第２のチャネルグループのダイナミックレンジを縮小する、請求項１８に記載の音声装置。
前記メモリユニットが更なる命令を含み、前記更なる命令は、前記ハードウェアプロセッサによって実行されると、前記音声装置に、
前記第２のチャネルグループへの前記ダッキング値の適用前に、スケール係数を前記ダッキング値に適用させる、請求項１９に記載の音声装置。
前記ダッキング値の適用が、再生中に前記第２のチャネルグループを音場内で移動させる、請求項１８に記載の音声装置。