JP2018116299A

JP2018116299A - 送信装置、送信方法、受信装置および受信方法

Info

Publication number: JP2018116299A
Application number: JP2018047395A
Authority: JP
Inventors: 塚越　郁夫; Ikuo Tsukagoshi; 郁夫塚越; 徹知念; Toru Chinen
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-06-17
Filing date: 2018-03-15
Publication date: 2018-07-26
Anticipated expiration: 2036-06-13
Also published as: US20170162206A1; KR101804738B1; EP3313103B1; US11170792B2; KR20170012569A; MX2017001877A; KR102465286B1; KR20180009338A; JP2021152677A; KR20240093802A; BR112017002758B1; BR112017002758A2; US10553221B2; JP6308311B2; JP2022191490A; WO2016204125A1; EP3731542A1; JP7205571B2; CN106664503A; KR102668642B1

Abstract

【課題】受信側でオブジェクトコンテントの音圧調整を良好に行い得るようにする。【解決手段】所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを生成し、このオーディオストリームを含む所定フォーマットのコンテナを送信する。オーディオストリームのレイヤおよび/またはコンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を挿入する。受信側では、この情報に基づいて、許容範囲内で各オブジェクトコンテントの音圧の増減処理をする。【選択図】図１０

Description

本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを送信する送信装置等に関する。

従来、立体（３Ｄ）音響技術として、符号化サンプルデータをメタデータに基づいて任意の位置に存在するスピーカにマッピングさせてレンダリングする技術が提案されている（例えば、特許文献１参照）。

特表２０１４−５２０４９１号公報

５．１チャネル、７．１チャネルなどのチャネル符号化データと共に、符号化サンプルデータおよびメタデータからなる種々のタイプのオブジェクトコンテントの符号化データを送信し、受信側において臨場感を高めた音響再生を可能とすることが考えられる。例えば、ダイアログ・ランゲージなどのオブジェクトコンテントは、背景音や視聴環境によっては聞き取り難い場合がある。

本技術の目的は、受信側でオブジェクトコンテントの音圧調整を良好に行い得るようにすることにある。

本技術の概念は、
所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを生成するオーディオエンコード部と、
上記オーディオストリームを含む所定フォーマットのコンテナを送信する送信部と、
上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を挿入する情報挿入部を備える
送信装置にある。

本技術において、オーディオエンコード部により、所定数のオブジェクトコンテントの符号化データを持つオーディオストリームが生成される。情報挿入部により、オーディオストリームのレイヤおよび/またはコンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報が挿入される。

例えば、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報は、音圧の上限値および下限値の情報である。また、例えば、オーディオストリームの符号化方式は、ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏであり、情報挿入部は、オーディオフレームに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を持つエクステンションエレメントを含める、ようにされてもよい。

このように本技術においては、オーディオストリームのレイヤおよび/またはコンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報が挿入される。そのため、受信側では、この挿入情報を用いることで、各オブジェクトコンテントの音圧の増減の調整を許容範囲内で行うことが容易となる。

なお、本技術において、例えば、所定数のオブジェクトコンテントのそれぞれは所定数のコンテントグループのいずれかに属し、情報挿入部は、オーディオストリームのレイヤおよび/またはコンテナのレイヤに、各コンテントグループに対する音圧の増減の許容範囲を示す情報を挿入する、ようにされてもよい。この場合、音圧の増減の許容範囲を示す情報をコンテントグループの数だけ送ればよく、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を効率的に送信することが可能となる。

また、本技術において、例えば、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報には、複数のファクタータイプのうちのいずれを適用するかを示すファクタータイプ情報が付加される、ようにされてもよい。この場合、オブジェクトコンテントごとに、適切なファクタータイプの適用が可能となる。

また、本技術の他の概念は、
所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを含む所定フォーマットのコンテナを受信する受信部と、
ユーザ選択に係るオブジェクトコンテントに対する音圧増減を行う音圧増減処理を制御する制御部を備える
受信装置にある。

本技術において受信部により、所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを含む所定フォーマットのコンテナが受信される。制御部により、ユーザ選択に係るオブジェクトコンテントに対する音圧増減を行う音圧増減処理が制御される。

このように本技術においては、ユーザ選択に係るオブジェクトコンテントに対する音圧増減の処理が行われる。そのため、例えば、所定のオブジェクトコンテントの音圧を増加させ、その他のオブジェクトコンテントの音圧を減少させるということも可能となり、所定数のオブジェクトコンテントの音圧の調整を効果的に行うことが可能となる。

なお、本技術において、例えば、オーディオストリームのレイヤおよび/またはコンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報が挿入されており、制御部は、オーディオストリームのレイヤおよび/またはコンテナのレイヤから各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を抽出する情報抽出処理をさらに制御し、音圧増減処理では、抽出された情報に基づいてユーザの選択に係るオブジェクトコンテントに対する音圧増減を行う、ようにされてもよい。この場合、各オブジェクトコンテントの音圧の調整を許容範囲内で行うことが容易となる。

また、本技術において、例えば、音圧増減処理では、ユーザ選択に係るオブジェクトコンテントに対して音圧を増加するとき他のオブジェクトコンテントに対して音圧を減少し、ユーザ選択に係るオブジェクトコンテントに対して音圧を減少するとき他のオブジェクトコンテントに対して音圧を増加する、ようにされてもよい。この場合、ユーザに操作手間を取らせることなく、オブジェクトコンテント全体の音圧を一定に保つことが可能となる。

また、本技術において、例えば、制御部は、音圧増減処理で音圧増減されるオブジェクトコンテントの音圧状態を示すユーザインタフェース画面を表示する表示処理をさらに制御する、ようにされてもよい。この場合、ユーザは、各オブジェクトコンテントの音圧状態を容易に確認でき、音圧設定を容易に行い得る。

本技術によれば、受信側でオブジェクトコンテントの音圧調整を良好に行い得る。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

実施の形態としての送受信システムの構成例を示すブロック図である。ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏの伝送データの構成例を示す図である。ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏの伝送データにおけるオーディオフレームの構造例を示す図である。エクステンションエレメントのタイプ（ExElementType）と、その値（Value）との対応関係を示す図である。各コンテントグループに対する音圧の増減の許容範囲を示す情報をエクステンションエレメントとして含むコンテント・エンハンスメント・フレームの構造例を示す図である。コンテント・エンハンスメント・フレームの構造例における主要な情報の内容を示す図である。音圧の増減の許容範囲を示す情報が示す音圧の値（ファクター値）の一例を示す図である。オーディオ・コンテント・エンハンスメント・デスクリプタの構造例を示す図である。サービス送信機が備えるストリーム生成部の構成例を示すブロック図である。トランスポートストリームＴＳの構造例を示す図である。サービス受信機の構成例を示すブロック図である。オーディオデコード部の構成例を示すブロック図である。各ブジェクトコンテントの現在の音圧状態示すユーザインタフェース画面の一例を示す図である。ユーザの単位操作に対応した、オブジェクトエンハンサにおける音圧の増減処理の一例を示すフローチャートである。オブジェクトコンテントの音圧調整例とどの効果を説明するための図である。音圧の増減の許容範囲を示す情報が示す音圧の値（ファクター値）の他の例を示す図である。各コンテントグループに対する音圧の増減の許容範囲を示す情報をエクステンションエレメントとして含むコンテント・エンハンスメント・フレームの他の構造例を示す図である。コンテント・エンハンスメント・フレームの構造例における主要な情報の内容を示す図である。オーディオ・コンテント・エンハンスメント・デスクリプタの他の構造例を示す図である。ユーザの単位操作に対応した、オブジェクトエンハンサにおける音圧の増減処理の他の例を示すフローチャートである。ＭＭＴストリームの構造例を示す図である。

以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
１．実施の形態
２．変形例

＜１．実施の形態＞
［送受信システムの構成例］
図１は、実施の形態としての送受信システム１０の構成例を示している。この送受信システム１０は、サービス送信機１００とサービス受信機２００により構成されている。サービス送信機１００は、トランスポートストリームＴＳを、放送波あるいはネットのパケットに載せて送信する。

トランスポートストリームＴＳは、オーディオストリーム、あるいは、ビデオストリームとオーディオストリームを有している。オーディオストリームは、チャネル符号化データと共に、所定数のオブジェクトコンテントの符号化データ（オブジェクト符号化データ）を持っている。この実施の形態において、オーディオストリームの符号化方式は、ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏとされる。

サービス送信機１００は、オーディオストリームのレイヤおよび/またはコンテナとしてのトランスポートストリームＴＳのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報（上限値、下限値の情報）を挿入する。例えば、所定数のオブジェクトコンテントのそれぞれは所定数のコンテントグループのいずれかに属し、サービス送信機２００は、オーディオストリームのレイヤおよび/またはコンテナのレイヤに、各コンテントグループに対する音圧の増減の許容範囲を示す情報を挿入する。

図２は、ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏの伝送データの構成例を示している。この構成例では、１つのチャネル符号化データと６つのオブジェクト符号化データとからなっている。１つのチャネル符号化データは、５．１チャネルのチャネル符号化データ（ＣＤ）であり、ＳＣＥ１，ＣＰＥ１．１，ＣＰＥ１．２，ＬＦＥ１の各符号化サンプルデータからなっている。

６つのオブジェクト符号化データのうち、最初の３つのオブジェクト符号化データは、ダイアログ・ランゲージ・オブジェクトのコンテントグループの符号化データ（ＤＯＤ）に属している。この３つのオブジェクト符号化データは、第１、第２、第３の言語のそれぞれに対応したダイアログ・ランゲージ・オブジェクト（Object for dialog language）の符号化データである。

この第１、第２、第３の言語に対応したダイアログ・ランゲージ・オブジェクトの符号化データは、それぞれ、符号化サンプルデータＳＣＥ２，ＳＣＥ３，ＳＣＥ４と、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータ（Object metadata）とからなっている。

また、６つのオブジェクト符号化データのうち、残りの３つのオブジェクト符号化データは、サウンド・エフェクト・オブジェクトのコンテントグループの符号化データ（ＳＥＯ）に属している。この３つのオブジェクト符号化データは、第１、第２、第３の効果音のそれぞれに対応したサウンド・エフェクト・オブジェクト（Object for sound effect）の符号化データである。

この第１、第２、第３の効果音に対応したサウンド・エフェクト・オブジェクトの符号化データは、それぞれ、符号化サンプルデータＳＣＥ５，ＳＣＥ６，ＳＣＥ７と、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータ（Object metadata）とからなっている。

符号化データは、種類別にグループ（Group）という概念で区別される。この構成例では、５．１チャネルのチャネル符号化データはグループ１（Group 1）とされる。また、第１、第２、第３の言語に対応したダイアログ・ランゲージ・オブジェクトの符号化データは、それぞれ、グループ２（Group 2）、グループ３（Group 3）、グループ４（Group 4）とされる。また、第１、第２、第３の効果音に対応したサウンド・エフェクト・オブジェクトの符号化データは、それぞれ、グループ５（Group 5）、グループ６（Group 6）、グループ７（Group 7）とされる。

また、受信側においてグループ間で選択できるものはスイッチグループ（SW Group）に登録されて符号化される。この構成例では、ダイアログ・ランゲージ・オブジェクトのコンテントグループに属するグループ２、グループ３、グループ４はスイッチグループ１（SW Group 1）とされる。また、サウンド・エフェクト・オブジェクトのコンテントグループに属するグループ５、グループ６、グループ７はスイッチグループ２（SW Group 2）とされる。

図３は、ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏの伝送データにおけるオーディオフレームの構造例を示している。このオーディオフレームは、複数のＭＰＥＧオーディオストリームパケット（mpeg Audio Stream Packet）からなっている。各ＭＰＥＧオーディオストリームパケットは、ヘッダ（Header）とペイロード（Payload）により構成されている。

ヘッダは、パケットタイプ（Packet Type）、パケットラベル（Packet Label）、パケットレングス（Packet Length）などの情報を持つ。ペイロードには、ヘッダのパケットタイプで定義された情報が配置される。このペイロード情報には、同期スタートコードに相当する“ＳＹＮＣ”と、３Ｄオーディオの伝送データの実際のデータである“Ｆｒａｍｅ”と、この“Ｆｒａｍｅ”の構成を示す“Ｃｏｎｆｉｇ”が存在する。

“Ｆｒａｍｅ”には、３Ｄオーディオの伝送データを構成するチャネル符号化データとオブジェクト符号化データが含まれる。ここで、チャネル符号化データは、ＳＣＥ（Single Channel Element）、ＣＰＥ（Channel Pair Element）、ＬＦＥ（Low Frequency Element）などの符号化サンプルデータで構成される。また、オブジェクト符号化データは、ＳＣＥ（Single Channel Element）の符号化サンプルデータと、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータにより構成される。このメタデータは、エクステンションエレメント（Ext_element）として含まれる。

この実施の形態では、エクステンションエレメント（Ext_element）として、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つエレメント（Ext_content_enhancement）を新たに定義する。これに伴って、“Ｃｏｎｆｉｇ”に、そのエレメントの構成情報（content_enhancement config）を新たに定義する。

図４は、エクステンションエレメント（Ext_element）のタイプ（ExElementType）と、その値（Value）との対応関係を示している。例えば、１２８を、新たに、“ID_EXT_ELE_content_enhancement”のタイプの値として定義する。

図５は、各コンテントグループに対する音圧の増減の許容範囲を示す情報をエクステンションエレメントとして含むコンテント・エンハンスメント・フレーム（Content_Enhancement_frame()）の構造例（syntax）を示している。図６は、その構成例における主要な情報の内容（semantics）を示している。

「num_of_content_groups」の８ビットフィールドは、コンテントグループの数を示す。このコンテントグループの数だけ、「content_group_id」の８ビットフィールド、「content_type」の８ビットフィールド、「content_enhancement_plus_factor」の８ビットフィールドおよび「content_enhancement_minus_factor」の８ビットフィールドが、繰り返し存在する。

「content_group_id」フィールドは、コンテントグループのＩＤ（識別）を示す。「content_type」のフィールドは、コンテントグループのタイプを示す。例えば、“０”は「dialog language」を示し、“１”は「sound effect」を示し、“２”は「BGM」を示し、“３”は「spoken subtitles」を示す。

「content_enhancement_plus_factor」のフィールドは、音圧の増減における上限値を示す。例えば、図７のテーブルに示すように、“０ｘ００”は１（０ｄＢ）、“０ｘ０１”は１．４（＋３ｄＢ）、・・・、“０ｘＦＦ”はinfinite（+infinit ｄＢ）を示す。「content_enhancement_minus_factor」のフィールドは、音圧の増減における下限値を示す。例えば、図７のテーブルに示すように、“０ｘ００”は１（０ｄＢ）、“０ｘ０１”は０．７（−３ｄＢ）、・・・、“０ｘＦＦ”は０．００（-infinit ｄＢ）を示す。なお、図７のテーブルは、サービス受信機２００において共有されている。

また、この実施の形態では、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つオーディオ・コンテント・エンハンスメント・デスクリプタ（Audio_Content_Enhancement descriptor）を新規定義する。そして、このデスクリプタを、プログラムマップテーブル（ＰＭＴ：Program Map Table）の配下に存在するオーディオエレメンタリストリームループ内に挿入する。

図８は、オーディオ・コンテント・エンハンスメント・デスクリプタの構造例（Syntax）を示している。「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示す。ここでは、オーディオ・コンテント・エンハンスメント・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして、以降のバイト数を示す。

「num_of_content_groups」の８ビットフィールドは、コンテントグループの数を示す。このコンテントグループの数だけ、「content_group_id」の８ビットフィールド、「content_type」の８ビットフィールド、「content_enhancement_plus_factor」の８ビットフィールドおよび「content_enhancement_minus_factor」の８ビットフィールドが、繰り返し存在する。なお、各フィールドの情報の内容については、上述のコンテント・エンハンスメント・フレーム（図５参照）で説明したと同様である。

図１に戻って、サービス受信機２００は、サービス送信機１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳは、ビデオストリームの他に、オーディオストリームを有している。オーディオストリームは、３Ｄオーディオの伝送データを構成する、チャネル符号化データと、所定数のオブジェクトコンテントの符号化データ（オブジェクト符号化データ）を持っている。

オーディオストリームのレイヤおよび/またはコンテナとしてのトランスポートストリームＴＳのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報が挿入されている。例えば、所定数のコンテントグループに対する音圧の増減の許容範囲を示す情報を挿入されている。ここで、１つのコンテントグループには、１つまたは複数のオブジェクトコンテントが属している。

サービス受信機２００は、ビデオストリームにデコード処理を施してビデオデータを得る。また、サービス受信機２００は、オーディオストリームにデコード処理を施して３Ｄオーディオのオーディオデータを得る。

サービス受信機２００は、ユーザ選択に係るオブジェクトコンテントに対する音圧増減を処理する。このとき、サービス受信機２００は、オーディオストリームのレイヤおよび/またはコンテナとしてのトランスポートストリームＴＳのレイヤに挿入されている各オブジェクトコンテントに対する音圧の増減の許容範囲に基づいて、音圧の増減の範囲を制限する。

［サービス送信機のストリーム生成部］
図９は、サービス送信機１００が備えるストリーム生成部１１０の構成例を示している。このストリーム生成部１１０は、制御部１１１と、ビデオエンコーダ１１２と、オーディオエンコーダ１１３と、マルチプレクサ１１４を有している。

ビデオエンコーダ１１２は、ビデオデータＳＶを入力し、このビデオデータＳＶに対して符号化を施し、ビデオストリーム（ビデオエレメンタリストリーム）を生成する。オーディオエンコーダ１１３は、オーディオデータＳＡとして、チャネルデータと共に、所定数のコンテントグループのオブジェクトデータを入力する。各コンテントグループには、１つまたは複数のオブジェクトコンテントが属している。

オーディオエンコーダ１１３は、オーディオデータＳＡに対して符号化を施して３Ｄオーディオの伝送データを得、この３Ｄオーディオの伝送データを含むオーディオストリーム（オーディオエレメンタリストリーム）を生成する。３Ｄオーディオの伝送データには、チャネル符号化データと共に、所定数のコンテントグループのオブジェクト符号化データが含まれる。

例えば、図２の構成例に示すように、チャネル符号化データ（ＣＤ）と、ダイアログ・ランゲージ・オブジェクトのコンテントグループの符号化データ（ＤＯＤ）と、サウンド・エフェクト・オブジェクトのコンテントグループの符号化データ（ＳＥＯ）が含まれる。

オーディオエンコーダ１１３は、制御部１１１による制御のもと、オーディオストリームに、各コンテントグループに対する音圧の増減の許容範囲を示す情報を挿入する。この実施の形態では、オーディオフレームに、エクステンションエレメント（Ext_element）として、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つ新規定義するエレメント（Ext_content_enhancement）を挿入する（図３、図５参照）。

マルチプレクサ１１４は、ビデオエンコーダ１１２から出力されるビデオストリームおよびオーディオエンコーダ１１３から出力される所定数のオーディオストリームを、それぞれ、ＰＥＳパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームＴＳを得る。

マルチプレクサ１１４は、制御部１１１の制御のもと、コンテナとしてのトランスポートストリームＴＳに、各コンテントグループに対する音圧の増減の許容範囲を示す情報を挿入する。この実施の形態では、ＰＭＴの配下に存在するオーディオエレメンタリストリームループ内に、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つ新規定義するオーディオ・コンテント・エンハンスメント・デスクリプタ（Audio_Content_Enhancement descriptor）を挿入する（図８参照）。

図９に示すストリーム生成部１１０の動作を簡単に説明する。ビデオデータは、ビデオエンコーダ１１２に供給される。このビデオエンコーダ１１２では、ビデオデータＳＶに対して符号化が施され、符号化ビデオデータを含むビデオストリームが生成される。このビデオストリームは、マルチプレクサ１１４に供給される。

オーディオデータＳＡは、オーディオエンコーダ１１３に供給される。このオーディオデータＳＡには、チャネルデータと共に、所定数のコンテントグループのオブジェクトデータが含まれる。ここで、各コンテントグループには、１つまたは複数のオブジェクトコンテントが属している。

オーディオエンコーダ１１３では、オーディオデータＳＡに対して符号化が施されて３Ｄオーディオの伝送データが得られる。この３Ｄオーディオの伝送データには、チャネル符号化データと共に、所定数のコンテントグループのオブジェクト符号化データが含まれる。そして、オーディオエンコーダ１１３では、この３Ｄオーディオの伝送データを含むオーディオストリームが生成される。

このとき、オーディオエンコーダ１１３では、制御部１１１による制御のもと、オーディオストリームに、各コンテントグループに対する音圧の増減の許容範囲を示す情報が挿入される。すなわち、オーディオフレームに、エクステンションエレメント（Ext_element）として、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つ新規定義するエレメント（Ext_content_enhancement）が挿入される（図３、図５参照）。

ビデオエンコーダ１１２で生成されたビデオストリームは、マルチプレクサ１１４に供給される。また、オーディオエンコーダ１１３で生成されたオーディオストリームは、マルチプレクサ１１４に供給される。マルチプレクサ１１４では、各エンコーダから供給されるストリームがＰＥＳパケット化され、さらにトランスポートパケット化されて多重され、多重化ストリームとしてのトランスポートストリームＴＳが得られる。

このとき、マルチプレクサ１１４では、制御部１１１の制御のもと、コンテナとしてのトランスポートストリームＴＳに、各コンテントグループに対する音圧の増減の許容範囲を示す情報が挿入される。すなわち、ＰＭＴの配下に存在するオーディオエレメンタリストリームループ内に、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つ新規定義するオーディオ・コンテント・エンハンスメント・デスクリプタ（Audio_Content_Enhancement descriptor）が挿入される（図８参照）。

[トランスポートストリームＴＳの構成]
図１０は、トランスポートストリームＴＳの構造例を示している。この構造例では、ＰＩＤ１で識別されるビデオストリームのＰＥＳパケット「video PES」が存在すると共に、ＰＩＤ２で識別されるオーディオストリームのＰＥＳパケット「audio PES」が存在する。ＰＥＳパケットは、ＰＥＳヘッダ（PES_header）とＰＥＳペイロード（PES_payload）からなっている。ＰＥＳヘッダには、ＤＴＳ，ＰＴＳのタイムスタンプが挿入されている。

オーディオストリームのＰＥＳパケットのＰＥＳペイロードにはオーディオストリーム（Audio coded stream）が挿入される。このオーディオストリームのオーディオフレームに、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つコンテント・エンハンスメント・フレーム（Content_Enhancement_frame()）が挿入される。

また、トランスポートストリームＴＳには、ＰＳＩ（Program Specific Information）として、ＰＭＴ（Program Map Table）が含まれている。ＰＳＩは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。ＰＭＴには、プログラム全体に関連する情報を記述するプログラム・ループ（Program loop）が存在する。

また、ＰＭＴには、各エレメンタリストリームに関連した情報を持つエレメンタリストリームループが存在する。この構成例では、ビデオストリームに対応したビデオエレメンタリストリームループ（video ES loop）が存在すると共に、オーディオストリームに対応したオーディオエレメンタリストリームループ（audio ES loop）が存在する

ビデオエレメンタリストリームループ（video ES loop）には、ビデオストリームに対応して、ストリームタイプ、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このビデオストリームの「Stream_type」の値は「０ｘ２４」に設定され、ＰＩＤ情報は、上述したようにビデオストリームのＰＥＳパケット「video PES」に付与されるＰＩＤ１を示すものとされる。デスクリプタの一つして、ＨＥＶＣデスクリプタが配置される。

また、オーディオエレメンタリストリームループ（audio ES loop）には、オーディオストリームに対応して、ストリームタイプ、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのオーディオストリームに関連する情報を記述するデスクリプタも配置される。このオーディオストリームの「Stream_type」の値は「０ｘ２Ｃ」に設定され、ＰＩＤ情報は、上述したようにオーディオストリームのＰＥＳパケット「audio PES」に付与されるＰＩＤ２を示すものとされる。デスクリプタの一つして、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つオーディオ・コンテント・エンハンスメント・デスクリプタ（Audio_Content_Enhancement descriptor）が配置される。

［サービス受信機の構成例］
図１１は、サービス受信機２００の構成例を示している。このサービス受信機２００は、受信部２０１と、デマルチプレクサ２０２と、ビデオデコード部２０３と、映像処理回路２０４と、パネル駆動回路２０５と、表示パネル２０６を有している。また、このサービス受信機２００は、オーディオデコード部２１４と、音声出力回路２１５と、スピーカシステム２１６を有している。また、このサービス受信機２００は、ＣＰＵ２２１と、フラッシュＲＯＭ２２２と、ＤＲＡＭ２２３と、内部バス２２４と、リモコン受信部２２５と、リモコン送信機２２６を有している。

ＣＰＵ２２１は、サービス受信機２００の各部の動作を制御する。フラッシュＲＯＭ２２２は、制御ソフトウェアの格納およびデータの保管を行う。ＤＲＡＭ２２３は、ＣＰＵ２２１のワークエリアを構成する。ＣＰＵ２２１は、フラッシュＲＯＭ２２２から読み出したソフトウェアやデータをＤＲＡＭ２２３上に展開してソフトウェアを起動させ、サービス受信機２００の各部を制御する。

リモコン受信部２２５は、リモコン送信機２２６から送信されたリモートコントロール信号（リモコンコード）を受信し、ＣＰＵ２２１に供給する。ＣＰＵ２２１は、このリモコンコードに基づいて、サービス受信機２００の各部を制御する。ＣＰＵ２２１、フラッシュＲＯＭ２２２およびＤＲＡＭ２２３は、内部バス２２４に接続されている。

受信部２０１は、サービス送信機１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳは、ビデオストリームの他に、オーディオストリームを有している。オーディオストリームは、３Ｄオーディオの伝送データを構成する、チャネル符号化データと、所定数のオブジェクトコンテントの符号化データ（オブジェクト符号化データ）を持っている。

オーディオストリームのレイヤおよび/またはコンテナとしてのトランスポートストリームＴＳのレイヤに、所定数のコンテントグループに対する音圧の増減の許容範囲を示す情報が挿入されている。なお、１つのコンテントグループに、１つまたは複数のオブジェクトコンテントが属している。

ここで、オーディオフレームに、エクステンションエレメント（Ext_element）として、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つ新規定義するエレメント（Ext_content_enhancement）が挿入されている（図３、図５参照）。また、ＰＭＴの配下に存在するオーディオエレメンタリストリームループ内に、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つ新規定義するオーディオ・コンテント・エンハンスメント・デスクリプタ（Audio_Content_Enhancement descriptor）が挿入されている（図８参照）。

デマルチプレクサ２０２は、トランスポートストリームＴＳからビデオストリームを抽出し、ビデオデコード部２０３に送る。ビデオデコード部２０３は、ビデオストリームに対してデコード処理を行って非圧縮のビデオデータを得る。

映像処理回路２０４は、ビデオデコード部２０３で得られたビデオデータに対してスケーリング処理、画質調整処理などを行って、表示用のビデオデータを得る。パネル駆動回路２０５は、映像処理回路２０４で得られる表示用の画像データに基づいて、表示パネル２０６を駆動する。表示パネル２０６は、例えば、ＬＣＤ(Liquid Crystal Display)、有機ＥＬディスプレイ（organic electroluminescence display）などで構成されている。

また、デマルチプレクサ２０２は、トランスポートストリームＴＳからデスクリプタ情報などの各種情報を抽出し、ＣＰＵ２２１に送る。この各種情報には、上述した各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つオーディオ・コンテント・エンハンスメント・デスクリプタも含まれる。ＣＰＵ２２１は、このデスクリプタにより、各コンテントグループに対する音圧の増減の許容範囲（上限値、下限値）を認識できる。

また、デマルチプレクサ２０２は、トランスポートストリームＴＳからオーディオストリームを抽出し、オーディオデコード部２１４に送る。オーディオデコード部２１４は、オーディオストリームに対してデコード処理を行って、スピーカシステム２１６を構成する各スピーカを駆動するためのオーディデータを得る。

この場合、オーディオデコード部２１４は、オーディオストリームに含まれる所定数のオブジェクトコンテントの符号化データのうち、スイッチグループを構成する複数のオブジェクトコンテントの符号化データに関しては、ＣＰＵ２２１の制御のもと、ユーザ選択に係るいずれか１つのオブジェクトコンテントの符号化データのみをデコード対象とする。

また、オーディオデコード部２１４は、オーディオストリームに挿入されている各種情報を抽出し、ＣＰＵ２２１に送信する。この各種情報には、上述した各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つエレメントも含まれる。ＣＰＵ２２１は、このエレメントにより、各コンテントグループに対する音圧の増減の許容範囲（上限値、下限値）を認識できる。

また、オーディオデコード部２１４は、ＣＰＵ２２１の制御のもと、ユーザ選択に係るオブジェクトコンテントに対する音圧増減を処理する。このとき、オーディオストリームのレイヤおよび/またはコンテナとしてのトランスポートストリームＴＳのレイヤに挿入されている各オブジェクトコンテントに対する音圧の増減の許容範囲（上限値、下限値）に基づいて、音圧の増減の範囲を制限する。このオーディオデコード部２１４の詳細については、後述する。

音声出力処理回路２１５は、オーディオデコード部２１４で得られた各スピーカを駆動するためのオーディオデータに対して、Ｄ／Ａ変換や増幅等の必要な処理を行って、スピーカシステム２１６に供給する。スピーカシステム２１６は、複数チャネル、例えば２チャネル、５．１チャネル、７．１チャネル、２２．２チャネルなどの複数のスピーカを備える。

「オーディオデコード部の構成例」
図１２は、オーディオデコード部２１４の構成例を示している。オーディオデコード部２１４は、デコーダ２３１と、オブジェクトエンハンサ２３２と、オブジェクトレンダラ２３３と、ミキサ２３４を有している。

デコーダ２３１は、デマルチプレクサ２０２で抽出されたオーディオストリームに対してデコード処理を行って、チャネルデータと共に、所定数のオブジェクトコンテントのオブジェクトデータを得る。このデコーダ２１３は、図９のストリーム生成部１１０のオーディオエンコーダ１１３とほぼ逆の処理をする。なお、スイッチグループを構成する複数のオブジェクトコンテントに関しては、ＣＰＵ２２１の制御のもと、ユーザ選択に係るいずれか１つのオブジェクトコンテントのオブジェクトデータのみを得る。

また、デコーダ２３１は、オーディオストリームに挿入されている各種情報を抽出し、ＣＰＵ２２１に送信する。この各種情報には、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つエレメントも含まれる。ＣＰＵ２２１は、このエレメントにより、各コンテントグループに対する音圧の増減の許容範囲（上限値、下限値）を認識できる。

オブジェクトエンハンサ２３２は、デコーダ２３１で得られた所定数のオブジェクトデータにうち、ユーザ選択に係るオブジェクトコンテントに対して音圧増減の処理をする。音圧の増減処理時には、ユーザ操作に応じて、ＣＰＵ２２１からオブジェクトエンハンサ２３２に、音圧の増減処理をすべき対象のオブジェクコンテントを示すターゲットコンテント（target_content）と、増加であるか減少であるかを示すコマンド（command）が与えられると共に、当該ターゲットコンテントに対する音圧の増減の許容範囲（上限値、下限値）が与えられる。

オブジェクトエンハンサ２３２は、ユーザの単位操作毎に、ターゲットコンテント（target_content）のオブジェクトコンテントの音圧を、コマンド（command）が示す方向（増加、または減少）に、所定の幅だけ変化させる。この場合、既に、音圧が許容範囲（上限値、下限値）で示される限界値にあるときは、音圧は変化させずにそのままとする。

また、オブジェクトエンハンサ２３２は、音圧の変化幅（所定の幅）を、例えば、図７のテーブルを参照して行う。例えば、現在の状態が１（０ｄＢ）にあって、ユーザの単位操作が増加である場合には、１．４（＋３ｄＢ）の状態に変化させる。また、例えば、現在の状態が１．４（＋３ｄＢ）にあって、ユーザの単位操作が増加である場合には、１．９（＋６ｄＢ）の状態に変化させる。

また、例えば、現在の状態が１（０ｄＢ）にあって、ユーザの単位操作が減少である場合には、０．７（−３ｄＢ）の状態に変化させる。また、例えば、現在の状態が０．７（−３ｄＢ）にあって、ユーザの単位操作が増加である場合には、０．５（−６ｄＢ）の状態に変化させる。

また、オブジェクトエンハンサ２３２は、音圧の増減処理時には、各オブジェクトデータの音圧状態を示す情報を、ＣＰＵ２２１に送る。ＣＰＵ２２１は、この情報に基づいて、表示部、例えば表示パネル２０６に、各オブジェクトコンテントの現在の音圧状態を示すユーザインタフェース画面を表示し、ユーザの音圧設定の便に供するようにされる。

図１３は、音圧状態示すユーザインタフェース画面の一例を示している。この例では、オブジェクトコンテントとして、ダイアログ・ランゲージ・オブジェクト（ＤＯＤ）とサウンド・エフェクト・オブジェクト（ＳＥＯ）の２つが存在する場合を示している（図２参照）。ハッチングを付して示すマーク部分で現在の音圧状態が示される。なお、「plus_i」は上限値を示し、「minus_i」は下限値を示している。

図１４のフローチャートは、ユーザの単位操作に対応した、オブジェクトエンハンサ２３２における音圧の増減処理の一例を示している。オブジェクトエンハンサ２３２は、ステップＳＴ１において、処理を開始する。その後、オブジェクトエンハンサ２３２は、ステップＳＴ２の処理に移る。

このステップＳＴ２において、オブジェクトエンハンサ２３２は、コマンド（command）は増加命令であるか否かを判断する。増加命令であるとき、オブジェクトエンハンサ２３２は、ステップＳＴ３の処理に移る。このステップＳＴ３において、オブジェクトエンハンサ２３２は、ターゲットコンテント（target_content）のオブジェクトコンテントの音圧を、上限値にないときには、所定幅だけ増加させる。オブジェクトエンハンサ２３２は、ステップＳＴ３の処理の後、ステップＳＴ４において、処理を終了する。

また、ステップＳＴ２で増加命令でないとき、すなわち減少命令であるとき、オブジェクトエンハンサ２３２は、ステップＳＴ５の処理に移る。このステップＳＴ５において、オブジェクトエンハンサ２３２は、ターゲットコンテント（target_content）のオブジェクトコンテントの音圧を、下限値にないときには、所定幅だけ減少させる。オブジェクトエンハンサ２３２は、ステップＳＴ５の処理の後、ステップＳＴ４において、処理を終了する。

図１２に戻って、オブジェクトレンダラ２３３は、オブジェクトエンハンサ２３２を通じて得られた所定数のオブジェクトコンテントのオブジェクトデータに対してレンダリング処理を施して、所定数のオブジェクトコンテントのチャネルデータを得る。ここで、オブジェクトデータは、オブジェクト音源のオーディオデータと、このオブジェクト音源の位置情報から構成されている。オブジェクトレンダラ２３３は、オブジェクト音源のオーディオデータをオブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングすることで、チャネルデータを得る。

ミキサ２３４は、デコーダ２３１で得られたチャネルデータに、オブジェクトレンダラ２３３で得られた各オブジェクトコンテントのチャネルデータを合成し、スピーカシステム２１６を構成する各スピーカを駆動するためのオーディデータ（チャネルデータ）を得る。

図１１に示すサービス受信機２００の動作を簡単に説明する。受信部２０１では、サービス送信機１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳが受信される。このトランスポートストリームＴＳは、ビデオストリームの他に、オーディオストリームを有している。

オーディオストリームは、３Ｄオーディオの伝送データを構成する、チャネル符号化データと、所定数のオブジェクトコンテントの符号化データ（オブジェクト符号化データ）を持っている。この所定数のオブジェクトコンテントのそれぞれは所定数のコンテントグループのいずれかに属している。つまり、１つのコンテントグループに、１つまたは複数のオブジェクトコンテントが属している。

このトランスポートストリームＴＳは、デマルチプレクサ２０２に供給される。デマルチプレクサ２０２では、トランスポートストリームＴＳからビデオストリームが抽出され、ビデオデコード部２０３に供給される。ビデオデコード部２０３では、ビデオストリームに対してデコード処理が施されて、非圧縮のビデオデータが得られる。このビデオデータは、映像処理回路２０４に供給される。

映像処理回路２０４では、ビデオデータに対してスケーリング処理、画質調整処理などが行われて、表示用のビデオデータが得られる。この表示用のビデオデータはパネル駆動回路２０５に供給される。パネル駆動回路２０５では、表示用のビデオデータに基づいて、表示パネル２０６を駆動することが行われる。これにより、表示パネル２０６には、表示用のビデオデータに対応した画像が表示される。

また、デマルチプレクサ２０２では、トランスポートストリームＴＳからデスクリプタ情報などの各種情報が抽出され、ＣＰＵ２２１に送られる。この各種情報には、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つオーディオ・コンテント・エンハンスメント・デスクリプタも含まれる。ＣＰＵ２２１では、このデスクリプタにより、各コンテントグループに対する音圧の増減の許容範囲（上限値、下限値）が認識される。

また、デマルチプレクサ２０２では、トランスポートストリームＴＳからオーディオストリームが抽出され、オーディオデコード部２１４に送られる。オーディオデコード部２１４では、オーディオストリームに対してデコード処理が施されて、スピーカシステム２１６を構成する各スピーカを駆動するためのオーディデータが得られる。

この場合、オーディオデコード部２１４では、オーディオストリームに含まれる所定数のオブジェクトコンテントの符号化データのうち、スイッチグループを構成する複数のオブジェクトコンテントの符号化データに関しては、ＣＰＵ２２１の制御のもと、ユーザ選択に係るいずれか１つのオブジェクトコンテントの符号化データのみがデコード対象とされる。

また、オーディオデコード部２１４では、オーディオストリームに挿入されている各種情報が抽出され、ＣＰＵ２２１に送信される。この各種情報には、上述した各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つエレメントも含まれる。ＣＰＵ２２１では、このエレメントにより、各コンテントグループに対する音圧の増減の許容範囲（上限値、下限値）が認識される。

また、オーディオデコード部２１４では、ＣＰＵ２２１の制御のもと、ユーザ選択に係るオブジェクトコンテントに対する音圧増減の処理が行われる。このとき、オーディオデコード部２１４では、各オブジェクトコンテントに対する音圧の増減の許容範囲（上限値、下限値）に基づいて、音圧の増減の範囲が制限される。

すなわち、この場合、ユーザ操作に応じて、ＣＰＵ２２１からオーディオデコード部２１４に、音圧の増減処理をすべき対象のオブジェクコンテントを示すターゲットコンテント（target_content）と、増加であるか減少であるかを示すコマンド（command）が与えられると共に、当該ターゲットコンテントに対する音圧の増減の許容範囲（上限値、下限値）が与えられる。

そして、オーディオデコード部２１４では、ユーザの単位操作毎に、ターゲットコンテント（target_content）のコンテントグループに属するオブジェクトデータの音圧が、コマンド（command）が示す方向（増加、または減少）に、所定の幅だけ変化させられる。この場合、既に、音圧が許容範囲（上限値、下限値）で示される限界値にあるときは、音圧は変化させずにそのままとされる。

オーディオデコード部２１４で得られた各スピーカを駆動するためのオーディオデータは、音声出力処理回路２１５に供給される。音声出力処理回路２１５では、このオーディオデータに対して、Ｄ／Ａ変換や増幅等の必要な処理が行われる。そして、処理後のオーディオデータはスピーカシステム２１６に供給される。これにより、スピーカシステム２１６からは表示パネル２０６の表示画像に対応した音響出力が得られる。

上述したように、図１に示す送受信システム１０において、サービス受信機２００は、ユーザ選択に係るオブジェクトコンテントに対する音圧増減の処理をする。そのため、例えば、所定のオブジェクトコンテントの音圧を増加させ、その他のオブジェクトコンテントの音圧を減少させるということも可能となり、所定数のオブジェクトコンテントの音圧の調整を効果的に行うことが可能となる。

図１５（ａ）はダイアログ・ランゲージのオブジェクトコンテントのオーディオデータの波形を概略的に示し、図１５（ｂ）はその他のオブジェクトコンテントのオーディオデータの波形を概略的に示している。図１５（ｃ）は、それらのオーディオデータをまとめた場合の波形を概略的に示している。この場合、ダイアログ・ランゲージのオーディオデータの波形の振幅よりその他の複数のオブジェクトコンテントのオーディオデータの波形の振幅が大きくなることから、ダイアログ・ランゲージの音は、その他のオブジェクトコンテントの音でマスキングされ、非常に聞き取り難いものとなる。

図１５（ｄ）は音圧を増加させたダイアログ・ランゲージのオブジェクトコンテントのオーディオデータの波形を概略的に示し、図１５（ｅ）は音圧を減少させたその他のオブジェクトコンテントのオーディオデータの波形を概略的に示している。図１５（ｆ）は、それらのオーディオデータをまとめた場合の波形を概略的に示している。

この場合、ダイアログ・ランゲージのオーディオデータの波形の振幅はその他の複数のオブジェクトコンテントのオーディオデータの波形の振幅より大きくなることから、ダイアログ・ランゲージの音は、その他のオブジェクトコンテントの音でマスキングされることなく、聞き取りやすくなる。また、この場合、ダイアログ・ランゲージのオブジェクトコンテントの音圧は増加されるが、その他のオブジェクトコンテントの音圧は減少されるので、オブジェクトコンテントの全体の音圧を一定に保たれる。

また、図１に示す送受信システム１０において、サービス送信機１００は、オーディオストリームのレイヤおよび/またはコンテナとしてのトランスポートストリームＴＳのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を挿入する。そのため、受信側では、この挿入情報を用いることで、各オブジェクトコンテントの音圧の増減の調整を許容範囲内で行うことが容易となる。

また、図１に示す送受信システム１０において、サービス送信機１００は、オーディオストリームのレイヤおよび/またはコンテナとしてのトランスポートストリームＴＳに、所定数のオブジェクトコンテントが属する各コンテントグループに対する音圧の増減の許容範囲を示す情報を挿入する。そのため、音圧の増減の許容範囲を示す情報をコンテントグループの数だけ送ればよく、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を効率的に送信することが可能となる。

＜２．変形例＞
なお、上述実施の形態においては、各オブジェクトコンテント、従って各コンテントグループに対する音圧の増減の許容範囲を示す情報のファクタータイプが１つである例を示した（図７参照）。しかし、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報のファクタータイプを複数のタイプから選択可能とすることも考えられる。

図１６は、各コンテントグループに対する音圧の増減の許容範囲を示す情報のファクタータイプを複数のタイプから選択可能とする場合におけるテーブルの一例を示している。この例は、ファクタータイプが、「factor_1」、「factor_2」の２つである場合の例である。

この場合、受信側では、「factor_1」が指定されたコンテントグループに関しては、テーブルの「factor_1」の部分が参照されて、音圧の上限値、下限値が認識され、また、音圧の増減調整における変化幅も認識される。また、同様に、受信側では、「factor_2」が指定されたコンテントグループに関しては、テーブルの「factor_2」の部分が参照されて、音圧の上限値、下限値が認識され、また、音圧の増減調整における変化幅も認識される。

例えば、「content_enhancement_plus_factor」が“０ｘ０２”で同じであっても、「factor_1」が指定されている場合には上限値は１．９（＋６ｄＢ）と認識され、「factor_2」が指定されている場合には上限値は３．９（＋１２ｄＢ）と認識される。また、１（０ｄＢ）の状態から増加命令があった場合、「factor_1」が指定されている場合には１．４（＋３ｄＢ）の状態に変化させられ、「factor_2」が指定されている場合には１．９（＋６ｄＢ）の状態に変化させられる。また、いずれのファクターである場合にも、指定値が“０ｘ００”である場合は、上限値、あるいは下限値とも０ｄＢであり、この場合は対象のコンテントグループに関しては音圧の変更ができないことを意味する。

図１７は、各コンテントグループに対する音圧の増減の許容範囲を示す情報のファクタータイプを複数のタイプから選択可能とする場合におけるコンテント・エンハンスメント・フレーム（Content_Enhancement_frame()）の構造例（syntax）を示している。図１８は、その構成例における主要な情報の内容（semantics）を示している。

「num_of_content_groups」の８ビットフィールドは、コンテントグループの数を示す。このコンテントグループの数だけ、「content_group_id」の８ビットフィールド、「content_type」の８ビットフィールド、「factor_type」の８ビットフィールド、「content_enhancement_plus_factor」の８ビットフィールドおよび「content_enhancement_minus_factor」の８ビットフィールドが、繰り返し存在する。

「content_group_id」フィールドは、コンテントグループのＩＤ（識別）を示す。「content_type」のフィールドは、コンテントグループのタイプを示す。例えば、“０”は「dialog language」を示し、“１”は「sound effect」を示し、“２”は「BGM」を示し、“３”は「spoken subtitles」を示す。「factor_type」のフィールドは、適用ファクタータイプを示す。例えば、“０”は「factor_1」を示し、“１”は「factor_2」を示す。

「content_enhancement_plus_factor」のフィールドは、音圧の増減における上限値を示す。例えば、図１６のテーブルに示すように、適用ファクタータイプが「factor_1」である場合には“０ｘ００”は１（０ｄＢ）、“０ｘ０１”は１．４（＋３ｄＢ）、・・・、“０ｘＦＦ”はinfinite（+infinit ｄＢ）を示し、適用ファクタータイプが「factor_2」である場合には“０ｘ００”は１（０ｄＢ）、“０ｘ０１”は１．９（＋６ｄＢ）、・・・、“０ｘ７Ｆ”はinfinite（+infinit ｄＢ）を示す。

「content_enhancement_minus_factor」のフィールドは、音圧の増減における下限値を示す。例えば、図１６のテーブルに示すように、適用ファクタータイプが「factor_1」である場合には“０ｘ００”は１（０ｄＢ）、“０ｘ０１”は０．７（−３ｄＢ）、・・・、“０ｘＦＦ”は０．００（-infinit ｄＢ）を示し、適用ファクタータイプが「factor_2」である場合には０ｘ００”は１（０ｄＢ）、“０ｘ０１”は０．５（−６ｄＢ）、・・・、“０ｘ７Ｆ”は０．００（-infinit ｄＢ）を示す。

図１９は、各コンテントグループに対する音圧の増減の許容範囲を示す情報のファクタータイプを複数のタイプから選択可能とする場合におけるオーディオ・コンテント・エンハンスメント・デスクリプタ（Audio_Content_Enhancement descriptor）の構造例（syntax）を示している。

「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示す。ここでは、オーディオ・コンテント・エンハンスメント・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして、以降のバイト数を示す。

「num_of_content_groups」の８ビットフィールドは、コンテントグループの数を示す。このコンテントグループの数だけ、「content_group_id」の８ビットフィールド、「content_type」の８ビットフィールド、「factor_type」の８ビットフィールド、「content_enhancement_plus_factor」の８ビットフィールドおよび「content_enhancement_minus_factor」の８ビットフィールドが、繰り返し存在する。なお、各フィールドの情報の内容については、上述のコンテント・エンハンスメント・フレーム（図１７参照）で説明したと同様である。

また、上述実施の形態においては、サービス受信機２００においては、ユーザ選択に係るターゲットコンテント（target_content）のオブジェクトコンテントの音圧を、コマンド（command）が示す方向（増加、または減少）に、所定幅だけ変化させる例を示した。しかし、ターゲットコンテント（target_content）のオブジェクトコンテントの音圧の増減処理をする際に、自動的に、その他のオブジェクトコンテントの音圧を逆方向に増減処理することも考えられる。

このようにすることで、例えば、図１５（ｄ），（ｅ）の処理を、ユーザは、ダイアログ・ランゲージのオブジェクトコンテントの増加操作を行うことだけで、サービス受信機２００において実行させることが可能となる。

図２０のフローチャートは、その場合における、ユーザの単位操作に対応した、オブジェクトエンハンサ２３２（図１２参照）における音圧の増減処理の一例を示している。オブジェクトエンハンサ２３２は、ステップＳＴ１１において、処理を開始する。その後、オブジェクトエンハンサ２３２は、ステップＳＴ１２の処理に移る。

このステップＳＴ１２において、オブジェクトエンハンサ２３２は、コマンド（command）は増加命令であるか否かを判断する。増加命令であるとき、オブジェクトエンハンサ２３２は、ステップＳＴ１３の処理に移る。このステップＳＴ１３において、オブジェクトエンハンサ２３２は、ターゲットコンテント（target_content）のオブジェクトコンテントの音圧を、上限値にないときには、所定幅だけ増加させる。

次に、オブジェクトエンハンサ２３２は、ステップＳＴ１４において、オブジェクトコンテントの全体の音圧を一定に保つために、ターゲットコンテント（target_content）でない他のオブジェクトコンテントの音圧を減少させる。この場合、上述のターゲットコンテント（target_content）のオブジェクトコンテントの音圧の増加に見合う分だけ減少させる。この場合、音圧減少に係る他のオブジェクトコンテントは１つまたは複数のいずれかとされる。オブジェクトエンハンサ２３２は、ステップＳＴ１４の処理の後、ステップＳＴ１５において、処理を終了する。

また、ステップＳＴ１２で増加命令でないとき、すなわち減少命令であるとき、オブジェクトエンハンサ２３２は、ステップＳＴ１６の処理に移る。このステップＳＴ１６において、オブジェクトエンハンサ２３２は、ターゲットコンテント（target_content）のオブジェクトコンテントの音圧を、下限値にないときには、所定幅だけ減少させる。

次に、オブジェクトエンハンサ２３２は、ステップＳＴ１７において、オブジェクトコンテントの全体の音圧を一定に保つために、ターゲットコンテント（target_content）でない他のオブジェクトコンテントの音圧を増加させる。この場合、上述のターゲットコンテント（target_content）のオブジェクトコンテントの音圧の増加に見合う分だけ減少させる。この場合、音圧減少に係る他のオブジェクトコンテントは１つまたは複数のいずれかとされる。オブジェクトエンハンサ２３２は、ステップＳＴ１７の処理の後、ステップＳＴ１５において、処理を終了する。

なお、上述実施の形態においては、オーディオストリームのレイヤおよびコンテナとしてのトランスポートストリームＴＳのレイヤの双方に、各コンテントグループに対する音圧の増減の許容範囲を示す情報を挿入する例を示した。しかし、この情報を、オーディオストリームのレイヤのみ、あるいはコンテナとしてのトランスポートストリームＴＳのレイヤのみに挿入することも考えられる。

また、上述実施の形態においては、コンテナがトランスポートストリーム（ＭＰＥＧ−２ＴＳ）である例を示した。しかし、本技術は、ＭＰ４やそれ以外のフォーマットのコンテナで配信されるシステムにも同様に適用できる。例えば、ＭＰＥＧ−ＤＡＳＨベースのストリーム配信システム、あるいは、ＭＭＴ（MPEG Media Transport）構造伝送ストリームを扱う送受信システムなどである。

図２１は、ＭＭＴストリームの構造例を示している。ＭＭＴストリームには、ビデオ、オーディオ等の各アセットのＭＭＴパケットが存在する。この構造例では、ＩＤ１で識別されるビデオのアセットのＭＭＴパケットと共に、ＩＤ２で識別されるオーディオのアセットのＭＭＴパケットが存在する。

オーディオのアセット（オーディオストリーム）のオーディオフレームに、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つコンテント・エンハンスメント・フレーム（Content_Enhancement_frame()）が挿入される。

また、ＭＭＴストリームには、ＰＡ（Packet Access）メッセージパケットなどのメッセージパケットが存在する。ＰＡメッセージパケットには、ＭＭＴ・パケット・テーブル（MMT Package Table）などのテーブルが含まれている。ＭＰテーブルには、アセット毎の情報が含まれている。オーディオのアセット（オーディオストリーム）に対応して、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つオーディオ・コンテント・エンハンスメント・デスクリプタ（Audio_Content_Enhancement descriptor）が配置される。

なお、本技術は、以下のような構成もとることができる。
（１）所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを生成するオーディオエンコード部と、
上記オーディオストリームを含む所定フォーマットのコンテナを送信する送信部と、
上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を挿入する情報挿入部を備える
送信装置。
（２）上記所定数のオブジェクトコンテントのそれぞれは所定数のコンテントグループのいずれかに属し、
上記情報挿入部は、上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各コンテントグループに対する音圧の増減の許容範囲を示す情報を挿入する
前記（１）に記載の送信装置。
（３）上記オーディオストリームの符号化方式は、ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏであり、
上記情報挿入部は、オーディオフレームに、上記各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を持つエクステンションエレメントを含める
前記（１）または（２）に記載の送信装置。
（４）上記各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報には、複数のファクターのいずれかを示すファクター選択情報が付加される
前記（１）から（３）のいずれかに記載の送信装置。
（５）所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを生成するオーディオエンコードステップと、
送信部により、上記オーディオストリームを含む所定フォーマットのコンテナを送信する送信ステップと、
上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を挿入する情報挿入ステップを有する
送信方法。
（６）所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを含む所定フォーマットのコンテナを受信する受信部と、
ユーザ選択に係るオブジェクトコンテントに対する音圧増減の処理を行う処理部を備える
受信装置。
（７）上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報が挿入されており、
上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤから、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を抽出する情報抽出部をさらに備え、
上記処理部は、上記抽出された情報に基づいてユーザ選択に係るオブジェクトコンテントに対する音圧増減を処理する
前記（６）に記載の受信装置。
（８）上記処理部は、
上記ユーザ選択に係るオブジェクトコンテントに対して音圧を増加するとき他のオブジェクトコンテントに対して音圧を減少し、上記ユーザ選択に係るオブジェクトコンテントに対して音圧を減少するとき他のオブジェクトコンテントに対して音圧を増加する
前記（６）または（７）に記載の受信装置。
（９）上記処理部で音圧増減処理されるオブジェクトコンテントの音圧状態を示すＵＩ画面を表示する表示制御部をさらに備える
前記（６）から（８）のいずれかに記載の受信装置。
（１０）受信部により、所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを含む所定フォーマットのコンテナを受信する受信ステップと、
ユーザ選択に係るオブジェクトコンテントに対する音圧増減を処理する処理ステップを有する
受信方法。

本技術の主な特徴は、オーディオストリームのレイヤおよび/またはコンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を挿入することで、受信側において各オブジェクトコンテントの音圧の増減の調整を許容範囲内で適切に行い得るようにしたことである（図９、図１０参照）。

１０・・・送受信システム
１００・・・サービス送信機
１１０・・・ストリーム生成部
１１１・・・制御部
１１２・・・ビデオエンコーダ
１１３・・・オーディオエンコーダ
１１４・・・マルチプレクサ
２００・・・サービス受信機
２０１・・・受信部
２０２・・・デマルチプレクサ
２０３・・・ビデオデコード部
２０４・・・映像処理回路
２０５・・・パネル駆動回路
２０６・・・表示パネル
２１４・・・オーディオデコード部
２１５・・・音声出力処理回路
２１６・・・スピーカシステム
２２１・・・ＣＰＵ
２２２・・・フラッシュＲＯＭ
２２３・・・ＤＲＡＭ
２２４・・・内部バス
２２５・・・リモコン受信部
２２６・・・リモコン送信機
２３１・・・デコーダ
２３２・・・オブジェクトエンハンサ
２３３・・・オブジェクトレンダラ
２３４・・・ミキサ

Claims

所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを生成するオーディオエンコード部と、
上記オーディオストリームを含む所定フォーマットのコンテナを送信する送信部と、
上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を挿入する情報挿入部を備える
送信装置。
上記所定数のオブジェクトコンテントのそれぞれは所定数のコンテントグループのいずれかに属し、
上記情報挿入部は、上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各コンテントグループに対する音圧の増減の許容範囲を示す情報を挿入する
請求項１に記載の送信装置。
上記オーディオストリームの符号化方式は、ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏであり、
上記情報挿入部は、オーディオフレームに、上記各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を持つエクステンションエレメントを含める
請求項１に記載の送信装置。
上記各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報には、複数のファクタータイプのうちのいずれを適用するかを示すファクタータイプ情報が付加される
請求項１に記載の送信装置。
所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを生成するオーディオエンコードステップと、
送信部により、上記オーディオストリームを含む所定フォーマットのコンテナを送信する送信ステップと、
上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を挿入する情報挿入ステップを有する
送信方法。
所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを含む所定フォーマットのコンテナを受信する受信部と、
ユーザ選択に係るオブジェクトコンテントに対する音圧増減を行う音圧増減処理を制御する制御部を備える
受信装置。
上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報が挿入されており、
上記制御部は、上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤから各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を抽出する情報抽出処理をさらに制御し、
上記音圧増減処理では、上記抽出された情報に基づいてユーザ選択に係るオブジェクトコンテントに対する音圧増減を行う
請求項６に記載の受信装置。
上記音圧増減処理では、
上記ユーザ選択に係るオブジェクトコンテントに対して音圧を増加するとき他のオブジェクトコンテントに対して音圧を減少し、上記ユーザ選択に係るオブジェクトコンテントに対して音圧を減少するとき他のオブジェクトコンテントに対して音圧を増加する
請求項６に記載の受信装置。
上記制御部は、上記音圧増減処理で音圧増減されるオブジェクトコンテントの音圧状態を示すユーザインタフェース画面を表示する表示処理をさらに制御する
請求項６に記載の受信装置。
受信部により、所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを含む所定フォーマットのコンテナを受信する受信ステップと、
ユーザ選択に係るオブジェクトコンテントに対する音圧増減を行う音圧増減処理ステップを有する
受信方法。