JP2023125821A

JP2023125821A - 受信装置、放送装置、放送システム、受信方法及びプログラム

Info

Publication number: JP2023125821A
Application number: JP2022030137A
Authority: JP
Inventors: 智夫西垣; Tomoo Nishigaki; 秀樹鈴木; Hideki Suzuki
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2023-09-07

Abstract

【課題】所望の音声を選択する仕組みを効率よく提供できる。【解決手段】受信部は、同一パッケージにおける音声アセットと、前記パッケージを構成する情報を与えるＭＭＴパッケージテーブル（ＭＰＴ）が多重化された多重化データを放送で受信し、分離部は前記多重化データから前記ＭＰＴを分離し、音声処理部は前記ＭＰＴに前記音声アセットの選択可能な要素を示す選択可能情報が含まれるとき、前記選択可能情報を出力し、前記選択可能情報から選択された選択情報に従って前記音声アセットを処理する。【選択図】図３

Description

本発明は、受信装置、放送装置、放送システム、受信方法及びプログラムに関する。

テレビジョン放送サービスでは、番組を構成する音声、映像のコンテンツが多重化して伝送される。多重化、伝送方式として、例えば、ＭＰＥＧ－２ＴＳ方式、ＭＭＴ（MPEG Media Transport）方式などが用いられてきた。音声は、１系統ごとにエレメンタリーストリーム（ＥＳ：Elementary Stream）として伝送される。放送サービスで提供される音声の編成は、番組を構成するＥＳと、ＥＳごとの属性を多重化情報として記述してコンテンツとともに伝達される。多重化情報は、ＭＰＥＧ－２ＴＳ方式、ＭＭＴ方式では、それぞれＰＭＴ（Program Map Table）、ＭＰＴ（MMT Package Table）を用いて表される。ＥＳは、ＭＭＴ方式におけるアセットに相当する。

放送サービスを提供する受信装置は、多重化情報を参照して、提供可能な属性を有する音声を選択肢として表すリストを生成し、提示することがあった。提示されたリストを目視したユーザは、嗜好や視聴環境に応じて、いずれか１系統の音声を選択する。受信装置は、ユーザが選択した音声データを放送データから分離し、復号により得られた音声を出力する。

次世代の地上波ディジタル方式（以下、「地デジ方式」と呼ぶ）では、音声の符号化方式として、ＭＰＥＧ－Ｈ３ＤＡｕｄｉｏ方式や、Ｄｏｌｂｙ（登録商標）ＡＣ－４方式が採用される可能性がある。ＭＰＥＧ－Ｈ３ＤＡｕｄｉｏ方式やＤｏｌｂｙ（登録商標）ＡＣ－４方式では、１件の放送番組において１個のアセットを用いて、種々の使用形態に対応する複数種類の音声を要素として伝送可能とする。そこで、ユーザにより要素とする複数種類の要素音声から、嗜好や視聴環境に応じて、いずれかの要素音声を選択可能とすることが検討されている。

特許第５９５７１６１号公報

従来の方式のもとでは、コンテンツと多重化して伝送される多重化情報に記述された音声アセットごとに、その属性を解析して、選択肢を構成することが考えられる。しかしながら、ＭＰＥＧ－Ｈ３ＤＡｕｄｉｏ方式やＤｏｌｂｙ（登録商標）ＡＣ－４方式では、個々の番組において単一のアセットしか提供されない。従来の方式と同様に多重化情報を解析しただけでは、伝送される要素音声の種類や、個々の要素音声の属性を特定することができない。ひいては選択肢を取得することができなかった。要素音声の種類や、その属性を特定するために、受信した音声アセットの内容を解析することも考えられるが、解析に係る負荷やハードウェア資源を要する。

本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、同一パッケージにおける音声アセットと、前記パッケージを構成する情報を与えるＭＭＴパッケージテーブル（ＭＰＴ）が多重化された多重化データを放送で受信する受信部と、前記多重化データから前記ＭＰＴを分離する分離部と、前記ＭＰＴに前記音声アセットの選択可能な要素を示す選択可能情報が含まれるとき、前記選択可能情報を出力し、前記選択可能情報から選択された選択情報に従って前記音声アセットを処理する音声処理部と、を備える受信装置である。

本発明の実施形態によれば、所望の音声を選択する仕組みを効率よく提供できる。

本実施形態に係る放送システムの機能構成例を示す概略ブロック図である。本実施形態に係る放送装置の機能構成例を示す概略ブロック図である。本実施形態に係る受信装置の機能構成例を示す概略ブロック図である。本実施形態に係る記述子の例を示す図である。記述子に設定されるプリセット音声の例を示す図である。本実施形態に係る設定画面の第１例を示す図である。本実施形態に係る設定画面の第２例を示す図である。本実施形態に係る設定画面の第３例を示す図である。本実施形態に係る受信処理の例を示すフローチャートである。

以下、本発明の実施形態について、図面を参照して説明する。
まず、本実施形態に係る放送システム１の概要について説明する。図１は、本実施形態に係る放送システム１の機能構成例を示す概略ブロック図である。
放送システム１は、放送装置１０と受信装置２０を含んで構成される。図１の例では、受信装置２０の数は１台であるが、一般には複数となりうる。

放送装置１０は、少なくとも音声アセットとＭＭＴパッケージテーブル（ＭＰＴ：MPEG Media Transport Package Table）を多重化して多重化データを生成し、生成した多重化データを放送伝送路ＢＴに送出する。音声アセットは、パッケージの構成要素（コンポーネント）としての音声を示すデータを含んで構成される。パッケージは、コンテンツの単位を指す。パッケージは、放送番組（イベント）に相当し、放送サービスと対応付けられる。本実施形態では、１個のパッケージにおいて単一の音声アセットが含まれる。ＭＰＴは、その音声アセットを含めて多重化されたパッケージを構成する情報を与えるデータテーブルである。

放送伝送路ＢＴは、放送信号を一方向的に不特定かつ複数の送信先として受信装置２０に伝送可能とする伝送路である。放送伝送路ＢＴは、典型的には所定の周波数帯域の放送波により形成される。放送伝送路ＢＴは、その一部に通信ネットワークを含んで構成されてもよい。かかる通信ネットワークは、例えば、インターネット、公衆無線ネットワーク、構内ネットワーク、専用回線、などのいずれの種類のネットワークであってもよい。

受信装置２０は、放送伝送路ＢＴを用いて伝送された多重化データを受信し、受信した多重化データからＭＰＴを分離する。受信装置２０は、分離したＭＰＴで伝達されるパッケージの多重化情報を解析する。受信装置２０は、音声アセットの選択可能な要素（本願では、「選択可能要素」と呼ぶ）を示す選択可能情報が含まれるとき、その選択可能情報を出力する。受信装置２０は、出力した選択可能情報から選択された選択情報に従って、音声アセットを処理する。選択可能情報は、選択可能要素として、音声アセットをなす音声ストリームから導出される音声の特性を示す。選択可能要素には、プリセット音声、音声の出力特性などが設定されうる。受信装置２０は、選択可能情報から選択された選択情報に従って音声アセットを処理する。

次に、本実施形態に係る放送装置１０の機能構成例について説明する。図２は、本実施形態に係る放送装置１０の機能構成例を示す概略ブロック図である。放送装置１０はコンテンツ編成部１２０、多重化部１２６、変調部１２８、および、送信部１３０を含んで構成される。

コンテンツ編成部１２０は、複数の素材をそれぞれ要素コンテンツとして取得し、取得した要素コンテンツを有する放送コンテンツを編成する。編成される放送コンテンツは、１個のパッケージをなし、番組として放送される。本願では、音声からなる要素コンテンツを「要素音声」と呼ぶ。素材となる音声本実施形態では、放送コンテンツには、そのコンポーネントとして単一の音声アセットと映像アセットが含まれる。音声アセットは、音声ストリーム、つまり、時間的に継続した音声データを含む。音声アセットは、１以上の要素音声を含み、選択可能な要素（本願では「選択可能要素」と呼ぶ）が導出されるように構成される。コンテンツ編成部１２０は、編成したパッケージのコンテンツデータを多重化部１２６に出力する。出力されるコンテンツデータには、音声アセットと映像アセットが含まれる。コンテンツデータには、音声、映像などの要素コンテンツを提示するためのデータ放送コンテンツを含めて構成されてもよい。データ放送コンテンツは、例えば、ＨＴＭＬ（Hypertext Modeling Language）などのマークアップ言語、スクリプト言語などを用いて記述されたディジタル文書として構成される。データ放送コンテンツには、要素コンテンツごとの提示開始時刻、提示終了時刻、表示領域などが指示されうる。データ放送コンテンツは、コンテンツの提示のための指令を記述したプログラムとみなすこともできる。

コンテンツ編成部１２０は、音声符号化部１２２と映像符号化部１２４を備える。
音声符号化部１２２は、要素コンテンツとして１以上のチャンネルの音声データを取得し、取得した音声データを所定の音声符号化方式を用いて単一の音声ストリームをなす音声アセットを生成する。音声符号化方式（音声圧縮方式）として、例えば、ＭＰＥＧ－ＨＰａｒｔ３３ＤＡｕｄｉｏに規定されている方式が利用可能である。音声符号化部１２２は、例えば、１以上の要素コンテンツである要素音声を処理する。

１種類の要素音声もしくは複数の要素音声の組が、プリセット音声として予め設定されうる。プリセット音声の設定情報には、その再生モードとして、要素音声ごとの出力特性が含まれてもよい。選択可能として、再生対象とする個々のプリセット音声、詳細設定などが選択可能要素の項目となりうる。詳細設定では、要素音声ごとの出力特性が指示されうる。出力特性として、例えば、音量が適用されうる。プリセット音声に複数の要素音声が含まれる場合には、出力特性として要素音声ごとの音量比が指示される。

音声符号化部１２２は、要素音声としてマルチチャンネル音声を符号化してもよい。マルチチャンネル音声として、例えば、５．１チャンネルサラウンド、２２．１チャンネルサラウンドなどの音声モードに係る音声が適用されてもよい。マルチチャンネル音声は、立体音響再生に用いられることがある。その場合には、例えば、知覚される音の目標方向が選択可能要素とする出力特性に含まれうる。

映像符号化部１２４は、要素コンテンツとして高解像度の動画を表す映像データを取得し、取得した映像を所定の映像符号化方式を用いて映像ストリームをなす映像アセットを生成する。

多重化部１２６には、コンテンツ編成部１２０からコンテンツデータが入力される。多重化部１２６は、入力されたコンテンツデータと、そのパッケージを構成する情報を示す多重化情報（制御情報）を所定の多重化方式を用いて多重化し、多重化データを生成する。多重化方式として、例えば、ＭＭＴ－ＴＬＶ（MPEG Media Transport－Type Length Value）方式が利用可能である。多重化情報は、例えば、ＭＭＴパッケージテーブル（ＭＰＴ：MMT Package Table）を用いて記述される。ＭＰＴには、例えば、パッケージを構成するアセット、アセットごとの属性の他、音声アセットの選択可能要素が記述されうる。
多重化部１２６は、コンテンツデータ、多重化情報を所定の情報量のブロックごとに細分化してＭＭＴＰパケットを生成し所定の送信時間間隔ごとに取得されるＭＭＴＰパケットを格納したＴＬＶパケットを構成する。多重化部１２６は、一連のＴＬＶパケットからなるＴＬＶストリームを多重化データとして変調部１２８に出力する。

変調部１２８は、多重化部１２６から入力される多重化データを所定の変調方式を用いて変調して放送信号に変換する。所定の変調方式として、例えば、６４ＱＡＭ（Quadrature Amplitude Modulation）や２５６ＱＡＭなどの方式が利用可能である。変調部１２８は、変換した放送信号を送信部１３０に出力する。
送信部１３０は、変調部１２８から入力される放送信号を放送伝送路ＢＴに送出する。送信部１３０は、例えば、トランスミッタであり、アンテナに接続される。送信部１３０は、入力される放送信号を基底周波数から所定の搬送周波数にアップコンバートして送信信号としてアンテナに供給する。アンテナからは、放送信号を搬送する放送波が送出される。

次に、本実施形態に係る受信装置２０の機能構成例について説明する。図３は、本実施形態に係る受信装置２０の機能構成例を示す概略ブロック図である。受信装置２０は、受信部２１２、復調部２１４、分離部２１６、音声復号部２２２、映像復号部２３２、提示処理部２４０、再生部２５０、表示部２６０、および、入力部２７０を含んで構成される。

受信部２１２は、放送伝送路ＢＴを経由して伝送された放送信号を受信し、受信した放送信号を復調部２１４に出力する。受信部２１２は、例えば、チューナであり、アンテナに接続される。受信部２１２は、アンテナが受波して得られる受信信号の搬送周波数の成分を基底周波数にダウンコンバートして放送信号として復調部２１４に出力する。搬送周波数として、提示処理部２４０から指示された放送チャンネルに対応する搬送周波数が指示される。

復調部２１４は、受信部２１２から入力される放送信号を所定の復調方式を用いて復調し、多重化データに変換する。復調部２１４は、変換した多重化データを分離部２１６に出力する。復調方式として、伝送された多重化データの変調に用いた変調方式に対応する方式が用いられる。

分離部２１６は、復調部２１４から入力される多重化データから多重化情報、および、コンテンツを分離する。多重化方式としてＭＭＴ－ＴＬＶ方式が用いられる場合、分離部２１６は、多重化データをなすＴＬＶストリームの単位であるＴＬＶパケットからＭＭＴＰパケットを抽出する。分離部２１６は、抽出されたＭＭＴＰパケットから、それぞれ多重化情報、および、コンテンツデータを抽出することができる。分離部２１６は、分離した多重化情報を記述するＭＰＴを参照し、パッケージを構成するコンポーネントとなるアセットとして、音声アセットと映像アセットを特定する。分離部２１６は、特定した音声アセットを分離し、分離した音声アセットを音声復号部２２２に出力する。分離部２１６は、特定した映像アセットを分離し、分離した映像アセットを映像復号部２３２に出力する。また、分離部２１６は、分離したＭＰＴを提示処理部２４０に出力する。コンテンツデータにデータ放送コンテンツが含まれる場合には、分離部２１６は、データ放送コンテンツを提示処理部２４０に出力してもよい。

音声復号部２２２は、分離部２１６から入力される音声アセットを所定の音声復号方式を用いて復号し、復号した音声アセットを提示処理部２４０に出力する。音声復号部２２２は、音声復号方式として、音声アセットの符号化に用いた音声符号化方式に対応する音声復号方式を用いればよい。
映像復号部２３２は、分離部２１６から入力される映像アセットを所定の映像復号方式を用いて復号し、復号された映像アセットを提示処理部２４０に出力する。映像復号部２３２は、映像復号方式として、映像アセットの符号化に用いられた映像符号化方式に対応する映像復号方式を用いればよい。

提示処理部２４０は、放送で受信される放送コンテンツを提示するための処理を実行する。提示処理部２４０の機能は、プログラムとしてのブラウザを実行して、ブラウザ上でデータコンテンツに記述された指令を実行して実現されうる。即ち、提示処理部２４０の機能は、プログラムとしてのブラウザに記述された指令で指示される処理として、受信装置２０のコンピュータシステムが、分離部２１６から入力されるデータ放送コンテンツに記述された指令を解析し、解析された指令で指示される処理を実行することにより実現されてもよい。データ放送コンテンツにより、例えば、放送コンテンツをなす要素コンテンツの提示開始、終了、映像の表示領域などが指示されうる。
なお、本願では、ブラウザなどのアプリケーションプログラム、その他のプログラムに記述された指令で示される処理を実行することを、「プログラムを実行する」、「プログラムの実行」などと呼ぶことがある。

提示処理部２４０は、入力部２７０から入力される操作信号による指示に基づいて放送コンテンツの受信および受信される放送コンテンツの提示を制御する。
例えば、提示処理部２４０は、操作信号に基づき放送コンテンツの受信開始を受信部２１２に指示する（受信開始）。このとき、提示処理部２４０は、音声復号部２２２から入力される音声アセットに基づく音声を示す音声データの再生部２５０への出力を開始する。提示処理部２４０は、映像復号部２３２から入力される映像アセットに基づく映像を表す表示データの表示部２６０への出力を開始する。
また、提示処理部２４０は、入力部２７０から入力される操作信号に基づき放送コンテンツの受信停止を受信部２１２に指示する（受信停止）。このとき、提示処理部２４０は、音声復号部２２２から入力される音声アセットに基づく音声データの再生部２５０への出力を停止する。提示処理部２４０は、映像復号部２３２から入力される映像アセットに基づく映像を表す表示データについて表示部２６０への出力を停止する。
提示処理部２４０は、操作信号で指示される放送チャンネルを受信部２１２に通知して、通知した放送チャンネルでの放送コンテンツの受信を開始させる（チャンネル切替）。

提示処理部２４０は、音声処理部２４２と映像処理部２４４を備える。
音声処理部２４２は、音声復号部２２２から入力される音声アセットで表現される音声を再生するための処理を行う。
音声処理部２４２は、分離部２１６から入力されるＭＰＴにおいて、音声復号部２２２から入力された音声アセットについて選択可能情報が含まれるか否かを判定する。選択可能情報が含まれる場合、音声処理部２４２は、選択可能情報を表す設定画面を生成する。映像処理部２４４は、生成した設定画面を重畳した表示データを表示部２６０に出力する。ユーザは、設定画面に表された提示可能情報を視認して、受信した音声に関して選択可能な選択可能要素を知得することができる。

音声処理部２４２は、入力部２７０から入力される操作信号で指示される選択情報を特定し、特定した選択情報に従って選択された項目に基づいて音声アセットを処理する。音声処理部２４２は、処理により得られた音声データを再生部２５０に出力する。
上記のように、選択可能情報は、選択可能要素として、音声アセットをなす音声ストリームから導出できる音声の特性を示す。音声処理部２４２は、音声ストリームから選択情報で指示される特性を有する音声を導出する。例えば、選択可能情報が複数種類のプリセット音声を示す場合には、音声処理部２４２は、選択情報で指示される１種類のプリセット音声を特定し、特定したプリセット音声を出力音声として示す音声データを再生部２５０に出力する。

より具体的には、選択可能情報は、音声アセットをなす音声ストリームから得られる要素音声またはプリセット音声の出力特性の調整の可否を示し、調整可とするとき、選択可能情報には調整が可能な項目である調整可能項目が含まれうる。調整可能項目には、例えば、音量、目標位置のいずれか、または、それらの組が含まれうる。音声処理部２４２は、出力特性の調整の案内情報を設定画面に含めて出力してもよい。操作信号で伝達される選択情報により出力特性の調整が指示されるとき、音声処理部２４２は、調整可能項目を表す設定画面を出力してもよい。音声処理部２４２は、調整可能項目に関して選択情報により指示された出力特性に従って、対象とする要素音声またはプリセット音声を処理してもよい。より具体的には、調整可能項目として、複数の要素音声の音量が設定される場合には、音声処理部２４２は、選択情報で指示された音量に従って要素音声を混合（ミキシング）して出力音声を生成する。

また、調整可能項目には、音声アセットをなす音声ストリームから得られる要素音声ごとの目標方向が含まれうる。再生部２５０がマルチチャンネル音声を再生できる場合には、音声処理部２４２は、選択情報で指示された目標方向に知覚されるように要素音声を処理する。ここで、音声処理部２４２は、そのマルチチャンネル音声再生方式について予め設定された目標方向と音声チャンネルごとの音量比の設定情報を参照して、要素音声について指示された目標方向に対応する音声チャンネルごとの音量比を特定する。音声処理部２４２は、特定した音量比で要素音声を分配し、チャンネルごとに分配された音声を出力音声とする。なお、選択可能要素と設定画面の具体例については後述する。

映像処理部２４４は、映像復号部２３２から入力される映像アセットで表現される映像を再生するための処理を行う。
映像処理部２４４は、映像アセットで表現される映像を所定の表示領域に配置した表示画面を生成し、生成した表示画面を表す表示データを表示部２６０に出力する。
映像処理部２４４は、入力部２７０から入力される操作信号の指示に基づき、各種の設定画面を表す表示データを表示部２６０に出力する。

表示部２６０は、提示処理部２４０から入力される表示データで示される各種の表示画面を提示するためのデバイスを備える。表示部２６０は、例えば、ディスプレイを備える。
再生部２５０は、提示処理部２４０から入力される音声データで示される音声を再生するためのデバイスを備える。再生部２５０は、例えば、スピーカを備える。再生部２５０は、複数のスピーカからなるマルチチャンネル音響再生システムであってもよい。

入力部２７０は、ユーザの操作を受け付け、受け付けた操作に応じた操作信号を提示処理部２４０に出力する。入力部２７０は、例えば、マウス、タッチパネル、などの汎用の部材を備えてもよいし、ボタン、レバー、つまみ、などの専用の部材を備えてもよい。入力部２７０として用いられるタッチセンサと表示部２６０として用いられるディスプレイは、互いには重なり合うように一体化され、タッチパネルとして構成されてもよい。
入力部２７０は、他の機器（例えば、遠隔制御装置（リモートコントローラ）、スマートフォンなど）から操作信号を検出する操作信号センサを備えてもよい。操作信号センサは、検出した操作信号を提示処理部２４０に出力する。

次に、パッケージを構成する音声アセットの構成ならびに属性を記述するための記述子の例について説明する。図４は、次世代音声記述子（Next-Generation Audio_Descriptor()）の構成例を示す。次世代音声記述子は、ＭＰＥＧ－Ｈ３ＤＡｕｄｉｏやＤｏｌｂｙ（登録商標）ＡＣ－４方式などの次世代音声符号化方式に基づく音声ストリームに関するパラメータを特定するための基本情報を記述するために用いられる。次世代音声記述子に記述される記述子には、記述子タグ（descriptor_tag）、記述子長（descriptor_length）、オーディオタイプ（nga_type）、プロファイル・レベル（Profile_Level）、プリセット音声（preset()）、および、インタラクティブ項目（interactive()）がある。

記述子タグ（descriptor_tag）には、本記述子を識別するための所定の記述子が記述される。
記述子長（descriptor_length）には、本記述子に記述される情報の情報量を示すバイト数が記述される。
オーディオタイプ（nga_type）には、音声種別として、符号化に用いられた音声符号化方式を示す値が記述される。図４の例では、ＭＰＥＧ－Ｈを示す値として１、Ｄｏｌｂｙ（登録商標）ＡＣ－４を示す値として２のいずれかが記述される。
プロファイル・レベル（Profile_Level）には、プロファイルとレベルが記述される。プロファイルとは、目的または用途別に定義された機能の集合を示す。レベルとは、処理の負荷や使用メモリ量など、要求されるハードウェア資源の量を示す。これらは、音声ストリームをなすチャンネル数、プリセット音声の数、および、１チャンネル当たりの音声のサンプリング周波数に依存する。

プリセット音声（preset()）には、音声アセットをなす音声ストリームにおいて伝送されるプリセット音声の数、個々のプリセット音声の内容（属性）が記述される。プリセット音声は、音声ストリームで伝送される予め定めた１種類の要素音声、複数種類の要素音声の組、または、それらの再生モードなど、予め定めた音声設定を指す。
インタラクティブ項目（interactive()）には、インタラクティブ項目の有無と、インタラクティブ項目が存在する場合に、その内容として、ユーザ操作により選択可能な項目が記述される。インタラクティブ項目（interactive()）には、上記の選択可能情報が記述される。上記のように選択可能情報は、ユーザ操作により選択可能な要素として、伝送される音声ストリームから導出される音声の特性を示す。選択可能情報として、調整可能とする音声の出力特性などが指示されうる。調整可能とする出力特性は、プリセット音声として設定されているか否かに関わらず要素音声ごとに指示されてもよいし、プリセット音声として設定された要素音声またはそれらの組ごとに指示されてもよい。

図５は、記述子に設定されるプリセット音声の例を示す。図５は、１件の番組において４種類のプリセット音声が設定される場合を例にする。この例では、４種類のプリセット音声には、「日本語メイン」、「英語メイン」、「日本語セリフ強調」、「日本語解説音声」が含まれる。この例では、４種類のプリセット音声のいずれかが選択可能となる。
「日本語メイン」は、背景の音声と日本語音声が提示される音声モードを示す。「日本語メイン」は、特段の操作なしに提示される主音声として設定されうる。「英語メイン」は、日本語音声の代わりに英語音声が提示される音声モードを示す。
「日本語セリフ強調」は、日本語のセリフ音声を「日本語メイン」よりも強調して提示するモードである。セリフ音声を強調して提示する際、セリフ音声には、「日本語メイン」における日本語音声の音量よりも大きい音量が設定される。

「日本語セリフ強調」には、「ユーザ操作」の列において「詳細設定」が記述されている。「詳細設定」は、ユーザの操作に応じて詳細な出力特性を調整可能とすることを示す。調整可能な出力特性の種類（例えば、要素音声ごとの音量比）、調整対象とする要素音声、および、その出力特性の設定値（例えば、初期値）が、インタラクティブ項目（interactive()）を用いて記述されうる。
「日本語解説音声」は、通常の日本語音声の他、日本語の解説音声を追加して提示するモードである。この例では、日本語の解説音声の音量は、通常の日本語音声の音量と同等であってもよい。
「日本語解説音声」には、「ユーザ操作」の列において「詳細設定」が記述されている。「詳細設定」に関して、調整可能な出力特性の種類、調整対象とする要素音声、および、その出力特性の設定値（例えば、初期値）が、インタラクティブ項目（interactive()）を用いて記述されうる。

次に、本実施形態に係る設定画面の例について説明する。音声処理部２４２は、次世代音声記述子に記述されたプリセット音声を参照して、選択可能とするプリセット音声の有無、存在する場合には、選択可能とするプリセット音声を特定する。また、音声処理部２４２は、インタラクティブ項目の記述を参照して、調整可能とする出力特性の項目の有無、存在する場合には、その項目に係る設定情報を特定する。設定情報として、調整対象となる要素音声またはプリセット音声、その出力特性の種類や内容が特定される。音声処理部２４２は、特定した選択可能情報を表す設定画面を生成し、生成した設定画面を示す表示データを出力する。

図６は、本実施形態に係る設定画面の一例を示す図である。図６に例示される設定画面は、複数のプリセット音声から、いずれか１種類のプリセット音声を選択するためのプリセット音声選択画面の一例である。このプリセット音声選択画面は、各行に選択可能なプリセット音声とその説明を示し、詳細な出力特性を設定可能とするプリセット音声に対して「詳細設定」の文字列が表されている。この「詳細設定」との表示は、出力特性を調整可能であることをユーザに案内するための案内情報となる。「詳細設定」の表示は、押下により、出力特性の調整がユーザにより指示されるようにリンク表示される。本願では、「押下」とは、現実に押下されることの他、操作により、その表示領域が指示されるという意味も含む。

ここで、図５に例示される４種類のプリセット音声のいずれかを選択可能とし、「日本語セリフ強調」、「日本語解説音声」のそれぞれに対して詳細な出力特性が選択可能とすることが示される。提示対象とする１種類のプリセット音声は、例えば、入力部２７０をなす上下ボタンの押下、または、上下ダイヤル回転などの操作により、巡回的に切り替わる。図６の例では、「英語メイン」が選択され、選択されたプリセット音声とその解説を表す文字列が枠で囲んで表示される。音声処理部２４２は、音声復号部２２２から入力される音声アセットからプリセット音声として、「英語メイン」に係る音声データを選択し、選択した音声データを再生部２５０に出力する。再生部２５０は、プリセット音声として「英語メイン」を再生する。

図７の例では「日本語セリフ強調」について、詳細設定の表示が押下により選択される場合を示す。このとき、音声処理部２４２は、音声復号部２２２から入力される音声アセットからプリセット音声として、「日本語セリフ強調」に係る要素音声として背景の音声と日本語のセリフ音声に係る音声データを選択する。音声処理部２４２は背景の音声と日本語のセリフ音声のそれぞれに「日本語セリフ強調」に所定の利得（ゲイン）を用いて音量を調整する。音声処理部２４２は、音量調整後の日本語音声とセリフ音声をミキシングし、出力音声を合成する。音声処理部２４２は、合成した出力音声を示す音声データを再生部２５０に出力する。

詳細設定の項目は、例えば、入力部２７０としてのリモートコントローラに備わる右ボタンの押下、または、左右ダイヤル回転などの操作により選択される。
音声処理部２４２は、詳細設定の項目の選択を検出するとき、インタラクティブ項目を参照し、「日本語セリフ強調」に係る選択可能情報として、調整可能な出力特性の種類、内容、および、要素音声を特定する。音声処理部２４２は、特定した要素音声ごとに、調整可能項目として出力特性の種類および内容を表す詳細設定画面を生成し、詳細設定画面を表す表示データを表示部２６０に出力する。ユーザは、表示部２６０に表示された設定画面から選択可能情報を視認して選択可能要素を把握し、操作により、いずれかの選択可能要素を選択することができる。

図８は、調整可能項目として、要素音声ごとの出力特性として再生の要否、音量、および、目標方向を設定するための設定画面の例を示す。左から第１列の「グループ１」、「グループ２」、「グループ３」との表示は、それぞれ出力特性を調整可能とする要素音声を示す。グループごとに、ドラマにおける役、人間の発話音声、音楽もしくは物音などの種別、などが指定されうる。左から第２列の「ＯＮ」または「ＯＦＦ」との文字が付されたＯＮ／ＯＦＦボタンは、押下の度に対応する要素音声の出力の要否を指示するためのボタンである。左から第３列のダイヤルは、その回転操作により対応する要素音声の音量を指示するための画面部品である。左から第４列のスライダーバーは、そのつまみの位置の操作により対応する要素音声の目標方向を設定するための画面部品である。目標方向とは、再生部２５０としてマルチチャンネル音響システムにより提示される音声をユーザとなる受聴者に知覚させる目標とする方向である。マルチチャンネル音響システムは、異なる位置に配置された複数のスピーカを備え、出音させるスピーカまたはスピーカ（チャンネル）間の音量比を変更することで目標方向が調整される（音声レンダリング）。音響システムごとに標準のスピーカの配置と受聴位置が規定されている。その規定のもとで、音声処理部２４２には、目標方向とスピーカ（音声チャンネル）ごとの音量比との関係が予め定められる。目標方向と音声チャンネルごとの音量比との関係として、例えば、ｓｉｎ則、ｔａｎ則、ＶＢＡＰ（Vector Based Amplitude Panning）法などのいずれが用いられてもよい。

図８の例では、「グループ１」、「グループ２」について「ＯＮ」と指示され、「グループ３」について「ＯＦＦ」と指示されている。このとき、音声処理部２４２は、プリセット音声として、「日本語セリフ強調」に係る要素音声のうち、「グループ１」、「グループ２」に係る音声データを選択する。音声処理部２４２は、「グループ１」、「グループ２」のそれぞれに対して指示された音量が得られるように音量を調整する。音声処理部２４２は、音量調整後の「グループ１」、「グループ２」のそれぞれに対して指示された目標方向に対応する音量比で、各チャンネルに音声データを分配する。音声処理部２４２は、各チャンネルに分配した音声データを「ＯＮ」と指示された要素音声である「グループ１」と「グループ２」との間でミキシングする。音声処理部２４２は、各チャンネルでミキシングにより得られた音声を出力音声とする音声データを再生部２５０に出力する。これにより、ユーザは、「グループ１」、「グループ２」のそれぞれに対して指示された音量、目標方向で音声を受聴することができる。

なお、図８の例では、再生部２５０がマルチチャンネル音声を再生できる場合を仮定しているが、これには限られない。音声処理部２４２は、自部に接続される再生部２５０の機種を特定し、再生部２５０がマルチチャンネル音声を再生できるか否かを判定してもよい。マルチチャンネル音声を再生できない場合には、音声処理部２４２は、目標方向の設定に係る画面部品を省略し、目標方向への音声レンダリングを省略してもよい。

次に、本実施形態に係る受信処理の例について説明する。図９は、本実施形態に係る受信処理の例を示すフローチャートである。
（ステップＳ２０２）受信部２１２は、放送伝送路ＢＴを経由して伝送された放送信号を受信する。復調部２１４は、放送信号を復調し多重化データを取得する。
（ステップＳ２０４）分離部２１６は、取得された多重化データからパッケージの構成を示すＭＰＴと、音声アセットを分離する。
（ステップＳ２０６）音声処理部２４２は、分離されたＭＰＴから音声アセットの選択可能要素を示す選択可能情報が含まれているか否かを判定する。含まれていると判定されるとき（ステップＳ２０６ＹＥＳ）、ステップＳ２０８の処理に進む。含まれていないと判定されるとき（ステップＳ２０６ＮＯ）、設定画面を生成せずに、ＭＰＴに記述されたパラメータに従って音声アセットを処理し、処理により得られた音声データを再生部２５０に出力する。その後、図９の処理を終了する。

（ステップＳ２０８）音声処理部２４２は、選択可能情報を表す設定画面を生成し、生成した設定画面を示す表示データを表示部２６０に出力する。
（ステップＳ２１０）音声処理部２４２は、入力部２７０から入力される操作信号を待ち受け、操作信号で選択情報が取得されたか否かを判定する。取得された場合（ステップＳ２１０ＹＥＳ）、ステップＳ２１２に出力する。取得されない場合（ステップＳ２１０ＮＯ）、ステップＳ２１０の処理を繰り返す。
（ステップＳ２１２）音声処理部２４２は、取得した選択情報に従って選択された項目と値の一方または両方に従って音声アセットを処理する。
（ステップＳ２１４）音声処理部２４２は、処理により得られた出力音声を示す音声データを再生部２５０に出力する。その後、図９の処理を終了する。

以上に説明したように、本実施形態に係る放送装置１０は、同一パッケージにおける音声アセットと、パッケージを構成する情報を与えるＭＰＴを多重化して多重化データを生成する多重化部１２６と、多重化データを放送で送信する送信部１３０と、を備え、音声アセットに選択可能な要素を含むとき、ＭＰＴは、その選択可能な要素を示す選択可能情報を含む。
受信装置２０は、同一パッケージにおける音声アセットと、パッケージを構成する情報を与えるＭＰＴが多重化された多重化データを放送で受信する受信部２１２と、多重化データからＭＰＴを分離する分離部２１６と、ＭＰＴに音声アセットの選択可能な要素を示す選択可能情報が含まれるとき、選択可能情報を出力し、選択可能情報から選択された選択情報に従って音声アセットを処理する音声処理部２４２と、を備える。
この構成により、ＭＰＴに記述された選択可能要素を示す選択可能情報が提示され、選択された項目や値に従って処理された音声が提示される。音声アセットの内容を解析しなくても選択可能情報が取得できるので、選択可能要素から所望の態様の音声をユーザが任意に選択できる仕組みが効率よく提供される。

また、音声アセットは、単一の音声ストリームであり、選択可能情報は、選択可能要素として、音声ストリームから導出できる音声の特性を示してもよい。音声処理部２４２は、前記音声ストリームから前記選択情報で指示される特性を有する音声を導出してもよい。
この構成により、単一の音声ストリームで複数の選択可能要素が提供可能なとき、提示された選択可能情報を参照して、ユーザにより指示された特性を有する音声が選択情報により指示される。

また、選択可能情報が、音声ストリームから導出できる少なくとも２種類のプリセット音声を示すとき、音声処理部２４２は、少なくとも２種類のプリセット音声のうち、選択情報で指示されるプリセット音声を出力してもよい。
この構成により、複数種類のプリセット音声が選択可能なとき、いずれか１種類のプリセット音声が任意に選択可能となり、選択されたプリセット音声が再生される。

また、選択可能情報は、音声アセットの出力特性の調整の可否を示し、出力特性の調整が可能なとき、選択可能情報は、調整が可能な項目である調整可能項目をさらに示し、音声処理部２４２は、出力特性の調整の案内情報を出力し、選択情報で前記出力特性の調整が指示されるとき、調整可能項目を出力し、調整可能項目に関して指示された出力特性に従って音声アセットを処理してもよい。
この構成により、音声アセットの出力特性の可否、出力特性が調整可能なとき、調整可能項目がユーザに通知される。また、調整可能項目に関して出力特性が指示可能となる。そのため、指示された出力特性を有する音声が再生される。

また、調整可能項目は、音声アセットをなす単一の音声ストリームから導出できる少なくとも２種類の要素音声の音量を含み、音声処理部２４２は、選択情報で指示された音量に従って要素音声を混合してもよい。
この構成により、複数の要素音声の音量が調整可能であることがユーザに通知される。そのため、指示された音量で要素音声が再生される。

また、受信装置２０は、マルチチャンネル音声を再生できる受信部と接続され、調整可能項目は、音声アセットをなす単一の音声ストリームから導出できる要素音声ごとの目標方向を含み、音声処理部２４２は、選択情報で指示された目標方向に知覚されるように要素音声を処理してもよい。
この構成により、要素音声の目標方向が調整可能であることがユーザに通知される。そのため、指示された目標方向に知覚される音声が再生される。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成は上述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。上述の実施形態において説明した各構成は、任意に組み合わせることができる。

例えば、音声アセットに含まれる要素音声の個数、選択可能要素となるプリセット音声の個数、個々のプリセット音声をなす要素音声の組、選択可能要素となる要素音声またはプリセット音声の出力特性の項目、それらの設定値などは、任意に設定される。また、設定画面、詳細設定画面、その他の表示画面における各種の表示情報の個数、内容、大きさ、位置などは、任意に設定される。
また、音声処理部２４２は、ＭＰＴから取得される選択可能要素が、音声復号部２２２または再生部２５０の処理能力により実現できるか否かを判定してもよい。音声処理部２４２は、実現できないと判定した選択可能要素を棄却し、設定画面に含めなくてもよい。

また、受信装置２０の一部の構成が省略されてもよいし、他の構成が追加されてもよい。例えば、受信装置２０において、再生部２５０、表示部２６０、および、入力部２７０のいずれか、または、それらの任意の組み合わせは、受信装置２０のその他の機能部と入出力可能に接続できれば、省略されてもよい。
また、上述の受信装置２０の一部または全部、例えば、分離部２１６、音声復号部２２２、映像復号部２３２、および、提示処理部２４０の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりを実現してもよい。ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやＷＡＮ、ＬＡＮ、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。

また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、ＣＤ－ＲＯＭ等の非一過性の記録媒体であってもよい。また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部または外部に設けられた記録媒体も含まれる。配信サーバの記録媒体に記憶されるプログラムのコードは、端末装置で実行可能な形式のプログラムのコードと異なるものでもよい。すなわち、配信サーバからダウンロードされて端末装置で実行可能な形でインストールができるものであれば、配信サーバで記憶される形式は問わない。

なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に端末装置で一体化する構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。各部の機能を実現するためのプログラムは、個々に構成されてもよい。例えば、提示処理部２４０の機能は、コンピュータシステムが、プログラムとしてのブラウザを実行して実現されてもよい。ここで、コンピュータシステムは、ブラウザに係る処理として、放送信号でコンテンツの一部またはコンテンツとは別個に搬送されるアプリケーションに記述された指令を構文解析して、特定された指令で指示される処理を実行して、提示処理部２４０の機能の一部が実現されてもよい。「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えば、ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１…放送システム、１０…送信装置、２０…受信装置、１２０…コンテンツ構成部、１２２…音声符号化部、１２４…映像符号化部、１２６…多重化部、１２８…変調部、１３０…送信部、２１２…受信部、２１４…復調部、２１６…分離部、２２２…音声復号部、２３２…映像復号部、２４０…提示処理部、２４２…音声処理部、２４４…映像処理部、２５０…再生部、２６０…表示部、２７０…入力部

Claims

同一パッケージにおける音声アセットと、前記パッケージを構成する情報を与えるＭＭＴパッケージテーブル（ＭＰＴ）が多重化された多重化データを放送で受信する受信部と、
前記多重化データから前記ＭＰＴを分離する分離部と、
前記ＭＰＴに前記音声アセットの選択可能な要素を示す選択可能情報が含まれるとき、前記選択可能情報を出力し、
前記選択可能情報から選択された選択情報に従って前記音声アセットを処理する音声処理部と、
を備える受信装置。
前記音声アセットは、単一の音声ストリームであり、
前記選択可能情報は、前記要素として、前記音声ストリームから導出できる音声の特性を示し、
前記音声処理部は、前記音声ストリームから前記選択情報で指示される特性を有する音声を導出する
請求項１に記載の受信装置。
前記選択可能情報が、前記音声ストリームから導出できる少なくとも２種類のプリセット音声を示すとき、
前記音声処理部は、前記少なくとも２種類のプリセット音声のうち、前記選択情報で指示されるプリセット音声を出力する
請求項２に記載の受信装置。
前記選択可能情報は、前記音声アセットの出力特性の調整の可否を示し、
前記出力特性の調整が可能なとき、前記選択可能情報は、調整が可能な項目である調整可能項目をさらに示し、
前記音声処理部は、前記出力特性の調整の案内情報を出力し、
前記選択情報で前記出力特性の調整が指示されるとき、前記調整可能項目を出力し、
前記調整可能項目に関して指示された出力特性に従って前記音声アセットを処理する
請求項１から請求項３のいずれか一項に記載の受信装置。
前記調整可能項目は、前記音声アセットをなす単一の音声ストリームから導出できる少なくとも２種類の要素音声の音量を含み、
前記音声処理部は、前記選択情報で指示された音量に従って前記要素音声を混合する
請求項４に記載の受信装置。
マルチチャンネル音声を再生できる再生部と接続され、
前記調整可能項目は、前記音声アセットをなす単一の音声ストリームから導出できる要素音声ごとの目標方向を含み、
前記音声処理部は、前記選択情報で指示された目標方向に知覚されるように前記要素音声を処理する
請求項４に記載の受信装置。
少なくとも同一パッケージにおける音声アセットと、前記パッケージを構成する情報を与えるＭＭＴパッケージテーブル（ＭＰＴ）を多重化して多重化データを生成する多重化部と、
前記多重化データを放送で送信する送信部と、を備え、
前記音声アセットに選択可能な要素を含むとき、前記ＭＰＴは、前記選択可能な要素を示す選択可能情報を含む
放送装置。
請求項７に記載の放送装置と、
請求項１から請求項６のいずれか一項に記載の受信装置を備える
放送システム。
コンピュータに請求項１から請求項６のいずれか一項に記載の受信装置として機能させるためのプログラム。
同一パッケージにおける音声アセットと、前記パッケージを構成する情報を与えるＭＭＴパッケージテーブル（ＭＰＴ）が多重化された多重化データを放送で受信する受信部を備える受信装置における受信方法であって、
前記受信装置が、
前記多重化データから前記ＭＰＴを分離する分離ステップと、
前記ＭＰＴに前記音声アセットの選択可能な要素を示す選択可能情報が含まれるとき、前記選択可能情報を出力し、
前記選択可能情報から選択された選択情報に従って前記音声アセットを処理する音声処理ステップと、を実行する
受信方法。