JP2024017228A - 放送システム、受信機、受信方法、及びプログラム - Google Patents

放送システム、受信機、受信方法、及びプログラム Download PDF

Info

Publication number
JP2024017228A
JP2024017228A JP2022119736A JP2022119736A JP2024017228A JP 2024017228 A JP2024017228 A JP 2024017228A JP 2022119736 A JP2022119736 A JP 2022119736A JP 2022119736 A JP2022119736 A JP 2022119736A JP 2024017228 A JP2024017228 A JP 2024017228A
Authority
JP
Japan
Prior art keywords
audio
receiver
audio component
descriptor
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022119736A
Other languages
English (en)
Inventor
智夫 西垣
Tomoo Nishigaki
秀樹 鈴木
Hideki Suzuki
裕史 川添
Hirofumi Kawazoe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2022119736A priority Critical patent/JP2024017228A/ja
Publication of JP2024017228A publication Critical patent/JP2024017228A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Figure 2024017228000001
【課題】受信機の能力に応じて、適切な音声再生を行うことができる放送システムを提供すること。
【解決手段】音声コンポーネントを含む放送を行う放送システムであって、音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを示す識別情報を多重化レイヤーに多重した放送波を放送する放送装置と、放送波を受信する受信機とを備え、受信機は、放送波から、識別情報を、多重化レイヤーで取得する分離部と、識別情報に基づいて、受信機の能力に応じた音声コンポーネントを選択する制御部と、選択された音声コンポーネントの音声データを復号化する復号化部とを備える、放送システムである。
【選択図】図1

Description

本発明は、放送システム、受信機、受信方法、及びプログラムに関する。
放送において、AC-4(ETSI TS 103 190)等のオブジェクトベースの音声信号を用いることが検討されている。
特許文献1には、音声オブジェクトの音声信号(オブジェクトベースの音声信号)を優先信号とし、優先して再生することが記載されている。
特開2021-124719号公報
特許文献1では、音声符号装置がオブジェクトベースの音声信号を符号化し、そのビットストリームを対象にして、音声復号装置が復号処理を行う。
しかしながら、放送を受信する受信機には、オブジェクトベースの音声信号を処理する能力を有しないものも存在する。受信機の能力に応じて、適切な音声再生を行うことができることが望まれる。
本発明は、このような事情に鑑みてなされたもので、受信機の能力に応じて、適切な音声再生を行うことができる放送システム、受信機、受信方法、及びプログラムを提供する。
この発明は上述した課題を解決するためになされたもので、本発明の一態様は、音声コンポーネントを含む放送を行う放送システムであって、前記音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを示す識別情報を多重化レイヤーに多重した放送波を放送する放送装置と、前記放送波を受信する受信機とを備え、前記受信機は、前記放送波から、前記識別情報を、前記多重化レイヤーで取得する分離部と、前記識別情報に基づいて、前記受信機の能力に応じた音声コンポーネントを選択する制御部と、選択された前記音声コンポーネントの音声データを復号化する復号化部とを備える、放送システムである。
また、本発明の他の一態様は、上述した放送システムであって、前記識別情報は、MMT(MPEG Media Transport)の記述子であって、番組要素のうち音声信号に関するパラメータを記述する記述子である音声コンポーネント記述子に配置される。
また、本発明の他の一態様は、上述した放送システムであって、前記放送は、AC-4オーディオの音声コンポーネントと、MPEG-4オーディオの音声コンポーネントとを含む複数の音声コンポーネントを含み、前記制御部は、前記音声コンポーネント記述子に配置された前記識別情報に基づいて、前記複数の音声コンポーネントの中から1つの音声コンポーネントを選択し、前記分離部は、選択された前記音声コンポーネントを分離し、前記復号化部は、選択された前記音声コンポーネントの音声データを復号化する。
また、本発明の他の一態様は、上述した放送システムであって、前記放送装置は、前記前記音声コンポーネントがAC-4オーディオのコンポーネントであるときに、前記AC-4オーディオのコンポーネントに含まれる音素材を示す情報を多重化レイヤーに多重した前記放送波を放送し、前記分離部は、前記放送波から、前記音素材を示す情報を、前記多重化レイヤーで取得し、前記制御部は、前記音素材を示す情報に基づいて、前記音素材の組み合わせを選択し、前記復号化部は、選択された前記音素材の音声データを復号化する。
また、本発明の他の一態様は、放送波から、音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを示す識別情報を、多重化レイヤーで取得する分離部と、前記識別情報に基づいて、自装置の能力に応じた音声コンポーネントを選択する制御部と、選択された音声コンポーネントの音声データを復号化する復号化部とを備える、受信機である。
また、本発明の他の一態様は、放送波から、音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを示す識別情報を、多重化レイヤーで取得するステップと、前記識別情報に基づいて、自装置の能力に応じた音声コンポーネントを選択するステップと、選択された音声コンポーネントの音声データを復号化するステップとを有する、受信方法である。
また、本発明の他の一態様は、放送波から、音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを示す識別情報を、多重化レイヤーで取得する分離部と、選択された音声コンポーネントの音声データを復号化する復号化部とを備える受信機のコンピュータを、前記識別情報に基づいて、自装置の能力に応じた音声コンポーネントを選択する制御部として機能させるためのプログラムである。
この発明によれば、受信機の能力に応じて、適切な音声再生を行うことができる。
本発明の実施形態に係る放送システムSysの構成の一例を示す図である。 同実施形態に係る放送システムSysの一例を示す図である。 同実施形態に係る放送システムSysの比較例を示す図である。 同実施形態に係る放送システムSysの別の一例を示す図である。 同実施形態に係る放送システムSysの概略を説明する説明図である。 同実施形態に係るプロトコルスタックの構造の一例を示す図である。 同実施形態に係るMPTのデータ構造を示す図である。 同実施形態に係る受信機2のハードウェア構成を示す概略図である。 同実施形態に係る受信機内の信号処理の流れの一例を表す概略図である。 同実施形態に係る音声切替メニューの一例を示す図である。 同実施形態に係るMH-音声コンポーネント記述子の構造の一例を示す概略図である。 同実施形態に係るnga_typeの値の例を示す表である。 同実施形態に係るnga_levelの値の例を示す表である。 同実施形態に係るMH-音声コンポーネント記述子の構造の別の一例を示す概略図である。 同実施形態に係るstream_contentの値の例を示す表である。 同実施形態に係るnga_levelの値の別の例を示す表である。 同実施形態に係るMH-AC-4音声記述子の構造の一例を示す概略図である。 同実施形態に係るpresentation()の構造の例を示す概略図である。 同実施形態に係るpresentation()の構造の別の例を示す概略図である。 同実施形態に係る切替えの詳細例を表すフローチャートである。
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
[システム構成]
図1は、本発明の実施形態に係る放送システムSysの構成の一例を示す図である。
放送システムSysは、放送局の放送装置1(「放送局1」という)、中継局Sa、受信機2、放送局サーバ3、及び事業者サーバ4を具備する。放送は、例えば地上デジタル放送であるが、例えば高度BS(Broadcasting Satellites)デジタル放送又は高度広帯域CS(Communication Satellites)デジタル放送であってもよい。また本発明は、これらの放送に限られず、放送は、中継局Saを用いない放送であってもよい。また放送は、ケーブルテレビ等の有線放送であってもよい。中継局Saは、例えば、デジタル中継局であるが、放送衛星であってもよい。
放送システムSysでは、放送局の放送局1から放送波によってデジタル放送信号、アプリケーション制御情報、提示に関する制御情報などを送出する。サービス事業者は、事業者サーバ4から、番組に関連するメタデータや動画コンテンツ等を提供する。
アプリケーション制御情報は、番組と連動するアプリケーション等を本システム対応受信機に周知するとともに起動・終了のためのコマンド、制御情報を送るものである。
提示に関する制御情報は、アプリケーションと放送番組の同一TV画面上での重ね合わせやアプリケーションの提示の可否に関する制御情報を送るものである。
放送局は、放送システムSysにおいて、放送局サーバ3を運営する。放送局サーバ3は、番組タイトル、番組ID、番組概要、出演者、放送日時などのメタデータの提供を行う。放送局がサービス事業者に提供する情報は、放送局サーバ3が備えるAPI(Application Programming Interface)を通して提供される。
サービス事業者は、放送システムSysによるサービスを提供する者であり、サービスを提供するためのコンテンツ、アプリケーションの制作・配信、個々のサービスを実現するための放送局サーバ3の運営を行う。ここで、サービスには、放送と通信を連携させる放送通信連携サービスが含まれる。
放送局サーバ3は、「アプリケーションの管理・配布」のため、受信機2に対してアプリケーションの送出を行う。放送局サーバ3は、「サービス毎のサーバ」として、個々のサービス(MPEG-Hサービス、VOD番組レコメンドサービス、多言語字幕サービス等)を実現するためのサーバ機能を提供する。
MPEG-Hは、デジタルコンテナ標準、動画圧縮標準、音声圧縮標準、そして2つの順応試験標準のため、ISO/IEC Moving Picture Experts
Group(MPEG)の開発下にある一連の標準である。MPEG-Hサービスは、AC-4オーディオの音声コンポーネントを含むことができる。AC-4オーディオでは、例えば、オブジェクトベース音響が可能である。オブジェクトベース音響の「オブジェクト」とは、音楽や人の声などの番組を構成する音の素材一つ一つである。オブジェクトベース音響では、音の素材ごとに音声信号が記録され、素材ごとの音声制御が可能である。また、受信機2で再生する時に、素材の再生位置情報を基に、実際に置かれているスピーカーの位置に合わせて番組を再生することも可能である。
放送局サーバ3は、こうしたサービスの機能面を実現するだけでなく、サービスを構成するコンテンツ(AC-4オーディオデータ、VODコンテンツ、字幕データなど)の送出も行う。放送局サーバ3は、「リポジトリ」として、放送システムSysのアプリケーションを配布するために登録し、受信機2からの問い合わせに応じて提供可能なアプリケーションの一覧の提供や検索を行う。
受信機2には、既存デジタル放送の受信機能に加えて、放送通信連携サービスを実現するための機能を備えたものも含まれる。受信機2には、ブロードバンドネットワーク接続機能に加え、次の機能を有している。
・放送からのアプリケーション制御信号に応じてアプリケーションを実行する機能・放送と通信間の連携による提示を行う機能
・端末連携機能
ここで、端末には、例えば、スマートフォンやスマートスピーカー等のユーザー端末が含まれる。受信機2の端末連携機能は、他の端末の要求に応じて番組情報などの放送リソースにアクセスしたり、再生制御等の受信機機能を呼び出したりする。
また、アプリケーションの例としては、AC-4オーディオのデジタルミキサーが含まれる。ユーザー(「受信者」ともいう)は、事業者サーバ4から受信したデジタルミキサーを用いて、音の素材ごとの音声信号に対して音の強弱又はエフェクト等の調整や音の素材間のバランスを調整できる。これらの調整は、スピーカーごとに行うこともできる。
より具体的には、受信機2は、次の機能を有する。
受信機2は、「放送受信再生」機能として、放送電波を受信し、特定の放送サービスを選局して、サービスを構成する映像、音声、字幕、データ放送を同期再生する機能を有する。
受信機2は、「通信コンテンツ受信再生」機能として、通信ネットワーク上のサーバ(例えば事業者サーバ4)に置かれた映像コンテンツにアクセスし、VODストリーミングとして受信し、コンテンツを構成する映像、音声、字幕を同期再生する機能を有する。
受信機2は、「アプリケーション制御」機能として、通信ネットワーク上のサーバあるいは放送信号から取得したアプリケーション制御情報に基づき、主にマネージドアプリケーションに関してアプリケーションエンジンに対して働きかけ、アプリケーション単位のライフサイクル及びイベントの制御・管理を行う機能を有する。
受信機2は、「アプリケーションエンジン」機能として、アプリケーションを取得し、実行する機能を有する。この機能は、例えばHTML5ブラウザで実現される。
受信機2は、「提示同期制御」機能として、放送受信による映像・音声等のストリームと、ストリーミング受信による映像・音声等のストリーム提示同期を制御する機能を有する。
受信機2は、「アプリケーションロンチャー」機能として、主に放送外マネージドアプリケーションをユーザーが選択、起動するためのナビゲーション機能を有する。
図2は、本実施形態に係る放送システムSysの一例を示す図である。
図2の受信機2は、AC-4の音声に対応した受信機である。
放送局1は、映像信号と音声信号を多重化し、多重化された信号を送信する。多重化方式としてMMT(MPEG Media Transport)・TLV(Type Length Value)が用いられる。
放送局1は、MPEG-4の音声(チャンネルベースの音声:例えば音声A12~音声A14)の信号とAC-4の音声(オブジェクトベースの音声:音声A11)の信号の両方を含む音声信号A1(「高度オーディオ信号」とも称する)を生成して送信する。
このように、放送局1は、高度オーディオ信号と、MPEG-4オーディオ信号と、を並列して送出する。
より具体的には、放送局1は、AC-4の音声を音声コンポーネント(アセット)とし、この音声コンポーネントとMPEG-4の音声の各音声コンポーネントとが多重化された高度オーディオ信号A1を、生成する。この多重化は、各音声コンポーネントの音声データ列が符号化された後に行われる。放送局1は、この高度オーディオ信号A1が多重化された放送波を送出する。
放送局1は、アセット情報を記述するテーブルにおいて、そのアセット(音声コンポーネント)がAC-4オーディオ(オブジェクトベースの音声:例えば音声A11)のコンポーネントであるか否かを記述子で記述する。なお、AC-4オーディオのコンポーネントであるか否かの記述子は、高度オーディオ信号A1が存在するかどうかの記述子であってもよく、AC-4オーディオ信号が含まれているかどうかを示してもよい。
MMTでは、映像や音声などのコンポーネントをアセットと定義する。
AC-4の音声A11の一例は、チャンネル音声が最大11.1ch、セリフ音声が日本語又は英語、解説音声が日本語又は英語の音声である。
受信機2は、チューナー211、Demux(デマルチプレクサ)22、セレクタ231、音声デコーダー(復号化部)232、ミキサー233、及び映像デコーダー241を含んで構成される。受信機2の詳細な構成については、後述する。
チューナー211は、アンテナを介して放送波を受信し、ユーザー操作に基づいて選択されていているチャンネルに同調(選局)する。同調された信号は復調され、データとしてDemux22へ入力される。
Demux22は、入力されたデータを、映像データ列、音声データ列、文字スーパーデータ列、字幕データ列等に分離する。分離された音声データ列は、セレクタ231へ出力される。分離された映像データ列は、映像デコーダー241へ出力される。
ここで、Demux22は、音声データ列について、AC-4の音声A11と、MPEG-4の各音声A12、A13、A14と、の各音声コンポーネントの音声データ列に分離する。より具体的には、Demux22は、アセット情報を記述するテーブルにおいて、AC-4オーディオ信号が存在するかどうかを記述子で判断する。Demux22は、AC-4オーディオ信号が存在すると判断した場合、受信機2がAC-4の音声デコード能力があるときには、高度オーディオ信号のデータから音声A11、音声A12、音声A13、及び音声A14を分離する。Demux22は、AC-4オーディオ信号が存在しないと判断した場合、音声A12、音声A13、及び音声A14だけを分離する。なお、Demux22は、音声A11、音声A12、音声A13、及び音声A14のうち、復号するものだけを分離するようにしてもよい。
Demux22から出力された各音声コンポーネントの音声データ列は、セレクタ231に入力される。セレクタ231は、ユーザー操作又は受信機2の能力に応じて、音声コンポーネントの音声データ列を選択する。受信機2の能力には、例えば、同時にデコードできるチャンネル数、又は再生できるスピーカーの種類や能力が含まれる。セレクタ231は、選択した音声データ列を音声デコーダー232へ出力する。
音声デコーダー232は、セレクタ231から入力された音声コンポーネントの音声データ列を復号化する。
ミキサー233は、音声デコーダー232に復号化された音声データ列がAC-4の音声データ列である場合には、音の素材ごとの音声を合成して、ダウンミックス処理を行う。ダウンミックス処理をされた音声データ列は、音声に変換されてスピーカーから出力される。音声デコーダー232に復号化された音声データ列がMPEG-4の音声データ列である場合には、その音声データ列は、音声に変換されてスピーカーから出力される。つまり、MPEG-4の音声データ列に対しては、音の素材ごとの音声の合成や、ダウンミックス処理が行われない。
Demux22から出力された映像データ列は、映像デコーダー241に入力される。
映像デコーダー241は、入力された映像データ列を復号化する。復号化された映像データ列は、必要に応じた色空間変換処理が行われ、ディスプレイでの映像の表示に用いられる。なお、Demux22に分離された文字スーパーデータ列及び字幕データ列は、それぞれ、文字スーパーデコーダー及び字幕デコーダー(不図示)で復号化され、復号かされた文字列は、映像に重畳される。
以上のとおり、本実施形態に係る受信機2は、AC-4オーディオ(音声)を音声コンポーネントに含む放送で、AC-4オーディオのコンポーネントであることを示す情報を、多重化レイヤーで取得する。受信機2は、自装置の能力に応じた音声コンポーネントを選択するので、受信機2の能力に応じて、適切な音声再生を行うことができる。
図3は、本実施形態に係る放送システムSysの比較例を示す図である。
この図は、放送局C1が、AC-4の音声のみを送出する場合の一例である。この例では、AC-4の音声は、MPEG-4の音声と多重化もされない。
この例は、AC-4の音声は、唯一の音声コンポーネントとして運用されている例である。そのため、アセット情報を記述するテーブルにおいて、AC-4オーディオのコンポーネントであるか否かを示す記述子も含まれていない。この場合、DemuxC22は、AC-4の音声を音声コンポーネント(音声の構成)として取得ができるが、処理可能かどうか(レベル等)が判断できない。DemuxC22から出力された音声データ列は、音声デコーダーC232にて復号され、ミキサーC233へ出力される。
図3の比較例に対して、本実施形態に係る放送局1は、AC-4オーディオ信号とMPEG-4オーディオ信号を並行して送出する。受信機2は、まずAC-4オーディオ信号であるか否かを記述子で判断し、音声デコード能力に応じて、AC-4またはMPEG-4の音声を選択する。
これにより、受信機2は、自装置の能力に応じて、AC-4またはMPEG-4のうち、適切な音声再生を行うことができる。
図4は、本実施形態に係る放送システムSysの別の一例を示す図である。この図において、受信機2aは、AC-4に対応していない受信機である。
この図の受信機2aは、チューナー211、Demux22a、セレクタ231a、音声デコーダー232a、及び映像デコーダー241を含んで構成される。この図において、図3の受信機2と同じ機能部については同じ符号を付し、その説明を省略する。
Demux22aは、入力されたデータを、映像データ列、音声データ列、文字スーパーデータ列、字幕データ列等に分離する。分離された音声データ列は、セレクタ231aへ出力される。分離された映像データ列は、映像デコーダー241へ出力される。
ここで、Demux22aは、音声データ列について、MPEG-4の各音声A12、A13、A14と、の各音声コンポーネントの音声データ列に分離する。より具体的には、Demux22aは、アセット情報を記述するテーブルにおいて、各音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを記述子で判断する。Demux22aは、AC-4オーディオのコンポーネントである音声A11は再生可能ではないと判定する。
Demux22は、高度オーディオ信号A1のデータから、音声A12、音声A13、及び音声A14を分離する。
なお、このような信号の選択(MPEG-4オーディオ信号の選択、又はMPEG-4オーディオ信号のみのサイマル放送の選択)は、セレクタ231で行われてもよい。
図5は、本実施形態に係る放送システムSysの概略を説明する説明図である。
放送システムSysにおいて、放送局1は、AC-4エンコーダ11、MPEG-4エンコーダ111~113、Mux(マルチプレクサ)12を含んで構成される。なお、放送局1は、その他放送に必要な機能部を有する。この図のMPEG-4エンコーダは、3個の例をしめすが、放送局1は、MPEG-4エンコーダを2個以下備えるものであってもよいし、4個以上備えるものであってもよい。
受信機2は、Demux22、セレクタ231、AC-4デコーダー232-1、MPEG-4デコーダー232-2、AC-4レンダラー233-1、及び、ミキサー233-2を含んで構成される。この図において、図2の受信機2と同じ機能部については同じ符号を付す。なお、AC-4デコーダー232-1及びMPEG-4デコーダー232-2は、図2の音声デコーダー232に対応する。AC-4レンダラー233-1及びミキサー233-2は、図2のミキサー233に対応する。
放送局1では、AC-4の音声の音素材として、背景音(22.2ch/11.1ch)、セリフ(日本語)、セリフ(英語)、解説音声(日本語)、及び解説音声(英語)のデータが、AC-4エンコーダ11へ入力される。また、MPEG-4の音声の音素材として、日本語のセリフを含む7.1chの音声、日本語のセリフを含むステレオの音声、及び英語のセリフを含むステレオのデータが、それぞれ、MPEG-4エンコーダ111、112、113へ入力される。
AC-4エンコーダ11は、入力された音声を符号化することで、AC-4の音声ストリームSt1を出力する。このストリームを、AC-4ストリームともいい、複数の音声オブジェクト(背景音、セリフ(日本語)、セリフ(英語)、解説音声(日本語)、及び解説音声(英語))を含む1つのエレメンタリストリームである。
MPEG-4エンコーダ111、112、及び113は、入力された音声を符号化することで、それぞれ、MPEG-4の音声ストリームSt2、St3及びSt4を出力する。
Mux12には、映像ストリーム、SI(Signaling Information)、MPEG-Hの音声ストリームSt1、MPEG-4の音声ストリームSt2、St3及びSt4が入力される。Mux12は、これらのデータを多重化する。多重化されたデータは、変調され、変調後の信号が放送波として放送される。
受信機2に受信された放送波は復調され、復調後のデータはDemux22に入力される。Demux22は、入力されたデータを、映像ストリーム、SI、AC-4の音声ストリームSt1、MPEG-4の音声ストリームSt2、St3及びSt4に分離する。AC-4の音声ストリームSt1、MPEG-4の音声ストリームSt2、St3及びSt4は、セレクタ231に入力される。SIのMPT(MMT Package Table)からは、音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを示す記述子が抽出される。
セレクタ231は、抽出された記述子に基づいて、AC-4オーディオ信号が存在するかどうかを判断する。AC-4オーディオ信号が存在する場合、セレクタ231は、AC-4の音声ストリームSt1を、AC-4デコーダー232-1へ出力する。
セレクタ231は、MPTに基づいて、MPEG-4の音声ストリームSt2、St3又はSt4を、MPEG-4デコーダー232-2へ出力する。
AC-4デコーダー232-1は、AC-4の音声ストリームSt1を復号化することで、背景音(22.2ch/11.1ch)、セリフ(日本語)、セリフ(英語)、解説音声(日本語)、及び解説音声(英語)のデータを抽出する。
AC-4レンダラー233-1は、AC-4オーディオのオーディオレンダラーであり、AC-4デコーダー232-1が抽出したデータの音声をレンダリング処理(ダウンコンバート、或いはアップコンバートを含む)し、ミキサー233へ出力する。
MPEG-4デコーダー232-2は、MPEG-4の音声ストリームSt2、St3又はSt4を復号化することで、日本語のセリフを含む7.1chの音声、日本語のセリフを含むステレオの音声、及び英語のセリフを含むステレオのデータを抽出し、ミキサー233へ出力する。
ミキサー233-2は、入力されたデータの音声を合成し、合成された音声は、各スピーカー又はヘッドホン等から出力される。
[放送波の制御情報について]
本実施形態に係る放送波について、説明する。
放送波において、制御情報は、各放送事業者がその放送信号であるTLVストリームに重畳して送出される。制御情報には、TLV多重化方式に関わるTLV-SI(TLV-Signaling Information)と、メディアトランスポート方式であるMMTに関わるMMT-SI(MMT-Signaling Information)がある。
以下では、(映像又は音声の)「コンポーネント」を「アセット」ともいう。
<MMTを用いるシステムのプロトコルスタックの構造>
MMTを用いるシステムにおいて、制御情報が配置されるプロトコルスタックの構造の例について説明する。
図6は、本実施形態に係るプロトコルスタックの構造の一例を示す図である。
この図に示すように、放送システムに用いるプロトコルスタックは、TMCC(Transmission and Multiplexing Configuration
Control)、時刻情報、符号化された映像データ、符号化された音声データ、符号化された字幕データ、MMT-SI、HTML5規格で記述されたアプリケーション(単にアプリともいう)、EPG(電子番組ガイド)、コンテンツダウンロードデータ等を含んで構成される。放送番組の映像信号及び音声信号の符号はMFU(Media Fragment Unit)/MPUである。そして、MFU/MPUは、MMTPペイロードに乗せて放送局1によってMMTPパケット化され、IPパケットで放送局1によって伝送される。データコンテンツの伝送は、データが放送局1によってMMTPパケット化され、IPパケットで放送局1によって伝送される。このように構成されたIPパケットは、放送伝送路を用いて放送される場合、TLVパケットの形式で放送局1によって伝送される。一つのIPパケットあるいは一つのヘッダー圧縮したIPパケットは、一つのTLVパケットで放送局1によって伝送する。
さらに、放送システムに用いるプロトコルスタックでは、MMT-SI、TLV-SIの2種類の制御情報が設けられている。MMT-SIとは、放送番組の構成などを示す制御情報である。MMT-SIでは、MMTの制御メッセージの形式とし、放送局1によってMMTPペイロードに乗せられてMMTPパケット化され、放送局1によってIPパケットで伝送される。TLV-SIとは、IPパケットの多重に関する制御情報であり、選局のための情報やIPアドレスとサービスの対応情報を提供する。
また、TMCCとは、伝送路上の信号の単位(スロット)ごとに変調方式やエラー訂正方式を指定する階層変調方式において、伝送フレームに挿入して伝送するこれらの制御情報である。HEVC(High Efficiency VIDeo Coding)とは、映像信号の符号化の手法である。映像信号の符号化の手法としてはVVC(Versatile Video Codec)を使ってもよい。AAC(Advanced Audio Coding)、ALS(Audio Lossless Coding)、及びAC-4とは、音声信号の符号化の手法である。UDP/IP(User Datagram Protocol/Internet Protocol)とは、通信に使われるプロトコルの1つである。TLV(TYPE LENGTH VALUE)とは、データの多重化手法の1つである。
TLVは、データの符号化をデータタイプ(Type)、長さ(Length)、値(Value)の3つで構成される。
<メッセージの種類と識別>
MMT-SIには、メッセージ、テーブル、記述子が含まれている。
メッセージには、Package Access(PA)メッセージ、M2セクションメッセージ、CAメッセージ、M2短セクションメッセージ、データ伝送メッセージ、及び事業者が設定するメッセージが含まれる。
放送で使用するMMT-SIのメッセージは、次の通りである。
「PAメッセージ」は、サービスのエントリーポイントを示すために、PLT およびMPT を伝送する。
「M2セクションメッセージ」は、MPEG-2 Systemsのセクション拡張形式を伝送する。
「CA メッセージ」は、限定受信方式に関する情報を伝送する。
「M2 短セクションメッセージ」は、MPEG-2 Systems のセクション短形式を伝送する。
「データ伝送メッセージ」は、データ伝送に関するテーブルを伝送する。
<テーブルの種類と識別>
放送で使用するTLV-SIのテーブルは、次の通りである。
「TLV-NIT(Network Information Table for
TLV)」は、TLV パケットによる伝送において、変調周波数など伝送路の情報と放送番組を関連付ける情報を伝送する。
「AMT(Address Map Table)」は、放送番組番号を識別するサービス識別子とIP パケットとを関連付ける情報を伝送する。
放送で使用するMMT-SIのテーブルは、次の通りである。
「MPT(MMT Package Table)」は、アセットのリストやその位置などパッケージを構成する情報を与える。
「PLT(Package List Table)」は、放送サービスとして提供されるサービスのMPTを含むPAメッセージを伝送するパケットID の一覧を示す。
「ECM(EntitLement ControL Message)」は、番組情報(番組に関する情報とデスクランブルのための鍵など)及び制御情報(デコーダーのスクランブル機能の強制オン/オフ指令)からなる共通情報を伝送する。
「EMM(EntitLement Management Message)は、加入者毎の契約情報及び共通情報の暗号を解くためのワーク鍵を含む個別情報を伝送する。
「CAT(MH)(ConditionaL Access Table)」は、限定受信放送を構成する関連情報のうち個別情報を伝送するMMTPパケットのパケット識別子を指定する。
「MH-EIT(MH-Event Information Table)」は、番組の名称、放送日時、内容の説明など、番組に関する情報を伝送する。
「MH-AIT(MH-AppLication Information Table)」は、アプリケーションに関する動的制御情報及び実行に必要な付加情報を伝送する。
「MH-BIT(MH-Broadcaster Information Table)」は、ネットワーク上に存在するブロードキャスタの情報を提示するために用いる。
「MH-SDTT(MH-Software DownLoad TriggerTable)」は、ダウンロードのサービスID、スケジュール情報、更新対象の受信機種別などの告知情報を伝送する。
「MH-SDT(MH-Service Description Table)」は、編成チャンネルの名称、放送事業者の名称など、編成チャンネルに関する情報を伝送する。
「MH-TOT(MH-Time Offset Table)」は、現在の日付時刻の指示、及び、実際の時刻と人間系への表示時刻の差分時間を伝送する。
「MH-CDT(MH-Common Data Table)」は、事業者ロゴマークなど、受信機で共通に必要であり、不揮発性メモリに格納する事を前提としたデータを伝送する。
「DDMT(Data Directory Management Table)」は、アプリケーションを構成するファイルのディレクトリ構成を提供する。
「DAMT(Data Asset Management Table)」は、アセット内のMPU の構成とMPU 毎のバージョン情報を提供する。
「DCCT(Data Content Configuration Table)」は、データコンテンツとしてのファイルの構成情報を提供する。
「EMT(Event Message Table)」は、イベントメッセージに関する情報を伝送するために用いる。
<MMTパッケージテーブル>
MPT(MMTパッケージテーブル)は、アセットのリストやアセットのネットワーク上の位置などパッケージを構成する情報を与える。
図7は、本実施形態に係るMPTのデータ構造を示す図である。
「table_id」(テーブル識別子)は、テーブル識別子は8ビットのフィールドで、各テーブルを識別する。
「version」(バージョン)は、テーブルのバージョン番号を書き込む領域である。
「length」(テーブル長)は、このフィールドより後に続くデータバイト数を書き込む領域である。
「MMT_package_id_length」は、パッケージIDバイトの長さをバイト単位で示す。
「MMT_package_id_byte」は、パッケージIDを示す。サービスを識別するためのサービス識別と同じ値とする。
「MPT_descriptors_length」は、MPT記述子領域の長さをバイト単位で示す。
「MPT_descriptors_byte」(MPT記述子領域)は、MPTの記述子を格納する領域である。
なお、番組がマルチビュー番組である場合、MPTの記述子領域には、MH-コンポーネントグループ記述子(MH-Component_Group_Descriptor())が含まれる。これに対して、番組がマルチビュー番組ではない場合、MPTの記述子領域には、MH-コンポーネントグループ記述子が含まれない。
「number_of_assets」(アセット数)は、本テーブルが情報を与えるアセットの数を示す。
MPTは、1又は複数のアセットの各々を記述する領域を有する。この領域には、アセット毎に、次のフィールドが格納される。
「identifier_type」(識別子タイプ)は、MMTPパケットフローのID体系を示す。アセットIDを示すID体系であれば特定値(0x00)とする。
「asset_id_scheme」(アセットID 形式)は、アセットID の形式を示す。「asset_id」について、受信機2は、component_tag値を受信動作に使う。受信機2は、アセットの識別に、component_tag値を用いる。
「asset_id_length」(アセットID 長)は、アセットIDバイトの長さをバイト単位で示す。
「asset_id_byte」(アセットID バイト)は、アセットIDを示す。
「asset_type」(アセットタイプ)は、アセットの種類を示す。
アセットタイプには、例えば、HEVCで符号化された映像データを示すhvc1、MPEG-4オーディオで符号化された音声データを示すmp4a、又は、MPEG-Hオーディオで符号化された音声データを示すmha1、mha2、mhm1、mhm2、AC-4で符号化された音声データを示すac-4などが記述される。
「asset_clock_relation_flag」(クロック情報フラグ)は、アセットのクロック情報フィールドの有無を示す。
「location_count」(ロケーション数)は、アセットのロケーション情報の数を示す。
「MMT_general_location_info」(ロケーション情報)は、アセットのロケーション情報を示す。
「asset_descriptors_length」(アセット記述子長)は、後続の記述子の全バイト長を示す。
「asset_descriptors_byte」(アセット記述子領域)は、アセットの記述子を格納する領域とする。
<記述子の種類と識別>
放送で使用するTLV-SIの記述子は、次の通りである。
「サービスリスト記述子(Service List Descriptor)」は、編成チャンネルとその種別の一覧の記述である。
「衛星分配システム記述子(SateLLite DeLivery System
Descriptor)」は、衛星伝送路の物理的条件の記述である。
「システム管理記述子(System Management Descriptor)」は、放送/非放送などの識別である。
「ネットワーク名記述子(Network Name Descriptor)」 は、ネットワーク名の記述である。
放送で使用するMMT-SIの記述子は、次の通りである。
「リモートコントロールキー記述子」は、受信機用リモコン(リモートコントローラー)のワンタッチキーに割り当てるサービスをユニークに提供する。
「アセットグループ記述子」は、アセットのグループ関係とグループ内での優先度を提供する。
「MPUタイムスタンプ記述子」は、MPUの提示時刻を提供する。
「アクセス制御記述子」は、限定受信方式を識別する。
「スクランブル方式記述子」は、スクランブルサブシステムを識別する。
「緊急情報記述子(MH)」は、緊急警報信号としての必要な情報及び機能の記述を提供する。
「MH-イベントグループ記述子」は、複数イベントのグループ化情報を記述する。
「MH-サービスリスト記述子」は、編成チャンネルとその種別の一覧を記述する。
「MH-短形式イベント記述子」は、番組名と番組の簡単な説明を記述する。
「MH-拡張形式イベント記述子」は、番組に関する詳細情報を記述する。
「映像コンポーネント記述子」は、番組要素信号のうち映像信号に関するパラメータ、説明などを記述する。
「MH-ストリーム識別記述子」は、個々の番組要素信号の識別に用いる。
「MH-コンテント記述子」は、番組ジャンルを記述する。
「MH-パレンタルレート記述子」は、 視聴許可年齢制限を記述する。
「MH-音声コンポーネント記述子」は、番組要素のうち音声信号に関するパラメータを記述する。
「MH-対象地域記述子」は、対象とする地域を記述する。
「MH-シリーズ記述子」は、複数イベントにまたがるシリーズ情報を記述する。
「MH-SI伝送パラメータ記述子」は、SI伝送のパラメータ(周期グループや再送周期等)を記述する。
「MH-ブロードキャスタ名記述子」は、ブロードキャスタ名を記述する。
「MH-サービス記述子」は、編成チャンネル名とその事業者名を記述する。
「MH-データ符号化方式記述子」は、データ符号化方式を識別するために使用する。
「UTC-NPT参照記述子」は、NPTとUTCの関係を伝達する。
「イベントメッセージ記述子」は、イベントメッセージ一般に関する情報を伝達する。
「MH-ローカル時間オフセット記述子」は、サマータイム制度実行時の、実際の時刻と人間系への表示時刻との差分時間を記述する。
「MH-ロゴ伝送記述子」は、簡易ロゴ用文字列、CDT 形式のロゴへのポインティングなどを記述する。
「MPU拡張タイムスタンプ記述子」は、 MPU内のアクセスユニットの復号時刻等を提供する。
「MPUダウンロードコンテンツ記述子」は、MPUを用いてダウンロードされるコンテンツの属性情報を記述する。
「MH-アプリケーション記述子」は、アプリケーションの情報を記述する。
「MH-伝送プロトコル記述子」は、伝送プロトコルの指定と伝送プロトコルに依存したアプリケーションのロケーション情報を記述する。
「MH-簡易アプリケーションロケーション記述子」は、アプリケーションの取得先の詳細を記述する。
「MH-アプリケーション境界権限設定記述子」は、アプリケーションバウンダリの設定、領域(URL)毎の放送リソースアクセス権限の設定を記述する。
「リンク先PU記述子」は、リンク先プレゼンテーションユニットの情報を記述する。
「アプリケーションサービス記述子」は、サービスに関連するアプリケーションのエントリー情報等を記述する。
「MPUノード記述子」は、当該MPU がデータディレクトリ管理テーブルにて規定されるディレクトリノードに対応することを示す。
「PU構成記述子」は、プレゼンテーションユニットを構成するMPUのリストを示す。
「MH-階層符号化記述子」は、階層符号化された映像ストリームコンポーネントを識別するための情報を記述する。
「コンテンツコピー制御記述子」は、当該サービス全体に対して、デジタルコピーに関する制御情報を示す場合か、あるいは最大伝送レートを記述する場合に配置する。
「コンテンツ利用制御記述子」は、当該番組に対して、蓄積や出力に関する制御情報を記述する場合に配置する。また当該番組またはアセットに対して、「個数制限コピー可」を運用するかどうかの指定を行う場合に配置する。
「関連ブロードキャスタ記述子」は、NVRAMへのアクセスに必要なBS/広帯域CS デジタル放送のブロードキャスタおよび地上デジタル放送の系列の識別値を示す。
「マルチメディアサービス情報記述子」は、データコンテンツの有無や字幕の有無などマルチメディアサービスの個々のコンテンツに関する詳細情報を記述する。
「緊急ニュース記述子」は、安心安全に関わる緊急ニュース速報(緊急地震速報、臨時ニュース、速報スーパー)が放送中であることを示す。
「MH-CA契約情報記述子」は、サービス又はイベントが予約可能であることを確認する情報を記述する。
「MH-CA サービス記述子」は、自動表示メッセージを運用する事業体の編成チャンネルを示し、当該メッセージの表示制御情報を記述する。
「MH-AC-4音声記述子」は、AC-4の音声コンポーネントに関するパラメータを記述する。
<MH-音声コンポーネント記述子およびMH-AC-4音声記述子の配置>
「MH-音声コンポーネント記述子」および「MH-AC-4音声記述子」は、次のテーブルに配置される。
・MPT(アセット記述子領域)
・MH-EIT[p/f actual] (MH-EIT[p/f])
・MH-EIT[schedule actual basic](MH-EIT[schedule basic])
「MPT」は、「PAメッセージ」に格納される。
「MH-EIT[p/f]」は、現在と次のイベントに関する時系列情報であり、前者をpresent、後者をfollowing という。
「MH-EIT[p/f actual]」及び「MH-EIT[schedule actual basic]」は、自TLVストリームで運用しているサービスに含まれるイベントに関して記述したテーブルであり、「M2セクションメッセージ」に格納される。
なお、「MH-AIT」は、アプリケーションのライフサイクル、制約等を指示する制御情報を示すテーブルでもある。「MMT」は、複数の伝送路での一体的な伝送を可能とする多重化方式でもある。「MP4 ACC」は、ISO/IEC 14496-3により規定される音声符号化方式である。「MP4 ALS」(ALS:Audio Lossless Coding)は、ISO/IEC 14496-3により規定される音声ロスレス符号化方式である。「MPT」は、MMTパッケージテーブルの略である。「MPT」は、アセットのリストやその位置等サービス(パッケージ)を構成する情報を与えるテーブルである。特定の情報を示す要素や属性をもつ。「テーブル」は、メッセージに格納され、MMTPパケットにて伝送される。「テーブル」は、テーブルを格納するメッセージはテーブルに応じて決まっている。「パッケージ」とは、MMT規格では、コンテンツの単位のことを表す。「メッセージ」は、テーブルや記述子を格納する。メッセージは、MMTPペイロードに格納され、MMTPパケットを用いて伝送される。
「SI情報」は、多重化された情報の内容、識別情報などを記述した情報でもある。受信機2は、例えば「地上デジタル放送受信機」であり、IF信号の中から受信チャンネルの選局・復調、希望番組を選択・デコードしてベースバンド信号を出力する機能をもつ。
ただし、受信機2は、「高度BSデジタル放送受信機」であってもよく、この場合、これらの機能をもつことに加えて、11.7GHz~12.75GHzの周波数帯の高度BSデジタル放送が受信可能な機器である。受信機2は、STB、IRDとの呼称もある。
「アイテム」は、MMT伝送方式に基づくアプリケーションデータ伝送においてMPUを構成する伝送の最小単位である。「アイテム」は、ファイルに相当する。「MPU」は、1つのコンポーネント内に含まれる、アイテムの集合で構成される伝送単位である。「MPU」は、提示単位(PU)或いは更新単位、蓄積制御単位に対応させる運用が想定される。
「コンポーネント」(アセット)は、1つのIPデータフローにおいて同一のパケットIDを持つ単位である。MPTにおいて、アセットとして参照される。「コンポーネント」は、後述するcomponent_tagで識別される。
データイベントにより伝送するアプリケーションセットが切り替わる。「アセット」は、MMT方式により多重化された映像、音声などの伝送単位である。「アセットタイプ」は、各アセットにおいて伝送されている内容を示す種類である。「サイマル音声」は、同一イベント内において、異なる複数の音声モードで同時に伝送することである。「イベント」は、ニュース、ドラマなど、同一サービス(編成チャンネル)内で開始・終了時刻の決まったストリームの集合である。
[受信機2のハードウェア構成]
図8は、本実施形態に係る受信機2のハードウェア構成を示す概略図である。
受信機2は、チューナー211、復調器212、分離器22、セレクタ231、音声デコーダー232、スピーカー234、映像デコーダー241、提示処理器242、ディスプレイ243、入出力装置251、補助記憶装置252、ROM(Read OnLy
Memory)253、RAM(Random Access Memory)254、CPU(中央演算処理装置)255、及び、通信チップ256を含んで構成される。
復調器212、分離器22、セレクタ231、音声デコーダー232、スピーカー234を、音声処理部Mとも呼ぶ。なお、データを処理する構成(例えば、分離器22、セレクタ231、音声デコーダー232、映像デコーダー241、提示処理器242)については、ソフトウェア(CPU255による演算処理)で実現されてもよい。
図2、図4、又は図5の受信機2の各構成に対応するハードウェア構成については、図8において、図2、図4、又は図5の構成に付した番号の数字部分と同じ番号を付す。
アンテナで受信されたデジタル放送信号は入力端子経由で受信機2に入力され、チューナー211、復調器212によりTLVストリームに変換され、分離器22によるTLV/MMT分離処理を経て映像、音声、その他のアセット、及びMMTの各種メッセージ・テーブルに分離される。スクランブルされたアセットは、TLV/MMT分離処理で抽出したEMM/ECMをCASモジュール(不図示)で処理し、得られた鍵によってデスクランブラにて復号される。映像アセットは、映像デコーダー241による映像デコード処理が行われ、文字及びグラフィックス画像の提示処理を経て出力される。音声アセットは、音声デコーダー232による音声デコード処理の後、出力される。映像・音声の出力については、受信機本体に映像・音声出力手段(ディスプレイ243・スピーカー234)を備えてもよいし、デコードされた映像音声信号を外部装置に出力するデジタル映像音声出力や、音声のみを外部装置に出力するデジタル音声出力を備えてもよい。さらに高速デジタルインタフェースを備えてもよい。
また、受信機内部に補助記憶装置252(HDD等)等の蓄積手段を備え、放送の蓄積機能を備えてもよい。受信機2は、EPGに代表される受信機アプリやマルチメディアサービスで使用されるRAM254、サービスのロゴデータやEPGデータを保存する補助記憶装置252(不揮発性メモリ:NVRAM等)、フォントなどを保存するROM253(NVRAMで代用も可)のメモリを持つ。
分離器22は、アセット情報を記述するテーブルにおいて、AC-4オーディオ信号が存在するかどうかを記述子で判断する。AC-4オーディオ信号は、AC-4の音声のアセット(「AC-4音声アセット」とも称する)を含む。
分離器22は、AC-4オーディオ信号が存在すると判断した場合、受信機2がAC-4の音声デコード能力があるときには、AC-4音声アセット、及び、1又は複数のMPEG-4の音声のアセット(MPEG-4アセット)の各々を分離する。分離器22は、AC-4オーディオ信号が存在しないと判断した場合、MPEG-4オーディオ信号のデータから、1又は複数のMPEG-4音声アセットの各々を分離する。
<入力端子・チューナー・復調器>
受信機2には、デジタル放送信号を入力するための端子として、IF入力と光入力の2
種類を有する。ただし、受信機2はこのうちIF入力を有し、光入力は有しなくてもよい。
チューナー211は、右旋帯域用IF周波数か左旋帯域用IF周波数、あるいはその両方に対応する。
復調器212は、フロントエンド信号処理を行う。
<分離器・映像デコーダー>
分離器22によるTLV/MMT分離処理は、TLV分離、MMT分離の2つの処理で構成される。放送伝送における受信機2は、最小でも1サービスあたり12本のアセットを同時処理する能力を有する。受信機2は、1サービスあたりのアセット数は最大22とされてもよい。映像アセットは、画面分割符号化が行われてもよい。また、受信機2は、本体に映像復号処理を内蔵せず、高速デジタルインタフェースからストリーム配信する機能等を搭載してもよい。受信機2は、SDR(Standard Dynamic Range)対応ディスプレイへHDR(High Dynamic Range)映像を出力してもよい。
<音声デコーダー>
外部擬似サラウンドプロセッサ用ダウンミックス処理及びステレオ音場拡大用ダウンミックス処理をオプションとして追加している受信機2においては、提示処理器242は、ダウンミックス設定状態をディスプレイ243に表示する。これにより、受信者は、設定状態を把握できる。
受信機2は、MPEG-4 AAC(Advanced Audio Coding)音声ストリームのデジタル音声出力を装備する場合は、AAC拡張に準拠し、放送の形式であるLATM/LOAS(Low-overhead MPEG-4 Audio Transport Multiplex/Low Overhead Audio Stream)によって多重化された形式で出力する。受信機2は、MPEG-4 ALS音声ストリームのデジタル音声出力を装備する場合は、ALS拡張に準拠し、放送の形式であるLATM/LOASによって多重化された形式で出力する。
<出力端子>
受信機2が備える出力端子として、デジタル映像音声出力端子、デジタル音声出力端子について以下に記載する。ただし、受信機2は、これらの出力端子の代わりに高速デジタルインタフェースを搭載してもよい。
なお、表示装置を本体に内蔵する受信機2の場合は、デジタル映像音声出力端子の装備をしなくてもよい。受信機2は、STBなど表示装置(ディスプレイ243)を搭載しない受信機2の場合は、デジタル映像音声出力端子として、HDMI(登録商標、以下同じ)端子、MHL/superMHL出力用の端子、又は、無線によるデジタル映像音声出力機能の端子のいずれかを装備する。
受信機はデジタル音声出力端子として、光デジタル音声出力端子あるいは同軸デジタル音声出力端子を備えてもよい。またHDMI端子を搭載し、HDMI1.4で定義されたHDMIオーディオリターンチャンネル(HDMI-ARC)によるデジタル音声出力機能を設けてもよい。
デジタル音声出力端子に MPEG-4 AAC音声ストリームを出力する場合には、AAC拡張に準拠するが、22.2chのマルチチャンネル音声の出力については、TBDとしてもよい。デジタル音声出力端子に MPEG-4 ALS音声ストリームを出力する場合には、ALS拡張に準拠するが、MPEG-4 ALSストリームの出力については、TBDとしてもよい。
NVRAMは、受信機ソフトウェアや全受信機共通データのダウンロード用のメモリ、ロゴデータなどMH-CDT方式で送信されるデータのダウンロード用メモリとして用いられる。NVRAMには、データの種類、全受信機共通データ(ジャンルコード表、番組特性コード表、予約語表)、ロゴデータ、マルチメディアサービス、メール受信等が保存され、例えば、AC-4オーディオのデジタルミキサーが保存される。
<音声処理部Mにおける信号処理の流れ>
図9は、本実施形態に係る受信機内の信号処理の流れの一例を表す概略図である。
この図は、音声処理部Mの一例である。音声処理部Mは、復調器212、TLV/MMT分離部22、セレクタ231、デコーダー部232、ミキサー部2331、ダウンミキサー(DMIX)部2332、スイッチ(SW)部2333、DAC(Digital-Analog Converter)部2334、外部出力I/F(インターフェース)部251を含んで構成される。
図2、図4、又は図5の受信機2の各構成に対応する構成については、図9において、図2、図4、又は図5の構成に付した番号の数字部分と同じ番号を付す。なお、ミキサー部2331、ダウンミキサー部2332、スイッチ部2333、及びDAC部2334は、図2のミキサー233に対応する。
この図は、受信機2内における音声の信号処理の流れを示す。受信機2は、TLV/MMT分離処理部22を経て、複数の音声アセットを取り出す。セレクタ231は、この中から出音する音声アセットを選択し、デコーダー部232で復号し、出音する。ここで、デコーダー部232には、セレクタ231で選択された音声アセットが入力され、その音声モード(音声コーデック)に応じた復号化が行われる。
なお、スイッチ部2333は、複数の音声アセットの中から外部のAVアンプに適応するアセットを選択し、デコーダー部232と外部出力I/F部251に出力する。
デコーダー部232は、入力された音声アセットに応じて、音声アセットを復号化する。復号化されたデータ列がAC-4のデータ列の場合、つまり、音声アセットがAC-4音声アセットの場合、デコーダー部232は、そのデータ列を、データ列をミキサー部2331に出力する。復号化されたデータ列が5.1chのPCMデータ列である場合、デコーダー部232は、そのデータ列を、ダウンミキサー部2332へ出力する。復号化されたデータ列が2chのPCMデータ列である場合、デコーダー部232は、そのデータ列を、スイッチ部2333へ出力する。
ミキサー部2331は、入力されたデータ列に対して、AC-4音声アセット内の音の素材ごとの音声を合成し、ダウンミックス処理を行う。ダウンミキサー部2331は、入力されたデータ列を、2chのPCMデータに変換するダウンミックス処理を行う。
ダウンミックス処理が行われたデータ列は、スイッチ部2333へ出力される。
スイッチ部2333は、セレクタ231からの制御情報に基づく指示に応じて、DAC部2334又は外部出力I/F(インターフェース)部251へ、データ列を出力する。DAC部2334は、入力されたデータ列をアナログ音声信号に変換し、スピーカー234へ出力する。
<音声切替メニュー>
図10は、本実施形態に係る音声切替メニューの一例を示す図である。音声切替メニューは、サイマル音声のいずれかの音声種別を選択するためのメニューである。
音声切替メニューF81は、AC-4に対応している受信機2で表示される音声切替メニューの一例である。音声切替メニューF82は、AC-4に対応していない受信機2aで表示される音声切替メニューの一例である。これらは、1つのAC-4音声アセットと、3つのMPEG-4音声アセットが伝送されている場合の例であり、受信機2の制御部は、MPTまたはMH-EITに配置されたMH-音声コンポーネント記述子を参照してこれらの音声切替メニューF81、F82を生成する。音声切替メニューF81を作成する際には、後述するMH-AC-4音声記述子も参照してもよい。この1つのAC-4音声アセットには、11.1chの背景音と、セリフ(日本語)、セリフ(英語)、解説音声(日本語)、及び解説音声(英語)を含んでいる。3つのMPEG-4音声アセットは、それぞれ、5.1chの日本語、2ch(ステレオ)の日本語と、2chの英語である。
音声種別F811は、AC-4音声アセットに含まれている背景音(11.1ch)とセリフ(日本語)を選択するための音声種別である。音声種別F812は、AC-4音声アセットに含まれている背景音(11.1ch)とセリフ(英語)を選択するための音声種別である。音声種別F813は、AC-4音声アセットに含まれている背景音(11.1ch)と解説音声(日本語)を選択するための音声種別である。音声種別F814は、AC-4音声アセットに含まれている背景音(11.1ch)と解説音声(英語)を選択するための音声種別である。
音声種別F815は、3つのMPEG-4音声アセットの1つである5.1chの日本語を選択するための音声種別である。音声種別F816は、3つのMPEG-4音声アセットの1つである2ch(ステレオ)の日本語を選択するための音声種別である。音声種別F817は、3つのMPEG-4音声アセットの1つである2ch(ステレオ)の英語を選択するための音声種別である。音声切替メニューF81においては、音声種別F811が選択されている状態を示している。音声種別F811からF814のいずれかが選択されたときは、選択された音声種別に含まれている音声オブジェクトが、ミキサー233でミックスされる。
音声種別F821は、3つのMPEG-4音声アセットの1つである5.1chの日本語を選択するための音声種別である。音声種別F822は、3つのMPEG-4音声アセットの1つである2ch(ステレオ)の日本語を選択するための音声種別である。音声種別F823は、3つのMPEG-4音声アセットの1つである2ch(ステレオ)の英語を選択するための音声種別である。音声切替メニューF82においては、音声種別F821が選択されている状態を示している。
なお、5.1chに対応している受信機2は、2chを選択するための音声種別は、表示してもしなくてもよい。また、音声種別は、MH-音声コンポーネント記述子のtext_char領域に記載の音声表記が用いられる。AC-4音声アセットにおいて、言語が複数存在する場合、text_char領域には、複数の音声種別(音声表記)が記載されてもよい。
[MH-音声コンポーネント記述子]
図11は、本実施形態に係るMH-音声コンポーネント記述子の構造の一例を示す概略図である。
MH-音声コンポーネント記述子は、アセットに音声エレメンタリストリームの各パラメータを記述し、エレメンタリストリームを文字形式で表現するためにも使用される。MPEG-4オーディオは、音声構成(例えば、言語、チャンネル数)ごとに音声エレメンタリストリームとして多重化されている。AC-4オーディオは、1つの音声エレメンタリストリームに、様々な音声構成が含まれる。MH-音声コンポーネント記述子がMPTに配置される場合は、MPTのうち、対応する音声アセットのasset_descriptors_byteに配置される。
MH-音声コンポーネント記述子において、各フィールドの意味は、次の通りである。なお、図11などにおいて、「uimsbf」は、unsigned integer most significant bit firstを表し、「bslbf」は、bit string left bit firstを表す。
「descriptor_tag」は、MH-音声コンポーネント記述子であることを示す固定値を記述する。
「descriptor_length」は、MH-音声コンポーネント記述子の記述子長を記述する。
「nga_type」(フィールドF91)は、このMH-音声コンポーネント記述子に対応する音声アセットの次世代オーディオのタイプを示す。図12は、本実施形態に係るnga_typeの値の例を示す表である。図12の例では、「nga_type」の値が0b0のときは、次世代オーディオのタイプがMPEG-H 3D Audio(Baseline Profile)であることを示し、0b1のときは、AC-4であることを示す。
「nga_level」(フィールドF92)は、このMH-音声コンポーネント記述子に対応する音声アセットのレベルを示す。レベルは、該音声アセットを復号するのに必要な処理能力を示す情報である。レベルは、例えば処理の負荷や使用メモリ量であるが、チャンネル数に対応してもよい。タイプとレベルの組によって、例えば、機器の性能やビットストリームをデコードするのに必要な性能が特定されてもよい。図13は、本実施形態に係るnga_levelの値の例を示す表である。図13に例では、「nga_level」の値が0b000のときは、NGA(次世代オーディオ)でないことを示す。この場合、「nga_type」の値は意味を持たない。また、「nga_level」の値が0b001のときは、レベルが1(Level 1)であることを示す。同様に、0b010のときは、レベルが2(Level 2)であることを示す。0b011のときは、レベルが3(Level 3)であることを示す。0b100のときは、レベルが4(Level 4)であることを示す。また、0b101から0b111は未使用である。なお、「0b」は以降の数字の列が2進数であることを示す。
「stream_content」には、MPEG-4 AACの音声ストリームに対しては特定値(0x03)、MPEG-4 ALS の音声ストリームに対しては別の値(0x04)が設定される。なお、AC-4の音声ストリームに対しては、さらに別の値(例えば、0x07)が設定されてもよい。
「component_type」は、音声コンポーネントの種別を規定し、8ビット(b7-b0)を、b7: ダイアログ制御、b6-b5:障がい者用音声、b4-b0:音声モードと定義する。なお、「component_type」は、ビット数を増やされ、値(例えばb8)を追加してもよく、追加された値をAC-4と定義してもよい。
「component_tag」(コンポーネントタグ)は、コンポーネントストリームを識別するためのラベルであり、MH-ストリーム識別記述子内のコンポーネントタグと同一の値である。
「stream_type」は、 LATM/LOASストリーム形式であることを示す固定値を記載する。
「simulcast_group_tag」は、サイマルキャスト(同一内容を異なる符号化方式や音声モードで伝送)を行なっているコンポーネントに対して同じ番号を与える。サイマルキャストを行なっていないコンポーネントに対しては、特定値(0xFF)に設定する。
「main_component_flag」は、その音声コンポーネントが主音声であるとき、特定値とする。
「quality_indicator」は、音質モードを表す。
「sampling_rate」は、サンプリング周波数を示す。
「ISO_639_language_code」は、音声コンポーネントの言語を示す。ES多言語モードのときは、第1音声コンポーネントの言語を示す。言語コードは、アルファベット3文字コードで表す。各文字は8ビットで記述し、その順で24ビットフィールドに挿入される。
「text_char」は、音声種類名を記述する。この記述がデフォルトの文字列である場合はこのフィールドを省略してもよい。
AC-4、22.2chサラウンド、又は5.1chサラウンドとサイマルで送出されるステレオ音声や、ALS符号化方式とサイマルで送出されるMPEG-4 AACステレオ音声などを受信機側で区別するために、simulcast_group_tag(サイマルキャストグループ識別)を運用する。サイマルで送出する音声ではsimulcast_group_tag 値を同じ値で送出する。
なお、「ISO_639_language_code2」は、AC-4音声アセットの1又は複数の言語名を示してもよい。具体的には、「ISO_639_language_code」に第1言語(例えば、日本語)、「ISO_639_language_code2」に第2言語(例えば、英語)を記述してもよい。また、AC-4音声アセットについては、「ISO_639_language_code2」に複数の言語(例えば、日本語と英語)を記述してもよい。
MH-音声コンポーネント記述子の送出運用において、放送局1は、同一イベント内における音声ストリームのパラメータ更新時は、原則としてMPTのMH-音声コンポーネント記述子の内容を変更しMPTのバージョン更新を行うが、例外として、本記述子を更新しない送出運用を行うことがある。この場合、音声ストリームとMH-音声コンポーネント記述子の内容が一時的に不一致となる。例えば、番組本編からCM等に移行する時や流動編成時などが想定される。この場合、放送局1は、MPTのバージョン更新をしないため、受信機側では同じコンポーネントタグ値の音声ストリームを再生し続ける。
このような音声ストリームのパラメータ更新時に本記述子を更新しない運用は、音声符号化方式がAACで、5.1ch以下の音声モード間で音声モードを切り替えるときに限り許容される。
MH-音声コンポーネント記述子の受信処理において、MPTのバージョンが更新し、音声ストリーム数や本記述子の内容が更新された場合は、受信機2は、本記述子の内容に従い、適切に音声再生を行う。受信機2は、MPTのバージョン更新が行われていなければ、原則として、同じコンポーネントタグ値の音声ストリームを再生し続ける。5.1ch以下の音声モード間での切り替えでは、音声ストリームと本記述子の内容が異なる場合がある。その時は、受信機2は、音声ストリームの内容を優先してデコードする。
[音声アセットの選択]
放送では複数の音声モード(AC-4、MPEG-H、MPEG-4 AAC2ch、AAC5.1ch、AAC7.1ch、AAC22.2ch、ALS2ch、ALS5.1ch)を運用する。
受信機2aは、音声デコード機能として次の機能を有する。
・MPEG-4 AAC2ch 再生
・MPEG-4 AAC5.1chから2chへのダウンミックス再生機能
これらの条件を満たすため、AC-4、MPEG-H、MPEG-4 AAC7.1ch、又はAAC22.2chの音声モードではAAC2chをサイマル運用とする(AAC5.1chがサイマル運用となる場合も有る)。また、AC-4、MPEG-Hオーディオモード又はALS音声モードではAAC2ch、又はAAC5.1chをサイマル運用とする。
受信機2は、複数の音声アセット運用時は下記に従い切替・選択できる機能を有する。
受信機2は、受信機2本体における再生の際、受信機2本体で再生できる音声モードを判別して、その内コンポーネントタグ値の小さい順にアセットを優先して切替え再生する。なお、選局時には再生可能な一番小さいコンポーネントタグ値のアセットをデフォルト音声として再生する。
受信機2は、2chまでの再生環境の場合で、AC-4、MPEG-H又はAAC5.1chに合わせAAC2ch音声がサイマル運用されている場合はAAC2ch音声を優先して再生する。受信機2は、特定のレベルまでの再生環境の場合で、AC-4が運用されている場合は、特定レベル以下のレベルのうち、最大のレベル或いは最小のレベルを優先して再生する。
ただし、MPTのバージョン更新なく音声モードが切り替わった場合は、再生中のアセットをそのまま再生し続ける。
受信機2は、サイマルキャストグループ識別を参照して複数言語運用を判別し、コンポーネントタグ値の小さいアセット(言語)をデフォルト言語として再生する。受信機2は、AC-4については、予め定められたデフォルト言語で、音声を再生してもよい。
受信機2は、言語切り替えを行った場合でも、再選局の場合はデフォルト言語に復帰する。受信機2は、AC-4については、言語固定モードを設けてもよい。
受信機2では、リモコンの音声ボタン等で、有効な音声アセットの選択がサイクリックに切り換えられる。例えば、受信機2では、AC-4音声アセットと1又は複数のMPEG-4音声アセットの選択が、サイクリックに切り換えられる。
受信者がメニュー上で音声を選択するユーザーインタフェースでは、MH-音声コンポーネント記述子の情報に従い、音声情報を表示すること。なお、音声種別の表記文字にはMH-音声コンポーネント記述子内のtext_char領域に記載の音声表記を優先する。ただし、受信機2は、AC-4については、予め定められた音声表記を優先してもよい。
受信機2は、同一音声アセット内で音声モードが切り替わる場合、及び受信機が自動的に異なるアセットの音声に切り替える場合、受信者に不自然さを感じさせないように切り替える。受信機2の切替動作は、次のような動作である。
(1)約0.5秒前のMPT更新により音声モードやアセットの切替を把握した受信機2は、先行音声の出力をフェード処理後ミュートする。
(2)受信機2は、切替に必要な処理を実行後、ミュートを解除し後続音声の出力を再開する。切替処理にかかる時間は、音声アセットの切替有無や、更新される音声モードの種類によって異なる。一般的には、符号化方式の切替時間が最も長くかかる。切替処理の間は、送出側にて無音区間が設けられる。
(3)受信機2は、MPEG-4音声アセットから、AC-4音声アセットに切り替わる場合、AC-4オーディオのデジタルミキサーを表示する。
図14は、本実施形態に係るMH-音声コンポーネント記述子の構造の別の一例を示す概略図である。図14の例は、図11の例とは、「nga_type」(フィールドF91)と「nga_level」(フィールドF92)を備えず、4ビットの「nga_level」(フィールドF93)を備える点のみが異なる。「nga_level」(フィールドF93)は、このMH-音声コンポーネント記述子に対応する音声アセットのレベルを示す。図14の例の場合、「stream_content」で、AC-4音声アセットであるか否かを識別し、AC-4音声アセットであるときは、「nga_level」で、そのレベルを識別する。
図15は、本実施形態に係るstream_contentの値の例を示す表である。図15の例では、「stream_content」の値が0x3のときは、音声アセットがMPEG-4 AACであることを示す。同様に、0x4であるときは、音声アセットがMPEG-4 ALSであることを示す。0x6であるときは、音声アセットがMPEG-H 3D Audio(Baseline Profile)であることを示す。0x7であるときは、音声アセットがAC-4であることを示す。0x5は、未使用である。
図16は、本実施形態に係るnga_levelの値の別の例を示す表である。図16の例では、「nga_level」の値が0b0001のときは、レベルが1(Level 1)であることを示す。同様に、0b0010のときは、レベルが2(Level 2)であることを示す。0b0011のときは、レベルが3(Level 3)であることを示す。0b0100のときは、レベルが4(Level 4)であることを示す。0b0000と、0b0101から0b1111は未使用である。
図17は、本実施形態に係るMH-AC-4音声記述子の構造の一例を示す概略図である。MH-AC-4音声記述子も、MH-音声コンポーネント記述子と同様に、MPTのうち、対応するアセットのasset_descriptors_byteに配置される。
「descriptor_tag」は、MH-AC-4音声記述子であることを示す固定値を記述する。
「descriptor_length」は、MH-AC-4音声記述子の記述子長を記述する。
「nga_type」、「nga_level」は、図11の「nga_type」、「nga_level」と同様である。なお、受信機2は、MH-AC-4音声記述子の「nga_type」、「nga_level」を参照するようにし、MH-音声コンポーネント記述子に「nga_type」、「nga_level」を設けないようにしてもよい。
「presentation()」は、AC-4音声アセットに含まれる音素材を示す。さらに、「presentation()」は、ミキシングする音素材の組み合わせの指定を示してもよい。例えば、図10の音声種別F811の背景音(11.1ch)とセリフ(日本語)の組み合わせ、音声種別F812の背景音(11.1ch)とセリフ(英語)の組み合わせ、音声種別F813の背景音(11.1ch)と解説音声(日本語)の組み合わせ、音声種別F814の背景音(11.1ch)と解説音声(英語)の組み合わせの各々が、「presentation()」で定義されていてもよい。なお、ETSI TS 103 190-1およびETSI TS 103 190-2で定義されているac4_presentation_infoであってもよい。
「dialogue_enhancement()」は、AC-4音声アセットにおけるセリフ強調機能の有無を示し、さらに、セリフ強調において利用可能な情報を示してもよい。なお、「presentation()」と「dialogue_enhancement()」とは、図17に示すように複数個(N個)、MH-AC-4音声記述子に含まれていてもよい。複数個含まれるときは、各々が、音声切替メニューに含まれる選択肢の一つに対応していてもよい。
図18は、本実施形態に係るpresentation()の構造の例を示す概略図である。図18に示す例は、ETSI TS 103 190-1 V1.3.1 (2018-02) Digital Audio Compression (AC-4) Standard;Part 1: Channel based codingの4.2.3.2節、ac4_presentation_info - AC-4 presentation informationからの抜粋である。
図19は、本実施形態に係るpresentation()の構造の別の例を示す概略図である。図19に示す例は、ETSI TS 103 190-2 V1.2.1 (2018-02) Digital Audio Compression (AC-4) Standard;Part 2: Immersive and personalizedの6.2.1.2節、ac4_presentation_infoからの抜粋である。
[音声の切替動作]
図20は、本実施形態に係る切替えの詳細例を表すフローチャートである。
この図は、受信機2の音声の切替動作を表す。次のステップS101~S104、S112~S114、S121の処理、及びステップS122、S123の制御は、受信機2のコンピュータ(CPU255:制御部)が行う。なお、図20の例は、MH-音声コンポーネント記述子の構造が、図11に示す例の場合のフローチャートである。
(ステップS101)受信者によるリモコン等の指示したチャネル、又は、受信機2が自動で指定したチャネルを受信するための選局、すなわちチューナー211、Demux22への設定を行う。その後、ステップS102の処理が行われる。
(ステップS102)受信機2は、MPTを更新する。その後、ステップS103の処理が行われる。
(ステップS103)受信機2は、デフォルトアセットを確認する。具体的には、デフォルトアセットは、「component_tag」が特定値のアセットである。デフォルトアセットは、アセット種別ごとに予め定められている。アセット種別が「放送伝送音声」の場合、特定値「0x0010」がデフォルトアセットに割り当てられている。この特定値が、変数iの初期値(i=0x0010)に設定される。その後、ステップS104の処理が行われる。
(ステップS104)受信機2は、「component_tag」が放送伝送音声のアセットであるか否かを判定する。アセット種別が「放送伝送音声」のアセットには、「0x0010」~「0x002F」の値が割り当てられている。受信機2は、変数iの値が、「0x002F」以下であるか否かを判定することで、放送伝送音声のアセットであるか否かを判定する。
なお、AC-4音声アセットには、「component_tag」において、MPEG-4音声アセットよりも、小さい値が割り当てられていてもよい。この場合、先に、AC-4音声アセットの再生可能性が判定される。ただし、AC-4音声アセットには、「component_tag」において、MPEG-4音声アセットよりも、大きい値が割り当てられてもよい。
放送伝送音声のアセットであると判定された場合(Yes)、ステップS1111の処理が行われる。一方、放送伝送音声のアセットでないと判定された場合(No)、ステップS121の処理が行われる。
(ステップS1111)受信機2は、MH-音声コンポーネント記述子の「nga_level」が「0」であるか否かを判定する。これにより、対応するアセットが、次世代オーディオの音声アセットであるか否かを判定する。「nga_level」が「0」である場合(Yes)、すなわち、次世代オーディオの音声アセットでない場合、ステップS1114の処理が行われる。一方、nga_level」が「0」でない場合(No)、すなわち、次世代オーディオの音声アセットである場合、ステップS1112の処理が行われる。
(ステップS1112)受信機2は、「nga_type」が示す次世代オーディオのタイプが、自装置が再生(対応)可能なタイプであるかを判定する。受信機2は、再生可能なタイプでない場合(No)、変数iがインクリメントされた後、ステップS104の処理が行われる。一方、再生可能なタイプである場合(Yes)、ステップS1113の処理が行われる。
(ステップS1113)受信機2は、「nga_level」が示すレベルが、自装置が再生(対応)可能なレベルであるか(再生可能なレベル以下であるか)を判定する。再生可能なレベルでない場合(No)、変数iがインクリメントされた後、ステップS104の処理が行われる。再生可能なレベルである場合(Yes)、ステップS113の処理が行われる。
なお、ステップS1113の処理において、再生可能なレベルである場合(Yes)、ステップS114又はS112の処理が行われてもよい。
(ステップS114)受信機2は、自装置が再生可能なストリームであるか否かを判定する。具体的には、受信機2は、「stream_content」、「component_type」、及び「stream_type」を用いて、自装置が再生可能なストリームであるか否かを判定する。再生可能なストリームでない場合(No)、変数iがインクリメントされた後、ステップS104の処理が行われる。再生可能なストリームである場合(Yes)、ステップS112の処理が行われる。
(ステップS112)受信機2は、サイマルの有無、及び言語の確認等を行う。具体的には、受信機2は、「simulcast_group_tag」、「ES_multi_lingual_flag」、「main_component_flag」、「ISO_639_language_code」、「ISO_639_language_code2」、及び「text_char」を用いて、この処理が行われる。
(ステップS113)受信機2は、ステップS112の処理で取得したアセットの情報またはステップS1113の処理で再生可能なレベルと判定したアセットの情報を、メモリ(RAM254又は補助記憶装置252)において、リストに追加する。これにより、再生可能なMPEG-4の音声アセットと、AC-4の音素材の組み合わせとがリスト化される。なお、リストに追加される情報は、AC-4音声アセットであれば、例えば、MH-AC-4音声記述子のpresentation()が示す情報である。その後、受信機2は、変数iをインクリメントし、次の「component_tag」値のアセットに対して、ステップS104の処理を行う。
(ステップS121)受信機2は、ステップS113の処理でリスト化されたリストから、MPEG-4アセットまたはAC-4の音素材の組み合わせを選択する。選択は、受信機2が自動選択してもよいし、受信者が手動で選択してもよい。受信者が手動で選択する場合は、受信機2は、例えば、図10に示したような音声切替メニューを、ステップS113の処理でリスト化されたリストに基づき表示し、受信者に選択させる。その後、ステップS122の処理が行われる。
(ステップS122)受信機2は、選択された言語等の表示を行う。選択は、受信機2に自動選択されてもよいし、受信者に手動で選択されてもよい。その後、ステップS123へ進む。
なお、AC-4オーディオにおいて、1つのアセットに多言語の音声のデータ列が格納される場合がある。この場合、ステップS121でAC-4音声アセットが選択された場合、受信機2は、アセットを変更(選択)せずに、言語を選択できる。
(ステップS123)受信機2は、ステップS121及びS122で選択された音声アセットまたは音素材の組み合わせを再生する。その後、ステップS102の処理が行われることで、受信機2は、このフローチャートの動作を繰り返す。
なお、ステップS1111において、MH-音声コンポーネント記述子のstream_contentが、0x3または0x4であるか否かを、受信機2が判定するようにしてもよい。すなわち、stream_contentが、0x3または0x4であるときは、次世代オーディオでないと判定して、ステップS114の処理が行われるようにしてもよい。また、stream_contentが、0x3または0x4でないとき、あるいは、0x6または0x7であるときは、次世代オーディオであると判定して、ステップS1111の処理が行われるようにしてもよい。
さらにステップS1112において、MH-音声コンポーネント記述子のstream_contentを参照して、対応可能か否かを、受信機2が判定するようにしてもよい。すなわち、stream_contentが0x6のときは、受信機2は、MPEG-H 3D Audio(Baseline Profile)を対応可能か否かを判定する。また、stream_contentが0x7のときは、受信機2は、AC-4を対応可能か否かを判定する。
以上のように、本実施形態では、放送システムSysは、AC-4オーディオを音声アセット(コンポーネントの一例)に含む放送を行う。放送局1は、音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを示す識別情報を多重化レイヤーに多重した放送波を放送する。受信機2の分離器22は、放送波から、この識別情報を、多重化レイヤーで取得する。CPU255(制御部の一例)は、この識別情報に基づいて、受信機2の能力に応じた音声アセットを選択する。音声デコーダー232は、選択された音声アセットの音声データを復号化する。
また、本実施形態では、放送システムSysは、AC-4オーディオを音声アセット(コンポーネントの一例)に含む放送を行う。放送局1は、音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを示す識別情報が配置されたMMTの制御情報を含む放送波を放送する。受信機2の分離器22は、放送波から、この識別情報が配置されたMMTの制御情報を分離する。CPU255(制御部の一例)は、この識別情報に基づいて、受信機2の能力に応じた音声アセットを選択する。音声デコーダー232は、選択された音声アセットの音声データを復号化する。
なお、上記実施形態において、音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを示す識別情報が多重される多重化レイヤーは、MMTのレイヤーであるが、UDP/IPあるいはTLVのレイヤーであってもよい。また、音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを示す識別情報は、データnga_typeまたはstream_content、すなわち制御情報に含まれる識別情報であってもよいし、音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを示す記述子(MH-音声コンポーネント記述子)であってもよいし、音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを示す制御情報(MMT-SI、MPT、MH-EIT)であってもよい。
これにより、放送システムSysでは、受信機2は、自装置の能力に応じて、適切な音声再生を行うことができる。
なお、上記実施形態において、「音声」は「オーディオ」と置き換えてもよい。「アセット」は「コンポーネント」に、「コンポーネント」は「アセット」に置き換えられてもよい。
なお、上述した実施形態における放送局1(放送装置)、受信機2、放送局サーバ3、事業者サーバ4の一部、例えば、受信機2の分離器(Demux、TLV/MMT分離部)22、22a、セレクタ231、音声デコーダー(デコーダー部)232、ミキサー部2331、ダウンミキサー部2332、スイッチ部2333、DAC部2334、ミキサー233、映像デコーダー241、提示処理器242、入出力装置251、CPU255、通信チップ256の少なくとも一部をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、放送局1、受信機2、放送局サーバ3、又は事業者サーバ4に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における放送局1、受信機2、放送局サーバ3、及び事業者サーバ4の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。放送局1、受信機2、放送局サーバ3、及び事業者サーバ4の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
放送システム Sys
中継局 Sa
放送局(放送装置) 1
AC-4エンコーダ 11
MPEG-4エンコーダ 111、112、113
Mux(マルチプレクサ) 12
受信機 2、2a
放送局サーバ 3
事業者サーバ 4
チューナー 211
復調器 212
分離器(Demux、TLV/MMT分離部) 22、22a
セレクタ 231
音声デコーダー(デコーダー部) 232
AC-4デコーダー 232-1
MPEG-4デコーダー 232-2
ミキサー部 2331
ダウンミキサー部 2332
AC-4レンダラー 233-1
ミキサー 233-2
スイッチ部 2333
DAC部 2334
ミキサー 233
スピーカー 234
映像デコーダー 241
提示処理器 242
ディスプレイ 243
入出力装置(外部出力I/F) 251
補助記憶装置 252
ROM 253
RAM 254
CPU 255
通信チップ 256

Claims (7)

  1. 音声コンポーネントを含む放送を行う放送システムであって、
    前記音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを示す識別情報を多重化レイヤーに多重した放送波を放送する放送装置と、
    前記放送波を受信する受信機と
    を備え、
    前記受信機は、
    前記放送波から、前記識別情報を、前記多重化レイヤーで取得する分離部と、
    前記識別情報に基づいて、前記受信機の能力に応じた音声コンポーネントを選択する制御部と、
    選択された前記音声コンポーネントの音声データを復号化する復号化部と
    を備える、
    放送システム。
  2. 前記識別情報は、MMT(MPEG Media Transport)の記述子であって、番組要素のうち音声信号に関するパラメータを記述する記述子である音声コンポーネント記述子に配置される、
    請求項1に記載の放送システム。
  3. 前記放送は、AC-4オーディオの音声コンポーネントと、MPEG-4オーディオの音声コンポーネントとを含む複数の音声コンポーネントを含み、
    前記制御部は、前記音声コンポーネント記述子に配置された前記識別情報に基づいて、前記複数の音声コンポーネントの中から1つの音声コンポーネントを選択し、
    前記分離部は、選択された前記音声コンポーネントを分離し、
    前記復号化部は、選択された前記音声コンポーネントの音声データを復号化する
    請求項2に記載の放送システム。
  4. 前記放送装置は、前記前記音声コンポーネントがAC-4オーディオのコンポーネントであるときに、前記AC-4オーディオのコンポーネントに含まれる音素材を示す情報を前記多重化レイヤーに多重した前記放送波を放送し、
    前記分離部は、前記放送波から、前記音素材を示す情報を、前記多重化レイヤーで取得し、
    前記制御部は、前記音素材を示す情報に基づいて、前記音素材の組み合わせを選択し、
    前記復号化部は、選択された前記音素材の音声データを復号化する、
    請求項1に記載の放送システム。
  5. 放送波から、音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを示す識別情報を、多重化レイヤーで取得する分離部と、
    前記識別情報に基づいて、自装置の能力に応じた音声コンポーネントを選択する制御部と、
    選択された音声コンポーネントの音声データを復号化する復号化部と
    を備える、
    受信機。
  6. 放送波から、音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを示す識別情報を、多重化レイヤーで取得するステップと、
    前記識別情報に基づいて、自装置の能力に応じた音声コンポーネントを選択するステップと、
    選択された音声コンポーネントの音声データを復号化するステップと
    を有する、
    受信方法。
  7. 放送波から、音声コンポーネントがAC-4オーディオのコンポーネントであるか否かを示す識別情報を、多重化レイヤーで取得する分離部と、選択された音声コンポーネントの音声データを復号化する復号化部とを備える受信機のコンピュータを、
    前記識別情報に基づいて、自装置の能力に応じた音声コンポーネントを選択する制御部として機能させるためのプログラム。
JP2022119736A 2022-07-27 2022-07-27 放送システム、受信機、受信方法、及びプログラム Pending JP2024017228A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022119736A JP2024017228A (ja) 2022-07-27 2022-07-27 放送システム、受信機、受信方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022119736A JP2024017228A (ja) 2022-07-27 2022-07-27 放送システム、受信機、受信方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2024017228A true JP2024017228A (ja) 2024-02-08

Family

ID=89807947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022119736A Pending JP2024017228A (ja) 2022-07-27 2022-07-27 放送システム、受信機、受信方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2024017228A (ja)

Similar Documents

Publication Publication Date Title
US10623827B2 (en) Receiving device, receiving method, transmitting device, and transmitting method
JP5624023B2 (ja) 複数のデジタル放送チャンネルにわたる複数のサービスに対するデータをアップデートするためのチャンネル飛び越え機構
US10356592B2 (en) Reception apparatus, reception method, transmission apparatus, and transmission method
US11343549B2 (en) Reception apparatus, reception method, transmission apparatus, and transmission method
JP6700658B2 (ja) 受信装置、受信方法、及びプログラム
CN109417648B (zh) 接收装置及接收方法
JP6598031B2 (ja) 受信装置、受信方法、送信装置、及び、送信方法
JP2024017228A (ja) 放送システム、受信機、受信方法、及びプログラム
JP2023145144A (ja) 放送システム、受信機、受信方法、及びプログラム
JP6500956B2 (ja) 受信装置、テレビジョン装置、プログラム、記憶媒体、及び制御方法
JP6359134B2 (ja) 受信装置、受信方法、プログラム、及び記憶媒体
JP2020010290A (ja) 放送信号の送受信方法
JP6175208B1 (ja) 放送信号送受信システム、および放送信号送受信方法
JP6175207B1 (ja) 放送信号受信装置、放送信号受信方法、テレビジョン受像機、制御プログラム、および記録媒体
JP6140381B1 (ja) 放送信号送受信システム、および放送信号送受信方法
JP6181898B1 (ja) 放送信号送受信システムおよび放送信号送受信方法
JP6181897B1 (ja) 放送信号受信装置、放送信号受信方法、テレビジョン受像機、制御プログラム、および記録媒体
JP2016167861A (ja) 放送信号送受信システムおよび放送信号送受信方法
JP6374053B2 (ja) 放送信号受信装置、放送信号受信方法、テレビジョン受像機、制御プログラム、および記録媒体
JP6429402B2 (ja) 受信装置、テレビジョン受信装置、受信方法、プログラムおよび記憶媒体
WO2020011268A1 (zh) 广播信号的收发方法及装置
JP2023134110A (ja) 放送システム、受信機、受信方法、及びプログラム
JP2023183745A (ja) 放送システム、受信機、受信方法、及びプログラム
JP2023123181A (ja) 受信装置、送信装置、送受信システム、受信方法、送出方法、およびプログラム
JP2020010289A (ja) 放送信号の送受信装置