以下、この発明の実施の形態を添付図面に従って詳細に説明する。
まず、放送局から配信されている放送中の番組(放送コンテンツ)にあわせて、電子音楽装置を連動動作させる電子音楽装置連動システムの概要について、図1を用いて説明する。図1は、本発明に係る電子音楽装置連動システムの全体構成の一実施例を略示するシステムブロック図である。なお、放送局からの放送コンテンツの放送(配信)仕様/形式はディジタル放送であってもよいし、アナログ放送であってもよいが、この明細書では説明を理解しやすくするために、特にディジタル放送の場合を例にして説明する。また、電子音楽装置連動システムとしてはこの図1に示す以外のものを有する場合もあるが、ここでは必要最小限の資源を用いた場合について説明する。
この実施例に示す電子音楽装置連動システムは、放送コンテンツをテレビ放送やラジオ放送などとして配信するコンテンツ提供側である放送局HSと、放送局HSから放送コンテンツの提供を受けるエンドユーザ側の機器であり、放送局HSから配信される放送コンテンツのうちユーザ所望の番組を受信(取得)することに応じて、該放送中の番組の映像や楽音にあわせて連動動作する電子音楽装置DM(例えば、電子楽器やパーソナルコンピュータなど)とに大きく分けることができる。
放送局HSは、例えばコンサートなどの音楽番組、楽音を含んだコマーシャルや映画あるいはドラマなど、映像や楽音を含む放送コンテンツを制作し、該制作した放送コンテンツを放送信号として多数のユーザに対して無線あるいは有線にて配信する。放送局HSは放送コンテンツを制作/配信するために、データ生成装置群R、コンテンツ制作装置CS、外部記憶装置K、放送設備Hなどの機器を備えている。データ生成装置群Rは、放送コンテンツの素材となる映像用のディジタル動画データや音声/オーディオ用のディジタル楽音データ、あるいは楽曲演奏データであるMIDI(Musical Instruments Digital Interface)データなどを記憶・再生・生成することが可能な各種の記憶/再生/生成機器からなり、またコンテンツ制作者の必要に応じて記憶済みのこれらの情報をコンテンツ制作装置CSに対して送信することができるようになっている。こうしたデータ生成装置群Rは、動画データや楽音データあるいはMIDIデータのいずれかを発生することができればどのような機器からなっていてもよく、例えばディジタルレコーダの他に、ビデオカメラ、マイクやミキサ、MIDIキーボードなどが一例として挙げられる。また、データ生成装置群Rの機能を1台の装置で実現するようにしてもよい。
コンテンツ制作装置CSは、前記データ生成装置群Rから受信した各種信号に基づき映像、楽音等を含んでなる放送コンテンツを制作する、あるいは制作済みの放送コンテンツの内容を変更するための機器である。このコンテンツ制作装置CSでは、データ生成装置群Rから取得した動画データや楽音データに基づき放送コンテンツ(番組)を制作する際に、前記動画データや楽音データのいずれかに、データ生成装置群Rから取得したMIDIデータ(楽曲演奏データ)を電子透かし等の技術を用いて電子透かし情報として任意に埋め込むことができる。すなわち、コンテンツ制作装置CSで制作される放送コンテンツ自体に、放送コンテンツとは別の情報であって、本発明において電子音楽装置を連動動作するのに利用するMIDIデータを「電子透かし情報」として含ませておくことで、MIDIデータを放送コンテンツの一部として配信して、放送中の番組を見ながら同時に電子音楽装置を楽しむことができるようにしている。こうしたコンテンツ制作装置CSは、動画エンコード部ME、MIDIビットストリーム生成部BS、楽音エンコード部VE、マルチプレックス部Pを含んでなる。
動画エンコード部MEは、データ生成装置群Rから取得した動画データを符号化して、動画ビットストリームデータ(ディジタル放送の場合、一例としてMPEG(Moving Picture Experts Group)-2 Video形式)に変換する。このデータ変換時において、MIDIビットストリーム生成部BSからMIDIビットストリームデータが送信されている場合には、該受信したMIDIビットストリームデータを電子透かし情報として、動画ビットストリームデータ内に適宜に埋め込みながら変換を行う。変換後の動画ビットストリームデータは、マルチプレックス部Pに送られる。
楽音エンコード部VEは、データ生成装置群Rから取得したディジタル楽音データを符号化して、楽音ビットストリームデータ(ディジタル放送の場合、一例としてMPEG-2 Audio AAC(Advanced Audio Coding)形式)に変換する。このデータ変換時において、MIDIビットストリーム生成部BSからMIDIビットストリームデータが送信されている場合には、該受信したMIDIビットストリームデータを電子透かし情報として、楽音ビットストリームデータ内に適宜に埋め込みながら変換を行う。変換後の楽音ビットストリームデータは、マルチプレックス部Pに送られる。MIDIビットストリーム生成部BSは、データ生成装置群Rから取得したMIDIデータを符号化してMIDIビットストリームデータに変換し、該変換後のMIDIビットストリームデータを、動画エンコード部MEあるいは楽音エンコード部VEのいずれか一方(勿論、MIDIデータを埋め込む対象とする情報を処理するどちらか一方の機器)に対してのみ送信する。
MIDIビットストリーム生成部BSはMIDIデータをMIDIビットストリームデータに変換する際に、動画エンコード部MEあるいは楽音エンコード部VEのいずれか(ただし、MIDIデータを埋め込む対象とする情報を処理する機器)からクロック(タイミング制御情報:タイマ)を受け取り、該受け取ったクロックに基づき、MIDIデータを動画データあるいは楽音データに同期させたMIDIビットストリームデータに変換する。この際には、変換後のMIDIストリームデータのビットレートを、動画エンコード部MEあるいは楽音エンコード部VEで処理される、MIDIデータを埋め込む対象とする動画データあるいは楽音データのレートに一致させる。例えばMIDIストリームデータを動画データに埋め込む場合に、MPEG方式において5400ブロックからなる「I(Intra-coded)ピクチャ」が1秒に2フレームずつ送られており、各ブロック毎に3ビットずつMIDIストリームデータを埋め込むには、ビットレートを32400bpsとするとよい。一方、MIDIストリームデータを楽音データに埋め込む場合に、MDCT(Modified Discrete Cosine Transform)変換されたすべての係数に1ビットずつMIDIストリームデータを埋め込むには、ビットレートを48000bpsとするとよい。
MIDIビットストリーム生成部BSでは、動画エンコード部MEあるいは楽音エンコード部VEからクロックを受信することにより、MIDIビットストリームデータを埋め込む対象とした動画ビットストリームデータあるいは楽音ビットストリームデータ上におけるビット位置を、元の動画データあるいは楽音データと時間的な関連付けを行う。ここでは、MIDIデータの時刻情報をどのMDCT係数に対応付けるかによって、時刻情報を符号化された動画又は楽音ビットストリーム内に情報としてもつようにしている(後述する)。これにより、変換後のMIDIビットストリームデータを、動画データあるいは楽音データに同期したものとして、MIDIデータの時刻情報を符号化された楽音又は動画ビットストリーム内に情報としてもつことができるようにする。こうすると、外部のディジタルテレビ装置TVなどが動画や楽音を再生するのと同じ所定の時間間隔で、MIDIデータの復号を行うことができ、動画や楽音などとMIDIデータに基づく電子音楽装置DMの連動動作とが同期する。
上記MIDIビットストリームの形式としては、公知の調歩同期方式シリアル通信に倣い、スタートビットを「1」、ストップビットを「0」として、MIDIデータのイベント発生時刻に相当するビットからスタートビット、2進化された1バイト分のMIDIデータ、ストップビットの順にデータを割り当てる。該当のタイミングに発生するMIDIデータがない場合には、「0」が割り当てられる。例えば、MIDIデータが「…イベントなし…、90、60、…」であるような場合、このMIDIデータは「…011001000001011000000…」のMIDIビットストリームに変換される。表記のMIDIビットストリームについて先頭ビットから順に説明すると、「…0」まではイベントなし、「1」はスタートビット、「1001」は90の9、「0000」は90の0、「0」はストップビット、「1」はスタートビット、「0110」は60の6、「0000」は60の0、「0」はストップビットを示す。
マルチプレックス部Pは、動画エンコード部MEから送信された動画ビットストリームデータと、楽音エンコード部VEから送信された楽音ビットストリームデータとを多重化して、1つの多重化されたコンテンツデータ(ディジタル放送の場合、一例としてMPEG-2 TS形式)を生成する。ここでは、多重化する動画ビットストリームデータ及び楽音ビットストリームデータのいずれかにはMIDIデータが埋め込まれている場合があるが、MIDIデータが埋め込まれているか否かに関わらずに、従来知られている一般的なMPEGデータの多重化処理を行えばよい。放送設備Hは、多重化されたコンテンツデータに対して符号化や変調等を行って、多重化されたコンテンツデータを放送信号として配信するためのものである。外部記憶部Kは、制作したコンテンツデータを後日に日を改めて配信するために、マルチプレックス部Pにより多重化されたコンテンツデータを記憶しておくためのものである。なお、多重化されたコンテンツデータを外部記憶部Kに記憶させることなく、直接放送設備Hに送って配信させると所謂生放送として番組が放送されることになる。
他方、電子音楽装置DMは例えば後述の図10に示すようなハード構成からなる電子楽器であって、放送局HSから配信される放送信号に基づく放送コンテンツ(番組)にあわせて連動動作、例えば自機が有する演奏操作子(鍵盤等)6を駆動して自動的に押鍵動作を行ったり、音源回路9を駆動して楽音を鳴らしたり、ディスプレイ7Aを駆動して放送中の番組内で流れている楽音の歌詞や楽譜などを表示したり、さらには図示しない鍵盤LEDを駆動して自動的に点灯/消灯を繰り返し行ったりするなどの動作を連動して行うことができる機器である。電子音楽装置DMは、チューナ/復調部T、デマルチプレックス部DP、動画デコード部MD、楽音デコード部VD、MIDIイベント生成部IB、楽器駆動制御部Gを含んでなる。チューナ/復調部Tは、放送局HSから配信される放送信号を受信し、受信した放送信号を動画ビットストリームデータと楽音ビットストリームデータとが多重化されたデータであるコンテンツデータ(一例として、MPEG-2 TS形式)に復調する。
デマルチプレックス部DPは、復調されたコンテンツデータから、動画ビットストリームデータ(一例として、MPEG-2 Video形式)と楽音ビットストリームデータ(一例として、MPEG-2 Audio AAC形式)とを取り出し、動画ビットストリームデータについては動画デコード部MDに、楽音ビットストリームデータについては楽音デコード部VDにそれぞれ送る。動画デコード部MDは、デマルチプレックス部DPから送られてきた動画ビットストリームデータから、その中に電子透かし情報として埋め込まれているMIDIビットストリームデータを抽出する。楽音デコード部VDは、デマルチプレックス部DPから送られてきた楽音ビットストリームデータから、その中に電子透かし情報として埋め込まれているMIDIビットストリームデータを抽出する。抽出されたMIDIビットストリームデータは、MIDIイベント生成部IBへと送られる。
MIDIイベント生成部IBは、動画デコード部MD又は楽音デコード部VDのいずれかからMIDIビットストリームデータを受信すると、該受信したMIDIビットストリームデータをMIDIデータに逆変換して、楽器駆動制御部Gに出力する。楽器駆動制御部Gは、MIDIイベント生成部IBからMIDIデータを受け取ると、該MIDIデータに基づき電子音楽装置DMを駆動するよう制御する。具体的には、楽器駆動制御部Gは電子音楽装置DMの動作を制御するためのものであって、制御としては例えば演奏操作子(鍵盤等)6が放送中の番組内で流されている楽音にあわせて自動的に押鍵動作を行うように駆動回路5を制御する、放送中の番組内で流されている楽音に関連した楽音等を鳴らすように音源回路9を制御する、放送中の番組内で流されている楽音の歌詞や楽譜などをディスプレイ7Aに表示するように表示回路7を制御する、さらには図示しない鍵盤LEDが放送中の番組内で流されている楽音にあわせて自動的に点灯/消灯を繰り返し行うように制御するなどがある。ディジタルテレビ装置TVは、外部のチューナ/復調部OTで復調されたコンテンツデータに基づき、映像や楽音などを含む番組を再生する機器であり、該ディジタルテレビ装置TVで放送されている番組にあわせて電子音楽装置DMで上記したような連動動作が行われる。
なお、放送局HSから配信される放送信号を受信するチューナ/復調部Tは、上述した実施例のように電子音楽装置DM内部に具えているものに限らない。チューナ/復調部Tは、電子音楽装置DMとは別体の専用の外部機器OTであってよい。そのような場合には、外部のチューナ/復調部OTで受信した放送信号に基づき復調されたコンテンツデータを、所定の通信経路(例えばIEEE1394)経由で電子音楽装置DMに出力するとよい。また、外部のチューナ/復調部OTで受信した放送信号に基づき復調されたコンテンツデータを、所定の通信経路(例えばIEEE1394)経由で外部ディジタルレコーダ装置ORに記録できるようにし、外部ディジタルレコーダ装置ORに記録されたコンテンツデータを電子音楽装置DMに対して出力するようにしてもよい。
なお、電子音楽装置DM側で番組にあわせて駆動制御する対象の機器を、電子音楽装置DMを利用するユーザが任意に選択できるようにしてもよいし、コンテンツ制作者が予め指定しておくことができるようにしてもよい。コンテンツ制作者が予め指定しておくことができるようにする場合には、制御対象機器を指定する関連情報(例えば、機器ID番号など)もMIDIデータと共に動画データ又は楽音データ内に電子透かし情報として埋め込んで配信するようにしてもよいし、関連情報は動画データ又は楽音データ内に電子透かし情報として埋め込むことなく、従来のように動画データ及び楽音データとは別のデータ信号として配信するようにしてもよい。
次に、放送局HS側の処理であって、電子音楽装置DMを連動動作するために利用するMIDIデータを電子透かし情報として埋め込みながら、楽音データを符号化した楽音ビットストリームデータに変換する楽音エンコード処理、あるいは動画データを符号化した動画ビットストリームデータに変換する動画エンコード処理について、それぞれ説明する。まず、放送局HSにおける楽音エンコード部VEによる、楽音データを符号化して楽音ビットストリームデータに変換する楽音エンコード処理について、図2〜図4を用いて説明する。ただし、ここでは説明を理解しやすくするために、楽音データのエンコードをMPEG-2 Audio AAC形式に則るものとする。図2は、図1に示した楽音エンコード部VEの機能の一実施例を略示する機能ブロック図である。図3は、図2に示した楽音エンコード部VEにおける各機能を説明するための概念図である。
フレーム切り出し部V1は、後述するMDCT変換の前処理として、図3(a)上段に示すように、データ生成装置群Rなどから取得したディジタル楽音データ(ディジタル放送の仕様にあわせて、例えばサンプリングレート48kHz、1ワード16bit長からなるデータ)から、所定のサンプル数(例えば、2048サンプルなど)を1つのフレーム(図中framei)として順次に切り出す。このフレーム単位でディジタル楽音データの切り出しを行う際には適当な窓関数(例えばカイザーベッセル派生窓)を用い、また図3(a)中段に示すように前回適用した窓関数と今回適用する窓関数とを50%ずつオーバーラップさせて楽音データをフレーム単位に切り出す。適当な窓関数を適用して切り出された1フレーム分の楽音データを示すと、図3(a)下段に示すようなデータとなる。フレーム切り出し部V1は、この1フレーム分の楽音データをMDCT変換部V2及び心理聴覚分析部V3にそれぞれ送る。
心理聴覚分析部V3はフレーム切り出し部V1から送られた1フレーム分の楽音データを分析し、マスキング特性を得る。具体的には、1フレームの楽音データを高速フーリエ変換(FFT)して周波数スペクトルを求め、それを元に聴覚のマスキングを計算することで、予め設定された周波数帯域ごとのマスキング閾値(許容量子化雑音電力)と、そのフレームに対する心理聴覚特性(心理聴覚エントロピー(Perceptual Entropy)などと呼ばれる)などのパラメータを求める。こうしたマスキング特性の一例を、図3(b)に示す。図3(b)は、周波数に応じたマスキング曲線と、レベルの大きな周波数成分の周りのクリティカルバンド(後述する)と、その他の心理聴覚特性(心理聴覚エントロピー)とをモデル化して示した図である。この図3(b)において、マスキング閾値より低い周波数領域(図中において塗りつぶしで示した箇所)にある周波数成分の音は、人には聴こえることがない音である。一方、心理聴覚エントロピー(PE)は、当該楽音データを聴くユーザが雑音を知覚することがないように、そのフレームを量子化するのに必要な総ビット数と考えてよい。また、心理聴覚エントロピー(PE)は、楽音のアタック部のように信号レベルが急激に増大するところで大きな値を取るという特性がある。そこで、心理聴覚エントロピー(PE)の値の急変部を元にしてMDCTの変換ブロック長を決定する。
MDCT変換部V2は、心理聴覚分析部V3で決定されたMDCTの変換ブロック長に基づき、1フレームの楽音データを高速フーリエ変換(FFT)することにより周波数スペクトル(MDCT係数と呼ぶ)に変換する。具体的には、1フレーム分の楽音データを0番目から1023番目までの1024個の周波数成分に分解し、各周波数成分毎のスペクトル係数を求める。このスペクトル係数は周波数毎の強度を表すものであり、こうしたスペクトル係数の一例を図3(c)に示す(ただし、図中におけるM=1024)。
マスキング部V4は、MDCT変換部V2により求められた各周波数成分毎のスペクトル係数のうち、心理聴覚分析部V3により得られたマスキング閾値に基づき、マスキング閾値に満たないスペクトル係数をマスクする。こうすることにより、図3(c)に示したスペクトル係数の分布から、図3(d)に示すようなスペクトル係数の分布が取得される。
量子化部V5はMPEG-2 Audio AACエンコーダにおける一般的な量子化として、MDCT変換部V2からのMDCT係数を予め設定された周波数帯域ごとの複数本でグループ化し、これを単位として量子化(情報を丸め込んで、桁数を減らす処理)を行う。これらMDCT係数のグループを、クリティカルバンド(又はスケールファクタバンド)と呼ぶ。クリティカルバンド(又はスケールファクタバンド)は、聴覚の特性にあわせて低域側では狭くなり、高域側では広くなるように設定されている。また量子化を行う前に、このフレームで使用可能なビット数を、平均ビットレート、心理聴覚分析部V3で求めた心理聴覚エントロピー(PE)の値、及び図示しないビットリザーバ等に蓄積されているビット数を元に算出しておく。そして、量子化部V5では、心理聴覚分析部V3により得られたマスキング特性に基づき(図3(b)参照)、量子化の割り当てビット数を決定し、該決定した割り当てビット数に応じて1フレーム分の楽音データ毎に、量子化を実行する。
量子化部V5に対してはMIDIビットストリーム生成部BS(図1参照)で生成されたMIDIビットストリームが入力されており、量子化部V5は量子化の際に、入力されたMIDIビットストリームを1024ビットずつに分け(図3(e)参照)、該分けられた1024ビットからなるMIDIビットストリームの各ビットに対して各周波数成分(MDCT係数)を対応付ける。また、その際には、対応付けられたビット情報に従って各周波数成分毎に情報の丸め方を変える。図3(f)に示すように、例えばMIDIビットストリームのビット値が「1」の場合にはそれに対応するスペクトル係数を奇数に丸め込む一方で、MIDIビットストリームのビット値が「0」の場合にはそれに対応するスペクトル係数を偶数に丸め込む。勿論、これに限らず、すべてのスペクトル係数に対して量子化を行った後に、所定のスペクトル係数に関してのみMIDIビットストリームのビットに応じて「+1」又は「−1」して、スペクトル係数を奇数又は偶数に丸め込むようにしてもよい。このようにして、量子化部V5では、心理聴覚分析部V3で求めたクリティカルバンド(又はスケールファクタバンド)毎の許容量子化雑音電力を下回ることを目標に量子化を行う。
量子化されたMDCT係数は、ハフマン符号化部V6によりハフマン符号化を施されて冗長度が削減される。具体的には、ハフマン符号化により「1」と「0」からなるコードを割り当てる。上記量子化・ハフマン符号化の処理は反復ループ処理に従い行われ、実際に生成される符号量がフレームに割り当てられたビット数を下回るまで繰り返される。ビットストリーム生成部V7は、1フレーム単位に楽音データを符号化された楽音ビットストリームとして出力する(図3(g)参照)。ここで、量子化部V5において1フレーム分の楽音データのスペクトル係数全てに対してMIDIデータを割り当てるとすると、MIDIデータを埋め込むレートは48000bpsとなる。なお、MIDIデータの情報量が少ない場合には、送信側と受信側との共通規則によって選択されたスペクトル係数にだけMIDIデータを埋め込むようにしてもよい。
図4は、上記した楽音エンコード部VEにおける各機能を実現する具体的な処理の一実施例を示すフローチャートである。図4に示す処理はソフトウェアプログラムであって、コンテンツ制作装置CS本体の電源オンに応じて起動される。
ステップS1は、放送コンテンツとするMPEG-2 Audio AAC形式のディジタル楽音データを所定のサンプル数を1フレームとしてフレーム単位で取得する(切り出す)。ステップS2は、取得した1フレームの楽音データに対して所定の窓関数をかける。ステップS3は、取得した1フレームの楽音データを基に心理聴覚分析を行う。ステップS4は、窓掛けした楽音データをMDCT変換する。ステップS5は、心理聴覚分析結果に基づいて、MDCT変換後のデータに対してマスキング処理を行う。
ステップS6は、電子音楽装置DMを連動動作するために利用するMIDIデータが任意に入力されている場合、該MIDIデータを楽音データに同期させたビット列(MIDIビットストリームデータ)に変換する。ステップS7は、上記ステップS3で行った心理聴覚分析を利用して、上記ステップS4の実行に伴って得られたMDCT係数を量子化する。その際には同時に、変換後のMIDIデータのビット列(MIDIビットストリームデータ)を埋め込む処理を実行する。ここでは、MIDIデータの時刻情報をどのMDCT係数に対応付けるかによって、情報としてもつようにしている。ステップS8は、量子化されたMDCT係数をハフマン符号化する。ステップS9は、楽音データと共に放送コンテンツとする別途用意したMPEG-2 Video形式の動画ビットストリームデータを取得し、該取得したMPEG-2 Video形式の動画ビットストリームデータとステップS8の処理後のデータとを多重化して、MPEG-2 TS形式の多重化されたコンテンツデータを生成する。ステップS10は、前記生成したMPEG-2 TS形式の多重化されたコンテンツデータを出力する。このようにして、電子音楽装置DMを連動動作するために利用するMIDIデータを電子透かし情報として、符号化した楽音ビットストリームデータに埋め込むようにしている。
次に、放送局HSにおける動画エンコード部MEによる、動画データを符号化して動画ビットストリームデータに変換する動画エンコード処理について、図5〜図9を用いて説明する。ただし、ここでは説明を理解しやすくするために、動画データのエンコードをMPEG-2 Video形式に則るものとする。
図5は、図1に示した動画エンコード部MEによる動画エンコードの処理概要を示す模式図である。従来知られているように、MPEG-2 Video形式においては、動画データを構成する複数の静止画像フレーム(図中0〜19で示す各フレーム)のうち、いくつかの静止画像データ(例えば15フレームずつ)をGOP(Group Of Picture)毎にまとめてデータ圧縮を行う。GOP内のフレームは、I(Intra-coded)ピクチャ、P(Predictive-coded)ピクチャ、B(Bidirectionally-coded)ピクチャという圧縮方法の異なる静止画像フレームで構成されている。Pピクチャ(図中に示す5P、8P、11P、14P、20P)とBピクチャ(図中に示す0B、1B、3B、4B、6B、7B、9B、10B、12B、13B、15B、16B、18B、19B)はフレーム間の差分を用いてデータ圧縮を行うものであり、Iピクチャ(図中に示す2I、17I)は1つのフレームだけをもとにデータ圧縮を行うものである。デコードの際には、Pピクチャ、Bピクチャの差分情報から静止画像を復元する都合上、エンコードの際にはフレームの順番を入れ替える必要がある。図5から理解できるように、この発明ではIピクチャに対してのみに、まとめてMIDIデータ(詳しくはMIDIビットストリームデータ)を電子透かし情報として埋め込むようにしている。なお、1つの静止画像フレームは輝度成分(Y成分)情報と色差成分(Cr成分、Cb成分)情報を含むものであるが、ここでは輝度成分(Y成分)情報にのみMIDIデータを埋め込む。
図6は、図1に示した動画エンコード部MEの機能の一実施例を略示する機能ブロック図である。フレーム並べ替え部M1は、取得したディジタル動画データ(ディジタル放送の仕様にあわせて例えば480P、すなわち縦480×横720の画素からなる静止画像フレームが1秒間に30フレーム連続して構成されるデータ)から、静止画像フレームを15フレームずつGOPにまとめる。この際には、GOPの先頭に1つだけIピクチャを配置するように各ピクチャの並べ替えを行う(図5参照)。
減算器M2は、所謂フレーム間予測を行うためのものである。すなわち、動画データは複数のフレームと呼ばれる静止画像により構成されており、あるフレームと直前のフレームとの間では、多くの場合それぞれの画像はそのほとんどが似たものである。そこで、直前のフレームを元に、現フレームとの差のみを抽出して符号化すれば、ビット数の削減につながることが従来知られている(これをフレーム間予測と呼ぶ)。ただし、フレーム並べ替え部M1から送られるGOPを処理する際に、処理するピクチャがIピクチャである場合には減算処理を行うことなく、当該Iピクチャをそのまま後続のDCT( Discrete Cosine Transform)変換部M3に素通しする一方で、処理するピクチャがPピクチャあるいはBピクチャである場合には、後述するフレームメモリ/予測器M10からの出力との差分をとってからDCT変換部M3に送る。
また、自然画像においては領域を狭く限ると画素のレベル値が互いに近いことが多く、これはある領域(空間)内における画素値の変化の度合い(空間周波数と呼ぶ)が比較的小さいと言える。したがって、画像を空間空間周波数領域のデータに変換すると、データは低周波側に偏る。この結果、高周波側のデータにより少ないビット数を割り当てることにより、全体として変換前より少ないビット数で画像を符号化することができる。MPEGでは、この空間‐周波数変換にDCTという手法を用い、ブロックと呼ばれる8×8画素単位でDCTを行うことが公知である。DCT変換部M3は、1フレームの動画データを高速フーリエ変換(FFT)することにより、縦8画素×横8画素のブロック単位で周波数スペクトル(DCT係数と呼ぶ)に変換する。これ以降では、縦480×横720の画素からなる1フレーム分の動画データを、縦8画素×横8画素のブロックによって縦60ブロック×横90ブロックに分け、それぞれのブロック単位に圧縮処理を行う。そうすると、例えば1つのIピクチャは、0ブロックから5399ブロックまでの5400個のブロックで構成されることになる。こうしたIピクチャの1画面分のブロックデータ群の一例を、図7に示す。
量子化部M4に対してはMIDIビットストリーム生成部BS(図1参照)で生成されたMIDIビットストリームデータが入力されており、量子化部M4は量子化の際にMPEG-2 Videoエンコーダにおける一般的な量子化として、情報を丸め込んで桁数を減らす処理を実行する。具体的には、Iピクチャを構成する0ブロックから5399ブロックまでの各ブロックに対して、MIDIビットストリーム生成部BS(図1参照)で生成したMIDIビットストリームデータを時間順に3ビットずつ埋め込む。図8を参照しながら具体的に説明する。図8は、所定のDCT係数へのMIDIデータの埋め込みを説明するための概念図である。
1つのブロック内の処理としては、まずエンコーダとデコーダとの間で共通の規則(例えば、同一の種から生成される擬似乱数を基にした、エンコーダとデコーダとで共通の系列を利用するなど)に従って、1フレーム分の動画データを周波数変換したDCT係数の複数のAC成分(DC成分と呼ばれる直流成分を除いた成分)のうちの3成分を順に選択する。次に、その選択した3成分(3つのDCT係数)に対し、MIDIビットストリームデータの3ビット分をそれぞれ時間順に1ビットずつ割り当てる。そして、その3成分を量子化する際に、例えば、MIDIビットストリームデータのビット値が「1」の場合にはそれに対応するDCT係数を奇数に丸め込む一方で、MIDIビットストリームデータのビット値が「0」の場合にはそれに対応するDCT係数を偶数に丸め込む。図8に示した例では、MIDIビットストリームデータ「110010…」が、ブロック0から順に割り当てられている。すなわち、MIDIデータの時刻情報をどのDCT係数に対応付けるかによって、情報としてもつようにしている。したがって、エンコーダにおいては、ある時刻に発生したMIDIイベントの時刻情報は動画データと同期したビットストリーム上の位置によって表され、その位置から一意に対応付けられるフレームおよびブロックおよびDCT係数の位置にイベントが符号化されて埋め込まれる。逆に、デコーダにおいては、MIDIイベント抽出した際に、そのイベントが埋め込まれていたフレームおよびブロックおよびDCT係数の位置から、MIDIイベントが対応する時刻を動画と同期させて得ることができる。なお、MIDIデータを埋め込まない成分については、通常の量子化を行う。勿論、これに限らず、すべてのDCT係数に対して量子化を行った後に、所定のDCT係数に関してのみMIDIビットストリームデータのビットに応じて「+1」又は「−1」して、DCT係数を奇数又は偶数に丸め込むようにしてもよい。ここで、量子化部M4において1フレーム分の動画データのDCT係数全てに対してMIDIデータを割り当てるとすると、MIDIデータを埋め込むレートは32400(3ビット×5400ブロック×(30フレーム秒/15フレーム(GOP))bpsとなる。
ハフマン符号化部V6は、ハフマン符号化を施すことに伴い「1」と「0」からなるコードを割り当て、量子化されたMDCT係数の冗長度を削減する。ビットストリーム生成部V7は、1フレーム単位に動画データを動画ビットストリームとして出力する。なお、MIDIデータの情報量が少ない場合には、送信側と受信側との共通規則によって選択されたDCT係数にだけMIDIデータを埋め込むようにしてもよい。
上記したフレーム間予測を行う際に、フレーム画面内で動く物体を検出し、その動きを予測してその結果と現フレームとの差を抽出するようにすれば、予測の精度が向上するので、さらなるビット数の削減につながることが知られている(所謂動き補償)。動き推定ベクトル検出部M7〜逆量子化部M10は、そのための処理を行うものである。動き推定ベクトル検出部M7は、上記動き補償を行うために必要な動きベクトルを、直前のフレームと現在のフレームとの比較に応じて検出する。フレームメモリ/予測部M8は、上記した動き補償を実行する。逆量子化部M10及び逆DCT変換部M9は、量子化された直前のフレームをDCT変換部M3及び量子化部M4を介する前の状態に戻し、これをフレームメモリ/予測部M8に送る。
図9は、上記した動画エンコード部MEの機能を実現する具体的な処理の一実施例を示すフローチャートである。図9に示す処理はソフトウェアプログラムであって、コンテンツ制作装置CSの電源オンに応じて常時起動される。
ステップS21は、放送コンテンツとするMPEG-2 Video形式のディジタル動画データから、予め決められているGOP単位に相当する複数の静止画像フレーム(例えば15フレーム)を取得する。ステップS22は、取得した複数の静止画像フレームを並び替える。この際には、GOPの先頭に1つだけIピクチャを置くように並べ替える。ステップS23は、Iピクチャに相当するGOP内の最初のフレームを取り出す。ステップS24は、前記取り出したIピクチャに相当するフレームを複数のブロックに分け、各ブロック単位でDCT変換を実行する。ステップS25は、電子音楽装置DMを連動動作するために利用するMIDIデータが任意に入力されている場合、該MIDIデータを動画データに同期させたビット列(MIDIビットストリームデータ)に変換する。
ステップS26は、上記ステップS24の実行に伴って得られたDCT係数を量子化する。その際には同時に、変換後のMIDIデータのビット列(MIDIビットストリームデータ)を埋め込む処理を実行する。ステップS27は、量子化されたDCT係数をハフマン符号化する。ステップS28は、GOP内に含まれるIピクチャに相当するフレーム以外のフレーム(Pピクチャ又はBピクチャに相当する)を、MPEG-2 Video形式に則る動画データのエンコードに従って符号化する。ステップS29は、符号化されたフレームをまとめる。ステップS30は、動画データと共に放送コンテンツとする別途用意したMPEG-2 Audio AAC形式の楽音ビットストリームデータを取得し、該取得したMPEG-2 Audio AAC形式の楽音ビットストリームデータとステップS29の処理後のまとめられた動画データとを多重化して、MPEG-2 TS形式の多重化されたコンテンツデータを生成する。ステップS31は、前記生成したMPEG-2 TS形式の多重化されたコンテンツデータを出力する。このようにして、電子音楽装置DMを連動動作するために利用するMIDIデータを電子透かし情報として、符号化した動画ビットストリームデータに埋め込むようにしている。
次に、電子音楽装置DM側の処理であって、符号化された楽音又は動画ビットストリームデータから、電子音楽装置DMを連動動作するために利用するMIDIビットストリームデータを取り出すデコード処理について説明する。まず、前記デコード処理を実行するに伴い、放送中の番組にあわせて各種の楽器駆動部を連動動作する電子音楽装置DMのハード構成について、図10を用いて説明する。図10は、この発明に係る電子音楽装置DMの全体構成の一実施例を示したハード構成ブロック図である。
本実施例に示す電子音楽装置は、マイクロプロセッサユニット(CPU)1、リードオンリメモリ(ROM)2、ランダムアクセスメモリ(RAM)3からなるマイクロコンピュータによって制御される、例えば電子楽器やパーソナルコンピュータ等の機器である。CPU1は、この電子音楽装置全体の動作を制御するものである。このCPU1に対して、データ及びアドレスバス1Dを介してROM2、RAM3、検出回路4,8、駆動回路5、表示回路7、音源回路9、効果回路10、動画/楽音データ入力インタフェース(I/F)12、チューナ回路13、デコーダ回路14、外部記憶装置15、MIDIインタフェース(I/F)16および通信インタフェース(I/F)17がそれぞれ接続されている。更に、CPU1には、タイマ割込み処理(インタラプト処理)における割込み時間や各種時間を計時するタイマ1Aが接続されている。例えば、タイマ1Aはクロックパルスを発生し、発生したクロックパルスをCPU1に対して処理タイミング命令として与えたり、あるいはCPU1に対してインタラプト命令として与える。CPU1は、これらの命令に従って各種処理を実行する。
ROM2は、CPU1により実行される各種プログラムや各種データを格納するものである。RAM3は、CPU1が所定のプログラムを実行する際に発生する各種データを一時的に記憶するワーキングメモリとして、あるいは現在実行中のプログラムやそれに関連するデータを記憶するメモリ等として使用される。RAM3の所定のアドレス領域がそれぞれの機能に割り当てられ、レジスタやフラグ、テーブル、メモリなどとして利用される。演奏操作子6は楽音の音高を選択するための複数の鍵を備えた例えば鍵盤等のようなものであり、各鍵に対応してキースイッチを有しており、この演奏操作子6(鍵盤等)はユーザ自身の手弾きによるマニュアル演奏のために使用できるのは勿論のこと、テレビやラジオなどの受信機による番組の放送受信時において、当該電子音楽装置を番組と連動させて駆動させるか否かを指示するための設定手段などとして使用することもできる。検出回路4は、演奏操作子4Aの各鍵の押圧及び離鍵を検出することによって検出出力を生じる。駆動回路5は、ユーザが操作せずともMIDIデータ(楽曲演奏データ)に従って押鍵動作を自動的に行うように、各鍵を駆動するためのものである。なお、ここでは図示していないが、鍵盤を構成する複数の鍵毎にLEDのような発光素子(鍵盤LEDと呼ぶ)からなる表示器を設けていてよい。
表示回路7は例えば液晶表示パネル(LCD)やCRT等から構成されるディスプレイ7A(表示器)に、再生中の曲の歌詞や楽譜を表示させたり、あるいはCPU1の制御状態などを表示したりする。設定操作子(スイッチ等)8Aは、例えば番組の放送時において当該電子音楽装置を番組内で流れる映像や楽音などと連動させて駆動させるか否かを指示する連動設定スイッチなどがある。勿論、これら以外にも、音高、音色、効果等を選択・設定・制御するために用いる数値データ入力用のテンキーや文字データ入力用のキーボード、あるいはディスプレイ7Aに表示される所定のポインティングデバイスを操作するために用いるマウスなどの各種操作子を含んでいてよい。検出回路8は、上記各スイッチの操作状態を検出し、その操作状態に応じたスイッチ情報をデータ及びアドレスバス1Dを介してCPU1に出力する。
音源回路9は複数のチャンネルで楽音信号の同時発生が可能であり、データ及びアドレスバス1Dを経由して与えられた、ユーザによる演奏操作子6の操作に応じて発生される各種演奏情報、あるいはMIDIデータ(楽曲演奏データ)の各種演奏情報を入力し、これらの演奏情報に基づいて楽音信号を発生する。音源回路9から発生された楽音信号は、効果回路10を介して効果付与されてアンプやスピーカなどを含むサウンドシステム11から発音される。この音源回路9と効果回路10とサウンドシステム11の構成には、従来のいかなる構成を用いてもよい。例えば、音源回路9はFM、PCM、物理モデル、フォルマント合成等の各種楽音合成方式のいずれを採用してもよく、また専用のハードウェアで構成してもよいし、CPU1によるソフトウェア処理で構成してもよい。
動画/楽音データ入力インタフェース(I/F)12は、外部チューナ/復調装置や外部ディジタルレコーダ装置からの動画データ及び/又は音声データを入力する。チューナ回路13は図1に示すチューナ/復調部T及びデマルチプレックス部DPに相当し、前記受信した放送信号を動画ビットストリームデータと楽音ビットストリームデータとが多重化されたデータであるコンテンツデータに復調し、該復調したコンテンツデータから、動画ビットストリームデータと楽音ビットストリームデータとを取り出す。デコーダ回路14は図1に示した動画デコード部MD又は楽音デコード部VD、MIDIイベント生成部IBに相当し、動画/楽音ビットストリームデータから、その中に電子透かし情報として埋め込まれているMIDIビットストリームデータを抽出し、抽出したMIDIビットストリームデータをMIDIデータに逆変換する。
外部記憶装置15は、MIDIデータなどの各種データ、CPU1が実行する各種制御プログラム等の制御に関するデータなどを記憶する。なお、上述したROM2に制御プログラムが記憶されていない場合、この外部記憶装置15(例えばハードディスク)に制御プログラムを記憶させておき、それをRAM3に読み込むことにより、ROM2に制御プログラムを記憶している場合と同様の動作をCPU1にさせることができる。このようにすると、制御プログラムの追加やバージョンアップ等が容易に行える。なお、外部記憶装置15はハードディスク(HD)に限られず、フレキシブルディスク(FD)、コンパクトディスク(CD‐ROM・CD‐RAM)、光磁気ディスク(MO)、あるいはDVD(Digital Versatile Disk)等の着脱自在な様々な形態の外部記憶媒体を利用する記憶装置であればどのようなものであってもよい。あるいは、フラッシュメモリなどの半導体メモリであってもよい。
MIDIインタフェース(I/F)16は、外部接続された他のMIDI機器16A等からMIDIデータを当該電子音楽装置へ入力したり、あるいは放送局から配信された放送信号から抽出したMIDIデータを、当該電子音楽装置から他のMIDI機器16A等へ出力するためのインタフェースである。通信インタフェース(I/F)17は、例えばLANやインターネット、電話回線等の有線あるいは無線の通信ネットワークXに接続されており、該通信ネットワークXを介してサーバコンピュータ17Aと接続され、当該サーバコンピュータ17Aから制御プログラムあるいは各種データなどを電子音楽装置側に取り込むためのインタフェースである。すなわち、ROM2や外部記憶装置15(例えば、ハードディスク)等に制御プログラムや各種データが記憶されていない場合に、サーバコンピュータ17Aから制御プログラムや各種データをダウンロードするために用いられる。こうした通信インタフェース17は、有線あるいは無線のものいずれかでなく双方を具えていてよい。
なお、演奏操作子6Aは鍵盤楽器の形態に限らず、弦楽器や管楽器、あるいは打楽器等どのようなタイプの形態でもよい。また、演奏操作子6Aやディスプレイ7Aあるいは音源回路9、さらにはチューナ回路13やデコーダ回路14などを1つの装置本体に内蔵したものに限らず、それぞれが別々に構成され、通信インタフェースや各種ネットワーク等の通信手段を用いて各装置を接続するように構成されたものであってもよいことは言うまでもない。さらに、本発明に係る電子音楽装置は電子楽器やパーソナルコンピュータの形態に限らず、カラオケ装置やゲーム装置、携帯電話等の携帯型通信端末、自動演奏ピアノなど、どのような形態の装置・機器に適用してもよい。携帯型通信端末に適用した場合、端末のみで所定の機能が完結している場合に限らず、機能の一部をサーバ側に持たせ、端末とサーバとからなるシステム全体として所定の機能を実現するようにしてもよい。
次に、楽音又は動画ビットストリームデータ内に電子透かし情報として埋め込まれており、放送中の番組にあわせて電子音楽装置DMを連動動作するために利用するMIDIデータを、楽音又は動画ビットストリームデータから取り出すデコード処理について説明する。図11は、図1に示した楽音デコード部VD又は動画デコード部MDの機能を略示する機能ブロック図である。
ビットストリーム分解部DC1は、入力されたデータが符号化された楽音ビットストリームデータである場合には、当該楽音ビットストリームデータからMDCT係数に相当するビット列を取り出す。他方、入力されたデータが符号化された動画ビットストリームデータである場合には、当該動画ビットストリームデータのPピクチャやBピクチャあるいはIピクチャの色差成分(Cr成分、Cb成分)については読み飛ばしを行い、Iピクチャの輝度成分(Y成分)についてはDCT係数に相当するビット列を取り出す。この取り出したMDCT係数に相当するビット列又はIピクチャの輝度成分(Y成分)のDCT成分に相当するビット列は、ハフマン符号化されているデータである。そこで、ハフマン復号部DC2は、取り出したビット列を復号し、元の量子化されているMDCT係数又は量子化されているDCT係数に変換する。MIDIビットストリーム抽出部DC3は、前記変換された元の量子化されているMDCT係数又は量子化されているDCT係数を順に調べ、係数が奇数である場合には「1」を、係数が偶数である場合には「0」を出力する。このようにして、楽音又は動画ビットストリームデータ内に電子透かし情報として埋め込まれているMIDIデータを復号する。こうしたMIDIデータの復号は、外部のディジタルテレビ装置TVなどが楽音や動画を復号するのと同じ固定時間で行い、これにより楽音データ及び動画データとMIDIデータとが同期する。なお、変換後のMDCT係数又はDCT係数すべてについて調べることなく、エンコーダとデコーダとの予め決められた共通のルールによって、とびとびの係数のみについて調べるようにしてもよい。
図12は、楽音デコードの機能を実現する具体的な処理の一実施例を示すフローチャートである。図12に示す処理は、電子音楽装置DMにおいて適宜に起動されるソフトウェアプログラムであって、機器本体の電源オンに応じて常時起動される。
ステップS41は、符号化された楽音ビットストリームデータを1フレーム分読み出す。ステップS42は、読み出した1フレーム分の楽音ビットストリームデータから、所定の順にMDCT係数を1つ取り出す。ステップS43は、取り出したMDCT係数が奇数か否かを判定する。取り出したMDCT係数が奇数であると判定した場合には(ステップS43のyes)、予め用意しておいた所定の一時記憶メモリに記憶しているビット列に「1」を追記する(ステップS44)。取り出したMDCT係数が奇数でないと判定した場合には(ステップS43のno)、予め用意しておいた所定の一時記憶メモリに記憶しているビット列に「0」を追記する(ステップS45)。ステップS46は、フレーム内の所定数のMDCT係数に相当する回数(例えば1024回)、前記処理を繰り返し実行したか否かを判定する。フレーム内のMDCT係数に相当する回数分、前記処理を繰り返し実行していないと判定した場合には(ステップS46のno)、ステップS42の処理に戻って、上記処理を繰り返し実行する。フレーム内のMDCT係数に相当する回数分、前記処理を繰り返し実行したと判定した場合には(ステップS46のyes)、予め用意しておいた所定の一時記憶メモリに記憶しているビット列をMIDIデータ(例えばMIDIメッセージイベント情報)に変換する(ステップS47)。ステップS48は、出力すべき時刻に達したMIDIデータがあるか否かを判定する。出力すべき時刻に達したMIDIデータがあると判定した場合には(ステップS48のyes)、当該MIDIデータに従い本電子音楽装置を駆動するよう制御する(ステップS49)。
図13は、上記した動画デコードの機能を実現する具体的な処理の一実施例を示すフローチャートである。図13に示す処理は、電子音楽装置DMにおいて適宜に起動されるソフトウェアプログラムであって、機器本体の電源オンに応じて常時起動される。
ステップS51は、符号化された動画ビットストリームデータを1フレーム分読み出す。ステップS52は、読み出した1フレーム分の動画ビットストリームデータがIピクチャに相当するフレームに関するデータであるか否かを判定する。読み出した1フレーム分の動画ビットストリームデータがIピクチャに相当するフレームに関するデータでないと判定した場合には(ステップS52のno)、ステップS61の処理へジャンプする。読み出した1フレーム分の動画ビットストリームデータがIピクチャに相当するフレームに関するデータであると判定した場合には(ステップS52のyes)、Iピクチャに相当するフレームに関するデータから1ブロック分のデータを順に取り出す(ステップS53)。ステップS54は、取り出した1ブロック分のデータから、所定の順にDCT係数を1つ取り出す。ステップS55は、取り出したDCT係数は奇数か否かを判定する。取り出したDCT係数が奇数であると判定した場合には(ステップS55のyes)、予め用意しておいた所定の一時記憶メモリに記憶しているビット列に「1」を追記する(ステップS56)。取り出したDCT係数が奇数でないと判定した場合には(ステップS55のno)、予め用意しておいた所定の一時記憶メモリに記憶しているビット列に「0」を追記する(ステップS57)。
ステップS58は、ブロック内の所定のDCT係数に関して(例えば3つ)、処理を繰り返し実行したか否かを判定する。ブロック内の所定のDCT係数に関して、前記処理を繰り返し実行していないと判定した場合には(ステップS58のno)、ステップS54の処理に戻って、上記ステップS54〜ステップS58までの処理を繰り返し実行する。一方、ブロック内の所定のDCT係数に関して、前記処理を繰り返し実行したと判定した場合には(ステップS58のyes)、該Iピクチャに相当する1フレームを構成する全ブロックに相当する回数(例えば5400)、処理を繰り返したか否かを判定する(ステップS59)。1フレームを構成する全ブロックに相当する回数分、処理を繰り返していないと判定した場合には(ステップS59のno)、ステップS53の処理に戻って、上記ステップS53〜ステップS59までの処理を繰り返し実行する。1フレームを構成する全ブロックに相当する回数分、処理を繰り返したと判定した場合には(ステップS59のyes)、予め用意された所定の一時記憶メモリに記憶しているビット列をMIDIデータ(例えばMIDIメッセージイベント情報)に変換する(ステップS60)。ステップS61は、出力すべき時刻に達したMIDIデータがあるか否かを判定する。出力すべき時刻に達したMIDIデータがあると判定した場合には(ステップS61のyes)、当該MIDIデータに従い本電子音楽装置を駆動するよう制御する(ステップS62)。
このようにして、テレビ放送局Bなどから伝送される放送コンテンツ(番組)内に、電子音楽装置DMを連動動作させるために利用するMIDIデータ(楽曲演奏データ)を電子透かし情報として埋め込んでおき、放送コンテンツと共に放送信号として配信することができるようにしたことから、放送コンテンツ自体に放送コンテンツとは別の情報である楽曲演奏データを挿入して配信することが番組の放送仕様/形式に関わらず容易にでき、また汎用性が高く有利である。
なお、上述した実施例においては、MIDIデータの時刻情報をMDCT係数又はDCT係数に対応付けることによって、時刻情報を符号化された楽音又は動画ビットストリーム内に情報としてもつことで、楽音データ又は動画データと時間的に関連付けるようにしているがこれに限らない。例えば、楽音又は動画のエンコードを行う際に、MIDIデータのイベント情報のそれぞれに対して再生すべき時刻を指定するための再生時刻情報を付与しておき、イベント情報と再生時刻情報をまとめてMIDIビットストリームデータ化し符号化する。そして、デコードの際には、上述した実施例のようにイベント情報がどのMDCT係数又はDCT係数に埋め込まれているかに基づいてではなく、イベント情報に付与されていた再生時刻情報に基づいて再生すべき時刻を決定する。こうした再生時刻情報の形式は「年/月/日/時/分/秒/フレーム/サブフレーム」単位であってもよいし、指定された拍子とテンポに対する「小節/拍/tick」であってもよい。あるいは、絶対時間で指定してもよいし、各イベント間のデルタタイム(相対時間)で指定してもよい。SMF形式データをそのまま用いてもよい。こうすると、例えばコマーシャルの画像データや楽音データに対して、後続する番組にあわせて電子音楽装置DMを連動動作させるために使用するMIDIデータを予め先行して埋め込んでおくことができる。したがって、番組に先行してコマーシャルを配信することで、再生時刻情報を先行配信し、該先行配信された再生時刻情報に基づいて、コマーシャル以降に放送される番組にあわせて電子音楽装置DMを連動動作させることができるようになる。
なお、上述した図1に示す電子音楽装置連動システムにおいては、電子音楽装置DMに内蔵されたチューナ/復調部Tが放送局HSから配信される放送信号を受信・デコードし、該受信・デコードした放送信号から電子透かし情報として埋め込まれているMIDIデータを抽出して、これを利用して電子音楽装置DMを駆動する構成としたがこれに限らない。一例として、図14を示す。図14は、本発明に係る電子音楽装置連動システムにおける電子音楽装置DMについて、別の実施例を示すシステムブロック図である。
図14に示す電子音楽装置DMは、チューナ/復調部Tを内蔵していない。この電子音楽装置DMは、外部の「チューナ/復調/デマルチプレクサ/AVデコーダを備えた装置」Aから放送信号の受信に応じて出力される、MIDIデータを電子透かし情報として含む動画データあるいは楽音データを受信して、これに基づき動作する。動画データとしては、典型的には480p形式(ディジタル放送規格)のディジタル動画データが例として挙げられる。楽音データとしては、典型的にはAES/EBU形式(ディジタルオーディオ規格)のディジタル楽音データが例として挙げられる。勿論、動画データや楽音データはこれらの規格に限らない。また、ディジタルデータに限らず、品質のよいアナログデータであってもよい。テレビ装置TV´は、「チューナ/復調/デマルチプレクサ/AVデコーダを備えた装置」Aから出力される動画データと楽音データを受信し、映像を表示したり、楽音を発したりする。外部レコーダ装置OR´は、「チューナ/復調/デマルチプレクサ/AVデコーダを備えた装置」Aから出力される動画データと楽音データを受信し、これを記録する。また、記録した動画データと楽音データとを再生する。動画エンコード部MEは、480p形式の動画データをMPEG-2 Video形式のディジタル動画データに変換する。楽音エンコード部VEは、AES/EBU形式の楽音データをMPEG-2 Audio AAC形式のディジタル楽音データに変換する。動画エンコード部ME及び楽音エンコード部VEでは、前記変換後のデータから電子透かし情報として埋め込まれているMIDIデータを取り出す。そして、動画エンコード部ME及び楽音エンコード部VE以降においては、該取り出したMIDIデータに基づき本電子音楽装置DMを動作するよう制御する。これについては、既に説明したとおりであることから説明を省略する。
なお、電子音楽装置DMを連動動作させる放送コンテンツはテレビ放送によるものに限らず、ラジオ放送によるものでもよい。あるいは、ワンセグのような携帯端末向け放送であってもよい。インターネット放送であってもよい。
なお、楽曲演奏データのフォーマットは、イベント情報の発生時刻を曲や小節内における絶対時間で表した『イベント+絶対時間』形式のもの、イベント情報の発生時刻を1つ前のイベントからの時間で表した『イベント+相対時間』形式のもの、音符の音高と符長あるいは休符と休符長で演奏データを表した『音高(休符)+符長』形式のもの、演奏の最小分解能毎にメモリの領域を確保し、演奏イベント情報の発生する時刻に対応するメモリ領域にイベント情報を記憶した『ベタ方式』形式のものなど、どのような形式のものでもよい。また、メモリ上において、時系列の楽曲演奏データが連続する領域に記憶されていてもよいし、飛び飛びの領域に散在して記憶されている楽曲演奏データを、連続するデータとして別途管理するようにしてもよい。すなわち、時系列的に連続する楽曲演奏データとして管理することができればよく、メモリ上で連続して記憶されているか否かは問題ではない。
1…CPU、1A…タイマ、2…ROM、3…RAM、4,8…検出回路、5…駆動回路、6…演奏操作子(鍵盤等)、7…表示回路、7A…ディスプレイ、8A…設定操作子、9…音源回路、10…効果回路、11…サウンドシステム、12…動画/楽音データ入力インタフェース、13…チューナ回路、14…デコーダ回路、15(K)…外部記憶装置、16…MIDIインタフェース、16A…MIDI機器、17…通信インタフェース、17A…サーバコンピュータ、1D…通信バス、X…通信ネットワーク、HS…放送局、R…データ生成装置群、CS…コンテンツ制作装置、ME…動画エンコード部、BS…MIDIビットストリーム生成部、VE…楽音エンコード部、P…マルチプレックス部、H…放送設備、DM…電子音楽装置、G…楽器駆動11111制御部、IB…MIDIイベント生成部、MD…動画デコード部、VD…楽音デコード部、DP…デマルチプレックス部、T…チューナ、OR(OR´)…外部ディジタルレコーダ装置、TV…ディジタルテレビ装置、TV´…テレビ装置、OT…外部チューナ/復調装置、A…チューナ/復調/デマルチプレクサ/AVデコーダを備えた装置