JP2008244888A

JP2008244888A - 通信装置、通信方法およびプログラム

Info

Publication number: JP2008244888A
Application number: JP2007083076A
Authority: JP
Inventors: Takuro Sone; 卓朗曽根
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-03-27
Filing date: 2007-03-27
Publication date: 2008-10-09

Abstract

【課題】ライブ演奏のように楽曲のテンポの変動があっても、楽曲の流れにあわせたデータの再生を簡単に行うことができるとともに、他の利用者とコミュニケーションをとることも可能な通信装置、通信方法およびプログラムを提供すること。
【解決手段】本発明の通信装置は、期間情報が示す同期期間以外の期間においては、リアルタイムに会話映像、会話音声に係るデータの通信を行ってコミュニケーションをとることができる一方、同期期間においては、受信したデータを遅延させるとともに、受信音声データとリファレンス楽音データの同期処理に基づいて歌詞データを読み出すことにより、ライブ映像、ライブ演奏の進行に合わせた歌詞映像を表示することができる。
【選択図】図３

Description

本発明は、予め記憶したデータを同期再生するとともに、受信したデータに対する遅延を制御する技術に関する。

一般的なカラオケ装置においては、例えば、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）形式の伴奏用データ、楽曲の歌詞テロップを表示するシーケンスデータである歌詞データおよび映像データなどから構成された楽曲データをそれぞれ同期させて再生することにより、利用者はその楽曲のカラオケを楽しむことができる。特許文献１には、伴奏データと映像データを別個にサーバから受信してそれらを同期させて再生させる技術が開示されている。また、特許文献２においては、ライブ演奏のような臨場感のあるカラオケ演奏を提供する技術が開示されている。
特開２００３−１５６７５号公報特開２０００−３４７６７６号公報

カラオケの映像データに対して歌詞データを同期して再生するなど、異なる２つのデータを同期して再生することがしばしば要求される。このとき、映像データに遅延を施すと好都合な場合がある。例えば、映像データがライブ演奏を撮影することによって生成されたデータである場合には、楽曲の進行におけるテンポ変動にあわせて歌詞データを再生するための同期処理を行う必要があるため、映像データに対して同期処理に必要な時間の遅延を施すことが好都合となる。

ここで、カラオケの映像データや伴奏データを外部機器との通信によって受信する場合には、当該外部機器との通信によりテレビ電話のようなリアルタイムに通信を行いたいという要求もある。この場合、上述したような遅延を施すことは、リアルタイムに通信を行う場合の妨げとなってしまうため、別回線を設けてテレビ電話を設置しなくてはならなかった。

本発明は、上述の事情に鑑みてなされたものであり、ライブ演奏のように楽曲のテンポの変動があっても、楽曲の流れにあわせたデータの再生を簡単に行うことができるとともに、他の利用者とコミュニケーションをとることも可能な通信装置、通信方法およびプログラムを提供することを目的とする。

上述の課題を解決するため、本発明は、データ各部についての時刻を規定する時刻情報を有した第１のデータを記憶する記憶手段と、外部機器からの通信によって第２のデータを受信する受信手段と、所定の期間を示す期間情報を取得する期間情報取得手段と、データの読み出す時刻を示す同期情報を取得する同期情報取得手段と、前記期間情報が示す期間において、前記同期情報と前記時刻情報との対応関係に基づいて、前記記憶手段から第１のデータを読み出す読出手段と、前記期間情報の示す期間に基づき、前記受信手段が受信した第２のデータに対して所定の遅延時間の遅延処理を行って出力する遅延手段とを具備することを特徴とする通信装置を提供する。

また、別の好ましい態様において、前記遅延手段は、前記受信手段が受信した第２のデータをバッファするバッファ手段と、前記バッファ手段にバッファされた第２のデータを所定の速さで読み出すバッファ読出手段とを具備し、前記期間情報に基づいた期間において、前記バッファ読出手段は、前記バッファ手段が前記遅延時間に対応するデータ量の前記第２のデータをバッファした後に、前記バッファ手段にバッファされた第２のデータを前記所定の速さで読み出してもよい。

また、別の好ましい態様において、前記期間情報に基づいた期間の終了直後の期間において、前記バッファ読出手段は、前記バッファ手段にバッファされた第２のデータを前記所定の速度より速い速度で読み出してもよい。

また、別の好ましい態様において、前記期間情報に基づいた期間の開始直前の期間において、前記バッファ読出手段は、前記バッファ手段にバッファされた第２のデータを前記所定の速度より遅い速度で読み出してもよい。

また、別の好ましい態様において、前記期間情報に基づいた期間の開始直前の期間において、前記バッファ読出手段は、前記バッファ手段にバッファされた第２のデータの読み出しを停止してもよい。

また、別の好ましい態様において、前記受信手段が受信した第２のデータは、音声を示すデータを有し、前記期間情報に基づいた期間は、当該期間情報が示す期間の開始時点以降において前記音声の音量レベルが所定レベル以下である状態が所定時間継続した後の時点を開始時点とし、当該期間情報が示す期間の終了時点以降において前記音声の音量レベルが所定レベル以下である状態が所定時間継続した後の時点を終了時点とした期間であってもよい。

また、別の好ましい態様において、前記受信手段が受信した第２のデータは、音声を示すデータを有し、前記期間情報に基づいた期間は、当該期間情報が示す期間の開始時点以降において前記音声の音量レベルが所定レベル以下である状態が所定時間継続した後の時点を開始時点とし、当該期間情報が示す期間の終了時点以降に前記音声の音量レベルが所定レベル以下である状態が所定時間継続した後であって、当該所定レベル以下になった時から前記所定の遅延時間に対応する時間が経過した後の時点を終了時点とした期間であってもよい。

また、別の好ましい態様において、前記期間情報取得手段は、外部機器からの通信によって前記期間情報を取得してもよい。

また、別の好ましい態様において、利用者の操作に基づいて前記期間情報を生成する操作手段をさらに具備し、前記期間情報取得手段は、前記操作手段によって生成された期間情報を取得してもよい。

また、別の好ましい態様において、前記受信手段が受信した第２のデータを解析することにより期間情報を生成する解析手段をさらに具備し、前記期間情報取得手段は、前記解析手段によって生成された期間情報を取得してもよい。

また、別の好ましい態様において、前記同期情報取得手段は、外部機器からの通信によって前記同期情報を取得してもよい。

また、別の好ましい態様において、リファレンスデータを記憶するリファレンスデータ記憶手段と、前記受信手段が受信した第２のデータと前記リファレンスデータとを所定時間長のフレーム単位で対応付けて、対応する部分についての時刻を示す同期情報を生成するタイムアライメント手段とをさらに具備し、前記同期情報取得手段は、前記タイムアライメント手段によって生成された同期情報を取得してもよい。

また、本発明は、データ各部についての時刻を規定する時刻情報を有した第１のデータを記憶する記憶過程と、外部機器からの通信によって第２のデータを受信する受信過程と、所定の期間を示す期間情報を取得する期間情報取得過程と、データの読み出す時刻を示す同期情報を取得する同期情報取得過程と、前記期間情報が示す期間において、前記同期情報と前記時刻情報との対応関係に基づいて、前記記憶過程において記憶した第１のデータを読み出す読出過程と、前記期間情報の示す期間に基づき、前記受信過程において受信した第２のデータに対して所定の遅延時間の遅延処理を行って出力する遅延過程とを備えることを特徴とする通信方法を提供する。

また、本発明は、コンピュータに、データ各部についての時刻を規定する時刻情報を有した第１のデータを記憶する記憶機能と、外部機器からの通信によって第２のデータを受信する受信機能と、所定の期間を示す期間情報を取得する期間情報取得機能と、データの読み出す時刻を示す同期情報を取得する同期情報取得機能と、前記期間情報が示す期間において、前記同期情報と前記時刻情報との対応関係に基づいて、前記記憶機能によって記憶した第１のデータを読み出す読出機能と、前記期間情報の示す期間に基づき、前記受信機能によって受信した第２のデータに対して所定の遅延時間の遅延処理を行って出力する遅延機能とを実現させるためのプログラムを提供する。

本発明によれば、ライブ演奏のように楽曲のテンポの変動があっても、楽曲の流れにあわせたデータの再生を簡単に行うことができるとともに、他の利用者とコミュニケーションをとることも可能な通信装置、通信方法およびプログラムを提供することができる。

以下、本発明の一実施形態について説明する。

＜実施形態＞
本発明の実施形態に係る通信装置１は、図１に示すように、通信網１００を介して他の通信装置１とデータの送受信を行う。以下の説明おいて、通信装置１について送信側と受信側とを区別して説明する場合には、送信側については通信装置１−Ａとし、受信側については通信装置１−Ｂとして説明する。図２は、本発明の本実施形態に係る通信装置１のハードウエアの構成を示すブロック図である。

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２に記憶されているプログラムを読み出して、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３にロードして実行することにより、通信装置１の各部について、バス１０を介して制御する。また、ＲＡＭ１３は、ＣＰＵ１１が各データの加工などを行う際のワークエリアとして機能する。

記憶部１４は、例えば、ハードディスクなどの大容量記憶手段であって、楽曲データ記憶領域１４ａに、楽曲のリファレンスデータとなるリファレンス楽曲データを記憶する。リファレンス楽曲データは、リファレンス楽音データと歌詞データ（第１のデータ）を有している。リファレンス楽音データは、楽曲の見本となる歌声や伴奏を含む演奏（以下、リファレンス演奏という）を録音したオーディオデータであって、その再生時刻を示すタイムコードが付されている。歌詞データは、楽曲の歌詞を示すテキストデータと当該テキストデータの各テキストの表示タイミングを示すデータとを有するシーケンスデータであって、シーケンスデータの読み出し時刻を示すタイムコード（時刻情報）が付されている。そして、リファレンス楽音データと歌詞データは、同じタイムコードによって読み出すことにより時間同期して再生することができ、楽曲の見本となる歌声にあった歌詞が表示されるようになっている。

操作部１５は、例えばキーボードやマウスなどであり、通信装置１の利用者が操作部１５を操作すると、その操作内容を表すデータがＣＰＵ１１へ出力される。また、利用者による操作部１５の操作に基づいて、ＣＰＵ１１によって楽曲情報、期間情報が生成される。楽曲情報、期間情報については別途説明する。

表示部１６は、映像を画面に表示する液晶ディスプレイなどの表示デバイスであって、入力された映像データに基づいて表示を行う。また、通信装置１を操作するためのメニュー画面などの各種画面を表示する。音声出力部１７は、スピーカなどの放音手段を有し、入力された音声データに基づいて放音する。

映像入力部１８は、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）などのイメージセンサを有し、イメージセンサの撮影に基づいた映像データを生成する。音声入力部１９は、収音を行うマイクロフォンを有し、マイクロフォンの収音に基づいたオーディオデータである音声データを生成する。

通信部２０は、有線、無線などによって、通信網１００を介して他の通信装置とデータの送受信を行う通信手段である。本実施形態においては、通信部２０は、映像データ、音声データを送受信するとともに、後述する楽曲情報、期間情報についても送受信する。

次に、ＣＰＵ１１が、ＲＯＭ１２に記憶されたプログラムを実行することによって実現する機能のうち、受信したデータの処理に係る機能について説明する。図３は、ＣＰＵ１１が実現する機能を示したソフトウエアの構成を示すブロック図である。なお、データを送信する処理に係る機能については、映像入力部１８において生成された映像データ（第２のデータ）、音声入力部１９において生成された音声データ（第２のデータ）、操作部１５の操作に基づいて生成された楽曲情報、期間情報を通信部２０から送信する機能があるが、詳細な説明については省略する。

ここで、通信装置１−Ａから送信される映像データは、楽曲の生演奏を映像入力部１８において撮影した映像（以下、ライブ映像という）、および楽曲の生演奏の合間などに交わされる会話などのコミュニケーションの状況を撮影した映像（以下、会話映像という）のデータである。また、通信装置１−Ａから送信される音声データは、上述した映像データに対応する音のデータであって、楽曲の生演奏を音声入力部１９−Ａにおいて収音した音（以下、ライブ演奏という）、および楽曲の生演奏の合間などに交わされる会話などのコミュニケーションの状況を収音した音（以下、会話音声という）のデータである。なお、ライブ演奏には、歌手の歌声（以下、ライブボーカルという）や楽曲の伴奏などが含まれている。

楽曲データ選択部１０１は、通信部２０が受信した楽曲情報を取得する。ここで、楽曲情報は、上述した生演奏を行っている楽曲を特定する情報であって、利用者が操作部１５を操作して楽曲を特定することにより生成される。本実施形態においては、通信部２０が受信した楽曲情報を楽曲データ選択部１０１が取得している。なお、楽曲データ選択部１０１は、受信側の通信装置１において生成された楽曲情報を取得してもよく、どちらを取得するかは、利用者が操作部１５を操作することにより選択すればよい。また、楽曲情報は、楽曲名や認識番号など、当該楽曲を特定できる情報であれば何でもよい。

そして、楽曲データ選択部１０１は、取得した楽曲情報に基づいて楽曲を特定し、楽曲データ記憶領域１４ａに記憶されているリファレンス楽曲データの中から、特定した楽曲に対応するリファレンス楽曲データを選択し、そのリファレンス楽曲データのリファレンス楽音データおよび歌詞データを読み出す。そして、読み出したリファレンス楽音データをタイムアライメント部１０２へ出力するとともに、読み出した歌詞データについては、後述するデータ読出部１０３に読み出されるまでＲＡＭ１３にバッファしておく。

タイムアライメント部１０２は、通信部２０が受信した期間情報および音声データを取得する。ここで、期間情報は、以下に示すタイムアライメント部１０２における処理（以下、同期処理という）を行うかどうかを示す情報であって、処理を開始するタイミング、処理を終了するタイミングによって処理を行う期間（以下、同期期間という）を示している情報である。この期間情報についても、上述のように、利用者が操作部１５を操作することにより、同期処理の開始、終了タイミングを指定することにより生成され、通常、同期期間は音声データに係る音声が、ライブ演奏である期間として指定される。本実施形態においては、通信部２０が受信した期間情報を取得しているが、受信側の通信装置１において生成された期間情報を取得してもよく、どちらを取得するかは、利用者が操作部１５を操作することにより選択すればよい。以下の説明においては、実施態様の一例として、期間情報が示す同期期間において通信部２０が受信する音声データに係る音声は、ライブ演奏であるものとして説明する。

そして、タイムアライメント部１０２は、取得した期間情報が示す同期期間において、通信部２０が受信した音声データ（以下、受信音声データという）を取得し、受信音声データと、楽曲データ選択部１０１から出力されたリファレンス楽音データとを比較して、受信音声データに係る音声、すなわちライブ演奏とリファレンス演奏との楽曲の進行のずれを検出し、当該楽曲の進行のずれに基づいてタイムコードを出力する機能を有している。

ここで、楽曲の進行のずれは、それぞれのデータを所定時間長のフレーム単位に分離し、その各々に対してＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を施して、それぞれのデータのスペクトルを算出し、これらの各フレーム間で類似したスペクトルを対応付けることにより検出する。また、楽曲の進行のずれを検出する機能について、本実施形態ではＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ：動的計画法）マッチングを用いる。具体的には以下のような処理となる。

タイムアライメント部１０２は、図４に示すような座標平面（以下、ＤＰプレーンという）をＲＡＭ１３に形成する。このＤＰプレーンの縦軸は、受信音声データをそれぞれ所定時間長のフレーム単位に分離してその各々に対してＦＦＴを施して得られたスペクトルについて、各フレームのスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータ（ケプストラム）をａ１、ａ２、ａ３・・・ａｎとして、時間軸に従って並べたものである。また、横軸のｂ１、ｂ２、ｂ３・・・ｂｎは、リファレンス楽音データについて、上記同様に時間軸に従って並べたものである。ここで、縦軸のａ１、ａ２、ａ３・・・ａｎの間隔と横軸のｂ１、ｂ２、ｂ３・・・ｂｎの間隔は、いずれもフレームの時間長と対応している。このＤＰプレーンにおける各格子点の各々には、ａ１、ａ２、ａ３・・・ａｎの各パラメータと、ｂ１、ｂ２、ｂ３・・・ｂｎの各パラメータのユークリッド距離を夫々示す値であるＤＰマッチングスコアが対応付けられている。例えば、ａ１とｂ１とにより位置決めされる格子点（ａ１，ｂ１）には、受信音声データの一連のフレームのうち最初のフレームから得たパラメータとリファレンス楽音データの一連のフレームのうち最初のフレームから得たパラメータのユークリッド距離を示す値が対応付けられることになる。

そして、タイムアライメント部１０２は、このような構造を成すＤＰプレーンを形成した後、ａ１とｂ１とにより位置決めされる始端にあたる格子点（ａ１，ｂ１）からａｎとｂｎとにより位置決めされる終端にあたる格子点（ａｎ，ｂｎ）に至る全経路を探索し、探索した経路ごとに、その始端から終端までの間に辿る各格子点のＤＰマッチングスコアを累算して累算値を求める。なお、始端と終端は各データの最初のフレームと最後のフレームということではなく、各データにおける所定のフレーム数を単位として行われ、この単位における最初のフレームから最後のフレームまで行われて、これが順次処理され各データの最後のフレームまで処理されていく。

そして、ＤＰマッチングスコアの累算値が最小となる経路をＤＰプレーン上から特定し、その経路上の各格子点によって、受信音声データの各フレームにリファレンス楽音データの各フレームが対応付けられる。この対応関係により楽曲の進行のずれを検出することができる。例えば、図４に示すＤＰプレーン上に記された経路においては、ａ１とｂ１により位置決めされる格子点（ａ１，ｂ１）からその右上のａ２とｂ２により位置決めされる格子点（ａ２，ｂ２）に進んでいることが分かる。この場合、ａ２のフレームとｂ２のフレームとの時間軸上の位置は当初から同じである。一方、この経路においては、ａ２とｂ２により位置決めされる格子点（ａ２，ｂ２）からその右のａ２とｂ３により位置決めされる格子点（ａ２，ｂ３）に進んでいる。楽曲の進行のずれが無ければ格子点（ａ３，ｂ３）へ進み、ｂ３のフレームの時間軸上の位置に対応すべきフレームはａ３のフレームとなるものであるが、格子点（ａ２，ｂ３）に進んでいることから、ｂ３のフレームはａ３ではなくａ２のフレームの時間軸上の位置と同じであると対応付けられ、楽曲の進行のずれが発生していることになる。すなわち、リファレンス楽音データのフレームｂ３までに進行する演奏の内容が、受信音声データのフレームａ２までに進行していることになるから、この時点においては、リファレンス演奏よりもライブ演奏の方が早く進んでいることになる。このようにして、楽曲の進行のずれを検出することができる。そして、受信音声データの全てのフレームに対して、リファレンス楽音データのフレームを対応付けて、楽曲の進行のずれを検出する。以上がＤＰマッチングの仕組みである。

次に、タイムアライメント部１０２が検出した楽曲の進行のずれに基づいてタイムコードを順次出力する機能について説明する。タイムアライメント部１０２は、上述したように、受信音声データの各フレームに対してリファレンス楽音データのフレームを対応付けるから、受信音声データの時間軸上の位置をリファレンス楽音データの時間軸上の位置（以下、再生位置という）として認識することができる。また、この再生位置（同期情報）の時間変化によりテンポを認識することができる。タイムアライメント部１０２は、所定の間隔で、認識した再生位置とテンポに基づいてタイムコードを生成し、順次出力する。もし、タイムアライメント部１０２から順次出力されたタイムコードを参照してリファレンス楽音データを読み出して再生したとすれば、リファレンス演奏の時間軸が伸縮され、ライブ演奏と同等な楽曲の進行で再生することができる。

図３に戻って、説明を続ける。データ読出部１０３は、タイムアライメント部１０２から順次出力されるタイムコードと、歌詞データに付されたタイムコードとを対応させるようにして、楽曲データ選択部１０１がＲＡＭ１３にバッファした歌詞データを読み出し、データ処理部１０４に順次出力していく。そして、データ処理部１０４は、データ読出部１０３から順次出力された歌詞データに基づいて歌詞映像データを生成し、映像合成部１０６に出力する。ここで、楽曲の歌詞を示すテキストデータとそのテキストの表示タイミングを示すデータを有する歌詞データは、タイムアライメント部１０２から出力されたタイムコードを参照して読み出すことによりデータ読出部１０３から出力されるシーケンスデータであるから、歌詞映像データは、楽曲の歌詞の表示タイミングがライブ演奏の楽曲の進行にあわせて、すなわちライブボーカルにあわせて表示される映像のデータとして生成される。

遅延部１０５は、通信部２０によって受信された映像データ（以下、受信映像データという）および受信音声データに対して、期間情報に基づいた期間、所定の遅延時間の遅延処理を行って出力する。ここで、遅延部１０５の構成について図５を用いて説明する。

遅延部１０５は、選択部１０５１−１、１０５１−２、遅延バッファ１０５２−１、１０５２−２および出力部１０５３−１、１０５３−２を有する。選択部１０５１−１には受信映像データが入力され、選択部１０５１−２には受信音声データが入力される。そして、選択部１０５１−１は、期間情報が入力され、当該期間情報が示す同期期間については、受信映像データを遅延バッファ１０５２−１へ出力し、同期期間以外の期間については、そのまま出力部１０５３−１へ出力する。同様にして、選択部１０５１−２は、期間情報が入力され、当該期間情報が示す同期期間については、受信音声データを遅延バッファ１０５２−２へ出力し、同期期間以外の期間については、そのまま出力部１０５３−２へ出力する。

遅延バッファ１０５２−１、１０５２−２は、それぞれ入力された受信映像データ、受信音声データを所定の遅延時間に対応するデータ量のバッファ（一時記憶）をしてから当該受信映像データ、受信音声データを所定の速さで読み出すことにより、当該所定の遅延時間の遅延処理を行う。そして、遅延処理を行った受信映像データ、受信音声データをそれぞれ出力部１０５３−１、１０５３−２へ出力する。ここで、所定の速さは、受信映像データ、受信音声データを遅延させない場合の再生速度と同じ速さになるように設定される。また、所定の遅延時間は、上述したタイムアライメント部１０２が受信音声データを取得してから、データ処理部１０４が歌詞映像データを出力するまでの処理に必要な時間が設定されている。このようにすると、遅延部バッファ１０５２−１、１０５２−２から出力された受信音声データおよび受信映像データと、データ処理部１０４から出力された歌詞映像データとは、同期期間においては時間同期したものとなる。

出力部１０５３−１は、選択部１０５１−１から出力された受信映像データ、遅延バッファ１０５２−１において遅延処理されて出力された受信映像データのいずれか一方を映像合成部１０６へ出力する。ここで、選択部１０５１−１の受信映像データの出力が、出力部１０５３−１から遅延バッファ１０５２−１に切り替わってから上述の所定の遅延時間に対応する時間が経過するまでは、出力部１０５３−１には、受信映像データが出力されず、出力部１０５３−１からも受信映像データが出力されない。一方、選択部１０５１−１の受信映像データの出力が、遅延バッファ１０５２−１から出力部１０５３−１に切り替ってから上述の所定の遅延時間に対応する時間が経過するまでは、出力部１０５３−１には、遅延バッファ１０５２−１および選択部１０５１−１の双方から受信映像データが出力されることになる。そこで、本実施形態においては、出力部１０５３−１は、選択部１０５１−１から出力される受信映像データを優先して出力する。出力部１０５３−２についても、出力部１０５３−１と同様にして、選択部１０５１−２から出力された受信音声データ、遅延バッファ１０５２−２において遅延処理されて出力された受信音声データのいずれか一方、本実施形態においては、選択部１０５１−２から出力された受信音声データを優先して出力する。なお、本実施形態のように、出力部１０５３−１は、選択部１０５１−１から出力された受信映像データを優先させるのではなく、遅延バッファ１０５２−１から出力された受信映像データを優先させてもよい。出力部１０５３−２についても同様である。また、選択部１０５１−２から出力された受信音声データと遅延バッファ１０５２−２から出力された受信音声データについては、それぞれの受信音声データに係る音声を合成した受信音声データを出力してもよい。

図３に戻って、説明を続ける。映像合成部１０６は、同期期間（同期期間の開始時点から所定の遅延時間に対応する時間経過までの期間は除く）においては、遅延部１０５から出力された受信映像データに係るライブ映像に対して、データ処理部１０４から出力された歌詞映像データに係る歌詞の映像（以下、歌詞映像という）をスーパーインポーズした合成映像データを生成して表示部１６へ出力する。ここで、合成映像データは、遅延部１０５において所定の遅延時間の遅延処理を行った受信映像データに係るライブ映像に対して、時間同期した歌詞映像、すなわち楽曲の歌詞がライブ演奏の楽曲の進行にあわせて表示される映像をスーパーインポーズしたものであり、ライブ映像に楽曲の歌詞映像が合成されることによって、その歌詞映像がライブボーカル、ライブ演奏、ライブ映像に合った映像の映像データとして生成される。なお、同期期間のうち、同期期間の開始時点から所定の遅延時間に対応する時間経過までの期間については、遅延部１０５から受信映像データが出力されず、データ処理部１０４から歌詞映像データも出力されていないから、映像合成部１０６は合成映像データを出力しない。

一方、同期期間以外の期間においては、遅延部１０５から出力される受信映像データは、遅延処理されていない受信映像データであって、当該受信映像データに係る映像は、会話映像である。そして、同期期間以外の期間においては、タイムアライメント部１０２は、上述した同期処理を行わない結果、タイムコードを出力しないから、データ処理部１０４からは歌詞映像データが出力されない。そのため、同期期間以外の期間においては、遅延部１０５から出力される受信映像データに係る映像にスーパーインポーズされる映像が無いから、映像合成部１０６が出力する合成映像データは、入力された受信映像データと同じデータとなる。

次に、図１に示すように、通信装置１−Ａから送信されたデータを通信装置１−Ｂが受信することによって行われる処理について、通信装置１−Ａの利用者（以下、利用者Ａという、また通信装置１−Ｂの利用者は同様に利用者Ｂという）の状況が図６に示すように、コミュニケーション、生演奏、コミュニケーションの順に変化、すなわち送信される映像データおよび音声データに係る映像と音声が「会話映像、会話音声」、「ライブ映像、ライブ音声」、「会話映像、会話音声」の順に変化する場合を例として説明する。ここで、図６は、横軸方向は時刻の進行を示し、通信装置１−Ａが送信する映像データ、音声データ、通信装置１−Ｂにおける出力部１０５３−１−Ｂ、１０５３−２−Ｂに入力される受信映像データ、受信音声データ、遅延部１０５−Ｂから出力される受信映像データ、受信音声データ、表示部１６−Ｂにおいて表示される映像について、時系列で説明した図である。

なお、実際には、通信装置１−Ａから送信された映像データと音声データは、通信装置１−Ｂにおいて受信するまでの間に、通信時間による時刻のずれが発生するため、時刻が一致することは無いが、説明の簡略化のため図６は通信時間による時刻のずれは考えないものとして記載している。以下の説明においても同様である。また、以下の説明においては、例えば通信部２０−Ａのように、各部の符号に「−Ａ」を付したものは、通信装置１−Ａについての各部を示したものであり、各部の符号に「−Ｂ」を付したものは、通信装置１−Ｂについての各部を示したものとする。

まず、利用者Ａまたは利用者Ｂは、操作部１５−Ａまたは操作部１５−Ｂを操作することにより、通信装置１−Ａと通信装置１−Ｂとについて通信網１００を介して接続する。この時点においては、映像入力部１８−Ａにおいて利用者Ａの状況を撮影した映像データが生成され、音声入力部１９−Ａにおいて利用者Ａの状況を録音した音声データが生成される。そして、通信部２０−Ａは、生成された映像データ（この時点においては、会話映像のデータ）および音声データ（この時点においては、会話音声のデータ）を通信装置１−Ｂへ送信する。一方、通信部２０−Ｂは、通信部１−Ａから送信された映像データおよび音声データを受信する。通信装置１−Ｂは、期間情報については受信していないから同期期間以外の期間であるとみなす。そのため、遅延部１０５−Ｂにおける遅延処理が行われないまま、受信映像データが表示部１６−Ｂへ出力されることにより、会話映像が表示部１６−Ｂに表示される。一方、受信音声データについても、遅延部１０５−Ｂにおける遅延処理が行われないまま、音声出力部１７−Ｂに出力されることにより、会話音声が音声出力部１７−Ｂから放音される。これにより、利用者Ｂは利用者Ａの状況をリアルタイムで確認できる。

次に、利用者Ａは、生演奏を始めるにあたって、操作部１５−Ａを操作して通信装置１−Ｂに同期処理を開始させるための指示を行うとともに、生演奏する楽曲を入力する。これにより通信部２０−Ａは、同期処理を開始させる指示、すなわち同期処理の開始タイミングを示す期間情報、および入力された楽曲を示す楽曲情報を通信装置１−Ｂへ送信する。一方、通信部２０−Ｂは、通信装置１−Ａから送信された期間情報および楽曲情報を受信する。そして、通信装置１−Ｂは、同期期間が開始したと認識し、遅延部１０５−Ｂは、受信映像データおよび受信音声データの遅延処理を行う。

このとき、出力部１０５３−１−Ｂ、１０５３−２−Ｂに入力される受信映像データ、受信音声データは、遅延バッファ１０５２−１−Ｂ、１０５２−２−Ｂにおいて遅延された受信映像データ、受信音声データである。そのため、出力部１０５３−１−Ｂ、１０５３−２−Ｂには、同期期間の最初の時点以降の所定の遅延時間に対応する時間だけ、受信映像データ、受信音声データが入力されない期間が発生する。その後、出力部１０５３−１−Ｂ、１０５３−２−Ｂには、遅延バッファ１０５２−１−Ｂ、１０５２−２−Ｂにおいて遅延された受信映像データ、受信音声データが入力されるから、遅延部１０５−Ｂからは、当該遅延された受信映像データ、受信音声データが出力される。

一方、タイムアライメント部１０２−Ｂは、受信音声データと楽曲情報によって特定される楽曲に係るリファレンス楽音データとに基づいて同期処理を行うことにより、データ処理部１０４−Ｂから歌詞映像データが出力される。

そして、映像合成部１０６−Ｂは、遅延部１０５−Ｂから出力された受信映像データに係るライブ映像に、データ処理部１０４−Ｂから出力された歌詞映像データに係る歌詞映像をスーパーインポーズした合成映像データを表示部１６−Ｂに出力することにより、表示部１６−Ｂは、ライブ映像に歌詞映像がスーパーインポーズされた映像を表示する。一方、遅延部１０５−Ｂから出力された受信音声データは、音声出力部１７−Ｂに出力されることにより、ライブ演奏が音声出力部１７−Ｂから放音される。これにより、利用者Ｂは、同期期間においては、利用者Ａの状況（生演奏）を所定の遅延時間だけ遅れて確認することになる。この際、表示部１６−Ｂに表示される映像は、受信音声データとリファレンス楽音データの同期処理に基づいて読み出された歌詞データから生成された歌詞映像データに係る歌詞映像、すなわち楽曲の進行に合わせた歌詞映像が、ライブ映像に対して合成された映像になっている。ここで、遅延部１０５から受信映像データ、受信音声データが出力されない同期期間の最初の時点から所定の遅延時間に対応する時間は、映像、音声ともに停止することになる。

次に、利用者Ａは、生演奏を終了するにあたって、操作部１５−Ａを操作して通信装置１−Ｂに同期処理を終了させるための指示を行う。これにより通信部２０−Ａは、同期処理を終了させる指示、すなわち同期処理の終了タイミングを示す期間情報を通信装置１−Ｂへ送信する。一方、通信部２０−Ｂは、通信装置１−Ａから送信された期間情報を受信する。そして、通信装置１−Ｂは、同期期間が終了したと認識し、遅延部１０５−Ｂは、受信映像データおよび受信音声データの遅延処理を中止する。

このとき、出力部１０５３−１−Ｂ、１０５３−２−Ｂには、選択部１０５１−１−Ｂ、１０５１−２−Ｂから出力された遅延されていない受信映像データ、受信音声データ、および遅延バッファ１０５２−１−Ｂ、１０５２−２−Ｂにおいて遅延された受信映像データ、受信音声データが入力される。そのため、出力部１０５３−１−Ｂ、１０５３−２−Ｂには、同期期間の最後の時点以降の所定の遅延時間に対応する時間だけ、選択部１０５１−１−Ｂ、１０５１−２−Ｂおよび遅延バッファ１０５２−１−Ｂ、１０５２−２−Ｂの双方から受信映像データ、受信音声データが出力されるから、出力部１０５３−１−Ｂ、１０５３−２−Ｂは、選択部１０５１−１−Ｂ、１０５１−２−Ｂから出力された遅延されていない受信映像データ、受信音声データを優先して出力することにより、遅延部１０５−Ｂからは、遅延処理されていない受信映像データ、受信音声データが出力される。一方、タイムアライメント部１０２−Ｂは、同期処理を中止するから、データ処理部１０４−Ｂからの歌詞映像データの出力も中止される。そのため、映像合成部１０６−Ｂにおけるスーパーインポーズ処理も中止される。

これにより、遅延部１０５−Ｂにおける遅延処理が行われないまま、受信映像データが表示部１６−Ｂへ出力されることにより、会話映像が表示部１６−Ｂに表示される。一方、受信音声データについても、遅延部１０５−Ｂにおける遅延処理が行われないまま、音声出力部１７−Ｂに出力されることにより、会話音声が音声出力部１７−Ｂから放音される。これにより、利用者Ｂは利用者Ａの状況をリアルタイム（通信時における遅れを除く）で確認できる。ここで、同期期間の最後の時点から所定の遅延時間に対応する時間は、ライブ映像、ライブ音声は欠落することになる。

このように、通信装置１は、期間情報が示す同期期間以外の期間においては、リアルタイムに会話映像、会話音声に係るデータの通信を行ってコミュニケーションをとることができる一方、同期期間においては、受信したデータを遅延させるとともに、受信音声データとリファレンス楽音データの同期処理に基づいて歌詞データを読み出すことにより、ライブ映像、ライブ演奏の進行に合わせた歌詞映像を表示することができる。

以上、本発明の実施形態について説明したが、本発明は以下のように、さまざまな態様で実施可能である。

＜変形例１＞
実施形態においては、同期期間の最初の時点から所定の遅延時間に対応する時間が経過した後に、遅延部１０５から遅延された受信映像データ、受信音声データが出力され、映像、音声が途切れるようになっていたが、映像、音声が途切れないような処理を行なってもよい。この場合には、遅延部１０５を以下のような構成にすればよい。遅延部１０５は、図７に示すように、可変遅延バッファ１０５４−１、１０５４−２を有する。可変遅延バッファ１０５４−１は、入力された受信映像データを一旦バッファするとともに、バッファされた受信映像データを読み出して出力する。この際に、受信映像データの読み出し速度を変化させ、これにより受信映像データに係る映像の再生スピードを伸縮させることができるようになっている。そして、読み出し速度を実施形態における所定の速度より遅くすることにより、受信映像データのバッファ量が増加し、逆に、所定の速度より読み出し速度を速くすることにより、バッファ量が減少することになる。ここで、再生スピードの伸縮が行われない通常の速度で読み出している間については、バッファ量に変動は無い。可変遅延バッファ１０５４−２についても、受信音声データに対して、同様な処理が可能となっている。また、可変遅延バッファ１０５４−１、１０５４−２には期間情報が入力される。以下、同期期間前後における遅延部１０５の処理について、図８を用いて説明する。なお、受信音声データに関しては無音（所定レベル以下の）区間の音声データを削除若しくは挿入することにより再生スピードの調整を行っても良い。

可変遅延バッファ１０５４−１は、期間情報が示す同期期間の開始時点になると、バッファした受信映像データの読み出し速度を遅くする。これに伴い、受信映像データのバッファ量が増加する。そして、バッファ量が所定量に達すると、可変遅延バッファ１０５４−１は、バッファした受信映像データの読み出し速度を通常の速度に戻す。ここで、所定量のバッファ量は、実施形態における所定の遅延時間に対応するデータ量である。そのため、この時点においては、実施形態と同じ状況になっている。

その後、可変遅延バッファ１０５４−１は、期間情報が示す同期期間の終了時点になると、バッファした受信映像データの読み出し速度を早くする。これに伴い、受信映像データのバッファ量が減少する。そして、バッファした受信映像データが所定量以下になると（図８においては、バッファ量が０）、読み出し速度を通常の速度に戻す。また、可変遅延バッファ１０５４−２についても、受信音声データに対して、同様な処理が行われる。なお、バッファ量は、遅延時間に対応するデータ量と同じことであるから、時間経過とともに所定の遅延時間が変動するようにして可変遅延バッファ１０５４−１、１０５４−２におけるバッファ量を制御するとともに、当該制御に応じて受信映像データ、受信音声データを出力することもできる。

このようにすると、同期期間の開始部分においては、受信映像データおよび受信音声データがゆっくり再生され、同期期間の終了部分においては、受信映像データ及び受信音声データが速く再生される。そのため、同期期間の開始部分における映像、音声の停止部分がなくなるとともに、同期期間の終了部分における映像、音声の欠落をなくすことができる。なお、受信映像データ、受信音声データの双方に対して上述したような処理をせず、いずれか一方のデータ、例えば受信音声データのみに対して行なうようにしてもよい。その場合は、実施形態における遅延部１０５に対して、受信音声データが入力される部分のみ変形例１の構成とすればよい。

＜変形例２＞
実施形態においては、タイムコードの生成は、受信音声データに基づいてタイムアライメント部１０２において行っていたが、他の方法によって行なわれてもよい。例えば、図９に示すように、通信装置１−Ｂの通信部２０−Ｂは、通信装置１−Ａから同期情報を受信する。そして、同期期間において、同期情報に基づいてタイムコードを生成するタイムコード生成部１０７を設ければよい。ここで、同期情報は、再生するデータの位置の時間変化を示すものであれば、どのような情報でもよい。例えば、通信装置１−Ａは、音声入力部１９−Ａにおいて生成された音声データに基づいて同期処理を行い、再生位置とテンポを同期情報とすればよい。このようにすれば、タイムアライメント部１０２における同期処理の一部または全部を送信側である通信装置１−Ａで行うこともできる。なお、タイムアライメント部１０２における同期処理は、ＤＰマッチングを用いていたが、異なった手法によって同期処理をするようにしてもよい。例えば、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）を用いてもよいし、比較対象である各データから波形の特徴量（音程、音量など）を抽出して比較するようにしてもよい。すなわち、各データの比較をして、各データ間の類似する部分を対応させることができる手法であればどのような手法でもよい。また、通信装置１−Ｂのタイムアライメント部１０２−Ｂにおいても同期処理を行うときには、受信した同期情報も用いて同期処理を行うことにより、同期処理の精度を向上させてもよい。なお、同期情報を受信している間を期間情報が示す期間としてもよい。この場合には、通信部２０は、同期情報を受信している期間を示す期間情報を出力するようにしてもよいし、期間情報の代わりに同期情報を遅延部１０５に出力するようにしてもよい。

＜変形例３＞
実施形態における音声入力部１９に、複数のマイクロフォンを設けて、各々マイクロフォンで収音することにより、各々のマイクロフォンに対応した複数のチャンネルを持つ音声データを生成するようにしてもよい。そして、遅延部１０５における受信音声データの遅延処理について、それぞれのチャンネルごとに異なる期間で遅延処理を行ってもよい。ここで、例えば、チャンネルが２である場合には、遅延部１０５を図１０に示すような構成とすればよい。以下、遅延部１０５について説明する。

本変形例における遅延部１０５は、実施形態における遅延部１０５の構成に加えて、以下の構成を有する。まず、分離部１０５５は、入力された受信音声データをチャンネル別に分離して選択部１０５１−２、１０５１−３にそれぞれ出力する。ここで、選択部１０５１−２に出力される受信音声データをＣｈ１受信音声データといい、実施形態における受信音声データに対応するものとする。すなわち、Ｃｈ１受信音声データは、ライブ演奏、会話音声に係る音声データである。同様にして、選択部１０５１−３に出力される受信音声データをＣｈ２受信音声データという。Ｃｈ２受信音声データは、コミュニケーション専用に用いられるマイクロフォンによる収音に基づいて生成された音声データである。ここで、当該音声データに係る音声については、以下、Ｃｈ２会話音声という。

加算器１０５６は、出力部１０５３−２から出力されるＣｈ１受信音声データと、出力部１０５３−３から出力されるＣｈ２受信音声データとを合成し、受信音声データとして出力する。遅延バッファ１０５２−３、出力部１０５３−３については、それぞれ遅延バッファ１０５２−２、出力部１０５３−２と同様な機能であるため、説明を省略する。以下、選択部１０５１−３について説明する。

選択部１０５１−３は、期間情報と入力されたＣｈ２受信音声データに係る音量レベルとに基づいて、Ｃｈ２受信音声データを遅延バッファ１０５２−３に出力するか、出力部１０５３−３に出力するかを決定する。具体的には、選択部１０５１−３は、同期制御情報が示す同期期間の開始時点以降であって、入力されたＣｈ２受信音声データに係る音量レベルが所定レベル以下になる状態が所定時間継続した時点から、同期制御情報が示す同期期間の終了時点以降であって、入力されたＣｈ２受信音声データに係る音量レベルが所定レベル以下になる状態が所定時間継続した時点までの期間においては、Ｃｈ２受信音声データを遅延バッファ１０５２−３に出力する。それ以外の期間については、選択部１０５１−３は、Ｃｈ２受信音声データを出力部１０５３−３に出力する。なお、所定時間が遅延バッファ１０５２−３における所定の遅延時間に対応する時間よりも短い場合には、選択部１０５１−３は、所定時間経過時点においてＣｈ２受信音声データを出力部１０５３−３に出力してしまうと、Ｃｈ２会話音声の最後の部分が欠落してしまう。そのため、このような場合には、入力されたＣｈ２受信音声データに係る音量レベルが所定レベル以下になる状態が所定時間継続した場合には、当該音量レベルが所定レベル以下になった時点から所定の遅延時間に対応する時間の経過した時点までの期間、Ｃｈ２受信音声データを遅延バッファ１０５２−３に出力するようにしてもよい。

上述した選択部１０５１−３が、Ｃｈ２受信音声データを遅延バッファ１０５２−３に出力する期間について、図１１を用いて具体的に説明する。図１１は、Ｃｈ２受信音声データに係る音量レベルを示した図であり、縦軸は音量レベル、横軸は時刻を示す。また、図中に所定時間についても示す。まず、選択部１０５１−３におけるＣｈ２受信音声データの出力が出力部１０５３−３から遅延バッファ１０５２−３へ切り替わる時点について図１１（ａ）を用いて説明する。同期期間の開始時点の後、時刻ｔ１に達すると音量レベルが所定レベル以下になる。その後時刻ｔ２に達すると音量レベルが所定レベル以上になる。ここで、ｔ２−ｔ１は所定時間より短いためＣｈ２受信音声データは、出力部１０５３−３に出力されたままとなる。そして、時刻ｔ３に達すると再び音量レベルが所定レベル以下になる。そして、時刻ｔ３から所定時間経過後の時刻ｔｓまでの間、音量レベルが所定レベル以下である状態が続いているから、時刻ｔｓの時点からＣｈ２受信音声データの出力は、出力部１０５３−３から遅延バッファ１０５２−３に切り替わる。この所定時間を適宜設定することにより、音声会話からライブ演奏への切り替えのタイミングを所定期間の無音（所定レベル以下の）音声を送信すること等で知らせることができる。

次に、選択部１０５１−３におけるＣｈ２受信音声データの出力が遅延バッファ１０５２−３から出力部１０５３−３へ切り替わる時点について図１１（ｂ）を用いて説明する。同期期間の終了時点の後、時刻ｔ４に達すると音量レベルが所定レベル以下となる。そして、時刻ｔ４から所定時間経過後の時刻ｔｓまでの間、音量レベルが所定レベル以下である状態が続いているから、時刻ｔｓの時点からＣｈ２受信音声データの出力は、遅延バッファ１０５２−３から出力部１０５３−３に切り替わる。

一方、上述したように所定時間が所定の遅延時間に対応する時間より短い場合には、選択部１０５１−３におけるＣｈ２受信音声データの出力が遅延バッファ１０５２−３から出力部１０５３−３へ切り替わる時点について、図１１（ｃ）を用いて説明する。同期期間の終了時点の後、時刻ｔ４に達すると音量レベルが所定レベル以下となる。そして、時刻ｔ４から所定時間経過するまでの間、音量レベルが所定レベル以下である状態が続いているから、時刻ｔ４から所定の遅延時間に対応する時間経過後の時刻ｔｓの時点からＣｈ２受信音声データの出力は、遅延バッファ１０５２−３から出力部１０５３−３に切り替わる。

このようにして、選択部１０５１−３からＣｈ２受信音声データを出力することにより、同期期間の開始時点において、音量レベルが所定レベル以下の状態が所定時間継続した後、すなわち会話が終了した後に、Ｃｈ２受信音声データの遅延処理を行うから、同期期間が開始してもコミュニケーション専用に用いられるマイクロフォンによって収音された会話の途中で途切れないようにすることができる。一方、同期期間の終了時点において、音量レベルが所定レベル以下の状態が所定時間継続した後、すなわち会話が終了した後に、Ｃｈ２受信音声データの遅延処理を中止するから、同期期間が終了してもコミュニケーション専用に用いられるマイクロフォンによって収音された会話の途中で欠落しないようにすることができる。なお、本変形例を変形例２に適用した場合には、Ｃｈ１受信音声データは無くてもよいから、遅延部１０５は、選択部１０５１−２、遅延バッファ１０５２−２、出力部１０５３−２、分離部１０５５、加算器１０５６を用いなくてもよい。

＜変形例４＞
実施形態においては、期間情報が示す同期期間については、利用者が操作部１５を操作することによって決定していたが、自動的に決定されるようにしてもよい。例えば、生演奏を行うときに使用する楽器が使用されているかどうかを検出するセンサを楽器に取り付け、センサが楽器の使用を検出した場合には、通信装置１に対して、図示しないデータ入力手段を介して検出結果を入力し、その楽器の使用が検出されている期間を同期期間とするようにすればよい。また、変形例３のようにマイクロフォンが複数存在する場合には、所定のマイクロフォンによる収音レベルに基づいてＣＰＵ１１が同期期間を決定し、期間情報を生成するようにしてもよい。このように、同期期間を自動的に決定すれば、さらに利用者の負担を低減することができる。

また、別の方法としては、映像データ、音声データを解析することにより同期期間を決定する解析手段を設けてもよい。例えば、会話映像からライブ映像に切り替わるときは、映像の動きが激しくなることが多いから、解析手段は映像データに係る映像についての動きを示す特徴量を抽出して、その特徴量が示す動きが所定量を超えた時点、または所定量を超えた状態が所定期間継続した場合に、同期期間の開始時点と決定すればよい。逆に、特徴量が示す動きが所定量以下になった時点、または所定量以下になった状態が所定期間継続した場合には、同期期間の終了時点と決定すればよい。このようにすれば、解析手段は、映像データに基づいて同期期間を決定することができるから、これを期間情報として生成すればよい。さらに、会話音声からライブ演奏に切り替わるときは、その音量、周波数特性などが大きく変化するから、解析手段は音声データに係る音声についての特徴量を抽出し、その変化に基づいて同期期間を決定するようにしてもよい。このように、解析手段は、映像データ、音声データによって同期期間を決定し、期間情報を自動的に生成することができる。なお、上記の同期期間の決定による期間情報の生成は、送信側の通信装置１−Ａによって行なわれてもよいし、受信側の通信装置１−Ｂによって行なわれてもよい。受信側の通信装置１−Ｂによって行われた場合には、期間情報を用いる通信装置１−Ｂの各部は、通信部２０から受信した期間情報に替えて、通信装置１−Ｂにおいて生成した期間情報を用いればよい。

＜変形例５＞
実施形態においては、楽曲情報が示す楽曲は利用者が操作部１５を操作することにより特定されていたが、通信装置１が受信音声データに基づいて楽曲の特定を行なうようにしてもよい。この場合には、受信音声データの波形などの特徴量と楽曲データ記憶領域１４ａに記憶された複数のリファレンス楽音データの特徴量とを比較し、一致度の高いリファレンス楽音データを特定することにより楽曲を特定する楽曲検索手段を設ければよい。このようにすれば、通信装置１は楽曲情報を自動で生成することができる。

＜変形例６＞
実施形態においては、リファレンス楽音データと対応する歌詞データは、楽曲の歌詞を示すテキストデータと当該テキストデータの各テキストの表示タイミングを示すデータとを有するシーケンスデータであったが、楽曲の歌詞をリファレンス楽音データと時間同期して再生できるようにしたタイムコードの付された映像データであってもよい。この場合、以下のようにすればよい。データ読出部１０３は、実施形態に示したようにタイムコードを参照し、映像データである歌詞データ（第１のデータ）を読み出して、データ処理部１０４に順次出力する。これにより、データ読出部１０３から順次出力された歌詞データは、読み出されるときに楽曲の進行に合わせるように時間軸が伸縮されてデータ処理部１０４に出力される。そして、データ処理部１０４は、この時間軸が伸縮された歌詞データを歌詞映像データとして生成して出力する。このようにすれば、歌詞データが映像データであっても、本発明の効果を奏することができる。なお、映像データについては、歌詞データに限らず、楽曲の楽譜など、入力された音声データの楽曲の進行に合わせて表示させたい映像のデータなら、どのような映像データでもよい。

また、実施形態においては、楽曲の進行に合わせて歌詞を表示させるようにしていたが、これに加えて、外部の他の装置を楽曲の進行に合わせて制御するようにしてもよい。この場合は、以下のような構成とすればよい。図１２に示すように、例えば、ＡＵＸ（Ａｕｘｉｌｉａｒｙ）端子などの制御信号出力部２１を設け、楽曲データ記憶領域１４ａに制御信号データ（第１のデータ）を記憶するようにする。ここで、制御信号データは、ＡＵＸ端子に接続される外部の装置を制御する信号とその制御のタイミングを示すデータを有するシーケンスデータであって、歌詞データと同様にリファレンス楽音データと時間同期して外部の装置を制御できるようにタイムコードが付されている。そして、データ読出部１０３によって読み出された制御信号データを制御信号出力部２１から出力するようにすればよい。このようにすると、通信装置１は、制御信号出力部に接続される外部の装置が、楽曲の進行にあわせて出力される制御信号に基づいて制御されるため、楽曲の進行にあわせて外部の装置を動作させることができる。なお、外部の装置には、照明、音響機器、ロボットなど、制御信号によって制御できるものであれば、どのようなものにも適用できる。この場合は、制御信号データは、制御したい装置にあわせたデータとしておけばよい。さらに、複数の外部の装置を同時に制御したい場合には、複数の制御信号データを用意しておき、制御信号出力部２１に複数の装置を接続できるようにしておけばよい。この接続は、有線接続であってもよいし、無線接続であってもよく、信号が伝達できるものであればよい。

その他にも、楽曲データ記憶領域１４ａに、リファレンス楽音データと時間同期して再生できるようにタイムコードなどの時刻情報が付されたＭＩＤＩデータ（第１のデータ）、音声データ（第１のデータ）を記憶させてもよい。このようにすれば、データ読出部１０３がこれらのデータを読み出して、音声合成手段によって受信音声データとミキシングして音声出力部１７に出力することにより、楽曲の進行に合わせて音声出力部１７からＭＩＤＩデータ、音声データに基づく楽音を放音させることができる。ここで、ＭＩＤＩデータを用いる場合には、ＭＩＤＩデータを再生して音声データとして出力する音源をデータ処理部１０４に設け、音声合成手段によってデータ処理部１０４から出力された音声データを受信音声データとミキシングして音声出力部１７に出力するようにすればよい。

＜変形例７＞
実施形態においては、タイムアライメント部１０２における同期処理は、受信音声データとリファレンス楽音データを比較することにより行われていた。ここで、楽曲データ記憶領域１４ａに、楽曲の進行における映像の見本となるリファレンス映像データを記憶させることにより、タイムアライメント部１０２は、受信映像データとリファレンス映像データを比較することにより同期処理を行なうようにしてもよい。この場合は、映像全体で比較してもよいし、例えば映像のうち一部分の特徴、例えば歌唱者の唇付近を抽出して、その動きの特徴量を比較することによって同期処理を行えばよい。このようにしても、タイムアライメント部１０２における同期処理ができる。

＜変形例８＞
実施形態においては、送信側の通信装置１−Ａと受信側の通信装置１−Ｂは、同一の構成であるものとしていたが、必ずしも同一の構成である必要は無い。例えば、通信装置１は受信側のみで用いることとし、期間情報、楽曲情報を受信側の通信装置１で生成するようにすれば、送信側は音声データが送信できる外部機器であるデータ送信装置とすることができる。また、受信側の通信装置１は、期間情報が示す同期期間に歌詞データを読み出している期間に対応して、受信した映像データ、音声データを遅延部１０５において遅延させるようにすれば、同期処理を行わなくても本発明の効果を得ることができる。なお、実施形態においては、送信側と受信側の通信装置１を区別して説明していたが、受信側の通信装置１−Ｂからも随時映像データ、音声データを生成し通信装置１−Ａに送信し、通信装置１−Ａにおいて受信して、双方向にコミュニケーションを行うことができる。

＜変形例９＞
実施形態においては、出力部１０５３−１は、同期期間の開始時点から所定の遅延時間に対応する時間は、受信映像データの出力を行わなかったが、それまでに入力された受信映像データのうち、最後のフレームに対応する映像に係るデータを受信映像データとして出力してもよい。一方、出力部１０５３−１は、同期期間の終了時点から所定の遅延時間に対応する時間は、遅延処理されていない受信映像データと遅延処理された受信映像データが入力され、遅延処理されていない受信映像データを優先して出力していたが、遅延処理された受信映像データに係る映像を徐々に薄くし、遅延処理されていない受信映像データに係る映像を薄い表示から徐々に濃く表示するようにして、クロスフェード効果を与えた受信映像データを生成して出力するようにしてもよい。このようにすると、同期期間の開始時点、終了時点における表示の切り替えの違和感を低減することができる。

実施形態に係る通信装置の接続の状態を示すブロック図である。実施形態に係る通信装置のハードウエアの構成を示すブロック図である。実施形態に係る通信装置のソフトウエアの構成を示すブロック図である。ＤＰマッチングを行う際のＤＰプレーンを示す説明図である。実施形態に係る遅延部のソフトウエアの構成を示すブロック図である。実施形態に係る通信装置におけるソフトウエアの処理の説明図である。変形例１に係る遅延部のソフトウエアの構成を示すブロック図である。変形例１に係る遅延バッファにおける処理の説明図である。変形例２に係る遅延部のソフトウエアの構成を示すブロック図である。変形例３に係る通信装置のソフトウエアの構成を示すブロック図である。変形例３に係る遅延部における処理の説明図である。変形例６に係る通信装置のハードウエアの構成を示すブロック図である。

符号の説明

１…通信装置、１０…バス、１１…ＣＰＵ、１２…ＲＯＭ、１３…ＲＡＭ、１４…記憶部、１４ａ…楽曲データ記憶領域、１５…操作部、１６…表示部、１７…音声出力部、１８…映像入力部、１９…音声入力部、２０…通信部、２１…制御信号出力部、１００…通信網、１０１…楽曲データ選択部、１０２…タイムアライメント部、１０３…データ読出部、１０４…データ処理部、１０５…遅延部、１０５１−１、１０５１−２、１０５１−３…選択部、１０５２−１、１０５２−２、１０５２−３…遅延バッファ、１０５３−１、１０５３−２、１０５３−３…出力部、１０５４−１、１０５４−２、１０５４−３…可変遅延バッファ、１０５５…分離部、１０５６…加算器、１０６…映像合成部、１０７…タイムコード生成部

Claims

データ各部についての時刻を規定する時刻情報を有した第１のデータを記憶する記憶手段と、
外部機器からの通信によって第２のデータを受信する受信手段と、
所定の期間を示す期間情報を取得する期間情報取得手段と、
データの読み出す時刻を示す同期情報を取得する同期情報取得手段と、
前記期間情報が示す期間において、前記同期情報と前記時刻情報との対応関係に基づいて、前記記憶手段から第１のデータを読み出す読出手段と、
前記期間情報の示す期間に基づき、前記受信手段が受信した第２のデータに対して所定の遅延時間の遅延処理を行って出力する遅延手段と
を具備することを特徴とする通信装置。
前記遅延手段は、
前記受信手段が受信した第２のデータをバッファするバッファ手段と、
前記バッファ手段にバッファされた第２のデータを所定の速さで読み出すバッファ読出手段と
を具備し、
前記期間情報に基づいた期間において、
前記バッファ読出手段は、前記バッファ手段が前記遅延時間に対応するデータ量の前記第２のデータをバッファした後に、前記バッファ手段にバッファされた第２のデータを前記所定の速さで読み出す
ことを特徴とする請求項１に記載の通信装置。
前記期間情報に基づいた期間の終了直後の期間において、
前記バッファ読出手段は、前記バッファ手段にバッファされた第２のデータを前記所定の速度より速い速度で読み出す
ことを特徴とする請求項２に記載の通信装置。
前記期間情報に基づいた期間の開始直前の期間において、
前記バッファ読出手段は、前記バッファ手段にバッファされた第２のデータを前記所定の速度より遅い速度で読み出す
ことを特徴とする請求項２または請求項３に記載の通信装置。
前記期間情報に基づいた期間の開始直前の期間において、
前記バッファ読出手段は、前記バッファ手段にバッファされた第２のデータの読み出しを停止する
ことを特徴とする請求項２または請求項３に記載の通信装置。
前記受信手段が受信した第２のデータは、音声を示すデータを有し、
前記期間情報に基づいた期間は、当該期間情報が示す期間の開始時点以降において前記音声の音量レベルが所定レベル以下である状態が所定時間継続した後の時点を開始時点とし、当該期間情報が示す期間の終了時点以降において前記音声の音量レベルが所定レベル以下である状態が所定時間継続した後の時点を終了時点とした期間である
ことを特徴とする請求項１乃至請求項５のいずれかに記載の通信装置。
前記受信手段が受信した第２のデータは、音声を示すデータを有し、
前記期間情報に基づいた期間は、当該期間情報が示す期間の開始時点以降において前記音声の音量レベルが所定レベル以下である状態が所定時間継続した後の時点を開始時点とし、当該期間情報が示す期間の終了時点以降に前記音声の音量レベルが所定レベル以下である状態が所定時間継続した後であって、当該所定レベル以下になった時から前記所定の遅延時間に対応する時間が経過した後の時点を終了時点とした期間である
ことを特徴とする請求項１乃至請求項５のいずれかに記載の通信装置。
前記期間情報取得手段は、外部機器からの通信によって前記期間情報を取得する
ことを特徴とする請求項１乃至請求項７のいずれかに記載の通信装置。
利用者の操作に基づいて前記期間情報を生成する操作手段をさらに具備し、
前記期間情報取得手段は、前記操作手段によって生成された期間情報を取得する
ことを特徴とする請求項１乃至請求項７のいずれかに記載の通信装置。
前記受信手段が受信した第２のデータを解析することにより期間情報を生成する解析手段をさらに具備し、
前記期間情報取得手段は、前記解析手段によって生成された期間情報を取得する
ことを特徴とする請求項１乃至請求項７のいずれかに記載の通信装置。
前記同期情報取得手段は、外部機器からの通信によって前記同期情報を取得する
ことを特徴とする請求項１乃至請求項１０のいずれかに記載の通信装置。
リファレンスデータを記憶するリファレンスデータ記憶手段と、
前記受信手段が受信した第２のデータと前記リファレンスデータとを所定時間長のフレーム単位で対応付けて、対応する部分についての時刻を示す同期情報を生成するタイムアライメント手段とをさらに具備し、
前記同期情報取得手段は、前記タイムアライメント手段によって生成された同期情報を取得する
ことを特徴とする請求項１乃至請求項１０のいずれかに記載の通信装置。
データ各部についての時刻を規定する時刻情報を有した第１のデータを記憶する記憶過程と、
外部機器からの通信によって第２のデータを受信する受信過程と、
所定の期間を示す期間情報を取得する期間情報取得過程と、
データの読み出す時刻を示す同期情報を取得する同期情報取得過程と、
前記期間情報が示す期間において、前記同期情報と前記時刻情報との対応関係に基づいて、前記記憶過程において記憶した第１のデータを読み出す読出過程と、
前記期間情報の示す期間に基づき、前記受信過程において受信した第２のデータに対して所定の遅延時間の遅延処理を行って出力する遅延過程と
を備えることを特徴とする通信方法。
コンピュータに、
データ各部についての時刻を規定する時刻情報を有した第１のデータを記憶する記憶機能と、
外部機器からの通信によって第２のデータを受信する受信機能と、
所定の期間を示す期間情報を取得する期間情報取得機能と、
データの読み出す時刻を示す同期情報を取得する同期情報取得機能と、
前記期間情報が示す期間において、前記同期情報と前記時刻情報との対応関係に基づいて、前記記憶機能によって記憶した第１のデータを読み出す読出機能と、
前記期間情報の示す期間に基づき、前記受信機能によって受信した第２のデータに対して所定の遅延時間の遅延処理を行って出力する遅延機能と
を実現させるためのプログラム。