JP2008244888A - 通信装置、通信方法およびプログラム - Google Patents
通信装置、通信方法およびプログラム Download PDFInfo
- Publication number
- JP2008244888A JP2008244888A JP2007083076A JP2007083076A JP2008244888A JP 2008244888 A JP2008244888 A JP 2008244888A JP 2007083076 A JP2007083076 A JP 2007083076A JP 2007083076 A JP2007083076 A JP 2007083076A JP 2008244888 A JP2008244888 A JP 2008244888A
- Authority
- JP
- Japan
- Prior art keywords
- data
- period
- time
- unit
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
【課題】ライブ演奏のように楽曲のテンポの変動があっても、楽曲の流れにあわせたデータの再生を簡単に行うことができるとともに、他の利用者とコミュニケーションをとることも可能な通信装置、通信方法およびプログラムを提供すること。
【解決手段】本発明の通信装置は、期間情報が示す同期期間以外の期間においては、リアルタイムに会話映像、会話音声に係るデータの通信を行ってコミュニケーションをとることができる一方、同期期間においては、受信したデータを遅延させるとともに、受信音声データとリファレンス楽音データの同期処理に基づいて歌詞データを読み出すことにより、ライブ映像、ライブ演奏の進行に合わせた歌詞映像を表示することができる。
【選択図】図3
【解決手段】本発明の通信装置は、期間情報が示す同期期間以外の期間においては、リアルタイムに会話映像、会話音声に係るデータの通信を行ってコミュニケーションをとることができる一方、同期期間においては、受信したデータを遅延させるとともに、受信音声データとリファレンス楽音データの同期処理に基づいて歌詞データを読み出すことにより、ライブ映像、ライブ演奏の進行に合わせた歌詞映像を表示することができる。
【選択図】図3
Description
本発明は、予め記憶したデータを同期再生するとともに、受信したデータに対する遅延を制御する技術に関する。
一般的なカラオケ装置においては、例えば、MIDI(Musical Instrument Digital Interface)形式の伴奏用データ、楽曲の歌詞テロップを表示するシーケンスデータである歌詞データおよび映像データなどから構成された楽曲データをそれぞれ同期させて再生することにより、利用者はその楽曲のカラオケを楽しむことができる。特許文献1には、伴奏データと映像データを別個にサーバから受信してそれらを同期させて再生させる技術が開示されている。また、特許文献2においては、ライブ演奏のような臨場感のあるカラオケ演奏を提供する技術が開示されている。
特開2003−15675号公報
特開2000−347676号公報
カラオケの映像データに対して歌詞データを同期して再生するなど、異なる2つのデータを同期して再生することがしばしば要求される。このとき、映像データに遅延を施すと好都合な場合がある。例えば、映像データがライブ演奏を撮影することによって生成されたデータである場合には、楽曲の進行におけるテンポ変動にあわせて歌詞データを再生するための同期処理を行う必要があるため、映像データに対して同期処理に必要な時間の遅延を施すことが好都合となる。
ここで、カラオケの映像データや伴奏データを外部機器との通信によって受信する場合には、当該外部機器との通信によりテレビ電話のようなリアルタイムに通信を行いたいという要求もある。この場合、上述したような遅延を施すことは、リアルタイムに通信を行う場合の妨げとなってしまうため、別回線を設けてテレビ電話を設置しなくてはならなかった。
本発明は、上述の事情に鑑みてなされたものであり、ライブ演奏のように楽曲のテンポの変動があっても、楽曲の流れにあわせたデータの再生を簡単に行うことができるとともに、他の利用者とコミュニケーションをとることも可能な通信装置、通信方法およびプログラムを提供することを目的とする。
上述の課題を解決するため、本発明は、データ各部についての時刻を規定する時刻情報を有した第1のデータを記憶する記憶手段と、外部機器からの通信によって第2のデータを受信する受信手段と、所定の期間を示す期間情報を取得する期間情報取得手段と、データの読み出す時刻を示す同期情報を取得する同期情報取得手段と、前記期間情報が示す期間において、前記同期情報と前記時刻情報との対応関係に基づいて、前記記憶手段から第1のデータを読み出す読出手段と、前記期間情報の示す期間に基づき、前記受信手段が受信した第2のデータに対して所定の遅延時間の遅延処理を行って出力する遅延手段とを具備することを特徴とする通信装置を提供する。
また、別の好ましい態様において、前記遅延手段は、前記受信手段が受信した第2のデータをバッファするバッファ手段と、前記バッファ手段にバッファされた第2のデータを所定の速さで読み出すバッファ読出手段とを具備し、前記期間情報に基づいた期間において、前記バッファ読出手段は、前記バッファ手段が前記遅延時間に対応するデータ量の前記第2のデータをバッファした後に、前記バッファ手段にバッファされた第2のデータを前記所定の速さで読み出してもよい。
また、別の好ましい態様において、前記期間情報に基づいた期間の終了直後の期間において、前記バッファ読出手段は、前記バッファ手段にバッファされた第2のデータを前記所定の速度より速い速度で読み出してもよい。
また、別の好ましい態様において、前記期間情報に基づいた期間の開始直前の期間において、前記バッファ読出手段は、前記バッファ手段にバッファされた第2のデータを前記所定の速度より遅い速度で読み出してもよい。
また、別の好ましい態様において、前記期間情報に基づいた期間の開始直前の期間において、前記バッファ読出手段は、前記バッファ手段にバッファされた第2のデータの読み出しを停止してもよい。
また、別の好ましい態様において、前記受信手段が受信した第2のデータは、音声を示すデータを有し、前記期間情報に基づいた期間は、当該期間情報が示す期間の開始時点以降において前記音声の音量レベルが所定レベル以下である状態が所定時間継続した後の時点を開始時点とし、当該期間情報が示す期間の終了時点以降において前記音声の音量レベルが所定レベル以下である状態が所定時間継続した後の時点を終了時点とした期間であってもよい。
また、別の好ましい態様において、前記受信手段が受信した第2のデータは、音声を示すデータを有し、前記期間情報に基づいた期間は、当該期間情報が示す期間の開始時点以降において前記音声の音量レベルが所定レベル以下である状態が所定時間継続した後の時点を開始時点とし、当該期間情報が示す期間の終了時点以降に前記音声の音量レベルが所定レベル以下である状態が所定時間継続した後であって、当該所定レベル以下になった時から前記所定の遅延時間に対応する時間が経過した後の時点を終了時点とした期間であってもよい。
また、別の好ましい態様において、前記期間情報取得手段は、外部機器からの通信によって前記期間情報を取得してもよい。
また、別の好ましい態様において、利用者の操作に基づいて前記期間情報を生成する操作手段をさらに具備し、前記期間情報取得手段は、前記操作手段によって生成された期間情報を取得してもよい。
また、別の好ましい態様において、前記受信手段が受信した第2のデータを解析することにより期間情報を生成する解析手段をさらに具備し、前記期間情報取得手段は、前記解析手段によって生成された期間情報を取得してもよい。
また、別の好ましい態様において、前記同期情報取得手段は、外部機器からの通信によって前記同期情報を取得してもよい。
また、別の好ましい態様において、リファレンスデータを記憶するリファレンスデータ記憶手段と、前記受信手段が受信した第2のデータと前記リファレンスデータとを所定時間長のフレーム単位で対応付けて、対応する部分についての時刻を示す同期情報を生成するタイムアライメント手段とをさらに具備し、前記同期情報取得手段は、前記タイムアライメント手段によって生成された同期情報を取得してもよい。
また、本発明は、データ各部についての時刻を規定する時刻情報を有した第1のデータを記憶する記憶過程と、外部機器からの通信によって第2のデータを受信する受信過程と、所定の期間を示す期間情報を取得する期間情報取得過程と、データの読み出す時刻を示す同期情報を取得する同期情報取得過程と、前記期間情報が示す期間において、前記同期情報と前記時刻情報との対応関係に基づいて、前記記憶過程において記憶した第1のデータを読み出す読出過程と、前記期間情報の示す期間に基づき、前記受信過程において受信した第2のデータに対して所定の遅延時間の遅延処理を行って出力する遅延過程とを備えることを特徴とする通信方法を提供する。
また、本発明は、コンピュータに、データ各部についての時刻を規定する時刻情報を有した第1のデータを記憶する記憶機能と、外部機器からの通信によって第2のデータを受信する受信機能と、所定の期間を示す期間情報を取得する期間情報取得機能と、データの読み出す時刻を示す同期情報を取得する同期情報取得機能と、前記期間情報が示す期間において、前記同期情報と前記時刻情報との対応関係に基づいて、前記記憶機能によって記憶した第1のデータを読み出す読出機能と、前記期間情報の示す期間に基づき、前記受信機能によって受信した第2のデータに対して所定の遅延時間の遅延処理を行って出力する遅延機能とを実現させるためのプログラムを提供する。
本発明によれば、ライブ演奏のように楽曲のテンポの変動があっても、楽曲の流れにあわせたデータの再生を簡単に行うことができるとともに、他の利用者とコミュニケーションをとることも可能な通信装置、通信方法およびプログラムを提供することができる。
以下、本発明の一実施形態について説明する。
<実施形態>
本発明の実施形態に係る通信装置1は、図1に示すように、通信網100を介して他の通信装置1とデータの送受信を行う。以下の説明おいて、通信装置1について送信側と受信側とを区別して説明する場合には、送信側については通信装置1−Aとし、受信側については通信装置1−Bとして説明する。図2は、本発明の本実施形態に係る通信装置1のハードウエアの構成を示すブロック図である。
本発明の実施形態に係る通信装置1は、図1に示すように、通信網100を介して他の通信装置1とデータの送受信を行う。以下の説明おいて、通信装置1について送信側と受信側とを区別して説明する場合には、送信側については通信装置1−Aとし、受信側については通信装置1−Bとして説明する。図2は、本発明の本実施形態に係る通信装置1のハードウエアの構成を示すブロック図である。
CPU(Central Processing Unit)11は、ROM(Read Only Memory)12に記憶されているプログラムを読み出して、RAM(Random Access Memory)13にロードして実行することにより、通信装置1の各部について、バス10を介して制御する。また、RAM13は、CPU11が各データの加工などを行う際のワークエリアとして機能する。
記憶部14は、例えば、ハードディスクなどの大容量記憶手段であって、楽曲データ記憶領域14aに、楽曲のリファレンスデータとなるリファレンス楽曲データを記憶する。リファレンス楽曲データは、リファレンス楽音データと歌詞データ(第1のデータ)を有している。リファレンス楽音データは、楽曲の見本となる歌声や伴奏を含む演奏(以下、リファレンス演奏という)を録音したオーディオデータであって、その再生時刻を示すタイムコードが付されている。歌詞データは、楽曲の歌詞を示すテキストデータと当該テキストデータの各テキストの表示タイミングを示すデータとを有するシーケンスデータであって、シーケンスデータの読み出し時刻を示すタイムコード(時刻情報)が付されている。そして、リファレンス楽音データと歌詞データは、同じタイムコードによって読み出すことにより時間同期して再生することができ、楽曲の見本となる歌声にあった歌詞が表示されるようになっている。
操作部15は、例えばキーボードやマウスなどであり、通信装置1の利用者が操作部15を操作すると、その操作内容を表すデータがCPU11へ出力される。また、利用者による操作部15の操作に基づいて、CPU11によって楽曲情報、期間情報が生成される。楽曲情報、期間情報については別途説明する。
表示部16は、映像を画面に表示する液晶ディスプレイなどの表示デバイスであって、入力された映像データに基づいて表示を行う。また、通信装置1を操作するためのメニュー画面などの各種画面を表示する。音声出力部17は、スピーカなどの放音手段を有し、入力された音声データに基づいて放音する。
映像入力部18は、CCD(Charge Coupled Device)などのイメージセンサを有し、イメージセンサの撮影に基づいた映像データを生成する。音声入力部19は、収音を行うマイクロフォンを有し、マイクロフォンの収音に基づいたオーディオデータである音声データを生成する。
通信部20は、有線、無線などによって、通信網100を介して他の通信装置とデータの送受信を行う通信手段である。本実施形態においては、通信部20は、映像データ、音声データを送受信するとともに、後述する楽曲情報、期間情報についても送受信する。
次に、CPU11が、ROM12に記憶されたプログラムを実行することによって実現する機能のうち、受信したデータの処理に係る機能について説明する。図3は、CPU11が実現する機能を示したソフトウエアの構成を示すブロック図である。なお、データを送信する処理に係る機能については、映像入力部18において生成された映像データ(第2のデータ)、音声入力部19において生成された音声データ(第2のデータ)、操作部15の操作に基づいて生成された楽曲情報、期間情報を通信部20から送信する機能があるが、詳細な説明については省略する。
ここで、通信装置1−Aから送信される映像データは、楽曲の生演奏を映像入力部18において撮影した映像(以下、ライブ映像という)、および楽曲の生演奏の合間などに交わされる会話などのコミュニケーションの状況を撮影した映像(以下、会話映像という)のデータである。また、通信装置1−Aから送信される音声データは、上述した映像データに対応する音のデータであって、楽曲の生演奏を音声入力部19−Aにおいて収音した音(以下、ライブ演奏という)、および楽曲の生演奏の合間などに交わされる会話などのコミュニケーションの状況を収音した音(以下、会話音声という)のデータである。なお、ライブ演奏には、歌手の歌声(以下、ライブボーカルという)や楽曲の伴奏などが含まれている。
楽曲データ選択部101は、通信部20が受信した楽曲情報を取得する。ここで、楽曲情報は、上述した生演奏を行っている楽曲を特定する情報であって、利用者が操作部15を操作して楽曲を特定することにより生成される。本実施形態においては、通信部20が受信した楽曲情報を楽曲データ選択部101が取得している。なお、楽曲データ選択部101は、受信側の通信装置1において生成された楽曲情報を取得してもよく、どちらを取得するかは、利用者が操作部15を操作することにより選択すればよい。また、楽曲情報は、楽曲名や認識番号など、当該楽曲を特定できる情報であれば何でもよい。
そして、楽曲データ選択部101は、取得した楽曲情報に基づいて楽曲を特定し、楽曲データ記憶領域14aに記憶されているリファレンス楽曲データの中から、特定した楽曲に対応するリファレンス楽曲データを選択し、そのリファレンス楽曲データのリファレンス楽音データおよび歌詞データを読み出す。そして、読み出したリファレンス楽音データをタイムアライメント部102へ出力するとともに、読み出した歌詞データについては、後述するデータ読出部103に読み出されるまでRAM13にバッファしておく。
タイムアライメント部102は、通信部20が受信した期間情報および音声データを取得する。ここで、期間情報は、以下に示すタイムアライメント部102における処理(以下、同期処理という)を行うかどうかを示す情報であって、処理を開始するタイミング、処理を終了するタイミングによって処理を行う期間(以下、同期期間という)を示している情報である。この期間情報についても、上述のように、利用者が操作部15を操作することにより、同期処理の開始、終了タイミングを指定することにより生成され、通常、同期期間は音声データに係る音声が、ライブ演奏である期間として指定される。本実施形態においては、通信部20が受信した期間情報を取得しているが、受信側の通信装置1において生成された期間情報を取得してもよく、どちらを取得するかは、利用者が操作部15を操作することにより選択すればよい。以下の説明においては、実施態様の一例として、期間情報が示す同期期間において通信部20が受信する音声データに係る音声は、ライブ演奏であるものとして説明する。
そして、タイムアライメント部102は、取得した期間情報が示す同期期間において、通信部20が受信した音声データ(以下、受信音声データという)を取得し、受信音声データと、楽曲データ選択部101から出力されたリファレンス楽音データとを比較して、受信音声データに係る音声、すなわちライブ演奏とリファレンス演奏との楽曲の進行のずれを検出し、当該楽曲の進行のずれに基づいてタイムコードを出力する機能を有している。
ここで、楽曲の進行のずれは、それぞれのデータを所定時間長のフレーム単位に分離し、その各々に対してFFT(Fast Fourier Transform)を施して、それぞれのデータのスペクトルを算出し、これらの各フレーム間で類似したスペクトルを対応付けることにより検出する。また、楽曲の進行のずれを検出する機能について、本実施形態ではDP(Dynamic Programming:動的計画法)マッチングを用いる。具体的には以下のような処理となる。
タイムアライメント部102は、図4に示すような座標平面(以下、DPプレーンという)をRAM13に形成する。このDPプレーンの縦軸は、受信音声データをそれぞれ所定時間長のフレーム単位に分離してその各々に対してFFTを施して得られたスペクトルについて、各フレームのスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータ(ケプストラム)をa1、a2、a3・・・anとして、時間軸に従って並べたものである。また、横軸のb1、b2、b3・・・bnは、リファレンス楽音データについて、上記同様に時間軸に従って並べたものである。ここで、縦軸のa1、a2、a3・・・anの間隔と横軸のb1、b2、b3・・・bnの間隔は、いずれもフレームの時間長と対応している。このDPプレーンにおける各格子点の各々には、a1、a2、a3・・・anの各パラメータと、b1、b2、b3・・・bnの各パラメータのユークリッド距離を夫々示す値であるDPマッチングスコアが対応付けられている。例えば、a1とb1とにより位置決めされる格子点(a1,b1)には、受信音声データの一連のフレームのうち最初のフレームから得たパラメータとリファレンス楽音データの一連のフレームのうち最初のフレームから得たパラメータのユークリッド距離を示す値が対応付けられることになる。
そして、タイムアライメント部102は、このような構造を成すDPプレーンを形成した後、a1とb1とにより位置決めされる始端にあたる格子点(a1,b1)からanとbnとにより位置決めされる終端にあたる格子点(an,bn)に至る全経路を探索し、探索した経路ごとに、その始端から終端までの間に辿る各格子点のDPマッチングスコアを累算して累算値を求める。なお、始端と終端は各データの最初のフレームと最後のフレームということではなく、各データにおける所定のフレーム数を単位として行われ、この単位における最初のフレームから最後のフレームまで行われて、これが順次処理され各データの最後のフレームまで処理されていく。
そして、DPマッチングスコアの累算値が最小となる経路をDPプレーン上から特定し、その経路上の各格子点によって、受信音声データの各フレームにリファレンス楽音データの各フレームが対応付けられる。この対応関係により楽曲の進行のずれを検出することができる。例えば、図4に示すDPプレーン上に記された経路においては、a1とb1により位置決めされる格子点(a1,b1)からその右上のa2とb2により位置決めされる格子点(a2,b2)に進んでいることが分かる。この場合、a2のフレームとb2のフレームとの時間軸上の位置は当初から同じである。一方、この経路においては、a2とb2により位置決めされる格子点(a2,b2)からその右のa2とb3により位置決めされる格子点(a2,b3)に進んでいる。楽曲の進行のずれが無ければ格子点(a3,b3)へ進み、b3のフレームの時間軸上の位置に対応すべきフレームはa3のフレームとなるものであるが、格子点(a2,b3)に進んでいることから、b3のフレームはa3ではなくa2のフレームの時間軸上の位置と同じであると対応付けられ、楽曲の進行のずれが発生していることになる。すなわち、リファレンス楽音データのフレームb3までに進行する演奏の内容が、受信音声データのフレームa2までに進行していることになるから、この時点においては、リファレンス演奏よりもライブ演奏の方が早く進んでいることになる。このようにして、楽曲の進行のずれを検出することができる。そして、受信音声データの全てのフレームに対して、リファレンス楽音データのフレームを対応付けて、楽曲の進行のずれを検出する。以上がDPマッチングの仕組みである。
次に、タイムアライメント部102が検出した楽曲の進行のずれに基づいてタイムコードを順次出力する機能について説明する。タイムアライメント部102は、上述したように、受信音声データの各フレームに対してリファレンス楽音データのフレームを対応付けるから、受信音声データの時間軸上の位置をリファレンス楽音データの時間軸上の位置(以下、再生位置という)として認識することができる。また、この再生位置(同期情報)の時間変化によりテンポを認識することができる。タイムアライメント部102は、所定の間隔で、認識した再生位置とテンポに基づいてタイムコードを生成し、順次出力する。もし、タイムアライメント部102から順次出力されたタイムコードを参照してリファレンス楽音データを読み出して再生したとすれば、リファレンス演奏の時間軸が伸縮され、ライブ演奏と同等な楽曲の進行で再生することができる。
図3に戻って、説明を続ける。データ読出部103は、タイムアライメント部102から順次出力されるタイムコードと、歌詞データに付されたタイムコードとを対応させるようにして、楽曲データ選択部101がRAM13にバッファした歌詞データを読み出し、データ処理部104に順次出力していく。そして、データ処理部104は、データ読出部103から順次出力された歌詞データに基づいて歌詞映像データを生成し、映像合成部106に出力する。ここで、楽曲の歌詞を示すテキストデータとそのテキストの表示タイミングを示すデータを有する歌詞データは、タイムアライメント部102から出力されたタイムコードを参照して読み出すことによりデータ読出部103から出力されるシーケンスデータであるから、歌詞映像データは、楽曲の歌詞の表示タイミングがライブ演奏の楽曲の進行にあわせて、すなわちライブボーカルにあわせて表示される映像のデータとして生成される。
遅延部105は、通信部20によって受信された映像データ(以下、受信映像データという)および受信音声データに対して、期間情報に基づいた期間、所定の遅延時間の遅延処理を行って出力する。ここで、遅延部105の構成について図5を用いて説明する。
遅延部105は、選択部1051−1、1051−2、遅延バッファ1052−1、1052−2および出力部1053−1、1053−2を有する。選択部1051−1には受信映像データが入力され、選択部1051−2には受信音声データが入力される。そして、選択部1051−1は、期間情報が入力され、当該期間情報が示す同期期間については、受信映像データを遅延バッファ1052−1へ出力し、同期期間以外の期間については、そのまま出力部1053−1へ出力する。同様にして、選択部1051−2は、期間情報が入力され、当該期間情報が示す同期期間については、受信音声データを遅延バッファ1052−2へ出力し、同期期間以外の期間については、そのまま出力部1053−2へ出力する。
遅延バッファ1052−1、1052−2は、それぞれ入力された受信映像データ、受信音声データを所定の遅延時間に対応するデータ量のバッファ(一時記憶)をしてから当該受信映像データ、受信音声データを所定の速さで読み出すことにより、当該所定の遅延時間の遅延処理を行う。そして、遅延処理を行った受信映像データ、受信音声データをそれぞれ出力部1053−1、1053−2へ出力する。ここで、所定の速さは、受信映像データ、受信音声データを遅延させない場合の再生速度と同じ速さになるように設定される。また、所定の遅延時間は、上述したタイムアライメント部102が受信音声データを取得してから、データ処理部104が歌詞映像データを出力するまでの処理に必要な時間が設定されている。このようにすると、遅延部バッファ1052−1、1052−2から出力された受信音声データおよび受信映像データと、データ処理部104から出力された歌詞映像データとは、同期期間においては時間同期したものとなる。
出力部1053−1は、選択部1051−1から出力された受信映像データ、遅延バッファ1052−1において遅延処理されて出力された受信映像データのいずれか一方を映像合成部106へ出力する。ここで、選択部1051−1の受信映像データの出力が、出力部1053−1から遅延バッファ1052−1に切り替わってから上述の所定の遅延時間に対応する時間が経過するまでは、出力部1053−1には、受信映像データが出力されず、出力部1053−1からも受信映像データが出力されない。一方、選択部1051−1の受信映像データの出力が、遅延バッファ1052−1から出力部1053−1に切り替ってから上述の所定の遅延時間に対応する時間が経過するまでは、出力部1053−1には、遅延バッファ1052−1および選択部1051−1の双方から受信映像データが出力されることになる。そこで、本実施形態においては、出力部1053−1は、選択部1051−1から出力される受信映像データを優先して出力する。出力部1053−2についても、出力部1053−1と同様にして、選択部1051−2から出力された受信音声データ、遅延バッファ1052−2において遅延処理されて出力された受信音声データのいずれか一方、本実施形態においては、選択部1051−2から出力された受信音声データを優先して出力する。なお、本実施形態のように、出力部1053−1は、選択部1051−1から出力された受信映像データを優先させるのではなく、遅延バッファ1052−1から出力された受信映像データを優先させてもよい。出力部1053−2についても同様である。また、選択部1051−2から出力された受信音声データと遅延バッファ1052−2から出力された受信音声データについては、それぞれの受信音声データに係る音声を合成した受信音声データを出力してもよい。
図3に戻って、説明を続ける。映像合成部106は、同期期間(同期期間の開始時点から所定の遅延時間に対応する時間経過までの期間は除く)においては、遅延部105から出力された受信映像データに係るライブ映像に対して、データ処理部104から出力された歌詞映像データに係る歌詞の映像(以下、歌詞映像という)をスーパーインポーズした合成映像データを生成して表示部16へ出力する。ここで、合成映像データは、遅延部105において所定の遅延時間の遅延処理を行った受信映像データに係るライブ映像に対して、時間同期した歌詞映像、すなわち楽曲の歌詞がライブ演奏の楽曲の進行にあわせて表示される映像をスーパーインポーズしたものであり、ライブ映像に楽曲の歌詞映像が合成されることによって、その歌詞映像がライブボーカル、ライブ演奏、ライブ映像に合った映像の映像データとして生成される。なお、同期期間のうち、同期期間の開始時点から所定の遅延時間に対応する時間経過までの期間については、遅延部105から受信映像データが出力されず、データ処理部104から歌詞映像データも出力されていないから、映像合成部106は合成映像データを出力しない。
一方、同期期間以外の期間においては、遅延部105から出力される受信映像データは、遅延処理されていない受信映像データであって、当該受信映像データに係る映像は、会話映像である。そして、同期期間以外の期間においては、タイムアライメント部102は、上述した同期処理を行わない結果、タイムコードを出力しないから、データ処理部104からは歌詞映像データが出力されない。そのため、同期期間以外の期間においては、遅延部105から出力される受信映像データに係る映像にスーパーインポーズされる映像が無いから、映像合成部106が出力する合成映像データは、入力された受信映像データと同じデータとなる。
次に、図1に示すように、通信装置1−Aから送信されたデータを通信装置1−Bが受信することによって行われる処理について、通信装置1−Aの利用者(以下、利用者Aという、また通信装置1−Bの利用者は同様に利用者Bという)の状況が図6に示すように、コミュニケーション、生演奏、コミュニケーションの順に変化、すなわち送信される映像データおよび音声データに係る映像と音声が「会話映像、会話音声」、「ライブ映像、ライブ音声」、「会話映像、会話音声」の順に変化する場合を例として説明する。ここで、図6は、横軸方向は時刻の進行を示し、通信装置1−Aが送信する映像データ、音声データ、通信装置1−Bにおける出力部1053−1−B、1053−2−Bに入力される受信映像データ、受信音声データ、遅延部105−Bから出力される受信映像データ、受信音声データ、表示部16−Bにおいて表示される映像について、時系列で説明した図である。
なお、実際には、通信装置1−Aから送信された映像データと音声データは、通信装置1−Bにおいて受信するまでの間に、通信時間による時刻のずれが発生するため、時刻が一致することは無いが、説明の簡略化のため図6は通信時間による時刻のずれは考えないものとして記載している。以下の説明においても同様である。また、以下の説明においては、例えば通信部20−Aのように、各部の符号に「−A」を付したものは、通信装置1−Aについての各部を示したものであり、各部の符号に「−B」を付したものは、通信装置1−Bについての各部を示したものとする。
まず、利用者Aまたは利用者Bは、操作部15−Aまたは操作部15−Bを操作することにより、通信装置1−Aと通信装置1−Bとについて通信網100を介して接続する。この時点においては、映像入力部18−Aにおいて利用者Aの状況を撮影した映像データが生成され、音声入力部19−Aにおいて利用者Aの状況を録音した音声データが生成される。そして、通信部20−Aは、生成された映像データ(この時点においては、会話映像のデータ)および音声データ(この時点においては、会話音声のデータ)を通信装置1−Bへ送信する。一方、通信部20−Bは、通信部1−Aから送信された映像データおよび音声データを受信する。通信装置1−Bは、期間情報については受信していないから同期期間以外の期間であるとみなす。そのため、遅延部105−Bにおける遅延処理が行われないまま、受信映像データが表示部16−Bへ出力されることにより、会話映像が表示部16−Bに表示される。一方、受信音声データについても、遅延部105−Bにおける遅延処理が行われないまま、音声出力部17−Bに出力されることにより、会話音声が音声出力部17−Bから放音される。これにより、利用者Bは利用者Aの状況をリアルタイムで確認できる。
次に、利用者Aは、生演奏を始めるにあたって、操作部15−Aを操作して通信装置1−Bに同期処理を開始させるための指示を行うとともに、生演奏する楽曲を入力する。これにより通信部20−Aは、同期処理を開始させる指示、すなわち同期処理の開始タイミングを示す期間情報、および入力された楽曲を示す楽曲情報を通信装置1−Bへ送信する。一方、通信部20−Bは、通信装置1−Aから送信された期間情報および楽曲情報を受信する。そして、通信装置1−Bは、同期期間が開始したと認識し、遅延部105−Bは、受信映像データおよび受信音声データの遅延処理を行う。
このとき、出力部1053−1−B、1053−2−Bに入力される受信映像データ、受信音声データは、遅延バッファ1052−1−B、1052−2−Bにおいて遅延された受信映像データ、受信音声データである。そのため、出力部1053−1−B、1053−2−Bには、同期期間の最初の時点以降の所定の遅延時間に対応する時間だけ、受信映像データ、受信音声データが入力されない期間が発生する。その後、出力部1053−1−B、1053−2−Bには、遅延バッファ1052−1−B、1052−2−Bにおいて遅延された受信映像データ、受信音声データが入力されるから、遅延部105−Bからは、当該遅延された受信映像データ、受信音声データが出力される。
一方、タイムアライメント部102−Bは、受信音声データと楽曲情報によって特定される楽曲に係るリファレンス楽音データとに基づいて同期処理を行うことにより、データ処理部104−Bから歌詞映像データが出力される。
そして、映像合成部106−Bは、遅延部105−Bから出力された受信映像データに係るライブ映像に、データ処理部104−Bから出力された歌詞映像データに係る歌詞映像をスーパーインポーズした合成映像データを表示部16−Bに出力することにより、表示部16−Bは、ライブ映像に歌詞映像がスーパーインポーズされた映像を表示する。一方、遅延部105−Bから出力された受信音声データは、音声出力部17−Bに出力されることにより、ライブ演奏が音声出力部17−Bから放音される。これにより、利用者Bは、同期期間においては、利用者Aの状況(生演奏)を所定の遅延時間だけ遅れて確認することになる。この際、表示部16−Bに表示される映像は、受信音声データとリファレンス楽音データの同期処理に基づいて読み出された歌詞データから生成された歌詞映像データに係る歌詞映像、すなわち楽曲の進行に合わせた歌詞映像が、ライブ映像に対して合成された映像になっている。ここで、遅延部105から受信映像データ、受信音声データが出力されない同期期間の最初の時点から所定の遅延時間に対応する時間は、映像、音声ともに停止することになる。
次に、利用者Aは、生演奏を終了するにあたって、操作部15−Aを操作して通信装置1−Bに同期処理を終了させるための指示を行う。これにより通信部20−Aは、同期処理を終了させる指示、すなわち同期処理の終了タイミングを示す期間情報を通信装置1−Bへ送信する。一方、通信部20−Bは、通信装置1−Aから送信された期間情報を受信する。そして、通信装置1−Bは、同期期間が終了したと認識し、遅延部105−Bは、受信映像データおよび受信音声データの遅延処理を中止する。
このとき、出力部1053−1−B、1053−2−Bには、選択部1051−1−B、1051−2−Bから出力された遅延されていない受信映像データ、受信音声データ、および遅延バッファ1052−1−B、1052−2−Bにおいて遅延された受信映像データ、受信音声データが入力される。そのため、出力部1053−1−B、1053−2−Bには、同期期間の最後の時点以降の所定の遅延時間に対応する時間だけ、選択部1051−1−B、1051−2−Bおよび遅延バッファ1052−1−B、1052−2−Bの双方から受信映像データ、受信音声データが出力されるから、出力部1053−1−B、1053−2−Bは、選択部1051−1−B、1051−2−Bから出力された遅延されていない受信映像データ、受信音声データを優先して出力することにより、遅延部105−Bからは、遅延処理されていない受信映像データ、受信音声データが出力される。一方、タイムアライメント部102−Bは、同期処理を中止するから、データ処理部104−Bからの歌詞映像データの出力も中止される。そのため、映像合成部106−Bにおけるスーパーインポーズ処理も中止される。
これにより、遅延部105−Bにおける遅延処理が行われないまま、受信映像データが表示部16−Bへ出力されることにより、会話映像が表示部16−Bに表示される。一方、受信音声データについても、遅延部105−Bにおける遅延処理が行われないまま、音声出力部17−Bに出力されることにより、会話音声が音声出力部17−Bから放音される。これにより、利用者Bは利用者Aの状況をリアルタイム(通信時における遅れを除く)で確認できる。ここで、同期期間の最後の時点から所定の遅延時間に対応する時間は、ライブ映像、ライブ音声は欠落することになる。
このように、通信装置1は、期間情報が示す同期期間以外の期間においては、リアルタイムに会話映像、会話音声に係るデータの通信を行ってコミュニケーションをとることができる一方、同期期間においては、受信したデータを遅延させるとともに、受信音声データとリファレンス楽音データの同期処理に基づいて歌詞データを読み出すことにより、ライブ映像、ライブ演奏の進行に合わせた歌詞映像を表示することができる。
以上、本発明の実施形態について説明したが、本発明は以下のように、さまざまな態様で実施可能である。
<変形例1>
実施形態においては、同期期間の最初の時点から所定の遅延時間に対応する時間が経過した後に、遅延部105から遅延された受信映像データ、受信音声データが出力され、映像、音声が途切れるようになっていたが、映像、音声が途切れないような処理を行なってもよい。この場合には、遅延部105を以下のような構成にすればよい。遅延部105は、図7に示すように、可変遅延バッファ1054−1、1054−2を有する。可変遅延バッファ1054−1は、入力された受信映像データを一旦バッファするとともに、バッファされた受信映像データを読み出して出力する。この際に、受信映像データの読み出し速度を変化させ、これにより受信映像データに係る映像の再生スピードを伸縮させることができるようになっている。そして、読み出し速度を実施形態における所定の速度より遅くすることにより、受信映像データのバッファ量が増加し、逆に、所定の速度より読み出し速度を速くすることにより、バッファ量が減少することになる。ここで、再生スピードの伸縮が行われない通常の速度で読み出している間については、バッファ量に変動は無い。可変遅延バッファ1054−2についても、受信音声データに対して、同様な処理が可能となっている。また、可変遅延バッファ1054−1、1054−2には期間情報が入力される。以下、同期期間前後における遅延部105の処理について、図8を用いて説明する。なお、受信音声データに関しては無音(所定レベル以下の)区間の音声データを削除若しくは挿入することにより再生スピードの調整を行っても良い。
実施形態においては、同期期間の最初の時点から所定の遅延時間に対応する時間が経過した後に、遅延部105から遅延された受信映像データ、受信音声データが出力され、映像、音声が途切れるようになっていたが、映像、音声が途切れないような処理を行なってもよい。この場合には、遅延部105を以下のような構成にすればよい。遅延部105は、図7に示すように、可変遅延バッファ1054−1、1054−2を有する。可変遅延バッファ1054−1は、入力された受信映像データを一旦バッファするとともに、バッファされた受信映像データを読み出して出力する。この際に、受信映像データの読み出し速度を変化させ、これにより受信映像データに係る映像の再生スピードを伸縮させることができるようになっている。そして、読み出し速度を実施形態における所定の速度より遅くすることにより、受信映像データのバッファ量が増加し、逆に、所定の速度より読み出し速度を速くすることにより、バッファ量が減少することになる。ここで、再生スピードの伸縮が行われない通常の速度で読み出している間については、バッファ量に変動は無い。可変遅延バッファ1054−2についても、受信音声データに対して、同様な処理が可能となっている。また、可変遅延バッファ1054−1、1054−2には期間情報が入力される。以下、同期期間前後における遅延部105の処理について、図8を用いて説明する。なお、受信音声データに関しては無音(所定レベル以下の)区間の音声データを削除若しくは挿入することにより再生スピードの調整を行っても良い。
可変遅延バッファ1054−1は、期間情報が示す同期期間の開始時点になると、バッファした受信映像データの読み出し速度を遅くする。これに伴い、受信映像データのバッファ量が増加する。そして、バッファ量が所定量に達すると、可変遅延バッファ1054−1は、バッファした受信映像データの読み出し速度を通常の速度に戻す。ここで、所定量のバッファ量は、実施形態における所定の遅延時間に対応するデータ量である。そのため、この時点においては、実施形態と同じ状況になっている。
その後、可変遅延バッファ1054−1は、期間情報が示す同期期間の終了時点になると、バッファした受信映像データの読み出し速度を早くする。これに伴い、受信映像データのバッファ量が減少する。そして、バッファした受信映像データが所定量以下になると(図8においては、バッファ量が0)、読み出し速度を通常の速度に戻す。また、可変遅延バッファ1054−2についても、受信音声データに対して、同様な処理が行われる。なお、バッファ量は、遅延時間に対応するデータ量と同じことであるから、時間経過とともに所定の遅延時間が変動するようにして可変遅延バッファ1054−1、1054−2におけるバッファ量を制御するとともに、当該制御に応じて受信映像データ、受信音声データを出力することもできる。
このようにすると、同期期間の開始部分においては、受信映像データおよび受信音声データがゆっくり再生され、同期期間の終了部分においては、受信映像データ及び受信音声データが速く再生される。そのため、同期期間の開始部分における映像、音声の停止部分がなくなるとともに、同期期間の終了部分における映像、音声の欠落をなくすことができる。なお、受信映像データ、受信音声データの双方に対して上述したような処理をせず、いずれか一方のデータ、例えば受信音声データのみに対して行なうようにしてもよい。その場合は、実施形態における遅延部105に対して、受信音声データが入力される部分のみ変形例1の構成とすればよい。
<変形例2>
実施形態においては、タイムコードの生成は、受信音声データに基づいてタイムアライメント部102において行っていたが、他の方法によって行なわれてもよい。例えば、図9に示すように、通信装置1−Bの通信部20−Bは、通信装置1−Aから同期情報を受信する。そして、同期期間において、同期情報に基づいてタイムコードを生成するタイムコード生成部107を設ければよい。ここで、同期情報は、再生するデータの位置の時間変化を示すものであれば、どのような情報でもよい。例えば、通信装置1−Aは、音声入力部19−Aにおいて生成された音声データに基づいて同期処理を行い、再生位置とテンポを同期情報とすればよい。このようにすれば、タイムアライメント部102における同期処理の一部または全部を送信側である通信装置1−Aで行うこともできる。なお、タイムアライメント部102における同期処理は、DPマッチングを用いていたが、異なった手法によって同期処理をするようにしてもよい。例えば、HMM(Hidden Markov Model:隠れマルコフモデル)を用いてもよいし、比較対象である各データから波形の特徴量(音程、音量など)を抽出して比較するようにしてもよい。すなわち、各データの比較をして、各データ間の類似する部分を対応させることができる手法であればどのような手法でもよい。また、通信装置1−Bのタイムアライメント部102−Bにおいても同期処理を行うときには、受信した同期情報も用いて同期処理を行うことにより、同期処理の精度を向上させてもよい。なお、同期情報を受信している間を期間情報が示す期間としてもよい。この場合には、通信部20は、同期情報を受信している期間を示す期間情報を出力するようにしてもよいし、期間情報の代わりに同期情報を遅延部105に出力するようにしてもよい。
実施形態においては、タイムコードの生成は、受信音声データに基づいてタイムアライメント部102において行っていたが、他の方法によって行なわれてもよい。例えば、図9に示すように、通信装置1−Bの通信部20−Bは、通信装置1−Aから同期情報を受信する。そして、同期期間において、同期情報に基づいてタイムコードを生成するタイムコード生成部107を設ければよい。ここで、同期情報は、再生するデータの位置の時間変化を示すものであれば、どのような情報でもよい。例えば、通信装置1−Aは、音声入力部19−Aにおいて生成された音声データに基づいて同期処理を行い、再生位置とテンポを同期情報とすればよい。このようにすれば、タイムアライメント部102における同期処理の一部または全部を送信側である通信装置1−Aで行うこともできる。なお、タイムアライメント部102における同期処理は、DPマッチングを用いていたが、異なった手法によって同期処理をするようにしてもよい。例えば、HMM(Hidden Markov Model:隠れマルコフモデル)を用いてもよいし、比較対象である各データから波形の特徴量(音程、音量など)を抽出して比較するようにしてもよい。すなわち、各データの比較をして、各データ間の類似する部分を対応させることができる手法であればどのような手法でもよい。また、通信装置1−Bのタイムアライメント部102−Bにおいても同期処理を行うときには、受信した同期情報も用いて同期処理を行うことにより、同期処理の精度を向上させてもよい。なお、同期情報を受信している間を期間情報が示す期間としてもよい。この場合には、通信部20は、同期情報を受信している期間を示す期間情報を出力するようにしてもよいし、期間情報の代わりに同期情報を遅延部105に出力するようにしてもよい。
<変形例3>
実施形態における音声入力部19に、複数のマイクロフォンを設けて、各々マイクロフォンで収音することにより、各々のマイクロフォンに対応した複数のチャンネルを持つ音声データを生成するようにしてもよい。そして、遅延部105における受信音声データの遅延処理について、それぞれのチャンネルごとに異なる期間で遅延処理を行ってもよい。ここで、例えば、チャンネルが2である場合には、遅延部105を図10に示すような構成とすればよい。以下、遅延部105について説明する。
実施形態における音声入力部19に、複数のマイクロフォンを設けて、各々マイクロフォンで収音することにより、各々のマイクロフォンに対応した複数のチャンネルを持つ音声データを生成するようにしてもよい。そして、遅延部105における受信音声データの遅延処理について、それぞれのチャンネルごとに異なる期間で遅延処理を行ってもよい。ここで、例えば、チャンネルが2である場合には、遅延部105を図10に示すような構成とすればよい。以下、遅延部105について説明する。
本変形例における遅延部105は、実施形態における遅延部105の構成に加えて、以下の構成を有する。まず、分離部1055は、入力された受信音声データをチャンネル別に分離して選択部1051−2、1051−3にそれぞれ出力する。ここで、選択部1051−2に出力される受信音声データをCh1受信音声データといい、実施形態における受信音声データに対応するものとする。すなわち、Ch1受信音声データは、ライブ演奏、会話音声に係る音声データである。同様にして、選択部1051−3に出力される受信音声データをCh2受信音声データという。Ch2受信音声データは、コミュニケーション専用に用いられるマイクロフォンによる収音に基づいて生成された音声データである。ここで、当該音声データに係る音声については、以下、Ch2会話音声という。
加算器1056は、出力部1053−2から出力されるCh1受信音声データと、出力部1053−3から出力されるCh2受信音声データとを合成し、受信音声データとして出力する。遅延バッファ1052−3、出力部1053−3については、それぞれ遅延バッファ1052−2、出力部1053−2と同様な機能であるため、説明を省略する。以下、選択部1051−3について説明する。
選択部1051−3は、期間情報と入力されたCh2受信音声データに係る音量レベルとに基づいて、Ch2受信音声データを遅延バッファ1052−3に出力するか、出力部1053−3に出力するかを決定する。具体的には、選択部1051−3は、同期制御情報が示す同期期間の開始時点以降であって、入力されたCh2受信音声データに係る音量レベルが所定レベル以下になる状態が所定時間継続した時点から、同期制御情報が示す同期期間の終了時点以降であって、入力されたCh2受信音声データに係る音量レベルが所定レベル以下になる状態が所定時間継続した時点までの期間においては、Ch2受信音声データを遅延バッファ1052−3に出力する。それ以外の期間については、選択部1051−3は、Ch2受信音声データを出力部1053−3に出力する。なお、所定時間が遅延バッファ1052−3における所定の遅延時間に対応する時間よりも短い場合には、選択部1051−3は、所定時間経過時点においてCh2受信音声データを出力部1053−3に出力してしまうと、Ch2会話音声の最後の部分が欠落してしまう。そのため、このような場合には、入力されたCh2受信音声データに係る音量レベルが所定レベル以下になる状態が所定時間継続した場合には、当該音量レベルが所定レベル以下になった時点から所定の遅延時間に対応する時間の経過した時点までの期間、Ch2受信音声データを遅延バッファ1052−3に出力するようにしてもよい。
上述した選択部1051−3が、Ch2受信音声データを遅延バッファ1052−3に出力する期間について、図11を用いて具体的に説明する。図11は、Ch2受信音声データに係る音量レベルを示した図であり、縦軸は音量レベル、横軸は時刻を示す。また、図中に所定時間についても示す。まず、選択部1051−3におけるCh2受信音声データの出力が出力部1053−3から遅延バッファ1052−3へ切り替わる時点について図11(a)を用いて説明する。同期期間の開始時点の後、時刻t1に達すると音量レベルが所定レベル以下になる。その後時刻t2に達すると音量レベルが所定レベル以上になる。ここで、t2−t1は所定時間より短いためCh2受信音声データは、出力部1053−3に出力されたままとなる。そして、時刻t3に達すると再び音量レベルが所定レベル以下になる。そして、時刻t3から所定時間経過後の時刻tsまでの間、音量レベルが所定レベル以下である状態が続いているから、時刻tsの時点からCh2受信音声データの出力は、出力部1053−3から遅延バッファ1052−3に切り替わる。この所定時間を適宜設定することにより、音声会話からライブ演奏への切り替えのタイミングを所定期間の無音(所定レベル以下の)音声を送信すること等で知らせることができる。
次に、選択部1051−3におけるCh2受信音声データの出力が遅延バッファ1052−3から出力部1053−3へ切り替わる時点について図11(b)を用いて説明する。同期期間の終了時点の後、時刻t4に達すると音量レベルが所定レベル以下となる。そして、時刻t4から所定時間経過後の時刻tsまでの間、音量レベルが所定レベル以下である状態が続いているから、時刻tsの時点からCh2受信音声データの出力は、遅延バッファ1052−3から出力部1053−3に切り替わる。
一方、上述したように所定時間が所定の遅延時間に対応する時間より短い場合には、選択部1051−3におけるCh2受信音声データの出力が遅延バッファ1052−3から出力部1053−3へ切り替わる時点について、図11(c)を用いて説明する。同期期間の終了時点の後、時刻t4に達すると音量レベルが所定レベル以下となる。そして、時刻t4から所定時間経過するまでの間、音量レベルが所定レベル以下である状態が続いているから、時刻t4から所定の遅延時間に対応する時間経過後の時刻tsの時点からCh2受信音声データの出力は、遅延バッファ1052−3から出力部1053−3に切り替わる。
このようにして、選択部1051−3からCh2受信音声データを出力することにより、同期期間の開始時点において、音量レベルが所定レベル以下の状態が所定時間継続した後、すなわち会話が終了した後に、Ch2受信音声データの遅延処理を行うから、同期期間が開始してもコミュニケーション専用に用いられるマイクロフォンによって収音された会話の途中で途切れないようにすることができる。一方、同期期間の終了時点において、音量レベルが所定レベル以下の状態が所定時間継続した後、すなわち会話が終了した後に、Ch2受信音声データの遅延処理を中止するから、同期期間が終了してもコミュニケーション専用に用いられるマイクロフォンによって収音された会話の途中で欠落しないようにすることができる。なお、本変形例を変形例2に適用した場合には、Ch1受信音声データは無くてもよいから、遅延部105は、選択部1051−2、遅延バッファ1052−2、出力部1053−2、分離部1055、加算器1056を用いなくてもよい。
<変形例4>
実施形態においては、期間情報が示す同期期間については、利用者が操作部15を操作することによって決定していたが、自動的に決定されるようにしてもよい。例えば、生演奏を行うときに使用する楽器が使用されているかどうかを検出するセンサを楽器に取り付け、センサが楽器の使用を検出した場合には、通信装置1に対して、図示しないデータ入力手段を介して検出結果を入力し、その楽器の使用が検出されている期間を同期期間とするようにすればよい。また、変形例3のようにマイクロフォンが複数存在する場合には、所定のマイクロフォンによる収音レベルに基づいてCPU11が同期期間を決定し、期間情報を生成するようにしてもよい。このように、同期期間を自動的に決定すれば、さらに利用者の負担を低減することができる。
実施形態においては、期間情報が示す同期期間については、利用者が操作部15を操作することによって決定していたが、自動的に決定されるようにしてもよい。例えば、生演奏を行うときに使用する楽器が使用されているかどうかを検出するセンサを楽器に取り付け、センサが楽器の使用を検出した場合には、通信装置1に対して、図示しないデータ入力手段を介して検出結果を入力し、その楽器の使用が検出されている期間を同期期間とするようにすればよい。また、変形例3のようにマイクロフォンが複数存在する場合には、所定のマイクロフォンによる収音レベルに基づいてCPU11が同期期間を決定し、期間情報を生成するようにしてもよい。このように、同期期間を自動的に決定すれば、さらに利用者の負担を低減することができる。
また、別の方法としては、映像データ、音声データを解析することにより同期期間を決定する解析手段を設けてもよい。例えば、会話映像からライブ映像に切り替わるときは、映像の動きが激しくなることが多いから、解析手段は映像データに係る映像についての動きを示す特徴量を抽出して、その特徴量が示す動きが所定量を超えた時点、または所定量を超えた状態が所定期間継続した場合に、同期期間の開始時点と決定すればよい。逆に、特徴量が示す動きが所定量以下になった時点、または所定量以下になった状態が所定期間継続した場合には、同期期間の終了時点と決定すればよい。このようにすれば、解析手段は、映像データに基づいて同期期間を決定することができるから、これを期間情報として生成すればよい。さらに、会話音声からライブ演奏に切り替わるときは、その音量、周波数特性などが大きく変化するから、解析手段は音声データに係る音声についての特徴量を抽出し、その変化に基づいて同期期間を決定するようにしてもよい。このように、解析手段は、映像データ、音声データによって同期期間を決定し、期間情報を自動的に生成することができる。なお、上記の同期期間の決定による期間情報の生成は、送信側の通信装置1−Aによって行なわれてもよいし、受信側の通信装置1−Bによって行なわれてもよい。受信側の通信装置1−Bによって行われた場合には、期間情報を用いる通信装置1−Bの各部は、通信部20から受信した期間情報に替えて、通信装置1−Bにおいて生成した期間情報を用いればよい。
<変形例5>
実施形態においては、楽曲情報が示す楽曲は利用者が操作部15を操作することにより特定されていたが、通信装置1が受信音声データに基づいて楽曲の特定を行なうようにしてもよい。この場合には、受信音声データの波形などの特徴量と楽曲データ記憶領域14aに記憶された複数のリファレンス楽音データの特徴量とを比較し、一致度の高いリファレンス楽音データを特定することにより楽曲を特定する楽曲検索手段を設ければよい。このようにすれば、通信装置1は楽曲情報を自動で生成することができる。
実施形態においては、楽曲情報が示す楽曲は利用者が操作部15を操作することにより特定されていたが、通信装置1が受信音声データに基づいて楽曲の特定を行なうようにしてもよい。この場合には、受信音声データの波形などの特徴量と楽曲データ記憶領域14aに記憶された複数のリファレンス楽音データの特徴量とを比較し、一致度の高いリファレンス楽音データを特定することにより楽曲を特定する楽曲検索手段を設ければよい。このようにすれば、通信装置1は楽曲情報を自動で生成することができる。
<変形例6>
実施形態においては、リファレンス楽音データと対応する歌詞データは、楽曲の歌詞を示すテキストデータと当該テキストデータの各テキストの表示タイミングを示すデータとを有するシーケンスデータであったが、楽曲の歌詞をリファレンス楽音データと時間同期して再生できるようにしたタイムコードの付された映像データであってもよい。この場合、以下のようにすればよい。データ読出部103は、実施形態に示したようにタイムコードを参照し、映像データである歌詞データ(第1のデータ)を読み出して、データ処理部104に順次出力する。これにより、データ読出部103から順次出力された歌詞データは、読み出されるときに楽曲の進行に合わせるように時間軸が伸縮されてデータ処理部104に出力される。そして、データ処理部104は、この時間軸が伸縮された歌詞データを歌詞映像データとして生成して出力する。このようにすれば、歌詞データが映像データであっても、本発明の効果を奏することができる。なお、映像データについては、歌詞データに限らず、楽曲の楽譜など、入力された音声データの楽曲の進行に合わせて表示させたい映像のデータなら、どのような映像データでもよい。
実施形態においては、リファレンス楽音データと対応する歌詞データは、楽曲の歌詞を示すテキストデータと当該テキストデータの各テキストの表示タイミングを示すデータとを有するシーケンスデータであったが、楽曲の歌詞をリファレンス楽音データと時間同期して再生できるようにしたタイムコードの付された映像データであってもよい。この場合、以下のようにすればよい。データ読出部103は、実施形態に示したようにタイムコードを参照し、映像データである歌詞データ(第1のデータ)を読み出して、データ処理部104に順次出力する。これにより、データ読出部103から順次出力された歌詞データは、読み出されるときに楽曲の進行に合わせるように時間軸が伸縮されてデータ処理部104に出力される。そして、データ処理部104は、この時間軸が伸縮された歌詞データを歌詞映像データとして生成して出力する。このようにすれば、歌詞データが映像データであっても、本発明の効果を奏することができる。なお、映像データについては、歌詞データに限らず、楽曲の楽譜など、入力された音声データの楽曲の進行に合わせて表示させたい映像のデータなら、どのような映像データでもよい。
また、実施形態においては、楽曲の進行に合わせて歌詞を表示させるようにしていたが、これに加えて、外部の他の装置を楽曲の進行に合わせて制御するようにしてもよい。この場合は、以下のような構成とすればよい。図12に示すように、例えば、AUX(Auxiliary)端子などの制御信号出力部21を設け、楽曲データ記憶領域14aに制御信号データ(第1のデータ)を記憶するようにする。ここで、制御信号データは、AUX端子に接続される外部の装置を制御する信号とその制御のタイミングを示すデータを有するシーケンスデータであって、歌詞データと同様にリファレンス楽音データと時間同期して外部の装置を制御できるようにタイムコードが付されている。そして、データ読出部103によって読み出された制御信号データを制御信号出力部21から出力するようにすればよい。このようにすると、通信装置1は、制御信号出力部に接続される外部の装置が、楽曲の進行にあわせて出力される制御信号に基づいて制御されるため、楽曲の進行にあわせて外部の装置を動作させることができる。なお、外部の装置には、照明、音響機器、ロボットなど、制御信号によって制御できるものであれば、どのようなものにも適用できる。この場合は、制御信号データは、制御したい装置にあわせたデータとしておけばよい。さらに、複数の外部の装置を同時に制御したい場合には、複数の制御信号データを用意しておき、制御信号出力部21に複数の装置を接続できるようにしておけばよい。この接続は、有線接続であってもよいし、無線接続であってもよく、信号が伝達できるものであればよい。
その他にも、楽曲データ記憶領域14aに、リファレンス楽音データと時間同期して再生できるようにタイムコードなどの時刻情報が付されたMIDIデータ(第1のデータ)、音声データ(第1のデータ)を記憶させてもよい。このようにすれば、データ読出部103がこれらのデータを読み出して、音声合成手段によって受信音声データとミキシングして音声出力部17に出力することにより、楽曲の進行に合わせて音声出力部17からMIDIデータ、音声データに基づく楽音を放音させることができる。ここで、MIDIデータを用いる場合には、MIDIデータを再生して音声データとして出力する音源をデータ処理部104に設け、音声合成手段によってデータ処理部104から出力された音声データを受信音声データとミキシングして音声出力部17に出力するようにすればよい。
<変形例7>
実施形態においては、タイムアライメント部102における同期処理は、受信音声データとリファレンス楽音データを比較することにより行われていた。ここで、楽曲データ記憶領域14aに、楽曲の進行における映像の見本となるリファレンス映像データを記憶させることにより、タイムアライメント部102は、受信映像データとリファレンス映像データを比較することにより同期処理を行なうようにしてもよい。この場合は、映像全体で比較してもよいし、例えば映像のうち一部分の特徴、例えば歌唱者の唇付近を抽出して、その動きの特徴量を比較することによって同期処理を行えばよい。このようにしても、タイムアライメント部102における同期処理ができる。
実施形態においては、タイムアライメント部102における同期処理は、受信音声データとリファレンス楽音データを比較することにより行われていた。ここで、楽曲データ記憶領域14aに、楽曲の進行における映像の見本となるリファレンス映像データを記憶させることにより、タイムアライメント部102は、受信映像データとリファレンス映像データを比較することにより同期処理を行なうようにしてもよい。この場合は、映像全体で比較してもよいし、例えば映像のうち一部分の特徴、例えば歌唱者の唇付近を抽出して、その動きの特徴量を比較することによって同期処理を行えばよい。このようにしても、タイムアライメント部102における同期処理ができる。
<変形例8>
実施形態においては、送信側の通信装置1−Aと受信側の通信装置1−Bは、同一の構成であるものとしていたが、必ずしも同一の構成である必要は無い。例えば、通信装置1は受信側のみで用いることとし、期間情報、楽曲情報を受信側の通信装置1で生成するようにすれば、送信側は音声データが送信できる外部機器であるデータ送信装置とすることができる。また、受信側の通信装置1は、期間情報が示す同期期間に歌詞データを読み出している期間に対応して、受信した映像データ、音声データを遅延部105において遅延させるようにすれば、同期処理を行わなくても本発明の効果を得ることができる。なお、実施形態においては、送信側と受信側の通信装置1を区別して説明していたが、受信側の通信装置1−Bからも随時映像データ、音声データを生成し通信装置1−Aに送信し、通信装置1−Aにおいて受信して、双方向にコミュニケーションを行うことができる。
実施形態においては、送信側の通信装置1−Aと受信側の通信装置1−Bは、同一の構成であるものとしていたが、必ずしも同一の構成である必要は無い。例えば、通信装置1は受信側のみで用いることとし、期間情報、楽曲情報を受信側の通信装置1で生成するようにすれば、送信側は音声データが送信できる外部機器であるデータ送信装置とすることができる。また、受信側の通信装置1は、期間情報が示す同期期間に歌詞データを読み出している期間に対応して、受信した映像データ、音声データを遅延部105において遅延させるようにすれば、同期処理を行わなくても本発明の効果を得ることができる。なお、実施形態においては、送信側と受信側の通信装置1を区別して説明していたが、受信側の通信装置1−Bからも随時映像データ、音声データを生成し通信装置1−Aに送信し、通信装置1−Aにおいて受信して、双方向にコミュニケーションを行うことができる。
<変形例9>
実施形態においては、出力部1053−1は、同期期間の開始時点から所定の遅延時間に対応する時間は、受信映像データの出力を行わなかったが、それまでに入力された受信映像データのうち、最後のフレームに対応する映像に係るデータを受信映像データとして出力してもよい。一方、出力部1053−1は、同期期間の終了時点から所定の遅延時間に対応する時間は、遅延処理されていない受信映像データと遅延処理された受信映像データが入力され、遅延処理されていない受信映像データを優先して出力していたが、遅延処理された受信映像データに係る映像を徐々に薄くし、遅延処理されていない受信映像データに係る映像を薄い表示から徐々に濃く表示するようにして、クロスフェード効果を与えた受信映像データを生成して出力するようにしてもよい。このようにすると、同期期間の開始時点、終了時点における表示の切り替えの違和感を低減することができる。
実施形態においては、出力部1053−1は、同期期間の開始時点から所定の遅延時間に対応する時間は、受信映像データの出力を行わなかったが、それまでに入力された受信映像データのうち、最後のフレームに対応する映像に係るデータを受信映像データとして出力してもよい。一方、出力部1053−1は、同期期間の終了時点から所定の遅延時間に対応する時間は、遅延処理されていない受信映像データと遅延処理された受信映像データが入力され、遅延処理されていない受信映像データを優先して出力していたが、遅延処理された受信映像データに係る映像を徐々に薄くし、遅延処理されていない受信映像データに係る映像を薄い表示から徐々に濃く表示するようにして、クロスフェード効果を与えた受信映像データを生成して出力するようにしてもよい。このようにすると、同期期間の開始時点、終了時点における表示の切り替えの違和感を低減することができる。
1…通信装置、10…バス、11…CPU、12…ROM、13…RAM、14…記憶部、14a…楽曲データ記憶領域、15…操作部、16…表示部、17…音声出力部、18…映像入力部、19…音声入力部、20…通信部、21…制御信号出力部、100…通信網、101…楽曲データ選択部、102…タイムアライメント部、103…データ読出部、104…データ処理部、105…遅延部、1051−1、1051−2、1051−3…選択部、1052−1、1052−2、1052−3…遅延バッファ、1053−1、1053−2、1053−3…出力部、1054−1、1054−2、1054−3…可変遅延バッファ、1055…分離部、1056…加算器、106…映像合成部、107…タイムコード生成部
Claims (14)
- データ各部についての時刻を規定する時刻情報を有した第1のデータを記憶する記憶手段と、
外部機器からの通信によって第2のデータを受信する受信手段と、
所定の期間を示す期間情報を取得する期間情報取得手段と、
データの読み出す時刻を示す同期情報を取得する同期情報取得手段と、
前記期間情報が示す期間において、前記同期情報と前記時刻情報との対応関係に基づいて、前記記憶手段から第1のデータを読み出す読出手段と、
前記期間情報の示す期間に基づき、前記受信手段が受信した第2のデータに対して所定の遅延時間の遅延処理を行って出力する遅延手段と
を具備することを特徴とする通信装置。 - 前記遅延手段は、
前記受信手段が受信した第2のデータをバッファするバッファ手段と、
前記バッファ手段にバッファされた第2のデータを所定の速さで読み出すバッファ読出手段と
を具備し、
前記期間情報に基づいた期間において、
前記バッファ読出手段は、前記バッファ手段が前記遅延時間に対応するデータ量の前記第2のデータをバッファした後に、前記バッファ手段にバッファされた第2のデータを前記所定の速さで読み出す
ことを特徴とする請求項1に記載の通信装置。 - 前記期間情報に基づいた期間の終了直後の期間において、
前記バッファ読出手段は、前記バッファ手段にバッファされた第2のデータを前記所定の速度より速い速度で読み出す
ことを特徴とする請求項2に記載の通信装置。 - 前記期間情報に基づいた期間の開始直前の期間において、
前記バッファ読出手段は、前記バッファ手段にバッファされた第2のデータを前記所定の速度より遅い速度で読み出す
ことを特徴とする請求項2または請求項3に記載の通信装置。 - 前記期間情報に基づいた期間の開始直前の期間において、
前記バッファ読出手段は、前記バッファ手段にバッファされた第2のデータの読み出しを停止する
ことを特徴とする請求項2または請求項3に記載の通信装置。 - 前記受信手段が受信した第2のデータは、音声を示すデータを有し、
前記期間情報に基づいた期間は、当該期間情報が示す期間の開始時点以降において前記音声の音量レベルが所定レベル以下である状態が所定時間継続した後の時点を開始時点とし、当該期間情報が示す期間の終了時点以降において前記音声の音量レベルが所定レベル以下である状態が所定時間継続した後の時点を終了時点とした期間である
ことを特徴とする請求項1乃至請求項5のいずれかに記載の通信装置。 - 前記受信手段が受信した第2のデータは、音声を示すデータを有し、
前記期間情報に基づいた期間は、当該期間情報が示す期間の開始時点以降において前記音声の音量レベルが所定レベル以下である状態が所定時間継続した後の時点を開始時点とし、当該期間情報が示す期間の終了時点以降に前記音声の音量レベルが所定レベル以下である状態が所定時間継続した後であって、当該所定レベル以下になった時から前記所定の遅延時間に対応する時間が経過した後の時点を終了時点とした期間である
ことを特徴とする請求項1乃至請求項5のいずれかに記載の通信装置。 - 前記期間情報取得手段は、外部機器からの通信によって前記期間情報を取得する
ことを特徴とする請求項1乃至請求項7のいずれかに記載の通信装置。 - 利用者の操作に基づいて前記期間情報を生成する操作手段をさらに具備し、
前記期間情報取得手段は、前記操作手段によって生成された期間情報を取得する
ことを特徴とする請求項1乃至請求項7のいずれかに記載の通信装置。 - 前記受信手段が受信した第2のデータを解析することにより期間情報を生成する解析手段をさらに具備し、
前記期間情報取得手段は、前記解析手段によって生成された期間情報を取得する
ことを特徴とする請求項1乃至請求項7のいずれかに記載の通信装置。 - 前記同期情報取得手段は、外部機器からの通信によって前記同期情報を取得する
ことを特徴とする請求項1乃至請求項10のいずれかに記載の通信装置。 - リファレンスデータを記憶するリファレンスデータ記憶手段と、
前記受信手段が受信した第2のデータと前記リファレンスデータとを所定時間長のフレーム単位で対応付けて、対応する部分についての時刻を示す同期情報を生成するタイムアライメント手段とをさらに具備し、
前記同期情報取得手段は、前記タイムアライメント手段によって生成された同期情報を取得する
ことを特徴とする請求項1乃至請求項10のいずれかに記載の通信装置。 - データ各部についての時刻を規定する時刻情報を有した第1のデータを記憶する記憶過程と、
外部機器からの通信によって第2のデータを受信する受信過程と、
所定の期間を示す期間情報を取得する期間情報取得過程と、
データの読み出す時刻を示す同期情報を取得する同期情報取得過程と、
前記期間情報が示す期間において、前記同期情報と前記時刻情報との対応関係に基づいて、前記記憶過程において記憶した第1のデータを読み出す読出過程と、
前記期間情報の示す期間に基づき、前記受信過程において受信した第2のデータに対して所定の遅延時間の遅延処理を行って出力する遅延過程と
を備えることを特徴とする通信方法。 - コンピュータに、
データ各部についての時刻を規定する時刻情報を有した第1のデータを記憶する記憶機能と、
外部機器からの通信によって第2のデータを受信する受信機能と、
所定の期間を示す期間情報を取得する期間情報取得機能と、
データの読み出す時刻を示す同期情報を取得する同期情報取得機能と、
前記期間情報が示す期間において、前記同期情報と前記時刻情報との対応関係に基づいて、前記記憶機能によって記憶した第1のデータを読み出す読出機能と、
前記期間情報の示す期間に基づき、前記受信機能によって受信した第2のデータに対して所定の遅延時間の遅延処理を行って出力する遅延機能と
を実現させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007083076A JP2008244888A (ja) | 2007-03-27 | 2007-03-27 | 通信装置、通信方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007083076A JP2008244888A (ja) | 2007-03-27 | 2007-03-27 | 通信装置、通信方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008244888A true JP2008244888A (ja) | 2008-10-09 |
Family
ID=39915668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007083076A Pending JP2008244888A (ja) | 2007-03-27 | 2007-03-27 | 通信装置、通信方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008244888A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015070460A (ja) * | 2013-09-30 | 2015-04-13 | シャープ株式会社 | 映像音声配信システム、音声映像配信方法及びプログラム |
WO2022190717A1 (ja) * | 2021-03-11 | 2022-09-15 | ヤマハ株式会社 | コンテンツデータ処理方法およびコンテンツデータ処理装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117582A (ja) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | 音声処理装置およびカラオケ装置 |
JP2002244694A (ja) * | 2001-02-15 | 2002-08-30 | Telecommunication Advancement Organization Of Japan | 字幕送出タイミング検出装置 |
JP2006195385A (ja) * | 2005-01-17 | 2006-07-27 | Matsushita Electric Ind Co Ltd | 音楽再生装置および音楽再生プログラム |
JP2007033851A (ja) * | 2005-07-27 | 2007-02-08 | Sony Corp | ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法 |
-
2007
- 2007-03-27 JP JP2007083076A patent/JP2008244888A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117582A (ja) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | 音声処理装置およびカラオケ装置 |
JP2002244694A (ja) * | 2001-02-15 | 2002-08-30 | Telecommunication Advancement Organization Of Japan | 字幕送出タイミング検出装置 |
JP2006195385A (ja) * | 2005-01-17 | 2006-07-27 | Matsushita Electric Ind Co Ltd | 音楽再生装置および音楽再生プログラム |
JP2007033851A (ja) * | 2005-07-27 | 2007-02-08 | Sony Corp | ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015070460A (ja) * | 2013-09-30 | 2015-04-13 | シャープ株式会社 | 映像音声配信システム、音声映像配信方法及びプログラム |
WO2022190717A1 (ja) * | 2021-03-11 | 2022-09-15 | ヤマハ株式会社 | コンテンツデータ処理方法およびコンテンツデータ処理装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI492216B (zh) | 顯示控制裝置、方法及電腦可讀取之記憶媒體 | |
JP6665446B2 (ja) | 情報処理装置、プログラム及び音声合成方法 | |
JP2006195385A (ja) | 音楽再生装置および音楽再生プログラム | |
JP5151245B2 (ja) | データ再生装置、データ再生方法およびプログラム | |
JP4458096B2 (ja) | データ再生装置、データ再生方法およびプログラム | |
JP6501344B2 (ja) | 聴取者評価を考慮したカラオケ採点システム | |
JP4380694B2 (ja) | コンテンツ再生装置 | |
JP4595948B2 (ja) | データ再生装置、データ再生方法およびプログラム | |
JP5012263B2 (ja) | 演奏クロック生成装置、データ再生装置、演奏クロック生成方法、データ再生方法およびプログラム | |
JP2015161710A (ja) | カラオケ装置、及びカラオケ用プログラム | |
JP2008244888A (ja) | 通信装置、通信方法およびプログラム | |
JP5092589B2 (ja) | 演奏クロック生成装置、データ再生装置、演奏クロック生成方法、データ再生方法およびプログラム | |
JP4595947B2 (ja) | データ再生装置、データ再生方法およびプログラム | |
JP2006251697A (ja) | カラオケ装置 | |
JP4506750B2 (ja) | コンテンツ再生装置 | |
JP2008244890A (ja) | 通信装置、通信方法およびプログラム | |
JP4968109B2 (ja) | オーディオデータ変換再生システム、オーディオデータ変換装置、オーディオデータ再生装置 | |
JP4470947B2 (ja) | データ再生装置、データ再生方法およびプログラム | |
JP4967747B2 (ja) | 通信装置、通信方法およびプログラム | |
JP5708730B2 (ja) | 楽音演奏装置及び楽音演奏処理プログラム | |
JP2008197272A (ja) | データ再生装置、データ再生方法およびプログラム | |
JP4048249B2 (ja) | カラオケ装置 | |
JP6657866B2 (ja) | 音響効果付与装置及び音響効果付与プログラム | |
JP2008233557A (ja) | 電子楽器及びプログラム | |
JP2005107332A (ja) | カラオケ装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101116 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110426 |