JP2006251271A

JP2006251271A - カラオケシステム

Info

Publication number: JP2006251271A
Application number: JP2005066596A
Authority: JP
Inventors: Makoto Masuda; 誠増田; Kazuhiro Ishikawa; 和弘石川; Seiji Inoue; 清司井上
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2005-03-10
Filing date: 2005-03-10
Publication date: 2006-09-21

Abstract

【課題】少なくとも、歌い手の表情を反映させた画像および音声を楽しむことができるカラオケシステムを提供。
【解決手段】ネットカラオケシステム10は、中継サーバ14の情報管理部106で複数の端末装置から歌う要求を受信し歌う順番を設定しこの歌う順番により歌い手側に指定された端末装置から第１歌唱情報22を受信し、この端末装置からの情報に含まれる選曲した楽曲に対応したカラオケデータ130を歌い手の端末装置に配信し、聞き手側の端末装置に第２歌唱情報126および130を配信し、第１の端末装置にてカラオケおよび歌唱による音、ならびに画像から抽出された表情パラメータを中継サーバ14から聞き手側の端末装置に送り、背景付モデルの画像に表情パラメータを活かし連続的に生成し、カラオケ演奏と歌を音声とし出力する。
【選択図】図１

Description

本発明は、カラオケシステムに関するものである。とくに、本発明のカラオケシステムは、ネットワークを介して提供されるカラオケサービス等に関するものである。

現在、パーソナルコンピュータ上でネットカラオケをチャットにより行うサービスが韓国で普及している。ネットカラオケの一例には、非特許文献１がある。ネットカラオケは、ユーザが指定した自分向けのキャラクタを表示し、このキャラクタと音声として自分の歌声を送信する機能を有し、ネットワークを介してチャットに参加する相手に聞いてもらうようにサービスを提供している。

特許文献１のカラオケ装置は、予約者または演者を視覚的に表現して、演出効果を高めることを目的とし、基本的に、似顔絵作成手段である似顔絵入力装置、曲予約手段および似顔絵指定手段である曲予約入力装置、記憶手段である予約曲・似顔絵記憶メモリ、音声入力手段であるマイク、再生手段であるカラオケ再生装置、音響出力手段であるアンプ・スピーカ、ならびに表示装置を含み、制御装置にて装置全体を制御している。

特許文献２のカラオケ装置は、演奏データメモリ、MIDI（Musical Instrument Digital Interface）管理テーブル、MIDI制御器、クロック発生器、楽音合成装置、歌声合成装置、加算器、出力端子、音量情報抽出器およびキャラクタ生成装置を備えている。カラオケ装置は、独自に歌声情報や、字幕表示の歌詞情報などから、ガイドボーカルに合わせて発音動作等をするキャラクタを生成する。この生成により、ガイドボーカルの音韻とキャラクタの口の形状とを整合させることができ、これまでユーザが抱いてきた違和感をなくしたカラオケ装置が提供できる。

また、特許文献３のカラオケ装置は、従来のカラオケ装置をディジタル化し、カラオケ映像内の人物の顔を歌い手の顔に変更して放映する機能を有している。このカラオケ装置は、入力手段、選曲放映手段、映像表示手段、音声出力手段、映像保存手段、撮像手段、映像合成手段および記録手段を含む。

さらに、現在、カラオケは、ネットワークを介したチャットによりパーソナルコンピュータ（PC）上で行うサービス、すなわちネットカラオケが韓国で普及している。このカラオケは、チャットとして、自分向けのキャラクタを表示し、自分の歌をチャットへの参加者に聞いてもらうものである。
特開平７−104695号公報特開2001−42879号公報特開2001−42880号公報特開2003−281539号公報

ところで、特許文献１および２の技術は、表示するキャラクタや人物のアニメーション動作が事前に決まっていたり、または歌詞に合わせて動いたりするものであり、歌い手や聞き手がリアルタイムにアニメーション動作を指定できず、動作の自由度がない。また、ネットワーク経由で多くのユーザを対象とする場合において、キャラクタのライセンス管理が重要となるがその点については、何も触れられていない。

さらに、ネットカラオケサービスでは、ユーザのオリジナルキャラクタを見せるサービスはあるが、ここでPC上に表示される画像は静止画である。ネットカラオケは、場所や時間が限定されない点で優れているが、実際に一つの場所に集まって歌う場合に比べて歌い手の表情が一定であったり、聞き手の評価を受けたりすることもないので面白みに欠ける。

本発明はこのような従来技術の欠点を解消し、少なくとも、歌い手の表情を反映させた画像および音声を楽しむことができるカラオケシステムを提案することを目的とする。

本発明は上述の課題を解決するために、ネットワークに接続された複数の端末装置との間でカラオケにあわせた歌唱を提供するカラオケシステムにおいて、このシステムは、カラオケにおける音源および歌詞データをカラオケデータとして格納する記憶手段と、端末装置からの歌う要求を受け歌う順番を管理する情報管理手段と、歌う順番に応じて歌い手側に指定された第１の端末装置から歌唱にともなう第１歌唱情報を受信し、第１の端末装置からの情報に含まれる選曲した音源である楽曲に対応したカラオケデータを第１の端末装置に配信し、聞き手側の第２の端末装置に歌唱にともなう第２歌唱情報を配信する配信手段とを含む中継装置がネットワークに接続され、第１の端末装置は、表示における基本モデルに相当するモデルデータおよび背景データを格納するモデル記憶手段と、被写界を画像データとして取り込み、周囲の音を集音し集音した音をディジタル化する入力手段と、画像データに含まれる顔画像から表情をもたらす表情パラメータを抽出する抽出手段と、モデル記憶手段から選択されたモデルデータを表情パラメータに基づき背景付画像を生成する画像生成手段と、カラオケデータと背景付画像を表示しカラオケおよび歌唱を出力する第１出力手段と、モデル、背景および楽曲を選択する操作手段と、第１歌唱情報としてモデルデータ、背景データ、楽曲データ、音声データおよび表情パラメータを出力し、カラオケデータを受信する送受信手段とを含み、第２の端末装置は、中継装置からの歌唱にともなう情報を受信する受信手段と、第２歌唱情報のうち、モデルデータ、背景データ、および表情パラメータに基づいて画像を生成し生成した画像に選曲された歌詞データを合成する画像合成手段と、第２歌唱情報のうち、音声データから音を生成する音声生成手段と、画像合成手段からの画像および音声生成手段からの音を出力する第２出力手段とを含むことを特徴とする。

本発明のカラオケシステムは、情報管理手段で複数の端末装置から歌う要求を受信し歌う順番を設定しこの歌う順番により歌い手側に指定された第１の端末装置から第１歌唱情報を受信し、第１の端末装置からの情報に含まれる選曲した楽曲に対応したカラオケデータを第１の端末装置に配信し、第２の端末装置に第２歌唱情報を配信し、第１の端末装置にてカラオケおよび歌唱による音、ならびに画像から抽出された表情パラメータを中継装置から第２の端末装置に送り、第２の端末装置にてあらかじめ送られた背景付モデルの画像を用い表情パラメータを活かして連続的に生成し、カラオケ演奏および歌唱を音声として出力することにより歌い手の要求に合ったモデルに表情を反映させた画像および音声を楽しむことができる。

次に添付図面を参照して本発明によるカラオケシステムの一実施例を詳細に説明する。

本実施例は、本発明のカラオケシステムをネットカラオケシステム10に適用した場合である。本発明と直接関係のない部分について図示および説明を省略する。以下の説明で、信号はその現れる接続線の参照番号で指示する。

ネットカラオケシステム10は、図２に示すように、送信側の端末装置12、中継サーバ14および受信側の端末装置16を含む。ネットカラオケシステム10において、送信側の端末装置12は、たとえば通信回線18を介してIP（Internet Protocol）ネットワーク20に接続する。中継サーバ14および受信側の端末装置16も通信回線22および24を介してIPネットワーク20に接続する。本実施例では、受信側の端末装置は１台だけIPネットワーク20に接続させた構成を示したが、複数台接続させてもよいことは言うまでもない。ネットカラオケシステム10は、端末装置12および16との通信において中継サーバ14を介して相互にデータを送受信する点に特徴がある。データには、音声データ、画像データおよび表情パラメータだけでなく、ユーザ情報、評価データおよびカメラワークデータも含まれる。

次に端末装置12について開示する。端末装置12は、図３に示すように、映音入力部26、表情特徴抽出部28、送信部30、画像生成部32、操作部34、ユーザ情報提供部36、ストレージ38および44、楽曲生成部40、映音出力部42、ならびに受信部46を含む。映音入力部26は、入力信号を電気信号に変換する機能を有する。この機能を説明すると、映音入力部26は、図４に示すように、音声入力部48および画像入力部50を含む。音声入力部48は、マイクロフォンにて集音した歌声や楽曲の音声信号52を音声データ54に変換し音声データ54を出力する。画像入力部50は、被写界の像56を図示しない光学系にて集光し結像させた光学像を撮像部にて１枚の画像を表す画像信号にしこの画像信号をディジタル化することで画像データ58に変換し出力する。撮像部は、CCD（Charge Coupled Device）等を用いるとよい。図３に戻って、映音入力部26は、音声データ54を送信部30に送り、画像データ58を表情特徴抽出部28に送る。

表情特徴抽出部28は、画像データ58に含まれる顔の各部位である目、鼻、口、眉などの輪郭を特徴点として抽出し、この特徴点を座標データとして検出し、表情パラメータ60を作成する機能を有する。表情特徴抽出部28は、作成した表情パラメータ60を送信部30および画像生成部32に出力する。表情パラメータ60とは、後述するモデルデータの各筋肉をどのように動かすかを指定するデータである。たとえば、発話時の口の動きは上唇の輪郭８点の３次元上での移動量を用いて表す。

操作部34は、選択機能および指示機能を有する。具体例として図５に操作部34を示す。本実施例において、操作部34は、モデル/背景選択部62、参加入力部64、カメラワーク入力部66および曲目選択部68を含む。モデル/背景選択部62は、利用するキャラクタモデルやこのキャラクタモデルの背景を選択した結果を示す選択データ70を出力する。モデル/背景選択部62は、現在所有するモデルデータや背景を選択し配布する機能も有する。

また、モデル/背景選択部62は、図示していないが、本実施例ではあらかじめストレージ44に保存された表情パラメータに対し表情を指定する動作識別子（ID: IDentification）を設定しこの動作IDで動作を指定し、指定された動作IDに対応する表情パラメータを出力させるようにしてもよい。ストレージ44には、表情パラメータと動作IDとが対応付けて保存されている。ここでの表情パラメータとは、たとえばユーザや業者、すなわちベンダが作り込んだ表情パラメータや組み合わせた表情パラメータである。

参加入力部64は、チャットによるネットカラオケへの参加/歌唱希望を表明する参加データ72を出力する。カメラワーク入力部66は、キャラクタモデルを基に生成される画像に対するカメラワークの指示データ74を出力する。曲目選択部68は、所望の曲目の選択データ76を出力する。図３に戻って、操作部34は、選択データ70、参加データ72、指示データ74および選択データ76を送信部30に供給する。操作部34が出力するデータの内、選択データ70および76は、ストレージ38および44のそれぞれにも供給する。

送信部30は、情報の送信機能を有する。本実施例の送信部30は、音声データ54、表情パラメータ60、選択データ70、参加データ72、指示データ74、選択データ76およびユーザ情報84をパケット化し、送信する。また、歌唱する段階では、音声データ54および表情パラメータ60がカラオケデータとして中継サーバ14に送出される。

なお、選択データ70を送信しない場合、ストレージ44から実際に表示させるモデルデータおよび背景データ78を送信部30にも供給するようにしてもよい。

画像生成部32は、映音出力部42に出力する画像を生成する機能を有する。画像正生成部32における画像生成とは、表情パラメータ60をストレージ44からの出力データ78に反映させた画像を生成しこの生成された画像と、ストレージ38からの歌詞データ80とを重複させることである。画像生成部32は、重複により生成された合成画像データ82を映音出力部42に出力する。

ここで、出力データ78は、所望のキャラクタモデルのモデルデータおよび背景データを含むデータである。さらに、モデルデータとは、３次元コンピュータグラフィックス（CG）のワイヤフレームモデル等に筋肉のモデルを３次元的に配置したモデルを表す。モデルにおいて、たとえば、喜び、怒り、悲しみなどの表情および発話時の口の動きは、人間の顔に付いた筋肉の動きに基づいて変化する。すなわち、ワイヤフレーム上に筋肉のモデルを３次元的に配置し、各筋肉を収縮させることにより、ワイヤフレーム自体が変形される。また、モデルデータは、人物や猫などのような２次元画像を基にしてもよい。

また、画像生成部32は、選択に応じてストレージ44から読み出したモデルデータ/背景データ76aを送信部30に出力してもよい。

ユーザ情報提供部36は、端末装置12のライセンス情報やバージョン情報をユーザ情報として、図示しない制御部からの要求に応じて出力する機能を有する。ユーザ情報とは、たとえばネットカラオケサービスの会員番号や端末装置のMAC（Media Access Control）アドレス等がある。ユーザ情報提供部36は、ユーザ情報84を送信部30に出力する。

ストレージ38は、歌の楽曲データと歌詞データとを対応付けてあらかじめ保存し選択データ76または受信部46からの選択データ86に応じて読み出す機能を有する。ストレージ38は、選択データ76および86のいずれかの指示に応じて楽曲データ88を楽曲生成部40に出力し、この指示に応じて歌詞データ80を画像生成部32に出力する。

楽曲生成部40は、選択された歌の楽曲データ88を基に対応する音源を動作させ演奏信号90を生成する機能を有する。

映音出力部42は、ユーザのカラオケ利用における演奏・確認用の画像・状況を表示する機能を有する。映音出力部42は、図６に示すように、音声出力部92、画像表示部94および参加状況表示部96を含む。具体的に、音声出力部92はD/A変換器およびスピーカ、画像表示部94および参加状況表示部96はモニタを用いる。映音出力部42の音声出力部92、画像表示部94および参加状況表示部96には、演奏信号90、合成画像データ82および参加状況データ98が、それぞれ供給される。

ストレージ44は、モデルデータや背景画像データをあらかじめ保存し選択データ70に応じて読み出す機能を有する。ストレージ44は、ストレージ44は、指示に応じてモデルデータや背景画像データ78を画像生成部32に出力する。

受信部46は、情報の受信機能と、情報またはパケットを分解する機能とを有する。本実施例で受信部46は、中継サーバ14から参加状況データ98を受信し、映音出力部42に出力する。また、受信部46は、図示していないが、中継サーバ14からの評価値やカメラワーク設定情報も受信する。パケット分解により得られた評価値は、映音出力部46に供給される。また、同様に得られたカメラワーク設定情報は、カメラや照明機器に供給されたように、図示しないが画像生成部32に送って生成する画像を調整する。

次に中継サーバ14について開示する。中継サーバ14は、図１に示すように、受信部100、送信データ生成部102、送信部104、情報管理部106および記憶部108を含む。受信部100は、チャットに参加する各端末装置12および16からの情報を受信する。受信部100は、受信したデータ110を情報管理部106に出力する。中継サーバ14を最も簡単に構築する場合、受信したデータ110は、破線110Aに示すように送信データ102に供給される。

情報管理部106は、受信したデータ110に含まれる情報毎に管理し管理された情報を出力する機能を有する。本実施例において、情報管理部106は、ユーザ情報生成部112、配布モデル生成部114、参加管理部116、楽曲/歌詞管理部118、評価集計部120およびカメラワーク設定部122を含む。

ユーザ情報生成部112は、受信したデータ110からユーザ情報を取得する機能を有し、取得したユーザ情報124を記憶部108に出力する。

配布モデル生成部114は、受信したデータ110からモデルデータおよび背景データを示す選択データ70を取得する機能と、取得した選択データ70に対応するモデルデータおよび背景データを記憶部108から読み出す機能と、読み出した情報にユーザ情報をライセンス情報として付加させた配布データを生成する機能とを有する。配布モデル生成部114は、生成した配布データ126を送信部104に出力する。

参加管理部116は、受信したデータ110からこのチャットへの参加を示す参加状況データを取得する機能と、取得した参加状況データを記憶部108に出力する機能と、チャットへの参加者を読み出し管理する機能と、参加者の歌う順番を設定する機能とを有する。参加管理部116は、チャット参加者の状況をまとめた参加状況データ128を送信部104に出力しカラオケ使用する上で優先度の高い順に対応したユーザ情報を楽曲/歌詞管理部118に提供する。

楽曲/歌詞管理部118は、受信したデータ110からユーザが所望の楽曲および歌詞を示すデータを取得し参加管理部116から参加者の歌う順番に対応させる機能と、取得した所望の楽曲および歌詞に対応したデータを記憶部108から読み出し管理する機能とを有する。楽曲/歌詞管理部118は、歌う順番と演奏状況に応じて楽曲および歌詞に対応したデータ130を送信部30に出力する。

評価集計部120は、受信したデータ110から歌い手の歌に対する評価値を取得し評価値を集計し管理する機能を有する。評価集計部120は、あらかじめ設定した集計ルールに応じて送信データ生成部102に参加者個々の評価値を出力したり、集計結果の平均値や積算値をデータ132として出力したりする。

カメラワーク設定部122は、受信したデータ110からカメラワークの設定データを取得しチャット参加者の中で最も要求度の設定データ134を送信データ生成部102に出力する。

記憶部108は、ストレージ136、138、140および142を含む。ストレージ136はユーザ情報124を格納する情報格納部である。ストレージ138はモデルデータおよび背景データを格納する情報格納部である。ストレージ140は参加状況を格納する参加状況格納部である。最後に、ストレージ142は楽曲と歌詞を格納する楽曲/歌詞格納部である。

ストレージ136は、ユーザ情報124をたとえば管理表のようにしてユーザ情報生成部112から取得し格納する。また、ストレージ136に格納されたユーザ情報は、配布モデル生成部114や参加管理部116からのアクセスに応じてユーザ情報144としてアクセス元に読み出される。ストレージ138に格納されたモデルデータや背景データ146は、配布モデル生成部114から供給される選択データ70に応じて読み出される。

ストレージ140に格納された参加状況データ148は、このチャットへの参加表明に応じて参加日時および選曲した情報の受信時刻を含む。とくに、選曲した情報の受信時刻は、歌う順番の設定に用いられる。本実施例において、このカラオケの順番は、たとえば要求の早い順に設定される。また、参加状況データ148は、チャットへの参加および実際に使用したカラオケ料金等の各個人に対する課金請求する上での重要な情報としてストレージ140に格納される。ストレージ142に格納された楽曲/歌詞データ150は、楽曲/歌詞管理部118からの読出しアクセスに応じて読み出される。

送信データ生成部102は、評価結果を示すデータ132を表情パラメータやモデル/背景データに反映させ、カメラワークの設定データ134を基にカメラワークを反映させる機能を有する。送信データ生成部102が受信部100と送信部104との間に配設された場合、送信データ生成部102は聞き手側端末装置16に送信する情報を生成する。ここでの送信する情報は、歌い手側から供給される音声データと表情パラメータである。送信データ生成部102は、生成したデータ152を送信部104に出力する。

送信部104は、情報管理部106および送信データ生成部102からの各データ126, 128, 130および152を受けて、中継サーバ14の出力として出力する。

次に端末装置16について開示する。端末装置16は、図７に示すように、受信部154、音声生成部156、画像生成部158、映音出力部160、ストレージ162、操作部164、ユーザ情報提供部166および送信部168を含む。

受信部154は、受信部46および100と同じデータ受信機能を有する。受信部154は、図７の受信したデータ170を音声生成部156および画像生成部158に出力する。音声生成部156は、受信したデータ170の内、音声データを取り出す機能を有する。音声生成部156は、取り出した音声データ172を映音出力部160に出力する。

画像生成部158は、受信したデータ170の内、表情パラメータおよび選択データを取り出す機能と、ストレージ162から選択データに対応するモデルデータおよび背景データ174を読み出す機能と、表情パラメータを反映させた画像の生成機能とを有する。とくに、画像の生成機能とは、読み出したモデルデータおよび背景データの内、モデルデータにより３次元または２次元の画像における顔の部位を表情パラメータが示す位置に変化させることにより画像に撮影対象の表情を反映させる画像生成である。また、画像生成部158は、生成した画像と背景を合成するだけでなく、中継サーバ14から供給される情報も合成し表示する。この情報には、チャット参加状況、楽曲に対応する歌詞、楽曲の演奏に応じて歌詞の進行および評価値等が含まれている。画像生成部158は、これら合成した画像データ176を映音出力部160に出力する。

映音出力部160は、図示しないが、図６に示した音声出力部92、画像表示部94および参加状況表示部96に対応する機能を有する。これにより、チャットに参加する聞き手はスピーカからカラオケに合わせた歌い手の歌を聞くことができる。また、画像表示には表情を持ったキャラクタ画像、背景、歌詞および評価値が表示される。

ストレージ162は、モデルデータや背景データが格納されているモデル/背景格納部である。

操作部164は、選択機能および指示機能を有する。具体例として図８に操作部164を示す。本実施例において、操作部164は、参加入力部178、評価入力部180およびカメラワーク入力部182を含む。参加入力部178は、チャットの参加だけでなく、カラオケの選曲の機能も有しデータ184aとして出力する。評価入力部180は、評価データ184bを出力する。カメラワーク入力部182は、カメラワークの設定データ184cを出力する。図７に戻って、また、操作部164は、カメラワーク入力部182から端末装置16だけの独自の設定機能を有してもよい。この設定を発揮すると、操作部164は破線で示す設定データ184dを画像生成部158に出力する。操作部164は、データ184として送信部168に出力する。

ユーザ情報提供部166は、端末装置16におけるユーザ情報186を送信部168に出力する。ユーザ情報提供部166は、参加入力部178の操作に連動して出力する。

送信部168は、中継サーバ14にデータ184および186を送出する。

また、歌い手側端末から入力画像を中継サーバへ送信し、中継サーバで歌い手の表情抽出を行い、アニメーションを作成し、歌い手側端末および聞き手側端末に配信してもよい。

さらに、歌い手側の端末装置12では、顔画像からモデル動作データを作成した後に、自端末装置12で画像を作成し、作成した画像と音声データを聞き手側の端末装置16に配信するようにしてもよい。このように構成すると、ネットワークを介して画像と音声が配信されることから、モデル動作データから画像を動画として作成するツールは歌い手側端末装置12だけで済む。また、事前の聞き手側の端末装置16へのモデル配布も不要となる。これにより、サービスの普及の障壁を小さくすることが可能となる。

前述した端末装置12および16は、携帯電話やパーソナルコンピュータPDAでも構わない。

聞き手側の端末装置16における操作部164は、あらかじめ作り込んだ表情パラメータおよび組み合わせた表情パラメータに対し表情を指定する動作IDを設定しこの動作IDで動作を指定し、指定された動作IDに対応する表情パラメータを端末装置12に供給するようにしてもよい。これにより端末装置12は、中継サーバ14を介して端末装置16から任意のタイミングで自設定のモデルの画像に動作IDに対応した動作を反映させることができる。

次にネットカラオケシステム10の動作について図９を参照しながら説明する。端末装置12にてネットカラオケシステム10によるネットカラオケサービスへの参加を入力する。この入力に応じてユーザ情報として個人情報や端末情報を読み出す。このようにして得られた参加希望と個人情報を中継サーバ14に送信する（Registration 200）。また、他のシステム要素としての端末装置16にてネットカラオケシステム10によるネットカラオケサービスへの参加を入力する。この入力に応じてユーザ情報として個人情報や端末情報を読み出す。このようにして得られた参加希望と個人情報を中継サーバ14に送信する（Registration 202）。

中継サーバ14は、各端末装置から参加希望を受信する。中継サーバ14は、保存されているユーザ情報と受信したユーザ情報を照らし合わせ、送信者がサービス利用可能であるかを確認する。中継サーバ14では参加可能であると判断された場合、仮想的なカラオケボックスである各該当グループに参加者として追加し、参加状況を更新し、参加状況を格納するストレージ140に保存する。また、ネットワークの接続が切断された場合には、退席した扱いとし、ストレージ140の参加状況を更新する。

端末装置12のユーザはネットカラオケで歌いたい場合に、歌唱の希望および選曲のデータを入力する。端末装置12は、入力されたデータを中継サーバ14に送信する（Request 204）。また、端末装置16は、入力されたデータを中継サーバ14に送信する（Request 206）。

中継サーバ14は、たとえば最初、所定の時間にわたって複数の端末装置からの歌唱希望を受信する。中継サーバ14では受信した歌唱希望に対する歌う順番を決定し歌う順番に送信元の希望者を追加する。中継サーバ14は、各グループの歌う順番を更新してストレージ140に保存する。次に中継サーバ14では歌唱希望の歌に関する楽曲と歌詞をストレージ142から読み出す。

中継サーバ14は楽曲および歌詞、ならびに参加状況を送信する（Data 208）。歌う順番が最優先の端末装置に対して楽曲および歌詞も送信する。最優先以外の端末装置に対しては、参加状況だけが送信される（Data 210）。

端末装置12では、中継サーバ14から楽曲および歌詞データ、ならびに参加状況を受信する。端末装置12では、受信した楽曲および歌詞データをストレージ38に格納する。受信した参加状況は映音出力部42の画面に表示される。また、端末装置16は、中継サーバ14から参加状況を受信する。受信した参加状況は映音出力部160の画面に表示される。

これにより、歌い手の歌声の他に、個人向けモデルに歌い手の表情を反映させた画像をアニメーション表示するサービスの提供が可能となる。

次にモデルデータの配布を開示する。歌唱が指示された端末装置12は操作部34により保有するモデルデータや背景データの中から配布したいモデルや背景を選択する。選択した配布するモデルデータおよび背景データを中継サーバ14に送信する（Distribution 212）。中継サーバ14では端末装置12から送られたモデルや背景のデータを受信する。中継サーバ14ではユーザ情報を加味したライセンス情報として受信したモデルデータや背景データに付加する。次の歌唱予定のユーザ情報をキーとして付加されることにより、歌い手が特定の人物、すなわち登録されていなければ、そのモデルや背景を利用できないように制限することができる。中継サーバ14は、モデルデータや背景データを、端末装置16を含むネットカラオケ参加者全員に送信する（Distribution 214）。

端末装置16は、中継サーバ14から送信されるモデルおよび背景のデータを受信する。端末装置では受信したモデルデータおよび背景データをストレージ162に格納する。

このように動作させることにより、モデルデータは所定の人物、歌い手が所有するものを共有することができ、他の人物との利用は制限することも可能となる。

このように設定した後、選択したか確認する。歌唱予定の端末装置12において、選曲した楽曲をストレージ38から読み出し映音出力部42のスピーカを通じて出力する。ユーザはカラオケに合わせて歌唱を開始する。映音入力部26はマイクロフォンを通じて歌い手の歌声とスピーカ等から出力される楽曲を取得する。また、同時に映音出力部26のカメラを通じて歌い手の顔画像を取得する。表情特徴抽出部28では、顔画像から目や口や眉等の特徴点を抽出し、各顔部位の動きを表す表情パラメータを算出する。算出には、特許文献４に示す顔部品探索装置および顔部品探索方法がある。取得した歌声および楽曲が含まれた音声、ならびに算出された表情パラメータを中継サーバ14に送信する（Singing 216）。

端末装置12では、算出された表情パラメータを事前に選択したモデルデータへ反映させて画像を生成し、歌のタイミングに応じた歌詞データ80をこの画像に合成し映音出力部42に出力する。これにより、モニタにアニメーションが表示される。

中継サーバ14では、歌い手側の端末装置12から送信された情報を受信する。中継サーバにおいて、聞き手側の端末装置16を含むネットカラオケに参加中の端末装置すべてに送信する情報を生成する。ここでの送信する情報とは、歌詞データ、音声データおよび表情パラメータである。中継サーバ14は、聞き手側の端末装置が送信しても良い端末であるかライセンス情報を確認し送信する（Singing 218）。この確認はたとえばユーザ情報の管理表と照らし合わせるとよい。

聞き手側の端末装置16は中継サーバ14から送信された情報を受信する。端末装置16は、受信したデータから音声データを読み出す。また、受信したデータから表情パラメータを読み出し事前にストレージ162に設定したモデルデータを読み出す。画像生成部158ではモデルに表情パラメータを反映した画像と背景および歌詞データとを合成し生成する。映音出力部160には、生成した音声および画像をスピーカや画面に出力する。

聞き手側の端末装置16を用いて、聞き手のチャット参加者は歌い手の歌唱を評価する。この評価結果は評価値をスコアとして指定する。この際の評価対象は歌唱力だけに限らず、たとえば、モデルの動き等もある。端末装置16は、評価結果、評価データを中継サーバ14に送信する（Value 220）。

中継サーバ14は聞き手側の端末装置16からの評価データを受信する。中継サーバ14では聞き手全員の評価データを集計する。送信データ生成部102では、集計結果を歌い手側の端末装置12に送信する送信データを生成する。ここでの送信データとは、評価データを表情パラメータやモデル/背景データに反映させたデータである。たとえば、評価が低い場合には悲しい顔や背景を薄暗くしたり、評価が高い場合には顔をアップにしたりするデータを生成する。中継サーバ14は変更した表情パラメータやモデル/背景データを含む送信データ152を聞き手および歌い手とチャットに参加する端末装置すべてに送信する（Total_Value 222）。

各端末装置は中継サーバ14から表情パラメータやモデル/背景データを含む送信データ（Total_Value 222）を受信する。端末装置は受信したデータから表情パラメータを読出し、事前に設定したモデルデータにこの表情データを反映した画像を作成する。映音出力部160は生成した画像データを画面に表示する。このように事前に特別な動作として定型動作を作り込んでおく。各定型動作に動作ID（IDentification）を割り当てておき、歌の評価を各動作IDに割り当てておくことで、聞き手の評価がリアルタイムでアニメーションに反映されることとなる。

これにより、歌い手の表情だけでなく、聞き手の評価をリアルタイムでアニメーションやサービスに反映できる環境を提供することが可能となる。たとえば、評価が高かった場合には、次の１曲分を無料にするサービスや音楽業界のプロデューサに聞いてもらう権利を与えるなどのサービスを提供するようにしてもよい。

また、カメラワークが中継サーバ14を介して変更される場合がある。ここでは、歌い手が好みのカメラワークのパターンを設定し中継サーバが歌に合わせて自動的に変更する方法を説明する。歌い手側の端末装置12は操作部34によりカメラワークを指定する。端末装置12はカメラワークのパターンを示す指示データ74を中継サーバ14に送信する（Camerawork 224）。

中継サーバ14では、歌い手が設定したカメラワークのパターンに基づいて動作またはアニメーションの設定や照明およびカメラのパン/チルト/ズームの設定データをモデルの動作データや表情パラメータの一部として付加し送信用のデータを生成する。中継サーバ14は端末装置すべてに配信する（Motion 226）。

カメラワークのパターンとしては、たとえば、演歌風としてゆっくりしたカメラの動きで紙吹雪が舞うパターンやロック風としてカメラのどんどん切替わり派手な電飾がきらめくパターン等がある。

端末装置すべては中継サーバ14から送信データを受信する。端末装置それぞれでは受信したデータから表情パラメータを読み出し事前に設定したモデルデータにこの表情パラメータが反映された画像を作成する。端末装置は生成した画像データを画面に表示する。各端末装置は、それらの設定データが含まれたモデル動作データから画像を作成し、歌番組のような演出効果の表現が可能となる。この方法により、歌い手および聞き手が共通のカメラワークの画像を表示することになる。

これにより、個性を盛込んだモデルが仮想的な歌番組に出演しているようなサービスの提供が可能となる。

歌い手端末装置12は歌い手が利用するモデルを事前に保存しデータから選択したか確認する。選択した場合、選択したモデルのIDを中継サーバ14に送信する（Alteration 228）。端末装置12でも選択したモデルを表示用モデルとして指定する。

中継サーバ14は歌い手側の端末装置12から送信されたモデルのIDを受信する。聞き手側の端末装置に送信する情報を生成する。ここでは、モデルのIDを送信すべき情報とする。中継サーバ14は、聞き手側端末が送信しても良い端末であるか否かを確認し送信する。送信可能であるかの確認はたとえば、ユーザ情報の管理表と照らし合わせるとよい。中継サーバ14は、送信許可された端末装置にモデルのIDを送信する（Alteration 228）。

聞き手端末装置16では中継サーバ14から送信された情報、すなわちモデルのIDを受信する。端末装置16はモデルのIDを読み出しこのIDを聞き手側端末装置上での表示用モデルとして指定する。ただし、聞き手側端末装置は歌い手が指定したモデルとは異なるモデルを指定することも可能である。モデルを容易に変更することができる。

さらに、聞き手が独自のカメラワークを設定するようにしてもよい。この場合、端末装置16に対して自分の好みのカメラワークを指定する。指定したカメラワークを、中継サーバ14から受信した表情パラメータに反映し、事前に設定したモデルデータに表情パラメータを反映した画像を作成する。このようにして生成した画像データを画面に表示する。この方法により各聞き手がそれぞれ独自のカメラワークの画像を表示することになる。

本発明に係るカラオケシステムを適用した中継サーバにおける実施例の概略的な構成を示すブロック図である。本発明に係るカラオケシステムを適用したネットカラオケシステムにおける構成を示すブロック図である。本発明に係るカラオケシステムを適用した歌い手側の端末装置における実施例の概略的な構成を示すブロック図である。図３の歌い手側の端末装置における映音入力部の構成を示すブロック図である。図３の歌い手側の端末装置における操作部の構成を示すブロック図である。図３の歌い手側の端末装置における映音出力部の構成を示すブロック図である。本発明に係るカラオケシステムを適用した聞き手側の端末装置における実施例の概略的な構成を示すブロック図である。図７の聞き手側の端末装置における操作部の構成を示すブロック図である。本発明に係るカラオケシステムを適用したネットカラオケシステムにおける動作の一例を示すシーケンシャルチャートである。

符号の説明

10 ネットカラオケシステム
12、16 端末装置
14 中継サーバ
28 表情特徴抽出部
32、158 画像生成部
36、166 ユーザ情報提供部
40 楽曲生成部
102 送信データ生成部
106 情報管理部
108 記憶部
156 音声生成部

Claims

ネットワークに接続された複数の端末装置との間でカラオケにあわせた歌唱を提供するカラオケシステムにおいて、該システムは、
前記カラオケにおける音源および歌詞データをカラオケデータとして格納する記憶手段と、
前記端末装置からの歌う要求を受け歌う順番を管理する情報管理手段と、
前記歌う順番に応じて歌い手側に指定された第１の端末装置から歌唱にともなう第１歌唱情報を受信し、第１の端末装置からの情報に含まれる選曲した音源である楽曲に対応した前記カラオケデータを第１の端末装置に配信し、聞き手側の第２の端末装置に前記歌唱にともなう第２歌唱情報を配信する配信手段とを含む中継装置が前記ネットワークに接続され、
第１の端末装置は、表示における基本モデルに相当するモデルデータおよび背景データを格納するモデル記憶手段と、
被写界を画像データとして取り込み、周囲の音を集音し集音した音をディジタル化する入力手段と、
前記画像データに含まれる顔画像から表情をもたらす表情パラメータを抽出する抽出手段と、
前記モデル記憶手段から選択されたモデルデータを前記表情パラメータに基づき背景付画像を生成する画像生成手段と、
前記カラオケデータと背景付画像を表示し前記カラオケおよび歌唱を出力する第１出力手段と、
前記モデル、背景および楽曲を選択する操作手段と、
第１歌唱情報として前記モデルデータ、背景データ、楽曲データ、音声データおよび表情パラメータを出力し、前記カラオケデータを受信する送受信手段とを含み、
第２の端末装置は、前記中継装置からの前記歌唱にともなう情報を受信する受信手段と、
第２歌唱情報のうち、前記モデルデータ、背景データ、および表情パラメータに基づいて画像を生成し生成した画像に選曲された歌詞データを合成する画像合成手段と、
第２歌唱情報のうち、音声データから音を生成する音声生成手段と、
前記画像合成手段からの画像および前記音声生成手段からの音を出力する第２出力手段とを含むことを特徴とするカラオケシステム。
請求項１に記載のシステムにおいて、第１の端末装置の前記操作手段は、あらかじめ記憶手段に保存された表情パラメータに対し表情を指定する動作識別子を設定し該動作識別子で動作を指定し、指定された動作識別子に対応する表情パラメータを出力させ、
第２の端末装置は、前記中継装置を介して第１の端末装置から任意のタイミングで前記モデルの画像に前記動作識別子に対応した動作をさせることを特徴とするカラオケシステム。
請求項１または２に記載のシステムにおいて、第２の端末装置の前記操作手段は、あらかじめ記憶手段に保存された表情パラメータに対し表情を指定する動作識別子を設定し該動作識別子で動作を指定し、指定された動作識別子に対応する表情パラメータを出力させ、
第１の端末装置は、前記中継装置を介して第２の端末装置から任意のタイミングで前記モデルの画像に前記動作識別子に対応した動作をさせることを特徴とするカラオケシステム。
請求項３に記載のシステムにおいて、第２の端末装置の操作手段は、歌い手の歌唱に対する評価値を入力し、
前記情報管理手段は、第２の端末装置から供給される評価値を受信し評価値を集計し、
前記中継装置は、集計した結果を聞き手の評価値として歌い手へのサービスに反映させる生成手段を含むことを特徴とするカラオケシステム。
請求項３または４に記載のシステムにおいて、第２の端末装置の操作手段は、モデルを表示する仮想空間上でのカメラワークのパン/チルト/ズーム、照明およびこれらの設定を入力し、
前記情報管理手段は、前記カメラワークの設定に対応したモデルの動作を集約し、
前記中継装置は、集計した結果を聞き手の前記カメラワークの設定として歌い手へのサービスに反映させる生成手段を含むことを特徴とするカラオケシステム。