図1は、本発明のカラオケ装置が好適に適用されるカラオケシステム10を説明する概略図である。この図1に示すように、上記カラオケシステム10では、カラオケボックス、スナック、旅館等の店舗12における複数の個室14a、14b、14c、・・・(以下、特に区別しない場合には単に個室14と称する)にそれぞれ1台乃至は複数台ずつ(図1では1台ずつ)本発明の一実施例であるカラオケ装置16a、16b、16c、・・・(以下、特に区別しない場合には単にカラオケ装置16と称する)が設置されている。これら複数のカラオケ装置16は、ルータ28を介して公衆電話回線等による通信回線18に接続されており、同じくその通信回線18に接続されたカラオケサービス提供会社のサーバ装置(センタ装置)20との相互間でその通信回線18を介して情報の通信が可能とされている。このサーバ装置20は、カラオケ情報(楽曲データ)、背景映像情報、曲間情報等のデジタルコンテンツ(Digital Contents)の保管や入出力管理の基本的な制御を行うサーバであり、上記通信回線18を介して上記カラオケ装置16に定期的にコンテンツの配信を行うと共に、そのカラオケ装置16からの要求に応じて所定の機能制御プログラムを送信するものである。また、上記カラオケシステム10は、複数の電子早見本装置22a、22b、22c、・・・(以下、特に区別しない場合には単に電子早見本装置22と称する)を備えており、上記カラオケ装置16の利用に際して、各利用者(グループ)毎に1台乃至数台ずつの電子早見本装置22が貸与され、各個室14において後述するように上記カラオケ装置16の遠隔操作装置として用いられるようになっている。上記店舗12内には上記複数のカラオケ装置16を相互に接続するLAN24が敷設されており、上記電子早見本装置22からのカラオケ装置16への入力は、所定のアクセスポイント26及びLAN24を介したLAN通信等により行われる。
図2は、上記カラオケ装置16の構成を例示するブロック線図である。この図2に示すように、上記カラオケ装置16は、CRT(Cathode-ray Tube)やTFT(Thin Film Transistor Liquid Crystal)等の映像表示装置30と、ビデオボード(グラフィックスボード)等の映像出力制御部32と、映像情報デコーダ34と、ビデオミキサ36と、音源であるシンセサイザ38と、音声入力装置であるマイクロフォン40と、アンプミキサ42と、スピーカ44と、操作パネル46と、その操作パネル46等からの入力信号を処理する入出力インターフェイス48と、中央演算処理装置であるCPU50と、読出専用メモリであるROM52と、随時書込読出メモリであるRAM54と、記憶装置であるハードディスク56と、モデム58と、LANポート60と、上記電子早見本装置22やリモコン装置64等の入力装置からのリモコン信号を受信するためのリモコン受信部62と、撮像装置であるデジタルカメラ66と、赤外線光源位置検出装置68とを、備えて構成されている。
前記映像出力制御部32は、前記CPU50において生成された歌詞文字映像等の文字映像(テロップ)を出力する文字映像出力装置として機能する他、前記映像表示装置30による種々の映像表示を制御する表示制御装置である。また、前記映像情報デコーダ34は、利用者が歌詞を参照しながら歌唱する際に前記ハードディスク56の背景データベース88(図5を参照)等に記憶された背景映像情報に基づいて所定の背景映像を再生(デコード)する背景映像再生装置である。この背景映像情報は、例えば、MPEG(Moving Picture Experts Group)形式のデータであり、そのMPEGデータに基づいて前記映像情報デコーダ34により再生された背景映像は、前記ビデオミキサ36へ送られる。また、そのビデオミキサ36は、前記CPU50において生成され且つ前記映像出力制御部32から出力される文字映像と、前記映像情報デコーダ34により再生される背景映像とを合成して前記映像表示装置30に表示させる映像合成装置である。
前記シンセサイザ38は、前記ハードディスク56から読み出されて送られて来るカラオケ演奏曲の演奏情報に基づいて楽器の演奏信号等の音楽信号を生成する音源である。この演奏情報は、例えば、MIDI(Musical Instrument Digital Interface)形式のデータであり、そのMIDIデータに基づいて前記シンセサイザ38により生成された音楽信号は、アナログ信号に変換されて前記アンプミキサ42へ送られる。前記マイクロフォン40は、音波によって生じる機械的な振動を電気信号としての音声情報に変換する電気音響変換器乃至音声入力装置であり、入力された音声情報を例えば赤外線信号等の無線信号を介して前記カラオケ装置16へ送信する。前記アンプミキサ42では、前記シンセサイザ38から送られてきた音楽信号と、前記マイクロフォン40からリモコン受信部62を介して入力される利用者(演奏者)の歌声とがミキシングされ、それらの信号が電気的に増幅されて前記スピーカ44から出力される。
前記操作パネル46は、前記カラオケ装置16の利用者が歌いたいカラオケ演奏曲を選択したり、演奏曲の音程を調整したり、演奏と歌との音量バランスを調整したり、その他、エコー、音量、トーン等の各種調整を行うための操作ボタン(スイッチ)或いはつまみを備えた入力装置である。また、前記カラオケ装置16には、前記操作パネル46の一部機能を遠隔で実行するための入力装置として機能するリモコン装置64が備えられており、前記リモコン受信部62は、そのリモコン装置64から送信されるリモコン信号(赤外線信号)を受信して前記CPU50へ供給する。また、前記カラオケ装置16と電子早見本装置22との対応付け(くくりつけ)処理も前記リモコン受信部62を介して行われ、そのようにして前記カラオケ装置16に対応付けられた電子早見本装置22も同様に入力装置として機能する。なお、本実施例においては、前記カラオケ装置16に備えられたリモコン装置64や対応付け処理の行われた電子早見本装置22等の入力装置もそのカラオケ装置16の一部を構成するものであるとして以下の説明を行う。
前記CPU50は、前記RAM54の一時記憶機能を利用しつつ前記ROM52に予め記憶された所定のプログラムに基づいて電子情報を処理・制御する所謂マイクロコンピュータであり、前記電子早見本装置22やリモコン装置64等により所定のカラオケ演奏曲が選曲された場合、その選曲されたカラオケ演奏曲を前記RAM54に設けられた予約曲テーブルに登録したり、その予約曲テーブルの演奏順に従って前記ハードディスク56から前記RAM54に選曲されたカラオケ演奏曲の演奏情報及び歌詞情報等を読み出したり、カラオケ演奏曲の演奏が進行するのに応じてそのRAM54から前記シンセサイザ38へ演奏情報を送信したり、歌詞情報に基づいて歌詞文字映像を生成して前記映像出力制御部32へ送ったり、選曲時には曲名文字映像を生成して前記映像出力制御部32へ送ったり、前記映像情報デコーダ34を制御して所定の背景映像を再生させたり、カラオケ演奏が行われていない間すなわち曲間において、新譜情報、選曲ランキング、店舗広告等の曲間情報を出力させたり、前記通信回線18を介した前記サーバ装置20との間の情報通信制御等の基本的な制御に加えて、後述する本実施例の歌唱者映像切抜/合成制御等の各種制御を実行する。
前記モデム58は、前記カラオケ装置16を公衆電話回線等による通信回線18に接続するための装置であり、前記CPU50から出力されるディジタル信号をアナログ信号に変換して前記通信回線18に送り出すと共に、その通信回線18を介して伝送されるアナログ信号をディジタル信号に変換して前記CPU50に供給する処理を行う。なお、前記店舗12に備えられた複数のカラオケ装置16のうち何れかのカラオケ装置16が前記ルータ28の機能を備えてマスターコマンダとして前記通信回線18に接続される態様も考えられ、その場合、前記モデム58はそのマスターコマンダとして機能するカラオケ装置16には必要とされるが、そのマスターコマンダを介して前記サーバ装置20との間で情報の通信を行う他のカラオケ装置16には必ずしも設けられなくともよい。
前記LANポート60は、前記カラオケ装置16をLAN24を介して他のカラオケ装置16や電子早見本装置22等の他の機器に接続するための接続器であり、前記カラオケ装置16は、そのようにLAN24を介して接続されることで、他のカラオケ装置16や電子早見本装置22等の他の機器との間で情報の送受信が可能とされる。例えば、前記アクセスポイント26を介して受信される前記電子早見本装置22からの選曲入力を受け付けて前記RAM54に設けられた予約曲テーブルに記憶したり、そのアクセスポイント26を介して前記カラオケ装置16から電子早見本装置22へ所定の情報を送信したりというように、電波を介して前記カラオケ装置16と電子早見本装置22との間における相互の情報のやりとりが実行される。
前記デジタルカメラ66は、例えばCCD(charge coupled device)等の撮像素子及びレンズを備え、そのレンズから入射される映像をCCDにより検知し、その映像を電子情報(映像データ)として取得する所謂デジタルビデオカメラであり、少なくとも動画(時間の経過に従い変化する動きのある映像)を撮影し得るものであるが、必要に応じて静止画(スチル写真)を撮影できるように構成されたものであってもよい。このデジタルカメラ66により撮影された映像情報は、図示しないビデオ端子等のインターフェイスを介して前記CPU50等へ供給され、例えばAVI(Audio-Video Interleaved)形式、MPEG(Moving Picture Experts Group)形式、FLV(Flash Video)形式等の映像ファイルとして前記RAM54等に記憶される。なお、このデジタルカメラ66は、必ずしも前記カラオケ装置16の一部として備えられたものでなくともよく、例えば前記個室14における所定位置に固設された別体のビデオカメラ乃至各利用者が所有する携帯電話機に備えられた撮像装置等により撮影された映像が所定のインターフェイスを介して前記カラオケ装置16に入力される態様も考えられる。
前記赤外線光源位置検出装置68は、赤外線信号を発する機器における赤外線光源の位置、すなわちその赤外線信号の出力部の位置を検出する。例えば、前記マイクロフォン40においては、図2等に示すように、棒状(長手状)の柄の一端部であって音声入力部(マイクロフォン本体)が設けられた側とは逆側の端部に赤外線光源40sが設けられており、前記マイクロフォン40により入力された音声はその赤外線光源40sから前記カラオケ装置16に対して赤外線信号として無線送信されるように構成されている。前記赤外線光源位置検出装置68は、例えば、前記カラオケ装置16の設置された各個室14に対応して予め定められた座標における上記赤外線光源40sの位置を検出し、それにより前記マイクロフォン40の前記個室14内における相対位置を検出する。すなわち、本実施例において、前記赤外線光源位置検出装置68は、前記マイクロフォン40からの無線信号に基づいてそのマイクロフォン40の存在する位置を検出する位置検出装置として機能する。
前記ハードディスク56には、カラオケ演奏曲を出力させるための多数の楽曲データ(カラオケデータ)を記憶する楽曲データベース及び後述する本実施例の映像合成制御に用いられる複数の背景データを記憶する背景データベース88(図5を参照)をはじめとする各種データベースが設けられている。カラオケボックス等の店舗12にそれぞれ備えられた複数のカラオケ装置16のうち所定のカラオケ装置16例えば前記カラオケ装置16aは、前記モデム58を介して前記通信回線18に接続されており、前記複数のカラオケ装置16によって常に新しい曲が演奏可能とされるように、或いは常に新しい背景データに基づいて後述する映像合成制御が行われるように、随時新たな楽曲データや背景データ等が前記サーバ装置20から前記通信回線18を介して配信され、前記ハードディスク56の背景データベース88等に記憶される。また、そのようにして前記サーバ装置20から情報を取得したカラオケ装置16aとその他のカラオケ装置16との間で前記LAN24を介した通信が行われることにより、各カラオケ装置16のハードディスク56に記憶される情報が共有され、上記背景データベース88等の内容が等価なものとされる。
上記楽曲データベースは、前記カラオケ装置16により出力可能な演奏曲にそれぞれ対応する多数(例えば、数万曲分)の楽曲データ(カラオケデータ)を記憶する。この楽曲データは、前記シンセサイザ38により所定の楽器の演奏音を生成するための演奏情報と、歌詞文字映像(歌詞テロップ)を生成するための歌詞情報と、その歌詞情報に基づいて生成された歌詞文字映像を演奏の進行に合わせて順次色替わりさせてゆくための歌詞色替情報とを、含むものであり、コンテンツIDである各演奏曲に固有の選曲番号により識別される。
また、前記楽曲データベースに記憶された楽曲データは、好適には、演奏情報としてのMIDIデータ等において複数の区分が予め定められたものである。この区分とは、例えば、前記MIDIデータのメタ情報に定められた演奏の区分であり、所定の演奏時間毎に、例えば、イントロ(Intro)、Aメロ(Amelo)、Bメロ(Bmelo)、Cメロ(Cmelo)、フィル(Fill)、サビ、間奏、及び変拍等の区分が定められている。ここで、サビとは、各楽曲データに対応する演奏曲のうち最も印象的で盛り上がるフレーズが配された部分に相当し、ブリッジ(bridge)等とも称される。
また、前記背景データベース88は、前記映像情報デコーダ34により所定の背景画像(静止画)乃至背景映像(動画)を再生するための複数の背景データを記憶する。この背景データは、例えばAVI(Audio-Video Interleaved)形式、MPEG(Moving Picture Experts Group)形式、FLV(Flash Video)形式等の映像ファイル(動画データ)、或いはJPEG(Joint Photographic Experts Group)形式、GIF(Graphics Interchange Format)形式、PNG(Portable Network Graphics)形式等の画像ファイル(静止画データ)であり、各データに固有の識別情報により識別される。
図3は、前記サーバ装置20の構成を説明するブロック線図である。この図3に示すように、前記サーバ装置20は、中央演算処理装置であるCPU70により随時書込読出メモリであるRAM74の一時記憶機能を利用しつつ読出専用メモリであるROM72に予め記憶されたプログラムに従って信号処理を行う所謂ノイマン型コンピュータであり、前記カラオケ装置16からの配信要求に応じた楽曲データ等のコンテンツ配信制御をはじめとする基本的な制御に加えて、前記カラオケシステム10の利用者を対象とするソーシャルネットワークサービス(Social Network Service)を管理運営する制御等、本実施例のカラオケシステム10に関する各種制御を実行する。このソーシャルネットワークサービスとは、例えば、予め会員登録された会員相互間に限定して情報の閲覧等のサービスを提供する会員制のコミュニティ型のウェブサイトをいう。なお、以下の説明において、ソーシャルネットワークサービスをSNSと略称する。
前記サーバ装置20は、ビデオボード78により制御されるCRTやTFT等の映像表示装置76と、インターフェイス82を介して接続されるキーボード等の入力装置80と、上記CPU70を前記通信回線18に接続するための装置であるモデム84とを、備えて構成されている。前記サーバ装置20は、このモデム84を介して前記通信回線18に接続されることにより、その通信回線18に接続された前記複数のカラオケ装置16との間で相互に情報の送受信が可能とされている。また、前記サーバ装置20には、前記カラオケ装置16に配信するための多数の前記カラオケデータを記憶する図示しない楽曲データベースの他、上記SNSに関する情報を記憶するSNSデータベース86等の各種データベースが設けられている。
上記SNSデータベース86は、前記カラオケシステム10を利用する各利用者毎の、前記カラオケ装置16を用いたカラオケ演奏に関する情報を、その利用者の識別情報(ユーザID)と関連付けて記憶する記憶装置である。このSNSデータベース86には、上記各利用者の前記カラオケ装置16を用いたカラオケ演奏に関する情報として、例えば、その利用者が過去に利用したカラオケ装置16に対応する店舗12(そのカラオケ装置16が設置された店舗12)に関する情報である来店履歴、その利用者が前記カラオケ装置16によるカラオケ演奏において十八番曲として登録した演奏曲(簡易な操作により選曲入力を行い得るように設定された演奏曲)に関する情報、その利用者が過去に前記カラオケ装置16によるカラオケ演奏において選曲した選曲履歴(カラオケ装置16において過去に選曲された演奏曲の履歴)としての演奏曲に関する情報、その利用者が前記カラオケ装置16によるカラオケ演奏において過去に行った演奏評価の評価結果に関する情報、その利用者が前記カラオケ装置16によるカラオケ演奏に際して前記デジタルカメラ66により撮影した映像データ等の情報、及びその利用者がフレンドとして登録した他の利用者に関する情報等が各利用者毎にその利用者のユーザIDと関連付けられて記憶される。
また、好適には、前記SNSデータベース86には、各利用者毎に、その利用者の名前(ニックネーム)、生年月日、年齢(実年齢)、性別、メールアドレス、地域、血液型、星座、パスワードを忘れたときのための質問及び解答、SNSへのログイン認証に用いられるパスワード、アバタ(ネット上において利用者を象徴する人型映像)に関する情報、及び利用者の歌年齢等の属性情報がその利用者のユーザIDと関連付けられて記憶されている。この歌年齢とは、利用者の演奏曲の好みの傾向がどの程度の年代(何歳)に相当するものかを示す仮想的な年齢情報であり、対象となる利用者が前記カラオケ装置16において過去に選曲(演奏)した演奏曲に基づいて判断される値であり、好適には、対象となる利用者が過去に選曲(演奏)した演奏曲を算出の基準として、その利用者のカラオケ演奏の傾向がどの程度の年齢に相当するかという観点から導出される値である。
また、好適には、前記カラオケ装置16において演奏可能な演奏曲に対応する楽曲データ(楽曲データベースに記憶されたデータ)には、属性情報として各演奏曲に対応する歌年齢(演奏曲の仮想的な歌年齢)が設定されており、前記利用者の歌年齢は、例えば、その利用者が前記カラオケ装置16(所定の店舗におけるカラオケ装置16に限られず、カラオケシステム10において利用可能とされた複数のカラオケ装置16の何れか)において過去に選曲した全ての演奏曲に対応付けられて記憶された歌年齢の平均値である。また、各楽曲データに対応付けられて記憶された歌年齢は、前記カラオケ装置16(所定の店舗におけるカラオケ装置16に限られず、カラオケシステム10において利用可能とされた複数のカラオケ装置16の何れか)において過去にその演奏曲を選曲した利用者の歌年齢又は実年齢に基づいて算出されるものであり、例えば、その演奏曲を前記カラオケ装置16において過去に選曲した全ての利用者に対応付けられて記憶された歌年齢又は実年齢の平均値である。斯かる利用者及び演奏曲の歌年齢は、前記サーバ装置20において統括的に管理され、前記カラオケ装置16においてカラオケ演奏が行われる毎に各利用者及び演奏曲の歌年齢が更新される。従って、若い世代によく歌われる演奏曲を選曲した場合、選曲主体である利用者の歌年齢は若くなる一方、年配の世代によく歌われる演奏曲を選曲した場合、選曲主体である利用者の歌年齢は高くなる。
前記サーバ装置20のCPU70は、前記カラオケシステム10におけるSNSに関する情報登録制御を行う。具体的には、前記カラオケ16の入力装置としての前記電子早見本装置22等による入力操作に応じて、前記SNSデータベース86に新規ユーザ(利用者)の登録を行ったり、そのSNSデータベース86に記憶された登録内容を変更(更新)したり、そのSNSデータベース86に記憶された複数の利用者をフレンドとして相互に関連付けて登録したり、前記カラオケ装置16による評価結果を各利用者毎に記憶したり、前記カラオケ装置16によるカラオケ演奏に際して前記デジタルカメラ66により撮影された映像データを各利用者毎に記憶したり、上述した利用者及び演奏曲に対応する歌年齢の更新を行ったりというように、前記カラオケシステム10におけるSNSの統括的な管理制御を行う。
また、前記サーバ装置20のCPU70は、前記カラオケ装置16、電子早見本装置22、或いは図示しない家庭用パーソナルコンピュータや携帯電話機等の通信端末装置から所定の映像データの配信要求があった場合には、その配信要求に応じて前記SNSデータベース86に記憶された配信要求に係る映像データを要求元である通信端末装置に前記通信回線18を介して配信する。斯かる処理により配信された映像データは、各通信端末装置に備えられたアプリケーションソフトによりその通信端末装置の表示部(カラオケ装置16の映像表示装置30等)に表示される。
図4は、前記カラオケ装置16によるカラオケ演奏に際して前記デジタルカメラ66によりそのカラオケ装置16を基準とする所定範囲の映像が撮影される様子を説明する図であり、前記カラオケ装置16が設置された個室14を破線で示している。この図4に示すように、前記デジタルカメラ66は、好適には、前記カラオケ装置16乃至そのカラオケ装置16が設置された前記個室14に対して位置固定に設けられており、その個室14内における前記カラオケ装置16を基準とする所定範囲の映像を撮影するように構成されている。すなわち、前記デジタルカメラ66のカメラアングルは固定されており、常に前記個室14内の同じ範囲の像が撮影されるようになっている。このカメラアングルは、好適には、前記カラオケ装置16の映像表示装置30の画面を見ながらカラオケ演奏を行う歌唱者90の像を撮像内に収めるように予め定められており、前記カラオケ装置16による演奏曲の出力に際して前記デジタルカメラ66による撮影が行われた場合、上記歌唱者90に対応する映像及びその歌唱者90が手にする(把持する)マイクロフォン40に対応する映像を含む映像(演奏映像)が撮影される。なお、上記カメラアングルは、例えば前記店舗12の店員等による所定の設定操作により変更し得るものであってもよい。
図5は、前記カラオケ装置16のCPU50に備えられた制御機能の要部を説明する機能ブロック線図である。なお、この図5に示す各制御手段の一部乃至全部が前記電子早見本装置22のCPU等に備えられたものであってもよい。この図5に示すマイクロフォン位置検出手段92は、撮像装置である前記デジタルカメラ66により撮影された映像に含まれる前記マイクロフォン40に対応する位置を検出する。すなわち、前記デジタルカメラ66により撮影された映像全体における前記マイクロフォン40に対応する映像(部分映像)の相対位置を検出する。
図6は、前記カラオケ装置16による演奏曲の出力に際して前記デジタルカメラ66により撮影される映像の一例である演奏映像100を示す図である。この図6に示すように、前記カラオケ装置16によるカラオケ演奏に際して撮影された演奏映像100に歌唱者に対応する映像102が含まれている場合、その歌唱者が手にする(把持する)前記マイクロフォン40に対応する映像104も同様にその演奏映像100に含まれていることが多いものと考えられる。上記マイクロフォン位置検出手段92は、このように前記デジタルカメラ66により撮影される演奏映像100内に含まれる部分映像としての前記マイクロフォン40に対応する映像104の位置を検出する。例えば、図6に示す演奏映像100全体におけるその映像104の相対的な位置を検出する。この検出の態様としては、長手状の前記マイクロフォン40全体の形状に対応する位置を検出するものであってもよいし、そのマイクロフォン40における赤外線光源40sや音声入力部(マイクロフォン本体)の位置すなわちマイクロフォン40の一部を検出するものであってもよい。更に、上記演奏映像100全体に対する前記映像104の重心の座標の位置を検出する等の制御を行うものであってもよい。なお、前記デジタルカメラ66により撮影される演奏映像100は、好適には経時的に変化する動画であるが、図6においては、便宜状、経時的に変化する演奏映像100の1コマ(所定タイミングの像)を例示している。また、上記演奏映像100が動画である場合、その演奏映像100の変化に伴い前記マイクロフォン40に対応する映像104の位置が移動することが考えられるため、例えば0.1秒毎といった短い所定時間毎に上記位置検出を行い、継続的に前記マイクロフォン40に対応する映像104の位置を検出することが好ましい。
前記マイクロフォン位置検出手段92は、好適には、前記デジタルカメラ66により撮影された映像において輝度に基づく画像解析を行うことにより前記マイクロフォン40に対応する位置を検出する。前記カラオケ装置16に備えられる前記マイクロフォン40は、一般に、黒色或いは銀色(金属色)等の単一色を基調とする色彩を有し、且つ一方に部分球状の音声入力部(マイクロフォン本体)を備えた長手状(柄状)の特徴的な形状を有するものであるため、よく知られた輝度に基づく画像解析により比較的容易に検出することができる。図6においては、前記マイクロフォン位置検出手段92により斯かる画像解析を行うことで検出された前記マイクロフォン40に対応する映像104の位置104aを破線で示している。
また、前記マイクロフォン位置検出手段92は、好適には、前記赤外線光源位置検出装置68の検出結果に基づいて、前記デジタルカメラ66により撮影された映像に含まれる前記マイクロフォン40に対応する位置を検出する。前述のように、前記デジタルカメラ66のカメラアングル(撮影される範囲)は固定であるため、前記個室14における前記マイクロフォン40(赤外線光源40s)の相対位置が検出されると、そのデジタルカメラ66により撮影された演奏映像100内における前記マイクロフォン40に対応する映像104の相対的な位置を特定することができる。なお、斯かる態様においては、前記デジタルカメラ66のカメラアングル(撮影範囲)と前記赤外線光源位置検出装置68の検出範囲との対応関係を予め実験的に調査して前記RAM54等に記憶しておくことが好ましい。
図5に示す歌唱者身長算出手段94は、歌唱者の性別に関する情報及び生年に関する情報から、その歌唱者の身長を算出する。例えば、前記RAM54に設けられた予約曲テーブルには、各予約曲の選曲番号に対応してその演奏曲を予約した利用者のユーザIDが記憶されるようになっており、上記歌唱者身長算出手段94は、各演奏曲の演奏に相前後して、前記SNSデータベース86に記憶された各利用者(歌唱者)の性別及び生年月日乃至年齢(実年齢)を前記通信回線18を介してダウンロードし、各性別毎に予め定められた生年毎の平均身長に基づいて対象となる歌唱者の身長を算出する。例えば、対象となる歌唱者の性別が「男」、生年月日が「2001年6月18日」であって、2001年生まれの男性の平均身長が「168cm」と定められている場合には、その歌唱者の身長は「168cm」と算出される。また、生年月日乃至年齢(実年齢)の代わりに、前記SNSデータベース86に記憶された各利用者の歌年齢に基づいてその歌唱者の身長を算出するものであってもよい。また、前記SNSデータベース86に登録されていないゲスト利用者に関しては、予め定められた「170cm」といったデフォルト値がその歌唱者の身長として算出される。
歌唱者領域判定手段96は、前記マイクロフォン位置検出手段92により検出される前記マイクロフォン40に対応する位置に基づいて、前記デジタルカメラ66により撮影された映像に含まれる歌唱者に対応する領域を判定する。図6を用いて前述したように、前記デジタルカメラ66により撮影された演奏映像100内における前記マイクロフォン40に対応する映像104の相対位置が検出された場合、そのマイクロフォン40を手にする歌唱者に対応する映像102がその付近乃至周囲に存在するものと考えられる。従って、上記歌唱者領域判定手段96は、好適には、前記マイクロフォン位置検出手段92により検出される前記マイクロフォン40に対応する位置を含む所定範囲を、前記演奏映像100において歌唱者が映っている領域として判定する。
図7は、図6に示す演奏映像100における前記マイクロフォン40に対応する位置に基づいて歌唱者に対応する領域を判定する制御の一例を説明する図である。この図7に示すように、上記歌唱者領域判定手段96は、好適には、前記デジタルカメラ66により撮影された演奏映像100において、前記マイクロフォン位置検出手段92により検出される前記マイクロフォン40に対応する位置を含む楕円形の領域を歌唱者に対応する領域106として判定する。例えば、長軸が画面(演奏映像100)に対して縦方向となる楕円を設定し、前記マイクロフォン位置検出手段92により検出される前記マイクロフォン40に対応する位置がその楕円における長軸上であり且つ中心よりも上側の所定位置となるように上記歌唱者に対応する領域106を判定する。ここで、図7に示すように、上記歌唱者領域判定手段96により判定される歌唱者に対応する領域106は、必ずしもその歌唱者に対応する映像102と一致するものではなく、その歌唱者に対応する映像102を部分的に含むものであればよい。また、その領域106内には、歌唱者に対応する映像102以外の映像も含まれ得るし、その歌唱者に対応する映像102以外の映像に対応する割合(面積)の方が大きい場合も考えられる。
上記歌唱者領域判定手段96は、好適には、前記マイクロフォン位置検出手段92により検出される前記マイクロフォン40に対応する位置及び歌唱者の身長に関する情報例えば前記歌唱者身長算出手段94により算出される歌唱者の身長に基づいて、前記デジタルカメラ66により撮影された映像に含まれる歌唱者に対応する領域を判定する。例えば、図7に示すように歌唱者に対応する楕円形の領域106を判定する態様においては、歌唱者の身長に基づいて斯かる楕円形の長軸寸法(縦方向寸法)を決定する。すなわち、対象となる歌唱者の身長が高いほどその歌唱者に対応する楕円形の長軸寸法を長く設定する。これにより、身長が比較的高い歌唱者に対応する領域は長軸寸法が比較的長く縦に長い領域となり、身長が比較的低い歌唱者に対応する領域は長軸寸法が比較的短く縦に短い領域となるため、各歌唱者の身長に合わせて好適な範囲がその歌唱者に対応する領域として判定される。
図5に示す映像合成制御手段98は、前記デジタルカメラ66により撮影された映像から、前記歌唱者領域判定手段96により判定された歌唱者に対応する領域の映像を切り抜いて他の映像に合成する。例えば、前記歌唱者領域判定手段96により判定された歌唱者に対応する領域106に対応する映像を前記演奏映像100から切り抜いて、前記背景データベース88に記憶された背景データ(動画又は静止画)の何れかに合成する。ここで、前記デジタルカメラ66により撮影される映像が動画である場合には、上記映像合成手段98により切り抜かれる歌唱者に対応する領域106に対応する映像も同様に動画となる。一方、前記背景データベース88に記憶された背景データは、動画又は静止画に対応するものであるため、動画としての背景データの前面側レイヤに上記歌唱者に対応する領域106に対応する動画を合成する態様や、静止画としての背景データの前面側レイヤに上記歌唱者に対応する領域106に対応する動画を合成する態様等が考えられる。
図8は、図6に示す演奏映像100において図7に示すように判定された歌唱者に対応する領域106の映像108を切り抜いて示す図である。また、図9は、図8に示す映像108が合成される背景の一例として、前記個室14内で共にカラオケ演奏を行っている利用者(同じカラオケ装置16においてSNSへのログインを行った利用者)のアバタ112a、112b、112c(以下、特に区別しない場合には単にアバタ112という)がバンド演奏をする背景映像110を示している。上記映像合成手段98は、前記デジタルカメラ66により撮影された映像から、図7に示すように前記歌唱者領域判定手段96により判定された歌唱者に対応する領域106の映像108を切り抜き(抽出し)、図9に示すような背景映像110の前面側レイヤに合成する(貼り込む)。図10は、図8に示す歌唱者に対応する領域の映像108が、図9に示す背景映像110の前面側レイヤに合成された合成映像114を例示する図である。この合成映像114は、好適には、前記映像出力制御部32及び映像情報デコーダ34等を介して前記映像表示装置30に表示されるものであるが、前記電子早見本装置22のタッチパネルディスプレイに表示されるものであってもよい。前述したように、前記演奏映像100が経時的に変化する動画である場合、前記歌唱者に対応する領域の映像108も同様に動画となるが、前記マイクロフォン位置検出手段92によりリアルタイムでマイクロフォン40の位置検出を行い、その検出結果に基づいて前記歌唱者に対応する領域106を判定することで、常に歌唱者の映像102が含まれる領域の映像108を切り抜いて合成することができ、あたかも上記背景画像110の中で歌唱者が歌っているような印象の合成映像114を合成することができる。
前記映像合成制御手段98は、好適には、他の映像である前記背景映像110に前記歌唱者に対応する領域の映像108を合成した合成映像114を、前記カラオケ装置16による演奏曲の出力に伴ってカラオケ背景映像として表示させる。すなわち、図11に示すように、図8に示すような歌唱者に対応する領域の映像108を切り抜き、図9に示すような背景映像110の前面側レイヤに合成すると共に、その歌唱者に対応する領域の映像108の更に前面側レイヤに演奏曲の歌詞文字映像116を合成して前記映像表示装置30に表示させる。これにより、あたかも前記背景画像110の中で歌唱者が歌っているような印象の合成映像114を背景映像とするカラオケ映像を見ながらカラオケ演奏を楽しむことができる。
また、前記映像合成制御手段98は、好適には、前記デジタルカメラ66により撮影される映像から切り抜かれる歌唱者に対応する領域の映像108を合成する対象となる他の映像を、前記背景データベース88に記憶された複数の背景データ等のうちから利用者の入力操作に応じて選択可能とする。図12は、前記歌唱者に対応する領域の映像108を合成する対象となる他の映像を選択するために前記映像表示装置30或いは前記電子早見本装置22のタッチパネルディスプレイに表示される画面の一例を示す図である。この図12に示すように、前記映像合成制御手段98は、好適には、前記背景データベース88に記憶された複数の背景データそれぞれのサムネイル映像(縮小した映像)118a、118b、118c、118dを前記映像表示装置30或いは前記電子早見本装置22のタッチパネルディスプレイに表示させ、その電子早見本装置22やリモコン装置64等により選択させる。なお、図12に示すサムネイル映像118aが図9に示す背景映像110に対応し、このサムネイル映像118aが選択された場合に、図9に示すような前記背景映像110に対して前記歌唱者に対応する領域の映像108が合成される。
また、前記映像合成制御手段98は、好適には、前記デジタルカメラ66により撮影される映像から切り抜かれる歌唱者に対応する領域の映像108を合成する対象となる他の映像を複数選択可能とする。すなわち、前記カラオケ装置16による演奏曲の出力に伴って出力されるカラオケ映像の背景映像として前記歌唱者に対応する領域の映像108を合成する対象として、前記背景データベース88に記憶された背景データ等のうちから利用者の入力操作に応じて複数の背景データを選択可能とする。また、好適には、前記カラオケ装置16による演奏曲の出力に伴って出力されるカラオケ映像の背景映像として合成する場合、その演奏曲の区分毎に背景データを選択可能とする。すなわち、対象となる演奏曲のAメロ、Bメロ、及びサビ等の区分毎にそれぞれ個別の背景データを選択させ、その背景データに対して前記歌唱者に対応する領域の映像108を合成する。斯かる態様において、前記合成映像114を前記カラオケ装置16による演奏曲の出力に伴ってカラオケ背景映像として表示させる場合、その演奏曲の区分に応じてその合成映像114のベース(最背面側レイヤの映像)となる背景データが変更される。また、特に演奏曲の区分に関係なく複数の背景データを選択させ、演奏曲の進行に伴って所定時間毎に前記合成映像114のベースとなる背景データを変更する態様も考えられる。
また、好適には、前記映像合成制御手段98により合成された合成映像114は、前記通信回線18を介して前記サーバ装置20に送信され、前記SNSデータベース86に歌唱者のユーザIDと対応付けられて記憶される。更に好適には、その合成映像114を背景映像とするカラオケ演奏が終了した時点で歌唱者(利用者)によりその合成映像114をアップロードするか否かを選択可能とし、アップロードする旨の選択入力操作が行われた場合にその合成映像114を前記SNSデータベース86に記憶させる。斯かる態様においては、前記歌詞文字映像116が合成されていない図10に示すような前記合成映像114(背景映像110に歌唱者に対応する領域の映像108が合成された映像)がアップロードされるのが好ましい。また、図8に示すような前記歌唱者に対応する領域の映像108を前記SNSデータベース86に記憶し、その映像108に対応する動画の配信に際して任意の背景データに合成可能としてもよい。
図13は、前記カラオケ装置16のCPU50による歌唱者映像切抜/合成制御の要部を説明するフローチャートであり、所定の周期で繰り返し実行されるものである。
先ず、ステップ(以下、ステップを省略する)S1において、前記背景データベース88に記憶された複数の背景データが前記映像表示装置30等に選択可能に表示された後、それら複数の背景データのうち何れかの背景データが選択されたか否かが判断される。このS1の判断が否定される場合には、S1の判断が繰り返されることにより待機させられるが、S1の判断が肯定される場合には、S2において、前記RAM54における予約曲テーブルにおける所定の演奏曲(予約曲)の演奏順となる等して前記カラオケ装置16によるカラオケ演奏が開始されるか否かが判断される。このS2の判断が否定される場合には、S2の判断が繰り返されることにより待機させられるが、S2の判断が肯定される場合には、S3において、前記SNSデータベース86に記憶された歌唱者の性別及び生年月日乃至年齢が前記通信回線18を介してダウンロードされ、各性別毎に予め定められた生年毎の平均身長に基づいて対象となる歌唱者の身長が算出された後、S4において、演奏開始に係る演奏曲の楽曲データが楽曲データベースから読み出される。
次に、S5において、S4にて読み出された楽曲データに基づくカラオケ演奏出力が開始される。また、斯かるカラオケ演奏出力と併行して、前記デジタルカメラ66による撮影が開始される。次に、S6において、前記デジタルカメラ66により撮影された映像に含まれる前記マイクロフォン40に対応する位置104aが、画像解析や赤外線光源40sの検出結果等に基づいて検出される。次に、S7において、S3にて算出された歌唱者の身長及びS6にて検出された前記マイクロフォン40に対応する位置104aに基づいて、前記デジタルカメラ66により撮影された映像に含まれる歌唱者に対応する領域106が判定される。次に、S8において、S7にて判定された歌唱者に対応する領域の映像108が前記デジタルカメラ66により撮影される映像から切り抜かれる(抽出される)。
次に、S9において、S8にて切り抜かれた歌唱者に対応する領域の映像108が、S1にて選択された背景データの前面側レイヤに合成された合成映像114が前記映像表示装置30等に表示される。また、この合成映像114における前記歌唱者に対応する領域の映像108の前面側レイヤに、出力されている演奏曲の歌詞文字映像116が合成されて表示される。次に、S10において、カラオケ演奏終了であるか否かが判断される。このS10の判断が否定される場合には、S6以下の処理が再び実行されるが、S10の判断が肯定される場合には、S11において、カラオケ演奏に際して前記映像表示装置30等に表示されていた合成映像114を前記サーバ装置20へアップロードするか否かが判断される。このS11の判断が否定される場合には、それをもって本ルーチンが終了させられるが、S11の判断が肯定される場合には、カラオケ演奏に際して前記映像表示装置30等に表示されていた合成映像114或いは前記歌唱者に対応する領域の映像108が所定形式の映像ファイルとして前記サーバ装置20へアップロードされ、前記SNSデータベース86に歌唱者のユーザIDと対応付けられて記憶された後、本ルーチンが終了させられる。以上の制御において、S6が前記マイクロフォン位置検出手段92の動作に、S3が前記歌唱者身長算出手段94の動作に、S7が前記歌唱者領域判定手段96の動作に、S8及びS9が前記映像合成制御手段98の動作にそれぞれ対応する。
このように、本実施例によれば、前記カラオケ装置16による演奏曲の出力に際してそのカラオケ装置16を基準とする所定範囲の映像を撮影する撮像装置としての前記デジタルカメラ66と、そのデジタルカメラ66により撮影された演奏映像100に含まれる前記マイクロフォン40に対応する位置104aを検出するマイクロフォン位置検出手段92(S6)と、そのマイクロフォン位置検出手段92により検出される前記マイクロフォン40に対応する位置104aに基づいて、前記デジタルカメラ66により撮影された演奏映像100に含まれる歌唱者に対応する領域106を判定する歌唱者領域判定手段96(S7)と、前記デジタルカメラ66により撮影された映像から、その歌唱者領域判定手段96により判定された歌唱者に対応する領域の映像108を切り抜いて他の映像としての前記背景映像110に合成する映像合成制御手段98(S8及びS9)とを、備えたものであることから、歌唱者が手にしているマイクロフォン40の位置からその歌唱者に対応する領域106を好適に特定することができ、その領域を抽出することで歌唱者に対応する領域の映像108を切り抜くことができる。すなわち、カラオケ演奏に際して撮影される映像から歌唱者の映像を簡便に切り抜いて編集し得るカラオケ装置16を提供することができる。
また、前記歌唱者領域判定手段96は、前記マイクロフォン位置検出手段92により検出される前記マイクロフォン40に対応する位置104a及び歌唱者の身長に関する情報に基づいて、前記デジタルカメラ66により撮影された演奏映像100に含まれる歌唱者に対応する領域106を判定するものであるため、カラオケ演奏に際して撮影される映像に含まれる利用者に対応する領域を簡便且つ実用的な態様で判定することができる。
また、歌唱者の性別に関する情報及び生年に関する情報から、その歌唱者の身長を算出する歌唱者身長算出手段94(S3)を含み、前記歌唱者領域判定手段96は、前記マイクロフォン位置検出手段92により検出される前記マイクロフォン40に対応する位置104a及び前記歌唱者身長算出手段94により算出される歌唱者の身長に基づいて、前記デジタルカメラ66により撮影された演奏映像100に含まれる歌唱者に対応する領域106を判定するものであるため、カラオケ演奏に際して撮影される映像に含まれる利用者に対応する領域を簡便且つ実用的な態様で判定することができる。
また、前記歌唱者領域判定手段96は、前記デジタルカメラ66により撮影された演奏映像100に含まれる歌唱者に対応する楕円形の領域106を判定するものであり、その歌唱者の身長に関する情報に基づいてその楕円形の長軸寸法を決定するものであるため、カラオケ演奏に際して撮影される映像に含まれる利用者に対応する領域を簡便且つ実用的な態様で判定することができる。
また、前記マイクロフォン位置検出手段92は、前記デジタルカメラ66により撮影された演奏映像100において輝度に基づく画像解析を行うことにより前記マイクロフォン40に対応する位置104aを検出するものであるため、歌唱者が手にしているマイクロフォン40の位置からその歌唱者に対応する領域106を実用的な態様で特定することができる。
また、前記マイクロフォン40は、無線信号を介して前記カラオケ装置16に音声情報を入力するものであり、前記マイクロフォン40からの無線信号に基づいてそのマイクロフォン40の存在する位置を検出する赤外線光源位置検出装置68を備え、前記マイクロフォン位置検出手段92は、その赤外線光源位置検出装置68の検出結果に基づいて前記デジタルカメラ66により撮影された演奏映像100に含まれる前記マイクロフォン40に対応する位置104aを検出するものであるため、歌唱者が手にしているマイクロフォン40の位置からその歌唱者に対応する領域106を実用的な態様で特定することができる。
また、前記映像合成制御手段98は、前記背景映像110に前記歌唱者に対応する領域の映像108を合成した合成映像114を、前記カラオケ装置16による演奏曲の出力に伴ってカラオケ背景映像として表示させるものであるため、歌唱者に対応する映像が合成された合成映像114をカラオケ演奏における背景映像として用いることができる。
以上、本発明の好適な実施例を図面に基づいて詳細に説明したが、本発明はこれに限定されるものではなく、更に別の態様においても実施される。
例えば、前述の実施例において、前記マイクロフォン位置検出手段92、歌唱者身長算出手段94、歌唱者領域判定手段96、及び映像合成制御手段98は、何れも前記カラオケ装置16のCPU50に機能的に備えられたものであったが、本発明はこれに限定されるものではなく、それらの制御機能の一部乃至全部が前記電子早見本装置22のCPUに機能的に備えられたものであってもよい。また、前記マイクロフォン位置検出手段92、歌唱者身長算出手段94、及び歌唱者領域判定手段96の実質的な処理は前記サーバ装置20のCPU70により実行されるものであってもよく、前記カラオケシステム10の設計に応じて種々の実施態様が考えられる。
また、前述の実施例において、前記歌唱者領域判定手段96は、前記デジタルカメラ66により撮影された演奏映像100に含まれる歌唱者に対応する楕円形の領域106を判定するものであったが、歌唱者に対応する領域として判定されるのは必ずしも楕円形の領域でなくともよく、矩形の領域、角が丸くなった矩形の領域、円形の領域、その他不定形の領域であってもよい。何れの態様においても、判定される領域の前記デジタルカメラ66により撮影される映像(表示画面)に対して縦方向の長さ寸法が歌唱者の身長に応じて定められることが好ましい。
また、前述の実施例において、前記歌唱者領域判定手段96は、前記歌唱者身長算出手段94により算出される歌唱者の身長に基づいて前記歌唱者に対応する領域106を判定するものであったが、歌唱者の身長は必ずしも算出されるものでなくともよく、前記電子早見本装置22等を介して身長に対応する数値が直接的に入力されるものであってもよい。斯かる態様においては、前記歌唱者身長算出手段94は必ずしも設けられなくともよい。また、歌唱者に対応する領域のサイズそのものを選択可能とするものであってもよく、例えばS、M、Lの何れかの領域サイズを前記電子早見本装置22等により選択入力可能とする態様も考えられる。更に、上半身の撮影に対応する領域乃至全身の撮影に対応する領域の何れかを利用者に選択させ、その選択結果に応じて領域のサイズを変更するものであってもよい。
また、前述の実施例では、前記SNSデータベース86の存在を前提とする制御について説明したが、前記通信回線18に接続されない非通信型のカラオケ装置にも、本発明は好適に適用される。斯かる態様においては、前記映像合成制御手段98により合成された合成映像114が前記カラオケ装置16のハードディスク56に記憶されて再生可能とされるものであってもよいし、前記RAM54に記憶されてその日のカラオケ演奏が終了したら消去される等、当日限りの制御が行われるものであってもよい。
また、前述の実施例では特に言及していないが、前記マイクロフォン位置検出手段92は、カラオケ演奏における間奏中においてマイクロフォン40が一時的に机に置かれたり電源がオフとされる等して位置検出が難しい場合には、検出可能であった最後の時点における位置を前記マイクロフォン40の位置として維持する等の制御を行うものであってもよい。すなわち、本発明のカラオケ装置は、実用上必要とされる種々の補足的な制御を併せて実行するものである。
その他、一々例示はしないが、本発明はその趣旨を逸脱しない範囲内において種々の変更が加えられて実施されるものである。