JP5498341B2

JP5498341B2 - カラオケシステム

Info

Publication number: JP5498341B2
Application number: JP2010222983A
Authority: JP
Inventors: 信宏荒島
Original assignee: Xing Inc
Current assignee: Xing Inc
Priority date: 2010-09-30
Filing date: 2010-09-30
Publication date: 2014-05-21
Anticipated expiration: 2030-09-30
Also published as: JP2012078526A

Description

本発明は、カラオケ用の楽音を再生するカラオケシステムに関し、特に、カラオケ中の歌唱者を撮像した画像に対して実行される画像処理の技術分野に属する。

近年、伴奏のみからなる楽曲データ（いわゆる、カラオケ用楽曲データ）を再生し、当該再生された楽曲データに併せてユーザが歌うカラオケは、娯楽や趣味として認知されている。また、一の店舗を複数の部屋に分け、各部屋毎に専用の装置、すなわち、カラオケシステムを設置してカラオケを提供するカラオケボックスなど、飲食店のサービスの一つとして提供されるのみならず、カラオケそのものを提供する店舗も多く出現し、数人のグループにてカラオケに興じることも広く行われている。

また、最近では、カラオケの新たな楽しみ方として、カラオケの歌唱中に歌唱者（すなわち、ユーザ）を撮像し、かつ、その歌声及びカラオケの楽曲を集音して得た動画像を生成するカラオケシステムも実用化されている。

例えば、このような歌唱者の歌唱状態の動画像を生成するカラオケシステムとしては、歌詞を加工しつつ、撮像された歌唱者の画像に重畳してその歌声及びカラオケの楽曲を集音して得た動画像を生成するようになっている（例えば、特許文献１）。

特開２０１０−７２２８９号公報

しかしながら、特許文献１に記載のカラオケシステムにあっては、撮像された歌唱者に対しては画像処理を行っておらず、撮像された歌唱者の歌唱状況を集音して得た音データとともに記録するだけである。

本発明は、上記課題を解決するためになされたものであり、その目的は、カラオケに合わせて歌唱者に対して画像処理を行うことによってカラオケの新たな娯楽性を提供することができるカラオケシステムを提供することにある。

（１）上記課題を解決するため、本発明のカラオケシステムは、複数の楽曲データから一の楽曲データを選択して当該選択された楽曲データを再生して楽音を出力させるとともに、当該楽音の出力に伴って前記選択された楽曲の歌詞を表示手段に表示するカラオケシステムであって、前記楽曲データを再生する再生手段と、前記再生された楽曲の楽音を出力するとともに集音手段によって集音された歌唱者の声を拡声する出力手段と、前記楽曲の再生に合わせて歌唱する歌唱者を撮像し、フレーム毎に撮像した画像を撮像画像として出力する撮像手段と、前記フレーム毎に、前記出力された撮像画像の中から当該歌唱者の顔部分の画像領域である顔領域を認識する認識手段と、前記認識された顔領域に、予め設定され画像であって人間の顔または擬人化されたものの顔を題材として創作された創作画像を重畳する画像処理を行う画像処理手段と、前記画像処理された画像を前記表示手段に表示させる表示制御手段と、を備え、前記画像処理手段が、前記集音手段によって集音された歌唱者の声に関する声情報、及び、前記再生された楽曲データから前記歌唱者が歌う歌のパートに関する歌パート情報の少なくとも何れか一方の情報を順次カラオケ情報として取得するカラオケ情報取得手段と、前記取得されたカラオケ情報に基づいて前記重畳する創作画像を変化させる画像変換処理手段と、を含む構成を有している。

この構成により、本発明のカラオケシステムは、撮像された歌唱者の顔に創作画像を重畳するとともに、例えば、楽曲で想定されている前記歌唱者が歌う歌のパートにおける音の高さを示す歌パート音高情報または当該歌パートにおける歌詞を歌うタイミングを示す歌パートタイミング情報と、マイクロホンなどの集音手段によって集音された歌唱者の声量情報、または、当該集音された歌唱者の声の高さを示す歌唱者声高情報と、楽曲で想定されている歌パートのメロディに対する歌唱者の音程の一致度（採点結果）などのカラオケ情報に基づいて撮像された歌唱者の顔に重畳する創作画像を変化させることができる。したがって、本発明のカラオケシステムは、歌を歌う、または、他人の歌を聴く娯楽の他に、歌唱者のユニークな画像を楽しむ新たな娯楽性を提供することができる。

（２）また、本発明のカラオケシステムは、前記声情報には、前記集音手段よって集音された歌唱者の声量値を示す声量情報、または、当該集音された歌唱者の声の高さを示す歌唱者声高情報の少なくとも何れか一方の情報が含まれるとともに、前記歌パート情報には、前記歌唱者が歌う歌のパートにおける音の高さを示す歌パート音高情報、当該歌パートにおける歌詞を歌うタイミングを示す歌パートタイミング情報、または、当該歌パートにおける音量を示す歌パート音量情報の少なくとも何れか一方の情報が含まれる構成を有している。

この構成により、本発明のカラオケシステムは、本発明のカラオケシステムは、撮像された歌唱者の顔に創作画像を重畳するとともに、楽曲で想定されている前記歌唱者が歌う歌のパートにおける音の高さを示す歌パート音高情報または当該歌パートにおける歌詞を歌うタイミングを示す歌パートタイミング情報と、マイクロホンなどの集音手段によって集音された歌唱者の声量情報、または、当該集音された歌唱者の声の高さを示す歌唱者声高情報と、楽曲で想定されている歌パートのメロディに対する歌唱者の音程の一致度（採点結果）のカラオケ情報に基づいて撮像された歌唱者の顔に重畳する創作画像を変化させることができる。

（３）また、本発明のカラオケシステムは、前記画像変換処理手段が、前記取得したカラオケ情報に含まれる値が予め定められた値以上の場合に、前記重畳する創作画像を変化させる構成を有している。

この構成により、本発明のカラオケシステムは、歌唱者が大きな声を出している、または、高い音を出していることを想定することなど、歌唱者の表情を推定することができるので、歌唱者の実際の顔にマッチした創作画像を歌唱者の顔部分に重畳することができる。

（４）また、本発明のカラオケシステムは、前記カラオケ情報に前記声情報と歌パート情報の双方が含まれる場合に、前記画像変換処理手段が、前記声情報と歌パート情報の同一の性質を有する情報の一致度に基づいて前記重畳する創作画像を変化させる構成を有している。

この構成により、本発明のカラオケシステムは、例えば、同一の性質として、楽曲で想定されている歌パートのメロディに対する歌唱者の音程の一致度（採点結果）に基づいて撮像された歌唱者の顔に重畳する創作画像を変化させることができるので、一致度が低ければ歌唱者が悲しみ、一致度が高ければ歌唱者が喜ぶといった歌唱者の表情を推定することができる。したがって、本発明のカラオケシステムは、歌唱者の実際の顔にマッチした創作画像を歌唱者の顔部分に重畳することができる。

（５）また、本発明のカラオケシステムは、一の顔を題材として創作された顔のパターンが異なる複数の創作画像から構成される創作画像群が複数記憶される記憶手段を更に備え、前記画像変換処理手段が、前記取得手段によって取得されたカラオケ情報に基づいて、一の創作画像を選択し、前記選択された創作画像を前記撮像画像に重畳することによって、前記重畳する創作画像を変化させる構成を有している。

この構成により、本発明のカラオケシステムは、カラオケ情報に基づいて、撮像された歌唱者の顔領域に重畳された創作画像を簡易に変化させることができるので、システムの処理負担を軽減させることができるとともに、歌を歌う、または、他人の歌を聴く娯楽の他に、歌唱者のユニークな画像を楽しむ新たな娯楽性を提供することができる。

（６）また、本発明のカラオケシステムは、前記楽曲データから曲調を示す曲調情報、曲構成部分を示す構成情報または楽曲の基準音の高さを示す基準音高情報の少なくとも何れか一の情報から構成される制御情報を取得する制御情報取得手段を更に備え、前記画像処理手段が、前記記憶手段に記憶された創作画像群の中から、前記取得されたカラオケ情報及び前記制御情報に基づいて一の創作画像を選択し、前記選択された創作画像を前記撮像画像に重畳することによって、前記重畳する創作画像を変化させる構成を有している。

この構成により、本発明のカラオケシステムは、カラオケ情報に加えて、曲調情報または基準音高情報に基づいて撮像された歌唱者の顔に重畳する創作画像を変化させることができる。したがって、本発明のカラオケシステムは、歌を歌う、または、他人の歌を聴く娯楽の他に、歌唱者のユニークな画像を楽しむ新たな娯楽性を提供することができる。

（７）上記課題を解決するため、本発明のカラオケシステムは、複数の楽曲データから一の楽曲データを選択して当該選択された楽曲データを再生して楽音を出力させるとともに、当該楽音の出力に伴って前記選択された楽曲の歌詞を表示手段に表示するカラオケシステムであって、前記楽曲データを再生する再生手段と、前記再生された楽曲の楽音を出力するとともに集音手段によって集音された歌唱者の声を拡声する出力手段と、前記楽曲の再生に合わせて歌唱する歌唱者を撮像し、フレーム毎に撮像した画像を撮像画像として出力する撮像手段と、前記フレーム毎に、前記出力された撮像画像の中から当該歌唱者の顔部分の画像領域である顔領域を認識する認識手段と、前記認識された顔領域に、予め設定され画像であって人間の顔または擬人化されたものの顔を題材として創作された創作画像を重畳する画像処理を行う画像処理手段と、前記画像処理された画像を前記表示手段に表示させる表示制御手段と、を備え、前記画像処理手段が、前記認識された顔領域の画像に基づいて前記歌唱者の表情または当該歌唱者の顔の向きを判別する判別手段と、前記判別された顔の表情または顔の向きに基づいて前記重畳する創作画像を変化させる画像変換処理手段と、を含む構成を有している。

この構成により、本発明のカラオケシステムは、撮像された歌唱者の顔に創作画像を重畳するとともに、歌唱者の表情及び向きに基づいて撮像された歌唱者の顔に重畳する創作画像を変化させることができる。したがって、本発明のカラオケシステムは、歌を歌う、または、他人の歌を聴く娯楽の他に、歌唱者のユニークな画像を楽しむ新たな娯楽性を提供することができる。

（８）また、本発明のカラオケシステムは、一の顔を題材として創作された顔のパターンが異なる複数の創作画像から構成される創作画像群が複数記憶される記憶手段を更に備え、前記画像変換理手段が、前記記憶された創作画像群の中から、前記判別された顔の表情または顔の向きと、に基づいて、一の創作画像を選択し、前記選択された創作画像を前記撮像画像に重畳することによって、前記重畳する創作画像を変化させる構成を有している。

（９）また、本発明のカラオケシステムは、前記楽曲データから曲調を示す曲調情報、曲構成部分を示す構成情報または楽曲の基準音の高さを示す基準音高情報の少なくとも何れか一の情報から構成される制御情報を取得する制御情報取得手段を更に備え、前記画像処理手段が、前記記憶手段に記憶された創作画像群の中から、前記判別された顔の表情または顔の向きと前記取得された制御情報に基づいて一の創作画像を選択し、前記選択された創作画像を前記撮像画像に重畳することによって、前記重畳する創作画像を変化させる構成を有している。

（１０）また、本発明のカラオケシステムは、前記認識手段が、前記撮像画像に、前記歌唱者とは異なる非歌唱者が存在する場合に、前記フレーム毎に、前記出力された撮像画像の中から前記非歌唱者の顔領域を認識し、前記画像変換処理手段が、前記認識された非歌唱者の顔領域に、前記歌唱者とは異なる種類の創作画像を重畳させる構成を有している。

この構成により、本発明のカラオケシステムは、被歌唱者についても顔をキャラクタ画像にすることによって、さらにユニークな画像を楽しむ新たな娯楽性を提供することができる。

（１１）また、本発明のカラオケシステムは、前記再生手段が、前記創作画像が既に重畳された歌唱者の画像を、第１歌唱者画像として、当該第１歌唱者画像を生成したときの楽曲データ及び第１歌唱者の声データとともに再生し、前記出力手段、前記撮像手段、認識手段及び画像処理手段が当該再生された第１歌唱者画像に基づいて、第２歌唱者に対して動作するとともに、前記表示制御手段が、前記第１歌唱者画像に第２歌唱者の画像を合成した合成画像を前記表示手段に表示させる構成を有している。

この構成により、本発明のカラオケシステムは、プライバシーの保護と自己の表現の公開との両立を実現することができるとともに、当歌唱者の顔の部分がキャラクタとなっている歌唱者画像の利用を通じて該歌唱者画像の生成するためのカラオケシステムの利用の促進を図ることができる。

（１２）また、本発明のカラオケシステムは、前記表示手段に表示された前記画像を画像データとしてネットワークに接続され、通信端末装置にて閲覧可能にサーバ装置にアップロードする通信手段を更に有する構成を備えている。

この構成により、本発明のカラオケシステムは、歌唱者が自己のカラオケ画像を公開することができるので、歌を歌う、または、他人の歌を聴く娯楽の他に、歌唱者のユニークな画像を楽しむ新たな娯楽性を提供することができる。

本発明のカラオケシステムは、歌を歌う、または、他人の歌を聴く娯楽の他に、歌唱者のユニークな画像を楽しむ新たな娯楽性を提供することができる。

本発明に係るネットワークシステムの構成を示すブロック図である。本発明に係るカラオケシステムの第１実施形態における構成を示すブロック図である。第１実施形態のシステム用データベースに記録されているキャラクタ画像の例である。第１実施形態におけるカラオケ画像生成処理を含むアップロード処理の動作について説明するフローチャートである。本発明に係るカラオケシステムの第２実施形態における構成を示すブロック図である。第２実施形態におけるカラオケ画像生成処理を含むアップロード処理の動作について説明するフローチャートである。第３実施形態におけるカラオケ画像生成処理を含むアップロード処理の動作について説明するフローチャートである。

次に、本発明に好適な実施の形態について、図面に基づいて説明する。

以下に説明する実施の形態は、歌唱者を撮像しつつ、カラオケ用の楽曲データ（以下、単に「カラオケデータ」という。）を再生するカラオケシステムに対して本願のカラオケシステムを適用した場合の実施形態である。

＜第１実施形態＞
はじめに、図１〜図４の各図を用いて本願に係る第１実施形態におけるネットワークシステム１０とカラオケシステム１００について説明する。

［ネットワークシステムとカラオケシステムの概要］
まず、図１を用いて本実施形態のネットワークシステム１０及びカラオケシステム１００の概要について説明する。なお、図１は、本実施形態におけるネットワークシステム１０の構成を示す構成図である。

本実施形態のネットワークシステム１０は、カラオケシステム１００と、複数のカラオケデータを記録し、カラオケシステム１００にカラオケデータを提供するカラオケデータ用データベース２００と、カラオケを実行する際に歌唱者を撮像して生成されたカラオケ画像のデータ（以下、「カラオケ画像データ」という。）を記憶し、当該記憶したカラオケ画像データの管理を行う管理サーバ装置３００と、複数の端末装置４００と、から構成される。また、カラオケシステム１００、カラオケ用データベース、管理サーバ装置３００及び各端末装置４００は、インターネット上において提供されるＷｏｒｌｄＷｉｄｅＷｅｂシステムなどのネットワークＮによって相互に接続される。

本実施形態のカラオケシステム１００は、カラオケボックスなどの店舗内に設置され、歌唱者の操作に基づいて、カラオケデータ用データベース２００から特定のカラオケデータを取得し、歌唱者がカラオケの楽曲に合わせて歌唱可能にその再生を実行するようになっている。また、カラオケシステム１００は、カラオケ中に、すなわち、歌唱者がカラオケの楽曲に合わせて歌唱する歌唱中に、当該歌唱者を撮像するとともに、撮像された歌唱者の顔部分に所定のキャラクタの画像（以下、「キャラクタ画像」または「創作画像」という。）を重畳するカラオケ画像を生成するようになっている。特に、本実施形態のカラオケシステム１００は、撮像された歌唱者の顔の領域（以下、「顔領域」という。）を認識しつつ、当該歌唱者の表情及びその顔の向きを判別し、判別された顔の表情または顔の向きに基づいて、予め設定されたキャラクタ画像を変化させ、当該歌唱者の顔部分に重畳した合成画像を生成するようになっている。そして、カラオケシステム１００は、生成したカラオケ画像をデータ（以下、「カラオケ画像データ」という。）として管理サーバ装置３００にコンピュータまたは携帯用電話機などの端末装置４００によって閲覧可能にアップロードするようになっている。

カラオケデータ用データベース２００は、カラオケデータの種別毎に、カラオケデータを選曲番号データに対応付けて格納するためのデータベースである。例えば、このカラオケデータ用データベース２００には、選曲番号毎に、カラオケ用の楽曲データと、カラオケデータの再生中に表示させる歌詞データと、が対応付けて記憶されている。また、カラオケ用の楽曲データには、複数の楽器の演奏音を再生制御するためのＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）データ、背景を表示部１１４に表示する際に用いる曲調を示す曲調情報、Ａメロ、Ｂメロ、サビなど楽曲の構成を示す楽曲構成情報、歌パートの基準音（キー）の音高を示す音高情報などのデータが含まれる。

管理サーバ装置３００は、アップロードされたカラオケ画像データを記録する図示しないデータベースを有し、当該記憶されたカラオケ画像データを管理するようになっている。特に、管理サーバ装置３００は、ユーザＩＤと、固有のＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）と呼ばれるアドレス（以下、「ＵＲＬ」という。）と、に基づいて、データベース１００に記憶され、また、信端末装置４００によって指定されて読み出されるようになっている。特に、カラオケ画像データは、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）またはＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）などのマークアップ言語によって構成されているＷＷＷシステム用のリソースデータ（以下、「Ｗｅｂページデータ」ともいう。）における構成要素データとして構築され、各端末装置４００に搭載されたブラウザ機能によって閲覧可能になっている。

各端末装置４００は、携帯用電話機などの携帯用通信端末装置またはパーソナルコンピュータであり、ＵＲＬに基づいてＷｅｂページデータを閲覧可能に表示するブラウザを搭載している。そして、各端末装置４００は、ユーザＩＤに専用のＷｅｂページにアクセスし、かつ、ＵＲＬアドレスに基づいてカラオケ画像データを特定すると、当該カラオケ画像データを閲覧することができるようになっている。

この構成により、本実施形態のカラオケシステム１００は、生成した歌唱者の顔部分にキャラクタ画像を重畳した合成画像を他の端末装置４００において閲覧可能にアップロードすることができるので、歌を歌う、または、他人の歌を聴くカラオケの本来の楽しみ方に加えて、歌唱者のユニークな画像を楽しむ新たな娯楽性を提供することができるようになっている。

また、本実施形態のカラオケシステム１００においては、歌唱者本人を限定せずに、自己が歌唱しているカラオケ画像を公開することができるので、顔を公開することへの抵抗を感じている歌唱者であっても、プライベートを保護しつつ、新たな娯楽性を提供することができるとともに、このような動画サービスの利用を促進させることができる。

［カラオケシステムの構成］
次に、図２または図３を用いてを用いて本実施形態のカラオケシステム１００の具体的な構成及びその動作について説明する。なお、図２は、本実施形態におけるカラオケシステム１００の構成を示す構成図であり、図３は、システム用データベースに記録されているキャラクタ画像の例である。

本実施形態のカラオケシステム１００は、図２に示すように、ネットワークを介して複数のカラオケ用のデータが記録されるカラオケデータ用データベース２００からカラオケデータを取得するための通信を行う通信制御部１０２と、カラオケデータを再生するカラオケ再生部１０４と、各部を制御するシステム制御部１０６と、を備えている。

また、このカラオケシステム１００は、カラオケデータの再生その他の操作を行う操作部１０８と、マイクロホンＭから入力された音声信号に対して所定の処理を行う音声入力処理部１１０と、再生されたカラオケデータに対応してカラオケ用の楽音をスピーカＳＰに拡声させる拡声処理部１１２と、カラオケデータの再生中に背景画像、カラオケ画像及び歌詞を表示するための表示部１１４と、表示部１１４を制御する表示制御部１１６と、を備えている。

さらに、カラオケシステム１００は、主に歌唱者を撮像する撮像カメラ装置１１８と、アバターやキャラクタの顔部分の画像、すなわち、キャラクタ画像がデータとしてキャラクタ毎に記憶されるとともに、撮像された歌唱者の画像が記憶されるデータベース（以下、「システム用データベース」という。）１２０と、撮像カメラ装置１１８から出力されたフレーム毎の画像から歌唱者の顔部分の画像領域（すなわち、顔領域）を認識し、アバターやキャラクタの顔部分の画像を歌唱者の顔部分に重畳表示させる画像処理部１３０と、を備えている。

なお、例えば、本実施形態の通信制御部１０２は、本発明の通信手段を、カラオケ再生部１０４は、本発明の再生手段を、スピーカは、本発明の出力手段を構成する。また、例えば、本実施形態の表示制御部１１６は、本発明の表示制御手段を、撮像カメラ装置１１８は、本発明の撮像手段を、システム用データベース１２０は、本発明の記憶手段を、画像処理部１３０は。本発明の認識手段及び画像処理手段を構成する。

通信制御部１０２は、システム制御部１０６の制御の下、ネットワークを介してカラオケデータ用データベース２００に接続して通信回線を構築し、カラオケデータの授受のための通信を行うようになっている。特に、通信制御部１０２は、操作部１０８によって入力されたカラオケデータを指定する選曲番号のデータ（以下、「選曲番号データ」という。）に基づいて、カラオケデータ用データベース２００から、選曲番号データの選曲番号に対応付けられて記録されているカラオケデータを取得し、カラオケ再生部１０４に出力するようになっている。

また、通信制御部１０２は、システム制御部１０６の制御の下、ネットワークを介して管理サーバ装置３００に接続して通信回線を構築し、生成されたカラオケ画像データをアップロードするための通信を行うようになっている。

カラオケ再生部１０４は、ＭＩＤＩ音源を有し、システム制御部１０６の制御の下、操作部１０８を介して入力された選曲番号から出力された選曲番号データに基づいて、通信制御部１０２を介してカラオケデータ用データベース２００からカラオケデータを取得するようになっている。そして、カラオケ再生部１０４は、取得したカラオケデータに基づいてＭＩＤＩ音源を制御する再生処理を行うようになっている。また、カラオケ再生部１０４は、カラオケデータの再生開始時には、取得したカラオケデータに基づいてシステム用データベース１２０に記憶された背景画像データを選択して出力開始を指示する。さらに、カラオケ再生部１０４は、再生処理によって生成された楽音データを拡声処理部１１２に出力するとともに、歌詞データを表示部１１４に所定のタイミングにて出力するようになっている。

システム制御部１０６は、主に中央演算処理装置（ＣＰＵ）とＲＯＭ及びＲＡＭによって構成され、各部とバスＢによって接続されている。また、このシステム制御部１０６は、操作部１０８を介して入力された選曲番号に基づいてカラオケデータの取得制御及び再生制御を行うとともに、撮像カメラ装置１１８と連動して歌唱者の撮像を行いつつ、当該歌唱者の顔部分にキャラクタ画像を重畳表示するカラオケ画像データを生成するカラオケ画像生成処理の制御を実行するようになっている。また、システム制御部１０６は、カラオケ画像データの生成時に、生成されたカラオケ画像データとカラオケ再生部１０４において再生された楽曲データ及びマイクロホンＭから入力された歌唱者の声データをミキシングさせつつ、システム用データベース１２０に記憶する記憶制御を行う。そして、システム制御部１０６は、カラオケ画像データを生成して記憶すると、通信制御部１０２、操作部１０８及び表示部１１４と連動して管理サーバ装置３００にアップロードするアップロード処理を実行するようになっている。なお、カラオケ画像生成処理及びアップロード処理の動作の詳細については、後述する。

操作部１０８は、カラオケシステム１００の筐体前面等に設けられたコントロールパネルまたはリモートコントロールユニットによって構成され、各種確認ボタン及び数字キー等の多数のキーを有している。特に、本実施形態の操作部１０８は、カラオケデータの選曲、図示しないマイクロホンＭの音量操作などカラオケを実行するための各種の操作の他に、カラオケ画像生成処理を実行する際の開始指示、キャラクタ画像の選択指示及びカラオケ画像データにおけるアップロード指示に用いられるようになっている。

拡声処理部１１２は、システム制御部１０６の制御の下、カラオケ再生部１０４から出力された音データをアナログ形式のオーディオ信号に変換する処理及び変換されたオーディオ信号を所定のレベルに増幅してスピーカＳＰに出力する処理を行うようになっている。

なお、スピーカＳＰは、カラオケシステム１００が設けられた設置場所によって適したシステムによって構成されている。

表示部１１４は、例えば、有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）素子、液晶表示素子またはＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）によって構成され、表示部１１４の制御にしたがって所定の映像信号を表示するようになっている。具体的には、この表示部１１４は、背景画像を表示しつつ、音データの出力、すなわち、再生される楽曲に併せて歌詞データを表示するようになっている。また、表示部１１４は、背景画像に代えて、キャラクタ画像が重畳された歌唱者の画像、すなわち、カラオケ画像を表示するようになっている。

表示制御部１１６は、システム制御部１０６の制御の下、通常再生時の背景（すなわち、カラオケ画像生成処理を実行しないときに表示部１１４に表示される背景）若しくはカラオケ画像を表示するための画像データ及び歌詞データに基づいて、表示部１１４に表示させるための表示データを生成して表示部１１４に出力するようになっている。特に、この表示制御部１１６は、背景画像またはカラオケ画像と歌詞データを重畳的に表示部１１４に表示させるとともに、音データの出力、すなわち、再生される楽曲に併せて歌詞データを表示部１１４に表示させるための表示制御を行うようになっている。

システム用データベース１２０には、曲調毎に対応付けられた背景画像が記憶されているとともに、キャラクタ毎に正面、左右側面、背面など複数のパターン画像が記憶されている。すなわち、システム用データベース１２０には、一のキャラクタを題材として創作された顔のパターンが異なる複数のキャラクタ画像から構成されるキャラクタ画像群がキャラクタ毎に記憶されている。なお、このキャラクタには、動物またはアニメーションなどをモチーフとして擬人化されたものの他に、アバターと言われる仮想現実世界において自分の分身として用いるキャラクタが含まれる。

例えば、アバターとしては、システム用データベースには、図２（ａ）、（ｂ）、（ｃ）及び（ｄ）に示すように、一のキャラクタを題材として創作された顔のパターンが異なる複数のキャラクタ画像から構成されるキャラクタ画像群がキャラクタ毎に記憶されている。なお、各図２において右から、正面図、右斜め側面図、右側面図、左斜め側面図である。また、この他にも、背面図及び左側面図などが記憶されている。

撮像カメラ装置１１８は、光電変換する撮像素子（以下、「ＣＣＤ」という）と、当該ＣＣＤを格納する筐体及び撮像レンズなどのカメラ機構と、を備え、カラオケ中にＣＣＤに形成された対象物の影像をフレーム毎に所定の画像データに変換し、画像処理部１３０に出力するようになっている。また、撮像カメラ装置１１８は、システム制御部１０６によって撮像開始などの各種の動作が制御される。

画像処理部１３０は、カラオケ画像生成処理を実行する際に、カラオケ画像を生成するための各種の処理を行うようになっている。具体的には、画像処理部１３０は、撮像カメラ装置１１８から出力されたフレーム毎の画像（以下、「フレーム画像」という。）に対して、当該フレーム画像内における歌唱者の顔部分の顔領域を認識しつつ、歌唱者の表情及びその顔の向きを判別し、判別された顔の表情または顔の向きに基づいて重畳するキャラクタ画像を変化させるようになっている。具体的には、画像処理部１３０は、顔領域を認識する認識処理部１３１と、認識された顔領域から歌唱者の表情及び向きを判別する表情／向き判別部１３２と、判別された歌唱者の表情及び向きに基づいて、予め設定されたキャラクタからシステム用データベース１２０に記憶された一のキャラクタ画像を選択し、顔領域に重畳する画像変換処理部１３３と、から構成されている。

なお、例えば、本実施形態の認識処理部１３１は、本発明の認識手段を構成し、表情／向き判別部１３２は、本発明の判別手段を構成する。また、例えば、本実施形態の画像変換処理部１３３は、本発明の画像変換処理手段を構成する。

認識処理部１３１は、例えば、フレーム画像からＹ・Ｃｒ・Ｃｂ表色系（Ｙ(輝度)、Ｃｒ(赤さ)、Ｃｂ(青さ)）を用いて肌色領域を検出し、当該検出した部分を顔領域として認識する顔画像認識処理、フレーム画像の各領域と予め定められたテンプレートの画像とを比較し、そのマッチング度合いが高い領域を顔領域として認識する顔画像認識処理、または、その双方の認識処理を用いてフレーム毎に顔領域を認識するようになっている。また、認識処理部１３１は、一度認識した顔領域については、次のフレームでも現フレームの近傍に存在することを想定して顔領域を追従するための演算処理を実行し、顔領域の認識能力を高めている。

表情／向き判別部１３２は、肌色領域及び髪領域の割合を算出しつつ、目、鼻、口などの顔の各部位に対して主成分分析を行って特徴量を抽出するＬＦＡ（ＬｏｃａｌＦｅａｔｕｒｅＡｎａｌｙｓｉｓ)法、または、画像を複数のフィルタリング処理を実行し、それぞれの画像を細分化して局所的に特徴量を算出するパターン分布特徴を用いて顔特徴を抽出するＧａｂｏｒＷａｖｅｌｅｔ変換法などの各方法に基づく表情／向き判別処理を行って、顔の向き及びその表情を判別するようになっている。

例えば、表情／向き判別部１３２は、表情としては、笑顔の他に、苦しそうに大きな声を叫んでいる表情を示す絶叫顔、目を閉じて眉をひそめて歌によって酔っている表情を示す陶酔顔など各種のカラオケ中の特徴的な表情を判別するようになっている。また、表情／向き判別部１３２は、右側面、右斜め、正面、左斜め、左側面及び後ろ向きの各顔の向きを判別するようになっている。なお、本実施形態においては、表情／向き判別部１３２は、顔の表情のみ、または、顔の向きのみ判別してもよいし、その双方を判別するようにしてもよい。

画像変換処理は、フレーム画像毎に、表情／向き判別部１３２によって特定された、顔の表情、顔の向きまたはそれらの双方に基づいて、システム用データベース１２０を検索し、予め設定されたキャラクタにおける該当する顔の表情及び向きのキャラクタ画像を特定するようになっている。具体的には、画像変換処理部１３３は、表情／向き判別部１３２によって右斜めを向いていると判別された場合には、システム用データベース１２０に予め歌唱者によって設定されたキャラクタにおいて右斜めの画像として登録されているキャラクタ画像（すなわち、設定されたキャラクタにおいて右斜め方向である属性情報を有するキャラクタ画像）を検出するようになっている。そして、画像変換処理部１３３は、検出したキャラクタ画像を、認識処理部１３１において認識された顔領域上に、大きさを調整しつつ、重畳させるための画像変換処理を行うようになっている。

［カラオケ画像生成処理を含むアップロード処理］
次に、図３を用いて本実施形態におけるカラオケ画像生成処理を含むアップロード処理の動作について説明する。なお、図３は、本実施形態におけるカラオケ画像生成処理を含むアップロード処理の動作について説明するフローチャートである。

まず、操作部１０８によってカラオケデータの選曲前にカラオケ画像生成処理を実行する旨の指示が入力されると（ステップＳ１０１）、システム制御部１０６は、システム用データベース１２０に記憶された複数のキャラクタを表示部１１４に表示させ、表示部１１４及び操作部１０８と連動して歌唱者または歌唱者以外の他のユーザに一のキャラクタを選択させるための処理を実行する（ステップＳ１０２）。

次いで、システム制御部１０６は、操作部１０８からの選曲データの入力を待ってカラオケ再生部１０４にカラオケデータの再生、及び、撮像カメラ装置１１８に歌唱者の撮像を開始させるとともに、画像処理部１３０に、当該歌唱者におけるカラオケ画像生成処理の実行を開始させる（ステップＳ１０３）。なお、画像処理部１３０は、カラオケ画像生成処理の実行が開始されると、フレーム毎に以下の処理を実行するとともに、システム制御部１０６は、各フレーム毎のフレーム画像を、再生された楽曲データ及び歌唱者の声データとともにミキシングしつつ順次システム用データベース１２０に記録する。

まず、認識処理部１３１は、入力されたフレーム画像から上述した顔画像認識処理を実行し、当該フレーム画像における顔領域を判別する（ステップＳ１０４）。

次いで、表情／向き判別部１３２は、認識された顔領域の画像に基づいて表情／向き判別処理を実行し、歌唱者の表情及び向きを判別する（ステップＳ１０５）。

次いで、画像変換処理部１３３は、判別された表情及び向きと一致するキャラクタ画像をシステム用データベース１２０から読み出し、認識された顔領域上に、大きさを調整しつつ、重畳させるための画像変換処理を行う（ステップＳ１０６）。画像変換処理が実行されると、表示制御部１１６は、キャラクタ画像が重畳されたフレーム画像を表示部１１４に表示し、システム用データベース１２０に記録する。

次いで、システム制御部１０６は、カラオケの再生が終了したか否かを判断し（ステップＳ１０７）、カラオケの再生が終了していないと判断した場合には、ステップＳ１０４の処理に移行して画像処理部１３０に次のフレーム画像について所定の処理を実行させ、カラオケの再生が終了していとと判断した場合には、ステップＳ１０８の処理に移行する。

次いで、システム制御部１０６は、表示部１１４に、生成されたカラオケ画像をアップロードするか否かを選択させるための表示を行ってその入力を待機する（ステップＳ１０８）。

次いで、システム制御部１０６は、操作部１０８からの入力に基づいて、生成されたカラオケ画像データを管理サーバ装置３００にアップロードするか否かを判断し（ステップＳ１０９）、生成されたカラオケ画像データを管理サーバ装置３００にアップロードしないと判断した場合には、本動作を終了させる。

一方、システム制御部１０６は、生成されたカラオケ画像データを管理サーバ装置３００にアップロードすると判断した場合には、通信制御部１０２を介して当該カラオケ画像データを管理サーバ装置３００にアップロードするとともに、アップロード先のＵＲＬアドレスを取得して表示部１１４に表示させて（ステップＳ１１０）、本動作を終了させる。

なお、このとき、システム制御部１０６は、操作部１０８及び表示部１１４と連動してアップロードする際に、楽曲名称、ユーザＩＤ及びデータ名称などの各情報の入力を促すとともに、楽曲ＩＤなどの属性情報をカラオケ再生部１０４などから読み出して各入力された各情報及び属性情報とともに、カラオケ画像データをアップロードする。また、システム制御部１０６は、取得したＵＲＬアドレスを携帯用電話機などの他の通信端末装置に送信する処理を行ってもよいし、当該ＵＲＬを２次元バーコードとして表示部１１４に表示してもよい。

［作用効果］
以上本実施形態のカラオケシステム１００は、撮像された歌唱者の顔にキャラクタ画像を重畳するとともに、歌唱者の表情及び向きに基づいて撮像された歌唱者の顔に重畳する創作画像を変化させることができるので、歌を歌う、または、他人の歌を聴く娯楽の他に、歌唱者のユニークな画像を楽しむ新たな娯楽性を提供することができる。

また、本実施形態のカラオケシステム１００は、カラオケ情報に基づいて、撮像された歌唱者の顔領域に重畳された創作画像を簡易に変化させることができる。

また、本実施形態のカラオケシステム１００は、プライバシーの保護と自己の表現の公開との両立を実現することができるとともに、当歌唱者の顔の部分がキャラクタとなっている歌唱者画像の利用を通じて該歌唱者画像の生成するためのカラオケシステム１００の利用の促進を図ることができる。

［変形例］
本実施形態においては、歌唱者の表情または向きに加えて、カラオケ再生部１０４によって、カラオケデータに含まれる曲調情報、基準音高情報及び楽曲構成情報を取得し、画像変換処理部１３３は、当該取得された曲調情報または基準音高情報に基づいて撮像された歌唱者の顔に重畳するキャラクタ画像を変化させてよい。例えば、バラードを歌唱している場合には、キャラクタ画像の表情をしかめて雰囲気を暗くするキャラクタ画像を用い、ノリの激しい曲を歌唱している場合には、左右に向くときにその向きの変化を大きくするようにキャラクタ画像を重畳する。したがって、この場合には、歌を歌う、または、他人の歌を聴く娯楽の他に、歌唱者のユニークな画像を更に楽しむ新たな娯楽性を提供することができる。なお、例えば、この場合においては、カラオケ再生部１０４は、本発明の制御情報取得手段を構成する。

また、本実施形態においては、歌唱者の顔のみにキャラクタ画像を重畳しているが、撮像画像に、歌唱者とは異なる非歌唱者が存在する場合に、フレーム毎に、出力された撮像画像の中から非歌唱者の顔領域を認識し、画像変換処理部１３３は、認識された非歌唱者の顔領域に、予め設定された、もしくは、ランダムに選択された、歌唱者とは異なる種類のキャラクタ画像、または、歌唱者同一の種類のキャラクタ画像を重畳させてもよい。この場合には、被歌唱者についても顔をキャラクタ画像にすることによって、さらにユニークな画像を楽しむ新たな娯楽性を提供することができる。

本実施形態においては、各フレーム画像の顔領域の大きさに基づいてキャラクタ画像の大小を調整しつつ、当該フレーム画像に重畳するようになっているが、カラオケ画像生成処理前に、表示部１１４に表示された画像を閲覧しつつ、当該基準となるキャラクタ画像の大きさを定め、当該定めたキャラクタ画像の大きさに基づいて、フレーム画像にキャラクタ画像を重畳してもよい。

本実施形態においては、画像変換処理部１３３は、予めシステム用データベース１２０に記憶されたキャラクタ画像を歌唱者が撮像されたフレーム画像の顔領域上に重畳することによって歌唱者の画像にキャラクタ画像を合成しているが、データベースに記憶された単一の３Ｄのキャラクタ画像に対して演算処理を実行して、表情／向き判別部１３２によって判別された表情及び向きに該当する画像を生成し、生成された画像をフレーム画像の顔領域上に重畳するようにしてもよい。

また、本実施形態の画像変換処理部１３３は、撮像された歌唱者の顔領域にキャラクタ画像を重畳するようになっているが、背景に対して星または雪などの装飾的な画像を重畳するようにしてもよい。この場合には、画像変換処理部１３３は、特に、歌唱者の画像の予め定められた所定の領域に、装飾画像を表示する。また、上述の曲調情報、基準音高情報または楽曲構成情報に基づいて、装飾画像を間奏またはサビ終わりなどの所定のタイミングに表示してもよい。

また、本実施形態の画像処理部１３０においては、フレーム画像における歌唱者の顔領域にキャラクタ画像を重畳するようになっているが、当該フレーム画像における歌唱者全身の領域（以下、「全身領域」という。）にアバターなどのキャラクタ全体の画像（以下、「キャラクタ全体画像」という。）を重畳するようにしてもよい。

この場合には、認識処理部１３１は、操作部１０８と表示部１１４と連動してカラオケをスタートさせる前に予め撮像された歌唱者の画像から歌唱者全身領域のピクセル特徴量を登録させる。そして、認識処理部１３１は、フレーム画像毎に、当該各フレーム画像を構成する各ピクセル特徴量から歌唱者全身領域のピクセル特徴量を算出して、同一の特徴量を有するピクセル群を歌唱者全身領域として認識するようになっている。

なお、認識処理部１３１は、一の画像フレームにおける歌唱者全身領域を認識する際に、前フレーム画像によって特定された歌唱者全身領域の各ピクセルの情報に基づいて演算の効率化を図ることも可能である。すなわち、一のフレーム画像について歌唱者全身領域の画像に属する各ピクセルは、次のフレーム画像においては前フレーム画像の歌唱者全身領域の各ピクセル位置に隣接するピクセル位置に存在することが想定できるので、前フレーム画像の各ピクセル位置に隣接する各ピクセルについてピクセル特徴を重点的に算出することによって、フレーム画像全体を一から算出して比較するよりは演算効率を図ることができる。

また、この場合に、表情／向き判別部１３２は、顔だけでなく全身の向きを検出し、画像変換処理部は、当該歌唱者の全身の動きを判別し、当該判別した全身の動きにマッチするキャラクタ画像を、カラオケデータ用データベースから読み出す。例えば、表情／向き判別部１３２は、正面、右向き、左向き、背面の他に、ジャンプまたは踊っている手足の動きを検出し、歌唱者の向きと動きを判別するようになっている。そして、画像変換処理部１３２は、当該判別された向きと動きに基づいてシステム用データベース１２０から一のキャラクタ画像を選択して該当する歌唱者全身領域に重畳する。なお、キャラクタ画像の選択に対しては顔領域の場合と一緒である。

＜第２実施形態＞
次に、図５及び図６を用いて本願に係る本実施形態における第２実施形態のカラオケシステム１００について説明する。

本実施形態は、第１実施形態において、歌唱者の顔の表情及び顔の向きに基づいてキャラクタ画像を変化させる点に代えて、マイクロホンＭによって集音された歌唱者の声に関する声情報、または、再生された楽曲データから歌唱者が歌う歌のパートに関する歌パート情報に基づいて、キャラクタ画像を変化させる点に特徴がある。その他の構成は、第１実施形態と同様であり、同一の部材については同一の符号を付してその説明を省略する。

［画像処理部］
本実施形態の画像処理部１３０は、カラオケ画像生成処理を実行する際に、声情報としてマイクロホンＭによって集音された歌唱者の声量情報、及び、当該集音された歌唱者の声の高さを示す歌唱者声高情報、並びに、歌パート情報として、楽曲で想定されている前記歌唱者が歌う歌のパートにおける音の高さを示す歌パート音高情報に基づいて、撮像カメラ装置１１８と連動して歌唱者の撮像を行いつつ、当該歌唱者の顔部分にキャラクタ画像を重畳表示するカラオケ画像生成するための各種の処理を行うようになっている。

特に、画像処理部１３０は、撮像カメラ装置１１８から出力されたフレーム毎のフレーム画像に対して、当該フレーム画像内における歌唱者の顔部分の顔領域を認識しつつ、再生されたカラオケデータから、歌唱者が歌う歌のパートにおける音の高さを示す歌パート音高情報、マイクロホンＭよって集音された歌唱者の声量値を示す声量情報、または、マイクロホンＭによって集音された歌唱者の声の高さを示す歌唱者声高情報に基づいて、システム用データベース１２０に記憶された予め設定されたキャラクタにおける表情が異なるキャラクタ画像を特定し、特定したキャラクタ画像をフレーム画像に重畳するようになっている。

具体的には、画像処理部１３０は、顔領域を認識する認識処理部１３１と、歌パート音高情報、声量情報、歌唱者声高情報におけるレベルを判定するレベル判定部１４２と、判定されたレベルに基づいて予め設定されたキャラクタからシステム用データベース１２０に記憶された一のキャラクタ画像を選択し、顔領域に重畳する画像変換処理部１３３と、から構成されている。

なお、例えば、本実施形態の認識処理部１３１は、本発明の認識手段を構成し、レベル判定部１４２は、本発明のカラオケ情報取得手段を構成する。また、例えば、本実施形態の画像変換処理部１３３は、本発明の画像変換処理手段を構成する。

レベル判定部１４２は、
（１）再生中のカラオケデータを受信し、当該再生に伴ってカラオケデータに含まれる歌パート音高情報が予め定められた音以上であるか否か、
（２）カラオケデータに沿って歌唱する歌唱者の声量をマイクロホンＭ及び音声入力処理部１１０を介して声量情報として受信し、受信した歌唱者の声量値が予め定められた値以上であるか否か、または、
（３）カラオケデータに沿って歌唱する歌唱者の声高をマイクロホンＭ及び音声入力処理部１１０を介して声量情報として受信し、受信した歌唱者の声の高さを示す歌唱者声高情報が予め定められた音以上であるか否かを段階的に判定するようになっている。

例えば、レベル判定部１４２は、ＭＩＤＩデータのノートナンバーに基づいてカラオケデータにおける歌パートの音高情報が所定の高音以上であるか否か、その高音から３音以上高いか否か、及び、その高音から５音以上高いか否かを判定するようになっている。そして、レベル判定部１４２は、カラオケデータにおける歌パートの音高情報が所定の高音以上であってその音より３音低い音である判定した場合には、レベル１と、所定の高音から３音以上高く、かつ、５音より低いと判定した場合には、レベル２と、所定の高音から５音以上高いと判定した場合には、レベル３と判定するようになっている。

また、レベル判定部１４２は、マイクロホンＭから出力された電気信号の振幅に基づいて、集音された歌唱者の声量値が第１のレベル以上であるか否か、第１のレベルより値が大きい第２のレベル以上である否か、及び、第２のレベルより値が大きい第３のレベル以上であるか否かを判定するようになっている。そして、レベル判定部１４２は、歌唱者の声量値が第１のレベル以上であって第２のレベルより小さい場合には、レベル１と、歌唱者の声量値が第２のレベル以上であって第３のレベルより小さい場合には、レベル２と、歌唱者の声量値が第３のレベル以上である場合には、レベル３と判定するようになっている。

さらに、レベル判定部１４２は、マイクロホンＭから出力された電気信号の周波数特性に基づいて、マイクロホンＭによって集音された歌唱者の声高情報が所定の高音以上であるか否か、その高音から３音以上高いか否か、及び、その高音から５音以上高いか否かを判定するようになっている。そして、レベル判定部１４２は、カラオケデータにおける歌パートの音高情報が所定の高音以上であってその音より３音低い音である判定した場合には、レベル１と、所定の高音から３音以上高く、かつ、５音より低いと判定した場合には、レベル２と、所定の高音から５音以上高いと判定した場合には、レベル３と判定するようになっている。

なお、本実施形態においては、レベル判定部１４２は、歌パート音高情報、歌唱者の声量情報、歌唱者声高情報は、その何れかに基づいて、上記のレベルを判定すればよく、全てにおいて判定する必要はない。また、歌唱者または被歌唱者によって、または、予めシステム制御部１０６によって、何れの情報に基づいてレベル判定を行うか設定するようになっている。

［システム用データベース］
システム用データベース１２０には、各キャラクタ毎に、歌唱することが辛い表情のレベルが異なる複数種類のキャラクタ画像を有している。例えば、上記のように、レベル１の場合には、キャラクタの顔が「ピンク」色に染まっている画像、レベル２の場合には、キャラクタの顔が「赤」色に染まり、頭から煙りが出ている画像、及び、レベル３の場合には、キャラクタの顔が「青」色となり、疲れ切っている表情を有する画像が、キャラクタ毎に記憶されている。

［カラオケ画像生成処理を含むアップロード処理］
次に、図６を用いて本実施形態におけるカラオケ画像生成処理を含むアップロード処理の動作について説明する。なお、図６は、本実施形態におけるカラオケ画像生成処理を含むアップロード処理の動作について説明するフローチャートである。

まず、操作部１０８によってカラオケデータの選曲前にカラオケ画像生成処理を実行する旨の指示が入力されると（ステップＳ２０１）、システム制御部１０６は、システム用データベース１２０に記憶された複数のキャラクタを表示部１１４に表示させ、表示部１１４及び操作部１０８と連動して歌唱者または歌唱者以外の他のユーザに一のキャラクタを選択させるための処理を実行する（ステップＳ２０２）。

次いで、システム制御部１０６は、操作部１０８からの選曲データの入力を待ってカラオケ再生部１０４にカラオケデータの再生、及び、撮像カメラ装置１１８に歌唱者の撮像を開始させるとともに、画像処理部１３０に、当該歌唱者におけるカラオケ画像生成処理の実行を開始させる（ステップＳ２０３）。なお、画像処理部１３０は、カラオケ画像生成処理の実行が開始されると、フレーム毎に以下の処理を実行するとともに、システム制御部１０６は、各フレーム毎のフレーム画像を、再生された楽曲データ及び歌唱者の声データとともにミキシングしつつ順次システム用データベース１２０に記録する。

まず、認識処理部１３１は、入力されたフレーム画像から上述した顔画像認識処理を実行し、当該フレーム画像における顔領域を判別する（ステップＳ２０４）。

次いで、レベル判定部１４２は、歌パート音高情報、声量情報または歌唱者声高情報に基づいて、レベルを判定する（ステップＳ２０５）。

次いで、画像変換処理部１３３は、判定されたレベルと同一のキャラクタ画像をシステム用データベース１２０から読み出し、認識された顔領域上に、大きさを調整しつつ、重畳させるための画像変換処理を行う（ステップＳ２０６）。画像変換処理が実行されると、表示制御部１１６は、キャラクタ画像が重畳されたフレーム画像を表示部１１４に表示するとともに、システム用データベース１２０に記録する。

次いで、システム制御部１０６は、カラオケの再生が終了したか否かを判断し（ステップＳ２０７）、カラオケの再生が終了していないと判断した場合には、ステップＳ２０４の処理に移行して画像処理部１３０に次のフレーム画像について所定の処理を実行させ、カラオケの再生が終了していとと判断した場合には、ステップＳ２０８の処理に移行する。

次いで、システム制御部１０６は、表示部１１４に、生成されたカラオケ画像をアップロードするか否かを選択させるための表示を行ってその入力を待機する（ステップＳ２０８）。

次いで、システム制御部１０６は、操作部１０８からの入力に基づいて、生成されたカラオケ画像データを管理サーバ装置３００にアップロードするか否かを判断し（ステップＳ２０９）、生成されたカラオケ画像データを管理サーバ装置３００にアップロードしないと判断した場合には、本動作を終了させる。

一方、システム制御部１０６は、生成されたカラオケ画像データを管理サーバ装置３００にアップロードすると判断した場合には、通信制御部１０２を介して当該カラオケ画像データを管理サーバ装置３００にアップロードするとともに、アップロード先のＵＲＬアドレスを取得して表示部１１４に表示させて（ステップＳ２１０）、本動作を終了させる。

［作用効果］
以上本実施形態のカラオケシステム１００は、撮像された歌唱者の顔にキャラクタ画像を重畳するとともに、歌パート音高情報、声量情報または歌唱者声高情に基づいて撮像された歌唱者の顔に重畳するキャラクタ画像を変化させることができるので、歌を歌う、または、他人の歌を聴く娯楽の他に、歌唱者のユニークな画像を楽しむ新たな娯楽性を提供することができる。

［変形例］
本実施形態のレベル判定部１４２は、歌パート情報として歌パート音高情報を用いているが、歌唱者が歌う歌パートにおける歌詞を歌うタイミングを示す歌パートタイミング情報、または、当該歌パートにおける音量を示す歌パート音量情報を用いてもよい。なお、歌パートタイミング情報の場合には、上述のようにしきい値によって画像を切り替えるのではなく、そのタイミングで適切な画像に切り替える。

本実施形態のレベル判定部１４２は、歌パート音高情報、声量情報または歌唱者声高情に基づいて撮像された歌唱者の顔に重畳するキャラクタ画像を変化させているが、カラオケ中に歌唱者声高情報と歌パート音高情報の一致度を示す一致度情報、すなわち、歌唱者の歌唱力の採点を実行し、予め定められた点数でレベルを設定し、画像変換処理が当該レベルに基づいてキャラクタ画像を重畳するようにしてもよい。この場合に、例えば、歌パート音高情報と歌唱者声高情報は、同一の性質を有する情報である。また、上述の歌パート音量情報と声量情報は、同一の性質を有する情報である。

本実施形態においては、カラオケ情報に加えて、カラオケ再生部１０４によって、カラオケデータに含まれる曲調情報、基準音高情報及び楽曲構成情報を取得し、画像変換処理部１３３は、当該取得された曲調情報または基準音高情報に基づいて撮像された歌唱者の顔に重畳するキャラクタ画像を変化させてよい。例えば、バラードを歌唱している場合には、キャラクタ画像の表情をしかめて雰囲気を暗くするキャラクタ画像を用い、ノリの激しい曲を歌唱している場合には、左右に向くときにその向きの変化を大きくするようにキャラクタ画像を重畳する。したがって、この場合には、歌を歌う、または、他人の歌を聴く娯楽の他に、歌唱者のユニークな画像を更に楽しむ新たな娯楽性を提供することができる。なお、例えば、この場合においては、カラオケ再生部１０４は、本発明の制御情報取得手段を構成する。

また、本実施形態においては、歌唱者の顔のみにキャラクタ画像を重畳しているが、撮像画像に、歌唱者とは異なる非歌唱者が存在する場合に、第１実施形態の認識処理部を用いて、フレーム毎に、出力された撮像画像の中から非歌唱者の顔領域を認識し、画像変換処理部１３３は、認識された非歌唱者の顔領域に、予め設定された、もしくは、ランダムに選択された、歌唱者とは異なる種類のキャラクタ画像、または、歌唱者同一の種類のキャラクタ画像を重畳させてもよい。この場合には、被歌唱者についても顔をキャラクタ画像にすることによって、さらにユニークな画像を楽しむ新たな娯楽性を提供することができる。

また、本実施形態では、キャラクタ画像に加えて当該変化したキャラクタ画像に伴って歌唱者の歌唱状況を示す文言を各フレーム画像に重畳するようにしてもよい。例えば、上述のように、マイクロホンＭによって集音された歌唱者の声高または声量が一定レベル以上であると検出された場合に、画像変換処理部１３２は、「声を高くしすぎ」、「声を大きくしすぎ」などの予め設定された状況を示す文字をキャラクタ画像とともにクレーム画像に重畳する。なお、状況示す文字に代えて、または、当該状況を示す文字に加えて、「喉を痛めますよ」または「音程を下げてはいかがでしょうか」などのアドバイスを示す文字をフレーム画像に重畳するようにしてもよい。また、当該文字またはアドバイスに関しては、上述した被歌唱者のキャラクタ画像から吹き出しているように画像処理を行うようにしてもよい。

＜第３実施形態＞
次に、図７を用いて本願に係る本実施形態における第３実施形態のカラオケシステム１００について説明する。

本実施形態は、第１実施形態において、既にアップロードされた第１の歌唱者におけるカラオケ画像データ（以下、「第１カラオケ画像データ」という。）を再生しつつ、第１の歌唱者に合わせて第２の歌唱者がカラオケを実行し、第２の歌唱者におけるカラオケ画像データ（以下、「第２カラオケ画像データ」という。）を第１カラオケ画像データと合成した合成カラオケ画像データを生成する点に特徴がある。その他の構成は、第１実施形態と同様であり、同一の部材については同一の符号を付してその説明を省略する。

［カラオケ再生部］
カラオケ再生部１０４は、システム制御部１０６の制御の下、カラオケ画像データから当該カラオケ画像データに録音されているオーディオデータを取得し、取得したオーディオデータを拡声処理部１１２に出力するようになっている。また、カラオケ再生部１０４は、カラオケ画像データを表示制御部１１６に出力するようになっている。

［カラオケ画像生成処理を含むアップロード処理］
次に、図７を用いて本実施形態におけるカラオケ画像生成処理を含むアップロード処理の動作について説明する。なお、図７は、本実施形態におけるカカラオケ画像生成処理を含むアップロード処理の動作について説明するフローチャートである。

まず、操作部１０８によってカラオケ画像データを選択する前にカラオケ画像生成処理を実行する旨の指示が入力されると（ステップＳ３０１）、システム制御部１０６は、システム用データベース１２０に記憶された複数のキャラクタを表示部１１４に表示させ、表示部１１４及び操作部１０８と連動して歌唱者または歌唱者以外の他のユーザに一のキャラクタを選択させるための処理を実行する（ステップＳ３０２）。

次いで、システム制御部１０６は、操作部１０８及び通信制御部１０２と連動して、管理サーバ装置３００にアップロードされている複数の第１カラオケ画像データの中から一の第１カラオケ画像データが選択されると（ステップＳ３０３）、カラオケ再生部１０４に選択された第１カラオケ画像データの再生及び当該第１カラオケ画像データに含まれるオーディオデータの再生と、撮像カメラ装置１１８に歌唱者の撮像と、を開始させるとともに、画像処理部１３０に、当該歌唱者におけるカラオケ画像生成処理の実行を開始させる（ステップＳ３０４）。なお、画像処理部１３０は、カラオケ画像生成処理の実行が開始されると、フレーム毎に以下の処理を実行するとともに、システム制御部１０６は、フレーム毎のフレーム画像を、再生されたオーディオデータ及び歌唱者の声データとともにミキシングしつつ順次システム用データベース１２０に記録する。

まず、認識処理部１３１は、入力されたフレーム画像から上述した顔画像認識処理を実行し、当該フレーム画像における顔領域を判別する（ステップＳ３０５）。

次いで、表情／向き判別部１３２は、認識された顔領域の画像に基づいて表情／向き判別処理を実行し、歌唱者の表情及び向きを判別する（ステップＳ３０６）。

次いで、画像変換処理部１３３は、判定されたレベルと同一のキャラクタ画像をシステム用データベース１２０から読み出し、認識された顔領域上に、大きさを調整しつつ、重畳させるための画像変換処理を行う（ステップＳ３０７）。画像変換処理が実行されると、表示制御部１１６は、キャラクタ画像が重畳されたフレーム画像（すなわち、キャラクタ画像が重畳された第２カラオケ画像データ）を表示部１１４に表示するとともに、システム用データベース１２０に記録する。

次いで、システム制御部１０６は、カラオケの再生が終了したか否かを判断し（ステップＳ３０８）、カラオケの再生が終了していないと判断した場合には、ステップＳ３０５の処理に移行して画像処理部１３０に次のフレーム画像（第２カラオケ画像データ）について所定の処理を実行させ、カラオケの再生が終了していとと判断した場合には、ステップＳ３０９の処理に移行する。

次いで、システム制御部１０６は、表示部１１４に、生成されたカラオケ画像、すなわち、第１カラオケ画像データと第２カラオケ画像データが合成されている画像をアップロードするか否かを選択させるための表示を行ってその入力を待機する（ステップＳ３０９）。

次いで、システム制御部１０６は、操作部１０８からの入力に基づいて、生成されたカラオケ画像データを管理サーバ装置３００にアップロードするか否かを判断し（ステップＳ３１０）、生成されたカラオケ画像データを管理サーバ装置３００にアップロードしないと判断した場合には、本動作を終了させる。

一方、システム制御部１０６は、生成されたカラオケ画像データを管理サーバ装置３００にアップロードすると判断した場合には、通信制御部１０２を介して当該カラオケ画像データを管理サーバ装置３００にアップロードするとともに、アップロード先のＵＲＬアドレスを取得して表示部１１４に表示させて（ステップＳ３１１）、本動作を終了させる。

なお、このとき、システム制御部１０６は、操作部１０８及び表示部１１４と連動してアップロードする際に、楽曲名称、ユーザＩＤ及びデータ名称などの各情報の入力を促すとともに、楽曲ＩＤなどの属性情報をカラオケ再生部１０４などから読み出して各入力された各情報及び属性情報とともに、カラオケ画像データをアップロードする。また、システム制御部１０６は、取得したＵＲＬアドレスアドレスを携帯用電話機などの他の通信端末装置に送信する処理を行ってもよいし、当該ＵＲＬを２次元バーコードとして表示部１１４に表示してもよい。

［作用効果］
以上本実施形態のカラオケシステム１００は、第１実施形態に加えて、プライバシーの保護と自己の表現の公開との両立を実現することができるとともに、当歌唱者の顔の部分がキャラクタとなっている歌唱者画像の利用を通じて該歌唱者画像の生成するためのカラオケシステム１００の利用の促進を図ることができる。

［変形例］
本実施形態のレベル判定部１４２は、撮像された歌唱者の顔にキャラクタ画像を重畳するとともに、歌パート音高情報、声量情報または歌唱者声高情に基づいて撮像された歌唱者の顔に重畳するキャラクタ画像を変化させているが、カラオケ中に歌唱者声高情報と歌パート音高情報の一致度を示す一致度情報、すなわち、歌唱者の歌唱力の採点を実行し、予め定められた点数でレベルを設定し、画像変換処理が当該レベルに基づいてキャラクタ画像を重畳するようにしてもよい。

本実施形態においては、歌唱者の表情または向きに加えて、カラオケ再生部１０４によって、カラオケデータに含まれる曲調情報、基準音高情報及び楽曲構成情報を取得し、画像変換処理部１３３は、当該取得された曲調情報または基準音高情報に基づいて撮像された歌唱者の顔に重畳するキャラクタ画像を変化させてよい。例えば、バラードを歌唱している場合には、キャラクタ画像の表情をしかめて雰囲気を暗くするキャラクタ画像を用い、ノリの激しい曲を歌唱している場合には、左右に向くときにその向きの変化を大きくするようにキャラクタ画像を重畳する。したがって、この場合には、歌を歌う、または、他人の歌を聴く娯楽の他に、歌唱者のユニークな画像を更に楽しむ新たな娯楽性を提供することができる。なお、例えば、この場合においては、カラオケ再生部１０４は、本発明の制御情報取得手段を構成する。

また、本実施形態においては、第１カラオケ画像データが選択される前に、第２カラオケ画像データに用いるキャラクタ画像を歌唱者などのユーザに選択させて設定しているが、第１カラオケ画像データが選択された後に、第２カラオケ画像データに用いるおける各フレーム画像に重像するキャラクタ画像を自動的にまたはユーザの指示によって選択させるようにしてもよい。この場合に、第１カラオケ画像データに用いられたキャラクタ画像と関連するキャラクタ画像を自動的にまたはユーザによって選択的に表示及び設定されて用いられるようにしてもよい。

具体的には、システム用データベース１２０にキャラクタ毎に、他の記憶されたキャラクタとの関連性を示す属性情報とともに記憶させ、カラオケ画像が生成される毎に、すなわち、第１カラオケ画像データが生成される毎に、属性情報についてもカラオケ画像データの一部に保持させる。そして、上述のように、第１カラオケ画像データが選択された際に、この属性情報を読み出して当該属性情報と一致する属性情報を有するキャラクタをランダムに設定し、または、一致する属性情報を有する複数のキャラクタを提示してユーザに一のキャラクタを選択させるようにしてもよい。なお、例えば、この属性情報には、兄弟または姉妹などのキャラクタの同一ファミリーである場合、キャラクタを提供している会社が同一である場合、歌手、漫才師または芸術家などの同一のグループに属している場合に、同一の属性情報となる。

１０ … ネットワークシステム
１００ … カラオケシステム
１００ … データベース
１０２ … 通信制御部
１０４ … カラオケ再生部
１０６ … システム制御部
１０８ … 操作部
１１０ … 音声入力処理部
１１２ … 拡声処理部
１１４ … 表示部
１１６ … 表示制御部
１１８ … 撮像カメラ装置
１２０ … システム用データベース
１３０ … 画像処理部
１３１ … 認識処理部
１３２ … 表情／向き判別部
１３３ … 画像変換処理部
２００ … カラオケデータ用データベース
１４２ … レベル判定部
３００ … 管理サーバ装置
４００ … 端末装置

Claims

複数の楽曲データから一の楽曲データを選択して当該選択された楽曲データを再生して楽音を出力させるとともに、当該楽音の出力に伴って前記選択された楽曲の歌詞を表示手段に表示するカラオケシステムであって、
前記楽曲データを再生する再生手段と、
前記再生された楽曲の楽音を出力するとともに集音手段によって集音された歌唱者の声を拡声する出力手段と、
前記楽曲の再生に合わせて歌唱する歌唱者を撮像し、フレーム毎に撮像した画像を撮像画像として出力する撮像手段と、
前記フレーム毎に、前記出力された撮像画像の中から当該歌唱者の顔部分の画像領域である顔領域を認識する認識手段と、
前記認識された顔領域に、予め設定され画像であって人間の顔または擬人化されたものの顔を題材として創作された創作画像を重畳する画像処理を行う画像処理手段と、
前記画像処理された画像を前記表示手段に表示させる表示制御手段と、
を備え、
前記画像処理手段が、
前記集音手段によって集音された歌唱者の声に関する声情報、及び、前記再生された楽曲データから前記歌唱者が歌う歌のパートに関する歌パート情報の少なくとも何れか一方の情報を順次カラオケ情報として取得するカラオケ情報取得手段と、
前記取得されたカラオケ情報に含まれる値が予め定められた値以上の場合に、前記重畳する創作画像を変化させる画像変換処理手段と、
を含むことを特徴とするカラオケシステム。
請求項１に記載のカラオケシステムにおいて、
前記声情報には、前記集音手段よって集音された歌唱者の声量値を示す声量情報、及び、当該集音された歌唱者の声の高さを示す歌唱者声高情報の少なくとも何れか一方の情報が含まれるとともに、
前記歌パート情報には、前記歌唱者が歌う歌のパートにおける音の高さを示す歌パート音高情報、当該歌パートにおける歌詞を歌うタイミングを示す歌パートタイミング情報、及び、当該歌パートにおける音量を示す歌パート音量情報の少なくとも何れか一方の情報が含まれる、カラオケシステム。
請求項１または２に記載のカラオケシステムであって、
前記カラオケ情報に前記声情報と前記歌パート情報の双方が含まれる場合に、
前記画像変換処理手段が、前記声情報と前記歌パート情報の同一の性質を有する情報の一致度に基づいて前記重畳する創作画像を変化させる、カラオケシステム。
請求項１〜３の何れか一項に記載のカラオケシステムであって、
一の顔を題材として創作された顔のパターンが異なる複数の創作画像から構成される創作画像群が複数記憶される記憶手段を更に備え、
前記画像変換処理手段が、前記取得手段によって取得されたカラオケ情報に基づいて、一の創作画像を選択し、前記選択された創作画像を前記撮像画像に重畳することによって、前記重畳する創作画像を変化させる、カラオケシステム。
請求項４に記載のカラオケシステムであって、
前記楽曲データから曲調を示す曲調情報、曲構成部分を示す構成情報及び楽曲の基準音の高さを示す基準音高情報の少なくとも何れか一の情報から構成される制御情報を取得する制御情報取得手段を更に備え、
前記画像処理手段が、前記記憶手段に記憶された創作画像群の中から、前記取得されたカラオケ情報及び前記制御情報に基づいて一の創作画像を選択し、前記選択された創作画像を前記撮像画像に重畳することによって、前記重畳する創作画像を変化させる、カラオケシステム。
複数の楽曲データから一の楽曲データを選択して当該選択された楽曲データを再生して楽音を出力させるとともに、当該楽音の出力に伴って前記選択された楽曲の歌詞を表示手段に表示するカラオケシステムであって、
前記楽曲データを再生する再生手段と、
前記再生された楽曲の楽音を出力するとともに集音手段によって集音された歌唱者の声を拡声する出力手段と、
前記楽曲の再生に合わせて歌唱する歌唱者を撮像し、フレーム毎に撮像した画像を撮像画像として出力する撮像手段と、
前記フレーム毎に、前記出力された撮像画像の中から当該歌唱者の顔部分の画像領域である顔領域を認識する認識手段と、
前記認識された顔領域に、予め設定され画像であって人間の顔または擬人化されたものの顔を題材として創作された創作画像を重畳する画像処理を行う画像処理手段と、
前記画像処理された画像を前記表示手段に表示させる表示制御手段と、
を備え、
前記画像処理手段が、
前記認識された顔領域の画像に基づいて前記歌唱者の表情または当該歌唱者の顔の向きを判別する判別手段と、
前記集音手段によって集音された歌唱者の声に関する声情報、及び、前記再生された楽曲データから前記歌唱者が歌う歌のパートに関する歌パート情報の少なくとも何れか一方の情報を順次カラオケ情報として取得するカラオケ情報取得手段と、
前記判別された顔の表情または顔の向きと、前記取得されたカラオケ情報と、に基づいて前記重畳する創作画像を変化させる画像変換処理手段と、
を含むことを特徴とするカラオケシステム。
請求項６に記載のカラオケシステムであって、
一の顔を題材として創作された顔のパターンが異なる複数の創作画像から構成される創作画像群が複数記憶される記憶手段を更に備え、
前記画像変換理手段が、前記記憶された創作画像群の中から、前記判別された顔の表情または顔の向きと、に基づいて、一の創作画像を選択し、前記選択された創作画像を前記撮像画像に重畳することによって、前記重畳する創作画像を変化させる、カラオケシステム。
請求項７に記載のカラオケシステムであって、
前記楽曲データから曲調を示す曲調情報、曲構成部分を示す構成情報及び楽曲の基準音の高さを示す基準音高情報の少なくとも何れか一の情報から構成される制御情報を取得する制御情報取得手段を更に備え、
前記画像処理手段が、前記記憶手段に記憶された創作画像群の中から、前記判別された顔の表情または顔の向きと前記取得された制御情報に基づいて一の創作画像を選択し、前記選択された創作画像を前記撮像画像に重畳することによって、前記重畳する創作画像を変化させる、カラオケシステム。
請求項１〜８の何れか一項に記載のカラオケシステムであって、
前記認識手段が、前記撮像画像に、前記歌唱者とは異なる非歌唱者が存在する場合に、前記フレーム毎に、前記出力された撮像画像の中から前記非歌唱者の顔領域を認識し、
前記画像変換処理手段が、前記認識された非歌唱者の顔領域に、前記歌唱者とは異なる種類の創作画像または同一の創作画像を重畳させることを特徴とするカラオケシステム。
請求項１〜９の何れか一項に記載のカラオケシステムであって、
前記再生手段が、前記創作画像が既に重畳された歌唱者の画像を、第１歌唱者画像として、当該第１歌唱者画像を生成したときの楽曲データ及び第１歌唱者の声データとともに再生し、
前記出力手段、前記撮像手段、認識手段及び画像処理手段が当該再生された第１歌唱者画像に基づいて、第２歌唱者に対して動作するとともに、
前記表示制御手段が、前記第１歌唱者画像に第２歌唱者の画像を合成した合成画像を前記表示手段に表示させる、カラオケシステム。
請求項１〜１０の何れか一項に記載のカラオケシステムであって、
前記表示手段に表示された前記画像を画像データとしてネットワークに接続され、通信端末装置にて閲覧可能にサーバ装置にアップロードする通信手段を更に有する、カラオケシステム。