以下、本発明の最良の実施形態を図面に基づいて説明する。なお、本発明は、有線または無線による電子通信回線を通じて情報をダウンロードできる全ての電子情報機器に対して適用することも可能である。
[1.システム構成の一例]
図1は、本発明が好適に適用されるカラオケシステム10を説明するブロック図である。この図1に示すように、カラオケシステム10では、カラオケボックス、スナック、旅館等の店舗12における複数の個室14a、14b、14c、・・・(以下、特に区別しない場合には単に個室14と称する)にそれぞれ本発明の一実施例である1台乃至は複数台ずつ(図1では1台ずつ)のカラオケ装置16a、16b、16c、・・・(以下、特に区別しない場合には単にカラオケ装置16と称する)が設置されている。
これら複数のカラオケ装置16は、ルータ17を介して公衆電話回線等による通信回線18に接続されており、同じくその通信回線18に接続されたカラオケサービス提供会社のサーバ装置(センタ装置)20との相互間でその通信回線18を介して情報の通信が可能になっている。
このカラオケサービス提供会社のサーバ装置20は、カラオケ情報(楽曲データ)、背景映像情報、曲間情報等のデジタルコンテンツ(Digital Contents)の保管や入出力管理の基本的な制御を行うサーバであり、通信回線18を介してカラオケ装置16に定期的にコンテンツの配信を行うと共に、そのカラオケ装置16からの要求に応じて所定の機能制御プログラムを送信するものである。
また、カラオケシステム10は、複数の電子装置22a、22b、22c、・・・(以下、特に区別しない場合には単に電子装置22と称する)を備えており、カラオケ装置16の利用に際して、各利用者(グループ)毎に1台ずつの電子装置22が貸与され、各個室14において後述するようにカラオケ装置16の遠隔操作装置として用いられるようになっている。
店舗12内には複数のカラオケ装置16を相互に接続するLAN24が敷設されており、電子装置22からのカラオケ装置16への入力は、所定のアクセスポイント26及びLAN24を介したLAN通信等により行われる。
また、カラオケシステム10は、所定のアプリがインストールされることによりカラオケ装置16の遠隔操作装置等として機能する複数の携帯電話機28a、28b、28c、・・・(以下、特に区別しない場合には単に携帯電話機28と称する)を備えている。これら携帯電話機28は、例えば、前記カラオケ装置16によりカラオケ演奏を行う各利用者の個人所有に係るものである。
図2は、本実施例のカラオケ装置16の構成を例示するブロック線図である。
この図2に示すように、カラオケ装置16は、CRT(Cathode-ray Tube)やTFT(Thin Film Transistor Liquid Crystal)等の映像表示装置30と、CRTコントローラ等の映像出力制御部32と、映像情報デコーダ34と、ビデオミキサ36と、音源であるシンセサイザ38と、音声入力装置であるマイクロフォン40と、アンプミキサ42と、スピーカ44と、操作パネル46と、その操作パネル46等からの入力信号を処理する入出力インターフェース48と、中央演算処理装置であるCPU50と、読出専用メモリであるROM52と、随時書込読出メモリであるRAM54と、記憶装置であるハードディスク56と、モデム58と、LANポート60と、電子装置22やリモコン装置64等の入力装置からのリモコン信号を受信するためのリモコン受信部62とを、備えて構成されている。
映像出力制御部32は、CPU50において生成された歌詞文字映像等の文字映像(テロップ)を出力する文字映像出力装置として機能する他に、映像表示装置30による種々の映像表示を制御する表示制御装置として機能する。
また、映像情報デコーダ34は、利用者が歌詞を参照しながら歌を歌う際にハードディスク56に記憶された背景映像情報に基づいて所定の背景映像を再生(デコード)する背景映像再生装置である。このような背景映像情報に基づいて映像情報デコーダ34により再生された背景映像は、ビデオミキサ36へ送られる。
また、ビデオミキサ36は、CPU50において生成され且つ映像出力制御部32から出力される文字映像と、映像情報デコーダ34により再生される背景映像とを合成して前記映像表示装置30に表示させる映像合成装置である。
シンセサイザ38は、ハードディスク56から読み出されて転送されるカラオケ演奏曲の演奏情報に基づいて楽器の演奏信号等の音楽信号を生成する音源である。
この演奏情報は、例えば、MIDI(Musical Instrument Digital Interface)形式のデータであり、そのMIDIデータに基づいてシンセサイザ38により生成された音楽信号は、アナログ信号に変換されて前記アンプミキサ42へ送られる。そのアンプミキサ42では、送られてきた音楽信号と前記マイクロフォン40を介して入力される利用者の歌声とがミキシングされ、それらの信号が電気的に増幅されてスピーカ44から出力される。
操作パネル46は、カラオケ装置16の利用者が歌いたいカラオケ演奏曲を選択したり、演奏曲の音程を調整したり、演奏と歌との音量バランスを調整したり、その他、エコー、音量、トーン等の各種調整を行うための操作ボタン(スイッチ)或いはつまみを備えた入力装置である。
また、カラオケ装置16には、操作パネル46の一部機能を遠隔で実行するための入力装置として機能するリモコン装置64が備えられている。リモコン受信部62は、そのリモコン装置64から送信されるリモコン信号を受信してCPU50へ供給する。
また、カラオケ装置16と電子装置22との対応付け処理もリモコン受信部62を介して行われ、そのようにしてカラオケ装置16に対応付けられた電子装置22も同様に入力装置として機能する。
また、前述のように、カラオケ装置16に対する情報送信機能を有する携帯電話機28も同様に入力装置として機能する。なお、本実施例においては、カラオケ装置16の入力装置として機能する電子装置22、携帯電話機28、及びリモコン装置64等は、そのカラオケ装置16の一部として備えられたものとして以下の説明を行う。
CPU50は、RAM54の一時記憶機能を利用しつつROM52に予め記憶された所定のプログラムに基づいて電子情報を処理・制御する所謂マイクロコンピュータである。
電子装置22やリモコン装置64等により所定のカラオケ演奏曲が選曲された場合、その選曲されたカラオケ演奏曲をRAM54に設けられた予約曲テーブルに登録する。
また、その予約曲テーブルの演奏順に従ってハードディスク56からRAM54に選曲されたカラオケ演奏曲の演奏情報及び歌詞情報等を読み出し、カラオケ演奏曲の演奏が進行するのに応じてそのRAM54からシンセサイザ38へ演奏情報を送信し、歌詞情報に基づいて歌詞文字映像を生成して映像出力制御部32へ送り、選曲時には曲名文字映像を生成して映像出力制御部32へ送り、映像情報デコーダ34を制御して所定の背景映像を再生させる。
カラオケ演奏が行われていない間、すなわち曲間においては、新譜情報、選曲ランキング、店舗広告等の曲間情報を出力させ、通信回線18を介したサーバ装置20との間の情報通信制御等の基本的な制御に加えて、後述するカラオケのメドレーの自動作成を実行する。
モデム58は、カラオケ装置16を公衆電話回線等による通信回線18に接続するための装置である。
CPU50から出力されるディジタル信号をアナログ信号に変換して通信回線18に送り出すと共に、その通信回線18を介して伝送されるアナログ信号をディジタル信号に変換してCPU50に供給する処理を実行する。
なお、店舗12に備えられた複数のカラオケ装置16のうち何れかのカラオケ装置16がルータ17の機能を備えてマスターコマンダとして通信回線18に接続されてもよい。
この場合、モデム58はそのマスターコマンダとして機能するカラオケ装置16に必要とされるが、マスターコマンダを介してサーバ装置20との間で情報の通信を行う他のカラオケ装置16には必ずしも設けられなくともよい。
LANポート60は、カラオケ装置16がLAN24を介して他のカラオケ装置16や電子装置22等の他の機器と接続するための接続器である。
カラオケ装置16は、そのようにLAN24を介して接続されることで、他のカラオケ装置16や電子装置22等の他の機器との間で情報の送受信が可能となる。
例えば、アクセスポイント26を介して受信される電子早見本装置22からの選曲入力を受け付けてRAM54に設けられた予約曲テーブルに記憶し、そのアクセスポイント26を介してカラオケ装置16から電子装置22へ所定の情報を送信するなど、電波を介してカラオケ装置16と電子装置22との間において相互の情報のやりとりが実行される。
ハードディスク56には、カラオケ演奏曲を出力させるための多数のカラオケデータ(楽曲データ)を記憶するカラオケデータベース128及び背景映像を出力させるための複数の背景映像情報(映像データ)を記憶する背景映像データベース130をはじめとする各種データベースが設けられている。
カラオケボックス等の店舗にそれぞれ備えられた複数のカラオケ装置16のうち所定のカラオケ装置16(例えばカラオケ装置16a)は、モデム58を介して通信回線18に接続されており、複数のカラオケ装置16によって常に新しい曲が演奏可能とされるように、或いは常に新しい背景映像が出力可能とされるように、随時新たな楽曲データや映像データ等がサーバ装置20から通信回線18を介して配信され、ハードディスク56のカラオケデータベース128等に記憶される。
また、そのようにしてサーバ装置20から情報を取得したカラオケ装置16aとその他のカラオケ装置16との間でLAN24を介した通信が行われ、各カラオケ装置16のハードディスク56に記憶される情報が共有され、カラオケデータベース128や背景映像データベース130等の内容が同一のものとなる。
カラオケデータベース128には、カラオケ装置16のカラオケ演奏に用いられる多数(例えば、数万曲)のカラオケ情報が記憶されている。このカラオケ情報は、例えば、シンセサイザ38により所定の出力音(楽器の演奏音)を生成するための演奏情報、その演奏曲の出力と併行してその演奏曲の歌詞文字映像を表示させるための歌詞情報、演奏曲の出力と併行してその歌詞文字映像を順次色替表示させるための歌詞色替情報、及びその歌詞文字映像の背面側レイヤに表示される背景映像を指定する背景映像指定情報等から成るものであり、コンテンツIDである各演奏曲に固有の選曲番号により識別される。
また、背景映像データベース130には、映像情報デコーダ34により所定の映像を再生するための複数の背景映像情報が記憶されている。この背景映像情報は、例えば、MPEG(Moving Picture Experts Group)形式のデータであり、各映像情報に固有の識別情報により識別される。
[2.カラオケ装置の処理機能ブロックの説明]
ここで、本発明の機能を発揮するための構成について、図3に示す機能ブロック図を用いて説明する。
カラオケ装置16等の記憶部109は、演奏曲に対応する演奏曲(楽曲データ)情報、ユーザ情報に対応する楽曲データ情報、楽曲データ情報の楽曲データ付加情報(曲名、歌手名、作曲・作詞者名、楽曲データが使用された番組名、ジャンル名、発表年代/放送年代等の情報(図9(c)参照))、楽曲データが使用された番組名に関する画像情報および、その他の付加情報(図9、10参照)等を含ませて記憶する。
これらの情報はカラオケ情報提供サービス会社等の会社がサーバ装置20にアップロードするので、カラオケ装置16はアップロードされた情報を予めカラオケ装置16の記憶部109にダウンロードして記憶しておく。
なお、これらの情報はサーバ装置20に記憶され、必要な場合に必要な情報を、適宜、サーバ装置20からカラオケ装置16の記憶部109にダウンロードしてカラオケ装置16がダウンロードした情報を使用することも可能である。
カラオケ情報提供サービス会社が提供するサービスを有するカラオケ装置16等の操作パネル46等のユーザ情報入力部46aに、ユーザがログイン(ユーザID等のユーザ情報を入力)するとユーザIDと対応するハードディスク56の記憶部109またはサーバ装置20に記憶された演奏曲(楽曲データ)情報から楽曲データ付加情報が楽曲データ付加情報抽出部101によって抽出される。
なお、楽曲データ付加情報抽出部101は、ユーザ情報入力部46aに入力されたユーザ情報が正規の会員として登録されたものでない場合には、以降の処理を継続せずに中断、もしくは、エラーメッセージを映像表示装置30に表示して次のユーザ情報の入力を待機することも可能である。
カット情報抽出部102は、楽曲データ付加情報に含まれる番組情報を抽出し、番組情報に含まれる少なくとも一つ以上の静止画情報または動画画情報(カット画像情報)に対応し、その静止画情報を特徴付けるカット情報(カット画像情報におけるセリフ、音量情報、音程情報、カット内で主となる人物名、カット内で主となる人物の性別等であって、番組情報に対応される情報)を抽出する。
動画特定情報抽出部103は、ユーザの音声情報が、マイク等の音声情報入力部40を介して入力されると、入力された音声情報から、カット画像情報を特定するための動画特定情報(セリフ(入力された音声情報の内容)、音量情報、音程情報等)を抽出する。
入力された音声情報の内容を示すセリフの抽出には、従来から知られている音声認識手段を使用してもよい。
カット画像情報抽出部104は、動画特定情報抽出部103で抽出された動画特定情報(入力された音声情報の内容を示すセリフ、音量情報、音程情報)に合致(一致)する、カット情報抽出部102によって抽出されたカット情報に含まれる動画検索用情報(カット画像情報における話者のセリフ、音量情報、音程情報)を検索し、検索された動画検索用情報に対応するカット画像情報(静止画情報または動画情報)を抽出する。
また、カット画像情報抽出部104は、動画特定情報抽出部103で抽出された動画特定情報(入力された音声情報の内容を示すセリフ、音量情報、音程情報)に合致(一致)する、動画データ付加情報抽出部108によって抽出された動画データ付加情報を検索し、カット情報に対応するカット画像情報(静止画情報または動画情報)を抽出する。
ここで、抽出されるカット画像情報は一つに限られず、動画特定情報に一致する動画検索用情報を有するカット情報に対応する複数のカット画像情報が抽出され得る。
映像表示装置等の表示部30には、カット画像情報抽出部104によって抽出されたカット画像情報が表示される。
ユーザは、表示部30に表示された少なくもと一つ以上のカット画像情報からユーザ好みのカット画像情報を、操作パネル46等の入力部46bを介して選択する。
選択されたカット画像情報に関する情報がカット画像情報選択部105に入力されると、カット画像情報選択部105は表示部30に表示されているカット画像情報から選択されたカット画像情報を選択し、合成部106へ送る。
合成部106は、カット画像情報選択部105において選択されたカット画像情報と音声情報入力部40を介して入力されたユーザの音声情報とを合成する。
合成されたカット画像情報にはユーザの音声情報が合成されているので、この合成情報が再生されるとユーザ好みの画像においてユーザの音声が視聴可能になる。
カット画像情報関連付部107は、カット画像情報選択部105によって選択されたカット画像情報を関連付ける(一例として、関連付けはユーザの選択順に行うことができる)。
カット画像情報関連付部107によって関連づけられたカット画像情報を連続して再生すると、ユーザの音声で吹き替えられた動画が視聴可能になる(図8(d)参照)。
動画データ付加情報抽出部108は、ユーザが選択したカット画像情報の履歴を示す動画選択履歴情報に含まれる、ユーザ情報に対応する動画データ付加情報を抽出する。
動画選択履歴情報は、ユーザが動画を過去に閲覧し選択した履歴情報であり、ユーザ情報に対応する動画データ付加情報(動画のジャンル、番組名、登場人物、作者、発表年代、カット情報中の動画検索用情報(話者のセリフ、音量情報、音程情報)等の情報)が含まれる。
このように本発明によれば、ユーザが豊富に用意された動画素材の中から好みのものを選択・編集し、オリジナルの音声(ユーザの音声)をアフレコ(吹込み)して、ミックスダウン(映像音声合体)を行い、その映像をカラオケ情報提供サービス会社が提供するネットワークサービスに発表することで、ユーザの誰でもが、気軽にパロディ映像を作って、他のユーザに見せ合うことが可能なサービスを提供できる。
[3.処理動作を示すフローチャートの一例]
次に、図4乃至図7を用いて、本願のカラオケ装置16において、ユーザが、豊富に用意された動画素材の中からユーザの音声および好みに合致したシーンを選択・編集し、オリジナルの音声をアフレコ(吹込み)して、ミックスダウン(映像音声合体)を行うしくみの動作概要を説明する。
なお、カラオケ装置16に限られず、図4乃至図7に記載される機能をサーバ装置20において実行することも可能である。この場合には、サーバ装置20を介してネットワークサービスに発表することで、ユーザの誰でもが、気軽にパロディ映像を作って、他のユーザに見せ合うことが可能なサービスを提供できる。
また、本発明を適用した場合において実現され得る具体的な処理手順である以下に示す処理手順は、一例であってこれ以外にも実現され得る処理手順は無数に存在する。
まず、図4のステップS1において、カラオケ情報提供サービス会社が提供するサービスを有するカラオケ装置16等の操作パネル46等のユーザ情報入力部46aに、ユーザがログイン(ユーザID等のユーザ情報を入力)する。
なお、ステップS1、S9、S15およびS22における動作をユーザ端末(図示せず)等の情報処理装置で実行することも可能である。この場合には、この情報処理装置はステップS2以下の処理を実行するカラオケ装置16またはサーバ装置20と無線または有線で接続される。
ステップS2において、カラオケ装置16はユーザIDを取得し、ユーザIDと対応するハードディスク56の記憶部109またはサーバ装置20に記憶された演奏曲(楽曲データ)情報を取得する。
なお、ステップS2以降におけるカラオケ装置16の動作をサーバ装置20等の情報処理装置で実行することも可能である。
ステップS3において、カラオケ装置16の楽曲データ付加情報抽出部101は、
ユーザIDと対応された、ユーザの歌唱履歴(演奏曲(楽曲))およびその楽曲データ付加情報を抽出する。
ステップS4において、カラオケ装置16のカット情報抽出部102は、楽曲データ付加情報に含まれる番組情報を抽出できるか否かを判断する。
楽曲データ付加情報に番組情報が含まれる場合(ステップS4:YES)にはステップS5に進み、楽曲データ付加情報に番組情報が含まれない場合(ステップS4:NO)にはステップS6に進む。
ステップS5において、カラオケ装置16のカット情報抽出部102は、楽曲データ付加情報に含まれる番組名、ジャンル、発表年代、登場人物等の番組情報を抽出する。
ステップS6において、カラオケ装置16の動画データ付加情報抽出部108は、ユーザが動画閲覧または動画検索をして、画像情報を選択したか否かを判断する。画像情報を選択したか否かはユーザ情報に対応する動画選択履歴情報を検索することによって判断することが可能になる。ユーザが動画閲覧または動画検索をして、画像情報を選択した場合(ステップS6:YES)にはステップS7に進み、ユーザが動画閲覧または動画検索をせず、または画像情報を選択していない場合(ステップS6:NO)にはステップS10に進む。
ステップS7において、カラオケ装置16の動画データ付加情報抽出部108は、動画データ付加情報を読み込む(抽出する)。
ステップS8において、動画データ付加情報抽出部108は、読み込んだ(抽出した)ユーザ情報に対応する動画データ付加情報(動画のジャンル、番組名、登場人物、作者、発表年代、カット情報中の動画検索用情報(話者のセリフ、音量情報、音程情報)等の情報)を取得する。
ステップS9において、ユーザはアフレコ(吹込み)しようとするセリフをユーザ音声情報入力部40に入力する。
ステップS10において、動画特定情報抽出部103は、ユーザの音声情報が、マイク等の音声情報入力部40を介して入力されると、入力された音声情報から、カット画像情報を特定するための動画特定情報(セリフ(入力された音声情報の内容)、音量情報、音程情報等)を抽出する。
ステップS11において、ユーザのセリフ発音が一回目の場合(ステップS11:YES)にはステップS14に進み、ユーザのセリフ発音が一回目でない場合(ステップS11:NO)にはステップS12に進む。この判断はカラオケ装置16のCPU50の内部で実行される。
ステップS12において、動画選択履歴情報から直前に選択された動画データ付加情報が読み込まれる。
ステップS13において、動画データ付加情報からカット画像情報を特徴付けるカット情報に含まれる動画連結用情報(画面内に登場する人数、画面内の話者のアングル情報(右向き、左向き、上向き、下向き等の情報)、画面を描写するタグ情報等の情報)に対応する連結されるべき(直前に選択されたカット画像情報の話者が右向きであれば、対応する連結されるべきカット画像情報の話者は左向きである。)カット画像情報を抽出する。
ステップS14において、カット画像情報抽出部104は、動画特定情報抽出部103で抽出された動画特定情報(入力された音声情報の内容を示すセリフ、音量情報、音程情報)に合致(一致)する、カット情報抽出部102によって抽出されたカット情報に含まれる動画検索用情報(カット画像情報における話者のセリフ、音量情報、音程情報)を検索し、検索された動画検索用情報に対応するカット画像情報(静止画情報または動画情報)を抽出する。
また、カット画像情報抽出部104は、動画特定情報抽出部103で抽出された動画特定情報(入力された音声情報の内容を示すセリフ、音量情報、音程情報)に合致(一致)する、動画データ付加情報抽出部108によって抽出された動画データ付加情報を検索し、カット情報に対応するカット画像情報(静止画情報または動画情報)を抽出する。
これらのカット画像情報(静止画情報または動画情報)は表示部30に表示される。
ステップS15において、ユーザは表示部30に表示されたカット画像情報から操作パネル46等の入力インターフェースを介してユーザのお好みのカット画像情報を選択する。
ステップS16において、選択されたカット画像情報に関する情報がカット画像情報選択部105に入力され、カット画像情報選択部105は表示部30に表示されているカット画像情報から選択されたカット画像情報を選択する。
ステップS17において、ユーザのカット画像情報の選択履歴が動画選択履歴に追加される。
ステップS18において、合成部106は、カット画像情報選択部105において選択されたカット画像情報と音声情報入力部40を介して入力されたユーザの音声情報とを合成する。
ステップS19において、直前に合成された(繋がるべき)カット画像情報があるか否かが判断される。直前に合成された動画がある場合には(ステップS19:YES)にはステップS20に進み、直前に合成された動画がない場合には(ステップS19:NO)にはステップS21に進む。この判断はカラオケ装置16のCPU50の内部で実行される。
ステップS20において、カット画像情報関連付部107は、カット画像情報選択部105によって選択されたカット画像情報と直前に選択されたカット画像情報とを関連付ける(アフレコ動画を作成する)(一例として関連付けは選択順に行うことができる)。
ステップS21において、ユーザの次のセリフを動画特定情報抽出部103が検出した場合には(ステップS21:YES)にはステップS10に進み、ユーザの次のセリフを動画特定情報抽出部103が検出しない場合には(ステップS21:NO)には処理を終了する。
ステップS22において、ユーザの次のセリフが検出された場合には(ステップS22:YES)にはステップS9に進み、ユーザの次のセリフが検出されない場合には(ステップS22:NO)には処理を終了する。
次に、図6および図7を用いて、ユーザとの関連性の低い(意外性のある)動画を合成する手順を説明する。
まず、図6のステップS31において、カラオケ情報提供サービス会社が提供するサービスを有するカラオケ装置16等の操作パネル46等のユーザ情報入力部46aに、ユーザがログイン(ユーザID等のユーザ情報を入力)する。
なお、ステップS31、S41、S48およびS55における動作をユーザ端末(図示せず)等の情報処理装置で実行することも可能である。この場合には、この情報処理装置は、ステップS32以下の処理を実行するカラオケ装置16またはサーバ装置20と無線または有線で接続される。
ステップS32において、カラオケ装置16はユーザIDを取得し、ユーザIDと対応するハードディスク56の記憶部109またはサーバ装置20に記憶された演奏曲(楽曲データ)情報を取得する。なお、ステップS32以降におけるカラオケ装置16の動作をサーバ装置20等の情報処理装置で実行することも可能である。
ステップS33において、カラオケ装置16はユーザIDと対応する、ユーザの歌唱履歴、その楽曲データ付加情報、動画選択履歴中の動画データ付加情報を抽出する。
ステップS34において、カラオケ装置16のカット情報抽出部102は、楽曲データ付加情報に含まれる番組名、ジャンル、発表年代、登場人物等の番組情報を抽出する。また、動画データ付加情報抽出部108は、読み込んだ(抽出した)ユーザ情報に対応する動画データ付加情報(動画のジャンル、番組名、登場人物、作者、発表年代、カット情報中の動画検索用情報(話者のセリフ、音量情報、音程情報)等の情報)を取得する。
ステップS35において、カット画像情報抽出部104は、楽曲データ付加情報および動画データ付加情報に含まれるジャンル情報および年代情報(年代情報には、発表年代/放送年代、楽曲が作成された年代、楽曲が発売された年代、楽曲の売り上げが最も多かった年代、楽曲のランキングされた年代(楽曲が上位にランキングされた年代を含む)が含まれる)と、ハードディスク56の記憶部109またはサーバ装置20に記憶された動画を構成するカット画像情報のジャンル情報および年代情報を比較する。
ステップS36において、ユーザ情報に対応する楽曲データ付加情報または動画データ付加情報に含まれるジャンル情報および年代情報が、動画を構成するカット画像情報のジャンル情報および年代情報と合致している場合には、関連性が大きいと判断され、ステップS31においてログインしているユーザのユーザ情報とそのカット画像情報に関連性が大きいことを示す情報が関連付けされる。
ステップS37において、ユーザ情報に対応する付加情報のジャンル情報が動画を構成するカット画像情報のジャンル情報と合致しており、年代情報が動画を構成するカット画像情報の年代情報と合致していない場合には、関連性が中程度であると判断され、ステップS31においてログインしているユーザのユーザ情報とそのカット画像情報に関連性が中程度であることを示す情報が関連付けされる。
ステップS38において、ユーザ情報に対応する付加情報の年代情報が動画を構成するカット画像情報のジャンル情報と合致しており、ジャンル情報が動画を構成するカット画像情報の年代情報と合致していない場合には、関連性が中程度であると判断され、ステップS31においてログインしているユーザのユーザ情報とそのカット画像情報に関連性が中程度であることを示す情報が関連付けされる。
ステップS39において、ユーザ情報に対応する楽曲データ付加情報または動画データ付加情報に含まれるジャンル情報および年代情報が、動画を構成するカット画像情報のジャンル情報および年代情報と合致しない場合には、関連性が小さい判断され、ステップS31においてログインしているユーザのユーザ情報とそのカット画像情報に関連性が小さいことを示す情報が関連付けされる。
ステップS40において、カット画像情報抽出部104は、ステップS36乃至ステップS39においてカット画像情報に関連付けされた関連性の大小に基づいて、カット画像情報を区別して抽出する。
ステップS41において、ユーザはアフレコ(吹込み)しようとするセリフをユーザ音声情報入力部40に入力する。
ステップS42において、動画特定情報抽出部103は、ユーザの音声情報が、マイク等の音声情報入力部40を介して入力されると、入力された音声情報から、カット画像情報を特定するための動画特定情報(セリフ(入力された音声情報の内容)、音量情報、音程情報等)を抽出する。
ステップS43において、ユーザのセリフ発音が一回目の場合(ステップS43:YES)にはステップS46に進み、ユーザのセリフ発音が一回目でない場合(ステップS43:NO)にはステップS44に進む。この判断はカラオケ装置16のCPU50の内部で実行される。
ステップS44において、動画選択履歴情報から直前に選択された動画データ付加情報が読み込まれる。
ステップS45において、動画データ付加情報からカット画像情報を特徴付けるカット情報に含まれる動画連結用情報(画面内に登場する人数、画面内の話者のアングル情報(右向き、左向き、上向き、下向き等の情報)、画面を描写するタグ情報等の情報)に対応する連結されるべき(直前に選択されたカット画像情報の話者が右向きであれば、対応する連結されるべきカット画像情報の話者は左向きである。)カット画像情報を抽出する。
ステップS46において、カット画像情報抽出部104は、動画特定情報抽出部103で抽出された動画特定情報(入力された音声情報の内容を示すセリフ、音量情報、音程情報)に合致(一致)する、カット情報抽出部102によって抽出されたカット情報に含まれる動画検索用情報(カット画像情報における話者のセリフ、音量情報、音程情報)を検索し、検索された動画検索用情報に対応するカット画像情報(静止画情報または動画情報)を抽出する。
また、カット画像情報抽出部104は、動画特定情報抽出部103で抽出された動画特定情報(入力された音声情報の内容を示すセリフ、音量情報、音程情報)に合致(一致)する、動画データ付加情報抽出部108によって抽出された動画データ付加情報を検索し、カット情報に対応するカット画像情報(静止画情報または動画情報)を抽出する。
これらのカット画像情報(静止画情報または動画情報)は表示部30で、ステップS36乃至ステップS39においてカット画像情報に関連付けされた関連性の大小に基づいて、カット画像情報が区別されて抽出される。
ステップS47において、カット画像情報に関連付けされた関連性の大小に基づいて区別して、表示部30はカット画像情報を表示する(図8(b)参照)。
ステップS48において、ユーザは表示部30に表示されたカット画像情報から操作パネル46等の入力インターフェースを介してユーザのお好みのカット画像情報を選択する。
ステップS49において、選択されたカット画像情報に関する情報がカット画像情報選択部105に入力され、カット画像情報選択部105は表示部30に表示されているカット画像情報から選択されたカット画像情報を選択する。
ステップS50において、ユーザのカット画像情報の選択履歴が動画選択履歴に追加される。
ステップS51において、合成部106は、カット画像情報選択部105において選択されたカット画像情報と音声情報入力部40を介して入力されたユーザの音声情報とを合成する。
ステップS52において、直前に合成されたカット画像情報が繋がった動画があるか否かが判断される。直前に合成された動画がある場合には(ステップS52:YES)にはステップS53に進み、直前に合成された動画がない場合には(ステップS52:NO)にはステップS54に進む。この判断はカラオケ装置16のCPU50の内部で実行される。
ステップS53において、カット画像情報関連付部107は、カット画像情報選択部105によって選択されたカット画像情報と直前に選択されたカット画像情報とを関連付ける(アフレコ動画を作成する)(一例として関連付けは選択順に行うことができる)。
ステップS53において、ユーザの次のセリフを動画特定情報抽出部103が検出した場合には(ステップS53:YES)にはステップS42に進み、ユーザの次のセリフを動画特定情報抽出部103が検出しない場合には(ステップS53:NO)には処理を終了する。
ステップS55において、ユーザの次のセリフが検出された場合には(ステップS55:YES)にはステップS41に進み、ユーザの次のセリフが検出されない場合には(ステップS55:NO)には処理を終了する。
以上説明したように、ユーザが、豊富に用意された動画素材の中からユーザの音声および好みに合致したシーンを選択・編集し、オリジナルの音声をアフレコ(吹込み)して、ミックスダウン(映像音声合体)を行い、その映像をカラオケ情報提供サービス会社が提供するネットワークサービスに発表することが可能になる。
[4.映像表示装置30等に表示される画面の一例]
次に、映像表示装置30等に表示される画面の一例を図8に示す。
図8(a)は、ユーザであるAさんがカラオケ装置16にユーザ情報を入力してログインした場合に、映像表示装置30に表示される本発明のアフレコ動画検索画面のトップページの一例である。
図8(a)の右下には、“音声収録をスタートする場合にはここをクリック!!”等の図4乃至図7に記載されたフローチャートの実行を開始するか否かをユーザに判断させるメッセージが表示される。このメッセージをユーザがユーザインターフェースを介して選択すると図8(b)の画面が表示される。
図8(b)では、ユーザ情報と関連性が大きいカット画像情報(映像1、映像100等)が他のカット画像情報とは区別されて図8(b)に向かって左側の画面の側面に表示され、ユーザ情報と関連性が中程度のカット画像情報(映像32、映像211等)が他のカット画像情報とは区別されて図8(b)に向かって画面の中央の列に表示され、ユーザ情報と関連性が小さいカット画像情報(映像124、映像150等)が他のカット画像情報とは区別されて図8(b)に向かって右側の画面の側面に表示されている。
また、ユーザ情報と関連性が大きいカット画像情報(映像1、映像100等)の見出しには、ユーザ情報によって特定される“A子さん”等の名前と、ユーザと関連性が大きいことを示す“ピッタリの動画です”等の文字情報が表示される。また、ユーザ情報と関連性が中程度であるカット画像情報(映像32、映像211等)の見出しには、“こんな動画も面白いのでは”等のユーザと関連性が中程度であることを示唆する文字情報が表示され、ユーザ情報と関連性が小さいカット画像情報(映像124、映像150等)の見出しには、“いままで見たことが無いような動画です、意外な発見があるかもしれません”等のユーザと関連性が小さいことを示す文字情報が表示される。
図8(b)においてユーザが所望するカット画像情報(映像150)を選択すると、図8(c)が表示される。
図8(c)では、選択されたカット画像情報と入力されたユーザの音声情報との合成が実行中であることを示す情報が表示され、図8(c)の右下には、アフレコ動画を作成するための音声収録を終了するか、次のカット画像情報を作成するための音声収録を開始するか否かをユーザに判断してもらうためのメッセージが表示される。
次のカット画像情報を作成するための音声収録を開始するメッセージがユーザによって選択された場合には、再び図8(a)の表示画面に戻り、アフレコ動画を作成するための音声収録を終了するメッセージがユーザによって選択された場合には、図8(d)の表示画面が表示される。
図8(d)では、図8(a)乃至図8(c)の作業を通して作成されたアフレコ動画(カット画像情報にユーザの音声情報が合成された情報の繋がり)をプレビューするか否かをユーザに判断してもらうためのメッセージが表示される。
図8(d)のプレビューメッセージをユーザが選択すると、アフレコ動画の再生が始まり、動画閲覧メッセージをユーザが選択すると、他のアフレコ動画等の動画をユーザが閲覧することが可能になり、そこでユーザが動画の画像を選択すると動画選択履歴に選択された画像の情報がユーザ情報に関連付けされて記録される。
[5.データテーブルの一例]
次に、本実施形態に使用されるデータテーブルの一例を図9および図10に示す。
なお、これらのデータテーブルはハードディスク56の記憶部109またはサーバ装置20の記憶部(図示せず)に記憶され、カラオケ装置16のCPU50またはカラオケ装置16のCPU50の機能を実行可能であるサーバ装置20のCPU(図示せず)が、その機能を実行する場合に参照する。
図9(a)はユーザの歌唱履歴を示すデータテーブルの一例である。ユーザ名はユーザID等のユーザ情報によって特定される。選曲した楽曲の欄には、ユーザが過去にカラオケ装置16で歌唱した楽曲の曲名とその楽曲の選曲番号が記載されている。
例えば、3番目に選曲した曲名が「森のくまさん」の場合には、選曲番号「234567」とともにユーザ情報に対応付けられて記憶されている。
ここで、図9(a)のデータテーブルの一例の項目に「うた年齢」という欄がある。この「うた年齢」とは、ユーザの歌の好みの傾向が何歳くらいなのかを、歌唱された楽曲のデータを元に計算した数値であって、ユーザの歌唱曲履歴から算出される(カラオケ情報提供サービス会社が提供するサービスの一つである)。若年層に歌われている曲を歌えば、『うた年齢』は若くなり、年配層に歌われている曲を歌えば、『うた年齢』は高くなるものである。
例えば、「うた年齢」に基づいて、カット画像情報を抽出することも可能である。一例として、楽曲の番組情報のジャンル情報に含まれている「TVドラマ・青春」という情報の「青春」に対応する、「うた年齢」が12才以上25才以下と予め決定されていれば、ユーザ情報に対応するカット画像情報の候補を抽出することが可能になる。
図9(b)はユーザの動画選択履歴情報(本発明によるユーザ音声とカット画像情報が合成されたアフレコ動画の視聴選択を含む)を示すデータテーブルの一例である。動画選択履歴情報には、動画データ付加情報および動画データ付加情報に含まれるカット情報が含まれる。
ユーザ名はユーザID等のユーザ情報によって特定される。選択した動画情報の欄には静止画像である動画IDが映像番号として記述されている。
各映像番号には、ユーザの音声情報である「セリフ」情報、「音量」情報、「音程」情報が対応して記述されている。
従って、ユーザの動画選択履歴を抽出することで、ユーザ好みのカット画像情報の候補を抽出でき、カット情報に含まれるユーザの音声情報と合成処理を実行するために入力されたユーザの音声情報とを比較(合致するか否かの判断)をすることが可能となる。
次に、図9(c)のカラオケ楽曲データの付加情報(楽曲データ付加情報)について説明する。
カラオケ楽曲データの付加情報には楽曲の基本情報と番組情報が含まれる。
楽曲の基本情報には、カラオケ楽曲データの選曲番号に対応して、曲名、歌手名、作詞・作曲者名の情報が記述されている。
番組情報には、カラオケ楽曲が使用されている番組名、ジャンル、発表年代(放送年代)、主に話題となった人物等が記述されている。
なお、番組情報には、カラオケ楽曲がテレビ番組(ニュース、スポーツ、ドラマ、バラエティ、アニメetc)、CM、映画等で使用されていない場合には記述される内容が無い。
従って、楽曲データ付加情報を抽出すれば、その楽曲データ付加情報に含まれる番組情報から、その番組で使用されるカット画像情報(動画の候補となる一枚の静止画像または動画情報)を抽出することが可能になる。
次に、図9(d)に記載のユーザ音声を特徴付けるパラメータの一つである音量情報について説明する。
音量情報は、一例としてユーザ音声の大きさをデシベル(db)の大きさで区分する。例えば、ユーザ音声が予め定められたデシベル値よりも小さい場合には音量を小さいと区分して音量コードを「1」で示し、ユーザ音声が予め定められた二つのデシベルで表した閾値の間である場合には音量を標準と区分して音量コードを「2」で示し、ユーザ音声が予め定められたデシベル値よりも大きい場合には音量を大きいと区分して音量コードを「3」で示す。
このように区分された音量情報の音量コードを比較することによって、合致する音量情報に対応するカット画像(例えば、図9(b)参照)を抽出することが可能になる。
次に、図9(e)に記載のユーザ音声を特徴付けるパラメータの一つである音程情報について説明する。
音程情報は、一例としてユーザ音声の音程を周波数(Hz)の大きさで区分する。例えば、ユーザ音声が予め定められた周波数値よりも小さい場合には音程が低いと区分して音程コードを「1」で示し、ユーザ音声が予め定められた二つの周波数で表した閾値の間である場合には音程を標準と区分して音程コードを「2」で示し、ユーザ音声が予め定められた周波数値よりも大きい場合には音程が高いと区分して音程コードを「3」で示す。
このように区分された音程コードを比較することによって、合致する音程情報に対応するカット画像(例えば、図9(b)参照)を抽出することが可能になる。
次に、図10の動画素材データの付加情報(動画データ付加情報)について説明する。
動画素材データの付加情報には動画の基本情報と、カットの情報(カット情報)に含まれる動画検索用情報と動画連結用の情報(カット画像情報間の関連性を示す情報)が含まれる。
動画の基本情報には、番組名、ジャンル情報、ジャンル情報に含まれる種別情報、主に話題となった人物、作者/監督、発表年代(放送年代)、が記述されている。
図10における動画素材データの付加情報中のジャンル情報およびジャンル情報に含まれる種別情報は、図9(c)の楽曲データ付加情報のジャンル情報に対応する。
カットの情報(カット情報)に含まれる動画検索用情報には、ユーザの音声情報である「セリフ」情報、「音量」情報、「音程」情報、カット内で主となる人物名、カット内で主となる人物の性別が対応して記述されている。
従って、動画検索用情報と、ユーザ音声情報から抽出された動画特定情報(カット情報に含まれる)とを比較することで、カット画像情報を抽出することが可能になる。
カットの情報(カット情報)に含まれる動画連結用の情報には、カット画像情報の画面内に登場する人数、話者のアングル、カット画像情報の場面描写タグが記述されている。
従って、動画連結用情報(画面内に登場する人数、画面内の話者のアングル情報(右向き、左向き、上向き、下向き等の情報)、画面を描写するタグ情報等の情報)に対応する連結されるべき(直前に選択されたカット画像情報の話者が右向きであれば、対応する連結されるべきカット画像情報の話者は左向きである)カット画像情報を抽出することが可能になる。
以上、述べてきたデータテーブルの一例によってカット画像(動画IDによって示される映像番号)を各種の付加情報から抽出することが可能になる。
また、付加情報に含まれる情報において一致する情報の数を全体の情報の個数で除算したものを一致割合として、一致割合ごとに区分してカット画像情報を表示することも可能である。
入力されたユーザID情報はユーザが持つ識別(ID:Identification)情報と関連づけされているので、ネットワークに接続されている電子機器であればユーザの識別情報を入力すれば、いつでもどこでもユーザID情報によって特定される識別情報に基づいてそのユーザに関連した情報が読み出し可能になる。
なお、図4乃至図7における動作手順を、ハードディスク等の記録媒体に予め記録しておき、或いはインターネット等のネットワークを介して予め記録しておき、これを汎用のマイクロコンピュータ等により読み出して実行することにより、当該汎用のマイクロコンピュータ等を実施形態に係わるCPUとして機能させることも可能である。
また各電子情報機器間の情報の送受信は有線、無線に限定されず、いずれの方法においても情報の送受信を行うことができる。
<実施形態2>
本発明の実施形態2について以下に説明する。
本発明の実施形態2はカラオケシステムにおいて従来は動画編集が困難であったことに鑑みて為されたもので、その目的の一例は、あらかじめ用意されている映像素材の中から、ユーザの歌唱画像情報、ユーザの音声情報(テンポ情報、音程情報、声の抑揚、入力音圧レベル等)、楽曲情報(楽曲名称情報、歌詞情報等)およびユーザ情報に対応する関連情報(ユーザの歌唱履歴情報、嗜好情報(好みのジャンル、アーティスト等の情報))の少なくとも一つに基づいて、ユーザの好みに応じた最適なアフレコ素材を検索し、検索されたアフレコ素材の中からユーザが動画を選択することによって、機械に詳しくないユーザでも視覚的に映像編集を容易に行えるカラオケシステム、カラオケシステムの制御方法、及びカラオケシステムの制御プログラムを提供することにある。
[6.システム構成の一例]
図11は、本発明が好適に適用されるカラオケシステム10を説明するブロック図である。この図11に示すように、カラオケシステム10では、通信回線18を介して複数のカラオケ装置16が相互に接続されており、図11では一例として二台のカラオケ装置16aおよびカラオケ装置16bが通信回線18を介して相互に接続されている。
例えば、カラオケ装置16aを使用してユーザが楽曲を歌唱し、ユーザが楽曲を歌唱している姿が撮影された歌唱画像情報がデジタルカメラ等を含むユーザ歌唱情報入力部70を介してカラオケサービス提供会社のサーバ装置20に送信され、ユーザが楽曲を歌唱しているユーザ音声情報がマイク等を含むユーザ歌唱情報入力部70を介してカラオケサービス提供会社のサーバ装置20に送信される。
歌唱画像情報とユーザ音声情報はカラオケ装置16aにおいて関連付けされているので、他のユーザは他のカラオケ装置16bを使用して、サーバ装置20に送信された関連付された歌唱画像情報とユーザ音声情報を共有して利用することが可能になる。
また、サーバ装置20に送信された関連付された歌唱画像情報とユーザ音声情報にユーザ情報が関連付けされているので、ユーザ情報から容易に歌唱画像情報とユーザ音声情報を利用することができる。
例えば、カラオケシステムへログインするためのユーザ情報に歌唱画像情報とユーザ音声情報が関連付けされることができるので、ユーザ情報から容易に歌唱画像情報とユーザ音声情報を利用することができる。
[7.実施形態2にかかわるカラオケ装置の処理機能ブロックの説明]
ここで、本発明の実施形態2にかかわる機能を発揮するための構成について、図12に示す機能ブロック図を用いて説明する。
なお、図3に示す機能ブロック図と重複する部分はその説明を省略する。
カラオケ装置16の記憶部109には、ユーザが歌唱する楽曲に関する楽曲情報(楽曲情報には楽曲名称情報、楽曲のテンポ情報、楽曲の音程情報、楽曲の歌詞情報等の情報が含まれる)、ユーザが楽曲を歌唱しているユーザ音声情報(ユーザ音声情報には、動画特定情報抽出手段で抽出されたユーザのテンポ情報、ユーザの音程情報等の情報が含まれる)、ユーザが歌唱している姿が記録されている歌唱画像情報(歌唱画像情報には歌唱しているユーザの動き情報等の情報が含まれる)、歌唱画像情報を特定するための動画特定情報、動画特定情報に関連するカラオケシステムに送信されたカット情報に含まれる動画検索用情報、動画検索用情報に対応するカット画像情報、カット画像情報に関連付けされた関連音声情報またはユーザ音声情報が選択された選択音声情報、選択音声情報とカット画像情報との合成情報、ユーザ情報に関連付けされた関連情報(ユーザの嗜好情報、歌唱履歴の情報等の情報が含まれる)等の情報が記憶されている。
なお、楽曲情報には楽曲の歌詞情報、アーティスト情報、ジャンル情報およびその他の楽曲付加情報(曲名、作曲・作詞者名、ジャンル名、発表年代/放送年代、主に話題となった人物、楽曲情報が使用された番組名等の情報)が含まれ、ユーザが歌唱した楽曲に関する楽曲情報はユーザ情報に関連付けされた関連情報に含まれる歌唱履歴情報の一部として記憶部109に記憶されている。
これらの情報はカラオケ情報提供サービス会社等の会社がサーバ装置20にアップロードするので、カラオケ装置16はアップロードされた情報を予めカラオケ装置16の記憶部109にダウンロードして記憶しておく。
あるいは、ユーザがこれらの情報をカラオケ装置16に入力することで、必要に応じて関連付けされて記憶部109に記憶されてもよい。
なお、これらの情報はサーバ装置20に記憶され、必要な場合に必要な情報を、適宜、サーバ装置20からカラオケ装置16の記憶部109にダウンロードしてカラオケ装置16がダウンロードした情報を使用することも可能である。
楽曲情報入力手段としての楽曲情報入力部46bは、ユーザが歌唱する楽曲に関する楽曲情報が入力される機能を有する。
楽曲情報入力部46bに入力される楽曲情報は、カラオケ情報提供サービス会社等の会社によって予め定められている任意の数字または/および文字からなる情報、楽曲の名称等の任意の情報である。
ユーザ歌唱情報入力手段としてのユーザ歌唱情報入力部70は、楽曲を歌唱しているユーザの画像を示す歌唱画像情報が入力される機能を有する。
ユーザの歌唱画像情報は、ユーザ歌唱情報入力部70に設けられたA/D(アナログ/ディジタル)変換器によってディジタル信号に変換される。
また、ユーザ歌唱情報入力手段としてのユーザ歌唱情報入力部70は、楽曲情報入力部46bによって入力された楽曲情報に対応する楽曲を歌唱するユーザの歌唱音声情報が入力される機能を有する。
ユーザの音声情報は、ユーザ歌唱情報入力部70に設けられたA/D(アナログ/ディジタル)変換器によってディジタル信号に変換される。
ユーザ情報入力手段としてのユーザ情報入力部46aはユーザ情報が入力される機能を有する。ユーザ情報は任意の数字または/および文字からなる情報であって、ユーザを特定するための情報である。
歌唱画像を特定するための動画特定情報抽出手段としての動画特定情報抽出部103は、楽曲情報入力部46bから入力された楽曲情報、ユーザ歌唱情報入力部70から入力されたユーザ音声情報および歌唱画像情報の少なくとも一つから動画特定情報を抽出する機能を有する。
また、動画特定情報抽出部103は、ユーザ歌唱情報入力部70によって入力された歌唱画像情報を予め定められた長さに分割し、歌唱画像情報が分割された分割歌唱画像情報を生成し、前記分割歌唱画像情報ごとに動画特定情報を抽出する機能を有する。
すなわち、動画特定情報抽出部103は、ユーザが歌唱する歌唱画像情報をAメロ、Bメロ、さび部分等に区分し、あらかじめ決められた小節数で歌唱画像情報を区分し、または、歌詞が連続する部分毎に歌唱画像情報を区分する。
このように一つの楽曲における歌唱画像情報をいくつかの部分に区分することによって、区分された分割歌唱画像情報をつなぎ合わせて、ユーザにとって楽しみのある動画画像を生成することが可能になる。
例えば、Aメロ、Bメロ、さび部分毎に異なるユーザの歌唱画像をつなぎ合わせることが可能になるので、ユーザは容易に動画編集をしながらカラオケを楽しく歌唱することが可能になる。
さらに、Aメロ、Bメロ、さび部分毎に異なるユーザのユーザ音声をつなぎ合わせることが可能になるので、ユーザは動画編集を楽しみながらカラオケを楽しく歌唱することが可能になる。
また、動画特定情報抽出部103は、ユーザ音声情報から少なくともテンポ情報および音程情報を動画特定情報として抽出する機能を有する。
さらに、動画特定情報抽出部103は、楽曲情報から少なくとも楽曲名称情報を動画特定情報として抽出する機能を有する。
さらに、動画特定情報抽出部103は、楽曲情報から少なくとも楽曲歌詞情報を動画特定情報として抽出する機能を有する。
さらに、動画特定情報抽出部103は、歌唱画像情報からユーザの動き情報を動画特定情報として抽出する機能を有する。
さらに、動画特定情報抽出部103は、ユーザ情報入力部46aから入力されるユーザ情報に対応する関連情報(ユーザの嗜好情報、歌唱履歴情報等の情報)を動画特定情報として抽出する機能を有する。
カットデータ情報抽出手段としてのカットデータ情報抽出部104aは、動画特定情報に関連する、カラオケシステムに送信されたカット画像情報に関連付けされた動画検索用情報を検索し、検索された動画検索用情報に関連付けされたカット画像情報を抽出する機能を有する。
カット画像情報は、あらかじめユーザが楽曲を歌唱した歌唱画像であり、携帯端末電話、携帯端末、あるいはパソコン等の電子情報処理装置でカラオケシステムにカット画像情報に動画検索用情報を関連付けて、あらかじめ送信しておくことができる。
また、カット画像情報には、現在歌唱しているユーザおよび/または他のユーザが以前にカット画像情報として選択したカット画像情報が含まれる。
ここで、動画検索用情報には、動画特定情報に含まれる情報と同一種類の情報が含まれる。例えば、動画特定情報にはテンポ情報、音程情報、楽曲名称情報、動き情報、および、ユーザ情報に対応する関連情報に含まれる歌唱履歴情報並びに嗜好情報等の情報が含まれ、これらの情報は動画検索用情報にも含まれる。
カットデータ情報抽出手段としてのカットデータ情報抽出部104aは、少なくともテンポ情報と音程情報が略同一の動画検索用情報を有するカット画像情報を抽出する機能を有する。
また、カットデータ情報抽出手段としてのカットデータ情報抽出部104aは、少なくとも楽曲名称情報が同一の動画検索用情報を有するカット画像情報を抽出する機能を有する。
さらに、カットデータ情報抽出手段としてのカットデータ情報抽出部104aは、少なくとも楽曲歌詞情報が類似する動画検索用情報を有するカット画像情報を抽出する機能を有する。
表示手段としての表示部30は、カットデータ情報抽出部104aによって抽出されたカット画像情報を表示する機能を有する。
また、表示部30は、カットデータ情報選択部105aによって選択されたカット画像情報を表示、または、カット画像情報および歌唱画像情報を同時に表示する機能を有する。
すなわち、カット画像情報の中で他人が歌唱している歌唱画像だけを表示、または、自分の歌唱画像と他人の歌唱画像を表示部30に同時に表示して、表示部30に表示されている歌唱画像に対応した楽曲、たとえば表示部30に表示されている歌唱画像で歌唱されている楽曲と同一の楽曲をカラオケ装置16に伴奏させながら、カラオケを楽しむことができる。
カットデータ情報選択手段としてのカットデータ情報選択部105aは、表示部30に表示されたカット画像情報が選択される機能を有する。カットデータ情報選択部105aはタッチパネル、キーボード等の入力部46bを介して入力された情報に基づいてカット画像情報を選択する。ここで、カット画像情報には現在ユーザが歌唱している歌唱画像情報が含まれてもよく、歌唱画像情報が動画特定情報抽出部103によって区分されている場合には区分されている歌唱画像情報毎に、カットデータ情報選択部105aによって選択されてもよい。
また、カットデータ情報選択手段としてのカットデータ情報選択部105aは、カットデータ情報抽出部104aによって抽出されたカット画像情報に関連付けられた関連音声情報と、ユーザ歌唱情報入力部70によって入力されたユーザ音声情報の何れかが、選択音声情報としてユーザによって選択される機能を有する。
すなわち、ユーザ自身が楽曲を歌唱したユーザ音声情報またはカット画像情報にあらかじめ対応して記録されていた他のユーザの音声情報等の音声情報の何れかをユーザが選択し、カットデータ情報抽出部104aによって抽出されたカット画像情報に選択された音声情報を新たに関連付けることができる。
合成手段としての合成部106は、カットデータ情報選択部105aによって選択された選択音声情報とカット画像情報を合成する機能を有する。合成された選択音声情報とカット画像情報とは関連付けられる。
カット画像情報関連付手段としてのカット画像情報関連付部107は、カットデータ情報選択部105aによって選択されたカット画像情報または分割歌唱画像情報をユーザが歌唱した楽曲情報と関連付ける機能を有する。すなわち、ユーザが歌唱した楽曲の楽曲情報に、ユーザ自身の歌唱画像情報または他のユーザの歌唱画像情報を関連付けて、記憶部109に記憶しておくことができる。
また、カット画像情報関連付部107は歌唱画像情報または分割歌唱画像情報をカット画像情報とし、歌唱画像情報または分割歌唱画像情報から抽出された動画特定情報を動画検索用情報とし、カット画像情報と動画検索用情報とを関連付けてカラオケシステムにアップロードする機能を有する。
すなわち、ユーザが歌唱した楽曲の楽曲情報、ユーザ自身が歌唱したユーザ音声情報または他のユーザが歌唱したユーザ音声情報、および、ユーザ自身の歌唱画像情報または他のユーザの歌唱画像情報を関連付けたカット画像情報をカラオケシステムにアップロードすることによって他のユーザもカラオケシステムを介してカット画像情報を利用できることができる。
[8.処理動作を示すフローチャートの一例]
次に、図13を用いて、本願のカラオケ装置16において、ユーザが、豊富に用意された動画素材の中からユーザの音声、歌唱画像、またはユーザの好みの少なくとも一つに合致したシーンを選択・編集し、機械に詳しくないユーザでも視覚的にミックスダウン(映像音声合体)を行いながらカラオケを楽しむことができる動作の概要を説明する。
なお、カラオケ装置16に限られず、図13に記載される機能をサーバ装置20において実行することも可能である。この場合には、サーバ装置20を介してネットワークサービスに発表することで、ユーザの誰でもが、映像と音声が合成された情報を他のユーザに見せ合うことが可能なサービスを提供できる。
また、本発明を適用した場合において実現され得る具体的な処理手順である以下に示す処理手順は、一例であってこれ以外にも実現され得る処理手順は無数に存在する。
まず、図13のステップS61において、カラオケ情報提供サービス会社が提供するサービスを有するカラオケ装置16の操作パネル46等のユーザ情報入力部46aに、ユーザがユーザID等のユーザ情報を入力し、ログインする。
そして、カラオケ装置16の操作パネル46等の楽曲情報入力部46cを介して、ユーザが歌唱しようとしている楽曲情報をユーザが入力する。カラオケ装置16は入力された楽曲情報に対応する楽曲の伴奏を再生する。
なお、ステップS61、S62、S65およびS66における動作をユーザ端末(図示せず)等の情報処理装置で実行することも可能である。この場合には、この情報処理装置はステップS63以下の処理を実行するカラオケ装置16またはサーバ装置20と無線または有線で接続される。
ステップS62において、ステップS61において入力された楽曲情報に対応する楽曲の伴奏に合わせて楽曲を歌唱しているユーザの画像情報およびユーザのユーザ音声情報がユーザ歌唱情報入力部70を介して入力される。
ステップS63において、動画特定情報抽出部103は、楽曲情報入力部46bから入力された楽曲情報、ユーザ歌唱情報入力部70から入力されたユーザ音声情報および歌唱画像情報の少なくとも一つから歌唱画像特定情報としての動画特定情報を抽出する。
動画特定情報には、ユーザ音声情報から抽出されるテンポ情報および音程情報、楽曲情報から抽出される楽曲名称情報および楽曲歌詞情報、歌唱画像情報から抽出されるユーザの動き情報、ユーザ情報に対応するユーザの嗜好情報、歌唱履歴情報等の関連情報などがある。これらの情報のいずれか一つの情報を動画特定情報としてもよく、またこれらの情報のどのような組み合わせをも動画特定情報とすることができる。
ステップS64において、カットデータ情報抽出部104aは、動画特定情報に関連する、あらかじめカラオケシステムに送信されたカット画像情報に関連付けされた動画検索用情報を検索し、検索された動画検索用情報に関連付けされたカット画像情報を抽出する。
カット画像情報に関連付けされた動画検索用情報には、動画特定情報に含まれる、テンポ情報および音程情報、楽曲名称情報および楽曲歌詞情報、ユーザの動き情報、ユーザの嗜好情報、歌唱履歴情報等の関連情報が含まれ、動画特定情報に含まれる情報と動画検索用情報に含まれる情報とが同一情報または近似する情報である場合に動画検索用情報に対応するカット画像情報が抽出される。
カット画像情報は、あらかじめ他のユーザが楽曲を歌唱した歌唱画像であり、携帯端末電話、携帯端末、あるいはパソコン等の電子情報処理装置でカラオケシステムにカット画像情報に動画検索用情報を対応させてあらかじめ送信しておくことができる。
またカット画像情報には、現在、楽曲を歌唱しているユーザの歌唱画像情報が含まれてもよい。
ステップS65において、ステップS64でカットデータ情報抽出部104aによって抽出されたカット画像情報が表示部30に表示されるので、ユーザは好みのカット画像情報を操作パネル46等の入力部46bを介して選択する。
ステップS66において、ユーザは好みのカット音声情報を操作パネル46等の入力部46bを介して選択する。
すなわち、カットデータ情報選択部105aで、カットデータ情報抽出部104aによって抽出されたカット画像情報に関連付けられた関連音声情報と、ユーザ歌唱情報入力部70によって入力されたユーザ音声情報の何れかが、選択音声情報としてユーザによって選択される。
カット画像情報に関連付けられた関連音声情報は、他のユーザが楽曲を歌唱している画像情報等のカット画像情報に関連付けられた他のユーザが楽曲を歌唱している音声情報等の情報である。
ステップS67において、合成部106はステップS65においてユーザに選択されたカット画像情報とステップS66においてユーザに選択された選択音声情報とを合成する。また、ユーザが歌唱した楽曲の楽曲情報も合成される。
すなわち、ユーザが歌唱した楽曲の楽曲情報、ユーザ自身が歌唱したユーザ音声情報または他のユーザが歌唱したユーザ音声情報、および、ユーザ自身の歌唱画像情報または他のユーザの歌唱画像情報が関連付けられて、カット画像情報としてカラオケシステムにアップロードされることによって他のユーザがカラオケシステムを介してこのカット画像情報を利用でき、また、ユーザ自身もこのカット画像情報を視聴して楽しむことができる。
このように、ユーザ自身が楽曲を歌唱している姿を示す歌唱画像情報から、カラオケシステムに送信された他のユーザが楽曲を歌唱している姿を示すカット画像情報を選択して、ユーザ自身の音声情報または他のユーザの音声情報を関連付けて合成することをユーザ自身が容易に行うができる。
また、ユーザ自身が楽曲を歌唱している姿を示す歌唱画像情報にユーザ自身の音声情報または他のユーザの音声情報を関連付けて合成することもユーザ自身が容易に行うことができる。
[9.映像表示装置30等に表示される画面の一例]
次に、映像表示装置30等に表示される画面の一例を図14に示す。
図14は、ユーザであるAさんがカラオケ装置16にユーザ情報を入力してログインし、図13おける手順を実行した後に表示部30に表示される本発明のページの一例である。
図14では、ユーザが楽曲を歌唱している映像と、その映像に基づいて抽出および選択された他のユーザが楽曲を歌唱している映像とを並べて一画面で表示部30に表示している様子を示したものである。
すなわち、図14における左半分の画面は、ユーザAさんがカラオケ装置16を使用して楽曲を歌唱したときに、ユーザ歌唱情報入力部70を介して入力された歌唱画像情報を表示している様子を表した画面である。
図14における右半分の画面は、左半分の画面に表示されているユーザAさんの歌唱画像を基に、カットデータ情報抽出部104aが抽出し、カットデータ情報選択部105aを介してユーザが選択した他のユーザであるBさんの歌唱画像であるカット画像情報が表示されている様子を表した画面である。
図14における左半分の画面と右半分の画面とは、ユーザが歌唱している楽曲に同期しているので、同一の楽曲をユーザAさんと他のユーザであるBさんが同時に歌唱している様子が再生される。したがって、ユーザAさんは、同一の楽曲をユーザAさんと他のユーザであるBさんが同時に歌唱している画像を選択および再生して楽しむことが容易にできることが分かる。
また、図14における映像が再生されている間に流れる音声情報は、ユーザAさんの音声情報または他のユーザであるBさんの音声情報がカットデータ情報選択部105aによって選択されることができる。
さらに、図14において歌唱されている楽曲が、Aメロ、Bメロ、さびの部分などの小節毎に、動画特定情報抽出部103で区分されている場合には、区分されている部分毎にユーザAさんの音声情報または他のユーザであるBさんの音声情報がカットデータ情報選択部105aを介して選択されることができる。
また、さらに、図14において歌唱されている楽曲が、Aメロ、Bメロ、さびの部分などの小節毎に、動画特定情報抽出部103で区分されている場合には、区分されている部分毎にユーザAさんの歌唱画像情報または他のユーザであるBさんの歌唱画像情報がカットデータ情報選択部105aを介して選択されることができる。
このように、ユーザは、歌唱画像情報と音声情報との組み合わせをカラオケ装置16を介して自由かつ容易に楽しむことが可能になり、機械に詳しくないユーザでも視覚的に映像編集を容易に行える。
また、ユーザがカラオケ装置16にログインする場合に使用するユーザ情報と、歌唱画像情報と音声情報とを関連付けしておくことも可能である。
入力されたユーザID情報はユーザが持つ識別情報と関連づけされているので、ネットワークに接続されている電子機器であればユーザの識別情報を入力すれば、いつでもどこでもユーザID情報によって特定される識別情報に基づいてそのユーザに関連した情報が読み出し可能になる。すなわち、ユーザはカラオケシステムにユーザID情報を入力してログインすることによって、カット画像情報およびカット画像情報に関連付けされた音声情報をいつでもどこでも利用することが可能である。
なお、図13における動作手順を、ハードディスク等の記録媒体に予め記録しておき、或いはインターネット等のネットワークを介して予め記録しておき、これを汎用のマイクロコンピュータ等により読み出して実行することにより、当該汎用のマイクロコンピュータ等を実施形態に係わるCPUとして機能させることも可能である。
また各電子情報機器間の情報の送受信は有線、無線に限定されず、いずれの方法においても情報の送受信を行うことができる。