JP6186255B2

JP6186255B2 - 手話の採点に特徴を有するカラオケ装置

Info

Publication number: JP6186255B2
Application number: JP2013239659A
Authority: JP
Inventors: 坂本　博文; 博文坂本; 穴見　尚司; 尚司穴見; 政信高野; 武雄笠原; 高橋　一郎; 一郎高橋; 浩之真島; 多加志金子; 孝裕青柳; 朗永木; 佐藤　志保; 志保佐藤
Original assignee: Daiichikosho Co Ltd
Current assignee: Daiichikosho Co Ltd
Priority date: 2013-11-20
Filing date: 2013-11-20
Publication date: 2017-08-23
Anticipated expiration: 2033-11-20
Also published as: JP2015099298A

Description

本発明は、カラオケ演奏音に同期して歌詞文字列を表示するカラオケ装置に係り、特に手話の採点に特徴を有するものに関する。

手話学習教材の多様化を図るべく、カラオケ装置を手話学習に利用する技術が提案されている。例えば、特許文献１に記載されたカラオケ装置では、カラオケ楽曲の再生に同期して歌詞表示するための歌詞データと、音声言語と動画表現された手話を対応付けたデータベースとに基づき、歌詞とともにこの歌詞に対応した手話の映像を表示させている。

このカラオケ装置は、手話言語における単語や例文に対応する手話動作を手話動画データとして格納したＣＤ−ＲＯＭと、カラオケ演奏用の音楽生成データ、歌詞画像用の歌詞描出データ、及び、単語や例文と対応する手話動画データの対応関係を示す単語／例文集を格納したハードディスク装置と、カラオケ演奏時の制御を行う中央制御部とを有している。そして、中央制御部は、手話学習曲の音楽生成データを処理して伴奏音楽を音響出力させている。また、中央制御部は、歌詞描出データを処理するとともに、文字列に相当する手話動画データを復号させることで、歌詞文字列と手話動画をディスプレイに表示させている。

一方、カラオケ歌唱時の振り付けを採点可能なカラオケ装置が提案されている。例えば、特許文献２に記載されたカラオケ装置は、手本となる各カラオケ楽曲専用の振付データと、利用者の振付動作検出結果とを逐次比較し、比較結果を集計することで利用者の演技力を採点している。

このカラオケ装置は、ＣＣＤカメラと、モーション検出部と、各カラオケ楽曲専用の振り付けデータが格納されたハードディスク装置と、採点処理を行う採点部と、カラオケ演奏時の制御を行う中央制御部とを有している。中央制御部は、カラオケ楽曲の演奏処理に連動してモーション検出部と採点部を作動させる。演奏中において、モーション検出部は、舞踊者所作データを逐次出力し、採点部は、舞踊者所作データと振り付けデータとを逐次比較する。そして、採点部は、演奏が終了した旨を中央制御部から受け取ると、採点情報を返送する。また、中央制御部は、取得した採点情報に基づく得点をディスプレイに表示させる。

特開２００２−３５１４７８号公報特開平１１−２１２５８２号公報

特許文献１に記載のカラオケ装置によれば、より楽しく効果的に手話を学習することができ、カラオケの娯楽性を高めることができる。その一方、学習の結果どのレベルまで手話が身に着いたかを客観的に確認することはできないという課題がある。そこで、客観的な指標を得るため、特許文献１に記載のカラオケ装置に、特許文献２に記載された振り付けの採点技術を適用し、手話の採点を行うことが考えられる。しかしながら、このように構成した場合、既存の楽曲データのそれぞれに対して手話動画データを作成する必要があり、作成工数が膨大となって現実的ではない。

本発明は、このような事情に鑑みてなされたものであり、その目的は、手話を採点するに際し、既存の楽曲データのそれぞれに対して手話動画データを作成する手間を省き、手話採点の効率化を図ることにある。

前述の目的を達成するため、本発明は、カラオケ演奏データに基づいてカラオケ演奏音を生成するとともに、歌詞データに基づいて前記カラオケ演奏音に同期して歌詞文字列を表示するカラオケ装置において、利用者の動作を撮影し、前記利用者の動作から手話の動作を抽出し、利用者手話イメージデータを生成する生成手段と、前記歌詞文字列に含まれる単語及び例文のそれぞれに、手話イメージデータを対応付けて記憶したデータベースと、前記歌詞データと前記データベースに基づいて前記歌詞データに対応する歌詞手話イメージデータを決定する決定手段と、前記生成手段により生成された利用者手話イメージデータと、前記決定手段により決定された歌詞手話イメージデータとを比較して、その一致度に応じて採点する採点手段と、を備えることを特徴とする。

本発明によれば、歌詞手話イメージデータは、歌詞文字列に含まれる単語及び例文のそれぞれに、手話イメージデータを対応付けて記憶したデータベースに基づき、決定手段によって決定される。このため、既存の楽曲データのそれぞれに対して手話動画データを作成しなくても手話の採点を行うことができる。

前述のカラオケ装置において、前記歌詞手話イメージデータから動画を生成し、前記歌詞文字列とともに表示する表示手段をさらに備えることが好ましい。この構成では、歌詞手話イメージデータから動画を自動で作成することができる。

また、本発明は、カラオケ演奏データに基づいてカラオケ演奏音を生成するとともに、歌詞データに基づいて前記カラオケ演奏音に同期して歌詞文字列を表示するカラオケ装置において、利用者の動作を撮影し、前記利用者の動作から手話の動作を抽出し、利用者手話イメージデータを生成する生成手段と、多数の手話イメージデータのそれぞれに、前記歌詞文字列に含まれる単語及び例文を対応付けて記憶したデータベースと、前記生成手段により生成された利用者手話イメージデータと前記データベースに基づいて、前記利用者手話イメージデータに対応する利用者歌唱データを決定する決定手段と、前記決定手段により決定された利用者歌唱データと、前記歌詞データとを比較して、その一致度に応じて採点する採点手段と、を備えることを特徴とする。

本発明によれば、利用者歌唱データは、手話イメージデータのそれぞれに、歌詞文字列に含まれる単語及び例文を対応付けて記憶したデータベースに基づき、決定手段によって決定される。このため、既存の楽曲データのそれぞれに対して手話動画データを作成しなくても手話の採点を行うことができる。

本発明によれば、手話を採点するに際し、既存の楽曲データのそれぞれに対して手話動画データを作成する手間を省くことができ、手話採点の効率化を図ることができる。

第１実施形態の通信カラオケシステムを説明する図である。第１実施形態のカラオケ装置を説明するブロック図である。第１実施形態のカラオケ本体を説明するブロック図である。第１実施形態の辞書データに記憶される単語と手話イメージデータの関係を説明する図である。第１実施形態におけるイメージデータ同士の比較を説明する図である。第１実施形態における手話採点時の動作を示すフローチャートである。第１実施形態における区間採点処理を示すフローチャートである。第２実施形態におけるカラオケ本体の要部を説明する図である。第２実施形態におけるカラオケ歌唱時の動作を示すフローチャートであって、第１実施形態との相違点を示す。第２実施形態における区間採点処理を示すフローチャートである。

以下、本発明の第１実施形態について説明する。まず、通信カラオケシステムの構成について説明する。図１に示す通信カラオケシステムは、ホスト装置１とカラオケ装置２とを有している。そして、これらが伝送路３を介して通信可能に接続されている。カラオケ装置２は、例えばカラオケ店ＫＢの各カラオケルームＲＭに設置されている。ホスト装置１は、サーバとして機能し、顧客情報等の各種情報を蓄積して管理する。カラオケ装置２は、カラオケ演奏、及び、手話の採点処理等、カラオケ歌唱において必要とされる処理及び動作を行う。

図２に示すように、カラオケ装置２は、カラオケ本体２１と、スピーカ２２と、モニタ２３と、歌唱マイク２４と、ビデオカメラ２５と、リモコン装置２６とを有している。

カラオケ本体２１は、利用者によって指定されたカラオケ楽曲の演奏制御、歌詞及び背景映像の表示制御、歌唱マイク２４で生成されたマイク信号の処理、手話の採点処理、伝送路３を介して行われる信号等の送受信といった、カラオケ歌唱に関する各種の制御を行う部分である。そして、スピーカ２２からリモコン装置２６までの各部は、有線或いは無線でカラオケ本体２１に接続されている。なお、このカラオケ本体２１については、後で詳しく説明する。

スピーカ２２は、カラオケ本体２１から出力される放音信号に基づいて音を出力する。例えば、歌唱者の音声とカラオケ演奏音の混合音を出力する。モニタ２３は、カラオケ本体２１からの映像信号に基づいて映像を画面に表示する。例えば、歌唱しているカラオケ楽曲の歌詞や背景映像を表示する。また、手話の採点時においては、演奏中のカラオケ楽曲に対応する手話映像も表示する。

歌唱マイク２４は、利用者（歌唱者）の歌唱音を集音し、マイク信号に変換してカラオケ本体２１に入力させる。このマイク信号は、カラオケ本体２１で適宜調整された後、カラオケ演奏音等と混合され、放音信号としてスピーカ２２に入力される。

ビデオカメラ２５は、カラオケルームＲＭを撮影することで映像信号を生成する。生成された映像信号はカラオケ本体２１に入力される。このビデオカメラ２５は、カラオケ演奏時の利用者を撮影する場合、例えばカラオケの利用者が手話の採点を行う場合に用いられる。

リモコン装置２６は、カラオケ本体２１との間で情報を送受信するための双方向通信可能な短距離無線通信部を備えており、カラオケ楽曲の予約時や採点モードの設定時等に操作される。カラオケ楽曲の予約時において、リモコン装置２６からは、演奏対象の楽曲を識別するための楽曲ＩＤを含んだ操作信号が送信される。そして、カラオケ本体２１は、選択されたカラオケ楽曲を待ち行列で管理する。

また、このリモコン装置２６は、カラオケルームＲＭを利用する利用者を認証するとき等に用いられる。その際、利用者による操作に応じた操作情報をホスト装置１に対して送信する。この場合、ホスト装置１に対しては、操作信号が近隣のルーター装置ＲＴ及び伝送路３を介して送信される。

次に、カラオケ本体２１について詳細に説明する。図３に示すように、カラオケ本体２１は、本体側制御部３１と、本体側通信部３２と、本体側記憶部３３と、音源部３４と、音響処理部３５と、表示処理部３６と、映像入力部３７と、操作部３８とを有している。そして、これらの各部がバスＢＳを介して通信可能な状態に接続されている。

本体側制御部３１は、カラオケ本体２１における制御の中心となる部分であり、ＣＰＵ３１ａ、ワークメモリ３１ｂ、及び、イメージメモリ３１ｃを有している。ＣＰＵ３１ａは、ワークメモリ３１ｂに記憶された動作プログラムに従って各種の制御を実行する。例えば、操作部３８からの操作を受け付ける操作入力処理やシーケンサとして動作するシーケンサ処理を行う。ワークメモリ３１ｂは、ＣＰＵ３１ａに実行されるプログラムを記憶したり、プログラムの実行時に各種情報を一時的に記憶したりする記憶素子である。そして、ワークメモリ３１ｂは、リモコン装置２６で予約されたカラオケ楽曲を、待ち行列で記憶することも行っている。イメージメモリ３１ｃは、手話イメージデータ（後述する利用者手話イメージデータ及び歌詞手話イメージデータ）が展開される記憶素子であり、本実施形態では手話の採点時に用いられる。

本体側通信部３２は、ルーター装置ＲＴを介してカラオケ本体２１を伝送路３に接続するためのインタフェースを提供する。このため、本体側通信部３２は、ルーター装置ＲＴとの間で情報の送受信を行う。この本体側通信部３２は、本体側制御部３１によって動作が制御される。

本体側記憶部３３は、各種のデータを記憶する大容量の記憶装置であり、ハードディスクドライブ等によって構成されている。この本体側記憶部３３には、例えば、楽曲データ記憶領域３３ａ、採点用プログラム記憶領域３３ｂ、辞書データ記憶領域３３ｃ、及び、手話イメージデータ記憶領域３３ｄが設けられる。

楽曲データ記憶領域３３ａには、リモコン装置２６で指定されたカラオケ楽曲を演奏するための楽曲データが記憶される。楽曲データには、ＭＩＤＩデータと歌詞データが含まれる。ＭＩＤＩデータは、電子楽器の音源を自動演奏させるための自動演奏データ（カラオケ演奏データ）であり、時系列のノート情報によって構成される。ノート情報は、例えば発音や消音のタイミング、キーの押圧力、音の高さ、再生ピッチ等を制御する各種の命令によって構成される。歌詞データは、カラオケ楽曲における歌詞テロップをモニタ２３で表示させるための文字列データである。なお、ＭＩＤＩデータと歌詞データは、カラオケ装置２で演奏可能なカラオケ楽曲のそれぞれについて、楽曲ＩＤに対応付けられた状態で記憶されている。

採点用プログラム記憶領域３３ｂには採点用プログラムが記憶されている。この採点用プログラムは、採点モードの設定に伴って本体側制御部３１に読み出され、適宜実行される。採点プログラムの実行により、カラオケ装置２では採点処理が行われる。例えば、歌唱の採点や手話の採点が行われる。

歌唱の採点時には、利用者の歌唱音に対応する歌唱信号と手本となるリファレンスデータとが比較され、その一致度に応じて採点が行われる。また、手話の採点時には、利用者の手話動作の撮影で得られた利用者手話イメージと歌詞データに対応する歌詞手話イメージとが比較され、その一致度に応じて採点が行われる。このため、採点用プログラムを実行した本体側制御部３１は、利用者の手話を採点する採点手段に相当する。なお、手話の採点については、後で説明する。

辞書データ記憶領域３３ｃには、およそ歌詞文字列に含まれる可能性のある単語及び例文の全てのそれぞれに、手話イメージデータが対応付けられた辞書データが記憶されている。また、この辞書データには、五十音を表現する表音手段としての手話イメージも含まれている。このため、本体側記憶部３３は、辞書データを記憶したデータベース（手話イメージデータベース）に相当する。また、手話イメージデータ記憶領域３３ｄには、演奏対象（採点対象）となるカラオケ楽曲の歌詞データに基づいて決定された歌詞手話イメージデータが記憶されている。なお、辞書データ及び歌詞手話イメージデータについても後で説明する。

次に、音源部３４について説明する。音源部３４は、ＭＩＤＩデータに基づいてカラオケ演奏音信号を生成する部分である。この音源部３４は、本体側制御部３１がシーケンサ処理を行うと、ＭＩＤＩデータに応じて波形データを加工し、加工後の楽音信号を音響処理部３５に出力する。

音響処理部３５は、カラオケ演奏音信号の処理、及び、歌唱マイク２４で生成されたマイク信号の処理を行う部分である。例えば、カラオケ楽曲の演奏制御において、音響処理部３５は、音源部３４から出力された楽音信号をアナログ変換し、カラオケ演奏音信号を生成する。また、歌唱マイク２４からのマイク信号が入力されると、適宜調整を施して歌唱信号を生成する。この歌唱信号は、カラオケ演奏音信号と混合され、放音信号としてスピーカ２２に出力される。

表示処理部３６は、カラオケ演奏時における背景映像等の表示制御を行う。カラオケ演奏時において、表示処理部３６には背景映像データが入力されており、この背景映像データのデコードが行われる。そして、表示処理部３６は、デコードで生成された背景映像の映像信号に歌詞テロップを合成し、合成後の映像信号をモニタ２３に出力する。その際、表示処理部３６は、本体側制御部３１でのシーケンサ処理で出力される歌詞データに基づき、歌詞テロップを合成する。また、シーケンサ処理で出力される色換え命令に従って、歌詞テロップの表示色を変更する。その結果、モニタ２３には、背景映像に歌詞テロップが重ねられた合成映像が表示され、かつ、カラオケ楽曲の進行にあわせて歌詞テロップの表示色が変更される。

また、手話の採点時において、表示処理部３６は、歌詞手話イメージデータに基づく手話動画を歌詞テロップと共に表示させる。このときも表示処理部３６は、シーケンサ処理で出力される色換え命令に従って、歌詞テロップの表示色を変更する。その結果、モニタ２３には、手話動画に歌詞テロップが重ねられた合成映像が表示される。そして、手話動画の生成は本体側制御部３１によって行われるので、カラオケ本体２１（表示処理部３６，本体側制御部３１）とモニタ２３の組は、歌詞手話イメージデータから手話動画を生成し、歌詞テロップ（歌詞文字列）とともに表示する表示手段に相当する。

映像入力部３７は、ビデオカメラ２５からの映像信号を取り込む部分であり、例えばインタフェース回路によって構成されている。手話の採点時において、ビデオカメラ２５からは、手話を行っている利用者を撮影した映像信号が出力される。そして、映像入力部３７において、入力された映像信号はフレーム毎のイメージデータに変換され、本体側制御部３１のイメージメモリ３１ｃに蓄積される。本体側制御部３１は、イメージデータを画像処理することにより、利用者の動作から手話の動作を抽出し、利用者手話イメージデータを生成する。そして、生成された利用者手話イメージデータは、イメージメモリ３１ｃに記憶され、手話の採点時に用いられる。

このように、ビデオカメラ２５、映像入力部３７、及び、本体側制御部３１の組は、利用者の動作を撮影し、この利用者の動作から手話の動作を抽出し、利用者手話イメージデータを生成する生成手段（利用者手話イメージデータ生成手段）に相当する。

操作部３８は、パネルスイッチやリモコン受信回路等からなっており、パネルスイッチやリモコン装置２６の操作に応じた操作信号を本体側制御部３１に対して出力する。本体側制御部３１は、操作入力処理を行うことで操作信号を検出し、対応する処理を実行する。なお、パネルスイッチやリモコン装置２６は、操作を選択するための種々のキースイッチ（図示せず）を備えている。

次に、辞書データ及び手話イメージデータと、これらのデータを用いた手話の採点について説明する。

辞書データは、歌詞文字列に含まれる単語及び例文のそれぞれに、手話イメージデータを対応付けて記憶したものである。例えば、図４に示すように、文字列「元気です」に対応して、この文字列に対応する手話イメージデータＩＭ１、すなわち両肘を左右に張り出した状態で、左右の握り拳を胸の前で上下させる手話動作を示すイメージデータが記憶されている。本実施形態では、人の頭部、胴体及び四肢をワイヤーフレームで表している。そして、辞書データには、このような文字列と手話イメージデータの組が、カラオケ楽曲の各対象曲を表現するために十分な数だけ記憶されている。なお、前述したように、本実施形態の辞書データには、表音手段としての手話イメージも含まれている。

そして、手話の採点に際し、本体側制御部３１は、採点対象となるカラオケ楽曲の歌詞データを参照し、曲の先頭から順に歌詞文字列に対応する手話イメージデータを読み出す。そして、本体側制御部３１は、読み出した手話イメージデータを曲の進行にあわせて配列することで、歌詞手話イメージデータを決定する。この歌詞手話イメージデータは、手話の採点基準となるイメージデータとなる。決定された歌詞手話イメージデータは、本体側記憶部３３の手話イメージデータ記憶領域３３ｄに、楽曲ＩＤと関連付けられた状態で記憶される。

このように、本体側制御部３１は、歌詞データと辞書データ（データベース）に基づいて歌詞データに対応する歌詞手話イメージデータを決定する決定手段（歌詞手話イメージデータ決定手段）に相当する。

手話イメージデータには、辞書データの一部を構成するデータと歌詞手話イメージデータの他に、利用者を撮影して得られた利用者手話イメージデータがある。前述したように、この利用者手話イメージデータは、ビデオカメラ２５の映像信号から作成される。本実施形態において、映像信号から変換されたイメージデータが本体側制御部３１のイメージメモリ３１ｃに記憶される。そして、本体側制御部３１は、このイメージデータから人物の映像を抽出し、頭部、胴体及び四肢をワイヤーフレームで表すことで、利用者手話イメージデータを生成する。生成された利用者手話イメージデータは、イメージメモリ３１ｃに展開される。なお、人物の映像から利用者手話イメージデータ（ワイヤーフレーム）を生成するに際しては、例えばＫＩＮＥＣＴ（登録商標）の技術が適用できる。

手話の採点において、本体側制御部３１は、比較対象の利用者手話イメージデータと同じタイミングの歌詞手話イメージデータを、本体側記憶部３３の手話イメージデータ記憶領域３３ｄから読み出す。そして、図５の符号ＩＭ２で示すようにイメージメモリ３１ｃに展開する。次に、イメージメモリ３１ｃに記憶されている利用者手話イメージデータＩＭ３と比較し、その一致度を取得する。一致度の取得は、種々の方法を採ることができる。例えば、ワイヤーフレームの端部や関節部を特徴点とし、対応する特徴点同士の相対位置を比較することで取得できる。また、四肢や胴体を示すフレーム部（直線部分）から一次式を導出し、係数や切片を比較することで、一致度を取得してもよい。

ここで、本実施形態では、歌詞手話イメージデータＩＭ２や利用者手話イメージデータＩＭ３がワイヤーフレームで構成されているので、各イメージデータＩＭ２，ＩＭ３を容易に拡大或いは縮小でき、比較処理の簡素化が図れる。また、特徴点やフレームの抽出が容易であるので、この点でも比較処理の簡素化が図れる。

次に、図３を参照し、本実施形態のカラオケシステムによる概略動作について説明する。なお、このカラオケシステムは手話の採点処理に特徴を有しているため、手話の採点処理を中心に動作の説明を行う。

カラオケ装置２では、順番の到来により、待ち行列で管理されていたカラオケ楽曲が演奏される。本体側制御部３１がシーケンサ処理を行うと、楽曲データ記憶領域３３ａに記憶されたＭＩＤＩデータ等が読み出され、カラオケ演奏音がスピーカ２２から放音される。また、歌唱マイク２４を通じて、歌唱者の歌唱音がマイク信号としてカラオケ本体２１に入力され、歌唱信号が生成される。あわせて、歌唱者の歌唱音がカラオケ演奏音と混合されてスピーカ２２から放音される。

カラオケルームＲＭの利用者がリモコン装置２６を操作して手話採点を選択すると、本体側制御部３１は、採点プログラムを実行して採点モードに移行する。そして、本体側制御部３１は決定手段として機能し、本体側記憶部３３の楽曲データ記憶領域３３ａに記憶された歌詞データ、及び、辞書データ記憶領域３３ｃに記憶された辞書データ（データベース）を参照し、歌詞データに対応する歌詞手話イメージデータを決定する。その後、本体側制御部３１は、決定した歌詞手話イメージデータを、本体側記憶部３３の手話イメージデータ記憶領域３３ｄに記憶させる。

手話採点の採点期間において、本体側制御部３１、表示処理部３６及びモニタ２３の組は、表示手段として機能する。この場合、本体側制御部３１は、手話イメージデータ記憶領域３３ｄから読み出した歌詞手話イメージデータから手話動画データを生成し、カラオケ演奏に同期させつつ表示処理部３６へ出力する。表示処理部３６は、手話動画と歌詞テロップ（歌詞文字列）を合成し、合成後の映像信号をモニタ２３に出力する。そして、モニタ２３は、手話動画を歌詞テロップとともに表示する。

また、この採点期間において、ビデオカメラ２５とカラオケ本体２１（映像入力部３７及び本体側制御部３１）の組は生成手段として機能する。この場合、ビデオカメラ２５は利用者の動作を撮影して映像信号を出力し、映像入力部３７は映像信号をフレーム毎のイメージデータに変換する。本体側制御部３１は、変換されたイメージデータをイメージメモリ３１ｃに蓄積し、このイメージデータから利用者による手話の動作をワイヤーフレームで抽出する。さらに本体側制御部３１は、抽出した手話の動作に基づいて利用者手話イメージデータを生成し、イメージメモリ３１ｃに展開する。

さらに、本体側制御部３１は、手話を採点する採点手段として機能する。すなわち、本体側制御部３１は、区間採点期間が経過する毎に区間採点を行う。この区間採点では、前述したように、歌詞手話イメージデータがイメージメモリ３１ｃに展開され、利用者手話イメージデータとの一致度が取得される。なお、区間採点がなされた歌詞手話イメージデータ及び利用者手話イメージデータは、イメージメモリ３１ｃから消去される。そして、カラオケ楽曲の演奏終了に伴い、本体側制御部３１は、区間得点を総合して最終得点を取得する。

このような構成を採ることにより、本実施形態のカラオケ装置２では、既存の楽曲データのそれぞれに対して手話動画データを作成しなくても手話の採点を行うことができる。また、歌詞手話イメージデータから手話動画を自動で作成することができる。その結果、手話採点の効率化を図ることができる。

以下、前述の動作について詳細に説明する。ここで、図６は、手話採点時の動作を説明するフローチャートである。また、図７は、区間採点処理を説明するフローチャートである。

まず、カラオケルームＲＭの利用者（歌唱者）はログイン処理を行う（Ｓ１）。このログイン処理では、リモコン装置２６に対する操作により、利用者ＩＤやパスワードが入力される。利用者ＩＤやパスワードはホスト装置１に送信される。そして、ホスト装置１は、受信した利用者ＩＤやパスワードに基づき認証処理を行う。

次に、カラオケ本体２１は、予約操作の有無を判断する（Ｓ２）。この楽曲の予約において、利用者は、リモコン装置２６を操作し、歌唱を行うカラオケ楽曲を選択して予約する。予約操作が行われると、選択されたカラオケ楽曲が待ち行列で管理される（Ｓ３）。一方、予約操作がなされていない場合には、ステップＳ６へ移行する。

予約されたカラオケ楽曲が待ち行列で管理されると、カラオケ本体２１は、予約されたカラオケ楽曲の歌詞データを参照し（Ｓ４）、歌詞手話イメージデータを決定する（Ｓ５）。前述したように、カラオケ本体２１の本体側制御部３１は、曲の先頭から順に歌詞文字列に対応する手話イメージデータを読み出し、曲の進行にあわせて配列することで歌詞手話イメージデータを決定する。この歌詞手話イメージデータは、手話イメージデータ記憶領域３３ｄに楽曲ＩＤに関連付けられた状態で記憶される。

次にカラオケ本体２１は、演奏中のカラオケ楽曲の有無を確認する（Ｓ６）。そして、カラオケ楽曲が演奏中であれば、ステップＳ２に戻って新たな予約の有無を確認する。一方、演奏中のカラオケ楽曲がない場合には、ステップＳ７に移行する。そして、このステップＳ７では、最先に予約されたカラオケ楽曲（待ち行列の最初に位置するカラオケ楽曲）について演奏を行う。

そして、カラオケ楽曲の歌唱期間に亘って利用者映像が撮影され、利用者手話イメージデータが生成される（Ｓ８）。例えば、ビデオカメラ２５は、手話動作を行っている利用者を撮影し、映像信号を出力する。映像入力部３７は、ビデオカメラ２５から入力された映像信号を変換し、フレーム毎のイメージデータを取得する。このイメージデータは、本体側制御部３１のイメージメモリ３１ｃに蓄積される。そして、本体側制御部３１では、イメージデータを画像処理することにより、利用者の動作から手話の動作を抽出し、利用者手話イメージデータを生成する。

また、カラオケ本体２１は、カラオケ楽曲が演奏されている期間中において採点区間が終了したか否かを監視しており（Ｓ９）、採点区間が終了すると、当該採点区間の歌唱に対する採点処理（区間採点処理）を行う（Ｓ１０）。

この区間採点処理では、例えば図７に示すように、本体側制御部３１は、当該採点区間の歌詞手話イメージデータを、本体側記憶部３３の手話イメージデータ記憶領域３３ｄから取得し、イメージメモリ３１ｃに展開する（Ｓ２１）。次に、本体側制御部３１は、利用者手話イメージデータと歌詞手話イメージデータとを比較し、両者の一致度を判定する（Ｓ２２）。例えば、同じタイミングの利用者手話イメージデータと歌詞手話イメージデータとをフレーム単位で比較し、その一致度を判定する。対象の採点区間について手話イメージデータ同士を比較したならば、この採点区間に対する採点値（区間得点）を算出し、ワークメモリ３１ｂに記憶する（Ｓ２３）。

図６に示すように、区間採点処理が終了したならば、カラオケ本体２１は、カラオケ楽曲の演奏が終了したか否かを判定する（Ｓ１１）。ここで、終了していない場合には、ステップＳ７に移行して次の採点区間に対する一連の処理を繰り返し行う。一方、カラオケ楽曲の演奏が終了した場合には、採点結果を報知する（Ｓ１２）。ここでは、区間採点処理で得られた区間採点の結果を総合して報知する。採点結果を報知したならば、待ち行列で管理されているカラオケ楽曲の有無を判定する（Ｓ１３）。

そして、待ち行列にカラオケ楽曲がある場合（Ｓ１３でＮ）にはステップＳ６に移行する。この場合、ステップＳ６にて演奏中のカラオケ楽曲は無いと判定され、待ち行列における最先のカラオケ楽曲に対し、ステップＳ７以降の処理が行われる。一方、待ち行列にカラオケ楽曲がない場合（Ｓ１３でＹ）にはステップＳ２に移行する。この場合、次のカラオケ楽曲が予約されるまで、ステップＳ２とステップＳ６の処理が繰り返しなされる。すなわち、カラオケ楽曲の予約を待機する待機状態になる。そして、次のカラオケ楽曲が予約されることにより、ステップＳ３に移行し、前述した一連の処理が行われる。

以上の実施形態の説明は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明はその趣旨を逸脱することなく、変更、改良され得るとともに本発明にはその等価物が含まれる。例えば、次のように構成してもよい。

前述した第１実施形態のカラオケ装置２では、カラオケ楽曲の歌詞データと辞書データとに基づいて歌詞手話イメージデータを決定し、利用者手話イメージデータと比較する構成であったが、この構成に限定されるものではない。

例えば、利用者手話イメージデータと辞書データとに基づいて利用者歌唱データを決定し、利用者歌唱データと歌詞データとを比較して、その一致度に応じて採点する構成にしてもよい。以下、この構成を有する第２実施形態について説明する。

図８は、第２実施形態におけるカラオケ本体２１の要部を説明する図である。同図に示すように、第２実施形態では、本体側記憶部３３の構成が第１実施形態と相違している。相違点について説明すると、辞書データ記憶領域３３ｃに関し、第２実施形態では、手話イメージデータが文字言語（歌詞文字列に含まれる単語及び例文）に対応付けられた辞書データが記憶されている。すなわち、およそ利用者が表現する可能性のある全ての手話イメージのそれぞれに、単語、例文及び五十音が対応付けられた辞書データが記憶されている。また、第１実施形態で設けられていた手話イメージデータ記憶領域３３ｄは、第２実施形態では設けられていない。なお、その他の部分については、第１実施形態と同じであるため、説明は省略する。

次に、第２実施形態に係るカラオケ装置２の概略動作について説明する。ここでは、主として第２実施形態特有の処理について説明する。

手話採点の期間中において、ビデオカメラ２５とカラオケ本体２１（映像入力部３７及び本体側制御部３１）の組は生成手段として機能し、利用者の動作を撮影し、利用者の動作から手話の動作を抽出し、利用者手話イメージデータを生成する。生成した利用者手話イメージデータは、イメージメモリ３１ｃに展開される。

また、本体側制御部３１は決定手段として機能し、イメージメモリ３１ｃに展開された利用者手話イメージデータ、及び、辞書データ記憶領域３３ｃに記憶された辞書データ（データベース）に基づき、利用者手話イメージデータに対応する単語や例文を選択し、時系列で配列することで利用者歌唱データを決定する。決定された利用者歌唱データは、例えば本体側制御部３１のワークメモリ３１ｂに記憶される。

さらに、本体側制御部３１は、手話を採点する採点手段として機能する。この場合、本体側制御部３１は、採点区間が終了する毎に区間採点を行う。この区間採点では、該当区間における利用者歌唱データと歌詞データとが比較され（文字列同士が比較され）、これらの一致度が取得される。そして、カラオケ楽曲の演奏終了に伴い、本体側制御部３１は、区間得点を総合して最終得点を取得する。

以下、上記の制御をフローチャートで説明する。ここで、図９は、第２実施形態のカラオケ歌唱時の動作を説明するフローチャートであって、第１実施形態との相違点を示している。また、図１０は、第２実施形態における区間採点処理を示すフローチャートである。なお、他の処理は第１実施形態と同じであるので、説明を省略する。

図９に示すように、第２実施形態では、予約操作の有無が判定され（Ｓ２）、予約操作があると待ち行列で管理される（Ｓ３）。その後、カラオケ楽曲が演奏中であるか否かが判定される（Ｓ６）。

また、図１０に示すように、区間採点処理（Ｓ１０）において、本体側制御部３１は、採点区間の歌詞データを本体側記憶部３３から取得する（Ｓ３１）。次に、本体側制御部３１は、利用者手話イメージデータと辞書データに基づいて利用者歌唱データを決定する（Ｓ３２）。すなわち、利用者手話イメージデータに対応する単語や例文を辞書データから選択し、時系列で配列する。

次に、本体側制御部３１は、該当区間における利用者歌唱データと歌詞データとを比較し、文字列同士の一致度を取得する（Ｓ３３）。対象の採点区間について利用者歌唱データと歌詞データとを比較したならば、この採点区間に対する採点値（区間得点）を算出し、ワークメモリ３１ｂに記憶する（Ｓ３４）。

このような構成を採ることにより、第２実施形態のカラオケ装置２でも、既存の楽曲データのそれぞれに対して手話動画データを作成しなくても手話の採点を行うことができる。その結果、手話採点の効率化を図ることができる。

ところで、前述の第１実施形態では、歌詞データに基づいて歌詞手話イメージデータを決定し、利用者手話イメージデータと比較した。一方、第２実施形態では、利用者手話イメージデータに基づいて利用者歌唱データを決定し、歌詞データと比較した。これらの処理に関し、両方の処理を行うようにしてもよい。この場合、各処理で得られた得点を比較し、高い方の得点を採用してもよいし、各処理で得られた得点を平均してもよい。

また、前述の第１実施形態では、歌詞手話イメージデータを待ち行列での待機期間中に決定しておき、カラオケ演奏に同期して読み出すようにしていたが、この構成に限定されない。例えば、カラオケ演奏に同期してリアルタイムで歌詞手話イメージデータを決定するようにしてもよい。

また、採点を行う時期に関し、区間採点を行わずにリアルタイムで採点を行ってもよいし、カラオケ楽曲の演奏終了後に採点を行ってもよい。

さらに、単に得点のみを表示するだけでなく、歌詞手話イメージデータと利用者手話イメージデータとの差が、他のシーンに比べて大きく異なっているシーンについては、採点結果の報知時に映像で表示してもよい。例えば、一致度が閾値以上離れたシーンについては、歌詞手話イメージデータに基づく手話映像と利用者映像とを、モニタ２３に横並び表示させるようにしてもよい。

１…ホスト装置，２…カラオケ装置，３…伝送路，２１…カラオケ本体，２２…スピーカ，２３…モニタ，２４…歌唱マイク，２５…ビデオカメラ，２６…リモコン装置，３１…本体側制御部，３１ａ…ＣＰＵ，３１ｂ…ワークメモリ，３１ｃ…イメージメモリ，３２…本体側通信部，３３…本体側記憶部，３３ａ…楽曲データ記憶領域，３３ｂ…採点用プログラム記憶領域，３３ｃ…辞書データ記憶領域，３３ｄ…手話イメージデータ記憶領域，３４…音源部，３５…音響処理部，３６…表示処理部，３７…映像入力部，３８…操作部，ＫＢ…カラオケ店，ＲＭ…カラオケルーム，ＲＴ…ルーター装置，ＢＳ…バス，ＩＭ１〜ＩＭ３…手話イメージデータ

Claims

カラオケ演奏データに基づいてカラオケ演奏音を生成するとともに、歌詞データに基づいて前記カラオケ演奏音に同期して歌詞文字列を表示するカラオケ装置において、
利用者の動作を撮影し、前記利用者の動作から手話の動作を抽出し、利用者手話イメージデータを生成する生成手段と、
多数の手話イメージデータのそれぞれに、前記歌詞文字列に含まれる単語及び例文を対応付けて記憶したデータベースと、
前記生成手段により生成された利用者手話イメージデータと前記データベースに基づいて、前記利用者手話イメージデータに対応する利用者歌唱データを決定する決定手段と、
前記決定手段により決定された利用者歌唱データと、前記歌詞データとを比較して、その一致度に応じて採点する採点手段と、
を備えることを特徴とするカラオケ装置。