JP5574130B2

JP5574130B2 - カラオケ装置及びカラオケ用プログラム

Info

Publication number: JP5574130B2
Application number: JP2012209180A
Authority: JP
Inventors: 竜次河合
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2012-09-24
Filing date: 2012-09-24
Publication date: 2014-08-20
Anticipated expiration: 2032-09-24
Also published as: JP2014063089A

Description

本発明は、演奏に合わせて歌唱を楽しむカラオケ装置、及び、カラオケ用プログラムに関するものであり、特に、歌唱の採点を可能とするカラオケ装置、及び、カラオケ用プログラムに関する。

従来、演奏に合わせて歌唱を楽しむカラオケ装置が広く利用されている。このカラオケ装置には、歌唱の優劣を評価するため採点機能を備えたものがある。この採点機能では、模範的な歌唱音程と歌唱者の歌唱音程とを比較し、その一致度合いに基づいて得点が算出される。

ところで、このような採点機能を利用する際、歌詞に追従して歌えない場合等、歌詞を歌唱することなくハミングで歌唱する場合がある。従来の採点機能では、歌詞の歌唱とハミングによる歌唱を判別することができず、ハミングによる歌唱であっても歌詞の歌唱と変わりのない得点を算出してしまうといった問題がある。

このような採点機能の問題を解決するため、特許文献１には、入力音声信号の各フレームとお手本音声信号の各フレームとからピッチを検出し、時間軸上の位置を同じくするにもかかわらず入力音声信号のフレームからしかピッチを検出し得なかった区間の比率が所定の閾値を上回っているときは、ハミングによる歌唱と判定し、高評価を与えないこととする音声評価装置が開示されている。

特開２００７−１６３９７６号公報

しかしながら、特許文献１に開示される音声評価装置は、入力音声信号、お手本音声信号に基づいて、ハミングによる歌唱を判定するものである。、ところが、発声の形態は人によって様々であるため、その判定精度も不安定になりがちであるという問題がある。

本発明は、このようなカラオケ装置の歌唱評価を行う採点機能において、新たな観点の歌唱評価を提供することを１つの目的とするものである。また、カラオケ装置の歌唱評価において、ハミング判定を可能とし、ハミングによる不正な歌唱を検出することを１つの目的とするものである。

そのため、本発明に係るカラオケ装置は、
演奏手段と、制御手段と、を備えるカラオケ装置において、
前記演奏手段は、演奏データに基づいて演奏を可能とし、
前記制御手段は、音声採点処理と、画像採点処理を実行可能とし、
前記音声採点処理は、前記演奏データに対応する歌唱音程情報と、入力音声情報を比較して音声採点情報を算出し、
前記画像採点処理は、歌唱者撮影手段から入力される歌唱者画像情報から歌唱者の口唇形状を認識し、認識した前記口唇形状に基づいて画像採点情報を算出し、前記入力音声情報が有音と判定され、かつ、前記口唇形状が変化していないと判定されたときは、前記画像採点情報から減点することを特徴とする。

さらに本発明に係るカラオケ装置において、
前記制御手段は、前記音声採点処理にて算出された前記音声採点情報と、前記画像採点情報にて算出された前記画像採点情報に基づいて、統合採点情報を算出する採点統合処理を実行可能とすることを特徴とする。

さらに本発明に係るカラオケ装置において、
前記画像採点処理は、認識した前記口唇形状と、前記演奏データに同期した歌唱基準情報を比較して、前記画像採点情報を算出することを特徴とする。

さらに本発明に係るカラオケ装置において、
前記歌唱基準情報は、前記演奏データに対応する歌詞データに基づいて生成されることを特徴とする。

さらに本発明に係るカラオケ装置において、
前記歌唱基準情報は、母音に対応して設定されていることを特徴とする。

さらに本発明に係るカラオケ装置において、
前記画像採点処理は、認識した前記口唇形状の変化に基づいて前記画像採点情報を算出することを特徴とする。

さらに本発明に係るカラオケ装置において、
前記画像採点処理は、前記口唇形状の面積、もしくは、前記口唇形状の縦横比率の少なくとも一方に基づいて、前記画像採点情報を算出することを特徴とする。

また本発明に係るカラオケ用プログラムは、
演奏データに基づいて演奏を行うカラオケ装置にて実行可能なカラオケ用プログラムであって、
前記演奏データに対応する歌唱音程情報と、入力音声情報を比較して音声採点情報を算出する音声採点処理と、
歌唱者撮影手段から入力される歌唱者画像情報から歌唱者の口唇形状を認識し、認識した前記口唇形状に基づいて画像採点情報を算出し、前記入力音声情報が有音と判定され、かつ、前記口唇形状が変化していないと判定されたときは、前記画像採点情報から減点する画像採点処理と、を実行可能であることを特徴とする。

本発明のカラオケ装置によれば、撮影された歌唱者画像情報から歌唱者の口唇形状を認識し、認識した口唇形状に基づいて画像採点情報を算出する画像採点処理を実行することで、従来の歌唱音声のみによる採点とは異なる観点にて歌唱評価を行うことが可能となる。

さらに本発明のカラオケ装置では、入力音声情報が有音であるときに、画像採点処理を実行することで、実際に歌唱者が声を出した期間を、画像採点情報の算出期間とすること
が可能となる。

さらに本発明のカラオケ装置では、算出された画像採点情報を、音声採点処理にて算出された音声採点情報と統合することで、歌唱時の口の形の適切さを含んだ統合採点情報を算出することが可能となる。

さらに本発明のカラオケ装置では、認識した口唇形状を、演奏データに同期した歌唱基準情報に対応する口唇情報と比較することで、演奏時、歌唱者の口の形が適切であったか否かを判定することが可能となる。

さらに本発明のカラオケ装置では、歌唱基準情報が歌詞データに基づいて生成されることとしているため、歌唱基準情報を新たに用意する必要が無く、既存の楽曲データを使用することが可能となる。

さらに本発明のカラオケ装置では、口唇情報が母音に対応して設定されることとしており、画像採点処理における口唇形状と口唇情報の比較において、適切な口の形となっているかという判定精度を大きく悪化させることなく、処理の簡略化を図ることが可能となっている。

さらに本発明のカラオケ装置では、口唇形状が変化していないと判定したときハミング歌唱していると判定し、ハミング歌唱による減点を行うことを可能としている。

さらに本発明のカラオケ装置では、口唇形状の面積、もしくは、口唇形状の縦横比の少なくとも一方に基づいて画像採点情報を算出することで、適切な口の形となっているかという判定精度を大きく悪化させることなく、処理の簡略化を図ることが可能となっている。

さらに本発明のカラオケ用プログラムは、カラオケ装置に対してインストールすることで、歌唱者の口唇形状による採点を可能とし、従来の歌唱音声のみによる採点とは異なる観点にて歌唱を採点することが可能となる。

本発明の実施形態に係るカラオケシステムを示す図本発明の実施形態に係る楽曲データ構成を示す図本発明の実施形態に係るカラオケ装置の全体処理を示すフロー図本発明の実施形態に係る口唇画像採点処理を示すフロー図本発明の実施形態に係る画像処理の様子を説明するための図本発明の実施形態に係る口唇形状−母音情報を説明するための図本発明の実施形態に係る歌詞データから歌唱基準情報を生成する形態を説明するための図本発明の他の実施形態に係る口唇画像採点処理を示すフロー図

図１は、本発明の実施形態に係るカラオケ装置の構成を示す図である。本実施形態のカラオケ装置１（「コマンダ」ともいう）は、ＣＰＵ１０、ＲＡＭ１１、ＲＯＭ１２などで構成される制御手段を中心として、ＨＤＤ（ハードディスク）１４、音声処理部１５、画像処理部１６、操作パネル１７、通信インタフェイス１３などを備えて構成されている。

制御手段を構成するＣＰＵ１０、ＲＡＭ１１、ＲＯＭ１２は、コンピューターにおいて一般的に使用される構成であって、ＣＰＵ１０は、プログラムの実行などに基づく各種制
御を、ＲＡＭ１１、ＲＯＭ１２、ハードディスク１４などに記憶する各種プログラム、各種データに基づいて行う。

カラオケ装置１における音声処理部１５は、主として図２に示す楽曲データに含まれる演奏データに基づく演奏処理を実行する手段である。演奏データはＭＩＤＩ規格に基づいて作成されたデータの他、コーラスなどを担当する音声データなどを含んで構成されている。音声処理部１５では、ユーザーが指定した楽曲に対応する演奏データに基づいて演奏処理を実行することで、所望の楽曲の演奏を行う。また、オーディオ入力端子に接続されたマイクから入力された入力音声情報と、演奏データに基づく演奏音をミキシングしてアンプに出力し、アンプに接続されているスピーカーから放音する。なお、マイクから入力される入力音声情報に対しては、エコーなどの音響効果を付加することも可能としている。

画像処理部１６は、歌詞表示処理、並びに、背景映像表示処理など、ディスプレイ２１を介してユーザーに視覚的情報を提供する処理を実行する。歌詞表示処理は、前述した楽曲データに含まれる歌詞データに基づいて歌詞をディスプレイ２１に表示させる処理であって、演奏処理に同期して実行される。ディスプレイ２１に表示された歌詞は、楽曲の演奏の進行に同期して歌唱すべき箇所が色替え表示され、歌唱者に歌唱箇所を教示する。

また、背景映像表示処理は、演奏される楽曲の対応した各種映像を表示することで、歌唱の雰囲気を盛り上げる処理である。そのため、記憶手段としてのハードディスク１４には、ＭＰＥＧ形式などによる圧縮が施された背景映像情報が記憶されており、画像処理部１６では、この背景映像情報をデコードすることでディスプレイ２１に映像を表示する。さらに、本実施形態では、画像処理部１６において、ビデオ入力端子を介してカメラ２２で撮像された撮像情報を取り込むことを可能としている。

通信インタフェイス１３は、ネットワーク接続端子を介してインターネットに接続され、図示しないホスト装置から、新しくリリースされた楽曲データや、背景映像情報、プログラムなどを受信するとともに、ホスト装置に対して利用履歴などを送信する。近年では、ユーザーの利用履歴、登録楽曲などを含んだユーザー情報をホスト装置で管理し、当該ユーザーの利用時に受信することで、各個ユーザーに即したサービスを提供することも可能である。

カラオケ装置１に対して行われる楽曲指定（予約）など、ユーザーからの各種指示は、操作パネル１０から行うことも可能であるが、通常、店舗内のネットワークに接続されたリモコン装置（図示せず）から行われる。リモコン装置は、タッチパネルなどのインタフェイスを備えており、ユーザーに各種情報を表示提供するとともに、タッチ指示による入力受付を行うことが可能となっている。

記憶手段として機能するハードディスク１４には、楽曲を演奏するための楽曲データを含んだ、図２に示すデータベース（楽曲ＤＢ）の他、ディスプレイ２１に背景を表示するための背景映像情報、そして、カラオケ装置において各種処理を実行するためのプログラムを記憶している。また、前述したホスト装置から各種データを受信することで、記憶しているデータベースの追加、更新が実行される。本実施形態で説明する口唇画像採点処理についても、プログラムとして受信させることで既存のカラオケ装置１に機能追加することが可能である。

では、本発明の実施形態に係るカラオケ装置の処理について説明する。図２は、本発明の実施形態に係る楽曲データのデータ構成を示す図である。本実施形態の楽曲データは、既存のものを利用することとしている。すなわち、楽曲データに対して何ら加工、改変を
行うことなく、撮像された歌唱者画像情報に基づいて画像採点処理を行うことが可能となっている。

図２に示されるように楽曲データは、楽曲データの各種属性を示すメタデータ、演奏のために使用される演奏データ、歌詞表示のために使用される歌詞データを含んで構成されている。本実施形態では、メタデータとして曲名、作曲者名、曲番号（楽曲識別情報）、ジャンル、個別素材画像の有無などを含んで構成されている。曲名、作曲者名、曲番号、ジャンルは、楽曲を検索、指定するための情報として用いられる。個別素材画像は、背景映像として当該楽曲に特化したものを有しているか否かを示す情報であって、有りの場合には、アーティストのライブ映像など当該楽曲に特化した映像が使用可能である。

本実施形態の演奏データは、ＭＩＤＩ規格に即して作成されたＭＩＤＩデータとされているが、演奏データには、この他、バックコーラスなどの音声データを含ませることとも考えられる。あるいは、演奏データを音声データで構成することも可能である。ＭＩＤＩデータの場合には、演奏手段としてのＭＩＤＩ音源に演奏させることで楽音が奏でられる。

歌詞データ（テロップデータ）は、演奏データによる演奏に同期してディスプレイ１２に歌詞を表示させるためのデータである。本実施形態では、１つのタイミングで１度に表示させるブロックデータを単位として構成されている。演奏データの演奏に同期して出力されるステップ値に基づいて、指定されたブロックデータを読み出し、表示制御することで、演奏に同期した歌詞表示が実行されることとなる。

各ブロックデータは、表示データ、属性データを含んで構成されている。表示データは、表示させるべき歌詞の文字列（歌詞文字情報）、及び、当該文字列の位置決めのための座標、表示する歌詞の色を指定する変化前色コード、演奏に同期して変更される歌詞の色を指定する変化後色コードを含んで構成されている。なお、１画面内に複数同時にブロックデータを表示させることが可能であって、歌唱終了した箇所のブロックデータの歌詞を消去し、新たなブロックデータの歌詞を表示させることで、スムースな歌唱を行うことが可能である。

属性データは、表示データによって形成される歌詞文字列の表示、消去、色替えタイミングなどを決めるための情報を含んだデータ群である。これらタイミングを決めるため、本実施形態では、演奏データの進行に同期して出力されるステップ値（ＭＩＤＩステップ値）に対応づけられている。表示ステップ、消去ステップは、歌詞文字列の表示タイミング、消去タイミングを示すステップ値である。また、変化ステップは、歌詞文字列を色替えの色替えについて規定した情報であって、本実施形態では文字列の色替え速度を示す変化速度を含んで構成されている。

本実施形態の歌詞表示処理は、楽曲データ中の歌詞データに基づいて実行されると共に、同楽曲データ中の演奏データに同期して実行される。具体的には、演奏データの再生に従って出力されるステップ値（ＭＩＤＩステップ値）に対応する、歌詞データ中の各種情報に基づいてディスプレイ１２に歌詞文字列が表示される。

この歌詞表示処理は、ブロックデータ（Ｂ０１〜Ｂｎｎ）を１つの処理単位として実行される。このブロックデータの属性データ中に含まれる表示ステップ、色替えを行う変化速度を指定する変化ステップ、消去ステップのそれぞれのタイミングで、表示データに基づく歌詞文字列が表示色替え、消去が、楽曲演奏の進行に追従して実行される。

では、本実施形態の口唇画像採点処理を含むカラオケ装置の処理について図を用いて説
明する。図３は、本発明の実施形態に係るカラオケ装置の全体処理を示すフロー図である。カラオケ装置が稼働開始されると、操作パネル１７から、選曲のための曲番号（楽曲識別情報）を受け付ける（Ｓ１０１）。受け付けた曲番号は、カラオケ装置１のＲＡＭ１１に記憶する予約リストに記述される。ＣＰＵ１０は、予約リストに記述された曲番号に対応する楽曲データを、ＨＤＤ１４から読み出して（Ｓ１０３）、演奏を開始する（Ｓ１０４）。

本実施形態では、カラオケ装置１は、演奏処理（Ｓ１０６）、歌詞表示処理（Ｓ１０７）、音声採点処理（Ｓ１０５）、画像採点処理（Ｓ２００）を並列実行することとしている。演奏処理（Ｓ１０６）は、指定された楽曲データ中の演奏データを音声処理部１５にて演奏させる処理である。歌詞表示処理（Ｓ１０７）は、この演奏処理に同期して歌詞データを表示させる処理であり、その詳細は前述したとおりである。

また、本実施形態では、歌唱者の歌唱を評価するため、音声採点処理（Ｓ１０５）と画像採点処理（Ｓ２００）が実行される。音声採点処理（Ｓ１０５）は、既存の歌唱評価と同等であり、演奏データに含まれる歌唱音程情報と、マイクから入力される入力音声情報に基づき音声採点情報を算出する処理である。採点処理としては、歌唱音程情報と入力音声情報から抽出された音程を比較し、一致している場合には加点する加点法、あるいは、一致していない場合に減点する減点法を採用することが考えられる。この他、入力音声情報にビブラートやしゃくりなど歌唱技巧が判定された場合には、加点を行うこととしてもよい。

このような既存の音声採点処理に加え、本実施形態では、画像採点処理（Ｓ２００）を行うことで、撮像された歌唱者の歌唱者画像口唇形状−母音情報に基づいて画像採点情報が算出される。この画像採点処理では、特に、歌唱者画像情報から認識された歌唱者の口唇形状に基づいて採点を行うことで、新たな観点にて歌唱評価を行うことを可能としている。

では、この画像採点処理（Ｓ２００）について図４〜図７を用いて詳細に説明を行う。
図４は、本発明の実施形態に係る画像採点処理を示すフロー図である。画像採点処理は、演奏処理の終了が判定される（Ｓ２１４：Ｙｅｓ）まで、Ｓ２０１〜Ｓ２１２の処理を繰り返し実行することで行われる。

まず、Ｓ２０１では、マイク入力レベルが一定以上あるか、すなわち、マイクから入力される入力音声情報が有音であるか否かが判定される。マイク入力レベルが所定値以上の場合に、Ｓ２０２以降の処理を実行することで、実際に歌唱者が声を出した期間のみを画像採点情報の算出期間としている。

Ｓ２０２〜Ｓ２０６で示される期間Ａでは、画像処理部１６にて画像処理が行われる期間である。Ｓ２０２〜Ｓ２０６に付される符号（ａ）〜（ｅ）は、図５に示される画像処理の様子を示す図の符号に対応している。Ｓ２０２では、カメラ２３から入力される画像（歌唱者画像情報）について、１フレーム分（静止画）の取得が行われる。Ｓ２０３では、取得した歌唱者画像情報から顔検出が実行される。この顔検出は、画像中の顔面の位置を特定する処理であり、Ｖｉｏｌａ−Ｊｏｎｅｓ法など周知の処理方法を用いて行うことが可能である。

Ｓ２０４では、Ｓ２０３で行われた顔検出で顔面の位置と判定された領域をサンプル領域として切り出す。本実施形態では、切り出されたサンプル領域を一定のサイズに拡大／縮小することでサイズの規格化を図り、口唇の動き検出に適したサンプル領域に整形している。なお、本実施形態では、室内の適宜箇所に設けられたカメラ２３にて撮像すること
としているため、Ｓ２０３、Ｓ２０４の処理を行うこととしているが、マイクにカメラ２３を装着した構成では、歌唱している際、常に歌唱者の顔を撮影することが可能であるため、Ｓ２０３、Ｓ２０４の内、少なくともＳ２０３の顔検出を省略することも可能である。

Ｓ２０５では、Ｓ２０３で取得したサンプル領域から口唇部分の抽出が実行される。本実施形態では、サンプル領域の上半分を消去し、下半分に対し、ガウシアンフィルタなどを用い、画像内の色と輝度を平準化した上で、赤色と赤色以外で二値化し、ビットマップ画像に変換している。

Ｓ２０６では、Ｓ２０３で抽出された口唇部分を含むビットマップ画像に対し、値が１になっている部分（口唇部分）を探査し、上下左右の端部座標（Ｘ１，Ｙ１Ｘ２，Ｙ２
Ｘ３，Ｙ３Ｘ４，Ｙ４）を得る。このような処理にて、単純化された口唇部分のモデルデータが得られる。本実施形態では、このように得られた口唇部分のモデルデータについて、その面積（口唇検知面積）と、モデルデータの縦に対する横の比率（口唇検知縦横比率）を口唇形状の特徴情報として抽出している。

本実施形態では、口唇形状の特徴情報（口唇検知面積、口唇検知縦横比率）を、口唇形状と母音の関係を示す口唇形状−母音情報に基づいて、無声音、母音（ａ、ｉ、ｕ、ｅ、ｏ）に分類する（Ｓ２０７）ことで、比較の対象となる歌唱母音情報を取得している。図６には、この口唇形状−母音情報について、その特徴情報との関係が示されている。抽出された口唇形状の特徴情報を、この口唇形状−母音情報とマッチングすることで、口唇形状がどの無声音、母音に対応しているかを示す歌唱母音情報が取得される。

口唇形状−母音情報とのマッチングで得られた歌唱母音情報を、楽曲データ中の歌詞データ中の母音を示す基準母音情報（歌唱基準情報）と比較することで画像採点情報が算出される。なお、歌唱母音情報は、歌詞データの属性データに含まれる変化速度に基づいて現在歌唱すべき歌詞文字に対応する基準母音情報と比較される。

本実施形態では、この歌唱すべき歌詞の母音を示す基準母音情報を、楽曲データに含まれる歌詞データから抽出することとしている。Ｓ２０９〜Ｓ２１１はこの基準母音情報の抽出に関する処理であり、また、図７には、歌詞データから基準母音情報を生成する形態を説明するための図が示されている。このように、本実施形態では歌詞データから基準母音情報を抽出することで既存の楽曲データを変更することなく、画像採点処理を実行可能としている。このような形態に限ることなく、別途、基準母音情報を楽曲データ中に含めることとしてもよい。

Ｓ２０９では、歌詞データから該当ステップ値（演奏処理にて出力される現在の演奏位置を示すステップ値）のブロックデータが取り出される。取り出された文字は平仮名、片仮名、ローマ字などの読み文字へ変換される（Ｓ２１０）。なお、歌詞データ中に読み文字を示すルビ情報が含まれる場合には、読み文字への変換を省略することも可能である。Ｓ２１１では、変換された読み文字から、母音（ａ、ｉ、ｕ、ｅ、ｏ）を示す基準母音情報が抽出される。なお、本実施形態ではブロック単位で基準母音情報への変換を実行しているため、該当ブロックが処理済みの場合（Ｓ２０８：Ｙｅｓ）には、Ｓ２０９〜Ｓ２１１の処理はスキップされる。

Ｓ２０７で得られた歌唱母音情報と、Ｓ２１１で得られた基準母音情報を比較することで画像採点情報が算出される。本実施形態では、歌唱母音情報と基準母音情報が一致と判定された場合（Ｓ２１２：Ｙｅｓ）に加点する（Ｓ２１３）加点法を採用している。採点手法については、減点法など各種方法を採用することが可能である。また、Ｓ２１２で使
用される基準母音情報は、Ｓ２０９〜Ｓ２１１で抽出された１ブロック中に含まれる複数の基準母音情報の内、歌詞データに含まれる速度変化などを使用して現在歌唱すべき１つが使用される。

以上説明したＳ２０１〜Ｓ２１３の処理を、演奏期間中に繰り返し（例えば、歌唱者画像情報のフレーム数分（秒間に３０〜５０回））実行することで、口唇形状が歌唱すべき状態となっているかを判定する画像採点処理を行うことが可能となる。

以上、本実施形態では、口唇形状と歌唱基準情報の比較について、口唇形状から抽出された歌唱母音情報と、歌唱基準情報としての基準母音情報を使用することとするものである。口唇形状と歌唱基準情報の比較は、このような形態のみならず各種形態を採用することが考えられる。例えば、演奏情報に口唇形状の特徴情報（口唇検知面積、口唇検知縦横比率など）を含ませておき、口唇形状から抽出された特徴情報（口唇検知面積、口唇検知縦横比率など）と比較することで行うことなどが考えられる。

図３の全体フロー図に戻り、演奏処理Ｓ１０６の終了が判定された場合（Ｓ１０８：Ｙｅｓ）には、音声採点処理（Ｓ１０５）で算出された音声採点情報と、画像採点処理（Ｓ２００）で算出された画像採点情報とを統合して、楽曲に対するトータルの統合採点情報をディスプレイ２２などから報知する。なお、音声採点情報、画像採点情報は、この統合採点情報とは別途表示させることとしてもよい。

以上、本実施形態では歌唱を行う際の歌唱者の口唇形状に基づいて採点を行うことで、新たな観点による歌唱採点を行うことが可能となる。なお、本実施形態では、演奏開始から演奏終了まで、画像採点処理（Ｓ２００）と音声採点処理（Ｓ１０５）を並列実行し、Ｓ１０９にて両者を統合て報知することとしているが、画像採点処理と音声採点処理の結果を、演奏期間中に逐次、統合し、演奏終了時にトータルの採点結果を得ることとしてもよい。

画像採点処理は、以上説明したような歌うべき口唇形状となっているか判定することによるもの以外に、次のような実施形態を採用することも可能である。前述したように歌唱採点においては、ハミング（あるいは鼻歌）による歌唱にて得点を獲得可能とする場合がある。このような不正を防ぐため、本実施形態では、歌唱者画像情報から得られた口唇形状を使用してハミングによる歌唱判定を行い、採点結果に反映させることとしている。特に、本実施形態は、ハミングによる歌唱を行う際、歌唱者の口唇形状の変化が少ないことに着目したものである。

図８には、このハミングによる歌唱判定を行う画像採点処理を示すフロー図が示されている。このフロー図の一部は、図４で説明したフロー図の一部処理に対応したものとなっている。図８のＳ２２１は、図４で説明したＳ２０１の有音判定処理に、図８のＳ２２２〜Ｓ２２６（期間Ａ）は、図４で説明したＳ２０２〜Ｓ２０６（期間Ａ）の画像処理にそれぞれ対応している。これら処理については前述したものと同じであるため、ここでの説明は省略する。

Ｓ２０２〜Ｓ２０６（期間Ａ）にて、歌唱者画像信号に画像処理を施し、口唇形状の特徴情報（口唇検知面積、口唇検知縦横比率）が取得される。Ｓ２２７では、取得された口唇検知面積の前回からの変動幅を積算口唇変動値に加算する。また、Ｓ２２８では、取得された口唇検知縦横比率の前回からの変動幅を積算口唇変動値に加算する。Ｓ２２１〜Ｓ２２８の処理を演奏期間中に繰り返し実行することで、楽曲中の積算口唇変動値が算出される。Ｓ２３０では、楽曲演奏中に算出された口唇変動値が閾値以下であるか否かが判定される。閾値以下であると判定された場合には、Ｓ２３１にてハミングによる歌唱、ある
いは、鼻歌による歌唱であると判定し、画像採点情報を負の値に設定して処理を終了する。

したがって、図３の音声採点情報と画像採点情報を統合する際には、音声採点情報から画像採点情報が差し引かれることとなり、ハミングを行ったことによる減点がなされることとなり、きちんと歌詞を歌唱した歌唱者との差別化を図ることが可能となる。

本実施形態では、口唇形状の変化を検出するため、特徴情報である口唇検知面積と口唇検知縦横比の両方を使用することとしているが、どちらか一方で口唇形状の変化を検出することとしてもよい。例えば、特徴情報の処理を簡単化するのであれば、歌唱者を所定時間毎に撮影し、撮影した画像（１フレームの静止画）を順次比較し、画像処理の結果、静止画内の口唇形状が変化していなければ、ハミングと判断してもよい。あるいは、口唇形状の変化はこのような特徴情報を使用する以外の手法にて行うこととしてもよい。例えば、口唇形状が変化しなければ、顔が無表情になりやすくなることを利用し、静止画の顔の表情が変化していなければ、ハミングと判断してもよい。

また、本実施形態では、１楽曲を通じてハミングによる歌唱がなされたか否かを判定することとしているが、この判定は、楽曲中においてハミングによる歌唱を行っている区間を判定することで行うこととしてもよい。ハミングを行った区間の長さに応じて画像採点情報を算出することで、ハミングの歌唱による減点を行うことが可能となる。なお、このような形態では、演奏中にハミングを行っていると判定した場合、ディスプレイ２２あるいはスピーカから、正規の採点が行われない旨の警告を報知することも可能となる。

なお、本発明はこれらの実施形態のみに限られるものではなく、それぞれの実施形態の構成を適宜組み合わせて構成した実施形態も本発明の範疇となるものである。

１…カラオケ装置、１１…ＲＡＭ、１２…ＲＯＭ、１３…通信インタフェース、１４…ＨＤＤ、１５…音声処理部、１６…画像処理部、１７…操作パネル、２１…ディスプレイ、２２…カメラ

Claims

演奏手段と、制御手段と、を備えるカラオケ装置において、
前記演奏手段は、演奏データに基づいて演奏を可能とし、
前記制御手段は、音声採点処理と、画像採点処理を実行可能とし、
前記音声採点処理は、前記演奏データに対応する歌唱音程情報と、入力音声情報を比較して音声採点情報を算出し、
前記画像採点処理は、歌唱者撮影手段から入力される歌唱者画像情報から歌唱者の口唇形状を認識し、認識した前記口唇形状に基づいて画像採点情報を算出し、前記入力音声情報が有音と判定され、かつ、前記口唇形状が変化していないと判定されたときは、前記画像採点情報から減点することを特徴とする
カラオケ装置。
前記画像採点処理は、前記入力音声情報が有音と判定されたときに実行されることを特徴とする
請求項１に記載のカラオケ装置。
前記制御手段は、前記音声採点処理にて算出された前記音声採点情報と、前記画像採点情報にて算出された前記画像採点情報に基づいて、統合採点情報を算出する採点統合処理を実行可能とすることを特徴とする
請求項１または請求項２に記載のカラオケ装置。
前記画像採点処理は、認識した前記口唇形状と、前記演奏データに同期した歌唱基準情報を比較して、前記画像採点情報を算出することを特徴とする
請求項１から請求項３の何れか１項に記載のカラオケ装置。
前記歌唱基準情報は、前記演奏データに対応する歌詞データに基づいて生成されることを特徴とする
請求項４に記載のカラオケ装置。
前記歌唱基準情報は、母音に対応して設定されていることを特徴とする
請求項５に記載のカラオケ装置。
前記画像採点処理は、前記口唇形状の面積、もしくは、前記口唇形状の縦横比率の少なくとも一方に基づいて、前記画像採点情報を算出することを特徴とする
請求項１から請求項６の何れか１項に記載のカラオケ装置。
演奏データに基づいて演奏を行うカラオケ装置にて実行可能なカラオケ用プログラムであって、
前記演奏データに対応する歌唱音程情報と、入力音声情報を比較して音声採点情報を算出する音声採点処理と、
歌唱者撮影手段から入力される歌唱者画像情報から歌唱者の口唇形状を認識し、認識した前記口唇形状に基づいて画像採点情報を算出し、前記入力音声情報が有音と判定され、かつ、前記口唇形状が変化していないと判定されたときは、前記画像採点情報から減点する画像採点処理と、を実行可能であることを特徴とする
カラオケ用プログラム。