JP5574130B2 - カラオケ装置及びカラオケ用プログラム - Google Patents

カラオケ装置及びカラオケ用プログラム Download PDF

Info

Publication number
JP5574130B2
JP5574130B2 JP2012209180A JP2012209180A JP5574130B2 JP 5574130 B2 JP5574130 B2 JP 5574130B2 JP 2012209180 A JP2012209180 A JP 2012209180A JP 2012209180 A JP2012209180 A JP 2012209180A JP 5574130 B2 JP5574130 B2 JP 5574130B2
Authority
JP
Japan
Prior art keywords
information
scoring
image
lip shape
singing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012209180A
Other languages
English (en)
Other versions
JP2014063089A (ja
Inventor
竜次 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2012209180A priority Critical patent/JP5574130B2/ja
Publication of JP2014063089A publication Critical patent/JP2014063089A/ja
Application granted granted Critical
Publication of JP5574130B2 publication Critical patent/JP5574130B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、演奏に合わせて歌唱を楽しむカラオケ装置、及び、カラオケ用プログラムに関するものであり、特に、歌唱の採点を可能とするカラオケ装置、及び、カラオケ用プログラムに関する。
従来、演奏に合わせて歌唱を楽しむカラオケ装置が広く利用されている。このカラオケ装置には、歌唱の優劣を評価するため採点機能を備えたものがある。この採点機能では、模範的な歌唱音程と歌唱者の歌唱音程とを比較し、その一致度合いに基づいて得点が算出される。
ところで、このような採点機能を利用する際、歌詞に追従して歌えない場合等、歌詞を歌唱することなくハミングで歌唱する場合がある。従来の採点機能では、歌詞の歌唱とハミングによる歌唱を判別することができず、ハミングによる歌唱であっても歌詞の歌唱と変わりのない得点を算出してしまうといった問題がある。
このような採点機能の問題を解決するため、特許文献1には、入力音声信号の各フレームとお手本音声信号の各フレームとからピッチを検出し、時間軸上の位置を同じくするにもかかわらず入力音声信号のフレームからしかピッチを検出し得なかった区間の比率が所定の閾値を上回っているときは、ハミングによる歌唱と判定し、高評価を与えないこととする音声評価装置が開示されている。
特開2007−163976号公報
しかしながら、特許文献1に開示される音声評価装置は、入力音声信号、お手本音声信号に基づいて、ハミングによる歌唱を判定するものである。、ところが、発声の形態は人によって様々であるため、その判定精度も不安定になりがちであるという問題がある。
本発明は、このようなカラオケ装置の歌唱評価を行う採点機能において、新たな観点の歌唱評価を提供することを1つの目的とするものである。また、カラオケ装置の歌唱評価において、ハミング判定を可能とし、ハミングによる不正な歌唱を検出することを1つの目的とするものである。
そのため、本発明に係るカラオケ装置は、
演奏手段と、制御手段と、を備えるカラオケ装置において、
前記演奏手段は、演奏データに基づいて演奏を可能とし、
前記制御手段は、音声採点処理と、画像採点処理を実行可能とし、
前記音声採点処理は、前記演奏データに対応する歌唱音程情報と、入力音声情報を比較して音声採点情報を算出し、
前記画像採点処理は、歌唱者撮影手段から入力される歌唱者画像情報から歌唱者の口唇形状を認識し、認識した前記口唇形状に基づいて画像採点情報を算出し、前記入力音声情報が有音と判定され、かつ、前記口唇形状が変化していないと判定されたときは、前記画像採点情報から減点することを特徴とする。
さらに本発明に係るカラオケ装置において、
前記制御手段は、前記音声採点処理にて算出された前記音声採点情報と、前記画像採点情報にて算出された前記画像採点情報に基づいて、統合採点情報を算出する採点統合処理を実行可能とすることを特徴とする。
さらに本発明に係るカラオケ装置において、
前記画像採点処理は、認識した前記口唇形状と、前記演奏データに同期した歌唱基準情報を比較して、前記画像採点情報を算出することを特徴とする。
さらに本発明に係るカラオケ装置において、
前記歌唱基準情報は、前記演奏データに対応する歌詞データに基づいて生成されることを特徴とする。
さらに本発明に係るカラオケ装置において、
前記歌唱基準情報は、母音に対応して設定されていることを特徴とする。
さらに本発明に係るカラオケ装置において、
前記画像採点処理は、認識した前記口唇形状の変化に基づいて前記画像採点情報を算出することを特徴とする。
さらに本発明に係るカラオケ装置において、
前記画像採点処理は、前記口唇形状の面積、もしくは、前記口唇形状の縦横比率の少なくとも一方に基づいて、前記画像採点情報を算出することを特徴とする。
また本発明に係るカラオケ用プログラムは、
演奏データに基づいて演奏を行うカラオケ装置にて実行可能なカラオケ用プログラムであって、
前記演奏データに対応する歌唱音程情報と、入力音声情報を比較して音声採点情報を算出する音声採点処理と、
歌唱者撮影手段から入力される歌唱者画像情報から歌唱者の口唇形状を認識し、認識した前記口唇形状に基づいて画像採点情報を算出し、前記入力音声情報が有音と判定され、かつ、前記口唇形状が変化していないと判定されたときは、前記画像採点情報から減点する画像採点処理と、を実行可能であることを特徴とする。
本発明のカラオケ装置によれば、撮影された歌唱者画像情報から歌唱者の口唇形状を認識し、認識した口唇形状に基づいて画像採点情報を算出する画像採点処理を実行することで、従来の歌唱音声のみによる採点とは異なる観点にて歌唱評価を行うことが可能となる。
さらに本発明のカラオケ装置では、入力音声情報が有音であるときに、画像採点処理を実行することで、実際に歌唱者が声を出した期間を、画像採点情報の算出期間とすること
が可能となる。
さらに本発明のカラオケ装置では、算出された画像採点情報を、音声採点処理にて算出された音声採点情報と統合することで、歌唱時の口の形の適切さを含んだ統合採点情報を算出することが可能となる。
さらに本発明のカラオケ装置では、認識した口唇形状を、演奏データに同期した歌唱基準情報に対応する口唇情報と比較することで、演奏時、歌唱者の口の形が適切であったか否かを判定することが可能となる。
さらに本発明のカラオケ装置では、歌唱基準情報が歌詞データに基づいて生成されることとしているため、歌唱基準情報を新たに用意する必要が無く、既存の楽曲データを使用することが可能となる。
さらに本発明のカラオケ装置では、口唇情報が母音に対応して設定されることとしており、画像採点処理における口唇形状と口唇情報の比較において、適切な口の形となっているかという判定精度を大きく悪化させることなく、処理の簡略化を図ることが可能となっている。
さらに本発明のカラオケ装置では、口唇形状が変化していないと判定したときハミング歌唱していると判定し、ハミング歌唱による減点を行うことを可能としている。
さらに本発明のカラオケ装置では、口唇形状の面積、もしくは、口唇形状の縦横比の少なくとも一方に基づいて画像採点情報を算出することで、適切な口の形となっているかという判定精度を大きく悪化させることなく、処理の簡略化を図ることが可能となっている。
さらに本発明のカラオケ用プログラムは、カラオケ装置に対してインストールすることで、歌唱者の口唇形状による採点を可能とし、従来の歌唱音声のみによる採点とは異なる観点にて歌唱を採点することが可能となる。
本発明の実施形態に係るカラオケシステムを示す図 本発明の実施形態に係る楽曲データ構成を示す図 本発明の実施形態に係るカラオケ装置の全体処理を示すフロー図 本発明の実施形態に係る口唇画像採点処理を示すフロー図 本発明の実施形態に係る画像処理の様子を説明するための図 本発明の実施形態に係る口唇形状−母音情報を説明するための図 本発明の実施形態に係る歌詞データから歌唱基準情報を生成する形態を説明するための図 本発明の他の実施形態に係る口唇画像採点処理を示すフロー図
図1は、本発明の実施形態に係るカラオケ装置の構成を示す図である。本実施形態のカラオケ装置1(「コマンダ」ともいう)は、CPU10、RAM11、ROM12などで構成される制御手段を中心として、HDD(ハードディスク)14、音声処理部15、画像処理部16、操作パネル17、通信インタフェイス13などを備えて構成されている。
制御手段を構成するCPU10、RAM11、ROM12は、コンピューターにおいて一般的に使用される構成であって、CPU10は、プログラムの実行などに基づく各種制
御を、RAM11、ROM12、ハードディスク14などに記憶する各種プログラム、各種データに基づいて行う。
カラオケ装置1における音声処理部15は、主として図2に示す楽曲データに含まれる演奏データに基づく演奏処理を実行する手段である。演奏データはMIDI規格に基づいて作成されたデータの他、コーラスなどを担当する音声データなどを含んで構成されている。音声処理部15では、ユーザーが指定した楽曲に対応する演奏データに基づいて演奏処理を実行することで、所望の楽曲の演奏を行う。また、オーディオ入力端子に接続されたマイクから入力された入力音声情報と、演奏データに基づく演奏音をミキシングしてアンプに出力し、アンプに接続されているスピーカーから放音する。なお、マイクから入力される入力音声情報に対しては、エコーなどの音響効果を付加することも可能としている。
画像処理部16は、歌詞表示処理、並びに、背景映像表示処理など、ディスプレイ21を介してユーザーに視覚的情報を提供する処理を実行する。歌詞表示処理は、前述した楽曲データに含まれる歌詞データに基づいて歌詞をディスプレイ21に表示させる処理であって、演奏処理に同期して実行される。ディスプレイ21に表示された歌詞は、楽曲の演奏の進行に同期して歌唱すべき箇所が色替え表示され、歌唱者に歌唱箇所を教示する。
また、背景映像表示処理は、演奏される楽曲の対応した各種映像を表示することで、歌唱の雰囲気を盛り上げる処理である。そのため、記憶手段としてのハードディスク14には、MPEG形式などによる圧縮が施された背景映像情報が記憶されており、画像処理部16では、この背景映像情報をデコードすることでディスプレイ21に映像を表示する。さらに、本実施形態では、画像処理部16において、ビデオ入力端子を介してカメラ22で撮像された撮像情報を取り込むことを可能としている。
通信インタフェイス13は、ネットワーク接続端子を介してインターネットに接続され、図示しないホスト装置から、新しくリリースされた楽曲データや、背景映像情報、プログラムなどを受信するとともに、ホスト装置に対して利用履歴などを送信する。近年では、ユーザーの利用履歴、登録楽曲などを含んだユーザー情報をホスト装置で管理し、当該ユーザーの利用時に受信することで、各個ユーザーに即したサービスを提供することも可能である。
カラオケ装置1に対して行われる楽曲指定(予約)など、ユーザーからの各種指示は、操作パネル10から行うことも可能であるが、通常、店舗内のネットワークに接続されたリモコン装置(図示せず)から行われる。リモコン装置は、タッチパネルなどのインタフェイスを備えており、ユーザーに各種情報を表示提供するとともに、タッチ指示による入力受付を行うことが可能となっている。
記憶手段として機能するハードディスク14には、楽曲を演奏するための楽曲データを含んだ、図2に示すデータベース(楽曲DB)の他、ディスプレイ21に背景を表示するための背景映像情報、そして、カラオケ装置において各種処理を実行するためのプログラムを記憶している。また、前述したホスト装置から各種データを受信することで、記憶しているデータベースの追加、更新が実行される。本実施形態で説明する口唇画像採点処理についても、プログラムとして受信させることで既存のカラオケ装置1に機能追加することが可能である。
では、本発明の実施形態に係るカラオケ装置の処理について説明する。図2は、本発明の実施形態に係る楽曲データのデータ構成を示す図である。本実施形態の楽曲データは、既存のものを利用することとしている。すなわち、楽曲データに対して何ら加工、改変を
行うことなく、撮像された歌唱者画像情報に基づいて画像採点処理を行うことが可能となっている。
図2に示されるように楽曲データは、楽曲データの各種属性を示すメタデータ、演奏のために使用される演奏データ、歌詞表示のために使用される歌詞データを含んで構成されている。本実施形態では、メタデータとして曲名、作曲者名、曲番号(楽曲識別情報)、ジャンル、個別素材画像の有無などを含んで構成されている。曲名、作曲者名、曲番号、ジャンルは、楽曲を検索、指定するための情報として用いられる。個別素材画像は、背景映像として当該楽曲に特化したものを有しているか否かを示す情報であって、有りの場合には、アーティストのライブ映像など当該楽曲に特化した映像が使用可能である。
本実施形態の演奏データは、MIDI規格に即して作成されたMIDIデータとされているが、演奏データには、この他、バックコーラスなどの音声データを含ませることとも考えられる。あるいは、演奏データを音声データで構成することも可能である。MIDIデータの場合には、演奏手段としてのMIDI音源に演奏させることで楽音が奏でられる。
歌詞データ(テロップデータ)は、演奏データによる演奏に同期してディスプレイ12に歌詞を表示させるためのデータである。本実施形態では、1つのタイミングで1度に表示させるブロックデータを単位として構成されている。演奏データの演奏に同期して出力されるステップ値に基づいて、指定されたブロックデータを読み出し、表示制御することで、演奏に同期した歌詞表示が実行されることとなる。
各ブロックデータは、表示データ、属性データを含んで構成されている。表示データは、表示させるべき歌詞の文字列(歌詞文字情報)、及び、当該文字列の位置決めのための座標、表示する歌詞の色を指定する変化前色コード、演奏に同期して変更される歌詞の色を指定する変化後色コードを含んで構成されている。なお、1画面内に複数同時にブロックデータを表示させることが可能であって、歌唱終了した箇所のブロックデータの歌詞を消去し、新たなブロックデータの歌詞を表示させることで、スムースな歌唱を行うことが可能である。
属性データは、表示データによって形成される歌詞文字列の表示、消去、色替えタイミングなどを決めるための情報を含んだデータ群である。これらタイミングを決めるため、本実施形態では、演奏データの進行に同期して出力されるステップ値(MIDIステップ値)に対応づけられている。表示ステップ、消去ステップは、歌詞文字列の表示タイミング、消去タイミングを示すステップ値である。また、変化ステップは、歌詞文字列を色替えの色替えについて規定した情報であって、本実施形態では文字列の色替え速度を示す変化速度を含んで構成されている。
本実施形態の歌詞表示処理は、楽曲データ中の歌詞データに基づいて実行されると共に、同楽曲データ中の演奏データに同期して実行される。具体的には、演奏データの再生に従って出力されるステップ値(MIDIステップ値)に対応する、歌詞データ中の各種情報に基づいてディスプレイ12に歌詞文字列が表示される。
この歌詞表示処理は、ブロックデータ(B01〜Bnn)を1つの処理単位として実行される。このブロックデータの属性データ中に含まれる表示ステップ、色替えを行う変化速度を指定する変化ステップ、消去ステップのそれぞれのタイミングで、表示データに基づく歌詞文字列が表示色替え、消去が、楽曲演奏の進行に追従して実行される。
では、本実施形態の口唇画像採点処理を含むカラオケ装置の処理について図を用いて説
明する。図3は、本発明の実施形態に係るカラオケ装置の全体処理を示すフロー図である。カラオケ装置が稼働開始されると、操作パネル17から、選曲のための曲番号(楽曲識別情報)を受け付ける(S101)。受け付けた曲番号は、カラオケ装置1のRAM11に記憶する予約リストに記述される。CPU10は、予約リストに記述された曲番号に対応する楽曲データを、HDD14から読み出して(S103)、演奏を開始する(S104)。
本実施形態では、カラオケ装置1は、演奏処理(S106)、歌詞表示処理(S107)、音声採点処理(S105)、画像採点処理(S200)を並列実行することとしている。演奏処理(S106)は、指定された楽曲データ中の演奏データを音声処理部15にて演奏させる処理である。歌詞表示処理(S107)は、この演奏処理に同期して歌詞データを表示させる処理であり、その詳細は前述したとおりである。
また、本実施形態では、歌唱者の歌唱を評価するため、音声採点処理(S105)と画像採点処理(S200)が実行される。音声採点処理(S105)は、既存の歌唱評価と同等であり、演奏データに含まれる歌唱音程情報と、マイクから入力される入力音声情報に基づき音声採点情報を算出する処理である。採点処理としては、歌唱音程情報と入力音声情報から抽出された音程を比較し、一致している場合には加点する加点法、あるいは、一致していない場合に減点する減点法を採用することが考えられる。この他、入力音声情報にビブラートやしゃくりなど歌唱技巧が判定された場合には、加点を行うこととしてもよい。
このような既存の音声採点処理に加え、本実施形態では、画像採点処理(S200)を行うことで、撮像された歌唱者の歌唱者画像口唇形状−母音情報に基づいて画像採点情報が算出される。この画像採点処理では、特に、歌唱者画像情報から認識された歌唱者の口唇形状に基づいて採点を行うことで、新たな観点にて歌唱評価を行うことを可能としている。
では、この画像採点処理(S200)について図4〜図7を用いて詳細に説明を行う。
図4は、本発明の実施形態に係る画像採点処理を示すフロー図である。画像採点処理は、演奏処理の終了が判定される(S214:Yes)まで、S201〜S212の処理を繰り返し実行することで行われる。
まず、S201では、マイク入力レベルが一定以上あるか、すなわち、マイクから入力される入力音声情報が有音であるか否かが判定される。マイク入力レベルが所定値以上の場合に、S202以降の処理を実行することで、実際に歌唱者が声を出した期間のみを画像採点情報の算出期間としている。
S202〜S206で示される期間Aでは、画像処理部16にて画像処理が行われる期間である。S202〜S206に付される符号(a)〜(e)は、図5に示される画像処理の様子を示す図の符号に対応している。S202では、カメラ23から入力される画像(歌唱者画像情報)について、1フレーム分(静止画)の取得が行われる。S203では、取得した歌唱者画像情報から顔検出が実行される。この顔検出は、画像中の顔面の位置を特定する処理であり、Viola−Jones法など周知の処理方法を用いて行うことが可能である。
S204では、S203で行われた顔検出で顔面の位置と判定された領域をサンプル領域として切り出す。本実施形態では、切り出されたサンプル領域を一定のサイズに拡大/縮小することでサイズの規格化を図り、口唇の動き検出に適したサンプル領域に整形している。なお、本実施形態では、室内の適宜箇所に設けられたカメラ23にて撮像すること
としているため、S203、S204の処理を行うこととしているが、マイクにカメラ23を装着した構成では、歌唱している際、常に歌唱者の顔を撮影することが可能であるため、S203、S204の内、少なくともS203の顔検出を省略することも可能である。
S205では、S203で取得したサンプル領域から口唇部分の抽出が実行される。本実施形態では、サンプル領域の上半分を消去し、下半分に対し、ガウシアンフィルタなどを用い、画像内の色と輝度を平準化した上で、赤色と赤色以外で二値化し、ビットマップ画像に変換している。
S206では、S203で抽出された口唇部分を含むビットマップ画像に対し、値が1になっている部分(口唇部分)を探査し、上下左右の端部座標(X1,Y1 X2,Y2
X3,Y3 X4,Y4)を得る。このような処理にて、単純化された口唇部分のモデルデータが得られる。本実施形態では、このように得られた口唇部分のモデルデータについて、その面積(口唇検知面積)と、モデルデータの縦に対する横の比率(口唇検知縦横比率)を口唇形状の特徴情報として抽出している。
本実施形態では、口唇形状の特徴情報(口唇検知面積、口唇検知縦横比率)を、口唇形状と母音の関係を示す口唇形状−母音情報に基づいて、無声音、母音(a、i、u、e、o)に分類する(S207)ことで、比較の対象となる歌唱母音情報を取得している。図6には、この口唇形状−母音情報について、その特徴情報との関係が示されている。抽出された口唇形状の特徴情報を、この口唇形状−母音情報とマッチングすることで、口唇形状がどの無声音、母音に対応しているかを示す歌唱母音情報が取得される。
口唇形状−母音情報とのマッチングで得られた歌唱母音情報を、楽曲データ中の歌詞データ中の母音を示す基準母音情報(歌唱基準情報)と比較することで画像採点情報が算出される。なお、歌唱母音情報は、歌詞データの属性データに含まれる変化速度に基づいて現在歌唱すべき歌詞文字に対応する基準母音情報と比較される。
本実施形態では、この歌唱すべき歌詞の母音を示す基準母音情報を、楽曲データに含まれる歌詞データから抽出することとしている。S209〜S211はこの基準母音情報の抽出に関する処理であり、また、図7には、歌詞データから基準母音情報を生成する形態を説明するための図が示されている。このように、本実施形態では歌詞データから基準母音情報を抽出することで既存の楽曲データを変更することなく、画像採点処理を実行可能としている。このような形態に限ることなく、別途、基準母音情報を楽曲データ中に含めることとしてもよい。
S209では、歌詞データから該当ステップ値(演奏処理にて出力される現在の演奏位置を示すステップ値)のブロックデータが取り出される。取り出された文字は平仮名、片仮名、ローマ字などの読み文字へ変換される(S210)。なお、歌詞データ中に読み文字を示すルビ情報が含まれる場合には、読み文字への変換を省略することも可能である。S211では、変換された読み文字から、母音(a、i、u、e、o)を示す基準母音情報が抽出される。なお、本実施形態ではブロック単位で基準母音情報への変換を実行しているため、該当ブロックが処理済みの場合(S208:Yes)には、S209〜S211の処理はスキップされる。
S207で得られた歌唱母音情報と、S211で得られた基準母音情報を比較することで画像採点情報が算出される。本実施形態では、歌唱母音情報と基準母音情報が一致と判定された場合(S212:Yes)に加点する(S213)加点法を採用している。採点手法については、減点法など各種方法を採用することが可能である。また、S212で使
用される基準母音情報は、S209〜S211で抽出された1ブロック中に含まれる複数の基準母音情報の内、歌詞データに含まれる速度変化などを使用して現在歌唱すべき1つが使用される。
以上説明したS201〜S213の処理を、演奏期間中に繰り返し(例えば、歌唱者画像情報のフレーム数分(秒間に30〜50回))実行することで、口唇形状が歌唱すべき状態となっているかを判定する画像採点処理を行うことが可能となる。
以上、本実施形態では、口唇形状と歌唱基準情報の比較について、口唇形状から抽出された歌唱母音情報と、歌唱基準情報としての基準母音情報を使用することとするものである。口唇形状と歌唱基準情報の比較は、このような形態のみならず各種形態を採用することが考えられる。例えば、演奏情報に口唇形状の特徴情報(口唇検知面積、口唇検知縦横比率など)を含ませておき、口唇形状から抽出された特徴情報(口唇検知面積、口唇検知縦横比率など)と比較することで行うことなどが考えられる。
図3の全体フロー図に戻り、演奏処理S106の終了が判定された場合(S108:Yes)には、音声採点処理(S105)で算出された音声採点情報と、画像採点処理(S200)で算出された画像採点情報とを統合して、楽曲に対するトータルの統合採点情報をディスプレイ22などから報知する。なお、音声採点情報、画像採点情報は、この統合採点情報とは別途表示させることとしてもよい。
以上、本実施形態では歌唱を行う際の歌唱者の口唇形状に基づいて採点を行うことで、新たな観点による歌唱採点を行うことが可能となる。なお、本実施形態では、演奏開始から演奏終了まで、画像採点処理(S200)と音声採点処理(S105)を並列実行し、S109にて両者を統合て報知することとしているが、画像採点処理と音声採点処理の結果を、演奏期間中に逐次、統合し、演奏終了時にトータルの採点結果を得ることとしてもよい。
画像採点処理は、以上説明したような歌うべき口唇形状となっているか判定することによるもの以外に、次のような実施形態を採用することも可能である。前述したように歌唱採点においては、ハミング(あるいは鼻歌)による歌唱にて得点を獲得可能とする場合がある。このような不正を防ぐため、本実施形態では、歌唱者画像情報から得られた口唇形状を使用してハミングによる歌唱判定を行い、採点結果に反映させることとしている。特に、本実施形態は、ハミングによる歌唱を行う際、歌唱者の口唇形状の変化が少ないことに着目したものである。
図8には、このハミングによる歌唱判定を行う画像採点処理を示すフロー図が示されている。このフロー図の一部は、図4で説明したフロー図の一部処理に対応したものとなっている。図8のS221は、図4で説明したS201の有音判定処理に、図8のS222〜S226(期間A)は、図4で説明したS202〜S206(期間A)の画像処理にそれぞれ対応している。これら処理については前述したものと同じであるため、ここでの説明は省略する。
S202〜S206(期間A)にて、歌唱者画像信号に画像処理を施し、口唇形状の特徴情報(口唇検知面積、口唇検知縦横比率)が取得される。S227では、取得された口唇検知面積の前回からの変動幅を積算口唇変動値に加算する。また、S228では、取得された口唇検知縦横比率の前回からの変動幅を積算口唇変動値に加算する。S221〜S228の処理を演奏期間中に繰り返し実行することで、楽曲中の積算口唇変動値が算出される。S230では、楽曲演奏中に算出された口唇変動値が閾値以下であるか否かが判定される。閾値以下であると判定された場合には、S231にてハミングによる歌唱、ある
いは、鼻歌による歌唱であると判定し、画像採点情報を負の値に設定して処理を終了する。
したがって、図3の音声採点情報と画像採点情報を統合する際には、音声採点情報から画像採点情報が差し引かれることとなり、ハミングを行ったことによる減点がなされることとなり、きちんと歌詞を歌唱した歌唱者との差別化を図ることが可能となる。
本実施形態では、口唇形状の変化を検出するため、特徴情報である口唇検知面積と口唇検知縦横比の両方を使用することとしているが、どちらか一方で口唇形状の変化を検出することとしてもよい。例えば、特徴情報の処理を簡単化するのであれば、歌唱者を所定時間毎に撮影し、撮影した画像(1フレームの静止画)を順次比較し、画像処理の結果、静止画内の口唇形状が変化していなければ、ハミングと判断してもよい。あるいは、口唇形状の変化はこのような特徴情報を使用する以外の手法にて行うこととしてもよい。例えば、口唇形状が変化しなければ、顔が無表情になりやすくなることを利用し、静止画の顔の表情が変化していなければ、ハミングと判断してもよい。
また、本実施形態では、1楽曲を通じてハミングによる歌唱がなされたか否かを判定することとしているが、この判定は、楽曲中においてハミングによる歌唱を行っている区間を判定することで行うこととしてもよい。ハミングを行った区間の長さに応じて画像採点情報を算出することで、ハミングの歌唱による減点を行うことが可能となる。なお、このような形態では、演奏中にハミングを行っていると判定した場合、ディスプレイ22あるいはスピーカから、正規の採点が行われない旨の警告を報知することも可能となる。
なお、本発明はこれらの実施形態のみに限られるものではなく、それぞれの実施形態の構成を適宜組み合わせて構成した実施形態も本発明の範疇となるものである。
1…カラオケ装置、11…RAM、12…ROM、13…通信インタフェース、14…HDD、15…音声処理部、16…画像処理部、17…操作パネル、21…ディスプレイ、22…カメラ

Claims (8)

  1. 演奏手段と、制御手段と、を備えるカラオケ装置において、
    前記演奏手段は、演奏データに基づいて演奏を可能とし、
    前記制御手段は、音声採点処理と、画像採点処理を実行可能とし、
    前記音声採点処理は、前記演奏データに対応する歌唱音程情報と、入力音声情報を比較して音声採点情報を算出し、
    前記画像採点処理は、歌唱者撮影手段から入力される歌唱者画像情報から歌唱者の口唇形状を認識し、認識した前記口唇形状に基づいて画像採点情報を算出し、前記入力音声情報が有音と判定され、かつ、前記口唇形状が変化していないと判定されたときは、前記画像採点情報から減点することを特徴とする
    カラオケ装置。
  2. 前記画像採点処理は、前記入力音声情報が有音と判定されたときに実行されることを特徴とする
    請求項1に記載のカラオケ装置。
  3. 前記制御手段は、前記音声採点処理にて算出された前記音声採点情報と、前記画像採点情報にて算出された前記画像採点情報に基づいて、統合採点情報を算出する採点統合処理を実行可能とすることを特徴とする
    請求項1または請求項2に記載のカラオケ装置。
  4. 前記画像採点処理は、認識した前記口唇形状と、前記演奏データに同期した歌唱基準情報を比較して、前記画像採点情報を算出することを特徴とする
    請求項1から請求項3の何れか1項に記載のカラオケ装置。
  5. 前記歌唱基準情報は、前記演奏データに対応する歌詞データに基づいて生成されることを特徴とする
    請求項4に記載のカラオケ装置。
  6. 前記歌唱基準情報は、母音に対応して設定されていることを特徴とする
    請求項5に記載のカラオケ装置。
  7. 前記画像採点処理は、前記口唇形状の面積、もしくは、前記口唇形状の縦横比率の少なくとも一方に基づいて、前記画像採点情報を算出することを特徴とする
    請求項1から請求項の何れか1項に記載のカラオケ装置。
  8. 演奏データに基づいて演奏を行うカラオケ装置にて実行可能なカラオケ用プログラムであって、
    前記演奏データに対応する歌唱音程情報と、入力音声情報を比較して音声採点情報を算出する音声採点処理と、
    歌唱者撮影手段から入力される歌唱者画像情報から歌唱者の口唇形状を認識し、認識した前記口唇形状に基づいて画像採点情報を算出し、前記入力音声情報が有音と判定され、かつ、前記口唇形状が変化していないと判定されたときは、前記画像採点情報から減点する画像採点処理と、を実行可能であることを特徴とする
    カラオケ用プログラム。
JP2012209180A 2012-09-24 2012-09-24 カラオケ装置及びカラオケ用プログラム Active JP5574130B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012209180A JP5574130B2 (ja) 2012-09-24 2012-09-24 カラオケ装置及びカラオケ用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012209180A JP5574130B2 (ja) 2012-09-24 2012-09-24 カラオケ装置及びカラオケ用プログラム

Publications (2)

Publication Number Publication Date
JP2014063089A JP2014063089A (ja) 2014-04-10
JP5574130B2 true JP5574130B2 (ja) 2014-08-20

Family

ID=50618371

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012209180A Active JP5574130B2 (ja) 2012-09-24 2012-09-24 カラオケ装置及びカラオケ用プログラム

Country Status (1)

Country Link
JP (1) JP5574130B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6436770B2 (ja) * 2014-12-26 2018-12-12 株式会社第一興商 カラオケ装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4134921B2 (ja) * 2004-02-27 2008-08-20 ヤマハ株式会社 カラオケ装置
JP4487909B2 (ja) * 2005-11-21 2010-06-23 カシオ計算機株式会社 音声制御装置および音声制御方法

Also Published As

Publication number Publication date
JP2014063089A (ja) 2014-04-10

Similar Documents

Publication Publication Date Title
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
JP4655047B2 (ja) 音声評価装置及びカラオケ装置
US9355634B2 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
JP2008026622A (ja) 評価装置
CN107103915A (zh) 一种音频数据处理方法以及装置
JP2007256617A (ja) 楽曲練習装置および楽曲練習システム
JP2008139426A (ja) 評価用データのデータ構造、カラオケ装置及び記録媒体
JP5574130B2 (ja) カラオケ装置及びカラオケ用プログラム
US10332496B2 (en) Reference display device, reference display method, and program
JP5387642B2 (ja) 歌詞テロップ表示装置及びプログラム
JP2001337675A (ja) 演奏支援装置および演奏支援方法
CN111276113B (zh) 基于音频生成按键时间数据的方法和装置
JP2005249844A (ja) 演奏指示装置および演奏指示プログラム
JP5637169B2 (ja) カラオケ装置及びプログラム
JP2009014923A (ja) 演奏クロック生成装置、データ再生装置、演奏クロック生成方法、データ再生方法およびプログラム
JP2006106334A (ja) 歌詞表示方法および装置
JP6838357B2 (ja) 音響解析方法および音響解析装置
JP2007225916A (ja) オーサリング装置、オーサリング方法およびプログラム
JP5184234B2 (ja) データ生成装置及びデータ生成プログラム、並びに、再生装置
JP2005242230A (ja) カラオケ装置
JP2008003485A (ja) カラオケ装置
JP6217929B2 (ja) カラオケ装置及びカラオケプログラム
JP2005107335A (ja) カラオケ装置
JP2007233078A (ja) 評価装置、制御方法及びプログラム
JP2019028251A (ja) カラオケ装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140326

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140617

R150 Certificate of patent or registration of utility model

Ref document number: 5574130

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150